CN112148453A

CN112148453A - 用于隐私计算的计算芯片及网络计算系统

Info

Publication number: CN112148453A
Application number: CN202011047430.0A
Authority: CN
Inventors: 王玮; 胡水海
Original assignee: Shenzhen Zhixing Technology Co Ltd
Current assignee: Shenzhen Zhixing Technology Co Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2020-12-29

Abstract

本说明书实施例提供一种CNU芯片。该CNU芯片包括本地通讯模块，远程通讯模块和计算模块。本地通讯模块被配置为与本地主处理器进行本地数据通信。远程通讯模块被配置为与远端设备进行网络数据通信。计算模块被配置为通过控制本地通讯模块和远程通讯模块的数据通信来执行本地主处理器下发的计算任务。利用该CNU芯片，可以计算和网络通信能力的高效融合。

Description

用于隐私计算的计算芯片及网络计算系统

技术领域

本说明书实施例通常涉及计算芯片设计领域，尤其涉及适用于隐私计算且融合计算和网络通信能力的计算芯片及网络计算系统。

背景技术

在以数据中心为代表的高密度计算集群中，应用呈现多元化和分布化趋势，计算集群中的各个计算模块之间通过网络可通信地连接，由此利用网络通信来将各个计算模块结合起来执行数据计算任务。

计算与网络结合来实现数据计算，正在逐渐成为计算发展的趋势。与计算机相关的硬件和软件与网络的结合越来越紧密，比如，运行虚拟机的通用CPU被越来越多地应用于各类网络功能。此外，NIC(智能网卡)之类的网络设备也正在变得可编程，以允许在网络中完成各类通用计算。

发明内容

鉴于上述，本说明书的实施例提供一种适用于隐私计算并且融合计算和网络通信能力的计算芯片及计算系统。利用该计算芯片，可以实现计算和网络通信能力的高效融合。

根据本说明书的实施例的一个方面，提供一种计算芯片，包括：本地通讯模块，被配置为与本地主处理器进行本地数据通信；远程通讯模块，被配置为与远端设备进行网络数据通信；以及计算模块，被配置为通过控制所述本地通讯模块和远程通讯模块的数据通信来执行所述本地主处理器下发的计算任务。

可选地，在上述方面的一个示例中，所述计算芯片还包括：高带宽缓存，所述高带宽缓存与所述本地通讯模块、所述计算模块和所述远程通讯模块耦接，被配置为缓存所述本地通讯模块、所述计算模块和所述远程通讯模块的数据，并且实现所述本地通讯模块、所述计算模块和所述远程通讯模块之间的数据访问。

可选地，在上述方面的一个示例中，所述本地通讯模块具备DMA能力。

可选地，在上述方面的一个示例中，所述远程通讯模块具备RDMA能力。

可选地，在上述方面的一个示例中，所述高带宽缓存包括布置在所述本地通讯模块、所述计算模块和所述远程通讯模块两侧的两个高带宽缓存。

可选地，在上述方面的一个示例中，所述两个高带宽缓存被实现为按照单流向模式或双流向模式执行所述本地通讯模块、所述计算模块和所述远程通讯模块之间的数据访问。

可选地，在上述方面的一个示例中，所述计算模块被配置为：解析所述本地主处理器下发的计算任务；根据计算任务解析结果，确定所述计算任务的数据处理模式；根据所确定的数据处理模式来启用所述本地通讯模块或所述远程通讯模块获取处理数据；使用所获取的处理数据来执行计算任务；以及根据所确定的数据处理模式来启用所述本地通讯模块或所述远程通讯模块发送计算任务处理结果。

可选地，在上述方面的一个示例中，所述高带宽缓存采用流水线机制来实现所述本地通讯模块、所述计算模块和所述远程通讯模块之间的数据访问。

根据本说明书的实施例的另一方面，提供一种计算节点，包括：至少一个本地主处理器；以及至少一个计算芯片组，每个计算芯片组对应一个本地主处理器，并且包括至少一个如上所述的计算芯片。

可选地，在上述方面的一个示例中，在计算芯片组包括至少两个计算芯片时，所述计算节点还包括：PCIE交换芯片，被配置为将所述计算芯片组中的多个计算芯片与对应的本地主处理器可通信地连接。

可选地，在上述方面的一个示例中，在本地主处理器包括至少两个本地主处理器时，所述至少两个本地主处理器通过本地接口连接。

根据本说明书的实施例的另一方面，提供一种网络计算系统，包括：多个计算节点，每个计算节点包括至少一个本地主处理器以及至少一个计算芯片组，每个计算芯片组对应一个本地主处理器，并且包括至少一个如上所述的计算芯片，其中，每个计算节点的计算芯片与一个或多个其它计算节点的计算芯片可通信地连接。

可选地，在上述方面的一个示例中，所述网络计算系统还包括多个网络交换机，每个计算节点的计算芯片与一个或多个其它计算节点的计算芯片经由网络交换机可通信地连接。

附图说明

通过参照下面的附图，可以实现对于本说明书内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。

图1示出了高密度计算集群中的计算节点的示例方框图。

图2示出了根据本说明书的实施例的计算芯片的示例示意图。

图3示出了根据本说明书的实施例的计算任务处理过程的流程图。

图4A-4B示出了根据本说明书的实施例的高带宽缓存的数据处理流向的一个示例的示意图。

图5示出了根据本说明书的实施例的高带宽缓存的数据处理流向的另一示例的示意图。

图6示出了根据本说明书的实施例的计算芯片与本地主处理器和下游网络之间的连接的示例示意图。

图7示出了根据本说明书的实施例的计算节点的示例方框图。

图8示出了根据本说明书的实施例的计算系统的拓扑结构示意图。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。例如，所描述的方法可以按照与所描述的顺序不同的顺序来执行，以及各个步骤可以被添加、省略或者组合。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

图1示出了高密度计算集群中的计算节点的示例方框图。

如图1所示，计算节点1包括CPU。该CPU支持4个PCIE设备，例如，4个用于AI的训练计算的GPU卡。计算节点1通过统一网络接口(例如，智能网卡NIC)与比如计算节点2的远端设备进行数据通信。所述远端设备可以包括更多的计算节点，由此各个计算节点一起组成高密度计算集群。

在该高密度计算集群中，计算节点1中的4个GPU卡竞争统一网络接口的网络资源来与外部通信，从而导致网络传输压力很大，造成网络拥塞，传输性能和效率下降。

鉴于上述，本说明书的实施例提供了一种融合计算和网络通信能力的计算芯片(CNU芯片)。该计算芯片具有独立的本地通讯模块和远程通讯模块，本地通讯模块实现与计算节点的本地主处理器的数据通信，用于获取计算任务命令以及计算任务所需的本地处理数据，远程通讯模块实现与远端设备的数据通信，用于获取计算任务所需的远端处理数据，并且本地通讯模块和远程通讯模块的启用由用于执行计算任务的计算模块来控制，由此实现计算芯片之间的计算和网络资源独立，最大化网络和计算带宽。

在本说明书的实施例中，计算节点可以包括任何具有计算能力的计算设备。计算节点的示例可以包括但不限于：个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴计算设备、消费电子设备等等。

图2示出了根据本说明书的实施例的计算芯片200的示例示意图。

如图2所示，计算芯片200包括本地通讯模块210、计算模块220和远程通讯模块230。在本说明书中，计算芯片也可以称为CNU芯片。

本地通讯模块210被配置为与本地主处理器进行本地数据通信。例如，本地通讯模块210可以与本地主处理器(比如，CPU)进行数据通讯，由此从本地主处理器接收计算任务(例如，计算任务命令)，接收计算所需本地数据，向本地主处理器返回计算任务处理结果等中的至少一项。可选地，在一个示例中，本地通讯模块210可以具备DMA能力。所采用的DMA方式可以是高效DMA且支持双向DMA。即，支持本地主处理器直接访问计算芯片的存储器，也可以支持计算芯片直接访问本地主处理器的存储器。

远程通讯模块230被配置为与远端设备进行网络数据通信。远端设备例如可以是计算集群中的另一计算节点或者其它网络设备。远程通讯模块230可以经由网络来与远端设备进行数据通讯，由此从远端设备获取计算任务处理所需的远端处理数据，或者将计算任务处理结果提供给远端设备，由远端设备进一步处理。

计算模块220被配置为通过控制本地通讯模块210和远程通讯模块230的数据通信来执行本地主处理器下发的计算任务。具体地，计算模块220需要解析本地主处理器下发的计算任务或计算命令，由此获悉计算任务所需的计算操作处理、计算操作处理的数据处理模式以及所需处理数据的数据源信息。随后，计算模块220根据所得到的数据处理模式来控制本地通讯模块210或远程通讯模块230启用数据传输来获取计算任务所需的处理数据。然后，计算模块220使用所获取的处理数据来进行计算处理，并根据数据处理模式来将计算任务处理结果发送给本地主处理器或者远端设备。

如图3所示，在计算芯片经由本地通讯模块从CPU接收到计算任务后，在310，解析本地主处理器下发的计算任务。随后，在320，根据计算任务解析结果，确定计算任务的数据处理模式。

在本说明书的实施例中，计算任务的数据处理模式可以包括本地数据处理模式和网络数据处理模式。在本地数据处理模式中，处理数据的数据流向为：本地通讯模块->计算模块->远程通讯模块。在网络数据处理模式中，处理数据的数据流向为远程通讯模块->计算模块->本地通讯模块。

在330，根据所确定的数据处理模式来启用本地通讯模块或远程通讯模块获取处理数据。具体地，在所确定的数据处理模式是本地数据处理模式时，启用本地通讯模块的数据传输来从本地主处理器的存储器获取本地处理数据。例如，可以使用PCIE DMA方式来获取本地处理数据。此外，可选地，还可以判断DMA数据是否传输完成。如果没有完成，则继续执行本地处理数据获取过程。在所确定的数据处理模式是网络数据处理模式时，启用远程通讯模块的数据传输来从远端设备获取远端处理数据。例如，可以使用RDMA方式来获取远端处理数据。此外，可选地，还可以判断RDMA数据是否接收完毕。如果没有完毕，则继续执行远端处理数据获取过程。

在获取到计算任务所需的处理数据后，在350，使用所获取的处理数据来开始执行计算任务。在360，判断计算任务是否处理完毕。如果未处理完毕，则返回到350继续处理。此外，可选地，在计算芯片还包括高带宽缓存的情况下，还可以将中间结果写入高带宽缓存。

在完成计算任务处理后，在370，根据所确定的数据处理模式来启用本地通讯模块或远程通讯模块发送计算任务处理结果。例如，在所确定的数据处理模式是本地数据处理模式时，启用远程通讯模块的数据传输来将计算任务处理结果传送到远端设备。在所确定的数据处理模式是网络数据处理模式时，启用本地通讯模块的数据传输来将计算任务处理结果上传到本地主处理器。

此外，可选地，在启用远程通讯模块或本地通讯模块进行数据发送时，还可以监测远程通讯模块或本地通讯模块的数据发送是否完成。如果没有完成，则继续启用远程通讯模块或本地通讯模块进行数据发送。在远程通讯模块或本地通讯模块的数据发送完成后，禁用(关闭)远程通讯模块或本地通讯模块的数据传输。

如上参照图2和图3描述了根据本说明书的实施例的计算芯片的结构以及计算芯片的计算任务处理过程。

利用上述计算芯片，由于计算芯片将本地数据传输和网络数据传输分开，从而可以最大化数据传输带宽，并且卸载了本地主处理器的网络处理任务，由此大大增强整个服务器网络的数据传输和通讯能力。

此外，在由具有上述结构的计算芯片组成的计算系统中，由于每个计算芯片都具有网络处理能力，从而可以避免多个本地主处理器之间的网络通讯竞争，进而消除网络拥塞。

此外，由于计算芯片已经将网络数据传输能力集成在内部，计算节点整体无需再单独考虑网络设备问题，尤其是网络设备数量和网络设备硬件连接问题，从而简化了整个节点的系统架构的硬件设计复杂度。

此外，可选地，在一个示例中，计算芯片200还可以包括高带宽缓存(HighBandwidth Memory，HBM)240。高带宽缓存240与本地通讯模块210、计算模块220和远程通讯模块230耦接，并且被配置为缓存本地通讯模块210、计算模块220和远程通讯模块230的数据，并且被使用来实现本地通讯模块210、计算模块220和远程通讯模块230之间的数据访问。

高带宽缓存240将缓存三种类型的数据，即，PCIE DMA交互的数据(来自于CPU或去往CPU)；计算模块220的计算过程中产生的中间数据；以及远程通讯设备发送或接收的数据包。可选地，在一个示例中，高带宽缓存240采用流水线(PipeLine)机制来实现本地通讯模块210、计算模块220和远程通讯模块230之间的数据访问，由此实现从本地通讯模块的数据输入到计算模块计算数据再到远程通讯设备的数据发送之间的快速高效交互。

此外，可选地，在一个示例中，高带宽缓存240可以包括布置在本地通讯模块210、计算模块220和远程通讯模块230两侧的两个高带宽缓存，如图2中所示。利用图2中示出的左右两块高带宽缓存的设计，一方面可以提高内部存储空间大小，另一方面可以提高数据处理的双向并行度。

此外，可选地，在一个示例中，两个高带宽缓存可以被实现为按照单流向模式或双流向模式执行所述本地通讯模块、所述计算模块和所述远程通讯模块之间的数据访问。

图4A和4B中示出的是单流向模式的缓存数据访问示例。如图4A所示，两块高带宽缓存都用于缓存从本地通讯模块的DMA本地输入->计算模块计算->远程通讯模块网络输出的单流向数据。如图4B所示，两块高带宽缓存都用于缓存从远程通讯模块网络输入->计算模块计算->本地通讯模块的DMA本地输出的单流向数据。

图5中示出的是双流向模式的缓存数据访问示例。如图5所示，一块高带宽缓存用于缓存从本地通讯模块的DMA本地输入->计算模块计算->远程通讯模块网络输出的流向数据，另一块高带宽缓存用于缓存从远程通讯模块的网络输入->计算模块计算->本地通讯模块的DMA本地输出的流向数据。上述情形下的缓存数据访问称为双流向模式缓存数据访问。

如上所述，通过在计算芯片的内部设置高带宽缓存，可以在无需上层CPU干预的情况下，直接通过远程通讯模块来将计算任务处理结果发送给远端设备，从而可以大大降低网络通讯延迟。

图6示出了根据本说明书的实施例的计算芯片与本地主处理器和下游网络之间的连接的示例示意图。如图6所示，计算芯片中的本地通讯模块210与CPU可通信地连接，从而例如可以采用DMA方式来在本地通讯模块210与CPU之间进行本地数据传输。计算芯片中的远程通讯模块230经由网络交换机与其它计算节点进行网络通信，由此组成计算集群。

图7示出了根据本说明书的实施例的计算节点的示例方框图。

如图7所示，计算节点1包括两个CPU(即，本地主处理器)，CPU0和CPU1。该2个CPU支持8个PCIE设备，每个CPU支持4个PCIE设备，该多个PCIE设备是CNU卡，每个CNU卡可以采用如上所述的计算芯片实现，由此每个CNU卡包括本地通讯模块、计算模块和远程通讯模块。每个CNU卡可以经由远程通讯模块与其它计算节点可通信地连接，由此各个计算节点组成高密度计算集群。

在图7中示出的示例中，每个本地主处理器对应一个计算芯片组，每个计算芯片组可以包括至少一个如图2所述的计算芯片。在图7的示例中，每个计算芯片组包括4个计算芯片。在计算芯片组包括至少两个计算芯片时，计算节点还可以包括PCIE交换芯片。计算芯片组中的计算芯片被配置为通过该PCIE交换芯片来与对应的本地主处理器可通信地连接。例如，如图7所示，CPU0通过PCIE交换芯片来与CNU0到CNU3可通信地连接，以及CPU1通过PCIE交换芯片来与CNU4到CNU7可通信地连接。

此外，可选地，在一个示例中，在本地主处理器包括至少两个本地主处理器时，所述至少两个本地主处理器通过本地接口连接。例如，如图7中所示，CPU0与CPU1通过本地接口连接。

在图7中示出的计算节点中，计算节点1中的两个CPU下挂着多个CNU芯片设备，每个CNU芯片设备之间相互独立，并且由于每个CNU设备具备网络通信能力，从而可以拓展出新的计算集群网络。

此外，在每个计算节点下，由于每个CNU芯片设备都具备本地通讯能力和远程通讯能力，从而使得各个CNU芯片设备相互之间的通讯数据不存在任何干扰。每个CNU芯片设备处理完毕的数据既可以通过本地通讯模块上传到本地主处理器，也可以通过远程通讯模块发送到远端网络。上述多个CNU芯片设备之间可以完全并行地执行计算和数据通讯，从而大大提升了整体计算集群的计算能力和网络吞吐量。

图8示出了根据本说明书的实施例的网络计算系统的拓扑结构示意图。如图8所示，每个CPU通过PCIE交换芯片可以拓展出多个CNU芯片设备，而每个CNU芯片设备既可以和下个CNU芯片设备直接互联，也可以通过网络交换机拓展连接到多个下级CNU芯片设备，如此类推和循环，从而通过CPU，CNU芯片设备，PCIE交换机和网络交换机可以无限拓展整个网络，由此得到根据本说明书的实施例的网络计算系统。在这个网络计算系统中，在实际应用时，数据通讯为CNU点对点独立，带宽不会降低，并且可以消除网络拥塞。

要说明的是，在图8的示例中，每个计算节点中的CNU芯片被示出为经由网络交换机与一个或多个其它计算节点中的CNU芯片可通信地连接。在本说明书的其它实施例中，网络计算系统中的部分计算节点中的CNU芯片经由网络交换机与一个或多个其它计算节点中的CNU芯片可通信地连接，以及剩余计算节点中的CNU芯片与一个或多个其它计算节点中的CNU芯片直接可通信地连接。或者，网络计算系统也可以不包括网络交换机，每个计算节点中的CNU芯片与一个或多个其它计算节点中的CNU芯片直接可通信地连接。

本领域技术人员应当理解，上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此，本发明的保护范围应当由所附的权利要求书来限定。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

上面结合附图阐述的具体实施方式描述了示例性实施例，但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种计算芯片，包括：

本地通讯模块，被配置为与本地主处理器进行本地数据通信；

远程通讯模块，被配置为与远端设备进行网络数据通信；以及

计算模块，被配置为通过控制所述本地通讯模块和远程通讯模块的数据通信来执行所述本地主处理器下发的计算任务。

2.如权利要求1所述的计算芯片，还包括：

高带宽缓存，所述高带宽缓存与所述本地通讯模块、所述计算模块和所述远程通讯模块耦接，被配置为缓存所述本地通讯模块、所述计算模块和所述远程通讯模块的数据，并且实现所述本地通讯模块、所述计算模块和所述远程通讯模块之间的数据访问。

3.如权利要求1所述的计算芯片，其中，所述本地通讯模块具备DMA能力。

4.如权利要求1所述的计算芯片，其中，所述远程通讯模块具备RDMA能力。

5.如权利要求2所述的计算芯片，其中，所述高带宽缓存包括布置在所述本地通讯模块、所述计算模块和所述远程通讯模块两侧的两个高带宽缓存。

6.如权利要求5所述的计算芯片，其中，所述两个高带宽缓存被实现为按照单流向模式或双流向模式执行所述本地通讯模块、所述计算模块和所述远程通讯模块之间的数据访问。

7.如权利要求1到6中任一所述的计算芯片，其中，所述计算模块被配置为：

解析所述本地主处理器下发的计算任务；

根据计算任务解析结果，确定所述计算任务的数据处理模式；

根据所确定的数据处理模式来启用所述本地通讯模块或所述远程通讯模块获取处理数据；

使用所获取的处理数据来执行计算任务；以及

根据所确定的数据处理模式来启用所述本地通讯模块或所述远程通讯模块发送计算任务处理结果。

8.如权利要求2所述的计算芯片，其中，所述高带宽缓存采用流水线机制来实现所述本地通讯模块、所述计算模块和所述远程通讯模块之间的数据访问。

9.一种计算节点，包括：

至少一个本地主处理器；以及

至少一个计算芯片组，每个计算芯片组对应一个本地主处理器，并且包括至少一个如权利要求1到8中任一所述的计算芯片。

10.如权利要求9所述的计算节点，其中，在计算芯片组包括至少两个计算芯片时，所述计算节点还包括：

PCIE交换芯片，被配置为将所述计算芯片组中的多个计算芯片与对应的本地主处理器可通信地连接。

11.如权利要求9所述的计算节点，其中，在本地主处理器包括至少两个本地主处理器时，所述至少两个本地主处理器通过本地接口连接。

12.一种网络计算系统，包括：

多个计算节点，每个计算节点包括至少一个本地主处理器以及至少一个计算芯片组，每个计算芯片组对应一个本地主处理器，并且包括至少一个如权利要求1到8中任一所述的计算芯片，

其中，每个计算节点的计算芯片与一个或多个其它计算节的计算芯片可通信地连接。

13.如权利要求12所述的网络计算系统，还包括：

多个网络交换机，

其中，每个计算节点的计算芯片与一个或多个其它计算节的计算芯片通过网络交换机可通信地连接。