CN113627620A

CN113627620A - 一种面向深度学习的处理器模组

Info

Publication number: CN113627620A
Application number: CN202110862751.4A
Authority: CN
Inventors: 张震宁; 陈亮
Original assignee: Thinkforce Electronic Technology Co ltd
Current assignee: Thinkforce Electronic Technology Co ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-11-09

Abstract

本发明提供一种面向深度学习的处理器模组，包括多核CPU模块、深度学习加速引擎阵列、通信模块以及存储模块。其中，多核CPU模块包括若干个并行分布的CPU；深度学习加速引擎阵列包括若干个与CPU可通信地连接的深度学习单元；通信模块包括若干个通信接口，任一通信接口的一端与多核CPU模块和/或深度学习加速引擎阵列可通信地连接；以及存储模块与多核CPU模块和/或深度学习加速引擎阵列可通信地连接。

Description

一种面向深度学习的处理器模组

技术领域

本发明涉及深度学习技术领域，特别涉及一种面向深度学习的处理器模组。

背景技术

深度学习属于机器学习研究中的一个领域，其主要目的在于建立、模拟人脑进行分析学习的神经网络，通过模仿人脑的机制来解释数据，例如图像，声音和文本。深度机器学习方法包括监督学习与无监督学习，不同的学习框架下建立的学习模型不同。例如，卷积神经网络(Convolutional neural networks，简称CNNs)就是一种深度的监督学习下的机器学习模型，而深度置信网(Deep Belief Nets，简称DBNs)就是一种无监督学习下的机器学习模型。

基于服务器运行深度学习模型应用非常常见，例如图像识别、信号识别、网络分类等。由于深度学习模型运行本身需要极高的算力，将模型部署于服务器，通过本地网络或者互联网传输模型输入及输出结果是一种常见的应用场景。因此，会有一大部分深度学习模型会以部署在服务器的方式向市场提供人工智能方面的服务。

由于相较于CPU(Central Processing Unit，中央处理器)而言，GPU(GraphicsProcessing Unit，图像处理器)具有更强的浮点数运算能力，因此，深度学习通常采用GPU服务器实现。目前，常见的GPU服务器结构如图1所示，采用基于标准的外扩式服务器结构。所述GPU服务器包括多个CPU以及GPU，其中，通用性的计算任务由CPU完成，高度并行的深度学习计算任务由GPU完成，形成异构计算形态。CPU和GPU之间依靠PCIE总线进行通讯和数据交互。

在深度学习中通常存在一些强交互的场景，CPU与GPU需要进行大量的数据交互，而CPU的运算内存是基于自身所有的DDR接口连接，通常在主板上留有内存条插槽可以根据需要配置DDR内存容量，GPU的运算内存(通常也称为显存)，则通常为已固定的容量配置，直接固化在GPU板卡上。CPU外挂内存和GPU显存之间的数据不共享，因此，在计算过程中，需要通过PCIE总线来回搬运，较为耗时，进而影响服务器运算效率。

发明内容

针对现有技术中的部分或全部问题，本发明提供一种面向深度学习的处理器模组，包括：

多核CPU模块，包括若干个并行分布的CPU；

深度学习加速引擎阵列，包括若干个深度学习单元，所述深度学习单元与所述多核CPU模块可通信地连接；

通信模块，包括若干个通信接口，任一所述通信接口的一端与所述多核CPU模块和/或深度学习加速引擎阵列可通信地连接；

存储模块，与所述多核CPU模块和/或深度学习加速引擎阵列可通信地连接。

进一步地，所述多核CPU模块采用RISC指令集架构。

进一步地，所述深度学习单元采用DSA特定领域架构方式搭建形成。

进一步地，所述通信接口包括PCIE总线接口和/或RGMII接口和/或UART接口。

进一步地，所述存储模块包括若干个存储芯片。

进一步的，所述存储芯片包括直接存储芯片和/或内嵌式存储器。

进一步地，所述深度学习单元与所述CPU通过内部AXI总线可通信地连接。

进一步地，所述处理器模组包括若干个运算簇，任一所述运算簇包括至少一个CPU核和/或一个深度学习单元以及存储模块。

本发明提供的一种面向深度学习的处理器模组，采用并行的RISC架构CPU形成多核CPU模块。随着技术演进，RISC架构CPU的性能与传统的x86 CISC架构CPU性能相当，但相较于传统的集中式的单个或两个多核x86 CPU，所述多核RISC架构CPU模块集成度更高，计算效能更优。此外，所述处理器模组中的深度学习单元采用特定领域架构(DomainSpecific Architecture，DSA)方式搭建形成，为张量运算处理单元，并整合了图像解码能力，能够针对计算特点优化，因此相较于传统的GPU，具有更高的性能但更低的功耗，具有更高的视频解析吞吐能力。基于RISC架构CPU以及DSA架构的深度学习单元，所述处理器中的各运算簇能够支持容器，进而独立完成深度学习计算任务，这也使得出现单点故障时，不会影响到其他运算簇，尽可能小地降低单点故障的影响。同时，所述处理器模组内的各模块之间通过内部AXI总线通信，且所述多核CPU模块以及深度学习加速引擎阵列可共用存储空间，能够访问同一存储空间内的数据，这就使得在深度学习计算任务中，即便是进行异构运算，也不需要进行数据搬运，大大提高了计算能效。此外，内部AXI总线为芯片内部模块的互联结构，其可以利用芯片内部更高的密度实现更宽的总线和更高的速率，相较于PCIE总线而言，具有更优的延迟及速率性能。

附图说明

为进一步阐明本发明的各实施例的以上和其它优点和特征，将参考附图来呈现本发明的各实施例的更具体的描述。可以理解，这些附图只描绘本发明的典型实施例，因此将不被认为是对其范围的限制。在附图中，为了清楚明了，相同或相应的部件将用相同或类似的标记表示。

图1示出现有技术中的一种GPU服务器的结构示意图；

图2示出本发明一个实施例中一种面向深度学习的分布式服务器的结构示意图；

图3示出本发明一个实施例中处理器模组的功能框图示意图；

图4示出本发明一个实施例中的一种服务器集群的结构示意图；以及

图5示出本发明一个实施例中的一种基于服务器集群的深度学习方法。

具体实施方式

以下的描述中，参考各实施例对本发明进行描述。然而，本领域的技术人员将认识到可在没有一个或多个特定细节的情况下或者与其它替换和/或附加方法、材料或组件一起实施各实施例。在其它情形中，未示出或未详细描述公知的结构、材料或操作以免模糊本发明的发明点。类似地，为了解释的目的，阐述了特定数量、材料和配置，以便提供对本发明的实施例的全面理解。然而，本发明并不限于这些特定细节。此外，应理解附图中示出的各实施例是说明性表示且不一定按正确比例绘制。

在本说明书中，对“一个实施例”或“该实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。在本说明书各处中出现的短语“在一个实施例中”并不一定全部指代同一实施例。

需要说明的是，本发明的实施例以特定顺序对工艺步骤进行描述，然而这只是为了阐述该具体实施例，而不是限定各步骤的先后顺序。相反，在本发明的不同实施例中，可根据工艺的调节来调整各步骤的先后顺序。

本发明基于发明人的如下洞察：随着深度学习计算任务复杂程度的提高，单一的GPU服务器已经难以满足其需求，因此，需要部署GPU服务器集群。然而，很多现有的数据中心或数据机房条件，难以容纳能满足业务需求的GPU服务器集群，这主要是由于GPU服务器的功耗较高，其单机功耗通常在1000瓦以上，这就使得其无法在服务器机架上密集部署，当需要大量部署GPU服务器时，往往对于数据中心的供电和散热有特殊设计要求。

现有的GPU服务器多采用通过PCIE总线衔接的CPU+GPU架构，CPU与GPU之间通过PCIE总线进行通讯和数据交互。而造成现有的GPU服务器功耗较高的原因，一方面是由于其所采用的CPU及GPU本身的性能，另一方面则是由于CPU与GPU之间的数据搬运。具体而言，现有的GPU服务器中采用的CPU多为x86 CISC架构，其功耗本身较高，同时GPU内部有很多用于图形运算的部分，而这些部分并无法用于人工智能运算，还会造成额外的功耗。在一些CPU与GPU计算强交互的场景下，例如和系统存在交互的场景，有大量的任务只能通过CPU来完成，也就是说，在GPU进行深度学习计算任务的处理过程中，需要与CPU进行大量的数据交互。其中，所述数据交互包括：从CPU获取经CPU预处理过的外部数据，以及将深度学习计算结果返回值CPU等。对于存在大量数据库的访问，其访问类型是随机的，这种情况下，数据需要反复在DRAM，CPU和GPU之间搬运，导致服务器的效率低功耗高。

因此，若要实现能够满足深度学习计算任务需求的服务器集群，可以从以下几个方面考虑：

1.采用功耗更低的芯片或器件；

2.优化CPU与GPU之间的数据交互方式。

基于此，本发明提供一种面向深度学习的分布式服务器，其包括若干个分布式设置的处理器模组，且任一所述处理器模组中均包括CPU、深度学习加速单元和其他逻辑模块的处理器芯片(异构处理器)，及与其协同工作的动态内存、固态存储、数据通信电路等。其中，所述CPU、深度学习加速单元以及其他芯片及模块之间通过内部总线通讯，各处理器模组件则通过例如以太网等网络方式进行通信，也可进一步和服务器外部的网络设备连接，以便进行数据和控制指令交互。下面结合实施例附图对本发明的方案做进一步描述。

在本发明中，所述“外部设备”可以包括网络摄像头、视频流化服务器、数据存储设备等，其通常作为数据源，所述分布式服务器读取所述外部设备的数据，并进行运算处理分析。

图2示出本发明一个实施例中一种面向深度学习的分布式服务器的结构示意图。如图2所示，一种面向深度学习的分布式服务，包括若干个处理器模组101、电源模块102以及数据通信模块103。

所述处理器模组101分布式布置，通过所述数据通信模块103与外部设备实现通信。所述电源模块102用于为所述处理器模组101以及数据通信模块103供电。

图3示出本发明一个实施例中处理器模组的功能框图示意图。如图3所示，任一所述处理器模组均包括多核CPU模块301、深度学习加速引擎阵列302、通信模块303以及存储模块304。所述多核CPU模块301包括若干个并行分布的CPU 3011，在本发明的一个实施例中，所述多核CPU模块301采用RISC指令集架构，例如所述CPU 3011可采用ARM芯片，采用RISC架构的ARM芯片的性能与传统的CISC架构的x86 CPU性能相当，但相较于传统的集中式的单个或两个多核x86 CPU，多核RISC架构CPU模块集成度更高，计算效能更优。所述深度学习加速引擎阵列302包括若干个深度学习单元3021，所述深度学习单元采用特定领域架构(Domain Specific Architecture，DSA)方式搭建形成，为张量运算处理单元，并整合了图像解码能力，能够针对计算特点优化，因此相较于传统的GPU，具有更高的性能但更低的功耗，具有更高的视频解析吞吐能力。所述深度学习单元通过内部AXI总线与所述多核CPU模块301进行通信，在本发明的一个实施例中，所述深度学习单元采用脉动阵列实现运算。所述通信模块303包括一个或多个同类或不同类型的通信接口，所述通信接口例如可包括：PCIE总线接口、RGMII接口、以及UART接口等，所述通信模块303通过内部AXI总线与所述多核CPU模块301以及深度学习加速引擎阵列302通信。所述存储模块304包括一个或多个相同或不同类型的存储芯片，所述存储芯片例如可以包括：直接存储DDR、内嵌式存储器eMMC等，在本发明的实施例中，所述多核CPU模块301以及深度学习加速引擎阵列302通过内部AXI总线与所述存储模块304通信，也就是说，所述多核CPU模块301以及深度学习加速引擎阵列302共用存储空间，能够访问同一存储空间内的数据，这就使得在深度学习计算任务中，即便是进行异构运算，也不需要进行数据搬运，大大提高了计算能效。此外，内部AXI总线为芯片内部模块的互联结构，其可以利用芯片内部更高的密度实现更宽的总线和更高的速率，相较于PCIE总线而言，具有更优的延迟及速率性能。

具体而言，在实际应用中，任一所述处理器模组可包括多个运算簇，任一所述运算簇至少包括一个CPU核和/或一个深度学习单元以及若干相同或不同类型的存储芯片，所述运算簇支持容器，能够独立完成深度学习计算任务，这也使得出现单点故障时，不会影响到其他运算簇，尽可能小地降低单点故障的影响。在本发明的一个实施例中，所述多个运算簇包括一个主簇及多个从簇，所述主簇用于实现与其他处理器模组和/或外部设备的通信，接收深度学习任务，并将所述深度学习任务分配至各从簇，各从簇接收到深度学习任务后执行，并将结果通过所述主簇，反馈至其他处理器模组和/或外部设备。

在本发明的一个实施例中，任一所述处理器模组均设置有唯一的IP网络地址，且能够通过以太网协议与所述分布式服务器内的其他处理器模组实现通信。所述数据通信模块103包括第一交换机，其中，所述第一交换机与各处理器模组可通信地连接，所述处理器模组经由所述第一交换机实现与外部设备的通信，在本发明的一个实施例中，所述第一交换机为网络交换芯片。

在本发明的一个实施例中，通过第二交换机，将多个所述分布式服务器连接至外部设备，进而形成服务器集群。

图4示出本发明一个实施例中的一种服务器集群的结构示意图。如图4所示，所述服务器集群包括m个分布式服务器以及第二交换机，任一所述分布式服务器中包含至少一个处理器模组以及一个第一交换机。在任一分布式服务器内，所述第一交换机为各处理器模组设置有唯一的IP网络地址，使得各处理器模组之间能够通过以太网等网络协议进行通信，同时，各第一交换机连接至所述第二交换机，进而实现与各个外部设备间的通信，所述外部设备可以通过所述第二交换机及第一交换机实现各处理器模组运行状态的控制。

在本发明的其他实施例中，所述服务器集群也可以指定服务器内多个模组中的某一个作为该服务器内部的主控处理器，所述主控处理器通过第一及第二交换机与外部设备通信，接收数据及指令，并通过网口命令控制其余模组的运行状态。

图5示出本发明一个实施例中的一种基于服务器集群的深度学习方法。如图5所示，所述深度学习方法包括：

首先，在步骤501，获取数据。各分布式服务器通过网络获取外部设备的数据，其中，所述外部设备包括视频和/或图像采集设备，数据存储设备等，例如网络摄像头、视频流化服务器、存储卡等，在本发明的一个实施例中，通过第二交换机收集各外部设备的数据，并分发至各分布式服务器，具体分发方式例如可以是：

各外部设备与各分布式服务器形成固定的对应关系，例如，外部设备1的数据发送至分布式服务器1处理，外部设备2的数据发送至分布式服务器2处理，依此类推，在本发明的其他实施例中，也可以一个外部设备对应多个分布式服务器，一个分布式服务器对应多个外部设备；或

按照时间顺序依此分发接收的数据，例如，第一次收到的数据发送至分布式服务器1，第二次收到的数据发送至分布式服务器2，依此类推，在本发明的其他实施例中，也可根据其他时间顺序分发数据；或

按照数据类型分发，例如，将视频数据发送至分布式服务器1，将图片数据发送至分布式服务器2等，在本发明的其他实施例中，也可将同类数据发送至多个分布式服务器，或将多类数据发送至一个分布式服务器；

应当理解的是，在本发明的其他实施例中，数据分发方式并不限于上述举例；

在本发明的一个实施例中，所述数据直接根据IP地址，分发至各分布式服务器的各处理器模组；在本发明的又一个实施例中，所述数据根据IP地址分发至各分布式服务器的主控处理器，然后再由主控服务器分发至其他处理器模组；

接下来，在步骤502，数据分析。各处理器模组接收到数据后，进行运算处理分析，在单个分布式服务器内，各个处理器模组所运行的算法可以相同，也可以不同，从而形成灵活的组合，在实际操作中，各处理器模组运行的算法一方面可根据数据分发方式确定，另一方面也可根据运算需求设置，具体而言，例如根据数据分发方式，某处理器模组仅接收某指定类型或指定外部设备的数据，则所述处理器模组中运行的算法可设置为针对该类数据的最优算法，有例如当存在算法比对等需求时，也可针对同一类数据或同源数据，在不同处理器模组中设置不同的算法；以及

最后，在步骤503，返回结果。各处理器模组运算完成后，将结果通过网络返回至指定外部设备，至此完成深度学习运算任务。

尽管上文描述了本发明的各实施例，但是，应该理解，它们只是作为示例来呈现的，而不作为限制。对于相关领域的技术人员显而易见的是，可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此，此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

Claims

1.一种面向深度学习的处理器模组，其特征在于，包括：

多核CPU模块，包括若干个并行分布的CPU；

2.如权利要求1所述的处理器模组，其特征在于，所述CPU采用RISC指令集架构。

3.如权利要求1所述的处理器模组，其特征在于，所述深度学习单元采用特定领域架构方式搭建形成。

4.如权利要求1所述的处理器模组，其特征在于，所述通信接口包括PCIE总线接口和/或RGMII接口和/或UART接口。

5.如权利要求1所述的处理器模组，其特征在于，所述存储模块包括若干个存储芯片。

6.如权利要求5所述的处理器模组，其特征在于，所述存储芯片包括直接存储芯片和/或内嵌式存储器。

7.如权利要求1所述的处理器模组，其特征在于，所述深度学习单元与所述CPU通过内部AXI总线可通信地连接。

8.如权利要求1所述的处理器模组，其特征在于，所述处理器模组包括若干个运算簇，任一所述运算簇包括至少一个CPU核和/或一个深度学习单元以及存储模块。

9.如权利要求8所述的处理器模组，其特征在于，所述运算簇包含的CPU核及深度学习单元共用存储模块并共享地址空间。