CN113626368B

CN113626368B - 一种人工智能的数据处理方法及相关装置

Info

Publication number: CN113626368B
Application number: CN202110741491.5A
Authority: CN
Inventors: 林正伟
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-07-25
Anticipated expiration: 2041-06-30
Also published as: CN113626368A

Abstract

本申请公开了一种人工智能的数据处理方法，包括：N个GPU进行人工智能数据计算，得到原始数据；将原始数据发送至M个从CPU，控制每个从CPU对接收到的原始数据进行预处理，得到预处理数据；其中，M小于等于N；将预处理数据通过PCIe switch从M个从CPU发送至主CPU，控制主CPU对预处理数据进行处理，得到目标数据。保持数据处理效果的同时，降低数据处理的时延，提高数据处理的效果。本申请还公开了一种人工智能的数据处理装置、服务器以及计算机可读存储介质，具有以上有益效果。

Description

一种人工智能的数据处理方法及相关装置

技术领域

本申请涉及计算机技术领域，特别涉及一种人工智能的数据处理方法、人工智能的数据处理装置、服务器以及计算机可读存储介质。

背景技术

随着信息技术的不断发展，出现AI(Artificial Intelligence，人工智能)服务器常用于进行人工智能计算，并且GPU(Graphics Processing Unit，图形处理器)卡广泛的被运用于人工智能的AI服务器。由于系统需要搭载多张GPU卡做运算，但是每颗CPU(CentralProcessing Unit，中央处理器)的PCIe root port(peripheral component interconnectexpress root port，高速串行计算机扩展总线标准根接口)数量有限，若只使用CPU PCIeport连接GPU卡，使得系统能接的GPU卡总数有限。为了扩充服务器中更多的GPU卡数量，通过PCIE Switch拓出更多的PCIe Port，以便系统可以连接更多的GPU卡，执行更多的人工智能运算。

相关技术中，为了拓展更多的PCIe Port，在服务器中使用多颗PCIe Switch，PCIeSwtich上行接到CPU，PCIe Swtich拓展更多下行PCIe port接到GPU卡。CPU与PCIe Switch之间仅连接一个PCIe总线，PCIe Switch下通过五个PCIe总线接五个GPU，导致PCIe Switch上行与下行带宽不平衡。每一张GPU卡计算后的原始数据需要通过PCIe Switch传送至CPU，因PCIe Switch上行与下行带宽不平衡，大量原始数据会导致CPU与PCIe Switch间的PCIe持续传送大量GPU运算后的数据，会有计算延迟的问题，降低计算的效率。

因此，如何降低运算延迟，提高计算的效率是本领域技术人员关注的重点问题。

发明内容

本申请的目的是提供一种人工智能的数据处理方法、人工智能的数据处理装置、服务器以及计算机可读存储介质，以便降低人工智能的数据处理方法的时延，提高数据处理的效率。

为解决上述技术问题，本申请提供一种人工智能的数据处理方法，包括：

N个GPU进行人工智能数据计算，得到原始数据；

将所述原始数据发送至M个从CPU，控制每个所述从CPU对接收到的原始数据进行预处理，得到预处理数据；其中，M小于等于N；

将所述预处理数据通过PCIe switch从所述M个从CPU发送至主CPU，控制所述主CPU对所述预处理数据进行处理，得到目标数据。

可选的，将所述原始数据发送至M个从CPU，控制每个所述从CPU对接收到的原始数据进行预处理，得到预处理数据，包括：

通过每个所述从CPU的PCIe port将所述原始数据从所述GPU发送至对应的从CPU；

控制每个所述从CPU对接收到的原始数据进行预处理，得到所述预处理数据。

可选的，每个所述从CPU通过所述PCIe switch与所述主CPU连接。

可选的，每个所述GPU通过PCIe port与对应的从CPU直连。

可选的，控制每个所述从CPU对接收到的原始数据进行预处理，得到预处理数据，包括：

控制每个所述从CPU对接收到的原始数据进行数据简化处理，得到所述预处理数据。

可选的，控制所述主CPU对所述预处理数据进行处理，得到目标数据，包括：

控制所述主CPU对接收到的所述预处理数据进行整合计算，得到所述目标数据。

本申请还提供一种人工智能的数据处理装置，包括：

GPU计算模块，用于N个GPU进行人工智能数据计算，得到原始数据；

从CPU计算模块，用于将所述原始数据发送至M个从CPU，控制每个所述从CPU对接收到的原始数据进行预处理，得到预处理数据；其中，M小于等于N；

主CPU计算模块，用于将所述预处理数据通过PCIe switch从所述M个从CPU发送至主CPU，控制所述主CPU对所述预处理数据进行处理，得到目标数据。

可选的，从CPU计算模块，包括：

原始数据发送单元，用于通过每个所述从CPU的PCIe port将所述原始数据从所述GPU发送至对应的从CPU；

原始数据预处理单元，用于控制每个所述从CPU对接收到的原始数据进行预处理，得到所述预处理数据。

本申请还提供一种服务器，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述的人工智能的数据处理方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的人工智能的数据处理方法的步骤。

本申请所提供的一种人工智能的数据处理方法，包括：N个GPU进行人工智能数据计算，得到原始数据；将所述原始数据发送至M个从CPU，控制每个所述从CPU对接收到的原始数据进行预处理，得到预处理数据；其中，M小于等于N；将所述预处理数据通过PCIeswitch从所述M个从CPU发送至主CPU，控制所述主CPU对所述预处理数据进行处理，得到目标数据。

通过将GPU处理得到的原始数据直接发送至从CPU中进行相应的预处理，而不是通过PCIe Switch将数据发送至从CPU进行处理，避免了上行带宽和下行带宽不平衡的问题，进一步的通过主CPU对数据进行最终的处理，实现将数据进行分段按照不同的处理性能进行处理，最后主CPU接收到的数据量降低，保持数据处理效果的同时，降低数据处理的时延，提高数据处理的效果。

本申请还提供一种人工智能的数据处理装置、服务器以及计算机可读存储介质，具有以上有益效果，在此不做赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种人工智能的数据处理方法的流程图；

图2为本申请实施例所提供的一种人工智能的数据处理方法的硬件结构示意图；

图3为本申请实施例所提供的一种人工智能的数据处理装置的结构示意图。

具体实施方式

本申请的核心是提供一种人工智能的数据处理方法、人工智能的数据处理装置、服务器以及计算机可读存储介质，以便降低人工智能的数据处理方法的时延，提高数据处理的效率。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

因此，本申请提供一种人工智能的数据处理方法，通过将GPU处理得到的原始数据直接发送至从CPU中进行相应的预处理，而不是通过PCIe Switch将数据发送至从CPU进行处理，避免了上行带宽和下行带宽不平衡的问题，进一步的通过主CPU对数据进行最终的处理，实现将数据进行分段按照不同的处理性能进行处理，最后主CPU接收到的数据量降低，保持数据处理效果的同时，降低数据处理的时延，提高数据处理的效果。

以下通过一个实施例，对本申请提供的一种人工智能的数据处理方法进行说明。

请参考图1，图1为本申请实施例所提供的一种人工智能的数据处理方法的流程图。

本实施例中，该方法可以包括：

S101，N个GPU进行人工智能数据计算，得到原始数据；

本步骤旨在N个GPU进行人工智能数据计算，得到原始数据。也就是，本实施例中GPU执行相应的人工智能数据计算，得到原始数据。

在现有技术中，GPU计算后得到的原始数据是直接通过PCIe switch发送至单个CPU，使得该CPU对接收到所有原始数据进行相应的计算处理，最终得到目标数据。可见，现有技术中，单个CPU为连接多个GPU，采用了PCIe switch进行连接。但是，采用PCIe switch容易导致上下行的带宽不平衡，出现CPU处理的原始数据量过大的问题，增加数据处理的时延，降低了效率。

其中，本实施例中的GPU进行的人工智能数据计算可以采用现有技术提供的任意一种人工智能数据计算的方式，在此不做具体限定。

S102，将原始数据发送至M个从CPU，控制每个从CPU对接收到的原始数据进行预处理，得到预处理数据；其中，M小于等于N；

在S101的基础上，本步骤旨在将原始数据发送至M个从CPU，控制每个从CPU对接收到的原始数据进行预处理，得到预处理数据；其中，M小于等于N。也就是，将计算处理得到的原始数据发送至对应的CPU，并使得每个CPU对于接收到的原始数据进行预处理，得到预处理数据。其中，M小于等于N。也就是说，原始数据不通过PCIe switch直接发送至对应的CPU，使得CPU接收到的带宽是等于或小于设定带宽，降低CPU处理数据的压力。

因此，本实施例中，该CPU与GPU通过PCIe总线进行直连。也就是，每个GPU通过PCIeport与对应的从CPU直连。

进一步的，本步骤可以包括：

步骤1，通过每个从CPU的PCIe port将原始数据从GPU发送至对应的从CPU；

步骤2，控制每个从CPU对接收到的原始数据进行预处理，得到预处理数据。

可见，本可选方案主要是对如何处理得到预处理数据进行说明。本可选方案中通过每个从CPU的PCIe port将原始数据从GPU发送至对应的从CPU，控制每个从CPU对接收到的原始数据进行预处理，得到预处理数据。

进一步的，本步骤可以包括：

控制每个从CPU对接收到的原始数据进行数据简化处理，得到预处理数据。

可见，本可选方案中依然是对如何进行数据预处理进行说明。本可选方案中控制每个从CPU对接收到的原始数据进行数据简化处理，得到预处理数据。

S103，将预处理数据通过PCIe switch从M个从CPU发送至主CPU，控制主CPU对预处理数据进行处理，得到目标数据。

在S102的基础上，本步骤旨在将预处理数据通过PCIe switch从M个从CPU发送至主CPU，控制主CPU对预处理数据进行处理，得到目标数据。也就是，每个CPU将处理后的预处理数据通过PCIe switch发送至主CPU中，以便通过主CPU对数据执行最后的整合处理。

其中，每个从CPU通过PCIe switch与主CPU连接。

进一步的，本步骤可以包括：

控制主CPU对接收到的预处理数据进行整合计算，得到目标数据。

可见，本可选方案中，主要是对主CPU进行的处理进行说明。本可选方案中，控制主CPU对接收到的预处理数据进行整合计算，得到目标数据。

进一步的，本实施例中在现有的AI服务器中增加两颗CPU，GPU与一颗CPU不通过PCIe Switch做直连方案，使得GPU运算后的原始数据更有效率的传递到第一颗CPU(CPU_0/CPU_1)，该第一颗CPU即为从CPU，在第一颗CPU(CPU_0/CPU_1)做GPU运算后原始数据的初步数据处理及数据简化。第一颗CPU(CPU_0/CPU_1)将做完的初步数据处理及数据简化通过PCIe switch传送至系统主要的CPU(CPU Master)。系统主要的CPU(CPU Master)将所有的资料收集汇整后，再做最后的汇整运算。减少GPU运算后的原始数据通过PCIe Switch直接传递至主要的CPU(CPU Master)造成系统主要的CPU(CPU Master)需要花费大量的时间处理大量的原始数据，提高AI服务器整体的运算效率。

综上，本实施例通过将GPU处理得到的原始数据直接发送至从CPU中进行相应的预处理，而不是通过PCIe Switch将数据发送至从CPU进行处理，避免了上行带宽和下行带宽不平衡的问题，进一步的通过主CPU对数据进行最终的处理，实现将数据进行分段按照不同的处理性能进行处理，最后主CPU接收到的数据量降低，保持数据处理效果的同时，降低数据处理的时延，提高数据处理的效果。

以下通过一个具体的实施例，从硬件结构的角度对本申请提供的一种人工智能的数据处理方法做进一步说明。

请参考图2，图2为本申请实施例所提供的一种人工智能的数据处理方法的硬件结构示意图。

本实施例中，GPU卡不通过PCIe Switch与CPU(CPU_0/CPU_1)直连，解决使用PCIeSwitch造成上行与下行不平衡的问题。GPU卡做人工智能所需要的计算，将计算后的原始数据通过传到第一颗CPU(CPU_0/CPU_1)做初步的数据处理，然后CPU(CPU_0/CPU_1)将处理过后的资料通过PCIe switch(PCIe switch Master)传回系统主要CPU(CPU Master)，预先将复杂的数据处理完成，减少将原始数据通过PCIe总线传到系统主要的CPU(CPU Master)，同时可减少主要的CPU(CPU Master)运算复杂的原始数据，主要的CPU(CPU Master)仅处理两颗CPU(CPU_0/CPU_1)运算后的资料，使得主要CPU(CPU Master)资料传递与数据处理更有效率，达到高效率的人工智能运算服务器。

其中，第一颗CPU即为从CPU。

现有的AI服务器中增加两颗CPU，GPU与一颗CPU不通过PCIe Switch做直连方案，使得GPU运算后的原始数据更有效率的传递到第一颗CPU(CPU_0/CPU_1)，该第一颗CPU即为从CPU，在第一颗CPU(CPU_0/CPU_1)做GPU运算后原始数据的初步数据处理及数据简化。第一颗CPU(CPU_0/CPU_1)将做完的初步数据处理及数据简化通过PCIe switch传送至系统主要的CPU(CPU Master)。系统主要的CPU(CPU Master)将所有的资料收集汇整后，再做最后的汇整运算。减少GPU运算后的原始数据通过PCIe Switch直接传递至主要的CPU(CPUMaster)造成系统主要的CPU(CPU Master)需要花费大量的时间处理大量的原始数据，提高AI服务器整体的运算效率。

可见，本实施例通过将GPU处理得到的原始数据直接发送至从CPU中进行相应的预处理，而不是通过PCIe Switch将数据发送至从CPU进行处理，避免了上行带宽和下行带宽不平衡的问题，进一步的通过主CPU对数据进行最终的处理，实现将数据进行分段按照不同的处理性能进行处理，最后主CPU接收到的数据量降低，保持数据处理效果的同时，降低数据处理的时延，提高数据处理的效果。

下面对本申请实施例提供的人工智能的数据处理装置进行介绍，下文描述的人工智能的数据处理装置与上文描述的人工智能的数据处理方法可相互对应参照。

请参考图3，图3为本申请实施例所提供的一种人工智能的数据处理装置的结构示意图。

本实施例中，该装置可以包括：

GPU计算模块100，用于N个GPU进行人工智能数据计算，得到原始数据；

从CPU计算模块200，用于将原始数据发送至M个从CPU，控制每个从CPU对接收到的原始数据进行预处理，得到预处理数据；其中，M小于等于N；

主CPU计算模块300，用于将预处理数据通过PCIe switch从M个从CPU发送至主CPU，控制主CPU对预处理数据进行处理，得到目标数据。

可选的，该从CPU计算模块，具体用于原始数据发送单元，用于通过每个从CPU的PCIe port将原始数据从GPU发送至对应的从CPU；原始数据预处理单元，用于控制每个从CPU对接收到的原始数据进行预处理，得到预处理数据。

本申请实施例还提供一种服务器，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如以上实施例所述的人工智能的数据处理方法的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如以上实施例所述的人工智能的数据处理方法的步骤。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种人工智能的数据处理方法、人工智能的数据处理装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种人工智能的数据处理方法，其特征在于，包括：

N个GPU进行人工智能数据计算，得到原始数据；

将所述原始数据发送至M个从CPU，控制每个所述从CPU对接收到的原始数据进行预处理，得到预处理数据；其中，M小于等于N，每个所述GPU通过PCIe port与对应的从CPU直连；

2.根据权利要求1所述的人工智能的数据处理方法，其特征在于，将所述原始数据发送至M个从CPU，控制每个所述从CPU对接收到的原始数据进行预处理，得到预处理数据，包括：

3.根据权利要求1所述的人工智能的数据处理方法，其特征在于，每个所述从CPU通过所述PCIe switch与所述主CPU连接。

4.根据权利要求1所述的人工智能的数据处理方法，其特征在于，控制每个所述从CPU对接收到的原始数据进行预处理，得到预处理数据，包括：

5.根据权利要求1所述的人工智能的数据处理方法，其特征在于，控制所述主CPU对所述预处理数据进行处理，得到目标数据，包括：

6.一种人工智能的数据处理装置，其特征在于，包括：

从CPU计算模块，用于将所述原始数据发送至M个从CPU，控制每个所述从CPU对接收到的原始数据进行预处理，得到预处理数据；其中，M小于等于N，每个所述GPU通过PCIe port与对应的从CPU直连；

7.根据权利要求6所述的人工智能的数据处理装置，其特征在于，所述从CPU计算模块，包括：

8.一种服务器，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述的人工智能的数据处理方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的人工智能的数据处理方法的步骤。