CN114840339A

CN114840339A - Gpu服务器、数据计算方法及电子设备

Info

Publication number: CN114840339A
Application number: CN202210476878.7A
Authority: CN
Inventors: 金胜昔
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-04-30
Filing date: 2022-04-30
Publication date: 2022-08-02

Abstract

本申请提供了一种GPU服务器，包括GPU服务器包括智能网卡、PCIeSwitch、至少一个GPU以及外围电路；智能网卡与至少一个GPU通过PCIeSwitch互联；其中，GPU服务器中不包括CPU，由智能网卡控制至少一个GPU的数据计算。摆脱了CPU的限制，大大减小了主板的设计难度，减少了硬件成本，可以以更灵活的方式提供并行算力，在急需大量并行算力时可以迅速扩展，同时利用现有的以太网设施就可以连接，不需要过多的额外成本；不需要算力后也可以直接撤除，不会影响到正在进行的业务；同时，可以直接与外部服务器或者存储设备交换数据进行计算，灵活性好，便于于扩展和维护。

Description

GPU服务器、数据计算方法及电子设备

技术领域

本发明涉及计算机领域，特别涉及一种GPU服务器、数据计算方法及电子设备。

背景技术

传统服务器的核心是由CPU为核心来进行大量数据的运算，由于CPU的设计是为了提高指令执行效率来设计的，增加了很多能够提高指令运行效率的优化设计，如程序分支预测，推测执行，多重嵌套分支执行，并行执行时候的指令相关性和数据相关性，多核协同处理时候的数据一致性等等复杂逻辑，同时还要增加cache(高速缓冲存储器)以减少访问内存的次数，这就导致在单位面积内，CPU并未将全部性能用于计算，而在进行某些大量的重复性高的运算任务时，往往还需要专用的芯片来加速运算，提高效率。GPU其实是由硬件实现的一组图形函数的集合，这些函数主要用于绘制各种图形所需要的运算。随着GPU的可编程性不断增强，GPU的应用能力已经远远超出了图形渲染任务，利用GPU完成通用计算的研究逐渐活跃起来，将GPU用于图形渲染以外领域的计算称为GPGPU。

现有技术通常采用传统型GPU服务器结构，当有计算任务时，CPU开始运行程序计算，在GPU加速系统当中，所有的IO操作都会先经过主机端，也就是需要经过CPU指令把数据传到主机内存里，然后才会到达GPU。这种中转会引额外延迟和内存消耗，降低运行在GPU上的应用程序的性能，还会占用CPU资源。同时，随着云计算，大数据和人工智能技术发展，服务上运行的程序越来越偏向于大量的并行计算，而在等待GPU计算的过程中，CPU资源和内存资源就被闲置了，这大大降低了计算效率；此外，传统GPU服务器结构比较固化，当计算任务特别偏向某种计算，需要增加服务器数量时，传统服务器上的资源就出现了不平衡，要么是CPU资源过剩，要么是GPU资源过剩，若想修改搭配往往需要重新设计主板，成本消耗巨大

因此，亟需优化GPU服务器架构，提高计算效率，以解决上述技术问题。

发明内容

为了解决现有技术的不足，本发明的主要目的在于提供一种GPU服务器、数据计算方法及电子设备，以解决现有技术的上述技术问题。

为了达到上述目的，第一方面本发明提供了一种GPU服务器，所述GPU服务器包括智能网卡、PCIe Switch、至少一个GPU以及外围电路；

所述智能网卡与所述至少一个GPU通过PCIe Switch互联；

其中，所述GPU服务器中不包括CPU，由所述智能网卡控制所述至少一个GPU的数据计算。

在一些实施例中，所述智能网卡内集成有根复合体、RDMA引擎以及自定义芯片；

所述根复合体用于为所述GPU配置唯一PCIe域地址空间；

所述RDMA引擎用于访问GPU的显存；

所述自定义芯片为MAC芯片与PHY芯片的集成芯片，用于处理所述网卡接收到的数据包。

在一些实施例中，所述GPU服务器外接通用服务器；

所述通用服务器向所述GPU服务器发送程序控制指令；

所述GPU服务器接收到所述程序控制指令后开始进行数据计算。

第二方面，本申请还提供了一种基于上述GPU服务器的数据计算方法，所述方法包括：

智能网卡接收并处理数据包；

所述智能网卡通过RDMA引擎访问GPU，并将处理后的数据包发送给所述GPU；

所述GPU接收所述处理后的数据包，进行数据计算，生成计算结果；

所述智能网卡接收所述计算结果并将所述计算结果传递给目标设备。

在一些实施例中，所述智能网卡接收并处理数据包，包括：

所述智能网卡利用MAC芯片对所述数据包拆分并重新打包，生成数据帧；

PHY芯片接收所述数据帧，并将所述数据帧转化为模拟信号；

其中，所述数据帧至少包括目标MAC地址、源MAC地址、协议类型。

在一些实施例中，所述智能网卡接收并处理数据包之前，所述方法还包括：

所述智能网卡利用根复合点，将GPU的显存地址空间映射为PCIe域地址空间，确保GPU地址的唯一性，以便所述智能网卡查找。

在一些实施例中，所述智能网卡接收所述计算结果并将所述计算结果传递给目标设备，包括：

所述智能网卡利用MAC芯片将接收到的计算结果的数据类型转换为以太网数据；

所述智能网卡根据所述数据帧中的所述目标MAC地址，将所述计算结果发送给所述目标MAC地址对应的所述目标设备。

在一些实施例中，所述方法还包括：

存在计算任务时，通用服务器发送程序控制指令至所述GPU服务器；

所述GPU服务器接收到所述程序控制指令后开始处理所述计算任务。

在一些实施例中，所述RDMA引擎采用RoCE协议。

第二方面，本申请还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

智能网卡接收并处理数据包；

本申请实现的有益效果为：

本申请提供了一种GPU服务器，包括所述GPU服务器包括智能网卡、PCIe Switch、至少一个GPU以及外围电路；所述智能网卡与所述至少一个GPU通过PCIe Switch互联；其中，所述GPU服务器中不包括CPU，由所述智能网卡控制所述至少一个GPU的数据计算。摆脱了CPU的限制，大大减小了主板的设计难度，减少了硬件成本，可以以更灵活的方式提供并行算力，在急需大量并行算力时迅速扩展，同时利用现有的以太网设施就可以连接，不需要过多的额外成本，不需要算力后也可以直接撤除，不会影响到正在进行的业务；同时，可以直接与外部服务器或者存储设备交换数据进行计算，灵活性好，便于扩展和维护。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本申请实施例提供的GPU服务器架构图；

图2是本申请实施例提供的智能网卡架构图；

图3是本申请实施例提供的数据计算方法流程图；

图4是本申请实施例提供的电子设备结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，在本申请的描述中，除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

还应当理解，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

需要注意的是，术语“S1”、“S2”等仅用于步骤的描述目的，并非特别指称次序或顺位的意思，亦非用以限定本申请，其仅仅是为了方便描述本申请的方法，而不能理解为指示步骤的先后顺序。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

如背景技术所述，GPU(Graphics Processing Unit，图形处理器)其实是由硬件实现的一组图形函数的集合，这些函数主要用于绘制各种图形所需要的运算。这些和像素，光影处理，3D坐标变换等相关的运算由GPU硬件加速来实现。图形运算的特点是大量同类型数据的密集运算——如图形数据的矩阵运算，GPU的微架构就是面向适合于矩阵类型的数值计算而设计的，大量重复设计的计算单元，这类计算可以分成众多独立的数值计算——大量数值运算的线程，而且数据之间没有像程序执行的那种逻辑关联性。随着GPU的可编程性不断增强，GPU的应用能力已经远远超出了图形渲染任务，利用GPU完成通用计算的研究逐渐活跃起来，将GPU用于图形渲染以外领域的计算成为GPGPU(General Purpose computingon graphics processing units，基于GPU的通用计算)。随着云计算，大数据和人工智能技术发展，这些计算任务需要进行大量的简单运算，这让GPU在处理此类任务时比CPU(Central Processing Unit，中央处理器)的效率更高，若是能在处理此类计算时减少CPU的参与度，就能节省服务器成本，提高运算效率。

实施例一

本申请实施例提供了一种GPU服务器，具体的，如图1所示，所述GPU服务器架构包括：智能网卡、PCIe(Peripheral Component Interconnect express，外围组件快速互连)Switch、至少一个GPU以及外围电路。其中，如图2所示，智能网卡在FPGA(FieldProgrammable Gate Array，现场可编程逻辑门阵列)内集成有根复合体(Root Complex，)、RDMA(Remote Direct Memory Access，远程直接数据存取)引擎以及自定义芯片。

首先，如果以各GPU自身的显存地址空间作为查找每一GPU的调用地址，很容易出现多个GPU使用同一个调用地址的情况，导致调用错误的GPU；因而，本申请在智能网卡内集成有根复合体，统管从智能网卡中扩展出来的所有PCIe总线，根复合体将智能网卡作为PCIe拓扑中的根，来对GPU进行配置，将GPU的显存地址空间映射为PCIe域地址空间，为每一个GPU配置唯一的PCIe域地址空间。

其次，由于传统的TCP/IP技术在数据包处理过程中，要经过操作系统及其他软件层，需要占用大量的服务器资源和内存总线带宽，数据在系统内存、处理器缓存和网络控制器缓存之间来回进行复制移动，给服务器的CPU和内存造成了沉重负担。尤其是网络带宽、处理器速度与内存带宽三者的严重"不匹配性"，更加剧了网络延迟效应。RDMA技术的诞生正是为了解决这种问题，它是一种新的直接内存访问技术，RDMA让计算机可以直接存取其他计算机的内存，而不需要经过处理器的处理。RDMA将数据从一个系统快速移动到远程系统的内存中，而不对操作系统造成任何影响。在实现上，RDMA实际上是一种智能网卡与软件架构充分优化的远端内存直接高速访问技术；RDMA可以让主机远程访问服务器的内存，但是本申请公开的GPU服务器的存储都集成在GPU卡上作为显存使用，因此本申请使用GPUDirect RDMA技术，即在智能网卡上集成RDMA引擎来访问GPU显存。而根据和以太网协议融合程度的不同，又可以将RDMA使用的网络协议可分为Infiniband、RoCE(RDMA overConverged Ethernet)、iWARP(internet Wide Area RDMA Protocol)三种，优选的，为了最大程度的利用已有的基础设施，本申请提供的RDMA使用RoCE协议在标准以太网交换机上通信。

此外，本申请中的自定义芯片为MAC(Media Access Control，以太网媒体访问控制器)芯片与PHY(Physical Layer，物理接口收发器)芯片集成后的芯片。MAC芯片从PCIe总线收到数据包后，将之拆分并重新打包成最大1518比特，最小64比特的帧。这个数据帧里面至少包括了目标MAC地址、源MAC地址和数据包里面的协议类型(比如IP数据包的类型用80表示)。PHY芯片收到MAC芯片传送过来的数据后进行处理，把并行数据转化为串行流数据，再按照物理层的编码规则把数据编码，变为模拟信号把数据送出去。本申请提供的智能网卡将这两个功能集成到同一芯片中，通过MAC/PHY芯片，实现将PCIe数据和以太网数据相互转换。

值得注意的是，GPU服务器外接通用服务器；存在计算任务时，由通用服务器向所述GPU服务器发送程序控制指令，GPU服务器接收到所述程序控制指令后开始进行数据计算。需要理解的是，在本申请中，GPU服务器内并不包含CPU，通用服务器仅仅是从外部进行程序控制来出发GPU服务器开始运行，而由智能网卡在内部来进行程序操作控制GPU处理计算任务。

本领域人员能够容易理解的是，本申请提供的GPU服务器，在GPU服务器主板上集成PCIe switch，智能网卡和GPU卡通过PCIe插槽插在主板上，主板上提供所需的外围电路，如电压转换电路，时钟电路，并且设计相应的外部接口，如PCIe插槽，电源接口等。本申请提供的智能网卡，在PCB板上集成FPGA芯片，MAC/PHY芯片，并提供所需的外围电路，如电压转换电路，时钟电路等，并且设计相应的外部接口，如PCIe金手指，网口等。

实施例二

基于上述实施例一所公开的GPU服务器，本申请还提供了一种数据计算方法，具体的，应用上述GPU服务器进行数据计算的过程如下：

S1、在GPU服务器内由智能网卡接收并处理数据包。

具体的，所述智能网卡利用MAC芯片从PCIe总线接收到数据包，并利用MAC芯片对上述数据包进行拆分并重新打包，生成数据帧；优选的，数据包被MAC芯片拆分并重新打包成最大1518比特，最小64比特的数据帧。这个帧里面至少包括目标MAC地址、源MAC地址和数据包里面的协议类型(比如IP数据包的类型用80表示)。PHY芯片接收经MAC芯片处理后生成的数据帧，并将上述数据帧转化为模拟信号发出。

S2、智能网卡访问GPU并将转换后的数据帧发送给GPU。

具体的，智能网卡通过RDMA引擎访问GPU，并将转换为模拟信号类型的数据帧，发送给GPU。值得注意的是，在智能网卡进行程序操作之前(即在接收数据包之前)，智能网卡利用集成在其内部的根复合点，将GPU的显存地址空间映射为PCIe域地址空间，为GPU赋予唯一的PCIe域地址空间，以便智能网卡查找。故，智能网卡可以根据GPU的PCIe域地址空间，选择不同的GPU进行后续数据计算处理。

S3、GPU接收数据帧，进行数据计算，生成计算结果。

GPU接收数据帧，利用其自身的计算单元，对接收到的数据帧进行简单运算，生产计算结果。

S4、智能网卡接收计算结果并将所述计算结果传递给目标设备。

智能网卡通过RDMA引擎，访问GPU直接获取GPU内生产的计算结果。在获取到计算结果后，利用自定义芯片，将结算结果转换为以太网数据，并根据之前获取的目标MAC地址，发送给目标设备，例如其他的一些服务器，以便这些设备进行其他操作。

值得注意的是，存在计算任务时，通用服务器发送程序控制指令至所述GPU服务器；所述GPU服务器接收到所述程序控制指令后开始处理所述计算任务。

实施例三

对应上述实施例一和实施例二，本申请还提供了一种数据计算方法，如图3所示，所述方法包括：

310、智能网卡接收并处理数据包；

优选的，所述智能网卡接收并处理数据包，包括：

311、所述智能网卡利用MAC芯片对所述数据包拆分并重新打包，生成数据帧；

312、PHY芯片接收所述数据帧，并将所述数据帧转化为模拟信号；

优选的，所述智能网卡接收并处理数据包之前，所述方法还包括：

313、所述智能网卡利用根复合点，将GPU的显存地址空间映射为PCIe域地址空间，确保GPU地址的唯一性，以便所述智能网卡查找。

320、所述智能网卡通过RDMA引擎访问GPU，并将处理后的数据包发送给所述GPU；

330、所述GPU接收所述处理后的数据包，进行数据计算，生成计算结果；

340、所述智能网卡接收所述计算结果并将所述计算结果传递给目标设备。

优选的，所述智能网卡接收所述计算结果并将所述计算结果传递给目标设备，包括：

341、所述智能网卡利用MAC芯片将接收到的计算结果的数据类型转换为以太网数据；

342、所述智能网卡根据所述数据帧中的所述目标MAC地址，将所述计算结果发送给所述目标MAC地址对应的所述目标设备。

优选的，所述方法还包括：

343、存在计算任务时，通用服务器发送程序控制指令至所述GPU服务器；

344、所述GPU服务器接收到所述程序控制指令后开始处理所述计算任务。

优选的，所述RDMA引擎采用RoCE协议。

实施例四

对应上述所有实施例，本申请实施例还提供一种电子设备，包括：

一个或多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

智能网卡接收并处理数据包；

其中，图4示例性的展示出了电子设备的架构，具体可以包括处理器410，视频显示适配器411，磁盘驱动器412，输入/输出接口413，网络接口414，以及存储器420。上述处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414，与存储器420之间可以通过总线430进行通信连接。

其中，处理器410可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器420可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器420可以存储用于控制电子设备400执行的操作系统421，用于控制电子设备400的低级别操作的基本输入输出系统(BIOS)422。另外，还可以存储网页浏览器423，数据存储管理系统424，以及图标字体处理系统425等等。上述图标字体处理系统425就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器420中，并由处理器410来调用执行。

输入/输出接口413用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口414用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线430包括一通路，在设备的各个组件(例如处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414，与存储器420)之间传输信息。

另外，该电子设备400还可以从虚拟资源对象领取条件信息数据库中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414，存储器420，总线430等，但是在具体实施过程中，该设备还可以包括实现正常执行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，云服务端，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种GPU服务器，其特征在于，

所述GPU服务器包括智能网卡、PCIe Switch、至少一个GPU以及外围电路；

所述智能网卡与所述至少一个GPU通过PCIe Switch互联；

2.根据权利要求1所述的GPU服务器，其特征在于，

所述智能网卡内集成有根复合体、RDMA引擎以及自定义芯片；

所述根复合体用于为所述GPU配置唯一PCIe域地址空间；

所述RDMA引擎用于访问GPU的显存；

3.根据权利要求1所述的GPU服务器，其特征在于，

所述GPU服务器外接通用服务器；

所述通用服务器向所述GPU服务器发送程序控制指令；

4.一种应用于如权利要求1所述的GPU服务器的数据计算方法，其特征在于，所述方法包括：

智能网卡接收并处理数据包；

5.根据权利要求4所述的方法，其特征在于，所述智能网卡接收并处理数据包，包括：

PHY芯片接收所述数据帧，并将所述数据帧转化为模拟信号；

6.根据权利要求4所述的方法，其特征在于，所述智能网卡接收并处理数据包之前，所述方法还包括：

7.根据权利要求5所述的方法，其特征在于，所述智能网卡接收所述计算结果并将所述计算结果传递给目标设备，包括：

8.根据权利要求4-7任一所述的方法，其特征在于，所述方法还包括：

9.根据权利要求4-7任一所述的方法，其特征在于，

所述RDMA引擎采用RoCE协议。

10.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求4-9任一所述方法。