CN114625220A

CN114625220A - 服务器及其数据处理方法

Info

Publication number: CN114625220A
Application number: CN202110384276.4A
Authority: CN
Inventors: 赖振楠
Original assignee: Hosin Global Electronics Co Ltd
Current assignee: Hosin Global Electronics Co Ltd
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2022-06-14

Abstract

一种服务器及其数据处理方法，包括：连接于CPU总线的中央处理单元和内存，还包括：局部总线，所述局部总线通过局部总线桥连接至所述CPU总线；网络接口控制器，连接至所述局部总线，用于与客户端之间建立基于RDMA协议进行通信的虚拟通道；计算单元，连接至所述局部总线，用于通过局部总线，接收网络接口控制器获取的客户端的原始数据，并基于设定的算法对所述原始数据进行计算，以及通过所述局部总线向所述网络接口控制器输出计算结果。上述服务器的效率高延迟小。

Description

服务器及其数据处理方法

技术领域

本申请涉及人工智能技术领域，具体涉及一种服务器及其数据处理方法。

背景技术

在网络中，服务器可为其它客户机提供计算或者应用服务。与普通计算机相比，服务器具有高速的运算能力、长时间的可靠运行、强大的I/O外部数据吞吐能力以及更好的扩展性。现在的服务器除了中央处理器CPU之外，还可能包括其他计算单元，用于进行一些高性能的智能计算，例如进行机器学习等，以便向用户即反馈对应的计算结果。

用于智能计算的服务器与普通的计算机内部结构相差不大，包括中央处理单元(Central Processing Unit，CPU)、硬盘、内存、系统总线等。针对高性能计算的服务器还包括用于执行智能计算的计算单元，用于对数据进行特定的智能计算。

现有技术中，传统的TCP/IP技术在数据包处理过程中，要经过操作系统及其他软件层，需要占用大量的服务器资源和内存总线带宽，数据在系统内存、处理器缓存和网络控制器缓存之间来回进行复制移动，给服务器的CPU和内存造成了沉重负担，尤其是网络带宽、处理器速度与内存带宽三者的严重"不匹配性"，更加剧了网络延迟效应。具体的，用于智能计算的服务器接收到的数据后，首先要将数据存储至内存中，再由计算单元从内存读取数据；计算单元计算完成之后的计算结果，也要先存储至内存，再从内存向外发送至客户机。整个过程中，数据传输路径较长，且全程需要由CPU参与调度控制，导致CPU的任务繁重。服务器再面对多个客户机的情况下，容易造成CPU负荷过重，响应延迟的问题。

发明内容

鉴于此，本申请提供一种服务器及其数据处理方法，以解决现有的服务器的反馈延迟的问题。

本申请提供的一种服务器，包括：连接于CPU总线的中央处理单元和内存，还包括：局部总线，所述局部总线通过局部总线桥连接至所述CPU总线；网络接口控制器，连接至所述局部总线，用于与客户端之间建立基于RDMA协议进行通信的虚拟通道；计算单元，连接至所述局部总线，用于通过局部总线，接收网络接口控制器获取的客户端的原始数据，并基于设定的算法对所述原始数据进行计算，以及通过所述局部总线向所述网络接口控制器输出计算结果。

可选的，还包括：存储单元，连接于所述局部总线，用于存储所述计算单元进行计算时所需的算法以及参数。

可选的，所述局部总线包括：PCIe总线、AMBA总线、AHBA总线中的至少一种。

可选的，所述计算单元包括：算法处理器以及连接至所述算法处理器的设备内存。

可选的，所述算法处理器包括GPU，所述内存包括GDDR。

可选的，所述局部总线桥用于控制所述网络接口控制器与所述计算单元之间的数据传输。

本申请还提供一种如上述任一项所述的服务器的数据处理方法，包括：与客户端之间建立基于RDMA协议进行通信的虚拟通道；通过所述虚拟通道接收客户端的原始数据，并通过局部总线，将所述原始数据传输至所述计算单元；通过所述计算单元基于设定算法对所述原始数据进行计算，并输出计算结果至所述网络接口控制器；所述网络接口控制器将所述计算结果通过所述虚拟通道发送至客户端。

可选的，还包括：通过连接于所述局部总线的存储单元，预存储所述计算单元进行计算时设定的算法以及参数；所述计算单元在对原始数据进行计算时，从所述存储单元内读取设定的算法以及参数。

可选的，所述网路接口器包括接口缓存；所述网络接口控制器通过所述虚拟通道接收客户端的原始数据，并通过局部总线将所述原始数据传输至所述计算单元的方法包括：所述网络接口控制器开启接口缓存，通过所述虚拟通道接收客户端发送的原始数据，并缓存至所述接口缓存内；所述网络接口控制器数据接收完毕后，向所述局部总线桥发送中断信号；所述局部总线桥在接收到中断信号后，将所述接口缓存内的原始数据通过局部总线传输至所述计算单元。

可选的，所述计算单元输出计算结果至所述网络接口控制器的方法包括：当所述计算单元对原始数据的计算结束，获得计算结果后，向所述局部总线桥发送中断信号；所述局部总线桥接收到中断信号后，将所述计算结果通过局部总线，传输至所述网络接口控制器。

本申请上述服务器与客户端之间通过网络接口控制器建立基于RDMA通信协议的虚拟通道，将客户端发送的原始数据通过局部总线直接传输至计算单元，以及将计算结果直接传输至所述网络接口控制器。通过局部总线直接进行数据传输，无需服务器CPU、CPU总线以及内存的参与，整个机器学习的数据处理过程，不会增加CPU的负荷，数据传输效率提高，能够有效缩短延时。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例的服务器的结构示意图；

图2是本申请一实施例的服务器的结构示意图；

图3是本申请一实施例的服务器与客户端进行通信的结构示意图；

图4是本申请一实施例的服务器与客户端进行通信的结构示意图；

图5是本申请一实施例的服务器的数据处理的流程示意图。

具体实施方式

下面结合附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，下述各个实施例及其技术特征可以相互组合。

请参考图1，为本发明一实施例的服务器的结构示意图。

所述服务器为具有高性能智能计算服务的服务器，特别的可以为用于机器学习的服务器。机器学习服务器为快速智能交易、图像识别、智能认证等提供智能计算服务系统，其响应快速智能交易、图像识别、智能认证等业务客户端的数据处理请求。

该实施例中，所述服务器包括：连接于CPU总线141的中央处理单元(CPU)110和内存120，以及局部总线142连接至所述局部总线142的网络接口控制器131和计算单元133，所述局部总线142通过局部总线桥(bus bridge)150连接至所述CPU总线141。

所述内存120通常采用易失性存储器，例如DRAM(Dynamic Random AccessMemory，动态随机存取存储器)，内存120与CPU 110之间直接通过CPU总线141进行数据交互。

所述CPU 110可基于主操作系统控制服务器运行，例如实现进程管理、存储管理、设备管理、文件管理、作业管理、输入/输出等。上述主操作系统既可以是UNIX、windows NT等单体内核结构的操作系统，也可以是SUE等层次式结构的操作系统。具体地，CPU 110可与内存120等配合实现对服务器的运行控制。在一些实施例中，所述服务器还包括DMA(DirectMemory Access，直接存储器访问)控制器210(请参考图2)，所述DMA控制器210可以在外设与内存120之间建立高速的数据传输通道，使得外设能够直接访问内存120。

所述局部总线142用于连接外设，根据CPU110的类型不同，所述局部总线142也可以是基于不同的总线协议，例如，所述局部总线142可以包括：PCIe总线、AMBA总线、AHBA总线中的至少一种。在一个实施例中，所述CPU110为基于X86架构的处理器，所述局部总线142采用PCIe总线；在另一实施例中，所述CPU110为ARM处理器，所述局部总线142可以采用AMBA总线或AHBA总线。

所述局部总线142通过局部总线桥150连接至所述CPU总线141。中央处理器CPU110通过局部总线桥150访问连接至局部总线142上的设备。所述局部总线桥150通常还具备仲裁功能，在接收到多个任务的请求时，根据任务优先级控制所述局部总线142与CPU总线141之间依次完成各个任务的数据传输。

所述局部总线150不仅用于控制CPU总线141与局部总线142之间的数据传输，还用于控制所述局部总线142上的数据传输，通过仲裁方式，依次处理所述局部总线142上连接的各个外设的请求，合理控制各个外设之间的数据传输。特别的，所述局部总线桥150用于控制所述网络接口控制器131与所述计算单元133之间的数据传输。

所述存储单元132为非易失性存储器，可以为采用闪存的固态硬盘(Solid StateDisk，SSD)支持高速存储。在其他实施例中，所述存储单元132还可以采用相变存储技术的3D X-point存储器、铁电存储器或机械硬盘(SSHD)等。

主操作系统存储于所述存储单元132内，并在服务器启动时，由中央处理单元110将主操作系统的指令集通过局部总线142、局部总线桥150以及CPU总线141载入到内存120内。服务器运行过程中，CPU 110运行产生的数据存储于内存120中，再通过CPU总线141、、局部总线桥150以及局部总线142存储至所述存储单元132中。

所述网络接口控制器(NIC)131用于与外部的客户端之间建立网络通信连接，所述网络通信连接可以采用有线或无线方式，与客户端的网络接口控制器之间建立通信连接。且，该实施例中，所述网络接口控制器131支持RDMA协议，能够与同样支持RDMA通信的客户端之间建立虚拟通道(Virtual Channel)，所述虚拟通道基于RDMA协议进行数据传输。虚拟通道可在单个物理链路及连接中创建多条逻辑数据路径，各条路径会分配以各自的网络资源(队列、缓冲区到缓冲区信用等流量控制机制等等)，实现高效的数据传输。在虚拟通道建立后，对于客户端来说，所述服务器为虚拟服务器，客户端直接通过RDMA协议直接与所述计算单元133之间进行数据传输。并且，通过虚拟通道实现网路中，各个客户端与服务器之间的数据传输的隔离以及可控性。

在一个实施例中，服务器端在虚拟通道一侧完成通道的建立操作，然后向客户端发送业务建立消息，客户端接收导消息后，在客户端完成通道的建立。

所述计算单元133可以通过局部总线142接收网络接口控制器131获取的客户端的原始数据，并基于设定的算法对所述原始数据进行智能计算，例如对原始数据进行训练，进而实现机器学习，以及通过所述局部总线142向所述网络接口控制器131输出计算结果。所述计算单元133通常包括用于计算的处理器以及用于存储计算结构的设备内存。该实施例中，所述计算单元133的处理器为GPU(图形处理器)，所述设备内存为GDDR。在其他实施例中，所述计算单元133还可以包括FPGA(Field Programmable Gate Array，现场可编程逻辑门阵列)所述FPGA内部编程有计算电路作为处理器，以及编程有存储电路作为设备内存。

所述存储单元132，连接于所述局部总线142，用于存储所述计算单元133进行智能计算时所需的算法以及参数。以进行机器学习为例，所述计算单元133在使用从客户端接收到的原始数据进行训练学习时，从所述存储单元132读取需要的参数和预设的算法。在其他实施例中，所述计算单元133可以包括使用非易失性存储器作为设备内存，例如GDDR内存，可以将所述设定的算法直接存储于所述非易失性存储器内，在进行计算时，无需从存储单元132中再次载入算法，从而可以提高处理效率。另一个实施例中，所述设定的算法可以由服务器外部进行设置，存储于内存120之后，再通过CPU 110将数据传输至所述存储单元132内。

所述网络接口控制器131通过虚拟通道获取客户端发送的原始数据后，通过所述局部总线142向所述局部总线桥150发送一中断信号(interrupt)，所述局部总线桥150接收到所述中断信号后，将原始数据从所述网络接口控制器131通过所述局部总线142传输至计算单元133，由所述计算单元133对原始数据进行计算。具体的，所述网络接口控制器131具有缓存，用于存储接收到的原始数据；所述原始数据从网络接口控制器131的缓存传输至所述计算单元133的设备内存中，并通过计算单元133的处理器(例如GPU)进行计算，得到计算结果存储于计算单元133的设备内存(例如GDDR)中。

所述计算单元133处理完原始数据后，通过所述局部总线142向所述局部总线桥150发送一中断信号，所述局部总线桥150接收到所述中断信号后，通过所述局部总线142将计算结果从计算单元133的设备内存中传输至所述网络接口控制器131的缓存中，并通过所述网络接口器131发送至客户端。

上述原始数据网络接口控制器131将原始数据传输至计算单元133，以及将计算结果传输至所述网络接口控制器131的过程中，通过局部总线142直接进行原始数据传输和计算结果传输，无需CPU 110、CPU总线141以及内存120的参与，整个计算的数据处理过程，不会增加CPU的负荷，数据传输效率提高，能够有效缩短延时。

请参考图3和图4为本发明一具体实施例的服务器与客户端之间通信的示意图。

该实施例中，所述客户端具有CPU总线341，连接于所述CPU总线341上的CPU 310、内存320；还包括局部总线342，局部总线342通过局部总线桥350连接所述CPU总线341。所述局部总线342上连接有网络接口控制器331、存储单元332，该实施例中，还包括图形处理单元333，用于对数字信号进行处理形成模拟信号，并通过显示适配器进行显示。所述图形处理单元333包括GPU和GDDR，用于连接显示设备。

所述客户端的网络接口控制器331与服务器的网络接口控制器131之间用于形成RDMA数据通道。所述客户端的存储单元通过所述RDMA数据通道以及各自的局部数据总线342以及局部总线142，与所述服务器的计算单元133之间建立有直接数据传输通道。

请参考图3，在客户端向服务器发送原始数据时，局部总线桥350将原始数据从存储单元332通过局部总线342传输至所述网络接口控制331的缓存内。网络接口331通过所述虚拟通道将所述原始数据发送至服务器的网络接口控制器131内，再由所述局部总线桥150将原始数据从所述网络接口控制器131的缓存中通过局部总线142传输至所述计算单元133内，以实现利用所述原始数据来进行智能训练，例如根据原始数据进行训练、进而进行机器学习等。

请参考图4，在服务器向客户端发送计算结果时，局部总线桥150将计算结果从计算单元133的内存中，通过局部总线142传输至所述网络接口控制131的缓存内。网络接口131通过所述虚拟通道将计算结果发送至客户端的网络接口控制器331，再由所述局部总线桥350将计算结果从所述网络接口控制器331的缓存通过局部总线342传输至所述存储单元332内。

进一步，本发明的实施例还提供一种数据处理方法。

请参考图5，为本发明一实施例的数据处理方法的流程示意图。

所述机器学习的数据处理方法采用上述实施例所述的服务器。所述数据处理方法包括如下步骤：

S101：与客户端之间建立基于RDMA通信协议的虚拟通道。

可以通过所述网络接口控制器与客户端直接建立所述虚拟通道。所述虚拟通道可在单个物理链路及连接中创建多条逻辑数据路径，各条路径会分配以各自的网络资源(队列、缓冲区到缓冲区信用等流量控制机制等等)，实现高效的数据传输。在虚拟通道建立后，对于客户端来说，所述服务器为虚拟服务器，客户端直接通过RDMA协议直接与所述计算单元133之间进行数据传输。并且，通过虚拟通道实现网路中，各个客户端与服务器之间的数据传输的隔离以及可控性。

S102：通过虚拟通道接收客户端的原始数据，并通过局部总线，将所述原始数据传输至所述计算单元。

所述网路接口器包括接口缓存；所述网络接口控制器通过RDMA数据通道接收客户端的原始数据，并通过局部总线将所述原始数据传输至所述计算单元的方法包括：所述网络接口控制器开启接口缓存，通过RDMA数据通道接收客户端发送的原始数据，并缓存至所述接口缓存内；所述网络接口控制器数据接收完毕后，向所述局部总线桥发送中断信号；所述局部总线桥在接收到中断信号后，将所述接口缓存内的原始数据通过局部总线传输至所述计算单元。

S103：所述计算单元基于设定算法对所述原始数据进行计算，并输出计算结果至所述网络接口控制器。

通过连接于所述局部总线上的存储单元，所述存储单元内预存储有所述计算单元进行智能计算时所需的设定的算法以及参数。所述计算单元在对原始数据进行计算时，从所述存储单元内读取设定的算法以及参数。

所述计算单元输出计算结果至所述网络接口控制器的方法包括：当所述计算单元对原始数据的计算，获得计算结果后，向所述局部总线桥发送中断信号；所述局部总线桥接收到终端指令后，将所述计算结果通过局部总线，传输至所述网络接口控制器。

S104：所述网络接口控制器将所述计算结果通过虚拟通道发送至客户端。

上述数据处理方法是基于在服务器与客户端之间建立基于RDM协议的虚拟通道来实现的，服务器的计算单元通过局部总线直接接收客户端发送的原始数据，对原始数据进行计算；再通过局部总线将计算结果传输至网络接口控制器，通过网络接口控制器发送至客户端。整个数据处理过程的数据传输路径较短，且不需要服务器的CPU参与，能够降低延迟，提高效率。

需要说明的是，本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，例如各实施例之间技术特征的相互结合，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种服务器，包括：连接于CPU总线的中央处理单元和内存，其特征在于，还包括：

局部总线，所述局部总线通过局部总线桥连接至所述CPU总线；

网络接口控制器，连接至所述局部总线，用于与客户端之间建立基于RDMA协议进行通信的虚拟通道；

计算单元，连接至所述局部总线，用于通过局部总线，接收网络接口控制器获取的客户端的原始数据，并基于设定的算法对所述原始数据进行计算，以及通过所述局部总线向所述网络接口控制器输出计算结果。

2.根据权利要求1所述的服务器，其特征在于，还包括：存储单元，连接于所述局部总线，用于存储所述计算单元进行计算时所需的算法以及参数。

3.根据权利要求1所述的服务器，其特征在于，所述局部总线包括：PCIe总线、AMBA总线、AHBA总线中的至少一种。

4.根据权利要求1所述的服务器，其特征在于，所述计算单元包括：算法处理器以及连接至所述算法处理器的设备内存。

5.根据权利要求4所述的服务器，其特征在于，所述算法处理器包括GPU，所述内存包括GDDR。

6.根据权利要求1所述的服务器，其特征在于，所述局部总线桥用于控制所述网络接口控制器与所述计算单元之间的数据传输。

7.一种如权利要求1至6中任一项所述的服务器的数据处理方法，其特征在于，包括：

与客户端之间建立基于RDMA协议进行通信的虚拟通道；

通过所述虚拟通道接收客户端的原始数据，并通过局部总线，将所述原始数据传输至所述计算单元；

通过所述计算单元基于设定算法对所述原始数据进行计算，并输出计算结果至所述网络接口控制器；

所述网络接口控制器将所述计算结果通过所述虚拟通道发送至客户端。

8.根据权利要求7所述数据处理方法，其特征在于，还包括：通过连接于所述局部总线的存储单元，预存储所述计算单元进行计算时设定的算法以及参数；所述计算单元在对原始数据进行计算时，从所述存储单元内读取设定的算法以及参数。

9.根据权利要求7所述的数据处理方法，其特征在于，所述网路接口器包括接口缓存；所述网络接口控制器通过所述虚拟通道接收客户端的原始数据，并通过局部总线将所述原始数据传输至所述计算单元的方法包括：所述网络接口控制器开启接口缓存，通过所述虚拟通道接收客户端发送的原始数据，并缓存至所述接口缓存内；所述网络接口控制器数据接收完毕后，向所述局部总线桥发送中断信号；所述局部总线桥在接收到中断信号后，将所述接口缓存内的原始数据通过局部总线传输至所述计算单元。

10.根据权利要求7所述的数据处理方法，其特征在于，所述计算单元输出计算结果至所述网络接口控制器的方法包括：当所述计算单元对原始数据的计算结束，获得计算结果后，向所述局部总线桥发送中断信号；所述局部总线桥接收到中断信号后，将所述计算结果通过局部总线，传输至所述网络接口控制器。