CN113553279B

CN113553279B - 一种rdma通信加速集合通信的方法及系统

Info

Publication number: CN113553279B
Application number: CN202110874526.2A
Authority: CN
Inventors: 谭光明; 马潇潇; 朱泓睿; 王展; 元国军; 安学军
Original assignee: Western Research Institute Of China Science And Technology Computing Technology
Current assignee: Western Research Institute Of China Science And Technology Computing Technology
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2023-04-07
Anticipated expiration: 2041-07-30
Also published as: CN113553279A

Abstract

本发明涉及通信技术领域，具体为一种RDMA通信加速集合通信的方法及系统，其方法包括：S3，网络设备获取WR或网络配置包的通信元数据，判断WR或网络配置包是否为集合通信卸载通信，若是，则执行步骤S4；S4，网络设备获取网络数据，在网络设备上采用细粒度的缓冲区管理机制进行集合通信的卸载任务处理；S6，若本次任务完成、应用下发查询请求或任务出现异常，则网络设备将WR或网络配置包对应的CQE反馈给主机或应用。本方案能高效、易用进行RDMA通信加速集合通信，以解决现有集合通信卸载效率低的问题。

Description

一种RDMA通信加速集合通信的方法及系统

技术领域

本发明涉及通信技术领域，具体为一种RDMA通信加速集合通信的方法及系统。

背景技术

远程数据直接访问(Remote Direct Memory Access，RDMA)技术是进行高性能网络通信的重要数据访问模式，使用RDMA进行数据通信可以旁路主机操作系统，减少数据拷贝，达到高带宽、低时延的高性能网络通信效果。RDMA广泛应用于商业数据中心和高性能计算机集群中，而集合通信是分布式集群通信中常用的通信模式。

集合通信，这种数据通信模式涉及到多个通信节点之间的数据收发，往往涉及到数据由多个计算节点汇集到一个计算节点的通信过程，如规约(Reduce)、全局规约(Allreduce)、收集(Gather)、全局收集(Allgather)等操作。在数据汇集的过程中会造成网络中数据量急剧增加，导致中间汇集节点和根节点成为通信热点和通信瓶颈，其次主机端进行数据的规约计算时则会消耗一部分主机端宝贵的计算资源。

因此，通过在RDMA通信设备上进行集合通信的卸载，在数据经过通信设备的时候对数据进行计算，一方面可以充分旁路主机操作系统，减少主机通信以及计算的开销；另一方面可以减少数据拷贝，并且减少网络中传输的数据量，达到提高集合通信性能的效果。目前，网络设备厂商在网卡或者交换机上开辟一部分用于集合通信加速的数据缓冲区和计算单元，来进行集合通信的数据缓存和数据计算，同时提供了配套的软件和协议，如Core-Direct、SHArP等。

但是，目前的RDMA网络设备集合通信加速方案中，在设计架构上采用简单的缓冲区来进行数据缓存管理，以消息粒度进行数据传输完成情况的反馈，通过上层单独的中间层软件进行集合通信卸载的管理，这样的技术方案在实际应用中并不能满足实际的集合通信需求，会存在下列问题：

(1)当数据通信过程中通信的消息较大时，在消息层面进行数据传输情况的反馈，会导致缓冲区占用时间过长，严重影响缓冲区的使用效率；

(2)粗粒度的缓冲区管理，在数据流水处理上缺乏高效性，无法进行高效率的集合通信加速；

(3)通过中间层软件进行集合通信卸载的管理和调用，导致用户无法直接进行通信设备硬件的感知，以致无法充分利用硬件设备的卸载特性，需要硬件向用户提供集合通信卸载专用的通信原语和调用接口。

特别是在分布式深度学习应用和高性能应用中，存在大量的集合通信操作，如：分布式深度学习训练，需要进行大量的参数更新，对底层通信而言需要进行多次大数据量的Allreduce(典型的相对复杂的集合通信之一)操作，而高性能计算中需要调用大量的消息传递接口(Message Passing Interface，MPI)和集合通信接口，以上的集合通信会显著影响应用的整体性能，因此，现在急需一种RDMA通信加速集合通信的方法及系统，以解决现有集合通信存在问题。

发明内容

本发明的目的之一在于提供一种高效、易用的RDMA通信加速集合通信的方法，以解决现有集合通信卸载效率低的问题。

本发明提供的基础方案一：一种RDMA通信加速集合通信的方法，包括如下步骤：

S3，网络设备获取WR或网络配置包的通信元数据，判断WR或网络配置包是否为集合通信卸载通信，若是，则执行步骤S4；

S4，网络设备获取网络数据，在网络设备上采用细粒度的缓冲区管理机制进行集合通信的卸载任务处理；其中网络设备获取的是WR，在获取网络数据前，网络设备会进行集合通信卸载的配置；

S6，若本次任务完成、应用下发查询请求或任务出现异常，则网络设备将WR或网络配置包对应的CQE反馈给主机或应用。

说明：Work Request(WR)：工作请求；

Completion Queue Element(CQE)：完成队列单元。

基础方案一的有益效果：网络设备获取WR的通信元数据，判断WR或网络配置包是否为集合通信卸载通信，若是，网络设备则获取网络数据，在网络设备上采用细粒度的缓冲区管理机制进行集合通信的卸载任务处理；其中网络设备获取的是WR，在获取网络数据前，网络设备会进行集合通信卸载的配置；因为网络设备除了要进行集合通信卸载以外，还会进行一些普通的网络通信任务，因此首先对WR或网络配置包进行判断，WR或网络配置包是集合通信卸载通信才会触发网络设备进行集合通信的处理，以避免网络设备资源的浪费。

在网络设备进行集合通信任务处理时采用的是细粒度的缓冲区管理机制，相较于现有技术中粗粒度的缓冲区管理，在数据流水处理上缺乏高效性，无法进行高效率的集合通信加速，本方案中的细粒度的缓冲区管理机制可以将缓冲区划分成为小于等于最大传输单元(Maximum Transmission Unit，MTU)的多个分块的小段(Segement)进行管理，可以提高流水处理能力，进而提高缓冲区的利用效率，从而更高效的加速集合通信。

本次任务完成、应用下发查询请求或任务出现异常，均会使网络设备将WR或网络配置包对应的CQE反馈给主机或应用，相较于现有技术中当数据通信过程中通信的消息较大时，在消息层面进行数据传输情况的反馈，会导致缓冲区占用时间过长，严重影响缓冲区的使用效率，本方案通过CQE向主机或应用返回集合通信卸载的执行情况，用户通过主机或应用可以获取网络设备进行集合通信卸载任务的执行情况，当出现多任务的复杂情况下，用户可以准确的获得已有任务的执行状态，进行更加合理的任务调度，确保整体任务的高效的进行；因此不需要通过中间层软件进行集合通信卸载的管理和调用，相较于中间软件层会导致用户无法直接进行网络设备硬件的感知，以致无法充分利用网络设备等硬件设备的卸载特性，需要硬件向用户提供集合通信卸载专用的通信原语和调用接口，本方案无需在上层单独的中间层软件进行集合通信卸载管理，集合通信卸载任务在网络设备中进行，网络设备将WR对应的CQE反馈给主机或应用，用户可以通过主机或应用直接对网络设备中进行的集合通信卸载任务进行管理，从而更方便使用。此外，本方法不仅可以在树形网络中发挥显著效果，也可以用于直连网络中加速集合通信。

进一步，所述S3，还包括：若否，则执行S5；

S5，网络设备获取网络数据，对数据进行普通的网络通信处理。

所述S3之前，还包括：

S1，应用中进行RDMA通信操作，产生数据通信需求；

S2，应用向网络设备下发包含通信元数据的WR或网络配置包，其中通信元数据包含操作类型、门铃信息、请求队列虚拟地址和长度；

所述S6之后，还包括：

S7，检查此次通信所包含的所有通信操作是否执行完成，若执行完成，则执行S8；若执行未完成，则执行S2；

S8，通信任务执行结束。

有益效果：因为网络设备除了要进行集合通信卸载以外，还会进行一些普通的网络通信任务，对WR进行判断，WR是集合通信卸载通信才会触发网络设备进行集合通信卸载的处理，而当WR不是集合通信卸载通信时，网络设备也会获取网络数据，但是对数据进行的是普通的网络通信处理，从而使网络设备能进行集合通信卸载任务的同时，不会影响网络设备原本的网络通信功能。执行不成功，重新执行步骤120，即应用再次向网络设备下发包含通信元数据的WR，确保数据通信的完成。

进一步，所述S4，具体包括：

S401，解析集合通信卸载的配置信息：

S402，发起本地数据读请求或等待接收外部数据；

S403，获取包含网络数据的数据包，对数据包进行解析，判断数据包类型，若是集合通信卸载的最终计算结果，则执行S404；若是待计算的集合通信卸载的数据，则执行S405；

S404，将集合通信卸载的最终计算结果广播到本Node内与此次集合通信相关的各个Rank中；

S405，对待计算的数据进行分块计算；

S406，判断该Node内与此次集合通信相关的所有Rank的数据是否均完成计算，若计算完成，则执行S407；若计算未完成，则执行S402；

S407，若此次集合通信涉及的所有Rank均在本Node内，则直接对计算结果进行Node内广播；若否，则将本Node内完成集合通信计算的数据进行封装，并发往下一Node与其他Node的数据进行进一步的计算；

S408，检查集合通信卸载完成状态，若为完成或出现异常，则执行S6；若否，则执行S402。

说明：Node：含有一个或多个计算通信实体的主机节点；

Rank：主机节点内包含的一个或多个计算通信实体。

有益效果：进行集合通信卸载获取的数据包会判断数据包类型，防止过度计算，并且对Node信息进行判断，若Rank不全在本Node中，会对数据进行封装发送到其他的Node，从而保证所有Rank均完成集合通信卸载。

进一步，所述配置信息包括:重要控制信息；所述重要控制信息包括：Op字段、JID字段、MID字段、SID字段、Node字段、Rank字段、Seg字段、数据分块长度字段、集合通信执行状态字段、地址链表字段、路由信息字段。

说明：Op字段，用于表示集合通信中使用到的计算操作类型，包括：求和和求最值；

JID字段，用于任务号的标志；

MID字段，用于消息号的标志；

SID字段，用于同一消息中数据序列号的标志；

Node字段，用于一次集合通信中涉及到的节点号的标志，集合通信涉及到的节点对应的位置为1，不涉及的节点对应的位置为0；

Rank字段，用于一次集合通信中涉及到的Rank号的标志，集合通信涉及到的本节点内Rank对应的位置为1，不涉及的Rank对应的位置为0；

Seg字段，用于一次集合通信中指定的Seg缓存单元号的标志；

数据分块长度字段，用于表明一个消息的数据按多大的数据块分割进行流水处理；

集合通信执行状态字段，用于表明一次集合通信中执行状态；

地址链表字段，用于存储网络设备上获取各个Rank数据的地址链表；

路由信息字段，用于存储网络设备进行数据转发的路由信息。

Opcode(Op)：操作类型，用于集合通信标志，以及通信中进行求和、取最值等数据计算操作类型；

Job_ID(JID)：任务号，当有多个集合通信卸载任务时，分配独立的JID号；

Message_ID(MID)：消息号，同一个集合通信卸载任务中多个消息的序号；

Sequence_ID(SID)：序列号，大消息被拆分成多个序列处理。

有益效果：上述重要控制信息是支持基于ib_verbs扩展的集合通信卸载原语中提供的关键信息；用户可以通过扩展的集合通信卸载原语直接控制网络设备对消息进行集合通信的卸载，提高了用户的编程性，可以更大程度的利用网络设备的卸载特性。

进一步，所述分块计算为各Seg i缓存单元进行缓存计算，包括：

S4051，开始进行缓存计算；

S4052，接收Seg i’数据；

S4053，检测进行计算的Seg i缓存单元是否为空，若为空，则表示接收到的Seg i’数据是Seg i缓存单元进行集合通信计算的第一块数据，并执行S4054；若不为空，则表示Seg i缓存单元已经有部分集合通信数据进行过计算，并执行S4057；

S4054，获取Seg i缓存单元对应的Op字段、Node字段和Rank字段；

S4056，将获取的Seg i对应的Op字段、Node字段和Rank字段以及接收Seg i数据，填入Seg i缓存单元；

S4057，读取Seg i缓存单元的数据，并提取Op字段用于判定即将进行的计算操作类型；

S4058，将读取到的Seg i数据与接收到Seg i’数据进行Op字段指定的计算操作，并更新Node集合通信完成状态字段和Rank集合通信完成状态字段；

S4059，将数据、Node集合通信完成状态字段和Rank集合通信完成状态字段填写到对应的Seg i缓存单元；

S40510，检查Node集合通信完成状态字段和Rank集合通信完成状态字段，判断该网络设备的Seg i缓存单元是否完成所有与该网络设备相关的集合通信数据计算，若完成，则执行S40511；若未完成，则执行S4052，等待与Seg i相关的其他数据到达；

S40511，将Seg i数据进行数据的封装；

S40512，将Seg i缓存单元进行释放；

S40513，该网络设备关于Seg i的集合通信缓存计算操作完成。

说明：Segment(Seg)：缓冲区中划分成的多个独立的细粒度单元。

有益效果：缓冲区中划分成的多个独立的细粒度单元，每个Seg i缓存单元都进缓冲计算，即集合通信卸载，从而加速集合通信，提高集合通信效率，并且在计算过程中对数据进行判断，从而进行更合理的计算过程，计算完成后即时释放Seg i缓存单元，便于下次计算；可以提高缓冲区的利用率和集合通信的卸载效率，极大释放了主机端对集合通信的资源占用，提高整体通信性能。

本发明的目的之二在于提供一种高效、易用的RDMA通信加速集合通信的系统，以解决现有集合通信卸载效率低的问题。

本发明提供基础方案二：一种RDMA通信加速集合通信的系统，包括:执行控制模块、数据处理模块和状态更新模块；

执行控制模块，用于获取WR或网络配置包，并进行解析和存放、将解析出的集合通信卸载的配置信息下发到数据模块组和状态更新模块；

数据处理模块组，用于在网络设备上采用细粒度的缓冲区管理机制进行集合通信的卸载任务处理；

状态更新模块，用于通过完成事件队列将完成状态信息写回到主机端。

基础方案二的有益效果：本系统中执行控制模块获取WR或网络配置包，并进行解析和存放、将解析出的集合通信卸载的配置信息下发到数据模块组和状态更新模块，不是集合通信卸载的配置信息不下发到数据模块组和状态更新模块，而是进行现有技术中普通的网络通信处理，本方案中不做赘述。数据处理模块组，根据执行控制模块下发的配置信息在网络设备上采用细粒度的缓冲区管理机制进行集合通信的卸载任务处理，相较于现有技术中粗粒度的缓冲区管理，在数据流水处理上缺乏高效性，无法进行高效率的集合通信加速，本系统中的细粒度的缓冲区管理机制可以将缓冲区划分成为小于等于最大传输单元(Maximum Transmission Unit，MTU)的多个分块的小段(Segement)进行管理，可以提高流水处理能力，进而提高缓冲区的利用效率，从而更高效的加速集合通信。

状态更新模块通过完成事件队列将完成状态信息写回到主机端，相较于现有技术中当数据通信过程中通信的消息较大时，在消息层面进行数据传输情况的反馈，会导致缓冲区占用时间过长，严重影响缓冲区的使用效率，本系统通过状态更新模块向主机端返回集合通信卸载的执行情况，用户通过主机或应用可以获取网络设备进行集合通信卸载任务的执行情况，当出现多任务的复杂情况下，用户可以准确的获得已有任务的执行状态，进行更加合理的任务调度，确保整体任务的高效的进行；因此不需要通过中间层软件进行集合通信卸载的管理和调用，相较于中间软件层会导致用户无法直接进行网络设备硬件的感知，以致无法充分利用网络设备等硬件设备的卸载特性，需要硬件向用户提供集合通信卸载专用的通信原语和调用接口，本系统无需在上层单独的中间层软件进行集合通信卸载管理，集合通信卸载任务在网络设备中进行，网络设备中的状态更新模块将WR对应的CQE反馈给主机或应用，用户可以通过主机端直接对网络设备中进行的集合通信卸载任务进行管理，从而更方便使用。此外，本系统不仅可以在树形网络中发挥显著效果，也可以用于直连网络中加速集合通信。

进一步，所述数据处理模块组，包括：数据缓存计算模块、数据解析封装模块和数据传输模块；

数据缓存计算模块，用于对集合通信涉及到的数据进行分块计算；

数据解析封装模块，用于对从网络端口或本地内存中获取的数据，根据执行控制模块下发的配置信息进行数据的解析和拆分，并发送给数据缓存计算模块进行处理；还用于对完成所有集合通信计算之后的数据进行封装，并发送给数据传输模块；

数据传输模块，用于从Node本地内存读取数据，向Node本地内存写入数据，向外部端口发送数据以及从外部端口接收数据；还用于每次通信传输结束后，将数据通信的完成情况发送给状态更新模块。

有益效果：数据处理模块组，包括：数据缓存计算模块、数据解析封装模块和数据传输模块，三个模块与执行控制模块和状态更新模块，为执行集合通信卸载的核心模块，各模块之间配合完成集合通信卸载，数据缓存计算模块、数据解析封装模块和数据传输模块保证了数据的计算和传输。

进一步，所述配置信息包括:重要控制信息；所述重要控制信息包括：Op字段、JID字段、MID字段、SID字段、Node字段、Rank字段、Seg字段、数据分块长度字段、集合通信执行状态字段、地址链表字段和路由信息字段。

说明：Op字段，用于表示集合通信中使用到的计算操作类型，包括：求和、求最值和求均值，供数据缓存计算模块和数据解析封装模块使用；

JID字段，用于任务号的标志，供数据解析封装模块使用；

MID字段，用于消息号的标志，供数据解析封装模块使用；

SID字段，用于同一消息中数据序列号的标志，供数据解析封装模块使用；

Node字段，用于一次集合通信中涉及到的节点号的标志，集合通信涉及到的节点对应的位置为1，不涉及的节点对应的位置为0，供数据缓存计算模块和数据解析封装模块使用；

Rank字段，用于一次集合通信中涉及到的Rank号的标志，集合通信涉及到的本节点内Rank对应的位置为1，不涉及的Rank对应的位置为0，供数据缓存计算模块和数据解析封装模块使用；

Seg字段，用于一次集合通信中指定的Seg缓存单元号的标志，Seg的资源使用由上层驱动管理和控制，供数据缓存计算模块和数据解析封装模块使用；

数据分块长度字段，用于表明一个消息的数据按多大的数据块分割进行流水处理，供数据缓存计算模块和数据解析封装模块使用；

集合通信执行状态字段，用于表明一次集合通信中执行状态，包括完成成功和缓冲区错误，供数据传输模块和状态更新模块使用；

地址链表字段，用于存储网络设备上获取各个Rank数据的地址链表，供数据传输模块使用；

路由信息字段，用于存储网络设备进行数据转发的路由信息，供数据传输模块使用。

进一步，所述数据缓存计算模块，包括：计算控制子模块和缓存子模块；

缓存子模块，包括若干个以Seg为段位的Seg缓存单元；其中，Seg缓存单元，用于缓存计算控制子模块中的数据，以Seg为单位进行存储和计算；

计算控制子模块，用于从执行控制模块中获取配置信息，从缓存子模块中读取Seg数据，使用模块内部的向量计算部件完成同一Seg的输入数据与Seg缓存单元中原始数据的计算，当执行完计算之后，进行对应Seg数据位的更新以及计算后数据的存放，当该节点内关于Seg j的所有Rank完成集合通信的计算之后，释放Seg j单元，并将完成计算的Seg j传递给数据解析封装模块进行后续的封装处理。

有益效果：数据缓存计算模块包括缓存子模块和计算控制子模块，其中缓存子模块包括若干个Seg缓存单元，以将缓冲区中划分成多个独立的细粒度单元，每个Seg i缓存单元都进缓冲计算，并且使用与缓冲区分块大小相匹配的向量计算部件将集合通信中涉及到的简单计算卸载到网络设备，可以进一步释放主机端集合通信占用的计算资源。

进一步，每个Seg中包含多个数据字段，包括：Op字段、Node集合通信完成状态字段、Rank集合通信完成状态字段和数据负载字段；

所述数据缓存计算模块，用于对集合通信涉及到的数据进行分块计算，包括：各Seg i缓存单元进行缓存计算，具体为：

S1，数据缓存计算模块开始进行缓存计算；

S2，接收数据解析封装模块发送的Seg i’数据；

S4，计算控制子模块检测Seg i缓存单元是否为空，若为空，则表示接收到的Segi’数据是Seg i缓存单元进行集合通信计算的第一块数据，并执行S4；若不为空，则表示Segi缓存单元已经有部分集合通信数据进行过计算，并执行S6；

S4，计算控制子模块从执行控制模块中获取Seg i缓存单元对应Op字段、Node字段和Rank字段；

S5，计算控制子模块将获取的Seg i对应的Op字段、Node字段和Rank字段以及接收的由数据解析封装模块发送的Seg i数据，填入Seg i缓存单元；

S6，计算控制子模块从缓存子模块中读取Seg i缓存单元的数据，并提取Op字段用于判定即将进行的计算操作类型；

S7，计算控制子模块将从缓存单元读取到的Seg i数据与接收到的由数据解析封装模块发送的Seg i’数据进行Op字段指定的计算操作，并更新Node集合通信完成状态字段和Rank集合通信完成状态字段；

S8，计算控制子模块将数据、Node集合通信完成状态字段和Rank集合通信完成状态字段填写到对应的Seg i缓存单元；

S9，计算控制子模块检查Node集合通信完成状态字段和Rank集合通信完成状态字段，确定该网络设备的Seg i缓存单元是否完成所有与该设备相关的集合通信数据计算，若完成，则执行S10；若未完成，则执行S2，等待与Seg i相关的其他数据到达；

S10，计算控制子模块将Seg i数据传递给数据解析封装模块，进行数据的封装；

S12，计算控制子模块将Seg i缓存单元释放；

S13，该网络设备关于Seg i的集合通信缓存计算操作完成。

说明：Op字段，用于表示该Seg缓存单元当前集合通信中使用到的计算操作类型，包括：求和、求最值和求均值；

Node集合通信完成状态字段，用于表示来自其他Node的待计算数据的通信完成状态；

Rank集合通信完成状态字段，用于表示来自本Node内各个Rank的待计算数据的完成状态；

数据负载字段，用于存储消息分块之后的固定长度的数据负载，每次以该数据长度大小进行计算和通信的流水处理。

有益效果：缓冲区中划分成的多个独立的细粒度单元，每个Seg i缓存单元都进缓冲计算，即集合通信卸载，从而加速集合通信，提高集合通信效率，并且在计算过程中各模块配合进行更合理的计算过程，计算完成后即时释放Seg i缓存单元，便于下次计算；可以提高缓冲区的利用率和集合通信的卸载效率，极大释放了主机端对集合通信的资源占用，提高整体通信性能。

附图说明

图1为本发明一种RDMA通信加速集合通信的方法实施例一的流程图；

图2为本发明一种RDMA通信加速集合通信的方法实施例一中重要控制信息示意图；

图3为本发明一种RDMA通信加速集合通信的方法实施例一中每个Seg中包含的数据字段示意图；

图4为本发明一种RDMA通信加速集合通信的系统实施例二的逻辑框图；

图5为本发明一种RDMA通信加速集合通信的系统实施例二中数据缓存计算模块的逻辑框图；

图6为本发明一种RDMA通信加速集合通信的系统实施例二中数据缓存计算模块关于Seg i的集合通信卸载执行流程图；

图7为单个网络设备在进行Allreduce集合通信卸载时进行数据包处理的流程图；

图8为4节点网络拓扑集合通信卸载示意图。

具体实施方式

下面通过具体实施方式进一步详细说明：

相关概念和用语说明：

Allreduce：典型的相对复杂的集合通信之一，本文后续集合通信卸载的执行流程将以此操作为例进行介绍；

实施例一

本实施例基本如附图1所示，一种RDMA通信加速集合通信的方法，包括如下步骤：

S1，应用中进行RDMA通信操作，产生数据通信需求；

S2，应用向网络设备下发包含通信元数据的WR或网络配置包，其中通信元数据包含操作类型、门铃信息、请求队列虚拟地址和长度；操作类型包括：集合通信的卸载和普通的网络通信；

S3，网络设备获取WR或网络配置包的通信元数据，判断WR或网络配置包是否为集合通信卸载通信，若是，则执行步骤S4；若否，则执行S5；

S4，网络设备获取网络数据，在网络设备上采用细粒度的缓冲区管理机制进行集合通信的卸载任务处理；其中网络设备获取的是WR，在获取网络数据前，网络设备会进行集合通信卸载的配置；S4具体包括：

S401，解析集合通信卸载的配置信息；其中配置信息包括:重要控制信息；如图2所示，重要控制信息包括：

Op字段，用于表示集合通信中使用到的计算操作类型，包括：求和和求最值；从WR中提取Op字段；

JID字段，用于任务号的标志；

MID字段，用于消息号的标志；

SID字段，用于同一消息中数据序列号的标志；

Node字段，用于一次集合通信中涉及到的节点号的标志，Node字段从WR或者网络配置包中提取，集合通信涉及到的节点对应的位置为1，不涉及的节点对应的位置为0；

Rank字段，用于一次集合通信中涉及到的Rank号的标志，Rank字段从WR中提取，集合通信涉及到的本节点内Rank对应的位置为1，不涉及的Rank对应的位置为0；

Seg字段，用于一次集合通信中指定的Seg缓存单元号的标志，Seg字段从WR中提取，Seg的资源使用由上层驱动管理和控制；

数据分块长度字段，用于表明一个消息的数据按多大的数据块分割进行流水处理；数据分块长度字段从WR或者配置包中获取；

集合通信执行状态字段，用于表明一次集合通信中执行状态，包括完成成功和缓冲区错误；

地址链表字段，用于存储网络设备上获取各个Rank数据的地址链表；地址链表字段从WR中提取；

路由信息字段，用于存储网络设备进行数据转发的路由信息；路由信息字段从WR中或者数据解析封装模块提取。

S402，发起本地数据读请求或等待接收外部数据；

S405，对待计算的数据进行分块计算；其中分块计算为各Seg i缓存单元进行缓存计算，包括：

S4051，开始进行缓存计算；

S4052，接收Seg i’数据；

S4053，检测进行计算的Seg i缓存单元是否为空，若为空，则表示接收到的Seg i’数据是Seg i缓存单元进行集合通信计算的第一块数据，并执行S4054；若不为空，则表示Seg i缓存单元已经有部分集合通信数据进行过计算，并执行S4056；

S4054，获取Seg i缓存单元对应的Op字段、Node字段和Rank字段中；每个Seg中包含多个数据字段，如图3所示，包括：

Op字段，用于表示该Seg缓存单元当前集合通信中使用到的计算操作类型，包括：求和、求最值和求均值；本Op字段与重要控制信息中的Op字段为同一Op字段。

数据负载字段，用于存储消息分块之后的固定长度的数据负载，每次以该数据长度大小进行计算和通信的流水处理；

S4055，将获取的Seg i对应的Op字段、Node字段和Rank字段以及接收Seg i数据，填入Seg i缓存单元；

S4056，读取Seg i缓存单元的数据，并提取Op字段用于判定即将进行的计算操作类型；

S4057，将读取到的Seg i数据与接收到Seg i’数据进行Op字段指定的计算操作，并更新Node集合通信完成状态字段和Rank集合通信完成状态字段；

S4058，将数据、Node集合通信完成状态字段和Rank集合通信完成状态字段填写到对应的Seg i缓存单元；

S4059，检查Node集合通信完成状态字段和Rank集合通信完成状态字段，判断该网络设备的Seg i缓存单元是否完成所有与该网络设备相关的集合通信数据计算，若完成，则执行S40510；若未完成，则执行S4052，等待与Seg i相关的其他数据到达；

S40510，将Seg i数据进行数据的封装；

S40511，将Seg i缓存单元进行释放；

S40512，该网络设备关于Seg i的集合通信缓存计算操作完成。

S5，网络设备获取网络数据，对数据进行普通的网络通信处理；

S6，若本次任务完成、应用下发查询请求或任务出现异常，则网络设备将WR或网络配置包对应的CQE反馈给主机或应用；

S8，通信任务执行结束。

实施例二

本实施例基本如附图4所示：一种RDMA通信加速集合通信的系统，包括：执行控制模块、数据处理模块和状态更新模块；其中数据处理模块组包括：数据缓存计算模块、数据解析封装模块和数据传输模块。执行控制模块、数据解析封装模块、数据缓存计算模块、数据传输模块、和状态更新模块，这五个模块为执行集合通信卸载的核心模块，完成完整的RDMA通信中的集合通信卸载还需要通信设备中其他模块的支持，包括但不仅限于通信上下文管理模块、虚实地址转换模块和主机通信接口模块，此类模块均为常规的通信功能模块，在此不再赘述。

执行控制模块，用于获取WR或网络配置包，并进行解析和存放、将解析出的集合通信卸载的配置信息下发到数据解析封装模块、数据缓存计算模块、数据传输模块和状态更新模块；其中配置信息中包括：重要控制信息；如图2所述，重要控制信息包含的字段如下：

Op字段，用于表示集合通信中使用到的计算操作类型，包括：求和和求最值，从WR中提取Op字段，供数据缓存计算模块和数据解析封装模块使用；

JID字段，用于任务号的标志，供数据解析封装模块使用；

MID字段，用于消息号的标志，供数据解析封装模块使用；

Node字段，用于一次集合通信中涉及到的节点号的标志，Node字段从WR或者网络配置包中提取，集合通信涉及到的节点对应的位置为1，不涉及的节点对应的位置为0，供数据缓存计算模块和数据解析封装模块使用；

Rank字段，用于一次集合通信中涉及到的Rank号的标志，Rank字段从WR中提取，集合通信涉及到的本节点内Rank对应的位置为1，不涉及的Rank对应的位置为0，供数据缓存计算模块和数据解析封装模块使用；

Seg字段，用于一次集合通信中指定的Seg缓存单元号的标志，Seg字段从WR中提取，Seg的资源使用由上层驱动管理和控制，供数据缓存计算模块和数据解析封装模块使用；

数据分块长度字段，用于表明一个消息的数据按多大的数据块分割进行流水处理，数据分块长度字段从WR或者配置包中获取，供数据缓存计算模块和数据解析封装模块使用；

地址链表字段，用于存储网络设备上获取各个Rank数据的地址链表，地址链表字段从WR中提取，供数据传输模块使用；

路由信息字段，用于存储网络设备进行数据转发的路由信息，路由信息字段从WR中或者数据解析封装模块提取，供数据传输模块使用。

数据处理模块组，用于在网络设备上采用细粒度的缓冲区管理机制进行集合通信的卸载任务处理；其中数据处理模块组包括：数据缓存计算模块、数据解析封装模块和数据传输模块；

数据缓存计算模块，用于对集合通信涉及到的数据进行分块计算，实现对网络设备上的缓冲区进行高效管理；以Allreduce操作为例，数据缓存计算模块将对来自各个Node中的各个Rank的数据根据不同Seg选择对应的缓冲区，并且根据从执行控制模块中获取的Op字段进行规约操作。数据缓存计算模块，如图5所示，包括：计算控制子模块和缓存子模块；

缓存子模块，包括若干个以Seg为段位的Seg缓存单元；其中，Seg缓存单元，用于缓存计算控制子模块中的数据，以Seg为单位进行存储和计算；每个Seg中包含多个数据字段，如图所示，包括：Op字段、Node集合通信完成状态字段、Rank集合通信完成状态字段和数据负载字段；

Op字段，用于表示该Seg缓存单元当前集合通信中使用到的计算操作类型，包括：求和、求最值和求均值，新的数据通过Op字段确定Seg缓存单元与新数据进行的计算操作类型；

Node集合通信完成状态字段，用于表示来自其他Node的待计算数据的通信完成状态；具体为：Node集合通信完成状态字段的初始状态是属于该Seg缓存单元接收第一个数据时从执行控制单元中获取的，每当接收到来自其他Node的待计算数据并在本网络设备完成计算时，将Node集合通信完成状态字段中对应Node状态标志位置调节为0，否则，则保持现有状态；当Node集合通信完成状态字段中Node状态标志位置均为0时，则表示该Seg缓存单元有关的所有Node集合通信数据计算完成，可以将数据分发到各个节点；

Rank集合通信完成状态字段，用于表示来自本Node内各个Rank的待计算数据的完成状态；具体为：Rank集合通信完成状态字段的初始状态是属于该Seg缓存单元接收第一个数据时从执行控制单元中获取的，每当接收到来自本Node内各个Rank的待计算数据并在本网络设备完成计算时，将Rank集合通信完成状态字段中对应Rank的状态标志位置调节为0，否则，则保持现有状态；当Rank集合通信完成状态字段中Rank状态标志位置为0时，则表示该Seg缓存单元有关的本Node内的所有Rank集合通信数据计算完成，可以将数据发送到下一级网络设备继续进行集合通信数据计算；

如图6所示，数据缓存计算模块关于Seg i的集合通信卸载执行流程，具体为：

S1，数据缓存计算模块开始进行缓存计算；

S2，接收数据解析封装模块发送的Seg i’数据；

S12，计算控制子模块将Seg i缓存单元释放；

S13，该网络设备关于Seg i的集合通信缓存计算操作完成。

数据解析封装模块，用于对从网络端口或本地内存中获取的数据，根据执行控制模块下发的配置信息进行数据的解析和拆分，并发送给数据缓存计算模块进行处理；还用于对完成所有集合通信计算之后的数据进行封装，并发送给数据传输模块；与普通RDMA通信相比，本方案中的数据解析封装模块解析和封装的信息增加了Op字段、JID字段、MID字段、SID字段、Node字段、Rank字段和Seg字段。普通的网络通信处理的解析与封装也可通过本模块进行。

状态更新模块，用于通过完成事件队列将完成状态信息写回到主机端。当数据传输模块完成一次WR之后，会将本次WR的完成状态信息发送给状态更新模块，与普通RDMA通信的返回状态相比，本状态更新模块增加了关于集合通信卸载的完成状态字段，状态更新模块通过主机通信接口，如DMA等方式将完成状态信息写回到主机端。

具体实施过程：如图7所示：单个网络设备在进行Allreduce集合通信卸载时进行数据包处理的流程，其中网络设备为网卡设备：

步骤701，集合通信开始；

步骤702，应用向网卡下发集合通信卸载WR；

步骤703，网卡通过主机通信接口获取集合通信卸载WR，并由执行控制模块解析集合通信卸载的配置信息；

步骤704，数据传输模块通过主机通信接口发起本地数据读请求或者等待接收外部数据；

步骤705，获取包含网络信息的数据包后，数据解析封装模块对数据包进行解析，判断数据包类型，若是普通的网络通信数据，则执行步骤706；若是Allreduce卸载的最终计算结果，则执行步骤707；若是待计算的Allreduce集合通信数据，则执行步骤708；

步骤706，根据普通RDMA通信数据的处理流程对数据进行封装，通过网口发出或者写入本地内存；

步骤707，将Allreduce卸载的最终计算结果由数据传输模块，通过主机通信接口广播到本节点内与此次Allreduce集合通信相关的各个Rank中；

步骤708，由数据缓存计算模块对待计算的通信数据进行分块计算；

步骤709，判断该节点内与此次Allreduce集合通信相关的所有Rank的数据是否均完成计算，若计算完成，则执行步骤710；若计算未完成，则执行步骤704；

步骤710，若此次集合通信涉及的所有Rank均在本节点内，则直接对计算结果进行节点内广播；若否，则将本节点内完成集合通信计算的数据进行封装，并发往下一节点与其他节点的数据进行进一步的计算；

步骤711，检查整个集合通信卸载完成状态，若为完成或者出现异常，则执行步骤712；若否，则进入步骤704等待数据到达、发起数据读请求。

步骤712，状态更新模块将通信完成状态通过主机通信接口返回到主机内存；

步骤713，此次Allreduce集合通信完成。

如图8所示：以4个Node网络拓扑为例，进行Allreduce集合通信卸载，图8中共4个节点，每个Node内有4个参与集合通信的Rank。

假设图8中所示的交换机以及4个网卡均为支持集合通信卸载的网络设备，单向实线代表进行数据聚合计算的数据流，单向虚线代表进行聚合结果返回的数据流。图8所示的拓扑在进行Allreduce集合通信时，主要经过三个阶段：首先，进行网卡集合通信卸载任务的下发和交换机集合通信卸载的配置；其次，4个网卡分别对各自节点内部各个Rank的数据进行分块计算和流水处理，并将中间计算结果传递给交换机，交换机对来自4个网卡的数据包进行流式计算，获得最终的计算结果；最终，交换机将最终结果广播到各个网卡，网卡在获取数据包后，判断为卸载完成广播包，将最终数据分发到各个Rank对应的地址空间，此次Allreduce集合通信完成。

假设图8中所示的交换机不支持集合通信的卸载，而4个网卡均支持集合通信卸载，那么支持集合通信卸载的4个网卡可以通过交换机或直连网络组成如虚线箭头所示的环，通过Ring算法进行集合通信。图8所示的拓扑在进行Allreduce集合通信时，主要经过三个阶段：首先，进行网卡集合通信卸载任务的下发和集合通信卸载的配置；其次，4个网卡分别对各自节点内部各个Rank的数据进行分块计算和流水处理，并将中间计算结果通过交换机或者直连网络传递给其他节点进行计算；最终，各个网卡上均可以获得集合通信的最终数据结果，并将最终数据分发到各个Rank对应的地址空间，此次Allreduce集合通信完成。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种RDMA通信加速集合通信的方法，其特征在于：包括如下步骤：

S3，网络设备获取工作请求或网络配置包的通信元数据，判断工作请求或网络配置包是否为集合通信卸载通信，若是，则执行步骤S4；

S4，网络设备获取网络数据，在网络设备上采用细粒度的缓冲区管理机制进行集合通信的卸载任务处理；其中网络设备获取的是工作请求，在获取网络数据前，网络设备会进行集合通信卸载的配置；

所述S4，具体包括：

S401，解析集合通信卸载的配置信息：

S402，发起本地数据读请求或等待接收外部数据；

S404，将集合通信卸载的最终计算结果广播到本主机节点内与此次集合通信相关的各个计算通信实体中；

S405，对待计算的数据进行分块计算；

S406，判断该主机节点内与此次集合通信相关的所有计算通信实体的数据是否均完成计算，若计算完成，则执行S407；若计算未完成，则执行S402；

S407，若此次集合通信涉及的所有计算通信实体均在本主机节点内，则直接对计算结果进行主机节点内广播；若否，则将本主机节点内完成集合通信计算的数据进行封装，并发往下一主机节点与其他主机节点的数据进行进一步的计算；

S408，检查集合通信卸载完成状态，若为完成或出现异常，则执行S6；若否，则执行S402；

S6，若本次任务完成、应用下发查询请求或任务出现异常，则网络设备将工作请求或网络配置包对应的完成队列单元反馈给主机或应用。

2.根据权利要求1所述的RDMA通信加速集合通信的方法，其特征在于：所述S3，还包括：若否，则执行S5；

所述S3之前，还包括：

S1，应用中进行RDMA通信操作，产生数据通信需求；

S2，应用向网络设备下发包含通信元数据的工作请求或网络配置包，其中通信元数据包含操作类型、门铃信息、请求队列虚拟地址和长度；

所述S6之后，还包括：

S8，通信任务执行结束。

3.根据权利要求1所述的RDMA通信加速集合通信的方法，其特征在于：所述配置信息包括:重要控制信息；所述重要控制信息包括：Op字段、JID字段、MID字段、SID字段、主机节点字段、计算通信实体字段、Seg字段、数据分块长度字段、集合通信执行状态字段、地址链表字段、路由信息字段；

Op字段，用于表示集合通信中使用到的计算操作类型；

JID字段，用于任务号的标志；

MID字段，用于消息号的标志；

SID字段，用于同一消息中数据序列号的标志；

Node字段，用于一次集合通信中涉及到的节点号的标志；

Rank字段，用于一次集合通信中涉及到的Rank号的标志；

Seg字段，用于一次集合通信中指定的Seg缓存单元号的标志；

4. 根据权利要求1所述的RDMA通信加速集合通信的方法，其特征在于：所述分块计算为各Seg i缓存单元进行缓存计算，Seg：缓冲区中划分成的多个独立的细粒度单元，包括：

S4051，开始进行缓存计算；

S4052，接收Seg i’数据；

S4054，获取Seg i缓存单元对应的Op字段、主机节点字段和计算通信实体字段；

S4056，将获取的Seg i对应的Op字段、主机节点字段和计算通信实体字段以及接收Segi数据，填入Seg i缓存单元；

S4058，将读取到的Seg i数据与接收到Seg i’数据进行Op字段指定的计算操作，并更新主机节点集合通信完成状态字段和计算通信实体集合通信完成状态字段；

S4059，将数据、主机节点集合通信完成状态字段和计算通信实体集合通信完成状态字段填写到对应的Seg i缓存单元；

S40510，检查主机节点集合通信完成状态字段和计算通信实体集合通信完成状态字段，判断该网络设备的Seg i缓存单元是否完成所有与该网络设备相关的集合通信数据计算，若完成，则执行S40511；若未完成，则执行S4052，等待与Seg i相关的其他数据到达；

S40511，将Seg i数据进行数据的封装；

S40512，将Seg i缓存单元进行释放；

S40513，该网络设备关于Seg i的集合通信缓存计算操作完成。

5.一种RDMA通信加速集合通信的系统，其特征在于：包括:执行控制模块、数据处理模块和状态更新模块；

执行控制模块，用于获取工作请求或网络配置包，并进行解析和存放、将解析出的集合通信卸载的配置信息下发到数据模块组和状态更新模块；

数据处理模块组，用于在网络设备上采用细粒度的缓冲区管理机制进行集合通信的卸载任务处理；包括：S401，解析集合通信卸载的配置信息：

S402，发起本地数据读请求或等待接收外部数据；

S405，对待计算的数据进行分块计算；

6.根据权利要求5所述的RDMA通信加速集合通信的系统，其特征在于：所述数据处理模块组，包括：数据缓存计算模块、数据解析封装模块和数据传输模块；

数据传输模块，用于从主机节点本地内存读取数据，向主机节点本地内存写入数据，向外部端口发送数据以及从外部端口接收数据；还用于每次通信传输结束后，将数据通信的完成情况发送给状态更新模块。

7.根据权利要求5所述的RDMA通信加速集合通信的系统，其特征在于：所述配置信息包括:重要控制信息；所述重要控制信息包括：Op字段、JID字段、MID字段、SID字段、主机节点字段、计算通信实体字段、Seg字段、数据分块长度字段、集合通信执行状态字段、地址链表字段和路由信息字段；

Op字段，用于表示集合通信中使用到的计算操作类型；

JID字段，用于任务号的标志；

MID字段，用于消息号的标志；

SID字段，用于同一消息中数据序列号的标志；

Node字段，用于一次集合通信中涉及到的节点号的标志；

Rank字段，用于一次集合通信中涉及到的Rank号的标志；

Seg字段，用于一次集合通信中指定的Seg缓存单元号的标志；

8.根据权利要求6所述的RDMA通信加速集合通信的系统，其特征在于：所述数据缓存计算模块，包括：计算控制子模块和缓存子模块；

缓存子模块，包括若干个以Seg为段位的Seg缓存单元；其中，Seg缓存单元，用于缓存计算控制子模块中的数据，以Seg为单位进行存储和计算；Seg：缓冲区中划分成的多个独立的细粒度单元；

计算控制子模块，用于从执行控制模块中获取配置信息，从缓存子模块中读取Seg数据，使用模块内部的向量计算部件完成同一Seg的输入数据与Seg缓存单元中原始数据的计算，当执行完计算之后，进行对应Seg数据位的更新以及计算后数据的存放，当该主机节点内关于Seg j的所有计算通信实体完成集合通信的计算之后，释放Seg j单元，并将完成计算的Seg j传递给数据解析封装模块进行后续的封装处理。

9.根据权利要求8所述的RDMA通信加速集合通信的系统，其特征在于：每个Seg中包含多个数据字段，包括：Op字段、主机节点集合通信完成状态字段、计算通信实体集合通信完成状态字段和数据负载字段；

S1，数据缓存计算模块开始进行缓存计算；

S2，接收数据解析封装模块发送的Seg i’数据；

S3，计算控制子模块检测Seg i缓存单元是否为空，若为空，则表示接收到的Seg i’数据是Seg i缓存单元进行集合通信计算的第一块数据，并执行S4；若不为空，则表示Seg i缓存单元已经有部分集合通信数据进行过计算，并执行S6；

S4，计算控制子模块从执行控制模块中获取Segi缓存单元对应Op字段、主机节点字段和计算通信实体字段；

S5，计算控制子模块将获取的Seg i对应的Op字段、主机节点字段和计算通信实体字段以及接收的由数据解析封装模块发送的Seg i数据，填入Seg i缓存单元；

S7，计算控制子模块将从缓存单元读取到的Segi数据与接收到的由数据解析封装模块发送的Seg i’数据进行Op字段指定的计算操作，并更新主机节点集合通信完成状态字段和计算通信实体集合通信完成状态字段；

S8，计算控制子模块将数据、主机节点集合通信完成状态字段和计算通信实体集合通信完成状态字段填写到对应的Seg i缓存单元；

S9，计算控制子模块检查主机节点集合通信完成状态字段和计算通信实体集合通信完成状态字段，确定该网络设备的Seg i缓存单元是否完成所有与该设备相关的集合通信数据计算，若完成，则执行S10；若未完成，则执行S2，等待与Seg i相关的其他数据到达；

S12，计算控制子模块将Seg i缓存单元释放；

S13，该网络设备关于Seg i的集合通信缓存计算操作完成。