CN118227343A

CN118227343A - 一种数据处理方法、系统、装置、设备、介质及产品

Info

Publication number: CN118227343A
Application number: CN202410658894.7A
Authority: CN
Inventors: 黄伟; 王彦伟; 李仁刚
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2024-05-27
Filing date: 2024-05-27
Publication date: 2024-06-21

Abstract

本发明公开了一种数据处理方法、系统、装置、设备、介质及产品，涉及通信技术领域。负载的计算资源（硬件加速器）由开放性互联协议单独传输至DPU，无需仅通过CPU和网卡这样的传输途径，这样计算资源和存储资源各自占用一条传输途径，使得CPU的带宽利用率提高，同时为其他存储资源的负载提供更多的带宽利用，也节省CPU的计算资源。另外，基于开放式互联协议进行数据传输，在DPU内获取信息的带宽和时延显著提升。同时，硬件加速器和CPU各自的传输途径，使得不支持开放式互联协议的部件依旧可以采用原有的CPU进行通信传输，进而保证足够的设备兼容性。

Description

一种数据处理方法、系统、装置、设备、介质及产品

技术领域

本发明涉及通信技术领域，特别是涉及一种数据处理方法、系统、装置、设备、介质及产品。

背景技术

算力感知是网络对算力资源和算力服务的部署位置、实时状态、负载信息、业务需求的全面感知。通过无所不在的网络连接分布式的计算节点，实现服务的自动化部署、最优路由和负载均衡，从而构建可以感知算力的全新网络基础设施，保证网络能够按需、实时调度不同位置的计算资源，提高网络和计算资源利用率。

当前的算力感知网络，采用中央处理器（Central Processing Unit，CPU）和单个图形处理器（Graphics Processing Unit，GPU）或者单个现场可编程门阵列（FieldProgrammable Gate Array，FPGA）进行通信，所有的数据和网卡之间的交互过程，均通过CPU实现，由于GPU或者FPGA等这样的负载对应的计算资源在CPU和网卡之间的传输占用较多的带宽，导致CPU和网卡之间传输时，剩余的带宽利用率降低。

因此，如何提高CPU的带宽利用率和节省CPU的计算资源是本领域技术人员亟需要解决的。

发明内容

本发明的目的是提供一种数据处理方法、系统、装置、设备、介质及产品，以解决算力网络中仅通过CPU与网卡实现交互，导致CPU和网卡之间传输时，剩余的带宽利用率降低的问题。

为解决上述技术问题，本发明提供一种数据处理方法，应用于计算节点，所述计算节点包括DPU、硬件加速器、存储器和中央处理器；所述存储器与所述中央处理器连接；所述中央处理器和所述硬件加速器均通过开放性互联协议与所述DPU连接；所述DPU用于接收所述中央处理器的算力信息和所述硬件加速器的算力信息；包括：

获取所述DPU的第一数据包；其中，所述DPU为支持开放性互联协议，且支持所述硬件加速器和所述中央处理器分别对应的算力信息进行算力网络处理的处理器；

将第一数据包进行解析提取得到对应的第一算力信息；并将第一算力信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包；

根据所述第一算力信息对应的流向类型确定待传输的路由节点，以便于将所述第二数据包传输至路由节点。

一方面，所述硬件加速器至少为图形处理器、现场可编程逻辑门阵列和专用集成电路的一种或者多种。

另一方面，所述第一数据包由所述硬件加速器的算力信息和/或所述中央处理器的算力信息基于开放性互联协议传输至所述DPU，并进行算力网络处理得到。

另一方面，基于开放性互联协议将所述硬件加速器的算力信息和/或所述中央处理器的算力信息传输至所述DPU，包括：

获取开放性互联协议对应的协议传输单元；

根据所述硬件加速器的算力信息和/或所述中央处理器的算力信息确定算力信息的流向类型；

将算力信息的流向类型设定至所述协议传输单元的协议级消息的数据槽内；

将算力信息设定在所述协议传输单元的用于表征请求响应消息对应的数据块的数据槽内；

将多个设定后的协议传输单元作为第二数据包，并传输至所述DPU。

另一方面，算力信息的流向类型的确定过程，包括：

获取算力信息对应的所述硬件加速器和/或所述中央处理器对应的计算任务；

根据所述计算任务确定算力信息的流向类型；其中，所述流向类型包括算力感知类型、算力通告类型、测试类型和调度类型。

另一方面，将算力信息设定在所述协议传输单元的用于表征请求响应消息对应的数据块的数据槽内，包括：

根据算力信息的来源确定算力信息的算力服务标识类型；

获取算力信息对应的网络资源信息；其中，所述网络资源信息至少包括中央处理器利用率、内存使用率、图像处理器使用率、显存使用率、磁盘使用率、网络丢包率和网络带宽使用率的一种或者多种；

将算力信息的算力服务标识类型和所述网络资源信息保存至所述协议传输单元的用于表征请求响应消息对应的数据块的数据槽内。

另一方面，根据算力信息的来源确定算力信息的算力服务标识类型，包括：

获取算力信息的目标来源方向；其中，所述目标来源方向为所述中央处理器或者所述硬件加速器；

根据所述目标来源方向确定算力信息的算力服务标识类型。

另一方面，将第一算力信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包，包括：

获取所述第一算力信息的算力服务标识类型和对应的网络资源信息；

根据所述算力服务标识类型确定所述第一算力信息的类型信息；

根据所述第一算力信息的网络资源信息匹配对应的实际网络资源；

将所述实际网络资源、所述第一算力信息和所述类型信息作为算力感知信息；

将所述算力感知信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的所述第二数据包。

另一方面，将所述算力感知信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包，包括：

获取任意两个节点之间传输的第一数据帧对应的有效载荷数据的数据空间；

获取所述算力感知信息对应的数据空间；

根据所述算力感知信息对应的数据空间对所述第一数据帧对应的有效载荷数据的数据空间进行压缩，以便于将所述算力感知信息对应的数据空间封装在所述第一数据帧内得到所述第二数据包。

获取所述算力感知信息对应的数据空间；

根据所述算力感知信息对应的数据空间预留对应的预设数据空间；其中，所述预设数据空间大于或者等于所述算力感知信息对应的数据空间；

根据所述预设数据空间对所述第一数据帧对应的有效载荷数据的数据空间进行压缩，以便于将所述算力感知信息对应的数据空间封装在所述第一数据帧内得到所述第二数据包。

另一方面，所述第一数据帧的结构至少包括协议报头、网际互连协议报头、用户数据报协议报头、无限带宽协议报头、数据空间和循环冗余校验码；其中，所述数据空间包括所述算力感知信息对应的数据空间和压缩后的有效载荷数据的数据空间。

另一方面，所述协议报头为以太网协议报头，所述第一数据帧为基于以太网的远程直接数据存取技术的数据帧。

为解决上述技术问题，本发明还提供一种数据处理方法，应用于路由节点，所述路由节点包括DPU、硬件加速器、存储器和中央处理器；所述存储器与所述中央处理器连接；所述中央处理器和所述硬件加速器均通过开放性互联协议与所述DPU连接；所述DPU用于接收所述中央处理器的算力信息和所述硬件加速器的算力信息；包括：

获取所述DPU的第二数据包；其中，所述DPU为支持开放性互联协议，且支持所述硬件加速器和所述中央处理器分别对应的算力信息进行算力网络处理的处理器；

将所述第二数据包进行解析提取得到对应的第二算力信息；

将所述第二算力信息进行算力调度计算，以生成路由表进行算力调度。

一方面，在获取所述DPU的第二数据包之后，还包括：

确定所述第二数据包的发送来源；

若所述第二数据包的发送来源为除本身路由节点之外的其他节点，则在算力调度完成之后，进行下一轮的算力感知流程。

为解决上述技术问题，本发明还提供一种分布式存储系统，所述分布式存储系统包括计算节点和路由节点；所述计算节点和所述路由节点均包括DPU、硬件加速器、存储器和中央处理器；所述存储器与所述中央处理器连接；所述中央处理器和所述硬件加速器均通过开放性互联协议与所述DPU连接；所述DPU用于接收所述中央处理器的算力信息和所述硬件加速器的算力信息；所述DPU为支持开放性互联协议，且支持所述硬件加速器和所述中央处理器分别对应的算力信息进行算力网络处理的处理器；

所述计算节点，用于获取所述计算节点的DPU的第一数据包；将第一数据包进行解析提取得到对应的第一算力信息；并将第一算力信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包；根据所述第一算力信息对应的流向类型确定待传输的所述路由节点，以便于将所述第二数据包传输至所述路由节点；

所述路由节点，用于获取所述路由节点的DPU的所述第二数据包；将所述第二数据包进行解析提取得到对应的第二算力信息；将所述第二算力信息进行算力调度计算，以生成路由表进行算力调度。

为解决上述技术问题，本发明还提供一种数据处理方法，应用于控制设备，包括：

获取数据处理的计算任务；

控制计算节点根据计算任务对所述计算节点的硬件加速器的算力信息和/或中央处理器的算力信息基于开放性互联协议传输至所述计算节点的DPU，以便于所述计算节点的DPU将算力信息进行算力网络处理得到第一数据包；并将第一数据包进行解析提取得到对应的第一算力信息；并将第一算力信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包；根据所述第一算力信息对应的流向类型确定待传输的路由节点，以便于将所述第二数据包传输至所述路由节点；

控制所述路由节点获取所述路由节点的DPU的所述第二数据包；将所述第二数据包进行解析提取得到对应的第二算力信息；将所述第二算力信息进行算力调度计算，以生成路由表进行算力调度；

其中，所述计算节点和所述路由节点均包括DPU、硬件加速器、存储器和中央处理器；所述存储器与所述中央处理器连接；所述中央处理器和所述硬件加速器均通过开放性互联协议与所述DPU连接；所述DPU用于接收所述中央处理器的算力信息和所述硬件加速器的算力信息；所述DPU为支持开放性互联协议，且支持所述硬件加速器和所述中央处理器分别对应的算力信息进行算力网络处理的处理器。

为解决上述技术问题，本发明还提供一种集中式存储系统，所述集中式存储系统包括控制设备、计算节点和路由节点，所述计算节点和所述路由节点均包括DPU、硬件加速器、存储器和中央处理器；所述存储器与所述中央处理器连接；所述中央处理器和所述硬件加速器均通过开放性互联协议与所述DPU连接；所述DPU用于接收所述中央处理器的算力信息和所述硬件加速器的算力信息；所述DPU为支持开放性互联协议，且支持所述硬件加速器和所述中央处理器分别对应的算力信息进行算力网络处理的处理器；包括：

控制设备，用于获取数据处理的计算任务；

所述计算节点，用于根据计算任务对所述计算节点的所述硬件加速器的算力信息和/或所述中央处理器的算力信息基于开放性互联协议传输至所述计算节点的DPU，以便于所述计算节点的DPU将算力信息进行算力网络处理得到第一数据包；并将第一数据包进行解析提取得到对应的第一算力信息；并将第一算力信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包；根据所述第一算力信息对应的流向类型确定待传输的所述路由节点，以便于将所述第二数据包传输至所述路由节点；

为解决上述技术问题，本发明还提供一种数据处理装置，应用于计算节点，所述计算节点包括DPU、硬件加速器、存储器和中央处理器；所述存储器与所述中央处理器连接；所述中央处理器和所述硬件加速器均通过开放性互联协议与所述DPU连接；所述DPU用于接收所述中央处理器的算力信息和所述硬件加速器的算力信息；包括：

第一获取模块，用于获取所述DPU的第一数据包；其中，所述DPU为支持开放性互联协议，且支持所述硬件加速器和所述中央处理器分别对应的算力信息进行算力网络处理的处理器；

第一解析提取模块，用于将第一数据包进行解析提取得到对应的第一算力信息；并将第一算力信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包；

第一确定模块，用于根据所述第一算力信息对应的流向类型确定待传输的路由节点，以便于将所述第二数据包传输至所述路由节点。

为解决上述技术问题，本发明还提供一种数据处理装置，应用于路由节点，所述路由节点包括DPU、硬件加速器、存储器和中央处理器；所述存储器与所述中央处理器连接；所述中央处理器和所述硬件加速器均通过开放性互联协议与所述DPU连接；所述DPU用于接收所述中央处理器的算力信息和所述硬件加速器的算力信息；包括：

第二获取模块，用于获取所述DPU的第二数据包；其中，所述DPU为支持开放性互联协议，且支持所述硬件加速器和所述中央处理器分别对应的算力信息进行算力网络处理的处理器；

第二解析提取模块，用于将所述第二数据包进行解析提取得到对应的第二算力信息；

算力调度模块，用于将所述第二算力信息进行算力调度计算，以生成路由表进行算力调度。

为解决上述技术问题，本发明还提供一种数据处理装置，应用于控制设备，包括：

第三获取模块，用于获取数据处理的计算任务；

第一控制模块，用于控制计算节点根据计算任务对所述计算节点的硬件加速器的算力信息和/或中央处理器的算力信息基于开放性互联协议传输至所述计算节点的DPU，以便于所述计算节点的DPU将算力信息进行算力网络处理得到第一数据包；并将第一数据包进行解析提取得到对应的第一算力信息；并将第一算力信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包；根据所述第一算力信息对应的流向类型确定待传输的路由节点，以便于将所述第二数据包传输至所述路由节点；

第二控制模块，用于控制所述路由节点获取所述路由节点的DPU的所述第二数据包；将所述第二数据包进行解析提取得到对应的第二算力信息；将所述第二算力信息进行算力调度计算，以生成路由表进行算力调度；

为解决上述技术问题，本发明还提供一种数据处理设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述的数据处理方法的步骤。

为解决上述技术问题，本发明还提供一种非易失性存储介质，所述非易失性存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的数据处理方法的步骤。

为解决上述技术问题，本发明还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述所述数据处理方法的步骤。

本发明提供的一种数据处理方法，应用于计算节点，计算节点包括DPU、硬件加速器、存储器和中央处理器；存储器与中央处理器连接；中央处理器和硬件加速器均通过开放性互联协议与DPU连接；DPU用于接收中央处理器的算力信息和硬件加速器的算力信息；包括：获取DPU的第一数据包；其中，DPU为支持开放性互联协议，且支持硬件加速器和中央处理器分别对应的算力信息进行算力网络处理的处理器；将第一数据包进行解析提取得到对应的第一算力信息；并将第一算力信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包；根据第一算力信息对应的流向类型确定待传输的路由节点，以便于将第二数据包传输至路由节点。

本发明的有益效果在于负载的计算资源（硬件加速器）由开放性互联协议单独传输至DPU，无需仅通过CPU和网卡这样的传输途径，这样计算资源和存储资源各自占用一条传输途径，使得CPU的带宽利用率提高，同时为其他存储资源的负载提供更多的带宽利用，也节省CPU的计算资源。另外，基于开放式互联协议进行数据传输，在DPU内获取信息的带宽和时延显著提升。同时，硬件加速器和CPU各自的传输途径，使得不支持开放式互联协议的部件依旧可以采用原有的CPU进行通信传输，进而保证足够的设备兼容性。

其次，第一数据包的确定过程，在提高CPU的带宽利用率的情况下，无论第一数据包来自硬件加速器还是中央处理器，均基于CXL协议提高传输时延。算力信息对应的流向类型，以提高数据处理效率，通过流向类型可以得知传输至哪个节点，以便于后续的数据传输。Flit与算力信息的结合，使得在节点内部基于CXL协议进行传输，使其将算力信息传输至DPU，以便于后续算力网络处理的实施，同时，基于CXL协议，提高获取算力信息的带宽和时延。通过以太网协议实现节点与节点之间的传输，同时，在以太网协议内加入算力数据，实现算力网络的处理过程，提高算力网络的应用场景下的数据传输效率。当数据包来自节点外的数据帧时，则直接进行数据帧的解析并送入算力调度模块。算力调度完成后无需再告知原计算节点，将进入下一轮算力感知流程，以提高数据处理的效率。

另外，本发明还提供了一种分布式存储系统、数据处理方法、集中式存储系统、数据处理装置、设备、非易失性存储介质和计算机程序产品，具有如上述数据处理方法相同的有益效果。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种应用于计算节点的数据处理方法的流程图；

图2为传统的算力网络架构的结构示意图；

图3为本发明实施例提供的一种算力网络架构的示意图；

图4为本发明实施例提供的一种协议传输单元的结构示意图；

图5为本发明实施例提供的一种标准数据帧格式示意图；

图6为本发明实施例提供的一种改进的数据帧格式示意图；

图7为本发明实施例提供的一种应用于路由节点的数据处理方法的流程图；

图8为本发明实施例提供的一种分布式存储系统的示意图；

图9为本发明实施例提供的一种数据处理方法的流程图；

图10为本发明实施例提供的一种集中式存储系统的示意图；

图11为本发明实施例提供的一种应用于计算节点的数据处理装置的结构图；

图12为本发明实施例提供的一种应用于路由节点的数据处理装置的结构图；

图13为本发明实施例提供的一种应用于控制设备的数据处理装置的结构图；

图14为本发明实施例提供的一种数据处理设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

本发明的核心是提供一种数据处理方法、系统、装置、设备、介质及产品，以解决算力网络中仅通过CPU与网卡实现交互，导致CPU和网卡之间传输时，剩余的带宽利用率降低的问题。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

算力网络一般分为集中式、分布式和混合式三种算力网络感知方案。集中式方案中，云、边、端的算力资源和网络资源都由集中编排器统一收集和分发，并且集中编排器还根据计算业务需求，结合感知到的全网算力和网络资源状态，选择最优的路由和转发路径，并下发给算力网络的路由及转发节点进行数据转发。集中式方案对当前网络架构和协议改动较小，便于实现，但是灵活性和可扩展性较差。分布式方案中，计算服务节点就近向算力网络节点注册其算力资源状态信息，并由算力网络节点将算力资源状态信息发布到网络。网络设备进行算力、网络资源状态的通告，并结合算力、网络资源的状态将计算任务转发到相应的计算服务节点。分布式方案充分发挥了承载网中路由节点的控制能力，算力资源和网络资源协同度更高，更加灵活和高效，但对现有网络架构和协议改动较大。混合式的方案则是将集中式方案和分布式方案进行协同部署，局部采用分布式方案，关键节点采用集中式方案。

当算力动态变化较为频繁时，分布式算力感知会在单个计算节点中增加负载，CPU需要不断和各个算力资源组件进行通信，以此降低算力信息更新的时效性的同时减少了CPU与其他算力资源的利用率。如CPU与负载进行通信时，需要加入额外的开销，原本利用GPU的90%，但是其中1%是需要进行交互收集信息，导致只能利用89%的计算资源。另外，CPU与网卡之间的通信过程，均是负载通过CPU与网卡之间进行通信传输，导致占用CPU的计算资源，由于带宽有限，在负载的计算资源占用一部分后，其余的负载，如存储负载使用的CPU的计算资源就会减少，导致CPU的带宽利用率降低。

另外，由于算力信息感知需要重新设计网络信息协议，会增加额外的探测数据包，以增加网络资源的负载，同时为新的网络通信协议对开发和运维造成一定的难度。本发明提供的数据处理方法，可以解决上述技术问题。

图1为本发明实施例提供的一种应用于计算节点的数据处理方法的流程图，计算节点包括DPU、硬件加速器、存储器和中央处理器；存储器与中央处理器连接；中央处理器和硬件加速器均通过开放性互联协议与DPU连接；DPU用于接收中央处理器的算力信息和硬件加速器的算力信息；如图1所示，该方法包括：

S11：获取DPU的第一数据包；

其中，DPU为支持开放性互联协议，且支持硬件加速器和中央处理器分别对应的算力信息进行算力网络处理的处理器；

S12：将第一数据包进行解析提取得到对应的第一算力信息；并将第一算力信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包；

S13：根据第一算力信息对应的流向类型确定待传输的路由节点，以便于将第二数据包传输至路由节点。

具体地，计算节点是一种基于分布式计算架构的基本单元，拥有独立的计算资源，可以执行各种计算任务，计算节点可以是一个物理服务器、虚拟机或者容器，通过与其他节点协同工作，共同完成任务。每个计算节点都有自己的处理器、内存和存储设备，以实现高效计算。由网络节点、计算节点和路由器组成的一个集合，之间通过协议进行通信，如果在一定的地址范围内存在多个服务器节点，则会进行路由选择或者路由过滤等方式实现计算节点和路由节点之间的路由以完成算力的调度过程。

获取数据处理器（Data Processing Unit，DPU）的第一数据包，DPU和传统的算力网络架构的网卡不同，本实施例中的DPU为支持开放性互联协议，且支持硬件加速器和中央处理器分别对应的算力信息进行算力网络处理的处理器。本发明中的DPU是一种能够充当网卡的软件卸载设备，延续智能网卡的释放CPU开销、可编程、任务加速和流程管理等功能，并实现了控制面和数据面的通用可编程加速。DPU用于加速数据中心和云计算应用中的网络、存储和安全任务。通常包括高速网络接口、专用处理器和内存等组件，可以在数据中心中执行高速数据传输、网络安全和数据处理等任务。

图2为传统的算力网络架构的结构示意图，如图2所示，传统架构（算力路由节点）中需要各种软件、接口工具通过CPU与各个算力部件（存储、硬件加速器（硬件加速器0’、硬件加速器1’、硬件加速器2’、硬件加速器3’、……、硬件加速器N’）、GPU和网卡等）进行通信，从而采集各种算力信息并将其封装为独立的数据包通过网卡进行网络发送，该方式会占用大量CPU计算资源，且设备间的通信时延不能满足当下的智算中心大数据计算的需求。

图3为本发明实施例提供的一种算力网络架构的示意图，如图3所示，将传统架构的网络进行去除，直接使用一种DPU进行算力网络的算力感知任务。

具体地，存储器和中央处理器连接，这里是存储资源依旧由中央处理器进行管理，中央处理器与DPU之间进行连接，且通过开放性互联协议（ComputeExpressLink，CXL）协议进行通信，也就是存储部件通过CPU与CXL协议进行通信。计算资源对应的部件通过硬件加速器（硬件加速器0’、硬件加速器1’、硬件加速器2’、硬件加速器3’、……、硬件加速器N’）内进行存储，同时也是采用CXL协议实现硬件加速器和DPU之间的通信。CXL协议是一种高速串行协议，它允许在计算机系统内部的不同组件之间进行快速、可靠的数据传输。它旨在解决高性能计算中的瓶颈问题，包括内存容量、内存带宽和输入/输出（Input/Output，I/O）延迟等问题。CXL还可以实现内存扩展和内存共享，并且可与计算加速器（如GPU、FPGA）等外设通信，提供更快、更灵活的数据交换和处理方式。

CXL协议中的缓存部分（CXL.cache）协议定义了主机和设备之间的交互，允许连接的CXL设备使用请求和响应方法以极低的延迟高效地缓存主机内存。本实施例中使用CXL.cache协议主动获取CPU和硬件加速器的算力采集信息，使得信息的带宽和时延将会显著提升。需要说明的是，DPU的第一数据包，可以是来自于硬件加速器的算力信息处理得到，也可以是来自中央处理器的算力信息处理得到，还可以是硬件加速器和中央处理器的算力信息处理得到的数据的一个统称，在此不做限定，可以根据实际情况设定即可。本实施例通过硬件加速器和中央处理器对应的算力信息的单独化，使得硬件加速器的计算资源无需经过中央处理器进行采集，从而提高CPU的带宽利用率。

在一些实施例中，硬件加速器至少为图形处理器、现场可编程逻辑门阵列和专用集成电路的一种或者多种。

具体地，本实施例对于硬件加速器的具体部件不做限定，可以根据实际情况设定即可。硬件加速是将一些CPU上运行的软件转移到空闲硬件资源的过程，这些资源可以是显卡、声卡、GPU或特殊设备（例如人工智能加速器），以优化资源使用和性能。大多数浏览器也具有加速功能。

CPU是所有计算机系统的核心，它旨在管理所有任务，但管理所有任务并不是能实现高效地运行，所以可以将视频编、解码、图形渲染这些工作放在GPU等专用设备上执行的。硬件加速将日常任务从CPU转移到专门设计的硬件，这些硬件可以更高效地执行工作。

在步骤S12中将第一数据包进行解析提取得到对应的第一算力信息，本实施例中是考虑到第一数据包的获取来自计算节点内部的情况下，需要确定算力感知的流程，具体是进行何种任务的操作，需要将第一数据包进行解析处理以提取对应的第一算力信息。通过第一算力信息可以确定具体的算力任务，在数据传输过程中，会考虑到计算节点和路由节点之间的数据传输，因此，需要将第一算力信息进行封装为数据帧的形式进行传输。由于CXL协议仅是在硬件部件中进行传输。通常情况下，计算节点和路由节点由于路径距离较远，会采用远程方式进行传输，在远程传输需要采用适用于远程的协议进行传输，故本实施例将第一算力信息封装在远程协议的数据帧中进行传输，在封装过程中形成数据帧形式的第二数据包。

对于封装过程，是基于远程协议的数据格式加入即可，远程协议的具体协议不做限定，可以根据实际情况设定即可。封装的具体处于何种地址中，也不做限定，根据实际具体的远程协议设定即可。

步骤S13中根据第一算力信息对应的流向类型确定具体传输的路由节点，以此可以确定当前计算节点和路由节点之间的传输路径。流向类型记载该第一算力信息的计算任务以及传输具体哪个路由节点，以此可以知晓目标路由节点的传输任务。这里设置的具体路径策略不做限定，可以根据当前的路由路径算法设置即可。

本发明实施例提供的一种数据处理方法，应用于计算节点，计算节点包括DPU、硬件加速器、存储器和中央处理器；存储器与中央处理器连接；中央处理器和硬件加速器均通过开放性互联协议与DPU连接；DPU用于接收中央处理器的算力信息和硬件加速器的算力信息；包括：获取DPU的第一数据包；其中，DPU为支持开放性互联协议，且支持硬件加速器和中央处理器分别对应的算力信息进行算力网络处理的处理器；将第一数据包进行解析提取得到对应的第一算力信息；并将第一算力信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包；根据第一算力信息对应的流向类型确定待传输的路由节点，以便于将第二数据包传输至路由节点。负载的计算资源（硬件加速器）由开放性互联协议单独传输至DPU，无需仅通过CPU和网卡这样的传输途径，这样计算资源和存储资源各自占用一条传输途径，使得CPU的带宽利用率提高，同时为其他存储资源的负载提供更多的带宽利用，也节省CPU的计算资源。另外，基于开放式互联协议进行数据传输，在DPU内获取信息的带宽和时延显著提升。同时，硬件加速器和CPU各自的传输途径，使得不支持开放式互联协议的部件依旧可以采用原有的CPU进行通信传输，进而保证足够的设备兼容性。

在一些实施例中，第一数据包由硬件加速器的算力信息和/或中央处理器的算力信息基于开放性互联协议传输至DPU，并进行算力网络处理得到。

如图3所示，将硬件加速器的算力信息和/或中央处理器的算力信息，采用CXL协议传输至DPU内，在DPU内对算力信息进行算力网络的处理得到第一数据包。需要说明的是，本实施例的算力网络处理过程可以和常规的算力网络处理方式相同，也可以不同，或者采用新的算力网络处理方式进行处理等，不做限定。

本实施例提供的第一数据包的确定过程，在提高CPU的带宽利用率的情况下，无论第一数据包来自硬件加速器还是中央处理器，均基于CXL协议提高传输时延。

在一些实施例中，基于开放性互联协议将硬件加速器的算力信息和/或中央处理器的算力信息传输至DPU，包括：

获取开放性互联协议对应的协议传输单元；

根据硬件加速器的算力信息和/或中央处理器的算力信息确定算力信息的流向类型；

将算力信息的流向类型设定至协议传输单元的协议级消息的数据槽内；

将算力信息设定在协议传输单元的用于表征请求响应消息对应的数据块的数据槽内；

将多个设定后的协议传输单元作为第二数据包，并传输至DPU。

具体地，协议传输单元（Flit）是CXL协议最小的传输单元，图4为本发明实施例提供的一种协议传输单元的结构示意图，如图4所示，CXL.cache/CXL进行内存通信的设备或接口（CXL.mem）的Flit大小是固定的528比特（bit），其中包括16bit的循环冗余校验码（Cyclic Redundancy Check，CRC）和4个16字节（Byte）的数据槽（Slot）。下图最左侧为标准Flit数据单元的概述，主要由协议传输单元的头部字段（Flit Header）、协议级消息的数据槽（Header Slot）、三个通用的数据槽（Generic Slot）和CRC组成。“Header”槽携带链路层特定信息的“头”信息，包括包含在头的其余部分以及Flit中的其它数据槽中的协议级消息定义。“Generic”数据槽中是一个或多个请求/响应消息或单个16Byte数据块。

算力信息的流向类型，是对协议传输单元的类型进行定义，在算力网络中算力信息需要确定该信息的流向。同时，将算力信息的流向类型设定在Flit的协议级消息的数据槽内（Header Slot）。将算力信息设定在Flit的用于表征请求响应消息对应的数据块的数据槽内（Generic Slot）。Flit最后一个数据槽作为算力信息的传输载体，可以有效提升数据包的信息量，在不增加额外算力数据探测包的前提下提供算力信息的收集。进而将当前修改后的多个Flit作为第二数据包，以传输至DPU内。也就是说，Flit数据帧格式的设计实现计算节点内部传输。

在一些实施例中，算力信息的流向类型的确定过程，包括：

获取算力信息对应的硬件加速器和/或中央处理器对应的计算任务；

根据计算任务确定算力信息的流向类型；其中，流向类型包括算力感知类型、算力通告类型、测试类型和调度类型。

具体地，算力信息对应的流向类型，需要通过下达的计算任务或者通过硬件加速器和/或CPU对应的计算任务确定，包括算力感知类型、算力通告类型、测试类型和调度类型。算力感知类型，是收集内部节点的数据；算力通告类型，是具体流向哪个节点的数据；测试类型，仅是测试包使用，不作为当前的传输；调度类型，是为了调度到哪个节点中，这里的调度不是本实施例所要解决的问题所在。调度过程是在算力通告类型之后，且传输到目标节点之后进行后续的路由调度。另外，流向类型对应的单元数据还可以包括保留位，也就是为了后续计算任务的丰富性，设置的保留类型进行后续的实际填充使用。在这里，占据3个bit，其比特位置位于图4所示的Byte2[3:1]中。

本实施例提供的算力信息对应的流向类型，以提高数据处理效率，通过流向类型可以得知传输至哪个节点，以便于后续的数据传输。

在一些实施例中，将算力信息设定在协议传输单元的用于表征请求响应消息对应的数据块的数据槽内，包括：

根据算力信息的来源确定算力信息的算力服务标识类型；

获取算力信息对应的网络资源信息；其中，网络资源信息至少包括中央处理器利用率、内存使用率、图像处理器使用率、显存使用率、磁盘使用率、网络丢包率和网络带宽使用率的一种或者多种；

将算力信息的算力服务标识类型和网络资源信息保存至协议传输单元的用于表征请求响应消息对应的数据块的数据槽内。

具体地，数据槽内的封装，如图4所示，算力信息主要由算力服务标识类型、CPU利用率、内存使用率、GPU使用率、显存使用率、磁盘使用率、网络丢包率、网络带宽使用率组成，由于算力感知的结果是为算力调度等后续服务使用，因此本发明设计该处的数据精度为半精度浮点数（Floating-Point，FP）16的浮点数，因此可保留8bit作为保留位。

在一些实施例中，根据算力信息的来源确定算力信息的算力服务标识类型，包括：

获取算力信息的目标来源方向；其中，目标来源方向为中央处理器或者硬件加速器；

根据目标来源方向确定算力信息的算力服务标识类型。

具体地，算力服务标识可以优先定义编码来自于CPU还是硬件加速器，以便于进行区分，在实际使用过程中，由于不同的算力服务标识类型在不同的计算系统中有所不同，会基于实际进行适当替换和修改。

本实施例提供的Flit与算力信息的结合，使得在节点内部基于CXL协议进行传输，使其将算力信息传输至DPU，以便于后续算力网络处理的实施，同时，基于CXL协议，提高获取算力信息的带宽和时延。

在一些实施例中，将第一算力信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包，包括：

获取第一算力信息的算力服务标识类型和对应的网络资源信息；

根据算力服务标识类型确定第一算力信息的类型信息；

根据第一算力信息的网络资源信息匹配对应的实际网络资源；

将实际网络资源、第一算力信息和类型信息作为算力感知信息；

将算力感知信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包。

具体地，在得到第一算力信息之后，需要进行节点与节点之间的传输，这里采用和CXL不同的协议实现，由于算力信息是通过CXL协议进行搭载，并传输到DPU后，需要进行解析再次封装。CPU的第一算力信息封装入一个改进的Flit，硬件加速器的第一算力信息封装入一个改进的Flit，两个Flit不同。DPU获取得到改进的Flit的第一算力信息后，拆解获取得到CPU和/或硬件加速器的算力统计信息。这里需要知道第一算力信息的算力服务标识类型和网络资源信息。基于算力服务标识类型确定第一算力信息的类型信息，也就是知晓是由CPU还是硬件加速器传输的算力信息。这里的网络资源信息进行匹配得到实际网络资源，将实际网络资源、第一算力信息和类型信息作为算力感知信息，封装在符合任意两个节点之间传输的数据帧中，以形成对应的第二数据包。

在一些实施例中，将算力感知信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包，包括：

获取算力感知信息对应的数据空间；

根据算力感知信息对应的数据空间对第一数据帧对应的有效载荷数据的数据空间进行压缩，以便于将算力感知信息对应的数据空间封装在第一数据帧内得到第二数据包。

图5为本发明实施例提供的一种标准数据帧格式示意图，如图5所示，在标准数据帧的格式中需要压缩数据空间，添加算力感知头和算力信息数据，这里的算力感知头是算力信息，算力信息数据为实际网络资源。压缩原本数据空间，一种是基于当前的第一算力信息的数据长度随时调整压缩，保证数据长度的灵活性，可以使得原来需要压缩的数据空间的长度随时变化，以便于其他数据的承载。即：基于算力感知信息对应的数据空间对第一数据帧对应的有效载荷数据的数据空间进行压缩，以便于将算力感知信息对应的数据空间封装在第一数据帧内得到第二数据包。

在另一些实施例中，将算力感知信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包，包括：

获取算力感知信息对应的数据空间；

根据算力感知信息对应的数据空间预留对应的预设数据空间；其中，预设数据空间大于或者等于算力感知信息对应的数据空间；

根据预设数据空间对第一数据帧对应的有效载荷数据的数据空间进行压缩，以便于将算力感知信息对应的数据空间封装在第一数据帧内得到第二数据包。

具体地，为算力感知对应的数据预留一定的数据空间，采用一个估计值，也就是大多数情况下，该数据空间大于或者等于实际算力感知信息对应的数据空间，使得原来被压缩的数据空间压缩时的固定性，也便于后续其他数据承载的空间固定。即，根据预设数据空间对第一数据帧对应的有效载荷数据的数据空间进行压缩，以便于将算力感知信息对应的数据空间封装在第一数据帧内得到第二数据包。

图6为本发明实施例提供的一种改进的数据帧格式示意图，如图6所示，相对于图5来说，将有效载荷数据的空间进行了压缩，这里只需要加入16个字节和3个比特位的数据长度便可携带算力数据，使得数据空间包括算力感知信息对应的数据空间和压缩后的有效载荷数据的数据空间，以便于进行算力网络的通告过程。

在一些实施例中，第一数据帧的结构至少包括协议报头、网际互连协议报头、用户数据报协议报头、无限带宽协议报头、数据空间和循环冗余校验码；其中，数据空间包括算力感知信息对应的数据空间和压缩后的有效载荷数据的数据空间。

如图6所示，数据空间包括算力感知信息对应的数据空间和压缩后的有效载荷数据的数据空间，便可实现携带算力数据，以便于其他算力路由节点或服务器接收到改进的数据帧，并进行解析获取算力信息，进行算力调度或进一步处理。

在一些实施例中，协议报头为以太网协议报头，第一数据帧为基于以太网的远程直接数据存取技术的数据帧。

具体地，以太网是一种网络技术，包括将台式机或笔记本电脑插入局域网（LocalArea Network，LAN）以通过同轴电缆或光纤电缆快速传输数据所需的协议、端口、电缆和计算机芯片。它提供了一个简单的用户界面，便于连接多个设备，包括交换机、路由器和个人计算机（Personal Computer，PC）。只需一个路由器和几个以太网连接，就可以构建一个局域网，使用户能够在所有连接的设备之间进行通信。本实施例中第二版允许在以太网上实现远程内存直接访问的网络协议（RDMA over Converged Ethernet version 2，RoCEv2）是一种基于以太网的远程直接内存访问（Remote Direct Memory Access，RDMA）技术，它允许在以太网上实现高性能的数据传输和通信。RoCEv2是对RoCEv1的改进和扩展，提供了更高的性能、更低的延迟和更好的兼容性。RoCEv2允许应用程序直接在主机内存之间进行高效的数据传输，而无需CPU的干预。它支持远程内存访问（Remote Direct Memory，RDM）操作，包括读取、写入和原子操作等。

RoCEv2基于以太网协议栈，可以在现有的以太网基础设施上运行，无需进行额外的硬件或网络设备的更改。它使用以太网帧进行数据传输，并通过以太网交换机进行路由和转发。

RoCEv2使用用户数据报协议（User Datagram Protocol，UDP）/处理器互联网协议（Internet Protocol，IP）协议作为传输层协议，以提供可靠的数据传输和流量控制。它使用UDP端口来标识和区分不同的RDMA流量。

RoCEv2需要支持RDMA功能的网络适配器，通常是基于以太网的RDMA网卡。这些网卡具有硬件和固件支持，以实现RDMA协议栈和相关功能。

RoCEv2的出现使得在以太网上实现高性能的RDMA成为可能，为数据中心、云计算和存储系统等领域提供了更灵活和可扩展的互连解决方案。它可以与现有的以太网基础设施集成，并提供类似于传统无限带宽（InfiniBand）的性能和功能，同时降低了成本和复杂性。

本实施例提供的通过以太网协议实现节点与节点之间的传输，同时，在以太网协议内加入算力数据，实现算力网络的处理过程，提高算力网络的应用场景下的数据传输效率。

进一步地，本发明提供了一种应用于路由节点的数据处理方法，图7为本发明实施例提供的一种应用于路由节点的数据处理方法的流程图，路由节点包括DPU、硬件加速器、存储器和中央处理器；存储器与中央处理器连接；中央处理器和硬件加速器均通过开放性互联协议与DPU连接；DPU用于接收中央处理器的算力信息和硬件加速器的算力信息；如图7所示，该方法包括：

S21：获取DPU的第二数据包；

S22：将第二数据包进行解析提取得到对应的第二算力信息；

S23：将第二算力信息进行算力调度计算，以生成路由表进行算力调度。

具体地，关于第二数据包，可以是由其他节点传输过来的，也可以是基于自身路由节点内部的硬件加速器的算力信息和/或中央处理器的算力信息进行算力网络处理得到的，在此不做限定。若是自身内部传输的，其和上述实施例中应用于计算节点的数据处理方法的实施例相同。若是其他节点发送过来的，则需要将第二数据包进行解析提取得到对应的第二算力信息。这里的解析提取和上述的解析提取过程相同，也可以不同，在此不做限定。若为其他节点发送过来的，则将得到的第二算力信息进行算力调度，以生成路由表，需要说明的是，本实施例中的路由节点，可以作为计算节点使用，也可以专注于路由路径以及算力调度过程，便于后续的算力调度。

DPU作为网络设备，可以卸载CPU中的网络协议栈，将算力信息数据通过网络发送至其他算力节点进行算力的调度和告知，由于网络数据的封装和解析在DPU中进行处理，因此，网络资源信息由DPU直接计算获取。

同理，支持CXL协议的其他计算部件均可通过CXL协议直接和DPU进行高速通信，不支持CXL的部件依旧可以通过CPU进行通信从而保持足够的设备兼容性。

本发明实施例提供的数据处理方法，应用于路由节点，路由节点包括DPU、硬件加速器、存储器和中央处理器；存储器与中央处理器连接；中央处理器和硬件加速器均通过开放性互联协议与DPU连接；DPU用于接收中央处理器的算力信息和硬件加速器的算力信息。获取DPU的第二数据包；其中，DPU为支持开放性互联协议且支持硬件加速器和中央处理器分别对应的算力信息进行算力网络处理的处理器；将第二数据包进行解析提取得到对应的第二算力信息；将第二算力信息进行算力调度计算，以生成路由表进行算力调度。负载的计算资源（硬件加速器）由开放性互联协议单独传输至DPU，无需仅通过CPU和网卡这样的传输途径，这样计算资源和存储资源各自占用一条传输途径，使得CPU的带宽利用率提高，同时为其他存储资源的负载提供更多的带宽利用，也节省CPU的计算资源。另外，基于开放式互联协议进行数据传输，在DPU内获取信息的带宽和时延显著提升。同时，硬件加速器和CPU各自的传输途径，使得不支持开放式互联协议的部件依旧可以采用原有的CPU进行通信传输，进而保证足够的设备兼容性。同时，数据包内携带算力信息，便于后续的算力调度。

在一些实施例中，在获取DPU的第二数据包之后，还包括：

确定第二数据包的发送来源；

若第二数据包的发送来源为除本身路由节点之外的其他节点，则在算力调度完成之后，进行下一轮的算力感知流程。

具体地，不同类型的服务器节点对应的DPU承担不同的功能，在路由节点中接收到的是第二数据包，需要确定第二数据包的数据来源，也就是发送来源，若第二数据包的发送来源为其他算力节点，则需要解析提取对应的算力信息，即第二算力信息，将传递给自身路由节点所属的服务器内部的算力调度模块进行计算，从而生成路由表，完成算力调度。

DPU虽然在路由节点和计算节点内承担不同的功能，但是对应的硬件设备完全相同。在进行算力调度完成后，无需再告知原计算节点，直接进行下一轮的算力感知流程。

本实施例提供的当数据包来自节点外的数据帧时，则直接进行数据帧的解析并送入算力调度模块。算力调度完成后无需再告知原计算节点，将进入下一轮算力感知流程，以提高数据处理的效率。

进一步地，本发明还提供了一种分布式存储系统，分布式存储系统包括计算节点和路由节点；计算节点和路由节点均包括DPU、硬件加速器、存储器和中央处理器；存储器与中央处理器连接；中央处理器和硬件加速器均通过开放性互联协议与DPU连接；DPU用于接收中央处理器的算力信息和硬件加速器的算力信息；DPU为支持开放性互联协议，且支持硬件加速器和中央处理器分别对应的算力信息进行算力网络处理的处理器；

计算节点，用于获取计算节点的DPU的第一数据包；将第一数据包进行解析提取得到对应的第一算力信息；并将第一算力信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包；根据第一算力信息对应的流向类型确定待传输的路由节点，以便于将第二数据包传输至路由节点；

路由节点，用于获取路由节点的DPU的第二数据包；将第二数据包进行解析提取得到对应的第二算力信息；将第二算力信息进行算力调度计算，以生成路由表进行算力调度。

图8为本发明实施例提供的一种分布式存储系统的示意图，如图8所示，这里仅以一个计算节点和一个路由节点为例，计算节点和路由节点的硬件设备相同，均包括中央处理器、硬件加速器和DPU，DPU包括接收模块、发送模块和调度模块。不同的是，在计算节点内，主要是解析节点内部的CXL数据包，并抽取算力信息，再经过发送模块将算力信息封装为RoCEv2数据帧发送出去。在路由节点中接收的是RoCEv2数据帧，并将其解析后的算力信息，传递至算力调度模块进行计算，从而生成路由表，完成算力的调度。

其中DPU在两种不同类型的节点中，硬件设备完全相同，但数据流向会根据具体的数据信息头有所不同。考虑到计算设备可能不支持CXL协议，此时算力信息可以经过CPU进行处理，并封装为改进的CXL Flit进行信息传递。

由于DPU在计算节点和路由节点扮演的功能不同，需要在接收模块开始工作前进行数据类型的判断：

当数据包来自节点内的CXL Flit时，则进行CXL数据包的解析，得到原始的算力信息，并通过发送模块进行算力信息的RoCEv2再封装，从而发送至算力路由节点进行算力的通告；

当数据包来自节点外的RoCEv2数据帧，则直接进行数据帧的解析并送入算力调度模块；

算力调度完成后无需再告知原计算节点，将进入下一轮算力感知流程。

图9为本发明实施例提供的一种数据处理方法的流程图，如图9所示，该方法包括：

针对于硬件加速器和/或中央处理器来说：

S31：判断是否支持开放性互联协议；若支持，则进入步骤S32；若不支持，则进入步骤S33；

S32：使用改进的开放性互联协议的传输单元，通过开放性互联协议直接传递算力信息进入接收模块；

S33：算力信息写入系统内存；

S34：中央处理器收集算力信息，并通过改进的开放性互联协议的传输单元传递算力信息至接收模块；

针对于接收模块来说：

S35：判断接收的信息是否为节点内的信息；若是，则进入步骤S36；若否，则进入步骤S37；

S36：服务器节点内接收并解析得到算力信息，并发送至发送模块；

S38：发送模块将算力信息封装入数据帧进行算力通告；

S37：接收算力通告信息并进行解析后送入调度模块；

S39：调度模块对解析的算力通告信息进行算力调度，此轮的算力感知结束。

具体地，针对于步骤S36的解析过程：DPU接收改进的开放性互联协议的传输单元对应的数据包，根据封装的逆过程解析数据包中的算力信息。

针对于步骤S38中发送至路由节点过程：DPU将算力信息重新封装入改进的RoCEv2数据帧进行算力通告。

步骤S37中接收算力通告并解析过程：DPU接收改进的RoCEv2数据帧，根据封装改进的RoCEv2数据帧的逆过程进行算力通告信息的解析。

步骤S39中的算力调度过程：DPU根据算力信息进行算力调度。

对于本发明提供的一种分布式存储系统的介绍请参照上述方法实施例，本发明在此不再赘述，其具有上述数据处理方法相同的有益效果。

进一步地，本发明还提供了一种应用于控制设备的数据处理方法，具体为：

获取数据处理的计算任务；

控制计算节点根据计算任务对计算节点的硬件加速器的算力信息和/或中央处理器的算力信息基于开放性互联协议传输至计算节点的DPU，以便于计算节点的DPU将算力信息进行算力网络处理得到第一数据包；并将第一数据包进行解析提取得到对应的第一算力信息；并将第一算力信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包；根据第一算力信息对应的流向类型确定待传输的路由节点，以便于将第二数据包传输至路由节点；

控制路由节点获取路由节点的DPU的第二数据包；将第二数据包进行解析提取得到对应的第二算力信息；将第二算力信息进行算力调度计算，以生成路由表进行算力调度；

其中，计算节点和路由节点均包括DPU、硬件加速器、存储器和中央处理器；存储器与中央处理器连接；中央处理器和硬件加速器均通过开放性互联协议与DPU连接；DPU用于接收中央处理器的算力信息和硬件加速器的算力信息；DPU为支持开放性互联协议，且支持硬件加速器和中央处理器分别对应的算力信息进行算力网络处理的处理器。

可以理解的是，这里的控制设备，是基于统一的服务器节点，根据计算任务对计算节点和路由节点发送指令进行的操作过程，根据计算任务对计算节点进行数据处理，这里的数据处理过程和上述实施例中应用于计算节点的数据处理过程相同。同理，针对于控制路由节点的数据处理过程和上述实施例中应用于路由节点的数据处理过程相同，可参考上述实施例即可。

对于本发明提供的一种应用于控制设备的数据处理方法的介绍请参照上述方法实施例，本发明在此不再赘述，其具有上述数据处理方法相同的有益效果。

进一步地，本发明还提供了一种集中式存储系统，图10为本发明实施例提供的一种集中式存储系统的示意图，如图10所示，该系统包括控制设备、计算节点和路由节点，计算节点和路由节点均包括DPU、硬件加速器、存储器和中央处理器；存储器与中央处理器连接；中央处理器和硬件加速器均通过开放性互联协议与DPU连接；DPU用于接收中央处理器的算力信息和硬件加速器的算力信息；DPU为支持开放性互联协议，且支持硬件加速器和中央处理器分别对应的算力信息进行算力网络处理的处理器；包括：

控制设备，用于获取数据处理的计算任务；

计算节点，用于根据计算任务对计算节点的硬件加速器的算力信息和/或中央处理器的算力信息基于开放性互联协议传输至计算节点的DPU，以便于计算节点的DPU将算力信息进行算力网络处理得到第一数据包；并将第一数据包进行解析提取得到对应的第一算力信息；并将第一算力信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包；根据第一算力信息对应的流向类型确定待传输的路由节点，以便于将第二数据包传输至路由节点；

具体地，该系统内具有一个控制设备，多个计算节点和多个路由节点，在图10中仅以一个控制设备，一个计算节点和多个路由节点（路由节点1）和路由节点2））为例，针对于计算节点处理完数据之后，给到控制设备具体的结果信息，控制设备根据结果信息确定对应的路由节点，以进行算力通告。

对于本发明提供的一种集中式存储系统的介绍请参照上述方法实施例，本发明在此不再赘述，其具有上述数据处理方法相同的有益效果。

上述详细描述了数据处理方法对应的各个实施例，在此基础上，本发明还公开与上述方法对应的数据处理装置，图11为本发明实施例提供的一种应用于计算节点的数据处理装置的结构图。如图11所示，计算节点包括DPU、硬件加速器、存储器和中央处理器；存储器与中央处理器连接；中央处理器和硬件加速器均通过开放性互联协议与DPU连接；DPU用于接收中央处理器的算力信息和硬件加速器的算力信息；该装置包括：

第一获取模块11，用于获取DPU的第一数据包；其中，DPU为支持开放性互联协议，且支持硬件加速器和中央处理器分别对应的算力信息进行算力网络处理的处理器；

第一解析提取模块12，用于将第一数据包进行解析提取得到对应的第一算力信息；并将第一算力信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包；

第一确定模块13，用于根据第一算力信息对应的流向类型确定待传输的路由节点，以便于将第二数据包传输至路由节点。

图12为本发明实施例提供的一种应用于路由节点的数据处理装置的结构图。如图12所示，路由节点包括DPU、硬件加速器、存储器和中央处理器；存储器与中央处理器连接；中央处理器和硬件加速器均通过开放性互联协议与DPU连接；DPU用于接收中央处理器的算力信息和硬件加速器的算力信息；该装置包括：

第二获取模块14，用于获取DPU的第二数据包；其中，DPU为支持开放性互联协议，且支持硬件加速器和中央处理器分别对应的算力信息进行算力网络处理的处理器；

第二解析提取模块15，用于将第二数据包进行解析提取得到对应的第二算力信息；

算力调度模块16，用于将第二算力信息进行算力调度计算，以生成路由表进行算力调度。

图13为本发明实施例提供的一种应用于控制设备的数据处理装置的结构图。如图13所示，该装置包括：

第三获取模块17，用于获取数据处理的计算任务；

第一控制模块18，用于控制计算节点根据计算任务对计算节点的硬件加速器的算力信息和/或中央处理器的算力信息基于开放性互联协议传输至计算节点的DPU，以便于计算节点的DPU将算力信息进行算力网络处理得到第一数据包；并将第一数据包进行解析提取得到对应的第一算力信息；并将第一算力信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包；根据第一算力信息对应的流向类型确定待传输的路由节点，以便于将第二数据包传输至路由节点；

第二控制模块19，用于控制路由节点获取路由节点的DPU的第二数据包；将第二数据包进行解析提取得到对应的第二算力信息；将第二算力信息进行算力调度计算，以生成路由表进行算力调度；

由于装置部分的实施例与上述的实施例相互对应，因此装置部分的实施例请参照上述方法部分的实施例描述，在此不再赘述。对于本发明提供的一种数据处理装置的介绍请参照上述方法实施例，本发明在此不再赘述，其具有上述数据处理方法相同的有益效果。

图14为本发明实施例提供的一种数据处理设备的结构图，如图14所示，该设备包括：

存储器21，用于存储计算机程序；

处理器22，用于执行计算机程序时实现数据处理方法的步骤。

本实施例提供的数据处理设备可以包括但不限于平板电脑、笔记本电脑或者台式电脑等。

其中，处理器22可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器22可以采用数字信号处理器（Digital Signal Processor，DSP）、FPGA、可编程逻辑阵列（Programmable Logic Array，PLA）中的至少一种硬件形式来实现。处理器22也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器22可以集成有GPU，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器22还可以包括人工智能（Artificial Intelligence，AI）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器21可以包括一个或多个非易失性存储介质，该非易失性存储介质可以是非暂态的。存储器21还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器21至少用于存储以下计算机程序211，其中，该计算机程序被处理器22加载并执行之后，能够实现前述任一实施例公开的数据处理方法的相关步骤。另外，存储器21所存储的资源还可以包括操作系统212和数据213等，存储方式可以是短暂存储或者永久存储。其中，操作系统212可以包括Windows、Unix、Linux等。数据213可以包括但不限于数据处理方法所涉及到的数据等等。

在一些实施例中，数据处理设备还可包括有显示屏23、输入输出接口24、通信接口25、电源26以及通信总线27。

领域技术人员可以理解，图14中示出的结构并不构成对数据处理设备的限定，可以包括比图示更多或更少的组件。

处理器22通过调用存储于存储器21中的指令以实现上述任一实施例所提供的数据处理方法。

对于本发明提供的一种数据处理设备的介绍请参照上述方法实施例，本发明在此不再赘述，其具有上述数据处理方法相同的有益效果。

进一步的，本发明还提供了一种非易失性存储介质，非易失性存储介质上存储有计算机程序，计算机程序被处理器22执行时实现如上述数据处理方法的步骤。

可以理解的是，如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

对于本发明提供的一种非易失性存储介质的介绍请参照上述方法实施例，本发明在此不再赘述，其具有上述数据处理方法相同的有益效果。

进一步的，本发明还提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器22执行时实现如上述数据处理方法的步骤。

对于本发明提供的一种计算机程序产品的介绍请参照上述方法实施例，本发明在此不再赘述，其具有上述数据处理方法相同的有益效果。

以上对本发明所提供的一种数据处理方法、系统、装置、设备、介质及产品进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种数据处理方法，其特征在于，应用于计算节点，所述计算节点包括DPU、硬件加速器、存储器和中央处理器；所述存储器与所述中央处理器连接；所述中央处理器和所述硬件加速器均通过开放性互联协议与所述DPU连接；所述DPU用于接收所述中央处理器的算力信息和所述硬件加速器的算力信息；包括：

2.根据权利要求1所述的数据处理方法，其特征在于，所述硬件加速器至少为图形处理器、现场可编程逻辑门阵列和专用集成电路的一种或者多种。

3.根据权利要求1所述的数据处理方法，其特征在于，所述第一数据包由所述硬件加速器的算力信息和/或所述中央处理器的算力信息基于开放性互联协议传输至所述DPU，并进行算力网络处理得到。

4.根据权利要求3所述的数据处理方法，其特征在于，基于开放性互联协议将所述硬件加速器的算力信息和/或所述中央处理器的算力信息传输至所述DPU，包括：

获取开放性互联协议对应的协议传输单元；

5.根据权利要求4所述的数据处理方法，其特征在于，算力信息的流向类型的确定过程，包括：

6.根据权利要求4所述的数据处理方法，其特征在于，将算力信息设定在所述协议传输单元的用于表征请求响应消息对应的数据块的数据槽内，包括：

根据算力信息的来源确定算力信息的算力服务标识类型；

7.根据权利要求6所述的数据处理方法，其特征在于，根据算力信息的来源确定算力信息的算力服务标识类型，包括：

根据所述目标来源方向确定算力信息的算力服务标识类型。

8.根据权利要求1至7任意一项所述的数据处理方法，其特征在于，将第一算力信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包，包括：

9.根据权利要求8所述的数据处理方法，其特征在于，将所述算力感知信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包，包括：

获取所述算力感知信息对应的数据空间；

10.根据权利要求8所述的数据处理方法，其特征在于，将所述算力感知信息进行封装得到符合任意两个节点之间传输的数据帧形式对应的第二数据包，包括：

获取所述算力感知信息对应的数据空间；

11.根据权利要求9所述数据处理方法，其特征在于，所述第一数据帧的结构至少包括协议报头、网际互连协议报头、用户数据报协议报头、无限带宽协议报头、数据空间和循环冗余校验码；其中，所述数据空间包括所述算力感知信息对应的数据空间和压缩后的有效载荷数据的数据空间。

12.根据权利要求11所述的数据处理方法，其特征在于，所述协议报头为以太网协议报头，所述第一数据帧为基于以太网的远程直接数据存取技术的数据帧。

13.一种数据处理方法，其特征在于，应用于路由节点，所述路由节点包括DPU、硬件加速器、存储器和中央处理器；所述存储器与所述中央处理器连接；所述中央处理器和所述硬件加速器均通过开放性互联协议与所述DPU连接；所述DPU用于接收所述中央处理器的算力信息和所述硬件加速器的算力信息；包括：

将所述第二数据包进行解析提取得到对应的第二算力信息；

14.根据权利要求13所述的数据处理方法，其特征在于，在获取所述DPU的第二数据包之后，还包括：

确定所述第二数据包的发送来源；

15.一种分布式存储系统，其特征在于，所述分布式存储系统包括计算节点和路由节点；所述计算节点和所述路由节点均包括DPU、硬件加速器、存储器和中央处理器；所述存储器与所述中央处理器连接；所述中央处理器和所述硬件加速器均通过开放性互联协议与所述DPU连接；所述DPU用于接收所述中央处理器的算力信息和所述硬件加速器的算力信息；所述DPU为支持开放性互联协议，且支持所述硬件加速器和所述中央处理器分别对应的算力信息进行算力网络处理的处理器；

16.一种数据处理方法，其特征在于，应用于控制设备，包括：

获取数据处理的计算任务；

17.一种集中式存储系统，其特征在于，所述集中式存储系统包括控制设备、计算节点和路由节点，所述计算节点和所述路由节点均包括DPU、硬件加速器、存储器和中央处理器；所述存储器与所述中央处理器连接；所述中央处理器和所述硬件加速器均通过开放性互联协议与所述DPU连接；所述DPU用于接收所述中央处理器的算力信息和所述硬件加速器的算力信息；所述DPU为支持开放性互联协议，且支持所述硬件加速器和所述中央处理器分别对应的算力信息进行算力网络处理的处理器；包括：

控制设备，用于获取数据处理的计算任务；

18.一种数据处理装置，其特征在于，应用于计算节点，所述计算节点包括DPU、硬件加速器、存储器和中央处理器；所述存储器与所述中央处理器连接；所述中央处理器和所述硬件加速器均通过开放性互联协议与所述DPU连接；所述DPU用于接收所述中央处理器的算力信息和所述硬件加速器的算力信息；包括：

19.一种数据处理装置，其特征在于，应用于路由节点，所述路由节点包括DPU、硬件加速器、存储器和中央处理器；所述存储器与所述中央处理器连接；所述中央处理器和所述硬件加速器均通过开放性互联协议与所述DPU连接；所述DPU用于接收所述中央处理器的算力信息和所述硬件加速器的算力信息；包括：

20.一种数据处理装置，其特征在于，应用于控制设备，包括：

第三获取模块，用于获取数据处理的计算任务；

21.一种数据处理设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至14任意一项或权利要求16所述的数据处理方法的步骤。

22.一种非易失性存储介质，其特征在于，所述非易失性存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至14任意一项或权利要求16所述的数据处理方法的步骤。

23.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至14任意一项或权利要求16所述数据处理方法的步骤。