CN116132287A

CN116132287A - 基于dpu的高性能网络加速方法及系统

Info

Publication number: CN116132287A
Application number: CN202211707782.3A
Authority: CN
Inventors: 姚建国; 夏沛言; 管海兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-05-16

Abstract

本发明提供了一种基于DPU的高性能网络加速方法及系统，包括：将DPDK软件栈部署在DPU上，并读取远端存储节点发送的数据包进行网络数据解析，通过DMA接口将处理后的数据发送至主机的用户态应用程序；所述DPDK接收用户态应用程序发送的数据包，并将接收到的数据包进行封装，将封装后的数据包发送至相应IP的存储节点。

Description

基于DPU的高性能网络加速方法及系统

技术领域

本发明涉及互联网技术领域，具体地，涉及基于DPU的高性能网络加速方法及系统。

背景技术

当前，随着大数据和云计算的发展，本地计算集群自带的存储硬盘已经无法满足日益增长的存储需求。在分布式存储领域，大量优秀的架构已经被提出，其高性能、高可靠、易拓展的优点被广泛青睐。存算分离的思想已经成为主流的趋势。大规模的数据通过网络对分布式存储集群进行远程读写的场景对网络性能的需求带来了新的挑战。对于传统网卡而言，其主要完成数据链路层和物理层的功能，而更高层的任务，如网络协议的解析则需要交给CPU来完成。所以，在传统网络功能方案中，远程存储集群密集的网络通信会频繁的将网络协议解析下陷到计算节点的主机内核态进行处理，对计算节点的主机CPU占用产生额外开销，如上下文切换对缓存的污染、逐包中断、内核态与用户态的内存拷贝等。这对于本就CPU需求密集的计算节点会直接占用宝贵的计算资源，同时大量的网络中断与计算线程的CPU争用，也导致了计算节点的网络通信性能下降。更重要的是，随着NFV和SDN技术的兴起，Open Flow，Open Vswitch等虚拟交换机的引入，大量的软件栈的引入使得网络数据面的复杂性不断增加，对主机的CPU会造成难以承受的压力。

目前，为了解决主机网络数据处理性能以及网络功能占用CPU过高的问题，学术界从软件和硬件的角度做出了各样的研究。

在软件方面，Linux社区在2011年推出了Netmap网络架构，它是一个基于零拷贝思想和高速IO的架构。其零拷贝的思想有DBA实现，将应用程序直接跑在内核态或者将内核中的缓存数据直接暴露给用户态的数据结构。然而Netmap自身需要驱动的支持，并且还是依赖于中断机制，没有从根本上解决CPU上下文切换带来的性能瓶颈。SR-IOV技术在NFV领域应用十分广泛。其将PF(Physical Function)映射为多个VF(Virtual Function)，使得每个VF都可以绑定到虚拟机。这样做确实可以让CPU使用率和网络性能带来提升，但是其固定性的架构一方面增加了复杂性，一方面也限制了拓展性。一个支持SR-IOV的网卡只能提供有限的VF接口。2010年，Intel公司推出了DPDK(Data Plane Development Kit)高性能包转发协议。与Netmap类似，其基本思想也是通过绕过内核的方式，通过用户态直接对网络包进行解析。与Netmap不同的是，DPDK采用了轮询机制，不断探测网口有无数据包的收发。这样的机制可以迅速对网络包进行处理，同时避免了中断机制带来的内核切换上下文开销。然而，轮询机制也需要大量的CPU资源，通常的做法是绑定轮询线程到特定的核，让其占满该核的使用率。

在硬件方面，近几年越来越多的可编程DPU产品的相继出现代表了另一种减少主机处理开销方法。DPU的核心支持远程数据结构访问，并且DPU具有高效的包处理、低DMA写入延迟、含有丰富的硬件接口如异步操作和批量操作等优势。DPU的存在对于主机端的网络处理功能的有效卸载和可编程的智能核心无疑为存算分离架构下，计算节点获取更高性能的网络通信提供了潜在的研究方向。然而，由于DPU的受限于其处理核心的计算能力以及有限的内存，将主机端的网络功能简单的移植将大幅降低吞吐量。如何对DPU进行卸载以及如果利用DPU自身的硬件特性搭建网络处理栈对提升网络性能成为了目前需要考虑的问题。

专利文献CN110892380A(申请号：201880046042.5)公开了一种利用数据处理单元(DPU)的新处理体系结构。与以中央处理单元(CPU)为中心的传统计算模型不同，DPU被设计用于以数据为中心的计算模型，在该以数据为中心的计算模型中，数据处理任务以DPU为中心。DPU可以看作是高度可编程的高性能I/O和数据处理集线器，其被设计为聚合和处理去往和来自其他设备的网络和存储I/O。DPU包括用于直接连接到网络的网络接口、用于直接连接到一个或多个应用处理器(例如CPU)或存储设备的一个或多个应用处理器接口，以及多核处理器，其中每个处理核执行运行至完成数据平面操作系统。数据平面操作系统被配置为支持控制平面软件堆栈和用于执行数据处理任务的软件功能的库。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于DPU的高性能网络加速方法及系统。

根据本发明提供的一种基于DPU的高性能网络加速方法，包括：

将DPDK软件栈部署在DPU上，并读取远端存储节点发送的数据包进行网络数据解析，通过DMA接口将处理后的数据发送至主机的用户态应用程序；

所述DPDK接收用户态应用程序发送的数据包，并将接收到的数据包进行封装，将封装后的数据包发送至相应IP的存储节点。

优选地，包括：

DPU配置模块：用于连接主机与DPU，配置DPU的本地IP，使DPU与主机进行IP转发；

DPU运行模式配置模块：用于切换DPU的separated host mode和embedded mode运行模式；

DPDK编译模块：用于编译DPDK环境，在Ubuntu20.04系统环境下采用dpdk-22.03进行DPDK文件编译；

大页配置模块：用于实现大页内存配置，在DPDK编译完后，设置nr_hugepages＝1G；

核绑定模块：用于将不同功能的线程与内核进行绑定，将预设常驻线程固定于某些CPU单独运行；

Pktgen编译模块：用于编译Pktgen，测试不同流场景，不同的DPU核绑定方式下DPDK优化模块的实时吞吐量。

优选地，基于OVS对DPDK的数据路径进行硬件卸载，使用DPU的硬件进行流的识别与分类，并对流量进行批处理。

优选地，基于OVS与DPDK设置虚拟网桥，虚拟网桥一端是物理端口，另一端是representor的逻辑端口。

优选地，使用所述DPU运行模式配置模块将DPU运行模式切换为embedded mode，确保所有的网络数据包均通过DPU进行收发。

优选地，使用所述大页配置模块为OVS分配大页内存。

根据本发明提供的一种基于DPU的高性能网络加速系统，包括：

优选地，包括：

与现有技术相比，本发明具有如下的有益效果：

1、基于DPDK的网络包转发模块使得网络数据包直接转发给用户态进行网络包的处理，该方式绕过了内核态对网络解析是发生的内核调用，并使用的轮询机制代替中断，避免了大量收发数据包是发生的中断处理的上下文切换开销。轮询机制也使得网络数据可以第一时间进行处理，在读写密集的存算分离流量较大的场景下，转发性能明显提升；

2、DPDK优化模块将DPDK从主机端移植到DPU，解决了DPDK的轮询机制占用主机端CPU的情况，极大程度缓解了主机端的CPU处理网络功能的使用率；

3、针对DPU有限的计算资源和内存，实现DPDK端大页内存，内核绑定的模块。大页内存模块提升了TLB的命中率，通过将线程与CPU绑定进一步提高了CPU的缓存命中率。专核专用的模式也极大地提升了DPUCPU的处理效率，避免了无效的线程切换，降低了网络数据包的处理延迟；

4、卸载优化模块实现了基于OVS的数据路径卸载，将本属于DPU软件栈的流分类工作交给并发性更好的硬件来完成。利用DPU的高效批处理接口，将网络数据根据不同的action分类到不同的流表，并对其进行批处理。在进一步减轻DPUCPU负载的情况下，提升了网卡的吞吐量；

5、卸载优化模块针对OVS自身流处理的性能瓶颈进行了进一步的优化。观测到在流增大的情况下，OVS的back-end pipeline在MMIO操作中会遇到长时间的延迟。针对此类在流表匹配增多，同一批的数据在数量很少的时候就触发了MMIO操作的场景，卸载优化模块对MMIO触发机制进行了优化，设置了数据包超时刷新和队列中数据包计数器的方式，进一步提升了DPU硬件批处理的性能；

6、本发明实现软硬协同的混合解决方案，在软件方面，利用DPU的可编程处理核心实现了基于DPDK的高效包转发逻辑，采用大页内存机制和核绑定机制提高了CPU的缓存和内存命中率，解决了DPDK的轮询机制占用主机端CPU的情况。在硬件方面，基于OVS对DPDK的部分网络功能实现了进行硬件卸载，弥补了DPU有限的内存、CPU对软件栈数据处理造成的性能影响，并对硬件高并发的批处理接口进行了包转发触发机制，进一步提升了DPU硬件批处理的性能。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为DPDK优化模块转发的网络结构示意图。

图2为为硬件卸载优化模块的结构示意图。

图3为CPU占有率对比示意图。

图4为吞吐量对比示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1

本发明提供了一种基于DPU的高性能网络加速方法及系统，在基于DPU和DPDK基础上实现高性能的网络包转发与卸载方案。该方法针对数据中心中存算分离的场景，通过软件和硬件综合的进行性能优化，缓解了计算机节点CPU的网络功能线程占用率，提高系统吞吐量，降低远程密集读写时产生的网络拥塞。

在软件方面，利用DPU的可编程处理核心提供了基于DPDK的高效包转发优化系统，包括DPDK软件栈，该DPDK位于主机的DPU上，上连主机，下连路由器。该DPDK软件栈通过交换机以有线或无线的方式接入，读取远端存储节点发送的数据包后进行网络数据的解析，并通过DMA接口将处理后的数据发送给主机的用户态应用程序，也可以接受用户态程序发送的数据包，进行封装后，发送给相应IP的存储节点。

在硬件方面，基于OVS对DPDK的数据据路径实现了进行硬件卸载，使用DPU的硬件进行流的识别与分类，提供了流量批处理的优化方案。

本发明包括DPDK优化模块与硬件卸载优化模块。DPDK优化模块的创建与运行由以下模块实现：

DPU运行模式配置模块：用于切换DPU的separated host mode和embedded mode两种运行模式；

核绑定模块：用于将不同功能的线程与内核进行绑定，将某些常驻线程固定于某些CPU单独运行。

Pktgen编译模块：用于编译Pktgen，测试不同流场景，不同的DPU核绑定方式下DPDK优化模块的实时吞吐量；

由此，便基本实现了DPDK优化模块，保证了在DPU上该模块的基础正确运行流程。

上述模块调用实现DPU上DPDK优化模块的部署和计算节点与DPU合作收发包模式。为了进一步提升网卡性能，本研究基于OVS卸载方案，将DPDK与OVS进行结合，并针对软的批处理模式进行优化，硬件卸载优化模块由以下方式实现：

使用DPU运行模式配置模块将其运行模式切换为embedded mode，确保所有的网络数据包均通过DPU进行收发；

为OVS分配大页内存。

创建OVS与DPDK优化模块间的虚拟网桥，将两个端口添加到网桥，一个用于物理端口(dpdk0)，一个用于使用representor的逻辑端口，即VF-PF(virtual function-physicalfunction mapper)。这些VF可以分配给任何应用程序或VM或容器，并且所有VF都连接到代表物理端口本身的唯一物理功能(PF)。

运行基于OVS的流量批处理模块。该模块针对在同一流表被批处理时具有少量报文并且当流表的相应action是将报文转发到某个物理端口的场景下，DPDK接口上的数据包传输会导致昂贵的内存映射I/O(MMIO)写操作造成低效的报文传输情况进行优化，使用中间队列尽可能摊销MMIO写入成本，对触发批处理接口的条件进行了检测与分类。

实施例2

实施例2是实施例1的优选例

在本实施例中，运行平台的配置确定如下。在硬件上，系统硬件的型号是：

(1)平台：戴尔r7525服务器

(2)CPU：AMD 7542处理器2.90GHz 2×16核

(3)内存RAM：512GB ECC Mem(16×32GB 3200MHz DDR4)

(4)存储：机械硬盘容量2TB

(5)网卡：双端迈络思Bluefield2 100Gb DPU

而软件系统的设置为：

主机平台：Ubuntu 20.04LTS

内核：Linux 5.4.0-88-generic

DPU操作系统：Ubuntu 20.04LTS

DPU内核:5.4.0-1008-bluefield

本发明提供了一种移植在DPU端基于DPDK的优化模块和硬件卸载优化模块，将服务器作为计算机节点连接一个远端的Ceph分布式存储集群。图1为DPDK优化模块转发的网络结构示意图。如图1所示，通过在DPU上安装DPDK驱动，配置IP后，通过PCIe端口连接到计算节点主机。DPDK通过DPU端的网口读取数据后通过DPDK软件栈处理后通过设定的端口，经过PCIe，由DMA的方式进行对主机端内存的映射。主机端用户态的应用程序直接从内存中获取数据。该方法绕过主机端的内核协议栈，用轮询的方式代替中断，并将DPDK软件栈放置到DPU，有效的增大了系统的吞吐量。

在DPDK优化模块中，包含了大页内存配置、内核绑定等优化模块，进一步提升网卡的性能。

图2为硬件卸载优化模块的结构示意图。通过基于OVS的卸载方式对数据路径进行硬件卸载，并对批处理方式作出优化。

本发明评估了DPDK优化模块的引入对于内核占用率的影响。由于DPDK被移植到了DPU上，主机端内核对网络处理的CPU占用率几乎为零。为了评估内核IP网络堆栈的开销，我们使用fio的压测方式在DPU上，对传统网络协议栈对CPU的占用率和对本研究提出的DPDK优化方案分别运行了相同的测试，如图3a、图3b所示，对CPU的占用率分别为25％与13％。可以看到，DPDK实施的效率进一步提高了应用程序的CPU可用性，转化为比BlueField-2上的内核网络解决方案多5.5％到12.5％的CPU时间。DPU端的IP网络堆栈开销节省出了宝贵的计算资源，可以用于更多的核绑定中，减少DPU端的线程争用。

如图4所示，本发明评估了使用基于DPDK的OVS的硬件卸载模块与不使用卸载方式和使用基于DPDK的OVS的硬件卸载模块与最为常用的基于TC Flower的OVS卸载模块在吞吐量上的差别。本实施例通过针对不同的包大小，对这三种方式的吞吐量做了对比。可以看到，在不使用卸载时，由于DPU自身的计算节点能力薄弱，单靠软件的优化并不能让吞吐量达到令人满意的效果，距离线速有着十分巨大的差距。在使用了卸载模块后，系统吞吐量有了明显的提升。我们可以观察到，使用DPDK中的rte_flow卸载到硬件的OvS的性能与使用TCflowers卸载的OvS-kernel的性能非常接近。结果证实，OvS使用的数据包处理库对性能影响差异不大，由于所有流规则都可以卸载到硬件，即所有数据包都在硬件中专门处理，整体数据包处理性能大多由硬件本身决定。基于DPDK优化的模块比使用TC flowers大约高出了0％-3％的吞吐量。但是可以发现，两种硬件卸载方式处理数据包的速率距离发送率依旧存在着较大的差距。

为了进一步提高性能，本实例启动了硬件卸载优化模块，卸载优化模块针对OVS自身流处理的性能瓶颈进行了进一步的优化。硬件卸载优化进一步提升了DPU硬件批处理的性能。由于在较小的包发生流的action分散概率较高，可以发现在包大小为64B-256B时，卸载优化模块将吞吐量提升了3％-10％。与基于DPDK优化模块的OVS相比，启动硬件卸载优化模块后，系统的整体吞吐量有了进一步的提升。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于DPU的高性能网络加速方法，其特征在于，包括：

2.根据权利要求1所述的基于DPU的高性能网络加速方法，其特征在于，包括：

3.根据权利要求1所述的基于DPU的高性能网络加速方法，其特征在于，基于OVS对DPDK的数据路径进行硬件卸载，使用DPU的硬件进行流的识别与分类，并对流量进行批处理。

4.根据权利要求1所述的基于DPU的高性能网络加速方法，其特征在于，基于OVS与DPDK设置虚拟网桥，虚拟网桥一端是物理端口，另一端是representor的逻辑端口。

5.根据权利要求2所述的基于DPU的高性能网络加速方法，其特征在于，使用所述DPU运行模式配置模块将DPU运行模式切换为embedded mode，确保所有的网络数据包均通过DPU进行收发。

6.根据权利要求2所述的基于DPU的高性能网络加速方法，其特征在于，使用所述大页配置模块为OVS分配大页内存。

7.一种基于DPU的高性能网络加速系统，其特征在于，包括：

8.根据权利要求7所述的基于DPU的高性能网络加速系统，其特征在于，包括：

9.根据权利要求7所述的基于DPU的高性能网络加速系统，其特征在于，基于OVS对DPDK的数据路径进行硬件卸载，使用DPU的硬件进行流的识别与分类，并对流量进行批处理。

10.根据权利要求7所述的基于DPU的高性能网络加速系统，其特征在于，基于OVS与DPDK设置虚拟网桥，虚拟网桥一端是物理端口，另一端是representor的逻辑端口。