CN116132287A - 基于dpu的高性能网络加速方法及系统 - Google Patents

基于dpu的高性能网络加速方法及系统 Download PDF

Info

Publication number
CN116132287A
CN116132287A CN202211707782.3A CN202211707782A CN116132287A CN 116132287 A CN116132287 A CN 116132287A CN 202211707782 A CN202211707782 A CN 202211707782A CN 116132287 A CN116132287 A CN 116132287A
Authority
CN
China
Prior art keywords
dpu
dpdk
module
compiling
host
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211707782.3A
Other languages
English (en)
Inventor
姚建国
夏沛言
管海兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202211707782.3A priority Critical patent/CN116132287A/zh
Publication of CN116132287A publication Critical patent/CN116132287A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • H04L41/083Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability for increasing network speed

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种基于DPU的高性能网络加速方法及系统,包括:将DPDK软件栈部署在DPU上,并读取远端存储节点发送的数据包进行网络数据解析,通过DMA接口将处理后的数据发送至主机的用户态应用程序;所述DPDK接收用户态应用程序发送的数据包,并将接收到的数据包进行封装,将封装后的数据包发送至相应IP的存储节点。

Description

基于DPU的高性能网络加速方法及系统
技术领域
本发明涉及互联网技术领域,具体地,涉及基于DPU的高性能网络加速方法及系统。
背景技术
当前,随着大数据和云计算的发展,本地计算集群自带的存储硬盘已经无法满足日益增长的存储需求。在分布式存储领域,大量优秀的架构已经被提出,其高性能、高可靠、易拓展的优点被广泛青睐。存算分离的思想已经成为主流的趋势。大规模的数据通过网络对分布式存储集群进行远程读写的场景对网络性能的需求带来了新的挑战。对于传统网卡而言,其主要完成数据链路层和物理层的功能,而更高层的任务,如网络协议的解析则需要交给CPU来完成。所以,在传统网络功能方案中,远程存储集群密集的网络通信会频繁的将网络协议解析下陷到计算节点的主机内核态进行处理,对计算节点的主机CPU占用产生额外开销,如上下文切换对缓存的污染、逐包中断、内核态与用户态的内存拷贝等。这对于本就CPU需求密集的计算节点会直接占用宝贵的计算资源,同时大量的网络中断与计算线程的CPU争用,也导致了计算节点的网络通信性能下降。更重要的是,随着NFV和SDN技术的兴起,Open Flow,Open Vswitch等虚拟交换机的引入,大量的软件栈的引入使得网络数据面的复杂性不断增加,对主机的CPU会造成难以承受的压力。
目前,为了解决主机网络数据处理性能以及网络功能占用CPU过高的问题,学术界从软件和硬件的角度做出了各样的研究。
在软件方面,Linux社区在2011年推出了Netmap网络架构,它是一个基于零拷贝思想和高速IO的架构。其零拷贝的思想有DBA实现,将应用程序直接跑在内核态或者将内核中的缓存数据直接暴露给用户态的数据结构。然而Netmap自身需要驱动的支持,并且还是依赖于中断机制,没有从根本上解决CPU上下文切换带来的性能瓶颈。SR-IOV技术在NFV领域应用十分广泛。其将PF(Physical Function)映射为多个VF(Virtual Function),使得每个VF都可以绑定到虚拟机。这样做确实可以让CPU使用率和网络性能带来提升,但是其固定性的架构一方面增加了复杂性,一方面也限制了拓展性。一个支持SR-IOV的网卡只能提供有限的VF接口。2010年,Intel公司推出了DPDK(Data Plane Development Kit)高性能包转发协议。与Netmap类似,其基本思想也是通过绕过内核的方式,通过用户态直接对网络包进行解析。与Netmap不同的是,DPDK采用了轮询机制,不断探测网口有无数据包的收发。这样的机制可以迅速对网络包进行处理,同时避免了中断机制带来的内核切换上下文开销。然而,轮询机制也需要大量的CPU资源,通常的做法是绑定轮询线程到特定的核,让其占满该核的使用率。
在硬件方面,近几年越来越多的可编程DPU产品的相继出现代表了另一种减少主机处理开销方法。DPU的核心支持远程数据结构访问,并且DPU具有高效的包处理、低DMA写入延迟、含有丰富的硬件接口如异步操作和批量操作等优势。DPU的存在对于主机端的网络处理功能的有效卸载和可编程的智能核心无疑为存算分离架构下,计算节点获取更高性能的网络通信提供了潜在的研究方向。然而,由于DPU的受限于其处理核心的计算能力以及有限的内存,将主机端的网络功能简单的移植将大幅降低吞吐量。如何对DPU进行卸载以及如果利用DPU自身的硬件特性搭建网络处理栈对提升网络性能成为了目前需要考虑的问题。
专利文献CN110892380A(申请号:201880046042.5)公开了一种利用数据处理单元(DPU)的新处理体系结构。与以中央处理单元(CPU)为中心的传统计算模型不同,DPU被设计用于以数据为中心的计算模型,在该以数据为中心的计算模型中,数据处理任务以DPU为中心。DPU可以看作是高度可编程的高性能I/O和数据处理集线器,其被设计为聚合和处理去往和来自其他设备的网络和存储I/O。DPU包括用于直接连接到网络的网络接口、用于直接连接到一个或多个应用处理器(例如CPU)或存储设备的一个或多个应用处理器接口,以及多核处理器,其中每个处理核执行运行至完成数据平面操作系统。数据平面操作系统被配置为支持控制平面软件堆栈和用于执行数据处理任务的软件功能的库。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于DPU的高性能网络加速方法及系统。
根据本发明提供的一种基于DPU的高性能网络加速方法,包括:
将DPDK软件栈部署在DPU上,并读取远端存储节点发送的数据包进行网络数据解析,通过DMA接口将处理后的数据发送至主机的用户态应用程序;
所述DPDK接收用户态应用程序发送的数据包,并将接收到的数据包进行封装,将封装后的数据包发送至相应IP的存储节点。
优选地,包括:
DPU配置模块:用于连接主机与DPU,配置DPU的本地IP,使DPU与主机进行IP转发;
DPU运行模式配置模块:用于切换DPU的separated host mode和embedded mode运行模式;
DPDK编译模块:用于编译DPDK环境,在Ubuntu20.04系统环境下采用dpdk-22.03进行DPDK文件编译;
大页配置模块:用于实现大页内存配置,在DPDK编译完后,设置nr_hugepages=1G;
核绑定模块:用于将不同功能的线程与内核进行绑定,将预设常驻线程固定于某些CPU单独运行;
Pktgen编译模块:用于编译Pktgen,测试不同流场景,不同的DPU核绑定方式下DPDK优化模块的实时吞吐量。
优选地,基于OVS对DPDK的数据路径进行硬件卸载,使用DPU的硬件进行流的识别与分类,并对流量进行批处理。
优选地,基于OVS与DPDK设置虚拟网桥,虚拟网桥一端是物理端口,另一端是representor的逻辑端口。
优选地,使用所述DPU运行模式配置模块将DPU运行模式切换为embedded mode,确保所有的网络数据包均通过DPU进行收发。
优选地,使用所述大页配置模块为OVS分配大页内存。
根据本发明提供的一种基于DPU的高性能网络加速系统,包括:
将DPDK软件栈部署在DPU上,并读取远端存储节点发送的数据包进行网络数据解析,通过DMA接口将处理后的数据发送至主机的用户态应用程序;
所述DPDK接收用户态应用程序发送的数据包,并将接收到的数据包进行封装,将封装后的数据包发送至相应IP的存储节点。
优选地,包括:
DPU配置模块:用于连接主机与DPU,配置DPU的本地IP,使DPU与主机进行IP转发;
DPU运行模式配置模块:用于切换DPU的separated host mode和embedded mode运行模式;
DPDK编译模块:用于编译DPDK环境,在Ubuntu20.04系统环境下采用dpdk-22.03进行DPDK文件编译;
大页配置模块:用于实现大页内存配置,在DPDK编译完后,设置nr_hugepages=1G;
核绑定模块:用于将不同功能的线程与内核进行绑定,将预设常驻线程固定于某些CPU单独运行;
Pktgen编译模块:用于编译Pktgen,测试不同流场景,不同的DPU核绑定方式下DPDK优化模块的实时吞吐量。
优选地,基于OVS对DPDK的数据路径进行硬件卸载,使用DPU的硬件进行流的识别与分类,并对流量进行批处理。
优选地,基于OVS与DPDK设置虚拟网桥,虚拟网桥一端是物理端口,另一端是representor的逻辑端口。
与现有技术相比,本发明具有如下的有益效果:
1、基于DPDK的网络包转发模块使得网络数据包直接转发给用户态进行网络包的处理,该方式绕过了内核态对网络解析是发生的内核调用,并使用的轮询机制代替中断,避免了大量收发数据包是发生的中断处理的上下文切换开销。轮询机制也使得网络数据可以第一时间进行处理,在读写密集的存算分离流量较大的场景下,转发性能明显提升;
2、DPDK优化模块将DPDK从主机端移植到DPU,解决了DPDK的轮询机制占用主机端CPU的情况,极大程度缓解了主机端的CPU处理网络功能的使用率;
3、针对DPU有限的计算资源和内存,实现DPDK端大页内存,内核绑定的模块。大页内存模块提升了TLB的命中率,通过将线程与CPU绑定进一步提高了CPU的缓存命中率。专核专用的模式也极大地提升了DPUCPU的处理效率,避免了无效的线程切换,降低了网络数据包的处理延迟;
4、卸载优化模块实现了基于OVS的数据路径卸载,将本属于DPU软件栈的流分类工作交给并发性更好的硬件来完成。利用DPU的高效批处理接口,将网络数据根据不同的action分类到不同的流表,并对其进行批处理。在进一步减轻DPUCPU负载的情况下,提升了网卡的吞吐量;
5、卸载优化模块针对OVS自身流处理的性能瓶颈进行了进一步的优化。观测到在流增大的情况下,OVS的back-end pipeline在MMIO操作中会遇到长时间的延迟。针对此类在流表匹配增多,同一批的数据在数量很少的时候就触发了MMIO操作的场景,卸载优化模块对MMIO触发机制进行了优化,设置了数据包超时刷新和队列中数据包计数器的方式,进一步提升了DPU硬件批处理的性能;
6、本发明实现软硬协同的混合解决方案,在软件方面,利用DPU的可编程处理核心实现了基于DPDK的高效包转发逻辑,采用大页内存机制和核绑定机制提高了CPU的缓存和内存命中率,解决了DPDK的轮询机制占用主机端CPU的情况。在硬件方面,基于OVS对DPDK的部分网络功能实现了进行硬件卸载,弥补了DPU有限的内存、CPU对软件栈数据处理造成的性能影响,并对硬件高并发的批处理接口进行了包转发触发机制,进一步提升了DPU硬件批处理的性能。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为DPDK优化模块转发的网络结构示意图。
图2为为硬件卸载优化模块的结构示意图。
图3为CPU占有率对比示意图。
图4为吞吐量对比示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1
本发明提供了一种基于DPU的高性能网络加速方法及系统,在基于DPU和DPDK基础上实现高性能的网络包转发与卸载方案。该方法针对数据中心中存算分离的场景,通过软件和硬件综合的进行性能优化,缓解了计算机节点CPU的网络功能线程占用率,提高系统吞吐量,降低远程密集读写时产生的网络拥塞。
在软件方面,利用DPU的可编程处理核心提供了基于DPDK的高效包转发优化系统,包括DPDK软件栈,该DPDK位于主机的DPU上,上连主机,下连路由器。该DPDK软件栈通过交换机以有线或无线的方式接入,读取远端存储节点发送的数据包后进行网络数据的解析,并通过DMA接口将处理后的数据发送给主机的用户态应用程序,也可以接受用户态程序发送的数据包,进行封装后,发送给相应IP的存储节点。
在硬件方面,基于OVS对DPDK的数据据路径实现了进行硬件卸载,使用DPU的硬件进行流的识别与分类,提供了流量批处理的优化方案。
本发明包括DPDK优化模块与硬件卸载优化模块。DPDK优化模块的创建与运行由以下模块实现:
DPU配置模块:用于连接主机与DPU,配置DPU的本地IP,使DPU与主机进行IP转发;
DPU运行模式配置模块:用于切换DPU的separated host mode和embedded mode两种运行模式;
DPDK编译模块:用于编译DPDK环境,在Ubuntu20.04系统环境下采用dpdk-22.03进行DPDK文件编译;
大页配置模块:用于实现大页内存配置,在DPDK编译完后,设置nr_hugepages=1G;
核绑定模块:用于将不同功能的线程与内核进行绑定,将某些常驻线程固定于某些CPU单独运行。
Pktgen编译模块:用于编译Pktgen,测试不同流场景,不同的DPU核绑定方式下DPDK优化模块的实时吞吐量;
由此,便基本实现了DPDK优化模块,保证了在DPU上该模块的基础正确运行流程。
上述模块调用实现DPU上DPDK优化模块的部署和计算节点与DPU合作收发包模式。为了进一步提升网卡性能,本研究基于OVS卸载方案,将DPDK与OVS进行结合,并针对软的批处理模式进行优化,硬件卸载优化模块由以下方式实现:
使用DPU运行模式配置模块将其运行模式切换为embedded mode,确保所有的网络数据包均通过DPU进行收发;
为OVS分配大页内存。
创建OVS与DPDK优化模块间的虚拟网桥,将两个端口添加到网桥,一个用于物理端口(dpdk0),一个用于使用representor的逻辑端口,即VF-PF(virtual function-physicalfunction mapper)。这些VF可以分配给任何应用程序或VM或容器,并且所有VF都连接到代表物理端口本身的唯一物理功能(PF)。
运行基于OVS的流量批处理模块。该模块针对在同一流表被批处理时具有少量报文并且当流表的相应action是将报文转发到某个物理端口的场景下,DPDK接口上的数据包传输会导致昂贵的内存映射I/O(MMIO)写操作造成低效的报文传输情况进行优化,使用中间队列尽可能摊销MMIO写入成本,对触发批处理接口的条件进行了检测与分类。
实施例2
实施例2是实施例1的优选例
在本实施例中,运行平台的配置确定如下。在硬件上,系统硬件的型号是:
(1)平台:戴尔r7525服务器
(2)CPU:AMD 7542处理器2.90GHz 2×16核
(3)内存RAM:512GB ECC Mem(16×32GB 3200MHz DDR4)
(4)存储:机械硬盘容量2TB
(5)网卡:双端迈络思Bluefield2 100Gb DPU
而软件系统的设置为:
主机平台:Ubuntu 20.04LTS
内核:Linux 5.4.0-88-generic
DPU操作系统:Ubuntu 20.04LTS
DPU内核:5.4.0-1008-bluefield
本发明提供了一种移植在DPU端基于DPDK的优化模块和硬件卸载优化模块,将服务器作为计算机节点连接一个远端的Ceph分布式存储集群。图1为DPDK优化模块转发的网络结构示意图。如图1所示,通过在DPU上安装DPDK驱动,配置IP后,通过PCIe端口连接到计算节点主机。DPDK通过DPU端的网口读取数据后通过DPDK软件栈处理后通过设定的端口,经过PCIe,由DMA的方式进行对主机端内存的映射。主机端用户态的应用程序直接从内存中获取数据。该方法绕过主机端的内核协议栈,用轮询的方式代替中断,并将DPDK软件栈放置到DPU,有效的增大了系统的吞吐量。
在DPDK优化模块中,包含了大页内存配置、内核绑定等优化模块,进一步提升网卡的性能。
图2为硬件卸载优化模块的结构示意图。通过基于OVS的卸载方式对数据路径进行硬件卸载,并对批处理方式作出优化。
本发明评估了DPDK优化模块的引入对于内核占用率的影响。由于DPDK被移植到了DPU上,主机端内核对网络处理的CPU占用率几乎为零。为了评估内核IP网络堆栈的开销,我们使用fio的压测方式在DPU上,对传统网络协议栈对CPU的占用率和对本研究提出的DPDK优化方案分别运行了相同的测试,如图3a、图3b所示,对CPU的占用率分别为25%与13%。可以看到,DPDK实施的效率进一步提高了应用程序的CPU可用性,转化为比BlueField-2上的内核网络解决方案多5.5%到12.5%的CPU时间。DPU端的IP网络堆栈开销节省出了宝贵的计算资源,可以用于更多的核绑定中,减少DPU端的线程争用。
如图4所示,本发明评估了使用基于DPDK的OVS的硬件卸载模块与不使用卸载方式和使用基于DPDK的OVS的硬件卸载模块与最为常用的基于TC Flower的OVS卸载模块在吞吐量上的差别。本实施例通过针对不同的包大小,对这三种方式的吞吐量做了对比。可以看到,在不使用卸载时,由于DPU自身的计算节点能力薄弱,单靠软件的优化并不能让吞吐量达到令人满意的效果,距离线速有着十分巨大的差距。在使用了卸载模块后,系统吞吐量有了明显的提升。我们可以观察到,使用DPDK中的rte_flow卸载到硬件的OvS的性能与使用TCflowers卸载的OvS-kernel的性能非常接近。结果证实,OvS使用的数据包处理库对性能影响差异不大,由于所有流规则都可以卸载到硬件,即所有数据包都在硬件中专门处理,整体数据包处理性能大多由硬件本身决定。基于DPDK优化的模块比使用TC flowers大约高出了0%-3%的吞吐量。但是可以发现,两种硬件卸载方式处理数据包的速率距离发送率依旧存在着较大的差距。
为了进一步提高性能,本实例启动了硬件卸载优化模块,卸载优化模块针对OVS自身流处理的性能瓶颈进行了进一步的优化。硬件卸载优化进一步提升了DPU硬件批处理的性能。由于在较小的包发生流的action分散概率较高,可以发现在包大小为64B-256B时,卸载优化模块将吞吐量提升了3%-10%。与基于DPDK优化模块的OVS相比,启动硬件卸载优化模块后,系统的整体吞吐量有了进一步的提升。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于DPU的高性能网络加速方法,其特征在于,包括:
将DPDK软件栈部署在DPU上,并读取远端存储节点发送的数据包进行网络数据解析,通过DMA接口将处理后的数据发送至主机的用户态应用程序;
所述DPDK接收用户态应用程序发送的数据包,并将接收到的数据包进行封装,将封装后的数据包发送至相应IP的存储节点。
2.根据权利要求1所述的基于DPU的高性能网络加速方法,其特征在于,包括:
DPU配置模块:用于连接主机与DPU,配置DPU的本地IP,使DPU与主机进行IP转发;
DPU运行模式配置模块:用于切换DPU的separated host mode和embedded mode运行模式;
DPDK编译模块:用于编译DPDK环境,在Ubuntu20.04系统环境下采用dpdk-22.03进行DPDK文件编译;
大页配置模块:用于实现大页内存配置,在DPDK编译完后,设置nr_hugepages=1G;
核绑定模块:用于将不同功能的线程与内核进行绑定,将预设常驻线程固定于某些CPU单独运行;
Pktgen编译模块:用于编译Pktgen,测试不同流场景,不同的DPU核绑定方式下DPDK优化模块的实时吞吐量。
3.根据权利要求1所述的基于DPU的高性能网络加速方法,其特征在于,基于OVS对DPDK的数据路径进行硬件卸载,使用DPU的硬件进行流的识别与分类,并对流量进行批处理。
4.根据权利要求1所述的基于DPU的高性能网络加速方法,其特征在于,基于OVS与DPDK设置虚拟网桥,虚拟网桥一端是物理端口,另一端是representor的逻辑端口。
5.根据权利要求2所述的基于DPU的高性能网络加速方法,其特征在于,使用所述DPU运行模式配置模块将DPU运行模式切换为embedded mode,确保所有的网络数据包均通过DPU进行收发。
6.根据权利要求2所述的基于DPU的高性能网络加速方法,其特征在于,使用所述大页配置模块为OVS分配大页内存。
7.一种基于DPU的高性能网络加速系统,其特征在于,包括:
将DPDK软件栈部署在DPU上,并读取远端存储节点发送的数据包进行网络数据解析,通过DMA接口将处理后的数据发送至主机的用户态应用程序;
所述DPDK接收用户态应用程序发送的数据包,并将接收到的数据包进行封装,将封装后的数据包发送至相应IP的存储节点。
8.根据权利要求7所述的基于DPU的高性能网络加速系统,其特征在于,包括:
DPU配置模块:用于连接主机与DPU,配置DPU的本地IP,使DPU与主机进行IP转发;
DPU运行模式配置模块:用于切换DPU的separated host mode和embedded mode运行模式;
DPDK编译模块:用于编译DPDK环境,在Ubuntu20.04系统环境下采用dpdk-22.03进行DPDK文件编译;
大页配置模块:用于实现大页内存配置,在DPDK编译完后,设置nr_hugepages=1G;
核绑定模块:用于将不同功能的线程与内核进行绑定,将预设常驻线程固定于某些CPU单独运行;
Pktgen编译模块:用于编译Pktgen,测试不同流场景,不同的DPU核绑定方式下DPDK优化模块的实时吞吐量。
9.根据权利要求7所述的基于DPU的高性能网络加速系统,其特征在于,基于OVS对DPDK的数据路径进行硬件卸载,使用DPU的硬件进行流的识别与分类,并对流量进行批处理。
10.根据权利要求7所述的基于DPU的高性能网络加速系统,其特征在于,基于OVS与DPDK设置虚拟网桥,虚拟网桥一端是物理端口,另一端是representor的逻辑端口。
CN202211707782.3A 2022-12-28 2022-12-28 基于dpu的高性能网络加速方法及系统 Pending CN116132287A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211707782.3A CN116132287A (zh) 2022-12-28 2022-12-28 基于dpu的高性能网络加速方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211707782.3A CN116132287A (zh) 2022-12-28 2022-12-28 基于dpu的高性能网络加速方法及系统

Publications (1)

Publication Number Publication Date
CN116132287A true CN116132287A (zh) 2023-05-16

Family

ID=86302159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211707782.3A Pending CN116132287A (zh) 2022-12-28 2022-12-28 基于dpu的高性能网络加速方法及系统

Country Status (1)

Country Link
CN (1) CN116132287A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932332A (zh) * 2023-08-08 2023-10-24 中科驭数(北京)科技有限公司 Dpu运行状态监控方法及装置
CN117539664A (zh) * 2024-01-08 2024-02-09 北京火山引擎科技有限公司 基于dpu的远程过程调用方法、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932332A (zh) * 2023-08-08 2023-10-24 中科驭数(北京)科技有限公司 Dpu运行状态监控方法及装置
CN116932332B (zh) * 2023-08-08 2024-04-19 中科驭数(北京)科技有限公司 Dpu运行状态监控方法及装置
CN117539664A (zh) * 2024-01-08 2024-02-09 北京火山引擎科技有限公司 基于dpu的远程过程调用方法、设备及存储介质
CN117539664B (zh) * 2024-01-08 2024-05-07 北京火山引擎科技有限公司 基于dpu的远程过程调用方法、设备及存储介质

Similar Documents

Publication Publication Date Title
EP3754498B1 (en) Architecture for offload of linked work assignments
US20200241927A1 (en) Storage transactions with predictable latency
CN116132287A (zh) 基于dpu的高性能网络加速方法及系统
Liu et al. Virtualization polling engine (VPE) using dedicated CPU cores to accelerate I/O virtualization
US11321256B2 (en) Persistent kernel for graphics processing unit direct memory access network packet processing
CN108366018B (zh) 一种基于dpdk的网络数据包处理方法
KR20160037827A (ko) 시스템 메모리로의 연결을 위한 오프로드 프로세서 모듈들
US10909655B2 (en) Direct memory access for graphics processing unit packet processing
US20220261178A1 (en) Address translation technologies
Alian et al. NetDIMM: Low-latency near-memory network interface architecture
Frey et al. A spinning join that does not get dizzy
US10873630B2 (en) Server architecture having dedicated compute resources for processing infrastructure-related workloads
US20220358002A1 (en) Network attached mpi processing architecture in smartnics
CN115878301A (zh) 一种数据库网络负载性能的加速框架、加速方法及设备
Li HPSRouter: A high performance software router based on DPDK
CN111585787B (zh) 基于fpga改善nfv业务链转发效率的装置及方法
CN117015963A (zh) 用于异构和加速计算系统的输入/输出缩放的服务器结构适配器
CN110618962A (zh) Ft-m6678芯片的多核网络并发访问方法、系统及介质
WO2024027395A1 (zh) 一种数据处理方法及装置
Underwood et al. Analysis of a prototype intelligent network interface
CN114281529B (zh) 分布式虚拟化的客户操作系统调度优化方法、系统及终端
CN117312202B (zh) 片上系统和用于片上系统的数据传输方法
Mahabaleshwarkar et al. TCP/IP protocol accelaration
US20230077147A1 (en) Data copy acceleration for service meshes
US20230333921A1 (en) Input/output (i/o) virtualization acceleration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination