CN114866476B - 一种无损高效的rdma传送方法 - Google Patents
一种无损高效的rdma传送方法 Download PDFInfo
- Publication number
- CN114866476B CN114866476B CN202210376871.8A CN202210376871A CN114866476B CN 114866476 B CN114866476 B CN 114866476B CN 202210376871 A CN202210376871 A CN 202210376871A CN 114866476 B CN114866476 B CN 114866476B
- Authority
- CN
- China
- Prior art keywords
- data
- packet
- sending
- rdma
- data packet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/24—Multipath
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/27—Evaluation or update of window size, e.g. using information derived from acknowledged [ACK] packets
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Abstract
本发明涉及网络传输技术领域,且公开了一种无损高效的RDMA传送方法,所述传送方法包括RDMA数据包重传和RDMA智能流控机制,所述RDMA智能流控机制包括有链路状态反馈机制和流量控制机制;所述RDMA数据包重传包括以下步骤:S1、发送节点维护发送窗口,记录当前待发送及已发送为收到确认的数据包编号;S2、依窗口记录的编号顺序依次向接收方发送数据包;S3、接收方收到数据后,构建确认数据包。该无损高效的RDMA传送方法,通过研究在广域分布式网络环境下,将网络拓扑、流量特征、机器学习的传输特征实现有机的整合,提出一种无损高效的RDMA传送技术,通过精细化拥塞控制与流控制策略来最大化带宽利用率解决数据处理效率低和传输时延过长问题。
Description
技术领域
本发明涉及网络传输技术领域,具体为一种无损高效的RDMA传送方法。
背景技术
分布式网络环境下机器学习跨域数据传输爆炸式增长,为了降低网络延迟,提高处理效率,RDMA技术允许用户态的应用程序直接读取和写入远程内存,而无需CPU介入多次拷贝内存,并可绕过内核直接向网卡写数据,实现了高吞吐量、超低时延和低CPU开销的效果。当前RDMA在以太网上的传输协议是RoCEv2,但其不像TCP协议那样有滑动窗口、确认应答等机制来实现可靠传输,一旦出现丢包,依靠上层应用检查到了再做重传,会大大降低RDMA的传输效率,导致了基于优先级的流量控制传输的远程直接数据存取(RemoteDirectMemoryAccess/RDMA)网络抖动与乱序激增等问题。随着分布式网络乱序、丢包和拥塞的出现,当前RDMA技术的丢包重传机制导致重传流量占比直线上升,造成RDMA性能下降,进而导致了数据处理效率低和传输时延过长,为此我们提出了一种无损高效的RDMA传送方法。
发明内容
针对现有技术的不足,本发明提供了一种无损高效的RDMA传送方法,研究在广域分布式网络环境下,将网络拓扑、流量特征、机器学习的传输特征实现有机的整合,提出一种无损高效的RDMA传送技术,通过精细化拥塞控制与流控制策略来最大化带宽利用率解决数据处理效率低和传输时延过长问题。
为实现上述目的,本发明提供如下技术方案:一种无损高效的RDMA传送方法,所述传送方法包括RDMA数据包重传和RDMA智能流控机制,所述RDMA智能流控机制包括有链路状态反馈机制和流量控制机制。
所述RDMA数据包重传包括以下步骤:
S1、发送节点维护发送窗口,记录当前待发送及已发送为收到确认的数据包编号。
S2、依窗口记录的编号顺序依次向接收方发送数据包。
S3、接收方收到数据后,构建确认数据包。
S4、送方收到确认数据包后,根据确认数据包中的确认位更新发送窗口,并计算每个数据发的发送延迟,并根据期待位发送对应的数据。
S5、发送方计算最近N个数据的平均发送延迟T,及方差delta。
S6、发送方以时间阈值k为周期,遍历窗口内所有数据包,对于当前遍历的数据包,如果属于数据已经发送且尚未收到确认,计算其确认等待时延W,如果W大于或者等于T+delta,重新发送该数据,并将其发送时间更新为当前时间。
优选的,所述步骤S3中,确认位记录当前已经收到且尚未发送确认信息的数据包编号,以及希望立刻收到的数据包的编号,并将该数据包发送给发送方。
优选的,所述发送延迟为收到确认包的时间减去数据发送的时间,所述等待时延为当前时间减去数据发送时间。
优选的,所述链路状态反馈机制包括以下步骤:
S1、当出现超过参数x个数据包超时没有收到确认包时,发送方发送链路状态咨询包。
S2、网络链路中的每一跳交换节点,如果能够理解该数据包,则构建被动反馈包,将本交换节点的处理速度、转发队列长度等信息加入被动反馈包,并将被动反馈包发送给发送方。
S3、交换节点将咨询包发送给下一跳节点。
S4、每一跳交换节点当前处理速度超过低于阈值,或者转发队列长度高于阈值时,构建主动反馈包,将处理速度及转发队列长度加入主动反馈包,并发送给控制模块。
优选的,所述流量控制机制包括以下步骤:
S1、收到被动反馈包后,判断发生拥塞的链路数目。
S2、收到主动反馈包后,由控制模块判断发生拥塞的链路数据超过阈值,如果没有超过阈值,调整路由策略,避开拥塞链路,否则,给发送方发送控制数据包。
S3、发送方收到控制数据包后,降低准备发送给该接收方数据的优先级,降低数据发送速度,将该接收方加入管控队列。
S4、以m为时间周期轮训管控队列,对于管控队列当前接收方,其当前数据确认等待时延降低至阈值时,提升该接收方数据发送优先级,提升数据发送速度。
优选的,所述步骤S2中,如果发生拥塞的链路数据超过阈值,则降低对应接收方数据包的优先级,降低数据发送速度,将该接收方加入管控队列,否则,将信息发送给控制模块,由控制模块调整路由策略,避开拥塞链路。
有益效果如下:
该无损高效的RDMA传送方法,通过研究在广域分布式网络环境下,将网络拓扑、流量特征、机器学习的传输特征实现有机的整合,提出一种无损高效的RDMA传送技术,通过精细化拥塞控制与流控制策略来最大化带宽利用率解决数据处理效率低和传输时延过长问题。
具体实施方式
基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:一种无损高效的RDMA传送方法,传送方法包括RDMA数据包重传和RDMA智能流控机制,RDMA智能流控机制包括有链路状态反馈机制和流量控制机制。
1.RDMA数据包重传技术
1.1发送节点维护发送窗口,记录当前待发送及已发送为收到确认的数据包编号。
1.2依窗口记录的编号顺序依次向接收方发送数据包。
1.3接收方收到数据后,构建确认数据包,数据包包括确认位和期待位,其中确认位记录当前已经收到且尚未发送确认信息的数据包编号,以及希望立刻收到的数据包的编号,并将该数据包发送给发送方。
1.4发送方收到确认数据包后,根据确认数据包中的确认位更新发送窗口,并计算每个数据发的发送延迟(收到确认包的时间减去数据发送的时间),并根据期待位发送对应的数据。
1.5发送方计算最近N个数据的平均发送延迟T,及方差delta。
1.6发送方以时间阈值k为周期,遍历窗口内所有数据包,对于当前遍历的数据包,如果属于数据已经发送且尚未收到确认,计算其确认等待时延W(当前时间减去数据发送时间),如果W大于或者等于T+delta,重新发送该数据,并将其发送时间更新为当前时间。
2.RDMA智能流控机制
2.1链路状态反馈机制
2.1.1当出现超过参数x个数据包超时没有收到确认包时,发送方发送链路状态咨询包。
2.1.2网络链路中的每一跳交换节点,如果能够理解该数据包,则构建被动反馈包,将本交换节点的处理速度、转发队列长度等信息加入被动反馈包,并将被动反馈包发送给发送方。
2.1.3交换节点将咨询包发送给下一跳节点。
2.1.4每一跳交换节点当前处理速度超过低于阈值,或者转发队列长度高于阈值时,构建主动反馈包,将处理速度及转发队列长度加入主动反馈包,并发送给控制模块。
2.2流量控制机制
2.2.1收到被动反馈包后,判断发生拥塞的链路数目,如果发生拥塞的链路数据超过阈值,则降低对应接收方数据包的优先级,降低数据发送速度,将该接收方加入管控队列,否则,将信息发送给控制模块,由控制模块调整路由策略,避开拥塞链路。
2.2.2收到主动反馈包后,由控制模块判断发生拥塞的链路数据超过阈值,如果没有超过阈值,调整路由策略,避开拥塞链路,否则,给发送方发送控制数据包。
2.2.3发送方收到控制数据包后,降低准备发送给该接收方数据的优先级,降低数据发送速度,将该接收方加入管控队列。
2.2.4以m为时间周期轮训管控队列,对于管控队列当前接收方,其当前数据确认等待时延降低至阈值时,提升该接收方数据发送优先级,提升数据发送速度。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种无损高效的RDMA传送方法,其特征在于:所述传送方法包括RDMA数据包重传和RDMA智能流控机制,所述RDMA智能流控机制包括有链路状态反馈机制和流量控制机制;
收到被动反馈包后,判断发生拥塞的链路数目,如果发生拥塞的链路数据超过阈值,则降低对应接收方数据的优先级,降低数据发送速度,将该接收方加入管控队列,否则,将信息发送给控制模块,由控制模块调整路由策略,避开拥塞链路;
所述RDMA数据包重传包括以下步骤:
S1、发送节点维护发送窗口,记录当前待发送及已发送为收到确认的数据包编号;
S2、依窗口记录的编号顺序依次向接收方发送数据包;
S3、接收方收到数据后,构建确认数据包;
S4、发送方收到确认数据包后,根据确认数据包中的确认位更新发送窗口,并计算每个数据发的发送延迟,并根据期待位发送对应的数据;
S5、发送方计算最近N个数据的平均发送延迟T,及方差delta;
S6、发送方以时间阈值k为周期,遍历窗口内所有数据包,对于当前遍历的数据包,如果属于数据已经发送且尚未收到确认,计算其确认等待时延W,如果W大于或者等于T+delta,重新发送该数据,并将其发送时间更新为当前时间。
2.根据权利要求1所述的一种无损高效的RDMA传送方法,其特征在于:所述步骤S3中,确认位记录当前已经收到且尚未发送确认信息的数据包编号,以及希望立刻收到的数据包的编号,并将该数据包发送给发送方。
3.根据权利要求1所述的一种无损高效的RDMA传送方法,其特征在于:所述发送延迟为收到确认包的时间减去数据发送的时间,所述等待时延为当前时间减去数据发送时间。
4.根据权利要求1所述的一种无损高效的RDMA传送方法,其特征在于:所述链路状态反馈机制包括以下步骤:
S1、当出现超过参数x个数据包超时没有收到确认包时,发送方发送链路状态咨询包;
S2、网络链路中的每一跳交换节点,如果能够理解该数据包,则构建被动反馈包,将本交换节点的处理速度、转发队列长度信息加入被动反馈包,并将被动反馈包发送给发送方;
S3、交换节点将咨询包发送给下一跳节点;
S4、每一跳交换节点当前处理速度超过低于阈值,或者转发队列长度高于阈值时,构建主动反馈包,将处理速度及转发队列长度加入主动反馈包,并发送给控制模块。
5.根据权利要求1所述的一种无损高效的RDMA传送方法,其特征在于:所述流量控制机制包括以下步骤:
S1、收到被动反馈包后,判断发生拥塞的链路数目;
S2、收到主动反馈包后,由控制模块判断发生拥塞的链路数据超过阈值,如果没有超过阈值,调整路由策略,避开拥塞链路,否则,给发送方发送控制数据包;
S3、发送方收到控制数据包后,降低准备发送给该接收方数据的优先级,降低数据发送速度,将该接收方加入管控队列;
S4、以m为时间周期轮训管控队列,对于管控队列当前接收方,其当前数据确认等待时延降低至阈值时,提升该接收方数据发送优先级,提升数据发送速度。
6.根据权利要求5所述的一种无损高效的RDMA传送方法,其特征在于:所述步骤S2中,如果发生拥塞的链路数据超过阈值,则降低对应接收方数据包的优先级,降低数据发送速度,将该接收方加入管控队列,否则,将信息发送给控制模块,由控制模块调整路由策略,避开拥塞链路。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210376871.8A CN114866476B (zh) | 2022-04-12 | 2022-04-12 | 一种无损高效的rdma传送方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210376871.8A CN114866476B (zh) | 2022-04-12 | 2022-04-12 | 一种无损高效的rdma传送方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114866476A CN114866476A (zh) | 2022-08-05 |
CN114866476B true CN114866476B (zh) | 2023-06-30 |
Family
ID=82629128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210376871.8A Active CN114866476B (zh) | 2022-04-12 | 2022-04-12 | 一种无损高效的rdma传送方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114866476B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116760779A (zh) * | 2023-08-21 | 2023-09-15 | 珠海星云智联科技有限公司 | 网络拥塞控制方法、系统、存储介质和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103647722A (zh) * | 2013-11-19 | 2014-03-19 | 中国科学院计算技术研究所 | 一种基于信誉的链路拥塞控制方法 |
CN109120544A (zh) * | 2018-09-30 | 2019-01-01 | 华中科技大学 | 一种数据中心网络中基于主机端流量调度的传输控制方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109714267B (zh) * | 2018-12-26 | 2021-01-29 | 清华大学 | 管理反向队列的传输控制方法及系统 |
CN110177051A (zh) * | 2019-06-28 | 2019-08-27 | 四川长虹电器股份有限公司 | 基于流控技术的数据中心拥塞控制方法 |
CN110460533B (zh) * | 2019-07-12 | 2023-09-19 | 锐捷网络股份有限公司 | 基于rdma的数据传输方法及装置 |
CN112165355B (zh) * | 2020-10-23 | 2022-03-22 | 中国电子科技集团公司第三十研究所 | 一种面向卫星网络的基于udp的可靠数据传输方法 |
-
2022
- 2022-04-12 CN CN202210376871.8A patent/CN114866476B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103647722A (zh) * | 2013-11-19 | 2014-03-19 | 中国科学院计算技术研究所 | 一种基于信誉的链路拥塞控制方法 |
CN109120544A (zh) * | 2018-09-30 | 2019-01-01 | 华中科技大学 | 一种数据中心网络中基于主机端流量调度的传输控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114866476A (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9385835B2 (en) | System and method for adaptive frame size management in a wireless multihop network | |
CN106059950B (zh) | 一种基于scps-tp的自适应网络拥塞控制方法 | |
CN109714267B (zh) | 管理反向队列的传输控制方法及系统 | |
US20080159337A1 (en) | Data transmission method and device using controlled transmission profile | |
CN108418767A (zh) | 数据传输方法、设备及计算机存储介质 | |
CN104796350A (zh) | 一种基于连续报文标记的多路径tcp拥塞控制方法 | |
CN1842052A (zh) | 无线链路控制层的数据传输方法 | |
CN114866476B (zh) | 一种无损高效的rdma传送方法 | |
CN109873773B (zh) | 一种用于数据中心的拥塞控制方法 | |
Alipio et al. | RT-CaCC: A reliable transport with cache-aware congestion control protocol in wireless sensor networks | |
CN102801692B (zh) | 一种基于分裂连接的传输控制协议优化方法及系统 | |
CN101969432A (zh) | 基于随机回退的tcp拥塞窗口的控制方法 | |
US20030043788A1 (en) | Packet repeater in asymmetrical transmissions | |
US11622028B2 (en) | Explicit notification of operative conditions along a network path | |
Jang et al. | A flow control scheme for improving TCP throughput and fairness for wireless networks | |
CN108834174B (zh) | 基于拥塞控制的无线传感器网络分簇式路由协议跨层优化方法 | |
CN114827036B (zh) | 基于sdn的具有缓存感知的ndn逐跳拥塞控制方法 | |
CN117255038B (zh) | 一种tcp数据包丢失监测方法 | |
CN116437493B (zh) | 海上自组网的数据退避发送方法、装置、设备及存储介质 | |
Li et al. | Improving TCP performance for asymmetric networks | |
Wang et al. | Congestion detection and link control via feedback in RDMA transmission | |
Fukuda et al. | Performance evaluation of tcp variants with packet reordering | |
Shi et al. | A MAC layer congestion control mechanism in IEEE 802.11 WLANs | |
Oda et al. | Compound TCP+ for fairness improvement among Compound TCP connections in a wireless LAN | |
Bazzal et al. | Proposition of an adaptive retransmission timeout for TCP in 802.11 wireless environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |