CN116846833A - 用于超浅交换机缓冲区的数据中心网络传输控制方法 - Google Patents
用于超浅交换机缓冲区的数据中心网络传输控制方法 Download PDFInfo
- Publication number
- CN116846833A CN116846833A CN202310178604.4A CN202310178604A CN116846833A CN 116846833 A CN116846833 A CN 116846833A CN 202310178604 A CN202310178604 A CN 202310178604A CN 116846833 A CN116846833 A CN 116846833A
- Authority
- CN
- China
- Prior art keywords
- credit
- max
- rtt
- packets
- queue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000000872 buffer Substances 0.000 title claims abstract description 21
- 230000005540 biological transmission Effects 0.000 title claims abstract description 20
- 230000001186 cumulative effect Effects 0.000 claims 1
- 241000673185 Aeolus Species 0.000 description 12
- 238000013461 design Methods 0.000 description 11
- 238000007418 data mining Methods 0.000 description 6
- 238000009825 accumulation Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种用于超浅交换机缓冲区的数据中心网络传输控制方法,包括如下步骤:所述方法基于网络发送端、接收端和交换机;所述交换机包括控制入口管道和出口管道;其中:所述入口管道用于记录记录当前的RTT内信用的模式并将记录的值在当前RTT结束时传递给出口管道;其中:所述RTT表示网络往返延迟;所述出口管道用于记录所述入口管道输出的信用模式推测和计算可利用空闲带宽并根据计算的可利用空闲带宽选择丢弃或是接收到达交换机的非计划数据包,本发明可以高效地利用网络空闲带宽来降低流量完成时间,同时保证可控情况下不丢失计划数据包来提高吞吐率。
Description
技术领域
本发明属于数据中心网络传输控制或拥塞控制领域,具体涉及用于超浅交换机缓冲区的数据中心网络传输控制方法。
背景技术
数据中心网络的链路速度在过去十年中从10Gbps快速地增长到100Gbps,但交换机缓冲区扩展速度却非常缓慢,导致其为每Gbps提供的缓冲区降低了数十倍,给传输控制方法的设计带来了困难。一方面,越来越多延迟敏感的小流在几个往返时延(Round-TripTime,RTT)内完成,使得线速启动流量以最优化延迟变得必要;另一方面,由于可用的交换机缓冲区受限,吞吐敏感的大流需要可靠的传输协议来减少因缓冲区溢出带来的丢包,实现高吞吐率。
传统的数据中心网络传输控制方法(例如DCTCP,DCQCN和TIMELY)难以解决以上问题。原因在于其设计方案是反应式的,即对来自网络的拥塞信号(如ECN,延迟等)做出反应并相应迭代更新发送速率。这些反应式的传输控制方法的收敛时间往往较长,需要多个RTT才能收敛到最优速率,性能往往不佳。因此,主动式传输控制方法(例如pHost,NDP,ExpressPass,Homa等)成为一种很有前景的替代方案,其中链路带宽由接收端或中央控制器以信用包(Credit Packet)的方式预先分配,发送端根据接收到信用包发送相应的计划数据包(Scheduled Packet),以主动预防拥塞来达到低延迟和高吞吐。经过大量验证,主动式传输控制方法可以保持相当低的丢包率和交换机缓存队列长度,可以适应于高速链路,浅缓冲区交换机的数据中心网络。
但现有主动式传输控制方法在第一个RTT等待信用阶段(Pre-credit Phase)无法计算可用带宽,导致发送过少或过多的非计划数据包(Unschedu led Packet),难以同时达到低延迟和高吞吐。例如,在等待信用阶段不发送数据,虽然可以提高吐敏感的大流的吞吐率,但会导致带宽被浪费从而增加延迟;若线速发送一个BDP(Bandwidth-Product-Delay)的数据包以最小化延迟,但会带来大量丢包,使得吞吐率下降;尽管最新的方法Aeolus在交换机选择性丢弃多余的非计划数据包,但同样无法预知空闲带宽,导致难以同时达到低延迟和高吞吐率。因此,设计一个适用于超浅交换机缓冲区的数据中心网络,同时满足低延迟和高吞吐率的传输控制方法非常重要。
发明内容
针对现有的数据中心网络传输方法难以在超浅交换机缓冲区下同时达到低延迟和高吞吐的问题,本发明旨在设计一种可高效且准确计算空闲带宽的机制,在最大化带宽利用率的同时降低丢包率。
为了达到上述发明目的,本发明采用的技术方案为:
用于超浅交换机缓冲区的数据中心网络传输控制方法,包括如下步骤:
所述方法基于网络发送端、接收端和交换机;所述交换机包括控制入口管道和出口管道;其中:
所述入口管道用于记录记录当前的RTT内信用的模式并将记录的值在当前RTT结束时传递给出口管道;其中:所述RTT表示网络往返延迟;
所述出口管道用于记录所述入口管道输出的信用模式推测和计算可利用空闲带宽并根据计算的可利用空闲带宽选择丢弃或是接收到达交换机的非计划数据包。
进一步,所述出口管道用于记录所述入口管道输出的信用模式推测和计算可利用空闲带宽过程:
当上一RTT收到的信用数据包数目,即C=0时,这意味着没有信用数据包被记录,网络中所有流量都处于等待信用阶段,缓冲区可以非计划数据包完全占据;
当上一RTT收到的信用数据包数目减去当前RTT收到的机会数据包数目小于数据队列空余位置数目时,即C-S<E,获得当前数据队列中的空闲位置接可以接收所有未到达的计划数据包,即空余带宽绝对足够。
进一步,所述出口管道根据计算的可利用空闲带宽选择丢弃或是接收到达交换机的非计划数包过程:
在当前RTT数据队列中机会数据包最大数目小于上一RTT信用队列最大的长度,即Smax<Cmax时;保留Cmax个位置;
在交换机数据队列总长度减去当前RTT收到的非机会数据包数目小于或等于计划数据包的最大队列累积长度Cmax,即L-U≤Cmax,如果在Smax达到其最大值之前保留更小的空间,则尾部计划数据包将在Smax处由于拥塞而被丢弃;预留Cmax个位置是保证最小化数据包丢失的选择;
在当前RTT数据队列中机会数据包最大数目大于或等于上一RTT信用队列最大的长度,即Smax≥Cmax,保留上一RTT收到的信用队列平均长度,即在上一RTT收到的信用队列平均长度,即Cavg个位置;允许非计划数据包可以充分利用空闲带宽,同时保护计划数据包。
有益效果
本发明通过在交换机在入、出口管道分别计算可用带宽和选择性丢弃非计划书举报,高效地利用网络空闲带宽来降低流量完成时间(Flow Completion Time,FCT),同时保证可控情况下不丢失计划数据包来提高吞吐率(Goodput)。
本方法在大规模仿真集群上与最前沿的主动式传输控制方法Aeolus做对比。其中Aeolus分别采用不同的选择性丢弃阈值(D=4,6,8个数据包)。集群网络拓扑是数据中心网络最常用的叶脊拓扑,包括144个服务器,9个叶交换机,4个脊交换机。链路带宽均为100Gbps;链路延迟为1微秒;交换机数据队列最大长度为8个数据包。应用层流量采用CacheFollower,WebSearch和DataMining真实的工作负载;流量按照泊松过程随机启动流来生成,并控制流的到达时间间隔以达到所需的网络负载(0.1至0.9)。
图4,5和6为分别在CacheFollower,WebSearch和DataMining负载下的实验结果图。图中展示了标准化后的流量延迟和吞吐率。总体上,Schef可以达到近乎最优的延迟,同时能保证高吞吐率,而Aeolus使用各种丢弃阈值都无法同时达到低延迟和高吞吐。
在流量延迟的表现上,Schef时的表现优于Aeolus在D=4和6的结果,而与AeolusD=8之间只有很小的差距(D=8延迟最小,但吞吐率最低)。如在CacheFollower负载下,与D=4和6相比,Schef将流量的平均/90th/99th的FCT分别减少最多23%/40%/31%和7%/32%/27%。这些结果直接验证了Schef在利用剩余空闲带宽方面比在Aeolus使用固定阈值更有效。Schef在DataMining负载的性能与AeolusD=8相当,差距非常很小(~7%)。原因是该负载中的小流相对较小,仅需较少的带宽,因此更适用于Schef可靠的交换机设计。
在总体吞吐率的表现上,Schef可以达到或高于D=4的吞吐率(D=4吞吐率最高,但延迟表现最差)。如在DataMining负载下与AeolusD=4相比,Schef的吞吐率提高了高达13%,其他两个工作负载的也仅仅只有4%。原因有两方面。首先,因为工作负载更偏斜,平均流大小相对较大,更容易经历吞吐量损失,因此DataMining工作负载为Schef留下了更多的优化空间。其次,由于本申请的交换机设计消除了Aeolus通过计算和在每个RTT中保留足够的带宽所做的权衡,因此有效地保护了计划数据包,以保持较高的吞吐量。
附图说明
图1为本方法交换机设计架构示意图。
图2为本方法示例展示图。
图3为本方法交换机设计算法所需变量与参数。
图4为本方法交换机设计算法伪代码。
图5为本方法在大规模仿真CacheFollower负载下测试的延迟和吞吐率结果。
图6为本方法在大规模仿真WebSearch负载下测试的延迟和吞吐率结果。
图7为本方法在大规模仿真DataMining负载下测试的延迟和吞吐率结果。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
本发明的设计主要分为发送端、接收端和交换机。交换机包括入口管道(IngressPipeline)和出口管道(Egress Pipeline),并以一个RTT(网络往返延迟)为单位时间更新控制面变量,结构如图1所示。
发送端:
(1)当新的流量开始传输,以线速发送一个BDP(带宽延迟积)非计划数据包;(2)在信用等待阶段结束时,通过信用传输队列发送一个探测数据包;(3)收到信用包时,发送端触发一个计划数据包,顺序如下:丢失的非计划数据包>未发送的数据>丢失的计划数据包。
接收端:
(1)收到计划数据包时,返回一个信用数据包,注:非计划数据包不返回信用包;(2)收到探测包时,返回一个选择性确认包SACK(Sective Acknowledement)以通知发送端非计划数据包丢失,并重传。
交换机:
(1)交换机入口管道负责记录当前的RTT(网络往返延迟)内信用的模式(例如,信用数据包数目,信用队列平均长度、信用队列平均长度),并将记录的值在当前RTT结束时传递给出口管道。
(2)交换机出口管道首先利用记录的信用模式来推测和计算可利用空闲带宽,然后,根据计算的可利用空闲带宽选择丢弃还是接收到达交换机的非计划数据包。对于超时重传的数据包(既不是计划数据包也不是非计划数据包),交换机立刻接收这个数据包,之后将其看作是一个非计划数据包进行处理。
示例:为清晰描述本方法交换机工作流程,通过与最新提出的主动式传输控制方法Aeolus做对比的示例(图2)加以说明。同样的,Aeolus在等待信用阶段发送一个BDP的非计划数据包,并在交换机对多余非计划数据包采用选择性丢弃;不同的是,Aeolus的交换机当数据队列长度超过一个非常小的阈值后,丢弃所有接收到的非计划数据包。
具体的,信用包(流量1)和计划数据包(流量2)共享同一个瓶颈链路,交换机的数据队列长度为8个数据包,Aeolus选择性丢弃触发阈值为4个数据包。在当前的网络往返延迟中,信用包,即流量1有5个信用包到达交换机,并建立一个长为5个包的持久队列,被本方法(下文称Schef)交换机的入口管道记录。这意味着下一网络往返延迟数据队列至少有3个包的位置可以被非计划数据包利用。在下一个网络往返延迟中,发送方根据到达的信用包以相同的顺序和速率触发计划数据包。同时,在信用包的第四个计划数据包进入数据队列后,有4个来自流量2的非计划数据包以线路速率到达。此时,由于数据队列长度超过阈值,Aeolus将丢弃所有非计划数据包。而Schef计算到空闲带宽大小为3个数据包,并接收3个非计划数据包和1个计划数据包,避免带宽浪费且保证可控情况下不丢失计划数据包。
如图3、图4所示,本方法将等待信用阶段的空闲带宽计算分为两个步骤:
(1)当空闲带宽绝对足够:出口管道可以接收所有收到的非计划数据包。
本方法在以下两种情况下,备用带宽绝对足够。
首先,当C=0时,这意味着没有信用数据包被记录,网络中所有流量都处于等待信用阶段,因此,缓冲区可以非计划数据包完全占据。其中:C为上一网络往返延迟的信用数据包数目。
第二,当C-S<E,这意味着当前数据队列中的空闲位置接可以接收所有未到达的计划数据包,因此可以确保至少接收一个非计划数据包。注意,对于既不是非计划数据包,也不是由信用触发的计划数据包,即重传超时(Retransmission-Time-Out)数据包,Schef不会对其应用选择性丢弃,因为本申请希望尽快恢复丢失的部分。然而,一旦RTO数据包进入数据队列,它就被视为非计划数据包,以保证每个信用仅触发一个计划数据包的确定性原理。其中:S为当前RTT收到的计划数据包数目,E为数据队列空余位置数目;
(2)当备用带宽不一定足够:交换机需要为计划数据包预留一定的带宽,以确保在可控情况下不被丢弃,同时非计划数据包可以利用剩余部分。也就是说,如果L-U小于预留的位置,交换机立刻丢弃收到的非计划数据包。具体地,当Smax<Cmax时,交换机为计划数据包在数据队列预留Cmax个位置;否则,将预留Cavg个位置,背后的原因有两个。
首先,当Smax<Cmax时,保留Cmax个位置可以防止由于队列累积而造成丢弃计划数据包。由于可预测性,即计划数据包的最大队列累积长度等于Cmax,如果在Smax达到其最大值之前保留更小的空间,则尾部计划数据包将在Smax处由于拥塞而被丢弃。因此,预留Cmax个位置是保证最小化数据包丢失的选择。请注意,一些本应在前若干个RTT接收,但延迟到当前RTT的计划数据包可能会导致比理论Cmax更大的队列累积,从而导致数据包丢失。但在Schef的设计中不会考虑这一点,因为本方案围绕着当前极浅的缓冲区设计,因此排队延迟远小于一个RTT。尽管如此,这种情况的一个潜在解决方案是使用更大周期的计时器T(例如2个RTT)来覆盖排队延迟。
其次,当Smax≥Cmax,保留Cavg个位置允许非计划数据包可以充分利用空闲带宽,同时保护计划数据包。一方面,如果在经历了最大队列累积之后仍保留Cmax个位置,那么考虑到当Cavg接近零时,队列缓冲区可能会完全空闲但缺丢弃了非计划数据包,从而极大地浪费了空闲带宽。另一方面,考虑到Cavg接近Cmax,预留Cavg个位置对于计划数据包也是完全足够的,即最小化计划书举报丢包率的同时,能最大化带宽利用率。
Claims (3)
1.用于超浅交换机缓冲区的数据中心网络传输控制方法,其特征在于,包括如下步骤:
所述方法基于网络发送端、接收端和交换机;所述交换机包括控制入口管道和出口管道;其中:
所述入口管道用于记录记录当前的RTT内信用的模式并将记录的值在当前RTT结束时传递给出口管道;其中:所述RTT表示网络往返延迟;
所述出口管道用于记录所述入口管道输出的信用模式推测和计算可利用空闲带宽并根据计算的可利用空闲带宽选择丢弃或是接收到达交换机的非计划数据包。
2.根据权利要求1所述的用于超浅交换机缓冲区的数据中心网络传输控制方法,其特征在于,所述出口管道用于记录所述入口管道输出的信用模式推测和计算可利用空闲带宽过程:
当上一RTT收到的信用数据包数目,即C=0时,这意味着没有信用数据包被记录,网络中所有流量都处于等待信用阶段,缓冲区可以非计划数据包完全占据;
当上一RTT收到的信用数据包数目减去当前RTT收到的机会数据包数目小于数据队列空余位置数目时,即C-S<E,获得当前数据队列中的空闲位置接可以接收所有未到达的计划数据包,即空余带宽绝对足够。
3.根据权利要求1所述的用于超浅交换机缓冲区的数据中心网络传输控制方法,其特征在于所述出口管道根据计算的可利用空闲带宽选择丢弃或是接收到达交换机的非计划数包过程:
在当前RTT数据队列中机会数据包最大数目小于上一RTT信用队列最大的长度,即Smax<Cmax时;保留Cmax个位置;
在交换机数据队列总长度减去当前RTT收到的非机会数据包数目小于或等于计划数据包的最大队列累积长度Cmax,即L-U≤Cmax,如果在Smax达到其最大值之前保留更小的空间,则尾部计划数据包将在Smax处由于拥塞而被丢弃;预留Cmax个位置是保证最小化数据包丢失的选择;
在当前RTT数据队列中机会数据包最大数目大于或等于上一RTT信用队列最大的长度,即Smax≥Cmax,保留上一RTT收到的信用队列平均长度,即在上一RTT收到的信用队列平均长度,即Cavg个位置;允许非计划数据包可以充分利用空闲带宽,同时保护计划数据包。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310178604.4A CN116846833A (zh) | 2023-02-27 | 2023-02-27 | 用于超浅交换机缓冲区的数据中心网络传输控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310178604.4A CN116846833A (zh) | 2023-02-27 | 2023-02-27 | 用于超浅交换机缓冲区的数据中心网络传输控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116846833A true CN116846833A (zh) | 2023-10-03 |
Family
ID=88165877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310178604.4A Pending CN116846833A (zh) | 2023-02-27 | 2023-02-27 | 用于超浅交换机缓冲区的数据中心网络传输控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116846833A (zh) |
-
2023
- 2023-02-27 CN CN202310178604.4A patent/CN116846833A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | HPCC: High precision congestion control | |
US11968116B2 (en) | Method and system for facilitating lossy dropping and ECN marking | |
Zhang et al. | ReLeS: A neural adaptive multipath scheduler based on deep reinforcement learning | |
JP3698884B2 (ja) | Tcp接続の性能改善方法 | |
CN104954206B (zh) | 一种多路径并行传输系统的乱序分析方法 | |
US6122673A (en) | Port scheduler and method for scheduling service providing guarantees, hierarchical rate limiting with/without overbooking capability | |
Yang et al. | A taxonomy for congestion control algorithms in packet switching networks | |
Jiang et al. | Network congestion avoidance through speculative reservation | |
US20140211625A1 (en) | Predictive management of a network buffer | |
Kalyanaraman et al. | Performance and buffering requirements of internet protocols over ATM ABR and UBR services | |
CN113543209B (zh) | 一种基于令牌调度的拥塞控制方法及装置 | |
Alipio et al. | TCP incast solutions in data center networks: A classification and survey | |
CN100514933C (zh) | 基于并行缓存结构的通信网络交换系统及其控制方法 | |
CN110868359B (zh) | 一种网络拥塞控制方法 | |
CN116846833A (zh) | 用于超浅交换机缓冲区的数据中心网络传输控制方法 | |
Hu et al. | Aeolus: A building block for proactive transport in datacenter networks | |
CN113452618A (zh) | 一种基于拥塞控制的m/m/1排队模型调度方法 | |
Wechta et al. | The interaction of the TCP flow control procedure in end nodes on the proposed flow control mechanism for use in IEEE 802.3 switches | |
Ruan et al. | Polo: Receiver-driven congestion control for low latency over commodity network fabric | |
Zhang et al. | Efficient data center flow scheduling without starvation using expansion ratio | |
Zhang et al. | DIRS: Dynamic Initial Rate Setting in Congestion Control for Disaggregated Storage Systems | |
Liebeherr et al. | Design and analysis of a high-performance packet multiplexer for multiservice networks with delay guarantees | |
JP3634992B2 (ja) | 可変長パケットスイッチ | |
US20240056385A1 (en) | Switch device for facilitating switching in data-driven intelligent network | |
Peng et al. | A multicast congestion control scheme for mobile ad-hoc networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |