CN112437019B

CN112437019B - 用于数据中心的基于信用包的主动型传输方法

Info

Publication number: CN112437019B
Application number: CN202011382866.5A
Authority: CN
Inventors: 董德尊; 黄山; 周泽嘉; 杨文祥; 徐金波; 张建民; 李存禄
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2022-01-25
Anticipated expiration: 2040-11-30
Also published as: CN112437019A

Abstract

本发明公开了一种用于数据中心的基于信用包的主动型传输方法，发送端首先记录信用包请求的数据流大小并将其发送给接收端；在接收端接收到信用数据包时，发送端将其信用序列号复制到相应的数据分组上，并将数据分组发送给接收端；发送数据包后，发送端将通过减去发送的信用数据包大小来更新相应流的流剩余长度；对于交换机，每个交换机端口将信用速度限制为5％链路速度，如果信用大小超过链路容量，则丢弃信用数据包；在信用队列中启用优先级调度，当信用队列被填满时，交换机将丢弃最低优先级信用。本发明有效提高了接收端的短流信用发送速率，与目前常用的SCA传输相比，降低了实际工作负载下的短流传输延迟和平均FCT。

Description

用于数据中心的基于信用包的主动型传输方法

技术领域

本发明涉及计算机网络体系和网络数据传输领域，尤其涉及一种用于数据中心的基于信用包的主动型传输方法。

背景技术

数据中心内部数据流量大且突发，其内部数据流量主要由短延迟敏感消息和一些大流量混合而成。但是，当前的数据中心交换机缓冲区非常浅，当缓冲区占用率过高时，这种典型的混合流量很可能会导致网络拥塞。一旦发生拥塞，数据排队和丢包将严重影响小流量的流完成时间，并影响大流量的吞吐量，进一步影响用户体验。为了提高网络性能，目前提出了许多方法来管理拥塞。

在当前的高速数据中心，一个往返时间(RTT)可以完成越来越多的流。由于反应型拥塞控制方案需要至少一个RTT对拥塞作出反应，影响了其拥塞处理的实时性，导致这些方案在当前的高速数据中心中效率较低。基于信用的主动型拥塞控制方案具有收敛速度快、延迟低、吞吐量高等优点，因此在当前的高速数据中心中具有很高的适用性。基于信用的主动型拥塞控制方案利用端到端信用来实现端到端的传输，防止端到端的拥塞，实现端到端的无损。然而，这些方法没有考虑网络核心拥塞，这也会影响网络性能。

逐跳(hop-by-hop)信用可以将整个路径信息从接收端反馈给发送端，与只关心端到端拥塞的端到端信用相比，它们具有更好的性能。有鉴于此，一些基于信用的传输通过利用了逐跳信用具有很强的拥塞避免性(Strong Congestion Avoidability，SCA)的优点，并且其可以在网络中的每一跳保持一个非常短的队列。通常，短队列有助于减少传输延迟，这也是拥塞控制方案追求的目标。

在数据中心，小流对延迟非常敏感，加快小流的传输是减少流完成时间(FCT)和改善用户体验的关键。许多方法中提出了以短流优先传输为目标的流调度方法，但它们只在交换机端口排队时才起作用。当SCA协议达到接近零的队列长度时，它们不能与传统的流调度方法有效地协同工作。短延迟敏感流和大象流被平等对待，这会损害其传输的性能。

发明内容

为解决数据中心在流量突发时出现网络拥塞问题，本发明公开了一种用于数据中心的基于信用包的主动型传输方法(FastCredit)，其步骤包括：

对于发送端，假设流量大小是已知的。当数据流准备好发送时，发送端首先记录信用包请求的数据流大小并将其发送给接收端。发送端在发送端流程图(Sender Flow Map,SFM)中记录每个流的剩余长度ls，当流剩余大小为零时，向接收端发送一个信用停止包。

在接收端接收到信用数据包时，发送端将其信用序列号复制到相应的数据分组上，并将数据分组发送给接收端。发送数据包后，发送端将通过减去发送的信用数据包大小来更新相应流的流剩余长度。

对于交换机，每个交换机端口将信用速度限制为5％链路速度，如果信用大小超过链路容量，则丢弃信用数据包；本方法不直接限制信用利率，而是使用8个信用数据包大小的信用队列来缓冲拥塞的信用。本方法在信用队列中启用优先级调度，当信用队列被填满时，交换机将丢弃最低优先级信用。信用优先级由接收端根据要接收的流剩余大小进行设置，如果要接收的流剩余数据量越多，则为该流分配信用的优先级越低；如果要接收的流剩余数据量越少，则为该流分配信用的优先级越高。

为了保证信用包和相应的数据包通过同一路径传输，交换机采用了具有确定性等代价多路径转发的对称哈希算法(Equal Cost Multi-Path，ECMP)。

对于接收端，接收端建立并维护一个接收端流图(ReceiverFlow Map，RFM)，该接收端流图记录当前信用包发送速率vcur、信用包最大发送速率vmax和要接收的流的剩余长度lr。当前信用包发送速率值由反馈控件feedback控制，并受信用包最大发送速率的限制。lmin为调节参数，用于防止数据流在发送端已经全部发出，而接收端暂未收到信用停止，还在以最高优先级高速率发送该数据流信用包的情形。

接收端在接收到包时，采用以下步骤：

S1，接收端首先将接收到的包区分为信用请求、信用停止或数据包。

S2，如果接收到的包是信用请求，则接收端首先将新的数据流添加到RFM中。

S3，如果为接收端发送信用请求的数据流的数据剩余长度小于有效的最短流长度，则接收端直接将vmax和vcur值设置为最大信用发送速率，有效的最短流是指超过lmin的流中的最短流。

S4，如果当前接收的数据流大小大于lmin，接收端将把当前接收的数据流设为有效的最短流，并将其他有效流vmax和vcur值设置为基本信用发送速率vbase。

S5，如果当前接收的数据流比有效的最短流长，接收端将当前接收的数据流的vmax和vcur值设置为基本信用发送速率vbase。

S6，如果接收到的包是数据包，则lr的值根据接收数据包的数量值而减小相应的取值。

S7，如果lr是目前有效最短流的长度值，则接收端会将vmax设置为最大信用发送速率。

S8，如果lr小于lmin，接收端将选择一个新的数据流来加速。

S9，在信用包被接收端分配出去之前，每个信用包都会被标记一个优先级，这个优先级是基于lr设定的，即lr越小，优先级越高。每个接收端和发送端使用相同的调度策略为信用包设置优先级，在交换机上严格按照剩余流量大小lr来调度信用包。

S10，如果接收到的包是信用停止，则接收端将删除RFM中的流信息，如果当前接收的数据流是单个数据包，接收端更新RFM并选择最短的流来加速。

所述的一条数据流包含有大于等于一个数据包，最短的数据流就是一个数据包。数据包简称为包，数据流简称为流。

每个信用包都带有一个递增的信用序列号。当接收到信用包时，发送端首先将信用包序列号记录在相应的数据包上，然后发送给接收端，接收端通过分析数据包所携带的信用序列号来计算信用下降率，并定期将信用发送率(vcur)调整到适当的值。

对于数据流调度，按照短流优先的原则逐个发送数据流，设置长数据流的vmax的下限(vbase)，vbase值的设置需要在高带宽利用和低延迟传输之间达到平衡。

步骤S8中所述的如果lr小于lmin，接收端将选择一个新的数据流来加速，其具体为：当剩余的流大小lr小于发送端在下一个RTT中发送的最大数据量(vmax×95/5)×RTT时，将更新RFM并选择一个新的流与较短流一起加速。

本发明的有益效果为：

(1)本发明公开了基于信用包的主动型传输协议的方法(FastCredit)，实现了强大的拥塞避免能力和短流优先传输。本发明中提出了一种新的流调度机制，其基本思想是加速短流信用的传输，以提高数据流的完成时间。当一个主机同时接收多个流时，它将最短流信用提升到接近最高的发送速度，并将其他流信用限制在较低的发送速率。同时，接收端根据剩余流量大小设置信用优先级。当不同优先级的信用在同一交换机端口相遇时，交换机首先发送高优先级的信用，然后丢弃低优先级的信用。利用本发明，高优先级的信用被迅速地传输到发送端，而短的流也被加速。

(2)本发明方法有效提高了接收端的短流信用发送速率，在交换机处采用基于信用传输的优先级调度，开发了BWP以防止带宽浪费。总之，本发明保持了当前SCA传输的优势，如短的有界队列和高吞吐量。实验结果表明，与目前最先进的SCA传输相比，本发明降低了实际工作负载下的短流传输延迟和平均FCT。此外，本发明在保持SCA良好性能的情况下大大提高了平均FCT。

附图说明

图1为数据包和信用包的传输拓扑图。

图2为用于数据中心的基于信用的主动型传输方法的基本原理图。

图3为真实负载下的两种方法的流完成时间对比图。

具体实施方式

为了更好的了解本发明内容，这里给出一个实施例。

信用(credit)用于调度链路容量内的数据传输，包括单跳信用、端到端信用和逐跳信用。单跳信用是指信用在两台设备之间传递，它通常部署在链路层，以确保两台交换机之间的数据无损。主动型传输协议采用端到端信用机制，它对发送端端和接收端端之间的数据传输进行调度，如pHost，Homa，和NDP。这种信用只能防止接收端的拥塞，因为它只是反馈主机接收速率的信息。逐跳信用可以反馈从接收端到发送端的每一跳的最大数据传输速率，进一步通过限制发送端在速率范围内发送数据来防止每个跳的拥塞，例如D3和ExpressPass。

为了明确逐跳信用的强拥塞避免性(SCA)，这里以基于信用的传输——ExpressPass为例进行说明。发送端首先向接收端发送一个信用请求，然后接收端在接收到该信用请求后向发送端发送信用。在接收端，主机NIC将信用率限制为5％链路速度，(每个信用是84字节的最小以太网帧，相应的数据包是1538字节的最大以太网帧，将信用速率限制在84B/(1538B+84B)＝5％可以精确地充分利用链路容量而不发生拥塞)，以确保数据不超过接收容量。另外，每个交换机端口都有一个信用队列，信用以5％的链路速度通过队列，这样交换机上的数据就不会拥塞。在网络中，过速信用由交换机丢弃，其余信用通过网络到达发送端。当发送端接收到信用时，它相应地向接收端发送一个数据包。注意，相应的信用包和数据包应通过相同的路径传输。通过这种方式，ExpressPass可以通过利用逐跳信用保证网络中每个节点的数据不会拥塞。

数据中心流量由短延迟敏感流和长流组成，在使用SCA传输时，小流和长流被无区别地传输。然而，当调度短流优先传输时，平均FCT和延迟敏感的小流的延迟可以得到显著改善。

图1为数据包和信用包的传输拓扑图。如图1所示，四个不同大小的流同时从四个发送端发送到一个接收端。假设它们的流量大小为10、20、30和40，链路速度为10。当这些流不加区分地被调度时，它们公平地共享链路，它们的平均FCT为(4+7+9+10)/4＝7.5。否则，在按照短流优先的原则逐个发送时，平均FCT可以减少到(1+3+6+10)/4＝5。通过这样做，平均FCT降低了33％.因此，加速SCA传输的短流传输是有意义的。

SCA传输协议保留了短有界队列的优点，这限制了它们与当前流调度方案的协作。流调度的核心原则是管理流的传输顺序和速度，无论是先执行短流还是公平共享。据本发明了解，数据传输与信用传输高度一致，而调度信用传输是调度数据流的关键。图2为用于数据中心的基于信用的主动型传输方法的基本原理图。如图2所示，第一到达的信用1A驱动发送端首先发送数据包1A，而数据包1B在信用证1B到达时被发送。在此基础上，本发明得出了本发明的核心思想——调度信用传输以加快数据流的传输。

FastCredit的操作流程如图1所示，本实施例从发送端、交换机和接收端三个部分进行介绍。

本发明公开了一种用于数据中心的基于信用包的主动型传输方法，其步骤包括：

对于发送端，假设流量大小是已知的。当数据流准备好发送时，发送端首先记录信用包请求的流大小并将其发送给接收端。发送端在发送端流程图(Sender Flow Map,SFM)中记录每个流的剩余长度ls，当流剩余大小为零时，向接收端发送一个信用停止包。

对于交换机，每个交换机端口将信用速度限制为5％链路速度，如果信用大小超过链路容量，则丢弃信用数据包；本方法不直接限制信用利率，而是使用8个信用数据包大小的信用队列来缓冲拥塞的信用，以确保高吞吐量。本方法在信用队列中启用优先级调度，当信用队列被填满时，交换机将丢弃最低优先级信用。信用优先级由接收端根据要接收的流剩余大小进行设置，如果要接收的流剩余数据量越多，则为该流分配信用的优先级越低；如果要接收的流剩余数据量越少，则为该流分配信用的优先级越高。

例如，交换机1的信用队列容量为两个信用包大小，当高优先级信用1A、2B成功传输时，超过队列长度的信用2B和3C被丢弃。由于最大队列长度被固定为一个值(8个信用)，优先级调度机制是可以实现的。

对于接收端，接收端建立并维护一个接收端流图(ReceiverFlow Map，RFM)，该接收端流图记录当前信用包发送速率vcur、信用包最大发送速率vmax和要接收的流的剩余长度lr。当前信用包发送速率值由反馈控件Feedback控制，并受信用包最大发送速率的限制。lmin为调节参数，用于防止数据流在发送端已经全部发出，而接收端暂未收到信用停止，还在以最高优先级高速率发送该数据流信用包的情形，从而避免导致信用包浪费。

接收端在接收到包时，采用以下步骤：

S3，如果为接收端发送信用请求的数据流的数据剩余长度小于有效的最短流，则接收端直接将vmax和vcur设置为最大信用发送速率，即5％链路速度，有效的最短流是指超过lmin的流中的最短流。

S4，如果当前接收的数据流大小大于lmin，接收端将把当前接收的数据流设为有效的最短流，并将其他有效流vmax和vcur设置为基本信用发送速率vbase。

S8，如果lr小于lmin，接收端将选择一个新的数据流来加速。

S9，在信用包被接收端分配出去之前，每个信用包都会被标记一个优先级，这个优先级是基于lr设定的，即lr越小，优先级越高。每个接收端和发送端使用相同的调度策略为信用包设置优先级，在交换机上严格按照剩余流量大小lr来调度信用。

然而，朴素的基于信用的方法在某些特定的拓扑结构中存在严重的问题，即多瓶颈拓扑的不公平共享和停车场拓扑的利用不足。为了缓解这些问题，本发明使用了一种反馈控制算法，每个信用包都带有一个递增的信用序列号。当接收到信用包时，发送端首先将信用包序列号记录在相应的数据包上，然后发送给接收端，接收端通过分析数据包所携带的信用序列号来计算信用下降率，并定期将信用发送率(vcur)调整到适当的值。

对于数据流调度，按照短流优先的原则逐个发送数据流。理论上，暂停所有长流程的信用传递，以帮助最小流量的信用获得最大速度，这样是最优的办法。然而，这并不准确，因为数据流过短会浪费大量信用。在本方法中，只有在接收到信用停止包时，接收端才会停止发送信用包，但是发送端发送信用停止和接收端接收到信用停止之间存在时间差(大约是RTT的一半)。然而，在这个时差期间，接收端连续发送信用，造成了严重的信用浪费和带宽浪费。在FastCredit中，本发明开发了一个带宽浪费预防(Bandwidth WastePrevention，BWP)机制，以减轻已完成流的信用浪费。

假设本发明暂停所有长流，严格执行短流优先原则。尽管FastCredit将最短流的vmax加速到最大的信用发送速率，但是如果信用在网络中被丢弃，它就无法传输。一旦信用反馈控制降低了最短流的信用vcur，则接收端的信用发送速率将达不到5％的链路速度，从而导致资源利用不足。

为了防止这个问题，本方法设置长数据流的vmax的下限(vbase)。但是由于vbase值与网络流量相关(如流量分布、incast比例)，无法设置一个通用的vbase值。vbase值的设置需要在高带宽利用和低延迟传输之间达到平衡，其可以设置为大值以实现高利用率，也可以设置为小值以积极加速小流量传输。本发明将vbase设置为1/16的最大信用发送率，结果表明它具有良好的性能。信用停止的发送和接收之间存在时间差，在这段时间内，接收端将以较高的发送速率发送大量的信用。然而，这些信用不能调度任何数据包，因为流已经在发送端耗尽，这导致带宽浪费并影响其他流的传输。

在此基础上，本发明提出了一种针对FastCredit的抢占式加速机制，提前提高了有效的最短流发送速率。所述的如果lr小于lmin，接收端将选择一个新的数据流来加速，其具体为：当剩余的流大小lr小于发送端在下一个RTT中发送的最大数据量(vmax×95/5)×RTT时，本方法将更新RFM并选择一个新的流与较短流一起加速。注意，多个短的流量是存在的。通过这样做，即使用尽了最短的流，接收机的数据接收速率也可以保持在较高水平。

这里使用OMNeT++来验证FastCredit在实际工作负载和incast环境下的性能，包括流完成时间、吞吐量和队列长度。在实验中主要比较FastCredit和ExpressPass。

这里使用一个Leaf-Spine拓扑结构，其中有4个spine交换机、24个leaf交换机和240个服务器，其中每个叶连接到10个服务器，该实验的基本参数配置如表1所示。这里利用web搜索和cache follower两种实际工作负载来测试FastCredit的性能，实验所用负载流量分布表如表2所示。

表1实验的基本参数配置

参数名称	数值
		基础RTT	14us
服务器网卡链路速率	10Gbps
		核心交换机链路速率	100Gbps
v<sub>base</sub>	31.25Mps
		l<sub>min</sub>	1600Bytes

表2实验所用负载流量分布表

负载流量大小	CacheFollower	WebSearch
			0-10KB	50％	49％
10KB-100KB	3％	3％
			100KB-1MB	18％	18％
1MB以上	29％	30％

FCT是验证FastCredit性能的一个关键指标，这里主要关注前30％短流的平均FCT(表示短流传输性能)和反映整体性能的平均FCT。这里模拟100000个流，每个流的源和目的地都是从服务器中随机选取的。

图3给出了真实负载下的两种方法流完成时间对比。如图3a所示，FastCredit的平均FCT性能优于ExpressPass。具体来说，FastCredit在0.6负载的cache follower流量下将平均FCT降低到0.78倍。如图3b所示，FastCredit大大减少了短流传输延迟。特别是在0.4负载的cache follower中，FastCredit将前30％的短流平均FCT降低到0.51倍。

总的来说，与ExpressPass相比，FastCredit在cache follower工作负载方面的优势更为明显，这主要是因为cache follower的流量大小分布更加分散。

为了验证BWP的有效性和验证FastCredit的有效性，这里将其在实际工作负载下的吞吐量与ExpressPass进行了比较，这里测量连接到服务器的leaf交换机的输出端口的吞吐量。测试结果表明，FastCredit的平均吞吐量几乎与ExpressPass相同，甚至略高于ExpressPass。这主要是因为由于ExpressPass假设流量大小不可知，所以无法精确安排信用停止。这可能导致严重的信用浪费，并导致吞吐量下降。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用于数据中心的基于信用包的主动型传输方法，其特征在于，其步骤包括：

对于发送端，假设流量大小是已知的；当数据流准备好发送时，发送端首先记录信用包请求的数据流大小并将其发送给接收端；发送端在发送端流程图SFM中记录每个流的剩余长度ls，当流剩余大小为零时，向接收端发送一个信用停止包；

在接收端接收到信用数据包时，发送端将其信用序列号复制到相应的数据分组上，并将数据分组发送给接收端；发送数据包后，发送端将通过减去发送的信用数据包大小来更新相应流的流剩余长度；

对于交换机，每个交换机端口将信用速度限制为5％链路速度，如果信用大小超过链路容量，则丢弃信用数据包；本方法不直接限制信用利率，而是使用8个信用数据包大小的信用队列来缓冲拥塞的信用；本方法在信用队列中启用优先级调度，当信用队列被填满时，交换机将丢弃最低优先级信用；信用优先级由接收端根据要接收的流剩余大小进行设置，如果要接收的流剩余数据量越多，则为该流分配信用的优先级越低；如果要接收的流剩余数据量越少，则为该流分配信用的优先级越高；

为了保证信用包和相应的数据包通过同一路径传输，交换机采用了具有确定性等代价多路径转发的对称哈希算法；

对于接收端，接收端建立并维护一个接收端流图RFM，该接收端流图记录当前信用包发送速率vcur、信用包最大发送速率vmax和要接收的流的剩余长度lr；当前信用包发送速率值由反馈控件feedback控制，并受信用包最大发送速率的限制；lmin为调节参数，用于防止数据流在发送端已经全部发出，而接收端暂未收到信用停止，还在以最高优先级高速率发送该数据流信用包的情形；

接收端在接收到包时，采用以下步骤：

S1，接收端首先将接收到的包区分为信用请求、信用停止或数据包；

S2，如果接收到的包是信用请求，则接收端首先将新的数据流添加到RFM中；

S3，如果为接收端发送信用请求的数据流的数据剩余长度小于有效的最短流长度，则接收端直接将vmax和vcur值设置为最大信用发送速率，有效的最短流是指超过lmin的流中的最短流；

S4，如果当前接收的数据流大小大于lmin，接收端将把当前接收的数据流设为有效的最短流，并将其他有效流vmax和vcur值设置为基本信用发送速率vbase；

S5，如果当前接收的数据流比有效的最短流长，接收端将当前接收的数据流的vmax和vcur值设置为基本信用发送速率vbase；

S6，如果接收到的包是数据包，则lr的值根据接收数据包的数量值而减小相应的取值；

S7，如果lr是目前有效最短流的长度值，则接收端会将vmax设置为最大信用发送速率；

S8，如果lr小于lmin，接收端将选择一个新的数据流来加速；

S9，在信用包被接收端分配出去之前，每个信用包都会被标记一个优先级，这个优先级是基于lr设定的，即lr越小，优先级越高；每个接收端和发送端使用相同的调度策略为信用包设置优先级，在交换机上严格按照剩余流量大小lr来调度信用包；

2.一种如权利要求1所述的用于数据中心的基于信用包的主动型传输方法，其特征在于，所述的数据流包含有大于等于一个数据包，最短的数据流就是一个数据包；数据包简称为包，数据流简称为流。

3.一种如权利要求1所述的用于数据中心的基于信用包的主动型传输方法，其特征在于，每个信用包都带有一个递增的信用序列号；当接收到信用包时，发送端首先将信用包序列号记录在相应的数据包上，然后发送给接收端，接收端通过分析数据包所携带的信用序列号来计算信用下降率，并定期将信用包发送速率vcur调整到适当的值。

4.一种如权利要求1所述的用于数据中心的基于信用包的主动型传输方法，其特征在于，对于数据流调度，按照短流优先的原则逐个发送数据流，设置长数据流的vmax的下限vbase，vbase值的设置需要在高带宽利用和低延迟传输之间达到平衡。

5.一种如权利要求1所述的用于数据中心的基于信用包的主动型传输方法，其特征在于，步骤S8中所述的如果lr小于lmin，接收端将选择一个新的数据流来加速，其具体为：当剩余的流大小lr小于发送端在下一个RTT中发送的最大数据量(vmax×95/5)×RTT时，将更新RFM并选择一个新的流与较短流一起加速。