CN114679408B - 路径切换感知的数据中心拥塞控制方法和系统 - Google Patents

路径切换感知的数据中心拥塞控制方法和系统 Download PDF

Info

Publication number
CN114679408B
CN114679408B CN202210584848.8A CN202210584848A CN114679408B CN 114679408 B CN114679408 B CN 114679408B CN 202210584848 A CN202210584848 A CN 202210584848A CN 114679408 B CN114679408 B CN 114679408B
Authority
CN
China
Prior art keywords
data packet
psf
path
bit
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210584848.8A
Other languages
English (en)
Other versions
CN114679408A (zh
Inventor
史庆宇
李晓翠
张新玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202210584848.8A priority Critical patent/CN114679408B/zh
Publication of CN114679408A publication Critical patent/CN114679408A/zh
Application granted granted Critical
Publication of CN114679408B publication Critical patent/CN114679408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/22Alternate routing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/141Setup of application sessions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
    • H04L69/163In-band adaptation of TCP data exchange; In-band control procedures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种路径切换感知的数据中心拥塞控制方法及系统,包括在发送端部署拥塞控制协议用于控制发送端发送数据包,以及在Leaf层交换机端部署流量监测模块;当数据包到达源交换机时,查询PSF映射表是否存在数据包,给数据包头部的PSF位赋值;通过PSF映射表查询路径是否切换,若切换则通过源交换机可用带宽映射表生成携带切换后路径的剩余可用带宽的ACK数据包;当ACK数据包到达接收端主机的拥塞控制协议时,使ACK数据包的头部PSF位与数据包头部的PSF位相同;当连接发送端主机的Leaf层源交换机发现数据包将切换路径时,将ACK数据包发送到发送端,发送端收到通知后计算切换路径后拥塞窗口大小
Figure DEST_PATH_IMAGE001

Description

路径切换感知的数据中心拥塞控制方法和系统
技术领域
本发明涉及数据中心拥塞控制技术领域,特别涉及一种路径切换感知的数据中心拥塞控制方法与系统。
背景技术
近年来,随着云计算、分布式存储、大数据等技术的飞速发展,数据中心作为底层基础设施与架构,为海量应用提供基础设施服务,包括网页搜索、在线推荐系统、即时通信等延迟敏感型服务以及高性能计算、数据分析等计算密集型服务。为向用户提供满意的服务质量,数据中心的内部网络传输性能至关重要。数据中心网络拓扑结构通常采用CLOS结构,不同服务器之间具备多条可用网络链路,可通过并行传输数据来提升数据传输效率,降低数据中心分布式应用的数据处理时间。随着数据中心存储系统读写性能的快速提升,以及应用性能需求的不断增多,若网络传输性能保持不变,网络将成为系统性能瓶颈,降低应用服务质量和数据中心业务收益。针对该问题,数据中心供应商不断升级网络硬件,使用10Gbps、100Gbps等级别的高带宽、微秒级别的低延迟链路来提升网络传输速率。另外,针对流量动态性、突发性等特点,研究人员提出多种网络拥塞控制协议,探索提升传输效率。为充分利用多条传输路径的网络资源,研究人员提出多种负载均衡方案,将数据流及时从拥塞路径调度到网络资源更充足的路径。
然而,现有的几乎所有网络拥塞控制协议还无法感知负载均衡方案调度数据流,导致拥塞控制协议仍使用数据流切换路径前的拥塞反馈信息调整拥塞窗口,使得数据流切换路径后的流速与当前路径可用带宽不匹配(记为流速不匹配问题),影响网络传输效率,从而影响应用性能。部分现有方案提出了优化方法,如Q. Shi,F. Wang,D. Feng, W. Xie.Adaptive Load Balancing Based on Accurate Congestion Feedback for AsymmetricTopologies. Computer Networks (CN), 2019,157:133-145.利用路径切换标记去除不属于当前路径的拥塞反馈,但未解决如何在切换路径后准确调整流速的问题;如S. Zou,J.Huang,W. Jiang,J. Wang. Achieving High Utilization of Flowlet-based LoadBalancing in Data Center Networks. Future Generation Computer Systems (FGCS),2020,108:546-559.提出在发送端决定是否切换传输路径,且在切换路径后先发送探测包探测当前路径可用带宽,再根据可用带宽调整发包速率,但不适应部署于交换机的负载均衡方案,且探测包带来了额外的等待时间,也导致性能损失。因此,现有方案要么未彻底解决上述流速不匹配问题,要么仍存在部署局限性和性能缺陷。
发明内容
本发明提供一种路径切换感知的数据中心拥塞控制方法与系统,其目的是为了提出路径切换感知的数据中心拥塞控制方法,设置精确的流速控制方法,解决现有的拥塞控制方法存在的流速不匹配问题,能感知数据流是否切换路径,从而避免旧ACK数据包对拥塞窗口的不利影响,且当数据流切换路径后,能及时获取新路径的剩余可用带宽,从而迅速调整到合适的拥塞窗口,保证流速立即适应新的传输路径,提高了链路带宽利用率,减小了流量传输时间。
为了达到上述目的,本发明提供了一种路径切换感知的数据中心拥塞控制方法,包括:
步骤1,在发送端部署拥塞控制协议用于控制发送端建立TCP通信连接发送数据包;
步骤2,当数据包到达连接发送端主机的Leaf层源交换机时,检查PSF映射表中是否存在数据包,通过给数据包头部的PSF位赋值,将路径切换信息记录到PSF映射表;
步骤3,当数据包到达连接发送端主机的Leaf层源交换机时,通过查询源交换机PSF映射表中的PSF位判断路径是否切换,若切换,则通过源交换机可用带宽映射表生成一个用于携带切换后路径对应的剩余可用带宽发往源IP、源端口的ACK数据包;
步骤4,当ACK数据包到达接收端主机的拥塞控制协议时,使ACK数据包的头部PSF位与数据包头部的PSF位相同;
步骤5,当连接发送端主机的Leaf层源交换机发现发送的数据包将切换路径时,将携带切换后路径剩余可用带宽的ACK数据包发送到发送端,发送端收到源交换机的通知后,计算切换路径后拥塞窗口大小W ,用于调整到合适的拥塞窗口,保证流速立即适应新的传输路径,提高链路带宽利用率。
其中,步骤1中的拥塞控制协议基于数据中心拥塞控制协议DCTCP进行优化,仅修改收到数据包时调整拥塞窗口值的算法,使用TCP头部中单个bit的保留位作为PSF位用于标识是否发生路径切换。
其中,步骤2根据PSF映射表给数据包头部的PSF位赋值,PSF映射表建立(flowId,PSF)映射,其中flowId是数据流的标记方法,根据数据流源IP、目的IP、源端口、目的端口和协议号的字段生成。
对于新数据流,PSF映射表新增一条PSF位为1的表项,并将数据包头部PSF位赋为1;
对于已经存在的数据流,查询交换机的转发表,若本次转发端口发生变化,则将PSF映射表中的PSF位进行翻转,即1变为0或0变为1,并将翻转后的值赋为数据包头部的PSF位。
其中,步骤2具体包括:
当数据包经过的第一个交换机时,最小剩余可用带宽为当前转发端口的剩余可用带宽,即
Figure 306362DEST_PATH_IMAGE001
Figure 306679DEST_PATH_IMAGE002
为第
Figure 89084DEST_PATH_IMAGE003
个链路的链路带宽利用率,
Figure 669101DEST_PATH_IMAGE004
为第
Figure 210941DEST_PATH_IMAGE003
个链路空闲时传输带宽,然后将该值插入数据包;
当数据包经过后续交换机时,计算当前切换后链路的最小剩余可用带宽,并插入数据包,去除之前插入的数据包;
当数据包到达连接接收端主机的Leaf层目的交换机时,先计算出当前转发链路的最小剩余可用带宽,并记录到目的端可用带宽映射表(pathId,minBandwidth,updateTime),其中pathId为全局唯一的路径编号,minBandwidth为监测到的当前pathId对应的最小剩余可用带宽,updateTime为更新时间。
其中,步骤3中的源端可用带宽映射表(pathId,minBandwidth),其中pathId为全局唯一的路径编号,minBandwidth为当前pathId对应的最小剩余可用带宽。
其中,步骤4具体包括:
当ACK数据包到达连接接收端主机的Leaf层目的交换机时,查询目的端可用带宽映射表,并选择最近更新项中的pathId与minBandwidth插入数据包尾部;
当ACK数据包到达连接发送端主机的Leaf层源交换机时,取出其携带的pathId与minBandwidth,更新到源端可用带宽映射表;
检查ACK数据包携带的PSF位与PSF映射表记录的数据流PSF位是否相等,若不相等表示其携带的拥塞反馈信息已经过时,将ACK数据包头部的PSF位置为1,若相等表示其携带的拥塞反馈信息有效,将ACK数据包头部的PSF位置为0。
其中,步骤5中计算切换路径后拥塞窗口大小
Figure 585421DEST_PATH_IMAGE005
的表达式为
Figure 947132DEST_PATH_IMAGE006
假设切换后路径编号为
Figure 189895DEST_PATH_IMAGE007
,其中,
Figure 727187DEST_PATH_IMAGE008
为数据流当前传输路径最小
Figure 131623DEST_PATH_IMAGE009
值。切换路径后
Figure 354532DEST_PATH_IMAGE010
仅计算一次,后续仍按照DCTCP拥塞控制模型调整当前路径拥塞窗口,但估算因子需根据当前路径的ECN标记比例重新计算,以适应当前路径网络状况。
其中,数据包发送基于数据平面可编程交换机和网内遥测技术(Inband NetworkTelemetry,INT)。
本发明另一个目的是一种路径切换感知的数据中心拥塞控制系统,包括数据发送模块、数据赋值模块、流量监控模块、数据反馈模块和数据接收模块;
数据发送模块用于在发送端部署拥塞控制协议用于控制发送端建立TCP通信连接发送数据包;
数据赋值模块用于当数据包到达连接发送端主机的Leaf层源交换机时,检查PSF映射表中是否存在数据包,给数据包头部的PSF位赋值;
流量监控模块用于当数据包到达连接发送端主机的Leaf层源交换机时,通过源交换机PSF映射表查询路径是否切换;
数据反馈模块用于当数据包到达接收端主机的拥塞控制协议时,使ACK数据包的头部PSF位与数据包头部的PSF位相同;
数据接收模块用于当连接发送端主机的Leaf层源交换机发现发送的数据包将切换路径时,将携带切换后路径剩余可用带宽的ACK数据包发送到发送端,发送端收到源交换机的通知后,计算切换路径后拥塞窗口大小
Figure 400985DEST_PATH_IMAGE005
,用于调整到合适的拥塞窗口。
本发明的上述方案有如下有益效果:能感知数据流是否切换路径,从而避免旧ACK数据包对拥塞窗口的不利影响,且当数据包切换路径后,能及时获取新路径的剩余可用带宽,从而迅速调整到合适的拥塞窗口,保证流速立即适应新的传输路径,提高了链路带宽利用率,减小了流量传输时间。
本发明的其它有益效果将在随后的具体实施方式部分予以详细说明。
附图说明
图1为本发明的路径切换感知的数据中心拥塞控制方法的流程图;
图2为本发明实施例的系统结构图;
图3为总体流量的平均完成时间曲线;
图4为短流的平均完成时间曲线;
图5为短流尾延迟的平均完成时间曲线。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是锁定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
如图1所示,本发明实施例提供了一种路径切换感知的数据中心拥塞控制方法,包括:
步骤1,在发送端部署拥塞控制协议用于控制发送端建立TCP通信连接发送数据包;
步骤2,当数据包到达连接发送端主机的Leaf层源交换机时,检查PSF映射表中是否存在数据包,通过给数据包头部的PSF(Path Switching Flag,路径切换标识)位赋值,将路径切换信息记录到PSF映射表;
步骤3,当数据包到达连接发送端主机的Leaf层源交换机时,通过查询源交换机PSF映射表中的PSF位判断路径是否切换,若切换,则通过源交换机可用带宽映射表生成一个用于携带切换后路径对应的剩余可用带宽发往源IP、源端口的ACK数据包;
步骤4,当ACK数据包到达接收端主机的拥塞控制协议时,使ACK数据包的头部PSF位与数据包的头部PSF位相同;
步骤5,当连接发送端主机的Leaf层源交换机发现发送的数据包将切换路径时,将携带切换后路径剩余可用带宽的ACK数据包发送到发送端,发送端收到源交换机的通知后,计算切换路径后拥塞窗口大小
Figure 651838DEST_PATH_IMAGE005
,用于调整到合适的拥塞窗口,保证流速立即适应新的传输路径,提高链路带宽利用率。
具体地来说,基于数据平面可编程交换机和网内遥测技术(Inband NetworkTelemetry,INT),当数据包或ACK数据包经过源交换机时,可得到转发端口对应链路的资源利用率与链路最大带宽,从而计算得到可用带宽,并利用INT写入当前数据包。后续经过其他交换机时,同样也能计算得到下一跳链路的可用带宽,从而通过与INT写入的可用带宽进行对比,总是保持将对比得到的最小可用带宽写入数据包,最终在目的交换机得到当前路径的可分配的剩余可用带宽,且通过将路径剩余可用带宽写入逆向数据包,通知源交换机记录和更新对应路径的剩余可用带宽,并记录在路径可用带宽表。上述过程中第
Figure 368121DEST_PATH_IMAGE007
条路径剩余可用带宽
Figure 438845DEST_PATH_IMAGE011
为:
Figure 898777DEST_PATH_IMAGE012
(1)
其中,
Figure 4136DEST_PATH_IMAGE013
为第
Figure 15954DEST_PATH_IMAGE003
个链路的链路带宽利用率,
Figure 714920DEST_PATH_IMAGE004
为第
Figure 837597DEST_PATH_IMAGE003
个链路空闲时传输带宽。
当源交换机发现数据流发生路径切换后,查询路径可用带宽表得到切换后路径的剩余可用带宽,并立即生成一个响应包将切换后路径的剩余可用带宽通知发送端。
发送端收到源交换机的通知后,计算切换路径后拥塞窗口大小
Figure 240257DEST_PATH_IMAGE005
(假设切换后路径编号为
Figure 829502DEST_PATH_IMAGE007
):
Figure 140397DEST_PATH_IMAGE014
(2)
其中,
Figure 942131DEST_PATH_IMAGE015
为数据流当前传输路径最小
Figure 287662DEST_PATH_IMAGE016
(Round Trip Time,往返时间)值。切换路径后
Figure 15184DEST_PATH_IMAGE005
仅计算一次,后续仍按照DCTCP拥塞控制模型调整当前路径拥塞窗口,但估算因子需根据当前路径的ECN标记比例重新计算,以适应当前路径网络状况。
发送端部署拥塞控制协议M2DCTCP,该协议使用TCP头部中单个bit的保留位作为PSF位,用于标识是否发生路径切换。M2DCTCP控制发送端建立TCP连接,发送数据包时,发送端无需对PSF位赋值。
当数据包到达连接发送端主机的Leaf层源交换机时,位于该交换机的流量监控模块根据PSF映射表给数据包头部的PSF位赋值。PSF映射表建立(flowId,PSF)映射,其中flowId是数据流常见的标记方法,能根据数据流源IP、目的IP、源端口、目的端口和协议号的字段生成全局唯一的flowId。
对于新数据流,PSF映射表新增一条PSF位为1的表项,并将数据包头部PSF位赋为1;
对于已经存在的数据流,查询交换机转发表,若本次转发端口发生变化,则将PSF映射表中的PSF位进行翻转,即1变为0或0变为1,并将翻转后的值赋为数据包头部的PSF位。
根据公式(1)计算当前转发链路的最小剩余可用带宽,由于这是数据包经过的第一个交换机,故当前最小剩余可用带宽为当前转发端口的剩余可用带宽,即
Figure 813376DEST_PATH_IMAGE017
,然后利用INT技术将该值插入数据包。
当数据包经过后续交换机,根据公式(1)计算当前转发链路的最小剩余可用带宽,并利用INT技术将该值插入数据包,去除之前插入的数据包。
当数据包到达连接接收端主机的Leaf层目的交换机时,同样先计算出当前转发链路的最小剩余可用带宽,并记录到目的端可用带宽映射表(pathId,minBandwidth,updateTime),其中pathId为全局唯一的路径编号,minBandwidth为监测到的当前pathId对应的最小剩余可用带宽,updateTime为更新时间。
当数据包到达连接发送端主机的Leaf层源交换机时,若查询交换机的转发表,发现本次转发路径发生变化,则检查源端可用带宽映射表(pathId,minBandwidth),其中pathId为全局唯一的路径编号,minBandwidth为当前pathId对应的最小剩余可用带宽,生成一个携带转发后路径编号对应的剩余可用带宽发往源IP、源端口的ACK数据包。
当ACK数据包到达接收端主机的拥塞控制协议M2DCTCP,使ACK数据包头部的PSF标识位与数据包头部的PSF标识位相同。
当ACK数据包到达连接接收端主机的Leaf层目的交换机时,查询目的端可用带宽映射表,并选择一个最近更新项利用数据平面可编程技术插入ACK数据包尾部,即最近更新表项中的pathId与minBandwidth。
当ACK数据包到达连接发送端主机的Leaf层源交换机时,取出ACK数据包携带的pathId与minBandwidth,更新到源端可用带宽映射表(pathId,minBandwidth)。检查ACK数据包中携带的PSF位与PSF映射表记录的数据包头部的PSF位是否相等,若不相等表示其携带的拥塞反馈信息已经过时,将ACK数据包头部的PSF位置为1,若相等表示其携带的拥塞反馈信息有效,将ACK数据包头部的PSF位置为0。
通过ACK数据包将PSF位(为1或0)反馈给发送端M2DCTCP协议模块,M2DCTCP定位最早从哪个TCP序号开始发生了路径切换,从而识别出属于切换路径前的数据流,记为旧ACK数据包,且不使用旧ACK数据包的拥塞反馈信息调整窗口。
需要强调的是,上述过程仅仅描述了简化的单边可用带宽监测与反馈,实际系统能利用任意数据包,同时完成监测路径剩余可用带宽与反馈可用带宽监测值两个过程。
当连接发送端主机的Leaf层源交换机发现发送的数据包将切换路径时,将发送携带转发后路径剩余可用带宽的ACK数据包到发送端,M2DCTCP收到该ACK数据包后,根据公式(2)计算切换路径后拥塞窗口大小
Figure 153222DEST_PATH_IMAGE005
,并只使用属于新路径的ACK数据包重新计算原协议中的估算因子,旧ACK数据包不对调整拥塞窗口产生影响。
本实施例中的数据中心拥塞控制方法能感知数据流是否切换路径,从而避免旧ACK数据包对拥塞窗口的不利影响,且当数据流切换路径后,能及时获取新路径的剩余可用带宽,从而迅速调整到合适的拥塞窗口,保证流速立即适应新的传输路径,提高了链路带宽利用率,减小了流量传输时间。
本发明实施例提供的一种路径切换感知的数据中心拥塞控制系统,包括数据发送模块、数据赋值模块、流量监控模块、数据反馈模块和数据接收模块;
数据发送模块用于在发送端部署拥塞控制协议用于控制发送端建立TCP通信连接发送数据包;
数据赋值模块用于当数据包到达连接发送端主机的Leaf层源交换机时,查询PSF映射表中是否存在数据包,给数据包头部的PSF位赋值;
流量监控模块用于当数据包到达连接发送端主机的Leaf层源交换机时,通过源交换机PSF映射表查询路径是否切换;
数据反馈模块用于当数据包到达接收端主机的拥塞控制协议时,使ACK数据包的头部PSF位与数据包头部的PSF位相同;
数据接收模块用于当连接发送端主机的Leaf层源交换机发现发送的数据包将切换路径时,将携带切换后路径剩余可用带宽的ACK数据包发送到发送端,发送端收到源交换机的通知后,计算切换路径后拥塞窗口大小
Figure 353259DEST_PATH_IMAGE005
,用于调整到合适的拥塞窗口。
本实施例在NS3仿真环境下进行性能测试,采用数据中心常用的8×8的Leaf-Spine网络拓扑,其结构图如图2所示,链路带宽设置为10Gbps,共128台服务器,为了模拟不对称网络,随机选择20%的Leaf到Spine交换机的链路,将链路带宽削减到2Gbps。测试负载选择广泛使用的实际负载web search。
本实施例对比测试选择了负载均衡方案CLOVE-ECN下的DCTCP和ALB中的拥塞控制协议MDCTCP,测试观察它们的总体流量平均完成时间、时延敏感短流的平均完成时间和短流尾延迟,完成时间越小则表示性能越好。CLOVE-ECN是不需要修改硬件交换机的源端负载均衡方法,可部署性强,DCTCP是数据中心常用的拥塞控制协议,MDCTCP是一种路径切换感知的拥塞控制方法,但MDCTCP使用了一种粗粒度的拥塞控制算法。通过部署CLOVE-ECN+DCTCP、CLOVE-ECN+MDCTCP、CLOVE-ECN+M2DCTCP三种解决方案,检测本发明提出的路径切换感知的拥塞控制方法是否对性能有所提升。
图3、图4和图5为web search负载下的性能对比测试图,在测试中将本发明标记为M2DCTCP,并将其他方案的平均流量完成时间归一化到M2DCTCP,图中横坐标为负载程度,纵坐标为归一化完成时间。可以看到,在总体流量完成时间、短流平均完成时间和短流尾延迟上,相比DCTCP,本发明分别最多提升15%、21%和17%的传输性能;相比MDCTCP,本发明分别最多提升13%、15%和16%的传输性能。
总之,本发明提出的路径切换感知的数据中心拥塞控制方法,相比该领域同类的方法,能进一步降低总体流量完成时间、延迟敏感短流的完成时间,且大幅减少短流尾延迟,为数据中心典型应用提供了更强的性能保障。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种路径切换感知的数据中心拥塞控制方法,其特征在于,包括:
步骤1,在发送端部署拥塞控制协议用于控制发送端建立TCP通信连接发送数据包;
步骤2,当数据包到达连接发送端主机的Leaf层源交换机时,检查路径切换标识PSF映射表中是否存在数据包,通过给数据包头部的PSF位赋值,将路径切换信息记录到PSF映射表;
步骤3,当数据包到达连接发送端主机的Leaf层源交换机时,通过查询源交换机PSF映射表中的PSF位判断路径是否切换,若切换,则通过源交换机可用带宽映射表生成一个用于携带切换后路径对应的剩余可用带宽发往源IP、源端口的ACK数据包;
步骤4,当ACK数据包到达接收端主机的拥塞控制协议时,使ACK数据包的头部PSF位与数据包头部的PSF位相同;
步骤5,当连接发送端主机的Leaf层源交换机发现发送的数据包将切换路径时,将携带切换后路径剩余可用带宽的ACK数据包发送到发送端,发送端收到源交换机的通知后,计算切换路径后拥塞窗口大小
Figure 317903DEST_PATH_IMAGE002
,用于调整拥塞窗口保证流速立即适应新的传输路径;
计算切换路径后拥塞窗口大小
Figure 265130DEST_PATH_IMAGE002
的表达式为
Figure 439759DEST_PATH_IMAGE004
假设切换后路径编号为
Figure 509347DEST_PATH_IMAGE006
,其中,
Figure 894060DEST_PATH_IMAGE008
为第
Figure 363088DEST_PATH_IMAGE006
条路径剩余可用带宽,
Figure 392224DEST_PATH_IMAGE010
为数据流当前传输路径最小
Figure 898291DEST_PATH_IMAGE012
值;
Figure 255455DEST_PATH_IMAGE014
其中,
Figure 669118DEST_PATH_IMAGE016
为第
Figure 677395DEST_PATH_IMAGE018
个链路的链路带宽利用率,
Figure 416680DEST_PATH_IMAGE020
为第
Figure 261140DEST_PATH_IMAGE018
个链路空闲时传输带宽。
2.根据权利要求1所述的路径切换感知的数据中心拥塞控制方法,其特征在于,所述步骤1中的拥塞控制协议基于数据中心拥塞控制协议DCTCP进行优化,仅修改收到数据包时调整拥塞窗口值的算法,使用TCP头部中单个bit的保留位作为PSF位用于标识是否发生路径切换。
3.根据权利要求1所述的路径切换感知的数据中心拥塞控制方法,其特征在于,所述步骤2中PSF映射表建立(flowId,PSF)映射,其中flowId是数据流的标记方法,根据数据流源IP、目的IP、源端口、目的端口和协议号的字段生成;
对于新数据流,所述PSF映射表新增一条PSF位为1的表项,并将数据包头部的PSF位赋为1;
对于已经存在的数据流,查询所述交换机的转发表,若本次转发端口发生变化,则将所述PSF映射表中的PSF位进行翻转,即1变为0或0变为1,并将翻转后的PSF值赋为数据包头部的PSF位。
4.根据权利要求1所述的路径切换感知的数据中心拥塞控制方法,其特征在于,所述步骤2具体包括:
当数据包经过第一个交换机时,最小剩余可用带宽为当前转发端口的剩余可用带宽,即
Figure 212915DEST_PATH_IMAGE022
Figure 341277DEST_PATH_IMAGE024
为第
Figure 189147DEST_PATH_IMAGE026
个链路的链路带宽利用率,
Figure 645536DEST_PATH_IMAGE028
为第
Figure 73107DEST_PATH_IMAGE026
个链路空闲时传输带宽,然后将该值插入数据包;
当数据包经过后续交换机时,计算当前切换后链路的最小剩余可用带宽,并插入数据包,去除之前插入的数据包;
当数据包到达连接接收端主机的Leaf层目的交换机时,先计算出当前转发链路的最小剩余可用带宽,并记录到目的端可用带宽映射表(pathId,minBandwidth,updateTime),其中pathId为全局唯一的路径编号,minBandwidth为监测到的当前pathId对应的最小剩余可用带宽,updateTime为更新时间。
5.根据权利要求1所述的路径切换感知的数据中心拥塞控制方法,其特征在于,所述步骤3中的源交换机可用带宽映射表(pathId,minBandwidth)中pathId为全局唯一的路径编号,minBandwidth为当前pathId对应的最小剩余可用带宽。
6.根据权利要求1所述的路径切换感知的数据中心拥塞控制方法,其特征在于,所述步骤4具体包括:
当ACK数据包到达连接接收端主机的Leaf层目的交换机时,查询目的端可用带宽映射表,并选择最近更新项中的pathId与minBandwidth插入数据包尾部;
当ACK数据包到达连接发送端主机的Leaf层源交换机时,取出其携带的pathId与minBandwidth,更新到源端可用带宽映射表;
检查ACK数据包携带的PSF位与PSF映射表记录的数据流PSF位是否相等,若不相等表示其携带的拥塞反馈信息已经过时,将ACK数据包头部的PSF位置为1,若相等表示其携带的拥塞反馈信息有效,将ACK数据包头部的PSF位置为0。
7.根据权利要求1所述的路径切换感知的数据中心拥塞控制方法,其特征在于:所述数据包发送基于数据平面可编程交换机和网内遥测技术。
8.一种路径切换感知的数据中心拥塞控制系统,其特征在于,包括数据发送模块、数据赋值模块、流量监控模块、数据反馈模块和数据接收模块;
所述数据发送模块用于在发送端部署拥塞控制协议用于控制发送端建立TCP通信连接发送数据包;
所述数据赋值模块用于检查PSF映射表中是否存在数据包,给数据包头部的PSF位赋值;
所述流量监控模块用于当数据包到达连接发送端主机的Leaf层源交换机时,通过查询源交换机PSF映射表中的PSF位判断路径是否切换;
所述数据反馈模块用于当数据包到达接收端主机的拥塞控制协议时,使ACK数据包的头部PSF标识位与数据包头部的PSF位相同;
所述数据接收模块用于当连接发送端主机的Leaf层源交换机发现发送的数据包将切换路径时,将携带切换后路径剩余可用带宽的模拟ACK数据包发送到发送端,发送端收到源交换机的通知后,计算切换路径后拥塞窗口大小
Figure 869024DEST_PATH_IMAGE002
,用于调整到合适的拥塞窗口;
计算切换路径后拥塞窗口大小
Figure 809168DEST_PATH_IMAGE002
的表达式为
Figure 18432DEST_PATH_IMAGE004
假设切换后路径编号为
Figure 452955DEST_PATH_IMAGE006
,其中,
Figure 165697DEST_PATH_IMAGE008
为第
Figure 89790DEST_PATH_IMAGE006
条路径剩余可用带宽,
Figure 645405DEST_PATH_IMAGE010
为数据流当前传输路径最小
Figure 414778DEST_PATH_IMAGE012
值;
Figure 247605DEST_PATH_IMAGE014
其中,
Figure 263971DEST_PATH_IMAGE016
为第
Figure 385511DEST_PATH_IMAGE018
个链路的链路带宽利用率,
Figure 552050DEST_PATH_IMAGE020
为第
Figure 442646DEST_PATH_IMAGE018
个链路空闲时传输带宽。
CN202210584848.8A 2022-05-27 2022-05-27 路径切换感知的数据中心拥塞控制方法和系统 Active CN114679408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210584848.8A CN114679408B (zh) 2022-05-27 2022-05-27 路径切换感知的数据中心拥塞控制方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210584848.8A CN114679408B (zh) 2022-05-27 2022-05-27 路径切换感知的数据中心拥塞控制方法和系统

Publications (2)

Publication Number Publication Date
CN114679408A CN114679408A (zh) 2022-06-28
CN114679408B true CN114679408B (zh) 2022-08-26

Family

ID=82080680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210584848.8A Active CN114679408B (zh) 2022-05-27 2022-05-27 路径切换感知的数据中心拥塞控制方法和系统

Country Status (1)

Country Link
CN (1) CN114679408B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600098A (zh) * 2018-03-09 2018-09-28 西北大学 一种高性能网络中多条可变路径固定带宽的调度方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108881056B (zh) * 2017-05-15 2022-02-25 华为技术有限公司 一种拥塞控制方法、网络设备及其网络接口控制器
CN110351196B (zh) * 2018-04-02 2020-09-08 华中科技大学 云数据中心中基于精确拥塞反馈的负载均衡方法及系统
CN108768880B (zh) * 2018-05-29 2021-12-07 华东师范大学 一种sdn环境下基于调节通告窗口的拥塞控制机制方法
CN108833293B (zh) * 2018-06-20 2021-01-26 北京邮电大学 一种基于软件定义网络sdn的数据中心拥塞控制方法及装置
CN113037624A (zh) * 2019-12-25 2021-06-25 华为技术有限公司 一种数据流控制的方法和装置
CN113438163B (zh) * 2021-05-29 2022-11-25 中国人民解放军空军工程大学 一种基于路径隔离的数据中心网络混合流路由方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600098A (zh) * 2018-03-09 2018-09-28 西北大学 一种高性能网络中多条可变路径固定带宽的调度方法

Also Published As

Publication number Publication date
CN114679408A (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
US8942242B2 (en) Method and apparatus for self-learning of VPNS from combinations of unidirectional tunnels in MPLS/VPN networks
US7321591B2 (en) Methods and systems for providing differentiated quality of service in a communications system
EP1989836B1 (en) Technique for optimized routing of data streams on an ip backbone in a computer network
CN101496348B (zh) 用于标签交换数据流量的多径转发的技术
US7269143B2 (en) Combining routers to increase concurrency and redundancy in external network access
WO2019238058A1 (en) Multipath selection system and method for datacenter-centric metro networks
CN109691037B (zh) 用于数据中心负载均衡的方法和系统
US7246173B2 (en) Method and apparatus for classifying IP data
US20080159150A1 (en) Method and Apparatus for Preventing IP Datagram Fragmentation and Reassembly
US20080137669A1 (en) Network of nodes
CN109842574B (zh) 一种基于可编程网络技术的多宿主网络路由转发方法
CN111225031B (zh) 云数据中心虚拟底层网络架构及其数据传输方法
US10931530B1 (en) Managing routing resources of a network
US9654389B2 (en) Order-sensitive communications in packet reordering networks
JP2001292167A (ja) ネットワーク中継システムおよび中継装置
EP3756317B1 (en) Method, device and computer program product for interfacing communication networks
WO2021047321A1 (zh) 一种数据传输的控制方法及装置
US20220124023A1 (en) Path Switching Method, Device, and System
CN111555982A (zh) 一种基于IPv6扩展头的报文智能选路的方法和系统
CN114866477A (zh) 一种网络设备拥塞控制机制的测试方法、系统及设备
JP2005057487A (ja) 複数経路を選択する経路制御装置、経路選択方法およびそのプログラムと記録媒体
CN114679408B (zh) 路径切换感知的数据中心拥塞控制方法和系统
CN113612698A (zh) 一种数据包发送方法及装置
Goulamghoss et al. Analysis of traffic engineering and fast reroute on multiprotocol label switching
CN112350936A (zh) 一种内部网关协议泛洪优化方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant