CN104767826A - 基于端的故障容忍的分布式数据中心负载均衡方法 - Google Patents
基于端的故障容忍的分布式数据中心负载均衡方法 Download PDFInfo
- Publication number
- CN104767826A CN104767826A CN201510198276.XA CN201510198276A CN104767826A CN 104767826 A CN104767826 A CN 104767826A CN 201510198276 A CN201510198276 A CN 201510198276A CN 104767826 A CN104767826 A CN 104767826A
- Authority
- CN
- China
- Prior art keywords
- path
- congestion
- pid
- ack
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000007246 mechanism Effects 0.000 claims abstract description 22
- 230000003044 adaptive effect Effects 0.000 claims description 19
- 230000005540 biological transmission Effects 0.000 claims description 10
- 238000012790 confirmation Methods 0.000 claims description 8
- 230000032683 aging Effects 0.000 claims description 6
- 108700007698 Genetic Terminator Regions Proteins 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims description 3
- 238000013502 data validation Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 abstract description 4
- 230000002457 bidirectional effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
- H04L47/125—Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了基于端的故障容忍的分布式数据中心负载均衡方法,在源主机端维护具有自衰老机制的路径拥塞表;该方法包括基于端的路径状态评估和自适应的负载均衡;基于端的路径状态评估利用至少包含TCP数据流中的ACK到达时间和ACK确认的数据量的信息来评估当前路径的拥塞程度,利用TCP中的快重传和RTO超时事件来及时地获取故障路径的信息,将获取到的路径拥塞程度和故障信息插入到主机的拥塞表中;自适应负载均衡以TCP流中拥塞窗口为基本负载单元,利用主机拥塞表中的路径状态执行双向细粒度负载均衡机制。本发明无需特殊硬件支持,能够在大规模的数据中心中快速有效地部署,低开销、易部署,有效提高了数据中心中的通讯性能。
Description
技术领域
本发明涉及数据中心中流量负载均衡方法,具体是一种基于端的分布式负载均衡机制。
背景技术
对于计算的可扩展性需求和规模效应所带来的巨大收益推动了数据中心技术的发展。当前的数据中心典型地包含成千上万级别的主机。通过采用Fat-tree,BCube等拓扑结构,数据中心网络为应用通讯提供了丰富的路径冗余。尽管这种路径富余从理论上提高了数据中心的对剖带宽,其实际性能仍然极大地依赖于底层的负载均衡机制。如果不能提供有效利用路径多样性的机制,数据中心网络通讯的整体性能仍会收到很大的影响。当前典型数据中心多借助于Equal-Cost-Multipath(ECMP)的技术来实现流量负载均衡。由于ECMP技术是一种将数据流和传输路径进行随机映射的方式,其不能有效地感知路径上的负载情况。这种负载均衡的盲目性可能导致大量的流冲突,从而极大地影响网络的整体性能。尽管当前已经提出部分适应性的负载均衡策略来改善ECMP的缺点,但其不适用于产生网络故障的场景,或者需要特定的硬件支持。
发明内容
发明目的:本发明为了解决现有的数据中心负载均衡技术的不足,提供了一种基于端的故障容忍的分布式数据中心负载均衡方法。
技术方案:为解决上述技术问题,本发明提供的基于端的故障容忍的分布式数据中心负载均衡方法,该方法在源主机端维护具有自衰老机制的路径拥塞表,所述路径拥塞表记录了从该源主机出发可达的所有路径的拥塞程度;该方法包括基于端的路径状态评估和自适应的负载均衡,所述基于端的路径状态评估通过路径拥塞表为自适应的负载均衡为提供实时选路指导,所述基于端的路径状态评估调用自适应的负载均衡为每个基本负载单元选路;
所述基于端的路径状态评估包括:利用至少包含TCP数据流中的ACK到达时间和ACK确认的数据量的信息来评估当前路径的拥塞程度;利用TCP中的快重传和RTO超时事件来及时地获取故障路径的信息;将获取到的路径拥塞程度和故障信息插入到当前主机的拥塞表中;
所述自适应的负载均衡包括:以TCP流中的拥塞窗口作为基本负载单元,利用主机拥塞表中的路径状态执行双向的细粒度负载均衡机制,包括防止路径震荡的正向数据段路由机制,以及反向ACK路由机制。
优选的,所述自适应的负载均衡包括以下步骤:
在TCP层检测当前的TCP拥塞窗口,使用源路由技术控制每个基本负载单元的发送路径的步骤;
在发送数据段之前,记录当前发送的拥塞窗口的起始序列号Seqbeg、终止序列号Seqend及其发送路径pid为元组(Seqbeg,Seqend,pid)的步骤;
当发送ACK报文时,从当前的主机拥塞表中选取具有最小拥塞程度的路径作为其发送路径的步骤。
优选的,所述基于端的路径状态评估包括以下步骤:
1)在源主机发送每个拥塞窗口前,调用自适应的负载均衡为当前的负载单元选路,并记录当前发送的拥塞窗口为元组(Seqbeg,Seqend,pid);
2)目的主机接收到数据段之后,回复ACK对当前接收到的数据段进行确认;
3)如果源主机未接收到新的ACK从而产生RTO超时或者触发快重传,则进入步骤7);否则进入步骤4);
4)源主机接受到ACK报文后,根据其确认号ackno查找满足Seqbeg≤ackno≤Seqend的元组,得到当前ACK确认的数据的发送路径pid,并同时在缓存中删除所有满足条件Seqend≤ackno的元组;
5)源主机根据接收到的ACK的到达时间和所确认的数据评估路径pid上的拥塞程度CL(pid);
6)将源主机针对路径pid的评估结果CL(pid)插入到其自身所维护的路径拥塞表中,结束;
7)从TCP层获取当前最高的数据确认号acknohigh,在主机端缓存的元组中查找满足条件Seqbeg≤acknohigh≤Deqend的元组,并根据该元组获取当前发生故障的路径ID为pid;
8)将故障路径的拥塞值设为CLm,并将其插入到该主机的拥塞表中,其中CLm表示当前该路径正发生严重拥塞或者发生链路错误,结束。
优选的,所述路径拥塞表具有的自衰老机制为:一旦拥塞表中的某条路径的拥塞信息超过预设时间段未被更新,该路径的拥塞程度将会逐渐的降为0。
具体的,所述在TCP层检测当前的TCP拥塞窗口,使用源路由技术控制每个基本负载单元的发送路径的步骤包括:在TCP层检测当前的TCP拥塞窗口,并将每个拥塞窗口内的数据作为一个基本的负载单元,针对每个基本的负载单元,首先从当前主机的拥塞表中随机的选取一半路径放入备选路径集,然后从备选路径集中选取具有最小拥塞程度的路径作为当前负载单元的发送路径。
优选的,所述源主机根据接收到的ACK的到达时间和所确认的数据评估路径pid上的拥塞程度的步骤中,所述评估方法为:
其中,CL(pid)为路径pid上的拥塞值,tsi表示接收到第i个ACK的时间戳,acknoi表示接收到的第i个ACK报文的确认号。
有益效果:本发明通过基于端的路径状态感知和路由选择,借助端的灵活性来实时地监测路径拥塞状态,可以快速的对数据中心的流量突发做出响应;能够针对网络故障做出响应处理,避免了错误路径上所产生的持续丢包现象,有效地提高了数据中心中的通讯性能;能够实时的避免网络热点并且无需特殊硬件支持,从而能够在大规模的数据中心中快速有效地部署。综上,本发明提供了一种低开销、易部署的基于端的故障容忍的分布式数据中心流量负载均衡方法,有效地提高了数据中心中的通讯性能。
附图说明
图1是实施例的系统架构图;
图2是实施例的流程图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,本实施列对本发明不构成限定。
使用本实施例提供的基于端的故障容忍的分布式数据中心负载均衡方法的负载均衡机制主要在主机的网络栈中实现,其具体实现的系统架构图如图1所示,该机制在逻辑上处于TCP层的上层,其利用TCP层提供的相应信息对当前路径状态进行评估,并且针对TCP数据流进行实时的流量负载均衡。
该方法在每台主机上维护具有自衰老机制的路径拥塞表,所述路径拥塞表记录了从该源主机出发可达的所有路径的拥塞程度;所述路径拥塞表具有的自衰老机制为:一旦拥塞表中的某条路径的拥塞信息超过预设时间段未被更新,该路径的拥塞程度将会逐渐的降为0。当然,所述预设时间段的数值可根据实际应用情况进行设定和调整。
如图2所示,本发明其主要包含两个模块,基于端的拥塞评估模块和自适应的负载均衡模块,分别对应本实施例提供的负载均衡方法中的基于端的路径状态评估和自适应的负载均衡。所述基于端的路径状态评估通过路径拥塞表为自适应的负载均衡为提供实时选路指导,所述基于端的路径状态评估调用自适应的负载均衡为每个基本负载单元选路。
上述自适应的负载均衡模块利用主机拥塞表中的路径状态执行双向的细粒度负载均衡机制,其主要功能流程包括:
在TCP层检测当前的TCP拥塞窗口,使用源路由技术控制每个基本负载单元的发送路径的步骤,其使用的防止路径震荡的正向数据段路由机制具体为:将每个拥塞窗口内的数据作为一个基本的负载单元,针对每个基本的负载单元,首先从当前主机的拥塞表中随机的选取一半路径放入备选路径集,然后从备选路径集中选取具有最小拥塞程度的路径作为当前负载单元的发送路径;
在发送数据段之前,记录当前发送的拥塞窗口的起始序列号Seqbeg、终止序列号Seqend及其发送路径pid为元组(Seqbeg,Seqend,pid)的步骤;
当发送ACK报文时,该模块从当前的主机拥塞表中选取具有最小拥塞程度的路径作为其发送路径的步骤,即实现保证性能的反向ACK路由机制。
上述基于端的路径状态评估模块的主要功能流程如下:
1)在源主机发送每个拥塞窗口前,调用自适应的负载均衡为当前的负载单元选路,并记录当前发送的拥塞窗口为元组(Seqbeg,Seqend,pid);
2)目的主机接收到数据段之后,回复ACK对当前接收到的数据段进行确认;
3)如果源主机未接收到新的ACK从而产生RTO超时或者触发快重传,则进入步骤7);否则进入步骤4);
4)源主机接受到ACK报文后,根据其确认号ackno查找满足Seqbeg≤ackno≤Seqend的元组,得到当前ACK确认的数据的发送路径pid,并同时在缓存中删除所有满足条件Seqend≤ackno的元组;
5)源主机根据接收到的ACK的到达时间和所确认的数据评估路径pid上的拥塞程度CL(pid),所述评估方法为:
其中,CL(pid)为路径pid上的拥塞值,tsi表示接收到第i个ACK的时间戳,acknoi表示接收到的第i个ACK报文的确认号;
6)将源主机针对路径pid的评估结果CL(pid)插入到其自身所维护的路径拥塞表中,所述路径拥塞表记录了从该源主机出发可达的所有路径的拥塞程度,结束。
7)利用TCP中的快重传和RTO超时事件来及时地获取故障路径的信息:从TCP层获取当前最高的数据确认号acknohigh,在主机端缓存的元组中查找满足条件Seqbeg≤acknohigh≤Seqend的元组,并根据该元组获取当前发生故障的路径ID为pid;
8)将故障路径的拥塞值设为CLm,并将其插入到该主机的拥塞表中,其中CLm表示当前该路径正发生严重拥塞或者发生链路错误,结束。当然,CLm的数值可根据实际应用环境预先设定和调整。
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出以上实施列对本发明不构成限定,相关工作人员在不偏离本发明技术思想的范围内,所进行的多样变化和修改,均落在本发明的保护范围内。
Claims (5)
1.一种基于端的故障容忍的分布式数据中心负载均衡方法,其特征在于:
该方法在源主机端维护具有自衰老机制的路径拥塞表,所述路径拥塞表记录了从该源主机出发可达的所有路径的拥塞程度;该方法包括基于端的路径状态评估和自适应的负载均衡,所述基于端的路径状态评估通过路径拥塞表为自适应的负载均衡为提供实时选路指导,所述基于端的路径状态评估调用自适应的负载均衡为每个基本负载单元选路;
所述基于端的路径状态评估包括:利用至少包含TCP数据流中的ACK到达时间和ACK确认的数据量的信息来评估当前路径的拥塞程度;利用TCP中的快重传和RTO超时事件来及时地获取故障路径的信息;将获取到的路径拥塞程度和故障信息插入到当前主机的拥塞表中;
所述自适应的负载均衡包括:以TCP流中的拥塞窗口作为基本负载单元,利用主机拥塞表中的路径状态执行双向的细粒度负载均衡机制,包括防止路径震荡的正向数据段路由机制和反向ACK路由机制。
2.根据权利要求1所述的基于端的故障容忍的分布式数据中心负载均衡方法,其特征在于:
所述自适应的负载均衡包括以下步骤:
在TCP层检测当前的TCP拥塞窗口,使用源路由技术控制每个基本负载单元的发送路径的步骤;
在发送数据段之前,记录当前发送的拥塞窗口的起始序列号Seqbeg、终止序列号Seqend及其发送路径pid为元组(Seqbeg,Seqend,pid)的步骤;
当发送ACK报文时,从当前的主机拥塞表中选取具有最小拥塞程度的路径作为其发送路径的步骤;
所述基于端的路径状态评估包括以下步骤:
1)在源主机发送每个拥塞窗口前,调用自适应的负载均衡为当前的负载单元选路,并记录当前发送的拥塞窗口为元组(Seqbeg,Seqend,pid);
2)目的主机接收到数据段之后,回复ACK对当前接收到的数据段进行确认;
3)如果源主机未接收到新的ACK从而产生RTO超时或者触发快重传,则进入步骤7);否则进入步骤4);
4)源主机接受到ACK报文后,根据其确认号ackno查找满足Seqbeg≤ackno≤Seqend的元组,得到当前ACK确认的数据的发送路径pid,并同时在缓存中删除所有满足条件Seqend≤ackno的元组;
5)源主机根据接收到的ACK的到达时间和所确认的数据评估路径pid上的拥塞程度CL(pid);
6)将源主机针对路径pid的评估结果CL(pid)插入到其自身所维护的路径拥塞表中,结束;
7)从TCP层获取当前最高的数据确认号acknohigh,在主机端缓存的元组中查找满足条件Seqbeg≤acknohigh≤Seqend的元组,并根据该元组获取当前发生故障的路径ID为pid;
8)将故障路径的拥塞值设为CLm,并将其插入到该主机的拥塞表中,其中CLm表示当前该路径正发生严重拥塞或者发生链路错误,结束。
3.根据权利要求1所述的基于端的故障容忍的分布式数据中心负载均衡方法,其特征在于:所述路径拥塞表具有的自衰老机制为:一旦拥塞表中的某条路径的拥塞信息超过预设时间段未被更新,该路径的拥塞程度将会逐渐的降为0。
4.根据权利要求2所述的基于端的故障容忍的分布式数据中心负载均衡方法,其特征在于:所述在TCP层检测当前的TCP拥塞窗口,使用源路由技术控制每个基本负载单元的发送路径的步骤包括:在TCP层检测当前的TCP拥塞窗口,并将每个拥塞窗口内的数据作为一个基本的负载单元,针对每个基本的负载单元,首先从当前主机的拥塞表中随机的选取一半路径放入备选路径集,然后从备选路径集中选取具有最小拥塞程度的路径作为当前负载单元的发送路径。
5.根据权利要求2所述的基于端的故障容忍的分布式数据中心负载均衡方法,其特征在于:所述源主机根据接收到的ACK的到达时间和所确认的数据评估路径pid上的拥塞程度的步骤中,所述评估方法为:
其中,CL(pid)为路径pid上的拥塞值,tsi表示接收到第i个ACK的时间戳,acknoi表示接收到的第i个ACK报文的确认号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510198276.XA CN104767826B (zh) | 2015-04-23 | 2015-04-23 | 基于端的故障容忍的分布式数据中心负载均衡方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510198276.XA CN104767826B (zh) | 2015-04-23 | 2015-04-23 | 基于端的故障容忍的分布式数据中心负载均衡方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104767826A true CN104767826A (zh) | 2015-07-08 |
CN104767826B CN104767826B (zh) | 2017-11-28 |
Family
ID=53649424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510198276.XA Active CN104767826B (zh) | 2015-04-23 | 2015-04-23 | 基于端的故障容忍的分布式数据中心负载均衡方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104767826B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105959235A (zh) * | 2016-07-21 | 2016-09-21 | 中国工商银行股份有限公司 | 分布式数据处理系统及方法 |
CN108683602A (zh) * | 2018-07-13 | 2018-10-19 | 北京瀚海星云科技有限公司 | 一种数据中心网络负载均衡方法 |
US10425338B2 (en) | 2016-03-14 | 2019-09-24 | International Business Machines Corporation | Virtual switch-based congestion control for datacenter networks |
US10833996B2 (en) | 2016-03-14 | 2020-11-10 | International Business Machines Corporation | Identifying a local congestion control algorithm of a virtual machine |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101404622A (zh) * | 2008-11-07 | 2009-04-08 | 重庆邮电大学 | 基于多径负载均衡的无线互联网拥塞控制方法及控制器 |
US20090310485A1 (en) * | 2008-06-12 | 2009-12-17 | Talari Networks Incorporated | Flow-Based Adaptive Private Network with Multiple Wan-Paths |
-
2015
- 2015-04-23 CN CN201510198276.XA patent/CN104767826B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090310485A1 (en) * | 2008-06-12 | 2009-12-17 | Talari Networks Incorporated | Flow-Based Adaptive Private Network with Multiple Wan-Paths |
CN101404622A (zh) * | 2008-11-07 | 2009-04-08 | 重庆邮电大学 | 基于多径负载均衡的无线互联网拥塞控制方法及控制器 |
Non-Patent Citations (2)
Title |
---|
周扬眉等: "一种基于多径负载均衡的无线互联网TCP 拥塞控制策略", 《通信技术》 * |
秦光: "多路径路由网络负载均衡算法研究", 《计算机仿真》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10425338B2 (en) | 2016-03-14 | 2019-09-24 | International Business Machines Corporation | Virtual switch-based congestion control for datacenter networks |
US10833996B2 (en) | 2016-03-14 | 2020-11-10 | International Business Machines Corporation | Identifying a local congestion control algorithm of a virtual machine |
CN105959235A (zh) * | 2016-07-21 | 2016-09-21 | 中国工商银行股份有限公司 | 分布式数据处理系统及方法 |
CN105959235B (zh) * | 2016-07-21 | 2019-02-12 | 中国工商银行股份有限公司 | 分布式数据处理系统及方法 |
CN108683602A (zh) * | 2018-07-13 | 2018-10-19 | 北京瀚海星云科技有限公司 | 一种数据中心网络负载均衡方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104767826B (zh) | 2017-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11134014B2 (en) | Load balancing method, apparatus, and device | |
CN111669418B (zh) | 数据通信方法、数据同步方法、系统、装置、网关设备、服务器及基站设备 | |
CN104767826A (zh) | 基于端的故障容忍的分布式数据中心负载均衡方法 | |
US9325641B2 (en) | Buffering schemes for communication over long haul links | |
Zhang et al. | Analysis of TCP over optical burst-switched networks with burst retransmission | |
CN103269260A (zh) | 数据传输方法、数据接收端、数据发送端和数据传输系统 | |
JPH04229746A (ja) | 2ウィンドウを有するネットワーク通信方法 | |
CN103259696A (zh) | 网络带宽检测方法、装置及网络设备 | |
CN202841192U (zh) | 一种支持广域网的高速、可靠的单向传输系统 | |
CN101060497A (zh) | 一种流量工程隧道的建立方法和装置 | |
Zhang et al. | Evaluation of burst retransmission in optical burst-switched networks | |
CN104717144A (zh) | 一种基于网内缓存和逐跳确认的可靠组播方法 | |
CN106911485A (zh) | 用于可靠组播传输数据的方法及设备 | |
CN103391164B (zh) | 一种基于线性网络编码的报文发送冗余度动态调整方法 | |
CN106027404A (zh) | 一种基于自适应补偿编码的网络性能优化方法及装置 | |
CN110324255B (zh) | 一种面向数据中心网络编码的交换机/路由器缓存队列管理方法 | |
Zou et al. | Improving TCP robustness over asymmetry with reordering marking and coding in data centers | |
CN108881010A (zh) | 基于损益评估的拥塞路径调整方法 | |
CN101616052B (zh) | 一种隧道控制方法和装置 | |
Yaghmaee et al. | A reliable transport protocol for wireless sensor networks | |
Bikram et al. | Multi-layer loss recovery in TCP over optical burst-switched networks | |
Fang et al. | Prompt congestion reaction scheme for data center network using multiple congestion points | |
CN102624630B (zh) | 一种临时环路的避免方法和设备 | |
CN102075433B (zh) | 异构gnss平台数据路由方法及系统 | |
Ahmad et al. | Packet loss estimation using Poisson random process for improving multimedia transmission in MANETs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |