CN105827545A

CN105827545A - 数据中心网络中tcp共流的调度方法和装置

Info

Publication number: CN105827545A
Application number: CN201610251502.0A
Authority: CN
Inventors: 张舒黎; 张棪; 孙继燕; 曹玖玥; 陈鑫
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2016-04-21
Filing date: 2016-04-21
Publication date: 2016-08-03

Abstract

本发明公开了一种数据中心网络中TCP共流的调度方法和装置。该方法包括：发送端根据共流初始信息生成每个待调度共流的初始优先级，并向待调度共流的每个TCP流对应的接收端发送第一调度数据包；在检测到待调度共流被服务时，根据生成待调度共流的共流优先级；根据与发送端关联的发送端剩余的TCP流的数据量每个TCP流的内部优先级；根据与发送端关联的发送端剩余的TCP流量和发送端剩余的每个TCP流的数据量生成每个TCP流的期望速率；由交换机根据共流优先级、内部优先级和期望速率对TCP流分配速率，以使发送端根据交换机分配的速率对TCP流进行调度。本发明采用共流间和共流内两项调度协调工作，能有效的减少CCT、降低系统开销。

Description

数据中心网络中TCP共流的调度方法和装置

技术领域

本发明涉及，具体涉及一种数据中心网络中TCP共流的调度方法和装置。

背景技术

数据中心网络支撑着多种分布式计算和存储框架(比如，MapReduce，Spark和HDFS)。在这些框架中，存在着若干以shuffle，aggregation和broadcast等形式出现的并行数据传递过程。这些并行数据传递过程显著地影响着分布式框架的性能。通常而言，一个并行数据传递过程包含若干个并行的TCP流。一个过程能够被完成当且仅当它里面的所有TCP流都完成了数据传递。一个并行数据传递过程中的所有TCP流被抽象为一个共流(coflow)。最近的研究表明减少共流的完成时间(CoflowCompletionTime,CCT)能大大地提高分布式框架的性能。

已有提高CCT性能(减少CCT)的工作都集中在共流的调度上。典型的共流调度方法可以分为两类：集中式调度和分布式调度。集中式调度方法的代表为Varys。在Varys中，一个集中式控制器会实时地收集网络和共流的相关信息，并根据SEBF(SmallestEffectiveBottleneckFirst)的策略为所有的共流计算和指派调度信息。分布式调度方法的代表为Baraat和D-CAS。分布式调度方法Baraat采用FIFO-LM(FirstInFirstOutwithLimitedMultiplexing)策略。该策略一方面以先进先出的方式处理共流，另一方面，当它检测到高优先级的共流已经被传输了较多数据的时候，它会动态地更改复用的级别让优先级低的共流能够被服务。D-CAS以分布式的形式把SEBF简化为子共流级别的SL-MRTF(Subcoflow-LevelMinimumRemainingTimeFirst)策略。虽然这些方法都能提高CCT性能，然而它们都存在着不同的性能瓶颈，比如：系统开销大，队头阻塞，共流语义利用率低，带宽利用率不足等等。

对于以Varys为代表的集中式调度方法，虽然能够取得很好的性能，它的系统开销却是一个很大的问题，尤其是当网络规模变得较大的时候。Varys的控制器在收集信息，计算调度结果和下发控制信息这些方面都存在着极其严重的额外开销。在Varys中，平均一次的调度开销就高达30毫秒。考虑到数据中心网络中的传播时延仅仅只有数百微妙，这么大的开销在实际网络中是难以忍受的。

分布式调度方法Baraat，有两个主要的缺点。首先这个基于先进先出的方法严重地依赖共流的到达顺序。所以该方法在共流到达顺序差别很大的时候，它的性能是极其不稳定的。其次，当Baraat的复用级别提高之后，它的性能甚至会退化为基于流的公平性调度策略。而这种调度策略是完全无法优化CCT性能的。对于D-CAS，也有两个主要的缺点。首先，D-CAS在获取共流优先级信息的时候并没有充分使用共流的语义。特别地，D-CAS中用于计算优先级的子共流这个概念仅仅是共流的一个很小的部分。用子共流来进行优先级的设置，很有可能会给一个本来优先级不用太高的共流分配一个大很多的优先级，而真正需要被优先服务的共流却只能获得较小的优先级。其次，D-CAS很容易浪费接收端处的链路资源。

此外，已有的调度策略都无区别地对待同一个共流的中的所有TCP流。然而共流中的不同流是存在着优先级差异的，这样的调度会一定程度上损害CCT性能。

发明内容

针对现有技术中的缺陷，本发明提供了一种一种数据中心网络中TCP共流的调度方法和装置，用于解决现有TCP共流调度CCT长、系统开销大的问题。

本发明提出了一种数据中心网络中TCP共流的调度方法，包括：

共流控制器将至少一个待调度共流的初始信息通告至发送端和接收端；

被通告发送端在接收到所述初始信息时，根据所述初始信息生成每个待调度共流的初始优先级，并向所述待调度共流的每个TCP流对应的接收端发送第一调度数据包；

在检测到所述待调度共流被服务且接收到所述接收端反馈的调度ACK时，根据所述调度ACK中携带的第一剩余数据生成所述待调度共流的共流优先级，所述第一剩余数据为与所述发送端关联的发送端剩余的TCP流量；

根据所述调度ACK中携带的第二剩余数据生成所述待调度共流的每个TCP流的内部优先级，所述第二剩余数据为与所述发送端关联的发送端剩余的所述TCP流的数据量；

根据所述第一剩余数据量和所述发送端剩余的每个TCP流的数据量生成每个TCP流的期望速率；

通过第二调度数据包将所述共流优先级、所述内部优先级和所述期望速率发送至交换机；

交换机对所述第二调度数据包中的TCP流进行速率分配，并通过接收端的调度ACK将分配的速率发送至所述发送端，以使所述发送端根据交换机分配的速率对TCP流进行调度。

优选地，所述初始信息包括：初始瓶颈；

所述初始瓶颈包括：所有发送端的初始剩余TCP流量中的最大值；

相应地，所述根据所述初始信息生成每个待调度共流的初始优先级的步骤具体包括：

根据所述最大的初始剩余TCP流量生成每个待调度共流的初始优先级。

优选地，所述初始信息还包括：初始流量信息；

相应地，所述将至少一个待调度共流的初始信息通告至发送端和接收端的步骤具体包括：

将所述初始瓶颈发送至所有发送端；

向每个发送端发送与所述发送端存在关联关系的节点的初始流量信息；

或，向每个接收端发送与所述接收端存在关联关系的节点的初始流量信息；

其中，所述节点为发送端或者接收端。

优选地，在所述将至少一个待调度共流的初始信息通告至发送端和接收端的步骤之前，该方法还包括：

共流控制器从第一记录表中获取每个节点与其余节点的关联关系，以及每个节点的ID；

根据所述关联关系，向每个节点发送与该节点存在关联关系的节点的初始流量信息。

优选地，所述根据所述调度ACK中携带的第一剩余数据生成所述待调度共流的共流优先级的步骤具体包括：

根据所述第一剩余数据获取与该发送端关联的发送端剩余的TCP流量中的最大值；

根据公式一，结合所述剩余的TCP流量中的最大值生成所述待调度共流的共流优先级；

其中，priority为共流优先级，D^s为与该发送端关联的发送端剩余的TCP流量中的最大值，φ为可扩展门限值，N*为经验性的参数，passTime为所述待调度共流从到达网络的时间点至当前时间点的时间长度。

优选地，所述根据所述第一剩余数据量和该发送端剩余的每个TCP流的数据量生成每个TCP流的期望速率的步骤具体包括：

根据公式二和公式三，结合该发送端剩余的每个TCP流的数据量生成每个TCP流的期望速率；

其中，desired_CCT为所述待调度共流的完成时间，R为服务器的网卡速率，desired_rate为每个TCP流的剩余流量，d为该发送端剩余的一个TCP流的数据量，为硬件设备的影响系数。

优选地，在所述交换机对所述第二调度数据包中的TCP流进行速率分配的步骤之前，该方法还包括：

交换机获取所述第二调度数据包中每个TCP流的共流优先级、所述内部优先级和所述期望速率，并根据共流优先级、所述内部优先级和所述期望速率获取所述TCP流的ID；

相应地，所述交换机对所述第二调度数据包中的TCP流进行速率分配的步骤具体包括：

在所述第二调度数据包从发送端传递至对应接收端的过程中，沿途的交换机依次对所述TCP流进行分配速率；

并在接收到接收端发送的调度ACK后，获取所述TCP流的ID，并将根据所述ID将分配给所述TCP流的速率置为沿途交换机分配的速率中的最小值。

本发明还提出了一种数据中心网络中TCP共流的调度装置，包括：

第一接收模块，用于接收至少一个待调度共流的初始信息；

第一处理模块，用于根据所述初始信息生成每个待调度共流的初始优先级，并向所述待调度共流的每个TCP流对应的接收端发送第一调度数据包；

第二处理模块，用于在检测到所述待调度共流被服务且接收到所述接收端反馈的调度ACK时，根据所述调度ACK中携带的第一剩余数据生成所述待调度共流的共流优先级，所述第一剩余数据为与所述发送端关联的发送端剩余的TCP流量；

第三处理模块，用于根据所述调度ACK中携带的第二剩余数据生成所述待调度共流的每个TCP流的内部优先级，所述第二剩余数据为与所述发送端关联的发送端剩余的所述TCP流的数据量；

第四处理模块，用于根据所述第一剩余数据量和所述发送端剩余的每个TCP流的数据量生成每个TCP流的期望速率；

发送模块，用于通过第二调度数据包将所述共流优先级、所述内部优先级和所述期望速率发送至交换机；

第二接收模块，用于接收端反馈的调度ACK，并根据所述调度ACK中携带的交换机分配的速率对每个TCP流进行调度。

优选地，所述第二处理模块，具体用于根据所述第一剩余数据获取与该发送端关联的发送端剩余的TCP流量中的最大值；

优选地，所述第四处理模块，具体用于根据所述第一剩余数据获取与该发送端关联的发送端剩余的TCP流量中的最大值；

其中，desired_CCT为所述待调度共流的完成时间，R为服务器的网卡速率，desired_rate为每个TCP流的剩余流量，d为该发送端剩余的一个TCP流的数据量，为硬件设备的影响系数

由上述技术方案可知，本发明提出的数据中心网络中TCP共流的调度方法，通过采集发送端剩余的TCP流总的数据量和每个TCP流的数据量，以实现共流间调度和共流内调度的协调工作，能有效的减少CCT、降低系统开销。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1示出了本发明一实施例提供的数据中心网络中TCP共流的调度方法的流程示意图；

图2示出了本发明一实施例提供的数据中心网络中TCP共流的调度方法中连通图的流程示意图；

图3示了本发明一实施例提供的数据中心网络中TCP共流的调度方法中在网络规模变化时的平均CCT性能对比图；

图4示了本发明一实施例提供的数据中心网络中TCP共流的调度方法中在网络规模变化时的90thCCT性能对比图；

图5示了本发明一实施例提供的数据中心网络中TCP共流的调度方法中在网络负载变化时平均CCT性能对比图；

图6示了本发明一实施例提供的数据中心网络中TCP共流的调度方法中在网络负载变化时的90thCCT性能对比图；

图7示了本发明一实施例提供的数据中心网络中TCP共流的调度方法中在共流数量变化时平均CCT性能对比图；

图8示了本发明一实施例提供的数据中心网络中TCP共流的调度方法中在共流数量变化时的90thCCT性能对比图；

图9示出了本发明一实施例提供的数据中心网络中TCP共流的调度装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一实施例提供的数据中心网络中TCP共流的调度方法的流程示意图，参照图1，该方法包括：

110、共流控制器将至少一个待调度共流的初始信息通告至发送端和接收端；

需要说明的是，共流控制器掌管着所有共流的初始信息。当一个共流到达网络的时候，与此对应的共流控制器将把这个共流的初始信息分发给这个共流对应的发送端和接收端。

120、被通告发送端在接收到所述初始信息时，根据所述初始信息生成每个待调度共流的初始优先级，并向所述待调度共流的每个TCP流对应的接收端发送第一调度数据包；

可理解的是，第一调度数据包即为一种发送端发出的用于收集信息的工具，第一调度数据包传递至对应接收端后，由接收端将第一调度数据包在沿途收集的数据提取出来，并通过调度ACK反馈给发送端。

130、在检测到所述待调度共流被服务且接收到所述接收端反馈的调度ACK时，根据所述调度ACK中携带的第一剩余数据生成所述待调度共流的共流优先级，所述第一剩余数据为与所述发送端关联的发送端剩余的TCP流量；

140、根据所述调度ACK中携带的第二剩余数据生成所述待调度共流的每个TCP流的内部优先级，所述第二剩余数据为与所述发送端关联的发送端剩余的所述TCP流的数据量；

150、根据所述第一剩余数据量和所述发送端剩余的每个TCP流的数据量生成每个TCP流的期望速率；

160、通过第二调度数据包将所述共流优先级、所述内部优先级和所述期望速率发送至交换机；

170、交换机对所述第二调度数据包中的TCP流进行速率分配，并通过接收端的调度ACK将分配的速率发送至所述发送端，以使所述发送端根据交换机分配的速率对TCP流进行调度。

本发明提出的数据中心网络中TCP共流的调度方法，通过采集发送端剩余的TCP流总的数据量和每个TCP流的数据量，以实现共流间调度和共流内调度的协调工作，能有效的减少CCT、降低系统开销。

本实施例中，初始信息包括：初始瓶颈；

需要说明的是，一个共流的实际完成时间仅仅取决于它当中最慢的TCP流何时完成数据传递。也就是说，一个共流的瓶颈最终会决定它的CCT。

由此，步骤120具体包括：

在另一可行实施例中，初始信息还包括：初始流量信息；

为了进一步减轻分发信息的负载，共流控制器只通知每个发送端和接收端和它们在同一个连通图内的所有节点的初始流量信息；

由此，在步骤110之前，共流控制器从第一记录表中获取每个节点与其余节点的关联关系，以及每个节点的ID；

相应地，步骤110具体包括：

将所述初始瓶颈发送至所有发送端；

根据所述关联关系，向每个节点发送与该节点存在关联关系的节点的初始流量信息；其中，节点为发送端或者接收端。

也就是说，共流控制器将向每个发送端发送与所述发送端存在关联关系的节点的初始流量信息；

或者，向每个接收端发送与所述接收端存在关联关系的节点的初始流量信息；

在一可行实施例中，步骤130具体包括：

在一可行实施例中，步骤150具体包括：

在步骤170之前，该方法还包括：

相应地，步骤170具体包括：

图2为本发明一实施例提供的数据中心网络中TCP共流的调度方法中连通图的流程示意图，下面参照图2对进行详细说明：

●共流：一组处于同一个并行数据传递过程并且具有相同目标的TCP流的集合。一个共流的大小被定义为共流中所有TCP流的大小之和。共流的宽度是指共流中TCP流的数量。共流的长度是共流中最大的TCP流的大小。共流的瓶颈被定义为共流涉及到的所有节点的最大数据处理量(包含所有发送端需要发送的数据和所有接收端需要接受的数据)。

●无向图：由于一个TCP连接包含前向的数据传输和后向的ACK反馈传输，一个TCP流可以被看成一条无向边。考虑到这个情况，一个共流和它相关的服务器可以被抽象为一个无向图G＝<V,E>。所有的发送端和接收端组成了点集合V，所有的TCP流组成了边集E。

●连通图：根据图的连通性，一个无向图可以被划分为若干个连通子图。每个连通的部分就是一个连通图。

●部分共流(PartialCoflow)：一个部分共流是TCP流的集合。其中，这些TCP流可以被抽象为同一个连通图中所有的边。

图2中的f_i为第i个TCP流，共19个TCP流。所有的节点和边组合成为了无向图。该无向图被分为了三个连通图。与此相应地，一个共流被分成了三个部分共流，其中，f₁-f₁₂为一个部分共流，f₁₃-f₁₅为一个部分共流，f₁₆-f₁₉为一个部分共流；

基于如上定义和示例，我们可以总结出以下关系：

●一个共流对应一个无向图；一个部分共流对应一个连通图。

●每个共流包含一个或多个部分共流。与此对应地，一个无向图包含一个或多个连通图。

●信息可以通过同一个部分共流中的TCP流，在对应的连通图内的服务器间相互传递。

由此本发明给出另两个定义。一个共流的信息表示这个共流中，所有发送端要发送的属于这个共流的总共剩余流量大小，所有接收端要接收的属于这个共流的总共剩余流量大小。同样地，一个部分共流的信息意味着这个部分共流中，所有对应的发送端要发送的属于这个部分共流的总共剩余流量，所有对应的接收端要接受的属于这个部分共流的总共剩余流量大小。很显然的是，一个部分共流信息是它对应的共流信息的子集。

基于上面的定义，本发明给出CGM-PS的框架，CGM-PS方法被分为两个部分：共流间调度和共流内调度。共流间调度指的是给不同的共流指派不同的优先级，而共流内调度指的是给每个共流中的TCP流分配流层面的优先级并指定发送速率。

下面对共流间调度的原理进行详细说明：

共流间调度策略命名为P-SEBF。P-SEBF由三部分组成：信息获取，策略生成以及调度执行。其中：

●信息获取：每个发送端以半分布式的形式收集共流的信息。也就是说，在一个共流被网络服务之前，每个发送端从集中式共流控制器那儿去获取这个共流的信息(这个控制器可以是SDN控制器)。当这个共流被网络服务后，每个发送端通过和在同一个连通图中的所有发送端和接收端相互交互信息去获取它所在的部分共流的信息。这个信息获取过程每个RTT将会被执行一次。

●策略生成：根据获取到的信息以及共流间调度策略，每个发送端为它上所有的共流本地地计算优先级。值得注意的是，如果发送端仅仅只获取到部分共流的信息，它会根据这个信息计算部分共流层面的优先级。然后它会把这个优先级近似当成这个共流的优先级。也就是说，在我们的方法中，部分共流层面的优先级被当成了共流层面的优先级。这个过程会被周期性地执行。周期长度为δ。

●调度执行：每个发送端给共流中的每个TCP流分配优先级。具有较高共流优先级的流会被率先调度。具有相同共流优先级的TCP流的调度顺序以及每个流的发送速率会在共流内调度部分进行介绍。

下面对共流间调度的原理进行详细说明：

共流内调度策略被命名为FP-MDFS。该策略由两部分组成：流优先级生成以及流速率分配：

●流优先级生成：每个发送端根据共流优先级以及关于这个流的一些本地信息，给每个TCP流分配流优先级。这个过程将会在这个发送端结束共流间调度中的策略生成步骤后被执行。

●流速率分配：首先，每个发送端为它上面的每个流计算一个期望速率。其次，每个发送端向TCP流传播路径中的沿途交换机通告流优先级和期望速率。然后，每个交换机为这个流指定一个可接受的速率。接着，接收端把这些关于可接受速率的反馈信息通过ACK传递给发送端。最终，发送端根据这些反馈信息更新流的发送速率。这个过程每个RTT重复一次。

下面对共流间调度和共流内调度的算法实现原理进行详细说明：

在P-SEBF中，当一个共流到达网络的时候，共流控制器会向这个共流的所有发送端通告有关这个共流的初始信息。当共流被网络服务前，这个离线信息是有效的。根据这个信息，每个发送端可以获得这个共流的共流优先级。这意味着共流间调度策略在共流被传输服务前是工作在集中调度模式的。

然而，当这个共流中的部分TCP流被传输后，即被网络服务后，这个共流的初始信息将变得无效了。为了在不影响网络性能的前提下，减少系统开销，本发明采用在连通图模型的基础上，让处于同一个连通图内部的服务器可以通过捎带信息的方式进行消息共享。这也就意味着，当共流被网络传输后，共流间调度策略工作在分布式模式。在该模式中，每个发送端获取到部分共流的信息。通过计算部分共流优先级来获取共流优先级。另外，用这种方式，没有额外的TCP流被用来进行信息交换，这大大减小了网络的负载。

表1为关键符号定义表，下面参照表1对共流间调度和共流内调度的实现过程进行详细说明，表1中的发送端和接收端均可以为服务器：

表1

共流控制器操作：共流控制器掌管着所有共流的初始信息。当一个共流到达网络的时候，与此对应的共流控制器需要把这个共流的初始信息分发给这个共流对应的发送端和接收端。为了进一步减轻分发信息的负载，共流控制器只通知每个发送端和接收端和它们在同一个连通图内的所有节点的初始流量信息。这个分发信息的形式是(LiM,DiM)(i＝1,2....)。此外，控制器会通知所有的发送端这个共流的初始瓶颈(LM,DM)。控制器把这些信息捎带在通告数据包的头部，并把这些通告数据包发送给对应的发送端和接收端。这个操作也就是我们方法的集中式部分。

发送端操作：共流的每个发送端会为这个共流维护一个共流变量表。这个表中包含I，J,(LiS,DiS)(i＝1,2...,I),(LS,DS)和gi,jS(i＝1,2,...I；j＝1,2,...,J)。发送端会通过每个TCP流每隔一个RTT发送一个调度数据包。如果这个TCP流本身有发送速率，那么这个调度包就是一个携带了调度信息头部的正常的数据包。这里调度信息头部是用来记录调度相关信息的。如果这个TCP流本身的发送速率为0，我们使用一个只有调度信息头部但没有数据的TCP包，把这个包作为调度数据包进行信息交互。类似地，一个调度ACK是一个捎带有调度头部的ACK包。

发送端的操作如下所示。

当一个新的共流到达网络的时候，更新这个共流的初始信息：

1.1当接收到共流控制器发送的(LiM,DiM)(i＝1,2...,I)和(LM,DM)的时候，把这些值转化为本地信息(LiM,DiM)(i＝1,2...,I)和(LM,DM)，并更新I和J。

1.2把数组[gi,jS](i＝1,2,...I；j＝1,2,...,J)设置为全0。把P设为0。

步骤1.每过一个RTT，给每个TCP流的接收端，发送一个调度包。

2.1.获取共流IDC，本地剩余数据量D，流IDj’，服务器IDi’。

2.2.如果D比Di’S小，更新Di’S并设置[gi’,j’S]为1。

2.3.对于所有i，如果[gi,j’S]等于1，把(LiS,DiS)添加到调度包头并设置[gi,j’S]为0。

2.4.如果调度包头非空，发送一个调度数据包给这个流的接收端。

步骤2.当收到一个调度ACK，更新对应共流的本地信息：

3.1获得共流IDC。

3.2把所有关于(LiR,DiR)(上标R表示这个变量是由接收端维护的)的反馈信息放进集合T中。

3.3对于T中的每对(LiR,DiR)，如果DiR比DiS小，设置DiS为DiR,[gi,jS](j＝1,2,...,J)为1。

步骤3.每隔δ，为这个发送端上的所有共流计算共流层面的优先级：

4.1从本地共流集合中移除已经完成的共流。

4.2对于每个共流，根据这个共流到目前为止是否被服务更新P的值。

4.3对于每个共流C，如果P等于0，保持(LS,DS)不变并把共流优先级设置为DS；如果P等于1，设置DS为DiS(i＝1,2,...,I)的最大值，LS为对应的LiS，设置它的共流优先级为DS。这是P-SEBF的核心步骤。

4.4使用公式(1)来调整共流C的共流优先级。

步骤4.把共流优先级赋予给所有TCP流。

在步骤4.3中，当共流不被网络服务的时候(也就是P等于0)，发送端使用被通告的瓶颈DM作为共流的瓶颈，然后根据这个值计算共流优先级；否则，发送端根据部分共流的瓶颈(DiS的最大值)来计算部分共流优先级并把这个优先级近似为共流优先级。

然而这种基于大小的调度策略会导致某些大的共流被饿死。所以，为了减轻这个问题，我们调整P-SEBF为一个关于时间的函数来重新计算共流优先级。其中，是共流的平均到达间隔。N*是一个经验性的参数，它反映了本共流需要等待多少其他共流。φ是一个可扩展门限值。通过大量的实验，我们发现把N*设置为5～20，φ设置为0.05～0.2可以取得很好的性能。从(1)中我们可以看到，随着时间流逝，共流优先级会提高，这会有效地缩短大共流的完成时间。也就是说，我们的共流间调度策略是不会饿死大共流的。

接收端操作：接收端的操作和发送端很类似。在开始，每个接收端会被通知共流的初始信息。它便开始维护这些信息。这和发送端step1中的操作是一样的。当它接收到一个调度数据包，一个与发送端step3中类似的操作将会被促发。然后它便会进入如发送端step2中类似的本地过程。在这个过程中，它将会发送一个调度ACK而不是一个调度数据包。在这里我们就展示这些操作的细节。此外接收端没有step4和step5。简而言之，接收端的核心思想是用半分布式的形式，帮助发送端来收集信息。

我们共流内调度策略是一个启发式算法，该算法基于以下两点认识：

●一个共流的瓶颈对于共流的完成时间有很强的影响作用。所以，对于同一个共流中的所有TCP流而言，我们应当优先调度传播路径在共流瓶颈上的流。

●我们仅仅需要给共流中的所有流分配合适的速率来保证所有流在最慢的那条流之前完成数据传递。

我们把这个共流内调度策略命名为FP-MDFS。在FP-MDFS中，我们根据一个流的传播路径是否在它所在共流的瓶颈链路上给这个流分配一个内部优先级。根据内部优先级和共流优先级，我们设计了流优先级。具有同样的流优先级的流会被划分到一个分类中去。此外，我们给每个TCP流分配一个期望速率。FP-MDFS试着给TCP流分配一个合适的速率。分配的这个速率尽量让比这个流优先级更高和一样的所有流都能够满足需求；否则的话，FP-MDFS将会使用平均分配的方式来分配一个合适的速率。

为了实现FP-MDFS，我们让发送端，交换机和接收端以分布式的形式协同工作。接下来，我们介绍所有相关网元的操作。

发送端操作：每个发送端为它上的每个TCP流计算一个流的优先级和一个期望速率。流优先级被设计为一个二元组(P_inter,P_intra)，这里P_inter是共流优先级，P_intra是内部优先级，也是一个标志位。发送端查看共流间调度的本地消息。如果它的传输路径在这个共流的瓶颈上，把P_intra设置为0；否则把它设为1。我们说，当且仅当时，P_inter1<P_inter2或者P_inter1＝P_inter2且P_intra1<P_intra2的时候，(P_inter1,P_intra2)是一个比(P_inter,P_intra)更高的优先级。

值得注意的是一个共流的实际完成时间仅仅取决于它当中最慢的TCP流何时完成数据传递。也就是说，一个共流的瓶颈最终会决定它的CCT。一个共流期望的完成时间可以如下得到：

d e s i r e d_C C T = \frac{D^{S}}{R} - - - (2)

这里R表示服务器的网卡速率。

根据这个，我们为TCP流计算了一个期望的发送速率：

d e s i r e d_r a t e = m i n (\frac{d}{d e s i r e d_C C T}, \frac{D a t a I n B u f f e r}{R T T}) - - - (3)

其中，d是这个TCP流的剩余大小。

当发出一个调度数据包的时候，发送端会添加八个额外的参数到这个数据包的头部。在这八个参数中，一个为流优先级，一个为当前的期望发送速率，其余六个预留给至多6个中间交换机来分配速率。这六个参数被初始化为R。

交换机操作：每个交换机把每一个流优先级映射为一个类。它为每个输出端口中的每个类维护四个变量。它们分别是Class_id,Demand,Alloc,Flow_num。这里Demand表示这个类中所有流总的期望速率，Alloc表示为这些流分配的总的速率，Flow_num是流的数目。

交换机工作在如下几个步骤：

步骤1.当收到一个调度包，更新本地信息并分配一个合适的速率给这个TCP流：

1.1获取速率相关的参数和流优先级。获得这个流的Class_id。

1.2把这七个关于速率的参数的最小值当成这个流的期望速率。更新Demand和Flow_num。

1.3通过累加所有具有更高优先级类的的Alloc来计算tot_alloc。用输出链路容量减去tot_alloc得到avail_band。

1.4如果avail_band比0小，分配0给这个流；如果比Demand大，分配它期望的速率；否则分配给这个流。

1.5更新Alloc。添加分配的速率到调度包的包头，并把调度包向下一跳转发。

步骤2.当接收到一个ACK调度包的时候，更新本地信息。

2.1.获取所有速率相关的参数和流优先级。获得TCP流的Class_id。

2.2.把给这个流分配的速率设置为这七个速率相关参数的最小值，并更新Alloc。然后把这个数据包向下一跳传递。

接收端操作：当接收到一个调度包的时候，接收端取出包头的八个参数，把这八个参数添加到调度ACK的头部，并发出ACK。

下面讨论下我们调度算法的系统开销。

根据以上设计，一个调度头部最多包含18～78字节。对于共流间调度策略，我们使用1字节来确定有多少对(LiS,DiS)或(LiR,DiR)需要被传输，并且我们让这个固定在范围0到20之间。一对的(LS,DS)占用3个字节。也就是说，我们使用1～61字节来编码共流间调度相关的参数。对于共流内调度，我们使用17字节进行编码。我们把流优先级设置为2字节。我们把速率相关的参数也编码为2字节。此外，我们需要一个额外的字节来保持交换机的编号——当每个交换机传递完调度包/ACK到下一跳的时候把它加1。

通告包的头部需要1～64字节的额外开销。这是由于除去(LiM,DiM)需要的1～61字节，共流控制器需要传递一对(LM,DM)给共流的所有发送端。

总的来说，调度包、调度ACK和通告包平均需要48，48，33个额外的字节。这个开销比其他的分布式方法如Baraat和D-CAS要高一点。这两类方法只需要20～30字节的额外开销。但是它却比集中式方法如Varys低很多。Varys中需要大量额外的TCP流来进行调度。

对于共流间调度，在共流传递的开始，共流控制器向服务器传播消息这一过程会产生2～3个RTT的调度时延。其中1～2个RTT用来建立TCP连接。紧接着，根据前面的分析，连通图内的消息传播需要大概几个RTT(往往小于10个)。对于共流内调度，调度时延是1～2个RTT。

总的来说，系统总的调度时延最多为15个RTT。这个值通常比1毫秒要小，这比起Varys的30ms要小很多。

综上所述，1、本发明所提出的CGM-PS是一种半分布式的调度方法，它既克服了集中式方法系统开销大的缺点，也能很好的解决分布式方法性能较差的问题；

2、CGM-PS具有抢占性，非饿死，工作保持等特点，这些特点都能优化共流的CCT性能；

3、CGM-PS的共流间调度算法P-SEBF基于部分共流这一新的概念，以半分布式的形式近似地实现了集中式方法才能达到的最优调度策略；

4、CGM-PS的共流内调度算法FP-MDFS创新性地提出了共流中不同流不同优先级的思想，并让网络中交换机协同给每个流分配最合理的发送速率，这对于CCT的性能优化有着重要的作用。

5、CGM-PS在不同的网络规模、网络负载和共流数量的情况下，它的CCT性能都优于其他对比方法。

图3和图4分别示出了在网络规模变化时本申请提出的CGM-PS与现有技术中的D-CAS，Baraat，Varys和最普通的基于流的CCT性能的对比图；

参照图3和图4可知，为了验证本方法的具体效果，本发明使用基于trace的仿真器来验证CGM-PS的性能。其中，本发明对比了D-CAS，Baraat，Varys和最普通的基于流的公平性方法。

设置：本发明根据共流的宽度和长度把所有的共流划分为四个类型：窄短型，窄长型，宽短型，宽长型。本发明认为一个共流包含低于50条流的时候，它被当成窄的。本发明把共流的长度的上限设置为1000MB。一个共流被认为是短的当且仅当它的长度小于10MB。每类共流的占比情况如下：52％，16％，15％和17％。

所有共流的到达时间服务满足参数的λ泊松分布。本发明设置其中avgNL是平均的网络负载，C是网络容量，avgCS表示平均的共流大小。通过调整平均网络负载avgNL，本发明可以模拟不同的到达速率。

在本发明的仿真中，拓扑被抽象为了一个连接所有服务器的非阻塞交换机模型。本发明仅仅关注服务器到交换机之间的接入链路。接入链路带宽被设置为1Gbps。

参数设置：在CGM-PS中，本发明设置δ为100ms，φ为0.1，N^*为10。对于D-CAS，我们设置T为1s，δ为100ms，thresholdVolume为1MB。对于Baraat，本发明设置它的大流识别的上限为80th百分比的共流大小。在Varys中，本发明设置T为1s，δ为100ms。对于每组参数，本发明做了10次仿真，去掉最大值和最小值后再对剩余值取平均。

在本部分，本发明把共流的大小固定为200，平均网络负载设置为1。通过改变集群中服务器的数量，本发明探究集群/网络规模对CCT的影响。由图3和图4可以看到，无论是平均值还是90th百分比，CGM-PS都可以取得最小的CCT。同时，随着网络规模的提高，CGM-PS的曲线都先增加到某个点然后再下降。这是由于当网络规模变得足够大的时候，网络中会有足够的冗余链路，这会加速共流的传输。

图5和图6分别示出了在网络负载变化时本申请提出的CGM-PS与现有技术中的D-CAS，Baraat，Varys和最普通的基于流的CCT性能的对比图；

在本部分，共流数量被固定为200，集群中服务器的数量被设置为50。本发明让网络负载从0.5增长到2.5。仿真结果表明，对于所有的调度方法，网络负载越大，CCT也会越大。然而，在所有方法中，CGM-PS仍然能够取得最小的平均和90th百分比CCT。

图5和图6分别示出了在共流数量变化时本申请提出的CGM-PS与现有技术中的D-CAS，Baraat，Varys和最普通的基于流的CCT性能的对比图；

在本部分，本发明设置集群中服务器的数量为50，平均网络负载为1。本发明把共流数量从50增长到400来考察共流数量对CCT性能的影响。由图5和图6可知，几乎所有的曲线都会随着共流数量增加而增长。这是由于共流数量的增加会减少平均的可用网络带宽资源。然而，CGM-PS的平均和90th百分比的曲线都只是轻微的增长并且它们的曲线始终都在其他方法的曲线的下面。这意味着本发明的CGM-PS方法在共流数量改变的情况下性能很好很稳定。

对于方法实施方式，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施方式并不受所描述的动作顺序的限制，因为依据本发明实施方式，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施方式均属于优选实施方式，所涉及的动作并不一定是本发明实施方式所必须的。

图9为本发明一实施例提供的数据中心网络中TCP共流的调度装置的结构示意图，参照图9，该装置包括：

第一接收模块910，用于接收至少一个待调度共流的初始信息；

第一处理模块920，用于根据所述初始信息生成每个待调度共流的初始优先级，并向所述待调度共流的每个TCP流对应的接收端发送第一调度数据包；

第二处理模块930，用于在检测到所述待调度共流被服务且接收到所述接收端反馈的调度ACK时，根据所述调度ACK中携带的第一剩余数据生成所述待调度共流的共流优先级，所述第一剩余数据为与所述发送端关联的发送端剩余的TCP流量；

第三处理模块940，用于根据所述调度ACK中携带的第二剩余数据生成所述待调度共流的每个TCP流的内部优先级，所述第二剩余数据为与所述发送端关联的发送端剩余的所述TCP流的数据量；

第四处理模块950，用于根据所述第一剩余数据量和所述发送端剩余的每个TCP流的数据量生成每个TCP流的期望速率；

发送模块960，用于通过第二调度数据包将所述共流优先级、所述内部优先级和所述期望速率发送至交换机；

第二接收模块970，用于接收端反馈的调度ACK，并根据所述调度ACK中携带的交换机分配的速率对每个TCP流进行调度。

本实施例中，第二处理模块930具体用于根据所述第一剩余数据获取与该发送端关联的发送端剩余的TCP流量中的最大值；

本实施例中，第四处理模块950，具体用于根据所述第一剩余数据获取与该发送端关联的发送端剩余的TCP流量中的最大值；

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种数据中心网络中TCP共流的调度方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述初始信息包括：初始瓶颈；

3.根据权利要求2所述的方法，其特征在于，所述初始信息还包括：初始流量信息；

将所述初始瓶颈发送至所有发送端；

其中，所述节点为发送端或者接收端。

4.根据权利要求3所述的方法，其特征在于，在所述将至少一个待调度共流的初始信息通告至发送端和接收端的步骤之前，该方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述调度ACK中携带的第一剩余数据生成所述待调度共流的共流优先级的步骤具体包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一剩余数据量和该发送端剩余的每个TCP流的数据量生成每个TCP流的期望速率的步骤具体包括：

7.根据权利要求1所述的方法，其特征在于，在所述交换机对所述第二调度数据包中的TCP流进行速率分配的步骤之前，该方法还包括：

8.一种数据中心网络中TCP共流的调度装置，其特征在于，包括：

第一接收模块，用于接收至少一个待调度共流的初始信息；

9.根据权利要求8所述的装置，其特征在于，所述第二处理模块，具体用于根据所述第一剩余数据获取与该发送端关联的发送端剩余的TCP流量中的最大值；

10.根据权利要求9所述的装置，其特征在于，所述第四处理模块，具体用于根据所述第一剩余数据获取与该发送端关联的发送端剩余的TCP流量中的最大值；