CN107864102A

CN107864102A - 一种基于Sarsa的SDN数据中心拥塞控制方法

Info

Publication number: CN107864102A
Application number: CN201711173239.9A
Authority: CN
Inventors: 金蓉; 王伟明; 李姣姣; 庹鑫
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2018-03-30
Anticipated expiration: 2037-11-22
Also published as: CN107864102B

Abstract

本发明公开了一种基于Sarsa的SDN数据中心拥塞控制方法。本发明方法基于SDN的网络背景，提出一种基于流的拥塞控制思想，引入增强学习中的Sarsa算法，根据数据中心网络链路的负载变化，实时智能地全局分配流的速率，使整个网络避免拥塞的前提下，链路利用率尽可能高，从而实现整个数据中心的拥塞控制。本发明提出改进的Sarsa算法，对Q矩阵进行训练；再根据流的请求，利用训练得到的Q矩阵，进行速率分配，从而实现拥塞控制。本发明提供了一种控制效果较好，控制算法易实现，低时延以及能实时地自适应的SDN数据中心拥塞控制方法。本发明为SDN数据中心的拥塞控制问题提出了一种基于增强学习Sarsa算法的智能解决方法。

Description

一种基于Sarsa的SDN数据中心拥塞控制方法

技术领域

本发明涉及网络通信技术领域，具体涉及一种基于Sarsa的SDN(SoftwareDefined Network,软件定义网络)数据中心网络(Data Center Network,DCN)的拥塞控制方法。

背景技术

互联网经过几十年的飞速发展，已经成为当今社会生活和生产不可缺少的一部分，处于不同地理位置的人们可以利用计算机网络进行声音、图片、视频、文字的交流以及从万维网上获取大量的多媒体资源。如今Internet已经基本覆盖了全球所有的地区，我们利用Internet进行的各种行为都是在无数数据中心的支持下运转的，所以数据中心网络的建设和国家交通、能源等基础设施的建设一样非常重要。随着近几年云计算和大数据的飞速发展以及通信业务急剧增加，数据中心的流量呈井喷式增长，伴随着流量的激增，数据中心网络(Data Center Network，DCN)存在着越来越大的问题。

传统的网络架构方式中，数据中心网络一般采用树形分层结构，其中较为经典的就是由核心交换层、汇聚层、用户层或接入层等三层组成。随着通信流量的增加，核心交换层的带宽会出现很大压力，很容易造成拥塞，丢包，传输延迟高，吞吐量低等问题。此外，传统的路由协议BGP、OSPF、ECMP无法较好的适应新的拓扑结构，并且，数据中心网络的数据流具有高突发性的特点，传统路由协议中的路由算法不能较好的完成调度和转发，对于拥塞控制算法的设计十分困难，所以数据中心网络面临极高的拥塞风险。

增强学习方法最早可回溯于高等动物和人的在探索自然界中的心理反应，早期人类在探索自然环境中不是被动的等待，而是通过与环境不断的探索和尝试，类似于一种＂尝试与失败＂的机制，并根据自然的反馈的信息，然后慢慢改变自己的决策。在这个学习过程中，主要借助与环境的不断的交互，并根据当前获得的类似于一些奖赏性反馈信号，根据这些奖赏性的信号来改进当前的行为策略。近年来，随着强化学习的研究与发展，已经成为人工智能领域的一个热点问题，并和认知科学学习也理学理论、等有着密切的关系，是一种非常重要的机器学习方法。Sarsa算法是一种在策略的增强学习算法，在Sarsa算法中，选择动作时遵循的策略和更新动作值函数时遵循的策略是相同的。Sarsa算法的优点是直接了当，速度快。劣势是不一定找到最优策略，为此常在Sarsa算法中利用ε-greedy策略避免陷入局部最优。

本发明提出了一种基于Sarsa的SDN数据中心拥塞控制方法。本发明方法基于SDN的网络背景，提出基于流(flow)的拥塞控制思想，引入增强学习中的Sarsa算法，并根据数据中心网络链路的负载变化，实时智能地全局分配流的速率，使整个网络避免拥塞的前提下，使数据链路利用率尽可能高，从而实现整个数据中心的拥塞控制。本发明为SDN数据中心的拥塞控制问题提出了一种基于Sarsa的智能解决方法，该方法同时考虑学习速度和收敛性，提高网络的吞吐量、业务的性能及服务质量，从而促进数据中心节能化，实现绿色通信。

发明内容

本发明的目的是解决基于SDN架构的数据中心网络的拥塞控制问题，提出了一种基于Sarsa的SDN数据中心网络的拥塞控制方法。

本发明的目的是通过以下技术方案来实现的：一种基于Sarsa的SDN数据中心拥塞控制方法，该方法具体包括以下步骤：

步骤1：将Sarsa算法引入基于软件定义网络的数据中心；

所述的Sarsa算法，是增强学习中的一种在策略的时序差分算法；所述的增强学习，是一种通过感知环境状态信息来学习动态系统的最优策略，通过试错法不断与环境交互来改善自己的行为的学习方法；SDN的数据中心拥塞控制问题是指基于flow的拥塞控制问题，即对所有的flow统筹分配速率，既尽力满足flow的速率请求，又保证整个数据中心网络不产生拥塞。

步骤2：基于改进的Sarsa算法，对Q矩阵进行训练；具体包含如下子步骤：

2-1.按照先验知识，给定奖励矩阵R，并将Q矩阵初始化；

2-2.改进Sarsa算法中选取action的方法，使算法结合当前状态以及当前flow所经过的链路两个条件，在R矩阵中选择最大奖励对应的action；同时，采取ε-greedy策略保证Sarsa学习算法的收敛性；

2-3.执行所选择的action，观察reward和新的链路状态，根据Q(S,a)←Q(S,a)+α[r+γQ(S',a')-Q(S,a)]迭代更新值函数Q(S,a)；

其中S表示当前状态；a表示当前状态下选择的动作；S'和a'则分别表示后续的状态和动作；迭代更新值函数Q(S,a)表示当前状态s下执行动作a后的Q值，Q(S',a')表示下一状态S'下执行动作a'后的Q值，r是当前状态S下执行动作a后的奖励，γ为折扣因子，α为学习效率；

2-4.循环执行Q矩阵训练过程，直到s为最终状态，得到训练后的Q矩阵；

步骤3：根据具体的flow请求，结合上述步骤2得到的经过训练得到的Q矩阵和最终策略，对SDN数据中心网络进行拥塞控制。

所述步骤3中具体的拥塞控制方法包含如下步骤：

3-1.获取分配的flow条数N，以及这些flow占用的链路情况、流的速率需求；

3-2.获取当前所有链路的初始状态，即数据中心网络当前所有链路的带宽占用情况；

3-3.根据改进的Sarsa算法训练得到的Q矩阵，为当前flow选择当前Q矩阵中的最大Q值对应的动作执行，即为当前flow分配速率,然后更新当前的链路状态，同时记录当前流的flow与rate的映射；

3-4.判断N条flow是否全部分配完毕；如若没有，则需要返回到步骤3-3对下一条flow继续循环，直到为所有的flow分配速率；若分配完毕，则执行步骤3-5；

3-5.输出N条流的flow与rate的映射表，以此对数据中心进行全局的拥塞控制。

改进Sarsa算法中选取action过程中，同时考虑学习速度和收敛性。考虑尽量快的学习速度，引入一种在策略(on-policy)的增强学习算法——Sarsa算法解决SDN数据中心的拥塞控制问题；同时为避免Sarsa算法收敛到局部最优，引入ε-greedy策略保证Sarsa算法的收敛性。

本发明的有益效果是：本发明为SDN数据中心的拥塞控制问题提出了一种基于Sarsa的智能解决方法，根据数据中心网络链路的负载变化，动态地进行拥塞控制。在降低了网络时延的同时，还提高网络的吞吐量、业务的性能及服务质量，保证了互联网新兴业务与云计算的健康发展，促进了数据中心节能化，为进一步实现绿色通信做贡献。

附图说明

图1为算法模型的学习交互模型图。

图2为实施例采用的数据中心网络拓扑图。

图3为训练算法流程图。

图4为拥塞控制方法流程图。

图5为实施例中各链路的带宽变化图。

图6为实施例中流的速率分配图。

图7表示不同速率需求下不同算法的链路利用率对比图。

图8表示不同链路初始状态下不同算法的链路利用率对比图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

本发明提供了一种基于Sarsa的SDN数据中心拥塞控制方法，该方法包括如下步骤：

步骤1：将Sarsa算法引入基于软件定义网络的数据中心。

所述的Sarsa算法，是增强学习中的一种在策略(on-policy)的时序差分算法。所述的增强学习，是一种通过感知环境状态信息来学习动态系统的最优策略，通过试错法不断与环境交互来改善自己的行为的学习方法。基于SDN的数据中心拥塞控制问题是指基于flow的拥塞控制问题，即对所有的flow统筹分配速率，既尽力满足flow的速率请求，又保证整个数据中心网络不产生拥塞。

步骤2：基于改进的Sarsa算法，对Q矩阵进行训练。

具体包含如下步骤：

2-1.按照先验知识，给定奖励矩阵R。并将Q矩阵初始化。

2-2.改进Sarsa算法中选取action的方法。算法结合当前状态，以及当前flow所经过的链路两个条件，在R矩阵中选择最大奖励对应的action。同时，采取ε-greedy策略保证Sarsa学习算法的收敛性。

2-3.执行上述选择的action，观察reward和新的链路状态，根据Q(S,a)←Q(S,a)+α[r+γQ(S',a')-Q(S,a)]迭代更新值函数Q(S,a)。

其中S表示当前状态；a表示当前状态下选择的动作；S'和a'则分别表示后续的状态和动作。迭代更新值函数Q(S,a)表示当前状态s下执行动作a后的Q值，Q(S',a')表示下一状态S'下执行动作a'后的Q值，r是当前状态S下执行动作a后的奖励，γ为折扣因子，α为学习效率。

2-4.如此循环该迭代过程，直到s为最终状态。得到训练后的Q矩阵。

步骤3中具体的拥塞控制方法包含如下步骤：

3-1.获取分配的N条flow信息，包括这些流占用的链路情况，流的速率需求；

3-2.获取当前所有链路的初始状态。即数据中心网络当前所有链路的带宽占用情况。

3-3.根据改进的Sarsa算法训练得到的Q矩阵，为当前flow选择当前Q矩阵中的最大Q值对应的动作执行，即为当前flow分配速率,然后更新当前的链路状态，同时记录当前流的flow与rate的映射。

为了便于本领域一般技术人员理解和实现本发明，现结合附图进一步说明本发明的技术方案，给出一个本发明所述方法的具体实施例。

实施例

本实施例将Sarsa算法引入基于软件定义网络的数据中心，实时地解决拥塞控制问题。图1为算法模型的学习交互模型图，各模块的基本功能为：(1)Agent智能体模块，它可以是控制器，用来控制源端的发送速率；(2)网络环境模块，就是采集当前网络所有链路的链路带宽占用情况；(3)更新模块，利用网络环境变化得到的反馈值r和Sarsa算法实时地更新策略；(4)行为选择映射模块，在学习过程中不断更新流与其分配速率的映射表。本实施例的学习模块采用改进的Sarsa算法，根据R矩阵选取动作时，基本的Sarsa算法选择当前状态对应行所有列的reward中最大的action执行。改进的Sarsa算法结合当前状态，以及当前flow所经过的链路两个条件，在对应链路相关的reward中选取最大的reward，从而选择对应的action。学习模块训练得到的Q矩阵将提供给决策模块。决策模块根据Q矩阵，为每个flow分配速率，实现拥塞控制。

图2为实施例采用的SDN数据中心网络拓扑图。整个网络有5条链路，链路带宽均为8G。本是实施例采用的flow队列长度为10。

本实施例具体的拥塞控制方法包含如下步骤：

步骤1：将Sarsa算法引入基于软件定义网络的数据中心。

如图1所示基于Sarsa的拥塞控制系统的算法模型的学习交互模型图中，整个过程主要包括以下几个部分：网络环境就是当前网络所有链路的链路带宽占用情况，控制器可以控制网络节点源端发送流的速率，也就是为每条流分配速率，当网络环境会变化时，得到一个反馈值r，流与其分配速率的映射表也会在学习的过程中不断更新，最后算法会收敛，会得到一个较优的映射表，再通过Agent智能体控制源端的发送速率，从而实现整个数据中心的拥塞控制。

步骤2：基于改进的Sarsa算法，对Q矩阵进行训练。

将Sarsa算法应用于SDN数据中心网络基于流的拥塞控制问题，结合考虑SDN数据中心网络的特征和基于流的拥塞控制方法的特征，改进传统的Sarsa算法，提出一种改进的Sarsa算法，对Q矩阵进行训练。传统的Sarsa算法根据R矩阵选取动作时，基本的Sarsa算法选择当前状态对应行所有列的reward中最大的action执行。改进的Sarsa算法结合当前状态，以及当前flow所经过的链路两个条件，在对应链路相关的reward中选取最大的reward，从而选择对应的action。

改进的算法描述如下：

图2是本测试应用例的网络拓扑结构图。图中的所示为每条链路的带宽为40G的情况下，有10条流，分别经过L1-L2，L1-L3，L1-L4，L1-L5，L2-L3，L2-L4，L2-L5，L3-L4，L3-L5，L4-L5，带宽需求都是5G。在尽量满足所有流的速率需求的前提下，使用基于Sarsa的在策略拥塞控制方法为每条流分配速率，并且保证网络不发生拥塞。

图3是Sarsa训练流程图。具体包含如下步骤：

2-1.按照先验知识，给定奖励矩阵R。并将Q矩阵初始化。5条链路的初始负载为[18,20,18,14,29]。

本实施例中奖励的设定采用单峰函数min(i/7,100*(35-i))，单峰函数分为两段函数，其中i表示链路的带宽占用大小，当所有链路的带宽占用i小于35G时，奖励值会在第一段函数i/7中求得，执行分配动作后，链路的利用率越高，奖励值越高；当有链路带宽占用超过35G时，奖励值为负，此时判断链路出现拥塞情况。

在本测试应用例中，我们选取的动作集为A＝{1G,2G,3G,4G,5G}，也就是说为每条流分配的速率会从这五个速率中选择一种去执行。

2-3.执行action，观察reward和新的链路状态，根据Q(S,a)←Q(S,a)+α[r+γQ(S',a')-Q(S,a)]迭代更新值函数Q(S,a)。

其中S表示当前状态；a表示当前状态下选择的动作；r选择动作a后获得的奖励；S'和a'则分别表示后续的状态和动作。迭代更新值函数Q(S,a)表示当前状态s下执行动作a后的Q值，Q(S',a')表示下一状态S'下执行动作a'后的Q值，r是当前状态S下执行动作a后的奖励，γ为折扣因子，α为学习效率。

为了使算法的收敛速度更快，本实施例中采用贪婪算法，初始的ε的值设为0.99，最终的ε的值为0.01。在本测试应用例中就是会以99％的概率从动作集A中的5种分配速率中随机选取一个速率去分配，以1％的概率选择求得的最优的分配速率去执行，在训练的过程中，ε的值会不断减小，最终ε的值会减小到0.01，这样控制器会以99％的概率为每条流分配求得的最优分配速率，以1％的概率为每条流分配从动作集A中随机选取的分配速率。

2-4.如此循环，直到s为最终状态。得到训练后的Q矩阵。

Sarsa算法是一种在策略算法，本发明选择动作时遵循的策略和更新动作值函数时遵循的策略是相同的(即e-greedy策略)。算法最终可以得到所有状态-动作对的Q函数，并根据Q函数输出最优策略(e-greedy中参数最优)。

具体的拥塞控制方法流程图如图4所示，具体包含如下步骤：

3-1.获取分配的10条flow。包括这些流占用的链路情况，流的速率需求；

3-2.获取当前所有链路的初始状态。即数据中心网络当前所有链路的带宽占用情况。待分配的flow请求为10条，5条链路的初始负载为[18,20,18,14,29]，具体需要占用的链路和带宽需求如下：

flow1

flow2

flow3

flow4

flow5

flow6

flow7

flow8

flow9

flow10

占用链路

l₁,l₂

l₁,l₃

l₁,l₄

l₁,l₅

l₂,l₃

l₂,l₄

l₂,l₅

l₃,l₄

l₃,l₅

l₄,l₅

需求带宽(G)

5

3-3.根据改进的Sarsa算法训练得到Q矩阵，为当前flow选择当前Q矩阵中的最大Q值对应的动作执行，即为当前flow分配速率,然后更新当前的链路状态，同时记录当前流的flow与rate的映射。

3-4.判断10条flow是否全部分配完毕；如若没有，则需要返回到步骤3-3继续循环，直到为所有的flow分配速率；若分配完毕，则执行步骤3-5；

3-5.输出10条流的flow与rate的映射表，以此对数据中心进行全局的拥塞控制。

	flow1	flow2	flow3	flow4	flow5	flow6	flow7	flow8	flow9	flow10
											占用链路	l₁,l₂	l₁,l₃	l₁,l₄	l₁,l₅	l₂,l₃	l₂,l₄	l₂,l₅	l₃,l₄	l₃,l₅	l₄,l₅
需求带宽(G)	5	5	5	5	5	5	5	5	5	5
											分配带宽(G)	3	3	4	1	5	5	1	1	1	1

图5表示每次分配每条链路的带宽变化图。横坐标表示分配的次数，纵坐标表示为每条流分配带宽后每条链路的带宽占用情况。从图5可以看出，完成10条流的速率分配后，所有链路均没有产生拥塞。说明本发明方法可以有效实现拥塞控制。

图6表示流的速率分配图。图6显示其中有2条流分配了该链路需求的5G，有1条流按需分配了4G，有2条流按需分配了3G，其它5条流仅分配了1G。本应用例实现了尽可能满足每条流的带宽要求，同时又使数据中心网络不产生拥塞。

图7表示不同速率需求下不同算法的链路利用率对比图。图7对比了按需分配算法和Sarsa算法，所谓按需要分配是根据flow先后顺序，按需求分配速率，在网络负荷较重时，按需分配容易导致拥塞。而Sarsa则根据网络状态和flow的带宽需求统筹为每个flow分配速率，避免拥塞。图7显示了在流速率需求较低的网络状态下，两种算法都可以满足所有流的速率需求，链路的利用率大小相同。但是速率需求较大时，采用按需分配的方法会导致在为前面一部分flow分配速率后，如果继续按需分配，会导致网络拥塞，则后续的flow均无法分配速率，必须等待，此时链路的整体利用率就很低。而我们提出的基于Sarsa的拥塞控制方法则能全局为每个flow分配合适的速率，既避免拥塞，又能使整个网络保持较高的链路利用率，其性能明显优于按需分配算法。

图8表示不同链路初始状态下不同算法的链路利用率对比图。图8对比了按需分配算法和Sarsa算法，从图中可以看出，随着链路初始负载的增加，按需分配更容易发生拥塞，链路的利用率也低于本发明提出的基于Sarsa的在策略拥塞控制方法。同时，基于Sarsa的在策略拥塞控制方法能全局完成所有流的速率分配，有效避免拥塞，达到拥塞控制的目的。

以上结合具体实施例描述了本发明的拥塞控制方法。实施例表明本发明提出的一种基于Sarsa的SDN数据中心拥塞控制方法是有效的。该方法能对SDN数据中心网络进行基于流的拥塞控制，利用控制器对流进行全局的速率分配，从而既能避免拥塞，又能使带宽利用率尽可能高。

Claims

1.一种基于Sarsa的SDN数据中心拥塞控制方法，其特征在于，包含如下步骤：

步骤1：将Sarsa算法引入基于软件定义网络的数据中心；

2-1.按照先验知识，给定奖励矩阵R，并将Q矩阵初始化；

2.如权利要求1所述的基于Sarsa的SDN数据中心拥塞控制方法，其特征在于，步骤3中具体的拥塞控制方法包含如下步骤：

3.如权利要求1所述的一种基于Sarsa的SDN数据中心拥塞控制方法，其特征在于：改进Sarsa算法中选取action过程中，同时考虑学习速度和收敛性：以Sarsa算法解决SDN数据中心的拥塞控制问题，提高学习速度；同时以ε-greedy策略保证Sarsa算法的收敛性。

4.如权利要求1所述的一种基于Sarsa的SDN数据中心拥塞控制方法，其特征在于：所述的Sarsa算法，是增强学习中的一种在策略的时序差分算法；所述的增强学习，是一种通过感知环境状态信息来学习动态系统的最优策略，通过试错法不断与环境交互来改善自己的行为的学习方法；SDN的数据中心拥塞控制问题是指基于flow的拥塞控制问题，即对所有的flow统筹分配速率，既尽力满足flow的速率请求，又保证整个数据中心网络不产生拥塞。