CN107864102A - 一种基于Sarsa的SDN数据中心拥塞控制方法 - Google Patents

一种基于Sarsa的SDN数据中心拥塞控制方法 Download PDF

Info

Publication number
CN107864102A
CN107864102A CN201711173239.9A CN201711173239A CN107864102A CN 107864102 A CN107864102 A CN 107864102A CN 201711173239 A CN201711173239 A CN 201711173239A CN 107864102 A CN107864102 A CN 107864102A
Authority
CN
China
Prior art keywords
sarsa
flow
algorithms
action
data center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711173239.9A
Other languages
English (en)
Other versions
CN107864102B (zh
Inventor
金蓉
王伟明
李姣姣
庹鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201711173239.9A priority Critical patent/CN107864102B/zh
Publication of CN107864102A publication Critical patent/CN107864102A/zh
Application granted granted Critical
Publication of CN107864102B publication Critical patent/CN107864102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/25Flow control; Congestion control with rate being modified by the source upon detecting a change of network conditions

Abstract

本发明公开了一种基于Sarsa的SDN数据中心拥塞控制方法。本发明方法基于SDN的网络背景,提出一种基于流的拥塞控制思想,引入增强学习中的Sarsa算法,根据数据中心网络链路的负载变化,实时智能地全局分配流的速率,使整个网络避免拥塞的前提下,链路利用率尽可能高,从而实现整个数据中心的拥塞控制。本发明提出改进的Sarsa算法,对Q矩阵进行训练;再根据流的请求,利用训练得到的Q矩阵,进行速率分配,从而实现拥塞控制。本发明提供了一种控制效果较好,控制算法易实现,低时延以及能实时地自适应的SDN数据中心拥塞控制方法。本发明为SDN数据中心的拥塞控制问题提出了一种基于增强学习Sarsa算法的智能解决方法。

Description

一种基于Sarsa的SDN数据中心拥塞控制方法
技术领域
本发明涉及网络通信技术领域,具体涉及一种基于Sarsa的SDN(SoftwareDefined Network,软件定义网络)数据中心网络(Data Center Network,DCN)的拥塞控制方法。
背景技术
互联网经过几十年的飞速发展,已经成为当今社会生活和生产不可缺少的一部分,处于不同地理位置的人们可以利用计算机网络进行声音、图片、视频、文字的交流以及从万维网上获取大量的多媒体资源。如今Internet已经基本覆盖了全球所有的地区,我们利用Internet进行的各种行为都是在无数数据中心的支持下运转的,所以数据中心网络的建设和国家交通、能源等基础设施的建设一样非常重要。随着近几年云计算和大数据的飞速发展以及通信业务急剧增加,数据中心的流量呈井喷式增长,伴随着流量的激增,数据中心网络(Data Center Network,DCN)存在着越来越大的问题。
传统的网络架构方式中,数据中心网络一般采用树形分层结构,其中较为经典的就是由核心交换层、汇聚层、用户层或接入层等三层组成。随着通信流量的增加,核心交换层的带宽会出现很大压力,很容易造成拥塞,丢包,传输延迟高,吞吐量低等问题。此外,传统的路由协议BGP、OSPF、ECMP无法较好的适应新的拓扑结构,并且,数据中心网络的数据流具有高突发性的特点,传统路由协议中的路由算法不能较好的完成调度和转发,对于拥塞控制算法的设计十分困难,所以数据中心网络面临极高的拥塞风险。
增强学习方法最早可回溯于高等动物和人的在探索自然界中的心理反应,早期人类在探索自然环境中不是被动的等待,而是通过与环境不断的探索和尝试,类似于一种"尝试与失败"的机制,并根据自然的反馈的信息,然后慢慢改变自己的决策。在这个学习过程中,主要借助与环境的不断的交互,并根据当前获得的类似于一些奖赏性反馈信号,根据这些奖赏性的信号来改进当前的行为策略。近年来,随着强化学习的研究与发展,已经成为人工智能领域的一个热点问题,并和认知科学学习也理学理论、等有着密切的关系,是一种非常重要的机器学习方法。Sarsa算法是一种在策略的增强学习算法,在Sarsa算法中,选择动作时遵循的策略和更新动作值函数时遵循的策略是相同的。Sarsa算法的优点是直接了当,速度快。劣势是不一定找到最优策略,为此常在Sarsa算法中利用ε-greedy策略避免陷入局部最优。
本发明提出了一种基于Sarsa的SDN数据中心拥塞控制方法。本发明方法基于SDN的网络背景,提出基于流(flow)的拥塞控制思想,引入增强学习中的Sarsa算法,并根据数据中心网络链路的负载变化,实时智能地全局分配流的速率,使整个网络避免拥塞的前提下,使数据链路利用率尽可能高,从而实现整个数据中心的拥塞控制。本发明为SDN数据中心的拥塞控制问题提出了一种基于Sarsa的智能解决方法,该方法同时考虑学习速度和收敛性,提高网络的吞吐量、业务的性能及服务质量,从而促进数据中心节能化,实现绿色通信。
发明内容
本发明的目的是解决基于SDN架构的数据中心网络的拥塞控制问题,提出了一种基于Sarsa的SDN数据中心网络的拥塞控制方法。
本发明的目的是通过以下技术方案来实现的:一种基于Sarsa的SDN数据中心拥塞控制方法,该方法具体包括以下步骤:
步骤1:将Sarsa算法引入基于软件定义网络的数据中心;
所述的Sarsa算法,是增强学习中的一种在策略的时序差分算法;所述的增强学习,是一种通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断与环境交互来改善自己的行为的学习方法;SDN的数据中心拥塞控制问题是指基于flow的拥塞控制问题,即对所有的flow统筹分配速率,既尽力满足flow的速率请求,又保证整个数据中心网络不产生拥塞。
步骤2:基于改进的Sarsa算法,对Q矩阵进行训练;具体包含如下子步骤:
2-1.按照先验知识,给定奖励矩阵R,并将Q矩阵初始化;
2-2.改进Sarsa算法中选取action的方法,使算法结合当前状态以及当前flow所经过的链路两个条件,在R矩阵中选择最大奖励对应的action;同时,采取ε-greedy策略保证Sarsa学习算法的收敛性;
2-3.执行所选择的action,观察reward和新的链路状态,根据Q(S,a)←Q(S,a)+α[r+γQ(S',a')-Q(S,a)]迭代更新值函数Q(S,a);
其中S表示当前状态;a表示当前状态下选择的动作;S'和a'则分别表示后续的状态和动作;迭代更新值函数Q(S,a)表示当前状态s下执行动作a后的Q值,Q(S',a')表示下一状态S'下执行动作a'后的Q值,r是当前状态S下执行动作a后的奖励,γ为折扣因子,α为学习效率;
2-4.循环执行Q矩阵训练过程,直到s为最终状态,得到训练后的Q矩阵;
步骤3:根据具体的flow请求,结合上述步骤2得到的经过训练得到的Q矩阵和最终策略,对SDN数据中心网络进行拥塞控制。
所述步骤3中具体的拥塞控制方法包含如下步骤:
3-1.获取分配的flow条数N,以及这些flow占用的链路情况、流的速率需求;
3-2.获取当前所有链路的初始状态,即数据中心网络当前所有链路的带宽占用情况;
3-3.根据改进的Sarsa算法训练得到的Q矩阵,为当前flow选择当前Q矩阵中的最大Q值对应的动作执行,即为当前flow分配速率,然后更新当前的链路状态,同时记录当前流的flow与rate的映射;
3-4.判断N条flow是否全部分配完毕;如若没有,则需要返回到步骤3-3对下一条flow继续循环,直到为所有的flow分配速率;若分配完毕,则执行步骤3-5;
3-5.输出N条流的flow与rate的映射表,以此对数据中心进行全局的拥塞控制。
改进Sarsa算法中选取action过程中,同时考虑学习速度和收敛性。考虑尽量快的学习速度,引入一种在策略(on-policy)的增强学习算法——Sarsa算法解决SDN数据中心的拥塞控制问题;同时为避免Sarsa算法收敛到局部最优,引入ε-greedy策略保证Sarsa算法的收敛性。
本发明的有益效果是:本发明为SDN数据中心的拥塞控制问题提出了一种基于Sarsa的智能解决方法,根据数据中心网络链路的负载变化,动态地进行拥塞控制。在降低了网络时延的同时,还提高网络的吞吐量、业务的性能及服务质量,保证了互联网新兴业务与云计算的健康发展,促进了数据中心节能化,为进一步实现绿色通信做贡献。
附图说明
图1为算法模型的学习交互模型图。
图2为实施例采用的数据中心网络拓扑图。
图3为训练算法流程图。
图4为拥塞控制方法流程图。
图5为实施例中各链路的带宽变化图。
图6为实施例中流的速率分配图。
图7表示不同速率需求下不同算法的链路利用率对比图。
图8表示不同链路初始状态下不同算法的链路利用率对比图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
本发明提供了一种基于Sarsa的SDN数据中心拥塞控制方法,该方法包括如下步骤:
步骤1:将Sarsa算法引入基于软件定义网络的数据中心。
所述的Sarsa算法,是增强学习中的一种在策略(on-policy)的时序差分算法。所述的增强学习,是一种通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断与环境交互来改善自己的行为的学习方法。基于SDN的数据中心拥塞控制问题是指基于flow的拥塞控制问题,即对所有的flow统筹分配速率,既尽力满足flow的速率请求,又保证整个数据中心网络不产生拥塞。
步骤2:基于改进的Sarsa算法,对Q矩阵进行训练。
具体包含如下步骤:
2-1.按照先验知识,给定奖励矩阵R。并将Q矩阵初始化。
2-2.改进Sarsa算法中选取action的方法。算法结合当前状态,以及当前flow所经过的链路两个条件,在R矩阵中选择最大奖励对应的action。同时,采取ε-greedy策略保证Sarsa学习算法的收敛性。
2-3.执行上述选择的action,观察reward和新的链路状态,根据Q(S,a)←Q(S,a)+α[r+γQ(S',a')-Q(S,a)]迭代更新值函数Q(S,a)。
其中S表示当前状态;a表示当前状态下选择的动作;S'和a'则分别表示后续的状态和动作。迭代更新值函数Q(S,a)表示当前状态s下执行动作a后的Q值,Q(S',a')表示下一状态S'下执行动作a'后的Q值,r是当前状态S下执行动作a后的奖励,γ为折扣因子,α为学习效率。
2-4.如此循环该迭代过程,直到s为最终状态。得到训练后的Q矩阵。
步骤3:根据具体的flow请求,结合上述步骤2得到的经过训练得到的Q矩阵和最终策略,对SDN数据中心网络进行拥塞控制。
步骤3中具体的拥塞控制方法包含如下步骤:
3-1.获取分配的N条flow信息,包括这些流占用的链路情况,流的速率需求;
3-2.获取当前所有链路的初始状态。即数据中心网络当前所有链路的带宽占用情况。
3-3.根据改进的Sarsa算法训练得到的Q矩阵,为当前flow选择当前Q矩阵中的最大Q值对应的动作执行,即为当前flow分配速率,然后更新当前的链路状态,同时记录当前流的flow与rate的映射。
3-4.判断N条flow是否全部分配完毕;如若没有,则需要返回到步骤3-3对下一条flow继续循环,直到为所有的flow分配速率;若分配完毕,则执行步骤3-5;
3-5.输出N条流的flow与rate的映射表,以此对数据中心进行全局的拥塞控制。
为了便于本领域一般技术人员理解和实现本发明,现结合附图进一步说明本发明的技术方案,给出一个本发明所述方法的具体实施例。
实施例
本实施例将Sarsa算法引入基于软件定义网络的数据中心,实时地解决拥塞控制问题。图1为算法模型的学习交互模型图,各模块的基本功能为:(1)Agent智能体模块,它可以是控制器,用来控制源端的发送速率;(2)网络环境模块,就是采集当前网络所有链路的链路带宽占用情况;(3)更新模块,利用网络环境变化得到的反馈值r和Sarsa算法实时地更新策略;(4)行为选择映射模块,在学习过程中不断更新流与其分配速率的映射表。本实施例的学习模块采用改进的Sarsa算法,根据R矩阵选取动作时,基本的Sarsa算法选择当前状态对应行所有列的reward中最大的action执行。改进的Sarsa算法结合当前状态,以及当前flow所经过的链路两个条件,在对应链路相关的reward中选取最大的reward,从而选择对应的action。学习模块训练得到的Q矩阵将提供给决策模块。决策模块根据Q矩阵,为每个flow分配速率,实现拥塞控制。
图2为实施例采用的SDN数据中心网络拓扑图。整个网络有5条链路,链路带宽均为8G。本是实施例采用的flow队列长度为10。
本实施例具体的拥塞控制方法包含如下步骤:
步骤1:将Sarsa算法引入基于软件定义网络的数据中心。
如图1所示基于Sarsa的拥塞控制系统的算法模型的学习交互模型图中,整个过程主要包括以下几个部分:网络环境就是当前网络所有链路的链路带宽占用情况,控制器可以控制网络节点源端发送流的速率,也就是为每条流分配速率,当网络环境会变化时,得到一个反馈值r,流与其分配速率的映射表也会在学习的过程中不断更新,最后算法会收敛,会得到一个较优的映射表,再通过Agent智能体控制源端的发送速率,从而实现整个数据中心的拥塞控制。
步骤2:基于改进的Sarsa算法,对Q矩阵进行训练。
将Sarsa算法应用于SDN数据中心网络基于流的拥塞控制问题,结合考虑SDN数据中心网络的特征和基于流的拥塞控制方法的特征,改进传统的Sarsa算法,提出一种改进的Sarsa算法,对Q矩阵进行训练。传统的Sarsa算法根据R矩阵选取动作时,基本的Sarsa算法选择当前状态对应行所有列的reward中最大的action执行。改进的Sarsa算法结合当前状态,以及当前flow所经过的链路两个条件,在对应链路相关的reward中选取最大的reward,从而选择对应的action。
改进的算法描述如下:
图2是本测试应用例的网络拓扑结构图。图中的所示为每条链路的带宽为40G的情况下,有10条流,分别经过L1-L2,L1-L3,L1-L4,L1-L5,L2-L3,L2-L4,L2-L5,L3-L4,L3-L5,L4-L5,带宽需求都是5G。在尽量满足所有流的速率需求的前提下,使用基于Sarsa的在策略拥塞控制方法为每条流分配速率,并且保证网络不发生拥塞。
图3是Sarsa训练流程图。具体包含如下步骤:
2-1.按照先验知识,给定奖励矩阵R。并将Q矩阵初始化。5条链路的初始负载为[18,20,18,14,29]。
本实施例中奖励的设定采用单峰函数min(i/7,100*(35-i)),单峰函数分为两段函数,其中i表示链路的带宽占用大小,当所有链路的带宽占用i小于35G时,奖励值会在第一段函数i/7中求得,执行分配动作后,链路的利用率越高,奖励值越高;当有链路带宽占用超过35G时,奖励值为负,此时判断链路出现拥塞情况。
2-2.改进Sarsa算法中选取action的方法。算法结合当前状态,以及当前flow所经过的链路两个条件,在R矩阵中选择最大奖励对应的action。同时,采取ε-greedy策略保证Sarsa学习算法的收敛性。
在本测试应用例中,我们选取的动作集为A={1G,2G,3G,4G,5G},也就是说为每条流分配的速率会从这五个速率中选择一种去执行。
2-3.执行action,观察reward和新的链路状态,根据Q(S,a)←Q(S,a)+α[r+γQ(S',a')-Q(S,a)]迭代更新值函数Q(S,a)。
其中S表示当前状态;a表示当前状态下选择的动作;r选择动作a后获得的奖励;S'和a'则分别表示后续的状态和动作。迭代更新值函数Q(S,a)表示当前状态s下执行动作a后的Q值,Q(S',a')表示下一状态S'下执行动作a'后的Q值,r是当前状态S下执行动作a后的奖励,γ为折扣因子,α为学习效率。
为了使算法的收敛速度更快,本实施例中采用贪婪算法,初始的ε的值设为0.99,最终的ε的值为0.01。在本测试应用例中就是会以99%的概率从动作集A中的5种分配速率中随机选取一个速率去分配,以1%的概率选择求得的最优的分配速率去执行,在训练的过程中,ε的值会不断减小,最终ε的值会减小到0.01,这样控制器会以99%的概率为每条流分配求得的最优分配速率,以1%的概率为每条流分配从动作集A中随机选取的分配速率。
2-4.如此循环,直到s为最终状态。得到训练后的Q矩阵。
步骤3:根据具体的flow请求,结合上述步骤2得到的经过训练得到的Q矩阵和最终策略,对SDN数据中心网络进行拥塞控制。
Sarsa算法是一种在策略算法,本发明选择动作时遵循的策略和更新动作值函数时遵循的策略是相同的(即e-greedy策略)。算法最终可以得到所有状态-动作对的Q函数,并根据Q函数输出最优策略(e-greedy中参数最优)。
具体的拥塞控制方法流程图如图4所示,具体包含如下步骤:
3-1.获取分配的10条flow。包括这些流占用的链路情况,流的速率需求;
3-2.获取当前所有链路的初始状态。即数据中心网络当前所有链路的带宽占用情况。待分配的flow请求为10条,5条链路的初始负载为[18,20,18,14,29],具体需要占用的链路和带宽需求如下:
flow1 flow2 flow3 flow4 flow5 flow6 flow7 flow8 flow9 flow10
占用链路 l1,l2 l1,l3 l1,l4 l1,l5 l2,l3 l2,l4 l2,l5 l3,l4 l3,l5 l4,l5
需求带宽(G) 5 5 5 5 5 5 5 5 5 5
3-3.根据改进的Sarsa算法训练得到Q矩阵,为当前flow选择当前Q矩阵中的最大Q值对应的动作执行,即为当前flow分配速率,然后更新当前的链路状态,同时记录当前流的flow与rate的映射。
3-4.判断10条flow是否全部分配完毕;如若没有,则需要返回到步骤3-3继续循环,直到为所有的flow分配速率;若分配完毕,则执行步骤3-5;
3-5.输出10条流的flow与rate的映射表,以此对数据中心进行全局的拥塞控制。
flow1 flow2 flow3 flow4 flow5 flow6 flow7 flow8 flow9 flow10
占用链路 l1,l2 l1,l3 l1,l4 l1,l5 l2,l3 l2,l4 l2,l5 l3,l4 l3,l5 l4,l5
需求带宽(G) 5 5 5 5 5 5 5 5 5 5
分配带宽(G) 3 3 4 1 5 5 1 1 1 1
图5表示每次分配每条链路的带宽变化图。横坐标表示分配的次数,纵坐标表示为每条流分配带宽后每条链路的带宽占用情况。从图5可以看出,完成10条流的速率分配后,所有链路均没有产生拥塞。说明本发明方法可以有效实现拥塞控制。
图6表示流的速率分配图。图6显示其中有2条流分配了该链路需求的5G,有1条流按需分配了4G,有2条流按需分配了3G,其它5条流仅分配了1G。本应用例实现了尽可能满足每条流的带宽要求,同时又使数据中心网络不产生拥塞。
图7表示不同速率需求下不同算法的链路利用率对比图。图7对比了按需分配算法和Sarsa算法,所谓按需要分配是根据flow先后顺序,按需求分配速率,在网络负荷较重时,按需分配容易导致拥塞。而Sarsa则根据网络状态和flow的带宽需求统筹为每个flow分配速率,避免拥塞。图7显示了在流速率需求较低的网络状态下,两种算法都可以满足所有流的速率需求,链路的利用率大小相同。但是速率需求较大时,采用按需分配的方法会导致在为前面一部分flow分配速率后,如果继续按需分配,会导致网络拥塞,则后续的flow均无法分配速率,必须等待,此时链路的整体利用率就很低。而我们提出的基于Sarsa的拥塞控制方法则能全局为每个flow分配合适的速率,既避免拥塞,又能使整个网络保持较高的链路利用率,其性能明显优于按需分配算法。
图8表示不同链路初始状态下不同算法的链路利用率对比图。图8对比了按需分配算法和Sarsa算法,从图中可以看出,随着链路初始负载的增加,按需分配更容易发生拥塞,链路的利用率也低于本发明提出的基于Sarsa的在策略拥塞控制方法。同时,基于Sarsa的在策略拥塞控制方法能全局完成所有流的速率分配,有效避免拥塞,达到拥塞控制的目的。
以上结合具体实施例描述了本发明的拥塞控制方法。实施例表明本发明提出的一种基于Sarsa的SDN数据中心拥塞控制方法是有效的。该方法能对SDN数据中心网络进行基于流的拥塞控制,利用控制器对流进行全局的速率分配,从而既能避免拥塞,又能使带宽利用率尽可能高。

Claims (4)

1.一种基于Sarsa的SDN数据中心拥塞控制方法,其特征在于,包含如下步骤:
步骤1:将Sarsa算法引入基于软件定义网络的数据中心;
步骤2:基于改进的Sarsa算法,对Q矩阵进行训练;具体包含如下子步骤:
2-1.按照先验知识,给定奖励矩阵R,并将Q矩阵初始化;
2-2.改进Sarsa算法中选取action的方法,使算法结合当前状态以及当前flow所经过的链路两个条件,在R矩阵中选择最大奖励对应的action;同时,采取ε-greedy策略保证Sarsa学习算法的收敛性;
2-3.执行所选择的action,观察reward和新的链路状态,根据Q(S,a)←Q(S,a)+α[r+γQ(S',a')-Q(S,a)]迭代更新值函数Q(S,a);
其中S表示当前状态;a表示当前状态下选择的动作;S'和a'则分别表示后续的状态和动作;迭代更新值函数Q(S,a)表示当前状态s下执行动作a后的Q值,Q(S',a')表示下一状态S'下执行动作a'后的Q值,r是当前状态S下执行动作a后的奖励,γ为折扣因子,α为学习效率;
2-4.循环执行Q矩阵训练过程,直到s为最终状态,得到训练后的Q矩阵;
步骤3:根据具体的flow请求,结合上述步骤2得到的经过训练得到的Q矩阵和最终策略,对SDN数据中心网络进行拥塞控制。
2.如权利要求1所述的基于Sarsa的SDN数据中心拥塞控制方法,其特征在于,步骤3中具体的拥塞控制方法包含如下步骤:
3-1.获取分配的flow条数N,以及这些flow占用的链路情况、流的速率需求;
3-2.获取当前所有链路的初始状态,即数据中心网络当前所有链路的带宽占用情况;
3-3.根据改进的Sarsa算法训练得到的Q矩阵,为当前flow选择当前Q矩阵中的最大Q值对应的动作执行,即为当前flow分配速率,然后更新当前的链路状态,同时记录当前流的flow与rate的映射;
3-4.判断N条flow是否全部分配完毕;如若没有,则需要返回到步骤3-3对下一条flow继续循环,直到为所有的flow分配速率;若分配完毕,则执行步骤3-5;
3-5.输出N条流的flow与rate的映射表,以此对数据中心进行全局的拥塞控制。
3.如权利要求1所述的一种基于Sarsa的SDN数据中心拥塞控制方法,其特征在于:改进Sarsa算法中选取action过程中,同时考虑学习速度和收敛性:以Sarsa算法解决SDN数据中心的拥塞控制问题,提高学习速度;同时以ε-greedy策略保证Sarsa算法的收敛性。
4.如权利要求1所述的一种基于Sarsa的SDN数据中心拥塞控制方法,其特征在于:所述的Sarsa算法,是增强学习中的一种在策略的时序差分算法;所述的增强学习,是一种通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断与环境交互来改善自己的行为的学习方法;SDN的数据中心拥塞控制问题是指基于flow的拥塞控制问题,即对所有的flow统筹分配速率,既尽力满足flow的速率请求,又保证整个数据中心网络不产生拥塞。
CN201711173239.9A 2017-11-22 2017-11-22 一种基于Sarsa的SDN数据中心拥塞控制方法 Active CN107864102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711173239.9A CN107864102B (zh) 2017-11-22 2017-11-22 一种基于Sarsa的SDN数据中心拥塞控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711173239.9A CN107864102B (zh) 2017-11-22 2017-11-22 一种基于Sarsa的SDN数据中心拥塞控制方法

Publications (2)

Publication Number Publication Date
CN107864102A true CN107864102A (zh) 2018-03-30
CN107864102B CN107864102B (zh) 2020-09-04

Family

ID=61703302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711173239.9A Active CN107864102B (zh) 2017-11-22 2017-11-22 一种基于Sarsa的SDN数据中心拥塞控制方法

Country Status (1)

Country Link
CN (1) CN107864102B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108881048A (zh) * 2018-08-23 2018-11-23 北京理工大学 一种基于强化学习的命名数据网络拥塞控制方法
CN109768940A (zh) * 2018-12-12 2019-05-17 北京邮电大学 多业务sdn网络的流量分配方法及装置
CN110581808A (zh) * 2019-08-22 2019-12-17 武汉大学 一种基于深度强化学习的拥塞控制方法及系统
CN113890854A (zh) * 2021-09-29 2022-01-04 四川大学 一种基于深度增强学习的数据中心网络传输方法
CN113992595A (zh) * 2021-11-15 2022-01-28 浙江工商大学 一种基于优先经验回放dqn的sdn数据中心拥塞控制方法
CN115643209A (zh) * 2022-10-24 2023-01-24 西安电子科技大学 基于带宽匹配的sddcn节能路由方法、系统、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104506435A (zh) * 2014-12-12 2015-04-08 杭州华为数字技术有限公司 Sdn控制器和sdn中的最短路径确定方法
CN104780113A (zh) * 2015-04-29 2015-07-15 北京智芯原动科技有限公司 一种适用于大数据分发的Q-learning拥塞控制方法
CN106411770A (zh) * 2016-09-08 2017-02-15 重庆邮电大学 一种基于sdn架构的数据中心网络节能路由算法
CN106411749A (zh) * 2016-10-12 2017-02-15 国网江苏省电力公司苏州供电公司 一种基于q学习的用于软件定义网络的路径选择方法
CN107171842A (zh) * 2017-05-22 2017-09-15 南京大学 基于强化学习的多路径传输协议拥塞控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104506435A (zh) * 2014-12-12 2015-04-08 杭州华为数字技术有限公司 Sdn控制器和sdn中的最短路径确定方法
CN104780113A (zh) * 2015-04-29 2015-07-15 北京智芯原动科技有限公司 一种适用于大数据分发的Q-learning拥塞控制方法
CN106411770A (zh) * 2016-09-08 2017-02-15 重庆邮电大学 一种基于sdn架构的数据中心网络节能路由算法
CN106411749A (zh) * 2016-10-12 2017-02-15 国网江苏省电力公司苏州供电公司 一种基于q学习的用于软件定义网络的路径选择方法
CN107171842A (zh) * 2017-05-22 2017-09-15 南京大学 基于强化学习的多路径传输协议拥塞控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARCO CORAZZA 等: "Q-Learning and SARSA: a comparison between two intelligent stochastic control approaches for financial trading", 《DEPARTMENT OF ECONOMICS WORKING PAPERS》 *
李鑫: "基于强化学习理论的网络拥塞控制算法研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108881048A (zh) * 2018-08-23 2018-11-23 北京理工大学 一种基于强化学习的命名数据网络拥塞控制方法
CN108881048B (zh) * 2018-08-23 2019-06-14 北京理工大学 一种基于强化学习的命名数据网络拥塞控制方法
CN109768940A (zh) * 2018-12-12 2019-05-17 北京邮电大学 多业务sdn网络的流量分配方法及装置
CN109768940B (zh) * 2018-12-12 2020-12-29 北京邮电大学 多业务sdn网络的流量分配方法及装置
CN110581808A (zh) * 2019-08-22 2019-12-17 武汉大学 一种基于深度强化学习的拥塞控制方法及系统
CN110581808B (zh) * 2019-08-22 2021-06-15 武汉大学 一种基于深度强化学习的拥塞控制方法及系统
CN113890854A (zh) * 2021-09-29 2022-01-04 四川大学 一种基于深度增强学习的数据中心网络传输方法
CN113992595A (zh) * 2021-11-15 2022-01-28 浙江工商大学 一种基于优先经验回放dqn的sdn数据中心拥塞控制方法
CN113992595B (zh) * 2021-11-15 2023-06-09 浙江工商大学 一种基于优先经验回放dqn的sdn数据中心拥塞控制方法
CN115643209A (zh) * 2022-10-24 2023-01-24 西安电子科技大学 基于带宽匹配的sddcn节能路由方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN107864102B (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN107864102A (zh) 一种基于Sarsa的SDN数据中心拥塞控制方法
CN110187973B (zh) 一种面向边缘计算的服务部署优化方法
Guo et al. Efficient and flexible management for industrial internet of things: A federated learning approach
Chien et al. Q-learning based collaborative cache allocation in mobile edge computing
CN112737837B (zh) 一种高动态网络拓扑下无人机群带宽资源分配方法
CN110198278B (zh) 一种车联网云端和边缘联合任务调度的Lyapunov优化方法
CN103139265B (zh) 大规模并行计算系统中的网络传输自适应优化方法及系统
CN107948083A (zh) 一种基于增强学习的sdn数据中心拥塞控制方法
CN106789648A (zh) 基于内容存储与网络状况的软件定义网络路由决策方法
CN112929223B (zh) 一种基于联邦学习方式训练神经网络模型的方法及系统
CN110659745A (zh) 一种具有动态学习速率边界的分布式自适应矩估计方法
CN107105043A (zh) 一种基于软件定义网络的内容中心网络缓存方法
CN111221646A (zh) 分布式机器学习的参数同步方法及装置
Gu et al. Collaborative offloading method for digital twin empowered cloud edge computing on Internet of Vehicles
CN113676407A (zh) 一种通信网的深度学习驱动的流量优化机制
CN115174404A (zh) 一种基于sdn组网的多设备联邦学习系统
Gao et al. Edge intelligence empowered cross-modal streaming transmission
CN111092779B (zh) 网络资源配置方法、装置、计算机设备及可读存储介质
CN103036982B (zh) 一种基于博弈论的网络控制系统调度方法
CN106850427A (zh) 面向网络编码使能的弹性光组播网络的路由频谱分配方法
CN113992595B (zh) 一种基于优先经验回放dqn的sdn数据中心拥塞控制方法
CN109474464A (zh) 一种基于OpenNF机制的快速网络更新方法
Kotachi et al. Fault-tolerant controller placement model by distributing switch load among multiple controllers in software-defined network
CN116634388B (zh) 面向电力融合网络大数据边缘缓存与资源调度方法及系统
Cong et al. A deep reinforcement learning-based routing scheme with two modes for dynamic networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant