CN102571570A - 一种基于强化学习的网络流量负载均衡控制方法 - Google Patents

一种基于强化学习的网络流量负载均衡控制方法 Download PDF

Info

Publication number
CN102571570A
CN102571570A CN2011104475148A CN201110447514A CN102571570A CN 102571570 A CN102571570 A CN 102571570A CN 2011104475148 A CN2011104475148 A CN 2011104475148A CN 201110447514 A CN201110447514 A CN 201110447514A CN 102571570 A CN102571570 A CN 102571570A
Authority
CN
China
Prior art keywords
packet
data packet
link
action
control method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011104475148A
Other languages
English (en)
Inventor
胡朝辉
梁智强
梁志宏
周强峰
江泽鑫
石炜君
梁毅成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of Guangdong Power Grid Co Ltd
Original Assignee
Electric Power Research Institute of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of Guangdong Power Grid Co Ltd filed Critical Electric Power Research Institute of Guangdong Power Grid Co Ltd
Priority to CN2011104475148A priority Critical patent/CN102571570A/zh
Publication of CN102571570A publication Critical patent/CN102571570A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于强化学习的网络流量负载均衡控制方法,包括以下步骤:1)数据包处在路由器节点R*时,根据当前数据包的状态量s和策略π从下一跳的动作集合选择回报值最大的动作ai;2)当前数据包被路由以后,根据该数据包的实际情况修改该数据包的状态量s;并更新当前数据包的下一跳的动作集合;3)根据当前网络流量均衡状态修改当前数据包的奖惩值r;4)根据奖惩值更新策略π;重复步骤1)到步骤4),直到当前数据包达到最终目的地址。该方法通过智能体与网络环境不断的交互学习,实现网络流量负载均衡的最优或近似最优控制。

Description

一种基于强化学习的网络流量负载均衡控制方法
技术领域
本发明涉及一种网络流量负载均衡技术领域,具体是指提供一种基于强化学习的智能网络流量负载均衡控制方法。
背景技术
随着网络的快速发展,各种网络应用层出不穷,与此对应的网络上的流量也日益增多。根据权威调查,网络服务质量(Qos:Quality of Service)特别是网络的反应时间是影响用户体验的主要因素,因此对网络进行合理的设计、保证网络的服务质量是每位网络工程师需要考虑的问题。保证网络的服务质量有多种解决途径,本发明提出一种基于强化学习的网络流量负载均衡算法,数据包通过强化学习算法,能根据链路的网络流量状况选择合适的转发路径,避开业务繁忙的链路,实现网络的负载均衡。
传统的路由算法有RIP、OSPF和EIGRP等算法。RIP算法为距离矢量路由协议,它使用路由跳数来衡量网络距离,是最常用的内部网关协议之一。RIP算法过于简单、安全性差且带宽消耗大,所以不适合大型网络;OSPF算法为链路状态路由协议,相对于RIP算法,具有收敛快、协议开销小、安全性高和适应广等优点,但其配置复杂,路由负载均衡能力较弱;EIGRP算法为增强网关内部路由协议,拥有众多的优点,但其属于Cisco公司的私有协议。Cisco公司是该协议的发明者和唯一具备该协议解释和修改权的厂商,如果设备要支持EIGRP协议则需向Cisco公司购买相应版权。
发明内容
本发明的目的在于提供一种基于强化学习的网络流量负载均衡控制方法,该方法通过数据包(Agent)与网络环境不断的交互学习,实现网络流量负载均衡的最优或近似最优控制。数据包动态地根据链路的流量状况,避免将数据包发往负荷重的链路,尽量选择负载轻的链路,实现数据包的智能转发,最终达到网络流量负载均衡的目的。
本发明的目的可通过以下的技术措施来实现:
一种基于强化学习的网络流量负载均衡控制方法,包括以下步骤:
1)、数据包处在路由器节点R*时,根据当前数据包的状态量s和策略π从下一跳的动作集合选择回报值最大的动作ai,并将数据包发送到动作ai对应的路由器;
2)、当前数据包被路由以后,根据该数据包的实际情况修改该数据包的状态量s;并更新当前数据包的下一跳的动作集合;所述状态量s包括路由距离xi和流量均衡量yi;所述路由距离xi是指:选择链路i后,下一跳地址距离目的地址的最短矢量距离;流量均衡量yi是指:链路i上的当前流量占链路饱和流量的比例;
3)、根据数据包的路由距离、流量均衡量给与数据包的奖惩值r;
4)、数据包根据奖惩值r更新自身的策略π;
5)、回到步骤1),重复步骤1)到步骤4),直到当前数据包达到最终目的地址。
所述步骤1)中的策略π为近贪婪(epsilon greedy)策略或百分比(softmax)策略。
所述近贪婪策略是指:以1-ε的概率选择最大回报值的链路arg maxaQπ(s,a),以ε的概率随机选择链路,公式为:
Figure BDA0000125358490000021
其中,a代表的是动作,Qπ(s,a)代表在数据包在状态s下,根据策略π,选择动作a的回报值。
百分比策略是指:将各链路的好坏映射成相应的跳转动作选择概率,公式为:
P a = e Q ( s , a ) / τ Σ b = 1 n e Q ( s , b ) / τ
其中pa代表选择动作a的概率,τ代表随机温度(数值自己定义)。
从上式可以看出,链路被使用得越合理(即,回报值Q(s,a)值越大)时,其被选中的概率越大。
所述步骤3)中奖惩值r计算公式为:
r = k 1 ( x i - x j ) + k 2 ( σ i - σ j ) σ i = Σ n = 1 m ( y n - y ‾ ) 2 y ‾ = Σ n = 1 m y n / m
式中,是指所有链路中流量均衡量的均值,σi是指流量均衡量的方差,k1和k2是系数。
所述步骤4)中更新策略π的公式为:
Q π ( s , a ) = Q π ( s , a ) + α [ r + γ max a ′ Q π ( s ′ , a ′ ) - Q ( s , a ) ]
其中Qπ(s,a)代表在状态量s下,根据策略π,选择动作a的回报值,0≤α≤1为迭代步长参数,0≤γ≤1为折扣系数。
本发明对比现有技术,有如下优点:
1、在现在互联网上的网络设备越来越多现状下,本方法能够保证大部分链路的负载均衡,对于某些重要的网络应用系统,为了保证网络的可靠性。
2、本方法实现数据包的智能转发,通过和网络环境进行交互,最终获得网络流量最优或近似最优的负载均衡控制。
附图说明
图1是本发明方法的强化学习逻辑实现图;
图2是本发明方法中数据包的状态量s的逻辑示意图;
图3是本发明方法中数据包的状态转移过程示意图;
图4是本发明方法的数据包学习过程示意图。
具体实施方式
图4示出了本发明基于强化学习的网络流量负载均衡控制方法的数据包学习过程的流程图。
基于强化学习的网络流量负载均衡算法框架如图1所示。大致过程为:数据包首先采用动作at,并作用与环境;由于数据包采取了动作,其状态肯定发生改变,即由st到st+1,(该状态的改变,可以认为是环境感知到这一变化,状态发生改变);环境对数据包的动作进行反馈,给出奖惩(图中rt+1);数据包收到奖惩,就会对自己的行为进行反思,并更新自己的策略(这点图中未画出);回到第一步,就是图中的虚线表示。具体来说,数据包(Agent)的学习过程主要分为如下的五步:
1)、时刻t,数据包(Agent,或者称为智能体)根据其当前的状态量st,同时根据相应的策略π,选择回报值最大的动作at,即路由选择,并作用于环境。
强化学习的网络流量负载均衡算法,其数据包的路由将基于如下规则:
a、数据包路由方向需要大致指向目的地址;
b、数据包路由需考虑网络链路的负载情况,避免繁忙链路,实现负载均衡。
即数据包在选择下一跳路由地址时,首先路由的方向要尽量朝向目的地址,其次需要考虑到网络的流量,尽量达到负载均衡;其次数据包的路由不能只考虑网络的流量的均衡,否则将有可能出现数据包送达不到目的地址的情况。
基于如上原则,数据包(Agent)的状态可以定义为“路由距离xi”和“流量均衡量yi”的组合(xi,yi)。其中路由距离xi是指:选择链路i后,下一跳地址距离目的地址的最短矢量距离;流量均衡量yi是指:链路i上的当前流量占链路饱和流量的比例(考虑到网络分为核心层、汇聚层和接入层及各层次的网络带宽的不同,本发明采用比例值作为数据包(Agent)的状态之一),如图2所示。
策略π可采用近贪婪(epsilon greedy)策略或百分比(softmax)策略。其中epsilon greedy策略出自作者R.S.Sutton和A.G.Barto于1998年著的《Reinforcement Learning:An Introduction》;softmax策略出自作者R.S.Sutton,A.G.Barto于1998年著的《Reinforcement Learning:An Introduction》。
近贪婪策略是指:以1-ε的概率选择最大回报值的链路arg maxaQπ(s,a),以ε的概率随机选择链路,公式为:
Figure BDA0000125358490000051
其中,a代表的是动作,Qπ(s,a)代表在数据包在状态s下,根据策略π,选择动作a的回报值。
百分比策略是指:将各链路的好坏映射成相应的跳转动作选择概率,公式为:
P a = e Q ( s , a ) / τ Σ b = 1 n e Q ( s , b ) / τ .
其中pa代表选择动作a的概率,τ代表随机温度(数值自己定义),Q(s,a)代表在数据包在状态s下,根据当前策略,选择动作a的回报值。
从上式可以看出,链路被使用得越合理(即,回报值Q(s,a)值越大)时,其被选中的概率越大。
2)、由于数据包(Agent)采取的跳转动作,数据包的状态量发生了变化st →st+1,即数据包从某路由器达到下一路由器。
当状态集合选定以后,动作集合的选择相对简单,即为链路的选择,如图2所示,数据包的跳转动作集合为{链路a1,链路a2,…链路am},若数据包选择路由器2作为下一条路由地址,那么链路2当前选定的动作。
在一般情况下,由于实际系统的马尔可夫性,强化学习的状态转移过程如图3所示,数据包(Agent)在采取动作a以后,可能导致多种后续状态:数据包(Agent)在状态s采取动作a以后,可能达到s1′或者s2′。
在本发明当中,由于网络流量确定性,当数据包选择确定的路径时,数据包(Agent)将从状态(xi,yi)转移到确定的状态(xj,yj),因此其状态转移矩阵是确定的。
3)、环境对数据包(Agent)的动作做评价(奖惩rt+1),并将其反馈给数据包(Agent),即整体网络根据网络负载均衡状态及数据包的路由方向对数据包(Agent)刚才的动作进行评价,并给与奖惩值。
在实际的应用当中,奖惩集合的选择至关重要,其奖惩的集合必须体现出用户的意图,否则实际的效果将会与用户的意图相悖。在本发明当中,数据包(Agent)的奖惩规则如下:
i)、路由的选择使得数据包离目的地址更近将得到奖励,否则将得到惩罚;
ii)、路由的选择使得网络的流量更加均衡将得到奖励,否则将得到惩罚;
iii)、其他路由选择的奖惩将视情况而定。
奖惩值r计算公式为:
r = k 1 ( x i - x j ) + k 2 ( σ i - σ j ) σ i = Σ n = 1 m ( y n - y ‾ ) 2 y ‾ = Σ n = 1 m y n / m
式中,
Figure BDA0000125358490000062
是指所有链路中流量均衡量的均值,σi是指流量均衡量的方差,k1和k2是系数。
4)、数据包(Agent)接受环境的奖惩,并根据该奖惩更新自己的知识库(Q表),及根据奖惩学习经验,为自己的下一步决策做准备,即数据包根据环境的奖惩调整自身的策略π,以便于下次动作的选择。
更新策略π的公式为:
Q π ( s , a ) = Q π ( s , a ) + α [ r + γ max a ′ Q π ( s ′ , a ′ ) - Q ( s , a ) ]
其中Qπ(s,a)代表在状态量s下,根据策略π,选择动作a的回报值,0≤α≤1为迭代步长参数,0≤γ≤1为折扣系数。
5)、回到第一步,数据包(Agent)继续做出决策,直到其达到最终状态(实现目标),即数据包继续路由,直到达到目的地址。
如上步骤的不断循环就构成了数据包(Agent)的训练过程,当数据包(Agent)的知识库收敛时,数据包(Agent)将学习到完成任务的最优策略π*,在本发明中,数据包(Agent)将学习到实现负载均衡的最优或者近似最优控制。
强化学习是一种机器学习算法,具有无监督的自适应能力,它在人工智能、机器学习中有广泛的应用。强化学习在应用上有4大要素:数据包(Agent)的状态集合S,数据包(Agent)的动作集合A,状态转移矩阵(数据包在s状态下采取当作a后,可能得到的下一状态s’)和环境奖惩集合R。强化学习通过数据包(Agent)和环境的不断交互,最终学习到最优策略。
基于强化学习的网络流量负载均衡算法,通过在网络拓扑中引入智能体Agent的概念,根据网络链路的负载流量,不断地和网络环境进行交互,实现网络流量负载均衡的最优或近似最优控制,较好的解决了网络流量负载均衡的问题。
本发明的实施方式不限于此,在本发明上述基本技术思想前提下,按照本领域的普通技术知识和惯用手段对本发明内容所做出其它多种形式的修改、替换或变更,均落在本发明权利保护范围之内。

Claims (6)

1.一种基于强化学习的网络流量负载均衡控制方法,其特征在于包括以下步骤:
1)、数据包处在路由器节点R*时,根据当前数据包的状态量s和策略π从下一跳的动作集合选择回报值最大的动作ai,并将数据包发送到动作ai对应的路由器;
2)、当前数据包被路由以后,根据该数据包的实际情况修改该数据包的状态量s;并更新当前数据包的下一跳的动作集合;所述状态量s包括路由距离xi和流量均衡量yi;所述路由距离xi是指:选择链路i后,下一跳地址距离目的地址的最短矢量距离;流量均衡量yi是指:链路i上的当前流量占链路饱和流量的比例;
3)、根据数据包的路由距离、流量均衡量给与数据包的奖惩值r;
4)、数据包根据奖惩值r更新自身的策略π;
5)、回到步骤1),重复步骤1)到步骤4),直到当前数据包达到最终目的地址。
2.根据权利要求2所述的基于强化学习的网络流量负载均衡控制方法,其特征在于:所述步骤1)中的策略π为近贪婪策略或百分比策略。
3.根据权利要求2所述的基于强化学习的网络流量负载均衡控制方法,其特征在于:所述近贪婪策略是指:以1-ε的概率选择最大回报值的链路arg maxaQπ(s,a),以ε的概率随机选择链路,公式为:
Figure FDA0000125358480000011
其中,a代表的是动作,Qπ(s,a)代表在数据包在状态s下,根据策略π,选择动作a的回报值。
4.根据权利要求2所述的基于强化学习的网络流量负载均衡控制方法,其特征在于:百分比策略是指:将各链路的好坏映射成相应的跳转动作选择概率,公式为:
P a = e Q ( s , a ) / τ Σ b = 1 n e Q ( s , b ) / τ
其中pa代表选择动作a的概率,τ代表随机温度。
5.根据权利要求1所述的基于强化学习的网络流量负载均衡控制方法,其特征在于:所述步骤3)中奖惩值r计算公式为:
r = k 1 ( x i - x j ) + k 2 ( σ i - σ j ) σ i = Σ n = 1 m ( y n - y ‾ ) 2 y ‾ = Σ n = 1 m y n / m
式中,
Figure FDA0000125358480000023
是指所有链路中流量均衡量的均值,σi是指流量均衡量的方差,k1和k2是系数。
6.根据权利要求1所述的基于强化学习的网络流量负载均衡控制方法,其特征在于:所述步骤4)中更新策略π的公式为:
Q π ( s , a ) = Q π ( s , a ) + α [ r + γ max a ′ Q π ( s ′ , a ′ ) - Q ( s , a ) ]
其中Qπ(s,a)代表在状态量s下,根据策略π,选择动作a的回报值,0≤α≤1为迭代步长参数,0≤γ≤1为折扣系数。
CN2011104475148A 2011-12-27 2011-12-27 一种基于强化学习的网络流量负载均衡控制方法 Pending CN102571570A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104475148A CN102571570A (zh) 2011-12-27 2011-12-27 一种基于强化学习的网络流量负载均衡控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104475148A CN102571570A (zh) 2011-12-27 2011-12-27 一种基于强化学习的网络流量负载均衡控制方法

Publications (1)

Publication Number Publication Date
CN102571570A true CN102571570A (zh) 2012-07-11

Family

ID=46416071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104475148A Pending CN102571570A (zh) 2011-12-27 2011-12-27 一种基于强化学习的网络流量负载均衡控制方法

Country Status (1)

Country Link
CN (1) CN102571570A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104253630A (zh) * 2013-06-26 2014-12-31 国际商业机器公司 利用电力线载波在电力线上传输数据的方法和系统
CN105119733A (zh) * 2015-07-06 2015-12-02 百度在线网络技术(北京)有限公司 人工智能系统及其状态跳转方法、服务器、通信系统
CN106411749A (zh) * 2016-10-12 2017-02-15 国网江苏省电力公司苏州供电公司 一种基于q学习的用于软件定义网络的路径选择方法
CN108476084A (zh) * 2016-12-02 2018-08-31 华为技术有限公司 Q学习中调整状态空间边界的方法和装置
CN108924051A (zh) * 2018-07-04 2018-11-30 河南科技大学 基于增强学习的信息中心网络兴趣包转发方法
CN109039942A (zh) * 2018-08-29 2018-12-18 南京优速网络科技有限公司 一种基于深度强化学习的网络负载均衡系统及均衡方法
CN109361601A (zh) * 2018-10-31 2019-02-19 浙江工商大学 一种基于强化学习的sdn路由规划方法
TWI667929B (zh) * 2018-02-21 2019-08-01 台林電通股份有限公司 基於熱條件的無線接入點的網路流量控制系統及其方法
CN110311863A (zh) * 2019-05-09 2019-10-08 北京邮电大学 一种路由路径确定方法及装置
CN110519164A (zh) * 2019-07-16 2019-11-29 咪咕文化科技有限公司 信号传输方法、系统及计算机可读存储介质
CN110555742A (zh) * 2018-05-31 2019-12-10 中国电力科学研究院有限公司 一种发电商代理报价的生成方法与系统
CN110601973A (zh) * 2019-08-26 2019-12-20 中移(杭州)信息技术有限公司 一种路由规划方法、系统、服务器及存储介质
CN110796266A (zh) * 2019-10-30 2020-02-14 深圳前海微众银行股份有限公司 基于公共信息的强化学习实现方法、设备及存储介质
CN111245540A (zh) * 2020-01-10 2020-06-05 湖南科技学院 基于强化学习机制的认知网络协作频谱感知节点选择方法
US10686672B2 (en) 2016-06-23 2020-06-16 Huawei Technologies Co., Ltd. Method for generating routing control action in software-defined network and related device
CN111985672A (zh) * 2020-05-08 2020-11-24 东华大学 一种多Agent深度强化学习的单件作业车间调度方法
CN117033005A (zh) * 2023-10-07 2023-11-10 之江实验室 一种无死锁路由方法、装置、存储介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101116292A (zh) * 2005-02-07 2008-01-30 英国电讯有限公司 管制网络

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101116292A (zh) * 2005-02-07 2008-01-30 英国电讯有限公司 管制网络

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUSTIN A. BOYAN ET.AL: ""Packet Routing in Dynamically Changing Networks:a Reinforcement Learning Approach"", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 6》 *
王国磊 等: ""面向多机动态调度问题的两层Q学习算法"", 《智能系统学报》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104253630B (zh) * 2013-06-26 2016-08-10 国际商业机器公司 利用电力线载波在电力线上传输数据的方法和系统
CN104253630A (zh) * 2013-06-26 2014-12-31 国际商业机器公司 利用电力线载波在电力线上传输数据的方法和系统
CN105119733A (zh) * 2015-07-06 2015-12-02 百度在线网络技术(北京)有限公司 人工智能系统及其状态跳转方法、服务器、通信系统
CN105119733B (zh) * 2015-07-06 2019-01-15 百度在线网络技术(北京)有限公司 人工智能系统及其状态跳转方法、服务器、通信系统
US10686672B2 (en) 2016-06-23 2020-06-16 Huawei Technologies Co., Ltd. Method for generating routing control action in software-defined network and related device
CN106411749A (zh) * 2016-10-12 2017-02-15 国网江苏省电力公司苏州供电公司 一种基于q学习的用于软件定义网络的路径选择方法
CN106411749B (zh) * 2016-10-12 2019-07-30 国网江苏省电力公司苏州供电公司 一种基于q学习的用于软件定义网络的路径选择方法
CN108476084A (zh) * 2016-12-02 2018-08-31 华为技术有限公司 Q学习中调整状态空间边界的方法和装置
CN108476084B (zh) * 2016-12-02 2020-05-08 华为技术有限公司 Q学习中调整状态空间边界的方法和装置
TWI667929B (zh) * 2018-02-21 2019-08-01 台林電通股份有限公司 基於熱條件的無線接入點的網路流量控制系統及其方法
CN110555742A (zh) * 2018-05-31 2019-12-10 中国电力科学研究院有限公司 一种发电商代理报价的生成方法与系统
CN108924051B (zh) * 2018-07-04 2021-03-16 河南科技大学 基于增强学习的信息中心网络兴趣包转发方法
CN108924051A (zh) * 2018-07-04 2018-11-30 河南科技大学 基于增强学习的信息中心网络兴趣包转发方法
CN109039942B (zh) * 2018-08-29 2022-08-12 南京优速网络科技有限公司 一种基于深度强化学习的网络负载均衡系统及均衡方法
CN109039942A (zh) * 2018-08-29 2018-12-18 南京优速网络科技有限公司 一种基于深度强化学习的网络负载均衡系统及均衡方法
CN109361601A (zh) * 2018-10-31 2019-02-19 浙江工商大学 一种基于强化学习的sdn路由规划方法
CN109361601B (zh) * 2018-10-31 2021-03-30 浙江工商大学 一种基于强化学习的sdn路由规划方法
CN110311863A (zh) * 2019-05-09 2019-10-08 北京邮电大学 一种路由路径确定方法及装置
CN110311863B (zh) * 2019-05-09 2020-08-21 北京邮电大学 一种路由路径确定方法及装置
CN110519164A (zh) * 2019-07-16 2019-11-29 咪咕文化科技有限公司 信号传输方法、系统及计算机可读存储介质
CN110601973B (zh) * 2019-08-26 2022-04-05 中移(杭州)信息技术有限公司 一种路由规划方法、系统、服务器及存储介质
CN110601973A (zh) * 2019-08-26 2019-12-20 中移(杭州)信息技术有限公司 一种路由规划方法、系统、服务器及存储介质
CN110796266A (zh) * 2019-10-30 2020-02-14 深圳前海微众银行股份有限公司 基于公共信息的强化学习实现方法、设备及存储介质
CN111245540A (zh) * 2020-01-10 2020-06-05 湖南科技学院 基于强化学习机制的认知网络协作频谱感知节点选择方法
CN111245540B (zh) * 2020-01-10 2022-03-01 湖南科技学院 基于强化学习机制的认知网络协作频谱感知节点选择方法
CN111985672A (zh) * 2020-05-08 2020-11-24 东华大学 一种多Agent深度强化学习的单件作业车间调度方法
CN117033005A (zh) * 2023-10-07 2023-11-10 之江实验室 一种无死锁路由方法、装置、存储介质及电子设备
CN117033005B (zh) * 2023-10-07 2024-01-26 之江实验室 一种无死锁路由方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN102571570A (zh) 一种基于强化学习的网络流量负载均衡控制方法
CN110493131B (zh) 一种sdn架构下的空间信息网络路由策略的设计方法
CN113572686B (zh) 一种基于SDN的天地一体化自适应动态QoS路由方法
CN111416771B (zh) 基于多智能体强化学习路由策略控制路由动作的方法
CN114697229B (zh) 一种分布式路由规划模型的构建方法及应用
CN109413707B (zh) 无线网络环境下基于深度强化学习技术的智能路由方法
CN111211987B (zh) 网络中流量动态调整方法、系统、电子设备及存储介质
CN113099505B (zh) 一种空天地一体化网络路由方法
CN107094112A (zh) 基于果蝇优化算法的带宽约束组播路由优化方法
CN106059941A (zh) 一种消除链路拥塞的骨干网络流量调度方法
CN105743804A (zh) 一种数据流控制方法和系统
CN105848238A (zh) 基于多参数的无线传感器网络IPv6路由方法
CN110719617B (zh) 基于反正切学习率因子的q路由方法
Mahajan et al. Adaptive routing in wireless mesh networks using hybrid reinforcement learning algorithm
Paganini Congestion control with adaptive multipath routing based on optimization
CN103781140A (zh) 一种基于蚁群算法的动态频谱路由管理方法
Abou El Houda et al. Cost-efficient federated reinforcement learning-based network routing for wireless networks
Song et al. STALB: A spatio-temporal domain autonomous load balancing routing protocol
CN110691364B (zh) 基于双曲正割学习率因子的q路由方法
Hajjej et al. Quality of services based routing using evolutionary algorithms for wireless sensor network
Li et al. Deep reinforcement learning-based collaborative routing algorithm for clustered MANETs
Cong et al. A deep reinforcement learning-based routing scheme with two modes for dynamic networks
Liu et al. A grid and vehicle density prediction-based communication scheme in large-scale urban environments
Du et al. Deep learning empowered QoS-aware adaptive routing algorithm in wireless networks
Qiu et al. Coding-Aware Routing for Maximum Throughput and Coding Opportunities by Deep Reinforcement Learning in FANET

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120711