CN112491712A - 一种基于多智能体深度强化学习的数据包路由算法 - Google Patents
一种基于多智能体深度强化学习的数据包路由算法 Download PDFInfo
- Publication number
- CN112491712A CN112491712A CN202011366522.5A CN202011366522A CN112491712A CN 112491712 A CN112491712 A CN 112491712A CN 202011366522 A CN202011366522 A CN 202011366522A CN 112491712 A CN112491712 A CN 112491712A
- Authority
- CN
- China
- Prior art keywords
- agent
- data packet
- node
- neural network
- packet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 claims abstract description 37
- 230000005540 biological transmission Effects 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000009471 action Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 12
- 230000000875 corresponding effect Effects 0.000 claims description 10
- 210000002569 neuron Anatomy 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 5
- 210000002364 input neuron Anatomy 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000001934 delay Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 238000004088 simulation Methods 0.000 abstract description 7
- 238000012360 testing method Methods 0.000 abstract description 5
- 238000013461 design Methods 0.000 abstract description 2
- 230000003044 adaptive effect Effects 0.000 abstract 1
- 238000013178 mathematical model Methods 0.000 abstract 1
- 230000008901 benefit Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/14—Routing performance; Theoretical aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/12—Shortest path evaluation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明属于分布式路由技术领域,具体为一种基于多智能体深度强化学习的数据包路由算法。本发明为了缓解计算机网络中的拥塞情况,利用多智能体深度强化学习技术,设计了一种端到端的自适应路由算法,各路由器依据局部信息完成数据包调度,降低了数据包的传输时延。本发明首先构建分布式路由的数学模型,明确强化学习中各要素的具体含义,然后对神经网络进行训练,最后在仿真环境下进行算法性能测试。仿真实验结果表明,深度神经网络的引入可以挖掘输入网络状态中的特征信息,实现畅通路径和最短路径之间的权衡,与其他常用路由算法相比,本发明实现了更短的数据包传输时延。
Description
技术领域
本发明属于分布式路由技术领域,具体涉及基于多智能体深度强化学习的数据包路由算法。
背景技术
数据包路由是分布式计算机网络中非常具有挑战性的问题,在缺乏集中控制的服务提供商的无线网络中尤为明显。为了最小化传输时延,各路由器需要确定下一跳节点以传送其数据包。数据包路由的首要特征是细粒度的数据包转发策略。相邻节点间无法共享网络流量信息。现有的路由协议利用泛洪策略以保持全局一致路由表(如DSDV算法[1]),抑或是构建按需流量级路由表(如AODV算法[2])。数据包路由需要满足当前通信网络中的动态变化流量。同时,设计完全分布式路由转发策略需要依据局部观测,在选取最短路径和畅通路径间做出平衡。
强化学习是一种生物启发式的机器学习算法,无需外部监督[3],只需与环境交互即可获取相关知识。因此,强化学习非常适用于解决分布式网络中的路由问题,各路由器将节点间的传输时延作为相应动作奖励,从而学习到最优动作选择策略。文献[4]首次提出了基于多智能体Q-learning的数据包路由算法,其相比于最短路径算法实现了更短的平均传输时延。文献[5]利用dual Q-learning进一步提升了算法收敛速率。文献[6]利用joint Q-learning和能量控制策略解决无线网络中的时延敏感应用问题。文献[7]概括了更多的基于强化学习的路由算法。由于“维度爆炸”效应[8],传统强化学习中的状态-动作空间过小,无法完全利用历史网络流量的动态信息,进而在决定路由转发策略前无法探索足够的策略轨迹。而训练包含较大状态-动作空间的强化学习算法复杂性过大,为部署强化学习算法解决数据包路由问题提供了障碍。
深度强化学习的发展为基于训练复杂度较高的强化学习的计算机网络应用提供了新的机遇。将Q值表替换为深度神经网络,网络设计者可以充分利用以下两点优势:(1)神经网络可以容纳更多的输入信息,继而扩展了状态-动作空间,利用更优的决策学习;(2)神经网络可以自动挖掘高维输入数据中的隐含信息,无需手动特征提取即可形成端到端的策略形成。近年来基于深度强化学习的网络应用包括云资源分配[9]、流媒体码率自适应[10]、蜂窝数据调度[11]等。深度强化学习也被应用于在无法预知的动态流量中的路由问题[12]。然而文献[12]考虑的是集中式数据流路由策略,且需要全局的拓扑信息和流量需求矩阵。在深度强化学习的强大功能和Q-routing的局限性影响下,本发明尝试运用完全分布式多智能体深度强化学习解决数据包路由问题。
发明内容
本发明的目的在于提供一种能够实现端到端自适应路由策略,从而使数据包传输时延更短的基于多智能体深度强化学习的数据包路由算法。
本发明提供的基于多智能体深度强化学习的数据包路由算法中;各路由器为独立的智能体,利用循环神经网络学习动态路由策略;神经网络的高维输入信息包含四部分:当前数据包终点、历史数据包动作、未来数据包终点和相邻节点队列长度。执行动作为当前数据包的下一跳节点,奖励被设置为排队时延和传输时延之和。一方面,历史数据包动作与下一跳节点的拥塞程度密切相关,知晓未来数据包终点可以避免将其传输至同一相邻节点。另一方面,基于轻量级交互机制,智能体可以获取相邻节点的队列长度信息,并以此学习到将数据包传输至较畅通的节点。各路由器为完全分布式学习,即其拥有独立的神经网络用于训练和决策过程。从仿真实验结果可以得出,相比于传统路由算法,本发明提出的算法实现了更低的数据包传输时延,且对于网络环境和网络拓扑的鲁棒性较强。
本发明提供的基于多智能体深度强化学习的数据包路由算法,具体步骤如下:
(一)首先,为数据包路由问题进行数学建模,具体包括:
数据包路由的任务为,将各数据包通过中间节点传输至其目的节点,且各路由器遵循“先入先出”原则。节点n将其队列头部数据包传输至其相邻节点v,直到该数据包到达其终点。
数据包路由可以建模为,以部分可观测马尔可夫决策过程为基础的多智能体强化学习。各节点为独立的智能体,通过观察局部网络状态和与相邻节点间的交互来学习路由策略。
以单个智能体为对象,所述强化学习各组成要素,具体为:
智能体n将要传输的数据包p定义为当前数据包。智能体n的状态空间表示为Sn:{dp,En,Cn},其中,dp代表当前数据包的终点,En代表与智能体n相关的额外信息,Cn代表智能体n相邻节点的共享信息。由于网络流量的动态性,智能体观测到的环境状态是时变的。
智能体n的动作空间表示为其中,代表智能体n的相邻节点集。因此,每个智能体动作空间的大小与其相邻节点的数目相等。当数据包在t时刻到达队列头部时,智能体n观测当前环境状态st∈Sn,并依此选取相应动作at∈An,当前数据包随即被传输至智能体n相应的相邻节点。
奖励函数的设置与优化目标(即最小化平均传输时延)密切相关。智能体n在t时刻得到的奖励为:rt=q+l,其中,q代表数据包在智能体n中的排队时延,l代表数据包从智能体n出发至下一节点的传输时延。
在多智能体强化学习建模过程中,每个节点可视为独立的智能体,拥有独立的神经网络用于路由决策。
以单个智能体为对象,所述神经网络结构具体为:
所述神经网络为具有三层全连接层和一层LSTM层的循环神经网络,如图1所示;该神经网络输入可分为以下四部分:
(1)当前数据包终点:即将要被传输的数据包的目的节点;
(2)历史数据包动作:即位于当前数据包前k个数据包的历史动作;
(3)未来数据包终点:即位于当前数据包后m个数据包的目的节点;
(4)最长队列节点:当前节点的相邻节点中拥有最长队列的节点。
设dp对应当前数据包终点,En对应历史数据包动作和未来数据包终点,Cn对应最长队列节点。
在被输入至神经网络之前,以上所有信息均需进行独热编码(one-hotencoding)。因此,神经网络输入神经元的总数为(1+k+m+1)×N,其中,N代表网络拓扑的总节点数。
三层全连接层中,第一个隐含层为四个子隐含层的级联,其中每个子隐含层拥有32个神经元,并分别与输入层的四部分输入神经元全连接。在第一个隐含层后为另外两个拥有128个神经元的隐含层。在部分可观测环境中,单个智能体只能观察到与全局环境有关的局部状态信息s。因此,在隐含层后加入一层LSTM层,以发掘输入信息的时域特征。除了部分观测s外,智能体的隐藏状态h也将被视为Q值Q(s,h,a)的一部分。
输出层的神经元数目与智能体的动作空间|An|大小相等,每个输出层神经元的输出表示其对应动作的Q值。由于Q值的表示不同,Q值的更新方式由改变Q值表中的具体数值转变为改变神经网络的参数。将Rectified Linear Unit(ReLU)[13]作为激活函数,将RootMean Square Prop(RMSProp)[14]作为神经网络参数更新算法。
(二)数据包路由算法的训练和决策
本发明提出的数据包路由算法的训练过程和决策过程均为分布式,各智能体的初始化和训练过程完全一致。
各节点i被视为独立的智能体,且拥有单独的神经网络Qi,其网络参数为θi。状态-动作值函数可表示为Qi(s,h,a;θi),代表在局部状态s和隐藏状态h下,智能体i做出动作a后得到的数据包期望传输时延。各智能体i独立初始化容量为100的经验回放池Di,以储存环境转换信息。每次更新过程中,智能体i会在Di中随机选取大小为16的批量数据进行拟合。
在每个决策时刻t即数据包p到达节点n的队列头部时,智能体n将观察局部信息dp和En并通过与相邻节点的交互收集共享信息Cn。综合当前状态st:{dp,En,Cn}和隐藏状态ht,智能体n将依据∈-贪婪策略选取动作at,即以∈的概率选取在动作空间An中随机动作,以1-∈的概率选取Q值最高的动作,因此,at可表示为:
接着当前数据包p被传输至相应相邻节点vt,智能体n接收到奖励rt。当前状态和隐藏状态分别发生转变为st+1和ht+1。此外,若下一节点vt即为当前数据包终点dp,则设置传输标志ft为1,否则设为0,因此,ft可表示为:
智能体n接收到以上信息后,将把环境转变(st,ht,rt,vt,st+1,ht+1,ft)储存至其经验回访池Dn。与DQRN的序贯更新过程不同,Dn随机取出训练批量数据(sj,hj,rj,vj,sj+1,hj+1,fj),以遵循DQN算法的随机采样策略。由于多智能体环境的不稳定性,当前数据包p从下一节点vt至其终点dp的期望传输时延τ在训练过程前需要重新计算,即:
在决策时刻t最后阶段,将利用梯度下降法更新神经网络参数Qn(θn)。目标值yj为奖励rj和剩余传输时延τ之和,即:
yj=rj+τ(1-fj);
参数更新以最小化损失函数Lt,即:
Lt=(yj-Qn(sj,hj,aj;θn))2;
将损失函数Lt对神经网络参数θn做偏导后,即可完成参数更新:
其中,α为学习率。
各智能体的神经网络参数迭代训练直至收敛。
本发明提出的基于多智能体深度强化学习的数据包路由算法,可以实现端到端的自适应路由策略,达到畅通路径和最短路径之间的权衡,并且与其他常用路由算法相比,在不同的数据包传输间隔和数据包分配比例等网络环境下,本发明实现了更短的数据包传输时延。此外,本发明在真实网络拓扑下也能取得较优的性能。
附图说明
图1为循环神经网络结构。
图2为仿真实验拓扑图。
图3为本发明方法与其他算法的数据包平均传输时延的仿真结果对比图,其中,固定数据包分配比为70%,50组离线测试的平均结果。
图4为本发明方法与其他算法的数据包平均传输时延的仿真结果对比图,其中,固定数据包生成间隔为0.5秒,50组离线测试的平均结果。
具体实施方式
实施例:
设实施例的参数
仿真环境:Python;
网络拓扑:如图2所示;
数据包传输间隔:0.3~1.0ms;
数据包分配比例:10%~90%;
经验回访池大小:100;
学习率:0.001。
基于多智能体深度强化学习的数据包路由算法,具体步骤为:
步骤1:初始化各路由器的经验回放池,随机初始化各神经网络。
步骤2:路由器n观测局部信息dp和En,收集共享信息Cn。综合当前状态st:{dp,En,Cn}和隐藏状态ht,依据∈-贪婪策略选取动作at。
步骤3:路由器n将数据包p传输至相应相邻节点vt,同时接收到奖励rt。当前状态和隐藏状态分别发生转变为st+1和ht+1。
步骤4:若下一节点vt即为当前数据包终点dp,则设置传输标志ft为1,否则设为0。
步骤5:路由器n将把环境转变(st,ht,rt,vt,st+1,ht+1,ft)储存至其经验回访池Dn,再从Dn中随机取出训练批量数据(sj,hj,rj,vj,sj+1,hj+1,fj),重新计算当前数据包p从下一节点vt至其终点dp的期望传输时延τ。
步骤6:设定目标值和损失函数,利用梯度下降法更新神经网络参数Qn(θn);
仿真结果:
固定数据包分配比为70%,50组离线测试的平均结果如图所示,其数据包生成间隔区间为0.3毫秒至1.0毫秒。本发明提出的算法相比于另外两种比较算法,在不同数据包生成间隔下均取得了最低的数据包平均传输时延,且算法稳定性高。
固定数据包生成间隔为0.5秒,50组离线测试的平均结果如图4所示,他们的数据包分配比区间为10%至90%。本发明提出的算法相比于另外两种比较算法,在不同数据包分配比例下均取得了最低的数据包平均传输时延,且算法稳定性高。
参考文献
[1]C.E.Perkins and P.Bhagwat,“Highly dynamic destination-sequenceddistance-vector routing(DSDV)for mobile computers,”ACMSIGCOMMcomputer communication review,1994,vol.24,pp.234-244.
[2]C.Perkins,E.Belding-Royer,and S.Das,“Ad hoc on-demanddistancevector(AODV)routing,”2003.
[3]R.S.Sutton and A.G.Barto,“Reinforcement learning:An introduction,”MIT press,2018.
[4]J.A.Boyan and M.L.Littman,“Packet routing in dynamicallychangingnetworks:A reinforcement learning approach,”Advances inneuralinformation processing systems,1994,pp.671-678.
[5]B.Xia,M.H.Wahab,Y.Yang,Z.Fan,and M.Sooriyabandara,“Reinforcementlearning based spectrum-aware routing in multi-hopcognitiveradio networks,”2009 4th International Conference on CognitiveRadioOriented Wireless Networks and Communications,2009,pp.1-5.
[6]Z.Lin and M.van der Schaar,“Autonomic and distributed jointroutingand power control for delay-sensitive applications in multi-hopwirelessnetworks,”IEEE Transactions on Wireless Communications,vol.10,no.1,pp.102-113,2011.
[7]H.A.Al-Rawi,M.A.Ng,and K.-L.A.Yau,“Application ofreinforcementlearning to routing in distributed wireless networks:a review,”Artificial Intelligence Review,vol.43,no.3,pp.381-416,2015.
[8]Y.Bengio,A.Courville,and P.Vincent,“Representation learning:Areview and new perspectives,”IEEE transactions on pattern analysisandmachine intelligence,vol.35,no.8,pp.1798-1828,2013.
[9]H.Mao,M.Alizadeh,I.Menache,and S.Kandula,“Resource managementwithdeep reinforcement learning,”Proceedings of the 15th ACMWorkshop on HotTopics in Networks,2016,pp.50-56.
[10]H.Mao,R.Netravali,and M.Alizadeh,“Neural adaptive videostreamingwith pensieve,”Proceedings of the Conference of the ACMSpecialInterest Group on Data Communication,2017,pp.197-210.
[11]Z.Xu,Y.Wang,J.Tang,J.Wang,and M.C.Gursoy,“A deepreinforcementlearning based framework for power-efficient resource allocationincloud RANs,”2017 IEEE International Conference on Communications(ICC),2017,pp.1-6..
[12]G.Stampa,M.Arias,D.Sanchez-Charles,V.Munts-Mulero,and A.Cabellos,“A deep-reinforcement learning approach for software-definednetworkingrouting optimization,”arXiv preprint arXiv:1709.07080,2017.
[13]A.F.Agarap,“Deep learning using rectified linear units(relu),”arXiv preprint arXiv:1803.08375,2018.
[14]T.Tieleman and G.Hinton,“Lecture 6.5-rmsprop:Divide the gradientby a running average of its recent magnitude,”COURSERA:Neural networks formachine learning,2012,4(2):26-31.。
Claims (1)
1.一种基于多智能体深度强化学习的数据包路由算法,其特征在于,具体步骤如下:
(一)首先,为数据包路由问题进行数学建模,具体包括:
数据包路由的任务为,将各数据包通过中间节点传输至其目的节点,且各路由器遵循“先入先出”原则;节点n将其队列头部数据包传输至其相邻节点v,直到该数据包到达其终点;
数据包路由建模为,以部分可观测马尔可夫决策过程为基础的多智能体强化学习;各节点为独立的智能体,通过观察局部网络状态和与相邻节点间的交互来学习路由策略;
其中,以单个智能体为对象,强化学习各组成要素如下:
智能体n将要传输的数据包p定义为当前数据包;智能体n的状态空间表示为Sn:{dp,En,Cn},其中,dp代表当前数据包的终点,En代表与智能体n相关的额外信息,Cn代表智能体n相邻节点的共享信息;
智能体n的动作空间表示为其中,代表智能体n的相邻节点集;每个智能体动作空间的大小与其相邻节点的数目相等;当数据包在t时刻到达队列头部时,智能体n观测当前环境状态st∈Sn,并依此选取相应动作at∈An,当前数据包随即被传输至智能体n相应的相邻节点;
奖励函数的设置与优化目标即最小化平均传输时延密切相关;智能体n在t时刻得到的奖励为:rt=q+l,其中,q代表数据包在智能体n中的排队时延,l代表数据包从智能体n出发至下一节点的传输时延;
在多智能体强化学习建模过程中,每个节点视为独立的智能体,拥有独立的神经网络用于路由决策;
以单个智能体为对象,所述神经网络结构具体为:
神经网络为具有三层全连接层和一层LSTM层的循环神经网络;该神经网络输入分为以下四部分:
(1)当前数据包终点:即将要被传输的数据包的目的节点;
(2)历史数据包动作:即位于当前数据包前k个数据包的历史动作;
(3)未来数据包终点:即位于当前数据包后m个数据包的目的节点;
(4)最长队列节点:当前节点的相邻节点中拥有最长队列的节点;
设dp对应当前数据包终点,En对应历史数据包动作和未来数据包终点,Cn对应最长队列节点;
在输入至神经网络之前,以上所有信息均进行独热编码;因此,神经网络输入神经元的总数为(1+k+m+1)×N,其中,N代表网络拓扑的总节点数;
三层全连接层中,第一个隐含层为四个子隐含层的级联,其中每个子隐含层拥有32个神经元,并分别与输入层的四部分输入神经元全连接;在第一个隐含层后为另外两个拥有128个神经元的隐含层;在部分可观测环境中,单个智能体只能观察到与全局环境有关的局部状态信息s;因此,在隐含层后加入一层LSTM层,以发掘输入信息的时域特征;除了部分观测s外,智能体的隐藏状态h也将被视为Q值Q(s,h,a)的一部分;
输出层的神经元数目与智能体的动作空间|An|大小相等,每个输出层神经元的输出表示其对应动作的Q值;由于Q值的表示不同,Q值的更新方式由改变Q值表中的具体数值转变为改变神经网络的参数;采用ReLU作为激活函数,采用RMSProp作为神经网络参数更新算法;
(二)数据包路由算法的训练和决策
数据包路由算法的训练过程和决策过程均为分布式,各智能体的初始化和训练过程完全一致;
各节点i被视为独立的智能体,且拥有单独的神经网络Qi,其网络参数为θi;状态-动作值函数表示为Qi(s,h,a;θi),代表在局部状态s和隐藏状态h下,智能体i做出动作a后得到的数据包期望传输时延;各智能体i独立初始化容量为100的经验回放池Di,以储存环境转换信息;每次更新过程中,智能体i在Di中随机选取大小为16的批量数据进行拟合;
在每个决策时刻t即数据包p到达节点n的队列头部时,智能体n将观察局部信息dp和En并通过与相邻节点的交互收集共享信息Cn;综合当前状态st:{dp,En,Cn}和隐藏状态ht,智能体n将依据∈-贪婪策略选取动作at,即以∈的概率选取在动作空间An中随机动作,以1-∈的概率选取Q值最高的动作,于是,at表示为:
接着当前数据包p被传输至相应相邻节点vt,智能体n接收到奖励rt;当前状态和隐藏状态分别发生转变为st+1和ht+1;此外,若下一节点vt即为当前数据包终点dp,则设置传输标志ft为1,否则设为0,因此,ft表示为:
智能体n接收到以上信息后,将把环境转变(st,ht,rt,vt,st+1,ht+1,ft)储存至其经验回访池Dn;与DQRN的序贯更新过程不同,Dn随机取出训练批量数据(sj,hj,rj,vj,sj+1,hj+1,fj),以遵循DQN算法的随机采样策略;由于多智能体环境的不稳定性,当前数据包p从下一节点vt至其终点dp的期望传输时延τ在训练过程前需要重新计算,即:
在决策时刻t最后阶段,利用梯度下降法更新神经网络参数Qn(θn);目标值yj为奖励rj和剩余传输时延τ之和,即:
yj=rj+τ(1-fj);
参数更新以最小化损失函数Lt,即:
Lt=(yj-Qn(sj,hj,aj;θn))2;
将损失函数Lt对神经网络参数θn做偏导后,即完成参数更新:
其中,α为学习率;
各智能体的神经网络参数迭代训练直至收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011366522.5A CN112491712B (zh) | 2020-11-30 | 2020-11-30 | 一种基于多智能体深度强化学习的数据包路由算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011366522.5A CN112491712B (zh) | 2020-11-30 | 2020-11-30 | 一种基于多智能体深度强化学习的数据包路由算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112491712A true CN112491712A (zh) | 2021-03-12 |
CN112491712B CN112491712B (zh) | 2021-08-17 |
Family
ID=74936807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011366522.5A Active CN112491712B (zh) | 2020-11-30 | 2020-11-30 | 一种基于多智能体深度强化学习的数据包路由算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112491712B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254197A (zh) * | 2021-04-30 | 2021-08-13 | 西安电子科技大学 | 一种基于深度强化学习的网络资源调度方法及系统 |
CN113300969A (zh) * | 2021-05-20 | 2021-08-24 | 清华大学深圳国际研究生院 | 基于场景变化的拥塞控制切换方法、存储介质和电子设备 |
CN113315715A (zh) * | 2021-04-07 | 2021-08-27 | 北京邮电大学 | 基于qmix的分布式网内拥塞控制方法 |
CN113395723A (zh) * | 2021-06-11 | 2021-09-14 | 西安交通大学 | 基于强化学习的5g nr下行调度时延优化系统 |
CN113489654A (zh) * | 2021-07-06 | 2021-10-08 | 国网信息通信产业集团有限公司 | 一种路由选择方法、装置、电子设备及存储介质 |
CN113556287A (zh) * | 2021-06-15 | 2021-10-26 | 南京理工大学 | 一种基于多智能体强化学习的软件定义网络路由方法 |
CN113645589A (zh) * | 2021-07-09 | 2021-11-12 | 北京邮电大学 | 一种基于反事实策略梯度的无人机集群路由计算方法 |
CN113783782A (zh) * | 2021-09-09 | 2021-12-10 | 哈尔滨工程大学 | 一种深度强化学习的机会路由候选集节点排序方法 |
CN114124823A (zh) * | 2021-10-18 | 2022-03-01 | 西安电子科技大学 | 面向高动态网络拓扑下的自适应路由方法、系统、设备 |
CN114244767A (zh) * | 2021-11-01 | 2022-03-25 | 北京邮电大学 | 一种基于负载均衡的链路最小端到端时延路由算法 |
CN115022231A (zh) * | 2022-06-30 | 2022-09-06 | 武汉烽火技术服务有限公司 | 一种基于深度强化学习的最优路径规划的方法和系统 |
CN116709359A (zh) * | 2023-08-01 | 2023-09-05 | 南京邮电大学 | 一种飞行Ad Hoc网络的自适应路由联合预测方法 |
CN117412323A (zh) * | 2023-09-27 | 2024-01-16 | 华中科技大学 | 一种基于MAPPO算法的WiFi网络资源调度方法及系统 |
CN118400336A (zh) * | 2024-07-01 | 2024-07-26 | 南京信息工程大学 | 一种基于动态缓存的主动队列管理方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103595577A (zh) * | 2013-10-31 | 2014-02-19 | 赛尔网络有限公司 | Isp间互联口超过阈值流量监控系统及方法 |
US20180309636A1 (en) * | 2017-04-21 | 2018-10-25 | System73 Ltd | Predictive overlay network architecture |
CN108762281A (zh) * | 2018-06-08 | 2018-11-06 | 哈尔滨工程大学 | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 |
US20190005384A1 (en) * | 2017-06-29 | 2019-01-03 | General Electric Company | Topology aware graph neural nets |
CN109413707A (zh) * | 2018-08-03 | 2019-03-01 | 南京工业大学 | 无线网络环境下基于深度强化学习技术的智能路由方法 |
CN109639739A (zh) * | 2019-01-30 | 2019-04-16 | 大连理工大学 | 一种基于自动编码器网络的异常流量检测方法 |
CN110995520A (zh) * | 2020-02-28 | 2020-04-10 | 清华大学 | 网络流量预测方法、装置、计算机设备及可读存储介质 |
CN111431742A (zh) * | 2018-05-31 | 2020-07-17 | 腾讯科技(深圳)有限公司 | 网络信息检测方法、装置、存储介质和计算机设备 |
US20200341976A1 (en) * | 2019-04-25 | 2020-10-29 | Adobe Inc. | Interactive search experience using machine learning |
-
2020
- 2020-11-30 CN CN202011366522.5A patent/CN112491712B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103595577A (zh) * | 2013-10-31 | 2014-02-19 | 赛尔网络有限公司 | Isp间互联口超过阈值流量监控系统及方法 |
US20180309636A1 (en) * | 2017-04-21 | 2018-10-25 | System73 Ltd | Predictive overlay network architecture |
US20190005384A1 (en) * | 2017-06-29 | 2019-01-03 | General Electric Company | Topology aware graph neural nets |
CN111431742A (zh) * | 2018-05-31 | 2020-07-17 | 腾讯科技(深圳)有限公司 | 网络信息检测方法、装置、存储介质和计算机设备 |
CN108762281A (zh) * | 2018-06-08 | 2018-11-06 | 哈尔滨工程大学 | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 |
CN109413707A (zh) * | 2018-08-03 | 2019-03-01 | 南京工业大学 | 无线网络环境下基于深度强化学习技术的智能路由方法 |
CN109639739A (zh) * | 2019-01-30 | 2019-04-16 | 大连理工大学 | 一种基于自动编码器网络的异常流量检测方法 |
US20200341976A1 (en) * | 2019-04-25 | 2020-10-29 | Adobe Inc. | Interactive search experience using machine learning |
CN110995520A (zh) * | 2020-02-28 | 2020-04-10 | 清华大学 | 网络流量预测方法、装置、计算机设备及可读存储介质 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113315715A (zh) * | 2021-04-07 | 2021-08-27 | 北京邮电大学 | 基于qmix的分布式网内拥塞控制方法 |
CN113315715B (zh) * | 2021-04-07 | 2024-01-05 | 北京邮电大学 | 基于qmix的分布式网内拥塞控制方法 |
CN113254197A (zh) * | 2021-04-30 | 2021-08-13 | 西安电子科技大学 | 一种基于深度强化学习的网络资源调度方法及系统 |
CN113254197B (zh) * | 2021-04-30 | 2023-02-03 | 西安电子科技大学 | 一种基于深度强化学习的网络资源调度方法及系统 |
CN113300969A (zh) * | 2021-05-20 | 2021-08-24 | 清华大学深圳国际研究生院 | 基于场景变化的拥塞控制切换方法、存储介质和电子设备 |
CN113395723A (zh) * | 2021-06-11 | 2021-09-14 | 西安交通大学 | 基于强化学习的5g nr下行调度时延优化系统 |
CN113395723B (zh) * | 2021-06-11 | 2022-08-09 | 西安交通大学 | 基于强化学习的5g nr下行调度时延优化系统 |
CN113556287B (zh) * | 2021-06-15 | 2022-10-14 | 南京理工大学 | 一种基于多智能体强化学习的软件定义网络路由方法 |
CN113556287A (zh) * | 2021-06-15 | 2021-10-26 | 南京理工大学 | 一种基于多智能体强化学习的软件定义网络路由方法 |
CN113489654A (zh) * | 2021-07-06 | 2021-10-08 | 国网信息通信产业集团有限公司 | 一种路由选择方法、装置、电子设备及存储介质 |
CN113489654B (zh) * | 2021-07-06 | 2024-01-05 | 国网信息通信产业集团有限公司 | 一种路由选择方法、装置、电子设备及存储介质 |
CN113645589A (zh) * | 2021-07-09 | 2021-11-12 | 北京邮电大学 | 一种基于反事实策略梯度的无人机集群路由计算方法 |
CN113645589B (zh) * | 2021-07-09 | 2024-05-17 | 北京邮电大学 | 一种基于反事实策略梯度的无人机集群路由计算方法 |
CN113783782A (zh) * | 2021-09-09 | 2021-12-10 | 哈尔滨工程大学 | 一种深度强化学习的机会路由候选集节点排序方法 |
CN114124823B (zh) * | 2021-10-18 | 2023-08-11 | 西安电子科技大学 | 面向高动态网络拓扑下的自适应路由方法、系统、设备 |
CN114124823A (zh) * | 2021-10-18 | 2022-03-01 | 西安电子科技大学 | 面向高动态网络拓扑下的自适应路由方法、系统、设备 |
CN114244767A (zh) * | 2021-11-01 | 2022-03-25 | 北京邮电大学 | 一种基于负载均衡的链路最小端到端时延路由算法 |
CN114244767B (zh) * | 2021-11-01 | 2023-09-26 | 北京邮电大学 | 一种基于负载均衡的链路最小端到端时延路由算法 |
CN115022231A (zh) * | 2022-06-30 | 2022-09-06 | 武汉烽火技术服务有限公司 | 一种基于深度强化学习的最优路径规划的方法和系统 |
CN115022231B (zh) * | 2022-06-30 | 2023-11-03 | 武汉烽火技术服务有限公司 | 一种基于深度强化学习的最优路径规划的方法和系统 |
CN116709359A (zh) * | 2023-08-01 | 2023-09-05 | 南京邮电大学 | 一种飞行Ad Hoc网络的自适应路由联合预测方法 |
CN116709359B (zh) * | 2023-08-01 | 2023-10-31 | 南京邮电大学 | 一种飞行Ad Hoc网络的自适应路由联合预测方法 |
CN117412323A (zh) * | 2023-09-27 | 2024-01-16 | 华中科技大学 | 一种基于MAPPO算法的WiFi网络资源调度方法及系统 |
CN118400336A (zh) * | 2024-07-01 | 2024-07-26 | 南京信息工程大学 | 一种基于动态缓存的主动队列管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112491712B (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112491712B (zh) | 一种基于多智能体深度强化学习的数据包路由算法 | |
You et al. | Toward packet routing with fully distributed multiagent deep reinforcement learning | |
Yang et al. | DetFed: Dynamic resource scheduling for deterministic federated learning over time-sensitive networks | |
CN115460130B (zh) | 一种时间敏感网络中的多路径联合调度方法 | |
Wu et al. | Joint traffic control and multi-channel reassignment for core backbone network in SDN-IoT: a multi-agent deep reinforcement learning approach | |
Karthikeyan et al. | Genetic algorithm with ensemble of immigrant strategies for multicast routing in Ad hoc networks | |
CN109474960B (zh) | 一种基于q学习的双连接流量分配方法 | |
Mai et al. | Packet routing with graph attention multi-agent reinforcement learning | |
Tellache et al. | Deep reinforcement learning based resource allocation in dense sliced LoRaWAN networks | |
Wang et al. | Dual-attention assisted deep reinforcement learning algorithm for energy-efficient resource allocation in Industrial Internet of Things | |
Du et al. | Decentralized federated learning with markov chain based consensus for industrial iot networks | |
CN115396366A (zh) | 基于图注意力网络的分布式智能路由方法 | |
Baek et al. | Floadnet: Load balancing in fog networks with cooperative multiagent using actor–critic method | |
Jia et al. | TTDeep: Time-triggered scheduling for real-time ethernet via deep reinforcement learning | |
Wang et al. | Multi-granularity fusion resource allocation algorithm based on dual-attention deep reinforcement learning and lifelong learning architecture in heterogeneous IIoT | |
Meng et al. | Intelligent routing orchestration for ultra-low latency transport networks | |
Liang et al. | Machine learning applications in the routing in computer networks | |
Wei et al. | G-Routing: Graph Neural Networks-Based Flexible Online Routing | |
Murugeswari et al. | Bio‐inspired Mimosa pudica algorithm for energy‐efficient wireless video sensor networks | |
CN109195179B (zh) | 一种wsn网络的分布式拥塞控制和功率分配方法 | |
Peng et al. | End-to-end QoS guaranteed approach using multi-object genetic algorithm in cognitive MANETs | |
Abdulmajeed et al. | A learning-based approach to improving multicast network performance | |
CN113316216B (zh) | 一种用于微纳卫星网络的路由方法 | |
Pattnaik et al. | Optimal shortest path selection by MSFO-SCNN for dynamic ring routing protocol in WSN | |
Guo et al. | A Routing Optimization Policy Using Graph Convolution Deep Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |