CN112491712B - 一种基于多智能体深度强化学习的数据包路由算法 - Google Patents

一种基于多智能体深度强化学习的数据包路由算法 Download PDF

Info

Publication number
CN112491712B
CN112491712B CN202011366522.5A CN202011366522A CN112491712B CN 112491712 B CN112491712 B CN 112491712B CN 202011366522 A CN202011366522 A CN 202011366522A CN 112491712 B CN112491712 B CN 112491712B
Authority
CN
China
Prior art keywords
agent
data packet
node
neural network
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011366522.5A
Other languages
English (en)
Other versions
CN112491712A (zh
Inventor
徐跃东
游新宇
李宣洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
CERNET Corp
Original Assignee
Fudan University
CERNET Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University, CERNET Corp filed Critical Fudan University
Priority to CN202011366522.5A priority Critical patent/CN112491712B/zh
Publication of CN112491712A publication Critical patent/CN112491712A/zh
Application granted granted Critical
Publication of CN112491712B publication Critical patent/CN112491712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/14Routing performance; Theoretical aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明属于分布式路由技术领域,具体为一种基于多智能体深度强化学习的数据包路由算法。本发明为了缓解计算机网络中的拥塞情况,利用多智能体深度强化学习技术,设计了一种端到端的自适应路由算法,各路由器依据局部信息完成数据包调度,降低了数据包的传输时延。本发明首先构建分布式路由的数学模型,明确强化学习中各要素的具体含义,然后对神经网络进行训练,最后在仿真环境下进行算法性能测试。仿真实验结果表明,深度神经网络的引入可以挖掘输入网络状态中的特征信息,实现畅通路径和最短路径之间的权衡,与其他常用路由算法相比,本发明实现了更短的数据包传输时延。

Description

一种基于多智能体深度强化学习的数据包路由算法
技术领域
本发明属于分布式路由技术领域,具体涉及基于多智能体深度强化学习的数据包路由算法。
背景技术
数据包路由是分布式计算机网络中非常具有挑战性的问题,在缺乏集中控制的服务提供商的无线网络中尤为明显。为了最小化传输时延,各路由器需要确定下一跳节点以传送其数据包。数据包路由的首要特征是细粒度的数据包转发策略。相邻节点间无法共享网络流量信息。现有的路由协议利用泛洪策略以保持全局一致路由表(如DSDV算法[1]),抑或是构建按需流量级路由表(如AODV算法[2])。数据包路由需要满足当前通信网络中的动态变化流量。同时,设计完全分布式路由转发策略需要依据局部观测,在选取最短路径和畅通路径间做出平衡。
强化学习是一种生物启发式的机器学习算法,无需外部监督[3],只需与环境交互即可获取相关知识。因此,强化学习非常适用于解决分布式网络中的路由问题,各路由器将节点间的传输时延作为相应动作奖励,从而学习到最优动作选择策略。文献[4]首次提出了基于多智能体Q-learning的数据包路由算法,其相比于最短路径算法实现了更短的平均传输时延。文献[5]利用dual Q-learning进一步提升了算法收敛速率。文献[6]利用joint Q-learning和能量控制策略解决无线网络中的时延敏感应用问题。文献[7]概括了更多的基于强化学习的路由算法。由于“维度爆炸”效应[8],传统强化学习中的状态-动作空间过小,无法完全利用历史网络流量的动态信息,进而在决定路由转发策略前无法探索足够的策略轨迹。而训练包含较大状态-动作空间的强化学习算法复杂性过大,为部署强化学习算法解决数据包路由问题提供了障碍。
深度强化学习的发展为基于训练复杂度较高的强化学习的计算机网络应用提供了新的机遇。将Q值表替换为深度神经网络,网络设计者可以充分利用以下两点优势:(1)神经网络可以容纳更多的输入信息,继而扩展了状态-动作空间,利用更优的决策学习;(2)神经网络可以自动挖掘高维输入数据中的隐含信息,无需手动特征提取即可形成端到端的策略形成。近年来基于深度强化学习的网络应用包括云资源分配[9]、流媒体码率自适应[10]、蜂窝数据调度[11]等。深度强化学习也被应用于在无法预知的动态流量中的路由问题[12]。然而文献[12]考虑的是集中式数据流路由策略,且需要全局的拓扑信息和流量需求矩阵。在深度强化学习的强大功能和Q-routing的局限性影响下,本发明尝试运用完全分布式多智能体深度强化学习解决数据包路由问题。
发明内容
本发明的目的在于提供一种能够实现端到端自适应路由策略,从而使数据包传输时延更短的基于多智能体深度强化学习的数据包路由算法。
本发明提供的基于多智能体深度强化学习的数据包路由算法中;各路由器为独立的智能体,利用循环神经网络学习动态路由策略;神经网络的高维输入信息包含四部分:当前数据包终点、历史数据包动作、未来数据包终点和相邻节点队列长度。执行动作为当前数据包的下一跳节点,奖励被设置为排队时延和传输时延之和。一方面,历史数据包动作与下一跳节点的拥塞程度密切相关,知晓未来数据包终点可以避免将其传输至同一相邻节点。另一方面,基于轻量级交互机制,智能体可以获取相邻节点的队列长度信息,并以此学习到将数据包传输至较畅通的节点。各路由器为完全分布式学习,即其拥有独立的神经网络用于训练和决策过程。从仿真实验结果可以得出,相比于传统路由算法,本发明提出的算法实现了更低的数据包传输时延,且对于网络环境和网络拓扑的鲁棒性较强。
本发明提供的基于多智能体深度强化学习的数据包路由算法,具体步骤如下:
(一)首先,为数据包路由问题进行数学建模,具体包括:
计算机网络可以建模为有向图:
Figure BDA0002805578530000021
其中,
Figure BDA0002805578530000022
代表节点集,ε代表链路集。数据包以随机生成间隔由节点s生成并以节点d为终点,其中,
Figure BDA0002805578530000023
且s≠d。
数据包路由的任务为,将各数据包通过中间节点传输至其目的节点,且各路由器遵循“先入先出”原则。节点n将其队列头部数据包传输至其相邻节点v,直到该数据包到达其终点。
数据包路由的目标为,寻找各节点间的最优路径,以最小化传输时延。定义数据包集为
Figure BDA0002805578530000024
对于数据包
Figure BDA0002805578530000025
定义其传输时延为tp。则优化目标为最小化数据包平均传输时延
Figure BDA0002805578530000026
其中,K代表数据包集
Figure BDA0002805578530000027
中的数据包数目。
数据包路由可以建模为,以部分可观测马尔可夫决策过程为基础的多智能体强化学习。各节点为独立的智能体,通过观察局部网络状态和与相邻节点间的交互来学习路由策略。
以单个智能体为对象,所述强化学习各组成要素,具体为:
智能体n将要传输的数据包p定义为当前数据包。智能体n的状态空间表示为Sn:{dp,En,Cn},其中,dp代表当前数据包的终点,En代表与智能体n相关的额外信息,Cn代表智能体n相邻节点的共享信息。由于网络流量的动态性,智能体观测到的环境状态是时变的。
智能体n的动作空间表示为
Figure BDA0002805578530000031
其中,
Figure BDA0002805578530000032
代表智能体n的相邻节点集。因此,每个智能体动作空间的大小与其相邻节点的数目相等。当数据包在t时刻到达队列头部时,智能体n观测当前环境状态st∈Sn,并依此选取相应动作at∈An,当前数据包随即被传输至智能体n相应的相邻节点。
奖励函数的设置与优化目标(即最小化平均传输时延)密切相关。智能体n在t时刻得到的奖励为:rt=q+l,其中,q代表数据包在智能体n中的排队时延,l代表数据包从智能体n出发至下一节点的传输时延。
在多智能体强化学习建模过程中,每个节点可视为独立的智能体,拥有独立的神经网络用于路由决策。
以单个智能体为对象,所述神经网络结构具体为:
所述神经网络为具有三层全连接层和一层LSTM层的循环神经网络,如图1所示;该神经网络输入可分为以下四部分:
(1)当前数据包终点:即将要被传输的数据包的目的节点;
(2)历史数据包动作:即位于当前数据包前k个数据包的历史动作;
(3)未来数据包终点:即位于当前数据包后m个数据包的目的节点;
(4)最长队列节点:当前节点的相邻节点中拥有最长队列的节点。
设dp对应当前数据包终点,En对应历史数据包动作和未来数据包终点,Cn对应最长队列节点。
在被输入至神经网络之前,以上所有信息均需进行独热编码(one-hotencoding)。因此,神经网络输入神经元的总数为(1+k+m+1)×N,其中,N代表网络拓扑的总节点数。
三层全连接层中,第一个隐含层为四个子隐含层的级联,其中每个子隐含层拥有32个神经元,并分别与输入层的四部分输入神经元全连接。在第一个隐含层后为另外两个拥有128个神经元的隐含层。在部分可观测环境中,单个智能体只能观察到与全局环境有关的局部状态信息s。因此,在隐含层后加入一层LSTM层,以发掘输入信息的时域特征。除了部分观测s外,智能体的隐藏状态h也将被视为Q值Q(s,h,a)的一部分。
输出层的神经元数目与智能体的动作空间|An|大小相等,每个输出层神经元的输出表示其对应动作的Q值。由于Q值的表示不同,Q值的更新方式由改变Q值表中的具体数值转变为改变神经网络的参数。将Rectified Linear Unit(ReLU)[13]作为激活函数,将RootMean Square Prop(RMSProp)[14]作为神经网络参数更新算法。
(二)数据包路由算法的训练和决策
本发明提出的数据包路由算法的训练过程和决策过程均为分布式,各智能体的初始化和训练过程完全一致。
各节点i被视为独立的智能体,且拥有单独的神经网络Qi,其网络参数为θi。状态-动作值函数可表示为Qi(s,h,a;θi),代表在局部状态s和隐藏状态h下,智能体i做出动作a后得到的数据包期望传输时延。各智能体i独立初始化容量为100的经验回放池Di,以储存环境转换信息。每次更新过程中,智能体i会在Di中随机选取大小为16的批量数据进行拟合。
在每个决策时刻t即数据包p到达节点n的队列头部时,智能体n将观察局部信息dp和En并通过与相邻节点的交互收集共享信息Cn。综合当前状态st:{dp,En,Cn}和隐藏状态ht,智能体n将依据∈-贪婪策略选取动作at,即以∈的概率选取在动作空间An中随机动作,以1-∈的概率选取Q值最高的动作,因此,at可表示为:
Figure BDA0002805578530000041
接着当前数据包p被传输至相应相邻节点vt,智能体n接收到奖励rt。当前状态和隐藏状态分别发生转变为st+1和ht+1。此外,若下一节点vt即为当前数据包终点dp,则设置传输标志ft为1,否则设为0,因此,ft可表示为:
Figure BDA0002805578530000042
智能体n接收到以上信息后,将把环境转变(st,ht,rt,vt,st+1,ht+1,ft)储存至其经验回访池Dn。与DQRN的序贯更新过程不同,Dn随机取出训练批量数据(sj,hj,rj,vj,sj+1,hj+1,fj),以遵循DQN算法的随机采样策略。由于多智能体环境的不稳定性,当前数据包p从下一节点vt至其终点dp的期望传输时延τ在训练过程前需要重新计算,即:
Figure BDA0002805578530000043
在决策时刻t最后阶段,将利用梯度下降法更新神经网络参数Qnn)。目标值yj为奖励rj和剩余传输时延τ之和,即:
yj=rj+τ(1-fj);
参数更新以最小化损失函数Lt,即:
Lt=(yj-Qn(sj,hj,aj;θn))2
将损失函数Lt对神经网络参数θn做偏导后,即可完成参数更新:
Figure BDA0002805578530000051
其中,α为学习率。
各智能体的神经网络参数迭代训练直至收敛。
本发明提出的基于多智能体深度强化学习的数据包路由算法,可以实现端到端的自适应路由策略,达到畅通路径和最短路径之间的权衡,并且与其他常用路由算法相比,在不同的数据包传输间隔和数据包分配比例等网络环境下,本发明实现了更短的数据包传输时延。此外,本发明在真实网络拓扑下也能取得较优的性能。
附图说明
图1为循环神经网络结构。
图2为仿真实验拓扑图。
图3为本发明方法与其他算法的数据包平均传输时延的仿真结果对比图,其中,固定数据包分配比为70%,50组离线测试的平均结果。
图4为本发明方法与其他算法的数据包平均传输时延的仿真结果对比图,其中,固定数据包生成间隔为0.5秒,50组离线测试的平均结果。
具体实施方式
实施例:
设实施例的参数
仿真环境:Python;
网络拓扑:如图2所示;
数据包传输间隔:0.3~1.0ms;
数据包分配比例:10%~90%;
经验回访池大小:100;
学习率:0.001。
基于多智能体深度强化学习的数据包路由算法,具体步骤为:
步骤1:初始化各路由器的经验回放池,随机初始化各神经网络。
步骤2:路由器n观测局部信息dp和En,收集共享信息Cn。综合当前状态st:{dp,En,Cn}和隐藏状态ht,依据∈-贪婪策略选取动作at
步骤3:路由器n将数据包p传输至相应相邻节点vt,同时接收到奖励rt。当前状态和隐藏状态分别发生转变为st+1和ht+1
步骤4:若下一节点vt即为当前数据包终点dp,则设置传输标志ft为1,否则设为0。
步骤5:路由器n将把环境转变(st,ht,rt,vt,st+1,ht+1,ft)储存至其经验回访池Dn,再从Dn中随机取出训练批量数据(sj,hj,rj,vj,sj+1,hj+1,fj),重新计算当前数据包p从下一节点vt至其终点dp的期望传输时延τ。
步骤6:设定目标值和损失函数,利用梯度下降法更新神经网络参数Qnn);
仿真结果:
固定数据包分配比为70%,50组离线测试的平均结果如图所示,其数据包生成间隔区间为0.3毫秒至1.0毫秒。本发明提出的算法相比于另外两种比较算法,在不同数据包生成间隔下均取得了最低的数据包平均传输时延,且算法稳定性高。
固定数据包生成间隔为0.5秒,50组离线测试的平均结果如图4所示,他们的数据包分配比区间为10%至90%。本发明提出的算法相比于另外两种比较算法,在不同数据包分配比例下均取得了最低的数据包平均传输时延,且算法稳定性高。
参考文献
[1]C.E.Perkins and P.Bhagwat,“Highly dynamic destination-sequenceddistance-vector routing(DSDV)for mobile computers,”ACMSIGCOMMcomputer communication review,1994,vol.24,pp.234-244.
[2]C.Perkins,E.Belding-Royer,and S.Das,“Ad hoc on-demanddistancevector(AODV)routing,”2003.
[3]R.S.Sutton and A.G.Barto,“Reinforcement learning:An introduction,”MIT press,2018.
[4]J.A.Boyan and M.L.Littman,“Packet routing in dynamicallychangingnetworks:A reinforcement learning approach,”Advances inneuralinformation processing systems,1994,pp.671-678.
[5]B.Xia,M.H.Wahab,Y.Yang,Z.Fan,and M.Sooriyabandara,“Reinforcementlearning based spectrum-aware routing in multi-hopcognitiveradio networks,”2009 4th International Conference on CognitiveRadioOriented Wireless Networks and Communications,2009,pp.1-5.
[6]Z.Lin and M.van der Schaar,“Autonomic and distributed jointroutingand power control for delay-sensitive applications in multi-hopwirelessnetworks,”IEEE Transactions on Wireless Communications,vol.10,no.1,pp.102-113,2011.
[7]H.A.Al-Rawi,M.A.Ng,and K.-L.A.Yau,“Application ofreinforcementlearning to routing in distributed wireless networks:a review,”Artificial Intelligence Review,vol.43,no.3,pp.381-416,2015.
[8]Y.Bengio,A.Courville,and P.Vincent,“Representation learning:Areview and new perspectives,”IEEE transactions on pattern analysisandmachine intelligence,vol.35,no.8,pp.1798-1828,2013.
[9]H.Mao,M.Alizadeh,I.Menache,and S.Kandula,“Resource managementwithdeep reinforcement learning,”Proceedings of the 15th ACMWorkshop on HotTopics in Networks,2016,pp.50-56.
[10]H.Mao,R.Netravali,and M.Alizadeh,“Neural adaptive videostreamingwith pensieve,”Proceedings of the Conference of the ACMSpecialInterest Group on Data Communication,2017,pp.197-210.
[11]Z.Xu,Y.Wang,J.Tang,J.Wang,and M.C.Gursoy,“A deepreinforcementlearning based framework for power-efficient resource allocationincloud RANs,”2017 IEEE International Conference on Communications(ICC),2017,pp.1-6..
[12]G.Stampa,M.Arias,D.Sanchez-Charles,V.Munts-Mulero,and A.Cabellos,“A deep-reinforcement learning approach for software-definednetworkingrouting optimization,”arXiv preprint arXiv:1709.07080,2017.
[13]A.F.Agarap,“Deep learning using rectified linear units(relu),”arXiv preprint arXiv:1803.08375,2018.
[14]T.Tieleman and G.Hinton,“Lecture 6.5-rmsprop:Divide the gradientby a running average of its recent magnitude,”COURSERA:Neural networks formachine learning,2012,4(2):26-31.。

Claims (1)

1.一种基于多智能体深度强化学习的数据包路由算法,其特征在于,具体步骤如下:
(一)首先,为数据包路由问题进行数学建模,具体包括:
计算机网络建模为有向图:
Figure FDA0003146701590000011
其中,
Figure FDA0003146701590000012
代表节点集,ε代表链路集;数据包以随机生成间隔由节点src生成并以节点dst为终点,其中,
Figure FDA0003146701590000013
且src≠dst;
数据包路由的任务为,将各数据包通过中间节点传输至其目的节点,且各路由器遵循“先入先出”原则;节点n将其队列头部数据包传输至其相邻节点v,直到该数据包到达其终点;
数据包路由的目标为,寻找各节点间的最优路径,以最小化传输时延;定义数据包集为
Figure FDA0003146701590000014
对于数据包
Figure FDA0003146701590000015
定义其传输时延为tp;则优化目标为最小化数据包平均传输时延
Figure FDA0003146701590000016
其中,K代表数据包集
Figure FDA0003146701590000017
中的数据包数目;
数据包路由建模为,以部分可观测马尔可夫决策过程为基础的多智能体强化学习;各节点为独立的智能体,通过观察局部网络状态和与相邻节点间的交互来学习路由策略;
其中,以单个智能体为对象,强化学习各组成要素如下:
智能体n将要传输的数据包p定义为当前数据包;智能体n的状态空间表示为Sn:{dp,En,Cn},其中,dp代表当前数据包的终点,En代表与智能体n相关的额外信息,Cn代表智能体n相邻节点的共享信息;
智能体n的动作空间表示为An:vn,其中,vn代表智能体n的相邻节点集;每个智能体动作空间的大小与其相邻节点的数目相等;当数据包在t时刻到达队列头部时,智能体n观测当前环境状态st∈Sn,并依此选取相应动作at∈An,当前数据包随即被传输至智能体n相应的相邻节点;
奖励函数的设置与优化目标即最小化平均传输时延密切相关;智能体n在t时刻得到的奖励为:rt=q+l,其中,q代表数据包在智能体n中的排队时延,l代表数据包从智能体n出发至下一节点的传输时延;
在多智能体强化学习建模过程中,每个节点视为独立的智能体,拥有独立的神经网络用于路由决策;
以单个智能体为对象,所述神经网络结构具体为:
神经网络为具有三层全连接层和一层LSTM层的循环神经网络;该神经网络输入分为以下四部分:
(1)当前数据包终点:即将要被传输的数据包的目的节点;
(2)历史数据包动作:即位于当前数据包前k个数据包的历史动作;
(3)未来数据包终点:即位于当前数据包后m个数据包的目的节点;
(4)最长队列节点:当前节点的相邻节点中拥有最长队列的节点;
设dp对应当前数据包终点;En对应与智能体n相关的额外信息,其中包含历史数据包动作和未来数据包终点;Cn对应智能体n相邻节点的共享信息,为最长队列节点;
在输入至神经网络之前,以上所有信息均进行独热编码;因此,神经网络输入神经元的总数为(1+k+m+1)×N,其中,N代表网络拓扑的总节点数;
三层全连接层中,第一个隐含层为四个子隐含层的级联,其中每个子隐含层拥有32个神经元,并分别与输入层的四部分输入神经元全连接;在第一个隐含层后为另外两个拥有128个神经元的隐含层;在部分可观测环境中,单个智能体只能观察到与全局环境有关的局部状态信息s;因此,在隐含层后加入一层LSTM层,以发掘输入信息的时域特征;除了部分观测s外,智能体的隐藏状态h也将被视为Q值Q(s,h,a)的一部分;
输出层的神经元数目与智能体的动作空间|An|大小相等,每个输出层神经元的输出表示其对应动作的Q值;由于Q值的表示不同,Q值的更新方式由改变Q值表中的具体数值转变为改变神经网络的参数;采用ReLU作为激活函数,采用RMSProp作为神经网络参数更新算法;
(二)数据包路由算法的训练和决策
数据包路由算法的训练过程和决策过程均为分布式,各智能体的初始化和训练过程完全一致;
各节点i被视为独立的智能体,且拥有单独的神经网络Qi,其网络参数为θi;状态-动作值函数表示为Qi(s,h,a;θi),代表在局部状态s和隐藏状态h下,智能体i做出动作a后得到的数据包期望传输时延;各智能体i独立初始化容量为100的经验回放池Di,以储存环境转换信息;每次更新过程中,智能体i在Di中随机选取大小为16的批量数据进行拟合;
在时刻t数据包p到达节点n的队列头部时,智能体n将观察局部信息dp和En并通过与相邻节点的交互收集共享信息Cn;综合当前状态st:{dp,En,Cn}和隐藏状态ht,智能体n将依据∈-贪婪策略选取动作at,即以∈的概率选取在动作空间An中随机动作,以1-∈的概率选取Q值最高的动作,于是,at表示为:
Figure FDA0003146701590000031
接着当前数据包p被传输至相应相邻节点vt,智能体n接收到奖励rt;当前状态和隐藏状态分别发生转变为st+1和ht+1;此外,若下一节点vt即为当前数据包终点dp,则设置传输标志ft为1,否则设为0,因此,ft表示为:
Figure FDA0003146701590000032
智能体n接收到以上信息后,将把环境转变(st,ht,rt,vt,st+1,ht+1,ft)储存至其经验回访池Dn;与DQRN的序贯更新过程不同,Dn随机取出训练批量数据(sj,hj,rj,vj,sj+1,hj+1,fj),以遵循DQN算法的随机采样策略;由于多智能体环境的不稳定性,当前数据包p从下一节点vt至其终点dp的期望传输时延τ在训练过程前需要重新计算,即:
Figure FDA0003146701590000033
在决策时刻t最后阶段,利用梯度下降法更新神经网络参数Qnn);目标值yj为奖励rj和剩余传输时延τ之和,即:
yj=rj+τ(1-fj);
参数更新以最小化损失函数Lt,即:
Lt=(yj-Qn(sj,hj,aj;θn))2
将损失函数Lt对神经网络参数θn做偏导后,即完成参数更新:
Figure FDA0003146701590000034
其中,α为学习率;
各智能体的神经网络参数迭代训练直至收敛。
CN202011366522.5A 2020-11-30 2020-11-30 一种基于多智能体深度强化学习的数据包路由算法 Active CN112491712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011366522.5A CN112491712B (zh) 2020-11-30 2020-11-30 一种基于多智能体深度强化学习的数据包路由算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011366522.5A CN112491712B (zh) 2020-11-30 2020-11-30 一种基于多智能体深度强化学习的数据包路由算法

Publications (2)

Publication Number Publication Date
CN112491712A CN112491712A (zh) 2021-03-12
CN112491712B true CN112491712B (zh) 2021-08-17

Family

ID=74936807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011366522.5A Active CN112491712B (zh) 2020-11-30 2020-11-30 一种基于多智能体深度强化学习的数据包路由算法

Country Status (1)

Country Link
CN (1) CN112491712B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113315715B (zh) * 2021-04-07 2024-01-05 北京邮电大学 基于qmix的分布式网内拥塞控制方法
CN113254197B (zh) * 2021-04-30 2023-02-03 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
CN113300969B (zh) * 2021-05-20 2022-07-12 清华大学深圳国际研究生院 基于场景变化的拥塞控制切换方法、存储介质和电子设备
CN113395723B (zh) * 2021-06-11 2022-08-09 西安交通大学 基于强化学习的5g nr下行调度时延优化系统
CN113556287B (zh) * 2021-06-15 2022-10-14 南京理工大学 一种基于多智能体强化学习的软件定义网络路由方法
CN113489654B (zh) * 2021-07-06 2024-01-05 国网信息通信产业集团有限公司 一种路由选择方法、装置、电子设备及存储介质
CN113645589B (zh) * 2021-07-09 2024-05-17 北京邮电大学 一种基于反事实策略梯度的无人机集群路由计算方法
CN113783782B (zh) * 2021-09-09 2023-05-30 哈尔滨工程大学 一种深度强化学习的机会路由候选集节点排序方法
CN114124823B (zh) * 2021-10-18 2023-08-11 西安电子科技大学 面向高动态网络拓扑下的自适应路由方法、系统、设备
CN114244767B (zh) * 2021-11-01 2023-09-26 北京邮电大学 一种基于负载均衡的链路最小端到端时延路由算法
CN115022231B (zh) * 2022-06-30 2023-11-03 武汉烽火技术服务有限公司 一种基于深度强化学习的最优路径规划的方法和系统
CN116709359B (zh) * 2023-08-01 2023-10-31 南京邮电大学 一种飞行Ad Hoc网络的自适应路由联合预测方法
CN117412323B (zh) * 2023-09-27 2024-09-24 华中科技大学 一种基于MAPPO算法的WiFi网络资源调度方法及系统
CN118400336B (zh) * 2024-07-01 2024-09-24 南京信息工程大学 一种基于动态缓存的主动队列管理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103595577A (zh) * 2013-10-31 2014-02-19 赛尔网络有限公司 Isp间互联口超过阈值流量监控系统及方法
CN108762281A (zh) * 2018-06-08 2018-11-06 哈尔滨工程大学 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法
US20200341976A1 (en) * 2019-04-25 2020-10-29 Adobe Inc. Interactive search experience using machine learning

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10735268B2 (en) * 2017-04-21 2020-08-04 System73 Ltd. Predictive overlay network architecture
US20190005384A1 (en) * 2017-06-29 2019-01-03 General Electric Company Topology aware graph neural nets
CN108833382B (zh) * 2018-05-31 2020-12-15 腾讯科技(深圳)有限公司 网络信息检测方法、装置、存储介质和计算机设备
CN109413707B (zh) * 2018-08-03 2021-10-08 南京工业大学 无线网络环境下基于深度强化学习技术的智能路由方法
CN109639739B (zh) * 2019-01-30 2020-05-19 大连理工大学 一种基于自动编码器网络的异常流量检测方法
CN110995520B (zh) * 2020-02-28 2020-06-30 清华大学 网络流量预测方法、装置、计算机设备及可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103595577A (zh) * 2013-10-31 2014-02-19 赛尔网络有限公司 Isp间互联口超过阈值流量监控系统及方法
CN108762281A (zh) * 2018-06-08 2018-11-06 哈尔滨工程大学 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法
US20200341976A1 (en) * 2019-04-25 2020-10-29 Adobe Inc. Interactive search experience using machine learning

Also Published As

Publication number Publication date
CN112491712A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN112491712B (zh) 一种基于多智能体深度强化学习的数据包路由算法
You et al. Toward packet routing with fully distributed multiagent deep reinforcement learning
Yang et al. DetFed: Dynamic resource scheduling for deterministic federated learning over time-sensitive networks
Cheng et al. A delay-aware network structure for wireless sensor networks with in-network data fusion
CN115460130A (zh) 一种时间敏感网络中的多路径联合调度方法
Wu et al. Joint traffic control and multi-channel reassignment for core backbone network in SDN-IoT: a multi-agent deep reinforcement learning approach
CN105553749B (zh) 一种基于sdn的icn逻辑拓扑构建方法
Karthikeyan et al. Genetic algorithm with ensemble of immigrant strategies for multicast routing in Ad hoc networks
CN114710437A (zh) 一种结合区块链的物联网边缘网络路由架构
Mai et al. Packet routing with graph attention multi-agent reinforcement learning
Tellache et al. Deep reinforcement learning based resource allocation in dense sliced LoRaWAN networks
Wang et al. Dual-attention assisted deep reinforcement learning algorithm for energy-efficient resource allocation in Industrial Internet of Things
CN115396366A (zh) 基于图注意力网络的分布式智能路由方法
Bai et al. A deep reinforcement learning-based geographic packet routing optimization
Jia et al. TTDeep: Time-triggered scheduling for real-time ethernet via deep reinforcement learning
Wang et al. Multi-granularity fusion resource allocation algorithm based on dual-attention deep reinforcement learning and lifelong learning architecture in heterogeneous IIoT
Meng et al. Intelligent routing orchestration for ultra-low latency transport networks
Liang et al. Machine learning applications in the routing in computer networks
Wei et al. G-Routing: Graph Neural Networks-Based Flexible Online Routing
Murugeswari et al. Bio‐inspired Mimosa pudica algorithm for energy‐efficient wireless video sensor networks
Peng et al. End-to-end QoS guaranteed approach using multi-object genetic algorithm in cognitive MANETs
CN109195179B (zh) 一种wsn网络的分布式拥塞控制和功率分配方法
Abdulmajeed et al. A learning-based approach to improving multicast network performance
Pattnaik et al. Optimal shortest path selection by MSFO-SCNN for dynamic ring routing protocol in WSN
CN113316216B (zh) 一种用于微纳卫星网络的路由方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant