CN111416771B - 基于多智能体强化学习路由策略控制路由动作的方法 - Google Patents

基于多智能体强化学习路由策略控制路由动作的方法 Download PDF

Info

Publication number
CN111416771B
CN111416771B CN202010199453.7A CN202010199453A CN111416771B CN 111416771 B CN111416771 B CN 111416771B CN 202010199453 A CN202010199453 A CN 202010199453A CN 111416771 B CN111416771 B CN 111416771B
Authority
CN
China
Prior art keywords
routing
routing node
node
decision value
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010199453.7A
Other languages
English (en)
Other versions
CN111416771A (zh
Inventor
陈怿
曾思亮
许行飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese University of Hong Kong Shenzhen
Shenzhen Research Institute of Big Data SRIBD
Original Assignee
Chinese University of Hong Kong Shenzhen
Shenzhen Research Institute of Big Data SRIBD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese University of Hong Kong Shenzhen, Shenzhen Research Institute of Big Data SRIBD filed Critical Chinese University of Hong Kong Shenzhen
Priority to CN202010199453.7A priority Critical patent/CN111416771B/zh
Publication of CN111416771A publication Critical patent/CN111416771A/zh
Application granted granted Critical
Publication of CN111416771B publication Critical patent/CN111416771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/08Learning-based routing, e.g. using neural networks or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/302Route determination based on requested QoS
    • H04L45/306Route determination based on the nature of the carried application
    • H04L45/3065Route determination based on the nature of the carried application for real time traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/38Flow based routing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及信息技术领域,公开了一种基于多智能体强化学习路由策略控制路由动作的方法,包括:训练强化学习模型,所述强化学习模型利用Q学习算法更新路由节点的决策值,并结合更新的所述决策值利用策略梯度算法更新策略参数;根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载,利用所述强化学习模型确定策略参数;根据所述策略参数,确定所述路由节点的传出链接。本发明针对动态变化的网络连接的模式和网络负载,路由节点都能及时调整路由策略,根据数据包的目标节点选择合适的最短路径,最终大大减少了数据包的平均递送时间。

Description

基于多智能体强化学习路由策略控制路由动作的方法
技术领域
本发明涉及信息技术领域,尤其涉及一种基于多智能体强化学习路由策略控制路由动作的方法。
背景技术
通讯网络中的封包路由(packet routing)是序列决策中的一个重要应用问题。一个通讯网络包括一组节点和连接这些节点的链接,数据中心网络和互联网可以被看作通讯网络的现实例子。在一个通讯网络中,信息以数据包的形式在节点间传递。路由选择就是指导数据包如何通过一系列的中间节点,从初始节点到达目标节点的决策过程。通常情况下,数据包在通讯网络中存在多个路径可供选择,而且路径的选择通常决定了数据包的平均递送时间。
目前,针对封包路由问题已经有非常多的基于领域知识以及实践经验的启发式算法被提出,然而其中大部分的路由方法都依赖于对特定环境的理解来建立模拟网络模型。这些模拟网络模型忽略了许多重要的网络特点,比如动态变化的网络负载和移动用户,因此在这些模型下所做出的路由选择往往并不能使得数据包的平均递送时间降低到最小。
发明内容
为了解决相关技术中存在的问题,本公开实施例提供一种基于多智能体强化学习路由策略控制路由动作的方法。
本公开实施例提供的一种基于多智能体强化学习路由策略控制路由动作的方法,包括:
训练强化学习模型,所述强化学习模型利用Q学习算法更新路由节点的决策值,并结合更新的所述决策值利用策略梯度算法更新策略参数;
根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载,利用所述强化学习模型确定策略参数;
根据所述策略参数,确定所述路由节点的传出链接。
可选地,所述强化学习模型利用Q学习算法更新路由节点的决策值,包括:
使用以下公式1更新决策值Qi(s,a):
Figure BDA0002418845580000021
其中,(s,a)组成一对状态-动作组合,s表示t时刻的状态,即数据包的目标节点,a表示s状态下的动作,即数据包的传出链接;上标i、j分别表示路由节点,路由节点j为路由节点i的邻居路由节点;α为更新决策值Qi(s,a)的学习率;γ∈[0,1]为折算系数;
Figure BDA0002418845580000022
为t时刻下路由节点i通过传出链接ai转发数据包至目标节点s的决策值的预测量;
Figure BDA0002418845580000023
为t时刻下路由节点i通过选择传出链接a转发数据包而获得的及时奖励,其为数据包在路由节点i的缓存延迟
Figure BDA0002418845580000024
与数据包在传出链接a的传输延迟
Figure BDA0002418845580000025
之和的负数;
Figure BDA0002418845580000026
为在t时刻下路由节点j通过传出链接aj转发数据包至目标节点s的决策值。
可选地,所述结合更新的所述决策值利用策略梯度算法更新策略参数,包括:
使用如下公式2更新策略参数θi
Figure BDA0002418845580000027
Figure BDA0002418845580000028
其中,θi为所有状态-动作组合(s,a)对应的参数
Figure BDA0002418845580000029
集合,
Figure BDA00024188455800000210
用来标记状态-动作组合(s,a)的偏好值;β为更新策略参数θi的学习率;
公式2中
Figure BDA00024188455800000211
是在t时刻下对Qπ(s,a)的估计值,Qπ(s,a)为从状态s开始,遵循策略π作出传出链接a的决策值,根据公式1更新后的决策值确定;
Figure BDA0002418845580000031
表示对θ求导;
π(a|s,θi)表示在状态s下选择动作a的概率,由策略参数θi决定,按照SoftMax函数定义如下:
Figure BDA0002418845580000032
其中,∑a′expθsa′为遍历路由节点i所有可能的传出链接a′;
对π(a|s,θi)求导为:
Figure BDA0002418845580000033
其中,
Figure BDA0002418845580000034
表示路由节点i对状态-动作组合
Figure BDA0002418845580000035
的偏好值,
Figure BDA0002418845580000036
表示当前数据包的目标节点,
Figure BDA0002418845580000037
表示当前数据包的传出链接。
可选地,所述方法还包括:
利用资格迹更新策略梯度
Figure BDA0002418845580000038
使用如下公式3:
Figure BDA0002418845580000039
其中,资格迹按照式4进行更新:
Figure BDA00024188455800000310
其中,
Figure BDA00024188455800000311
用来记录路由节点i过去的梯度更新痕迹;ρ为梯度的折算系数;
Figure BDA00024188455800000312
表示策略π在t时刻的资格;
公式3中
Figure BDA00024188455800000313
是在t时刻下对Qπ(s,a)的估计值,Qπ(s,a)为从状态s开始,遵循策略π作出传出链接a的决策值,根据公式1更新后的决策值确定。
可选地,所述方法还包括:
利用全局反馈信号更新策略参数θi,使用如下公式5:
Figure BDA00024188455800000314
Figure BDA00024188455800000315
Figure BDA0002418845580000041
其中,δt为路由节点i的全局反馈信号;(St,At)为t时刻整个网络的状态-联合动作集合;St为t时刻所有激活的路由节点的状态;A为St状态下所有激活的路由节点的联合动作;A′为St+1状态下所有激活的路由节点的联合动作;Rt为路由网络在t时刻所产生的全局奖励;τt标记t时刻作出路由动作的路由节点的集合;
Figure BDA0002418845580000042
估计了t时刻所有被传输的数据包的总递送时间;
Figure BDA0002418845580000043
为路由节点i的决策值,根据公式1更新后的决策值确定。
本公开实施例提供的技术方案可以包括以下有益效果:
根据本公开实施例提供的技术方案,通过训练强化学习模型,利用Q学习算法更新决策值,路由节点的决策值,并结合更新的所述决策值利用策略梯度算法更新策略参数,之后根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载,利用所述强化学习模型确定策略参数,最后根据所述策略参数,确定所述路由节点的传出链接,实现了针对动态变化的网络连接模式和网络负载,路由节点都能及时调整路由策略,根据数据包的目标节点选择合适的最短路径,最终大大减少了数据包的平均递送时间。
附图说明
图1示出根据本公开一实施例的基于多智能体强化学习路由策略控制路由动作的方法的流程图;
图2示出一种通讯网络的网络拓扑结构示意图;
图3示出图1所示方法应用于图2中通讯网络的数据包平均递送时间的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出根据本公开一实施例的基于多智能体强化学习路由策略控制路由动作的方法的流程图。
如图1所示,所述控制路由动作的方法包括以下步骤S101-S103:
在步骤S101中,训练强化学习模型,所述强化学习模型利用Q学习算法更新路由节点的决策值,并结合更新的所述决策值利用策略梯度算法更新策略参数;
在步骤S102中,根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载,利用所述强化学习模型确定策略参数;
在步骤S103中,根据所述策略参数,确定所述路由节点的传出链接。
根据本公开的一实施例,通讯网络中的每一路由节点被视为独立的智能体,每个智能体将会根据数据包的目标节点将它递送至一个相邻节点。整个网络的状态(state)就是所有智能体的观察的集合。因为每个智能体的决策是基于它所能观察到的局部状态而非网络的全局状态得到的,也就是说,这样的路由决策问题是基于部分可观察的状态(partially observation state)。此外,整个网络的下一个状态只取决于上一个状态和所有智能体的行动,这就形成了一个马尔柯夫决策过程(Markov decision process)。因此,可以将网络路由看作一个多智能体,且部分可观察的马尔柯夫决策过程(POMDP)。
现有技术中提出基于Q学习算法和策略梯度算法来解决网络路由问题。其中,Q学习算法应用在网络路由中的构思可被称为Q路由,Q路由是指每个路由节点单独地保存一个本地二维查询表,即路由查询表,也称为Q表,所述Q表保存所述路由节点的传出链接(连接了邻居节点)和目标节点的组合。虽然Q路由体现了不基于模型方法在网络路由问题中的优越性,但网络负载从高级别减低到低级别时,Q学习算法不能及时调整它的策略来适应最优的最短路径。此外,Q路由是一个确定性策略,这会导致网络在高负载下拥堵而不能将传入的流量分散在可供选择的链接中。
与Q路由采用一种确定性策略解决通讯网络中的封包路由问题不同的是,策略梯度算法直接学习一个独立于Q函数的参数化策略来选择路由动作,也就是说,将每一个路由节点视为一个强化学习智能体并通过强化学习算法更新策略参数,独立地做出路由选择而不需要提前知道整个网络的领域知识。具体地,每个路由节点通过一个分布的梯度上升策略搜索过程更新策略参数,用参数π来表示给定策略参数下该路由节点所采取的策略。
在本公开方式中,提出一种基于多智能体强化学习路由策略控制路由动作的方法,该方法基于Q学习算法和策略梯度算法组合的方法来解决网络路由问题,每一个路由节点(也就是智能体)能够局部地学习路由策略,使得路由决策之间相互独立而不需要一个中心化的控制中心或者整个网络的领域知识(比如网络的拓扑结构),而且,每个智能体能够调整主动适应网络负载的变化,根据数据包的目标节点选择合适的最短路径,最终大大减少了数据包的平均递送时间。
根据本公开的一实施例,所述强化学习模型利用Q学习算法更新路由节点的决策值,包括:
使用以下公式1更新决策值Qi(s,a):
Figure BDA0002418845580000061
其中,(s,a)组成一对状态-动作组合,s表示t时刻的状态,即数据包的目标节点,a表示s状态下的动作,即数据包的传出链接;上标i、j分别表示路由节点,路由节点j为路由节点i的邻居路由节点;α为更新决策值Qi(s,a)的学习率;γ∈[0,1]为折算系数;
Figure BDA0002418845580000062
为t时刻下路由节点i通过传出链接ai转发数据包至目标节点s的决策值的预测量;
Figure BDA0002418845580000063
为t时刻下路由节点i通过选择传出链接a转发数据包而获得的及时奖励,其为数据包在路由节点i的缓存延迟
Figure BDA0002418845580000064
与数据包在传出链接a的传输延迟
Figure BDA0002418845580000065
之和的负数;
Figure BDA0002418845580000066
为在t时刻下路由节点j通过传出链接aj转发数据包至目标节点s的决策值。
在本公开方式中,强化学习框架中,Q学习算法描述如下:在每个离散的时间步t下,智能体完全观测到它当前的状态st,并且根据它的策略π执行一个对应的动作at,之后这个智能体接收到一个及时奖励rt并且进入下一个状态st+1。通过连续地与环境做出交互,强化学习智能体学习到最优策略π*使得累计奖励的数学期望最大化。
Figure BDA0002418845580000071
其中,γ∈[0,1]为折算系数,Gt称作收益。Q学习算法这样处理Q函数:
Figure BDA0002418845580000072
即从状态s开始,遵循策略π做出动作a所返回的期望。根据贝尔曼方程,最优的Q函数满足
Figure BDA0002418845580000073
其中,a′为在状态st+1下,根据最优策略π*执行的对应动作。Q学习算法使用贝尔曼方程不断更新它的值来估计最优Q函数。当算法收敛时,最优策略π*就能通过π*(s)=argmaxa Q*(s,a),
Figure BDA0002418845580000074
获得。
在本公开方式中,Qi(s,a)估计了从路由节点i通过传出链接a所花费时间的数学期望。考虑到数据包的转发过程中可能出现两种延迟,分别是数据包在通讯网络中的传输延迟
Figure BDA0002418845580000075
和数据包在路由节点缓存中等待被处理时的缓存延迟
Figure BDA0002418845580000076
因此将路由节点i(也称智能体i)在t时刻收到的奖励
Figure BDA0002418845580000077
记为:
Figure BDA0002418845580000078
接着更新更新决策值Qi(s,a),记为:
Figure BDA0002418845580000079
根据本公开的一实施例,所述结合更新的所述决策值利用策略梯度算法更新策略参数,包括:
使用如下公式更新策略参数θi
Figure BDA00024188455800000710
Figure BDA00024188455800000711
其中,θi为所有状态-动作组合(s,a)对应的参数
Figure BDA00024188455800000712
集合,
Figure BDA00024188455800000713
用来标记状态-动作组合(s,a)的偏好值;β为更新策略参数θi的学习率;
公式2中
Figure BDA00024188455800000714
是在t时刻下对Qπ(s,a)的估计值,Qπ(s,a)为从状态s开始,遵循策略π作出传出链接a的决策值,根据公式1更新后的决策值确定;
Figure BDA0002418845580000081
表示对θ求导;
π(a|s,θi)表示在状态s下选择动作a的概率,由策略参数θi决定,按照SoftMax函数定义如下:
Figure BDA0002418845580000082
其中,∑a′expθsa′为遍历路由节点i所有可能的传出链接a′;
对π(a|s,θi)求导为:
Figure BDA0002418845580000083
其中,
Figure BDA0002418845580000084
表示路由节点i对状态-动作组合
Figure BDA0002418845580000085
的偏好值,
Figure BDA0002418845580000086
表示当前数据包的目标节点,
Figure BDA0002418845580000087
表示当前数据包的传出链接。
在本公开方式中,强化学习框架中,策略梯度描述如下:对于某个智能体,使用参数
Figure BDA0002418845580000088
来标记某一状态-动作(s,a)的偏好值,并将所有状态-动作组合对应的θsa的集合记为θ。其中,θ就是该智能策略π的参数。随机策略通过SoftMax函数决定状态s下选择动作a的概率,
Figure BDA0002418845580000089
其中,∑a′expθsa′为遍历了该智能体所有可能的传出链接a′,SoftMax规则确保了策略的随机性,让每个动作都存在被选择的可能。策略梯度算法的目标是找出最大化累积折算奖励的期望J(θ)的参数θ,也就是使用随机梯度上升来寻找局部最优解,在某一时刻t,按如下式更新参数θ:
θt+1=θt+β△θt
其中,β为策略参数的学习率,△θt的长期均值等于J(θ)相对θ的梯度
Figure BDA00024188455800000810
根据决策梯度理论和REINFORCE算法,可知:
Figure BDA00024188455800000811
其中,μ(s)是状态s在策略π下的分布,若设置
Figure BDA0002418845580000091
则对于梯度
Figure BDA0002418845580000092
来说具有相对高的方差,因此,在本公开方式中,利用一步反馈取代全部反馈Gt,记为
Figure BDA0002418845580000093
其中,
Figure BDA0002418845580000094
是Qπ(s,a)的估计值。此外,根据扩展策略梯度理论:
Figure BDA0002418845580000095
定义
Figure BDA0002418845580000096
当做底线来减少
Figure BDA0002418845580000097
的估计值的方差,得到:
Figure BDA0002418845580000098
在本公开方式中,路由节点i(也称智能体i)的策略参数θi按照公式2进行跟新:
Figure BDA0002418845580000099
其中,路由节点i选择传出链接a的概率按照SoftMax函数定义如下:
Figure BDA00024188455800000910
根据本公开的一实施例,路由节点作为独立的智能体都从局部奖励中学习到一个动态的路由策略,也就是说每一个路由节点独立地通过公式2更新策略参数,而公式2中的
Figure BDA00024188455800000911
以及
Figure BDA00024188455800000912
根据公式1更新,使得策略π可以更快地收敛,进而实现了针对动态变化的网络连接的模式和网络负载,减少数据包的平均递送时间的发明目的。
根据本公开的一实施例,考虑到每个路由节点从局部奖励中学习策略,则所有的路由节点在传递数据包时会表现出自私性,也就是最大化自己的“收益”而不与其他路由节点合作,因此,可以为路由节点提供一个全局奖励信号,则路由节点可以从中学习合作。由于路由节点的路由动作会对整个通讯网络的交通造成持续影响,在t时刻的全局奖励会被t时刻之前的所有的路由节点的路由动作所影响,因此,采用资格迹的方式来处理奖励的延迟问题。
在本公开方式中,在使用公式2更新策略参数θi的基础上,即
Figure BDA0002418845580000101
利用资格迹更新策略梯度
Figure BDA0002418845580000102
使用如下公式3:
Figure BDA0002418845580000103
其中,资格迹按照式4进行更新:
Figure BDA0002418845580000104
其中,
Figure BDA0002418845580000105
用来记录路由节点i过去的梯度更新痕迹;ρ为梯度的折算系数;
Figure BDA0002418845580000106
表示策略π在t时刻的资格;
公式3中
Figure BDA0002418845580000107
是在t时刻下对Qπ(s,a)的估计值,Qπ(s,a)为从状态s开始,遵循策略π作出传出链接a的决策值,根据公式1更新后的决策值确定。
本公开方式中,利用资格迹的方式更新策略梯度△θt。具体地,利用et来标记策略π在t时刻的资格,记为:
Figure BDA0002418845580000108
可见et与θ为相同维度的向量。定义t<0,et=0,表示如果某智能体在t时刻待用或者没有执行任何动作,则et=0。定义
Figure BDA0002418845580000109
为某智能体在t时刻的资格迹,其中,ρ为梯度的折算系数,zt被用来记录过去的梯度更新痕迹。其中zt按照下式进行更新:
Figure BDA00024188455800001010
基于zt的更新方式,可知对于策略梯度△θt来说,首先假定ρ=γ,则
Figure BDA00024188455800001011
假设该策略π收敛,在t时刻的期望
Figure BDA0002418845580000111
其中,G(st,at)从来标记t时刻状态st的智能体执行动作at之后的长期反馈。从上述基于假定条件ρ=γ的分析可以看到,智能体的策略参数不偏地沿着能够增加折算累计奖励期望的方向更新。如果ρ=0,智能体的策略参数就沿着折算累计奖励的估计梯度更新;当0<ρ<γ时,折算系数体现了估计梯度的偏差和方差之间的取舍。由于更新是实时伴随着奖励的,策略参数会被快速更新。
根据本公开的一实施例,将
Figure BDA0002418845580000112
取代
Figure BDA0002418845580000113
考虑了路由节点的动作对整个通讯网络的交通会造成持续影响,也就是在t时刻的全局奖励会被t时刻之前所有智能体所做的动作影响,从而可以处理延迟奖励的问题,进而各个智能体能够学会与其他智能体相互合作,共同减少数据包的平均递送时间。对于网路路由问题,如果网络中存在一个可以观察到所有路由节点的状态并决定所有的动作的中央控制器,则可以将整个网络看作一个单智能体,直接按照公式3更新策略参数。
根据本公开的一实施例,考虑到不存在中央控制器的情况,则对于每一个智能体来说,可以利用全局反馈信号指导多智能体的策略学习。具体地,在利用公式4更新资格迹的基础上,利用全局反馈信号更新策略参数θi,使用如下公式5:
Figure BDA0002418845580000114
Figure BDA0002418845580000115
Figure BDA0002418845580000116
其中,δt为路由节点i的全局反馈信号;(St,At)为t时刻整个网络的状态-联合动作集合;St为t时刻所有激活的路由节点的状态;A为St状态下所有激活的路由节点的联合动作;A′为St+1状态下所有激活的路由节点的联合动作;Rt为路由网络在t时刻所产生的全局奖励;τt标记t时刻作出路由动作的路由节点的集合;
Figure BDA0002418845580000121
估计了t时刻所有被传输的数据包的总递送时间;
Figure BDA0002418845580000122
为路由节点i的决策值,根据公式1更新后的决策值确定,
Figure BDA0002418845580000123
表示在t时刻下对Qπ(s,a)的估计值,Qπ(s,a)表示在t时刻遵循策略π作出决策的联合状态-动作的决策值;
Figure BDA0002418845580000124
为在t时刻下路由节点在状态St作出联合动作A的决策值(对应于t时刻所有激活的路由节点的决策值之和);
Figure BDA0002418845580000125
为在t+1时刻下路由节点在状态St+1作出联合动作A′的决策值,其中,
Figure BDA0002418845580000126
以及
Figure BDA0002418845580000127
根据公式
Figure BDA0002418845580000128
计算,At与A对应,At+1与A′对应。
在本公开方式中,使用St和At来标记t时刻整个网络(所有智能体)的状态和联合动作,当路由节点在t时刻根据自身的策略将数据包发送到邻居路由节点时,联合动作At被执行。
全局反馈信号δt反映了之前动作对网络交通的影响,是所有活动智能体的局部反馈信号之和,假设t时刻当前路由节点i将一个数据包发送至它的邻居路由节点j,那么路由节点i的局部反馈信号就是
Figure BDA0002418845580000129
网络系统收集局部反馈信号,然后广播全局反馈信号给智能体们。对于任意智能体,比如智能体i,利用全局反馈信号δt和公式4给出的资格迹
Figure BDA00024188455800001210
按照公式5更新策略参数θi,通过发布优化和利用全局反馈信号,每个路由节点都能学会合作行为,减少数据包在通讯网络中的平均递送时间。
下面分别给出根据本公开实施例的方法在网络拓扑中的数据包平均递送时间的测试结果。
图2示出一种通讯网络的网络拓扑结构示意图。如图2所示,通讯网络的网络拓扑结构为不规则的6×6网格,不规则的6×6网格拓扑包括了两块紧密连接的区块和两个桥接,桥接可能是造成网络交通拥堵的瓶颈。
图3示出图1所示方法应用于图2中通讯网络的数据包平均递送时间的示意图。
如图3所示,作为测试例,分别是本公开实施例提出的基于局部反馈信号更新参数的方法(以公式2更新策略参数θi,以Hybrid表示,)和基于全局反馈信号更新参数的方法(以公式5更新策略参数θi,以Multi-Agent Hybrid表示)。
作为对比例,分别给出:1)最短路径,是一种静态的路由方案,在低负载下近似于最优解;2)Q路由是一种基于值的强化学习方案;3)Confidence-based Q路由算法,此为Q路由的一种改进算法;4)GAPS是一种基于决策梯度的强化学习方案(未在图中示出);5)全局路由(Global Routing),此算法在每一时刻下遍历整张网络,应用在线动态规划算法遍历估计一次数据包延迟时间,通过消耗大量计算量,此算法可实现最低延迟。全局路由协议能将数据包的延迟时间降到最低并将所能承受的交通负载提升至最高。
首先,使用离散时间模拟器来对通讯网络操作过程进行建模。在模拟环境中,使用泊松过程来模拟数据包的产生。网络的负载参数被设置成单位时间内平均产生的符从泊松分布的数据包数量。一旦一个包被注入网络,它的起始节点和目标节点会均匀地从所有节点中随机选取。此外,数据包的起点和终点一定是不同的,并且数据包会在到达目标节点时被立即从网络中移除。路由节点缓存中的数据包符合先进先出规则,缓存的长度不设限。路由节点总是首先处理排在缓存首位的包。路由节点会记录数据包在缓存中等待所产生的缓存延迟。假设整个通讯网络中的传输延迟都是一个单位时间。
其次,调整并确定诸如学习率和折算系数的超参数。一旦超参数被确定,就在整个实验过程保持不变。在实验中重复改变网络的负载,从低水平到高水平,接下来又降低到低水平。在每一级负载水平,测量学习过程稳定后网络中数据包的平均递送时间。
图3比较了图2示出的网络拓扑下,测试例以及对比例在不同负载水平下的平均递送时间。每一个图像都是十次实验记录的均值。从图3中可以观察到Q路由只能在网络负载上升时体现出较好的适应性,但当网络负载再次降低时,适应过程会非常缓慢而且再也不能收敛到低负载下的最优(最短)路径,可见Q路由不能适应降低的负载,它的曲线只是重复从低到高调整负载水平。GAPS实验中表现较差而且收敛缓慢。即使使用已经训练好的Hybrid和Multi-Agent Hybrid的策略参数初始化GPAS,GAPS也无法呈现出一个稳定的学习过程,收敛也因为动态变化的网络负载而不能得到保证,GAPS的结果没有在图中显示,因为不能获得一个足够稳定的效果。
可以从图中观察到Hybrid和Multi-Agent Hybrid在两种情况下都表现出更好的适应性和承受更高的网络负载。当负载处在低水平时,Q学习能够实现一个与最短路径相似的平均递送时间,而Hybrid和Multi-Agent Hybrid会表现稍差。这归咎于基于策略的随机决策过程,因为总是存在一定概率探索所有的传出链接。当网络负载水平升高时,Hybrid和Multi-Agent Hybrid能够承受比确定性算法(Q路由、Confidence-basedQ路由算法和最短路径)更高的负载。Hybrid和Multi-Agent Hybrid的随机路由策略保证了这两种算法能够将包分散到可用的连接来缓和网络交通堵塞。另外,当一个数据包的跳转次数与网络中路由节点的总数相等时,为了防止持续影响通讯效果将会丢弃此数据包。当Hybrid和Multi-Agent Hybrid收敛后,丢包率将会减少到可忽略的水平。
综上所述,通过实验反馈和理论分析,我们将Hybrid、Multi-Agent Hybrid与对比例中的Confidence-based Q路由算法以及Global Routing算法相比较。通过利用Hybrid、Multi-Agent Hybrid中的探索机制以及多智能体的协同合作,我们提出的算法比Confidence-based Q路由算法有着更好的对网络负载变化的适应能力,能够适应更高的网络负载并且在同等的网络负载下他们能够实现更低的传输延迟。在另一方面,虽然GlobalRouting可以视为一种理论最优的算法,但是此算法受制于它极高的计算消耗量,因此Global Routing算法不是一种可适用于实际场景中的算法。我们所提出的Hybrid与Multi-Agent Hybrid算法,相比Global Routing而言大幅降低了实现算法所需要的计算消耗,并且在效果上接近于Global Routing所达到的最优效果。因此,我们认为Hybrid与Multi-Agent Hybrid算法在理论与实际应用方面都有着他们的充分优越性,是强化学习在排队网络中的一次成功应用。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于多智能体强化学习路由策略控制路由动作的方法,其特征在于,包括:
训练强化学习模型,所述强化学习模型利用Q学习算法更新路由节点的决策值,并结合更新的所述决策值利用策略梯度算法更新策略参数;
根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载,利用所述强化学习模型确定策略参数;
根据所述策略参数,确定所述路由节点的传出链接;
其中,所述结合更新的所述决策值利用策略梯度算法更新策略参数,包括:
使用如下公式2更新策略参数θi
Figure FDA0003442059090000011
Figure FDA0003442059090000012
其中,θi为所有状态-动作组合(s,a)对应的参数
Figure FDA0003442059090000013
集合,
Figure FDA0003442059090000014
用来标记状态-动作组合(s,a)的偏好值;(s,a)组成一对状态-动作组合,s表示t时刻的状态,即数据包的目标节点,a表示s状态下的动作,即数据包的传出链接;上标i、j分别表示路由节点,路由节点j为路由节点i的邻居路由节点;β为更新策略参数θi的学习率;
公式2中
Figure FDA0003442059090000015
是在t时刻下对Qπ(s,a)的估计值,Qπ(s,a)为从状态s开始,遵循策略π作出传出链接a的决策值,由利用Q学习算法更新后的决策值确定;
Figure FDA0003442059090000016
表示对θ求导;
π(a|s,θi)表示在状态s下选择动作a的概率,由策略参数θi决定。
2.根据权利要求1所述的方法,其特征在于,所述强化学习模型利用Q学习算法更新路由节点的决策值,包括:
使用以下公式1更新决策值Qi(s,a):
Figure FDA0003442059090000017
其中,α为更新决策值Qi(s,a)的学习率;γ∈[0,1]为折算系数;
Figure FDA0003442059090000021
为t时刻下路由节点i通过传出链接ai转发数据包至目标节点s的决策值的预测量;
Figure FDA0003442059090000022
为t时刻下路由节点i通过选择传出链接a转发数据包而获得的及时奖励,其为数据包在路由节点i的缓存延迟
Figure FDA0003442059090000023
与数据包在传出链接a的传输延迟
Figure FDA0003442059090000024
之和的负数;
Figure FDA0003442059090000025
为在t时刻下路由节点j通过传出链接aj转发数据包至目标节点s的决策值。
3.根据权利要求2所述的方法,其特征在于,所述π(a|s,θi)表示在状态s下选择动作a的概率,由策略参数θi决定,按照SoftMax函数定义如下:
Figure FDA0003442059090000026
其中,∑a′expθsa′为遍历路由节点i所有可能的传出链接a′;
对π(a|s,θi)求导为:
Figure FDA0003442059090000027
其中,
Figure FDA0003442059090000028
表示路由节点i对状态-动作组合
Figure FDA0003442059090000029
的偏好值,
Figure FDA00034420590900000210
表示当前数据包的目标节点,
Figure FDA00034420590900000211
表示当前数据包的传出链接。
4.根据权利要求3所述的方法,其特征在于,还包括:
利用资格迹更新策略梯度
Figure FDA00034420590900000212
使用如下公式3:
Figure FDA00034420590900000213
其中,资格迹按照公式4进行更新:
Figure FDA00034420590900000214
其中,
Figure FDA00034420590900000215
用来记录路由节点i过去的梯度更新痕迹;ρ为梯度的折算系数;
Figure FDA00034420590900000216
表示策略π在t时刻的资格;
公式3中
Figure FDA00034420590900000217
是在t时刻下对Qπ(s,a)的估计值,Qπ(s,a)为从状态s开始,遵循策略π作出传出链接a的决策值,根据公式1更新后的决策值确定。
5.根据权利要求4所述的方法,其特征在于,还包括:
利用全局反馈信号更新策略参数θi,使用如下公式5:
Figure FDA0003442059090000031
Figure FDA0003442059090000032
Figure FDA0003442059090000033
其中,δt为路由节点i的全局反馈信号;(St,At)为t时刻整个网络的状态-联合动作集合;St为t时刻所有激活的路由节点的状态;A为St状态下所有激活的路由节点的联合动作;A′为St+1状态下所有激活的路由节点的联合动作;Rt为路由网络在t时刻所产生的全局奖励;τt标记t时刻作出路由动作的路由节点的集合;
Figure FDA0003442059090000034
估计了t时刻所有被传输的数据包的总递送时间;
Figure FDA0003442059090000035
为路由节点i的决策值,根据公式1更新后的决策值确定。
CN202010199453.7A 2020-03-20 2020-03-20 基于多智能体强化学习路由策略控制路由动作的方法 Active CN111416771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010199453.7A CN111416771B (zh) 2020-03-20 2020-03-20 基于多智能体强化学习路由策略控制路由动作的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010199453.7A CN111416771B (zh) 2020-03-20 2020-03-20 基于多智能体强化学习路由策略控制路由动作的方法

Publications (2)

Publication Number Publication Date
CN111416771A CN111416771A (zh) 2020-07-14
CN111416771B true CN111416771B (zh) 2022-02-25

Family

ID=71494683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010199453.7A Active CN111416771B (zh) 2020-03-20 2020-03-20 基于多智能体强化学习路由策略控制路由动作的方法

Country Status (1)

Country Link
CN (1) CN111416771B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898770B (zh) * 2020-09-29 2021-01-15 四川大学 一种多智能体强化学习方法、电子设备及存储介质
CN112180730B (zh) * 2020-10-10 2022-03-01 中国科学技术大学 一种多智能体系统分层最优一致性控制方法和装置
CN112260953A (zh) * 2020-10-21 2021-01-22 中电积至(海南)信息技术有限公司 一种基于强化学习的多通道数据转发决策方法
CN112484733B (zh) * 2020-12-04 2022-10-25 东南大学 一种基于拓扑图的强化学习室内导航方法
CN112801731B (zh) * 2021-01-06 2021-11-02 广东工业大学 一种接单辅助决策的联邦强化学习方法
US11606265B2 (en) 2021-01-29 2023-03-14 World Wide Technology Holding Co., LLC Network control in artificial intelligence-defined networking
CN113518035B (zh) * 2021-05-26 2023-01-31 香港中文大学(深圳) 路由确定方法及装置
CN113726664B (zh) * 2021-08-03 2022-10-28 哈尔滨工程大学 一种基于双更新策略的车联网节点转发效用学习方法
CN114286413B (zh) * 2021-11-02 2023-09-19 北京邮电大学 Tsn网络联合路由选择与流分配方法及相关设备
CN114338497B (zh) * 2021-12-24 2022-10-11 中南大学 基于在线强化学习的列车车队数据路由系统及方法
CN114374638B (zh) * 2022-01-10 2024-02-27 之江实验室 一种跨域系统的协同路由方法及装置
CN114500360B (zh) * 2022-01-27 2022-11-11 河海大学 一种基于深度强化学习的网络流量调度方法以及系统
CN115086667B (zh) * 2022-07-26 2022-11-18 香港中文大学(深圳) 一种基于自适应学习的实时视频传输方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108401015A (zh) * 2018-02-02 2018-08-14 广州大学 一种基于深度强化学习的数据中心网络路由方法
CN109361601A (zh) * 2018-10-31 2019-02-19 浙江工商大学 一种基于强化学习的sdn路由规划方法
CN110012516A (zh) * 2019-03-28 2019-07-12 北京邮电大学 一种基于深度强化学习架构的低轨卫星路由策略方法
CN112491714A (zh) * 2020-11-13 2021-03-12 安徽大学 SDN环境下基于深度强化学习的智能QoS路由优化方法、系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11657266B2 (en) * 2018-11-16 2023-05-23 Honda Motor Co., Ltd. Cooperative multi-goal, multi-agent, multi-stage reinforcement learning
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN108683614B (zh) * 2018-05-15 2021-11-09 国网江苏省电力有限公司苏州供电分公司 基于门限残差网络的虚拟现实设备集群带宽分配装置
US11381515B2 (en) * 2019-06-28 2022-07-05 Intel Corporation On-demand packet queuing in a network device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108401015A (zh) * 2018-02-02 2018-08-14 广州大学 一种基于深度强化学习的数据中心网络路由方法
CN109361601A (zh) * 2018-10-31 2019-02-19 浙江工商大学 一种基于强化学习的sdn路由规划方法
CN110012516A (zh) * 2019-03-28 2019-07-12 北京邮电大学 一种基于深度强化学习架构的低轨卫星路由策略方法
CN112491714A (zh) * 2020-11-13 2021-03-12 安徽大学 SDN环境下基于深度强化学习的智能QoS路由优化方法、系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DROM:Optimizing the routing in software-defined networks with deep reinforcement learning;Yu Changhe 等;《IEEE Access》;20181023;第6卷;正文第三、四章节 *

Also Published As

Publication number Publication date
CN111416771A (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
CN111416771B (zh) 基于多智能体强化学习路由策略控制路由动作的方法
CN112491714B (zh) SDN环境下基于深度强化学习的智能QoS路由优化方法、系统
CN111065105B (zh) 一种面向无人机网络切片的分布式智能路由方法
CN111211987B (zh) 网络中流量动态调整方法、系统、电子设备及存储介质
Kim et al. Ant colony based self-adaptive energy saving routing for energy efficient Internet
CN114697229B (zh) 一种分布式路由规划模型的构建方法及应用
CN104168620A (zh) 无线多跳回传网络中的路由建立方法
Shilova et al. Full echo Q-routing with adaptive learning rates: A reinforcement learning approach to network routing
Li et al. A multi-agent reinforcement learning routing protocol for underwater optical sensor networks
CN113194034A (zh) 基于图神经网络和深度强化学习的路由优化方法及系统
CN113938415B (zh) 一种基于链路状态估计的网络路由转发方法及系统
CN114499648B (zh) 基于多智能体协作的无人机集群网络智能多跳路由方法
CN117041129A (zh) 一种基于多智能体强化学习的低轨卫星网络流路由方法
Xu et al. Evaluating and boosting reinforcement learning for intra-domain routing
Oužecki et al. Reinforcement learning as adaptive network routing of mobile agents
Kavalerov et al. Adaptive q-routing with random echo and route memory
Zeng et al. Multi-agent reinforcement learning for adaptive routing: A hybrid method using eligibility traces
CN113518035A (zh) 路由确定方法及装置
Mai et al. Packet routing with graph attention multi-agent reinforcement learning
CN116886587A (zh) 一种基于知识及深度强化学习的电力通信网路由优化方法
CN113645589B (zh) 一种基于反事实策略梯度的无人机集群路由计算方法
CN110113418B (zh) 一种车联信息中心网络的协同缓存更新方法
CN115473854B (zh) 一种多模态网络的流量智能控制方法
CN116389347A (zh) 一种基于强化学习的动态sdn路由优化算法
CN111555978B (zh) 智能电网中具有节能和服务质量保证的sdn路由布置方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant