CN111416771B

CN111416771B - 基于多智能体强化学习路由策略控制路由动作的方法

Info

Publication number: CN111416771B
Application number: CN202010199453.7A
Authority: CN
Inventors: 陈怿; 曾思亮; 许行飞
Original assignee: Chinese University of Hong Kong Shenzhen; Shenzhen Research Institute of Big Data SRIBD
Current assignee: Chinese University of Hong Kong Shenzhen; Shenzhen Research Institute of Big Data SRIBD
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2022-02-25
Anticipated expiration: 2040-03-20
Also published as: CN111416771A

Abstract

本发明涉及信息技术领域，公开了一种基于多智能体强化学习路由策略控制路由动作的方法，包括：训练强化学习模型，所述强化学习模型利用Q学习算法更新路由节点的决策值，并结合更新的所述决策值利用策略梯度算法更新策略参数；根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载，利用所述强化学习模型确定策略参数；根据所述策略参数，确定所述路由节点的传出链接。本发明针对动态变化的网络连接的模式和网络负载，路由节点都能及时调整路由策略，根据数据包的目标节点选择合适的最短路径，最终大大减少了数据包的平均递送时间。

Description

基于多智能体强化学习路由策略控制路由动作的方法

技术领域

本发明涉及信息技术领域，尤其涉及一种基于多智能体强化学习路由策略控制路由动作的方法。

背景技术

通讯网络中的封包路由(packet routing)是序列决策中的一个重要应用问题。一个通讯网络包括一组节点和连接这些节点的链接，数据中心网络和互联网可以被看作通讯网络的现实例子。在一个通讯网络中，信息以数据包的形式在节点间传递。路由选择就是指导数据包如何通过一系列的中间节点，从初始节点到达目标节点的决策过程。通常情况下，数据包在通讯网络中存在多个路径可供选择，而且路径的选择通常决定了数据包的平均递送时间。

目前，针对封包路由问题已经有非常多的基于领域知识以及实践经验的启发式算法被提出，然而其中大部分的路由方法都依赖于对特定环境的理解来建立模拟网络模型。这些模拟网络模型忽略了许多重要的网络特点，比如动态变化的网络负载和移动用户，因此在这些模型下所做出的路由选择往往并不能使得数据包的平均递送时间降低到最小。

发明内容

为了解决相关技术中存在的问题，本公开实施例提供一种基于多智能体强化学习路由策略控制路由动作的方法。

本公开实施例提供的一种基于多智能体强化学习路由策略控制路由动作的方法，包括：

训练强化学习模型，所述强化学习模型利用Q学习算法更新路由节点的决策值，并结合更新的所述决策值利用策略梯度算法更新策略参数；

根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载，利用所述强化学习模型确定策略参数；

根据所述策略参数，确定所述路由节点的传出链接。

可选地，所述强化学习模型利用Q学习算法更新路由节点的决策值，包括：

使用以下公式1更新决策值Qⁱ(s,a)：

其中，(s,a)组成一对状态-动作组合，s表示t时刻的状态，即数据包的目标节点，a表示s状态下的动作，即数据包的传出链接；上标i、j分别表示路由节点，路由节点j为路由节点i的邻居路由节点；α为更新决策值Qⁱ(s,a)的学习率；γ∈[0,1]为折算系数；

为t时刻下路由节点i通过传出链接aⁱ转发数据包至目标节点s的决策值的预测量；

为t时刻下路由节点i通过选择传出链接a转发数据包而获得的及时奖励，其为数据包在路由节点i的缓存延迟

与数据包在传出链接a的传输延迟

之和的负数；

为在t时刻下路由节点j通过传出链接a^j转发数据包至目标节点s的决策值。

可选地，所述结合更新的所述决策值利用策略梯度算法更新策略参数，包括：

使用如下公式2更新策略参数θⁱ：

其中，θⁱ为所有状态-动作组合(s,a)对应的参数

集合，

用来标记状态-动作组合(s,a)的偏好值；β为更新策略参数θⁱ的学习率；

公式2中

是在t时刻下对Q^π(s,a)的估计值，Q^π(s,a)为从状态s开始，遵循策略π作出传出链接a的决策值，根据公式1更新后的决策值确定；

表示对θ求导；

π(a|s,θⁱ)表示在状态s下选择动作a的概率，由策略参数θⁱ决定，按照SoftMax函数定义如下：

其中，∑_a′expθ_sa′为遍历路由节点i所有可能的传出链接a′；

对π(a|s,θⁱ)求导为：

其中，

表示路由节点i对状态-动作组合

的偏好值，

表示当前数据包的目标节点，

表示当前数据包的传出链接。

可选地，所述方法还包括：

利用资格迹更新策略梯度

使用如下公式3:

其中，资格迹按照式4进行更新：

其中，

用来记录路由节点i过去的梯度更新痕迹；ρ为梯度的折算系数；

表示策略π在t时刻的资格；

公式3中

是在t时刻下对Q^π(s,a)的估计值，Q^π(s,a)为从状态s开始，遵循策略π作出传出链接a的决策值，根据公式1更新后的决策值确定。

可选地，所述方法还包括：

利用全局反馈信号更新策略参数θⁱ，使用如下公式5：

其中，δ_t为路由节点i的全局反馈信号；(S_t,A_t)为t时刻整个网络的状态-联合动作集合；S_t为t时刻所有激活的路由节点的状态；A为S_t状态下所有激活的路由节点的联合动作；A′为S_t+1状态下所有激活的路由节点的联合动作；R_t为路由网络在t时刻所产生的全局奖励；τ_t标记t时刻作出路由动作的路由节点的集合；

估计了t时刻所有被传输的数据包的总递送时间；

为路由节点i的决策值，根据公式1更新后的决策值确定。

本公开实施例提供的技术方案可以包括以下有益效果：

根据本公开实施例提供的技术方案，通过训练强化学习模型，利用Q学习算法更新决策值，路由节点的决策值，并结合更新的所述决策值利用策略梯度算法更新策略参数，之后根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载，利用所述强化学习模型确定策略参数，最后根据所述策略参数，确定所述路由节点的传出链接，实现了针对动态变化的网络连接模式和网络负载，路由节点都能及时调整路由策略，根据数据包的目标节点选择合适的最短路径，最终大大减少了数据包的平均递送时间。

附图说明

图1示出根据本公开一实施例的基于多智能体强化学习路由策略控制路由动作的方法的流程图；

图2示出一种通讯网络的网络拓扑结构示意图；

图3示出图1所示方法应用于图2中通讯网络的数据包平均递送时间的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出根据本公开一实施例的基于多智能体强化学习路由策略控制路由动作的方法的流程图。

如图1所示，所述控制路由动作的方法包括以下步骤S101-S103：

在步骤S101中，训练强化学习模型，所述强化学习模型利用Q学习算法更新路由节点的决策值，并结合更新的所述决策值利用策略梯度算法更新策略参数；

在步骤S102中，根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载，利用所述强化学习模型确定策略参数；

在步骤S103中，根据所述策略参数，确定所述路由节点的传出链接。

根据本公开的一实施例，通讯网络中的每一路由节点被视为独立的智能体，每个智能体将会根据数据包的目标节点将它递送至一个相邻节点。整个网络的状态(state)就是所有智能体的观察的集合。因为每个智能体的决策是基于它所能观察到的局部状态而非网络的全局状态得到的，也就是说，这样的路由决策问题是基于部分可观察的状态(partially observation state)。此外，整个网络的下一个状态只取决于上一个状态和所有智能体的行动，这就形成了一个马尔柯夫决策过程(Markov decision process)。因此，可以将网络路由看作一个多智能体，且部分可观察的马尔柯夫决策过程(POMDP)。

现有技术中提出基于Q学习算法和策略梯度算法来解决网络路由问题。其中，Q学习算法应用在网络路由中的构思可被称为Q路由，Q路由是指每个路由节点单独地保存一个本地二维查询表，即路由查询表，也称为Q表，所述Q表保存所述路由节点的传出链接(连接了邻居节点)和目标节点的组合。虽然Q路由体现了不基于模型方法在网络路由问题中的优越性，但网络负载从高级别减低到低级别时，Q学习算法不能及时调整它的策略来适应最优的最短路径。此外，Q路由是一个确定性策略，这会导致网络在高负载下拥堵而不能将传入的流量分散在可供选择的链接中。

与Q路由采用一种确定性策略解决通讯网络中的封包路由问题不同的是，策略梯度算法直接学习一个独立于Q函数的参数化策略来选择路由动作，也就是说，将每一个路由节点视为一个强化学习智能体并通过强化学习算法更新策略参数，独立地做出路由选择而不需要提前知道整个网络的领域知识。具体地，每个路由节点通过一个分布的梯度上升策略搜索过程更新策略参数，用参数π来表示给定策略参数下该路由节点所采取的策略。

在本公开方式中，提出一种基于多智能体强化学习路由策略控制路由动作的方法，该方法基于Q学习算法和策略梯度算法组合的方法来解决网络路由问题，每一个路由节点(也就是智能体)能够局部地学习路由策略，使得路由决策之间相互独立而不需要一个中心化的控制中心或者整个网络的领域知识(比如网络的拓扑结构)，而且，每个智能体能够调整主动适应网络负载的变化，根据数据包的目标节点选择合适的最短路径，最终大大减少了数据包的平均递送时间。

根据本公开的一实施例，所述强化学习模型利用Q学习算法更新路由节点的决策值，包括：

使用以下公式1更新决策值Qⁱ(s,a)：

与数据包在传出链接a的传输延迟

之和的负数；

在本公开方式中，强化学习框架中，Q学习算法描述如下：在每个离散的时间步t下，智能体完全观测到它当前的状态s_t，并且根据它的策略π执行一个对应的动作a_t，之后这个智能体接收到一个及时奖励r_t并且进入下一个状态s_t+1。通过连续地与环境做出交互，强化学习智能体学习到最优策略π*使得累计奖励的数学期望最大化。

其中，γ∈[0,1]为折算系数，G_t称作收益。Q学习算法这样处理Q函数：

即从状态s开始，遵循策略π做出动作a所返回的期望。根据贝尔曼方程，最优的Q函数满足

其中，a′为在状态s_t+1下，根据最优策略π*执行的对应动作。Q学习算法使用贝尔曼方程不断更新它的值来估计最优Q函数。当算法收敛时，最优策略π*就能通过π*(s)＝argmax_a Q^*(s,a),

获得。

在本公开方式中，Qⁱ(s,a)估计了从路由节点i通过传出链接a所花费时间的数学期望。考虑到数据包的转发过程中可能出现两种延迟，分别是数据包在通讯网络中的传输延迟

和数据包在路由节点缓存中等待被处理时的缓存延迟

因此将路由节点i(也称智能体i)在t时刻收到的奖励

记为：

接着更新更新决策值Qⁱ(s,a)，记为：

根据本公开的一实施例，所述结合更新的所述决策值利用策略梯度算法更新策略参数，包括：

使用如下公式更新策略参数θⁱ：

其中，θⁱ为所有状态-动作组合(s,a)对应的参数

集合，

公式2中

表示对θ求导；

对π(a|s,θⁱ)求导为：

其中，

表示路由节点i对状态-动作组合

的偏好值，

表示当前数据包的目标节点，

表示当前数据包的传出链接。

在本公开方式中，强化学习框架中，策略梯度描述如下：对于某个智能体，使用参数

来标记某一状态-动作(s,a)的偏好值，并将所有状态-动作组合对应的θ_sa的集合记为θ。其中，θ就是该智能策略π的参数。随机策略通过SoftMax函数决定状态s下选择动作a的概率，

其中，∑_a′expθ_sa′为遍历了该智能体所有可能的传出链接a′，SoftMax规则确保了策略的随机性，让每个动作都存在被选择的可能。策略梯度算法的目标是找出最大化累积折算奖励的期望J(θ)的参数θ，也就是使用随机梯度上升来寻找局部最优解，在某一时刻t，按如下式更新参数θ：

θ_t+1＝θ_t+β△θ_t

其中，β为策略参数的学习率，△θ_t的长期均值等于J(θ)相对θ的梯度

根据决策梯度理论和REINFORCE算法，可知：

其中，μ(s)是状态s在策略π下的分布，若设置

则对于梯度

来说具有相对高的方差，因此，在本公开方式中，利用一步反馈取代全部反馈G_t，记为

其中，

是Q^π(s,a)的估计值。此外，根据扩展策略梯度理论：

定义

当做底线来减少

的估计值的方差，得到：

在本公开方式中，路由节点i(也称智能体i)的策略参数θⁱ按照公式2进行跟新：

其中，路由节点i选择传出链接a的概率按照SoftMax函数定义如下：

根据本公开的一实施例，路由节点作为独立的智能体都从局部奖励中学习到一个动态的路由策略，也就是说每一个路由节点独立地通过公式2更新策略参数，而公式2中的

以及

根据公式1更新，使得策略π可以更快地收敛，进而实现了针对动态变化的网络连接的模式和网络负载，减少数据包的平均递送时间的发明目的。

根据本公开的一实施例，考虑到每个路由节点从局部奖励中学习策略，则所有的路由节点在传递数据包时会表现出自私性，也就是最大化自己的“收益”而不与其他路由节点合作，因此，可以为路由节点提供一个全局奖励信号，则路由节点可以从中学习合作。由于路由节点的路由动作会对整个通讯网络的交通造成持续影响，在t时刻的全局奖励会被t时刻之前的所有的路由节点的路由动作所影响，因此，采用资格迹的方式来处理奖励的延迟问题。

在本公开方式中，在使用公式2更新策略参数θⁱ的基础上，即

利用资格迹更新策略梯度

使用如下公式3:

其中，资格迹按照式4进行更新：

其中，

表示策略π在t时刻的资格；

公式3中

本公开方式中，利用资格迹的方式更新策略梯度△θ_t。具体地，利用e_t来标记策略π在t时刻的资格，记为：

可见e_t与θ为相同维度的向量。定义t<0，e_t＝0，表示如果某智能体在t时刻待用或者没有执行任何动作，则e_t＝0。定义

为某智能体在t时刻的资格迹，其中，ρ为梯度的折算系数，z_t被用来记录过去的梯度更新痕迹。其中z_t按照下式进行更新：

基于z_t的更新方式，可知对于策略梯度△θ_t来说，首先假定ρ＝γ，则

假设该策略π收敛，在t时刻的期望

其中，G(s_t,a_t)从来标记t时刻状态s_t的智能体执行动作a_t之后的长期反馈。从上述基于假定条件ρ＝γ的分析可以看到，智能体的策略参数不偏地沿着能够增加折算累计奖励期望的方向更新。如果ρ＝0，智能体的策略参数就沿着折算累计奖励的估计梯度更新；当0<ρ<γ时，折算系数体现了估计梯度的偏差和方差之间的取舍。由于更新是实时伴随着奖励的，策略参数会被快速更新。

根据本公开的一实施例，将

取代

考虑了路由节点的动作对整个通讯网络的交通会造成持续影响，也就是在t时刻的全局奖励会被t时刻之前所有智能体所做的动作影响，从而可以处理延迟奖励的问题，进而各个智能体能够学会与其他智能体相互合作，共同减少数据包的平均递送时间。对于网路路由问题，如果网络中存在一个可以观察到所有路由节点的状态并决定所有的动作的中央控制器，则可以将整个网络看作一个单智能体，直接按照公式3更新策略参数。

根据本公开的一实施例，考虑到不存在中央控制器的情况，则对于每一个智能体来说，可以利用全局反馈信号指导多智能体的策略学习。具体地，在利用公式4更新资格迹的基础上，利用全局反馈信号更新策略参数θⁱ，使用如下公式5：

估计了t时刻所有被传输的数据包的总递送时间；

为路由节点i的决策值，根据公式1更新后的决策值确定，

表示在t时刻下对Q^π(s,a)的估计值，Q^π(s,a)表示在t时刻遵循策略π作出决策的联合状态-动作的决策值；

为在t时刻下路由节点在状态S_t作出联合动作A的决策值(对应于t时刻所有激活的路由节点的决策值之和)；

为在t+1时刻下路由节点在状态S_t+1作出联合动作A′的决策值，其中，

以及

根据公式

计算，A_t与A对应，A_t+1与A′对应。

在本公开方式中，使用S_t和A_t来标记t时刻整个网络(所有智能体)的状态和联合动作，当路由节点在t时刻根据自身的策略将数据包发送到邻居路由节点时，联合动作A_t被执行。

全局反馈信号δ_t反映了之前动作对网络交通的影响，是所有活动智能体的局部反馈信号之和，假设t时刻当前路由节点i将一个数据包发送至它的邻居路由节点j，那么路由节点i的局部反馈信号就是

网络系统收集局部反馈信号，然后广播全局反馈信号给智能体们。对于任意智能体，比如智能体i，利用全局反馈信号δ_t和公式4给出的资格迹

按照公式5更新策略参数θⁱ，通过发布优化和利用全局反馈信号，每个路由节点都能学会合作行为，减少数据包在通讯网络中的平均递送时间。

下面分别给出根据本公开实施例的方法在网络拓扑中的数据包平均递送时间的测试结果。

图2示出一种通讯网络的网络拓扑结构示意图。如图2所示，通讯网络的网络拓扑结构为不规则的6×6网格，不规则的6×6网格拓扑包括了两块紧密连接的区块和两个桥接，桥接可能是造成网络交通拥堵的瓶颈。

如图3所示，作为测试例，分别是本公开实施例提出的基于局部反馈信号更新参数的方法(以公式2更新策略参数θⁱ，以Hybrid表示，)和基于全局反馈信号更新参数的方法(以公式5更新策略参数θⁱ，以Multi-Agent Hybrid表示)。

作为对比例，分别给出：1)最短路径，是一种静态的路由方案，在低负载下近似于最优解；2)Q路由是一种基于值的强化学习方案；3)Confidence-based Q路由算法，此为Q路由的一种改进算法；4)GAPS是一种基于决策梯度的强化学习方案(未在图中示出)；5)全局路由(Global Routing)，此算法在每一时刻下遍历整张网络，应用在线动态规划算法遍历估计一次数据包延迟时间，通过消耗大量计算量，此算法可实现最低延迟。全局路由协议能将数据包的延迟时间降到最低并将所能承受的交通负载提升至最高。

首先，使用离散时间模拟器来对通讯网络操作过程进行建模。在模拟环境中，使用泊松过程来模拟数据包的产生。网络的负载参数被设置成单位时间内平均产生的符从泊松分布的数据包数量。一旦一个包被注入网络，它的起始节点和目标节点会均匀地从所有节点中随机选取。此外，数据包的起点和终点一定是不同的，并且数据包会在到达目标节点时被立即从网络中移除。路由节点缓存中的数据包符合先进先出规则，缓存的长度不设限。路由节点总是首先处理排在缓存首位的包。路由节点会记录数据包在缓存中等待所产生的缓存延迟。假设整个通讯网络中的传输延迟都是一个单位时间。

其次，调整并确定诸如学习率和折算系数的超参数。一旦超参数被确定，就在整个实验过程保持不变。在实验中重复改变网络的负载，从低水平到高水平，接下来又降低到低水平。在每一级负载水平，测量学习过程稳定后网络中数据包的平均递送时间。

图3比较了图2示出的网络拓扑下，测试例以及对比例在不同负载水平下的平均递送时间。每一个图像都是十次实验记录的均值。从图3中可以观察到Q路由只能在网络负载上升时体现出较好的适应性，但当网络负载再次降低时，适应过程会非常缓慢而且再也不能收敛到低负载下的最优(最短)路径，可见Q路由不能适应降低的负载，它的曲线只是重复从低到高调整负载水平。GAPS实验中表现较差而且收敛缓慢。即使使用已经训练好的Hybrid和Multi-Agent Hybrid的策略参数初始化GPAS，GAPS也无法呈现出一个稳定的学习过程，收敛也因为动态变化的网络负载而不能得到保证，GAPS的结果没有在图中显示，因为不能获得一个足够稳定的效果。

可以从图中观察到Hybrid和Multi-Agent Hybrid在两种情况下都表现出更好的适应性和承受更高的网络负载。当负载处在低水平时，Q学习能够实现一个与最短路径相似的平均递送时间，而Hybrid和Multi-Agent Hybrid会表现稍差。这归咎于基于策略的随机决策过程，因为总是存在一定概率探索所有的传出链接。当网络负载水平升高时，Hybrid和Multi-Agent Hybrid能够承受比确定性算法(Q路由、Confidence-basedQ路由算法和最短路径)更高的负载。Hybrid和Multi-Agent Hybrid的随机路由策略保证了这两种算法能够将包分散到可用的连接来缓和网络交通堵塞。另外，当一个数据包的跳转次数与网络中路由节点的总数相等时，为了防止持续影响通讯效果将会丢弃此数据包。当Hybrid和Multi-Agent Hybrid收敛后，丢包率将会减少到可忽略的水平。

综上所述，通过实验反馈和理论分析，我们将Hybrid、Multi-Agent Hybrid与对比例中的Confidence-based Q路由算法以及Global Routing算法相比较。通过利用Hybrid、Multi-Agent Hybrid中的探索机制以及多智能体的协同合作，我们提出的算法比Confidence-based Q路由算法有着更好的对网络负载变化的适应能力，能够适应更高的网络负载并且在同等的网络负载下他们能够实现更低的传输延迟。在另一方面，虽然GlobalRouting可以视为一种理论最优的算法，但是此算法受制于它极高的计算消耗量，因此Global Routing算法不是一种可适用于实际场景中的算法。我们所提出的Hybrid与Multi-Agent Hybrid算法，相比Global Routing而言大幅降低了实现算法所需要的计算消耗，并且在效果上接近于Global Routing所达到的最优效果。因此，我们认为Hybrid与Multi-Agent Hybrid算法在理论与实际应用方面都有着他们的充分优越性，是强化学习在排队网络中的一次成功应用。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多智能体强化学习路由策略控制路由动作的方法，其特征在于，包括：

根据所述策略参数，确定所述路由节点的传出链接；

其中，所述结合更新的所述决策值利用策略梯度算法更新策略参数，包括：

使用如下公式2更新策略参数θⁱ：

其中，θⁱ为所有状态-动作组合(s，a)对应的参数

集合，

用来标记状态-动作组合(s，a)的偏好值；(s，a)组成一对状态-动作组合，s表示t时刻的状态，即数据包的目标节点，a表示s状态下的动作，即数据包的传出链接；上标i、j分别表示路由节点，路由节点j为路由节点i的邻居路由节点；β为更新策略参数θⁱ的学习率；

公式2中

是在t时刻下对Q^π(s，a)的估计值，Q^π(s，a)为从状态s开始，遵循策略π作出传出链接a的决策值，由利用Q学习算法更新后的决策值确定；

表示对θ求导；

π(a|s，θⁱ)表示在状态s下选择动作a的概率，由策略参数θⁱ决定。

2.根据权利要求1所述的方法，其特征在于，所述强化学习模型利用Q学习算法更新路由节点的决策值，包括：

使用以下公式1更新决策值Qⁱ(s，a)：

其中，α为更新决策值Qⁱ(s，a)的学习率；γ∈[0，1]为折算系数；

与数据包在传出链接a的传输延迟

之和的负数；

3.根据权利要求2所述的方法，其特征在于，所述π(a|s，θⁱ)表示在状态s下选择动作a的概率，由策略参数θⁱ决定，按照SoftMax函数定义如下：

对π(a|s，θⁱ)求导为：

其中，

表示路由节点i对状态-动作组合

的偏好值，

表示当前数据包的目标节点，

表示当前数据包的传出链接。

4.根据权利要求3所述的方法，其特征在于，还包括：

利用资格迹更新策略梯度

使用如下公式3：

其中，资格迹按照公式4进行更新：

其中，

表示策略π在t时刻的资格；

公式3中

是在t时刻下对Q^π(s，a)的估计值，Q^π(s，a)为从状态s开始，遵循策略π作出传出链接a的决策值，根据公式1更新后的决策值确定。

5.根据权利要求4所述的方法，其特征在于，还包括：

利用全局反馈信号更新策略参数θⁱ，使用如下公式5：

其中，δ_t为路由节点i的全局反馈信号；(S_t，A_t)为t时刻整个网络的状态-联合动作集合；S_t为t时刻所有激活的路由节点的状态；A为S_t状态下所有激活的路由节点的联合动作；A′为S_t+1状态下所有激活的路由节点的联合动作；R_t为路由网络在t时刻所产生的全局奖励；τ_t标记t时刻作出路由动作的路由节点的集合；

估计了t时刻所有被传输的数据包的总递送时间；

为路由节点i的决策值，根据公式1更新后的决策值确定。