CN110611619A

CN110611619A - 一种基于ddpg强化学习算法的智能化路由决策方法

Info

Publication number: CN110611619A
Application number: CN201910861783.5A
Authority: CN
Inventors: 顾华玺; 张瑞卿; 郭彦涛; 李健嘉; 魏雯婷; 肖哲
Original assignee: CETC 54 Research Institute; Xian University of Electronic Science and Technology
Current assignee: CETC 54 Research Institute; Xian University of Electronic Science and Technology
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2019-12-24
Anticipated expiration: 2039-09-12
Also published as: CN110611619B

Abstract

本发明提出了一种基于强化学习的智能化路由决策方法，具体涉及一种基于DDPG强化学习算法的智能化路由决策方法，旨在通过利用强化学习设计智能路由决策，均衡等效路径流量负载，提高网络对突发流量的处理能力，本发明采用基于采样概率的经验决策机制，性能越不佳的经验被选择的概率更大，提高算法的训练效率。另外在神经网络参数中加入噪声，有利于系统的探索，提高算法性能。实现步骤为：1)构建网络拓扑结构；2)对网络拓扑结构G₀中的等效路径进行编号；3)构建基于DDPG强化学习算法的路由决策模型；4)初始化流量需求矩阵DM和等效路径流量占比矩阵PM；5)对基于强化学习的路由决策模型进行迭代训练。本发明可用于数据中心网络等场景。

Description

一种基于DDPG强化学习算法的智能化路由决策方法

技术领域

本发明属于计算机网络技术领域，涉及一种基于强化学习的智能化路由决策方法，具体涉及一种基于DDPG强化学习算法的智能化路由决策方法，可用于数据中心网络等领域。

背景技术

对于网络而言，路由决策是决定数据包在网络中的具体转发路径的进程，规定了数据流量如何从网络中一个指定节点，到达另一个节点，路由决策决定了网络中等效路径的负载均衡性，其主要和各等效路径的带宽利用率差值以及死锁是否发生有关，差值越小，等效路径负载均衡性越差，且发生死锁也会导致等效路径负载均衡性变差。路由决策方法可分为传统路由决策方法和基于强化学习的路由决策方法，其中，传统路由决策算法简单易部署，但对网络中各等效路径的带宽利用率没有感知，容易造成某些等效路径负载较高，且无法将负载转移到负载较低的等效路径中，造成负载不均衡。基于强化学习的路由决策算法对网络流量的变化具有较高的预感知能力。当等效路径中负载发生变化时，算法能快速感知等效路径带宽利用率的变化情况，并将负载均衡至等效路径中。其中典型的算法包括基于Q-learning的路由决策算法和更新权重的路由决策算法，基于Q-learning强化学习算法的路由决策算法无法适用于复杂的网络环境，而更新权重的路由决策算法收敛速度较慢且存在环路，在网络流量发生较大波动时，无法快速将负载转移到其他较低带宽利用率的等效路径中。

例如申请公布号为CN109361601A，名称为“一种基于强化学习的SDN路由规划方法”的专利申请，采用Q-learning算法构建基于强化学习的路由决策模型，将网络拓扑信息，流量矩阵及其QoS等级作为强化学习路由决策模型的输入，输出达到要求的最短路径。设计的奖励函数包含网络中流量的QoS等级以及链路带宽利用信息等。强化学习与网络模型不断交互，尝试并调整路由决策。该方法为每条流量找到其最短转发路径，提高网络中链路的带宽利用率，减少网络拥塞。但是存在的缺陷是每条流量只沿着选取的固定最短路径转发，容易造成部分路径负载较高，等效路径的带宽利用率差值较大，引起等效路径负载不均衡的情况发生。

又如Asaf Valadarsky等人在2017年NIPS上发表的论文“Learning to route”中，提出了基于强化学习的更新权重的路由算法，该方法首先收集网络剩余带宽信息，然后将其作为输入，利用强化学习方法，以最小化最大链路利用率为目标，更新每条链路的权重，再将各个链路的权重为输入，利用最短路径算法计算出服务器节点之间的最短路径，利用该结果更新交换机节点处的流表。该方法的缺点在于，同一时间内数据只能在固定的路径中传输，无法充分利用带宽资源，增大等效路径的带宽利用率差值，造成等效路径负载不均衡。此外，权重方案缺乏对数据流流向的感知能力，使网络出现死锁问题，造成等效路径负载不均衡。

发明内容

本发明的目的在于针对上述已有技术的不足，提出了一种基于强化学习算法的智能化路由决策方法，用于解决现有技术中存在的等效路径负载均衡性较差的技术问题。

本发明的技术思路是：首先，对网络拓扑中的等效路径进行编号并收集网络信息，此外，本发明加入状态增益算法，通过计算相邻两次网络采样状态，输入至强化学习算法中，通过多次训练，得到符合要求的算法模型，具体包括如下步骤：

(1)构建网络拓扑结构：

构建包括a个服务器节点和m个交换机节点的网络拓扑结构G₀，a≥2,m≥2，并将G₀中的每个服务器节点作为源服务器节点，每个源服务器节点通过一个或多个交换机节点与其他目的服务器节点连接，形成等效路径；

(2)对网络拓扑结构G₀中的等效路径进行编号：

(2a)初始化以a个源服务器节点为横坐标，以a个目的服务器节点为纵坐标的二维数组H；

(2b)对网络拓扑结构G₀中的等效路径从1到n进行编号,并将对应源-目的服务器节点对之间所有等效路径编号的集合保存到二维数组H的对应位置；

(3)构建基于DDPG强化学习算法的路由决策模型：

构建基于深度确定性策略梯度DDPG强化学习算法的路由决策模型，其中DDPG强化学习算法中行为决策算法π中的动作网络及其目标网络，以及行为价值算法Q中的价值网络及其目标网络，均采用结构为三层全连接网络的神经网络，随机初始化π中的动作网络参数θ及其目标网络参数θ'←θ，和Q中的价值网络参数ω及其目标网络参数ω'←ω，基于加和树结构设置长度为N的经验回放集合D，N＞0；

(4)初始化流量需求矩阵DM和等效路径流量占比矩阵PM：

初始化大小均为a×a的流量需求矩阵DM和等效路径流量占比矩阵PM，并为DM中的每一个元素随机赋值DM_ij≥0，同时将PM中的每一元素均赋值为(0,1)之间的相等值；

(5)对基于强化学习的路由决策模型进行迭代训练：

(5a)设迭代次数为k，最大迭代次数为K，K≥10⁶，网络拓扑结构G₀的初始采样状态为S₀，并令k＝1，S₀＝0；

(5b)将大小为DM_ij×PM_ij的流量按照H中的编号对应发送到G₀的等效路径中，通过SDN控制器对二维数组H中每个编号所对应的等效路径包含的每条链路的带宽利用率进行测量，并将每个编号所对应的等效路径中最大的带宽利用率作为该等效路径的带宽利用率，将n条等效路径的带宽利用率S_k作为G₀的当前采样状态；

(5c)计算S_k与S_k-1的差值ΔS，并采用状态增益算法，通过ΔS计算状态增益向量Φ(ΔS)；

(5d)将S_k转换为特征向量Φ(S_k)，并将Φ(S_k)和Φ(ΔS)作为基于强化学习的路由决策模型的输入，计算输出路由决策行为向量A_k；

(5e)按照步骤(5b)的方法获取G₀执行决策A_k后n条等效路径的带宽利用率S_k'，并将其作为状态转移后G₀的采样状态，然后根据S_k'计算奖励值R_k，同时将S_k'转换为特征向量Φ(S_k')；

(5f)将Φ(S_k)、A_k、R_k和Φ(S_k')组合成经验信息{Φ(S_k),A_k,R_k,Φ(S_k')}，并将其存储到经验回放集合D中，实现对网络拓扑结构G₀状态的转移；

(5g)按照采样概率P(j)，从D中采样M个样本{Φ(S_j),A_j,R_j,Φ(S_j')}，并通过M个样本计算行为价值算法的损失函数值loss和行为决策算法损失函数值▽_θJ，再通过loss对价值网络参数ω进行更新，同时通过▽_θJ对动作网络参数θ进行更新，然后对更新后的θ和ω分别与随机噪声相加，且每经过10次迭代，通过更新后的θ对动作网络的目标网络参数θ'进行更新，通过更新后的ω对价值网络的目标网络参数ω'进行更新，其中j表示第j个样本，M＞0；

(5h)通过路由决策向量A_k中每条路径对应的行为值，对等效路径流量占比矩阵PM进行更新；

(5i)判断k＝K是否成立，若是，得到等效路径中负载均衡的路由策略，否则，令k＝k+1，并执行步骤(5b)。

本发明与现有技术相比，具有以下优点：

1.由于本发明将每组中等效路径带宽利用率的差值直接作为DDPG强化学习损失函数的奖励值，通过最小化损失函数值计算系统反馈，不断调整算法的参数，得到的最终路由决策模型，能够将负载较高路径上的数据准确路由到负载较低的路径上，与现有技术相比，将最大链路利用率作为奖励值，解决了当前网络中存在的流量分布不均衡导致的拥塞问题，提高网络各等效路径的负载的均衡性，充分利用网络带宽资源，提高了带宽资源利用率。

2.由于本发明加入了对系统各路径带宽利用率变化的感知机制，通过计算系统相邻两次状态的变化值，评估网络各个等效路径上流量的变化幅度，使DDPG强化学习算法更精确的对流量占比矩阵进行调整，与现有技术相比，解决了计算机网络链路流量变化较小时，系统震荡的问题，使系统中各个等效路径中负载稳定，从而保证负载均衡。

3.由于本发明通过对计算机网络拓扑中多条等效路径进行编号，使DDPG强化学习算法能直接输出多条等效路径的路由决策结果，避免在单条等效路径转发的情况下的负载不均衡的问题，与现有技术相比，等效路径信息使数据流具有固定的流向，而避免了通过更新链路权值而导致的环路死锁问题，保证等效路径负载均衡性，与只选取最短路径转发相比，解决了单条路径转发和容易发生死锁的问题。

4.由于本发明在训练时提出了基于优先级的经验决策机制，通过增大算法性能表现不佳的经验被选择的概率，与现有技术相比，更好地学习算法性能不佳的情况，加速算法的收敛，提高算法的性能表现，以增强算法在网络中不同负载情况下对网络流量的均衡能力，本发明在强化学习算法神经网络的参数中加入噪声，每次更新参数，加入随机噪声值，与现有技术相比，有利于系统对于未知路由策略的尝试与探索，避免陷入局部最优解，提高算法整体性能和准确率，进一步增强对网络流量的均衡能力。

附图说明

图1是本发明的实现流程图。

图2是本发明对基于强化学习的路由决策模型进行迭代训练的实现流程图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步的详细描述。

参照图1，本发明的实现步骤如下：

步骤1)，构建网络拓扑结构：

构建包括a个服务器节点和m个交换机节点的网络拓扑结构G₀，a≥2,m≥2，并将G₀中的每个服务器节点都可以作为源服务器节点，而其他的服务器节点均可以作为该节点的目的节点，每个源服务器节点通过一个或多个交换机节点与其他目的服务器节点连接，形成等效路径，所以每一条等效路径中除源服务器节点和目的服务器节点外，还包含一个或多个交换机节点，本示例选用包含16个服务器节点的fat-tree拓扑，在该拓扑中a＝16，m＝20；

步骤2)，对网络拓扑结构G₀中的等效路径进行编号：

步骤3)，构建基于DDPG强化学习算法的路由决策模型：

构建基于DDPG强化学习算法的路由决策模型，其中DDPG强化学习算法中行为决策算法π中的动作网络及其目标网络，以及行为价值算法Q中的价值网络及其目标网络，均采用结构为三层全连接网络的神经网络，随机初始化π中的动作网络参数θ及其目标网络参数θ'←θ，和Q中的价值网络参数ω及其目标网络参数ω'←ω，基于加和树结构设置长度为N的经验回放集合D，N＞0，本示例中经验回放集合存储一段时间内可用的网络状态及变化信息，D的长度N取值10000；

步骤4)，初始化流量需求矩阵DM和等效路径流量占比矩阵PM：

流量需求矩阵DM中的每一个元素表示一个源服务器节点向另一个目的服务器节点需要发送的流量大小，等效路径流量占比矩阵PM中的每一项表示每组等效路径各个路径所需承载的数据量的占比；

步骤5)，对基于强化学习的路由决策模型进行迭代训练：

参照附图2，对训练路由决策模型的具体步骤做进一步的详细描述。

(5c)计算S_k与S_k-1的差值ΔS，并采用状态增益算法，通过计算状态增益向量，状态增益算法以网络中两次相邻状态的变化值为输入，通过计算得到网络状态变化程度的评估值，评估值越大表示网络状态变化越剧烈；

(5d)将S_k转换为特征向量Φ(S_k)，并将Φ(S_k)和Φ(ΔS)作为基于强化学习的路由决策模型的输入，计算输出路由决策行为向量A_k，

决策行为向量A_k，计算公式为：

A_k＝π((Φ(S_k)+Φ(ΔS)),θ)

其中π表示行为决策算法，θ表示动作网络参数，行为决策算法的输入为两个参量Φ(S_k)与Φ(ΔS)相加的结果；

(5e)按照步骤(5b)的方法获取G₀执行决策A_k后n条等效路径的带宽利用率S_k'，并将其作为状态转移后G₀的采样状态，然后根据S_k'计算奖励值R_k，同时将S_k'转换为特征向量Φ(S_k')，奖励值R_k的计算方法为，将源服务器和目的服务器均相同的等效路径分为一组，求出每组等效路径的带宽利用率的最大差值，将所有组的差值的绝对值相加求和，作为强化学习算法奖励值R_k；

(5g)按照采样概率P(j)，从D中采样M个样本{Φ(S_j),A_j,R_j,Φ(S_j')}，并通过M个样本计算行为价值算法的损失函数值loss和行为决策算法损失函数值▽_θJ，再通过loss对价值网络参数ω进行更新，同时通过▽_θJ对动作网络参数θ进行更新，然后对更新后的θ和ω分别与随机噪声相加，且每经过10次迭代，通过更新后的θ对动作网络的目标网络参数θ'进行更新，通过更新后的ω对价值网络的目标网络参数ω'进行更新，其中j表示第j个样本，M＞0，链路表示从一个节点到相邻节点的一段物理线路，中间没有任何其他的交换节点，所述的采样概率P(j)、行为价值算法损失函数值loss和行为决策算法损失函数值▽_θJ，计算公式为：

其中，p_j表示概率标识量，p_j＝|δ_j|+ε，δ_j表示系统评估误差值，δ_j＝y_j-Q(Φ(S_j),A_j,ω)，y_j表示状态S_j'的价值评估量，y_j＝R_j+γQ(Φ(S_j'),π(Φ(S_j'),θ'),ω')，R_j表示第j次学习过程的奖励值，Q表示行为价值算法，π表示行为决策算法，θ表示动作网络参数，ω表示价值网络参数，θ'表示动作网络的目标网络参数，ω'表示价值网络的目标网络参数，γ表示折扣因子，γ＝0.9，w_j表示第j个样本的损失函数权重，min(P(j))表示M个样本中采样概率P(j)的最小值，随机变量ε为一个较小的随机值，一般取0～0.3范围内的随机数，α为常数2，β为常数0.4，表示对当前所取的M个样本概率值的α次方求和，表示对当前所取的M个样本计算值进行求和，通过更新后的θ对动作网络的目标网络参数θ'进行更新，通过更新后的ω对价值网络的目标网络参数ω'进行更新，更新方法分别为：

通过更新后的ω对价值网络的目标网络参数ω'进行更新：ω'←τω+(1-τ)ω'

通过更新后的θ对动作网络的目标网络参数θ'进行更新：θ'←τθ+(1-τ)θ'

其中，τ为学习效率，τ＝0.5，

本示例中，M＝1000；

(5i)判断k＝K是否成立，若是，得到等效路径中负载均衡的路由策略，否则，令k＝k+1，并执行步骤(5b)，本示例中，K＝1000000。

Claims

1.一种基于DDPG强化学习算法的智能路由决策方法，其特征在于，包括如下步骤：

(1)构建网络拓扑结构：

(2)对网络拓扑结构G₀中的等效路径进行编号：

(3)构建基于DDPG强化学习算法的路由决策模型：

(4)初始化流量需求矩阵DM和等效路径流量占比矩阵PM：

(5)对基于强化学习的路由决策模型进行迭代训练：

(5g)按照采样概率P(j)，从D中采样M个样本{Φ(S_j),A_j,R_j,Φ(S_j')}，并通过M个样本计算行为价值算法的损失函数值loss和行为决策算法损失函数值再通过loss对价值网络参数ω进行更新，同时通过对动作网络参数θ进行更新，然后对更新后的θ和ω分别与随机噪声相加，且每经过10次迭代，通过更新后的θ对动作网络的目标网络参数θ'进行更新，通过更新后的ω对价值网络的目标网络参数ω'进行更新，其中j表示第j个样本，M＞0；

2.根据权利要求1所述的基于DDPG强化学习算法的智能路由决策方法，其特征在于，步骤(5d)中所述的决策行为向量A_k，计算公式为：

A_k＝π((Φ(S_k)+Φ(ΔS)),θ)

其中π表示行为决策算法，θ表示动作网络参数，行为决策算法的输入为两个参量Φ(S_k)与Φ(ΔS)相加的结果。

3.根据权利要求1所述的基于DDPG强化学习算法的智能路由决策方法，其特征在于，步骤(5e)中所述的奖励值R_k，计算方法为，将源服务器和目的服务器均相同的等效路径分为一组，求出每组等效路径的带宽利用率的最大差值，将所有组的差值的绝对值相加求和，作为强化学习算法奖励值R_k。

4.根据权利要求1所述的基于DDPG强化学习算法的智能路由决策方法，其特征在于，步骤(5g)中所述的采样概率P(j)、行为价值算法损失函数值loss和行为决策算法损失函数值计算公式为：

其中，p_j表示概率标识量，p_j＝|δ_j|+ε，δ_j表示系统评估误差值，δ_j＝y_j-Q(Φ(S_j),A_j,ω)，y_j表示状态S_j'的价值评估量，y_j＝R_j+γQ(Φ(S_j'),π(Φ(S_j'),θ'),ω')，R_j表示第j次学习过程的奖励值，Q表示行为价值算法，π表示行为决策算法，θ表示动作网络参数，ω表示价值网络参数，θ'表示动作网络的目标网络参数，ω'表示价值网络的目标网络参数，γ表示折扣因子，γ＝0.9，w_j表示第j个样本的损失函数权重，min(P(j))表示M个样本中采样概率P(j)的最小值，随机变量ε为一个较小的随机值，一般取0～0.3范围内的随机数，α为常数2，β为常数0.4，表示对当前所取的M个样本概率值的α次方求和，表示对当前所取的M个样本计算值进行求和。

5.对根据权利要求1所述的基于DDPG强化学习算法的智能路由决策方法，其特征在于，步骤(5g)中所述的通过更新后的θ对动作网络的目标网络参数θ'进行更新，通过更新后的ω对价值网络的目标网络参数ω'进行更新，更新方法分别为：

其中，τ为学习效率，τ＝0.5。