CN117014355A

CN117014355A - 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法

Info

Publication number: CN117014355A
Application number: CN202210460754.XA
Authority: CN
Inventors: 王馨; 尚志军; 王忠峰
Original assignee: Shenyang Institute of Automation of CAS
Current assignee: Shenyang Institute of Automation of CAS
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2023-11-07

Abstract

公开本发明提出了一种动态路由决策方法，具体设计一种基于DDPG深度强化学习算法的TSSDN动态路由决策方法，旨在根据网络动态感知的预测结果利用深度强化学习算法设计动态路由决策，降低时间敏感网络中低优先级流的传输时延。本发明采用深度学习算法实时预测交换机队列长度，然后根据预测结果进行下一跳路由决策，预测精确度越高，动态路由效果越好，提高决策效率。实现步骤为：1)构建TSSDN网络节点架构；2)构建网络拓扑结构；3)构建基于PCA的拓扑特征提取；4)构建基于深度学习算法的预测模型；5)构建基于深度强化学习算法的路由决策模型；6)结合预测结果对基于深度强化学习的路由决策模型进行迭代训练。本发明可用于远程医疗等场景。

Description

一种基于DDPG深度强化学习算法的TSSDN动态路由决策方法

技术领域

本发明属于计算机网络技术领域，设计一种基于深度强化学习的动态路由决策方法，具体涉及一种基于DDPG深度强化学习算法的TSSDN动态路由决策方法，可用于远程医疗、车载以太网等领域。

背景技术

软件定义时间敏感网络TSSDN架构，是根据SDN控制器实现监控、感知、决策、执行四个主要的管理功能，来建立和控制时间敏感网络TSN流程。对于时间敏感网络而言，数据流的超低时延传输是其硬性要求，进行路由决策的目的是实现数据流在网络节点中的负载均衡，从而减少路由路径的延迟。路由决策规定了流的具体转发路径，其策略效果的好坏依赖于传输过程中对于网络状态的感知与预测精度，尤其是交换机缓冲区的队列长度。当流在网络中进行传输时，如果不能实时感知并准确预测出网络中下一跳交换机缓冲区的队列长度，那么面对网络拥塞情况时，如果数据流不能及时避开拥堵路段，那么其传输时延将无法得到保证。路由决策方法可分为传统路由决策方法和基于深度强化学习的路由决策方法，其中，传统路由决策方法缺乏对于网络交换机状态的感知与预测，容易造成网络拥塞，增加数据流的排队时延。基于深度强化学习的路由决策对网络中数据流量模式的改变具有较高的预感知能力。当预测到网络中将会发生网络拥塞时，算法能够及时调整路径，避开拥塞交换机，从而减小排队时延。

例如申请公布号为CN 110611619A，名称为“一种基于DDPG强化学习算法的智能化路由决策方法”的专利申请，通过加入状态增益算法，计算相邻两次网络采样状态，输入至强化学习算法中，输出达到要求的链路信息。设计的奖励函数为网络带宽利用率的最大差值。强化学习与网络模型不断交互，尝试并调整路由决策。该方法通过调整网络中数据转发路径，实现网络负载均衡。但存在的缺陷是SDN控制器只能进行网络感知，无法通过流量模式预测出未来网络中TSN交换机的状态，无法预判网络拥塞，在决策时进行大量试错，导致决策算法效率较低，增加时间敏感网络中数据流的传输时延。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种基于深度强化学习算法的动态路由决策方法，用于解决现有技术中存在的大流量情况下时间敏感网络数据传输时延较大的问题。

本发明的技术思路是：首先，对网络拓扑中的交换机状态进行实时感知收集交换机缓冲区队列长度，此外，本发明加入基于LSTM的交换机队列长度预测算法，将网络感知的预测结果作为特征输入至深度强化学习算法中，通过多次训练，得到符合要求的算法模型，具体包括如下步骤：

一种基于DDPG深度强化学习算法的TSSDN动态路由决策方法，首先对时间敏感网络的交换机队列长度进行预测，然后基于队列预测结果进行路由决策，包括如下步骤：

S1、构建网络拓扑结构；

S2、提取网络拓扑特征；

S3、通过SDN控制器感知TSN网络状态，并判断是否发生改变，若是则返回步骤S2重建拓扑结构，否则执行步骤S4；

S4、构建基于长短时记忆网络LSTM深度学习算法的交换机队列长度预测模型，以SDN控制器监控的监控信息为输入对模型进行优化训练，使得该模型用于输出交换机队列长度；

S5、构建基于DDPG深度强化学习算法的路由决策模型；

S6、以感知的TSN网络状态的预测结果作为输入，对基于深度强化学习的路由决策模型进行反复迭代训练，并到达截止迭代次数时输出路由决策模型；所述该路由决策模型用于对在线实时采集的数据流进行路由决策，输出决策结果，并由网络拓扑内的相关TSN节点按照该路由决策结果转发数据流至下一跳节点。

所述网络拓扑结构为：N个TSN节点，度为d的网络拓扑图G，其中，N≥10，d≥2，每个TSN交换机节点通过d条边与其他交换机节点进行相连，形成拓扑图。

所述提取网络拓扑特征，包括：

(3a)初始化网络拓扑结构的邻接矩阵X_N×N；

(3b)基于主成分分析PCA算法计算网络拓扑的协方差矩阵，计算各交换机的主成分得分P作为网络拓扑特征，用于表示各交换机之间的连接关系。

所述SDN控制器监控的监控信息包括：拓扑特征、流量模式以及交换机队列长度。

所述构建基于长短时记忆网络LSTM深度学习算法的交换机队列长度预测模型，包括：

(4a)输入输出：拓扑结构特征、流量模式和队列长度状态被作为输入，神经网络在下一个时隙的TSN交换机队列长度作为输出；

(4b)模型训练：TSN交换机队列预测的模型是由L层和t_x个时间步组成的，L层包括输入x、输出y和位于中间的(L-2)个隐藏层，数据在模型中通过前向公式进行传播，最终输出交换机队列长度预测值Q_k；

(4c)模型求解：选择均方误差MSE作为神经网络的目标函数，通过MSE值的计算来进行梯度下降的求解，最终通过学习得到各个网络参数的值；并通过Adam算法进行优化。

所述隐藏层和输出层的激活函数分别为和/>

所述构建基于DDPG深度强化学习算法的路由决策模型，包括：

构建基于深度确定性策略梯度DDPG深度强化学习算法的路由决策模型，其中DDPG深度强化学习算法中行为决策算法π中的动作网络及其目标网络，以及行为价值算法Q中的价值网络及其目标网络，均采用结构为三层全连接网络的神经网络，随机初始化π中的动作网络参数θ及其目标网络参数θ'←θ，和Q中的价值网络参数ω及其目标网络参数ω'←ω，用于感知TSN网络状态放入经验回放集合D中。

所述对基于深度强化学习的路由决策模型进行迭代训练：

(6a)设当前迭代次数为k，最大迭代次数为K，K≥10⁴，网络拓扑结构的G的初始采样状态为S₀，并令k＝1，S₀＝0；

(6b)获取时间敏感网络G的当前采样状态S_k＝(Q_k,Delay_k)；其中，Q_k为队列长度预测模型输出的队列预测值Q_k，Delay_k为网络数据流的传输时延；

(6c)将S_k转换为特征向量φ(S_k)，并将φ(S_k)作为基于深度强化学习的路由决策模型的输入，计算输出路由决策行为向量A_k，得到数据流下一跳交换机地址；

(6d)更新G执行决策A_k后TSN的状态S_k'，并将其作为状态转移后G的采样状态，计算S_k'的奖励值R_k，同时将S_k'转换为特征向量φ(S_k')；

(6e)建立经验回放集合D：{φ(S_k),A_k,R_k,φ(S_k'),is_end}，其中is_end表示是否是终止状态，实现对网络拓扑G状态的转移；

(6f)按照采样概率P(j)，从D中采样M个样本，计算行为价值算法的损失函数值loss和行为决策算法损失函数值再通过loss对价值网络参数ω进行更新，同时通过对动作网络参数θ进行更新，然后对更新后的θ和ω分别添加随机噪声，且每经过若干次迭代，使用更新后的θ对动作网络的目标网络参数θ'进行更新，使用更新后的ω对动作网络的目标网络参数ω'进行更新，其中j表示第j个样本，M≥1；

(6g)通过路由决策向量A_k中每条路径对应的行为值，对TSN网络中交换机队列长度状态进行感知并预测更新；

(6h)判断是否到达截止条件，若是则得到TSN网络中的动态路由策略，否则返回步骤(6b)更新采样状态继续迭代。

步骤(6d)中所述的奖励值R_k的计算方法为数据流传输时延的相反数加一。

一种基于DDPG深度强化学习算法的TSSDN动态路由决策控制器，所述该控制器包括：处理器和存储介质，所述存储介质存储有如下TSSDN网络节点架构程序模块：队列模块Queue、路由模块Routing、流表模式模块App、决策模块Controller；处理器加载程序模块并执行时，使得Controller调用Queue、Routing、App执行如权利要求1-9任意一项所述的方法步骤，实现对时间敏感网络的交换机队列长度预测，以及输出路由决策；

所述App用于模拟网络中数据流的产生，将数据流存入Queue中等待转发；

所述Controller用于获取网络信息并执行队列预测和路由决策的步骤，并下发路由表至Routing；

所述Routing用于接收Controller决策输出的路由表，并根据路由表中的下一跳地址调动Queue中数据流进行转发；

所述Queue用于存储交换机队列长度，队列中的数据流会根据Routing下发的路由表，被转发至下一跳节点。

本发明与现有技术相比，具有以下优点：

由于本发明在对路由进行基于深度强化学习算法的决策前，对时间敏感网络TSN进行了整体的感知与预测，通过基于网络中变化的数据流量模式以及网络拓扑结构进行迭代训练，训练出了预测效果良好的基于深度学习的交换机队列预测模型，用于预测网络状态的变化，与现有技术相比，提前对网络状态进行预测并将预测结果作为网络状态送入基于深度强化学习的动态路由决策模型中，提高了网络路由决策的效率。

由于本发明通过对网络拓扑结构进行特征提取，使得预测算法中网络拓扑结构的表示方式实现了降维，提取出了网络拓扑结构的关键连接信息，提高了预测算法训练的效率，与现有技术相比，避免进入“维度诅咒”，加速预测算法收敛，提升了预测模型的训练速度。

由于本发明在进行网络模型预测训练时同时考虑了网络拓扑结构和网络流量模式，避免影响因素考虑不全，影响预测精度，与现有技术相比，改进了基于LSTM预测模型的输入输出结构，提高了时序数列的预测精度，也为下一步路由决策打下了良好基础。

由于本发明在进行网络路由决策时，同时将网络中交换机队列长度的预测结果以及数据流在网络中的传输时延放入经验回放集合中，且将奖励值设计为关于网络传输时延的函数，与现有技术相比，路由决策效果直接通过数据流传输时延反应，避免了大量试错，提升了算法整体性能和准确率，进一步增强降低网络数据传输时延的能力。

附图说明

图1是本发明的实现流程图。

图2是本发明对基于深度强化学习路由决策模型进行迭代训练的实现流程图。

图3是本发明的TSSDN网络节点架构图。

图4是本发明对基于LSTM预测模型的结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

本发明旨在根据网络动态感知与预测的结果利用深度强化学习算法设计动态路由决策，提高时间敏感网络TSN对突发流量变化的处理和适应能力，实现网络负载均衡，从而降低时间敏感网络中低优先级数据流的传输时延，提高网络吞吐量。本发明采用基于LSTM深度学习的预测算法实时预测交换机队列长度，然后根据预测结果进行下一跳路由决策，预测精确度越高，路由策略的得分就越高，动态路由效果越好，提高决策效率。另外，在神经网络参数中加入噪声，有利于系统的探索，提高算法性能。

参照图1，本发明的实现步骤如下：

步骤1)，构建TSSDN网络节点架构：

构建包括Queue、Routing、App、Controller四个功能的网络节点模型，Queue转发消息，Routing产生路由表并转发消息，App产生消息以及最终应用层的消息接收，Controller获取网络信息并且下发流表，具体结构参照图3。

步骤2)，构建网络拓扑结构：

构建包括N个TSN节点，度为d的网络拓扑图G，N≥10，d≥2，每个TSN交换机节点通过d条边与其他交换机节点进行相连，形成拓扑图，本示例选用14个TSN交换机节点，度为3的拓扑图，在该拓扑中N＝14，d＝3；

步骤3)，构建基于主成分分析PCA算法的网络拓扑特征提取：

(3a)初始化网络拓扑结构的邻接矩阵X_N×N，其数学表达式为

其中，x_NN表示节点间两两连接关系；

(3b)基于主成分分析PCA算法计算网络拓扑的协方差矩阵，协方差计算公式为

其中，X^*表示标准化处理后的邻接矩阵X_N×N中各元素；

所有的主成分都是输入变量的线性组合，且每一个样本都会有对应的主成分得分P，其数学表达式如下：

其中，l_NN特征向量；用各交换机的主成分得分来表示交换机的连接性，可以很好地实现对网络邻接矩阵的降维，同时，该得分也可以良好的反映出交换机在底层网络中的连接关系；

步骤4)，构建基于长短时记忆网络LSTM深度学习算法的交换机队列长度预测模型

(4a)输入输出设计：网络拓扑结构表示，P^＜t＞＝[p^＜1＞,p^＜2＞,…,p^＜N＞]表明了交换机的连接性，p^＜i＞表示交换机在网络拓扑中的得分情况；流量模式是每个TSN交换机上数据包的增长速度，表示在前一个时间间隔内到达TSN交换机的标准化数据包数量；/>表示网络中交换机队列线长度，m＝8N表示交换机队列数目，t_x为时刻。拓扑结构、流量模式和队列长度状态被作为输入，神经网络应该在下一个时隙处理TSN交换机队列长度，因此，LSTM的预测模型结构如图4，其中输入输出的数学表达如下：

(4b)模型训练：TSN交换机队列预测的模型是由L层和t_x个时间步组成的，L层包括输入x、输出y和位于中间的(L-2)个隐藏层。本示例中L＝3,t_x＝10000，隐藏层和输出层的激活函数分别为和/>当输入为矢量时，激活函数tanh(x)和σ(x)也为矢量，同时，由于σ(x)∈[0，1]，所以输出值也被归一化为[0,1]。数据在模型中通过前向公式进行传播，前向传播公式的数学表达为

其中，a^＜t＞表示当前时隙下LSTM神经网络的激活输出值；表示预测输出值；W_aa，W_ax，b_a表示神经网络中待训练的激活参数；W_ya，b_y表示神经网络中待训练的输出参数。

(4c)模型求解：选择均方误差MSE和作为神经网络的目标函数，通过MSE值的计算来进行梯度下降的求解，最终通过学习得到长短时记忆神经网络中参数的取值。长短时记忆神经网络通过Adam进行优化。MSE的数学表达式为：

其中，表示经过神经网络预测运算得到的预测输出值；y^＜t＞表示真实值；N表示网络拓扑中的节点数；t_x表示运算的时间步。

该神经网络由Adam优化，一种基于随机梯度的优化。

步骤5)，构建基于DDPG深度强化学习算法的路由决策模型：

构建基于深度确定性策略梯度DDPG深度强化学习算法的路由决策模型，其中DDPG深度强化学习算法中行为决策算法π中的动作网络及其目标网络，以及行为价值算法Q中的价值网络及其目标网络，均采用结构为三层全连接网络的神经网络，随机初始化π中的动作网络参数θ及其目标网络参数θ'←θ，和Q中的价值网络参数ω及其目标网络参数ω'←ω，感知TSN网络状态放入经验回放集合D中，本示例中，经验回放集合存储一段时间内网络状态以及数据流在网络中的传输时延，D的长度取值为10000。

步骤6)，对基于深度强化学习的路由决策模型进行迭代训练：

(6a)设迭代次数为k，最大迭代次数为K，K≥10⁴，网络拓扑结构的G的初始采样状态为S₀，并令k＝1，S₀＝0；

参照附图2，对训练路由决策模型的具体步骤作进一步的详细描述。

(6b)通过SDN控制器对TSN网络状态进行感知，并将监控到的关于网络拓扑信息、流量模式以及交换机队列长度的信息送入队列长度预测模型中进行预测，同时对不同类型数据流的网络传输时延进行测量，将交换机队列长度的预测值Q_k和网络数据流的传输时延Delay_k作为G的当前采样状态，记为S_k＝(Q_k,Delay_k)；

(6c)将S_k转换为特征向量φ(S_k)，并将φ(S_k)作为基于深度强化学习的路由决策模型的输入，计算输出路由决策行为向量A_k，即数据流下一跳交换机地址；决策行为向量的计算公式为:A＝π_θ(φ(S))+N，该式中N为常数；

(6d)按照步骤(6b)的方法获取G执行决策A_k后TSN的状态S_k'，并将其作为状态转移后G的采样状态，然后根据S_k'计算奖励值R_k，同时将S_k’转换为特征向量φ(S_k')，奖励值R_k的计算方法为数据流传输时延的相反数加一，这样传输时延越小，奖励值越大；

(6e)将φ(S_k)，A_k，R_k，φ(S_k')，is_end组合成经验信息{φ(S_k),A_k,R_k,φ(S_k'),is_end}，其中is_end表示是否是终止状态，并将其存储到经验回放集合D中，实现对网络拓扑G状态的转移；

(6f)按照采样概率P(j)由大到小排列，从D中采样概率值最大的M个样本{φ(S_k),A_k,R_k,φ(S_k'),is_end}，并通过M个样本计算行为价值算法的损失函数值loss和行为决策算法损失函数值再通过loss对价值网络参数ω进行更新，同时通过/>对动作网络参数θ进行更新，然后对更新后的θ和ω分别与随机噪声相加，且每经过10次迭代，通过更新后的θ对动作网络的目标网络参数θ'进行更新，通过更新后的ω对价值网络的目标网络参数ω'进行更新，其中j表示第j个样本，M≥1，采样概率P(j)、行为价值算法损失函数值loss和行为决策算法损失函数值/>计算公式为：

其中，S_j表示第j次学习过程的状态，A_j表示第j次学习过程所采取的行动，p_j表示概率标识量，p_j＝|δ_j|+ε，δ_j表示系统评估误差值，δ_j＝y_j-Q(φ(S_J),A_j,ω)，y_j表示状态S'_j的价值评估量，y_j＝R_j+γQ(φ(S′_j),θ',ω')，R_j表示第j次学习过程的奖励值，Q表示行为价值算法，π表示行为决策算法，θ表示动作网络参数，ω表示价值网络参数，θ'表示动作网络的目标网络参数，ω‘表示价值网络的目标网络参数，γ表示折扣因子，γ＝0.9，w_j表示第j个样本的损失函数权重，min(P(j))表示M个样本中采样概率P(j)的最小值，随机变量ε为一个较小的随机值，一般取0～0.3范围内的随机数，α为常数2，β为常数0.4，/>表示当前第j个样本的概率值的α次方，/>表示对当前所取的M个样本概率值的α次方求和。通过更新后的θ对动作网络的目标网络参数θ'进行更新，通过更新后的ω对价值网络的目标网络参数ω'进行更新，更新方法分别为：

ω'←τω+(1-τ)ω'

θ'←τθ+(1-τ)θ'

其中τ为学习效率，τ＝0.5，本例中M＝1000；

(6h)判断k＝K是否成立，若是，得到TSN网络中的动态路由策略，否则，令k＝k+1，并执行步骤(6b)，本示例中，K＝10000。

以上说明所描述的实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变换和改进。这些都属于本发明的保护范围。

Claims

1.一种基于DDPG深度强化学习算法的TSSDN动态路由决策方法，其特征在于，首先对时间敏感网络的交换机队列长度进行预测，然后基于队列预测结果进行路由决策，包括如下步骤：

S1、构建网络拓扑结构；

S2、提取网络拓扑特征；

S5、构建基于DDPG深度强化学习算法的路由决策模型；

S6、以感知的TSN网络状态的预测结果作为输入，对基于深度强化学习的路由决策模型进行反复迭代训练，并到达截止迭代次数时输出路由决策模型；所述该路由决策模型用于对在线实时采集的数据流进行路由决策输出决策结果，并由网络拓扑内的相关TSN节点按照该路由决策结果转发数据流至下一跳节点。

2.根据权利要求1所述的基于DDPG深度强化学习算法的TSSDN动态路由决策方法，其特征在于，所述网络拓扑结构为：N个TSN节点，度为d的网络拓扑图G，其中，N≥10，d≥2，每个TSN交换机节点通过d条边与其他交换机节点进行相连，形成拓扑图。

3.根据权利要求1所述的基于DDPG深度强化学习算法的TSSDN动态路由决策方法，其特征在于，所述提取网络拓扑特征，包括：

(3a)初始化网络拓扑结构的邻接矩阵X_N×N；

4.根据权利要求1所述的基于DDPG深度强化学习算法的TSSDN动态路由决策方法，其特征在于，所述SDN控制器监控的监控信息包括：拓扑特征、流量模式以及交换机队列长度。

5.根据权利要求1所述的基于DDPG深度强化学习算法的TSSDN动态路由决策方法，其特征在于，所述构建基于长短时记忆网络LSTM深度学习算法的交换机队列长度预测模型，包括：

6.根据权利要求5所述的基于DDPG深度强化学习算法的TSSDN动态路由决策方法，其特征在于，所述隐藏层和输出层的激活函数分别为和/>

7.根据权利要求1所述的基于DDPG深度强化学习算法的TSSDN动态路由决策方法，其特征在于，所述构建基于DDPG深度强化学习算法的路由决策模型，包括：

8.根据权利要求1所述的基于DDPG深度强化学习算法的TSSDN动态路由决策方法，其特征在于，所述对基于深度强化学习的路由决策模型进行迭代训练：

(6f)按照采样概率P(j)，从D中采样M个样本，计算行为价值算法的损失函数值loss和行为决策算法损失函数值再通过loss对价值网络参数ω进行更新，同时通过/>对动作网络参数θ进行更新，然后对更新后的θ和ω分别添加随机噪声，且每经过若干次迭代，使用更新后的θ对动作网络的目标网络参数θ'进行更新，使用更新后的ω对动作网络的目标网络参数ω'进行更新，其中j表示第j个样本，M≥1；

9.根据权利要求1所描述的基于DDPG深度强化学习算法的TSSDN动态路由决策方法，其特征在于，步骤(6d)中所述的奖励值R_k的计算方法为数据流传输时延的相反数加一。

10.一种基于DDPG深度强化学习算法的TSSDN动态路由决策控制器，其特征在于，所述该控制器包括：处理器和存储介质，所述存储介质存储有如下TSSDN网络节点架构程序模块：队列模块Queue、路由模块Routing、流表模式模块App、决策模块Controller；处理器加载程序模块并执行时，使得Controller调用Queue、Routing、App执行如权利要求1-9任意一项所述的方法步骤，实现对时间敏感网络的交换机队列长度预测，以及输出路由决策；