CN117014355A - 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法 - Google Patents
一种基于ddpg深度强化学习算法的tssdn动态路由决策方法 Download PDFInfo
- Publication number
- CN117014355A CN117014355A CN202210460754.XA CN202210460754A CN117014355A CN 117014355 A CN117014355 A CN 117014355A CN 202210460754 A CN202210460754 A CN 202210460754A CN 117014355 A CN117014355 A CN 117014355A
- Authority
- CN
- China
- Prior art keywords
- network
- reinforcement learning
- routing
- learning algorithm
- decision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000005540 biological transmission Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000013135 deep learning Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000006399 behavior Effects 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims description 3
- 230000001483 mobilizing effect Effects 0.000 claims description 2
- 230000008447 perception Effects 0.000 abstract description 5
- 238000013461 design Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 abstract description 3
- 230000003542 behavioural effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/14—Routing performance; Theoretical aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/02—Topology update or discovery
- H04L45/08—Learning-based routing, e.g. using neural networks or artificial intelligence
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
公开本发明提出了一种动态路由决策方法,具体设计一种基于DDPG深度强化学习算法的TSSDN动态路由决策方法,旨在根据网络动态感知的预测结果利用深度强化学习算法设计动态路由决策,降低时间敏感网络中低优先级流的传输时延。本发明采用深度学习算法实时预测交换机队列长度,然后根据预测结果进行下一跳路由决策,预测精确度越高,动态路由效果越好,提高决策效率。实现步骤为:1)构建TSSDN网络节点架构;2)构建网络拓扑结构;3)构建基于PCA的拓扑特征提取;4)构建基于深度学习算法的预测模型;5)构建基于深度强化学习算法的路由决策模型;6)结合预测结果对基于深度强化学习的路由决策模型进行迭代训练。本发明可用于远程医疗等场景。
Description
技术领域
本发明属于计算机网络技术领域,设计一种基于深度强化学习的动态路由决策方法,具体涉及一种基于DDPG深度强化学习算法的TSSDN动态路由决策方法,可用于远程医疗、车载以太网等领域。
背景技术
软件定义时间敏感网络TSSDN架构,是根据SDN控制器实现监控、感知、决策、执行四个主要的管理功能,来建立和控制时间敏感网络TSN流程。对于时间敏感网络而言,数据流的超低时延传输是其硬性要求,进行路由决策的目的是实现数据流在网络节点中的负载均衡,从而减少路由路径的延迟。路由决策规定了流的具体转发路径,其策略效果的好坏依赖于传输过程中对于网络状态的感知与预测精度,尤其是交换机缓冲区的队列长度。当流在网络中进行传输时,如果不能实时感知并准确预测出网络中下一跳交换机缓冲区的队列长度,那么面对网络拥塞情况时,如果数据流不能及时避开拥堵路段,那么其传输时延将无法得到保证。路由决策方法可分为传统路由决策方法和基于深度强化学习的路由决策方法,其中,传统路由决策方法缺乏对于网络交换机状态的感知与预测,容易造成网络拥塞,增加数据流的排队时延。基于深度强化学习的路由决策对网络中数据流量模式的改变具有较高的预感知能力。当预测到网络中将会发生网络拥塞时,算法能够及时调整路径,避开拥塞交换机,从而减小排队时延。
例如申请公布号为CN 110611619A,名称为“一种基于DDPG强化学习算法的智能化路由决策方法”的专利申请,通过加入状态增益算法,计算相邻两次网络采样状态,输入至强化学习算法中,输出达到要求的链路信息。设计的奖励函数为网络带宽利用率的最大差值。强化学习与网络模型不断交互,尝试并调整路由决策。该方法通过调整网络中数据转发路径,实现网络负载均衡。但存在的缺陷是SDN控制器只能进行网络感知,无法通过流量模式预测出未来网络中TSN交换机的状态,无法预判网络拥塞,在决策时进行大量试错,导致决策算法效率较低,增加时间敏感网络中数据流的传输时延。
发明内容
本发明的目的在于针对上述已有技术的不足,提出一种基于深度强化学习算法的动态路由决策方法,用于解决现有技术中存在的大流量情况下时间敏感网络数据传输时延较大的问题。
本发明的技术思路是:首先,对网络拓扑中的交换机状态进行实时感知收集交换机缓冲区队列长度,此外,本发明加入基于LSTM的交换机队列长度预测算法,将网络感知的预测结果作为特征输入至深度强化学习算法中,通过多次训练,得到符合要求的算法模型,具体包括如下步骤:
一种基于DDPG深度强化学习算法的TSSDN动态路由决策方法,首先对时间敏感网络的交换机队列长度进行预测,然后基于队列预测结果进行路由决策,包括如下步骤:
S1、构建网络拓扑结构;
S2、提取网络拓扑特征;
S3、通过SDN控制器感知TSN网络状态,并判断是否发生改变,若是则返回步骤S2重建拓扑结构,否则执行步骤S4;
S4、构建基于长短时记忆网络LSTM深度学习算法的交换机队列长度预测模型,以SDN控制器监控的监控信息为输入对模型进行优化训练,使得该模型用于输出交换机队列长度;
S5、构建基于DDPG深度强化学习算法的路由决策模型;
S6、以感知的TSN网络状态的预测结果作为输入,对基于深度强化学习的路由决策模型进行反复迭代训练,并到达截止迭代次数时输出路由决策模型;所述该路由决策模型用于对在线实时采集的数据流进行路由决策,输出决策结果,并由网络拓扑内的相关TSN节点按照该路由决策结果转发数据流至下一跳节点。
所述网络拓扑结构为:N个TSN节点,度为d的网络拓扑图G,其中,N≥10,d≥2,每个TSN交换机节点通过d条边与其他交换机节点进行相连,形成拓扑图。
所述提取网络拓扑特征,包括:
(3a)初始化网络拓扑结构的邻接矩阵XN×N;
(3b)基于主成分分析PCA算法计算网络拓扑的协方差矩阵,计算各交换机的主成分得分P作为网络拓扑特征,用于表示各交换机之间的连接关系。
所述SDN控制器监控的监控信息包括:拓扑特征、流量模式以及交换机队列长度。
所述构建基于长短时记忆网络LSTM深度学习算法的交换机队列长度预测模型,包括:
(4a)输入输出:拓扑结构特征、流量模式和队列长度状态被作为输入,神经网络在下一个时隙的TSN交换机队列长度作为输出;
(4b)模型训练:TSN交换机队列预测的模型是由L层和t_x个时间步组成的,L层包括输入x、输出y和位于中间的(L-2)个隐藏层,数据在模型中通过前向公式进行传播,最终输出交换机队列长度预测值Qk;
(4c)模型求解:选择均方误差MSE作为神经网络的目标函数,通过MSE值的计算来进行梯度下降的求解,最终通过学习得到各个网络参数的值;并通过Adam算法进行优化。
所述隐藏层和输出层的激活函数分别为和/>
所述构建基于DDPG深度强化学习算法的路由决策模型,包括:
构建基于深度确定性策略梯度DDPG深度强化学习算法的路由决策模型,其中DDPG深度强化学习算法中行为决策算法π中的动作网络及其目标网络,以及行为价值算法Q中的价值网络及其目标网络,均采用结构为三层全连接网络的神经网络,随机初始化π中的动作网络参数θ及其目标网络参数θ'←θ,和Q中的价值网络参数ω及其目标网络参数ω'←ω,用于感知TSN网络状态放入经验回放集合D中。
所述对基于深度强化学习的路由决策模型进行迭代训练:
(6a)设当前迭代次数为k,最大迭代次数为K,K≥104,网络拓扑结构的G的初始采样状态为S0,并令k=1,S0=0;
(6b)获取时间敏感网络G的当前采样状态Sk=(Qk,Delayk);其中,Qk为队列长度预测模型输出的队列预测值Qk,Delayk为网络数据流的传输时延;
(6c)将Sk转换为特征向量φ(Sk),并将φ(Sk)作为基于深度强化学习的路由决策模型的输入,计算输出路由决策行为向量Ak,得到数据流下一跳交换机地址;
(6d)更新G执行决策Ak后TSN的状态Sk',并将其作为状态转移后G的采样状态,计算Sk'的奖励值Rk,同时将Sk'转换为特征向量φ(Sk');
(6e)建立经验回放集合D:{φ(Sk),Ak,Rk,φ(Sk'),is_end},其中is_end表示是否是终止状态,实现对网络拓扑G状态的转移;
(6f)按照采样概率P(j),从D中采样M个样本,计算行为价值算法的损失函数值loss和行为决策算法损失函数值再通过loss对价值网络参数ω进行更新,同时通过对动作网络参数θ进行更新,然后对更新后的θ和ω分别添加随机噪声,且每经过若干次迭代,使用更新后的θ对动作网络的目标网络参数θ'进行更新,使用更新后的ω对动作网络的目标网络参数ω'进行更新,其中j表示第j个样本,M≥1;
(6g)通过路由决策向量Ak中每条路径对应的行为值,对TSN网络中交换机队列长度状态进行感知并预测更新;
(6h)判断是否到达截止条件,若是则得到TSN网络中的动态路由策略,否则返回步骤(6b)更新采样状态继续迭代。
步骤(6d)中所述的奖励值Rk的计算方法为数据流传输时延的相反数加一。
一种基于DDPG深度强化学习算法的TSSDN动态路由决策控制器,所述该控制器包括:处理器和存储介质,所述存储介质存储有如下TSSDN网络节点架构程序模块:队列模块Queue、路由模块Routing、流表模式模块App、决策模块Controller;处理器加载程序模块并执行时,使得Controller调用Queue、Routing、App执行如权利要求1-9任意一项所述的方法步骤,实现对时间敏感网络的交换机队列长度预测,以及输出路由决策;
所述App用于模拟网络中数据流的产生,将数据流存入Queue中等待转发;
所述Controller用于获取网络信息并执行队列预测和路由决策的步骤,并下发路由表至Routing;
所述Routing用于接收Controller决策输出的路由表,并根据路由表中的下一跳地址调动Queue中数据流进行转发;
所述Queue用于存储交换机队列长度,队列中的数据流会根据Routing下发的路由表,被转发至下一跳节点。
本发明与现有技术相比,具有以下优点:
由于本发明在对路由进行基于深度强化学习算法的决策前,对时间敏感网络TSN进行了整体的感知与预测,通过基于网络中变化的数据流量模式以及网络拓扑结构进行迭代训练,训练出了预测效果良好的基于深度学习的交换机队列预测模型,用于预测网络状态的变化,与现有技术相比,提前对网络状态进行预测并将预测结果作为网络状态送入基于深度强化学习的动态路由决策模型中,提高了网络路由决策的效率。
由于本发明通过对网络拓扑结构进行特征提取,使得预测算法中网络拓扑结构的表示方式实现了降维,提取出了网络拓扑结构的关键连接信息,提高了预测算法训练的效率,与现有技术相比,避免进入“维度诅咒”,加速预测算法收敛,提升了预测模型的训练速度。
由于本发明在进行网络模型预测训练时同时考虑了网络拓扑结构和网络流量模式,避免影响因素考虑不全,影响预测精度,与现有技术相比,改进了基于LSTM预测模型的输入输出结构,提高了时序数列的预测精度,也为下一步路由决策打下了良好基础。
由于本发明在进行网络路由决策时,同时将网络中交换机队列长度的预测结果以及数据流在网络中的传输时延放入经验回放集合中,且将奖励值设计为关于网络传输时延的函数,与现有技术相比,路由决策效果直接通过数据流传输时延反应,避免了大量试错,提升了算法整体性能和准确率,进一步增强降低网络数据传输时延的能力。
附图说明
图1是本发明的实现流程图。
图2是本发明对基于深度强化学习路由决策模型进行迭代训练的实现流程图。
图3是本发明的TSSDN网络节点架构图。
图4是本发明对基于LSTM预测模型的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
本发明旨在根据网络动态感知与预测的结果利用深度强化学习算法设计动态路由决策,提高时间敏感网络TSN对突发流量变化的处理和适应能力,实现网络负载均衡,从而降低时间敏感网络中低优先级数据流的传输时延,提高网络吞吐量。本发明采用基于LSTM深度学习的预测算法实时预测交换机队列长度,然后根据预测结果进行下一跳路由决策,预测精确度越高,路由策略的得分就越高,动态路由效果越好,提高决策效率。另外,在神经网络参数中加入噪声,有利于系统的探索,提高算法性能。
参照图1,本发明的实现步骤如下:
步骤1),构建TSSDN网络节点架构:
构建包括Queue、Routing、App、Controller四个功能的网络节点模型,Queue转发消息,Routing产生路由表并转发消息,App产生消息以及最终应用层的消息接收,Controller获取网络信息并且下发流表,具体结构参照图3。
步骤2),构建网络拓扑结构:
构建包括N个TSN节点,度为d的网络拓扑图G,N≥10,d≥2,每个TSN交换机节点通过d条边与其他交换机节点进行相连,形成拓扑图,本示例选用14个TSN交换机节点,度为3的拓扑图,在该拓扑中N=14,d=3;
步骤3),构建基于主成分分析PCA算法的网络拓扑特征提取:
(3a)初始化网络拓扑结构的邻接矩阵XN×N,其数学表达式为
其中,xNN表示节点间两两连接关系;
(3b)基于主成分分析PCA算法计算网络拓扑的协方差矩阵,协方差计算公式为
其中,X*表示标准化处理后的邻接矩阵XN×N中各元素;
所有的主成分都是输入变量的线性组合,且每一个样本都会有对应的主成分得分P,其数学表达式如下:
其中,lNN特征向量;用各交换机的主成分得分来表示交换机的连接性,可以很好地实现对网络邻接矩阵的降维,同时,该得分也可以良好的反映出交换机在底层网络中的连接关系;
步骤4),构建基于长短时记忆网络LSTM深度学习算法的交换机队列长度预测模型
(4a)输入输出设计:网络拓扑结构表示,P<t>=[p<1>,p<2>,…,p<N>]表明了交换机的连接性,p<i>表示交换机在网络拓扑中的得分情况;流量模式是每个TSN交换机上数据包的增长速度,表示在前一个时间间隔内到达TSN交换机的标准化数据包数量;/>表示网络中交换机队列线长度,m=8N表示交换机队列数目,t_x为时刻。拓扑结构、流量模式和队列长度状态被作为输入,神经网络应该在下一个时隙处理TSN交换机队列长度,因此,LSTM的预测模型结构如图4,其中输入输出的数学表达如下:
(4b)模型训练:TSN交换机队列预测的模型是由L层和t_x个时间步组成的,L层包括输入x、输出y和位于中间的(L-2)个隐藏层。本示例中L=3,t_x=10000,隐藏层和输出层的激活函数分别为和/>当输入为矢量时,激活函数tanh(x)和σ(x)也为矢量,同时,由于σ(x)∈[0,1],所以输出值也被归一化为[0,1]。数据在模型中通过前向公式进行传播,前向传播公式的数学表达为
其中,a<t>表示当前时隙下LSTM神经网络的激活输出值;表示预测输出值;Waa,Wax,ba表示神经网络中待训练的激活参数;Wya,by表示神经网络中待训练的输出参数。
(4c)模型求解:选择均方误差MSE和作为神经网络的目标函数,通过MSE值的计算来进行梯度下降的求解,最终通过学习得到长短时记忆神经网络中参数的取值。长短时记忆神经网络通过Adam进行优化。MSE的数学表达式为:
其中,表示经过神经网络预测运算得到的预测输出值;y<t>表示真实值;N表示网络拓扑中的节点数;t_x表示运算的时间步。
该神经网络由Adam优化,一种基于随机梯度的优化。
步骤5),构建基于DDPG深度强化学习算法的路由决策模型:
构建基于深度确定性策略梯度DDPG深度强化学习算法的路由决策模型,其中DDPG深度强化学习算法中行为决策算法π中的动作网络及其目标网络,以及行为价值算法Q中的价值网络及其目标网络,均采用结构为三层全连接网络的神经网络,随机初始化π中的动作网络参数θ及其目标网络参数θ'←θ,和Q中的价值网络参数ω及其目标网络参数ω'←ω,感知TSN网络状态放入经验回放集合D中,本示例中,经验回放集合存储一段时间内网络状态以及数据流在网络中的传输时延,D的长度取值为10000。
步骤6),对基于深度强化学习的路由决策模型进行迭代训练:
(6a)设迭代次数为k,最大迭代次数为K,K≥104,网络拓扑结构的G的初始采样状态为S0,并令k=1,S0=0;
参照附图2,对训练路由决策模型的具体步骤作进一步的详细描述。
(6b)通过SDN控制器对TSN网络状态进行感知,并将监控到的关于网络拓扑信息、流量模式以及交换机队列长度的信息送入队列长度预测模型中进行预测,同时对不同类型数据流的网络传输时延进行测量,将交换机队列长度的预测值Qk和网络数据流的传输时延Delayk作为G的当前采样状态,记为Sk=(Qk,Delayk);
(6c)将Sk转换为特征向量φ(Sk),并将φ(Sk)作为基于深度强化学习的路由决策模型的输入,计算输出路由决策行为向量Ak,即数据流下一跳交换机地址;决策行为向量的计算公式为:A=πθ(φ(S))+N,该式中N为常数;
(6d)按照步骤(6b)的方法获取G执行决策Ak后TSN的状态Sk',并将其作为状态转移后G的采样状态,然后根据Sk'计算奖励值Rk,同时将Sk’转换为特征向量φ(Sk'),奖励值Rk的计算方法为数据流传输时延的相反数加一,这样传输时延越小,奖励值越大;
(6e)将φ(Sk),Ak,Rk,φ(Sk'),is_end组合成经验信息{φ(Sk),Ak,Rk,φ(Sk'),is_end},其中is_end表示是否是终止状态,并将其存储到经验回放集合D中,实现对网络拓扑G状态的转移;
(6f)按照采样概率P(j)由大到小排列,从D中采样概率值最大的M个样本{φ(Sk),Ak,Rk,φ(Sk'),is_end},并通过M个样本计算行为价值算法的损失函数值loss和行为决策算法损失函数值再通过loss对价值网络参数ω进行更新,同时通过/>对动作网络参数θ进行更新,然后对更新后的θ和ω分别与随机噪声相加,且每经过10次迭代,通过更新后的θ对动作网络的目标网络参数θ'进行更新,通过更新后的ω对价值网络的目标网络参数ω'进行更新,其中j表示第j个样本,M≥1,采样概率P(j)、行为价值算法损失函数值loss和行为决策算法损失函数值/>计算公式为:
其中,Sj表示第j次学习过程的状态,Aj表示第j次学习过程所采取的行动,pj表示概率标识量,pj=|δj|+ε,δj表示系统评估误差值,δj=yj-Q(φ(SJ),Aj,ω),yj表示状态S'j的价值评估量,yj=Rj+γQ(φ(S′j),θ',ω'),Rj表示第j次学习过程的奖励值,Q表示行为价值算法,π表示行为决策算法,θ表示动作网络参数,ω表示价值网络参数,θ'表示动作网络的目标网络参数,ω‘表示价值网络的目标网络参数,γ表示折扣因子,γ=0.9,wj表示第j个样本的损失函数权重,min(P(j))表示M个样本中采样概率P(j)的最小值,随机变量ε为一个较小的随机值,一般取0~0.3范围内的随机数,α为常数2,β为常数0.4,/>表示当前第j个样本的概率值的α次方,/>表示对当前所取的M个样本概率值的α次方求和。通过更新后的θ对动作网络的目标网络参数θ'进行更新,通过更新后的ω对价值网络的目标网络参数ω'进行更新,更新方法分别为:
ω'←τω+(1-τ)ω'
θ'←τθ+(1-τ)θ'
其中τ为学习效率,τ=0.5,本例中M=1000;
(6g)通过路由决策向量Ak中每条路径对应的行为值,对TSN网络中交换机队列长度状态进行感知并预测更新;
(6h)判断k=K是否成立,若是,得到TSN网络中的动态路由策略,否则,令k=k+1,并执行步骤(6b),本示例中,K=10000。
以上说明所描述的实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变换和改进。这些都属于本发明的保护范围。
Claims (10)
1.一种基于DDPG深度强化学习算法的TSSDN动态路由决策方法,其特征在于,首先对时间敏感网络的交换机队列长度进行预测,然后基于队列预测结果进行路由决策,包括如下步骤:
S1、构建网络拓扑结构;
S2、提取网络拓扑特征;
S3、通过SDN控制器感知TSN网络状态,并判断是否发生改变,若是则返回步骤S2重建拓扑结构,否则执行步骤S4;
S4、构建基于长短时记忆网络LSTM深度学习算法的交换机队列长度预测模型,以SDN控制器监控的监控信息为输入对模型进行优化训练,使得该模型用于输出交换机队列长度;
S5、构建基于DDPG深度强化学习算法的路由决策模型;
S6、以感知的TSN网络状态的预测结果作为输入,对基于深度强化学习的路由决策模型进行反复迭代训练,并到达截止迭代次数时输出路由决策模型;所述该路由决策模型用于对在线实时采集的数据流进行路由决策输出决策结果,并由网络拓扑内的相关TSN节点按照该路由决策结果转发数据流至下一跳节点。
2.根据权利要求1所述的基于DDPG深度强化学习算法的TSSDN动态路由决策方法,其特征在于,所述网络拓扑结构为:N个TSN节点,度为d的网络拓扑图G,其中,N≥10,d≥2,每个TSN交换机节点通过d条边与其他交换机节点进行相连,形成拓扑图。
3.根据权利要求1所述的基于DDPG深度强化学习算法的TSSDN动态路由决策方法,其特征在于,所述提取网络拓扑特征,包括:
(3a)初始化网络拓扑结构的邻接矩阵XN×N;
(3b)基于主成分分析PCA算法计算网络拓扑的协方差矩阵,计算各交换机的主成分得分P作为网络拓扑特征,用于表示各交换机之间的连接关系。
4.根据权利要求1所述的基于DDPG深度强化学习算法的TSSDN动态路由决策方法,其特征在于,所述SDN控制器监控的监控信息包括:拓扑特征、流量模式以及交换机队列长度。
5.根据权利要求1所述的基于DDPG深度强化学习算法的TSSDN动态路由决策方法,其特征在于,所述构建基于长短时记忆网络LSTM深度学习算法的交换机队列长度预测模型,包括:
(4a)输入输出:拓扑结构特征、流量模式和队列长度状态被作为输入,神经网络在下一个时隙的TSN交换机队列长度作为输出;
(4b)模型训练:TSN交换机队列预测的模型是由L层和t_x个时间步组成的,L层包括输入x、输出y和位于中间的(L-2)个隐藏层,数据在模型中通过前向公式进行传播,最终输出交换机队列长度预测值Qk;
(4c)模型求解:选择均方误差MSE作为神经网络的目标函数,通过MSE值的计算来进行梯度下降的求解,最终通过学习得到各个网络参数的值;并通过Adam算法进行优化。
6.根据权利要求5所述的基于DDPG深度强化学习算法的TSSDN动态路由决策方法,其特征在于,所述隐藏层和输出层的激活函数分别为和/>
7.根据权利要求1所述的基于DDPG深度强化学习算法的TSSDN动态路由决策方法,其特征在于,所述构建基于DDPG深度强化学习算法的路由决策模型,包括:
构建基于深度确定性策略梯度DDPG深度强化学习算法的路由决策模型,其中DDPG深度强化学习算法中行为决策算法π中的动作网络及其目标网络,以及行为价值算法Q中的价值网络及其目标网络,均采用结构为三层全连接网络的神经网络,随机初始化π中的动作网络参数θ及其目标网络参数θ'←θ,和Q中的价值网络参数ω及其目标网络参数ω'←ω,用于感知TSN网络状态放入经验回放集合D中。
8.根据权利要求1所述的基于DDPG深度强化学习算法的TSSDN动态路由决策方法,其特征在于,所述对基于深度强化学习的路由决策模型进行迭代训练:
(6a)设当前迭代次数为k,最大迭代次数为K,K≥104,网络拓扑结构的G的初始采样状态为S0,并令k=1,S0=0;
(6b)获取时间敏感网络G的当前采样状态Sk=(Qk,Delayk);其中,Qk为队列长度预测模型输出的队列预测值Qk,Delayk为网络数据流的传输时延;
(6c)将Sk转换为特征向量φ(Sk),并将φ(Sk)作为基于深度强化学习的路由决策模型的输入,计算输出路由决策行为向量Ak,得到数据流下一跳交换机地址;
(6d)更新G执行决策Ak后TSN的状态Sk',并将其作为状态转移后G的采样状态,计算Sk'的奖励值Rk,同时将Sk'转换为特征向量φ(Sk');
(6e)建立经验回放集合D:{φ(Sk),Ak,Rk,φ(Sk'),is_end},其中is_end表示是否是终止状态,实现对网络拓扑G状态的转移;
(6f)按照采样概率P(j),从D中采样M个样本,计算行为价值算法的损失函数值loss和行为决策算法损失函数值再通过loss对价值网络参数ω进行更新,同时通过/>对动作网络参数θ进行更新,然后对更新后的θ和ω分别添加随机噪声,且每经过若干次迭代,使用更新后的θ对动作网络的目标网络参数θ'进行更新,使用更新后的ω对动作网络的目标网络参数ω'进行更新,其中j表示第j个样本,M≥1;
(6g)通过路由决策向量Ak中每条路径对应的行为值,对TSN网络中交换机队列长度状态进行感知并预测更新;
(6h)判断是否到达截止条件,若是则得到TSN网络中的动态路由策略,否则返回步骤(6b)更新采样状态继续迭代。
9.根据权利要求1所描述的基于DDPG深度强化学习算法的TSSDN动态路由决策方法,其特征在于,步骤(6d)中所述的奖励值Rk的计算方法为数据流传输时延的相反数加一。
10.一种基于DDPG深度强化学习算法的TSSDN动态路由决策控制器,其特征在于,所述该控制器包括:处理器和存储介质,所述存储介质存储有如下TSSDN网络节点架构程序模块:队列模块Queue、路由模块Routing、流表模式模块App、决策模块Controller;处理器加载程序模块并执行时,使得Controller调用Queue、Routing、App执行如权利要求1-9任意一项所述的方法步骤,实现对时间敏感网络的交换机队列长度预测,以及输出路由决策;
所述App用于模拟网络中数据流的产生,将数据流存入Queue中等待转发;
所述Controller用于获取网络信息并执行队列预测和路由决策的步骤,并下发路由表至Routing;
所述Routing用于接收Controller决策输出的路由表,并根据路由表中的下一跳地址调动Queue中数据流进行转发;
所述Queue用于存储交换机队列长度,队列中的数据流会根据Routing下发的路由表,被转发至下一跳节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210460754.XA CN117014355A (zh) | 2022-04-28 | 2022-04-28 | 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210460754.XA CN117014355A (zh) | 2022-04-28 | 2022-04-28 | 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117014355A true CN117014355A (zh) | 2023-11-07 |
Family
ID=88560468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210460754.XA Pending CN117014355A (zh) | 2022-04-28 | 2022-04-28 | 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117014355A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117395188A (zh) * | 2023-12-07 | 2024-01-12 | 南京信息工程大学 | 一种基于深度强化学习的天地一体化负载均衡路由方法 |
CN117579583A (zh) * | 2023-11-10 | 2024-02-20 | 上海三旺奇通信息科技有限公司 | 一种基于Transformer和GRU的TSN交换机队列长度预测方法 |
CN117880256A (zh) * | 2023-12-04 | 2024-04-12 | 南京邮电大学 | 一种基于多控制器SDN的数据中心网络视频流QoS保障方法 |
-
2022
- 2022-04-28 CN CN202210460754.XA patent/CN117014355A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117579583A (zh) * | 2023-11-10 | 2024-02-20 | 上海三旺奇通信息科技有限公司 | 一种基于Transformer和GRU的TSN交换机队列长度预测方法 |
CN117880256A (zh) * | 2023-12-04 | 2024-04-12 | 南京邮电大学 | 一种基于多控制器SDN的数据中心网络视频流QoS保障方法 |
CN117395188A (zh) * | 2023-12-07 | 2024-01-12 | 南京信息工程大学 | 一种基于深度强化学习的天地一体化负载均衡路由方法 |
CN117395188B (zh) * | 2023-12-07 | 2024-03-12 | 南京信息工程大学 | 一种基于深度强化学习的天地一体化负载均衡路由方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112437020B (zh) | 一种基于深度强化学习的数据中心网络负载均衡方法 | |
CN110611619B (zh) | 一种基于ddpg强化学习算法的智能化路由决策方法 | |
CN117014355A (zh) | 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法 | |
Xie et al. | Adaptive online decision method for initial congestion window in 5G mobile edge computing using deep reinforcement learning | |
CN116527567B (zh) | 一种基于深度强化学习的智能网络路径优选方法与系统 | |
CN111988225A (zh) | 基于强化学习和迁移学习的多路径路由方法 | |
CN102592171A (zh) | 基于bp神经网络的认知网络性能预测方法及装置 | |
CN111917642B (zh) | 分布式深度强化学习的sdn网络智慧路由数据传输方法 | |
CN113887748B (zh) | 在线联邦学习任务分配方法、装置、联邦学习方法及系统 | |
Wang et al. | xnet: Improving expressiveness and granularity for network modeling with graph neural networks | |
CN114143264A (zh) | 一种SRv6网络下基于强化学习的流量调度方法 | |
CN114205251B (zh) | 基于时空特征的交换机链路资源预测方法 | |
CN111340192B (zh) | 网络路径分配模型训练方法、路径分配方法、以及装置 | |
CN113784410A (zh) | 基于强化学习td3算法的异构无线网络垂直切换方法 | |
CN114707575A (zh) | 一种基于ap聚类的sdn多控制器部署方法 | |
CN113518035A (zh) | 路由确定方法及装置 | |
CN116455820A (zh) | 基于拥塞规避的多传输路径调整系统及方法 | |
Sivakumar et al. | Prediction of traffic load in wireless network using time series model | |
CN117395188B (zh) | 一种基于深度强化学习的天地一体化负载均衡路由方法 | |
Li et al. | Graph reinforcement learning-based cnn inference offloading in dynamic edge computing | |
CN115334002B (zh) | 流量预测下结合改进队列管理算法的aos智能帧生成方法 | |
CN116847425A (zh) | 一种基于高维数据联合优化的多资源路由优化方法 | |
US11863231B2 (en) | Optical network optimizer and optical network optimization method thereof | |
CN115150335A (zh) | 一种基于深度强化学习的最优流量分割的方法和系统 | |
Zhao et al. | Learning multi-agent communication with policy fingerprints for adaptive traffic signal control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |