CN110611619A - 一种基于ddpg强化学习算法的智能化路由决策方法 - Google Patents
一种基于ddpg强化学习算法的智能化路由决策方法 Download PDFInfo
- Publication number
- CN110611619A CN110611619A CN201910861783.5A CN201910861783A CN110611619A CN 110611619 A CN110611619 A CN 110611619A CN 201910861783 A CN201910861783 A CN 201910861783A CN 110611619 A CN110611619 A CN 110611619A
- Authority
- CN
- China
- Prior art keywords
- value
- network
- algorithm
- reinforcement learning
- routing decision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/02—Topology update or discovery
- H04L45/08—Learning-based routing, e.g. using neural networks or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
- H04L47/125—Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提出了一种基于强化学习的智能化路由决策方法,具体涉及一种基于DDPG强化学习算法的智能化路由决策方法,旨在通过利用强化学习设计智能路由决策,均衡等效路径流量负载,提高网络对突发流量的处理能力,本发明采用基于采样概率的经验决策机制,性能越不佳的经验被选择的概率更大,提高算法的训练效率。另外在神经网络参数中加入噪声,有利于系统的探索,提高算法性能。实现步骤为:1)构建网络拓扑结构;2)对网络拓扑结构G0中的等效路径进行编号;3)构建基于DDPG强化学习算法的路由决策模型;4)初始化流量需求矩阵DM和等效路径流量占比矩阵PM;5)对基于强化学习的路由决策模型进行迭代训练。本发明可用于数据中心网络等场景。
Description
技术领域
本发明属于计算机网络技术领域,涉及一种基于强化学习的智能化路由决策方法,具体涉及一种基于DDPG强化学习算法的智能化路由决策方法,可用于数据中心网络等领域。
背景技术
对于网络而言,路由决策是决定数据包在网络中的具体转发路径的进程,规定了数据流量如何从网络中一个指定节点,到达另一个节点,路由决策决定了网络中等效路径的负载均衡性,其主要和各等效路径的带宽利用率差值以及死锁是否发生有关,差值越小,等效路径负载均衡性越差,且发生死锁也会导致等效路径负载均衡性变差。路由决策方法可分为传统路由决策方法和基于强化学习的路由决策方法,其中,传统路由决策算法简单易部署,但对网络中各等效路径的带宽利用率没有感知,容易造成某些等效路径负载较高,且无法将负载转移到负载较低的等效路径中,造成负载不均衡。基于强化学习的路由决策算法对网络流量的变化具有较高的预感知能力。当等效路径中负载发生变化时,算法能快速感知等效路径带宽利用率的变化情况,并将负载均衡至等效路径中。其中典型的算法包括基于Q-learning的路由决策算法和更新权重的路由决策算法,基于Q-learning强化学习算法的路由决策算法无法适用于复杂的网络环境,而更新权重的路由决策算法收敛速度较慢且存在环路,在网络流量发生较大波动时,无法快速将负载转移到其他较低带宽利用率的等效路径中。
例如申请公布号为CN109361601A,名称为“一种基于强化学习的SDN路由规划方法”的专利申请,采用Q-learning算法构建基于强化学习的路由决策模型,将网络拓扑信息,流量矩阵及其QoS等级作为强化学习路由决策模型的输入,输出达到要求的最短路径。设计的奖励函数包含网络中流量的QoS等级以及链路带宽利用信息等。强化学习与网络模型不断交互,尝试并调整路由决策。该方法为每条流量找到其最短转发路径,提高网络中链路的带宽利用率,减少网络拥塞。但是存在的缺陷是每条流量只沿着选取的固定最短路径转发,容易造成部分路径负载较高,等效路径的带宽利用率差值较大,引起等效路径负载不均衡的情况发生。
又如Asaf Valadarsky等人在2017年NIPS上发表的论文“Learning to route”中,提出了基于强化学习的更新权重的路由算法,该方法首先收集网络剩余带宽信息,然后将其作为输入,利用强化学习方法,以最小化最大链路利用率为目标,更新每条链路的权重,再将各个链路的权重为输入,利用最短路径算法计算出服务器节点之间的最短路径,利用该结果更新交换机节点处的流表。该方法的缺点在于,同一时间内数据只能在固定的路径中传输,无法充分利用带宽资源,增大等效路径的带宽利用率差值,造成等效路径负载不均衡。此外,权重方案缺乏对数据流流向的感知能力,使网络出现死锁问题,造成等效路径负载不均衡。
发明内容
本发明的目的在于针对上述已有技术的不足,提出了一种基于强化学习算法的智能化路由决策方法,用于解决现有技术中存在的等效路径负载均衡性较差的技术问题。
本发明的技术思路是:首先,对网络拓扑中的等效路径进行编号并收集网络信息,此外,本发明加入状态增益算法,通过计算相邻两次网络采样状态,输入至强化学习算法中,通过多次训练,得到符合要求的算法模型,具体包括如下步骤:
(1)构建网络拓扑结构:
构建包括a个服务器节点和m个交换机节点的网络拓扑结构G0,a≥2,m≥2,并将G0中的每个服务器节点作为源服务器节点,每个源服务器节点通过一个或多个交换机节点与其他目的服务器节点连接,形成等效路径;
(2)对网络拓扑结构G0中的等效路径进行编号:
(2a)初始化以a个源服务器节点为横坐标,以a个目的服务器节点为纵坐标的二维数组H;
(2b)对网络拓扑结构G0中的等效路径从1到n进行编号,并将对应源-目的服务器节点对之间所有等效路径编号的集合保存到二维数组H的对应位置;
(3)构建基于DDPG强化学习算法的路由决策模型:
构建基于深度确定性策略梯度DDPG强化学习算法的路由决策模型,其中DDPG强化学习算法中行为决策算法π中的动作网络及其目标网络,以及行为价值算法Q中的价值网络及其目标网络,均采用结构为三层全连接网络的神经网络,随机初始化π中的动作网络参数θ及其目标网络参数θ'←θ,和Q中的价值网络参数ω及其目标网络参数ω'←ω,基于加和树结构设置长度为N的经验回放集合D,N>0;
(4)初始化流量需求矩阵DM和等效路径流量占比矩阵PM:
初始化大小均为a×a的流量需求矩阵DM和等效路径流量占比矩阵PM,并为DM中的每一个元素随机赋值DMij≥0,同时将PM中的每一元素均赋值为(0,1)之间的相等值;
(5)对基于强化学习的路由决策模型进行迭代训练:
(5a)设迭代次数为k,最大迭代次数为K,K≥106,网络拓扑结构G0的初始采样状态为S0,并令k=1,S0=0;
(5b)将大小为DMij×PMij的流量按照H中的编号对应发送到G0的等效路径中,通过SDN控制器对二维数组H中每个编号所对应的等效路径包含的每条链路的带宽利用率进行测量,并将每个编号所对应的等效路径中最大的带宽利用率作为该等效路径的带宽利用率,将n条等效路径的带宽利用率Sk作为G0的当前采样状态;
(5c)计算Sk与Sk-1的差值ΔS,并采用状态增益算法,通过ΔS计算状态增益向量Φ(ΔS);
(5d)将Sk转换为特征向量Φ(Sk),并将Φ(Sk)和Φ(ΔS)作为基于强化学习的路由决策模型的输入,计算输出路由决策行为向量Ak;
(5e)按照步骤(5b)的方法获取G0执行决策Ak后n条等效路径的带宽利用率Sk',并将其作为状态转移后G0的采样状态,然后根据Sk'计算奖励值Rk,同时将Sk'转换为特征向量Φ(Sk');
(5f)将Φ(Sk)、Ak、Rk和Φ(Sk')组合成经验信息{Φ(Sk),Ak,Rk,Φ(Sk')},并将其存储到经验回放集合D中,实现对网络拓扑结构G0状态的转移;
(5g)按照采样概率P(j),从D中采样M个样本{Φ(Sj),Aj,Rj,Φ(Sj')},并通过M个样本计算行为价值算法的损失函数值loss和行为决策算法损失函数值▽θJ,再通过loss对价值网络参数ω进行更新,同时通过▽θJ对动作网络参数θ进行更新,然后对更新后的θ和ω分别与随机噪声相加,且每经过10次迭代,通过更新后的θ对动作网络的目标网络参数θ'进行更新,通过更新后的ω对价值网络的目标网络参数ω'进行更新,其中j表示第j个样本,M>0;
(5h)通过路由决策向量Ak中每条路径对应的行为值,对等效路径流量占比矩阵PM进行更新;
(5i)判断k=K是否成立,若是,得到等效路径中负载均衡的路由策略,否则,令k=k+1,并执行步骤(5b)。
本发明与现有技术相比,具有以下优点:
1.由于本发明将每组中等效路径带宽利用率的差值直接作为DDPG强化学习损失函数的奖励值,通过最小化损失函数值计算系统反馈,不断调整算法的参数,得到的最终路由决策模型,能够将负载较高路径上的数据准确路由到负载较低的路径上,与现有技术相比,将最大链路利用率作为奖励值,解决了当前网络中存在的流量分布不均衡导致的拥塞问题,提高网络各等效路径的负载的均衡性,充分利用网络带宽资源,提高了带宽资源利用率。
2.由于本发明加入了对系统各路径带宽利用率变化的感知机制,通过计算系统相邻两次状态的变化值,评估网络各个等效路径上流量的变化幅度,使DDPG强化学习算法更精确的对流量占比矩阵进行调整,与现有技术相比,解决了计算机网络链路流量变化较小时,系统震荡的问题,使系统中各个等效路径中负载稳定,从而保证负载均衡。
3.由于本发明通过对计算机网络拓扑中多条等效路径进行编号,使DDPG强化学习算法能直接输出多条等效路径的路由决策结果,避免在单条等效路径转发的情况下的负载不均衡的问题,与现有技术相比,等效路径信息使数据流具有固定的流向,而避免了通过更新链路权值而导致的环路死锁问题,保证等效路径负载均衡性,与只选取最短路径转发相比,解决了单条路径转发和容易发生死锁的问题。
4.由于本发明在训练时提出了基于优先级的经验决策机制,通过增大算法性能表现不佳的经验被选择的概率,与现有技术相比,更好地学习算法性能不佳的情况,加速算法的收敛,提高算法的性能表现,以增强算法在网络中不同负载情况下对网络流量的均衡能力,本发明在强化学习算法神经网络的参数中加入噪声,每次更新参数,加入随机噪声值,与现有技术相比,有利于系统对于未知路由策略的尝试与探索,避免陷入局部最优解,提高算法整体性能和准确率,进一步增强对网络流量的均衡能力。
附图说明
图1是本发明的实现流程图。
图2是本发明对基于强化学习的路由决策模型进行迭代训练的实现流程图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步的详细描述。
参照图1,本发明的实现步骤如下:
步骤1),构建网络拓扑结构:
构建包括a个服务器节点和m个交换机节点的网络拓扑结构G0,a≥2,m≥2,并将G0中的每个服务器节点都可以作为源服务器节点,而其他的服务器节点均可以作为该节点的目的节点,每个源服务器节点通过一个或多个交换机节点与其他目的服务器节点连接,形成等效路径,所以每一条等效路径中除源服务器节点和目的服务器节点外,还包含一个或多个交换机节点,本示例选用包含16个服务器节点的fat-tree拓扑,在该拓扑中a=16,m=20;
步骤2),对网络拓扑结构G0中的等效路径进行编号:
(2a)初始化以a个源服务器节点为横坐标,以a个目的服务器节点为纵坐标的二维数组H;
(2b)对网络拓扑结构G0中的等效路径从1到n进行编号,并将对应源-目的服务器节点对之间所有等效路径编号的集合保存到二维数组H的对应位置;
步骤3),构建基于DDPG强化学习算法的路由决策模型:
构建基于DDPG强化学习算法的路由决策模型,其中DDPG强化学习算法中行为决策算法π中的动作网络及其目标网络,以及行为价值算法Q中的价值网络及其目标网络,均采用结构为三层全连接网络的神经网络,随机初始化π中的动作网络参数θ及其目标网络参数θ'←θ,和Q中的价值网络参数ω及其目标网络参数ω'←ω,基于加和树结构设置长度为N的经验回放集合D,N>0,本示例中经验回放集合存储一段时间内可用的网络状态及变化信息,D的长度N取值10000;
步骤4),初始化流量需求矩阵DM和等效路径流量占比矩阵PM:
初始化大小均为a×a的流量需求矩阵DM和等效路径流量占比矩阵PM,并为DM中的每一个元素随机赋值DMij≥0,同时将PM中的每一元素均赋值为(0,1)之间的相等值;
流量需求矩阵DM中的每一个元素表示一个源服务器节点向另一个目的服务器节点需要发送的流量大小,等效路径流量占比矩阵PM中的每一项表示每组等效路径各个路径所需承载的数据量的占比;
步骤5),对基于强化学习的路由决策模型进行迭代训练:
(5a)设迭代次数为k,最大迭代次数为K,K≥106,网络拓扑结构G0的初始采样状态为S0,并令k=1,S0=0;
参照附图2,对训练路由决策模型的具体步骤做进一步的详细描述。
(5b)将大小为DMij×PMij的流量按照H中的编号对应发送到G0的等效路径中,通过SDN控制器对二维数组H中每个编号所对应的等效路径包含的每条链路的带宽利用率进行测量,并将每个编号所对应的等效路径中最大的带宽利用率作为该等效路径的带宽利用率,将n条等效路径的带宽利用率Sk作为G0的当前采样状态;
(5c)计算Sk与Sk-1的差值ΔS,并采用状态增益算法,通过计算状态增益向量,状态增益算法以网络中两次相邻状态的变化值为输入,通过计算得到网络状态变化程度的评估值,评估值越大表示网络状态变化越剧烈;
(5d)将Sk转换为特征向量Φ(Sk),并将Φ(Sk)和Φ(ΔS)作为基于强化学习的路由决策模型的输入,计算输出路由决策行为向量Ak,
决策行为向量Ak,计算公式为:
Ak=π((Φ(Sk)+Φ(ΔS)),θ)
其中π表示行为决策算法,θ表示动作网络参数,行为决策算法的输入为两个参量Φ(Sk)与Φ(ΔS)相加的结果;
(5e)按照步骤(5b)的方法获取G0执行决策Ak后n条等效路径的带宽利用率Sk',并将其作为状态转移后G0的采样状态,然后根据Sk'计算奖励值Rk,同时将Sk'转换为特征向量Φ(Sk'),奖励值Rk的计算方法为,将源服务器和目的服务器均相同的等效路径分为一组,求出每组等效路径的带宽利用率的最大差值,将所有组的差值的绝对值相加求和,作为强化学习算法奖励值Rk;
(5f)将Φ(Sk)、Ak、Rk和Φ(Sk')组合成经验信息{Φ(Sk),Ak,Rk,Φ(Sk')},并将其存储到经验回放集合D中,实现对网络拓扑结构G0状态的转移;
(5g)按照采样概率P(j),从D中采样M个样本{Φ(Sj),Aj,Rj,Φ(Sj')},并通过M个样本计算行为价值算法的损失函数值loss和行为决策算法损失函数值▽θJ,再通过loss对价值网络参数ω进行更新,同时通过▽θJ对动作网络参数θ进行更新,然后对更新后的θ和ω分别与随机噪声相加,且每经过10次迭代,通过更新后的θ对动作网络的目标网络参数θ'进行更新,通过更新后的ω对价值网络的目标网络参数ω'进行更新,其中j表示第j个样本,M>0,链路表示从一个节点到相邻节点的一段物理线路,中间没有任何其他的交换节点,所述的采样概率P(j)、行为价值算法损失函数值loss和行为决策算法损失函数值▽θJ,计算公式为:
其中,pj表示概率标识量,pj=|δj|+ε,δj表示系统评估误差值,δj=yj-Q(Φ(Sj),Aj,ω),yj表示状态Sj'的价值评估量,yj=Rj+γQ(Φ(Sj'),π(Φ(Sj'),θ'),ω'),Rj表示第j次学习过程的奖励值,Q表示行为价值算法,π表示行为决策算法,θ表示动作网络参数,ω表示价值网络参数,θ'表示动作网络的目标网络参数,ω'表示价值网络的目标网络参数,γ表示折扣因子,γ=0.9,wj表示第j个样本的损失函数权重,min(P(j))表示M个样本中采样概率P(j)的最小值,随机变量ε为一个较小的随机值,一般取0~0.3范围内的随机数,α为常数2,β为常数0.4,表示对当前所取的M个样本概率值的α次方求和,表示对当前所取的M个样本计算值进行求和,通过更新后的θ对动作网络的目标网络参数θ'进行更新,通过更新后的ω对价值网络的目标网络参数ω'进行更新,更新方法分别为:
通过更新后的ω对价值网络的目标网络参数ω'进行更新:ω'←τω+(1-τ)ω'
通过更新后的θ对动作网络的目标网络参数θ'进行更新:θ'←τθ+(1-τ)θ'
其中,τ为学习效率,τ=0.5,
本示例中,M=1000;
(5h)通过路由决策向量Ak中每条路径对应的行为值,对等效路径流量占比矩阵PM进行更新;
(5i)判断k=K是否成立,若是,得到等效路径中负载均衡的路由策略,否则,令k=k+1,并执行步骤(5b),本示例中,K=1000000。
Claims (5)
1.一种基于DDPG强化学习算法的智能路由决策方法,其特征在于,包括如下步骤:
(1)构建网络拓扑结构:
构建包括a个服务器节点和m个交换机节点的网络拓扑结构G0,a≥2,m≥2,并将G0中的每个服务器节点作为源服务器节点,每个源服务器节点通过一个或多个交换机节点与其他目的服务器节点连接,形成等效路径;
(2)对网络拓扑结构G0中的等效路径进行编号:
(2a)初始化以a个源服务器节点为横坐标,以a个目的服务器节点为纵坐标的二维数组H;
(2b)对网络拓扑结构G0中的等效路径从1到n进行编号,并将对应源-目的服务器节点对之间所有等效路径编号的集合保存到二维数组H的对应位置;
(3)构建基于DDPG强化学习算法的路由决策模型:
构建基于深度确定性策略梯度DDPG强化学习算法的路由决策模型,其中DDPG强化学习算法中行为决策算法π中的动作网络及其目标网络,以及行为价值算法Q中的价值网络及其目标网络,均采用结构为三层全连接网络的神经网络,随机初始化π中的动作网络参数θ及其目标网络参数θ'←θ,和Q中的价值网络参数ω及其目标网络参数ω'←ω,基于加和树结构设置长度为N的经验回放集合D,N>0;
(4)初始化流量需求矩阵DM和等效路径流量占比矩阵PM:
初始化大小均为a×a的流量需求矩阵DM和等效路径流量占比矩阵PM,并为DM中的每一个元素随机赋值DMij≥0,同时将PM中的每一元素均赋值为(0,1)之间的相等值;
(5)对基于强化学习的路由决策模型进行迭代训练:
(5a)设迭代次数为k,最大迭代次数为K,K≥106,网络拓扑结构G0的初始采样状态为S0,并令k=1,S0=0;
(5b)将大小为DMij×PMij的流量按照H中的编号对应发送到G0的等效路径中,通过SDN控制器对二维数组H中每个编号所对应的等效路径包含的每条链路的带宽利用率进行测量,并将每个编号所对应的等效路径中最大的带宽利用率作为该等效路径的带宽利用率,将n条等效路径的带宽利用率Sk作为G0的当前采样状态;
(5c)计算Sk与Sk-1的差值ΔS,并采用状态增益算法,通过ΔS计算状态增益向量Φ(ΔS);
(5d)将Sk转换为特征向量Φ(Sk),并将Φ(Sk)和Φ(ΔS)作为基于强化学习的路由决策模型的输入,计算输出路由决策行为向量Ak;
(5e)按照步骤(5b)的方法获取G0执行决策Ak后n条等效路径的带宽利用率Sk',并将其作为状态转移后G0的采样状态,然后根据Sk'计算奖励值Rk,同时将Sk'转换为特征向量Φ(Sk');
(5f)将Φ(Sk)、Ak、Rk和Φ(Sk')组合成经验信息{Φ(Sk),Ak,Rk,Φ(Sk')},并将其存储到经验回放集合D中,实现对网络拓扑结构G0状态的转移;
(5g)按照采样概率P(j),从D中采样M个样本{Φ(Sj),Aj,Rj,Φ(Sj')},并通过M个样本计算行为价值算法的损失函数值loss和行为决策算法损失函数值再通过loss对价值网络参数ω进行更新,同时通过对动作网络参数θ进行更新,然后对更新后的θ和ω分别与随机噪声相加,且每经过10次迭代,通过更新后的θ对动作网络的目标网络参数θ'进行更新,通过更新后的ω对价值网络的目标网络参数ω'进行更新,其中j表示第j个样本,M>0;
(5h)通过路由决策向量Ak中每条路径对应的行为值,对等效路径流量占比矩阵PM进行更新;
(5i)判断k=K是否成立,若是,得到等效路径中负载均衡的路由策略,否则,令k=k+1,并执行步骤(5b)。
2.根据权利要求1所述的基于DDPG强化学习算法的智能路由决策方法,其特征在于,步骤(5d)中所述的决策行为向量Ak,计算公式为:
Ak=π((Φ(Sk)+Φ(ΔS)),θ)
其中π表示行为决策算法,θ表示动作网络参数,行为决策算法的输入为两个参量Φ(Sk)与Φ(ΔS)相加的结果。
3.根据权利要求1所述的基于DDPG强化学习算法的智能路由决策方法,其特征在于,步骤(5e)中所述的奖励值Rk,计算方法为,将源服务器和目的服务器均相同的等效路径分为一组,求出每组等效路径的带宽利用率的最大差值,将所有组的差值的绝对值相加求和,作为强化学习算法奖励值Rk。
4.根据权利要求1所述的基于DDPG强化学习算法的智能路由决策方法,其特征在于,步骤(5g)中所述的采样概率P(j)、行为价值算法损失函数值loss和行为决策算法损失函数值计算公式为:
其中,pj表示概率标识量,pj=|δj|+ε,δj表示系统评估误差值,δj=yj-Q(Φ(Sj),Aj,ω),yj表示状态Sj'的价值评估量,yj=Rj+γQ(Φ(Sj'),π(Φ(Sj'),θ'),ω'),Rj表示第j次学习过程的奖励值,Q表示行为价值算法,π表示行为决策算法,θ表示动作网络参数,ω表示价值网络参数,θ'表示动作网络的目标网络参数,ω'表示价值网络的目标网络参数,γ表示折扣因子,γ=0.9,wj表示第j个样本的损失函数权重,min(P(j))表示M个样本中采样概率P(j)的最小值,随机变量ε为一个较小的随机值,一般取0~0.3范围内的随机数,α为常数2,β为常数0.4,表示对当前所取的M个样本概率值的α次方求和,表示对当前所取的M个样本计算值进行求和。
5.对根据权利要求1所述的基于DDPG强化学习算法的智能路由决策方法,其特征在于,步骤(5g)中所述的通过更新后的θ对动作网络的目标网络参数θ'进行更新,通过更新后的ω对价值网络的目标网络参数ω'进行更新,更新方法分别为:
通过更新后的ω对价值网络的目标网络参数ω'进行更新:ω'←τω+(1-τ)ω'
通过更新后的θ对动作网络的目标网络参数θ'进行更新:θ'←τθ+(1-τ)θ'
其中,τ为学习效率,τ=0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910861783.5A CN110611619B (zh) | 2019-09-12 | 2019-09-12 | 一种基于ddpg强化学习算法的智能化路由决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910861783.5A CN110611619B (zh) | 2019-09-12 | 2019-09-12 | 一种基于ddpg强化学习算法的智能化路由决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110611619A true CN110611619A (zh) | 2019-12-24 |
CN110611619B CN110611619B (zh) | 2020-10-09 |
Family
ID=68892665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910861783.5A Active CN110611619B (zh) | 2019-09-12 | 2019-09-12 | 一种基于ddpg强化学习算法的智能化路由决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110611619B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111245718A (zh) * | 2019-12-30 | 2020-06-05 | 浙江工商大学 | 一种基于sdn情景感知的路由优化方法 |
CN111416774A (zh) * | 2020-03-17 | 2020-07-14 | 深圳市赛为智能股份有限公司 | 网络拥塞控制方法、装置、计算机设备及存储介质 |
CN111526556A (zh) * | 2020-04-29 | 2020-08-11 | 黄东 | 一种基于神经网络的dtn网络路由优化方法 |
CN111585915A (zh) * | 2020-03-30 | 2020-08-25 | 西安电子科技大学 | 长、短流量均衡传输方法、系统、存储介质、云服务器 |
CN111917657A (zh) * | 2020-07-02 | 2020-11-10 | 北京邮电大学 | 一种流量传输策略的确定方法及装置 |
CN111917642A (zh) * | 2020-07-14 | 2020-11-10 | 电子科技大学 | 分布式深度强化学习的sdn网络智慧路由数据传输方法 |
CN111988225A (zh) * | 2020-08-19 | 2020-11-24 | 西安电子科技大学 | 基于强化学习和迁移学习的多路径路由方法 |
CN112202672A (zh) * | 2020-09-17 | 2021-01-08 | 华中科技大学 | 一种基于业务服务质量需求的网络路由转发方法和系统 |
CN112260953A (zh) * | 2020-10-21 | 2021-01-22 | 中电积至(海南)信息技术有限公司 | 一种基于强化学习的多通道数据转发决策方法 |
CN112491714A (zh) * | 2020-11-13 | 2021-03-12 | 安徽大学 | SDN环境下基于深度强化学习的智能QoS路由优化方法、系统 |
CN112822109A (zh) * | 2020-12-31 | 2021-05-18 | 上海缔安科技股份有限公司 | 一种基于强化学习的SDN核心网QoS路由优化算法 |
CN112836852A (zh) * | 2020-12-31 | 2021-05-25 | 中国电子科技集团公司信息科学研究院 | 一种基于强化学习的无人平台路径规划方法及装置 |
CN112866015A (zh) * | 2021-01-07 | 2021-05-28 | 华东师范大学 | 一种基于数据中心网络流量预测与学习的智能节能控制方法 |
CN112966744A (zh) * | 2021-03-08 | 2021-06-15 | 北京百度网讯科技有限公司 | 模型训练方法、图像处理方法、装置和电子设备 |
CN113037627A (zh) * | 2021-03-03 | 2021-06-25 | 烽火通信科技股份有限公司 | 一种网络业务线路资源选择的方法和装置 |
CN113194034A (zh) * | 2021-04-22 | 2021-07-30 | 华中科技大学 | 基于图神经网络和深度强化学习的路由优化方法及系统 |
CN113435567A (zh) * | 2021-06-25 | 2021-09-24 | 广东技术师范大学 | 基于流量预测的智能拓扑重构方法、电子设备、存储介质 |
CN113938415A (zh) * | 2021-09-09 | 2022-01-14 | 华中科技大学 | 一种基于链路状态估计的网络路由转发方法及系统 |
CN114285751A (zh) * | 2021-12-07 | 2022-04-05 | 中国科学院计算技术研究所 | 一种流量工程方法及系统 |
CN114338497A (zh) * | 2021-12-24 | 2022-04-12 | 中南大学 | 基于在线强化学习的列车车队数据路由系统及方法 |
CN114629543A (zh) * | 2022-01-28 | 2022-06-14 | 航天东方红卫星有限公司 | 一种基于深度监督学习的卫星网络自适应流量调度方法 |
CN115225561A (zh) * | 2022-08-15 | 2022-10-21 | 南京邮电大学 | 一种基于图结构特征的路由优化方法与系统 |
CN116208527A (zh) * | 2023-02-28 | 2023-06-02 | 西安电子科技大学 | 收发信机受限的移动自组织网络的抗毁性评估方法 |
CN116963225A (zh) * | 2023-09-21 | 2023-10-27 | 军事科学院系统工程研究院系统总体研究所 | 一种面向流媒体传输的无线mesh网络路由方法 |
CN112836852B (zh) * | 2020-12-31 | 2024-05-31 | 中国电子科技集团公司信息科学研究院 | 一种基于强化学习的无人平台路径规划方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102006237A (zh) * | 2010-12-13 | 2011-04-06 | 西安电子科技大学 | 用于容迟网络的路由决策方法 |
CN109302262A (zh) * | 2018-09-27 | 2019-02-01 | 电子科技大学 | 一种基于深度确定梯度强化学习的通信抗干扰方法 |
CN109361601A (zh) * | 2018-10-31 | 2019-02-19 | 浙江工商大学 | 一种基于强化学习的sdn路由规划方法 |
CN109768940A (zh) * | 2018-12-12 | 2019-05-17 | 北京邮电大学 | 多业务sdn网络的流量分配方法及装置 |
CN109803344A (zh) * | 2018-12-28 | 2019-05-24 | 北京邮电大学 | 一种无人机网络拓扑及路由联合构建方法 |
-
2019
- 2019-09-12 CN CN201910861783.5A patent/CN110611619B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102006237A (zh) * | 2010-12-13 | 2011-04-06 | 西安电子科技大学 | 用于容迟网络的路由决策方法 |
CN109302262A (zh) * | 2018-09-27 | 2019-02-01 | 电子科技大学 | 一种基于深度确定梯度强化学习的通信抗干扰方法 |
CN109361601A (zh) * | 2018-10-31 | 2019-02-19 | 浙江工商大学 | 一种基于强化学习的sdn路由规划方法 |
CN109768940A (zh) * | 2018-12-12 | 2019-05-17 | 北京邮电大学 | 多业务sdn网络的流量分配方法及装置 |
CN109803344A (zh) * | 2018-12-28 | 2019-05-24 | 北京邮电大学 | 一种无人机网络拓扑及路由联合构建方法 |
Non-Patent Citations (5)
Title |
---|
EDUARDO BEJAR等: "Deep reinforcement learning based neuro-control for a two-dimensional magnetic positioning system", 《2018 4TH INTERNATIONAL CONFERENCE ON CONTROL, AUTOMATION AND ROBOTICS (ICCAR)》 * |
HANCHEN XU等: "Deep Reinforcement Learning for Joint Bidding and Pricing of Load Serving Entity", 《 IEEE TRANSACTIONS ON SMART GRID》 * |
XINGYI CHENG等: "DeepTransport: Learning Spatial-Temporal Dependency for Traffic Condition Forecasting", 《2018 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 * |
徐西建: "基于深度强化学习的流媒体边缘云会话调度策略", 《计算机工程》 * |
王婷婷: "面向连续状态的神经网络强化学习研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111245718A (zh) * | 2019-12-30 | 2020-06-05 | 浙江工商大学 | 一种基于sdn情景感知的路由优化方法 |
CN111245718B (zh) * | 2019-12-30 | 2022-03-29 | 浙江工商大学 | 一种基于sdn情景感知的路由优化方法 |
CN111416774A (zh) * | 2020-03-17 | 2020-07-14 | 深圳市赛为智能股份有限公司 | 网络拥塞控制方法、装置、计算机设备及存储介质 |
CN111416774B (zh) * | 2020-03-17 | 2023-03-21 | 深圳市赛为智能股份有限公司 | 网络拥塞控制方法、装置、计算机设备及存储介质 |
CN111585915A (zh) * | 2020-03-30 | 2020-08-25 | 西安电子科技大学 | 长、短流量均衡传输方法、系统、存储介质、云服务器 |
CN111585915B (zh) * | 2020-03-30 | 2023-04-07 | 西安电子科技大学 | 长、短流量均衡传输方法、系统、存储介质、云服务器 |
CN111526556A (zh) * | 2020-04-29 | 2020-08-11 | 黄东 | 一种基于神经网络的dtn网络路由优化方法 |
CN111917657A (zh) * | 2020-07-02 | 2020-11-10 | 北京邮电大学 | 一种流量传输策略的确定方法及装置 |
CN111917657B (zh) * | 2020-07-02 | 2022-05-27 | 北京邮电大学 | 一种流量传输策略的确定方法及装置 |
CN111917642A (zh) * | 2020-07-14 | 2020-11-10 | 电子科技大学 | 分布式深度强化学习的sdn网络智慧路由数据传输方法 |
CN111988225A (zh) * | 2020-08-19 | 2020-11-24 | 西安电子科技大学 | 基于强化学习和迁移学习的多路径路由方法 |
CN111988225B (zh) * | 2020-08-19 | 2022-03-04 | 西安电子科技大学 | 基于强化学习和迁移学习的多路径路由方法 |
CN112202672A (zh) * | 2020-09-17 | 2021-01-08 | 华中科技大学 | 一种基于业务服务质量需求的网络路由转发方法和系统 |
CN112202672B (zh) * | 2020-09-17 | 2021-07-02 | 华中科技大学 | 一种基于业务服务质量需求的网络路由转发方法和系统 |
CN112260953A (zh) * | 2020-10-21 | 2021-01-22 | 中电积至(海南)信息技术有限公司 | 一种基于强化学习的多通道数据转发决策方法 |
CN112491714A (zh) * | 2020-11-13 | 2021-03-12 | 安徽大学 | SDN环境下基于深度强化学习的智能QoS路由优化方法、系统 |
CN112491714B (zh) * | 2020-11-13 | 2022-04-08 | 安徽大学 | SDN环境下基于深度强化学习的智能QoS路由优化方法、系统 |
CN112822109A (zh) * | 2020-12-31 | 2021-05-18 | 上海缔安科技股份有限公司 | 一种基于强化学习的SDN核心网QoS路由优化算法 |
CN112822109B (zh) * | 2020-12-31 | 2023-04-07 | 上海缔安科技股份有限公司 | 一种基于强化学习的SDN核心网QoS路由优化方法 |
CN112836852A (zh) * | 2020-12-31 | 2021-05-25 | 中国电子科技集团公司信息科学研究院 | 一种基于强化学习的无人平台路径规划方法及装置 |
CN112836852B (zh) * | 2020-12-31 | 2024-05-31 | 中国电子科技集团公司信息科学研究院 | 一种基于强化学习的无人平台路径规划方法及装置 |
CN112866015A (zh) * | 2021-01-07 | 2021-05-28 | 华东师范大学 | 一种基于数据中心网络流量预测与学习的智能节能控制方法 |
CN112866015B (zh) * | 2021-01-07 | 2021-10-12 | 华东师范大学 | 一种基于数据中心网络流量预测与学习的智能节能控制方法 |
CN113037627A (zh) * | 2021-03-03 | 2021-06-25 | 烽火通信科技股份有限公司 | 一种网络业务线路资源选择的方法和装置 |
CN112966744A (zh) * | 2021-03-08 | 2021-06-15 | 北京百度网讯科技有限公司 | 模型训练方法、图像处理方法、装置和电子设备 |
CN113194034A (zh) * | 2021-04-22 | 2021-07-30 | 华中科技大学 | 基于图神经网络和深度强化学习的路由优化方法及系统 |
CN113435567B (zh) * | 2021-06-25 | 2023-07-07 | 广东技术师范大学 | 基于流量预测的智能拓扑重构方法、电子设备、存储介质 |
CN113435567A (zh) * | 2021-06-25 | 2021-09-24 | 广东技术师范大学 | 基于流量预测的智能拓扑重构方法、电子设备、存储介质 |
CN113938415B (zh) * | 2021-09-09 | 2022-08-02 | 华中科技大学 | 一种基于链路状态估计的网络路由转发方法及系统 |
CN113938415A (zh) * | 2021-09-09 | 2022-01-14 | 华中科技大学 | 一种基于链路状态估计的网络路由转发方法及系统 |
CN114285751A (zh) * | 2021-12-07 | 2022-04-05 | 中国科学院计算技术研究所 | 一种流量工程方法及系统 |
CN114285751B (zh) * | 2021-12-07 | 2023-01-20 | 中国科学院计算技术研究所 | 一种流量工程方法及系统 |
CN114338497A (zh) * | 2021-12-24 | 2022-04-12 | 中南大学 | 基于在线强化学习的列车车队数据路由系统及方法 |
CN114338497B (zh) * | 2021-12-24 | 2022-10-11 | 中南大学 | 基于在线强化学习的列车车队数据路由系统及方法 |
CN114629543B (zh) * | 2022-01-28 | 2024-03-29 | 航天东方红卫星有限公司 | 一种基于深度监督学习的卫星网络自适应流量调度方法 |
CN114629543A (zh) * | 2022-01-28 | 2022-06-14 | 航天东方红卫星有限公司 | 一种基于深度监督学习的卫星网络自适应流量调度方法 |
CN115225561B (zh) * | 2022-08-15 | 2022-12-06 | 南京邮电大学 | 一种基于图结构特征的路由优化方法与系统 |
CN115225561A (zh) * | 2022-08-15 | 2022-10-21 | 南京邮电大学 | 一种基于图结构特征的路由优化方法与系统 |
CN116208527A (zh) * | 2023-02-28 | 2023-06-02 | 西安电子科技大学 | 收发信机受限的移动自组织网络的抗毁性评估方法 |
CN116208527B (zh) * | 2023-02-28 | 2024-03-26 | 西安电子科技大学 | 收发信机受限的移动自组织网络的抗毁性评估方法 |
CN116963225A (zh) * | 2023-09-21 | 2023-10-27 | 军事科学院系统工程研究院系统总体研究所 | 一种面向流媒体传输的无线mesh网络路由方法 |
CN116963225B (zh) * | 2023-09-21 | 2023-11-24 | 军事科学院系统工程研究院系统总体研究所 | 一种面向流媒体传输的无线mesh网络路由方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110611619B (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110611619B (zh) | 一种基于ddpg强化学习算法的智能化路由决策方法 | |
CN111988225B (zh) | 基于强化学习和迁移学习的多路径路由方法 | |
CN109818865B (zh) | 一种sdn增强路径装箱装置及方法 | |
CN109039942B (zh) | 一种基于深度强化学习的网络负载均衡系统及均衡方法 | |
CN112437020B (zh) | 一种基于深度强化学习的数据中心网络负载均衡方法 | |
CN112491714B (zh) | SDN环境下基于深度强化学习的智能QoS路由优化方法、系统 | |
CN114697229B (zh) | 一种分布式路由规划模型的构建方法及应用 | |
CN114143264B (zh) | 一种SRv6网络下基于强化学习的流量调度方法 | |
CN111770019A (zh) | 基于Dijkstra算法的Q-learning光片上网络自适应路由规划方法 | |
CN111917642B (zh) | 分布式深度强化学习的sdn网络智慧路由数据传输方法 | |
Geng et al. | A multi-agent reinforcement learning perspective on distributed traffic engineering | |
CN113194034A (zh) | 基于图神经网络和深度强化学习的路由优化方法及系统 | |
CN113612692B (zh) | 基于dqn算法的集中式光片上网络自适应路由规划方法 | |
CN116527567A (zh) | 一种基于深度强化学习的智能网络路径优选方法与系统 | |
CN116390164A (zh) | 一种低轨卫星网络可信负载均衡路由方法、系统、设备及介质 | |
CN113794638B (zh) | 基于差分进化算法的sdn数据中心网络大象流调度方法 | |
CN114707575A (zh) | 一种基于ap聚类的sdn多控制器部署方法 | |
Lin et al. | Rilnet: A reinforcement learning based load balancing approach for datacenter networks | |
CN116418730A (zh) | 一种基于关键节点的分布式可扩展智能路由方法 | |
CN116527565A (zh) | 基于图卷积神经网络的互联网路由优化方法及装置 | |
CN117014355A (zh) | 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法 | |
CN112333102B (zh) | 基于知识图谱的软件定义网络路由选择方法和系统 | |
CN113177636A (zh) | 一种基于多约束条件的网络动态路由方法及系统 | |
Wei et al. | G-Routing: Graph Neural Networks-Based Flexible Online Routing | |
Chen et al. | Hiertopo: Towards high-performance and efficient topology optimization for dynamic networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |