CN113938415B - 一种基于链路状态估计的网络路由转发方法及系统 - Google Patents

一种基于链路状态估计的网络路由转发方法及系统 Download PDF

Info

Publication number
CN113938415B
CN113938415B CN202111058710.6A CN202111058710A CN113938415B CN 113938415 B CN113938415 B CN 113938415B CN 202111058710 A CN202111058710 A CN 202111058710A CN 113938415 B CN113938415 B CN 113938415B
Authority
CN
China
Prior art keywords
link
network
ddpg
weight
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111058710.6A
Other languages
English (en)
Other versions
CN113938415A (zh
Inventor
戴彬
曹园园
伍仲丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202111058710.6A priority Critical patent/CN113938415B/zh
Publication of CN113938415A publication Critical patent/CN113938415A/zh
Application granted granted Critical
Publication of CN113938415B publication Critical patent/CN113938415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/08Learning-based routing, e.g. using neural networks or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/123Evaluation of link metrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于链路状态估计的网络路由转发方法及系统,属于网络通信领域,方法包括:S1,将流量矩阵输入DDPG神经网络,输出各链路的第一权重;S2,监测网络中各节点对之间的端到端时延,基于端到端时延估计各链路的拥塞概率,生成包含拥塞概率的动作噪声;S3,将动作噪声添加至各链路的第一权重中,对添加结果依次进行截取和softmax函数处理,得到各链路的最终权重,将最终权重转化为路由策略并分发至各节点,根据路由策略下的网络状态计算奖励;S4,多次重复执行S1‑S3以形成不同时刻下的多组样本数据以训练DDPG神经网络模型,样本数据包含最终权重、奖励和流量矩阵。解决DDPG收敛困难和过早陷入局部最优的问题。

Description

一种基于链路状态估计的网络路由转发方法及系统
技术领域
本发明属于网络通信领域,更具体地,涉及一种基于链路状态估计的网络路由转发方法及系统。
背景技术
深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)采用actor-critic结构,是off-policy的深度强化学习算法。DDPG将DQN的经验回放、双网络结构与策略梯度算法结合,采用确定性策略获取动作,在求解策略梯度时不需要针对动作空间采样积分,使得求解过程更为简化,并且可以很好地适用于连续动作空间的问题。可以使用DDPG学习网络拓扑的链路权重,然后根据链路权重来生成路由策略。
DDPG在训练过程中存在收敛困难和过早陷入局部最优的问题,原因在于:DDPG本身对超参数比较敏感,参数选择会影响最终的策略是否最优以及收敛情况;DDPG存在Q值过高估计的问题,这种误差累积到一定程度会导致生成次优策略;动作维度为网络链路总数,尤其对于大型网络动作空间会更大,较大的动作空间使神经网络模型难以收敛;DDPG常用的噪声机制是OU噪声,OU噪声的超参数不易控制,对于动作空间维度较大的问题,简单的基于随机噪声的方法或针对物理控制问题提出的探索方法可能会过早陷入局部最优。如何解决DDPG收敛困难和过早陷入局部最优的问题,对于DDPG在动作空间维度较大的网络通信领域中的应用具有重要影响。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于链路状态估计的网络路由转发方法及系统,其目的在于解决DDPG收敛困难和过早陷入局部最优的问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于链路状态估计的网络路由转发方法,包括:S1,统计网络中各节点对之间的流量需求得到流量矩阵,将所述流量矩阵输入DDPG神经网络,输出各链路的第一权重;S2,监测网络中各节点对之间的端到端时延,基于所述端到端时延判断各节点对之间的路径状态,并根据预置的路径-链路拥塞关系估计所述路径状态下各链路的拥塞概率,生成包含所述拥塞概率的动作噪声;S3,将所述动作噪声添加至各链路的第一权重中,对添加后得到的结果依次进行截取和softmax函数处理,得到各链路的最终权重,将所述最终权重转化为路由策略并分发至各节点,根据所述路由策略下的网络状态计算奖励;S4,多次重复执行所述S1-S3以形成不同时刻下的多组样本数据,所述样本数据包含最终权重、奖励和流量矩阵,并利用所述多组样本数据训练DDPG神经网络模型。
更进一步地,所述S4之后还包括:基于当前时刻的流量矩阵,利用训练后的DDPG神经网络模型生成各链路的第一权重,对所述第一权重依次进行动作噪声添加、截取、softmax函数处理和转化后生成当前路由策略,各节点根据所述当前路由策略执行网络路由转发。
更进一步地,所述动作噪声为:
Figure BDA0003254506180000021
其中,
Figure BDA0003254506180000022
为所述动作噪声,p为链路拥塞概率向量,
Figure BDA0003254506180000023
pb为链路b的拥塞概率,b=1,2,…,ne,ne为链路总数,ρ为由实时的路径状态和输出动作确定的数值向量,
Figure BDA0003254506180000024
ρb为链路b对应的数值,Nt为OU噪声。
更进一步地,所述拥塞概率为:
Figure BDA0003254506180000031
Figure BDA0003254506180000032
Figure BDA0003254506180000033
其中,p为链路拥塞概率向量,y[1]为第一中间参数,y[2]为第二中间参数,A为路由矩阵,A[2]中的任一元素(i,l)为在A的第i行和第l行之间进行最大运算所得,
Figure BDA0003254506180000034
为路径u的期望,u=1,2,…,np,np为路径总数,
Figure BDA0003254506180000035
为路径h和路径k的期望,h和k均为1,2,…,np中的任意数值且h≠k。
更进一步地,所述S3中添加后得到的结果为:
Figure BDA0003254506180000036
将at截取在[0,1]范围内,softmax函数处理后得到的最终权重为:
Wt=softmax(at)
其中,at为添加后得到的结果,st为流量矩阵,θμ为DDPG神经网络中actor网络的参数均值,μ(stμ)为st下actor网络选择的动作均值,
Figure BDA0003254506180000037
为所述动作噪声,Wt为最终权重,softmax()为softmax函数处理。
更进一步地,所述S3中得到的奖励为:
Figure BDA0003254506180000038
其中,Rt为所述奖励,
Figure BDA0003254506180000039
分别为Di→j、Ji→j、Li→j的归一化向量,Di→j、Ji→j、Li→j分别为源节点i到目的节点j的时延、抖动和丢包率,α、β、γ分别为时延权重、抖动权重和丢包率权重。
更进一步地,所述S3中利用最短加权路径算法Dijkstra将所述最终权重转化为路由策略并分发至各节点。
更进一步地,所述S4中利用所述多组样本数据训练DDPG神经网络模型包括:利用所述多组样本数据更新DDPG神经网络模型中的critic网络和actor网络,软更新DDPG神经网络模型中的critic目标网络和actor目标网络;判断训练是否达到预设回合,若未达到,重复执行所述S1-S4直至训练达到所述预设回合。
更进一步地,所述方法还包括:形成任一样本数据时,将形成的样本数据存放在经验回放池中,从所述经验回放池中抽取样本数据以训练DDPG神经网络模型。
按照本发明的另一个方面,提供了一种基于链路状态估计的网络路由转发系统,包括:统计模块,用于统计网络中各节点对之间的流量需求得到流量矩阵,将所述流量矩阵输入DDPG神经网络,输出各链路的第一权重;时延监测及噪声生成模块,用于监测网络中各节点对之间的端到端时延,基于所述端到端时延判断各节点对之间的路径状态,并根据预置的路径-链路拥塞关系估计所述路径状态下各链路的拥塞概率,生成包含所述拥塞概率的动作噪声;噪声添加及奖励计算模块,用于将所述动作噪声添加至各链路的第一权重中,对添加后得到的结果依次进行截取和softmax函数处理,得到各链路的最终权重,将所述最终权重转化为路由策略并分发至各节点,根据所述路由策略下的网络状态计算奖励;样本形成及训练模块,用于多次重复执行所述统计模块、所述时延监测及噪声生成模块和所述噪声添加及奖励计算模块以形成不同时刻下的多组样本数据,所述样本数据包含最终权重、奖励和流量矩阵,并利用所述多组样本数据训练DDPG神经网络模型。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:使用端到端时延来估计链路拥塞概率,通过动作噪声的优化,利用估计的链路拥塞概率指导动作空间的探索方向,解决了DDPG在动作空间维度较大的网络通信领域中的应用时存在的收敛困难和过早陷入局部最优的问题,提高学习效率;利用估计的链路拥塞概率指导动作空间的探索方向,对DDPG输出的链路权重进行优化,使得最终形成的路由策略更优,提高网络的效率。
附图说明
图1为本发明实施例提供的基于链路状态估计的网络路由转发方法的流程图;
图2为本发明实施例提供的基于链路状态估计的网络路由转发方法与现有方法在不同流量强度下的时延;
图3为本发明实施例提供的基于链路状态估计的网络路由转发方法与现有方法在不同流量强度下的抖动;
图4为本发明实施例提供的基于链路状态估计的网络路由转发方法与现有方法在不同流量强度下的丢包率;
图5为本发明实施例提供的基于链路状态估计的网络路由转发系统的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
流量工程是优化网络服务质量(Quality of Service,QoS)的重要方法之一,通过动态测量和分析实时网络流量来设计最佳的路由转发规则。为了解决DDPG收敛困难和过早陷入局部最优的问题,本实施例中利用流量工程的知识,通过实时网络监测结果来估计链路的拥塞概率,然后根据估计的链路拥塞概率计算生成动作噪声,指导DDPG动作空间的探索方向,提高学习效率。本实施例中,考虑到链路负载受网络拓扑和路由策略的影响,因此,不直接从流量矩阵中推断拥塞链路,而是利用网络拓扑结构与路由策略,根据实时网络的端到端性能(例如时延)与拓扑关系,估计链路拥塞概率。
具体地,先根据监测到的网络端到端时延判断路径状态,再建立路径状态与链路拥塞关系的方程组来估计所有链路的拥塞概率,根据估计的链路拥塞概率生成动作噪声,从而指导动作空间的探索方向,提升学习效率。利用网络监测的网络状态(例如时延、抖动和丢包率)指标设计奖励函数,结合网络链路状态、流量需求等多方面因素,训练神经网络参数对网络路由策略进行优化。
图1为本发明实施例提供的基于链路状态估计的网络路由转发方法的流程图。参阅图1,结合图2-图4,对本实施例中基于链路状态估计的网络路由转发方法进行详细说明,方法包括操作S1-操作S4。
操作S1,统计网络中各节点对之间的流量需求得到流量矩阵,将流量矩阵输入DDPG神经网络,输出各链路的第一权重。
本实施例中,将网络建模为有向图G=(V,E),其中,V和E分别是节点集和链路集。设nv为节点总数,ne为链路总数,定义V(G)={1,…,nv}为nv个节点的集合,其中nv≥2,E(G)={1,…,ne}为ne条链路的集合。P是网络拓扑的路径集合,路径集合的大小用np=|P|表示。网络中链路的带宽定义为Bi,j,TM表示所有源-目的(Origin-Destination,OD)节点对之间的流量需求。TMt是一个nv×nv的二维数组,表示在t时刻网络的流量需求。TMi,j指示源节点i和目的节点j之间的流量需求。Wt表示在t时刻的网络链路权重。Di→j,Ji→j,Li→j分别是源节点i到目的节点j的时延、抖动和丢包的度量,可以用于奖励函数的设计。
操作S1中,统计网络中所有节点对之间的流量需求,用流量矩阵TM表示,以流量矩阵TM作为DDPG神经网络模型的状态输入st,以网络中所有链路的权重作为DDPG神经网络模型的动作输出at
操作S2,监测网络中各节点对之间的端到端时延,基于端到端时延判断各节点对之间的路径状态,并根据预置的路径-链路拥塞关系估计路径状态下各链路的拥塞概率,生成包含拥塞概率的动作噪声。
本实施例中,使用时延来评判路径拥塞与否,设定时延的拥塞阈值为tp,当某路径时延大于拥塞阈值tp时,则称该路径为拥塞路径,一条拥塞路径中至少包含一条拥塞链路。根据网络拓扑结构与路由策略将路径与链路的拥塞关系建立一个方程组,求解链路拥塞概率向量。
基于各节点对之间的路径状态估计得到的拥塞概率为:
Figure BDA0003254506180000071
Figure BDA0003254506180000072
Figure BDA0003254506180000073
其中,p为链路拥塞概率向量,y[1]为第一中间参数,y[2]为第二中间参数,A=(aub)为路由矩阵,若源-目的对u=(i,j)之间的流量经过b链路,则aub=1,否则aub=0,A[2]中的任一元素(i,l)为在A的第i行和第l行之间进行最大运算所得,
Figure BDA0003254506180000074
为路径u的期望,u=1,2,…,np,np为路径总数,
Figure BDA0003254506180000075
为路径h和路径k的期望,h和k均为1,2,…,np中的任意数值且h≠k。
上式来自于对
Figure BDA0003254506180000076
Figure BDA0003254506180000077
的期望,xb表示链路b的状态,xb=1为拥塞状态,xb=0为非拥塞状态。yu表示路径u的状态,一共有np条路径,yu=1为拥塞状态,yu=0为非拥塞状态。
Figure BDA0003254506180000081
为路径状态向量,
Figure BDA0003254506180000082
表示为路径i的期望Ep[Yi],计算方式为
Figure BDA0003254506180000083
yil是两个路径的组合,yil=0表示路径i和路径l都未拥塞,否则yil=1。例如y12表示路径1和路径2的状态,只有两者都未阻塞为0,否则y12=1。
Figure BDA0003254506180000084
表示为路径i和路径l的期望计算,计算公式为
Figure BDA0003254506180000085
P是网络拓扑的路径集合,路径集合的大小用np=|P|表示。
生成的包含拥塞概率的动作噪声为:
Figure BDA0003254506180000086
其中,
Figure BDA0003254506180000087
为动作噪声,p为链路拥塞概率向量,
Figure BDA0003254506180000088
pb为链路b的拥塞概率,0≤pb<1,b=1,2,…,ne,ne为链路总数,ρ为由实时的路径状态和输出动作确定的数值向量,
Figure BDA0003254506180000089
ρb为链路b对应的数值,Nt为OU噪声。
对于ρb选取,例如当0.6≤pb<1时,ρb>0;当0≤pb<0.3时,ρb<0;当0.3≤pb<0.6时,ρb=0。对于拥塞概率大的链路,根据上式计算获得的动作噪声一般会大,在选路时被选中概率就会变小,对于拥塞概率小的链路,根据上式计算获得的动作噪声一般会小,在选路时被选中概率就会变大,对于拥塞程度中等的链路,其动作噪声以OU噪声为主,以探索潜在的更优策略。
操作S3,将动作噪声添加至各链路的第一权重中,对添加后得到的结果依次进行截取和softmax函数处理,得到各链路的最终权重,将最终权重转化为路由策略并分发至各节点,根据路由策略下的网络状态计算奖励。
操作S3中添加动作噪声后得到的结果为:
Figure BDA00032545061800000810
进一步地,将at截取在[0,1]范围内,并对截取后的结果进行softmax函数处理,得到的最终权重为:
Wt=softmax(at)
其中,at为添加后得到的结果,st为流量矩阵,θμ为DDPG神经网络中actor网络的参数均值,μ(stμ)为st下actor网络选择的动作均值,
Figure BDA0003254506180000091
为动作噪声,Wt为最终权重,softmax()为softmax函数处理。
本实施例中,状态空间为网络的流量需求,动作空间为网络的链路权重,根据QoS指标定义t时刻奖励函数Rt
Figure BDA0003254506180000092
其中,Rt为t时刻的奖励;R(i→j|st,at)是指当前状态st和执行动作at后,链路(源节点i到目的节点j)的状态奖励;
Figure BDA0003254506180000093
分别为Di→j、Ji→j、Li→j的归一化向量,Di→j、Ji→j、Li→j分别为源节点i到目的节点j的时延、抖动和丢包率;α、β、γ分别为时延权重、抖动权重和丢包率权重,可调权重α,β,γ∈[0,1),分别表示时延、抖动和丢包率指标对于业务流的重要性。学习的目标为确定最优行为策略π关于状态空间S到动作空间A的映射(π:S→A),最大限度地提高预期奖励Rt
从链路权重生成路由转发规则是路由的经典方法,优选地,操作S3中例如利用最短加权路径算法Dijkstra将最终权重转化为路由端口转发表作为路由策略Pt并分发至各节点。Dijkstra算法应用了贪心模式,可用于解决有向图单个源点到其他节点的最短路径问题,思想是每次迭代时选择的下一个节点是在标记点之外最靠近源点的点。可以理解的是,也可以选用其他方法将最终权重转化为路由策略并分发至各节点。
操作S4,多次重复执行S1-S3以形成不同时刻下的多组样本数据,样本数据包含最终权重、奖励和流量矩阵,并利用多组样本数据训练DDPG神经网络模型。
本实施例中的网络路由转发方法还包括:形成任一样本数据时,将形成的样本数据存放在经验回放池D中,操作S4中从经验回放池D中抽取样本数据以训练DDPG神经网络模型。
进一步地,可以在每形成一样本数据时,生成标记done表示执行动作at结束,并获取下一时刻状态st+1,将(st,at,rt,st+1,done)五元组存入经验回放池D。操作S4中从经验回放池D中随机小批量抽取N个样本(si,ai,ri,si+1,done)以训练DDPG神经网络模型。
DDPG神经网络模型包括两个actor(分别为actor网络和actor目标网络)和两个critic(分别为critic网络和critic目标网络)。DDPG网络模型随网络拓扑结构改变,actor的前2层采用全连接的前馈神经网络,分别包含nv(nv-1)个神经元和nv(nv-1)/2个神经元,激活函数都采用selu,输出层包含nv个神经元,激活函数采用sigmoid。critic也采用全连接的前馈神经网络,给出动作的价值,激活函数为selu或linear。优化器为Adam,通过神经网络的梯度反向传播来更新参数。另外,为了避免在训练时陷入局部最小值,利用基于链路状态估计的动作噪声指导动作探索空间,在DDPG的输出动作加上动作噪声,将加入噪声的动作截取在[0,1]范围内并经softmax处理作为最终链路权重。利用最短加权路径算法Dijkstra将链路权重转换为路由节点可执行的路由策略Pt,最后,控制器发布路由策略给转发节点,转发节点根据接收到的路由策略执行数据包转发。
根据本发明的实施例,操作S4中利用多组样本数据训练DDPG神经网络模型包括:利用多组样本数据更新DDPG神经网络模型中的critic网络和actor网络,软更新DDPG神经网络模型中的critic目标网络和actor目标网络;判断训练是否达到预设回合M,若未达到,重复执行操作S1-操作S4直至训练达到预设回合M。
具体地,从经验回放池D中随机小批量抽取N个五元组样本数据(si,ai,ri,si+1,done),更新critic网络使得均方差损失函数最小化,更新actor网络,软更新actor目标网络和critic目标网络。训练达到M回合则停止训练,保存当前神经网络模型,如果不达到M回合,则再次执行操作S1-操作S4,继续训练神经网络参数,直到满足服务质量需求。
根据本发明的实施例,操作S4之后还包括:基于当前时刻的流量矩阵,利用训练后的DDPG神经网络模型生成各链路的第一权重,对第一权重依次进行动作噪声添加、截取、softmax函数处理和转化后生成当前路由策略,各节点根据当前路由策略执行网络路由转发。操作S4之后的工作过程与上述操作S1-操作S3中转化生成路由策略并分发至各节点之间的操作相同,此处不再赘述。
本实施例中,利用具有14节点和21链路NSF网络拓扑进行实验。具体地,利用四种路由算法进行实验,分别为距离矢量算法DV、最短路径优先算法SPF、DDPG与本发明实施例提出的基于链路状态估计的网络路由转发方法(简称为DDPG-LSE)。四种算法不同流量强度的时延、抖动和丢包率实验结果分别如图2、图3和图4所示。参阅图2-图4可知,几乎所有情况下,本发明实施例中的DDPG-LSE方法在各方面都达到了最佳性能。
本发明实施例中设计的路由模型具有实时性,一旦经过训练,可以在一个单一步骤中产生近似最优的路由配置,从而对网络资源分配进行优化,提高网络的性能。
图5为本发明实施例提供的基于链路状态估计的网络路由转发系统的框图。参阅图5,该基于链路状态估计的网络路由转发系统500包括统计模块510、时延监测及噪声生成模块520、噪声添加及奖励计算模块530、样本形成及训练模块540。
统计模块510例如执行操作S1,用于统计网络中各节点对之间的流量需求得到流量矩阵,将流量矩阵输入DDPG神经网络,输出各链路的第一权重。
时延监测及噪声生成模块520例如执行操作S2,用于监测网络中各节点对之间的端到端时延,基于端到端时延判断各节点对之间的路径状态,并根据预置的路径-链路拥塞关系估计路径状态下各链路的拥塞概率,生成包含拥塞概率的动作噪声。
噪声添加及奖励计算模块530例如执行操作S3,用于将动作噪声添加至各链路的第一权重中,对添加后得到的结果依次进行截取和softmax函数处理,得到各链路的最终权重,将最终权重转化为路由策略并分发至各节点,根据路由策略下的网络状态计算奖励。
样本形成及训练模块540例如执行操作S4,用于多次重复执行统计模块510、时延监测及噪声生成模块520和噪声添加及奖励计算模块530以形成不同时刻下的多组样本数据,样本数据包含最终权重、奖励和流量矩阵,并利用多组样本数据训练DDPG神经网络模型。
基于链路状态估计的网络路由转发系统500用于执行上述图1-图4所示实施例中的基于链路状态估计的网络路由转发方法。本实施例未尽之细节,请参阅前述图1-图4所示实施例中的基于链路状态估计的网络路由转发方法,此处不再赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于链路状态估计的网络路由转发方法,其特征在于,包括:
S1,统计网络中各节点对之间的流量需求得到流量矩阵,将所述流量矩阵输入DDPG神经网络,输出各链路的第一权重;
S2,监测网络中各节点对之间的端到端时延,基于所述端到端时延判断各节点对之间的路径状态,并根据预置的路径-链路拥塞关系估计所述路径状态下各链路的拥塞概率,生成包含所述拥塞概率的动作噪声,所述动作噪声为:
Figure FDA0003646331640000011
其中,
Figure FDA0003646331640000012
为所述动作噪声,p为链路拥塞概率向量,
Figure FDA0003646331640000013
pb为链路b的拥塞概率,b=1,2,…,ne,ne为链路总数,ρ为由实时的路径状态和输出动作确定的数值向量,
Figure FDA0003646331640000014
ρb为链路b对应的数值,Nt为OU噪声;
S3,将所述动作噪声添加至各链路的第一权重中,对添加后得到的结果依次进行截取和softmax函数处理,得到各链路的最终权重,将所述最终权重转化为路由策略并分发至各节点,根据所述路由策略下的网络状态计算奖励;
S4,多次重复执行所述S1-S3以形成不同时刻下的多组样本数据,所述样本数据包含最终权重、奖励和流量矩阵,并利用所述多组样本数据训练DDPG神经网络模型。
2.如权利要求1所述的基于链路状态估计的网络路由转发方法,其特征在于,所述S4之后还包括:
基于当前时刻的流量矩阵,利用训练后的DDPG神经网络模型生成各链路的第一权重,对所述第一权重依次进行动作噪声添加、截取、softmax函数处理和转化后生成当前路由策略,各节点根据所述当前路由策略执行网络路由转发。
3.如权利要求1-2任一项所述的基于链路状态估计的网络路由转发方法,其特征在于,所述拥塞概率为:
Figure FDA0003646331640000021
Figure FDA0003646331640000022
Figure FDA0003646331640000023
其中,p为链路拥塞概率向量,y[1]为第一中间参数,y[2]为第二中间参数,A为路由矩阵,A[2]中的任一元素(i,l)为在A的第i行和第l行之间进行最大运算所得,
Figure FDA0003646331640000024
为路径u的期望,u=1,2,…,np,np为路径总数,
Figure FDA0003646331640000025
为路径h和路径k的期望,h和k均为1,2,…,np中的任意数值且h≠k。
4.如权利要求1所述的基于链路状态估计的网络路由转发方法,其特征在于,所述S3中添加后得到的结果为:
Figure FDA0003646331640000026
将at截取在[0,1]范围内,softmax函数处理后得到的最终权重为:
Wt=softmax(at)
其中,at为添加后得到的结果,st为流量矩阵,θμ为DDPG神经网络中actor网络的参数均值,μ(stμ)为st下actor网络选择的动作均值,
Figure FDA0003646331640000027
为所述动作噪声,Wt为最终权重,softmax()为softmax函数处理。
5.如权利要求1或4所述的基于链路状态估计的网络路由转发方法,其特征在于,所述S3中得到的奖励为:
Figure FDA0003646331640000028
其中,Rt为所述奖励,
Figure FDA0003646331640000029
分别为Di→j、Ji→j、Li→j的归一化向量,Di→j、Ji→j、Li→j分别为源节点i到目的节点j的时延、抖动和丢包率,α、β、γ分别为时延权重、抖动权重和丢包率权重,nv为节点总数。
6.如权利要求1所述的基于链路状态估计的网络路由转发方法,其特征在于,所述S3中利用最短加权路径算法Dijkstra将所述最终权重转化为路由策略并分发至各节点。
7.如权利要求1所述的基于链路状态估计的网络路由转发方法,其特征在于,所述S4中利用所述多组样本数据训练DDPG神经网络模型包括:
利用所述多组样本数据更新DDPG神经网络模型中的critic网络和actor网络,软更新DDPG神经网络模型中的critic目标网络和actor目标网络;
判断训练是否达到预设回合,若未达到,重复执行所述S1-S4直至训练达到所述预设回合。
8.如权利要求1或7所述的基于链路状态估计的网络路由转发方法,其特征在于,所述方法还包括:形成任一样本数据时,将形成的样本数据存放在经验回放池中,从所述经验回放池中抽取样本数据以训练DDPG神经网络模型。
9.一种基于链路状态估计的网络路由转发系统,其特征在于,包括:
统计模块,用于统计网络中各节点对之间的流量需求得到流量矩阵,将所述流量矩阵输入DDPG神经网络,输出各链路的第一权重;
时延监测及噪声生成模块,用于监测网络中各节点对之间的端到端时延,基于所述端到端时延判断各节点对之间的路径状态,并根据预置的路径-链路拥塞关系估计所述路径状态下各链路的拥塞概率,生成包含所述拥塞概率的动作噪声,所述动作噪声为:
Figure FDA0003646331640000031
其中,
Figure FDA0003646331640000032
为所述动作噪声,p为链路拥塞概率向量,
Figure FDA0003646331640000033
pb为链路b的拥塞概率,b=1,2,…,ne,ne为链路总数,ρ为由实时的路径状态和输出动作确定的数值向量,
Figure FDA0003646331640000034
ρb为链路b对应的数值,Nt为OU噪声;
噪声添加及奖励计算模块,用于将所述动作噪声添加至各链路的第一权重中,对添加后得到的结果依次进行截取和softmax函数处理,得到各链路的最终权重,将所述最终权重转化为路由策略并分发至各节点,根据所述路由策略下的网络状态计算奖励;
样本形成及训练模块,用于多次重复执行所述统计模块、所述时延监测及噪声生成模块和所述噪声添加及奖励计算模块以形成不同时刻下的多组样本数据,所述样本数据包含最终权重、奖励和流量矩阵,并利用所述多组样本数据训练DDPG神经网络模型。
CN202111058710.6A 2021-09-09 2021-09-09 一种基于链路状态估计的网络路由转发方法及系统 Active CN113938415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111058710.6A CN113938415B (zh) 2021-09-09 2021-09-09 一种基于链路状态估计的网络路由转发方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111058710.6A CN113938415B (zh) 2021-09-09 2021-09-09 一种基于链路状态估计的网络路由转发方法及系统

Publications (2)

Publication Number Publication Date
CN113938415A CN113938415A (zh) 2022-01-14
CN113938415B true CN113938415B (zh) 2022-08-02

Family

ID=79275260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111058710.6A Active CN113938415B (zh) 2021-09-09 2021-09-09 一种基于链路状态估计的网络路由转发方法及系统

Country Status (1)

Country Link
CN (1) CN113938415B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115499365A (zh) * 2022-07-29 2022-12-20 国网河南省电力公司信息通信公司 路由优化方法、装置、设备及介质
CN116055378B (zh) * 2023-01-10 2024-05-28 中国联合网络通信集团有限公司 流量调度策略生成模型的训练方法及装置
CN116963225B (zh) * 2023-09-21 2023-11-24 军事科学院系统工程研究院系统总体研究所 一种面向流媒体传输的无线mesh网络路由方法
CN116996397B (zh) * 2023-09-27 2024-01-09 之江实验室 一种网络丢包优化的方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110611619A (zh) * 2019-09-12 2019-12-24 西安电子科技大学 一种基于ddpg强化学习算法的智能化路由决策方法
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法
WO2020134507A1 (zh) * 2018-12-28 2020-07-02 北京邮电大学 无人机网络路由构建方法、无人机及存储介质
CN112202672A (zh) * 2020-09-17 2021-01-08 华中科技大学 一种基于业务服务质量需求的网络路由转发方法和系统
CN112600759A (zh) * 2020-12-10 2021-04-02 东北大学 基于深度强化学习在Overlay网络下多路径流量调度方法及系统
AU2021101685A4 (en) * 2021-04-01 2021-05-20 Arun Singh Chouhan Design and development of real time automated routing algorithm for computer networks

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
US10375585B2 (en) * 2017-07-06 2019-08-06 Futurwei Technologies, Inc. System and method for deep learning and wireless network optimization using deep learning
FR3103295B1 (fr) * 2019-11-19 2021-12-03 Commissariat Energie Atomique Méthode d’association d’équipements d’utilisateurs dans un réseau cellulaire au moyen d’un apprentissage par renforcement multi-agent
CN111523940B (zh) * 2020-04-23 2023-04-18 华中科技大学 一种带负反馈的基于深度强化学习的推荐方法及系统
CN112770357B (zh) * 2021-01-08 2022-04-26 浙江大学 一种基于深度强化学习的无线网络拥塞控制方法
CN113163451B (zh) * 2021-04-23 2022-08-02 中山大学 一种基于深度强化学习的d2d通信网络切片分配方法
CN113328938B (zh) * 2021-05-25 2022-02-08 电子科技大学 一种基于深度强化学习的网络自主智能管控方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020134507A1 (zh) * 2018-12-28 2020-07-02 北京邮电大学 无人机网络路由构建方法、无人机及存储介质
CN110611619A (zh) * 2019-09-12 2019-12-24 西安电子科技大学 一种基于ddpg强化学习算法的智能化路由决策方法
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法
CN112202672A (zh) * 2020-09-17 2021-01-08 华中科技大学 一种基于业务服务质量需求的网络路由转发方法和系统
CN112600759A (zh) * 2020-12-10 2021-04-02 东北大学 基于深度强化学习在Overlay网络下多路径流量调度方法及系统
AU2021101685A4 (en) * 2021-04-01 2021-05-20 Arun Singh Chouhan Design and development of real time automated routing algorithm for computer networks

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Zhiyuan Xu, Jian Tang, Jingsong Meng, Weiyi Zhang, Yanzhi Wang,.Experience-driven Networking: A Deep Reinforcement Learning based Approach.《IEEE INFOCOM 2018 - IEEE Conference on Computer Communications》.2018,1871-1879. *
朱小琴等.基于深度强化学习的电力通信网路由策略.《科学技术创新》.2019,(第36期), *
肖扬等.一种基于深度强化学习的动态路由算法.《信息通信技术与政策》.2020,(第09期), *

Also Published As

Publication number Publication date
CN113938415A (zh) 2022-01-14

Similar Documents

Publication Publication Date Title
CN113938415B (zh) 一种基于链路状态估计的网络路由转发方法及系统
CN111416771B (zh) 基于多智能体强化学习路由策略控制路由动作的方法
CN109039942B (zh) 一种基于深度强化学习的网络负载均衡系统及均衡方法
CN114697229B (zh) 一种分布式路由规划模型的构建方法及应用
CN112437020B (zh) 一种基于深度强化学习的数据中心网络负载均衡方法
CN112486690B (zh) 一种适用于工业物联网的边缘计算资源分配方法
CN114629543B (zh) 一种基于深度监督学习的卫星网络自适应流量调度方法
Mao et al. Learning multi-agent communication under limited-bandwidth restriction for internet packet routing
CN111917642B (zh) 分布式深度强化学习的sdn网络智慧路由数据传输方法
Xu et al. Evaluating and boosting reinforcement learning for intra-domain routing
CN115396366B (zh) 基于图注意力网络的分布式智能路由方法
CN113114581A (zh) 基于多智能体深度强化学习的tcp拥塞控制方法及装置
Oužecki et al. Reinforcement learning as adaptive network routing of mobile agents
CN117041129A (zh) 一种基于多智能体强化学习的低轨卫星网络流路由方法
Sun et al. Improving the scalability of deep reinforcement learning-based routing with control on partial nodes
CN113518039B (zh) Sdn架构下基于深度强化学习的资源优化方法及系统
CN116708269A (zh) 基于端到端价值学习的配电物联网路由选择方法及系统
CN116094983A (zh) 基于深度强化学习的智能路由决策方法、系统及存储介质
CN115150335A (zh) 一种基于深度强化学习的最优流量分割的方法和系统
CN116132361A (zh) 一种基于QoS和QoE的网络资源优化调整方法和系统
CN117014355A (zh) 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法
Bisoy et al. A neuron-based active queue management scheme for internet congestion control
CN114254734A (zh) 一种支持确定性应用的流量矩阵建模方法
Rao et al. A deep learning-based constrained intelligent routing method
Sun et al. MAMRL: Exploiting Multi-agent Meta Reinforcement Learning in WAN Traffic Engineering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant