CN113938415B

CN113938415B - 一种基于链路状态估计的网络路由转发方法及系统

Info

Publication number: CN113938415B
Application number: CN202111058710.6A
Authority: CN
Inventors: 戴彬; 曹园园; 伍仲丽
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2022-08-02
Anticipated expiration: 2041-09-09
Also published as: CN113938415A

Abstract

本发明公开了一种基于链路状态估计的网络路由转发方法及系统，属于网络通信领域，方法包括：S1，将流量矩阵输入DDPG神经网络，输出各链路的第一权重；S2，监测网络中各节点对之间的端到端时延，基于端到端时延估计各链路的拥塞概率，生成包含拥塞概率的动作噪声；S3，将动作噪声添加至各链路的第一权重中，对添加结果依次进行截取和softmax函数处理，得到各链路的最终权重，将最终权重转化为路由策略并分发至各节点，根据路由策略下的网络状态计算奖励；S4，多次重复执行S1‑S3以形成不同时刻下的多组样本数据以训练DDPG神经网络模型，样本数据包含最终权重、奖励和流量矩阵。解决DDPG收敛困难和过早陷入局部最优的问题。

Description

一种基于链路状态估计的网络路由转发方法及系统

技术领域

本发明属于网络通信领域，更具体地，涉及一种基于链路状态估计的网络路由转发方法及系统。

背景技术

深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)采用actor-critic结构，是off-policy的深度强化学习算法。DDPG将DQN的经验回放、双网络结构与策略梯度算法结合，采用确定性策略获取动作，在求解策略梯度时不需要针对动作空间采样积分，使得求解过程更为简化，并且可以很好地适用于连续动作空间的问题。可以使用DDPG学习网络拓扑的链路权重，然后根据链路权重来生成路由策略。

DDPG在训练过程中存在收敛困难和过早陷入局部最优的问题，原因在于：DDPG本身对超参数比较敏感，参数选择会影响最终的策略是否最优以及收敛情况；DDPG存在Q值过高估计的问题，这种误差累积到一定程度会导致生成次优策略；动作维度为网络链路总数，尤其对于大型网络动作空间会更大，较大的动作空间使神经网络模型难以收敛；DDPG常用的噪声机制是OU噪声，OU噪声的超参数不易控制，对于动作空间维度较大的问题，简单的基于随机噪声的方法或针对物理控制问题提出的探索方法可能会过早陷入局部最优。如何解决DDPG收敛困难和过早陷入局部最优的问题，对于DDPG在动作空间维度较大的网络通信领域中的应用具有重要影响。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于链路状态估计的网络路由转发方法及系统，其目的在于解决DDPG收敛困难和过早陷入局部最优的问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于链路状态估计的网络路由转发方法，包括：S1，统计网络中各节点对之间的流量需求得到流量矩阵，将所述流量矩阵输入DDPG神经网络，输出各链路的第一权重；S2，监测网络中各节点对之间的端到端时延，基于所述端到端时延判断各节点对之间的路径状态，并根据预置的路径-链路拥塞关系估计所述路径状态下各链路的拥塞概率，生成包含所述拥塞概率的动作噪声；S3，将所述动作噪声添加至各链路的第一权重中，对添加后得到的结果依次进行截取和softmax函数处理，得到各链路的最终权重，将所述最终权重转化为路由策略并分发至各节点，根据所述路由策略下的网络状态计算奖励；S4，多次重复执行所述S1-S3以形成不同时刻下的多组样本数据，所述样本数据包含最终权重、奖励和流量矩阵，并利用所述多组样本数据训练DDPG神经网络模型。

更进一步地，所述S4之后还包括：基于当前时刻的流量矩阵，利用训练后的DDPG神经网络模型生成各链路的第一权重，对所述第一权重依次进行动作噪声添加、截取、softmax函数处理和转化后生成当前路由策略，各节点根据所述当前路由策略执行网络路由转发。

更进一步地，所述动作噪声为：

其中，

为所述动作噪声，p为链路拥塞概率向量，

p_b为链路b的拥塞概率，b＝1,2,…,n_e，n_e为链路总数，ρ为由实时的路径状态和输出动作确定的数值向量，

ρ_b为链路b对应的数值，N_t为OU噪声。

更进一步地，所述拥塞概率为：

其中，p为链路拥塞概率向量，y^[1]为第一中间参数，y^[2]为第二中间参数，A为路由矩阵，A^[2]中的任一元素(i,l)为在A的第i行和第l行之间进行最大运算所得，

为路径u的期望，u＝1,2,…,n_p，n_p为路径总数，

为路径h和路径k的期望，h和k均为1,2,…,n_p中的任意数值且h≠k。

更进一步地，所述S3中添加后得到的结果为：

将a_t截取在[0,1]范围内，softmax函数处理后得到的最终权重为：

W_t＝softmax(a_t)

其中，a_t为添加后得到的结果，s_t为流量矩阵，θ^μ为DDPG神经网络中actor网络的参数均值，μ(s_t|θ^μ)为s_t下actor网络选择的动作均值，

为所述动作噪声，W_t为最终权重，softmax()为softmax函数处理。

更进一步地，所述S3中得到的奖励为：

其中，R_t为所述奖励，

分别为D_i→j、J_i→j、L_i→j的归一化向量，D_i→j、J_i→j、L_i→j分别为源节点i到目的节点j的时延、抖动和丢包率，α、β、γ分别为时延权重、抖动权重和丢包率权重。

更进一步地，所述S3中利用最短加权路径算法Dijkstra将所述最终权重转化为路由策略并分发至各节点。

更进一步地，所述S4中利用所述多组样本数据训练DDPG神经网络模型包括：利用所述多组样本数据更新DDPG神经网络模型中的critic网络和actor网络，软更新DDPG神经网络模型中的critic目标网络和actor目标网络；判断训练是否达到预设回合，若未达到，重复执行所述S1-S4直至训练达到所述预设回合。

更进一步地，所述方法还包括：形成任一样本数据时，将形成的样本数据存放在经验回放池中，从所述经验回放池中抽取样本数据以训练DDPG神经网络模型。

按照本发明的另一个方面，提供了一种基于链路状态估计的网络路由转发系统，包括：统计模块，用于统计网络中各节点对之间的流量需求得到流量矩阵，将所述流量矩阵输入DDPG神经网络，输出各链路的第一权重；时延监测及噪声生成模块，用于监测网络中各节点对之间的端到端时延，基于所述端到端时延判断各节点对之间的路径状态，并根据预置的路径-链路拥塞关系估计所述路径状态下各链路的拥塞概率，生成包含所述拥塞概率的动作噪声；噪声添加及奖励计算模块，用于将所述动作噪声添加至各链路的第一权重中，对添加后得到的结果依次进行截取和softmax函数处理，得到各链路的最终权重，将所述最终权重转化为路由策略并分发至各节点，根据所述路由策略下的网络状态计算奖励；样本形成及训练模块，用于多次重复执行所述统计模块、所述时延监测及噪声生成模块和所述噪声添加及奖励计算模块以形成不同时刻下的多组样本数据，所述样本数据包含最终权重、奖励和流量矩阵，并利用所述多组样本数据训练DDPG神经网络模型。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：使用端到端时延来估计链路拥塞概率，通过动作噪声的优化，利用估计的链路拥塞概率指导动作空间的探索方向，解决了DDPG在动作空间维度较大的网络通信领域中的应用时存在的收敛困难和过早陷入局部最优的问题，提高学习效率；利用估计的链路拥塞概率指导动作空间的探索方向，对DDPG输出的链路权重进行优化，使得最终形成的路由策略更优，提高网络的效率。

附图说明

图1为本发明实施例提供的基于链路状态估计的网络路由转发方法的流程图；

图2为本发明实施例提供的基于链路状态估计的网络路由转发方法与现有方法在不同流量强度下的时延；

图3为本发明实施例提供的基于链路状态估计的网络路由转发方法与现有方法在不同流量强度下的抖动；

图4为本发明实施例提供的基于链路状态估计的网络路由转发方法与现有方法在不同流量强度下的丢包率；

图5为本发明实施例提供的基于链路状态估计的网络路由转发系统的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

流量工程是优化网络服务质量(Quality of Service，QoS)的重要方法之一，通过动态测量和分析实时网络流量来设计最佳的路由转发规则。为了解决DDPG收敛困难和过早陷入局部最优的问题，本实施例中利用流量工程的知识，通过实时网络监测结果来估计链路的拥塞概率，然后根据估计的链路拥塞概率计算生成动作噪声，指导DDPG动作空间的探索方向，提高学习效率。本实施例中，考虑到链路负载受网络拓扑和路由策略的影响，因此，不直接从流量矩阵中推断拥塞链路，而是利用网络拓扑结构与路由策略，根据实时网络的端到端性能(例如时延)与拓扑关系，估计链路拥塞概率。

具体地，先根据监测到的网络端到端时延判断路径状态，再建立路径状态与链路拥塞关系的方程组来估计所有链路的拥塞概率，根据估计的链路拥塞概率生成动作噪声，从而指导动作空间的探索方向，提升学习效率。利用网络监测的网络状态(例如时延、抖动和丢包率)指标设计奖励函数，结合网络链路状态、流量需求等多方面因素，训练神经网络参数对网络路由策略进行优化。

图1为本发明实施例提供的基于链路状态估计的网络路由转发方法的流程图。参阅图1，结合图2-图4，对本实施例中基于链路状态估计的网络路由转发方法进行详细说明，方法包括操作S1-操作S4。

操作S1，统计网络中各节点对之间的流量需求得到流量矩阵，将流量矩阵输入DDPG神经网络，输出各链路的第一权重。

本实施例中，将网络建模为有向图G＝(V,E)，其中，V和E分别是节点集和链路集。设n_v为节点总数，n_e为链路总数，定义V(G)＝{1,…,n_v}为n_v个节点的集合，其中n_v≥2，E(G)＝{1,…,n_e}为n_e条链路的集合。P是网络拓扑的路径集合，路径集合的大小用n_p＝|P|表示。网络中链路的带宽定义为B_i,j，TM表示所有源-目的(Origin-Destination，OD)节点对之间的流量需求。TM_t是一个n_v×n_v的二维数组，表示在t时刻网络的流量需求。TM_i,j指示源节点i和目的节点j之间的流量需求。W_t表示在t时刻的网络链路权重。D_i→j,J_i→j,L_i→j分别是源节点i到目的节点j的时延、抖动和丢包的度量，可以用于奖励函数的设计。

操作S1中，统计网络中所有节点对之间的流量需求，用流量矩阵TM表示，以流量矩阵TM作为DDPG神经网络模型的状态输入s_t，以网络中所有链路的权重作为DDPG神经网络模型的动作输出a_t。

操作S2，监测网络中各节点对之间的端到端时延，基于端到端时延判断各节点对之间的路径状态，并根据预置的路径-链路拥塞关系估计路径状态下各链路的拥塞概率，生成包含拥塞概率的动作噪声。

本实施例中，使用时延来评判路径拥塞与否，设定时延的拥塞阈值为tp，当某路径时延大于拥塞阈值tp时，则称该路径为拥塞路径，一条拥塞路径中至少包含一条拥塞链路。根据网络拓扑结构与路由策略将路径与链路的拥塞关系建立一个方程组，求解链路拥塞概率向量。

基于各节点对之间的路径状态估计得到的拥塞概率为：

其中，p为链路拥塞概率向量，y^[1]为第一中间参数，y^[2]为第二中间参数，A＝(a_ub)为路由矩阵，若源-目的对u＝(i,j)之间的流量经过b链路，则a_ub＝1，否则a_ub＝0，A^[2]中的任一元素(i,l)为在A的第i行和第l行之间进行最大运算所得，

为路径u的期望，u＝1,2,…,n_p，n_p为路径总数，

上式来自于对

和

的期望，x_b表示链路b的状态，x_b＝1为拥塞状态，x_b＝0为非拥塞状态。y_u表示路径u的状态，一共有n_p条路径，y_u＝1为拥塞状态，y_u＝0为非拥塞状态。

为路径状态向量，

表示为路径i的期望E_p[Y_i]，计算方式为

y_il是两个路径的组合，y_il＝0表示路径i和路径l都未拥塞，否则y_il＝1。例如y₁₂表示路径1和路径2的状态，只有两者都未阻塞为0，否则y₁₂＝1。

表示为路径i和路径l的期望计算，计算公式为

P是网络拓扑的路径集合，路径集合的大小用n_p＝|P|表示。

生成的包含拥塞概率的动作噪声为：

其中，

为动作噪声，p为链路拥塞概率向量，

p_b为链路b的拥塞概率，0≤p_b＜1，b＝1,2,…,n_e，n_e为链路总数，ρ为由实时的路径状态和输出动作确定的数值向量，

ρ_b为链路b对应的数值，N_t为OU噪声。

对于ρ_b选取，例如当0.6≤p_b＜1时，ρ_b＞0；当0≤p_b＜0.3时，ρ_b＜0；当0.3≤p_b＜0.6时，ρ_b＝0。对于拥塞概率大的链路，根据上式计算获得的动作噪声一般会大，在选路时被选中概率就会变小，对于拥塞概率小的链路，根据上式计算获得的动作噪声一般会小，在选路时被选中概率就会变大，对于拥塞程度中等的链路，其动作噪声以OU噪声为主，以探索潜在的更优策略。

操作S3，将动作噪声添加至各链路的第一权重中，对添加后得到的结果依次进行截取和softmax函数处理，得到各链路的最终权重，将最终权重转化为路由策略并分发至各节点，根据路由策略下的网络状态计算奖励。

操作S3中添加动作噪声后得到的结果为：

进一步地，将a_t截取在[0,1]范围内，并对截取后的结果进行softmax函数处理，得到的最终权重为：

W_t＝softmax(a_t)

为动作噪声，W_t为最终权重，softmax()为softmax函数处理。

本实施例中，状态空间为网络的流量需求，动作空间为网络的链路权重，根据QoS指标定义t时刻奖励函数R_t：

其中，R_t为t时刻的奖励；R(i→j|s_t,a_t)是指当前状态s_t和执行动作a_t后，链路(源节点i到目的节点j)的状态奖励；

分别为D_i→j、J_i→j、L_i→j的归一化向量，D_i→j、J_i→j、L_i→j分别为源节点i到目的节点j的时延、抖动和丢包率；α、β、γ分别为时延权重、抖动权重和丢包率权重，可调权重α,β,γ∈[0,1)，分别表示时延、抖动和丢包率指标对于业务流的重要性。学习的目标为确定最优行为策略π关于状态空间S到动作空间A的映射(π:S→A)，最大限度地提高预期奖励R_t。

从链路权重生成路由转发规则是路由的经典方法，优选地，操作S3中例如利用最短加权路径算法Dijkstra将最终权重转化为路由端口转发表作为路由策略P_t并分发至各节点。Dijkstra算法应用了贪心模式，可用于解决有向图单个源点到其他节点的最短路径问题，思想是每次迭代时选择的下一个节点是在标记点之外最靠近源点的点。可以理解的是，也可以选用其他方法将最终权重转化为路由策略并分发至各节点。

操作S4，多次重复执行S1-S3以形成不同时刻下的多组样本数据，样本数据包含最终权重、奖励和流量矩阵，并利用多组样本数据训练DDPG神经网络模型。

本实施例中的网络路由转发方法还包括：形成任一样本数据时，将形成的样本数据存放在经验回放池D中，操作S4中从经验回放池D中抽取样本数据以训练DDPG神经网络模型。

进一步地，可以在每形成一样本数据时，生成标记done表示执行动作a_t结束，并获取下一时刻状态s_t+1，将(s_t,a_t,r_t,s_t+1,done)五元组存入经验回放池D。操作S4中从经验回放池D中随机小批量抽取N个样本(s_i,a_i,r_i,s_i+1,done)以训练DDPG神经网络模型。

DDPG神经网络模型包括两个actor(分别为actor网络和actor目标网络)和两个critic(分别为critic网络和critic目标网络)。DDPG网络模型随网络拓扑结构改变，actor的前2层采用全连接的前馈神经网络，分别包含n_v(n_v-1)个神经元和n_v(n_v-1)/2个神经元，激活函数都采用selu，输出层包含n_v个神经元，激活函数采用sigmoid。critic也采用全连接的前馈神经网络，给出动作的价值，激活函数为selu或linear。优化器为Adam，通过神经网络的梯度反向传播来更新参数。另外，为了避免在训练时陷入局部最小值，利用基于链路状态估计的动作噪声指导动作探索空间，在DDPG的输出动作加上动作噪声，将加入噪声的动作截取在[0,1]范围内并经softmax处理作为最终链路权重。利用最短加权路径算法Dijkstra将链路权重转换为路由节点可执行的路由策略P_t，最后，控制器发布路由策略给转发节点，转发节点根据接收到的路由策略执行数据包转发。

根据本发明的实施例，操作S4中利用多组样本数据训练DDPG神经网络模型包括：利用多组样本数据更新DDPG神经网络模型中的critic网络和actor网络，软更新DDPG神经网络模型中的critic目标网络和actor目标网络；判断训练是否达到预设回合M，若未达到，重复执行操作S1-操作S4直至训练达到预设回合M。

具体地，从经验回放池D中随机小批量抽取N个五元组样本数据(s_i,a_i,r_i,s_i+1,done)，更新critic网络使得均方差损失函数最小化，更新actor网络，软更新actor目标网络和critic目标网络。训练达到M回合则停止训练，保存当前神经网络模型，如果不达到M回合，则再次执行操作S1-操作S4，继续训练神经网络参数，直到满足服务质量需求。

根据本发明的实施例，操作S4之后还包括：基于当前时刻的流量矩阵，利用训练后的DDPG神经网络模型生成各链路的第一权重，对第一权重依次进行动作噪声添加、截取、softmax函数处理和转化后生成当前路由策略，各节点根据当前路由策略执行网络路由转发。操作S4之后的工作过程与上述操作S1-操作S3中转化生成路由策略并分发至各节点之间的操作相同，此处不再赘述。

本实施例中，利用具有14节点和21链路NSF网络拓扑进行实验。具体地，利用四种路由算法进行实验，分别为距离矢量算法DV、最短路径优先算法SPF、DDPG与本发明实施例提出的基于链路状态估计的网络路由转发方法(简称为DDPG-LSE)。四种算法不同流量强度的时延、抖动和丢包率实验结果分别如图2、图3和图4所示。参阅图2-图4可知，几乎所有情况下，本发明实施例中的DDPG-LSE方法在各方面都达到了最佳性能。

本发明实施例中设计的路由模型具有实时性，一旦经过训练，可以在一个单一步骤中产生近似最优的路由配置，从而对网络资源分配进行优化，提高网络的性能。

图5为本发明实施例提供的基于链路状态估计的网络路由转发系统的框图。参阅图5，该基于链路状态估计的网络路由转发系统500包括统计模块510、时延监测及噪声生成模块520、噪声添加及奖励计算模块530、样本形成及训练模块540。

统计模块510例如执行操作S1，用于统计网络中各节点对之间的流量需求得到流量矩阵，将流量矩阵输入DDPG神经网络，输出各链路的第一权重。

时延监测及噪声生成模块520例如执行操作S2，用于监测网络中各节点对之间的端到端时延，基于端到端时延判断各节点对之间的路径状态，并根据预置的路径-链路拥塞关系估计路径状态下各链路的拥塞概率，生成包含拥塞概率的动作噪声。

噪声添加及奖励计算模块530例如执行操作S3，用于将动作噪声添加至各链路的第一权重中，对添加后得到的结果依次进行截取和softmax函数处理，得到各链路的最终权重，将最终权重转化为路由策略并分发至各节点，根据路由策略下的网络状态计算奖励。

样本形成及训练模块540例如执行操作S4，用于多次重复执行统计模块510、时延监测及噪声生成模块520和噪声添加及奖励计算模块530以形成不同时刻下的多组样本数据，样本数据包含最终权重、奖励和流量矩阵，并利用多组样本数据训练DDPG神经网络模型。

基于链路状态估计的网络路由转发系统500用于执行上述图1-图4所示实施例中的基于链路状态估计的网络路由转发方法。本实施例未尽之细节，请参阅前述图1-图4所示实施例中的基于链路状态估计的网络路由转发方法，此处不再赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于链路状态估计的网络路由转发方法，其特征在于，包括：

S1，统计网络中各节点对之间的流量需求得到流量矩阵，将所述流量矩阵输入DDPG神经网络，输出各链路的第一权重；

S2，监测网络中各节点对之间的端到端时延，基于所述端到端时延判断各节点对之间的路径状态，并根据预置的路径-链路拥塞关系估计所述路径状态下各链路的拥塞概率，生成包含所述拥塞概率的动作噪声，所述动作噪声为：

其中，

为所述动作噪声，p为链路拥塞概率向量，

ρ_b为链路b对应的数值，N_t为OU噪声；

S3，将所述动作噪声添加至各链路的第一权重中，对添加后得到的结果依次进行截取和softmax函数处理，得到各链路的最终权重，将所述最终权重转化为路由策略并分发至各节点，根据所述路由策略下的网络状态计算奖励；

S4，多次重复执行所述S1-S3以形成不同时刻下的多组样本数据，所述样本数据包含最终权重、奖励和流量矩阵，并利用所述多组样本数据训练DDPG神经网络模型。

2.如权利要求1所述的基于链路状态估计的网络路由转发方法，其特征在于，所述S4之后还包括：

基于当前时刻的流量矩阵，利用训练后的DDPG神经网络模型生成各链路的第一权重，对所述第一权重依次进行动作噪声添加、截取、softmax函数处理和转化后生成当前路由策略，各节点根据所述当前路由策略执行网络路由转发。

3.如权利要求1-2任一项所述的基于链路状态估计的网络路由转发方法，其特征在于，所述拥塞概率为：

为路径u的期望，u＝1,2,…,n_p，n_p为路径总数，

4.如权利要求1所述的基于链路状态估计的网络路由转发方法，其特征在于，所述S3中添加后得到的结果为：

W_t＝softmax(a_t)

为所述动作噪声，W_t为最终权重，softmax()为softmax函数处理。

5.如权利要求1或4所述的基于链路状态估计的网络路由转发方法，其特征在于，所述S3中得到的奖励为：

其中，R_t为所述奖励，

分别为D_i→j、J_i→j、L_i→j的归一化向量，D_i→j、J_i→j、L_i→j分别为源节点i到目的节点j的时延、抖动和丢包率，α、β、γ分别为时延权重、抖动权重和丢包率权重，n_v为节点总数。

6.如权利要求1所述的基于链路状态估计的网络路由转发方法，其特征在于，所述S3中利用最短加权路径算法Dijkstra将所述最终权重转化为路由策略并分发至各节点。

7.如权利要求1所述的基于链路状态估计的网络路由转发方法，其特征在于，所述S4中利用所述多组样本数据训练DDPG神经网络模型包括：

利用所述多组样本数据更新DDPG神经网络模型中的critic网络和actor网络，软更新DDPG神经网络模型中的critic目标网络和actor目标网络；

判断训练是否达到预设回合，若未达到，重复执行所述S1-S4直至训练达到所述预设回合。

8.如权利要求1或7所述的基于链路状态估计的网络路由转发方法，其特征在于，所述方法还包括：形成任一样本数据时，将形成的样本数据存放在经验回放池中，从所述经验回放池中抽取样本数据以训练DDPG神经网络模型。

9.一种基于链路状态估计的网络路由转发系统，其特征在于，包括：

统计模块，用于统计网络中各节点对之间的流量需求得到流量矩阵，将所述流量矩阵输入DDPG神经网络，输出各链路的第一权重；

时延监测及噪声生成模块，用于监测网络中各节点对之间的端到端时延，基于所述端到端时延判断各节点对之间的路径状态，并根据预置的路径-链路拥塞关系估计所述路径状态下各链路的拥塞概率，生成包含所述拥塞概率的动作噪声，所述动作噪声为：

其中，

为所述动作噪声，p为链路拥塞概率向量，

ρ_b为链路b对应的数值，N_t为OU噪声；

噪声添加及奖励计算模块，用于将所述动作噪声添加至各链路的第一权重中，对添加后得到的结果依次进行截取和softmax函数处理，得到各链路的最终权重，将所述最终权重转化为路由策略并分发至各节点，根据所述路由策略下的网络状态计算奖励；

样本形成及训练模块，用于多次重复执行所述统计模块、所述时延监测及噪声生成模块和所述噪声添加及奖励计算模块以形成不同时刻下的多组样本数据，所述样本数据包含最终权重、奖励和流量矩阵，并利用所述多组样本数据训练DDPG神经网络模型。