CN114697229A

CN114697229A - 一种分布式路由规划模型的构建方法及应用

Info

Publication number: CN114697229A
Application number: CN202210238645.3A
Authority: CN
Inventors: 戴彬; 伍仲丽; 黄文睿
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-07-01
Anticipated expiration: 2042-03-11
Also published as: CN114697229B

Abstract

本发明公开了一种分布式路由规划模型的构建方法及应用，属于网络通信技术领域；本发明为网络中的每个路由器均搭建一个DRL代理，构成了分布式路由规划模型；DRL代理利用图神经网络根据图结构关系对本地特征信息进行聚合与更新，精准刻画网络拓扑之间的关系，将通过多个图卷积层生成的隐藏特征信息与网络特征作为DRL代理的状态输入，通过策略网络输出选择形成路由下一跳的概率。分布式路由规划模型中的各DRL代理相互协作生成总的路由序列，在数据平面中进行分组转发后，根据业务需求计算当前流的奖励，以实现每个DRL代理经过的所有流累积奖励的最大化；本发明所构建的分布式路由规划模型泛化能力较强，能够真实准确地进行路由规划。

Description

一种分布式路由规划模型的构建方法及应用

技术领域

本发明属于网络通信技术领域，更具体地，涉及一种分布式路由规划模型的构建方法及应用。

背景技术

在网络中，路由是指分组从源路由器转发到目的地路由器的路径选择问题，通常是由路由表进行分组转发。最传统的网络路由算法是静态路由算法，同时也被称为非自适应路由算法，需要网络管理员手动配置路由表，这种方式仅适用于简单或者稳定不变的网络中，对于大型复杂网络，其实现的难度和复杂程度非常高。另一种常见网络路由算法是动态路由算法，也被称为自适应路由算法，常用的有距离-向量路由算法(Distance VectorRouting，DV)和链路状态路由算法(Link-stage，LS)，DV算法是每个节点定期获取相邻节点信息和链路费用从而更新路由的过程，LS算法是所有路由器获取整个网络拓扑的信息和链路状态，再利用相关链路状态算法计算路由的过程。动态路由算法具有更新快、改善网络性能等优点，但是其动态性也会引起系统产生震荡等缺陷，例如DV算法由于节点只与邻居节点通信，易出现路由环路问题，造成网络资源大大浪费，而LS算法虽然可以用于大型网络环境，但其算法复杂度高，造成网络负担大。因此，根据网络的当前实际情况仔细设计适当的路由算法，以实现网络需求非常重要。

随着新型网络应用的不断涌现，不同业务在带宽速率、时延、抖动、能耗、服务安全等方面有着差异化的需求，例如对于AR/VR应用(3D)，数据率要求为63Mbit/s，时延要求低于20ms，分组丢失率要求小于2.40×10-5。对于工业互联网等高交互常见，数据率要求1～10Gbit/s，时延要求低于5ms。对于远程医疗应用等高水平场景，数据率要求为100Mbit/s，时延要求低于100ms。这些新型应用对基础网络的运维和传输提出了新的需求和挑战。近些年来，很多研究人员将机器学习技术应用于网络路由优化，可以处理较为复杂的网络环境，并能实时响应环境和用户的需求变化，然而许多相关工作都是使用流量矩阵此类简单的网络表示形式作为DRL算法的状态输入，这种建模方式不能准确地表达网络真实的连接情况，因此算法很难学习到网络中路径和链路的关系，使得该网络技术无法广泛推广，泛化性能差。并且随着网络规模逐渐增大，DRL框架的动作空间增大，使得网络收敛缓慢或难以收敛。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种分布式路由规划模型的构建方法及应用，用以解决现有技术无法真实准确地进行路由规划的技术问题。

为了实现上述目的，第一方面，本发明提供了一种分布式路由规划模型的构建方法，包括以下步骤：

S1、为网络中的每个路由器均搭建一个DRL代理，构成分布式路由规划模型；

分布式路由规划模型用于基于DRL代理得到各路由器节点的最佳下一跳，进行联合后得到业务流的路由序列；

其中，DRL代理包括串联的GNN模型和神经网络模型；

GNN模型用于基于网络拓扑信息，采用多个级联的图卷积层聚合网络中各路由器节点与其邻居节点的链路状态信息，得到GNN模型所在的路由器节点u的局部状态特征，并输入到对应的神经网络模型中；路由器节点u的局部状态特征包括：路由器节点u与其邻居节点的链路状态信息聚合后的特性；

神经网络模型用于对业务流信息、网络拓扑信息以及路由器节点u的局部状态特征进行特征提取后进行特征映射，得到路由器节点u的最佳下一跳；

S2、将采集到的若干业务流信息输入到分布式路由规划模型中，得到各业务流所对应的路由序列，并分别下发到网络中；将下发业务流所对应的路由序列后的网络状态作为奖励反馈给各路由器节点所对应的DRL代理，通过最大化每个DRL代理上所经过的所有业务流的累积奖励，对分布式路由规划模型进行训练。

进一步优选地，上述GNN模型的输入为网络所对应的全局链路状态，包括各路由器节点的链路状态信息；链路状态信息包括：链路容量、链路丢失率或链路介数。

进一步优选地，GNN模型包括T层级联的图卷积层；图卷积层用于根据输入的节点特征向量集信息进行注意力自处理；

第一级图卷积层的输入的节点特征向量集信息为网络所对应的全局链路状态，记为

N为网络中路由器节点的个数；F为路由器节点的链路状态信息的维度；

第一级图卷积层输出的节点特征向量集信息为：

其中，α_ij为注意力系数，

为节点i及其邻居节点所构成的集合；W为权值矩阵，

a(·)为从

到

的映射函数；||为拼接运算符；

第二级图卷积层的输入为第一级图卷积层的输出，依次类推，经过T层图卷积层，得到最终的节点特征向量集信息；

从最终的节点特征向量集信息中获取路由器节点u的局部状态特征，并输出到路由器节点u所对应的神经网络模型中。

进一步优选地，上述采集到的若干业务流信息包括不同种类的业务流信息；

路由器节点u所对应的神经网络模型的输出层包括L组神经元；其中，L为业务流的种类个数；每组神经元的个数为路由器节点u的邻居节点的数量；

每一种业务流均采用对应的神经元组进行输出。

进一步优选地，上述奖励的获取方法，包括：

判断业务流所对应的路由序列中是否存在环路，若存在环路，则环路上的任意路由器节点所对应的DRL代理的奖励为负常数；

否则，下发第b个业务流时的奖励为：

其中，

和

分别为x_b、y_b和z_b的归一化量；x_b、y_b和z_b分别为下发第b个业务流所对应的路由序列后网络的时延、抖动和丢包率；α、β和γ均为可调权重。

进一步优选地，α、β和γ均为非负标量，根据业务流类型预先设置。

进一步优选地，步骤S2包括：

S21、构建马尔可夫决策过程

其中，

为网络中所有路由器节点的全局状态空间；全局状态空间包括：业务流信息、网络拓扑信息以及各路由器节点的局部状态特征；

为基于业务流的路由序列所得的所有路由器节点联合的动作空间；

为基于业务流的路由序列所得的网络的状态转移概率矩阵；

为下发业务流所对应的路由序列时所得的奖励；

S22、通过对马尔可夫决策过程进行优化来最大化每个DRL代理上所经过的所有业务流的累积奖励，从而对分布式路由规划模型进行训练。

第二方面，本发明提供了一种分布式路由规划方法，包括：将当前业务流信息和网络拓扑信息输入到本发明第一方面所构建的分布式路由规划模型中，得到当前业务流的路由序列，即当前业务流的路由规划策略。

进一步优选地，上述分布式路由规划方法还包括：基于当前业务流的路由序列对分布式路由规划模型进行强化学习，进一步对上述分布式路由规划模型进行优化。

第三方面，本发明提供了一种分布式路由规划系统，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行本发明第二方面所提供的分布式路由规划方法。

第四方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本发明第一方面所提供的分布式路由规划模型的构建方法和/或本发明第二方面所提供的分布式路由规划方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

1、本发明提供了一种分布式路由规划模型的构建方法，为网络中的每个路由器均搭建一个DRL代理，其中，DRL代理包括串联的GNN模型和神经网络模型；本发明采用GNN的图感知能力提取当前节点及其邻居的拓扑资源使用信息，根据链路连接关系在网络中传播、更新和聚合特征信息，从而提取有意义的隐藏状态信息，能够帮助神经网络做出更优的路由决策，也大大提高了模型的泛化能力，能够真实准确地进行路由规划。

2、本发明所提供的分布式路由规划模型的构建方法，采用了新颖的神经网络结构，使用邻居节点的状态信息作为局部状态输入可以减少计算开销，并帮助DRL代理选择最佳的下一跳，有利于模型收敛；另外，本发明为每一种业务类型及目的节点的流创建了专门的策略输出层，使得模型具有高度扩展性，满足不同业务类型的需求，实现每个DRL代理经过的所有流累积奖励最大化。

3、在网络路由中，采用像单个SDN控制器的集中式路由控制做路由决策，模型可能会因为随着网络的变化而急剧增大动作空间，从而使得模型不能进行有效地训练和预测，因此，本发明所提供的分布式路由规划模型的构建方法，采用分布式多代理路由，独立地计算到达各节点的路由，将路由决策过程分解为一个多智能体马尔可夫决策过程，以逐跳的方式组织生成路由，使得模型具备良好的扩展性，准确性较高。

4、本发明所提供的分布式路由规划模型的构建方法，采用离线学习方式进行训练，以避免分布式路由中由于DRL的随机探索而导致的环路问题，所构建的模型更加准确可靠。

5、本发明所提供的分布式路由规划模型的构建方法，奖励为网络的时延、抖动和丢包率的加权求和结果，考虑到不同业务的服务质量需求，网络的时延、抖动和丢包率的权重根据业务流类型预先设置，能够满足对时延、抖动、丢包等关键服务质量的差异化需求，从而能够充分利用网络资源并按需选择最优的路径。

附图说明

图1为本发明实施例1提供的分布式路由规划模型的构建方法流程图；

图2为本发明实施例1提供的GNN模型的结构示意图；

图3为本发明实施例1提供的神经网络模型的结构示意图；

图4为本发明所提供的分布式路由规划模型与分布式DRL算法在进行训练时所得的奖励值随迭代次数的变化曲线示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1、

一种分布式路由规划模型的构建方法，如图1所示，包括以下步骤：

S1、为网络中的每个路由器均搭建一个DRL代理，构成分布式路由规划模型；分布式路由规划模型用于基于DRL代理得到各路由器节点的最佳下一跳，进行联合后得到业务流的路由序列。

其中，DRL代理包括串联的GNN模型和神经网络模型；

(1)GNN模型：

GNN模型用于基于网络拓扑信息，采用多个级联的图卷积层聚合网络中各路由器节点与其邻居节点的链路状态信息，得到GNN模型所在的路由器节点u的局部状态特征，并输入到对应的神经网络模型中；路由器节点u的局部状态特征包括：路由器节点u与其邻居节点的链路状态信息聚合后的特性；其中，上述GNN模型的输入为网络所对应的全局链路状态，包括各路由器节点的链路状态信息；链路状态信息包括：链路容量、链路丢失率或链路介数。

具体地，本实施例中，GNN模型包括T层级联的图卷积层(本实施例中，T取值为2)；图卷积层用于根据输入的节点特征向量集信息进行注意力自处理；

第一级图卷积层输出的节点特征向量集信息为：

其中，α_ij为注意力系数，

为节点i及其邻居节点所构成的集合；W为权值矩阵，

a(·)为从

到

的映射函数；||为拼接运算符；

为了进一步说明本发明所提供的GNN模型，下面以路由器节点1为例进行详述，具体地，如图2所示，通过GNN更新状态特征信息的具体过程如下：

路由器节点1的本地状态为全局链路状态(如：链路容量特征)，维度为N×N，将全局链路状态分解为N个N维向量，分别代表各路由器节点的状态特征信息。通过获取网络拓扑结构信息可知，路由器节点1的邻居包含路由器节点3和路由器节点9，使用一个图卷积层聚合本地及邻居信息，生成新的一组节点隐藏状态信息，将路由器节点1的初始状态信息转换成为更抽象的表示。通过多个图卷积层，生成最终的节点隐藏状态信息，最后使用路由器节点1及其邻接节点的隐藏状态信息作为路由器节点1的局部状态特征。

图卷积层的输入是各路由器节点的初始特征向量集

其中，F表示节点对应的特征向量维度(本实施例中所采用的全局链路状态为链路容量，因此F的大小为节点个数N)。图卷积层根据输入的节点特征向量集进行注意力自处理，通过公式计算得到注意力特征数e_ij为：

其中，||是拼接运算符，

是权值矩阵，由所有

共享，a是一个

的映射函数，把拼接后的高维特征映射到一个实数e_ij上，实际运用中a可以由单层的前馈神经网络实现。节点j是节点i的邻居节点，

是节点i的邻居节点集，同时包含节点i。然后利用公式得到注意力系数α_ij，表示节点j的特征对节点i的重要程度，具体为：

其中，使用了归一化指数函数Softmax输出节点i对应邻居节点j的注意力系数α_ij，其系数数值范围为[0,1]。利用公式对节点集

进行加权求和，得到拟合更新后的特征向量

为：

其中，注意力系数α_ij为权重，由此可以得到所有新的节点特征向量集

经过T层图卷积层，输出最终节点特征向量集

作为特征处理的结果。为了减少计算开销，本发明使用最终节点特征向量集的部分信息作为局部状态输入，例如选择节点1的节点集

的最终节点特征向量

作为局部状态输入。

本实施例中的业务流的特征信息包含源节点、目的节点、服务类型和流速。网络拓扑信息包含邻居到不同目的地的最短路径距离信息。

需要说明的是，图神经网络GNN对图形结构化数据具有强大的建模能力，并展现了其很强的泛化能力，本发明利用GNN对图结构信息进行建模，能够更加精准地学习与刻画网络状态，从而提高模型的泛化能力。另外，每个DRL代理中均包括GNN模型，均具有自我学习的特征，因此可以更精准地生成策略，并且不受网络拓扑大小的限制。

(2)神经网络模型：

神经网络模型用于对业务流信息、网络拓扑信息以及路由器节点u的局部状态特征进行特征提取后，映射为分别选择路由器节点u的各邻居节点为路由器节点u的下一跳的概率，将最大概率所对应的路由器节点u的邻居节点作为路由器节点u的最佳下一跳。优选地，上述采集到的若干业务流信息包括不同种类的业务流信息；路由器节点u所对应的神经网络模型的输出层包括L组神经元；其中，L为业务流的种类个数；每组神经元的个数为路由器节点u的邻居节点的数量；每一种业务流均采用对应的神经元组进行输出。

具体地，如图3所示，本实施例中，神经网络模型结构由三部分组成，第一部分是一个输入层，包括V个神经元，V的数值由状态空间大小决定。第二部分是两个通用特征提取层，其中每层有Q(例如64)个神经元。第三部分是针对不同类型的流请求的一组专门的策略层(即输出层)。使用深度神经网络对输入状态进行特征提取，为每一种服务类型、每一个目的节点的流请求训练专用策略层，使得策略网络结构具有良好的灵活性，满足各类型的流请求并提高模型的收敛速度。

由上可知，网络中的每个路由器均有一个独立的DRL代理，它们利用本地信息来实现路由决策。DRL代理的状态输入包含：局部状态特征、当前业务流信息和网络拓扑信息。其中，局部状态特征是通过GNN的多个图卷积层来聚合本地及邻居信息而形成的新的状态特征信息，其利用了网络拓扑之间的关系在网络中传播、更新特征信息，从而提取有意义的隐藏状态信息，将其添加到DRL代理的状态输入中，能够帮助神经网络做出更好的路由决策。

需要说明的是，各DRL代理对于即将到来的流请求的动作输出是一个向量，为选择邻居节点作为下一跳的概率分布(如图3中输出的0.78、0.15、0.07概率值)。通过联合各节点的下一跳，可以生成总的路由序列。为了避免出现环路问题，本发明设计的路由算法中采用了先离线学习，后在线学习的方式，避免由于DRL代理的随机探索而导致的环路问题。如果存在路由环路，则学习最短路径并且在奖励中进行惩罚反馈。具体地，判断业务流所对应的路由序列中是否存在环路，若存在环路，则环路上的任意路由器节点所对应的DRL代理的奖励为负常数，本实施取值为-5；

若不存在环路，采取动作(路由序列)后，在本地数据平面中进行分组转发，计算当前业务流的奖励。为了评估具有不同服务类型的流的路由路径，本发明设计了业务流的奖励函数。设业务类型有L种，每种业务类型对网络需求都具有差异，主要考虑三个网络性能指标，分别是时延、抖动和丢包率。以路由器节点1为例，设第b个流的时延、抖动和丢包率为x_b、y_b和z_b，业务类型为第l种，则第b个流的奖励函数为：

其中，

是x_b、y_b和z_b的归一化量。可调权重α,β,γ∈[0,1)是非负标量，表示性能指标的重要性，根据第l种业务流类型预先设置；需要说明的是，不同的业务类型所设置的权重值不同，例如对于时延敏感的业务流，可分别设置为0.8、0.1、0.1，而对抖动和丢包敏感的业务流，可分别设置为0.2、0.4、0.4。由此得到第b个流的奖励R_l(b)并返回给DRL代理。目标是计算所有经过路由器节点1的业务流的累积奖励最大化，即使得每个DRL代理上经过的所有流累积奖励最大化。

由于采用集中式路由会影响模型的扩展性，且随着网络规模的增大，其动作空间也会急剧增加导致模型收敛性差，因此本发明采用一种可以应用到任意网络拓扑的多代理路由算法，其为网络中每一个路由器分配一个DRL代理，该代理能够根据当前的业务流的特征信息、网络拓扑信息和网络状态特征这三个信息作为状态输入，通过神经网络模型输出形成路由的最优下一跳。各代理采取最佳下一跳行动策略后，最终获得流的路由序列，由SDN控制器下发路由策略，并测量当前的网络状态作为奖励反馈给各DRL代理，评估当前具有服务需求业务流的路由路径。目标是使每个DRL代理经过的所有流累积奖励最大化。本实施例中，考虑网络建模为一个有向图G(N，M)，表示网络拓扑有N个节点，M条链路，其中每条链路都有链路容量特征。将路由生成过程建模为马尔可夫决策过程，可以用一个四元组来表示

其中

是所有代理

的全局状态空间，其中全局状态空间包括：业务流信息、网络拓扑信息以及各路由器节点的局部状态特征；

表示所有代理联合的动作空间(即业务流的路由序列)，

是基于业务流的路由序列所得的网络的状态转移概率矩阵；

为下发业务流所对应的路由序列时所得的奖励。通过联合每个智能体(DRL代理)基于当前状态采取的本地动作决策，可以确定最终流的路由并计算奖励。

需要说明的是，在网络路由中，采用像单个SDN控制器的集中式路由控制做路由决策，模型可能会因为随着网络的变化而急剧增大动作空间，从而使得模型不能进行有效地训练和预测。因此，采用分布式多代理路由，独立地计算到达各节点的路由，将路由决策过程分解为一个多智能体马尔可夫决策过程，以逐跳的方式组织生成路由，使得模型具备良好的扩展性。然而分布式路由会出现路由环路问题，本发明采用了离线学习部分首先对分布式路由规划模型进行训练，以学习避免由于DRL的随机探索而导致的环路问题。

除此之外，一个好的路由决策是基于正确的输入做出的，且使用更多、更好的网络特征作为输入可以提高模型的准确性。传统的路由方案并未考虑到不同业务的服务质量需求，即不能满足对时延、抖动、丢包等关键服务质量的差异化需求，因此不能实现充分利用网络资源并选择最优的路径。且以往使用流量矩阵等方式的网络模型并不精确，并不能精准表达网络拓扑结构，因此不合理的建模会导致模型的泛化能力差，难以推广到其他网络之中。为了开发更真实的网络模型，扩展网络路由的体系结构，本发明采用GNN的图感知能力提取当前节点及其邻居的拓扑资源使用信息，根据链路连接关系在网络中传播、更新和聚合特征信息，从而提取有意义的隐藏状态信息，并输入到后续神经网络中，能够帮助神经网络做出更好的路由决策，且提高模型的泛化能力；对于每个DRL代理，状态输入包含GNN提取的隐藏状态信息、当前业务流的特征信息以及当前网络拓扑的状态信息，以实现解决多类型业务流的在线路由规划问题；本发明设计的一种基于GNN的多代理深度强化学习网络路由算法，采用了新颖的神经网络结构，使用邻居节点的状态信息作为局部状态输入可以减少计算开销，并帮助DRL代理选择最佳的下一跳，有利于模型收敛，为每一种业务类型及目的节点的流创建了专门的策略输出层，使得模型具有高度扩展性，满足了不同业务类型的需求，实现每个DRL代理经过的所有流累积奖励最大化。

为了进一步说明本发明所提供的分布式路由规划模型的性能，下面结合具体的实验进行详述：

通过实验模拟来评估本发明提出的分布式路由规划模型，在11个节点和14条全双工链路的Abilene网络中与两种现有的路由算法进行对比。第一种是传统最短路径优先算法(SPF)，通过获取网络拓扑信息即可计算每台路由器到每台目的路由器的最短距离。第二种是基于深度强化学习(DRL)的分布式路由算法，其中DRL代理的状态输入包含全局链路状态(如：链路容量特征)、当前业务流的特征信息以及当前网络拓扑的状态信息。以此评估各算法下每种业务类型的性能指标，得到了如表1所示的结果。

表1

如表1所示，表1显示了三种算法在延迟、吞吐率、丢包率三个性能指标在不同QoS需求业务中的比较结果。在QoS的各项指标上，本发明所提供的布式路由规划模型几乎在所有情况下都能实现最佳性能；具体来说，平均时延较SPF算法和分布式DRL算法分别降低了37.7％和8.9％以上，平均抖动相较SPF算法和分布式DRL算法分别提升了1.3％和0.4％以上，而平均丢包率相较SPF算法和分布式DRL算法分别下降了42％和8.3％以上。且对于时延敏感的业务类型1的流，总是具有最小的平均时延。本发明所提供的分布式路由规划模型的奖励值是最优的，相对于分布式DRL算法提升了18.6％，且训练收敛速度是最快的，如图4所示。

实施例2、

一种分布式路由规划方法，包括：将当前业务流信息和网络拓扑信息输入到本发明实施例1所构建的分布式路由规划模型中，得到当前业务流的路由序列，即当前业务流的路由规划策略。

优选地，上述分布式路由规划方法还包括：基于当前业务流的路由序列对分布式路由规划模型进行强化学习，进一步对上述分布式路由规划模型进行优化。除了本发明实施例1中所述的离线学习，本发明进一步对分布式路由规划模型进行了在线学习，大大提供了模型的准确性。

相关技术方案同实施例1，这里不做赘述。

实施例3、

一种分布式路由规划系统，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行本发明实施例2所提供的分布式路由规划方法。

相关技术方案同实施例2，这里不做赘述。

实施例4、

一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本发明实施例1所提供的分布式路由规划模型的构建方法和/或本发明实施例2所提供的分布式路由规划方法。

相关技术方案同实施例1和实施例2，这里不做赘述。

本发明主要针对网络模型的建模问题和深度强化学习网络模型存在动作空间大难以收敛以及缺乏泛化能力等问题，为网络中每一个路由器分配一个DRL代理，利用图神经网络根据图结构关系对本地特征信息进行聚合与更新，精准刻画网络拓扑之间的关系，将通过多个图卷积层生成的隐藏特征信息与网络特征作为DRL代理的状态输入，通过策略网络输出选择形成路由下一跳的概率。各DRL代理相互协作生成总的路由序列，在数据平面中进行分组转发后，根据业务需求计算当前流的奖励，以实现每个DRLagent经过的所有流累积奖励最大化。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分布式路由规划模型的构建方法，其特征在于，包括以下步骤：

S1、为网络中的每个路由器均搭建一个DRL代理，构成分布式路由规划模型；所述分布式路由规划模型用于基于DRL代理得到各路由器节点的最佳下一跳，进行联合后得到业务流的路由序列；

其中，所述DRL代理包括串联的GNN模型和神经网络模型；

所述GNN模型用于基于网络拓扑信息，采用多个级联的图卷积层聚合网络中各路由器节点与其邻居节点的链路状态信息，得到所述GNN模型所在的路由器节点u的局部状态特征，并输入到对应的神经网络模型中；所述路由器节点u的局部状态特征包括：路由器节点u与其邻居节点的链路状态信息聚合后的特性；

所述神经网络模型用于对业务流信息、网络拓扑信息以及路由器节点u的局部状态特征进行特征提取后进行特征映射，得到路由器节点u的最佳下一跳；

S2、将采集到的若干业务流信息输入到所述分布式路由规划模型中，得到各业务流所对应的路由序列，并分别下发到网络中；将下发路由序列后的网络状态作为奖励反馈给各路由器节点所对应的DRL代理，通过最大化每个DRL代理上所经过的所有业务流的累积奖励，对所述分布式路由规划模型进行训练。

2.根据权利要求1所述的分布式路由规划模型的构建方法，其特征在于，所述GNN模型的输入为网络所对应的全局链路状态，包括各路由器节点的链路状态信息；所述链路状态信息包括：链路容量、链路丢失率或链路介数。

3.根据权利要求1所述的分布式路由规划模型的构建方法，其特征在于，所述GNN模型包括T层级联的图卷积层；所述图卷积层用于根据输入的节点特征向量集信息进行注意力自处理；

所述第一级图卷积层的输入的节点特征向量集信息为网络所对应的全局链路状态，记为

所述第一级图卷积层输出的节点特征向量集信息为：

其中，α_ij为注意力系数，

为节点i及其邻居节点所构成的集合；W为权值矩阵，

α(·)为从

到

的映射函数；||为拼接运算符；

所述第二级图卷积层的输入为第一级图卷积层的输出，依次类推，经过T层图卷积层，得到最终的节点特征向量集信息；

从所述最终的节点特征向量集信息中获取路由器节点u的局部状态特征，并输出到路由器节点u所对应的神经网络模型中。

4.根据权利要求1所述的分布式路由规划模型的构建方法，其特征在于，所述采集到的若干业务流信息包括不同种类的业务流信息；

每一种业务流均采用对应的神经元组进行输出。

5.根据权利要求1所述的分布式路由规划模型的构建方法，其特征在于，所述奖励的获取方法，包括：

否则，下发第b个业务流时的奖励为：

其中，

和

分别为x_b、y_b和z_b的归一化量；x_b、y_b和z_b分别为下发第b个业务流所对应的路由序列后网络的时延、抖动和丢包率；α、β和γ均为可调权重；α、β和γ均为非负标量，根据业务流类型预先设置。

6.根据权利要求1-5任意一项所述的分布式路由规划模型的构建方法，其特征在于，所述步骤S2包括：

S21、构建马尔可夫决策过程

其中，

为网络中所有路由器节点的全局状态空间；所述全局状态空间包括：业务流信息、网络拓扑信息以及各路由器节点的局部状态特征；

为基于业务流的路由序列所得的网络的状态转移概率矩阵；

为下发业务流所对应的路由序列时所得的奖励；

S22、通过对所述马尔可夫决策过程进行优化来最大化每个DRL代理上所经过的所有业务流的累积奖励，从而对所述分布式路由规划模型进行训练。

7.一种分布式路由规划方法，其特征在于，包括：将当前业务流信息和网络拓扑信息输入到采用权利要求1-6任意一项所述的分布式路由规划模型的构建方法所构建的分布式路由规划模型中，得到当前业务流的路由序列，即当前业务流的路由规划策略。

8.根据权利要求7所述的分布式路由规划方法，其特征在于，还包括：基于当前业务流的路由序列对所述分布式路由规划模型进行强化学习，进一步对所述分布式路由规划模型进行优化。

9.一种分布式路由规划系统，其特征在于，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行权利要求7或8所述的分布式路由规划方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行权利要求1-6任意一项所述的分布式路由规划模型的构建方法和/或权利要求7或8所述的分布式路由规划方法。