CN115396366B

CN115396366B - 基于图注意力网络的分布式智能路由方法

Info

Publication number: CN115396366B
Application number: CN202211072283.1A
Authority: CN
Inventors: 张连明; 张典; 肖凯; 程浩然; 董苹苹
Original assignee: Hunan Normal University
Current assignee: Hunan Normal University
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2023-07-25
Anticipated expiration: 2042-09-02
Also published as: CN115396366A

Abstract

本发明公开了一种基于图注意力网络的分布式智能路由方法，属于网络通信技术领域。首先根据网络拓扑特性进行网络模型预定义，并构建基于图注意力网络的智能路由系统，包括n个智能体和1个基于图注意力网络的汇聚模块，其中智能体用于将本地观察状态上传至汇聚模块，汇聚模块通过提取这些状态信息以获取路由决策，并通过各智能体得到链路权重；然后，根据多智能体近端策略优化算法训练智能路由模型，获取最大化累积奖励；最后，利用训练后的智能路由模型，根据网络状态更新链路权重，以确定目标路由路径。本发明所构建的基于图注意力网络的分布式智能路由方法泛化能力强，并能够适应多种流量特征的网络需求，从而可靠地进行路径规划。

Description

基于图注意力网络的分布式智能路由方法

技术领域

本发明涉及网络通信技术领域，特别是涉及一种基于图注意力网络的分布式智能路由方法。

背景技术

随着工业物联网、全息通信、8K/VR等新型网络业务的大量兴起，极大地丰富了网络服务的多样性，同时也对网络提出一系列新的要求和挑战。因此进行路由转发时，需要支持这些具有较大差异性的网络需求，以满足不同业务的服务质量或者适应网络拓扑的动态变化，从而确保网络正常运行。

对于传统的路由算法，例如最短路径算法和等价多路径路由算法，因其简单有效而被广泛应用，但其仅根据当前网络现状进行处理，无法在流量动态分布的网络中找到最优路由路径。而与这些方法相比，基于数学模型的传统优化技术，可以显著提高网络性能。但在现实场景中，由于物理链路可能会随机断开或接入，并且网络流量在不同时间段可能具有不同的模式行为，所以必须在短时间内提供可替代的路由决策，以确保网络的可靠性，但是传统优化技术通常需要很长时间。

为了更好地优化网络性能，大量研究人员使用深度强化学习(DRL)强大的学习与决策能力，用于解决实时路径选择问题。然而，在DRL智能体设计中，由于其固定的输入与输出大小，导致对应的解决方案无法适应网络拓扑动态变化。而计算机网络从本质上来说是一种图形结构，当网络拓扑环境的结构发生显著变化时，会严重影响DRL模型的性能，甚至导致其失效。

因此，近些年来，有部分研究人员将能够处理复杂网络环境及其关系的图神经网络(GNN)技术引入到应用于网络智能路由优化中，以提高智能路由算法的泛化能力。但现有的GNN应用仍处在初级阶段，使用的模型在处理实时动态变化的网络拓扑图的效率不高，并且没有针对网络流量需求特征进行处理。因此，在保证路由算法性能的同时，提高解决复杂动态网络拓扑以及多变的网络流量需求是本领域技术人员亟需解决的。

发明内容

基于现有方法的不足，本发明公开一种基于图注意力网络的分布式智能路由方法，对网络状态、网络节点间的关系进行综合考虑，且随网络需求或结构的变化而动态调整路由路径，从而有效保证网络服务质量。

为了实现上述目的，第一方面，本发明基于图注意力网络的分布式智能路由方法，包括以下步骤：

S1：对于拟部署的骨干网络，将其建模为一个有向图G＝(V，E)，其中路由器作为一个节点v∈V表示，两个节点之间的链路存在两条边(即，上行链路与下行链路)，每条边(u，v)＝e∈E都有一个权重w∈[0，1]和容量c；对于每个路由节点，将与其相连的其他节点集合作为邻居节点集合B^v；

为网络中的每个路由节点vⁱ均部署一个智能体Aⁱ；

S2：构建智能路由系统，包括n个部署在路由节点的智能体Aⁱ和1个部署在控制平面的基于图注意力网络的汇聚模块，其中：

路由节点中的智能体Aⁱ用于将当前时刻的本地观察状态上传至汇聚模块，本地观察状态/>由多种网络状态信息组成；

汇聚模块用于根据所有上传的本地观察状态进行特征提取，从而进行最终的路由决策，并通过各智能体Aⁱ得到网络拓扑中各链路的链路权重，具体方法为：首先根据n个本地观察状态/>使用门控循环神经网络(Gated Recurrent Neural，GRU)层提取时间状态特征信息；然后，使用图注意力网络(Graph Attention Network，GAT)层根据当前网络结构信息对这些信息进行汇聚处理，具体使用GATv2层来获取智能体Aⁱ的局部状态特征，即：对应路由节点vⁱ与其直接邻居的网络状态信息聚合后的隐藏特征；最后，使用前馈神经网络(Feed-forward Neural Network，FNN)以确定各节点的路由决策信息，从而得到各智能体Aⁱ与其相关链路的最终的链路权重；

进一步优选地，GRU层的输入的特征信息为骨干网络所对应的全局链路状态记为X＝{x₁，x₂，…，x_n}，x_i∈R^F；n为路由节点的数量；F为路由节点的链路状态信息的维度；

进一步优选地，GATv2层由L层级联的使用多头注意力机制的GATv2模型；GATv2层主要根据GRU处理后的特征信息进行动态图形注意力处理；

进一步优选地，通过FNN层利用最终的节点特征信息集获取路由决策信息，各智能体根据这些信息更新链路权重后，使用开放的最短路径优先(OSPF)协议计算每个通信会话的路由方案；

S3：采用多智能体近端策略优化(Multi-agent Proximal Policy Optimization，MAPPO)算法，并根据上述的汇聚模块，对智能路由系统中的n个智能体Aⁱ进行训练，以获取最大化累积奖励；

进一步优选地，上述奖励的计算方法为：

其中，为最优链路利用率，它是使用Google OR-Tools中的线性求解器计算得到网络中最大链路利用率的最小值；/>为智能路由算法产生的路由决策所获得的最大链路利用率；

S4：利用训练后的智能路由模型，根据网络状态更新链路权重，以确定目标路由路径。

第二方面，本发明提供了一种基于图注意力网络的分布式智能路由的规划方法，包括：将当前网络状态信息和网络拓扑信息输入到本发明第一方面所构建的智能路由模型中，得到OSPF协议所需的链路权重，即可根据此权重进行路由规划；

进一步优选地，上述智能路由方法还包括：基于当前网络OSPF协议的链路权重对智能路由模型进行多智能体强化学习，以及优化方式。

总体而言，本发明具有以下有益效果：

1、本发明运用多智能体强化学习技术以及图注意力网络技术解决路由问题，与传统路由方案和仅基于强化学习的智能路由方案相比，在训练过程中考虑网络的全局状态以及网络结构动态变化的影响，能够更精准的为每个网络流量需求选择合适的路由，且具有更好的鲁棒性。

2、本发明所提供的智能分布式路由方法，采用了新颖的图注意力网络结构，可以减少计算成本，并帮助智能体计算OSPF链路权重，有利于模型收敛；并且模型具有强大的泛化能力，可以在未见过的网络拓扑以及网络流量特征中保持较好的性能。

3、本发明使用线性优化器获取最优链路利用率对多智能体的探索进行优化，以实现全局累积奖励最大化。

附图说明

图1为本发明实施例提供的基于图注意力网络的分布式智能路由方法的流程图；

图2为本发明实施例提供的基于图注意力网络的分布式智能路由方法的模型结构示意图；

图3为本发明实施例提供的基于图注意力网络的分布式智能路由方法的GATv2模型的结构示意图；

图4为本发明实施例提供的基于图注意力网络的分布式智能路由方法的运行流程示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

本发明的核心是提供一种基于图注意力网络的分布式智能路由方法，能够提高智能路由模型的泛化能力以及在不同流量模式下的动态适应性，以实现优化网络性能的目标。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为本发明实施例提供的一种基于图注意力网络的分布式智能路由方法的流程图，如图1所示，包括以下步骤：

S1：根据网络拓扑特性进行网络模型预定义；

对于拟部署的网络，将其建模为一个有向图G＝(V，E)，其中路由器作为一个节点v∈V表示，两个节点之间的链路存在两条边(即，上行链路与下行链路)，每条边(u，v)＝e∈E都有一个权重w∈[0，1]和容量c；对于每个路由节点，将与其相连的其他节点集合作为邻居节点集合B^v；

在网络中的每个路由节点vⁱ上部署一个智能体Aⁱ，该智能体用于搭载路由决策网络，以便协作进行路由的周期性决策，从而得到各个路由节点的路由决策信息。

S2：根据网络模型构建基于图注意力网络的智能路由系统；

构建智能路由系统，包括n个部署在路由节点的智能体Aⁱ和1个部署在控制平面的基于图注意力网络的汇聚模块，其中：

需要说明的是，为了提高信息采集的灵活性以及效率，各智能体的本地观察状态的维度大小限制为9，并使用Min-Max进行归一化；/>的前6个位置对应6种网络状态信息，即：链路吞吐量/>链路丢包率/>链路时延/>链路抖动/>节点流入流量概率/>和节点流出流量概率/>而后3个位置则使用0进行填充；因此，/>可由n个链路数据组成的多维向量进行表达，并可以跟据不同网络环境增加或替换所需的网络状态信息；

汇聚模块用于根据所有上传的本地观察状态进行特征提取，从而进行最终的路由决策，并通过各智能体Aⁱ得到网络拓扑中各链路的链路权重，具体方法为：首先根据n个本地观察状态/>使用门控循环神经网络(Gated Recurrent Neural，GRU)层提取时间状态特征信息；然后，使用图注意力网络(Graph Attention Network，GAT)层根据当前网络结构信息对这些信息进行汇聚处理，具体使用GATv2层来获取智能体Aⁱ的局部状态特征，即：对应路由节点vⁱ与其直接邻居的网络状态信息聚合后的隐藏特征；最后，使用前馈神经网络(Feed-forward Neural Network，FNN)以确定各节点的路由决策信息，从而得到各智能体Aⁱ与其相关链路的最终的链路权重。

具体地，如图2所示，本实施例中，汇聚模块包括GRU层、L层级联的GATv2层(本实施例中，L取值为2)、FNN层；GRU层用于根据输入的节点特征信息集提取时间状态特征信息；GATv2层用于根据网络拓扑结构信息对输入的节点特征向量集信息进行动态图注意力处理；FNN层用于将GATv2层最终提取的节点特征信息输出为路由决策信息；

假设，经过GRU层处理后的特征状态的维度为N×N，将其分解为N个N维向量，分别代表各节点的特征信息。通过获取当前网络拓扑结构信息可知，与路由节点1直接相连的节点为路由节点3，使用一个GATv2层聚合其自身的特征信息以及邻居节点3的特征信息，生成一组新的隐藏状态信息。通过多个GATv2层，生成最终的节点隐藏状态信息，最后使用路由节点1及其邻接节点信息对其局部状态特征进行更新；

对于汇聚模块中的GRU层，其输入的特征信息为骨干网络所对应的全局链路状态，记为X＝{x₁，x₂，…，x_n}，x_i∈R^F；n为路由节点的数量；F为路由节点的链路状态信息的维度大小；由于网络中的流量需求在时间尺度上呈现出特定的流量模式，例如：周期趋势、短期爆发和噪声。因此，在训练过程中，GRU层通过固定的时间序列长度(本实施例中，取值为25)，并使用GRU对各节点的本地观察状态进行特征提取，并将输出值压缩成固定长度的状态向量作为GATv2层的输入；

对于汇聚模块中的GATv2层，如图3所示，前1到L-1级所输出的节点特征信息集均可表示为：

H＝{h₁，h₂，…，h_n}

其中，h_u为当前节点u的特征信息；为u的邻居节点集合，则有/>h_v为节点v的特征信息；K为多头注意力机制的头数量；W^k为第k头的权重矩阵；||为拼接操作；σ为GATv2的消息聚合函数；/>为第k头的节点u与v所对应的注意力系数；而对于注意力系数α_uv，其公式：

其中，e(h_u，h_v)为节点v对于节点u的重要性，GATv2层根据输入的节点特征信息集获取动态图注意力参数的关键在于e(h_u，h_v)中的权重参数可以进行非线性处理，其公式为：

e(h_u，h_v)＝a^T·LeakyReLU(W`[h_u||h_v])

其中，a为权重参数；T为转置操作；W为权重矩阵；LeakyReLU(·)为泄露修正线性单元；

第L级GATv2层将第L-1级GATv2层的输出信息作为输入，对每个节点对应的头数进行求均值获取最终的节点特征信息：

对于汇聚模块中的FNN层，它通过利用最终的节点特征信息集获取路由决策信息Y＝{y₁，y₂，…，y_n}，作为特征处理的结果。为了减少计算开销，各智能体根据网络节点连接状态选取部分信息作为局部状态输入，例如选择节点1的邻居节点集B¹的最终节点特征向量{y₁，y₃}作为局部状态输入；然后，计算出所有智能体的联合动作空间(即各链路的链路权重)；最后，通过多元高斯分布采样获取每条链路的实际链路权重，同时，为了保证权重值大小的可操作性，本发明使用sigmoid函数将所有链路权重的大小控制在[0，1]。各路由节点更新链路权重后，使用OSPF协议计算每个通信会话的路由方案。

S3：根据多智能体近端策略优化算法训练智能路由模型，获取最大化累积奖励；

采用多智能体近端策略优化(Multi-agent Proximal Policy Optimization，MAPPO)算法，并根据上述的汇聚模块，对智能路由系统中的n个智能体Aⁱ进行训练，以获取最大化累积奖励；

对于骨干网络需要收集的不同网络状态信息，根据已有的流量模型(即重力模型、双峰模型)以及流量性质(即周期性、平均性)，然后通过仿真器模拟骨干网络中流量分布情况，并将收集到的数据作为离线训练集；

将各智能体Aⁱ的决策过程建模为部分可观测马尔可夫决策过程(PartiallyObservable Markov Decision Processes，POMDP)，其中每个智能体的输入信息作为POMDP的观察状态，汇聚模块所得到的对应链路的链路权重作为POMDP中的动作，奖励函数根据网络中最大链路利用率进行计算，具体计算公式为：

需要说明的是，MAPPO利用参数共享进行学习：在当前训练步长t，每个智能体Aⁱ使用由θ参数化的共享策略π_θ来从全局的观测状态O_t中选择动作M_t，从而最大化获得的折扣累积奖励J(θ)，即：

其中，为期望，γ∈[0，1]为奖励的折扣因子，T为MAPPO的训练周期长度；

具体地，当通信会话的流到达时，通过路由优化模型对OSPF的链路权重进行动态调整，可以指定任何有效的路径进行路由；但是在进行路由时，仅能对路由决策进行修改。因此，通过使用线性求解器对智能路由路由算法所计算的最大链路利用率进行优化，从而提供更好的路由决策，以此尽量减少过度使用某条链路而导致网络性能下降的情况发生。

S4：利用训练后的智能路由模型，根据网络状态更新链路权重，以确定目标路由路径；

具体地，如图4可视化表示了本发明的基于图注意力网络的分布式智能路由方法的运行流程，并描述了其的三个操作步骤，特别是以最小化最大链路负载为目标。在开始时之前，网络运营商必须定义初始链路权重，它们的值可以使用一些成熟的链路权重初始化(例如，单元权重值或链路容量的倒数)。基于图注意力网络的分布式智能路由方法将把这个初始配置作为其优化过程的起点，并为每个流量需求找到最佳路由路径。一旦初始路由策略被定义，在步骤①，通过部署在网络上的监控平台识别相关信息。这些信息包括网络拓扑结构、网络流量需求、时延、带宽、丢包率、抖动等，其中网络流量需求需要被传送到所有参与的路由器。然后，在步骤②，位于控制平面的智能路由算法获取这些信息，并对每条链路的权重进行优化。最后，在步骤③，路由配置被推到数据平面，并更新当前链路权重。当数据平面发生一些变化时(例如，拓扑结构或网络流量需求发生变化)，监控平台通过识别这些变化或者每隔一定时间，使用智能路由算法来优化新方案。

除此之外，本发明的基于图注意力网络的分布式智能路由方法，采用多智能体近端策略优化框架用于解决真实网络环境中的流量工程问题；为了兼容采用链路状态域内路由协议的任何网络，在现有的路由配置上，通过分布在网络中的智能体(即，网络设备)进行协作，并根据网络拓扑结构对每台路由器上的特征信息进行传播与聚合，共同优化OSPF使用的链路权重；并且考虑了使用软件定义网络所提供网络状态的全局视图，可以全面对网络知识进行分析建模，这使得位于知识平面的DRL智能体能够更好地进行路由配置优化。为了开发更真实的网络模型，扩展网络路由的体系结构；同时，考虑到智能路由算法计算奖励值的目标是让网络链路的资源利用率最大化，为了能够专注于和当前任务最相关的信息(即，链路负载信息)，本发明采用GATv2的动态图注意力感知能力来帮助各智能体来制定更好的路由决策，并且提高模型的泛化能力。其次，为了避免DRL智能体做出路由决策为次优解，本发明同样使用线性求解器对DRL智能体的奖励目标进行优化，让它学习如何在初始路由决策的基础上进一步找到更优的策略。

为了进一步说明本发明所提供的基于图注意力网络的分布式智能路由方法的性能，下面结合具体的实验进行详述：

通过实验模拟来评估本发明提出的基于图注意力网络的分布式智能路由方法，在3种真实世界的网络拓扑结构中，即14个节点和42条链路的NSFNet网络、17个节点和54条链路的GBN网络、24个节点和72条链路的GEANT2网络，与2种现有的路由算法进行对比。第一种是传统的等价多路径路由算法(ECMP)，第二种是基于多智能体深度强化学习(MADRL)的分布式路由算法。同时，为了能够产生更真实的互联网流量矩阵，并确保以拟议方案对随机性的适应和性能的可重复性，本发明考虑两种不同的流量情况(一种为重力模型分布模式，另一种为双峰分布模式)以及两种不同的流量序列情况(一种为周期性序列，另一种为平均性序列)，即以此评估各算法在不同网络拓扑下的性能指标，得到了如表1所示的结果。

表1

如表1所示，其中I表示流量模式呈重力分布及周期性序列，Ⅱ表示流量模式呈重力分布及平均性序列，Ⅲ表示流量模式呈双峰分布及周期性序列，Ⅳ表示流量模式呈双峰分布及平均性序列；同时，表1显示了三种算法在多种流量特征下在不同网络拓扑下的性能表现。在平均最大链路利用率上，本发明所提供的基于图注意力网络的分布式智能路由方法是最优的，相对于分布式MADRL算法平均提升了7.28％，相对于ECMP算法平均提升了13.98％。

本发明还提供了一种基于图注意力网络的分布式智能路由的规划方法，包括：将当前网络状态信息和网络拓扑信息输入到本发明第一方面所构建的智能路由模型中，得到OSPF协议所需的链路权重，即可根据此权重进行路由规划；

相关技术方案同上述实施例，这里不做赘述。

以上对本发明所提供的基于图注意力网络的分布式智能路由方法进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

Claims

1.一种基于图注意力网络的分布式智能路由方法，其特征在于，包括以下步骤：

S1：对于拟部署的骨干网络，将其建模为一个有向图G＝(V，E)，其中路由器作为一个节点v∈V表示，两个节点之间的链路存在两条边，每条边(u，v)＝e∈E都有一个权重w∈[0，1]和容量c；对于每个路由节点，将与其相连的其他节点集合作为邻居节点集合B^v；

为网络中的每个路由节点vⁱ均部署一个智能体Aⁱ；

汇聚模块用于根据所有上传的本地观察状态进行特征提取，从而进行最终的路由决策，并通过各智能体Aⁱ得到网络拓扑中各链路的链路权重，具体方法为：首先根据n个本地观察状态/>使用门控循环神经网络层提取时间状态特征信息；然后，使用图注意力网络层根据当前网络结构信息对这些信息进行汇聚处理，具体使用GATv2层来获取各智能体Aⁱ的局部状态特征，即：对应路由节点vⁱ与其直接邻居的网络状态信息聚合后的隐藏特征；最后，使用前馈神经网络层以确定各节点的路由决策信息，从而得到各智能体Aⁱ与其相关链路的最终的链路权重；

S3：采用多智能体近端策略优化算法，并根据上述的汇聚模块，对智能路由系统中的n个智能体Aⁱ进行训练，并获取最大化累积奖励；

2.根据权利要求1所述的基于图注意力网络的分布式智能路由方法，其特征在于，所述部署在路由节点的智能体Aⁱ所采集的当前时刻的本地观察状态

为了提高信息采集的灵活性以及效率，本地观察状态的维度大小限制为9个并使用Min-Max进行归一化；/>的前6个位置对应6种网络状态信息，即：链路吞吐量/>链路丢包率链路时延/>链路抖动/>节点流入流量概率/>和节点流出流量概率/>而后3个位置则使用0进行填充；因此，/>可由n个链路数据/>组成的多维向量表示，并可以跟据不同网络环境增加或替换所需的网络状态信息。

3.根据权利要求1所述的基于图注意力网络的分布式智能路由方法，其特征在于，所述步骤S2中汇聚模块包括门控循环神经网络层、图注意力网络层和前馈神经网络层，其中：

门控循环神经网络层用于根据输入的节点特征信息集提取时间状态特征信息；

图注意力网络层用于根据网络拓扑结构信息对输入的节点特征向量集信息进行动态图注意力处理；

前馈神经网络层用于将图注意力网络层最终提取的节点特征信息输出为路由决策信息。

4.根据权利要求1所述的基于图注意力网络的分布式智能路由方法，其特征在于，所述汇聚模块中L层级联的图注意力网络层；所述图注意力网络层用于根据门控循环神经网络层处理后的特征信息进行动态图形注意力处理；

所述前1到L-1级图注意力网络层输出的节点特征信息均可表示为：

H＝{h₁，h₂，…，h_n}

其中，h_u为当前节点u的特征信息；为u的邻居节点集合，则有/>h_v为节点v的特征信息；K为多头注意力机制的头数量；W^k为第k头的权重矩阵；||为拼接操作；σ为图注意力网络的消息聚合函数；/>为第k头的节点u与v对应的注意力系数；

所述第L级图注意力网络层将第L-1级图注意力网络层的输出信息作为输入，对每个节点对应的头数进行求均值获取最终的节点特征信息：

将所述最终的节点特征信息输出到FNN层，以获取路由决策信息。

5.根据权利要求1所述的基于图注意力网络的分布式智能路由方法，其特征在于，所述步骤S3中路由节点的智能体Aⁱ的训练选择基于多智能体近端策略优化框架使用仿真器模拟的方式完成，具体方法为：

对于网络需要收集的状态信息，根据已有的流量模型以及流量序列性质，在仿真环境中模拟真实网络环境中流量分布情况；

将智能体Aⁱ的决策过程建模为部分可观测马尔可夫决策过程，其中每个智能体的输入部分作为部分可观测马尔可夫决策过程的观察状态，汇聚模块所得到的路由决策信息作为部分可观测马尔可夫决策过程中的动作，奖励函数根据网络中最大链路利用率进行计算，具体计算公式为：

然后通过仿真器模拟骨干网络，将收集到的数据作为离线训练集，使用多智能体近端策略优化对各智能体进行训练。

6.一种基于图注意力网络的分布式智能路由的规划方法，其特征在于，包括：将当前网络状态信息和网络拓扑信息输入到到采用权利要求1-5任意一项所构建的智能路由模型中，得到OSPF协议所需的链路权重，即可根据此权重进行路由规划。