CN114726770B

CN114726770B - 一种应用于分段路由网络环境的流量工程方法

Info

Publication number: CN114726770B
Application number: CN202210371771.6A
Authority: CN
Inventors: 王凌豪; 王淼; 张玉军
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2023-03-21
Anticipated expiration: 2042-04-11
Also published as: CN114726770A

Abstract

本发明提供一种应用于分段路由网络环境的流量工程方法，用于根据网络环境的流量需求规划每条流的路径，所述方法包括：S1、获取分段路由环境中的流量需求；S2、采用预先训练好的策略模型从网络环境的所有路由节点中选取候选路由节点；其中，所述策略模型是以所有路由节点对应的流量矩阵为输入状态、选出候选节点为输出动作以历史流量矩阵以及网络邻接矩阵作为样本数据经过训练后获得的模型；S3、以步骤S2中选出的候选路由节点进行线性规划。通过本发明，能够在性能接近原始模型的同时有效提升分段路由环境下的传统基于线性规划方法的流量工程方案的计算速度。

Description

一种应用于分段路由网络环境的流量工程方法

技术领域

本发明属于流量工程技术领域，具体来说，涉及分段路由环境下的基于线性规划流量工程领域，更具体地说，涉及一种应用于分段路由网络环境的流量工程方法以及应用于分段路由网络环境的流量工程加速的策略模型。

背景技术

随着互联网飞速发展，网络的规模和复杂性不断增加，网络流量爆炸式增长，给网络承载能力和服务质量提出了更高的要求，由此，如何优化网络流量，保证服务质量成为关键问题。用于优化网络流量的代表性技术就是流量工程技术(Traffic Engineering，简称TE)，所谓流量工程技术是指通过对网络流量进行有目的的调度和优化，从而减少网络拥塞、优化网络资源的分配、提升网络整体性能。

软件定义网络(Software Defined Network，简称SDN)将控制平面与转发平面进行分离，决策者可基于全局信息进行网络资源的集中式调度和优化，为实施流量工程带来了诸多便利。

分段路由(Segment Routing，简称SR)是一种新兴的源路由架构，它将端到端的路径分割为若干段，每一个分段有自己独有的ID。在SR转发过程中，路径信息以分段列表的形式被入口节点放入数据包头中，中间节点负责根据包头中的路径信息将数据包以等价路由(Equal Cost Multi-path，ECMP)的方式转发至下一个分段。以上过程不断重复直到数据包到达出口节点。分段列表可以由SDN控制器计算得到并下发给入口节点。在SR架构下，SDN控制器不再需要对每个途经的转发节点下发路径信息，数据包经过的每个转发节点也不需要为每条流需求维护路径信息，这简化了流量工程的执行，使其具有更小的控制开销。

现有的SR架构下的流量工程方案主要有两大类：

1)基于数学规划的SR流量工程方法，这类方法对网络环境进行数学建模，并利用数学规划或相应的近似方法对特定目标进行优化；

2)基于启发式方法的SR流量工程方法，这类方法使用启发式算法计算得到流量工程决策，往往具有更快的速度但性能不如数学规划的方法。

其中，基于数学规划的SR流量工程方法更加常用，然而，现有的基于数学规划的SR流量工程方法存在着严重的可扩展性问题：由于现实中的流量工程方法通常以数分钟的时间间隔周期性执行，随着网络规模的增大，线性规划模型中的参数数量和求解时间也迅速增加，往往无法在一个合理的时间内求出优化结果，造成流量工程的延迟执行。因此，如何权衡SR中基于线性规划的流量工程的性能与时间，更快速地求出需要的结果，在实际应用中显得非常重要。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种能够加速线性规划的应用于分段路由网络环境的流量工程方法及流量工程加速装置。

根据本发明的第一方面，提供一种应用于分段路由网络环境的流量工程方法，用于根据网络环境的流量需求规划每条流的路径，所述方法包括：S1、获取分段路由环境中的流量需求；S2、采用预先训练好的策略模型从网络环境的所有路由节点中选取候选路由节点；其中，所述策略模型是以所有路由节点对应的流量矩阵为输入状态、选出候选节点为输出动作以历史流量矩阵以及网络邻接矩阵作为样本数据经过训练后获得的模型；S3、以步骤S2中选出的候选路由节点进行线性规划。

优选的，通过如下方式对所述策略模型进行预先训练：P1、随机初始化策略模型的参数；P2、获取网络对应的历史流量矩阵以及网络邻接矩阵，以每个历史流量矩阵和网络邻接矩阵组成输入状态集合；P3、基于步骤P2的输入状态对策略模型进行预设轮数的训练。

在本发明的一些实施例，在所述步骤P1中，包括：随机初始化策略网络的参数，以及初始化一个哈希表用于记录每个输入状态的历史平均奖励值。

优选的，所述预设轮数为200。

优选的，所述步骤P3中，每轮训练包括：P31、随机从输入状态集合中选择第一预设个数的输入状态；P32、将步骤P31选出的输入状态并行输入策略模型，所述策略模型针对每一个输入状态从网络环境的所有路由节点中选取候选路由节点，基于候选节点进行流量工程得到流量工程决策、最大链路利用率以及样本对应的奖励；P33、基于步骤P31选择的输入状态、输入状态对应的输出候选节点、输入状态对应的奖励计算损失并采用梯度上升方法更新策略网络的参数。

在本发明的一些实施例中，所述第一预设个数为60。

优选的，所述步骤P32中，采用如下方式计算策略网络的损失：

其中，L(θ)是策略模型的损失函数，B是第一预设个数，s_t表示当前样本，a_t表示以当前样本s_t为输入状态对应的输出动作，π_θ(a_t|s_t)表示策略模型参数更新后在输入样本状态s_t的条件下选择当前输出动作a_t的概率，π_old(a_t|s_t)表示策略模型参数更新前在输入样本状态s_t的条件下选择当前输出动作a_t的概率，

是样本s_t的优势函数值，g(·)表示一个对优势函数值范围进行限制的函数，H(π_θ(·|s_t))表示当前样本s_t在策略模型参数更新后的熵，∈、β均为预设的超参数。

其中，所述优势函数值

通过如下方式计算：

其中，r_t当前样本s_t对应的奖励，b(s_t)表示哈希表中记录的当前样本s_t历史平均奖励值。

其特征在于，所述g(·)通过如下方式计算：

优选的，所述∈、β均设置为0.2。

根据本发明的第二方面，提供一种应用于分段路由网络环境的流量工程加速的装置，用于根据网络环境的流量需求为流量工程选出候选路由节点，所述装置包括：策略模型，其用于根据分段路由环境中的流量需求从网络环境的所有路由节点中选取候选路由节点；其中，所述策略模型是以所有路由节点对应的流量矩阵为输入状态、选出候选节点为输出动作以历史流量矩阵以及网络邻接矩阵作为样本数据经过训练后获得的模型。

优选的，所述策略模型包括依次连接的图卷积层、第一全连接层、第二全连接层。所述图卷积层、第一全连接层后均配置Leaky ReLU激活函数，所述第二全连接层后配置softmax层。

优选的，所述策略模型还根据策略模型基于流量需求得到的每个路由节点被选择的概率选择第二预设个数的候选节点，所述第二预设个数是大于等于1小于网络环境中路由节点总数范围内的一个数。

与现有技术相比，本发明的优点在于：本发明缓解了现有的基于线性规划的流量工程方法存在的计算时间长、可扩展性差的问题。本发明提出的分段路由环境下基于强化学习的流量工程加速方法，通过对候选中间节点进行预选的方式对性能和求解时间进行权衡，从而加速SR流量工程求解并尽可能不损失太多性能。本发明同时解决了现有加速方法存在的只考虑网络拓扑的问题。现有节点加速方法都是基于提前人为指定的固定规则，而且这些规则只考虑了静态的网络拓扑特征。本发明方法在决策时同时考虑了静态的网络拓扑特征信息和动态的流量特征信息，因此不仅更加灵活，而且相比这些加速方案性能更好。本发明将传统的线性规划求解的方法相结合，形成一套完整的SR环境下的流量工程解决方案。能够在性能接近原始的线性规划模型的同时极大提升问题的求解速度，减小了在大规模网络拓扑下的执行开销，具有更好的可扩展性。通过本发明，能够在性能接近原始模型的同时有效提升分段路由环境下的传统基于线性规划方法的流量工程方案的计算速度。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的流量工程方法执行过程示意图；

图2为根据本发明实施例的在网络拓扑GEANT下的实验结果示意图；

图3为根据本发明实施例的在网络拓扑germany50下的实验结果示意图；

图4为根据本发明实施例的在网络拓扑rf1755下的实验结果示意图；

图5为根据本发明实施例的在网络拓扑rf6461下的实验结果示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

为了更好的理解本发明，首先介绍一下本发明的技术背景。

在分段路由框架下，常用的基于线性规划的传统的分段路由流量工程方法为k-SR，其中k表示每个分段列表的长度固定为k。现有研究表明当取k＝2，即经过唯一的中间节点(最后一个分段需为目的节点)时，算法已经可以取得近似最优的结果，因此本发明主要以2-SR模型为例进行介绍。

首先对分段路由框架的网络进行建模：将网络表示为有向图G＝(V，E)，其中V是节点集合，每个节点代表一个路由器，E是边集合，每条边代表一条网络链路e，每条链路e有对应的链路容量c(e)。每条流由源节点i、目的节点j和对应的流量需求t_ij表示，如网络中有N个节点，则所有的t_ij可以组成一个大小为N×N的矩阵，后文称之为流量矩阵。分段路由中流量工程的工作是将每条流以合适的路径转发，使得某个目标得到优化。在2-SR模型中，决策变量为

即流(i，j)经过候选中间节点l的流量大小，一个常见的优化目标是负载均衡，即最小化网络中最大的链路利用率，记为U_max。

为了方便建模描述，引入两个函数f_ij(e)和

其中f_ij(e)表示1单位的流从i到j以ECMP方式进行路由在边e上流经的流量大小；

表示1单位的流从i到j以l为中间节点进行SR路由在边e上流经的流量大小，根据SR路由的定义，可以得到

根据以上定义，建立用于分段路由框架下的线性规划模型：

min U_max (1)

其中，公式(1)为优化目标，最小化最大链路利用率；公式(2)是流量约束以确保每条流的需求得到满足；公式(3)是对每条链路的利用率限制；公式(4)是决策变量约束以确保决策变量均为非负值。通过使用求解器对上述线性规划模型进行求解以获取流量工程决策。

从上述线性规划模型可以看出，随着网络规模的不断增加，线性规划模型的参数数量和求解时间迅速增加，往往无法在一个合理的时间内求出优化结果，造成流量工程的延迟执行。因此，本发明针对该问题，提出了一种基于强化学习的SR流量工程加速方法，其为一种基于强化学习的中间节点预选算法，通过离线训练的强化学习模型对候选的中间节点进行预选，基于预选结果缩减原始的线性规划模型，再进行线性规划模型的求解，得到最终的流量工程决策，极大地提升了SR流量工程的求解速度。

根据本发明的一个实施例，本发明通过训练基于强化学习的策略模型，从分段路由框架的网路中预先筛选出候选路由节点，然后再进行线性规划的流量工程以实现流量工程加速，下面分别从策略模型的训练构建以及基于策略模型的流量工程线性规划两个方面来介绍本发明。

1、策略模型

本发明将候选节点的选择问题表示为一个强化学习问题进行训练，根据本发明的一个实施例，所述策略模型由一层图卷积(GCN)层与两层全连接(FC)层组成，每个中间层后使用Leaky ReLU作为激活函数。本发明的实施例中，假设分段路由框架下的网络环境中包含N个路由节点，以网络的流量需求为输入状态，候选节点为输出动作训练策略模型，策略模型会根据输入状态输出每个节点被选择的概率，并根据输出的概率从中随机选择预设个数的节点作为候选节点，基于选择的候选节点再进行线性规划的流量工程。如图1所示，以包含四个路由节点(表示为A、B、C、D)的网络为例，从中选择2个候选节点进行线性规划，以网络的流量矩阵和网络拓扑为输入状态，策略网络针对输入状态输出A、B、C、D四个节点的被选中概率，如图1中所示，A、B、C、D四个节点的被选中概率分别为0.48、0.37、0.11、0.04，输出的动作为根据输出概率进行随机采样得到的节点A、B作为候选节点，将候选节点A、B通过求解器用于线性规划模型求解得到流量工程决策。

图卷积层将网络拓扑图中的每个节点i对应的特征向量x_i映射为z_i，图卷积层的输入为网络拓扑和流量矩阵，网络拓扑以大小N×N的邻接矩阵的形式表示，邻接矩阵的每个元素是每条链路的权重，流量矩阵同样为大小N×N的矩阵。为了利用图卷积层，本发明对流量矩阵进行处理将其表示为节点特征。本发明将流量矩阵看作N个大小为N的列向量，第i个列向量作为第i个节点的特征x_i。经过图卷积层，每个节点特征x_i被映射为大小为D(D是图卷积的可设置的超参数)的特征z_i，将这N个向量展平，得到一个大小为N×D的向量，作为图卷积层的输出，即下一层的输入。接下来，这个中间向量被连接到两层全连接层神经网络，隐含层(第一个全连接层)大小为H,输出层(第二个全连接层)大小为N。输出层后连接一个softmax函数，就得到了大小为N的向量作为最终输出，向量中的每个值在0与1之间。节点选择是根据输出所表示的概率从N个节点中随机采样出W个节点。选择节点时进行的操作为将输出的N个概率视为权重从多项分布中进行随机采样选出W个，作为策略模型选择出的候选中间节点，用于下一步的线性规划求解。

将历史流量矩阵组成的流量矩阵集合用于策略模型的训练，训练过程包括如下步骤：

步骤1、随机初始化策略模型参数θ，并初始化一个用于记录每个状态s以往的平均奖励值的哈希表b，其中，每个状态s对应有一个历史流量矩阵；

步骤2、执行T轮训练，其中，T是预设的训练轮数，根据本发明的一个实施例，T＝200，其中，每轮训练包括：

步骤21、从流量矩阵集合中随机选出B个流量矩阵，其中，B为第一预设个数，根据本发明的一个实施例，B＝60，将B个流量矩阵以及网络对应的网络拓扑组成样本并作为状态s_t(每个样本包含一个流量矩阵与一个邻接矩阵表示的网络拓扑)输入策略模型π，策略模型会针对每一个输入样本从当前网络节点中随机选择W个作为候选中间节点作为动作a_t，其中W为第二预设个数，根据本发明的一个实施例，W＝5,之后根据选出的节点建立一个简化的2-SR线性规划模型送入线性规划求解器进行求解，得到流量工程决策

和最大链路利用率U_max，并计算每个样本在这次选择中得到的奖励r_t＝1/U_max，得到B个样本，每个样本包含状态、动作、奖励三元组(s_t,a_t,r_t)；其中，如果流量矩阵集合中的流量矩阵个数小于第一预设个数，随机选择的样本允许重复；

步骤22、估计每个样本的优势函数值

其中，r_t是本轮训练中状态s_t对应的奖励，b(s_t)表示表b中存储的状态为s_t的样本在本轮训练之前的训练过程中取得的奖励的平均值，即历史平均奖励值，优势函数可以用于估计当前的奖励对于相较过去的好坏程度，优势函数大于0，则说明当前的奖励优于过去，反之则劣于过去；

步骤23、记录当前步骤的策略网络为π_old；

步骤24、执行M次参数更新，其中，M表示预设的更新次数，根据本发明的一个实施例，M＝10，其中，每次更新包括以下步骤：

步骤241：对每个样本计算损失函数L(θ)，损失函数定义伪代码如表1所示，

其中，损失函数表示为：

其中，L(θ)是策略模型的损失函数，B是第一预设个数，s_t表示当前样本，a_t表示以当前样本s_t为输入状态对应的输出动作，π_θ(a_t|s_t)表示策略模型参数更新后在输入样本状态s_t的条件下选择当前输出动作a_t时的概率，π_old(a_t|s_t)表示策略模型参数更新前在输入样本状态s_t的条件下选择当前输出动作时的概率，

是样本s_t的优势函数值，g(·)表示一个对优势函数值范围进行限制的函数，H(π_θ(·|s_t))表示当前样本s_t在策略模型参数更新后的熵，∈、β均为预设的超参数，根据本发明的一个实施例，∈＝0.2、β＝0.2。

表1

其中，所述g(·)通过如下方式计算：

步骤242、用随机梯度上升算法更新参数θ，根据本发明的一个实施例，采用Adam更新参数；

步骤25、根据步骤2.1得到的三元组中每个样本的状态值s_t与本轮的奖励r_t更新哈希表b中状态s_t对应的平均奖励值；

步骤3，返回训练T轮之后的参数θ_T，即训练好的策略模型。

在损失函数的约束下，经过训练的策略模型，基于输入状态会输出使线性规划效果更好的候选节点。

2、流量工程线性规划

训练好的策略模型即可用于线上部署，对实际流量工程中的线性规划求解过程进行加速，计算过程中得到

的值作为线性规划模型的最终输出，即流量工程决策。

从上述线性规划模型可以看出，对于每条流，都有l个节点作为候选节点，2-SR的求解目标就是对于每条流在这l个节点间分割流量。按照2-SR中的定义，每条流的l，即候选节点集合为全部节点。本发明仅使用上一步选择出的W个节点作为每条流的候选节点l。这样，线性规划模型的规模会大大减小，求解时间也随之显著降低。

为了更好的验证本发明的效果，本发明在不同的网络拓扑中进行了流量工程实验。实验的网路拓扑包括：GEANT、germany50、rf1755和rf6461，分别获取每个网络拓扑的流量矩阵和邻接矩阵组成每个网络拓扑对应的数据集，对于每个数据集，将流量矩阵按照7：3的比例划分，70％的数据用于训练本发明的策略模型，剩余的30％数据用于验证结果，实验采用的超参数设置为T＝200,B＝60,M＝10,W＝5,∈＝0.2,β＝0.2。

实验中采用的对比方法包括：本发明方法(记为OURS)、不经过节点选择的2-SR模型流量工程方法(记为ORI)、随机选择节点的流量工程方法(记为RAND)、选择网络拓扑中节点中心性指标最高的W个节点的流量工程方法，根据具体指标可分为最短路径中心性(记为SP)流量工程方法以及度中心性(记为DEG)流量工程方法，所有的节点选择方法均选择W＝5个节点。

对比的性能参数为在测试集上求解线性规划模型得到的平均最大链路利用率以及平均求解时间(包括节点选择和线性规划求解完整过程)。

图2为在网络拓扑GEANT下的结果，图3为在网络拓扑germany50下的结果，图4为在网络拓扑rf1755下的结果，图5为在网络拓扑rf6461下的结果，通过实验结果可以看到所有的节点选择方法均可以显著降低计算时间，但与此同时本发明方法具有更好的性能，非常接近原始模型。实验表明本发明方法能够在接近原始线性规划模型的性能的同时显著降低计算时间。

通过上述实施例的描述可以看出，本发明缓解了现有的基于线性规划的流量工程方法存在的计算时间长、可扩展性差的问题。本发明提出的分段路由环境下基于强化学习的流量工程加速方法，通过对候选中间节点进行预选的方式对性能和求解时间进行权衡，从而加速SR流量工程求解并尽可能不损失太多性能。本发明同时解决了现有加速方法存在的只考虑网络拓扑的问题。现有节点加速方法都是基于提前人为指定的固定规则，而且这些规则只考虑了静态的网络拓扑特征。本发明方法在决策时同时考虑了静态的网络拓扑特征信息和动态的流量特征信息，因此不仅更加灵活，而且相比这些加速方案性能更好。本发明将传统的线性规划求解的方法相结合，形成一套完整的SR环境下的流量工程解决方案。能够在性能接近原始的线性规划模型的同时极大提升问题的求解速度，减小了在大规模网络拓扑下的执行开销，具有更好的可扩展性。通过本发明，能够在性能接近原始模型的同时有效提升分段路由环境下的传统基于线性规划方法的流量工程方案的计算速度。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种应用于分段路由网络环境的流量工程方法，用于根据网络环境的流量需求规划每条流的路径，其特征在于，所述方法包括：

S1、获取分段路由环境中的流量需求；

S2、采用预先训练好的策略模型从网络环境的所有路由节点中选取候选路由节点；其中，所述策略模型是以所有路由节点对应的流量矩阵为输入状态、选出候选节点为输出动作以历史流量矩阵以及网络邻接矩阵作为样本数据经过训练后获得的模型；其中，通过如下方式对所述策略模型进行预先训练：P1、随机初始化策略模型的参数；P2、获取网络对应的历史流量矩阵以及网络邻接矩阵，以每个历史流量矩阵和网络邻接矩阵组成输入状态集合；P3、基于步骤P2的输入状态对策略模型进行预设轮数的训练；

S3、以步骤S2中选出的候选路由节点进行线性规划。

2.根据权利要求1所述的方法，其特征在于，在所述步骤P1中，包括：随机初始化策略网络的参数，以及初始化一个哈希表用于记录每个输入状态的历史平均奖励值。

3.根据权利要求2所述的方法，其特征在于，所述预设轮数为200。

4.根据权利要求3所述的方法，其特征在于，所述步骤P3中，每轮训练包括：

P31、随机从输入状态集合中选择第一预设个数的输入状态；

P32、将步骤P31选出的输入状态并行输入策略模型，所述策略模型针对每一个输入状态从网络环境的所有路由节点中选取候选路由节点，基于候选节点进行流量工程得到流量工程决策、最大链路利用率以及样本对应的奖励；

P33、基于步骤P31选择的输入状态、输入状态对应的输出候选节点、输入状态对应的奖励计算损失并采用梯度上升方法更新策略网络的参数。

5.根据权利要求4所述的方法，其特征在于，所述第一预设个数为60。

6.根据权利要求5所述的方法，其特征在于，所述步骤P32中，采用如下方式计算策略网络的损失：

7.根据权利要求6所述的方法，其特征在于，所述优势函数值

通过如下方式计算：

其中，r_t当前样本s_t对应的奖励，b(s_t)表示哈希表中记录的当前样本历史平均奖励值。

8.根据权利要求6所述的方法，其特征在于，所述g(·)通过如下方式计算：

9.根据权利要求6所述的方法，其特征在于，所述∈、β均设置为0.2。

10.一种应用于分段路由网络环境的流量工程加速的装置，用于根据网络环境的流量需求为流量工程选出候选路由节点，其特征在于，所述装置包括：

策略模型，其用于根据分段路由环境中的流量需求从网络环境的所有路由节点中选取候选路由节点；其中，所述策略模型是以所有路由节点对应的流量矩阵为输入状态、选出候选节点为输出动作以历史流量矩阵以及网络邻接矩阵作为样本数据经过如下方式训练后获得的模型：P1、随机初始化策略模型的参数；P2、获取网络对应的历史流量矩阵以及网络邻接矩阵，以每个历史流量矩阵和网络邻接矩阵组成输入状态集合；P3、基于步骤P2的输入状态对策略模型进行预设轮数的训练。

11.根据权利要求10所述的装置，其特征在于，所述策略模型包括依次连接的图卷积层、第一全连接层、第二全连接层。

12.根据权利要求11所述的装置，其特征在于，在所述策略模型中，所述图卷积层、第一全连接层后均配置Leaky ReLU激活函数，所述第二全连接层后配置softmax层。

13.根据权利要求12所述的装置，其特征在于，所述策略模型还根据策略模型基于流量需求得到的每个路由节点被选择的概率随机选择第二预设个数的候选节点。

14.根据权利要求13所述的装置，其特征在于，所述第二预设个数是大于等于1小于网络环境中路由节点总数范围内的一个数。

15.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序可被处理器执行以实现权利要求1至9任一所述方法的步骤。

16.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至9中任一项所述方法的步骤。