CN115225561B

CN115225561B - 一种基于图结构特征的路由优化方法与系统

Info

Publication number: CN115225561B
Application number: CN202210974378.6A
Authority: CN
Inventors: 郭永安; 吴庆鹏; 张啸; 佘昊; 钱琪杰
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-12-06
Anticipated expiration: 2042-08-15
Also published as: WO2024037136A1; CN115225561A

Abstract

本发明公开了一种基于图结构特征的路由优化方法与系统，该系统用于SDN网络环境，包括控制平面、数据平面，其中，控制平面包括信息获取模块、策略部署模块、DGL模块系统；该方法获取网络拓扑结构信息和网络中的信息，并生成相应的图邻接矩阵、网络信息特征矩阵；根据图邻接矩阵、网络信息特征矩阵，对图学习神经网络进行训练，获得使SDN网络路由开销最小、链路利用率最大的深度图学习模型；应用深度图学习模型，部署至SDN网络，该方法从空间维度上学习动态、复杂的网络拓扑，克服动态拓扑的优化问题，为SDN网络提供更加优质的路由方案。

Description

一种基于图结构特征的路由优化方法与系统

技术领域

本发明涉及计算机网络技术领域，具体涉及一种基于图结构特征的路由优化方法与系统。

背景技术

近年来，随着网络环境的复杂化，业务流量的多样化，路由路径优化问题成为一个研究热点。在传统网络中，路由选择采用尽力而为(Best-Effort)模型，利用OSPF技术来提供最短路径，无法适应动态、复杂的网络环境。软件定义网络(Software Defined Network，SDN)架构的提出将传统网络的控制平面和数据平面进行解耦，大大增加了路由优化问题解决方案的空间。在SDN环境下，深度强化学习与神经网络的结合能够为路由决策提供极大地帮助。但CNN、RNN、LSTM等算法本质上适用于欧式空间，例如图像、网格等。网络拓扑通常是一个复杂的模型，链路与链路、节点与节点之间有很强的空间相关性，传统神经网络很难将这一特征表现出来，并且基于深度强化学习的路由优化模型在网络拓扑发生变化时需要重新训练，不具有对动态拓扑的泛化能力。因此，需要有一种方法能够对网络拓扑的空间特征进行提取，从空间维度上学习动态、复杂的网络拓扑，并且能够克服动态拓扑的优化问题，提供更加优质的路由方案。

发明内容

本发明目的：在于提供一种基于图结构特征的路由优化方法与系统，适用于SDN网络环境下，交换机或路由设备支持传统的二层网络协议，实现从多个网络属性上优化全局的路由开销，适应动态、复杂的SDN网络，保障SDN网络性能。

为实现以上功能，本发明设计一种基于图结构特征的路由优化方法，针对目标SDN网络，执行以下步骤S1-步骤S3，获得目标SDN网络中各条链路的路由开销，调整各条链路的权重，完成目标SDN网络的路由优化。

步骤S1:针对目标SDN网络，基于南向接口协议，获取目标SDN网络的网络拓扑图，根据网络拓扑图中目标SDN网络的各链路上各节点之间的连接关系，构建图邻接矩阵，分别针对目标SDN网络的各链路上各节点，根据各节点的链路带宽、流量、丢包率、传输时延，构建各节点的信息特征向量，并基于各节点的信息特征向量，构建目标SDN网络的网络信息特征矩阵。

步骤S2:以图邻接矩阵、网络信息特征矩阵为目标SDN网络的状态，基于图学习神经网络，以图邻接矩阵、网络信息特征矩阵为输入，通过深度图学习方法，以当前状态下目标SDN网络的路由策略、路由开销为输出，基于梯度反向传播方法，更新图学习神经网络的网络参数，并经过预设次数的迭代，对图学习神经网络进行训练，获得使目标SDN网络路由开销最小、链路利用率最大的深度图学习模型。

步骤S3:根据训练好的深度图学习模型，基于目标SDN网络的状态，获得使目标SDN网络路由开销最小的路由策略，将路由策略部署至目标SDN网络，根据路由策略改变目标SDN网络的各链路权重，完成目标SDN网络的路由优化。

作为本发明的一种优选技术方案：步骤S1的具体步骤如下：

步骤S1.1:针对目标SDN网络，基于南向接口协议，获取目标SDN网络的网络拓扑结构，其中网络拓扑结构包含M个路由器、N条链路。

步骤S1.2:针对目标SDN网络的网络拓扑结构，每个路由器对应一个实节点，每条链路对应一条边，在每条链路所对应的边上插入虚节点，将目标SDN网络的网络拓扑结构表示为M个实节点、N个虚节点、2N条边的网络拓扑图G(V,E)，其中，V表示节点集合，E表示边集合，具体如下式：

其中，

表示实节点集合，

表示虚节点集合；

其中，

表示M个实节点；

其中，

表示N个虚节点；

其中，

表示2N条边。

步骤S1.3:令x=M+N，x表示节点总数，节点包括M个实节点、N个虚节点，基于目标SDN网络的网络拓扑图，构建x阶的图邻接矩阵A如下式：

其中，图邻接矩阵A中的元素

如下式：

。

步骤S1.4:针对目标SDN网络的任一节点i,根据节点i的链路带宽、流量、丢包率、传输时延，构建节点i的信息特征向量

如下式：

式中，

为节点i的链路带宽，

为节点i的流量，

为节点i的丢包率，

为节点i的传输时延；

基于各节点的信息特征向量，构建目标SDN网络的网络信息特征矩阵H如下式：

式中，

为各节点的信息特征向量。

作为本发明的一种优选技术方案：步骤S1.4中所述的节点i，若节点i为虚节点，则节点i的流量

、丢包率

、传输时延

为0，若节点i为实节点，则节点i的链路带宽

为0。

作为本发明的一种优选技术方案：步骤S2中所述深度图学习方法包括四个图学习神经网络和一个经验池，四个图学习神经网络分别为在线图策略网络、在线图价值网络、目标图策略网络、目标图价值网络，四个图学习神经网络分别均包括一个输入层、两个隐藏层、一个输出层。

在线图策略网络、目标图策略网络的输入层以图邻接矩阵A、网络信息特征矩阵H为输入，在线图策略网络、目标图策略网络的输出分别作为在线图价值网络、目标图价值网络的输入，其中，各图学习神经网络的输入层到隐藏层、以及隐藏层之间的传播公式相同，将输入层记为第0层，第一个隐藏层记为第1层，第二个隐藏层记为第2层，则传播公式如下式：

式中，

表示将括号内部的公式进行归一化，

为第l层的网络信息特征矩阵，

为第l+1层的权重矩阵，其中，

，

，

为x阶单位矩阵，

为

的度矩阵，

如下式：

其中，

如下式：

其中，在线图策略网络、目标图策略网络中，

是一个

的矩阵，

是一个

的矩阵，输出层为全连接层，其输出值为

矩阵，记为路由策略Policy，具体如下式：

式中，K为在线图策略网络、目标图策略网络输出层的权重矩阵，

为第2层的网络信息特征矩阵；在线图价值网络、目标图价值网络中，

和

均为

的矩阵，输出层为聚合层，其输出值为

矩阵，记为Value，具体如下式：

式中，Q为输出层的权重值，

为第2层的网络信息特征矩阵

中的第i个值；根据在线图策略网络输出的路由策略Policy，更新目标SDN网络中各条链路的路由开销。

作为本发明的一种优选技术方案：步骤S2的具体步骤如下：

步骤S2.1:对在线图策略网络、在线图价值网络、目标策略网络、目标图价值网络的权重矩阵初始化，其中，在线图策略网络的权重矩阵为

，在线图价值网络的权重矩阵为

，目标图策略网络的权重矩阵为

，目标图价值网络的权重矩阵为

。

步骤S2.2:对经验池进行初始化，具体步骤如下：

步骤S2.2.1:以图邻接矩阵A、网络信息特征矩阵H作为目标SDN网络的状态S，定义

，

表示t时刻目标SDN网络的状态，

，

表示t时刻目标SDN网络的图邻接矩阵，

表示t时刻目标SDN网络的网络信息特征矩阵。

步骤S2.2.2:定义

分别为在线图策略网络、目标图策略网络、在线图价值网络、目标图价值网络的输出层在t时刻的输出；根据下式计算在线图策略网络输出路由策略

所获得的环境反馈

：

式中，

为链路利用率，

分别为目标SDN网络的链路带宽、流量、丢包率、传输时延，

为比例系数；构建目标SDN网络链路利用率最大化的目标函数为

。

步骤S2.2.3:定义经验池R如下式：

式中，

表示t+1时刻目标SDN网络的状态，即在线图策略网络输出路由策略

所获得目标SDN网络的状态。

步骤S2.3:针对目标SDN网络，进行预设次数的迭代，其中预设迭代次数为T，具体步骤如下：

步骤S2.3.1:令t=1，获取目标SDN网络的初始状态

；

步骤S2.3.2:在线图策略网络根据t时刻目标SDN网络的状态

，输出路由策略

，过程记为

，其中，θ为在线图策略网络的网络参数；

步骤S2.3.3:根据路由策略

，更新目标SDN网络中各条链路的路由开销；

步骤S2.3.4:获取根据路由策略

更新后的目标SDN网络的状态

，同时获取环境反馈

；

步骤S2.3.5:将

作为一组历史记录存入经验池R中；

步骤S2.3.6:从经验池R中随机抽取Y组历史记录

，其中，下标m表示经验池R中任意一组历史记录；

步骤S2.3.7:根据步骤S2.3.6所抽取的历史记录

，计算目标图价值网络所对应的输出

如下式：

式中，

，表示目标图策略网络根据目标SDN网络的状态

所选择的路由策略，

为目标图策略网络的网络参数，

为目标图价值网络的网络参数，

表示目标图价值网络基于目标SDN网络的状态

、且网络参数为

时，目标图策略网络所选取的路由策略

的期望值，

为折扣因子，是一个常数，且

；

步骤S2.3.8:根据下式计算在线图价值网络输出值的损失

：

式中，

，表示网络参数

的在线图价值网络在目标SDN网络的状态

下，在线图策略网络输出的路由策略为

时，在线图价值网络输出的价值；

步骤S2.3.9:根据在线图价值网络输出值的损失

，基于梯度反向传播方法，更新在线图价值网络的网络参数

；

步骤S2.3.10:计算梯度值

，根据梯度值

，基于梯度反向传播方法，更新在线图策略网络的网络参数θ，其中

表示对括号内公式求梯度；

步骤S2.3.11:分别根据下式，更新目标图策略网络的网络参数

、目标图价值网络的网络参数

：

式中，

为常数，且

；

步骤S2.3.12:重复S2.3.2至步骤S2.3.11，直至迭代次数达到预设次数T，获得使目标SDN网络路由开销最小的路由策略。

作为本发明的一种优选技术方案：步骤S3的具体步骤如下：

步骤S31:获取目标SDN网络的图邻接矩阵A、网络信息特征矩阵H；

步骤S32:基于训练好的深度图学习模型，根据目标SDN网络的状态

，获得使目标SDN网络路由开销最小的路由策略；

步骤S33:根据步骤S32所获得的路由策略，部署至目标SDN网络，根据路由策略改变目标SDN网络的各链路权重；

步骤S34:在流量传输过程中，根据最短路径方案，采用更新后的各链路权重进行流量传输。

本发明还设计一种基于图结构特征的路由优化方法的系统，目标SDN网络包括控制平面、数据平面，其中，控制平面包括信息获取模块、策略部署模块、DGL模块；使得所述基于图结构特征的路由优化方法的系统实现所述基于图结构特征的路由优化方法。

目标SDN网络的各链路及各节点部署于数据平面，控制平面上的信息获取模块用于获取目标SDN网络的网络拓扑图，生成图邻接矩阵、网络信息特征矩阵，发送至DGL模块。

DGL模块基于图学习神经网络，以图邻接矩阵、网络信息特征矩阵为输入，通过深度图学习方法，以当前状态下目标SDN网络的路由开销为输出，基于梯度反向传播方法，更新图学习神经网络的网络参数，并经过预设次数的迭代，对图学习神经网络进行训练，获得使目标SDN网络路由开销最小、链路利用率最大的深度图学习模型。

控制平面上的策略部署模块用于根据DGL模块所获得的训练好的深度图学习模型，基于目标SDN网络的状态，获得使目标SDN网络路由开销最小的路由策略，并将路由策略及目标SDN网络路由开销发送到数据平面。

有益效果：相对于现有技术，本发明的优点包括：

1.采用图学习神经网络获取网络拓扑之中节点和链路之间的空间关系；

2.采用策略网络和价值网络的方式，对算法进行无监督学习，使得算法的学习能力更加细致；

3.利用智能算法优化SDN网络环境下的路由开销，提升了链路利用率，从而在优化了平均端到端时延、丢包率、吞吐量等；

4.深度图学习模型具有强的泛化能力，训练后的深度图学习模型在网络拓扑变化时依旧有效，能够适应大规模的动态、复杂网络。

附图说明

图1是根据本发明实施例提供的基于图结构特征的路由优化方法的系统的整体框图；

图2是根据本发明实施例提供的DGL算法框架图；

图3是根据本发明实施例提供的图学习神经网络结构图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明实施例提供的一种基于图结构特征的路由优化方法，针对目标SDN网络，执行以下步骤S1-步骤S3，获得目标SDN网络中各条链路的路由开销，调整各条链路的权重，完成目标SDN网络的路由优化。

步骤S1:参照图1，针对目标SDN网络，基于南向接口协议，获取目标SDN网络的网络拓扑图，根据网络拓扑图中目标SDN网络的各链路上各节点之间的连接关系，构建图邻接矩阵，分别针对目标SDN网络的各链路上各节点，根据各节点的链路带宽、流量、丢包率、传输时延，构建各节点的信息特征向量，并基于各节点的信息特征向量，构建目标SDN网络的网络信息特征矩阵。

步骤S1的具体步骤如下：

其中，

表示实节点集合，

表示虚节点集合；

其中，

表示M个实节点；

其中，

表示N个虚节点；

其中，

表示2N条边。

其中，图邻接矩阵A中的元素

如下式：

。

如下式：

式中，

为节点i的链路带宽，

为节点i的流量，

为节点i的丢包率，

为节点i的传输时延。

所述节点i，若节点i为虚节点，则节点i的流量

、丢包率

、传输时延

为0，若节点i为实节点，则节点i的链路带宽

为0。

式中，

为各节点的信息特征向量。

步骤S2:以图邻接矩阵、网络信息特征矩阵为目标SDN网络的状态，基于图学习神经网络，以图邻接矩阵、网络信息特征矩阵为输入，通过深度图学习方法(Deep GraphLearning，DGL)，以当前状态下目标SDN网络的路由策略、路由开销为输出，基于梯度反向传播方法，更新图学习神经网络的网络参数，并经过预设次数的迭代，对图学习神经网络进行训练，获得使目标SDN网络路由开销最小、链路利用率最大的深度图学习模型。

步骤S2中所述深度图学习方法包括四个图学习神经网络和一个经验池，参照图2，四个图学习神经网络分别为在线图策略网络(Online Graph Strategy Network，OGSN)、在线图价值网络(Online Graph Value Network，OGVN)、目标图策略网络(Target GraphStrategy Network，TGSN)、目标图价值网络(Target Graph Value Network，TGVN)，参照图3，四个图学习神经网络分别均包括一个输入层、两个隐藏层、一个输出层。

式中，

表示将括号内部的公式进行归一化，

为第l层的网络信息特征矩阵，

为第l+1层的权重矩阵，其中，

，

，

为x阶单位矩阵，

为

的度矩阵，

如下式：

其中，

如下式：

其中，在线图策略网络、目标图策略网络中，

是一个

的矩阵，

是一个

的矩阵，输出层为全连接层，其输出值为

矩阵，记为路由策略Policy，具体如下式：

为第2层的网络信息特征矩阵。

在线图价值网络、目标图价值网络中，

和

均为

的矩阵，输出层为聚合层，其输出值为

矩阵，记为Value，具体如下式：

式中，Q为输出层的权重值，

为第2层的网络信息特征矩阵

参照图2，步骤S2的具体步骤如下：

，在线图价值网络的权重矩阵为

，目标图策略网络的权重矩阵为

，目标图价值网络的权重矩阵为

，初始化时，在线图策略网络、目标策略网络的网络参数一致，在线图价值网络、目标图价值网络的网络参数一致。

步骤S2.2:对经验池进行初始化，具体步骤如下：

，

表示t时刻目标SDN网络的状态，

，

表示t时刻目标SDN网络的图邻接矩阵，

表示t时刻目标SDN网络的网络信息特征矩阵。

步骤S2.2.2:定义

所获得的环境反馈

：

式中，

为链路利用率，

分别为目标SDN网络的链路带宽、流量、丢包率、传输时延，

为比例系数。

构建目标SDN网络链路利用率最大化的目标函数为

。

步骤S2.2.3:定义经验池R如下式：

式中，

所获得目标SDN网络的状态。

步骤S2.3.1:令t=1，获取目标SDN网络的初始状态

；

步骤S2.3.2:在线图策略网络根据t时刻目标SDN网络的状态

，输出路由策略

，过程记为

，其中，θ为在线图策略网络的网络参数；

步骤S2.3.3:根据路由策略

，更新目标SDN网络中各条链路的路由开销；

步骤S2.3.4:获取根据路由策略

更新后的目标SDN网络的状态

，同时获取环境反馈

；

步骤S2.3.5:将

作为一组历史记录存入经验池R中；

步骤S2.3.6:从经验池R中随机抽取Y组历史记录

，其中，下标m表示经验池R中任意一组历史记录；

步骤S2.3.7:根据步骤S2.3.6所抽取的历史记录

，计算目标图价值网络所对应的输出

如下式：

式中，

，表示目标图策略网络根据目标SDN网络的状态

所选择的路由策略，

为目标图策略网络的网络参数，

为目标图价值网络的网络参数，

表示目标图价值网络基于目标SDN网络的状态

、且网络参数为

时，目标图策略网络所选取的路由策略

的期望值，

为折扣因子，是一个常数，且

。

步骤S2.3.8:根据下式计算在线图价值网络输出值的损失

：

式中，

，表示网络参数

的在线图价值网络在目标SDN网络的状态

下，在线图策略网络输出的路由策略为

时，在线图价值网络输出的价值。

步骤S2.3.9:根据在线图价值网络输出值的损失

，基于梯度反向传播方法，更新在线图价值网络的网络参数

。

步骤S2.3.10:计算梯度值

，根据梯度值

表示对括号内公式求梯度。

步骤S2.3.11:分别根据下式，更新目标图策略网络的网络参数

、目标图价值网络的网络参数

：

式中，

为常数，且

。

步骤S3的具体步骤如下：

，获得使目标SDN网络路由开销最小的路由策略；

本发明实施例还提供一种基于图结构特征的路由优化方法的系统，参照图1，目标SDN网络包括控制平面、数据平面，其中，控制平面包括信息获取模块、策略部署模块、DGL模块；使得所述基于图结构特征的路由优化方法的系统实现所述基于图结构特征的路由优化方法。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于图结构特征的路由优化方法，其特征在于，针对目标SDN网络，执行以下步骤S1-步骤S3，获得目标SDN网络中各条链路的路由开销，调整各条链路的权重，完成目标SDN网络的路由优化：

步骤S1:针对目标SDN网络，基于南向接口协议，获取目标SDN网络的网络拓扑图，根据网络拓扑图中目标SDN网络的各链路上各节点之间的连接关系，构建图邻接矩阵，分别针对目标SDN网络的各链路上各节点，根据各节点的链路带宽、流量、丢包率、传输时延，构建各节点的信息特征向量，并基于各节点的信息特征向量，构建目标SDN网络的网络信息特征矩阵；

步骤S2:以图邻接矩阵、网络信息特征矩阵为目标SDN网络的状态，基于图学习神经网络，以图邻接矩阵、网络信息特征矩阵为输入，通过深度图学习方法，以当前状态下目标SDN网络的路由策略、路由开销为输出，基于梯度反向传播方法，更新图学习神经网络的网络参数，并经过预设次数的迭代，对图学习神经网络进行训练，获得使目标SDN网络路由开销最小、链路利用率最大的深度图学习模型；

所述深度图学习方法包括四个图学习神经网络和一个经验池，四个图学习神经网络分别为在线图策略网络、在线图价值网络、目标图策略网络、目标图价值网络，四个图学习神经网络分别均包括一个输入层、两个隐藏层、一个输出层；

式中，σ(·)表示将括号内部的公式进行归一化，H^l为第l层的网络信息特征矩阵，W^l+1为第l+1层的权重矩阵，其中，H⁰＝H，

I为x阶单位矩阵，x为目标SDN网络的网络拓扑图的节点总数，

为

的度矩阵，

如下式：

其中，

如下式：

其中，在线图策略网络、目标图策略网络中，W¹是一个4×4的矩阵，W²是一个4×1的矩阵，输出层为全连接层，其输出值为x×1矩阵，记为路由策略Policy，具体如下式：

Policy＝H²×K

式中，K为在线图策略网络、目标图策略网络输出层的权重矩阵，H²为第2层的网络信息特征矩阵；

在线图价值网络、目标图价值网络中，W¹和W²均为1×1的矩阵，输出层为聚合层，其输出值为1×1矩阵，记为Value，具体如下式：

式中，Q为输出层的权重值，

为第2层的网络信息特征矩阵H²中的第i个值；

根据在线图策略网络输出的路由策略Policy，更新目标SDN网络中各条链路的路由开销；

2.根据权利要求1所述的一种基于图结构特征的路由优化方法，其特征在于，步骤S1的具体步骤如下：

步骤S1.1:针对目标SDN网络，基于南向接口协议，获取目标SDN网络的网络拓扑结构，其中网络拓扑结构包含M个路由器、N条链路；

V＝{V_实,V_虚}

其中，V_实表示实节点集合，V_虚表示虚节点集合；

V_实＝{v_s1,v_s2,…,v_sM}

其中，v_s1,v_s2,…,v_sM表示M个实节点；

V_虚＝{v_x1,v_x2,…,v_xN}

其中，v_x1,v_x2,…,v_xN表示N个虚节点；

E＝{e₁,e₂,…,e_2N}

其中，e₁,e₂,…,e_2N表示2N条边；

步骤S1.3:令x＝M+N，x表示节点总数，节点包括M个实节点、N个虚节点，基于目标SDN网络的网络拓扑图，构建x阶的图邻接矩阵A如下式：

其中，图邻接矩阵A中的元素a_ij如下式：

步骤S1.4:针对目标SDN网络的任一节点i,根据节点i的链路带宽、流量、丢包率、传输时延，构建节点i的信息特征向量h_i如下式：

h_i＝[B_wi,T_hi,L_pi,D_ti]

式中，B_wi为节点i的链路带宽，T_hi为节点i的流量，L_pi为节点i的丢包率，D_ti为节点i的传输时延；

式中，h₁,h₂,…,h_i,…,h_x为各节点的信息特征向量。

3.根据权利要求2所述的一种基于图结构特征的路由优化方法，其特征在于，步骤S1.4中所述的节点i，若节点i为虚节点，则节点i的流量T_hi、丢包率L_pi、传输时延D_ti为0，若节点i为实节点，则节点i的链路带宽B_wi为0。

4.根据权利要求3所述的一种基于图结构特征的路由优化方法，其特征在于，步骤S2的具体步骤如下：

步骤S2.1:对在线图策略网络、在线图价值网络、目标策略网络、目标图价值网络的权重矩阵初始化，其中，在线图策略网络的权重矩阵为W_θ，在线图价值网络的权重矩阵为W_θ′，目标图策略网络的权重矩阵为W_ω，目标图价值网络的权重矩阵为W_ω′；

步骤S2.2:对经验池进行初始化，具体步骤如下：

步骤S2.2.1:以图邻接矩阵A、网络信息特征矩阵H作为目标SDN网络的状态S，定义S＝[A,H]，s_t表示t时刻目标SDN网络的状态，s_t＝[A_t,H_t]，A_t表示t时刻目标SDN网络的图邻接矩阵，H_t表示t时刻目标SDN网络的网络信息特征矩阵；

步骤S2.2.2:定义

所获得的环境反馈f_t：

f_t＝U(B_w,T_h,L_p,D_t)×K_f

式中，U(B_w,T_h,L_p,D_t)为链路利用率，B_w、T_h、L_p、D_t分别为目标SDN网络的链路带宽、流量、丢包率、传输时延，K_f为比例系数；

构建目标SDN网络链路利用率最大化的目标函数为U_max(B_w,T_h,L_p,D_t)；

步骤S2.2.3:定义经验池R如下式：

式中，s_t+1表示t+1时刻目标SDN网络的状态，即在线图策略网络输出路由策略

所获得目标SDN网络的状态；

步骤S2.3.1:令t＝1，获取目标SDN网络的初始状态s₁；

步骤S2.3.2:在线图策略网络根据t时刻目标SDN网络的状态s_t，输出路由策略

过程记为

其中，θ为在线图策略网络的网络参数；

步骤S2.3.3:根据路由策略

更新目标SDN网络中各条链路的路由开销；

步骤S2.3.4:获取根据路由策略

更新后的目标SDN网络的状态s_t+1，同时获取环境反馈f_t；

步骤S2.3.5:将

作为一组历史记录存入经验池R中；

步骤S2.3.6:从经验池R中随机抽取Y组历史记录

其中，下标m表示经验池R中任意一组历史记录；

步骤S2.3.7:根据步骤S2.3.6所抽取的历史记录

计算目标图价值网络所对应的输出

如下式：

式中，

表示目标图策略网络根据目标SDN网络的状态s_m+1所选择的路由策略，θ′为目标图策略网络的网络参数，ω′为目标图价值网络的网络参数，

表示目标图价值网络基于目标SDN网络的状态s_m+1、且网络参数为ω′时，目标图策略网络所选取的路由策略π′(s_m+1|θ′)的期望值，γ为折扣因子，是一个常数，且γ∈(0,1)；

步骤S2.3.8:根据下式计算在线图价值网络输出值的损失Loss_ogvn：

式中，

表示网络参数ω的在线图价值网络在目标SDN网络的状态s_m下，在线图策略网络输出的路由策略为π(s_m|θ)时，在线图价值网络输出的价值；

步骤S2.3.9:根据在线图价值网络输出值的损失Loss_ogvn，基于梯度反向传播方法，更新在线图价值网络的网络参数ω；

步骤S2.3.10:计算梯度值

根据梯度值

基于梯度反向传播方法，更新在线图策略网络的网络参数θ，其中

表示对括号内公式求梯度；

步骤S2.3.11:分别根据下式，更新目标图策略网络的网络参数θ′、目标图价值网络的网络参数ω′：

θ′＝τθ+(1-τ)θ′

ω′＝τω+(1-τ)ω′

式中，τ为常数，且τ∈(0,1)；

5.根据权利要求4所述的一种基于图结构特征的路由优化方法，其特征在于，步骤S3的具体步骤如下：

步骤S32:基于训练好的深度图学习模型，根据目标SDN网络的状态[A,H]，获得使目标SDN网络路由开销最小的路由策略；

6.一种基于图结构特征的路由优化方法的系统，其特征在于，目标SDN网络包括控制平面、数据平面，其中，控制平面包括信息获取模块、策略部署模块、DGL模块；使得所述基于图结构特征的路由优化方法的系统实现如权利要求1-5中任一项所述的基于图结构特征的路由优化方法；

目标SDN网络的各链路及各节点部署于数据平面，控制平面上的信息获取模块用于获取目标SDN网络的网络拓扑图，生成图邻接矩阵、网络信息特征矩阵，发送至DGL模块；

DGL模块基于图学习神经网络，以图邻接矩阵、网络信息特征矩阵为输入，通过深度图学习方法，以当前状态下目标SDN网络的路由开销为输出，基于梯度反向传播方法，更新图学习神经网络的网络参数，并经过预设次数的迭代，对图学习神经网络进行训练，获得使目标SDN网络路由开销最小、链路利用率最大的深度图学习模型；