CN116886587A

CN116886587A - 一种基于知识及深度强化学习的电力通信网路由优化方法

Info

Publication number: CN116886587A
Application number: CN202311009801.XA
Authority: CN
Inventors: 刘旭; 董武; 刘晴; 刘康; 晏彬洋; 彭琳钰; 张光辉; 石际; 汤玮; 龙姣; 王涛
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-10-13

Abstract

本发明涉及电力通信技术领域，尤其是一种基于知识及深度强化学习的电力通信网路由优化方法，方法包括：构建深度强化学习模型；图神经网络将拓扑结构和链路特征通过消息传递神经网络传递至全连接神经网络；计算当前节点至各个路由的最短链路；计算选择各个路由进行电力通信时的负载均衡因子作为奖励值；通过动态更新链路权值，选择奖励值最大的路由作为最优选择；构建损失函数；以损失函数最小为目标，对模型进行训练，并得到价值函数；通过价值函数对深度强化学习模型的模型参数进行更新；获取实时拓扑结构、实时链路特征、实时流量需求信息；通过训练完成的深度强化学习模型，输出最优选择，并根据最优选择进行路由配置。

Description

一种基于知识及深度强化学习的电力通信网路由优化方法

技术领域

本发明涉及电力通信技术领域，尤其是一种基于知识及深度强化学习的电力通信网路由优化方法。

背景技术

随着电力系统的现代化和智能化，对通信网络的要求也越来越高。电力通信网络需要满足实时性、容错性和可靠性等特殊需求。如实时性要求能够快速传输和处理电力系统的实时数据，以支持对电力系统的实时监测、调控和故障检测等应用。然而，随着电力系统的不断壮大，激增的网络流量需求和动态的网络环境对通信网都是极具挑战的。其次，电力通信网络通常由多个通信节点和分布式设备组成，网络拓扑复杂，且网络拓扑可能会随电力系统的扩展而发生改变。而通信网传输路径的选择对网络性能和效率影响较大，因此为保证通信网络实时性、可靠性等特殊需求，需要使用合适的传输路径选择策略可以提高电力通信网的整体性能。

针对通信网传输路径的选择策略，常用的技术手段为路由优化，路由优化的现有方法主要包括基于最短路径和基于负载均衡两种。基于最短路径的方法典型的有Dijkstra算法和Bellman-Ford算法，基于负载均衡的方法典型的有加权最小连接数法、加权最短路径法和最短延迟法。然而，这两种方法本质上是基于特定数学模型，其路由决策信息有限，不能随着通信网网络环境变换进行动态更改，面对日益复杂的业务需求，现有方法容易出现瓶颈、拥塞和资源分配不合理等问题。除上述两种类型的方法外，随着深度学习以及强化学习的兴起，基于深度学习和强化学习的路由优化方法也逐渐涌现，但它们只是简单地训练从数据平面和控制平面获得的流量相关数据，并没有考虑网络拓扑结构等更多深层次的信息，因此其应用场景也较为受限。

发明内容

为解决上述现有技术问题，本发明提供一种基于知识及深度强化学习的电力通信网路由优化方法，包括：

S101：构建深度强化学习模型，所述深度强化学习模型包括全连接神经网络和图神经网络，所述图神经网络包括消息传递神经网络，所述图神经网络通过所述消息传递神经网络与所述全连接神经网络每一层的分支输入端连接；

S102：所述全连接神经网络获取初始链路特征和流量需求信息，所述图神经网络获取电力通信网的拓扑结构和链路特征，并将所述拓扑结构和所述链路特征通过所述消息传递神经网络传递至所述全连接神经网络；

S103：根据链路特征生成每条链路的关联动作，并根据流量需求信息计算当前节点至各个路由的最短链路；

S104：根据网络拓扑的链路带宽分配及负载情况，计算选择各个路由进行电力通信时的负载均衡因子，并将所述负载均衡因子作为选择相应路由进行电力通信的奖励值；

S105：通过动态更新链路权值，选择奖励值最大的路由作为最优选择；

S106：根据当前状态的最优选择、当前状态的奖励值和下一状态的最优选择，构建损失函数；

S107：以所述损失函数最小为目标，对模型进行训练，并得到价值函数；

S108：通过所述价值函数对所述深度强化学习模型的模型参数进行更新，不断迭代，直至所述深度强化学习模型收敛；

S109：所述图神经网络获取电力通信网的实时拓扑结构和实时链路特征，所述全连接神经网络获取初始链路特征和实时流量需求信息；

S110：通过训练完成的深度强化学习模型，输出最优选择，并根据所述最优选择进行路由配置。

本发明的有益效果体现在，在深度强化学习模型中，全连接神经网络获取初始链路特征和流量需求信息，图神经网络获取电力通信网的拓扑结构和链路特征，并将拓扑结构和链路特征通过消息传递神经网络传递至全连接神经网络。之后深度强化学习模型根据网络拓扑的链路带宽分配及负载情况，计算选择各个路由进行电力通信时的负载均衡因子，并将负载均衡因子作为选择相应路由进行电力通信的奖励值，通过动态更新链路权值，选择奖励值最大的路由作为最优选择，并根据最优选择进行路由配置。可以随着通信网网络环境变换，动态获取实时的拓扑结构、链路特征以及流量需求信息，进行动态的路由配置，提升电网资源分配的合理性，并且在决策过程中考虑网络拓扑结构等更多深层次的信息，应用场景广，有利于技术的推广。

附图说明

图1为本发明所提供的一种基于知识及深度强化学习的电力通信网路由优化方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，示出了一种基于知识及深度强化学习的电力通信网路由优化方法的流程示意图。

本发明实施例提供的一种基于知识及深度强化学习的电力通信网路由优化方法，包括：

S101：构建深度强化学习模型。

其中，深度强化学习模型包括全连接神经网络和图神经网络，图神经网络包括消息传递神经网络，图神经网络通过消息传递神经网络与全连接神经网络每一层的分支输入端连接。

S102：全连接神经网络获取初始链路特征和流量需求信息，图神经网络获取电力通信网的拓扑结构和链路特征，并将拓扑结构和链路特征通过消息传递神经网络传递至全连接神经网络。

其中，全连接神经网络通过消息传递来学习更多关于网络拓扑的知识，最终模型输出适应网络状态的最优动作，并存储于动作模块生成的动作矩阵中，最优动作代表了路由的最优选择，根据最优选择对电力通信网进行配置即可完成优化目的。

其中，图神经网络与通信网网络拓扑环境进行交互，以获取电力通信网的拓扑结构和链路特征。并且图神经网络可以随着通信网网络环境变换，动态获取实时的拓扑结构和链路特征。

在本发明中，向深度强化学习模型中添加图神经网络，充分了解网络拓扑的图结构和链路特征的相关知识，增强了训练模型的泛化能力，同时使得路由选择策略不再约束于通信网网络拓扑。

在一种可能的实施方式中，消息传递神经网络传递消息的具体步骤包括：

获取每个节点v与相邻的节点i接收经过t次消息交换后的隐藏状态以及每个节点v的原始隐藏状态/>

通过消息传递函数，将经过t次消息交换后的隐藏状态以及每个节点v的原始隐藏状态/>进行组合：

其中，m表示消息传递函数，w表示全神经网络的权值，b₁、b₂表示偏置量。

根据消息传递函数，获取节点v在t+1次交换的消息，并进行传递：

其中，表示节点v第t+1次交换的消息，N(v)表示节点的总数。

需要说明的是，通过消息传递神经网络在电力通信网节点之间传递消息，有助于增强模型对网络状态和拓扑结构的认知能力，提高路由优化的效果，以及更好地适应网络动态变化的环境，可以提升模型的性能和效率。

在一种可能的实施方式中，消息传递神经网络传递消息的具体步骤还包括：

通过更新函数，基于先前的隐藏状态和聚合消息来计算每个节点的新隐藏状态重复上述过程，不断迭代，直至达到预设迭代次数。

需要说明的是，通过迭代更新每个节点的隐藏状态，消息传递神经网络能够更好地利用邻居节点的信息、适应动态变化、融合全局特征，并在有限次迭代后收敛，从而提高了路由优化方法的性能和效率。

S103：根据链路特征生成每条链路的关联动作，并根据流量需求信息计算当前节点至各个路由的最短链路。

可选地，可以使用Dijkstra算法和Bellman-Ford算法计算最短链路。

可选地，可以将每条链路的特征映射到一个动作空间，然后根据一定的规则或策略生成关联动作。这些规则可以是基于链路的带宽、延迟、负载等特征，也可以是基于网络拓扑的信息。

S104：根据网络拓扑的链路带宽分配及负载情况，计算选择各个路由进行电力通信时的负载均衡因子，并将负载均衡因子作为选择相应路由进行电力通信的奖励值。

其中，负载均衡系数越大，则网络负载均衡效果越差。反之，负载均衡系数越小，则网络负载均衡效果越好。

在一种可能的实施方式中，负载均衡因子具体为链路利用率的标准差LU_SD，链路利用率的标准差LU_SD的计算方式为：

其中，K表示链路总数，E表示链路集合，c_e表示链路容量，l_e表示链路负载，e表示中间量，LU_AVG表示链路利用率的平均值。

在一种可能的实施方式中，链路利用率的平均值LU_AVG的计算方式为：

S105：通过动态更新链路权值，选择奖励值最大的路由作为最优选择。

需要说明的是，选择奖励值最大的路由作为最优选择，能够更好地适应网络动态变化、实现负载均衡、优化网络性能，并在全局范围内进行优化决策，可以实现通信网的全局负载均衡。

S106：根据当前状态的最优选择、当前状态的奖励值和下一状态的最优选择，构建损失函数。

在一种可能的实施方式中，损失函数具体为：

其中，θ^Q为深度强化学习模型的参数，Q代表深度强化学习模型，s_i表示当前状态，a_i表示当前状态下的当前动作，s_i+1表示下一状态，a_i+1表示下一状态下的动作，Q(s_i,a_i|θ^Q)表示参数为θ^Q下的深度强化学习模型以s_i和a_i为输入得到的输出，Q(s_i+1,a_i+1|θ^Q)类推，r_i表示当前状态s_i下执行a_i的奖励。

S107：以损失函数最小为目标，对模型进行训练，并得到价值函数。

S108：通过价值函数对深度强化学习模型的模型参数进行更新，不断迭代，直至深度强化学习模型收敛。

在一种可能的实施方式中，S108具体为：

通过以下公式，对深度强化学习模型的模型参数进行更新：

其中，C表示价值函数，表示梯度，ξ表示学习率。

需要说明的是，通过价值函数对深度强化学习模型的模型参数进行更新，可以实现优化模型性能、增强鲁棒性、快速收敛、自适应学习率以及迭代收敛等好处。这些优势使得深度强化学习模型能够更好地应用于电力通信网络路由优化中，提升路由配置的效果和性能。

S109：图神经网络获取电力通信网的实时拓扑结构和实时链路特征，全连接神经网络获取初始链路特征和实时流量需求信息。

S110：通过训练完成的深度强化学习模型，输出最优选择，并根据最优选择进行路由配置。

在本发明中，将电力通信网的路由优化问题构造为知识定义网络，从全局角度提高通信网性能，既优化了链路负载，最大限度地利用链路，又保证了通信网的鲁棒性。

在一种可能的实施方式中，在S101之后，基于知识及深度强化学习的电力通信网路由优化方法还包括：

根据电力通信网拓扑中的链路特征，定义深度强化学习模型的网络状态，并生产状态空间，其中，状态空间包括初始链路特征和流量需求信息。

其中，初始链路特征可表示为[h₁,L,h_i,L,h_K]，h_i表示第i条链路的链路特征，K表示链路的总条数。

其中，流量需求信息可表示为[src,dst,bw]，可理解为从源节点src到目的节点dst所需带宽bw。

需要说明的是，根据电力通信网拓扑中的链路特征定义深度强化学习模型的网络状态，并生成包含初始链路特征和流量需求信息的状态空间，能够综合考虑网络拓扑和实际业务需求，优化路由策略，提高电力通信网络的性能和效率。

在一种可能的实施方式中，基于知识及深度强化学习的电力通信网路由优化方法还包括：

生成动作矩阵，其中，动作矩阵用于存储最优选择。

需要说明的是，通过生成动作矩阵存储最优选择，可以实现实时路由选择，方便路由更新，使得路由优化算法在电力通信网络中更加高效、灵活和可靠。

在本发明的实施例的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“坚直”、“水平”、“中心”、“顶”、“底”、“顶部”、“底部”、“内”、“外”、“内侧”、“外侧”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。其中，“里侧”是指内部或围起来的区域或空间。“外围”是指某特定部件或特定区域的周围的区域。

在本发明的实施例的描述中，术语“第一”、“第二”、“第三”、“第四”仅用以描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的实施例的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“组装”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的实施例的描述中，具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

在本发明的实施例的描述中，需要理解的是，“-”和“～”表示的是两个数值之同的范围，并且该范围包括端点。例如：“A-B”表示大于或等于A，且小于或等于B的范围。“A～B”表示大于或等于A，且小于或等于B的范围。

在本发明的实施例的描述中，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于知识及深度强化学习的电力通信网路由优化方法，其特征在于，包括：

2.根据权利要求1所述的基于知识及深度强化学习的电力通信网路由优化方法，其特征在于，所述图神经网络与通信网网络拓扑环境进行交互，以获取电力通信网的拓扑结构和链路特征。

3.根据权利要求1所述的基于知识及深度强化学习的电力通信网路由优化方法，其特征在于，所述消息传递神经网络传递消息的具体步骤包括：

其中，m表示消息传递函数，w表示全神经网络的权值，b₁、b₂表示偏置量；

根据所述消息传递函数，获取节点v在t+1次交换的消息，并进行传递：

其中，表示节点v第t+1次交换的消息，N(v)表示节点的总数。

4.根据权利要求1所述的基于知识及深度强化学习的电力通信网路由优化方法，其特征在于，所述消息传递神经网络传递消息的具体步骤还包括：

通过更新函数，基于先前的隐藏状态和聚合消息来计算每个节点的新隐藏状态/>重复上述过程，不断迭代，直至达到预设迭代次数。

5.根据权利要求1所述的基于知识及深度强化学习的电力通信网路由优化方法，其特征在于，所述负载均衡因子具体为链路利用率的标准差LU_SD，所述链路利用率的标准差LU_SD的计算方式为：

6.根据权利要求5所述的基于知识及深度强化学习的电力通信网路由优化方法，其特征在于，所述链路利用率的平均值LU_AVG的计算方式为：

7.根据权利要求1所述的基于知识及深度强化学习的电力通信网路由优化方法，其特征在于，所述损失函数具体为：

8.根据权利要求7所述的基于知识及深度强化学习的电力通信网路由优化方法，其特征在于，所述S108具体为：

通过以下公式，对所述深度强化学习模型的模型参数进行更新：

其中，C表示价值函数，表示梯度，ξ表示学习率。

9.根据权利要求1所述的基于知识及深度强化学习的电力通信网路由优化方法，其特征在于，在所述S101之后，还包括：

根据电力通信网拓扑中的链路特征，定义所述深度强化学习模型的网络状态，并生产状态空间，其中，所述状态空间包括初始链路特征和流量需求信息。

10.根据权利要求1所述的基于知识及深度强化学习的电力通信网路由优化方法，其特征在于，还包括：

生成动作矩阵，其中，所述动作矩阵用于存储所述最优选择。