CN114222207B

CN114222207B - 一种基于深度强化学习的电力通信网络规划方法及系统

Info

Publication number: CN114222207B
Application number: CN202111509500.4A
Authority: CN
Inventors: 张雄威; 毛为民; 衷宇清; 崔兆阳; 凌健文; 张思敏; 周菲; 吴若迪; 周上; 罗慕尧; 徐武华; 蒋盛智; 师留阳; 骆雅菲; 刘晨辉; 孔嘉麟; 陈文文; 冯雅雯; 王婉怡; 曾泽棉
Original assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2023-07-14
Anticipated expiration: 2041-12-10
Also published as: CN114222207A

Abstract

本发明公开了一种基于深度强化学习的电力通信网络规划方法及系统，该方法包括：S1：构建通信节点间、通信节点与电力设备间的两层关联网络模型，并标记电力设备的重要程度；S2：根据电力设备的重要程度，查找所有核心电力设备，找出所有核心电力设备间的所有联通通路，组成核心通信子网络；S3：采用基于Double DQN深度强化学习方法对核心通信子网络识别出所有核心电力设备间的最优通信网络链路，并统计在核心通信子网络中每条链路的权重；S4：采用基于Double DQN深度强化学习方法对整个网络的链路进行规划，得到最优的通信链路。本发明保证不同业务在满足业务最低要求的情况下选择最优的光路进行传输。

Description

一种基于深度强化学习的电力通信网络规划方法及系统

技术领域

本发明涉及电力通信网络规划技术领域，具体涉及一种基于深度强化学习的电力通信网络规划方法及系统。

背景技术

作为电网信息通信“高速公路”的光传输网，主要承担电网生产经营、电力调度和客户服务等各类业务的信息承载。随着能源互联网、智能电网和电网信息化的快速发展，电力通信网承载的业务量越来越大，而且业务种类更加丰富，业务质量需求也更加多样化，因此这些变化都对光传输网规划提出了更高的要求。

电力系统中光网承载的业务多种多样，包括电力保护、电力应急、电力监控、电力调度、电网生产经营以及客户服务等不同业务，由于不同业务的重要程度表现出对光网的时延、可靠性、吞吐量要求各不相同，比如电力保护、电力应急等系统光网的通信要求很高，需要保证高可靠性和低延时性，保证重要的信号能够快速可靠传递。

目前针对电力系统中的全网海量光路优化的研究中，没有区分不同业务以及电力设备信号的重要程度来优化光路选择，可能导致部分核心链路的信号传输发送延迟和丢失，导致电力系统故障，造成损失。

发明内容

本发明所要解决的技术问题是现有的电力通信网络规划方法中存在没有区分不同业务以及电力设备信号的重要程度来优化光路选择问题，可能导致部分核心链路的信号传输发送延迟和丢失，导致电力系统故障，造成损失。

因此，本发明考虑到不同业务以及电力设备的信号重要程度来进行光路优化选择显得尤为重要，以保证不同业务在满足业务最低要求的情况下选择最优的光路进行传输。本发明目的在于提供一种基于深度强化学习的电力通信网络规划方法及系统，根据电力网络中设备的重要程度，识别出这些核心设备经过的最优光网络链路，将这些链路标记为核心链路，赋予与普通链路不一样的权重，该核心链路需保证负载率比较低，才能保障核心信号的及时发送；然后再基于整个通信网络，找出所有设备发送信号的最优通信链路，在保障核心链路的通信质量的同时。保证整体通信网络的低延迟和通信质量，达到全局最优。

本发明通过下述技术方案实现：

第一方面，本发明提供了一种基于深度强化学习的电力通信网络规划方法，该方法包括以下步骤：

S1：根据电力系统的通信网络节点、网络拓扑结构以及网络中的电力设备，构建通信节点间、通信节点与电力设备间的两层关联网络模型，并标记电力设备的重要程度；

S2：基于两层关联网络模型，根据所述电力设备的重要程度，查找所有核心电力设备，找出所有核心电力设备间的所有联通通路，组成核心通信子网络；

S3：采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路，并统计在核心通信子网络中每条链路的权重，权重越大代表通过该链路的核心通信信号越多，在整个全网下的通信网络中，这些权重越大的链路需要保证延迟和负载尽可能小；

S4：对全网下的通信链路规划，融合核心通信子网络中计算出的核心链路权重，并采用基于Double DQN深度强化学习方法对整个网络的链路进行规划，对所有的电力设备信号规划得到最优的通信链路。

利用以上方法，可保证核心电力设备通信链路的低延迟和高可靠性，同时也能保证非核心设备通信链路的正常通信需求，达到全局最优。

进一步地，所述的步骤S1包括以下子步骤：

S11：对电力系统的通信网络节点以及网络拓扑结构，构建网络通信层模型图Gn＝(Vn，En)，Vn表示网络中通信节点，En表示节点之间的连线，即光纤；

S12：对电力系统中的电力设备(包括普通电力设备和服务器设备)，标记所述电力设备是否重要，组成数据W＝{w1,w2,…,wi}，其中wi属于{0,1}；电力设备与通信网络层的联系表现为电力设备节点通过短距离链接到通信设备节点上，构建电力设备与通信节点模型图Gp＝(Vp,Epn,Vn)；Vp为电力设备节点，Epn为电力设备与通信节点的连线，Vn表示网络中通信节点；

S13：根据所述网络通信层模型图Gn和电力设备与通信节点模型图Gp，通过电力设备与通信网络的连接，构建两层关联网络结构(Gn,Gp)，其中，第一层是通信节点间的网络结构，第二层是电力设备与通信节点间的网络结构。

进一步地，所述的步骤S2中通过启发式算法寻找得到所有核心电力设备间的所有联通通路，组成核心通信子网络。

进一步地，所述的步骤S3中采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路，采用的目标函数是业务时延和均衡度的加权和，根据α和β的值对业务时延和均衡度的重要度进行加权，并使加权和最小，以达到整体最优；所述目标函数的表达式为：

其中，

式中，

为核心通信子网络所有电力设备的平均传输时长，T_i为核心通信子网络电力设备i的传输时延，N为核心通信子网络总的电力设备个数，B为核心通信子网络所有链路的均衡度，N_i为核心通信子网络第i条链路上所承载的电力设备个数，m为核心通信子网络链路总个数，α和β为2个常系数；

所述目标函数的约束为：

T_i＜Tmax

N_i＜Nmax

其中，T_i＜Tmax，N_i＜Nmax分别表示核心通信子网络时延最大约束和任意链路承载的电力设备数最大约束；Tmax为核心通信子网络所允许的最大时延，Nmax为核心通信子网络所允许的链路承载的最多电力设备个数。

进一步地，所述的步骤S3中统计在核心通信子网络中每条链路的权重，包括：

基于核心设备优化的最优通信网络链路，计算每条链路所承载的核心电力设备数量；

根据每条链路所承载的核心设备数量，统计在核心通信子网络中每条链路的权重L_w＝每条链路所承载的核心电力设备数量；

对于电力系统的整个通信网络中，对应链路的权重也为L_w，其他链路的权重L_w＝1。

进一步地，所述的步骤S4中融合核心通信子网络中计算出的核心链路权重，并采用基于Double DQN深度强化学习方法对整个网络的链路进行规划，采用的目标函数的表达式为：

其中，

式中，

为整个网络所有电力设备的平均传输时长，T¹ _i为整个网络电力设备i的传输时延，N¹为整个网络总的电力设备个数，B¹为整个网络所有链路的均衡度，N¹ _i为整个网络第i条链路上所承载的电力设备个数，m¹为整个网络链路总个数，α和β为2个常系数；L_w为核心通信子网络中每条链路的权重；

所述目标函数的约束为：

T¹ _i＜T¹max

N¹ _i＜N¹max

其中，T¹ _i＜T¹max，N¹ _i＜Lmax分别表示整个网络时延最大约束和任意链路承载的电力设备数最大约束；Tmax为整个网络所允许的最大时延，Nmax为整个网络所允许的链路承载的最多电力设备个数。

进一步地，所述基于Double DQN深度强化学习方法在模型训练时使用的奖励函数r为：

整个目标函数越小，奖励越大；这里对Q取倒数作为立即奖励：对于不满足约束条件式的，将其立即奖励定义为0。

第二方面，本发明又提供了一种基于深度强化学习的电力通信网络规划系统，该系统支持所述的一种基于深度强化学习的电力通信网络规划方法，该系统包括：

两层关联网络模型构建单元，用于根据电力系统的通信网络节点、网络拓扑结构以及网络中的电力设备，构建通信节点间、通信节点与电力设备间的两层关联网络模型，并标记电力设备的重要程度；

核心通信子网络组建单元，用于基于两层关联网络模型，根据所述电力设备的重要程度，查找所有核心电力设备，找出所有核心电力设备间的所有联通通路，组成核心通信子网络；

核心子网链路权重计算单元，用于采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路，并统计在核心通信子网络中每条链路的权重，权重越大代表通过该链路的核心通信信号越多，在整个全网下的通信网络中，这些权重越大的链路需要保证延迟和负载尽可能小；

全网最优通信链路规划单元，用于对全网下的通信链路规划，融合核心通信子网络中计算出的核心链路权重，并采用基于Double DQN深度强化学习方法对整个网络的链路进行规划，对所有的电力设备信号规划得到最优的通信链路。

进一步地，所述两层关联网络模型构建单元的执行过程为：

对电力系统的通信网络节点以及网络拓扑结构，构建网络通信层模型图Gn＝(Vn，En)，Vn表示网络中通信节点，En表示节点之间的连线，即光纤；

对电力系统中的电力设备(包括普通电力设备和服务器设备)，标记所述电力设备是否重要，组成数据W＝{w1,w2,…,wi}，其中wi属于{0,1}；电力设备与通信网络层的联系表现为电力设备节点通过短距离链接到通信设备节点上，构建电力设备与通信节点模型图Gp＝(Vp,Epn,Vn)；Vp为电力设备节点，Epn为电力设备与通信节点的连线，Vn表示网络中通信节点；

根据所述网络通信层模型图Gn和电力设备与通信节点模型图Gp，通过电力设备与通信网络的连接，构建两层关联网络结构(Gn,Gp)，其中，第一层是通信节点间的网络结构，第二层是电力设备与通信节点间的网络结构。

进一步地，所述核心子网链路权重计算单元中统计在核心通信子网络中每条链路的权重，包括：

本发明与现有技术相比，具有如下的优点和有益效果：

本发明一种基于深度强化学习的电力通信网络规划方法及系统，考虑到不同业务以及电力设备的信号重要程度来进行光路优化选择显得尤为重要，以保证不同业务在满足业务最低要求的情况下选择最优的光路进行传输。本发明根据电力网络中设备的重要程度，识别出这些核心设备经过的最优光网络链路，将这些链路标记为核心链路，赋予与普通链路不一样的权重，该核心链路需保证负载率比较低，才能保障核心信号的及时发送；然后再基于整个通信网络，找出所有设备发送信号的最优通信链路，在保障核心链路的通信质量的同时。利用以上本发明方法及系统，可保证核心电力设备通信链路的低延迟和高可靠性，同时也能保证非核心设备通信链路的正常通信需求，达到全局最优。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明一种基于深度强化学习的电力通信网络规划方法流程图。

图2为本发明种基于深度强化学习的电力通信网络规划系统结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

如图1所示，本发明一种基于深度强化学习的电力通信网络规划方法，该方法包括以下步骤：

工作原理是：基于现有的电力通信网络规划方法中存在没有区分不同业务以及电力设备信号的重要程度来优化光路选择问题，可能导致部分核心链路的信号传输发送延迟和丢失，导致电力系统故障，造成损失。

利用以上本发明方法，可保证核心电力设备通信链路的低延迟和高可靠性，同时也能保证非核心设备通信链路的正常通信需求，达到全局最优。

实施例2

如图1所示，本实施例与实施例1的区别在于，一种基于深度强化学习的电力通信网络规划方法具体实施如下：

S1：根据电力系统的通信网络节点、网络拓扑结构以及网络中的电力设备，构建通信节点间、通信节点与电力设备间的两层关联网络模型，并标记电力设备的重要程度；步骤S1包括以下子步骤：

S2：基于两层关联网络模型，根据所述电力设备的重要程度，查找所有核心电力设备，采用启发式算法找出所有核心电力设备间的所有联通通路，组成核心通信子网络结构图Gsub＝(V,E)。

具体地，随着业务的发展，电力系统中的通信网络越来越庞大，导致通信链路优化问题的状态空间非常大，采用全局遍历的方法来求解是不可取的，而深度强化学习算法只对部分状态数据进行训练，便可得到较为理想的结果，因此对于该问题采用深度强化学习算法可以很好地逼近最优解，大幅提高计算效率。为了求此最优解，采用深度强化学习的方法，对模型进行优化求解，但是由于DQN在Q值的计算中，往往存在Q值过大的问题，即网络输出的Q值高于真实的Q值。为有效解决过估计问题，对DQN的优化目标进行优化改进，采用两个Q网络，利用估计网络输出s状态下的Q值计算出对应Q值最高的动作a，再利用目标网络输出Q值计算优化目标并进行网络训练。Double DQN利用估计网络进行动作选择，目标网络进行策略评估，将动作选择和策略评估进行了分离，有效解决了DQN中存在的过估计问题。因此本发明采用基于Double DQN深度强化学习方法对核心通信子网络进行训练，规划所有核心电力设备的最优通信网络链路。

具体地，在核心通信子网络结构中，考虑通信时长和全网数据均衡度的影响，以各设备数据的传输延时和全网数据负载均衡度的加权和最小化为优化策略的目标函数。为了使核心通信网络数据能够均匀的分布在网络上，每条链路均匀的承载数据。采用的目标函数表达式为：

其中，

式中，

所述目标函数的约束为：

T_i＜Tmax

N_i＜Nmax

具体地，统计在核心通信子网络中每条链路的权重，包括：

具体地，针对整个通信网络，为保障核心链路的通信质量，需保证该条链路的负载相对较低，才能保证通信由于负载高导致阻塞。因此，针对整个网络中的优化目标函数Q，针对核心链路的负载B需要加上前一步训练的链路权重，以降低核心链路的负载。

步骤S4采用基于Double DQN深度强化学习方法对整个网络的链路进行规划，采用的目标函数的表达式为：

其中，

式中，

所述目标函数的约束为：

T¹ _i＜T¹max

N¹ _i＜N¹max

具体地，针对电力系统中的整个通信网络，再次采用基于Double DQN深度强化学习方法对整个通信网络进行训练，规划所有电力设备的最优通信链路。其中奖励函数r为：

目标函数是求

的最小值，因此当/>

越小，就给出越大的奖励，即整个目标函数越小，奖励越大；这里对/>

取倒数作为立即奖励：对于不满足约束条件式的，将其立即奖励定义为0。

而对于步骤S3中采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路，其对核心通信子网络进行训练时的奖励函数与整个通信网络的建立函数类似。

具体地，基于Double DQN深度强化学习方法的算法步骤如下：

步骤1、初始化全网的状态S，初始化内存池，并设置一个观察值，即变化的最大步数；

步骤2、在当前状态S的基础上，选择动作A，获取相应的奖励值R，动作结束后的状态S′，并将相关参数S,A,R,S′保存到记忆池中；

步骤3、判断记忆池中存储的数据量是否超过观察值，如果不够，转到步骤4，如果数据足够，转到步骤5；

步骤4、判断是否达到之前设置最大查找步数；

①若达到最大查找步数，给S随机重置一个状态；

②若查找未达到最大步数，将当前状态S更新为S′；

返回步骤2；

步骤5、开始训练；

①从内存池中随机选取一部分数据作为训练样本；

②将随机抽样的状态S′作为训练样本，利用估值网络评估Q最大化采取的动作A；

③根据工作A利用目标网络计算Q值

步骤6、使用估值网络与目标网络值来训练神经网络；

步骤7、结束。

实施例3

如图2所示，本实施例与实施例1的区别在于，本实施例提供了一种基于深度强化学习的电力通信网络规划系统，该系统支持实施例1所述的一种基于深度强化学习的电力通信网络规划方法，该系统包括：

各个单元的执行过程按照实施例1所述的一种基于深度强化学习的电力通信网络规划方法流程步骤执行即可，此实施例中不再一一赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的电力通信网络规划方法，其特征在于，该方法包括以下步骤：

S3：采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路，并统计在核心通信子网络中每条链路的权重；

S4：融合核心通信子网络中计算出的核心链路权重，并采用基于Double DQN深度强化学习方法对整个网络的链路进行规划，对所有的电力设备信号规划得到最优的通信链路；

所述的步骤S1包括以下子步骤：

S11：对电力系统的通信网络节点以及网络拓扑结构，构建网络通信层模型图Gn＝(Vn，En)，Vn表示网络中通信节点，En表示节点之间的连线；

S12：对电力系统中的电力设备，标记所述电力设备是否重要，组成数据W＝{w1,w2,…,wi}，其中wi属于{0,1}；构建电力设备与通信节点模型图Gp＝(Vp,Epn,Vn)；Vp为电力设备节点，Epn为电力设备与通信节点的连线，Vn表示网络中通信节点；

S13：根据所述网络通信层模型图Gn和电力设备与通信节点模型图Gp，通过电力设备与通信网络的连接，构建两层关联网络结构(Gn,Gp)，其中，第一层是通信节点间的网络结构，第二层是电力设备与通信节点间的网络结构；

所述的步骤S3中采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路，采用的目标函数表达式为：

其中，

式中，

所述目标函数的约束为：

T_i＜Tmax

N_i＜Nmax

2.根据权利要求1所述的一种基于深度强化学习的电力通信网络规划方法，其特征在于，所述的步骤S2中通过启发式算法寻找得到所有核心电力设备间的所有联通通路，组成核心通信子网络。

3.根据权利要求1所述的一种基于深度强化学习的电力通信网络规划方法，其特征在于，所述的步骤S3中统计在核心通信子网络中每条链路的权重，包括：

对于电力系统的整个通信网络中，对应链路的权重为L_w，其他链路的权重L_w＝1。

4.根据权利要求1所述的一种基于深度强化学习的电力通信网络规划方法，其特征在于，所述的步骤S4中融合核心通信子网络中计算出的核心链路权重，并采用基于DoubleDQN深度强化学习方法对整个网络的链路进行规划，采用的目标函数的表达式为：

其中，

式中，

为整个网络所有电力设备的平均传输时长，T1_i为整个网络电力设备i的传输时延，N¹为整个网络总的电力设备个数，B¹为整个网络所有链路的均衡度，N¹ _i为整个网络第i条链路上所承载的电力设备个数，m¹为整个网络链路总个数，α和β为2个常系数；L_w为核心通信子网络中每条链路的权重；

所述目标函数的约束为：

T1_i＜T¹max

N¹ _i＜N¹max

其中，T1_i＜T¹max，N¹ _i＜Lmax分别表示整个网络时延最大约束和任意链路承载的电力设备数最大约束；Tmax为整个网络所允许的最大时延，Nmax为整个网络所允许的链路承载的最多电力设备个数。

5.根据权利要求1或4所述的一种基于深度强化学习的电力通信网络规划方法，其特征在于，所述基于Double DQN深度强化学习方法在模型训练时使用的奖励函数r为：

满足约束。

6.一种基于深度强化学习的电力通信网络规划系统，其特征在于，该系统支持如权利要求1至5中任一所述的一种基于深度强化学习的电力通信网络规划方法，该系统包括：

核心子网链路权重计算单元，用于采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路，并统计在核心通信子网络中每条链路的权重；

全网最优通信链路规划单元，用于融合核心通信子网络中计算出的核心链路权重，并采用基于Double DQN深度强化学习方法对整个网络的链路进行规划，对所有的电力设备信号规划得到最优的通信链路；

所述两层关联网络模型构建单元的执行过程为：

对电力系统的通信网络节点以及网络拓扑结构，构建网络通信层模型图Gn＝(Vn，En)，Vn表示网络中通信节点，En表示节点之间的连线；

对电力系统中的电力设备，标记所述电力设备是否重要，组成数据W＝{w1,w2,…,wi}，其中wi属于{0,1}；构建电力设备与通信节点模型图Gp＝(Vp,Epn,Vn)；Vp为电力设备节点，Epn为电力设备与通信节点的连线，Vn表示网络中通信节点；

根据所述网络通信层模型图Gn和电力设备与通信节点模型图Gp，通过电力设备与通信网络的连接，构建两层关联网络结构(Gn,Gp)，其中，第一层是通信节点间的网络结构，第二层是电力设备与通信节点间的网络结构；

所述的采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路，采用的目标函数表达式为：

其中，

式中，

所述目标函数的约束为：

T_i＜Tmax

N_i＜Nmax

7.根据权利要求6所述的一种基于深度强化学习的电力通信网络规划系统，其特征在于，所述核心子网链路权重计算单元中统计在核心通信子网络中每条链路的权重，包括：