CN114222207B - 一种基于深度强化学习的电力通信网络规划方法及系统 - Google Patents
一种基于深度强化学习的电力通信网络规划方法及系统 Download PDFInfo
- Publication number
- CN114222207B CN114222207B CN202111509500.4A CN202111509500A CN114222207B CN 114222207 B CN114222207 B CN 114222207B CN 202111509500 A CN202111509500 A CN 202111509500A CN 114222207 B CN114222207 B CN 114222207B
- Authority
- CN
- China
- Prior art keywords
- network
- communication
- core
- power equipment
- link
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/12—Shortest path evaluation
- H04L45/121—Shortest path evaluation by minimising delays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/12—Shortest path evaluation
- H04L45/124—Shortest path evaluation using a combination of metrics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
- H04Q2011/0086—Network resource allocation, dimensioning or optimisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于深度强化学习的电力通信网络规划方法及系统,该方法包括:S1:构建通信节点间、通信节点与电力设备间的两层关联网络模型,并标记电力设备的重要程度;S2:根据电力设备的重要程度,查找所有核心电力设备,找出所有核心电力设备间的所有联通通路,组成核心通信子网络;S3:采用基于Double DQN深度强化学习方法对核心通信子网络识别出所有核心电力设备间的最优通信网络链路,并统计在核心通信子网络中每条链路的权重;S4:采用基于Double DQN深度强化学习方法对整个网络的链路进行规划,得到最优的通信链路。本发明保证不同业务在满足业务最低要求的情况下选择最优的光路进行传输。
Description
技术领域
本发明涉及电力通信网络规划技术领域,具体涉及一种基于深度强化学习的电力通信网络规划方法及系统。
背景技术
作为电网信息通信“高速公路”的光传输网,主要承担电网生产经营、电力调度和客户服务等各类业务的信息承载。随着能源互联网、智能电网和电网信息化的快速发展,电力通信网承载的业务量越来越大,而且业务种类更加丰富,业务质量需求也更加多样化,因此这些变化都对光传输网规划提出了更高的要求。
电力系统中光网承载的业务多种多样,包括电力保护、电力应急、电力监控、电力调度、电网生产经营以及客户服务等不同业务,由于不同业务的重要程度表现出对光网的时延、可靠性、吞吐量要求各不相同,比如电力保护、电力应急等系统光网的通信要求很高,需要保证高可靠性和低延时性,保证重要的信号能够快速可靠传递。
目前针对电力系统中的全网海量光路优化的研究中,没有区分不同业务以及电力设备信号的重要程度来优化光路选择,可能导致部分核心链路的信号传输发送延迟和丢失,导致电力系统故障,造成损失。
发明内容
本发明所要解决的技术问题是现有的电力通信网络规划方法中存在没有区分不同业务以及电力设备信号的重要程度来优化光路选择问题,可能导致部分核心链路的信号传输发送延迟和丢失,导致电力系统故障,造成损失。
因此,本发明考虑到不同业务以及电力设备的信号重要程度来进行光路优化选择显得尤为重要,以保证不同业务在满足业务最低要求的情况下选择最优的光路进行传输。本发明目的在于提供一种基于深度强化学习的电力通信网络规划方法及系统,根据电力网络中设备的重要程度,识别出这些核心设备经过的最优光网络链路,将这些链路标记为核心链路,赋予与普通链路不一样的权重,该核心链路需保证负载率比较低,才能保障核心信号的及时发送;然后再基于整个通信网络,找出所有设备发送信号的最优通信链路,在保障核心链路的通信质量的同时。保证整体通信网络的低延迟和通信质量,达到全局最优。
本发明通过下述技术方案实现:
第一方面,本发明提供了一种基于深度强化学习的电力通信网络规划方法,该方法包括以下步骤:
S1:根据电力系统的通信网络节点、网络拓扑结构以及网络中的电力设备,构建通信节点间、通信节点与电力设备间的两层关联网络模型,并标记电力设备的重要程度;
S2:基于两层关联网络模型,根据所述电力设备的重要程度,查找所有核心电力设备,找出所有核心电力设备间的所有联通通路,组成核心通信子网络;
S3:采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路,并统计在核心通信子网络中每条链路的权重,权重越大代表通过该链路的核心通信信号越多,在整个全网下的通信网络中,这些权重越大的链路需要保证延迟和负载尽可能小;
S4:对全网下的通信链路规划,融合核心通信子网络中计算出的核心链路权重,并采用基于Double DQN深度强化学习方法对整个网络的链路进行规划,对所有的电力设备信号规划得到最优的通信链路。
利用以上方法,可保证核心电力设备通信链路的低延迟和高可靠性,同时也能保证非核心设备通信链路的正常通信需求,达到全局最优。
进一步地,所述的步骤S1包括以下子步骤:
S11:对电力系统的通信网络节点以及网络拓扑结构,构建网络通信层模型图Gn=(Vn,En),Vn表示网络中通信节点,En表示节点之间的连线,即光纤;
S12:对电力系统中的电力设备(包括普通电力设备和服务器设备),标记所述电力设备是否重要,组成数据W={w1,w2,…,wi},其中wi属于{0,1};电力设备与通信网络层的联系表现为电力设备节点通过短距离链接到通信设备节点上,构建电力设备与通信节点模型图Gp=(Vp,Epn,Vn);Vp为电力设备节点,Epn为电力设备与通信节点的连线,Vn表示网络中通信节点;
S13:根据所述网络通信层模型图Gn和电力设备与通信节点模型图Gp,通过电力设备与通信网络的连接,构建两层关联网络结构(Gn,Gp),其中,第一层是通信节点间的网络结构,第二层是电力设备与通信节点间的网络结构。
进一步地,所述的步骤S2中通过启发式算法寻找得到所有核心电力设备间的所有联通通路,组成核心通信子网络。
进一步地,所述的步骤S3中采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路,采用的目标函数是业务时延和均衡度的加权和,根据α和β的值对业务时延和均衡度的重要度进行加权,并使加权和最小,以达到整体最优;所述目标函数的表达式为:
式中,为核心通信子网络所有电力设备的平均传输时长,Ti为核心通信子网络电力设备i的传输时延,N为核心通信子网络总的电力设备个数,B为核心通信子网络所有链路的均衡度,Ni为核心通信子网络第i条链路上所承载的电力设备个数,m为核心通信子网络链路总个数,α和β为2个常系数;
所述目标函数的约束为:
Ti<Tmax
Ni<Nmax
其中,Ti<Tmax,Ni<Nmax分别表示核心通信子网络时延最大约束和任意链路承载的电力设备数最大约束;Tmax为核心通信子网络所允许的最大时延,Nmax为核心通信子网络所允许的链路承载的最多电力设备个数。
进一步地,所述的步骤S3中统计在核心通信子网络中每条链路的权重,包括:
基于核心设备优化的最优通信网络链路,计算每条链路所承载的核心电力设备数量;
根据每条链路所承载的核心设备数量,统计在核心通信子网络中每条链路的权重Lw=每条链路所承载的核心电力设备数量;
对于电力系统的整个通信网络中,对应链路的权重也为Lw,其他链路的权重Lw=1。
进一步地,所述的步骤S4中融合核心通信子网络中计算出的核心链路权重,并采用基于Double DQN深度强化学习方法对整个网络的链路进行规划,采用的目标函数的表达式为:
式中,为整个网络所有电力设备的平均传输时长,T1 i为整个网络电力设备i的传输时延,N1为整个网络总的电力设备个数,B1为整个网络所有链路的均衡度,N1 i为整个网络第i条链路上所承载的电力设备个数,m1为整个网络链路总个数,α和β为2个常系数;Lw为核心通信子网络中每条链路的权重;
所述目标函数的约束为:
T1 i<T1max
N1 i<N1max
其中,T1 i<T1max,N1 i<Lmax分别表示整个网络时延最大约束和任意链路承载的电力设备数最大约束;Tmax为整个网络所允许的最大时延,Nmax为整个网络所允许的链路承载的最多电力设备个数。
进一步地,所述基于Double DQN深度强化学习方法在模型训练时使用的奖励函数r为:
整个目标函数越小,奖励越大;这里对Q取倒数作为立即奖励:对于不满足约束条件式的,将其立即奖励定义为0。
第二方面,本发明又提供了一种基于深度强化学习的电力通信网络规划系统,该系统支持所述的一种基于深度强化学习的电力通信网络规划方法,该系统包括:
两层关联网络模型构建单元,用于根据电力系统的通信网络节点、网络拓扑结构以及网络中的电力设备,构建通信节点间、通信节点与电力设备间的两层关联网络模型,并标记电力设备的重要程度;
核心通信子网络组建单元,用于基于两层关联网络模型,根据所述电力设备的重要程度,查找所有核心电力设备,找出所有核心电力设备间的所有联通通路,组成核心通信子网络;
核心子网链路权重计算单元,用于采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路,并统计在核心通信子网络中每条链路的权重,权重越大代表通过该链路的核心通信信号越多,在整个全网下的通信网络中,这些权重越大的链路需要保证延迟和负载尽可能小;
全网最优通信链路规划单元,用于对全网下的通信链路规划,融合核心通信子网络中计算出的核心链路权重,并采用基于Double DQN深度强化学习方法对整个网络的链路进行规划,对所有的电力设备信号规划得到最优的通信链路。
进一步地,所述两层关联网络模型构建单元的执行过程为:
对电力系统的通信网络节点以及网络拓扑结构,构建网络通信层模型图Gn=(Vn,En),Vn表示网络中通信节点,En表示节点之间的连线,即光纤;
对电力系统中的电力设备(包括普通电力设备和服务器设备),标记所述电力设备是否重要,组成数据W={w1,w2,…,wi},其中wi属于{0,1};电力设备与通信网络层的联系表现为电力设备节点通过短距离链接到通信设备节点上,构建电力设备与通信节点模型图Gp=(Vp,Epn,Vn);Vp为电力设备节点,Epn为电力设备与通信节点的连线,Vn表示网络中通信节点;
根据所述网络通信层模型图Gn和电力设备与通信节点模型图Gp,通过电力设备与通信网络的连接,构建两层关联网络结构(Gn,Gp),其中,第一层是通信节点间的网络结构,第二层是电力设备与通信节点间的网络结构。
进一步地,所述核心子网链路权重计算单元中统计在核心通信子网络中每条链路的权重,包括:
基于核心设备优化的最优通信网络链路,计算每条链路所承载的核心电力设备数量;
根据每条链路所承载的核心设备数量,统计在核心通信子网络中每条链路的权重Lw=每条链路所承载的核心电力设备数量;
对于电力系统的整个通信网络中,对应链路的权重也为Lw,其他链路的权重Lw=1。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明一种基于深度强化学习的电力通信网络规划方法及系统,考虑到不同业务以及电力设备的信号重要程度来进行光路优化选择显得尤为重要,以保证不同业务在满足业务最低要求的情况下选择最优的光路进行传输。本发明根据电力网络中设备的重要程度,识别出这些核心设备经过的最优光网络链路,将这些链路标记为核心链路,赋予与普通链路不一样的权重,该核心链路需保证负载率比较低,才能保障核心信号的及时发送;然后再基于整个通信网络,找出所有设备发送信号的最优通信链路,在保障核心链路的通信质量的同时。利用以上本发明方法及系统,可保证核心电力设备通信链路的低延迟和高可靠性,同时也能保证非核心设备通信链路的正常通信需求,达到全局最优。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一种基于深度强化学习的电力通信网络规划方法流程图。
图2为本发明种基于深度强化学习的电力通信网络规划系统结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1所示,本发明一种基于深度强化学习的电力通信网络规划方法,该方法包括以下步骤:
S1:根据电力系统的通信网络节点、网络拓扑结构以及网络中的电力设备,构建通信节点间、通信节点与电力设备间的两层关联网络模型,并标记电力设备的重要程度;
S2:基于两层关联网络模型,根据所述电力设备的重要程度,查找所有核心电力设备,找出所有核心电力设备间的所有联通通路,组成核心通信子网络;
S3:采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路,并统计在核心通信子网络中每条链路的权重,权重越大代表通过该链路的核心通信信号越多,在整个全网下的通信网络中,这些权重越大的链路需要保证延迟和负载尽可能小;
S4:对全网下的通信链路规划,融合核心通信子网络中计算出的核心链路权重,并采用基于Double DQN深度强化学习方法对整个网络的链路进行规划,对所有的电力设备信号规划得到最优的通信链路。
工作原理是:基于现有的电力通信网络规划方法中存在没有区分不同业务以及电力设备信号的重要程度来优化光路选择问题,可能导致部分核心链路的信号传输发送延迟和丢失,导致电力系统故障,造成损失。
因此,本发明考虑到不同业务以及电力设备的信号重要程度来进行光路优化选择显得尤为重要,以保证不同业务在满足业务最低要求的情况下选择最优的光路进行传输。本发明目的在于提供一种基于深度强化学习的电力通信网络规划方法及系统,根据电力网络中设备的重要程度,识别出这些核心设备经过的最优光网络链路,将这些链路标记为核心链路,赋予与普通链路不一样的权重,该核心链路需保证负载率比较低,才能保障核心信号的及时发送;然后再基于整个通信网络,找出所有设备发送信号的最优通信链路,在保障核心链路的通信质量的同时。保证整体通信网络的低延迟和通信质量,达到全局最优。
利用以上本发明方法,可保证核心电力设备通信链路的低延迟和高可靠性,同时也能保证非核心设备通信链路的正常通信需求,达到全局最优。
实施例2
如图1所示,本实施例与实施例1的区别在于,一种基于深度强化学习的电力通信网络规划方法具体实施如下:
S1:根据电力系统的通信网络节点、网络拓扑结构以及网络中的电力设备,构建通信节点间、通信节点与电力设备间的两层关联网络模型,并标记电力设备的重要程度;步骤S1包括以下子步骤:
S11:对电力系统的通信网络节点以及网络拓扑结构,构建网络通信层模型图Gn=(Vn,En),Vn表示网络中通信节点,En表示节点之间的连线,即光纤;
S12:对电力系统中的电力设备(包括普通电力设备和服务器设备),标记所述电力设备是否重要,组成数据W={w1,w2,…,wi},其中wi属于{0,1};电力设备与通信网络层的联系表现为电力设备节点通过短距离链接到通信设备节点上,构建电力设备与通信节点模型图Gp=(Vp,Epn,Vn);Vp为电力设备节点,Epn为电力设备与通信节点的连线,Vn表示网络中通信节点;
S13:根据所述网络通信层模型图Gn和电力设备与通信节点模型图Gp,通过电力设备与通信网络的连接,构建两层关联网络结构(Gn,Gp),其中,第一层是通信节点间的网络结构,第二层是电力设备与通信节点间的网络结构。
S2:基于两层关联网络模型,根据所述电力设备的重要程度,查找所有核心电力设备,采用启发式算法找出所有核心电力设备间的所有联通通路,组成核心通信子网络结构图Gsub=(V,E)。
S3:采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路,并统计在核心通信子网络中每条链路的权重,权重越大代表通过该链路的核心通信信号越多,在整个全网下的通信网络中,这些权重越大的链路需要保证延迟和负载尽可能小;
具体地,随着业务的发展,电力系统中的通信网络越来越庞大,导致通信链路优化问题的状态空间非常大,采用全局遍历的方法来求解是不可取的,而深度强化学习算法只对部分状态数据进行训练,便可得到较为理想的结果,因此对于该问题采用深度强化学习算法可以很好地逼近最优解,大幅提高计算效率。为了求此最优解,采用深度强化学习的方法,对模型进行优化求解,但是由于DQN在Q值的计算中,往往存在Q值过大的问题,即网络输出的Q值高于真实的Q值。为有效解决过估计问题,对DQN的优化目标进行优化改进,采用两个Q网络,利用估计网络输出s状态下的Q值计算出对应Q值最高的动作a,再利用目标网络输出Q值计算优化目标并进行网络训练。Double DQN利用估计网络进行动作选择,目标网络进行策略评估,将动作选择和策略评估进行了分离,有效解决了DQN中存在的过估计问题。因此本发明采用基于Double DQN深度强化学习方法对核心通信子网络进行训练,规划所有核心电力设备的最优通信网络链路。
具体地,在核心通信子网络结构中,考虑通信时长和全网数据均衡度的影响,以各设备数据的传输延时和全网数据负载均衡度的加权和最小化为优化策略的目标函数。为了使核心通信网络数据能够均匀的分布在网络上,每条链路均匀的承载数据。采用的目标函数表达式为:
式中,为核心通信子网络所有电力设备的平均传输时长,Ti为核心通信子网络电力设备i的传输时延,N为核心通信子网络总的电力设备个数,B为核心通信子网络所有链路的均衡度,Ni为核心通信子网络第i条链路上所承载的电力设备个数,m为核心通信子网络链路总个数,α和β为2个常系数;
所述目标函数的约束为:
Ti<Tmax
Ni<Nmax
其中,Ti<Tmax,Ni<Nmax分别表示核心通信子网络时延最大约束和任意链路承载的电力设备数最大约束;Tmax为核心通信子网络所允许的最大时延,Nmax为核心通信子网络所允许的链路承载的最多电力设备个数。
具体地,统计在核心通信子网络中每条链路的权重,包括:
基于核心设备优化的最优通信网络链路,计算每条链路所承载的核心电力设备数量;
根据每条链路所承载的核心设备数量,统计在核心通信子网络中每条链路的权重Lw=每条链路所承载的核心电力设备数量;
对于电力系统的整个通信网络中,对应链路的权重也为Lw,其他链路的权重Lw=1。
S4:对全网下的通信链路规划,融合核心通信子网络中计算出的核心链路权重,并采用基于Double DQN深度强化学习方法对整个网络的链路进行规划,对所有的电力设备信号规划得到最优的通信链路。
具体地,针对整个通信网络,为保障核心链路的通信质量,需保证该条链路的负载相对较低,才能保证通信由于负载高导致阻塞。因此,针对整个网络中的优化目标函数Q,针对核心链路的负载B需要加上前一步训练的链路权重,以降低核心链路的负载。
步骤S4采用基于Double DQN深度强化学习方法对整个网络的链路进行规划,采用的目标函数的表达式为:
式中,为整个网络所有电力设备的平均传输时长,T1 i为整个网络电力设备i的传输时延,N1为整个网络总的电力设备个数,B1为整个网络所有链路的均衡度,N1 i为整个网络第i条链路上所承载的电力设备个数,m1为整个网络链路总个数,α和β为2个常系数;Lw为核心通信子网络中每条链路的权重;
所述目标函数的约束为:
T1 i<T1max
N1 i<N1max
其中,T1 i<T1max,N1 i<Lmax分别表示整个网络时延最大约束和任意链路承载的电力设备数最大约束;Tmax为整个网络所允许的最大时延,Nmax为整个网络所允许的链路承载的最多电力设备个数。
具体地,针对电力系统中的整个通信网络,再次采用基于Double DQN深度强化学习方法对整个通信网络进行训练,规划所有电力设备的最优通信链路。其中奖励函数r为:
而对于步骤S3中采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路,其对核心通信子网络进行训练时的奖励函数与整个通信网络的建立函数类似。
具体地,基于Double DQN深度强化学习方法的算法步骤如下:
步骤1、初始化全网的状态S,初始化内存池,并设置一个观察值,即变化的最大步数;
步骤2、在当前状态S的基础上,选择动作A,获取相应的奖励值R,动作结束后的状态S′,并将相关参数S,A,R,S′保存到记忆池中;
步骤3、判断记忆池中存储的数据量是否超过观察值,如果不够,转到步骤4,如果数据足够,转到步骤5;
步骤4、判断是否达到之前设置最大查找步数;
①若达到最大查找步数,给S随机重置一个状态;
②若查找未达到最大步数,将当前状态S更新为S′;
返回步骤2;
步骤5、开始训练;
①从内存池中随机选取一部分数据作为训练样本;
②将随机抽样的状态S′作为训练样本,利用估值网络评估Q最大化采取的动作A;
③根据工作A利用目标网络计算Q值
步骤6、使用估值网络与目标网络值来训练神经网络;
步骤7、结束。
实施例3
如图2所示,本实施例与实施例1的区别在于,本实施例提供了一种基于深度强化学习的电力通信网络规划系统,该系统支持实施例1所述的一种基于深度强化学习的电力通信网络规划方法,该系统包括:
两层关联网络模型构建单元,用于根据电力系统的通信网络节点、网络拓扑结构以及网络中的电力设备,构建通信节点间、通信节点与电力设备间的两层关联网络模型,并标记电力设备的重要程度;
核心通信子网络组建单元,用于基于两层关联网络模型,根据所述电力设备的重要程度,查找所有核心电力设备,找出所有核心电力设备间的所有联通通路,组成核心通信子网络;
核心子网链路权重计算单元,用于采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路,并统计在核心通信子网络中每条链路的权重,权重越大代表通过该链路的核心通信信号越多,在整个全网下的通信网络中,这些权重越大的链路需要保证延迟和负载尽可能小;
全网最优通信链路规划单元,用于对全网下的通信链路规划,融合核心通信子网络中计算出的核心链路权重,并采用基于Double DQN深度强化学习方法对整个网络的链路进行规划,对所有的电力设备信号规划得到最优的通信链路。
各个单元的执行过程按照实施例1所述的一种基于深度强化学习的电力通信网络规划方法流程步骤执行即可,此实施例中不再一一赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于深度强化学习的电力通信网络规划方法,其特征在于,该方法包括以下步骤:
S1:根据电力系统的通信网络节点、网络拓扑结构以及网络中的电力设备,构建通信节点间、通信节点与电力设备间的两层关联网络模型,并标记电力设备的重要程度;
S2:基于两层关联网络模型,根据所述电力设备的重要程度,查找所有核心电力设备,找出所有核心电力设备间的所有联通通路,组成核心通信子网络;
S3:采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路,并统计在核心通信子网络中每条链路的权重;
S4:融合核心通信子网络中计算出的核心链路权重,并采用基于Double DQN深度强化学习方法对整个网络的链路进行规划,对所有的电力设备信号规划得到最优的通信链路;
所述的步骤S1包括以下子步骤:
S11:对电力系统的通信网络节点以及网络拓扑结构,构建网络通信层模型图Gn=(Vn,En),Vn表示网络中通信节点,En表示节点之间的连线;
S12:对电力系统中的电力设备,标记所述电力设备是否重要,组成数据W={w1,w2,…,wi},其中wi属于{0,1};构建电力设备与通信节点模型图Gp=(Vp,Epn,Vn);Vp为电力设备节点,Epn为电力设备与通信节点的连线,Vn表示网络中通信节点;
S13:根据所述网络通信层模型图Gn和电力设备与通信节点模型图Gp,通过电力设备与通信网络的连接,构建两层关联网络结构(Gn,Gp),其中,第一层是通信节点间的网络结构,第二层是电力设备与通信节点间的网络结构;
所述的步骤S3中采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路,采用的目标函数表达式为:
式中,为核心通信子网络所有电力设备的平均传输时长,Ti为核心通信子网络电力设备i的传输时延,N为核心通信子网络总的电力设备个数,B为核心通信子网络所有链路的均衡度,Ni为核心通信子网络第i条链路上所承载的电力设备个数,m为核心通信子网络链路总个数,α和β为2个常系数;
所述目标函数的约束为:
Ti<Tmax
Ni<Nmax
其中,Ti<Tmax,Ni<Nmax分别表示核心通信子网络时延最大约束和任意链路承载的电力设备数最大约束;Tmax为核心通信子网络所允许的最大时延,Nmax为核心通信子网络所允许的链路承载的最多电力设备个数。
2.根据权利要求1所述的一种基于深度强化学习的电力通信网络规划方法,其特征在于,所述的步骤S2中通过启发式算法寻找得到所有核心电力设备间的所有联通通路,组成核心通信子网络。
3.根据权利要求1所述的一种基于深度强化学习的电力通信网络规划方法,其特征在于,所述的步骤S3中统计在核心通信子网络中每条链路的权重,包括:
基于核心设备优化的最优通信网络链路,计算每条链路所承载的核心电力设备数量;
根据每条链路所承载的核心设备数量,统计在核心通信子网络中每条链路的权重Lw=每条链路所承载的核心电力设备数量;
对于电力系统的整个通信网络中,对应链路的权重为Lw,其他链路的权重Lw=1。
4.根据权利要求1所述的一种基于深度强化学习的电力通信网络规划方法,其特征在于,所述的步骤S4中融合核心通信子网络中计算出的核心链路权重,并采用基于DoubleDQN深度强化学习方法对整个网络的链路进行规划,采用的目标函数的表达式为:
式中,为整个网络所有电力设备的平均传输时长,T1i为整个网络电力设备i的传输时延,N1为整个网络总的电力设备个数,B1为整个网络所有链路的均衡度,N1 i为整个网络第i条链路上所承载的电力设备个数,m1为整个网络链路总个数,α和β为2个常系数;Lw为核心通信子网络中每条链路的权重;
所述目标函数的约束为:
T1i<T1max
N1 i<N1max
其中,T1i<T1max,N1 i<Lmax分别表示整个网络时延最大约束和任意链路承载的电力设备数最大约束;Tmax为整个网络所允许的最大时延,Nmax为整个网络所允许的链路承载的最多电力设备个数。
6.一种基于深度强化学习的电力通信网络规划系统,其特征在于,该系统支持如权利要求1至5中任一所述的一种基于深度强化学习的电力通信网络规划方法,该系统包括:
两层关联网络模型构建单元,用于根据电力系统的通信网络节点、网络拓扑结构以及网络中的电力设备,构建通信节点间、通信节点与电力设备间的两层关联网络模型,并标记电力设备的重要程度;
核心通信子网络组建单元,用于基于两层关联网络模型,根据所述电力设备的重要程度,查找所有核心电力设备,找出所有核心电力设备间的所有联通通路,组成核心通信子网络;
核心子网链路权重计算单元,用于采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路,并统计在核心通信子网络中每条链路的权重;
全网最优通信链路规划单元,用于融合核心通信子网络中计算出的核心链路权重,并采用基于Double DQN深度强化学习方法对整个网络的链路进行规划,对所有的电力设备信号规划得到最优的通信链路;
所述两层关联网络模型构建单元的执行过程为:
对电力系统的通信网络节点以及网络拓扑结构,构建网络通信层模型图Gn=(Vn,En),Vn表示网络中通信节点,En表示节点之间的连线;
对电力系统中的电力设备,标记所述电力设备是否重要,组成数据W={w1,w2,…,wi},其中wi属于{0,1};构建电力设备与通信节点模型图Gp=(Vp,Epn,Vn);Vp为电力设备节点,Epn为电力设备与通信节点的连线,Vn表示网络中通信节点;
根据所述网络通信层模型图Gn和电力设备与通信节点模型图Gp,通过电力设备与通信网络的连接,构建两层关联网络结构(Gn,Gp),其中,第一层是通信节点间的网络结构,第二层是电力设备与通信节点间的网络结构;
所述的采用基于Double DQN深度强化学习方法对所述核心通信子网络识别出所有核心电力设备间的最优通信网络链路,采用的目标函数表达式为:
式中,为核心通信子网络所有电力设备的平均传输时长,Ti为核心通信子网络电力设备i的传输时延,N为核心通信子网络总的电力设备个数,B为核心通信子网络所有链路的均衡度,Ni为核心通信子网络第i条链路上所承载的电力设备个数,m为核心通信子网络链路总个数,α和β为2个常系数;
所述目标函数的约束为:
Ti<Tmax
Ni<Nmax
其中,Ti<Tmax,Ni<Nmax分别表示核心通信子网络时延最大约束和任意链路承载的电力设备数最大约束;Tmax为核心通信子网络所允许的最大时延,Nmax为核心通信子网络所允许的链路承载的最多电力设备个数。
7.根据权利要求6所述的一种基于深度强化学习的电力通信网络规划系统,其特征在于,所述核心子网链路权重计算单元中统计在核心通信子网络中每条链路的权重,包括:
基于核心设备优化的最优通信网络链路,计算每条链路所承载的核心电力设备数量;
根据每条链路所承载的核心设备数量,统计在核心通信子网络中每条链路的权重Lw=每条链路所承载的核心电力设备数量;
对于电力系统的整个通信网络中,对应链路的权重为Lw,其他链路的权重Lw=1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111509500.4A CN114222207B (zh) | 2021-12-10 | 2021-12-10 | 一种基于深度强化学习的电力通信网络规划方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111509500.4A CN114222207B (zh) | 2021-12-10 | 2021-12-10 | 一种基于深度强化学习的电力通信网络规划方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114222207A CN114222207A (zh) | 2022-03-22 |
CN114222207B true CN114222207B (zh) | 2023-07-14 |
Family
ID=80700928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111509500.4A Active CN114222207B (zh) | 2021-12-10 | 2021-12-10 | 一种基于深度强化学习的电力通信网络规划方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114222207B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110417664A (zh) * | 2019-07-31 | 2019-11-05 | 国家电网有限公司信息通信分公司 | 基于电力通信网的业务路由分配方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111010294B (zh) * | 2019-11-28 | 2022-07-12 | 国网甘肃省电力公司电力科学研究院 | 一种基于深度强化学习的电力通信网路由方法 |
CN111564849B (zh) * | 2020-05-15 | 2021-11-02 | 清华大学 | 基于两阶段深度强化学习的电网无功电压控制方法 |
CN112507622B (zh) * | 2020-12-16 | 2022-06-21 | 中国人民解放军国防科技大学 | 一种基于强化学习的反无人机任务分配方法 |
-
2021
- 2021-12-10 CN CN202111509500.4A patent/CN114222207B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110417664A (zh) * | 2019-07-31 | 2019-11-05 | 国家电网有限公司信息通信分公司 | 基于电力通信网的业务路由分配方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114222207A (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108924198A (zh) | 一种基于边缘计算的数据调度方法、装置及系统 | |
CN107229518A (zh) | 一种分布式集群训练方法和装置 | |
CN111191918A (zh) | 一种智能电网通信网的业务路由规划方法及装置 | |
Luo et al. | Local Search with Efficient Automatic Configuration for Minimum Vertex Cover. | |
US20120106379A1 (en) | Network monitoring apparatus for managing communication quality and a method therefor | |
CN110162445A (zh) | 基于主机日志及性能指标的主机健康评价方法及装置 | |
US20100114621A1 (en) | System And Methods For Modeling Consequences Of Events | |
CN111385106B (zh) | 一种用于故障根因的识别方法、装置和设备 | |
CN116361377B (zh) | 基于工业物联网服务平台的负载预测系统、方法及介质 | |
CN110297712A (zh) | 一种面向区块链节点负载预测的arima组合预测方法 | |
WO2020147450A1 (zh) | 基于计算图进化的ai模型自动生成的方法 | |
CN106817256A (zh) | 一种分布式系统网络资源运维管理可靠性提升方法 | |
CN105471647A (zh) | 一种电力通信网故障定位方法 | |
CN114584406A (zh) | 一种联邦学习的工业大数据隐私保护系统及方法 | |
CN114222207B (zh) | 一种基于深度强化学习的电力通信网络规划方法及系统 | |
CN107315671A (zh) | 应用状态监控方法、装置及其设备 | |
CN117336228A (zh) | 一种基于机器学习的igp仿真推荐方法、装置及介质 | |
CN116187738B (zh) | 一种基于执行顺序和位置分布的工作包自动生成方法 | |
CN101986608A (zh) | 一种异构覆盖网络负载均衡程度的评价方法 | |
CN111864728B (zh) | 一种可重构配电网重要设备识别方法和系统 | |
CN107743077B (zh) | 一种评估信息-物理融合系统网络性能的方法及装置 | |
CN114205214B (zh) | 一种电力通信网络故障识别方法、装置、设备及存储介质 | |
CN113962470B (zh) | 一种基于扰动预测的优化排产方法和系统 | |
CN116225752A (zh) | 基于故障模式库的微服务系统故障根因分析方法及系统 | |
Chatzidimitriou et al. | Enhancing agent intelligence through evolving reservoir networks for predictions in power stock markets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |