CN115239072A - 基于图卷积神经网络与强化学习的负荷转供方法及装置 - Google Patents
基于图卷积神经网络与强化学习的负荷转供方法及装置 Download PDFInfo
- Publication number
- CN115239072A CN115239072A CN202210726136.5A CN202210726136A CN115239072A CN 115239072 A CN115239072 A CN 115239072A CN 202210726136 A CN202210726136 A CN 202210726136A CN 115239072 A CN115239072 A CN 115239072A
- Authority
- CN
- China
- Prior art keywords
- neural network
- action
- power distribution
- distribution network
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 196
- 238000012546 transfer Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000002787 reinforcement Effects 0.000 title claims abstract description 44
- 230000009471 action Effects 0.000 claims abstract description 196
- 238000009826 distribution Methods 0.000 claims abstract description 186
- 230000006870 function Effects 0.000 claims abstract description 103
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 97
- 238000011156 evaluation Methods 0.000 claims abstract description 77
- 239000013598 vector Substances 0.000 claims abstract description 71
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 36
- 230000000875 corresponding effect Effects 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000008859 change Effects 0.000 claims abstract description 8
- 239000010410 layer Substances 0.000 claims description 69
- 230000002776 aggregation Effects 0.000 claims description 16
- 238000004220 aggregation Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 14
- 230000008901 benefit Effects 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 8
- 230000033001 locomotion Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 239000002356 single layer Substances 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 230000000977 initiatory effect Effects 0.000 claims 1
- 238000006116 polymerization reaction Methods 0.000 claims 1
- 238000004088 simulation Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Biophysics (AREA)
- Water Supply & Treatment (AREA)
- Educational Administration (AREA)
- Public Health (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明涉及一种基于图卷积神经网络与强化学习的负荷转供方法及装置,包括:基于图卷积神经网络和深度强化学习Dueling‑DQN算法搭建的第一神经网络和第二神经网络,基于第一神经网络、第二神经网络和经验池构建智能体模型,配电网发生故障,智能体模型将配电网实时运行数据输入到智能体模型,计算出动作评价向量,基于动作评价向量根据动作策略选取相应的动作;动作作用于环境使其状态发生改变,同时奖励函数对该动作进行评价,并反馈给智能体,更新智能体的参数进行学习,通过大量的训练后,智能体实现最佳目标的负荷转供动作。本发明直接通过分析实时运行大数据与网络拓扑数据进行负荷转供决策,可以在短时间内给出更好的负荷转供策略。
Description
技术领域
本发明属于配电网的技术领域,尤其是一种基于图卷积神经网络与强化学习的负荷转 供方法及装置。
背景技术
国民经济的不断发展带来了各行各业对用电需求的大幅增长,但城市电网建设相比于 经济发展相对滞后,因此对配电网供电可靠性的要求越来越高,配电网中可操作开关数量 多,线路发生故障时可选择的负荷转供路径,即开关操作组合数量庞大。目前大多数配电 公司仍主要采用人工经验决策方法,难以兼顾负荷转供决策的快速性与经济性,因此寻求 一种可以在短时间内求解负荷转供决策的方法十分必要。
目前,针对负荷转供提出了多种方法,根据决策求解方式的不同可以分成以下几类: 启发式算法、专家系统法、数学优化法、人工智能算法;
其中,启发式算法依据直观经验制定负荷转供规则,在规则约束之下进行探索求解, 启发式算法的优点在于能够快速求解出一种规则之下可以被接受的可行解,但是启发式算 法对先验知识的依赖性强,求解效果受配电网当下状态影响较大,且无法保证求解方案的 最优性;
其中,专家系统法依据过往运行经验,建立负荷转供知识库,发生故障时通过推理引 擎对先验知识的推导得出最终决策,专家系统法的优点是能够快速获得可行的方案,建立 好的知识库适用性较好,但是建立一个大型且完备的知识库十分困难,难以保证知识库能 够囊括配电网所有故障情形,因此,专家系统法同样不能保证解的最优性;
其中,数学优化法是将配电网负荷转供描述为多目标优化问题,设置目标函数与约束 条件,通过数学规划求解方法得出方案,数学优化法的优点是模型明确,求解逻辑清晰, 可以得到最优解或近似最优解,缺点是随着网络规模的增大、网络结构越来越复杂、网络 中可操作开关数量的剧增,数学优化法的计算代价较高,难以满足负荷转供决策的实时性 要求。
现有技术中还提出的一种基于深度强化学习的配电网负荷转供方法,这种方法采用深 度强化学习的算法,在发生故障时直接通过分析实时运行数据作为输入进行负荷转供决 策,以较快的速度生成负荷转供方案,能够满足配电网负荷转供的实时性要求,但是这种 算法仅将节点电压、支路电流等电气信息作为决策变量,并将所有类型决策变量整合为一 维数据信息,作为一个整体输入神经网络,无法体现实时电气信息在配电网拓扑上的实际 分布,生成的负荷转供方案在经济性与负荷转供率方面有待提高。
综上所述,现有的算法大多在故障发生后进行临时仿真计算分析,很少使用配网运行 实时信息大数据,消耗时间较长;或者采取简化仿真过程的方法以加快计算速度,但很难 兼顾配网运行的安全性与经济性;或者采取人工智能方法利用实时电气信息直接进行在线 决策,但仅利用一维的电气运行信息进行决策,脱离实际电网结构,很难保证负荷转供的 经济性与负荷转供率。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种能够获得配电网实时信息并基于 图卷积神经网络与强化学习进行负荷转供的方法及装置,能够在短时间内给出经济型与快 速性最佳的控制策略,从而实现配网失电负荷的恢复。
本发明解决其技术问题是采取以下技术方案实现的:
一方面,本发明提供了一种基于图卷积神经网络与强化学习的负荷转供方法,具体步 骤如下:
步骤1:基于配电网实时运行数据的参数构建配电网环境,基于图卷积神经网络和深 度强化学习Dueling-DQN算法搭建结构相同的第一神经网络Q和第二神经网络T,基于第一神经网络Q、第二神经网络T和经验池R构建智能体模型,所述配电网环境和智能体模 型的数据参数交互,初始化所述智能体模型的参数;
步骤2:判定配电网是否发生故障,若发生故障,基于配电网环境和智能体模型的数 据参数交互,开始负荷转供;
步骤3:获取配电网实时运行数据的参数作为所述智能体模型的输入数据;
步骤4:利用智能体模型对输入的配电网实时运行数据的参数数据进行读取,通过所 述第一神经网络Q计算出每个动作的评价值;
步骤5:利用所述智能体模型基于计算出每个动作的评价值并选取相应的动作;
步骤6:配电网环境执行所述智能体模型基于计算出每个动作的评价值选取相应的动 作,当完成一次配电网开关动作后,将本次动作的作为样本存储在所述经验池R中;
步骤7:从经验池R中随机采样Nbatch个经验样本计算目标值,基于预设的参数,通过最小化损失函数对第一神经网络中的参数进行更新;
步骤8:每当第一神经网络Q经过Nreplace次更新时,使用第一神经网络Q的参数对第二神经网络T的参数进行更新;
步骤9:配电网环境依据结束条件对本次负荷转供决策是否结束序列动作进行判断, 若未结束,返回步骤4;
若结束,退出循环,本次配电网的负荷转供过程处理结束;
优选地,所述步骤4中所述配电网实时运行数据的参数包括配电网的实时状态信息S 与当前配电网拓扑结构G,所述配电网的实时状态信息S包括节点特征数据和边特征数据,
所述第一神经网络Q计算出每个动作的评价值,包括:
所述第一神经网络Q和第二神经网络T包括有输入层、隐藏层和输出层,所述输入层 和隐藏层采用图卷积神经网络中GraphSAGE模型,所述输出层采用强化学习神经网络中的DuelingDQN算法模型,
所述第一神经网络Q的输入层用于接受所述获取配电网的实时状态信息S与当前配电 网拓扑结构G的原始图特征向量,并将节点邻居之间的所有边的特征数据转换并合并至节 点特征向量,处理后输出至所述隐藏层,通过以下方法实现节点邻居之间的所有边的特征 数据转换并合并至节点特征向量,具体步骤如下:
步骤31:根据边的特征向量维度,为每条边构造一个单层全连接神经网络,并添加偏 置;
步骤32:将每条边的边特征数据输入与该边相对应的神经网络中,得到同样维度的输 出值;
步骤33:将所有边的神经网络输出向量求和,得到同样维度的和向量;
步骤34:将节点向量与边求和向量通过集中操作合并为新的节点向量作为输出。
优选地,所述隐藏层中采用基于空域卷积Spatial GCN结构搭建的多层图卷积神经网 络GraphSAGE模型,所述输入层转换合并新的的节点特征向量在所述多层图卷积神经网 络GraphSAGE模型中逐层对传递提取出局部的抽象特征进行聚合计算,公式如下:
其中,vi为节点,l为层,N(vi)为邻居节点集合,为第l层中节点vj的节点特征向量,aggregatel+1(·)为第l+1层的可学习的聚合函数,为对节点vi的邻居聚合后的 结果向量,concat(·)为拼接函数,即将两个向量在其原本维度上横向拼接,W为可学习 的权重参数矩阵,σ(·)为Relu激活函数,
所述可学习的聚合函数aggregatel+1(·)采用池化聚合操作来做聚合,取邻居节点通过 全连接层的最大值作为聚合结果,其计算公式如下:
优选地,利用所述Dueling DQN算法模型使用深度神经网络对获得Q-learning中所有 动作的评价值,其深度神经网络部分具备对动作进行评价以及训练学习的能力;
优选地,所述Dueling DQN算法模型输出层包括公共部分、价值函数部分、优势函数 部分和组合函数部分,所述公共部分有两层全连接神经网络构成将所述第一神经网络Q和 第二神经网络T分为价值函数和优势函数两部分,
所述第一神经网络Q的价值函数部分为一个标量,记做V(S,ω,α),所述第一神经网络 Q的优势函数部分为动作数量的一个向量,记做A(S,A,w,β),通过对所述第一神经网络Q 由值函数和优势函数两部分输出线性组合后,得到所述第一神经网络Q每个动作的评价值, 具体公式为:
Q(S,A,ω,α,β)=V(S,ω,α)+A(S,A,ω,β)
其中,ω是公共部分的网络参数,而α是价值函数独有部分的网络参数,而β是优势函数独有部分的网络参数,A为动作,S为状态;
所述第一神经网络Q每个动作的评价值做了中心化的处理,获取实际使用的所述第一 神经网络Q每个动作的评价值组合公式如下:
其中表示所有动作的集合,即求该集合中元素的个数,式子右侧用原向量A全 部减去了向量的元素平均值,得到新的优势函数A,使用上式计算得到的Q(S,A,ω,α,β)为 一个长度为动作数的向量,其中的每个元素代表该状态S下每个动作的评价值;
优选地,所述步骤1中基于配电网实时运行数据的参数构建配电网环境包括配电网负 荷转供操作中的系统状态空间、动作空间、状态转移概率以及奖励函数,所述配电网环境 和智能体模型的数据参数交互由数组[S,A,P(a,s,s′),R(s,a),Done]表示,其中S表示配电网可能的状态所构成的状态空间,A表示可能采取的有限动作集合,P(a,s,s′)表 示在s状态下采取动作a状态由s转移到s′的转移概率,R(s,a)是在状态s时采取了a动 作,获得的及时奖励,其被反馈给智能体模型,Done为结束状态的标志位,智能体模型主 动选择终止本次决策或由于违反约束条件而被环境终止继续操作时,Done被设置为1,正 常决策步骤时,Done保持为0,所述状态空间被定义为一个集合S=[G,V,I,SW,F], G表示当前配电网络拓扑结构,V是电压向量组,其用来表示配电网中各个节点处所有相 位的电压值,Vin为第i个节点的第n个相位的电压值;I为电流向量组,其用来表示配电 网中所有线路中各个相位的电流值,Iin为第i条线路的第n个相位的电流值;SW为配电 网中所有开关的状态值向量,SWi为第i个开关的状态,为0表示打开,为1表示闭合;F 为表示配电网线路故障状态的向量,Fi为编号为i的线路的故障状态,0表示正常,1表示 发生故障;
优选地,所述步骤5中利用所述智能体模型基于计算出每个动作的评价值并选取相应 的动作,包括配电网环境执行所述智能体模型基于获取实际使用的所述第一神经网络Q每 个动作的评价值选取相应的动作,得到选取相应的动作后状空间S′,对选取相应的动作及 选取相应的动作后的状态空间进行评价,根据所述奖励函数中的约束条件部分与目标函数 部分计算奖励函数Reward,由结束规则确定Done的值,完成一次配电网开关动作后,将 本次动作的作为经验样本存储在经验池R中,
所述Reward为配电网环境给出的奖励函数由评价值的总和构成,具体公式如下:
Reward=PVolt+PLoop+PAct+ELoadloss+ENum+ELoss+EVot;
所述PVolt为约束条件部分电压惩罚,具体公式如下:
其中:Ui为各节点i的电压标幺值;Ui,min和Ui,max为节点i的电压上下限值,
所述PLoop为约束条件部分环网惩罚,具体公式如下:
其中:gn为已恢复的区域,GR表示在不包括分布式电源时应保持配电网辐射状拓扑结 构的集合;
所述Pact为约束条件部分无效动作给出惩罚,具体公式如下:
其中:Ak为智能体模型本次转供回合第k次的动作,
OA为智能体模型本次转供回合已执行过的动作与本回合故障线路的集合,
所述ELoadloss目标函数部分根据损失负荷的比例设置负荷损失评价值,具体公式如下:
其中:Lloss为失电损失负荷值,Ltotal为整个电力系统负荷总量,计算得到的ELoadloss值在-2~2之间,
所述ENum目标函数部分对开关的动作次数的评价值,具体公式如下:
其中:ANum本次决策发生变化的开关总数量,LNum为开关总数量,计算得到的ENum值在-1~1之间,
所述ELoss目标函数部分对配电网的线损情况的评估值,具体公式如下:
其中,Line为未停电线路总数,Ii为第i条线路的实际电流,Ri为第i条线路与变压器的电阻,S为全网总功率,。
所述ELoss目标函数部分对对于电压未超出±7%范围的节点,线路的电压偏移程度评 价值,具体公式如下:
其中,N为未停电节点总数量,pui为节点i的电压标幺值;
优选地,所述步骤5中所述智能体模型基于计算出每个动作的评价值选取相应的动作, 包括:
非探索模式选择所述第一神经网络Q动作的评价值最高的动作;探索模式则依据ε-greedy选择所述第一神经网络Q动作的评价值最优动作或随机动作α,
所述探索模式则依据ε-greedy选择所述第一神经网络Q动作的评价值最优动作或随机动作α为取随机数x,若x<ε,则选择第一神经网络Q动作评价值最高的动作作为 本次最优动作;若x>ε则从所有动作中选择一个随机动作α;
优选地,所述步骤8中每当第一神经网络Q经过Nreplace次更新时,使用第一神经网络Q的参数对第二神经网络T的参数进行更新,包括:
所述第一神经网络Q的参数为ω,α,β,所述第二神经网络T的参数为ω*,α*,β*,分别 代表公共部分的网络参数、价值函数独有部分的网络参数和优势函数独有部分的网络参 数,通过对所述第一神经网络Q大量的训练后,所述智能体模型可实现最佳目标的负荷转 供动作。
另一方面,本发明还提供了一种基于图卷积神经网络与强化学习的负荷转供装置,其 包括:
模型构建模块:基于配电网实时运行数据的参数构建配电网环境,基于图卷积神经网 络和深度强化学习Dueling-DQN算法搭建结构相同的第一神经网络Q和第二神经网络T, 基于第一神经网络Q、第二神经网络T和经验池R构建智能体模型,所述配电网环境和智能体模型的数据参数交互,初始化所述智能体模型的参数;
判定模块:判定配电网是否发生故障;
若是,基于配电网环境和智能体模型的数据参数交互,开始负荷转供;
数据获取模块:用于获取配电网实时运行数据的参数作为所述智能体模型的输入数 据;
评价值获取模块:用于利用智能体模型对输入的配电网实时运行数据的参数数据进行 读取,通过所述智能体模型计算出每个动作的评价值;
动作执行模块:用于利用所述智能体模型基于计算出每个动作的评价值并选取相应的 动作;
经验池扩充模块:用于配电网环境执行所述智能体模型基于计算出每个动作的评价值 选取相应的动作,当完成一次配电网开关动作后,将本次动作的作为样本存储在所述经验 池R中;
迭代模块:用于从经验池R中随机采样Nbatch个经验样本计算目标值,基于预设的参数,通过最小化损失函数对第一神经网络中的参数进行更新;
参数更新模块:用于每当第一神经网络Q经过Nreplace次更新时,使用第一神经网络Q的参数对第二神经网络T的参数进行更新;
负荷转供动作判断模块:用于电网环境依据结束条件对本次负荷转供决策是否结束序 列动作进行判断,
若未结束,返回步骤4;
若结束,退出循环,本次配电网的负荷转供过程处理结束。
本发明的优点和积极效果是:
本发明提出了一种基于图卷积神经网络与强化学习的负荷转供方法,通过智能体模型 训练与经验学习,在发生故障时,基于当前配网的网络拓扑结构,首先是在发生故障后进 行负荷转供时,无需消耗大量时间进行仿真计算分析,直接通过分析实时运行大数据而进 行负荷转供决策,第一神经网络Q可以保证给出最优的决策方案,因此本发明可以具备更 快的响应速度与更好的决策结果;其次与基于深度强化学习的配电网负荷转供方法相比, 本发明可以将配电网网络拓扑作为除电气信息之外的决策变量,利用图神经网络提取并转 化配电网络拓扑信息与电气信息,图神经网络转化后的信息更能全面反映环境状态,改善 了普通神经网络只能利用一维的电气信息进行决策的缺点,使负荷转供结果更能适应不同 配电网络,将配电网络拓扑纳入关键决策变量,将更有利于强化学习智能体模型的决策, 得出更优的转供方案。
附图说明
图1是本发明本申请实施例提供的一种负荷转供决策到图卷积神经网络与强化学习的 映射关系示意图;
图2是本发明图卷积神经网络输入层的结构示意图;
图3是本发明图卷积神经网络结构示意图;
图4是本发明第一神经网络结构的示意图;
图5是本发明一种负荷转供决策到图卷积神经网络与强化学习的处理流程图;
图6是本发明第一神经网络和第二神经网络的层状结构的示意图。
具体实施方式
以下结合附图对本发明做进一步详述。
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所 述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括” 是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或 多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件 被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中 间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和 /或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和 科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的 是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致 的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解 释说明,且各个实施例并不构成对本发明实施例的限定。
由于配电网的建设存在一定程度的滞后,电力设备的容量等裕度偏小,加大了配电网 负荷转供的难度,各类突发断电故障需要及时提出转供方案,因此对算法的运算速度以及 适用性有更高的要求,而已有算法均存在一定的局限性。现有算法大多在故障发生后进行 临时仿真计算分析,很少使用配网运行实时信息大数据,消耗时间较长;或者采取简化仿 真过程的方法以加快计算速度,但很难兼顾配网运行的安全性与经济性;或者采取人工智 能方法利用实时电气信息直接进行在线决策,但仅利用一维的电气运行信息进行决策,脱 离实际电网结构,很难保证负荷转供的经济性与负荷转供率。
本发明实施例采用图卷积强化学习的算法,通过智能体模型训练与经验学习,在发生 故障时,基于当前配网的网络拓扑结构,无需消耗大量时间进行仿真计算分析,直接通过 分析实时运行大数据与网络拓扑数据进行负荷转供决策,可以在短时间内给出更好的负荷 转供策略。
以配电网的实时状态信息与当前配电网拓扑结构作为输入数据,智能体模型采用深度 强化学习Dueling-DQN算法进行决策并输出动作。动作作用于环境使其状态发生改变,同 时通过负荷转供的约束条件与目标函数对该动作进行评价,将动作奖励或动作惩罚反馈给 智能体模型,从而更新智能体模型的参数进行学习,通过大量的训练后,智能体模型即可 实现最佳目标的负荷转供动作。
本发明实施例提供的一种基于图卷积神经网络与强化学习的负荷转供方法的处理流 程图如图5所示,包括如下的处理步骤:
步骤1、基于配电网实时运行数据的参数构建配电网环境,基于图卷积神经网络和深 度强化学习Dueling-DQN算法搭建结构相同的第一神经网络Q和第二神经网络T,基于第一神经网络Q、第二神经网络T和经验池R构建智能体模型,所述配电网环境和智能体模 型的数据参数交互,初始化所述智能体模型的参数;
在此步骤中,如图1所示,基于配电网实时运行数据的参数构建配电网环境包括配电 网负荷转供操作中的系统状态空间、动作空间、状态转移概率以及奖励函数,所述配电网 环境和智能体模型的数据参数交互由数组[S,A,P(a,s,s′),R(s,a),Done]表示,其中 S表示配电网可能的状态所构成的状态空间,A表示可能采取的有限动作集合,P(a,s,s′) 表示在s状态下采取动作a状态由s转移到s′的转移概率,R(s,a)是在状态s时采取了a 动作,获得的及时奖励,其被反馈给智能体模型,Done为结束状态的标志位,智能体模型 主动选择终止本次决策或由于违反约束条件而被环境终止继续操作时,Done被设置为1, 正常决策步骤时,Done保持为0;
其中,所述系统状态空间被定义为一个集合S=[G,V,I,SW,F],G表示当前配电 网络拓扑结构,V是电压向量组,其用来表示配电网中各个节点处所有相位的电压值,Vin为第i个节点的第n个相位的电压值;I为电流向量组,其用来表示配电网中所有线路中各 个相位的电流值,Iin为第i条线路的第n个相位的电流值;SW为配电网中所有开关的状 态值向量,SWi为第i个开关的状态,为0表示打开,为1表示闭合;F为表示配电网线路 故障状态的向量,Fi为编号为i的线路的故障状态,0表示正常,1表示发生故障,其中G 为配电网拓扑结构,V为配电网拓扑中的节点特征输入,I、SW、F为配电网拓扑结构中 的边特征输入,共同构成了图卷积神经网络的输入。
其中,面对实时变化的配电网,智能体模型需要在配电网中对开关进行相应的操作, 控制配电网的状态,智能体模型可以根据当前的配电网状态以及奖励函数决定如何执行下 一步的动作,所述动作空间A为一个向量,其元素为具体动作,范围为0~2Nswitch的整 数,当动作a为2Nswitch时,代表不采取任何操作并退出,本次决策结束;当动作a为0~2Nswitch-1时,对a作如下计算:
x=a%2
其中x为除以a得到的余数,该式的含义如下:
每次动作为对一个开关进行操作或者直接退出,如果退出则本次决策结束。
其中,所述状态转移概率p(si+1|si,ai)表示在状态si下,采取动作施加于环境,环境 状态转移到si+1的概率。在配网负荷转供问题中,假设所有的开关都服从智能体模型做出 的动作决策并正确反应,则可认为状态转移概率为一定值。
其中,所述奖励函数的主要分为约束条件部分与目标函数部分,智能体模型对配电网 环境采取已选择的动作后,会得到配电网环境对于本次动作的评价,我们将此评价作为智 能体模型的奖励函数,奖励函数通过约束条件部分与目标函数部分,使操作能够在保证正 常配电网运行的条件下实现最经济运行成本。
(1)约束条件部分:
电压越限后环境状态应转移至失败退出状态,电压惩罚PVolt计算方法为:
其中:Ui为各节点i的电压标幺值;Ui.min和Ui.max为节点i的电压上下限值,通常 取0.93或1.07。
当传输容量超过线路与变压器的极限值时,易引发设备二次故障,严重降低用电设备 使用寿命,本文取设备电流极限值作为运行上限,电流越限后状态转移至失败退出状态, 电流惩罚PLim计算方法为:
其中:Ij为设备j的电流值;Ij.max为设备j的电流值上限。
配电网正常运行时应为辐射状,但也允许存在环网作为短时过渡状态,但不允许作为 长期运行状态出现,因此设置环网惩罚PLoop时应分情况考虑,即:
其中:gn为已恢复的区域,GR表示在不包括分布式电源时应保持配电网辐射状拓扑结 构的集合。
当智能体模型对目前闭合的开关执行闭合动作或对打开目前打开的开关时,即动作无 效,或者试图操作对发生故障的线路时,该动作视为无效,且对其无效动作给出惩罚,即:
其中:Ak为智能体模型本次转供回合第k次的动作,
OA为智能体模型本次转供回合已执行过的动作与本回合故障线路的集合。
(2)目标函数部分:
在动作能够满足约束的条件下,尽可能地恢复下游失电区域的正常供电,因此,根据 损失负荷的比例设置负荷损失评价值ELoadloss,
其中:Lloss为失电损失负荷值,Itotal为整个电力系统负荷总量,计算得到的ELoadloss值在-2~2之间,
配电网环境中开关的动作都要对开关的寿命产生影响,开关动作中可能存在部分开关 需要人员手动操作,当动作次数过多时,不仅扩大操作失误的概率,用户供电的恢复时间 也可能无法满足要求,而且还会使得中压配电网的结构变化过大,在故障消除或检修结束 后,给配电网恢复至原运行方式增加更多的难度,因此应该尽量减少对开关的频繁操作, 减少开关动作而引起的操作费用,ENum对动作次数的评价值。
其中:ANum本次决策发生变化的开关总数量,LNum为开关总数量。计算得到的ENum值在-1~1之间。
考虑到配电网的经济运行,在完成动作后,需要对配电网的线损情况进行评估,评估 使用带电线路的阻抗模型,ELoss为线损评价值。
其中,Line为未停电线路总数,Ii为第i条线路的实际电流,Ri为第i条线路与变压器的电阻,S为全网总功率。公式右端为计算得到的近似线损率,由于配电网及基层线损 率往往在5%~12%之间,为使ELoss的值能保持在近似-1~0处,因此将线损率放大-10 倍作为线损评价值。
对于电压未超出±7%范围的节点,用EVot评价值衡量其电压偏移程度,以保证转供 后的配电网具备较好的电压质量。
其中,N为未停电节点总数量,pui为节点i的电压标幺值,由于右侧公式计算得到的 结果小于0.07,且大部分电压值偏离不超过0.05,因此为使EVot的值能保持在近似-1~0处,将其放大20倍。
环境给出的奖励函数由以上各评价值的总和构成,即Reward。
Reward=PVolt+PLoop+PAct+ELoadloss+ENum+ELoss+EVot
最后,如果动作造成电压越限或设备传输容量越限,该动作回合会被强制结束,视为 动作失败;如果动作以后的配电网恢复了全部无故障区域的负荷,而且没有电压越限或设 备传输容量越限的情况,该动作回合会被环境判断为已经完成转供,当前回合自动结束; 但特殊情况下如某些联络线容量不足的情况下,需要通过切除无故障失电负荷以保证供电 质量,或者存在多处故障导致无法进行转供,此时环境无法通过恢复所有非故障负荷判断 转供是否完成,在智能体模型认为当前状态没有更好的动作时,智能体模型可以自行选择 结束当前回合并退出。
所述基于第一神经网络Q、第二神经网络T和经验池R构建智能体模型,包括:所述第一神经网络Q用于为智能体模型选择动作提供依据,动作作用于配电网环境使其状态空间发生改变,同时通过负荷转供的约束条件与目标函数对该动作进行评价,将动作奖励或动作惩罚反馈给智能体,通过所述第二神经网络T用于求最小损失函数的误差以供第一神经网络Q进行学习,通过大量的训练后,智能体即可实现最佳目标的负荷转供动作。
步骤2、判定配电网是否发生故障,若发生故障,基于配电网环境和智能体模型的数 据参数交互,开始负荷转供;
步骤3、获取配电网实时运行数据的参数作为智能体模型的输入数据;
再次步骤中,所述配电网实时运行数据的参数包括配电网的实时状态信息S与当前配 电网拓扑结构G,所述配电网的实时状态信息S包括节点特征数据和边特征数据;
步骤4、利用智能体模型对输入的配电网实时运行数据的参数数据进行读取,通过所 述第一神经网络Q计算出每个动作的评价值;
所述第一神经网络Q和第二神经网络T包括有输入层、隐藏层和输出层,所述输入层 和隐藏层采用图卷积神经网络中GraphSAGE模型,所述输出层采用强化学习神经网络中的Dueling DQN算法模型,
所述第一神经网络Q的输入层用于接受所述获取配电网的实时状态信息S与当前配电 网拓扑结构G的原始图特征向量,并将节点邻居之间的所有边的特征数据转换并合并至节 点特征向量,处理后输出至所述隐藏层,由于隐藏层所采用的图卷积神经网络中GraphSAGE模型都是基于节点特征数据传递的,不接受任何的边特征数据,若输入数据中只选取了部分配电网节点数据,则可以省略输入层,直接将节点数据输入隐藏层,
如图2所示,节点邻居之间的所有边的特征数据转换并合并至节点特征向量,包括, 预设节点v有两条邻边和与其邻居之间的所有边的特征数据E1、E2,
采用如下方法可将节点v与其邻居之间的所有边的特征数据E1、E2转换并合并至节点v特征向量NV上,具体步骤如下:
1、根据边的特征向量维度de,为每条边构造一个单层全连接神经网络,每个神经网 络都为de个输入,de个输出,并添加偏置;
2、将每条边的边特征数据E1、E2输入与该边相对应的神经网络中,得到同样维度的输出值E′1、E′2;
3、将所有边的神经网络输出向量求和,得到同样维度的和向量ESUM;
4、将节点向量NV与边求和向量ESUM通过Concat(NV,ESUM)操作合并为新的节点向量作为 输出N′V;
在本步骤中,所述隐藏层中采用基于空域卷积Spatial GCN结构搭建的多层图卷积神 经网络GraphSAGE模型,所述输入层转换合并新的的节点特征向量在所述多层图卷积神 经网络GraphSAGE模型中逐层对传递提取出局部的抽象特征进行聚合计算,
所述输入层转换合并新的的节点特征向量在所述多层图卷积神经网络GraphSAGE模 型中逐层对传递提取出局部的抽象特征进行聚合计算的公式如下:
其中,vi为节点,l为层,N(vi)为邻居节点集合,为第l层中节点vj的节点特征向量,aggregatel+1(·)为第l+1层的可学习的聚合函数,为对节点vi的邻居聚合后的 结果向量,concat(·)为拼接函数,即将两个向量在其原本维度上横向拼接,W为可学习 的权重参数矩阵,σ(·)为Relu激活函数,
所述可学习的聚合函数aggregatel+1(·)采用池化聚合(Poolingaggregator)操作来做 聚合,取邻居节点通过全连接层的最大值作为聚合结果,其计算公式如下:
如图3所示:通过堆叠多层图卷积神经网络,节点特征向量进行逐层传递,图中第3层的节点v1的节点特征向量值由第2层节点v1的一阶子图得到,第2层的子图又由第1 层节点v1的二阶子图得到。因此层数越高,其表示范围越大,受输入影响的节点数越多。 同时由于其是大范围特征的综合体现,对于图的局部抽象能力越强。
在此步骤中,利用所述Dueling DQN算法模型使用深度神经网络对获得Q-learning中 所有动作的评价值,其深度神经网络部分具备对动作进行评价以及训练学习的能力,其结 构如图4所示,
所述Dueling DQN算法模型输出层包括公共部分、价值函数部分、优势函数部分和组 合函数部分,所述公共部分有两层全连接神经网络构成将所述第一神经网络Q和第二神经 网络T分为价值函数和优势函数两部分,
所述第一神经网络Q的价值函数部分与状态S有关,与动作A无关,其为一个标量,记做V(S,ω,α),所述第一神经网络Q的优势函数同时与状态S和动作A有关,其为长度 为动作数量的一个向量,记为A(S,A,w,β),通过对所述第一神经网络Q由值函数和优势 函数两部分输出线性组合后,得到所述第一神经网络Q每个动作的评价值,具体公式为:
Q(S,A,ω,α,β)=V(S,ω,α)+A(S,A,ω,β)
其中,ω是公共部分的网络参数,而α是价值函数独有部分的网络参数,而β是优势函数独有部分的网络参数,A为动作,S为状态;
但是上述公式无法辨识最终输出里面V(S,ω,α)和A(S,A,w,β)各自的作用,为了体现这 种可辨识性(identifiability),对优势函数部分做了中心化的处理,获取实际使用的所述第一 神经网络Q每个动作的评价值组合公式如下:
其中表示所有动作的集合,即求该集合中元素的个数,式子右侧用原向量A全 部减去了向量的元素平均值,得到新的优势函数A。使用上式计算得到的Q(S,A,ω,α,β)为 一个长度为动作数的向量,其中的每个元素代表该状态S下每个动作的评价值;
步骤5:所述智能体模型基于计算出每个动作的评价值选取相应的动作,具体为基于 获取实际使用的所述第一神经网络Q每个动作的评价值选取相应的动作,
非探索模式选择最优动作,即所述第一神经网络Q动作的评价值最高的动作;探索模 式则依据ε-greedy选择所述第一神经网络Q动作的评价值最优动作或随机动作α,
在训练中的智能体模型中,为了使智能体模型具备跳出局部最优解,进行全局探索的 能力,采取ε-greedy随机贪婪策略,即取随机数x,若x<ε,则选择动作评价值最高 的动作作为本次动作;若x>ε则从所有动作中选择一个随机动作。并且ε随着训练的回 合数不断增加,训练次数足够多时,深度神经网络中的参数几乎不再发生变化,此时ε为 1,每次都选择最佳动作;
步骤6、配电网环境执行所述智能体模型基于获取实际使用的所述第一神经网络Q每 个动作的评价值选取相应的动作,得到选取相应的动作后状空间S′,对选取相应的动作及 选取相应的动作后的状态空间进行评价,根据所述奖励函数中的约束条件部分与目标函数 部分计算奖励函数Reward,由结束规则确定Done的值,完成一次配电网开关动作后,将 本次动作的作为经验样本存储在经验池R中;
步骤7、从所述经验池R中随机采样Nbatch个经验样本,通常Nbatch=20,计算 目标值,所述第二神经网络T通过对最小化损失函数误差的计算对所述第一神经网络Q中 的参数进行更新,以RMSProp算法求参数的更新程度,该算法通过参数学习率Lr决定了 参数更新的程度,所述学习率Lr的值为0.1,即神经网络的学习速度,对第一神经网络Q 的一次更新代表了一次智能体模型的学习过程,通过大量的训练后;
在此步骤中,所述第二神经网络T通过最小化损失函数误差的计算对所述第一神经网 络中Q的参数进行更新为对所述第一神经网络中Q中的公共部分的网络参数ω、价值函 数独有部分的网络参数α和优势函数独有部分的网络参数β;
步骤8、每当所述第一神经网络Q经过Nreplace次更新时,通常Nreplace=200,使用 所述第一神经网络Q的参数ω,α,β对第二神经网络T的参数ω*,α*,β*进行更新: ω*,α*,β*←ω,α,β;
在此步骤中,所述ω,α,β分别为第一神经网络Q经过Nreplace次更新时的公共部分的 网络参数、价值函数独有部分的网络参数和优势函数独有部分的网络参数,所述ω*,α*,β*分别为第二神经网络T更新后的公共部分的网络参数、价值函数独有部分的网络参数和优 势函数独有部分的网络参数,通过对所述第一神经网络Q大量的训练后,所述智能体模型 即可实现最佳目标的负荷转供动作。
需要说明的是,所述第一神经网络Q有最新的参数,在每次学习时都要进行更新,第 二神经网络T在经过Nreplace次动作后,才进行一次更新;
步骤9、配电网环境依据结束条件对本次负荷转供决策是否结束序列动作进行判断,
若结束标志位Done为0,返回步骤4;
若结束标志位Done为1,退出循环,本次配电网的负荷转供过程处理结束,进入下一 步,
以上为一次单步动作,而一次完整的负荷转供很可能由多次具有先后顺序的开关动作 组成,所以依据结束标志位Done对是否结束序列动作进行判断,若Done=0,代表该配电 网还需要继续动作以完成转供,则重新读取配电网实时运行信息,将新的状态量输入Q网 络重新进行计算,进入下一个动作决策过程;若Done=1,本次动作决策停止;
步骤10、等待下次配电网发生故障,进入新的负荷转供决策过程,转到步骤2。
本发明还提供了一种基于图卷积神经网络与强化学习的负荷转供装置,包括:
模型构建模块:基于配电网实时运行数据的参数构建配电网环境,基于图卷积神经网 络和深度强化学习Dueling-DQN算法搭建结构相同的第一神经网络Q和第二神经网络T, 基于第一神经网络Q、第二神经网络T和经验池R构建智能体模型,所述配电网环境和智能体模型的数据参数交互,初始化所述智能体模型的参数;
判定模块:判定配电网是否发生故障;
若是,基于配电网环境和智能体模型的数据参数交互,开始负荷转供;
数据获取模块:用于获取配电网实时运行数据的参数作为所述智能体模型的输入数 据;
评价值获取模块:用于利用智能体模型对输入的配电网实时运行数据的参数数据进行 读取,通过所述智能体模型计算出每个动作的评价值;
动作执行模块:用于利用所述智能体模型基于计算出每个动作的评价值并选取相应的 动作;
经验池扩充模块:用于配电网环境执行所述智能体模型基于计算出每个动作的评价值 选取相应的动作,当完成一次配电网开关动作后,将本次动作的作为样本存储在所述经验 池R中;
迭代模块:用于从经验池R中随机采样Nbatch个经验样本计算目标值,基于预设的参数,通过最小化损失函数对第一神经网络中的参数进行更新;
参数更新模块:用于每当第一神经网络Q经过Nreplace次更新时,使用第一神经网络Q的参数对第二神经网络T的参数进行更新;
负荷转供动作判断模块:用于电网环境依据结束条件对本次负荷转供决策是否结束序 列动作进行判断,
若未结束,返回步骤4;
若结束,退出循环,本次配电网的负荷转供过程处理结束。
综上所述,本申请提供一种基于图卷积神经网络与强化学习的配电网负荷转供方法, 采用了配电网的实时运行数据来进行负荷转供决策,利用图卷积神经网络与强化学习来提 高配电网的故障应急恢复能力与可靠性,在保证配电网安全稳定运行、用户用电安全的条 件下,最大限度的达到了电压质量、配电网操作与运行的经济性的多方面最优。同时基于 图卷积强化学习的配电网负荷转供算法避免了故障时的大量运算与电网仿真迭代,提高了 负荷转供的速度,减短了非故障区域停电的时间,使配电网具有更高的可靠性。
本发明智能体模型使用强化学习算法为Dueling-DQN算法,相对于Q学习算法、DQN算法等常用的强化学习算法,对配电网的状态特征识别更加精确,能够达到更加准确的负荷转供决策方案。
采用图卷积神经网络与强化学习的算法,通过智能体模型训练与经验学习,在发生故 障时,基于当前配网的网络拓扑结构,无需消耗大量时间进行仿真计算分析,直接通过分 析实时运行大数据与网络拓扑数据进行负荷转供决策,可以在短时间内给出更好的负荷转 供策略。
本发明实施例智能体模型采用深度强化学习Dueling-DQN算法进行决策并输出动作。 动作作用于环境使其状态发生改变,同时通过负荷转供的约束条件与目标函数对该动作进 行评价,将动作奖励或动作惩罚反馈给智能体模型,从而更新智能体模型的参数进行学习, 通过大量的训练后,智能体模型即可实现最佳目标的负荷转供动作。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助 软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或 者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以 存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设 备可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些 部分所述的方法。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式 和数值并不限制本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装 置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
综上所述,本发明的内容并不局限在上述的实施例中,本领域的技术人员可以在本发 明的技术指导思想之内提出其他的实施例,但这些实施例都包括在本发明的范围之内。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括 并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得 出的其他实施方式,同样属于本发明保护的范围。
Claims (11)
1.一种基于图卷积神经网络与强化学习的负荷转供方法,其特征在于:具体步骤如下:
步骤1:基于配电网实时运行数据的参数构建配电网环境,基于图卷积神经网络和深度强化学习Dueling-DQN算法搭建结构相同的第一神经网络Q和第二神经网络T,基于第一神经网络Q、第二神经网络T和经验池R构建智能体模型,所述配电网环境和智能体模型的数据参数交互,初始化所述智能体模型的参数;
步骤2:判定配电网是否发生故障,若发生故障,基于配电网环境和智能体模型的数据参数交互,开始负荷转供。
2.根据权利要求1所述的基于图卷积神经网络与强化学习的负荷转供方法,其特征在于:所述开始负荷转供的步骤之后,所述方法包括:
步骤3:获取配电网实时运行数据作为所述智能体模型的输入数据;
步骤4:利用智能体模型对输入的配电网实时运行数据进行读取,通过所述第一神经网络Q计算出每个动作的评价值;
步骤5:利用所述智能体模型基于计算出每个动作的评价值并选取相应的动作;
步骤6:配电网环境执行所述智能体模型基于计算出每个动作的评价值选取相应的动作,当完成一次配电网开关动作后,将本次动作的作为样本存储在所述经验池R中;
步骤7:当经验池中存储到一定数量的样本时,从经验池R中随机采样Nbatch个经验样本计算目标值,基于预设的参数,通过最小化损失函数对第一神经网络中的参数进行更新;
步骤8:每当第一神经网络Q经过Nreplace次更新时,使用第一神经网络Q的参数对第二神经网络T的参数进行更新;
步骤9:配电网环境依据结束条件对本次负荷转供决策是否结束序列动作进行判断,
若未结束,返回步骤4;
若结束,退出循环,本次配电网的负荷转供过程处理结束。
3.根据权利要求2所述的基于图卷积神经网络与强化学习的负荷转供方法,其特征在于:所述步骤4中所述配电网实时运行数据的参数包括配电网的实时状态信息S与当前配电网拓扑结构G,所述配电网的实时状态信息S包括节点特征数据和边特征数据,
所述第一神经网络Q计算出每个动作的评价值,包括:
所述第一神经网络Q和第二神经网络T包括有输入层、隐藏层和输出层,所述输入层和隐藏层采用图卷积神经网络中GraphSAGE模型,所述输出层采用强化学习神经网络中的Dueling DQN算法模型,
所述第一神经网络Q的输入层用于接受所述获取配电网的实时状态信息S与当前配电网拓扑结构G的原始图特征向量,并将节点邻居之间的所有边的特征数据转换并合并至节点特征向量,处理后输出至所述隐藏层,通过以下方法实现节点邻居之间的所有边的特征数据转换并合并至节点特征向量,具体步骤如下:
步骤31:根据边的特征向量维度,为每条边构造一个单层全连接神经网络,并添加偏置;
步骤32:将每条边的边特征数据输入与该边相对应的神经网络中,得到同样维度的输出值;
步骤33:将所有边的神经网络输出向量求和,得到同样维度的和向量;
步骤34:将节点向量与边求和向量通过集中操作合并为新的节点向量作为输出。
4.根据权利要求3所述的基于图卷积神经网络与强化学习的负荷转供方法,其特征在于:所述隐藏层中采用基于空域卷积Spatial GCN结构搭建的多层图卷积神经网络GraphSAGE模型,所述输入层转换合并新的节点特征向量在所述多层图卷积神经网络GraphSAGE模型中逐层对传递提取出局部的抽象特征进行聚合计算,公式如下:
其中,vi为节点,l为层,N(vi)为邻居节点集合,为第l层中节点vj的节点特征向量,aggregatel+1(·)为第l+1层的可学习的聚合函数,为对节点vi的邻居聚合后的结果向量,concat(·)为拼接函数,即将两个向量在其原本维度上横向拼接,W为可学习的权重参数矩阵,σ(·)为Relu激活函数,
所述可学习的聚合函数aggregate1+1(·)采用池化聚合操作来做聚合,取邻居节点通过全连接层的最大值作为聚合结果,其计算公式如下:
5.根据权利要求3所述的基于图卷积神经网络与强化学习的负荷转供方法,其特征在于:利用所述Dueling DQN算法模型使用深度神经网络对获得Q-learning中所有动作的评价值,其深度神经网络部分具备对动作进行评价以及训练学习的能力。
6.根据权利要求5所述的基于图卷积神经网络与强化学习的负荷转供方法,其特征在于:所述Dueling DQN算法模型输出层包括公共部分、价值函数部分、优势函数部分和组合函数部分,所述公共部分有两层全连接神经网络构成将所述第一神经网络Q和第二神经网络T分为价值函数和优势函数两部分,
所述第一神经网络Q的价值函数部分为一个标量,记做V(S,ω,α),所述第一神经网络Q的优势函数部分为动作数量的一个向量,记做A(S,A,w,β),通过对所述第一神经网络Q由值函数和优势函数两部分输出线性组合后,得到所述第一神经网络Q每个动作的评价值,具体公式为:
Q(S,A,ω,α,β)=V(S,ω,α)+A(S,A,ω,β)
其中,ω是公共部分的网络参数,而α是价值函数独有部分的网络参数,而β是优势函数独有部分的网络参数,A为动作,S为状态;
所述第一神经网络Q每个动作的评价值做了中心化的处理,获取实际使用的所述第一神经网络Q每个动作的评价值组合公式如下:
7.根据权利要求2所述的基于图卷积神经网络与强化学习的负荷转供方法,其特征在于:所述步骤1中基于配电网实时运行数据的参数构建配电网环境包括配电网负荷转供操作中的系统状态空间、动作空间、状态转移概率以及奖励函数,所述配电网环境和智能体模型的数据参数交互由数组[S,A,P(a,s,s′),R(s,a),Done]表示,其中S表示配电网可能的状态所构成的状态空间,A表示可能采取的有限动作集合,P(a,s,s′)表示在s状态下采取动作a状态由s转移到s′的转移概率,R(s,a)是在状态s时采取了a动作,获得的及时奖励,其被反馈给智能体模型,Done为结束状态的标志位,智能体模型主动选择终止本次决策或由于违反约束条件而被环境终止继续操作时,Done被设置为1,正常决策步骤时,Done保持为0,所述状态空间被定义为一个集合S=[G,V,I,SW,F],G表示当前配电网络拓扑结构,V是电压向量组,其用来表示配电网中各个节点处所有相位的电压值,Vin为第i个节点的第n个相位的电压值;I为电流向量组,其用来表示配电网中所有线路中各个相位的电流值,Iin为第i条线路的第n个相位的电流值;SW为配电网中所有开关的状态值向量,SWi为第i个开关的状态,为0表示打开,为1表示闭合;F为表示配电网线路故障状态的向量,Fi为编号为i的线路的故障状态,0表示正常,1表示发生故障。
8.根据权利要求2所述的基于图卷积神经网络与强化学习的负荷转供方法,其特征在于:所述步骤5中利用所述智能体模型基于计算出每个动作的评价值并选取相应的动作,包括配电网环境执行所述智能体模型基于获取实际使用的所述第一神经网络Q每个动作的评价值选取相应的动作,得到选取相应的动作后执行并转移至状态S′,对选取相应的动作及选取相应的动作后的状态进行评价,根据所述奖励函数中的约束条件部分与目标函数部分计算奖励函数Reward,由结束规则确定Done的值,完成一次配电网开关动作后,将本次动作的作为经验样本存储在经验池R中,
所述Reward为配电网环境给出的奖励函数由评价值的总和构成,具体公式如下:
Reward=PVolt+PLoop+PAct+ELoadloss+ENum+ELoss+EVot
所述PVolt为约束条件部分电压惩罚,具体公式如下:
其中:Ui为各节点i的电压标幺值;Ui,min和Ui,max为节点i的电压上下限值,
所述PLoop为约束条件部分环网惩罚,具体公式如下:
其中:gn为已恢复的区域,GR表示在不包括分布式电源时应保持配电网辐射状拓扑结构的集合;
所述Pact为约束条件部分无效动作给出惩罚,具体公式如下:
其中:Ak为智能体模型本次转供回合第k次的动作,
OA为智能体模型本次转供回合已执行过的动作与本回合故障线路的集合,
所述ELoadloss目标函数部分根据损失负荷的比例设置负荷损失评价值,具体公式如下:
其中:Lloss为失电损失负荷值,Ltotal为整个电力系统负荷总量,计算得到的ELoadloss值在-2~2之间,
所述ENum目标函数部分对开关的动作次数的评价值,具体公式如下:
其中:ANum本次决策发生变化的开关总数量,LNum为开关总数量,计算得到的ENum值在-1~1之间,
所述ELoss目标函数部分对配电网的线损情况的评估值,具体公式如下:
其中,Line为未停电线路总数,Ii为第i条线路的实际电流,Ri为第i条线路与变压器的电阻,S为全网总功率,。
所述Eloss目标函数部分对对于电压未超出±7%范围的节点,线路的电压偏移程度评价值,具体公式如下:
其中,N为未停电节点总数量,pui为节点i的电压标幺值。
9.根据权利要求2所述的基于图卷积神经网络与强化学习的负荷转供方法,其特征在于:所述步骤5中所述智能体模型基于计算出每个动作的评价值选取相应的动作,包括:
非探索模式选择所述第一神经网络Q输出的动作评价值最高的动作;探索模式则依据ε-greedy选择所述第一神经网络Q输出的动作评价值最优动作或随机动作α,
所述探索模式则依据ε-greedy选择所述第一神经网络Q输出的动作评价值最优动作或随机动作α为取随机数x,若x<ε,则选择第一神经网络Q动作评价值最高的动作作为本次最优动作;若x>ε则从所有动作中选择一个随机动作α。ε-greedy探索模式可以避免智能体的过度自信陷入局部最优。
10.根据权利要求2所述的基于图卷积神经网络与强化学习的负荷转供方法,其特征在于:所述步骤8中每当第一神经网络Q经过Nreplace次更新时,使用第一神经网络Q的参数对第二神经网络T的参数进行更新,包括:
所述第一神经网络Q的参数为ω,α,β,所述第二神经网络T的参数为ω*,α*,β*,分别代表公共部分的网络参数、价值函数独有部分的网络参数和优势函数独有部分的网络参数,通过对所述第一神经网络Q大量的训练后,所述智能体模型可实现最佳目标的负荷转供动作。
11.一种基于图卷积神经网络与强化学习的负荷转供装置,其特征在于,包括:
模型构建模块:基于配电网实时运行数据的参数构建配电网环境,基于图卷积神经网络和深度强化学习Dueling-DQN算法搭建结构相同的第一神经网络Q和第二神经网络T,基于第一神经网络Q、第二神经网络T和经验池R构建智能体模型,所述配电网环境和智能体模型的数据参数交互,初始化所述智能体模型的参数;
判定模块:判定配电网是否发生故障;
若是,基于配电网环境和智能体模型的数据参数交互,开始负荷转供;
数据获取模块:用于获取配电网实时运行数据的参数作为所述智能体模型的输入数据;
评价值获取模块:用于利用智能体模型对输入的配电网实时运行数据的参数数据进行读取,通过所述智能体模型计算出每个动作的评价值;
动作执行模块:用于利用所述智能体模型基于计算出每个动作的评价值并选取相应的动作;
经验池扩充模块:用于配电网环境执行所述智能体模型基于计算出每个动作的评价值选取相应的动作,当完成一次配电网开关动作后,将本次动作的作为样本存储在所述经验池R中;
迭代模块:用于从经验池R中随机采样Nbatch个经验样本计算目标值,基于预设的参数,通过最小化损失函数对第一神经网络中的参数进行更新;
参数更新模块:用于每当第一神经网络Q经过Nreplace次更新时,使用第一神经网络Q的参数对第二神经网络T的参数进行更新;
负荷转供动作判断模块:用于电网环境依据结束条件对本次负荷转供决策是否结束序列动作进行判断,
若未结束,返回步骤4;
若结束,退出循环,本次配电网的负荷转供过程处理结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210726136.5A CN115239072A (zh) | 2022-06-23 | 2022-06-23 | 基于图卷积神经网络与强化学习的负荷转供方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210726136.5A CN115239072A (zh) | 2022-06-23 | 2022-06-23 | 基于图卷积神经网络与强化学习的负荷转供方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115239072A true CN115239072A (zh) | 2022-10-25 |
Family
ID=83668648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210726136.5A Pending CN115239072A (zh) | 2022-06-23 | 2022-06-23 | 基于图卷积神经网络与强化学习的负荷转供方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115239072A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115409431A (zh) * | 2022-10-31 | 2022-11-29 | 国网湖北省电力有限公司信息通信公司 | 一种基于神经网络的分布式电力资源调度方法 |
CN117474295A (zh) * | 2023-12-26 | 2024-01-30 | 长春工业大学 | 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法 |
-
2022
- 2022-06-23 CN CN202210726136.5A patent/CN115239072A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115409431A (zh) * | 2022-10-31 | 2022-11-29 | 国网湖北省电力有限公司信息通信公司 | 一种基于神经网络的分布式电力资源调度方法 |
CN115409431B (zh) * | 2022-10-31 | 2023-01-24 | 国网湖北省电力有限公司信息通信公司 | 一种基于神经网络的分布式电力资源调度方法 |
CN117474295A (zh) * | 2023-12-26 | 2024-01-30 | 长春工业大学 | 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法 |
CN117474295B (zh) * | 2023-12-26 | 2024-04-26 | 长春工业大学 | 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112149347B (zh) | 基于深度强化学习的配电网负荷转供方法 | |
CN115239072A (zh) | 基于图卷积神经网络与强化学习的负荷转供方法及装置 | |
CN111461392B (zh) | 一种基于图神经网络的电力故障预测方法及系统 | |
CN110348048B (zh) | 基于考虑热岛效应负荷预测的配电网优化重构方法 | |
Dang et al. | A floating-point genetic algorithm for solving the unit commitment problem | |
CN104934968A (zh) | 基于多智能体的配网应灾恢复协调控制方法及装置 | |
CN110837915B (zh) | 一种基于混合集成深度学习的电力系统低压负荷点预测及概率预测方法 | |
CN102509153B (zh) | 一种用于配电网故障后重构的方法 | |
CN114818483B (zh) | 一种基于图神经网络的机电扰动定位及传播预测方法 | |
Kordabad et al. | MPC-based reinforcement learning for economic problems with application to battery storage | |
CN114698048A (zh) | 一种基于机器学习的电力通信关键业务路由配置方法 | |
Xing et al. | A graph reinforcement learning-based decision-making platform for real-time charging navigation of urban electric vehicles | |
Gholizadeh et al. | A comparative study of reinforcement learning algorithms for distribution network reconfiguration with deep Q-learning-based action sampling | |
CN112036651A (zh) | 基于量子免疫优化bp神经网络算法的电价预测方法 | |
CN115065728A (zh) | 一种基于多策略强化学习的多目标内容存储方法 | |
CN113344283B (zh) | 基于边缘智能的能源互联网新能源消纳能力评估方法 | |
CN111193295A (zh) | 一种考虑动态重构的配网灵活性提升鲁棒优化调度方法 | |
CN111211560A (zh) | 一种基于最优环路的微电网拓扑规划 | |
Singh et al. | Multi-objective stochastic heuristic methodology for tradespace exploration of a network centric system of systems | |
CN116520074A (zh) | 一种基于云边协同的有源配电网故障定位方法与系统 | |
CN114298429A (zh) | 一种配电网动案辅助决策方法、系统、装置和存储介质 | |
CN112101651B (zh) | 电能源网络协调控制方法、系统及信息数据处理终端 | |
Nezamoddini et al. | Integrated genetic algorithm and artificial neural network | |
CN113609768A (zh) | 基于双向lstm网络的台区线损率计算方法 | |
Fan et al. | Attention-Based Multi-Agent Graph Reinforcement Learning for Service Restoration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |