CN110443447B - 一种基于深度强化学习调整电力系统潮流的方法及系统 - Google Patents

一种基于深度强化学习调整电力系统潮流的方法及系统 Download PDF

Info

Publication number
CN110443447B
CN110443447B CN201910585367.7A CN201910585367A CN110443447B CN 110443447 B CN110443447 B CN 110443447B CN 201910585367 A CN201910585367 A CN 201910585367A CN 110443447 B CN110443447 B CN 110443447B
Authority
CN
China
Prior art keywords
power
target
section
target section
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910585367.7A
Other languages
English (en)
Other versions
CN110443447A (zh
Inventor
徐华廷
侯金秀
郑清平
于之虹
李淑芳
郑惠萍
吕颖
鲁广明
刘新元
史东宇
马东娟
戴红阳
李蒙赞
王兵
杨尉薇
曲莹
张璐路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Electric Power Research Institute Of Sepc
Beijing University of Posts and Telecommunications
China Electric Power Research Institute Co Ltd CEPRI
Original Assignee
State Grid Electric Power Research Institute Of Sepc
Beijing University of Posts and Telecommunications
China Electric Power Research Institute Co Ltd CEPRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Electric Power Research Institute Of Sepc, Beijing University of Posts and Telecommunications, China Electric Power Research Institute Co Ltd CEPRI filed Critical State Grid Electric Power Research Institute Of Sepc
Priority to CN201910585367.7A priority Critical patent/CN110443447B/zh
Publication of CN110443447A publication Critical patent/CN110443447A/zh
Application granted granted Critical
Publication of CN110443447B publication Critical patent/CN110443447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于深度强化学习调整电力系统潮流的方法及系统,涉及大电网潮流自动调整领域。本发明方法包括:以每个目标断面的待调整有功功率范围作为训练目标的输入信息;对电力系统中可调发电机进行初步筛选;随机获取目标断面m编号及目标断面m的传输功率;基于每个回合的训练目标进一步确定可调发电机的精细筛选策略,并实时补偿有功功率的变化;利用深度强化学习算法生成调整策略;执行调整策略调整电力系统潮流状态,直到将传输功率调整至目标值。本发明可以使电力系统运行方式计算的自动化进行成为可能,具有较大的工程应用价值和推广前景。

Description

一种基于深度强化学习调整电力系统潮流的方法及系统
技术领域
本发明涉及大电网潮流自动调整领域,并且更具体地,涉及一种基于深度强化学习调整电力系统潮流的方法及系统。
背景技术
电力系统运行方式是电力系统调度部门编制的指导电力系统运行的总体技术方案,是整个电网稳定安全运行基础,对电网安全经济运行起着举足轻重的作用。随着我国电网建设的迅猛发展和电网规模的显著扩大,特别是特高压交直流混连大电网格局的逐步形成,电力系统安全稳定特性与机理日趋复杂,电网运行控制难度不断加大,电网运行方式的计算量和调整内容也呈规模性地增长。其中,潮流计算是核心工作,因为电力系统静态稳定、暂态稳定等计算都要以各种运行方式下的潮流计算结果为基础。但是各种潮流方式的调整也是整个电力系统运行方式计算中最为耗时的一个环节,目前仍主要由人工来完成。大量方式人员手动将基础潮流调整至目标运行方式,然后进行暂态稳定分析。此项工作过于依赖方式人员的工作经验,且调整的结果受方式人员的主观影响较大,不同人员调整出的结果不唯一;对于缺乏经验的新手来说,需要花费更长的时间才能得出需要的潮流结果,工作效率低下。
鉴于人工调整潮流存在效率低下和过于依赖人员经验等缺点,迫切需要开发一种能够依靠规则来自动实现潮流调整的算法,众多学者和电力工作人员已经开始了相关算法的研究。潮流调整的过程可看成是一个连续的状态转移概率未知的马尔科夫决策过程,而人工智能算法正擅长于求解这类问题,因此可以使用人工智能算法来实现潮流调整的自动化。
发明内容
针对上述问题,本发明提供了一种基于深度强化学习调整电力系统潮流的方法,包括:
获取待调整电力系统目标断面集合,对每个目标断面进行编号,确定每个目标断面的待调整有功功率范围并作为训练目标的输入信息;
记录任意一个目标断面m的初始功率为
Figure BDA0002114240540000021
并根据断面m的目标功率边界
Figure BDA0002114240540000022
对电力系统中可调发电机进行初步筛选;
随机获取目标断面m编号及目标断面m的传输功率;
针对目标断面m的传输功率确定可调发电机的精细筛选策略,并实时补偿有功功率的变化;
使用基于Actor-Critic架构的确定性策略梯度算法,以电力系统潮流的状态、目标断面m编号和目标断面m的传输功率作为输入,以精细筛选后的发电机的调整策略作为输出,并对其中的Actor网络和Critic网络进行训练,训练生成预设调整策略;
训练完成后,对预设调整策略的Actor网络输入断面编号值m、目标传输功率值
Figure BDA0002114240540000023
和电力系统潮流状态,由Actor网络映射出潮流状态对应的调整策略,并执行调整策略调整电力系统潮流状态,直到目标断面m的传输功率调整至目标值。
可选的,初步筛选包括:
获取可调发电机i的有功功率为最大值和最小值时目标断面m的断面功率的正方向调整量
Figure BDA0002114240540000024
与断面功率的负方向调整量
Figure BDA0002114240540000025
Figure BDA0002114240540000026
的计算公式如下:
Figure BDA0002114240540000027
Figure BDA0002114240540000028
式中,Ω为可调发电机集合、ΩC为目标断面m集合、
Figure BDA0002114240540000029
为发电机i的有功功率为最大值时目标断面m的传输功率值、
Figure BDA0002114240540000031
为可调发电机i的有功功率为最小值时目标断面m的传输功率值和
Figure BDA0002114240540000032
为目标断面m的初始传输功率值;
Figure BDA0002114240540000033
Figure BDA0002114240540000034
按从大到小进行排序并按从大到小的顺序分别累加,直到累加的调整量大于待调整断面m的正方向和负方向目标功率边界值的特定倍数εc,获取初步筛选的可调发电机i集合
Figure BDA0002114240540000035
Figure BDA0002114240540000036
可选的,针对目标断面m的传输功率确定可调发电机的精细筛选策略,并实时补偿有功功率的变化,包括:
针对断面m在
Figure BDA0002114240540000037
范围内的任意目标功率值
Figure BDA0002114240540000038
Figure BDA0002114240540000039
Figure BDA00021142405400000310
中进一步筛选待调整的发电机,使筛选出的发电机的调整量能够覆盖到
Figure BDA00021142405400000311
并且数量最少,获取精细筛选结果;
引入参数
Figure BDA00021142405400000312
Figure BDA00021142405400000313
按从小到大的顺序排列,记录对应的发电机序列。
可选的,当因调整断面有功功率而引起全电网有功功率不平衡时,按照
Figure BDA00021142405400000314
从小到大的排列顺序来选择发电机进行有功功率补偿。
可选的,生成预设调整策略,具体步骤包括:
S51.针对Actor-Critic构架,分别为Actor和Critic构建结构相同且包括n层的深度全连接神经网络,定义Actor的输入为状态量s,输出为动作量a,Critic的输入为状态量和动作量(s,a),输出为状态动作值Q;
所述的状态量s由所有归一化后的可调发电机的有功功率、归一化后的目标断面功率及目标断面编号组成的列向量,动作量a为一个连续的有界的实数并与精细筛选出待调整发电机的可调功率范围按比例映射,状态动作值Q为一实数;
S52.随机初始化Actor网络的网络参数θμ与Critic网络的网络参数θQ,用Actor网络的网络参数θμ初始化目标Actor网络的网络参数θμ’←θμ,用Critic网络的网络参数θQ初始化目标Critic网络的网络参数θQ’←θQ
S53.初始化一个预设值为D经验池R,初始化一个Ornstein-Uhlenbeck过程作为动作噪声Noise;
S54.Actor根据当前状态s及随机生成的目标信息选择基于当前策略的动作并添加上噪声Noise得到动作at,在at的作用下,根据公式:
Figure BDA0002114240540000041
获取出奖励值rt,状态从st转移到st+1,将st,at,rt,st+1组合为一条经验(st,at,rt,st+1),并将其存放在经验池R中,并为其初始化一个采样概率;
S55.从经验池中依概率抽取N条经验数据,对该N条经验计算总的损失
Figure BDA0002114240540000042
对每条经验计算errori=|yi-Q(si,aiQ)|,其中yi=ri+γQ'(s'i,μ'(s'iμ')|θQ'),根据计算得到的errori,更新被采样的N条经验在经验池中的被采样概率
Figure BDA0002114240540000043
其中pi=errori+ε;
S56.根据损失L,利用Adam算法按梯度下降方向更新Critic网络参数θQ
S57.根据公式(4)计算该N条经验计算总的梯度;
Figure BDA0002114240540000044
S58.根据总梯度,利用Adam算法按梯度上升方向更新Actor网络的参数θμ
S59.更新目标Critic网络参数θQ’←τθQ+(1-τ)θQ’,更新目标Actor网络参数θμ’←τθμ+(1-τ)θμ’
S510.确定当前所有随机目标的训练回合下电力系统待调整断面功率以预设的精度达到目标值或达到当前训练回合的最大迭代步数T,生成预设调整策略。
本发明还提供了一种基于深度强化学习调整电力系统潮流的系统,包括:
信息获取模块,获取待调整电力系统目标断面集合,对每个目标断面进行编号,确定每个目标断面的待调整有功功率范围并作为训练目标的输入信息;
第一筛选模块,记录任意一个目标断面m的初始功率为
Figure BDA0002114240540000051
并根据断面m的目标功率边界
Figure BDA0002114240540000052
对电力系统中可调发电机进行初步筛选;
训练目标确定模块,随机获取目标断面m编号及目标断面m的传输功率;
第二筛选模块,针对目标断面m的传输功率确定可调发电机的精细筛选策略,并实时补偿有功功率的变化;
策略生成模块,使用基于Actor-Critic架构的确定性策略梯度算法,以电力系统潮流的状态、目标断面m编号和目标断面m的传输功率作为输入,以精细筛选后的发电机的调整策略作为输出,并对其中的Actor网络和Critic网络进行训练,训练生成预设调整策略;
调整模块,训练完成后,对预设调整策略的Actor网络输入断面编号值m、目标传输功率值
Figure BDA0002114240540000053
和电力系统潮流状态,由Actor网络映射出潮流状态对应的调整策略,并执行调整策略调整电力系统潮流状态,直到目标断面m的传输功率调整至目标值。
可选的,初步筛选包括:
获取可调发电机i的有功功率为最大值和最小值时目标断面m的断面功率的正方向调整量
Figure BDA0002114240540000054
与断面功率的负方向调整量
Figure BDA0002114240540000055
Figure BDA0002114240540000056
的计算公式如下:
Figure BDA0002114240540000057
Figure BDA0002114240540000058
式中,Ω为可调发电机集合、ΩC为目标断面m集合、
Figure BDA0002114240540000059
为发电机i的有功功率为最大值时目标断面m的传输功率值、
Figure BDA00021142405400000510
为可调发电机i的有功功率为最小值时目标断面m的传输功率值和
Figure BDA00021142405400000511
为目标断面m的初始传输功率值;
Figure BDA00021142405400000512
Figure BDA00021142405400000513
按从大到小进行排序并按从大到小的顺序分别累加,直到累加的调整量大于待调整断面m的正方向和负方向目标功率边界值的特定倍数εc,获取初步筛选的可调发电机i集合
Figure BDA00021142405400000514
Figure BDA00021142405400000515
可选的,针对目标断面m的传输功率确定可调发电机的精细筛选策略,并实时补偿有功功率的变化,包括:
针对断面m在
Figure BDA0002114240540000061
范围内的任意目标功率值
Figure BDA0002114240540000062
Figure BDA0002114240540000063
Figure BDA0002114240540000064
中进一步筛选待调整的发电机,使筛选出的发电机的调整量能够覆盖到
Figure BDA0002114240540000065
并且数量最少,获取精细筛选结果;
引入参数
Figure BDA0002114240540000066
Figure BDA0002114240540000067
按从小到大的顺序排列,记录对应的发电机序列。
可选的,当因调整断面有功功率而引起全电网有功功率不平衡时,按照
Figure BDA0002114240540000068
从小到大的排列顺序来选择发电机进行有功功率补偿。
可选的,生成预设调整策略,具体步骤包括:
S51.针对Actor-Critic构架,分别为Actor和Critic构建结构相同且包括n层的深度全连接神经网络,定义Actor的输入为状态量s,输出为动作量a,Critic的输入为状态量和动作量(s,a),输出为状态动作值Q;
所述的状态量s由所有归一化后的可调发电机的有功功率、归一化后的目标断面功率及目标断面编号组成的列向量,动作量a为一个连续的有界的实数并与精细筛选出待调整发电机的可调功率范围按比例映射,状态动作值Q为一实数;
S52.随机初始化Actor网络的网络参数θμ与Critic网络的网络参数θQ,用Actor网络的网络参数θμ初始化目标Actor网络的网络参数θμ’←θμ,用Critic网络的网络参数θQ初始化目标Critic网络的网络参数θQ’←θQ
S53.初始化一个预设值为D经验池R,初始化一个Ornstein-Uhlenbeck过程作为动作噪声Noise;
S54.Actor根据当前状态s及随机生成的目标信息选择基于当前策略的动作并添加上噪声Noise得到动作at,在at的作用下,根据公式:
Figure BDA0002114240540000069
获取出奖励值rt,状态从st转移到st+1,将st,at,rt,st+1组合为一条经验(st,at,rt,st+1),并将其存放在经验池R中,并为其初始化一个采样概率;
S55.从经验池中依概率抽取N条经验数据,对该N条经验计算总的损失
Figure BDA0002114240540000071
对每条经验计算errori=|yi-Q(si,aiQ)|,其中yi=ri+γQ'(s'i,μ'(s'iμ')|θQ'),根据计算得到的errori,更新被采样的N条经验在经验池中的被采样概率
Figure BDA0002114240540000072
其中pi=errori+ε;
S56.根据损失L,利用Adam算法按梯度下降方向更新Critic网络参数θQ
S57.根据公式(4)计算该N条经验计算总的梯度;
Figure BDA0002114240540000073
S58.根据总梯度,利用Adam算法按梯度上升方向更新Actor网络的参数θμ
S59.更新目标Critic网络参数θQ’←τθQ+(1-τ)θQ’,更新目标Actor网络参数θμ’←τθμ+(1-τ)θμ’
S510.确定当前所有随机目标的训练回合下电力系统待调整断面功率以预设的精度达到目标值或达到当前训练回合的最大迭代步数T,生成预设调整策略。
本发明可不依赖方式人员的经验,依据目标和既定规则从零开始自动学习潮流调整方案,并且能够实现在一定范围内,以较高的精度连续调整断面的功率。
本发明可以使电力系统运行方式计算的自动化进行成为可能,具有较大的工程应用价值和推广前景。
附图说明
图1为本发明一种基于深度强化学习调整电力系统潮流的方法流程图;
图2为本发明一种基于深度强化学习调整电力系统潮流的系统结构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
本发明提供了一种基于深度强化学习调整电力系统潮流的方法,如图1所示,包括:
步骤101,获取待调整电力系统目标断面集合,对每个目标断面进行编号,确定每个目标断面的待调整有功功率范围并作为训练目标的输入信息;
步骤102,记录任意一个目标断面m的初始功率为
Figure BDA0002114240540000081
并根据断面m的目标功率边界
Figure BDA0002114240540000082
对电力系统中可调发电机进行初步筛选;
初步筛选包括:
获取可调发电机i的有功功率为最大值和最小值时目标断面m的断面功率的正方向调整量
Figure BDA0002114240540000091
与断面功率的负方向调整量
Figure BDA0002114240540000092
Figure BDA0002114240540000093
的计算公式如下:
Figure BDA0002114240540000094
Figure BDA0002114240540000095
式中,Ω为可调发电机集合、ΩC为目标断面m集合、
Figure BDA0002114240540000096
为发电机i的有功功率为最大值时目标断面m的传输功率值、
Figure BDA0002114240540000097
为可调发电机i的有功功率为最小值时目标断面m的传输功率值和
Figure BDA0002114240540000098
为目标断面m的初始传输功率值;
Figure BDA0002114240540000099
Figure BDA00021142405400000910
按从大到小进行排序并按从大到小的顺序分别累加,直到累加的调整量大于待调整断面m的正方向和负方向目标功率边界值的特定倍数εc,获取初步筛选的可调发电机i集合
Figure BDA00021142405400000911
Figure BDA00021142405400000912
步骤103,随机获取目标断面m编号及目标断面m的传输功率;
步骤104,针对目标断面m的传输功率确定可调发电机的精细筛选策略,并实时补偿有功功率的变化,包括:
针对断面m在
Figure BDA00021142405400000913
范围内的任意目标功率值
Figure BDA00021142405400000914
Figure BDA00021142405400000915
Figure BDA00021142405400000916
中进一步筛选待调整的发电机,使筛选出的发电机的调整量能够覆盖到
Figure BDA00021142405400000917
并且数量最少,获取精细筛选结果;
引入参数
Figure BDA00021142405400000918
Figure BDA00021142405400000919
按从小到大的顺序排列,记录对应的发电机序列;
当因调整断面有功功率而引起全电网有功功率不平衡时,按照
Figure BDA00021142405400000920
从小到大的排列顺序来选择发电机进行有功功率补偿。
步骤105,使用基于Actor-Critic架构的确定性策略梯度算法,以电力系统潮流的状态、目标断面m编号和目标断面m的传输功率作为输入,以精细筛选后的发电机的调整策略作为输出,并对其中的Actor网络和Critic网络进行训练,训练生成预设调整策略,具体包括:
S51.针对Actor-Critic构架,分别为Actor和Critic构建结构相同且包括n层的深度全连接神经网络,定义Actor的输入为状态量s,输出为动作量a,Critic的输入为状态量和动作量(s,a),输出为状态动作值Q;
所述的状态量s由所有归一化后的可调发电机的有功功率、归一化后的目标断面功率及目标断面编号组成的列向量,动作量a为一个连续的有界的实数并与精细筛选出待调整发电机的可调功率范围按比例映射,状态动作值Q为一实数;
S52.随机初始化Actor网络的网络参数θμ与Critic网络的网络参数θQ,用Actor网络的网络参数θμ初始化目标Actor网络的网络参数θμ’←θμ,用Critic网络的网络参数θQ初始化目标Critic网络的网络参数θQ’←θQ
S53.初始化一个预设值为D经验池R,初始化一个Ornstein-Uhlenbeck过程作为动作噪声Noise;
S54.Actor根据当前状态s及随机生成的目标信息选择基于当前策略的动作并添加上噪声Noise得到动作at,在at的作用下,根据公式:
Figure BDA0002114240540000101
获取出奖励值rt,状态从st转移到st+1,将st,at,rt,st+1组合为一条经验(st,at,rt,st+1),并将其存放在经验池R中,并为其初始化一个采样概率;
S55.从经验池中依概率抽取N条经验数据,对该N条经验计算总的损失
Figure BDA0002114240540000102
对每条经验计算errori=|yi-Q(si,aiQ)|,其中yi=ri+γQ'(s'i,μ'(s'iμ')|θQ'),根据计算得到的errori,更新被采样的N条经验在经验池中的被采样概率
Figure BDA0002114240540000103
其中pi=errori+ε;
S56.根据损失L,利用Adam算法按梯度下降方向更新Critic网络参数θQ
S57.根据公式(4)计算该N条经验计算总的梯度;
Figure BDA0002114240540000104
S58.根据总梯度,利用Adam算法按梯度上升方向更新Actor网络的参数θμ
S59.更新目标Critic网络参数θQ’←τθQ+(1-τ)θQ’,更新目标Actor网络参数θμ’←τθμ+(1-τ)θμ’
S510.确定当前所有随机目标的训练回合下电力系统待调整断面功率以预设的精度达到目标值或达到当前训练回合的最大迭代步数T,生成预设调整策略。
步骤106,训练完成后,对预设调整策略的Actor网络输入断面编号值m、目标传输功率值
Figure BDA0002114240540000111
和电力系统潮流状态,由Actor网络映射出潮流状态对应的调整策略,并执行调整策略调整电力系统潮流状态,直到目标断面m的传输功率调整至目标值。
本发明还提供了一种基于深度强化学习调整电力系统潮流的系统200,如图2所示,包括:
信息获取模块201,获取待调整电力系统目标断面集合,对每个目标断面进行编号,确定每个目标断面的待调整有功功率范围并作为训练目标的输入信息;
第一筛选模块202,记录任意一个目标断面m的初始功率为
Figure BDA0002114240540000112
并根据断面m的目标功率边界
Figure BDA0002114240540000113
对电力系统中可调发电机进行初步筛选;
初步筛选包括:
获取可调发电机i的有功功率为最大值和最小值时目标断面m的断面功率的正方向调整量
Figure BDA0002114240540000114
与断面功率的负方向调整量
Figure BDA0002114240540000115
Figure BDA0002114240540000116
的计算公式如下:
Figure BDA0002114240540000117
Figure BDA0002114240540000118
式中,Ω为可调发电机集合、ΩC为目标断面m集合、
Figure BDA0002114240540000119
为发电机i的有功功率为最大值时目标断面m的传输功率值、
Figure BDA00021142405400001110
为可调发电机i的有功功率为最小值时目标断面m的传输功率值和
Figure BDA00021142405400001111
为目标断面m的初始传输功率值;
Figure BDA00021142405400001112
Figure BDA00021142405400001113
按从大到小进行排序并按从大到小的顺序分别累加,直到累加的调整量大于待调整断面m的正方向和负方向目标功率边界值的特定倍数εc,获取初步筛选的可调发电机i集合
Figure BDA0002114240540000121
Figure BDA0002114240540000122
训练目标确定模块203,随机获取目标断面m编号及目标断面m的传输功率;
第二筛选模块204,针对目标断面m的传输功率确定可调发电机的精细筛选策略,并实时补偿有功功率的变化,包括:
针对断面m在
Figure BDA0002114240540000123
范围内的任意目标功率值
Figure BDA0002114240540000124
Figure BDA0002114240540000125
Figure BDA0002114240540000126
中进一步筛选待调整的发电机,使筛选出的发电机的调整量能够覆盖到
Figure BDA0002114240540000127
并且数量最少,获取精细筛选结果;
引入参数
Figure BDA0002114240540000128
Figure BDA0002114240540000129
按从小到大的顺序排列,记录对应的发电机序列。
当因调整断面有功功率而引起全电网有功功率不平衡时,按照
Figure BDA00021142405400001210
从小到大的排列顺序来选择发电机进行有功功率补偿。
策略生成模块205,使用基于Actor-Critic架构的确定性策略梯度算法,以电力系统潮流的状态、目标断面m编号和目标断面m的传输功率作为输入,以精细筛选后的发电机的调整策略作为输出,并对其中的Actor网络和Critic网络进行训练,训练生成预设调整策略,具体包括:
S51.针对Actor-Critic构架,分别为Actor和Critic构建结构相同且包括n层的深度全连接神经网络,定义Actor的输入为状态量s,输出为动作量a,Critic的输入为状态量和动作量(s,a),输出为状态动作值Q;
所述的状态量s由所有归一化后的可调发电机的有功功率、归一化后的目标断面功率及目标断面编号组成的列向量,动作量a为一个连续的有界的实数并与精细筛选出待调整发电机的可调功率范围按比例映射,状态动作值Q为一实数;
S52.随机初始化Actor网络的网络参数θμ与Critic网络的网络参数θQ,用Actor网络的网络参数θμ初始化目标Actor网络的网络参数θμ’←θμ,用Critic网络的网络参数θQ初始化目标Critic网络的网络参数θQ’←θQ
S53.初始化一个预设值为D经验池R,初始化一个Ornstein-Uhlenbeck过程作为动作噪声Noise;
S54.Actor根据当前状态s及随机生成的目标信息选择基于当前策略的动作并添加上噪声Noise得到动作at,在at的作用下,根据公式:
Figure BDA0002114240540000131
获取出奖励值rt,状态从st转移到st+1,将st,at,rt,st+1组合为一条经验(st,at,rt,st+1),并将其存放在经验池R中,并为其初始化一个采样概率;
S55.从经验池中依概率抽取N条经验数据,对该N条经验计算总的损失
Figure BDA0002114240540000132
对每条经验计算errori=|yi-Q(si,aiQ)|,其中yi=ri+γQ'(s'i,μ'(s'iμ')|θQ'),根据计算得到的errori,更新被采样的N条经验在经验池中的被采样概率
Figure BDA0002114240540000133
其中pi=errori+ε;
S56.根据损失L,利用Adam算法按梯度下降方向更新Critic网络参数θQ
S57.根据公式(4)计算该N条经验计算总的梯度;
Figure BDA0002114240540000134
S58.根据总梯度,利用Adam算法按梯度上升方向更新Actor网络的参数θμ
S59.更新目标Critic网络参数θQ’←τθQ+(1-τ)θQ’,更新目标Actor网络参数θμ’←τθμ+(1-τ)θμ’
S510.确定当前所有随机目标的训练回合下电力系统待调整断面功率以预设的精度达到目标值或达到当前训练回合的最大迭代步数T,生成预设调整策略。
调整模块206,训练完成后,对预设调整策略的Actor网络输入断面编号值m、目标传输功率值
Figure BDA0002114240540000141
和电力系统潮流状态,由Actor网络映射出潮流状态对应的调整策略,并执行调整策略调整电力系统潮流状态,直到目标断面m的传输功率调整至目标值。
本发明可不依赖方式人员的经验,依据目标和既定规则从零开始自动学习潮流调整方案,并且能够实现在一定范围内,以较高的精度连续调整断面的功率。本发明可以使电力系统运行方式计算的自动化进行成为可能,具有较大的工程应用价值和推广前景。

Claims (8)

1.一种基于深度强化学习调整电力系统潮流的方法,所述方法包括:
获取待调整电力系统目标断面集合,对每个目标断面进行编号,确定每个目标断面的待调整有功功率范围并作为训练目标的输入信息;
记录任意一个目标断面m的初始功率为
Figure FDA0003874177650000011
并根据断面m的目标功率边界
Figure FDA0003874177650000012
对电力系统中可调发电机进行初步筛选;
随机获取目标断面m编号及目标断面m的传输功率;
针对目标断面m的传输功率确定可调发电机的精细筛选策略,并实时补偿有功功率的变化;
使用基于Actor-Critic架构的确定性策略梯度算法,以电力系统潮流的状态、目标断面m编号和目标断面m的传输功率作为输入,以精细筛选后的发电机的调整策略作为输出,并对其中的Actor网络和Critic网络进行训练,训练生成预设调整策略;
训练完成后,对预设调整策略的Actor网络输入断面编号值m、目标传输功率值
Figure FDA00038741776500000114
和电力系统潮流状态,由Actor网络映射出潮流状态对应的调整策略,并执行调整策略调整电力系统潮流状态,直到目标断面m的传输功率调整至目标值。
2.根据权利要求1所述的方法,所述的初步筛选包括:
获取可调发电机i的有功功率为最大值和最小值时目标断面m的断面功率的正方向调整量
Figure FDA0003874177650000013
与断面功率的负方向调整量
Figure FDA0003874177650000014
Figure FDA0003874177650000015
Figure FDA0003874177650000016
的计算公式如下:
Figure FDA0003874177650000017
Figure FDA0003874177650000018
式中,Ω为可调发电机集合、ΩC为目标断面m集合、
Figure FDA0003874177650000019
为发电机i的有功功率为最大值时目标断面m的传输功率值、
Figure FDA00038741776500000110
为可调发电机i的有功功率为最小值时目标断面m的传输功率值和
Figure FDA00038741776500000111
为目标断面m的初始传输功率值;
Figure FDA00038741776500000112
Figure FDA00038741776500000113
按从大到小进行排序并按从大到小的顺序分别累加,直到累加的调整量大于待调整断面m的正方向和负方向目标功率边界值的特定倍数εc,获取初步筛选的可调发电机i集合
Figure FDA0003874177650000021
Figure FDA0003874177650000022
3.根据权利要求1所述的方法,所述的针对目标断面m的传输功率确定可调发电机的精细筛选策略,并实时补偿有功功率的变化,包括:
针对断面m在
Figure FDA0003874177650000023
范围内的任意目标功率值
Figure FDA0003874177650000024
Figure FDA0003874177650000025
Figure FDA0003874177650000026
中进一步筛选待调整的发电机,使筛选出的发电机的调整量能够覆盖到
Figure FDA0003874177650000027
并且数量最少,获取精细筛选结果;
引入参数
Figure FDA0003874177650000028
Figure FDA0003874177650000029
按从小到大的顺序排列,记录对应的发电机序列。
4.根据权利要求3所述的方法,所述的针对目标断面m的传输功率确定可调发电机的精细筛选策略,并实时补偿有功功率的变化的过程中,当因调整断面有功功率而引起全电网有功功率不平衡时,按照
Figure FDA00038741776500000210
从小到大的排列顺序来选择发电机进行有功功率补偿。
5.一种基于深度强化学习调整电力系统潮流的系统,所述系统包括:
信息获取模块,获取待调整电力系统目标断面集合,对每个目标断面进行编号,确定每个目标断面的待调整有功功率范围并作为训练目标的输入信息;
第一筛选模块,记录任意一个目标断面m的初始功率为
Figure FDA00038741776500000211
并根据断面m的目标功率边界
Figure FDA00038741776500000212
对电力系统中可调发电机进行初步筛选;
训练目标确定模块,随机获取目标断面m编号及目标断面m的传输功率;
第二筛选模块,针对目标断面m的传输功率确定可调发电机的精细筛选策略,并实时补偿有功功率的变化;
策略生成模块,使用基于Actor-Critic架构的确定性策略梯度算法,以电力系统潮流的状态、目标断面m编号和目标断面m的传输功率作为输入,以精细筛选后的发电机的调整策略作为输出,并对其中的Actor网络和Critic网络进行训练,训练生成预设调整策略;
调整模块,训练完成后,对预设调整策略的Actor网络输入断面编号值m、目标传输功率值
Figure FDA0003874177650000031
和电力系统潮流状态,由Actor网络映射出潮流状态对应的调整策略,并执行调整策略调整电力系统潮流状态,直到目标断面m的传输功率调整至目标值。
6.根据权利要求5所述的系统,所述的初步筛选包括:
获取可调发电机i的有功功率为最大值和最小值时目标断面m的断面功率的正方向调整量
Figure FDA0003874177650000032
与断面功率的负方向调整量
Figure FDA0003874177650000033
Figure FDA0003874177650000034
Figure FDA0003874177650000035
的计算公式如下:
Figure FDA0003874177650000036
Figure FDA0003874177650000037
式中,Ω为可调发电机集合、ΩC为目标断面m集合、
Figure FDA0003874177650000038
为发电机i的有功功率为最大值时目标断面m的传输功率值、
Figure FDA0003874177650000039
为可调发电机i的有功功率为最小值时目标断面m的传输功率值和
Figure FDA00038741776500000310
为目标断面m的初始传输功率值;
Figure FDA00038741776500000311
Figure FDA00038741776500000312
按从大到小进行排序并按从大到小的顺序分别累加,直到累加的调整量大于待调整断面m的正方向和负方向目标功率边界值的特定倍数εc,获取初步筛选的可调发电机i集合
Figure FDA00038741776500000313
Figure FDA00038741776500000314
7.根据权利要求5所述的系统,所述的针对目标断面m的传输功率确定可调发电机的精细筛选策略,并实时补偿有功功率的变化,包括:
针对断面m在
Figure FDA00038741776500000315
范围内的任意目标功率值
Figure FDA00038741776500000316
Figure FDA00038741776500000317
Figure FDA00038741776500000318
中进一步筛选待调整的发电机,使筛选出的发电机的调整量能够覆盖到
Figure FDA00038741776500000319
并且数量最少,获取精细筛选结果;
引入参数
Figure FDA00038741776500000320
Figure FDA00038741776500000321
按从小到大的顺序排列,记录对应的发电机序列。
8.根据权利要求7所述的系统,所述的针对目标断面m的传输功率确定可调发电机的精细筛选策略,并实时补偿有功功率的变化的过程中,当因调整断面有功功率而引起全电网有功功率不平衡时,按照
Figure FDA00038741776500000322
从小到大的排列顺序来选择发电机进行有功功率补偿。
CN201910585367.7A 2019-07-01 2019-07-01 一种基于深度强化学习调整电力系统潮流的方法及系统 Active CN110443447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910585367.7A CN110443447B (zh) 2019-07-01 2019-07-01 一种基于深度强化学习调整电力系统潮流的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910585367.7A CN110443447B (zh) 2019-07-01 2019-07-01 一种基于深度强化学习调整电力系统潮流的方法及系统

Publications (2)

Publication Number Publication Date
CN110443447A CN110443447A (zh) 2019-11-12
CN110443447B true CN110443447B (zh) 2022-12-09

Family

ID=68429373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910585367.7A Active CN110443447B (zh) 2019-07-01 2019-07-01 一种基于深度强化学习调整电力系统潮流的方法及系统

Country Status (1)

Country Link
CN (1) CN110443447B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062632B (zh) * 2019-12-24 2023-04-18 国网黑龙江省电力有限公司 一种基于边缘智能的5g能源互联网虚拟电厂经济调度方法
CN111242443B (zh) * 2020-01-06 2023-04-18 国网黑龙江省电力有限公司 基于深度强化学习的能源互联网中虚拟电厂经济调度方法
CN111209710B (zh) * 2020-01-07 2022-07-01 中国电力科学研究院有限公司 一种潮流计算收敛的自动调整方法及装置
CN111478331B (zh) * 2020-03-17 2023-01-06 中国电力科学研究院有限公司 一种用于调整电力系统潮流收敛的方法及系统
CN112615379B (zh) * 2020-12-10 2022-05-13 浙江大学 基于分布式多智能体强化学习的电网多断面功率控制方法
CN113159341A (zh) * 2021-04-23 2021-07-23 中国电力科学研究院有限公司 融合深度强化学习和专家经验的配电网辅助决策方法及系统
CN113872210A (zh) * 2021-10-14 2021-12-31 广东电网有限责任公司 一种电网关键断面潮流校核方法及装置
CN114002957B (zh) * 2021-11-02 2023-11-03 广东技术师范大学 一种基于深度强化学习的智能控制方法及系统
CN116226662B (zh) * 2023-01-05 2024-02-09 哈尔滨工业大学(深圳) 一种多智能体协同强化学习方法、终端及存储介质
CN116345578B (zh) * 2023-05-26 2023-09-15 南方电网数字电网研究院有限公司 基于深度确定性策略梯度的微电网运行优化调度方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103633649A (zh) * 2013-12-19 2014-03-12 国家电网公司 一种电网未来态交流潮流生成方法
CN109873425A (zh) * 2017-12-01 2019-06-11 中国电力科学研究院有限公司 基于深度学习和用户行为的电力系统调整潮流方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10023195B2 (en) * 2016-08-11 2018-07-17 Caterpillar Inc. Powertrain operation and regulation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103633649A (zh) * 2013-12-19 2014-03-12 国家电网公司 一种电网未来态交流潮流生成方法
CN109873425A (zh) * 2017-12-01 2019-06-11 中国电力科学研究院有限公司 基于深度学习和用户行为的电力系统调整潮流方法及系统

Also Published As

Publication number Publication date
CN110443447A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110443447B (zh) 一种基于深度强化学习调整电力系统潮流的方法及系统
CN110110930B (zh) 一种改进鲸鱼算法的循环神经网络短期电力负荷预测方法
CN112132427B (zh) 一种考虑用户侧多种资源接入的电网多层规划方法
CN110175386B (zh) 变电站电气设备温度预测方法
CN110516840A (zh) 基于改进随机森林方法的风光发电出力的短期预测方法
CN109766745B (zh) 强化学习三态组合长短时记忆神经网络系统及训练和预测方法
CN109255477B (zh) 一种基于深度极限学习机的风速预测方法及其系统和机组
CN102129511A (zh) 一种基于matlab的风电场短期风速预测系统
CN113489015B (zh) 一种基于强化学习的配电网多时间尺度无功电压控制方法
EP3640869A1 (en) Method for predicting an energy demand, data processing system and renewable power plant with a storage
Duan et al. A deep reinforcement learning based approach for optimal active power dispatch
CN105896575B (zh) 基于自适应动态规划的百兆瓦储能功率控制方法及系统
CN113159341A (zh) 融合深度强化学习和专家经验的配电网辅助决策方法及系统
CN107609774A (zh) 一种基于思维进化算法优化小波神经网络的光伏功率预测方法
CN112330012B (zh) 一种基于迁移学习的建筑能耗预测方法及设备
CN115034493B (zh) 一种考虑机组运行状态的风电场黑启动路径寻优方法
CN107330573A (zh) 一种光伏系统关键设备的状态评估方法及装置
CN117057228A (zh) 一种基于深度强化学习的逆变器多目标优化方法
CN115764870A (zh) 基于自动化机器学习的多变量光伏发电功率预测方法与装置
CN112819224B (zh) 基于深度学习融合模型的机组出力预测及置信评估方法
CN113759723A (zh) 一种基于遗传算法的最优混合h2/h∞鲁棒控制器设计方法
CN117808151A (zh) 一种基于粒子群-遗传融合算法的变电站无功优化方法
CN117410959A (zh) 一种基于eemd-gwo-lstm网络和mc误差修正的电网负荷超短期预测方法
CN116880191A (zh) 一种基于时序预测的过程工业生产系统的智能控制方法
CN106779248B (zh) 一种基于极限迁移学习的电力系统经济调度分散q方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant