CN110535146B - 基于深度确定策略梯度强化学习的电力系统无功优化方法 - Google Patents

基于深度确定策略梯度强化学习的电力系统无功优化方法 Download PDF

Info

Publication number
CN110535146B
CN110535146B CN201910793475.3A CN201910793475A CN110535146B CN 110535146 B CN110535146 B CN 110535146B CN 201910793475 A CN201910793475 A CN 201910793475A CN 110535146 B CN110535146 B CN 110535146B
Authority
CN
China
Prior art keywords
network
action
power system
layer
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910793475.3A
Other languages
English (en)
Other versions
CN110535146A (zh
Inventor
徐英
杨丰毓
钱敏慧
陈宁
赵大伟
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
China Electric Power Research Institute Co Ltd CEPRI
Original Assignee
Harbin Institute of Technology
China Electric Power Research Institute Co Ltd CEPRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology, China Electric Power Research Institute Co Ltd CEPRI filed Critical Harbin Institute of Technology
Priority to CN201910793475.3A priority Critical patent/CN110535146B/zh
Publication of CN110535146A publication Critical patent/CN110535146A/zh
Application granted granted Critical
Publication of CN110535146B publication Critical patent/CN110535146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/18Arrangements for adjusting, eliminating or compensating reactive power in networks
    • H02J3/1821Arrangements for adjusting, eliminating or compensating reactive power in networks using shunt compensators
    • H02J3/1871Methods for planning installation of shunt reactive power compensators
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/30Reactive power compensation

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供一种基于深度确定策略梯度强化学习的电力系统无功优化方法,将确定性深度梯度策略算法应用于传统的电力系统无功优化问题之中,通过深度神经网络感知电力系统的电压状态,再利用强化学习方法做出相应的动作决策,以此来做出正确的发电机机端电压调整动作、节点电容器组投切动作、变压器分接头调整动作来调节电力系统中的无功功率分布,从而达到电力系统有功网损最小化,通过把神经网络分为在线网络和目标网络,避免了神经网络每次训练过程中参数更新和相邻训练产生关联,从而避免了电力系统无功优化陷入局部最优的问题。本发明在符合电力系统安全约束的前提下,通过减少电力系统网络损耗来提高电力系统运行的经济性。

Description

基于深度确定策略梯度强化学习的电力系统无功优化方法
技术领域
本发明涉及电力系统无功优化领域,具体涉及一种基于深度确定策略梯度强化学习的电力系统无功优化方法。
背景技术
电力系统的无功分布会影响系统的电能损耗以及节点的电压合格率,因此电力系统无功优化是提高电力系统经济运行的重要手段。电力系统无功优化通过调整电网中的控制设置来实现,如同步发电机机端电压、节点电容器组切换、变压器分接头设置等。电力系统无功优化可以表示为一个数学优化模型,从经济角度考虑,优化的目标为系统的网损最小化。
电力系统无功优化具有电力系统优化所固有的复杂性、非线性性、不准确性以及控制要求实时性强等特性。传统的无功优化方法包括牛顿法,梯度类算法,线性规划法等。牛顿法在处理不等式约束方面不够成熟;梯度类算法对于罚函数和梯度步长的选取要求严格,收敛较慢;线性规划法误差较大且精度不高。近些年来一些智能优化算法被应用于无功优化问题以解决传统算法的不足,例如,粒子群算法,遗传算法,蚁群算法等,基于计算机高效的运算能力使得这些原理上简单且计算方便的算法呈现出了很好的效果,但是它们也各有各的不足之处,粒子群算法收敛太快容易陷入局部收敛;遗传算法不适用于大型电力系统;蚁群算法使用范围不广。
最近几年,深度学习(Deep Learning,DL)作为一个重要的研究热点,已经在图像处理、语音识别、视频分类等领域取得了成功。强化学习(Reinforcement Learning,RL)同样是机器学习领域的研究热点,广泛应用于机器人控制、游戏博弈和优化与调度等领域。谷歌的人工智能团队DeepMind综合深度学习的感知能力和强化学习的决策能力,创造出深度强化学习(Deep Reinforcement Learning,DRL)。深度强化学习可以利用深度学习来自动学习大规模输入数据的抽象表征,并利用强化学习以此表征为依据进行自我激励,来优化就解决问题的策略。所以DRL是一种端对端的感知与控制系统,具有很强的通用性。
如今,利用深度强化学习进行的智能控制已经应用于各个领域,并且取得了重大成功,例如AlphaGo、ATARI Game、机器人控制等,但深度强化学习却很少应用于电力系统优化领域。
发明内容
基于以上不足之处,本发明提供一种基于深度确定策略梯度强化学习的电力系统无功优化方法。本方法在符合电力系统安全约束的前提下,使得整个电力系统的网络损耗达到最小值,从而提高电力系统运行的经济性。
本发明所采用的技术如下:一种基于深度确定策略梯度强化学习的电力系统无功优化方法,步骤如下:
步骤一:利用电力系统无功优化计算中用到的物理量来刻画深度强化学习中的各变量,从而达到深度强化学习算法应用于电力系统无功优化的目的:
Figure GDA0002240827480000021
其中,Ploss为有功网络损耗;k变压器变比;nl为网络总支路数;Gk(i,j)为支路i–j的电导;Ui、Uj分别为节点i、j的电压;ωi、ωj分别为节点i、j的相角;f为电力系统无功优化目的;
步骤二:电力系统的广域测量系统实时获得电力系统各节点的功率、相位、功角、电压幅值的信息;电力系统的监视控制/数据采集系统获得电力系统的实时信息,包括地理信息、系统运行状态的信息;利用这两个系统动态地采集电力系统的数据信息,包括每个节点的电压、电力系统的拓扑信息、各节点的出力和负荷,再结合电力系统的结构参数数据,将这些数据送入电力调度系统的无功优化子系统,作为潮流计算的备用数据和之后神经网络训练所需的数据;
步骤三:算法的初始状态量st为各母线电压节点电压,包括电压的实部和虚部,通过动作神经网络产生电力网络节点动作μ(stμ),包括三种类型的动作:调整发电机机端电压、节点电容器组切换以及变压器分接头设置,在生成记忆集的过程的训练中,加入遵从线性分布的探索噪声;在记忆集生成完毕之后的训练中,加入遵从高斯分布的探索噪声生成控制动作集,动作集at的生成方法表述为:
Figure GDA0002240827480000031
其中,η为探索噪声;U(0,1)为最小值为0,最大值为1的均匀分布;N(0,1)为均值为0,方差为1的正态分布;n为训练次数;C为记忆集大小;所述的动作神经网络由在线动作网络和目标动作网络组成,且两个动作网络的结构完全相同;
步骤四:将at数据进行处理,处理流程如下:
由于在电力系统无功优化的过程中,对发电机机端电压、变压器抽头设置、节点电容器组容量均存在不等式约束,需要对动作值进行限制:
Figure GDA0002240827480000032
式中,atmin和atmax分别为动作值的限制最小值和限制最大值;
在实际电力系统中,发电机、节点电容器组和变压器抽头,它们的调整动作都是离散的分级控制,而深度梯度策略算法中输出的动作是连续的,需要对动作值进行离散化处理:
Figure GDA0002240827480000033
式中,astep为动作的步长;a't为离散化处理后的动作值;
处理后的动作值a't直接加在进行潮流计算所需的母线数据和线路数据之中,即通过改变PV节点的电压值,PQ节点的无功负荷,以及连接线上的电压变比来改变潮流计算结果;
通过新的潮流结果得到电力系统中各节点的母线电压作为新的状态信息st+1和系统的有功网损Ploss,计算得到奖励信息:
Figure GDA0002240827480000034
式中,rt是奖励信号;Ploss是电力系统的有功网损;K是用于降低r相对于Ploss灵敏度的系数,为电力系统总负荷的5%;
步骤五:算法将训练得到的状态-动作-下一个状态-奖励值(st,at,st+1,rt)存入记忆集,这四个数据分别对应电力系统中,上一时刻的节点电压,电力系统动作值,这一时刻的节点电压,以及有功网损,将其作为训练神经网络的数据集,再通过随机采样的方式抽取记忆集中的N组数据放入小批量数据集之中,也就是每次随机采样相同数目且连续的样本作为动作神经网络和估值神经网络的训练数据;所述的估值神经网络由在线估值网络和目标估值网络组成,两个估值网络结构完全相同,将其分别输入动作神经网络的目标动作网络和估值神经网络的目标估值网络,目标动作网络的输出为:μ'(st+1μ'),目标估值网络的输出为q't+1=Q'(st+1,μ'(st+1μ')|θQ'),由此得到标签函数:
yt=rt+γq't+1 (6)
式中,yt为标签值;rt为奖励信号;γ为折扣系数,取接近于1的数;
步骤六:将yt和小批量数据集中的数据作为在线估值网络的输入对其进行训练,定义网络损失函数loss为在线估值网络的输出qt=Q(st,atQ)和标签yt的均方差:
Figure GDA0002240827480000041
其中,N为小批量数据集采样的大小;
基于loss针对θQ的梯度
Figure GDA0002240827480000042
利用亚当斯优化方法对在线估值网络参数进行优化,在线动作网络的策略梯度
Figure GDA0002240827480000043
是利用确定性策略梯度算法中的策略梯度公式得到的:
Figure GDA0002240827480000044
同样基于此梯度策略,采用亚当斯优化器对在线动作网络参数进行优化,以此来进行对在线估值网络和在线动作网络的训练;
步骤七:为了维持各神经网络的稳定,需要利用软更新的方法将在线动作网络和在线估值网络的参数分别传递给目标动作网络和目标估值网络,实现网络参数的更新,以此来进行目标动作网络和目标估值网络的训练:
软更新:
Figure GDA0002240827480000051
式中,θμ'为目标动作网络参数;θQ'为目标估值网络参数;θμ为在线动作网络参数;θQ为在线估值网络参数;τ为更新系数,取接近0的数;
步骤八:循环步骤三到步骤七,并达到最小值,完成无功优化过程;此时,由于动作神经网络的参数也不再变化,从而动作神经网络对应输出的电力系统动作值也收敛,把这个收敛后的动作值传递给相关调度人员,电网的调度人员依据这些动作值来调整机端电压、无功补偿电容器投入组数、变压器抽头设置,从而实现实际电力系统无功优化。
所述的在线动作网络:包含输入层,第一归一化层,第一隐藏层,第二归一化层,第二隐藏层,第三归一化层,输出层;
所述的目标动作网络:包含输入层,第一归一化层,第一隐藏层,第二归一化层,第二隐藏层,第三归一化层,输出层;
所述的在线估值网络:包含输入层,第一隐藏层,第一归一化层,第二隐藏层,第二归一化层,第三隐藏层,第三归一化层,输出层;
所述的目标估值网络:包含输入层,第一隐藏层,第一归一化层,第二隐藏层,第二归一化层,第三隐藏层,第三归一化层,输出层;
所述的每个隐藏层的神经元个数由参数设置决定;
所述的归一化层的计算公式为:
Figure GDA0002240827480000052
其中,z为上一层的输出值;m为上一层的神经元个数;a、b和ε为归一化层的系数;y'是归一层的输出值。
本发明的优点及有益效果:当电力系统中的任意节点动作变量,包括发电机机端电压、节点电容器组切换以及变压器分接头设置改变时,深度强化学习可以通过多层神经网络来感知电力系统各节点高维度状态信息,并且让记忆集得到每个动作值所对应的奖励,以此来达成每个时刻节点动作和电网环境之间的信息交互,从而在记忆集中建立动作和环境的特定关联方式,并将记忆集储存。当建立起足够强大的记忆集之后,又可以利用观察到的环境变量,来产生对应的动作变量,并以此形成一个闭环,来使得整个电力系统逐步趋近无功最优化控制的目标,也就是使得整个电力系统的网络损耗达到最小值。相较于传统控制方法,本发明有如下优点:较好地处理了无功优化问题中的不等式约束问题,使电力系统在符合安全运行的基础上完成电能利用率地提高;由于深度确定策略梯度强化学习可以输出高维的动作,所以本发明适用于电力大系统之中;由于前期记忆集的积累,神经网络的训练收敛速度很快,在良好的硬件条件下无功优化所需时间很短;通过把神经网络分为在线网络和目标网络,避免了神经网络每次训练过程中参数更新和相邻训练产生关联,从而避免了电力系统无功优化陷入局部最优的问题。
附图说明
图1为深度强化学习应用于电力系统流程图;
图2为动作值数据处理流程图;
图3为基于深度确定性策略梯度强化学习的电力系统无功优化方法过程示意图;
图4为基于深度确定性策略梯度强化学习的电力系统无功优化方法在实际应用中的流程图;
图5为动作神经网络结构图;
图6为估值网络结构图;
图7为训练过程中系统的有功网损图;
图8为训练过程中系统发电机机端电压动作值图;
图9为训练过程中系统变压器分接头调整动作图;
具体实施方式
下面根据说明书附图举例对本发明做进一步的说明:
实施例1
一种基于深度确定策略梯度强化学习的电力系统无功优化方法,步骤如下:
步骤一:利用电力系统无功优化计算中用到的物理量来刻画深度强化学习中的各变量,从而达到深度强化学习算法应用于电力系统无功优化的目的:
Figure GDA0002240827480000071
其中,Ploss为有功网络损耗;k变压器变比;nl为网络总支路数;Gk(i,j)为支路i–j的电导;Ui、Uj分别为节点i、j的电压;ωi、ωj分别为节点i、j的相角;f为电力系统无功优化目的;
步骤二:电力系统的广域测量系统实时获得电力系统各节点的功率、相位、功角、电压幅值的信息;电力系统的监视控制/数据采集系统获得电力系统的实时信息,包括地理信息、系统运行状态的信息;利用这两个系统动态地采集电力系统的数据信息,包括每个节点的电压、电力系统的拓扑信息、各节点的出力和负荷,再结合电力系统的结构参数数据,将这些数据送入电力调度系统的无功优化子系统,作为潮流计算的备用数据和之后神经网络训练所需的数据;
步骤三:算法的初始状态量st为各母线电压节点电压,包括电压的实部和虚部,通过动作神经网络产生电力网络节点动作μ(stμ),包括三种类型的动作:调整发电机机端电压、节点电容器组切换以及变压器分接头设置,在生成记忆集的过程的训练中,加入遵从线性分布的探索噪声;在记忆集生成完毕之后的训练中,加入遵从高斯分布的探索噪声生成控制动作集,动作集at的生成方法表述为:
Figure GDA0002240827480000072
其中,η为探索噪声;U(0,1)为最小值为0,最大值为1的均匀分布;N(0,1)为均值为0,方差为1的正态分布;n为训练次数;C为记忆集大小;所述的动作神经网络由在线动作网络和目标动作网络组成,且两个动作网络的结构完全相同;
步骤四:将at数据进行处理,处理流程如下:
由于在电力系统无功优化的过程中,对发电机机端电压、变压器抽头设置、节点电容器组容量均存在不等式约束,需要对动作值进行限制:
Figure GDA0002240827480000081
式中,atmin和atmax分别为动作值的限制最小值和限制最大值;
在实际电力系统中,发电机、节点电容器组和变压器抽头,它们的调整动作都是离散的分级控制,而深度梯度策略算法中输出的动作是连续的,需要对动作值进行离散化处理:
Figure GDA0002240827480000082
式中,astep为动作的步长;a't为离散化处理后的动作值;
处理后的动作值a't直接加在进行潮流计算所需的母线数据和线路数据之中,即通过改变PV节点的电压值,PQ节点的无功负荷,以及连接线上的电压变比来改变潮流计算结果;
通过新的潮流结果得到电力系统中各节点的母线电压作为新的状态信息st+1和系统的有功网损Ploss,计算得到奖励信息:
Figure GDA0002240827480000083
式中,rt是奖励信号;Ploss是电力系统的有功网损;K是用于降低r相对于Ploss灵敏度的系数,其数值为电力系统总负荷的5%;
步骤五:算法将训练得到的状态-动作-下一个状态-奖励值(st,at,st+1,rt)存入记忆集,这四个数据分别对应电力系统中,上一时刻的节点电压,电力系统动作值,这一时刻的节点电压,以及有功网损,将其作为训练神经网络的数据集,再通过随机采样的方式抽取记忆集中的N组数据放入小批量数据集之中,也就是每次随机采样相同数目且连续的样本作为动作神经网络和估值神经网络的训练数据;所述的估值神经网络由在线估值网络和目标估值网络组成,两个估值网络结构完全相同,将其分别输入动作神经网络的目标动作网络和估值神经网络的目标估值网络,目标动作网络的输出为:μ'(st+1μ'),目标估值网络的输出为q't+1=Q'(st+1,μ'(st+1μ')|θQ'),由此得到标签函数:
yt=rt+γq't+1 (6)
式中,yt为标签值;rt为奖励信号;γ为折扣系数,取接近于1的数;
步骤六:将yt和小批量数据集中的数据作为在线估值网络的输入对其进行训练,定义网络损失函数loss为在线估值网络的输出qt=Q(st,atQ)和标签yt的均方差:
Figure GDA0002240827480000091
其中,N为小批量数据集采样的大小;
基于loss针对θQ的梯度
Figure GDA0002240827480000092
利用亚当斯优化方法对在线估值网络参数进行优化,在线动作网络的策略梯度
Figure GDA0002240827480000093
是利用确定性策略梯度算法中的策略梯度公式得到的:
Figure GDA0002240827480000094
同样基于此梯度策略,采用亚当斯优化器对在线动作网络参数进行优化,以此来进行对在线估值网络和在线动作网络的训练;
步骤七:为了维持各神经网络的稳定,需要利用软更新的方法将在线动作网络和在线估值网络的参数分别传递给目标动作网络和目标估值网络,实现网络参数的更新,以此来进行目标动作网络和目标估值网络的训练:
软更新:
Figure GDA0002240827480000095
式中,θμ'为目标动作网络参数;θQ'为目标估值网络参数;θμ为在线动作网络参数;θQ为在线估值网络参数;τ为更新系数,取接近0的数;
步骤八:循环步骤三到步骤七,并达到最小值,完成无功优化过程;此时,由于动作神经网络的参数也不再变化,从而动作神经网络对应输出的电力系统动作值也收敛,把这个收敛后的动作值传递给相关调度人员,电网的调度人员依据这些动作值来调整机端电压、无功补偿电容器投入组数、变压器抽头设置,从而达到实际电力系统无功优化的目的;
其中,
所述的在线动作网络:包含输入层,第一归一化层,第一隐藏层,第二归一化层,第二隐藏层,第三归一化层和输出层;
所述的目标动作网络:包含输入层,第一归一化层,第一隐藏层,第二归一化层,第二隐藏层,第三归一化层和输出层;
所述的在线估值网络:包含输入层,第一隐藏层,第一归一化层,第二隐藏层,
第二归一化层,第三隐藏层,第三归一化层和输出层;
所述的目标估值网络:包含输入层,第一隐藏层,第一归一化层,第二隐藏层,
第二归一化层,第三隐藏层,第三归一化层和输出层;
所述的每个隐藏层的神经元个数由参数设置决定;
所述的归一化层的计算公式为:
Figure GDA0002240827480000101
其中,z为上一层的输出值;m为上一层的神经元个数;a、b和ε为归一化层的系数;y'是归一层的输出值。
在如今的深度强化学习领域拥有众多算法,在该项发明中我们采用确定性深度梯度策略(Deep Deterministic Policy Gradient,DDPG)算法,相较于其他算法,它改变了依据状态计算动作价值再根据贪心法则选择动作的方式,而是省略中间步骤,利用梯度下降法来由环境状态直接产生相应的动作,这样也就加快了其收敛速度。并且DDPG算法还综合了深度Q学习(Deep Q-Learning,DQN)算法的优点,在初始状态时额外拷贝一份神经网络,来避免训练神经网络时每次参数更新产生的前后相关性,从而避免了训练陷入局部最优的问题。综上,DRL中的DDPG算法是一种非常适合应用于电力系统无功优化的算法。当电力系统中的任意节点动作变量,包括发电机机端电压、节点电容器组切换以及变压器分接头设置改变时,深度强化学习可以通过多层神经网络来感知电力系统各节点高维度状态信息,并且让记忆集得到每个动作值所对应的奖励,以此来达成每个时刻节点动作和电网环境之间的信息交互,从而在记忆集中建立动作和环境的特定关联方式,并将记忆集储存。当建立起足够强大的记忆集之后,又可以利用观察到的环境变量,来产生对应的动作变量,并以此形成一个闭环,来使得整个电力系统逐步趋近无功最优化控制的目标,也就是使得整个电力系统的网络损耗达到最小值。
实施例2
本实施例采用基于深度确定性策略梯度强化学习的电力系统无功优化算法对IEEE30节点测试系统进行了无功优化计算。电力系统仿真部分采用Matlab程序计算电力系统潮流;算法部分采用Python语言编程,在Pycharm编译软件上编译通过。同时使用谷歌公司开发的tensorflow1.0深度学习框架和英伟达公司的CUDA9.0计算框架,利用GTX-1060显卡的并行计算引擎,使得整个优化过程拥有了极快的计算速度。
(1)IEEE30节点标准测试系统
该系统有四台变压器,五台发电机,选取了四个补偿点来满足无功优化的需求,节点电压的上下限为1.1和0.95,设机端电压调节是离散的,其调节步长为0.002,该值相当于500kv系统里的1kv,共分75档。设其有四台变压器,变压器有8个分接头,调节步长为2.5%。在四个节点设置节点无功补偿电容器,无功补偿装置的补偿电容上限为0.3,步长为0.01。也就是整个算法中的动作数量是13个。总计动作组合数为765×84×314=9.531×1018种。初始系统的有功损耗为0.0536pu。
(2)DDPG算法参数设置
本项发明中,动作网络的学习率选0.001,估值网络的学习率选0.0001,折扣系数γ选取0.9,软更新中的更新系数τ取0.01,记忆集的容量选取10000,小批量数据集的容量选取64,考虑到电力系统中高维的动作维度,动作神经网络中的第一层隐藏层包含400个神经元,使用relu激活函数,第二层隐藏层包含300个神经元,使用tanh激活函数,输出层包含13个神经元,使用sigmoid激活函数。估值神经网络的隐藏层包含300个神经元,使用tanh激活函数,输出层包含一个神经元。
(3)计算结果
图7为系统有功损耗变化图,如图所示,在经过前10000步的经验集形成过程之后,学习正式开始在经过大概5000步的训练之后,系统的网损达到最小值0.309,较之前的系统减少了42.35%的有功网损,即达到了无功优化的效果,在动作组合数量如此巨大的环境中这样的收敛速度已经达到了不错的效果。并且由于拥有高算力的硬件条件,神经网络每训练5000次只需要一分钟的时间,也就是说,在记忆集形成之后,神经网络经过一分钟的训练之后便可以收敛。图8为五台发电机动作,如图所示,发电机机端电压均满足约束条件。图9为四台变压器分接头调整动作值。综合来看,本发明的优化方法在满足约束条件的情况下,可以达到一个较好优化效果。

Claims (3)

1.一种基于深度确定策略梯度强化学习的电力系统无功优化方法,其特征在于,方法步骤如下:
步骤一:利用电力系统无功优化计算中用到的物理量来刻画深度强化学习中的各变量,从而达到深度强化学习算法应用于电力系统无功优化的目的:
Figure FDA0003808075610000011
其中,Ploss为有功网络损耗;k变压器变比;nl为网络总支路数;Gk(i,j)为支路i–j的电导;Ui、Uj分别为节点i、j的电压;ωi、ωj分别为节点i、j的相角;f为电力系统无功优化目的;
步骤二:电力系统的广域测量系统实时获得电力系统各节点的功率、相位、功角、电压幅值的信息;电力系统的监视控制/数据采集系统获得电力系统的实时信息,包括地理信息、系统运行状态的信息;利用这两个系统动态地采集电力系统的数据信息,包括每个节点的电压、电力系统的拓扑信息、各节点的出力和负荷,再结合电力系统的结构参数数据,将这些数据送入电力调度系统的无功优化子系统,作为潮流计算的备用数据和之后神经网络训练所需的数据;
步骤三:算法的初始状态量st为各母线电压节点电压,包括电压的实部和虚部,通过动作神经网络产生电力网络节点动作μ(stμ),包括三种类型的动作:调整发电机机端电压、节点电容器组切换以及变压器分接头设置,在生成记忆集的过程的训练中,加入遵从线性分布的探索噪声;在记忆集生成完毕之后的训练中,加入遵从高斯分布的探索噪声生成控制动作集,动作集at的生成方法表述为:
Figure FDA0003808075610000012
其中,η为探索噪声;U(0,1)为最小值为0,最大值为1的均匀分布;N(0,1)为均值为0,方差为1的正态分布;n为训练次数;C为记忆集大小;所述的动作神经网络由在线动作网络和目标动作网络组成,且两个动作网络的结构完全相同;
步骤四:将at数据进行处理,处理流程如下:
由于在电力系统无功优化的过程中,对发电机机端电压、变压器抽头设置、节点电容器组容量均存在不等式约束,需要对动作值进行限制:
Figure FDA0003808075610000021
式中,atmin和atmax分别为动作值的限制最小值和限制最大值;
在实际电力系统中,发电机、节点电容器组和变压器抽头,它们的调整动作都是离散的分级控制,而深度梯度策略算法中输出的动作是连续的,需要对动作值进行离散化处理:
Figure FDA0003808075610000022
式中,astep为动作的步长;a't为离散化处理后的动作值;
处理后的动作值a't直接加在进行潮流计算所需的母线数据和线路数据之中,即通过改变PV节点的电压值,PQ节点的无功负荷,以及连接线上的电压变比来改变潮流计算结果;
通过新的潮流结果得到电力系统中各节点的母线电压作为新的状态信息st+1和系统的有功网损Ploss,计算得到奖励信息:
Figure FDA0003808075610000023
式中,rt是奖励信号;Ploss是电力系统的有功网损;K是用于降低rt相对于Ploss灵敏度的系数,为电力系统总负荷的5%;
步骤五:算法将训练得到的状态-动作-下一个状态-奖励值(st,at,st+1,rt)存入记忆集,这四个数据分别对应电力系统中,上一时刻的节点电压,电力系统动作值,这一时刻的节点电压,以及有功网损,将其作为训练神经网络的数据集,再通过随机采样的方式抽取记忆集中的N组数据放入小批量数据集之中,也就是每次随机采样相同数目且连续的样本作为动作神经网络和估值神经网络的训练数据;所述的估值神经网络由在线估值网络和目标估值网络组成,两个估值网络结构完全相同,将其分别输入动作神经网络的目标动作网络和估值神经网络的目标估值网络,目标动作网络的输出为:μ'(st+1μ'),目标估值网络的输出为q't+1=Q'(st+1,μ'(st+1μ')|θQ'),由此得到标签函数:
yt=rt+γq't+1 (6)
式中,yt为标签值;rt为奖励信号;γ为折扣系数,取接近于1的数;
步骤六:将yt和小批量数据集中的数据作为在线估值网络的输入对其进行训练,定义网络损失函数loss为在线估值网络的输出qt=Q(st,atQ)和标签yt的均方差:
Figure FDA0003808075610000031
其中,N为小批量数据集采样的大小;
基于loss针对θQ的梯度
Figure FDA0003808075610000034
利用亚当斯优化方法对在线估值网络参数进行优化,在线动作网络的策略梯度
Figure FDA0003808075610000035
是利用确定性策略梯度算法中的策略梯度公式得到的:
Figure FDA0003808075610000032
同样基于此梯度策略,采用亚当斯优化器对在线动作网络参数进行优化,以此来进行对在线估值网络和在线动作网络的训练;
步骤七:为了维持各神经网络的稳定,需要利用软更新的方法将在线动作网络和在线估值网络的参数分别传递给目标动作网络和目标估值网络,实现网络参数的更新,以此来进行目标动作网络和目标估值网络的训练:
Figure FDA0003808075610000033
式中,θμ'为目标动作网络参数;θQ'为目标估值网络参数;θμ为在线动作网络参数;θQ为在线估值网络参数;τ为更新系数,取接近0的数;
步骤八:循环步骤三到步骤七,并达到最小值,完成无功优化过程;此时,由于动作神经网络的参数也不再变化,从而动作神经网络对应输出的电力系统动作值也收敛,把这个收敛后的动作值传递给相关调度人员,电网的调度人员依据这些动作值来调整机端电压、无功补偿电容器投入组数、变压器抽头设置,从而实现实际电力系统无功优化。
2.根据权利要求1所述的一种基于深度确定策略梯度强化学习的电力系统无功优化方法,其特征在于,
所述的在线动作网络:包含输入层,第一归一化层,第一隐藏层,第二归一化层,第二隐藏层,第三归一化层,输出层;
所述的目标动作网络:包含输入层,第一归一化层,第一隐藏层,第二归一化层,第二隐藏层,第三归一化层,输出层;
所述的在线估值网络:包含输入层,第一隐藏层,第一归一化层,第二隐藏层,第二归一化层,第三隐藏层,第三归一化层,输出层;
所述的目标估值网络:包含输入层,第一隐藏层,第一归一化层,第二隐藏层,第二归一化层,第三隐藏层,第三归一化层,输出层;
所述的每个隐藏层的神经元个数由参数设置决定。
3.根据权利要求2所述的一种基于深度确定策略梯度强化学习的电力系统无功优化方法,其特征在于,所述的归一化层的计算公式为:
Figure FDA0003808075610000041
其中,z为上一层的输出值;m为上一层的神经元个数;a、b和ε为归一化层的系数;y'是归一层的输出值。
CN201910793475.3A 2019-08-27 2019-08-27 基于深度确定策略梯度强化学习的电力系统无功优化方法 Active CN110535146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910793475.3A CN110535146B (zh) 2019-08-27 2019-08-27 基于深度确定策略梯度强化学习的电力系统无功优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910793475.3A CN110535146B (zh) 2019-08-27 2019-08-27 基于深度确定策略梯度强化学习的电力系统无功优化方法

Publications (2)

Publication Number Publication Date
CN110535146A CN110535146A (zh) 2019-12-03
CN110535146B true CN110535146B (zh) 2022-09-23

Family

ID=68664336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910793475.3A Active CN110535146B (zh) 2019-08-27 2019-08-27 基于深度确定策略梯度强化学习的电力系统无功优化方法

Country Status (1)

Country Link
CN (1) CN110535146B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110328668B (zh) * 2019-07-27 2022-03-22 南京理工大学 基于速度平滑确定性策略梯度的机械臂路径规划方法
CN111275572B (zh) * 2020-01-15 2023-07-11 杭州电子科技大学 一种基于粒子群和深度强化学习的机组调度系统及方法
CN111478331B (zh) * 2020-03-17 2023-01-06 中国电力科学研究院有限公司 一种用于调整电力系统潮流收敛的方法及系统
CN111564849B (zh) 2020-05-15 2021-11-02 清华大学 基于两阶段深度强化学习的电网无功电压控制方法
CN111555297B (zh) * 2020-05-21 2022-04-29 广西大学 一种具有三态能源单元的统一时间尺度电压控制方法
CN111523737B (zh) * 2020-05-29 2022-06-28 四川大学 深度q网络驱动的电力系统运行方式自动趋优调整方法
CN111756049B (zh) * 2020-06-18 2021-09-21 国网浙江省电力有限公司电力科学研究院 计及配电网实时量测信息缺失的数据驱动无功优化方法
EP4183018A4 (en) * 2020-07-14 2024-05-15 Ericsson Telefon Ab L M CONTROL OF THE REACTIVE POWER OF AN ELECTRIC NETWORK
CN111884213B (zh) * 2020-07-27 2022-03-08 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法
CN112202196B (zh) * 2020-08-18 2022-04-29 广西大学 一种双馈风力发电机的量子深度强化学习控制方法
CN112072643A (zh) * 2020-08-20 2020-12-11 电子科技大学 一种基于深度确定性梯度策略的光-蓄系统在线调度方法
CN112465664B (zh) * 2020-11-12 2022-05-03 贵州电网有限责任公司 一种基于人工神经网络及深度强化学习的avc智能控制方法
CN112564189B (zh) * 2020-12-15 2023-06-27 深圳供电局有限公司 一种有功无功协调优化控制方法
CN113078641B (zh) * 2021-04-29 2023-02-28 国网山东省电力公司经济技术研究院 一种基于评估器和强化学习的配电网无功优化方法及装置
CN113110359B (zh) * 2021-05-17 2022-05-03 清华大学 约束型智能汽车自主决策系统在线训练方法及装置
CN113595684B (zh) * 2021-07-12 2022-09-16 中国科学院计算技术研究所 一种基于深度强化学习的mptcp动态编码调度方法和系统
CN113807029B (zh) * 2021-10-19 2022-07-29 华北电力大学(保定) 基于深度强化学习的双时间尺度新能源电网电压优化方法
CN113972667A (zh) * 2021-11-29 2022-01-25 昆明理工大学 一种基于一维卷积神经网络的配电网无功优化方法
CN114330649B (zh) * 2021-12-13 2023-02-28 南京邮电大学 一种基于进化学习和深度强化学习的电压调节方法及系统
CN114243718B (zh) * 2021-12-23 2023-08-01 华北电力大学(保定) 一种基于ddpg算法的电网无功电压协调控制方法
CN114336759A (zh) * 2022-01-10 2022-04-12 国网上海市电力公司 一种基于深度强化学习的微电网自治运行电压控制方法
CN114069650B (zh) * 2022-01-17 2022-04-15 南方电网数字电网研究院有限公司 配电网合环电流调控方法、装置、计算机设备和存储介质
CN114648178B (zh) * 2022-05-12 2022-08-26 武汉格蓝若智能技术有限公司 一种基于ddpg算法的电能计量装置运维策略优化方法
CN115752076B (zh) * 2022-10-27 2023-12-01 成都飞创科技有限公司 一种冷却循环水系统控制方法
CN117634320B (zh) * 2024-01-24 2024-04-09 合肥工业大学 基于深度强化学习的三相高频变压器多目标优化设计方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11775850B2 (en) * 2016-01-27 2023-10-03 Microsoft Technology Licensing, Llc Artificial intelligence engine having various algorithms to build different concepts contained within a same AI model
WO2018098575A1 (en) * 2016-11-29 2018-06-07 Peak Power Inc. System and method for dynamic energy storage system control
CN108520472A (zh) * 2018-02-28 2018-09-11 北京邮电大学 一种处理电力系统数据的方法、装置及电子设备
CN109102126B (zh) * 2018-08-30 2021-12-10 燕山大学 一种基于深度迁移学习的理论线损率预测模型
CN110110434B (zh) * 2019-05-05 2020-10-16 重庆大学 一种概率潮流深度神经网络计算的初始化方法

Also Published As

Publication number Publication date
CN110535146A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110535146B (zh) 基于深度确定策略梯度强化学习的电力系统无功优化方法
Zhang et al. A data-driven approach for designing STATCOM additional damping controller for wind farms
CN110472778A (zh) 一种基于Blending集成学习的短期负荷预测方法
CN114362196B (zh) 一种多时间尺度主动配电网电压控制方法
CN104636801A (zh) 一种基于优化bp神经网络的预测输电线路可听噪声方法
CN111666713B (zh) 一种电网无功电压控制模型训练方法及系统
Li et al. Grid-area coordinated load frequency control strategy using large-scale multi-agent deep reinforcement learning
CN113541192A (zh) 基于深度强化学习的海上风电场无功-电压协调控制方法
CN114784823A (zh) 基于深度确定性策略梯度的微电网频率控制方法及系统
Yin et al. Mode-decomposition memory reinforcement network strategy for smart generation control in multi-area power systems containing renewable energy
CN115588998A (zh) 一种基于图强化学习的配电网电压无功优化方法
CN114006370A (zh) 一种电力系统暂态稳定分析评估方法及系统
Zhang et al. Deep reinforcement learning for load shedding against short-term voltage instability in large power systems
CN113141012A (zh) 基于深度确定性策略梯度网络的电网潮流调控决策推理方法
CN113872213B (zh) 一种配电网电压自主优化控制方法及装置
CN111799808A (zh) 一种电网无功电压分布式控制方法及系统
CN114048576B (zh) 一种稳定电网输电断面潮流的储能系统智能化控制方法
CN112787331B (zh) 基于深度强化学习的潮流收敛自动调整方法及系统
Liu et al. Deep reinforcement learning-based voltage control method for distribution network with high penetration of renewable energy
Gao et al. Reactive power optimization of distribution network based on deep reinforcement learning and multi agent system
CN114069650A (zh) 配电网合环电流调控方法、装置、计算机设备和存储介质
CN114243718A (zh) 一种基于ddpg算法的电网无功电压协调控制方法
Yang et al. Data-driven load frequency control based on multi-agent reinforcement learning with attention mechanism
He et al. Fuzzy multiobjective optimal power flow based on modified artificial BEE colony algorithm
CN111860617A (zh) 一种配电网综合优化运行方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Xu Ying

Inventor after: Yang Fengyu

Inventor after: Qian Minhui

Inventor after: Chen Ning

Inventor after: Zhao Dawei

Inventor after: Zhang Wei

Inventor before: Zhang Wei

Inventor before: Yang Fengyu

Inventor before: Qian Minhui

Inventor before: Chen Ning

Inventor before: Zhao Dawei

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant