CN114566971A - 一种基于近端策略优化算法的实时最优潮流计算方法 - Google Patents

一种基于近端策略优化算法的实时最优潮流计算方法 Download PDF

Info

Publication number
CN114566971A
CN114566971A CN202210196338.3A CN202210196338A CN114566971A CN 114566971 A CN114566971 A CN 114566971A CN 202210196338 A CN202210196338 A CN 202210196338A CN 114566971 A CN114566971 A CN 114566971A
Authority
CN
China
Prior art keywords
power
generator
power flow
node
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210196338.3A
Other languages
English (en)
Inventor
赵强
王佳
韩英华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University Qinhuangdao Branch
Original Assignee
Northeastern University Qinhuangdao Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University Qinhuangdao Branch filed Critical Northeastern University Qinhuangdao Branch
Priority to CN202210196338.3A priority Critical patent/CN114566971A/zh
Publication of CN114566971A publication Critical patent/CN114566971A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/04Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
    • H02J3/06Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/466Scheduling the operation of the generators, e.g. connecting or disconnecting generators to meet a given demand
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/48Controlling the sharing of the in-phase component
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/50Controlling the sharing of the out-of-phase component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

可再生能源出力的间歇性和负荷的随机性给电网安全运行带来了挑战,最优潮流需要实时求解以有效帮助电网运营商做出有效的实时决策。本发明提出了一种基于近端策略优化算法的实时最优潮流计算方法,涉及电力系统规划控制领域。首先依据电力系统的拓扑结构、历史信息和潮流求解器构建电力系统仿真环境;然后搭建近端策略优化算法的智能体,在离线训练过程中与环境进行交互并优化智能体参数。离线训练结束后,智能体依据电网中实时状态提供最优动作,得到接近最优的潮流解,实现在线应用。本发明在IEEE14节点系统中进行训练和验证,并与MATPOWER的最优潮流标准解进行比较,验证了该方法在计算实时最优潮流上的有效性。

Description

一种基于近端策略优化算法的实时最优潮流计算方法
技术领域
本发明涉及电力系统规划控制领域,尤其涉及一种基于近端策略优化算法的实时最优潮流计算方法。
背景技术
最优潮流(Optimal Power Flow,OPF)是从电力系统优化运行的角度,调节系统的每个调度间隔t的可控设备,来改变电网潮流的分布情况,在满足电力系统稳定、经济运行的前提下,达到某一目标最优。最优潮流中考虑了无功功率,因此也称交流最优潮流(ACOptimal Power Flow,ACOPF)。目标函数通常设为发电总成本(有功潮流优化)、电网网损(无功潮流优化)。
由于最优潮流是基于电网安全性、稳定性、经济性的优化问题,能维持电网中良好的供电质量,所以在电力系统的经济调度、机组组合、需求响应、可靠性分析、规划设计方面具有广泛应用。从数学模型上分析,基尔霍夫定律引入的节点功率平衡方程是二次等式约束,具有非凸性,这导致了最优潮流是典型的非线性非凸优化问题,难以求出全局最优解。因此,最优潮流求解方法需要在求解速度和质量上得到保证。
目前,最优潮流问题的求解方法主要分为三类:
寻求最优潮流局部最优解。例如梯简化度法、牛顿法、内点法等都属于基于梯度的计算方法,依赖于数学模型,以罚函数法处理约束条件,求解最优潮流的局部最优解。但基于迭代的方式进行寻优,计算时间长,尤其在大规模电网中,无法快速响应电网变化。在如今的电力系统中,高比例的风、光等可再生能源发电和接入的柔性负荷表现出强烈波动性、间歇性和不可控性,给电力系统带来了更多的不确定因素。如果最优潮流解不能快速跟随电网状态的变化,会严重影响配电网的安全稳定运行,因此最优潮流的快速求解十分重要。
对节点功率平衡方程进行近似处理。具有代表性的方法是将交流潮流约束近似为线性的直流潮流约束,然后求解近似的直流最优潮流(DC Optimal Power Flow,DCOPF)问题。直流最优潮流是线性的优化问题,计算速度快,能得到全局最优解。然而,直流最优潮流忽略了原交流最优潮流问题中的无功功率和网损,将节点电压都设为1,导致直流最优潮流解相对于原问题的计算精度不高;且直流最有潮流的全局最优解不一定是原最优潮流问题的可行解。
近年来人工智能技术的快速发展,大量的深度强化学习(Deep ReinforcementLearning,DRL)算法应用到最优潮流问题上。DRL能在离线过程中通过大量的历史数据训练模型,并将训练好的模型在电力系统中在线应用,其中输入为预测或测量的已知变量包括负荷、网络拓扑结构等,输出为实时最优潮流解。DRL将在线的计算负担转移到了离线训练阶段,提高实时应用的计算速度。基于价值的DRL算法,如Q-学习(Q-learning),只适用于离散动作空间;由于电力系统中的变量均属于连续量,若将连续状态、动作强行离散化不能保证决策的最优,还会带来维度灾难。
发明内容
针对现有技术的不足,本发明提供了一种基于近端策略优化即PPO算法的实时最优潮流计算方法。
一种基于近端策略优化算法的实时最优潮流计算方法,具体包括以下步骤:
步骤1:基于DRL算法和依据电力系统的拓扑结构、历史数据信息和MATPOWER内置PF求解器,构建电力系统仿真环境;其中DRL包括智能体、环境、状态、动作和奖励函数;
步骤1.1:构建电力系统交流最优潮流数学模型;设电力系统是由Nb个节点,Ng个发电机和Nl个传输线组成;最优潮流数学模型的目标函数为电力系统中发电机总成本最小,如公式1;等式约束为各节点有功功率平衡约束和无功功率平衡约束,如公式2-3;不等式约束包括发电机有功功率约束和无功功率约束、节点电压幅值约束、线路传输功率约束和发电机有功爬坡约束,如公式4-8;
Figure BDA0003525948630000021
Figure BDA0003525948630000022
Figure BDA0003525948630000023
Figure BDA0003525948630000024
Figure BDA0003525948630000025
Figure BDA0003525948630000026
Figure BDA0003525948630000027
Figure BDA0003525948630000028
式中,
Figure BDA0003525948630000029
为第i台发电机在t时刻的有功功率输出;c2i、c1i和c0i为第i台发电机成本的二次项系数、一次项系数和常数项系数;
Figure BDA0003525948630000031
为分别节点i所连发电机在t时段的有功、无功功率输出;
Figure BDA0003525948630000032
分别为节点i所连负荷在t时段的有功、无功功率;Vi t为节点i在t时段的电压幅值;
Figure BDA0003525948630000033
分别为节点i和j之间所连支路在t时段的电导与电纳;
Figure BDA0003525948630000034
为节点i和j之间所连支路在t时段的相角差;
Figure BDA0003525948630000035
为发电机i有功出力的最大、最小值;
Figure BDA0003525948630000036
为发电机i无功出力的最大、最小值;Vi max、Vi min为节点i电压幅值允许的最大、最小值;
Figure BDA0003525948630000037
为节点i、j间传输线路中的传输功率;
Figure BDA0003525948630000038
为节点i、j间传输线路允许的最大传输功率;
Figure BDA0003525948630000039
为上一时刻发电机i有功出力;
Figure BDA00035259486300000310
分别为发电机i瞬间最大下降和上升有功功率;
步骤1.2:根据电力系统的拓扑结构,构建状态空间;状态包括t时刻各节点所连接的有功负荷、无功负荷、系统电导矩阵、电纳矩阵和t-1时刻发电机有功出力和电压幅值;
Figure BDA00035259486300000311
式中,
Figure BDA00035259486300000312
分别为所有节点在t时段的有功、无功负荷;G、B分别为系统电导矩阵与电纳矩阵;
Figure BDA00035259486300000313
为PV节点发电机在t-1时段的有功出力;
Figure BDA00035259486300000314
为所有发电机在t-1时段的电压幅值;
步骤1.3:依据步骤1.1交流最优潮流数学模型的可控设备即发电机构建动作空间;动作为t时刻负荷下的最佳发电机设定值;
Figure BDA00035259486300000315
式中,
Figure BDA00035259486300000316
为PV节点发电机在t时段的有功出力;
Figure BDA00035259486300000317
为所有发电机在t时段的电压幅值;
步骤1.4:依据步骤1.1交流最优潮流数学模型,构建电力系统仿真环境的奖励函数,在状态st下采取动作at后的即时奖励rt定义为:
Figure BDA00035259486300000318
式中,cost为电力系统中所有发电机总成本;rpg、rv、rs、rg计算公式为:
Figure BDA0003525948630000041
Figure BDA0003525948630000042
Figure BDA0003525948630000043
Figure BDA0003525948630000044
式中,rpg、rv、rs、rg分别对应公式(4)、(6)、(7)、(8),当满足约束时,奖励为0;当不满足约束,该项奖励为超出约束部分经过标准化后的值;经过标准化处理后,发电机有功出力、线路潮流和节点电压约束的奖励均处于同一数量级,便于智能体学习;
步骤2:搭建PPO算法的智能体,并与步骤1构建的仿真环境进行交互,实现离线训练,优化智能体参数;其中,PPO是基于策略梯度的DRL算法;
步骤2.1:搭建智能体包括目标策略target actor、在线策略online actor和评价critic网络;Actor用来拟合状态st映射到动作at的策略函数,输入为状态st,输出为均值μ、方差σ2选择动作的正态分布;Critic用来拟合st映射到状态价值V(st)的值函数,输入为状态st,输出为状态价值Vπ(st);
步骤2.2:初始化智能体中online actor参数θμ、critic参数θQ,target actor参数θμ′←θμ
步骤2.3:初始化PPO超参数包括ημ、ηQ、训练最大回合EP_Max、回合内最大步长EP_Len、批次大小batch_size、KL散度阈值KL_target、clip裁剪率ε、折扣因子γ、NN更新步长update_step,训练回合episode初始化为0;
步骤2.4:在PPO算法中,设置空的控制序列缓存器;
步骤2.5:PPO参数训练步长step初始化为0;
步骤2.6:初始化环境状态,包括负荷数据、电力系统电导矩阵和电纳矩阵、发电机初始设定值;
步骤2.7:PPO算法智能体依据当前状态给出相应动作,step=step+1;
步骤2.8:环境中根据步骤2.7当前动作即发电机有功功率和电压设置,采用MATPOWER内置PF求解器计算潮流方程,PF求解器的PF_ALG设为1,1代表牛顿法,ENFORCE_Q_LIMS设为True,当运行过程中有任何发电机无功越限时,相应节点被转换为PQ节点,将无功出力设定为限制值,PF求解器重新计算潮流方程,在此过程中公式2、3和5得到满足;奖励函数通过判断潮流计算结果是否满足约束条件,给予即时奖励;
步骤2.9:环境转移到下一状态,由于未来调度间隔t的负荷变化尚不明确,因此状态转移具有随机性;并判断潮流计算结果是否满足约束条件,反馈即时奖励;
步骤2.10:将当前状态、动作、即时奖励和下一状态以向量的形式存至PPO算法控制序列缓存器;
步骤2.11:判断step是否达到EP_Len;若未达到EP_Len,执行步骤2.7;若达到则执行下一步骤;
步骤2.12:智能体采用早期停止优化KL-stop方法,梯度更新θμ、θQ,且θμ′←θμ
步骤2.12.1:每隔固定步长update_step更新actor参数时,智能体计算新旧策略之间的平均KL散度;
步骤2.12.2:如果KL超过KL_target,则跳出,执行步骤2.6;如果KL未超过KL_target,则继续执行下一步骤;
步骤2.12.3:利用控制序列缓存器中的数据计算critic损失L(θQ)和actor损失Lclipμ)。
Figure BDA0003525948630000051
Figure BDA0003525948630000052
A(st,at)=r(st,at)+γVπ(st+1)-Vπ(st) (18)
式中,Vπ(st)为st的状态价值;r(st,at)为st下采取动作at的即时奖励;Vπ(st+1)为st+1的状态价值;A(st,at)为优势函数,用来减少估计方差;M为控制序列缓存器中数据量大小;ε为截断率,限制了新策略在可信区域内的更新范围;
Figure BDA0003525948630000053
为参数为θμ的actor网络中,在st下选择at的概率;
Figure BDA0003525948630000054
为参数为θμ′的actor网络中,在st下选择at的概率;
步骤2.12.4:对critic、actor参数θQ、θμ进行更新;
Figure BDA0003525948630000061
Figure BDA0003525948630000062
式中,
Figure BDA0003525948630000063
分别为t+1时刻critic、actor网络参数;
Figure BDA0003525948630000064
分别为t时刻critic、actor网络参数;ηQ、ημ分别为critic、actor网络的学习率;
Figure BDA0003525948630000065
为梯度函数。
步骤2.13:episode=episode+1;判断episode是否达到EP_Max;若未达到EP_Max,执行步骤2.4;若达到则智能体训练结束;
步骤3:离线训练结束后,智能体能够依据电网中实时的状态提供最优动作,从而得到接近最优的潮流解,实现电网中的在线应用。
本发明的有益技术效果:本发明用智能体与环境交互,在离线过程中进行复杂的训练计算,训练好的智能体能在保证精度的同时快速响应当前电网运行状态,提供给合适的发电机设置,大大提高了计算效率。
1.本发明用于计算实时交流最优潮流,当电网具有明显不确定性状态时依旧能快速相应给出最优的发电机设置。这是由于在智能体训练过程中模拟大量历史数据并与电网仿真环境交互,学习了电网状态与最优解之间的非线性映射关系,在离线过程中承担了繁重的学习任务,训练时间较长。但在线应用的过程中,就可以直接将预测或监测到的运行状态作为智能体的输入,映射出最优解。
2.KL-stop技术原理是每隔固定步长更新actor参数时,计算新旧策略之间的平均KL散度。如果KL大于预先设定的阈值,将停止当前批次更新,并继续生成新批次执行更新;如果KL未达到阈值,则可以继续执行梯度更新,从而保证KL不会变得更大。
附图说明
图1为本发明实施例PPO算法解决交流最优潮流的系统框架图;
图2为本发明实施例PPO算法解决交流最优潮流问题流程图;
图3为本发明实施例actor更新步数K为20时,原PPO算法在多次训练回合中变化最大的一组KL散度随更新次数变化曲线;
图4为本发明实施例actor更新步数K为20时,PPO和PPO-KLstop在多次训练回合中平均KL散度随更新次数变化对比曲线;
图5为本发明实施例一天的负荷数据曲线;
图6为本发明实施例IEEE14节点系统拓扑图;
图7为本发明实施例即时奖励随训练次数变化曲线;
图8为本发明实施例累计奖励随训练回合变化曲线;
图9为本发明实施例DRL与MATPOWER交流最优潮流总成本对比曲线。
具体实施方式
下面结合附图和实施例对本发明做进一步说明;
本发明提供了一种基于近端策略优化即PPO算法的实时最优潮流计算方法,PPO算法解决交流最优潮流的系统框架图如附图1所示。PPO是基于策略梯度的DRL算法,能在连续动作空间中找到最优控制策略,解决最优潮流问题中维度灾难问题,加快训练速度。
一种基于近端策略优化算法的实时最优潮流计算方法,流程图如附图2所示,具体包括以下步骤:
步骤1:基于DRL算法和依据电力系统的拓扑结构、历史数据信息和MATPOWER内置PF求解器,构建电力系统仿真环境;其中DRL包括智能体、环境、状态、动作和奖励函数;
步骤1.1:构建电力系统交流最优潮流数学模型;设电力系统是由Nb个节点,Ng个发电机和Nl个传输线组成;最优潮流数学模型的目标函数为电力系统中发电机总成本最小,如公式1;等式约束为各节点有功功率平衡约束和无功功率平衡约束,如公式2-3;不等式约束包括发电机有功功率约束和无功功率约束、节点电压幅值约束、线路传输功率约束和发电机有功爬坡约束,如公式4-8;
Figure BDA0003525948630000071
Figure BDA0003525948630000072
Figure BDA0003525948630000073
Figure BDA0003525948630000074
Figure BDA0003525948630000075
Figure BDA0003525948630000076
Figure BDA0003525948630000077
Figure BDA0003525948630000078
式中,
Figure BDA0003525948630000079
为第i台发电机在t时刻的有功功率输出;c2i、c1i和c0i为第i台发电机成本的二次项系数、一次项系数和常数项系数;
Figure BDA00035259486300000710
为分别节点i所连发电机在t时段的有功、无功功率输出;
Figure BDA0003525948630000081
分别为节点i所连负荷在t时段的有功、无功功率;Vi t为节点i在t时段的电压幅值;
Figure BDA0003525948630000082
分别为节点i和j之间所连支路在t时段的电导与电纳;
Figure BDA0003525948630000083
为节点i和j之间所连支路在t时段的相角差;
Figure BDA0003525948630000084
为发电机i有功出力的最大、最小值;
Figure BDA0003525948630000085
为发电机i无功出力的最大、最小值;Vi max、Vi min为节点i电压幅值允许的最大、最小值;
Figure BDA0003525948630000086
为节点i、j间传输线路中的传输功率;
Figure BDA0003525948630000087
为节点i、j间传输线路允许的最大传输功率;
Figure BDA0003525948630000088
为上一时刻发电机i有功出力;
Figure BDA0003525948630000089
分别为发电机i瞬间最大下降和上升有功功率;
步骤1.2:根据电力系统的拓扑结构,构建状态空间;状态包括t时刻各节点所连接的有功负荷、无功负荷、系统电导矩阵、电纳矩阵和t-1时刻发电机有功出力和电压幅值;
Figure BDA00035259486300000810
式中,
Figure BDA00035259486300000811
分别为所有节点在t时段的有功、无功负荷;G、B分别为系统电导矩阵与电纳矩阵;
Figure BDA00035259486300000812
为PV节点发电机在t-1时段的有功出力;
Figure BDA00035259486300000813
为所有发电机在t-1时段的电压幅值;
步骤1.3:依据步骤1.1交流最优潮流数学模型的可控设备即发电机构建动作空间;动作为t时刻负荷下的最佳发电机设定值;
Figure BDA00035259486300000814
式中,
Figure BDA00035259486300000815
为PV节点发电机在t时段的有功出力;
Figure BDA00035259486300000816
为所有发电机在t时段的电压幅值;
步骤1.4:依据步骤1.1交流最优潮流数学模型,构建电力系统仿真环境的奖励函数,在状态st下采取动作at后的即时奖励rt定义为:
Figure BDA00035259486300000817
式中,cost为电力系统中所有发电机总成本;rpg、rv、rs、rg计算公式为:
Figure BDA00035259486300000818
Figure BDA0003525948630000091
Figure BDA0003525948630000092
Figure BDA0003525948630000093
式中,rpg、rv、rs、rg分别对应公式(4)、(6)、(7)、(8),当满足约束时,奖励为0;当不满足约束,该项奖励为超出约束部分经过标准化后的值;经过标准化处理后,发电机有功出力、线路潮流和节点电压约束的奖励均处于同一数量级,便于智能体学习;
步骤2:搭建PPO算法的智能体,并与步骤1构建的仿真环境进行交互,实现离线训练,优化智能体参数;其中,PPO是基于策略梯度的DRL算法;
步骤2.1:搭建智能体包括目标策略target actor、在线策略online actor和评价critic网络;Actor用来拟合状态st映射到动作at的策略函数,输入为状态st,输出为均值μ、方差σ2选择动作的正态分布;Critic用来拟合st映射到状态价值V(st)的值函数,输入为状态st,输出为状态价值Vπ(st);
步骤2.2:初始化智能体中online actor参数θμ、critic参数θQ,target actor参数θμ′←θμ
步骤2.3:初始化PPO超参数包括ημ、ηQ、训练最大回合EP_Max、回合内最大步长EP_Len、批次大小batch_size、KL散度阈值KL_target、clip裁剪率ε、折扣因子γ、NN更新步长update_step,训练回合episode初始化为0;
步骤2.4:在PPO算法中,设置空的控制序列缓存器;
步骤2.5:PPO参数训练步长step初始化为0;
步骤2.6:初始化环境状态,包括负荷数据、电力系统电导矩阵和电纳矩阵、发电机初始设定值;
步骤2.7:PPO算法智能体依据当前状态给出相应动作,step=step+1;
步骤2.8:环境中根据步骤2.7当前动作即发电机有功功率和电压设置,采用MATPOWER内置PF求解器计算潮流方程,PF求解器的PF_ALG设为1牛顿法,ENFORCE_Q_LIMS设为True,当运行过程中有任何发电机无功越限时,相应节点被转换为PQ节点,将无功出力设定为限制值,PF求解器重新计算潮流方程,在此过程中公式2、3和5得到满足;奖励函数通过判断潮流计算结果是否满足约束条件,给予即时奖励;
步骤2.9:环境转移到下一状态,由于未来调度间隔t的负荷变化尚不明确,因此状态转移具有随机性;并判断潮流计算结果是否满足约束条件,反馈即时奖励;
步骤2.10:将当前状态、动作、即时奖励和下一状态以向量的形式存至PPO算法控制序列缓存器;
步骤2.11:判断step是否达到EP_Len;若未达到EP_Len,执行步骤2.7;若达到则执行下一步骤;
步骤2.12:智能体采用早期停止优化KL-stop方法,梯度更新θμ、θQ,且θμ′←θμ
步骤2.12.1:每隔固定步长update_step更新actor参数时,智能体计算新旧策略之间的平均KL散度;
步骤2.12.2:如果KL超过KL_target,则跳出,执行步骤2.6;如果KL未超过KL_target,则继续执行下一步骤;
actor更新步数K为20时,原PPO算法在多次训练回合中变化最大的一组KL散度随更新次数变化曲线如附图3所示。从图中能看出原PPO算法在训练后期KL散度会很大。actor更新步数K为20时,PPO和PPO-KLstop在多次训练回合中平均KL散度随更新次数变化对比曲线如附图4所示。在此图中可以看出,PPO中加入KL-stop方法,能有效阻止KL散度过大。
步骤2.12.3:利用控制序列缓存器中的数据计算critic损失L(θQ)和actor损失Lclipμ)。
Figure BDA0003525948630000101
Figure BDA0003525948630000102
A(st,at)=r(st,at)+γVπ(st+1)-Vπ(st) (18)
式中,Vπ(st)为st的状态价值;r(st,at)为st下采取动作at的即时奖励;Vπ(st+1)为st+1的状态价值;A(st,at)为优势函数,用来减少估计方差;M为控制序列缓存器中数据量大小;ε为截断率,限制了新策略在可信区域内的更新范围;
Figure BDA0003525948630000103
为参数为θμ的actor网络中,在st下选择at的概率;
Figure BDA0003525948630000111
为参数为θμ′的actor网络中,在st下选择at的概率;
步骤2.12.4:对critic、actor参数θQ、θμ进行更新;
Figure BDA0003525948630000112
Figure BDA0003525948630000113
式中,
Figure BDA0003525948630000114
分别为t+1时刻critic、actor网络参数;
Figure BDA0003525948630000115
分别为t时刻critic、actor网络参数;ηQ、ημ分别为critic、actor网络的学习率;
Figure BDA0003525948630000116
为梯度函数。
步骤2.13:episode=episode+1;判断episode是否达到EP_Max;若未达到EP_Max,执行步骤2.4;若达到则智能体训练结束;
步骤3:离线训练结束后,智能体能够依据电网中实时的状态提供最优动作,从而得到接近最优的潮流解,实现电网中的在线应用。在线应用测试如下:
算例使用Python3.7软件在中央处理器(CPU)为Intel(R)Core(TM)i3-8100、主频为3.60GHz,内存为8GB,操作系统为Windows10的计算机上运行。PPO算法使用tensoflow1.14实现,超参数见表1。PF求解器由工具包MATPOWER7.0提供。
表1.PPO算法超参数设置
Figure BDA0003525948630000117
负荷数据采用纽约地区2018年11月20日-2019年1月3日共45天的数据,功率因数为0.9。每五分钟取一组,共取了12960组数据。前11960组数据作为训练数据,使用剩余1000组数据作为测试数据。在数据中加入了20%的随机噪声表示负荷的不确定性,通过不断变化的负荷数据能证明该模型具有良好的鲁棒性。一天的原负荷数据与加入噪声后的不确定性负荷曲线如附图5所示。
提出的方法在IEEE14节点系统上进行测试。IEEE14节点系统中包含14个节点、20条支路、5个发电机、11个负荷。拓扑图如附图6所示,选用节点1为平衡节点。智能体进行50000次离线训练,训练最大回合EP_Max设为1000,回合内最大步长EP_Len设为50。
在训练开始时,智能体不能做出良好的决策,在每个状态下探索的动作所得奖励多为惩罚。智能体通过与环境不断交互,逐渐向着更好的动作方向进行探索,最终学习到能够获得高累计奖励的良好策略。即时奖励随训练次数变化曲线如附图7所示。累计奖励随训练回合变化曲线如附图8所示,从图中可以看出累计奖励在前300训练回合中快速收敛,然后趋于稳定,其中曲线的波动是智能体跟随状态即不确定性负荷数据执行相应最优动作。
DRL与MATPOWER内置的最优潮流求解器求得的标准解做对比,1000组测试数据的系统总成本对比曲线如附图9所示。测试数据精度达到98.7%。MATPOWER求解一组数据的计算时间为0.09秒,智能体在线求解一组数据的计算时间为0.00937秒,大大提高了交流最优潮流的计算效率。
受可再生能源的波动性和负荷的不确定性影响,为保证电力系统安全稳定运行,交流最优潮流的实时求解受到广泛关注。交流最优潮流为非凸非线性优化问题,难以求解且计算时间较长。基于数学模型的计算方法在舍弃计算精度的情况下提高求解速度。本发明基于无模型的DRL使智能体与环境交互,在离线过程中进行复杂的训练计算,训练好的智能体能在保证精度的同时快速响应当前电网运行状态,提供给合适的发电机设置,大大提高了计算效率。
动作的概率分布的相似程度可以用KL散度(KL-divergence)来计算,分布差别越大则KL越大。PPO利用clip裁剪函数对目标进行裁剪,保证新策略既能在旧策略上有最大的改进,又不会与旧策略相差太远。但clip并没有严格要求KL在一定阈值内更新目标。根据经验,PPO产生的KL散度会随actor网络更新次数增加呈指数增长。KL-stop的优点:1)能确保智能体的策略更新在信任区域内,即智能体的策略变化保持在KL散度阈值内;2)由于KL-stop可能会提前终止本批次的策略参数更新,并立即生成新批次,因此能略微缩短整个训练时间。

Claims (4)

1.一种基于近端策略优化算法的实时最优潮流计算方法,其特征在于,具体包括以下步骤:
步骤1:基于DRL算法和依据电力系统的拓扑结构、历史数据信息和MATPOWER内置PF求解器,构建电力系统仿真环境;其中DRL包括智能体、环境、状态、动作和奖励函数;
步骤2:搭建PPO算法的智能体,并与步骤1构建的仿真环境进行交互,实现离线训练,优化智能体参数;其中,PPO是基于策略梯度的DRL算法;
步骤3:离线训练结束后,智能体能够依据电网中实时的状态提供最优动作,从而得到接近最优的潮流解,实现电网中的在线应用。
2.根据权利要求1所述的一种基于近端策略优化算法的实时最优潮流计算方法,其特征在于,步骤1具体为:
步骤1.1:构建电力系统交流最优潮流数学模型;设电力系统是由Nb个节点,Ng个发电机和Nl个传输线组成;最优潮流数学模型的目标函数为电力系统中发电机总成本最小,如公式1;等式约束为各节点有功功率平衡约束和无功功率平衡约束,如公式2-3;不等式约束包括发电机有功功率约束和无功功率约束、节点电压幅值约束、线路传输功率约束和发电机有功爬坡约束,如公式4-8;
Figure FDA0003525948620000011
Figure FDA0003525948620000012
Figure FDA0003525948620000013
Figure FDA0003525948620000014
Figure FDA0003525948620000015
Figure FDA0003525948620000016
Figure FDA0003525948620000017
Figure FDA0003525948620000018
式中,
Figure FDA0003525948620000019
为第i台发电机在t时刻的有功功率输出;c2i、c1i和c0i为第i台发电机成本的二次项系数、一次项系数和常数项系数;
Figure FDA00035259486200000110
为分别节点i所连发电机在t时段的有功、无功功率输出;
Figure FDA00035259486200000111
分别为节点i所连负荷在t时段的有功、无功功率;Vi t为节点i在t时段的电压幅值;
Figure FDA0003525948620000021
分别为节点i和j之间所连支路在t时段的电导与电纳;
Figure FDA0003525948620000022
为节点i和j之间所连支路在t时段的相角差;
Figure FDA0003525948620000023
为发电机i有功出力的最大、最小值;
Figure FDA0003525948620000024
为发电机i无功出力的最大、最小值;Vi max、Vi min为节点i电压幅值允许的最大、最小值;
Figure FDA0003525948620000025
为节点i、j间传输线路中的传输功率;
Figure FDA0003525948620000026
为节点i、j间传输线路允许的最大传输功率;
Figure FDA0003525948620000027
为上一时刻发电机i有功出力;
Figure FDA0003525948620000028
分别为发电机i瞬间最大下降和上升有功功率;
步骤1.2:根据电力系统的拓扑结构,构建状态空间;状态包括t时刻各节点所连接的有功负荷、无功负荷、系统电导矩阵、电纳矩阵和t-1时刻发电机有功出力和电压幅值;
Figure FDA0003525948620000029
式中,
Figure FDA00035259486200000210
分别为所有节点在t时段的有功、无功负荷;G、B分别为系统电导矩阵与电纳矩阵;
Figure FDA00035259486200000211
为PV节点发电机在t-1时段的有功出力;
Figure FDA00035259486200000212
为所有发电机在t-1时段的电压幅值;
步骤1.3:依据步骤1.1交流最优潮流数学模型的可控设备即发电机构建动作空间;动作为t时刻负荷下的最佳发电机设定值;
Figure FDA00035259486200000213
式中,
Figure FDA00035259486200000214
为PV节点发电机在t时段的有功出力;
Figure FDA00035259486200000215
为所有发电机在t时段的电压幅值;
步骤1.4:依据步骤1.1交流最优潮流数学模型,构建电力系统仿真环境的奖励函数,在状态st下采取动作at后的即时奖励rt定义为:
Figure FDA00035259486200000216
式中,cost为电力系统中所有发电机总成本;rpg、rv、rs、rg计算公式为:
Figure FDA00035259486200000217
Figure FDA0003525948620000031
Figure FDA0003525948620000032
Figure FDA0003525948620000033
式中,rpg、rv、rs、rg分别对应公式(4)、(6)、(7)、(8),当满足约束时,奖励为0;当不满足约束,该项奖励为超出约束部分经过标准化后的值;经过标准化处理后,发电机有功出力、线路潮流和节点电压约束的奖励均处于同一数量级,便于智能体学习。
3.根据权利要求1所述的一种基于近端策略优化算法的实时最优潮流计算方法,其特征在于,步骤2具体为:
步骤2:搭建PPO算法的智能体,并与步骤1构建的仿真环境进行交互,实现离线训练,优化智能体参数;其中,PPO是基于策略梯度的DRL算法;
步骤2.1:搭建智能体包括目标策略target actor、在线策略online actor和评价critic网络;Actor用来拟合状态st映射到动作at的策略函数,输入为状态st,输出为均值μ、方差σ2选择动作的正态分布;Critic用来拟合st映射到状态价值V(st)的值函数,输入为状态st,输出为状态价值Vπ(st);
步骤2.2:初始化智能体中online actor参数θμ、critic参数θQ,target actor参数θμ′←θμ
步骤2.3:初始化PPO超参数包括ημ、ηQ、训练最大回合EP_Max、回合内最大步长EP_Len、批次大小batch_size、KL散度阈值KL_target、clip裁剪率ε、折扣因子γ、NN更新步长update_step,训练回合episode初始化为0;
步骤2.4:在PPO算法中,设置空的控制序列缓存器;
步骤2.5:PPO参数训练步长step初始化为0;
步骤2.6:初始化环境状态,包括负荷数据、电力系统电导矩阵和电纳矩阵、发电机初始设定值;
步骤2.7:PPO算法智能体依据当前状态给出相应动作,step=step+1;
步骤2.8:环境中根据步骤2.7当前动作即发电机有功功率和电压设置,采用MATPOWER内置PF求解器计算潮流方程,PF求解器的PF_ALG设为1,1代表牛顿法,ENFORCE_Q_LIMS设为True,当运行过程中有任何发电机无功越限时,相应节点被转换为PQ节点,将无功出力设定为限制值,PF求解器重新计算潮流方程,在此过程中公式2、3和5得到满足;奖励函数通过判断潮流计算结果是否满足约束条件,给予即时奖励;
步骤2.9:环境转移到下一状态,由于未来调度间隔t的负荷变化尚不明确,因此状态转移具有随机性;并判断潮流计算结果是否满足约束条件,反馈即时奖励;
步骤2.10:将当前状态、动作、即时奖励和下一状态以向量的形式存至PPO算法控制序列缓存器;
步骤2.11:判断step是否达到EP_Len;若未达到EP_Len,执行步骤2.7;若达到则执行下一步骤;
步骤2.12:智能体采用早期停止优化KL-stop方法,梯度更新θμ、θQ,且θμ′←θμ
步骤2.13:episode=episode+1;判断episode是否达到EP_Max;若未达到EP_Max,执行步骤2.4;若达到则智能体训练结束。
4.根据权利要求3所述的一种基于近端策略优化算法的实时最优潮流计算方法,其特征在于,步骤2.12具体为:
步骤2.12.1:每隔固定步长update_step更新actor参数时,智能体计算新旧策略之间的平均KL散度;
步骤2.12.2:如果KL超过KL_target,则跳出,执行步骤2.6;如果KL未超过KL_target,则继续执行下一步骤;
步骤2.12.3:利用控制序列缓存器中的数据计算critic损失L(θQ)和actor损失Lclipμ);
Figure FDA0003525948620000041
Figure FDA0003525948620000042
A(st,at)=r(st,at)+γVπ(st+1)-Vπ(st) (18)
式中,Vπ(st)为st的状态价值;r(st,at)为st下采取动作at的即时奖励;Vπ(st+1)为st+1的状态价值;A(st,at)为优势函数,用来减少估计方差;M为控制序列缓存器中数据量大小;ε为截断率,限制了新策略在可信区域内的更新范围;
Figure FDA0003525948620000043
为参数为θμ的actor网络中,在st下选择at的概率;
Figure FDA0003525948620000051
为参数为θμ′的actor网络中,在st下选择at的概率;
步骤2.12.4:对critic、actor参数θQ、θμ进行更新;
Figure FDA0003525948620000052
Figure FDA0003525948620000053
式中,
Figure FDA0003525948620000054
分别为t+1时刻critic、actor网络参数;
Figure FDA0003525948620000055
分别为t时刻critic、actor网络参数;ηQ、ημ分别为critic、actor网络的学习率;
Figure FDA0003525948620000056
为梯度函数。
CN202210196338.3A 2022-03-01 2022-03-01 一种基于近端策略优化算法的实时最优潮流计算方法 Pending CN114566971A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210196338.3A CN114566971A (zh) 2022-03-01 2022-03-01 一种基于近端策略优化算法的实时最优潮流计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210196338.3A CN114566971A (zh) 2022-03-01 2022-03-01 一种基于近端策略优化算法的实时最优潮流计算方法

Publications (1)

Publication Number Publication Date
CN114566971A true CN114566971A (zh) 2022-05-31

Family

ID=81715523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210196338.3A Pending CN114566971A (zh) 2022-03-01 2022-03-01 一种基于近端策略优化算法的实时最优潮流计算方法

Country Status (1)

Country Link
CN (1) CN114566971A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115360719A (zh) * 2022-08-30 2022-11-18 东北大学秦皇岛分校 基于plnn的电力系统短期电压稳定性评估方法
CN117335414A (zh) * 2023-11-24 2024-01-02 杭州鸿晟电力设计咨询有限公司 一种电力系统交流最优潮流决策方法、装置、设备及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115360719A (zh) * 2022-08-30 2022-11-18 东北大学秦皇岛分校 基于plnn的电力系统短期电压稳定性评估方法
CN115360719B (zh) * 2022-08-30 2024-04-12 东北大学秦皇岛分校 基于plnn的电力系统短期电压稳定性评估方法
CN117335414A (zh) * 2023-11-24 2024-01-02 杭州鸿晟电力设计咨询有限公司 一种电力系统交流最优潮流决策方法、装置、设备及介质
CN117335414B (zh) * 2023-11-24 2024-02-27 杭州鸿晟电力设计咨询有限公司 一种电力系统交流最优潮流决策方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Li et al. Coordinated load frequency control of multi-area integrated energy system using multi-agent deep reinforcement learning
CN112615379B (zh) 基于分布式多智能体强化学习的电网多断面功率控制方法
Li et al. Efficient experience replay based deep deterministic policy gradient for AGC dispatch in integrated energy system
CN111242443B (zh) 基于深度强化学习的能源互联网中虚拟电厂经济调度方法
CN114566971A (zh) 一种基于近端策略优化算法的实时最优潮流计算方法
CN112507614B (zh) 一种分布式电源高渗透率地区电网综合优化方法
Chen et al. Reinforcement-based robust variable pitch control of wind turbines
US20210367424A1 (en) Multi-Objective Real-time Power Flow Control Method Using Soft Actor-Critic
CN112003330B (zh) 一种基于自适应控制的微网能量优化调度方法
CN105207253A (zh) 考虑风电及频率不确定性的agc随机动态优化调度方法
CN106712075A (zh) 一种考虑风电并网系统安全约束的调峰策略优化方法
CN115345380A (zh) 一种基于人工智能的新能源消纳电力调度方法
Al Zishan et al. Adaptive control of plug-in electric vehicle charging with reinforcement learning
Yin et al. Mode-decomposition memory reinforcement network strategy for smart generation control in multi-area power systems containing renewable energy
CN107516892A (zh) 基于处理有功优化约束条件提高电能质量的方法
CN115795992A (zh) 一种基于运行态势虚拟推演的园区能源互联网在线调度方法
CN116470511A (zh) 基于深度强化学习的线路潮流控制方法
CN113872213B (zh) 一种配电网电压自主优化控制方法及装置
CN112012875A (zh) 一种水轮机调节系统pid控制参数的优化方法
CN114722693A (zh) 一种水轮机调节系统二型模糊控制参数的优化方法
Sun et al. Hybrid reinforcement learning for power transmission network self-healing considering wind power
Xi et al. Multi-agent deep reinforcement learning strategy for distributed energy
CN111799820A (zh) 一种电力系统双层智能混合零星云储能对抗调控方法
Haddi et al. Improved optimal power flow for a power system incorporating wind power generation by using Grey Wolf Optimizer algorithm
Liu et al. An AGC dynamic optimization method based on proximal policy optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination