CN114566971A

CN114566971A - 一种基于近端策略优化算法的实时最优潮流计算方法

Info

Publication number: CN114566971A
Application number: CN202210196338.3A
Authority: CN
Inventors: 赵强; 王佳; 韩英华
Original assignee: Northeastern University Qinhuangdao Branch
Current assignee: Northeastern University Qinhuangdao Branch
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-05-31

Abstract

可再生能源出力的间歇性和负荷的随机性给电网安全运行带来了挑战，最优潮流需要实时求解以有效帮助电网运营商做出有效的实时决策。本发明提出了一种基于近端策略优化算法的实时最优潮流计算方法，涉及电力系统规划控制领域。首先依据电力系统的拓扑结构、历史信息和潮流求解器构建电力系统仿真环境；然后搭建近端策略优化算法的智能体，在离线训练过程中与环境进行交互并优化智能体参数。离线训练结束后，智能体依据电网中实时状态提供最优动作，得到接近最优的潮流解，实现在线应用。本发明在IEEE14节点系统中进行训练和验证，并与MATPOWER的最优潮流标准解进行比较，验证了该方法在计算实时最优潮流上的有效性。

Description

一种基于近端策略优化算法的实时最优潮流计算方法

技术领域

本发明涉及电力系统规划控制领域，尤其涉及一种基于近端策略优化算法的实时最优潮流计算方法。

背景技术

最优潮流(Optimal Power Flow，OPF)是从电力系统优化运行的角度，调节系统的每个调度间隔t的可控设备，来改变电网潮流的分布情况，在满足电力系统稳定、经济运行的前提下，达到某一目标最优。最优潮流中考虑了无功功率，因此也称交流最优潮流(ACOptimal Power Flow，ACOPF)。目标函数通常设为发电总成本(有功潮流优化)、电网网损(无功潮流优化)。

由于最优潮流是基于电网安全性、稳定性、经济性的优化问题，能维持电网中良好的供电质量，所以在电力系统的经济调度、机组组合、需求响应、可靠性分析、规划设计方面具有广泛应用。从数学模型上分析，基尔霍夫定律引入的节点功率平衡方程是二次等式约束，具有非凸性，这导致了最优潮流是典型的非线性非凸优化问题，难以求出全局最优解。因此，最优潮流求解方法需要在求解速度和质量上得到保证。

目前，最优潮流问题的求解方法主要分为三类：

寻求最优潮流局部最优解。例如梯简化度法、牛顿法、内点法等都属于基于梯度的计算方法，依赖于数学模型，以罚函数法处理约束条件，求解最优潮流的局部最优解。但基于迭代的方式进行寻优，计算时间长，尤其在大规模电网中，无法快速响应电网变化。在如今的电力系统中，高比例的风、光等可再生能源发电和接入的柔性负荷表现出强烈波动性、间歇性和不可控性，给电力系统带来了更多的不确定因素。如果最优潮流解不能快速跟随电网状态的变化，会严重影响配电网的安全稳定运行，因此最优潮流的快速求解十分重要。

对节点功率平衡方程进行近似处理。具有代表性的方法是将交流潮流约束近似为线性的直流潮流约束，然后求解近似的直流最优潮流(DC Optimal Power Flow，DCOPF)问题。直流最优潮流是线性的优化问题，计算速度快，能得到全局最优解。然而，直流最优潮流忽略了原交流最优潮流问题中的无功功率和网损，将节点电压都设为1，导致直流最优潮流解相对于原问题的计算精度不高；且直流最有潮流的全局最优解不一定是原最优潮流问题的可行解。

近年来人工智能技术的快速发展，大量的深度强化学习(Deep ReinforcementLearning,DRL)算法应用到最优潮流问题上。DRL能在离线过程中通过大量的历史数据训练模型，并将训练好的模型在电力系统中在线应用，其中输入为预测或测量的已知变量包括负荷、网络拓扑结构等，输出为实时最优潮流解。DRL将在线的计算负担转移到了离线训练阶段，提高实时应用的计算速度。基于价值的DRL算法，如Q-学习(Q-learning)，只适用于离散动作空间；由于电力系统中的变量均属于连续量，若将连续状态、动作强行离散化不能保证决策的最优，还会带来维度灾难。

发明内容

针对现有技术的不足，本发明提供了一种基于近端策略优化即PPO算法的实时最优潮流计算方法。

一种基于近端策略优化算法的实时最优潮流计算方法，具体包括以下步骤：

步骤1：基于DRL算法和依据电力系统的拓扑结构、历史数据信息和MATPOWER内置PF求解器，构建电力系统仿真环境；其中DRL包括智能体、环境、状态、动作和奖励函数；

步骤1.1：构建电力系统交流最优潮流数学模型；设电力系统是由N_b个节点，N_g个发电机和N_l个传输线组成；最优潮流数学模型的目标函数为电力系统中发电机总成本最小，如公式1；等式约束为各节点有功功率平衡约束和无功功率平衡约束，如公式2-3；不等式约束包括发电机有功功率约束和无功功率约束、节点电压幅值约束、线路传输功率约束和发电机有功爬坡约束，如公式4-8；

式中，

为第i台发电机在t时刻的有功功率输出；c_2i、c_1i和c_0i为第i台发电机成本的二次项系数、一次项系数和常数项系数；

为分别节点i所连发电机在t时段的有功、无功功率输出；

分别为节点i所连负荷在t时段的有功、无功功率；V_i ^t为节点i在t时段的电压幅值；

分别为节点i和j之间所连支路在t时段的电导与电纳；

为节点i和j之间所连支路在t时段的相角差；

为发电机i有功出力的最大、最小值；

为发电机i无功出力的最大、最小值；V_i ^max、V_i ^min为节点i电压幅值允许的最大、最小值；

为节点i、j间传输线路中的传输功率；

为节点i、j间传输线路允许的最大传输功率；

为上一时刻发电机i有功出力；

分别为发电机i瞬间最大下降和上升有功功率；

步骤1.2：根据电力系统的拓扑结构，构建状态空间；状态包括t时刻各节点所连接的有功负荷、无功负荷、系统电导矩阵、电纳矩阵和t-1时刻发电机有功出力和电压幅值；

式中，

分别为所有节点在t时段的有功、无功负荷；G、B分别为系统电导矩阵与电纳矩阵；

为PV节点发电机在t-1时段的有功出力；

为所有发电机在t-1时段的电压幅值；

步骤1.3：依据步骤1.1交流最优潮流数学模型的可控设备即发电机构建动作空间；动作为t时刻负荷下的最佳发电机设定值；

式中，

为PV节点发电机在t时段的有功出力；

为所有发电机在t时段的电压幅值；

步骤1.4：依据步骤1.1交流最优潮流数学模型，构建电力系统仿真环境的奖励函数，在状态s_t下采取动作a_t后的即时奖励r_t定义为：

式中，cost为电力系统中所有发电机总成本；r_pg、r_v、r_s、r_g计算公式为：

式中，r_pg、r_v、r_s、r_g分别对应公式(4)、(6)、(7)、(8)，当满足约束时，奖励为0；当不满足约束，该项奖励为超出约束部分经过标准化后的值；经过标准化处理后，发电机有功出力、线路潮流和节点电压约束的奖励均处于同一数量级，便于智能体学习；

步骤2：搭建PPO算法的智能体，并与步骤1构建的仿真环境进行交互，实现离线训练，优化智能体参数；其中，PPO是基于策略梯度的DRL算法；

步骤2.1：搭建智能体包括目标策略target actor、在线策略online actor和评价critic网络；Actor用来拟合状态s_t映射到动作a_t的策略函数，输入为状态s_t，输出为均值μ、方差σ²选择动作的正态分布；Critic用来拟合s_t映射到状态价值V(s_t)的值函数，输入为状态s_t，输出为状态价值V^π(s_t)；

步骤2.2：初始化智能体中online actor参数θ^μ、critic参数θ^Q，target actor参数θ^μ′←θ^μ；

步骤2.3：初始化PPO超参数包括η_μ、η_Q、训练最大回合EP_Max、回合内最大步长EP_Len、批次大小batch_size、KL散度阈值KL_target、clip裁剪率ε、折扣因子γ、NN更新步长update_step，训练回合episode初始化为0；

步骤2.4：在PPO算法中，设置空的控制序列缓存器；

步骤2.5：PPO参数训练步长step初始化为0；

步骤2.6：初始化环境状态，包括负荷数据、电力系统电导矩阵和电纳矩阵、发电机初始设定值；

步骤2.7：PPO算法智能体依据当前状态给出相应动作，step＝step+1；

步骤2.8：环境中根据步骤2.7当前动作即发电机有功功率和电压设置，采用MATPOWER内置PF求解器计算潮流方程，PF求解器的PF_ALG设为1，1代表牛顿法，ENFORCE_Q_LIMS设为True，当运行过程中有任何发电机无功越限时，相应节点被转换为PQ节点，将无功出力设定为限制值，PF求解器重新计算潮流方程，在此过程中公式2、3和5得到满足；奖励函数通过判断潮流计算结果是否满足约束条件，给予即时奖励；

步骤2.9：环境转移到下一状态，由于未来调度间隔t的负荷变化尚不明确，因此状态转移具有随机性；并判断潮流计算结果是否满足约束条件，反馈即时奖励；

步骤2.10：将当前状态、动作、即时奖励和下一状态以向量的形式存至PPO算法控制序列缓存器；

步骤2.11：判断step是否达到EP_Len；若未达到EP_Len，执行步骤2.7；若达到则执行下一步骤；

步骤2.12：智能体采用早期停止优化KL-stop方法，梯度更新θ^μ、θ^Q，且θ^μ′←θ^μ；

步骤2.12.1：每隔固定步长update_step更新actor参数时，智能体计算新旧策略之间的平均KL散度；

步骤2.12.2：如果KL超过KL_target，则跳出，执行步骤2.6；如果KL未超过KL_target，则继续执行下一步骤；

步骤2.12.3：利用控制序列缓存器中的数据计算critic损失L(θ^Q)和actor损失L^clip(θ^μ)。

A(s_t,a_t)＝r(s_t,a_t)+γV^π(s_t+1)-V^π(s_t) (18)

式中，V^π(s_t)为s_t的状态价值；r(s_t,a_t)为s_t下采取动作a_t的即时奖励；V^π(s_t+1)为s_t+1的状态价值；A(s_t,a_t)为优势函数，用来减少估计方差；M为控制序列缓存器中数据量大小；ε为截断率，限制了新策略在可信区域内的更新范围；

为参数为θ^μ的actor网络中，在s_t下选择a_t的概率；

为参数为θ^μ′的actor网络中，在s_t下选择a_t的概率；

步骤2.12.4：对critic、actor参数θ^Q、θ^μ进行更新；

式中，

分别为t+1时刻critic、actor网络参数；

分别为t时刻critic、actor网络参数；η_Q、η_μ分别为critic、actor网络的学习率；

为梯度函数。

步骤2.13：episode＝episode+1；判断episode是否达到EP_Max；若未达到EP_Max，执行步骤2.4；若达到则智能体训练结束；

步骤3：离线训练结束后，智能体能够依据电网中实时的状态提供最优动作，从而得到接近最优的潮流解，实现电网中的在线应用。

本发明的有益技术效果：本发明用智能体与环境交互，在离线过程中进行复杂的训练计算，训练好的智能体能在保证精度的同时快速响应当前电网运行状态，提供给合适的发电机设置，大大提高了计算效率。

1.本发明用于计算实时交流最优潮流，当电网具有明显不确定性状态时依旧能快速相应给出最优的发电机设置。这是由于在智能体训练过程中模拟大量历史数据并与电网仿真环境交互，学习了电网状态与最优解之间的非线性映射关系，在离线过程中承担了繁重的学习任务，训练时间较长。但在线应用的过程中，就可以直接将预测或监测到的运行状态作为智能体的输入，映射出最优解。

2.KL-stop技术原理是每隔固定步长更新actor参数时，计算新旧策略之间的平均KL散度。如果KL大于预先设定的阈值，将停止当前批次更新，并继续生成新批次执行更新；如果KL未达到阈值，则可以继续执行梯度更新，从而保证KL不会变得更大。

附图说明

图1为本发明实施例PPO算法解决交流最优潮流的系统框架图；

图2为本发明实施例PPO算法解决交流最优潮流问题流程图；

图3为本发明实施例actor更新步数K为20时，原PPO算法在多次训练回合中变化最大的一组KL散度随更新次数变化曲线；

图4为本发明实施例actor更新步数K为20时，PPO和PPO-KLstop在多次训练回合中平均KL散度随更新次数变化对比曲线；

图5为本发明实施例一天的负荷数据曲线；

图6为本发明实施例IEEE14节点系统拓扑图；

图7为本发明实施例即时奖励随训练次数变化曲线；

图8为本发明实施例累计奖励随训练回合变化曲线；

图9为本发明实施例DRL与MATPOWER交流最优潮流总成本对比曲线。

具体实施方式

下面结合附图和实施例对本发明做进一步说明；

本发明提供了一种基于近端策略优化即PPO算法的实时最优潮流计算方法，PPO算法解决交流最优潮流的系统框架图如附图1所示。PPO是基于策略梯度的DRL算法，能在连续动作空间中找到最优控制策略，解决最优潮流问题中维度灾难问题，加快训练速度。

一种基于近端策略优化算法的实时最优潮流计算方法，流程图如附图2所示，具体包括以下步骤：

式中，

为分别节点i所连发电机在t时段的有功、无功功率输出；

分别为节点i和j之间所连支路在t时段的电导与电纳；

为节点i和j之间所连支路在t时段的相角差；

为发电机i有功出力的最大、最小值；

为节点i、j间传输线路中的传输功率；

为节点i、j间传输线路允许的最大传输功率；

为上一时刻发电机i有功出力；

分别为发电机i瞬间最大下降和上升有功功率；

式中，

为PV节点发电机在t-1时段的有功出力；

为所有发电机在t-1时段的电压幅值；

式中，

为PV节点发电机在t时段的有功出力；

为所有发电机在t时段的电压幅值；

步骤2.4：在PPO算法中，设置空的控制序列缓存器；

步骤2.5：PPO参数训练步长step初始化为0；

步骤2.8：环境中根据步骤2.7当前动作即发电机有功功率和电压设置，采用MATPOWER内置PF求解器计算潮流方程，PF求解器的PF_ALG设为1牛顿法，ENFORCE_Q_LIMS设为True，当运行过程中有任何发电机无功越限时，相应节点被转换为PQ节点，将无功出力设定为限制值，PF求解器重新计算潮流方程，在此过程中公式2、3和5得到满足；奖励函数通过判断潮流计算结果是否满足约束条件，给予即时奖励；

actor更新步数K为20时，原PPO算法在多次训练回合中变化最大的一组KL散度随更新次数变化曲线如附图3所示。从图中能看出原PPO算法在训练后期KL散度会很大。actor更新步数K为20时，PPO和PPO-KLstop在多次训练回合中平均KL散度随更新次数变化对比曲线如附图4所示。在此图中可以看出，PPO中加入KL-stop方法，能有效阻止KL散度过大。

A(s_t,a_t)＝r(s_t,a_t)+γV^π(s_t+1)-V^π(s_t) (18)

为参数为θ^μ的actor网络中，在s_t下选择a_t的概率；

为参数为θ^μ′的actor网络中，在s_t下选择a_t的概率；

步骤2.12.4：对critic、actor参数θ^Q、θ^μ进行更新；

式中，

分别为t+1时刻critic、actor网络参数；

为梯度函数。

步骤3：离线训练结束后，智能体能够依据电网中实时的状态提供最优动作，从而得到接近最优的潮流解，实现电网中的在线应用。在线应用测试如下：

算例使用Python3.7软件在中央处理器(CPU)为Intel(R)Core(TM)i3-8100、主频为3.60GHz，内存为8GB，操作系统为Windows10的计算机上运行。PPO算法使用tensoflow1.14实现，超参数见表1。PF求解器由工具包MATPOWER7.0提供。

表1.PPO算法超参数设置

负荷数据采用纽约地区2018年11月20日-2019年1月3日共45天的数据，功率因数为0.9。每五分钟取一组，共取了12960组数据。前11960组数据作为训练数据，使用剩余1000组数据作为测试数据。在数据中加入了20％的随机噪声表示负荷的不确定性，通过不断变化的负荷数据能证明该模型具有良好的鲁棒性。一天的原负荷数据与加入噪声后的不确定性负荷曲线如附图5所示。

提出的方法在IEEE14节点系统上进行测试。IEEE14节点系统中包含14个节点、20条支路、5个发电机、11个负荷。拓扑图如附图6所示，选用节点1为平衡节点。智能体进行50000次离线训练，训练最大回合EP_Max设为1000，回合内最大步长EP_Len设为50。

在训练开始时，智能体不能做出良好的决策，在每个状态下探索的动作所得奖励多为惩罚。智能体通过与环境不断交互，逐渐向着更好的动作方向进行探索，最终学习到能够获得高累计奖励的良好策略。即时奖励随训练次数变化曲线如附图7所示。累计奖励随训练回合变化曲线如附图8所示，从图中可以看出累计奖励在前300训练回合中快速收敛，然后趋于稳定，其中曲线的波动是智能体跟随状态即不确定性负荷数据执行相应最优动作。

DRL与MATPOWER内置的最优潮流求解器求得的标准解做对比，1000组测试数据的系统总成本对比曲线如附图9所示。测试数据精度达到98.7％。MATPOWER求解一组数据的计算时间为0.09秒，智能体在线求解一组数据的计算时间为0.00937秒，大大提高了交流最优潮流的计算效率。

受可再生能源的波动性和负荷的不确定性影响，为保证电力系统安全稳定运行，交流最优潮流的实时求解受到广泛关注。交流最优潮流为非凸非线性优化问题，难以求解且计算时间较长。基于数学模型的计算方法在舍弃计算精度的情况下提高求解速度。本发明基于无模型的DRL使智能体与环境交互，在离线过程中进行复杂的训练计算，训练好的智能体能在保证精度的同时快速响应当前电网运行状态，提供给合适的发电机设置，大大提高了计算效率。

动作的概率分布的相似程度可以用KL散度(KL-divergence)来计算，分布差别越大则KL越大。PPO利用clip裁剪函数对目标进行裁剪，保证新策略既能在旧策略上有最大的改进，又不会与旧策略相差太远。但clip并没有严格要求KL在一定阈值内更新目标。根据经验，PPO产生的KL散度会随actor网络更新次数增加呈指数增长。KL-stop的优点：1)能确保智能体的策略更新在信任区域内，即智能体的策略变化保持在KL散度阈值内；2)由于KL-stop可能会提前终止本批次的策略参数更新，并立即生成新批次，因此能略微缩短整个训练时间。