CN113239625A

CN113239625A - 一种基于深度强化学习的电网稳定变化趋势预测方法及系统

Info

Publication number: CN113239625A
Application number: CN202110564823.7A
Authority: CN
Inventors: 史东宇; 孟宪博; 李铁; 唐俊刺; 张璐路; 侯金秀; 崔岱; 孙文涛; 严剑锋; 于之虹; 吕颖; 鲁广明
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-08-10

Abstract

本发明公开了一种基于深度强化学习的电网稳定变化趋势预测方法及系统，属于电力系统稳定分析技术领域。本发明方法，包括：以预设周期模拟当前电网运行点的运行，并预测当前电网运行点的运行趋势；采集每个运行周期的运行趋势数据，针对运行趋势数据进行训练，获取训练模型；针对训练模型，进行测试，若训练模型测试后满足条件，以训练模型作为预测模型；采集目标电网运行点的运行数据，使用预测模型对目标电网运行点稳定变化趋势进行预测。本发明中G策略网络通过训练的确“学习”到了使电网调优的策略，与NOP和DIS相比有一定的优势，训练过程没有加入任何电网稳定的先验经验，是模型完全通过仿真数据和自主学习获取的。

Description

一种基于深度强化学习的电网稳定变化趋势预测方法及系统

技术领域

本发明涉及电力系统稳定分析技术领域，并且更具体地，涉及一种基于深度强化学习的电网稳定变化趋势预测方法及系统。

背景技术

电网趋势预警技术，基于在线运行方式，利用未来短时间内的计划数据(例如断面功率计划、发电计划等)和预测数据(例如超短期负荷预测)，形成未来短时间内的潮流数据；进而针对未来潮流数据进行静态安全分析、短路电流、电压稳定、暂态稳定、小扰动稳定和稳定裕度评估六类安全稳定计算，结合当前电网运行状态的详细安全评估信息，可评估系统未来状态的安全稳定变化趋势。最后，依据未来运行状态的安全稳定性和安全稳定变化趋势，给出相应的智能预警。

对未来电网稳定趋势的判别，核心在于未来态潮流的准确性，其影响因素可分为确定性因素和不确定性因素，前者较为准确，主要包括发电计划、检修计划、直流计划等，后者则变化波动较大，主要指负荷预测、新能源预测以及突发事件(如设备故障等)。由于不确定性因素的作用，未来电网稳定的变化应呈现概率分布的特征，并且距离当前时间越远，其可能出现的状态就越为分散，不确定性越强。

要想对电网稳定变化趋势进行准确判别，就需要对各种可能出现的运行方式进行分析，如果单纯采用仿真的方法，整体计算量会随时间的增加而急剧上升，难以在实际中进行应用。

发明内容

针对上述问题，本发明提出了一种基于深度强化学习的电网稳定变化趋势预测方法，包括：

以当前电网运行点的运行数据作为基础数据，以预设周期模拟当前电网运行点的运行，并预测当前电网运行点的运行趋势；采集每个运行周期的运行趋势数据，针对运行趋势数据进行训练，获取训练模型；

针对训练模型，进行测试，若训练模型测试后满足条件，以训练模型作为预测模型；

采集目标电网运行点的运行数据，使用预测模型对目标电网运行点稳定变化趋势进行预测。

可选的，预设周期内以多种不同的运行方式模拟当前电网运行点的运行，并以预设的时间间隔对运行趋势进行更新，运行周期为3-5小时，所述运行方式顺序产生。

可选的，运行周期内进行当前电网运行点运行方式的潮流计算及稳定校验，或潮流不收敛或稳定校验不通过，终止模拟运行。

可选的，获取训练模型，使用值函数网络、D策略网络和G策略网络进行训练，当值函数网络、D策略网络和G策略网络输入数据后，进行一次参数更新，直至训练结束。

可选的，测试的过程如下：

针对训练模型，生成多种不同的运行方式，运行方式个数与模拟当前电网运行点的运行使用的运行方式个数相同；

将多种不同的运行方式依次输入至训练模型的D策略网络，针对运行方式生成不可控因素的调整动作，并进行调整，形成多种中间运行方式；

将多种中间运行方式依次输入训练模型的G策略网络和两个对比策略网络，生成3种新的运行方式，然后分别对3种新的运行方式进行潮流计算和稳定校验，若出现任意一种新的运行方式潮流不收敛或稳定校验不通过，终止测试。

可选的，使用预测模型对目标电网运行点稳定变化趋势进行预测，包括：

将目标电网运行点的运行数据作为预测模型中D策略网络和G策略网络的输入数据，且输入数据作为待调整策略；

将待调整策略中每个设备的调整量乘预设的正态函数随机值，生成调整策略；

将调整策略与目标电网运行点的电网状态叠加，生成未来态潮流；

针对未来态潮流的稳定指标进行评估，获取评估值，以评估值的最大值及最小值作为电网稳定指标的区间范围，通过区间范围预测目标电网运行点的稳定变化趋势。

可选的，D策略网络和G策略网络中，所述D策略网络针对运行数据中负荷有功进行调整，约束条件为单个负荷单次功率变化<5％，总负荷运行周期内累计变化<50％，所述G策略网络针对运行数据中机组有功进行调整，约束条件为单个机组单次功率变化<5％。

本发明还提了一种基于深度强化学习的电网稳定变化趋势预测系统，包括：

训练单元，以当前电网运行点的运行数据作为基础数据，以预设周期模拟当前电网运行点的运行，并预测当前电网运行点的运行趋势；采集每个运行周期的运行趋势数据，针对运行趋势数据进行训练，获取训练模型；

测试单元，针对训练模型，进行测试，若训练模型测试后满足条件，以训练模型作为预测模型；

训练单元，采集目标电网运行点的运行数据，使用预测模型对目标电网运行点稳定变化趋势进行预测。

可选的，测试的过程如下：

本发明中G策略网络通过训练的确“学习”到了使电网调优的策略，与NOP和DIS相比有一定的优势，训练过程没有加入任何电网稳定的先验经验，是模型完全通过仿真数据和自主学习获取的。

附图说明

图1为本发明方法的框架图；

图2为本发明方法的流程图；

图3为本发明方法实施例验证的系统图；

图4为本发明方法实施例稳定性指标变化过程图；

图5为本发明系统的结构图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

下面结合实施例对本发明进行进一步的说明：

本发明主要引入强化学习中的近端策略优化算法(Proximal PolicyOptimization,PPO)，并进行了针对性的改进，以适应电网应用的需求。PPO算法属于强化学习中的策略梯度(Policy Gradient)分支，它采用Actor-Critic框架，并在传统方法的基础上做了如下改进：

采用正态分布来对连续动作空间进行建模，而传统方法只能对离散动作空间进行建模；

通过重要性采样技术来实现数据的重用，提升了训练效率；

N步更新策略，即用最终状态的值函数估算值来反推前面各步状态的值函数。

本发明在原有AC框架的基础上进行改进，保留Critic网络对值函数进行评估，同时把Actor网络分为D策略网络和G策略网络：D策略网络用于模拟未来潮流中的不可控部分，如上述新能源功率、负荷功率、突发事件等不确定性因素，并且以破坏电网稳定作为目标；G策略网络用于模拟电网调度中的可控部分，如发电机功率、直流系统功率等，它的目标是应对D策略动作，提升电网稳定性，框架图如图1所示。

本发明方法流程如图2所示，包括如下：

训练过程：

训练过程模拟真实的趋势预警系统，以当前电网运行点为运行数据为基础，预测未来4小时的变化趋势，每15分钟更新一次，共计16个不同的运行方式，为一个运行周期，对应模型训练的一次迭代(Episode)，16个运行方式顺序产生，当中间出现潮流不收敛或者稳定校验不通过时结束本次运行周期。

在每个运行周期结束时，收集本周期的数据，发送给模型训练程序，进行一次训练，即对值函数网络、D策略网络和G策略网络各进行一次参数更新，直至训练结束。需要注意的是，D策略与G策略对于稳定性的调整目标是相反的，即在训练D策略时需要最小化回报值，而训练G策略时则正好相反。

测试过程：

测试过程不用进行值函数评估，仅应用D策略网络和G策略网络来不断生成新的运行方式，为了验证G策略的有效性，算例设定了两个对比策略：

1)所有机组的有功功率不变，仅通过平衡机来承担不平衡功率，简称NOP；2)所有机组以当前功率与功率限值的差值作为比例，共同承担不平衡功率，模拟AGC动作策略，简称DIS。

每个测试周期步骤如下：

随机生成一个初始运行方式；

把运行方式输入D网络，生成不可控因素的调整动作，并实际进行调整，形成中间运行方式；

把中间运行方式输入G策略，以及两个对比策略，形成3套新的运行方式，然后分别进行潮流计算和稳定评估；

不断重复上述步骤，直至完成一次完整周期(16个新运行方式)或满足终止条件(潮流不收敛或稳定校验不通过)。

应用过程：

在线应用时，可分如下步骤进行：

当系统接收到当前电网运行数据后，把数据作为D网络和G网络的输入，其输入即是电网的调整策略；

在每个设备的调整量上乘以均值为1、方差为0.05的正态函数随机值；

把调整策略与当前电网状态叠加，形成未来态潮流；

利用快速判稳模型对未来态潮流的稳定指标进行评估；

重复上述步骤，生成足够数量的未来态潮流，把所有潮流中电网稳定指标的最大值和最小值作为结果进行输出，代表未来电网稳定指标的区间范围。

其中，本发明使用回报函数，本发明采用电力系统在预想故障下的整体稳定性作为调整动作的回报，例如采用重要线路临界切除时间(CCT)的平均值作为整体稳定性指标，显然整体指标越高则回报值越大，通常此情况下回报值为正数；当预想故障存在系统失稳情况时，给予一个较低回报值，同时终止迭代周期；当调整后运行方式的潮流不收敛时，给予最低的回报值，同时终止迭代。

其中，本发明使用的调控手段与下棋或其他强化学习典型应用不同，本算法存在两个策略网络，并且两个策略网络可以选择的动作完全不同，D网络动作可以调整负荷有功、新能源发电或随机开断设备，G网络动作可以调整机组有功、直流输送功率或投退设备。

其中本发明使用的动作约束，为了考虑算法的实用性，需要针对调整动作进行约束。本次算例中D网络只能针对负荷有功进行调整，约束条件为单个负荷单次功率变化<5％，总负荷整个周期累计变化<50％；G网络只能针对机组有功进行调整，约束条件为单个机组单次功率变化<5％。

本发明采用WEPRI36节点数据来验证本发明方法的有效性，36节点系统网架如图3所示，该系统包含10个负荷和8个机组，算例设定D网络可以控制所有负荷的有功功率，而G网络可以控制所有机组的有功功率，期间不改变所有设备的投运状态。

主要考察系统整体的暂态稳定状态，即针对每个运行方式通过仿真方法得到主要线路的CCT指标，包括AC10、AC11、AC12、AC21、AC24、AC25、AC26、AC27、AC28、AC30、AC31、AC32、AC34、AC35和AC44，共计15条交流线路；以这些交流线路CCT的平均值作为系统整体暂态稳定程度的指标。

经过30000个周期的仿真和训练，得到D网络和G网络参数；再随机生成1000次初始方式，通过控制负荷的D策略和控制机组的G策略、NOP策略、DIS策略交替作用，不断生成新的运行方式；再通过仿真计算，得到每个运行方式平均CCT数值，即该方式的稳定指标。

对于3种控制机组的策略，即G网络策略、NOP策略和DIS策略，通过以下标准来评判优劣：首先考察每个周期中不同策略生成运行方式的数量，由于出现潮流不收敛或系统不稳定时就会终止该周期，因此生成新方式多的策略既是最优策略；在生成方式数量相同的情况下，考察稳定指标的平均值，稳定指标高的策略为最优策略。

在1000次测试中，G策略为最优策略共计705次，DIS为最优策略共计282次，NOP为最优策略共计13次。可见，G网络策略与DIS、NOP相比具有一定优势，但也不是压倒性优势，即G网络还有调优的空间。

以某次迭代周期为例，该周期为G网络是最优策略的典型周期，过程中机组功率、负荷功率和暂态稳定性指标的变化如图4所示，从图4中可见，G网络主要采用上调1号、3号和8号机组以应对负荷变化，在本次测试周期内成功生成了16个运行方式，并且在最终的运行方式下仍保持较高的系统整体稳定性；而采用NOP策略和DIS策略进行应对时，分别在第9轮和第14轮出现系统失稳的情况，因此G网络为本周期的最优策略。

经分析可见：

1)G网络通过训练的确“学习”到了使电网调优的策略，与NOP和DIS相比有一定的优势；

2)训练过程没有加入任何电网稳定的先验经验，是模型完全通过仿真数据和自主学习获取的，可以说明本算法的有效性。

本发明还提了一种基于深度强化学习的电网稳定变化趋势预测系统200，如图5所示，包括：

训练单元201，以当前电网运行点的运行数据作为基础数据，以预设周期模拟当前电网运行点的运行，并预测当前电网运行点的运行趋势；采集每个运行周期的运行趋势数据，针对运行趋势数据进行训练，获取训练模型；

测试单元202，针对训练模型，进行测试，若训练模型测试后满足条件，以训练模型作为预测模型；

训练单元203，采集目标电网运行点的运行数据，使用预测模型对目标电网运行点稳定变化趋势进行预测。

其中，预设周期内以多种不同的运行方式模拟当前电网运行点的运行，并以预设的时间间隔对运行趋势进行更新，运行周期为3-5小时，所述运行方式顺序产生。

其中，运行周期内进行当前电网运行点运行方式的潮流计算及稳定校验，或潮流不收敛或稳定校验不通过，终止模拟运行。

其中，获取训练模型，使用值函数网络、D策略网络和G策略网络进行训练，当值函数网络、D策略网络和G策略网络输入数据后，进行一次参数更新，直至训练结束。

其中，测试的过程如下：

其中，使用预测模型对目标电网运行点稳定变化趋势进行预测，包括：

其中，D策略网络和G策略网络中，所述D策略网络针对运行数据中负荷有功进行调整，约束条件为单个负荷单次功率变化<5％，总负荷运行周期内累计变化<50％，所述G策略网络针对运行数据中机组有功进行调整，约束条件为单个机组单次功率变化<5％。

本发明中G策略网络通过训练的确“学习”到了使电网调优的策略，与NOP和DIS相比有一定的优势，训练过程没有加入任何电网稳定的先验经验，是模型完全通过仿真数据和自主学习获取的

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度强化学习的电网稳定变化趋势预测方法，所述方法包括：

2.根据权利要求1所述的方法，所述预设周期内以多种不同的运行方式模拟当前电网运行点的运行，并以预设的时间间隔对运行趋势进行更新，运行周期为3-5小时，所述运行方式顺序产生。

3.根据权利要求1所述的方法，所述运行周期内进行当前电网运行点运行方式的潮流计算及稳定校验，或潮流不收敛或稳定校验不通过，终止模拟运行。

4.根据权利要求1所述的方法，所述获取训练模型，使用值函数网络、D策略网络和G策略网络进行训练，当值函数网络、D策略网络和G策略网络输入数据后，进行一次参数更新，直至训练结束。

5.根据权利要求1所述的方法，所述测试的过程如下：

6.根据权利要求1所述的方法，所述使用预测模型对目标电网运行点稳定变化趋势进行预测，包括：

7.根据权利要求4所述的方法，所述D策略网络和G策略网络中，所述D策略网络针对运行数据中负荷有功进行调整，约束条件为单个负荷单次功率变化<5％，总负荷运行周期内累计变化<50％，所述G策略网络针对运行数据中机组有功进行调整，约束条件为单个机组单次功率变化<5％。

8.一种基于深度强化学习的电网稳定变化趋势预测系统，所述系统包括：

9.根据权利要求8所述的系统，所述预设周期内以多种不同的运行方式模拟当前电网运行点的运行，并以预设的时间间隔对运行趋势进行更新，运行周期为3-5小时，所述运行方式顺序产生。

10.根据权利要求8所述的系统，所述运行周期内进行当前电网运行点运行方式的潮流计算及稳定校验，或潮流不收敛或稳定校验不通过，终止模拟运行。

11.根据权利要求8所述的系统，所述获取训练模型，使用值函数网络、D策略网络和G策略网络进行训练，当值函数网络、D策略网络和G策略网络输入数据后，进行一次参数更新，直至训练结束。

12.根据权利要求8所述的系统，所述测试的过程如下：

13.根据权利要求8所述的系统，所述使用预测模型对目标电网运行点稳定变化趋势进行预测，包括：

14.根据权利要求11所述的系统，所述D策略网络和G策略网络中，所述D策略网络针对运行数据中负荷有功进行调整，约束条件为单个负荷单次功率变化<5％，总负荷运行周期内累计变化<50％，所述G策略网络针对运行数据中机组有功进行调整，约束条件为单个机组单次功率变化<5％。