CN112701681B

CN112701681B - 一种基于强化学习的电网偶发故障安全调控策略生成方法

Info

Publication number: CN112701681B
Application number: CN202011528445.9A
Authority: CN
Inventors: 黄浩; 王子骏; 汤怿; 梅发茂; 马腾腾; 吴勤勤; 古振威; 余志文; 周安
Original assignee: Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Current assignee: Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2023-01-24
Anticipated expiration: 2040-12-22
Also published as: CN112701681A

Abstract

本发明公开了一种基于强化学习的电网偶发故障安全调控策略生成方法，包括搭建实际电网的半实物仿真模型；利用实际电网的大量历史运行数据，生成用神经网络表示的电网调控策略，并通过人为生成安全威胁对历史数据进行补充，利用强化学习优化电网调控策略；针对实际电网发生的偶发故障，数字仿真平台及时感知，进而使用训练好的电网调控策略，生成调控行为。本发明将复杂的电网安全调控问题转化为用神经网络表示电网调控策略，当新的安全威胁发生时，只需要在先前训练好的电网调控策略的基础上，使用强化学习迭代优化调控策略，而不用重新构建训练集，避免重复计算，在安全性能和时间开销上取得较好的平衡，可有效处理电网面临的偶发安全威胁。

Description

一种基于强化学习的电网偶发故障安全调控策略生成方法

技术领域

本发明涉及计算机强化学习和电力系统调度自动化技术领域，尤其涉及一种基于强化学习的电网偶发故障安全调控策略生成方法。

背景技术

电网调控是为了保证电网安全稳定运行、对外可靠供电、各类电力生产工作有序进行而采用的一种有效的管理手段，是智能电网运行的神经中枢，运维中心通过对省级及以上智能电网调控系统运行的基本数据集中监视，实现对各地系统的远程画面调阅和运行维护，快速解决系统异常和故障，及时发现系统存在的隐患，为智能电网调控系统稳定运行提供技术支持。

目前的电力调控存在四个问题：

(1)通过人类经验，离线制定运行方式，规则较为粗放，限额保守；

(2)考虑运行方式不全面，无法及时识别脆弱点，一些极端方式下不安全；

(3)可再生能源大规模接入和电力市场环境下，运行边界的不确定性增强；

(4)新一代电网安全机理越来越复杂，运方分析难度越来越大，大停电风险事故增加。

因此，可以应用当下热门的人工智能技术，通过智能化使运方计算考虑方式更全面、更精益、更安全，提高对新一代复杂电网安全经济运行的驾驭能力。

以上信息作为背景信息给出只是为了辅助理解本公开，并没有确定或者承认任意上述内容是否可用作相对于本公开的现有技术。

发明内容

本发明提供一种基于强化学习的电网偶发故障安全调控策略生成方法，其可以在安全性能和时间开销上取得一定的平衡，并且在大规模电网安全调控中能够取得性能和时间开销双方面的优势；在有新的安全威胁发生时，利用强化学习进行调控策略迭代优化，也能避免重复训练之前的运行数据，以解决上述技术问题。

为实现上述目的，本发明提供以下的技术方案：

一种基于强化学习的电网偶发故障安全调控策略生成方法，所述方法包括：

步骤S1、搭建实际电网的半实物仿真模型，所述半实物仿真模型包括物理空间的实物仿真平台、虚拟空间的数字仿真平台以及物理空间和虚拟空间之间的数据和信息交互接口；数字仿真平台可以通过数据交互接口对实物仿真平台进行实时感知，并能进行潮流计算，拓扑更改，调整发电机出力等操作，从而刻画实际电网的调控行为；

步骤S2、利用实际电网的大量历史调控数据，从中提取出观测空间与调控行为的特征向量，分别作为有监督学习的输入与输出，即学习专家系统的先验知识，进而生成用神经网络表示的电网调控策略；

步骤S3、基于电网脆弱性与威胁风险，人为生成一系列电网安全威胁事件，如断路器跳闸、线路遭受攻击等，以通过增加扰动的方式，对电网历史运行数据进行拓展，并以电网的安全性与经济性作为评价指标，结合深度强化学习方法优化电网调控策略，进一步增强电网调控策略的鲁棒性；

步骤S4、当实物仿真平台面临偶发故障时，利用电网调控策略生成相应的调控行为，并对调控行为在数字仿真平台中进行预仿真，评估调控行为可行性，判断是否满足电网安全约束，若满足，则调控行为通过评估，可以执行；否则返回步骤S3，将发生的偶发故障加入到电网调控策略的训练过程中，重新生成电网调控策略，从而实现电网调控策略的迭代进化。

进一步地，所述基于强化学习的电网偶发故障安全调控策略生成方法中，步骤S1中，搭建实际电网的半实物仿真模型，具体包括以下步骤：

步骤S101、用等比例缩小的实物进行实物平台仿真模拟，缩放比例均为M，真实电力系统的电阻为R_s，电感为L_s，电容为C_s，则经过缩放在实物仿真平台搭建中使用的电阻R_w＝R_s/M，电感L_w＝L_s/M，电容C_w＝M×C_s；输电线路用电阻R_w、电感L_w和电容C_w按照集中参数模型进行组合模拟，负载用电阻R_w、电感L_w、电容C_w的串并联组合、照明设备以及小型电动机进行模拟；输电线路上安装智能电表和继电器设备，实现电压、电流、有功功率的测量以及输电线路通断的控制；

步骤S102、根据实际电网的拓扑结构、设备装置、电气特性等，利用开源的Python库PYPOWER，在虚拟空间构建等效的数字电网仿真平台；

步骤S103、通过量测设备采集实物仿真平台的状态参数并通过信息通信接口上传至数字仿真平台，供数字仿真平台在线调参以及实时计算；

步骤S104、通过功率缩放接口，利用可编程电源接收数字仿真平台输出的电压仿真状态参数更新自身状态，实时调整输出电压，通过与实物仿真平台的物理连接形成功率连接，同时继保设备通过量测到电气物理量变化判断是否动作，从而实现实际电网的半实物仿真模型。

进一步地，所述基于强化学习的电网偶发故障安全调控策略生成方法中，步骤S2中，生成用神经网络表示的电网调控策略，具体包括以下步骤：

步骤S201、利用实际电网的大量历史调控数据，选择观测空间中的发电机有功prod_p、无功功率prod_q、负载的有功load_p、无功功率load_q、线路潮流比rho、线路连接状态status、线路检修计划以及电网拓扑图的PageRank、网络中心性、度中心性，作为有监督学习的观测空间，即输入向量；

步骤S202、选择调控行为中的更改变电站连接的总线，设置线路所连接的总线，调整发电机出力，作为有监督学习的动作空间，即输出向量；

步骤S203、利用神经网络的有监督学习方法，如反向传播(BP)算法等，学习专家系统的先验知识，进而生成用神经网络表示的电网调控策略。

进一步地，所述基于强化学习的电网偶发故障安全调控策略生成方法中，步骤S3中，人为生成电网一系列安全威胁，并深度强化学习方法优化电网调控策略，具体包括以下步骤：

步骤S301、基于电网脆弱性，通过连锁故障模型，计算得到电网中容易引发连锁故障的前10条线路或线路组合{l₁，l₂，……，l₁₀}，以及归一化后的故障严重性因子{σ₁，σ₂，……，σ₁₀}；

步骤S302、基于威胁风险，在电网的运行过程中，实时监测上述脆弱线路的潮流比{r₁，r₂，……，r₁₀}，将潮流比与严重性因子的补数相除

并依归一化的概率随机生成电网安全威胁事件，即故障严重性越高且潮流比越高的线路更易受攻击；

步骤S303、选择与步骤S2)中相同的观测空间与动作空间，采用强化学习的A3C方法，使用电网的安全性与经济性作为强化学习的奖励Reward，具体为

其中r_i表示第i条线路的潮流比，Reward₂＝-2×E_redispatch×p，其中E_redispatch表示调整的发电机出力，p表示电价，将Reward₁与Reward₂做标准化处理并相加，再乘以电网平稳运行的时长，得到最终的Reward＝(Reward₁+Reward₂)*t；

步骤S304、当生成的安全威胁来临时，通过强化学习的预仿真功能，选取动作空间中Reward最大的4个动作进行优化组合，然后根据Reward更新调控策略，最终获得处理安全威胁的最佳策略。

进一步地，所述基于强化学习的电网偶发故障安全调控策略生成方法中，步骤S4中，评估调控行为的可行性，判断是否满足电网安全约束，具体包括以下步骤：

步骤S401、当实物仿真平台面临偶发故障时，数字仿真平台及时感知，并通过训练好的调控策略生成相应的调控行为；

步骤S402、对调控行为在数字仿真平台中进行预仿真，评估调控行为的可行性，如果进行了调控行为之后，电网不会产生连锁故障，则输出该调控策略；

步骤S403、反之，如果电网仍然会出现解列或供需不平衡现象，则返回步骤S3，将该偶发故障加入到强化学习的训练过程中，重新生成电网调控策略，从而实现电网调控策略的迭代进化。

与现有技术相比，本发明的有益效果是：

步骤S1中，采用半实物仿真的方式，既保证了数字仿真中的数据真实性，又提高了物理仿真的可扩展性，能更准确地反映实际系统的动态过程，提高实验精度；

步骤S2中，充分利用历史运行数据，将电网运行的电气特性与图的结构特征相结合，大大提高了神经网络的表示效率，降低计算复杂度；

步骤S3中，为了补充正常电网运行数据集中缺乏的偶发故障，基于电网脆弱性与威胁风险，生成一系列电网安全威胁事件，对训练集进行有效补充，提高了调控策略的鲁棒性；

步骤S4中，当新的安全威胁发生时，只需要在先前训练好的调控策略的基础上，使用强化学习迭代优化调控策略，而不用重新构建训练集，避免重复计算，提高方法的可扩展性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种基于强化学习的电网偶发故障安全调控策略生成方法的流程简图；

图2是本发明实施例搭建的实际电网的半实物仿真模型示意图；

图3是本发明实施例提供的半实物仿真接口框架示意图。

具体实施方式

为使得本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，当一个组件被认为是“连接”另一个组件，它可以是直接连接到另一个组件或者可能同时存在居中设置的组件。当一个组件被认为是“设置在”另一个组件，它可以是直接设置在另一个组件上或者可能同时存在居中设置的组件。

此外，术语“长”“短”“内”“外”等指示方位或位置关系为基于附图所展示的方位或者位置关系，仅是为了便于描述本发明，而不是指示或暗示所指的装置或原件必须具有此特定的方位、以特定的方位构造进行操作，以此不能理解为本发明的限制。

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

实施例一

请参阅附图1～3，为本发明实施例一提供的一种基于强化学习的电网偶发故障安全调控策略生成方法的流程示意图。该方法具体包括如下步骤：

步骤S1：搭建实际电网的半实物仿真模型，主要包括物理空间的实物仿真平台，虚拟空间的数字仿真平台以及物理空间和虚拟空间之间的信息交互接口。

需要说明的是，数字仿真平台可以通过数据交互接口对实物仿真平台进行实时感知，并能进行潮流计算，拓扑更改，调整发电机出力等操作，从而刻画实际电网的调控行为。采用半实物仿真的方式，既保证了数字仿真中的数据真实性，又提高了物理仿真的可扩展性，能更准确地反映实际系统的动态过程，提高实验精度。

优选的，所述步骤S1进一步包括以下步骤：

步骤S2、利用实际电网的历史调控数据，从中提取出观测空间与调控行为的特征向量，分别作为有监督学习的输入与输出，即学习专家系统的先验知识，进而生成用神经网络表示的电网调控策略；

需要说明的是，将电网运行的电气特性与图的结构特征相结合，提高了神经网络的表示效率，降低计算复杂度。

优选的，所述步骤S2进一步包括以下步骤：

步骤S3、基于电网脆弱性与威胁风险，人为生成一系列电网安全威胁事件，以通过增加扰动的方式，对电网历史运行数据进行拓展，并以电网的安全性与经济性作为评价指标，结合深度强化学习方法优化电网调控策略，进一步增强电网调控策略的鲁棒性；

优选的，所述步骤S3进一步包括以下步骤：

步骤S304、当生成的安全威胁来临时，通过强化学习的预仿真(simulate)功能，选取动作空间中Reward最大的4个动作进行优化组合，然后根据Reward更新调控策略，最终获得处理安全威胁的最佳策略。

优选的，所述步骤S4进一步包括以下步骤：

本发明将专家知识与强化学习相结合，首先利用专家经验生成一个用神经网络表示的较好的初始策略，避免了强化学习中探索难度大和价值函数训练难以收敛等问题，也解决了专家系统搜索耗时长和无法考虑长远收益等缺点，适合于大规模电网安全调控问题，是一种具有实用价值的新型电网安全调控策略生成方法。

至此，以说明和描述的目的提供上述实施例的描述。不意指穷举或者限制本公开。特定的实施例的单独元件或者特征通常不受到特定的实施例的限制，但是在适用时，即使没有具体地示出或者描述，其可以互换和用于选定的实施例。在许多方面，相同的元件或者特征也可以改变。这种变化不被认为是偏离本公开，并且所有的这种修改意指为包括在本公开的范围内。

提供示例实施例，从而本公开将变得透彻，并且将会完全地将该范围传达至本领域内技术人员。为了透彻理解本公开的实施例，阐明了众多细节，诸如特定零件、装置和方法的示例。显然，对于本领域内技术人员，不需要使用特定的细节，示例实施例可以以许多不同的形式实施，而且两者都不应当解释为限制本公开的范围。在某些示例实施例中，不对公知的工序、公知的装置结构和公知的技术进行详细地描述。

在此，仅为了描述特定的示例实施例的目的使用专业词汇，并且不是意指为限制的目的。除非上下文清楚地作出相反的表示，在此使用的单数形式“一个”和“该”可以意指为也包括复数形式。术语“包括”和“具有”是包括在内的意思，并且因此指定存在所声明的特征、整体、步骤、操作、元件和/或组件，但是不排除存在或额外地具有一个或以上的其他特征、整体、步骤、操作、元件、组件和/或其组合。除非明确地指示了执行的次序，在此描述的该方法步骤、处理和操作不解释为一定需要按照所论述和示出的特定的次序执行。还应当理解的是，可以采用附加的或者可选择的步骤。

当元件或者层称为是“在……上”、“与……接合”、“连接到”或者“联接到”另一个元件或层，其可以是直接在另一个元件或者层上、与另一个元件或层接合、连接到或者联接到另一个元件或层，也可以存在介于其间的元件或者层。与此相反，当元件或层称为是“直接在……上”、“与……直接接合”、“直接连接到”或者“直接联接到”另一个元件或层，则可能不存在介于其间的元件或者层。其他用于描述元件关系的词应当以类似的方式解释(例如，“在……之间”和“直接在……之间”、“相邻”和“直接相邻”等)。在此使用的术语“和/或”包括该相关联的所罗列的项目的一个或以上的任一和所有的组合。虽然此处可能使用了术语第一、第二、第三等以描述各种的元件、组件、区域、层和/或部分，这些元件、组件、区域、层和/或部分不受到这些术语的限制。这些术语可以只用于将一个元件、组件、区域或部分与另一个元件、组件、区域或部分区分。除非由上下文清楚地表示，在此使用诸如术语“第一”、“第二”及其他数值的术语不意味序列或者次序。因此，在下方论述的第一元件、组件、区域、层或者部分可以采用第二元件、组件、区域、层或者部分的术语而不脱离该示例实施例的教导。

空间的相对术语，诸如“内”、“外”、“在下面”、“在……的下方”、“下部”、“上方”、“上部”等，在此可出于便于描述的目的使用，以描述如图中所示的一个元件或者特征和另外一个或多个元件或者特征之间的关系。空间的相对术语可以意指包含除该图描绘的取向之外该装置的不同的取向。例如如果翻转该图中的装置，则描述为“在其他元件或者特征的下方”或者“在元件或者特征的下面”的元件将取向为“在其他元件或者特征的上方”。因此，示例术语“在……的下方”可以包含朝上和朝下的两种取向。该装置可以以其他方式取向(旋转90度或者其他取向)并且以此处的空间的相对描述解释。

Claims

1.一种基于强化学习的电网偶发故障安全调控策略生成方法，其特征在于，所述方法包括：

步骤S1、搭建实际电网的半实物仿真模型，所述半实物仿真模型包括物理空间的实物仿真平台、虚拟空间的数字仿真平台以及物理空间和虚拟空间之间的数据和信息交互接口；

步骤S4、当实物仿真平台面临偶发故障时，利用电网调控策略生成相应的调控行为，并对调控行为在数字仿真平台中进行预仿真，评估调控行为可行性，判断是否满足电网安全约束，若满足，则调控行为通过评估，可以执行；否则返回步骤S3，将发生的偶发故障加入到电网调控策略的训练过程中，重新生成电网调控策略，从而实现电网调控策略的迭代进化；

步骤S3中，人为生成电网一系列安全威胁，并深度强化学习方法优化电网调控策略，具体包括以下步骤：

步骤S302、基于威胁风险，在电网的运行过程中，实时监测脆弱线路的潮流比{r₁，r₂，……，r₁₀}，将潮流比与严重性因子的补数相除

步骤S303、选择与步骤S2中相同的观测空间与动作空间，采用强化学习的A3C方法，使用电网的安全性与经济性作为强化学习的奖励Reward，具体为

其中r_i表示第i条线路的潮流比，Reward₂＝-2×E_redispatch×p，其中E_redispatch表示调整的发电机出力，p表示电价，将Reward₁与Reward₂做标准化处理并相加，再乘以电网平稳运行的时长，得到最终的Reward＝(Reward₁+Reward₂)*t；Reward₁为电网安全性指标，当线路潮流比较小时，Reward₁较大，Reward₂为电网经济性指标，当发电电价较小时，Reward₂较大，t为电网平稳运行的时长；

2.根据权利要求1所述的基于强化学习的电网偶发故障安全调控策略生成方法，其特征在于，步骤S1中，搭建实际电网的半实物仿真模型，具体包括以下步骤：

步骤S102、根据实际电网的拓扑结构、设备装置、电气特性，利用开源的Python库PYPOWER，在虚拟空间构建等效的数字电网仿真平台；

3.根据权利要求1所述的基于强化学习的电网偶发故障安全调控策略生成方法，其特征在于，步骤S2中，生成用神经网络表示的电网调控策略，具体包括以下步骤：

步骤S201、利用实际电网的历史调控数据，选择观测空间中的发电机有功功率Prod_p、无功功率prod_q、负载的有功功率load_p、无功功率load_q、线路潮流比rho、线路连接状态status、线路检修计划以及电网拓扑图的PageRank、网络中心性、度中心性，作为有监督学习的观测空间，即输入向量；

步骤S203、利用神经网络的有监督学习方法，学习专家系统的先验知识，进而生成用神经网络表示的电网调控策略。

4.根据权利要求1所述的基于强化学习的电网偶发故障安全调控策略生成方法，其特征在于，步骤S4中，评估调控行为的可行性，判断是否满足电网安全约束，具体包括以下步骤：