CN113537646B

CN113537646B - 电网设备停电检修方案制定方法、系统、设备及存储介质

Info

Publication number: CN113537646B
Application number: CN202111071390.8A
Authority: CN
Inventors: 杨楠; 卫泽晨; 张风彬; 黄宇鹏; 许丹; 齐晓琳; 韩昳; 邱成建; 刘幸蔚; 张加力; 齐洋洋; 李章文; 张传成; 宋旭日; 陶蕾; 李立新; 李劲松; 狄方春; 於益军; 刘升
Original assignee: China Electric Power Research Institute Co Ltd CEPRI
Current assignee: China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2021-12-14
Anticipated expiration: 2041-09-14
Also published as: CN113537646A

Abstract

本发明属于电力自动化领域，公开了一种电网设备停电检修方案制定方法、系统、设备及存储介质，通过获取电网断面检修周期第T天的潮流信息、电网设备停电检修的目标函数以及约束条件；根据电网断面检修周期第T天的潮流信息、电网设备停电检修的目标函数以及约束条件，通过预设的奖励值计算方法，得到电网断面检修周期第T天的奖励值，结合电网断面检修周期第T天的潮流信息，通过预设的停电检修强化学习模型，得到并输出电网断面检修周期第T天的电网设备停电检修方案。基于强化学习的应用，有效降低了计算量，求解过程较为简单。同时，根据电网设备停电检修的需求来制定奖励值计算方法，使得所做出的决策更加符合电网的实际运行情况。

Description

电网设备停电检修方案制定方法、系统、设备及存储介质

技术领域

本发明属于电力自动化领域，涉及一种电网设备停电检修方案制定方法、系统、设备及存储介质。

背景技术

由于设备缺陷消除、基建工程、市政迁改工程及技改工程等工作需求，电网设备经常需要停电检修。合理安排电网设备的停电窗口期，对于保证电网安全稳定运行及电力可靠供应，有序推进各项工作的开展具有重要的意义。电网停电窗口期的编排基本上依赖于人工，编排效率偏低，且由于计划编排涉及的问题众多，其合理性受制于编排人员的专业素质，容易受到人为主观因素的影响。因此，电网设备停电窗口期自动优化编排有其必要性。

目前，电网检修计划优化问题，主要从降低风险及提高经济性方面构建优化模型。一般的优化模型聚焦于固定时间范围内对停电损失、检修成本、电网损耗以及检修时间选择等方面的优化，比如，专利CN111612170A中，公开了一种输电设备的检修计划制定方法及系统，检修计划优化模型以弃用可再生能源发电量最小和检修数量分布方差最小为目标，并以电网对各设备的检修时间要求、电网安全运行要求和日检修数量要求为约束进行构建，基于模拟退火思想的改进万有引力搜索算法求解含离散变量的检修计划问题，进而合理的安排设备检修时间。

但是，现有检修计划优化模型中，通常包含很多等式或不等式约束，在长时间段多目标约束情况下考虑多断面电力平衡的优化问题时，传统的优化模型由于考虑大量约束，其目标函数往往非常复杂且引入柔性不等式约束，求解往往不能满足约束。

发明内容

本发明的目的在于克服上述现有技术中，现有检修计划优化模型求解困难，求解得到的检修计划不适用于电网的实际运行情况的缺点，提供一种电网设备停电检修方案制定方法、系统、设备及存储介质。

为达到上述目的，本发明采用以下技术方案予以实现：

本发明第一方面，一种电网设备停电检修方案制定方法，包括以下步骤：

获取电网断面检修周期第T天的潮流信息、电网设备停电检修的目标函数以及约束条件；

根据电网断面检修周期第T天的潮流信息、电网设备停电检修的目标函数以及约束条件，通过预设的奖励值计算方法，得到电网断面检修周期第T天的奖励值；其中，预设的奖励值计算方法基于电网设备停电检修的目标函数以及约束条件构建；

根据电网断面检修周期第T天的潮流信息以及奖励值，通过预设的停电检修强化学习模型，得到并输出电网断面检修周期第T天的电网设备停电检修方案。

本发明电网设备停电检修方案制定方法进一步的改进在于：

所述获取电网断面检修周期第T天的潮流信息的具体方法为：获取电网断面检修周期第T天的断面预测信息及第T-1天的电网设备停电检修方案；其中，断面预测信息包括电网断面中包含的各发电机组的预测功率以及各负荷的预测功率；根据预设的电网断面网架拓扑、电网断面检修周期第T天的断面预测信息以及第T-1天的电网设备停电检修方案，通过预设的潮流计算方法，得到电网断面检修周期第T天的潮流信息。

所述潮流信息包括各发电机的有功功率、各发电机的无功功率、各负荷的有功功率、各负荷的无功功率、各线路的限值、各支路起始端有功功率、各支路起始端无功功率、各支路起始端电压、各支路起始端电流、各支路末端有功功率、各支路末端无功功率、电网损耗电量以及停电负荷电量中的一种或几种。

当电网设备停电检修的目标函数以最小化目标函数值为目标时，所述预设的奖励值计算方法包括以下步骤：基于电网设备停电检修的目标函数，根据电网断面检修周期第T天的潮流信息，得到电网断面检修周期第T天的目标函数值，以电网断面检修周期第T天的目标函数值的负数作为目标函数奖励值；判断电网断面检修周期第T天的潮流信息是否满足电网设备停电检修的约束条件，当满足电网设备停电检修的约束条件时，电网断面检修周期第T天的约束条件奖励值为第一预设值；否则，电网断面检修周期第T天的约束条件奖励值为第二预设值；将电网断面检修周期第T天的目标函数奖励值与约束条件奖励值加权叠加，得到电网断面检修周期第T天的奖励值。

当电网设备停电检修的目标函数以最大化目标函数值为目标时，所述预设的奖励值计算方法包括以下步骤：基于电网设备停电检修的目标函数，根据电网断面检修周期第T天的潮流信息，得到电网断面检修周期第T天的目标函数值，以电网断面检修周期第T天的目标函数值作为目标函数奖励值；判断电网断面检修周期第T天的潮流信息是否满足电网设备停电检修的约束条件，当满足电网设备停电检修的约束条件时，电网断面检修周期第T天的约束条件奖励值为第一预设值；否则，电网断面检修周期第T天的约束条件奖励值为第二预设值；将电网断面检修周期第T天的目标函数奖励值与约束条件奖励值加权叠加，得到电网断面检修周期第T天的奖励值。

所述电网设备停电检修的目标函数为检修周期内电网设备停电检修成本；约束条件包括线路安全运行约束、电网设备检修时长约束以及电网设备最小连续检修时间约束。

所述预设的奖励值计算方法包括以下步骤：

通过下式得到电网断面检修周期第T天的目标函数奖励值reward_n：

其中，△C _P为单位电网损失成本；P _T,loss为电网断面检修周期第T天的电网损失电量；P _T,cost为电网断面检修周期第T天的电网停电负荷电量；△C _l为单位电网停电成本；M为检修周期内参与停电检修的电网设备总数；λ为预设权重系数；j为第j个电网设备；S _{T, j}为第j个电网设备在检修周期第T天时的状态，S _{T, j}∈{0,1}，0表示不参与检修，1为参与检修；

通过下式得到电网断面检修周期第T天的线路安全运行约束的奖励值reward_1：

其中，

为电网断面内线路j的相对系数，

，

为电网断面内线路j的线路电流，

为电网断面内线路j的热极限电流，m为电网断面内线路总数；

通过下式得到电网断面检修周期第T天的电网设备检修时长约束的奖励值reward_2：

其中，l _j为第j个电网设备的最低检修时长；

通过下式得到电网断面检修周期第T天的电网设备最小连续检修时间约束的奖励值reward_3：

其中，Q _j表示第j个电网设备的最低连续检修时长；reward_s’为电网断面第T-1天的电网设备最小连续检修时间约束的奖励值；

将电网断面检修周期第T天的线路安全运行约束的奖励值、电网设备检修时长约束的奖励值及电网设备最小连续检修时间约束的奖励值加权叠加，得到电网断面检修周期第T天的约束条件奖励值，将电网断面检修周期第T天的约束条件奖励值及目标函数奖励值加权叠加，得到电网断面检修周期第T天的奖励值。

所述预设的停电检修强化学习模型根据电网断面若干检修周期内每天的历史潮流信息，训练预设的DDPG强化学习模型得到。

本发明第二方面，一种电网设备停电检修方案制定系统，包括：

获取模块，用于获取电网断面检修周期第T天的潮流信息；

奖励反馈模块，用于根据电网断面检修周期第T天的潮流信息，通过预设的基于电网设备停电检修的目标函数以及约束条件构建的奖励值计算方法，得到电网断面检修周期第T天的奖励值；

方案制定模块，用于根据电网断面检修周期第T天的潮流信息以及奖励值，通过预设的停电检修强化学习模型，得到并输出电网断面检修周期第T天的电网设备停电检修方案。

本发明电网设备停电检修方案制定系统进一步的改进在于：

所述获取模块包括：

数据获取单元，用于获取电网断面检修周期第T天的断面预测信息及第T-1天的电网设备停电检修方案；其中，断面预测信息包括电网断面中包含的各发电机组的预测功率以及各负荷的预测功率；

潮流计算单元，用于根据预设的电网断面网架拓扑、电网断面检修周期第T天的断面预测信息以及第T-1天的电网设备停电检修方案，通过预设的潮流计算方法，得到电网断面检修周期第T天的潮流信息。

当电网设备停电检修的目标函数以最小化目标函数值为目标时，所述预设的奖励值计算方法包括以下步骤：

基于电网设备停电检修的目标函数，根据电网断面检修周期第T天的潮流信息，得到电网断面检修周期第T天的目标函数值，以电网断面检修周期第T天的目标函数值的负数作为目标函数奖励值；

判断电网断面检修周期第T天的潮流信息是否满足电网设备停电检修的约束条件，当满足电网设备停电检修的约束条件时，电网断面检修周期第T天的约束条件奖励值为第一预设值；否则，电网断面检修周期第T天的约束条件奖励值为第二预设值；

将电网断面检修周期第T天的目标函数奖励值与约束条件奖励值加权叠加，得到电网断面检修周期第T天的奖励值。

当电网设备停电检修的目标函数以最大化目标函数值为目标时，所述预设的奖励值计算方法包括以下步骤：

基于电网设备停电检修的目标函数，根据电网断面检修周期第T天的潮流信息，得到电网断面检修周期第T天的目标函数值，以电网断面检修周期第T天的目标函数值作为目标函数奖励值；

所述电网设备停电检修的目标函数为检修周期内电网设备停电检修的成本最低；约束条件包括线路安全运行约束、电网设备检修时长约束以及电网设备最小连续检修时间约束。

所述预设的奖励值计算方法包括以下步骤：

其中，

为电网断面内线路j的相对系数，

，

为电网断面内线路j的线路电流，

其中，l _j为第j个电网设备的最低检修时长；

本发明第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述电网设备停电检修方案制定方法的步骤。

本发明第四方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述电网设备停电检修方案制定方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明电网设备停电检修方案制定方法，根据电网断面检修周期第T天的潮流信息，结合预设的奖励值计算方法，得到电网断面检修周期第T天的奖励值，然后通过预设的停电检修强化学习模型，得到并输出电网断面检修周期第T天的电网设备停电检修方案，基于强化学习的应用，根据奖励值进行反馈学习优化，不需要设置额外的约束条件，有效降低了计算量，使得求解过程变得简单，易于获得求解结果。同时，奖励值计算方法基于电网设备停电检修的目标函数以及约束条件构建，通过根据电网设备停电检修的需求来制定奖励值计算方法，使得停电检修强化学习模型所做出的决策更加符合电网的实际运行情况。

附图说明

图1为本发明的电网设备停电检修方案制定方法流程框图；

图2为本发明的DDPG强化学习模型结构框图；

图3为本发明的停电检修强化学习模型结构框图；

图4为本发明的历史潮流信息获取流程示意图；

图5为本发明的电网设备停电检修方案制定系统结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

针对上述背景技术中提到的现象，发明人在实际的工作中发现，强化学习是一类机器学习算法，让计算机实现从一开始完全随机的进行操作，通过不断的尝试，从错误中学习，最后找到规律，学会达到目的地的（最优解）方法。它是介于监督学习与非监督学习之间的一类算法，不同于监督学习需要对数据定义标签及非监督学习非常庞大的无标签数据，强化学习需要的是有延迟的奖励（在完成一次判断后，返回一个分数），因而更贴近人类的学习进程。将强化学习算法引入电网设备停电窗口期优化编排，可根据优化和约束设置单步动作反馈奖励，也可以设置多步累计奖励，以期让智能体（决策）达到目标。

参见图1，本发明一实施例中，提供一种电网设备停电检修方案制定方法，主要是基于强化学习的电网设备停电检修方案制定方法，有效的解决了现有检修计划优化模型求解困难，求解得到的检修计划不适用于电网的实际运行情况的问题。具体的，该电网设备停电检修方案制定方法包括以下步骤。

S1：获取电网断面检修周期第T天的潮流信息。

具体的，本实施例中，以电力系统中的电网断面为实施对象。首先，获取电网断面检修周期第T天的潮流信息，具体方法为：获取电网断面检修周期第T天的断面预测信息及第T-1天的电网设备停电检修方案；根据预设的电网断面网架拓扑、电网断面检修周期第T天的断面预测信息以及第T-1天的电网设备停电检修方案，通过预设的潮流计算方法，得到电网断面检修周期第T天的潮流信息。

其中，电网断面检修周期第T天的断面预测信息中包括电网断面中包含的各发电机组的预测功率以及各负荷的预测功率，所述功率包括有功功率和无功功率，所述电网断面指的是广义上的电网断面，具体是某时刻电网中所有设备及运行状态。具体的，断面预测信息可以直接从电力系统调控设备中获取。

基于后续的强化学习的环境状态空间的搭建，需要电网断面网架拓扑保持稳定。但是，电力系统在实际运行过程中，由于运行情况复杂，且每天都有投退运设备情况，导致电力系统的实际电网断面网架拓扑不稳定，因此，在本实施例中，预设的电网断面网架拓扑以电网正常运行方式为准，这里电网正常运行方式是指电网在理想状态下的运行方式，其中，电网正常运行方式是调度人员日常生产中对线路常年处于开闭状态的总结，根据所述总结进行网架拓扑的设计，得到电网正常运行方式下的电网断面网架拓扑。根据第T-1天的电网设备停电检修方案，修改预设的电网断面网架拓扑，得到检修周期第T天的电网断面网架拓扑。其中，第T-1天停电检修方案是第T天停电检修线路名单，在预设的电网断面网架拓扑上将第T天停电检修线路名单中的线路断开，即为第T天的电网断面网架拓扑。

然后，将检修周期第T天的断面预测信息嵌入进检修周期第T天的电网断面网架拓扑中，其中，所述嵌入是采用断面预测信息中的电网断面中包含的各发电机组的预测功率以及各负荷的预测功率，作为第T天的电网断面中包含的发电机组的功率以及各负荷的功率。所述电网断面网架拓扑包括断面母线节点与负荷的拓扑关系，母线节点与机组的拓扑关系以及母线节点与线路之间的拓扑关系。由于检修周期第T天的电网断面网架拓扑是基于理想状态下的运行方式，因此，电网断面中包含的各发电机组的预测功率以及各负荷的预测功率会存在不平衡量。本实施例中，依据功率平衡准则，将不平衡量根据发电机组中平衡机组的剩余容量进行分配。其中，平衡机组的剩余容量为平衡机组的额定功率与有功功率之差，平衡机组的额定功率通过预设的电网断面网架拓扑得到。

在完成将检修周期第T天的断面预测信息嵌入进检修周期第T天的电网断面网架拓扑后，通过潮流计算方法进行潮流计算，本实施例中，基于式（1）和（2）的潮流约束，采用牛顿-拉夫逊法潮流计算方法进行潮流计算：

（1）

（2）

其中，n为电网断面的支路数；k为电网断面的支路的序号，k=1,2,…,n；u,v为电网断面的节点的序号，u,v=1,2,…,n _k且u≠v，n _k为电网断面的支路k中的节点总数；G _k（u,v）为电网断面的第k支路中节点u和v之间的导纳实部；U _i,u和U _i,v分别为第i次决策时电网断面的节点u和v的电压幅值；θ _i,u为第i次决策时电网断面的节点u和v的电压相角差；P _i,g,u和Q _i,g,u分别为第i次决策时电网断面的节点u注入的发电机有功功率和无功功率；P _i,d,u和Q _i,d,u分别为第i次决策时电网断面的节点u注入的负荷有功功率和无功功率；B _k（u,v）为电网断面的第k支路中节点u和v之间的导纳虚部。

优选的，本实施例中，为了适应构建好的强化学习的环境状态空间，所述潮流信息包括各发电机的有功功率、各发电机的无功功率、各负荷的有功功率、各负荷的无功功率、各线路的限值、各支路起始端有功功率、各支路起始端无功功率、各支路起始端电压、各支路起始端电流、各支路末端有功功率、各支路末端无功功率、电网损耗电量以及停电负荷电量中的一种或几种。

具体的，通过上述的潮流计算方法进行潮流计算后，得到电网断面中各节点注入的发电机有功功率和无功功率以及注入的负荷有功功率和无功功率，继而根据这些数据得到电网断面中各发电机的有功功率、各发电机的无功功率、各负荷的有功功率、各负荷的无功功率、各线路的限值、各支路起始端有功功率、各支路起始端无功功率、各支路起始端电压、各支路起始端电流、各支路末端有功功率、各支路末端无功功率。同时，结合第T-1天的电网设备停电检修方案，得到停电检修的线路名单，进而可以确定电网损耗电量以及停电负荷电量。

本方法基于电网稳态运行进行分析，由于发电机和负荷是影响电网各节点的注入功率的重要因素，因此将发电机和负荷有关的有功功率、无功功率以及电压等观测量作为参与智能体构建状态空间的变量，又因为约束条件中对线路的越限情况进行了惩罚，因此与线路有关的变量也是智能体应当考虑的，而电网损耗电量和停电负荷电量是环境反馈打分的重要组成部分，基于此，设置了如上的潮流信息，进而在尽可能简略的情况下，保证环境状态空间的完整性，以提升求解的速度和精度。

S2：根据电网断面检修周期第T天的潮流信息，通过预设的基于电网设备停电检修的目标函数以及约束条件构建的奖励值计算方法，得到电网断面检修周期第T天的奖励值。

具体的，在进行电网设备停电检修方案制定前，需要明确电网设备停电检修的目标函数以及约束条件，即电网设备停电检修以什么为优化目标，在停电检修时需要满足怎样的约束条件，这些内容可采用历史数据，也可以由工作人员根据实际情况自行设定，实现根据电网设备停电窗口期编排需求调整奖励反馈。

在确定电网设备停电检修的目标函数以及约束条件后，需要基于电网设备停电检修的目标函数以及约束条件构建奖励值计算方法。

具体的，本实施例中，当电网设备停电检修的目标函数以最小化目标函数值为目标时，比如，电网设备停电检修的目标函数为检修周期内电网设备停电检修成本，此时，该目标函数以最小化目标函数值为目标，即最小化检修周期内电网设备停电检修成本为目标。此时，所述预设的奖励值计算方法包括以下步骤：基于电网设备停电检修的目标函数，根据电网断面检修周期第T天的潮流信息，得到电网断面检修周期第T天的目标函数值，以电网断面检修周期第T天的目标函数值的负数作为目标函数奖励值；判断电网断面检修周期第T天的潮流信息是否满足电网设备停电检修的约束条件，当满足电网设备停电检修的约束条件时，电网断面检修周期第T天的约束条件奖励值为第一预设值；否则，电网断面检修周期第T天的约束条件奖励值为第二预设值；将电网断面检修周期第T天的目标函数奖励值与约束条件奖励值加权叠加，得到电网断面检修周期第T天的奖励值。

当电网设备停电检修的目标函数以最大化目标函数值为目标时，比如，电网设备停电检修的目标函数为检修周期内电网设备发电总效益，此时，该目标函数以最大化目标函数值为目标，即最大化检修周期内电网设备发电总效益为目标。此时，所述预设的奖励值计算方法包括以下步骤：基于电网设备停电检修的目标函数，根据电网断面检修周期第T天的潮流信息，得到电网断面检修周期第T天的目标函数值，以电网断面检修周期第T天的目标函数值作为目标函数奖励值；判断电网断面检修周期第T天的潮流信息是否满足电网设备停电检修的约束条件，当满足电网设备停电检修的约束条件时，电网断面检修周期第T天的约束条件奖励值为第一预设值；否则，电网断面检修周期第T天的约束条件奖励值为第二预设值；将电网断面检修周期第T天的目标函数奖励值与约束条件奖励值加权叠加，得到电网断面检修周期第T天的奖励值。

其中，第一预设值可以设置为0，第二预设值可以根据电网断面检修周期第T天的潮流信息与相应约束条件之前的差距确定，最终是小于0的值。

优选的，本实施例中，所述电网设备停电检修的目标函数为检修周期内电网设备停电检修成本，约束条件包括线路安全运行约束、电网设备检修时长约束以及电网设备最小连续检修时间约束。

具体的，为了建立电网设备停电检修方案，需要考虑真实变化的电网运行环境，如负荷变化、机组出力、设备随机故障等情况。而电网设备停电检修方案，即电网设备停电窗口期优化编排的目标，就是在长时间尺度下（如一年为周期）满足电网安全运行的情况下对重要电网设备进行停电检修编排，检修安排时间范围尽可能的长且考虑停电负荷损失和由于负荷转移而增加的网损影响。

因此，电网设备停电检修的目标函数为检修周期内电网设备停电检修的成本最低，具体如下式（3）所示：

（3）

其中，N为1个检修周期内的总天数，通常为1年即365天；i为检修周期的第i天，i∉ W，W为非检修时间集合；△C _P为单位电网损失成本；P _i,loss电网断面的电网损失电量；△C _l为单位电网停电成本；P _i,cost电网断面的电网停电负荷电量；λ为权重系数；M为检修周期内参与停电检修的电网设备总数；j为第j个电网设备；S _{i, j}为第j个电网设备在第i天时的状态，S _{i, j}∈{0,1}，0表示不参与检修，1为参与检修。

线路安全运行约束如下式（4）所示：

P _i,k≤P _k,l（4）

其中，k∈F，F是待检修设备集合，P _k,l为第k条支路的支路容量。

电网设备检修时长约束为电网设备检修时长要满足最小要求，如下式（5）所示：

（5）

其中，l _j是第j个电网设备的最低检修时长。

电网设备最小连续检修时间约束，表示第j个电网设备连续检修时间，至少应等于其最低连续检修时长Q _j。如下式（6）所示：

（6）。

基于上述的电网设备停电检修的目标函数以及约束条件，本实施例中，构建的奖励值计算方法包括以下步骤：

通过下式（7）得到电网断面检修周期第T天的目标函数奖励值reward_n：

（7）

其中，P _T,loss为电网断面检修周期第T天的电网损失电量；P _T,cost为电网断面检修周期第T天的电网停电负荷电量。

通过下式（8）得到电网断面检修周期第T天的线路安全运行约束的奖励值reward_1：

（8）

通过下式（9）得到电网断面检修周期第T天的电网设备检修时长约束的奖励值reward_2：

（9）

其中，l _j为第j个电网设备的最低检修时长。

对于电网设备最小连续检修时间约束，考虑设置累计值来统计已决策情况对当前决策的影响，也就是说最终的奖励值要在单步奖励值与累计奖励值中尽可能得到最大分数，因此，电网设备最小连续检修时间约束的奖励值设置为累计奖励值，通过下式（10）得到电网断面检修周期第T天的电网设备最小连续检修时间约束的奖励值reward_3：

（10）

其中，reward_s’为电网断面第T-1天的电网设备最小连续检修时间约束的奖励值。

其中，加权叠加时的权重值可根据历史经验数据设置，或者根据训练时的训练效果进行设置，以充分平衡各奖励值的影响。

S3：根据电网断面检修周期第T天的潮流信息以及奖励值，通过预设的停电检修强化学习模型，得到并输出电网断面检修周期第T天的电网设备停电检修方案。

具体的，在进行电网设备停电检修方案制定前，预设了训练好的停电检修强化学习模型，基于停电检修强化学习模型的处理能力，实现电网断面检修周期第T天的电网设备停电检修方案的制定。

本实施例中，停电检修强化学习模型根据电网断面若干检修周期内每天的历史潮流信息，训练预设的DDPG强化学习模型得到。

参见图2，DDPG强化学习模型一般包括输入单元、环境与奖励单元、奖励设置单元以及智能体，其中，智能体中设置基于神经网络架构的AcTor网络与CriTic网络。在运行时，通过输入单元获取输入信息，输入至环境与奖励单元中，环境与奖励单元根据输入信息得到决策前环境状态，并反馈给AcTor网络作为输入，AcTor网络输出决策结果至环境与奖励单元，环境与奖励单元根据决策结果得到决策后环境状态，并将决策后环境状态输出至奖励设置单元，奖励设置单元根据决策后环境状态得到奖励值并输出至环境与奖励单元，环境与奖励单元将决策后环境状态以及奖励值输出至CriTic网络，CriTic网络根据决策后环境状态以及奖励值修改AcTor网络，使奖励值向增大的方法发展。

具体的，参见图3，将DDPG强化学习模型应用至电网设备停电检修方案制定中构建停电检修强化学习模型，具体的，将电网断面作为输入单元，以潮流计算单元和奖励反馈计算单元作为电网环境与奖励单元。电网断面作为输入单元，用于输入电网断面检修周期第T天的断面预测信息，潮流计算单元根据电网断面检修周期第T天的断面预测信息以及智能体反馈的第T-1天设备检修方案，进行潮流计算，可以采用牛顿-拉夫逊法潮流计算方法，得到决策后潮流信息，发送至奖励反馈计算单元和智能体，奖励反馈计算单元同时接收奖励设置单元发送的奖励值计算方法，奖励值计算方法由奖励设置单元依据电网设备停电检修的目标函数以及约束条件制定。奖励反馈计算单元基于决策后潮流信息，根据决策后潮流信息计算得到奖励值并反馈给智能体，智能体基于决策后潮流信息和奖励值，进行新一次的决策，得到检修周期第T天的设备检修方案并反馈给潮流计算单元。

其中，潮流计算单元以电网在理想状态下的电网断面网架拓扑为基准，以各发电机的有功功率、各发电机的无功功率、各负荷的有功功率、各负荷的无功功率、各线路的限值、各支路起始端有功功率、各支路起始端无功功率、各支路起始端电压、各支路起始端电流、各支路末端有功功率、各支路末端无功功率、电网损耗电量以及停电负荷电量作为环境状态变量，以电网设备检修作为智能体的动作变量。具体的，参见表1，每个时刻的初始环境状态变量。

表1每个时刻的初始环境状态变量表

变量名称	变量	结构
			时刻	vTime	vecTor<sTring>
负荷名称	ldname	vecTor<sTring>
			机组名称	unname	vecTor<sTring>
支路名称	lnname	vecTor<sTring>
			拓扑节点	Topo_vecT	vecTor<vecTor<inT>>
发电机有功功率	prod_p_pre	vecTor<floaT>
			发电机无功功率	prod_q_pre	vecTor<floaT>
负荷有功功率	load_p_pre	vecTor<floaT>
			负荷无功功率	load_q_pre	vecTor<floaT>
线路限值	line_Thermal_limiT	vecTor<floaT>
			支路起始端有功功率	p_or_pre	vecTor<floaT>
支路起始端无功功率	q_or_pre	vecTor<floaT>
			支路起始端电压	v_or_pre	vecTor<floaT>
支路起始端电流	a_or_pre	vecTor<floaT>
			支路末端有功功率	p_ex_pre	vecTor<floaT>
支路末端无功功率	q_ex_pre	vecTor<floaT>
			支路容量	rho	vecTor<floaT>

参见表2，每个时刻的智能体的动作变量。

表2每个时刻的智能体的动作变量表

变量名称	变量	结构
			检修设备	Off_device	vecTor<sTring>

参见表3，每个时刻动作后的环境状态变量。

表3 每个时刻动作后的环境状态变量表

变量名称	变量	结构
			发电机有功功率	prod_p_cal	vecTor<floaT>
发电机无功功率	prod_q_cal	vecTor<floaT>
			负荷有功功率	load_p_cal	vecTor<floaT>
负荷无功功率	load_q_pre	vecTor<floaT>
			线路限值	line_Thermal_limiT	vecTor<floaT>
支路起始端有功功率	p_or_cal	vecTor<floaT>
			支路起始端无功功率	q_or_cal	vecTor<floaT>
支路起始端电压	v_or_cal	vecTor<floaT>
			支路起始端电流	a_or_cal	vecTor<floaT>
支路末端有功功率	p_ex_cal	vecTor<floaT>
			支路末端无功功率	q_ex_cal	vecTor<floaT>
电网损耗电量	grid_loss	floaT
			停电负荷电量	Off_load	floaT

本实施例中，在训练时，采用若干检修周期内每天的历史潮流信息作为训练数据集进行训练。由于在训练过程中一个周期是一年的数据，以1天1个断面来计算，需读取365个断面的历史潮流信息。具体的，参见图4，历史潮流信息通过下述方法获得，首先，获取电网断面网架拓扑以及电网断面的断面历史信息。通过读取电网断面的QS文件和拓扑连接点数据，获取电网断面网架拓扑。QS文件包含了厂站、间隔等电力系统对象，其描述了电力系统基准电压、厂站等26类对象，并进行脱敏处理，即将各设备的名称进行编码化。其中，断面历史信息包括电网断面中包含的各发电机组的历史功率以及各负荷的历史功率，首先，使用按平衡机组剩余容量分配不平衡量策略进行不平衡量的分配，然后采用牛顿-拉夫逊法潮流计算方法（NR法）进行潮流计算，得到电网断面的历史潮流信息作为训练数据集，然后输入至电网环境与奖励单元中进行DDPG强化学习模型的训练，接收智能体反馈的决策并反馈奖励值给智能体。

本实施例中，在训练时，电网设备停电检修的目标函数为检修周期内电网设备停电检修的成本最低，电网设备停电检修的约束条件包括线路安全运行约束、电网设备检修时长约束以及电网设备最小连续检修时间约束。基于此，设置了奖励设置单元的奖励值计算方法，可参见上述的式（7）、（8）、（9）及（10）。

但是，在训练过程中，可能存在智能体在一次决策后，所得到的决策结果在进行潮流计算时，不能得到可行解即潮流计算不收敛，那么此时将奖励值设置为一个较大的负值，比如-1000，以此告知智能体当前决策存在问题，然后智能体修改内部的神经网络参数后，重新开始训练。

综上所述，DDPG强化学习模型在经过电网断面的历史潮流信息进行训练后，得到停电检修强化学习模型，然后将电网断面检修周期第T天的潮流信息以及奖励值输入至停电检修强化学习模型的智能体，停电检修强化学习模型的智能体给出决策结果，即电网断面检修周期第T天的电网设备停电检修方案，主要包括电网断面检修周期第T天内各设备的检修状态。

综上所述，本发明电网设备停电检修方案制定方法，根据电网断面检修周期第T天的潮流信息，结合预设的奖励值计算方法，得到电网断面检修周期第T天的奖励值，然后通过预设的停电检修强化学习模型，得到并输出电网断面检修周期第T天的电网设备停电检修方案，基于强化学习的应用，有效降低了计算量，求解过程较为简单。同时，奖励值计算方法基于电网设备停电检修的目标函数以及约束条件构建，通过根据电网设备停电检修的需求来制定奖励值计算方法，使得停电检修强化学习模型所做出的决策，更加符合电网的实际运行情况。

下述为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节，请参照本发明方法实施例。

参见图5，本发明再一实施例中，提供一种电网设备停电检修方案制定系统，能够用于实现上述的电网设备停电检修方案制定方法，具体的，该电网设备停电检修方案制定系统包括获取模块、奖励反馈模块以及方案制定模块。

其中，获取模块用于获取电网断面检修周期第T天的潮流信息；奖励反馈模块用于根据电网断面检修周期第T天的潮流信息，通过预设的基于电网设备停电检修的目标函数以及约束条件构建的奖励值计算方法，得到电网断面检修周期第T天的奖励值；方案制定模块用于根据电网断面检修周期第T天的潮流信息以及奖励值，通过预设的停电检修强化学习模型，得到并输出电网断面检修周期第T天的电网设备停电检修方案。

本发明再一个实施例中，提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CenTralProcessing UniT，CPU)，还可以是其他通用处理器、数字信号处理器(DigiTal SignalProcessor、DSP)、专用集成电路(ApplicaTion Specific InTegraTed CircuiT，ASIC)、现场可编程门阵列(Field-Programmable GaTeArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于电网设备停电检修方案制定方法的操作。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质（Memory），所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序（包括程序代码）。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volaTile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关电网设备停电检修方案制定方法的相应步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种电网设备停电检修方案制定方法，其特征在于，包括以下步骤：

根据电网断面检修周期第T天的潮流信息以及奖励值，通过预设的停电检修强化学习模型，得到并输出电网断面检修周期第T天的电网设备停电检修方案；

将电网断面检修周期第T天的目标函数奖励值与约束条件奖励值加权叠加，得到电网断面检修周期第T天的奖励值；

2.根据权利要求1所述的电网设备停电检修方案制定方法，其特征在于，所述获取电网断面检修周期第T天的潮流信息的具体方法为：

获取电网断面检修周期第T天的断面预测信息及第T-1天的电网设备停电检修方案；其中，断面预测信息包括电网断面中包含的各发电机组的预测功率以及各负荷的预测功率；

根据预设的电网断面网架拓扑、电网断面检修周期第T天的断面预测信息以及第T-1天的电网设备停电检修方案，通过预设的潮流计算方法，得到电网断面检修周期第T天的潮流信息。

3.根据权利要求1所述的电网设备停电检修方案制定方法，其特征在于，所述潮流信息包括各发电机的有功功率、各发电机的无功功率、各负荷的有功功率、各负荷的无功功率、各线路的限值、各支路起始端有功功率、各支路起始端无功功率、各支路起始端电压、各支路起始端电流、各支路末端有功功率、各支路末端无功功率、电网损耗电量以及停电负荷电量中的一种或几种。

4.根据权利要求1所述的电网设备停电检修方案制定方法，其特征在于，所述电网设备停电检修的目标函数为检修周期内电网设备停电检修成本；约束条件包括线路安全运行约束、电网设备检修时长约束以及电网设备最小连续检修时间约束。

5.根据权利要求4所述的电网设备停电检修方案制定方法，其特征在于，所述预设的奖励值计算方法包括以下步骤：

其中，

为电网断面内线路j的相对系数，

，

为电网断面内线路j的线路电流，

其中，l _j为第j个电网设备的最低检修时长；

6.根据权利要求1所述的电网设备停电检修方案制定方法，其特征在于，所述预设的停电检修强化学习模型根据电网断面若干检修周期内每天的历史潮流信息，训练预设的DDPG强化学习模型得到。

7.一种电网设备停电检修方案制定系统，其特征在于，包括：

获取模块，用于获取电网断面检修周期第T天的潮流信息、电网设备停电检修的目标函数以及约束条件；

奖励反馈模块，用于根据电网断面检修周期第T天的潮流信息、电网设备停电检修的目标函数以及约束条件，通过预设的奖励值计算方法，得到电网断面检修周期第T天的奖励值；其中，预设的奖励值计算方法基于电网设备停电检修的目标函数以及约束条件构建；

8.根据权利要求7所述的电网设备停电检修方案制定系统，其特征在于，所述获取模块包括：

9.根据权利要求7所述的电网设备停电检修方案制定系统，其特征在于，所述潮流信息包括各发电机的有功功率、各发电机的无功功率、各负荷的有功功率、各负荷的无功功率、各线路的限值、各支路起始端有功功率、各支路起始端无功功率、各支路起始端电压、各支路起始端电流、各支路末端有功功率、各支路末端无功功率、电网损耗电量以及停电负荷电量中的一种或几种。

10.根据权利要求7所述的电网设备停电检修方案制定系统，其特征在于，所述电网设备停电检修的目标函数为检修周期内电网设备停电检修的成本最低；约束条件包括线路安全运行约束、电网设备检修时长约束以及电网设备最小连续检修时间约束。

11.根据权利要求7所述的电网设备停电检修方案制定系统，其特征在于，所述预设的奖励值计算方法包括以下步骤：

其中，

为电网断面内线路j的相对系数，

，

为电网断面内线路j的线路电流，

其中，l _j为第j个电网设备的最低检修时长；

12.根据权利要求7所述的电网设备停电检修方案制定系统，其特征在于，所述预设的停电检修强化学习模型根据电网断面若干检修周期内每天的历史潮流信息，训练预设的DDPG强化学习模型得到。

13.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述电网设备停电检修方案制定方法的步骤。

14.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述电网设备停电检修方案制定方法的步骤。