CN113627733A

CN113627733A - 一种灾后配电网动态抢修方法及系统

Info

Publication number: CN113627733A
Application number: CN202110808878.8A
Authority: CN
Inventors: 林志贤; 陈颖; 田启东; 聂欢欢; 林子钊; 何蓝图; 崔正达; 李博达
Original assignee: Tsinghua University; Shenzhen Power Supply Bureau Co Ltd
Current assignee: Tsinghua University; Shenzhen Power Supply Bureau Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-11-09
Anticipated expiration: 2041-07-16
Also published as: CN113627733B

Abstract

本发明提供一种灾后配电网动态抢修方法及系统，其中方法包括：通过环境侧获取待动态抢修的灾后配电网的状态信息；将所述待动态抢修的灾后配电网的状态信息输入至包括强化学习模型的智能体侧，得到智能体输出的灾后配电网动态抢修结果；其中，所述智能体侧从环境侧获取强化学习状态，基于策略选择动作作用于配电网上，并接收相应的奖励值及下一状态进行迭代训练，不断更新网络参数后得到所述强化学习模型。本发明实施例实现了配电网的灾后抢修在多抢修队伍协同调配、抢修恢复和转供复电的深度耦合及灾情不确定性情况下的高效率和高准确率的抢修效果。

Description

一种灾后配电网动态抢修方法及系统

技术领域

本发明涉及配电网抢修技术领域，尤其涉及一种灾后配电网动态抢修方法及系统。

背景技术

极端灾害会导致配电网大面积故障，及时安排合理的配电网抢修计划对于提升配电网韧性至关重要，快速制定科学有效的抢修计划，能帮助配电网快速恢复至正常供电状态，减小自然灾害冲击给配电网造成的损失。在极端灾害袭击下，配电网可能会在短时间内发生多处故障而大面积失电。由于灾害的强不确定性及配电网故障探知能力的有限，电网中的灾情信息往往难以在第一时间获取。

随着计算机运算能力的提高，及机器学习领域新算法的发展，以强化学习为代表的一些新方法被用于传统的组合优化问题、如旅行商问题中，并取得了不错的效果。在旅行商问题中，精心设计的启发式算法可以得到一个不错的解。但当问题稍微变化，如问题中某一参数发生改变，就需要重新求解。

配电网的灾后抢修问题，是一个将各抢修队伍派遣至电网中各个故障处进行抢修，直至所有故障修复完毕的问题。该问题本质上是一个旅行商问题，或订单派送问题。然而目前对上述问题的研究仅仅针对单旅行商问题，对于有多个抢修队伍/旅行商的情况未做探讨。在强化学习中此类问题被称为多智能体强化学习问题。多智能体强化学习问题中，由于对某一智能体而言，其他智能体均变成了环境的一部分，环境不确定性增大，因此难度较单智能体强化学习问题更大。

发明内容

本发明实施例提供一种灾后配电网动态抢修方法及系统，用以解决目前配电网的灾后抢修在多抢修队伍协同调配、抢修恢复和转供复电的深度耦合及灾情不确定性情况下的抢修效率和准确率问题。

第一方面，本发明实施例提供一种灾后配电网动态抢修方法，包括：通过环境侧获取待动态抢修的灾后配电网的状态信息；

将所述待动态抢修的灾后配电网的状态信息输入至包括强化学习模型的智能体侧，得到智能体输出的灾后配电网动态抢修结果；

其中，所述智能体侧从环境侧获取强化学习状态，基于策略选择动作作用于配电网上，并接收相应的奖励值及下一状态进行迭代训练，不断更新网络参数后得到所述强化学习模型。

进一步地，所述智能体侧包括智能体接收模型、策略选择模型、状态及奖励计算模型及迭代训练模型；

将所述待动态抢修的灾后配电网的状态信息输入至包括强化学习模型的智能体侧，得到智能体输出的灾后配电网动态抢修结果，包括：

将所述待动态抢修的灾后配电网的状态信息输入所述智能体接收模型，输出智能体接收状态；

将所述智能体接收状态输入所述策略选择模型，输出智能体基于策略选择的动作，并将所述动作传送至所述环境侧作用于配电网；

将所述智能体基于策略选择的动作输入所述状态及奖励计算模型，输出所述动作相应的奖励值及下一状态；

将所述动作相应的奖励值及下一状态输入所述迭代训练模型，基于网络参数更新后的强化学习模型输出所述灾后配电网动态抢修结果。

进一步地，所述智能体侧从环境侧获取强化学习状态，基于策略选择动作作用于配电网上，并接收相应的奖励值及下一状态进行迭代训练，不断更新网络参数后得到所述强化学习模型，具体包括：

所述智能体侧从环境侧获取包括系统故障信息、各抢修队伍状态、系统的恢复态势在内的强化学习状态；

所述智能体侧基于接收的所述强化学习状态选择强化学习离散动作；

所述智能体侧将所述强化学习离散动作传送给环境侧作用于配电网，以使得所述环境侧派遣选择的抢修队伍资源，并转至下一决策时刻，得到下一状态及相应的奖励值；

所述智能体侧将基于获得的下一状态及相应的奖励值得到学习经验模式，并存储至经验回放池；

所述智能体侧基于所述经验回放池进行迭代训练以不断更新网络参数，从而得到强化学习模型。

进一步地，所述强化学习状态包括故障维数、抢修队伍数量和抢修队伍维数；

所述智能体侧基于所述经验回放池进行迭代训练以不断更新网络参数，包括：

所述智能体侧基于所述经验回放池采用状态粗筛机制筛选出特定数目的候选故障；其中，所述状态粗筛机制采用包括基于负荷价值提升的贪婪抢修算法、基于负荷提升的贪婪抢修算法、基于距离的贪婪抢修算法或基于负荷价值提升效率的贪婪抢修算法在内的任一贪婪抢修算法；

所述智能体侧基于候选故障数目、故障维数、抢修队伍数量和抢修队伍维数对多层神经网络的Q值函数进行最小化逼近，以不断更新所述多层神经网络参数。

进一步地，所述强化学习状态还包括选择派遣的抢修队伍资源、系统的负荷恢复率和系统的负荷价值恢复率，其表示如下：

其中，

表示系统故障信息，

表示抢修队伍信息，

表示选择派遣的抢修队伍资源，P_t ^r为系统的负荷恢复率，V_t ^r为系统的负荷价值恢复率。

进一步地，所述系统故障信息的每一条故障采用六维向量表示为：

其中，x,y为故障的地理位置，t^r为抢修耗时，

为负荷恢复率，

为负荷价值恢复率。

进一步地，所述抢修队伍信息的每一个抢修队伍采用三维向量表示为：

其中，x_t,y_t为抢修队伍的地理位置，

表示在经过

时间后抢修队伍

被再次调配。

第二方面，本发明实施例提供一种灾后配电网动态抢修系统，包括：环境侧，用于获取待动态抢修的灾后配电网的状态信息；

智能体侧，用于将所述待动态抢修的灾后配电网的状态信息输入至强化学习模型，输出灾后配电网动态抢修结果；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面所提供的任一项所述灾后配电网动态抢修方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所提供的任一项所述灾后配电网动态抢修方法的步骤。

本发明实施例提供的一种灾后配电网动态抢修方法及系统，通过将灾后配电网的状态信息输入至包括强化学习模型的智能体侧，得到智能体输出的灾后配电网动态抢修结果；所述智能体侧从环境侧获取强化学习状态，基于策略选择动作作用于配电网上，并接收相应的奖励值及下一状态进行迭代训练，不断更新网络参数后得到所述强化学习模型。本发明实现了配电网的灾后抢修在多抢修队伍协同调配、抢修恢复和转供复电的深度耦合及灾情不确定性情况下的高效率和高准确率的抢修效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的配电网灾后恢复过程的示意图；

图2是本发明提供的一种灾后配电网动态抢修方法的流程示意图；

图3是本发明提供的智能体侧与环境侧的交互过程示意图；

图4是本发明提供的IEEE 123节点系统示意图；

图5是本发明提供的灾后故障场景下的IEEE 123节点系统示意图；

图6是本发明提供的无灾情不确定性无重构模式下的系统恢复示意图；

图7是本发明提供的有灾情不确定性有重构模式下各策略排名分布图；

图8是本发明提供的一种灾后配电网动态抢修系统的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的技术构思：现有技术无法实现对灾情不确定性下的抢修指挥，本发明综合考虑了抢修过程中的三个挑战：1)多抢修队协同调配，当对某一队伍进行抢修调配时需要考虑其他队伍的抢修状态；2)抢修恢复和转供复电的深度耦合，故障抢修和转供恢复是配电网恢复过程中的两种常用恢复手段，需要考虑这两个阶段的相互影响；3)灾情的不确定性，灾后过程中往往难以第一时间探知系统的全部故障，需要在故障不断被探知的情形下进行抢修方案制定；此外，二次灾害的发生也增加了系统灾情的不确定性。在综合考虑此三个挑战的基础上构建一个基于强化学习的灾后配电网动态抢修决策方案。

针对一包含N个系统节点的配电网，节点集为

系统中常闭线路集为

常开备用线路集为

极端灾害可能会导致配电网中部分设备发生损坏，发生损坏的设备可以是支路类型或节点类型。记灾害导致的配电网故障线路集为

导致的配电网故障节点集为

此时系统中可用常开备用线路集为备用线路中未发生故障的线路，记为

由于系统灾情的不确定性，系统发生的故障往往难以第一时间探知，故为发生的每一个故障设置一个探知时间，在此探知时间前，系统未能知道该故障发生。设系统有r个抢修队伍，故障抢修即为将r个抢修队伍分别派遣至所有支路、节点故障处进行抢修。每次一个故障抢修完毕之后，可以决定是否需要采取重构措施帮助系统恢复。因此，便形成抢修-重构-抢修-重构的灾后恢复机制，直至配电网中的故障全部抢修完毕或系统恢复正常供电。此问题的关键为抢修队伍调配顺序的确定。该问题的NP难特性，受强化学习等人工智能方法的启发，本发明试图利用强化学习进行配电网灾后抢修及恢复问题的求解。

如图1为配电网灾后恢复过程的示意图。随着抢修工作的开展，系统中的故障被陆续清除，负荷陆续恢复；且一般来说当耦合系统重构操作时，能更快速地进行配电网的供电恢复。灾后恢复的目标为最小化恢复曲线上方、系统正常供电负荷水平以下的不规则多边形的面积，该块面积为系统失电负荷的累计损失，即：

其中，s为灾害导致的某一配电网故障场景，如上文的7个故障组成了一个故障场景；L^s(π；d,r)为系统采取的重构及抢修策略为π时的系统灾后失电损失，即上文所述的不规则多边形面积；w_i为负荷节点i的负荷权重；P_i为负荷节点i的功率需求；T表示整个系统全部恢复正常供电的时间；δ_i,s,π(t；r)∈{0,1}为配电网故障场景s下，系统中有r个抢修队，采取的重构及抢修策略为π时，负荷节点i在t时刻的供电状态，1表示该负荷失电，0表示该负荷正常供电。δ_i,s,π(t；r)的确定为灾后配电网恢复问题的核心，其受系统的抢修安排和重构措施影响。

下面阐述负荷供电状态的确定思路。一般而言配电网呈辐射状，所有负荷由配电网变电站供电。正常情况下，配电网中各个节点均存在至配电站的连通路径，此时各个节点正常供电。灾害发生后，由于部分设备损坏，电网连通性遭到破坏，部分节点找不到其至配电站的连通路径，此时该负荷停电。当随着抢修工作及重构的开展，部分停电的负荷又重新和配电站节点建立了连通关系，此时此部分停电的负荷恢复正常供电。可见，整个恢复过程是一个配电网拓扑结构不断变化的过程，每次抢修及重构完毕后，系统拓扑结构均会发生变化。因此，可设计一个路径搜索策略，如利用深度/广度优先等遍历算法，确定某一节点和配电站节点间是否存在连通路径。每一抢修及重构完毕后，运行此策略，从而确定负荷的供电状态。

下面结合图2-图9描述本发明提供的一种灾后配电网动态抢修方法及系统。

本发明实施例提供了一种灾后配电网动态抢修方法。图2为本发明实施例提供的灾后配电网动态抢修方法的流程示意图，如图2所示，该方法包括：

步骤210，通过环境侧获取待动态抢修的灾后配电网的状态信息；

步骤220，将所述待动态抢修的灾后配电网的状态信息输入至包括强化学习模型的智能体侧，得到智能体输出的灾后配电网动态抢修结果；

本发明实施例提供的方法，通过将灾后配电网的状态信息输入至包括强化学习模型的智能体侧，得到智能体输出的灾后配电网动态抢修结果；所述智能体侧从环境侧获取强化学习状态，基于策略选择动作作用于配电网上，并接收相应的奖励值及下一状态进行迭代训练，不断更新网络参数后得到所述强化学习模型。本发明实现了配电网的灾后抢修在多抢修队伍协同调配、抢修恢复和转供复电的深度耦合及灾情不确定性情况下的高效率和高准确率的抢修效果。

需要说明的是，基于OpenAI Gym框架进行配电网灾害抢修恢复环境的搭建，以供强化学习算法进行训练测试。首先阐述环境构建的框架及其和强化学习智能体交互的机制，其次对环境设计中的几个关键环节进行具体阐述。

首先，如下进行强化学习环境和智能体之间交互机制的说明。智能体侧和环境侧是两个分离的实体，智能体侧通过和环境侧的数据交互以获取经验数据以供自身学习，如图3所示展示了智能体侧和环境侧的交互过程。

其次，以智能体侧的视角，智能体侧从环境侧获取强化学习状态s_t，根据自身策略选择了动作a_t作用于环境侧上，并接收了相应的奖励r_t和下一状态s_t+1。智能体侧由此获得一条强化学习经验e_t＝[s_t,a_t,r_t,s_t+1]，将经验存储至经验回放池后便可适时开展强化学习智能体的训练。

接着，站在环境侧，考虑配电网中灾情的不确定性，为配电网中发生的故障均设置一个故障发生时间。本发明约有一半左右的故障会在抢修开始时勘测得知，另外故障发生时间为一个0-10小时内的随机数。即在考虑灾情不确定性下，所有故障均会在10小时内勘测完毕。考虑抢修队伍的可调配情况，本发明假设每一个决策时刻均只有一个抢修队伍可用。在抢修开始时r个抢修队伍均可用的情况下，可分别为r个抢修队伍的可调配时刻加上极小的随机数，如0-0.0001小时之间的随机数，确保每个时刻均只有一个抢修队伍可用。

强化学习的状态粗筛机制设计思路如下：在每一个抢修队可调配的时刻，对于系统中可抢修的故障，计算其故障描述f_t ^k。其中，可抢修的故障为系统已经探知的故障中尚未分配给抢修队进行抢修的故障。按照在强化学习状态粗筛机制中阐述的四种贪婪算法和粗筛策略，给出粗筛得到的N_c个故障描述。

然后，根据粗筛后的故障状态、结合抢修队伍状态和其他系统状态信息，形成强化学习状态。接着，接收强化学习动作并作用于配电网后，系统跳转至下一决策时刻。此时，系统中已修复完毕的故障又多了一个，即系统拓扑发生变化，可以耦合上配网重构措施，重新计算配电网的负荷恢复率等指标，给出上一决策过程的奖励。同时，需要探知此决策时刻的故障信息，查看是否有新增故障，根据此决策时刻的可调配抢修队伍信息，计算新的强化学习状态，即强化学习中用到的下一状态，并返回给智能体。依次重复上述过程，直至系统中所有的故障抢修完毕，系统完全恢复供电。

基于上述任一实施例，所述智能体侧包括智能体接收模型、策略选择模型、状态及奖励计算模型及迭代训练模型；

具体地，以图1所示的无重构抢修为例。在t₂时刻，系统负荷恢复率达到P₂，即此时某抢修队完成了某一故障的恢复，部分负荷又重新接入电网。不失一般性，设在t₂时刻抢修队

成功完成了故障

的抢修；即此时抢修队

重新由不可调配状态转变为可调配状态，

变为0，但

的位置还停留在故障

的地理位置处。此时，需要将抢修队

派遣至新的故障处进行抢修。在t₂时刻，需要计算新的故障状态，若

中有一故障

利用系统中已恢复的设备数据，并假设

对应的故障恢复，可计算出故障

的

和

如设抢修队

恰派遣至故障

处进行抢修，且在t₃时修复完毕，则故障

的

为P₃-P₂，

根据加权后的负荷价值提升可以计算得到，

为(1-P₂)(t₃-t₂)，是该故障抢修阶段的系统失电损失，即图1中的蓝色矩形面积；抢修队

的位置变为故障

的位置，其

可根据故障

和

之间的距离和

的抢修耗时进行计算。

其次，考虑强化学习动作a_t的设计。本发明的抢修安排为将各抢修队分配至各个故障处进行抢修，因此强化学习动作为离散值。故障s_t中包含了对系统故障信息的描述

因此强化学习的离散动作维数为

中的故障数目

即：

接着，考虑每次抢修派遣过程的奖励r_t的设计。每次有抢修队状态变为可派遣时的时刻为智能体进行决策的时刻，如开始进行抢修的时刻和每次抢修队完成一个故障抢修的时刻。每次决策的奖励可根据从该次决策到下次决策之间的系统失电损失

进行设计。同时，由于系统失电损失

反应的是累积决策的影响，如抢修最开始无论采取何种调配策略其失电损失

均会较大，而抢修接近结束时其失电损失

较小，因此也需要设计反应该项抢修调配方案的即时好坏。因此进行如下的奖励设计：

其中，

为选择抢修的故障f_t ^k的

反映了若抢修该故障能为系统带来的供电负荷价值恢复率提升，为此抢修安排的短期价值体现，β为反映此短期价值体现的因子，其大小可利用网格搜索确定。

基于上述任一实施例，所述智能体侧从环境侧获取强化学习状态，基于策略选择动作作用于配电网上，并接收相应的奖励值及下一状态进行迭代训练，不断更新网络参数后得到所述强化学习模型，具体包括：

需要说明的是，针对上述的抢修调配及重构恢复问题，本发明设计相应的强化学习模型。强化学习是指一个智能体在和环境交互的过程中，通过获取环境状态，采取动作作用于环境，获取反映该状态下所采取的动作好坏的奖励值，并利用奖励值进行学习的一种机器学习方法。强化学习尤其适合用于序列决策问题当中。当把一个问题建模为强化学习问题时，需要明确智能体获取的状态、采取的动作及相应的奖励。在本问题中，智能体代表着抢修队伍调配及系统重构管理中心，也即电网管理者，智能体采取的动作为各个抢修队的调配方案及重构方案，奖励函数可根据配电网失电损失进行设计。

在强化学习模型当中，一个明显的问题是强化学习的状态和动作空间不固定。如强化学习状态中的系统故障信息

是一个故障个数×故障维数的张量，在不同的故障数目下其大小不同。而强化学习动作的维数在不同故障个数下也会发生变化。受抢修恢复特性的影响，系统中故障数目一般来说会逐渐减少，因此需要设计一种机制以处理此状态、动作空间可变的强化学习问题。

基于上述任一实施例，所述强化学习状态包括故障维数、抢修队伍数量和抢修队伍维数；

具体地，状态粗筛机制中，设计几种贪婪算法给出故障候选，供强化学习进行进一步挑选。考虑四种贪婪抢修的算法：1)基于负荷价值提升的贪婪抢修：计算各个可抢修故障的

选择其中最大的故障进行抢修；2)基于负荷提升的贪婪抢修：计算各个可抢修故障的

选择其中最大的故障进行抢修；3)基于距离的贪婪抢修：计算各个可抢修故障距待调配抢修队伍之间的距离，选择距离最近的故障进行抢修；4)基于负荷价值提升效率的贪婪抢修：综合考虑各个可抢修故障的

和其距待调配抢修队的距离，选择其比值最大的故障进行抢修。四种贪婪抢修方法会给出至多四种故障推荐，若N_c大于四，则需要另外为强化学习推荐新的故障。考虑到我们的目标为最小化负荷的失电价值，直觉上来讲基于负荷价值提升的贪婪抢修会得到相对较好的恢复效果。因此，剩余故障候选可从其他故障中按照其

从大到小的顺序进行挑选，直至N_c个故障候选全部产生。系统中可供抢修的故障个数不足N_c个时，可将

中对应的故障f_t ^k置为零向量。

在本发明的粗筛机制中，提出了四种贪婪抢修策略以生成供强化学习进行进一步挑选的故障候选集。一般而言，无论何种贪婪均不能保证能得到最佳的灾后抢修调配方案，此四种贪婪抢修策略可作为强化学习效果的对比策略。

具体地，本发明中的强化学习抢修问题在经过上述强化学习模型建模后，为一个拥有连续状态空间和离散动作空间的强化学习问题。对于此类问题，以深度Q网络DQN为基础的各强化学习方法在游戏等任务上有不错的成功应用经验，本发明基于其中的DQN和Dueling DQN进行此抢修问题的求解。在强化学习抢修算法中，其中的关键为Q值函数的估计，一般会利用一个多层神经网络进行逼近。

本发明设计的强化学习状态中包含了多个故障及多个抢修队伍的信息，即强化学习状态中的每一个元素都有明确的物理意义。若直接将状态展平折叠为一个一维数组，则之后的特征提取层会对具有不同物理意义的元素进行运算，状态中各个元素的物理意义在计算时被稀释。因此，本发明对故障状态及抢修队伍状态中的每一维单独进行特征学习，每一维的特征被表示为一个32维的向量，即Q值网络结构图中的特征提取输出层。完成之后，进行拼接从而形成完整系统特征。接着利用系统的完整特征进行价值函数和优势函数的学习，并进行Q值函数的计算。

基于上述任一实施例，所述强化学习状态还包括选择派遣的抢修队伍资源、系统的负荷恢复率和系统的负荷价值恢复率，其表示如下：

其中，

表示系统故障信息，

表示抢修队伍信息，

具体地，强化学习状态s_t的设计，强化学习状态为智能体选择决策的依据，因此强化学习状态中需要包含影响其做出决策的信息。本问题中系统故障信息、各抢修队伍的状态、系统的恢复态势均会对抢修人员调配安排有所影响，本发明中设计的系统状态如下所示：

其中，

表示系统的故障信息，

表示抢修队伍信息，

表示此时选择进行派遣的抢修队，P_t ^r为系统的负荷恢复率，V_t ^r为系统的负荷价值恢复率，也即加权负荷恢复率。

基于上述任一实施例，所述系统故障信息的每一条故障采用六维向量表示为：

其中，x,y为故障的地理位置，t^r为抢修耗时，

为负荷恢复率，

为负荷价值恢复率。

具体地，

为系统故障信息，考虑如何描述一条故障。对于

中的每一条故障f_t ^k，设计如下的描述方式：

即每一条故障用一个六维向量表示：该故障的地理位置x,y；该故障的抢修耗时t^r，即该故障从开始抢修至抢修完毕的耗时；若该故障抢修完毕，系统可以提升的负荷恢复率

若该故障抢修完毕，系统可以提升的负荷价值恢复率

及从该时刻至下一抢修队可调配期间，系统的失电损失

基于上述任一实施例，所述抢修队伍信息的每一个抢修队伍采用三维向量表示为：

其中，x_t,y_t为抢修队伍的地理位置，

表示在经过

时间后抢修队伍

被再次调配。

具体地，考虑抢修队伍的描述方式，对于

中的每一个抢修队

其设计为一个三维向量：

其中，x_t,y_t为抢修队的地理位置，

表示在经过

时间后抢修队

可以被再次调配。将某一故障分配给一个可调配的抢修队伍之后，该抢修队的地理位置变为分配的故障的地理位置，

可通过抢修队调配前的位置和故障位置之间的距离及故障的抢修耗时决定。

以下进行具体实验结果说明：

采用改编的IEEE 123标准节点系统算例，为系统添加了部分备用线路以供转供使用，改变后的系统示意图如图4所示。本发明设计的配电网灾后仿真环境具有多种运行模式，按照是否考虑灾情不确定性、是否耦合重构操作分为四种运行模式。当考虑灾情不确定性时，系统中的故障会陆续发生被探明；当耦合系统重构操作时，系统在每次抢修完毕后会计算若利用备用线路可最大恢复的负荷。

在生成故障时，本发明考虑了节点和支路两类故障，基本可以覆盖电力系统中发生故障的全部类型。同时，为得到一个适用于所有故障场景的通用解，本发明随机生成了10％-20％左右的线路故障，生成了5％-10％的节点故障。当系统存在灾情不确定性时，约有一半左右的故障未能在开始抢修时探测，这些故障会在10小时内发生并被勘察到。图5给出了一个故障场景下的IEEE 123节点系统。随机生成这样的灾后故障场景，供强化学习进行训练。

本发明假设系统中存在3个抢修队，灾前安排在同一地点。强化学习中的折扣因子设为1，奖励函数设计中的β在经网格搜索后选择1，粗筛故障候选集大小设为5。本发明训练使用的机器配置为3.20GHz CPU Intel(R)Core(TM)i5-6500,24GB RAM，GPU配置为TeslaK20c。本发明强化学习智能体的训练时间约为10个小时。

1)单故障场景测试

首先进行本发明提出的方法的最优性测试，利用提出的几种贪婪算法作为对比策略。一般来讲，贪婪算法能给出不错的抢修调配解决方案，但在抢修工作完成之前，却难以确认最优的贪婪策略。且在不同的灾后故障场景下，不同贪婪算法的表现没有绝对优劣之分，均具有波动。

下面首先测试，对于一个给定的灾后故障场景，强化学习能否给出更优异的抢修方案。采用图5所示的灾后故障场景，首先在无灾情不确定性、不耦合重构措施下进行测试。分别采用基于粗筛机制中提出的四种贪婪抢修策略：基于负荷价值提升的贪婪抢修、基于负荷提升的贪婪抢修、基于距离的贪婪抢修和基于负荷价值提升效率的贪婪抢修，及DQN和Dueling DQN两种强化学习方法进行测试。本测试中的DQN和Dueling DQN智能体均是在无灾情不确定性无耦合重构模式下进行的训练。

如图6所示，显示了6种策略在无灾情不确定性无重构模式下配电网的恢复情况。可见，在此场景下，Dueling DQN和DQN智能体均给出了相较于其他几种贪婪策略更佳的抢修调配方案。Dueling DQN和DQN智能体控制策略下，系统失电的失电损失分别为11.33和11.31，此失电损失即恢复曲线上方的不规则多边形面积。而几种贪婪策略给出的抢修调配方案下，系统的失电损失均大于12。这证明了：生成多个随机灾后场景进行强化学习智能体训练，可以得到一个通用的抢修调配方案求解策略；在某些场景下，此策略可以比人工设计的贪婪抢修方案获得更好的抢修效果。

2)多故障场景测试

接着，在多个故障场景下进行提出的方法的测试，生成500个测试灾后故障场景，且作者声明未用此500个场景进行过智能体的训练。

本发明从三个方面来考虑对测试结果的评估：1)排名，对每一场景下各个方案得到的失电损失按从小到大排名；2)损失分数，对各个方案得到的失电损失进行预处理，分别除以此场景下六种方案中最小的失电损失，从而得到各个策略的损失分数，各个方案的损失分数均为不小于1的正数；3)损失分数偏度，对于一个方案而言，在某些测试场景中可能会出现表现非常不好的情况，即其损失分数较大具有长尾特性。我们希望这样的长尾分数尽可能少，用偏度可以来衡量各个方案分数的长尾出现情况。以上三个方面，对于抢修方案的选择均很重要。

其中，灾情不确定性有重构模式下的结果，如图7和表1所示，这是实际灾后修复过程中最可能面对的情况。图7显示了各个策略在500个测试场景下的排名分布情况，显示了500个场景下的各策略的排名期望和其标准差。其中策略1-6分别代表基于负荷价值提升的贪婪抢修、基于负荷提升的贪婪抢修、基于距离的贪婪抢修和基于负荷价值提升效率的贪婪抢修，及Dueling DQN和DQN。

从图7可以看出，DQN智能体即策略6的排名期望和策略1基本持平，位居第二，但其方差更小。从损失分数角度来看，DQN智能体的损失分数期望为1.31，位居第三，和位居第二的策略3相差极小，但DQN智能体标准差更小。从损失分数偏度的角度来看，DQN智能体的偏度远小于损失分数位居第一的策略4，其长尾特性更小，表现更稳定。综上所述，利用强化学习得到的智能体在排名、损失分数、分数偏度等三个方面综合表现稳定，不失为灾后抢修的有效可用选择之一。电网管理者可综合多种策略在多个方面的表现，根据自己的风险偏好进行策略选择。

表1灾情不确定性有重构模式下各策略损失分数统计指标

本发明在灾情不确定性下进行灾后配电网抢修调配工作，为处理灾后故障发生的不确定性、多抢修队伍调配、抢修与配网重构深度耦合等多个挑战，利用强化学习进行灾后抢修队伍调配，以得到适用于多个灾后故障场景的通用抢修队伍调配策略，同时构建了适用于多抢修队伍的强化学习模型，为处理灾后抢修恢复过程中的可变状态及动作空间问题，提出了强化学习状态粗筛机制，将可变的状态动作空间变为固定大小，并分别利用DQN和Dueling DQN进行了强化学习智能体的实现，提出了四种贪婪抢修策略作为对比，实验结果表明在提出的排名、损失分数、分数偏度的多个指标下强化学习综合表现稳定，可以作为灾后故障抢修的可选方案之一。

下面对本发明提供的一种灾后配电网动态抢修方法进行描述，下文描述的与上文描述的一种灾后配电网动态抢修系统可相互对应参照。

图8为本发明实施例提供的一种灾后配电网动态抢修系统的结构示意图，如图8所示，该系统包括环境侧810和智能体侧820；

环境侧810，用于获取待动态抢修的灾后配电网的状态信息；

智能体侧820，用于将所述待动态抢修的灾后配电网的状态信息输入至强化学习模型，输出灾后配电网动态抢修结果；

本发明实施例提供的系统，通过将灾后配电网的状态信息输入至包括强化学习模型的智能体侧，得到智能体输出的灾后配电网动态抢修结果；所述智能体侧从环境侧获取强化学习状态，基于策略选择动作作用于配电网上，并接收相应的奖励值及下一状态进行迭代训练，不断更新网络参数后得到所述强化学习模型。本发明实现了配电网的灾后抢修在多抢修队伍协同调配、抢修恢复和转供复电的深度耦合及灾情不确定性情况下的高效率和高准确率的抢修效果。

基于上述任一实施例，所述智能体侧包括智能体接收模块、策略选择模块、状态及奖励计算模块及迭代训练模块；

所述智能体接收模块，用于输入所述待动态抢修的灾后配电网的状态信息，输出智能体接收状态；

所述策略选择模块，用于输入所述智能体接收状态，输出智能体基于策略选择的动作，并将所述动作传送至所述环境侧作用于配电网；

所述状态及奖励计算模块，用于输入所述智能体基于策略选择的动作，输出所述动作相应的奖励值及下一状态；

所述迭代训练模块，用于输入所述动作相应的奖励值及下一状态，基于网络参数更新后的强化学习模型输出所述灾后配电网动态抢修结果。

其中，

表示系统故障信息，

表示抢修队伍信息，

其中，x,y为故障的地理位置，t^r为抢修耗时，

为负荷恢复率，

为负荷价值恢复率。

其中，x_t,y_t为抢修队伍的地理位置，

表示在经过

时间后抢修队伍

被再次调配。

图9为本发明实施例提供的电子设备的结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行灾后配电网动态抢修方法，该方法包括：通过环境侧获取待动态抢修的灾后配电网的状态信息；将所述待动态抢修的灾后配电网的状态信息输入至包括强化学习模型的智能体侧，得到智能体输出的灾后配电网动态抢修结果；其中，所述智能体侧从环境侧获取强化学习状态，基于策略选择动作作用于配电网上，并接收相应的奖励值及下一状态进行迭代训练，不断更新网络参数后得到所述强化学习模型。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的灾后配电网动态抢修方法，该方法包括：通过环境侧获取待动态抢修的灾后配电网的状态信息；将所述待动态抢修的灾后配电网的状态信息输入至包括强化学习模型的智能体侧，得到智能体输出的灾后配电网动态抢修结果；其中，所述智能体侧从环境侧获取强化学习状态，基于策略选择动作作用于配电网上，并接收相应的奖励值及下一状态进行迭代训练，不断更新网络参数后得到所述强化学习模型。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的灾后配电网动态抢修方法，该方法包括：通过环境侧获取待动态抢修的灾后配电网的状态信息；将所述待动态抢修的灾后配电网的状态信息输入至包括强化学习模型的智能体侧，得到智能体输出的灾后配电网动态抢修结果；其中，所述智能体侧从环境侧获取强化学习状态，基于策略选择动作作用于配电网上，并接收相应的奖励值及下一状态进行迭代训练，不断更新网络参数后得到所述强化学习模型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。