CN115239072A

CN115239072A - 基于图卷积神经网络与强化学习的负荷转供方法及装置

Info

Publication number: CN115239072A
Application number: CN202210726136.5A
Authority: CN
Inventors: 王光华; 李晓影; 崔蒙; 张沛; 陈玉鑫; 宋秉睿; 张雷; 蔡桂华; 赵鹏; 高龙; 高岩; 管敏丽; 胡文丽
Original assignee: Tianjin Xianghe Electric Technology Co ltd; State Grid Corp of China SGCC; Baoding Power Supply Co of State Grid Hebei Electric Power Co Ltd
Current assignee: Tianjin Xianghe Electric Technology Co ltd; State Grid Corp of China SGCC; Baoding Power Supply Co of State Grid Hebei Electric Power Co Ltd
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-10-25

Abstract

本发明涉及一种基于图卷积神经网络与强化学习的负荷转供方法及装置，包括：基于图卷积神经网络和深度强化学习Dueling‑DQN算法搭建的第一神经网络和第二神经网络，基于第一神经网络、第二神经网络和经验池构建智能体模型，配电网发生故障，智能体模型将配电网实时运行数据输入到智能体模型，计算出动作评价向量，基于动作评价向量根据动作策略选取相应的动作；动作作用于环境使其状态发生改变，同时奖励函数对该动作进行评价，并反馈给智能体，更新智能体的参数进行学习，通过大量的训练后，智能体实现最佳目标的负荷转供动作。本发明直接通过分析实时运行大数据与网络拓扑数据进行负荷转供决策，可以在短时间内给出更好的负荷转供策略。

Description

基于图卷积神经网络与强化学习的负荷转供方法及装置

技术领域

本发明属于配电网的技术领域，尤其是一种基于图卷积神经网络与强化学习的负荷转供方法及装置。

背景技术

国民经济的不断发展带来了各行各业对用电需求的大幅增长，但城市电网建设相比于经济发展相对滞后，因此对配电网供电可靠性的要求越来越高，配电网中可操作开关数量多，线路发生故障时可选择的负荷转供路径，即开关操作组合数量庞大。目前大多数配电公司仍主要采用人工经验决策方法，难以兼顾负荷转供决策的快速性与经济性，因此寻求一种可以在短时间内求解负荷转供决策的方法十分必要。

目前，针对负荷转供提出了多种方法，根据决策求解方式的不同可以分成以下几类：启发式算法、专家系统法、数学优化法、人工智能算法；

其中，启发式算法依据直观经验制定负荷转供规则，在规则约束之下进行探索求解，启发式算法的优点在于能够快速求解出一种规则之下可以被接受的可行解，但是启发式算法对先验知识的依赖性强，求解效果受配电网当下状态影响较大，且无法保证求解方案的最优性；

其中，专家系统法依据过往运行经验，建立负荷转供知识库，发生故障时通过推理引擎对先验知识的推导得出最终决策，专家系统法的优点是能够快速获得可行的方案，建立好的知识库适用性较好，但是建立一个大型且完备的知识库十分困难，难以保证知识库能够囊括配电网所有故障情形，因此，专家系统法同样不能保证解的最优性；

其中，数学优化法是将配电网负荷转供描述为多目标优化问题，设置目标函数与约束条件，通过数学规划求解方法得出方案，数学优化法的优点是模型明确，求解逻辑清晰，可以得到最优解或近似最优解，缺点是随着网络规模的增大、网络结构越来越复杂、网络中可操作开关数量的剧增，数学优化法的计算代价较高，难以满足负荷转供决策的实时性要求。

现有技术中还提出的一种基于深度强化学习的配电网负荷转供方法，这种方法采用深度强化学习的算法，在发生故障时直接通过分析实时运行数据作为输入进行负荷转供决策，以较快的速度生成负荷转供方案，能够满足配电网负荷转供的实时性要求，但是这种算法仅将节点电压、支路电流等电气信息作为决策变量，并将所有类型决策变量整合为一维数据信息，作为一个整体输入神经网络，无法体现实时电气信息在配电网拓扑上的实际分布，生成的负荷转供方案在经济性与负荷转供率方面有待提高。

综上所述，现有的算法大多在故障发生后进行临时仿真计算分析，很少使用配网运行实时信息大数据，消耗时间较长；或者采取简化仿真过程的方法以加快计算速度，但很难兼顾配网运行的安全性与经济性；或者采取人工智能方法利用实时电气信息直接进行在线决策，但仅利用一维的电气运行信息进行决策，脱离实际电网结构，很难保证负荷转供的经济性与负荷转供率。

发明内容

本发明的目的在于克服现有技术的不足，提供了一种能够获得配电网实时信息并基于图卷积神经网络与强化学习进行负荷转供的方法及装置，能够在短时间内给出经济型与快速性最佳的控制策略，从而实现配网失电负荷的恢复。

本发明解决其技术问题是采取以下技术方案实现的：

一方面，本发明提供了一种基于图卷积神经网络与强化学习的负荷转供方法，具体步骤如下：

步骤1：基于配电网实时运行数据的参数构建配电网环境，基于图卷积神经网络和深度强化学习Dueling-DQN算法搭建结构相同的第一神经网络Q和第二神经网络T，基于第一神经网络Q、第二神经网络T和经验池R构建智能体模型，所述配电网环境和智能体模型的数据参数交互，初始化所述智能体模型的参数；

步骤2：判定配电网是否发生故障，若发生故障，基于配电网环境和智能体模型的数据参数交互，开始负荷转供；

步骤3：获取配电网实时运行数据的参数作为所述智能体模型的输入数据；

步骤4：利用智能体模型对输入的配电网实时运行数据的参数数据进行读取，通过所述第一神经网络Q计算出每个动作的评价值；

步骤5：利用所述智能体模型基于计算出每个动作的评价值并选取相应的动作；

步骤6：配电网环境执行所述智能体模型基于计算出每个动作的评价值选取相应的动作，当完成一次配电网开关动作后，将本次动作的作为样本存储在所述经验池R中；

步骤7：从经验池R中随机采样N_batch个经验样本计算目标值，基于预设的参数，通过最小化损失函数对第一神经网络中的参数进行更新；

步骤8：每当第一神经网络Q经过N_replace次更新时，使用第一神经网络Q的参数对第二神经网络T的参数进行更新；

步骤9：配电网环境依据结束条件对本次负荷转供决策是否结束序列动作进行判断，若未结束，返回步骤4；

若结束，退出循环，本次配电网的负荷转供过程处理结束；

优选地，所述步骤4中所述配电网实时运行数据的参数包括配电网的实时状态信息S 与当前配电网拓扑结构G，所述配电网的实时状态信息S包括节点特征数据和边特征数据，

所述第一神经网络Q计算出每个动作的评价值，包括：

所述第一神经网络Q和第二神经网络T包括有输入层、隐藏层和输出层，所述输入层和隐藏层采用图卷积神经网络中GraphSAGE模型，所述输出层采用强化学习神经网络中的DuelingDQN算法模型，

所述第一神经网络Q的输入层用于接受所述获取配电网的实时状态信息S与当前配电网拓扑结构G的原始图特征向量，并将节点邻居之间的所有边的特征数据转换并合并至节点特征向量，处理后输出至所述隐藏层，通过以下方法实现节点邻居之间的所有边的特征数据转换并合并至节点特征向量，具体步骤如下：

步骤31：根据边的特征向量维度，为每条边构造一个单层全连接神经网络，并添加偏置；

步骤32：将每条边的边特征数据输入与该边相对应的神经网络中，得到同样维度的输出值；

步骤33：将所有边的神经网络输出向量求和，得到同样维度的和向量；

步骤34：将节点向量与边求和向量通过集中操作合并为新的节点向量作为输出。

优选地，所述隐藏层中采用基于空域卷积Spatial GCN结构搭建的多层图卷积神经网络GraphSAGE模型，所述输入层转换合并新的的节点特征向量在所述多层图卷积神经网络GraphSAGE模型中逐层对传递提取出局部的抽象特征进行聚合计算，公式如下：

其中，v_i为节点，l为层，N(v_i)为邻居节点集合，

为第l层中节点v_j的节点特征向量，aggregate_l+1(·)为第l+1层的可学习的聚合函数，

为对节点v_i的邻居聚合后的结果向量，concat(·)为拼接函数，即将两个向量在其原本维度上横向拼接，W为可学习的权重参数矩阵，σ(·)为Relu激活函数，

所述可学习的聚合函数aggregate_l+1(·)采用池化聚合操作来做聚合，取邻居节点通过全连接层的最大值作为聚合结果，其计算公式如下：

优选地，利用所述Dueling DQN算法模型使用深度神经网络对获得Q-learning中所有动作的评价值，其深度神经网络部分具备对动作进行评价以及训练学习的能力；

优选地，所述Dueling DQN算法模型输出层包括公共部分、价值函数部分、优势函数部分和组合函数部分，所述公共部分有两层全连接神经网络构成将所述第一神经网络Q和第二神经网络T分为价值函数和优势函数两部分，

所述第一神经网络Q的价值函数部分为一个标量，记做V(S，ω，α)，所述第一神经网络 Q的优势函数部分为动作数量的一个向量，记做A(S，A，w，β)，通过对所述第一神经网络Q 由值函数和优势函数两部分输出线性组合后，得到所述第一神经网络Q每个动作的评价值，具体公式为：

Q(S，A，ω，α，β)＝V(S，ω，α)+A(S，A，ω，β)

其中，ω是公共部分的网络参数，而α是价值函数独有部分的网络参数，而β是优势函数独有部分的网络参数，A为动作，S为状态；

所述第一神经网络Q每个动作的评价值做了中心化的处理，获取实际使用的所述第一神经网络Q每个动作的评价值组合公式如下：

其中

表示所有动作的集合，

即求该集合中元素的个数，式子右侧用原向量A全部减去了向量的元素平均值，得到新的优势函数A，使用上式计算得到的Q(S，A，ω，α，β)为一个长度为动作数的向量，其中的每个元素代表该状态S下每个动作的评价值；

优选地，所述步骤1中基于配电网实时运行数据的参数构建配电网环境包括配电网负荷转供操作中的系统状态空间、动作空间、状态转移概率以及奖励函数，所述配电网环境和智能体模型的数据参数交互由数组[S，A，P(a，s，s′)，R(s，a)，Done]表示，其中S表示配电网可能的状态所构成的状态空间，A表示可能采取的有限动作集合，P(a，s，s′)表示在s状态下采取动作a状态由s转移到s′的转移概率，R(s，a)是在状态s时采取了a动作，获得的及时奖励，其被反馈给智能体模型，Done为结束状态的标志位，智能体模型主动选择终止本次决策或由于违反约束条件而被环境终止继续操作时，Done被设置为1，正常决策步骤时，Done保持为0，所述状态空间被定义为一个集合S＝[G，V，I，SW，F]， G表示当前配电网络拓扑结构，V是电压向量组，其用来表示配电网中各个节点处所有相位的电压值，V_in为第i个节点的第n个相位的电压值；I为电流向量组，其用来表示配电网中所有线路中各个相位的电流值，I_in为第i条线路的第n个相位的电流值；SW为配电网中所有开关的状态值向量，SW_i为第i个开关的状态，为0表示打开，为1表示闭合；F 为表示配电网线路故障状态的向量，F_i为编号为i的线路的故障状态，0表示正常，1表示发生故障；

优选地，所述步骤5中利用所述智能体模型基于计算出每个动作的评价值并选取相应的动作，包括配电网环境执行所述智能体模型基于获取实际使用的所述第一神经网络Q每个动作的评价值选取相应的动作，得到选取相应的动作后状空间S′，对选取相应的动作及选取相应的动作后的状态空间进行评价，根据所述奖励函数中的约束条件部分与目标函数部分计算奖励函数Reward，由结束规则确定Done的值，完成一次配电网开关动作后，将本次动作的作为经验样本存储在经验池R中，

所述Reward为配电网环境给出的奖励函数由评价值的总和构成，具体公式如下：

Reward＝P_Volt+P_Loop+P_Act+E_Loadloss+E_Num+E_Loss+E_Vot；

所述P_Volt为约束条件部分电压惩罚，具体公式如下：

其中：U_i为各节点i的电压标幺值；U_i，min和U_i，max为节点i的电压上下限值，

所述P_Loop为约束条件部分环网惩罚，具体公式如下：

其中：g_n为已恢复的区域，G_R表示在不包括分布式电源时应保持配电网辐射状拓扑结构的集合；

所述P_act为约束条件部分无效动作给出惩罚，具体公式如下：

其中：A_k为智能体模型本次转供回合第k次的动作，

O_A为智能体模型本次转供回合已执行过的动作与本回合故障线路的集合，

所述E_Loadloss目标函数部分根据损失负荷的比例设置负荷损失评价值，具体公式如下：

其中：L_loss为失电损失负荷值，L_total为整个电力系统负荷总量，计算得到的E_Loadloss值在-2～2之间，

所述E_Num目标函数部分对开关的动作次数的评价值，具体公式如下：

其中：A_Num本次决策发生变化的开关总数量，L_Num为开关总数量，计算得到的E_Num值在-1～1之间，

所述E_Loss目标函数部分对配电网的线损情况的评估值，具体公式如下：

其中，Line为未停电线路总数，I_i为第i条线路的实际电流，R_i为第i条线路与变压器的电阻，S为全网总功率，。

所述E_Loss目标函数部分对对于电压未超出±7％范围的节点，线路的电压偏移程度评价值，具体公式如下：

其中，N为未停电节点总数量，pu_i为节点i的电压标幺值；

优选地，所述步骤5中所述智能体模型基于计算出每个动作的评价值选取相应的动作，包括：

非探索模式选择所述第一神经网络Q动作的评价值最高的动作；探索模式则依据ε-greedy选择所述第一神经网络Q动作的评价值最优动作或随机动作α，

所述探索模式则依据ε-greedy选择所述第一神经网络Q动作的评价值最优动作或随机动作α为取随机数x，若x＜ε，则选择第一神经网络Q动作评价值最高的动作作为本次最优动作；若x＞ε则从所有动作中选择一个随机动作α；

优选地，所述步骤8中每当第一神经网络Q经过N_replace次更新时，使用第一神经网络Q的参数对第二神经网络T的参数进行更新，包括：

所述第一神经网络Q的参数为ω，α，β，所述第二神经网络T的参数为ω^*，α^*，β^*，分别代表公共部分的网络参数、价值函数独有部分的网络参数和优势函数独有部分的网络参数，通过对所述第一神经网络Q大量的训练后，所述智能体模型可实现最佳目标的负荷转供动作。

另一方面，本发明还提供了一种基于图卷积神经网络与强化学习的负荷转供装置，其包括：

模型构建模块：基于配电网实时运行数据的参数构建配电网环境，基于图卷积神经网络和深度强化学习Dueling-DQN算法搭建结构相同的第一神经网络Q和第二神经网络T，基于第一神经网络Q、第二神经网络T和经验池R构建智能体模型，所述配电网环境和智能体模型的数据参数交互，初始化所述智能体模型的参数；

判定模块：判定配电网是否发生故障；

若是，基于配电网环境和智能体模型的数据参数交互，开始负荷转供；

数据获取模块：用于获取配电网实时运行数据的参数作为所述智能体模型的输入数据；

评价值获取模块：用于利用智能体模型对输入的配电网实时运行数据的参数数据进行读取，通过所述智能体模型计算出每个动作的评价值；

动作执行模块：用于利用所述智能体模型基于计算出每个动作的评价值并选取相应的动作；

经验池扩充模块：用于配电网环境执行所述智能体模型基于计算出每个动作的评价值选取相应的动作，当完成一次配电网开关动作后，将本次动作的作为样本存储在所述经验池R中；

迭代模块：用于从经验池R中随机采样N_batch个经验样本计算目标值，基于预设的参数，通过最小化损失函数对第一神经网络中的参数进行更新；

参数更新模块：用于每当第一神经网络Q经过N_replace次更新时，使用第一神经网络Q的参数对第二神经网络T的参数进行更新；

负荷转供动作判断模块：用于电网环境依据结束条件对本次负荷转供决策是否结束序列动作进行判断，

若未结束，返回步骤4；

若结束，退出循环，本次配电网的负荷转供过程处理结束。

本发明的优点和积极效果是：

本发明提出了一种基于图卷积神经网络与强化学习的负荷转供方法，通过智能体模型训练与经验学习，在发生故障时，基于当前配网的网络拓扑结构，首先是在发生故障后进行负荷转供时，无需消耗大量时间进行仿真计算分析，直接通过分析实时运行大数据而进行负荷转供决策，第一神经网络Q可以保证给出最优的决策方案，因此本发明可以具备更快的响应速度与更好的决策结果；其次与基于深度强化学习的配电网负荷转供方法相比，本发明可以将配电网网络拓扑作为除电气信息之外的决策变量，利用图神经网络提取并转化配电网络拓扑信息与电气信息，图神经网络转化后的信息更能全面反映环境状态，改善了普通神经网络只能利用一维的电气信息进行决策的缺点，使负荷转供结果更能适应不同配电网络，将配电网络拓扑纳入关键决策变量，将更有利于强化学习智能体模型的决策，得出更优的转供方案。

附图说明

图1是本发明本申请实施例提供的一种负荷转供决策到图卷积神经网络与强化学习的映射关系示意图；

图2是本发明图卷积神经网络输入层的结构示意图；

图3是本发明图卷积神经网络结构示意图；

图4是本发明第一神经网络结构的示意图；

图5是本发明一种负荷转供决策到图卷积神经网络与强化学习的处理流程图；

图6是本发明第一神经网络和第二神经网络的层状结构的示意图。

具体实施方式

以下结合附图对本发明做进一步详述。

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括” 是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和 /或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

由于配电网的建设存在一定程度的滞后，电力设备的容量等裕度偏小，加大了配电网负荷转供的难度，各类突发断电故障需要及时提出转供方案，因此对算法的运算速度以及适用性有更高的要求，而已有算法均存在一定的局限性。现有算法大多在故障发生后进行临时仿真计算分析，很少使用配网运行实时信息大数据，消耗时间较长；或者采取简化仿真过程的方法以加快计算速度，但很难兼顾配网运行的安全性与经济性；或者采取人工智能方法利用实时电气信息直接进行在线决策，但仅利用一维的电气运行信息进行决策，脱离实际电网结构，很难保证负荷转供的经济性与负荷转供率。

本发明实施例采用图卷积强化学习的算法，通过智能体模型训练与经验学习，在发生故障时，基于当前配网的网络拓扑结构，无需消耗大量时间进行仿真计算分析，直接通过分析实时运行大数据与网络拓扑数据进行负荷转供决策，可以在短时间内给出更好的负荷转供策略。

以配电网的实时状态信息与当前配电网拓扑结构作为输入数据，智能体模型采用深度强化学习Dueling-DQN算法进行决策并输出动作。动作作用于环境使其状态发生改变，同时通过负荷转供的约束条件与目标函数对该动作进行评价，将动作奖励或动作惩罚反馈给智能体模型，从而更新智能体模型的参数进行学习，通过大量的训练后，智能体模型即可实现最佳目标的负荷转供动作。

本发明实施例提供的一种基于图卷积神经网络与强化学习的负荷转供方法的处理流程图如图5所示，包括如下的处理步骤:

步骤1、基于配电网实时运行数据的参数构建配电网环境，基于图卷积神经网络和深度强化学习Dueling-DQN算法搭建结构相同的第一神经网络Q和第二神经网络T，基于第一神经网络Q、第二神经网络T和经验池R构建智能体模型，所述配电网环境和智能体模型的数据参数交互，初始化所述智能体模型的参数；

在此步骤中，如图1所示，基于配电网实时运行数据的参数构建配电网环境包括配电网负荷转供操作中的系统状态空间、动作空间、状态转移概率以及奖励函数，所述配电网环境和智能体模型的数据参数交互由数组[S，A，P(a，s，s′)，R(s，a)，Done]表示，其中 S表示配电网可能的状态所构成的状态空间，A表示可能采取的有限动作集合，P(a，s，s′) 表示在s状态下采取动作a状态由s转移到s′的转移概率，R(s，a)是在状态s时采取了a 动作，获得的及时奖励，其被反馈给智能体模型，Done为结束状态的标志位，智能体模型主动选择终止本次决策或由于违反约束条件而被环境终止继续操作时，Done被设置为1，正常决策步骤时，Done保持为0；

其中，所述系统状态空间被定义为一个集合S＝[G，V，I，SW，F]，G表示当前配电网络拓扑结构，V是电压向量组，其用来表示配电网中各个节点处所有相位的电压值，V_in为第i个节点的第n个相位的电压值；I为电流向量组，其用来表示配电网中所有线路中各个相位的电流值，I_in为第i条线路的第n个相位的电流值；SW为配电网中所有开关的状态值向量，SW_i为第i个开关的状态，为0表示打开，为1表示闭合；F为表示配电网线路故障状态的向量，F_i为编号为i的线路的故障状态，0表示正常，1表示发生故障，其中G 为配电网拓扑结构，V为配电网拓扑中的节点特征输入，I、SW、F为配电网拓扑结构中的边特征输入，共同构成了图卷积神经网络的输入。

其中，面对实时变化的配电网，智能体模型需要在配电网中对开关进行相应的操作，控制配电网的状态，智能体模型可以根据当前的配电网状态以及奖励函数决定如何执行下一步的动作，所述动作空间A为一个向量，其元素为具体动作，范围为0～2Nswitch的整数，当动作a为2Nswitch时，代表不采取任何操作并退出，本次决策结束；当动作a为0～2Nswitch-1时，对a作如下计算：

x＝a％2

其中x为除以a得到的余数，该式的含义如下：

每次动作为对一个开关进行操作或者直接退出，如果退出则本次决策结束。

其中，所述状态转移概率p(s_i+1|s_i，a_i)表示在状态s_i下，采取动作施加于环境，环境状态转移到s_i+1的概率。在配网负荷转供问题中，假设所有的开关都服从智能体模型做出的动作决策并正确反应，则可认为状态转移概率为一定值。

其中，所述奖励函数的主要分为约束条件部分与目标函数部分，智能体模型对配电网环境采取已选择的动作后，会得到配电网环境对于本次动作的评价，我们将此评价作为智能体模型的奖励函数，奖励函数通过约束条件部分与目标函数部分，使操作能够在保证正常配电网运行的条件下实现最经济运行成本。

(1)约束条件部分：

电压越限后环境状态应转移至失败退出状态，电压惩罚P_Volt计算方法为：

其中：U_i为各节点i的电压标幺值；U_i.min和U_i.max为节点i的电压上下限值，通常取0.93或1.07。

当传输容量超过线路与变压器的极限值时，易引发设备二次故障，严重降低用电设备使用寿命，本文取设备电流极限值作为运行上限，电流越限后状态转移至失败退出状态，电流惩罚P_Lim计算方法为：

其中：I_j为设备j的电流值；I_j.max为设备j的电流值上限。

配电网正常运行时应为辐射状，但也允许存在环网作为短时过渡状态，但不允许作为长期运行状态出现，因此设置环网惩罚P_Loop时应分情况考虑，即：

其中：g_n为已恢复的区域，G_R表示在不包括分布式电源时应保持配电网辐射状拓扑结构的集合。

当智能体模型对目前闭合的开关执行闭合动作或对打开目前打开的开关时，即动作无效，或者试图操作对发生故障的线路时，该动作视为无效，且对其无效动作给出惩罚，即：

其中：A_k为智能体模型本次转供回合第k次的动作，

O_A为智能体模型本次转供回合已执行过的动作与本回合故障线路的集合。

(2)目标函数部分：

在动作能够满足约束的条件下，尽可能地恢复下游失电区域的正常供电，因此，根据损失负荷的比例设置负荷损失评价值E_Loadloss，

其中：L_loss为失电损失负荷值，I_total为整个电力系统负荷总量，计算得到的E_Loadloss值在-2～2之间，

配电网环境中开关的动作都要对开关的寿命产生影响，开关动作中可能存在部分开关需要人员手动操作，当动作次数过多时，不仅扩大操作失误的概率，用户供电的恢复时间也可能无法满足要求，而且还会使得中压配电网的结构变化过大，在故障消除或检修结束后，给配电网恢复至原运行方式增加更多的难度，因此应该尽量减少对开关的频繁操作，减少开关动作而引起的操作费用，E_Num对动作次数的评价值。

其中：A_Num本次决策发生变化的开关总数量，L_Num为开关总数量。计算得到的E_Num值在-1～1之间。

考虑到配电网的经济运行，在完成动作后，需要对配电网的线损情况进行评估，评估使用带电线路的阻抗模型，E_Loss为线损评价值。

其中，Line为未停电线路总数，I_i为第i条线路的实际电流，R_i为第i条线路与变压器的电阻，S为全网总功率。公式右端为计算得到的近似线损率，由于配电网及基层线损率往往在5％～12％之间，为使E_Loss的值能保持在近似-1～0处，因此将线损率放大-10 倍作为线损评价值。

对于电压未超出±7％范围的节点，用E_Vot评价值衡量其电压偏移程度，以保证转供后的配电网具备较好的电压质量。

其中，N为未停电节点总数量，pu_i为节点i的电压标幺值，由于右侧公式计算得到的结果小于0.07，且大部分电压值偏离不超过0.05，因此为使E_Vot的值能保持在近似-1～0处，将其放大20倍。

环境给出的奖励函数由以上各评价值的总和构成，即Reward。

Reward＝P_Volt+P_Loop+P_Act+E_Loadloss+E_Num+E_Loss+E_Vot

最后，如果动作造成电压越限或设备传输容量越限，该动作回合会被强制结束，视为动作失败；如果动作以后的配电网恢复了全部无故障区域的负荷，而且没有电压越限或设备传输容量越限的情况，该动作回合会被环境判断为已经完成转供，当前回合自动结束；但特殊情况下如某些联络线容量不足的情况下，需要通过切除无故障失电负荷以保证供电质量，或者存在多处故障导致无法进行转供，此时环境无法通过恢复所有非故障负荷判断转供是否完成，在智能体模型认为当前状态没有更好的动作时，智能体模型可以自行选择结束当前回合并退出。

所述基于第一神经网络Q、第二神经网络T和经验池R构建智能体模型，包括：所述第一神经网络Q用于为智能体模型选择动作提供依据，动作作用于配电网环境使其状态空间发生改变，同时通过负荷转供的约束条件与目标函数对该动作进行评价，将动作奖励或动作惩罚反馈给智能体，通过所述第二神经网络T用于求最小损失函数的误差以供第一神经网络Q进行学习，通过大量的训练后，智能体即可实现最佳目标的负荷转供动作。

步骤2、判定配电网是否发生故障，若发生故障，基于配电网环境和智能体模型的数据参数交互，开始负荷转供；

步骤3、获取配电网实时运行数据的参数作为智能体模型的输入数据；

再次步骤中，所述配电网实时运行数据的参数包括配电网的实时状态信息S与当前配电网拓扑结构G，所述配电网的实时状态信息S包括节点特征数据和边特征数据；

步骤4、利用智能体模型对输入的配电网实时运行数据的参数数据进行读取，通过所述第一神经网络Q计算出每个动作的评价值；

所述第一神经网络Q和第二神经网络T包括有输入层、隐藏层和输出层，所述输入层和隐藏层采用图卷积神经网络中GraphSAGE模型，所述输出层采用强化学习神经网络中的Dueling DQN算法模型，

所述第一神经网络Q的输入层用于接受所述获取配电网的实时状态信息S与当前配电网拓扑结构G的原始图特征向量，并将节点邻居之间的所有边的特征数据转换并合并至节点特征向量，处理后输出至所述隐藏层，由于隐藏层所采用的图卷积神经网络中GraphSAGE模型都是基于节点特征数据传递的，不接受任何的边特征数据，若输入数据中只选取了部分配电网节点数据，则可以省略输入层，直接将节点数据输入隐藏层，

如图2所示，节点邻居之间的所有边的特征数据转换并合并至节点特征向量，包括，预设节点v有两条邻边和与其邻居之间的所有边的特征数据E₁、E₂，

采用如下方法可将节点v与其邻居之间的所有边的特征数据E₁、E₂转换并合并至节点v特征向量N_V上，具体步骤如下：

1、根据边的特征向量维度d_e，为每条边构造一个单层全连接神经网络，每个神经网络都为d_e个输入，d_e个输出，并添加偏置；

2、将每条边的边特征数据E₁、E₂输入与该边相对应的神经网络中，得到同样维度的输出值E′₁、E′₂；

3、将所有边的神经网络输出向量求和，得到同样维度的和向量E_SUM；

4、将节点向量N_V与边求和向量E_SUM通过Concat(N_V，E_SUM)操作合并为新的节点向量作为输出N′_V；

在本步骤中，所述隐藏层中采用基于空域卷积Spatial GCN结构搭建的多层图卷积神经网络GraphSAGE模型，所述输入层转换合并新的的节点特征向量在所述多层图卷积神经网络GraphSAGE模型中逐层对传递提取出局部的抽象特征进行聚合计算，

所述输入层转换合并新的的节点特征向量在所述多层图卷积神经网络GraphSAGE模型中逐层对传递提取出局部的抽象特征进行聚合计算的公式如下：

其中，v_i为节点，l为层，N(v_i)为邻居节点集合，

所述可学习的聚合函数aggregate_l+1(·)采用池化聚合(Poolingaggregator)操作来做聚合，取邻居节点通过全连接层的最大值作为聚合结果，其计算公式如下：

聚合得到

后依然需要通过单层的节点特征向量

的聚合公式进行合并，这种方法有效地捕捉了邻近节点上的突出特征表现，

如图3所示：通过堆叠多层图卷积神经网络，节点特征向量进行逐层传递，图中第3层的节点v₁的节点特征向量值由第2层节点v₁的一阶子图得到，第2层的子图又由第1 层节点v₁的二阶子图得到。因此层数越高，其表示范围越大，受输入影响的节点数越多。同时由于其是大范围特征的综合体现，对于图的局部抽象能力越强。

在此步骤中，利用所述Dueling DQN算法模型使用深度神经网络对获得Q-learning中所有动作的评价值，其深度神经网络部分具备对动作进行评价以及训练学习的能力，其结构如图4所示，

所述Dueling DQN算法模型输出层包括公共部分、价值函数部分、优势函数部分和组合函数部分，所述公共部分有两层全连接神经网络构成将所述第一神经网络Q和第二神经网络T分为价值函数和优势函数两部分，

所述第一神经网络Q的价值函数部分与状态S有关，与动作A无关，其为一个标量，记做V(S，ω，α)，所述第一神经网络Q的优势函数同时与状态S和动作A有关，其为长度为动作数量的一个向量，记为A(S，A，w，β)，通过对所述第一神经网络Q由值函数和优势函数两部分输出线性组合后，得到所述第一神经网络Q每个动作的评价值，具体公式为：

Q(S，A，ω，α，β)＝V(S，ω，α)+A(S，A，ω，β)

但是上述公式无法辨识最终输出里面V(S，ω，α)和A(S，A，w，β)各自的作用，为了体现这种可辨识性(identifiability)，对优势函数部分做了中心化的处理，获取实际使用的所述第一神经网络Q每个动作的评价值组合公式如下：

其中

表示所有动作的集合，

即求该集合中元素的个数，式子右侧用原向量A全部减去了向量的元素平均值，得到新的优势函数A。使用上式计算得到的Q(S，A，ω，α，β)为一个长度为动作数的向量，其中的每个元素代表该状态S下每个动作的评价值；

步骤5：所述智能体模型基于计算出每个动作的评价值选取相应的动作，具体为基于获取实际使用的所述第一神经网络Q每个动作的评价值选取相应的动作，

非探索模式选择最优动作，即所述第一神经网络Q动作的评价值最高的动作；探索模式则依据ε-greedy选择所述第一神经网络Q动作的评价值最优动作或随机动作α，

在训练中的智能体模型中，为了使智能体模型具备跳出局部最优解，进行全局探索的能力，采取ε-greedy随机贪婪策略，即取随机数x，若x＜ε，则选择动作评价值最高的动作作为本次动作；若x＞ε则从所有动作中选择一个随机动作。并且ε随着训练的回合数不断增加，训练次数足够多时，深度神经网络中的参数几乎不再发生变化，此时ε为 1，每次都选择最佳动作；

步骤6、配电网环境执行所述智能体模型基于获取实际使用的所述第一神经网络Q每个动作的评价值选取相应的动作，得到选取相应的动作后状空间S′，对选取相应的动作及选取相应的动作后的状态空间进行评价，根据所述奖励函数中的约束条件部分与目标函数部分计算奖励函数Reward，由结束规则确定Done的值，完成一次配电网开关动作后，将本次动作的作为经验样本存储在经验池R中；

步骤7、从所述经验池R中随机采样N_batch个经验样本，通常N_batch＝20，计算目标值，所述第二神经网络T通过对最小化损失函数误差的计算对所述第一神经网络Q中的参数进行更新，以RMSProp算法求参数的更新程度，该算法通过参数学习率Lr决定了参数更新的程度，所述学习率L_r的值为0.1，即神经网络的学习速度，对第一神经网络Q 的一次更新代表了一次智能体模型的学习过程，通过大量的训练后；

在此步骤中，所述第二神经网络T通过最小化损失函数误差的计算对所述第一神经网络中Q的参数进行更新为对所述第一神经网络中Q中的公共部分的网络参数ω、价值函数独有部分的网络参数α和优势函数独有部分的网络参数β；

步骤8、每当所述第一神经网络Q经过N_replace次更新时，通常N_replace＝200，使用所述第一神经网络Q的参数ω，α，β对第二神经网络T的参数ω^*，α^*，β^*进行更新： ω^*，α^*，β^*←ω，α，β；

在此步骤中，所述ω，α，β分别为第一神经网络Q经过N_replace次更新时的公共部分的网络参数、价值函数独有部分的网络参数和优势函数独有部分的网络参数，所述ω^*，α^*，β^*分别为第二神经网络T更新后的公共部分的网络参数、价值函数独有部分的网络参数和优势函数独有部分的网络参数，通过对所述第一神经网络Q大量的训练后，所述智能体模型即可实现最佳目标的负荷转供动作。

需要说明的是，所述第一神经网络Q有最新的参数，在每次学习时都要进行更新，第二神经网络T在经过Nreplace次动作后，才进行一次更新；

步骤9、配电网环境依据结束条件对本次负荷转供决策是否结束序列动作进行判断，

若结束标志位Done为0，返回步骤4；

若结束标志位Done为1，退出循环，本次配电网的负荷转供过程处理结束，进入下一步，

以上为一次单步动作，而一次完整的负荷转供很可能由多次具有先后顺序的开关动作组成，所以依据结束标志位Done对是否结束序列动作进行判断，若Done＝0，代表该配电网还需要继续动作以完成转供，则重新读取配电网实时运行信息，将新的状态量输入Q网络重新进行计算，进入下一个动作决策过程；若Done＝1，本次动作决策停止；

步骤10、等待下次配电网发生故障，进入新的负荷转供决策过程，转到步骤2。

本发明还提供了一种基于图卷积神经网络与强化学习的负荷转供装置，包括：

判定模块：判定配电网是否发生故障；

若未结束，返回步骤4；

若结束，退出循环，本次配电网的负荷转供过程处理结束。

综上所述，本申请提供一种基于图卷积神经网络与强化学习的配电网负荷转供方法，采用了配电网的实时运行数据来进行负荷转供决策，利用图卷积神经网络与强化学习来提高配电网的故障应急恢复能力与可靠性，在保证配电网安全稳定运行、用户用电安全的条件下，最大限度的达到了电压质量、配电网操作与运行的经济性的多方面最优。同时基于图卷积强化学习的配电网负荷转供算法避免了故障时的大量运算与电网仿真迭代，提高了负荷转供的速度，减短了非故障区域停电的时间，使配电网具有更高的可靠性。

本发明智能体模型使用强化学习算法为Dueling-DQN算法，相对于Q学习算法、DQN算法等常用的强化学习算法，对配电网的状态特征识别更加精确，能够达到更加准确的负荷转供决策方案。

采用图卷积神经网络与强化学习的算法，通过智能体模型训练与经验学习，在发生故障时，基于当前配网的网络拓扑结构，无需消耗大量时间进行仿真计算分析，直接通过分析实时运行大数据与网络拓扑数据进行负荷转供决策，可以在短时间内给出更好的负荷转供策略。

本发明实施例智能体模型采用深度强化学习Dueling-DQN算法进行决策并输出动作。动作作用于环境使其状态发生改变，同时通过负荷转供的约束条件与目标函数对该动作进行评价，将动作奖励或动作惩罚反馈给智能体模型，从而更新智能体模型的参数进行学习，通过大量的训练后，智能体模型即可实现最佳目标的负荷转供动作。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

综上所述，本发明的内容并不局限在上述的实施例中，本领域的技术人员可以在本发明的技术指导思想之内提出其他的实施例，但这些实施例都包括在本发明的范围之内。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于图卷积神经网络与强化学习的负荷转供方法，其特征在于：具体步骤如下：

步骤2：判定配电网是否发生故障，若发生故障，基于配电网环境和智能体模型的数据参数交互，开始负荷转供。

2.根据权利要求1所述的基于图卷积神经网络与强化学习的负荷转供方法，其特征在于：所述开始负荷转供的步骤之后，所述方法包括：

步骤3：获取配电网实时运行数据作为所述智能体模型的输入数据；

步骤4：利用智能体模型对输入的配电网实时运行数据进行读取，通过所述第一神经网络Q计算出每个动作的评价值；

步骤7：当经验池中存储到一定数量的样本时，从经验池R中随机采样N_batch个经验样本计算目标值，基于预设的参数，通过最小化损失函数对第一神经网络中的参数进行更新；

步骤9：配电网环境依据结束条件对本次负荷转供决策是否结束序列动作进行判断，

若未结束，返回步骤4；

若结束，退出循环，本次配电网的负荷转供过程处理结束。

3.根据权利要求2所述的基于图卷积神经网络与强化学习的负荷转供方法，其特征在于：所述步骤4中所述配电网实时运行数据的参数包括配电网的实时状态信息S与当前配电网拓扑结构G，所述配电网的实时状态信息S包括节点特征数据和边特征数据，

所述第一神经网络Q计算出每个动作的评价值，包括：

4.根据权利要求3所述的基于图卷积神经网络与强化学习的负荷转供方法，其特征在于：所述隐藏层中采用基于空域卷积Spatial GCN结构搭建的多层图卷积神经网络GraphSAGE模型，所述输入层转换合并新的节点特征向量在所述多层图卷积神经网络GraphSAGE模型中逐层对传递提取出局部的抽象特征进行聚合计算，公式如下：

其中，v_i为节点，l为层，N(v_i)为邻居节点集合，

所述可学习的聚合函数aggregate₁₊₁(·)采用池化聚合操作来做聚合，取邻居节点通过全连接层的最大值作为聚合结果，其计算公式如下：

5.根据权利要求3所述的基于图卷积神经网络与强化学习的负荷转供方法，其特征在于：利用所述Dueling DQN算法模型使用深度神经网络对获得Q-learning中所有动作的评价值，其深度神经网络部分具备对动作进行评价以及训练学习的能力。

6.根据权利要求5所述的基于图卷积神经网络与强化学习的负荷转供方法，其特征在于：所述Dueling DQN算法模型输出层包括公共部分、价值函数部分、优势函数部分和组合函数部分，所述公共部分有两层全连接神经网络构成将所述第一神经网络Q和第二神经网络T分为价值函数和优势函数两部分，

所述第一神经网络Q的价值函数部分为一个标量，记做V(S，ω，α)，所述第一神经网络Q的优势函数部分为动作数量的一个向量，记做A(S，A，w，β)，通过对所述第一神经网络Q由值函数和优势函数两部分输出线性组合后，得到所述第一神经网络Q每个动作的评价值，具体公式为：

Q(S，A，ω，α，β)＝V(S，ω，α)+A(S，A，ω，β)

其中

表示所有动作的集合，

即求该集合中元素的个数，式子右侧用原向量A全部减去了向量的元素平均值，得到新的优势函数A，使用上式计算得到的Q(S，A，ω，α，β)为一个长度为动作数的向量，其中的每个元素代表该状态S下每个动作的评价值。

7.根据权利要求2所述的基于图卷积神经网络与强化学习的负荷转供方法，其特征在于：所述步骤1中基于配电网实时运行数据的参数构建配电网环境包括配电网负荷转供操作中的系统状态空间、动作空间、状态转移概率以及奖励函数，所述配电网环境和智能体模型的数据参数交互由数组[S，A，P(a，s，s′)，R(s，a)，Done]表示，其中S表示配电网可能的状态所构成的状态空间，A表示可能采取的有限动作集合，P(a，s，s′)表示在s状态下采取动作a状态由s转移到s′的转移概率，R(s，a)是在状态s时采取了a动作，获得的及时奖励，其被反馈给智能体模型，Done为结束状态的标志位，智能体模型主动选择终止本次决策或由于违反约束条件而被环境终止继续操作时，Done被设置为1，正常决策步骤时，Done保持为0，所述状态空间被定义为一个集合S＝[G，V，I，SW，F]，G表示当前配电网络拓扑结构，V是电压向量组，其用来表示配电网中各个节点处所有相位的电压值，V_in为第i个节点的第n个相位的电压值；I为电流向量组，其用来表示配电网中所有线路中各个相位的电流值，I_in为第i条线路的第n个相位的电流值；SW为配电网中所有开关的状态值向量，SW_i为第i个开关的状态，为0表示打开，为1表示闭合；F为表示配电网线路故障状态的向量，F_i为编号为i的线路的故障状态，0表示正常，1表示发生故障。

8.根据权利要求2所述的基于图卷积神经网络与强化学习的负荷转供方法，其特征在于：所述步骤5中利用所述智能体模型基于计算出每个动作的评价值并选取相应的动作，包括配电网环境执行所述智能体模型基于获取实际使用的所述第一神经网络Q每个动作的评价值选取相应的动作，得到选取相应的动作后执行并转移至状态S′，对选取相应的动作及选取相应的动作后的状态进行评价，根据所述奖励函数中的约束条件部分与目标函数部分计算奖励函数Reward，由结束规则确定Done的值，完成一次配电网开关动作后，将本次动作的作为经验样本存储在经验池R中，

Reward＝P_Volt+P_Loop+P_Act+E_Loadloss+E_Num+E_Loss+E_Vot

所述P_Volt为约束条件部分电压惩罚，具体公式如下：