CN116663401A

CN116663401A - 紧急切负荷决策方法及其决策模型训练方法与训练设备

Info

Publication number: CN116663401A
Application number: CN202310530513.2A
Authority: CN
Inventors: 胡泽; 姚伟; 石重托; 张润丰; 宗启航; 周泓宇; 赵海宇; 邓贤哲; 姚雅涵; 井浩然; 孙康怡; 李晟; 艾小猛; 文劲宇
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-08-29

Abstract

本发明公开了一种紧急切负荷决策模型训练方法及其训练设备以及紧急切负荷决策方法，属于电力系统稳定性控制技术领域，紧急切负荷决策模型为具有分支竞争Q网络的智能体，训练方法包括：将电网矩阵G_k和母线电压集合V_k进行多层图卷积运算得到电压图特征T_k，电网矩阵G_k中第i行第j列的元素表示母线i和j是否连接，以电压图特征T_k和发电机功角状态集合δ_k作为输入状态输入智能体，实现智能体的训练和网络参数更新。本发明中，输入智能体的状态融合了电网拓扑信息，相比于传统技术中未融合电网拓扑信息，具有分支竞争Q网络的智能体的训练效率和决策性能都明显提高。

Description

紧急切负荷决策方法及其决策模型训练方法与训练设备

技术领域

本发明属于电力系统稳定性控制技术领域，更具体地，涉及一种紧急切负荷决策模型训练方法及其训练设备以及紧急切负荷决策方法。

背景技术

紧急切负荷控制是在故障导致的暂态电压失稳发生后，使电力系统恢复稳定的重要控制措施。目前紧急切负荷控制措施一般由电网专家离线制定。电网专家设想大量的暂态电压失稳工况，调用暂态稳定仿真试凑出紧急切负荷控制措施，并构建暂态电压失稳工况与紧急切负荷控制措施之间的一一对应关系。在线运行时，一旦发生的故障可能导致暂态电压失稳，直接根据暂态电压失稳工况投入相应的紧急切负荷控制措施。

随着新能源的接入和电网规模增大，电网暂态过程变得更加复杂，传统的措施制定方法过于依赖专家经验且耗时耗力。一些研究采用优化控制的方法决策自动的紧急切负荷控制措施，但在寻优空间增大时较为耗时，且存在无法求解的情况。

近年来，人工智能的快速发展为紧急切负荷控制措施的制定提供了新的机遇。分支竞争Q网络算法(branching dueling Q-network，以下简称BDQ)可以直接处理高维决策空间，有望减轻专家依赖，提高紧急切负荷控制措施制定的效率。然而，目前BDQ网络的输入特征仅考虑了时序特征，智能体的训练效率和决策性能均有待提高。如何快速有效制定紧急切负荷控制措施，是目前亟待解决的技术问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种紧急切负荷决策模型训练方法及其训练设备以及紧急切负荷决策方法，其目的在于提高分支竞争Q网络智能体决策紧急切负荷控制措施的训练效率和决策性能。

为实现上述目的，按照本发明的一个方面，提供了一种紧急切负荷决策模型训练方法，所述紧急切负荷决策模型为具有分支竞争Q网络的智能体，所述模型训练方法包括：

步骤S11：在当前电网暂态电压失稳故障下执行第k步决策出的紧急切负荷动作a_k，获取对应的电压图特征T_k和发电机功角状态集合δ_k；

步骤S12：将电压图特征T_k和发电机功角状态集合δ_k输入所述智能体进行决策，得到第k+1步决策出的紧急切负荷动作a_k+1；

步骤S13：在当前电网暂态电压失稳故障下执行紧急切负荷动作a_k+1，获取对应的电压图特征T_k+1和发电机功角状态δ_k+1，并计算反应执行紧急切负荷动作a_k到执行紧急切负荷动作a_k+1电网电压是否趋于稳定的奖励r_k；以电压图特征T_k、发电机功角状态集合δ_k、紧急切负荷动作a_k+1、电压图特征T_k+1、发电机功角状态δ_k+1和奖励r_k作为一组交互样本；

步骤S14：令k＝k+1，跳转至步骤S12，获取当前电网暂态电压失稳故障下的多组交互样本；

步骤S15：更新电网暂态电压失稳故障，跳转至步骤S11直至获取得到所需数量的交互样本；

步骤S16：抽取交互样本训练所述智能体以更新所述智能体的网络参数；

其中，电压图特征T_k为将电网矩阵G_k和母线电压集合V_k进行多层图卷积运算所得，电网矩阵G_k中第i行第j列的元素表示母线i和j是否连接，i、j＝1,2,3,……,N，N为母线数量。

在其中一个实施例中，通过电力系统分析综合程序进行暂态仿真，得到当前电网暂态电压失稳故障下执行紧急切负荷动作a_k后的母线电压集合V_k和发电机功角状态集合δ_k。

在其中一个实施例中，电压图特征其中，/>表示多层图卷积运算中的第l层网络的运算结果，m表示多层图卷积运算的网络层数，所述多层图卷积运算中第l+1层与第l层之间的传播关系为：

式中，表示执行紧急切负荷动作a_k后的电压图改进矩阵，/>I为单位矩阵；

表示/>的度矩阵，所述度矩阵为对角矩阵，所述度矩阵/>中的第p个对角元素值/>为/>其中，/>表示电压图改进矩阵/>中的第p行、第q列的值；

表示计算电压图特征T_k的多层图卷积运算的第l层网络的权重参数；

σ(·)表示非线性激活函数。

在其中一个实施例中，电网矩阵G_k中，若母线i和母线j未连接，则若母线i和母线j连接，则/>

在其中一个实施例中，所述奖励r_k为根据母线电压集合V_k+1给予的奖励，若母线电压集合V_k+1中存在母线电压未恢复稳定，则给予的奖励相对较低，若母线电压集合V_k+1中所有母线电压均恢复稳定，则给予的奖励相对较高。

在其中一个实施例中，以0.8p.u.作为评估母线电压是否恢复稳定的分界线，若母线电压集合V_k+1中小于0.8p.u.的母线电压，则给予的奖励为0，若母线电压集合V_k+1所有母线电压均大于或等于0.8p.u.，则给予的奖励大于0。

在其中一个实施例中，按照双重Q网络的方式更新所述智能体的网络参数，所述双重Q网络包括目标网络和策略网络，所述目标网络定期从策略网络同步参数。

在其中一个实施例中，在步骤S16之后，还包括：

随机选取电网暂态电压失稳故障并跳转至步骤S11进行迭代，多次迭代以实现智能体参数的多次更新。

按照本发明的另一个方面，提供了一种紧急切负荷决策模型训练设备，用于执行上述的紧急切负荷决策模型训练方法。

按照本发明的又一个方面，提供了一种紧急切负荷决策方法，包括：

步骤S21：在当前电网暂态电压失稳故障下执行第k步决策出的紧急切负荷动作a_k，获取对应的电压图特征T_k和发电机功角状态集合δ_k；

步骤S22：将电压图特征T_k和发电机功角状态集合δ_k输入紧急切负荷决策模型中的具有分支竞争Q网络的智能体进行决策，得到第k+1步决策出的紧急切负荷动作a_k+1，其中，所述紧急切负荷决策模型为根据上述的紧急切负荷决策模型训练方法训练所得；

步骤S23：在当前电网暂态电压失稳故障下执行紧急切负荷动作a_k+1，判断当前母线电压是否恢复稳定或迭代是否达到上限，若是，则以紧急切负荷动作a_k+1作为当前电网暂态电压失稳故障下的最终决策动作，若否，令K＝K+1并跳转至步骤S21；

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明的紧急切负荷决策模型为具有分支竞争Q网络的智能体，能够同时决策多个负荷的切负荷量。在对智能体进行训练时，对输入智能体的状态特征进行改进。传统技术中，输入智能体的状态为电压和功角状态。而本发明中，输入智能体的状态为电压图特征和功角状态，其中，电压图特征为融合电网矩阵和母线电压的特征，电网矩阵反应了当前电网拓扑中各母线的连接关系。因此，本发明中，输入智能体的状态融合了电网拓扑信息，相比于传统技术中未融合电网拓扑信息，具有分支竞争Q网络的智能体的训练效率和决策性能都明显提高。

进一步地，采用特定传播关系的多层图卷积运算融合电网矩阵和母线电压，能够更好地提取并融合两者的关键特征。

进一步地，通过母线电压判断电网是否恢复稳定，根据母线电压设置奖励，可以通过奖励更加直观地反应当前决策的有效性。

附图说明

图1为一实施例的BDQ智能体的网络结构示意图；

图2为一实施例的紧急切负荷决策模型训练方法的步骤流程图；

图3为一实施例的智能体输入特征获取过程示意图；

图4为一实施例的BDQ智能体与环境的交互过程的示意图；

图5为一实施例的紧急切负荷决策方法的步骤流程图；

图6(a)为一实施例的融合电网拓扑特征与不融合电网拓扑特征的BDQ智能体的总迭代次数对比图；

图6(b)为一实施例的融合电网拓扑特征与不融合电网拓扑特征的BDQ智能体的总奖励对比图；

图6(c)为一实施例的融合电网拓扑特征与不融合电网拓扑特征的BDQ智能体的总成功次数对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

分支竞争Q网络(branching dueling Q-network，以下简称BDQ)智能体是一种常见的深度强化学习神经网络。如图1所示为BDQ智能体的结构图，主要可以分为特征预处理模块、映射模块和决策模块。状态s输入特征预处理模块进行特征预处理后得到共享特征f。共享特征f一方面输入映射模块后得到N个优势分支的优势，其中，映射模块包括N个通道的卷积层，每个通道的卷积层对应一个负荷并形成一个优势分支，一共有N个负荷，所以有N个优势分支，共享特征f经过映射模块的卷积层后，得到N个优势分支的负荷子动作的优势，优势分支d的负荷子动作的优势为A_d(s,a_d)，d∈1，2，……，N。共享特征f另一方面输入状态提取模块，状态提取模块也包括卷积层，共享特征f经状态提取模块中的卷积层提取得到状态值V(s)。决策模块获取优势分支d的负荷子动作的优势A_d(s,a_d)并与状态值V(s)计算得到优势分支d的Q值Q_d(s,a)，最后通过各分支Q值决策得到各负荷的切负荷动作。切负荷动作的数据具体表示切负荷的比例，例如切除10％、30％、50％、70％的负荷。BDQ智能体中的各个模块中的运算过程可以通过常规方法实现，如文献《Action Branching Architecturesfor Deep Reinforcement Learning》对其中的运算过程进行了详细的介绍，在此不再赘述。

本发明是基于上述BDQ智能体构建的紧急切负荷决策模型。

本发明提出的紧急切负荷决策模型训练方法主要为通过智能体迭代获取交互样本并在获取到一定量的交互样本后训练更新智能体的网络参数。

在一实施例中，如图2所示，紧急切负荷决策模型训练方法包括以下步骤：

步骤S11：在当前电网暂态电压失稳故障下执行第k步决策出的紧急切负荷动作a_k，获取对应的电压图特征T_k和发电机功角状态集合δ_k。

具体的，可以通过以下子步骤获取电压图特征T_k和发电机功角状态集合δ_k。

步骤S101：构建在当前电网暂态电压失稳故障下执行紧急切负荷动作a_k后的电网矩阵G_k，a_k为智能体第k步决策输出的动作，电网矩阵G_k中第i行第j列的元素表示母线i和j是否连接，i、j＝1,2,3,……,N，N为母线数量。

电网矩阵反应的是当前的电网拓扑情况，其电网中具有大量的母线，通过电网矩阵可以了解各母线两两之间的连接关系。其中，电网矩阵G_k的维度为具体的，可以以数值0、1表示母线之间的连接关系，其中，若母线i和母线j未连接，则/>若母线i和母线j连接，则/>

步骤S102：仿真获取执行紧急切负荷动作a_k后的母线电压集合V_k和发电机功角状态集合δ_k。

具体地，电力系统环境根据当前运行工况，结合当前紧急切负荷控制策略a_k，调用电力系统分析综合程序(Power System Analysis Software Package，PSASP)，仿真得到当前的母线电压V_k和发电机功角状态δ_k。

可以理解地，步骤S101和步骤S102之间没有严格的执行顺序。

步骤S103：将电网矩阵G_k和母线电压集合V_k进行多层图卷积运算，得到电压图特征T_k。

其中，可以采用常规的多层图卷积运算实现电网矩阵G_k和母线电压集合V_k的计算。

在一实施例中，电压图特征其中，/>表示多层图卷积运算中的第l层网络的运算结果，m表示多层图卷积运算的网络层数。即，电压图特征T_k为多层图卷积神经网络中最后一层的输出结果。

其中，多层图卷积运算中第l+1层与第l层之间的传播关系为：

其中，表示执行紧急切负荷动作a_k后的电压图改进矩阵，/>I为单位矩阵；

表示/>的度矩阵，度矩阵为对角矩阵，度矩阵/>中的第p个对角元素值/>为/>其中，/>表示电压图改进矩阵/>中的第p行、第q列的值；

表示计算电压图特征T_k的多层图卷积运算的第l层网络的权重参数，该权重参数会在后续智能体的网络参数更新时也被训练更新；

σ(·)表示非线性激活函数，具体的，σ(z)＝max(0，z)，max(·)表示取最大值，z表示待激活的函数值。

经过多层图卷积神经网络提取当前母线电压特征V_k后，得到当前电压图特征T_k。

其中，多层图卷积运算的网络层数m可以根据实际情况灵活调整，可选的，m取值范围为：2≤m≤5。

步骤S12：将电压图特征T_k和发电机功角状态集合δ_k输入智能体进行决策，得到第k+1步决策出的紧急切负荷动作a_k+1。

如图3所示，输入智能体的状态包括电压图特征T_k和发电机功角状态集合δ_k，经智能体决策，得到紧急切负荷动作a_k+1，该紧急切负荷动作a_k+1包含了每个负荷的切负荷量，例如，负荷1切50％，负荷2切30％。由于电网拓扑中存在大量的发电机，仿真得到的发电机功角为不同发电机随时间变化的功角，转换为功角矩阵后，矩阵中的元素则表示对应发电机在对应采样点的功角，通过卷积层和全连接层提取功角特征，得到发电机功角状态集合δ_k。

步骤S13：在当前电网暂态电压失稳故障下执行紧急切负荷动作a_k+1，获取对应的电压图特征T_k+1和发电机功角状态δ_k+1，并计算反应执行紧急切负荷动作a_k到执行紧急切负荷动作a_k+1电网电压是否趋于稳定的奖励r_k；以电压图特征T_k、发电机功角状态集合δ_k、紧急切负荷动作a_k+1、电压图特征T_k+1、发电机功角状态δ_k+1和奖励r_k作为一组交互样本。

其中，获取电压图特征T_k+1和发电机功角状态δ_k+1的过程与获取电压图特征T_k和发电机功角状态δ_k的过程相同。

由于在执行紧急切负荷动作a_k+1后，电网矩阵可能发生变化，需要重新生成更新电网矩阵G_k+1。同时，电力系统环境根据当前运行工况，结合更新的紧急切负荷控制策略a_k+1，调用PSASP暂态稳定仿真程序，仿真得到更新的母线电压V_k+1和发电机功角状态δ_k+1。再基于更新的电网矩阵G_k+1与更新的母线电压V_k+1进行图卷积运算，得到更新的电压图特征T_k+1。

奖励r_k反应的是从执行第k步决策到执行第k+1步决策电网状态是否好转，若好转，则奖励取值相对较大，若未好转，则奖励取值相对较小。在一实施例中，根据更新的母线电压V_k+1给予奖励，若母线电压集合V_k+1中存在母线电压未恢复稳定，则给予的奖励相对较低，若母线电压集合V_k+1中所有母线电压均恢复稳定，则给予的奖励相对较高。具体的，以0.8p.u.作为评估母线电压是否恢复稳定的分界线，若母线电压集合V_k+1中小于0.8p.u.的母线电压，则给予的奖励为0，若母线电压集合V_k+1所有母线电压均大于或等于0.8p.u.，则给予的奖励大于0，例如设为10。即：

其中，表示执行紧急切负荷动作a_k+1后，第i个母线的电压在第R时刻的值。R表示仿真总时间，例如10秒。可以理解的，奖励具体数值也可以设置为其他值，并不以此为限。

步骤S14：令k＝k+1，跳转至步骤S12，直至获取当前电网暂态电压失稳故障下的多组交互样本。

每执行一轮步骤S12～步骤S13，则完成一次迭代，得到当前电网暂态电压失稳故障下的一组交互样本，k累加1，利用上一次迭代得到的电压图特征和发电机功角状态，再次执行步骤S12～步骤S13，再次完成一次迭代，得到当前电网暂态电压失稳故障下的另一组交互样本。例如，第一轮迭代时(初始时刻)，k＝1，经过步骤S11～步骤S13，得到第一组交互样本，包括T₁、δ₁、a₂、T₂、δ₂、r₁。其中，初始时刻的紧急切负荷动作a₁可以默认为0。第二轮迭代时，k＝2，将第一轮迭代获得的T₂、δ₂送入步骤S12，执行步骤S12～步骤S13，得到第二组交互样本，包括T₂、δ₂、a₃、T₃、δ₃、r₂。以此类推，在同一个电网暂态电压失稳故障下，可以得到多组交互样本。

步骤S15：更新电网暂态电压失稳故障，跳转至步骤S11，直至获取得到所需数量的交互样本。

电力系统中的电网暂态电压失稳故障类型多大上百种，通过更新电网暂态电压失稳故障，再次执行步骤S11～步骤S14，可以得到另一电网暂态电压失稳故障下的多组交互样本，由此可以得到大量的交互样本。具体的，当前电网暂态电压失稳故障训练达到一定轮次后，更新电网暂态电压失稳故障继续训练。其中，当更新电网暂态电压失稳故障后，重新初始化紧急切负荷动作并重新迭代。

步骤S16：抽取交互样本训练智能体，更新智能体的网络参数。

进一步的，当一次更新无法使智能体的网络参数满足预期，则可以再次跳转至步骤S11，再次执行步骤S11至步骤S16，即继续生成交互样本并再次更新网络参数，直至智能体能够决策得到有效的紧急切负荷动作。

由于通过智能体获取交互样本和智能体的网络参数更新是交替进行的，在获取交互样本期间，会定期抽取交互样本对所使用的智能体网络参数进行更新，然后再用更新后的智能体获取交互样本，即跳转至步骤S11，执行步骤S11～步骤S15，继续获取交互样本，多次更新以持续优化智能体。具体的，可以设置训练节点值，例如每迭代200轮设置一个训练节点，依次以200、400、600……作为训练节点值，若未到达训练节点值，则继续迭代，一旦到达训练节点，则从容量池中随机选取多个交互样本对分支竞争Q网络智能体进行训练，更新分支竞争Q网络智能体的参数，然后继续基于更新后的智能体重新获取交互样本。

其中，在获取到交互样本后，可以通过常规手段对智能体进行训练。在本实施例中，按照双重Q网络(Double Deep Q Network，DDQN)的方式更新智能体的网络参数。如图4所示，双重Q网络包括目标网络和策略网络，目标网络定期从策略网络同步参数，其具体过程如下：

首先，计算每个优势分支的Q实际值Q_d(s,a)：

其中，s表示当前输入智能体的电压图特征和发电机功角状态，a表示当前执行的紧急切负荷动作，d表示某一个优势分支，a_d表示分支d的当前紧急切负荷动作，a′_d表示分支d的更新的紧急切负荷动作，分支d的动作a_d, 表示动作空间，/>表示动作空间/>的维数，V(s)表示共享特征经卷积层提取的状态值，A_d(s,a_d)表示优势分支d执行当前紧急切负荷动作a_d的优势，A_d(s,a′_d)表示优势分支d执行更新后的紧急切负荷动作a′_d的优势。

其次，计算每个优势分支的Q目标值Y_d：

其中，r表示智能体更新得到紧急切负荷动作a′_d后获得的奖励，γ为设定的折扣系数，θ为BDQ策略网络参数，θ^-为BDQ目标网络参数，s′表示更新的电压图特征和发电机功角状态。

例如，当前执行的紧急切负荷动作为a_k，对应输入智能体的当前电压图特征和发电机功角状态分别为T_k和δ_k；更新的紧急切负荷动作为a_k+1，更新的电压图特征和发电机功角状态分别为T_k+1和δ_k+1，对应的奖励为r_k。

最后，时序差分误差定义为：

其中，e_TD为时序差分误差，N为BDQ智能体的总分支数，也即电网中的总负荷数。

BDQ智能体的策略网络参数更新方法如下：

其中，θ_w为第w次参数更新后BDQ智能体的策略网络参数，α为学习率，表示对参数θ求导。

策略网络参数更新期间，目标网络定期从策略网络同步参数，最终策略网络的参数即为智能体的网络参数。

通常，一次更新无法使智能体的网络参数满足预期，则可以再次跳转至步骤S11，再次执行步骤S11至步骤S16，即继续生成交互样本并再次更新网络参数，进行多次更新以进一步优化智能体的决策性能。也即，通过智能体迭代获取交互样本并在获取到一定量的交互样本后训练更新智能体的网络参数，再继续通过最新的智能体迭代获取交互样本，如此循环多次，以多次优化智能体的网络参数。

相应的，本发明还涉及一种紧急切负荷决策模型训练设备，用于执行上述紧急切负荷决策模型训练方法。

相应的，本发明还涉及一种基于紧急切负荷决策模型的紧急切负荷决策方法，如图5所示，其主要包括：

步骤S22：将电压图特征T_k和发电机功角状态集合δ_k输入紧急切负荷决策模型中的具有分支竞争Q网络的智能体进行决策，得到第k+1步决策出的紧急切负荷动作a_k+1，其中，紧急切负荷决策模型为根据上文紧急切负荷决策模型训练方法训练所得；

具体的，获取电压图特征、母线电压集合和发电机功角状态集合的过程参考上文介绍，在此不再赘述。

在实际利用上文训练好的智能体进行决策时，根据实际的电网暂态电压失稳故障进行决策。当智能体输出紧急切负荷动作，即各负荷的具体切负荷量，通过仿真判断当前动作是否能够使电压恢复稳定，若不能恢复稳定且迭代次数未达到上限，智能体继续决策，重复执行状态-动作-状态-动作的循环直至当前动作能够使电压恢复稳定或者迭代次数达到上限，以当前动作作为当前电网暂态电压失稳故障下的紧急切负荷动作。

以下以一具体的例子进行说明。

设置不同的故障类型、故障线路、故障持续时间、故障位置和潮流水平，生成大量的暂态电压失稳运行工况，以训练和测试BDQ智能体。总共生成暂态电压失稳工况共有186个，随机选择146个用于智能体的模型训练，剩余40个用于智能体的性能测试。

智能体训练参数设置：智能体的获取交互样本的迭代总轮次为30000，经验池的容量10000，从经验池抽取批样本的容量128，即每次更新智能体网络参数时抽取128个交互样本，折扣系数0.1，学习率0.0001，分支数105，即智能体一次决策105个负荷的切负荷量，最小允许动作0.2，最大允许动作0.5，初始探索概率0.9，即，最小切负荷量为20％，最大切负荷量为50％，最小探索概率0.1，总仿真时间为10秒。智能体的神经网络使用PyTorch框架编写，智能体通过Python调用PSASP仿真软件执行切负荷决策。

为了验证电网拓扑特征融合对智能体决策性能的影响，分别评估有电网拓扑特征融合和无电网拓扑特征融合的BDQ智能体在所有测试集合上的性能。由于在通过紧急切负荷决策模型训练方法完成智能体的网络参数更新后，使用智能体进行决策时，还会涉及到状态-动作-状态-动作的多次迭代，最终输出有效的决策动作。此处在使用智能体进行决策期间，以每200个迭代轮次就进行一次性能评估。总迭代次数，总奖励和总成功个数用于评价智能体的性能。总迭代次数越少，智能体的决策速度越快。在决策有效的前提下获得的总奖励越大，智能体决策质量越高。总成功个数越多，智能体的决策能力越强。

实验重复执行3次，取多次结果的平均值进行比较。比较对象为基于电网拓扑特征融合的BDQ智能体和无电网拓扑特征融合的BDQ智能体。其中，有电网拓扑特征融合指的是本发明中输入智能体的状态为电压图特征T_k和发电机功角状态集合δ_k。无电网拓扑特征融合值得是常规方案中输入智能体的状态为母线电压集合V_k和发电机功角状态集合δ_k，未考虑电网拓扑。

结果如图6(a)～6(c)所示，线条表示多次结果的平均值，浅色块表现性能指标的方差，横坐标表示智能体参数更新阶段的训练轮次(即获取交互样本的迭代次数)，纵坐标表示运行训练好的智能体进行决策的各项决策性能。如图6(a)所示，相同训练轮次后，有电网拓扑特征融合的BDQ智能体在实际决策时所需的总迭代次数更少，说明电网拓扑特征融合可以提高智能体在实际应用时的决策速度。如图6(b)所示，相同训练轮次后，有电网拓扑特征融合的BDQ智能体在实际决策时总奖励更多，说明电网拓扑特征融合可以提高智能体的决策能力。如图6(c)所示，相同训练轮次后，有电网拓扑特征融合的BDQ智能体在实际决策时总成功个数更多，说明知识融合可以提高智能体的决策能力。另一方面，图6(a)～6(c)中，电网拓扑特征融合的BDQ智能体性能指标变好的速度更快，说明电网拓扑特征融合可以提升BDQ智能体的训练效率。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种紧急切负荷决策模型训练方法，其特征在于，所述紧急切负荷决策模型为具有分支竞争Q网络的智能体，所述模型训练方法包括：

步骤S14：令k＝k+1，跳转至步骤S12，直至获取当前电网暂态电压失稳故障下的多组交互样本；

2.如权利要求1所述的紧急切负荷决策模型训练方法，其特征在于，通过电力系统分析综合程序进行暂态仿真，得到当前电网暂态电压失稳故障下执行紧急切负荷动作a_k后的母线电压集合V_k和发电机功角状态集合δ_k。

3.如权利要求1所述的紧急切负荷决策模型训练方法，其特征在于，电压图特征其中，/>表示多层图卷积运算中的第l层网络的运算结果，m表示多层图卷积运算的网络层数，所述多层图卷积运算中第l+1层与第l层之间的传播关系为：

表示/>的度矩阵，所述度矩阵为对角矩阵，所述度矩阵/>中的第p个对角元素值为/>其中，/>表示电压图改进矩阵/>中的第p行、第q列的值；

W_k ^(l)表示计算电压图特征T_k的多层图卷积运算的第l层网络的权重参数；

σ(·)表示非线性激活函数。

4.如权利要求1所述的紧急切负荷决策模型训练方法，其特征在于，电网矩阵G_k中，若母线i和母线j未连接，则若母线i和母线j连接，则/>

5.如权利要求1所述的紧急切负荷决策模型训练方法，其特征在于，所述奖励r_k为根据母线电压集合V_k+1给予的奖励，若母线电压集合V_k+1中存在母线电压未恢复稳定，则给予的奖励相对较低，若母线电压集合V_k+1中所有母线电压均恢复稳定，则给予的奖励相对较高。

6.如权利要求5所述的紧急切负荷决策模型训练方法，其特征在于，以0.8p.u.作为评估母线电压是否恢复稳定的分界线，若母线电压集合V_k+1中小于0.8p.u.的母线电压，则给予的奖励为0，若母线电压集合V_k+1所有母线电压均大于或等于0.8p.u.，则给予的奖励大于0。

7.如权利要求1所述的紧急切负荷决策模型训练方法，其特征在于，按照双重Q网络的方式更新所述智能体的网络参数，所述双重Q网络包括目标网络和策略网络，所述目标网络定期从策略网络同步参数。

8.如权利要求1所述的紧急切负荷决策模型训练方法，其特征在于，在步骤S16之后，还包括：

9.一种紧急切负荷决策模型训练设备，其特征在于，用于执行权利要求1至8任一项所述的紧急切负荷决策模型训练方法。

10.一种紧急切负荷决策方法，其特征在于，包括：

步骤S22：将电压图特征T_k和发电机功角状态集合δ_k输入紧急切负荷决策模型中的具有分支竞争Q网络的智能体进行决策，得到第k+1步决策出的紧急切负荷动作a_k+1，其中，所述紧急切负荷决策模型为根据权利要求1至8任一项所述的紧急切负荷决策模型训练方法训练所得；