CN117578466B

CN117578466B - 一种基于优势函数分解的电力系统暂态稳定预防控制方法

Info

Publication number: CN117578466B
Application number: CN202410063892.3A
Authority: CN
Inventors: 曲莹; 王金浩; 郑惠萍; 刘新元; 牛哲文; 程雪婷; 韩肖清; 郝捷; 陈丹阳; 冀岳; 王玮茹; 孟涛; 郝鑫杰; 薄利明; 高宏; 崔校瑞; 暴悦爽; 武宇翔; 芦耀辉; 李梓豪
Original assignee: State Grid Electric Power Research Institute Of Sepc; Taiyuan University of Technology
Current assignee: State Grid Electric Power Research Institute Of Sepc; Taiyuan University of Technology
Priority date: 2024-01-17
Filing date: 2024-01-17
Publication date: 2024-04-05
Anticipated expiration: 2044-01-17
Also published as: CN117578466A

Abstract

本发明公开了一种基于优势函数分解的电力系统暂态稳定预防控制方法，涉及电力系统的人工智能应用领域。该预防控制方法为基于CNN/MLP‑优势函数分解的多智能体算法，首先对CNN/MLP中样本生成、模型结构、输入特征等进行计算，然后对优势函数分解的多智能体算法中涉及到的状态设置、输入特征、奖励函数以及模型训练流程进行了计算；之后将两者结合作为本发明暂态稳定预防控制方法，最后通过IEEE 39节点系统算例验证了本发明方法的有效性。本发明有效提高了准确率、降低了严重错误率；同时降低了深度强化学习训练成本；最终使得该方法训练稳定性更优，且控制策略调整总量最小。

Description

一种基于优势函数分解的电力系统暂态稳定预防控制方法

技术领域

本发明涉及电力系统的人工智能应用领域，具体为一种基于优势函数分解的电力系统暂态稳定预防控制方法。

背景技术

随着新能源技术的快速发展和智能电网建设的推进，电力系统面临着诸多挑战，如电力市场需求响应问题、可再生能源发电量的不确定性问题、电网容量约束和电网安全性问题等，其中包括电力系统静态安全和暂态稳定预防控制也是一个非常具有挑战性的任务。在实际工作中，预防控制策略的生成方法是基于方式假设和仿真计算。对于静态安全，通常的步骤是先对初始状态的潮流进行静态安全N-1计算，即对电力系统中各元件进行无故障断开，以观察其他元件电压及潮流的越限情况，然后根据这些情况控制调整发电机的出力。对于暂态稳定，则需要进行N-1暂态稳定计算，即系统内元件发生规定的故障、正常切除故障后，检查系统是否失稳，如果系统不能保持稳定，则认为该方式是不安全的，需要采取调整发电机出力等预防控制措施，形成安全的运行方式。随着电力系统规模的日益扩大和对电网运行安全性可靠性要求不断提高，传统方法面临的计算量大、基于模型方法固有的不合理假设和过度简化带来的误差问题，使之难以满足当前对控制策略实时性和准确性的要求。因此，电力系统需要采用更为先进的预防控制方法来保证其安全和稳定运行。

深度强化学习（Deep Reinforcement Learning，DRL）是AI领域中一种先进的方法，它可以解决高维、非线性和非凸优化问题。近年来，DRL已经成功应用于自动驾驶、游戏、机器人控制等领域，取得了显著的成果。由于其优秀的学习能力和智能控制能力，DRL被认为是电力系统预防控制领域中的一种有前途的技术。

在电力系统预防控制领域中，DRL有很好的应用前景。例如，DRL可以用于电力网络容量约束优化、电网安全性评估、电网负荷预测和电网自适应控制等。具体来说，在电力网络容量约束优化中，DRL可以用于在保证电网稳定性的前提下最大化可再生能源发电量。在电网安全性评估中，DRL可以用于评估电网的故障和短路风险，并采取相应的预防措施。在电网负荷预测中，DRL可以用于预测未来电力需求，并采取相应的调度策略。在电网自适应控制中，DRL可以用于实时调整电网运行状态，以确保电网安全和稳定运行。

然而，将DRL应用到电力系统预防控制领域中也存在一些挑战。首先，电力系统是一个高维非线性复杂大系统，其状态空间和动作空间非常大，因此需要高效的DRL算法来处理。其次，电力系统的运行状态受到负载变化、发电机组状态、输电线路状态及天气和环境等因素的影响，因此需要考虑多种不确定性因素。再者，电力系统的安全性和稳定性对社会经济的影响非常大，因此需要严格的安全性和稳定性保证。最后，由于电力系统是一个大规模的、分区域的系统，因此需要考虑分区域控制的问题。

近年来，深度强化学习在多智能体协同控制领域的广泛应用，为电力系统预防控制带来了新的思路和方法。与传统方法相比，基于多智能体深度强化学习（Multi-agentDeep Reinforcement Learning，MADRL）的方法可以相互协作，通过模型训练从经验中自动提取控制策略，不仅能够适应电力系统日益增加的复杂性和不确定性，而且还能够提高效率和优化控制策略，从而提高电力系统的预防控制能力。目前，强化学习方法在电力工业的多个方面得到应用，然而，面对更加复杂的高维场景时，普通强化学习方法存在难收敛等问题。近年来，随着人工智能技术的不断进步，适用于高维复杂环境的MADRL得到较好发展。MADRL作为AI领域的一个新兴的研究热点和应用方向，涵盖众多算法、规则、框架，并广泛应用于自动驾驶，能源分配和编队控制等现实领域，具有极高的研究价值和意义。MADRL包含一组智能体，各个智能体同处于某一问题的环境中，彼此之间可以将状态、动作等信息进行交互，同时还具备感知、预测和决策能力。MADRL在处理复杂问题时，将其简化为一组小问题求解，比起单智能体有更高的计算效率。且它提出的求解方法遵从每个部分的自洽性，比如，每个部分有他们不同的优化目标和运行约束本发明研究基于MADRL的电力系统预防控制方法，旨在探索一种高效、稳定的控制方法，以提高电力系统的安全稳定运行能力，对于电力系统的安全和可靠运行具有重要的理论和实际意义。近年来，随着人工智能技术的不断进步，适用于高维复杂环境的MADRL得到较好发展。MADRL包含一组智能体，各个智能体同处于某一问题的环境中，彼此之间可以将状态、动作等信息进行交互，同时还具备感知、预测和决策能力。且它提出的求解方法遵从每个部分的自洽性，比如，每个部分有他们不同的优化目标和运行约束。将MADRL应用于电力系统的研究已取得较大进展，但仍存在训练复杂度高，模型鲁棒性差和动作探索不充分等问题。

使用了单智能体强化学习算法在多智能体环境中解决电力系统问题。然而，单个智能体策略的改变会对其他智能体的环境产生影响，这导致了环境的不平稳性问题。此外，若强化学习的交互环境为电力系统暂态仿真平台，则会耗费大量时间与计算资源。

虽然将MADRL应用于电力系统的研究已取得较大进展，但仍存在训练复杂度高，模型鲁棒性差和动作探索不充分等问题。因此还需要对现有的控制方法进行改进。

发明内容

本发明为了解决DRL在电力系统预防控制的应用中，所存在的训练复杂度高，模型鲁棒性差和动作探索不充分等问题，提供了一种基于优势函数分解的电力系统暂态稳定预防控制方法。

本发明是通过如下技术方案来实现的：一种基于优势函数分解的电力系统暂态稳定预防控制方法，包括如下步骤：

S1：提出将CNN/MLP与时域仿真方法结合的暂态稳定分析方法，将稳态数据与暂态数据相结合的综合数据作为暂态稳定分析的输入样本，通过调参训练CNN/MLP模型，在测试集上评估模型输出结果的可信度，若达到阈值则作为最终预测结果，否则以时域仿真结果为准，为后续暂态预防控制提供状态评估结果支撑。由于深度强化学习模型与电力系统时域仿真软件交互过程将耗费大量时间，若缩短仿真时长，则能提高训练效率。然而，传统失稳判据为功角差，仿真时长过短导致将导致失稳判据失效，因此缩短仿真时长后难以根据功角差判定是否失稳，因此提出CNN/MLP与时域仿真方法结合的暂态稳定分析方法，并将训练得到的模型作为深度强学习交互环境的一部分，过程具体如下：

S1-1：样本生成：

在暂态稳定分析中，为提高暂态稳定分析的准确性，提取相应的特征量，所述特征量不仅包括故障发生前的稳态量，还加入了故障数据，即特征量中包括发电机有功功率以及故障后1s内发电机功角差数据，所以，特征量包含故障前、故障中和故障后数据；

根据研究系统的特点，首先确定系统的故障集F，之后在95%、100%和105%负荷水平下抽取部分线路N-1三相断线运行方式进行暂态计算，获取特征量；采用简单随机抽样方法（Simple random sampling，SRS），在预先设定的范围进行多次采样，得到不同运行方式的多个数据；

简单随机抽样进行发电机有功出力抽样的表达式为：

（1）

式中：为节点i处发电机有功功率；、分别为节点i处发电机有功功率设定的上限、下限；k为区间[0,1]上服从均匀分布的随机数；

在抽样得到的发电机有功功率的基础上，进行暂态仿真计算获取特征量，并标注样本标签，仿真时间取为5s，暂态功角失稳的判据为：

（2）

式中：为仿真结束时刻各个发电机组之间的最大功角差；为发电机功角差的最大允许值，本发明取360°。

S1-2：模型构建：

S1-2-1：暂态稳定分析是判断稳定或不稳定的二分类问题，样本标注标签以后可以采用监督学习的方式处理。一般获得样本数据以后，为提高训练的稳定性，首先采用以下公式对样本数据进行归一化处理：

（3）

S1-2-2：构建CNN/MLP模型：

对于CNN模型，二维暂态数据进入卷积层提取特征，该特征与发电机有功数据拼接后进入全连接层，由全连接层输出分类结果，隐藏层包括三个二维卷积层和两个池化层，与一维数据拼接输入全连接层中，激活函数采用sigmoid函数，将预测值映射到（0,1）上，得到暂态稳定预测值；而对于MLP模型，暂态数据被拉平后与发电机有功数据拼接，经过四层全连接层和ReLU激活，加快模型收敛速度，最终经过sigmoid得到暂态稳定评估结果；如图3和图4所示；

对训练后的模型进行模型评价，采用混淆矩阵计算二分类任务的评价指标，混淆矩阵是一种用于评估分类模型效果的工具，设定为一个二维的表格，行表示实际类别，列表示预测类别，每个单元格是真正类别与预测类别的匹配数，通过混淆矩阵中的数据计算出分类精度、召回率、准确率；表格中TP和TN代表分类器正确预测样本稳定或失稳的数量，FN代表稳定样本被误判为失稳的数量，FP代表失稳样本被误判为稳定的数量，根据需求，减少FP出现的概率；设置出的表格用于综合反映暂态稳定分类器的准确度；

根据表格中的指标，计算正确率（Accuracy rate，AR）指标，表示正确预测的样本数与样本总数的比值，公式如下：

（4）

再计算安全率（Safety rate，SR）指标，表示分类器准确预测为稳定的样本数与实际稳定的样本总数的比值，公式如下：

（5）

之后计算严重误判率（Serious misdiagnosis rate，SMR）指标，表示分类器误判失稳样本为稳定与实际失稳样本总数的比值，公式如下：

（6）

正确率是分类任务中最基本的评价指标。然而，在样本不均匀情况下，正确率不能准确反应分类器的性能，所以定义安全率和严重误判率。分类器的性能会影响控制策略的正确生成，因此采用CNN/MLP结合时域仿真的方法降低SMR，进一步保证策略的有效性。

S1-3：评估模型可信度：

为提高分类器正确率，降低严重误判率，本发明通过引入Sigmoid函数，输出层输出两种类别的概率，当其中一种类别概率达到 90%以上时，认为分类器做出了预测分类的判断；为进一步提高模型正确率，本发明利用CNN与MLP并行式判别，排除当两者均做出分类预测且预测结果一致的情况以外，剩余情况由暂态仿真进一步判断系统是否稳定；流程图如图5所示。

当对一个给定初始状态的电力系统进行暂态稳定分析时，仅通过时域仿真的方法输出结果可信，但将耗费较多时间，效率较低；CNN/MLP方法虽然效率高，但可信度相对较低。基于此，本发明将CNN/MLP与时域仿真方法相结合的方式，并将该种方式的CNN/MLP分类器作为深度强化学习交互环境的一部分，用于快速判断系统功角稳定与否，提高深度强化学习模型的训练效率。

为进一步降低严重错误率，采取本发明所提CNN/MLP结合时域仿真的办法。对于仅由CNN/MLP数据驱动方法无法确定状态的样本，采用时域仿真计算的方法来确定其状态。CNN/MLP输出经Sigmoid函数得到的概率与阈值Th进行比较，当输出概率大于Th，且预测结果一致，则采用此判断结果；否侧，使用时域仿真法进行判断。

S2：提出了优势函数分解的多智能体算法，进行神经网络和经验池的初始化，对电力系统进行初始化设置，开始交互学习；在每一次交互学习中，智能体根据当前环境状态输出动作；环境执行动作后，根据CNN/MLP结合时域仿真的方法计算奖励值，并将数据存入经验池，更新中心Q网络，将结果反馈给策略网络，通过训练不断更新智能体的策略网络，以提高每个智能体的优势函数，最终获得最优控制策略。

S2-1：基于优势函数分解的多智能体算法：

优势函数是强化学习的重要概念。它表示当前状态下选择某一行动与其他行动的差距。优势函数的值可以是预期的回报，也可以是状态价值函数的差值，是决策过程中评估不同行动的重要指标。优势函数是将强化学习中的Q值“归一化”到V值的基准上，有助于提高学习效率，使学习更加稳定。优势函数如式（7）所示：

（7）

根据SAC算法，强化学习过程中的Q值函数、V值函数及累计奖励为以下定义：

（8）

（9）

（10）

（11）

策略网络更新后的累计奖励与更新前的累计奖励相比，在不含熵的情况下，差值为优势函数；引入策略熵以后，差值中增加了策略熵部分，如公式（12）所示：

（12）

式中：为更新后新策略函数；当等式右边大于0，则认为新策略函数优于更新前策略函数；

推广至多智能体，根据优势函数分解理论，定义Q值函数和优势函数，当多个智能体中，其中1-m号智能体已经选择动作，此时计算对应动作Q值如式所示：

（13）

式中：和表示除m个智能体以外的其他智能体的动作和策略。

多智能体优势函数分解（Multi-Agent Advantage Decomposition，MAAD）定义如式（14）所示，表示计算动作的优势函数；

（14）

由式（14）得到优势分解函数，如式（15）所示，它是智能体策略网络可以按顺序更新的理论依据；引入策略熵提高智能体探索能力，如式（16）所示，则第j个智能体策略网络更新如式（17）所示：

（15）

（16）

（17）

本发明提出的含最大熵的优势函数分解多智能体算法，在CTDE范式下，假设有m个智能体，则包含m+4个神经网络，包括1组中心Q网络，分别是2个中心Q网络和2个中心目标Q网络，其中，中心目标Q网络的作用是稳定训练；此外，还有m个策略网络，策略网络的输出需要与状态一起进入中心Q网络计算Q值，之后中心Q网络将结果反馈给策略网络，用于评价动作的优劣。

根据优势函数分解理论，在MAAD-DRL学习中用策略网络依次更新的方法，逐个计算每个智能体的优势函数：首先，随机生成策略网络的更新顺序；然后，依次将环境状态和更新后的策略网络产生的新动作作为中心Q网络的输入，来计算优势函数；当优势函数为正数时，则认为该动作为优；反之，则认为该动作为差；最后，根据优势函数，并利用Adam算法更新策略网络；通过训练不断更新智能体的策略网络，以提高每个智能体的优势函数，最终获得最优策略。

S2-2：深度强化学习环境的构建：

暂态稳定预防控制中，采取多智能体深度强化学习方法，由m个智能体互相合作，共同学习暂态稳定预防控制策略，其中，深度强化学习要素包括状态空间、动作空间和智能体奖惩机制。

S2-2-1：状态空间：

当前状态应当反应电力系统运行情况，当正常运行时系统结构一定，线路参数确定，则节点电压幅值和相角中包含了系统运行信息，如利用线路两端电压幅值和相角可以计算线路潮流等。因此本发明设置观测变量包括节点电压幅值和相角差，状态空间如下式所示：

（18）

式中：表示节点n的电压幅值；表示节点n与参考节点相角差。

S2-2-2：动作空间：

根据暂态稳定预防控制过程，各个智能体动作控制所属区域的发电机有功功率，调整范围是给定值70%-130%的连续空间；动作空间表示为：

（19）

式中：为节点m发电机的有功出力。

S2-2-3：智能体奖惩机制：

暂态稳定预防控制的要求为满足故障集中暂态功角稳定，故智能体采取一个动作后，依次遍历故障集所有故障情况，每当满足暂态功角稳定则获得奖励1，否则奖励为0；

暂态稳定预防控制有功潮流调整可采用的目标函数有：

（20）

（21）

（22）

式中：为可调发电机集合；、分别为发电机节点i有功功率上调、下调成本系数；、分别是发电机节点i有功功率上调量、下调量；、分别是发电机 i调整前、后的有功出力；、和为发电机i的发电成本系数。

式（20）表示优化目标是总调整成本最小，式（21）表示优化目标是调整后的发电成本最小。而实际发电机有功出力调整量为发电机的热备用，为实现有功出力的快速调整，希望调整总量小，参与调整的发电机尽量多，式（22）会趋向于调整所有待调整发电机。因此，本发明选式（22）作为智能体目标函数，将之融入奖励函数。奖励函数如式所示：

（23）

式中：K为调整后潮流不收敛惩罚；s为故障集中暂态稳定的数目；t为故障集中暂态失稳的数目；为有功功率变化量的权重，选取为0.02。

S2-3：智能体训练流程：

本发明采用的优势函数分解的多智能体算法训练流程，如图7所示：在训练之前，首先进行神经网络和经验池的初始化，并设置小批量数和学习的轮次等训练参数；同时设置所选故障集、优化函数以及其学习率；然后，对电力系统进行初始化设置，开始交互学习；在每一次交互学习中，智能体观察当前环境状态s_t，并分别输出动作a_t,i；环境执行动作后，根据CNN/MLP结合时域仿真的方法计算奖励值r_t，并将经验数据存入经验池，更新中心Q网络；当经验池中累计一定数据后，开始更新策略网络；每次更新前，打乱智能体的顺序，并依次更新；对于未更新的策略网络更新，利用之前已经更新的策略网络输出新的动作，然后计算优势函数来更新策略网络；直到训练轮次达到最大时，训练结束。

与现有技术相比本发明具有以下有益效果：本发明所提供的一种基于优势函数分解的电力系统暂态稳定预防控制方法：（1）基于CNN和MLP的暂态稳定分析方法的准确率在95%以上，并且本发明采用两者与时域仿真结合的方式，虽增加了计算时间，但有效提高了准确率、降低了严重错误率。（2）将已训练的暂态稳定分析模型作为深度强化学习与环境交互的辅助环节，降低了深度强化学习训练成本。（3）提出了含最大熵的优势函数分解多智能体算法，通过分区控制缩小了单个智能体的动作空间，提高了深度强化学习训练效率。与其他传统方法相比较，本发明方法训练稳定性更优，且控制策略调整总量最小。

附图说明

图1为本发明具体实施例的全局观测示意图。

图2为支路16-17故障的功角曲线时域仿真图。

图3为CNN深度学习结构示意图。

图4为MLP深度学习结构示意图。

图5为本发明具体实施例的暂态稳定分析流程图。

图6为本发明具体实施例的优势函数分解多智能体算法示意图。

图7为本发明具体实施例的优势函数分解的多智能体算法训练流程图。

图8为本发明具体实施例的CNN/MLP训练损失曲线。

图9为本发明具体实施例的CNN/MLP训练测试集准确率曲线。

图10为本发明具体实施例的训练奖励曲线。

图11为本发明具体实施例的策略损失曲线。

图12为本发明具体实施例的中心Q网络损失曲线。

图13为本发明具体实施例的未采取预防控制支路16-17故障仿真曲线。

图14为本发明具体实施例的未采取预防控制支路26-28故障仿真曲线。

图15为本发明具体实施例的未采取预防控制支路26-29故障仿真曲线。

图16为本发明具体实施例的采取预防控制支路16-17故障仿真曲线。

图17为本发明具体实施例的采取预防控制支路26-28故障仿真曲线。

图18为本发明具体实施例的采取预防控制支路26-29故障仿真曲线。

图19为本发明具体实施例的局部观测示意图。

图20为本发明具体实施例的局部观测奖励曲线与策略损失曲线。

图21为本发明具体实施例的奖励曲线对比图。

具体实施方式

以下结合具体实施例对本发明作进一步说明。

本实施例所针对的是如图1所示的IEEE 39节点模型。

一种基于优势函数分解的电力系统暂态稳定预防控制方法，包括如下步骤：

S1：提出将CNN/MLP与时域仿真方法结合的暂态稳定分析方法，将稳态数据与暂态数据相结合的综合数据作为暂态稳定分析的输入样本，通过调参训练CNN/MLP模型，在测试集上评估模型输出结果的可信度，若达到阈值则作为最终预测结果，否则以时域仿真结果为准，为后续暂态预防控制提供状态评估结果支撑。具体如下：

S1-1：样本生成：

在暂态稳定分析中，为提高暂态稳定分析的准确性，提取相应的特征量，所述特征量不仅包括故障发生前的稳态量，还加入了故障数据，即特征量中包括发电机有功功率以及故障后1s内发电机功角差数据，如图1中，支路16-17故障的功角曲线如图2所示，所以，特征量包含故障前、故障中和故障后数据；数据采集范围如图2所示。

首先确定系统的故障集F，之后在95%、100%和105%负荷水平下抽取部分线路N-1三相断线运行方式进行暂态计算，获取特征量；采用简单随机抽样方法SRS，在预先设定的范围进行多次采样，得到不同运行方式的多个数据；

简单随机抽样进行发电机有功出力抽样的表达式为：

（1）

（2）

式中：为仿真结束时刻各个发电机组之间的最大功角差；为发电机功角差的最大允许值，取360°。

S1-2：模型构建：

S1-2-1：获得样本数据以后，首先采用以下公式对样本数据进行归一化处理，用于提高训练的稳定性：

（3）

S1-2-2：构建CNN/MLP模型，

对于CNN模型，二维暂态数据进入卷积层提取特征，该特征与发电机有功数据拼接后进入全连接层，由全连接层输出分类结果，本实施例所用CNN结构如图3所示，隐藏层包括三个二维卷积层和两个池化层，与一维数据拼接输入全连接层中，激活函数采用sigmoid函数，将预测值映射到（0,1）上，得到暂态稳定预测值。而对于MLP模型，暂态数据被拉平后与发电机有功数据拼接，经过四层全连接层和ReLU激活，加快模型收敛速度，最终经过sigmoid得到暂态稳定评估结果；MLP结构如图4所示。

对训练后的模型进行模型评价，采用混淆矩阵计算二分类任务的评价指标，混淆矩阵是一种用于评估分类模型效果的工具，设定为一个二维的表格，行表示实际类别，列表示预测类别，每个单元格是真正类别与预测类别的匹配数，通过混淆矩阵中的数据计算出分类精度、召回率、准确率；表格中TP和TN代表分类器正确预测样本稳定或失稳的数量，FN代表稳定样本被误判为失稳的数量，FP代表失稳样本被误判为稳定的数量，根据需求，减少FP出现的概率；设置出的表格用于综合反映暂态稳定分类器的准确度；二分类结果混淆矩阵如表1所示。

表1

根据表格中的指标，计算正确率AR指标，表示正确预测的样本数与样本总数的比值，公式如下：

（4）

再计算安全率SR指标，表示分类器准确预测为稳定的样本数与实际稳定的样本总数的比值，公式如下：

（5）

之后计算严重误判率SMR指标，表示分类器误判失稳样本为稳定与实际失稳样本总数的比值，公式如下：

（6）

正确率是分类任务中最基本的评价指标。然而，在样本不均匀情况下，正确率不能准确反应分类器的性能，所以定义安全率和严重误判率。分类器的性能会影响控制策略的正确生成，本发明用CNN/MLP结合时域仿真的方法降低SMR，进一步保证策略的有效性。

S1-3：评估模型可信度：

通过引入Sigmoid函数，输出层输出两种类别的概率，当其中一种类别概率达到90%以上时，认为分类器做出了预测分类的判断；利用CNN与MLP并行式判别，进一步提高模型正确率，排除当两者均做出分类预测且预测结果一致的情况以外，剩余情况由暂态仿真进一步判断系统是否稳定。

S1-4：模型训练：

本实施例的IEEE 39节点模型中，分别将负荷设置为原始状态的95%、100%和105%，发电机状态保证潮流成功收敛的前提下由SRS方法抽取，在预想故障设置中，分别考虑了支路16-17、支路2-25、支路26-28和支路26-29发生N-1三相短路故障的情况，并在0.1秒后切除故障支路。通过时域仿真计算，获取了样本和标签。由于样本中包含了故障后的信息，因此我们针对不同的故障进行了样本标注，最终获得了12000个标注样本。样本数量分布详见表2。

表2 样本数量统计

分类器输入的特征量包括发电机有功功率和故障后1s内的发电机功角差。其中，发电机有功功率的维度是（10*1），发电机功角差的维度是（10*101）。在CNN模型中，发电机功角差以二维特征的方式进行卷积，第一层卷积设置6个卷积核，每个卷积核尺度为3*32，移动步幅为2，之后接最大池化层，池化层内核尺度为2*2，移动步幅为1；第二层卷积设置16个卷积核，每个卷积核尺度为2*2，移动步幅为2，之后接第二个最大池化层，其内核尺度为2*5，移动步幅为2；第三层卷积设置120个卷积核，每个卷积核尺度为1*4，移动步幅为1。通过卷积提取功角差中的数据特征，之后将卷积层输出数据拉平后与发电机有功功率拼接，进入全连接层进一步提取特征。全连接层中，各层神经元数为1450，64，2。另外，在MLP模型中，直接将发电机功角差数据拉平，然后与发电机有功功率拼接作为输入数据，MLP各层神经元个数为1020，1024，512，64，2，隐藏层激活函数为ReLU函数。两个模型均为2维输出，通过Sigmoid函数计算得到两种分类的概率，概率高的类别为模型的分类结果。

12000个标注样本中，将80%的样本当作模型训练集样本，其余20%作为测试集样本。并设置CNN和MLP训练优化器设置为Adam，设置损失函数为交叉熵损失函数，设置训练轮次为50。完成训练后，训练损失函数如图8所示，训练集和测试集损失曲线均呈下降态势。另外，测试集准确率曲线如图9所示，最终准确率均在95%以上。

训练后对模型进行评价，CNN与MLP两个模型对全部12000个样本进行预测，得到混淆矩阵如表3和表4所示。两者的严重错误率分别为1.69%和2.29%。

表3 CNN模型混淆矩阵

表4 MLP模型混淆矩阵

为进一步降低严重错误率，采取本发明所提CNN/MLP结合时域仿真的办法。对于仅由CNN/MLP数据驱动方法无法确定状态的样本，采用时域仿真计算的方法来确定其状态。CNN/MLP输出经Sigmoid函数得到的概率与阈值Th进行比较，当输出概率大于Th，且预测结果一致，则采用此判断结果；否侧，使用时域仿真法进行判断。抽取12000个样本测试，此方法对模型预测结果影响如表5所示。若Th=100%，此时仅有时域仿真法进行判断，则需要较长的计算时间。针对本实施例的研究，选择阈值为75%。

表5 指标与Th的关系

S2：提出优势函数分解的多智能体算法，进行神经网络和经验池的初始化，对电力系统进行初始化设置，开始交互学习；在每一次交互学习中，智能体根据当前环境状态输出动作；环境执行动作后，根据CNN/MLP结合时域仿真的方法计算奖励值，并将数据存入经验池，更新中心Q网络，将结果反馈给策略网络，通过训练不断更新智能体的策略网络，以提高每个智能体的优势函数，最终获得最优控制策略，具体为：

S2-1：基于优势函数分解的多智能体算法：

优势函数是将强化学习中的Q值“归一化”到V值的基准上，优势函数如式（7）所示：

（7）

（8）

（9）

（10）

（11）

（12）

（13）

式中：和表示除m个智能体以外的其他智能体的动作和策略；

多智能体优势函数分解MAAD定义如式（14）所示，表示计算动作的优势函数；

（14）

（15）

（16）

（17）

提出的含最大熵的优势函数分解多智能体算法，在CTDE范式下，假设有m个智能体，则包含m+4个神经网络，包括1组中心Q网络，分别是2个中心Q网络和2个中心目标Q网络，其中，中心目标Q网络的作用是稳定训练；此外，还有m个策略网络，策略网络的输出需要与状态一起进入中心Q网络计算Q值，之后中心Q网络将结果反馈给策略网络，用于评价动作的优劣；

根据优势函数分解理论，在MAAD-DRL学习中用策略网络依次更新的方法，逐个计算每个智能体的优势函数，更新过程如图6所示：首先，随机生成策略网络的更新顺序；然后，依次将环境状态和更新后的策略网络产生的新动作作为中心Q网络的输入，来计算优势函数；当优势函数为正数时，则认为该动作为优；反之，则认为该动作为差；最后，根据优势函数，并利用Adam算法更新策略网络；通过训练不断更新智能体的策略网络，以提高每个智能体的优势函数，最终获得最优策略；

S2-2：深度强化学习环境的构建：

暂态稳定预防控制中，采取多智能体深度强化学习方法，由m个智能体互相合作，共同学习暂态稳定预防控制策略，其中，深度强化学习要素包括状态空间、动作空间和智能体奖惩机制；

S2-2-1：状态空间：

当前状态应当反应电力系统运行情况，当正常运行时系统结构一定，线路参数确定，则节点电压幅值和相角中包含了系统运行信息，因此设置观测变量包括节点电压幅值和相角差，状态空间如下式所示：

（18）

式中：表示节点n的电压幅值；表示节点n与参考节点相角差；

S2-2-2：动作空间：

（19）

式中：为节点m发电机的有功出力；

S2-2-3：智能体奖惩机制：

暂态稳定预防控制有功潮流调整所采用的目标函数为：

（20）

式中：为可调发电机集合；、分别是发电机节点i调整前、后的有功出力；

选式（20）作为智能体目标函数，将之融入奖励函数，奖励函数如式（21）所示：

（21）

式中：K为调整后潮流不收敛惩罚；s为故障集中暂态稳定的数目；t为故障集中暂态失稳的数目；为有功功率变化量的权重，选取为0.02；

S2-3：智能体训练流程：

S2-4：多智能体深度强化学习模型训练：

IEEE 39节点系统本身稳定性差，某些故障下易发生暂态功角失稳，如本实施例所选故障集中，支路16-17、支路26-28和支路26-29发生N-1三相短路故障均导致机组失稳，且当负荷减少至95%或增加至105%，支路2-25三相短路故障也将导致机组失稳。预防控制通过调整发电机出力，使得电力系统安全运行，故障后不发生功角失稳。

S2-4-1：全局观测：

本实施例中设置3个智能体，每个智能体分别控制3台发电机，并假设每个智能体可以观测到全局状态，如图1所示。本实施例算法还包括若干参数，如Q网络学习率、策略网络学习率等，具体设置如表6所示。

表6 MAAD-DRL参数设置

MAAD-DRL智能体训练过程中，每一个轮次进行6次探索，其中每一次探索都对故障集中4种不同情况下的故障进行暂态稳定分析。假设发电机有功出力不发生变化，且故障集中的故障均满足暂态功角稳定条件，则该轮次将获得最高奖励值，即24。在本发明实际训练过程中，基于已经选取的故障集，MAAD-DRL智能体奖励值无法达到24。训练奖励曲线如图10所示，前50个轮次向经验池中填充数据，未更新策略网络；50至200轮次奖励值迅速上升，智能体在学习过程中开始尽可能避免选择会导致功角失稳的动作，这个阶段奖励曲线在较大波动中上升，即MAAD-DRL智能体的动作在探索中逐步趋优；200至800轮次奖励值趋于稳定，智能体逐步选择调整总量较小的动作。三个策略网络损失曲线如图11所示，开始训练的前期3个智能体策略损失波动较剧烈，后均逐渐趋向收敛。

中心Q网络是一种重要的神经网络，用于指导MAAD-DRL智能体的学习，并对智能体的动作质量进行评估。如图12所示，中心Q网络的损失曲线表现出快速的收敛趋势，这表明该网络得到了良好的训练。因此，中心Q网络能够提供较为准确的智能体行动评估，进而促进MAAD-DRL的策略网络更新。

结束训练后，智能体做出的预防控制策略如表7所示，38号节点附近系统较为薄弱，发生故障时易引发暂态功角失稳，所以38号节点调整较大。

表7 预防控制策略

预防控制前，支路16-17、支路26-28和支路26-29发生三相短路故障均导致机组失稳，其时域仿真曲线如图13至15所示。发电机功角失去同步，节点电压剧烈震荡，系统不能正常运行。

采用本发明所述的所生成的预防控制策略后，分别对故障集内预想故障进行时域仿真计算，得到功角与电压曲线如图16至18所示。从图中可以得知，发生严重故障后，发电机功角差未出现不断扩大的现象。同时，虽然电压在故障后出现了一定程度的振荡，但这些振荡逐渐趋于稳定，没有出现发电机失步或者节点电压持续剧烈振荡的情况。这表明本实施例所提出的方法在满足电力系统暂态稳定要求发挥了有效作用。

为进一步测试本发明所提方法的有效性，分别在负荷为95%和105%情况下进行测试。负荷95%情况采取控制措施前，支路2-25、支路26-28和支路26-29均导致系统暂态功角失稳，若采用本发明方法得到的预防控制策略，则故障集内所有故障均能够保持暂态功角稳定。负荷105%情况与95%情况类似，系统状态如表8所示。其中，具体测试控制策略如表9和表10所示。

表8 预防控制前后系统状态

表9 95%负载下预防控制策略

表10 105%负载下预防控制策略

S2-4-2：局部观测：

进一步研究本发明所提算法在智能体局部观测情况下的性能，本实施例设置3个智能体分别能观测到不同节点的状态，且观测节点仅按节点编号分配给不同智能体，如图19所示，其余超参数设置同全局观测情况。

训练曲线如图20所示，通过奖励曲线可以看出智能体可以根据局部观测信息映射满足要求的策略，且最终结果与全局观测相差不大。训练过程中，虽然智能体为局部观测，但Q网络仍然获得全局信息，并对当前的状态和动作做出评价，通过Q网络的评价指导各个智能体更新迭代，所以在训练过程中，模型表现出良好性能。为说明本实施例方法高效性，对比传统强化学习在IEEE 39节点实施例中的表现，如图21所示。通过奖励曲线可以明显看出传统强化学习AC算法差于本实施例方法，传统强化学习奖励曲线震荡剧烈，且奖励最大值也小于本实施例方法。相同轮次内传统方法奖励均低于本实施例方法，且当前曲线上升趋势不明显。该曲线奖励说明传统强化学习方法学习到的策略不能满足故障集所有故障的暂态稳定，或者发电机有功出力调整量过大。同时，对比了不含最大熵的方法与不含优势函数分解的方法，其中，不含最大熵的方法不能成功收敛，在开始更新后3至5个轮次以后因陷入局部最优而停止更新策略；另外，在CTDE框架下，不含优势函数分解方法的奖励曲线虽然能够逐步收敛，但相比于本实施例方法波动大，整体奖励值略低，即控制策略稍差。

表11中列举多种方法的策略效果，对比负荷为95%、100%和105%情况下调整总量。与传统AC算法、DDPG算法、PPO算法和SAC算法相比，训练结果为调整总量最小。针对训练时长，本实施例通过利用CNN/MLP结合时域仿真的方法，通过缩短交互过程中的仿真时长，能显著减小了训练时长，包括减少了对比实施例中的训练时间，另外通过图21看出400轮次后奖励曲线趋于收敛，通过减少训练轮次的方法也可以进一步减少训练时长。

表11 不同算法调整总量对比

综上，本发明提出基于CNN/MLP-优势函数分解的多智能体算法的暂态稳定预防控制方法，对CNN/MLP中样本生成、模型结构、输入特征等进行介绍，以及对优势函数分解的多智能体算法中涉及到的状态设置、输入特征、奖励函数以及模型训练流程进行了详细介绍；然后将两者结合作为本发明暂态稳定预防控制方法，最后通过IEEE 39节点系统实施例验证了本发明方法的有效性。

本发明要求保护的范围不限于以上具体实施方式，而且对于本领域技术人员而言，本发明可以有多种变形和更改，凡在本发明的构思与原则之内所作的任何修改、改进和等同替换都应包含在本发明的保护范围之内。

Claims

1.一种基于优势函数分解的电力系统暂态稳定预防控制方法，其特征在于：包括如下步骤：

S1：提出将CNN-MLP与时域仿真方法结合的暂态稳定分析方法，将稳态数据与暂态数据相结合的综合数据作为暂态稳定分析的输入样本，通过调参训练CNN-MLP模型，在测试集上评估模型输出结果的可信度，若达到阈值则作为最终预测结果，否则以时域仿真结果为准，为后续暂态预防控制提供状态评估结果支撑；具体如下：

S1-1：样本生成：

简单随机抽样进行发电机有功出力抽样的表达式为：

（1）

式中：为节点i处发电机有功功率；/>、/>分别为节点i处发电机有功功率设定的上限、下限；k为区间[0,1]上服从均匀分布的随机数；

（2）

式中：为仿真结束时刻各个发电机组之间的最大功角差；/>为发电机功角差的最大允许值，取360°；

S1-2：模型构建：

（3）

S1-2-2：构建CNN-MLP模型：

对于CNN模型，二维暂态数据进入卷积层提取特征，该特征与发电机有功数据拼接后进入全连接层，由全连接层输出分类结果，隐藏层包括三个二维卷积层和两个池化层，与一维数据拼接输入全连接层中，激活函数采用sigmoid函数，将预测值映射到（0,1）上，得到暂态稳定预测值；而对于MLP模型，暂态数据被拉平后与发电机有功数据拼接，经过四层全连接层和ReLU激活，加快模型收敛速度，最终经过sigmoid得到暂态稳定评估结果；

（4）

（5）

（6）

根据分类器的性能会影响控制策略的正确生成，采用CNN-MLP结合时域仿真的方法降低SMR；

S1-3：评估模型可信度：

通过引入Sigmoid函数，输出层输出两种类别的概率，当其中一种类别概率达到 90%以上时，认为分类器做出了预测分类的判断；利用CNN与MLP并行式判别，进一步提高模型正确率，排除当两者均做出分类预测且预测结果一致的情况以外，剩余情况由暂态仿真进一步判断系统是否稳定；

当对一个给定初始状态的电力系统进行暂态稳定分析时，将CNN-MLP与时域仿真方法相结合的方式，并将这种方式的CNN-MLP分类器作为深度强化学习交互环境的一部分；

若存在由CNN-MLP数据驱动方法无法确定状态的样本，采用时域仿真计算的方法来确定其状态；CNN-MLP输出经Sigmoid函数得到的概率与阈值Th进行比较，当输出概率大于Th，且预测结果一致，则采用此判断结果；否侧，使用时域仿真法进行判断；

S2：提出优势函数分解的多智能体算法，进行神经网络和经验池的初始化，对电力系统进行初始化设置，开始交互学习；在每一次交互学习中，智能体根据当前环境状态输出动作；环境执行动作后，根据CNN-MLP结合时域仿真的方法计算奖励值，并将数据存入经验池，更新中心Q网络，将结果反馈给策略网络，通过训练不断更新智能体的策略网络，以提高每个智能体的优势函数，最终获得最优控制策略，具体如下：

S2-1：基于优势函数分解的多智能体算法：

（7）

（8）

（9）

（10）

（11）

（12）

（13）

式中：和/>表示除m个智能体以外的其他智能体的动作和策略；

（14）

由式（14）得到优势分解函数，如式（15）所示，它是智能体策略网络按顺序更新的理论依据；引入策略熵提高智能体探索能力，如式（16）所示，则第j个智能体策略网络更新如式（17）所示：

（15）

（16）

（17）

根据优势函数分解理论，在MAAD-DRL学习中用策略网络依次更新的方法，逐个计算每个智能体的优势函数：首先，随机生成策略网络的更新顺序；然后，依次将环境状态和更新后的策略网络产生的新动作作为中心Q网络的输入，来计算优势函数；当优势函数为正数时，则认为该动作为优；反之，则认为该动作为差；最后，根据优势函数，并利用Adam算法更新策略网络；通过训练不断更新智能体的策略网络，以提高每个智能体的优势函数，最终获得最优策略；

S2-2：深度强化学习环境的构建：

S2-2-1：状态空间：

（18）

式中：表示节点n的电压幅值；/>表示节点n与参考节点相角差；

S2-2-2：动作空间：

（19）

式中：为节点m发电机的有功出力；

S2-2-3：智能体奖惩机制：

暂态稳定预防控制有功潮流调整所采用的目标函数为：

（20）

式中：为可调发电机集合；/>、/>分别是发电机节点i调整前、后的有功出力；

（21）

式中：K为调整后潮流不收敛惩罚；s为故障集中暂态稳定的数目；t为故障集中暂态失稳的数目；为有功功率变化量的权重，选取/>为0.02；

S2-3：智能体训练流程：

采用的优势函数分解的多智能体算法训练流程为：在训练之前，首先进行神经网络和经验池的初始化，并设置小批量数和学习的轮次训练参数；同时设置所选故障集、优化函数以及其学习率；然后，对电力系统进行初始化设置，开始交互学习；在每一次交互学习中，智能体观察当前环境状态s_t，并分别输出动作a_t,i；环境执行动作后，根据CNN-MLP结合时域仿真的方法计算奖励值r_t，并将经验数据存入经验池，更新中心Q网络；当经验池中累计一定数据后，开始更新策略网络；每次更新前，打乱智能体的顺序，并依次更新；对于未更新的策略网络更新，利用之前已经更新的策略网络输出新的动作，然后计算优势函数来更新策略网络；直到训练轮次达到最大时，训练结束。

2.根据权利要求1所述的一种基于优势函数分解的电力系统暂态稳定预防控制方法，其特征在于：Th=75%。