CN115577647B

CN115577647B - 电网故障类型识别方法与智能体构建方法

Info

Publication number: CN115577647B
Application number: CN202211587306.2A
Authority: CN
Inventors: 李鹏; 黄文琦; 曹尚; 戴珍; 梁凌宇; 侯佳萱; 白昱阳; 陈亦平
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-04-07
Anticipated expiration: 2042-12-09
Also published as: CN115577647A

Abstract

本申请涉及一种电网故障类型识别智能体构建方法、装置、计算机设备以及存储介质，其中方法包括：获取电网故障仿真模型；将电网故障仿真模型的仿真过程转化为马尔科夫决策过程，生成可交互的电网故障仿真模型；获取预设初始DQN智能体；以可交互的电网故障仿真模型为交互对象、基于DQN的深度强化算法对所处初始DQN智能体进行训练，得到已训练的DRL智能体。另外，本申请还提供一种电网故障类型识别方法、装置、计算机设备以及存储介质，其基于上述的电网故障类型识别智能体构建方法得到的DRL智能体进行准确的电网故障类型识别。

Description

电网故障类型识别方法与智能体构建方法

技术领域

本申请涉及电力电网技术领域，特别是涉及一种电网故障类型识别方法、装置、计算机设备以及存储介质，另外还涉及一种电网故障类型识别智能体构建方法、装置、计算机设备以及存储介质。

背景技术

随着“碳达峰、碳中和”口号的提出，电网的稳定性及其韧性对国民经济生活的影响越来越大。如何构建一个坚强智能的电网在电力学科领域受到了相当程度的关注。电网故障的类型识别是电力系统故障诊断环节中不可缺少的一环。其中，对于样本数量较少的罕见故障如三相短路故障等，其识别要求更高。因此，如何及时有效的对罕见故障进行诊断和处理，以保障电力系统的平稳运行具有十分重要的研究意义。

近年来，深度学习技术在模式识别领域取得了不少突破。和传统的机器学习算法比，端到端的深度神经网络能够在海量的数据中自动进行特征挖掘实现故障诊断，从而节省了手动特征工程的成本，其优秀的泛化能力也能够应对复杂工况下不同的故障类型。

但是，传统人工智能故障类型识别方法是有监督式的，这意味着此类方法依赖量的手工标注的数据与特征，并且数据的质量对识别效果的好坏有很大影响，因此，无法实现准确的电网故障类型识别。

发明内容

基于此，有必要针对上述技术问题，提供一种支持电网故障类型准确识别的电网故障类型识别智能体构建方法、装置、计算机设备以及计算机可读存储介质，以及一种识别准确的电网故障类型识别方法、装置、计算机设备以及计算机可读存储介质。

第一方面，本申请提供了一种电网故障类型识别智能体构建方法。所述方法包括：

获取电网故障仿真模型；

将所述电网故障仿真模型的仿真过程转化为马尔科夫决策过程，生成可交互的电网故障仿真模型；

获取预设初始DQN（深度Q网络算法，Deep Q Network）智能体；

以所述可交互的电网故障仿真模型为交互对象、基于DQN的深度强化算法对所处初始DQN智能体进行训练，得到已训练的DRL（深度强化学习，deep reinforcementlearning）智能体。

在其中一个实施例中，所述获取电网故障仿真模型包括：

获取电网故障仿真的目标函数、控制变量以及约束条件；

基于所述目标函数、所述控制变量以及所述约束条件，采用模型仿真工具，生成电网故障仿真模型。

在其中一个实施例中，所述将所述电网故障仿真模型的仿真过程转化为马尔科夫决策过程，生成可交互的电网故障仿真模型包括：

获取电网故障仿真模型的状态信息与控制变量；

根据所述状态信息以及所述控制变量，获取电网的故障仿真录波波形与故障录波形的波形偏差；

根据所述波形偏差，确定电网故障分类问题的奖励函数；

基于所述状态信息、所述控制变量以及所述奖励函数，生成可交互的电网故障仿真模型。

在其中一个实施例中，所述以所述可交互的电网故障仿真模型为交互对象、基于DQN的深度强化算法对初始DQN智能体进行训练，得到已训练的DRL智能体包括：

获取电网的状态信息；

根据所述状态信息对所述初始DQN智能体进行决策，得到动作数据，所述动作数据用于指示故障分类；

调用所述可交互的电网故障仿真模型执行所述动作数据对应的动作，以进行单步仿真模拟，获取新的状态信息、以及奖励；

缓存所述状态信息、所述新的状态信息、所述动作数据以及所述奖励，生成动作经验数据；

判断所述新的状态信息相较于所述状态信息是否有更新；

若是，则将所述新的状态信息重新作为状态信息、并返回所述调用所述可交互的电网故障仿真模型执行所述动作数据对应的动作，以进行单步仿真模拟，获取新的状态信息、以及奖励的步骤；

若否，则根据已生成的所述动作经验数据对所述初始DQN智能体进行训练，得到已训练的DRL智能体。

在其中一个实施例中，所述根据已生成的所述动作经验数据对所述初始DQN智能体进行训练，得到已训练的DRL智能体包括：

根据已生成的所述动作经验数据对所述初始DQN智能体进行训练；

计算进行训练的已生成动作经验数据的平均奖励；

根据所述平均奖励判断是否达到预设训练结束条件；

若是，则结束对所述初始DQN智能体的训练，得到已训练的DRL智能体；

若否，则返回所述获取电网的状态信息的步骤。

根据已生成的所述动作经验数据对所述初始DQN智能体进行训练，并计数训练回合次数；

当所述训练回合次数达到预设次数阈值时，停止训练、得到已训练的DRL智能体。

在其中一个实施例中，根据已生成的所述动作经验数据对所述初始DQN智能体进行训练，得到已训练的DRL智能体包括：

采取定期随机抽样最小批次方式抽取已生成的动作经验数据；

根据抽取的动作经验数据对所述初始DQN智能体进行训练，得到已训练的DRL智能体。

第二方面，本申请还提供了一种电网故障类型识别智能体构建装置，所述装置包括：

仿真模型获取模块，用于获取电网故障仿真模型；

模型转化模块，用于将所述电网故障仿真模型的仿真过程转化为马尔科夫决策过程，生成可交互的电网故障仿真模型；

初始DQN智能体获取模块，用于获取预设初始DQN智能体；

训练模块，用于以所述可交互的电网故障仿真模型为交互对象、基于DQN的深度强化算法对所处初始DQN智能体进行训练，得到已训练的DRL智能体。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取电网故障仿真模型；

获取预设初始DQN智能体；

以所述可交互的电网故障仿真模型为交互对象、基于DQN的深度强化算法对所处初始DQN智能体进行训练，得到已训练的DRL智能体。

第四方面，本申请还提供了一种计算机存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取电网故障仿真模型；

获取预设初始DQN智能体；

第五方面，本申请还提供了一种电网故障类型识别方法。所述方法包括：

获取电网故障录波波形；

根据所述电网故障录波波形以及已训练的DRL智能体，识别电网故障类型，所述已训练的DRL智能体采用上述的电网故障类型识别智能体构建方法构建。

第六方面，本申请还提供了一种电网故障类型识别装置。所述装置包括：

故障录波波形获取模块，用于获取电网故障录波波形；

故障类型识别模块，用于根据所述电网故障录波波形以及已训练的DRL智能体，识别电网故障类型，所述已训练的DRL智能体采用上述的电网故障类型识别智能体构建方法构建。

第七方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取电网故障录波波形；

第八方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取电网故障录波波形；

根据所述电网故障录波波形以及已训练的DRL智能体，识别电网故障类型，所述已训练的DRL智能体采用如上述的电网故障类型识别智能体构建方法构建。

本申请电网故障类型识别智能体构建方法、装置、计算机设备以及存储介质，获取电网故障仿真模型；将所述电网故障仿真模型的仿真过程转化为马尔科夫决策过程，生成可交互的电网故障仿真模型；获取预设初始DQN智能体；以所述可交互的电网故障仿真模型为交互对象、基于DQN的深度强化算法对所处初始DQN智能体进行训练，得到已训练的DRL智能体。整个过程中，对电网故障仿真模型进行马尔科夫决策过程转化过程，以可交互的电网故障仿真模型作为训练环境，采用DQN的深度强化算法对初始DQN智能体进行与训练环境的交互训练，使得初始DQN智能体能够自我学习与优化，因此，最终已训练的DRL智能体可以支持电网故障类型的准确识别。

另外，本申请还提供一种电网故障类型识别方法、装置、计算机设备以及存储介质，获取电网故障录波波形；根据所述电网故障录波波形以及已训练的DRL智能体，识别电网故障类型，所述已训练的DRL智能体采用如上述的电网故障类型识别智能体构建方法构建。整个过程中，由于已训练的DRL智能体能够自我学习与优化，因此可以基于电网故障录波波形以及已训练的DRL智能体进行准确的故障类型识别。

附图说明

图1为一个实施例中电网故障类型识别方法的应用环境图；

图2为一个实施例中电网故障类型识别智能体构建方法的流程示意图；

图3为另一个实施例中电网故障类型识别智能体构建方法的流程示意图；

图4为一个实施例中S180的子流程示意图；

图5为具体应用实例中智能体训练过程示意图；

图6为一个实施例中电网故障类型识别方法的流程示意图；

图7为具体应用实例中电网故障类型识别方法的交互场景示意图；

图8为一个实施例中电网故障类型识别智能体构建装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的电网故障类型识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102上传电网故障类型识别请求至服务器104，服务器104响应该电网故障类型识别请求，服务器104按照电网故障类型识别智能体构建阶段以及电网故障类型识别阶段两个阶段来执行操作。在电网故障类型识别智能体构建阶段，服务器104获取电网故障仿真模型；将电网故障仿真模型的仿真过程转化为马尔科夫决策过程，生成可交互的电网故障仿真模型；获取预设初始DQN智能体；以可交互的电网故障仿真模型为交互对象、基于DQN的深度强化算法对所处初始DQN智能体进行训练，得到已训练的DRL智能体；在电网故障类型识别阶段，服务器104获取电网故障录波波形；根据电网故障录波波形以及已训练的DRL智能体，识别电网故障类型。进一步的，服务器104还可以将识别出的当前电网故障类型反馈至终端102。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种电网故障类型识别智能体构建方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

S120：获取电网故障仿真模型。

电网故障仿真模型是用于仿真电网在实际运行中发生故障的模型。电网故障仿真模型具体是包含电网正常运行下的正常参数以及发生故障时的故障参数。具体可以通过模型构建工具构建得到电网故障仿真模型。模型构建工具包括MATLAB或SIMULINK等。

S140：将电网故障仿真模型的仿真过程转化为马尔科夫决策过程，生成可交互的电网故障仿真模型。

直接构建的电网故障仿真模型是不支持交互，其无法作为后续智能体交互环境的。在这里，将电网故障仿真模型的仿真过程转化为马尔科夫决策过程，生成可交互的电网故障仿真模型。具体来说，马尔科夫决策过程是指决策者周期地或连续地观察具有马尔可夫性的随机动态系统，序贯地作出决策。即根据每个时刻观察到的状态，从可用的行动集合中选用一个行动作出决策，系统下一步(未来)的状态是随机的，并且其状态转移概率具有马尔可夫性。决策者根据新观察到的状态，再作新的决策，依此反复地进行。在后续训练过程中通过初始DQN智能体与可交互的电网故障仿真模型进行多次迭代交互，实现智能体的自我学习与优化。

S160：获取预设初始DQN智能体。

智能体是强化学习系统中的决策者和学习者，它可以做出决策，接受奖励信号；环境是系统中除智能体以外的所有事物，是智能体交互的对象。强化学习中的智能体以积累最大的奖励为目标，通过和环境之间交互进行学习。在这里，先获取未训练的预设初始DQN智能体。

S180：以可交互的电网故障仿真模型为交互对象、基于DQN的深度强化算法对所处初始DQN智能体进行训练，得到已训练的DRL智能体。

可交互的电网故障仿真模型作为智能体的交互对象，即以可交互的电网故障仿真模型作为交互环境，基于DQN的深度强化算法对所处初始DQN智能体进行训练，智能体通过不断与环境进行交互学习，完成最终训练，得到已训练的DRL智能体。具体来说，这里交互过程具体包括将电网状态信息发送至智能体，由智能体根据电网状态信息进行决策，生成动作数据，该动作数据发送至可交互的电网故障仿真模型，由可交互的电网故障仿真模型执行该动作，计算奖励，再生成新的电网状态信息以及奖励反馈至智能体，重复该交互过程，智能体以该训练过程中相关的电网状态信息、动作数据以及奖励等数据作为训练数据，基于DQN的深度强化算法进行训练，直至达到预设的训练结束条件，得到已训练的DRL智能体。

本申请电网故障类型识别智能体构建方法，获取电网故障仿真模型；将电网故障仿真模型的仿真过程转化为马尔科夫决策过程，生成可交互的电网故障仿真模型；获取预设初始DQN智能体；以可交互的电网故障仿真模型为交互对象、基于DQN的深度强化算法对所处初始DQN智能体进行训练，得到已训练的DRL智能体。整个过程中，对电网故障仿真模型进行马尔科夫决策过程转化过程，以可交互的电网故障仿真模型作为训练环境，采用DQN的深度强化算法对初始DQN智能体进行与训练环境的交互训练，使得初始DQN智能体能够自我学习与优化，因此，最终已训练的DRL智能体可以支持电网故障类型的准确识别。

如图3所示，在其中一个实施例中，S120包括：

S122：获取电网故障仿真的目标函数、控制变量以及约束条件。

目标函数

电网故障仿真模型得优化目标是满足节点电压和各调节设备的实际运行约束下，通过优化各故障参数的状态，最小化仿真波形与实际录波波形的偏差度，以确保故障分类的顺利进行。因此，电网故障仿真模型的目标函数如下：

式中，为故障录波波形，为仿真模型输出实际录波波形。

控制变量

电网故障仿真模型主要通过模型中的故障参数，达到降低波形偏差度的目的，优化控制变量X由m类故障组成的电网故障模型故障参数组成，如式(2)所示：

式中，是一个m+1维向量：，代表无故障发生的情况，到表示故障类型从1到m。

约束条件具体包括电网潮流约束以及状态变量约束，其中电网潮流约束表达式如下：

式中，是第i个节点的注入有功功率；是第i个节点的注入无功功率。

其中，状态变量约束是指在故障分类识别仿真的过程中还需要满足节点电压安全约束：

式中，和分别为节点i的电压下上限。

S124：基于目标函数、控制变量以及约束条件，采用模型仿真工具，生成电网故障仿真模型。

基于S122确定的目标函数、控制变量以及约束条件，采用模型仿真工具来生成电网故障仿真模型。模型仿真工具具体包括MATLAB/SIMULINK等。

如图3所示，在其中一个实施例中，S140包括：

S142：获取电网故障仿真模型的状态信息与控制变量。

为了使用强化学习方法解决合环电流调控问题，首先需要对问题进行马尔科夫决策过程建模。电网故障分类仿真模型是环境，调度中心是决策主体，其余状态、动作和奖励。电网故障仿真模型的状态信息包括：节点注入功率信息、电压信息、电流信息、相角信息、各线路两端断路器的投切信息、负荷功率信息及故障录波波形信息等，这些信息反映了整个电网系统的当前状态。因此，电网故障分类仿真模型第i个决策时刻的状态可表示为式(5)：

电网故障仿真模型的控制变量为故障参数的大小。通过改变不同的故障参数，电网仿真环境会调整仿真模式到相应的状态，并产生不同的波形输出。

S144：根据状态信息以及控制变量，获取电网的故障仿真录波波形与故障录波形的波形偏差。

在获取的状态信息基础上调整控制变量电网故障仿真模型会执行相应的动作，生成新的故障仿真录波波形，在不同的控制变量条件，电网故障仿真模型会生成不同的故障仿真录波波形，将故障仿真录波波形与真实的故障录波波形进行比较，得到电网的故障仿真录波波形与故障录波波形的波形偏差。

S146：根据波形偏差，确定电网故障分类问题的奖励函数。

奖励r是强化学习学习解决问题方案的关键，根据不同任务的目标函数，设置不同的奖励函数，可以实现对不同目标的优化。电网故障分类问题的奖励函数，考虑到故障仿真录波波形与故障录波波形偏差度最小的目标以及约束条件，可定义为：

式中，为sigmoid函数，为使用固定窗口大小计算得来的奖励评价指标，的定义为：

为现场真实故障录波波形，为仿真输出的故障仿真录波波形，为录波波形个数，为滑动窗口的大小。由式(7)得，当系统输出波形相似度偏离较大时，奖励为负值，即应避免做出此类决策；当系统满足约束且相似度偏离较小时，奖励与波形偏差程度负相关，波形偏差程度越小奖励函数值越大。

S148：基于状态信息、控制变量以及奖励函数，生成可交互的电网故障仿真模型。

在明确了状态信息、控制变量以及奖励函数之后，即完成对电网故障仿真模型的转化，转化后的电网故障仿真模型可以作为交互对象，即成为后续智能体的在训练过程的交互对象，不断与智能体进行交互产生训练数据，最终这些训练数据将完成对智能体的训练。

具体来说，深度Q网络算法是强化学习中一种基于Q-learning价值网络框架的算法，它能有效的解决多维状态输入的问题。DQN算法中包含价值网络，价值网络采用主网络和目标网络2个神经网络以不同速率更新其策略以提高训练效果。主价值网络和目标价值网络的参数分别为：、。

对于主价值网络，通过最小化损失函数来对参数进行优化：

式中，N为采样集的大小；为主价值网络的学习率；为主价值网络输出的动作价值；为目标动作价值，表示为：

目标价值目标网络参数采用软更新的方法，使其能够平滑的更新，相对稳定地提供标签，减少模型输出的方差，进一步提升训练的稳定性。

式中，为软更新的系数，其值通常较小。

DQN算法具有以下特点：1）DQN算法可以有效处理复杂、大量的离散状态变量，可以适用于拥有多维状态变量的电网故障分类识别场景。2）DQN算法采用了经验回放方法，建立了样本经验池来储存历史数据，其有效地利用了历史数据，并且通过训练时的随机采样打破了数据之间的关联性。

如图4所示，在其中一个实施例中，S180包括：

S181：获取电网的状态信息。

获取在真实场景下中电网的状态信息。具体来说，可以获取电网中短路的节点电压电流、开关状态、故障录波波形等信息，将这些信息作为电网的状态信息，得到初始状态s。

S182：根据状态信息对初始DQN智能体进行决策，得到动作数据，动作数据用于指示故障分类。

针对S181获取的状态信息对初始DQN智能体进行决策，给出动作a用以指示故障分类。

S183：调用可交互的电网故障仿真模型执行动作数据对应的动作，以进行单步仿真模拟，获取新的状态信息、以及奖励。

调用可交互的电网故障仿真模型执行动作a，以进行单步仿真模拟，计算奖励r，并且在执行动作之后进入新的状态s’。

S184：缓存状态信息、新的状态信息、动作数据以及奖励，生成动作经验数据。

缓存上述在单次交互过程中对应的状态信息s、新的状态信息s’、动作a以及奖励r，将这些数据作为动作经验数据（s，a，r，s’）。

S185：判断新的状态信息相较于状态信息是否有更新。

判断新的状态s’相较于初始状态s是否有更新，即判断在执行动作a之后，新的状态s’是否有变化，若未发生变化，则表明当前新的状态s’为最终状态。若发生变化，则表明当前新的状态s’不为最终状态。

S186：若是，则将新的状态信息重新作为状态信息、并返回S183。

若在执行动作a之后，新的状态s’相较于初始状态s有更新，则判定状态有更新，此时将新的状态信息重新作为状态信息，即将本轮新的状态s’重新作为初始状态s，返回调用可交互的电网故障仿真模型执行动作数据对应的动作，以进行单步仿真模拟，获取新的状态信息、以及奖励的步骤开始新一轮的交互处理。

S187：若否，则根据已生成的动作经验数据对初始DQN智能体进行训练，得到已训练的DRL智能体。

若在执行动作a之后，新的状态s’相较于本轮交互对应的初始状态s没有更新，则表明本轮交互之后，得到的新的状态s’为最终状态，此时针对每轮交互生成的动作经验数据（s，a，r，s’）对初始DQN智能体进行训练，得到已训练的DRL智能体。

在其中一个实施例中，根据已生成的动作经验数据对初始DQN智能体进行训练，得到已训练的DRL智能体包括：

根据已生成的动作经验数据对初始DQN智能体进行训练；计算进行训练的已生成动作经验数据的平均奖励；根据平均奖励判断是否达到预设训练结束条件；若是，则结束对初始DQN智能体的训练，得到已训练的DRL智能体；若否，则返回获取电网的状态信息的步骤。

在本实施例中，以训练过程中动作经验数据的平均奖励作为训练结束的判定条件，当平均奖励达到预设训练结束条件时，则结束对初始DQN智能体的训练，得到已训练的DRL智能体；当平均奖励未达到预设训练结束条件时，则表明还需要重新获取新的电网的状态信息，重新产生新的动作经验数据，即此时返回获取电网的状态信息的步骤。

根据已生成的动作经验数据对初始DQN智能体进行训练，并计数训练回合次数；当训练回合次数达到预设次数阈值时，停止训练、得到已训练的DRL智能体。

在本实施例中，采用训练回合次数作为训练结束的判定条件，当训练回合次数达到预设次数阈值时，即表明已经训练了足够次数，此时停止训练，得到已训练的DRL智能体。具体来说，预设次数阈值是预先设定的阈值，其可以根据实际数据训练精度、全面性的需求而设定。

采取定期随机抽样最小批次方式抽取已生成的动作经验数据；根据抽取的动作经验数据对初始DQN智能体进行训练，得到已训练的DRL智能体。

在本实施例中，采取定期随机抽样最小批次方式来抽取已生成的动作经验数据，以随机抽样得到的动作经验数据来对初始DQN智能体进行训练，确保数据的随机性，可以提升后续智能体训练的全面性和准确度。

为详细说明本申请电网故障类型识别智能体构建方法中对智能体进行训练的过程，下面将采用具体实例，并且结合图5详细说明。在具体应用实例中，整个智能体训练的过程包括以下步骤：

1、获取电网的故障录波波形、电压电流、开关等初始状态状态s；

2、智能体依据初始状态s进行决策，给出动作a；

3、电网故障仿真模型执行动作a，进行单步仿真模拟，获取新的状态s’和奖励r；

4、存储在上述仿真动作过程对应的动作经验（s，a，r，s’），判断新的状态s’是否为最终状态，以判断本回合是否终止，若是，则进入步骤6；若否，则进入步骤5；

5、将新的状态s’重新作为初始状态s，返回步骤2；

6、针对多个回合缓存的动作经验（s，a，r，s’）进行随机抽样，以随机抽样的数据对智能体进行训练；

7、重新进行N回合试验之后，计算平均奖励，若平均奖励满足条件或训练回合数达到初始设定值，则判定训练结束，得到已训练的DRL智能体。否则，回到步骤1。

另外，本申请还提供一种电网故障类型识别方法，如图6所示，该方法包括：

S620：获取电网故障录波波形；

S640：根据电网故障录波波形以及已训练的DRL智能体，识别电网故障类型，已训练的DRL智能体采用上述的电网故障类型识别智能体构建方法构建。

在本实施例中，采用上述电网故障类型识别智能体构建的智能体来对电网故障录波进行故障类型识别，其可以得到准确的电网故障类型识别结果。

本申请还提供一种电网故障类型识别方法，获取电网故障录波波形；根据电网故障录波波形以及已训练的DRL智能体，识别电网故障类型，已训练的DRL智能体采用如上述的电网故障类型识别智能体构建方法构建。整个过程中，由于已训练的DRL智能体能够自我学习与优化，因此可以基于电网故障录波波形以及已训练的DRL智能体进行准确的故障类型识别。

进一步的，在实际应用中，如图7所示，电网调度中心加载有上述已训练的DRL智能体，其可以与转化的电网故障仿真模型进行交互，在实际生产场景中，整个电网故障类型识别流程如下：

1、调度中心收到故障录波波形，拥有判断故障类型需求，并向电网故障仿真模型发送断面状态数据，发出判断故障类型请求；

2、调度中心获取电网故障仿真模型中模拟的当前运行状态；

3、调度中心内的电网故障分类智能体根据电网故障仿真模型当前状态进行决策，得到推荐动作，该动作为故障参数，指示了故障类别，并下发动作指令；

4、电网故障仿真模型按指令动作调整故障仿真模型故障参数后，进行下一步的仿真模拟操作，进入新的状态。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的电网故障类型识别智能体构建方法的电网故障类型识别智能体构建装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个电网故障类型识别智能体构建装置实施例中的具体限定可以参见上文中对于电网故障类型识别智能体构建方法的限定，在此不再赘述。

如图8所示，本申请还提供了一种电网故障类型识别智能体构建装置，装置包括：

仿真模型获取模块820，用于获取电网故障仿真模型；

模型转化模块840，用于将电网故障仿真模型的仿真过程转化为马尔科夫决策过程，生成可交互的电网故障仿真模型；

初始DQN智能体获取模块860，用于获取预设初始DQN智能体；

训练模块880，用于以可交互的电网故障仿真模型为交互对象、基于DQN的深度强化算法对所处初始DQN智能体进行训练，得到已训练的DRL智能体。

本申请电网故障类型识别智能体构建装置，获取电网故障仿真模型；将电网故障仿真模型的仿真过程转化为马尔科夫决策过程，生成可交互的电网故障仿真模型；获取预设初始DQN智能体；以可交互的电网故障仿真模型为交互对象、基于DQN的深度强化算法对所处初始DQN智能体进行训练，得到已训练的DRL智能体。整个过程中，对电网故障仿真模型进行马尔科夫决策过程转化过程，以可交互的电网故障仿真模型作为训练环境，采用DQN的深度强化算法对初始DQN智能体进行与训练环境的交互训练，使得初始DQN智能体能够自我学习与优化，因此，最终已训练的DRL智能体可以支持电网故障类型的准确识别。

在其中一个实施例中，仿真模型获取模块820还用于获取电网故障仿真的目标函数、控制变量以及约束条件；基于目标函数、控制变量以及约束条件，采用模型仿真工具，生成电网故障仿真模型。

在其中一个实施例中，模型转化模块840还用于获取电网故障仿真模型的状态信息与控制变量；根据状态信息以及控制变量，获取电网的故障仿真录波波形与故障录波形的波形偏差；根据波形偏差，确定电网故障分类问题的奖励函数；基于状态信息、控制变量以及奖励函数，生成可交互的电网故障仿真模型。

在其中一个实施例中，训练模块880还用于获取电网的状态信息；根据状态信息对初始DQN智能体进行决策，得到动作数据，动作数据用于指示故障分类；调用可交互的电网故障仿真模型执行动作数据对应的动作，以进行单步仿真模拟，获取新的状态信息、以及奖励；缓存状态信息、新的状态信息、动作数据以及奖励，生成动作经验数据；判断新的状态信息相较于状态信息是否有更新；若是，则将新的状态信息重新作为状态信息、并返回调用可交互的电网故障仿真模型执行动作数据对应的动作，以进行单步仿真模拟，获取新的状态信息、以及奖励的步骤；若否，则根据已生成的动作经验数据对初始DQN智能体进行训练，得到已训练的DRL智能体。

在其中一个实施例中，训练模块880还用于根据已生成的动作经验数据对初始DQN智能体进行训练；计算进行训练的已生成动作经验数据的平均奖励；根据平均奖励判断是否达到预设训练结束条件；若是，则结束对初始DQN智能体的训练，得到已训练的DRL智能体；若否，则返回获取电网的状态信息的步骤。

在其中一个实施例中，训练模块880还用于根据已生成的动作经验数据对初始DQN智能体进行训练，并计数训练回合次数；当训练回合次数达到预设次数阈值时，停止训练、得到已训练的DRL智能体。

在其中一个实施例中，训练模块880还用于采取定期随机抽样最小批次方式抽取已生成的动作经验数据；根据抽取的动作经验数据对初始DQN智能体进行训练，得到已训练的DRL智能体。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的电网故障类型识别方法的电网故障类型识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个电网故障类型识别装置实施例中的具体限定可以参见上文中对于电网故障类型识别方法的限定，在此不再赘述。

本申请还提供了一种电网故障类型识别装置。装置包括：

故障录波波形获取模块，用于获取电网故障录波波形；

故障类型识别模块，用于根据电网故障录波波形以及已训练的DRL智能体，识别电网故障类型，已训练的DRL智能体采用上述的电网故障类型识别智能体构建方法构建。

上述电网故障类型识别智能体构建装置/电网故障类型识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储电网历史状态数据以及仿真模型工具等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种电网故障类型识别智能体构建方法/电网故障类型识别方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取电网故障仿真模型；

将电网故障仿真模型的仿真过程转化为马尔科夫决策过程，生成可交互的电网故障仿真模型；

获取预设初始DQN智能体；

以可交互的电网故障仿真模型为交互对象、基于DQN的深度强化算法对所处初始DQN智能体进行训练，得到已训练的DRL智能体。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取电网故障仿真的目标函数、控制变量以及约束条件；基于目标函数、控制变量以及约束条件，采用模型仿真工具，生成电网故障仿真模型。

获取电网故障仿真模型的状态信息与控制变量；根据状态信息以及控制变量，获取电网的故障仿真录波波形与故障录波形的波形偏差；根据波形偏差，确定电网故障分类问题的奖励函数；基于状态信息、控制变量以及奖励函数，生成可交互的电网故障仿真模型。

获取电网的状态信息；根据状态信息对初始DQN智能体进行决策，得到动作数据，动作数据用于指示故障分类；调用可交互的电网故障仿真模型执行动作数据对应的动作，以进行单步仿真模拟，获取新的状态信息、以及奖励；缓存状态信息、新的状态信息、动作数据以及奖励，生成动作经验数据；判断新的状态信息相较于状态信息是否有更新；若是，则将新的状态信息重新作为状态信息、并返回调用可交互的电网故障仿真模型执行动作数据对应的动作，以进行单步仿真模拟，获取新的状态信息、以及奖励的步骤；若否，则根据已生成的动作经验数据对初始DQN智能体进行训练，得到已训练的DRL智能体。

获取电网故障录波波形；

根据电网故障录波波形以及已训练的DRL智能体，识别电网故障类型，已训练的DRL智能体采用上述的电网故障类型识别智能体构建方法构建。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取电网故障仿真模型；

获取预设初始DQN智能体；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取电网故障录波波形；

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取电网故障仿真模型；

获取预设初始DQN智能体；

获取电网故障录波波形；

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种电网故障类型识别智能体构建方法，其特征在于，所述方法包括：

获取电网故障仿真模型；

获取预设初始DQN智能体；

以所述可交互的电网故障仿真模型为交互对象、基于DQN的深度强化算法对所处初始DQN智能体进行训练，得到已训练的DRL智能体；

所述以所述可交互的电网故障仿真模型为交互对象、基于DQN的深度强化算法对初始DQN智能体进行训练，得到已训练的DRL智能体包括：获取电网的状态信息；根据所述状态信息对所述初始DQN智能体进行决策，得到动作数据，所述动作数据用于指示故障分类；调用所述可交互的电网故障仿真模型执行所述动作数据对应的动作，以进行单步仿真模拟，获取新的状态信息、以及奖励；缓存所述状态信息、所述新的状态信息、所述动作数据以及所述奖励，生成动作经验数据；判断所述新的状态信息相较于所述状态信息是否有更新；若是，则将所述新的状态信息重新作为状态信息、并返回所述调用所述可交互的电网故障仿真模型执行所述动作数据对应的动作，以进行单步仿真模拟，获取新的状态信息、以及奖励的步骤；若否，则根据已生成的所述动作经验数据对所述初始DQN智能体进行训练，得到已训练的DRL智能体。

2.根据权利要求1所述的方法，其特征在于，所述获取电网故障仿真模型包括：

获取电网故障仿真的目标函数、控制变量以及约束条件；

3.根据权利要求1所述的方法，其特征在于，所述将所述电网故障仿真模型的仿真过程转化为马尔科夫决策过程，生成可交互的电网故障仿真模型包括：

获取电网故障仿真模型的状态信息与控制变量；

根据所述波形偏差，确定电网故障分类问题的奖励函数；

4.根据权利要求1所述的方法，其特征在于，所述根据已生成的所述动作经验数据对所述初始DQN智能体进行训练，得到已训练的DRL智能体包括：

计算进行训练的已生成动作经验数据的平均奖励；

根据所述平均奖励判断是否达到预设训练结束条件；

若否，则返回所述获取电网的状态信息的步骤。

5.根据权利要求1所述的方法，其特征在于，所述根据已生成的所述动作经验数据对所述初始DQN智能体进行训练，得到已训练的DRL智能体包括：

6.根据权利要求1或4或5所述的方法，其特征在于，根据已生成的所述动作经验数据对所述初始DQN智能体进行训练，得到已训练的DRL智能体包括：

7.一种电网故障类型识别方法，其特征在于，所述方法包括：

获取电网故障录波波形；

根据所述电网故障录波波形以及已训练的DRL智能体，识别电网故障类型，所述已训练的DRL智能体采用如权利要求1-6任意一项所述的电网故障类型识别智能体构建方法构建。

8.一种电网故障类型识别智能体构建装置，其特征在于，所述装置包括：

仿真模型获取模块，用于获取电网故障仿真模型；

初始DQN智能体获取模块，用于获取预设初始DQN智能体；

训练模块，用于以所述可交互的电网故障仿真模型为交互对象、基于DQN的深度强化算法对所处初始DQN智能体进行训练，得到已训练的DRL智能体；

所述训练模块还用于获取电网的状态信息；根据所述状态信息对所述初始DQN智能体进行决策，得到动作数据，所述动作数据用于指示故障分类；调用所述可交互的电网故障仿真模型执行所述动作数据对应的动作，以进行单步仿真模拟，获取新的状态信息、以及奖励；缓存所述状态信息、所述新的状态信息、所述动作数据以及所述奖励，生成动作经验数据；判断所述新的状态信息相较于所述状态信息是否有更新；若是，则将所述新的状态信息重新作为状态信息、并返回所述调用所述可交互的电网故障仿真模型执行所述动作数据对应的动作，以进行单步仿真模拟，获取新的状态信息、以及奖励的步骤；若否，则根据已生成的所述动作经验数据对所述初始DQN智能体进行训练，得到已训练的DRL智能体。

9.根据权利要求8所述的装置，其特征在于，所述仿真模型获取模块还用于获取电网故障仿真的目标函数、控制变量以及约束条件；基于目标函数、控制变量以及约束条件，采用模型仿真工具，生成电网故障仿真模型。

10.一种电网故障类型识别装置，其特征在于，所述装置包括：

故障录波波形获取模块，用于获取电网故障录波波形；

故障类型识别模块，用于根据所述电网故障录波波形以及已训练的DRL智能体，识别电网故障类型，所述已训练的DRL智能体采用如权利要求1-6任意一项所述的电网故障类型识别智能体构建方法构建。