CN113947320B

CN113947320B - 一种基于多模态强化学习的电网调控方法

Info

Publication number: CN113947320B
Application number: CN202111238427.1A
Authority: CN
Inventors: 黄志刚; 王健; 李振斌; 尚学军; 于光耀; 郭凌旭; 米为民; 龚成虎; 李丛林; 刘颂; 宋永贞; 商敬安; 刘放; 马世乾; 单连飞; 张伟; 林凡
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2024-05-28
Anticipated expiration: 2041-10-25
Also published as: CN113947320A

Abstract

本发明涉及一种基于多模态强化学习的电网调控方法，包括以下步骤：步骤1、输入电网的数据集；步骤2、构建出包含数据集中电网设备节点状态和故障处置的知识图谱；步骤3、获得能对当前设备节点多模态状态和故障处置动作进行的Embedding的多模态信息融合模块；步骤4、选取步骤2中构建的知识图谱，根据当前状态到目标状态的情况定义出多跳评分函数，用于评估两个状态之间的相关性；步骤5、构建故障处置的元路径；步骤6、产生强化学习的奖励函数；步骤7、定义强化学习的马尔可夫过程生成基于policy‑based的强化学习框架；步骤8、训练产生基于多模态强化学习获得的电网调控策略。本发明可解释性强且预测准确性高。

Description

一种基于多模态强化学习的电网调控方法

技术领域

本发明属于电网调控技术领域，涉及电网调控方法，尤其是一种基于多模态强化学习的电网调控方法。

背景技术

随着电网规模的不断扩大，运行方式灵活多变，电网调控业务越来越复杂，调控人员工作强度也越来越大，这对调控业务的自动化和智能化提出了更高的要求。现存的基于深度学习等技术的电网调控应用由于现有的调控决策样本难以覆盖所有的电网复杂运行情况导致训练的模型预测成功率低下，同时现有的模型可解释性差。

因此如何提出一种电网调控方法，实现更好的优化、预测、分类任务的表现，提高模型的可解释性和预测的准确性是本领域技术人员亟待解决的技术难题。

经检索，未发现与本发明相同或相似的现有技术的公开文献。

发明内容

本发明的目的在于克服现有技术的不足，提出一种设计合理、可解释性强且预测准确性高的基于多模态强化学习的电网调控方法。

本发明解决其现实问题是采取以下技术方案实现的：

一种基于多模态强化学习的电网调控方法，包括以下步骤：

步骤1、输入电网的数据集，该电网数据集包括电网中设备节点信息，故障处置动作集以及监控设备对电网设备的拍照照片；

步骤2、利用故障处置的先验知识结合电网数据集中的电网设备实体状态和相应的执行动作构建出包含数据集中电网设备节点状态和故障处置的知识图谱；

步骤3、利用步骤2中构建的知识图谱以及电网数据集中各个设备实体状态转换的关系对步骤1中的电网数据集中设备节点，设备节点对应的电网设备的拍照照片和故障处置动作进行图表示学习，其中节点设备状态由设备节点和设备节点对应的电网设备的拍照照片进行多模态信息融合得到，多模态数据结合变分自编码模型进行对抗训练，最终获得能对当前设备节点多模态状态和故障处置动作进行的Embedding的多模态信息融合模块；

步骤4、选取步骤2中构建的知识图谱，根据当前状态到目标状态的情况定义出多跳评分函数，用于评估两个状态之间的相关性，评分由设备节点状态的Embedding作为评分函数的输入计算得到；

步骤5、定义完成多跳评分函数后，利用人工专家的先验知识构建故障处置的元路径；

步骤6、将步骤5中得到的故障处置的元路径作为强化学习决策过程中的先验指导，生成故障处置动作选择约束，产生源状态到目标状态的路径，使用评分函数来计算路径中节点多跳的得分评估，产生强化学习的奖励函数；

步骤7、在多跳评分函数产生奖励的基础上，定义强化学习的马尔可夫过程生成基于policy-based的强化学习框架；

步骤8、首先依据步骤3中产生的多模态信息融合模块将电力设备节点的多模态信息进行融合表示，得到电力设备节点状态的Embedding和故障处置动作的Embedding集；其次定义基于注意力机制的剪枝模块，将故障处置动作的Embedding与对应电网设备节点的状态Embedding进行相关性计算，依据相关性大小进行剪枝，然后将得到的电网设备节点的状态Embedding和剪枝后的故障处置动作的Embedding作为步骤7中得到的policy-based强化学习的输入，最终训练产生基于多模态强化学习获得的电网调控策略。

而且，所述步骤2的具体步骤包括：

(1)获得每个电网设备节点初始状态下的故障处理记录；

(2)将每个电网设备节点的状态作为知识图谱中的一个实体节点，将针对每个电网设备节点状态做出的故障处置动作作为实体节点间的关联边；

(3)对整个电网数据集中的电网设备节点状态依据故障处置动作对应的边进行关联，最终构成一张包含数据集中电网设备节点状态和故障处置的知识图谱。

而且，所述步骤3的具体步骤包括：

(1)根据电网设备节点状态，定义出每个电网设备节点状态所对应的实体类，实体类的个数定义为n；同时定义强化学习中每个状态输入的维度大小为embed_size。

(2)根据每个实体类中包含的对应电网设备节点状态个数m，来对实体类进行表示学习初始化，初始化向量的维度即为m*embed_size；

(3)根据电网数据集中的设备节点信息，对其进行初始化，初始化向量的维度即为embed_size；

(4)根据电网数据集中的监控设备对电网设备的拍照照片信息，对其进行初始化，初始化向量的维度即为embed_size；

(5)根据初始化好的设备节点信息和监控设备对电网设备的拍照照片信息，使用变分自编码方法生成一个embed_size大小的向量，该向量与电网设备节点状态的初始化向量做对抗训练；

(6)定义故障处置动作的初始化向量维度为1*embed_size；

(7)依据相关状态下故障处理数据集，从中获取对应的记录，该记录中包含n个实体类对应的实例记录，作为一个n元组。基于n元组，从中生成对应存在关系的(状态i，故障处置r，状态j)的三元组，这类三元组的个数记作k，将这k个三元组作为成熟的图表示学习算法transH的输入，共同进行损失训练，获得能对当前设备节点多模态状态和故障处置动作进行的Embedding的多模态信息融合模块。

而且，所述步骤4的具体步骤包括：

(1)首先本文定义多跳路径中的实体，路径的首位实体定义为e₀,结尾实体定义为e_t,基于知识图谱，如果e₀和e_t中间存在一系列的实体诸如{e₀,e₁,…,e_t-1},和它们之间的t个关系即即{r₁,r₂,…,r_t},那么我们就可以基于知识图谱定义出一个确定的有效多跳路径/>

(2)完成了多跳路径的定义之后，需要定义出多跳路径的评分函数，针对多跳路径中的两个实体和，评分函数可定义为：

其中j表示多跳路径中任意一个实体节点的下标，是这里设置的偏置值。当t＝0且j＝0的时候，该评分函数表示的两个实体向量之间的相似度，即：

当t＝1且j＝1的时候，该评分函数表示的是头实体加关系后和尾实体之间的相似度，即：

基于以上，完成基于知识图谱的多跳评分函数的定义，用于评估两个状态之间的相关性。

而且，所述步骤5的具体步骤包括：

利用相关领域的人工专家先验知识定义多条元路径，具体方法可为：

(1)依据知识图谱中包含的电网设备节点状态类型和故障处置类型生成一系列的三元组。

(2)依据人工专家的先验知识，对这些存在关系的三元组进行关联，最终制定出多条具有先验指导意义的元路径，可以有效地指导强化学习智能体在对应状态下进行故障处置动作选择。

而且，所述步骤6的具体步骤包括：

(1)获取根据专家先验知识定义好的多条元路径；

(2)在强化学习中智能体的路径探索尝试过程中，参照定义好的元路径来指导当前电力设备状态进行动作选择，产生下一时刻状态，以此类推直到状态结束，最终生成从源状态到目标状元的路径

(3)通过定义好的多跳评分函数对源状态和目标状态进行相关性计算，获得强化学习的奖励函数。

而且，所述步骤7的具体步骤包括：

(1)选择policy-based的强化学习模型；

(2)状态定义即在t时刻,状态定义为一个三元组,其中u属于电网设备节点状态类型的实体集U，在这里是指决策过程的起始点，而则表示智能体在t步之后到达的实体，最后的这个表示走到t步之前历史记录。它们组成了当前时刻的状态。

根据以上定义，显然，初始化状态表示为：

终止时刻T的状态可以表示为：

s_T＝(u，e_T，h_T)

(3)动作定义即在某一时刻t的状态下，智能体都会有一个对应的动作空间，该动作空间包含了t时刻下实体的所有出度边的集合，然后实体不包含历史中存在的实体即：

(4)强化学习的软奖励定义：这种软奖励机制的获取依据多跳评分函数，基于此，终止状态获得的奖励定义为:

(5)状态转移概率即在马尔科夫决策过程中，假设已知当前时刻t所处的状态，以及当前状态下,根据路径搜索策略，然后执行动作，智能体将会到达下一个状态。就在执行一个动作后到下一个状态的这个过程中存在一个状态转移概率的定义，这里将状态转移概率定义为：

而初始状态是由最开始电网设备节点状态所决定的；

(6)折扣因子即在马尔科夫决策过程中，智能体为了获得更多的奖励，往往不只会考虑到当前获得的及时奖励，还会参考到未来状态下获得的及时奖励。在给定的一个确定马尔科夫决策过程的周期中，某一时刻t对应状态下的总的奖励可以定义为：

G_t＝R_t+1+γR_t+2+γ²R_t+3+…+γ^T-t-1R_T

即当前的及时奖励和未来的奖励值折扣的叠加，其中T表示的是终止状态；

(7)策略优化即在马尔科夫决策过程中，我们的目标是学习一个优秀的搜索策略，这个搜索策略可以让以任意起始的电网设备节点状态在搜索的周期内都可以获得最大化的累计回报，即公式定义为：

最终生成一个policy-based的强化学习框架。

而且，所述步骤8的具体步骤包括：

(1)首先依据步骤3中产生的多模态信息融合模块将电力设备节点的多模态信息进行融合表示，得到电力设备节点状态的Embedding和故障处置动作的Embedding集；其次我们会定义出一个基于注意力机制的剪枝模块，该模块将故障处置动作的Embedding与对应电网设备节点的状态Embedding进行相关性计算，依据相关性大小进行排序，然后从相关性比较大的一部分动作空间中随机采样出指定数量的动作集合，生成拥有的有效动作构成的掩码动作空间，进而完成动作剪枝；最后我们使用步骤7中定义的policy-based的强化学习框架，主要用来学习到一个路径搜索策略，以计算出当前状态下，在它拥有的有效动作构成的掩码动作空间中，每个动作被选择的一种概率分布即；神经网络的输入为当前节点所拥有的动作空间和此时的状态，输出为动作空间中每个动作的概率分布，然后使用掩码操作删除无效动作，将结果输入到softmax中，生成最终的动作概率分布；其次定义出评论家网络(又名为critic network)，critic network架构主要用来学习到一个用于评估状态的能力，以计算出当前状态下，critic network对它的价值评估；该神经网络的输入为当前节点此时的状态,输出为对该状态的价值评估；

(2)设置训练的迭代次数epochs，从epochs等于1开始训练。

(3)由步骤3的第(5)步中对整体数据集中的多模态数据和动作进行表示学习即Embedding,然后将数据批量分别输入到actor network和critic network中，分别获得动作空间中每个动作的概率分布和对该状态的价值评估。

(4)计算critc预估值和真实的评估价值的损失函数最小化，以及计算当前动作概率与当前动作带来奖励的乘积最大化，同事定义一个保证模型探索与开发均衡的熵，让熵最大化。

(5)在epochs定义的值范围内，重复步骤8的第(3)步至第(4)步中的步骤，最终训练出一个多模态强化学习的网络框架模型，进而产生基于多模态强化学习的电网调控策略。

本发明的优点和有益效果：

1、本发明使用变分自编码的多模态融合技术，其中针对输入数据特征信息不足的问题，本发明中对不同模态的输入数据进行有效融合，然后作为强化学习模型的输入，这在一方面有效地解决了强化学习在生成的预测路径质量存在不足的问题。本发明与以往电网调控方法的不同点即对强化学习框架的输入数据端采用基于变分自编码的多模态融合模块，通过采集不同模态的电网设备节点的状态数据，诸如照片，文本等，然后将这些数据融合起来，实现输入数据的增强，提升下游强化学习模型的训练质量。

2、本发明在actor network之前增加一个动作剪枝模块，该模块与以往的设计不同在于，本发明中使用注意力机制从状态对应的所有候选动作中计算出相关性较高的候选动作，再从相关性较高的空间中随机筛选出指定数量的动作，作为actor network的选择空间，进而训练强化学习的策略模型。本发明与以往基于强化学习的电网调控策略中的剪枝操作不同，本发明中采用的是基于注意力机制的＝算法评估动作与状态的相关性，然后从相关性比较高的动作中随机采样出指定数量的动作空间，作为后期用于强化学习框架中actor network模块进行动作选择的有效动作掩码约束，提高生成用于解释调控过程的可解释性路径以及提升调控的准确性。

3、本发明提出的强化学习本身是一个无监督的试错学习过程，无需对数据集进行标记。从步骤5可以看出，强化学习可以有效地利用调控人员的业务知识和经验生成调控序列的元路径，结合步骤3中生成的知识图谱，最终获得的调控策略便可以生成一条决策路径用于调控的可解释。

4、本发明采用多模态强化学习实现优化调控和调度策略的自学习以及持续自我更新，将融合多模态数据作为强化学习算法的数据输入，实现对电网调控场景下设备的多模态数据进行深入分析并采取更有针对性的调控行为。

附图说明

图1为本发明的基于变分自编码的多模态融合技术对不同模态输入信息进行融合处理流程图；

图2为本发明的基于注意力机制进行动作剪枝的处理流程示意图；

图3为本发明的基于多模态强化学习的策略更新网络框架图。

具体实施方式

以下结合附图对本发明实施例作进一步详述：

一种基于多模态强化学习的电网调控方法，包括以下步骤：

所述步骤2的具体步骤包括：

根据步骤1的电网数据集中包含的电网设备实体状态，对应的故障处置动作以及监控设备对电网设备的拍照照片构建出一张包含数据集中电网设备节点状态和故障处置的知识图谱：

(1)获得每个电网设备节点初始状态下的故障处理记录；

所述步骤3的具体步骤包括：

在步骤3中，所述选取步骤1中的电网设备节点多模态状态和故障处置进行图表示学习的具体步骤包括：

(6)定义故障处置动作的初始化向量维度为1*embed_size；

所述步骤4的具体步骤包括：

所述步骤4中根据步骤2中得到的知识图谱，构建当前电网设备节点状态到目标状态的情况定义出多跳评分函数，具体方法可为：

所述步骤5的具体步骤包括：

所述步骤6的具体步骤包括：

在步骤6中，以从步骤5中得到元路径，约束强化学习智能体的搜索路径，具体方法可为：

(1)获取根据专家先验知识定义好的多条元路径；

所述步骤7的具体步骤包括：

在步骤7中，定义基于蒙特卡罗算法的policy-based强化学习的马尔可夫过程具体方法为：

(1)选择policy-based的强化学习模型；

根据以上定义，显然，初始化状态表示为：

终止时刻T的状态可以表示为：

s_T＝(u，e_T，h_T)

而初始状态是由最开始电网设备节点状态所决定的。

G_t＝R_t+1+γR_t+2+γ²R_t+3+…+γ^T-t-1R_T

即当前的及时奖励和未来的奖励值折扣的叠加，其中T表示的是终止状态。因为环境往往是随机的，执行特定的动作不一定会得到特定的状态，所以对将来的奖励来说，它们相比于当前状态下的奖励应该是衰减的，这也就是使用折扣因子目的，其中属于[0,1],表示距离当前状态越远的奖励，它们需要进行折扣的越多。如果等于0，表示只需要使用当前状态下的奖励；如果等于1，则表示环境是确定的，相同的动作可以获得相同的奖励。因此实际上往往会取类似于0.8或者0.9这一类值。如此一来，我们最终的任务则是训练出一个策略用的获得最终收益R的最大化。

最终生成一个policy-based的强化学习框架。

所述步骤8的具体步骤包括：

(1)本专利中采用的强化学习是基于演说家-评论家算法框架来实现的。首先依据步骤3中产生的多模态信息融合模块将电力设备节点的多模态信息进行融合表示，得到电力设备节点状态的Embedding和故障处置动作的Embedding集；其次我们会定义出一个基于注意力机制的剪枝模块，该模块将故障处置动作的Embedding与对应电网设备节点的状态Embedding进行相关性计算，依据相关性大小进行排序，然后从相关性比较大的一部分动作空间中随机采样出指定数量的动作集合，生成拥有的有效动作构成的掩码动作空间，进而完成动作剪枝。最后我们使用步骤7中定义的policy-based的强化学习框架，主要用来学习到一个路径搜索策略，以计算出当前状态下，在它拥有的有效动作构成的掩码动作空间中，每个动作被选择的一种概率分布即。神经网络的输入为当前节点所拥有的动作空间和此时的状态，输出为动作空间中每个动作的概率分布，然后使用掩码操作删除无效动作，将结果输入到softmax中，生成最终的动作概率分布。其网络架构如图3左上模块所示。其次定义出评论家网络(又名为critic network)，critic network架构主要用来学习到一个用于评估状态的能力，以计算出当前状态下，critic network对它的价值评估。该神经网络的输入为当前节点此时的状态,输出为对该状态的价值评估。其网络架构如图3的右上方模块所示。

(2)设置训练的迭代次数epochs，从epochs等于1开始训练。

(3)由步骤3的第(5)步中对整体数据集中的多模态数据和动作进行表示学习即Embedding,然后将数据批量分别输入到actor network和critic network中，分别获得动作空间中每个动作的概率分布(故障处置)和对该状态的价值评估(状态好坏)。

在强化学习应用系统中，主要的关注点是策略本身的准确率，策略本身的准确率和路径的质量有较强的相关性,而路径的质量则和输入信息的特征质量有着必然联系。本发明的创新主要是基于多模态信息融合模块，对输入信息实现从图片，属性两个方面的信息进行融合增强得到，使得强化学习模型在动作空间和搜索路径生成两个方面得到质量的提升。针对以上问题，许多方法会选择在基于知识图谱的表示学习上做一些改进，对知识图谱网络中的实体和关系进行更好地表示。在以往的相关研究中使用较多的算法诸如TranE，TranH等，将实体状态和实体状态间关系的表示变得更加准确，然后进行故障处置动作推荐。本文中提出的方法与以往不同，主要在结合多模态信息融合技术实现输入数据的信息增强，提升强化学习训练得到的模型质量，进而提高故障处置动作推荐策略的质量，获得更加合理的处置效果。

本发明中方法的设计，是基于变分自编码的多模态信息融合技术对强化学习的输入进行信息增强处理，同时结合生成的输入数据融合信息，设计一个动作剪枝模块，实现对强化学习框架中actor network网络的输入进行动作筛选。其中多模态信息融合模块，我们使用了变分自编码模型，对两种不同模态的信息进行初始化编码，然后进行attention对齐融合，生成与输入强化学习框架的状态编码同一大小的向量，然后该向量与初始化的电网设备节点状态的Embedding进行对抗训练，同时将初始化的电网设备节点状态与故障处置Embedding进行TransH训练，整体构成闭环训练，最终得到进行多模态信息融合后的电网设备节点状态Embedding和多模态融合模型。对于动作剪枝模块，我们通过对状态和待选动作进行相关性计算，依据相关性大小进行排序，从指定数量的相关性较大的动作空间中随机采样出指定个数的动作，生成拥有的有效动作构成的掩码动作空间。

基于以上的改进，就实现了本发明提出的基于多模态强化学习的电网调控策略。该方法可以有效提升推荐策略的准确性，提高故障处置动作的质量，最终使得策略产生的决策效果更加理想。

图1为本发明的基于变分自编码的多模态融合技术对不同模态输入信息进行融合处理流程图。该流程图将电网设备自身属性信息和电网设备的快照照片作为Encoder编码模块的输入，产生一个多模态信息融合后的分布，然后解码为目标的电网设备状态，再与输入时电网设备多模态融合信息和电网状态的标签信息进行对抗，最终得到一个电力设备多模态信息融合模块。；

图2为本发明的基于注意力机制进行动作剪枝的处理流程示意图。该模块用于评估当前电力设备状态与对应操作的动作空间中动作的相关性强弱，输入为当前电力设备状态的Embedding和对应动作空间中动作的Embedding集，输出为由注意力机制产生的相关性系数由高到低排序对应动作的动作空间。在这里我们设置一个动作空间大小的阈值N，当选取的相关性动作数量n小于N，则取前n个，随机打乱，再从其中取出一半作为当前状态对应的动作空间；当选取的相关动作数量n大于N，则取前N/2的动作集作为当前状态对应的动作空间。；

图3为本发明的基于多模态强化学习的策略更新网络框架图。该框架图包含三个部分，第一个部分是针对电力设备的多模态信息融合模块，第二部门是使用注意力机制对当前状态对应的动作进行剪枝，第三部分就是将上游预处理好的数据送入强化学习模块进行联合训练，构建出基于多模态强化学习的策略更新网络框架图。

本发明的工作原理是：

本发明首先对电网数据集中设备节点，设备节点对应的电网设备的拍照照片和对应的故障处置动作空间中的动作进行表示学习处理，利用故障处置的先验知识构建知识图谱，基于知识图谱使用图表示学习方法对电网设备节点状态和故障处置动作进行表示学习，其中电网设备节点状态由设备节点和设备节点对应的电网设备的拍照照片进行多模态信息融合得到；再基于知识图谱定义出从初始电网状态到目标电网状态的多跳评分函数；然后利用人工专家的先验知识构建故障处置的元路径，为当前电网设备节点状态的转移提供合理的故障处置选择；将由多模态信息融合得到的电网设备节点状态信息作为强化学习的输入，其中强化学习框架由actor-network和critic-network两部分网络构成，在输入进入actor-network网络框架之前本发明加入了动作剪枝模块，根据动作与状态计算出相关性，从相关性大的动作中筛选出指定个数的动作供actor-network网络进行选取。强化学习的求解过程使用的是蒙特卡罗方法，以使一个周期内强化学习训练的智能体可以获得最大收益为目的，使得强化学习最终获得可以更好地指导故障的处置选择策略。

需要强调的是，本发明所述实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于多模态强化学习的电网调控方法，其特征在于：包括以下步骤：

步骤8、首先依据步骤3中产生的多模态信息融合模块将电力设备节点的多模态信息进行融合表示，得到电力设备节点状态的Embedding和故障处置动作的Embedding集；其次定义基于注意力机制的剪枝模块，将故障处置动作的Embedding与对应电网设备节点的状态Embedding进行相关性计算，依据相关性大小进行剪枝，然后将得到的电网设备节点的状态Embedding和剪枝后的故障处置动作的Embedding作为步骤7中得到的policy-based强化学习的输入，最终训练产生基于多模态强化学习获得的电网调控策略；

所述步骤7的具体步骤包括：

(1)选择policy-based的强化学习模型；

(2)状态定义即在t时刻,状态定义为一个三元组,其中u属于电网设备节点状态类型的实体集U，在这里是指决策过程的起始点，而则表示智能体在t步之后到达的实体，最后的这个表示走到t步之前历史记录；它们组成了当前时刻的状态；

根据以上定义，显然，初始化状态表示为：

终止时刻T的状态可以表示为：

sT＝(u,er,hr)

(5)状态转移概率即在马尔科夫决策过程中，假设已知当前时刻t所处的状态，以及当前状态下,根据路径搜索策略，然后执行动作，智能体将会到达下一个状态；就在执行一个动作后到下一个状态的这个过程中存在一个状态转移概率的定义，这里将状态转移概率定义为：

而初始状态是由最开始电网设备节点状态所决定的；

(6)折扣因子即在马尔科夫决策过程中，智能体为了获得更多的奖励，往往不只会考虑到当前获得的及时奖励，还会参考到未来状态下获得的及时奖励；在给定的一个确定马尔科夫决策过程的周期中，某一时刻t对应状态下的总的奖励可以定义为：

G_t＝R_t+1+γR_t+2+γ²R_t+3+…+γ^T-t-1R_T

最终生成一个policy-based的强化学习框架。

2.根据权利要求1所述的一种基于多模态强化学习的电网调控方法，其特征在于：所述步骤2的具体步骤包括：

(1)获得每个电网设备节点初始状态下的故障处理记录；

3.根据权利要求1所述的一种基于多模态强化学习的电网调控方法，其特征在于：所述步骤3的具体步骤包括：

(1)根据电网设备节点状态，定义出每个电网设备节点状态所对应的实体类，实体类的个数定义为n；同时定义强化学习中每个状态输入的维度大小为embed_size；

(6)定义故障处置动作的初始化向量维度为1*embed_size；

(7)依据相关状态下故障处理数据集，从中获取对应的记录，该记录中包含n个实体类对应的实例记录，作为一个n元组；基于n元组，从中生成对应存在关系的(状态i，故障处置r，状态j)的三元组，这类三元组的个数记作k，将这k个三元组作为成熟的图表示学习算法transH的输入，共同进行损失训练，获得能对当前设备节点多模态状态和故障处置动作进行的Embedding的多模态信息融合模块。

4.根据权利要求1所述的一种基于多模态强化学习的电网调控方法，其特征在于：所述步骤4的具体步骤包括：

(1)首先本文定义多跳路径中的实体，路径的首位实体定义为e₀,结尾实体定义为e_t,基于知识图谱，如果e₀和e_t中间存在一系列的实体诸如{e₀,e₁,…,e_t-1},和它们之间的t个关系即即{r₁,r₂,…,r_t},那么我们就可以基于知识图谱定义出一个确定的有效多跳路径

其中j表示多跳路径中任意一个实体节点的下标，是这里设置的偏置值；当t＝0且j＝0的时候，该评分函数表示的两个实体向量之间的相似度，即：

5.根据权利要求1所述的一种基于多模态强化学习的电网调控方法，其特征在于：所述步骤5的具体步骤包括：

(1)依据知识图谱中包含的电网设备节点状态类型和故障处置类型生成一系列的三元组；

6.根据权利要求1所述的一种基于多模态强化学习的电网调控方法，其特征在于：所述步骤6的具体步骤包括：

(1)获取根据专家先验知识定义好的多条元路径；

7.根据权利要求1所述的一种基于多模态强化学习的电网调控方法，其特征在于：所述步骤7的具体步骤包括：

(1)选择policy-based的强化学习模型；

根据以上定义，显然，初始化状态表示为：

终止时刻T的状态可以表示为：

sT＝(u,er,hr)

而初始状态是由最开始电网设备节点状态所决定的；

G_t＝R_t+1+γR_t+2+γ²R_t+3+…+γ^T-t-1R_T

最终生成一个policy-based的强化学习框架。

8.根据权利要求1所述的一种基于多模态强化学习的电网调控方法，其特征在于：所述步骤8的具体步骤包括：

(1)首先依据步骤3中产生的多模态信息融合模块将电力设备节点的多模态信息进行融合表示，得到电力设备节点状态的Embedding和故障处置动作的Embedding集；其次我们会定义出一个基于注意力机制的剪枝模块，该模块将故障处置动作的Embedding与对应电网设备节点的状态Embedding进行相关性计算，依据相关性大小进行排序，然后从相关性比较大的一部分动作空间中随机采样出指定数量的动作集合，生成拥有的有效动作构成的掩码动作空间，进而完成动作剪枝；最后我们使用步骤7中定义的policy-based的强化学习框架，主要用来学习到一个路径搜索策略，以计算出当前状态下，在它拥有的有效动作构成的掩码动作空间中，每个动作被选择的一种概率分布即；神经网络的输入为当前节点所拥有的动作空间和此时的状态，输出为动作空间中每个动作的概率分布，然后使用掩码操作删除无效动作，将结果输入到softmax中，生成最终的动作概率分布；其次定义出评论家网络，critic network架构主要用来学习到一个用于评估状态的能力，以计算出当前状态下，critic network对它的价值评估；该神经网络的输入为当前节点此时的状态,输出为对该状态的价值评估；

(2)设置训练的迭代次数epochs，从epochs等于1开始训练；

(3)由步骤3的第(5)步中对整体数据集中的多模态数据和动作进行表示学习即Embedding,然后将数据批量分别输入到actor network和critic network中，分别获得动作空间中每个动作的概率分布和对该状态的价值评估；

(4)计算critc预估值和真实的评估价值的损失函数最小化，以及计算当前动作概率与当前动作带来奖励的乘积最大化，同事定义一个保证模型探索与开发均衡的熵，让熵最大化；