CN113947320B - 一种基于多模态强化学习的电网调控方法 - Google Patents
一种基于多模态强化学习的电网调控方法 Download PDFInfo
- Publication number
- CN113947320B CN113947320B CN202111238427.1A CN202111238427A CN113947320B CN 113947320 B CN113947320 B CN 113947320B CN 202111238427 A CN202111238427 A CN 202111238427A CN 113947320 B CN113947320 B CN 113947320B
- Authority
- CN
- China
- Prior art keywords
- state
- power grid
- equipment
- reinforcement learning
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000009471 action Effects 0.000 claims abstract description 164
- 230000006870 function Effects 0.000 claims abstract description 51
- 230000004927 fusion Effects 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000011282 treatment Methods 0.000 claims abstract description 17
- 230000000875 corresponding effect Effects 0.000 claims description 55
- 239000013598 vector Substances 0.000 claims description 26
- 239000003795 chemical substances by application Substances 0.000 claims description 24
- 238000013138 pruning Methods 0.000 claims description 22
- 230000007246 mechanism Effects 0.000 claims description 16
- 230000007704 transition Effects 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000012544 monitoring process Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 238000011161 development Methods 0.000 claims description 3
- 230000033001 locomotion Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000001105 regulatory effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 241000396377 Tranes Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Educational Administration (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明涉及一种基于多模态强化学习的电网调控方法,包括以下步骤:步骤1、输入电网的数据集;步骤2、构建出包含数据集中电网设备节点状态和故障处置的知识图谱;步骤3、获得能对当前设备节点多模态状态和故障处置动作进行的Embedding的多模态信息融合模块;步骤4、选取步骤2中构建的知识图谱,根据当前状态到目标状态的情况定义出多跳评分函数,用于评估两个状态之间的相关性;步骤5、构建故障处置的元路径;步骤6、产生强化学习的奖励函数;步骤7、定义强化学习的马尔可夫过程生成基于policy‑based的强化学习框架;步骤8、训练产生基于多模态强化学习获得的电网调控策略。本发明可解释性强且预测准确性高。
Description
技术领域
本发明属于电网调控技术领域,涉及电网调控方法,尤其是一种基于多模态强化学习的电网调控方法。
背景技术
随着电网规模的不断扩大,运行方式灵活多变,电网调控业务越来越复杂,调控人员工作强度也越来越大,这对调控业务的自动化和智能化提出了更高的要求。现存的基于深度学习等技术的电网调控应用由于现有的调控决策样本难以覆盖所有的电网复杂运行情况导致训练的模型预测成功率低下,同时现有的模型可解释性差。
因此如何提出一种电网调控方法,实现更好的优化、预测、分类任务的表现,提高模型的可解释性和预测的准确性是本领域技术人员亟待解决的技术难题。
经检索,未发现与本发明相同或相似的现有技术的公开文献。
发明内容
本发明的目的在于克服现有技术的不足,提出一种设计合理、可解释性强且预测准确性高的基于多模态强化学习的电网调控方法。
本发明解决其现实问题是采取以下技术方案实现的:
一种基于多模态强化学习的电网调控方法,包括以下步骤:
步骤1、输入电网的数据集,该电网数据集包括电网中设备节点信息,故障处置动作集以及监控设备对电网设备的拍照照片;
步骤2、利用故障处置的先验知识结合电网数据集中的电网设备实体状态和相应的执行动作构建出包含数据集中电网设备节点状态和故障处置的知识图谱;
步骤3、利用步骤2中构建的知识图谱以及电网数据集中各个设备实体状态转换的关系对步骤1中的电网数据集中设备节点,设备节点对应的电网设备的拍照照片和故障处置动作进行图表示学习,其中节点设备状态由设备节点和设备节点对应的电网设备的拍照照片进行多模态信息融合得到,多模态数据结合变分自编码模型进行对抗训练,最终获得能对当前设备节点多模态状态和故障处置动作进行的Embedding的多模态信息融合模块;
步骤4、选取步骤2中构建的知识图谱,根据当前状态到目标状态的情况定义出多跳评分函数,用于评估两个状态之间的相关性,评分由设备节点状态的Embedding作为评分函数的输入计算得到;
步骤5、定义完成多跳评分函数后,利用人工专家的先验知识构建故障处置的元路径;
步骤6、将步骤5中得到的故障处置的元路径作为强化学习决策过程中的先验指导,生成故障处置动作选择约束,产生源状态到目标状态的路径,使用评分函数来计算路径中节点多跳的得分评估,产生强化学习的奖励函数;
步骤7、在多跳评分函数产生奖励的基础上,定义强化学习的马尔可夫过程生成基于policy-based的强化学习框架;
步骤8、首先依据步骤3中产生的多模态信息融合模块将电力设备节点的多模态信息进行融合表示,得到电力设备节点状态的Embedding和故障处置动作的Embedding集;其次定义基于注意力机制的剪枝模块,将故障处置动作的Embedding与对应电网设备节点的状态Embedding进行相关性计算,依据相关性大小进行剪枝,然后将得到的电网设备节点的状态Embedding和剪枝后的故障处置动作的Embedding作为步骤7中得到的policy-based强化学习的输入,最终训练产生基于多模态强化学习获得的电网调控策略。
而且,所述步骤2的具体步骤包括:
(1)获得每个电网设备节点初始状态下的故障处理记录;
(2)将每个电网设备节点的状态作为知识图谱中的一个实体节点,将针对每个电网设备节点状态做出的故障处置动作作为实体节点间的关联边;
(3)对整个电网数据集中的电网设备节点状态依据故障处置动作对应的边进行关联,最终构成一张包含数据集中电网设备节点状态和故障处置的知识图谱。
而且,所述步骤3的具体步骤包括:
(1)根据电网设备节点状态,定义出每个电网设备节点状态所对应的实体类,实体类的个数定义为n;同时定义强化学习中每个状态输入的维度大小为embed_size。
(2)根据每个实体类中包含的对应电网设备节点状态个数m,来对实体类进行表示学习初始化,初始化向量的维度即为m*embed_size;
(3)根据电网数据集中的设备节点信息,对其进行初始化,初始化向量的维度即为embed_size;
(4)根据电网数据集中的监控设备对电网设备的拍照照片信息,对其进行初始化,初始化向量的维度即为embed_size;
(5)根据初始化好的设备节点信息和监控设备对电网设备的拍照照片信息,使用变分自编码方法生成一个embed_size大小的向量,该向量与电网设备节点状态的初始化向量做对抗训练;
(6)定义故障处置动作的初始化向量维度为1*embed_size;
(7)依据相关状态下故障处理数据集,从中获取对应的记录,该记录中包含n个实体类对应的实例记录,作为一个n元组。基于n元组,从中生成对应存在关系的(状态i,故障处置r,状态j)的三元组,这类三元组的个数记作k,将这k个三元组作为成熟的图表示学习算法transH的输入,共同进行损失训练,获得能对当前设备节点多模态状态和故障处置动作进行的Embedding的多模态信息融合模块。
而且,所述步骤4的具体步骤包括:
(1)首先本文定义多跳路径中的实体,路径的首位实体定义为e0,结尾实体定义为et,基于知识图谱,如果e0和et中间存在一系列的实体诸如{e0,e1,…,et-1},和它们之间的t个关系即即{r1,r2,…,rt},那么我们就可以基于知识图谱定义出一个确定的有效多跳路径/>
(2)完成了多跳路径的定义之后,需要定义出多跳路径的评分函数,针对多跳路径中的两个实体和,评分函数可定义为:
其中j表示多跳路径中任意一个实体节点的下标,是这里设置的偏置值。当t=0且j=0的时候,该评分函数表示的两个实体向量之间的相似度,即:
当t=1且j=1的时候,该评分函数表示的是头实体加关系后和尾实体之间的相似度,即:
基于以上,完成基于知识图谱的多跳评分函数的定义,用于评估两个状态之间的相关性。
而且,所述步骤5的具体步骤包括:
利用相关领域的人工专家先验知识定义多条元路径,具体方法可为:
(1)依据知识图谱中包含的电网设备节点状态类型和故障处置类型生成一系列的三元组。
(2)依据人工专家的先验知识,对这些存在关系的三元组进行关联,最终制定出多条具有先验指导意义的元路径,可以有效地指导强化学习智能体在对应状态下进行故障处置动作选择。
而且,所述步骤6的具体步骤包括:
(1)获取根据专家先验知识定义好的多条元路径;
(2)在强化学习中智能体的路径探索尝试过程中,参照定义好的元路径来指导当前电力设备状态进行动作选择,产生下一时刻状态,以此类推直到状态结束,最终生成从源状态到目标状元的路径
(3)通过定义好的多跳评分函数对源状态和目标状态进行相关性计算,获得强化学习的奖励函数。
而且,所述步骤7的具体步骤包括:
(1)选择policy-based的强化学习模型;
(2)状态定义即在t时刻,状态定义为一个三元组,其中u属于电网设备节点状态类型的实体集U,在这里是指决策过程的起始点,而则表示智能体在t步之后到达的实体,最后的这个表示走到t步之前历史记录。它们组成了当前时刻的状态。
根据以上定义,显然,初始化状态表示为:
终止时刻T的状态可以表示为:
sT=(u,eT,hT)
(3)动作定义即在某一时刻t的状态下,智能体都会有一个对应的动作空间,该动作空间包含了t时刻下实体的所有出度边的集合,然后实体不包含历史中存在的实体即:
(4)强化学习的软奖励定义:这种软奖励机制的获取依据多跳评分函数,基于此,终止状态获得的奖励定义为:
(5)状态转移概率即在马尔科夫决策过程中,假设已知当前时刻t所处的状态,以及当前状态下,根据路径搜索策略,然后执行动作,智能体将会到达下一个状态。就在执行一个动作后到下一个状态的这个过程中存在一个状态转移概率的定义,这里将状态转移概率定义为:
而初始状态是由最开始电网设备节点状态所决定的;
(6)折扣因子即在马尔科夫决策过程中,智能体为了获得更多的奖励,往往不只会考虑到当前获得的及时奖励,还会参考到未来状态下获得的及时奖励。在给定的一个确定马尔科夫决策过程的周期中,某一时刻t对应状态下的总的奖励可以定义为:
Gt=Rt+1+γRt+2+γ2Rt+3+…+γT-t-1RT
即当前的及时奖励和未来的奖励值折扣的叠加,其中T表示的是终止状态;
(7)策略优化即在马尔科夫决策过程中,我们的目标是学习一个优秀的搜索策略,这个搜索策略可以让以任意起始的电网设备节点状态在搜索的周期内都可以获得最大化的累计回报,即公式定义为:
最终生成一个policy-based的强化学习框架。
而且,所述步骤8的具体步骤包括:
(1)首先依据步骤3中产生的多模态信息融合模块将电力设备节点的多模态信息进行融合表示,得到电力设备节点状态的Embedding和故障处置动作的Embedding集;其次我们会定义出一个基于注意力机制的剪枝模块,该模块将故障处置动作的Embedding与对应电网设备节点的状态Embedding进行相关性计算,依据相关性大小进行排序,然后从相关性比较大的一部分动作空间中随机采样出指定数量的动作集合,生成拥有的有效动作构成的掩码动作空间,进而完成动作剪枝;最后我们使用步骤7中定义的policy-based的强化学习框架,主要用来学习到一个路径搜索策略,以计算出当前状态下,在它拥有的有效动作构成的掩码动作空间中,每个动作被选择的一种概率分布即;神经网络的输入为当前节点所拥有的动作空间和此时的状态,输出为动作空间中每个动作的概率分布,然后使用掩码操作删除无效动作,将结果输入到softmax中,生成最终的动作概率分布;其次定义出评论家网络(又名为critic network),critic network架构主要用来学习到一个用于评估状态的能力,以计算出当前状态下,critic network对它的价值评估;该神经网络的输入为当前节点此时的状态,输出为对该状态的价值评估;
(2)设置训练的迭代次数epochs,从epochs等于1开始训练。
(3)由步骤3的第(5)步中对整体数据集中的多模态数据和动作进行表示学习即Embedding,然后将数据批量分别输入到actor network和critic network中,分别获得动作空间中每个动作的概率分布和对该状态的价值评估。
(4)计算critc预估值和真实的评估价值的损失函数最小化,以及计算当前动作概率与当前动作带来奖励的乘积最大化,同事定义一个保证模型探索与开发均衡的熵,让熵最大化。
(5)在epochs定义的值范围内,重复步骤8的第(3)步至第(4)步中的步骤,最终训练出一个多模态强化学习的网络框架模型,进而产生基于多模态强化学习的电网调控策略。
本发明的优点和有益效果:
1、本发明使用变分自编码的多模态融合技术,其中针对输入数据特征信息不足的问题,本发明中对不同模态的输入数据进行有效融合,然后作为强化学习模型的输入,这在一方面有效地解决了强化学习在生成的预测路径质量存在不足的问题。本发明与以往电网调控方法的不同点即对强化学习框架的输入数据端采用基于变分自编码的多模态融合模块,通过采集不同模态的电网设备节点的状态数据,诸如照片,文本等,然后将这些数据融合起来,实现输入数据的增强,提升下游强化学习模型的训练质量。
2、本发明在actor network之前增加一个动作剪枝模块,该模块与以往的设计不同在于,本发明中使用注意力机制从状态对应的所有候选动作中计算出相关性较高的候选动作,再从相关性较高的空间中随机筛选出指定数量的动作,作为actor network的选择空间,进而训练强化学习的策略模型。本发明与以往基于强化学习的电网调控策略中的剪枝操作不同,本发明中采用的是基于注意力机制的=算法评估动作与状态的相关性,然后从相关性比较高的动作中随机采样出指定数量的动作空间,作为后期用于强化学习框架中actor network模块进行动作选择的有效动作掩码约束,提高生成用于解释调控过程的可解释性路径以及提升调控的准确性。
3、本发明提出的强化学习本身是一个无监督的试错学习过程,无需对数据集进行标记。从步骤5可以看出,强化学习可以有效地利用调控人员的业务知识和经验生成调控序列的元路径,结合步骤3中生成的知识图谱,最终获得的调控策略便可以生成一条决策路径用于调控的可解释。
4、本发明采用多模态强化学习实现优化调控和调度策略的自学习以及持续自我更新,将融合多模态数据作为强化学习算法的数据输入,实现对电网调控场景下设备的多模态数据进行深入分析并采取更有针对性的调控行为。
附图说明
图1为本发明的基于变分自编码的多模态融合技术对不同模态输入信息进行融合处理流程图;
图2为本发明的基于注意力机制进行动作剪枝的处理流程示意图;
图3为本发明的基于多模态强化学习的策略更新网络框架图。
具体实施方式
以下结合附图对本发明实施例作进一步详述:
一种基于多模态强化学习的电网调控方法,包括以下步骤:
步骤1、输入电网的数据集,该电网数据集包括电网中设备节点信息,故障处置动作集以及监控设备对电网设备的拍照照片;
步骤2、利用故障处置的先验知识结合电网数据集中的电网设备实体状态和相应的执行动作构建出包含数据集中电网设备节点状态和故障处置的知识图谱;
所述步骤2的具体步骤包括:
根据步骤1的电网数据集中包含的电网设备实体状态,对应的故障处置动作以及监控设备对电网设备的拍照照片构建出一张包含数据集中电网设备节点状态和故障处置的知识图谱:
(1)获得每个电网设备节点初始状态下的故障处理记录;
(2)将每个电网设备节点的状态作为知识图谱中的一个实体节点,将针对每个电网设备节点状态做出的故障处置动作作为实体节点间的关联边;
(3)对整个电网数据集中的电网设备节点状态依据故障处置动作对应的边进行关联,最终构成一张包含数据集中电网设备节点状态和故障处置的知识图谱。
步骤3、利用步骤2中构建的知识图谱以及电网数据集中各个设备实体状态转换的关系对步骤1中的电网数据集中设备节点,设备节点对应的电网设备的拍照照片和故障处置动作进行图表示学习,其中节点设备状态由设备节点和设备节点对应的电网设备的拍照照片进行多模态信息融合得到,多模态数据结合变分自编码模型进行对抗训练,最终获得能对当前设备节点多模态状态和故障处置动作进行的Embedding的多模态信息融合模块;
所述步骤3的具体步骤包括:
在步骤3中,所述选取步骤1中的电网设备节点多模态状态和故障处置进行图表示学习的具体步骤包括:
(1)根据电网设备节点状态,定义出每个电网设备节点状态所对应的实体类,实体类的个数定义为n;同时定义强化学习中每个状态输入的维度大小为embed_size。
(2)根据每个实体类中包含的对应电网设备节点状态个数m,来对实体类进行表示学习初始化,初始化向量的维度即为m*embed_size;
(3)根据电网数据集中的设备节点信息,对其进行初始化,初始化向量的维度即为embed_size;
(4)根据电网数据集中的监控设备对电网设备的拍照照片信息,对其进行初始化,初始化向量的维度即为embed_size;
(5)根据初始化好的设备节点信息和监控设备对电网设备的拍照照片信息,使用变分自编码方法生成一个embed_size大小的向量,该向量与电网设备节点状态的初始化向量做对抗训练;
(6)定义故障处置动作的初始化向量维度为1*embed_size;
(7)依据相关状态下故障处理数据集,从中获取对应的记录,该记录中包含n个实体类对应的实例记录,作为一个n元组。基于n元组,从中生成对应存在关系的(状态i,故障处置r,状态j)的三元组,这类三元组的个数记作k,将这k个三元组作为成熟的图表示学习算法transH的输入,共同进行损失训练,获得能对当前设备节点多模态状态和故障处置动作进行的Embedding的多模态信息融合模块。
步骤4、选取步骤2中构建的知识图谱,根据当前状态到目标状态的情况定义出多跳评分函数,用于评估两个状态之间的相关性,评分由设备节点状态的Embedding作为评分函数的输入计算得到;
所述步骤4的具体步骤包括:
所述步骤4中根据步骤2中得到的知识图谱,构建当前电网设备节点状态到目标状态的情况定义出多跳评分函数,具体方法可为:
(1)首先本文定义多跳路径中的实体,路径的首位实体定义为e0,结尾实体定义为et,基于知识图谱,如果e0和et中间存在一系列的实体诸如{e0,e1,…,et-1},和它们之间的t个关系即即{r1,r2,…,rt},那么我们就可以基于知识图谱定义出一个确定的有效多跳路径/>
(2)完成了多跳路径的定义之后,需要定义出多跳路径的评分函数,针对多跳路径中的两个实体和,评分函数可定义为:
其中j表示多跳路径中任意一个实体节点的下标,是这里设置的偏置值。当t=0且j=0的时候,该评分函数表示的两个实体向量之间的相似度,即:
当t=1且j=1的时候,该评分函数表示的是头实体加关系后和尾实体之间的相似度,即:
基于以上,完成基于知识图谱的多跳评分函数的定义,用于评估两个状态之间的相关性。
步骤5、定义完成多跳评分函数后,利用人工专家的先验知识构建故障处置的元路径;
所述步骤5的具体步骤包括:
利用相关领域的人工专家先验知识定义多条元路径,具体方法可为:
(1)依据知识图谱中包含的电网设备节点状态类型和故障处置类型生成一系列的三元组。
(2)依据人工专家的先验知识,对这些存在关系的三元组进行关联,最终制定出多条具有先验指导意义的元路径,可以有效地指导强化学习智能体在对应状态下进行故障处置动作选择。
步骤6、将步骤5中得到的故障处置的元路径作为强化学习决策过程中的先验指导,生成故障处置动作选择约束,产生源状态到目标状态的路径,使用评分函数来计算路径中节点多跳的得分评估,产生强化学习的奖励函数;
所述步骤6的具体步骤包括:
在步骤6中,以从步骤5中得到元路径,约束强化学习智能体的搜索路径,具体方法可为:
(1)获取根据专家先验知识定义好的多条元路径;
(2)在强化学习中智能体的路径探索尝试过程中,参照定义好的元路径来指导当前电力设备状态进行动作选择,产生下一时刻状态,以此类推直到状态结束,最终生成从源状态到目标状元的路径
(3)通过定义好的多跳评分函数对源状态和目标状态进行相关性计算,获得强化学习的奖励函数。
步骤7、在多跳评分函数产生奖励的基础上,定义强化学习的马尔可夫过程生成基于policy-based的强化学习框架;
所述步骤7的具体步骤包括:
在步骤7中,定义基于蒙特卡罗算法的policy-based强化学习的马尔可夫过程具体方法为:
(1)选择policy-based的强化学习模型;
(2)状态定义即在t时刻,状态定义为一个三元组,其中u属于电网设备节点状态类型的实体集U,在这里是指决策过程的起始点,而则表示智能体在t步之后到达的实体,最后的这个表示走到t步之前历史记录。它们组成了当前时刻的状态。
根据以上定义,显然,初始化状态表示为:
终止时刻T的状态可以表示为:
sT=(u,eT,hT)
(3)动作定义即在某一时刻t的状态下,智能体都会有一个对应的动作空间,该动作空间包含了t时刻下实体的所有出度边的集合,然后实体不包含历史中存在的实体即:
(4)强化学习的软奖励定义:这种软奖励机制的获取依据多跳评分函数,基于此,终止状态获得的奖励定义为:
(5)状态转移概率即在马尔科夫决策过程中,假设已知当前时刻t所处的状态,以及当前状态下,根据路径搜索策略,然后执行动作,智能体将会到达下一个状态。就在执行一个动作后到下一个状态的这个过程中存在一个状态转移概率的定义,这里将状态转移概率定义为:
而初始状态是由最开始电网设备节点状态所决定的。
(6)折扣因子即在马尔科夫决策过程中,智能体为了获得更多的奖励,往往不只会考虑到当前获得的及时奖励,还会参考到未来状态下获得的及时奖励。在给定的一个确定马尔科夫决策过程的周期中,某一时刻t对应状态下的总的奖励可以定义为:
Gt=Rt+1+γRt+2+γ2Rt+3+…+γT-t-1RT
即当前的及时奖励和未来的奖励值折扣的叠加,其中T表示的是终止状态。因为环境往往是随机的,执行特定的动作不一定会得到特定的状态,所以对将来的奖励来说,它们相比于当前状态下的奖励应该是衰减的,这也就是使用折扣因子目的,其中属于[0,1],表示距离当前状态越远的奖励,它们需要进行折扣的越多。如果等于0,表示只需要使用当前状态下的奖励;如果等于1,则表示环境是确定的,相同的动作可以获得相同的奖励。因此实际上往往会取类似于0.8或者0.9这一类值。如此一来,我们最终的任务则是训练出一个策略用的获得最终收益R的最大化。
(7)策略优化即在马尔科夫决策过程中,我们的目标是学习一个优秀的搜索策略,这个搜索策略可以让以任意起始的电网设备节点状态在搜索的周期内都可以获得最大化的累计回报,即公式定义为:
最终生成一个policy-based的强化学习框架。
步骤8、首先依据步骤3中产生的多模态信息融合模块将电力设备节点的多模态信息进行融合表示,得到电力设备节点状态的Embedding和故障处置动作的Embedding集;其次定义基于注意力机制的剪枝模块,将故障处置动作的Embedding与对应电网设备节点的状态Embedding进行相关性计算,依据相关性大小进行剪枝,然后将得到的电网设备节点的状态Embedding和剪枝后的故障处置动作的Embedding作为步骤7中得到的policy-based强化学习的输入,最终训练产生基于多模态强化学习获得的电网调控策略。
所述步骤8的具体步骤包括:
(1)本专利中采用的强化学习是基于演说家-评论家算法框架来实现的。首先依据步骤3中产生的多模态信息融合模块将电力设备节点的多模态信息进行融合表示,得到电力设备节点状态的Embedding和故障处置动作的Embedding集;其次我们会定义出一个基于注意力机制的剪枝模块,该模块将故障处置动作的Embedding与对应电网设备节点的状态Embedding进行相关性计算,依据相关性大小进行排序,然后从相关性比较大的一部分动作空间中随机采样出指定数量的动作集合,生成拥有的有效动作构成的掩码动作空间,进而完成动作剪枝。最后我们使用步骤7中定义的policy-based的强化学习框架,主要用来学习到一个路径搜索策略,以计算出当前状态下,在它拥有的有效动作构成的掩码动作空间中,每个动作被选择的一种概率分布即。神经网络的输入为当前节点所拥有的动作空间和此时的状态,输出为动作空间中每个动作的概率分布,然后使用掩码操作删除无效动作,将结果输入到softmax中,生成最终的动作概率分布。其网络架构如图3左上模块所示。其次定义出评论家网络(又名为critic network),critic network架构主要用来学习到一个用于评估状态的能力,以计算出当前状态下,critic network对它的价值评估。该神经网络的输入为当前节点此时的状态,输出为对该状态的价值评估。其网络架构如图3的右上方模块所示。
(2)设置训练的迭代次数epochs,从epochs等于1开始训练。
(3)由步骤3的第(5)步中对整体数据集中的多模态数据和动作进行表示学习即Embedding,然后将数据批量分别输入到actor network和critic network中,分别获得动作空间中每个动作的概率分布(故障处置)和对该状态的价值评估(状态好坏)。
(4)计算critc预估值和真实的评估价值的损失函数最小化,以及计算当前动作概率与当前动作带来奖励的乘积最大化,同事定义一个保证模型探索与开发均衡的熵,让熵最大化。
(5)在epochs定义的值范围内,重复步骤8的第(3)步至第(4)步中的步骤,最终训练出一个多模态强化学习的网络框架模型,进而产生基于多模态强化学习的电网调控策略。
在强化学习应用系统中,主要的关注点是策略本身的准确率,策略本身的准确率和路径的质量有较强的相关性,而路径的质量则和输入信息的特征质量有着必然联系。本发明的创新主要是基于多模态信息融合模块,对输入信息实现从图片,属性两个方面的信息进行融合增强得到,使得强化学习模型在动作空间和搜索路径生成两个方面得到质量的提升。针对以上问题,许多方法会选择在基于知识图谱的表示学习上做一些改进,对知识图谱网络中的实体和关系进行更好地表示。在以往的相关研究中使用较多的算法诸如TranE,TranH等,将实体状态和实体状态间关系的表示变得更加准确,然后进行故障处置动作推荐。本文中提出的方法与以往不同,主要在结合多模态信息融合技术实现输入数据的信息增强,提升强化学习训练得到的模型质量,进而提高故障处置动作推荐策略的质量,获得更加合理的处置效果。
本发明中方法的设计,是基于变分自编码的多模态信息融合技术对强化学习的输入进行信息增强处理,同时结合生成的输入数据融合信息,设计一个动作剪枝模块,实现对强化学习框架中actor network网络的输入进行动作筛选。其中多模态信息融合模块,我们使用了变分自编码模型,对两种不同模态的信息进行初始化编码,然后进行attention对齐融合,生成与输入强化学习框架的状态编码同一大小的向量,然后该向量与初始化的电网设备节点状态的Embedding进行对抗训练,同时将初始化的电网设备节点状态与故障处置Embedding进行TransH训练,整体构成闭环训练,最终得到进行多模态信息融合后的电网设备节点状态Embedding和多模态融合模型。对于动作剪枝模块,我们通过对状态和待选动作进行相关性计算,依据相关性大小进行排序,从指定数量的相关性较大的动作空间中随机采样出指定个数的动作,生成拥有的有效动作构成的掩码动作空间。
基于以上的改进,就实现了本发明提出的基于多模态强化学习的电网调控策略。该方法可以有效提升推荐策略的准确性,提高故障处置动作的质量,最终使得策略产生的决策效果更加理想。
图1为本发明的基于变分自编码的多模态融合技术对不同模态输入信息进行融合处理流程图。该流程图将电网设备自身属性信息和电网设备的快照照片作为Encoder编码模块的输入,产生一个多模态信息融合后的分布,然后解码为目标的电网设备状态,再与输入时电网设备多模态融合信息和电网状态的标签信息进行对抗,最终得到一个电力设备多模态信息融合模块。;
图2为本发明的基于注意力机制进行动作剪枝的处理流程示意图。该模块用于评估当前电力设备状态与对应操作的动作空间中动作的相关性强弱,输入为当前电力设备状态的Embedding和对应动作空间中动作的Embedding集,输出为由注意力机制产生的相关性系数由高到低排序对应动作的动作空间。在这里我们设置一个动作空间大小的阈值N,当选取的相关性动作数量n小于N,则取前n个,随机打乱,再从其中取出一半作为当前状态对应的动作空间;当选取的相关动作数量n大于N,则取前N/2的动作集作为当前状态对应的动作空间。;
图3为本发明的基于多模态强化学习的策略更新网络框架图。该框架图包含三个部分,第一个部分是针对电力设备的多模态信息融合模块,第二部门是使用注意力机制对当前状态对应的动作进行剪枝,第三部分就是将上游预处理好的数据送入强化学习模块进行联合训练,构建出基于多模态强化学习的策略更新网络框架图。
本发明的工作原理是:
本发明首先对电网数据集中设备节点,设备节点对应的电网设备的拍照照片和对应的故障处置动作空间中的动作进行表示学习处理,利用故障处置的先验知识构建知识图谱,基于知识图谱使用图表示学习方法对电网设备节点状态和故障处置动作进行表示学习,其中电网设备节点状态由设备节点和设备节点对应的电网设备的拍照照片进行多模态信息融合得到;再基于知识图谱定义出从初始电网状态到目标电网状态的多跳评分函数;然后利用人工专家的先验知识构建故障处置的元路径,为当前电网设备节点状态的转移提供合理的故障处置选择;将由多模态信息融合得到的电网设备节点状态信息作为强化学习的输入,其中强化学习框架由actor-network和critic-network两部分网络构成,在输入进入actor-network网络框架之前本发明加入了动作剪枝模块,根据动作与状态计算出相关性,从相关性大的动作中筛选出指定个数的动作供actor-network网络进行选取。强化学习的求解过程使用的是蒙特卡罗方法,以使一个周期内强化学习训练的智能体可以获得最大收益为目的,使得强化学习最终获得可以更好地指导故障的处置选择策略。
需要强调的是,本发明所述实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (8)
1.一种基于多模态强化学习的电网调控方法,其特征在于:包括以下步骤:
步骤1、输入电网的数据集,该电网数据集包括电网中设备节点信息,故障处置动作集以及监控设备对电网设备的拍照照片;
步骤2、利用故障处置的先验知识结合电网数据集中的电网设备实体状态和相应的执行动作构建出包含数据集中电网设备节点状态和故障处置的知识图谱;
步骤3、利用步骤2中构建的知识图谱以及电网数据集中各个设备实体状态转换的关系对步骤1中的电网数据集中设备节点,设备节点对应的电网设备的拍照照片和故障处置动作进行图表示学习,其中节点设备状态由设备节点和设备节点对应的电网设备的拍照照片进行多模态信息融合得到,多模态数据结合变分自编码模型进行对抗训练,最终获得能对当前设备节点多模态状态和故障处置动作进行的Embedding的多模态信息融合模块;
步骤4、选取步骤2中构建的知识图谱,根据当前状态到目标状态的情况定义出多跳评分函数,用于评估两个状态之间的相关性,评分由设备节点状态的Embedding作为评分函数的输入计算得到;
步骤5、定义完成多跳评分函数后,利用人工专家的先验知识构建故障处置的元路径;
步骤6、将步骤5中得到的故障处置的元路径作为强化学习决策过程中的先验指导,生成故障处置动作选择约束,产生源状态到目标状态的路径,使用评分函数来计算路径中节点多跳的得分评估,产生强化学习的奖励函数;
步骤7、在多跳评分函数产生奖励的基础上,定义强化学习的马尔可夫过程生成基于policy-based的强化学习框架;
步骤8、首先依据步骤3中产生的多模态信息融合模块将电力设备节点的多模态信息进行融合表示,得到电力设备节点状态的Embedding和故障处置动作的Embedding集;其次定义基于注意力机制的剪枝模块,将故障处置动作的Embedding与对应电网设备节点的状态Embedding进行相关性计算,依据相关性大小进行剪枝,然后将得到的电网设备节点的状态Embedding和剪枝后的故障处置动作的Embedding作为步骤7中得到的policy-based强化学习的输入,最终训练产生基于多模态强化学习获得的电网调控策略;
所述步骤7的具体步骤包括:
(1)选择policy-based的强化学习模型;
(2)状态定义即在t时刻,状态定义为一个三元组,其中u属于电网设备节点状态类型的实体集U,在这里是指决策过程的起始点,而则表示智能体在t步之后到达的实体,最后的这个表示走到t步之前历史记录;它们组成了当前时刻的状态;
根据以上定义,显然,初始化状态表示为:
终止时刻T的状态可以表示为:
sT=(u,er,hr)
(3)动作定义即在某一时刻t的状态下,智能体都会有一个对应的动作空间,该动作空间包含了t时刻下实体的所有出度边的集合,然后实体不包含历史中存在的实体即:
(4)强化学习的软奖励定义:这种软奖励机制的获取依据多跳评分函数,基于此,终止状态获得的奖励定义为:
(5)状态转移概率即在马尔科夫决策过程中,假设已知当前时刻t所处的状态,以及当前状态下,根据路径搜索策略,然后执行动作,智能体将会到达下一个状态;就在执行一个动作后到下一个状态的这个过程中存在一个状态转移概率的定义,这里将状态转移概率定义为:
而初始状态是由最开始电网设备节点状态所决定的;
(6)折扣因子即在马尔科夫决策过程中,智能体为了获得更多的奖励,往往不只会考虑到当前获得的及时奖励,还会参考到未来状态下获得的及时奖励;在给定的一个确定马尔科夫决策过程的周期中,某一时刻t对应状态下的总的奖励可以定义为:
Gt=Rt+1+γRt+2+γ2Rt+3+…+γT-t-1RT
即当前的及时奖励和未来的奖励值折扣的叠加,其中T表示的是终止状态;
(7)策略优化即在马尔科夫决策过程中,我们的目标是学习一个优秀的搜索策略,这个搜索策略可以让以任意起始的电网设备节点状态在搜索的周期内都可以获得最大化的累计回报,即公式定义为:
最终生成一个policy-based的强化学习框架。
2.根据权利要求1所述的一种基于多模态强化学习的电网调控方法,其特征在于:所述步骤2的具体步骤包括:
(1)获得每个电网设备节点初始状态下的故障处理记录;
(2)将每个电网设备节点的状态作为知识图谱中的一个实体节点,将针对每个电网设备节点状态做出的故障处置动作作为实体节点间的关联边;
(3)对整个电网数据集中的电网设备节点状态依据故障处置动作对应的边进行关联,最终构成一张包含数据集中电网设备节点状态和故障处置的知识图谱。
3.根据权利要求1所述的一种基于多模态强化学习的电网调控方法,其特征在于:所述步骤3的具体步骤包括:
(1)根据电网设备节点状态,定义出每个电网设备节点状态所对应的实体类,实体类的个数定义为n;同时定义强化学习中每个状态输入的维度大小为embed_size;
(2)根据每个实体类中包含的对应电网设备节点状态个数m,来对实体类进行表示学习初始化,初始化向量的维度即为m*embed_size;
(3)根据电网数据集中的设备节点信息,对其进行初始化,初始化向量的维度即为embed_size;
(4)根据电网数据集中的监控设备对电网设备的拍照照片信息,对其进行初始化,初始化向量的维度即为embed_size;
(5)根据初始化好的设备节点信息和监控设备对电网设备的拍照照片信息,使用变分自编码方法生成一个embed_size大小的向量,该向量与电网设备节点状态的初始化向量做对抗训练;
(6)定义故障处置动作的初始化向量维度为1*embed_size;
(7)依据相关状态下故障处理数据集,从中获取对应的记录,该记录中包含n个实体类对应的实例记录,作为一个n元组;基于n元组,从中生成对应存在关系的(状态i,故障处置r,状态j)的三元组,这类三元组的个数记作k,将这k个三元组作为成熟的图表示学习算法transH的输入,共同进行损失训练,获得能对当前设备节点多模态状态和故障处置动作进行的Embedding的多模态信息融合模块。
4.根据权利要求1所述的一种基于多模态强化学习的电网调控方法,其特征在于:所述步骤4的具体步骤包括:
(1)首先本文定义多跳路径中的实体,路径的首位实体定义为e0,结尾实体定义为et,基于知识图谱,如果e0和et中间存在一系列的实体诸如{e0,e1,…,et-1},和它们之间的t个关系即即{r1,r2,…,rt},那么我们就可以基于知识图谱定义出一个确定的有效多跳路径
(2)完成了多跳路径的定义之后,需要定义出多跳路径的评分函数,针对多跳路径中的两个实体和,评分函数可定义为:
其中j表示多跳路径中任意一个实体节点的下标,是这里设置的偏置值;当t=0且j=0的时候,该评分函数表示的两个实体向量之间的相似度,即:
当t=1且j=1的时候,该评分函数表示的是头实体加关系后和尾实体之间的相似度,即:
基于以上,完成基于知识图谱的多跳评分函数的定义,用于评估两个状态之间的相关性。
5.根据权利要求1所述的一种基于多模态强化学习的电网调控方法,其特征在于:所述步骤5的具体步骤包括:
利用相关领域的人工专家先验知识定义多条元路径,具体方法可为:
(1)依据知识图谱中包含的电网设备节点状态类型和故障处置类型生成一系列的三元组;
(2)依据人工专家的先验知识,对这些存在关系的三元组进行关联,最终制定出多条具有先验指导意义的元路径,可以有效地指导强化学习智能体在对应状态下进行故障处置动作选择。
6.根据权利要求1所述的一种基于多模态强化学习的电网调控方法,其特征在于:所述步骤6的具体步骤包括:
(1)获取根据专家先验知识定义好的多条元路径;
(2)在强化学习中智能体的路径探索尝试过程中,参照定义好的元路径来指导当前电力设备状态进行动作选择,产生下一时刻状态,以此类推直到状态结束,最终生成从源状态到目标状元的路径
(3)通过定义好的多跳评分函数对源状态和目标状态进行相关性计算,获得强化学习的奖励函数。
7.根据权利要求1所述的一种基于多模态强化学习的电网调控方法,其特征在于:所述步骤7的具体步骤包括:
(1)选择policy-based的强化学习模型;
(2)状态定义即在t时刻,状态定义为一个三元组,其中u属于电网设备节点状态类型的实体集U,在这里是指决策过程的起始点,而则表示智能体在t步之后到达的实体,最后的这个表示走到t步之前历史记录。它们组成了当前时刻的状态。
根据以上定义,显然,初始化状态表示为:
终止时刻T的状态可以表示为:
sT=(u,er,hr)
(3)动作定义即在某一时刻t的状态下,智能体都会有一个对应的动作空间,该动作空间包含了t时刻下实体的所有出度边的集合,然后实体不包含历史中存在的实体即:
(4)强化学习的软奖励定义:这种软奖励机制的获取依据多跳评分函数,基于此,终止状态获得的奖励定义为:
(5)状态转移概率即在马尔科夫决策过程中,假设已知当前时刻t所处的状态,以及当前状态下,根据路径搜索策略,然后执行动作,智能体将会到达下一个状态。就在执行一个动作后到下一个状态的这个过程中存在一个状态转移概率的定义,这里将状态转移概率定义为:
而初始状态是由最开始电网设备节点状态所决定的;
(6)折扣因子即在马尔科夫决策过程中,智能体为了获得更多的奖励,往往不只会考虑到当前获得的及时奖励,还会参考到未来状态下获得的及时奖励。在给定的一个确定马尔科夫决策过程的周期中,某一时刻t对应状态下的总的奖励可以定义为:
Gt=Rt+1+γRt+2+γ2Rt+3+…+γT-t-1RT
即当前的及时奖励和未来的奖励值折扣的叠加,其中T表示的是终止状态;
(7)策略优化即在马尔科夫决策过程中,我们的目标是学习一个优秀的搜索策略,这个搜索策略可以让以任意起始的电网设备节点状态在搜索的周期内都可以获得最大化的累计回报,即公式定义为:
最终生成一个policy-based的强化学习框架。
8.根据权利要求1所述的一种基于多模态强化学习的电网调控方法,其特征在于:所述步骤8的具体步骤包括:
(1)首先依据步骤3中产生的多模态信息融合模块将电力设备节点的多模态信息进行融合表示,得到电力设备节点状态的Embedding和故障处置动作的Embedding集;其次我们会定义出一个基于注意力机制的剪枝模块,该模块将故障处置动作的Embedding与对应电网设备节点的状态Embedding进行相关性计算,依据相关性大小进行排序,然后从相关性比较大的一部分动作空间中随机采样出指定数量的动作集合,生成拥有的有效动作构成的掩码动作空间,进而完成动作剪枝;最后我们使用步骤7中定义的policy-based的强化学习框架,主要用来学习到一个路径搜索策略,以计算出当前状态下,在它拥有的有效动作构成的掩码动作空间中,每个动作被选择的一种概率分布即;神经网络的输入为当前节点所拥有的动作空间和此时的状态,输出为动作空间中每个动作的概率分布,然后使用掩码操作删除无效动作,将结果输入到softmax中,生成最终的动作概率分布;其次定义出评论家网络,critic network架构主要用来学习到一个用于评估状态的能力,以计算出当前状态下,critic network对它的价值评估;该神经网络的输入为当前节点此时的状态,输出为对该状态的价值评估;
(2)设置训练的迭代次数epochs,从epochs等于1开始训练;
(3)由步骤3的第(5)步中对整体数据集中的多模态数据和动作进行表示学习即Embedding,然后将数据批量分别输入到actor network和critic network中,分别获得动作空间中每个动作的概率分布和对该状态的价值评估;
(4)计算critc预估值和真实的评估价值的损失函数最小化,以及计算当前动作概率与当前动作带来奖励的乘积最大化,同事定义一个保证模型探索与开发均衡的熵,让熵最大化;
(5)在epochs定义的值范围内,重复步骤8的第(3)步至第(4)步中的步骤,最终训练出一个多模态强化学习的网络框架模型,进而产生基于多模态强化学习的电网调控策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111238427.1A CN113947320B (zh) | 2021-10-25 | 2021-10-25 | 一种基于多模态强化学习的电网调控方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111238427.1A CN113947320B (zh) | 2021-10-25 | 2021-10-25 | 一种基于多模态强化学习的电网调控方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113947320A CN113947320A (zh) | 2022-01-18 |
CN113947320B true CN113947320B (zh) | 2024-05-28 |
Family
ID=79332048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111238427.1A Active CN113947320B (zh) | 2021-10-25 | 2021-10-25 | 一种基于多模态强化学习的电网调控方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113947320B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114626530A (zh) * | 2022-03-14 | 2022-06-14 | 电子科技大学 | 一种基于双边路径质量评估的强化学习知识图谱推理方法 |
CN115099606B (zh) * | 2022-06-21 | 2024-06-07 | 厦门亿力吉奥信息科技有限公司 | 一种电网调度模型的训练方法及终端 |
CN116910633B (zh) * | 2023-09-14 | 2024-01-23 | 北京科东电力控制系统有限责任公司 | 一种基于多模态知识混合推理的电网故障预测方法 |
CN117196354B (zh) * | 2023-11-08 | 2024-01-30 | 国网浙江省电力有限公司 | 一种多模态感知与领域图谱模型的智能决策方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533054A (zh) * | 2018-05-25 | 2019-12-03 | 中国电力科学研究院有限公司 | 一种多模态自适应机器学习方法及装置 |
CN112100392A (zh) * | 2020-07-28 | 2020-12-18 | 浙江大学 | 一种基于强化学习和知识图谱的设备故障溯因方法 |
CN113283704A (zh) * | 2021-04-23 | 2021-08-20 | 内蒙古电力(集团)有限责任公司乌兰察布电业局 | 基于知识图谱的电网故障智能处置系统及方法 |
CN113283602A (zh) * | 2021-05-19 | 2021-08-20 | 国网辽宁省电力有限公司 | 基于离线知识学习和在线动态修正电网系统故障诊断方法 |
CN113420162A (zh) * | 2021-06-24 | 2021-09-21 | 国网天津市电力公司 | 一种基于知识图谱的设备运行链状态监测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200119556A1 (en) * | 2018-10-11 | 2020-04-16 | Di Shi | Autonomous Voltage Control for Power System Using Deep Reinforcement Learning Considering N-1 Contingency |
-
2021
- 2021-10-25 CN CN202111238427.1A patent/CN113947320B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533054A (zh) * | 2018-05-25 | 2019-12-03 | 中国电力科学研究院有限公司 | 一种多模态自适应机器学习方法及装置 |
CN112100392A (zh) * | 2020-07-28 | 2020-12-18 | 浙江大学 | 一种基于强化学习和知识图谱的设备故障溯因方法 |
CN113283704A (zh) * | 2021-04-23 | 2021-08-20 | 内蒙古电力(集团)有限责任公司乌兰察布电业局 | 基于知识图谱的电网故障智能处置系统及方法 |
CN113283602A (zh) * | 2021-05-19 | 2021-08-20 | 国网辽宁省电力有限公司 | 基于离线知识学习和在线动态修正电网系统故障诊断方法 |
CN113420162A (zh) * | 2021-06-24 | 2021-09-21 | 国网天津市电力公司 | 一种基于知识图谱的设备运行链状态监测方法 |
Non-Patent Citations (1)
Title |
---|
汪浩祥 ; 严洪森.基于SAUBQ学习的知识化制造系统自适应调度策略.系统工程理论与实践.34(7),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113947320A (zh) | 2022-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113947320B (zh) | 一种基于多模态强化学习的电网调控方法 | |
Lai et al. | Policy-gnn: Aggregation optimization for graph neural networks | |
Zhu et al. | Causal discovery with reinforcement learning | |
Gonzalez et al. | Improved training speed, accuracy, and data utilization through loss function optimization | |
Reuss et al. | Goal-conditioned imitation learning using score-based diffusion policies | |
Hasanbeig et al. | DeepSynth: Automata synthesis for automatic task segmentation in deep reinforcement learning | |
Moerland et al. | A0c: Alpha zero in continuous action space | |
CN113988508B (zh) | 一种基于强化学习的电网调控策略优化方法 | |
Weiss et al. | Learning adaptive value of information for structured prediction | |
Zhan et al. | Human-guided robot behavior learning: A gan-assisted preference-based reinforcement learning approach | |
CN111198966B (zh) | 基于多智能体边界感知网络的自然语言视频片段检索方法 | |
Wang et al. | Model-based meta reinforcement learning using graph structured surrogate models and amortized policy search | |
CN115099606A (zh) | 一种电网调度模型的训练方法及终端 | |
CN115731498B (zh) | 一种联合强化学习和对比学习的视频摘要生成方法 | |
Gao et al. | Searching for robustness: Loss learning for noisy classification tasks | |
CN117435715A (zh) | 一种基于辅助监督信号改进时序知识图谱的问答方法 | |
Aineto et al. | A comprehensive framework for learning declarative action models | |
Li et al. | Robot patrol path planning based on combined deep reinforcement learning | |
Zhang et al. | Universal value iteration networks: When spatially-invariant is not universal | |
CN115309908A (zh) | 一种基于人机协同结合逆强化学习的电网调控方法 | |
Ma et al. | Exploiting bias for cooperative planning in multi-agent tree search | |
Zheng et al. | Variance reduction based partial trajectory reuse to accelerate policy gradient optimization | |
Hu et al. | AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies | |
Huang et al. | Learning to reweight imaginary transitions for model-based reinforcement learning | |
Tang et al. | Deep sparse representation via deep dictionary learning for reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |