CN115099606A - 一种电网调度模型的训练方法及终端 - Google Patents
一种电网调度模型的训练方法及终端 Download PDFInfo
- Publication number
- CN115099606A CN115099606A CN202210705629.0A CN202210705629A CN115099606A CN 115099606 A CN115099606 A CN 115099606A CN 202210705629 A CN202210705629 A CN 202210705629A CN 115099606 A CN115099606 A CN 115099606A
- Authority
- CN
- China
- Prior art keywords
- power grid
- state
- scheduling
- model
- grid dispatching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000002787 reinforcement Effects 0.000 claims abstract description 85
- 238000005070 sampling Methods 0.000 claims abstract description 17
- 230000009471 action Effects 0.000 claims description 70
- 230000006870 function Effects 0.000 claims description 41
- 230000007704 transition Effects 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 31
- 239000003795 chemical substances by application Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Water Supply & Treatment (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Public Health (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Power Engineering (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种电网调度模型的训练方法及终端,从获取的电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合,并使用正样本序列对集合和负样本序列对集合对预设的语义对齐模型进行更新,得到更新后的语义对齐模型;基于电网调度历史数据集和更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型;根据更新后的语义对齐模型和训练后的强化学习模型得到电网调度模型,能够对不同时序但可达成同一语义的序列信息进行类似理解,提升了强化学习的探索能力,使生成的电网调度策略更合理,准确率更高,且提高了电网调度策略的多样性,从而有效提高了电网调度模型生成的电网调度策略的准确率和多样性。
Description
技术领域
本发明涉及电网调度技术领域,尤其涉及一种电网调度模型的训练方法及终端。
背景技术
电网调度是指电网调度机构为保障电网的安全、优质、经济运行,对电网运行进行的组织、指挥、指导和协调。现有的电网调度模型是基于包括电网本身资源、作业、环境在内的外部信息进行有效融合得到电网调度中电网节点的状态信息,且采用自编码器对这些数据进行特征提取,直接对时空关联信息进行融合;另外,在利用强化学习来获得电网调度策略的时候,动作空间的构建采用的是基于多动作动态组合的模式,也就是每个电网状态对应动作空间中的每一个动作均是由两个动作动态组合而成,这样,一方面更符合电网调度的手段,即大多采用多方面配合调度,另一方面动作动态组合也使得调度决策变动更加灵活,但仍存在以下缺点:
(1)没有充分考虑到状态转移矩阵的语义,在状态节点和指令动作层次匹配时会导致路径过于单一,不利于强化学习的探索,使得电网调度模型生成的调度策略不够合理,准确率也不高;
(2)未对从同一源状态到同一目标状态的不同状态转移矩阵进行对齐,如此监督更新的强化学习策略不利于同一源状态同一目标的不同指令序列生成,导致指令序列的生成缺乏多样性,可能会导致生成的调度指令序列只有一个方案,缺乏预备方案。
发明内容
本发明所要解决的技术问题是:提供一种电网调度模型的训练方法及终端,能够有效提高电网调度模型生成的电网调度策略的准确率和多样性。
为了解决上述技术问题,本发明采用的一种技术方案为:
一种电网调度模型的训练方法,包括步骤:
获取电网调度历史数据集;
从所述电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合,并使用所述正样本序列对集合和负样本序列对集合对预设的语义对齐模型进行更新,得到更新后的语义对齐模型,所述语义对齐模型基于孪生GRU网络;
基于所述电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型,所述强化学习模型基于演说家-评论家算法;
根据所述更新后的语义对齐模型和所述训练后的强化学习模型得到电网调度模型。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种电网调度模型的训练终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取电网调度历史数据集;
从所述电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合,并使用所述正样本序列对集合和负样本序列对集合对预设的语义对齐模型进行更新,得到更新后的语义对齐模型,所述语义对齐模型基于孪生GRU网络;
基于所述电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型,所述强化学习模型基于演说家-评论家算法;
根据所述更新后的语义对齐模型和所述训练后的强化学习模型得到电网调度模型。
本发明的有益效果在于:通过使用正负样本序列对集合对预设的基于孪生GRU网络的语义对齐模型进行训练,使最终训练得到的基于孪生GRU网络的语义对齐模型能对同一目标的不同序列信息实现同一理解,完成序列信息语义对齐,基于电网调度历史数据集和更新后的基于孪生GRU网络的语义对齐模型对基于演说家-评论家算法的强化学习模型进行训练,基于孪生GRU网络的语义对齐模型可对强化学习生成的状态集合和指令序列构成的时序信息进行语义提取,且以语义级别的监督对抗来更新强化学习策略,语义级别的对抗相对于现有技术中的状态和指令动作的离散对抗会更加合理,能够对不同时序但可达成同一语义的序列信息进行类似理解,提升了强化学习的探索能力,使生成的电网调度策略更合理,准确率更高,且提高了电网调度策略的多样性,即针对某一目标可以提供不同的调度方案,从而有效提高了电网调度模型生成的电网调度策略的准确率和多样性。
附图说明
图1为本发明实施例的一种电网调度模型的训练方法的步骤流程图;
图2为本发明实施例的一种电网调度模型的训练终端的结构示意图;
图3为本发明实施例电网调度模型的训练方法中的图表示学习示意图;
图4为本发明实施例电网调度模型的训练方法中的语义对齐示意图;
图5为本发明实施例电网调度模型的训练方法中的电网调度模型示意图。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1,本发明实施例提供了一种电网调度模型的训练方法,包括步骤:
获取电网调度历史数据集;
从所述电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合,并使用所述正样本序列对集合和负样本序列对集合对预设的语义对齐模型进行更新,得到更新后的语义对齐模型,所述语义对齐模型基于孪生GRU网络;
基于所述电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型,所述强化学习模型基于演说家-评论家算法;
根据所述更新后的语义对齐模型和所述训练后的强化学习模型得到电网调度模型。
从上述描述可知,本发明的有益效果在于:通过使用正负样本序列对集合对预设的基于孪生GRU网络的语义对齐模型进行训练,使最终训练得到的基于孪生GRU网络的语义对齐模型能对同一目标的不同序列信息实现同一理解,完成序列信息语义对齐,基于电网调度历史数据集和更新后的基于孪生GRU网络的语义对齐模型对基于演说家-评论家算法的强化学习模型进行训练,基于孪生GRU网络的语义对齐模型可对强化学习生成的状态集合和指令序列构成的时序信息进行语义提取,且以语义级别的监督对抗来更新强化学习策略,语义级别的对抗相对于现有技术中的状态和指令动作的离散对抗会更加合理,能够对不同时序但可达成同一语义的序列信息进行类似理解,提升了强化学习的探索能力,使生成的电网调度策略更合理,准确率更高,且提高了电网调度策略的多样性,即针对某一目标可以提供不同的调度方案,从而有效提高了电网调度模型生成的电网调度策略的准确率和多样性。
进一步地,所述获取电网调度历史数据集包括:
获取电网调度历史数据集,所述电网调度历史数据集包括电网状态集和与所述电网状态集对应的电网调度动作集;
根据所述电网调度历史数据集构建电网调度知识图谱;
根据所述电网调度知识图谱和所述状态之间的关系对所述电网状态集和所述电网调度动作集进行图表示学习,得到所述电网状态集对应的第一embedding向量和所述电网调度动作集对应的第二embedding向量;
根据所述第一embedding向量和所述第二embedding向量对所述电网调度历史数据集进行语义赋值,得到具有语义表达的电网调度历史数据集;
所述从所述电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合包括:
从所述具有语义表达的电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合;
所述基于所述电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型包括:
基于所述具有语义表达的电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型。
由上述描述可知,根据电网状态集对应的第一embedding向量和电网调度动作集对应的第二embedding向量对电网调度历史数据集进行语义赋值,实现了电网调度历史数据集的语义更新,使电网调度历史数据集具有语义信息,能够消除电网调度历史数据集的不确定性,有利于提高电网调度模型的准确率。
进一步地,所述电网调度历史数据集还包括调度记录;
所述根据所述电网调度历史数据集构建电网调度知识图谱包括:
将所述电网状态集中的每一电网状态确定为实体节点,并将所述电网调度动作集中的每一电网调度动作确定为关系边;
根据所述调度记录将所述实体节点与所述关系边进行关联,得到电网调度知识图谱。
由上述描述可知,将每一电网状态确定为实体节点,并将每一电网调度动作确定为关系边,根据调度记录将实体节点与关系边进行关联,得到电网调度知识图谱,以此实现了电网调度知识图谱的构建。
进一步地,所述从所述具有语义表达的电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合包括:
从所述具有语义表达的电网调度历史数据集获取同一源状态至同一目标状态的第一调度路径序列,并将所述第一调度路径序列确定为正样本序列对集合;
从所述具有语义表达的电网调度历史数据集获取同一源状态至不同目标状态的第二调度路径序列,并将所述第二调度路径序列确定为负样本序列对集合。
由上述描述可知,将同一源状态至同一目标状态的第一调度路径序列确定为正样本序列对集合,将同一源状态至不同目标状态的第二调度路径序列确定为负样本序列对集合,后续利用正样本序列对集合和负样本序列对集合对语义对齐模型进行训练,能够使语义对齐模型对达到同一目标的不同时序信息实现同一理解。
进一步地,所述使用所述正样本序列对集合和负样本序列对集合对预设的语义对齐模型进行更新,得到更新后的语义对齐模型包括:
将所述正样本序列对集合和负样本序列对集合输入至预设的语义对齐模型,得到所述正样本序列对集合对应的第一损失和所述负样本序列对集合对应的第二损失;
通过最大化所述第二损失和最小化所述第一损失更新所述预设的语义对齐模型的参数,得到更新后的语义对齐模型。
由上述描述可知,通过最大化第二损失和最小化第一损失更新预设的语义对齐模型的参数,以此完成了基于孪生GRU网络的语义对齐模型的训练。
进一步地,所述基于所述具有语义表达的电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型之前包括:
基于所述电网调度知识图谱确定多跳评分函数;
构建多条基于状态的调度元路径;
获取当前电网状态;
基于预设调度周期根据所述基于状态的调度元路径进行所述当前电网状态的调度动作选择,生成从源状态到目标状态的状态转移路径;
使用所述多跳评分函数对所述源状态和所述目标状态进行相关性计算,得到强化学习的第一奖励函数;
所述基于所述具有语义表达的电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型包括:
根据所述电网调度知识图谱、所述第一embedding向量和所述第二embedding向量生成具有语义信息的电网调度知识图谱;
确定训练迭代次数;
根据所述训练迭代次数将所述电网状态集和所述电网调度动作集输入至强化学习模型,得到每一动作的概率分布和状态的价值评估;
基于所述每一动作的概率分布和状态的价值评估生成第一状态转移矩阵;
从所述具有语义表达的电网调度历史数据集中采样出与所述第一状态转移矩阵对应的第二状态转移矩阵;
将所述第一状态转移矩阵和所述第二状态转移矩阵输入所述更新后的语义对齐模型计算语义误差损失,并将所述语义误差损失确定为第二奖励函数;
将所述第一奖励函数和所述第二奖励函数进行累加,得到总奖励函数;
基于所述总奖励函数进行训练,得到训练后的强化学习模型。
由上述描述可知,将强化学习策略生成的从源状态到目标状态的状态转移矩阵和基于电网调度历史数据集生成的状态转移矩阵都通过基于孪生GRU网络的语义对齐模型中的任意一个网络来进行语义生成对抗,达到监督基于强化学习电网调度策略更新的目的,其中得到的总奖励函数用于驱动整个强化学习策略更新。
进一步地,所述基于所述具有语义表达的电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型之前还包括:
确定演说家网络以及评论家网络;
基于所述演说家网络以及评论家网络得到强化学习模型。
由上述描述可知,演说家网络(actornetwork)主要用来学习一个路径搜索策略,用来计算当前状态下节点对应的有效动作空间中,每个动作被选择的概率分布,而评论家网络(critic network)主要用来评估当前状态的价值,基于演说家-评论家算法的强化学习模型能够保证强化学习效果。
进一步地,所述基于所述电网调度知识图谱确定多跳评分函数包括:
确定初始多跳路径的首位实体和结尾实体;
根据所述电网调度知识图谱判断所述首位实体与所述结尾实体之间是否存在多个中间实体及关系,若是,则根据所述首位实体、所述结尾实体和所述多个中间实体及关系确定有效多跳路径;
式中,e0表示所述首位实体,j表示所述有效多跳路径中第j个实体节点,rs表示第s个关系,et表示所述结尾实体,t表示所述有效多跳路径中的节点数量,bet表示偏置值。
由上述描述可知,多跳评分函数可用于计算源状态和目标状态之间的相关性,以作为强化学习的部分奖励函数。
进一步地,所述构建多条基于状态的调度元路径包括:
根据所述电网调度知识图谱确定电网状态类型和电网调度动作类型,并根据所述电网状态类型和电网调度动作类型生成一系列的三元组;
对所述一系列的三元组进行关联,得到关联后的三元组,并根据所述关联后的三元组构建多条基于状态的调度元路径。
由上述描述可知,构建的多条基于状态的调度元路径可以有效地指导强化学习智能体在对应状态下进行调度动作选择,有利于提高生成的电网调度策略的准确率和合理性。
请参照图2,本发明另一实施例提供了一种电网调度模型的训练终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述电网调度模型的训练方法中的各个步骤。
本发明上述的一种电网调度模型的训练方法及终端能够适用于针对某一种状态或者想达到某一种状态的电网系统,且电网系统需要至少一种自动化调度指令序列的场景,以下通过具体实施方式进行说明:
实施例一
请参照图1和图3~图5,本实施例的一种电网调度模型的训练方法,包括步骤:
S1、获取电网调度历史数据集,具体包括:
S11、获取电网调度历史数据集,所述电网调度历史数据集包括电网状态集、与所述电网状态集对应的电网调度动作集以及调度记录;
S12、根据所述电网调度历史数据集构建电网调度知识图谱,具体包括:
S121、将所述电网状态集中的每一电网状态确定为实体节点,并将所述电网调度动作集中的每一电网调度动作确定为关系边;
S122、根据所述调度记录将所述实体节点与所述关系边进行关联,得到电网调度知识图谱;
S13、根据所述电网调度知识图谱和所述状态之间的关系对所述电网状态集和所述电网调度动作集进行图表示学习,得到所述电网状态集对应的第一embedding向量和所述电网调度动作集对应的第二embedding向量,如图3所示,具体包括:
S131、确定所述电网状态集中每一电网状态对应的实体类,并将所述实体类的个数确定为n;
S132、确定强化学习中每一所述电网状态的输入维度大小为embed_size;
S133、根据每一所述实体类包含的电网状态个数m对所述实体类进行图表示学习初始化,初始化向量的维度为m*embed_size;
S134、确定所述电网调度动作集中的电网调度动作的初始化向量维度为1*embed_size;
S135、从电网调度历史数据集获取对应的调度记录,该记录中包含n个实体类对应的实例记录,将所述实例记录作为一个n元组;
S136、基于所述n元组生成对应的存在关系的的三元组(即状态i,调度动作r,状态j),这类三元组的个数记作k,将k个所述三元组输入图表示学习算法TransD共同进行损失训练,生成所述电网状态集对应的第一embedding向量和所述电网调度动作集对应的第二embedding向量,如图3所示;
S14、根据所述第一embedding向量和所述第二embedding向量对所述电网调度历史数据集进行语义赋值,得到具有语义表达的电网调度历史数据集;
其中,所述电网调度历史数据集中的数据根据index从向量空间中进行采样,获得对应样本的表示向量(所述第一embedding向量和所述第二embedding向量)即实现了语义赋值;
S2、从所述电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合,并使用所述正样本序列对集合和负样本序列对集合对预设的语义对齐模型进行更新,得到更新后的语义对齐模型,所述语义对齐模型基于孪生GRU网络;
具体的,从所述具有语义表达的电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合,并使用所述正样本序列对集合和负样本序列对集合对预设的语义对齐模型进行更新,得到更新后的语义对齐模型,所述语义对齐模型基于孪生GRU网络,如图4所示,具体包括:
S21、从所述具有语义表达的电网调度历史数据集获取同一源状态至同一目标状态的第一调度路径序列,并将所述第一调度路径序列确定为正样本序列对集合;
S22、从所述具有语义表达的电网调度历史数据集获取同一源状态至不同目标状态的第二调度路径序列,并将所述第二调度路径序列确定为负样本序列对集合;
其中,所述正样本序列对集合中的正样本序列对数量与所述负样本序列对集合中的负样本序列对数量相同;
S23、将所述正样本序列对集合和负样本序列对集合输入至预设的语义对齐模型,得到所述正样本序列对集合对应的第一损失和所述负样本序列对集合对应的第二损失;
其中,所述预设的语义对齐模型的模型架构为两个共享参数的并列GRU网络,两个GRU网络用于获取序列对对应的两个序列的语义,输出为对两个序列对的理解;
S24、通过最大化所述第二损失和最小化所述第一损失更新所述预设的语义对齐模型的参数,得到更新后的语义对齐模型;
S3、基于所述电网调度知识图谱确定多跳评分函数,具体包括:
S31、确定初始多跳路径的首位实体和结尾实体;
S32、根据所述电网调度知识图谱判断所述首位实体与所述结尾实体之间是否存在多个中间实体及关系,若是,则根据所述首位实体、所述结尾实体和所述多个中间实体及关系确定有效多跳路径;
具体的,根据所述电网调度知识图谱判断所述首位实体与所述结尾实体之间是否存在多个中间实体(如{e0,e1,...,et-1})及关系(如{r1,r2,...,rt}),若是,则根据所述首位实体、所述结尾实体和所述多个中间实体及关系确定有效多跳路径
式中,e0表示所述首位实体,j表示所述有效多跳路径中第j个实体节点,rs表示第s个关系,et表示所述结尾实体,t表示所述有效多跳路径中的节点数量,bet表示偏置值;
其中,当t=0,且j=0时,所述多跳评分函数表示两个实体向量之间的相似度,即:
当t=1,且j=1时,所述多跳评分函数表示首位实体加关系后和结尾实体之间的相似度,即:
S4、构建多条基于状态的调度元路径,具体包括:
S41、根据所述电网调度知识图谱确定电网状态类型和电网调度动作类型,并根据所述电网状态类型和电网调度动作类型生成一系列的三元组;
S42、对所述一系列的三元组进行关联,得到关联后的三元组,并根据所述关联后的三元组构建多条基于状态的调度元路径;
具体的,按照人工先验知识对所述一系列的三元组进行关联,得到关联后的三元组,并根据所述关联后的三元组构建多条基于状态的调度元路径,可以有效地指导强化学习智能体在对应状态下进行调度动作选择;
S5、获取当前电网状态,所述当前电网状态为待改变的当前时刻的某一状态;
S6、基于预设调度周期根据所述基于状态的调度元路径进行所述当前电网状态的调度动作选择,生成从源状态到目标状态的状态转移路径;
其中,本实施例中所述预设调度周期为4个step的调度指令,即从源状态到目标状态需要执行的调度动作个数达到4个作为一个调度周期;
具体的,在强化学习中智能体的路径探索尝试过程中,根据基于状态的调度元路径进行当前电网状态进行调度动作选择,使得当前状态转移到下一个状态,依次类推直到达到预设调度周期,最终生成从源状态到目标状态的状态转移路径,生成的从源状态到目标状态的状态转移路径中的源状态即所述当前电网状态;
S7、使用所述多跳评分函数对所述源状态和所述目标状态进行相关性计算,得到强化学习的第一奖励函数;
S8、确定演说家网络以及评论家网络;
其中,演说家网络(actornetwork)主要用来学习一个路径搜索策略,用来计算当前状态下节点对应的有效动作空间中,每个动作被选择的概率分布,演说家网络的输入为当前节点所拥有的动作空间和此时对应的状态,演说家网络的输出为动作空间中每个动作的概率分布,然后使用掩码操作删除无效动作,再将结果输入到softmax中,生成最终的动作概率分布;
评论家网络(critic network)主要用来评估当前状态的价值,其输入为当前节点此时的状态,输出为对该状态的价值评估;
S9、基于所述演说家网络以及评论家网络得到强化学习模型,具体包括:
S91、定义状态:在t时刻,将状态st定义为一个三元组(u,et,ht),其中,u属于电网状态类型的实体集U,指决策过程的起始点,而et则表示智能体在t步之后到达的实体,最后的ht表示走到t步之前历史记录,它们组成了当前时刻的状态;因此,将初始化状态表示为将终止时刻T的状态表示为sT=(u,eT,hT);
S92、定义动作:即在t时刻的状态st下,智能体会存在一个对应的动作空间,该动作空间包含了t时刻下实体et的所有出度边的集合,然后实体不包含历史中存在的实体即:
S94、定义状态转移概率:状态转移概率即在马尔科夫决策过程中,假设已知当前时刻t所处的状态,在该状态下根据路径搜索策略以及执行动作,智能体将会到达下一个状态,在执行一个动作后到下一个状态的这个过程中存在状态转移概率的定义,将状态转移概率定义为:
S95、定义折扣因子:即在马尔科夫决策过程中,智能体为了获得更多的奖励,往往不只会考虑到当前获得的及时奖励,还会参考到未来状态下获得的及时奖;在给定的一个确定马尔科夫决策过程的周期中,某一时刻t对应状态下的总奖励定义为:Gt=Rt+1+γRt+2+γ2Rt+3+…+γT-t-1RT;即当前的及时奖励和未来的奖励值折扣的叠加,其中,T表示终止状态;因为环境往往是随机的,执行特定的动作不一定会得到特定的状态,所以对将来的奖励来说,它们相比于当前状态下的奖励应该是衰减的,这也就是使用折扣因子γ的目的,其中,γ属于[0,1],表示距离当前状态越远的奖励,它们需要折扣的越多,最终的任务则是训练出一个策略使用的获得最终收益R的最大化;
S96、t时刻在电网调度历史数据集监督机制下产生奖励函数,策略优化即在马尔科夫决策过程中,目标是学习一个优秀的搜索策略,这个搜索策略可以让以任意电网状态作为起始状态,在搜索的预设调度周期内都可以获得最大化的累计回报,公式定义为:其中,RE,R表示第二奖励函数;
S10、基于所述电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型,所述强化学习模型基于演说家-评论家算法;
具体的,基于所述具有语义表达的电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型,所述强化学习模型基于演说家-评论家算法,如图5所示,具体包括:
S101、根据所述电网调度知识图谱、所述第一embedding向量和所述第二embedding向量生成具有语义信息的电网调度知识图谱;
S102、确定训练迭代次数epochs;
S103、根据所述训练迭代次数将所述电网状态集和所述电网调度动作集输入至强化学习模型,得到每一动作的概率分布和状态的价值评估;
S104、基于所述每一动作的概率分布和状态的价值评估生成第一状态转移矩阵;
S105、从所述具有语义表达的电网调度历史数据集中采样出与所述第一状态转移矩阵对应的第二状态转移矩阵;
其中,所述第二状态转移矩阵与所述第一状态转移矩阵为同源状态和同目标状态的一个预设周期的状态转移矩阵;
S106、将所述第一状态转移矩阵和所述第二状态转移矩阵输入所述更新后的语义对齐模型计算语义误差损失,并将所述语义误差损失确定为第二奖励函数;
其中,所述第二奖励函数为:
RE,R=MSE(SE,SR);
式中,SE表示所述第二状态转移矩阵,SR表示所述第一状态转移矩阵,MSE()表示深度学习中的均方误差函数;
S107、将所述第一奖励函数和所述第二奖励函数进行累加,得到总奖励函数;
S108、基于所述总奖励函数进行训练,得到训练后的强化学习模型;
具体的,通过计算评论家网络对状态的预估值和在该状态下获得的两部分奖励的叠加值作损失函数最小化以及计算当前动作概率与当前动作带来奖励的乘积最大化操作,同时定义一个保证模型探索与开发均衡的熵,最大化熵,以进行训练,得到训练后的强化学习模型;
S11、根据所述更新后的语义对齐模型和所述训练后的强化学习模型得到电网调度模型;
本发明假设在某一电网检修与抢修调度场景下,某一调度方案需要电网数据同时需要结合地理数据、作业数据和现有环境资源情况来做调度;当知道现有的电网情况+资源情况+地理环境状态+人员配置状况,依据这一状态可以根据神经网络去评估这一状态,然后做出当前觉得最优的策略动作,即在什么样的环境下,针对某一电网状态,安排什么人用什么资源去改变这一电网状态;当然由于资源、环境和人员等问题,针对某一状态只进行一步调度也许不能达到想要调控到的最终状态,因此在训练的时候结合知识图谱和元路径去训练,以此构建到某一目标状态的奖励函数,用于驱动策略选择,以便原始电网状态往目标电网状态靠近;
由于GRU网络可以提取时序类别序列的语义,本发明采取GRU网络对强化学习生成的状态集合和动作序列构成的时序信息进行语义提取,同样使用GRU网络对电网历史调度经验状态转移矩阵构成的时序信息进行语义提取,使用语义层面的监督对抗更新强化学习策略更新,相比于状态指令这些实体关系级别的对抗会更加合理,可以对不同时序但可达成同一语义的序列信息进行类似理解,间接提升了强化学习的探索能力,从而提高了电网调度策略的合理性和准确率;
由于孪生GRU网络对不同输入的相似或者同一特征的获取具有很好的效果,本发明采取基于孪生GRU网络的语义对齐模型对不同序列信息进行语义理解对齐,即输入原则上可达到同一效果的序列对到孪生GRU网络中,两个GRU网络对不同序列的理解输出约束为相近,而输入原则上不可达到同一效果的序列对到孪生GRU网络中,两个GRU网络对这一对序列信息的理解输出约束为疏远,这样使用序列对集合训练孪生GRU网络,最终训练出来的语义对齐模型可以对达到同一目标的不同时序信息实现同一理解,完成序列信息语义对齐,进而提高电网调度模型生成的电网调度策略的多样性。
实施例二
请参照图2,本实施例的一种电网调度模型的训练终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例一中的电网调度模型的训练方法中的各个步骤。
综上所述,本发明提供的一种电网调度模型的训练方法及终端,获取电网调度历史数据集;从所述电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合,并使用所述正样本序列对集合和负样本序列对集合对预设的语义对齐模型进行更新,得到更新后的语义对齐模型,所述语义对齐模型基于孪生GRU网络;基于所述电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型,所述强化学习模型基于演说家-评论家算法;根据所述更新后的语义对齐模型和所述训练后的强化学习模型得到电网调度模型,通过使用正负样本序列对集合对语义对齐模型进行训练,使最终训练得到的语义对齐模型能对同一目标的不同序列信息实现同一理解,完成序列信息语义对齐,基于孪生GRU网络的语义对齐模型可对强化学习生成的状态集合和指令序列构成的时序信息进行语义提取,且以语义级别的监督对抗来更新强化学习策略,语义级别的对抗相对于现有技术中的状态和指令动作的离散对抗会更加合理,能够对不同时序但可达成同一语义的序列信息进行类似理解,提升了强化学习的探索能力,使生成的电网调度策略更合理,准确率更高,且提高了电网调度策略的多样性,即针对某一目标可以提供不同的调度方案,从而有效提高了电网调度模型生成的电网调度策略的准确率和多样性。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种电网调度模型的训练方法,其特征在于,包括步骤:
获取电网调度历史数据集;
从所述电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合,并使用所述正样本序列对集合和负样本序列对集合对预设的语义对齐模型进行更新,得到更新后的语义对齐模型,所述语义对齐模型基于孪生GRU网络;
基于所述电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型,所述强化学习模型基于演说家-评论家算法;
根据所述更新后的语义对齐模型和所述训练后的强化学习模型得到电网调度模型。
2.根据权利要求1所述的一种电网调度模型的训练方法,其特征在于,所述获取电网调度历史数据集包括:
获取电网调度历史数据集,所述电网调度历史数据集包括电网状态集和与所述电网状态集对应的电网调度动作集;
根据所述电网调度历史数据集构建电网调度知识图谱;
根据所述电网调度知识图谱和所述状态之间的关系对所述电网状态集和所述电网调度动作集进行图表示学习,得到所述电网状态集对应的第一embedding向量和所述电网调度动作集对应的第二embedding向量;
根据所述第一embedding向量和所述第二embedding向量对所述电网调度历史数据集进行语义赋值,得到具有语义表达的电网调度历史数据集;
所述从所述电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合包括:
从所述具有语义表达的电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合;
所述基于所述电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型包括:
基于所述具有语义表达的电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型。
3.根据权利要求2所述的一种电网调度模型的训练方法,其特征在于,所述电网调度历史数据集还包括调度记录;
所述根据所述电网调度历史数据集构建电网调度知识图谱包括:
将所述电网状态集中的每一电网状态确定为实体节点,并将所述电网调度动作集中的每一电网调度动作确定为关系边;
根据所述调度记录将所述实体节点与所述关系边进行关联,得到电网调度知识图谱。
4.根据权利要求2所述的一种电网调度模型的训练方法,其特征在于,所述从所述具有语义表达的电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合包括:
从所述具有语义表达的电网调度历史数据集获取同一源状态至同一目标状态的第一调度路径序列,并将所述第一调度路径序列确定为正样本序列对集合;
从所述具有语义表达的电网调度历史数据集获取同一源状态至不同目标状态的第二调度路径序列,并将所述第二调度路径序列确定为负样本序列对集合。
5.根据权利要求1所述的一种电网调度模型的训练方法,其特征在于,所述使用所述正样本序列对集合和负样本序列对集合对预设的语义对齐模型进行更新,得到更新后的语义对齐模型包括:
将所述正样本序列对集合和负样本序列对集合输入至预设的语义对齐模型,得到所述正样本序列对集合对应的第一损失和所述负样本序列对集合对应的第二损失;
通过最大化所述第二损失和最小化所述第一损失更新所述预设的语义对齐模型的参数,得到更新后的语义对齐模型。
6.根据权利要求2所述的一种电网调度模型的训练方法,其特征在于,所述基于所述具有语义表达的电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型之前包括:
基于所述电网调度知识图谱确定多跳评分函数;
构建多条基于状态的调度元路径;
获取当前电网状态;
基于预设调度周期根据所述基于状态的调度元路径进行所述当前电网状态的调度动作选择,生成从源状态到目标状态的状态转移路径;
使用所述多跳评分函数对所述源状态和所述目标状态进行相关性计算,得到强化学习的第一奖励函数;
所述基于所述具有语义表达的电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型包括:
根据所述电网调度知识图谱、所述第一embedding向量和所述第二embedding向量生成具有语义信息的电网调度知识图谱;
确定训练迭代次数;
根据所述训练迭代次数将所述电网状态集和所述电网调度动作集输入至强化学习模型,得到每一动作的概率分布和状态的价值评估;
基于所述每一动作的概率分布和状态的价值评估生成第一状态转移矩阵;
从所述具有语义表达的电网调度历史数据集中采样出与所述第一状态转移矩阵对应的第二状态转移矩阵;
将所述第一状态转移矩阵和所述第二状态转移矩阵输入所述更新后的语义对齐模型计算语义误差损失,并将所述语义误差损失确定为第二奖励函数;
将所述第一奖励函数和所述第二奖励函数进行累加,得到总奖励函数;
基于所述总奖励函数进行训练,得到训练后的强化学习模型。
7.根据权利要求6所述的一种电网调度模型的训练方法,其特征在于,所述基于所述具有语义表达的电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练,得到训练后的强化学习模型之前还包括:
确定演说家网络以及评论家网络;
基于所述演说家网络以及评论家网络得到强化学习模型。
9.根据权利要求6所述的一种电网调度模型的训练方法,其特征在于,所述构建多条基于状态的调度元路径包括:
根据所述电网调度知识图谱确定电网状态类型和电网调度动作类型,并根据所述电网状态类型和电网调度动作类型生成一系列的三元组;
对所述一系列的三元组进行关联,得到关联后的三元组,并根据所述关联后的三元组构建多条基于状态的调度元路径。
10.一种电网调度模型的训练终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的一种电网调度模型的训练方法中的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210705629.0A CN115099606B (zh) | 2022-06-21 | 2022-06-21 | 一种电网调度模型的训练方法及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210705629.0A CN115099606B (zh) | 2022-06-21 | 2022-06-21 | 一种电网调度模型的训练方法及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115099606A true CN115099606A (zh) | 2022-09-23 |
CN115099606B CN115099606B (zh) | 2024-06-07 |
Family
ID=83293437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210705629.0A Active CN115099606B (zh) | 2022-06-21 | 2022-06-21 | 一种电网调度模型的训练方法及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115099606B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115829134A (zh) * | 2022-12-08 | 2023-03-21 | 国网山东省电力公司临沂供电公司 | 面向源网荷不确定性的供电调度方法及系统 |
CN115864542A (zh) * | 2023-02-24 | 2023-03-28 | 南方电网数字电网研究院有限公司 | 电力机组调度模型的优化方法、装置、设备和存储介质 |
CN115953009A (zh) * | 2023-03-01 | 2023-04-11 | 阿里巴巴(中国)有限公司 | 电力系统的调度方法、调度决策模型的训练方法 |
CN116703075A (zh) * | 2023-05-29 | 2023-09-05 | 中国南方电网有限责任公司 | 电力调度决策方法、装置、电子设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126037A (zh) * | 2019-12-18 | 2020-05-08 | 昆明理工大学 | 一种基于孪生循环神经网络的泰文句子切分方法 |
CN111259632A (zh) * | 2020-02-10 | 2020-06-09 | 暗物智能科技(广州)有限公司 | 一种基于语义对齐的树结构数学应用题求解方法及系统 |
CN111864743A (zh) * | 2020-07-29 | 2020-10-30 | 全球能源互联网研究院有限公司 | 一种电网调度控制模型的构建方法及电网调度控制方法 |
CN112860872A (zh) * | 2021-03-17 | 2021-05-28 | 广东电网有限责任公司 | 基于自学习的配电网操作票语义合规性的校验方法及系统 |
CN112949913A (zh) * | 2021-02-08 | 2021-06-11 | 国网河北省电力有限公司衡水供电分公司 | 光伏出力预测方法及终端设备 |
CN113642862A (zh) * | 2021-07-29 | 2021-11-12 | 国网江苏省电力有限公司 | 基于bert-mbigru-crf模型的电网调度指令命名实体识别方法及系统 |
CN113947016A (zh) * | 2021-09-28 | 2022-01-18 | 浙江大学 | 针对电网紧急控制系统中深度强化学习模型的脆弱性评估方法 |
CN113947320A (zh) * | 2021-10-25 | 2022-01-18 | 国网天津市电力公司电力科学研究院 | 一种基于多模态强化学习的电网调控方法 |
CN113988508A (zh) * | 2021-09-22 | 2022-01-28 | 国网天津市电力公司电力科学研究院 | 一种基于强化学习的电网调控策略优化方法 |
CN114090783A (zh) * | 2021-10-15 | 2022-02-25 | 北京大学 | 一种异构知识图谱融合方法及系统 |
CN114117075A (zh) * | 2021-11-30 | 2022-03-01 | 中山大学 | 基于语义对齐及对称结构编码的知识图谱补全方法及装置 |
-
2022
- 2022-06-21 CN CN202210705629.0A patent/CN115099606B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126037A (zh) * | 2019-12-18 | 2020-05-08 | 昆明理工大学 | 一种基于孪生循环神经网络的泰文句子切分方法 |
CN111259632A (zh) * | 2020-02-10 | 2020-06-09 | 暗物智能科技(广州)有限公司 | 一种基于语义对齐的树结构数学应用题求解方法及系统 |
CN111864743A (zh) * | 2020-07-29 | 2020-10-30 | 全球能源互联网研究院有限公司 | 一种电网调度控制模型的构建方法及电网调度控制方法 |
CN112949913A (zh) * | 2021-02-08 | 2021-06-11 | 国网河北省电力有限公司衡水供电分公司 | 光伏出力预测方法及终端设备 |
CN112860872A (zh) * | 2021-03-17 | 2021-05-28 | 广东电网有限责任公司 | 基于自学习的配电网操作票语义合规性的校验方法及系统 |
CN113642862A (zh) * | 2021-07-29 | 2021-11-12 | 国网江苏省电力有限公司 | 基于bert-mbigru-crf模型的电网调度指令命名实体识别方法及系统 |
CN113988508A (zh) * | 2021-09-22 | 2022-01-28 | 国网天津市电力公司电力科学研究院 | 一种基于强化学习的电网调控策略优化方法 |
CN113947016A (zh) * | 2021-09-28 | 2022-01-18 | 浙江大学 | 针对电网紧急控制系统中深度强化学习模型的脆弱性评估方法 |
CN114090783A (zh) * | 2021-10-15 | 2022-02-25 | 北京大学 | 一种异构知识图谱融合方法及系统 |
CN113947320A (zh) * | 2021-10-25 | 2022-01-18 | 国网天津市电力公司电力科学研究院 | 一种基于多模态强化学习的电网调控方法 |
CN114117075A (zh) * | 2021-11-30 | 2022-03-01 | 中山大学 | 基于语义对齐及对称结构编码的知识图谱补全方法及装置 |
Non-Patent Citations (2)
Title |
---|
倪枫;: "SOA敏捷架构的TOGAF层次化迭代建模", 上海理工大学学报, no. 04, 15 August 2018 (2018-08-15) * |
韩程程;李磊;刘婷婷;高明;: "语义文本相似度计算方法", 华东师范大学学报(自然科学版), no. 05, 25 September 2020 (2020-09-25) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115829134A (zh) * | 2022-12-08 | 2023-03-21 | 国网山东省电力公司临沂供电公司 | 面向源网荷不确定性的供电调度方法及系统 |
CN115829134B (zh) * | 2022-12-08 | 2023-10-10 | 国网山东省电力公司临沂供电公司 | 面向源网荷不确定性的供电调度方法及系统 |
CN115864542A (zh) * | 2023-02-24 | 2023-03-28 | 南方电网数字电网研究院有限公司 | 电力机组调度模型的优化方法、装置、设备和存储介质 |
CN115953009A (zh) * | 2023-03-01 | 2023-04-11 | 阿里巴巴(中国)有限公司 | 电力系统的调度方法、调度决策模型的训练方法 |
CN116703075A (zh) * | 2023-05-29 | 2023-09-05 | 中国南方电网有限责任公司 | 电力调度决策方法、装置、电子设备及存储介质 |
CN116703075B (zh) * | 2023-05-29 | 2024-04-16 | 中国南方电网有限责任公司 | 电力调度决策方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115099606B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115099606A (zh) | 一种电网调度模型的训练方法及终端 | |
Griffith et al. | Policy shaping: Integrating human feedback with reinforcement learning | |
Papageorgiou et al. | Fuzzy cognitive maps | |
CN114860893B (zh) | 基于多模态数据融合与强化学习的智能决策方法及装置 | |
CN113947320B (zh) | 一种基于多模态强化学习的电网调控方法 | |
CN113988508B (zh) | 一种基于强化学习的电网调控策略优化方法 | |
CN114896899B (zh) | 一种基于信息交互的多智能体分散式决策方法及系统 | |
CN110110858A (zh) | 一种基于强化学习的自动化机器学习方法 | |
CN113141012B (zh) | 电网潮流调控决策推理方法 | |
CN112463987A (zh) | 一种中国古典园林知识图谱补全与认知推理方法 | |
CN117435715B (zh) | 一种基于辅助监督信号改进时序知识图谱的问答方法 | |
Morales | Deep Reinforcement Learning | |
CN113379063B (zh) | 基于在线增强学习模型的全流程任务时序智能决策方法 | |
Nishimoto et al. | Dialogue management with deep reinforcement learning: Balancing exploration and exploitation | |
Nauck et al. | Prediction of power grid vulnerabilities using machine learning | |
Wan et al. | Extending the BDI Model with Q-learning in Uncertain Environment | |
CN115658926B (zh) | 知识图谱的要素推测方法、装置、电子设备和存储介质 | |
CN108830483A (zh) | 多智能体系统任务规划方法 | |
CN114114911B (zh) | 一种基于模型强化学习的自动超参数调节方法 | |
CN110443344B (zh) | 一种基于k2abc算法的动量轮故障诊断方法及装置 | |
He et al. | TMAPath: A Knowledge Inference Method Based on Transfer Learning and Multi-agent Deep Reinforcement Learning | |
Xia et al. | DEER: A Delay-Resilient Framework for Reinforcement Learning with Variable Delays | |
CN114997672A (zh) | 基于逆强化学习结合多因子多动作融合的电网调度方法 | |
Lazzati | On the sample complexity of inverse reinforcement learning | |
Moura et al. | Introduction to Reinforcement Learning A Short Course |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |