CN115099606A

CN115099606A - 一种电网调度模型的训练方法及终端

Info

Publication number: CN115099606A
Application number: CN202210705629.0A
Authority: CN
Inventors: 李琦; 黄章斌; 赵光; 臧志斌; 赵建伟; 姚可筠; 陈升; 梁添增; 林毅龙; 王生煌; 郑筱雯; 巫伟; 陈佳烩; 李伟婧
Original assignee: XIAMEN GREAT POWER GEO INFORMATION TECHNOLOGY CO LTD; State Grid Information and Telecommunication Co Ltd
Current assignee: XIAMEN GREAT POWER GEO INFORMATION TECHNOLOGY CO LTD; State Grid Information and Telecommunication Co Ltd
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-09-23
Anticipated expiration: 2042-06-21
Also published as: CN115099606B

Abstract

本发明公开一种电网调度模型的训练方法及终端，从获取的电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合，并使用正样本序列对集合和负样本序列对集合对预设的语义对齐模型进行更新，得到更新后的语义对齐模型；基于电网调度历史数据集和更新后的语义对齐模型对强化学习模型进行训练，得到训练后的强化学习模型；根据更新后的语义对齐模型和训练后的强化学习模型得到电网调度模型，能够对不同时序但可达成同一语义的序列信息进行类似理解，提升了强化学习的探索能力，使生成的电网调度策略更合理，准确率更高，且提高了电网调度策略的多样性，从而有效提高了电网调度模型生成的电网调度策略的准确率和多样性。

Description

一种电网调度模型的训练方法及终端

技术领域

本发明涉及电网调度技术领域，尤其涉及一种电网调度模型的训练方法及终端。

背景技术

电网调度是指电网调度机构为保障电网的安全、优质、经济运行，对电网运行进行的组织、指挥、指导和协调。现有的电网调度模型是基于包括电网本身资源、作业、环境在内的外部信息进行有效融合得到电网调度中电网节点的状态信息，且采用自编码器对这些数据进行特征提取，直接对时空关联信息进行融合；另外，在利用强化学习来获得电网调度策略的时候，动作空间的构建采用的是基于多动作动态组合的模式，也就是每个电网状态对应动作空间中的每一个动作均是由两个动作动态组合而成，这样，一方面更符合电网调度的手段，即大多采用多方面配合调度，另一方面动作动态组合也使得调度决策变动更加灵活，但仍存在以下缺点：

(1)没有充分考虑到状态转移矩阵的语义，在状态节点和指令动作层次匹配时会导致路径过于单一，不利于强化学习的探索，使得电网调度模型生成的调度策略不够合理，准确率也不高；

(2)未对从同一源状态到同一目标状态的不同状态转移矩阵进行对齐，如此监督更新的强化学习策略不利于同一源状态同一目标的不同指令序列生成，导致指令序列的生成缺乏多样性，可能会导致生成的调度指令序列只有一个方案，缺乏预备方案。

发明内容

本发明所要解决的技术问题是：提供一种电网调度模型的训练方法及终端，能够有效提高电网调度模型生成的电网调度策略的准确率和多样性。

为了解决上述技术问题，本发明采用的一种技术方案为：

一种电网调度模型的训练方法，包括步骤：

获取电网调度历史数据集；

从所述电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合，并使用所述正样本序列对集合和负样本序列对集合对预设的语义对齐模型进行更新，得到更新后的语义对齐模型，所述语义对齐模型基于孪生GRU网络；

基于所述电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练，得到训练后的强化学习模型，所述强化学习模型基于演说家-评论家算法；

根据所述更新后的语义对齐模型和所述训练后的强化学习模型得到电网调度模型。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种电网调度模型的训练终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取电网调度历史数据集；

本发明的有益效果在于：通过使用正负样本序列对集合对预设的基于孪生GRU网络的语义对齐模型进行训练，使最终训练得到的基于孪生GRU网络的语义对齐模型能对同一目标的不同序列信息实现同一理解，完成序列信息语义对齐，基于电网调度历史数据集和更新后的基于孪生GRU网络的语义对齐模型对基于演说家-评论家算法的强化学习模型进行训练，基于孪生GRU网络的语义对齐模型可对强化学习生成的状态集合和指令序列构成的时序信息进行语义提取，且以语义级别的监督对抗来更新强化学习策略，语义级别的对抗相对于现有技术中的状态和指令动作的离散对抗会更加合理，能够对不同时序但可达成同一语义的序列信息进行类似理解，提升了强化学习的探索能力，使生成的电网调度策略更合理，准确率更高，且提高了电网调度策略的多样性，即针对某一目标可以提供不同的调度方案，从而有效提高了电网调度模型生成的电网调度策略的准确率和多样性。

附图说明

图1为本发明实施例的一种电网调度模型的训练方法的步骤流程图；

图2为本发明实施例的一种电网调度模型的训练终端的结构示意图；

图3为本发明实施例电网调度模型的训练方法中的图表示学习示意图；

图4为本发明实施例电网调度模型的训练方法中的语义对齐示意图；

图5为本发明实施例电网调度模型的训练方法中的电网调度模型示意图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

请参照图1，本发明实施例提供了一种电网调度模型的训练方法，包括步骤：

获取电网调度历史数据集；

从上述描述可知，本发明的有益效果在于：通过使用正负样本序列对集合对预设的基于孪生GRU网络的语义对齐模型进行训练，使最终训练得到的基于孪生GRU网络的语义对齐模型能对同一目标的不同序列信息实现同一理解，完成序列信息语义对齐，基于电网调度历史数据集和更新后的基于孪生GRU网络的语义对齐模型对基于演说家-评论家算法的强化学习模型进行训练，基于孪生GRU网络的语义对齐模型可对强化学习生成的状态集合和指令序列构成的时序信息进行语义提取，且以语义级别的监督对抗来更新强化学习策略，语义级别的对抗相对于现有技术中的状态和指令动作的离散对抗会更加合理，能够对不同时序但可达成同一语义的序列信息进行类似理解，提升了强化学习的探索能力，使生成的电网调度策略更合理，准确率更高，且提高了电网调度策略的多样性，即针对某一目标可以提供不同的调度方案，从而有效提高了电网调度模型生成的电网调度策略的准确率和多样性。

进一步地，所述获取电网调度历史数据集包括：

获取电网调度历史数据集，所述电网调度历史数据集包括电网状态集和与所述电网状态集对应的电网调度动作集；

根据所述电网调度历史数据集构建电网调度知识图谱；

根据所述电网调度知识图谱和所述状态之间的关系对所述电网状态集和所述电网调度动作集进行图表示学习，得到所述电网状态集对应的第一embedding向量和所述电网调度动作集对应的第二embedding向量；

根据所述第一embedding向量和所述第二embedding向量对所述电网调度历史数据集进行语义赋值，得到具有语义表达的电网调度历史数据集；

所述从所述电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合包括：

从所述具有语义表达的电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合；

所述基于所述电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练，得到训练后的强化学习模型包括：

基于所述具有语义表达的电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练，得到训练后的强化学习模型。

由上述描述可知，根据电网状态集对应的第一embedding向量和电网调度动作集对应的第二embedding向量对电网调度历史数据集进行语义赋值，实现了电网调度历史数据集的语义更新，使电网调度历史数据集具有语义信息，能够消除电网调度历史数据集的不确定性，有利于提高电网调度模型的准确率。

进一步地，所述电网调度历史数据集还包括调度记录；

所述根据所述电网调度历史数据集构建电网调度知识图谱包括：

将所述电网状态集中的每一电网状态确定为实体节点，并将所述电网调度动作集中的每一电网调度动作确定为关系边；

根据所述调度记录将所述实体节点与所述关系边进行关联，得到电网调度知识图谱。

由上述描述可知，将每一电网状态确定为实体节点，并将每一电网调度动作确定为关系边，根据调度记录将实体节点与关系边进行关联，得到电网调度知识图谱，以此实现了电网调度知识图谱的构建。

进一步地，所述从所述具有语义表达的电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合包括：

从所述具有语义表达的电网调度历史数据集获取同一源状态至同一目标状态的第一调度路径序列，并将所述第一调度路径序列确定为正样本序列对集合；

从所述具有语义表达的电网调度历史数据集获取同一源状态至不同目标状态的第二调度路径序列，并将所述第二调度路径序列确定为负样本序列对集合。

由上述描述可知，将同一源状态至同一目标状态的第一调度路径序列确定为正样本序列对集合，将同一源状态至不同目标状态的第二调度路径序列确定为负样本序列对集合，后续利用正样本序列对集合和负样本序列对集合对语义对齐模型进行训练，能够使语义对齐模型对达到同一目标的不同时序信息实现同一理解。

进一步地，所述使用所述正样本序列对集合和负样本序列对集合对预设的语义对齐模型进行更新，得到更新后的语义对齐模型包括：

将所述正样本序列对集合和负样本序列对集合输入至预设的语义对齐模型，得到所述正样本序列对集合对应的第一损失和所述负样本序列对集合对应的第二损失；

通过最大化所述第二损失和最小化所述第一损失更新所述预设的语义对齐模型的参数，得到更新后的语义对齐模型。

由上述描述可知，通过最大化第二损失和最小化第一损失更新预设的语义对齐模型的参数，以此完成了基于孪生GRU网络的语义对齐模型的训练。

进一步地，所述基于所述具有语义表达的电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练，得到训练后的强化学习模型之前包括：

基于所述电网调度知识图谱确定多跳评分函数；

构建多条基于状态的调度元路径；

获取当前电网状态；

基于预设调度周期根据所述基于状态的调度元路径进行所述当前电网状态的调度动作选择，生成从源状态到目标状态的状态转移路径；

使用所述多跳评分函数对所述源状态和所述目标状态进行相关性计算，得到强化学习的第一奖励函数；

所述基于所述具有语义表达的电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练，得到训练后的强化学习模型包括：

根据所述电网调度知识图谱、所述第一embedding向量和所述第二embedding向量生成具有语义信息的电网调度知识图谱；

确定训练迭代次数；

根据所述训练迭代次数将所述电网状态集和所述电网调度动作集输入至强化学习模型，得到每一动作的概率分布和状态的价值评估；

基于所述每一动作的概率分布和状态的价值评估生成第一状态转移矩阵；

从所述具有语义表达的电网调度历史数据集中采样出与所述第一状态转移矩阵对应的第二状态转移矩阵；

将所述第一状态转移矩阵和所述第二状态转移矩阵输入所述更新后的语义对齐模型计算语义误差损失，并将所述语义误差损失确定为第二奖励函数；

将所述第一奖励函数和所述第二奖励函数进行累加，得到总奖励函数；

基于所述总奖励函数进行训练，得到训练后的强化学习模型。

由上述描述可知，将强化学习策略生成的从源状态到目标状态的状态转移矩阵和基于电网调度历史数据集生成的状态转移矩阵都通过基于孪生GRU网络的语义对齐模型中的任意一个网络来进行语义生成对抗，达到监督基于强化学习电网调度策略更新的目的，其中得到的总奖励函数用于驱动整个强化学习策略更新。

进一步地，所述基于所述具有语义表达的电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练，得到训练后的强化学习模型之前还包括：

确定演说家网络以及评论家网络；

基于所述演说家网络以及评论家网络得到强化学习模型。

由上述描述可知，演说家网络(actornetwork)主要用来学习一个路径搜索策略，用来计算当前状态下节点对应的有效动作空间中，每个动作被选择的概率分布，而评论家网络(critic network)主要用来评估当前状态的价值，基于演说家-评论家算法的强化学习模型能够保证强化学习效果。

进一步地，所述基于所述电网调度知识图谱确定多跳评分函数包括：

确定初始多跳路径的首位实体和结尾实体；

根据所述电网调度知识图谱判断所述首位实体与所述结尾实体之间是否存在多个中间实体及关系，若是，则根据所述首位实体、所述结尾实体和所述多个中间实体及关系确定有效多跳路径；

根据所述有效多跳路径确定多跳评分函数

式中，e₀表示所述首位实体，j表示所述有效多跳路径中第j个实体节点，r_s表示第s个关系，e_t表示所述结尾实体，t表示所述有效多跳路径中的节点数量，b_et表示偏置值。

由上述描述可知，多跳评分函数可用于计算源状态和目标状态之间的相关性，以作为强化学习的部分奖励函数。

进一步地，所述构建多条基于状态的调度元路径包括：

根据所述电网调度知识图谱确定电网状态类型和电网调度动作类型，并根据所述电网状态类型和电网调度动作类型生成一系列的三元组；

对所述一系列的三元组进行关联，得到关联后的三元组，并根据所述关联后的三元组构建多条基于状态的调度元路径。

由上述描述可知，构建的多条基于状态的调度元路径可以有效地指导强化学习智能体在对应状态下进行调度动作选择，有利于提高生成的电网调度策略的准确率和合理性。

请参照图2，本发明另一实施例提供了一种电网调度模型的训练终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述电网调度模型的训练方法中的各个步骤。

本发明上述的一种电网调度模型的训练方法及终端能够适用于针对某一种状态或者想达到某一种状态的电网系统，且电网系统需要至少一种自动化调度指令序列的场景，以下通过具体实施方式进行说明：

实施例一

请参照图1和图3～图5，本实施例的一种电网调度模型的训练方法，包括步骤：

S1、获取电网调度历史数据集，具体包括：

S11、获取电网调度历史数据集，所述电网调度历史数据集包括电网状态集、与所述电网状态集对应的电网调度动作集以及调度记录；

S12、根据所述电网调度历史数据集构建电网调度知识图谱，具体包括：

S121、将所述电网状态集中的每一电网状态确定为实体节点，并将所述电网调度动作集中的每一电网调度动作确定为关系边；

S122、根据所述调度记录将所述实体节点与所述关系边进行关联，得到电网调度知识图谱；

S13、根据所述电网调度知识图谱和所述状态之间的关系对所述电网状态集和所述电网调度动作集进行图表示学习，得到所述电网状态集对应的第一embedding向量和所述电网调度动作集对应的第二embedding向量，如图3所示，具体包括：

S131、确定所述电网状态集中每一电网状态对应的实体类，并将所述实体类的个数确定为n；

S132、确定强化学习中每一所述电网状态的输入维度大小为embed_size；

S133、根据每一所述实体类包含的电网状态个数m对所述实体类进行图表示学习初始化，初始化向量的维度为m*embed_size；

S134、确定所述电网调度动作集中的电网调度动作的初始化向量维度为1*embed_size；

S135、从电网调度历史数据集获取对应的调度记录，该记录中包含n个实体类对应的实例记录，将所述实例记录作为一个n元组；

S136、基于所述n元组生成对应的存在关系的的三元组(即状态i，调度动作r，状态j)，这类三元组的个数记作k，将k个所述三元组输入图表示学习算法TransD共同进行损失训练，生成所述电网状态集对应的第一embedding向量和所述电网调度动作集对应的第二embedding向量，如图3所示；

S14、根据所述第一embedding向量和所述第二embedding向量对所述电网调度历史数据集进行语义赋值，得到具有语义表达的电网调度历史数据集；

其中，所述电网调度历史数据集中的数据根据index从向量空间中进行采样，获得对应样本的表示向量(所述第一embedding向量和所述第二embedding向量)即实现了语义赋值；

S2、从所述电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合，并使用所述正样本序列对集合和负样本序列对集合对预设的语义对齐模型进行更新，得到更新后的语义对齐模型，所述语义对齐模型基于孪生GRU网络；

具体的，从所述具有语义表达的电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合，并使用所述正样本序列对集合和负样本序列对集合对预设的语义对齐模型进行更新，得到更新后的语义对齐模型，所述语义对齐模型基于孪生GRU网络，如图4所示，具体包括：

S21、从所述具有语义表达的电网调度历史数据集获取同一源状态至同一目标状态的第一调度路径序列，并将所述第一调度路径序列确定为正样本序列对集合；

S22、从所述具有语义表达的电网调度历史数据集获取同一源状态至不同目标状态的第二调度路径序列，并将所述第二调度路径序列确定为负样本序列对集合；

其中，所述正样本序列对集合中的正样本序列对数量与所述负样本序列对集合中的负样本序列对数量相同；

S23、将所述正样本序列对集合和负样本序列对集合输入至预设的语义对齐模型，得到所述正样本序列对集合对应的第一损失和所述负样本序列对集合对应的第二损失；

其中，所述预设的语义对齐模型的模型架构为两个共享参数的并列GRU网络，两个GRU网络用于获取序列对对应的两个序列的语义，输出为对两个序列对的理解；

S24、通过最大化所述第二损失和最小化所述第一损失更新所述预设的语义对齐模型的参数，得到更新后的语义对齐模型；

S3、基于所述电网调度知识图谱确定多跳评分函数，具体包括：

S31、确定初始多跳路径的首位实体和结尾实体；

S32、根据所述电网调度知识图谱判断所述首位实体与所述结尾实体之间是否存在多个中间实体及关系，若是，则根据所述首位实体、所述结尾实体和所述多个中间实体及关系确定有效多跳路径；

具体的，根据所述电网调度知识图谱判断所述首位实体与所述结尾实体之间是否存在多个中间实体(如{e₀,e₁,...,e_t-1})及关系(如{r₁,r₂,...,r_t})，若是，则根据所述首位实体、所述结尾实体和所述多个中间实体及关系确定有效多跳路径

S33、根据所述有效多跳路径确定多跳评分函数

式中，e₀表示所述首位实体，j表示所述有效多跳路径中第j个实体节点，r_s表示第s个关系，e_t表示所述结尾实体，t表示所述有效多跳路径中的节点数量，b_et表示偏置值；

其中，当t＝0，且j＝0时，所述多跳评分函数表示两个实体向量之间的相似度，即：

当t＝1，且j＝1时，所述多跳评分函数表示首位实体加关系后和结尾实体之间的相似度，即：

S4、构建多条基于状态的调度元路径，具体包括：

S41、根据所述电网调度知识图谱确定电网状态类型和电网调度动作类型，并根据所述电网状态类型和电网调度动作类型生成一系列的三元组；

S42、对所述一系列的三元组进行关联，得到关联后的三元组，并根据所述关联后的三元组构建多条基于状态的调度元路径；

具体的，按照人工先验知识对所述一系列的三元组进行关联，得到关联后的三元组，并根据所述关联后的三元组构建多条基于状态的调度元路径，可以有效地指导强化学习智能体在对应状态下进行调度动作选择；

S5、获取当前电网状态，所述当前电网状态为待改变的当前时刻的某一状态；

S6、基于预设调度周期根据所述基于状态的调度元路径进行所述当前电网状态的调度动作选择，生成从源状态到目标状态的状态转移路径；

其中，本实施例中所述预设调度周期为4个step的调度指令，即从源状态到目标状态需要执行的调度动作个数达到4个作为一个调度周期；

具体的，在强化学习中智能体的路径探索尝试过程中，根据基于状态的调度元路径进行当前电网状态进行调度动作选择，使得当前状态转移到下一个状态，依次类推直到达到预设调度周期，最终生成从源状态到目标状态的状态转移路径，生成的从源状态到目标状态的状态转移路径中的源状态即所述当前电网状态；

S7、使用所述多跳评分函数对所述源状态和所述目标状态进行相关性计算，得到强化学习的第一奖励函数；

S8、确定演说家网络以及评论家网络；

其中，演说家网络(actornetwork)主要用来学习一个路径搜索策略，用来计算当前状态下节点对应的有效动作空间中，每个动作被选择的概率分布，演说家网络的输入为当前节点所拥有的动作空间和此时对应的状态，演说家网络的输出为动作空间中每个动作的概率分布，然后使用掩码操作删除无效动作，再将结果输入到softmax中，生成最终的动作概率分布；

评论家网络(critic network)主要用来评估当前状态的价值，其输入为当前节点此时的状态，输出为对该状态的价值评估；

S9、基于所述演说家网络以及评论家网络得到强化学习模型，具体包括：

S91、定义状态：在t时刻，将状态s_t定义为一个三元组(u,e_t,h_t)，其中，u属于电网状态类型的实体集U，指决策过程的起始点，而e_t则表示智能体在t步之后到达的实体，最后的h_t表示走到t步之前历史记录，它们组成了当前时刻的状态；因此，将初始化状态表示为

将终止时刻T的状态表示为s_T＝(u,e_T,h_T)；

S92、定义动作：即在t时刻的状态s_t下，智能体会存在一个对应的动作空间，该动作空间包含了t时刻下实体e_t的所有出度边的集合，然后实体不包含历史中存在的实体即：

S93、定义强化学习的软奖励：软奖励机制的获取根据多跳评分函数，因此，终止时刻T对应状态获得的奖励定义为：

S94、定义状态转移概率：状态转移概率即在马尔科夫决策过程中，假设已知当前时刻t所处的状态，在该状态下根据路径搜索策略以及执行动作，智能体将会到达下一个状态，在执行一个动作后到下一个状态的这个过程中存在状态转移概率的定义，将状态转移概率定义为：

S95、定义折扣因子：即在马尔科夫决策过程中，智能体为了获得更多的奖励，往往不只会考虑到当前获得的及时奖励，还会参考到未来状态下获得的及时奖；在给定的一个确定马尔科夫决策过程的周期中，某一时刻t对应状态下的总奖励定义为：G_t＝R_t+1+γR_t+2+γ²R_t+3+…+γ^T-t-1R_T；即当前的及时奖励和未来的奖励值折扣的叠加，其中，T表示终止状态；因为环境往往是随机的，执行特定的动作不一定会得到特定的状态，所以对将来的奖励来说，它们相比于当前状态下的奖励应该是衰减的，这也就是使用折扣因子γ的目的，其中，γ属于[0,1]，表示距离当前状态越远的奖励，它们需要折扣的越多，最终的任务则是训练出一个策略使用的获得最终收益R的最大化；

S96、t时刻在电网调度历史数据集监督机制下产生奖励函数，策略优化即在马尔科夫决策过程中，目标是学习一个优秀的搜索策略，这个搜索策略可以让以任意电网状态作为起始状态，在搜索的预设调度周期内都可以获得最大化的累计回报，公式定义为：

其中，R_E,R表示第二奖励函数；

S97、进行强化学习的策略的梯度更新，梯度更新

定义为：

R_all表示从状态s到终点状态s_T获得奖励的折扣加上一个预设调度周期下获得的奖励R_E,R的累加和；

S10、基于所述电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练，得到训练后的强化学习模型，所述强化学习模型基于演说家-评论家算法；

具体的，基于所述具有语义表达的电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练，得到训练后的强化学习模型，所述强化学习模型基于演说家-评论家算法，如图5所示，具体包括：

S101、根据所述电网调度知识图谱、所述第一embedding向量和所述第二embedding向量生成具有语义信息的电网调度知识图谱；

S102、确定训练迭代次数epochs；

S103、根据所述训练迭代次数将所述电网状态集和所述电网调度动作集输入至强化学习模型，得到每一动作的概率分布和状态的价值评估；

S104、基于所述每一动作的概率分布和状态的价值评估生成第一状态转移矩阵；

S105、从所述具有语义表达的电网调度历史数据集中采样出与所述第一状态转移矩阵对应的第二状态转移矩阵；

其中，所述第二状态转移矩阵与所述第一状态转移矩阵为同源状态和同目标状态的一个预设周期的状态转移矩阵；

S106、将所述第一状态转移矩阵和所述第二状态转移矩阵输入所述更新后的语义对齐模型计算语义误差损失，并将所述语义误差损失确定为第二奖励函数；

其中，所述第二奖励函数为：

R_E,R＝MSE(S^E,S^R)；

式中，S^E表示所述第二状态转移矩阵，S^R表示所述第一状态转移矩阵，MSE()表示深度学习中的均方误差函数；

S107、将所述第一奖励函数和所述第二奖励函数进行累加，得到总奖励函数；

S108、基于所述总奖励函数进行训练，得到训练后的强化学习模型；

具体的，通过计算评论家网络对状态的预估值和在该状态下获得的两部分奖励的叠加值作损失函数最小化以及计算当前动作概率与当前动作带来奖励的乘积最大化操作，同时定义一个保证模型探索与开发均衡的熵，最大化熵，以进行训练，得到训练后的强化学习模型；

S11、根据所述更新后的语义对齐模型和所述训练后的强化学习模型得到电网调度模型；

本发明假设在某一电网检修与抢修调度场景下，某一调度方案需要电网数据同时需要结合地理数据、作业数据和现有环境资源情况来做调度；当知道现有的电网情况+资源情况+地理环境状态+人员配置状况，依据这一状态可以根据神经网络去评估这一状态，然后做出当前觉得最优的策略动作，即在什么样的环境下，针对某一电网状态，安排什么人用什么资源去改变这一电网状态；当然由于资源、环境和人员等问题，针对某一状态只进行一步调度也许不能达到想要调控到的最终状态，因此在训练的时候结合知识图谱和元路径去训练，以此构建到某一目标状态的奖励函数，用于驱动策略选择，以便原始电网状态往目标电网状态靠近；

由于GRU网络可以提取时序类别序列的语义，本发明采取GRU网络对强化学习生成的状态集合和动作序列构成的时序信息进行语义提取，同样使用GRU网络对电网历史调度经验状态转移矩阵构成的时序信息进行语义提取，使用语义层面的监督对抗更新强化学习策略更新，相比于状态指令这些实体关系级别的对抗会更加合理，可以对不同时序但可达成同一语义的序列信息进行类似理解，间接提升了强化学习的探索能力，从而提高了电网调度策略的合理性和准确率；

由于孪生GRU网络对不同输入的相似或者同一特征的获取具有很好的效果，本发明采取基于孪生GRU网络的语义对齐模型对不同序列信息进行语义理解对齐，即输入原则上可达到同一效果的序列对到孪生GRU网络中，两个GRU网络对不同序列的理解输出约束为相近，而输入原则上不可达到同一效果的序列对到孪生GRU网络中，两个GRU网络对这一对序列信息的理解输出约束为疏远，这样使用序列对集合训练孪生GRU网络，最终训练出来的语义对齐模型可以对达到同一目标的不同时序信息实现同一理解，完成序列信息语义对齐，进而提高电网调度模型生成的电网调度策略的多样性。

实施例二

请参照图2，本实施例的一种电网调度模型的训练终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例一中的电网调度模型的训练方法中的各个步骤。

综上所述，本发明提供的一种电网调度模型的训练方法及终端，获取电网调度历史数据集；从所述电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合，并使用所述正样本序列对集合和负样本序列对集合对预设的语义对齐模型进行更新，得到更新后的语义对齐模型，所述语义对齐模型基于孪生GRU网络；基于所述电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练，得到训练后的强化学习模型，所述强化学习模型基于演说家-评论家算法；根据所述更新后的语义对齐模型和所述训练后的强化学习模型得到电网调度模型，通过使用正负样本序列对集合对语义对齐模型进行训练，使最终训练得到的语义对齐模型能对同一目标的不同序列信息实现同一理解，完成序列信息语义对齐，基于孪生GRU网络的语义对齐模型可对强化学习生成的状态集合和指令序列构成的时序信息进行语义提取，且以语义级别的监督对抗来更新强化学习策略，语义级别的对抗相对于现有技术中的状态和指令动作的离散对抗会更加合理，能够对不同时序但可达成同一语义的序列信息进行类似理解，提升了强化学习的探索能力，使生成的电网调度策略更合理，准确率更高，且提高了电网调度策略的多样性，即针对某一目标可以提供不同的调度方案，从而有效提高了电网调度模型生成的电网调度策略的准确率和多样性。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种电网调度模型的训练方法，其特征在于，包括步骤：

获取电网调度历史数据集；

2.根据权利要求1所述的一种电网调度模型的训练方法，其特征在于，所述获取电网调度历史数据集包括：

根据所述电网调度历史数据集构建电网调度知识图谱；

3.根据权利要求2所述的一种电网调度模型的训练方法，其特征在于，所述电网调度历史数据集还包括调度记录；

4.根据权利要求2所述的一种电网调度模型的训练方法，其特征在于，所述从所述具有语义表达的电网调度历史数据集中采样得到正样本序列对集合和负样本序列对集合包括：

5.根据权利要求1所述的一种电网调度模型的训练方法，其特征在于，所述使用所述正样本序列对集合和负样本序列对集合对预设的语义对齐模型进行更新，得到更新后的语义对齐模型包括：

6.根据权利要求2所述的一种电网调度模型的训练方法，其特征在于，所述基于所述具有语义表达的电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练，得到训练后的强化学习模型之前包括：

基于所述电网调度知识图谱确定多跳评分函数；

构建多条基于状态的调度元路径；

获取当前电网状态；

确定训练迭代次数；

7.根据权利要求6所述的一种电网调度模型的训练方法，其特征在于，所述基于所述具有语义表达的电网调度历史数据集和所述更新后的语义对齐模型对强化学习模型进行训练，得到训练后的强化学习模型之前还包括：

确定演说家网络以及评论家网络；

基于所述演说家网络以及评论家网络得到强化学习模型。

8.根据权利要求6所述的一种电网调度模型的训练方法，其特征在于，所述基于所述电网调度知识图谱确定多跳评分函数包括：

确定初始多跳路径的首位实体和结尾实体；

根据所述有效多跳路径确定多跳评分函数

9.根据权利要求6所述的一种电网调度模型的训练方法，其特征在于，所述构建多条基于状态的调度元路径包括：

10.一种电网调度模型的训练终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的一种电网调度模型的训练方法中的各个步骤。