CN117311171A

CN117311171A - 用于多设备控制的图神经网络模型的训练方法和装置

Info

Publication number: CN117311171A
Application number: CN202311620110.3A
Authority: CN
Inventors: 谢冬冬; 罗南杭; 吴逸凡; 杜恩武; 赵昆明; 宋师伟
Original assignee: 719th Research Institute Of China State Shipbuilding Corp
Current assignee: 719th Research Institute Of China State Shipbuilding Corp
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2023-12-29
Anticipated expiration: 2043-11-30
Also published as: CN117311171B

Abstract

本发明提供一种用于多设备控制的图神经网络模型的训练方法和装置，属于自动控制技术领域，该方法包括：基于多个设备之间的连接关系，建立图神经网络模型；使用图神经网络模型对多个设备进行控制，基于控制结果，更新图神经网络模型的参数；重复执行第一过程，直至多个设备均达到预设控制目标；第一过程包括：使用图神经网络模型分别对多个设备进行多次控制，获得多个设备分别对应的达到预设控制目标的概率；基于多个设备分别对应的达到预设控制目标的概率，确定多个设备分别对应的抽样概率；基于多个设备分别对应的抽样概率，选取其中一个设备，使用图神经网络模型对设备进行控制，得到控制结果，基于控制结果更新图神经网络模型的参数。

Description

用于多设备控制的图神经网络模型的训练方法和装置

技术领域

本发明涉及自动控制领域，尤其涉及一种用于多设备控制的图神经网络模型的训练方法和装置。

背景技术

相关技术的船舶自动控制方法通常采用跟随控制的思路进行船舶自动控制:当系统负载变化时，会引起汽轮机组对蒸汽消耗的变化，进而影响蒸汽系统中的压力变化，最后系统将根据蒸汽压力变化的情况，修正系统输出的功率。然而，上述方法往往具有一定的滞后性，从负载变化到最后的系统功率输出会有较大的延迟，并可能造成系统状态的异常，如蒸汽压力过高或者过低等。

发明内容

本发明提供一种用于多设备控制的图神经网络模型的训练方法和装置，可以有效提高自动控制的效率，减少系统出现异常状态的概率。

本发明提供一种用于多设备控制的图神经网络模型的训练方法，包括：

基于多个设备之间的连接关系，建立图神经网络模型，所述图神经网络模型的节点用于表征所述多个设备，所述图神经网络模型的边用于表征所述多个设备之间的连接关系；

使用所述图神经网络模型对所述多个设备进行控制，基于所述图神经网络模型对所述多个设备的控制结果，更新所述图神经网络模型的参数；

重复执行第一过程，直至使用图神经网络模型对所述多个设备进行控制时可以使所述多个设备均达到预设控制目标；

所述第一过程包括：

使用图神经网络模型分别对所述多个设备进行多次控制，获得所述多个设备分别对应的达到预设控制目标的概率；

基于所述多个设备分别对应的达到预设控制目标的概率，确定所述多个设备分别对应的抽样概率；

基于所述多个设备分别对应的抽样概率，选取其中一个设备，使用图神经网络模型对所述设备进行控制，得到控制结果，基于所述控制结果更新图神经网络模型的参数。

根据本发明提供的用于多设备控制的图神经网络模型的训练方法，所述基于所述图神经网络模型对所述多个设备的控制结果，更新所述图神经网络模型的参数，包括：

基于所述图神经网络模型对所述多个设备的控制结果，计算所述图神经网络模型的奖励；

基于所述图神经网络模型的奖励，使用强化学习算法更新所述图神经网络模型的参数。

根据本发明提供的用于多设备控制的图神经网络模型的训练方法，所述基于所述多个设备分别对应的达到预设控制目标的概率，确定所述多个设备分别对应的抽样概率，包括：

基于所述多个设备分别对应的达到预设控制目标的概率，通过公式获得图神经网络模型分别对所述多个设备的控制效果，其中/>是图神经网络模型对第/>个设备的控制效果，/>是第/>个设备当前已被选取的总次数，为当前已执行第一过程的次数，/>为所述多个设备的数量，/>为第/>个设备对应的达到预设控制目标的概率；

基于图神经网络模型分别对所述多个设备的控制效果，确定所述多个设备分别对应的抽样概率，其中控制效果越好的设备抽样概率越低，控制效果越差的设备抽样概率越高。

根据本发明提供的用于多设备控制的图神经网络模型的训练方法，所述基于图神经网络模型分别对所述多个设备的控制效果，确定所述多个设备分别对应的抽样概率，包括：

基于图神经网络模型分别对所述多个设备的控制效果，计算所述多个设备分别对应的第一中间值；

基于所述多个设备分别对应的第一中间值，计算所述多个设备分别对应的抽样概率。

根据本发明提供的用于多设备控制的图神经网络模型的训练方法，所述基于图神经网络模型分别对所述多个设备的控制效果，计算所述多个设备分别对应的第一中间值，包括：

基于图神经网络模型分别对所述多个设备的控制效果，通过公式计算所述多个设备分别对应的第一中间值，其中，/>为图神经网络模型对第/>个设备的控制效果，/>为预设的概率平滑超参，/>为第1个设备对应的达到预设控制目标的概率，K为所述多个设备的数量。

根据本发明提供的用于多设备控制的图神经网络模型的训练方法，所述基于所述多个设备分别对应的第一中间值，计算所述多个设备分别对应的抽样概率，包括：

基于所述多个设备分别对应的第一中间值，通过公式计算所述多个设备分别对应的抽样概率，其中，/>为第/>个设备对应的第一中间值。

本发明还提供一种多设备控制方法，包括：

使用训练完成后的图神经网络模型，对多个设备进行控制；

其中，所述图神经网络模型的训练过程包括：

所述第一过程包括：

本发明还提供一种用于多设备控制的图神经网络模型的训练装置，包括：

建立模块，用于基于多个设备之间的连接关系，建立图神经网络模型，所述图神经网络模型的节点用于表征所述多个设备，所述图神经网络模型的边用于表征所述多个设备之间的连接关系；

更新模块，用于使用所述图神经网络模型对所述多个设备进行控制，基于所述图神经网络模型对所述多个设备的控制结果，更新所述图神经网络模型的参数；

执行模块，用于重复执行第一过程，直至使用图神经网络模型对所述多个设备进行控制时可以使所述多个设备均达到预设控制目标；

所述第一过程包括：

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述用于多设备控制的图神经网络模型的训练方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述用于多设备控制的图神经网络模型的训练方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述用于多设备控制的图神经网络模型的训练方法。

本发明提供的一种用于多设备控制的图神经网络模型的训练方法和装置，通过图神经网络模型对动力装置进行整体建模，可以从整体上寻找动力设备的最佳控制效果，采用多目标控制方法可以同时对多个设备的控制目标进行寻优，从而使模型可以对多个设备进行控制，在训练过程中通过更新抽样概率动态调整每个设备的训练次数，可以提高模型的训练效率，进而提高自动控制的效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的用于多设备控制的图神经网络模型的训练方法的流程示意图；

图2是本发明提供的船舶动力系统的结构示意图；

图3是本发明提供的多设备控制方法的流程示意图；

图4是本发明提供的用于多设备控制的图神经网络模型的训练装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先对以下内容进行介绍：

船舶动力装置是一个非常复杂的系统，包括蒸汽发生系统、汽轮机组、凝水系统、海水系统、润滑系统等数十种系统和设备组成。为了降低设备操纵人员的工作负担，提高船舶航行的安全性和经济性，需要开发船舶动力自动控制方法。

由于船舶动力装置的复杂性，因此对其进行控制时，除了需要考虑整体的动力输出目标之外，还需要单独考虑每个子系统的控制目标，如蒸汽系统中的蒸汽流量控制，给水系统中的给水流量控制，冷却系统中的海水流量控制等等。为此，需要提供一个船舶动力装置多目标控制算法，在对系统进行自动控制时，同时针对多个目标进行优化。

相关技术的船舶自动控制方法通常采用跟随控制的思路进行船舶自动控制:当系统负载变化时，会引起汽轮机组对蒸汽消耗的变化，进而影响蒸汽系统中的压力变化，最后系统将根据蒸汽压力变化的情况，修正系统输出的功率。然而，上述方法往往具有一定的滞后性，从负载变化到最后的系统功率输出会有较大的延迟，并可能造成系统状态的异常，如蒸汽压力过高或者过低等。此外，相关技术的控制方法大都是针对具体的设备或子系统的，其控制目标较为单一，在控制时并未考虑系统的整体运行目标。

针对上述缺陷，本发明提供一种用于多设备控制的图神经网络模型的训练方法和装置，在控制过程中同时考虑整体和系统的控制目标，提高自动控制的效率，减少系统出现异常状态的概率。

下面结合图1-图2介绍本发明提供的用于多设备控制的图神经网络模型的训练方法：

图1是本发明提供的用于多设备控制的图神经网络模型的训练方法的流程示意图，如图1所示，该方法包括以下步骤：

步骤100，基于多个设备之间的连接关系，建立图神经网络模型，所述图神经网络模型的节点用于表征所述多个设备，所述图神经网络模型的边用于表征所述多个设备之间的连接关系；

可选地，图神经网络是指使用神经网络来学习图结构数据，提取和发掘图结构数据中的特征和模式，满足聚类、分类、预测、分割、生成等图学习任务需求的算法总称。

可选地，多个设备可以是互相有连接关系的多个设备，比如电力系统中包含的多个设备，或照明系统中包含的多个设备，比如多个灯泡，或动力系统中包含的多个设备，比如调节网，冷凝器等，本发明对此不作限定。

图2是本发明提供的船舶动力系统的结构示意图，如图2所示，在本发明的一个实施例中，对船舶动力系统的各个设备进行控制，采用图神经网络模型模拟动力装置。

可选地，为了对多个设备进行控制，可以首先基于多个设备之间的连接关系，建立图神经网络模型，图神经网络模型的节点用于表征多个设备，图神经网络模型的边用于表征多个设备之间的连接关系。

步骤110，使用所述图神经网络模型对所述多个设备进行控制，基于所述图神经网络模型对所述多个设备的控制结果，更新所述图神经网络模型的参数；

可选地，为了训练图神经网络模型，使其对设备的控制均能达到控制目标，首先可以使用图神经网络模型分别对所有设备进行控制，获取各个设备分别对应的控制结果，控制结果可以包括达到控制目标，或未达到控制目标，还可以包括控制程度等。

可选地，获取各个设备分别对应的控制结果后，可以基于控制结果调整图神经网络模型的参数，不同的设备可以对应不同的参数，或相同的参数。

可选地，对于达到控制目标的设备，可以不调整其对应的图神经网络模型的参数。

在本发明的一个实施例中，可以采用均匀分布初始化各个设备的抽样概率p，并预设一个超参，采用以下算法更新图神经网络模型的参数：

for t=0，…，-1 do；

根据抽样概率p随机选择一个设备；

使用图神经网络模型对该设备进行控制，基于图神经网络模型对该设备的控制结果，更新图神经网络模型的参数。

其中需要足够大以保证每个设备都被选择到。

步骤120，重复执行第一过程，直至使用图神经网络模型对所述多个设备进行控制时可以使所述多个设备均达到预设控制目标；

所述第一过程包括：

可选地，在每个设备都至少训练过一次图神经网络模型，即调整图神经网络模型的参数后，可以调整每个设备的抽样概率。

具体地，可以先使用图神经网络模型对多个设备进行多次控制，获得多个设备对应的达到预设控制目标的概率。

可选地，多次控制的次数可以根据具体设备和图神经网络模型预先设定，比如7次，或8次，或9次等，本发明对此不作限定。

可选地，对设备进行多次控制后，可以判断多次控制后设备达到预设控制目标的次数。

可选地，预设控制目标可以是根据实际需求或用户的需求任意设定的目标，比如控制蒸汽温度在350℃以下等，或控制蒸汽流量在10立方米/小时以内，或控制给水流量在100立方米/小时以上等等。

可选地，不同的设备控制目标可以相同或不同。

可选地，达到预设控制目标的概率可以是达到预设控制目标的次数与多次控制的次数的比值。

例如，若使用图神经网络模型对设备进行10次控制，其中有5次设备达到预设控制目标，则达到预设控制目标的概率为50%。

可选地，基于图神经网络模型对各个设备的控制达到预设控制目标的概率，可以表征图神经网络模型对各个设备的控制能力，概率越高的设备说明图神经网络模型对其控制能力越强，对应的图神经网络模型的参数越不需要调整，因此为了提高模型的训练效率，可以确定各个设备的抽样概率，使达到预设控制目标的概率低的设备更容易被抽样以对图神经网络模型进行训练。

可选地，达到预设控制目标的概率越高的设备的抽样概率越低，达到预设控制目标的概率越低的设备的抽样概率越高。

可选地，确定了所有设备的抽样概率后，可以基于设备的抽样概率，选取其中一个设备，使用图神经网络模型对该设备进行控制，基于图神经网络模型对该设备的控制结果，更新图神经网络模型的参数，使更新后的图神经网络模型对被选取的设备的控制能力提高。

在本发明的一个实施例中，可以采用均匀分布初始化各个设备的抽样概率p，并预设两个超参和e，采用以下算法更新图神经网络模型的参数：

for t=0，…，-1 do：

if == 0：

for j = 1，…，K do：

评估图神经网络模型的性能，计算图神经网络模型对被控设备的控制能够达到预设控制目标的概率/>，根据各设备的达到预设控制目标的概率/>确定抽样概率p。

else

根据抽样概率p随机选择一个设备；

本发明提供的多设备控制方法，通过图神经网络模型对动力装置进行整体建模，可以从整体上寻找动力设备的最佳控制效果，采用多目标控制方法可以同时对多个设备的控制目标进行寻优，从而使模型可以对多个设备进行控制，在训练过程中通过更新抽样概率动态调整每个设备的训练次数，可以提高模型的训练效率，进而提高自动控制的效率。

可选地，所述基于所述图神经网络模型对所述多个设备的控制结果，更新所述图神经网络模型的参数，包括：

可选地，强化学习是一种机器学习的学习方式，其基于环境的反馈而行动，通过不断与环境的交互、试错，最终完成特定目的或者使得整体行动收益最大化。

可选地，强化学习不需要训练数据的标签（label），但是需要每一步行动环境给予的反馈，是奖励或惩罚，反馈可以量化，基于反馈不断调整训练对象的行为。

可选地，本发明使用强化学习算法训练图神经网络模型，因此可以基于图神经网络模型对所述多个设备的控制结果，计算图神经网络模型的奖励，奖励即基于多个设备的控制结果得到的反馈，该奖励为正值时可以看做奖励，为负值时可以看做惩罚。

可选地，基于多个设备的控制结果得到的反馈，可以基于反馈更新图神经网络模型的参数。

for t=0，…，-1 do；

根据抽样概率p随机选择一个设备；

利用图神经网络模型对设备进行控制，获得控制结果；

基于该控制结果计算图神经网络模型的奖励，并采用强化学习算法更新图神经网络模型的参数。

其中需要足够大以保证每个设备都被选择到。

可选地，为了对图神经网络模型进行训练，首先可以基于多个设备之间的连接关系，建立图神经网络模型，然后使用图神经网络模型对多个设备进行控制，基于图神经网络模型对多个设备的控制结果，计算图神经网络模型的奖励，基于图神经网络模型的奖励，使用强化学习算法更新图神经网络模型的参数，最后重复执行第一过程，直至使用图神经网络模型对多个设备进行控制时可以使多个设备均达到预设控制目标。

本发明提供的多设备控制方法，基于图神经网络模型对多个设备的控制结果，计算图神经网络模型的奖励，并依此使用强化学习算法更新图神经网络模型的参数，能够在复杂的不确定环境中进行有效学习和决策。

可选地，所述基于所述多个设备分别对应的达到预设控制目标的概率，确定所述多个设备分别对应的抽样概率，包括：

基于所述多个设备分别对应的达到预设控制目标的概率，通过公式获得图神经网络模型分别对所述多个设备的控制效果，其中/>是图神经网络模型对第/>个设备的控制效果，/>是第/>个设备当前已被选取的总次数，/>为当前已执行第一过程的次数，/>为所述多个设备的数量，/>为第/>个设备对应的达到预设控制目标的概率；

可选地，为了确定多个设备的抽样概率，可以在确定多个设备对应的达到预设控制目标的概率后，通过计算获得图神经网络模型对所述多个设备的控制效果。

for t=0，…，-1 do：

if == 0：

for j = 1，…，K do：

评估图神经网络模型的性能，计算图神经网络模型对被控设备的控制能够达到预设控制目标的概率/>，根据各设备的控制效果/>确定抽样概率p。

else

根据抽样概率p随机选择一个设备；

可选地，图神经网络模型对各设备的控制效果可以通过以下公式计算获得：

其中是当前设备/>被选中的总次数，/>为当前已执行第一过程的次数，/>为设备的数量，/>为设备/>对应的达到预设控制目标的概率。

可选地，基于图神经网络模型对多个设备的控制效果后，可以确定多个设备的抽样概率，其中控制效果越好的设备抽样概率越低，控制效果越差的设备抽样概率越高。

可选地，在每个设备都至少训练过一次图神经网络模型，即调整图神经网络模型的参数后，可以重复执行第一过程，包括：使用图神经网络模型对多个设备进行多次控制，获得多个设备对应的达到预设控制目标的概率，基于多个设备对应的达到预设控制目标的概率，获得图神经网络模型对多个设备的控制效果，基于控制效果，确定多个设备的抽样概率，其中控制效果越好的设备抽样概率越低，控制效果越差的设备抽样概率越高，最后基于多个设备的抽样概率，选取其中一个设备，使用图神经网络模型对该设备进行控制，基于图神经网络模型对该设备的控制结果，更新图神经网络模型的参数，直到所有设备均达到预设控制目标。

本发明提供的多设备控制方法，基于多个设备对应的达到预设控制目标的概率，计算获得图神经网络模型对多个设备的控制效果，并基于控制效果调整多个设备的抽样概率，使控制效果差的设备被抽样概率增加，以提高模型的训练效率。

可选地，所述基于图神经网络模型分别对所述多个设备的控制效果，确定所述多个设备分别对应的抽样概率，包括：

可选地，在确定图神经网络模型对多个设备的控制效果后，可以首先基于控制效果计算多个设备对应的第一中间值，该第一中间值用于确定最后多个设备的抽样概率。

可选地，在计算获得第一中间值后，可以基于多个设备对应的第一中间值，计算多个设备的抽样概率。

可选地，在每个设备都至少训练过一次图神经网络模型，即调整图神经网络模型的参数后，可以重复执行第一过程，包括：使用图神经网络模型对多个设备进行多次控制，获得多个设备对应的达到预设控制目标的概率，基于多个设备对应的达到预设控制目标的概率，获得图神经网络模型对多个设备的控制效果，基于控制效果，计算多个设备对应的第一中间值，基于多个设备对应的第一中间值，计算多个设备的抽样概率，最后基于多个设备的抽样概率，选取其中一个设备，使用图神经网络模型对该设备进行控制，基于图神经网络模型对该设备的控制结果，更新图神经网络模型的参数，直到所有设备均达到预设控制目标。

本发明提供的多设备控制方法，在确定多个设备的抽样概率时基于图神经网络模型对多个设备的控制效果，计算多个设备对应的第一中间值，然后基于第一中间值计算多个设备的抽样概率。

可选地，所述基于图神经网络模型分别对所述多个设备的控制效果，计算所述多个设备分别对应的第一中间值，包括：

可选地，在获得图神经网络模型对K个设备的控制效果后，可以通过正则公式/>计算多个设备对应的第一中间值/>，/>为预设的概率平滑超参，其值越大，不同设备被选中的概率就越不均衡。

可选地，通过该公式，可以减少已经达到控制目标的设备的被选取概率。

可选地，在每个设备都至少训练过一次图神经网络模型，即调整图神经网络模型的参数后，可以重复执行第一过程，包括：使用图神经网络模型对多个设备进行多次控制，获得多个设备对应的达到预设控制目标的概率，基于多个设备对应的达到预设控制目标的概率，获得图神经网络模型对多个设备的控制效果，基于控制效果，通过公式计算多个设备对应的第一中间值，基于多个设备对应的第一中间值，计算多个设备的抽样概率，最后基于多个设备的抽样概率，选取其中一个设备，使用图神经网络模型对该设备进行控制，基于图神经网络模型对该设备的控制结果，更新图神经网络模型的参数，直到所有设备均达到预设控制目标。

本发明提供的多设备控制方法，基于图神经网络模型对多个设备的控制效果，通过正则公式计算多个设备对应的第一中间值，可以减少已经达到控制目标的设备的被选取概率，便于后续基于第一中间值计算多个设备的抽样概率。

可选地，所述基于所述多个设备分别对应的第一中间值，计算所述多个设备分别对应的抽样概率，包括：

可选地，计算获得多个设备对应的第一中间值后，可以通过公式计算多个设备的抽样概率。

可选地，在每个设备都至少训练过一次图神经网络模型，即调整图神经网络模型的参数后，可以重复执行第一过程，包括：使用图神经网络模型对多个设备进行多次控制，获得多个设备对应的达到预设控制目标的概率，基于多个设备对应的达到预设控制目标的概率，获得图神经网络模型对多个设备的控制效果，基于控制效果，计算多个设备对应的第一中间值，基于多个设备对应的第一中间值，通过公式计算多个设备的抽样概率，最后基于多个设备的抽样概率，选取其中一个设备，使用图神经网络模型对该设备进行控制，基于图神经网络模型对该设备的控制结果，更新图神经网络模型的参数，直到所有设备均达到预设控制目标。

本发明提供的多设备控制方法，基于多个设备对应的第一中间值，通过公式计算多个设备的抽样概率。

下面对本发明提供的多设备控制方法进行描述。

图3是本发明提供的多设备控制方法的流程示意图，如图3所示，该方法包括以下步骤：

步骤300，使用训练完成后的图神经网络模型，对多个设备进行控制；

其中，所述图神经网络模型的训练过程包括：

所述第一过程包括：

可选地，图神经网络是指使用深度学习对具有图结构数据进行建模的方法。

for t=0，…，-1 do；

根据抽样概率p随机选择一个设备；

其中需要足够大以保证每个设备都被选择到。

可选地，多次控制的次数可以是预设的，比如7次，或8次，或9次等，本发明对此不作限定。

可选地，预设控制目标可以是根据实际需求预设的目标，不同的设备控制目标可以不同，比如控制温度在35℃以下等。

for t=0，…，-1 do：

if == 0：

for j = 1，…，K do：

else

根据抽样概率p随机选择一个设备；

下面对本发明提供的用于多设备控制的图神经网络模型的训练装置进行描述，下文描述的用于多设备控制的图神经网络模型的训练装置与上文描述的用于多设备控制的图神经网络模型的训练方法可相互对应参照。

图4是本发明提供的用于多设备控制的图神经网络模型的训练装置400的结构示意图，如图4所示，本发明提供的用于多设备控制的图神经网络模型的训练装置400包括建立模块410、更新模块420和执行模块430，其中：

建立模块410，用于基于多个设备之间的连接关系，建立图神经网络模型，所述图神经网络模型的节点用于表征所述多个设备，所述图神经网络模型的边用于表征所述多个设备之间的连接关系；

更新模块420，用于使用所述图神经网络模型对所述多个设备进行控制，基于所述图神经网络模型对所述多个设备的控制结果，更新所述图神经网络模型的参数；

执行模块430，用于重复执行第一过程，直至使用图神经网络模型对所述多个设备进行控制时可以使所述多个设备均达到预设控制目标；

所述第一过程包括：

本发明提供的用于多设备控制的图神经网络模型的训练装置，通过图神经网络模型对动力装置进行整体建模，可以从整体上寻找动力设备的最佳控制效果，采用多目标控制方法可以同时对多个设备的控制目标进行寻优，从而使模型可以对多个设备进行控制，在训练过程中通过更新抽样概率动态调整每个设备的训练次数，可以提高模型的训练效率，进而提高自动控制的效率。

可以理解的是，本发明提供的用于多设备控制的图神经网络模型的训练装置与上述各实施例提供的用于多设备控制的图神经网络模型的训练方法相对应，本发明提供的用于多设备控制的图神经网络模型的训练装置的相关技术特征可参考上述各实施例提供的用于多设备控制的图神经网络模型的训练方法的相关技术特征，在此不再赘述。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行用于多设备控制的图神经网络模型的训练方法，该方法包括：基于多个设备之间的连接关系，建立图神经网络模型，所述图神经网络模型的节点用于表征所述多个设备，所述图神经网络模型的边用于表征所述多个设备之间的连接关系；使用所述图神经网络模型对所述多个设备进行控制，基于所述图神经网络模型对所述多个设备的控制结果，更新所述图神经网络模型的参数；重复执行第一过程，直至使用图神经网络模型对所述多个设备进行控制时可以使所述多个设备均达到预设控制目标；所述第一过程包括：使用图神经网络模型分别对所述多个设备进行多次控制，获得所述多个设备分别对应的达到预设控制目标的概率；基于所述多个设备分别对应的达到预设控制目标的概率，确定所述多个设备分别对应的抽样概率；基于所述多个设备分别对应的抽样概率，选取其中一个设备，使用图神经网络模型对所述设备进行控制，得到控制结果，基于所述控制结果更新图神经网络模型的参数。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的用于多设备控制的图神经网络模型的训练方法，该方法包括：基于多个设备之间的连接关系，建立图神经网络模型，所述图神经网络模型的节点用于表征所述多个设备，所述图神经网络模型的边用于表征所述多个设备之间的连接关系；使用所述图神经网络模型对所述多个设备进行控制，基于所述图神经网络模型对所述多个设备的控制结果，更新所述图神经网络模型的参数；重复执行第一过程，直至使用图神经网络模型对所述多个设备进行控制时可以使所述多个设备均达到预设控制目标；所述第一过程包括：使用图神经网络模型分别对所述多个设备进行多次控制，获得所述多个设备分别对应的达到预设控制目标的概率；基于所述多个设备分别对应的达到预设控制目标的概率，确定所述多个设备分别对应的抽样概率；基于所述多个设备分别对应的抽样概率，选取其中一个设备，使用图神经网络模型对所述设备进行控制，得到控制结果，基于所述控制结果更新图神经网络模型的参数。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的用于多设备控制的图神经网络模型的训练方法，该方法包括：基于多个设备之间的连接关系，建立图神经网络模型，所述图神经网络模型的节点用于表征所述多个设备，所述图神经网络模型的边用于表征所述多个设备之间的连接关系；使用所述图神经网络模型对所述多个设备进行控制，基于所述图神经网络模型对所述多个设备的控制结果，更新所述图神经网络模型的参数；重复执行第一过程，直至使用图神经网络模型对所述多个设备进行控制时可以使所述多个设备均达到预设控制目标；所述第一过程包括：使用图神经网络模型分别对所述多个设备进行多次控制，获得所述多个设备分别对应的达到预设控制目标的概率；基于所述多个设备分别对应的达到预设控制目标的概率，确定所述多个设备分别对应的抽样概率；基于所述多个设备分别对应的抽样概率，选取其中一个设备，使用图神经网络模型对所述设备进行控制，得到控制结果，基于所述控制结果更新图神经网络模型的参数。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于多设备控制的图神经网络模型的训练方法，其特征在于，包括：

所述第一过程包括：

2.根据权利要求1所述的用于多设备控制的图神经网络模型的训练方法，其特征在于，所述基于所述图神经网络模型对所述多个设备的控制结果，更新所述图神经网络模型的参数，包括：

3.根据权利要求1所述的用于多设备控制的图神经网络模型的训练方法，其特征在于，所述基于所述多个设备分别对应的达到预设控制目标的概率，确定所述多个设备分别对应的抽样概率，包括：

4.根据权利要求3所述的用于多设备控制的图神经网络模型的训练方法，其特征在于，所述基于图神经网络模型分别对所述多个设备的控制效果，确定所述多个设备分别对应的抽样概率，包括：

5.根据权利要求4所述的用于多设备控制的图神经网络模型的训练方法，其特征在于，所述基于图神经网络模型分别对所述多个设备的控制效果，计算所述多个设备分别对应的第一中间值，包括：

6.根据权利要求5所述的用于多设备控制的图神经网络模型的训练方法，其特征在于，所述基于所述多个设备分别对应的第一中间值，计算所述多个设备分别对应的抽样概率，包括：

7.一种多设备控制方法，其特征在于，包括：

使用训练完成后的图神经网络模型，对多个设备进行控制；

其中，所述图神经网络模型的训练过程包括：

所述第一过程包括：

8.一种用于多设备控制的图神经网络模型的训练装置，其特征在于，所述装置包括：

所述第一过程包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述用于多设备控制的图神经网络模型的训练方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述用于多设备控制的图神经网络模型的训练方法。