CN117744752A

CN117744752A - 深度学习模型的训练方法及控制能量传递系统的方法

Info

Publication number: CN117744752A
Application number: CN202311767426.5A
Authority: CN
Inventors: 闻雅兰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-03-22

Abstract

本公开提供了深度学习模型的训练方法及控制能量传递系统的方法，涉及人工智能技术领域，尤其涉及深度学习技术领域和智慧工业技术领域。深度学习模型的训练方法包括：获取能量传递系统在历史时间段中的实际系统状态信息和实际系统操作信息，分别作为样本系统状态信息和样本系统操作信息；根据样本系统状态信息和样本系统操作信息，确定与样本系统操作信息相关联的样本附加信息；以及基于强化学习策略，利用样本系统状态信息、样本系统操作信息和样本附加信息训练初始深度学习模型，得到训练后的深度学习模型，深度学习模型用于确定控制能量传递系统的系统操作信息。

Description

深度学习模型的训练方法及控制能量传递系统的方法

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习技术领域和智慧工业技术领域。

背景技术

随着计算机技术的快速发展，服务器等计算设备的算力不断提升，导致运行中的计算设备的运行温度较高，需要及时地对运行中的计算设备进行散热来保障其运行稳定性。例如可以通过构建并控制制冷系统运行来实现对运行中的服务器进行快速散热，以保证服务器的运行稳定性。

发明内容

本公开提供了一种深度学习模型的训练方法、控制能量传递系统的方法、装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种深度学习模型的训练方法，包括：获取能量传递系统在历史时间段中的实际系统状态信息和实际系统操作信息，分别作为样本系统状态信息和样本系统操作信息；根据样本系统状态信息和样本系统操作信息，确定与样本系统操作信息相关联的样本附加信息；以及基于强化学习策略，利用样本系统状态信息、样本系统操作信息和样本附加信息训练初始深度学习模型，得到训练后的深度学习模型，深度学习模型用于确定控制能量传递系统的系统操作信息。

根据本公开的另一方面，提供了一种控制能量传递系统的方法，包括：获取能量传递系统在当前时刻已经生成的系统状态信息和系统操作信息，根据系统状态信息和系统操作信息，确定与系统操作信息相关联的附加信息；利用训练后的深度学习模型处理系统状态信息、系统操作信息和附加信息，得到新的系统操作信息，其中，深度学习模型是根据本公开实施例提供的训练方法训练得到的；以及根据新的系统操作信息控制能量传递系统。

根据本公开的另一方面，提供了一种深度学习模型的训练装置，包括：第一获取模块，用于获取能量传递系统在历史时间段中的实际系统状态信息和实际系统操作信息，分别作为样本系统状态信息和样本系统操作信息；样本附加信息确定模块，用于根据样本系统状态信息和样本系统操作信息，确定与样本系统操作信息相关联的样本附加信息；以及训练模块，用于基于强化学习策略，利用样本系统状态信息、样本系统操作信息和样本附加信息训练初始深度学习模型，得到训练后的深度学习模型，深度学习模型用于确定控制能量传递系统的系统操作信息。

根据本公开的另一方面，提供了一种控制能量传递系统的装置，包括：第二获取模块，用于获取能量传递系统在当前时刻已经生成的系统状态信息和系统操作信息，附加信息确定模块，用于根据系统状态信息和系统操作信息，确定与系统操作信息相关联的附加信息；系统操作信息获得模块，用于利用训练后的深度学习模型处理系统状态信息、系统操作信息和附加信息，得到新的系统操作信息，其中，深度学习模型是根据本公开实施例提供的训练方法训练得到的；以及控制模块，用于根据新的系统操作信息控制能量传递系统。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据本公开实施例提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开实施例提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开实施例提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用深度学习模型的训练方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图；

图3示意性示出了根据本公开实施例的能量传递系统的示意图；

图4示意性示出了根据本公开实施例的初始深度学习模型的原理示意图；

图5示意性示出了根据本公开实施例的训练初始深度学习模型的原理示意图；

图6示意性示出了根据本公开实施例的虚拟能量传递系统的示意图；

图7示意性示出了根据本公开实施例的控制能量传递系统的方法的流程图；

图8示意性示出了根据本公开实施例的控制能量传递系统的方法的应用场景图；

图9示意性示出了根据本公开实施例的深度学习模型的训练装置的框图；

图10示意性示出了根据本公开实施例的深度学习模型的训练装置的框图；以及

图11示出了可以用来实施本公开的实施例的适于实现深度学习模型的训练方法、控制能量传递系统的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

能量传递系统可以包括制冷系统、制热系统、电能供给系统等，可以针对系统中多个设备的运行参数进行控制来实现对能量传递系统进行运行操作控制。但是发明人发现针对能量传递系统的控制方式精确度较低，存在冗余能耗过高，运行状态不稳定等缺陷。

本公开的实施例提供了深度学习模型的训练方法、控制能量传递系统的方法、装置、电子设备以及存储介质。深度学习模型的训练方法包括：获取能量传递系统在历史时间段中的实际系统状态信息和实际系统操作信息，分别作为样本系统状态信息和样本系统操作信息；根据样本系统状态信息和样本系统操作信息，确定与样本系统操作信息相关联的样本附加信息；以及基于强化学习策略，利用样本系统状态信息、样本系统操作信息和样本附加信息训练初始深度学习模型，得到训练后的深度学习模型，深度学习模型用于确定控制能量传递系统的系统操作信息。

根据本公开的实施例，通过将历史时间段中的实际系统状态信息和实际系统操作信息，分别作为样本系统状态信息和样本系统操作信息，并根据样本系统状态信息和样本系统操作信息生成样本附加信息，可以在不对能量传递系统进行实际控制的条件下，利用样本附加信息能够较为准确地表征系统操作信息对能量传递系统的实际系统状态的影响，因此基于强化学习策略，利用样本系统状态信息、样本系统操作信息和样本附加信息训练初始深度学习模型，可以使训练后的深度学习模型能够较为准确地可以实现对于深度学习模型的离线训练，避免在线训练过程中向能源传递系统发送系统操作信息造成系统运行故障，提升系统运行效率。

图1示意性示出了根据本公开实施例的可以应用深度学习模型的训练方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用深度学习模型的训练方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的深度学习模型的训练方法及装置。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Serverv，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

需要说明的是，本公开实施例所提供的深度学习模型的训练方法一般可以由服务器105执行。相应地，本公开实施例所提供的深度学习模型的训练装置一般可以设置于服务器105中。本公开实施例所提供的深度学习模型的训练方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的深度学习模型的训练装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图。

如图2所示，该深度学习模型的训练方法包括操作S210～S230。

在操作S210，获取能量传递系统在历史时间段中的实际系统状态信息和实际系统操作信息，分别作为样本系统状态信息和样本系统操作信息。

在操作S220，根据样本系统状态信息和样本系统操作信息，确定与样本系统操作信息相关联的样本附加信息。

在操作S230，基于强化学习策略，利用样本系统状态信息、样本系统操作信息和样本附加信息训练初始深度学习模型，得到训练后的深度学习模型，深度学习模型用于确定控制能量传递系统的系统操作信息。

根据本公开的实施例，能量传递系统可以包括将预设空间中冗余的热能传递出该预设空间的制冷系统。但不仅限于此，还可以包括其他形式的能量传递系统，例如可以包括向预设空间中传递热能的制热系统，或者还可以包括用于传递电能等其他形式能量的能量供给系统，本公开的实施例对能量传递系统传递的具体能量形式不做限定。

根据本公开的实施例，实际系统状态信息可以表征能量系统中的执行设备的设备状态，但不仅限于此，还可以包括能量传递系统中线路、管道等连接链路的工作状态。

根据本公开的实施例，实际系统操作信息可以包括能量传递系统中的执行设备、连接链路等系统组成部分需要执行的操作，例如可以包括执行设备的运行频率、连接链路中阀门的开闭状态、阀门打开角度等。本公开的实施例对实际系统操作信息的具体类型不做限定，只要能够指示系统中的执行设备、连接链路等系统组成部分执行操作即可。

根据本公开的实施例，在历史时间段中的历史采样时刻t能量传递系统可以具有实际的系统状态信息St，能量传递系统可以基于执行与实际的系统操作信息at相对应的操作，在新的历史采样时刻t+1生成新的系统状态信息St+1。由此可以将历史时间段中各个历史采样时刻各自对应的实际的系统状态信息和实际的系统操作信息进行采集，得到与历史采样时刻对应的样本系统状态信息和样本系统操作信息。

根据本公开的实施例，样本附加信息可以包括基于样本系统状态信息和样本系统操作信息生成的样本奖励信息。样本奖励信息可以表征能量传递系统通过执行与样本系统操作信息相对应的操作得到的正向反馈信息或负向反馈信息。因此，基于强化学习策略，利用样本系统状态信息、样本系统操作信息和样本附加信息训练初始深度学习模型，可以在不将样本系统操作信息输入至能量传递系统的条件下，根据历史时间段中各个历史采样时刻对应的样本附加信息对初始深度学习模型进行奖励或惩罚，进而根据奖励或惩罚来相应地调整初始深度学习模型的模型参数，使得到的训练后的深度学习模型能够较为准确地输出系统操作信息，实现在能量传递系统不参与的情况下进行强化学习训练，避免在训练初期对能量传递系统的控制准确性造成影响，提升了能量传递系统的运行稳定性，也相应地提升了与能量传递系统相关的其他设备或系统的能量需求稳定性。

根据本公开的实施例，样本系统操作信息可以包括以下至少一项：与执行设备相关的样本设备工作频率信息、与执行设备相关的样本设备启停操作信息，其中，能量传递系统包括至少一个执行设备。

根据本公开的实施例，执行设备可以包括工质泵、电磁阀、换热器等任意类型的设备，样本设备工作频率可以表征执行设备的设备电机的频率，但不仅限于此，还可以表征其他类型的工作频率，例如泵轴转动频率等。本公开的实施例对样本设备工作频率的具体类型不做限定。

根据本公开的实施例，样本设备启停操作信息可以用于表征控制执行设备的设备开启状态或设备结束状态。

图3示意性示出了根据本公开实施例的能量传递系统的示意图。

如图3所示，能量传递系统300可以使制冷系统，该能量传递系统300可以包括冷冻水一次泵、冷冻水二次泵、冷水机组、换热器、冷却水泵、蓄冷罐、冷却塔、空调设备、阀门等多个执行设备。多个执行设备之间可以通过介质管路连接来传递介质。能量传递系统300可以通过连接外部水源来工作，应通过向空调设备向机房传递冷源将机房的温度保持在预设的温度范围中。能量传递系统300的控制目标是在保证末端机房供冷量足够的情况下，尽可能的降低系统中各个执行设备的用电能耗。

在本公开的一个示例中，样本系统状态信息St可以包括制冷系统中的制冷单元的冷却侧流量、制冷单元的冷冻侧流量、制冷机的进出水温度、换热器的进出水温度、冷却塔的进出水温度；制冷系统的管路总回路的进水出温度、总回路的流量等。需要说明的是，制冷系统可以包括一个或多个制冷单元，制冷单元可以包含多个执行设备，多个制冷单元可以单独地执行制冷功能，或者还可以多个制冷单元协同执行制冷功能。

在本公开的一个示例中，样本系统操作信息at可以包括冷却泵的频率、冷却泵开关状态、冷冻泵频率、冷冻泵开关状态、制冷机的开关状态、制冷机的出水温度、冷却塔风扇的频率、冷却塔风扇的开关状态等。

根据本公开的实施例，根据样本系统状态信息和样本系统操作信息，确定与样本系统操作信息相关联的样本附加信息可以包括基于预设的奖励函数来处理样本系统状态信息，得到样本奖励信息。

在本公开的一个示例中，可以基于如下公式(1)确定样本奖励信息：

例如，s_t是历史时间段中t时刻制冷系统的状态(样本系统状态信息)，a_t是t时刻制冷系统的动作(样本系统操作信息)，r_t是t时刻制冷系统的样本奖励信息。

公式(1)中，中，ctsq_t是t时刻制冷系统蓄冷罐的充放冷流量，ctsq_limit是充放冷流量的阈值。P_t是t时刻系统中所有用电执行设备的设备功率总和，可以表征制冷系统的总电功率，P_limit是充放冷流量的阈值。α、β是权重系统，α和β通常设定为[0，1]的数值范围内。制冷系统中的蓄冷罐作为制冷系统的后备冷源，其充放冷流量反应了制冷系统在t时刻的冷流量是否供给充足，而制冷系统总电功率反应了系统当前时刻的能耗。根据公式(1)得到的样本奖励信息可以约束制冷系统的制冷量在供给充足的情况下，尽量降低整个制冷系统的能耗水平。因此根据样本奖励信息来训练初始深度学习模型，可以使训练后得到的深度学习模型输出的系统操作信息，控制制冷系统(能量传递系统)保持预设的温度需求条件的情况下，通过精确控制执行设备执行操作来降低能耗水平。

根据本公开的实施例，样本系统状态信息、样本系统操作信息和样本附加信息之间通过样本时刻相关联，样本时刻包括多个。样本时刻可以基于历史时间段中的历史采样时刻来表征。样本系统状态信息St、样本系统操作信息at和样本附加信息rt可以与样本时刻t相关联。

根据本公开的实施例，基于强化学习策略，利用样本系统状态信息、样本系统操作信息和样本附加信息训练初始深度学习模型可以包括：根据多个样本时刻各自对应的样本系统状态信息、样本系统操作信息和样本附加信息，确定多个样本时刻各自对应的初始训练数据，初始训练数据包括样本系统操作信息；根据多个样本时刻各自对应的初始训练数据，确定初始训练数据序列；利用预设掩码更新初始训练数据序列中的至少一个样本目标系统操作信息，得到训练数据序列，其中，多个样本系统操作信息包括样本目标系统操作信息；将样本目标系统操作信息作为样本标签，根据训练数据序列和样本目标系统操作信息训练初始深度学习模型。

根据本公开的实施例，多个样本时刻各自对应的样本系统状态信息、样本系统操作信息和样本附加信息可以基于公式(2)来表征。

τ＝(s₀，a₀，r₀，s₁，a₁，r₁，…，s_T，a_T，r_T) (2)；

公式(2)中，s_t、a_t、r_t可以分别表示与样本时刻t对应的样本系统状态信息、样本系统操作信息和样本附加信息，其中，T≥t，且T为整数。可以从历史时间段中获取T+1个样本时刻各自对应的样本系统状态信息、样本系统操作信息，并生成获取T+1个样本时刻各自对应的样本附加信息。

根据本公开的实施例，可以基于如下公式(3)来确定与样本时刻t相对应的样本累积奖励信息R_t，进而得到根据样本系统状态信息s_t、样本系统操作信息a_t和样本累积奖励信息R_t，得到的初始训练数据包括s_t、a_t和R_t。

公式(3)中，R_t表征样本时刻t至结束时刻T之间的累积奖励信息总和，

需要说明的是，在结束时刻T为针对能量传递系统的控制任务完成时刻的情况下，R_t还可以表征完成整个任务得到的未来时间段的样本奖励信息总和。

在本公开的一个示例中，根据t个样本时刻各自对应的初始训练数据，确定初始训练数据序列，可以包括：将多个样本时刻各自对应的初始训练数据按照时序关系进行拼接，得到的初始训练数据序列为：(s₀，a₀，R₀，s₁，a₁，R₀，…，s_t，a_t，R_t)。

在本公开的一个示例中，根据多个样本时刻各自对应的初始训练数据，确定初始训练数据序列还可以包括：按照预设的时间窗从多个样本时刻中选择目标样本时刻，例如样本时刻3、4、......至t，进而得到的初始训练数据序列为：(s₂，a₂，R₂，s₃，a₃，R₃，…，s_t，a_t，R_t)。

根据本公开的实施例，可以针对待预测的样本时刻t，将与样本时刻t相对应的样本系统操作信息确定为样本目标系统操作信息，例如可以初始训练数据序列(s₂，a₂，R₂，s₃，a₃，R₃，…，s_t，a_t，R_t)中的a_t进行掩码，将a_tmask为0向量，得到训练数据序列。

根据本公开的实施例，或者还可以对与待预测的样本时刻t相对应的样本系统操作信息和样本累积奖励信息进行掩码，得到训练数据序列。

根据本公开的实施例，初始深度学习模型可以使基于注意力网络算法构建的到的，例如可以基于Decision Transformer算法构建得到初始深度学习模型。将掩码后的训练数据序列输入至初始深度学习模型

根据本公开的实施例，根据训练数据序列和样本目标系统操作信息训练初始深度学习模型，可以包括将掩码后的训练数据序列输入至初始深度学习模型，输出预测的初始系统操作信息，通过损失函数处理初始系统操作信息与样本标签得到损失值，进而可以根据损失值迭代的调整初始深度学习模型的模型参数。在损失函数收敛的情况下得到训练后的深度学习模型。

根据本公开的实施例，训练数据序列中的样本系统状态信息、样本系统操作信息和样本累积奖励信息，可以各自包含与执行操作、系统状态、和累积附加奖励相关的字段，以便于初始深度学习模型融合各个信息的语义信息来对待预测的样本时刻t的系统操作信息进行预测。

图4示意性示出了根据本公开实施例的初始深度学习模型的原理示意图。

如图4所示，初始深度学习模型400可以包括特征嵌入层410，注意力融合网络420和输出层430。注意力融合网络420可以基于causal transformer算法构建得到。训练数据序列可以包括多个样本时刻各自对应的样本系统状态信息、样本系统操作信息和样本累积奖励信息：s₁、a₁、R₁.....s_t-1、a_t-1、R_t-1、s_t、a_t、R_t。训练数据序列中，样本系统操作信息a_t和样本累积奖励信息R_t可以是被掩码后的向量。

如图4所示，将训练数据序列输入特征嵌入层410，输出训练数据序列中s₁、a₁、R₁......s_t-1、a_t-1、R_t-1、s_t、a_t、R_t各自对应的编码向量。将s₁、a₁、R₁......s_t-1、a_t-1、R_t-1、s_t、a_t、R_t各自对应的编码向量输入注意力融合网络进行特征融合，输出的融合特征可以输入基于线性解码器构建的输出层430，输出层430可以输出与待预测的样本时刻t对应的预测样本系统操作信息at”。将获取到的与样本时刻t对应的样本系统操作信息at作为标签，可以利用样本系统操作信息at和预测样本系统操作信息at”来训练初始深度学习模型，进而得到训练后的深度学习模型。

在本公开的一个示例中，初始深度学习模型还可以输出多个预测样本系统操作信息，通过多个预测样本系统操作信息各自对应的样本标签和多个预测样本系统操作信息可以得到联合损失值，进而可以根据联合损失值来训练初始深度学习模型。

根据本公开的实施例提供的训练方法，可以实现针对深度学习模型的离线强化学习(Offline Reinforcement Learning，简称Offline RL)，实现初始深度学习模型能够从历史时间段中能量传递系统产生的离线数据中进行学习，而无需与能量传递系统的实际工况环境进行实时交互，避免训练阶段中对能量传递系统的真实工况环境产生负面影响，有助于提高能量传递系统的安全性与稳定性，可以广泛地应用于医疗、交通等应用场景中。此外，由于获取到的历史时间段中的样本系统状态信息和样本系统操作信息可以是固定数据，并在训练过程中将强化学习问题转换成序列预测问题来避免建立值函数或计算策略梯度等方式造成的训练过程中训练效率较低，使训练过程中不会受到环境变化的影响，有助于提高深度学习模型训练过程的稳定性，提升训练后的深度学习模型的鲁棒性。

根据本公开的实施例，还可以基于对历史时间段中获取的样本系统状态信息、样本系统操作信息进行数据预处理，数据预处理包括对信息中缺失值、异常值进行预处理，对信息中的数据进行归一化处理等预处理方式。

根据本公开的实施例，可以通过如下方式对样本系统操作信息或样本系统状态信息中进行预处理。

对于样本系统操作信息或样本系统状态信息中缺失值以及异常值，可以线性插值的方式来填补或者替换该异常值、缺失值。例如可以基于公式(4)来进行线性插值处理。其中y0和y1可以是异常值相邻的左右时刻的两个值。

根据本公开的实施例，还可以通过如下数据归一化方式对样本系统操作信息或样本系统状态信息中进行预处理。

例如，可以对样本系统操作信息或样本系统状态信息进行min-max(最小值至最大值)归一化，归一化预处理方式如公式(5)所示：

公式(5)中，x_max是样本数据(样本系统操作信息或样本系统状态信息)中x的最大值，x_min是样本数据中x的最小值。min-max归一化的优点是能够保留多个样本系统操作信息各自的原始数据之间的相对关系，或者也能够保留多个样本系统状态信息各自的原始数据之间的相对关系，消除量纲的影响。

根据本公开的实施例，还可以将获取到的训练数据序列划分为训练数据集和验证数据集。例如可以将训练数据序列中的数据按照时间戳进行排序，并将训练数据集、验证数据集按照8∶2的比例进行划分，保证验证数据集的样本时刻晚于训练数据集对应的样本时刻，同时可以避免出现训练数据泄漏问题。

根据本公开的实施例，可以基于Adam优化器来训练得到深度学习模型。损失函数可以根据样本系统操作信息的数据类型不同而选择不同的损失函数。例如样本系统操作信息的数据类型是离散型的，可以使用交叉熵损失函数，如果样本系统操作信息的数据类型是连续型的，可以使用MSE(Mean Squared Error，均方误差)或L1(Mean Absolute Error，MAE)损失函数。

根据本公开的实施例，基于强化学习策略，利用样本系统状态信息、样本系统操作信息和样本附加信息训练初始深度学习模型还可以包括针对第t次训练阶段执行如下操作：根据当前的样本系统状态信息、当前的样本系统操作信息和当前的样本附加信息，确定第t-1训练数据序列，t为大于或等于1的整数；利用初始深度学习模型处理第t-1训练数据序列，得到第t样本系统操作信息；利用预构建的虚拟能量传递系统处理第t样本系统操作信息，得到第t样本系统状态信息，虚拟能量传递系统适用于模拟与能量传递系统相对应的系统运行环境；根据第t样本系统状态信息、第t样本系统操作信息和第t样本附加信息训练初始深度学习模型，其中，第t样本附加信息是根据第t样本系统状态信息确定的。

根据本公开的实施例，当前的样本系统状态信息、当前的样本系统操作信息和当前的样本附加信息，可以包括历史时间段中获取到的实际的系统状态信息、实际的系统操作信息，还可以包括在之前的t-1次训练阶段生成的样本系统状态信息和样本系统操作信息。

根据本公开的实施例，利用初始深度学习模型处理第t-1训练数据序列，可以得到初始深度学习模型预测的第t样本系统操作信息。预构建的虚拟能量传递系统可以包括表征能量传递系统的仿真系统。虚拟能量传递系统能够模拟能量传递系统，根据第t样本系统操作信息执行系统操作，进而生成与第t训练阶段对应的第t样本系统状态。这样可以实现在不接入能量传递系统，不影响能量传递系统进行正常工作的条件下，利用第t样本系统状态表征能量传递系统在实际的工作环境中的系统工作状态。

根据本公开的实施例，根据第t样本系统状态可以确定与第t系统操作信息对应的第t样本附加信息，第t样本附加信息可以较为准确的表征第t系统操作信息针对能量传递系统的正面影响程度或负面影响程度，从而根据第t样本系统状态信息、第t样本系统操作信息和第t样本附加信息训练初始深度学习模型，可以在历史时间段中获取到的数据量较小的条件下来实现针对初始深度学习模型的离线强化学习，进而降低深度学习模型的数据采集规模，降低训练难度，且可以根据虚拟能量传递系统在各个训练阶段输出的样本系统操作信息来实时地模拟能量传递系统的在线系统运行环境，提升深度学习模型针对系统操作信息的预测精度。

根据本公开的实施例，可以通过设置训练阶段的次数来控制训练初始深度学习模型的训练频次，或者还可以将训练阶段得到的样本附加信息与预设的附加信息阈值进行比较，在样本附加信息大于或等于附加信息阈值的条件下得到训练后的深度学习模型。

根据本公开的实施例，样本系统状态信息、样本系统操作信息和样本附加信息之间基于样本时刻相关联，样本时刻包括多个。

根据本公开的实施例，根据当前的样本系统状态信息、当前的样本系统操作信息和当前的样本附加信息，确定第t-1训练数据序列包括：根据多个当前的样本附加信息，确定与第t-1样本时刻相关联的第t-1样本附加期望信息；根据第t-1样本附加期望信息，以及与第t-1样本时刻相关联的第t-1样本系统状态信息和第t-1样本系统操作信息，确定第t-1训练数据序列。

根据本公开的实施例，第t-1样本附加期望信息可以基于已经生成的多个训练阶段各自对应的样本附加信息的累加和来确定。第t-1训练数据序列可以包括第t-1样本系统状态信息St-1、第t-1样本系统操作信息at-1和第t-1样本附加期望信息Rt-1。第t-1训练数据序列还可以包括基于第t-1样本系统操作信息at-1生成的第t样本系统状态信息St，以及掩码后的第t样本系统操作信息at和第t样本附加期望信息Rt。

根据本公开的实施例，根据第t-1样本附加期望信息，以及与第t-1样本时刻相关联的第t-1样本系统状态信息和第t-1样本系统操作信息，确定第t-1训练数据序列，还可以包括根据预设的工况环境属性信息来更新第t-1样本系统状态信息，得到更新后的第t-1样本系统状态信息。工况环境属性信息可以包括环境温度信息、环境湿度信息等天气条件属性信息，或者还可以包括其他类型的工况环境属性信息，例如电压限制值信息等，本公开的实施例对工况环境属性信息的具体类型不做限定。根据工况环境属性信息来更新第t-1样本系统状态信息，可以使更新后的第t-1样本系统状态信息表征能量传递系统在不同的工况环境中的系统运行状态，以提升虚拟能量传递系统的模拟精度，使训练得到的深度学习模型能够对能量传递系统在多种类型的工况条件下进行系统操作控制，提升深度学习模型的泛化能力，并提升针对能量传递系统的控制精确程度。

图5示意性示出了根据本公开实施例的训练初始深度学习模型的原理示意图。

如图5所示，针对第t训练阶段，虚拟能量传递系统510可以输出第t-1训练数据序列511，第t-1训练数据序列可以包括第t-1样本系统状态信息St-1、第t-1样本系统操作信息at-1和第t-1样本附加期望信息Rt-1，以及基于第t-1样本系统操作信息at-1生成的第t样本系统状态信息St，以及掩码后的第t样本系统操作信息at和第t样本附加期望信息Rt。将第t-1训练数据序列输入初始深度学习模型520，输出第t样本系统操作信息521。根据第t样本系统操作信息521可以确定第t样本附加期望信息。将第t样本系统操作信息521传输至虚拟能量传递系统，可以生成新的样本系统状态信息，例如可以生成第t+1样本系统状态信息，进而生成第t训练数据序列。因此可以基于图5所示的虚拟能量传递系统510来迭代地训练对初始深度学习模型，得到训练后的深度学习模型。

根据本公开的实施例，能量传递系统可以包括多个执行设备，以及多个执行设备之间的依赖关系。执行设备之间的依赖关系例如可以表征执行设备之间的管道连接关系，或者还可以包括执行设备之间的控制关系。本公开的实施例对依赖关系的具体类型不做限定。

根据本公开的实施例，虚拟能量传递系统是基于如下操作步骤确定的：根据预训练的机器学习模型确定虚拟设备节点，虚拟设备节点适用于表征执行设备；以及根据虚拟设备节点和依赖关系，构建虚拟能量传递系统。

根据本公开的实施例，预训练的机器学习模型可以基于多层感知器算法、极度梯度决策树算法(ExtremeGradientBoosting，XGBoost)等任意类型的机器学习算法得到，本公开的实施例对构建机器学习算法的具体算法类型不做限定。

根据本公开的实施例，可以基于与执行设备相关的实际的工况数据与控制数据作为训练样本，利用训练样本来对机器学习模型进行预训练，得到表征该执行设备的运行工况的机器学习模型。根据能量传递系统中执行设备之间的依赖关系，以及执行设备各自的设备类型，可以选择与设备类型对应的机器学习模型作为虚拟设备节点，并基于依赖关系构建多个虚拟设备节点之间的依赖关系，从而可以得到基于虚拟设备节点以及虚拟设备节点之间的边关系表征的虚拟系统拓扑图，通过该虚拟系统拓扑图来表征能量传递系统的系统运行环境。

图6示意性示出了根据本公开实施例的虚拟能量传递系统的示意图。

如图6所示，虚拟能量传递系统600可以包括表征能量传递系统的多个执行设备之间的依赖关系的虚拟系统拓扑610，还可以包括信息输入节点601和信息输出节点602。虚拟系统拓扑610可以包括分别表征执行设备的虚拟设备节点611、612、613、614和615。虚拟设备节点611、612、613、614和615之间的边关系可以表征不同的执行设备之间的依赖关系。

如图6所示，针对第t训练阶段，信息输入节点601可以将初始深度学习模型输出的第t样本系统操作信息传输至虚拟系统拓扑610中的各个虚拟设备节点，实现对于虚拟能量传递系统600中的多个虚拟设备节点进行设备操作控制，多个虚拟设备节点611、612、613、614和615各自可以输出第t样本系统状态信息，第t样本系统状态信息可以通过信息输出节点602获取到。根据第t样本系统状态信息可以得到第t样本附加信息，根据第t样本系统操作信息、第t样本系统状态信息和第t样本附加信息，得到第t训练数据序列，利用第t训练数据序列来对初始深度学习模型进行第t次模型参数调整，实现第t训练阶段针对初始深度学习模型进行训练。

根据本公开的实施例，通过向虚拟能量传递系统传入不同的控制参数(样本系统操作信息)，可以实现通过控制参数控制整个虚拟能量传递系统，实现通过虚拟能量传递系统作为制冷系统的离线环境，用于强化学习控制策略的训练和验证登过程。随着获得到的实际的系统状态信息和实际的系统操作信息不断增加，或者随着强化学习策略迭代地频次不断增加，可以迭代地训练初始深度学习模型，以提升深度学习模型的对于系统控制信息的输出精度。还可以通过优化构建虚拟设备节点的机器学习模型来提升虚拟能量传递系统模拟系统运行状态地能力，通过更新后的虚拟设备节点来提升深度学习模型的预测准确性，避免控制策略可能导致设备过载、过热或其他设备损坏的问题。

在本公开的一个示例中，虚拟能量传递系统可以基于向无环图(DirectedAcyclic Graph)表征，通过构建预训练的机器学习模型来表征能量传递系统中的执行设备，虚拟设备节点之间的边关系可以表征执行设备之间的依赖关系。

图7示意性示出了根据本公开实施例的控制能量传递系统的方法的流程图。

如图7所示，该控制能量传递系统的方法包括操作S710～S740。

在操作S710，获取能量传递系统在当前时刻已经生成的系统状态信息和系统操作信息。

在操作S720，根据系统状态信息和系统操作信息，确定与系统操作信息相关联的附加信息。

在操作S730，利用训练后的深度学习模型处理系统状态信息、系统操作信息和附加信息，得到新的系统操作信息，其中，深度学习模型是根据本公开实施例提供的训练方法训练得到的。

在操作S740，根据新的系统操作信息控制能量传递系统。

根据本公开的实施例，能量传递系统在当前时刻已经生成的系统状态信息和系统操作信息，可以包括当前时刻之前的多个历史时刻生成的系统状态信息和系统操作信息。可以通过安装在能量传递系统的传感器来采集到系统状态信息和系统操作信息。

根据本公开的实施例，附加信息可以可以包括基于系统状态信息和样系统操作信息生成的奖励信息。可以将各个时刻对应的系统状态信息、系统操作信息和附加信息，确定与各个时刻对应的附加期望信息。根据各个时刻对应的系统状态信息、系统操作信息和附加期望信息，生成基于各个时刻的时序关系排列的输入数据序列。将输入数据序列输入至训练后的深度学习模型，输出新的系统操作信息。可以通过迭代地输出新的系统操作信息来实时地控制能量传递系统，实现对能量传递系统的精确控制。

需要说明的是，本公开实施例提供的控制能量传递系统的方法中的技术术语，包括但不限于系统操作信息、系统状态信息、附加信息，与本公开实施例提供的深度学习模型的训练方法中提供的技术术语，包括但不限于样本系统操作信息、样本系统状态信息、样本附加信息具有相同的技术属性，本公开的实施例在此不再赘述。

图8示意性示出了根据本公开实施例的控制能量传递系统的方法的应用场景图。

如图8所示，该应用场景800中可以包括通信连接的能量传递系统810、网关设备820、消息队列830和云服务端840。云服务端840可以设置有基于本公开实施例提供的训练方法训练得到的深度学习模型。

如图8所示，在能量传递系统810的实际生产过程中，能量传递系统810可以通过传感器分时采集数据，采集到实际的系统状态信息和接收到的系统操作信息。能量传递系统810可以通过向网关设备820传输系统状态信息和系统操作信息。网关设备820可以基于非阻塞通信框架构建得到，通过接收能量传递系统810上传的数据，生成通信消息。网关设备820可以基于消息队列830作为中间件来确保能量传递系统上传的通信消息的可靠性。网关设备820可以将系统状态信息和系统操作信息打包成固定的格式的通信消息，并推送到消息队列830中。云服务端840作为消息消费者，从消息队列830中消费通信消息，写回到云服务端840的数据库中。云服务端840可以基于接收到的通信消息确定新的系统操作信息。云服务端840可以基于系统操作信息生成系统控制消息，并将系统控制消息发送至消息队列830。网关设备820可以作为消息消费者，从消息队列830中消息系统控制消息，并将系统控制消息中的系统操作信息发送至能量传递系统810。能量传递系统810可以基于接受到的新的系统操作信息控制执行设备执行操作，进而实时的控制能量传递系统810运行，提升能量传递系统运行的稳定性，节省能量传递系统运行能耗。

根据本公开的实施例，通过构建包含网关设备、消息队列和云服务端的云边数据链路，可以实现能量传递系统的系统状态信息实时上传，并可以基于云服务端的较强的算力实时地生成系统操作信息，实现针对能量传递系统的实时控制。还可以通过消息队列对消息资源进行消息区域划分，用于规划网关设备与消息队列之间的映射关系，当发生问题时也能够很快定位出现问题的区域，便于快速查询并解决故障问题。

根据本公开的实施例，能量传递系统还可以通过其他方式与用于执行本公开实施例提供的控制能量传递系统的方法的设备通信连接，本公开实施例对能量传递系统和用于执行本公开实施例提供的控制能量传递系统的方法的设备之间的通信连接方式不做限定。

图9示意性示出了根据本公开实施例的深度学习模型的训练装置的框图。

如图9所示，深度学习模型的训练装置包括：第一获取模块910、样本附加信息确定模块920和训练模块930。

第一获取模块910，用于获取能量传递系统在历史时间段中的实际系统状态信息和实际系统操作信息，分别作为样本系统状态信息和样本系统操作信息。

样本附加信息确定模块920，用于根据样本系统状态信息和样本系统操作信息，确定与样本系统操作信息相关联的样本附加信息。

训练模块930，用于基于强化学习策略，利用样本系统状态信息、样本系统操作信息和样本附加信息训练初始深度学习模型，得到训练后的深度学习模型，深度学习模型用于确定控制能量传递系统的系统操作信息。

根据本公开的实施例，训练模块包括针对第t次训练阶段的如下子模块：该子模块包括训练数据序列确定子模块、样本系统操作信息确定子模块、样本系统状态信息确定子模块和第一训练子模块。

训练数据序列确定子模块，用于根据当前的样本系统状态信息、当前的样本系统操作信息和当前的样本附加信息，确定第t-1训练数据序列，t为大于或等于1的整数。

样本系统操作信息确定子模块，用于利用初始深度学习模型处理第t-1训练数据序列，得到第t样本系统操作信息。

样本系统状态信息确定子模块，用于利用预构建的虚拟能量传递系统处理第t样本系统操作信息，得到第t样本系统状态信息，虚拟能量传递系统适用于模拟与能量传递系统相对应的系统运行环境。

第一训练子模块，用于根据第t样本系统状态信息、第t样本系统操作信息和第t样本附加信息训练初始深度学习模型，其中，第t样本附加信息是根据第t样本系统状态信息确定的。

根据本公开的实施例，能量传递系统包括多个执行设备，以及多个执行设备之间的依赖关系。

根据本公开的实施例，训练数据序列确定子模块包括：第一确定单元和第二确定单元。

第一确定单元，用于根据多个当前的样本附加信息，确定与第t-1样本时刻相关联的第t-1样本附加期望信息。

第二确定单元，用于根据第t-1样本附加期望信息，以及与第t-1样本时刻相关联的第t-1样本系统状态信息和第t-1样本系统操作信息，确定第t-1训练数据序列。

根据本公开的实施例，样本系统状态信息、样本系统操作信息和样本附加信息之间通过样本时刻相关联，样本时刻包括多个。

根据本公开的实施例，训练模块包括：初始训练数据确定子模块、初始训练数据序列确定子模块、训练数据序列获得子模块和第二训练子模块。

初始训练数据确定子模块，用于根据多个样本时刻各自对应的样本系统状态信息、样本系统操作信息和样本附加信息，确定多个样本时刻各自对应的初始训练数据，初始训练数据包括样本系统操作信息。

初始训练数据序列确定子模块，用于根据多个样本时刻各自对应的初始训练数据，确定初始训练数据序列。

训练数据序列获得子模块，用于利用预设掩码更新初始训练数据序列中的至少一个样本目标系统操作信息，得到训练数据序列，其中，多个样本系统操作信息包括样本目标系统操作信息。

第二训练子模块，用于将样本目标系统操作信息作为样本标签，根据训练数据序列和样本目标系统操作信息训练初始深度学习模型。

根据本公开的实施例，样本系统操作信息包括以下至少一项：与执行设备相关的样本设备工作频率信息、与执行设备相关的样本设备启停操作信息，其中，能量传递系统包括至少一个执行设备。

图10示意性示出了根据本公开实施例的深度学习模型的训练装置的框图。

如图10所示，控制能量传递系统的装置1000包括：第二获取模块1010、附加信息确定模块1020、系统操作信息获得模块1030和控制模块1040。

第二获取模块1010，用于获取能量传递系统在当前时刻已经生成的系统状态信息和系统操作信息。

附加信息确定模块1020，用于根据系统状态信息和系统操作信息，确定与系统操作信息相关联的附加信息。

系统操作信息获得模块1030，用于利用训练后的深度学习模型处理系统状态信息、系统操作信息和附加信息，得到新的系统操作信息，其中，深度学习模型是根据本公开实施例提供的训练方法训练得到的。

控制模块1040，用于根据新的系统操作信息控制能量传递系统。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图11示出了可以用来实施本公开的实施例的适于实现深度学习模型的训练方法、控制能量传递系统的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如深度学习模型的训练方法或控制能量传递系统的方法。例如，在一些实施例中，深度学习模型的训练方法或控制能量传递系统的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的深度学习模型的训练方法或控制能量传递系统的方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行深度学习模型的训练方法或控制能量传递系统的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种深度学习模型的训练方法，包括：

获取能量传递系统在历史时间段中的实际系统状态信息和实际系统操作信息，分别作为样本系统状态信息和所述样本系统操作信息；

根据所述样本系统状态信息和所述样本系统操作信息，确定与所述样本系统操作信息相关联的样本附加信息；以及

基于强化学习策略，利用所述样本系统状态信息、所述样本系统操作信息和所述样本附加信息训练初始深度学习模型，得到训练后的深度学习模型，所述深度学习模型用于确定控制所述能量传递系统的系统操作信息。

2.根据权利要求1所述的方法，其中，所述基于强化学习策略，利用所述样本系统状态信息、所述样本系统操作信息和所述样本附加信息训练初始深度学习模型包括针对第t次训练阶段：

根据当前的所述样本系统状态信息、当前的所述样本系统操作信息和当前的所述样本附加信息，确定第t-1训练数据序列，t为大于或等于1的整数；

利用所述初始深度学习模型处理所述第t-1训练数据序列，得到第t样本系统操作信息；

利用预构建的虚拟能量传递系统处理所述第t样本系统操作信息，得到第t样本系统状态信息，所述虚拟能量传递系统适用于模拟与所述能量传递系统相对应的系统运行环境；

根据第t所述样本系统状态信息、所述第t所述样本系统操作信息和第t样本附加信息训练所述初始深度学习模型，其中，第t所述样本附加信息是根据第t所述样本系统状态信息确定的。

3.根据权利要求2所述的方法，其中，所述能量传递系统包括多个执行设备，以及多个执行设备之间的依赖关系；

其中，所述虚拟能量传递系统是基于如下操作步骤确定的：

根据预训练的机器学习模型确定虚拟设备节点，所述虚拟设备节点适用于表征所述执行设备；以及

根据所述虚拟设备节点和所述依赖关系，构建所述虚拟能量传递系统。

4.根据权利要求2所述的方法，其中，所述样本系统状态信息、所述样本系统操作信息和所述样本附加信息之间基于样本时刻相关联，所述样本时刻包括多个；

其中，所述根据当前的所述样本系统状态信息、当前的所述样本系统操作信息和当前的所述样本附加信息，确定第t-1训练数据序列包括：

根据多个所述当前的样本附加信息，确定与第t-1样本时刻相关联的第t-1样本附加期望信息；

根据所述第t-1样本附加期望信息，以及与所述第t-1样本时刻相关联的第t-1样本系统状态信息和第t-1样本系统操作信息，确定第t-1所述训练数据序列。

5.根据权利要求1所述的方法，其中，所述样本系统状态信息、所述样本系统操作信息和所述样本附加信息之间通过样本时刻相关联，所述样本时刻包括多个；

其中，基于强化学习策略，利用所述样本系统状态信息、所述样本系统操作信息和所述样本附加信息训练初始深度学习模型包括：

根据多个所述样本时刻各自对应的所述样本系统状态信息、所述样本系统操作信息和所述样本附加信息，确定多个所述样本时刻各自对应的初始训练数据，所述初始训练数据包括所述样本系统操作信息；

根据多个所述样本时刻各自对应的初始训练数据，确定初始训练数据序列；

利用预设掩码更新所述初始训练数据序列中的至少一个所述样本目标系统操作信息，得到训练数据序列，其中，多个所述样本系统操作信息包括所述样本目标系统操作信息；

将所述样本目标系统操作信息作为样本标签，根据所述训练数据序列和样本目标系统操作信息训练所述初始深度学习模型。

6.根据权利要求1所述的方法，其中，所述样本系统操作信息包括以下至少一项：

与执行设备相关的样本设备工作频率信息、与所述执行设备相关的样本设备启停操作信息，

其中，所述能量传递系统包括至少一个所述执行设备。

7.一种控制能量传递系统的方法，包括：

获取能量传递系统在当前时刻已经生成的系统状态信息和系统操作信息，

根据所述系统状态信息和所述系统操作信息，确定与所述系统操作信息相关联的附加信息；

利用训练后的深度学习模型处理所述系统状态信息、所述系统操作信息和所述附加信息，得到新的系统操作信息，其中，所述深度学习模型是根据权利要求1至6中任一项所述的方法训练得到的；以及

根据所述新的系统操作信息控制所述能量传递系统。

8.一种深度学习模型的训练装置，包括：

第一获取模块，用于获取能量传递系统在历史时间段中的实际系统状态信息和实际系统操作信息，分别作为样本系统状态信息和所述样本系统操作信息；

样本附加信息确定模块，用于根据所述样本系统状态信息和所述样本系统操作信息，确定与所述样本系统操作信息相关联的样本附加信息；以及

训练模块，用于基于强化学习策略，利用所述样本系统状态信息、所述样本系统操作信息和所述样本附加信息训练初始深度学习模型，得到训练后的深度学习模型，所述深度学习模型用于确定控制所述能量传递系统的系统操作信息。

9.根据权利要求8所述的装置，其中，所述训练模块包括针对第t次训练阶段的如下子模块：

训练数据序列确定子模块，用于根据当前的所述样本系统状态信息、当前的所述样本系统操作信息和当前的所述样本附加信息，确定第t-1训练数据序列，t为大于或等于1的整数；

样本系统操作信息确定子模块，用于利用所述初始深度学习模型处理所述第t-1训练数据序列，得到第t样本系统操作信息；

样本系统状态信息确定子模块，用于利用预构建的虚拟能量传递系统处理所述第t样本系统操作信息，得到第t样本系统状态信息，所述虚拟能量传递系统适用于模拟与所述能量传递系统相对应的系统运行环境；

第一训练子模块，用于根据第t所述样本系统状态信息、所述第t所述样本系统操作信息和第t样本附加信息训练所述初始深度学习模型，其中，第t所述样本附加信息是根据第t所述样本系统状态信息确定的。

10.根据权利要求9所述的装置，其中，所述能量传递系统包括多个执行设备，以及多个执行设备之间的依赖关系；

其中，所述虚拟能量传递系统是基于如下操作步骤确定的：

11.根据权利要求9所述的装置，其中，所述样本系统状态信息、所述样本系统操作信息和所述样本附加信息之间基于样本时刻相关联，所述样本时刻包括多个；

其中，所述训练数据序列确定子模块包括：

第一确定单元，用于根据多个所述当前的样本附加信息，确定与第t-1样本时刻相关联的第t-1样本附加期望信息；

第二确定单元，用于根据所述第t-1样本附加期望信息，以及与所述第t-1样本时刻相关联的第t-1样本系统状态信息和第t-1样本系统操作信息，确定第t-1所述训练数据序列。

12.根据权利要求8所述的装置，其中，所述样本系统状态信息、所述样本系统操作信息和所述样本附加信息之间通过样本时刻相关联，所述样本时刻包括多个；

其中，所述训练模块包括：

初始训练数据确定子模块，用于根据多个所述样本时刻各自对应的所述样本系统状态信息、所述样本系统操作信息和所述样本附加信息，确定多个所述样本时刻各自对应的初始训练数据，所述初始训练数据包括所述样本系统操作信息；

初始训练数据序列确定子模块，用于根据多个所述样本时刻各自对应的初始训练数据，确定初始训练数据序列；

训练数据序列获得子模块，用于利用预设掩码更新所述初始训练数据序列中的至少一个所述样本目标系统操作信息，得到训练数据序列，其中，多个所述样本系统操作信息包括所述样本目标系统操作信息；

第二训练子模块，用于将所述样本目标系统操作信息作为样本标签，根据所述训练数据序列和样本目标系统操作信息训练所述初始深度学习模型。

13.根据权利要求8所述的装置，其中，所述样本系统操作信息包括以下至少一项：

其中，所述能量传递系统包括至少一个所述执行设备。

14.一种控制能量传递系统的装置，包括：

第二获取模块，用于获取能量传递系统在当前时刻已经生成的系统状态信息和系统操作信息，

附加信息确定模块，用于根据所述系统状态信息和所述系统操作信息，确定与所述系统操作信息相关联的附加信息；

系统操作信息获得模块，用于利用训练后的深度学习模型处理所述系统状态信息、所述系统操作信息和所述附加信息，得到新的系统操作信息，其中，所述深度学习模型是根据权利要求1至6中任一项所述的方法训练得到的；以及

控制模块，用于根据所述新的系统操作信息控制所述能量传递系统。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至7中任一项所述的方法。