CN115238599B

CN115238599B - 制冷系统节能方法及模型强化学习训练方法、装置

Info

Publication number: CN115238599B
Application number: CN202210701719.2A
Authority: CN
Inventors: 赵碧莹; 王涛; 徐丹; 任宏丹; 周微
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2024-02-27
Anticipated expiration: 2042-06-20
Also published as: CN115238599A

Abstract

本公开提供一种制冷系统节能方法及模型强化学习训练方法、装置；涉及网络通信技术领域。该方法包括：将目标样本的当前状态信息输入所述第一网络和第二网络，采用状态预测模型，对目标样本状态变化进行预测，确定第一状态信息；在制冷系统的仿真环境中，运行获得第二状态信息；基于第一状态信息和第二状态信息，获得优化状态信息，进而训练第一网络和第二网络。本公开可以解决相关技术中IDC机房制冷系统节能方式精确性差及能耗过大的问题。

Description

制冷系统节能方法及模型强化学习训练方法、装置

技术领域

本公开涉及人工智能技术领域，具体而言，涉及一种制冷系统节能方法及模型强化学习训练方法、装置。

背景技术

互联网数据中心(Internet Data Center，IDC)机房，是电信部门利用已有的互联网通信线路、带宽资源，建立标准化的电信专业级机房环境。IDC机房内最大的能源消耗是冷却设施，大约有1/3到1/2的IDC机房总功耗用于制冷系统，随着IDC机房内设备集成度的提高，需要对IDC机房制冷系统的功耗进行优化，以提高能源利用效率。

相关技术中，对IDC机房制冷系统能耗的控制依然是通过分时段控制来节省能耗。如在IDC机房的服务器使用高峰期制冷系统设备全开、温度设置较低，在服务器较空闲的时段，关闭部分制冷设备，调高温度设置。而该控制方式显然不够精准，仍然存在很大的节能空间。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例的目的在于提供一种制冷系统节能方法及模型强化学习训练方法、装置，进而在一定程度上解决了相关技术中IDC机房制冷系统节能方式精确性差及能耗过大的问题。

根据本公开的第一方面，提供了一种制冷系统节能模型的强化学习训练方法，所述制冷系统节能模型包括第一网络和第二网络，所述方法包括:将目标样本的当前状态信息输入所述第一网络和第二网络，得到所述第一网络输出的价值信息，以及所述第二网络输出的目标动作；采用状态预测模型，对目标样本在所述目标动作下的状态变化进行预测，确定目标样本的第一状态信息；在制冷系统的仿真环境中，运行目标样本的目标动作，以获得目标样本的第二状态信息；基于所述第一状态信息和所述第二状态信息，获得目标样本的优化状态信息；基于目标样本的当前状态信息和所述优化状态信息及所述价值信息，训练所述第一网络和所述第二网络。

可选地，所述基于所述第一状态信息和所述第二状态信息，获得目标样本的优化状态信息，包括:采用状态优化模型对所述第一状态信息和所述第二状态信息进行状态优化，获得优化状态信息；所述状态优化模型为对基于第一训练样本集的状态预测模型的预测结果和仿真环境的运行结果进行线性回归拟合获得的；所述状态预测模型为经第二训练样本集训练获得的。

可选地，所述第一训练样本集中的样本包括原始训练样本和对原始训练样本进行预处理后的样本，所述预处理包括多项式变换和/或归一化处理。

可选地，所述基于目标样本的标签信息和所述优化状态信息及所述价值信息，训练所述第一网络和所述第二网络，包括：基于所述第一网络确定所述优化状态信息对应的第一价值信息；基于所述第一网络确定目标样本所述当前状态信息对应的第二价值信息和反馈信息；基于所述第一价值信息、所述反馈信息和所述第二价值信息，确定损失函数值；基于所述损失函数值，对所述第一网络和所述第二网络的参数进行更新。

可选地，所述第一训练样本集和所述第二训练样本集中的训练样本不同。

根据本公开的第二方面，提供了一种制冷系统节能方法，所述方法包括：获取目标制冷系统的当前状态信息；将所述当前状态信息输入第二网络，得到目标制冷系统的节能操作；对目标制冷系统进行所述节能操作；其中，所述第二网络为基于目标样本的标签信息和所述优化状态信息及所述价值信息训练得到的；所述优化状态信息为基于第一状态信息和第二状态信息得到的，所述第一状态信息为采用状态预测模型对目标样本在目标动作下的状态变化进行预测得到的，所述第二状态信息为在制冷系统的仿真环境中运行目标样本的目标动作得到的。

根据本公开的第三方面，提供了一种制冷系统节能模型的强化学习训练装置，所述制冷系统节能模型包括第一网络和第二网络，所述装置包括：价值确定模块、第一状态确定模块、第二状态确定模块、状态优化模块和训练模块，价值确定模块，被配置为将目标样本的当前状态信息输入所述第一网络和第二网络，得到所述第一网络输出的价值信息，以及所述第二网络输出的目标动作；第一状态确定模块，被配置为采用状态预测模型，对目标样本在所述目标动作下的状态变化进行预测，确定目标样本的第一状态信息；第二状态确定模块，被配置为在制冷系统的仿真环境中，运行目标样本的目标动作，以获得目标样本的第二状态信息；状态优化模块，被配置为基于所述第一状态信息和所述第二状态信息，获得目标样本的优化状态信息；训练模块，被配置为基于目标样本的当前状态信息和所述优化状态信息及所述价值信息，训练所述第一网络和所述第二网络。

根据本公开的第四方面，提供一种制冷系统节能装置，所述装置包括：状态获取模块、操作确定模块和节能操作模块，状态获取模块，被配置为获取目标制冷系统的当前状态信息；操作确定模块，被配置为将所述当前状态信息输入第二网络，得到目标制冷系统的节能操作；节能操作模块，被配置为对目标制冷系统进行所述节能操作；其中，所述第二网络为基于目标样本的当前状态信息和所述优化状态信息及所述价值信息训练得到的；所述优化状态信息为基于第一状态信息和第二状态信息得到的，所述第一状态信息为采用状态预测模型对目标样本在目标动作下的状态变化进行预测得到的，所述第二状态信息为在制冷系统的仿真环境中运行目标样本的目标动作得到的。

根据本公开的第五方面，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意一项的方法。

根据本公开的第六方面，提供一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述任意一项的方法。

本公开示例性实施例可以具有以下部分或全部有益效果：

在本公开示例实施方式所提供的制冷系统节能模型的强化学习训练方法中，一方面，通过将目标样本的当前状态信息输入所述第一网络和第二网络，得到所述第一网络输出的价值信息，以及所述第二网络输出的目标动作，基于目标样本的当前状态信息和所述优化状态信息及所述价值信息，训练所述第一网络和所述第二网络，通过强化学习训练制冷系统节能模型，从而可以实现了制冷系统的智能化节能控制，提高了制冷系统功耗控制的精确度，降低能耗。另一方面，本公开采用状态预测模型对目标样本在所述目标动作下的状态变化进行预测得到第一状态信息；且在制冷系统的仿真环境中，运行目标样本的目标动作，以获得第二状态信息；基于第一状态信息和第二状态信息，获得目标样本的优化状态信息；可以保证在强化学习过程中的环境信息更贴近于真实环境，从而提高模型的学习效果，使得基于训练后的模型实现对制冷系统更好的节能效果，保证机房服务质量的前提下，降低能耗。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了根据本公开的一个实施例的强化训练方法和装置的应用场景示意图。

图2示意性示出了根据本公开的一个实施例的制冷系统节能模型的强化学习训练方法的流程示意图。

图3示意性示出了根据本公开的一个实施例的制冷系统节能模型的训练示意图。

图4示意性示出了根据本公开的一个实施例的强化学习训练方法的示意图。

图5示意性示出了根据本公开的一个实施例的制冷系统节能方法的流程示意图。

图6示意性示出了根据本公开的一个实施例的示例性制冷系统节能模型的强化学习训练装置的结构框图。

图7示意性示出了根据本公开的一个实施例的示例性电子设备框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

为便于理解本公开实施例提供的技术方案，这里先对本公开涉及的一些技术名称进行解释说明：

强化学习：强化学习(Reinforcement Learning，RL)，又称再励学习、评价学习或增强学习，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的关键要素有：environment(环境)，reward(激励，即为反馈信息)，action(动作)和state(状态)。通过这些要素能建立一个强化学习模型。强化学习解决的问题是，针对一个具体问题得到一个最优的policy(策略)。

第一网络：是指价值网络，用于对输入的当前状态信息进行分析，给出当前状态经过策略网络给出的处理策略处理后得到的网络价值信息。

第二网络：是指策略网络，用于对当前状态信息进行策略分析，得到当前状态信息的处理策略，例如关闭/开启部分制冷空调、拆洗制冷空调、调整温度设置等。

马尔可夫决策过程(Markov Decision Processes，MDPs)：MDPs是一个智能体(Agent)采取行动(Action)从而改变自己的状态(State)获得奖励(Reward)与环境(Environment)发生交互的循环过程。

卷积神经网络(Convolutional Neural Network，CNN)：是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法。

参考图1，为本公开一个示例性实施例的应用环境架构示意图。该应用环境架构100中例如可以包括至少一个服务器110和多个制冷控制设备120。其中，各制冷控制设备120可用来进行网络访问的任何合适的电子设备，包括但不限于计算机、笔记本电脑、智能电话、平板电脑或是其它类型的终端。服务器110则是能够通过网络访问的任何服务器。制冷控制设备120可以经由网络实现与服务器110的信息收发，例如从服务器110获取。服务器110可以通过访问历史数据库130来获取制冷控制设备120的历史控制参数，例如风机转速、压缩机频率、空调开启/关闭、空调温度设置等制冷控制参数和IDC机房的历史状态数据，例如历史机房温度、网络负载量、局部监控点温度等信息。还可以从历史数据库获取IDC机房制冷系统的功耗信息。不同制冷控制设备之间也可以经由网络彼此通信。网络可以是广义上的用于信息传递的网络，可以包括一个或多个通信网络，诸如无线通信网络、因特网、私域网、局域网、城域网、广域网或是蜂窝数据网络等。

在随后的描述中仅就单个服务器或制冷控制设备加以详述，但是本领域技术人员应当理解的是，示出的单个服务器110、制冷控制设备120和数据库130旨在表示本公开的技术方案涉及制冷控制设备、服务器及数据库的操作。对单个制冷控制设备以及单个服务器和数据库加以详述至少为了说明方便，而非暗示对制冷控制设备和服务器的类型或是位置等具有限制。应当注意，如果向图示环境中添加附加模块或从其中去除个别模块，不会改变本发明的示例实施例的底层概念。

参考图2，本公开一些实施例中提供的制冷系统节能模型的强化学习训练方法，可以部署于服务器中。制冷系统节能模型包括第一网络和第二网络。方法包括以下步骤S210-S250。

步骤S210，将目标样本的当前状态信息输入第一网络和第二网络，得到第一网络输出的价值信息，以及第二网络输出的目标动作。

在本示例实施方式中，目标样本可以是训练样本集中的任一训练样本，训练样本集可以包括目标IDC机房的历史数据，该历史数据可以包括历史状态信息、时间等信息，历史状态信息可以包括制冷系统所在IDC机房(机柜)的当前温度，当前访问负载量，IDC机房监测点的局部最高温度，IDC机房监测点的局部最低温度等。目标动作可以包括制冷系统的控制参数信息，例如可以包括风机转速、压缩机频率、空调温度设置、开启/关闭空调等信息。本示例中，每个训练样本可以包括IDC机房的当前状态信息S_t及对应的控制参数a_t、下一时刻状态信息S_t+1、下一时刻的IDC机房制冷系统功耗等信息。

在本示例实施方式中，第一网络可以是价值网络，如DQN中的Q网络。第二网络可以是策略网络，用于提供处理策略，即对IDC机房内制冷系统控制参数的调整策略，例如，提高风机转速、开启/关闭制冷系统内空调、提高或降低空调温度设置等。

步骤S220，采用状态预测模型，对目标样本在目标动作下的状态变化进行预测，确定目标样本的第一状态信息。

在本示例实施方式中，状态预测模型可以是经训练获得的机器学习模型，该机器学习模型可以是支持向量机、神经网络模型(如卷积神经网络CNN)或线性回归模型，本示例对此不做限定。状态预测模型用于对目标动作下制冷系统的状态改变进行预测，例如状态预测模型的输入数据可以包括IDC机房的当前状态信息S_t及对应的控制参数a_t，输出数据可以包括IDC机房的下一时刻的状态信息S_t+1和/或在t时刻到t+1时刻的时间段内IDC机房的制冷系统功耗信息。第一状态信息可以是状态预测模型针对目标动作的输出数据。

步骤S230，在制冷系统的仿真环境中，运行目标样本的目标动作，以获得目标样本的第二状态信息。

在本示例实施方式中，可以采用计算流体动力学(Computational FluidDynamics，CFD)仿真模型对IDC机房及其内制冷系统进行环境仿真。以仿真软件来模拟IDC机房及其内制冷系统的环境，以获得第二状态信息。目标动作可以包括改变制冷系统的一个或多个控制参数，还可以包括对制冷系统的拆洗等维护操作。第二状态信息可以包括IDC机房的下一时刻的状态信息S_t+1和/或在t时刻到t+1时刻的时间段内IDC机房的制冷系统功耗信息。

步骤S240，基于第一状态信息和第二状态信息，获得目标样本的优化状态信息。

在本示例实施方式中，第一状态信息和第二状态信息是在相同条件下获得的IDC机房下一时刻状态信息。可以将第一状态信息和第二状态信息进行结合，来确定IDC机房下一时刻状态信息(优化状态信息)。这样可以将机器学习模型和仿真软件的结果相结合，通过机器学习模型对历史真实状态信息进行学习，以将真实环境数据与仿真软件相结合，提高IDC机房状态信息预测的准确性，提高强化学习模型中环境作用的准确性，提高学习效果。

步骤S250，基于目标样本的当前状态信息和优化状态信息及价值信息，训练第一网络和第二网络。

在本示例实施方式中，可以基于目标样本的当前状态信息、优化状态信息和价值信息(如Q值)来计算制冷系统节能模型损失函数，通过损失函数来调整制冷系统节能模型的模型参数，即第一网络和第二网络的参数。

本公开实施例提供的制冷系统节能模型的强化学习训练方法中，一方面，通过将目标样本的当前状态信息输入第一网络和第二网络，得到第一网络输出的价值信息，以及第二网络输出的目标动作，基于目标样本的当前状态信息和优化状态信息及价值信息，训练第一网络和第二网络，通过强化学习训练制冷系统节能模型，从而可以实现了制冷系统的智能化节能控制，提高了制冷系统功耗控制的精确度，降低能耗。另一方面，本公开采用状态预测模型对目标样本在目标动作下的状态变化进行预测得到第一状态信息；且在制冷系统的仿真环境中，运行目标样本的目标动作，以获得第二状态信息；基于第一状态信息和第二状态信息，获得目标样本的优化状态信息；可以保证在强化学习过程中的环境信息更贴近于真实环境，从而提高模型的学习效果，使得基于训练后的模型实现对制冷系统更好的节能效果，保证机房服务质量的前提下，降低能耗。

在一些实施例中，基于第一状态信息和第二状态信息，获得目标样本的优化状态信息，包括：采用状态优化模型对第一状态信息和第二状态信息进行状态优化，获得优化状态信息；状态优化模型为对基于第一训练样本集的状态预测模型的预测结果和仿真环境的运行结果进行线性回归拟合获得的；状态预测模型为经第二训练样本集训练获得的。

在本示例实施方式中，状态优化模型可以是线性回归模型，也可以是神经网络模型，本示例对此不做限定。具体可以根据第一状态信息和第二状态信息的具体参数和参数量选择模型。状态预测模型是指经第二训练样本集训练得到的模型(如支持向量机模型)。可以采用第一训练样本集对状态预测模型的预测结果(第一状态信息)和仿真环境的运行结果(第二状态信息)进行线性回归拟合，即采用第一训练样本集训练线性回归模型，利用线性回归模型确定优化状态信息。

在本示例实施方式中，可以设置第一训练样本集和第二训练样本集中的训练样本不同。例如，可以将历史数据集按比例(如1:1)划分为两部分，一部分作为第一训练样本集，另一部分作为第二训练样本集。第一训练样本集的样本数量与第一训练样本集的数量可以相同，也可以不同，本示例对此不做限定。第一训练样本集中的样本可以包括原始训练样本和对原始训练样本进行预处理后的样本，例如，可以对原始训练样本进行多项式变换和/或归一化处理等得到预处理后样本。通过对样本进行预处理可以增加样本多样性，挖掘样本隐藏特性。当然，第二训练样本集也可以包括预处理后的样本，本示例对此不做限定。

示例性地，以二元线性回归模型为例说明线性回归拟合过程。线性回归模型可以表示为：式中，S′_t+1表示IDC机房的优化状态信息，/>公表示第一状态信息(状态预测模型的预测结果)，/>表示第二状态信息(仿真软件运行结果)，w₁表示/>的权重参数，w₂表示/>的权重参数。可以通过第一训练样本集训练获得模型的参数信息(如w₁和w₂)，再采用训练好的参数对目标样本的第一状态信息和第二状态信息进行优化。

本公开可以通过第一训练样本集的训练，确定状态预测模型和仿真软件两类方法预测的权重参数，使得模型的输出结果(即优化状态信息)更接近真实情况。若真实值和状态预测模型训练的结果更接近，则w₁的权重较大；若真实值和CFD中的结果更接近，则w₂更大。

在一些实施例中，参考图3，基于目标样本的标签信息和优化状态信息及价值信息，训练第一网络和第二网络，包括：

基于第一网络确定优化状态信息对应的第一价值信息。

在本示例实施方式中，第一网络可以是价值网络，如DQN(Deep Q-LearningNetwork)中的Q值网络。第一网络的输入可以是优化状态信息，输出可以是每一个动作的Q值，即输出一个向量，第一价值信息可以是第一网络的输出向量，向量中的每个元素对应一个动作的Q值。

基于第一网络确定目标样本当前状态信息对应的第二价值信息和反馈信息。

在本示例实施方式中，可以将当前状态信息输入第一网络，输出数据可以是对应的第二价值信息，如第二价值信息可以是每个动作的Q值组成的向量。反馈信息可以是环境对于智能体的激励回报，可以采用ε贪心算法选择一个动作执行。

基于第一价值信息、反馈信息和第二价值信息，确定损失函数值。

在本示例实施方式中，第一网络的损失函数可以是价值网络的损失函数，如平方差损失函数，第二网络的损失函数可以是策略网络的损失函数，如交叉熵损失函数。

示例性地，第一网络的损失函数L1可以表示为：

式中，r表示当前时刻的反馈信息，γ表示预设衰减系统，a'表示下一时刻的动作，s'下一时刻的优化状态信息，Q(s',a',ω)表示第一价值信息(即下一时刻的Q值)，Q(s,a,ω)表示第二价值信息(当前时刻/状态的Q值)。同理，可以采用交叉熵计算第二网络的损失函数值L2。

基于损失函数值，对第一网络和第二网络的参数进行更新。

在本示例实施方式中，基于损失函数值，可以通过反向传播使用梯度下降的方法来更新第一网络和第二网络的参数。

循环以上过程直到模型收敛或达到预设最大训练次数，结束训练，得到训练好的制冷系统节能模型。

举例而言，参考图4，为本公开的一种制冷系统节能模型强化学习的结构图，该强化学习过程通过智能体在与环境交互的过程中不断学习得到最优的节能策略，不需要系统的动态特性已知。在强化学习中，智能体通过观测环境的状态，依照某个策略，选择执行动作。而环境接收到智能体的动作后，状态将更新并且给予智能体一个激励反馈。

本示例中，智能体可以是IDC机房制冷系统的控制平台，动作可以是调整制冷系统的控制参数(如风机转速、功率、温度设置等)，还可以是对制冷系统的拆洗、维修等操作，本示例对此不做限定。环境状态信息可以是IDC机房的温度、网络负载量、局部监控点最高温度，局部监控点最低温度等信息。

本示例中，环境的状态信息通过仿真环境和机器学习模型(如支持向量机)相结合的方式，采用IDC机房历史数据与仿真引擎相互校正优化，使得确定的环境状态信息更加贴近于真实情况，从而增强学习效果。

本公开应用强化学习的方法训练机房节能策略，针对相关技术中的IDC机房训练环境CFD与真实环境存在一定的差异，故而引入了IDC机房历史数据进行预测建模，对于下一时刻的机房状态进行分级预测，一级模型通过机器学习模型预测下一时刻的机房状态，二级模型将CFD和机器学习预测结果进行拟合，将机器学习预测结果与CFD结果相融合，提升了机房状态预测的准确率及其与现实机房的适配度。使得策略能够根据不同机房的特异性进行调整，捕捉更全面的信息，弥补了CFD的局限性。

本公开可以实现机房控制参数的优化调节，避免资源浪费，达到资源高效利用的目的。对于各类不同IDC机房，本公开无模型的强化学习训练方法都能实现较好的适配性，结合了历史数据和CFD的生成策略能应用于现实中的各类IDC机房的节能策略选择。

参考图5，本发明实施例还提供了一种制冷系统节能方法，可以应用于服务器，可以包括以下步骤S510～S530。

步骤S510，获取目标制冷系统的当前状态信息。

步骤S520，将当前状态信息输入第二网络，得到目标制冷系统的节能操作。

步骤S530，对目标制冷系统进行节能操作。

其中，第二网络为基于目标样本的标签信息和优化状态信息及价值信息训练得到的；优化状态信息为基于第一状态信息和第二状态信息得到的，第一状态信息为采用状态预测模型对目标样本在目标动作下的状态变化进行预测得到的，第二状态信息为在制冷系统的仿真环境中运行目标样本的目标动作得到的。

上述实施例中的制冷系统节能方法中涉及的各个步骤的具体细节已经在对应的制冷系统节能模型的强化学习训练方法中进行了详细的描述，因此此处不再赘述。

参见图6，本示例实施方式中还提供了一种制冷系统节能模型的强化学习训练装置600，制冷系统节能模型包括第一网络和第二网络，装置600包括:价值确定模块610、第一状态确定模块620、第二状态确定模块630、状态优化模块640和训练模块650。价值确定模块610，被配置为将目标样本的当前状态信息输入第一网络和第二网络，得到第一网络输出的价值信息，以及第二网络输出的目标动作；第一状态确定模块620，被配置为采用状态预测模型，对目标样本在目标动作下的状态变化进行预测，确定目标样本的第一状态信息；第二状态确定模块630，被配置为在制冷系统的仿真环境中，运行目标样本的目标动作，以获得目标样本的第二状态信息；状态优化模块640，被配置为基于第一状态信息和第二状态信息，获得目标样本的优化状态信息；训练模块650，被配置为基于目标样本的当前状态信息和优化状态信息及价值信息，训练第一网络和第二网络。

在本公开的一个实施例中，状态优化模块640还被配置为：采用状态优化模型对第一状态信息和第二状态信息进行状态优化，获得优化状态信息；状态优化模型为对基于第一训练样本集的状态预测模型的预测结果和仿真环境的运行结果进行线性回归拟合获得的；状态预测模型为经第二训练样本集训练获得的。

在本公开的一个实施例中，第一训练样本集中的样本包括原始训练样本和对原始训练样本进行预处理后的样本，预处理包括多项式变换和/或归一化处理。

在本公开的一个实施例中，训练模块650包括：第一价值确定子模块、第二价值确定子模块、损失确定子模块和更新子模块，第一价值确定子模块被配置为：基于第一网络确定优化状态信息对应的第一价值信息；第二价值确定子模块被配置为：基于第一网络确定目标样本当前状态信息对应的第二价值信息和反馈信息；损失确定子模块被配置为：基于第一价值信息、反馈信息和第二价值信息，确定损失函数值；更新子模块被配置为：基于损失函数值，对第一网络和第二网络的参数进行更新。

在本公开的一个实施例中，第一训练样本集和第二训练样本集中的训练样本不同。

上述实施例中的训练装置中涉及的各个模块/单元的具体细节已经在对应的训练方法中进行了详细的描述，因此此处不再赘述。

本公开示例实施方式还提供了一种制冷系统节能装置，所述装置包括：状态获取模块、操作确定模块和节能操作模块；状态获取模块，被配置为获取目标制冷系统的当前状态信息；操作确定模块，被配置为将所述当前状态信息输入第二网络，得到目标制冷系统的节能操作；节能操作模块，被配置为对目标制冷系统进行所述节能操作；其中，所述第二网络为基于目标样本的当前状态信息和所述优化状态信息及所述价值信息训练得到的；所述优化状态信息为基于第一状态信息和第二状态信息得到的，所述第一状态信息为采用状态预测模型对目标样本在目标动作下的状态变化进行预测得到的，所述第二状态信息为在制冷系统的仿真环境中运行目标样本的目标动作得到的。

上述实施例中的节能装置中涉及的各个模块/单元的具体细节已经在上述的训练方法中进行了详细的描述，因此此处不再赘述。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备实现如下述实施例中的方法。例如，设备可以实现如图2-图5所示的各个步骤等。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的设备。所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施例、完全的软件实施例(包括固件、微代码等)，或硬件和软件方面结合的实施例，这里可以统称为“电路”、“模块”或“系统”。

参见图7，图7是本申请实施例提供的一种电子设备的结构示意图。如图7所示，该电子设备700包括处理器710、存储器720、输入输出接口730以及通信总线740。处理器710连接到存储器720和输入输出接口730，例如处理器710可以通过通信总线740连接到存储器720和输入输出接口730。处理器710被配置为支持该电子设备执行图2-图5中方法中相应的功能。该处理器710可以是中央处理器(Central Processing Unit，CPU)，网络处理器(Network Processor，NP)，硬件芯片或者其任意组合。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit，ASIC)，可编程逻辑器件(ProgrammableLogic Device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(ComplexProgrammable Logic Device，CPLD)，现场可编程逻辑门阵列(Field-Programmable GateArray，FPGA)，通用阵列逻辑(Generic Array Logic，GAL)或其任意组合。存储器720用于存储程序代码等。存储器720可以包括易失性存储器(VolatileMemory，VM)，例如随机存取存储器(Random Access Memory，RAM)；存储器720也可以包括非易失性存储器(Non-VolatileMemory，NVM)，例如只读存储器(Read-Only Memory，ROM)，快闪存储器(flash memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；存储器720还可以包括上述种类的存储器的组合。

该输入输出接口730用于输入或输出数据。

处理器710可以调用上述程序代码以执行以下操作：

将目标样本的当前状态信息输入第一网络和第二网络，得到第一网络输出的价值信息，以及第二网络输出的目标动作；采用状态预测模型，对目标样本在目标动作下的状态变化进行预测，确定目标样本的第一状态信息；在制冷系统的仿真环境中，运行目标样本的目标动作，以获得目标样本的第二状态信息；基于第一状态信息和第二状态信息，获得目标样本的优化状态信息；基于目标样本的当前状态信息和优化状态信息及价值信息，训练第一网络和第二网络。

可选的，上述处理器710还可以基于第一状态信息和第二状态信息，获得目标样本的优化状态信息，执行以下操作：采用状态优化模型对第一状态信息和第二状态信息进行状态优化，获得优化状态信息；状态优化模型为对基于第一训练样本集的状态预测模型的预测结果和仿真环境的运行结果进行线性回归拟合获得的；状态预测模型为经第二训练样本集训练获得的。

可选的，上述第一训练样本集中的样本包括原始训练样本和对原始训练样本进行预处理后的样本，预处理包括多项式变换和/或归一化处理。

可选的，上述处理器710还可以基于目标样本的标签信息和优化状态信息及价值信息，训练第一网络和第二网络，执行以下操作：基于第一网络确定优化状态信息对应的第一价值信息；基于第一网络确定目标样本当前状态信息对应的第二价值信息和反馈信息；基于第一价值信息、反馈信息和第二价值信息，确定损失函数值；基于损失函数值，对第一网络和第二网络的参数进行更新。

处理器710可以调用上述程序代码以执行以下操作：

获取目标制冷系统的当前状态信息；将当前状态信息输入第二网络，得到目标制冷系统的节能操作；对目标制冷系统进行节能操作；其中，第二网络为基于目标样本的标签信息和优化状态信息及价值信息训练得到的；优化状态信息为基于第一状态信息和第二状态信息得到的，第一状态信息为采用状态预测模型对目标样本在目标动作下的状态变化进行预测得到的，第二状态信息为在制冷系统的仿真环境中运行目标样本的目标动作得到的。

需要说明的是，各个操作的实现还可以对应参照图2-图5所示的方法实施例的相应描述；上述处理器710还可以与输入输出接口730配合执行上述方法实施例中的其他操作。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台设备执行根据本公开实施例的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

需要说明的是，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等，均应视为本公开的一部分。

应可理解的是，本说明书公开和限定的本公开延伸到文中和/或附图中提到或明显的两个或两个以上单独特征的所有可替代组合。所有这些不同的组合构成本公开的多个可替代方面。本说明书的实施方式说明了已知用于实现本公开的最佳方式，并且将使本领域技术人员能够利用本公开。

Claims

1.一种制冷系统节能模型的强化学习训练方法，所述制冷系统节能模型包括第一网络和第二网络，其特征在于，所述方法包括:

将目标样本的当前状态信息输入所述第一网络和第二网络，得到所述第一网络输出的价值信息，以及所述第二网络输出的目标动作；

采用状态预测模型，对目标样本在所述目标动作下的状态变化进行预测，确定目标样本的第一状态信息；

在制冷系统的仿真环境中，运行目标样本的目标动作，以获得目标样本的第二状态信息；

基于所述第一状态信息和所述第二状态信息，获得目标样本的优化状态信息；

基于所述第一网络确定所述优化状态信息对应的第一价值信息；

基于所述第一网络确定目标样本的当前状态信息对应的第二价值信息和反馈信息；

基于所述第一价值信息、所述反馈信息和所述第二价值信息，确定损失函数值；

基于所述损失函数值，对所述第一网络和所述第二网络的参数进行更新。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一状态信息和所述第二状态信息，获得目标样本的优化状态信息，包括：

采用状态优化模型对所述第一状态信息和所述第二状态信息进行状态优化，获得优化状态信息；所述状态优化模型为对基于第一训练样本集的状态预测模型的预测结果和仿真环境的运行结果进行线性回归拟合获得的；所述状态预测模型为经第二训练样本集训练获得的。

3.根据权利要求2所述的方法，其特征在于，所述第一训练样本集中的样本包括原始训练样本和对原始训练样本进行预处理后的样本，所述预处理包括多项式变换和/或归一化处理。

4.根据权利要求2所述的方法，其特征在于，所述第一训练样本集和所述第二训练样本集中的训练样本不同。

5.一种制冷系统节能方法，其特征在于，所述方法包括：

获取目标制冷系统的当前状态信息；

将所述当前状态信息输入第二网络，得到目标制冷系统的节能操作；

对目标制冷系统进行所述节能操作；

其中，所述第二网络为基于目标样本的标签信息和优化状态信息及价值信息训练得到的；所述训练包括基于第一网络确定所述优化状态信息对应的第一价值信息；基于所述第一网络确定目标样本的当前状态信息对应的第二价值信息和反馈信息；基于所述第一价值信息、所述反馈信息和所述第二价值信息，确定损失函数值；基于所述损失函数值，对所述第一网络和所述第二网络的参数进行更新；所述优化状态信息为基于第一状态信息和第二状态信息得到的，所述第一状态信息为采用状态预测模型对目标样本在目标动作下的状态变化进行预测得到的，所述第二状态信息为在制冷系统的仿真环境中运行目标样本的目标动作得到的。

6.一种制冷系统节能模型的强化学习训练装置，所述制冷系统节能模型包括第一网络和第二网络，其特征在于，所述装置包括:

价值确定模块，被配置为将目标样本的当前状态信息输入所述第一网络和第二网络，得到所述第一网络输出的价值信息，以及所述第二网络输出的目标动作；

第一状态确定模块，被配置为采用状态预测模型，对目标样本在所述目标动作下的状态变化进行预测，确定目标样本的第一状态信息；

第二状态确定模块，被配置为在制冷系统的仿真环境中，运行目标样本的目标动作，以获得目标样本的第二状态信息；

状态优化模块，被配置为基于所述第一状态信息和所述第二状态信息，获得目标样本的优化状态信息；

训练模块，被配置为基于所述第一网络确定所述优化状态信息对应的第一价值信息；基于所述第一网络确定目标样本的当前状态信息对应的第二价值信息和反馈信息；基于所述第一价值信息、所述反馈信息和所述第二价值信息，确定损失函数值；基于所述损失函数值，对所述第一网络和所述第二网络的参数进行更新。

7.一种制冷系统节能装置，其特征在于，所述装置包括：

状态获取模块，被配置为获取目标制冷系统的当前状态信息；

操作确定模块，被配置为将所述当前状态信息输入第二网络，得到目标制冷系统的节能操作；

节能操作模块，被配置为对目标制冷系统进行所述节能操作；

其中，所述第二网络为基于目标样本的当前状态信息和优化状态信息及价值信息训练得到的；所述训练包括基于第一网络确定所述优化状态信息对应的第一价值信息；基于所述第一网络确定目标样本的当前状态信息对应的第二价值信息和反馈信息；基于所述第一价值信息、所述反馈信息和所述第二价值信息，确定损失函数值；基于所述损失函数值，对所述第一网络和所述第二网络的参数进行更新；所述优化状态信息为基于第一状态信息和第二状态信息得到的，所述第一状态信息为采用状态预测模型对目标样本在目标动作下的状态变化进行预测得到的，所述第二状态信息为在制冷系统的仿真环境中运行目标样本的目标动作得到的。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法。

9.一种电子设备，其特征在于，包括：处理器；以及

存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-5任一项所述的方法。