CN116017936A

CN116017936A - 一种空调机房的控制方法及装置、电子设备及存储介质

Info

Publication number: CN116017936A
Application number: CN202211559283.4A
Authority: CN
Inventors: 林治强; 王旭; 张京峰; 尹小旭; 鲁永浩; 牛家赫; 何晓钰
Original assignee: Beijing Jixin Taifu Electromechanical Technology Co ltd
Current assignee: Beijing Jixin Taifu Electromechanical Technology Co ltd
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-04-25

Abstract

本公开涉及一种空调机房的控制方法及装置、电子设备及存储介质，所述方法包括：构建空调机房的强化学习模型和行动价值预测模型；根据所述空调机房的强化学习模型确定四元组数据；以空调机房的运行状态参数和采取的动作参数作为输入，以行动价值参数作为输出，训练所述行动价值预测模型；将已知的空调机房的运行状态参数和采取的动作参数输入训练好的行动价值预测模型，输出同一运行状态参数下不同动作参数对应的行动价值，根据所述行动价值确定空调机房的控制参数，解决了空调机房运行参数为多个，并且采取的动作参数为多个，导致现有技术中强化学习模型的行动价值矩阵元素过多，不易确定最优动作的问题。

Description

一种空调机房的控制方法及装置、电子设备及存储介质

技术领域

本公开涉及空调机房技术领域，尤其涉及一种空调机房的控制方法及装置、电子设备及存储介质。

背景技术

空调机房作为一个相对比较复杂的控制系统，包含冷水机组、水泵机组、冷却塔等多个复杂的子系统，传统的建模方法很难处理这样复杂的问题，因此，使用强化学习对系统建模，学习系统不同状态下能获取最大状态价值的最优行动。首先需要依据马尔可夫决策过程给出该系统的状态、行动、回报以及行动价值等的定义，将其转换成强化学习问题，从而利用强化学习的方法进行求解。

传统的强化学习方法会维护状态行动价值矩阵Q，通过强化学习不断更新行动价值矩阵，最终能够得到系统每个状态下采取不同行动的行动价值，采取行动价值更大的行动来对整个系统进行控制，获得一个优化的系统控制策略。

目前，许多针对空调机房的控制策略的方法都采用了这一思路，这一思路的前提是需要将连续的系统状态和可以采取的行动进行离散化，从而使其能用一个有限的状态行动价值矩阵来描述，但是空调系统复杂，正如前面所述的，空调机房系统的状态量非常多，有温度、转速、功率等十几个状态量，而且每个量不是简单的离散值，而是精密的连续值，这种情况下想要对其进行离散化且保持模型的精度足够高，可能会得到上千甚至上万中不同的离散状态，建成的状态行动价值矩阵非常大，模型无法从中进行学习。例如考虑上面提到的11种状态量，简单的将每种状态量全取成5个不同的离散值，得到的不同的状态数目是

numberofstates＝11⁵＝161051

此时采用维护状态行动价值矩阵的方法显然是不可行的。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了空调机房的控制方法及装置、电子设备及存储介质。

第一方面，本公开的实施例提供了一种空调机房的控制方法，包括：

构建空调机房的强化学习模型和行动价值预测模型；

根据所述空调机房的强化学习模型确定四元组数据，其中，所述四元组数据包括空调机房的运行状态参数、采取的动作参数、采取动作后的运行状态参数和即时回报；

以空调机房的运行状态参数和采取的动作参数作为输入，以行动价值参数作为输出，利用所述即时回报以及采取动作后的行动价值参数构造的损失函数，训练所述行动价值预测模型；

将已知的空调机房的运行状态参数和采取的动作参数输入训练好的行动价值预测模型，输出同一运行状态参数下不同动作参数对应的行动价值，根据所述行动价值确定用于作为空调机房的控制参数的动作参数。

在一种可能的实施方式中，所述构建空调机房的强化学习模型，包括：

根据空调机房的运行状态参数和采取的动作参数构建空调机房的强化学习模型，使得将空调机房的运行状态参数和采取的动作参数输入所述强化学习模型中时，输出采取动作后的运行状态参数和即时回报。

在一种可能的实施方式中，所述根据所述空调机房的强化学习模型确定四元组数据，其中，所述四元组数据包括空调机房的运行状态参数、采取的动作参数、采取动作后的运行状态参数和即时回报，包括：

对于空调机房的当前运行状态参数，采取ε贪婪策略选择采取的动作参数，以ε的概率随机选择一个动作参数，以1-的概率选择当前运行状态参数下行动价值最大的动作参数；

将空调机房的当前运行状态参数和采取的动作参数，输入到所述空调机房的强化学习模型中，得到下一时刻的运行状态参数和即时回报，得到一组训练数据，将该组训练数据存到训练池中，并采取同样的方式生成新的训练数据；

从所述训练池中采样一部分数据作为用于训练行动价值预测模型的训练集。

在一种可能的实施方式中，所述行动价值预测模型包括第一行动价值预测模型和第二行动价值预测模型，其中，所述第一行动价值预测模型和所述第二行动价值预测模型的结构和初始网络参数相同，以空调机房的运行状态参数和采取的动作参数作为输入，以行动价值参数作为输出，利用所述即时回报以及采取动作后的行动价值参数构造的损失函数，训练所述行动价值预测模型，包括：

第一步，以空调机房的运行状态参数和采取的动作参数作为输入，以行动价值参数作为输出，训练所述第一行动价值预测模型，当训练次数达到预设阈值时，将所述第二行动价值预测模型的网络参数更新为所述第一行动价值预测模型的网络参数，

第二步，利用采取行动后的即时回报、当前运行状态参数对应的第一行动价值预测模型的输出以及下一时刻运行状态参数对应的第二行动价值预测模型的输出，构造的损失函数对第一行动价值预测模型的网络参数进行调整；

第三步，利用第一步和第二步训练得到的第一行动价值预测模型作为预测行动价值的模型；

第四步，重复第一步到第三步，得到多个第一行动价值预测模型。

在一种可能的实施方式中，所述将已知的空调机房的运行状态参数和采取的动作参数输入训练好的行动价值预测模型，输出同一运行状态参数下不同动作参数对应的行动价值，包括：

第一步，将已知的空调机房的运行状态参数和采取的动作参数分别输入训练好的行动价值预测模型中，得到当前运行状态参数下同一动作参数对应的多个行动价值；

第二步，求多个行动价值的平均值作为当前运行状态参数下同一动作参数对应的行动价值；

第三步，在运行状态参数不变，动作参数改变的情况下，重复第一步和第二步，得到同一运行状态参数下不同动作参数对应的多个行动价值。

在一种可能的实施方式中，所述根据所述行动价值确定用于作为空调机房的控制参数的动作参数，包括：

按照行动价值的大小，对同一运行状态参数下不同动作参数对应的多个行动价值进行排序，得到前预设数量的行动价值；

计算所述前预设数量的行动价值中每一个行动价值对应的动作参数作为控制参数的概率；

将动作参数作为控制参数的概率最大对应的动作参数作为空调机房的控制参数的动作参数。

在一种可能的实施方式中，所述空调机房的运行状态参数包括冷冻水进水温度、冷冻水出水温度、冷却水进水温度、冷却水出水温度、冷冻水流量、冷却水流量、冷却水水泵转速、冷冻水水泵转速、冷却塔风扇转速、室内环境温度、室外环境温度、环境人流量、天气状况、系统总运行功率、系统总运行效率中的任意几种；所述采取的每一组动作参数包括提高冷冻水出水温度设定值、降低冷冻水出水温度设定值、设置不同冷水机组运行台数、提高水泵转速设定值、降低水泵转速设定值、设置不同水泵机组运行台数、提高冷却塔风扇转速设定值、降低冷却塔风扇转速设定值、提高冷却水温度设定值、降低冷却水温度设定值中的任意几种。

第二方面，本公开的实施例提供了一种空调机房的控制装置，包括：

构建模块，其用于构建空调机房的强化学习模型和行动价值预测模型；

确定模块，其用于根据所述空调机房的强化学习模型确定四元组数据，其中，所述四元组数据包括空调机房的运行状态参数、采取的动作参数、采取动作后的运行状态参数和即时回报；

训练模块，其用于以空调机房的运行状态参数和采取的动作参数作为输入，以行动价值参数作为输出，利用所述即时回报以及采取动作后的行动价值参数构造的损失函数，训练所述行动价值预测模型；

输出模块，其用于将已知的空调机房的运行状态参数和采取的动作参数输入训练好的行动价值预测模型，输出同一运行状态参数下不同动作参数对应的行动价值，将行动价值最大对应的动作参数作为空调机房的控制参数。

第三方面，本公开的实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的空调机房的控制方法。

第四方面，本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的空调机房的控制方法。

本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部：

本公开实施例所述的空调机房的控制方法，构建空调机房的强化学习模型和行动价值预测模型；根据所述空调机房的强化学习模型确定四元组数据，其中，所述四元组数据包括空调机房的运行状态参数、采取的动作参数、采取动作后的运行状态参数和即时回报；以空调机房的运行状态参数和采取的动作参数作为输入，以行动价值参数作为输出，利用所述即时回报以及采取动作后的行动价值参数构造的损失函数，训练所述行动价值预测模型；将已知的空调机房的运行状态参数和采取的动作参数输入训练好的行动价值预测模型，输出同一运行状态参数下不同动作参数对应的行动价值，根据所述行动价值确定用于作为空调机房的控制参数的动作参数，解决了空调机房运行参数为多个，并且采取的动作参数为多个，导致现有技术中强化学习模型的行动价值矩阵元素过多，不易确定最优动作的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了根据本公开实施例的空调机房的控制方法流程示意图；

图2示意性示出了根据本公开实施例的Q网络的结构示意图；

图3示意性示出了根据本公开实施例的通过Q网络求解行动价值的简化示意图；

图4示意性示出了根据本公开实施例的空调机房的控制装置的结构框图；以及

图5示意性示出了根据本公开实施例的电子设备的结构框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

参见图1，本公开的实施例提供了一种空调机房的控制方法，包括：

S1，构建空调机房的强化学习模型和行动价值预测模型；

S2，根据所述空调机房的强化学习模型确定四元组数据，其中，所述四元组数据包括空调机房的运行状态参数、采取的动作参数、采取动作后的运行状态参数和即时回报；

在实际应用中，所述空调机房的运行状态参数包括冷冻水进水温度、冷冻水出水温度、冷却水进水温度、冷却水出水温度、冷冻水流量、冷却水流量、冷却水水泵转速、冷冻水水泵转速、冷却塔风扇转速、室内环境温度、室外环境温度、环境人流量、天气状况、系统总运行功率、系统总运行效率中的任意几种；所述采取的每一组动作参数包括提高冷冻水出水温度设定值、降低冷冻水出水温度设定值、设置不同冷水机组运行台数、提高水泵转速设定值、降低水泵转速设定值、设置不同水泵机组运行台数、提高冷却塔风扇转速设定值、降低冷却塔风扇转速设定值、提高冷却水温度设定值、降低冷却水温度设定值中的任意几种。

S3，以空调机房的运行状态参数和采取的动作参数作为输入，以行动价值参数作为输出，利用所述即时回报以及采取动作后的行动价值参数构造的损失函数，训练所述行动价值预测模型；

S4，将已知的空调机房的运行状态参数和采取的动作参数输入训练好的行动价值预测模型，输出同一运行状态参数下不同动作参数对应的行动价值，根据所述行动价值确定用于作为空调机房的控制参数的动作参数。

在本实施例中，步骤S1中，所述构建空调机房的强化学习模型，包括：

在实际应用中，空调机房作为一个相对比较复杂的控制系统，包含冷水机组、水泵机组、冷却塔等多个复杂的子系统，传统的建模方法很难处理这样复杂的问题，因此，使用强化学习对系统建模，学习系统不同状态下能获取最大状态价值的最优行动。首先，需要依据马尔可夫决策过程给出该系统的状态、行动、回报以及行动价值等的定义，将其转换成强化学习问题，从而利用强化学习的方法进行求解。

对系统的状态、动作、回报以及行动价值的定义包括：

状态：状态空间为S＝{s₁,s₂,…,s_n}，当前时刻下的状态比较复杂，包括与系统相关的多个量：冷冻水、冷却水的进出口温度和流量，当前环境温度和室内温度，冷却水水泵转速、冷冻水水泵转速、冷却塔风扇转速，当前时刻系统功率、能耗等状态量，这些量能够比较全面地刻画系统当前时刻的整体状态，也便于模型的学习。可以用一个高维向量来表示状态：s＝(s₁,s₂,…,s_k)^T。

动作：行动空间为A＝{a₁,…,a_m}，行动包括冷水机组、水泵机组、冷却塔中操控系统的设定值调整。如冷冻水、冷却水的出水温度、回水温度的设定值调整，水泵机组、冷却塔的风扇转速等的设置。

回报：系统需要在尽可能保证空调温度适宜的同时减小功耗。因此回报值需要考虑当前室内温度与适宜温度的差值以及当前功率与较优功率的差值，同价加入偏置项γ以保证给出比较合理的回报值。

r_t＝-α·r|T_in-T_p|-β·(W_t-W_p)+γ

其中，α,β是比例系数，可以根据模型的实际运行情况调整回报，γ为回报的折现因子。

行动价值：行动价值Q(S_t,A_t)表示t时刻状态下采取行动A_t时的行动价值，整个模型的目的是通过强化学习的方法学习到一个较优的行动价值矩阵，根据行动价值，可以得知当前系统状态下采取什么行动是最优的。

在本实施例中，步骤S2中，所述根据所述空调机房的强化学习模型确定四元组数据，其中，所述四元组数据包括空调机房的运行状态参数、采取的动作参数、采取动作后的运行状态参数和即时回报，包括：

对于空调机房的当前运行状态参数，采取ε贪婪策略选择采取的动作参数，以ε的概率随机选择一个动作参数，以1-ε的概率选择当前运行状态参数下行动价值最大的动作参数；

在本实施例中，步骤S3中，所述行动价值预测模型包括第一行动价值预测模型和第二行动价值预测模型，其中，所述第一行动价值预测模型和所述第二行动价值预测模型的结构和初始网络参数相同，以空调机房的运行状态参数和采取的动作参数作为输入，以行动价值参数作为输出，利用所述即时回报以及采取动作后的行动价值参数构造的损失函数，训练所述行动价值预测模型，包括：

在实际应用中，以第一行动价值预测模型为Q网络，第二行动价值预测模型为目标网络为例，进一步解释训练所述行动价值预测模型：

采取的行动数目可以比较简单的离散化，给定一个当前时刻状态S_t，通过模型得到采取不同行动a的行动价值。这可以用一个价值函数来表示：

Q＝f(s_t)

其中Q＝(Q(s_t,a₁),Q(s_t,a₂),…,Q(s_t,a_m))^T，就得到当前状态下s_t采取所有行动的行动价值，从而可以根据行动价值的值采取不同行动，得到整个系统的一个较优控制策略。因此，模型中f函数的学习是核心，利用深度学习网络(DNN)来对这个价值函数进行建模，称这个深度学习网络为Q网络。

Q网络如图2所示：

首先，Q网络具备与传统的状态价值一样的功能，对于给定的状态s_t和动作a_t能够输出对应的状态价值，用N_Q表示这个网络。因此，网络的输入数据可以定为x＝(s_t,a_t)^T，这里的S_t如前面介绍，是一个k维向量，k表示不同的状态量。输出则是对应的状态价值y＝Q(S_t,a_t)＝N_N(A_t,a_t|θ)，这里的θ就是网络的参数。那么网络的训练标签应当是实际的状态价值，但这个是未知的值，因此需要用下一时刻的状态价值Q(s_t+1,a)来拟合实际的状态价值。借鉴传统的Q-learning强化学习的思想，可以把模型的损失函数定义如下：

即在s_t时刻采取a_t动作，得到下一时刻的状态s_t+1和即时回报r_t+1，用即时回报与t+1时刻采取动作的最大状态价值与t时刻的状态价值的差的平方和作为损失来训练这个神经网络。

训练数据收集：

根据上面对网络的输入输出和损失函数的定义，搭建一个神经网络，网络的训练还需要大量训练数据，数据包括当前时刻状态、采取的动作以及对应的下一时刻状态和即时回报，D＝(s_t,a_t,s_t+1,r_t+1)^T。

对于当前时刻的状态s_t，可以采取ε贪婪策略选择要采取的动作，即以ε的概率随机选择一个动作，以1-ε的概率选择当前状态下状态价值最大的动作，输入到系统中可以得到下一时刻的状态s_t+1和即时回报r_t+1，这样就得到了一组训练数据，将这组数据存到数据池中，然后可以接着采取同样的方式一直生成新的训练数据。需要注意的是为了保证数据的独立性，在训练池中采样部分数据作为训练集。

目标网络：

在上面的网络中，用训练池的数据不断训练Q网络模型，一直更新模型参数，但是可以看到损失函数中的N_Q(s_t+1,a|θ)也在一直被更新，这样可能造成Q网络无法收敛，因此，加了一个与原来Q网络结构完全一致的网络，其参数用θ′表示，将上面的损失函数做一下修改：

损失函数对参数θ求导，采用随机梯度下降的方法让损失反向传播，更新Q网络的参数。

用目标网络的参数来更新Q网络参数，可以设定经过一定训练轮数后用更新了的Q参数值来更新目标网络。这样可以保证训练时一定时间内目标值不会更新，保证网络能够收敛。

最终得到一个训练好的Q网络，该网络可以得到合理范围内系统任意状态下采取不同动作的状态行动价值，依据这个网络可以调整系统的控制策略，保证满足使用要求且仅可能保证低功耗。

如图3所示，在实际应用中，尽管随机从数据池中采样，保证数据的随机性，最终训练得到一个表现较好的Q网络。由于空调机房系统比较复杂，随机初始化和随机采样数据可能会造成Q网络模型碰不到一些比较复杂的情况，这样训练出来的Q网络对于某些状态的输入可能会给出不符合优化目的的结果。为了避免这种情况，考虑了集成学习的策略，即多次进行初始化Q网络并训练的过程，保留训练好的网络模型，这样就得到了多个训练好的有差异的Q网络{Q₁,Q₂,…,Q_n}，这些Q网络对于相同的状态会给出不同的行动价值，将这些行动价值进行平均，从而得到集成后的行动价值输出：

这样就可以避免单一网络对某些特殊情况的输入表现的效果不好的问题。

因此，在本实施例中，步骤S4中，所述将已知的空调机房的运行状态参数和采取的动作参数输入训练好的行动价值预测模型，输出同一运行状态参数下不同动作参数对应的行动价值，包括：

在实际应用中，上面已经通过强化学习策略训练得到了Q网络，考虑到网络输出的不稳定性，在一些状态下如果直接按照输出的最大值选择策略看能会使能耗上升，因此，需要对控制策略进行调整。在机房实际运行中，在当前时刻，将收集到的状态信息s输入到Q网络中，得到网络对当前状态下的所有行动预测的行动价值Q(s,a₁),Q(s,a₂),…,Q(s,a_m)。对这些行动价值做一排序，例如，选择前3个较高的行动价值q₁,q₂,q₃，则将3个行动价值的占比看作概率，依照概率来选择系统这时刻需要采取的行动：

其中，a_qi代表行动价值q_i对应的行动。在实际环境中，这里的数目可以进行调整。

因此，在本实施例中，步骤S4中，所述根据所述行动价值确定用于作为空调机房的控制参数的动作参数，包括：

在实际应用中，由于空调机房系统本身的复杂性，在Q网络训练过程中无法收集到所有可能的数据，因此，Q网络模型对于一些未收集到的数据表现并不好，这样在空调机房系统的实际控制过程中，模型不能很好地对所有情况进行优化控制，所以通过在线微调的方式，即在系统实际运行的过程中给用于训练的数据池补充新的数据点，隔预设时段后采样部分新增数据和部分原数据对Q网络进行微调，使得Q网络的泛化性、鲁棒性更强，系统能够更好地处理各种复杂情况。

参见图4，本公开的实施例提供了一种空调机房的控制装置，包括：

构建模块11，其用于构建空调机房的强化学习模型和行动价值预测模型；

确定模块12，其用于根据所述空调机房的强化学习模型确定四元组数据，其中，所述四元组数据包括空调机房的运行状态参数、采取的动作参数、采取动作后的运行状态参数和即时回报；

训练模块13，其用于以空调机房的运行状态参数和采取的动作参数作为输入，以行动价值参数作为输出，利用所述即时回报以及采取动作后的行动价值参数构造的损失函数，训练所述行动价值预测模型；

输出模块14，其用于将已知的空调机房的运行状态参数和采取的动作参数输入训练好的行动价值预测模型，输出同一运行状态参数下不同动作参数对应的行动价值，将行动价值最大对应的动作参数作为空调机房的控制参数。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述第二个实施例中，构建模块11、确定模块12、训练模块13和输出模块14中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。构建模块11、确定模块12、训练模块13和输出模块14中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，构建模块11、确定模块12、训练模块13和输出模块14中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

参照图5所示，本公开的实施例提供的电子设备，包括处理器1110、通信接口1120、存储器1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信；

存储器1130，用于存放计算机程序；

处理器1110，用于执行存储器1130上所存放的程序时，实现如下所示空调机房的控制方法：

构建空调机房的强化学习模型和行动价值预测模型；

上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

基于同一发明构思，本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的空调机房的控制方法。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的空调机房的控制方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种空调机房的控制方法，其特征在于，所述方法包括：

构建空调机房的强化学习模型和行动价值预测模型；

2.根据权利要求1所述的方法，其特征在于，所述构建空调机房的强化学习模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述空调机房的强化学习模型确定四元组数据，其中，所述四元组数据包括空调机房的运行状态参数、采取的动作参数、采取动作后的运行状态参数和即时回报，包括：

4.根据权利要求1所述的方法，其特征在于，所述行动价值预测模型包括第一行动价值预测模型和第二行动价值预测模型，其中，所述第一行动价值预测模型和所述第二行动价值预测模型的结构和初始网络参数相同，以空调机房的运行状态参数和采取的动作参数作为输入，以行动价值参数作为输出，利用所述即时回报以及采取动作后的行动价值参数构造的损失函数，训练所述行动价值预测模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述将已知的空调机房的运行状态参数和采取的动作参数输入训练好的行动价值预测模型，输出同一运行状态参数下不同动作参数对应的行动价值，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述行动价值确定用于作为空调机房的控制参数的动作参数，包括：

7.根据权利要求5所述的方法，其特征在于，所述空调机房的运行状态参数包括冷冻水进水温度、冷冻水出水温度、冷却水进水温度、冷却水出水温度、冷冻水流量、冷却水流量、冷却水水泵转速、冷冻水水泵转速、冷却塔风扇转速、室内环境温度、室外环境温度、环境人流量、天气状况、系统总运行功率、系统总运行效率中的任意几种；所述采取的每一组动作参数包括提高冷冻水出水温度设定值、降低冷冻水出水温度设定值、设置不同冷水机组运行台数、提高水泵转速设定值、降低水泵转速设定值、设置不同水泵机组运行台数、提高冷却塔风扇转速设定值、降低冷却塔风扇转速设定值、提高冷却水温度设定值、降低冷却水温度设定值中的任意几种。

8.一种空调机房的控制装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7中任一项所述的空调机房的控制方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的空调机房的控制方法。