CN116880164B

CN116880164B - 一种数据中心末端空调系统运行策略确定方法及装置

Info

Publication number: CN116880164B
Application number: CN202311149176.9A
Authority: CN
Inventors: 牟倪; 贾庆山; 胡潇
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-11-14
Anticipated expiration: 2043-09-07
Also published as: CN116880164A

Abstract

本文涉及人工智能领域，提供了一种数据中心末端空调系统运行策略确定方法及装置，方法包括：根据数据中心机房温度场的仿真模型，建立马尔可夫决策过程模型，马尔可夫决策过程模型中状态从空调系统的观测变量中选取，动作从空调系统的控制变量中选取，利用仿真模型提供状态转移函数；建立拟合状态转移过程的神经网络替代模型，神经网络替代模型的输入为t时刻的状态与动作，输出为t+1时刻的状态；将神经网络替代模型作为学习环境，在马尔可夫决策过程模型的基础上，应用强化学习算法，在学习环境中训练得到数据中心末端空调系统运行策略。本文能够提高强化学习的训练效率。

Description

一种数据中心末端空调系统运行策略确定方法及装置

技术领域

本文涉及人工智能领域，尤其涉及一种数据中心末端空调系统运行策略确定方法及装置。

背景技术

数据中心中，除服务器IT负载耗电外，数据中心中最大能源消耗的设备是冷却基础设施，大约1/3到1/2的数据中心总功耗用于制冷系统，数据中心日益增长的能源消耗要求通过更好的热管理来提高能源利用效率。数据中心制冷系统能耗包括冷机侧能耗和末端空调能耗，冷机侧能耗优化已有较为成熟的技术手段（例如基于负荷预测的冷机能耗优化等方法），但末端空调能耗优化涉及到数据中心机房内部温度场分布，而机房内部温度场分布模拟涉及到复杂的流体力学、热力学分析，且温度场分布一般随时间不断变化，因此在保证服务器IT设备热安全的前提下，最大程度降低数据中心末端空调系统运行功耗是一个关键挑战和技术难题。

传统解决数据中心制冷系统（特别是末端空调系统）的策略优化节能问题的方法大多基于两阶段（two-stage）框架实现。在第一阶段，通过机理分析的方法或数据驱动的方法建立一个近似系统模型，该近似系统模型通常包含流体动力学、传热和机械原理，需要考虑到数据中心机房内温度场的分布情况。在第二阶段，利用该近似系统模型，通过策略优化算法求解得到空调可控变量的最优决策序列，常见的策略优化算法主要有动态规划、模型预测控制算法等等。然而，这些基于两阶段框架的传统优化方法需要先建立数据中心机房温度场的近似模型，而温度场的分布涉及到流体动力学、传热学等专业知识，若使用机理分析的方法建模则需要建立复杂的偏微分方程组，对于近年规模日益扩大的大型数据中心来说，建立其机房温度场机理模型过程复杂、难度较大且容易出错，因此这些传统的基于模型的优化算法难以解决现在数据中心末端空调系统的策略优化问题。

强化学习方法在与环境交互的过程中不断学习得到最优策略，不要求系统的动态特性已知（特别是无模型（Model-Free）的强化学习方法）。正由于数据中心机房温度场分布的机理模型非常复杂，因而采用强化学习方法解决数据中心末端空调系统的策略优化问题可能是一个有效的办法，现有技术中，为防止服务器IT设备过温造成损失，强化学习算法通常不能直接在现实数据中心环境中进行训练，需要先使用计算流体动力学（ComputationalFluid Dynamics，CFD）仿真软件建立数据中心末端空调和机房温度场的仿真模型，基于仿真模型进行强化学习，但因仿真软件计算速度较慢、过程复杂，最终导致强化学习训练耗时过长。因此，虽然强化学习方法可以有效避免对机房温度场的机理建模和分析，但现有的主流强化学习方法均需要大量仿真环境生成的训练数据，其仿真运行时间或计算成本往往难以承受，导致数据中心末端空调系统运行策略的训练过程效率低下。

发明内容

本文用于解决现有技术中，基于机理分析方法或数据驱动方法建立的近似系统模型优化末端空调系统运行策略存在复杂及优化效果差的问题，基于强化学习方法优化运行策略需要利用数据中心机房内温度场的仿真模型生成大量训练数据，存在训练时间长及效率低的问题。

为了解决上述技术问题，本文一实施例提供一种数据中心末端空调系统运行策略确定方法，包括：

根据数据中心机房温度场的仿真模型，建立马尔可夫决策过程模型，其中，马尔可夫决策过程模型中状态从空调系统的观测变量中选取，动作从空调系统的控制变量中选取，利用所述仿真模型提供状态转移函数；

建立拟合状态转移过程的神经网络替代模型，所述神经网络替代模型的输入为t时刻的状态与动作，输出为t+1时刻的状态；

将神经网络替代模型作为学习环境，在所述马尔可夫决策过程模型的基础上，应用强化学习算法，在学习环境中训练得到数据中心末端空调系统运行策略。

进一步的，将神经网络替代模型作为学习环境，在所述马尔可夫决策过程模型的基础上，应用强化学习算法，在学习环境中训练得到数据中心末端空调系统运行策略进一步为：

构建强化学习对状态与动作空间学习程度的度量函数；

利用所述度量函数从神经网络替代模型及所述仿真模型中选择学习环境，在所述马尔可夫决策过程模型的基础上，应用强化学习算法，在学习环境中训练得到数据中心末端空调系统运行策略。

进一步的，所述空调系统的观测变量包括：位于冷/热通道和空调送/回风口的温度测点测量值、各机柜中服务器IT负载率、服务器出风口温度、室外温度和光照强度；

所述空调系统的控制变量包括：空调送/回风温度设定点、空调风机转速。

进一步的，所述马尔可夫决策过程模型中的奖励函数R根据空调系统能耗惩罚和服务器设备的超温惩罚确定。

进一步的，建立神经网络替代模型包括：

将t时刻的状态与动作作为输入， t+1时刻的状态作为输出，构建参数未知的神经网络替代模型；

在动作空间的取值范围内进行均匀随机采样，记录并保存采样的动作值；

将采样的每一动作值分别输入至所述仿真模型中进行仿真，在每个仿真步长结束时，采集并记录每一动作值对应的状态值；

根据记录的动作值及状态值，建立训练数据集，其中，训练数据集中每一样本为状态转移的元组，所述元组包括t时刻的状态与动作、t+1时刻的状态；

利用所述训练数据集训练所述神经网络替代模型架构中的参数。

进一步的，构建强化学习对状态与动作空间学习程度的度量函数，包括：

基于热力学第一定律，建立数据中心机房内的空气内能变化量、服务器运行产生热量及空调系统产生冷量之间的关联关系；

根据所述关联关系，建立强化学习对状态与动作空间学习程度的度量函数；

其中，所述服务器运行产生热量用服务器运行功率与单位时间的乘积表示；

所述空气内能变化量采用机房空气内能网络模型表示，所述机房空气内能网络模型输入为当前时刻与上一时刻的服务器出风温度；

所述空调系统产生冷量采用空调系统冷量计算网络模型表示，所述空调系统冷量计算网络模型输入为当前时刻的动作量及上一时刻与系统内能变化相关的状态。

进一步的，所述强化学习对状态与动作空间学习程度的度量函数利用如下公式表示：

；

其中，δ_Q为度量函数，NN_{机房空气内能计算}为机房空气内能网络模型，为t-1时刻时服务器出风温度，/>为t时刻时服务器出风温度，P_{服务器运行}为服务器运行功率，为单位时间，NN_{空调系统冷量计算}为空调系统冷量计算网络模型，/>为空调在t-1时刻的状态，a_t为t时刻的动作量。

进一步的，利用所述度量函数从神经网络替代模型及所述仿真模型中选择学习环境，在所述马尔可夫决策过程模型的基础上，应用强化学习算法，在学习环境中训练得到数据中心末端空调系统运行策略，包括：

S0，初始化机房空气内能网络模型及空调系统冷量计算网络模型；

S1，根据数据中心末端空调系统的当前运行策略采样动作，利用度量函数度量所述神经网络替代模型是否能够作为学习环境，若度量结果为是，则根据当前状态及采样的动作从神经网络替代模型中获取下一时刻的状态及当前时刻的奖励，将当前状态、下一时刻的状态、采样的动作及当前时刻的奖励加入至本次交互的优化批数据中，并根据采样动作及当前状态更新机房空气内能网络模型及空调系统冷量计算网络模型；重复上述过程直至达到预设动作采样阈值；

S2，根据数据中心末端空调系统的当前运行策略采样动作，根据当前状态及采样的动作从所述仿真模型中获取下一时刻状态及当前时刻的奖励，将当前状态、下一时刻的状态、采样的动作及当前时刻的奖励加入至本次交互的优化批数据中；

S3，重复执行上述S1及S2，直至达到预设长度；

S4，利用本次交互的优化批数据进行强化学习，优化数据中心末端空调系统的运行策略；

重复执行上述S1至S4，直至达到预设交互次数。

进一步的，利用度量函数度量所述神经网络替代模型是否能够作为学习环境，包括：

将当前状态及采样的动作输入至所述度量函数中，得到度量函数值；

判断所述度量函数值是否大于预设阈值，若是，则确定所述神经网络替代模型能够作为学习环境。

本文另一实施例提供一种数据中心末端空调系统运行策略确定装置，包括：

第一建模单元，用于根据数据中心机房温度场的仿真模型，建立马尔可夫决策过程模型，其中，马尔可夫决策过程模型中状态从空调系统的观测变量中选取，动作从空调系统的控制变量中选取，利用所述仿真模型提供状态转移函数；

第二建模单元，用于建立拟合状态转移过程的神经网络替代模型，所述神经网络替代模型的输入为t时刻的状态与动作，输出为t+1时刻的状态；

强化学习单元，用于将神经网络替代模型作为学习环境，在所述马尔可夫决策过程模型的基础上，应用强化学习算法，在学习环境中训练得到数据中心末端空调系统运行策略。

本文又一实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述任一实施例所述方法。

本文再一实施例提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被计算机设备的处理器执行时实现前述任一实施例所述方法。

本文提供的数据中心末端空调系统运行策略确定方法及装置，通过建立神经网络替代模型以拟合状态转移过程，将神经网络模型作为学习环境为强化学习提供训练数据样本，能够有效降低在数据中心末端空调运行优化问题中生成强化学习训练数据的时间成本，提高了强化学习的训练效率。

进一步的，考虑到将神经网络替代模型直接作为强化学习环境，在强化学习的交互过程中，神经网络的误差会随着交互过程不断累积，存在策略准确度不高的问题，本文进一步针对数据中心末端空调系统运行的特点设计模型，构建了强化学习对状态与动作空间学习程度的度量函数，利用度量函数将神经网络替代模型及仿真模型有机结合，以利用低精度的神经网络替代模型学习状态-动作空间的初步信息，利用高精度的仿真模型学习细节信息，从而在保障数据质量与策略性能的前提下，实现了仿真环境样本的高效率利用，提高强化学习的训练效率及精度。

为让本文的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本文实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本文的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本文实施例数据中心末端空调系统运行策略确定方法的第一流程图；

图2示出了本文实施例神经网络替代模型建立过程的流程图；

图3示出了本文实施例数据中心末端空调系统运行策略确定方法的第二流程图；

图4示出了本文实施例度量函数构建过程流程图；

图5示出了本文实施例数据中心末端空调系统运行策略确定过程的流程图；

图6示出了本文实施例数据中心末端空调系统运行策略确定装置的第一结构图；

图7示出了本文实施例数据中心末端空调系统运行策略确定装置的第二结构图；

图8示出了本文实施例计算机设备的结构图；

图9示出了本文实施例基于神经网络替代模型高效强化学习算法的逻辑图。

附图符号说明：

601、第一建模单元；

602、第二建模单元；

603、强化学习单元；

701、第一建模单元；

702、第二建模单元；

703、度量函数建模单元；

704、强化学习单元；

802、计算机设备；

804、处理器；

806、存储器；

808、驱动机构；

810、输入/输出模块；

812、输入设备；

814、输出设备；

816、呈现设备；

818、图形用户接口；

820、网络接口；

822、通信链路；

824、通信总线。

具体实施方式

下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。

需要说明的是，本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或装置产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。

现有技术中，基于机理分析方法或数据驱动方法建立的近似系统模型优化末端空调系统运行策略存在复杂及优化效果差的问题，基于强化学习方法优化运行策略需要利用数据中心机房内温度场的仿真模型生成大量训练数据，存在训练时间长及效率低的问题。

为了解决解决上述技术问题，本文一实施例中，提供一种数据中心末端空调系统运行策略确定方法，如图1所示，包括：

步骤101，根据数据中心机房温度场的仿真模型，建立马尔可夫决策过程模型，其中，马尔可夫决策过程模型中状态从空调系统的观测变量中选取，动作从空调系统的控制变量中选取，利用所述仿真模型提供状态转移函数；

步骤102，建立拟合状态转移过程的神经网络替代模型，所述神经网络替代模型的输入为t时刻的状态与动作，输出为t+1时刻的状态；

步骤103，将神经网络替代模型作为学习环境，在学习环境中，基于马尔可夫决策过程模型，应用强化学习算法训练得到数据中心末端空调系统运行策略。

由于神经网络的前向传播速度远远快于仿真模型迭代计算偏微分方程速度，因此，利用神经网络替代模型作为仿真环境获取训练数据样本，能够大幅降低训练强化学习算法的时间成本。

步骤101中，数据中心机房温度场的访问模型可利用CFD软件确定，具体实施时，还可使用6SigmaDCX系列软件、EnergyPlus等软件建立。以CFD软件为例，建立数据中心机房温度场的仿真模型过程包括：依据数据中心机房布置CAD图纸；利用CFD仿真软件丰富的原件库（空调原件、IT设备原件等），对机房空间构造（包括服务器IT设备空间布置、冷热通道空间布置、空调空间布置等、温度传感器空间布置、空调系统结构等）和空调与IT设备型号进行细致建模和仿真，从而建立起机房温度场分布模型，较准确地刻画机房内各测点温度随时间、空间分布的变化。

马尔可夫决策过程（MDP）通常由状态空间S、动作空间A、状态转移函数P、奖励函数R和折扣因子γ组成，可表示为一个五元组。进行学习并实施决策的客体被称之为智能体（Agent），智能体之外所有的与其相互作用的事物都被称为环境（Environment）。

在每个时刻t，智能体依据此刻环境可观测到的状态S_t进行学习及选择动作A_t，环境对此动作做出相应的响应，并向智能体呈现新的状态S_t+1并同时产生一个奖励R_t+1，而奖励是智能体在动作选择过程中想要长期最大化的目标。状态S_t+1和R_t+1只取决于P和A_t，而和更早之前的状态和动作无关，这是马尔可夫决策过程模型中状态和奖励的基本特征（马尔可夫性）。

本文中数据中心末端空调系统的观测变量包括：位于冷/热通道和空调送/回风口的温度测点测量值、各机柜中服务器IT负载率、服务器出风口温度、室外温度和光照强度。控制变量包括：空调送/回风温度设定点、空调风机转速。

在每一时刻t，控制变量一般影响下一时刻（t+1时刻）的冷/热通道和空调送/回风口的温度测点测量值等可观测变量，而各机柜中服务器IT负载率、室外温度和光照强度等这些可观测变量不受控制变量的影响，一般只能基于历史数据采取时间序列等方法进行负荷预测。

一般可以参考上述可观测变量选取系统状态量，参考上述控制变量选取系统动作量/>，结合空调的能耗惩罚和服务器IT设备的超温惩罚设计奖励函数，构建的机房温度场仿真模型提供环境状态转移函数/>，选取合适的折扣因子/>，构建末端空调系统马尔可夫决策过程模型/>。

一些实施方式中，奖励函数可表示为：

其中，为/>时刻采取了动作/>后末端空调系统运行功耗对应的收益；

为/>时刻采取了动作/>后服务器出风口温度对应的收益；/>为参数。

末端空调系统运行功耗对应的收益表示为：

其中，为/>时刻末端空调系统制冷功率；

服务器出风口温度对应的收益表示为：

或

其中，为t+1时刻服务器出风口温度，/>为服务器出风口允许温度上限，为服务器出风口允许温度下限。

将智能体和仿真环境的一次交互行为看成一个“黑箱”模型，“黑箱”的内部机理就是对复杂的偏微分方程组进行数值求解的过程。需要建立用于拟合上述“黑箱”模型的函数，其输入为t时刻系统状态的观测值s_t和该时刻智能体给出的控制量，输出为下一时刻t+1 的系统状态观测值s_t+1。由于神经网络具有良好的表征能力和泛化性质，因此常使用神经网络对模型状态转移进行拟合：

其中表示神经网络形式的状态转移函数，神经网络输入为t时刻的状态s_t与动作/>，输出为t+1时刻的状态s_t+1，θ表示神经网络及训练参数。由于神经网络的预测过程基于各神经元的前向传播，远远快于仿真软件迭代求解偏微分方程的速度，因此，神经网络替代模型可以实现仿真软件的加速。

如图2所示，步骤102建立神经网络替代模型过程包括：

步骤201，将t时刻的状态与动作作为输入， t+1时刻的状态作为输出，构建参数未知的神经网络替代模型；

本步骤中构建的神经网络替代模型包括设置隐藏层层数、节点数、激活函数等。

步骤202，在动作空间的取值范围内进行均匀随机采样，记录并保存采样的动作值；

步骤203，将采样的每一动作值分别输入至所述仿真模型中进行仿真，在每个仿真步长结束时，采集并记录每一动作值对应的状态值；

步骤204，根据记录的动作值及状态值，建立训练数据集，其中，训练数据集中每一样本为状态转移的元组，所述元组包括t时刻的状态与动作、t+1时刻的状态；

设在仿真环境初始时刻采集到的样本记为[x₀,y₀]，第t个样本的输入记为x_t，标签记为y_t，则x_t为t时刻的状态与动作，y_t为t+1时刻的状态，即：

。

步骤205，利用训练数据集训练所述神经网络替代模型架构中的参数。

步骤103利用强化学习算法训练数据中心末端空调系统运行策略的具体实施过程可参考现有技术，此处不再详述。

本文一实施例中，考虑到将神经网络替代模型作为学习环境，在强化学习的迭代过程中，误差将会随着一轮一轮的交互过程不断累积，最终导致控制方案存在精度差的问题，还提供一种数据中心末端空调系统运行策略确定方法，如图3所示，包括：

步骤301，根据数据中心机房温度场的仿真模型，建立马尔可夫决策过程模型；

步骤302，建立拟合状态转移过程的神经网络替代模型；

步骤303，构建强化学习对状态与动作空间学习程度的度量函数；

步骤304，利用所述度量函数从神经网络替代模型及所述仿真模型中选择学习环境，在学习环境中，基于所述马尔可夫决策过程模型，应用强化学习算法训练得到数据中心末端空调系统运行策略。

本实施例针对数据中心末端空调系统运行的特点设计模型，构建了强化学习对状态与动作空间学习程度的度量函数，利用度量函数将神经网络替代模型及仿真模型有机结合，以利用低精度的神经网络替代模型学习状态-动作空间的初步信息，利用高精度的仿真模型学习细节信息，从而在保障数据质量与策略性能的前提下，提高强化学习的训练效率及精度。

本文一实施例中，如图4所示，上述步骤303构建强化学习对状态与动作空间学习程度的度量函数，包括：

步骤401，基于热力学第一定律，建立数据中心机房内的空气内能变化量、服务器运行产生热量及空调系统产生冷量之间的关联关系。

热力学第一定律是能量守恒和转化定律在一切涉及宏观热现象过程中的具体表现，其内容是：在任意过程中，系统从周围介质吸收的热量、对介质所做的功和系统内能增量之间在数量上守恒，即任一对象内能的改变量，等于外界对它传递的热量与外界对它所做的功之和。数据中心机房内的能量转化过程满足热力学第一定律。具体的，本步骤确定的关联关系如下公式所示：

。

上式是数据中心机房冷却问题的内在机理，是一个线性方程，具有简洁的形式。如若强化学习算法对空调节能运行问题的状态转移进行了充分的学习，应该可以成功学到该方程所蕴含的信息。因此，我们可以利用上式，建立强化学习对该问题状态-动作空间学习程度的度量。

步骤402，根据关联关系，建立强化学习对状态与动作空间学习程度的度量函数；

其中，服务器运行的过程是电能转化为热能的过程，因此，服务器运行产生热量用各服务器运行功率与单位时间的乘积表示，如下所示：

。

因为数据中心的状态转移遵循计算流体动力学与热传导机理等偏微分方程，具有复杂和非线性的特点，所以使用神经网络建立其模型。因为各服务器机柜的出风温度与机房内空气的温度有直接关系，可以使用各服务器机柜的出风温度的变化来度量机房空气内能的变化，其关系是非线性的，空气内能变化量采用机房空气内能网络模型表示，机房空气内能网络模型输入为当前时刻与上一时刻的服务器出风温度，表示如下：

。

若想得到空调在单位时间内的冷量，需要对空调系统的特性进行建模。认为空调系统满足马尔可夫性，空调在单位时间内的冷量取决于其当前时刻的控制量（如空调送风/回风温度设定点、压缩机功率设定点、风扇功率设定点等）和其上一时刻的状态（如上一时刻的空调送风/回风温度设定点、空调送风/回风具体温度、压缩机功率、风扇功率等）。由于空调系统的内部机理是非线性的，因此，空调系统产生冷量采用空调系统冷量计算网络模型表示，空调系统冷量计算网络模型输入为当前时刻的动作量及上一时刻与系统内能变化相关的状态，表示如下：

。

总结而言，对于数据中心机房空气内能的改变量，采用神经网络架构，其输入是当前时刻与上一时刻的服务器机柜出风温度；对于服务器产生热量与空调冷量之差，首先将各服务器的功率求和，与单位时间相乘，得到服务器产生热量；对于空调系统产生的冷量，采用神经网络架构，其输入为上一时刻的空调系统状态与当前时刻的空调系统控制量。

一些实施方式中，所述强化学习对状态与动作空间学习程度的度量函数利用如下公式表示：

；

其它实施方式中，上一公式中的线性求和可替换为神经网络，具体公式如下：

其中，NN₁与NN₂为神经网络。

若强化学习算法对空调节能运行问题的状态转移进行了充分的学习，对于任一状态转移，度量函数值都应该保持在接近0的数值。因此，我们用/>度量强化学习对状态-动作空间的学习程度，对当前状态-动作 />的/>越小，证明强化学习对状态-动作/>更熟悉。

具体实施时，因为度量函数用于度量强化学习训练过程的学习程序，因此，上述机房空气内能网络模型及空调系统冷量计算网络模型中的参数可随着强化学习训练过程（即确定优化策略的过程）进行学习，具体参见下一实施例。

本实施例基于第一热力学定律确定出的度量函数具有可解释性，利用度量函数对神经网络替代模型是否可以学习状态-动作空间的初步信息进行判断具备合理性。具体的，当某一状态及动作下，度量函数值大于某一预设阈值，则说明神经网络替代模型可以学习状态-动作空间的初步信息。本文一实施例中，如图5所示，利用所述度量函数从神经网络替代模型及所述仿真模型中选择学习环境，在学习环境中，基于所述马尔可夫决策过程模型，应用强化学习算法训练得到数据中心末端空调系统运行策略，包括：

S1，根据数据中心末端空调系统的当前运行策略采样动作a’，利用度量函数度量所述神经网络替代模型是否能够作为学习环境，若度量结果为是，则根据当前状态及采样的动作从神经网络替代模型中获取下一时刻的状态及当前时刻的奖励，将当前状态s_t、下一时刻的状态/>、采样的动作a’及当前时刻的奖励/>（简记为/>加入至本次交互的优化批数据中，并根据采样动作及当前状态更新机房空气内能网络模型及空调系统冷量计算网络模型；重复上述过程直至达到预设动作采样阈值；

本步骤中，利用度量函数度量所述神经网络替代模型是否能够作为学习环境，包括：将当前状态及采样的动作输入至所述度量函数中，得到度量函数值；判断所述度量函数值是否大于预设阈值，若是，确定所述神经网络替代模型能够作为学习环境。

S2，根据数据中心末端空调系统的当前运行策略采样动作a，根据当前状态及采样的动作从所述仿真模型中获取下一时刻状态及当前时刻的奖励，将当前状态/>、下一时刻的状态s_t+1、采样的动作a及当前时刻的奖励r_t（简记为/>）加入至本次交互的优化批数据中；

S3，重复执行上述S1及S2，直至达到预设长度；

S5，重复执行上述S1至S4，直至达到预设交互次数。

一些实施方式中，选用PPO的强化学习算法，图5所示过程简称为基于神经网络替代模型的高效率强化学习算法，算法流程如图9所示。

训练结束后，保存PPO策略网络的结构和参数，通过测试和实际应用可知，利用上述方法确定出的运行策略每一步都贪婪地选择上述训练得到的PPO策略网络输出的最大动作概率对应的动作。

本实施例针对数据中心末端空调系统运行的机理特点，构建了强化学习对状态-动作空间学习程度的度量函数，将低精度神经网络替代模型用于学习状态-动作空间的初步信息，可对所有状态-动作对提供合理预测结果，基于预测结果可直接加快强化学习的训练速度，在此基础上，将高精度仿真模型用于提供进一步细节信息，从而实现了高精度仿真模型和低精度神经网络替代模型的有机结合、默契合作，具有可解释性，同时降低了在数据中心末端空调运行优化问题中生成强化学习训练数据的时间成本，提高了强化学习的训练效率。

基于同一发明构思，本文还提供一种数据中心末端空调系统运行策略确定装置，如下面的实施例所述。由于数据中心末端空调系统运行策略确定装置解决问题的原理与数据中心末端空调系统运行策略确定方法相似，因此数据中心末端空调系统运行策略确定装置的实施可以参见数据中心末端空调系统运行策略确定方法，重复之处不再赘述。具体的，如图6所示，包括：

第一建模单元601，用于根据数据中心机房温度场的仿真模型，建立马尔可夫决策过程模型，其中，马尔可夫决策过程模型中状态从空调系统的观测变量中选取，动作从空调系统的控制变量中选取，利用所述仿真模型提供状态转移函数；

第二建模单元602，用于建立拟合状态转移过程的神经网络替代模型，所述神经网络替代模型的输入为t时刻的状态与动作，输出为t+1时刻的状态；

强化学习单元603，用于将神经网络替代模型作为学习环境，在所述马尔可夫决策过程模型的基础上，应用强化学习算法，在学习环境中训练得到数据中心末端空调系统运行策略。

本实施例基于仿真环境实施强化学习策略优化的低效率问题，利用神经网络作为函数拟合器对系统状态转移进行拟合，从而建立了数据中心冷却系统的神经网络替代模型，为强化学习提供训练数据样本，有效降低了在数据中心末端空调运行优化问题中生成强化学习训练数据的时间成本，提高了强化学习的训练效率。

本文一实例中，如图7所示，包括：

第一建模单元701，用于根据数据中心机房温度场的仿真模型，建立马尔可夫决策过程模型，其中，马尔可夫决策过程模型中状态从空调系统的观测变量中选取，动作从空调系统的控制变量中选取，利用所述仿真模型提供状态转移函数；

第二建模单元702，用于建立拟合状态转移过程的神经网络替代模型，所述神经网络替代模型的输入为t时刻的状态与动作，输出为t+1时刻的状态；

度量函数建模单元703，用于构建强化学习对状态与动作空间学习程度的度量函数；

强化学习单元704，用于利用度量函数从神经网络替代模型及仿真模型中选择学习环境，在马尔可夫决策过程模型的基础上，应用强化学习算法，在学习环境中训练得到数据中心末端空调系统运行策略。

考虑到将神经网络替代模型直接作为强化学习环境，则在强化学习的交互过程中，神经网络的误差会随着交互过程不断累积，最终导致策略精度低的问题，本实施例针对数据中心末端空调系统运行的特点设计模型，构建了强化学习对状态-动作空间学习程度的度量，将低精度神经网络替代模型用于学习状态-动作空间的初步信息，将高精度仿真模型用于提供进一步细节信息，从而实现了仿真模型和神经网络替代模型的有机结合、默契合作，在保障数据质量与策略性能的前提下，提高强化学习的训练效率。

本文一实施例中，还提供一种计算机设备，如图8所示，计算机设备802可以包括一个或多个处理器804，诸如一个或多个中央处理单元(CPU)，每个处理单元可以实现一个或多个硬件线程。计算机设备802还可以包括任何存储器806，其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储器806可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备802的固定或可移除部件。在一种情况下，当处理器804执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备802可以执行相关联指令的任一操作。计算机设备802还包括用于与任何存储器交互的一个或多个驱动机构808，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备802还可以包括输入/输出模块810（I/O），其用于接收各种输入(经由输入设备812)和用于提供各种输出(经由输出设备814)。一个具体输出机构可以包括呈现设备816和相关联的图形用户接口(GUI)818。在其他实施例中，还可以不包括输入/输出模块810（I/O）、输入设备812以及输出设备814，仅作为网络中的一台计算机设备。计算机设备802还可以包括一个或多个网络接口820，其用于经由一个或多个通信链路822与其他设备交换数据。一个或多个通信总线824将上文所描述的部件耦合在一起。

通信链路822可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路822可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

本文实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

本文实施例还提供一种计算机可读指令，其中当处理器执行所述指令时，其中的程序使得处理器执行前述任一实施例所述的方法。

应理解，在本文的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本文实施例的实施过程构成任何限定。

还应理解，在本文实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本文的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本文所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。

另外，在本文各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本文的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本文中应用了具体实施例对本文的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本文的方法及其核心思想；同时，对于本领域的一般技术人员，依据本文的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本文的限制。

Claims

1.一种数据中心末端空调系统运行策略确定方法，其特征在于，包括：

将神经网络替代模型作为学习环境，在学习环境中，基于所述马尔可夫决策过程模型，应用强化学习算法训练得到数据中心末端空调系统运行策略；

其中，将神经网络替代模型作为学习环境，在学习环境中，基于所述马尔可夫决策过程模型，应用强化学习算法训练得到数据中心末端空调系统运行策略进一步为：

构建强化学习对状态与动作空间学习程度的度量函数；

利用所述度量函数从神经网络替代模型及所述仿真模型中选择学习环境，在学习环境中，基于所述马尔可夫决策过程模型，应用强化学习算法训练得到数据中心末端空调系统运行策略；

其中，构建强化学习对状态与动作空间学习程度的度量函数，包括：

所述空调系统产生冷量采用空调系统冷量计算网络模型表示，所述空调系统冷量计算网络模型输入为当前时刻的动作量及上一时刻与系统内能变化相关的状态；

利用所述度量函数从神经网络替代模型及所述仿真模型中选择学习环境，在学习环境中，基于所述马尔可夫决策过程模型，应用强化学习算法训练得到数据中心末端空调系统运行策略，包括：

S3，重复执行上述S1及S2，直至达到预设长度；

重复执行上述S1至S4，直至达到预设交互次数。

2.如权利要求1所述的方法，其特征在于，建立神经网络替代模型包括：

3.如权利要求1所述的方法，其特征在于，所述强化学习对状态与动作空间学习程度的度量函数利用如下公式表示：

；

其中，δ_Q为度量函数，NN_{机房空气内能计算}为机房空气内能网络模型，为t-1时刻时服务器出风温度，/>为t时刻时服务器出风温度，P_{服务器运行}为服务器运行功率，/>为单位时间，NN_{空调系统冷量计算}为空调系统冷量计算网络模型，/>为空调在t-1时刻的状态，a_t为t时刻的动作量。

4.如权利要求1所述的方法，其特征在于，利用度量函数度量所述神经网络替代模型是否能够作为学习环境，包括：

5.一种数据中心末端空调系统运行策略确定装置，其特征在于，包括：

强化学习单元，用于将神经网络替代模型作为学习环境，在所述马尔可夫决策过程模型的基础上，应用强化学习算法，在学习环境中训练得到数据中心末端空调系统运行策略；

构建强化学习对状态与动作空间学习程度的度量函数；

S3，重复执行上述S1及S2，直至达到预设长度；

重复执行上述S1至S4，直至达到预设交互次数。

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任意一项所述方法。

7.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机设备的处理器执行时实现权利要求1至4任意一项所述方法。