CN114330852A

CN114330852A - 一体化数据中心柜末端空调系统节能优化方法及装置

Info

Publication number: CN114330852A
Application number: CN202111573336.3A
Authority: CN
Inventors: 贾庆山; 胡潇; 唐静娴
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-04-12
Anticipated expiration: 2041-12-21
Also published as: CN114330852B; WO2023116742A1

Abstract

本发明公开了一种一体化数据中心柜末端空调系统节能优化方法及装置，该方法包括：确定一体化数据中心柜末端空调系统的马尔可夫决策过程模型；构建一体化数据中心柜仿真环境；在所述仿真环境中，基于马尔可夫决策过程模型，对基于价值的函数逼近型差分强化学习算法进行训练，输出训练好的动作价值函数，在训练过程中通过不断更新时序差分误差、平均收益估计值，实现对动作价值函数的参数的更新；基于训练好的动作价值函数，实时获取当前时刻最大动作价值函数值对应的动作；获得当前时刻最大动作价值函数值对应的动作对应的空调压缩机的开关状态。本发明可以对一体化数据中心柜末端空调系统进行节能优化，效果好，实施难度小。

Description

一体化数据中心柜末端空调系统节能优化方法及装置

技术领域

本发明涉及节能环保技术领域，尤其涉及一种一体化数据中心柜末端空调系统节能优化法方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

一体化数据中心柜集机架式内置末端空调系统、配电系统、不间断电源、报警系统、照明系统、消防系统等于一个机柜中，为IT设备提供了一个完整的运行环境，并且可以快速模块化部署，在节能降耗、设计部署等方面较传统数据中心有显著优势。数据中心中最大的能源消耗是冷却基础设施，大约1/3到1/2的数据中心总功耗用于制冷系统，数据中心日益增长的能源消耗要求通过更好的热管理来提高能源利用效率。数据中心内部温度场分布复杂，而在保证服务器热安全的前提下，最大程度降低数据中心制冷系统运行功耗是一个关键挑战和技术难题。因此，需要进行一体化数据中心柜末端空调系统节能优化。

传统的解决数据中心制冷系统节能优化问题的方法大多是基于两阶段(two-stage)框架的。在第一阶段，通过机理分析的方法或数据驱动的方法建立一个近似的系统模型，该模型通常包含流体动力学、传热和机械原理，需要考虑到数据中心内温度场的分布情况。在第二阶段，利用该近似系统模型，通过优化算法求解得到最优决策序列。常见的数据中心制冷系统的能耗优化算法主要有Rollout算法、模型预测控制算法等等。

这些基于两阶段框架的传统优化方法需要先建立数据中心的近似系统模型，而数据中心温度场的分布涉及到流体动力学、传热学等专业知识，若使用机理分析的方法建模则需要建立复杂的偏微分方程组，对于近年规模日益扩大的大型数据中心来说，建立其机理模型过程复杂、难度较大且容易出错，因此这些传统的基于模型的优化算法难以解决现在数据中心制冷系统的节能优化问题。

无模型(Model-Free)的强化学习方法在与环境交互的过程不断学习得到最优节能策略，不需要系统的动态特性已知。正由于数据中心内部温度场分布的机理模型非常复杂，因而采用无模型的强化学习方法解决数据中心制冷系统的节能优化问题是一个有效的办法。例如，可以将数据中心制冷系统的运行过程建模为马尔可夫决策过程，使用常用的无模型强化学习算法(例如深度Q学习、深度双Q学习、深度确定性策略梯度算法等)训练得到最优节能策略,目前已有部分论文和专利采用该类方法去解决数据中心制冷系统的节能优化问题。但是上述基于无模型的强化学习方法的技术方案存在以下不足：(1)现有算法训练出来的控制策略的长期节能效果不是最优的；(2)部分技术方案考虑到整个制冷系统的构造和运行，方案实际实施难度大。

发明内容

本发明实施例提供一种一体化数据中心柜末端空调系统节能优化方法，用以对一体化数据中心柜末端空调系统进行节能优化，效果好，实施难度小，该方法包括：

确定一体化数据中心柜末端空调系统的马尔可夫决策过程模型；

构建一体化数据中心柜仿真环境；

在所述仿真环境中，基于马尔可夫决策过程模型，对基于价值的函数逼近型差分强化学习算法进行训练，输出训练好的动作价值函数，在训练过程中通过不断更新时序差分误差、平均收益估计值，实现对动作价值函数的参数的更新；

基于训练好的动作价值函数，实时获取当前时刻最大动作价值函数值对应的动作；

获得当前时刻最大动作价值函数值对应的动作对应的空调压缩机的开关状态。

本发明实施例还提供一种一体化数据中心柜末端空调系统节能优化装置，用以对一体化数据中心柜末端空调系统进行节能优化，效果好，实施难度小，该装置包括：

马尔可夫决策过程模型确定模块，用于确定一体化数据中心柜末端空调系统的马尔可夫决策过程模型；

仿真环境构建模块，用于构建一体化数据中心柜仿真环境；

训练模块，用于在所述仿真环境中，基于马尔可夫决策过程模型，对基于价值的函数逼近型差分强化学习算法进行训练，输出训练好的动作价值函数，在训练过程中通过不断更新时序差分误差、平均收益估计值，实现对动作价值函数的参数的更新；

测试模块，用于基于训练好的动作价值函数，实时获取当前时刻最大动作价值函数值对应的动作；

决策获得模块，用于获得当前时刻最大动作价值函数值对应的动作对应的空调压缩机的开关状态。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一体化数据中心柜末端空调系统节能优化方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述一体化数据中心柜末端空调系统节能优化方法。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述一体化数据中心柜末端空调系统节能优化方法。

本发明实施例中，确定一体化数据中心柜末端空调系统的马尔可夫决策过程模型；构建一体化数据中心柜仿真环境；在所述仿真环境中，基于马尔可夫决策过程模型，对基于价值的函数逼近型差分强化学习算法进行训练，输出训练好的动作价值函数，在训练过程中通过不断更新时序差分误差、平均收益估计值，实现对动作价值函数的参数的更新；基于训练好的动作价值函数，实时获取当前时刻最大动作价值函数值对应的动作；获得当前时刻最大动作价值函数值对应的动作对应的空调压缩机的开关状态。与现有技术中基于折扣收益马尔可夫决策过程模型的数据中心制冷系统策略优化的技术方案相比，通过在训练过程中通过不断更新时序差分误差、平均收益估计值，实现对动作价值函数的参数的更新，而由于采用了平均收益估计值，使得本发明方法不会倾向于选择那些快速但长期收益不高的行为，保证了最后得到的空调压缩机的开关状态可实现长期更优的节能效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中一体化数据中心柜末端空调系统节能优化方法的流程图；

图2为本发明实施例中一体化数据中心柜末端空调系统节能优化方法的详细流程图；

图3为本发明实施例中智能体与一体化数据中心柜仿真环境/实际环境的交互过程；

图4为本发明实施例中差分DDQN算法在训练过程中的每一步的收益和滑动平均收益示意图；

图5为本发明实施例中不同节能优化策略观察到服务器出风口温度示意图；

图6为本发明实施例中一体化数据中心柜末端空调系统节能优化装置的示意图；

图7为本发明实施例中计算机设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

图1为本发明实施例中一体化数据中心柜末端空调系统节能优化方法的流程图，包括：

步骤101，确定一体化数据中心柜末端空调系统的马尔可夫决策过程模型；

步骤102，构建一体化数据中心柜仿真环境；

步骤103，在所述仿真环境中，基于马尔可夫决策过程模型，对基于价值的函数逼近型差分强化学习算法进行训练，输出训练好的动作价值函数，在训练过程中通过不断更新时序差分误差、平均收益估计值，实现对动作价值函数的参数的更新；

步骤104，基于训练好的动作价值函数，实时获取当前时刻最大动作价值函数值对应的动作；

步骤105，获得当前时刻最大动作价值函数值对应的动作对应的空调压缩机的开关状态。

与现有技术中基于折扣收益马尔可夫决策过程模型的数据中心制冷系统策略优化的技术方案相比，通过在训练过程中通过不断更新时序差分误差、平均收益估计值，实现对动作价值函数的参数的更新，而由于采用了平均收益估计值，使得本发明方法不会倾向于选择那些快速但长期收益不高的行为，保证了最后得到的空调压缩机的开关状态可实现长期更优的节能效果。

在步骤101中，确定一体化数据中心柜末端空调系统的马尔可夫决策过程模型。

具体实施时，一体化数据中心柜集机架式内置末端空调系统、配电系统、不间断电源、报警系统、照明系统、消防系统等于一个机柜中，为服务器提供了一个完整的运行环境，并且可以快速模块化部署。此类数据中心柜机架式内置末端空调系统使用的压缩机是定频的，即空调压缩机只存在额定功率运行和关闭两种状态。空调回风口附近有一个温度传感器，用于测量回风温度。当此传感器测得的回风温度大于回风温度设定点与温度死区的和时，压缩机开启，末端空调系统开始工作；当测得的回风温度小于回风温度设定点与温度死区的差时，压缩机关闭，末端空调系统停止工作。在实际使用过程中，空调压缩机一般需要不断启停，使得空调输出的制冷量和机柜内环境的冷负荷相平衡，从而使空调回风温度稳定在设定点附近，而空调回风温度设定点可调。

图2为本发明实施例中一体化数据中心柜末端空调系统节能优化方法的详细流程图，与图1对应。确定一体化数据中心柜末端空调系统的马尔可夫决策过程模型需要进行问题描述。

末端空调系统运行原理如下：

其中，θ_t为t时刻空调压缩机的开关状态，值为1表示压缩机开启，值为0表示压缩机关闭；T_t ^ret为t时刻空调回风温度测量值；T_t ^set为t时刻空调回风温度设定点；δ为温度死区。

末端空调系统运行功耗只受压缩机开闭状态的影响，末端空调系统运行功率如下：

其中，θ_t为t时刻空调压缩机的开关状态；P_t为t时刻末端空调系统运行功率；P_rated为末端空调系统的额定功率。

结合式(1)、式(2)，可将一体化数据中心柜末端空调系统节能问题的优化目标和约束条件描述为：

其中，式(3)表示优化目标，式(4)表示约束条件；

J是需要最小化的目标函数；Δt为离散时刻的时间间隔；[T_t ^out,T_t ^ret]为末端空调系统的状态，T_t ^out为t时刻服务器出风口温度，T_t ^ret为t时刻空调回风温度；

为服务器出风口允许温度上限，即过热安全阈值；

为服务器出风口允许温度下限，用于防止服务器过冷；

为t时刻服务器的负载率，是沿着时间独立同分布的随机变量，因此最小化的目标函数以期望的形式表示；函数f描述了末端空调系统的动态特性。

通过分析所述优化目标和约束条件，确定一体化数据中心柜末端空调系统节能问题的决策变量为空调压缩机的开关状态θ_t，该问题需要求解出一个最优决策序列π＝{μ(x₀),μ(x₁),μ(x₂)...}(其中μ(x_t)＝θ_t，μ是从末端空调系统状态变量x_t到决策变量θ_t的映射)，也就是实际运行时每个时刻的空调压缩机的开关状态。最小化目标函数J，其本质是一个末端空调系统的序贯决策问题。函数f的建立涉及到传热和流体动力学的专业知识，数学机理复杂，导致函数f的建立十分困难。因此，本发明实施例采用基于价值的函数逼近型差分强化学习算法。

之后，基于所述优化目标和约束条件，确定所述马尔可夫决策过程模型的状态和奖励函数。

此类一体化数据中心柜环境中的可观测变量有：服务器进风口温度T_in、服务器出风口温度T_out、空调回风温度T_ret、服务器的负载率H_ite、内置末端空调系统制冷功率P等。在现实或仿真环境中，每隔单位时间Δt，智能体可将从现实或仿真环境中获取一次环境观测值。选取T_in、T_out、T_ret、H_ite为末端空调系统的状态变量，末端空调系统的状态表示为：

其中，S_t为t时刻末端空调系统的状态；T_t ⁱⁿ、T_t ^out、T_t ^ret、

分别为t时刻服务器进风口温度、t时刻服务器出风口温度、t时刻空调回风温度、t时刻服务器的负载率。

选取空调压缩机的开闭为系统的动作(决策量)，即末端空调系统的动作表示为：

A_t＝θ_t (6)

其中，A_t为t时刻的动作，也就是A_t为t时刻智能体决定采取的动作；θ_t为t时刻空调压缩机的开关状态。

奖励函数的设计涉及到机架式内置末端空调系统运行功耗、服务器温度这两个因素。末端空调系统运行功耗最小化是问题的优化目标，服务器出风口温度是安全运行的边界条件。奖励函数的设计可以依据一体化数据中心柜实际使用情况具体而定，但一般需要同时考虑到上述两个因素。

例如，奖励函数为：

其中，

为t时刻采取了动作A_t后末端空调系统运行功耗对应的收益，也即对空调制冷功耗的惩罚；

为t时刻采取了动作A_t后服务器出风口温度对应的收益，也即对服务器温度越过冷热安全边界的惩罚；λ为参数，可调节，会影响到训练出的策略更偏向空调运行节能还是更偏向防止服务器过热过冷。

在一实施例中，末端空调系统运行功耗对应的收益表示为：

其中，P_t为t时刻末端空调系统制冷功率；

服务器出风口温度对应的收益表示为：

或

其中，

为t+1时刻服务器出风口温度，

为服务器出风口允许温度上限，

为服务器出风口允许温度下限。

为了表达对服务器出风口温度过高或过低的惩罚，式(9)采用softplus激活函数的变形：log{1+[exp(·)]²}这一非线性函数形式，式中

为t+1时刻服务器出风口温度，

为服务器出风口允许温度上限，

为服务器出风口允许温度下限，

和

的取值可采取美国采暖制冷空调工程师协会(ASHRAE)的推荐温度设定或依据实际情况自行设定。

由于在空调运行策略优化的问题中，服务器、末端空调系统和一体化数据中心柜是长期运行的，不存在最终时刻，所以本问题属于强化学习中的持续性任务。

在步骤102中，构建一体化数据中心柜仿真环境。具体实施时，可以利用6SigmaRack软件建立一体化数据中心柜CFD仿真环境。

在步骤103中，在所述仿真环境中，基于马尔可夫决策过程模型，对基于价值的函数逼近型差分强化学习算法进行训练，输出训练好的动作价值函数。

参见图2，步骤102和步骤103为训练过程，在训练过程中通过不断更新时序差分误差、平均收益估计值，实现对动作价值函数的参数的更新，这里提到基于价值的函数逼近型差分强化学习算法和平均收益估计值。

实际上，在表格型强化学习问题，折扣因子γ是影响算法收敛性和方差的重要参数；但在基于函数逼近的强化学习持续性问题中折扣设定具有无用性，这里提到一个概念，平均收益马尔可夫决策过程模型。平均收益即较长时间间隔的收益的平均：

在平均收益的设定中，相应的动作价值函数被称为差分(Differential)动作价值函数，最优差分动作价值函数的贝尔曼方程为：

在函数逼近形式的时序差分(Temporal-Difference，TD)学习中，差分动作价值函数的时序差分误差δ_t被定义为：

其中，Q(S,A,w)为动作价值函数。

本发明实施例针对一体化数据中心柜末端空调系统的环境，考虑到平均收益马尔可夫决策过程模型，提出了解决一体化数据中心柜末端空调系统节能优化问题的基于价值的函数逼近型差分强化学习算法，该算法是一个框架，可根据实际情况进行更具体化。

在一实施例中，基于马尔可夫决策过程模型，对基于价值的函数逼近型差分强化学习算法进行训练，输出训练好的动作价值函数包括：

确定训练时间步数、学习率、平均收益因子和动作价值函数，所述动作价值函数包含末端空调系统的状态、动作和参数；

任意初始化动作价值函数的参数，任意初始化平均收益估计值，初始化末端空调系统的状态；

循环执行以下步骤，直至达到训练时间步数，输出训练好的动作价值函数：

使用从动作价值函数中得到的策略，选择当前时刻的动作；

采取当前时刻的动作，通过仿真环境获得下一时刻末端空调系统的状态的观测值，计算下一时刻的奖励函数值，并将当前时刻末端空调系统的状态的观测值和动作、下一时刻末端空调系统的状态的观测值和奖励函数值放入经验池中；

在经验池中采样一个任意时刻的四元组，所述任意时刻的四元组包括任意时刻末端空调系统的状态的观测值和动作、所述任意时刻的下一时刻的末端空调系统的状态的观测值和奖励函数值；

根据所述任意时刻的四元组，更新时序差分误差；

根据更新的时序差分误差和平均收益因子，更新平均收益估计值，所述平均收益估计值为当前时刻对平均收益的估计；

根据所述任意时刻的动作价值函数值、学习率、更新的时序差分误差，更新动作价值函数的参数。

在一实施例中，采用如下表达式，根据所述任意时刻的四元组，更新时序差分误差：

其中，δ为时序差分误差；R_j+1为j+1时刻的奖励函数值；Q(S_j+1,a,w)为j+1时刻的动作价值函数值；Q(S_j,A_j,w)为j时刻的动作价值函数值；

为平均收益估计值；

采用如下表达式，根据更新的时序差分误差和平均收益因子，更新平均收益估计值：

其中，β为平均收益因子；

采用如下表达式，根据所述任意时刻的动作价值函数值、学习率、更新的时序差分误差，更新动作价值函数的参数：

其中，w为动作价值函数的参数；α为学习率。

为了更好地理解，参见图2，下面给出上述对基于价值的函数逼近型差分强化学习算法进行训练的详细介绍，见表1。

表1

在步骤104中，基于训练好的动作价值函数，实时获取当前时刻最大动作价值函数值对应的动作。

这一步对应图2中的测试/应用过程。

在一实施例中，基于训练好的动作价值函数，实时获取当前时刻最大动作价值函数值对应的动作，包括：

采用贪婪地选择方式，获得当前时刻训练好的动作价值函数值最大的动作。

也就是，智能体在每个时刻贪婪地选择训练好的当前时刻最大动作价值函数值对应的动作。

在步骤105中，获得当前时刻最大动作价值函数值对应的动作对应的空调压缩机的开关状态，此开关状态就是最后的节能优化策略。

在一实施例中，所述动作价值函数为如下函数中的其中一种：

线性函数，非线性函数，优先经验回放函数、双Q网络函数、对决网络函数、多步时序差分目标函数。

例如，取动作估值函数Q为多层人工神经网络，利用双Q网络的方法对上述框架进行修改，即得到了差分DDQN算法，具体算法如表2所示。

表2

在强化学习训练过程或测试/应用过程中，提到了智能体，图3为本发明实施例中智能体与一体化数据中心柜仿真环境/实际环境的交互过程。

以下以奖励函数设计为式(7)、式(8)、式(9)的差分DDQN算法为例，具体分析本技术方案带来的有益效果。利用6SigmaRack仿真软件建立一体化数据中心柜CFD仿真环境，在该仿真环境下用基于价值的函数逼近型差分强化学习算法训练结束后得到动作价值函数和其参数值，在仿真测试过程中，智能体每一步都贪婪地选择最大动作价值函数对应的动作。将在仿真环境中取得较好效果的节能优化策略落地应用，取得实际的节能效果。

图4为本发明实施例中差分DDQN算法在训练过程中的每一步的收益和滑动平均收益示意图，其中，滑动平均的衰减率取0.9。

在训练时间步9000步后，差分DDQN算法基本收敛，收益稳定在较高的水平上，训练耗时近16个小时。将差分DDQN算法训练10000步后得到的节能优化策略(差分DDQN算法)、传统的DDQN算法训练10000步后得到的节能优化策略(DDQN算法)、一体化数据中心柜原厂基线(Baseline)节能优化策略在仿真环境中进行测试对比，运行600个时间步长，观察服务器(IT设备)出风口温度T_t ^out，图5为本发明实施例中不同节能优化策略观察到服务器出风口温度示意图，可以看到，使用差分DDQN算法训练得到的节能优化策略，其服务器出风口温度保持在设定的过热安全阈值(33℃)内，并且没有产生温度过低的情况；在时间步为270左右时，服务器的负载率有较大幅度的上升，导致温度会迅速升高，差分DDQN算法考虑到了这种较极端的情况，使得这种情况下服务器的出风口温度卡在安全阈值的边界。在仿真环境中运行600个时间步，差分DDQN算法训练得到的节能优化策略的平均空调运行功率为310.67W，相比基线节能优化策略降低了6.43％的能耗，相比DDQN算法训练得到的节能优化策略降低了0.85％的能耗。

本发明实施例提出的方法的有益效果如下：

(1)可以使得一体化数据中心柜内的服务器(IT设备)出风口温度始终保持在设定的过热安全阈值内，同时较大程度地降低制冷能耗，并且没有产生温度过低的情况。同时，由于强化学习的动作(决策量)为θ_t(空调压缩机开闭一般有直接控制接口)，调节方便快捷，属于末端空调的控制方案，相比于一些现有技术方案需要分析并调节整个制冷控制系统，本发明提出的方法更易于实际实施。

(2)通过在训练过程中通过不断更新时序差分误差、平均收益估计值，实现对动作价值函数的参数的更新，而由于采用了平均收益估计值，使得本发明方法不会倾向于选择那些快速但长期收益不高的行为，保证了最后得到的空调压缩机的开关状态可实现长期更优的节能效果。

本发明实施例中还提供了一种一体化数据中心柜末端空调系统节能优化装置，如下面的实施例所述。由于该装置解决问题的原理与一体化数据中心柜末端空调系统节能优化方法相似，因此该装置的实施可以参见一体化数据中心柜末端空调系统节能优化方法的实施，重复之处不再赘述。

图6为本发明实施例中一体化数据中心柜末端空调系统节能优化装置的示意图，包括：

马尔可夫决策过程模型确定模块601，用于确定一体化数据中心柜末端空调系统的马尔可夫决策过程模型；

仿真环境构建模块602，用于构建一体化数据中心柜仿真环境；

训练模块603，用于在所述仿真环境中，基于马尔可夫决策过程模型，对基于价值的函数逼近型差分强化学习算法进行训练，输出训练好的动作价值函数，在训练过程中通过不断更新时序差分误差、平均收益估计值，实现对动作价值函数的参数的更新；

测试模块604，用于基于训练好的动作价值函数，实时获取当前时刻最大动作价值函数值对应的动作；

决策获得模块605，用于获得当前时刻最大动作价值函数值对应的动作对应的空调压缩机的开关状态。

在一实施例中，所述马尔可夫决策过程模型包括末端空调系统的状态、动作和奖励函数，其中，

末端空调系统的状态表示为式(5)；

末端空调系统的动作表示为式(6)；

奖励函数表示为式(7)。

在一实施例中，末端空调系统运行功耗对应的收益表示式(8)；

服务器出风口温度对应的收益表示为：式(9)或式(10)。

在一实施例中，马尔可夫决策过程模型确定模块具体用于：

根据末端空调系统运行原理和末端空调系统运行功率确定一体化数据中心柜末端空调系统节能问题的优化目标、约束条件；

分析所述优化目标和约束条件，确定一体化数据中心柜末端空调系统节能问题的决策变量为空调压缩机的开关状态；

基于所述优化目标和约束条件，确定所述马尔可夫决策过程模型的状态和奖励函数；

基于所述决策变量，确定所述马尔可夫决策过程模型的动作。

在一实施例中，训练模块具体用于：

使用从动作价值函数中得到的策略，选择当前时刻的动作；

根据所述任意时刻的四元组，更新时序差分误差；

在一实施例中，训练模块具体用于：

采用式(14)，根据所述任意时刻的四元组，更新时序差分误差；

采用式(15)，根据更新的时序差分误差和平均收益因子，更新平均收益估计值；

采用式(16)，根据所述任意时刻的动作价值函数值、学习率、更新的时序差分误差，更新动作价值函数的参数。

在一实施例中，测试模块具体用于：

综上所述，本发明实施例提出的装置的有益效果如下：

(1)可以使得一体化数据中心柜内的服务器(IT设备)出风口温度始终保持在设定的过热安全阈值内，同时较大程度地降低制冷能耗，并且没有产生温度过低的情况。同时，由于强化学习的动作(决策量)为θ_t(空调压缩机开闭一般有直接控制接口)，调节方便快捷，属于末端空调的控制方案，相比于一些现有技术方案需要分析并调节整个制冷控制系统，本发明提出的装置更易于实际实施。

本发明实施例还提供一种计算机设备，图7为本发明实施例中计算机设备的示意图，所述计算机设备700包括存储器710、处理器720及存储在存储器710上并可在处理器720上运行的计算机程序730，所述处理器720执行所述计算机程序730时实现上述一体化数据中心柜末端空调系统节能优化方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。