CN111126605A

CN111126605A - 一种基于强化学习算法的数据中心机房控制方法及装置

Info

Publication number: CN111126605A
Application number: CN202010090666.6A
Authority: CN
Inventors: 周鹏程; 王桂波; 徐凤逸
Original assignee: Ainnovation Chongqing Technology Co ltd
Current assignee: Ainnovation Chongqing Technology Co ltd
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2020-05-08
Anticipated expiration: 2040-02-13
Also published as: CN111126605B

Abstract

本发明一种基于强化学习算法的数据中心机房控制方法及装置，应用于数据中心机房的环境控制系统，所述方法包括：获取当前时刻来自环境的状态量s_t，并基于预先训练的强化学习模型得到当前时刻的控制参数a_t，其中，所述状态量，包括：机房各个通道种传感器的数值；使用所述控制参数控制数据中心机房的温度调节设备的工作状态，直至数据中心机房的温度稳定。应用本发明实施例，可以使节能效果更好。

Description

一种基于强化学习算法的数据中心机房控制方法及装置

技术领域

本发明涉及数据中心机房控制方法技术领域，具体涉及一种基于强化学习算法的数据中心机房控制方法及装置。

背景技术

随着大数据机房规模的不断增加，机房的能耗在全球能耗中的比例越来越高，因此，如何在保证机房能够正常运作的前提下，尽量降低能耗是亟待解决的技术问题。

现有技术中，申请号为201910154592的发明专利公开了一种基于人工智能优化机房能耗效率的方法及装置，属于环保节能领域，降低了现有IDC机房过量制冷、电力浪费严重导致的高能耗与环保问题，其装置包括：获取机房机柜发热/制冷状态大数据的感知装置，从发热/制冷状态大数据自动学习控制策略的自动学习装置，使用控制策略生成优化控制指令的控制逻辑装置，直接调节制冷设备运行的控制装置；本发明包含一种自动学习装置，该装置能够基于机柜运行大数据结合人工智能算法自动学习优化控制策略，降低制冷电量消耗；本发明包含一种控制逻辑装置，该装置能够根据机房运行数据动态、精确地调节制冷设备运行。

但是，虽然现有技术中对数据中心机房控制优化是一个通过控制空调使机房环境保持稳定，同时尽可能降低能耗的过程，但是，现有技术中奖赏函数的构建依据仅包括了制冷设备的功率以及对应的温度差，较为单一，导致现有技术中的控制结果的节能效果较差。

发明内容

本发明所要解决的技术问题在于如何提供一种基于强化学习算法的数据中心机房控制方法及装置，以提高节能效果。

本发明通过以下技术手段实现解决上述技术问题的：

本发明实施例提供了一种基于强化学习算法的数据中心机房控制方法，应用于数据中心机房的环境控制系统，所述方法包括：

获取当前时刻来自环境的状态量s_t，并基于预先训练的强化学习模型得到当前时刻的控制参数a_t，其中，所述状态量，包括：机房各个通道种传感器的数值；

使用所述控制参数控制数据中心机房的温度调节设备的工作状态，直至数据中心机房的温度稳定。

可选的，所述强化学习模型的训练过程包括：

A：构建强化学习模型，其中，所述强化学习模型包括：Actor网络和Critic网络，其中，所述Actor网络接收来自环境的状态量，输出动作空间控制参数；所述Critic网络接收Actor网络输出的控制参数以及来自环境的状态量，输出实值Q，代表在当前状态量下Actor采取该控制参数的价值；

B：将历史数据作为样本数据输入至强化学习模型中，其中，所述历史数据包括：当前时刻的状态量、当期时刻的控制参数、当前时刻的上一时刻的奖赏以及当前时刻的下一时刻的控制参数；

C：利用公式，r＝-αS_t-βV_t-γF_t，计算当前次迭代的上一次迭代的奖赏值，其中，r为样本数据中当前时刻的上一时刻的奖赏；α为通道温湿度传感器数值超过SLA阈值的量S对应的权重；S_t为当前时刻的上一时刻的奖赏；α为通道温湿度传感器数值超过SLA阈值的量；β为通道传感器数值的方差对应的权重；V_t为当前时刻的上一时刻的通道传感器数值的方差；γ为风机转速均值F对应的权重；F_t为当前时刻上一时刻的风机转速均值；

D：利用公式，

计算Critic网络的损失，其中，

L为Critic网络的损失；N为训练样本中的样本数量；

为求和函数；r为样本数据中当前时刻的上一时刻的奖赏；C为Critic网络；s′为样本数据中当前时刻的下一时刻的状态量；A(s′)为Actor网络对于状态s’的动作输出；a为Actor网络的动作输出；C(s,a)为Critic网络输入s和a的Q值输出；γ为折扣因子；

E：根据Critic网络损失计算Critic网络参数梯度；

F：利用公式，

计算Actor网络的梯度，其中，

为Actor网络参数的梯度；N为一批训练样本数量；∑为求和函数；

为Critic输出的Q值关于输入a的梯度；

为Actor网络输出动作a关于网络参数的梯度，其中，Critic输出的Q值关于输入a的梯度以及Actor网络输出动作a关于网络参数的梯度的计算过程为现有技术，这里不再赘述。

G：使用计算得到的Actor网络梯度和Critic网络梯度对Actor网络和Critic网络参数进行更新；

H：利用公式，

对Target Actor网络、Target Critic网络进行参数更新，并返回执行步骤C，直至强化学习模型收敛，其中，θ^A′为Target Actor网络；τ为更新系数；θ^A为Actor网络参数；θ^C′为Target Critic网络参数；θ^C为Critic网络参数。

可选的，所述步骤C，包括：

利用公式，r＝-αS_t-βV_t-γF_t，计算当前次迭代的上一次迭代的奖赏值，其中，r为样本数据中当前时刻的上一时刻的奖赏；α为通道温湿度传感器数值超过SLA阈值的量S对应的权重；S_t为当前时刻的上一时刻的奖赏；α为通道温湿度传感器数值超过SLA阈值的量；β为通道传感器数值的方差对应的权重；V_t为当前时刻的上一时刻的通道传感器数值的方差；γ为风机转速均值F对应的权重；F_t为当前时刻上一时刻的风机转速均值。

可选的，所述Actor网络和Critic网络均是由输入层、中间层以及输出层堆叠组成的，其中，中间层包括300个神经元，其激活函数为ReLU函数。

可选的，所述方法还包括：

获取当前时刻对应的奖赏，根据所述奖赏的大小监控强化学习模型的控制效果。

本发明实施例还提供了一种基于强化学习算法的数据中心机房控制装置，所述装置包括：

获取模块，用于获取当前时刻来自环境的状态量s_t，并基于预先训练的强化学习模型得到当前时刻的控制参数a_t，其中，所述状态量，包括：机房各个通道种传感器的数值；

调节模块，用于使用所述控制参数控制数据中心机房的温度调节设备的工作状态，直至数据中心机房的温度稳定。

可选的，所述强化学习模型的训练过程包括：

D：利用公式，

计算Critic网络的损失，其中，

L为Critic网络的损失；N为训练样本中的样本数量；

E：根据Critic网络损失计算Critic网络参数梯度；

F：利用公式，

计算Actor网络的梯度，其中，

为Critic输出的Q值关于输入a的梯度；

H：利用公式，

可选的，所述获取模块，还用于：

可选的，所述装置还包括：

监控模块，用于获取当前时刻对应的奖赏，根据所述奖赏的大小监控强化学习模型的控制效果。

本发明的优点在于：

应用本发明实施例，在t时刻，Agent接收来自环境的状态量s_t和上个时刻的奖赏r_t-1，基于自身策略得到控制a_t，反馈到环境中得到下个时刻的状态s_t+1和当前时刻的奖赏r_t。不断迭代交互的过程中同时Agent利用积累到的数据对自身策略进行更新，以最大化未来奖赏的期望值。以上的奖赏函数的设计同时考虑了业务约束，即传感器的测量值和节能控制的目标，通过强化学习框架最大化以上奖赏函数可以得到同时满足业务约束和节能控制的控制策略，相对于现有技术加入了传感器的测量值作为业务约束，可以使节能效果更好。

附图说明

图1为本发明实施例提供的一种基于强化学习算法的数据中心机房控制方法的流程示意图；

图2为本发明实施例中强化学习模型的架构示意图；

图3为本发明实施例提供的一种基于强化学习算法的数据中心机房控制装置的结构示意图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种基于强化学习算法的数据中心机房控制方法的流程示意图，如图1所示，应用于数据中心机房的环境控制系统，所述方法包括：

S101：在本步骤中首先要预先训练出强化学习模型，然后将机房的状态量输入到预先训练的强化学习模型中。

示例性的，数据中心精密空调控制优化的特点是当前控制会影响到后续的状态进而影响到后续的控制，根据这个特点将机房空调的控制抽象为一个序列决策问题，使用强化学习算法自适应地找到不同状态下的最优策略。基于强化学习决策框架，在每个时刻t，获取上一时刻的奖赏函数值r_t-1，获取当前时刻来自环境的状态量s_t，并基于预先训练的强化学习模型得到当前时刻的控制出控制量a_t，其中，所述状态量，包括：机房各个通道温湿度传感器的数值，所述控制量，包括：机房所有精密空调的风机转速百分比和水阀开度百分比。

图2为本发明实施例中强化学习模型的架构示意图，应用强化学习算法框架解决机房空调控制的原理如图2所示，图2中框架的基本要素定义如下：

机房仿真环境：使用机房通道温湿度传感器与精密空调历史数据，使用神经网络拟合一个仿真环境模型，其中模型的输入是过去k个时刻的机房通道温湿度传感器数值、精密空调风机转速百分比、水阀开度百分比数值，输出是当前时刻的机房通道温湿度传感器数值。

状态：机房通道温湿度传感器数值

动作：机房内所有精密空调水阀开度百分比、风机转速百分比设置值

奖赏函数：包含3项：通道温湿度传感器数值超过SLA(Service-Level Agreement，服务等级协议)阈值的量S；以及通道传感器数值的方差V；以及风机转速均值F。三项综合起来得到奖赏函数，公式为R_t＝-αS_t-βV_t-γF_t。其中α,β,γ分别是三项的权重系数，下标t表示t时刻。

该定义下，环境的状态空间为机房通道温湿度传感器数值；Agent的动作空间是机房内所有精密空调水阀开度、风机转速的值，奖赏函数的设计包含了几项：-αS_t对应惩罚通道温湿度传感器超过阈值情况(用于保证安全)、-βV_t对应惩罚通道传感器的大方差(用于保持通道传感器数值均匀)、-γF_t对应鼓励较小的风机转速均值(用于保证节能效果)。因此，本发明实施例提供的奖赏函数可以综合考虑各种性能，进而使控制效果更加稳定。

构建强化学习模型的方法如下：在数据中心机房的控制中环境状态空间和动作空间均为连续性质，强化学习模型使用DDPG(Deep Deterministic Policy Gradient，深度确定性策略梯度)算法，所述强化学习模型中的网络结构包括：Actor网络、Critic网络、Target Actor网络、Target Critic网络，Actor网络、Critic网络、Target Actor网络、Target Critic网络均是采用多层感知机结构，由输入层、中间层以及输出层堆叠组成的，其中，

所述Actor网络的输入是环境的状态向量，输出是动作向量，且Actor网络输入层维度为状态向量的维度，中间层总共两层，每层包含300个神经元，输出层维度为动作向量的维度，层与层之间使用ReLU(Rectified Linear Unit，线性整流函数)激活函数，每层的激活函数之后加入BN(Batch Normalization，批标准化)层。

所述Critic网络的输入是环境的状态向量以及Actor网络输出的动作向量，一个输入对应输出一个实值Q，代表在输入的状态量下采取输入的动作量得到的未来期望奖赏值(价值)，且Critic网络输入层维度为状态向量的维度加上动作向量的维度，中间层总共两层，每层包含300个神经元，输出层维度为1，层与层之间使用ReLU激活函数，每层的激活函数之后加入BN层。

所述Target Actor、Target Critic网络结构分别与Actor、Critic网络结构相同。

模型预训练方法如下：

然后，将传感器数据作为样本数据输入至DDPG(Deep Deterministic PolicyGradient，深度确定性策略梯度)模型中，其中，所述传感器数据包括：上个时刻的状态量s、上个时刻的动作量a、上一时刻的奖赏以及当前时刻的状态量s’。

在当前次迭代中，首先利用公式，r＝-αS_t-βV_t-γF_t，计算当前次迭代的上一次迭代的奖赏值，其中，r为样本数据中当前时刻的上一时刻的奖赏；α为通道温湿度传感器数值超过SLA阈值的量S对应的权重；S_t为当前时刻的上一时刻的奖赏；α为通道温湿度传感器数值超过SLA阈值的量；β为通道传感器数值的方差对应的权重；V_t为当前时刻的上一时刻的通道传感器数值的方差；γ为风机转速均值F对应的权重；F_t为当前时刻上一时刻的风机转速均值。

利用公式，

计算Critic网络的损失，其中，L为Critic网络的损失；N为一批训练样本的数量；∑为求和函数；r为样本数据中当前时刻的上一时刻的奖赏；C’为Target Critic网络；s’为样本数据中当前时刻的下一时刻的状态量；A’(s’)为Target Actor网络对于状态s’的动作输出；a为Actor网络的动作输出；C(s,a)为Critic网络输入s和a时对应的Q值输出；γ为折扣因子。

使用该Critic网络损失计算Critic网络参数梯度，该过程为现有技术，本发明实施例在此不再赘述。

利用公式，

计算Actor网络的梯度，其中，

为Critic输出的Q值关于输入a的梯度；

使用计算得到的Actor网络梯度和Critic网络梯度对Actor网络和Critic网络参数进行更新，更新方法为Adam优化方法。

在迭代一轮或者若干轮后，使用Actor网络、Critic网络的参数作为输入，利用公式，

对Target Actor网络、Target Critic网络进行参数更新，其中，θ^A′为Target Actor网络；τ为更新系数；θ^A为Actor网络参数；θ^C′为Target Critic网络参数；θ^C为Critic网络参数。

在对Target Actor网络、Target Critic网络进行参数更新更新后，返回执行利用公式，r＝-αS_t-βV_t-γF_t，计算当前次迭代的上一次迭代的奖赏值的步骤，直至模型迭代次数达到预设阈值，即模型收敛。然后将收敛后的Actor模型作为预设的强化学习模型。在使用该模型时，将当前时刻的机房的状态向量输入到预设的强化学习模型中，得到机房控制参数，进而实现机房精密空调控制。

S102：使用所述控制参数控制数据中心机房的温度调节设备的工作状态。

示例性的，用于控制环境控制系统中的设备，如空调的控制参数s′，然后按照s′进行控制。

另外，现有技术中还基于PID使空调出风温度、回风温度保持稳定。这种方式可以实现机房保持机房环境稳定的目的，但是无法将业务约束，如传感器参数值，和控制目标，如节能效果加入到控制策略中。而本发明实施例，可以将前述二者加入到控制策略中，进而提升了节能效果。

进一步的，在本发明实施例中，为了扩充用于训练强化学习模型的样本规模，可以将强化学习模型的输出结果与当前时刻的状态量作为新的一个样本加入到训练集中，并使用更新后的训练集训练新的强化学习模型，即每个时间步长t作为一个时刻，接收当前时刻状态s和上个时刻奖赏r，将s作为Actor网络输入得到动作概率输出，根据概率采样得到动作输出a，执行动作a得到下个时刻状态s’。保存(s,a,r,s’)用于强化学习模型的训练。

进一步的，可以根据预设的准确率对训练集中的样本进行筛选，进一步提高样本的准确率进而提高强化学习模型的精度，其中，筛选过程可以为，将强化学习模型的输出控制参数与机房的实际控制参数之间的差值大于设定值的样本剔除。

在本发明实施例的一种具体实施方式中，在S102步骤，所述方法增加了S103步骤：获取当前时刻对应的奖赏，并根据所述奖赏的大小监测强化学习模型的效果。

示例性的，奖赏越大，说明强化学习模型的效果越好。

与本发明图1所示实施例相对应，本发明实施例还提供了种基于强化学习算法的数据中心机房控制装置。

图3为本发明实施例提供的一种基于强化学习算法的数据中心机房控制装置的结构示意图，如图3所示，所述装置包括：

获取模块301，用于获取当前时刻来自环境的状态量s_t，并基于预先训练的强化学习模型得到当前时刻的动作量a_t，其中，所述状态量，包括：机房各个通道温湿度传感器的数值；所述控制量，包括：机房所有精密空调的风机转速百分比和水阀开度百分比。

调节模块302，用于使用所述控制参数控制数据中心机房的温度调节设备的工作状态，直至数据中心机房的温度稳定。

在本发明实施例的一种具体实施方式中，所述获取模块，用于：

构建强化学习模型，其中，所述强化学习模型包括：Actor网络、Critic网络、Target Actor网络、Target Critic网络，其中，所述Actor网络的输入是环境的状态向量，输出是动作向量；所述Critic网络的输入是环境的状态向量以及Actor网络输出的动作向量，一个输入对应输出一个实值Q，代表在输入的状态量下采取输入的动作量得到的未来期望奖赏值(价值)；所述Target Actor、Target Critic网络结构分别与Actor、Critic网络结构相同。

模型预训练：

然后，将传感器数据作为样本数据输入至DDPG模型中，其中，所述传感器数据包括：上个时刻的状态量s、上个时刻的动作量a、上一时刻的奖赏以及当前时刻的状态量s’；其中奖赏值的计算公式为r_t＝-αS_t-βV_t-γF_t

利用公式，

计算Critic网络的损失，其中，L为Critic网络的损失；N为一批训练样本的数量；∑为求和函数；r为样本数据中当前时刻的上一时刻的奖赏；C’为Target Critic网络；s’为样本数据中当前时刻的下一时刻的状态量；A’(s’)为Target Actor网络对于状态s’的动作输出；a为Actor网络的动作输出；C(s,a)为Critic网络输入s和a的Q值输出；γ为折扣因子。使用该Critic网络损失计算Critic网络参数梯度。

利用公式，

计算Actor网络的梯度，其中，

为Critic输出的Q值关于输入a的梯度；

为Actor网络输出动作a关于网络参数的梯度。

在迭代多轮后，使用Actor网络、Critic网络的参数对Target Actor网络、TargetCritic网络进行参数更新，更新公式为

对Target Actor网络、TargetCritic网络进行参数更新，并返回执行步骤C，直至强化学习模型收敛，其中，θ^A′为TargetActor网络；τ为更新系数；θ^A为Actor网络参数；θ^C′为Target Critic网络参数；θ^C为Critic网络参数。

在本发明实施例的一种具体实施方式中，所述获取模块301，用于：

利用公式，R_t＝-αS_t-βV_t+γF_t，计算当前时刻的奖赏，其中，

R_t为当前时刻的奖赏；α为第一权重系数；S_t为当前时刻通道传感器数值超过SLA阈值的量；β为第二权重系数；V_t为当前时刻各个通道传感器数值的方差；γ为第三权重系数；F_t为当前时刻各个通道风机的转速均值。

在本发明实施例的一种具体实施方式中，所述Actor网络和Critic网络均是由输入层、中间层以及输出层堆叠组成的，其中，中间层包括300个神经元，其激活函数为ReLU函数。

在本发明实施例的一种具体实施方式中，所述装置还包括：

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于强化学习算法的数据中心机房控制方法，其特征在于，应用于数据中心机房的环境控制系统，所述方法包括：

2.根据权利要求1所述的一种基于强化学习算法的数据中心机房控制方法，其特征在于，所述强化学习模型的训练过程包括：

C：计算当前次迭代的上一次迭代的奖赏值；

D：利用公式，

计算Critic网络的损失，其中，

L为Critic网络的损失；N为训练样本中的样本数量；∑为求和函数；r为样本数据中当前时刻的上一时刻的奖赏；C为Critic网络；s′为样本数据中当前时刻的下一时刻的状态量；A(s′)为Actor网络对于状态s’的动作输出；a为Actor网络的动作输出；C(s,a)为Critic网络输入s和a的Q值输出；γ为折扣因子；

E：根据Critic网络损失计算Critic网络参数梯度；

F：利用公式，