CN113848711B

CN113848711B - 一种基于安全模型强化学习的数据中心制冷控制算法

Info

Publication number: CN113848711B
Application number: CN202111113046.0A
Authority: CN
Inventors: 万剑雄; 段彦夺; 李雷孝; 云培研
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2023-07-14
Anticipated expiration: 2041-09-18
Also published as: CN113848711A

Abstract

本发明属于数据中心制冷控制算法技术领域，具体涉及一种基于安全模型强化学习的数据中心制冷控制算法，包括下列步骤：将系统当前状态输入到策略网络和风险模型中，分别生成最优行为和安全探索行为；通过ε‑greedy策略形成执行行为；然后系统进入下一个状态，将实际发生的系统过渡经验存储在经验回放池中，以训练系统模型，所述系统模型包括系统动力学模型和风险模型；通过调用Plan函数实现学习最优策略和值函数；通过MPCS函数解决MPC问题。本发明可以快速学习到接近最优的控制策略，而不会严重违反温度约束。

Description

一种基于安全模型强化学习的数据中心制冷控制算法

技术领域

本发明属于数据中心制冷控制算法技术领域，具体涉及一种基于安全模型强化学习的数据中心制冷控制算法。

背景技术

数据中心冷却管理问题可以描述为离散时间的马尔可夫决策过程(MDP，MarkovDecision Processes)。在每个时间步，冷却控制器观察当前系统状态，并选择一个可执行的行为，在不违反温度约束的情况下尽可能地降低冷却功耗。传统的强化学习算法需要与环境进行大量的交互，以收集足够的经验进行算法训练。但是，在生产数据中心中，这是不可接受的，因为收敛到一个好的控制策略需要太多的时间，而且收敛前的性能无法保证。并且，强化学习算法的反复试错性质不适用于数据中心等关键任务设施。

发明内容

针对上述传统的强化学习算法需要与环境进行大量的交互的技术问题，本发明提供了一种效率高、误差小、成本低的基于安全模型强化学习的数据中心制冷控制算法。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于安全模型强化学习的数据中心制冷控制算法，包括下列步骤：

S1、将系统当前状态输入到策略网络和风险模型中，分别生成最优行为和安全探索行为；

S2、通过ε-greedy策略形成执行行为；

S3、然后系统进入下一个状态，将实际发生的系统过渡经验存储在经验回放池中，以训练系统模型，所述系统模型包括系统动力学模型和风险模型；

S4、通过调用Plan函数实现学习最优策略和值函数；

S5、通过MPCS函数解决MPC问题。

所述S1中分别生成最优行为和安全探索行为的方法为：系统转换函数M通过系统动力学模型M_θ近似，风险r通过风险模型

估计，同时系统动力学模型M_θ和风险模型/>

分别是参数化为θ和/>

的神经网络，所述风险r由机架进口最高温度与温度阈值之间的差值来衡量，公式定义如下：

所述Δ是一个常量，并且Δ＞0，所述

为机架进口最高温度，所述z^TH为温度阈值，在当前状态下执行一个行为之后的安全性被定义为风险的倒数/>

为了产生一个安全探索行为，首先形成一个动作集合A由K个动作组成，所述/>

其中/>

中k∈{1，...，K}，所述/>

是在行为空间中均匀采样得到的，然后将行为/>

与概率相关联，公式定义如下：

所述

为概率；

最终的安全探索行为

将使用分布从A中采样得到，并且具有较高风险的行为将以较小的概率抽样，Δ控制较安全的行为的优先次序：采用较安全行动的概率随Δ的减小而增加。

所述S2中通过ε-greedy策略形成执行行为的方法为：在进行部署算法之前，系统动力学模型M_θ和风险模型

都是使用历史数据提前训练过的，在每个时间步的开始，SafeCool通过ε-greedy策略选择一个安全行为作为执行行为，其公式如下：

所述ò表示探索概率，在系统中ò＝0.1表示系统以0.1的概率产生探索行为

并执行，并且以0.9的概率由策略网络产生行为π_θ(z_t)并执行；所述a_t为执行行为，使用策略网络π_θ来减少产生最优动作的计算时间，因为MPC控制器通常太耗时而不能在运行时应用，所述策略网络π_θ输出当前系统模型的最佳安全动作，所述ε-greedy策略允许对行为空间进行安全感知的随机探索。

所述S3中训练系统模型的方法为：在执行行为a_t之后，环境进入到下一个状态z_t+1，将四元组(z_t,a_t,R_t,z_t+1)存储到经验回放池D中，用于训练系统动力学模型和风险模型；最后，Actor和Critic都将根据模型进行规划更新，利用随机梯度下降算法更新系统动力学模型和风险模型的参数；对于系统动力学模型通过预测的下一个状态和真实的下一个状态的均方差作为损失函数进行更新，公式定义如下：

所述R_t表示空调的能耗，所述Z_t表示t时刻数据中心的温度状态，所述Z_t+1表示t+1时刻数据中心的温度状态；所述B表示从经验回放池D中抽取大小为B的经验样本；

同样风险模型通过以下损失函数进行更新：

所述w(z_t,a_t)定义如下：

所述S4中通过调用Plan函数实现学习最优策略和值函数的方法为：通过从经验回放池D均匀采样的初始状态滚动H步，获得了相对于当前系统动力学模型M_θ的N个最优轨迹，然后，将最优轨迹和第一个状态-动作对分别存储在D^V和D^π中，策略网络π_φ通过最小化行为克隆损失函数在经验回放池D^V上训练，策略网络的损失函数定义如下：

所述a表示通过MPC得到的专家行为，需要策略网络π_θ(z)学习这个行为；

通过设置损失函数对模拟经验D^V中遇到的状态进行价值网络

的训练，损失函数定义如下：

所述x表示D^V的轨迹，所述D^π表示策略网络用于训练的经验回放池；

最后，在训练完成后，模拟经验被丢弃，另外在算法实现的时候，Plan函数是可并行化的，所述Plan函数将N个MPC问题分配到多个处理器中，以实现更快的规划。

所述S5中通过MPCS函数解决MPC问题的方法为：所述MPCS函数通过更新H步高斯分布N_t(μ_t,Σ_t),t∈{0,...,H-1}的对角协方差矩阵，使得从高斯分布N_t中抽样解是具有高概率的最优动作序列；将高斯分布N_t的均值初始化为π_θ(z_t)，在每次CEM迭代过程中，MPCS函数通过滚动系统动力学模型和从高斯分布N_t中采样行为生成L个候选行为序列；如果行为序列是安全的，即轨迹中没有发现温度违约现象，则将其加入到精英集合Λ中，只保留精英集合Λ中折扣奖励值最高的e％行为序列，用来更新N_t的分布参数，更新分布参数公式如下：

所述

和/>

分别为精英集合分布参数，所述α为学习率，随着CEM迭代次数的增加，所述高斯分布N_t趋于最优分布，从该分布中获得最优行为序列。

本发明与现有技术相比，具有的有益效果是：

本发明基于Actor-Critic框架的MBRL算法，将系统当前状态输入到策略网络和风险模型中，分别生成最优行为和安全探索行为，最后由ε-greedy策略形成可执行行为。然后系统进入下一个状态，将实际发生的系统过渡经验存储在经验回放池中，以训练系统模型，其包括系统动力学模型和风险模型。模型预测控制器用来生成模拟经验用来训练策略网络，从而指导MPC控制器解决有约束的顺序决策问题，本发明可以快速学习到接近最优的控制策略，而不会严重违反温度约束。

附图说明

图1为本发明的总体架构图；

图2为本发明的时间轴示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

一种基于安全模型强化学习的数据中心制冷控制算法，如图1、图2所示，包括下列步骤：

S2、通过ε-greedy策略形成执行行为；

S4、通过调用Plan函数实现学习最优策略和值函数；

S5、通过MPCS函数解决MPC问题。

进一步，如表1所示，S1中分别生成最优行为和安全探索行为的方法为：系统转换函数M通过系统动力学模型M_θ近似，风险r通过风险模型

估计，同时系统动力学模型M_θ和风险模型/>

分别是参数化为θ和/>

的神经网络，风险r由机架进口最高温度与温度阈值之间的差值来衡量，公式定义如下：

其中：Δ是一个常量，并且Δ＞0，

为机架进口最高温度，z^TH为温度阈值，在当前状态下执行一个行为之后的安全性被定义为风险的倒数/>

为了产生一个安全探索行为，为了产生一个安全的探索行为，首先形成一个动作集合A由K个动作组成，/>

其中/>

中k∈{1,...,K}，/>

是在行为空间中均匀采样得到的，然后将行为/>

与概率相关联，公式定义如下：

其中：

为概率；

最终的安全探索行为

进一步，S2中通过ε-greedy策略形成执行行为的方法为：在进行部署算法之前，系统动力学模型M_θ和风险模型

都是使用历史数据提前训练过的，在每个时间步的开始，如表1第4行所示，SafeCool通过ε-greedy策略选择一个安全行为作为执行行为，其公式如下：

其中：ò表示探索概率，在系统中ò＝0.1表示系统以0.1的概率产生探索行为

并执行，并且以0.9的概率由策略网络产生行为π_θ(z_t)并执行；a_t为执行行为，使用策略网络π_θ来减少产生最优动作的计算时间，因为MPC控制器通常太耗时而不能在运行时应用，π_θ输出当前系统模型的最佳安全动作，ε-greedy策略允许对行为空间进行安全感知的随机探索。

进一步，S3中训练系统模型的方法为：在执行行为a_t之后，如表1第5行所示，环境进入到下一个状态z_t+1，如表1第6行所示，将四元组(z_t,a_t,R_t,z_t+1)存储到经验回放池D中，如表1第7行所示，用于训练系统动力学模型和风险模型；如表1第8行所示，最后，Actor和Critic都将根据模型进行规划更新，利用随机梯度下降算法更新系统动力学模型和风险模型的参数；对于系统动力学模型通过预测的下一个状态和真实的下一个状态的均方差作为损失函数进行更新，公式定义如下：

其中：R_t表示空调的能耗，Z_t表示t时刻数据中心的温度状态，Z_t+1表示t+1时刻数据中心的温度状态；B表示从经验回放池D中抽取大小为B的经验样本。

同样风险模型也可以通过以下损失函数进行更新：

然而使用上述公式训练风险模型存在偏向于选择最优行为和偏向于更安全的探索，因为这些经验数据在经验回放池中占据主导地位。为了解决这个问题，我们采用了重要性采样的技巧，因此公式改写为以下：

其中：w(z_t,a_t)定义如下：

表1

进一步，如表2所示，S4中通过调用Plan函数实现学习最优策略和值函数的方法为：如表2第5-6行所示，通过从经验回放池D均匀采样的初始状态滚动H步，获得了相对于当前系统动力学模型M_θ的N个最优轨迹，然后，如表2第7行所示，将最优轨迹和第一个状态-动作对分别存储在D^V和D^π中，策略网络π_φ通过最小化行为克隆损失函数在经验回放池D^V上训练，策略网络的损失函数定义如下：

其中：a表示通过MPC得到的专家行为，需要策略网络π_θ(z)学习这个行为。

如表2第9行所示，用于模仿模型预测控制的行为。Critic的更新使用基于基于模型的价值扩展(MVE，Model-based Value E-xpansion)技巧。具体来说通过设置损失函数对模拟经验D^V中遇到的状态进行价值网络

的训练，损失函数定义如下：

其中：x表示D^V的轨迹，D^π表示策略网络用于训练的经验回放池；

在系统动力学模型不完善的情况下，预测误差会随着长时间滚动而加剧。在Critic的帮助下，可以避免模型预测控制长时间滚动的问题，从而提高求解方案的质量。最后，在训练完成后，模拟经验被丢弃，另外在算法实现的时候，Plan函数是可并行化的，Plan函数将N个MPC问题分配到多个处理器中，以实现更快的规划。

表2

进一步，由于系统动力学模型是一个复杂的非线性神经网络，因此很难得到MPC问题的封闭解。因此，我们提出了MPCS函数，如表3所示，S5中通过MPCS函数解决MPC问题的方法为：MPCS是一种交叉熵方法(CEM，Cross Entropy Method)，MPCS函数通过更新H步高斯分布N_t(μ_t,Σ_t),t∈{0,...,H-1}的对角协方差矩阵，使得从高斯分布N_t中抽样解是具有高概率的最优动作序列；由于策略网络已经可用，为了更高效的寻找到最优解，如表3第10行所示，将高斯分布N_t的均值初始化为π_θ(z_t)，在每次CEM迭代过程中，如表3第6-14行所示，MPCS函数通过滚动系统动力学模型和从高斯分布N_t中采样行为生成L个候选行为序列；如果行为序列是安全的，即轨迹中没有发现温度违约现象，如表3第15-17行所示，则将其加入到精英集合Λ中，如表3第19-20行所示，只保留精英集合Λ中折扣奖励值最高的e％行为序列，用来更新N_t的分布参数，更新分布参数公式如下：

其中：

和/>

分别为精英集合分布参数，α为学习率，随着CEM迭代次数的增加，高斯分布N_t趋于最优分布，从该分布中获得最优行为序列。

表3

上面仅对本发明的较佳实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化，各种变化均应包含在本发明的保护范围之内。