CN110609474A

CN110609474A - 一种基于强化学习的数据中心能效优化方法

Info

Publication number: CN110609474A
Application number: CN201910848259.4A
Authority: CN
Inventors: 张发恩; 马凡贺
Original assignee: Innovation Qizhi (nanjing) Technology Co Ltd
Current assignee: Innovation wisdom (Shanghai) Technology Co.,Ltd.
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2019-12-24
Anticipated expiration: 2039-09-09
Also published as: CN110609474B

Abstract

本发明公开了数据挖掘和机器学习领域的一种基于强化学习的数据中心能效优化方法，具体步骤包括如下：优化目标设计：采集需要训练的数据，设计优化目标y；控制点选择：设计控制动作a_t；样本参数选择：选取状态参数S_t；训练：根据状态参数和动作进行模型训练；基于Actor‑Critic强化学习建模方法，深度确定性策略梯度算法，对数据中心能效优化自动控制场景进行了建模设计，模型的目标是在控制约束下调整冷却塔风机频率和冷却泵频率，从而尽可能的降低冷却侧设备功率。

Description

一种基于强化学习的数据中心能效优化方法

技术领域

本发明涉及数据挖掘和机器学习技术领域，具体为一种基于强化学习的数据中心能效优化方法，用于数据中心、工场、酒店、办公楼、医院、机场、火车站、地铁站等设施的暖通系统的节能与能效优化。

背景技术

能源和环境问题的出现将节能减排提上了重要议程，随着云服务、大数据、AI计算等技术的发展，企业与政府投建了大量的数据中心，而目前中国的数据中心能耗普遍较高，平均PUE值[1]在2.2-3.0之间。中国数据中心用电量占全社会用电量的3％，预计2020将达到3.3％。

目前，数据中心节能方面的研究很多，并且往往使用能耗模拟软件模拟和比较不同方案的能效性能，从而辅助设计决策与优化。尽管如此，大部分研究偏向于研究设计阶段的节能潜力，并未考虑实际投运当中的能效优化。比如2016年GOOGLE的工程师提出了一种使用深度学习的模型预测控制方法，寻找控制点与PUE的关系，从而帮助暖通工程师做控制优化以及帮助数据中心设计师借鉴设计经验。但该建模方法存在以下缺陷：经典的MPC方法属于Two-stagemodel，包括建模阶段和求解阶段，两个阶段单独优化，可能会导致次优控制或不稳定的控制，而且两个阶段需要的先验知识与业务约束比较多。

鉴于此，本发明以某数据中心冷却侧能耗优化为例，提供一种基于强化学习的数据中心能效优化方法，从而解决上述缺陷，并尽可能的提高数据中心暖通系统的节能效率。

发明内容

本发明的目的在于提供一种基于强化学习的数据中心能效优化方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于强化学习的数据中心能效优化方法，具体步骤包括如下：

优化目标设计：采集需要训练的数据，设计优化目标y：

s.t.LF_fan≤F_fan≤UF_fan'LF_cowpump≤F_cowpump≤UF_cowpump；

控制点选择：设计控制动作a_t：

[F_fan(t)，F_cowpump(t)]；

样本参数选择：选取状态参数S_t：

训练：根据状态参数和动作进行模型训练，具体模型训练的步骤具体包括：

S1：提取某一时刻的状态参数State，为S_t：

S2：将State状态参数输入Actor网络模型并输出控制动作值action：[F_fan(t)，F_cowpump(t)]；

S3：将action加入随机过程，并下发到控制设备；

S4：将State与action输入Critic网络模型，预测下一时刻的代价值Q；

S5：计算代价的预测与真实代价值的均方误差MSE；

S6：通过梯度下降最小化MSE更新Critic网络模型，然后最小化Q值更新Actor网络模型；

其中，采集需要训练的数据中F_fan为冷却塔风机频率；F_cowpump为冷却泵频率；为外界环境温度；F_chwpump为冷冻泵频率；T_cowout为冷却水出水温度；T_cowin为冷却水回水温度；T_chwout为冷冻水出水温度；T_chwout为冷冻水出水温度；P_fan为风机功率；P_cowpump为冷却泵功率；P_chiller为冷机功率，PA_condenser为冷凝器压力；PA_evaporator为蒸发器压力；Φ为标定过载值；LF、UF为频率的上下限约束；T、t为某一时刻。

优选的，所述Actor网络模型负责预测最优控制动作：

μ(S_t丨Θ^μ)。

优选的，所述Critic网络模型负责根据状态和动作来预测代价：

Q(S_t，a_t丨Θ^Q)。

优选的，所述全局代价回报R_t为：

∑_i＝tγ^i-t·r_i，γ＝0.95。

优选的，在所述随机过程中，对预测的控制动作值action结果a加一个随机噪声得到a'，用于探索附近最优策略。

与现有技术相比，本发明的有益效果是：本发明基于Actor-Critic强化学习建模方法，深度确定性策略梯度算法，对数据中心能效优化自动控制场景进行了建模设计，模型的目标是在控制约束下调整冷却塔风机频率和冷却泵频率，从而尽可能的降低冷却侧设备功率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明模型训练方法的流程图；

图2为本发明Actor-Critic架构示意图；

图3为本发明模型在线推理方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

请参阅图1-2，本发明提供一种技术方案：一种基于强化学习的数据中心能效优化方法，具体步骤包括如下：

优化目标设计：采集需要训练的数据，设计优化目标y：

s.t.LF_fan≤F_fan≤UF_fan'LF_cowpump≤F_cowpump≤UF_cowpump；

控制点选择：设计控制动作a_t：

[F_fan(t)，F_cowpump(t)]；

样本参数选择：选取状态参数S_t：

S1：提取某一时刻的状态参数State，为S_t：

S3：将action加入随机过程，并下发到控制设备；

S5：计算代价的预测与真实代价值的均方误差MSE；

其中，所述Actor网络模型负责预测最优控制动作：

μ(S_t丨Θ^μ)。

所述Critic网络模型负责根据状态和动作来预测代价：

Q(S_t，a_t丨Θ^Q)。

其中，所述真实代价值包括单步代价回报r_t和全局代价回报R_t。所述全局代价回报R_t为：

∑_i＝tγ^i-t·r_i，γ＝0.95。

其中，在所述随机过程中，对预测的控制动作值action结果a加一个随机噪声得到a'，用于探索附近最优策略。

本发明的训练与预测结构基于Actor-Critic架构，线上使用Actor网络模型，预测当前State下最好的控制动作，并通过随机过程对预测的Action结果a加一个随机噪声得到a’，从而达到在最优策略附近探索的目的。

训练过程中，Critic网络模型学习估计当前状态S下采取动作a获得的代价，使用MSE量化Q估计代价与真实代价r的误差，Critic模型使用梯度下降的方法最优化MSE误差，Actor模型根据跟新后的Q’估计使用梯度下降的方法最小化Q代价估计，从而不断优化策略，直到Actor模型收敛到最优策略，并且Critic模型收敛到最准确的Q估计。

实施例二

如图3所示，基于模型训练的方法，本发明还提出一种进行模型在线推理的方法具体步骤包括：

1、提取当前时刻的状态参数state

2、提取Actor网络

3、将state输入Actor，并输出action。

4、action的值不加入随机过程，直接下发到设备。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于强化学习的数据中心能效优化方法，其特征在于：具体步骤包括如下：

优化目标设计：采集需要训练的数据，设计优化目标y：

s.t.LF_fan≤F_fan≤UF_fan'LF_cowpump≤F_cowpump≤UF_cowpump；

控制点选择：设计控制动作a_t：

[F_fan(t)，F_cowpump(t)]；

样本参数选择：选取状态参数S_t：

S1：提取某一时刻的状态参数State，为S_t：

S3：将action加入随机过程，并下发到控制设备；

S5：计算代价的预测与真实代价值的均方误差MSE；

2.根据权利要求1所述的一种基于强化学习的数据中心能效优化方法，其特征在于：所述Actor网络模型负责预测最优控制动作：

μ(S_t丨Θ^μ)。

3.根据权利要求1所述的一种基于强化学习的数据中心能效优化方法，其特征在于：所述Critic网络模型负责根据状态和动作来预测代价：

Q(S_t，a_t丨Θ^Q)。

4.根据权利要求1所述的一种基于强化学习的数据中心能效优化方法，其特征在于：所述真实代价值包括单步代价回报r_t和全局代价回报R_t。

5.根据权利要求4所述的一种基于强化学习的数据中心能效优化方法，其特征在于：所述全局代价回报R_t为：

∑_i＝tγ^i-t·r_i，γ＝0.95。

6.根据权利要求1所述的一种基于强化学习的数据中心能效优化方法，其特征在于：在所述随机过程中，对预测的控制动作值action结果a加一个随机噪声得到a'，用于探索附近最优策略。