CN113361132B

CN113361132B - 一种基于深度q学习对决网络的风冷数据中心节能方法

Info

Publication number: CN113361132B
Application number: CN202110718622.8A
Authority: CN
Inventors: 林文星; 马驰; 吴名朝
Original assignee: Whale Cloud Technology Co Ltd
Current assignee: Whale Cloud Technology Co Ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2022-03-15
Anticipated expiration: 2041-06-28
Also published as: CN113361132A

Abstract

本发明公开了一种基于深度Q学习对决网络的风冷数据中心节能方法，该方法包括以下步骤：S1、获取采样数据中心与监控数据中心的环境状态；S2、周期性查询采样数据中心与监控数据中心的环境状态，进行深度Q学习对决网络的训练并生成节能空调设置值的温度。有益效果：采用强化学习的方式进行控制器的自学习，通过设定奖励和反馈，探索和学习的机制让控制器能够自适应环境变化，在学习优化风冷机组的空调设置值的同时，又保障数据中心环境处于安全运行区间，从而在未来的学习中对于估计效果差的经验数据能够加强训练；应用对决网络对环境状态增加了新的评估项，增加了控制器对于环境变化的敏感性。

Description

一种基于深度Q学习对决网络的风冷数据中心节能方法

技术领域

本发明涉及空调控制节能领域，具体来说，涉及一种基于深度Q学习对决网络的风冷数据中心节能方法。

背景技术

节能就是尽可能地减少能源消耗量，生产出与原来同样数量、同样质量的产品；或者是以原来同样数量的能源消耗量，生产出比原来数量更多或数量相等质量更好的产品，节能就是应用技术上现实可靠、经济上可行合理、环境和社会都可以接受的方法，有效地利用能源，提高用能设备或工艺的能量利用效率。

现有基于能耗预测的节能控制方案需要收集历史传感器数据、空调耗电量、空调设置数据构建初始训练数据集，并以传感器数据和空调设置为输入，空调耗电量和环境温度为输出构建预测控制模型。下发控制时预测模型基于当前环境采集的传感器数据对不同的空调设置进行耗电量预测，温度预测从而选择不超温度限制下的最小耗电下的空调设置，实现空调节能，但是现有技术中能耗预测方法对训练数据的要求较高，而实际场景中往往收集丰富的数据集存在比较大的瓶颈，一是全年的气温状态又是复杂多变的，阶段性的历史数据对未来的适应性较差；二是对于空调制冷设备的设定值往往不会太多干预，历史数据往往是有限的空调设置组合；三是一旦数据中心出现设备更换，能耗预测控制方案将难以适应新的物理环境，从而导致预测方法的失效。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种基于深度Q学习对决网络的风冷数据中心节能方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

一种基于深度Q学习对决网络的风冷数据中心节能方法，该方法包括以下步骤：

S1、获取采样数据中心与监控数据中心的环境状态；

S2、周期性查询采样数据中心与监控数据中心的环境状态，进行深度Q学习对决网络的训练并生成节能空调设置值的温度。

进一步的，所述获取采样数据中心与监控数据中心的环境状态还包括以下步骤：

S11、收集采样数据中心各个传感器的温度、室外环境温度、空调电度数、空调设置值，采样频率设定为一分钟，同时检测是否发生温度传感器和空调设备的增减；

S12、实时监控传感器温度状态并判断数据中心是否处于高温预警。

进一步的，所述收集采样数据中心各个传感器的温度、室外环境温度、空调电度数、空调设置值，采样频率设定为一分钟，同时检测是否发生温度传感器和空调设备的增减还包括以下步骤：

S111、若设备增减则重置深度Q学习对决网络，则根据新的物理环境进行控制流程的训练。

进一步的，所述实时监控传感器温度状态并判断数据中心是否处于高温预警还包括以下步骤：

S121、当数据中心处于高温预警时，将发送预警降温指令进行降温；

S122、降温降至预设最低温度后停止降温，转由深度Q学习对决网络进行温度控制。

进一步的，所述高温预警时定义如下：高温预警状态定义为连续三分钟传感器温度平均值大于预设的预警温度值。

进一步的，所述周期性查询采样数据中心与监控数据中心的环境状态，进行深度Q学习对决网络的训练并生成节能空调设置值的温度还包括以下步骤：

S21、以20分钟为周期获取各个传感器的温度tmp_i和室外环境温度tmp_o，定义采样数据中心状态S＝(tmp₁，…，tmp_n，tmp_o)；

S22、空调设置值的温度作为动作a；

S23、空调的额定功率与过去一个工作周期的平均工作功率以及监控得到的预警状态作为奖励计算的输入；

S24：将相邻的两个时刻数据中心温度状态s_t，s_t+1与t时刻下发空调设置的动作a_t和对应的功率计算得出的奖励r_t生成四元组(s_t，a_t，r_t，s_t+1)，作为一条样本数据存入经验回放池中；

S25：深度Q学习对决网络从经验回放池从抽取样本数据进行模型更新，并以ε贪心策略进行空调温度设置。

进一步的，所述空调的额定功率与过去一个工作周期的平均工作功率以及监控得到的预警状态作为奖励计算的输入计算公式如下：

其中，p_e为额定功率，p_avg为过去一个工作周期的平均工作功率，r无预警状态时奖励值为额度功率与平均工作功率的差，发生预警状态后奖励值会带上奖励的折扣项λ，默认为0.8。

进一步的，所述深度Q学习对决网络从经验回放池从抽取样本数据进行模型更新，并以ε贪心策略进行空调温度设置还包括以下步骤：

S251、深度Q学习对决网络计算经验回放池中各个样本的误差；

S252、根据样本误差评估样本的重要程度，依据优先经验回放，用以生成不同的概率分布并进行样本抽样作为深度Q学习对决网络更新的训练样本；

S253、ε贪心策略进行动作选择空调设置值的温度；

其中，ε贪心策略进行动作选择空调设置值的温度计算公式如下：

Q(s_t,a；w)是最优动作价值函数由深度Q学习对决网络进行拟合，A为动作空间为全部空调温度设定组合，同时a∈A。

进一步的，所述深度Q学习对决网络计算经验回放池中各个样本的误差还包括以下步骤：

S2511：计算动作网络，

；

S2512：计算目标网络，

S2513：计算动作网络在t时刻的回报估计，

S2514：计算动作网络根据当前温度状态做出的最优动作，

a_select＝argmax_aQ_act(s_t+1,a；w_act)；

S2515：计算动作网络在t+1时刻的回报估计，

S2516：计算t时刻的回报时序差分目标，

S2517：计算t时刻样本误差，

其中，动作网络Q_act与目标网络Q_target构成深度Q学习对决网络，且动作网络与目标网络有相同的网络结构，由最优状态函数V^*(s_t)和最优优势函数D^*(s_t)构成，

与

为动作网络中最优状态函数和最优优势函数的学习参数，

与

为动作网络中最优状态函数和最优优势函数的学习参数，a_select为动作网络根据当前温度状态做出的最优动作，σ_t为t时刻样本误差，γ为回报折扣，

为动作网络在t时刻的回报估计，

为动作网络在t+1时刻的回报估计，

为t时刻的回报时序差分目标，回报指的是对在运行周期内未来获得奖励之和。

进一步的，所述根据样本误差评估样本的重要程度，依据优先经验回放，用以生成不同的概率分布并进行样本抽样作为深度Q学习对决网络更新的训练样本还包括以下步骤：

S2521、计算样本抽样概率，并按此概率抽取M个样本；

S2522、计算每个样本的学习率η_i；

S2523：对于抽取出的M个样本根据样本误差更新M次网络参数：

w_target←w_act；

其中，w_act为动作网络的全部参数，w_target为目标网络的全部参数，η_j为第j个样本的学习率，δ_j为第j个样本的误差，st为t时刻的温度状态，at为t时刻的动作设置；

样本抽样概率计算公式如下：

式中α为优先级参数，N为经验回放池的样本总数，p_i为优先级参数，选用第i个样本的误差表示；

计算每个样本的学习率η_i计算公式如下：

式中η为学习率，N为经验回放池的样本总数，β为重要性采样超参数。

本发明的有益效果为：采用强化学习的方式进行控制器的自学习，通过设定奖励和反馈，探索和学习的机制让控制器能够自适应环境变化，在学习优化风冷机组的空调设置值的同时，又保障数据中心环境处于安全运行区间。在控制器的训练决策中应用优先经验回放使得控制器能够合理评估过往经验的重要性，从而在未来的学习中对于估计效果差的经验数据能够加强训练；应用对决网络对环境状态增加了新的评估项，增加了控制器对于环境变化的敏感性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于深度Q学习对决网络的风冷数据中心节能方法的流程图；

图2是根据本发明实施例的一种基于深度Q学习对决网络的风冷数据中心节能方法的原理图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了一种基于深度Q学习对决网络的风冷数据中心节能方法。

现结合附图和具体实施方式对本发明进一步说明，如图1-2所示，根据本发明实施例的基于深度Q学习对决网络的风冷数据中心节能方法，该方法包括以下步骤：

S1、采样与监控流程：获取采样数据中心与监控数据中心的环境状态；

S2、深度Q学习对决网络控制流程：周期性查询采样数据中心与监控数据中心的环境状态，进行深度Q学习对决网络的训练并生成节能空调设置值的温度。

在一个实施例中，所述获取采样数据中心与监控数据中心的环境状态还包括以下步骤：

在一个实施例中，所述收集采样数据中心各个传感器的温度、室外环境温度、空调电度数、空调设置值，采样频率设定为一分钟，同时检测是否发生温度传感器和空调设备的增减还包括以下步骤：

在一个实施例中，所述实时监控传感器温度状态并判断数据中心是否处于高温预警还包括以下步骤：

在一个实施例中，所述高温预警时定义如下：高温预警状态定义为连续三分钟传感器温度平均值大于预设的预警温度值。

在一个实施例中，所述周期性查询采样数据中心与监控数据中心的环境状态，进行深度Q学习对决网络的训练并生成节能空调设置值的温度还包括以下步骤：

S22、空调设置值的温度作为动作a；

在一个实施例中，所述空调的额定功率与过去一个工作周期的平均工作功率以及监控得到的预警状态作为奖励计算的输入计算公式如下：

在一个实施例中，所述深度Q学习对决网络从经验回放池从抽取样本数据进行模型更新，并以ε贪心策略进行空调温度设置还包括以下步骤：

S252、根据样本误差评估样本的重要程度，依据优先经验回放，用以生成不同的概率分布并进行样本抽样作为深度Q学习对决网络更新的训练样本，并以最小化时间差分误差为目标进行梯度下降实现深度Q学习对决网络更新；

S253、ε贪心策略进行动作选择空调设置值的温度；

在一个实施例中，所述深度Q学习对决网络计算经验回放池中各个样本的误差还包括以下步骤：

S2511：计算动作网络，

S2512：计算目标网络，

S2513：计算动作网络在t时刻的回报估计，

S2514：计算动作网络根据当前温度状态做出的最优动作，a_select＝argmax_aQ_act(s_t+1,a；w_act)；

S2515：计算动作网络在t+1时刻的回报估计，

S2516：计算t时刻的回报时序差分目标，

S2517：计算t时刻样本误差，

与

为动作网络中最优状态函数和最优优势函数的学习参数，

与

为动作网络在t时刻的回报估计，

为动作网络在t+1时刻的回报估计，

在一个实施例中，所述根据样本误差评估样本的重要程度，依据优先经验回放，用以生成不同的概率分布并进行样本抽样作为深度Q学习对决网络更新的训练样本还包括以下步骤：

S2521、计算样本抽样概率，并按此概率抽取M个样本；

S2522、计算每个样本的学习率η_i；

S2523：对于抽取出的M个样本根据样本误差更新M次网络参数：

w_target←w_act；

样本抽样概率计算公式如下：

计算每个样本的学习率η_i计算公式如下：

式中η为学习率，N为经验回放池的样本总数，β为重要性采样超参数；

此外，目标网络参数与动作网络往往不同步更新，常见的形式为动作网络在经历若干次更新后，目标网络在同步动作网络的参数。

为了方便理解本发明的上述技术方案，以下就本发明在实际过程中的工作原理或者操作方式进行详细说明。

综上所述，借助于本发明的上述技术方案，采用强化学习的方式进行控制器的自学习，通过设定奖励和反馈，探索和学习的机制让控制器能够自适应环境变化，在学习优化风冷机组的空调设置值的同时，又保障数据中心环境处于安全运行区间。在控制器的训练决策中应用优先经验回放使得控制器能够合理评估过往经验的重要性，从而在未来的学习中对于估计效果差的经验数据能够加强训练；应用对决网络对环境状态增加了新的评估项，增加了控制器对于环境变化的敏感性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。