CN114970358A

CN114970358A - 一种基于强化学习的数据中心能效优化方法和系统

Info

Publication number: CN114970358A
Application number: CN202210629008.9A
Authority: CN
Inventors: 蒋冰婷; 王啸; 薛宁; 唐明伟; 黄志清; 路剑锋
Original assignee: Shaanxi Zhengtong Cloud Computing Co ltd; Shenzhen Zhengtong Cloud Computing Co ltd; Shenzhen Zhengtong Electronics Co Ltd
Current assignee: Shaanxi Zhengtong Cloud Computing Co ltd; Shenzhen Zhengtong Cloud Computing Co ltd; Shenzhen Zhengtong Electronics Co Ltd
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-08-30

Abstract

本发明公开了一种基于强化学习的数据中心能效优化方法和系统，属于云计算技术领域。本发明的一种基于强化学习的数据中心能效优化方法和系统，所述数据中心能效优化系统由数据集成管控系统、IDC动环监控系统和DRL中心模型系统组成。为解决现有数据中心能耗优化方法中存在的能效优化低、成本高的问题，采用一种离线强化学习的方式,通过设计初始的控制策略,记录系统在运行初始策略下的数据，其中包括状态,行动,奖励,并使用标准强化学习/函数模拟组合来学习一个价值函数,用以估算某个状态下采取特定行动对应的累计期望奖励，来获得预测的PUE值。

Description

一种基于强化学习的数据中心能效优化方法和系统

技术领域

本发明涉及云计算技术领域，具体为一种基于强化学习的数据中心能效优化方法和系统。

背景技术

数据中心是计算机服务器大量存放的建筑场所，它的快速建设保证了信息技术的飞速发展，带来了大量的经济效益；伴随着其建设程度的加深，数据中心带来的能耗问题也愈发严重。数据中心内部的服务器和制冷系统耗电量巨大，由于缺乏科学有效的调控措施，造成了很多的能源浪费；本文针对一类大型的数据中心，分析其能耗构成，对其制冷系统进行能耗优化；

冷却能量优化是一项具有挑战性的任务，因为它涉及到复杂的冷却系统的控制，该系统由多个部件组成，如冷却塔、冷水机组、通风系统等。在直流冷却系统控制中，一种常见的做法是调整设定值，即不同控制变量的目标值。例如，通过将空调出口的温度控制变量设置为所需值，空调可以通过消耗一定的能量来调整其内部状态，使其满足设定值；这些设定值的最佳选择可能是具有挑战性的，因为这个过程依赖于从热动力学到力学的冷却系统知识。

现有数据中心能耗优化方法中存在的能效优化低、成本高的技术问题；因此，不满足现有的需求，对此我们提出了一种基于强化学习的数据中心能效优化方法和系统。

发明内容

本发明的目的在于提供一种基于强化学习的数据中心能效优化方法和系统，采用一种离线强化学习的方式,通过设计初始的控制策略,记录系统在运行初始策略下的数据，其中包括状态,行动,奖励,并使用标准强化学习/函数模拟组合来学习一个价值函数,用以估算某个状态下采取特定行动对应的累计期望奖励，来获得预测的PUE值，可以解决现有技术中的问题。

为实现上述目的，本发明提供如下技术方案：一种基于强化学习的数据中心能效优化系统，所述数据中心能效优化系统由数据集成管控系统、IDC动环监控系统和DRL中心模型系统组成；

数据集成管控系统通过对数据中心总体架构、设备组成与分布、IT设备部署等情况进行分析，进而分析数据中心能耗组成、占比情况，并对影响能耗的因素进行逐一梳理；

在得到数据中心设备能耗组成与环境条件后，对设备间、设备与环境间的关联和影响关系进行分析，随后将数据整合后发送至IDC动环监控系统；

IDC动环监控系统是通过能耗模型服务于数据中心能耗管理，建模完成后可以对数据中心能耗情况进行预测，并为能效优化提供基础支撑；

能耗数据采集主要完成温度、负载、IT设备、UPS、空调等环境信息与设备状态的实时数据采集，其中，能耗建模是以外部数据、历史数据、实时数据等为基础，结合深度学习的数学模型，从而构建准确的能耗模型；

DRL中心模型系统通过对能耗组成和关联情况的分析，并结合数据中心能耗数据采集和设备自动化控制等方面的因素，从数据中心总体、子系统、设备三个层级，综合选择适用于数据中心能耗建模、易于数据中心能耗优化的模型；

其中，能耗模型会根据数据中心实际情况和三个层级各自的特点，分别选择聚类、线性回归、深度学习等数据挖掘方法，模型和数据选择完成后，需要完成对模型的训练，在训练过程中，应当调整参数不断优化模型，并利用新生成的数据对模型的效果进行验证和改进。

优选的，所述数据集成管控系统包括总体架构单元、设备部署单元、功能特性单元、环境数据单元、配置数据单元和运行数据单元。

优选的，所述功能特性单元、环境数据单元、配置数据单元和运行数据单元分别与总体架构单元和设备部署单元之间交互，可以直接收集当前架构内部所有设备的数据情况。

优选的，所述IDC动环监控系统包括能耗监控模块、能耗预测模块和能耗调优模块。

优选的，所述能耗监控模块主要包括以下方面：IT设备运行与负载情况、数据中心硬件设备能耗数据和非IT类设备状态信息，数据中心能耗模型的建立依赖于数据中心监控数据的获取。

优选的，所述DRL中心模型系统包括总体模型、子系统模型、设备模型，其中还包括模型训练模块、参数调优模块和模型验证模块。

优选的，所述模型训练模块可以对总体模型、子系统模型和设备模型进行调试训练，其中，参数调优模块和模型验证模块可以在调试过程中针对模型的训练计划以及训练数据进行不断的验证和优化。

一种基于强化学习的数据中心能效优化方法，包括如下步骤：

步骤一：收集数据中心小机房的数据，其机房采用模块化UPS，列间空调，小机房两个冷通道，四十个机柜，小机房列间空调采用冷冻水作为冷源，用来预算制冷主机的功率；

步骤二：IDC动环监控系统是保障IDC数据机房的正常运转的系统工具，包括对机房的市电以及UPS和温湿度、漏水、气体、漏电的监控，根据IDC动环监控系统调取所需要的数据进行强化学习模型训练，运用机器学习、统计学以及模糊控制等技术和方法对数据进行处理、对各类相关设备进行系统化分析和决策，从而达到优化数据中心整体PUE的目的；

步骤三：将步骤一与步骤二采集到的数据中心测点数据作为输入,利用深度强化学习建立数据中心能耗优化模型，通过对当前运行数据的清洗、分析和挖掘，预测未来的控制动作，整个过程采用机器学习算法的模型进行训练，此模型可以用于对现场运营专家拟采取的控制动作效果进行评估,给出采取控制动作之后数据中心PUE预测值；

其中数据中心PUE是全球通用的数据中心核心关键指标，其值的计算由以下公式可得：

PUE＝数据中心总能耗/IT设备能耗；

步骤四：利用步骤三训练好的数据中心能耗优化模型,把数据中心各个测点变量值称为“特征”,为各个特征对数据中心PUE值的影响进行灵敏度分析,以便获知可调参数的设定如何影响数据中心PUE值的大小变化.最后,将理论研究结果与现场专家经验相结合,进行数据中心能耗优化模型落地实施并持续优化。

优选的，所述步骤三中数据中心能耗优化模型的建立具体包括以下子步骤：

(3-1)采用深度强化学习框架建立数据中心能耗优化模型，该优化模型包含深度强化学习代理和环境，环境为待优化数据中心能耗，在本发明建立的深度强化学习代理与待优化数据中心能耗间的交互过程中，完成对深度强化学习代理的训练，强化学习是一种机器学习的学习方式，是智能体在与环境交互的学习过程中，获取环境反馈的奖励信息，不断调整自身的策略以最终实现最佳决策；

强化学习训练过程中会定义状态集合、动作集合、奖励函数，在强化学习模型中，Agent通过观察环境变化做出行动或决策，环境在执行动作后，从一个状态到下一个状态，同时会给Agent反馈一个奖励，具体过程为：Agent感知当前的状态为，从可选择的动作空间中选择可执行的动作，采取行动之后环境发生变化，产生对应的奖励信息，同时环境转移到新的状态，每一次Agent根据动作得到的奖励来调整自身的策略，并对新状态采取新的最优决策；

根据状态参数和动作进行模型训练，具体模型训练的步骤具体包括：

S1：提取某一时刻的状态参数State，为St；

S2：将State状态参数输入Actor网络模型并输出控制动作值action；

S3：将action加入随机过程，并下发到控制设备；

S4：将State与action输入Critic网络模型，通过预测下一时刻的代价值Q；

S5：计算代价的预测与真实代价值的均方误差MSE；

S6：通过梯度下降最小化MSE更新Critic网络模型，然后最小化Q值更新Actor网络模型；

采用端到端的制冷控制算法，算法包含两个状态量：环境空气温度、信息技术设备负荷系数，5个动作：直接蒸发冷却出口温度、间接蒸发冷却出口温度、冷却水回路出口温度、直接膨胀式冷却盘管出口温度、冷却器冷却空气回路出口温度，一个奖励函数：基于PUE和各温度数据计算得到的目标函数值；

深度强化学习中的奖励用于评估深度强化学习算法的有效性，它反映了用户的总体目标，对于本发明而言，总体目标是在保证数据中心服务正常运作的同时将PUE值降到最低；

策略在在强化学习中也称之为决策函数，是Agent采取的动作集合，同时规定了每个可能的系统状态，在本发明中代表的是各个参数能够设定的值的范围，策略的好坏直接决定Agent会选择的行动和最终整体的性能，策略本身具有随机性的特征，描述状态-动作集合，每个状态S，Agent对应一个动作a，随机产生一种策略，瞬时奖赏函数是对某一个状态或某一个动作的即时评价，称之为值函数，每个转态对应的值函数是执行策略对应的动作，Agent得到的累计期望奖赏，用V表示；用以下公式计算：

其中，T时刻的奖励是r_t＝R(s_t,a_t)。任一策略θ，值函数是所有将来奖励值通过衰减率折扣系数γ(γ∈[0,1])。

训练过程中，Critic网络模型学习估计当前状态下采取动作获得的代价，使用MSE量化Q估计代价与奖励函数所计算的真实代价的误差，Critic模型使用梯度下降的方法最优化MSE误差，Actor模型根据跟新后的Q’估计使用梯度下降的方法最小化Q代价估计，从而不断优化策略，直到Actor模型收敛到最优策略，并且Critic模型收敛到最准确的Q估计。

(3-2)针对步骤一采集到的数据中心小机房历史数据与步骤二采集到机房的市电以及UPS和空气温湿度、功率负载、内部气压、漏水、气体、漏电等监控历史数据，统计计算待优化的数据中心能耗历史数据，得到数据中心的PUE值作为步骤(3-1)中数据中心能耗优化模型的深度强化学习代理的初始输入状态。

(3-3)在步骤(3-2)将数据中心的PUE值输入深度强化学习代理后，由深度强化学习代理计算得到动作，动作作为待优化数据中心各个测点的特征；将数据中心各个测点的特征作用于环境中，即，根据数据中心各个测点的特征调整待优化数据中心能耗，再计算当前调整下的数据中心的PUE值，更新深度强化学习代理；迭代执行步骤(3-3)，直到达到最大迭代次数，完成深度强化学习代理的训练。

优选的，所述步骤四中数据中心能耗优化模型落地实施具体包括以下子步骤：

(4-1)采集当下数据中心的工况信息,即所有特征的实时数值；根据物理意义与专家经验,确定所有特征的合理取值区间；

(4-2)针对步骤(4-1)得到的所有特征的合理取值区间，通过步骤(3)训练好的数据中心能耗优化模型，计算得到数据中心PUE值随着所有特征在取值范围内变化而变化的灵敏度分析曲线图；

(4-3)根据当下数据中心的工况和时间信息,通过步骤(4-2)得到的灵敏度分析曲线图,依照专家已有经验在一定取值范围内给出可调整特征的优化建议.专家经综合分析后,得到数据中心特征调节方案；

(4-4)针对步骤(4-3)得到的数据中心特征调节方案，评估该方案，如果此调节方案不会危害系统安全运行，则执行该方案，否则返回步骤(4-3)重新提出调节方案；

(4-5)在实行步骤(4-3)得到的数据中心特征调节方案后，判断数据中心PUE值是否得到优化，如果数据中心PUE值得到优化，算法结束，否则返回步骤(4-3)重新提出调节方案。

与现有技术相比，本发明的有益效果是：

1、本发明，主要聚焦强化学习在能耗优化方面的研究。云数据中心的能效问题可视为在某个状态下的采取特定行动以达到最优,采用强化学习方法的能效优化研究,应用于服务器的自主分配,采用一种离线强化学习的方式,通过设计初始的控制策略,记录系统在运行初始策略下的数据，其中包括状态,行动,奖励,并使用标准强化学习/函数模拟组合来学习一个价值函数,用以估算某个状态下采取特定行动对应的累计期望奖励，来获得预测的PUE值；

2、本发明，数据中心能效优化系统由数据集成管控系统、IDC动环监控系统和DRL中心模型系统组成，各个机构开始尝试利用深度学习建立模型，并制定数据中心资源调度优化规则，通过深度学习训练CNN、RNN等神经网络，实现构建数据中心能耗模型，形成资源调度策略的目标，应用深度学习后，制冷能耗减少45％，PUE降低约17.5％，利用深度学习能够通过处理大量的数据，建立更加复杂的模型；

3、本发明，集中化的设备管控为数据中心能耗的降低提供基础，同时模型需要根据每个数据中心的不同特点，建立设备间的相互影响关系，以及不同环境下设备的实时调控方式。

附图说明

图1为本发明的数据中心能效优化系统架构图；

图2为本发明的数据集成管控系架构图；

图3为本发明的DC动环监控系统架构图；

图4为本发明的DRL中心模型系统架构图；

图5为本发明的数据分析流程图；

图6为本发明的深度学习流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-4，本发明提供的一种实施例：一种基于强化学习的数据中心能效优化系统，数据中心能效优化系统由数据集成管控系统、IDC动环监控系统和DRL中心模型系统组成，各个机构开始尝试利用深度学习建立模型，并制定数据中心资源调度优化规则，通过深度学习训练CNN、RNN等神经网络，实现构建数据中心能耗模型，形成资源调度策略的目标，应用深度学习后制，冷能耗减少45％，PUE降低约17.5％，利用深度学习能够通过处理大量的数据，建立更加复杂的模型；

数据集成管控系统包括总体架构单元、设备部署单元、功能特性单元、环境数据单元、配置数据单元和运行数据单元，功能特性单元、环境数据单元、配置数据单元和运行数据单元分别与总体架构单元和设备部署单元之间交互，可以直接收集当前架构内部所有设备的数据情况，IDC动环监控系统包括能耗监控模块、能耗预测模块和能耗调优模块，能耗监控模块主要包括以下方面：IT设备运行与负载情况、数据中心硬件设备能耗数据和非IT类设备状态信息，数据中心能耗模型的建立依赖于数据中心监控数据的获取，DRL中心模型系统包括总体模型、子系统模型、设备模型，其中还包括模型训练模块、参数调优模块和模型验证模块，模型训练模块可以对总体模型、子系统模型和设备模型进行调试训练，其中，参数调优模块和模型验证模块可以在调试过程中针对模型的训练计划以及训练数据进行不断的验证和优化，集中化的设备管控为数据中心能耗的降低提供基础，同时模型需要根据每个数据中心的不同特点，建立设备间的相互影响关系，以及不同环境下设备的实时调控方式。

请参阅图5-6，一种基于强化学习的数据中心能效优化方法，包括如下步骤：

PUE＝数据中心总能耗/IT设备能耗；

步骤三中数据中心能耗优化模型的建立具体包括以下子步骤：

S1：提取某一时刻的状态参数State，为St；

S3：将action加入随机过程，并下发到控制设备；

S5：计算代价的预测与真实代价值的均方误差MSE；

步骤四中数据中心能耗优化模型落地实施具体包括以下子步骤：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于强化学习的数据中心能效优化系统，其特征在于，所述数据中心能效优化系统由数据集成管控系统、IDC动环监控系统和DRL中心模型系统组成；

数据集成管控系统通过对数据中心总体架构、设备组成与分布、IT设备部署进行分析，分析数据中心能耗组成、占比情况，并对影响能耗的因素进行逐一梳理；

IDC动环监控系统是通过能耗模型服务于数据中心能耗管理，建模完成后对数据中心能耗情况进行预测；

能耗数据采集完成温度、负载、IT设备、UPS、空调环境信息与设备状态的实时数据采集；

DRL中心模型系统通过对能耗组成和关联情况的分析，并结合数据中心能耗数据采集和设备自动化控制方面的因素，从数据中心总体、子系统、设备三个层级，综合选择适用于数据中心能耗建模、易于数据中心能耗优化的模型；

其中，能耗模型会根据数据中心实际情况和三个层级各自的特点，分别选择聚类、线性回归、深度学习挖掘方法，模型和数据选择完成后，对模型的训练。

2.根据权利要求1所述的一种基于强化学习的数据中心能效优化系统，其特征在于：所述数据集成管控系统包括总体架构单元、设备部署单元、功能特性单元、环境数据单元、配置数据单元和运行数据单元。

3.根据权利要求2所述的一种基于强化学习的数据中心能效优化系统，其特征在于：所述功能特性单元、环境数据单元、配置数据单元和运行数据单元分别与总体架构单元和设备部署单元之间交互，收集当前架构内部所有设备的数据情况。

4.根据权利要求1所述的一种基于强化学习的数据中心能效优化系统，其特征在于：所述IDC动环监控系统包括能耗监控模块、能耗预测模块和能耗调优模块。

5.根据权利要求4所述的一种基于强化学习的数据中心能效优化系统，其特征在于：所述能耗监控模块包括以下方面：IT设备运行与负载情况、数据中心硬件设备能耗数据和非IT类设备状态信息，数据中心能耗模型的建立依赖于数据中心监控数据的获取。

6.根据权利要求1所述的一种基于强化学习的数据中心能效优化系统，其特征在于：所述DRL中心模型系统包括总体模型、子系统模型、设备模型，其中还包括模型训练模块、参数调优模块和模型验证模块。

7.根据权利要求6所述的一种基于强化学习的数据中心能效优化系统，其特征在于：所述模型训练模块对总体模型、子系统模型和设备模型进行调试训练，其中，参数调优模块和模型验证模块在调试过程中针对模型的训练计划以及训练数据进行不断的验证和优化。

8.一种基于强化学习的数据中心能效优化方法，基于权利要求1-7任意一项基于强化学习的数据中心能效优化系统实现，其中，包括如下步骤：

步骤二：IDC动环监控系统包括对机房的市电以及UPS和温湿度、漏水、气体、漏电的监控，根据IDC动环监控系统调取所需要的数据进行强化学习模型训练，运用机器学习、统计学以及模糊控制和方法对数据进行处理、对各类相关设备进行系统化分析和决策；

步骤三：将步骤一与步骤二采集到的数据中心测点数据作为输入,利用深度强化学习建立数据中心能耗优化模型，通过对当前运行数据的清洗、分析和挖掘，预测未来的控制动作，采用机器学习算法的模型进行训练，此模型用于对现场运营专家拟采取的控制动作效果进行评估,给出采取控制动作之后数据中心PUE预测值；

PUE＝数据中心总能耗/IT设备能耗；

9.据权利要求8所述的一种基于强化学习的数据中心能效优化方法，其特征在于：所述步骤三中数据中心能耗优化模型的建立具体包括以下子步骤：

(3-1)采用深度强化学习框架建立数据中心能耗优化模型，该优化模型包含深度强化学习代理和环境，环境为待优化数据中心能耗；

S1：提取某一时刻的状态参数State，为St；

S3：将action加入随机过程，并下发到控制设备；

S5：计算代价的预测与真实代价值的均方误差MSE；

Agent得到的累计期望奖赏，用V表示；用以下公式计算：

其中，T时刻的奖励是r_t＝R(s_t,a_t),任一策略θ，值函数是所有将来奖励值通过衰减率折扣系数γ(γ∈[0,1])；

训练过程中，Critic网络模型学习估计当前状态下采取动作获得的代价，使用MSE量化Q估计代价与奖励函数所计算的真实代价的误差，Critic模型使用梯度下降的方法最优化MSE误差，Actor模型根据跟新后的Q’估计使用梯度下降的方法最小化Q代价估计。

(3-2)针对步骤一采集到的数据中心小机房历史数据与步骤二采集到机房的市电以及UPS和空气温湿度、功率负载、内部气压、漏水、气体、漏电数据，统计计算待优化的数据中心能耗历史数据，得到数据中心的PUE值作为步骤(3-1)中数据中心能耗优化模型的深度强化学习代理的初始输入状态。

(3-3)在步骤(3-2)将数据中心的PUE值输入深度强化学习代理后，由深度强化学习代理计算得到动作，动作作为待优化数据中心各个测点的特征；将数据中心各个测点的特征作用于环境中，根据数据中心各个测点的特征调整待优化数据中心能耗，再计算当前调整下的数据中心的PUE值，更新深度强化学习代理；迭代执行步骤(3-3)，直到达到最大迭代次数，完成深度强化学习代理的训练。

10.根据权利要求9所述的一种基于强化学习的数据中心能效优化方法，其特征在于：所述步骤四中数据中心能耗优化模型落地实施具体包括以下子步骤：

(4-1)采集当下数据中心的工况信息,根据物理意义与专家经验,确定所有特征的合理取值区间；

(4-2)针对步骤(4-1)得到的所有特征的合理取值区间，通过训练好的数据中心能耗优化模型，计算得到数据中心PUE值随着所有特征在取值范围内变化而变化的灵敏度分析曲线图；

(4-3)根据当下数据中心的工况和时间信息,通过步骤(4-2)得到的灵敏度分析曲线图,在一定取值范围内给出可调整特征的优化建议,专家经综合分析后,得到数据中心特征调节方案；