CN116795198A

CN116795198A - 数据中心的能耗优化方法、装置及存储介质

Info

Publication number: CN116795198A
Application number: CN202310820570.4A
Authority: CN
Inventors: 刘军; 闫龙川; 彭元龙; 马睿; 何永远; 郭永和; 牛佳宁; 曹津平; 张朝霞
Original assignee: State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-09-22

Abstract

本申请公开了一种数据中心的能耗优化方法、装置及存储介质，涉及电力运维技术领域，用于优化数据中心的制冷系统的参数，以降低数据中心的能耗。该方法包括：获取数据中心的第一状态信息，该第一状态信息用于表征数据中心当前的状态，状态包括以下至少一项：IT设备负载状态、制冷系统状态、外界环境状态；通过深度强化模型，根据第一状态信息，从数据中心对应的动作空间中选择目标动作，该动作空间中包括多个动作，该动作用于配置数据中心的制冷设备的参数，该深度强化模型是基于动作空间训练得到的。

Description

数据中心的能耗优化方法、装置及存储介质

技术领域

本申请涉及电力运维领域，尤其涉及一种数据中心的能耗优化方法、装置及存储介质。

背景技术

随着互联网和计算机的快速发展，云计算战略的不断推进，用于承载云计算任务的各类数据中心也日益增多，密集的服务和计算资源集中于数据中心。当前数据中心建设和运行过程中面临的一个主要挑战是数据中心能耗的急剧增长。而数据中心能耗与碳排放有着线性对应关系，要达到数据中心低碳运行的目的，就要减少数据中心的能耗和功率。

数据中心能耗主要来源于互联网技术(Internet Technology，IT)设备、制冷系统、照明系统、供配电系统等。其中，制冷系统能耗与设备能耗占整个数据中心能耗的绝大部分比例。对数据中心基础设施进行有效的能耗数据采集、分析和监控管理，将会很大程度上降低能耗，提高数据中心能源的有效使用率。

目前，一种方法是由数据中心的管理人员，根据数据中心管理经验，手动配置制冷系统参数，以达到优化运行状况、降低数据中心能耗的目的；但是手动配置方式对数据中心管理或运维人员的经验和知识技能要求很高，且响应不及时，能耗优化效果较差。另一种方法是数据中心管理系统支持对制冷系统参数的自动调节，依赖于简单、固定的规则逻辑，例如温度低于10度时关闭一个冷机，来达到优化运行状况、降低数据中心能耗的目的；但是简单、固定的规则逻辑无法根据数据中心实际运行数据进行修正和优化，能耗优化达不到预期效果。

如此，现有方法存在对数据中心能耗的优化效果较差的问题。

发明内容

本申请提供一种数据中心的能耗优化方法、装置及存储介质，用于优化数据中心能耗，使得数据中心低碳运行的目的。

为达到上述目的，本申请采用如下技术方案：

第一方面，提供了一种数据中心的能耗优化方法，应用于数据中心的管理设备，该方法包括：获取数据中心的第一状态信息，该第一状态信息用于表征数据中心当前的状态，状态包括以下至少一项：IT设备负载状态、制冷系统状态、外界环境状态；通过深度强化模型，根据第一状态信息，从数据中心对应的动作空间中选择目标动作，该动作空间中包括多个动作，该动作用于配置数据中心的制冷设备的参数，该深度强化模型是基于动作空间训练得到的。

基于上述数据中心的能耗优化方法，数据中心的能耗优化装置可以获取数据中心当前的状态信息，即IT设备负载、制冷系统状态和外界环境状况中的至少一个，并通过深度强化模型，根据该状态信息，从数据中心对应的动作空间中选择目标动作，以配置数据中心的制冷设备的参数，深度强化模型是基于动作空间训练得到的。因此，数据中心的能耗优化装置可以结合数据中心当前的状态，由强化学习算法从动作空间中选择合适的动作，即通过强化学习技术，对数据中心的制冷设备的参数进行动态设置，使得制冷设备在满足IT设备散热与制冷需求的情况下，运行在最优状态下，从而达到优化数据中心能耗，使数据中心低碳运行的目的。

一种可能的实现方式中，上述IT设备负载状态的数据项包括以下至少一项：服务器的CPU利用率、服务器的功率、服务器的风扇转速。

上述制冷系统状态的数据项包括以下至少一项：总的冷冻泵数量、总的冷却泵数量、运行的冷冻泵总数量、运行的冷却泵数量、总的冷却塔数量、运行的冷却塔数、冷塔风机转速、总的冷机数量、运行的冷机数量、冷却水出水温度、冷却水回水温度、冷冻水出水温度、冷冻水回水温度、冷冻泵流量、冷却泵流量、冷塔功率、冷机功率、冷冻泵功率、冷却泵功率、末端空调送风温度、末端空调回风温度。

上述外界环境状态的数据项包括以下至少一项：室外湿球温度、室外干球温度、室外相对湿度、室外风速、室外风向。

一种可能的实现方式中，上述动作空间的动作项包括以下至少一项：运行的冷冻泵数量、运行的冷却泵数量、运行的冷却塔数、冷塔风机转速、运行的冷机数量、冷却水出水温度、冷却水回水温度、冷冻水出水温度、冷冻水回水温度、冷冻泵流量、冷却泵流量、末端空调送风温度。

一种可能的实现方式中，上述获取所述数据中心的第一状态信息之前，方法还包括：

初始化深度强化学习网络的参数，所述深度强化学习网络包括一个输入层、三个隐藏层和一个输出层，所述参数包括状态和动作；

将目标样本输入到所述深度强化学习网络中，以输出第i轮过程中目标动作值，所述目标样本包括与所述数据中心的能耗相关的数据集，所述数据集包括所述数据中心对应的状态和动作空间，i＝1,2,…,N，N为强化学习开始到结束总共的搜索轮次，N为正整数；

基于所述目标动作值，确定所述第i轮过程中的奖励，并在N轮过程后得到目标累积奖励；

采用梯度上升算法，根据所述目标累积奖励，迭代更新所述深度强化学习网络的参数，直至达到最大化动作的期望累计奖励，得到所述深度强化模型。

一种可能的实现方式中，上述将目标样本输入到所述深度强化学习网络中，以输出第i轮过程中目标动作值，包括：根据所述第i轮过程的第一状态，从所述第一状态对应的动作空间中选择目标动作，以输出所述第i轮过程中的目标动作值。

第二方面，提供了一种数据中心的能耗优化装置，该数据中心的能耗优化装置应用于数据中心的管理设备，还可以为数据中心的管理设备中用于实现第一方面或第一方面的任一可能的设计所述的方法的功能模块。该数据中心的能耗优化装置可以实现上述各方面或者各可能的设计中数据中心的管理设备所执行的功能，所述功能可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个上述功能相应的模块。如：该数据中心的能耗优化装置包括获取单元和选择单元。

获取单元，用于获取数据中心的第一状态信息，该第一状态信息用于表征数据中心当前的状态，状态包括以下至少一项：IT设备负载状态、制冷系统状态、外界环境状态。

选择单元，用于通过深度强化模型，根据获取单元获取的第一状态信息，从数据中心对应的动作空间中选择目标动作，该动作空间中包括多个动作，该动作用于配置数据中心的制冷设备的参数，该深度强化模型是基于动作空间训练得到的。

其中，该数据中心的能耗优化装置的具体实现方式可以参考第一方面或第一方面的任一可能的设计提供的数据中心的能耗优化方法中数据中心的管理设备的行为功能，在此不再重复赘述。因此，该提供的数据中心的能耗优化装置可以达到与第一方面或者第一方面的任一可能的设计相同的有益效果。

一种可能的实现方式中，上述IT设备负载状态的数据项包括以下至少一项：服务器的CPU利用率、服务器的功率、服务器的风扇转速；

上述制冷系统状态的数据项包括以下至少一项：总的冷冻泵数量、总的冷却泵数量、运行的冷冻泵总数量、运行的冷却泵数量、总的冷却塔数量、运行的冷却塔数、冷塔风机转速、总的冷机数量、运行的冷机数量、冷却水出水温度、冷却水回水温度、冷冻水出水温度、冷冻水回水温度、冷冻泵流量、冷却泵流量、冷塔功率、冷机功率、冷冻泵功率、冷却泵功率、末端空调送风温度、末端空调回风温度；

一种可能的实现方式中，上述数据中心的能耗优化装置还包括：

初始化单元，用于在获取单元获取数据中心的第一状态信息之前，初始化深度强化学习网络的参数，深度强化学习网络包括一个输入层、三个隐藏层和一个输出层，参数包括状态和动作；

处理单元，用于将目标样本输入到深度强化学习网络中，以输出第i轮过程中目标动作值，目标样本包括与数据中心的能耗相关的数据集，数据集包括数据中心对应的状态和动作空间，i＝1,2,…,N，N为强化学习开始到结束总共的搜索轮次，N为正整数；

确定单元，用于基于处理单元得到的目标动作值，确定第i轮过程中的奖励，并在N轮过程后得到目标累积奖励；

更新单元，用于采用梯度上升算法，根据确定单元得到的目标累积奖励，迭代更新深度强化学习网络的参数，直至达到最大化动作的期望累计奖励，得到深度强化模型。

一种可能的实现方式中，上述处理单元，具体用于根据第i轮过程的第一状态，从第一状态对应的动作空间中选择目标动作，以输出第i轮过程中的目标动作值。

第三方面，提供了一种数据中心的能耗优化装置，该数据中心的能耗优化装置可以为数据中心的管理设备或者数据中心的管理设备中的芯片或者片上系统。该数据中心的能耗优化装置可以实现上述各方面或者各可能的设计中数据中心的管理设备所执行的功能，所述功能可以通过硬件实现，如：一种可能的设计中，该数据中心的能耗优化装置可以包括：处理器和通信接口，处理器可以用于支持数据中心的能耗优化装置实现上述第一方面或者第一方面的任一种可能的设计中所涉及的功能，例如：处理器获取数据中心的第一状态信息，该第一状态信息用于表征数据中心当前的状态，状态包括以下至少一项：IT设备负载状态、制冷系统状态、外界环境状态；通过深度强化模型，根据第一状态信息，从数据中心对应的动作空间中选择目标动作。

在又一种可能的设计中，数据中心的能耗优化装置还可以包括存储器，存储器用于保存数据中心的能耗优化装置必要的计算机执行指令和数据。当该数据中心的能耗优化装置运行时，该处理器执行该存储器存储的该计算机执行指令，以使该数据中心的能耗优化装置执行上述第一方面或者第一方面的任一种可能的设计所述的数据中心的能耗优化方法。

第四方面，提供了一种数据中心的能耗优化装置，该数据中心的能耗优化装置可以为数据中心的能耗优化装置或者数据中心的能耗优化装置中的芯片或者片上系统。该数据中心的能耗优化装置可以实现上述各方面或者各可能的设计中数据中心的能耗优化装置所执行的功能，所述功能可以通过硬件实现，如：一种可能的设计中，该数据中心的能耗优化装置可以包括：处理器和通信接口，处理器可以用于支持数据中心的能耗优化装置实现上述第一方面或者第一方面的任一种可能的设计中所涉及的功能，例如：处理器获取数据中心的第一状态信息，该第一状态信息用于表征数据中心当前的状态，状态包括以下至少一项：IT设备负载状态、制冷系统状态、外界环境状态；通过深度强化模型，根据第一状态信息，从数据中心对应的动作空间中选择目标动作。

第五方面，提供了一种计算机可读存储介质，该计算机可读存储介质可以为可读的非易失性存储介质，该计算机可读存储介质存储有计算机指令或者程序，当其在计算机上运行时，使得计算机可以执行上述第一方面或者上述方面的任一种可能的设计所述的数据中心的能耗优化方法。

第六方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机可以执行上述第一方面或者上述方面的任一种可能的设计所述的数据中心的能耗优化方法。

第七方面，提供了一种数据中心的能耗优化装置，该数据中心的能耗优化装置可以为数据中心的能耗优化装置或者数据中心的能耗优化装置中的芯片或者片上系统，该数据中心的能耗优化装置包括一个或者多个处理器以及和一个或多个存储器。所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得所述数据中心的能耗优化装置执行如上述第一方面或者第一方面的任一可能的设计所述的数据中心的能耗优化方法。

第八方面，提供了一种芯片系统，该芯片系统包括处理器以及通信接口，该芯片系统可以用于实现上述第一方面或第一方面的任一可能的设计中数据中心的能耗优化装置所执行的功能，例如处理器用于获取数据中心的第一状态信息，该第一状态信息用于表征数据中心当前的状态，状态包括以下至少一项：IT设备负载状态、制冷系统状态、外界环境状态；通过深度强化模型，根据第一状态信息，从数据中心对应的动作空间中选择目标动作。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器，用于保存程序指令和/或数据。该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件，不予限制。

其中，第二方面至第八方面中任一种设计方式所带来的技术效果可参见上述第一方面所带来的技术效果，不再赘述。

附图说明

图1为本申请实施例提供的一种数据中心的能耗优化方法的流程示意图；

图2为本申请实施例提供的一种强化学习的处理流程的示意图；

图3为本申请实施例提供的一种深度强化学习的框架示意图；

图4为本申请实施例提供的一种数据中心能耗优化方法的整体架构示意图；

图5为本申请实施例提供的另一种数据中心的能耗优化方法的流程示意图；

图6为本申请实施例提供的一种神经网络模型的结构示意图；

图7为本申请实施例提供的又一种数据中心的能耗优化方法的流程示意图；

图8为本申请实施例提供的一种数据中心的PUE预测装置的结构示意图；

图9为本申请实施例提供的另一种数据中心的PUE预测装置的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请实施例的一些方面相一致的装置和方法的例子。

还应当理解的是，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。

本申请实施例可以应用于优化数据中心的能耗的场景，具体的，优化数据中心的制冷系统的参数，以降低数据中心的能耗。

随着互联网和计算机的快速发展，云计算国家战略的不断推进，用于承载云计算任务的各类数据中心也日益增多，密集的服务和计算资源集中于数据中心。当前我国数据中心建设和运行过程中面临的一个主要挑战是数据中心能耗的急剧增长。相比国际上先进的数据中心，我国的数据中心普遍能耗巨大，并且资源利用率极低，给能耗的高效管理带来更大的挑战。

数据中心能耗主要来源于IT设备、空调制冷系统、照明系统、供配电系统等。不同负载所消耗的数据中心能源不同，这就导致能源的分配出现不平衡，数据中心的能源消耗并不全部作用于有用功之处，大量的能源消耗无法追踪，投入产出比达不到预期效果。大部分的能源消耗来于IT设备与空调制冷系统，对数据中心IT基础设施进行有效的能耗数据采集、分析和监控管理，将会很大程度上降低能耗，提高数据中心能源的有效使用率。

碳排放与能耗有着直接的关系，由于我国电力大多是使用煤炭产生的火力发电，在发电过程中产生了大量的二氧化碳排放，因此，可以认为数据中心能耗与碳排放有着线性对应关系。要达到数据中心低碳运行的目的，就要减少数据中心的能耗和功率。

数据中心是多个机械、电气和控制系统的复杂交互，在数据中心中，可以调节的配置多，并且配置之间具有非线性的互相依赖关系。多个系统以及系统间的互相作用，使得传统的工程公式或固定规则难于对数据中心的能耗进行有效的管理。

很多研究从各个角度提出了降低数据中心能耗，提高资源利用率的方法,如系统能效优化，数据中心设计与选址,电气系统优化，气流管理以及制冷系统能效优化等。

在数据中心这一层级上，最大的难题是如何平衡整个系统的能耗与性能。由于制冷系统能耗与设备能耗占整个数据中心能耗的绝大部分比例，因此很多节能方案是围绕这两点展开的。虚拟化技术是提高IT服务器工作效率,实现数据中心节能的重要策略，主要包括计算虚拟化，存储虚拟化以及网络虚拟化等技术，以虚拟化技术为基础，有多种资源整合调度的策略以及动态迁移技术可用来降低整体能耗.制冷系统的优化则包括很多方面，诸如优化气流管理，提高机房温度，采用自然冷却技术以及对空调系统进行节能改造升级等等，都是业界普遍应用的方法。

近年来，随着机器学习算法的蓬勃发展，工业界已经有利用机器学习来优化数据中心运营，提高能源利用效率的尝试。例如某公司利用神经网络(Neural Network，NN)建立了电源使用效率(Power Usage Effectiveness，PUE)预测模型，取得0.4％的预测精度，并对输入变量进行灵敏度分析，最终使PUE实现了大约0.5％～2％的降幅。在使用神经网络算法之前，已经利用各种方法将其数据中心的PUE值降低到1.2左右，而制冷与电气系统之间相互耦合的复杂关系给进一步优化带来了瓶颈。由于机器学习算法可以在模型交互特征未知的情况下，对复杂系统进行预测建模，因此利用其数据中心采集到的大量测点数据，以神经网络为基础，建立了能够理解运行参数和整体能源效率之间关系的数学模型，并对参数设定的变化对PUE的影响进行灵敏度评估、优化参数设置方案。

然而，数据中心能耗和功率受到多种因素的影响，例如外界环境(数据中心所处的地理位置、温度、湿度、风力等)、服务器数量、服务器上运行的IT负载、制冷站的结构、配置等。这些因素互相关联、互相影响。目前比较普遍的做法是根据经验，由数据中心的管理人员进行手动配置，达到优化运行状况、降低数据中心能耗的目的。部分数据中心管理系统支持对制冷站参数的自动调节，但大多依赖于简单、固定的规则逻辑，如温度低于10度时关闭一个冷机，无法对数据中心的运行数据做出准确的反馈，效果也不是很好。

因此，现有技术的缺点为：手工方式对数据中心管理或运维人员的经验和知识技能要求很高，且响应不及时，能耗优化效果差；固定的规则逻辑无法根据数据中心实际运行数据进行修正和优化，具有很大的提升潜力。

鉴于此，本申请实施例提供了一种数据中心能耗的优化方法，用于在运行过程中优化制冷系统的参数设置，降低制冷系统的运行功率，以降低数据中心的能耗，从而达到低碳运行的目的。该方法包括：数据中心的管理设备可以获取数据中心当前的状态信息，即IT设备负载、制冷系统状态和外界环境状况中的至少一个，并通过深度强化模型，根据该状态信息，从数据中心对应的动作空间中选择目标动作，以配置数据中心的制冷设备的参数，深度强化模型是基于动作空间训练得到的。

基于上述方案，数据中心的管理设备可以根据数据中心当前的状态，由强化学习算法从动作空间中进行动作选择，即通过强化学习技术，对数据中心的制冷设备的参数进行动态设置，使得制冷设备在满足IT设备散热与制冷需求的情况下，运行在最优状态下，从而达到优化数据中心能耗，使数据中心低碳运行的目的。

需要说明的是，本申请实施例所述的制冷设备也可以指制冷系统，数据中心的管理设备也可以指数据中心的管理系统。本申请实施例所述的深度强化模型也可以称为深度强化算法，或者，深度强化算法网络，或者强化学习算法，或者深度学习算法等。本申请实施例所述的算法、模型、网络所表述的含义相同，可以互换使用。

下面结合说明书附图对本申请实施例提供的方法进行详细说明。

需要说明的是，本申请实施例提供的数据中心的能耗优化方法，执行主体可以是数据中心的能耗优化装置，也可以是数据中心的管理设备，以下将以数据中心的能耗优化装置为例，对本申请实施例提供的技术方案进行说明。

本申请实施例提供了一种数据中心的能耗优化方法。如图1所示，该方法可以包括下述的S101和S102：

S101、数据中心的能耗优化装置获取数据中心的第一状态信息。

本申请实施例中，上述第一状态信息用于表征数据中心当前的状态，该状态包括以下至少一项：IT设备负载状态、制冷系统状态、外界环境状态。

一种示例中，可以采用三元组S＝<I,C,E>表示状态。其中，S表示数据中心的状态，I表示IT负载状态，C表示制冷系统状态，E表示外界环境状态。

一种可能的实现方式中，上述IT设备负载状态的数据项包括以下至少一项：服务器的中央处理器(Central Processing Unit，CPU)利用率、服务器的功率、服务器的风扇转速。

一种示例中，上述IT负载状态I＝<i1,i2,i3>。

一种可能的实现方式中，上述制冷系统状态的数据项包括以下至少一项：总的冷冻泵数量、总的冷却泵数量、运行的冷冻泵总数量、运行的冷却泵数量、总的冷却塔数量、运行的冷却塔数、冷塔风机转速、总的冷机数量、运行的冷机数量、冷却水出水温度、冷却水回水温度、冷冻水出水温度、冷冻水回水温度、冷冻泵流量、冷却泵流量、冷塔功率、冷机功率、冷冻泵功率、冷却泵功率、末端空调送风温度、末端空调回风温度。

一种示例中，上述制冷设备状态C＝<c1,c2,…,c21>。

一种可能的实现方式中，上述外界环境状态的数据项包括以下至少一项：室外湿球温度、室外干球温度、室外相对湿度、室外风速、室外风向。

一种示例中，上述外界环境状态E＝<e1,e2,…,e5>。

S102、数据中心的能耗优化装置通过深度强化模型，根据第一状态信息，从数据中心对应的动作空间中选择目标动作。

本申请实施例中，上述动作空间中包括多个动作，该动作用于配置数据中心的制冷设备的参数。上述深度强化模型是基于动作空间训练得到的。

需要说明的是，本申请实施例所述的动作表示深度强化模型做出的对制冷设备配置的修改决策，可以采用一个向量表示当前的动作空间：A＝<a1,a2,…,a12>。将动作空间用向量进行表示的原因在于：第一，该向量能确定制冷设备的每个参数设置情况。第二，一般而言，动作项的数量都是比较小的，这样能保证动作空间有限，有利于强化学习的训练。

可以理解，此处的动作空间可以采用上述的向量A＝<a1,a2,…,a12>表示，即此处的12个动作项分别采用a1,a2,…,a12表示。

一种示例中，数据中心的机房能耗分配情况如下：IT设备及网络通信设备占比30％，空调的制冷系统占比45％，变压器/电源供电系统占比24％，照明设施占比1％。可以理解，制冷系统的能耗占比最大，可以通过配置数据中心的制冷设备的参数，以优化数据中心的能耗。

需要说明的是，强化学习(Reinforcement Learning，RL)模型是一种学习方法，它能够在给定状态下制定最优策略，即选择目标动作，以配置数据中心的制冷设备的参数。

通常，强化学习模型可以被视为马尔可夫决策模型，其在给定环境下不断提交动作以获得更好的结果。如图2所示，强化学习的处理流程包括：在强化学习模型中，代理(agent)会根据环境状态提交动作，获得奖励。代理的主要目标是选择最佳策略以选择最大化奖励函数值和/或最小化风险的最佳操作。在t时刻，状态为St，Agent根据状态采取动作At，使得状态从St转换为St+1，同时环境反馈奖励Rt给Agent，用于评估动作At的收益。

强化学习通过探索和接收来自环境的反馈来反映人类的学习，能在很多非监督学习的问题上取得很好的效果。然而在现实生活中，很多实际问题的输入是高维的，例如游戏、自动驾驶等。这给强化学习带来的挑战是，很难从高维的输入中找出相应的特征，以表示强化学习中的状态。针对这个问题，深度强化学习出现了。深度强化学习将深度学习的感知能力和强化学习的决策能力相结合，弥补了这个缺陷。利用深度学习，可以用神经网络从高维的输入中学习相应的特征。

一种示例中，深度强化学习的框架如图3所示，深度学习从环境中获取目标的观测信息，输出的高维数据，然后深度学习通过神经网络的训练，学习这些信息之间的关系，从而表示出当前的状态。强化学习在收到深度学习提供的状态后，会根据当前的状态采取相应的动作。动作确定之后，强化学习会产生对应的奖励或者处罚。最后强化学习将奖励或者处罚的结果传递给深度学习的神经网络，进行模型的训练。

一种示例中，如图4所示，示出了根据深度学习原理和数据中心能耗优化问题的具体特征，设计的优化方法的整体架构图。影响数据中心能耗的有IT负载、制冷设备的参数设置和外界环境等几大因素，被抽象为环境；状态是指环境中可观测并对智能体做出决策有所帮助的参数值，主要包括制冷设备的各种参数；IT负载由用户的应用决定，外界环境主要包括所在地域、室外温度湿度等因素，因此，IT负载和外界环境均被视为不可调节的；而制冷设备则具有若干可调节的参数设置，动作集合对这些参数设置进行调节。

需要说明的是，上述智能体是强化学习的核心，它负责问题的决策。它对状态进行监测，并根据监测数据进行决策，从动作集合中选择合适的动作，智能体选择动作的依据是最大化能够获得的奖励。

本申请实施例中，数据中心的能耗优化装置可以监测数据中心的实时状态，并通过深度强化模型，根据该状态做出行动或决策(即选择动作)，即根据监测数据进行决策，从动作空间中选择合适的动作，以对数据中心的制冷设备的参数进行动态配置。其中，深度强化模型选择动作的依据是最大化能够获得的奖励，即从可选择的动作空间中选择可执行的动作，使得采取行动之后状态发生变化后，产生对应的奖励最大化。换言之，数据中心能耗优化的目标是选择一个最佳的策略(上述目标动作)，即深度强化模型基于最大化动作的期望累计奖励的评价指标，选择目标动作，达到动作的期望回报。

基于上述技术方案，数据中心的能耗优化装置可以获取数据中心当前的状态信息，即IT设备负载、制冷系统状态和外界环境状况中的至少一个，并通过深度强化模型，根据该状态信息，从数据中心对应的动作空间中选择目标动作，以配置数据中心的制冷设备的参数，深度强化模型是基于动作空间训练得到的。因此，数据中心的能耗优化装置可以结合数据中心当前的状态，由强化学习算法从动作空间中选择合适的动作，即通过强化学习技术，对数据中心的制冷设备的参数进行动态设置，使得制冷设备在满足IT设备散热与制冷需求的情况下，运行在最优状态下，从而达到优化数据中心能耗，使数据中心低碳运行的目的。

本申请实施例中，强化学习训练过程中会定义状态集合、动作集合、奖励函数，在强化学习模型中，Agent通过观察状态变化做出行动或决策，状态在执行动作后，从一个状态到下一个状态，同时会给Agent反馈一个奖励，具体过程为：Agent感知当前的状态，从可选择的动作空间中选择可执行的动作，采取行动之后环境发生变化，产生对应的奖励信息，同时环境转移到新的状态，每一次Agent根据动作得到的奖励来调整自身的策略，并对新状态采取新的最优决策。

需要说明的是，奖励函数是基于强化学习的优化过程的重点。奖励函数的作用是评估不同的设置方案对数据中心能耗的影响。设计合理的奖励值，使得智能体在每次发出动作决策后，如果能耗得到了优化，能够得到较大的奖励值。

一种可能的实现方式中，本申请实施例的奖励函数设计表示为下述公式一：

其中，上述公式一中的第一项表示末端空调出风口温度(T_out)与机房设置温度(T_set)之差，二者的差值越小，说明制冷系统运行状态越接近管理员的要求；上述公式一中的第二项表示制冷系统的总功率(power_cooling，即冷塔功率+冷机功率+冷却泵功率+冷冻泵功率)，这个值越小，则整个数据中心的能耗越小。S1和S2是系数，可由管理员根据需求进行设置，一般情况下可设置为S1＝S2＝1。

需要说明的是，本申请实施例公式中的abs()是计算绝对值的算法，abs(T_set-T_out)是计算T_set与T_out之差的绝对值。

一些实施例中，为了训练得到上述深度强化模型，结合图1，如图5所示，在上述的S101之前，本申请实施例提供的方法还可以包括下述的S201至S204：

S201、数据中心的能耗优化装置初始化深度强化学习网络的参数。

本申请实施例中，上述深度强化学习网络包括一个输入层、三个隐藏层和一个输出层，参数包括状态和动作。

可以理解，上述深度强化学习网络是智能体，智能体是强化学习的核心，它负责问题的决策。Agent从数据中心环境中获取当前的状态作为输入，然后输出一次动作。同时Agent还要根据环境对该动作的奖励或者惩罚进行决策更新。

一种可能的实现方式中，上述深度强化学习网络可以为神经网络模型。需要说明的是，由于数据中心能耗优化是一个复杂的决策问题，本算法中采用了神经网络模型进行智能体的表示。

一种示例中，上述神经网络模型的结构如图6所示，该神经网络模型总共5层。其中，第一层为输入层，上节中数据中心的状态是该神经网络模型的输入，共3+21+5个神经单元。第二层、第三层、第四层是神经网络模型的隐藏层，分别包含是128、96、128个神经单元。第五层是输出层，输出是一维的向量，大小是2*M*N。该神经网络模型的层数以及神经元的数量是通过超参数搜索确定的。

需要说明的是，输入层和第一个隐藏层采用的是全连接的方式，原因在于IT负载、制冷设备设置和外界环境之间都是有关联的。全连接层让这种复杂的关联关系通过神经元之间的连接进行表示，神经元的权重代表它们的相关性，可以通过神经网络模型的训练学习这种关系。第二层和第三层，与第三层和第四层之间采用的也是全连接，不同的是对所有节点使用了50％的Dropout以防止过拟合。最后一层是输出层，它表示制冷设备的参数设置，这里是用一维的空间表示了神经网络的输出。

一种示例中，数据中心的能耗优化装置可以随机选择一个初始状态Q(S,A)，以初始化深度强化学习网络的参数。

S202、数据中心的能耗优化装置将目标样本输入到深度强化学习网络中，以输出第i轮过程中目标动作值。

本申请实施例中，上述目标样本包括与数据中心的能耗相关的数据集。该数据集包括数据中心对应的状态和动作空间，i＝1,2,…,N，N为强化学习开始到结束总共的搜索轮次，N为正整数。

一些实施例中，结合图5，如图7所示，上述S202具体可以通过下述的S202a实现：

S202a、数据中心的能耗优化装置根据第i轮过程的第一状态，从第一状态对应的动作空间中选择目标动作，以输出第i轮过程中的目标动作值。

需要说明的是，上述深度强化学习网络可以包括一个重放缓冲区和四个长短时记忆网络(Long Short Term Memory Network，LSTM)网络，该四个LSTM网络分别为Actor网络μ(s|θ)、Critic网络Q(s,a|ω)、目标Actor网络μ′(s|θ′)和目标Critic网络Q′(s,a|ω′)。其中，Actor网络和Critic网络的参数θ、ω为初始化后的参数，并且初始化后的参数θ作为目标Actor网络中θ′的初始参数，初始化后的参数ω作为目标Critic网络中ω′的初始参数，s为深度强化学习网络的输入状态，a为动作值。

一种可能的实现方式中，深度强化学习网络可以根据第一状态s_i在Actor网络中选择第一动作值a_i，具体公式如下述公式二所示：

a_i＝μ(s_i|θ)+N_i公式二

其中，N_i为随机噪声函数。

S203、数据中心的能耗优化装置基于目标动作值，确定第i轮过程中的奖励，并在N轮过程后得到目标累积奖励。

需要说明的是，深度强化学习是一个马尔科夫决策过程。当前状态采取的动作，会改变集群的环境，从而影响到下一个动作的奖励。在训练时，可以将t个深度学习任务作为深度强化学习模型的一个样本进行训练，使用REINFORCE算法训练深度强化模型。该算法的核心思想是先找到一个评价指标，例如动作的期望回报。然后使用随机梯度上升法来更新策略参数，从而不断的最大化评价指标。

一种可能的实现方式中，上述深度强化模型的评价指标是最大化动作的期望累积奖励，对应于下述奖励函数，即下述公式三：

其中，a∈[0,1]，表示折扣因子。i表示强化学习从开始到结束总共的搜索轮次。r_i表示每轮过程中的奖励，E为外界环境状态。

需要说明的是，本申请实施例公式中的∑是求和符号。

本申请实施例中，数据中心的能耗优化装置可以监测当前状态S_t，选择动作A_t，并通过动作A_t获取当前的奖励，并添加到累积奖励R_t。

一种可能的实现方式中，上述奖励函数的梯度如下述公式四：

其中，表示的是给定状态s_i之后，策略π_θ在根据s_i选择动作a_i之后获得的累积折扣奖励，θ为深度强化学习网络的参数。

需要说明的是，上述公式中的▽是指梯度算法。

一种可能的实现方式中，为了使得深度强化学习模型有更好的性能表现，避免进入局部最优，上述模型训练过程中可以加入鼓励探索的策略。在上式中加入熵正则化其中β是权重，/>是步长范围内，对动作概率进行归一化之后的熵。

S204、数据中心的能耗优化装置采用梯度上升算法，根据目标累积奖励，迭代更新深度强化学习网络的参数，直至达到最大化动作的期望累计奖励，得到深度强化模型。

一种可能的实现方式中，数据中心的能耗优化装置可以通过梯度反向传播更新深度强化学习网络的参数。具体的，可以使用梯度反向传播更新深度强化学习网络中的Critic和Actor网络的参数，并每隔预设次数次更新目标网络(即目标Actor网络和目标Critic网络)中的参数，直至深度强化学习网络的累积奖励达到最大化动作的期望累计奖励，得到深度强化模型。

基于上述技术方案，数据中心的能耗优化装置可以根据数据中心的每轮过程的状态，确定每轮过程中的奖励，并在N轮过程后得到累积奖励，从而根据该累积奖励迭代更新深度强化学习网络的参数，直至达到最大化动作的期望累计奖励，得到深度强化模型，即深度强化模型选择动作的依据是最大化能够获得的奖励，即从可选择的动作空间中选择可执行的动作，使得采取行动之后状态发生变化后，产生对应的奖励最大化，从而使得数据中心的能耗优化装置通过深度强化模型，能够选择一个最佳的策略，即上述目标动作，达到动作的期望回报，从而对数据中心的制冷设备的参数进行动态设置，以使得制冷设备在满足IT设备散热与制冷需求的情况下，运行在最优状态下，如此能够达到优化数据中心能耗，使得数据中心低碳运行的目的。

本申请上述实施例中的各个方案在不矛盾的前提下，均可以进行结合。

本申请实施例可以根据上述方法示例对数据中心的能耗优化装置进行功能模块或者功能单元的划分，例如，可以对应各个功能划分各个功能模块或者功能单元，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块或者功能单元的形式实现。其中，本申请实施例中对模块或者单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图8示出了一种数据中心的能耗优化装置70的结构示意图，该数据中心的能耗优化装置70可以为数据中心的管理设备，也可以为应用于数据中心的管理设备的芯片，该数据中心的能耗优化装置70可以用于执行上述实施例中涉及的对数据中心的管理设备的功能。图7所示的数据中心的能耗优化装置70可以包括：获取单元701和选择单元702。

获取单元701，用于获取数据中心的第一状态信息，该第一状态信息用于表征数据中心当前的状态，状态包括以下至少一项：IT设备负载状态、制冷系统状态、外界环境状态。

选择单元702，用于通过深度强化模型，根据获取单元701获取的第一状态信息，从数据中心对应的动作空间中选择目标动作，该动作空间中包括多个动作，该动作用于配置数据中心的制冷设备的参数，该深度强化模型是基于动作空间训练得到的。

一种可能的实现方式中，结合图8，如图9所示，上述数据中心的能耗优化装置70还包括：初始化单元703、处理单元704、确定单元705和更新单元706。

其中，初始化单元703，用于在获取单元701获取数据中心的第一状态信息之前，初始化深度强化学习网络的参数，深度强化学习网络包括一个输入层、三个隐藏层和一个输出层，参数包括状态和动作；

处理单元704，用于将目标样本输入到深度强化学习网络中，以输出第i轮过程中目标动作值，目标样本包括与数据中心的能耗相关的数据集，数据集包括数据中心对应的状态和动作空间，i＝1,2,…,N，N为强化学习开始到结束总共的搜索轮次，N为正整数；

确定单元705，用于基于处理单元704得到的目标动作值，确定第i轮过程中的奖励，并在N轮过程后得到目标累积奖励；

更新单元706，用于采用梯度上升算法，根据确定单元705得到的目标累积奖励，迭代更新深度强化学习网络的参数，直至达到最大化动作的期望累计奖励，得到深度强化模型。

一种可能的实现方式中，上述处理单元704，具体用于根据第i轮过程的第一状态，从第一状态对应的动作空间中选择目标动作，以输出第i轮过程中的目标动作值。

作为又一种可实现方式，图8和图9中的获取单元701、选择单元702、初始化单元703、处理单元704、确定单元705和更新单元706可以由处理器代替，该处理器可以集成这些单元的功能。

本申请实施例还提供了一种计算机可读存储介质。上述方法实施例中的全部或者部分流程可以由计算机程序来指令相关的硬件完成，该程序可存储于上述计算机可读存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。计算机可读存储介质可以是前述任一实施例的数据中心的能耗优化装置的内部存储单元，例如数据中心的能耗优化装置的硬盘或内存。上述计算机可读存储介质也可以是上述终端装置的外部存储设备，例如上述终端装置上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，上述计算机可读存储介质还可以既包括上述数据中心的能耗优化装置的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述数据中心的能耗优化装置所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，本申请的说明书、权利要求书及附图中的术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上，“至少两个(项)”是指两个或三个及三个以上，“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据中心的能耗优化方法，其特征在于，应用于数据中心的管理设备，所述方法包括：

获取所述数据中心的第一状态信息，所述第一状态信息用于表征所述数据中心当前的状态，所述状态包括以下至少一项：互联网技术IT设备负载状态、制冷系统状态、外界环境状态；

通过深度强化模型，根据所述第一状态信息，从所述数据中心对应的动作空间中选择目标动作，所述动作空间中包括多个动作，所述动作用于配置所述数据中心的制冷设备的参数，所述深度强化模型是基于所述动作空间训练得到的。

2.根据权利要求1所述的方法，其特征在于，所述IT设备负载状态的数据项包括以下至少一项：服务器的中央处理器CPU利用率、服务器的功率、服务器的风扇转速；

所述制冷系统状态的数据项包括以下至少一项：总的冷冻泵数量、总的冷却泵数量、运行的冷冻泵总数量、运行的冷却泵数量、总的冷却塔数量、运行的冷却塔数、冷塔风机转速、总的冷机数量、运行的冷机数量、冷却水出水温度、冷却水回水温度、冷冻水出水温度、冷冻水回水温度、冷冻泵流量、冷却泵流量、冷塔功率、冷机功率、冷冻泵功率、冷却泵功率、末端空调送风温度、末端空调回风温度；

所述外界环境状态的数据项包括以下至少一项：室外湿球温度、室外干球温度、室外相对湿度、室外风速、室外风向。

3.根据权利要求1所述的方法，其特征在于，所述动作空间的动作项包括以下至少一项：运行的冷冻泵数量、运行的冷却泵数量、运行的冷却塔数、冷塔风机转速、运行的冷机数量、冷却水出水温度、冷却水回水温度、冷冻水出水温度、冷冻水回水温度、冷冻泵流量、冷却泵流量、末端空调送风温度。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述获取所述数据中心的第一状态信息之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述将目标样本输入到所述深度强化学习网络中，以输出第i轮过程中目标动作值，包括：

根据所述第i轮过程的第一状态，从所述第一状态对应的动作空间中选择目标动作，以输出所述第i轮过程中的目标动作值。

6.一种数据中心的能耗优化装置，其特征在于，应用于数据中心的管理设备，所述装置包括：

获取单元，用于获取所述数据中心的第一状态信息，所述第一状态信息用于表征所述数据中心当前的状态，所述状态包括以下至少一项：互联网技术IT设备负载状态、制冷系统状态、外界环境状态；

选择单元，用于通过深度强化模型，根据所述获取单元获取的所述第一状态信息，从所述数据中心对应的动作空间中选择目标动作，所述动作空间中包括多个动作，所述动作用于配置所述数据中心的制冷设备的参数，所述深度强化模型是基于所述动作空间训练得到的。

7.根据权利要求6所述的装置，其特征在于，所述IT设备负载状态的数据项包括以下至少一项：服务器的中央处理器CPU利用率、服务器的功率、服务器的风扇转速；

8.根据权利要求6所述的装置，其特征在于，所述动作空间的动作项包括以下至少一项：运行的冷冻泵数量、运行的冷却泵数量、运行的冷却塔数、冷塔风机转速、运行的冷机数量、冷却水出水温度、冷却水回水温度、冷冻水出水温度、冷冻水回水温度、冷冻泵流量、冷却泵流量、末端空调送风温度。

9.根据权利要求6至8中任一项所述的装置，其特征在于，所述装置还包括：

初始化单元，用于在所述获取单元获取所述数据中心的第一状态信息之前，初始化深度强化学习网络的参数，所述深度强化学习网络包括一个输入层、三个隐藏层和一个输出层，所述参数包括状态和动作；

处理单元，用于将目标样本输入到所述深度强化学习网络中，以输出第i轮过程中目标动作值，所述目标样本包括与所述数据中心的能耗相关的数据集，所述数据集包括所述数据中心对应的状态和动作空间，i＝1,2,…,N，N为强化学习开始到结束总共的搜索轮次，N为正整数；

确定单元，用于基于所述处理单元得到的所述目标动作值，确定所述第i轮过程中的奖励，并在N轮过程后得到目标累积奖励；

更新单元，用于采用梯度上升算法，根据所述确定单元得到的所述目标累积奖励，迭代更新所述深度强化学习网络的参数，直至达到最大化动作的期望累计奖励，得到所述深度强化模型。

10.根据权利要求9所述的装置，其特征在于，所述处理单元，具体用于根据所述第i轮过程的第一状态，从所述第一状态对应的动作空间中选择目标动作，以输出所述第i轮过程中的目标动作值。

11.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有指令，当所述指令被执行时，实现如权利要求1-5任一项所述的方法。

12.一种数据中心的能耗优化装置，其特征在于，包括：处理器、存储器和通信接口；其中，通信接口用于所述数据中心的能耗优化装置通信；所述存储器用于存储一个或多个程序，所述一个或多个程序包括计算机执行指令，当所述数据中心的能耗优化装置运行时，处理器执行所述存储器存储的所述计算机执行指令，以使所述数据中心的能耗优化装置执行权利要求1-5任一项所述的方法。