CN109890176B

CN109890176B - 一种基于人工智能优化机房能耗效率的装置

Info

Publication number: CN109890176B
Application number: CN201910154592.5A
Authority: CN
Inventors: 周鹏飞; 马亮
Original assignee: Beijing Huichen Capital Information Co ltd
Current assignee: Beijing Huichen Capital Information Co ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2020-10-27
Anticipated expiration: 2039-03-01
Also published as: CN109890176A

Abstract

本发明公开了一种基于人工智能优化机房能耗效率的方法及装置，属于环保节能领域，降低了现有IDC机房过量制冷、电力浪费严重导致的高能耗与环保问题，其装置包括：获取机房机柜发热/制冷状态大数据的感知装置，从发热/制冷状态大数据自动学习控制策略的自动学习装置，使用控制策略生成优化控制指令的控制逻辑装置，直接调节制冷设备运行的控制装置；本发明包含一种自动学习装置，该装置能够基于机柜运行大数据结合人工智能算法自动学习优化控制策略，降低制冷电量消耗；本发明包含一种控制逻辑装置，该装置能够根据机房运行数据动态、精确地调节制冷设备运行。

Description

一种基于人工智能优化机房能耗效率的装置

技术领域

本发明涉及环保节能领域，具体是涉及一种基于人工智能优化机房能耗效率的方法及装置。

背景技术

在IDC机房，为避免因高温导致的服务器故障，需通过各类制冷设备(空调为主)调节机柜温度。机柜内服务器负载不同、服务器距离制冷设备距离不同导致机柜不同位置热力状态不同，存在热岛现象。为防止因热岛现象导致服务器故障，传统机房常采取过量制冷方式，将机房温度整体降到很低的水平(通常比合理温度上限低5摄氏度以上)。

目前机房制冷设备的控制和制冷输出，采用传统的热力学控制模型或者固定策略，而机房各机柜运行状态多样，波动大，差异大。传统制冷控制策略，多为固定模式，无法根据实时的机柜发热动态，实时进行最优制冷输出，导致在服务器高负载高热量时，制冷量不足，而在服务器低负荷低热量情况下，输出制冷量冗余，存在大量的电能无效消耗。

目前我国仅三大运营商机房每年制冷消耗电力资源已超过1000亿人民币，而全国机房制冷电力资源消耗更大。基于机房的运行大数据，精确控制各制冷设备的功率，能够有效利用电能，具有重大的社会价值。

发明内容

本发明的目的在于利用机房制冷大数据，借助基于数据的自动学习方法(强化学习)，生成最优制冷控制逻辑，动态调节制冷设备的运行功率，以最小制冷功率输出满足机房制冷需求。本发明能够缓解现有IDC机房过量制冷问题，降低电力浪费，从而降低无效能耗和提高机房环保水平。

为实现上述目的，本发明提供如下技术方案：

一种基于人工智能优化机房能耗效率的装置，包括感知装置、自动学习装置、控制逻辑装置和控制装置；

感知装置

感知装置为机柜运行状态大数据的监察装置，通过温度采集设备(温度传感器等)获取机房运行大数据，获取机柜周边运行环境状态指标、制冷设备运行功率指标，所述运行环境状态指标能反应机柜的实时运行情况(温度过高、温度合理等)。

自动学习装置

自动学习装置为一套基于人工智能(强化学习)的自动学习方法，基于人工智能的强化学习理论，能够自动从机房的机柜状态与制冷大数据学习机柜运行状态数据并生成控制策略，该装置能够通过持续学习机柜运行状态数据不断优化控制策略，该装置学习的目标是找到最优控制策略；

控制策略是一套控制逻辑，其输入为机柜运行状态和制冷设备运行功率，输出为控制指令。最优控制策略是所有控制策略中的最佳策略。在机柜特定状态下，不同控制策略生成的操作指令不同；最优控制策略在任意状态下生成的操作指令都是最优指令。最优指令是指，在特定状态下控制装置执行该指令后，机柜环境温度均不高于警戒温度，并且制冷消耗电力总量最低。

控制逻辑装置

控制逻辑装置内置一套控制策略，接收机柜运行环境状态信息，使用控制策略生成控制指令，能够根据机柜和制冷设备的运行状态数据动态调整制冷设备运行功率；

控制逻辑装置使用的策略可以由自动学习装置学习得到，也可以通过其他方式设置 (如人工设置一条控制策略：环境温度高于设定值后制冷设备立刻以最高功率运行)。

控制逻辑装置使用的策略可以是单个策略，也可以是多个策略的组合。当使用多个策略进行控制的时候需要确定每个策略的优先级，优先使用最高优先级策略生成的指令。

控制装置

控制装置根据接收的控制指令改变制冷设备运行状态，将指令解析后调节制冷设备功率。控制装置可以进行的操作包括关闭某个制冷设备；打开某个制冷设备；将某个制冷设备的运行功率调整到某个功率值。

作为本发明进一步的方案，可选的感知装置包括：机柜前面板、后面板温度采集设备；制冷设备进风口、出风口温度采集设备；制冷设备功率采集设备等。

作为本发明的进一步方案：机柜全部运行状态指标为机柜周围的温度数据、制冷设备运行数据；

可选的温度数据包括机柜前面板温度、机柜出风面板温度、制冷设备进风温度、制冷设备出风温度。以上各类温度均为多个采集点，完整地反应机柜周围环境温度分布情况。机房内相关机柜运行状态数据的连续数据集构成了机房运行大数据。

制冷设备运行数据为所有制冷设备的实时运行功率。

作为本发明的进一步方案：自动学习装置通过一套深度强化学习算法实现。自动学习装置的输入状态包括机柜运行热状态数据、制冷设备运行功率数据；自动学习装置可执行的操作是调整制冷设备运行功率。

自动学习装置持续与机柜环境交互，在任意状态下执行一个操作，根据环境变化反馈得到的奖励值来评估执行该操作的优劣。自动学习装置的奖励值由机柜周边环境热力状态和制冷设备运行功率共同决定。自动学习装置由其与环境交互学习得到的经验生成并不断优化控制策略。自动学习装置的学习目标是寻找最优控制策略。

作为本发明的再进一步方案：控制指令为调节制冷设备运行功率的指令。

作为本发明的再进一步方案：最优控制策略为：

在任意给定的机柜环境运行状态、制冷设备实时运行功率下，最优控制策略生成的控制指令都是最优指令。

作为本发明的再进一步方案：最优控制指令为：

制冷设备执行该指令后机柜环境温度值均在正常范围内、且制冷设备运行功率最低。

所述机柜环境温度值的正常范围为服务器能够稳定、高效运行的环境温度范围，可通过实验、人工经验、结合机柜实际情况确定。

一种基于人工智能优化机房能耗效率的方法，该方法能够根据机柜运行状态数据自动学习并优化控制策略，自动优化制冷设备运行，减少制冷电量消耗，其含有如下步骤：

步骤1、初始化自动学习装置

初始化自动学习装置需要明确定义各项数据指标，如制冷设备组件数量，制冷设备组件运行功率范围；机柜运行数据采集点个数；警戒温度阈值等。

使用特定方法(如随机化方法)为自动学习装置初始化一个控制策略。初始控制策略是自动学习装置的起点，一个好的初始化方法(如结合专家经验)能够加快学习速度。

确定一个奖励函数来评价机柜运行状态优劣，奖励函数用来指导自动学习装置寻找最优控制策略。机柜热力状态越好，奖励函数反馈的奖励值应越大；热力状态越差，奖励函数反馈奖励值应越小。

可选的奖励函数计算方法为：

其中HTi为制冷设备第i个机柜状态点温度高于警戒温度阈值的差值，FSj为制冷设备第j个制冷组件功率，w1为温度差异系数，w2为电力消耗系数。

对于每个机柜温度，HTi计算方法为：

其中t为机柜状态点温度，Tmax为警戒温度阈值，警戒温度阈值由专家根据具体应用机房特点设定(如25℃)。

步骤2、感知装置获取机柜和制冷设备运行数据

感知装置用来获取机柜各项运行指标数据，包括机柜前面板温度传感器，采集机柜前面板温度；机柜出风口温度传感器，采集机柜出风口温度；制冷设备进风口温度传感器，采集制冷设备进风温度；制冷设备出风口温度传感器，采集制冷设备出风温度；制冷设备功率采集装置，采集制冷设备所有制冷组件功率、转速信息。

感知装置为一组温度采集硬件(温度传感器等)，需要安装到机柜所有数据指标采集位置。感知装置实时采集机房制冷数据，通过网络实时发送给自动学习装置、控制逻辑装置，并保存到数据库中。

自动学习装置可以通过感知装置获得机柜实时运行状态的数据，也可以从数据库中获得机柜运行状态的历史数据。

步骤3、自动学习装置在模拟环境学习

为防止直接在生产环境学习导致的服务器故障，自动学习装置必须首先在模拟环境学习。模拟环境可以是测试专用机房，学习装置在模拟环境中持续尝试各类操作、积累制冷数据、优化控制策略。

为了使自动学习装置学习到机柜在各类状态下的控制策略，模拟环境需要通过一定策略(人工、算法等)来改变模拟环境服务器负载。

步骤4、自动学习装置在实际环境优化控制策略

当自动学习装置在模拟环境下学习一段时间，并且学习到可用控制策略(达到或接近专家水平)后，可以应用到实际环境中。

由于模拟环境与真实环境存在一些差异，自动学习装置在真实环境下仍需要继续学习不断优化策略。

(1)控制策略优化方法：

自动学习装置通过人工神经网络拟合机柜运行状态、制冷设备运行功率、操作指令、奖励之间的关系，即状态行为值函数。

状态行为值函数表示给定状态下采取指定操作的评估值，评估值越大表示该状态下选择该操作后得到的奖励值越多。

状态行为值函数通过持续迭代进行优化，迭代公式为

q_π(s,a)＝E_π[R_t+1+λq_π(S_t+1,A_t+1)|S_t＝s,A_t＝a]

其中s为当前状态，a为当前采取的操作，q即为状态行为值函数，q_π(s,a)表示使用策略π，在状态s下采取a操作的评估估计值，

q_π(S_t+1,A_t+1)表示使用策略π，在下一个状态使用最优操作的评估估计值，

R_t+1为在当前状态下采取操作a之后获取的奖励值，

λ为衰减因子，表示在状态s下采取a动作后对后续状态评估值的影响，为0到1之间实数值，

自动学习装置持续选择操作，获取奖励值，使用奖励值来优化状态行为值函数。

自动学习装置持续探索不断学习能够持续优化拟合函数，当状态行为值函数能够准确预测任意状态下采取任意操作后的奖励值时，即可选择最优操作。

(2)自动学习装置优化探索的原则：

自动学习装置优化探索是指在特定条件下，在当前最优指令有限范围内尝试其他指令。为保证自动学习装置学习到的控制策略为最优策略，在控制策略生成控制指令时可以加入适当随机调节，控制策略能够学习更多的探索数据。

当前最优指令是指当前策略根据实时状态得出的指令。当前最优指令为一组指令值，每个值对应制冷设备一个功率值。

当前最优指令有限范围是指对各项设备调整的幅度范围，计算方法为：

[opt-α*range,opt+α*range]

其中opt为当前最优指令，range为功率范围，α为调整范围。此处α为5％，如当前最优指令为调整制冷功率至800转，制冷功率调整范围为3000转，则有效范围为 800–3000*0.05至800+3000*0.05之间，即650至950之间。

在最优指令有限范围内选择一个特定的指令，采用平均分布随机选择。

(3)控制策略生成指令方法：

控制逻辑装置依赖拟合函数生成指令。

在状态s下，对于任一操作a，状态行为值函数给出评估值q_π(s,a)，选择评估值最大的操作作为指令返回。

拟合函数在特定状态将机柜实时运行环境的温度数据、制冷设备的实时功率数据输入到拟合函数中，拟合函数输出当前策略认为的最优指令。

步骤5、控制逻辑装置实时优化制冷设备运行

控制逻辑装置可视为机房长期看护员，持续监控机房运行动态数据，根据控制策略精确调节制冷设备运行功率。控制逻辑装置实现机房热状态自动监控调节，同时将过量制冷导致的电力浪费最小化。

相关的方法由Python语言开发实现，完成了基于人工智能优化机房能耗效率的方法及装置的全部处理过程。

综上所述，本发明与现有技术相比具有以下有益效果：

(1)本发明提出一种基于人工智能的自动学习装置，该装置能够在现有机房制冷管理的机制上，基于机柜状态大数据自动学习该机房的制冷管理的控制策略，并能根据实时热力状态反馈数据不断自主提升控制策略达到全局最优，从而提高机房制冷效率，降低过量制冷的浪费；

(2)本发明提出一种控制逻辑装置，该装置内含一套控制策略，能够根据各机柜运行发热状态大数据，实时精确调节相应制冷设备，以最优制冷量输出，实现机房制冷的精细化与自动化管理。

为更清楚地阐述本发明的结构特征和功效，下面结合附图与具体实施例来对本发明进行详细说明。

附图说明

图1为发明中实际的一种基于人工智能优化机房能耗效率的方法及装置示意图。

图2为发明中实际的自动学习装置生成、优化控制策略过程示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案做进一步的说明。

参见图1～图2，一种基于人工智能优化机房能耗效率的装置，包括感知装置、自动学习装置、控制逻辑装置和控制装置；

感知装置

自动学习装置

控制逻辑装置

控制装置

进一步的，可选的感知装置包括：机柜前面板、后面板温度采集设备；制冷设备进风口、出风口温度采集设备；制冷设备功率采集设备等。

进一步的，机柜全部运行状态指标为机柜周围的温度数据、制冷设备运行数据；

制冷设备运行数据为所有制冷设备的实时运行功率。

进一步的，自动学习装置通过一套深度强化学习算法实现。自动学习装置的输入状态包括机柜运行热状态数据、制冷设备运行功率数据；自动学习装置可执行的操作是调整制冷设备运行功率。

进一步的，控制策略为一套控制逻辑：

其输入为机柜运行环境状态、制冷设备运行功率，其输出为控制指令。

进一步的，控制指令为调节制冷设备运行功率的指令。

进一步的，最优控制策略为：

进一步的，最优控制指令为：

步骤1、初始化自动学习装置

可选的奖励函数计算方法为：

对于每个机柜温度，HTi计算方法为：

步骤2、感知装置获取机柜和制冷设备运行数据

步骤3、自动学习装置在模拟环境学习

步骤4、自动学习装置在实际环境优化控制策略

(1)控制策略优化方法：

状态行为值函数通过持续迭代进行优化，迭代公式为

q_π(s,a)＝E_π[R_t+1+λq_π(S_t+1,A_t+1)|S_t＝s,A_t＝a]

R_t+1为在当前状态下采取操作a之后获取的奖励值，

(2)自动学习装置优化探索的原则：

[opt-α*range,opt+α*range]

(3)控制策略生成指令方法：

控制逻辑装置依赖拟合函数生成指令。

步骤5、控制逻辑装置实时优化制冷设备运行

以上结合具体实施例描述了本发明的技术原理，仅是本发明的优选实施方式。本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。

Claims

1.一种基于人工智能优化机房能耗效率的装置，其特征在于，包括感知装置、自动学习装置、控制逻辑装置和控制装置；

感知装置为机柜运行状态数据的监察装置，通过温度采集设备获取机柜运行状态数据、制冷设备运行功率数据，所述机柜运行状态数据反应机柜的实时运行情况；

自动学习装置执行一套基于人工智能的自动学习方法，基于人工智能的强化学习理论，自动从机柜运行状态数据与制冷数据学习生成控制策略，该装置通过持续学习机柜运行状态数据不断优化控制策略，该装置学习的目标是找到最优控制策略；自动学习装置的输入状态包括机柜运行状态数据、制冷设备运行功率数据；自动学习装置可执行的操作是调整制冷设备运行功率；自动学习装置的学习过程包括以下步骤：

步骤1、初始化自动学习装置

初始化自动学习装置需要明确定义各项数据指标，包括制冷设备组件数量，制冷设备组件运行功率范围，机柜运行状态数据采集点个数，警戒温度阈值；使用随机化方法为自动学习装置初始化一个控制策略；确定一个奖励函数评价机柜运行状态优劣；自动学习装置的奖励值由机柜运行状态和制冷设备运行功率共同决定；自动学习装置的奖励函数计算方法为：

其中HTi为制冷设备第i个机柜状态点温度高于警戒温度阈值的差值，FSj为制冷设备第j个制冷组件功率，w1为温度差异系数，w2为电力消耗系数；对于每个机柜温度，HTi计算方法为：

其中t为机柜状态点温度，Tmax为警戒温度阈值，警戒温度阈值由专家根据具体应用机房特点设定；

步骤2、自动学习装置在模拟环境学习

为防止直接在生产环境学习导致的服务器故障，自动学习装置必须首先在模拟环境学习，模拟环境是测试专用机房，学习装置在模拟环境中持续尝试各类操作、积累制冷数据、优化控制策略；

步骤3、自动学习装置在实际环境优化控制策略

当自动学习装置在模拟环境下学习一段时间，并且学习到可用控制策略后，可以应用到实际环境中；由于模拟环境与真实环境存在一些差异，自动学习装置在真实环境下仍需要继续学习不断优化策略；

控制策略优化方法为：自动学习装置通过人工神经网络拟合机柜运行状态、制冷设备运行功率、操作指令、奖励之间的关系，即状态行为值函数；状态行为值函数表示给定状态下采取指定操作的评估值，评估值越大表示该状态下选择该操作后得到的奖励值越多；状态行为值函数通过持续迭代进行优化，迭代公式为

q_π(s,a)＝E_π[R_t+1+λq_π(S_t+1,A_t+1)|S_t＝s,A_t＝a]

其中s为当前状态，a为当前采取的操作，q即为状态行为值函数，q_π(s,a)表示使用策略π，在状态s下采取a操作的评估估计值，q_π(S_t+1,A_t+1)表示使用策略π，在下一个状态使用最优操作的评估估计值，R_t+1为在当前状态下采取操作a之后获取的奖励值，λ为衰减因子，表示在状态s下采取a动作后对后续状态评估值的影响，为0到1之间实数值，自动学习装置持续选择操作，获取奖励值，使用奖励值来优化状态行为值函数；

自动学习装置优化探索的原则为：自动学习装置优化探索是指在特定条件下，在当前最优指令有限范围内尝试其他指令；为保证自动学习装置学习到的控制策略为最优策略，在控制策略生成控制指令时可以加入适当随机调节，控制策略能够学习更多的探索数据；当前最优指令是指当前策略根据实时状态得出的指令；当前最优指令为一组指令值，每个值对应制冷设备一个功率值；当前最优指令有限范围是指对各项设备调整的幅度范围，计算方法为：[opt-α*range,opt+α*range]其中opt为当前最优指令，range为功率范围，α为调整范围，此处α为5％；在最优指令有限范围内选择一个特定的指令，采用平均分布随机选择；

控制策略生成指令方法为：控制逻辑装置依赖状态行为值函数生成指令；在状态s下，对于任一操作a，状态行为值函数给出评估值qπ(s,a)，选择评估值最大的操作作为指令返回；状态行为值函数在特定状态将机柜运行状态数据的温度数据、制冷设备的实时功率数据输入到状态行为值函数中，状态行为值函数输出当前策略认为的最优指令；

控制逻辑装置内置一套控制策略，接收机柜运行状态数据，使用控制策略生成控制指令，根据机柜和制冷设备的运行状态数据动态调整制冷设备运行功率；

所述控制逻辑装置使用的策略为单个策略或多个策略的组合；当使用多个策略进行控制的时候确定每个策略的优先级，优先使用最高优先级策略生成的指令；

所述控制装置根据接收的控制指令改变制冷设备运行状态，将指令解析后调节制冷设备运行功率。

2.根据权利要求1所述的一种基于人工智能优化机房能耗效率的装置，其特征在于，所述控制策略是一套控制逻辑，其输入为机柜运行状态和制冷设备运行功率，输出为控制指令，最优控制策略是所有控制策略中的最佳策略，在机柜特定状态下，不同控制策略生成的操作指令不同；最优控制策略在任意状态下生成的操作指令都是最优指令，最优指令是指，在特定状态下控制装置执行该指令后，机柜环境温度均不高于警戒温度，并且制冷消耗电力总量最低。

3.根据权利要求1所述的一种基于人工智能优化机房能耗效率的装置，其特征在于，感知装置包括：机柜前面板、后面板温度采集设备，制冷设备进风口、出风口温度采集设备，制冷设备运行功率采集设备。

4.根据权利要求1所述的一种基于人工智能优化机房能耗效率的装置，其特征在于，机柜运行状态数据为机柜周围的温度数据、制冷设备运行数据；

选择的温度数据包括机柜前面板温度、机柜出风面板温度、制冷设备进风温度或制冷设备出风温度，以上各类温度均为多个采集点，完整地反应机柜周围环境温度分布情况，机房内相关机柜运行状态数据的连续数据集构成了机房运行大数据；

制冷设备运行数据为所有制冷设备运行功率。