CN109189190A - 一种基于温度预测的数据中心热量管理方法 - Google Patents
一种基于温度预测的数据中心热量管理方法 Download PDFInfo
- Publication number
- CN109189190A CN109189190A CN201811203363.XA CN201811203363A CN109189190A CN 109189190 A CN109189190 A CN 109189190A CN 201811203363 A CN201811203363 A CN 201811203363A CN 109189190 A CN109189190 A CN 109189190A
- Authority
- CN
- China
- Prior art keywords
- temperature
- server
- data
- data center
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/20—Cooling means
- G06F1/206—Cooling means comprising thermal management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/08—Thermal analysis or thermal optimisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Geometry (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Control Of Temperature (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于温度预测的数据中心热量管理方法,根据数据中心热量传播的局部特性,建立联合预测框架实现基于神经网络的数据中心温度预测算法,使用服务器节点实时运行数据、无线传感器数据和CFD仿真数据训练人工神经网络预测模型,预测数据中心服务器入口温度分布;然后使用反馈控制策略管理数据中心各节点的温度,通过调节节点的工作负载进行热量管理。本发明致力于研究数据中心的热量管理方法,在保证数据中心热安全需求的前提下,使制冷设备的能耗最低。
Description
技术领域
本发明属于数据中心热量管理技术领域,具体涉及一种基于温度预测的数据中心热量管理方法。
背景技术
提高数据中心的能源使用效率是数据中心运营过程中的一个主要目标。制冷设备能耗在数据中心总体能耗中占有很大的比例。然而,传统的数据中心节能措施主要针对计算设备,忽视了制冷设备的节能。另一方面,数据中心服务器集群的功率密度持续增加,需要制冷设备有更大的散热能力。为了保证数据中心安全稳定运行,制冷设备往往设置过低的温度,导致了制冷设备能耗的浪费。
数据中心的热量管理方法主要分为两类:针对单节点温度控制的硬件技术和调度方法,和针对数据中心全局设施的布局和调度方法。
(1)面向单节点的热量管理
对于单个节点设备的功率和温度存在直接联系;另外,单节点不存在温度均衡等优化方法。因此,单节点的热量管理问题在某种程度上可以看成是能耗的管理问题。
传统的面向单个节点的热量管理方法主要是考虑对硬件的优化,或者根据节点的能耗及温度进行动态地调整,如优化处理器架构进行温度控制等。
(2)面向多节点的热量管理
对于单个节点而言,能耗和温度直接相关,对于多节点而言却未必。也就是说,如果采取合适的热量管理策略,更多的计算能耗可能带来更小的峰值温度。因此,合适的热量管理策略对绿色数据中心而言尤为重要。对于具体的管理系统和管理策略,主要分为基于设备布局的热量管理策略和基于综合控制的热量管理策略。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于温度预测的数据中心热量管理方法,在保证数据中心热安全需求的前提下,使制冷设备的能耗最低。
本发明采用以下技术方案:
一种基于温度预测的数据中心热量管理方法,根据数据中心热量传播的局部特性,建立联合预测框架实现基于神经网络的数据中心温度预测算法,使用服务器节点实时运行数据、无线传感器数据和CFD仿真数据训练人工神经网络预测模型,预测数据中心服务器入口温度分布;然后使用反馈控制策略管理数据中心各节点的温度,通过调节节点的工作负载进行热量管理。
具体的,建立联合预测框架包括以下步骤:
S101、每隔一段时间s收集一次数据中心运行过程中的数据,生成训练数据集;
S102、确定神经网络的结构;训练神经网络包括提供多组输入和输出,并调整权重以使整个训练数据组的预测输出与实际输出之间的均方误差MSE最小化;
S103、使用计算流体动力学模型为数据中心异常运行情况生成模拟数据,补充训练数据,每一个服务器节点使用实际运行数据以及CFD仿真数据训练自己的神经网络模型,最终得到整个数据中心的温度分布。
进一步的,步骤S101中,生成的训练数据为影响服务器入口温度的因素,包括服务器入口温度和出口温度,其邻居n-1和n+1的入口温度和出口温度,CRAC通风口处的空气速度和温度,以及CPU利用率和风扇转速,在时间点t,所有数据组成的向量P(t)计算如下:
其中,Tin为服务器入口温度,Tout为服务器出口温度,α为CPU利用率,为风扇转速, T+1,,in为上服务器入口温度,T+1,,out为上服务器出口温度,T-1,,in为下服务器入口温度,T-1,,out为下服务器出口温度,vfan为CRAC通风口处的气流速度,Tfan为CRAC通风口处的温度。
进一步的,使用最近的R个状态预测K时间之后的服务器入口温度;预测视野K为时间间隔s的整数倍,设k=K/s;使用时间点t及其最近的R个状态预测时间点t+k的服务器入口温度,预测行为表示如下:
Tt+k,in=fk(P(t-R+1),P(t-R+2),…,P(t-1),P(t))
其中,fk表示要求解的模型,Tt+k,in表示t+k时刻服务器入口温度。
进一步的,fk的输入输出对构成数据集的输入和输出,其中一条数据对如下:
<(P(t-R+1),P(t-R+2),…,P(t-1),P(t)),Tt+k,in>
另一条数据对如下:
<(P(t-R+2),P(t-R+3),…,P(t),P(t+1)),Tt+k+1,in>
随时间轴推移产生数据构成需要的数据集。
进一步的,步骤S102中,输入层的神经元个数与数据集输入参数的个数相等;输入参数的个数为10R,R∈N+,神经元个数为10R;隐含层神经元个数设置为20;输出参数只有一个,输出层神经元个数设置为1,激活函数选用Sigmoid函数,采用反向传播算法训练神经网络。
具体的,使用反馈控制策略管理数据中心各节点的温度包括负载平衡器LVS和两个守护进程;
两个守护进程包括温度守护进程tempd和负载控制守护进程ctrld;温度守护进程tempd 设置在每个服务器上,负载控制守护进程ctrld置在负载平衡器节点上;温度守护进程tempd每分钟醒来一次,并测量和计算服务器入口温度,用于触发和停用热反应,并向负载控制守护进程ctrld发送反馈信息;负载控制守护进程ctrld用于根据温度守护进程tempd的反馈配置负载平衡器,其中,基于output,强制LVS通过设置热服务器的权重调整其请求分布,以使其仅接收当前正在接收的负载的1/(output+1),output≥0,1/(output+1)>1。
进一步的,温度守护进程tempd监控服务器的入口温度,对变量定义三个阈值:低Tl、高Th、警戒Tv,高Th设置低于警戒Tv;
对于任意一个服务器,当tempd监测到服务器入口温度高于Th时,热反应被触发;tempd 向ctrld发送消息,ctrld根据此消息调整减少平衡器供给服务器的负载,降低服务器入口温度;守护进程通信和负载调整周期性重复,直到组件的温度低于Th;
当温度低于Tl,tempd命令ctrld解除对服务器提供负载的任何限制;对于Tl和Th之间的温度,负载分布不会被调整;
当温度高于Th时,启动调控;
当温度低于Tl时,关闭调控;处于两者之间则保持原样,不做处理。
当且仅当服务器入口温度高于警戒温度Tv,服务器被关闭;
tempd发送的特定信息是PD反馈控制器的输出,PD反馈控制器的输出计算如下:
output=kp(Tcurr-Th)+kd(Tcurr-Tlast)
output=max(output,0)
其中,kp和kd是增益常数,Tcurr和Tlast是当前和上一次测量到的温度;
反馈控制使温度下降到Th以下,当Tcurr-Th越大,表明温度超出的多,反馈需要加强,对应kp(Tcurr-Th)部分;当Tcurr-Tlast越大,表明温度增加的快,反馈也应该加强,对应kd(Tcurr-Tlast) 部分;
当output<0,令output=0。
进一步的,通过限制当前时间间隔内发送到热服务的连接请求的数量,使当前时间间隔请求的数量不超过上一时间间隔的请求数量;使用变量C_hot记录每个热服务器在触发热反应之前的时间间隔内处理的连接请求数量,用变量C_curr记录当前时间间隔内负载均衡器分配到此热服务器的连接请求的累积数量,当C_curr≥C_hot,负载平衡器不将任何连接请求分配到此热服务器上。
进一步的,负载控制守护进程ctrld热反应选择算法遵循的基本原则如下原则:
定义r1为弱反应、r2为中反应,r3为强反应,负载控制守护进程ctrld根据tempd发送的信息output进行热反应选择,优先选择对性能影响小的反应r1,如果不能满足降低温度的需求,再选择较强的反应,对每一种预定义的热反应,利用温度分布预测算法,预测热服务器未来一段时间的入口温度最终选择适当的热反应计算如下:
与现有技术相比,本发明至少具有以下有益效果:
本发明一种基于温度预测的数据中心热量管理方法,使用联合架构建模,用计算流体动力学模型为这些异常情况生成模拟数据,从而补充训练数据。通过使用模拟的训练数据,能使得异常情况的预测精度提高。由于计算流体动力学模型仅用于生成线下训练数据,因此可以在达到最高模拟精度的同时大大降低运行时的计算开销,满足在线预测的实时性需求且模型学习和预测可以以分布式方式完成,每一台服务器使用自己的数据学习神经网络模型并进行预测,相互之间没有数据依赖,非常适合分布式计算;然后采用基于反馈和预测的数据中心热能管理方法全面监控数据中心的各种数据,通过控制服务器负载来进行热能管理。不仅能够有效管理热紧急状况,还能减少服务器和制冷设备的电力消耗。
进一步的,人工神经网络能够产生连续范围内的输出,并且能够反映输入输出之间的非线性关系。神经网路与热拓扑结构相似,因为输入值通过网络“流动”到输出值,与空气流经数据中心的方式非常相似。正如神经网络的特定输入输出值之间关系的强度取决于网络的内部结构一样,空气流入和温度之间的关系取决于数据中心的结构,提出使用计算流体动力学模型为这些异常情况生成模拟数据,从而补充训练数据。通过使用模拟的训练数据,使得异常情况的预测精度大幅提高。由于计算流体动力学模型仅仅用于生成线下训练数据,因此可以在达到最高模拟精度的同时大大降低运行时的计算开销,满足在线预测的实时性需求。
进一步的,在基于神经网络的数据中心温度预测算法中,提出了热局部性原理的假设。热局部性原理的假设是这样的,服务器周围的温度主要受其邻近服务器的配置影响,而距离远的服务器则对其影响不大。由于这种局部特性,可以在服务器之间分配建模任务:每台服务器通过使用邻近服务器的邻近传感器测量值和工作负载来学习和模拟自身周围的温度。基于这种假设,提出了一种联合建模框架,即每台服务器使用它自己以及它上下两台服务器的数据来建立模型,预测自己的入口温度。这种方法能够让模型的训练时间大大缩短,能够解决可扩展性问题。
进一步的,当服务器入口温度高于Th时,表明服务器的入口温度过高了,需要降低温度,这时热反应会被触发。基于反馈控制的热量管理方法,这种方法能自动调节反应强度以尽可能减少热量管理对温度的影响,然而不同类型的紧急情况,需要进行不同的调整,即存在着确定反应强度的问题,因此将基于反馈控制的热量管理方法与温度预测算法相结合,通过温度预测算法来选择最佳的反应强度。
进一步的,温度守护进程tempd设置在每个服务器上,负载控制守护进程ctrld置在负载平衡器节点上;温度守护进程tempd每分钟醒来一次,并测量和计算服务器入口温度,用于触发和停用热反应,并向负载控制守护进程ctrld发送反馈信息;负载控制守护进程ctrld用于根据温度守护进程tempd的反馈配置负载平衡器。
进一步的,限制当前时间间隔内发送到热服务的连接请求的数量,使当前时间间隔请求的数量不超过上一时间间隔的请求数量。这样就可以保证不管任何情况下,分配到热服务器的负载不会增加。解决了整体的负载增加时,即使减少权重,实际分配到热服务器的负载也有可能增加的问题。
进一步的,负载控制守护进程ctrld需要根据不同的情况对负载权值进行不同的调整,根据通过温度预测算法来选择最佳的反应强度,同时需要有预定义的热反应。预定义的热反应可以有很多,理论上反应强度越多效果越好,根据实验和经验定义了三个热反应,r1、r2和r3,称为弱反应、中反应和强反应,来验证本发明的思想。
综上所述,本发明致力于研究数据中心的热量管理方法,在保证数据中心热安全需求的前提下,使制冷设备的能耗最低。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为联合建模框架示意图;
图2为影响服务器节点入口温度的因素示意图;
图3为数据集的时序图;
图4为热量管理系统框架示意图;
图5为热量管理算法流程图;
图6为实验平台传感器放置图;
图7为热量管理下的服务器入口温度变化图。
具体实施方式
本发明提供了一种基于温度预测的数据中心热量管理方法,提出一种基于神经网络的数据中心温度预测算法,能准确预测数据中心未来一段时间的温度变化。在此基础之上,采用基于温度预测的数据中心热量管理方法,通过调节节点的工作负载来进行热量管理。
基于神经网络的数据中心温度预测算法
联合预测框架
根据数据中心热量传播的局部特性,提出了一种联合预测框架,解决了温度预测模型在大规模数据中心的可扩展性问题,其框架如图1所示;根据热局部性原理的假设,服务器周围的温度主要受其邻近服务器的配置影响,而距离远的服务器则对其影响不大。由于这种局部特性,可以在服务器之间分配建模任务:每台服务器使用它自己以及它上下两台服务器的数据来建立模型,预测自己的入口温度。使用服务器节点实时运行数据、无线传感器数据和CFD仿真数据训练人工神经网络预测模型,预测数据中心服务器入口温度分布。联合建模体系结构利用了热量产生和传播的物理特性:热量局部扩散,逐渐遵循热流体动力学模型。
(1)训练神经网络
生成数据集,具体为每隔一段时间s收集一次数据中心运行过程中的数据,请参阅图2,生成的数据为影响服务器入口温度的因素,包括服务器入口温度和出口温度,其邻居n-1和n+1 的入口温度和出口温度,CRAC通风口处的空气速度和温度,以及CPU利用率和风扇转速。在时间点t,所有数据组成的向量用P(t)表示:
其中,Tin为服务器入口温度,Tout为服务器出口温度,α为CPU利用率,为风扇转速, T+1,,in为上服务器入口温度,T+1,,out为上服务器出口温度,T-1,,in为下服务器入口温度,T-1,,out为下服务器出口温度,vfan为CRAC通风口处的气流速度,Tfan为CRAC通风口处的温度。
如图3所示,使用最近的R个状态来预测K时间之后的服务器入口温度;预测视野K为时间间隔s的整数倍,设k=K/s;也就是说,使用时间点t及其最近的R个状态预测时间点t+k 的服务器入口温度,预测行为表示为:
Tt+k,in=fk(P(t-R+1),P(t-R+2),…,P(t-1),P(t))
其中,fk表示要求解的模型,Tt+k,in表示t+k时刻服务器入口温度,函数fk的输入输出对即构成了数据集的输入和输出。
一条数据对如下:
<(P(t-R+1),P(t-R+2),…,P(t-1),P(t)),Tt+k,in>
另一条数据对如下:
<(P(t-R+2),P(t-R+3),…,P(t),P(t+1)),Tt+k+1,in>
随着时间轴的推移,能够产生大量的数据,构成需要的数据集。
(2)神经网络结构
采用三层神经网络结构:输入层、隐含层和输出层,其中,输入层的神经元个数与数据集输入参数的个数相等;输入参数的个数为10R(R∈N+),神经元个数为10R;隐含层神经元个数设置为20;输出参数只有一个,输出层神经元个数设置为1,激活函数选用Sigmoid函数,采用反向传播算法来训练神经网络。
(3)使用CFD仿真补充训练集
数据中心收集到的实际运行数据中可能不包含许多极少发生的异常情况数据,如服务器过度超载和空调故障导致的温度急剧升高等异常情况。为了解决这个问题,提出使用计算流体动力学模型为这些异常情况生成模拟数据,从而补充训练数据。
通过使用模拟的训练数据,使得异常情况的预测精度提高,由于计算流体动力学模型仅用于生成线下训练数据,可以满足在线预测的实时性需求。
2.基于温度预测的数据中心热量管理方法
在基于神经网络的数据中心温度预测算法的基础上,提出了一种热量管理方法。使用反馈控制策略管理数据中心各节点的温度。
请参阅图4,热量管理方法包括LVS和两个守护进程。
在每个服务器上有一个温度守护进程(称为tempd),在负载平衡器节点上有一个负载控制守护进程(称为ctrld);tempd定期醒来(实验中每分钟一次),并测量和计算服务器入口温度。tempd也负责触发和停用热反应,并向ctrld发送反馈信息;ctrld负责根据tempd的反馈来配置负载平衡器。
(1)tempd守护进程监控的是服务器入口温度,对变量定义三个阈值:低Tl、高Th、警戒Tv。
对于任意一个服务器,当tempd监测到服务器入口温度高于Th时,热反应被触发;此时 tempd向ctrld发送一个消息,ctrld根据此消息调整减少平衡器供给服务器的负载,从而降低服务器入口温度;守护进程通信和负载调整周期性重复(实验中每分钟一次),直到组件的温度低于Th;
当温度低于Tl,tempd命令ctrld解除对服务器提供负载的任何限制;对于Tl和Th之间的温度,负载分布不会被调整;
当温度高于Th时,启动调控;
当温度低于Tl时,关闭调控;处于两者之间则保持原样,不做处理。
算法的流程图如图5所示,当且仅当服务器入口温度高于警戒温度Tv,服务器被关闭;该阈值表示服务器能够达到的最大温度;Th设置为比Tv低一点,例如2℃,取决于温度在观测期内上升的速度。
(2)tempd发送的特定信息是PD(比例和微分)反馈控制器的输出,PD反馈控制器的输出计算如下:
output=kp(Tcurr-Th)+kd(Tcurr-Tlast)
output=max(output,0)
其中,kp和kd是增益常数,实验中分别设定为0.1和0.2,Tcurr和Tlast是当前和上一次测量到的温度。
反馈控制的目的是使温度下降到Th以下,当Tcurr-Th越大,表明温度超出的多,反馈需要加强,对应kp(Tcurr-Th)这一部分;当Tcurr-Tlast越大,表明温度增加的快,反馈也应该加强,这对应kd(Tcurr-Tlast)部分。
另外,由于Tcurr-Tlast可能为负,所以output可能为负;当output<0,令output=0。
基于tempd发送的信息output,ctrld强制LVS通过设置热服务器的权重来调整其请求分布,以使其仅接收当前正在接收的负载的1/(output+1);由于output≥0,所以1/(output+1)必然小于1,故负载权重会减小。
为了解决在整体的负载增加时,即使权重减少,实际分配到热服务器的负载可能是增加的这一问题,本申请通过限制当前时间间隔内发送到热服务的连接请求的数量,使当前时间间隔请求的数量不超过上一时间间隔的请求数量;使用变量C_hot记录每个热服务器在触发热反应之前的时间间隔内处理的连接请求数量,用变量C_curr记录当前时间间隔内负载均衡器分配到此热服务器的连接请求的累积数量,当C_curr≥C_hot,负载平衡器将不会将任何连接请求分配到此热服务器上。
通过改变权重和限制请求数量,本发明方法能够动态地将负载从热服务器上移开。
基于温度预测的数据中心热量管理方法能够自动调节反应强度以尽可能减少热量管理对温度的影响。但是会出现反应强度不合适的情况时,当反应过弱,降低热服务器温度的效果不好;当反应过强,会降低服务器性能。将基于温度预测的数据中心热量管理方法与温度预测算法相结合,通过温度预测算法来选择最佳的反应强度。
定义三个热反应r1、r2和r3,称为弱反应、中反应和强反应,反应强度依次增大,载控制守护进程ctrld根据tempd发送的信息output进行热反应选择,优先选择对性能影响小的反应 r1,如果不能满足降低温度的需求,再选择较强的反应。对每一种预定义的热反应,利用温度分布预测算法,预测热服务器未来一段时间的入口温度,最终选择适当的热反应。r1、r2和r3的值如下:
预定义的热反应可以有更多,理论上越多效果越好,只定义了三个,三个能够进行验证。然后通过预测来决定应该使用哪一个反应。
本发明反应选择算法遵循的基本原则如下:
优先选择对性能影响小的反应,即较弱的反应,如果较弱的反应不能满足降低温度的需求,再选择较强的反应。对每一种预定义的热反应,利用温度分布预测算法,预测热服务器未来一段时间(实验中是五分钟)的入口温度,选择适当的热反应。假设r1、r2和r3对应的预测温度分别为t1、t2、t3,用来选择反应的算法如图5所示。
算法热反应选择算法
输入:预定义的三个热反应
输出:选择的最佳热反应
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
测试平台由15台服务器(Dell PowerEdge 850)组成,放在一个机架上。使用的工具如下:
机架放在一个小房间中,由泡沫板隔热。机架上方是一个排气口,用于将热空气排除房间。空调放置在房间外,空调和房间地板的进气口相连,将冷空气直接送到机架前面,这与流行的高架地板冷却设计的冷却气流一致。如图6所示,在每一个服务器的入口和出口处分别放置一个无线温度传感器(型号是TelosB Mote TPR2420CA)。在地板进风口放置一个温度传感器和气流速度传感器(型号DegreeC F333)用来监测空调冷气风速和流速。
本发明收集了测试数据中心25小时的运行数据,收集的数据的时间间隔是5秒。使用其中21小时的数据训练模型,剩下的4小时数据进行测试。预测模型的参数设置为R=1,K=600s,即预测10分钟后的温度分布。对于这15个服务器,本发明的预测算法能够较为精确地预测服务器入口温度。事实上,本发明的预测算法的平均均方根误差为0.28℃。与其他的预测算法对比,所以本发明提出的预测算法能够降低预测误差。
搭建了一个单层的web服务器集群来运行我们的基于温度预测的热量管理系统,在LVS 负载平衡器的后面有4台Apache HTTP服务器。Apache HTTP服务器和LVS在配置有2个2.4G Hz至强E5620处理器,16G内存的浪潮英信NF5280M2服务器上运行。使用httperf产生HTTP 负载来测试我们的热量管理系统。,热量管理系统的三个参数Tl、Th、Tv分布设置为23℃、25℃、 27℃。图7是热量管理系统控制下的服务器入口温度随时间的变化曲线。可以看到,服务器的入口温度达到Th就会触发热反应,之后服务器入口温度开始降低。而且同样是触发了热反应,温度下降速度会有不同,这是热反应选择算法起的作用,这说明热量管理系统起到作用。实验可以证明,本文提出的热量管理方法可以有效地管理服务器的入口温度,避免热点的产生。
本发明提出的基于热局部性原理的联合建模框架能准确预测数据中心未来一段时间的温度,而且能够有效地减少模型训练时间,利于扩展到大型数据中心。基于温度预测的数据中心热量管理方法根据实时温度反馈和温度预测调节节点的工作负载来进行热量管理,能够有效地管理数据中心的温度,减少数据中心中的热点,保证数据中心的热安全需求,降低数据中心服务器的最大入口温度,达到降低制冷能耗的效果。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (10)
1.一种基于温度预测的数据中心热量管理方法,其特征在于,根据数据中心热量传播的局部特性,建立联合预测框架实现基于神经网络的数据中心温度预测算法,使用服务器节点实时运行数据、无线传感器数据和CFD仿真数据训练人工神经网络预测模型,预测数据中心服务器入口温度分布;然后使用反馈控制策略管理数据中心各节点的温度,通过调节节点的工作负载进行热量管理。
2.根据权利要求1所述的基于温度预测的数据中心热量管理方法,其特征在于,建立联合预测框架包括以下步骤:
S101、每隔一段时间s收集一次数据中心运行过程中的数据,生成训练数据集;
S102、确定神经网络的结构;训练神经网络包括提供多组输入和输出,并调整权重以使整个训练数据组的预测输出与实际输出之间的均方误差MSE最小化;
S103、使用计算流体动力学模型为数据中心异常运行情况生成模拟数据,补充训练数据,每一个服务器节点使用实际运行数据以及CFD仿真数据训练自己的神经网络模型,最终得到整个数据中心的温度分布。
3.根据权利要求2所述的基于温度预测的数据中心热量管理方法,其特征在于,步骤S101中,生成的训练数据为影响服务器入口温度的因素,包括服务器入口温度和出口温度,其邻居n-1和n+1的入口温度和出口温度,CRAC通风口处的空气速度和温度,以及CPU利用率和风扇转速,在时间点t,所有数据组成的向量P(t)计算如下:
其中,Tin为服务器入口温度,Tout为服务器出口温度,α为CPU利用率,为风扇转速,T+1,,in为上服务器入口温度,T+1,,out为上服务器出口温度,T-1,,in为下服务器入口温度,T-1,,out为下服务器出口温度,vfan为CRAC通风口处的气流速度,Tfan为CRAC通风口处的温度。
4.根据权利要求3所述的基于温度预测的数据中心热量管理方法,其特征在于,使用最近的R个状态预测K时间之后的服务器入口温度;预测视野K为时间间隔s的整数倍,设k=K/s;使用时间点t及其最近的R个状态预测时间点t+k的服务器入口温度,预测行为表示如下:
Tt+k,in=fk(P(t-R+1),P(t-R+2),…,P(t-1),P(t))
其中,fk表示要求解的模型,Tt+k,in表示t+k时刻服务器入口温度。
5.根据权利要求4所述的基于温度预测的数据中心热量管理方法,其特征在于,fk的输入输出对构成数据集的输入和输出,其中一条数据对如下:
<(P(t-R+1),P(t-R+2),…,P(t-1),P(t)),Tt+k,in>
另一条数据对如下:
<(P(t-R+2),P(t-R+3),…,P(t),P(t+1)),Tt+k+1,in>
随时间轴推移产生数据构成需要的数据集。
6.根据权利要求2所述的基于温度预测的数据中心热量管理方法,其特征在于,步骤S102中,输入层的神经元个数与数据集输入参数的个数相等;输入参数的个数为10R,R∈N+,神经元个数为10R;隐含层神经元个数设置为20;输出参数只有一个,输出层神经元个数设置为1,激活函数选用Sigmoid函数,采用反向传播算法训练神经网络。
7.根据权利要求1所述的基于温度预测的数据中心热量管理方法,其特征在于,使用反馈控制策略管理数据中心各节点的温度包括负载平衡器LVS和两个守护进程;
两个守护进程包括温度守护进程tempd和负载控制守护进程ctrld;温度守护进程tempd设置在每个服务器上,负载控制守护进程ctrld置在负载平衡器节点上;温度守护进程tempd每分钟醒来一次,并测量和计算服务器入口温度,用于触发和停用热反应,并向负载控制守护进程ctrld发送反馈信息;负载控制守护进程ctrld用于根据温度守护进程tempd的反馈配置负载平衡器,其中,基于output,强制LVS通过设置热服务器的权重调整其请求分布,以使其仅接收当前正在接收的负载的1/(output+1),output≥0,1/(output+1)>1。
8.根据权利要求7所述的基于温度预测的数据中心热量管理方法,其特征在于,温度守护进程tempd监控服务器的入口温度,对变量定义三个阈值:低Tl、高Th、警戒Tv,高Th设置低于警戒Tv;
对于任意一个服务器,当tempd监测到服务器入口温度高于Th时,热反应被触发;tempd向ctrld发送消息,ctrld根据此消息调整减少平衡器供给服务器的负载,降低服务器入口温度;守护进程通信和负载调整周期性重复,直到组件的温度低于Th;
当温度低于Tl,tempd命令ctrld解除对服务器提供负载的任何限制;对于Tl和Th之间的温度,负载分布不会被调整;
当温度高于Th时,启动调控;
当温度低于Tl时,关闭调控;处于两者之间则保持原样,不做处理;
当且仅当服务器入口温度高于警戒温度Tv,服务器被关闭;
tempd发送的特定信息是PD反馈控制器的输出,PD反馈控制器的输出计算如下:
output=kp(Tcurr-Th)+kd(Tcurr-Tlast)
output=max(output,0)
其中,kp和kd是增益常数,Tcurr和Tlast是当前和上一次测量到的温度;
反馈控制使温度下降到Th以下,当Tcurr-Th越大,表明温度超出的多,反馈需要加强,对应kp(Tcurr-Th)部分;当Tcurr-Tlast越大,表明温度增加的快,反馈也应该加强,对应kd(Tcurr-Tlast)部分;
当output<0,令output=0。
9.根据权利要求7所述的基于温度预测的数据中心热量管理方法,其特征在于,通过限制当前时间间隔内发送到热服务的连接请求的数量,使当前时间间隔请求的数量不超过上一时间间隔的请求数量;使用变量C_hot记录每个热服务器在触发热反应之前的时间间隔内处理的连接请求数量,用变量C_curr记录当前时间间隔内负载均衡器分配到此热服务器的连接请求的累积数量,当C_curr≥C_hot,负载平衡器不将任何连接请求分配到此热服务器上。
10.根据权利要求7所述的基于温度预测的数据中心热量管理方法,其特征在于,负载控制守护进程ctrld热反应选择算法遵循的基本原则如下原则:
定义r1为弱反应、r2为中反应,r3为强反应,负载控制守护进程ctrld根据tempd发送的信息output进行热反应选择,优先选择对性能影响小的反应r1,如果不能满足降低温度的需求,再选择较强的反应,对每一种预定义的热反应,利用温度分布预测算法,预测热服务器未来一段时间的入口温度最终选择适当的热反应计算如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811203363.XA CN109189190B (zh) | 2018-10-16 | 2018-10-16 | 一种基于温度预测的数据中心热量管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811203363.XA CN109189190B (zh) | 2018-10-16 | 2018-10-16 | 一种基于温度预测的数据中心热量管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109189190A true CN109189190A (zh) | 2019-01-11 |
CN109189190B CN109189190B (zh) | 2020-07-14 |
Family
ID=64944810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811203363.XA Active CN109189190B (zh) | 2018-10-16 | 2018-10-16 | 一种基于温度预测的数据中心热量管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109189190B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636068A (zh) * | 2019-01-23 | 2019-04-16 | 北京博得交通设备有限公司 | 一种列车门电机故障预测方法 |
CN110244797A (zh) * | 2019-05-22 | 2019-09-17 | 平安科技(深圳)有限公司 | 机房温度控制方法、装置、计算机设备及存储介质 |
CN111174375A (zh) * | 2019-12-11 | 2020-05-19 | 西安交通大学 | 面向数据中心能耗最小化的作业调度和机房空调调控方法 |
CN111782020A (zh) * | 2019-05-17 | 2020-10-16 | 北京京东尚科信息技术有限公司 | 服务器散热的方法和装置 |
CN112256094A (zh) * | 2020-11-13 | 2021-01-22 | 广东博通科技服务有限公司 | 一种基于深度学习的激活函数装置及其使用方法 |
TWI721411B (zh) * | 2019-01-30 | 2021-03-11 | 廣達電腦股份有限公司 | 感測和補償系統和補償溫度效應的方法 |
CN112888268A (zh) * | 2021-02-04 | 2021-06-01 | 中国工商银行股份有限公司 | 数据中心机房节能控制方法、装置、设备及存储介质 |
CN112996368A (zh) * | 2021-04-12 | 2021-06-18 | 上海有孚智数云创数字科技有限公司 | 数据中心的散热方法和装置 |
CN113360344A (zh) * | 2021-06-18 | 2021-09-07 | 山东云海国创云计算装备产业创新中心有限公司 | 一种服务器监控方法、装置、设备及计算机可读存储介质 |
CN113379246A (zh) * | 2021-06-10 | 2021-09-10 | 中国工商银行股份有限公司 | 服务器模块的能耗调控方法、装置及电子设备 |
CN114002952A (zh) * | 2021-09-29 | 2022-02-01 | 苏州浪潮智能科技有限公司 | 一种集群集中式散热调控系统及方法 |
US20220087075A1 (en) * | 2020-09-17 | 2022-03-17 | Nvidia Corporation | Predictive control using one or more neural networks |
CN114979185A (zh) * | 2022-05-12 | 2022-08-30 | 皖西学院 | 一种计算机应用节点的安全检测系统 |
CN115685941A (zh) * | 2022-11-04 | 2023-02-03 | 中国电子工程设计院有限公司 | 一种基于机柜热点温度预测的机房运行调控方法及装置 |
CN116127840A (zh) * | 2023-01-05 | 2023-05-16 | 无锡钊源电力电子有限公司 | 一种基于数据驱动的数据中心负荷预测方法 |
CN117251035A (zh) * | 2023-09-27 | 2023-12-19 | 中关村科学城城市大脑股份有限公司 | 散热控制方法、装置、电子设备和计算机可读介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102213475A (zh) * | 2011-03-22 | 2011-10-12 | 曙光信息产业(北京)有限公司 | 一种数据中心功耗自适应管理方法 |
CN102741833A (zh) * | 2009-08-12 | 2012-10-17 | 国际商业机器公司 | 用于数据中心的基于知识的模型 |
WO2014147691A1 (ja) * | 2013-03-18 | 2014-09-25 | 富士通株式会社 | 温度管理システム |
CN104423531A (zh) * | 2013-09-05 | 2015-03-18 | 中兴通讯股份有限公司 | 数据中心能耗调度处理方法及装置 |
US9568923B1 (en) * | 2015-10-27 | 2017-02-14 | International Business Machines Corporation | Determining a time for corrective action in a data center |
-
2018
- 2018-10-16 CN CN201811203363.XA patent/CN109189190B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102741833A (zh) * | 2009-08-12 | 2012-10-17 | 国际商业机器公司 | 用于数据中心的基于知识的模型 |
CN102213475A (zh) * | 2011-03-22 | 2011-10-12 | 曙光信息产业(北京)有限公司 | 一种数据中心功耗自适应管理方法 |
WO2014147691A1 (ja) * | 2013-03-18 | 2014-09-25 | 富士通株式会社 | 温度管理システム |
CN104423531A (zh) * | 2013-09-05 | 2015-03-18 | 中兴通讯股份有限公司 | 数据中心能耗调度处理方法及装置 |
US9568923B1 (en) * | 2015-10-27 | 2017-02-14 | International Business Machines Corporation | Determining a time for corrective action in a data center |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636068A (zh) * | 2019-01-23 | 2019-04-16 | 北京博得交通设备有限公司 | 一种列车门电机故障预测方法 |
TWI721411B (zh) * | 2019-01-30 | 2021-03-11 | 廣達電腦股份有限公司 | 感測和補償系統和補償溫度效應的方法 |
CN111782020A (zh) * | 2019-05-17 | 2020-10-16 | 北京京东尚科信息技术有限公司 | 服务器散热的方法和装置 |
CN110244797A (zh) * | 2019-05-22 | 2019-09-17 | 平安科技(深圳)有限公司 | 机房温度控制方法、装置、计算机设备及存储介质 |
CN110244797B (zh) * | 2019-05-22 | 2022-04-05 | 平安科技(深圳)有限公司 | 机房温度控制方法、装置、计算机设备及存储介质 |
CN111174375A (zh) * | 2019-12-11 | 2020-05-19 | 西安交通大学 | 面向数据中心能耗最小化的作业调度和机房空调调控方法 |
CN111174375B (zh) * | 2019-12-11 | 2021-02-02 | 西安交通大学 | 面向数据中心能耗最小化的作业调度和机房空调调控方法 |
US20220087075A1 (en) * | 2020-09-17 | 2022-03-17 | Nvidia Corporation | Predictive control using one or more neural networks |
CN112256094A (zh) * | 2020-11-13 | 2021-01-22 | 广东博通科技服务有限公司 | 一种基于深度学习的激活函数装置及其使用方法 |
CN112888268A (zh) * | 2021-02-04 | 2021-06-01 | 中国工商银行股份有限公司 | 数据中心机房节能控制方法、装置、设备及存储介质 |
CN112996368A (zh) * | 2021-04-12 | 2021-06-18 | 上海有孚智数云创数字科技有限公司 | 数据中心的散热方法和装置 |
CN113379246A (zh) * | 2021-06-10 | 2021-09-10 | 中国工商银行股份有限公司 | 服务器模块的能耗调控方法、装置及电子设备 |
CN113360344A (zh) * | 2021-06-18 | 2021-09-07 | 山东云海国创云计算装备产业创新中心有限公司 | 一种服务器监控方法、装置、设备及计算机可读存储介质 |
CN113360344B (zh) * | 2021-06-18 | 2023-03-21 | 山东云海国创云计算装备产业创新中心有限公司 | 一种服务器监控方法、装置、设备及计算机可读存储介质 |
CN114002952A (zh) * | 2021-09-29 | 2022-02-01 | 苏州浪潮智能科技有限公司 | 一种集群集中式散热调控系统及方法 |
CN114979185A (zh) * | 2022-05-12 | 2022-08-30 | 皖西学院 | 一种计算机应用节点的安全检测系统 |
CN114979185B (zh) * | 2022-05-12 | 2023-05-23 | 皖西学院 | 一种计算机应用节点的安全检测系统 |
CN115685941A (zh) * | 2022-11-04 | 2023-02-03 | 中国电子工程设计院有限公司 | 一种基于机柜热点温度预测的机房运行调控方法及装置 |
CN116127840A (zh) * | 2023-01-05 | 2023-05-16 | 无锡钊源电力电子有限公司 | 一种基于数据驱动的数据中心负荷预测方法 |
CN116127840B (zh) * | 2023-01-05 | 2023-09-22 | 无锡钊源电力电子有限公司 | 一种基于数据驱动的数据中心负荷预测方法 |
CN117251035A (zh) * | 2023-09-27 | 2023-12-19 | 中关村科学城城市大脑股份有限公司 | 散热控制方法、装置、电子设备和计算机可读介质 |
CN117251035B (zh) * | 2023-09-27 | 2024-04-12 | 中关村科学城城市大脑股份有限公司 | 散热控制方法、装置、电子设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109189190B (zh) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189190A (zh) | 一种基于温度预测的数据中心热量管理方法 | |
CN110753886B (zh) | 具有基于神经网络的约束生成的预测建筑物控制系统 | |
US11371739B2 (en) | Predictive building control system with neural network based comfort prediction | |
Satrio et al. | Optimization of HVAC system energy consumption in a building using artificial neural network and multi-objective genetic algorithm | |
US11415334B2 (en) | Building control system with automatic comfort constraint generation | |
CN109800066B (zh) | 一种数据中心节能调度方法及系统 | |
US20130190930A1 (en) | Energy Saving Control for Data Center | |
CN110440396A (zh) | 云边端协同的中央空调全局优化节能控制方法和系统 | |
CN109375994B (zh) | 基于rbf神经网络的数据中心任务温度预测及调度方法 | |
Qiu et al. | Model-free control method based on reinforcement learning for building cooling water systems: Validation by measured data-based simulation | |
US11067955B2 (en) | HVAC system using model predictive control with distributed low-level airside optimization | |
US20200041965A1 (en) | Hvac system using model predictive control with distributed low-level airside optimization and airside power consumption model | |
He et al. | Performance optimization of HVAC systems with computational intelligence algorithms | |
Li et al. | Experimental study of an indoor temperature fuzzy control method for thermal comfort and energy saving using wristband device | |
US10180261B1 (en) | Model based cooling control system | |
CN111174375B (zh) | 面向数据中心能耗最小化的作业调度和机房空调调控方法 | |
CN112413831A (zh) | 一种中央空调节能控制系统及方法 | |
CN110826784B (zh) | 能源使用效率的预测方法、装置及存储介质和终端设备 | |
Choi et al. | Development of an adaptive artificial neural network model and optimal control algorithm for a data center cyber–physical system | |
Dai et al. | A reinforcement learning-enabled iterative learning control strategy of air-conditioning systems for building energy saving by shortening the morning start period | |
CN113825356A (zh) | 冷源系统的节能控制方法、装置、电子设备和存储介质 | |
He et al. | Predictive control optimization of chiller plants based on deep reinforcement learning | |
CN115167562B (zh) | 一种机房温度控制方法和装置 | |
Wang et al. | A machine learning-based control strategy for improved performance of HVAC systems in providing large capacity of frequency regulation service | |
Zhao et al. | Prediction of functional zones cooling load for shopping mall using dual attention based LSTM: A case study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |