CN104360724A - 一种基于作业调度的刀片服务器的散热系统和方法 - Google Patents

一种基于作业调度的刀片服务器的散热系统和方法 Download PDF

Info

Publication number
CN104360724A
CN104360724A CN201410692786.8A CN201410692786A CN104360724A CN 104360724 A CN104360724 A CN 104360724A CN 201410692786 A CN201410692786 A CN 201410692786A CN 104360724 A CN104360724 A CN 104360724A
Authority
CN
China
Prior art keywords
blade server
module
information
power consumption
heat dissipation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410692786.8A
Other languages
English (en)
Other versions
CN104360724B (zh
Inventor
李麟
王松宇
张玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Co Ltd
Original Assignee
Dawning Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Co Ltd filed Critical Dawning Information Industry Co Ltd
Priority to CN201410692786.8A priority Critical patent/CN104360724B/zh
Publication of CN104360724A publication Critical patent/CN104360724A/zh
Application granted granted Critical
Publication of CN104360724B publication Critical patent/CN104360724B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • G06F1/206Cooling means comprising thermal management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3215Monitoring of peripheral devices
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Power Sources (AREA)

Abstract

本发明提供一种基于作业调度的刀片服务器的散热系统和方法,散热系统包括电源模块、风扇模块、能耗采集模块、能耗管理模块和作业调度模块,所述能耗采集模块定时采集每台刀片服务器的功耗信息、电源功率信息和风扇转速信息,能耗管理模块获得刀片服务器CPU占用率信息,对当前运行的作业进行监控,计算更加平衡的散热方法,更改作业模式,降低整体功耗。

Description

一种基于作业调度的刀片服务器的散热系统和方法
技术领域
本发明涉及一种服务器的散热方法,具体涉及一种基于作业调度的刀片服务器的散热系统和方法。
背景技术
具有高计算密度、优化部署、方便管理、资源共享、高性价比等明显优势的刀片服务器系统,是其发展的主要方向。刀片服务器获得广泛应用的主要原因在于其较高的性价比,但其高密度的特点也不可避免的带来电力消耗的较大增长,巨大的耗能引来了各方的关注。虽然节点密度快速增长,但使用效率却在低水平徘徊不前,例如最普遍的X86服务器集群,普遍认为其利用率低于30%。
龙芯3号系列CPU的出现代表着以国产处理器为核心的高端芯片在现有的处理器的基础上将IT计算行业提升到了一个新的高度。龙芯3号CPU采用MIPS架构,单颗CPU功耗低于15W,远低于X86架构的CPU,但大量处理器搭建的集群系统,与处理器相配套的内存、硬盘、电源以及整个机房的制冷系统都会指数型提升能耗。
因此需要提供一种针对龙芯处理器为核心的服务器的功耗进行监控的技术方案,并以此调度管理系统。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于作业调度的刀片服务器的散热系统和方法,基于龙芯刀片服务器进行功耗的监控和管理,并对当前运行作业进行监控,计算更加平衡的散热方法。
为了实现上述发明目的,本发明采取如下技术方案:
一种基于作业调度的刀片服务器的散热系统,所述系统包括电源模块、风扇模块、能耗采集模块、能耗管理模块和作业调度模块。
本发明提供的优选技术方案中,与刀片服务器的功耗传感器连接的所述能耗采集模块定时采集刀片服务器的功耗信息。
本发明提供的第二优选技术方案中,分别与电源模块和风扇模块连接的所述能耗采集模块实时采集电源模块的功率信息和风扇模块的转速信息。
本发明提供的第三优选技术方案中,所述能耗管理模块通过千兆网络与刀片服务器连接,获得刀片服务器CPU占用率信息。
本发明提供的第四优选技术方案中,一种基于作业调度的刀片服务器的散热方法,所述方法包括如下步骤:
(1)采集刀片服务器功耗信息、电源的功耗信息和风扇的转速信息;
(2)获得刀片服务器的CPU占用率信息,与刀片服务器功耗信息相对应;
(3)分析风扇转速信息及刀片服务器的CPU占用率和功耗信息,计算出作业调度方法,并对作业进行修改。
本发明提供的第五优选技术方案中,所述步骤(3)中作业调度方法包括如下步骤:
A、判断风扇转速是否超过基准值20%,若超过则对当前的作业进行调整;
B-1、若当前所有作业占用全部刀片服务器CPU数量的半数以下,则将CPU占用率大于50%的刀片服务器的一半作业转移到空闲服务器的CPU上,使所有的刀片服务器CPU占用率都小于50%;
B-2、若当前所有作业占用全部刀片服务器CPU数量的半数以上,则预先判断采用相邻作业互换是否能将当作业占用服务器CPU数量降到半数以下,若是则进行相邻作业互换,互换后再进行步骤B-1,否则不做处理。
与现有技术相比,本发明的有益效果在于:
本发明对龙芯刀片服务器进行功耗的监控和管理,以及对当前运行作业的监控,将作业在不同服务器上的进行调度,可有效降低刀片服务器散热所需的功耗,从而降低整体功耗。
附图说明
图1是龙芯刀片服务器功耗管理及散热框架图
图2是龙芯刀片服务器CPU使用率曲线图
图3是CPU占用率低于50%的初始状态的作业分布图
图4是CPU占用率高于50%的初始状态的作业分布图
图5是进行作业互换后的作业分布图
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明以曙光公司最新的TC4600L刀片系统为例。曙光TC4600L系统采用5U14片设计,即在5U的高度空间集成14台刀片服务器,每台刀片服器主板上有2颗龙芯3号处理器芯片,整个刀片系统共28颗处理器芯片,该14台刀片服务器采用相同配置。刀片系统采用统一的供电和散热系统,配备4颗2000kw电源和4颗最大转速2000RPM的风扇系统,可提供最大8000kw功率和最大8000RPM转速的散热性能。
如图1所示,能耗采集模块连接每台刀片服务器的功耗传感器以及电源模块和风扇模块,采集服务器实时功耗及电源功率和风扇转速,并将信息发送给能耗管理模块。
建立该刀片系统的散热模型,即测量在相同配置的刀片服务器中,采用相同的负载如图2所示,分为11档,即CPU使用率为0,10%,20%,30%,40%,50%,60%,70%,80%,90%,100%时服务器的总功耗及当前风扇转速。该结果是在标准室温25摄氏度,CPU温度低于60摄氏度,湿度20%的情况下测量。
若风扇转速超过基准值20%以上,则有必要对当前的作业调度系统进行调整。假设当前刀片服务器的平均CPU使用率为50%,但风扇转速达到7000转。其转速大于基准值55.6%[计算方法为:(7000-4500)/4500*100%],则可以判断超过基准值20%,需要对当前的作业分配进行调整。
(1)如图3所示,X轴为时间(单位:小时),Y轴为CPU数,在0时刻,当前28个CPU中有14个被占用,理论上风扇转速为4500转,但在局部服务器上,CPU是全部使用的(如CPU1,2在同一服务器上,均被占用),因此在这台服务器上是高于50%的负载运行。散热系统也会根据功耗最高的服务器进行散热,因此会大大提高风扇转速。针对于此现象,本发明设计将该作业的一部分分配至空闲的服务器的单个CPU,即作业1使用1,3,5,7,9,11号CPU,既可以完成作业,又能平衡整个刀片系统的功耗。同理,将作业3和作业4所需的CPU也根据服务器划分,使整个刀片系统的单台服务器CPU使用率都降至50%,可有效降低散热系统的转速,降至基准值20%范围以内。
(2)如图4所示,若当前作业所占用的CPU核数大于14颗,即所有CPU的1/2,则无法将所有作业所需的CPU均放在服务器的单颗CPU上,本发明提出作业互换的方法。本发明提出的作业互换均采用相邻作业的互换,一套作业调度系统只允许一次作业互换。如图5所示,互换后,在0时刻,使用CPU数低于总服务器CPU数量的一半,再进行(1)的操作。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (6)

1.一种基于作业调度的刀片服务器的散热系统,其特征在于,所述系统包括电源模块、风扇模块、能耗采集模块、能耗管理模块和作业调度模块。
2.根据权利要求1所述刀片服务器的散热系统,其特征在于,与刀片服务器的功耗传感器连接的所述能耗采集模块定时采集刀片服务器的功耗信息。
3.根据权利要求1所述刀片服务器的散热系统,其特征在于,分别与电源模块和风扇模块连接的所述能耗采集模块实时采集电源模块的功率信息和风扇模块的转速信息。
4.根据权利要求1所述刀片服务器的散热系统,其特征在于,所述能耗管理模块通过千兆网络与刀片服务器连接,获得刀片服务器CPU占用率信息。
5.一种基于作业调度的刀片服务器的散热方法,其特征在于,所述方法包括如下步骤:
(1)采集刀片服务器功耗信息、电源的功耗信息和风扇的转速信息;
(2)获得刀片服务器的CPU占用率信息,与刀片服务器功耗信息相对应;
(3)分析风扇转速信息及刀片服务器的CPU占用率和功耗信息,计算出作业调度方法,并对作业进行修改。
6.根据权利要求5所述刀片服务器的散热方法,其特征在于,所述步骤(3)中作业调度方法包括如下步骤:
A、判断风扇转速是否超过基准值20%,若超过则对当前的作业进行调整;
B-1、若当前所有作业占用全部刀片服务器CPU数量的半数以下,则将CPU占用率大于50%的刀片服务器的一半作业转移到空闲服务器的CPU上,使所有的刀片服务器CPU占用率都小于50%;
B-2、若当前所有作业占用全部刀片服务器CPU数量的半数以上,则预先判断采用相邻作业互换是否能将当作业占用服务器CPU数量降到半数以下,若是则进行相邻作业互换,互换后再进行步骤B-1,否则不做处理。
CN201410692786.8A 2014-11-26 2014-11-26 一种基于作业调度的刀片服务器的散热方法 Active CN104360724B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410692786.8A CN104360724B (zh) 2014-11-26 2014-11-26 一种基于作业调度的刀片服务器的散热方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410692786.8A CN104360724B (zh) 2014-11-26 2014-11-26 一种基于作业调度的刀片服务器的散热方法

Publications (2)

Publication Number Publication Date
CN104360724A true CN104360724A (zh) 2015-02-18
CN104360724B CN104360724B (zh) 2018-10-23

Family

ID=52527992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410692786.8A Active CN104360724B (zh) 2014-11-26 2014-11-26 一种基于作业调度的刀片服务器的散热方法

Country Status (1)

Country Link
CN (1) CN104360724B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159815A (zh) * 2015-09-02 2015-12-16 浪潮(北京)电子信息产业有限公司 高性能计算集群系统故障预测方法和装置
CN106406471A (zh) * 2015-07-31 2017-02-15 联想(新加坡)私人有限公司 冷却方法和冷却装置
WO2019033372A1 (zh) * 2017-08-17 2019-02-21 深圳市优品壹电子有限公司 温度控制方法及装置
CN112443507A (zh) * 2019-08-30 2021-03-05 宏碁股份有限公司 智能风扇转速调整方法、电脑装置及服务器
CN113245649A (zh) * 2021-05-28 2021-08-13 珠海格力精密模具有限公司 多电极高效加工方法
CN113721741A (zh) * 2021-08-26 2021-11-30 联泰集群(北京)科技有限责任公司 一种高性能计算集群平台散热的控制方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102064965A (zh) * 2010-12-10 2011-05-18 曙光信息产业(北京)有限公司 用于刀片服务器的管理系统和方法
CN103064769A (zh) * 2012-12-30 2013-04-24 长沙湘计海盾科技有限公司 双热备服务器系统
CN103902379A (zh) * 2012-12-25 2014-07-02 中国移动通信集团公司 一种任务调度方法、装置及服务器集群

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102064965A (zh) * 2010-12-10 2011-05-18 曙光信息产业(北京)有限公司 用于刀片服务器的管理系统和方法
CN103902379A (zh) * 2012-12-25 2014-07-02 中国移动通信集团公司 一种任务调度方法、装置及服务器集群
CN103064769A (zh) * 2012-12-30 2013-04-24 长沙湘计海盾科技有限公司 双热备服务器系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106406471A (zh) * 2015-07-31 2017-02-15 联想(新加坡)私人有限公司 冷却方法和冷却装置
CN105159815A (zh) * 2015-09-02 2015-12-16 浪潮(北京)电子信息产业有限公司 高性能计算集群系统故障预测方法和装置
CN105159815B (zh) * 2015-09-02 2018-06-19 浪潮(北京)电子信息产业有限公司 高性能计算集群系统故障预测方法和装置
WO2019033372A1 (zh) * 2017-08-17 2019-02-21 深圳市优品壹电子有限公司 温度控制方法及装置
CN112443507A (zh) * 2019-08-30 2021-03-05 宏碁股份有限公司 智能风扇转速调整方法、电脑装置及服务器
CN113245649A (zh) * 2021-05-28 2021-08-13 珠海格力精密模具有限公司 多电极高效加工方法
CN113721741A (zh) * 2021-08-26 2021-11-30 联泰集群(北京)科技有限责任公司 一种高性能计算集群平台散热的控制方法及系统

Also Published As

Publication number Publication date
CN104360724B (zh) 2018-10-23

Similar Documents

Publication Publication Date Title
CN104360724A (zh) 一种基于作业调度的刀片服务器的散热系统和方法
Zhang et al. Towards joint optimization over ICT and cooling systems in data centre: A survey
Wang et al. Thermal aware workload placement with task-temperature profiles in a data center
Wang et al. Towards thermal aware workload scheduling in a data center
Li et al. Tapa: Temperature aware power allocation in data center with map-reduce
CN102012891B (zh) 计算机集群管理方法、装置和系统
CN103345298A (zh) 一种基于虚拟it资源分配技术的数据中心节能系统及方法
CN104133727A (zh) 基于实时资源负载分配的方法
CN103645795A (zh) 一种基于人工神经网络的云计算数据中心节能方法
CN103105923A (zh) 云计算中心的it业务节能调度方法及其系统
CN105763367A (zh) 一种基于虚拟化的数据中心的能耗管理方法
CN105577796A (zh) 集群的功耗控制方法及装置
CN103078955A (zh) 一种云计算平台服务器状态转移装置及方法
Reddy et al. Best practices for sustainable datacenters
CN205692107U (zh) 一种分布式架构的集群微服务器系统
Lei et al. Global data center energy demand and strategies to conserve energy
Banerjee et al. Towards a net-zero data center
Basmadjian et al. Green data centers
CN103617090A (zh) 一种基于分布式管理的节能方法
Dlinnova et al. Energy consumption of MD calculations on hybrid and CPU-only supercomputers with air and immersion cooling
Moore et al. Going beyond CPUs: The potential of temperature-aware solutions for the data center
CN111083201A (zh) 一种工业物联网中针对数据驱动制造服务的节能资源分配方法
Seyedkazemi Ardebili et al. Thermal characterization of a tier0 datacenter room in normal and thermal emergency conditions
Friis et al. Strategies for minimization of energy consumption in data Centers
De Chiara et al. Data mining for big dataset-related thermal analysis of high performance computing (HPC) data center

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant