CN103593274A - 一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法 - Google Patents

一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法 Download PDF

Info

Publication number
CN103593274A
CN103593274A CN201310530405.1A CN201310530405A CN103593274A CN 103593274 A CN103593274 A CN 103593274A CN 201310530405 A CN201310530405 A CN 201310530405A CN 103593274 A CN103593274 A CN 103593274A
Authority
CN
China
Prior art keywords
node
network
idle
shutdown
ipmi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310530405.1A
Other languages
English (en)
Other versions
CN103593274B (zh
Inventor
陈良华
孙玉超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201310530405.1A priority Critical patent/CN103593274B/zh
Publication of CN103593274A publication Critical patent/CN103593274A/zh
Application granted granted Critical
Publication of CN103593274B publication Critical patent/CN103593274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Power Sources (AREA)

Abstract

一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法,网络环境包括:计算网络、管理网络、IPMI网络和管理节点资源监控机,管理节点资源监控机通过监控计算网络、管理网络、IPMI网络监控管理网络内的计算节点,通过作业调度PBS来提取计算节点使用情况,内容包括:1)监控到的节点使用情况Free空闲或者job-exclusive作业;2)节点开关机:通过管理网络发送系统关机命令来实现节点关机,通过IPMI网络,监控机通过IPMI协议命令对计算节点开机;通过监控整个资源的使用情况,设定开关机条件,在节点空闲时通过系统命令关机,在节点资源不足时,通过IPMI实现节点开机,达到动态开关机,节省功耗的目的。

Description

一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法
技术领域
本发明涉及计算机应用技术领域,具体地说是一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法。
背景技术
在高性能计算集群中,特别是大型集群中,往往有几百台计算节点组成计算资源,以每台节点400W功耗计算,一台服务器每天的耗电量就接近10度电,在集群实际运行过程中,可能某段时间,集群的使用率并不高,大部分或者一部分计算节点都是空闲状态,没有作业在运算,但节点还处于开机状态,这部分空闲节点浪费了大量电力,针对这种情况,我们可以监控起整个集群的使用情况,设定在空闲节点达到一定数量,连续空闲超过多少时间后,管理节点发送命令关闭一部分空闲计算节点,当监控到空闲节点不足时,再通过ipmi启动一部分节点,达到动态节约功耗的目的。
发明内容
本发明的目的是提供一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法。
本发明的目的是按以下方式实现的,网络环境包括:计算网络、管理网络、IPMI网络和管理节点资源监控机,管理节点资源监控机通过监控计算网络、管理网络、IPMI网络监控管理网络内的计算节点,通过作业调度PBS来提取计算节点使用情况,内容包括:
1)监控到的节点使用情况Free空闲或者job-exclusive作业;
2)节点开关机:通过管理网络发送系统关机命令来实现节点关机,通过IPMI网络,监控机通过IPMI协议命令对计算节点开机;
具体步骤如下:
1)根据集群的规模和使用频率,规划好集群需要预留的空闲节点资源数量,即保证整个集群系统有一定数量的空闲节点资源来使用户在提交作业后能立马分配到节点上,包括设定预留m个空闲计算节点;
2)为了避免计算节点频繁开机关,设定时间周期n个小时,当集群空闲节点资源数超过m后,持续n个小时,此时监控节点才发送关机命令,关闭多余的空闲计算节点,保证整个系统有m个空闲计算节点即可;
3)在pbs sever服务器上监控pbs提取到的节点状态free空闲或者job-exclusive作业,当free空闲节点超过m时开始计时,当计时时间大于时间n时,发送关机请求命令,关闭部分空闲节点,使集群系统保持m个空闲节点;
4)当监控脚本监测到集群空闲节点少于m个时,通过ipmi网络先判断出关机的节点,然后通过ipmi网络发送开机命令,开启一部分计算节点,使集群空闲计算节点保持在m个。
本发明的有益效果是:在高性能计算集群中,特别是大型集群中,往往有几百台计算节点组成计算资源,以每台节点400W功耗计算,一台服务器每天的耗电量就接近10度电,在集群实际运行过程中,可能某段时间,集群的使用率并不高,大部分或者一部分计算节点都是空闲状态,没有作业在运算,但节点还处于开机状态,这部分空闲节点浪费了大量电力,针对这种情况,我们可以监控起整个集群的使用情况,设定在空闲节点达到一定数量,连续空闲超过多少时间后,管理节点发送命令关闭一部分空闲计算节点,当监控到空闲节点不足时,再通过ipmi启动一部分节点,达到动态节约功耗的目的。
附图说明
图1是网络环境示意图;
图2是节约功耗流程图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
1)网络环境包括:计算网络、管理网络、IPMI网络和管理节点资源监控机,管理节点资源监控机通过监控计算网络、管理网络、IPMI网络监控管理网络内的计算节点,通过作业调度PBS来提取计算节点使用情况,1)监控到的节点使用情况Free(空闲)或者job-exclusive(作业);
2)节点开关机:通过管理网络发送系统关机命令来实现节点关机,通过IPMI网络,监控机通过IPMI协议命令对计算节点开机。
具体步骤如下:
1)根据集群的规模和使用频率,规划好集群需要预留的空闲节点资源数量,即保证整个集群系统有一定数量的空闲节点资源来使用户在提交作业后能立马分配到节点上,比如设定预留m个空闲计算节点;
2)为了避免计算节点频繁开机关,设定时间周期n个小时,当集群空闲节点资源数超过m后,持续n个小时,此时监控节点才发送关机命令,关闭多余的空闲计算节点,保证整个系统有m个空闲计算节点即可;
3)在pbs sever服务器上监控pbs提取到的节点状态free或者job-exclusive,当free节点超过m时开始计时,当计时时间大于时间n时,发送关机请求命令,关闭部分空闲节点,使集群系统保持m个空闲节点;
4)当监控脚本监测到集群空闲节点少于m个时,通过ipmi先判断出关机的节点,然后通过ipmi发送开机命令,开启一部分计算节点,使集群空闲计算节点保持在m个。
实施例
由浪潮承担建设的我国高校首套百万亿次超算系统——“清华大学百万亿次项目”获得清华大学高度认可,并成功应用于中国首个地球模拟器,承担了联合国政府间气候变化专门委员会第五次评估报告(IPCC-AR5)气候模拟、预测、评估试验的计算任务。
该系统由720个计算刀片组成计算节点,共8640个cpu计算核心。在系统投入前期,集群资源使用情况并不饱和,为了节省功耗,规划空闲节点资源维持在30个,当空闲节点超过30个15个小时后,系统会自动去关闭部分计算节点,当空闲资源不足30或者提交的作业核数超过360核后,系统会通过ipmi启动部分计算节点。
具体流程:
在管理节点上,监控pbsnodes –l free 列出free节点,通过wc –l计数为a;
1)当a >30时,开始计时,在计时过程中若a<=30计时停止并清0,当计时超过15小时后,对节点发送关机命令,关机数为a-30;
2) 当a <30时,通过ipmi发送开机命令,开机数为30-a。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法, 其特征在于,网络环境包括:计算网络、管理网络、IPMI网络和管理节点资源监控机,管理节点资源监控机通过监控计算网络、管理网络、IPMI网络监控管理网络内的计算节点,通过作业调度PBS来提取计算节点使用情况,内容包括:
1)监控到的节点使用情况Free空闲或者job-exclusive作业;
2)节点开关机:通过管理网络发送系统关机命令来实现节点关机,通过IPMI网络,监控机通过IPMI协议命令对计算节点开机;
具体步骤如下:
1)根据集群的规模和使用频率,规划好集群需要预留的空闲节点资源数量,即保证整个集群系统有一定数量的空闲节点资源来使用户在提交作业后能立马分配到节点上,包括设定预留m个空闲计算节点;
2)为了避免计算节点频繁开机关,设定时间周期n个小时,当集群空闲节点资源数超过m后,持续n个小时,此时监控节点才发送关机命令,关闭多余的空闲计算节点,保证整个系统有m个空闲计算节点即可;
3)在pbs sever服务器上监控pbs提取到的节点状态free空闲或者job-exclusive作业,当free空闲节点超过m时开始计时,当计时时间大于时间n时,发送关机请求命令,关闭部分空闲节点,使集群系统保持m个空闲节点;
4)当监控脚本监测到集群空闲节点少于m个时,通过ipmi网络先判断出关机的节点,然后通过ipmi网络发送开机命令,开启一部分计算节点,使集群空闲计算节点保持在m个。
CN201310530405.1A 2013-11-01 2013-11-01 一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法 Active CN103593274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310530405.1A CN103593274B (zh) 2013-11-01 2013-11-01 一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310530405.1A CN103593274B (zh) 2013-11-01 2013-11-01 一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法

Publications (2)

Publication Number Publication Date
CN103593274A true CN103593274A (zh) 2014-02-19
CN103593274B CN103593274B (zh) 2016-09-21

Family

ID=50083426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310530405.1A Active CN103593274B (zh) 2013-11-01 2013-11-01 一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法

Country Status (1)

Country Link
CN (1) CN103593274B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104270430A (zh) * 2014-09-19 2015-01-07 国云科技股份有限公司 一种适用于云计算的服务器远程调度方法
CN104750525A (zh) * 2015-03-25 2015-07-01 浪潮集团有限公司 一种服务器定时开关机的控制方法
CN110677901A (zh) * 2019-09-23 2020-01-10 深圳大学 一种通信设备节能管理方法、装置、存储介质及设备
CN111147565A (zh) * 2019-12-22 2020-05-12 北京浪潮数据技术有限公司 一种集群节点控制方法、装置、设备及可读存储介质
CN111741130A (zh) * 2020-07-31 2020-10-02 苏州交驰人工智能研究院有限公司 一种服务器管理方法、装置、设备及存储介质
CN111857323A (zh) * 2020-06-30 2020-10-30 苏州浪潮智能科技有限公司 一种降低计算集群的功耗的方法、系统、设备及存储介质
CN116820897A (zh) * 2023-08-31 2023-09-29 山东省地质测绘院 一种集群计算机运行调度控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6438553B1 (en) * 1998-12-28 2002-08-20 Nec Corporation Distributed job integrated management system and method
CN101661324A (zh) * 2009-07-21 2010-03-03 浪潮电子信息产业股份有限公司 一种多路服务器的节能方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6438553B1 (en) * 1998-12-28 2002-08-20 Nec Corporation Distributed job integrated management system and method
CN101661324A (zh) * 2009-07-21 2010-03-03 浪潮电子信息产业股份有限公司 一种多路服务器的节能方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHILOU YU 等: "Research of IPMI Management based on BMC SOC", 《MANAGEMENT AND SERVICE SCIENCE,2010 INTERNATIONAL CONFERENCE ON》 *
刘斌: "面向网络服务器集群的节能机制研究", 《万方学位论文》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104270430A (zh) * 2014-09-19 2015-01-07 国云科技股份有限公司 一种适用于云计算的服务器远程调度方法
CN104750525A (zh) * 2015-03-25 2015-07-01 浪潮集团有限公司 一种服务器定时开关机的控制方法
CN110677901A (zh) * 2019-09-23 2020-01-10 深圳大学 一种通信设备节能管理方法、装置、存储介质及设备
CN110677901B (zh) * 2019-09-23 2020-10-09 深圳大学 一种通信设备节能管理方法、装置、存储介质及设备
CN111147565A (zh) * 2019-12-22 2020-05-12 北京浪潮数据技术有限公司 一种集群节点控制方法、装置、设备及可读存储介质
CN111857323A (zh) * 2020-06-30 2020-10-30 苏州浪潮智能科技有限公司 一种降低计算集群的功耗的方法、系统、设备及存储介质
CN111741130A (zh) * 2020-07-31 2020-10-02 苏州交驰人工智能研究院有限公司 一种服务器管理方法、装置、设备及存储介质
CN116820897A (zh) * 2023-08-31 2023-09-29 山东省地质测绘院 一种集群计算机运行调度控制方法
CN116820897B (zh) * 2023-08-31 2023-11-21 山东省地质测绘院 一种集群计算机运行调度控制方法

Also Published As

Publication number Publication date
CN103593274B (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
CN103593274A (zh) 一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法
CN107330056B (zh) 基于大数据云计算平台的风电场scada系统及其运行方法
CN101242317B (zh) 时钟设备精度与稳定性监测方法
CN203773321U (zh) 发电厂sis/mis监管信息一体化系统
CN101883003A (zh) 一种计算机操作系统强制运行方法
CN203166515U (zh) 大型区域电网间的解列控制系统
JP2011129085A (ja) 電力消費を制御するスマートエネルギー管理装置およびその方法
CN103294599B (zh) 一种基于云的嵌入式软件交叉测试方法
BR112013005681A2 (pt) aparelho, método e software de computador para detecção de mudanças de topologia em redes elétricas
CN103713974A (zh) 一种高性能作业调度管理节点双机加固方法及设备
CN103227662A (zh) 一种基于状态控制的电力通信设备安全检测方法及系统
CN103970630A (zh) 一种服务器整机稳定性测试方法
CN102707193A (zh) 一种故障指示器超低功耗的实现方法
CN104270430A (zh) 一种适用于云计算的服务器远程调度方法
CN105095045A (zh) Android系统的后台服务监控方法及其系统
CN102819474B (zh) 系统操作的测试方法和装置
CN102043676A (zh) 虚拟化数据中心调度方法及系统
CN109656213B (zh) 具有失电保护机制的人机接口系统及分布式控制系统
CN111884339A (zh) 一种基于自适应开关动作的判断方法及系统
WO2014176974A1 (zh) 智能限电方法、装置及系统
CN103457926A (zh) 一种cms前置机与服务器的通讯方法
CN104155581A (zh) 一种配网电力故障判断的方法
CN205581614U (zh) 供水管网实时监控调度系统
CN104408262A (zh) 一种电网继电保护定值的在线评价方法及系统
CN112654077B (zh) 节能方法及装置、计算机可存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant