CN101833366B - 一种机群作业管理系统中低功耗的动态结点控制方法 - Google Patents

一种机群作业管理系统中低功耗的动态结点控制方法 Download PDF

Info

Publication number
CN101833366B
CN101833366B CN 201010137409 CN201010137409A CN101833366B CN 101833366 B CN101833366 B CN 101833366B CN 201010137409 CN201010137409 CN 201010137409 CN 201010137409 A CN201010137409 A CN 201010137409A CN 101833366 B CN101833366 B CN 101833366B
Authority
CN
China
Prior art keywords
node
state
dormancy
time
suspend
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201010137409
Other languages
English (en)
Other versions
CN101833366A (zh
Inventor
肖利民
梁爱华
刘卓
阮利
雷松松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Weishi Intelligent Iot Innovation Center Co ltd
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN 201010137409 priority Critical patent/CN101833366B/zh
Publication of CN101833366A publication Critical patent/CN101833366A/zh
Application granted granted Critical
Publication of CN101833366B publication Critical patent/CN101833366B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明一种机群作业管理系统中低功耗的动态结点控制方法,该方法有四大步骤:步骤一:对结点的状态进行划分;步骤二:设定时间阈值常量MAX_TIMESPAN,便于结点状态的调节;步骤三:根据机群系统的负载确定结点中每个状态所占比例,便于对计算结点进行分层管理;步骤四:根据作业量情况逐级动态调整各结点状态。本发明首先考虑作业的资源需求,根据机群系统中的作业量情况对计算结点的状态进行实时控制和分层次管理,以保证在系统性能不受影响的情况下降低系统的整体功耗。它在计算机群功耗技术领域内具有广泛地实用价值和应用前景。

Description

一种机群作业管理系统中低功耗的动态结点控制方法
(一)技术领域
本发明涉及一种机群的动态结点控制方法,具体涉及一种机群作业管理系统中低功耗的动态结点控制方法,属于计算机群功耗技术领域。
(二)背景技术
目前,在高性能计算领域,能耗问题越来越受到重视。如何降低机群系统的功耗是当前高性能计算领域研究的热点。
除了从硬件低功耗芯片等方面的考虑外,通过机群监控系统对结点状态进行控制是常用的方法之一,即休眠或关闭部分结点来降低功耗。这种方式需要由管理员根据当前系统负载确定休眠、唤醒或关闭多少结点以及对哪些结点进行以上操作。此方式对结点的控制较主观,不能根据机群系统中作业的实际需求,对结点进行动态调整。有可能会在降低系统功耗的同时,影响作业响应时间,使系统的吞吐率下降,从而降低系统的整体性能。
如果在机群作业调度系统中根据作业量对计算结点进行动态控制,可以避免以上静态调整带来的缺点,并且可以使机群系统性能不降低的情况下使系统的整体功耗下降,在高性能计算机领域有很重要的意义。
(三)发明内容
1、目的:有鉴于此,本发明的目的是提供一种机群作业管理系统中低功耗的动态结点控制方法,它首先考虑作业的资源需求,在满足需求的情况下对结点状态进行动态控制,从而降低系统的整体功耗。
2、技术方案:为达到上述目的,本发明的技术方案是这样的:
如图1所示,本发明一种机群作业管理系统中低功耗的动态结点控制方法,该方法包括以下步骤:
步骤101.对结点的状态进行划分;
步骤102.设定时间阈值常量MAX_TIMESPAN,便于结点状态的调节;
步骤103.根据机群系统的负载确定结点中每个状态所占比例,便于对计算结点进行分层管理;
步骤104.根据作业量情况逐级动态调整各结点状态;
其中,步骤101所述的结点状态可以划分为:空闲(idle)、忙碌(busy)、休眠、关机(down)。其中的休眠我们采用ACPI规范中的S3和S4两种方式。S3是挂起到内存,简称STR(Suspend to RAM),S4是挂起到硬盘,简称STD(Suspend to DISK)。即结点共包括5种状态。
本发明在硬件条件方面,要求机群系统中各结点同时支持挂起到内存(STR)和挂起到硬盘(STD)这两种休眠方式。在软件条件方面,若操作系统采用的是Linux,要求其内核版本在2.6.18以上,以避免低版本内核在电源管理方面的缺陷。
其中,步骤102和103中所述的时间阈值常量和各状态比例可由管理员根据系统实际情况做相应的调整。时间阈值MAX_TIMESPAN是调节结点状态时参考的时间戳,即当结点在某一状态的时间达到阈值,则可以将其调整为下一状态。
其中,步骤103所述的分层管理是指对系统中除忙碌状态以外的结点,其余结点按设定比例控制处于空闲、休眠(包括STR和STD)、关机状态的结点数,这样可以保证系统在任何时刻都有空闲、休眠、关机的结点,随时满足作业需求。
其中,步骤104所述的作业量情况是指系统当前的负载大小。如果当前系统作业队列为空,则按照各状态的结点比例,休眠或关闭部分空闲结点。反之,如果当前系统负载较大,资源不足造成作业排队,则根据作业需求唤醒相应数量的休眠结点,并调整其他各结点状态,使整个系统达到预先设定的比例。
休眠或关闭结点时,按照从空闲(idle)、STR休眠、STD休眠、关机的顺序进行逐级调整,唤醒则从相反的方向。由于每种状态的特点不同,STR休眠状态唤醒时间短,但是节能较少,STD休眠节能效果较好,但其唤醒时需要较长的时间,关机的节能最好,但远程开机需要更长的时间。基于每种状态的上述特点,我们通过分层次的控制方式逐级进行调整,可以避免作业骤然增多时,由于远程开机或唤醒时间过长造成作业响应时间加长,从而影响系统性能。
3、优点及功效:本发明一种机群作业管理系统中低功耗的动态结点控制方法,它与现有技术比,其主要优点是:(1)不是简单地休眠或关闭部分结点,而是根据系统中作业量情况动态调整结点状态,充分保证了系统中作业的资源需求;(2)对结点的状态进行分层管理,在更新结点状态时采用逐级调整的方法,并且在任何时刻系统中都有处于各种状态(空闲,休眠,关机)的计算结点,不会造成由于作业量骤增时批量唤醒结点而导致的系统性能下降,达到了在不降低系统性能的前提下降低系统功耗的目的。
(四)附图说明
图1低功耗结点状态控制流程示意图
图2根据作业量控制结点状态的流程示意图
图3系统负载小时结点状态转化图
图4系统负载大时结点状态转化图
(五)具体实施方式
为使本发明的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体实施例对本发明再作进一步详细的说明。
本发明的主要思想是根据机群系统中的作业量情况对计算结点的状态进行实时控制,并且对结点按各种状态分层次管理,以保证在系统性能不受影响的情况下降低系统的整体功耗。
硬件系统方面,机群结点均为联想深腾B714R刀片服务器,采用千兆以太网互联。软件系统方面,结点操作系统为Red Hat Enterprise Linux,内核版本为2.6.30,机群作业管理系统以开源软件Maui和OpenPBS为基础开发。
首先在系统中设定时间阈值MAX_TIMESPAN,但并不是只按照此阈值改变结点状态。为避免系统中系统负载骤然增加或减少导致计算结点状态频繁改变而影响硬件寿命,还要确定系统中除忙碌(busy)以外的四种状态(空闲、STR、STD、关机)结点数的比例。并在系统运行过程中按照空闲、STR、STD、关机的优先顺序保证结点比例。
下面以一实例进行说明,对各状态结点比例设定如下:空闲状态结点占30%,STR休眠状态结点占20%,STD休眠状态结点占20%,关机状态结点占30%。如图2所示,包括以下步骤:
步骤201:系统刚启动后,即在作业队列中没有作业的情况下,按照图3所示的结点状态转化图更新结点状态。
具体的结点更新过程如下:
判断各个计算结点处于每个状态的时间是否超过设定的时间阈值MAX_TIMESPAN。若计算结点处于空闲状态(idle)的时间超过MAX_TIMESPAN,则将该结点状态从空闲(idle)转变为STR休眠(Suspend to RAM),并在空闲结点数达到30%时停止更新;若计算结点处于STR休眠(Suspend to RAM)状态的时间超过MAX_TIMESPAN,则将该结点状态从STR休眠(Suspend to RAM)转变为STD休眠(Suspend to DISK),并在STR休眠结点数达到20%时停止更新;同样若计算结点处于STD休眠(Suspend to DISK)状态的时间超过MAX_TIMESPAN,则将该结点状态从STD休眠转变为关机(Down)状态,在STD休眠结点数达到20%时停止更新。
步骤202:在系统运行过程中,需按照系统中作业量的情况触发结点状态更新。当作业队列中无作业,则可以休眠、关闭部分结点;反之,若队列中有作业处于排队,则按相反的方向唤醒、开启结点。无论从哪个方向进行结点的更新,都要保证设定的各状态结点的比例保持不变。
根据队列情况的具体控制方法如下:
若队列中无作业,按照图3进行结点状态更新,并使系统中结点数达到预定比例要求。若已经达到比例要求,则不进行调整。
若队列中有作业,根据作业需求,判断资源是否满足需求。如果当前空闲结点不能满足需求,则按照作业需求量唤醒相应数量的结点,并按照图4所示依次更新空闲、STR、STD、关机各状态结点,使idle状态的结点数达到预定的比例要求30%,同时检查STR休眠状态的结点数是否达到预定比例20%,若未达到,则按比例调整STD休眠状态的结点为STR状态,以此类推,直到四种状态的结点均达到预定比例要求或系统中已无可更新的结点为止。否则,首先为作业分配结点,然后依据设定比例(30%,20%,30%,20%)按上述顺序对结点状态进行更新。
本实例中查看作业队列并进行相应的结点更新是在作业调度系统中依据调度周期循环执行的。采用上述结点状态控制方法可以做到尽量保证在任何时刻系统中各状态结点比例的恒定,以随时满足作业需求。
最后所应说明的是:以上实施例仅用以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种机群作业管理系统中低功耗的动态结点控制方法,即根据机群系统中负载变化通过对结点状态的动态控制进行低功耗管控的方法;在硬件条件方面,要求机群系统中各结点同时支持挂起到内存即STR和挂起到硬盘即STD这两种休眠方式;在软件条件方面,操作系统采用的是Linux,要求其内核版本在2.6.18以上,以避免低版本内核在电源管理方面的缺陷;其特征在于:
该方法具体步骤如下:
步骤一:对结点的状态进行划分;
步骤二:设定时间阈值常量MAX_TIMESPAN,便于结点状态的调节;
步骤三:根据机群系统的负载确定结点中每个状态所占比例,便于对计算结点进行分层管理;
步骤四:根据作业量情况逐级动态调整各结点状态;
其中,步骤一所述的对结点的状态进行划分,是分为:空闲即idle、忙碌即busy、休眠、关机即down;而休眠采用ACPI规范中的S3和S4两种方式:S3是挂起到内存,简称STR即Suspend to RAM,S4是挂起到硬盘,简称STD即Suspend to DISK;
其中,步骤二中所述的时间阈值常量MAX_TIMESPAN和步骤三中所述的结点中每个状态所占比例,是由管理员根据系统实际情况做相应的调整;时间阈值常量MAX_TIMESPAN是调节结点状态时参考的时间戳,即当结点在某一状态的时间达到阈值,则将其调整为下一状态;
其中,步骤三中所述的对计算结点分层管理,是指对系统中除忙碌状态以外的结点,其余结点按设定比例控制处于空闲、休眠、关机状态的结点数,这样保证系统在任何时刻都有空闲、休眠、关机的结点,随时满足作业需求;
其中,步骤四中所述的作业量情况是指系统当前的负载大小;如果当前系统作业队列为空,则按照各状态的结点比例,休眠或关闭部分空闲结点;反之,如果当前系统负载较大,资源不足造成作业排队,则根据作业需求唤醒相应数量的休眠结点,并调整其他各结点状态,使整个系统达到预先设定的比例;休眠或关闭结点时,按照从空闲即idle、STR休眠、STD休眠、关机的顺序进行逐级调整,唤醒则从相反的方向进行调整。
CN 201010137409 2010-03-29 2010-03-29 一种机群作业管理系统中低功耗的动态结点控制方法 Expired - Fee Related CN101833366B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010137409 CN101833366B (zh) 2010-03-29 2010-03-29 一种机群作业管理系统中低功耗的动态结点控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010137409 CN101833366B (zh) 2010-03-29 2010-03-29 一种机群作业管理系统中低功耗的动态结点控制方法

Publications (2)

Publication Number Publication Date
CN101833366A CN101833366A (zh) 2010-09-15
CN101833366B true CN101833366B (zh) 2013-03-13

Family

ID=42717459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010137409 Expired - Fee Related CN101833366B (zh) 2010-03-29 2010-03-29 一种机群作业管理系统中低功耗的动态结点控制方法

Country Status (1)

Country Link
CN (1) CN101833366B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102445978B (zh) * 2010-10-12 2016-02-17 深圳市金蝶中间件有限公司 一种管理数据中心的方法及设备
CN102902878B (zh) * 2012-08-17 2016-12-21 曙光信息产业(北京)有限公司 一种能源成本感知调度方法
CN102929720B (zh) * 2012-09-24 2017-06-23 曙光信息产业(北京)有限公司 一种节能作业调度系统
CN105677470B (zh) * 2016-01-07 2019-02-15 中国联合网络通信集团有限公司 虚拟机任务调度方法、虚拟机系统
CN111857323A (zh) * 2020-06-30 2020-10-30 苏州浪潮智能科技有限公司 一种降低计算集群的功耗的方法、系统、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1758610A (zh) * 2005-11-11 2006-04-12 清华大学 并行计算集群电源的能耗控制方法
WO2009131592A1 (en) * 2008-04-21 2009-10-29 Cluster Resources, Inc. System and method for managing energy consumption in a compute environment

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1758610A (zh) * 2005-11-11 2006-04-12 清华大学 并行计算集群电源的能耗控制方法
WO2009131592A1 (en) * 2008-04-21 2009-10-29 Cluster Resources, Inc. System and method for managing energy consumption in a compute environment

Also Published As

Publication number Publication date
CN101833366A (zh) 2010-09-15

Similar Documents

Publication Publication Date Title
US9715397B2 (en) Methods and apparatuses for controlling thread contention
Gu et al. Energy efficient scheduling of servers with multi-sleep modes for cloud data center
Zhou et al. A novel virtual machine deployment algorithm with energy efficiency in cloud computing
US8473768B2 (en) Power control apparatus and method for cluster system
CN101833366B (zh) 一种机群作业管理系统中低功耗的动态结点控制方法
CN102955549B (zh) 一种多核cpu的电源管理方法、系统及cpu
Saxe Power-efficient software
CN102929720B (zh) 一种节能作业调度系统
CN106059835B (zh) 一种低能耗计算机集群节点的高可靠性控制方法
CN101477403A (zh) 一种系统功耗自动控制方法
CN113672383A (zh) 一种云计算资源调度方法、系统、终端以及存储介质
US10528115B2 (en) Obtaining smoother power profile and improved peak-time throughput in datacenters
CN103645795A (zh) 一种基于人工神经网络的云计算数据中心节能方法
CN103823718A (zh) 一种面向绿色云计算的资源配置方法
WO2023015788A1 (zh) 一种面向能耗优化的无服务器计算资源分配系统
WO2013127151A1 (zh) 功耗封顶的控制方法、设备和系统
CN105005504B (zh) 一种安卓平台的单任务模式实现方法及系统
US9652027B2 (en) Thread scheduling based on performance state and idle state of processing units
WO2021078144A1 (zh) 能耗管理的方法和设备
CN103092328A (zh) 一种基于磁盘休眠的计算机节能的方法
CN101943944A (zh) 一种基于空闲历史信息的计算阵列节能方法
CN105700951B (zh) 一种实现cpu业务迁移的方法及装置
CN105933702A (zh) 一种基于任务敏感的功耗控制方法
Kant et al. Enhancing data center sustainability through energy-adaptive computing
CN104536833A (zh) 一种提高高频交易性能的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210126

Address after: 4 / F, Jiangnan modern industry research institute, science and Education City, Wujin District, Changzhou City, Jiangsu Province 213100

Patentee after: Changzhou Weishi intelligent IOT Innovation Center Co.,Ltd.

Address before: 100191 Beijing City, Haidian District Xueyuan Road No. 37 North College of computer

Patentee before: BEIHANG University

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130313