CN101833366B - 一种机群作业管理系统中低功耗的动态结点控制方法 - Google Patents
一种机群作业管理系统中低功耗的动态结点控制方法 Download PDFInfo
- Publication number
- CN101833366B CN101833366B CN 201010137409 CN201010137409A CN101833366B CN 101833366 B CN101833366 B CN 101833366B CN 201010137409 CN201010137409 CN 201010137409 CN 201010137409 A CN201010137409 A CN 201010137409A CN 101833366 B CN101833366 B CN 101833366B
- Authority
- CN
- China
- Prior art keywords
- node
- state
- dormancy
- time
- suspend
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000005059 dormancy Effects 0.000 claims description 32
- 230000001276 controlling effect Effects 0.000 claims description 7
- 230000002950 deficient Effects 0.000 claims description 2
- 230000009977 dual effect Effects 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 230000007958 sleep Effects 0.000 claims description 2
- 238000007726 management method Methods 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000004134 energy conservation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Abstract
本发明一种机群作业管理系统中低功耗的动态结点控制方法,该方法有四大步骤:步骤一:对结点的状态进行划分;步骤二:设定时间阈值常量MAX_TIMESPAN,便于结点状态的调节;步骤三:根据机群系统的负载确定结点中每个状态所占比例,便于对计算结点进行分层管理;步骤四:根据作业量情况逐级动态调整各结点状态。本发明首先考虑作业的资源需求,根据机群系统中的作业量情况对计算结点的状态进行实时控制和分层次管理,以保证在系统性能不受影响的情况下降低系统的整体功耗。它在计算机群功耗技术领域内具有广泛地实用价值和应用前景。
Description
(一)技术领域
本发明涉及一种机群的动态结点控制方法,具体涉及一种机群作业管理系统中低功耗的动态结点控制方法,属于计算机群功耗技术领域。
(二)背景技术
目前,在高性能计算领域,能耗问题越来越受到重视。如何降低机群系统的功耗是当前高性能计算领域研究的热点。
除了从硬件低功耗芯片等方面的考虑外,通过机群监控系统对结点状态进行控制是常用的方法之一,即休眠或关闭部分结点来降低功耗。这种方式需要由管理员根据当前系统负载确定休眠、唤醒或关闭多少结点以及对哪些结点进行以上操作。此方式对结点的控制较主观,不能根据机群系统中作业的实际需求,对结点进行动态调整。有可能会在降低系统功耗的同时,影响作业响应时间,使系统的吞吐率下降,从而降低系统的整体性能。
如果在机群作业调度系统中根据作业量对计算结点进行动态控制,可以避免以上静态调整带来的缺点,并且可以使机群系统性能不降低的情况下使系统的整体功耗下降,在高性能计算机领域有很重要的意义。
(三)发明内容
1、目的:有鉴于此,本发明的目的是提供一种机群作业管理系统中低功耗的动态结点控制方法,它首先考虑作业的资源需求,在满足需求的情况下对结点状态进行动态控制,从而降低系统的整体功耗。
2、技术方案:为达到上述目的,本发明的技术方案是这样的:
如图1所示,本发明一种机群作业管理系统中低功耗的动态结点控制方法,该方法包括以下步骤:
步骤101.对结点的状态进行划分;
步骤102.设定时间阈值常量MAX_TIMESPAN,便于结点状态的调节;
步骤103.根据机群系统的负载确定结点中每个状态所占比例,便于对计算结点进行分层管理;
步骤104.根据作业量情况逐级动态调整各结点状态;
其中,步骤101所述的结点状态可以划分为:空闲(idle)、忙碌(busy)、休眠、关机(down)。其中的休眠我们采用ACPI规范中的S3和S4两种方式。S3是挂起到内存,简称STR(Suspend to RAM),S4是挂起到硬盘,简称STD(Suspend to DISK)。即结点共包括5种状态。
本发明在硬件条件方面,要求机群系统中各结点同时支持挂起到内存(STR)和挂起到硬盘(STD)这两种休眠方式。在软件条件方面,若操作系统采用的是Linux,要求其内核版本在2.6.18以上,以避免低版本内核在电源管理方面的缺陷。
其中,步骤102和103中所述的时间阈值常量和各状态比例可由管理员根据系统实际情况做相应的调整。时间阈值MAX_TIMESPAN是调节结点状态时参考的时间戳,即当结点在某一状态的时间达到阈值,则可以将其调整为下一状态。
其中,步骤103所述的分层管理是指对系统中除忙碌状态以外的结点,其余结点按设定比例控制处于空闲、休眠(包括STR和STD)、关机状态的结点数,这样可以保证系统在任何时刻都有空闲、休眠、关机的结点,随时满足作业需求。
其中,步骤104所述的作业量情况是指系统当前的负载大小。如果当前系统作业队列为空,则按照各状态的结点比例,休眠或关闭部分空闲结点。反之,如果当前系统负载较大,资源不足造成作业排队,则根据作业需求唤醒相应数量的休眠结点,并调整其他各结点状态,使整个系统达到预先设定的比例。
休眠或关闭结点时,按照从空闲(idle)、STR休眠、STD休眠、关机的顺序进行逐级调整,唤醒则从相反的方向。由于每种状态的特点不同,STR休眠状态唤醒时间短,但是节能较少,STD休眠节能效果较好,但其唤醒时需要较长的时间,关机的节能最好,但远程开机需要更长的时间。基于每种状态的上述特点,我们通过分层次的控制方式逐级进行调整,可以避免作业骤然增多时,由于远程开机或唤醒时间过长造成作业响应时间加长,从而影响系统性能。
3、优点及功效:本发明一种机群作业管理系统中低功耗的动态结点控制方法,它与现有技术比,其主要优点是:(1)不是简单地休眠或关闭部分结点,而是根据系统中作业量情况动态调整结点状态,充分保证了系统中作业的资源需求;(2)对结点的状态进行分层管理,在更新结点状态时采用逐级调整的方法,并且在任何时刻系统中都有处于各种状态(空闲,休眠,关机)的计算结点,不会造成由于作业量骤增时批量唤醒结点而导致的系统性能下降,达到了在不降低系统性能的前提下降低系统功耗的目的。
(四)附图说明
图1低功耗结点状态控制流程示意图
图2根据作业量控制结点状态的流程示意图
图3系统负载小时结点状态转化图
图4系统负载大时结点状态转化图
(五)具体实施方式
为使本发明的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体实施例对本发明再作进一步详细的说明。
本发明的主要思想是根据机群系统中的作业量情况对计算结点的状态进行实时控制,并且对结点按各种状态分层次管理,以保证在系统性能不受影响的情况下降低系统的整体功耗。
硬件系统方面,机群结点均为联想深腾B714R刀片服务器,采用千兆以太网互联。软件系统方面,结点操作系统为Red Hat Enterprise Linux,内核版本为2.6.30,机群作业管理系统以开源软件Maui和OpenPBS为基础开发。
首先在系统中设定时间阈值MAX_TIMESPAN,但并不是只按照此阈值改变结点状态。为避免系统中系统负载骤然增加或减少导致计算结点状态频繁改变而影响硬件寿命,还要确定系统中除忙碌(busy)以外的四种状态(空闲、STR、STD、关机)结点数的比例。并在系统运行过程中按照空闲、STR、STD、关机的优先顺序保证结点比例。
下面以一实例进行说明,对各状态结点比例设定如下:空闲状态结点占30%,STR休眠状态结点占20%,STD休眠状态结点占20%,关机状态结点占30%。如图2所示,包括以下步骤:
步骤201:系统刚启动后,即在作业队列中没有作业的情况下,按照图3所示的结点状态转化图更新结点状态。
具体的结点更新过程如下:
判断各个计算结点处于每个状态的时间是否超过设定的时间阈值MAX_TIMESPAN。若计算结点处于空闲状态(idle)的时间超过MAX_TIMESPAN,则将该结点状态从空闲(idle)转变为STR休眠(Suspend to RAM),并在空闲结点数达到30%时停止更新;若计算结点处于STR休眠(Suspend to RAM)状态的时间超过MAX_TIMESPAN,则将该结点状态从STR休眠(Suspend to RAM)转变为STD休眠(Suspend to DISK),并在STR休眠结点数达到20%时停止更新;同样若计算结点处于STD休眠(Suspend to DISK)状态的时间超过MAX_TIMESPAN,则将该结点状态从STD休眠转变为关机(Down)状态,在STD休眠结点数达到20%时停止更新。
步骤202:在系统运行过程中,需按照系统中作业量的情况触发结点状态更新。当作业队列中无作业,则可以休眠、关闭部分结点;反之,若队列中有作业处于排队,则按相反的方向唤醒、开启结点。无论从哪个方向进行结点的更新,都要保证设定的各状态结点的比例保持不变。
根据队列情况的具体控制方法如下:
若队列中无作业,按照图3进行结点状态更新,并使系统中结点数达到预定比例要求。若已经达到比例要求,则不进行调整。
若队列中有作业,根据作业需求,判断资源是否满足需求。如果当前空闲结点不能满足需求,则按照作业需求量唤醒相应数量的结点,并按照图4所示依次更新空闲、STR、STD、关机各状态结点,使idle状态的结点数达到预定的比例要求30%,同时检查STR休眠状态的结点数是否达到预定比例20%,若未达到,则按比例调整STD休眠状态的结点为STR状态,以此类推,直到四种状态的结点均达到预定比例要求或系统中已无可更新的结点为止。否则,首先为作业分配结点,然后依据设定比例(30%,20%,30%,20%)按上述顺序对结点状态进行更新。
本实例中查看作业队列并进行相应的结点更新是在作业调度系统中依据调度周期循环执行的。采用上述结点状态控制方法可以做到尽量保证在任何时刻系统中各状态结点比例的恒定,以随时满足作业需求。
最后所应说明的是:以上实施例仅用以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。
Claims (1)
1.一种机群作业管理系统中低功耗的动态结点控制方法,即根据机群系统中负载变化通过对结点状态的动态控制进行低功耗管控的方法;在硬件条件方面,要求机群系统中各结点同时支持挂起到内存即STR和挂起到硬盘即STD这两种休眠方式;在软件条件方面,操作系统采用的是Linux,要求其内核版本在2.6.18以上,以避免低版本内核在电源管理方面的缺陷;其特征在于:
该方法具体步骤如下:
步骤一:对结点的状态进行划分;
步骤二:设定时间阈值常量MAX_TIMESPAN,便于结点状态的调节;
步骤三:根据机群系统的负载确定结点中每个状态所占比例,便于对计算结点进行分层管理;
步骤四:根据作业量情况逐级动态调整各结点状态;
其中,步骤一所述的对结点的状态进行划分,是分为:空闲即idle、忙碌即busy、休眠、关机即down;而休眠采用ACPI规范中的S3和S4两种方式:S3是挂起到内存,简称STR即Suspend to RAM,S4是挂起到硬盘,简称STD即Suspend to DISK;
其中,步骤二中所述的时间阈值常量MAX_TIMESPAN和步骤三中所述的结点中每个状态所占比例,是由管理员根据系统实际情况做相应的调整;时间阈值常量MAX_TIMESPAN是调节结点状态时参考的时间戳,即当结点在某一状态的时间达到阈值,则将其调整为下一状态;
其中,步骤三中所述的对计算结点分层管理,是指对系统中除忙碌状态以外的结点,其余结点按设定比例控制处于空闲、休眠、关机状态的结点数,这样保证系统在任何时刻都有空闲、休眠、关机的结点,随时满足作业需求;
其中,步骤四中所述的作业量情况是指系统当前的负载大小;如果当前系统作业队列为空,则按照各状态的结点比例,休眠或关闭部分空闲结点;反之,如果当前系统负载较大,资源不足造成作业排队,则根据作业需求唤醒相应数量的休眠结点,并调整其他各结点状态,使整个系统达到预先设定的比例;休眠或关闭结点时,按照从空闲即idle、STR休眠、STD休眠、关机的顺序进行逐级调整,唤醒则从相反的方向进行调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010137409 CN101833366B (zh) | 2010-03-29 | 2010-03-29 | 一种机群作业管理系统中低功耗的动态结点控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010137409 CN101833366B (zh) | 2010-03-29 | 2010-03-29 | 一种机群作业管理系统中低功耗的动态结点控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101833366A CN101833366A (zh) | 2010-09-15 |
CN101833366B true CN101833366B (zh) | 2013-03-13 |
Family
ID=42717459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010137409 Expired - Fee Related CN101833366B (zh) | 2010-03-29 | 2010-03-29 | 一种机群作业管理系统中低功耗的动态结点控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101833366B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102445978B (zh) * | 2010-10-12 | 2016-02-17 | 深圳市金蝶中间件有限公司 | 一种管理数据中心的方法及设备 |
CN102902878B (zh) * | 2012-08-17 | 2016-12-21 | 曙光信息产业(北京)有限公司 | 一种能源成本感知调度方法 |
CN102929720B (zh) * | 2012-09-24 | 2017-06-23 | 曙光信息产业(北京)有限公司 | 一种节能作业调度系统 |
CN105677470B (zh) * | 2016-01-07 | 2019-02-15 | 中国联合网络通信集团有限公司 | 虚拟机任务调度方法、虚拟机系统 |
CN111857323A (zh) * | 2020-06-30 | 2020-10-30 | 苏州浪潮智能科技有限公司 | 一种降低计算集群的功耗的方法、系统、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1758610A (zh) * | 2005-11-11 | 2006-04-12 | 清华大学 | 并行计算集群电源的能耗控制方法 |
WO2009131592A1 (en) * | 2008-04-21 | 2009-10-29 | Cluster Resources, Inc. | System and method for managing energy consumption in a compute environment |
-
2010
- 2010-03-29 CN CN 201010137409 patent/CN101833366B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1758610A (zh) * | 2005-11-11 | 2006-04-12 | 清华大学 | 并行计算集群电源的能耗控制方法 |
WO2009131592A1 (en) * | 2008-04-21 | 2009-10-29 | Cluster Resources, Inc. | System and method for managing energy consumption in a compute environment |
Also Published As
Publication number | Publication date |
---|---|
CN101833366A (zh) | 2010-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9715397B2 (en) | Methods and apparatuses for controlling thread contention | |
Gu et al. | Energy efficient scheduling of servers with multi-sleep modes for cloud data center | |
Zhou et al. | A novel virtual machine deployment algorithm with energy efficiency in cloud computing | |
US8473768B2 (en) | Power control apparatus and method for cluster system | |
CN101833366B (zh) | 一种机群作业管理系统中低功耗的动态结点控制方法 | |
CN102955549B (zh) | 一种多核cpu的电源管理方法、系统及cpu | |
Saxe | Power-efficient software | |
CN102929720B (zh) | 一种节能作业调度系统 | |
CN106059835B (zh) | 一种低能耗计算机集群节点的高可靠性控制方法 | |
CN101477403A (zh) | 一种系统功耗自动控制方法 | |
CN113672383A (zh) | 一种云计算资源调度方法、系统、终端以及存储介质 | |
US10528115B2 (en) | Obtaining smoother power profile and improved peak-time throughput in datacenters | |
CN103645795A (zh) | 一种基于人工神经网络的云计算数据中心节能方法 | |
CN103823718A (zh) | 一种面向绿色云计算的资源配置方法 | |
WO2023015788A1 (zh) | 一种面向能耗优化的无服务器计算资源分配系统 | |
WO2013127151A1 (zh) | 功耗封顶的控制方法、设备和系统 | |
CN105005504B (zh) | 一种安卓平台的单任务模式实现方法及系统 | |
US9652027B2 (en) | Thread scheduling based on performance state and idle state of processing units | |
WO2021078144A1 (zh) | 能耗管理的方法和设备 | |
CN103092328A (zh) | 一种基于磁盘休眠的计算机节能的方法 | |
CN101943944A (zh) | 一种基于空闲历史信息的计算阵列节能方法 | |
CN105700951B (zh) | 一种实现cpu业务迁移的方法及装置 | |
CN105933702A (zh) | 一种基于任务敏感的功耗控制方法 | |
Kant et al. | Enhancing data center sustainability through energy-adaptive computing | |
CN104536833A (zh) | 一种提高高频交易性能的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210126 Address after: 4 / F, Jiangnan modern industry research institute, science and Education City, Wujin District, Changzhou City, Jiangsu Province 213100 Patentee after: Changzhou Weishi intelligent IOT Innovation Center Co.,Ltd. Address before: 100191 Beijing City, Haidian District Xueyuan Road No. 37 North College of computer Patentee before: BEIHANG University |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130313 |