CN102902592A - 一种集群计算资源的分区调度管理方法 - Google Patents

一种集群计算资源的分区调度管理方法 Download PDF

Info

Publication number
CN102902592A
CN102902592A CN2012103334556A CN201210333455A CN102902592A CN 102902592 A CN102902592 A CN 102902592A CN 2012103334556 A CN2012103334556 A CN 2012103334556A CN 201210333455 A CN201210333455 A CN 201210333455A CN 102902592 A CN102902592 A CN 102902592A
Authority
CN
China
Prior art keywords
subregion
node
formation
management method
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103334556A
Other languages
English (en)
Other versions
CN102902592B (zh
Inventor
张磊
张涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuguang zhisuan Information Technology Co.,Ltd.
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201210333455.6A priority Critical patent/CN102902592B/zh
Publication of CN102902592A publication Critical patent/CN102902592A/zh
Application granted granted Critical
Publication of CN102902592B publication Critical patent/CN102902592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种集群计算资源的分区调度管理方法,包括下述步骤:(1)作业被提交到调度资源管理系统;(2)指定运行的作业队列;(3)判断作业队列所对应分区的空闲程度及优先顺序,并选择至少一个的分区;(4)确定作业运行所需的至少一个计算节点;(5)将作业调度到选定的计算节点上。本发明提供的集群计算资源的分区调度管理方法,解决了Torque资源管理器中节点资源配置方式单一,不适用于大规模集群及复杂节点资源配置需求的问题。同时本发明在较大的集群规模、复杂配置情况下也同样可以做到配置方便、动态设置的要求,并且保证了对计算节点资源的合理利用。

Description

一种集群计算资源的分区调度管理方法
技术领域
本发明涉及一种高性能计算集群的调度管理方法,具体涉及一种集群计算资源的分区调度管理方法。
背景技术
随着高性能计算集群在各高新领域的广泛应用,集群上的应用呈现出处理过程复杂、应用种类多样的态势,不同类型的应用,或同一应用使用不同的运行方式都可能对计算资源有着不同的要求,因此如何通过作业调度系统,对计算资源进行合理分配,使作业能够被调度到对应的分区上,并做到对分区以及分区与队列关系的动态调整变成为了具有重要应用价值的问题。
Torque 5.0中提供的针对队列的资源配置方法中,通过将单个计算节点与作业队列进行关联,来为队列中的作业分配可使用的计算资源。节点与队列的关联的具体方式为,修改关联队列的acl_hosts属性值为对应的节点名称。修改后,提交到该队列中的作业将会使用并且只能使用acl_hosts属性中所指定的节点资源。现有技术存在以下问题:
Torque中所提供的这种节点资源配置方式基本可以解决不同类型作业对于计算资源的不同需求的问题。但是由于配置方式单一,导致易用性较差,尤其在集群规模较大、节点或队列数目较多、资源配置策略复杂等情况下,使用该方法实现队列与资源对应配置的工作量将变的很大,甚至不具有可实施性。
发明内容
针对现有技术的不足,本发明提供一种集群计算资源的分区调度管理方法,该方法使用队列分区配置工具“Qpar”和分区节点配置工具“Pnode”,使资源配置过程在较大的集群规模、复杂配置情况下同样可以做到配置方便、动态设置的要求,并且保证了对计算节点资源的合理利用,具有很强的可实施性。
本发明的目的是采用下述技术方案实现的:
一种集群计算资源的分区调度管理方法,其改进之处在于,所述方法包括下述步骤:
(1)作业被提交到调度资源管理系统;
(2)指定运行的作业队列;
(3)判断作业队列所对应分区的空闲程度及优先顺序(空闲程度:当前,分区内计算资源的利用率。优先顺序:每个分区内对多个作业队列设置不同的优先级),并选择至少一个的分区;
(4)确定作业运行所需的至少一个计算节点;
(5)将作业调度到选定的计算节点上。
其中,所述步骤(1)中,作业被提交到调度资源管理系统Torque资源管理器中。
其中,所述步骤(2)中,通过Torque资源管理器指定运行的作业队列。
其中,所述步骤(3)中,根据队列分区配置工具Qpar的配置调度系统判断作业队列所对应分区的空闲程度及优先顺序,并选择至少一个的分区。
其中,所述队列分区配置工具Qpar是指用于配置、查看队列与队列分区表之间的对应关系;所述队列分区表中记录了队列与分区之间的对应信息。
其中,所述队列分区配置工具Qpar包括以下命令:
A、显示所有队列及各队列对应的分区;
B、显示指定队列的分区;
C、添加新的队列,添加的队列为默认设置;
D、为指定队列添加分区;
E、所述指定队列使用调度资源管理系统中的所有分区;
F、删除指定队列;
G、从队列中删除指定分区;
H、使队列分区配置生效命令。
其中,所述步骤(4)中,根据分区节点配置工具Pnode确定作业运行所需的至少一个计算节点。
其中,所述分区节点配置工具Pnode是指用于配置、查看分区与分区节点表之间的对应关系;所述分区节点表记录了分区与节点之间的对应信息。
其中,所述分区节点配置工具Pnode包括下述命令:
I、显示所有分区及各分区对应计算节点;
II、显示指定分区的对应节点;
III、添加新的分区,添加的分区为空分区;
IV、为指定分区添加计算节点;
V、指定分区使用调度资源管理系统中的所有计算节点;
VI、删除指定分区;
VII、从分区中删除指定计算节点;
VIII、使分区节点配置生效。
其中,所述步骤(5)中,Maui作业调度器将作业调度到选定的计算节点上。
其中,一个队列中包含至少一个分区;同一个分区或同时属于至少一个队列所有;一个分区中包含至少一个计算节点;同一个计算节点或属于至少一个分区;同一分区中所包含的计算节点不可重复。
与现有技术比,本发明达到的有益效果是:
本发明提供的集群计算资源的分区调度管理方法,解决了Torque资源管理器中节点资源配置方式单一,不适用于大规模集群及复杂节点资源配置需求的问题。同时本发明中所提供的队列分区配置工具“Qpar”、分区节点配置工具“Pnode”使资源配置过程在较大的集群规模、复杂配置情况下也同样可以做到配置方便、动态设置的要求,并且保证了对计算节点资源的合理利用。
附图说明
图1是本发明提供的队列、分区和计算节点资源配置图;
图2是本发明提供的集群计算资源的分区调度管理方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
高性能计算集群(HPCC,High Performance Computing Cluster):计算机科学的一个分支,以解决复杂的科学计算或数值计算问题为目的,是由多台节点机(服务器)构成的一种松散耦合的计算节点集合。
Torque是指一种开源的集群作业调度资源管理系统;Maui是指种开源的作业调度器。
为解决Torque中节点资源配置方式单一,不适用于大规模集群及复杂节点资源配置的问题,本发明在Torque和Maui的基础上引入了分区的概念,同时提供了“队列分区配置工具Qpar”、“分区节点配置工具Pnode”两种配置工具。
分区是对集群中节点资源进行统一划分管理的单位。分区概念的引入,解除了队列与计算节点之间的直接关联关系,建立了队列与分区、分区与节点两层关联关系。
本发明提供的队列、分区和计算节点资源配置如图1所示,一个队列中包含1个或多个分区;同一个分区也可以同时属于多个队列所有。
a、本发明中提供了队列分区配置工具“Qpar”,用于配置、查看队列与分区表之间的对应关系。该工具维护一份“队列分区表”文件,“队列分区表”文件中记录了所有队列与分区之间的对应信息。Qpar队列分区配置工具使用说明如表1所示:
表1 QPar队列分区配置工具使用说明
Figure BDA00002120971600041
如图1所示,一个分区中包含1个或多个计算节点资源;同一个计算节点根据实际需求也可以属于多个分区。但要求同一分区中所包含的计算节点不可重复。
本发明中提供了分区节点配置工具“Pnode”,用于配置、查看分区与计算节点表之间的对应关系。该工具维护一份“分区节点表”文件,“分区节点表”文件中记录了所有分区与计算节点之间的对应信息。分区节点配置工具“Pnode”使用说明如表2所示:
表2分区节点配置工具“Pnode”使用说明
Figure BDA00002120971600042
本发明提供的集群计算资源的分区调度管理方法的流程如图2所示,该方法包括下述步骤:
(1)作业被提交到调度资源管理系统:作业被提交到调度资源管理系统Torque资源管理器中。
(2)指定运行的作业队列:通过Torque资源管理器指定运行的作业队列。
(3)根据队列分区配置工具Qpar的配置调度系统判断作业队列所对应分区的空闲程度及优先顺序,并选择一个或多个的分区;
(4)根据分区节点配置工具Pnode确定作业运行所需的某个或多个计算节点;
(5)Maui作业调度器将作业调度到选定的计算节点上。
本发明提供的集群计算资源的分区调度管理方法,解决了Torque资源管理器中节点资源配置方式单一,不适用于大规模集群及复杂节点资源配置需求的问题。同时本发明在较大的集群规模、复杂配置情况下也同样可以做到配置方便、动态设置的要求,并且保证了对计算节点资源的合理利用。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (11)

1.一种集群计算资源的分区调度管理方法,其特征在于,所述方法包括下述步骤:
(1)作业被提交到调度资源管理系统;
(2)指定运行的作业队列;
(3)判断作业队列所对应分区的空闲程度及优先顺序,并选择至少一个的分区;
(4)确定作业运行所需的至少一个计算节点;
(5)将作业调度到选定的计算节点上。
2.如权利要求1所述的集群计算资源的分区调度管理方法,其特征在于,所述步骤(1)中,作业被提交到调度资源管理系统Torque资源管理器中。
3.如权利要求1所述的集群计算资源的分区调度管理方法,其特征在于,所述步骤(2)中,通过Torque资源管理器指定运行的作业队列。
4.如权利要求1所述的集群计算资源的分区调度管理方法,其特征在于,所述步骤(3)中,根据队列分区配置工具Qpar的配置调度系统判断作业队列所对应分区的空闲程度及优先顺序,并选择至少一个的分区。
5.如权利要求4所述的集群计算资源的分区调度管理方法,其特征在于,所述队列分区配置工具Qpar是指用于配置、查看队列与队列分区表之间的对应关系;所述队列分区表中记录了队列与分区之间的对应信息。
6.如权利要求5所述的集群计算资源的分区调度管理方法,其特征在于,所述队列分区配置工具Qpar包括以下命令:
A、显示所有队列及各队列对应的分区;
B、显示指定队列的分区;
C、添加新的队列,添加的队列为默认设置;
D、为指定队列添加分区;
E、所述指定队列使用调度资源管理系统中的所有分区;
F、删除指定队列;
G、从队列中删除指定分区;
H、使队列分区配置生效命令。
7.如权利要求1所述的集群计算资源的分区调度管理方法,其特征在于,所述步骤(4)中,根据分区节点配置工具Pnode确定作业运行所需的至少一个计算节点。
8.如权利要求7所述的集群计算资源的分区调度管理方法,其特征在于,所述分区节点配置工具Pnode是指用于配置、查看分区与分区节点表之间的对应关系;所述分区节点表记录了分区与节点之间的对应信息。
9.如权利要求8所述的集群计算资源的分区调度管理方法,其特征在于,所述分区节点配置工具Pnode包括下述命令:
I、显示所有分区及各分区对应计算节点;
II、显示指定分区的对应节点;
III、添加新的分区,添加的分区为空分区;
IV、为指定分区添加计算节点;
V、指定分区使用调度资源管理系统中的所有计算节点;
VI、删除指定分区;
VII、从分区中删除指定计算节点;
VIII、使分区节点配置生效。
10.如权利要求1所述的集群计算资源的分区调度管理方法,其特征在于,所述步骤(5)中,Maui作业调度器将作业调度到选定的计算节点上。
11.如权利要求1所述的集群计算资源的分区调度管理方法,其特征在于,一个队列中包含至少一个分区;同一个分区或同时属于至少一个队列所有;一个分区中包含至少一个计算节点;同一个计算节点或属于至少一个分区;同一分区中所包含的计算节点不可重复。
CN201210333455.6A 2012-09-10 2012-09-10 一种集群计算资源的分区调度管理方法 Active CN102902592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210333455.6A CN102902592B (zh) 2012-09-10 2012-09-10 一种集群计算资源的分区调度管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210333455.6A CN102902592B (zh) 2012-09-10 2012-09-10 一种集群计算资源的分区调度管理方法

Publications (2)

Publication Number Publication Date
CN102902592A true CN102902592A (zh) 2013-01-30
CN102902592B CN102902592B (zh) 2016-04-20

Family

ID=47574838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210333455.6A Active CN102902592B (zh) 2012-09-10 2012-09-10 一种集群计算资源的分区调度管理方法

Country Status (1)

Country Link
CN (1) CN102902592B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468446A (zh) * 2015-11-20 2016-04-06 浪潮电子信息产业股份有限公司 一种基于Linux的HPC作业调度实现高可用的方法
CN105677467A (zh) * 2015-12-31 2016-06-15 中国科学院深圳先进技术研究院 基于量化标签的Yarn资源调度器
CN107077513A (zh) * 2015-05-13 2017-08-18 甲骨文国际公司 用于数据的高效重新分区的通信
CN108475212A (zh) * 2015-12-17 2018-08-31 起元技术有限责任公司 使用动态分区来处理数据
CN108509256A (zh) * 2017-02-28 2018-09-07 华为技术有限公司 调度运行设备的方法、设备和运行设备
CN109828833A (zh) * 2018-11-02 2019-05-31 上海帆一尚行科技有限公司 一种神经网络训练任务的排队系统及其方法
CN110362403A (zh) * 2019-06-25 2019-10-22 苏州浪潮智能科技有限公司 一种作业调度方法及装置
CN111866188A (zh) * 2020-04-30 2020-10-30 中科院计算所西部高等技术研究院 具有ooda分形机制的计算机群构建方法
CN113703952A (zh) * 2020-05-20 2021-11-26 山东省计算中心(国家超级计算济南中心) 一种基于超级计算机的队列资源调度的资源分配方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1766842A (zh) * 2004-10-29 2006-05-03 国际商业机器公司 用于管理逻辑分区抢占的系统
US20080103861A1 (en) * 2006-04-27 2008-05-01 International Business Machines Corporation Fair share scheduling for mixed clusters with multiple resources

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1766842A (zh) * 2004-10-29 2006-05-03 国际商业机器公司 用于管理逻辑分区抢占的系统
US20080103861A1 (en) * 2006-04-27 2008-05-01 International Business Machines Corporation Fair share scheduling for mixed clusters with multiple resources

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张洋,陈文波,李廉,李兵,程应娥,燕昊: "《高性能集群作业管理系统TORQUE分析与应用实现》", 《计算机工程与科学》, vol. 29, no. 10, 31 October 2007 (2007-10-31), pages 133 - 3 *
杨义军,陆鑫达: "《神威作业管理及批作业调度模块的设计与实现》", 《计算机工程》, vol. 30, no. 13, 31 July 2004 (2004-07-31) *
魏玉琪: "《超级集群计算机系统的系统环境与运行策略研究及其在曙光4000A超级计算机系统的应用》", 《中国优秀硕博士学位论文全文数据库(硕士)信息科技辑》, no. 6, 15 June 2007 (2007-06-15) *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077513A (zh) * 2015-05-13 2017-08-18 甲骨文国际公司 用于数据的高效重新分区的通信
CN107077513B (zh) * 2015-05-13 2021-06-25 甲骨文国际公司 用于数据的高效重新分区的通信
CN105468446A (zh) * 2015-11-20 2016-04-06 浪潮电子信息产业股份有限公司 一种基于Linux的HPC作业调度实现高可用的方法
CN108475212A (zh) * 2015-12-17 2018-08-31 起元技术有限责任公司 使用动态分区来处理数据
CN108475212B (zh) * 2015-12-17 2021-12-31 起元技术有限责任公司 使用动态分区处理数据的方法、系统和计算机可读介质
CN105677467A (zh) * 2015-12-31 2016-06-15 中国科学院深圳先进技术研究院 基于量化标签的Yarn资源调度器
CN108509256B (zh) * 2017-02-28 2021-01-15 华为技术有限公司 调度运行设备的方法、设备和运行设备
CN108509256A (zh) * 2017-02-28 2018-09-07 华为技术有限公司 调度运行设备的方法、设备和运行设备
CN109828833B (zh) * 2018-11-02 2020-09-29 上海帆一尚行科技有限公司 一种神经网络训练任务的排队系统及其方法
CN109828833A (zh) * 2018-11-02 2019-05-31 上海帆一尚行科技有限公司 一种神经网络训练任务的排队系统及其方法
CN110362403A (zh) * 2019-06-25 2019-10-22 苏州浪潮智能科技有限公司 一种作业调度方法及装置
CN111866188A (zh) * 2020-04-30 2020-10-30 中科院计算所西部高等技术研究院 具有ooda分形机制的计算机群构建方法
CN111866188B (zh) * 2020-04-30 2022-05-17 中科院计算所西部高等技术研究院 具有ooda分形机制的计算机群构建方法
CN113703952A (zh) * 2020-05-20 2021-11-26 山东省计算中心(国家超级计算济南中心) 一种基于超级计算机的队列资源调度的资源分配方法
CN113703952B (zh) * 2020-05-20 2023-10-10 山东省计算中心(国家超级计算济南中心) 一种基于超级计算机的队列资源调度的资源分配方法

Also Published As

Publication number Publication date
CN102902592B (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
CN102902592A (zh) 一种集群计算资源的分区调度管理方法
CN102063336B (zh) 一种分布式计算多应用功能异步并发调度方法
CN107122243B (zh) 用于cfd仿真计算的异构集群系统及计算cfd任务的方法
CN102387173B (zh) 一种MapReduce系统及其调度任务的方法和装置
Daniels et al. Scheduling parallel manufacturing cells with resource flexibility
CN105446816B (zh) 一种面向异构平台的能耗优化调度方法
CN102521055B (zh) 一种虚拟机资源分配方法及其系统
CN102254246A (zh) 一种工作流管理方法及其系统
CN102508639A (zh) 一种基于卫星遥感数据特征的分布式并行处理方法
CN108123980A (zh) 一种资源调度方法及系统
Kao et al. Data-locality-aware mapreduce real-time scheduling framework
CN103500123A (zh) 异构环境中并行计算调度方法
CN114816715B (zh) 一种面向跨地域的流计算延迟优化方法及装置
CN106681823A (zh) 一种处理MapReduce数据倾斜的负载均衡方法
CN103488531B (zh) 一种基于多核处理器和fpga的软硬件混合实时任务调度方法
CN103336684B (zh) 一种并发处理ap消息的ac及其处理方法
CN103713942A (zh) 在集群中调度运行分布式计算框架的方法和系统
Tian et al. An online parallel scheduling method with application to energy-efficiency in cloud computing
CN108536539A (zh) 一种工业分布式数据采集系统中的任务调度方法
CN102208986A (zh) 一种集群功耗分配与控制方法
Wang et al. Task scheduling for MapReduce in heterogeneous networks
CN105867998A (zh) 一种虚拟机集群部署算法
Yin et al. Real-time task processing for spinning cyber-physical production systems based on edge computing
CN103812886A (zh) 计算机集群资源分配系统和方法
CN103257896A (zh) 一种云环境下的Max-D作业调度方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211022

Address after: 100089 zone A-1, floor 2, building 36, yard 8, Dongbeiwang West Road, Haidian District, Beijing

Patentee after: Shuguang zhisuan Information Technology Co.,Ltd.

Address before: 100193 No.36 Zhongguancun Software Park, No.8 Dongbeiwang West Road, Haidian District, Beijing

Patentee before: Dawning Information Industry (Beijing) Co.,Ltd.

TR01 Transfer of patent right