CN103268261A - 一种适用于大规模高效能计算机的层次式计算资源管理方法 - Google Patents

一种适用于大规模高效能计算机的层次式计算资源管理方法 Download PDF

Info

Publication number
CN103268261A
CN103268261A CN2012100429840A CN201210042984A CN103268261A CN 103268261 A CN103268261 A CN 103268261A CN 2012100429840 A CN2012100429840 A CN 2012100429840A CN 201210042984 A CN201210042984 A CN 201210042984A CN 103268261 A CN103268261 A CN 103268261A
Authority
CN
China
Prior art keywords
node
tree
computing
management
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100429840A
Other languages
English (en)
Inventor
鲁永泉
高鹏东
裘初
齐全
穆凯辉
王金涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Land High Tech System Science & Technology Co Ltd
Original Assignee
Suzhou Land High Tech System Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Land High Tech System Science & Technology Co Ltd filed Critical Suzhou Land High Tech System Science & Technology Co Ltd
Priority to CN2012100429840A priority Critical patent/CN103268261A/zh
Publication of CN103268261A publication Critical patent/CN103268261A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供一种适用于大规模高效能计算机的层次式计算资源管理方法,通过层次式软件架结构将所有计算节点组织成树形结构,每个计算节点树包含三种不同的节点类型,即叶节点、中间节点以及根节点。本发明所述方法采用多级分发调度策略,解决了高效能计算机系统中数量庞大的计算节点的有效管理和维护问题。通过动态的设置“子管理”节点和采用类似树形结构的管理模式,有效解决了单一管理调度节点所带来的系统瓶颈问题。

Description

一种适用于大规模高效能计算机的层次式计算资源管理方法
技术领域
本发明涉及计算机软件领域,特别涉及一种适用于大规模高效能计算机的层次式计算资源管理方法。
背景技术
在高效能计算机系统中,提高系统的性能,增强其可用性,满足多种类型应用的需求,是高效能计算机软件系统研发所面临的一个重要课题。而资源管理是影响其机器充分发挥性能和提高机器的利用率,以及用户可获得最高可用性的关键技术之一。
计算资源管理系统主要包括资源监控系统和作业管理系统两大部分,目前国际上对资源管理的研究多为针对集群系统、网格计算系统和MPP系统。大多数作业管理系统是遵循POSIX1003.2d标准,在早期的NQS基础上扩展了各自的资源配置和作业管理系统,如NQS、DQS、NQE、PBS等。它们针对异构网络环境的特点优化软硬件资源使用和管理,可以为多种应用提供集成的作业管理及可靠的批处理环境,采用负载平衡的调度算法,以提高系统的作业吞吐率。一些MPP机的资源管理系统就采用了改进的NQS和PBS系统。
例如Condor,它是一个独具特色的资源管理系统,是早期实现的作业管理系统之一。它是由Wisconsin大学研究设计的,采用了资源分类通告、远程过程调用和作业迁移三大技术,实现了预约、调度和负载平衡等功能,主要针对高吞吐率的应用而设计的。后续的许多系统如IBM公司的Loadlever,德国GENIAS公司的CODINE都受到它的影响。它目前面向网格系统设计了资源管理系统Condor-G,并获得了较好的应用。SUN的GridEngine(SGE)的目标是针对异构的、分布的计算环境提供可扩展的资源管理和调度工具。
另一种成功的分布式资源管理系统是由加拿大多伦多的PlatformComputing计算公司开发的商用系统LSF,将分散的网络资源以统一、可共享的计算资源视图呈现给用户,它的突出特点是提供了多种资源共享工具,把批处理、作业调度、多群机共享、负载分析平衡、并行生成五个独立的软件集成到LSF库中,用户通过一组实用程序命令使用LSF系统的功能。
目前国内外还有多种计算资源监控系统的实现,它们主要用于动态监控和收集分布于系统中各节点的状态,以及各种资源的利用率。各个监控系统实现的方式各不相同,采用的界面多种多样,但大多相对简单,未与作业管理系统集成。
综合整个国内外的研究来看,目前资源管理系统存在以下一些缺陷,大多数系统采用单一集中式全权管理,使管理的计算资源规模和种类受限;单一的管理和调度节点不可避免的成为系统的主要瓶颈之一,从而导致资源的联合预约、分配能力差、缺乏有效的事件功能、对容错机制的支持较弱等一系列问题。
然而,随着计算机性能的不断提高,尤其是高效能计算机的研发和不断进步,计算机节点规模巨大,硬件设备繁多,软件配置复杂,用户数量和作业数量增加,作业队列的数目和长度增加,这些量的变化最终将导致质的变化,给资源管理系统引入了许多新的挑战,使整个系统资源的管理及作业管理的有效性问题十分突出。因此,如何有效简便地安装和配置整个系统和应用,管理众多的软硬件资源,以及如何实现系统资源状态的有效监控,顺畅的获得各类资源信息,为系统管理员提供高效地管理和监控全系统资源的手段,这些都是资源管理系统软件必须解决的主要技术问题。
发明内容
为了克服现有技术中存在的技术问题,本发明提供了一种适用于大规模高效能计算机的层次式计算资源管理方法,能够克服大规模高效能计算机系统中由于单一管理调度节点所带来的各种瓶颈问题,通过采用类似树形结构的管理模式和动态的设置“子管理”节点,实现对高效能计算机系统中规模庞大的计算资源的有效管理和维护。
为了实现上述目的,本发明提供以下技术方案:
一种适用于大规模高效能计算机的层次式计算资源管理方法,通过层次式软件架结构将所有计算节点组织成树形结构,每个计算节点树包含三种不同的节点类型,即
叶节点:叶节点主要负责计算任务的执行,向上一层中间节点发送作业执行情况和节点资源使用情况,并向上一层中间节点汇报任务执行结果;
中间节点:中间节点的主要功能包括:(1)接收上一层中间节点或根节点分配的任务,向上一层中间节点或根节点发送作业执行情况和节点资源使用情况,并汇报任务执行结果;(2)实时监控下一层中间节点或叶节点的状态,收集本节点以下所有节点的负载信息;(3)任务调度决策,确保下层节点间的负载平衡;(4)与下层节点进行通信,分配计算任务,并接收计算结果;
根节点:根节点不同于高效能计算机的管理节点,它是管理节点随机选取的高效能计算机中的一个计算节点,根节点的主要功能包括:(a)接收管理节点分配的计算作业,分析作业中各个任务的资源请求类型,将计算作业划分为一系列任务,向管理节点发送作业执行情况和节点资源使用情况,并向管理节点返回作业执行结果;(b)实时监控计算节点树中所有节点的状态,收集中间节点及其下级所有节点的负载信息;(c)根据所掌握中间节点的负载信息,进行任务调度决策,使各中间节点保持负载平衡;(d)与中间节点通信,分配计算任务,并接收计算结果。
作为本发明的优选技术方案,所述计算作业过程包含以下两个关键步骤:
A)建立节点树:首先,管理节点随机选取一个计算节点作为计算节点树的第一个树节点,然后,采用通信代价等信息作为节点间的距离权重,按照权重从小到大的次序依次向计算节点树中添加与计算节点树距离最近的计算节点。建树算法采用B树算法,以确保计算节点树是平衡多叉树,不会出现某一中间节点负载很重而另一中间节点空闲的情况;
B)执行计算作业:高效能计算机的管理节点将作业投递到计算节点树的根节点上,根节点根据用户提交作业中所包含的描述信息自动将计算作业划分为一系列计算任务。
本发明带来的有益效果是:本发明所述方法采用多级分发调度策略,解决了高效能计算机系统中数量庞大的计算节点的有效管理和维护问题。通过动态的设置“子管理”节点和采用类似树形结构的管理模式,有效解决了单一管理调度节点所带来的系统瓶颈问题。
附图说明
图1为层次式节点架构示意图
图2为计算作业执行流程图
图3为计算任务调度过程示意图
图4为节点管理界面示意图
图5为节电池管理界面示意图
具体实施方式
下面对结合附图对本发明的较佳实施例作详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围作出更为清楚明确的界定。
如图1至图5所示,层次式的计算资源管理是大规模高效能计算机进行有效系统管理所不可或缺的重要技术之一。作为高效能计算机系统软件的重要组成部分,计算资源管理软件实现了对大规模计算节点的有效监控和管理。下面就以节点管理和节点池管理为例来说明层次式计算资源管理系统的一些功能特点。
在“节点管理”中,以列表的形式列出了所有可用的计算节点。列表的左下方有四个按钮,分别是刷新列表、搜索节点、查看节点和删除节点。管理员通过选中节点列表中的计算节点并选择“查看”按钮,可以进入节点信息页面,对选中节点的详细信息进行查看。管理员还可以查看节点的基本信息和节点的限制信息两大部分。
节点基本信息包括节点的名称、CPU数量、CPU构架、CPU类型、CPU主频、内存容量、操作系统类型、操作系统位数、系统运行状态、最近五分钟平均负载、当前运行任务数和最后一次连接时间等信息。节点限制信息包括节点是否可用,最大可用CPU数,CPU空间负载阀值,是否自动开启,所属节点池,任务信息这几项内容。管理员可在此对节点的使用进行限制,并通过点击保存按钮对修改进行保存。
在“节电池管理”中,管理员可以在节点池列表查看每个节点池的详细信息,包括节点池名、关联项目、节点数量、所包含的节点这几项内容。管理员还可以进行刷新表格、搜索节点池、新建节点池、查看节点池和删除节点池等操作。
管理员可以在弹出的搜索窗口中输入要搜索的节点池名称、关联项目名、包含节点名这三项中的其中几项或者所有项,从而对节点池进行搜索。搜索结果会以列表的形式给出。
总之,本专利提出的层次式计算资源管理方法为有效管理高效能计算机中的大规模计算节点资源提供了一种科学的手段,配合相应的作业调度软件,能够极大的方便最终用户的使用。
以上所述,仅为本发明的具体实施方式之一,但本发明的保护范围并不局限于此,任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims (2)

1.一种适用于大规模高效能计算机的层次式计算资源管理方法,其特征在于,通过层次式软件架结构将所有计算节点组织成树形结构,每个计算节点树包含三种不同的节点类型,即
叶节点:叶节点主要负责计算任务的执行,向上一层中间节点发送作业执行情况和节点资源使用情况,并向上一层中间节点汇报任务执行结果;
中间节点:中间节点的主要功能包括:(1)接收上一层中间节点或根节点分配的任务,向上一层中间节点或根节点发送作业执行情况和节点资源使用情况,并汇报任务执行结果;(2)实时监控下一层中间节点或叶节点的状态,收集本节点以下所有节点的负载信息;(3)任务调度决策,确保下层节点间的负载平衡;(4)与下层节点进行通信,分配计算任务,并接收计算结果;
根节点:根节点不同于高效能计算机的管理节点,它是管理节点随机选取的高效能计算机中的一个计算节点,根节点的主要功能包括:(a)接收管理节点分配的计算作业,分析作业中各个任务的资源请求类型,将计算作业划分为一系列任务,向管理节点发送作业执行情况和节点资源使用情况,并向管理节点返回作业执行结果;(b)实时监控计算节点树中所有节点的状态,收集中间节点及其下级所有节点的负载信息;(c)根据所掌握中间节点的负载信息,进行任务调度决策,使各中间节点保持负载平衡;(d)与中间节点通信,分配计算任务,并接收计算结果。
2.根据权利要求1所述的适用于大规模高效能计算机的层次式计算资源管理方法,其特征在于,所述计算作业过程包含以下两个关键步骤:
A)建立节点树:首先,管理节点随机选取一个计算节点作为计算节点树的第一个树节点,然后,采用通信代价等信息作为节点间的距离权重,按照权重从小到大的次序依次向计算节点树中添加与计算节点树距离最近的计算节点。建树算法采用B树算法,以确保计算节点树是平衡多叉树,不会出现某一中间节点负载很重而另一中间节点空闲的情况;
B)执行计算作业:高效能计算机的管理节点将作业投递到计算节点树的根节点上,根节点根据用户提交作业中所包含的描述信息自动将计算作业划分为一系列计算任务。
CN2012100429840A 2012-02-24 2012-02-24 一种适用于大规模高效能计算机的层次式计算资源管理方法 Pending CN103268261A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100429840A CN103268261A (zh) 2012-02-24 2012-02-24 一种适用于大规模高效能计算机的层次式计算资源管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100429840A CN103268261A (zh) 2012-02-24 2012-02-24 一种适用于大规模高效能计算机的层次式计算资源管理方法

Publications (1)

Publication Number Publication Date
CN103268261A true CN103268261A (zh) 2013-08-28

Family

ID=49011893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100429840A Pending CN103268261A (zh) 2012-02-24 2012-02-24 一种适用于大规模高效能计算机的层次式计算资源管理方法

Country Status (1)

Country Link
CN (1) CN103268261A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2960791A1 (en) 2014-06-27 2015-12-30 Fujitsu Limited Method of executing an application on a distributed computer system, a resource manager and a distributed computer system
CN106383845A (zh) * 2016-08-31 2017-02-08 天津南大通用数据技术股份有限公司 一种基于共享存储的mpp数据库数据重分布系统
CN107515784A (zh) * 2016-06-16 2017-12-26 阿里巴巴集团控股有限公司 一种在分布式系统中计算资源的方法与设备
CN108319500A (zh) * 2017-01-16 2018-07-24 阿里巴巴集团控股有限公司 一种云计算系统的操作方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1604042A (zh) * 2003-09-30 2005-04-06 国际商业机器公司 用于调度作业的方法、调度器以及网络计算机系统
CN1780230A (zh) * 2004-11-17 2006-05-31 北京三星通信技术研究有限公司 由资源受限设备构成的网络的管理方法
CN101883039A (zh) * 2010-05-13 2010-11-10 北京航空航天大学 大规模集群系统的数据传输网络及其构建方法
US20100287280A1 (en) * 2009-05-08 2010-11-11 Gal Sivan System and method for cloud computing based on multiple providers

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1604042A (zh) * 2003-09-30 2005-04-06 国际商业机器公司 用于调度作业的方法、调度器以及网络计算机系统
CN1780230A (zh) * 2004-11-17 2006-05-31 北京三星通信技术研究有限公司 由资源受限设备构成的网络的管理方法
US20100287280A1 (en) * 2009-05-08 2010-11-11 Gal Sivan System and method for cloud computing based on multiple providers
CN101883039A (zh) * 2010-05-13 2010-11-10 北京航空航天大学 大规模集群系统的数据传输网络及其构建方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2960791A1 (en) 2014-06-27 2015-12-30 Fujitsu Limited Method of executing an application on a distributed computer system, a resource manager and a distributed computer system
US10168751B2 (en) 2014-06-27 2019-01-01 Fujitsu Limited Method of executing an application on a distributed computer system, a resource manager and a distributed computer system
CN107515784A (zh) * 2016-06-16 2017-12-26 阿里巴巴集团控股有限公司 一种在分布式系统中计算资源的方法与设备
CN107515784B (zh) * 2016-06-16 2021-07-06 阿里巴巴集团控股有限公司 一种在分布式系统中计算资源的方法与设备
CN106383845A (zh) * 2016-08-31 2017-02-08 天津南大通用数据技术股份有限公司 一种基于共享存储的mpp数据库数据重分布系统
CN108319500A (zh) * 2017-01-16 2018-07-24 阿里巴巴集团控股有限公司 一种云计算系统的操作方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN104461740B (zh) 一种跨域集群计算资源聚合和分配的方法
CN102541640B (zh) 一种集群gpu资源调度系统和方法
US20140130057A1 (en) Scheduling jobs in a cluster
CN102981890B (zh) 一种在虚拟化数据中心内的计算任务及虚拟机部署方法
CN104657221A (zh) 一种云计算中基于任务分类的多队列错峰调度模型及方法
Li et al. Efficient multi-tenant virtual machine allocation in cloud data centers
CN103475538B (zh) 一种基于多接口的自适应的云服务测试方法
CN102932279A (zh) 一种云环境数据中心多维资源调度系统及方法
CN104915407A (zh) 一种基于Hadoop多作业环境下的资源调度方法
CN102833289B (zh) 一种分布式云计算资源组织和任务分配方法
EP3198494B1 (en) Communication for efficient re-partitioning of data
CN108108245B (zh) 一种云平台宽节点科学工作流的混合型调度方法及系统
CN105446816A (zh) 一种面向异构平台的能耗优化调度方法
CN103268261A (zh) 一种适用于大规模高效能计算机的层次式计算资源管理方法
CN100357930C (zh) 网格环境下的大规模数据并行型计算主系统
He et al. Energy-efficient framework for virtual machine consolidation in cloud data centers
CN102063329B (zh) 基于多代理协作的管理任务动态分解方法及系统
CN107070965B (zh) 一种虚拟化容器资源下的多工作流资源供给方法
Bendjoudi et al. An adaptive hierarchical master–worker (AHMW) framework for grids—Application to B&B algorithms
Naik et al. Scheduling tasks on most suitable fault tolerant resource for execution in computational grid
Maalla et al. The Construction of Heterogeneous Platform of Unified Service System Based on Cloud Computing [J]
CN111385153A (zh) 一种制造云的服务质量评价体系
Zhang et al. Performance-aware energy-efficient virtual machine placement in cloud data center
Lu et al. Grid load balancing scheduling algorithm based on statistics thinking
Du et al. OctopusKing: A TCT-aware task scheduling on spark platform

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130828