CN112433829A - 以用户为核心的高性能计算机资源管理方法 - Google Patents

以用户为核心的高性能计算机资源管理方法 Download PDF

Info

Publication number
CN112433829A
CN112433829A CN201910788892.9A CN201910788892A CN112433829A CN 112433829 A CN112433829 A CN 112433829A CN 201910788892 A CN201910788892 A CN 201910788892A CN 112433829 A CN112433829 A CN 112433829A
Authority
CN
China
Prior art keywords
queue
user
calculation
computing
resource management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910788892.9A
Other languages
English (en)
Inventor
陈德训
刘鑫
范昊
钱宇
徐金秀
张宏宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Jiangnan Computing Technology Institute
Original Assignee
Wuxi Jiangnan Computing Technology Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Jiangnan Computing Technology Institute filed Critical Wuxi Jiangnan Computing Technology Institute
Priority to CN201910788892.9A priority Critical patent/CN112433829A/zh
Publication of CN112433829A publication Critical patent/CN112433829A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/504Resource capping

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)

Abstract

本发明公开一种以用户为核心的高性能计算机资源管理方法,基于以下模块:用户队列模块,包含所有使用高性能计算机系统的用户,每个用户可以使用1~2个有限队列资源;计算队列模块,可包含高性能计算机系统中所有的计算节点,且每个计算节点只能加入到一个计算队列;计算节点队列模块,将计算节点按照该节点的网络地址进行编号;资源管理系统,当用户队列模块中的用户向计算队列模块中的计算队列提交作业时,用于判断该用户下面是否包含有该队列。本发明解决了大型超算中心计算资源管理低效问题,提高高性能计算机系统计算资源的管理和服务能力。

Description

以用户为核心的高性能计算机资源管理方法
技术领域
本发明涉及一种以用户为核心的高性能计算机资源管理方法,属于计算机技术领域。
背景技术
高性能计算机系统主要部署在不同级别的超算中心,通过网络面向各领域提供计算服务,根据超算中心所能提供计算资源的能力,用户规模可以从数十个到数万个不等。伴随着超级计算机的出现和发展,超级计算机的计算资源从单计算节点发展到当前的数万计算节点,计算核心数从单计算核心发展到现在的上千万核心,用户数从几个用户到上万用户,如何有效管理和调度这些计算资源与用户的关系,超级计算机的资源管理系统发挥着重要的作用。在高性能计算机系统中,计算队列数是有限的,但用户数是不断扩展的。传统的资源管理软件在用户数量上主要考虑百用户量级,当用户量达到上千、上万量级以后,已有管理策略效率低下,已经不适应现在大型超算中心对高性能计算机资源管理的需求。
目前高性能计算机系统部署的资源管理软件在计算资源的管理上主要以计算队列为核心,每个计算队列分配给不同的用户使用。对于浮点运行速度达到亿亿次量级以上的高性能计算机系统,当用户量达到千量级以上时,现有以计算队列为核心的资源管理软件,每个计算队列可能要分配上千个用户,但往往一个用户一般只使用1~2个或者有限的计算队列,这样造成了资源管理的灵活度和管理效率大大降低,资源管理复杂,计算资源利用率降低,同时增加了系统管理人员的工作负担。
发明内容
本发明的目的是提供一种以用户为核心的高性能计算机资源管理方法,该以用户为核心的高性能计算机资源管理方法解决了大型超算中心计算资源管理低效问题,提高高性能计算机系统计算资源的管理和服务能力。
为达到上述目的,本发明采用的技术方案是:一种以用户为核心的高性能计算机资源管理方法,基于以下模块:
计算队列模块,包含高性能计算机系统中所有的计算节点,且每个计算节点只能加入到一个计算队列,一套高性能计算机系统可创建多个计算队列;
计算节点队列模块,将计算节点按照该节点的网络地址进行统一编号,一套高性能计算机系统只包含一个计算节点队列;
用户队列模块,包含所有使用高性能计算机系统的用户,一套高性能计算机系统只包含一个用户队列,用户队列中的每个用户可以有限使用1~2个计算队列;
资源管理系统,用于管理用户队列、计算队列和计算节点队列,以及管理用户权限、计算任务的执行权限,还用于管理资源分配、任务调度、状态监控、资源回收功能;
所述资源管理方法包括以下步骤:
S1、用户队列A中的任一用户A1通过资源管理系统向计算队列模块B中的某一计算队列B1提交计算任务;
S2、资源管理系统判断用户A1中是否包含有计算队列B1,如果不包含,则用户A1无权使用计算队列B1,此次提交计算任务失败;
S3、如果用户A1中包含有计算队列B1,资源管理系统为用户A1在计算队列B1中分配计算资源,并提交计算任务;
S4、当计算任务运行结束后,资源管理系统回收计算资源给计算队列B1;
S5、资源管理系统一次提交计算任务结束。
上述技术方案中进一步改进的方案如下:
1. 上述方案中,所述用户队列中的任一用户需要提交计算任务时,需为该用户配置相应的计算队列,每个用户可以配置有限个计算队列,同一计算队列可配置给不同用户。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明以用户为核心的高性能计算机资源管理方法,使用与以往系统不同的以用户为核心的高性能计算机系统资源管理策略,通过检索用户,获得该用户可以使用的计算队列,当用户规模达到千量级以上规模时,资源管理的效率不会因为随着用户数的增加而降低,实现对高性能计算机系统资源的高效管理,且该方法同样适用于计算能力弱、用户数少的高性能计算机系统。
附图说明
附图1为本发明以用户为核心的高性能计算机资源管理方法原理示意图;
附图2为本发明以用户为核心的高性能计算机资源管理方法流程图。
具体实施方式
实施例:一种以用户为核心的高性能计算机资源管理方法,基于以下模块:
计算队列模块,包含高性能计算机系统中所有的计算节点,且每个计算节点只能加入到一个计算队列,一套高性能计算机系统可创建多个计算队列;
计算节点队列模块,将计算节点按照该节点的网络地址进行统一编号,一套高性能计算机系统只包含一个计算节点队列;
用户队列模块,包含所有使用高性能计算机系统的用户,一套高性能计算机系统只包含一个用户队列,用户队列中的每个用户可以有限使用1~2个计算队列;
资源管理系统,用于管理用户队列、计算队列和计算节点队列,以及管理用户权限、计算任务的执行权限,还用于管理资源分配、任务调度、状态监控、资源回收功能;
所述资源管理方法包括以下步骤:
S1、用户队列A中的任一用户(A1)通过资源管理系统向计算队列模块B中的某一计算队列(B1)提交计算任务;
S2、资源管理系统判断用户A1中是否包含有计算队列B1,如果不包含,则用户A1无权使用计算队列B1,此次提交计算任务失败;
S3、如果用户A1中包含有计算队列B1,资源管理系统为用户A1在计算队列B1中分配计算资源,并提交计算任务;
S4、当计算任务运行结束后,资源管理系统回收计算资源给计算队列B1;
S5、资源管理系统一次提交计算任务结束。
上述用户队列中的任一用户需要提交计算任务时,需为该用户配置相应的计算队列,每个用户可以配置有限个计算队列,同一计算队列可配置给不同用户。
实施例进一步解释如下:
本发明主要通过转变资源管理软件的核心管理对象,把管理对象从计算队列转变成用户,实现提高计算资源的管理效率目的,原理如图1所示:
1、A模块为用户队列,该队列包含所有使用高性能计算机系统的用户,每个用户可以使用1~2个有限队列资源,当该用户往某一计算队列提交作业时,资源管理系统只要判断该用户下面是否包含有该队列,由于队列数少,检索迅速,控制也方便;
2、B模块为计算队列,高性能计算机系统中所有的计算节点都可以分配到计算队列中,但同一个计算节点只能加入到一个计算队列;
3、C模块计算节点队列,计算节点一般按照该节点的网络地址进行编号;
4、从C模块到B模块的映射关系与原来系统保持一致统一,将原来A模块到B模块的映射改成从B模块到A模块的映射,即原系统采用检索B计算队列名获得可以使用该队列的包含在A中的所有用户,本专利采用检索A用户名来获得A用户可以使用的包含在B队列中的计算队列名。
采用上述以用户为核心的高性能计算机资源管理方法时,其使用与以往系统不同的以用户为核心的高性能计算机系统资源管理策略,通过检索用户,获得该用户可以使用的计算队列,当用户规模达到千量级以上规模时,资源管理的效率不会因为随着用户数的增加而降低,实现对高性能计算机系统资源的高效管理,且该方法同样适用于计算能力弱、用户数少的高性能计算机系统。
为了便于更好的理解本发明,下面将对本文中使用的术语进行简要的解释:
高性能计算机:英文为High Performance Computer,是指通过高性能计算网络把数十个以上处理器(计算节点)高效互连并统一在并行操作系统管理下而构建的一个独立的复杂计算机系统,主要提供科学与工程计算、大数据处理以及人工智能应用服务。
计算节点:在高性能计算机系统中,提供计算能力的功能部件。
计算队列:一组计算节点的集合,一台高性能计算机可以创建若干个计算队列。
超算中心:部署有高性能计算机,面向各应用领域提供计算资源服务的单位。
资源管理:用于高性能计算机中计算资源的统一管理、分配和计算任务的调度。
用户:在高性能计算机系统中,一个用户需要申请一个账号,不同用户对资源的使用权限可以不一样。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。

Claims (2)

1.一种以用户为核心的高性能计算机资源管理方法,其特征在于:基于以下模块:
计算队列模块,包含高性能计算机系统中所有的计算节点,且每个计算节点只能加入到一个计算队列,一套高性能计算机系统可创建多个计算队列;
计算节点队列模块,将计算节点按照该节点的网络地址进行统一编号,一套高性能计算机系统只包含一个计算节点队列;
用户队列模块,包含所有使用高性能计算机系统的用户,一套高性能计算机系统只包含一个用户队列,用户队列中的每个用户可以有限使用1~2个计算队列;
资源管理系统,用于管理用户队列、计算队列和计算节点队列,以及管理用户权限、计算任务的执行权限,还用于管理资源分配、任务调度、状态监控、资源回收功能;
所述资源管理方法包括以下步骤:
S1、用户队列A中的任一用户A1通过资源管理系统向计算队列模块B中的某一计算队列B1提交计算任务;
S2、资源管理系统判断用户A1中是否包含有计算队列B1,如果不包含,则用户A1无权使用计算队列B1,此次提交计算任务失败;
S3、如果用户A1中包含有计算队列B1,资源管理系统为用户A1在计算队列B1中分配计算资源,并提交计算任务;
S4、当计算任务运行结束后,资源管理系统回收计算资源给计算队列B1;
S5、资源管理系统一次提交计算任务结束。
2.根据权利要求1所述的以用户为核心的高性能计算机资源管理方法,其特征在于:所述用户队列中的任一用户需要提交计算任务时,需为该用户配置相应的计算队列,每个用户可以配置有限个计算队列,同一计算队列可配置给不同用户。
CN201910788892.9A 2019-08-26 2019-08-26 以用户为核心的高性能计算机资源管理方法 Withdrawn CN112433829A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910788892.9A CN112433829A (zh) 2019-08-26 2019-08-26 以用户为核心的高性能计算机资源管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910788892.9A CN112433829A (zh) 2019-08-26 2019-08-26 以用户为核心的高性能计算机资源管理方法

Publications (1)

Publication Number Publication Date
CN112433829A true CN112433829A (zh) 2021-03-02

Family

ID=74689835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910788892.9A Withdrawn CN112433829A (zh) 2019-08-26 2019-08-26 以用户为核心的高性能计算机资源管理方法

Country Status (1)

Country Link
CN (1) CN112433829A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109343958A (zh) * 2018-09-25 2019-02-15 江苏满运软件科技有限公司 计算资源分配方法、装置、电子设备、存储介质
CN109684092A (zh) * 2018-12-24 2019-04-26 新华三大数据技术有限公司 资源分配方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109343958A (zh) * 2018-09-25 2019-02-15 江苏满运软件科技有限公司 计算资源分配方法、装置、电子设备、存储介质
CN109684092A (zh) * 2018-12-24 2019-04-26 新华三大数据技术有限公司 资源分配方法及装置

Similar Documents

Publication Publication Date Title
US8631410B2 (en) Scheduling jobs in a cluster having multiple computing nodes by constructing multiple sub-cluster based on entry and exit rules
Razaque et al. Task scheduling in cloud computing
Sotiriadis et al. SimIC: Designing a new inter-cloud simulation platform for integrating large-scale resource management
US9769084B2 (en) Optimizing placement of virtual machines
Guo et al. Improving mapreduce performance in heterogeneous network environments and resource utilization
CN114741207B (zh) 一种基于多维度组合并行的gpu资源调度方法和系统
WO2023082560A1 (zh) 一种任务处理方法、装置、设备及介质
Bansal et al. Dynamic task-scheduling in grid computing using prioritized round robin algorithm
CN104239144A (zh) 一种多级分布式任务处理系统
Tantalaki et al. Pipeline-based linear scheduling of big data streams in the cloud
CN112882828B (zh) 基于slurm作业调度系统的昇腾处理器管理和调度方法
Wang et al. Improving task scheduling with parallelism awareness in heterogeneous computational environments
CN105677467A (zh) 基于量化标签的Yarn资源调度器
Selvi et al. Resource allocation issues and challenges in cloud computing
CN111597038B (zh) 一种超级计算机i/o转发结点轮询映射方法
Wang et al. Dependency-aware network adaptive scheduling of data-intensive parallel jobs
CN103049326A (zh) 在作业管理与调度系统中管理作业程序的方法和系统
CN111459648A (zh) 面向应用程序的异构多核平台资源优化方法和装置
CN112433829A (zh) 以用户为核心的高性能计算机资源管理方法
Ding et al. Data locality-aware and QoS-aware dynamic cloud workflow scheduling in Hadoop for heterogeneous environment
CN111522637B (zh) 一种基于成本效益的storm任务调度方法
CN106357676A (zh) 一种云服务资源开销优化方法
Zhang et al. Optimising data access latencies of virtual machine placement based on greedy algorithm in datacentre
Chen et al. Pickyman: A preemptive scheduler for deep learning jobs on gpu clusters
Lu et al. Synchronous Dislocation Scheduling Quantum Algorithm Optimization in Virtual Private Cloud Computing Environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210302