CN110941491A - 一种超算平台资源使用监控方法 - Google Patents

一种超算平台资源使用监控方法 Download PDF

Info

Publication number
CN110941491A
CN110941491A CN201911149070.2A CN201911149070A CN110941491A CN 110941491 A CN110941491 A CN 110941491A CN 201911149070 A CN201911149070 A CN 201911149070A CN 110941491 A CN110941491 A CN 110941491A
Authority
CN
China
Prior art keywords
user
current computing
computing resource
user task
scheduling system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911149070.2A
Other languages
English (en)
Inventor
周佳佳
戴超群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Jiaochi Artificial Intelligence Research Institute Co Ltd
Original Assignee
Suzhou Jiaochi Artificial Intelligence Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Jiaochi Artificial Intelligence Research Institute Co Ltd filed Critical Suzhou Jiaochi Artificial Intelligence Research Institute Co Ltd
Priority to CN201911149070.2A priority Critical patent/CN110941491A/zh
Publication of CN110941491A publication Critical patent/CN110941491A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5044Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering hardware capabilities

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种超算平台资源使用监控方法,包括:确定当前计算资源上正在执行的用户任务进程的数量;当正在执行的用户进程的数量是否大于或等于2;如果是,则确定调度系统是否已将当前计算资源分配,如果未分配,则确定当前计算资源上正在执行的用户任务进程全部为错误提交的用户任务进程。

Description

一种超算平台资源使用监控方法
技术领域
本发明涉及超算领域,尤其涉及一种超算平台资源使用监控方法。
背景技术
超算平台在各行各业中已经得到广泛应用。用户在向超算平台提交任务时,会申请所需计算资源,包括CPU和GPU等,超算平台的调度系统为该任务分配计算资源。在合理情况下,该计算资源被分配的用户提交的任务进程占用使用。但实际情况中存在不合理的情形,比如其他用户向该计算资源不合理提交任务进程导致冲突等问题。这些不合理情形需要超算平台的运维人员定期排查并解决,现有技术中对这些问题的排查主要依靠人工基于随意的逻辑进行,效率非常低下。
发明内容
本发明的目的在于提供一种超算平台资源使用监控方法,能够快速发现各种不合理资源使用问题,为运维人员采取后续措施提供帮助。
为实现上述目的,本发明一方面提供一种超算平台资源使用监控方法,包括:
确定当前计算资源上正在执行的用户任务进程的数量;
当正在执行的用户进程的数量是否大于或等于2;如果是,则确定调度系统是否已将当前计算资源分配,如果未分配,则确定当前计算资源上正在执行的用户任务进程全部为错误提交的用户任务进程。
在一个优先的实施例中,所述方法还包括:如果确定调度系统已将当前计算资源分配,则比较正在执行的用户任务进程对应的用户是否与调度系统为当前计算资源分配给的用户一致,将不一致的用户任务进程判定为错误提交的用户任务进程。
通过上述实施例,能够快速发现各种不合理资源使用问题,为运维人员采取后续措施提供帮助。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例提供的一种超算平台资源使用监控方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
超算平台GPU利用率低的原因有很多种,本专利发明人通过长期工作的经验总结将GPU利用率低的原因归纳为几类典型问题。同时在实际中对这些问题的排查通常是费时费力的,为此发明人开发出一套排查这些问题的解决方案,可以通过自动执行的脚本文件等方式定期自动巡查导致GPU利用率低的各种现象的发生,极大降低为提高GPU利用率而产生的运维工作量大的问题。
图1示出了本发明实施例提供的一种超算平台资源使用监控方法,该方法包括:
步骤S101:确定当前计算资源上正在执行的用户任务进程的数量。
当前计算资源可以是GPU等成本较高的计算资源。确定用户任务进程的数量可以通过运行在当前计算资源所在的服务器上的脚本来实现。
需要说明的是,为了给后续排查更多问题提供依据,在本发明一种优选的实施例中,即便当前计算资源上没有正在执行的用户任务进程,步骤S101也可以将正在执行的用户任务进程的数量返回为“1”,尽管这样的设置与当前计算资源上实际有1个用户任务进程在执行产生一定的混淆,但是后文将详细介绍这样的处理将有助于发现产生当前计算资源浪费的更多问题。
当确定当前计算资源上正在执行的用户任务进程的数量大于或等于2时,从步骤S102开始继续执行。当确定当前计算资源上正在执行的用户任务进程的数量等于1时,从步骤S105开始继续执行。
步骤S102:当确定当前计算资源上正在执行的用户任务进程的数量大于或等于2时,确定调度系统是否已经将当前计算资源分配。
可以借助squeue指令获得调度系统对当前计算资源的分配情况。实际中可以获知调度系统为当前计算资源分配的任务进程标识和用户标识。
步骤S103:如果S102的判断结果为是时,则比较正在执行的用户任务进程对应的用户是否与调度系统为当前计算资源分配给的用户一致,将不一致的用户任务进程判定为错误提交的用户任务进程。
当步骤S102的判断结果为是时,表明当前计算资源上正在执行的用户任务进程存在错误提交的情况,因为在本发明场景中,当前计算资源如果是用户进程合理提交(即用户任务进程提交给了调度系统为其分配的计算资源上执行),应该只有一个用户进程在其上独占执行。所谓错误提交的进程为用户未按照调度系统为其分配的计算资源提交其任务进程。
在确定当前计算资源上正在执行的用户任务进程存在错误提交的情况下,需要排查到底哪些用户的任务进程存在错误提交,以便运维人员通知该用户进行改正。具体可以对正在执行的用户任务进程进行逐个排查,确定正在执行的用户任务进程对应的用户是否与调度系统为当前计算资源分配给的用户一致。一致的用户任务进程为合理提交的情况,无需做任何处理;不一致的用户任务进程为不合理提交的用户任务进程,需要提示出来,供运维人员发现。
步骤S104:当S102的判断结果为否时,则判定当前计算资源上正在执行的所有用户任务进程全部为错误提交。
当步骤S102的判断结果为否时,说明调度系统还未将当前计算资源分配,当前计算资源理应空闲,但是通过步骤S101却发现当前计算资源上正在执行的用户任务进程的数量大于或等于2,这说明其上运行的全部用户任务进程均为错误提交。所谓错误提交的进程为用户未按照调度系统为其分配的计算资源提交其任务进程。
步骤S105:当确定当前计算资源上正在执行的用户任务进程的数量等于1时,确定调度系统是否已将当前计算资源分配。
当步骤S105的执行结果为否时,从步骤S109开始执行。
当步骤S105的执行结果为是时,存在三种情况,分别对应步骤S106、S107和S108。
步骤S106:当正在执行的用户任务进程对应的用户与调度系统为当前计算资源分配给的用户一致时,确定当前计算资源处于正常状态:被调度系统中分配的用户任务进程合理使用。
步骤S107:当查找不到正在执行的用户任务进程时,确定当前计算资源被浪费:调度系统已经将当前计算资源分配给用户,但是不存在任何用户的任务进程在当前计算资源上执行。
步骤S107的情况即对应上文所述的即便当前计算资源上没有正在执行的用户任务进程,步骤S101也会将正在执行的用户任务进程的数量返回为“1”的情形。
步骤S107问题的严重在于,对于其他用户申请资源时,该当前计算资源因为已被调度系统分配而无法再分配使用,而调度系统为该当前计算资源分配的用户又不实际使用该资源,这就造成了所谓的“占用却不使用”的浪费问题发生。
步骤S108:当存在正在执行的用户任务进程,且正在执行的用户任务进程对应的用户与调度系统为当前计算资源分配给的用户不一致时,则确定当前计算资源被该正在执行的用户任务进程错误提交。所谓错误提交的进程为用户未按照调度系统为其分配的计算资源提交其任务进程。
步骤S109:当步骤S105的执行结果为否时,判断是否能够查找正在执行的用户任务进程。
步骤S110:当步骤S109的判断结果为是时,则确定正在执行的用户任务进程为错误提交。这是因为步骤S105判断结果为否表明当前计算资源未被调度系统分配,正常状态时该当前计算资源应该处于空闲状态,但是实际情况却有用户任务进程在其上进行执行,表明该用户任务进程为错误提交的进程。所谓错误提交的进程为用户未按照调度系统为其分配的计算资源提交其任务进程。
步骤S111:当步骤S109的判断结果为否时,则确定当前计算资源为空闲状态,即该计算资源未被调度系统分配,且其上未执行用户任务进程。
通过上述实施例的技术方案,可以快速发现各种不合理资源使用问题,为运维人员采取后续措施提供帮助。
请注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (2)

1.一种超算平台资源使用监控方法,其特征在于,包括:
确定当前计算资源上正在执行的用户任务进程的数量;
当正在执行的用户进程的数量是否大于或等于2;如果是,则确定调度系统是否已将当前计算资源分配,如果未分配,则确定当前计算资源上正在执行的用户任务进程全部为错误提交的用户任务进程。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:如果确定调度系统已将当前计算资源分配,则比较正在执行的用户任务进程对应的用户是否与调度系统为当前计算资源分配给的用户一致,将不一致的用户任务进程判定为错误提交的用户任务进程。
CN201911149070.2A 2019-11-21 2019-11-21 一种超算平台资源使用监控方法 Pending CN110941491A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911149070.2A CN110941491A (zh) 2019-11-21 2019-11-21 一种超算平台资源使用监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911149070.2A CN110941491A (zh) 2019-11-21 2019-11-21 一种超算平台资源使用监控方法

Publications (1)

Publication Number Publication Date
CN110941491A true CN110941491A (zh) 2020-03-31

Family

ID=69907843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911149070.2A Pending CN110941491A (zh) 2019-11-21 2019-11-21 一种超算平台资源使用监控方法

Country Status (1)

Country Link
CN (1) CN110941491A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350763A (zh) * 2007-07-16 2009-01-21 华为技术有限公司 一种资源管理方法、系统和网络设备
CN104376255A (zh) * 2014-11-28 2015-02-25 北京奇虎科技有限公司 应用程序运行控制方法与装置
CN108334409A (zh) * 2018-01-15 2018-07-27 北京大学 一种细粒度的高性能云资源管理调度方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350763A (zh) * 2007-07-16 2009-01-21 华为技术有限公司 一种资源管理方法、系统和网络设备
CN104376255A (zh) * 2014-11-28 2015-02-25 北京奇虎科技有限公司 应用程序运行控制方法与装置
CN108334409A (zh) * 2018-01-15 2018-07-27 北京大学 一种细粒度的高性能云资源管理调度方法

Similar Documents

Publication Publication Date Title
US8185905B2 (en) Resource allocation in computing systems according to permissible flexibilities in the recommended resource requirements
US20090228889A1 (en) Storage medium storing job management program, information processing apparatus, and job management method
US20170017511A1 (en) Method for memory management in virtual machines, and corresponding system and computer program product
US20180267869A1 (en) Method and apparatus for processing gateway device fault
JP2007115246A (ja) ソフトウェアによって使用される資源を動的に割り当てるための方法及び装置
CN108287769B (zh) 一种信息处理方法及装置
CN106537354B (zh) 虚拟化基础设施管理装置、系统、方法和记录介质
CN110673927B (zh) 一种虚拟机的调度方法和装置
CN106020984B (zh) 电子设备中进程的创建方法及装置
JP4348639B2 (ja) マルチプロセッサシステム、ワークロード管理方法
CN115113987A (zh) 一种非一致内存访问资源分配方法、装置、设备及介质
CN113032102A (zh) 资源重调度方法、装置、设备和介质
US20120096303A1 (en) Detecting and recovering from process failures
JP6477260B2 (ja) アプリケーションを実行する方法及びリソースマネジャ
CN110928756A (zh) 一种超算平台资源使用监控方法
CN110941491A (zh) 一种超算平台资源使用监控方法
CN108287762B (zh) 分布式计算交互式模式使用资源优化方法以及计算机设备
CN110928686A (zh) 一种超算平台资源使用监控方法
CN110879772A (zh) 一种超算平台资源使用监控方法
CN110865922A (zh) 一种超算平台资源使用监控方法
CN111143210A (zh) 一种测试任务调度方法和系统
EP3974979A1 (en) Platform and service disruption avoidance using deployment metadata
CN111581041A (zh) 一种磁盘性能测试的方法和设备
CN110297692B (zh) 一种分布式软件任务动态管理的方法及其系统
CN112486502A (zh) 分布式任务的部署方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination