CN112394954B - 一种面向高性能计算的随作业自动部署运行环境方法 - Google Patents

一种面向高性能计算的随作业自动部署运行环境方法 Download PDF

Info

Publication number
CN112394954B
CN112394954B CN202011395015.4A CN202011395015A CN112394954B CN 112394954 B CN112394954 B CN 112394954B CN 202011395015 A CN202011395015 A CN 202011395015A CN 112394954 B CN112394954 B CN 112394954B
Authority
CN
China
Prior art keywords
user
job
environment
node
computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011395015.4A
Other languages
English (en)
Other versions
CN112394954A (zh
Inventor
卢凯
张文喆
王睿伯
迟万庆
董勇
张伟
邬会军
邵明天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202011395015.4A priority Critical patent/CN112394954B/zh
Publication of CN112394954A publication Critical patent/CN112394954A/zh
Priority to US17/535,702 priority patent/US11809303B2/en
Application granted granted Critical
Publication of CN112394954B publication Critical patent/CN112394954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • G06F11/3648Software debugging using additional hardware
    • G06F11/3656Software debugging using additional hardware using a specific debug interface
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/083Network architectures or network communication protocols for network security for authentication of entities using passwords
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • G06F11/366Software debugging using diagnostics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/53Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by executing in a restricted environment, e.g. sandbox or secure virtual machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种面向高性能计算的随作业自动部署运行环境方法,包括:在高性能计算系统结点预置隔离运行环境;用户登录到登录结点的隔离运行环境;用户在登录结点进行对作业的开发调试以及对作业运行环境的配置,并向作业管理系统发出作业运行请求;作业管理系统为用户作业分配高性能计算系统结点的计算结点,并在作业加载的同时自动将用户的上层文件系统随作业同步部署到分配的计算结点上,然后相应的计算结点运行用户的作业;作业执行完毕,计算结点将结果反馈给用户的登录结点,然后计算结点清除掉自己的上层文件系统,结束作业进程并结束。本发明提高高性能计算的作业部署效率,减少用户的负担的同时减少用户的环境配置负担。

Description

一种面向高性能计算的随作业自动部署运行环境方法
技术领域
本发明涉及计算机系统软件领域,尤其涉及一种面向高性能计算的随作业自动部署运行环境方法。
背景技术
当前的高性能计算机系统将物理结点划分为登录结点和计算结点,用户在登录结点发出作业请求后,高性能计算系统通过作业管理系统来分配计算结点以响应这些请求,完成相应的任务。在这个过程中,当前主要存在以下几种模式。
一、传统的高性能计算作业执行方式
传统的高性能计算系统中,用户之间共享登录结点(如图1所示)。用户在登录到登录结点之后,在登录结点的环境之下进行自己的应用程序的开发调试,这时用户可能会配置若干原本系统环境下没有的库和依赖。当用户准备将作业在计算结点上执行时,传统用户一般通过两种方式来配置好计算结点上所需要的运行环境。第一种是用户直接将作业所需要的库和依赖拷贝到相应的计算结点上,然后在作业执行时指定这些相应的结点来运行。第二种是将作业所需要的库和依赖配置到全局共享文件系统中,在作业执行时通过参数指定好相关的库和依赖的路径即可。
这样的作业管理系统主要存在以下缺点:
1.用户的作业部署压力大,为了使得作业可以被正常执行,需要手动配置环境,在第一种方式下,使用的计算结点数量越多,手动配置的压力越大。
2.改变了高性能计算系统的原有环境。经过一个用户配置过的结点很可能会影响其他用户的使用,导致系统环境配置的混乱,并且这样的环境也不能保护用户的隐私。
二、依赖容器的作业部署方式
一个作业的使用的库和依赖项可能会很复杂,为了使得作业的部署更加简单,容器技术被应用到高性能计算的作业部署中。例如docker,将运行环境封装到一个容器image中,利用这个image可以实现较为迅速的作业的移植和部署。在计算结点上,用户只需要将封装好的容器image部署好,就相当于配置好了作业所需要的完整系统环境。这种融入容器技术的高性能计算作业管理系统,相对于传统的方式有了一定的效率提升。
但是这种方式下依然存在着相应的缺点:
1.用户使用容器来封装自己的作业运行环境,容器的内容必须包含这个作业运行所需要的完整系统环境,而这些内容都必须由用户手动维护,给用户带来较大的负担。
2.用户封装完成作业的执行环境,生成容器image,还需要用户手动将这个容器image部署到计算结点或者全局共享文件系统上,并在通过作业管理系统运行作业时需要指定作业管理系统运行这个容器image,这些工作依然给用户带来了较大的负担。
3.传统的容器使用的隔离技术给作业的运行带来了较大的性能开销。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种面向高性能计算的随作业自动部署运行环境方法,通过一种轻量级的运行环境来提高高性能计算的作业部署效率,减少用户的负担的同时引入近乎可以忽略的开销,减少用户的环境配置负担。
为解决上述技术问题,本发明提出的技术方案为:
一种面向高性能计算的随作业自动部署运行环境方法,包括以下步骤:
S1)在高性能计算系统结点预置隔离运行环境:基于分层文件系统实现用户的环境共享和自由定制以及运行环境的自动部署,结合进程隔离实现多用户互相独立的开发和运行环境;
S2)用户登录到登录结点的隔离运行环境:用户登录到高性能计算系统的登录结点,面向高性能的随作业自动部署的运行环境机制为用户提供一个隔离的轻量级的开发环境;
S3)用户在登录结点进行对作业的开发调试以及对作业运行环境的配置,并向作业管理系统发出作业运行请求;
S4)作业管理系统为用户作业分配高性能计算系统结点的计算结点,并在作业加载的同时自动将用户的上层文件系统随作业同步部署到分配的计算结点上,然后相应的计算结点运行用户的作业;
S5)作业执行完毕,计算结点将结果反馈给用户的登录结点,然后计算结点清除掉自己的上层文件系统,结束作业进程并结束。
进一步的,步骤S1)具体包括:将标准的系统环境作为层次化文件系统的底层,将用户自定义的作业运行所需要的依赖作为层次化文件系统的上层,在高性能计算系统的登录结点和计算结点预置底层文件系统,在登录结点上运行一个daemon进程监听用户登录请求,同时将随作业自动部署的运行环境机制融入到作业管理系统中。
进一步的,所述随作业自动部署的运行环境机制具体包括;作业管理系统在收到来自登录结点的用户作业运行请求时,首先为其分配计算结点,然后在计算结点上启动一个轻量级运行环境,把用户在登录结点的自定义环境自动同步到这些计算结点上来,作为作业的运行环境。
进一步的,步骤S2)具体包括以下步骤:
S21)用户向高性能计算系统的登录结点发出登录请求;
S22)登录结点的daemon进程持续监听,收到用户的登录请求后启动轻量级运行环境作为用户的登录空间,所述轻量级运行环境包括一个拥有一棵完整的进程树的隔离的进程,以及一个空的上层文件系统;
S23)用户登录到登录结点启动的所述轻量级运行环境中。
进一步的,步骤S3)具体包括以下步骤:
S31)用户按照实际需求直接使用底层文件系统的标准配置;
S32)用户在上层文件系统中针对自己独有的作业进行开发调试,同时针对独有的运行依赖项进行自主配置;
S33)用户的作业在登录结点开发调试完成之后,执行作业运行命令,向作业管理系统发出作业运行请求。
进一步的,步骤S4)具体包括以下步骤:
S41)作业管理系统收到用户作业运行请求时,根据当前系统中计算结点的负载情况为作业分配相应的计算结点,并在计算结点上启动一个轻量级运行环境作为作业的执行空间,所述轻量级运行环境包括一个拥有一棵完整的进程树的隔离的进程,以及一个空的上层文件系统;
S42)将用户在登录结点的上层文件系统同步到所分配的计算结点上,所述登录结点的上层文件系统作为该计算结点的上层文件系统;
S43)所分配的计算结点根据上层文件中系统中用户的作业内容以及作业所需要的依赖项执行作业。
本发明还提出一种面向高性能计算的运行环境自动部署装置,包括计算机设备,所述计算机设备被编程或配置以执行上述的面向高性能计算的随作业自动部署运行环境方法。
本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有被编程或配置以执行上述的面向高性能计算的随作业自动部署运行环境方法的计算机程序。
与现有技术相比,本发明的优点在于:
1.本发明在计算结点部署用户的作业以及运行环境的过程是对用户完全透明的,在用户看来是完全自动完成的,这很大程度上减轻了用户的负担。同时这种随作业自动部署的运行环境机制相对于用户的手动部署更加高效,特别适用于高性能计算情景。
2.本发明仅仅使用了层次化文件系统来为用户实现运行环境的自由定制,不需要引入传统的容器image,空间开销相对更小。同时本发明相对于传统的容器技术隔离程度也更低。这些对于高性能计算场景来说能够在保证用户需求的同时提供更小的性能开销。
3.本发明支持用户自由定制自己的运行环境,系统管理员维护和管理底层基本环境,用户之间开发环境相互隔离互不影响,相对于传统的高性能计算系统使用场景,本发明在保证了用户共享系统标准配置的情况下,又提供给用户更大的自主权,保护了用户的隐私。同时用户的自由定制也不会影响到底层系统环境,提高了系统的安全性。
附图说明
图1是传统的高性能计算作业执行方式图;
图2是本发明的运行环境部署示意图;
图3是本发明的总体流程图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
本发明解决的问题是,第一,引入一种轻量级的运行环境的概念,其只利用层次化的文件系统来做应用依赖的封装,将标准的系统环境作为层次化文件系统的底层,将用户自定义的作业运行所需要的依赖等作为层次化文件系统的上层。这样每个用户都可以共享标准的系统环境,并且用户对于环境的更改定制不会在用户之间产生影响。相对于传统的容器来说,这样的运行环境更加轻量级,带来的开销也更低。第二,在运行环境的部署方式上,提供一种透明自动的随作业部署方式。首先,用户登录结点和计算结点预置底层文件系统,都是一些公用层,提供标准的系统环境。用户在登录结点上自定义各类运行库,这类定制发生在上层文件系统中。然后在加载作业的时候,作业管理系统自动将上层文件系统随作业部署至分配的计算结点上,以实现自动部署。
本发明的核心思想是通过一种轻量级的运行环境来提高高性能计算的作业部署效率,减少用户的负担的同时引入近乎可以忽略的开销。整体而言,首先,在高性能计算机的每个登录结点和计算结点,设计层次化文件系统实现多用户的共享环境定制与隔离。其中底层文件系统是由系统管理员管理和维护的标准系统环境,上层文件系统是各个用户的自由定制空间,用户可以在这一层部署自己的作业,配置相应的运行依赖项。在登录结点,为登录的用户设计一个隔离的运行环境,通过进程隔离以及层次化的文件系统来实现。当新的用户登录时,登录结点启动一个新的进程,并将这个进程进行隔离,这样每个用户都独立地拥有一整棵进程树,在共享底层文件系统地基础上,独立地拥有自己的上层文件系统,也就是共享了标准系统配置的情况下,可以进行自己的运行环境定制,这个过程既不会影响到底层文件系统,也不会在不同用户之间造成影响,并且这个过程是在极短的时间内完成的,时间开销小,同时又因为没有传统的容器image空间占用,上层文件系统的初始化也为空,因此空间开销也极小。其次,在用户配置完成自己的运行环境,执行作业运行命令时,作业管理系统在加载作业的同时自动将用户的上层文件系统随作业部署到分配的计算结点上(如图2所示),这个过程对于用户来说是透明的、自动完成的,很大程度上减少了用户的环境配置负担。
如图3所示,本发明提出一种面向高性能计算的随作业自动部署运行环境方法,包括以下步骤:
S1)在高性能计算系统结点预置隔离运行环境:基于分层文件系统实现用户的环境共享和自由定制以及运行环境的自动部署,结合进程隔离实现多用户互相独立的开发和运行环境;
S2)用户登录到登录结点的隔离运行环境:用户登录到高性能计算系统的登录结点,面向高性能的随作业自动部署的运行环境机制为用户提供一个隔离的轻量级的开发环境;
S3)用户在登录结点进行对作业的开发调试以及对作业运行环境的配置,并向作业管理系统发出作业运行请求;
S4)作业管理系统为用户作业分配高性能计算系统结点的计算结点,并在作业加载的同时自动将用户的上层文件系统随作业同步部署到分配的计算结点上,然后相应的计算结点运行用户的作业;
S5)作业执行完毕,计算结点将结果反馈给用户的登录结点,然后计算结点清除掉自己的上层文件系统,结束作业进程并结束。
本实施例的步骤S1)具体包括:将标准的系统环境作为层次化文件系统的底层,将用户自定义的作业运行所需要的依赖作为层次化文件系统的上层,在高性能计算系统的登录结点和计算结点预置底层文件系统,在登录结点上运行一个daemon进程监听用户登录请求,同时将随作业自动部署的运行环境机制融入到作业管理系统中。高性能计算系统中结点分为计算结点和登录结点,作业管理系统负责处理登录结点发出的作业请求,将计算任务分配到合适的计算结点上。本发明仅仅使用了层次化文件系统来为用户实现运行环境的自由定制,不需要引入传统的容器image,空间开销相对更小。同时本发明相对于传统的容器技术隔离程度也更低。这些对于高性能计算场景来说能够在保证用户需求的同时提供更小的性能开销。
在登录结点上运行的daemon进程的作用是给登录的用户提供一个隔离的开发环境。在高性能计算系统中,用户通过登录到登录结点时,登录结点上daemon进程持续监听是否有用户的登录请求,当监听到用户的登录请求时,这个daemon进程负责启动一个新的隔离的进程,这个进程独立地拥有一棵完整的进程树。然后叠加一个空的文件系统作为层次化文件系统的上层,这也是用户开发配置的空间。
随作业自动部署的运行环境机制具体包括;作业管理系统在收到来自登录结点的用户作业运行请求时,首先为其分配计算结点,然后在计算结点上启动一个轻量级运行环境,把用户在登录结点的自定义环境自动同步到这些计算结点上来,作为作业的运行环境。传统的作业管理系统在收到登录结点的作业运行请求时,分配完计算结点之后就直接在计算结点上运行作业。而本实施例中随作业自动部署的运行环境机制对作业管理系统的实现进行了相应修改,使得作业运行过程中不同用户之间的作业相互隔离,同时减少了用户的环境配置负担。
本实施例的步骤S2)具体包括以下步骤:
S21)用户向高性能计算系统的登录结点发出登录请求;
S22)登录结点的daemon进程持续监听,收到用户的登录请求后启动轻量级运行环境作为用户的登录空间,所述轻量级运行环境包括一个拥有一棵完整的进程树的隔离的进程,以及一个空的上层文件系统;
S23)用户登录到登录结点启动的所述轻量级运行环境中。
本实施例的步骤S3)具体包括以下步骤:
S31)用户按照实际需求直接使用底层文件系统的标准配置,系统管理员所维护的标准系统环境作为层次化文件系统的底层,用户可以完全共享这些标准配置,例如基本的依赖库都可以被用户直接使用,不需要用户再次手动配置;
S32)用户在上层文件系统中针对自己独有的作业进行开发调试,同时针对独有的运行依赖项进行自主配置,用户作业的开发调试以及自定义的配置均在层次化文件系统的上层,每个用户都拥有自己独有的作业,在上层文件系统中进行开发调试,对于其他用户不可见,用户作业所使用的独有的运行依赖项,用户进行自主配置,这也发生在层次化文件系统的上层;
S33)用户的作业在登录结点开发调试完成之后,执行作业运行命令,向作业管理系统发出作业运行请求。
上述步骤支持用户自由定制自己的运行环境,系统管理员维护和管理底层基本环境,用户之间开发环境相互隔离互不影响,相对于传统的高性能计算系统使用场景,本发明在保证了用户共享系统标准配置的情况下,又提供给用户更大的自主权,保护了用户的隐私。同时用户的自由定制也不会影响到底层系统环境,提高了系统的安全性。
本实施例的步骤S4)具体包括以下步骤:
S41)作业管理系统收到用户作业运行请求时,根据当前系统中计算结点的负载情况为作业分配相应的计算结点,并在计算结点上启动一个轻量级运行环境作为作业的执行空间,所述轻量级运行环境包括一个拥有一棵完整的进程树的隔离的进程,以及一个空的上层文件系统;
S42)将用户在登录结点的上层文件系统同步到所分配的计算结点上,所述登录结点的上层文件系统作为该计算结点的上层文件系统;
S43)所分配的计算结点根据上层文件中系统中用户的作业内容以及作业所需要的依赖项执行作业。
上述步骤中,在计算结点部署用户的作业以及运行环境的过程是对用户完全透明的,在用户看来是完全自动完成的,这很大程度上减轻了用户的负担。同时这种随作业自动部署的运行环境机制相对于用户的手动部署更加高效,特别适用于高性能计算情景
本实施例还提出一种面向高性能计算的运行环境自动部署装置,包括计算机设备,所述计算机设备被编程或配置以执行上述的面向高性能计算的随作业自动部署运行环境方法。
本实施例还提出一种计算机可读存储介质,所述计算机可读存储介质存储有被编程或配置以执行上述的面向高性能计算的随作业自动部署运行环境方法的计算机程序。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。

Claims (5)

1.一种面向高性能计算的随作业自动部署运行环境方法,其特征在于,包括以下步骤:
S1)在高性能计算系统结点预置隔离运行环境:基于分层文件系统实现用户的环境共享和自由定制以及运行环境的自动部署,结合进程隔离实现多用户互相独立的开发和运行环境,具体包括:将标准的系统环境作为层次化文件系统的底层,将用户自定义的作业运行所需要的依赖作为层次化文件系统的上层,所述层次化文件系统中不包括容器,在高性能计算系统的登录结点和计算结点预置底层文件系统,在登录结点上运行一个daemon进程监听用户登录请求,同时将随作业自动部署的运行环境机制融入到作业管理系统中,随作业自动部署的运行环境机制具体包括:作业管理系统在收到来自登录结点的用户作业运行请求时,首先为其分配计算结点,然后在计算结点上启动一个轻量级运行环境,把用户在登录结点的自定义环境自动同步到这些计算结点上来,作为作业的运行环境;
S2)用户登录到登录结点的隔离运行环境:用户登录到高性能计算系统的登录结点,面向高性能的随作业自动部署的运行环境机制为用户提供一个隔离的轻量级的开发环境;
S3)用户在登录结点进行对作业的开发调试以及对作业运行环境的配置,并向作业管理系统发出作业运行请求,具体包括以下步骤:
S31)用户按照实际需求直接使用底层文件系统的标准配置;
S32)用户在上层文件系统中针对自己独有的作业进行开发调试,同时针对独有的运行依赖项进行自主配置;
S33)用户的作业在登录结点开发调试完成之后,执行作业运行命令,向作业管理系统发出作业运行请求;
S4)作业管理系统为用户作业分配高性能计算系统结点的计算结点,并在作业加载的同时自动将用户的上层文件系统随作业同步部署到分配的计算结点上,然后相应的计算结点运行用户的作业;
S5)作业执行完毕,计算结点将结果反馈给用户的登录结点,然后计算结点清除掉自己的上层文件系统,结束作业进程并结束。
2.根据权利要求1所述的面向高性能计算的随作业自动部署运行环境方法,其特征在于,步骤S2)具体包括以下步骤:
S21)用户向高性能计算系统的登录结点发出登录请求;
S22)登录结点的daemon进程持续监听,收到用户的登录请求后启动轻量级运行环境作为用户的登录空间,所述轻量级运行环境包括一个拥有一棵完整的进程树的隔离的进程,以及一个空的上层文件系统;
S23)用户登录到登录结点启动的所述轻量级运行环境中。
3.根据权利要求1所述的面向高性能计算的随作业自动部署运行环境方法,其特征在于,步骤S4)具体包括以下步骤:
S41)作业管理系统收到用户作业运行请求时,根据当前系统中计算结点的负载情况为作业分配相应的计算结点,并在计算结点上启动一个轻量级运行环境作为作业的执行空间,所述轻量级运行环境包括一个拥有一棵完整的进程树的隔离的进程,以及一个空的上层文件系统;
S42)将用户在登录结点的上层文件系统同步到所分配的计算结点上,所述登录结点的上层文件系统作为该计算结点的上层文件系统;
S43)所分配的计算结点根据上层文件中系统中用户的作业内容以及作业所需要的依赖项执行作业。
4.一种面向高性能计算的运行环境自动部署装置,其特征在于,包括计算机设备,所述计算机设备被编程或配置以执行权利要求1~3任一所述的面向高性能计算的随作业自动部署运行环境方法。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有被编程或配置以执行权利要求1~3任一所述的面向高性能计算的随作业自动部署运行环境方法的计算机程序。
CN202011395015.4A 2020-12-03 2020-12-03 一种面向高性能计算的随作业自动部署运行环境方法 Active CN112394954B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011395015.4A CN112394954B (zh) 2020-12-03 2020-12-03 一种面向高性能计算的随作业自动部署运行环境方法
US17/535,702 US11809303B2 (en) 2020-12-03 2021-11-26 High-performance computing-oriented method for automatically deploying execution environment along with job

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011395015.4A CN112394954B (zh) 2020-12-03 2020-12-03 一种面向高性能计算的随作业自动部署运行环境方法

Publications (2)

Publication Number Publication Date
CN112394954A CN112394954A (zh) 2021-02-23
CN112394954B true CN112394954B (zh) 2023-07-04

Family

ID=74605016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011395015.4A Active CN112394954B (zh) 2020-12-03 2020-12-03 一种面向高性能计算的随作业自动部署运行环境方法

Country Status (2)

Country Link
US (1) US11809303B2 (zh)
CN (1) CN112394954B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113630453B (zh) * 2021-07-29 2024-03-15 中国人民解放军国防科技大学 面向高性能计算的大规模运行环境快速启动方法及系统
CN113630269B (zh) * 2021-07-29 2023-11-10 中国人民解放军国防科技大学 基于拓扑感知的高性能计算系统运行环境部署加速方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105490860A (zh) * 2015-12-24 2016-04-13 北京奇虎科技有限公司 部署应用程序运行环境的方法、装置及系统
CN111324360A (zh) * 2020-01-09 2020-06-23 华中科技大学 一种面向边缘计算的容器镜像构建方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060195559A1 (en) * 2005-02-28 2006-08-31 University Of Westminster Services for grid computing
US9043767B2 (en) * 2011-04-12 2015-05-26 Pivotal Software, Inc. Release management system for a multi-node application
US10659523B1 (en) * 2014-05-23 2020-05-19 Amazon Technologies, Inc. Isolating compute clusters created for a customer
WO2016197069A1 (en) * 2015-06-05 2016-12-08 Nutanix, Inc. Architecture for managing i/o and storage for a virtualization environment using executable containers and virtual machines
US10033833B2 (en) * 2016-01-11 2018-07-24 Cisco Technology, Inc. Apparatus, systems and methods for automatic distributed application deployment in heterogeneous environments
US9965377B1 (en) * 2016-03-29 2018-05-08 EMC IP Holding Company LLC Deploy pipeline for development packages
EP3511820A1 (en) * 2018-01-15 2019-07-17 Siemens Aktiengesellschaft Cloud based artifact lifecycle management system and method thereof
US10942719B2 (en) * 2018-05-15 2021-03-09 Ingram Micro Inc. System and method for connector development and integration channel development
US11126540B2 (en) * 2019-06-13 2021-09-21 Paypal, Inc. Big data application lifecycle management
CN110427248B (zh) * 2019-07-12 2021-10-01 中国人民解放军国防科技大学 一种基于容器的轻量级用户环境构建方法、系统及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105490860A (zh) * 2015-12-24 2016-04-13 北京奇虎科技有限公司 部署应用程序运行环境的方法、装置及系统
CN111324360A (zh) * 2020-01-09 2020-06-23 华中科技大学 一种面向边缘计算的容器镜像构建方法

Also Published As

Publication number Publication date
CN112394954A (zh) 2021-02-23
US11809303B2 (en) 2023-11-07
US20220179774A1 (en) 2022-06-09

Similar Documents

Publication Publication Date Title
CN111966305B (zh) 持久卷分配方法、装置、计算机设备和存储介质
EP3347816B1 (en) Extension of resource constraints for service-defined containers
US11836516B2 (en) Reducing execution times in an on-demand network code execution system using saved machine states
US8838669B2 (en) System and method for layered application server processing
CN110719206B (zh) 天基fpga虚拟化计算服务系统、方法和可读存储介质
US8434081B2 (en) Storage manager for virtual machines with virtual storage
CN112394954B (zh) 一种面向高性能计算的随作业自动部署运行环境方法
US8387037B2 (en) Updating software images associated with a distributed computing system
US20120005672A1 (en) Image management for virtual machine instances and associated virtual storage
CN111212116A (zh) 一种基于容器云的高性能计算集群创建方法和系统
CN109154849A (zh) 包括核心层、用户接口和配备有基于容器的用户空间的服务层的超融合系统
CN110727653B (zh) 多项目负载均衡方法和装置
CN102207859A (zh) 解决方案部署方法、设备和系统
CN102782648A (zh) 用于诸如web应用之类的服务器应用的虚拟环境
US11385887B2 (en) Multi-mission configurable spacecraft system
de Bayser et al. Integrating MPI with Docker for HPC
US8027817B2 (en) Simulation management within a grid infrastructure
EP3639139A1 (en) Releasing and retaining resources for use in a nfv environment
Van't Hof et al. Androne: Virtual drone computing in the cloud
CN113382077A (zh) 微服务调度方法、装置、计算机设备和存储介质
EP3786797A1 (en) Cloud resource marketplace
CN109144526B (zh) 一种变电站自动化软件的快速部署系统及方法
CN112564979B (zh) 构建任务的执行方法、装置、计算机设备和存储介质
CN113630453B (zh) 面向高性能计算的大规模运行环境快速启动方法及系统
Aridor et al. Open job management architecture for the Blue Gene/L supercomputer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant