CN112261105B - 一种层次化集群作业管理系统及方法 - Google Patents

一种层次化集群作业管理系统及方法 Download PDF

Info

Publication number
CN112261105B
CN112261105B CN202011109594.1A CN202011109594A CN112261105B CN 112261105 B CN112261105 B CN 112261105B CN 202011109594 A CN202011109594 A CN 202011109594A CN 112261105 B CN112261105 B CN 112261105B
Authority
CN
China
Prior art keywords
node
user
cluster
state
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011109594.1A
Other languages
English (en)
Other versions
CN112261105A (zh
Inventor
李谦
袁盾
刘康
贾磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Jinhang Computing Technology Research Institute
Original Assignee
Tianjin Jinhang Computing Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Jinhang Computing Technology Research Institute filed Critical Tianjin Jinhang Computing Technology Research Institute
Priority to CN202011109594.1A priority Critical patent/CN112261105B/zh
Publication of CN112261105A publication Critical patent/CN112261105A/zh
Application granted granted Critical
Publication of CN112261105B publication Critical patent/CN112261105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Multi Processors (AREA)

Abstract

本发明涉及一种层次化集群作业管理系统,属于计算机技术领域。本发明的集群作业管理系统能够满足用户对计算平台的基本需求,为用户提供高效、可靠的应用服务,在集群环境出现节点异常的情况下能够保证用户作业的正确完成。系统可以使用户实时查看进度,并通过设置权限,保证用户数据的安全性。

Description

一种层次化集群作业管理系统及方法
技术领域
本发明属于计算机技术领域,具体涉及一种层次化集群作业管理系统。
背景技术
集群是通过高性能网络将多台同构或者异构的计算机连接起来并协同完成特定任务的计算机群,它们对外部的表现就像一个系统在工作。
按照集群所使用的操作系统,集群可以分为windows集群和Linux集群,由于Linux操作系统的稳定性,目前已有的集群以Linux集群居多。
按照不同的用途,集群通常可以分为负载均衡集群、高可用性集群和超级计算集群。其中,负载均衡集群是希望集群中的每个节点能承担与其处理能力相当的负载,使得每个节点都不会因为负载过高而崩溃,这种集群一般应用于拥有大量访问的Web服务中;高可用性集群能提供不间断的服务,这种集群一般应用于实时性很高的系统中;而超级计算集群一般用于处理复杂的计算问题。
按照集群对用户作业的调度方式,集群又可以分为集中式调度集群和分布式调度集群。集中式调度集群中只有一台节点有调度用户作业的能力,所有的资源和作业都由该节点上配置的作业调度器进行调度;分布式调度集群中,有多个节点具有调度用户作业的能力。集中式调度集群的特点是实现和控制简单,但它存在扩展性比较差,容易引起单点失效而导致整个集群不可用的问题。分布式集群克服了集中式集群的缺点,可扩展性比较好,但是集群中多个调度器之间的交互和协同不易实现。
因此,集群可以由许多运行应用软件的计算机组成,在集群作业管理软件的统一调配下,协调工作,以并行方式完成所分配的计算任务,整个过程是自动化和智能化的,它代表了制作技术的发展方向。在集群应用模式下,为了能保证用户快速得到正确的计算结果,需要解决如下问题:用户的作业如何在集群环境下进行合理分发以充分利用集群资源进而快速获得计算结果;集群中节点异常如何检测以及在节点出现异常情况下如何保证用户能得到正确的计算结果;如何为用户提供更方便的交互操作;如何定价用户的作业等。。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计一种集群作业管理系统,满足用户对计算平台的基本需求,为用户提供高效、可靠的应用服务。
(二)技术方案
为了解决上述技术问题,本发明提供了一种层次化集群作业管理系统,包括作业分发模块、作业管理模块、资源管理模块;
所述资源管理模块用于管理和监控系统中的各节点的资源使用情况;
其中,将节点状态定义为三种状态,分别是free态、busy态、down态;其中,free态:又名空闲态,表示节点没有任务在运行,可以承担新的计算任务;busy态:又名忙碌态,表示节点正在执行任务,不能再承担新的计算任务;down态:又名异常态,表示该节点已经和管理节点失去联系,节点出现异常;
节点的free、down和busy三种状态会在一定条件下相互转换,具体如下:
(1)free态到busy态:当空闲节点承担了新的计算任务,该节点的状态就会从free态转换为busy态;
(2)busy态到free态:当一个节点完成了所承担的计算任务而又没有新的计算任务需要完成,此时,该节点的状态会转换为free态;
(3)free态到down态,busy态到down态:在节点运行的过程中,可能出现死机、网络不畅通、管理员强制节点为离线状态等,都会使节点的状态转换为down状态;
(4)down态到free态、down态到busy态:节点要从down态转换到其它两种状态需要分析节点进入down态的原因并解决对应的问题,如果是由于宕机引起的,那么需要管理员手动重启机器;如果是由于网络不畅通引起的,那么需要解决网络故障;如果是管理员强制节点状态为离线状态,那么需要管理员取消该命令;
所述作业分发模块包括任务均分子模块和节点异常处理子模块;
任务均分子模块用于完成以下功能:让已经完成任务的节点去帮助任务执行缓慢的节点,以达到节点资源的均衡利用并缩短作业的处理时间的目的;
节点异常处理子模块用于完成节点异常的处理;假设节点I承担了任务总量为W项的任务,当完成了L项任务以后,该节点发生异常,为了保证该节点上的任务能正确地完成,将该节点上未完成的任务组装成新的任务迁移到其它节点上继续进行执行,新的任务命名为异常迁移任务;
所述作业管理模块包括作业脚本组装子模块和进度管理子模块;
用户提交的作业被分发到各个计算节点,作业脚本组装子模块能够自动组装作业脚本,提供了向指定节点分发作业的功能;
进度管理子模块提供各个作业的完成进度,也就是作业的完成率,假设一个作业需要生成N个文件,目前已经生成了S个文件,那么该作业的完成率Progress为:
Progress=(S/N)*100% (1)
优选地,还包括数据管理模块:数据管理模块使用网络文件系统NFS,在一个存储容量大于预设阈值的的节点上配置NFS服务器,并划分一个目录用于用户数据的存储,其它节点挂载该目录。
采用用户目录访问权限来保证用户数据在系统的安全性,也就是该数据空间只有超级管理员和用户本身才有访问权限,其它用户无法访问,采用域名信息服务NIS保证整个集群环境共享一套用户账户,每一个用户账户为一个集群用户。
优选地,还包括计费管理模块,用于采用一定的计费策略实现对用户作业定价的功能。
优选地,所述计费管理模块具体采用如下计费策略实现对用户作业定价的功能:
(1)用户作业完成才计费,其它状态均不计费;
(2)用户的每个作业所产生的费用F为:
Figure GDA0003894409470000051
式中:
Num表示该作业对应的任务的个数;
Tn表示作业对应的每一个任务的执行时间;
B是费用基数,其单位是单节点每小时多少元;
因此,
Figure GDA0003894409470000052
表示作业对应的所有任务在单节点上进行计算的时间总和。
优选地,还包括用户管理模块:用于在用户管理方面提供注册用户、更新用户、删除用户操作。
优选地,所述用户管理模块实现的用户注册流程如下:
(1)系统用户注册:用户通过正确填写表单,系统将用户的注册信息写入数据库以完成系统用户的注册;并创建相应的数据空间;
(2)集群用户注册:系统调用相应的用户注册脚本在系统上完成相应的集群用户的注册,并创建相应的数据空间;
(3)更新NIS信息:写入新注册的集群用户信息。
优选地,所述系统的模型划分为资源层、支撑软件层、业务逻辑层和用户访问层;
资源层汇聚了集群环境中的硬件资源,其基本的组成单位是集群节点,包括管理节点、计算节点和存储节点;其中,管理节点对集群环境中的其它节点进行管理;在集群环境中,有多个计算节点,处理管理节点分发的任务,存储节点在系统中用于存储数据;
所述支撑软件层包括应用软件、集群作业管理软件、域名信息服务NIS和网络文件系统NFS,其中,应用软件安装于各个计算节点,用于处理用户提交的任务;集群作业调度软件安装于所有集群节点,它提供了将计算任务组装成任务脚本在指定集群节点上分发的功能,以及收集各自节点的资源使用情况;域名信息服务NIS用于保证整个集群环境只有一套用户账户信息,它对应于业务逻辑层的用户管理服务,用于在集群节点后端进行用户管理,网络文件系统NFS用于保证整个集群节点至少会有一个公有目录,它对应于业务逻辑层的数据管理服务,用于存储用户的应用数据;
业务逻辑层是整个集群作业管理系统的核心,用户对集群资源的所有操作都需要经过该层的处理,业务逻辑层对用户屏蔽了集群环境的底层实现细节,为用户提供了一套统一的服务,这些服务包括作业分发服务、作业管理服务、资源管理服务、用户管理服务、数据管理服务以及计费管理服务;
用户访问层定义了用户访问集群作业管理系统的方式,在该用户访问层实现了集群作业入口,它是用户使用集群作业管理系统的接口。
优选地,所述存储节点由计算节点兼任。
一种利用所述的系统实现的集群作业管理方法。
本发明还提供了一种所述的系统在计算机技术领域中的应用。
(三)有益效果
本发明的集群作业管理系统能够满足用户对计算平台的基本需求,为用户提供高效、可靠的应用服务,在集群环境出现节点异常的情况下能够保证用户作业的正确完成。系统可以使用户实时查看进度,并通过设置权限,保证用户数据的安全性。
附图说明
图1为本发明的集群作业管理系统模型层次图;
图2为本发明的系统中计算节点状态转换图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明对整个层次化集群作业管理系统的体系结构进行了设计,如图1所示,系统模型划分为资源层、支撑软件层、业务逻辑层和用户访问层。
1、资源层
资源层汇聚了集群环境中的硬件资源,其基本的组成单位是集群节点,主要有管理节点、计算节点和存储节点。其中,管理节点是集群环境的核心,它对集群环境中的其它节点进行管理。计算节点是集群环境中的实际劳动者,在集群环境中,有多个计算节点,它们主要处理管理节点分发的任务。存储节点在集群中主要用于存储数据,存储节点可以由计算节点兼任,或者单独划分一些节点作为存储节点。
2、软件支撑层
为了保证集群环境能更好的为用户提供应用服务,一些支撑软件必不可少,平台需要的支撑软件主要有应用软件、集群作业管理软件、域名信息服务NIS和网络文件系统NFS等。其中,应用软件安装于各个计算节点,用于处理用户提交的任务。集群作业调度软件安装于所有集群节点,主要用于将平台层实现的调度决策在集群层进行实施,它提供了将计算任务组装成任务脚本在指定集群节点上分发的功能,以及收集各自节点的资源使用情况。域名信息服务NIS是能保证整个集群环境只有一套用户账户信息,它对应于业务逻辑层的用户管理服务,用于在集群节点后端进行用户管理。网络文件系统NFS能保证整个集群节点至少会有一个公有目录,它对应于业务逻辑层的数据管理服务,主要用于存储用户的应用数据。
3、业务逻辑层
业务逻辑层是整个集群作业管理系统的核心,用户对集群资源的所有操作都需要经过该层的处理。业务逻辑层对用户屏蔽了集群环境的底层实现细节,为用户提供了一套统一的服务,这些服务主要包括作业分发服务、作业管理服务、资源管理服务、用户管理服务、数据管理服务以及计费管理服务等。
4、用户访问层
用户访问层定义了用户访问集群作业管理平台的方式,在该层实现了集群作业入口,它是用户使用集群作业管理平台的接口。为用户提供良好的接口能使用户更快地熟悉集群作业管理平台的使用方式,节省用户的学习时间。
从功能上说,系统包括六个功能模块,分别为作业分发模块、作业管理模块、资源管理模块、用户管理模块、数据管理模块以及计费管理模块;
1、资源管理模块
集群作业管理系统需要具有管理集群资源的能力,因此,资源管理模块主要用于管理和监控系统中的各节点(管理节点、计算节点和存储节点)的资源使用情况;
本发明将节点状态定义为三种状态,分别是free态、busy态、down态;其中,free态:又名空闲态,表示节点没有任务在运行,可以承担新的计算任务;busy态:又名忙碌态,表示节点正在执行任务,不能再承担新的计算任务;down态:又名异常态,表示该节点已经和管理节点失去联系,节点出现异常;
节点的状态并不是一成不变,图2展示了节点状态转换图,free、down和busy三种状态会在一定条件下相互转换,具体如下:
(1)free态到busy态:当空闲节点承担了新的计算任务,该节点的状态就会从free态转换为busy态;
(2)busy态到free态:当一个节点完成了所承担的计算任务而又没有新的计算任务需要完成,此时,该节点的状态会转换为free态;
(3)free态到down态,busy态到down态:在节点运行的过程中,可能出现死机、网络不畅通、管理员强制节点为离线状态等,都会使节点的状态转换为down状态;
(4)down态到free态、down态到busy态:节点要从down态转换到其它两种状态需要分析节点进入down态的原因并解决对应的问题,如果是由于宕机引起的,那么需要管理员手动重启机器;如果是由于网络不畅通引起的,那么需要解决网络故障;如果是管理员强制节点状态为离线状态,那么需要管理员取消该命令。
2、作业分发模块
在集群作业管理系统中,作业分发服务是整个平台的核心,平台需要能高效可靠地完成用户的作业才能充分发挥集群模式的优势。作业分发模块包括任务均分子模块和节点异常处理子模块;
任务均分子模块主要完成以下功能:让已经完成任务的节点去帮助任务执行缓慢的节点,以达到节点资源的均衡利用并缩短作业的处理时间的目的;
节点异常处理子模块主要完成节点异常的处理;假设节点I承担了任务总量为W项的任务,当完成了L项任务以后,该节点发生异常,为了保证该节点上的任务能正确地完成,将该节点上未完成的任务组装成新的任务迁移到其它节点上继续进行执行,新的任务命名为异常迁移任务。
3、作业管理模块
作业管理服务是保证整个平台能顺利运行的润滑剂,良好的作业管理功能能使用户具有更好使用体验,作业管理模块包括作业脚本组装子模块和进度管理子模块;
用户提交的作业被分发到各个计算节点,作业脚本组装子模块能够自动组装作业脚本,提供了向指定节点分发作业的功能;
进度管理子模块提供各个作业的完成进度,也就是作业的完成率,在具体应用中,假设一个作业需要生成N个文件,目前已经生成了S个文件,那么该作业的完成率Progress为:
Progress=(S/N)*100% (1)
4、数据管理模块
用户使用集群作业管理系统完成作业,会产生大量的应用数据,平台需要在集群层面为用户开辟存储空间妥善存储用户的应用数据。
数据管理模块使用网络文件系统(Network File System,NFS),在一个存储容量比较大的节点上配置NFS服务器,并划分一个目录用于用户数据的存储,其它节点挂载该目录,那么所有节点都能方便地对这个目录进行读写操作。
系统采用用户目录访问权限来保证用户数据在后端集群(系统)的安全性,也就是该数据空间只有超级管理员和用户本身才有访问权限,其它用户无法访问,因此能在集群环境下保证用户数据的安全性。采用域名信息服务NIS保证整个集群环境共享一套用户账户,每一个用户账户为一个集群用户。
5、计费管理模块
系统面向运营需求,必须具有对用户作业定价的功能,本发明提出了如下的计费策略:
(1)用户作业完成才计费,其它状态均不计费;
(2)用户的每个作业所产生的费用F为:
Figure GDA0003894409470000111
式中:
Num表示该作业对应的任务的个数;
Tn表示作业对应的每一个任务的执行时间;
B是费用基数,其单位是单节点每小时多少元。
因此,
Figure GDA0003894409470000121
表示作业对应的所有任务在单节点上进行计算的时间总和。
6、用户管理模块
在用户管理方面主要提供了注册用户、更新用户、删除用户等操作,用户的注册流程如下。
(1)系统用户注册:用户通过正确填写表单,系统将用户的注册信息写入数据库以完成系统用户的注册;并创建相应的数据空间;
(2)集群用户注册:系统调用相应的用户注册脚本在集群上完成相应的集群用户的注册,并创建相应的数据空间;
(2)更新NIS信息:写入新注册的集群用户信息。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.一种层次化集群作业管理系统,其特征在于,包括作业分发模块、作业管理模块、资源管理模块;
所述资源管理模块用于管理和监控系统中的各节点的资源使用情况;
其中,将节点状态定义为三种状态,分别是free态、busy态、down态;其中,free态:又名空闲态,表示节点没有任务在运行,可以承担新的计算任务;busy态:又名忙碌态,表示节点正在执行任务,不能再承担新的计算任务;down态:又名异常态,表示该节点已经和管理节点失去联系,节点出现异常;
节点的free、down和busy三种状态会在一定条件下相互转换,具体如下:
(1)free态到busy态:当空闲节点承担了新的计算任务,该节点的状态就会从free态转换为busy态;
(2)busy态到free态:当一个节点完成了所承担的计算任务而又没有新的计算任务需要完成,此时,该节点的状态会转换为free态;
(3)free态到down态,busy态到down态:在节点运行的过程中,可能出现死机、网络不畅通、管理员强制节点为离线状态等,都会使节点的状态转换为down状态;
(4)down态到free态、down态到busy态:节点要从down态转换到其它两种状态需要分析节点进入down态的原因并解决对应的问题,如果是由于宕机引起的,那么需要管理员手动重启机器;如果是由于网络不畅通引起的,那么需要解决网络故障;如果是管理员强制节点状态为离线状态,那么需要管理员取消该命令;
所述作业分发模块包括任务均分子模块和节点异常处理子模块;
任务均分子模块用于完成以下功能:让已经完成任务的节点去帮助任务执行缓慢的节点,以达到节点资源的均衡利用并缩短作业的处理时间的目的;
节点异常处理子模块用于完成节点异常的处理;假设节点I承担了任务总量为W项的任务,当完成了L项任务以后,该节点发生异常,为了保证该节点上的任务能正确地完成,将该节点上未完成的任务组装成新的任务迁移到其它节点上继续进行执行,新的任务命名为异常迁移任务;
所述作业管理模块包括作业脚本组装子模块和进度管理子模块;
用户提交的作业被分发到各个计算节点,作业脚本组装子模块能够自动组装作业脚本,提供了向指定节点分发作业的功能;
进度管理子模块提供各个作业的完成进度,也就是作业的完成率,假设一个作业需要生成N个文件,目前已经生成了S个文件,那么该作业的完成率Progress为:
Figure DEST_PATH_IMAGE002
(1)
还包括数据管理模块:数据管理模块使用网络文件系统NFS,在一个存储容量大于预设阈值的节点上配置NFS服务器,并划分一个目录用于用户数据的存储,其它节点挂载该目录;
采用用户目录访问权限来保证用户数据在系统的安全性,也就是该数据空间只有超级管理员和用户本身才有访问权限,其它用户无法访问,采用域名信息服务NIS保证整个集群环境共享一套用户账户,每一个用户账户为一个集群用户;
所述系统的模型划分为资源层、支撑软件层、业务逻辑层和用户访问层;
资源层汇聚了集群环境中的硬件资源,其基本的组成单位是集群节点,包括管理节点、计算节点和存储节点;其中,管理节点对集群环境中的其它节点进行管理;在集群环境中,有多个计算节点,处理管理节点分发的任务,存储节点在系统中用于存储数据;
所述支撑软件层包括应用软件、集群作业管理软件、域名信息服务NIS和网络文件系统NFS,其中,应用软件安装于各个计算节点,用于处理用户提交的任务;集群作业调度软件安装于所有集群节点,它提供了将计算任务组装成任务脚本在指定集群节点上分发的功能,以及收集各自节点的资源使用情况;域名信息服务NIS用于保证整个集群环境只有一套用户账户信息,它对应于业务逻辑层的用户管理服务,用于在集群节点后端进行用户管理,网络文件系统NFS用于保证整个集群节点至少会有一个公有目录,它对应于业务逻辑层的数据管理服务,用于存储用户的应用数据;
业务逻辑层是整个集群作业管理系统的核心,用户对集群资源的所有操作都需要经过该层的处理,业务逻辑层对用户屏蔽了集群环境的底层实现细节,为用户提供了一套统一的服务,这些服务包括作业分发服务、作业管理服务、资源管理服务、用户管理服务、数据管理服务以及计费管理服务;
用户访问层定义了用户访问集群作业管理系统的方式,在该用户访问层实现了集群作业入口,它是用户使用集群作业管理系统的接口。
2.如权利要求1所述的系统,其特征在于,还包括计费管理模块,用于采用一定的计费策略实现对用户作业定价的功能。
3.如权利要求2所述的系统,其特征在于,所述计费管理模块具体采用如下计费策略实现对用户作业定价的功能:
(1)用户作业完成才计费,其它状态均不计费;
(2)用户的每个作业所产生的费用F为:
Figure DEST_PATH_IMAGE004
(2)
式中:
Num表示该作业对应的任务的个数;
T n 表示作业对应的每一个任务的执行时间;
B是费用基数,其单位是单节点每小时多少元;
因此,
Figure DEST_PATH_IMAGE006
表示作业对应的所有任务在单节点上进行计算的时间总和。
4.如权利要求1所述的系统,其特征在于,还包括用户管理模块:用于在用户管理方面提供注册用户、更新用户、删除用户操作。
5.如权利要求4所述的系统,其特征在于,所述用户管理模块实现的用户注册流程如下:
(1)系统用户注册:用户通过正确填写表单,系统将用户的注册信息写入数据库以完成系统用户的注册;并创建相应的数据空间;
(2)集群用户注册:系统调用相应的用户注册脚本在系统上完成相应的集群用户的注册,并创建相应的数据空间;
(3)更新NIS信息:写入新注册的集群用户信息。
6.如权利要求1所述的系统,其特征在于,所述存储节点由计算节点兼任。
7.一种利用如权利要求1至6中任一项所述的系统实现的集群作业管理方法。
CN202011109594.1A 2020-10-16 2020-10-16 一种层次化集群作业管理系统及方法 Active CN112261105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011109594.1A CN112261105B (zh) 2020-10-16 2020-10-16 一种层次化集群作业管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011109594.1A CN112261105B (zh) 2020-10-16 2020-10-16 一种层次化集群作业管理系统及方法

Publications (2)

Publication Number Publication Date
CN112261105A CN112261105A (zh) 2021-01-22
CN112261105B true CN112261105B (zh) 2023-02-03

Family

ID=74245260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011109594.1A Active CN112261105B (zh) 2020-10-16 2020-10-16 一种层次化集群作业管理系统及方法

Country Status (1)

Country Link
CN (1) CN112261105B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647418A (zh) * 2012-04-01 2012-08-22 中国科学院上海应用物理研究所 一种控制系统环境的虚拟架构
CN107515732A (zh) * 2017-08-28 2017-12-26 郑州云海信息技术有限公司 一种适用于多用户场景的存储方法和系统
CN111679901A (zh) * 2020-08-13 2020-09-18 南京江北新区科技投资集团有限公司 基于作业调度软件和并行文件系统的高性能服务系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9860223B2 (en) * 2013-03-27 2018-01-02 International Business Machines Corporation Mapping the network file system (NFS) protocol to secure web-based applications
CN107040407B (zh) * 2017-03-15 2020-02-18 成都中讯创新科技股份有限公司 一种高性能计算集群动态节点作业方法
CN107943555B (zh) * 2017-10-17 2021-11-23 华南理工大学 一种云计算环境下的大数据存储和处理平台及处理方法
US11070590B2 (en) * 2018-09-14 2021-07-20 Northrop Grumman Systems Corporation System and method for secure multitenant operations of a distributed computing cluster

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647418A (zh) * 2012-04-01 2012-08-22 中国科学院上海应用物理研究所 一种控制系统环境的虚拟架构
CN107515732A (zh) * 2017-08-28 2017-12-26 郑州云海信息技术有限公司 一种适用于多用户场景的存储方法和系统
CN111679901A (zh) * 2020-08-13 2020-09-18 南京江北新区科技投资集团有限公司 基于作业调度软件和并行文件系统的高性能服务系统

Also Published As

Publication number Publication date
CN112261105A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
US10922269B2 (en) Proactive optimizations at multi-tier file systems
US9542223B2 (en) Scheduling jobs in a cluster by constructing multiple subclusters based on entry and exit rules
KR101994506B1 (ko) Paas 자원들, 작업들 및 스케줄링의 분리 기법
KR101976234B1 (ko) Paas 계층적 스케줄링 및 자동 스케일링 기법
US8275881B2 (en) Managing escalating resource needs within a grid environment
Kirby et al. An approach to ad hoc cloud computing
US7761557B2 (en) Facilitating overall grid environment management by monitoring and distributing grid activity
Appleby et al. Oceano-SLA based management of a computing utility
CN102103518B (zh) 一种在虚拟化环境中管理资源的系统及其实现方法
Wang et al. A survey and taxonomy on workload scheduling and resource provisioning in hybrid clouds
US11508021B2 (en) Processes and systems that determine sustainability of a virtual infrastructure of a distributed computing system
CN105897805B (zh) 对多层架构的数据中心的资源进行跨层调度的方法和装置
US20050154789A1 (en) Minimizing complex decisions to allocate additional resources to a job submitted to a grid environment
US10333859B2 (en) Multi-tenant resource coordination method
US20130268940A1 (en) Automating workload virtualization
Cheng et al. Analyzing alibaba’s co-located datacenter workloads
US20090138594A1 (en) Coordinating the monitoring, management, and prediction of unintended changes within a grid environment
US20090132703A1 (en) Verifying resource functionality before use by a grid job submitted to a grid environment
CN103780655A (zh) 一种消息传递接口任务和资源调度系统及方法
Amoon A framework for providing a hybrid fault tolerance in cloud computing
Sharma et al. Managing risk in a derivative IaaS cloud
Teylo et al. A dynamic task scheduler tolerant to multiple hibernations in cloud environments
Meng et al. Service-oriented reliability modeling and autonomous optimization of reliability for public cloud computing systems
CN112261105B (zh) 一种层次化集群作业管理系统及方法
CN115102851A (zh) 一种面向hpc与ai融合计算的融合平台及其资源管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant