CN108304260B - 一种基于高性能云计算的虚拟化作业调度系统及其实现方法 - Google Patents

一种基于高性能云计算的虚拟化作业调度系统及其实现方法 Download PDF

Info

Publication number
CN108304260B
CN108304260B CN201711352300.6A CN201711352300A CN108304260B CN 108304260 B CN108304260 B CN 108304260B CN 201711352300 A CN201711352300 A CN 201711352300A CN 108304260 B CN108304260 B CN 108304260B
Authority
CN
China
Prior art keywords
job
resource
module
scheduling
virtual machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711352300.6A
Other languages
English (en)
Other versions
CN108304260A (zh
Inventor
刘袆洋
陈小龙
宗磊
乔明奎
朱炜垚
王小波
吴建成
丁俊宏
楚振坤
姚仲寅
王莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Supercomputer Technology Co ltd
Original Assignee
Shanghai Supercomputer Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Supercomputer Technology Co ltd filed Critical Shanghai Supercomputer Technology Co ltd
Priority to CN201711352300.6A priority Critical patent/CN108304260B/zh
Publication of CN108304260A publication Critical patent/CN108304260A/zh
Application granted granted Critical
Publication of CN108304260B publication Critical patent/CN108304260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources

Abstract

本发明公开了一种基于高性能云计算的虚拟化作业调度系统,该系统由作业提交接口模块,作业分发模块,作业调度模块,资源调度模块,以及虚拟集群资源池模块配合实现;在基础上本发明进一步公开虚拟化作业调度实现方法。本发明提供的高性能云计算作业调度方案,能够按需调度和管理计算资源,实现计算资源的高速、动态、弹性调度和管理,解决现有作业调度系统不能在云计算环境下实现动态、按需、弹性调度资源的问题。

Description

一种基于高性能云计算的虚拟化作业调度系统及其实现方法
技术领域
本发明涉及计算机系统,具体涉及作业调度系统技术。
背景技术
高性能计算(HPC)指通常使用很多处理器或者某一集群中组织的若干物理计算机的计算系统和环境。其结构通常由管理节点、计算节点、存储节点及可视化节点、区域高速网络组成,HPC系统使用专门的操作系统,这些操作系统被设计为看起来像是单个计算资源。它的缺点是集群结构是静态的,计算规模的调整需要人工干预。
虚拟化技术是一种资源管理技术,是将计算机的各种实体资源,如服务器、网络、内存及存储等,予以抽象、转换后呈现出来,打破实体结构间的不可切割的障碍,使用户可以比原本的组态更好的方式来应用这些资源。这些资源的新虚拟部份是不受现有资源的架设方式,地域或物理组态所限制,一般所指的虚拟化资源包括计算和存储两种。
云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,以虚拟主机的形式提供使用,它并不提供HPC作业调度环境,当在云平台部署现有作业调度系统后,其作业调度系统原理不发生变化,仍然是一种预先创建主机账号和计算资源的静态资源调度方法。
作业调度系统是一种分布式资源管理和调度系统,其原理是根据作业控制块中的信息,审查系统能否满足用户作业的资源需求,以及按照一定的算法,从外存的后备队列中选取某些作业调入内存,并为它们创建进程、分配必要的资源。然后再将新创建的进程插入就绪队列,准备执行。常用的作业调度算法有先来先服务、短作业优先、响应比高优先、优先级调度算法和均衡调度算法。
然而现有作业调度系统在实际使用过程中需要人工根据集群环境预先创建账户和配置节点信息,作业只能运行在已配置好的静态集群环境内,其本身不能动态调整计算规模和账号规模,只能在已有的计算规模和已知的账号体系下完成作业调度。
发明内容
针对现有计算机系统中作业调度方案在云计算环境下所存在的问题,需要一种新的系统作业调度方案。
为此,本发明所要解决的问题是提供一种基于高性能云计算的虚拟化作业调度系统及其实现方法。
为了解决上述问题,本发明提供的基于高性能云计算的虚拟化作业调度系统,其包括:
作业提交接口模块,用于作业提交和调度;
作业分发模块,用于将作业提交接口模块提交的作业分发到作业调度模块中;
作业调度模块,用于对作业分发模块分发的作为进行调度,形成一个全局串行的就绪队列;
资源调度模块,用于根据作业调度模块的调度,从虚拟集群资源池模块管理的虚拟集群资源池中为作业分配可用资源;
虚拟集群资源池模块,用于管理虚拟集群资源;
资源监控服务模块,用于监控虚拟集群状态;
计算控制模块,用于控制作业计算流程。
进一步的,所述作业调度作业系统还包括用于配制计算节点运行环境的作业运行环境配置模块。
进一步的,所述作业提交接口模块中定义云用户作业协议,所述云用户作业协议包括:令牌信息、用户信息、作业参数信息。
进一步的,所述作业分发模块接受外部系统通过HTTP协议提交作业,将作业插入排队队列中,同时标记作业状态为提交状态。
进一步的,所述作业调度模块通过定期轮训和提交作业事件触发调度轮次。
进一步的,所述资源调度模块由资源分配程序和分配策略组成,所述资源分配程序分为串行程序和并行程序,与之匹配的资源分配策略包含:虚拟机资源分配、系统账号资源分配以及作业软件许可证分配。
进一步的,所述串行程序构造资源分配链和资源锁,让每一个待分配资源的作业依次经过资源分配链上的资源分配程序,资源分配程序包含三个接口,先调用参数校验接口,校验资源策略和资源请求是否匹配,再调用资源查询接口用来获取资源,最后调用资源分配接口为作业分配一个具体的资源。
进一步的,所述虚拟集群资源池模块中由虚拟机在创建时通过计算控制模块自动将自身信息同步到虚拟集群资源池中。
为了解决上述问题,本发明提供的基于高性能云计算的虚拟化作业调度方法,所述作业调度方法通过封装作业计算环境的镜像来创建虚拟机,并在创建时将虚拟机的配置信息自动同步到虚拟集群资源池中。
进一步的,所述作业调度方法通过监控虚拟机资源池的虚拟机运行状态并标记虚拟机状态,并通过向外部云计算操作系统申请和销毁虚拟机,确保虚拟机资源池中的虚拟机能满足系统调度的要求。
进一步的,向外部云计算操作系统申请和销毁虚拟机过程包括:
读取虚拟机资源池的虚拟机信息,以及读取排队队列的作业信息,根据排队队列的作业信息,评估作业所需资源的总量与资源池中虚拟机的总量,当达到一定的比例时,调用由外部云计算系操作统提供的接口来创建虚拟机,创建的虚拟机自动加入到虚拟集群资源池中;
资源监控服务模块会每隔一段时间去检查虚拟机的端口服务状态,如果虚拟机端口无响应或出现连接错误且超过预先设定的时间阈值时,将虚拟机的状态标记为离线;
调用外部云计算系统提供的接口释放虚拟机,调用成功后在虚拟集群资源池中将此虚拟机状态标记为释放。
进一步的,所述作业调度方法具体包括:
通过HTTP作业提交接口,提交外部系统的作业计算请求;
解析提交的作业计算请求,并提交作业到作业队列数据库中;
调度作业队列,将所有队列的作业加载到内存中,根据每一个作业的属性信息进行排序,形成一个全局串行的就绪队列;
从就绪队列中逐个读取作业,并从虚拟集群资源池中根据资源分配法为作业分配可用资源;当无资源可分配时,自动为其创建和回收资源;
在作业获取资源后,对可用资源进行检查和校验,并进行资源运行环境的初始化;
启动作业进程,作业状态为运行,当作业运行结束后,释放当前作业占用的资源;针对释放的资源进行资源信息同步,作业状态为成功、失败或错误。
本发明提供的高性能云计算作业调度方案,能够按需调度和管理计算资源,实现计算资源的高速、动态、弹性调度和管理,解决现有作业调度系统不能在云计算环境下实现动态、按需、弹性调度资源的问题。
附图说明
以下结合附图和具体实施方式来进一步说明本发明。
图1为本发明实例中基于高性能云计算的虚拟化作业调度系统的系统功能框图;
图2为本发明实例中作业调度算法的实现原理图;
图3为本发明实例中资源调度模块中串行程序的运行原理图;
图4为本发明实例中进行虚拟化作业调度的实现原理图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
参见图1,其所示为本发明一实施方式给出的一种虚拟化作业调度系统的系统功能框图。该虚拟化作业调度系统主要包括处理器以及相应的计算机可读存储介质,该计算机可读存储介质上存储有相应的计算机可读指令,该计算机可读指令在被处理器执行时可实现:
作业提交接口功能,用于实现作业提交和调度;
作业分发功能,用于将经作业提交接口功能提交的作业进行分发;
作业调度功能,用于对经作业分发功能分发的作为进行调度,形成一个全局串行的就绪队列;
资源调度功能,用于根据作业调度功能的调度操作,从虚拟集群资源池中为作业分配可用资源;
虚拟集群资源池功能,用于管理虚拟集群资源;
计算控制功能,用于控制作业计算流程;
作业运行环境配置功能,用于配制计算节点运行环境。
由此,本虚拟化作业调度系统100在功能上包括如下对应的功能模块(参见图1):
作业提交接口模块110,用于作业提交和调度;
作业分发模块120,用于将作业提交接口模块提交的作业分发到作业调度模块中;
作业调度模块130,用于对作业分发模块分发的作为进行调度,形成一个全局串行的就绪队列;
资源调度模块140,用于根据作业调度模块的调度,从虚拟集群资源池模块管理的虚拟集群资源池中为作业分配可用资源;
虚拟集群资源池模块150,用于管理虚拟集群资源;
资源监控服务模块160,用于监控虚拟集群状态;
计算控制模块170,用于控制作业计算流程。
作业运行环境配置模块180:用于配制计算节点运行环境。
下面以上述的功能模块方式来说明一下本虚拟化作业调度系统100相关功能的具体实现方案。
对于本系统中的作业提交接口模块110,其与作业分发模块120实现数据交换。其上定义云用户作业协议,该云用户作业协议包括:令牌信息、用户信息、作业参数信息。
令牌信息:表示外部系统身份的属性,具有唯一型,包含令牌内容和令牌优先级。
用户信息:表示持有令牌的外部系统的用户属性,包含用户账号名和用户优先级,在本系统里相同令牌信息和相同的用户信息被认为是同一个用户,具有相同的权限。
作业参数信息:表示一个作业申请使用的资源信息,用来描述核数、内存数、节点硬盘大小、作业优先级、作业运行命令、调度策略等内容。
本系统中的作业分发模块120,其与作业提交接口模块110和作业调度模块130进行数据交互。该作业分发模块120接受外部系统通过HTTP协议提交作业,将作业插入排队队列中,同时标记作业状态为提交状态Submit。
本系统中的作业调度模块130,其与作业分发模块120、资源调度模块140以及虚拟集群资源池模块150进行数据交换。
该作业调度模块130具体由定期轮训和提交作业事件触发调度轮次。
作为举例,本实例中作业调度模块130进行每一轮调度包括如下过程:
第一,从数据库中加载所有提交作业的信息到内存列表中,同时排除尚未进入运行状态但仍在分配资源的作业列表;
第二,执行作业调度策略链,包括作业有效性检查、作业调度策略选择、作业资源分配策略选择等,当其中一个调度策略执行失败则会导致该作业本次调度结束;
第三,加载待分配的资源到内存中,包括计算节点资源(CPU、内存、硬盘)、系统运行账号资源、软件许可证资源等;
第四,在内存中加载队列作业和作业调度策略;
第五,根据作业调度策略选择相应的调度算法执行作业调度;
第六,并发地为作业分配资源并启动已分配的节点,由计算控制模块负责作业计算的过程;
第七,待作业计算结束后释放资源。
参见图2,其所示为本实例中给出一种作业调度算法实现原理图。
由图可知,在本实例中进行作业调度时,调度的队列分为三级:第一级为原始队列,第二级为局部队列,第三级为全局队列。
原始队列的作业在其所在的队列按照先来后到的顺序排队,局部队列根据调度算法进行局部排队,全局队列根据调度算法在局部队列的基础上进行全部作业排队。
本调度方案中,除支持先进先出等常用策略外,针对互联网海量用户的特点,采用令牌用户优先级调度策略算法,其调度因子包括令牌优先级、用户优先级、作业优先级、队列优先级、提交时间、作业核数等,这几种因子调度顺序可以互换,其实现过程如下:
首先,系统根据作业的提交时间和队列名将作业插入到原始队列中,选择令牌优先级、用户优先级、作业优先级、提交时间、作业核数等调度因子组成因子计算顺序,在原始队列中按照顺序计算第一位调度因子的优先级,优先级大的排前面,优先级小的排后面,当调度因子优先级相同时,计算下一位因子的优先级,直到计算到最后一位,完成原始队列的作业排序并生成一个局部队列;
其次,选择队列优先级、令牌优先级、用户优先级、作业优先级、提交时间、作业核数等因子组成因子计算顺序,从所有局部队列中选择队列第一位的作业进行因子计算(忽略无作业的局部队列),按照因子顺序算出优先级最高的作业,将其从所在的局部队列里取出并插入到全局队列的第一位,其所在局部队列的第二位自动上升为第一位,第三位上升为第二位,以此类推;
然后,重复再从所有局部队列中选择队列第一位的作业进行因子计算,将优先级最高的作业插入到全局队列的第二位中,重复此过程,直到将所有的局部队列的作业都插入到全局队列中,最终生成一个排序的全局作业队列。
对于本系统中的资源调度模块140,其与作业调度模块130,虚拟集群资源池模块150以及相应的计算机控制模块170进行数据交换。其具体由资源分配程序和分配策略组成。
其中,资源分配程序分为串行程序和并行程序。参见图3,本实例中的串行程序主要用于构造资源分配链和资源锁,让每一个待分配资源的作业依次经过资源分配链上的资源调度模块。资源调度模块包含三个接口:参数校验接口、资源查询接口以及资源分配接口,其中先调用参数校验接口,校验资源策略和资源请求是否匹配,再调用资源查询接口用来获取资源,最后调用资源分配接口为这个作业分配一个具体的资源。
在完成这个作业的资源分配后,将该资源设置临时资源锁用于标识该资源被锁定并正在检查有效性和可用性,此时资源分配模块可继续为下一个作业分配剩余资源,从而使串行的资源分配过程和耗时的资源检查过程并行进行,当资源有效性和可用性检查通过后,作业状态变为分配中(ALLOCATE),当资源检查失败后,资源释放,作业状态仍然为排队中(QUEUE),当作业成功在分配的资源运行后,作业状态变为运行状态(RUNNING)。
对于本方案对资源检查的具体方法不做限制,可可根据实际需求进行选择。
对应于上述的资源分配程序,本资源调度模块140中的资源分配策略包含:
虚拟机资源分配:从虚拟机资源中根据一定算法为作业分配适合的虚拟机。
系统账号资源分配:根据一定的算法为作业分配一个系统账号。
业软件许可证分配:根据一定的算法为作业分配一个许可证。
这里需要指出的,本实例不对虚拟机和作业软件许可证的资源分配策略做限制。基于系统账号资源和虚拟机资源作为系统必须具备的资源,系统账号可以为任何作业进行动态地分配和调度,作业提交时无需设置或预先知道系统账号,此为区别其他作业调度的重要特征,系统账号可由LDAP系统、NIS系统、Windows AD系统创建,其他作业调度系统在提交作业前必须设置或知晓作业所属的系统账号。
对于本系统中的虚拟集群资源池模块150,其与作业调度模块130、资源监控服务模块160以及计算控制模块进行数据交换。
本虚拟集群资源池模块150用于管理本系统的虚拟集群资源池,而位于虚拟机资源池(即虚拟集群资源池)中本系统可调度的虚拟机资源,由资源监控服务模块160来维护虚拟机的创建和销毁。
由资源监控服务模块160通过封装作业计算环境的镜像来创建虚拟机,在创建前带上计算控制模块路径的系统环境变量参数,虚拟机开机后,会从镜像开机的脚本中读取计算控制模块共享存储路径的环境变量,然后启动该路径下的计算控制模块,由计算控制模块解析调度系统的配置信息,将当前虚拟机的配置信息同步到虚拟集群资源池中。由此可以实现本系统无需通过人工方式编辑全局节点文件,而是由虚拟机在创建的时由计算控制模块自动将自身信息同步到集群资源池中。
对于本系统中的资源监控服务模块160,其具体用于监控虚拟机资源池的虚拟机运行状态并标记虚拟机状态,本实例中每个虚拟机的状态包含在线、离线、释放和维护等三态。据此,本资源监控服务模块160通过向外部云计算操作系统申请和销毁虚拟机,由此来确保虚拟机资源池中的虚拟机能满足系统调度的要求。
具体的实现流程如下:
首先,读取虚拟机资源池的虚拟机信息,其次读取排队队列的作业信息,根据排队队列的作业信息,评估作业所需资源的总量与资源池中虚拟机的总量,当达到一定的比例时,调用由外部云计算系统提供的接口来创建虚拟机,创建的虚拟机通过上述方式自动加入到资源池中;
然后,资源监控服务模块会每隔一段时间去检查虚拟机的端口服务状态,如果虚拟机端口无响应或出现连接错误且超过预先设定的时间阈值时,资源监控服务会将虚拟机的状态标记为离线;
然后,调用外部云计算系统提供的接口释放虚拟机,调用成功后资源监控服务模块在资源池中将此虚拟机状态标记为释放,由此可以实现本调度系统能够自动监控资源池大小,创建和销毁虚拟机,实现资源池的弹性伸缩。
根据上述功能方案构成虚拟化作业调度系统,其基于高性能云计算可有效的实现在云计算环境下实现动态、按需、弹性调度资源。
参考图4,本虚拟化作业调度系统在云计算环境下实现动态、按需、弹性调度资源的实现流程如下:
外部系统通过HTTP作业提交接口,将作业计算请求提交到作业分发模块,作业状态为提交(Submit),作业分发模块解析外部系统的协议,提取令牌信息、用户账号信息和作业信息,检验用户账号和令牌信息的唯一性,当系统检查令牌有效性后,提交作业到作业队列数据库中,作业状态为排队(Queue);
作业调度模块调度系统所有作业队列,每一轮会将所有队列的作业加载到内存中,根据每一个作业的令牌信息、用户信息、作业信息、提交时间信息、资源信息等,将作业根据算法进行排序,形成一个全局串行的就绪队列;
资源调度模块从就绪队列中逐个读取作业,并从虚拟集群资源池中根据资源分配方案为作业分配可用资源;当无资源可分配时,资源监控服务模块自动为其创建和回收资源,包括虚拟机、网络、系统账号、许可证等,作业状态为分配(Allocate);该过程中,资源监控服务模块还通过向外部云计算操作系统申请和销毁虚拟机,由此来确保虚拟机资源池中的虚拟机能满足系统调度的要求;
在作业获取相应的资源后,将立即对可用资源进行检查和校验,由计算控制块负责资源运行环境的初始化,包括设置运行账号、本地文件同步、作业软件许可证环境准备等;
计算控制模块会启动作业进程,并设置作业进程核绑定操作,在作业运行过程中计算控制模块负责管理作业的输入和输出流,作业状态为运行(Running);
当作业运行结束后,计算控制模块会释放当前作业占用的资源,包括虚拟机、网络、系统账号、作业软件许可证等;释放的资源由资源监控服务模块负责资源信息的同步,作业状态为成功、失败或错误(DONE、EXIT、ERROR)。
最后需要指出的,上述本发明的方法,或特定系统单元、或其部份单元,为纯软件架构,可以透过程序代码布设于实体媒体,如硬盘、光盘片、或是任何电子装置(如智能型手机、计算机可读取之储存媒体),当机器加载程序代码且执行(如智能型手机加载且执行),机器成为用以实行本发明的装置。上述本发明的方法与系统也可以程序代码型态透过一些传送媒体,如电缆、光纤、或是任何传输型态进行传送,当程序代码被机器(如智能型手机)接收、加载且执行,机器成为用以实行本发明的装置。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (9)

1.基于高性能云计算的虚拟化作业调度系统,其特征在于,包括:
作业提交接口模块,与作业分发模块实现数据交换,用于作业提交和调度;
作业分发模块,与作业提交接口模块和作业调度模块进行数据交互,用于将作业提交接口模块提交的作业分发到作业调度模块中;
作业调度模块,用于对作业分发模块分发的作为进行调度,形成一个全局串行的就绪队列;
资源调度模块,与作业调度模块,虚拟集群资源池模块以及相应的计算机控制模块进行数据交换,用于根据作业调度模块的调度,从虚拟集群资源池模块管理的虚拟集群资源池中为作业分配可用资源;所述资源调度模块具体由资源分配程序和分配策略组成,其中,系统账号可以为任何作业进行动态地分配和调度,作业提交时无需设置或预先知道系统账号;所述资源分配程序分为串行程序和并行程序,所述串行程序用于构造资源分配链和资源锁,让每一个待分配资源的作业依次经过资源分配链上的资源调度模块;所述资源调度模块在完成作业的资源分配后,将被分配的资源设置临时资源锁用于标识该被分配的资源被锁定并正在检查有效性和可用性,此时资源分配模块继续为下一个作业分配剩余资源,以使串行的资源分配过程和耗时的资源检查过程并行进行;当资源有效性和可用性检查通过后,作业状态变为分配中,当资源检查失败后,资源释放,作业状态仍然为排队中,当作业成功在分配的资源运行后,作业状态变为运行状态;
虚拟集群资源池模块,其与作业调度模块、资源监控服务模块以及计算控制模块进行数据交换,用于管理系统的虚拟集群资源池;
资源监控服务模块,用于监控虚拟机资源池的虚拟机运行状态并标记虚拟机状态,每个虚拟机的状态包含在线、离线、释放和维护四态;所述资源监控服务模块通过向外部云计算操作系统申请和销毁虚拟机;资源监控服务模块通过封装作业计算环境的镜像来创建虚拟机,在创建前设置计算控制模块路径的系统环境变量参数,虚拟机开机后,会从镜像开机的脚本中读取计算控制模块路径的系统环境变量参数,然后启动该路径下的计算控制模块,由计算控制模块解析调度系统的配置信息,将当前虚拟机的配置信息同步到虚拟集群资源池中;
计算控制模块,还用于控制作业计算流程;
作业运行环境配置模块,用于配制计算节点运行环境。
2.根据权利要求1所述的虚拟化作业调度系统,其特征在于,所述作业提交接口模块中定义云用户作业协议,所述云用户作业协议包括:令牌信息、用户信息、作业参数信息。
3.根据权利要求1所述的虚拟化作业调度系统,其特征在于,所述作业分发模块接受外部系统通过HTTP协议提交作业,将作业插入排队队列中,同时标记作业状态为提交状态。
4.根据权利要求1所述的虚拟化作业调度系统,其特征在于,所述作业调度模块通过定期轮询和提交作业事件触发调度轮询。
5.根据权利要求1所述的虚拟化作业调度系统,其特征在于,所述资源调度模块中与资源分配程序匹配的资源分配策略包含:虚拟机资源分配、系统账号资源分配以及作业软件许可证分配。
6.根据权利要求5所述的虚拟化作业调度系统,其特征在于,所述串行程序构造资源分配链和资源锁,让每一个待分配资源的作业依次经过资源分配链上的资源分配程序,资源分配程序包含三个接口,先调用参数校验接口,校验资源策略和资源请求是否匹配,再调用资源查询接口用来获取资源,最后调用资源分配接口为作业分配一个具体的资源。
7.基于高性能云计算的虚拟化作业调度方法,其特征在于,所述作业调度方法基于权利要求1-6中任一项所述的基于高性能云计算的虚拟化作业调度系统。
8.根据权利要求7所述的虚拟化作业调度方法,其特征在于,向外部云计算操作系统申请和销毁虚拟机过程包括:
读取虚拟机资源池的虚拟机信息,以及读取排队队列的作业信息,根据排队队列的作业信息,评估作业所需资源的总量与资源池中虚拟机的总量,当达到一定的比例时,调用由外部云计算操作系统提供的接口来创建虚拟机,创建的虚拟机自动加入到虚拟集群资源池中;
资源监控服务模块会每隔一段时间去检查虚拟机的端口服务状态,如果虚拟机端口无响应或出现连接错误且超过预先设定的时间阈值时,将虚拟机的状态标记为离线;
调用外部云计算系统提供的接口释放虚拟机,调用成功后在虚拟集群资源池中将此虚拟机状态标记为释放。
9.根据权利要求7所述的虚拟化作业调度方法,其特征在于,所述作业调度方法具体包括:
解析提交的作业计算请求,并提交作业到作业队列数据库中;
调度作业队列,将所有队列的作业加载到内存中,根据每一个作业的属性信息进行排序,形成一个全局串行的就绪队列;
从就绪队列中逐个读取作业,并从虚拟集群资源池中根据资源分配法为作业分配可用资源;当无资源可分配时,自动为其创建和回收资源;
在作业获取资源后,对可用资源进行检查和校验,并进行资源运行环境的初始化;
启动作业进程,作业状态为运行,当作业运行结束后,释放当前作业占用的资源;针对释放的资源进行资源信息同步,作业状态为成功、失败或错误。
CN201711352300.6A 2017-12-15 2017-12-15 一种基于高性能云计算的虚拟化作业调度系统及其实现方法 Active CN108304260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711352300.6A CN108304260B (zh) 2017-12-15 2017-12-15 一种基于高性能云计算的虚拟化作业调度系统及其实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711352300.6A CN108304260B (zh) 2017-12-15 2017-12-15 一种基于高性能云计算的虚拟化作业调度系统及其实现方法

Publications (2)

Publication Number Publication Date
CN108304260A CN108304260A (zh) 2018-07-20
CN108304260B true CN108304260B (zh) 2022-02-22

Family

ID=62870613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711352300.6A Active CN108304260B (zh) 2017-12-15 2017-12-15 一种基于高性能云计算的虚拟化作业调度系统及其实现方法

Country Status (1)

Country Link
CN (1) CN108304260B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109240795A (zh) * 2018-08-10 2019-01-18 南瑞集团有限公司 一种适用于超融合it基础设施的云计算资源池模型的资源调度方法
CN109828833B (zh) * 2018-11-02 2020-09-29 上海帆一尚行科技有限公司 一种神经网络训练任务的排队系统及其方法
CN110417686B (zh) * 2019-06-12 2021-12-14 因特睿科技有限公司 云资源动态调度系统
CN111162908B (zh) * 2019-12-11 2022-07-22 深圳供电局有限公司 密钥太阳式输电线路现场作业方法与系统
CN111399989B (zh) * 2020-04-10 2022-11-18 中国人民解放军国防科技大学 一种面向容器云的任务抢占调度方法及系统
CN113703952B (zh) * 2020-05-20 2023-10-10 山东省计算中心(国家超级计算济南中心) 一种基于超级计算机的队列资源调度的资源分配方法
CN111708604A (zh) * 2020-05-28 2020-09-25 北京赛博云睿智能科技有限公司 一种智能运维支撑方法
CN113254151B (zh) * 2021-05-17 2023-02-24 清华大学 超级计算机系统虚拟化方法和装置
CN113254201A (zh) * 2021-05-17 2021-08-13 清华大学 超算云计算平台化管理方法和管理平台
CN114401280B (zh) * 2022-01-14 2022-10-28 北京天云融创软件技术有限公司 一种作业数据同步方法和系统
CN115794355B (zh) * 2023-01-29 2023-06-09 中国空气动力研究与发展中心计算空气动力研究所 任务处理方法、装置、终端设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103248661A (zh) * 2012-02-13 2013-08-14 宇龙计算机通信科技(深圳)有限公司 账号绑定的方法及其系统
CN104052608A (zh) * 2014-07-07 2014-09-17 西安电子科技大学 云应用中基于第三方的无证书远程匿名认证方法
CN104572307A (zh) * 2015-01-30 2015-04-29 无锡华云数据技术服务有限公司 一种对虚拟资源进行弹性调度的方法
CN105022670A (zh) * 2015-07-17 2015-11-04 中国海洋大学 一种云计算平台中的异构分布式任务处理系统及其处理方法
CN103605567B (zh) * 2013-10-29 2017-03-22 河海大学 面向实时性需求变化的云计算任务调度方法
CN107450983A (zh) * 2017-07-14 2017-12-08 中国石油大学(华东) 一种基于虚拟聚类的分级网络资源调度方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103248661A (zh) * 2012-02-13 2013-08-14 宇龙计算机通信科技(深圳)有限公司 账号绑定的方法及其系统
CN103605567B (zh) * 2013-10-29 2017-03-22 河海大学 面向实时性需求变化的云计算任务调度方法
CN104052608A (zh) * 2014-07-07 2014-09-17 西安电子科技大学 云应用中基于第三方的无证书远程匿名认证方法
CN104572307A (zh) * 2015-01-30 2015-04-29 无锡华云数据技术服务有限公司 一种对虚拟资源进行弹性调度的方法
CN105022670A (zh) * 2015-07-17 2015-11-04 中国海洋大学 一种云计算平台中的异构分布式任务处理系统及其处理方法
CN107450983A (zh) * 2017-07-14 2017-12-08 中国石油大学(华东) 一种基于虚拟聚类的分级网络资源调度方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于质谱的小麦蛋白质鉴定平台的建立及赤霉病抗性相关转录组分析;徐海滨;《中国博士学位论文全文数据库农业科技辑》;20120615(第6期);第4页 *

Also Published As

Publication number Publication date
CN108304260A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108304260B (zh) 一种基于高性能云计算的虚拟化作业调度系统及其实现方法
US11704144B2 (en) Creating virtual machine groups based on request
US10846140B2 (en) Off-site backup of workloads for multi-tenant cloud computing system
US9396031B2 (en) Distributed UIMA cluster computing (DUCC) facility
CN109034396B (zh) 用于处理分布式集群中的深度学习作业的方法和装置
US20200379789A1 (en) Operating System for Distributed Enterprise Artificial Intelligence Programs on Data Centers and the Clouds
EP3442201B1 (en) Cloud platform construction method and cloud platform
JP6686371B2 (ja) データステージング管理システム
US20170353396A1 (en) Grouping of tasks for distribution among processing entities
US11307900B2 (en) Adjustment of the number of central processing units to meet performance requirements of an I/O resource
CN112416585A (zh) 面向深度学习的gpu资源管理与智能化调度方法
CN113064744A (zh) 任务处理方法、装置、计算机可读介质及电子设备
US7219345B2 (en) System and method for terminating processes in a distributed computing system
CN104793981B (zh) 一种虚拟机集群的在线快照管理方法及装置
CN115543615A (zh) 一种资源分配方法、装置、电子设备及存储介质
CN108089924A (zh) 一种任务运行方法及装置
CN111163140A (zh) 资源获取和分配的方法、装置和计算机可读存储介质
US20150067689A1 (en) Method, system, and program for scheduling jobs in a computing system
CN111465920B (zh) 远程复制操作期间通过总线接口被写入存储控制器的数据的管理
CN115033365A (zh) 基于人工智能的任务流精准调度方法及相关设备
US7159012B2 (en) Computational data processing system and computational process implemented by means of such a system
Li et al. Background traffic optimization for meeting deadlines in data center storage
US20080222231A1 (en) Integration Process and Product for Digital Systems
CN115242596B (zh) 面向用户的网络测试床场景业务调度方法及装置
CN112100283B (zh) 一种基于Linux平台的安卓虚拟机的分时复用方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant