CN113515356A - 一种轻量级分布式资源管理与任务调度器及方法 - Google Patents

一种轻量级分布式资源管理与任务调度器及方法 Download PDF

Info

Publication number
CN113515356A
CN113515356A CN202110396985.4A CN202110396985A CN113515356A CN 113515356 A CN113515356 A CN 113515356A CN 202110396985 A CN202110396985 A CN 202110396985A CN 113515356 A CN113515356 A CN 113515356A
Authority
CN
China
Prior art keywords
task
node
resource
resource management
submodule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110396985.4A
Other languages
English (en)
Other versions
CN113515356B (zh
Inventor
王欢
王涛
毛秀华
赵浩波
尚祖月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
8511 Research Institute of CASIC
Original Assignee
8511 Research Institute of CASIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 8511 Research Institute of CASIC filed Critical 8511 Research Institute of CASIC
Priority to CN202110396985.4A priority Critical patent/CN113515356B/zh
Publication of CN113515356A publication Critical patent/CN113515356A/zh
Application granted granted Critical
Publication of CN113515356B publication Critical patent/CN113515356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

本发明公开了一种轻量级分布式资源管理与任务调度器及方法,该资源管理与任务调度器包括资源管理模块和任务调度模块,资源管理模块包含资源监控子模块、资源检测与分配子模块;任务调度模块分为任务控制子模块、任务进程状态监控子模块以及远程控制信息转发子模块。资源管理与任务调度器适用于含有常规计算和高级计算节点的分布式系统,定时获取硬件节点健康信息,根据硬件节点健康条件和设置的任务启动时间、软件模块所需资源上限去协调硬件资源,若资源检测成功则启动任务,定时进行任务进程状态监控,若检测到结束任务指令,则进行关闭任务处理。本发明可运行在Windows操作系统,适用于轻量级的分布式计算集群,效率高、执行速度快。

Description

一种轻量级分布式资源管理与任务调度器及方法
技术领域
本发明属于分布式计算技术领域,特别是一种轻量级分布式资源管理与任务调度器及方法。
背景技术
另一种资源协调者(Yet Another Resource Negotiator,YARN)是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度。YARN的主要思想是将JobTracker的两个主要功能资源管理和作业调度/监控分离,创建一个全局的RM(ResourceManager)和若干个针对应用程序的AM(ApplicationMaster)。YARN分层结构的本质是ResourceManager,这个实体控制整个集群并管理应用程序向基础计算资源的分配。ResourceManager将各个资源部分(计算、内存、带宽等)安排给YARN的每节点代理,ResourceManager还与ApplicationMaster一起分配资源,与NodeManager一起启动和监视他们的基础应用程序。然而,YARN主要应用在大型计算集群场景中,且需部署在Linux操作系统中。
其他较类似功能的任务调度器,国内具有几款优秀和极具潜力的国产开源分布式任务调度系统,比如:1、opencron:opencron是一个功能完善且通用的开源定时任务调度系统,拥有先进可靠的自动化任务管理调度功能,提供可操作的web图形化管理满足多种场景下各种复杂的定时任务调度,同时集成了Linux实时监控、webssh等功能特性。对于opencron的部署,从架构上讲,是采用的C/S的架构,需要有Server和agent端,整体开发是用Java语言,需要JDK1.7以上版本;server端的web是用Tomcat进行支持,需要Tomcatserver1.8以上的版本支持。2、LTS:LTS(light-task-scheduler)是一款分布式任务调度框架,支持实时任务、定时任务和Cron任务,有较好的伸缩性和扩展性,提供对Spring的支持(包括XML和注解),提供业务日志记录器。支持节点监控、任务执行监控、JVM监控,支持动态提交、更改、停止任务,依赖注册中心(如Zookeeper、redis等)进行节点信息暴露,master选举;依赖Mongo或MySQL存储任务队列和任务执行日志,netty做底层通信,外部依赖内容较多。3、Elastic-Job:Elastic-Job是当当网开发的一个分布式调度解决方案,由两个相互独立的子项目Elastic-Job-Lite和Elastic-Job-Cloud组成,定位为轻量级无中心化解决方案,使用jar包的形式提供分布式任务的协调服务,支持分布式调度协调、弹性扩容缩容、失效转移、错过执行作业重触发、并行调度、自诊断和修复等功能特性,基于qutarz和zookeeper进行封装,依赖开源组件,在部署时,需要安装jdk开发环境、Zookeeper以及maven。
综上可知,现有方法存在依赖开源组件、效率低、执行速度慢等问题,不适用于轻量级的分布式计算集群。
发明内容
本发明的目的在于提供一种轻量级分布式资源管理与任务调度器及方法,可运行在Windows操作系统,适用于轻量级的分布式计算集群,效率高、执行速度快。
实现本发明目的的技术解决方案为:一种轻量级分布式资源管理与任务调度器,包括资源管理模块和任务调度模块,所述资源管理模块包括资源监控子模块、资源检测与分配子模块,所述任务调度模块包括任务控制子模块、任务进程状态监控子模块以及远程控制信息转发子模块;
每一次计算处理,认为是一个任务;所述资源监控子模块更新各常规计算节点和各高级计算节点的资源信息;当有任务请求时,任务控制子模块向资源管理模块申请任务所需资源,资源检测与分配子模块进行任务所需资源的检测与分配,确定各常规计算节点和各高级计算节点的计算进程;当资源检测及分配成功后,任务控制子模块调用远程控制消息转发子模块生成远程控制报文,并发送至预计运行该任务相关进程的常规计算节点和高级计算节点的节点管理模块,启动该任务的相关计算进程;任务进程状态监控子模块实时监控各任务的软件进程运行状态,当出现异常时,进行相关信息提示和记录;当该任务结束时,任务控制子模块调用远程控制消息转发子模块生成远程控制报文,并发送至相应常规计算节点和高级计算节点的节点管理模块,关闭该任务的相关进程。
进一步地,该资源管理与任务调度器基于分布式计算软件框架结构,该软件框架包含一个Nginx前端模块、一个调度服务软件模块、一个代理助理软件模块、一个数据管理模块、若干个数据接入模块、若干个常规计算软件模块、若干个高级计算软件模块;
所述资源管理与任务调度器运行在调度服务软件模块,通过相关逻辑调度框架中的数据接入模块、常规计算软件模块和高级计算软件模块。
进一步地,所述资源管理模块中的资源监控子模块,具有以下功能:对各个常规计算节点、高级计算节点的硬件状态信息进行监控,所述硬件状态信息包括CPU、内存、硬盘以及GPU信息;与各常规计算节点和高级计算节点的节点管理软件模块建立连接,接收各计算节点定时周期发送的硬件状态信息;同时,将该硬件状态信息写入数据库中的系统硬件资源表,并更新资源管理模块的全局资源链表。
一种轻量级分布式资源管理与任务调度方法,包括以下步骤:
步骤1:定时资源监控:资源监控子模块监控所在分布式计算系统的各个硬件节点的硬件状态,更新各常规计算节点、高级计算节点的资源信息,若有任务创建请求则进入下一步;
步骤2:资源检测与分配:当有任务请求时,任务控制子模块向资源管理模块申请任务所需资源,资源检测与分配子模块进行任务所需资源的检测与分配,确定各个高级计算节点和各个常规计算节点的计算进程;当资源检测及分配成功后,进入下一步;
步骤3:启动任务:任务控制子模块调用远程控制消息转发子模块生成远程控制报文,并发送至相应常规计算节点和高级计算节点的节点管理模块,启动所请求任务的常规计算进程和高级计算进程;
步骤4:任务进程状态监控:任务进程状态监控子模块实时监控各任务的软件进程运行状态,当出现异常时,进行信息提示和记录;
步骤5:关闭任务:当任务结束时,任务控制子模块调用远程控制消息转发子模块生成远程控制报文,并发送至相应常规计算节点和高级计算节点的节点管理模块,关闭该任务的相关进程。
进一步地,步骤1所述定时资源监控,具体如下:
资源管理模块中的资源监控子模块,对各个常规计算节点、高级计算节点的硬件状态信息进行监控,硬件状态信息包括CPU、内存、硬盘以及GPU信息;资源监控子模块与各常规计算节点和各高级计算节点的节点管理软件模块建立连接,接收各计算节点定时周期发送的硬件状态信息;同时,将该硬件状态信息写入数据库中的系统硬件资源表,并更新资源管理模块的全局资源链表。
进一步地,步骤4所述任务进程状态监控,共有10个状态,各个状态的值为:
0wait:启动时间未到;1ready:启动时间已到;2block:资源检测成功,未运行;3start:启动运行;4pause:任务暂停;5goon:任务继续;6manualstop:点击停止按钮结束;7normalstop:自动结束;8oodcrash:内存溢出崩溃;9comcrash:心跳丢失崩溃。
进一步地,步骤2所述资源检测与分配,具体如下:
(1.1)获取部署轻量级分布式资源管理与任务调度的计算处理系统的常规计算节点、高级计算节点以及采集服务器节点的静态信息;
(1.2)定时获取部署轻量级分布式资源管理与任务调度的计算处理系统的常规计算节点、高级计算节点以及采集服务器节点的硬件状态信息;
(1.3)定时检查启动时间已到的队列,并对队列的任务进行资源检测;
(1.4)根据任务类型,计算任务所需各类软件进程和数量;
(1.5)根据部署轻量级分布式资源管理与任务调度的计算处理系统的各常规计算节点、高级计算节点以及采集服务器节点的状态,按照设定的逻辑计算能运行的软件进程数量;
(1.6)根据请求的任务实际所需的软件进程数量,按照设定的逻辑进行分配。
进一步地,步骤3所述启动任务,具体如下:
(2.1)针对每个任务,逐节点地遍历分配的软件进程队列,所述轻量级分布式资员管理与多任务调度器向对应节点的节点管理模块发送进程启动指令;
(2.2)若一个任务中一类进程实际启动成功的数量小于设定的阈值,则任务启动失败;所述轻量级分布式资员管理与多任务调度器向对应节点的节点管理模块发送进程结束指令,将该任务已经启动的软件进程进行关闭;
(2.3)若认定任务启动成功,则将对应block队列中的任务信息移动至已运行队列中;否则,在对应block队列中删除该任务,并前端报警。
进一步地,步骤4所述任务进程状态监控,具体如下:
(3.1)定时检测各任务的软件进程运行情况;
(3.2)若存在软件进程运行异常情况,则定位到具体任务并按照心跳丢失、内存使用超限、运行异常优先级,逐个判断;
(3.3)根据软件进程的运行状态,更新在本轻量级分布式资源管理与多任务调度器部署的系统中记录的各任务运行状态信息。
进一步地,步骤5所述关闭任务,具体如下:
(4.1)收到任务结束指令时,查询本轻量级分布式资源管理与多任务调度器部署的系统中该任务的具体软件运行进程;
(4.2)所述轻量级分布式资员管理与多任务调度器向对应节点的节点管理模块发送进程结束指令,将该任务已经启动的软件进程进行关闭;
(4.3)根据释放的软件进程,更新全局资源信息;
(4.4)根据结束的情况,更新在本轻量级分布式资源管理与多任务调度器部署的系统中记录的任务结束状态。
本发明与现有技术相比,其显著优点为:(1)采用C++开发,不依赖任何开源组件,自主可控、通用性强;(2)可直接运行在Windows操作系统,能够满足多用户多任务并发执行的功能需求,并适用于轻量级的分布式计算集群,效率高,执行速度快;(3)具有轻量化、免配置的特点,使用方便,满足小型分布式计算集群使用场景,在使用时直接调用API即可。
附图说明
图1是依赖的分布式计算软件框架结构图。
图2是轻量级分布式资源管理与任务调度器的模块组成图。
图3是任务状态切换图。
图4是资源检测与分配功能处理流程图。
图5是启动任务功能处理流程图。
图6是任务进程状态监控功能处理流程图。
图7是关闭任务功能处理流程图。
图8是轻量级分布式资源管理与任务调度方法的流程图。
具体实施方式
本发明一种轻量级分布式资源管理与任务调度器,包括资源管理模块和任务调度模块,所述资源管理模块包括资源监控子模块、资源检测与分配子模块,所述任务调度模块包括任务控制子模块、任务进程状态监控子模块以及远程控制信息转发子模块;
每一次计算处理,认为是一个任务;所述资源监控子模块更新各常规计算节点和各高级计算节点的资源信息;当有任务请求时,任务控制子模块向资源管理模块申请任务所需资源,资源检测与分配子模块进行任务所需资源的检测与分配,确定各常规计算节点和各高级计算节点的计算进程;当资源检测及分配成功后,任务控制子模块调用远程控制消息转发子模块生成远程控制报文,并发送至预计运行该任务相关进程的常规计算节点和高级计算节点的节点管理模块,启动该任务的相关计算进程;任务进程状态监控子模块实时监控各任务的软件进程运行状态,当出现异常时,进行相关信息提示和记录;当该任务结束时,任务控制子模块调用远程控制消息转发子模块生成远程控制报文,并发送至相应常规计算节点和高级计算节点的节点管理模块,关闭该任务的相关进程。
作为一种具体实施例,该资源管理与任务调度器基于分布式计算软件框架结构,该软件框架包含一个Nginx前端模块、一个调度服务软件模块、一个代理助理软件模块、一个数据管理模块、若干个数据接入模块、若干个常规计算软件模块、若干个高级计算软件模块;
所述资源管理与任务调度器运行在调度服务软件模块,通过相关逻辑调度框架中的数据接入模块、常规计算软件模块和高级计算软件模块。
作为一种具体实施例,所述资源管理模块中的资源监控子模块,具有以下功能:对各个常规计算节点、高级计算节点的硬件状态信息进行监控,所述硬件状态信息包括CPU、内存、硬盘以及GPU信息;与各常规计算节点和高级计算节点的节点管理软件模块建立连接,接收各计算节点定时周期发送的硬件状态信息;同时,将该硬件状态信息写入数据库中的系统硬件资源表,并更新资源管理模块的全局资源链表。
一种轻量级分布式资源管理与任务调度方法,包括以下步骤:
步骤1:定时资源监控:资源监控子模块监控所在分布式计算系统的各个硬件节点的硬件状态,更新各常规计算节点、高级计算节点的资源信息,若有任务创建请求则进入下一步;
步骤2:资源检测与分配:当有任务请求时,任务控制子模块向资源管理模块申请任务所需资源,资源检测与分配子模块进行任务所需资源的检测与分配,确定各个高级计算节点和各个常规计算节点的计算进程;当资源检测及分配成功后,进入下一步;
步骤3:启动任务:任务控制子模块调用远程控制消息转发子模块生成远程控制报文,并发送至相应常规计算节点和高级计算节点的节点管理模块,启动所请求任务的常规计算进程和高级计算进程;
步骤4:任务进程状态监控:任务进程状态监控子模块实时监控各任务的软件进程运行状态,当出现异常时,进行信息提示和记录;
步骤5:关闭任务:当任务结束时,任务控制子模块调用远程控制消息转发子模块生成远程控制报文,并发送至相应常规计算节点和高级计算节点的节点管理模块,关闭该任务的相关进程。
作为一种具体实施例,步骤1所述定时资源监控,具体如下:
资源管理模块中的资源监控子模块,对各个常规计算节点、高级计算节点的硬件状态信息进行监控,硬件状态信息包括CPU、内存、硬盘以及GPU信息;资源监控子模块与各常规计算节点和各高级计算节点的节点管理软件模块建立连接,接收各计算节点定时周期发送的硬件状态信息;同时,将该硬件状态信息写入数据库中的系统硬件资源表,并更新资源管理模块的全局资源链表。
作为一种具体实施例,步骤4所述任务进程状态监控,共有10个状态,各个状态的值为:
0wait:启动时间未到;1ready:启动时间已到;2block:资源检测成功,未运行;3start:启动运行;4pause:任务暂停;5goon:任务继续;6manualstop:点击停止按钮结束;7normalstop:自动结束;8oodcrash:内存溢出崩溃;9comcrash:心跳丢失崩溃。
作为一种具体实施例,步骤2所述资源检测与分配,具体如下:
(1.1)获取部署轻量级分布式资源管理与任务调度的计算处理系统的常规计算节点、高级计算节点以及采集服务器节点的静态信息;
(1.2)定时获取部署轻量级分布式资源管理与任务调度的计算处理系统的常规计算节点、高级计算节点以及采集服务器节点的硬件状态信息;
(1.3)定时检查启动时间已到的队列,并对队列的任务进行资源检测;
(1.4)根据任务类型,计算任务所需各类软件进程和数量;
(1.5)根据部署轻量级分布式资源管理与任务调度的计算处理系统的各常规计算节点、高级计算节点以及采集服务器节点的状态,按照设定的逻辑计算能运行的软件进程数量;
(1.6)根据请求的任务实际所需的软件进程数量,按照设定的逻辑进行分配。
作为一种具体实施例,步骤3所述启动任务,具体如下:
(2.1)针对每个任务,逐节点地遍历分配的软件进程队列,所述轻量级分布式资员管理与多任务调度器向对应节点的节点管理模块发送进程启动指令;
(2.2)若一个任务中一类进程实际启动成功的数量小于设定的阈值,则任务启动失败;所述轻量级分布式资员管理与多任务调度器向对应节点的节点管理模块发送进程结束指令,将该任务已经启动的软件进程进行关闭;
(2.3)若认定任务启动成功,则将对应block队列中的任务信息移动至已运行队列中;否则,在对应block队列中删除该任务,并前端报警。
作为一种具体实施例,步骤4所述任务进程状态监控,具体如下:
(3.1)定时检测各任务的软件进程运行情况;
(3.2)若存在软件进程运行异常情况,则定位到具体任务并按照心跳丢失、内存使用超限、运行异常优先级,逐个判断;
(3.3)根据软件进程的运行状态,更新在本轻量级分布式资源管理与多任务调度器部署的系统中记录的各任务运行状态信息。
作为一种具体实施例,步骤5所述关闭任务,具体如下:
(4.1)收到任务结束指令时,查询本轻量级分布式资源管理与多任务调度器部署的系统中该任务的具体软件运行进程;
(4.2)所述轻量级分布式资员管理与多任务调度器向对应节点的节点管理模块发送进程结束指令,将该任务已经启动的软件进程进行关闭;
(4.3)根据释放的软件进程,更新全局资源信息;
(4.4)根据结束的情况,更新在本轻量级分布式资源管理与多任务调度器部署的系统中记录的任务结束状态。
下面结合附图及具体实施例对本发明做进一步详细说明。
实施例
本发明所述的一种轻量级分布式多任务资源管理与任务调度器所依赖分布式计算软件框架结构如图1所示:
该软件框架中包含一个Nginx前端模块、一个调度服务软件模块、一个代理助理软件模块、一个数据管理模块、若干个数据接入模块、若干个常规计算软件模块、若干个高级计算软件模块;可运行在一台计算机上,也可按角色分别运行在多台计算机上,如:数据接入软件模块运行在采集服务器上,计算节点有两类,常规计算软件模块运行在常规计算节点,高级计算软件模块运行在高级计算节点。
在分布式计算、多任务并发场景下,将有多个客户端“同时”向调度软件发送任务申请,而且每个用户都可能申请多个任务;同时,每个任务会存在并行计算进程,甚至分布在不同计算节点上。这个问题的本质是调度服务软件模块要能够接多个任务申请,并能够根据当前计算资源状态(包括常规计算软件模块和高级计算软件模块),将任务合理的分配到相应的计算资源,同时对资源运行情况进行监控和管理。
本发明所述一种轻量级分布式多任务资源管理与任务调度器运行在调度服务软件模块,通过相关逻辑去调度框架中的数据接入模块、常规计算软件模块和高级计算软件模块。
资源管理与任务调度器组成如图2所示:
分为资源管理模块和任务调度模块,资源管理模块包含:资源监控子模块、资源检测与分配子模块;任务调度模块分为任务控制子模块、任务进程状态监控子模块以及远程控制信息转发子模块。
资源监控子模块更新节点资源信息,任务控制子模块向资源管理模块申请任务所需资源,资源检测与分配子模块进行任务所需资源的检测与分配,确定各个计算节点的计算进程;当资源检测及分配成功后,任务控制子模块调用远程控制消息转发子模块生成远程控制报文,并发送至与相应计算节点的交互模块,启动该任务的相关进程。任务状态监控子模块实时监控各任务的软件进程运行状态,当出现异常时,进行相关信息提示和记录。当该任务结束时,任务控制子模块调用远程控制消息转发子模块生成远程控制报文,并发送至与相应计算节点的交互模块,关闭该任务的相关进程。
按功能划分,可分为六大功能:
1、资源监控
资源监控子模块,对系统中各个硬件节点的CPU、内存、硬盘以及GPU相关信息进行监控。与各计算节点的节点管理软件模块建立连接,接收各计算节点定时周期发送的硬件状态信息;同时,将该信息写入数据库中的系统硬件资源表,并更新信息至资源管理模块的全局资源链表,如实时可用内存、GPU使用率等。
2、任务状态切换
任务状态共有10个状态,状态切换如下图3所示:
其中,各个状态的值为:
Figure BDA0003018928550000091
调度服务软件模块在启动时,首先在数据库中的任务基本信息表中查询状态为0和1的任务,分别加载到内存中的waittasklist和readytasklist中,然后响应用户在浏览器提交的任务。当用户创建一个任务后,调动服务软件根据任务的启动时间判断将任务存入waittasklist或readytasklist中。系统定时检测waittasklist中的任务是否已到启动时间,将waittasklist中满足条件的任务移动至readytasklist中;系统定时在readytasklist取任务,进行资源检测,若资源检测失败,则放回readytasklist;若资源检测成功,则对该任务进行分配资源,并将此任务放入blocktasklist。系统中设置一线程,监视blocktasklist中是否有数据,若有数据,则取出一个任务,进行启动该任务相关进程的操作。
3、资源检测与分配
资源检测的流程如下图4所示,具体如下:
(1.1)获取部署轻量级分布式资源管理与任务调度的计算处理系统的常规计算节点、高级计算节点以及采集服务器节点的静态信息;
(1.2)定时获取部署轻量级分布式资源管理与任务调度的计算处理系统的常规计算节点、高级计算节点以及采集服务器节点的硬件状态信息;
(1.3)定时检查启动时间已到的队列,并对队列的任务进行资源检测;
(1.4)根据任务类型,计算任务所需各类软件进程和数量;
(1.5)根据部署轻量级分布式资源管理与任务调度的计算处理系统的各常规计算节点、高级计算节点以及采集服务器节点的状态,按照设定的逻辑计算能运行的软件进程数量;
(1.6)根据请求的任务实际所需的软件进程数量,按照设定的逻辑进行分配。
4、启动任务
图5为启动任务功能处理流程图,具体如下:
(2.1)针对每个任务,逐节点地遍历分配的软件进程队列,所述轻量级分布式资员管理与多任务调度器向对应节点的节点管理模块发送进程启动指令;
(2.2)若一个任务中一类进程实际启动成功的数量小于设定的阈值,则任务启动失败;所述轻量级分布式资员管理与多任务调度器向对应节点的节点管理模块发送进程结束指令,将该任务已经启动的软件进程进行关闭;
(2.3)若认定任务启动成功,则将对应block队列中的任务信息移动至已运行队列中;否则,在对应block队列中删除该任务,并前端报警。
5、任务进程状态监控
图6为任务进程状态监控功能处理流程图,具体如下:
(3.1)定时检测各任务的软件进程运行情况;
(3.2)若存在软件进程运行异常情况,则定位到具体任务并按照心跳丢失、内存使用超限、运行异常优先级,逐个判断;
(3.3)根据软件进程的运行状态,更新在本轻量级分布式资源管理与多任务调度器部署的系统中记录的各任务运行状态信息。
软件进程运行状态:
0正常运行 1内存超限
2心跳丢失 3其他异常
4正常结束 5脱离控制
6、关闭任务
图7为关闭任务功能处理流程图,具体如下:
(4.1)收到任务结束指令时,查询本轻量级分布式资源管理与多任务调度器部署的系统中该任务的具体软件运行进程;
(4.2)所述轻量级分布式资员管理与多任务调度器向对应节点的节点管理模块发送进程结束指令,将该任务已经启动的软件进程进行关闭;
(4.3)根据释放的软件进程,更新全局资源信息;
(4.4)根据结束的情况,更新在本轻量级分布式资源管理与多任务调度器部署的系统中记录的任务结束状态。
7、总体处理流程
本实施例轻量级分布式资源管理与任务调度方法的总体处理流程如图8所示,所述分布式资源管理与多任务调度器会定时获取硬件节点健康信息,根据硬件节点健康条件和设置的任务启动时间、软件模块所需资源上限去协调硬件资源,若资源检测成功,则启动任务,定时进行任务进程状态监控,若检测到结束任务指令,则进行关闭任务相关处理。
综上所述,本发明采用C++开发,不依赖任何开源组件,自主可控、通用性强;可直接运行在Windows操作系统,能够满足多用户多任务并发执行的功能需求,并适用于轻量级的分布式计算集群,效率高,执行速度快;具有轻量化、免配置的特点,使用方便,满足小型分布式计算集群使用场景,在使用时直接调用API即可。

Claims (10)

1.一种轻量级分布式资源管理与任务调度器,其特征在于,包括资源管理模块和任务调度模块,所述资源管理模块包括资源监控子模块、资源检测与分配子模块,所述任务调度模块包括任务控制子模块、任务进程状态监控子模块以及远程控制信息转发子模块;
每一次计算处理,认为是一个任务;所述资源监控子模块更新各常规计算节点和各高级计算节点的资源信息;当有任务请求时,任务控制子模块向资源管理模块申请任务所需资源,资源检测与分配子模块进行任务所需资源的检测与分配,确定各常规计算节点和各高级计算节点的计算进程;当资源检测及分配成功后,任务控制子模块调用远程控制消息转发子模块生成远程控制报文,并发送至预计运行该任务相关进程的常规计算节点和高级计算节点的节点管理模块,启动该任务的相关计算进程;任务进程状态监控子模块实时监控各任务的软件进程运行状态,当出现异常时,进行相关信息提示和记录;当该任务结束时,任务控制子模块调用远程控制消息转发子模块生成远程控制报文,并发送至相应常规计算节点和高级计算节点的节点管理模块,关闭该任务的相关进程。
2.根据权利要求1所述的轻量级分布式资源管理与任务调度器,其特征在于,该资源管理与任务调度器基于分布式计算软件框架结构,该软件框架包含一个Nginx前端模块、一个调度服务软件模块、一个代理助理软件模块、一个数据管理模块、若干个数据接入模块、若干个常规计算软件模块、若干个高级计算软件模块;
所述资源管理与任务调度器运行在调度服务软件模块,通过相关逻辑调度框架中的数据接入模块、常规计算软件模块和高级计算软件模块。
3.根据权利要求1所述的轻量级分布式资源管理与任务调度器,其特征在于,所述资源管理模块中的资源监控子模块,具有以下功能:对各个常规计算节点、高级计算节点的硬件状态信息进行监控,所述硬件状态信息包括CPU、内存、硬盘以及GPU信息;与各常规计算节点和高级计算节点的节点管理软件模块建立连接,接收各计算节点定时周期发送的硬件状态信息;同时,将该硬件状态信息写入数据库中的系统硬件资源表,并更新资源管理模块的全局资源链表。
4.一种轻量级分布式资源管理与任务调度方法,其特征在于,包括以下步骤:
步骤1:定时资源监控:资源监控子模块监控所在分布式计算系统的各个硬件节点的硬件状态,更新各常规计算节点、高级计算节点的资源信息,若有任务创建请求则进入下一步;
步骤2:资源检测与分配:当有任务请求时,任务控制子模块向资源管理模块申请任务所需资源,资源检测与分配子模块进行任务所需资源的检测与分配,确定各个高级计算节点和各个常规计算节点的计算进程;当资源检测及分配成功后,进入下一步;
步骤3:启动任务:任务控制子模块调用远程控制消息转发子模块生成远程控制报文,并发送至相应常规计算节点和高级计算节点的节点管理模块,启动所请求任务的常规计算进程和高级计算进程;
步骤4:任务进程状态监控:任务进程状态监控子模块实时监控各任务的软件进程运行状态,当出现异常时,进行信息提示和记录;
步骤5:关闭任务:当任务结束时,任务控制子模块调用远程控制消息转发子模块生成远程控制报文,并发送至相应常规计算节点和高级计算节点的节点管理模块,关闭该任务的相关进程。
5.根据权利要求4所述的轻量级分布式资源管理与任务调度方法,其特征在于,步骤1所述定时资源监控,具体如下:
资源管理模块中的资源监控子模块,对各个常规计算节点、高级计算节点的硬件状态信息进行监控,硬件状态信息包括CPU、内存、硬盘以及GPU信息;资源监控子模块与各常规计算节点和各高级计算节点的节点管理软件模块建立连接,接收各计算节点定时周期发送的硬件状态信息;同时,将该硬件状态信息写入数据库中的系统硬件资源表,并更新资源管理模块的全局资源链表。
6.根据权利要求4所述的轻量级分布式资源管理与任务调度方法,其特征在于,步骤4所述任务进程状态监控,共有10个状态,各个状态的值为:
0wait:启动时间未到;1ready:启动时间已到;2block:资源检测成功,未运行;3start:启动运行;4pause:任务暂停;5goon:任务继续;6manualstop:点击停止按钮结束;7normalstop:自动结束;8oodcrash:内存溢出崩溃;9comcrash:心跳丢失崩溃。
7.根据权利要求4所述的轻量级分布式资源管理与任务调度方法,其特征在于,步骤2所述资源检测与分配,具体如下:
(1.1)获取部署轻量级分布式资源管理与任务调度的计算处理系统的常规计算节点、高级计算节点以及采集服务器节点的静态信息;
(1.2)定时获取部署轻量级分布式资源管理与任务调度的计算处理系统的常规计算节点、高级计算节点以及采集服务器节点的硬件状态信息;
(1.3)定时检查启动时间已到的队列,并对队列的任务进行资源检测;
(1.4)根据任务类型,计算任务所需各类软件进程和数量;
(1.5)根据部署轻量级分布式资源管理与任务调度的计算处理系统的各常规计算节点、高级计算节点以及采集服务器节点的状态,按照设定的逻辑计算能运行的软件进程数量;
(1.6)根据请求的任务实际所需的软件进程数量,按照设定的逻辑进行分配。
8.根据权利要求4所述的轻量级分布式资源管理与任务调度方法,其特征在于,步骤3所述启动任务,具体如下:
(2.1)针对每个任务,逐节点地遍历分配的软件进程队列,所述轻量级分布式资员管理与多任务调度器向对应节点的节点管理模块发送进程启动指令;
(2.2)若一个任务中一类进程实际启动成功的数量小于设定的阈值,则任务启动失败;所述轻量级分布式资员管理与多任务调度器向对应节点的节点管理模块发送进程结束指令,将该任务已经启动的软件进程进行关闭;
(2.3)若认定任务启动成功,则将对应block队列中的任务信息移动至已运行队列中;否则,在对应block队列中删除该任务,并前端报警。
9.根据权利要求4所述的轻量级分布式资源管理与任务调度方法,其特征在于,步骤4所述任务进程状态监控,具体如下:
(3.1)定时检测各任务的软件进程运行情况;
(3.2)若存在软件进程运行异常情况,则定位到具体任务并按照心跳丢失、内存使用超限、运行异常优先级,逐个判断;
(3.3)根据软件进程的运行状态,更新在本轻量级分布式资源管理与多任务调度器部署的系统中记录的各任务运行状态信息。
10.根据权利要求4所述的轻量级分布式资源管理与任务调度方法,其特征在于,步骤5所述关闭任务,具体如下:
(4.1)收到任务结束指令时,查询本轻量级分布式资源管理与多任务调度器部署的系统中该任务的具体软件运行进程;
(4.2)所述轻量级分布式资员管理与多任务调度器向对应节点的节点管理模块发送进程结束指令,将该任务已经启动的软件进程进行关闭;
(4.3)根据释放的软件进程,更新全局资源信息;
(4.4)根据结束的情况,更新在本轻量级分布式资源管理与多任务调度器部署的系统中记录的任务结束状态。
CN202110396985.4A 2021-04-13 2021-04-13 一种轻量级分布式资源管理与任务调度器及方法 Active CN113515356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110396985.4A CN113515356B (zh) 2021-04-13 2021-04-13 一种轻量级分布式资源管理与任务调度器及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110396985.4A CN113515356B (zh) 2021-04-13 2021-04-13 一种轻量级分布式资源管理与任务调度器及方法

Publications (2)

Publication Number Publication Date
CN113515356A true CN113515356A (zh) 2021-10-19
CN113515356B CN113515356B (zh) 2022-11-25

Family

ID=78061938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110396985.4A Active CN113515356B (zh) 2021-04-13 2021-04-13 一种轻量级分布式资源管理与任务调度器及方法

Country Status (1)

Country Link
CN (1) CN113515356B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117170981A (zh) * 2023-11-01 2023-12-05 中国电子科技集团公司第十五研究所 一种多任务的进程监控方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207814A (zh) * 2012-12-27 2013-07-17 北京仿真中心 一种去中心化的跨集群资源管理与任务调度系统与调度方法
CN103944769A (zh) * 2014-05-05 2014-07-23 江苏物联网研究发展中心 基于rpc协议的集群资源统一管理系统
CN105703940A (zh) * 2015-12-10 2016-06-22 中国电力科学研究院 一种面向多级调度分布式并行计算的监控系统及监控方法
CN105893157A (zh) * 2016-04-29 2016-08-24 国家计算机网络与信息安全管理中心 一种开放分布式系统资源管理与任务调度系统与方法
CN107436806A (zh) * 2016-05-27 2017-12-05 苏宁云商集团股份有限公司 一种资源调度方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207814A (zh) * 2012-12-27 2013-07-17 北京仿真中心 一种去中心化的跨集群资源管理与任务调度系统与调度方法
CN103944769A (zh) * 2014-05-05 2014-07-23 江苏物联网研究发展中心 基于rpc协议的集群资源统一管理系统
CN105703940A (zh) * 2015-12-10 2016-06-22 中国电力科学研究院 一种面向多级调度分布式并行计算的监控系统及监控方法
CN105893157A (zh) * 2016-04-29 2016-08-24 国家计算机网络与信息安全管理中心 一种开放分布式系统资源管理与任务调度系统与方法
CN107436806A (zh) * 2016-05-27 2017-12-05 苏宁云商集团股份有限公司 一种资源调度方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117170981A (zh) * 2023-11-01 2023-12-05 中国电子科技集团公司第十五研究所 一种多任务的进程监控方法及系统

Also Published As

Publication number Publication date
CN113515356B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN112199194B (zh) 基于容器集群的资源调度方法、装置、设备和存储介质
CN107943555B (zh) 一种云计算环境下的大数据存储和处理平台及处理方法
US10838777B2 (en) Distributed resource allocation method, allocation node, and access node
CN109347974B (zh) 提高在线服务质量和集群资源利用率的混合调度系统
CN109343939B (zh) 一种分布式集群及并行计算任务调度方法
CN110888719A (zh) 一种基于web服务的分布式任务调度系统及方法
CN113569987A (zh) 模型训练方法和装置
CN110958311A (zh) 一种基于yarn的共享集群弹性伸缩系统及方法
US20240054021A1 (en) Resource scheduling method and server
CN109117244B (zh) 一种虚拟机资源申请排队机制的实现方法
CN110990119A (zh) 一种基于容器技术提升Iaas云平台服务能力的方法
CN113515356B (zh) 一种轻量级分布式资源管理与任务调度器及方法
CN110532060B (zh) 一种混合网络环境数据采集方法及系统
CN116737560B (zh) 基于智能导控的智慧训练系统
CN112860396A (zh) 一种基于分布式深度学习的gpu调度方法及系统
CN109032809A (zh) 基于遥感影像存储位置的异构并行调度系统
CN113238928B (zh) 一种音视频大数据任务的端云协同评测系统
CN111913784A (zh) 任务调度方法及装置、网元、存储介质
CN110162381A (zh) 一种容器内代理执行方法
CN115858499A (zh) 一种数据库分区处理方法、装置、计算机设备和存储介质
CN115269140A (zh) 一种基于容器的云计算工作流调度方法、系统及设备
CN112416591B (zh) 分布式的任务处理方法、装置、设备、存储介质和系统
CN113254143B (zh) 虚拟化网络功能网元编排调度方法、装置和系统
CN111708604A (zh) 一种智能运维支撑方法
CN111506407A (zh) Pull模式与Push模式相结合的资源管理与作业调度方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant