CN110727508A - 一种任务调度系统和调度方法 - Google Patents

一种任务调度系统和调度方法 Download PDF

Info

Publication number
CN110727508A
CN110727508A CN201911018105.9A CN201911018105A CN110727508A CN 110727508 A CN110727508 A CN 110727508A CN 201911018105 A CN201911018105 A CN 201911018105A CN 110727508 A CN110727508 A CN 110727508A
Authority
CN
China
Prior art keywords
task
computing
module
database
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911018105.9A
Other languages
English (en)
Inventor
尤文杰
强科华
邬锡敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Jing And Information Technology Co Ltd
Original Assignee
Wuxi Jing And Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Jing And Information Technology Co Ltd filed Critical Wuxi Jing And Information Technology Co Ltd
Priority to CN201911018105.9A priority Critical patent/CN110727508A/zh
Publication of CN110727508A publication Critical patent/CN110727508A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/481Exception handling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/484Precedence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种任务调度系统和调度方法,涉及计算机数据处理领域,包括主控制管理服务器,所述主控制管理服务器包括心跳模块、任务触发模块、异常处理模块、任务处理模块和任务数据库,心跳模块用于周期性刷新和查询任务数据库中存储的计算节点的信息,当检测到任务数据库中存在超过预设数量的心跳周期未更新的计算节点时,确定该计算节点为异常节点。本发明通过主控管理服务器主控节点负责对计算节点进行管理,确定从节点的状态信息,依据各计算节点的性能功耗等参数信息将任务合理高效的分配给计算节点,并能在计算节点等硬件发生故障时,回收计算资源上的任务,重新分发给可用资源,保证作业的正常执行,能提高系统效率,用户体验更好。

Description

一种任务调度系统和调度方法
技术领域
本发明涉及计算机数据处理领域,具体为一种任务调度系统和调度方法。
背景技术
随着计算机技术的不断发展,技术人员利用服务器程序处理和管理网络信息数据,利用多个计算节点对不同的数据进行分开处理,计算节点将数据反馈给管理数据库系统,而管理系统不能根据不同计算节点的功耗进行有效的分配,且当节点信息的异常或硬件发生故障时,无法及时将任务回收重新分发,系统工作效率不高。
发明内容
本发明的目的在于:为了解决管理系统不能根据不同计算节点的功耗进行有效的分配,当节点信息的异常或硬件发生故障时,无法及时将任务回收重新分发,系统工作效率不高的问题,提供一种任务调度系统和调度方法。
为实现上述目的,本发明提供如下技术方案:一种任务调度系统和调度方法,包括主控制管理服务器,所述主控制管理服务器包括心跳模块、任务触发模块、异常处理模块、任务处理模块和任务数据库,
所述心跳模块用于周期性刷新和查询任务数据库中存储的计算节点的信息,当检测到任务数据库中存在超过预设数量的心跳周期未更新的计算节点时,确定该计算节点为异常节点;
所述任务触发模块,正在运行的任务状态发生改变,触发任务队列中优先级最高的任务下发处理,若当前无运行中的任务,则直接按照任务优先级触发任务队列的中的任务;
所述异常处理模块用于检测超过执行时间仍未执行完毕的任务,进行异常任务回收及再分配处理;
所述任务处理模块根据各个计算节点的负载情况分配触发的任务,在相应任务处理成功后进行任务状态的转换,并恢复初始运行环境。
优选地,所述任务数据库用于存储任务文件、任务参数和任务状态,以及计算资源集群中各个计算节点的信息,任务数据库部署在服务器中,其中,任务参数包括调用节点数量,任务执行策略,任务结果。
优选地,所述主控管理服务器和计算节点可以部署在同一个服务器中,也可以部署在不同的服务器中。
优选地,所述计算节点用于进行业务计算处理,根据任务触发消息处理待处理任务,运行过程中向任务数据库登记所处节点的存活声明。
优选地,所述计算资源集群包括至少一个计算节点,不同的计算节点可以部署在同一个服务器中,也可以分别部署在不同的服务器中。
优选地,所述异常处理模块分为硬件类异常和软件类。
优选地,所述主控制管理服务器包括任务查重功能。
优选地,所述心跳模块、任务触发模块、异常处理模块、任务处理模块和任务数据库之间相互配合。
与现有技术相比,本发明的有益效果是:本发明通过主控管理服务器主控节点负责对计算节点进行管理,确定计算节点的状态信息,依据各计算节点的性能功耗等参数信息及计算资源的负载情况,将任务合理高效的分配给计算节点,并能在计算节点等硬件发生故障时,回收计算资源上的任务,重新分发给可用资源,保证作业的正常执行,任务查重功能,能提高系统效率,用户体验更好。
附图说明
图1为本发明的系统流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种任务调度系统和调度方法,包括主控制管理服务器,所述主控制管理服务器包括心跳模块、任务触发模块、异常处理模块、任务处理模块和任务数据库,
所述心跳模块用于周期性刷新和查询任务数据库中存储的计算节点的信息,当检测到任务数据库中存在超过预设数量的心跳周期未更新的计算节点时,确定该计算节点为异常节点;
所述任务触发模块,正在运行的任务状态发生改变,触发任务队列中优先级最高的任务下发处理,若当前无运行中的任务,则直接按照任务优先级触发任务队列的中的任务;
所述异常处理模块用于检测超过执行时间仍未执行完毕的任务,进行异常任务回收及再分配处理;
所述任务处理模块根据各个计算节点的负载情况分配触发的任务,在相应任务处理成功后进行任务状态的转换,并恢复初始运行环境。
本发明通过用户上传任务文件,任务的参数和任务状态信息存储于任务数据库中;其中,任务参数包括调用节点数量,任务执行策略,任务结果等信息;计算资源集群中各个计算节点的状态信息也存储于数据库中;若当正在运行的任务状态发生改变,触发任务队列中优先级最高的待处理任务下发处理;若当前无运行中的任务,则直接按照任务优先级触发任务队列的中的待处理任务;主控管理服务器根据计算资源集群内各个计算节点的负载情况分配触发的待处理任务,向分配的计算节点发送任务触发消息,该任务触发消息包含任务标识和当前执行时间;分配触发的待处理任务方式为根据主控管理服务器下计算节点的处理能力确定该任务的切片数量,例如,节点计算速度为1000个每秒,任务执行策略中总口令空间为1亿个,计算节点数量为200个,定义1分钟内单节点计算口令数为任务策略切片空间,即6万个口令,同时下发200个任务策略切片空间,即1200万个口令;每个计算节点任务策略切片空间运行完毕后会向主控服务器任务数据库中写入状态,若状态为成功,则无需下发任务策略切片,若状态为失败,则继续下发任务策略切片;总口令空间计算完毕至多需进行8次200个任务策略切片空间的切片下发,加上1次67个任务策略切片空间的切片下发。
实施例1
作为本发明的一种优选实施例,所述任务数据库用于存储任务文件、任务参数和任务状态,以及计算资源集群中各个计算节点的信息,任务数据库部署在服务器中,其中,任务参数包括调用节点数量,任务执行策略,任务结果。
该种任务调度系统和调度方法通过服务器集群是一种服务器系统,其通过多台服务器(又称为节点)连接起来协作完成计算作业,这些节点位于同一管理域中,其具有统一的管理策略并且作为一个整体向用户提供服务,将任务分配到多个服务器节点上的过程可以称为任务的调度。
实施例2
作为本发明的一种优选实施例,所述主控管理服务器和计算节点可以部署在同一个服务器中,也可以部署在不同的服务器中;计算节点用于进行业务计算处理,根据任务触发消息处理待处理任务,运行过程中向任务数据库登记所处节点的存活声明;计算资源集群包括至少一个计算节点,不同的计算节点可以部署在同一个服务器中,也可以分别部署在不同的服务器中。
该种任务调度系统和调度方法通过计算节点进行计算的同时,主控管理服务器异常处理模块检测任务数据库中是否存在异常任务;异常任务是超过任务的执行时间但未完成的任务这种任务能够被主控管理服务器中的异常处理模块发现并回收任务再分配。
实施例3
作为本发明的一种优选实施例,异常处理模块分为硬件类异常和软件类异常。
该种任务调度系统和调度方法通过硬件类异常检测处理机制主要为主控管理服务器的心跳模块用周期性刷新和查询任务数据库中存储的计算节点的信息;当检测到任务数据库中存在超过预设数量或预设时间的心跳周期未更新的计算节点时,确定该计算节点为异常节点;主控管理服务器的任务触发模块直接回收该任务策略切片空间,分两种情况(1.如果计算节点只有这一个节点,则该主任务暂停2.如果有多个计算节点,则分配给其它节点,如果其它也异常,则该主任务暂停),同时,发生硬件异常的计算节点停止正常工作,并继续监视本地相关硬件信息,当达到可以工作的标准后,通知主控管理服务器可以自身处于可正常工作的状态,并等待主控管理服务器的反馈,在得到主控管理服务器的许可后,继续工作;当破解节点发生硬件重启时,需要能够向主控管理服务器上报重启信息,并等待主控管理服务器的反馈,在得到主控管理服务器的许可后,继续工作;节点继续恢复工作,分两种情况(1.断网恢复,该任务策略切片空间仍存在于节点上,并未被主控管理服务器的任务触发模块直接回收,则重新执行该任务策略切片空间;如果该任务切片已被回收,并已分配给别的节点运行,此时需要进行节点重置,可分配下发新任务2.断电恢复,断电恢复后计算节点默认重置,可分配下发新任务),软件类异常检测处理机制主要为计算节点获取各项软件类异常,在向主控管理服务器上报软件异常相关信息的同时,按照软件异常处理规则正确处理这些软件类异常,使得计算节点可以恢复到正常工作的状态;计算节点在处理软件异常并恢复后,需要通知主控管理服务器自身处于可正常工作的状态,并等待主控管理服务器的反馈,在得到服务器系统的许可后,继续工作。
实施例4
作为本发明的一种优选实施例,主控制管理服务器包括任务查重功能;心跳模块、任务触发模块、异常处理模块、任务处理模块和任务数据库之间相互配合。
该种任务调度系统和调度方法当用户上传的任务信息可能已存在于任务数据库,即重复任务,则主控管理服务器根据任务信息检测重复任务,任务执行数据库中没有该任务,此时,需要向任务执行数据库中写入该任务的任务信息;任务写入任务执行数据库后,该任务之后才能被分配,才会被计算节点处理;如果存在重复任务,且任务执行成功,则不将任务信息写入任务数据库,并向交互界面返回执行成功相应的结果;如果任务执行失败,向任务执行数据库中写入该任务的任务信息。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (8)

1.一种任务调度系统和调度方法,包括主控制管理服务器,其特征在于:所述主控制管理服务器包括心跳模块、任务触发模块、异常处理模块、任务处理模块和任务数据库,
所述心跳模块用于周期性刷新和查询任务数据库中存储的计算节点的信息,当检测到任务数据库中存在超过预设数量的心跳周期未更新的计算节点时,确定该计算节点为异常节点;
所述任务触发模块,正在运行的任务状态发生改变,触发任务队列中优先级最高的任务下发处理,若当前无运行中的任务,则直接按照任务优先级触发任务队列的中的任务;
所述异常处理模块用于检测超过执行时间仍未执行完毕的任务,进行异常任务回收及再分配处理;
所述任务处理模块根据各个计算节点的负载情况分配触发的任务,在相应任务处理成功后进行任务状态的转换,并恢复初始运行环境。
2.根据权利要求1所述的一种任务调度系统和调度方法,其特征在于:所述任务数据库用于存储任务文件、任务参数和任务状态,以及计算资源集群中各个计算节点的信息,任务数据库部署在服务器中,其中,任务参数包括调用节点数量,任务执行策略,任务结果。
3.根据权利要求2所述的一种任务调度系统和调度方法,其特征在于:所述主控管理服务器和计算节点可以部署在同一个服务器中,也可以部署在不同的服务器中。
4.根据权利要求2所述的一种任务调度系统和调度方法,其特征在于:所述计算节点用于进行业务计算处理,根据任务触发消息处理待处理任务,运行过程中向任务数据库登记所处节点的存活声明。
5.根据权利要求1所述的一种任务调度系统和调度方法,其特征在于:所述计算资源集群包括至少一个计算节点,不同的计算节点可以部署在同一个服务器中,也可以分别部署在不同的服务器中。
6.根据权利要求1所述的一种任务调度系统和调度方法,其特征在于:所述异常处理模块分为硬件类异常和软件类。
7.根据权利要求1所述的一种任务调度系统和调度方法,其特征在于:所述主控制管理服务器包括任务查重功能。
8.根据权利要求1所述的一种任务调度系统和调度方法,其特征在于:所述心跳模块、任务触发模块、异常处理模块、任务处理模块和任务数据库之间相互配合。
CN201911018105.9A 2019-10-24 2019-10-24 一种任务调度系统和调度方法 Pending CN110727508A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911018105.9A CN110727508A (zh) 2019-10-24 2019-10-24 一种任务调度系统和调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911018105.9A CN110727508A (zh) 2019-10-24 2019-10-24 一种任务调度系统和调度方法

Publications (1)

Publication Number Publication Date
CN110727508A true CN110727508A (zh) 2020-01-24

Family

ID=69223097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911018105.9A Pending CN110727508A (zh) 2019-10-24 2019-10-24 一种任务调度系统和调度方法

Country Status (1)

Country Link
CN (1) CN110727508A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459648A (zh) * 2020-06-17 2020-07-28 北京机电工程研究所 面向应用程序的异构多核平台资源优化方法和装置
CN111522309A (zh) * 2020-04-18 2020-08-11 青岛奥利普自动化控制系统有限公司 一种基于ems系统的数据处理方法及设备
CN111818159A (zh) * 2020-07-08 2020-10-23 腾讯科技(深圳)有限公司 数据处理节点的管理方法、装置、设备及存储介质
CN112583664A (zh) * 2020-12-08 2021-03-30 广东荣文科技集团有限公司 数据处理方法及相关装置
CN114143569A (zh) * 2021-11-18 2022-03-04 聚好看科技股份有限公司 一种网页录制和直播方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092698A (zh) * 2012-12-24 2013-05-08 中国科学院深圳先进技术研究院 云计算应用自动部署系统及方法
US20140245298A1 (en) * 2013-02-27 2014-08-28 Vmware, Inc. Adaptive Task Scheduling of Hadoop in a Virtualized Environment
CN105468450A (zh) * 2015-12-29 2016-04-06 华为技术有限公司 任务调度方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092698A (zh) * 2012-12-24 2013-05-08 中国科学院深圳先进技术研究院 云计算应用自动部署系统及方法
US20140245298A1 (en) * 2013-02-27 2014-08-28 Vmware, Inc. Adaptive Task Scheduling of Hadoop in a Virtualized Environment
CN105468450A (zh) * 2015-12-29 2016-04-06 华为技术有限公司 任务调度方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522309A (zh) * 2020-04-18 2020-08-11 青岛奥利普自动化控制系统有限公司 一种基于ems系统的数据处理方法及设备
CN111459648A (zh) * 2020-06-17 2020-07-28 北京机电工程研究所 面向应用程序的异构多核平台资源优化方法和装置
CN111818159A (zh) * 2020-07-08 2020-10-23 腾讯科技(深圳)有限公司 数据处理节点的管理方法、装置、设备及存储介质
CN111818159B (zh) * 2020-07-08 2024-04-05 腾讯科技(深圳)有限公司 数据处理节点的管理方法、装置、设备及存储介质
CN112583664A (zh) * 2020-12-08 2021-03-30 广东荣文科技集团有限公司 数据处理方法及相关装置
CN114143569A (zh) * 2021-11-18 2022-03-04 聚好看科技股份有限公司 一种网页录制和直播方法及系统
CN114143569B (zh) * 2021-11-18 2024-02-27 聚好看科技股份有限公司 一种网页录制和直播方法及系统

Similar Documents

Publication Publication Date Title
CN110727508A (zh) 一种任务调度系统和调度方法
US10261853B1 (en) Dynamic replication error retry and recovery
US20180060132A1 (en) Stateful resource pool management for job execution
US6546403B1 (en) Mechanism to resubmit queries in a parallel database system
US9870269B1 (en) Job allocation in a clustered environment
US8365193B2 (en) Recoverable asynchronous message driven processing in a multi-node system
CN105471671A (zh) 一种云平台资源自定义监控规则的方法
US20140304306A1 (en) Database Management System With Database Hibernation and Bursting
US20180267869A1 (en) Method and apparatus for processing gateway device fault
WO2016166844A1 (ja) 分散処理システム、タスク処理方法、記憶媒体
CN109558260B (zh) Kubernetes故障排除系统、方法、设备及介质
CN113886089B (zh) 一种任务处理方法、装置、系统、设备及介质
US20170177442A1 (en) Real-time fault-tolerant architecture for large-scale event processing
CN110677274A (zh) 一种基于事件的云网络服务调度方法及装置
CN115004156A (zh) 实时多租户工作负载跟踪和自动节流
CN112579288A (zh) 一种基于云计算智能安全用数据管理系统
CN109376137B (zh) 一种文件处理方法及装置
EP3084603B1 (en) System and method for supporting adaptive busy wait in a computing environment
CN103902401A (zh) 基于监控的虚拟机容错方法及装置
CN116055499A (zh) 基于redis的集群任务智能化调度方法、设备、介质
CN103326880A (zh) Genesys呼叫系统高可用性云计算监控系统及方法
CN108154343B (zh) 一种企业级信息系统的应急处理方法及系统
CN110209497A (zh) 一种主机资源动态扩缩容的方法及系统
EP3389222B1 (en) A method and a host for managing events in a network that adapts event-driven programming framework
US20150169236A1 (en) System and method for supporting memory allocation control with push-back in a distributed data grid

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200124