CN109189641A - 一种分布式系统的后台任务监控方法及装置 - Google Patents
一种分布式系统的后台任务监控方法及装置 Download PDFInfo
- Publication number
- CN109189641A CN109189641A CN201810994314.6A CN201810994314A CN109189641A CN 109189641 A CN109189641 A CN 109189641A CN 201810994314 A CN201810994314 A CN 201810994314A CN 109189641 A CN109189641 A CN 109189641A
- Authority
- CN
- China
- Prior art keywords
- task
- node
- nodes
- background
- distributed system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种分布式系统的后台任务监控方法,该方法包括以下步骤:将收到的任务(任务类型、参数和当前进度)进行保存并下发到各个节点,所述任务按步骤划分进度,各步骤是幂等且相互独立;监控各节点状态,若节点出现异常,则切换异常节点上的任务到其他的正常节点上;所述正常节点收到上步骤所述的任务后,跳过之前已经执行过的步骤继续执行任务。本发明将后台任务划分为幂等且相互独立的步骤,能保证在后台任务宿主节点发生宕机或其他异常,不能继续执行后台任务的情况下,任务的后续操作会分配到其他节点继续执行,从而保证任务的连续性和健壮性。本发明还公开了一种分布式系统的后台任务监控装置,具有上述有益效果。
Description
技术领域
本发明涉及一种分布式系统的后台任务监控方法及装置。
背景技术
分布式系统的管理中,存在一些运行时间较长的任务,这些任务不会立即返回,设计时一般会将其放到后台运行,同时提供任务管理接口来查询正在运行的后台任务进度和已经完成的后台任务结果。从而在不阻塞用户操作的情况下,让用户直观地感受到任务进展。
然而,分布式系统在系统部分节点异常宕机的情况下,业务是仍然可以正常运行的,这样如果后台任务所在的宿主节点宕机,虽然会导致后台任务的中断和退出,但是人们是不容易发现后台任务出现异常的,没有实现对后台任务的监控,无法保证后台任务的连续性和健壮性,因此亟需一种分布式系统的后台任务监控方法及装置,来解决上述问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种分布式系统的后台任务监控方法及装置,能保证当后台任务宿主节点发生宕机或其他异常,不能继续执行后台任务的情况时,任务的后续操作会分配到其他节点继续执行,从而保证任务的连续性和健壮性,解决了现有技术的问题。
为实现上述目的及其他相关目的,本发明提供一种分布式系统的后台任务监控方法,该方法包括以下步骤:
将收到的任务(任务类型、参数和当前进度)进行保存并下发到各个节点,所述任务按步骤划分进度,各步骤是幂等且相互独立;
监控各节点状态,若节点出现异常,则切换异常节点上的任务到其他的正常节点上;
所述正常节点收到上步骤所述的任务后,跳过之前已经执行过的步骤继续执行任务。
可选地,所述监控各节点状态,若节点出现异常,则切换异常节点上的任务到其他的正常节点上的步骤具体包括:
各个节点每隔时间T反馈一次任务进度并对当前任务的状态信息进行保存,直至任务结束;;
若超过2T时间没有收到反馈进度,则判定节点发生异常为异常节点,进行下一步操作;
保存异常节点上的任务信息(任务类型、参数、当前进度),并切换所述异常节点上的任务到其他正常的节点。
此外,本发明还提供一种分布式系统的后台任务监控装置,该装置包括:
后台任务管理器,负责下发任务和监控任务状态:接收用户接口发来的任务并下发到各个节点,后台任务管理器定期检查节点状态,查找异常节点,发现异常节点则向其他正常节点切换任务;
数据库,负责保存任务信息;
节点,执行任务。
优选的,所述装置还包括:
任务进度定时反馈模块,每隔时间T就对各个节点的任务进度进行采集并反馈给后台任务管理器。
如上所述,本发明实施例提供的一种分布式系统的后台任务监控方法及装置,具有以下有益效果:将后台任务划分为幂等且相互独立的步骤,能保证在后台任务宿主节点发生宕机或其他异常,不能继续执行后台任务的情况下,任务的后续操作会分配到其他节点继续执行,从而保证任务的连续性和健壮性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种分布式系统的后台任务监控方法的流程示意图;
图2是本发明一种分布式系统的后台任务监控装置的结构图;
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的核心是提供一种分布式系统的后台任务监控方法,以保证在后台任务宿主节点发生宕机或其他异常,不能继续执行后台任务的情况下,任务的后续操作会分配到其他节点继续执行,从而保证任务的连续性和健壮性。本发明的另一核心是提供分布式系统的后台任务监控装置。
请参阅图1,一种分布式系统的后台任务监控方法,该方法包括以下步骤:
S10:将收到的任务(任务类型、参数和当前进度)进行保存并下发到各个节点,所述任务按步骤划分进度,各步骤是幂等且相互独立;
S20:监控各节点状态,若节点出现异常,则切换异常节点上的任务到其他的正常节点上;
S30:所述正常节点收到上步骤所述的任务后,跳过之前已经执行过的步骤继续执行任务。
其中,所述监控各节点状态,若节点出现异常,则切换异常节点上的任务到其他的正常节点上的步骤具体包括:
各个节点每隔时间T反馈一次任务进度并对当前任务的状态信息进行保存,直至任务结束;
若超过2T时间没有收到反馈进度,则判定节点发生异常为异常节点,进行下一步操作;
保存异常节点上的任务信息(任务类型、参数、当前进度),并切换所述异常节点上的任务到其他正常的节点。
在上文中对于分布式系统的后台任务监控方法的实施例进行了详细的描述,本发明还提供了一种分布式系统的后台任务监控装置,由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参考方法部分的实施例的描述,这里暂不赘述。
如图2所示,本发明实施例提供的一种分布式系统的后台任务监控装置,包括:
后台任务管理器,负责下发任务和监控任务状态:接收用户接口发来的任务并下发到各个节点,后台任务管理器定期检查节点状态,查找异常节点,发现异常节点则向其他正常节点切换任务;
数据库,负责保存任务信息;
节点,执行任务。
优选的,所述装置还包括:
任务进度定时反馈模块,每隔时间T就对各个节点的任务进度进行采集并反馈给后台任务管理器。
需要说明的是,若是后台任务管理器超过2T时间没有收到反馈进度,则判定节点发生异常为异常节点,切换所述异常节点上的任务到其他正常的节点。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
Claims (4)
1.一种分布式系统的后台任务监控方法,其特征在于,包括以下步骤:
将收到的任务(任务类型、参数和当前进度)进行保存并下发到各个节点,所述任务按步骤划分进度,各步骤是幂等且相互独立;
监控各节点状态,若节点出现异常,则切换异常节点上的任务到其他的正常节点上;
所述正常节点收到上步骤所述的任务后,跳过之前已经执行过的步骤继续执行任务。
2.根据权利要求1所述的一种分布式系统的后台任务监控方法,其特征在于,所述监控各节点状态,若节点出现异常,则切换异常节点上的任务到其他的正常节点上的步骤具体包括:
各个节点每隔时间T反馈一次任务进度并对当前任务的状态信息进行保存,直至任务结束;
若超过2T时间没有收到反馈进度,则判定节点发生异常为异常节点,进行下一步操作;
保存异常节点上的任务信息(任务类型、参数、当前进度),并切换所述异常节点上的任务到其他正常的节点。
3.一种分布式系统的后台任务监控装置,其特征在于,包括:
后台任务管理器,负责下发任务和监控任务状态:接收用户接口发来的任务并下发到各个节点,后台任务管理器定期检查节点状态,查找异常节点,发现异常节点则向其他正常节点切换任务;
数据库,负责保存任务信息;
节点,执行任务。
4.根据权利要求3所述的一种分布式系统的后台任务监控装置,其特征在于,还包括:
任务进度定时反馈模块,每隔时间T就对各个节点的任务进度进行采集并反馈给后台任务管理器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810994314.6A CN109189641A (zh) | 2018-08-29 | 2018-08-29 | 一种分布式系统的后台任务监控方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810994314.6A CN109189641A (zh) | 2018-08-29 | 2018-08-29 | 一种分布式系统的后台任务监控方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109189641A true CN109189641A (zh) | 2019-01-11 |
Family
ID=64917028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810994314.6A Pending CN109189641A (zh) | 2018-08-29 | 2018-08-29 | 一种分布式系统的后台任务监控方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109189641A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110392106A (zh) * | 2019-07-19 | 2019-10-29 | 深圳前海微众银行股份有限公司 | 一种作业状态的推送方法及装置 |
CN110990145A (zh) * | 2019-10-31 | 2020-04-10 | 北京浪潮数据技术有限公司 | 一种分布式系统的后台任务处理机制及方法 |
CN117056056A (zh) * | 2023-10-10 | 2023-11-14 | 腾讯科技(深圳)有限公司 | 任务执行方法和装置、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6345287B1 (en) * | 1997-11-26 | 2002-02-05 | International Business Machines Corporation | Gang scheduling for resource allocation in a cluster computing environment |
CN103324539A (zh) * | 2013-06-24 | 2013-09-25 | 浪潮电子信息产业股份有限公司 | 一种作业调度管理系统及方法 |
CN104410698A (zh) * | 2014-12-03 | 2015-03-11 | 天津南大通用数据技术股份有限公司 | 一种share nothing集群下的发起节点异常处理方法及装置 |
-
2018
- 2018-08-29 CN CN201810994314.6A patent/CN109189641A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6345287B1 (en) * | 1997-11-26 | 2002-02-05 | International Business Machines Corporation | Gang scheduling for resource allocation in a cluster computing environment |
CN103324539A (zh) * | 2013-06-24 | 2013-09-25 | 浪潮电子信息产业股份有限公司 | 一种作业调度管理系统及方法 |
CN104410698A (zh) * | 2014-12-03 | 2015-03-11 | 天津南大通用数据技术股份有限公司 | 一种share nothing集群下的发起节点异常处理方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110392106A (zh) * | 2019-07-19 | 2019-10-29 | 深圳前海微众银行股份有限公司 | 一种作业状态的推送方法及装置 |
CN110990145A (zh) * | 2019-10-31 | 2020-04-10 | 北京浪潮数据技术有限公司 | 一种分布式系统的后台任务处理机制及方法 |
CN117056056A (zh) * | 2023-10-10 | 2023-11-14 | 腾讯科技(深圳)有限公司 | 任务执行方法和装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189641A (zh) | 一种分布式系统的后台任务监控方法及装置 | |
CN106845856B (zh) | 民航机场地面服务保障实时动态决策方法 | |
CN102521712B (zh) | 一种流程实例数据处理方法和装置 | |
CN104991824B (zh) | 一种动态切换应用程序数据源的方法及系统 | |
CN105159148B (zh) | 一种机器人指令处理方法及装置 | |
CN109670199A (zh) | 一种高效的电网拓扑分析方法及装置 | |
CN105306272A (zh) | 信息系统故障场景信息收集方法及系统 | |
CN105589748A (zh) | 一种业务请求处理方法及装置 | |
CN104991952B (zh) | 一种智能数据分发流程引擎及其同步数据的方法 | |
CN103617098A (zh) | 基于数据变化的智能备份方法及智能备份系统 | |
TW201816598A (zh) | 任務切換方法和相關裝置 | |
CN113268486A (zh) | 智能工厂的一体化数据应用系统 | |
CN112000350A (zh) | 一种动态规则更新方法、装置及存储介质 | |
CN104933495A (zh) | 基于Android的移动终端上的工作任务考核系统 | |
CN111240935A (zh) | 一种自动化智能运维系统及运维方法 | |
CN112463440A (zh) | 容灾切换方法、系统、存储介质及计算机设备 | |
CN113032093B (zh) | 分布式计算方法、装置及平台 | |
CN110324837B (zh) | 一种网络管理方法和装置 | |
CN104133674A (zh) | 一种异构系统及异构系统的模型同步方法 | |
CN107942753B (zh) | 机器人与终端设备的软件的通讯框架和通讯方法 | |
CN113342826A (zh) | 一种对不同数据采集引擎的数据操作进行统一管理的方法、存储介质及系统 | |
US20160335170A1 (en) | Model checking device for distributed environment model, model checking method for distributed environment model, and medium | |
CN111614702B (zh) | 一种边缘计算方法以及边缘计算系统 | |
CN108154343B (zh) | 一种企业级信息系统的应急处理方法及系统 | |
CN109446272A (zh) | 一种服务器的数据处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190111 |
|
RJ01 | Rejection of invention patent application after publication |