CN114936113B - 一种任务雪崩恢复方法、装置、电子设备及存储介质 - Google Patents

一种任务雪崩恢复方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114936113B
CN114936113B CN202210447067.4A CN202210447067A CN114936113B CN 114936113 B CN114936113 B CN 114936113B CN 202210447067 A CN202210447067 A CN 202210447067A CN 114936113 B CN114936113 B CN 114936113B
Authority
CN
China
Prior art keywords
task
recovery
information
avalanche
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210447067.4A
Other languages
English (en)
Other versions
CN114936113A (zh
Inventor
张义超
于洋
高经郡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kejie Technology Co ltd
Original Assignee
Beijing Kejie Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kejie Technology Co ltd filed Critical Beijing Kejie Technology Co ltd
Priority to CN202210447067.4A priority Critical patent/CN114936113B/zh
Publication of CN114936113A publication Critical patent/CN114936113A/zh
Application granted granted Critical
Publication of CN114936113B publication Critical patent/CN114936113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02WCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
    • Y02W90/00Enabling technologies or technologies with a potential or indirect contribution to greenhouse gas [GHG] emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及生产安全的领域,尤其是涉及一种任务雪崩恢复方法、装置、电子设备及存储介质。其方法包括:获取平台任务信息以及任务监测数据,任务监测数据为平台任务信息中不同任务所对应的监测数据,然后对平台任务信息进行分析,生成任务依赖图谱,然后对任务监测数据进行数据检测,确定任务是否存在预设雪崩异常,若任务存在预设雪崩异常,则根据任务依赖图谱确定存在预设雪崩异常的根任务,对根任务的数量进行统计,生成任务流数量,根任务为发生预设雪崩异常的初始任务,然后对任务流数量进行逻辑分析,生成雪崩任务恢复方案,然后基于雪崩任务恢复方案对存在任务进行雪崩恢复,本申请具有提高任务恢复效率的效果。

Description

一种任务雪崩恢复方法、装置、电子设备及存储介质
技术领域
本申请涉及数据任务管理的领域,尤其是涉及一种任务雪崩恢复方法、装置、电子设备及存储介质。
背景技术
在各个企业数字化转型中,有大量的数据计算任务需要进行调度,就产生了任务调度需求。任务调度系统能够统一管理数据任务,管理任务间上下游依赖关系,监控其运行状态,异常告警,系统高可用,使每天的数据统计任务按时执行完成。任务调度系统(定时任务、定时执行)是数据处理工作中经常依赖的中间件系统。
目前,主流的调度系统是根据工作流定义形成任务调度依赖图,任务调度依赖图像应对于工作流内部的任务发生雪崩后对任务进行恢复,但仅限于单条任务流内部的任务恢复,因此具有一定局限性,无法做到平台级的全局任务恢复,从而存在降低了任务雪崩恢复效率的缺陷。
发明内容
为了提高任务雪崩恢复效率,本申请提供一种任务雪崩恢复方法、装置、电子设备及存储介质。
第一方面,本申请提供一种任务雪崩恢复方法,采用如下的技术方案:一种任务雪崩恢复方法,包括:
获取平台任务信息以及任务监测数据,所述任务监测数据为所述平台任务信息中不同任务所对应的监测数据;
对所述平台任务信息进行分析,生成任务依赖图谱;
对所述任务监测数据进行数据检测,确定所述任务是否存在预设雪崩异常,若所述任务存在所述预设雪崩异常,则根据所述任务依赖图谱确定存在所述预设雪崩异常的根任务,并对所述根任务的数量进行统计,生成任务流数量,所述根任务为发生预设雪崩异常的初始任务;
对所述任务流数量进行逻辑分析,生成雪崩任务恢复方案;
基于所述雪崩任务恢复方案对所述任务进行雪崩恢复。
通过采用上述技术方案,在对雪崩任务进行恢复时,获取平台任务信息以及平台任务信息中不同任务所对应的任务监测数据,然后对平台任务信息进行分析,生成任务依赖图谱,然后对任务监测数据进行数据检测,确定任务是否存在预设雪崩异常,若存在,则根据任务依赖图谱确定存在预设雪崩异常的根任务,并对根任务数量进行统计,得到任务流数量,然后对任务流数量进行逻辑分析,生成对应的雪崩任务恢复方案,然后根据雪崩任务恢复方案对任务进行雪崩恢复,通过对当前存在预设雪崩异常的任务流数量进行统计,实现了单条或多条的任务流恢复,改善了任务恢复的局限性,从而达到了提高任务雪崩恢复效率的效果。
在另一种可能实现的方式中,所述对所述平台任务信息进行分析,生成任务依赖图谱,包括:
获取当前时间信息以及所述平台任务信息在预设时间段内的任务执行顺序信息;
确定所述当前时间信息是否与所述预设时间段相匹配,若所述当前时间信息与所述预设时间段匹配,则根据所述任务执行顺序信息确定每个所述任务之间的任务依赖关系;
对所述任务依赖关系进行图形化转换,生成任务依赖图谱。
通过上述技术方案,在生成任务依赖图谱时,获取当前时间信息以及平台任务信息在预设时间段内的任务执行顺序,然后将当前时间信息与预设时间段进行匹配,若当前时信息与预设时间段相匹配,则根据任务执行顺序确定每个任务之间任务依赖关系,并对任务依赖关系进行图形化转换,生成任务依赖图,以便于后续进行根任务确定。
在另一种可能实现的方式中,所述对所述任务流数量进行逻辑分析,生成雪崩任务恢复方案,包括:
判断所述任务流数量是否等于预设数量,若所述任务流数量等于预设数量,则基于所述根任务以及所述任务依赖图谱对与所述根任务对应的任务流中的所有失败任务进行筛选,得到第一任务信息;
根据所述任务依赖图谱对所述第一任务信息中任务之间的串并行关系进行检测,得到第一任务恢复顺序信息;
将所述第一任务信息以及所述第一任务恢复顺序信息进行整合,生成雪崩任务恢复方案。
通过上述技术方案,在生成雪崩任务恢复方案时,判断任务流数量是否等于预设数量,其中预设数量为一条任务流,若等于,则根据根任务以及任务依赖图谱对与根任务对应的任务中的失败任务进行晒算,得到第一任务信息,然后根据依赖图谱对第一任务信息中任务之间的串并行关系进行检测,得到第一任务恢复顺序信息,然后再将第一任务信息以及第一任务恢复顺序信息进行整合,生成最终的雪崩任务恢复方案,从而实现了对单条任务流进行雪崩恢复。
在另一种可能实现的方式中,所述方法还包括:
若所述任务流数量大于预设数量,则基于每个所述根任务以及所述任务依赖图谱对与每个所述根任务对应任务流中的所有失败任务进行筛选,得到第二任务信息;
根据所述任务依赖图谱对所述第二任务信息中任务之间的串并行关系进行检测,得到第二任务恢复顺序信息;
将所述第二任务信息以及所述第二任务恢复顺序信息进行整合,生成所述雪崩任务恢复方案。
通过上述技术方案,当任务流数量大于预设数量时,即任务流数量大于一条任务流数量,则根据每一个根任务以及任务依赖图谱与每一个根任务对应任务流中的所有失败任务进行筛选,得到第二任务信息,然后再根据任务依赖图谱对第二任务信息中任务之间的串并行关系进行检测,得到第二任务恢复顺序信息,然后再将第二任务信息以及第二任务恢复顺序信息进行整合,生成雪崩任务恢复方案,从而实现了对多条任务流进行雪崩恢复。
在另一种可能实现的方式中,所述方法还包括:
当检测任务排除指令后,获取排除任务信息;
基于所述排除任务信息确定至少一项排除任务,并对所述雪崩任务恢复方案中的恢复任务进行获取,得到第一恢复任务集合;
基于所述至少一项排除任务对所述第一恢复任务集合中的任务进行匹配删除,得到第二恢复任务集合;
根据所述第二恢复任务集合对所述雪崩任务恢复方案进行方案更新,生成排除任务恢复方案,并基于所述排除任务恢复方案对所述第二恢复任务集合中的任务进行雪崩恢复。
通过上述技术方案,当检测到任务排出指令后,获取排出任务信息,并根据排出任务信息确定至少一项排除任务,然后对雪崩任务恢复方案中的恢复任务进行获取,得到第一恢复任务集合,然后根据至少一项排除任务对第一恢复任务集合中的任务进行匹配删除,得到第二任务恢复集合,然后根据第二恢复任务集合对雪崩任务恢复方案进行方案更新,生成排除任务恢复方案,然后基于排除任务恢复方案对第二恢复任务集合中的任务进行雪崩恢复,从而提高了对雪崩任务操作的灵敏度。
在另一种可能实现的方式中,所述确定所述当前时间信息是否与所述预设时间段相匹配,之后还包括:
若所述当前时间信息与所述预设时间段不匹配,则获取所述平台任务信息在所述当前时间信息的当前任务执行顺序信息以及所述平台任务信息中的所有失败任务;
基于所述当前任务执行顺序信息,确定所述失败任务是否存在失败任务依赖关系,若存在,则根据所述失败任务依赖关系绘制失败任务依赖图谱,并根据所述失败任务依赖图谱的串并行关系对所述失败任务进行恢复,若不存在,则直接对所述失败任务进行并行任务恢复。
通过上述技术方案,当当前时间信息与预设时间段不匹配时,获取平台任务信息在当前时间信息的当前任务执行顺序信息以及平台任务信息中的所有失败任务,然后根据当前任务执行顺序确定失败任务是否存在失败任务依赖关系,若存在,则根据失败任务依赖关系绘制失败任务依赖图谱,并根据失败任务依赖图谱的串并行关系对失败任务进行恢复,若不存在,则直接对失败任务进行并行任务恢复,从而达到了对不在预设时间段内的任务进行雪崩恢复的效果。
在另一种可能实现的方式中,所述若所述任务存在所述预设雪崩异常,则根据所述任务依赖图谱确定存在所述预设雪崩异常的根任务,之后还包括:
对所述根任务进行任务位置检测,获取任务位置信息;
基于所述任务位置信息生成异常告警指令,控制报警设备通过预设方式输出报警信号;
所述预设方式包括以下至少一项:输出声音方式以及灯光输出方式。
通过上述技术方案,在对根任务进行报警时,获取根任务的任务位置信息,然后根据任务位置信息生成异常告警指令,控制报警设备通过预设方式输出报警信号,以便于工作人员对根任务进行查看。
第二方面,本申请提供一种任务雪崩恢复装置,采用如下的技术方案:
一种任务雪崩恢复装置,包括:
获取模块,用于获取平台任务信息以及任务监测数据,所述任务监测数据为所述平台任务信息中不同任务所对应的监测数据;
第一分析模块,用于对所述平台任务信息进行分析,生成任务依赖图谱;
统计模块,用于对所述任务监测数据进行数据检测,确定所述任务是否存在预设雪崩异常,若所述任务存在所述预设雪崩异常,则根据所述任务依赖图谱确定存在所述预设雪崩异常的根任务,并对所述根任务的数量进行统计,生成任务流数量,所述根任务为发生预设雪崩异常的初始任务;
第二分析模块,用于对所述任务流数量进行逻辑分析,生成雪崩任务恢复方案;
恢复模块,用于基于所述雪崩任务恢复方案对所述任务进行雪崩恢复。
通过采用上述技术方案,在对雪崩任务进行恢复时,获取平台任务信息以及平台任务信息中不同任务所对应的任务监测数据,然后对平台任务信息进行分析,生成任务依赖图谱,然后对任务监测数据进行数据检测,确定任务是否存在预设雪崩异常,若存在,则根据任务依赖图谱确定存在预设雪崩异常的根任务,并对根任务数量进行统计,得到任务流数量,然后对任务流数量进行逻辑分析,生成对应的雪崩任务恢复方案,然后根据雪崩任务恢复方案对任务进行雪崩恢复,通过对当前存在预设雪崩异常的任务流数量进行统计,实现了单条或多条的任务流恢复,改善了任务恢复的局限性,从而达到了提高任务雪崩恢复效率的效果设备的检修效率。
在一种可能的实现方式中,所述第一分析模块在对所述平台任务信息进行分析,生成任务依赖图谱时,具体用于:
获取当前时间信息以及所述平台任务信息在预设时间段内的任务执行顺序信息;
确定所述当前时间信息是否与所述预设时间段相匹配,若所述当前时间信息与所述预设时间段匹配,则根据所述任务执行顺序信息确定每个所述任务之间的任务依赖关系;
对所述任务依赖关系进行图形化转换,生成任务依赖图谱。
在另一种可能的实现方式中,所述第二分析模块在对所述任务流数量进行逻辑分析,生成雪崩任务恢复方案时,具体用于:
判断所述任务流数量是否等于预设数量,若所述任务流数量等于预设数量,则基于所述根任务以及所述任务依赖图谱对与所述根任务对应的任务流中的所有失败任务进行筛选,得到第一任务信息;
根据所述任务依赖图谱对所述第一任务信息中任务之间的串并行关系进行检测,得到第一任务恢复顺序信息;
将所述第一任务信息以及所述第一任务恢复顺序信息进行整合,生成雪崩任务恢复方案。
在另一种可能的实现方式中,所述装置还包括:数量判断模块、关系检测模块以及信息整合模块,其中,
所述数量判断模块,用于当所述任务流数量大于预设数量,基于每个所述根任务以及所述任务依赖图谱对与每个所述根任务对应任务流中的所有失败任务进行筛选,得到第二任务信息;
所述关系检测模块,用于根据所述任务依赖图谱对所述第二任务信息中任务之间的串并行关系进行检测,得到第二任务恢复顺序信息;
所述信息整合模块,用于将所述第二任务信息以及所述第二任务恢复顺序信息进行整合,生成所述雪崩任务恢复方案。
在另一种可能的实现方式中,所述装置还包括:信息获取模块、第一集合生成模块、第二集合生成模块以及任务恢复模块,其中,
所述信息获取模块,用于当检测任务排除指令后,获取排除任务信息;
所述第一集合生成模块,用于基于所述排除任务信息确定至少一项排除任务,并对所述雪崩任务恢复方案中的恢复任务进行获取,得到第一恢复任务集合;
所述第二集合生成模块,用于基于所述至少一项排除任务对所述第一恢复任务集合中的任务进行匹配删除,得到第二恢复任务集合;
所述任务恢复模块,用于根据所述第二恢复任务集合对所述雪崩任务恢复方案进行方案更新,生成排除任务恢复方案,并基于所述排除任务恢复方案对所述第二恢复任务集合中的任务进行雪崩恢复。
在另一种可能的实现方式中,所述确定所述当前时间信息是否与所述预设时间段相匹配,之后还包括:时间判断模块以及时间恢复模块,其中,
所述时间判断模块,用于当所述当前时间信息与所述预设时间段不匹配,获取所述平台任务信息在所述当前时间信息的当前任务执行顺序信息以及所述平台任务信息中的所有失败任务;
所述时间恢复模块,用于基于所述当前任务执行顺序信息,确定所述失败任务是否存在失败任务依赖关系,若存在,则根据所述失败任务依赖关系绘制失败任务依赖图谱,并根据所述失败任务依赖图谱的串并行关系对所述失败任务进行恢复,若不存在,则直接对所述失败任务进行并行任务恢复。
在另一种可能的实现方式中,所述装置还包括:位置获取模块以及异常告警模块,其中,
所述位置获取模块,用于对所述根任务进行任务位置检测,获取任务位置信息;
所述位置获取模块,用于基于所述任务位置信息生成异常告警指令,控制报警设备通过预设方式输出报警信号;
所述预设方式包括以下至少一项:输出声音方式以及灯光输出方式。
第三方面,本申请提供一种电子设备,采用如下的技术方案:
一种电子设备,该电子设备包括:
至少一个处理器;
存储器;
至少一个应用程序,其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行,所述至少一个应用程序配置用于:执行上述任务雪崩恢复方法。
第四方面,本申请提供一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,包括:存储有能够被处理器加载并执行上述任务雪崩恢复方法的计算机程序。
综上所述,本申请包括以下有益技术效果:
1、在对雪崩任务进行恢复时,获取平台任务信息以及平台任务信息中不同任务所对应的任务监测数据,然后对平台任务信息进行分析,生成任务依赖图谱,然后对任务监测数据进行数据检测,确定任务是否存在预设雪崩异常,若存在,则根据任务依赖图谱确定存在预设雪崩异常的根任务,并对根任务数量进行统计,得到任务流数量,然后对任务流数量进行逻辑分析,生成对应的雪崩任务恢复方案,然后根据雪崩任务恢复方案对任务进行雪崩恢复,通过对当前存在预设雪崩异常的任务流数量进行统计,实现了单条或多条的任务流恢复,改善了任务恢复的局限性,从而达到了提高任务雪崩恢复效率的效果设备的检修效率;
2、当检测到任务排出指令后,获取排出任务信息,并根据排出任务信息确定至少一项排除任务,然后对雪崩任务恢复方案中的恢复任务进行获取,得到第一恢复任务集合,然后根据至少一项排除任务对第一恢复任务集合中的任务进行匹配删除,得到第二任务恢复集合,然后根据第二恢复任务集合对雪崩任务恢复方案进行方案更新,生成排除任务恢复方案,然后基于排除任务恢复方案对第二恢复任务集合中的任务进行雪崩恢复,从而提高了对雪崩任务操作的灵敏度。
附图说明
图1是本申请实施例一种任务雪崩恢复方法的流程示意图。
图2是本申请实施例一种任务雪崩恢复方法的方框示意图。
图3是本申请实施例电子设备的示意图。
图4是本申请实施例任务依赖图谱。
图5是本申请实施例单任务雪崩恢复图。
图6是本申请实施例多任务雪崩恢复图。
具体实施方式
以下结合附图1-6对本申请作进一步详细说明。
本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本申请的权利要求范围内都受到专利法的保护。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
下面结合说明书附图对本申请实施例作进一步详细描述。
本申请实施例提供了一种任务雪崩恢复方法,由电子设备执行,该电子设备可以为服务器也可以为终端设备,其中,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此,该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制,如图1所示,该方法包括:
步骤S10,获取平台任务信息以及任务监测数据,任务监测数据为平台任务信息中不同任务所对应的监测数据。
在本申请实施例中,平台任务主要分3种:flink实时任务,spark任务以及java任务,其中,spark任务以及flink任务是运行在yarn上,而spark任务以及flink任务日常产生的数据保存至yarn logs中,即任务监测数据保存在yarn logs中,但是事实上任务监测数据在yarn logs中存储具有时间限制,为了后续更好排查问题,任务监测数据都收集起来存储到ES中。
具体地,平台任务信息包括:任务状态、任务名称以及任务间连接关系等,例如:平台任务信息中包含四个任务A、B、C以及D,A任务与B任务连接,B任务与C任务、D任务连接。
步骤S11,对平台任务信息进行分析,生成任务依赖图谱。
具体地,根据对平台任务信息中的任务连接关系进行分析,绘制生成任务依赖图谱(如图4所示)。
步骤S12,对任务监测数据进行数据检测,确定任务是否存在预设雪崩异常,若任务存在预设雪崩异常,则根据任务依赖图谱确定存在预设雪崩异常的根任务,并对根任务的数量进行统计,生成任务流数量,根任务为发生预设雪崩异常的初始任务。
具体地,预设雪崩异常是指任务不断失败重试导致的雪崩效应,雪崩效应的易产生两个问题,第一个是任务会一直占用计算机资源,影响其他任务的正常执行,第二个是任务重试间隔较短,易导致系统崩溃,因此当任务存在雪崩效应时,根据任务依赖图谱(如图4所示)确定产生预设雪崩异常的根任务,并对根任务的数量进行统计,得到任务流数量,以此来判断产生雪崩异常的任务流为一条还是多条。例如:图4中的B、C以及D任务存在雪崩效应,其中B任务为根任务,而任务流数量为一条。
步骤S13,对任务流数量进行逻辑分析,生成雪崩任务恢复方案。
具体地,对任务流数量进行逻辑分析,即判断任务流数量为一条还是多条。
步骤S14,基于雪崩任务恢复方案对任务进行雪崩恢复。
本申请实施例提供了一种任务雪崩恢复方法,在对雪崩任务进行恢复时,获取平台任务信息以及平台任务信息中不同任务所对应的任务监测数据,然后对平台任务信息进行分析,生成任务依赖图谱,然后对任务监测数据进行数据检测,确定任务是否存在预设雪崩异常,若存在,则根据任务依赖图谱确定存在预设雪崩异常的根任务,并对根任务数量进行统计,得到任务流数量,然后对任务流数量进行逻辑分析,生成对应的雪崩任务恢复方案,然后根据雪崩任务恢复方案对任务进行雪崩恢复,通过对当前存在预设雪崩异常的任务流数量进行统计,实现了单条或多条的任务流恢复,改善了任务恢复的局限性,从而达到了提高任务雪崩恢复效率的效果设备的检修效率。
本申请实施例的一种可能的实现方式,步骤S11具体包括步骤S111(图中未示出)以及步骤S112(图中未示出),其中,
步骤S111,获取当前时间信息以及平台任务信息在预设时间段内的任务执行顺序信息。
在本申请实施例中,预设时间段为8点到22点,任务执行顺序信息为,电子设备执行任务的先后关系,例如:一号任务第一个执行,二号任务以及三号任务在一号任务执行完成后同时执行。
步骤S112,确定当前时间信息是否与预设时间段相匹配,若当前时间信息与预设时间段匹配,则根据任务执行顺序信息确定每个任务之间的任务依赖关系。
具体地,若当前时间信息为早上8点40分,那么当前时间信息与预设时间段相匹配,根据任务执行顺序信息确定任务依赖关系。
具体地,根据步骤S111中的举例对任务依赖关系做进一步说明,二号任务与三号任务在一号任务执行完后执行,那么任务依赖关系则为二号任务与三号任务依赖于一号任务。
步骤S113,对任务依赖关系进行图形化转换,生成任务依赖图谱。
本申请实施例的一种可实施方式,采用freemind技术任务依赖关系进行图形化转换,生成任务依赖图谱。
具体地,FreeMind是一套由Java撰写而成的实用的开源思维导图/心智(MindMap)软件,可用来帮助使用者整理思绪的工具软体,可将每一个环节用图形表示,透过将思路图形化、结构化,帮助使用者对整个作业流程的了解。
本申请实施例的一种可能的实现方式,步骤S13具体包括步骤S131(图中未示出)、步骤S132(图中未示出)以及步骤S133(图中未示出),其中,
步骤S131,判断任务流数量是否等于预设数量,若任务流数量等于预设数量,则基于根任务以及任务依赖图谱对与根任务对应的任务流中的所有失败任务进行筛选,得到第一任务信息。
对于本申请实施例来说,预设数量为一条任务流。
具体地,当任务流数量为一条任务流时,直接将任务流中的所有失败任务进行筛选。
步骤S132,根据任务依赖图谱对第一任务信息中任务之间的串并行关系进行检测,得到第一任务恢复顺序信息。
具体地,如图5所示,任务B为任务流的根任务,根据任务依赖图谱,首先会执行任务B,其次并行执行任务C,D,而后并行E、F、H,最后执行任务I,即第一任务恢复顺序信息为B、CD、EFH、I。
步骤S133,将第一任务信息以及第一任务恢复顺序信息进行整合,生成雪崩任务恢复方案。
本申请实施例的一种可能的实现方式,步骤S133(图中未示出)之后还包括:
若任务流数量大于预设数量,则基于每个根任务以及任务依赖图谱对与每个根任务对应任务流中的所有失败任务进行筛选,得到第二任务信息。
具体地,任务数量大于预设数量,即表明当前存在雪崩异常的任务流有多条,根据多条任务流中的根任务以及任务依赖图谱将所有任务流中的失败任务进行筛选,得到第二任务信息。
根据任务依赖图谱对第二任务信息中任务之间的串并行关系进行检
测,得到第二任务恢复顺序信息。
具体地,如图6所示任务B,X为两条任务流的根任务,根据任务依赖图谱,首先执行任务B和X,再执行C、D、Y,其次执行E、F、H、Z,最后执行任务I,即第二任务恢复顺序信息为BX、YCD、ZEFH、I。
将第二任务信息以及第二任务恢复顺序信息进行整合,生成雪崩任务恢复方案。
本申请实施例的一种可能的实现方式,步骤S14之后还包括:
当检测任务排除指令后,获取排除任务信息。
基于排除任务信息确定至少一项排除任务,并对雪崩任务恢复方案中的恢复任务进行获取,得到第一恢复任务集合。
基于至少一项排除任务对第一恢复任务集合中的任务进行匹配删除,得到第二恢复任务集合。
根据第二恢复任务集合对雪崩任务恢复方案进行方案更新,生成排除任务恢复方案,并基于排除任务恢复方案对第二恢复任务集合中的任务进行雪崩恢复。
具体地,当检测到任务排出指令后,获取排出任务信息,并根据排出任务信息确定至少一项排除任务,然后对雪崩任务恢复方案中的恢复任务进行获取,得到第一恢复任务集合,然后根据至少一项排除任务对第一恢复任务集合中的任务进行匹配删除,得到第二任务恢复集合,然后根据第二恢复任务集合对雪崩任务恢复方案进行方案更新,生成排除任务恢复方案,然后基于排除任务恢复方案对第二恢复任务集合中的任务进行雪崩恢复,提高了对雪崩任务操作的灵敏度。
本申请实施例的一种可能的实现方式,步骤S112(图中未示出)之后还包括:
若当前时间信息与预设时间段不匹配,则获取平台任务信息在当前时间信息的当前任务执行顺序信息以及平台任务信息中的所有失败任务。
基于当前任务执行顺序信息,确定失败任务是否存在失败任务依赖关系,若存在,则根据失败任务依赖关系绘制失败任务依赖图谱,并根据失败任务依赖图谱的串并行关系对失败任务进行恢复,若不存在,则直接对失败任务进行并行任务恢复。
本申请实施例的一种可能的实现方式,步骤S12之后还包括:对根任务进行任务位置检测,获取任务位置信息。
基于任务位置信息生成异常告警指令,控制报警设备通过预设方式输出报警信号。
其中,预设方式包括以下至少一项:输出声音方式以及灯光输出方式。
例如,通过声音方式发出报警信号的装置包括:语音播报器等等,通过灯光输出方式发出报警信号的装置包括:呼吸灯、闪烁灯等等。
上述实施例从方法流程的角度介绍一种任务雪崩恢复方法,下述实施例从虚拟模块或者虚拟单元的角度介绍了一种任务雪崩恢复装置,具体详见下述实施例。
本申请实施例提供一种任务雪崩恢复装置,如图2所示,该装置20具体可以包括:获取模块21、第一分析模块22、统计模块23、第二分析模块24以及恢复模块25,其中,
获取模块21,用于获取平台任务信息以及任务监测数据,任务监测数据为平台任务信息中不同任务所对应的监测数据;
第一分析模块22,用于对平台任务信息进行分析,生成任务依赖图谱;
统计模块23,用于对任务监测数据进行数据检测,确定任务是否存在预设雪崩异常,若任务存在预设雪崩异常,则根据任务依赖图谱确定存在预设雪崩异常的根任务,并对根任务的数量进行统计,生成任务流数量,根任务为发生预设雪崩异常的初始任务;
第二分析模块24,用于对任务流数量进行逻辑分析,生成雪崩任务恢复方案;
恢复模块25,用于基于雪崩任务恢复方案对任务进行雪崩恢复。
本申请实施例的一种可能的实现方式,第一分析模块22在对平台任务信息进行分析,生成任务依赖图谱时,具体用于:
获取当前时间信息以及平台任务信息在预设时间段内的任务执行顺序信息;
确定当前时间信息是否与预设时间段相匹配,若当前时间信息与预设时间段匹配,则根据任务执行顺序信息确定每个任务之间的任务依赖关系;
对任务依赖关系进行图形化转换,生成任务依赖图谱。
本申请实施例的另一种可能的实现方式,第二分析模块24在对任务流数量进行逻辑分析,生成雪崩任务恢复方案时,具体用于:
判断任务流数量是否等于预设数量,若任务流数量等于预设数量,则基于根任务以及任务依赖图谱对与根任务对应的任务流中的所有失败任务进行筛选,得到第一任务信息;
根据任务依赖图谱对第一任务信息中任务之间的串并行关系进行检
测,得到第一任务恢复顺序信息;
将第一任务信息以及第一任务恢复顺序信息进行整合,生成雪崩任务恢复方案。
本申请实施例的另一种可能的实现方式,装置20还包括:数量判断模块、关系检测模块以及信息整合模块,其中,
数量判断模块,用于当任务流数量大于预设数量,基于每个根任务以及任务依赖图谱对与每个根任务对应任务流中的所有失败任务进行筛选,得到第二任务信息;
关系检测模块,用于根据任务依赖图谱对第二任务信息中任务之间的串并行关系进行检测,得到第二任务恢复顺序信息;
信息整合模块,用于将第二任务信息以及第二任务恢复顺序信息进行整合,生成雪崩任务恢复方案。
本申请实施例的另一种可能的实现方式,装置20还包括:信息获取模块、第一集合生成模块、第二集合生成模块以及任务恢复模块,其中,
信息获取模块,用于当检测任务排除指令后,获取排除任务信息;
第一集合生成模块,用于基于排除任务信息确定至少一项排除任务,并对雪崩任务恢复方案中的恢复任务进行获取,得到第一恢复任务集合;
第二集合生成模块,用于基于至少一项排除任务对第一恢复任务集合中的任务进行匹配删除,得到第二恢复任务集合;
任务恢复模块,用于根据第二恢复任务集合对雪崩任务恢复方案进行方案更新,生成排除任务恢复方案,并基于排除任务恢复方案对第二恢复任务集合中的任务进行雪崩恢复。
本申请实施例的另一种可能的实现方式,装置20还包括:时间判断模块以及时间恢复模块,其中,
时间判断模块,用于当当前时间信息与预设时间段不匹配,获取平台任务信息在当前时间信息的当前任务执行顺序信息以及平台任务信息中的所有失败任务;
时间恢复模块,用于基于当前任务执行顺序信息,确定失败任务是否存在失败任务依赖关系,若存在,则根据失败任务依赖关系绘制失败任务依赖图谱,并根据失败任务依赖图谱的串并行关系对失败任务进行恢复,若不存在,则直接对失败任务进行并行任务恢复。
本申请实施例的另一种可能的实现方式,装置20还包括:位置获取模块以及异常告警模块,其中,
位置获取模块,用于对根任务进行任务位置检测,获取任务位置信息;
位置获取模块,用于基于任务位置信息生成异常告警指令,控制报警设备通过预设方式输出报警信号;
预设方式包括以下至少一项:输出声音方式以及灯光输出方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还从实体装置的角度介绍了一种电子设备,如图3所示,图3所示的电子设备300包括:处理器301和存储器303。其中,处理器301和存储器303相连,如通过总线302相连。可选地,电子设备300还可以包括收发器304。需要说明的是,实际应用中收发器304不限于一个,该电子设备300的结构并不构成对本申请实施例的限定。
处理器301可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC (Application SpecificIntegrated Circuit,专用集成电路),FPGA (Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器301也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线302可包括一通路,在上述组件之间传送信息。总线302可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线302可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器303可以是ROM (Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器303用于存储执行本申请方案的应用程序代码,并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图3示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (6)

1.一种任务雪崩恢复方法,其特征在于,包括
获取平台任务信息以及任务监测数据,所述任务监测数据为所述平台任务信息中不同任务所对应的监测数据;
获取当前时间信息以及所述平台任务信息在预设时间段内的任务执行顺序信息;确定所述当前时间信息是否与所述预设时间段相匹配,若所述当前时间信息与所述预设时间段匹配,则根据所述任务执行顺序信息确定每个所述任务之间的任务依赖关系;对所述任务依赖关系进行图形化转换,生成任务依赖图谱;
对所述任务监测数据进行数据检测,确定所述任务是否存在预设雪崩异常,若所述任务存在所述预设雪崩异常,则根据所述任务依赖图谱确定存在所述预设雪崩异常的根任务,并对所述根任务的数量进行统计,生成任务流数量,所述根任务为发生预设雪崩异常的初始任务;
判断所述任务流数量是否等于预设数量,若所述任务流数量等于预设数量,则基于所述根任务以及所述任务依赖图谱对与所述根任务对应的任务流中的所有失败任务进行筛选,得到第一任务信息,根据所述任务依赖图谱对所述第一任务信息中任务之间的串并行关系进行检测,得到第一任务恢复顺序信息,将所述第一任务信息以及所述第一任务恢复顺序信息进行整合,生成雪崩任务恢复方案;若所述任务流数量大于预设数量,则基于每个所述根任务以及所述任务依赖图谱对与每个所述根任务对应任务流中的所有失败任务进行筛选,得到第二任务信息,根据所述任务依赖图谱对所述第二任务信息中任务之间的串并行关系进行检测,得到第二任务恢复顺序信息,将所述第二任务信息以及所述第二任务恢复顺序信息进行整合,生成所述雪崩任务恢复方案;
基于所述雪崩任务恢复方案对所述任务进行雪崩恢复;
当检测任务排除指令后,获取排除任务信息;基于所述排除任务信息确定至少一项排除任务,并对所述雪崩任务恢复方案中的恢复任务进行获取,得到第一恢复任务集合;基于所述至少一项排除任务对所述第一恢复任务集合中的任务进行匹配删除,得到第二恢复任务集合;根据所述第二恢复任务集合对所述雪崩任务恢复方案进行方案更新,生成排除任务恢复方案,并基于所述排除任务恢复方案对所述第二恢复任务集合中的任务进行雪崩恢复。
2.根据权利要求1所述的方法,其特征在于,所述确定所述当前时间信息是否与所述预设时间段相匹配,之后还包括:
若所述当前时间信息与所述预设时间段不匹配,则获取所述平台任务信息在所述当前时间信息的当前任务执行顺序信息以及所述平台任务信息中的所有失败任务;
基于所述当前任务执行顺序信息,确定所述失败任务是否存在失败任务依赖关系,若存在,则根据所述失败任务依赖关系绘制失败任务依赖图谱,并根据所述失败任务依赖图谱的串并行关系对所述失败任务进行恢复,若不存在,则直接对所述失败任务进行并行任务恢复。
3.根据权利要求1所述的方法,其特征在于,所述若所述任务存在所述预设雪崩异常,则根据所述任务依赖图谱确定存在所述预设雪崩异常的根任务,之后还包括:
对所述根任务进行任务位置检测,获取任务位置信息;
基于所述任务位置信息生成异常告警指令,控制报警设备通过预设方式输出报警信号;
所述预设方式包括以下至少一项:输出声音方式以及灯光输出方式。
4.一种任务雪崩恢复装置,其特征在于,包括:
获取模块,用于获取平台任务信息以及任务监测数据,所述任务监测数据为所述平台任务信息中不同任务所对应的监测数据;
第一分析模块,用于获取当前时间信息以及所述平台任务信息在预设时间段内的任务执行顺序信息;确定所述当前时间信息是否与所述预设时间段相匹配,若所述当前时间信息与所述预设时间段匹配,则根据所述任务执行顺序信息确定每个所述任务之间的任务依赖关系;对所述任务依赖关系进行图形化转换,生成任务依赖图谱;
统计模块,用于对所述任务监测数据进行数据检测,确定所述任务是否存在预设雪崩异常,若所述任务存在所述预设雪崩异常,则根据所述任务依赖图谱确定存在所述预设雪崩异常的根任务,并对所述根任务的数量进行统计,生成任务流数量,所述根任务为发生预设雪崩异常的初始任务;
第二分析模块,用于判断所述任务流数量是否等于预设数量,若所述任务流数量等于预设数量,则基于所述根任务以及所述任务依赖图谱对与所述根任务对应的任务流中的所有失败任务进行筛选,得到第一任务信息,根据所述任务依赖图谱对所述第一任务信息中任务之间的串并行关系进行检测,得到第一任务恢复顺序信息,将所述第一任务信息以及所述第一任务恢复顺序信息进行整合,生成雪崩任务恢复方案;若所述任务流数量大于预设数量,则基于每个所述根任务以及所述任务依赖图谱对与每个所述根任务对应任务流中的所有失败任务进行筛选,得到第二任务信息,根据所述任务依赖图谱对所述第二任务信息中任务之间的串并行关系进行检测,得到第二任务恢复顺序信息,将所述第二任务信息以及所述第二任务恢复顺序信息进行整合,生成所述雪崩任务恢复方案;
恢复模块,用于基于所述雪崩任务恢复方案对所述任务进行雪崩恢复;当检测任务排除指令后,获取排除任务信息;基于所述排除任务信息确定至少一项排除任务,并对所述雪崩任务恢复方案中的恢复任务进行获取,得到第一恢复任务集合;基于所述至少一项排除任务对所述第一恢复任务集合中的任务进行匹配删除,得到第二恢复任务集合;根据所述第二恢复任务集合对所述雪崩任务恢复方案进行方案更新,生成排除任务恢复方案,并基于所述排除任务恢复方案对所述第二恢复任务集合中的任务进行雪崩恢复。
5.一种电子设备,其特征在于,该电子设备包括:
至少一个处理器;
存储器;
至少一个应用程序,其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行,所述至少一个应用程序配置用于:执行权利要求1~3任一项所述的任务雪崩恢复方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机中执行时,令所述计算机执行权利要求1~3任一项所述的任务雪崩恢复方法。
CN202210447067.4A 2022-04-26 2022-04-26 一种任务雪崩恢复方法、装置、电子设备及存储介质 Active CN114936113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210447067.4A CN114936113B (zh) 2022-04-26 2022-04-26 一种任务雪崩恢复方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210447067.4A CN114936113B (zh) 2022-04-26 2022-04-26 一种任务雪崩恢复方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114936113A CN114936113A (zh) 2022-08-23
CN114936113B true CN114936113B (zh) 2023-07-21

Family

ID=82862319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210447067.4A Active CN114936113B (zh) 2022-04-26 2022-04-26 一种任务雪崩恢复方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114936113B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019171133A1 (en) * 2018-03-07 2019-09-12 Pratik Sharma Grouping dependent database transactions for recovery

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965754A (zh) * 2015-03-31 2015-10-07 腾讯科技(深圳)有限公司 任务调度方法及任务调度装置
CN111666178A (zh) * 2019-03-05 2020-09-15 中国环境监测总站 一种安全监控方法及其系统
CN110516971B (zh) * 2019-08-29 2023-04-25 杭州网易再顾科技有限公司 异常检测的方法、装置、介质和计算设备
CN111782679B (zh) * 2020-06-22 2024-03-26 深圳市酷开网络科技股份有限公司 数据处理过程的监管方法、装置、计算机设备及存储介质
CN114327673B (zh) * 2021-12-16 2024-03-12 北京达佳互联信息技术有限公司 一种任务启动方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019171133A1 (en) * 2018-03-07 2019-09-12 Pratik Sharma Grouping dependent database transactions for recovery

Also Published As

Publication number Publication date
CN114936113A (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
CN108564181B (zh) 电力设备故障检测与维修方法及终端设备
CN110851342A (zh) 故障预测方法、装置、计算设备以及计算机可读存储介质
CN111143102B (zh) 异常数据检测方法、装置、存储介质及电子设备
CN107025153B (zh) 磁盘的故障预测方法和装置
CN109918279B (zh) 电子装置、基于日志数据识别用户异常操作的方法及存储介质
US7936260B2 (en) Identifying redundant alarms by determining coefficients of correlation between alarm categories
CN110888783A (zh) 微服务系统的监测方法、装置以及电子设备
CN111240876B (zh) 微服务的故障定位方法、装置、存储介质及终端
CN111585799A (zh) 网络故障预测模型建立方法及装置
CN109543891B (zh) 容量预测模型的建立方法、设备及计算机可读存储介质
CN111062642A (zh) 对象的行业风险程度识别方法、装置以及电子设备
CN106951360B (zh) 数据统计完整度计算方法和系统
CN110134611B (zh) 内存泄漏分析方法、装置、终端和存储介质
CN112463530A (zh) 微服务系统的异常检测方法、装置、电子设备及存储介质
CN115879748A (zh) 一种基于大数据的企业信息化管理集成平台
CN110018932B (zh) 一种容器磁盘的监控方法及装置
CN116089218A (zh) 基于Kubernetes的历史数据和趋势分析的动态基线告警方法及系统
CN114911615A (zh) 微服务运行时智能预测调度的方法及应用
CN114936113B (zh) 一种任务雪崩恢复方法、装置、电子设备及存储介质
CN111654405A (zh) 通信链路的故障节点方法、装置、设备及存储介质
CN113497721A (zh) 网络故障定位方法与装置
CN115643231A (zh) 车载终端设备检测的方法、装置、电子设备及存储介质
CN111797181B (zh) 用户职住地的定位方法、装置、控制设备及存储介质
CN114312930A (zh) 基于日志数据的列车运行异常诊断方法和装置
CN114445162A (zh) 反向追溯企业发票系统配置的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Zhang Yichao

Inventor after: Gao Jingjun

Inventor after: Yu Yang

Inventor before: Zhang Yichao

Inventor before: Yu Yang

Inventor before: Gao Jingjun

CB03 Change of inventor or designer information