CN111522680A - 一种自动修复异常任务节点的方法、装置及设备 - Google Patents

一种自动修复异常任务节点的方法、装置及设备 Download PDF

Info

Publication number
CN111522680A
CN111522680A CN202010307974.XA CN202010307974A CN111522680A CN 111522680 A CN111522680 A CN 111522680A CN 202010307974 A CN202010307974 A CN 202010307974A CN 111522680 A CN111522680 A CN 111522680A
Authority
CN
China
Prior art keywords
abnormal
task
node
task node
repair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010307974.XA
Other languages
English (en)
Inventor
童士权
袁正海
肖俊
李春元
洪亮
张晓霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010307974.XA priority Critical patent/CN111522680A/zh
Publication of CN111522680A publication Critical patent/CN111522680A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

公开了一种自动修复异常任务节点的方法、装置及设备。由于理论上代码修改操作之外的其他异常修复手段可以由程序自动执行,因此,可以自动将不需要进行代码修改的异常任务节点筛选出来,采用自动修复的方式。此外,可以基于满足所述可自动修复条件的异常任务节点样本对应的异常特征与异常修复手段,设置若干包括异常特征与对应的修复手段的自动修复预案,实现自动修复。

Description

一种自动修复异常任务节点的方法、装置及设备
技术领域
本说明书实施例涉及信息技术领域,尤其涉及一种自动修复异常任务节点的方法、装置及设备。
背景技术
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建的,为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库中通常存在若干任务节点,任务节点实际上是负责执行某种计算任务的软件或硬件。有的任务节点仅向其他任务节点输出自己计算得到的数据表,并不会接收其他节点输入的数据表;有的任务节点接收其他任务节点输入的数据表,然后根据接收的数据表执行计算,最后将计算得到的数据表输出给其他任务节点或输出给计算结果需求方。
在实际应用中,有的任务节点可能会出现异常(如运行失败),而对于异常任务节点,往往需要人工来修复,效率较低。
发明内容
为了解决现有的异常任务节点修复方法存在的低效率问题,本说明书实施例提供一种自动修复异常任务节点的方法、装置及设备,方案如下:
根据本说明书实施例的第1方面,提供一种自动修复异常任务节点的方法,将可自动修复条件定义为:异常修复手段不包括代码修改;并且,基于若干满足所述可自动修复条件的异常任务节点样本对应的异常特征与异常修复手段,设置若干包括异常特征与对应的修复手段的自动修复预案,所述方法包括:
确定待管理的任务节点集合;
执行以下分析修复步骤,包括:
从所述任务节点集合中,筛选出异常任务节点;
针对筛选出的每个异常任务节点,判断该异常任务节点是否符合所述可自动修复条件;
若该异常任务节点符合所述可自动修复条件,则根据该异常任务节点对应的异常特征确定匹配的自动修复预案,并基于匹配的自动修复预案对该任务节点进行异常修复。
根据本说明书实施例的第2方面,提供一种自动修复异常任务节点的装置,将可自动修复条件定义为:异常修复手段不包括代码修改;并且,基于若干满足所述可自动修复条件的异常任务节点样本对应的异常特征与异常修复手段,设置若干包括异常特征与对应的修复手段的自动修复预案,所述装置包括:
确定模块,确定待管理的任务节点集合;
执行模块,执行以下分析修复步骤,包括:从所述任务节点集合中,筛选出异常任务节点;针对筛选出的每个异常任务节点,判断该异常任务节点是否符合所述可自动修复条件;若该异常任务节点符合所述可自动修复条件,则根据该异常任务节点对应的异常特征确定匹配的自动修复预案,并基于匹配的自动修复预案对该任务节点进行异常修复。
本说明书实施例所提供的技术方案,由于理论上代码修改操作之外的其他异常修复手段可以由程序自动执行,因此,可以自动将不需要进行代码修改的异常任务节点筛选出来,采用自动修复的方式。可以基于满足所述可自动修复条件的异常任务节点样本对应的异常特征与异常修复手段,设置若干包括异常特征与对应的修复手段的自动修复预案,实现自动修复。
通过本说明书实施例,对于实践中大量存在的无需通过代码修改进行异常修复的异常任务节点,可以无需人工介入,由程序基于这些异常任务节点的异常特征,自动匹配相应的自动修复预案来进行自动修复,提升了修复效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本说明书提供的一种自动修复异常任务节点的方法的流程示意图;
图2是本说明书实施例提供的一种各任务节点组成的有向无环图的示意图;
图3是本说明书实施例提供的一种自动修复异常任务节点的装置的结构示意图;
图4是用于配置本说明书实施例方法的一种设备的结构示意图。
具体实施方式
现有的对异常任务节点进行异常修复的方法为,由人工24小时值班,如果发现异常任务节点,需要由人工进行介入,对异常任务节点进行修复操作,视不同的异常原因,人工可以采用修改代码、重新节点、修改任务优先级、直接置为计算成功等修复手段。
其中,除了修改代码这种方式以外,其他修改操作理论上都可以不依赖人工进行。
为此,在本说明书实施例中,对于无需进行代码修改的异常任务节点,可以摆脱人工依赖,采用自动化方式进行异常修复。一方面需要根据历史人工修复记录中的若干满足所述可自动修复条件的异常任务节点样本对应的异常特征与异常修复手段,设置若干包括异常特征与对应的修复手段的自动修复预案,另一方面需要针对当前待管理的任务节点集合进行分析,从中筛选出符合可自动修复条件的异常任务节点进行预案匹配。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1是本说明书实施例提供的一种自动修复异常任务节点的方法的流程示意图,包括以下步骤:
S100:确定待管理的任务节点集合。
本说明书实施例的应用场景是数据仓库,数据仓库中通常存在多个任务节点,任务节点实际上是负责执行某种计算任务的软件或硬件。有的任务节点仅向其他任务节点输出自己计算得到的数据表,并不会接收其他节点输入的数据表;有的任务节点接收其他任务节点输入的数据表,然后根据接收的数据表执行计算,最后将计算得到的数据表输出给其他任务节点或输出给计算结果需求方。
其中,对于仅向其他任务节点输出自己计算得到的数据表的任务节点,可以视为数据仓库中一个或多个计算链路上的起始节点。对于接收其他任务节点输入的数据表,然后根据接收的数据表执行计算,最后将计算得到的数据表输出给其他任务节点的任务节点,可以视为数据仓库中的一个或多个计算链路上的中间节点。对于接收其他任务节点输入的数据表,然后根据接收的数据表执行计算,最后将计算得到的数据表输出给计算结果需求方的任务节点,可以视为数据仓库中的一个或多个计算链路上的终止节点,某个计算链路上的终止节点输出的数据表可以视为该计算链路的计算结果。
在实际应用中,常常用“基线”的概念来说明对某个计算链路的计算结果的时限要求。基线等级越高,时限要求越严格。
在本说明书实施例中,将“异常修复手段不包括代码修改”定义为可自动修复条件。也就是说,对于任一异常任务节点,如果该异常任务节点所需的异常修复手段不涉及代码修改,那么,该异常任务节点就是可自动修复的。
在实施本方案之前,历史上采用现有的人工方式对各种异常任务节点进行修复会得到修复记录。在本说明书实施例中,可以基于所述修复记录,来分析一个或多个所述可自动修复条件的异常任务节点样本对应的异常特征与异常修复手段,设置若干包括异常特征与对应的修复手段的自动修复预案。
自动修复预案规定了具有什么异常特征的异常任务节点可以通过什么修复手段进行自动修复。自动修复程序可以基于自定修复预案对异常任务节点进行自动修复。
在本说明书实施例中,待管理的任务节点集合是指当前需要进行维护的任务节点集合。在实际应用中,待管理的任务节点集合不一定是稳定不变的,因此,可以周期性地获取最新的任务节点集合进行维护。
此外,也可以根据实际需要,随时重新确定待管理的任务节点集合进行维护。
S102:从所述任务节点集合中,筛选出异常任务节点。
在本说明书实施例中,如果任务节点本身具有异常报警功能,则可以将异常报警的任务节点确定为异常任务节点。
如果任务节点本身不具有异常报警功能,则可以从所述任务节点集合中,筛选出当前未完成计算的任务节点;从当前未完成计算的任务节点中筛选出满足预设异常条件的任务节点,作为异常任务节点。
其中,任务节点未完成计算,是指任务节点还没有输出其负责生产的数据表。在实际应用中,任务节点有运行周期,在一个运行周期内,任务节点通常只会执行一次计算,计算完成后,在该运行周期内,任务节点就会停止工作,等待下一个运行周期来临时,再开始执行下一次计算。一般而言,任务节点的运行周期是一天。
对于前述的步骤S100,可以每天都重新获取一次待管理的任务节点集合。
预设异常条件可以由人工根据经验进行预设。例如,对于任一未完成计算的任务节点,该任务节点符合预设异常条件,实际上可以是该当前未完成计算的任务节点正在计算且计算超时;或该当前未完成计算的任务节点计算失败;或该当前未完成计算的任务节点暂停计算。
考虑到通过遍历全部任务节点的方式来发现未完成计算的任务节点,效率较低。这是因为,由于任务节点间存在上下游关系,上游的任务节点将计算得到的数据表输出给下游的任务节点之后,下游的任务节点才会开始计算,如果对全部任务节点进行遍历,会遇到很多还没有开始计算的任务节点,浪费算力。
为此,本说明书实施例中,可以在执行步骤S102之前,根据所述任务节点集合中任务节点间的数据输入/输出关系,将各任务节点组成有向无环图(Directed AcyclicGraph,DAG),如图2所示,包括任务节点1~7,任务节点1是起始节点。
通过观察图2可以发现,某个计算任务节点可以向不止一个其他任务节点输出数据表,也可以接收不止一个其他任务节点输入的数据表。
在得到DAG之后,可以针对所述DAG中的每个起始节点,将该起始节点作为当前节点,并循环执行以下步骤,直至确定出当前未完成计算的节点:
判断该当前节点是否完成计算;
若是,则将该当前节点的下一个节点重新作为该当前节点;
若否,则将该当前节点确定为当前未完成计算的任务节点。
如此,针对DAG中示出的每个计算链路,按照该计算链路上的任务节点计算顺序来进行分析,当分析到未完成计算的任务节点时,说明计算进度暂时停留在该未完成计算的任务节点处,不必再往后分析了,该未完成计算的任务节点有可能是异常任务节点,而还没有开始计算的任务节点根本不涉及是否异常的问题。
S104:针对筛选出的每个异常任务节点,判断该异常任务节点是否符合所述可自动修复条件。
在实际应用中,不同企业、不同结构的数据仓库中的任务节点往往有不同的异常原因,因此,可以根据数据仓库的实际情况,总结出符合可自动修复条件的异常任务节点对应的异常特征。
例如,对于企业A的数据仓库而言,具有以下情况的异常任务节点往往不需要修改代码,是可以自动修复的:
情况1:该异常任务节点的运行日志中包含指定错误码集合中的至少一个错误码;
情况2:该异常任务节点的运行日志中包含表征计算延时的信息;
情况3:该异常任务节点的运行日志中包含表征存在数据值异常波动的信息(不符合数据质量的要求),并且数据值异常波动是由计划内业务事件引发的。
此处更详细地举例说明。
对于上述情况1,假设某个异常任务节点的运行日志包含以下内容:
“FAILED:ODPS-0123144:Fuxi job failed-WorkerRestart errCode:9,errMsg:SigKill(OOM),usually caused by OOM(out of memory)”。
该内容包含表示内存溢出异常的错误码,而这种错误一般可以通过重启节点来修复,是可以由机器自动修复的。
对于上述情况2,假设某个异常任务节点的运行日志包含以下内容:
“2019-04-26 08:30:47 M1_job_0:0/13/13[TERMINATED]
M2_job_0:0/11/11[TERMINATED] M3_job_0:0/1/1[TERMINATED]
M6_job_0:0/3/3[TERMINATED] M7_job_0:0/0/4[RUNNING]
M11_job_0:0/0/1843[RUNNING] R4_3_job_0:0/1/1[TERMINATED]
R8_7_job_0:0/0/1[RUNNING] R5_4_job_0:0/1/1[TERMINATED]
M9_8_job_0:0/0/88[RUNNING] J10_6_9_job_0:0/0/3[RUNNING]
J12_5_10_11_job_0:0/0/3[RUNNING] J13_2_12_job_0:0/0/3[RUNNING]
J14_1_13_job_0:0/0/13[RUNNING]
Signal handler called with signal 15”。
该内容说明该异常任务节点因为资源问题而长时间卡主,任务进度长时间未推荐,一般可以通过重启或者调整任务优先级的方式来修复,是可以由机器自动修复的。
对于情况3,假设某个异常任务节点的运行日志包含以下内容:
“2019-05-01 14:55:14INFO-+++++++++++++++++++DQC Check Data qualitycheck is not passed,the task blocking.+++++++++++++++++
execute result:
---------------------------------------
rule ID:191452
table name:alifin_dw.rkadm_agds_cust_pboc_ds
actual expression:pt=20190430000000
result:strong rule block
property:SQL任务表行数,1天波动检测
method name:table_count
where condition:
rule info:(warningThreshold:1.0% criticalThreshold:20.0%,actualthreshold:138.412292%)”。
该内容说明该异常任务节点产生的数据表中某些字段值相对于正常值的波动幅度较大,这种情况下,需要进一步考察此波动是否有合理解释。具体要考察该异常任务节点的上游节点产生的数据表中也有字段值有较大幅度波动,如果有,说明这可能并不是该异常任务节点本身的问题,此外,还可以考察此波动是否为计划内的业务事件引发的(例如,对于电商平台而言,这种计划内的业务事件可以是月度结算、促销事件),如果是计划内业务事件引发的,则说明此波动是暂时,并不是该异常任务节点本身的问题。
如果该异常任务节点产生的数据表中某些字段值相对于正常值的波动幅度较大,确有合理的解释,那么,一般可以直接将该异常任务节点置为计算完成(或计算成功),以进行自动修复。
S106:若该异常任务节点符合所述可自动修复条件,则根据该异常任务节点对应的异常特征确定匹配的自动修复预案,并基于匹配的自动修复预案对该任务节点进行异常修复。
需要说明的是,该异常任务节点对应的异常特征是从该异常任务节点的运行日志中获取的,如上述举例中的错误码、表征计算延时的信息、表征存在数据值波动异常的信息。
与该异常任务节点匹配的自动修复预案,是指包含该异常任务节点对应的异常特征的预案。
此外还需要说明的是,步骤S102~S106是针对待管理的任务节点集合的分析修复步骤。在实际应用中,可以周期性的重新获取待管理的节点集合,也可以针对一个待管理的节点集合,周期性的多次执行步骤S102-S106的步骤。
应当理解,由于在实际应用中,随着时间推移,各任务节点的运行状态会发生变化,例如在上午8点的时候,任务节点1刚开始计算,下午2点的时候,任务节点1已经处于完成计算状态,因此,周期性多次执行步骤S102-S106,才能及时发现新的节点异常,及时进行自动修复。
通过图1所示的方法,由于理论上代码修改操作之外的其他异常修复手段可以由程序自动执行,因此,可以自动将不需要进行代码修改的异常任务节点筛选出来,采用自动修复的方式。此外,可以基于满足所述可自动修复条件的异常任务节点样本对应的异常特征与异常修复手段,设置若干包括异常特征与对应的修复手段的自动修复预案。
通过本说明书实施例,对于实践中大量存在的无需通过代码修改进行异常修复的异常任务节点,可以无需人工介入,由程序基于这些异常任务节点的异常特征,自动匹配相应的自动修复预案来进行自动修复,提升了修复效率。
图3是本说明书实施例提供的一种自动修复异常任务节点的装置的结构示意图,将可自动修复条件定义为:异常修复手段不包括代码修改;并且,基于若干满足所述可自动修复条件的异常任务节点样本对应的异常特征与异常修复手段,设置若干包括异常特征与对应的修复手段的自动修复预案,所述装置包括:
确定模块301,确定待管理的任务节点集合;
执行模块302,执行以下分析修复步骤,包括:从所述任务节点集合中,筛选出异常任务节点;针对筛选出的每个异常任务节点,判断该异常任务节点是否符合所述可自动修复条件;若该异常任务节点符合所述可自动修复条件,则根据该异常任务节点对应的异常特征确定匹配的自动修复预案,并基于匹配的自动修复预案对该任务节点进行异常修复。
所述执行模块302,从所述任务节点集合中,筛选出当前未完成计算的任务节点;从当前未完成计算的任务节点中筛选出满足预设异常条件的任务节点,作为异常任务节点。
所述装置还包括:图生成模块303,在执行所述分析修复步骤之前,根据所述任务节点集合中任务节点间的数据输入/输出关系,将各任务节点组成有向无环图DAG;
所述执行模块302,针对所述DAG中的每个起始节点,将该起始节点作为当前节点,并循环执行以下步骤,直至确定出当前未完成计算的节点:判断该当前节点是否完成计算;若是,则将该当前节点的下一个节点重新作为该当前节点;若否,则将该当前节点确定为当前未完成计算的任务节点。
该当前未完成计算的任务节点符合所述预设异常条件,具体包括:
该当前未完成计算的任务节点正在计算且计算超时;或
该当前未完成计算的任务节点计算失败;或
该当前未完成计算的任务节点暂停计算。
符合可自动修复条件的异常任务节点对应的异常特征,具体包括:
该异常任务节点的运行日志中包含指定错误码集合中的至少一个错误码;或
该异常任务节点的运行日志中包含表征计算延时的信息;或
该异常任务节点的运行日志中包含表征存在数据值异常波动的信息,并且数据值异常波动是由计划内业务事件引发的。
所述确定模块301,周期性地重新确定待管理的任务节点集合。
所述执行模块302,周期性地执行所述分析修复步骤。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现图1所示的方法。
图4示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现图1所示的方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务设备,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的系统、方法、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。

Claims (15)

1.一种自动修复异常任务节点的方法,将可自动修复条件定义为:异常修复手段不包括代码修改;并且,基于若干满足所述可自动修复条件的异常任务节点样本对应的异常特征与异常修复手段,设置若干包括异常特征与对应的修复手段的自动修复预案,所述方法包括:
确定待管理的任务节点集合;
执行以下分析修复步骤,包括:
从所述任务节点集合中,筛选出异常任务节点;
针对筛选出的每个异常任务节点,判断该异常任务节点是否符合所述可自动修复条件;
若该异常任务节点符合所述可自动修复条件,则根据该异常任务节点对应的异常特征确定匹配的自动修复预案,并基于匹配的自动修复预案对该任务节点进行异常修复。
2.如权利要求1所述的方法,从所述任务节点集合中,筛选出异常任务节点,具体包括:
从所述任务节点集合中,筛选出当前未完成计算的任务节点;
从当前未完成计算的任务节点中筛选出满足预设异常条件的任务节点,作为异常任务节点。
3.如权利要求2所述的方法,在执行所述分析修复步骤之前,所述方法还包括:
根据所述任务节点集合中任务节点间的数据输入/输出关系,将各任务节点组成有向无环图DAG;
从所述任务节点集合中,筛选出当前未完成计算的任务节点,具体包括:
针对所述DAG中的每个起始节点,将该起始节点作为当前节点,并循环执行以下步骤,直至确定出当前未完成计算的节点:
判断该当前节点是否完成计算;
若是,则将该当前节点的下一个节点重新作为该当前节点;
若否,则将该当前节点确定为当前未完成计算的任务节点。
4.如权利要求2所述的方法,该当前未完成计算的任务节点符合所述预设异常条件,具体包括:
该当前未完成计算的任务节点正在计算且计算超时;或
该当前未完成计算的任务节点计算失败;或
该当前未完成计算的任务节点暂停计算。
5.如权利要求1所述的方法,符合可自动修复条件的异常任务节点对应的异常特征,具体包括:
该异常任务节点的运行日志中包含指定错误码集合中的至少一个错误码;或
该异常任务节点的运行日志中包含表征计算延时的信息;或
该异常任务节点的运行日志中包含表征存在数据值异常波动的信息,并且数据值异常波动是由计划内业务事件引发的。
6.如权利要求1所述的方法,确定待管理的任务节点集合,具体包括:
周期性地重新确定待管理的任务节点集合。
7.如权利要求1所述的方法,执行所述分析修复步骤,具体包括:
周期性地执行所述分析修复步骤。
8.一种自动修复异常任务节点的装置,将可自动修复条件定义为:异常修复手段不包括代码修改;并且,基于若干满足所述可自动修复条件的异常任务节点样本对应的异常特征与异常修复手段,设置若干包括异常特征与对应的修复手段的自动修复预案,所述装置包括:
确定模块,确定待管理的任务节点集合;
执行模块,执行以下分析修复步骤,包括:从所述任务节点集合中,筛选出异常任务节点;针对筛选出的每个异常任务节点,判断该异常任务节点是否符合所述可自动修复条件;若该异常任务节点符合所述可自动修复条件,则根据该异常任务节点对应的异常特征确定匹配的自动修复预案,并基于匹配的自动修复预案对该任务节点进行异常修复。
9.如权利要求8所述的装置,所述执行模块,从所述任务节点集合中,筛选出当前未完成计算的任务节点;从当前未完成计算的任务节点中筛选出满足预设异常条件的任务节点,作为异常任务节点。
10.如权利要求9所述的装置,所述装置还包括:图生成模块,在执行所述分析修复步骤之前,根据所述任务节点集合中任务节点间的数据输入/输出关系,将各任务节点组成有向无环图DAG;
所述执行模块,针对所述DAG中的每个起始节点,将该起始节点作为当前节点,并循环执行以下步骤,直至确定出当前未完成计算的节点:判断该当前节点是否完成计算;若是,则将该当前节点的下一个节点重新作为该当前节点;若否,则将该当前节点确定为当前未完成计算的任务节点。
11.如权利要求9所述的装置,该当前未完成计算的任务节点符合所述预设异常条件,具体包括:
该当前未完成计算的任务节点正在计算且计算超时;或
该当前未完成计算的任务节点计算失败;或
该当前未完成计算的任务节点暂停计算。
12.如权利要求8所述的装置,符合可自动修复条件的异常任务节点对应的异常特征,具体包括:
该异常任务节点的运行日志中包含指定错误码集合中的至少一个错误码;或
该异常任务节点的运行日志中包含表征计算延时的信息;或
该异常任务节点的运行日志中包含表征存在数据值异常波动的信息,并且数据值异常波动是由计划内业务事件引发的。
13.如权利要求8所述的装置,所述确定模块,周期性地重新确定待管理的任务节点集合。
14.如权利要求8所述的装置,所述执行模块,周期性地执行所述分析修复步骤。
15.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1-7任一项所述的方法。
CN202010307974.XA 2020-04-17 2020-04-17 一种自动修复异常任务节点的方法、装置及设备 Pending CN111522680A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010307974.XA CN111522680A (zh) 2020-04-17 2020-04-17 一种自动修复异常任务节点的方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010307974.XA CN111522680A (zh) 2020-04-17 2020-04-17 一种自动修复异常任务节点的方法、装置及设备

Publications (1)

Publication Number Publication Date
CN111522680A true CN111522680A (zh) 2020-08-11

Family

ID=71903132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010307974.XA Pending CN111522680A (zh) 2020-04-17 2020-04-17 一种自动修复异常任务节点的方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111522680A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111817903A (zh) * 2020-09-02 2020-10-23 湖南双菱电子科技有限公司 一种数字信号传输处理设备链路故障分析与报警方法
CN113254253A (zh) * 2021-07-14 2021-08-13 云智慧(北京)科技有限公司 一种数据处理方法、系统及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933693A (zh) * 2017-03-15 2017-07-07 郑州云海信息技术有限公司 一种数据库集群节点故障自动修复方法及系统
CN108984284A (zh) * 2018-06-26 2018-12-11 杭州比智科技有限公司 基于离线计算平台的dag任务调度方法及装置
CN109144762A (zh) * 2018-07-19 2019-01-04 厦门集微科技有限公司 一种修复异常调度任务的处理方法及装置
CN109522287A (zh) * 2018-09-18 2019-03-26 平安科技(深圳)有限公司 分布式文件存储集群的监控方法、系统、设备及介质
CN110245154A (zh) * 2019-05-20 2019-09-17 平安科技(深圳)有限公司 多路链接异常处理方法以及相关设备
CN110413434A (zh) * 2019-07-08 2019-11-05 合肥移瑞通信技术有限公司 服务器的异常识别方法及装置
CN110597695A (zh) * 2019-08-29 2019-12-20 浙江大搜车软件技术有限公司 报警方法、装置、计算机设备和可读存储介质
CN110837457A (zh) * 2019-11-19 2020-02-25 支付宝(杭州)信息技术有限公司 任务管理方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933693A (zh) * 2017-03-15 2017-07-07 郑州云海信息技术有限公司 一种数据库集群节点故障自动修复方法及系统
CN108984284A (zh) * 2018-06-26 2018-12-11 杭州比智科技有限公司 基于离线计算平台的dag任务调度方法及装置
CN109144762A (zh) * 2018-07-19 2019-01-04 厦门集微科技有限公司 一种修复异常调度任务的处理方法及装置
CN109522287A (zh) * 2018-09-18 2019-03-26 平安科技(深圳)有限公司 分布式文件存储集群的监控方法、系统、设备及介质
CN110245154A (zh) * 2019-05-20 2019-09-17 平安科技(深圳)有限公司 多路链接异常处理方法以及相关设备
CN110413434A (zh) * 2019-07-08 2019-11-05 合肥移瑞通信技术有限公司 服务器的异常识别方法及装置
CN110597695A (zh) * 2019-08-29 2019-12-20 浙江大搜车软件技术有限公司 报警方法、装置、计算机设备和可读存储介质
CN110837457A (zh) * 2019-11-19 2020-02-25 支付宝(杭州)信息技术有限公司 任务管理方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111817903A (zh) * 2020-09-02 2020-10-23 湖南双菱电子科技有限公司 一种数字信号传输处理设备链路故障分析与报警方法
CN111817903B (zh) * 2020-09-02 2020-12-01 湖南双菱电子科技有限公司 一种数字信号传输处理设备链路故障分析与报警方法
CN113254253A (zh) * 2021-07-14 2021-08-13 云智慧(北京)科技有限公司 一种数据处理方法、系统及设备
CN113254253B (zh) * 2021-07-14 2021-11-02 云智慧(北京)科技有限公司 一种数据处理方法、系统及设备

Similar Documents

Publication Publication Date Title
US11163731B1 (en) Autobuild log anomaly detection methods and systems
CN106656536B (zh) 一种用于处理服务调用信息的方法与设备
CN106547635B (zh) 一种作业的操作重试方法和装置
TW201941058A (zh) 異常檢測方法及裝置
US9880897B2 (en) Failure mode identification and reporting
CN113227978B (zh) 计算机处理管线中的自动异常检测
CN111522680A (zh) 一种自动修复异常任务节点的方法、装置及设备
CN111488289A (zh) 一种故障定位方法、装置和设备
CN110855484B (zh) 自动检测业务量变化的方法、系统、电子设备和存储介质
CN111338959B (zh) 一种数据处理方法及相关设备
CN114500249B (zh) 一种根因定位方法和装置
CN115033412A (zh) 一种任务日志归并方法和装置
CN115048311A (zh) 测试环境的监测方法、装置、电子设备及可读存储介质
CN113835916A (zh) 一种基于Ambari大数据平台的告警方法、系统及设备
CN115495330A (zh) 应用页面加载异常的处理方法、装置、终端及介质
CN108255667B (zh) 一种业务监测方法、装置以及电子设备
CN108712284B (zh) 一种故障业务的定位方法、装置、及业务服务器
CN117667362B (zh) 一种流程引擎调度方法、系统、设备及可读介质
CN112200536B (zh) 一种测试例监控管理方法、终端设备及存储介质
CN115982143A (zh) 一种数据质量预警方法、系统、存储介质及计算设备
WO2023207213A1 (zh) 数据处理方法及装置
CN111258908A (zh) 软件分析方法及装置
CN113568818A (zh) 一种用于持续集成软件平台的报警方法、系统和计算机设备
CN116881155A (zh) 持续集成测试方法、装置和系统、计算设备
CN113900938A (zh) 一种大数据处理任务的故障处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200811