CN108009037A - 批处理作业故障处理方法、装置、存储介质及设备 - Google Patents

批处理作业故障处理方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN108009037A
CN108009037A CN201711188235.8A CN201711188235A CN108009037A CN 108009037 A CN108009037 A CN 108009037A CN 201711188235 A CN201711188235 A CN 201711188235A CN 108009037 A CN108009037 A CN 108009037A
Authority
CN
China
Prior art keywords
solution
failure
fault
batch processing
failure message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711188235.8A
Other languages
English (en)
Inventor
张阳
黄鸿滨
蔡震
陈亚坤
董潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN201711188235.8A priority Critical patent/CN108009037A/zh
Publication of CN108009037A publication Critical patent/CN108009037A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种批处理作业故障处理方法、装置、存储介质及设备,该方法包括:针对批处理作业发生故障生成故障消息;根据故障消息中的错误码调阅预先构建的故障错误码、故障分类及解决方案的对应关系,查找发生故障的解决方案,其中,故障消息中的错误码和对应关系中的故障错误码依据相同规则生成;利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障。本发明能够提高批处理作业故障处理的效率、降低故障维护成本和出错风险。

Description

批处理作业故障处理方法、装置、存储介质及设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种批处理作业故障处理方法、装置、存储介质及设备。
背景技术
大型机(MAINFRAME,大型主机),例如IBM的Z系列,使用专用的指令集、操作系统和应用软件,其I/O能力、非数值计算能力、稳定性、安全性较微型计算机均具有较大优势,主要用于商业领域,例如,银行、电信等。
在大型机平台可以运行完成包含特定功能指令集合的批处理作业。主机平台下批处理作业被调起后,在后台自动运行,无需人工干预。在批处理作业自动运行过程中,由于操作系统、文件系统、数据库系统、应用数据等原因会造成异常中断的故障。如果发生故障,则批处理作业会被挂起,需要人工干预来解决故障,并再次调起批量处理作业。
目前,大型机系统批量作业发生故障时,一般具体解决流程是:故障发生后,系统操作员联系维护工程师,维护工程师到达现场,进行故障现场勘察,依据线索,根据人脑知识积累及以往维护经验,得出故障解决方法。对于复杂故障,维护工程师根据自身知识及经验无法归纳出解决方法时,联系各领域专家继续分析并解决。
故障解决时效会影响商业企业对外服务。所以一般企业对故障的解决时效要求较高,通常要求在一定的时间窗口内解决故障,否则会对商业企业的客户满意度及声誉造成负面影响。同时对故障解决的正确性要求较高。当维护工程师由于知识经验不足而采用了错误的方案,会存在商业事故的发生风险。
总之,现有实现方案存在诸多缺点,例如:对维护人员及相关领域专家知识经验要求较高,维护成本很高;依赖于维护工程师及领域专家的技能,处理过程需要大量沟通和确认,时效性差,影响批量窗口时长;人工操作失误,易造成商业事故。
发明内容
本发明提供一种批处理作业故障处理方法、装置、存储介质及设备,以降低故障维护成本和出错风险。
本发明实施例提供一种批处理作业故障处理方法,包括:针对批处理作业发生故障生成故障消息;根据故障消息中的错误码调阅预先构建的故障错误码、故障分类及解决方案的对应关系,查找发生故障的解决方案,其中,故障消息中的错误码和对应关系中的故障错误码依据相同规则生成;利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障。
一个实施例中,根据故障消息中的错误码调阅预先构建的故障错误码、故障分类及解决方案的对应关系,查找发生故障的解决方案之前,还包括:将故障消息保存在故障队列中,其中,故障消息的数据结构中包括错误码和现场报错信息,还包括故障ID、发生日期、发生时间及优先级中的一个或多个;从故障队列读取故障消息,用于调阅对应关系;利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障之前,还包括:将查找得到的解决方案保存在自动处理队列中;从自动处理队列读取查找得到的解决方案,用于自动处理发生故障。
一个实施例中,根据故障消息中的错误码调阅预先构建的故障错误码、故障分类及解决方案的对应关系,查找发生故障的解决方案,包括:根据故障消息中的错误码调阅对应关系中的故障错误码和故障分类的关系,查找得到故障消息中的错误码所属故障类别;根据错误码所属故障类别调阅对应关系中故障分类和解决方案的关系,查找得到错误码所属故障类别对应的解决方案。
一个实施例中,错误码所属故障类别包括多个不同粗细层级的分类,利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障,包括:优先利用查找得到的最细层级的分类对应的解决方案和故障消息中的现场报错信息自动处理发生故障。
一个实施例中,还包括:若没有查找到发生故障的解决方案,将发生故障放入人工处理队列,并生成人工解决故障的提示信息。
一个实施例中,利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障,包括:读取故障消息中的现场报错信息,得到发生故障的批处理作业名称,并根据作业名称获取批处理作业信息;利用获取的批处理作业信息进行作业重提。
一个实施例中,读取故障消息中的现场报错信息,得到发生故障的批处理作业名称,并根据作业名称获取批处理作业信息之前,还包括:根据调阅对应关系的报文模板生成修复脚本,并通过执行修复脚本自动修复发生故障的数据。
本发明实施例还提供一种批处理作业故障处理装置,包括:故障抛出单元,用于:针对批处理作业发生故障生成故障消息;故障分析单元,用于:根据故障消息中的错误码调阅预先构建的故障错误码、故障分类及解决方案的对应关系,查找发生故障的解决方案,其中,故障消息中的错误码和对应关系中的故障错误码依据相同规则生成;故障处理单元,用于:利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述各实施例所述方法的步骤。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述各实施例所述方法的步骤。
本发明的批处理作业故障处理方法、装置、存储介质及设备,针对批处理作业发生故障生成故障消息,根据故障消息中的错误码调阅预先构建的对应关系,查找发生故障的解决方案,并利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障,实现了故障信息自动采集、自动分析及自动处理,能够简化维护工作,降低维护成本,提高运行效益,降低人为操作风险,与人工处理相比,效率更高,系统中断时间更短,使得系统更加友好,故障对客户的影响更小。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例的批处理作业故障处理方法的流程示意图;
图2是本发明另一实施例的批处理作业故障处理方法的流程示意图;
图3是本发明一实施例中查找发生故障的解决方案的方法流程示意图;
图4是本发明另一实施例的批处理作业故障处理方法的流程示意图;
图5是本发明一实施例中利用查找得到的解决方案和现场报错信息自动处理发生故障的方法流程示意图;
图6是本发明另一实施例中利用查找得到的解决方案和现场报错信息自动处理发生故障的方法流程示意图;
图7是本发明一实施例的批处理作业故障处理方法的流程示意图;
图8是本发明一实施例的批处理作业故障处理装置的结构示意图;
图9是本发明另一实施例的批处理作业故障处理装置的结构示意图;
图10是本发明一实施例中故障分析单元320的结构示意图;
图11是本发明另一实施例的批处理作业故障处理装置的结构示意图;
图12是本发明一实施例中故障处理单元的结构示意图;
图13是本发明另一实施例中故障处理单元的结构示意图;
图14是本发明一实施例的计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
图1是本发明一实施例的批处理作业故障处理方法的流程示意图。如图1所示,本实施例的批处理作业故障处理方法,可包括:
步骤S110:针对批处理作业发生故障生成故障消息;
步骤S120:根据故障消息中的错误码调阅预先构建的故障错误码、故障分类及解决方案的对应关系,查找发生故障的解决方案,其中,故障消息中的错误码和对应关系中的故障错误码依据相同规则生成;
步骤S130:利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障。
可以通过批处理作业系统中增加一些程序代码,使得在批处理作业发生故障时生成故障消息。故障消息中的错误码根据设定规则生成。实施例中,故障错误码、故障分类及解决方案的对应关系中的故障分类可以按多种不同粗细进行分类,例如粗分大类、细化分中类、再细化分小类等。该设定规则可反映不同粗细层级的分类。实施例中,故障错误码、故障分类及解决方案的对应关系可以利用一个或多个关系实现,例如,可以通过故障错误码与故障分类的关系和故障分类与解决方案的关系实现。该对应关系中可以包含各种故障的解决方案,该些解决方案可以实现设定,例如可以作业重提,或先数据修复再作业重提。现场报错信息可以包含批处理作业的故障点信息,解决方案可以利用现场报错信息找到故障点并进行相应处理。
本实施例中,针对批处理作业发生故障生成故障消息,根据故障消息中的错误码调阅预先构建的对应关系,查找发生故障的解决方案,并利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障,实现了故障信息自动采集、自动分析及自动处理,能够简化维护工作,降低维护成本,提高运行效益,降低人为操作风险,与人工处理相比,效率更高,系统中断时间更短,使得系统更加友好,故障对客户的影响更小。
图2是本发明另一实施例的批处理作业故障处理方法的流程示意图。如图2所示,图1所示的批处理作业故障处理方法,在步骤S120之前,即根据故障消息中的错误码调阅预先构建的故障错误码、故障分类及解决方案的对应关系,查找发生故障的解决方案之前,还可包括:
步骤S140:将故障消息保存在故障队列中,其中,故障消息的数据结构中包括错误码和现场报错信息,还包括故障ID、发生日期、发生时间及优先级中的一个或多个;
步骤S150:从故障队列读取故障消息,用于调阅对应关系;
在步骤S130之前,即利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障之前,还可包括:
步骤S160:将查找得到的解决方案保存在自动处理队列中;
步骤S170:从自动处理队列读取查找得到的解决方案,用于自动处理发生故障。
本实施例中,通过将故障消息保存在故障队列中,等待查找解决方案,以及将查找得到的解决方案保存在自动处理队列中,等待故障处理,可以实现对批处理作业中大量故障进行异步处理,可以对故障进行统一处理,避免在各个批处理作业中分别进行故障处理,导致占用过多计算资源。
图3是本发明一实施例中查找发生故障的解决方案的方法流程示意图。如图3所示,在上述步骤S120中,根据故障消息中的错误码调阅预先构建的故障错误码、故障分类及解决方案的对应关系,查找发生故障的解决方案的方法,可包括:
步骤S121:根据故障消息中的错误码调阅对应关系中的故障错误码和故障分类的关系,查找得到故障消息中的错误码所属故障类别;
步骤S122:根据错误码所属故障类别调阅对应关系中故障分类和解决方案的关系,查找得到错误码所属故障类别对应的解决方案。
本实施例中,现根据错误码查找到故障的错误码所属故障类别,再根据故障类别找到相应的解决方案,分两步查找解决方案,易于实现,不易出错。与在故障错误码-故障分类-解决方案的关系中一步查找解决方案相比,可以避免关系冗余。
在上述步骤S121和步骤S122中,错误码所属故障类别包括多个不同粗细层级的分类,例如,大类、中类及小类。大类可包括系统错误和应用错误,中类可包括操作系统错误、文件系统错误及数据库系统错误(系统错误)和程序调用错误、系统参数错误及用户数据错误(应用错误),小类可包括文件不存在、文件打开错误、文件读取错误、文件写入错误及文件关闭错误等(文件系统错误)和数据库联机错误、资源不可用、事务死锁、记录不存在及记录键值重复等(数据库系统错误)。
实施例中,错误码所属故障类别包括多个不同粗细层级的分类,上述步骤S130,利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障,可包括:优先利用查找得到的最细层级的分类对应的解决方案和故障消息中的现场报错信息自动处理发生故障。本实施例中,如能够查找得到多个层级的分类对应的解决方案,例如查找得到大类、中类及小类对应的解决方案,则优先使用最细层级的分类,例如小类,对应的解决方案处理发生故障,如果不能解决发生故障,则可利用次细层级的分类,例如中类,对应的解决方案处理发生故障。以此可以尽可能使用更具针对性解决方案处理故障,同时通过退而求其次的查找解决方案的方式可以保证尽可能自动处理故障。
图4是本发明另一实施例的批处理作业故障处理方法的流程示意图。如图4所示,图1所示的批处理作业故障处理方法,还可包括:
步骤S180:若没有查找到发生故障的解决方案,将发生故障放入人工处理队列,并生成人工解决故障的提示信息。
本实施例中,在无法自动处理故障的情况下,提示人工处理故障,可以保证所有故障都可以被处理。
图5是本发明一实施例中利用查找得到的解决方案和现场报错信息自动处理发生故障的方法流程示意图。如图5所示,在上述步骤S130中,利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障,可包括:
步骤S131:读取故障消息中的现场报错信息,得到发生故障的批处理作业名称,并根据作业名称获取批处理作业信息;
步骤S132:利用获取的批处理作业信息进行作业重提。
本实施例中,读取现场报错信息,在其中找出发生故障的批处理作业名称发生故障的批处理作业名称,并可通过脚本克隆一份相同的作业,可采用应用程序调用系统作业调度工具API(应用程序接口)的方式,实现原作业自动直接重提。
图6是本发明另一实施例中利用查找得到的解决方案和现场报错信息自动处理发生故障的方法流程示意图。如图6所示,在上述步骤S131之前,即读取故障消息中的现场报错信息,得到发生故障的批处理作业名称,并根据作业名称获取批处理作业信息之前,还可包括:
步骤S133:根据调阅对应关系的报文模板生成修复脚本,并通过执行修复脚本自动修复发生故障的数据。
本实施例中,根据调阅报文模板生成修复脚本,可自动调用数据库API进行数据修复,然后再进行重提作业。
实施例中,批处理作业故障处理方法可包括故障抛出、故障分析及故障处理三个过程。故障抛出:批量作业发生故障时,将现场信息写入故障消息队列,该过程中,捕获故障信息,形成故障消息队列;故障分析:读取故障消息队列,依据故障线索,计算解决方案,常见的解决方法为数据修复、重提作业,该过程中,根据故障消息队列,逐故障计算解决方案,形成故障待处理队列;故障处理:根据解决方案,自动触发数据修复,并自动触发作业重提,该过程中,故障处理模块,依据解决方案触发自动处理。
实施例中,可以通过改造应用模块,使得当作业异常中断时,将故障信息写入消息队列;可以针对不同故障,预先开发应用代码,实现数据修复和故障自动处理;可以搭建自动处理作业流程,实现自动触发作业。
图7是本发明一实施例的批处理作业故障处理方法的流程示意图。如图7所示,本实施例的批处理作业故障处理方法,可包括如下过程:
步骤S210:故障抛出:
批量作业发生故障时,将故障现场信息写入故障消息队列Queue_1;
步骤S220:故障分析:
读取故障消息队列Queue_1,收集故障信息,判断是否可以自动处理,若可以自动处理,则分析、计算形成故障处理方法,生成故障待处理队列Queue_2;若无法自动处理,则生成故障待人工处理队列Queue_3,后续人工处理;
步骤S230:故障处理:
读取待处理队列Queue_2,根据处理方法,自动处理故障,可主要包括数据修复(M1)和自动触发重提作业(M2)两种方法。
下面以具体实施例说明本发明实施:
步骤1:故障抛出。
在批量作业正常处理过程中,当发生故障时,将故障消息保存在故障队列Queue_1中。实施例中,故障消息的数据结构可包括故障ID、发生日期、发生时间、错误码、优先级、现场报错信息等,故障消息的数据结构如表1所示。
表1数据结构示例
步骤2:故障分析。
a.维护故障错误码分类关系及解决方案。实施例中,可将各粗细层级分类对应的解决方案保存在内存中,例如,将每种错误码对应的大类、中类、小类及解决方法通过代码方式固化到系统内存中,供故障发生时调阅。故障分析时,可通过脚本调阅错误码分类关系及解决方案,形成调阅报文N0。
b.读取故障队列Queue_1,通过调阅错误码分类关系,对故障信息做分类;
b.1先粗分大类,例如,系统错误E1和应用错误E2;
b.2再逐步细化分中类,例如系统错误E1可分为操作系统错误E11、文件系统错误E12、数据库系统错误E13等;应用错误E2可分为程序调用错误E21、系统参数错误E22、用户数据错误E23等;
b.3再细化分小类,例如,文件系统错误E12可以细分为文件不存在E121、文件打开错误E122、文件读取错误E123、文件写入错误E124、文件关闭错误E125等;数据库系统错误E13可以分为数据库联机错误E131、资源不可用E132、事务死锁E133、记录不存在E134、记录键值重复E135等;操作系统错误E11可分为E111空间分配不足、E112数组越界、E113内存溢出、E114数值计算例外等;程序调用错误E21可分为E211程序调用码非法、E212输入区接口赋值错误、E213父、子程序接口长度不匹配、E214输出区接口赋值错误等;系统参数错误E22可分为E221参数设置越界、E222参数不存在、E223参数取值非法、E224参数取值业务含义不清晰等;用户数据错误E23可分为E231用户数据不存在、E232用户数据取值非法、E233用户数据歧义、E234用户数据序列化错误等;
c.根据已经计算出的故障分类,在内存中调阅故障分类与解决方法对应关系,若根据故障分类可以调阅到自动处理方法,则认定此故障可以自动解决并计算解决方案,同时将故障及解决方案放入待自动处理队列Queue_2,若无法调阅到自动处理方法,则将故障放入待人工处理队列Queue_3,并提示人工解决。
实施例中,待自动处理队列的数据结构可包括故障ID和相应的解决方案。待人工处理队列可包括故障ID和相应的解决建议。待自动处理队列Queue_2的数据结构可如表2所示。待人工处理队列的数据结构可如表3所示。
表2待自动处理队列数据结构示例
表3待人工处理队列数据结构示例
步骤3:故障处理。
读取待自动处理队列Queue_2,可依据故障ID及解决方法,对于待处理队列Q中故障按时间顺序自动处理,一般可包括两种情况(可择一实施):
情况1:直接重提作业(方法M2)。
此种情况下,读取故障队列Queue_1中的故障现场报错信息,在其中找到出错作业名称,通过脚本克隆出一份相同的作业,采用应用程序调用系统作业调度工具API的方式,实现原作业自动重提。
实施例中,批处理作业故障处理方法是在大型机平台下进行的。上述步骤S110的具体实施方式可以包括:大型机系统可通过作业调度工具来控制日常批处理作业的运行,当批处理作业报错时,可以通过作业调度工具对应节点收集故障错误并提示错误信息,同时可置节点状态为“报错”,从而生成故障消息。
实施例中,获取处理方法(解决方案)后,在上述步骤S130中,可调用应用程序接口API,并由API控制作业,实现以下过程(可对应图5所示方法的具体实施方式):
A.调用应用程序接口API,获取报错作业(发生故障的作业)在作业调度工具中的信息,包括作业组编号、作业组名称、作业编号、作业名称、作业组开始运行时间、作业组结束运行时间、作业实际执行时间等;
B.在作业调度工具中获取到上述在作业调度工具中的信息后,使用该些信息重新计算作业组开始运行时间、作业组结束运行时间及作业实际执行时间,并通过应用程序接口API通知作业调度工具,使得该报错作业在作业调度工具中被重新运行,并将节点状态置为“已重提”;
C.通知作业调度工具,使作业调度工具自动抓取作业重新运行的结果,如果作业运行成功,则可将节点状态置为“成功”,否则可将节点状态置为“报错”,等待再次自动重提。
情况2:先自动修复数据(方法M1),然后自动重提作业(方法M2)。
此种情况下,可根据调阅报文N0中模板生成修复脚本,自动调用数据库应用程序接口API进行数据修复,然后可利用同情况1的方法,直接重提作业。
实施例中,当作业被自动重提后,若仍然失败,则可再次按照上述步骤1~步骤3自动处理,直到到达最大自动处理次数后,自动生成人工处理通知消息。最大处理次数可为应用参数,可以根据应用系统实际情况个性化设置,例如可以设置为10(可对应图6所示方法的具体实施方式)。
大型商业系统除了前台联机实现其功能外,还有很多功能通过后台批处理作业方式实现。只要存在批处理作业的执行,就不可避免的会遇到故障。而故障的出现,无疑会增加运维开销,影响系统的正确性与稳定性。作为运维来讲,一是要在故障发生时快速高效反应,同时还是要尽力保证正确解决故障,避免次生故障发生。因此,就需要在故障发生时快速、有效的出具解决方案并正确实施,保障系统运行安全和稳定。
本发明实施例的方法,首先,在故障发生时自动记录故障信息,其次,通过自动故障分析,针对不同故障计算可行的处理方法,最后,据此处理方法实现故障自动处理,通过自动进行故障分析和故障解决,能够提升故障分析处理的准确性,降低系统运营风险,降低运维成本,具有以下优点:
A.易于实施,各模块原理不复杂,编写容易,实施成本低。
B.可复用和可移植,本自动处理架构可在各商业系统中使用,并可在不同操作系统平台间移植。
批量作业故障自动处理方法由两部分组成,一是高级编程语言,实现故障抛出、分析、处理功能,跨平台移植时只需使用目标平台的语言环境编译器重新编译生成可执行代码;二是脚本语言,用于高级语言代码调度,不同平台需要进行脚本转换,例如大型机平台使用JCL调度程序,开放平台/X86平台使用SHELL调度程序,若由主机平台迁移至开放/X86平台,则需要将JCL转换为相同功能的SHELL。
C.提升稳定性与正确性,系统自动计算解决方案并实现故障自动处理,降低人为操作风险。
D.增强可维护性,自动采集故障信息,自动分析处理,维护工作变简单,维护成本降低,提高运行效益。
E.提升可用性与易用性,故障发生后系统自动分析处理,较人工处理效率更高,系统中断时间更短,使得系统更加友好,对客户的影响更小。
基于与图1所示的批处理作业故障处理方法相同的发明构思,本申请实施例还提供了一种批处理作业故障处理装置,如下面实施例所述。由于该批处理作业故障处理装置解决问题的原理与批处理作业故障处理方法相似,因此该批处理作业故障处理装置的实施可以参见批处理作业故障处理方法的实施,重复之处不再赘述。
图8是本发明一实施例的批处理作业故障处理装置的结构示意图。如图8所示,本实施例的批处理作业故障处理装置,可包括:故障抛出单元310、故障分析单元320及故障处理单元330,上述各单元顺序连接。
故障抛出单元310,用于:针对批处理作业发生故障生成故障消息;
故障分析单元320,用于:根据故障消息中的错误码调阅预先构建的故障错误码、故障分类及解决方案的对应关系,查找发生故障的解决方案,其中,故障消息中的错误码和对应关系中的故障错误码依据相同规则生成;
故障处理单元330,用于:利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障。
图9是本发明另一实施例的批处理作业故障处理装置的结构示意图。如图9所示,图8所示的批处理作业故障处理装置,还可包括:故障队列生成单元340和故障消息读取单元350相互连接,并连接于故障抛出单元310和故障分析单元320之间。自动处理队列生成单元360和解决方案读取单元370相互连接,并连接于故障分析单元320和故障处理单元330之间。
故障队列生成单元340,用于:将故障消息保存在故障队列中,其中,故障消息的数据结构中包括错误码和现场报错信息,还包括故障ID、发生日期、发生时间及优先级中的一个或多个;
故障消息读取单元350,用于:从故障队列读取故障消息,用于调阅对应关系;
自动处理队列生成单元360,用于:将查找得到的解决方案保存在自动处理队列中;
解决方案读取单元370,用于:从自动处理队列读取查找得到的解决方案,用于自动处理发生故障。
图10是本发明一实施例中故障分析单元320的结构示意图。如图10所示,故障分析单元320,可包括:故障类别确定模块321和解决方案确定模块322,二者相互连接。
故障类别确定模块321,用于:根据故障消息中的错误码调阅对应关系中的故障错误码和故障分类的关系,查找得到故障消息中的错误码所属故障类别;
解决方案确定模块322,用于:根据错误码所属故障类别调阅对应关系中故障分类和解决方案的关系,查找得到错误码所属故障类别对应的解决方案。
实施例中,故障处理单元330,可包括:优先利用查找得到的最细层级的分类对应的解决方案和故障消息中的现场报错信息自动处理发生故障。
图11是本发明另一实施例的批处理作业故障处理装置的结构示意图。如图11所示,图8所示的批处理作业故障处理装置,还可包括:人工处理队列生成单元380,与故障分析单元320连接。
人工处理队列生成单元380,用于:若没有查找到发生故障的解决方案,将发生故障放入人工处理队列,并生成人工解决故障的提示信息。
图12是本发明一实施例中故障处理单元的结构示意图。如图12所示,故障处理单元330,可包括:批处理作业信息获取模块331和作业重提模块332,二者相互连接。
批处理作业信息获取模块331,用于:读取故障消息中的现场报错信息,得到发生故障的批处理作业名称,并根据作业名称获取批处理作业信息;
作业重提模块332,用于:利用获取的批处理作业信息进行作业重提。
图13是本发明另一实施例中故障处理单元的结构示意图。如图13所示,图12所示的故障处理单元330,还可包括:自动修复模块333,与批处理作业信息获取模块331连接。
自动修复模块333,用于:根据调阅对应关系的报文模板生成修复脚本,并通过执行修复脚本自动修复发生故障的数据。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述各实施例所述方法的步骤。
本发明实施例还提供一种计算机设备,如图14所示,计算机设备400可包括存储器410、处理器420及存储在存储器410上并可在处理器420上运行的计算机程序,所述处理器420执行所述程序时实现上述各实施例所述方法的步骤。
综上所述,本发明实施例的批处理作业故障处理方法、装置、存储介质及设备,针对批处理作业发生故障生成故障消息,根据故障消息中的错误码调阅预先构建的对应关系,查找发生故障的解决方案,并利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障,实现了故障信息自动采集、自动分析及自动处理,能够简化维护工作,降低维护成本,提高运行效益,降低人为操作风险,与人工处理相比,效率更高,系统中断时间更短,使得系统更加友好,故障对客户的影响更小。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种批处理作业故障处理方法,其特征在于,包括:
针对批处理作业发生故障生成故障消息;
根据故障消息中的错误码调阅预先构建的故障错误码、故障分类及解决方案的对应关系,查找发生故障的解决方案,其中,故障消息中的错误码和对应关系中的故障错误码依据相同规则生成;
利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障。
2.如权利要求1所述的批处理作业故障处理方法,其特征在于,
根据故障消息中的错误码调阅预先构建的故障错误码、故障分类及解决方案的对应关系,查找发生故障的解决方案之前,还包括:
将故障消息保存在故障队列中,其中,故障消息的数据结构中包括错误码和现场报错信息,还包括故障ID、发生日期、发生时间及优先级中的一个或多个;
从故障队列读取故障消息,用于调阅对应关系;
利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障之前,还包括:
将查找得到的解决方案保存在自动处理队列中;
从自动处理队列读取查找得到的解决方案,用于自动处理发生故障。
3.如权利要求1所述的批处理作业故障处理方法,其特征在于,根据故障消息中的错误码调阅预先构建的故障错误码、故障分类及解决方案的对应关系,查找发生故障的解决方案,包括:
根据故障消息中的错误码调阅对应关系中的故障错误码和故障分类的关系,查找得到故障消息中的错误码所属故障类别;
根据错误码所属故障类别调阅对应关系中故障分类和解决方案的关系,查找得到错误码所属故障类别对应的解决方案。
4.如权利要求3所述的批处理作业故障处理方法,其特征在于,错误码所属故障类别包括多个不同粗细层级的分类,利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障,包括:
优先利用查找得到的最细层级的分类对应的解决方案和故障消息中的现场报错信息自动处理发生故障。
5.如权利要求1所述的批处理作业故障处理方法,其特征在于,还包括:
若没有查找到发生故障的解决方案,将发生故障放入人工处理队列,并生成人工解决故障的提示信息。
6.如权利要求1所述的批处理作业故障处理方法,其特征在于,利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障,包括:
读取故障消息中的现场报错信息,得到发生故障的批处理作业名称,并根据作业名称获取批处理作业信息;
利用获取的批处理作业信息进行作业重提。
7.如权利要求6所述的批处理作业故障处理方法,其特征在于,读取故障消息中的现场报错信息,得到发生故障的批处理作业名称,并根据作业名称获取批处理作业信息之前,还包括:
根据调阅对应关系的报文模板生成修复脚本,并通过执行修复脚本自动修复发生故障的数据。
8.一种批处理作业故障处理装置,其特征在于,包括:
故障抛出单元,用于:针对批处理作业发生故障生成故障消息;
故障分析单元,用于:根据故障消息中的错误码调阅预先构建的故障错误码、故障分类及解决方案的对应关系,查找发生故障的解决方案,其中,故障消息中的错误码和对应关系中的故障错误码依据相同规则生成;
故障处理单元,用于:利用查找得到的解决方案和故障消息中的现场报错信息自动处理发生故障。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7所述方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7所述方法的步骤。
CN201711188235.8A 2017-11-24 2017-11-24 批处理作业故障处理方法、装置、存储介质及设备 Pending CN108009037A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711188235.8A CN108009037A (zh) 2017-11-24 2017-11-24 批处理作业故障处理方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711188235.8A CN108009037A (zh) 2017-11-24 2017-11-24 批处理作业故障处理方法、装置、存储介质及设备

Publications (1)

Publication Number Publication Date
CN108009037A true CN108009037A (zh) 2018-05-08

Family

ID=62053634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711188235.8A Pending CN108009037A (zh) 2017-11-24 2017-11-24 批处理作业故障处理方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN108009037A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034415A (zh) * 2018-07-20 2018-12-18 郑州云海信息技术有限公司 一种自学习的故障处理方法、装置及系统
CN109347669A (zh) * 2018-10-23 2019-02-15 中国银行股份有限公司 一种银行系统间的批量作业的故障处理方法及装置
CN109655712A (zh) * 2019-01-14 2019-04-19 中国电力科学研究院有限公司 一种配电网线路故障原因分析方法与系统
CN109978189A (zh) * 2019-03-26 2019-07-05 中国联合网络通信集团有限公司 一种错误任务的修复方法及装置
CN109992442A (zh) * 2019-04-24 2019-07-09 广东电网有限责任公司 一种故障处理方法、系统、设备及存储介质
CN110532122A (zh) * 2019-08-26 2019-12-03 东软医疗系统股份有限公司 故障分析方法及系统、电子设备、存储介质
CN111752963A (zh) * 2020-06-28 2020-10-09 中国银行股份有限公司 一种系统问题处理方法及装置
CN111752802A (zh) * 2020-06-28 2020-10-09 中国银行股份有限公司 一种基于错误码的系统管理方法及装置
CN112446779A (zh) * 2020-11-09 2021-03-05 广东华兴银行股份有限公司 一种批量处理中报错快速处理方法、设备及介质
CN112817883A (zh) * 2021-01-11 2021-05-18 深圳力维智联技术有限公司 接口平台的适配方法、设备、系统及计算机可读存储介质
WO2021142763A1 (zh) * 2020-01-17 2021-07-22 上海渠杰信息科技有限公司 一种自动识别编译失败原因并重启编译的方法
CN113676778A (zh) * 2021-08-24 2021-11-19 青岛海信宽带多媒体技术有限公司 一种机顶盒及故障解决方法
CN113886132A (zh) * 2021-12-07 2022-01-04 深圳市明源云科技有限公司 web端错误智能修复方法、设备及计算机可读存储介质
CN115080114A (zh) * 2022-08-23 2022-09-20 中科方德软件有限公司 应用程序的移植处理方法、装置和介质
CN115484143A (zh) * 2021-06-15 2022-12-16 中移动信息技术有限公司 告警处理方法、装置、电子设备及存储介质
CN110956552B (zh) * 2019-11-27 2023-07-04 泰康保险集团股份有限公司 保险问题处理方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8205113B2 (en) * 2009-07-14 2012-06-19 Ab Initio Technology Llc Fault tolerant batch processing
CN103167004A (zh) * 2011-12-15 2013-06-19 中国移动通信集团上海有限公司 云平台主机系统故障修复方法及云平台前端控制服务器
CN104317960A (zh) * 2014-11-14 2015-01-28 中国建设银行股份有限公司 一种批处理作业的处理方法和装置
CN104536893A (zh) * 2015-01-05 2015-04-22 中国农业银行股份有限公司 一种批量处理程序容报错处理方法及装置
CN105204929A (zh) * 2015-11-10 2015-12-30 中国建设银行股份有限公司 批处理调度方法、装置和系统
CN106776153A (zh) * 2015-11-25 2017-05-31 华为技术有限公司 作业控制方法及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8205113B2 (en) * 2009-07-14 2012-06-19 Ab Initio Technology Llc Fault tolerant batch processing
CN103167004A (zh) * 2011-12-15 2013-06-19 中国移动通信集团上海有限公司 云平台主机系统故障修复方法及云平台前端控制服务器
CN104317960A (zh) * 2014-11-14 2015-01-28 中国建设银行股份有限公司 一种批处理作业的处理方法和装置
CN104536893A (zh) * 2015-01-05 2015-04-22 中国农业银行股份有限公司 一种批量处理程序容报错处理方法及装置
CN105204929A (zh) * 2015-11-10 2015-12-30 中国建设银行股份有限公司 批处理调度方法、装置和系统
CN106776153A (zh) * 2015-11-25 2017-05-31 华为技术有限公司 作业控制方法及服务器

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034415A (zh) * 2018-07-20 2018-12-18 郑州云海信息技术有限公司 一种自学习的故障处理方法、装置及系统
CN109347669B (zh) * 2018-10-23 2021-11-02 中国银行股份有限公司 一种银行系统间的批量作业的故障处理方法及装置
CN109347669A (zh) * 2018-10-23 2019-02-15 中国银行股份有限公司 一种银行系统间的批量作业的故障处理方法及装置
CN109655712A (zh) * 2019-01-14 2019-04-19 中国电力科学研究院有限公司 一种配电网线路故障原因分析方法与系统
CN109978189A (zh) * 2019-03-26 2019-07-05 中国联合网络通信集团有限公司 一种错误任务的修复方法及装置
CN109992442A (zh) * 2019-04-24 2019-07-09 广东电网有限责任公司 一种故障处理方法、系统、设备及存储介质
CN110532122A (zh) * 2019-08-26 2019-12-03 东软医疗系统股份有限公司 故障分析方法及系统、电子设备、存储介质
CN110956552B (zh) * 2019-11-27 2023-07-04 泰康保险集团股份有限公司 保险问题处理方法、装置、设备及存储介质
WO2021142763A1 (zh) * 2020-01-17 2021-07-22 上海渠杰信息科技有限公司 一种自动识别编译失败原因并重启编译的方法
CN111752963A (zh) * 2020-06-28 2020-10-09 中国银行股份有限公司 一种系统问题处理方法及装置
CN111752802A (zh) * 2020-06-28 2020-10-09 中国银行股份有限公司 一种基于错误码的系统管理方法及装置
CN112446779A (zh) * 2020-11-09 2021-03-05 广东华兴银行股份有限公司 一种批量处理中报错快速处理方法、设备及介质
CN112817883A (zh) * 2021-01-11 2021-05-18 深圳力维智联技术有限公司 接口平台的适配方法、设备、系统及计算机可读存储介质
CN115484143A (zh) * 2021-06-15 2022-12-16 中移动信息技术有限公司 告警处理方法、装置、电子设备及存储介质
CN113676778A (zh) * 2021-08-24 2021-11-19 青岛海信宽带多媒体技术有限公司 一种机顶盒及故障解决方法
CN113886132A (zh) * 2021-12-07 2022-01-04 深圳市明源云科技有限公司 web端错误智能修复方法、设备及计算机可读存储介质
CN115080114A (zh) * 2022-08-23 2022-09-20 中科方德软件有限公司 应用程序的移植处理方法、装置和介质
CN115080114B (zh) * 2022-08-23 2022-10-28 中科方德软件有限公司 应用程序的移植处理方法、装置和介质

Similar Documents

Publication Publication Date Title
CN108009037A (zh) 批处理作业故障处理方法、装置、存储介质及设备
Wong et al. A crosstab-based statistical method for effective fault localization
US7917897B2 (en) Defect resolution methodology and target assessment process with a software system
AU2012200742B2 (en) System and method for usage pattern analysis and simulation
CN104021043B (zh) 批量应用程序的中断重入方法及系统
EP3616066B1 (en) Human-readable, language-independent stack trace summary generation
JP5223413B2 (ja) Itシステムのトラブル対処装置、トラブル対処方法およびそのためのプログラム
US10911447B2 (en) Application error fingerprinting
JPH02105947A (ja) コンピユータ周辺サブシステム及びその例外事象自動検出分析方法
CN111400011B (zh) 一种实时任务调度方法、系统、设备及可读存储介质
CN105930226B (zh) 一种数据处理方法及装置
WO2023123943A1 (zh) 接口自动化测试方法、装置、介质、设备及程序
JP2022028619A (ja) 製造システムにおける故障の根本原因分析用の故障拡張システムモデルを構築するためのシステム及び方法
US20210073098A1 (en) Information processing system
US7640217B2 (en) Identifying exceptional managed systems
US11782753B2 (en) Node-local-unscheduler for scheduling remediation
CN117056172B (zh) 一种用于系统集成中台的数据集成方法及系统
US20060074597A1 (en) Intelligent knowledge base for an alarm troubleshooting system
US8661343B2 (en) Computer-implemented systems and methods for an automated application interface
RU128741U1 (ru) Система формирования решения проблем функционирования компьютерных систем
JPH11224186A (ja) ソフトウェア解析装置及びソフトウェア解析方法
CN108540308A (zh) 一种基于SCOM的windows应用平台故障自愈系统及方法
CN111680974B (zh) 电子化承保流程的问题定位方法及装置
CN110008098B (zh) 评估业务流程中的节点的运行状况的方法和装置
CN111061580B (zh) 计算机系统应急预案演练方法、服务器及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180508

RJ01 Rejection of invention patent application after publication