CN113032174A - 批量业务处理中故障自动诊断方法及装置 - Google Patents

批量业务处理中故障自动诊断方法及装置 Download PDF

Info

Publication number
CN113032174A
CN113032174A CN202110279681.XA CN202110279681A CN113032174A CN 113032174 A CN113032174 A CN 113032174A CN 202110279681 A CN202110279681 A CN 202110279681A CN 113032174 A CN113032174 A CN 113032174A
Authority
CN
China
Prior art keywords
target
job
fault
fault diagnosis
batch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110279681.XA
Other languages
English (en)
Other versions
CN113032174B (zh
Inventor
李丹峰
赵吉昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110279681.XA priority Critical patent/CN113032174B/zh
Publication of CN113032174A publication Critical patent/CN113032174A/zh
Application granted granted Critical
Publication of CN113032174B publication Critical patent/CN113032174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供一种批量业务处理中故障自动诊断方法及装置,可用于金融技术领域,方法包括:获取当前批量业务处理过程中出现触发故障的目标作业的特征信息;若根据所述目标作业的特征信息确定该目标作业所在业务层为预设的多个关联层级中的非首个业务层,则根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型。本申请能够有效提高对出现触发故障的目标作业的定位效率及准确性,并能够实现对出现触发故障的目标作业的故障诊断类型的自动识别,且能够有效提高故障诊断的自动化程度、准确性及时效性。

Description

批量业务处理中故障自动诊断方法及装置
技术领域
本申请涉及数据处理技术领域,特别涉及金融技术领域,具体涉及批量业务处理中故障自动诊断方法及装置。
背景技术
随着数据战略对企业运营以及企业未来发展方向重要性的不断突出,如各类商业银行等金融机构纷纷构建出了以客户为中心的企业级大数据应用体系以应用在客户画像、智能营销、风险识别、内部管理、外部监管等领域。而基于大数据平台的各类业务场景应用的技术实现均是通过批量作业加工的形式,整个流程大体涵盖上游业务系统基础数据采集、基础数据汇总加工、基于专家规则的业务逻辑加工,结果反馈并传输至下游业务系统展现四大部分。
批量业务处理过程中通常涉及依次关联的多个业务层,且各个业务层均包含有至少一个待执行作业,且各个业务层中的作业的执行均依赖上一业务层中的至少一项作业,而期间的任一环节的中断报错都会导致最终结果报送的失败。现阶段下,大数据平台的长流程批量作业诊断仍处于数据中心运维支持人员一一人工排查的阶段,而随着基于大数据平台的接入应用的不断丰富,上百个应用场景、上万个作业规模的批量作业全链路故障诊断的时效性、精准性在当前人工处理的应对方式下是难以保障的。
发明内容
针对现有技术中的问题,本申请提供一种批量业务处理中故障自动诊断方法及装置,能够有效提高对出现触发故障的目标作业的定位效率及准确性,并能够实现对出现触发故障的目标作业的故障诊断类型的自动识别,且能够有效提高故障诊断的自动化程度、准确性及时效性。
为解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种批量业务处理中故障自动诊断方法,包括:
获取当前批量业务处理过程中出现触发故障的目标作业的特征信息;
若根据所述目标作业的特征信息确定该目标作业所在业务层为预设的多个关联层级中的非首个业务层,则根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型。
进一步地,所述根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型,包括:
若根据所述目标作业的特征信息,确定该目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业的执行状态均为已完成,则将所述目标作业的故障诊断类型确定为:批量调度故障。
进一步地,所述根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型,包括:
若根据所述目标作业的特征信息,确定该目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业中存在执行失败的作业,则将所述目标作业的故障诊断类型确定为:依赖作业执行失败故障。
进一步地,所述根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型,包括:
若根据所述目标作业的特征信息,确定该目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业中存在未触发的作业,则将所述目标作业的故障诊断类型确定为:依赖作业触发故障;
将所述目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业中存在的未触发的作业确定为新的目标作业以获取新的目标作业对应的故障诊断类型。
进一步地,还包括:
若根据所述目标作业的特征信息确定该目标作业所在业务层为预设的多个关联层级中的首个业务层,则判断所述目标作业的作业文件是否符合预设的文件要求,若是,则将所述目标作业的故障诊断类型确定为:批量调度故障。
进一步地,还包括:
若经判断获知所述目标作业的作业文件不符合预设的文件要求,则将所述目标作业的故障诊断类型确定为:作业文件故障。
进一步地,还包括:
若确定所述目标作业的故障诊断类型为所述批量调度故障,则遍历所述批量业务处理过程对应的运行日志以获取该运行日志中的报错信息;
根据所述目标作业的故障诊断类型和所述运行日志中的报错信息,生成诊断结果;
输出所述诊断结果。
进一步地,还包括:
若确定所述目标作业的故障诊断类型为所述依赖作业执行失败故障,则获取所述目标作业所在业务层的上一业务层中的执行失败的作业的标识;
根据所述目标作业的故障诊断类型和所述目标作业所在业务层的上一业务层中的执行失败的作业的标识,生成诊断结果;
生成用于提示下载所述目标作业所在业务层的上一业务层中的执行失败的作业的调度日志的提示信息;
输出所述诊断结果和所述提示信息。
进一步地,还包括:
若确定所述目标作业的故障诊断类型为所述作业文件故障,则获取所述目标作业的标识及作业文件负责人标识;
根据所述目标作业的故障诊断类型、所述目标作业的标识及作业文件负责人标识,生成诊断结果;
输出所述诊断结果。
第二方面,本申请提供一种批量业务处理中故障自动诊断装置,包括:
数据获取模块,用于获取当前批量业务处理过程中出现触发故障的目标作业的特征信息;
故障诊断模块,用于若根据所述目标作业的特征信息确定该目标作业所在业务层为预设的多个关联层级中的非首个业务层,则根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的批量业务处理中故障自动诊断方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的批量业务处理中故障自动诊断方法。
由上述技术方案可知,本申请提供的一种批量业务处理中故障自动诊断方法及装置,方法包括:获取当前批量业务处理过程中出现触发故障的目标作业的特征信息;若根据所述目标作业的特征信息确定该目标作业所在业务层为预设的多个关联层级中的非首个业务层,则根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型,通过获取当前批量业务处理过程中出现触发故障的目标作业的特征信息,能够有效提高对出现触发故障的目标作业的定位效率及准确性,通过根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型,能够实现对出现触发故障的目标作业的故障诊断类型的自动识别,且能够有效提高故障诊断的自动化程度及准确性,并能够有效提高批量业务处理中故障自动诊断的时效性,进而能够有效提高对出现触发故障的目标作业进行故障排除的准确性及效率,并能够有效提高批量业务处理的运行稳定性及可靠性,节省人力及时间成本,并能够有效提高批量业务处理运维人员的用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中的批量业务处理中故障自动诊断方法的第一种流程示意图。
图2是本申请实施例中的批量业务处理中故障自动诊断方法的第二种流程示意图。
图3是本申请实施例中的批量业务处理中故障自动诊断方法的第三种流程示意图。
图4是本申请实施例中的批量业务处理中故障自动诊断方法的第四种流程示意图。
图5是本申请实施例中的批量业务处理中故障自动诊断方法的第五种流程示意图。
图6是本申请实施例中的批量业务处理中故障自动诊断方法的第六种流程示意图。
图7是本申请实施例中的批量业务处理中故障自动诊断方法的第七种流程示意图。
图8是本申请实施例中的批量业务处理中故障自动诊断方法的第八种流程示意图。
图9是本申请实施例中的批量业务处理中故障自动诊断方法的第九种流程示意图。
图10是本申请实施例中的批量业务处理中故障自动诊断装置的结构示意图。
图11是本申请应用实例中的基于商业银行的长流程批量作业全链路诊断方式的执行逻辑示意图。
图12是本申请应用实例中的各个层级的作业依赖关系示意图。
图13是本申请应用实例中的用户使用批量业务处理中故障自动诊断方法的流程构示意图。
图14是本申请应用实例中的大数据平台的长流程作业依赖关系示意图。
图15是本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请公开的批量业务处理中故障自动诊断方法及装置可用于金融技术领域,也可用于除金融技术领域之外的任意领域,本申请公开的批量业务处理中故障自动诊断方法及装置的应用领域不做限定。
以某精准营销场景为例,该场景所需的用户在网上银行、手机银行、网点等办理业务的客户行为、客户信息等基础数据是分散在不同的业务系统中的,类型涵盖43类,整个精准营销场景的大数据技术实现需要运行对这43类客户行为基础数据的采集作业43个、统一指标的汇总加工作业3个、基于专家规则的业务逻辑加工作业6个,分析结果反馈传输作业5个,总作业数达57个。同时,这57个作业按照运行先后的强依赖性配置至大数据批量作业调度体系之中,期间任一环节的中断报错都会导致最终结果报送的失败。
基于此,现阶段下,大数据平台的长流程批量作业诊断仍处于数据中心运维支持人员一一人工排查的阶段,而随着基于大数据平台的接入应用的不断丰富,上百个应用场景、上万个作业规模的批量作业全链路故障诊断的时效性、精准性在当前人工处理的应对方式下是难以保障的。即使采用自动化方式对依次关联的多个业务层进行监测,也只能提高获知或定位批量业务处理中出现故障的自动化程度,后续对故障进行诊断等工作仍需要人工来实现。
为了提高批量业务处理中故障诊断的时效性及准确性,本申请分别提供一种批量业务处理中故障自动诊断方法、批量业务处理中故障自动诊断装置、电子设备和计算机可读存储介质,通过获取当前批量业务处理过程中出现触发故障的目标作业的特征信息,能够有效提高对出现触发故障的目标作业的定位效率及准确性,通过根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型,能够实现对出现触发故障的目标作业的故障诊断类型的自动识别,且能够有效提高故障诊断的自动化程度及准确性,并能够有效提高批量业务处理中故障自动诊断的时效性,进而能够有效提高对出现触发故障的目标作业进行故障排除的准确性及效率,并能够有效提高批量业务处理的运行稳定性及可靠性,节省人力及时间成本,并能够有效提高批量业务处理运维人员的用户体验。
基于上述内容,本申请还提供一种用于实现本申请一个或多个实施例中提供的批量业务处理中故障自动诊断方法的批量业务处理中故障自动诊断装置,该批量业务处理中故障自动诊断装置可以自行或通过第三方服务器等与客户端设备之间通信连接,以接收各个客户端设备分别发送的各个批量业务处理中故障自动诊断请求,其中,所述批量业务处理中故障自动诊断请求中包含有当前批量业务处理过程中出现触发故障的目标作业的特征信息;批量业务处理中故障自动诊断装置获取当前批量业务处理过程中出现触发故障的目标作业的特征信息;若根据所述目标作业的特征信息确定该目标作业所在业务层为预设的多个关联层级中的非首个业务层,则根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型,并输出包含有该故障诊断类型的诊断结果至客户端设备,以使运维人员能够根据客户端设备显示的诊断结果快速且准确地排除故障,进而能够有效提高对出现触发故障的目标作业进行故障排除的准确性及效率,并能够有效提高批量业务处理的运行稳定性及可靠性。
可以理解的是,所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在另一种实际应用情形中,前述的批量业务处理中故障自动诊断装置进行批量业务处理中故障自动诊断的部分可以在如上述内容的服务器中执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器,用于批量业务处理中故障自动诊断的具体处理。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
上述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
具体通过下述各个实施例及应用实例分别进行详细说明。
为了提高软件测试方案选取及应用的自动化程度及效率,本申请提供一种批量业务处理中故障自动诊断方法的实施例,参见图1,基于批量业务处理中故障自动诊断装置执行的所述批量业务处理中故障自动诊断方法具体包含有如下内容:
步骤100:获取当前批量业务处理过程中出现触发故障的目标作业的特征信息。
在步骤100的一种实现方式中,可以由用户触发本申请实施例提供的批量业务处理中故障自动诊断过程,具体可以为:接收客户端设备发送的批量业务处理中故障自动诊断请求,其中,所述批量业务处理中故障自动诊断请求中包含有当前批量业务处理过程中出现触发故障的目标作业的特征信息。
在步骤100的另一种实现方式中,可以在获知批量业务处理过程开启后,实时或周期性获取批量业务处理执行状态数据,若检测到当前批量业务处理过程中出现触发故障的作业,则将该作为确定为当前的目标作业,并启动本申请实施例提供的批量业务处理中故障自动诊断过程。
可以理解的是,所述特征信息用于表示目标作业的特征,具体可以包含有:作业名、环境及批量业务处理日期等等。
步骤200:若根据所述目标作业的特征信息确定该目标作业所在业务层为预设的多个关联层级中的非首个业务层,则根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型。
可以理解的是,预设的多个关联层级具体可以根据批量业务处理任务的具体内容进行设置,具体来说,多个关联层级有从上到下的至少2个业务层组成,每个业务层均包含有至少一个待执行作业,且各个业务层中的作业的执行均依赖上一业务层中的至少一项作业的执行结果。例如,多个关联层级可以包含有4层层级,由上到下分别可以为:数据采集层、汇总加工层、逻辑加工层及文件传输层。
在本申请的一个或多个实施例中,所述故障诊断类型至少可以包含有:批量调度故障、依赖作业执行失败故障、依赖作业触发故障和作业文件故障,若确定所述故障诊断类型为所述批量调度故障、依赖作业执行失败故障和作业文件故障,则可以直接进行输出显示,以使运维人员根据出现触发故障的目标作业的故障诊断类型快速、准确且针对性强地进行故障排除。若确定所述故障诊断类型为所述依赖作业触发故障,则需要将依赖作业认定为当前新的目标作业,并针对该新的目标作业重新执行步骤100和200,直到确定当前的目标作业的批量调度故障、依赖作业执行失败故障和作业文件故障中的一项为止。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断方法,通过获取当前批量业务处理过程中出现触发故障的目标作业的特征信息,能够有效提高对出现触发故障的目标作业的定位效率及准确性,通过根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型,能够实现对出现触发故障的目标作业的故障诊断类型的自动识别,且能够有效提高故障诊断的自动化程度及准确性,并能够有效提高批量业务处理中故障自动诊断的时效性,进而能够有效提高对出现触发故障的目标作业进行故障排除的准确性及效率,并能够有效提高批量业务处理的运行稳定性及可靠性,节省人力及时间成本,并能够有效提高批量业务处理运维人员的用户体验。
为了进一步实现针对上层作业的不同状态确定对应的故障诊断类型,在本申请提供的批量业务处理中故障自动诊断方法的一个实施例,参见图2,所述批量业务处理中故障自动诊断方法中的步骤200具体包含有如下内容:
步骤210:根据所述目标作业的特征信息判断该目标作业所在业务层是否为预设的多个关联层级中的首个业务层,若否,则执行步骤220。
步骤220:根据所述目标作业的特征信息获取目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业的执行状态;
步骤230:若确定该目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业的执行状态均为已完成,则将所述目标作业的故障诊断类型确定为:批量调度故障。
具体来说,可以首先判断目标作业依赖的上一层作业的状态;如果依赖的上一层作业状态全部为Done,那么目标作业未触发的原因为批量调度故障。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断方法,通过在确定目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业的执行状态均为已完成后,将所述目标作业的故障诊断类型确定为:批量调度故障,能够进一步实现针对上层作业的不同状态确定对应的故障诊断类型,进而能够有效提高根据该故障诊断类型进行故障排除的针对性及可靠性,以进一步提高批量业务处理的运行稳定性及可靠性。
为了进一步实现针对上层作业的不同状态确定对应的故障诊断类型,在本申请提供的批量业务处理中故障自动诊断方法的一个实施例,参见图3,所述批量业务处理中故障自动诊断方法中的步骤220之后还具体包含有如下内容:
步骤240:若根据所述目标作业的特征信息,确定该目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业中存在执行失败的作业,则将所述目标作业的故障诊断类型确定为:依赖作业执行失败故障。
具体来说,如果依赖的上一层作业状态有Failed,那么目标作业未触发的原因为依赖作业执行失败。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断方法,通过在确定该目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业中存在执行失败的作业后,将所述目标作业的故障诊断类型确定为:依赖作业执行失败故障,能够进一步实现针对上层作业的不同状态确定对应的故障诊断类型,进而能够有效提高根据该故障诊断类型进行故障排除的针对性及可靠性,以进一步提高批量业务处理的运行稳定性及可靠性。
为了进一步实现针对上层作业的不同状态确定对应的故障诊断类型,在本申请提供的批量业务处理中故障自动诊断方法的一个实施例,参见图4,所述批量业务处理中故障自动诊断方法中的步骤220之后还具体包含有如下内容:
步骤250:若根据所述目标作业的特征信息,确定该目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业中存在未触发的作业,则将所述目标作业的故障诊断类型确定为:依赖作业触发故障。
步骤260:将所述目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业中存在的未触发的作业确定为新的目标作业。
返回执行步骤100,直到获取新的目标作业对应的故障诊断类型为所述批量调度故障、依赖作业执行失败故障和作业文件故障中的任一项。
具体来说,如果当前目标作业依赖的上一层作业有作业未触发,开始检测未触发作业的上一层层依赖作业,整个检测过程如步骤100和200所述。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断方法,通过在确定该目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业中存在未触发的作业后,将存在未触发的作业确定为当前新的目标作业,并针对该新的目标作业返回执行对应的批量业务处理中故障自动诊断,能够进一步实现针对上层作业的不同状态确定对应的故障诊断类型,进而能够有效提高根据该故障诊断类型进行故障排除的针对性及可靠性,以进一步提高批量业务处理的运行稳定性及可靠性。
为了有效提高批量业务处理中故障自动诊断的适用全面性及可靠性,参见图5,所述批量业务处理中故障自动诊断方法中的步骤210之后还具体包含有如下内容:
若根据步骤210判断获知所述目标作业所在业务层为预设的多个关联层级中的首个业务层,则执行步骤270;
步骤270:判断所述目标作业的作业文件是否符合预设的文件要求,若是,则执行步骤280:
步骤280:将所述目标作业的故障诊断类型确定为:批量调度故障。
具体来说,如果第一层依赖作业均已执行,那么第二层作业未触发的原因归结为批量调度问题;如果第一层依赖作业状态有Failed,那么诊断结果模态框中告知运维人员失败的作业名并提示下载作业调度日志进行报错问题解决;如果第一层依赖作业有部分未触发,判断未触发作业的文件是否到齐,如果到齐,未触发作业原因归结为批量调度问题。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断方法,通过在确定所述目标作业所在业务层为预设的多个关联层级中的首个业务层后,根据所述目标作业的作业文件确定其故障诊断类型,能够有效提高批量业务处理中故障自动诊断的适用全面性及可靠性,以进一步提高批量业务处理的运行稳定性及可靠性。
为了进一步提高批量业务处理中故障自动诊断的适用全面性及可靠性,参见图6,所述批量业务处理中故障自动诊断方法中的步骤270之后还具体包含有如下内容:
若经步骤270判断获知所述目标作业的作业文件符合预设的文件要求,则执行步骤290;
步骤290:若经判断获知所述目标作业的作业文件不符合预设的文件要求,则将所述目标作业的故障诊断类型确定为:作业文件故障。
具体来说,可以判断未触发作业的文件是否到齐,如果到齐,未触发作业原因归结为批量调度问题;如未到齐,则诊断结果模态框中告知运维人员未触发作业所依赖的上游文件名和上游业务系统负责人,后续运维人员邮件催促上游业务系统负责人及时下传数据。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断方法,通过在确定所述目标作业所在业务层为预设的多个关联层级中的首个业务层后,根据所述目标作业的作业文件确定其故障诊断类型,能够进一步提高批量业务处理中故障自动诊断的适用全面性及可靠性,以进一步提高批量业务处理的运行稳定性及可靠性。
为了根据不同的故障诊断类型采用不同的后续处理方式,参见图7,所述批量业务处理中故障自动诊断方法中的步骤200之后还具体包含有如下内容:
步骤310:若确定所述目标作业的故障诊断类型为所述批量调度故障,则遍历所述批量业务处理过程对应的运行日志以获取该运行日志中的报错信息。
步骤320:根据所述目标作业的故障诊断类型和所述运行日志中的报错信息,生成诊断结果。
步骤330:输出所述诊断结果。
具体来说,可以应用预设的诊断工具遍历调度运行日志中的报错信息,并反馈调度程序故障、请处理调度故障问题,运维人员下载调度日志中的报错信息去修复故障。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断方法,通过在确定所述目标作业的故障诊断类型为批量调度故障后,根据不同的故障诊断类型采用不同的后续处理方式,能够有效提高批量业务处理中故障排除的针对性、可靠性及效率,以进一步提高批量业务处理的运行稳定性及可靠性。
为了根据不同的故障诊断类型采用不同的后续处理方式,参见图8,所述批量业务处理中故障自动诊断方法中的步骤200之后还具体包含有如下内容:
步骤410:若确定所述目标作业的故障诊断类型为所述依赖作业执行失败故障,则获取所述目标作业所在业务层的上一业务层中的执行失败的作业的标识。
步骤420:根据所述目标作业的故障诊断类型和所述目标作业所在业务层的上一业务层中的执行失败的作业的标识,生成诊断结果。
步骤430:生成用于提示下载所述目标作业所在业务层的上一业务层中的执行失败的作业的调度日志的提示信息。
步骤440:输出所述诊断结果和所述提示信息。
具体来说,可以反馈失败作业的作业名并提示下载作业调度日志进行报错问题解决。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断方法,通过在确定所述目标作业的故障诊断类型为依赖作业执行失败故障后,根据不同的故障诊断类型采用不同的后续处理方式,能够有效提高批量业务处理中故障排除的针对性、可靠性及效率,以进一步提高批量业务处理的运行稳定性及可靠性。
为了根据不同的故障诊断类型采用不同的后续处理方式,参见图9,所述批量业务处理中故障自动诊断方法中的步骤200之后还具体包含有如下内容:
步骤510:若确定所述目标作业的故障诊断类型为所述作业文件故障,则获取所述目标作业的标识及作业文件负责人标识。
步骤520:根据所述目标作业的故障诊断类型、所述目标作业的标识及作业文件负责人标识,生成诊断结果。
步骤530:输出所述诊断结果。
具体来说,可以诊断结果模态框中告知运维人员未触发作业所依赖的上游文件名和上游业务系统负责人,后续运维人员邮件催促上游业务系统负责人及时下传数据。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断方法,通过在确定所述目标作业的故障诊断类型为作业文件故障后,根据不同的故障诊断类型采用不同的后续处理方式,能够有效提高批量业务处理中故障排除的针对性、可靠性及效率,以进一步提高批量业务处理的运行稳定性及可靠性。
从软件层面来说,为了提高软件测试方案选取及应用的自动化程度及效率,本申请提供一种用于执行所述批量业务处理中故障自动诊断方法中全部或部分内容的批量业务处理中故障自动诊断装置的实施例,参见图10,所述批量业务处理中故障自动诊断装置具体包含有如下内容:
数据获取模块10,用于获取当前批量业务处理过程中出现触发故障的目标作业的特征信息。
故障诊断模块20,用于若根据所述目标作业的特征信息确定该目标作业所在业务层为预设的多个关联层级中的非首个业务层,则根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型。
在数据获取模块10的一种实现方式中,可以由用户触发本申请实施例提供的批量业务处理中故障自动诊断过程,具体可以为:接收客户端设备发送的批量业务处理中故障自动诊断请求,其中,所述批量业务处理中故障自动诊断请求中包含有当前批量业务处理过程中出现触发故障的目标作业的特征信息。
在数据获取模块10的另一种实现方式中,可以在获知批量业务处理过程开启后,实时或周期性获取批量业务处理执行状态数据,若检测到当前批量业务处理过程中出现触发故障的作业,则将该作为确定为当前的目标作业,并启动本申请实施例提供的批量业务处理中故障自动诊断过程。
可以理解的是,所述特征信息用于表示目标作业的特征,具体可以包含有:作业名、环境及批量业务处理日期等等。
可以理解的是,预设的多个关联层级具体可以根据批量业务处理任务的具体内容进行设置,具体来说,多个关联层级有从上到下的至少2个业务层组成,每个业务层均包含有至少一个待执行作业,且各个业务层中的作业的执行均依赖上一业务层中的至少一项作业的执行结果。例如,多个关联层级可以包含有4层层级,由上到下分别可以为:数据采集层、汇总加工层、逻辑加工层及文件传输层。
在本申请的一个或多个实施例中,所述故障诊断类型至少可以包含有:批量调度故障、依赖作业执行失败故障、依赖作业触发故障和作业文件故障,若确定所述故障诊断类型为所述批量调度故障、依赖作业执行失败故障和作业文件故障,则可以直接进行输出显示,以使运维人员根据出现触发故障的目标作业的故障诊断类型快速、准确且针对性强地进行故障排除。若确定所述故障诊断类型为所述依赖作业触发故障,则需要将依赖作业认定为当前新的目标作业,并针对该新的目标作业重新执行数据获取模块10和故障诊断模块20,直到确定当前的目标作业的批量调度故障、依赖作业执行失败故障和作业文件故障中的一项为止。
本申请提供的批量业务处理中故障自动诊断装置的实施例具体可以用于执行上述实施例中的批量业务处理中故障自动诊断方法的实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断装置,通过获取当前批量业务处理过程中出现触发故障的目标作业的特征信息,能够有效提高对出现触发故障的目标作业的定位效率及准确性,通过根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型,能够实现对出现触发故障的目标作业的故障诊断类型的自动识别,且能够有效提高故障诊断的自动化程度及准确性,并能够有效提高批量业务处理中故障自动诊断的时效性,进而能够有效提高对出现触发故障的目标作业进行故障排除的准确性及效率,并能够有效提高批量业务处理的运行稳定性及可靠性,节省人力及时间成本,并能够有效提高批量业务处理运维人员的用户体验。
为了进一步实现针对上层作业的不同状态确定对应的故障诊断类型,在本申请提供的批量业务处理中故障自动诊断装置的一个实施例,所述批量业务处理中故障自动诊断装置中的故障诊断模块20具体用于执行下述内容:
步骤210:根据所述目标作业的特征信息判断该目标作业所在业务层是否为预设的多个关联层级中的首个业务层,若否,则执行步骤220。
步骤220:根据所述目标作业的特征信息获取目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业的执行状态;
步骤230:若确定该目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业的执行状态均为已完成,则将所述目标作业的故障诊断类型确定为:批量调度故障。
具体来说,可以首先判断目标作业依赖的上一层作业的状态;如果依赖的上一层作业状态全部为Done,那么目标作业未触发的原因为批量调度故障。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断装置,通过在确定目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业的执行状态均为已完成后,将所述目标作业的故障诊断类型确定为:批量调度故障,能够进一步实现针对上层作业的不同状态确定对应的故障诊断类型,进而能够有效提高根据该故障诊断类型进行故障排除的针对性及可靠性,以进一步提高批量业务处理的运行稳定性及可靠性。
为了进一步实现针对上层作业的不同状态确定对应的故障诊断类型,在本申请提供的批量业务处理中故障自动诊断装置的一个实施例,所述批量业务处理中故障自动诊断装置中的故障诊断模块20还具体用于执行下述内容:
步骤240:若根据所述目标作业的特征信息,确定该目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业中存在执行失败的作业,则将所述目标作业的故障诊断类型确定为:依赖作业执行失败故障。
具体来说,如果依赖的上一层作业状态有Failed,那么目标作业未触发的原因为依赖作业执行失败。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断装置,通过在确定该目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业中存在执行失败的作业后,将所述目标作业的故障诊断类型确定为:依赖作业执行失败故障,能够进一步实现针对上层作业的不同状态确定对应的故障诊断类型,进而能够有效提高根据该故障诊断类型进行故障排除的针对性及可靠性,以进一步提高批量业务处理的运行稳定性及可靠性。
为了进一步实现针对上层作业的不同状态确定对应的故障诊断类型,在本申请提供的批量业务处理中故障自动诊断装置的一个实施例,所述批量业务处理中故障自动诊断装置中的故障诊断模块20还具体用于执行下述内容:
步骤250:若根据所述目标作业的特征信息,确定该目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业中存在未触发的作业,则将所述目标作业的故障诊断类型确定为:依赖作业触发故障。
步骤260:将所述目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业中存在的未触发的作业确定为新的目标作业。
返回执行步骤100,直到获取新的目标作业对应的故障诊断类型为所述批量调度故障、依赖作业执行失败故障和作业文件故障中的任一项。
具体来说,如果当前目标作业依赖的上一层作业有作业未触发,开始检测未触发作业的上一层层依赖作业,整个检测过程如步骤100和200所述。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断装置,通过在确定该目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业中存在未触发的作业后,将存在未触发的作业确定为当前新的目标作业,并针对该新的目标作业返回执行对应的批量业务处理中故障自动诊断,能够进一步实现针对上层作业的不同状态确定对应的故障诊断类型,进而能够有效提高根据该故障诊断类型进行故障排除的针对性及可靠性,以进一步提高批量业务处理的运行稳定性及可靠性。
为了有效提高批量业务处理中故障自动诊断的适用全面性及可靠性,所述批量业务处理中故障自动诊断装置中的故障诊断模块20还具体用于执行下述内容:
若根据步骤210判断获知所述目标作业所在业务层为预设的多个关联层级中的首个业务层,则执行步骤270;
步骤270:判断所述目标作业的作业文件是否符合预设的文件要求,若是,则执行步骤280:
步骤280:将所述目标作业的故障诊断类型确定为:批量调度故障。
具体来说,如果第一层依赖作业均已执行,那么第二层作业未触发的原因归结为批量调度问题;如果第一层依赖作业状态有Failed,那么诊断结果模态框中告知运维人员失败的作业名并提示下载作业调度日志进行报错问题解决;如果第一层依赖作业有部分未触发,判断未触发作业的文件是否到齐,如果到齐,未触发作业原因归结为批量调度问题。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断装置,通过在确定所述目标作业所在业务层为预设的多个关联层级中的首个业务层后,根据所述目标作业的作业文件确定其故障诊断类型,能够有效提高批量业务处理中故障自动诊断的适用全面性及可靠性,以进一步提高批量业务处理的运行稳定性及可靠性。
为了进一步提高批量业务处理中故障自动诊断的适用全面性及可靠性,所述批量业务处理中故障自动诊断装置中的故障诊断模块20还具体用于执行下述内容:
若经步骤270判断获知所述目标作业的作业文件符合预设的文件要求,则执行步骤290;
步骤290:若经判断获知所述目标作业的作业文件不符合预设的文件要求,则将所述目标作业的故障诊断类型确定为:作业文件故障。
具体来说,可以判断未触发作业的文件是否到齐,如果到齐,未触发作业原因归结为批量调度问题;如未到齐,则诊断结果模态框中告知运维人员未触发作业所依赖的上游文件名和上游业务系统负责人,后续运维人员邮件催促上游业务系统负责人及时下传数据。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断装置,通过在确定所述目标作业所在业务层为预设的多个关联层级中的首个业务层后,根据所述目标作业的作业文件确定其故障诊断类型,能够进一步提高批量业务处理中故障自动诊断的适用全面性及可靠性,以进一步提高批量业务处理的运行稳定性及可靠性。
为了根据不同的故障诊断类型采用不同的后续处理方式,所述批量业务处理中故障自动诊断装置还具体用于执行下述内容:
步骤310:若确定所述目标作业的故障诊断类型为所述批量调度故障,则遍历所述批量业务处理过程对应的运行日志以获取该运行日志中的报错信息。
步骤320:根据所述目标作业的故障诊断类型和所述运行日志中的报错信息,生成诊断结果。
步骤330:输出所述诊断结果。
具体来说,可以应用预设的诊断工具遍历调度运行日志中的报错信息,并反馈调度程序故障、请处理调度故障问题,运维人员下载调度日志中的报错信息去修复故障。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断装置,通过在确定所述目标作业的故障诊断类型为批量调度故障后,根据不同的故障诊断类型采用不同的后续处理方式,能够有效提高批量业务处理中故障排除的针对性、可靠性及效率,以进一步提高批量业务处理的运行稳定性及可靠性。
为了根据不同的故障诊断类型采用不同的后续处理方式,所述批量业务处理中故障自动诊断装置还具体用于执行下述内容:
步骤410:若确定所述目标作业的故障诊断类型为所述依赖作业执行失败故障,则获取所述目标作业所在业务层的上一业务层中的执行失败的作业的标识。
步骤420:根据所述目标作业的故障诊断类型和所述目标作业所在业务层的上一业务层中的执行失败的作业的标识,生成诊断结果。
步骤430:生成用于提示下载所述目标作业所在业务层的上一业务层中的执行失败的作业的调度日志的提示信息。
步骤440:输出所述诊断结果和所述提示信息。
具体来说,可以反馈失败作业的作业名并提示下载作业调度日志进行报错问题解决。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断装置,通过在确定所述目标作业的故障诊断类型为依赖作业执行失败故障后,根据不同的故障诊断类型采用不同的后续处理方式,能够有效提高批量业务处理中故障排除的针对性、可靠性及效率,以进一步提高批量业务处理的运行稳定性及可靠性。
为了根据不同的故障诊断类型采用不同的后续处理方式,所述批量业务处理中故障自动诊断装置还具体用于执行下述内容:
步骤510:若确定所述目标作业的故障诊断类型为所述作业文件故障,则获取所述目标作业的标识及作业文件负责人标识。
步骤520:根据所述目标作业的故障诊断类型、所述目标作业的标识及作业文件负责人标识,生成诊断结果。
步骤530:输出所述诊断结果。
具体来说,可以诊断结果模态框中告知运维人员未触发作业所依赖的上游文件名和上游业务系统负责人,后续运维人员邮件催促上游业务系统负责人及时下传数据。
从上述描述可知,本申请实施例提供的批量业务处理中故障自动诊断装置,通过在确定所述目标作业的故障诊断类型为作业文件故障后,根据不同的故障诊断类型采用不同的后续处理方式,能够有效提高批量业务处理中故障排除的针对性、可靠性及效率,以进一步提高批量业务处理的运行稳定性及可靠性。
为了进一步说明书本方案,本申请还提供一种批量业务处理中故障自动诊断方法的具体应用实例,本申请应用实例涉及商业银行的批量业务处理领域,针对长流程批量处理过程中各个环节报错中断,目前只能通过人工检查的方式去诊断批量中断的原因这一现状,通过提供一种基于商业银行的长流程批量作业全链路诊断方式实现对各环节中断问题进行智能化诊断。即:对长流程的批量作业进行实时监控和中断原因智能诊断,提高全流程批量作业诊断。
参见图11,本申请提供的基于商业银行的长流程批量作业全链路诊断方式的执行逻辑如下:
假设各个层级的作业依赖关系如图12所示,第一层文件到齐之后,开始触发第一层作业,后续作业依赖上一层作业的结果数据;
第n层的n_1作业在批量日期中未触发,那么用户通过前台输入作业名、环境、批量日期开始链路诊断。链路诊断的后台处理逻辑如下:
(1)首先判断n_1依赖的第n-1层作业(图示中为(n-1)_1和(n-1)_2两个作业)的状态;如果依赖的第n-1层作业状态全部为Done,那么n_1未触发的原因为批量调度问题。诊断工具遍历调度运行日志中的报错信息,并反馈调度程序故障、请处理调度故障问题,运维人员下载调度日志中的报错信息去修复故障。
(2)如果依赖的第n-1层作业状态有Failed,那么n_1未触发的原因为依赖作业执行失败;反馈失败作业的作业名并提示下载作业调度日志进行报错问题解决。
(3)如果依赖的第n-1层作业有作业未触发,开始检测未触发作业的第n-2层依赖作业,整个检测过程如(1)(2)所描述。整个过程循环往复,直到检查至第一层依赖作业。
(4)如果第一层依赖作业均已执行,那么第二层作业未触发的原因归结为批量调度问题;如果第一层依赖作业状态有Failed,那么诊断结果模态框中告知运维人员失败的作业名并提示下载作业调度日志进行报错问题解决;如果第一层依赖作业有部分未触发,判断未触发作业的文件是否到齐,如果到齐,未触发作业原因归结为批量调度问题;如未到齐,则诊断结果模态框中告知运维人员未触发作业所依赖的上游文件名和上游业务系统负责人,后续运维人员邮件催促上游业务系统负责人及时下传数据。
其中,用户使用批量业务处理中故障自动诊断方法的流程如图13所示。
本申请应用实例某一实例执行过程如下:
参见图14,以大数据平台的长流程作业依赖关系为例,A1、A2、A3为基础数据采集作业,B1、B2为指标汇总加工作业,C1、C2为业务逻辑加工作业,D1为向下游业务系统下传文件的作业,其诊断逻辑如下:
如向下游业务系统下传文件的D1作业未在要求时间点内触发,首先去数据库中查询上层作业C1、C2对应批量日期的状态是否为done;
①如果C1、C2两个作业对应批量日期的状态都为done,那么该作业理应触发但实际未触发,原因归结为批量调度问题,此时诊断工具遍历调度运行日志中的报错信息,并在诊断结果模态框中告知运维人员“调度程序故障、请处理调度故障问题”,后续运维人员通过下载解析后的调度日志中提示的报错原因及解决方案去修复故障;
②如果C1、C2有一个或者两个作业对应批量日期状态为Failed,那么诊断结果模态框中告知运维人员失败的作业名并提示下载作业调度日志进行报错问题解决,后续运维人员根据下载解析后的调度日志中提示的报错原因及解决方案去修复故障;
③如果C1、C2有一个或者两个作业在对应批量日期内均未触发,开始检测上层B1、B2作业状态是否正常,如果B1、B2已执行,则C1、C2作业未触发的原因归结为批量调度问题,此时诊断工具遍历调度运行日志中的报错信息,并在诊断结果模态框中告知运维人员“调度程序故障、请处理调度故障问题”,后续运维人员通过下载解析后的调度日志中提示的报错原因及解决方案去修复故障。
如果B1、B2均为未执行,则开始检测上层A1、A2、A3作业的运行状态,如果A1、A2、A3均已执行,则B1、B2作业未触发的原因归结为批量调度问题;如A1、A2作业已执行、A3作业失败,那么诊断结果模态框中告知运维人员失败的作业名并提示下载作业调度日志进行报错问题解决;如A1、A2作业执行、A3作业未触发,则检查A3作业的所依赖的上游文件是否到齐,如果到齐,那么A3未触发原因归结为批量调度问题;如未到齐,则诊断结果模态框中告知运维人员A3作业所依赖的上游文件名和上游业务系统负责人,后续运维人员邮件催促上游业务系统负责人及时下传数据。
基于此,本申请应用实例提供的种基于商业银行的长流程批量作业全链路诊断装置可视化页面设置如下:
该长流程批量作业全链路诊断装置的可视化界面包含应用选择、作业组选择、查询按钮、作业状态展示表格、作业调度日志解析、作业报错中断诊断按钮、诊断结果模态框7个元素,可以向用户鲜明的展示整个链路诊断的结果。
综上所述,本申请提供了一种批量业务处理中故障自动诊断方法,通过基于商业银行的长流程批量作业链路诊断方式,实现整个长流程批量作业链路诊断的自动化和智能化,改变运维人员手动查询作业依赖关系、分析作业未触发原因或作业失败原因的现状,提升作业诊断时效性和问题原因定位精准性。
从硬件层面来说,为了提高软件测试方案选取及应用的自动化程度及效率,本申请提供一种用于实现所述批量业务处理中故障自动诊断方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
图15为本申请实施例的电子设备9600的系统构成的示意框图。如图15所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图15是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在一实施例中,批量业务处理中故障自动诊断功能可以被集成到中央处理器中。其中,中央处理器可以被配置为进行如下控制:
步骤100:获取当前批量业务处理过程中出现触发故障的目标作业的特征信息。
在步骤100的一种实现方式中,可以由用户触发本申请实施例提供的批量业务处理中故障自动诊断过程,具体可以为:接收客户端设备发送的批量业务处理中故障自动诊断请求,其中,所述批量业务处理中故障自动诊断请求中包含有当前批量业务处理过程中出现触发故障的目标作业的特征信息。
在步骤100的另一种实现方式中,可以在获知批量业务处理过程开启后,实时或周期性获取批量业务处理执行状态数据,若检测到当前批量业务处理过程中出现触发故障的作业,则将该作为确定为当前的目标作业,并启动本申请实施例提供的批量业务处理中故障自动诊断过程。
可以理解的是,所述特征信息用于表示目标作业的特征,具体可以包含有:作业名、环境及批量业务处理日期等等。
步骤200:若根据所述目标作业的特征信息确定该目标作业所在业务层为预设的多个关联层级中的非首个业务层,则根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型。
可以理解的是,预设的多个关联层级具体可以根据批量业务处理任务的具体内容进行设置,具体来说,多个关联层级有从上到下的至少2个业务层组成,每个业务层均包含有至少一个待执行作业,且各个业务层中的作业的执行均依赖上一业务层中的至少一项作业的执行结果。例如,多个关联层级可以包含有4层层级,由上到下分别可以为:数据采集层、汇总加工层、逻辑加工层及文件传输层。
在本申请的一个或多个实施例中,所述故障诊断类型至少可以包含有:批量调度故障、依赖作业执行失败故障、依赖作业触发故障和作业文件故障,若确定所述故障诊断类型为所述批量调度故障、依赖作业执行失败故障和作业文件故障,则可以直接进行输出显示,以使运维人员根据出现触发故障的目标作业的故障诊断类型快速、准确且针对性强地进行故障排除。若确定所述故障诊断类型为所述依赖作业触发故障,则需要将依赖作业认定为当前新的目标作业,并针对该新的目标作业重新执行步骤100和200,直到确定当前的目标作业的批量调度故障、依赖作业执行失败故障和作业文件故障中的一项为止。
从上述描述可知,本申请实施例提供的电子设备,通过获取当前批量业务处理过程中出现触发故障的目标作业的特征信息,能够有效提高对出现触发故障的目标作业的定位效率及准确性,通过根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型,能够实现对出现触发故障的目标作业的故障诊断类型的自动识别,且能够有效提高故障诊断的自动化程度及准确性,并能够有效提高批量业务处理中故障自动诊断的时效性,进而能够有效提高对出现触发故障的目标作业进行故障排除的准确性及效率,并能够有效提高批量业务处理的运行稳定性及可靠性,节省人力及时间成本,并能够有效提高批量业务处理运维人员的用户体验。
在另一个实施方式中,批量业务处理中故障自动诊断装置可以与中央处理器9100分开配置,例如可以将批量业务处理中故障自动诊断装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现批量业务处理中故障自动诊断功能。
如图15所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图15中所示的所有部件;此外,电子设备9600还可以包括图15中没有示出的部件,可以参考现有技术。
如图15所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的批量业务处理中故障自动诊断方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的批量业务处理中故障自动诊断方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤100:获取当前批量业务处理过程中出现触发故障的目标作业的特征信息。
在步骤100的一种实现方式中,可以由用户触发本申请实施例提供的批量业务处理中故障自动诊断过程,具体可以为:接收客户端设备发送的批量业务处理中故障自动诊断请求,其中,所述批量业务处理中故障自动诊断请求中包含有当前批量业务处理过程中出现触发故障的目标作业的特征信息。
在步骤100的另一种实现方式中,可以在获知批量业务处理过程开启后,实时或周期性获取批量业务处理执行状态数据,若检测到当前批量业务处理过程中出现触发故障的作业,则将该作为确定为当前的目标作业,并启动本申请实施例提供的批量业务处理中故障自动诊断过程。
可以理解的是,所述特征信息用于表示目标作业的特征,具体可以包含有:作业名、环境及批量业务处理日期等等。
步骤200:若根据所述目标作业的特征信息确定该目标作业所在业务层为预设的多个关联层级中的非首个业务层,则根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型。
可以理解的是,预设的多个关联层级具体可以根据批量业务处理任务的具体内容进行设置,具体来说,多个关联层级有从上到下的至少2个业务层组成,每个业务层均包含有至少一个待执行作业,且各个业务层中的作业的执行均依赖上一业务层中的至少一项作业的执行结果。例如,多个关联层级可以包含有4层层级,由上到下分别可以为:数据采集层、汇总加工层、逻辑加工层及文件传输层。
在本申请的一个或多个实施例中,所述故障诊断类型至少可以包含有:批量调度故障、依赖作业执行失败故障、依赖作业触发故障和作业文件故障,若确定所述故障诊断类型为所述批量调度故障、依赖作业执行失败故障和作业文件故障,则可以直接进行输出显示,以使运维人员根据出现触发故障的目标作业的故障诊断类型快速、准确且针对性强地进行故障排除。若确定所述故障诊断类型为所述依赖作业触发故障,则需要将依赖作业认定为当前新的目标作业,并针对该新的目标作业重新执行步骤100和200,直到确定当前的目标作业的批量调度故障、依赖作业执行失败故障和作业文件故障中的一项为止。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过获取当前批量业务处理过程中出现触发故障的目标作业的特征信息,能够有效提高对出现触发故障的目标作业的定位效率及准确性,通过根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型,能够实现对出现触发故障的目标作业的故障诊断类型的自动识别,且能够有效提高故障诊断的自动化程度及准确性,并能够有效提高批量业务处理中故障自动诊断的时效性,进而能够有效提高对出现触发故障的目标作业进行故障排除的准确性及效率,并能够有效提高批量业务处理的运行稳定性及可靠性,节省人力及时间成本,并能够有效提高批量业务处理运维人员的用户体验。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种批量业务处理中故障自动诊断方法,其特征在于,包括:
获取当前批量业务处理过程中出现触发故障的目标作业的特征信息;
若根据所述目标作业的特征信息确定该目标作业所在业务层为预设的多个关联层级中的非首个业务层,则根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型。
2.根据权利要求1所述的批量业务处理中故障自动诊断方法,其特征在于,所述根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型,包括:
若根据所述目标作业的特征信息,确定该目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业的执行状态均为已完成,则将所述目标作业的故障诊断类型确定为:批量调度故障。
3.根据权利要求1所述的批量业务处理中故障自动诊断方法,其特征在于,所述根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型,包括:
若根据所述目标作业的特征信息,确定该目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业中存在执行失败的作业,则将所述目标作业的故障诊断类型确定为:依赖作业执行失败故障。
4.根据权利要求1所述的批量业务处理中故障自动诊断方法,其特征在于,所述根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型,包括:
若根据所述目标作业的特征信息,确定该目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业中存在未触发的作业,则将所述目标作业的故障诊断类型确定为:依赖作业触发故障;
将所述目标作业所在业务层的上一业务层中与所述目标作业相关的各个作业中存在的未触发的作业确定为新的目标作业以获取新的目标作业对应的故障诊断类型。
5.根据权利要求1所述的批量业务处理中故障自动诊断方法,其特征在于,还包括:
若根据所述目标作业的特征信息确定该目标作业所在业务层为预设的多个关联层级中的首个业务层,则判断所述目标作业的作业文件是否符合预设的文件要求,若是,则将所述目标作业的故障诊断类型确定为:批量调度故障。
6.根据权利要求5所述的批量业务处理中故障自动诊断方法,其特征在于,还包括:
若经判断获知所述目标作业的作业文件不符合预设的文件要求,则将所述目标作业的故障诊断类型确定为:作业文件故障。
7.根据权利要求2或5所述的批量业务处理中故障自动诊断方法,其特征在于,还包括:
若确定所述目标作业的故障诊断类型为所述批量调度故障,则遍历所述批量业务处理过程对应的运行日志以获取该运行日志中的报错信息;
根据所述目标作业的故障诊断类型和所述运行日志中的报错信息,生成诊断结果;
输出所述诊断结果。
8.根据权利要求3所述的批量业务处理中故障自动诊断方法,其特征在于,还包括:
若确定所述目标作业的故障诊断类型为所述依赖作业执行失败故障,则获取所述目标作业所在业务层的上一业务层中的执行失败的作业的标识;
根据所述目标作业的故障诊断类型和所述目标作业所在业务层的上一业务层中的执行失败的作业的标识,生成诊断结果;
生成用于提示下载所述目标作业所在业务层的上一业务层中的执行失败的作业的调度日志的提示信息;
输出所述诊断结果和所述提示信息。
9.根据权利要求6所述的批量业务处理中故障自动诊断方法,其特征在于,还包括:
若确定所述目标作业的故障诊断类型为所述作业文件故障,则获取所述目标作业的标识及作业文件负责人标识;
根据所述目标作业的故障诊断类型、所述目标作业的标识及作业文件负责人标识,生成诊断结果;
输出所述诊断结果。
10.一种批量业务处理中故障自动诊断装置,其特征在于,包括:
数据获取模块,用于获取当前批量业务处理过程中出现触发故障的目标作业的特征信息;
故障诊断模块,用于若根据所述目标作业的特征信息确定该目标作业所在业务层为预设的多个关联层级中的非首个业务层,则根据该目标作业所在业务层的上一业务层的关联作业执行状态获取所述目标作业对应的故障诊断类型。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的批量业务处理中故障自动诊断方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9任一项所述的批量业务处理中故障自动诊断方法。
CN202110279681.XA 2021-03-16 2021-03-16 批量业务处理中故障自动诊断方法及装置 Active CN113032174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110279681.XA CN113032174B (zh) 2021-03-16 2021-03-16 批量业务处理中故障自动诊断方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110279681.XA CN113032174B (zh) 2021-03-16 2021-03-16 批量业务处理中故障自动诊断方法及装置

Publications (2)

Publication Number Publication Date
CN113032174A true CN113032174A (zh) 2021-06-25
CN113032174B CN113032174B (zh) 2024-08-06

Family

ID=76470712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110279681.XA Active CN113032174B (zh) 2021-03-16 2021-03-16 批量业务处理中故障自动诊断方法及装置

Country Status (1)

Country Link
CN (1) CN113032174B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1499749A (zh) * 2002-11-06 2004-05-26 天津工程机械研究院 基于网络的移动作业机群设备状态监测与故障诊断系统
US20110191630A1 (en) * 2010-01-29 2011-08-04 International Business Machines Corporation Diagnosing a fault incident in a data center
CN112423331A (zh) * 2020-11-03 2021-02-26 中国联合网络通信集团有限公司 一种故障诊断方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1499749A (zh) * 2002-11-06 2004-05-26 天津工程机械研究院 基于网络的移动作业机群设备状态监测与故障诊断系统
US20110191630A1 (en) * 2010-01-29 2011-08-04 International Business Machines Corporation Diagnosing a fault incident in a data center
CN112423331A (zh) * 2020-11-03 2021-02-26 中国联合网络通信集团有限公司 一种故障诊断方法及装置

Also Published As

Publication number Publication date
CN113032174B (zh) 2024-08-06

Similar Documents

Publication Publication Date Title
US11601801B2 (en) System, method, apparatus, and computer program product for providing mobile device support services
US10025654B2 (en) Diagnostic and workflow engine with system integration
CN110546606A (zh) 租户升级分析
CN113435989A (zh) 金融数据处理方法及装置
CN113051094B (zh) 监管数据报送测试方法及装置
CN115617780A (zh) 数据导入方法、装置、设备及存储介质
CN113032174A (zh) 批量业务处理中故障自动诊断方法及装置
US20150156090A1 (en) Systems and Methods for Monitoring Multiple Services
CN111930620B (zh) 应用运行环境数据处理方法及装置
CN110968817A (zh) 一种页面内容检测方法、装置及系统
CN113485808B (zh) 系统时间回调方法及装置
CN118656185A (zh) 消息处理方法及相关装置
CN115827050A (zh) 一种数据调用方法、装置、电子设备及存储介质
CN117584116A (zh) Rpa机器人上报运行状态的方法、计算机装置及计算机可读存储介质
CN111190476A (zh) 运行状态的确定方法和装置、存储介质及电子装置
CN114661617A (zh) 测试环境探测方法及装置
CN113553235A (zh) 业务场景监测方法、装置、电子设备及存储介质
CN118484283A (zh) 任务管理方法及装置
CN118013565A (zh) 多端交互方法、装置、电子设备及可读存储介质
CN115187332A (zh) 订单信息处理方法、装置、系统、电子装置和存储介质
CN113407440A (zh) 无线通信模组的测试系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant