CN117971533A - 作业实例分析方法、装置、电子设备及存储介质 - Google Patents

作业实例分析方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117971533A
CN117971533A CN202311659430.XA CN202311659430A CN117971533A CN 117971533 A CN117971533 A CN 117971533A CN 202311659430 A CN202311659430 A CN 202311659430A CN 117971533 A CN117971533 A CN 117971533A
Authority
CN
China
Prior art keywords
target
error reporting
job
instance
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311659430.XA
Other languages
English (en)
Inventor
何秀
张宁
张思翔
钱文洁
陈灵珊
刘辉
陈德麟
吴绍峰
兰弼
汪顺利
许珍婷
陈智超
刘奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shangfei Intelligent Technology Co ltd
Original Assignee
Shangfei Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shangfei Intelligent Technology Co ltd filed Critical Shangfei Intelligent Technology Co ltd
Priority to CN202311659430.XA priority Critical patent/CN117971533A/zh
Publication of CN117971533A publication Critical patent/CN117971533A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/321Display for diagnostics, e.g. diagnostic result display, self-test user interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种作业实例处理方法、装置、电子设备及存储介质,涉及计算机技术领域,该方法包括:获取至少一个目标作业实例运行异常的目标报错信息;基于各目标作业实例运行异常的目标报错信息和预先构建的作业实例报错知识库,确定各目标报错信息分别对应的目标标签;作业实例报错知识库包括不同作业类型的多个作业实例运行异常的报错信息,每个报错信息对应一个标签,标签用于指示处理报错信息的处理人员;基于各目标标签,对各目标作业实例进行处理。通过作业实例报错知识库准确确定各目标作业实例运行异常的目标报错信息对应的处理人员,实现对各目标作业实例运行异常的快速处理,提升作业实例的处理效率,提升运行异常原因的分析效率。

Description

作业实例分析方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种作业实例分析方法、装置、电子设备及存储介质。
背景技术
通常一个单任务的完成通常需要开发和分析两个部门的人员协同完成。由于每个项目所涉及的部门众多、且部门间存在信息壁垒,使得业务流程的推进和维护造成困难。
目前,在处理作业实例时,为了判定作业实例运行失败的原因,通常由大数据分析人员在离线日志中逐一排查实例运行失败的原因,使得处理效率相对较低。
发明内容
本发明提供一种作业实例分析方法、装置、电子设备及存储介质,用以解决处理效率相对较低的问题。
本发明提供一种作业实例分析方法,包括:
获取至少一个目标作业实例运行异常的目标报错信息;
基于各所述目标作业实例运行异常的所述目标报错信息和预先构建的作业实例报错知识库,确定各所述目标报错信息分别对应的目标标签;所述作业实例报错知识库包括不同作业类型的多个作业实例运行异常的报错信息,每个报错信息对应一个标签,所述标签用于指示处理所述报错信息的处理人员;
基于各所述目标标签,对各所述目标作业实例进行处理。
根据本发明提供的一种作业实例处理方法,所述基于各所述目标标签,对各所述目标作业实例进行处理,包括:
基于各所述目标标签,确定各所述目标报错信息对应的目标处理人员;
基于各所述目标处理人员和预先构建的作业实例处理队列,对各所述目标作业实例进行处理;所述作业实例处理队列用于指示各所述目标作业实例的处理优先级。
根据本发明提供的一种作业实例处理方法,所述基于各所述目标作业实例运行异常的所述目标报错信息和预先构建的作业实例报错知识库,确定各所述目标报错信息分别对应的目标标签,包括:
基于各所述目标作业实例的作业名称,判断各所述目标作业实例对应的目标作业类型;
基于各所述目标作业实例对应的目标作业类型,从所述作业实例报错知识库中确定与所述目标作业类型对应的目标报错知识库;所述作业实例报错知识库包括数据同步作业报错知识库和非数据同步作业报错知识库;
将各所述目标报错信息分别与所述目标报错知识库中的各所述报错信息进行匹配;
将与各所述目标报错信息匹配的报错信息对应的标签,确定为各所述目标报错信息分别对应的所述目标标签。
根据本发明提供的一种作业实例处理方法,所述作业实例处理队列包括主要处理队列和次要处理队列,所述主要处理队列用于指示位于不同数仓层级的报错信息的第一处理优先级,所述次要处理队列用于指示位于同一数仓层级的报错信息的第二处理优先级,所述第二处理优先级是基于所述同一数仓层级的报错信息对应的作业实例依赖的下游作业数的数量确定的。
根据本发明提供的一种作业实例处理方法,所述基于各所述目标处理人员和预先构建的作业实例处理队列,对各所述目标作业实例进行处理,包括:
基于各所述目标处理人员和预先构建的作业实例处理队列,确定各所述目标处理人员对应的各所述目标报错信息分别在所述主要处理队列中的第一优先级和在所述次要处理队列中的第二优先级;
基于所述第一优先级和所述第二优先级,分别对各所述目标作业实例进行处理。
根据本发明提供的一种作业实例处理方法,所述作业实例报错知识库是基于以下步骤构建的:
获取各所述作业类型的各所述作业实例运行异常的历史运行日志信息;所述历史运行日志信息包括所述报错信息和所述报错信息对应的作业名称;
提取各所述历史运行日志信息中的所述报错信息;
基于各所述作业名称中的作业类型,对各所述报错信息进行分类,得到各所述作业类型分别对应的分类结果;
将各所述作业类型分别对应的分类结果中的多个报错信息进行清洗,得到清洗后的报错信息;
对各所述清洗后的报错信息进行打标签,得到包含标签的报错信息;
基于多个包含标签的报错信息,构建所述作业实例报错知识库。
本发明还提供一种作业实例处理装置,包括:
第一获取模块,用于获取至少一个目标作业实例运行异常的目标报错信息;
确定模块,用于基于各所述目标作业实例运行异常的所述目标报错信息和预先构建的作业实例报错知识库,确定各所述目标报错信息分别对应的目标标签;所述作业实例报错知识库包括不同作业类型的多个作业实例运行异常的报错信息,每个报错信息对应一个标签,所述标签用于指示处理所述报错信息的处理人员;
处理模块,用于基于各所述目标标签,对各所述目标作业实例进行处理。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述作业实例处理方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述作业实例处理方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述作业实例处理方法。
本发明提供的作业实例处理方法、装置、电子设备及存储介质,通过获取至少一个目标作业实例运行异常的目标报错信息;基于各所述目标作业实例运行异常的所述目标报错信息和预先构建的作业实例报错知识库,确定各所述目标报错信息分别对应的目标标签;所述作业实例报错知识库包括不同作业类型的多个作业实例运行异常的报错信息,每个报错信息对应一个标签,所述标签用于指示处理所述报错信息的处理人员;基于各所述目标标签,对各所述目标作业实例进行处理。通过作业实例报错知识库,能够准确确定各目标作业实例运行异常的目标报错信息对应的处理人员,实现对各目标作业实例运行异常的快速处理,提升作业实例的处理效率,进而提升运行异常原因的分析效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的作业实例处理方法的流程示意图之一;
图2是本发明提供的作业实例报错知识库的构建流程示意图;
图3是本发明提供的作业实例处理队列的示意图;
图4是本发明提供的作业实例处理方法的流程示意图之二;
图5是本发明提供的作业实例处理装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于更加清楚的理解本申请的各实施例,首先对相关背景知识进行介绍。
在大数据团队中,研发人员通常分为两类:一类是大数据开发人员,负责底层架构的部署;另一类是大数据分析人员,为业务提供问题解决方案。通常大数据开发人员负责大数据集群的部署,大数据分析人员在开发人员部署完成的大数据集群上进行离线开发作业,其中包括接口数据接入、数据建模、数据处理和数据导出等工作。由于业务需要,离线开发作业需要被赋予作业调度,以保证作业在指定时间执行。
离线开发作业任务在初次开发完成提交运行时均可正常执行调度,但由于后续数据源的调整以及大数据集群相关资源的变化,可能会造成任务调度失败,进而造成无法及时输出数据,对业务造成影响。
而在实际的大数据实例调度运行的场景下,不同业务流程对应的调度任务众多,失败原因繁杂,并且数据团队中的技术领域存在差异,人工通过对历史运行日志失败原因进行逐一辨别,需要耗费大量的人力。
一般来说,由数据源字段类型发生变化、数据源字段发生变化,如数据源字段发生删减,但sql语句中仍对该数据源字段进行处理等,由数据源变化造成的实例运行失败可由数据分析人员直接处理,但由于集群资源变化造成的实例运行失败需由数据开发人员处理。
下面结合图1-图4描述本发明的作业实例处理方法。
图1是本发明提供的作业实例处理方法的流程示意图之一,如图1所示,方法包括步骤101-步骤103;其中,
步骤101,获取至少一个目标作业实例运行异常的目标报错信息。
需要说明的是,本发明提供的作业实例处理方法适用于作业实例的分发和处理的场景中。该方法的执行主体可以为作业实例处理装置,例如电子设备、或者该作业实例处理装置中的用于执行作业实例处理方法的控制模块。
具体地,目标作业实例为当前运行异常的作业实例。从服务器侧可以采集目标作业实例运行异常的运行日志数据,其中,运行日志数据包括目标作业的作业名称和目标报错信息;通过正则化或者关键字定位等方法,提取运行日志数据中的目标报错信息,根据作业名称可以确定目标报错信息对应的目标作业类型,目标作业类型包括数据同步作业类型和非数据同步作业类型。
步骤102,基于各所述目标作业实例运行异常的所述目标报错信息和预先构建的作业实例报错知识库,确定各所述目标报错信息分别对应的目标标签;所述作业实例报错知识库包括不同作业类型的多个作业实例运行异常的报错信息,每个报错信息对应一个标签,所述标签用于指示处理所述报错信息的处理人员。
具体地,预先构建作业实例报错知识库,其中,作业实例报错知识库包括不同作业类型的多个作业实例运行异常的报错信息,作业类型为数据同步作业或者非数据同步作业,即作业实例报错知识库包括数据同步作业报错知识库和非数据同步作业报错知识库,数据同步作业报错知识库包括数据同步作业类型对应的多个作业实例运行异常的报错信息,非数据同步作业报错知识库包括非数据同步作业类型对应的多个作业实例运行异常的报错信息。每个报错信息对应一个标签,标签用于指示处理报错信息的处理人员,例如,标签0表示处理报错信息的处理人员为大数据分析人员,标签1表示处理报错信息的处理人员为大数据开发人员。
根据各目标作业实例运行异常的目标报错信息和预先构建的作业实例报错知识库,可以确定各目标报错信息分别对应的目标标签。
步骤103,基于各所述目标标签,对各所述目标作业实例进行处理。
具体地,根据各目标报错信息分别对应的目标标签,将各目标实例分发至各目标标签对应的目标处理人员,目标处理人员对各目标作业实例进行分析处理,进而确定出各目标作业实例运行异常的原因,实现作业实例运行异常的快速诊断。
根据作业实例运行异常的运行日志,从数据驱动的角度,根据团队中员工技能的不同,分发相应的作业实例,以确保任务有效高效的完成。
本发明提供的作业实例处理方法,通过获取至少一个目标作业实例运行异常的目标报错信息;基于各所述目标作业实例运行异常的所述目标报错信息和预先构建的作业实例报错知识库,确定各所述目标报错信息分别对应的目标标签;所述作业实例报错知识库包括不同作业类型的多个作业实例运行异常的报错信息,每个报错信息对应一个标签,所述标签用于指示处理所述报错信息的处理人员;基于各所述目标标签,对各所述目标作业实例进行处理。通过作业实例报错知识库,能够准确确定各目标作业实例运行异常的目标报错信息对应的处理人员,实现对各目标作业实例运行异常的快速处理,提升作业实例的处理效率,进而提升运行异常原因的分析效率。
可选地,所述作业实例报错知识库是基于以下步骤构建的:
(1)获取各所述作业类型的各所述作业实例运行异常的历史运行日志信息;所述历史运行日志信息包括所述报错信息和所述报错信息对应的作业名称。
具体地,从服务器侧可以采集各作业类型的各作业实例运行异常的历史运行日志信息,其中,历史运行日志信息包括报错信息和报错信息对应的作业名称。
将采集的历史运行日志信息存放至数据库,存放格式为每个作业实例的历史运行日志信息存放在一张表格中,表格中的行为作业实例历史运行日志的每一行信息,例如,将作业实例adm_arj_attendence_workstation_20230930090003运行异常的历史运行日志存放在数据库中。
(2)提取各所述历史运行日志信息中的所述报错信息。
具体地,通过对正则化或者关键字定位等方法,可以提取每条实例历史运行日志信息中的报错信息,并将报错信息进行汇总,得到各历史运行日志信息中的报错信息。
(3)基于各所述作业名称中的作业类型,对各所述报错信息进行分类,得到各所述作业类型分别对应的分类结果。
需要说明的是,为了更有效地管理与数据同步相关作业的报错信息和非数据同步(例如,数据仓库(Hive)/生态群(Spark)结构化查询语言(Structured Query Language,SQL))相关作业的报错信息,在构建作业实例报错知识库时分别创建数据同步作业报错知识库和非数据同步作业报错知识库等两个作业报错知识库。这样的划分考虑到了数据同步作业和非数据同步(Hive/Spark SQL)作业在报错原因上的差异,提高了报错信息管理的灵活性,使得报错信息的检索更为方便。这一方案在适用于具有不同作业类型和报错原因的数仓环境,有助于更细致地处理不同作业类型的作业异常情况。
具体地,根据各作业名称中的作业类型,对各报错信息进行分类,可以得到各作业类型分别对应的分类结果。即先对汇总后的报错信息依据作业名称中的作业类型关键字进行分表处理,分为数据同步作业报错知识表和非数据同步作业报错知识表。
(4)将各所述作业类型分别对应的分类结果中的多个报错信息进行清洗,得到清洗后的报错信息。
具体地,将各作业类型分别对应的分类结果中的多个报错信息进行清洗,即删除报错信息中特定的实例信息的元素,例如,作业实例名称,再对相同的报错信息进行去重处理,得到清洗后的报错信息。
(5)对各所述清洗后的报错信息进行打标签,得到包含标签的报错信息。
具体地,分别对数据同步作业报错知识表和非数据同步作业报错知识表中的每个清洗后的报错信息进行打标签,即根据作业处理技术领域人员的不同(大数据分析或者大数据开发)对清洗后的报错信息进行打标签,由大数据分析人员处理的标签为0,由大数据开发人员处理的标签为1。
(6)基于多个包含标签的报错信息,构建所述作业实例报错知识库。
具体地,在对清洗后的报错信息打完标签之后,根据多个包含标签的报错信息,分别构建数据同步作业报错知识库和非数据同步作业报错知识库,从而完成作业实例报错知识库的构建。
需要说明的是,在初次建立作业实例报错知识库时,需要对报错信息人工打标签,后续更新时采用相似度计算等自动化方法,为新的报错信息自动分配标签。这种结合人工和自动化的方式,能够提高作业实例报错知识库的效率和准确性。人工打标签保证了初次建立时的高质量标签,而自动打标签方法则在作业实例报错知识库更新时提供了更快速的处理。通过人工纠正阶段,能够修复自动标签可能引入的错误,降低了人为误差的风险。还可以设置调度时间,对作业实例报错知识库进行定期的增量更新,以保证数据的时效性和完整性。
在本申请中,通过构建作业实例报错知识库,不仅有助于快速定位和解决问题,而且为后续的数据团队提供了优化代码和集群的有力依据。作业实例报错知识库中记录了作业实例运行异常的历史运行的报错信息,能够更迅速、精准地应对作业实例运行异常问题。同时,通过分析历史运行的报错信息的根本原因,可以从中汲取见解,为代码优化和集群调优提供有价值的参考。这种作业实例报错知识库的建立,不仅提高了问题解决的效率,也为持续的系统优化奠定了坚实基础。
图2是本发明提供的作业实例报错知识库的构建流程示意图,诶如2所示,从服务器侧可以采集各作业类型的各作业实例运行异常的历史运行日志信息,其中,历史运行日志信息包括报错信息和报错信息对应的作业名称。通过对正则化或者关键字定位等方法,可以提取每条实例历史运行日志信息中的报错信息,并将报错信息进行汇总,得到各历史运行日志信息中的报错信息。对汇总后的报错信息依据作业名称中的作业类型关键字进行分表处理,分为数据同步作业报错知识表和非数据同步作业报错知识表。将各作业类型分别对应的分类结果中的多个报错信息进行清洗,即删除报错信息中特定的实例信息的元素,例如,作业实例名称,再对相同的报错信息进行去重处理,得到清洗后的报错信息。分别对数据同步作业报错知识表和非数据同步作业报错知识表中的每个清洗后的报错信息进行打标签,即根据作业处理技术领域人员的不同(大数据分析或者大数据开发)对清洗后的报错信息进行打标签。根据多个包含标签的报错信息,分别构建数据同步作业报错知识库和非数据同步作业报错知识库,从而完成作业实例报错知识库的构建。还可以设置调度时间,对作业实例报错知识库进行定期的增量更新,以保证数据的时效性和完整性。
可选地,上述步骤102的具体实现方式包括:
(a)基于各所述目标作业实例的作业名称,判断各所述目标作业实例对应的目标作业类型。
具体地,根据各目标作业实例的作业名称,可以确定作业名称是否包含目标关键字,例如,作业名称中是否包含datax,进而判断各目标作业实例对应的目标作业类型。如果作业名称中包括datax,则判断目标作业类型为数据同步作业类型,否则判断目标作业类型为非数据同步作业类型。
(b)基于各所述目标作业实例对应的目标作业类型,从所述作业实例报错知识库中确定与所述目标作业类型对应的目标报错知识库;所述作业实例报错知识库包括数据同步作业报错知识库和非数据同步作业报错知识库。
具体地,根据各目标作业实例对应的目标作业类型,可以从作业实例报错知识库中确定与目标作业类型对应的目标报错知识库;其中,作业实例报错知识库包括数据同步作业报错知识库和非数据同步作业报错知识库。例如,目标作业类型为数据同步作业类型,则可以从作业实例报错知识库中确定与目标作业类型对应的目标报错知识库为数据同步作业报错知识库,其中,数据同步作业报错知识库包括多个作业实例运行异常的报错信息,每个报错信息对应一个标签。
(c)将各所述目标报错信息分别与所述目标报错知识库中的各所述报错信息进行匹配。
(d)将与各所述目标报错信息匹配的报错信息对应的标签,确定为各所述目标报错信息分别对应的所述目标标签。
具体地,将与各目标报错信息匹配的报错信息对应的标签,可以确定为各目标报错信息分别对应的目标标签。例如,与目标报错信息匹配的报错信息对应的标签为1,则确定目标报错信息对应的目标标签为1。
在本申请实例中,通过从作业实例报错知识库中确定与目标作业类型对应的目标报错知识库,进而能够准确确定目标报错信息对应的目标标签,提升了目标标签确定的准确性和效率,进而提升作业实例的分发效率。
可选地,上述步骤103的具体实现方式包括:
基于各所述目标标签,确定各所述目标报错信息对应的目标处理人员;基于各所述目标处理人员和预先构建的作业实例处理队列,对各所述目标作业实例进行处理;所述作业实例处理队列用于指示各所述目标作业实例的处理优先级。
具体地,由于标签用于处理报错信息的处理人员,根据各目标标签,可以确定各目标报错信息对应的目标处理人员。例如,目标标签为0,则确定目标报错信息对应的目标处理人员为大数据分析人员;目标标签为1,则确定目标报错信息对应的目标处理人员为大数据开发人员。
将各目标实例分发至各目标处理人员,目标处理人员根据预先构建的作业实例处理队列,可以对各目标作业实例进行处理;其中,作业实例处理队列用于指示各目标作业实例的处理优先级。
本发明提供的作业实例处理方法,通过预先构建的作业实例处理队列,实现对各目标作业实例的快速处理,作业实例处理队列为作业实例处理的优先级判定提供了更为全面的视角,同时,作业实例处理队列有助于在业务需求和修复效率之间找到平衡,以降低业务中断风险。
可选地,所述作业实例处理队列包括主要处理队列和次要处理队列,所述主要处理队列用于指示位于不同数仓层级的报错信息的第一处理优先级,所述次要处理队列用于指示位于同一数仓层级的报错信息的第二处理优先级,所述第二处理优先级是基于所述同一数仓层级的报错信息对应的作业实例依赖的下游作业数的数量确定的。
具体地,在处理众多业务流程的作业实例时,数据分析人员通常难以从业务流程层面准确确定作业实例的重要性。因此,本申请提出一种作业实例处理队列,用于确定作业实例的报错信息处理的优先级。该作业实例处理队列从数据关系的角度出发,考虑下游依赖作业数和数仓分层,解决了数据分析人员在处理众多业务流程的作业时,数据分析人员通常难以从业务流程的层面准确确定作业的重要性的问题,提供了基于数据关系的定量手段,为作业实例处理队列的优先级判定提供了更为全面的视角,同时,作业实例处理队列有助于在业务需求和修复效率之间找到平衡,以降低业务中断风险。
图3是本发明提供的作业实例处理队列的示意图,如图3所示,作业实例处理队列包括主要处理队列和次要处理队列,主要处理队列的处理顺序按照adm->dwd->ods数仓层级的作业实例的报错信息的处理优先级,次要处理队列的处理顺序按照下游依赖作业数从高到低排序的处理优先级。
1)从数仓分层的角度出发,不同于一般的原始数据(operation data store,ods)->数据清晰(data warehouse detail,dwd)->业务数据(adm)的数仓分层方式,考虑业务需求和修复效率,构建顺序为adm->dwd->ods的主要队列,降低业务中断风险。
一个数据在数仓中正常的分层顺序为ods->dwd->adm,其中ods层涉及到数据的接入,dwd层涉及到处理的清洗整合,adm层涉及到数据的分析和输出。考虑到adm为直接向业务输出,同时adm作业处理后,对于整个数据链路来说,只需处理一个作业就可以保证数据的正常输出;同理,dwd层是连接adm和ods的中间层,相对于ods来说,dwd处理的时间成本相对较低。因此,在主要处理队列中,本申请不同于一般的数仓分层顺序(ods->dwd->adm),主要处理队列按照adm->dwd->ods的顺序构建,在业务需求和修复效率之间找到平衡,以降低业务中断风险。
2)从下游依赖作业数的角度,由下游依赖作业数大到小生成次要队列,以更好的满足作业执行的逻辑关系,提高整体数据处理效率。
在次要处理队列中,对于位于同一数仓层级的作业,按照其下游依赖作业数,由大到小排列,即先处理下游依赖作业数较大的作业。这种基于下游依赖作业数的排序方式有助于更好地满足作业执行的逻辑关系,从而提高整体的数据处理效率。
可选地,所述基于各所述目标处理人员和预先构建的作业实例处理队列,对各所述目标作业实例进行处理,包括:
基于各所述目标处理人员和预先构建的作业实例处理队列,确定各所述目标处理人员对应的各所述目标报错信息分别在所述主要处理队列中的第一优先级和在所述次要处理队列中的第二优先级;基于所述第一优先级和所述第二优先级,分别对各所述目标作业实例进行处理。
具体地,根据各目标处理人员和预先构建的作业实例处理队列,确定各目标处理人员对应的各目标报错信息分别在主要处理队列中的第一优先级和在次要处理队列中的第二优先级,再根据第一优先级和第二优先级,分别对各目标作业实例进行处理,即优先考虑处理第一优先级的目标报错信息对应的目标作业实例,对于第一优先级中位于同一数仓层级的目标作业实例,再根据同一数仓层级的报错信息对应的作业实例依赖的下游作业数的数量处理第二优先级的目标报错信息对应的目标作业实例。
图4是本发明提供的作业实例处理方法的流程示意图之二,如图4所示,方法包括步骤401-步骤409;其中,
步骤401,获取至少一个目标作业实例运行异常的运行日志数据。
步骤402,通过正则化或者关键字定位等方法,提取运行日志数据中的目标报错信息。
步骤403,基于各目标作业实例的作业名称,判断各目标作业实例对应的目标作业类型。目标作业类型为数据同步作业类型或者非数据同步作业类型。
步骤404,基于各目标作业实例对应的目标作业类型,从作业实例报错知识库中确定与目标作业类型对应的目标报错知识库;其中,其中,作业实例报错知识库包括数据同步作业报错知识库和非数据同步作业报错知识库。
步骤405,将各目标报错信息分别与目标报错知识库中的各报错信息进行匹配。
步骤406,将与各目标报错信息匹配的报错信息对应的标签,确定为各目标报错信息分别对应的目标标签。
步骤407,基于各目标标签,确定各目标报错信息对应的目标处理人员,并将各目标实例分发至各目标标签对应的目标处理人员。
步骤408,基于各目标处理人员和预先构建的作业实例处理队列,确定各目标处理人员对应的各目标报错信息分别在主要处理队列中的第一优先级和在次要处理队列中的第二优先级。
步骤409,基于第一优先级和第二优先级,分别对各目标作业实例进行处理。
本发明提供的作业实例处理方法,作业实例的运行日志为系统运行情况、资源利用情况、任务完成情况以及性能的优化,提供了宝贵的信息,有助于工作人员提前识别问题,并采取适当的措施,以提高系统的可用性的效率。同时,不仅为大数据团队在作业实例处理的问题上提供了解决方案,同时也为其他领域在面临团队成员技术领域不同时,提供了一种值得借鉴的作业分发方法。
下面对本发明提供的作业实例处理装置进行描述,下文描述的作业实例处理装置与上文描述的作业实例处理方法可相互对应参照。
图5是本发明提供的作业实例处理装置的结构示意图,如图5所示,作业实例处理装置500包括:第一获取模块501、确定模块502和处理模块503;其中,
第一获取模块501,用于获取至少一个目标作业实例运行异常的目标报错信息;
确定模块502,用于基于各所述目标作业实例运行异常的所述目标报错信息和预先构建的作业实例报错知识库,确定各所述目标报错信息分别对应的目标标签;所述作业实例报错知识库包括不同作业类型的多个作业实例运行异常的报错信息,每个报错信息对应一个标签,所述标签用于指示处理所述报错信息的处理人员;
处理模块503,用于基于各所述目标标签,对各所述目标作业实例进行处理。
本发明提供的作业实例处理装置,通过获取至少一个目标作业实例运行异常的目标报错信息;基于各所述目标作业实例运行异常的所述目标报错信息和预先构建的作业实例报错知识库,确定各所述目标报错信息分别对应的目标标签;所述作业实例报错知识库包括不同作业类型的多个作业实例运行异常的报错信息,每个报错信息对应一个标签,所述标签用于指示处理所述报错信息的处理人员;基于各所述目标标签,对各所述目标作业实例进行处理。通过作业实例报错知识库,能够准确确定各目标作业实例运行异常的目标报错信息对应的处理人员,实现对各目标作业实例运行异常的快速处理,提升作业实例的处理效率,进而提升运行异常原因的分析效率。
可选地,所述处理模块503,具体用于:
基于各所述目标标签,确定各所述目标报错信息对应的目标处理人员;
基于各所述目标处理人员和预先构建的作业实例处理队列,对各所述目标作业实例进行处理;所述作业实例处理队列用于指示各所述目标作业实例的处理优先级。
可选地,所述确定模块502,具体用于:
基于各所述目标作业实例的作业名称,判断各所述目标作业实例对应的目标作业类型;
基于各所述目标作业实例对应的目标作业类型,从所述作业实例报错知识库中确定与所述目标作业类型对应的目标报错知识库;所述作业实例报错知识库包括数据同步作业报错知识库和非数据同步作业报错知识库;
将各所述目标报错信息分别与所述目标报错知识库中的各所述报错信息进行匹配;
将与各所述目标报错信息匹配的报错信息对应的标签,确定为各所述目标报错信息分别对应的所述目标标签。
可选地,所述作业实例处理队列包括主要处理队列和次要处理队列,所述主要处理队列用于指示位于不同数仓层级的报错信息的第一处理优先级,所述次要处理队列用于指示位于同一数仓层级的报错信息的第二处理优先级,所述第二处理优先级是基于所述同一数仓层级的报错信息对应的作业实例依赖的下游作业数的数量确定的。
可选地,所述处理模块503,具体用于:
基于各所述目标处理人员和预先构建的作业实例处理队列,确定各所述目标处理人员对应的各所述目标报错信息分别在所述主要处理队列中的第一优先级和在所述次要处理队列中的第二优先级;
基于所述第一优先级和所述第二优先级,分别对各所述目标作业实例进行处理。
可选地,所述作业实例处理装置500还包括:
第二获取模块,用于获取各所述作业类型的各所述作业实例运行异常的历史运行日志信息;所述历史运行日志信息包括所述报错信息和所述报错信息对应的作业名称;
提取模块,用于提取各所述历史运行日志信息中的所述报错信息;
分类模块,用于基于各所述作业名称中的作业类型,对各所述报错信息进行分类,得到各所述作业类型分别对应的分类结果;
清洗模块,用于将各所述作业类型分别对应的分类结果中的多个报错信息进行清洗,得到清洗后的报错信息;
标签模块,用于对各所述清洗后的报错信息进行打标签,得到包含标签的报错信息;
构建模块,用于基于多个包含标签的报错信息,构建所述作业实例报错知识库。
图6是本发明提供的一种电子设备的实体结构示意图,如图6所示,该电子设备600可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行作业实例处理方法,该方法包括:获取至少一个目标作业实例运行异常的目标报错信息;基于各所述目标作业实例运行异常的所述目标报错信息和预先构建的作业实例报错知识库,确定各所述目标报错信息分别对应的目标标签;所述作业实例报错知识库包括不同作业类型的多个作业实例运行异常的报错信息,每个报错信息对应一个标签,所述标签用于指示处理所述报错信息的处理人员;基于各所述目标标签,对各所述目标作业实例进行处理。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的作业实例处理方法,该方法包括:获取至少一个目标作业实例运行异常的目标报错信息;基于各所述目标作业实例运行异常的所述目标报错信息和预先构建的作业实例报错知识库,确定各所述目标报错信息分别对应的目标标签;所述作业实例报错知识库包括不同作业类型的多个作业实例运行异常的报错信息,每个报错信息对应一个标签,所述标签用于指示处理所述报错信息的处理人员;基于各所述目标标签,对各所述目标作业实例进行处理。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的作业实例处理方法,该方法包括:获取至少一个目标作业实例运行异常的目标报错信息;基于各所述目标作业实例运行异常的所述目标报错信息和预先构建的作业实例报错知识库,确定各所述目标报错信息分别对应的目标标签;所述作业实例报错知识库包括不同作业类型的多个作业实例运行异常的报错信息,每个报错信息对应一个标签,所述标签用于指示处理所述报错信息的处理人员;基于各所述目标标签,对各所述目标作业实例进行处理。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种作业实例处理方法,其特征在于,包括:
获取至少一个目标作业实例运行异常的目标报错信息;
基于各所述目标作业实例运行异常的所述目标报错信息和预先构建的作业实例报错知识库,确定各所述目标报错信息分别对应的目标标签;所述作业实例报错知识库包括不同作业类型的多个作业实例运行异常的报错信息,每个报错信息对应一个标签,所述标签用于指示处理所述报错信息的处理人员;
基于各所述目标标签,对各所述目标作业实例进行处理。
2.根据权利要求1所述的作业实例处理方法,其特征在于,所述基于各所述目标标签,对各所述目标作业实例进行处理,包括:
基于各所述目标标签,确定各所述目标报错信息对应的目标处理人员;
基于各所述目标处理人员和预先构建的作业实例处理队列,对各所述目标作业实例进行处理;所述作业实例处理队列用于指示各所述目标作业实例的处理优先级。
3.根据权利要求1所述的作业实例处理方法,其特征在于,所述基于各所述目标作业实例运行异常的所述目标报错信息和预先构建的作业实例报错知识库,确定各所述目标报错信息分别对应的目标标签,包括:
基于各所述目标作业实例的作业名称,判断各所述目标作业实例对应的目标作业类型;
基于各所述目标作业实例对应的目标作业类型,从所述作业实例报错知识库中确定与所述目标作业类型对应的目标报错知识库;所述作业实例报错知识库包括数据同步作业报错知识库和非数据同步作业报错知识库;
将各所述目标报错信息分别与所述目标报错知识库中的各所述报错信息进行匹配;
将与各所述目标报错信息匹配的报错信息对应的标签,确定为各所述目标报错信息分别对应的所述目标标签。
4.根据权利要求2所述的作业实例处理方法,其特征在于,所述作业实例处理队列包括主要处理队列和次要处理队列,所述主要处理队列用于指示位于不同数仓层级的报错信息的第一处理优先级,所述次要处理队列用于指示位于同一数仓层级的报错信息的第二处理优先级,所述第二处理优先级是基于所述同一数仓层级的报错信息对应的作业实例依赖的下游作业数的数量确定的。
5.根据权利要求4所述的作业实例处理方法,其特征在于,所述基于各所述目标处理人员和预先构建的作业实例处理队列,对各所述目标作业实例进行处理,包括:
基于各所述目标处理人员和预先构建的作业实例处理队列,确定各所述目标处理人员对应的各所述目标报错信息分别在所述主要处理队列中的第一优先级和在所述次要处理队列中的第二优先级;
基于所述第一优先级和所述第二优先级,分别对各所述目标作业实例进行处理。
6.根据权利要求1所述的作业实例处理方法,其特征在于,所述作业实例报错知识库是基于以下步骤构建的:
获取各所述作业类型的各所述作业实例运行异常的历史运行日志信息;所述历史运行日志信息包括所述报错信息和所述报错信息对应的作业名称;
提取各所述历史运行日志信息中的所述报错信息;
基于各所述作业名称中的作业类型,对各所述报错信息进行分类,得到各所述作业类型分别对应的分类结果;
将各所述作业类型分别对应的分类结果中的多个报错信息进行清洗,得到清洗后的报错信息;
对各所述清洗后的报错信息进行打标签,得到包含标签的报错信息;
基于多个包含标签的报错信息,构建所述作业实例报错知识库。
7.一种作业实例处理装置,其特征在于,包括:
第一获取模块,用于获取至少一个目标作业实例运行异常的目标报错信息;
确定模块,用于基于各所述目标作业实例运行异常的所述目标报错信息和预先构建的作业实例报错知识库,确定各所述目标报错信息分别对应的目标标签;所述作业实例报错知识库包括不同作业类型的多个作业实例运行异常的报错信息,每个报错信息对应一个标签,所述标签用于指示处理所述报错信息的处理人员;
处理模块,用于基于各所述目标标签,对各所述目标作业实例进行处理。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述作业实例处理方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述作业实例处理方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述作业实例处理方法。
CN202311659430.XA 2023-12-05 2023-12-05 作业实例分析方法、装置、电子设备及存储介质 Pending CN117971533A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311659430.XA CN117971533A (zh) 2023-12-05 2023-12-05 作业实例分析方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311659430.XA CN117971533A (zh) 2023-12-05 2023-12-05 作业实例分析方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117971533A true CN117971533A (zh) 2024-05-03

Family

ID=90844819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311659430.XA Pending CN117971533A (zh) 2023-12-05 2023-12-05 作业实例分析方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117971533A (zh)

Similar Documents

Publication Publication Date Title
US11645191B2 (en) Review process for evaluating changes to target code for a software-based product
CN111736875B (zh) 版本更新监控方法、装置、设备及计算机存储介质
CN110287052B (zh) 一种异常任务的根因任务确定方法及装置
US8671084B2 (en) Updating a data warehouse schema based on changes in an observation model
US9002836B2 (en) System for managing electronic assets of a software service delivery organization
CN112507623B (zh) 一种算法中台构建方法及系统
CN111400011B (zh) 一种实时任务调度方法、系统、设备及可读存储介质
US20100121668A1 (en) Automated compliance checking for process instance migration
CN114416703A (zh) 数据完整性自动监控方法、装置、设备及介质
Majidi et al. An empirical study on the usage of automated machine learning tools
CN107480188B (zh) 一种审计业务数据处理方法和计算机设备
CN116302829A (zh) 数据监控方法、装置、设备及存储介质
CN111913824A (zh) 确定数据链路故障原因的方法及相关设备
CN112115234A (zh) 一种问题库分析方法和装置
CN108427709A (zh) 一种多源海量数据处理系统及方法
US20080033995A1 (en) Identifying events that correspond to a modified version of a process
CN117971533A (zh) 作业实例分析方法、装置、电子设备及存储介质
CN114661571B (zh) 模型评测方法、装置、电子设备和存储介质
CN112800219B (zh) 客服日志反馈回流数据库的方法及系统
US20210306236A1 (en) System and method for triage management
CN111913706B (zh) 一种调度自动化系统拓扑构建方法、存储介质和计算设备
CN110908918A (zh) 针对多个相互依赖的node.js模块的单元测试方法及装置
CN112395119A (zh) 异常数据处理方法、装置、服务器及存储介质
EP3852033A1 (en) Method and systems for analyzing software tickets
US20240013111A1 (en) Automation support device and automation support method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination