CN112181704A

CN112181704A - 一种大数据任务处理方法、装置、电子设备及存储介质

Info

Publication number: CN112181704A
Application number: CN202011044886.1A
Authority: CN
Inventors: 杨泽森
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-01-05

Abstract

本申请实施例提供一种大数据任务处理方法、装置、电子设备及存储介质，对大数据任务进行解析得到大数据任务中的待诊断信息，确定待诊断信息中不符合预设的目标信息规则的异常信息，并执行与异常信息对应的处理策略。在本方案中可以自动检测大数据任务中的异常信息，并执行与异常信息对应的处理策略，从而解决了现有大数据任务存在的信息不规范的问题，提高了大数据任务的处理效率。

Description

一种大数据任务处理方法、装置、电子设备及存储介质

技术领域

本申请涉及大数据领域，尤其涉及一种大数据任务处理方法、装置、电子设备及存储介质。

背景技术

随着大数据时代的到来，企业中每天存在海量的大数据计算，用于支撑企业营销和运营。在企业大数据平台、数据中台或数据仓库环境中会存在大量用户提交的Hadoop计算任务。

由于大数据用户的个人技术能力高低不同，用户提交的大数据任务在脚本语法规范性、数据层级规范性、资源利用等方面存在很大差异，从而影响任务执行效率。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种大数据任务处理方法、装置、电子设备及存储介质。

第一方面，本申请提供了一种大数据任务处理方法，包括：

对大数据任务进行解析，得到所述大数据任务的待诊断信息；

确定所述待诊断信息中不符合预设的目标信息规则的异常信息，所述异常信息对应的异常类型至少包含以下之一：语法异常、数据层级异常、资源利用异常；

执行与所述异常信息对应的处理策略。

在一种可能的实现方式中，对大数据任务进行解析，得到所述大数据任务的待诊断信息，包括：

获取与预设的目标异常类型对应的解析策略，并利用所述解析策略对所述大数据任务进行解析，得到所述大数据任务的待诊断信息。

在一种可能的实现方式中，获取与预设的目标异常类型对应的解析策略，并利用所述解析策略对所述大数据任务进行解析，得到所述大数据任务的待诊断信息，包括：

若所述目标异常类型包含语法异常和数据层级异常之中的至少一种，则获取脚本解析策略和脚本解释计划解析策略；

利用所述脚本解析策略对所述大数据任务的Hive QL脚本进行解析，得到所述大数据任务对应的第一抽象语法树；

利用所述脚本解释计划解析策略对所述大数据任务的Hive脚本解释计划进行解析，得到所述大数据任务对应的第二抽象语法树；

由所述第一抽象语法树中的信息和所述第二抽象语法树中的信息组成所述大数据任务的第一待诊断信息，所述第一待诊断信息至少包含以下之一：目标表、来源信息表、查询条件、查询字段、来源信息表元数据。

在一种可能的实现方式中，获取与预设的目标异常类型对应的解析策略，并利用所述解析策略对所述大数任务进行解析，得到所述大数据任务的待诊断信息，包括：

若所述目标异常类型包含资源利用异常，则获取资源占用数据解析策略；

利用所述资源占用数据解析策略，确定所述大数据任务对应的计算任务及所述计算任务包括的所有子任务，并获取所述所有子任务对应的计算资源占用数据；

根据所述第二待诊断信息计算所述大数据任务对应的计算资源异常量和/或数据倾斜程度；

将所述计算资源异常量和/或数据倾斜程度作为所述大数据任务的第二待诊断信息。

在一种可能的实现方式中，确定所述待诊断信息中不符合预设的目标信息规则的异常信息，包括：

若所述目标异常类型中包含语法异常，则所述目标信息规则中包含用于检测语法异常的语法规则，确定所述第一待诊断信息中不符合所述语法规则的信息为异常类型为语法异常的异常信息。

若所述目标异常类型中包含数据层级异常，则所述目标信息规则中包含用于检测数据层级异常的数据层级规则，确定所述第一待诊断信息中数据层级不符合所述数据层级规则的目标表和对应的来源信息表为异常类型为数据层级异常的异常信息。

若所述目标异常类型中包含资源利用异常，则所述目标信息规则中包含用于检测资源利用异常的资源利用规则，若所述第二待诊断信息中的计算资源异常量和/或所述数据倾斜程度不满足所述资源利用规则，则确定所述待诊断信息中包含异常类型为资源利用异常的异常信息。

在一种可能的实现方式中，执行与所述异常信息对应的处理策略，包括：

根据所述异常信息，确定与所述异常信息对应的优化策略；

对所述异常信息和对应的优化策略进行展示。

生成与所述异常信息对应的告警信息，所述告警信息包含异常信息、异常信息的异常类型、异常信息的发现时间、异常信息所属的大数据任务的标识和所述大数据任务的负责人信息；

确定与所述异常信息对应的目标告警人员范围和目标告警形式；

采用所述目标告警形式将所述告警信息发送至所述目标告警人员。

在一种可能的实现方式中，所述方法还包括：

存储所述告警信息；

解析接收的可视化请求，得到可视化请求中包含的目标时间范围和目标可视化策略；

确定存储的告警信息中包含的异常信息的发现时间在所述目标时间范围内的目标告警信息；

利用所述目标可视化策略对所述目标告警信息进行可视化处理，得到可视化数据图；

对所述可视化数据图进行展示。

第二方面，本发明实施例还提供了一种大数据任务处理装置，包括：

解析模块，用于对大数据任务进行解析，得到所述大数据任务的待诊断信息；

异常检测模块，用于确定所述待诊断信息中不符合预设的目标信息规则的异常信息，所述异常信息对应的异常类型至少包含以下之一：语法异常、数据层级异常、资源利用异常；

处理模块，用于执行与所述异常信息对应的处理策略。

在一种可能的实现方式中，所述处理模块具体用于：

根据所述异常信息，确定与所述异常信息对应的优化策略；

对所述异常信息和对应的优化策略进行展示。

在一种可能的实现方式中，所述处理模块具体用于：

第三方面，本申请实施例还提供了一种电子设备，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的数据处理程序，以实现第一方面所述的大数据任务处理方法。

第四方面，本申请实施例还提供了一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现第一方面所述的大数据任务处理方法。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的一种大数据任务处理方法，对大数据任务进行解析得到大数据任务中的待诊断信息，确定待诊断信息中不符合预设的目标信息规则的异常信息，并执行与异常信息对应的处理策略。在本方案中可以自动检测大数据任务中的异常信息，并执行与异常信息对应的处理策略，从而解决了现有大数据任务存在的信息不规范的问题，提高了大数据任务的处理效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种大数据任务处理系统的架构图；

图2为本申请实施例提供的一种大数据任务处理方法的流程图；

图3为本申请实施例提供的一种可视化数据图；

图4为本申请实施例提供的一种可视化数据图；

图5为本申请实施例提供的一种大数据任务处理方法的示意图；

图6为本申请实施例提供的一种大数据任务处理装置的框图；

图7为本申请实施例提供的一种电子设备的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于对本申请实施例的理解，下面首先对本申请实施例涉及到的一些概念名词进行简要说明：

大数据：英文名称big data，IT行业术语，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的5V特点(IBM提出)：Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

大数据平台：是为了计算现今社会所产生的越来越大的数据量。以存储、运算、展现作为目的的平台。是允许开发者们或是将写好的程序放在“云”里运行,或是使用“云”里提供的服务,或二者皆是。类似目前很多舆情监测软件大数据分析系统,大数据平台是一个集数据接入、数据处理、数据存储、查询检索、分析挖掘等、应用接口等为一体的平台。

数据仓库：英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

Hadoop集群：Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop的框架最核心的设计就是HDFS和Map Reduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算，Map Reduce是一种编程模型，其中Map指映射，Reduce指归约。

YARN：Apache Hadoop YARN(Yet Another Resource Negotiator，另一种资源协调者)是一种新的Hadoop资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。YARN分层结构的本质是Resource Manager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。Resource Manager将各个资源部分(计算、内存、带宽等)精心安排给基础Node Manager(YARN的每节点代理)。

Hive：是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

Hive QL：是一种类似SQL的语言,它与大部分的SQL语法兼容,但是并不完全支持SQL标准,如Hive QL不支持更新操作,也不支持索引和事务，它的子查询和join操作也很局限,，这是因其底层依赖于Hadoop云平台这一特性决定的，但其有些特点是SQL所无法企及的。例如多表查询、支持create table as select和集成Map Reduce脚本等。

Kafka：是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。

JOB：是在Hadoop集群上运行的MapReduce任务，是一个并行计算与运行软件框架(Software Framework)。它提供了一个庞大但设计精良的并行计算软件框架，能自动完成计算任务的并行化处理，自动划分计算数据和计算任务，在集群节点上自动分配和执行任务以及收集计算结果，将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统底层的复杂细节交由系统负责处理，大大减少了软件开发人员的负担。

Storm：免费、开源、分布式、跨语言、可伸缩、低延迟、容错实时流计算系统。每个节点每秒处理百万元组。

CEP：复合事件处理(CEP，Complex Event Processing)是一种基于动态环境中事件流的分析技术，事件在这里通常是有意义的状态变化，通过分析事件间的关系，利用过滤、关联、聚合等技术，根据事件间的时序关系和聚合关系制定检测规则，持续地从事件流中查询出符合要求的事件序列，最终分析得到更复杂的复合事件，主要用于网络诈欺识别等防止犯罪，银行等金融行业防止，以及风险规避和营销决策等。

Siddhi：是Apache软件许可证v2.0下的一个轻量级、易于使用的开源复杂事件处理引擎(CEP)。是一个轻量级的，简单的开源的复杂事件流程引擎。它使用类SQL的语言描述事件流任务，可以很好的支撑开发一个可扩展的，可配置的流式任务执行引擎。

抽象语法树：是源代码语法结构的一种抽象表示，树上的每个节点都表示源代码中的一种结构。目前在应用中，可以生成源代码的抽象语法树，然后对抽象语法树中的节点进行操作，比如插入、修改、删除等操作，之后则可以基于抽象语法树生成所需要的目标代码。

以上对本申请实施例涉及到的一些概念名词进行了说明，下面将结合附图以具体实施例对本申请做进一步的解释说明，实施例并不构成对本申请实施例的限定。

图1为本申请实施例提供的一种大数据任务处理系统的架构图，如图1所示，该系统包括规则设置模块、异常诊断模块和可视化模块，其中规则设置模块中包含预先设置的语法规则、数据层级规则、资源利用规则以及异常信息处理策略，异常诊断模块包括语法诊断引擎、数据层级诊断引擎和资源利用异常诊断引擎，其中语法诊断引擎用于基于语法规则检测大数据任务中不符合语法规则的异常信息，数据层级诊断引擎用于基于数据层级规则检测大数据任务中不符合数据层级规则的异常信息，资源利用异常诊断引擎用于基于资源利用规则检测大数据任务中不符合资源利用规则的异常信息，而可视化模块包含优化建议模块、异常告警模块和诊断报告模块，其中优化建议模块用于根据异常信息处理策略对异常信息和异常信息的优化策略进行展示，异常告警模块用于根据异常信息处理策略生成与异常信息对应的告警信息并进行告警，诊断报告模块则根据异常信息处理策略基于告警信息生成可视化数据图并展示，图中的API(Application Programming Interface，应用程序接口)是一些预先定义的函数，或指软件系统不同组成部分衔接的约定。

图2为本发明实施例提供的一种大数据任务处理方法的流程图，该方法应用于图1所示的大数据任务处理系统，如图2所示，该方法可以包括如下步骤：

S21.对大数据任务进行解析，得到所述大数据任务的待诊断信息。

大数据任务即为大数据平台的应用作业，在大数据平台上，应用作业(prdtask)为一个用户请求的业务作业，例如查询该用户一段时间内的历史交易数据等。

一个大数据任务中通常可以包含多种信息，基于不同种类的信息可以实现对大数据任务进行不同异常类型的异常诊断，例如根据大数据任务的脚本信息可以检测大数据任务是否存在语法异常和/或数据层级异常、根据大数据任务的资源数据可以确定大数据任务是否存在资源利用异常等。其中，语法异常是指大数据任务的脚本信息中存在语法不符合预设的语法规则的脚本信息；数据层级异常是指大数据任务的脚本信息中存在数据层次不符合预设数据层级规则的表格，；资源利用异常是指大数据任务存在计算资源浪费和/或数据倾斜的问题。

在一实施例中，预先设置好要诊断的异常对应的异常类型，下称目标异常类型(例如语法异常、数据层级异常、资源利用异常等)，获取与预设的目标异常类型对应的解析策略，并利用所述解析策略对所述大数任务进行解析，得到所述大数据任务的待诊断信息。

其中目标异常类型为需要诊断的异常对应的异常类型，例如可以为语法异常、数据层级异常和/或资源利用异常等。

不同异常类型的异常在进行诊断时需要的待诊断信息不同，而不同的待诊断信息通常是通过不同的解析策略得到的，所以不同的目标异常类型对应不同的解析策略。

在一实施例中，可以预先设置异常类型与解析策略的对应关系，在确定了目标异常类型后就可以根据对应关系确定对应的解析策略，利用解析策略对大数据任务进行解析，即可得到用于对目标异常类型的异常进行诊断的待诊断信息。

在一实施例中，在S21之前先检测是否接收到诊断触发操作，若接收到诊断触发操作，则开始执行S21，其中诊断触发操作为用于触发大数据任务异常诊断的操作。

在一例子中，在大数据平台上设置有诊断触发按钮，当检测到诊断触发按钮被按压后，即确定检测到诊断触发操作。

上述对检测诊断触发操作的描述只是一个示例，并不构成对检测诊断触发操作的方法的限定，除了上述方法还可以采取任何其它的方式检测诊断触发操作，具体的不再一一描述。

S22.确定所述待诊断信息中不符合预设的目标信息规则的异常信息，所述异常信息对应的异常类型至少包含以下之一：语法异常、数据层级异常、资源利用异常。

由上述描述可知，用户已经预先设定了需要诊断的目标异常类型，基于此，预设的目标信息规则需要是能够实现对异常类型为目标异常类型的异常进行检测的信息规则，其中目标信息规则可以包含一条或多条信息规则，根据不同的信息规则可以实现对不同异常的检测。

其中异常信息即为不符合也就是违反至少一条目标信息规则的信息。

在一实施例中，可以预先在大数据平台中设置多条候选信息规则，并根据候选信息规则所能诊断的异常对应的异常类型对候选信息规则进行分类，将属于同一异常类型的候选信息规则划分为同一类，例如可以将候选信息规则划分为用于检测语法异常的语法规则、用于检测数据层级异常的数据层级规则和用于检测资源利用异常的资源利用规则三大类，每个类中可以包含一条或多条候选信息规则。通过对候选信息规则按照异常类型进行分类，使得用户可以根据目标异常类型从对应的分类中选取候选信息规则作为目标信息规则，更加方便。

在一例子中，可以根据用户对候选信息规则的选取操作确定与选取操作对应的候选信息规则(即被选中的候选信息规则)作为目标信息规则，其中目标信息规则可以包括一条或多条候选信息规则。

在一例子中，还可以预先设置各异常类型对应的默认信息规则(默认信息规则可以包含一条或多条候选信息规则)，若预设时间段内(例如10秒内)没有检测到用户对候选信息规则的选取操作，则可以确定目标异常类型对应的默认信息规则为目标信息规则，其中默认信息规则中可以包括一条或多条候选信息规则。

至于是如何确定异常信息的，在下文中进行描述，此处先不详述。

S23.执行与所述异常信息对应的处理策略。

在一实施例中，预先设置各条目标信息规则与处理策略的对应关系表，在确定出异常信息后，根据异常信息所违反的目标信息规则，从对应关系表中自动查询出与该目标信息规则对应的处理策略并执行。

至于是如何执行与异常信息对应的处理策略的，在下文中进行描述，此处先不详述。

本申请实施例提供的一种大数据任务处理方法，对大数据任务进行解析得到大数据任务中的待诊断信息，从待诊断信息中确定不符合预设的目标信息规则的异常信息，其中异常信息对应的异常类型可以为语法异常、数据层级异常和/或资源利用异常，对异常信息执行对应的处理策略。在本方案中可以自动检测大数据任务中的异常信息，并执行与异常信息对应的处理策略，从而解决了现有大数据任务存在的语法不规范和/或资源利用不合理等问题，提高了大数据任务的处理效率。

以上从整体上对本申请实施例提供的大数据任务处理方法进行了说明，下面将结合具体情况以具体实施例对上述S21-S23做进一步的解释说明，实施例并不构成对本申请实施例的限定。

本实施例提供的大数据任务处理方法，可以实现对语法异常、数据层级异常和/或资源利用异常的检测和处理。

在一种情况下，若目标异常类型包含语法异常和数据层级异常之中的至少一种，则S21可以获取脚本解析策略和脚本解释计划解析策略，其中脚本解析策略和脚本解释计划解析策略可以为预设的解析函数，例如脚本解析计划解析策略可以为EXPLAIN EXTENDED或EXPLAIN命令，其中EXPLAIN命令用于查看大数据任务脚本的执行计划，显示大数据任务如何使用索引来处理select语句以及连接表，提供有关表如何联接和联接的次序，select语句用于从数据库中选取数据，用EXPLAIN EXTENDED命令查看大数据任务会比EXPLAIN命令多一列filtered，filtered指返回结果的行占需要读到的行的百分比。利用所述脚本解析策略对所述大数据任务的Hive QL脚本进行解析，得到所述大数据任务对应的第一抽象语法树，利用所述脚本解释计划解析策略对所述大数据任务的Hive脚本解释计划进行解析，得到所述大数据任务对应的第二抽象语法树，由所述第一抽象语法树中的信息和所述第二抽象语法树中的信息组成所述大数据任务的第一待诊断信息，所述第一待诊断信息至少包含以下之一：目标表、来源信息表、查询条件、查询字段、来源信息表元数据。其中，目标表用于存储大数据任务的计算结果；来源信息表是业务系统中预先存储的表，在大数据平台执行大数据任务时从来源信息表中获取用于计算的数据；查询条件是用于对来源信息表中的数据进行筛选的条件，例如查询条件可以为数据存储时间、数据类型(例如金融商品购买记录、服装商品购买记录等)等；查询字段即为需要查询的字段，用于查询需要的字段；来源信息表元数据就是来源信息表的元数据，元数据(Metadata)，又称中介数据、中继数据，为描述数据的数据(data about data)，主要是描述数据属性(property)的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录，为了达到编制目录的目的。

若所述目标异常类型中包含语法异常，则所述目标信息规则中包含用于检测语法异常的语法规则，S22确定所述第一待诊断信息中不符合所述语法规则的信息为异常类型为语法异常的异常信息。

其中语法规则可以包括基础语法规则和性能规范规则，基础语法规则和性能规范规则又各自可以包含多条候选信息规则，例如下表所示：

在一实施例中，还可以设置各候选信息规则对应的级别，级别越高说明不符合该候选信息规则的异常信息的危害越大。

在一实施例中，若目标异常类型中包含语法异常时，则用户可以从上表所示的候选信息规则中选取部分或全部作为目标信息规则，S22可以根据选取的目标信息规则检测大数据任务的第一诊断信息中是否包含违反语法规则的异常信息，若包含违反语法规则的异常信息则确定大数据任务存在异常类型为语法异常的异常信息，若不包含违反语法规则的异常信息则确定大数据任务不存在异常类型为语法异常的异常信息。例如目标信息规则中包含“禁止group by数字的写法”这一信息规则，则若第一诊断信息中包含使用了groupby数字的写法的信息，则确定该信息为异常类型为语法异常的异常信息。

在一实施例中，若所述目标异常类型中包含数据层级异常，则所述目标信息规则中包含用于检测数据层级异常的数据层级规则，S22确定所述第一待诊断信息中数据层级不符合所述数据层级规则的目标表和对应的来源信息表为异常类型为数据层级异常的异常信息。

在企业大数据平台中，数据加工需要符合一定的数据层级规范，如大数据中的数据仓库数据层级规范。本实施例中的数据层级规则可以为数据的层级顺序，以便于在对大数据任务的第一待诊断信息进行检测时，检查大数据任务加工的目标表和其对应的来源信息表的数据层次是否符合数据层级规则，数据层级规则可以如下表所示：

通过上表可以看出数据层级ODM高于STG，数据层级IDM高于ODM，数据层级SDM高于IDM。

在一实施例中，若目标异常类型中包含数据层级异常，则目标信息规则中可以包含上述数据层级规则，S22通过上述数据层级规则对第一待诊断信息中包含的目标表和来源信息表的数据层级进行检测，确定目标表的数据层级和其对应的来源信息表的数据层级之间是否符合上述数据层级规则，若不符合则确定大数据任务存在异常类型为数据层级异常的异常信息，其中数据层级不符合数据层级规则的目标表和来源信息表就是异常信息。

在具体实施时，目标表和来源信息表的表名中均包含有其对应的数据层级的简称，例如表名为“ODM.TABLENAME”则该表的数据层级就是ODM即数据基础层，根据目标表的表名和其对应的来源信息表的表名确定目标表的数据层级和其对应的来源信息表的数据层级，然后检测两者的数据层级之间的关系是否符合数据层级规则，因为数据加工时是将来源信息表中的数据写入到对应的目标表中，所以来源信息表对应的数据层级需要低于目标表的数据层级，若来源信息表的数据层级高于其对应的目标表的数据层级，则确定该来源信息表和对应的目标表为异常类型为数据层级异常的异常信息。

在一种情况下，若所述目标异常类型还包含资源利用异常，则S21可以获取资源占用数据解析策略，利用所述资源占用数据解析策略，确定所述大数据任务对应的计算任务及所述计算任务包括的所有子任务，并获取所述所有子任务对应的计算资源占用数据，根据子任务对应的计算资源占用数据计算所述大数据任务对应的计算资源异常量和/或数据倾斜程度将所述计算资源异常量和/或数据倾斜程度作为所述大数据任务的第二待诊断信息。

每个大数据任务在处理过程中，可能会被拆分为一个或多个计算任务(Job)，而每个Job中可以有一个或多个子任务(Task)。对于Hadoop来说，一个Job即为一个Map Reduce程序，而一个Job里面可以有一个或多个Task，Task又可以区分为Map Task和Reduce Task，所以根据子任务的计算资源占用数据即可得到大数据任务的相关数据。

在一实施例中，子任务的计算资源占用数据可以至少包含以下之一：子任务对应的资源申请量、最大资源使用量及运行时间，其中资源通常指内存，资源申请量为每个子任务申请的Yarn容器的大小。

最大资源使用量可以基于每个子任务的最大物理内存使用量和虚拟内存使用量采用下式计算得到：

最大资源使用量＝MAX(最大物理内存使用量，虚拟内存使用量/2.1)

其中，2.1为虚拟内存率的默认值。

在一实施例中，大数据任务对应的计算资源异常量包括大数据任务中各计算任务对应的任务资源异常量和/或大数据任务对应的作业资源异常量，其中作业资源异常量等于大数据任务中所有计算任务对应的任务资源异常量的总和。

在一实施例中，大数据任务中各计算任务对应的任务资源异常量可以采用下述方式计算：

根据资源申请量、最大资源使用量及运行时间计算子任务对应的资源异常量，根据计算任务下所有子任务的资源异常量得到计算任务对应的任务资源异常量。

其中，每个子任务的资源异常量可以通过下式计算：

资源异常量＝(资源申请量-1.5×最大资源使用量)×运行时间。

而计算任务对应的任务资源异常量等于该计算任务所有子任务的资源异常量的总和。

在一实施例中，大数据任务的数据倾斜程度可以采用下述方式计算：

在YARN扩展原生代码，在AM(Application Master)中启动线程监控发送Container汇报的JOB Counter快照信息和JOB结束后最终状态；在kafka接受缓存JOB实时数据，为实时计算提供数据源，使用Eagle集成Strom和倾斜算法组件用于实时分析JOB数据，从而得到数据倾斜程度，其中倾斜算法可以为现有的算法。

在一实施例中，若所述目标异常类型中包含资源利用异常，则所述目标信息规则中包含用于检测资源利用异常的资源利用规则，S22检测所述大数据任务对应的计算资源异常量和/或数据倾斜程度是否符合资源利用规则，若所述计算资源异常量和/或所述数据倾斜程度不满足所述资源利用规则，则确定所述待诊断信息中包含异常类型为资源利用异常的异常信息。

在一实施例中，资源利用规则包含用于检测大数据任务是否存在计算资源浪费的第一资源规则和第二资源规则，其中第一资源规则和第二资源规则为根据实际需求设定的规则，例如如果某计算任务的任务资源异常量过多就会造成其他计算任务获取不到足够的资源执行，所以第一资源规则可以为各计算任务的任务资源异常量不大于第一阈值，同理如果大数据任务的作业资源异常量过多就会造成该大数据平台中的其他大数据任务获取不到足够的资源执行，因此第二资源规则可以为大数据任务的作业资源异常量不大于第二阈值，其中第一阈值和第二阈值为设定值。

在一实施例中，通过检测任务资源异常量是否符合第一资源规则来确定任务资源异常量是否异常，通过检测作业资源异常量是否符合第二资源规则来确定作业资源异常量是否异常，当存在任务资源异常量不符合第一资源规则和/或作业资源异常量不符合第二资源规则的情况下，就确定大数据任务存在异常类型为资源利用异常的异常信息，其中异常信息指的就是任务资源异常量不符合第一资源规则的子任务和作业资源异常量不符合第二资源规则的大数据任务。

在一实施例中，资源利用规则还包括用于检测大数据任务是否存在数据倾斜的第三资源规则，其中第三资源规则可以为根据具体需求设定的规则，例如数据倾斜程度不大于预设程度，其中预设程度为设定值，当数据倾斜程度大于预设程度时就确定大数据任务存在异常类型为资源利用异常的异常数据。

本实施例提供的大数据处理方法可以为用户提供大数据任务在大数据语法规范、数据层级规范、资源利用三方面三维立体的任务健康状态诊断服务，检测更加全面。

下面以具体实施例的方式对S23进行详细描述。

在一实施例中，预先设定各候选信息规则对应的处理策略，当通过S21和S22确定出违反某一目标信息规则的异常信息后，就获取与该目标信息规则对应的处理策略作为该异常信息对应的处理策略，并在S23中执行该处理策略。

在一实施例中，处理策略可以包括：优化处理和/或告警处理，则S23就可以包括执行与异常信息对应的优化处理和/或执行与异常信息对应的告警处理。

在一实施例中，执行异常信息对应的优化处理可以包括：

根据所述异常信息，确定与所述异常信息对应的优化策略，并对所述异常信息和对应的优化策略进行展示。

在一实施例中，大数据平台设置有显示屏，对异常信息和对应的优化策略进行展示即为在大数据平台的显示屏中显示。

在一实施例中，优化策略为预先设置的与候选信息规则对应的优化策略(例如下表所示)，当异常信息违反某一候选信息规则时，就确定该候选信息规则对应的优化策略为该异常信息对应的优化策略。

在一实施例中，执行与异常信息对应的告警处理可以包括：

生成与所述异常信息对应的告警信息，所述告警信息包含异常信息、异常信息的异常类型、异常信息的发现时间、异常信息所属的大数据任务的标识和所述大数据任务的负责人信息，确定与所述异常信息对应的目标告警人员范围和目标告警形式，采用所述目标告警形式将所述告警信息发送至所述目标告警人员。

其中异常信息指的是具体的信息内容片段，例如“select*from(select distinctjod-name，task-name from”这一片段中包含了“禁止使用select*”和“避免使用distinct”这两条规则信息，则确定“select*from(select distinct jod-name，task-name from”为异常信息，其对应的异常类型就是语法异常。

其中大数据任务的负责人信息、异常信息对应的目标告警人员范围和目标告警形式都是预先设置好的或是用户输入的，通常目标告警人员范围为大数据任务的负责人和大数据平台的运营管理负责人，而告警形式可以为邮件发送的形式、短信发送的形式和/或屏幕显示的方式等等。

在一实施例中，告警信息对应的告警形式包含屏幕显示，则可以以异常告警信息菜单的形式进行展示，在展示页面中大数据用户或大数据平台管理人员可以直接看到当日发生的大数据异常信息、异常信息所属的大数据任务标识、异常信息对应的异常类型、异常信息的发现时间等信息。

在上述实施例的基础上，本申请提供的大数据任务处理方法还可以包括：对告警信息进行存储，根据获取的可视化请求对存储的告警信息进行可视化处理，具体的可以包括：

对接收的可视化请求进行解析，得到可视化请求中包含的目标时间范围和目标可视化策略，确定存储的告警信息中包含的异常信息的发现时间在目标时间范围内的目标告警信息，根据目标可视化策略对所述目标告警信息进行可视化处理，得到可视化数据图，对所述可视化数据图进行展示。

在一实施例中，大数据平台上设置有可视化界面，在可视化界面中设置有时间范围选择项和可视化策略选择项，用户通过对时间范围选择项和可视化策略选择项进行点击来选取目标时间范围和目标可视化策略，当检测到时间范围选择项和可视化策略选择项被点击了之后自动生成可视化请求，该请求中包含被点击的时间范围选择项对应的时间范围也就是目标时间范围，还包括被点击的可视化策略选择项对应的可视化策略也就是目标可视化策略。

其中时间范围选择项可以自行设置，例如可以包括一周、一个月、半年或一年等，以便于对不同时间维度的目标告警信息进行展示，可视化策略选择项也可以自行设置不同的可视化方案，例如生成饼状图的方法、生成柱状图的方法、生成折线图的方法等，展示方式灵活多样。

一个例子，可视化策略为：

确定目标告警信息中各异常类型的异常信息的数量，根据所述数量生成用于表示预设时间范围内各异常类型的异常数量的分布情况的饼图，例如图3所示的饼图，图3表示目标告警信息的总数为10，其中6条异常信息的异常类型为语法异常，占总数的60％，3条异常信息的异常类型为资源利用异常，占总数的30％，1条异常信息的异常类型为数据层级异常，占总数的10％。

一个例子，可视化策略为：

确定目标告警信息中各单位时间(单位时间根据需求设定例如可以为一天、一个月或一年等)内各异常类型的异常信息的单位数量，根据单位数量和时间，生成以时间为横坐标，以单位数量为纵坐标的折线图，该折线图用于表示各异常类型的异常数量在预设时间范围内的变化趋势。例如图4所示的折线图，图4以2020年1月1日到2020年1月7日这一时间范围为目标时间范围，以1天为单位时间。

上述两种可视化策略只是示例，并不造成对本申请的限定，除了上述可视化策略，本申请还可以采用其他任何可视化策略，以可以根据用户习惯，爱好来展示目标告警信息，此处不再一一列举。

本实施例提供的一种大数据任务处理方法，除了可以自动为用户提供大数据任务在大数据语法规范、数据层级规范、大数据资源利用三方面三维立体的任务健康状态诊断服务之外，同时支持对异常信息提供处理与优化建议，并对异常信息进行告警，以便及时对异常信息进行处理，本方案可以在大数据任务上线之前进行任务脚本的规范检测，提前发现任务脚本规范问题，对任务脚本按照建议进行优化处理。

一个具体的例子：

如图5所示，预先设置好目标信息规则，其中包含语法规则、数据层级规则和资源利用规则，接收大数据任务，对大数据任务进行解析，得到第一待诊断信息和第二待诊断信息，其中第一待诊断信息包含目标表、来源信息表、查询条件、查询字段和来源信息表元数据，第二待诊断信息包含大数据任务的计算资源异常量和/或数据倾斜程度，检测第一待诊断信息中是否有不符合语法规则的信息，若有则确定不符合语法规则的信息为异常类型为语法异常的异常信息，检测第一待诊断信息中是否有数据层级之间的关系是否符合数据层级规则的目标表和来源信息表，若有，则确定数据层级之间的关系不满足数据层级规则的目标表和来源信息表为异常类型为数据层级异常的异常信息，检测第二待诊断信息中的计算资源异常量和/或数据倾斜程度是否符合资源利用规则，若计算资源异常量和/或数据倾斜程度不符合资源利用规则，则确定大数据任务存在异常类型为资源利用异常的异常信息，当检测出异常信息后，获取预设的与异常信息对应的优化策略，对异常信息和对应的优化策略进行展示，并生成与异常信息对应的告警信息，告警信息以预设的告警形式向预设的告警人员范围进行告警，其中告警信息可以包含异常信息、异常信息的异常类型、异常信息的发现时间、异常信息所属的大数据任务的标识和所述大数据任务的负责人信息，对告警信息进行存储，根据可视化请求中包含的目标时间范围从存储的告警信息中选取出异常信息的发现时间在目标时间范围内的目标告警信息，根据可视化请求中包含的目标可视化策略对目标告警信息进行可视化处理，得到可视化数据图，对可视化数据图进行展示。

图6为本申请实施例还提供了一种大数据处理装置的框图，如图6所示，该装置可以包括：

解析模块601，用于对大数据任务进行解析，得到所述大数据任务的待诊断信息；

异常检测模块602，用于确定所述待诊断信息中不符合预设的目标信息规则的异常信息，所述异常信息对应的异常类型至少包含以下之一：语法异常、数据层级异常、资源利用异常；

处理模块603，用于执行与所述异常信息对应的处理策略。

在一实施例中，解析模块601具体用于：

在一实施例中，获取与预设的目标异常类型对应的解析策略，并利用所述解析策略对所述大数据任务进行解析，得到所述大数据任务的待诊断信息，包括：

若所述目标异常类型包含语法异常和/或数据层级异常，则获取脚本解析策略和脚本解释计划解析策略；

在一实施例中，获取与预设的目标异常类型对应的解析策略，并利用所述解析策略对所述大数任务进行解析，得到所述大数据任务的待诊断信息，包括：

在一实施例中，异常检测模块602具体用于：

在一实施例中，所述处理模块603具体用于：

根据所述异常信息，确定与所述异常信息对应的优化策略；

对所述异常信息和对应的优化策略进行展示。

在一实施例中，所述处理模块603具体用于：

在一实施例中，该装置还包括可视化模块(图中未示出)：

可视化模块具体用于：

存储所述告警信息；

对所述可视化数据图进行展示。

在一实施例中，异常检测模块602和处理模块603可以采用Siddhi，一个轻量级的，简单的开源的复杂事件流程引擎(Complex Event Processing，CEP)来实现对是否各待诊断信息是否符合目标信息规则的判断，实时根据判断结果对Job/大数据任务进行预警。Siddhi使用类SQL的语言描述事件流任务，可以很好的支撑开发一个可扩展的，可配置的流式任务执行引擎。相关设计之中，为了支持不同的预警规则类型，需要编写不同的业务逻辑代码，但是使用了Siddhi之后，只需要配置不同的流任务Siddhiql，即可以支持不同的规则任务和预警业务。通过业务规则抽象出类SQL事件任务，实现业务流程，并根据业务计算结果触发后续其他事件任务，如外部系统API(预警、通知)调用流程、数据存储、数据消费。

在本申请另一实施例中，还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信；

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现如下步骤：

执行与所述异常信息对应的处理策略。

上述电子设备提到的通信总线704可以是外设部件互连标准(PeripheralComponent Interconnect，简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture，简称EISA)总线等。该通信总线704可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口702用于上述电子设备与其他设备之间的通信。

存储器703可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器701可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请另一实施例中，还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有大数据任务处理方法程序，所述大数据任务处理方法程序被处理器执行时实现上述任一所述的大数据任务处理方法的步骤。

本发明实施例在具体实现时，可以参阅上述各个实施例，具有相应的技术效果。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种大数据任务处理方法，其特征在于，包括：

执行与所述异常信息对应的处理策略。

2.根据权利要求1所述的方法，其特征在于，对大数据任务进行解析，得到所述大数据任务的待诊断信息，包括：

3.根据权利要求2所述的方法，其特征在于，获取与预设的目标异常类型对应的解析策略，并利用所述解析策略对所述大数据任务进行解析，得到所述大数据任务的待诊断信息，包括：

4.根据权利要求2所述的方法，其特征在于，获取与预设的目标异常类型对应的解析策略，并利用所述解析策略对所述大数据任务进行解析，得到所述大数据任务的待诊断信息，包括：

5.根据权利要求3所述的方法，其特征在于，确定所述待诊断信息中不符合预设的目标信息规则的异常信息，包括：

6.根据权利要求3所述的方法，其特征在于，确定所述待诊断信息中不符合预设的目标信息规则的异常信息，包括：

7.根据权利要求4所述的方法，其特征在于，确定所述待诊断信息中不符合预设的目标信息规则的异常信息，包括：

8.根据权利要求1所述的方法，其特征在于，执行与所述异常信息对应的处理策略，包括：

根据所述异常信息，确定与所述异常信息对应的优化策略；

对所述异常信息和对应的优化策略进行展示。

9.根据权利要求1-8任一所述的方法，其特征在于，执行与所述异常信息对应的处理策略，包括：

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

存储所述告警信息；

对所述可视化数据图进行展示。

11.一种大数据任务处理装置，其特征在于，包括：

处理模块，用于执行与所述异常信息对应的处理策略。

12.根据权利要求11所述的装置，其特征在于，所述处理模块具体用于：

根据所述异常信息，确定与所述异常信息对应的优化策略；

对所述异常信息和对应的优化策略进行展示。

13.根据权利要求11或12所述的方法，其特征在于，所述处理模块具体用于：

14.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的数据处理程序，以实现权利要求1-10任一所述的大数据任务处理方法。

15.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1-10任一所述的大数据任务处理方法。