CN111158990A

CN111158990A - 数据仓库智能调度任务跑批系统及方法

Info

Publication number: CN111158990A
Application number: CN201911416360.9A
Authority: CN
Inventors: 肖会尧
Original assignee: Chongqing Fumin Bank Co Ltd
Current assignee: Chongqing Fumin Bank Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-15

Abstract

本发明涉及数据仓库管理技术领域，具体公开了数据仓库智能调度任务跑批系统及方法，系统包括文件系统模块，文件系统模块用于存储加工脚本；还包括：Sql解析模块，用于获取加工脚本并对加工脚本进行内容解析得到解析结果；Sql解析模块还基于解析结果分析数据流向和数据仓库血缘关系，并生成血缘关系数据；数据库模块，用于获取血缘关系数据并存储；资源分析模块，用于获取计算集群的资源消耗信息，并生成优化调度方案；调度模块，用于获取血缘关系数据和优化调度方案，并根据血缘关系数据和优化调度方案调度加工脚本。采用本发明的技术方案能够提高处理的效率和速度。

Description

数据仓库智能调度任务跑批系统及方法

技术领域

本发明涉及数据仓库管理技术领域，特别涉及数据仓库智能调度任务跑批系统及方法。

背景技术

“跑批”也叫“批量处理”或“批处理”，英文：Batch Processing，是现今各类IT系统中常见业务之一，根据统计，70％的业务系统中的操作，是通过跑批方式完成的。“跑批”简单来说，是将一类相同的业务“积攒”到一定的量(业务相同，成批量)，在指定时间点启动进行自动处理，达到简化操作，提升效率的目的。

分析批处理的过程，我们不难总结出批处理业务的特点：处理量大(成批)，有特定的触发时机(指定时间点)，可自动处理。目前银行系统中不同业务的跑批任务还是需要人工配置跑批参数，然后在指定的时间进行，这样的处理导致效率较低，而且速度较慢。

而且大量数据处理任务堆积在指定的时间内处理，不仅对系统的计算集群提出了较高的要求，导致处理成本大幅增加，同时因任务过多、负载过重使得部分任务处理不及时，时效性差；并且在处理高峰时段过后，由于处理资源消耗骤降，导致部分计算集群的处理资源闲置，资源配置不均衡。

为此，需要一种能自动对跑批进行调度的系统及方法，以提高处理的效率和速度。

发明内容

本发明提供了数据仓库智能调度任务跑批系统及方法，能够提高处理的效率和速度。

为了解决上述技术问题，本申请提供如下技术方案：

数据仓库智能调度任务跑批系统，包括文件系统模块，文件系统模块用于存储加工脚本；还包括：

Sql解析模块，用于获取加工脚本并对加工脚本进行内容解析得到解析结果；Sql解析模块还基于解析结果分析数据流向和数据仓库血缘关系，并生成血缘关系数据；

数据库模块，用于获取血缘关系数据并存储；

资源分析模块，用于获取计算集群的资源消耗信息，并生成优化调度方案；

调度模块，用于获取血缘关系数据和优化调度方案，并根据血缘关系数据和优化调度方案调度加工脚本。

基础方案原理及有益效果如下：

本方案中，数据仓库智能调度任务跑批系统将血缘分析和计算集群的资源消耗两者相结合。将血缘关系数据作为数据调度跑批的加工依据，降低了调度跑批的耦合性和加工脚本相互之间不必要的依赖，能够快速的加工出一张银行业务所需求的报表。通过资源分析模块获取计算集群的资源消耗信息，能尽可能高效的使用计算集群资源，尽可能的避免出现计算集群资源使用的空档期，同时也就提高了数据加工调度任务时跑批的效率。综上，本方案能够智能化的实现数据仓库中加工脚本的作业调度、任务跑批，减少调度配置的工作量，高效的利用计算集群资源，实现了提高处理的效率和速度的目的。

进一步，所述解析结果包括输入表、输出表，输入字段和输出字段。

通过输入表、输出表，输入字段和输出字段能分析出血缘关系、上下游依赖关系，能够清楚得到数据仓库的血缘关系数据。

进一步，所述资源消耗信息包括CPU使用情况、内存使用情况和IO读写情况。

CPU使用情况、内存使用情况和IO读写情况能在整体上反映出计算集群的资源消耗情况。

进一步，所述文件系统模块采用HDFS文件系统。

HDFS即为Hadoop分布式文件系统。HDFS有着高容错性的特点，适合部署在廉价的机器上；HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用，而且HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。

进一步，所述Sql解析模块采用Hql解析器。

Hql解析器即hive SQL。hive SQL的学习成本低，可以通过类似SQL语句实现快速统计，使得hive SQL十分适合用在数据仓库的统计分析中。

进一步，所述数据库模块采用图形数据库。

图形数据库是一种非关系型数据库，它应用图形理论存储实体之间的关系信息。最常见例子就是社会网络中人与人之间的关系。关系型数据库用于存储“关系型”数据的效果并不好，其查询复杂、缓慢、超出预期，而图形数据库的独特设计恰恰弥补了这个缺陷。

进一步，所述资源分析模块采用YARN资源管理器。

YARN资源管理器是一种新的Hadoop资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

进一步，所述调度模块采用Oozie调度工具。

与hamake调度工具相比，Oozie调度工具能满足hadoop调度支持。

数据仓库智能调度任务跑批方法，包括如下步骤：

S1、Sql解析模块获取加工脚本；

S2、Sql解析模块对加工脚本进行内容解析，并输出解析结果；解析结果包括输入表、输出表，输入字段和输出字段；

S3、Sql解析模块基于解析结果分析数据流向和数据仓库血缘关系，并生成血缘关系数据；

S4、将血缘关系数据存储至数据库模块；

S5、资源分析模块获取计算集群的资源消耗信息，并生成优化调度方案；

S6、调度模块根据血缘关系数据和优化调度方案调度加工脚本。

进一步，所述S5中，资源消耗信息包括CPU使用情况、内存使用情况和IO读写情况。

附图说明

图1为实施例一数据仓库智能调度任务跑批系统的逻辑框图；

图2为实施例一数据仓库智能调度任务跑批方法的流程图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例一

如图1所示，本实施例的数据仓库智能调度任务跑批系统，包括文件系统模块、Sql解析模块、数据库模块、资源分析模块和调度模块。

文件系统模块用于存储加工脚本；本实施例中，文件系统模块采用HDFS文件系统。HDFS即为Hadoop分布式文件系统。HDFS有着高容错性的特点，适合部署在廉价的机器上；HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用，而且HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。

Sql解析模块用于获取加工脚本并对加工脚本进行内容解析得到解析结果；解析结果包括输入表、输出表，输入字段和输出字段。Sql解析模块还基于解析结果分析数据流向和数据仓库血缘关系，并生成血缘关系数据。本实施例中，Sql解析模块采用Hql解析器。具体的，Hql解析器即hive SQL。

数据库模块用于获取血缘关系数据并存储；本实施例中，数据库模块采用图形数据库；具体为ArangoDB图形数据库。图形数据库是一种非关系型数据库，它应用图形理论存储实体之间的关系信息。最常见例子就是社会网络中人与人之间的关系。关系型数据库用于存储“关系型”数据的效果并不好，其查询复杂、缓慢、超出预期，而图形数据库的独特设计恰恰弥补了这个缺陷。

血缘关系数据用图的形式展示和图形数据库有着天然的契合度，所以选择图形数据库存储Hql解析后的数据。图形数据库是NoSQL数据库的一种类型，它应用图形理论存储实体之间的关系信息。

Hql解析器是通过利用Antlr实现Hql语句解析(词法和语法的解析)为ASTNode对象(封装好的结构化语法树——AST Tree)，然后遍历语法树解析出Hql中各个表的血缘关系，封装到自定义的解析对象，再将解析对象转化为表结点、表关系及其对应属性并存储到ArangoDB图形数据库中。

资源分析模块用于获取计算集群的资源消耗信息，并生成优化调度方案；资源消耗信息包括CPU使用情况、内存使用情况和IO读写情况。本实施例中，资源分析模块采用YARN资源管理器。YARN资源管理器是一种新的Hadoop资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为计算集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。在本实施例中通过调用YARN提供的API接口实时获取计算集群资源的资源消耗信息进行分析，从而便于后续对数据仓库的加工脚本进行合理的调度和管理。

调度模块，用于获取血缘关系数据和优化调度方案，并根据血缘关系数据和优化调度方案调度加工脚本。本实施例中，调度模块采用Oozie调度工具。Oozie调度工具是用在Hadoop资源管理器中进行工作流调度的。具体的，Oozie调度工具它由两部分组成：一个是工作流引擎，它的职责是存储和运行工作流程，另一个是运行基于预定义的时间表和数据的可用性工作流程作业。本实施例在整体上就是实时获取和分析计算集群的资源使用情况，通过调用OOZIE调度工具的接口创建工作流启动跑批任务。

如图2所示，基于数据仓库智能调度任务跑批系统，本实施例还提供一种数据仓库智能调度任务跑批方法，包括如下步骤：

S1、Sql解析模块获取加工脚本；具体的，从文件系统模块上的所有指定目录下获取加工脚本。本实施例中，Sql解析模块采用Hql解析器。

S2、Sql解析模块对加工脚本进行内容解析，并输出解析结果；解析结果包括输入表、输出表，输入字段和输出字段。

S3、Sql解析模块获取解析结果，基于解析结果分析数据流向和数据仓库血缘关系，并生成血缘关系数据。

S4、将血缘关系数据存储至数据库模块；本实施例中，数据库模块采用使用ArangoDB图形数据库。由于血缘关系较为复杂，而这样的血缘关系和我们的图形数据库有非常良好的匹配。

S5、资源分析模块获取计算集群的资源消耗信息，并生成优化调度方案；资源消耗信息包括CPU使用情况、内存使用情况和IO读写情况。本实施例中，资源分析模块采用YARN资源管理器。

S6、调度模块根据血缘关系数据和优化调度方案调度加工脚本。本实施例中，调度模块采用Oozie调度工具。

本实施例中，数据仓库智能调度任务跑批系统将血缘分析和计算集群的资源消耗两者相结合。血缘分析是指根据数据仓库的加工逻辑，通过Sql解析模块，分析出批加工脚本的输入输出字段关系和输入输出表关系，然后存储到数据库模块中，从而获取到整个数据仓库加工的数据流向的来龙去脉。图形数据库天生有着很好的特性，能够很清晰的展示出数据仓库的血缘关系，将血缘关系数据用图的形式展示作为数据调度跑批的加工依据，降低了调度跑批的耦合性和加工脚本相互之间不必要的依赖，能够快速的加工出一张银行业务所需求的报表。通过资源分析模块获取计算集群的资源消耗信息，能尽可能高效的使用计算集群资源，尽可能的避免出现计算集群资源使用的空档期，同时也就提高了数据加工调度任务时跑批的效率。综上，本实施例能够智能化的实现数据仓库中加工脚本的作业调度、任务跑批，减少调度配置的工作量，高效的利用计算集群资源。

实施例二

本实施例与实施一的区别在于，本实施例的系统中，调度模块还用于根据血缘关系数据和优化调度方案生成每一IO端口处理任务的预估处理时间，本实施例中，每一IO端口处理任务的预估处理时间分别标记为t1、t2、t3...

调度模块还用于从加工脚本获取每一IO端口的实际处理时间，本实施例中，每一IO端口实际处理时间为t10、t20、t30...

调度模块还用于每隔预设时间判断每一IO端口的预估处理时间是否小于实际处理时间；如果小于；调度模块还用于调度预估处理时间大于实际处理时间的IO端口的任务至预估处理时间小于实际处理时间的IO端口进行处理。例如IO端口1的t1＜t10，IO端口2的t2＞t20，那么调度模块调度IO端口2的任务至IO端口1处理。

当所有IO端口的预估处理时间均小于实际处理时间时，调度模块还用于计算每一IO端口的预估处理时间与实际处理时间的比值，分配比值小的IO端口的任务至比值大的IO端口进行处理。本实施例中，IO端口处理任务指通过IO端口输出数据。调度模块的调度具体为控制加工脚本，选择不同的IO端口。

本实施例中，能实现最大化利用IO端口，保证任务的快速处理，能有效提高处理的速度。

以上的仅是本发明的实施例，该发明不限于此实施案例涉及的领域，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.数据仓库智能调度任务跑批系统，包括文件系统模块，文件系统模块用于存储加工脚本；其特征在于，还包括：

数据库模块，用于获取血缘关系数据并存储；

2.根据权利要求1所述的数据仓库智能调度任务跑批系统，其特征在于：所述解析结果包括输入表、输出表，输入字段和输出字段。

3.根据权利要求1所述的数据仓库智能调度任务跑批系统，其特征在于：所述资源消耗信息包括CPU使用情况、内存使用情况和IO读写情况。

4.根据权利要求1所述的数据仓库智能调度任务跑批系统，其特征在于：所述文件系统模块采用HDFS文件系统。

5.根据权利要求1所述的数据仓库智能调度任务跑批系统，其特征在于：所述Sql解析模块采用Hql解析器。

6.根据权利要求1所述的数据仓库智能调度任务跑批系统，其特征在于：所述数据库模块采用图形数据库。

7.根据权利要求1所述的数据仓库智能调度任务跑批系统，其特征在于：所述资源分析模块采用YARN资源管理器。

8.根据权利要求1所述的数据仓库智能调度任务跑批系统，其特征在于：所述调度模块采用Oozie调度工具。

9.数据仓库智能调度任务跑批方法，其特征在于，包括如下步骤：

S1、Sql解析模块获取加工脚本；

S4、将血缘关系数据存储至数据库模块；

10.根据权利要求9所述的数据仓库智能调度任务跑批方法，其特征在于：所述S5中，资源消耗信息包括CPU使用情况、内存使用情况和IO读写情况。