CN108664657A

CN108664657A - 一种大数据任务调度方法、电子设备、存储介质及平台

Info

Publication number: CN108664657A
Application number: CN201810484558.XA
Authority: CN
Inventors: 汪凯; 张青松; 刘定文; 李强
Original assignee: Hubei Jiuzhou Cloud Warehouse Technology Development Co Ltd
Current assignee: Hubei Jiuzhou Cloud Warehouse Technology Development Co Ltd
Priority date: 2018-05-20
Filing date: 2018-05-20
Publication date: 2018-10-16

Abstract

本发明涉及一种大数据任务调度方法、电子设备、存储介质及平台，该方法包括步骤：获取配置信息，抽取数据，计算数据，持久化数据，获取用户在大数据任务调度平台配置的待抽取数据库、抽取数据的结构化查询语句、计算数据的结构化查询语句、持久化方式；采用数据抽取程序调用抽取数据的结构化查询语句抽取待抽取数据库的数据至Hadoop分布式系统；采用数据计算程序调用计算数据的结构化查询语句读取抽取后的数据进行计算；将计算后的数据按照持久化方式进行持久化。本发明实现了抽取数据命令由程序生成，计算数据的专用程序由管理程序执行，数据抽取和计算定时执行，数据计算程序可配置，针对不同的任务只需配置对应的计算数据的结构化查询语句。

Description

一种大数据任务调度方法、电子设备、存储介质及平台

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种大数据任务调度方法、电子设备、存储介质及平台。

背景技术

近年来，随着社会信息化技术的不断提高以及互联网技术的快速普及，诸多业务领域产生海量、实时的数据。大数据平台的规模在不断扩大和增多，网络规模大、业务量多。现有技术中，大数据任务调度方法在执行数据抽取时一般采用手动编写命令，编写专用程序读取抽取后的数据进行计算，将计算结果保存到HDFS或数据库。手动编写命令抽取数据，命令编写错误率较高；手动执行专用程序计算数据，错误率较高；由于命令执行方法种类多，手动完成所有任务调度，不利于统一管理，不利于需要定时执行的计算任务；每一种任务都需要编写一套完整的专用程序，不利于任务需求多变的情况；所有命令均是在命令行界面进行操作，执行效率低。

发明内容

本发明正是基于上述技术问题至少之一，提出了一种大数据任务调度方法、电子设备、存储介质及平台，解决了大数据任务调度方法手动编写命令抽取数据、手动执行专用程序计算数据、执行方式不统一、无法定时执行任务、每一种任务都需要编写一套完整的专用程序、所有命令均在命令行界面进行操作的问题。

为达到上述目的，本发明提供一种大数据任务调度方法，包括以下步骤：

获取配置信息，获取用户在大数据任务调度平台配置的待抽取数据库、抽取数据的结构化查询语句、计算数据的结构化查询语句、持久化方式；

抽取数据，采用数据抽取程序调用所述抽取数据的结构化查询语句抽取所述待抽取数据库的数据至Hadoop分布式系统；

计算数据，采用数据计算程序调用所述计算数据的结构化查询语句读取抽取后的数据进行计算；

持久化数据，将计算后的数据按照所述持久化方式进行持久化。

进一步地，所述步骤获取配置信息还包括获取用户在大数据任务调度平台配置的抽取定时任务和计算定时任务，所述抽取定时任务和所述计算定时任务包括Quartz定时任务或Scheduled定时任务。

进一步地，所述步骤抽取数据还包括当所述抽取定时任务触发时，采用数据抽取程序调用所述抽取数据的结构化查询语句抽取所述待抽取数据库的数据至Hadoop分布式系统；所述步骤计算数据还包括当所述计算定时任务触发时，采用数据计算程序调用所述计算数据的结构化查询语句读取抽取后的数据进行计算。

进一步地，所述持久化方式包括持久化至HDFS、Mysql、Redis、Elasticsearch、调用Restful服务，所述步骤持久化数据包括将计算后的数据持久化至HDFS、Mysql、Redis、Elasticsearch、调用Restful服务。

进一步地，所述步骤获取配置信息还包括获取用户在大数据任务调度平台配置的Hadoop集群的地址映射；在所述步骤持久化数据之后还包括步骤查看执行日志，按照所述Hadoop集群的地址映射查看Spark日志。

一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述一种大数据任务调度方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行上述一种大数据任务调度方法。

一种大数据任务调度平台，包括：

配置信息模块：用于配置待抽取数据库、抽取数据的结构化查询语句、计算数据的结构化查询语句、持久化方式；

抽取数据模块：用于采用数据抽取程序调用所述抽取数据的结构化查询语句抽取所述待抽取数据库的数据至Hadoop分布式系统；

计算数据模块：用于采用数据计算程序调用所述计算数据的结构化查询语句读取抽取后的数据进行计算；

持久化数据模块：用于将计算后的数据按照所述持久化方式进行持久化。

进一步地，所述配置信息模块为C/S程序界面或B/S程序界面，所述配置信息模块还包括配置抽取定时任务、计算定时任务、Hadoop集群的地址映射，所述抽取定时任务和所述计算定时任务包括Quartz定时任务或Scheduled定时任务。

进一步地，所述抽取数据模块还包括当所述抽取定时任务触发时，采用数据抽取程序调用所述抽取数据的结构化查询语句抽取所述待抽取数据库的数据至Hadoop分布式系统；所述计算数据模块还包括当所述计算定时任务触发时，采用数据计算程序调用所述计算数据的结构化查询语句读取抽取后的数据进行计算；还包括查看执行日志模块用于按照所述Hadoop集群的地址映射查看Spark日志；所述持久化方式包括持久化至HDFS、Mysql、Redis、Elasticsearch、调用Restful服务，所述持久化数据模块包括将计算后的数据持久化至HDFS、Mysql、Redis、Elasticsearch、调用Restful服务。

与现有技术相比，本发明的优势在于：通过采用数据抽取程序调用抽取数据的结构化查询语句抽取待抽取数据库的数据至Hadoop分布式系统，实现抽取数据命令由程序生成，保证抽取数据命令的正确性；通过采用数据计算程序调用计算数据的结构化查询语句读取抽取后的数据进行计算，实现计算数据的专用程序由管理程序执行，保证数据计算程序执行正确性；通过配置抽取定时任务和计算定时任务，实现数据抽取和计算均能定时执行；通过配置计算数据的结构化查询语句，采用数据计算程序调用计算数据的结构化查询语句，实现数据计算程序可配置，针对不同的任务只需配置对应的计算数据的结构化查询语句，不需要重现编写完整的数据计算程序；数据计算程序经扩展不仅支持将计算后的数据持久化至数据库和HDFS，还能持久化至Redis、Elasticsearch、调用Restful服务；提供web界面进行抽取数据的结构化查询语句和计算数据的结构化查询语句的编写，提高编写效率；大数据任务调度均由程序控制，执行方式统一。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

下面结合附图和本发明的实施方式作进一步详细说明。

图1为本发明的一种大数据任务调度方法流程图；

图2为本发明的一种大数据任务调度平台结构示意图；

图3为本发明实施例的大数据任务调度平台整体架构图；

图4为本发明实施例的大数据任务调度平台部署架构图；

图5为本发明实施例的配置模块示意图一；

图6为本发明实施例的配置模块示意图二；

图7为本发明实施例的绑定定时任务示意图；

图8为本发明实施例的调度日志示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一种大数据任务调度方法，如图1所示，包括以下步骤：

获取配置信息，获取用户在大数据任务调度平台配置的待抽取数据库、抽取数据的结构化查询语句、计算数据的结构化查询语句、持久化方式；本实施例中，大数据任务调度平台采用HTML5/CSS/JAVASCRIPT开发生成web界面，用户在web界面进行配置待抽取数据库、抽取数据的结构化查询语句、抽取到Hadoop的文件位置、计算所需要的数据表来源、计算数据的结构化查询语句、持久化方式。启动客户端时，自动注册到web界面，客户端定时上报配置信息。本实施例中，抽取数据的结构化查询语句和计算数据的结构化查询语句由用户在web界面进行编写。提供web界面进行抽取数据的结构化查询语句和计算数据的结构化查询语句的编写，提高编写效率。

抽取数据，采用数据抽取程序调用抽取数据的结构化查询语句抽取待抽取数据库的数据至Hadoop分布式系统；本实施例中，数据抽取程序具体为Sqoop程序，通过采用Sqoop程序调用抽取数据的结构化查询语句抽取待抽取数据库的数据至Hadoop分布式系统，实现抽取数据命令由程序生成，保证抽取数据命令的正确性。

计算数据，采用数据计算程序调用计算数据的结构化查询语句读取抽取后的数据进行计算；本实施例中，数据计算程序具体为SparkSQL程序，通过采用SparkSQL程序调用计算数据的结构化查询语句读取抽取后的数据进行计算，实现计算数据的专用程序由管理程序执行，保证SparkSQL程序执行正确性。通过配置计算数据的结构化查询语句，采用SparkSQL程序调用计算数据的结构化查询语句，实现SparkSQL程序可配置，针对不同的任务只需配置对应的计算数据的结构化查询语句，不需要重现编写完整的SparkSQL程序。

持久化数据，将计算后的数据按照持久化方式进行持久化。

在一实施例中，优选的，步骤获取配置信息还包括获取用户在大数据任务调度平台配置的抽取定时任务和计算定时任务，取定时任务和计算定时任务包括Quartz定时任务或Scheduled定时任务，或其他定时框架实现定时任务。给步骤抽取数据绑定抽取定时任务，给步骤计算数据绑定计算定时任务，本实施例中采用GLUE模式，在客户端执行shell脚本，定时执行抽取数据或计算数据。

在一实施例中，优选的，步骤抽取数据还包括当抽取定时任务触发时，采用Sqoop程序调用抽取数据的结构化查询语句抽取待抽取数据库的数据至Hadoop分布式系统；步骤计算数据还包括当计算定时任务触发时，采用SparkSQL程序调用计算数据的结构化查询语句读取抽取后的数据进行计算。

在一实施例中，优选的，持久化方式包括持久化至HDFS、Mysql、Redis、Elasticsearch、调用Restful服务，步骤持久化数据包括将计算后的数据持久化至HDFS、Mysql、Redis、Elasticsearch、调用Restful服务。通过配置抽取定时任务和计算定时任务，实现数据抽取和计算均能定时执行。SparkSQL程序经扩展不仅支持将计算后的数据持久化至数据库和HDFS，还能持久化至Redis、Elasticsearch、调用Restful服务。

在一实施例中，优选的，步骤获取配置信息还包括获取用户在大数据任务调度平台配置的Hadoop集群的地址映射；每一次任务执行后均生成日志，可进入查看具体的执行过程日志，在步骤持久化数据之后还包括步骤查看执行日志，按照Hadoop集群的地址映射查看Spark日志。

一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述一种大数据任务调度方法。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行上述一种大数据任务调度方法。

一种大数据任务调度平台，如图2所示，包括配置信息模块，抽取数据模块，计算数据模块，持久化数据模块。本实施例中，如图3所示，从上到下依次为平台的配置信息模块、后台模块、执行代理模块、抽取数据模块、计算数据模块、持久化数据模块，配置信息模块采用HTML5/CSS/JAVASCRIPT开发生成web界面，后台模块采用Spring boot加Quartz架构，执行代理模块采用Spring boot加Quartz架构，抽取数据模块采用Sqoop加Hadoop架构，计算数据模块采用SparkSQL架构，持久化数据模块包括Mysql、Redis、ES搜索引擎、调用Restful服务。如图4所示，任务调度配置服务器响应配置信息模块的请求，执行器执行请求，将计算数据请求分发至Spark集群处理，将抽取数据请求分发至Hadoop集群和Sqoop处理，将计算后的数据分发至Mysql、Redis、ES搜索引擎、调用Restful服务。

配置信息模块配置待抽取数据库、抽取数据的结构化查询语句、计算数据的结构化查询语句、持久化方式；优选的，配置信息模块为C/S程序界面或B/S程序界面，本实施例中，配置信息模块采用HTML5/CSS/JAVASCRIPT开发生成web界面，如图5所示，用户在web界面进行配置待抽取数据库为30库user表、抽取数据的结构化查询语句即图5中“查询语句”、抽取到Hadoop的文件位置，如图6所示，用户在web界面进行配置计算所需要的数据表来源即图6中“表名”、计算数据的结构化查询语句即图6中“算法SQL”、持久化方式。启动客户端时，自动注册到配置信息模块，客户端定时上报配置信息。本实施例中，抽取数据的结构化查询语句和计算数据的结构化查询语句由用户在web界面进行编写。提供web界面进行抽取数据的结构化查询语句和计算数据的结构化查询语句的编写，提高编写效率。

抽取数据模块采用数据抽取程序调用抽取数据的结构化查询语句抽取待抽取数据库的数据至Hadoop分布式系统。本实施例中，数据抽取程序具体为Sqoop程序，通过采用Sqoop程序调用抽取数据的结构化查询语句抽取待抽取数据库的数据至Hadoop分布式系统，实现抽取数据命令由程序生成，保证抽取数据命令的正确性。

计算数据模块采用数据计算程序调用计算数据的结构化查询语句读取抽取后的数据进行计算。本实施例中，数据计算程序具体为SparkSQL程序，通过采用SparkSQL程序调用计算数据的结构化查询语句读取抽取后的数据进行计算，实现计算数据的专用程序由管理程序执行，保证SparkSQL程序执行正确性。通过配置计算数据的结构化查询语句，采用SparkSQL程序调用计算数据的结构化查询语句，实现SparkSQL程序可配置，针对不同的任务只需配置对应的计算数据的结构化查询语句，不需要重现编写完整的SparkSQL程序。

持久化数据模块将计算后的数据按照持久化方式进行持久化。

在一实施例中，配置信息模块还包括配置抽取定时任务、计算定时任务、Hadoop集群的地址映射，抽取定时任务和计算定时任务包括Quartz定时任务或Scheduled定时任务，或其他定时框架实现定时任务。如图7所示，给抽取数据模块绑定抽取定时任务，给计算数据模块绑定计算定时任务，本实施例中采用GLUE模式，在客户端执行shell脚本，定时执行抽取数据或计算数据。

在一实施例中，优选的，抽取数据模块还包括当抽取定时任务触发时，采用Sqoop程序调用抽取数据的结构化查询语句抽取待抽取数据库的数据至Hadoop分布式系统；计算数据模块还包括当计算定时任务触发时，采用SparkSQL程序调用计算数据的结构化查询语句读取抽取后的数据进行计算；如图8所示，每一次任务执行后均生成日志，可进入查看具体的执行过程日志，还包括查看执行日志模块用于按照Hadoop集群的地址映射查看Spark日志；持久化方式包括持久化至HDFS、Mysql、Redis、Elasticsearch、调用Restful服务，持久化数据模块包括将计算后的数据持久化至HDFS、Mysql、Redis、Elasticsearch、调用Restful服务。通过配置抽取定时任务和计算定时任务，实现数据抽取和计算均能定时执行。SparkSQL程序经扩展不仅支持将计算后的数据持久化至数据库和HDFS，还能持久化至Redis、Elasticsearch、调用Restful服务。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种大数据任务调度方法，其特征在于包括以下步骤：

2.如权利要求1所述的一种大数据任务调度方法，其特征在于：所述步骤获取配置信息还包括获取用户在大数据任务调度平台配置的抽取定时任务和计算定时任务，所述抽取定时任务和所述计算定时任务包括Quartz定时任务或Scheduled定时任务。

3.如权利要求2所述的一种大数据任务调度方法，其特征在于：所述步骤抽取数据还包括当所述抽取定时任务触发时，采用数据抽取程序调用所述抽取数据的结构化查询语句抽取所述待抽取数据库的数据至Hadoop分布式系统；所述步骤计算数据还包括当所述计算定时任务触发时，采用数据计算程序调用所述计算数据的结构化查询语句读取抽取后的数据进行计算。

4.如权利要求1所述的一种大数据任务调度方法，其特征在于：所述持久化方式包括持久化至HDFS、Mysql、Redis、Elasticsearch、调用Restful服务，所述步骤持久化数据包括将计算后的数据持久化至HDFS、Mysql、Redis、Elasticsearch、调用Restful服务。

5.如权利要求1所述的一种大数据任务调度方法，其特征在于：所述步骤获取配置信息还包括获取用户在大数据任务调度平台配置的Hadoop集群的地址映射；在所述步骤持久化数据之后还包括步骤查看执行日志，按照所述Hadoop集群的地址映射查看Spark日志。

6.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-5任一项方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任一项方法的步骤。

8.一种大数据任务调度平台，其特征在于包括：

9.如权利要求8所述的一种大数据任务调度平台，其特征在于：所述配置信息模块为C/S程序界面或B/S程序界面，所述配置信息模块还包括配置抽取定时任务、计算定时任务、Hadoop集群的地址映射，所述抽取定时任务和所述计算定时任务包括Quartz定时任务或Scheduled定时任务。

10.如权利要求9所述的一种大数据任务调度平台，其特征在于：所述抽取数据模块还包括当所述抽取定时任务触发时，采用数据抽取程序调用所述抽取数据的结构化查询语句抽取所述待抽取数据库的数据至Hadoop分布式系统；所述计算数据模块还包括当所述计算定时任务触发时，采用数据计算程序调用所述计算数据的结构化查询语句读取抽取后的数据进行计算；还包括查看执行日志模块用于按照所述Hadoop集群的地址映射查看Spark日志；所述持久化方式包括持久化至HDFS、Mysql、Redis、Elasticsearch、调用Restful服务，所述持久化数据模块包括将计算后的数据持久化至HDFS、Mysql、Redis、Elasticsearch、调用Restful服务。