CN107818112B

CN107818112B - 一种大数据分析作业系统及任务提交方法

Info

Publication number: CN107818112B
Application number: CN201610822719.2A
Authority: CN
Inventors: 曾凡; 史晓茸; 阮华; 何瑞; 万志颖; 李家昌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-09-13
Filing date: 2016-09-13
Publication date: 2021-12-14
Anticipated expiration: 2036-09-13
Also published as: CN107818112A

Abstract

本发明实施例公开了一种大数据分析作业系统及任务提交方法，能够节省数据分析成本，提高分析作业效率。本发明实施例的系统包括数据分析平台网页站点、业务逻辑服务器、数据库和任务调度引擎；其中，站点数据分析网页站点用于接收任务需求信息，将任务需求信息转化为标准化数据，将标准化数据发送至业务逻辑服务器；业务逻辑服务器，用于对标准化数据进行解析以获得任务信息，将任务信息存储至数据库；任务调度引擎，用于调度并执行数据库中存储的任务信息对应的任务。本发明实施例无需部署多个运营机，无需通过编写部署脚本提交作业任务，通过浏览器登录数据分析站点就可以输入并提交任务需求信息，从而能够节省数据分析成本，提高分析作业效率。

Description

一种大数据分析作业系统及任务提交方法

技术领域

本发明涉及大数据领域，尤其涉及一种大数据分析作业系统及任务提交方法。

背景技术

随着互联网技术的快速发展和云时代的到来，大数据分析能力已经逐渐成为企业的核心竞争力之一。高效的大数据分析架构能够帮助企业更快、更优地配置资源，从而为企业带来巨大的商业价值。

Hadoop是目前应用最为广泛的大数据分析的基础架构，用户可以从社区上免费下载Hadoop安装包，搭建Hadoop集群，然后在集群上开发和运行处理海量数据的应用程序。

用户可以直接编写MapReduce程序，提交到集群来进行数据分析处理，但这种方式需要掌握一定的编程技巧，且程序往往编写代码量较大，效率不高，因此对于企业而言，更普遍的方式是基于Hive这一数据仓库工具来对数据进行操作。

图1是目前比较常用的大数据分析作业提交的技术方案：

如图1所示，一般企业会搭建一个统一的Hadoop集群，并架设统一的Hive服务端。企业内同时有进行多路大数据分析作业时，则需要多个运营机(一般是Linux服务器)，每个运营机上安装数据仓库工具Hive客户端。用户在各Hive客户端提交数据分析作业的方式是：

步骤1：编写脚本，将分析需求转化为编程语言及结构化查询语言(英文：Structured Query Language，简称：SQL)语句。在脚本中首先调用Hive客户端程序连接到Hive服务端，然后向服务端发送SQL请求。

步骤2：部署脚本，并设定脚本的调度方式。在Linux环境下，是通过登录Linux服务器，将脚本存放到工作目录下，然后利用系统自带的排程命令，例如at或crontab指令设置一次性启动或周期性启动来实现。如果作业需要满足一定的前置条件才允许启动，则在部署脚本前，需要对分析脚本进行进一步封装，加入前置条件的检查逻辑，再对封装后的脚本进行部署。

图1所示的数据分析作业方法主要存在以下问题：

每一路大数据分析作业都需要一台可以与Hive服务端通信的运营机，并在运营机上安装Hive客户端，才能够进行分析作业的提交；且必须登录到运营机，进行脚本部署，使用排程工具设置脚本的调度方式，导致数据分析环境搭建维护、数据分析作业的编写及提交成本较高，分析作业效率较低。

发明内容

本发明实施例提供了一种大数据分析作业系统及任务提交方法，能够实现大数据分析作业的web化提交，因此能够节省数据分析环境搭建维护、数据分析作业编辑及提交成本，提高分析作业效率。

第一方面，本发明实施例提供给了一种大数据分析作业系统，该系统包括：

数据分析平台网页站点、业务逻辑服务器、数据库和任务调度引擎；

其中，数据分析网页站点，用于接收任务需求信息，将任务需求信息转化为标准化数据，将标准化数据发送至业务逻辑服务器；

业务逻辑服务器，用于对标准化数据进行解析以获得任务信息，将任务信息存储至数据库；

任务调度引擎，用于调度并执行数据库中存储的任务信息对应的任务。

第二方面，本发明提供了一种大数据分析任务提交方法，该方法应用于大数据分析作业系统，大数据作业系统包括数据分析平台网页站点，方法包括：

数据分析平台网页站点接收任务基本信息，任务基本信息包括任务名；

数据分析平台网页站点获取任务名对应任务步骤信息，任务步骤信息包括多个任务步骤，多个任务步骤之间存在输入的先后顺序，每个任务步骤对应一条数据库操作指令和一个输出目标信息，其中，非最终步骤对应的输出目标信息为临时表，临时表用于存储非最终步骤的任务执行结果，非最终步骤为多个任务步骤中输入顺序不是最后的任务步骤；

数据分析平台网页站点提交任务基本信息和任务步骤信息。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例提供了一种大数据分析作业系统，该系统包括数据分析平台网页站点、业务逻辑服务器、数据库和任务调度引擎；其中，站点数据分析网页站点用于接收任务需求信息，将任务需求信息转化为标准化数据，将标准化数据发送至业务逻辑服务器；业务逻辑服务器，用于对标准化数据进行解析以获得任务信息，将任务信息存储至数据库；任务调度引擎，用于调度并执行数据库中存储的任务信息对应的任务。本发明实施例中，无需部署多个运营机，也无需在每个运营机上安装Hive客户端，也无需通过编写部署脚本提交作业任务，仅通过浏览器登录数据分析站点就可以输入并提交任务需求信息，之后由系统中的业务逻辑服务器解析任务需求信息，将任务存储至数据库，由任务调度引擎调度数据库中的任务信息执行任务，从而本发明能够实现大数据分析作业的web化提交，因此能够节省数据分析环境搭建维护、数据分析作业编辑及提交成本，提高分析作业效率。

附图说明

图1为本现有技术中的大数据分析任务提交流程示意图；

图2为本发明实施中大数据分析作业系统的一种架构示意图；

图3为本发明实施中大数据分析作业系统的另一种架构示意图；

图4为本发明实施中大数据分析作业任务提交的一种流程图；

图5为本发明实施中大数据分析作业任务提交的另一种流程图；

图6为本发明实施中任务步骤信息处理的一种流程示意图。

具体实施方式

为了使本发明的技术方案及有益效果更加清楚，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

Hadoop是目前应用最为广泛的大数据分析的基础架构，Hive是基于Hadoop的一个数据仓库工具，可以在社区免费下载安装。它可以将结构化的数据文件映射为一张数据库表，支持用类SQL的方式对数据进行查询与分析，其机制是将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Hive提供了Hadoop上对数据仓库进行操作的原始接口，但如何利用这些原始接口，高效地支持数据分析作业的完整构建与提交，是企业在设计大数据分析架构时，需要去考虑与解决的一个核心问题。

下面对本发明实施例中的大数据作业系统及任务提交方法进行详细介绍。

如图2所示，本发明实施例中的大数据作业系统200包括：

数据分析平台网页站点201、业务逻辑服务器202、数据库203和任务调度引擎204。大数据作业系统200可以提供任务任务提交/修改、任务管理、任务实例管理、数据管理等功能。通过数据分析平台网页站点201进行人机交互，通过任务调度引擎204将数据库操作指令(SQL指令)发送给分布式系统基础架构进行执行。

可选的，分布式系统基础架构可以是Hadoop，任务调度引擎204可以和和基于Hadoop的数据仓库工具Hive进行通信，将数据库操作指令发送至Hive服务端，再由Hive服务端将SQL指令转化为MapReduce程序，交由Hadoop集群执行。

需要说明的是，本发明实施例中的分布式系统基础架构还可以是Erlang/OTP等其他分布式系统架构，本发明实施例中以Hadoop为例进行说明。

另外，需要说明的是，数据分析平台网页站点201、业务逻辑服务器202、数据库203和任务调度引擎204可以位于同一台服务器上，也可以位于不同的服务器上的不同模块。

数据分析网页站点201提供web访问页面，包括任务提交/修改网页、任务查看网页、任务实例管理网页、数据管理网页等人机交互网页。数据分析网页站点201通过接收浏览器在所述web访问页面输入的相关大数据分析作业。业务逻辑服务器202用于进行数据解析和处理，数据库203用于存储任务信息、任务依赖关系信息、任务执行信息、任务执行时所用到的元数据信息，任务调度引擎204用于调度执行存储在数据库203中的任务。

下面对数据分析平台网页站点201、业务逻辑服务器202、数据库203和任务调度引擎204具体用于任务提交/修改时的处理进行介绍。

具体的，数据分析网页站点201用于接收任务需求信息，将任务需求信息转化为标准化数据，将标准化数据发送至业务逻辑服务器。

可选的，任务需求信息通过浏览器从所述任务提交/修改网页输入，即数据分析网页站点201用于接收通过浏览器从从所述任务提交/修改网页输入的任务需求信息。

可选的，数据分析网页站点201和业务逻辑服务器202之间约定一套利用JSON(JavaScript Object Notation)格式进行数据传输的标准接口，数据分析网页站点201将网页数据及操作(网页数据及操作包括任务需求信息)转化为JSON格式的标准化数据，然后调用相应接口，将数据传递到业务逻辑服务器202进行处理。

其中任务需求信息可以包括任务基本信息、任务步骤信息，任务基本信息可以包括但不限于任务名、任务所述业务名、任务权限信息等标注任务的基本信息。

任务名为简单的描述任务的用途的文字，便于在任务管理的视图中，可以对任务形成区分，也便于后续根据任务名进行任务检索。例如：任务可以命名为“计算每天访问量排名第一的地区以及其访问量”。

任务所属业务用于支持任务的分类管理，当任务较多时，可以根据业务归属对任务进行管理能够提升管理效率。

任务权限信息，用于指定允许读写该任务的用户信息，可以定义除了任务创建者之外，哪些用户拥有任务的读写权限(可查看可编辑)，哪些用户具有只读权限，这样即可以支持任务信息共享，也可以支持敏感任务的信息隐藏。

数据分析平台网站站点201，还用于允许所述任务权限信息指定的用户对该任务进行任务权限信息指定的读操作或读写操作。

任务步骤信息包括从任务提交/修改页面输入的至少一个任务步骤，多个任务步骤之间存在输入的先后顺序关系，每个任务步骤对应一条数据库操作指令和一个输出目标信息，数据库操作指令为SQL指令，具体可以是简单的数据查询语言(英文：DataQueryLanguage，简称：DQL)语句，数据库操作指令定义了利用什么数据进行什么计算，输出目标信息定义将数据库操作指令的计算结果输出的地址或存储的数据库表名。

具体的任务步骤处理过程请参阅图4和图5所示的实施例。

业务逻辑服务器202，用于接收通过接口传递过来的封装了任务需求信息的JSON格式数据，对标准化数据进行解析以获得任务信息，将任务信息存储至数据库203。

业务逻辑服务器202具体用于解析出任务信息(同时为该任务分配一个唯一的任务ID作为标识)，并分析该任务的依赖任务得到任务依赖关系信息，将上述两部分信息分别写入数据库203。

任务调度引擎204，用于调度并执行数据库203中存储的任务信息对应的任务。

可选的，任务需求信息还包括任务调度方式，任务调度方式包括调度周期、调度起始日期、和/或期望调度时刻。

任务调度引擎204，具体用于将任务按照任务调度方式进行调度执行，在调度时符合任务间的任务依赖关系信息，即该任务执行时，需要等待依赖任务执行完后再执行该任务。例如任务a是任务b的父任务，则任务调度引擎204会保障任务a的实例成功执行后，才会调度任务b的对应实例。

任务调度引擎204会不停巡检任务信息中的任务调度方式、任务依赖关系信息等任务调度执行条件，一旦任务满足执行条件，则将从数据库203中加载任务步骤信息，按照任务步骤的输入顺序发送步骤的数据库操作指令(SQL指令)到Hive服务端进行执行。

本发明实施例中，无需为部署多个运营机，也无需在每个运营机上安装Hive客户端，也无需通过编写部署脚本提交作业任务，仅通过浏览器登录数据分析站点就可以输入并提交任务需求信息，之后由系统中的业务逻辑服务器解析任务需求信息，将任务存储至数据库，由任务调度引擎调度数据库中的任务信息执行任务，从而本发明能够实现大数据分析作业的web化提交，因此能够节省数据分析环境搭建维护、数据分析作业编辑及提交成本，提高分析作业效率。

图2所示的实施例是基于任务提交/修改对本发明实施例中的大数据作业系统200进行的介绍，本发明实施例中的大数据作业系统除了可以用于任务提交/修改外，还可以用于进行任务管理、任务实例管理、数据管理。

下面结合图3对支持提交/修改、任务管理、任务实例管理、数据管理的大数据作业系统，以及大数据作业系统中数据分析平台网页站点、业务逻辑服务器、数据库、任务调度引擎中的各子模块进行详细介绍。

1、数据分析平台网页站点

数据分析平台网页站点通过web页面交互的形式，接收数据分析需求。因而不再需要为每一路大数据分析作业配置一台专门的运营机，也无需搭建分析环境，只需要普通的PC机，通过浏览器即可提交分析作业。

对于每种数据分析需求，例如任务提交\表创建\任务实例重跑等，站点之间和业务逻辑服务器之间约定一套利用JSON格式进行数据传输的标准接口，当用户做出相应动作时，站点会将网页数据及操作转化为JSON格式的标准化数据，然后调用相应接口，将数据传递到业务逻辑服务器进行处理。

数据分析平台网页站点包括任务提交\修改，任务管理，任务实例管理以及数据管理4大模块。

其中任务提交\修改模块提供一种规范化的方式描述数据分析需求，通过这种方式无需脚本的编写，无需复杂的SQL语法，只需要输入最基础的SQL语法(例如：DQL语句)即可对任务进行定义，大大降低了数据分析的技能门槛，并提升了效率，这一模块的处理流程请参阅图4或图5所示的实施例。

任务管理主要负责任务的查看与删除。

任务实例管理主要负责任务实例运行情况的查看以及提供任务实例的启动\重跑\终止等控制功能。

数据管理主要负责提供数据表的创建\删除\修改\查看等功能。

2、业务逻辑服务器(Server)

业务逻辑服务器负责接收数据分析平台网页站点通过接口传递过来的封装了用户需求的JSON格式数据，并进行数据解析和处理。业务逻辑Server的主要接口及功能如下：

(1)任务提交

解析出任务信息，同时为该任务分配一个唯一的任务ID作为标识，并分析该任务与其他已有任务的关系获得该任务的依赖任务，从而得到该任务的任务依赖关系信息，将任务信息与任务依赖关系信息分别写入数据库。

(2)任务修改

解析出任务信息，并分析该任务与其他已有任务的关系获得该任务的依赖任务，从而得到任务依赖关系信息，对数据库中的已存储的任务信息和任务依赖关系进行更新。

(3)任务删除

对数据库中相应的任务信息和任务依赖关系信息进行删除。

(4)任务查看

加载数据库中的任务信息和任务依赖关系信息，转化为JSON格式数据后，通过接口传回给Web站点进行显示。

(5)任务实例启动\重跑\终止

解析出用户对任务实例的操作，根据操作去新增或更新数据库中的任务执行信息。

(6)任务实例运行情况查看

加载数据库中的任务执行信息，转化为JSON格式数据后，通过接口传回给Web站点进行显示。

(7)数据表创建\删除\修改

解析出用户对表的操作，并转化为相应的数据库定义语言(Data DefinitionLanguage，DDL)语句，发送至Hive服务端执行。

(8)数据表查看

加载数据库中相关表的元数据(meta data)信息，转化为JSON格式后，通过接口传回给Web站点进行显示。

3、数据库

数据库用于持久化存储任务信息、任务依赖关系信息、任务执行信息、元数据信息。

(1)任务信息

数据库中存储的任务信息包含任务基本信息、任务步骤信息，任务调度信息等任务相关的信息，任务基本信息、任务步骤信息和任务调度信息的描述请参阅图2所示的实施例。

(2)任务依赖关系信息

数据库中存储的任务依赖关系信息记录任务与任务之间的父子依赖关系，为任务调度引擎的调度顺序提供依据。

(3)任务执行信息

任务执行信息记录任务对应的任务实例的执行状态，任务执行状态分为待启动\执行中\成功\失败\待终止5种状态。可选的，任务实例可以用<任务ID，数据日期>唯一标识。

其中，任务实例可以为将任务信息中的数据日期具体化，就得到一个唯一确定的分析需求，称为任务实例，该数据日期的YYYYmmdd形式称为实例日期。例如“统计xx网站2016年7月1日的页面总访问量”是上述任务的一个实例，实例日期为“20160701”。

(4)元数据信息

元数据信息记录从Hive服务器端获取的Hive表元数据，包括数据仓库中的原始表和中间表，存储的元数据信息包括库名、表名、表字段、表分区等信息。

其中，原始表为数据分析使用的最原始的数据表，数据一般直接来自生产系统产生，例如网站的访问日志，直接由网站的代理Agent采集，并存储至Hive数据表。

中间表为数据生成需求对应的结果表，由原始表或中间表经过加工处理得到，并存储到Hive数据表中，和原始表一样，也可供其他任务当做数据源使用。

可选的，大数据作业系统中还包括元数据同步模块。

4、元数据同步模块

元数据同步模块用于同步Hive服务端的数据仓库中与数据库中存储的元数据信息，使得呈现在数据分析平台web站点上看到的元数据信息与Hive数据仓库中的元数据信息一致。主要包括以下两个方面的功能：

A、定期请求Hive服务端，获取数据仓库中所有原始表和中间表的库名、表明、表字段、表分区等信息，并写入或更新到元数据信息库。

B、当用户在数据分析平台web站点上通过数据管理模块对数据表进行创建、删除或修改，则会经由业务逻辑Server通知元数据同步模块进行主动的元数据更新同步。

5、任务调度引擎

任务调度引擎负责将任务按照用户设定的调度方式(调度周期、调度起始日期、和/或期望调度时刻等)进行调度执行，在调度时符合任务间的依赖关系。

任务调度引擎会不停巡检任务信息中的调度方式设定、任务依赖关系信息、任务执行信息、元数据信息(巡检元数据的目的是判断原始表是否备妥以决定依赖于原始表的任务是否具备执行条件)，一旦任务满足执行条件，则将从数据库中的任务信息中加载任务步骤信息，按照步骤的顺序发送步骤的数据库操作指令到Hive服务端进行执行。

另外，与本发明实施例中的大数据作业系统300进行通信的Hive服务端负责接收本系统所有对数据仓库的数据库操作指令(SQL指令)并执行，具体是将SQL指令转化为MapReduce程序，交由Hadoop集群执行。Hive服务端具体用于：

接收任务调度引擎发送的任务步骤SQL并执行；

接收元数据同步模块的元数据获取请求，返回相应的元数据信息给元数据同步模块。元数据获取请求为例如Show Tables，Describe表名等指令。

当数据分析平台web站点接收数据库管理相应的操作指令时，将数据管理操作指令发送给业务逻辑Server，业务逻辑Server发送数据库DDL请求给Hive服务端，Hive服务端接收业务逻辑Server发送的DDL请求，进行数据表的创建\删除\修改。

另外，Hadoop集群负责数据的底层物理存储，并支持通过MapReduce程序对数据进行处理。

本发明实施例中的大数据分析作业系统除了可以用于任务提交/修改外，还可以用于进行任务管理、任务实例管理、数据管理。能够实现对数据分析作业的集中式管理，能够实现数据分析作业的标准化、结构化，并且将所有的数据分析作业信息统一存储在数据库中，有利于从整体上把控和提升数据分析的质量。

下面结合图4对本发明实施例中的大数据分析任务提交流程进行介绍。具体的，任务提交指的是任务提交或任务修改。

图4是数据分析平台web站点进行任务提交\修改的方法流程示意图，通过这一流程，可以通过简单的SQL指令就可以对任务分析需求进行标准化、结构化地定义，系统能自动化分析并调度执行任务。

数据分析平台Web站点提供“任务创建”、“任务修改”相关的web页面。用户可以点击“任务创建”web页面上提供的“创建任务”按钮，或者在“任务管理”相关的页面选中任务后，点击“修改任务”按钮进入本流程。

本发明实施例对web界面的具体交互设计不做限定，本申请中提到的关于web界面的交互设计也仅是为了便于理解做的示例说明。

401、数据分析平台web站点接收任务基本信息；

其中，任务基本信息可以包括但不限于任务名，任务所属业务，任务权限信息。

402、数据分析平台web站点获取任务名对应任务步骤信息；

任务步骤信息包括至少一个任务步骤，若是多个任务步骤，则多个任务步骤之间存在输入的先后顺序，每个任务步骤对应一条数据库操作指令和一个输出目标信息，其中，非最终步骤对应的输出目标信息为临时表，临时表用于存储非最终步骤的任务执行结果，非最终步骤为多个任务步骤中输入顺序不是最后的任务步骤；多个任务步骤中的最终步骤对应的输出目标信息为Hive服务端的中间表，中间表用于存储最终步骤的操作指令的执行结果，最终步骤为多个任务步骤中输入顺序在最后的任务步骤。

若任务步骤信息中只包括一个任务步骤，则该任务步骤即是最终步骤，最终步骤对应的输出目标信息为Hive服务端的中间表。

可选的，最终步骤对应的目标信息还可以包括外部存储地址，例如：web页面地址、或外部数据库表、或文件传输协议FTP地址。

需要说明的是，本发明实施例中任务步骤对应的数据库操作指令可以采用最简单的DQL语法，当然，也不限定用其他的SQL语法，例如：数据操纵语言(英文：DataManipulation Language，简称：DML)、DDL、数据控制语言(英文：Data Control Language，简称：DCL)等。

403、数据分析平台web站点获取任务名对应任务任务调度方式；

需要说明的是，该步骤为可选步骤。

数据分析平台网页站点还获取任务名对应的任务调度方式，任务调度方式用于调度引擎在调度该任务时，在满足任务调度方式时，调度并执行数据库中存储的任务信息对应的任务。

需要说明的是，任务调度方式可以是系统设置的默认方式，例如：系统根据任务类型，或任务所述业务设置一个默认的调度方式，此种方式下，不需要用户填写任务调度信息；任务调度方式还可以是用户针对每个任务设置一个任务调度方式。

404、数据分析平台web站点提交任务基本信息和任务步骤信息。

数据分析平台web站点将任务基本信息和任务步骤信息和任务调度方式转化为标准化数据，发送至业务逻辑服务器。

在提交任务基本信息、任务步骤信息和任务调度方式时，可以是将一起提交，也可以是分别提交。

下面基于具体的示例，结合从用户角度描述的图5，对本发明的任务提交/修改方法流程进行说明。

有一张原始表app_visit_log，记录某app的用户访问日志。其表结构为表1所示：

表1

具体的任务分析需求为：要求每天访问量排名第一的地区以及其访问量，并存储到一张新的Hive表中。

1、任务基本信息填写

用户在“任务创建”、“任务修改”相关的web页面输入任务基本信息。数据分析平台Web站点接收用户通过浏览器在“任务创建”、“任务修改”相关的功能页面输入的任务基本信息。

任务基本信息可以包括但不限于任务名，任务所属业务，任务权限信息。

2、任务步骤信息填写

用户输入完任务基本信息后，点击“下一步”按钮，系统跳转至任务步骤输入Web页，用户可以在任务步骤输入Web页输入任务步骤。

数据分析平台Web站点在获得任务基本信息后，可以先将任务基本信息进行缓存。

本发明实施例中，将任务步骤作为任务计算逻辑的基本组成单元，对于复杂的数据分析需求场景，拆分成多步而不是用一句冗长的SQL描述需求，能够提升任务的可读性与调试效率。

对于一个任务，其任务步骤数为N(N≥1)，下面将第N步称为最终步骤，其他步称为中间步骤，即非最终步骤。每个任务步骤表达a、利用什么数据，b、进行什么计算，c、计算的结果存放在哪里这3点。可用下述三元组描述：

<DQL语句，输出目标信息，备注说明信息>，其中DQL语句对a和b进行定义，即利用什么数据，进行什么计算；输出目标信息对c进行定义，即存放该步骤中DQL语句的计算结果；可选的，还可以填写备注说明信息以增加任务步骤的可读性。用户在填写DQL语句时，允许使用“${day}”这一参数表示实例日期变量，在任务实例被调度执行时，任务调度引擎会自动将语句中的“${day}”替换为相应的实例日期。

其中，非最终步骤对应的输出目标信息为临时表，最终步骤的输出目标信息可以为中间表、web页面地址、或外部数据库表、或文件传输协议FTP地址。

用户在填写完当前步骤的DQL语句和备注说明信息后，需要选择当前步骤是否为最终步骤，根据用户的选择，Web站点会呈现不同的输出目标信息的填写界面让用户填写。

当用户选择的当前步骤(第一任务步骤)为非最终步骤时(即当前步骤为中间步骤时)，接下来需填写当前步骤的临时表，即第一任务步骤的临时表，临时表使用<临时表表名，临时表字段名列表>来定义输出目标信息，表示需要将DQL语句返回的计算结果存储到该二元组所描述的临时表中。字段名列表为有序列表，与DQL语句表达式按顺序一一对应，存储DQL语句的计算结果，例如DQL语句为：Select region,count(src_ip)From app_visit_log partition(p_${day})，含义为计算每天每个地区的访问量，则临时表的字段名列表为：region，visit_cnt，分表存储计算结果中的地区和访问量。

临时表表名只在本任务内部可见，可以被本任务的后续任务步骤的DQL语句引用，具体字段则可以通过字段名列表中给出的字段名进行引用。

临时表无需事先创建，不同任务的相同临时表名之间属于不同的指代，彼此之间互不干扰。其原理是在任务实例执行时，任务调度引擎会先将所有中间步骤的临时表名映射为一个全局唯一的随机分配表名(例如：“tmp_”前缀再加上一个随机生成的guid编号)，然后对每一个中间步骤，将DQL语句中的“${day}”参数替换为实例日期后，根据替换后的DQL语句、随机分配表名、临时表字段名列表构造形如Create table…Select…from…的DML语句，这些DML语句才是每个中间步骤的实际执行语句，这些语句根据调度引擎分配的表名以及用户填写的字段名列表创建临时表并将Select子句的执行结果插入到临时表中。

当用户填写完第一任务步骤的临时表信息后，进入下一任务步骤(第二任务步骤)的输入。数据分析平台web站点上的web页面重新跳转至DQL语句及备注说明的填写界面，用户开始第二任务步骤的填写。

实际的原理是：采用多个DQL语句，一步步加工数据并保存中间结果到临时表，最后再通过一条简短的DQL语句来返回最终结果。整个过程如图6所示：第一任务步骤的DQL语句1操作的是原始表，将执行结果存储在临时表1中，第二任务步骤的DQL语句2操作的是临时表1，将执行结果存储在临时表2中……，如此一步一步加工数据，到第N任务步骤的DQL语句N操作的是临时表N-1，将执行结果存储在中间表或其他外部存储中。

一直到当用户选择当前步骤为最终步骤时，则选择最终步骤对应的输出目标信息，最终步骤的输出目标信息可以为Hive中间表，也可以是其他的输出地址。

1)若用户选择将任务计算结果保存到Hive中间表，则接下来输入中间表表名作为输出目标信息。

中间表需要事先通过数据分析平台web站点的数据管理模块创建，中间表表名是全局可见且唯一的，可以被其他任务所引用。当任务实例执行时，对于本分支形式的最终步骤，任务调度引擎会先将DQL语句中的“${day}”参数替换为实例日期，然后根据中间表表名和实例日期，构造形如Alter table…add partition…的DDL语句，根据替换后的DQL语句和中间表名，构造形如Insert table…Select…的DML语句，最后调度引擎将DDL和DML依次发送至Hive服务端执行，实现分区创建以及计算结果插入分区的过程。

2)若不保存到中间表，则根据根据需要将计算结果直接展示到Web页面或导出到集群外部存储。

若选择直接展示到Web页面，则任务实例执行成功后，可以到数据分析web站点的“实例管理”页面查看结果；

若选择导出到外部存储中，外部存储可以是其他类型的数据库表，也可以是服务器地址，还可以是其他的文件形式。

例如：当外部存储是Mysql数据表时，则用户需要填写Mysql数据表的具体地址(数据库IP、数据库端口、用户名、密码、DB名，数据表名)；若选择FTP方式导出成文件格式，则用户需要填写FTP服务器的具体地址(FTP服务器IP、FTP端口、用户名、密码、目标存放目录)。

当任务实例执行时，对于选择外部存储真作为输出目标信息的最终步骤，任务调度引擎将DQL语句中的“${day}”替换为实例日期，将替换后的DQL语句发送到Hive服务端执行，取回执行结果后，缓存到任务调度引擎的服务器上。对于Web页面查看，在实例管理查看结果时，直接从该缓存服务器上拉取结果数据，对于Mysql或FTP导出形式，任务调度引擎进一步按照用户填写的具体地址进行结果数据推送。

当用户填写完最终步骤的输出目标信息后，所有的任务步骤信息即填写完毕，若任务调度方式为系统默认配置方式，则数据分析平台网页站点可以提交所述任务基本信息和所述任务步骤信息。

若任务调度方式不是系统默认配置方式，则需要用户填写任务调度信息。页面跳转至任务调度信息填写界面。

对于本示例需求：“求每天访问量排名第一的地区以及其访问量，并存储到一张新的Hive表中”，任务步骤信息的填写，可以拆分为2步，步骤1作为中间步骤，计算出每天每个地区的访问量，步骤2作为最终步骤，从步骤1的结果中取出每天访问量最大的地区及其访问量并写入新的Hive表中。

事先通过数据管理模块创建存储最终结果的中间表top_visit_region，其表结构如表2所示：

表2

字段名	字段类型	字段含义
			date_key	字符串	日期，分区字段
region	字符串	访问量最大的地区名
			visit_cnt	整型	访问量

步骤1填写内容如下：

步骤2填写内容如下：

3、任务调度信息填写

可以设置任务调度周期：提供4个选项供用户选择，按日、按周、按月、一次性。按日\周\月调度，表示需要任务例行化按实例日期递增调度最新实例，递增步长分别为日\周\月。一次性调度时，表示任务只需要调度一个指定的实例，不需要例行化；按周调度时，需要进一步指定周几调度；当选择按月调度时，需要进一步指定每月几号调度，当选择一次性时，则必须接下来填写任务调度的起始日期。

对于本示例，由于要例行求每天最大访问量的地区，因此需要选择按日的调度。

可选的，还可以设置任务的调度起始日期：指定任务的最小实例日期，实例日期大于等于该日期的实例才会被任务调度引擎调度，对于调度周期设置为一次性的任务，该日期指定任务的哪一个实例需要被调度。

可选的，还可以设置任务的期望调度时刻：期望调度时刻指示在任务的调度日，期望任务在具体什么时刻被调度。如果没有设定，则系统默认尽快调度，即一旦任务的依赖条件均达成，立即对任务进行调度。如果有设定期望调度时刻，则任务将在依赖条件均达成且当前时刻≥期望调度时刻时立即被调度。在本示例中，假如用户设定的期望调度时刻为“12:00:00”，则当任务调度引擎检测到app_visit_log表的最新分区已经写满并且当前时刻在正午12点之后，将立即调度执行任务的最新实例。

通过本发明实施例提供的大数据分析作业系统及任务提交方法，可以达到以下有益效果：

(1)实现了数据分析作业的Web化提交，省去数据分析环境的搭建、维护成本。由于用户无需登录运营机进行任务提交，只需要保证浏览器可用即可进行任务提交，对环境的依赖性极小，因此能够实现移动办公。

(2)本发明实施例中的系统，无需用户掌握脚本的编写包括IDE工具的使用，无需掌握DDL、DML的语法，无需掌握系统排程工具的使用，只需要掌握最基础的DQL语法即可对任务进行定义，大大降低了数据分析的技能门槛，并将需要填写或操作的内容压缩到最少，极大提升了工作效率。

(3)本发明实施例定义了任务的权限信息，在权限允许的情况下不同用户可以参与编辑同一个任务。实现了数据分析作业的共享机制，能够提高分析作业效率。

(4)本发明实施例通过大数据分析系统，能够实现对数据分析作业的集中式管理，能够实现数据分析作业的标准化、结构化，并且将所有的数据分析作业信息统一存储在数据库中，有利于从整体上把控和提升数据分析的质量。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种大数据分析作业系统，其特征在于，包括：

其中，所述数据分析网页站点，用于接收在web访问页面输入的任务需求信息，将所述任务需求信息转化为标准化数据，将所述标准化数据发送至所述业务逻辑服务器，所述任务需求信息包括多个任务步骤以及任务权限信息，所述任务权限信息用于指定允许读写任务信息对应的任务的用户信息，所述多个任务步骤之间存在输入的先后顺序，每个任务步骤对应一条数据库操作指令和一个输出目标信息，其中，非最终步骤对应的输出目标信息为临时表，所述临时表用于存储所述非最终步骤的数据库操作指令的执行结果，所述非最终步骤为所述多个任务步骤中输入顺序不是最后的任务步骤，所述任务需求信息为根据SQL语法对任务进行定义得到的；

所述业务逻辑服务器，用于对所述标准化数据进行解析以获得任务信息，将所述任务信息存储至所述数据库，所述任务信息包括任务基本信息、任务步骤信息以及任务调度信息；

所述任务调度引擎，用于调度并执行所述数据库中存储的任务信息对应的任务，将所述非最终步骤的数据库操作指令执行结果存储在所述临时表中；

所述数据分析平台网站站点，还用于允许所述用户信息对应的用户对所述任务信息对应的任务进行所述任务权限信息指定的读操作或读写操作。

2.根据权利要求1所述的系统，其特征在于，

所述多个任务步骤中的最终步骤对应的输出目标信息为数据仓库Hive服务端的中间表，所述中间表用于存储所述最终步骤的数据库操作指令的执行结果，所述最终步骤为所述多个任务步骤中输入顺序在最后的任务步骤；

所述任务调度引擎，具体用于调度并执行所述数据库中的所述任务信息对应的任务，将所述最终步骤的数据库操作指令执行结果存储在所述中间表中。

3.根据权利要求1或2所述的系统，其特征在于，

所述任务调度引擎，具体用于从所述数据库中加载所述任务信息，按照所述输入先后顺序，将所述至少一个任务步骤所对应的数据库操作指令发送至Hive服务端，以使得所述Hive服务端执行所述至少一个任务步骤所对应的数据库操作指令。

4.根据权利要求1至2中任一项所述的系统，其特征在于，

所述业务逻辑服务器，还用于解析所述任务信息对应的任务依赖关系信息，将所述任务依赖关系信息存储至所述数据库，所述任务依赖关系信息用于指示所述任务信息对应的任务的依赖任务；所述任务调度引擎，具体用于在调度执行完所述依赖任务之后，再调度执行所述数据库中存储的任务信息对应的任务。

5.根据权利要求1至2中任一项所述的系统，其特征在于，

所述任务需求信息包括任务调度方式，所述任务调度方式包括调度周期、调度起始日期、和/或期望调度时刻；

所述任务调度引擎，具体用于在所述任务调度方式下，调度并执行所述数据库中存储的任务信息对应的任务。

6.一种大数据分析任务提交方法，其特征在于，所述方法应用于大数据分析作业系统，所述大数据分析作业系统包括数据分析平台网页站点，所述方法包括：

所述数据分析平台网页站点接收在web访问页面输入的任务基本信息，所述任务基本信息包括任务名和任务权限信息，所述任务权限信息用于指定允许读写所述任务名对应的任务的第一用户信息，所述任务基本信息为根据SQL语法对任务进行定义得到的；

所述数据分析平台网页站点获取所述任务名对应任务步骤信息，所述任务步骤信息包括多个任务步骤，所述多个任务步骤之间存在输入的先后顺序，每个任务步骤对应一条数据库操作指令和一个输出目标信息，其中，非最终步骤对应的输出目标信息为临时表，所述临时表用于存储所述非最终步骤的任务执行结果，所述非最终步骤为所述多个任务步骤中输入顺序不是最后的任务步骤；

所述数据分析平台网页站点提交所述任务基本信息和所述任务步骤信息；

当所述数据分析平台网站站点接收访问所述任务名对应的任务的第二用户信息时，所述数据分析平台网站站点确定所述第二用户信息是否能匹配所第一用户信息，若能匹配，则允许所述第二用户信息对应的用户对所述任务名对应的任务进行所述任务权限信息指定的读操作或读写操作。

7.根据权利要求6所述的方法，其特征在于，所述数据分析平台网页站点获取所述任务名对应任务步骤信息包括：

所述数据分析平台网页站点获取所述任务名对应的第一任务步骤的第一数据库操作指令；

若所述数据分析平台网页站点确定所述第一任务步骤为非最终步骤，则获取所述第一任务步骤的临时表，再获取第二任务步骤的第二数据库操作指令。

8.根据权利要求7所述的方法，其特征在于，

所述多个任务步骤中的最终步骤对应的输出目标信息为Hive服务端的中间表，所述中间表用于存储所述最终步骤的操作指令的执行结果，所述最终步骤为所述多个任务步骤中输入顺序在最后的任务步骤；

所述数据分析平台网页站点获取所述任务名对应任务步骤信息包括：

若所述数据分析平台网页站点确定所述第一任务步骤为最终步骤，则获取所述中间表。

9.根据权利要求8所述的方法，其特征在于，

所述最终步骤对应的目标信息还包括web页面地址、或外部数据库表、或文件传输协议FTP地址。

10.根据权利要求 6至9中任一项所述的方法，其特征在于，所述大数据分析作业系统还包括业务逻辑服务器、数据库及任务调度引擎；

所述数据分析平台网页站点提交所述任务基本信息和所述任务步骤信息包括：

所述数据分析平台网站站点将所述任务基本信息和所述任务步骤信息转化为标准化数据，将所述标准化数据发送至所述业务逻辑服务器；

所述业务逻辑服务器对所述标准化数据进行解析以获得任务信息，将所述任务信息存储至所述数据库；

所述任务调度引擎从所述数据库中调度并执行所述任务信息对应的任务。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

所述数据分析平台网页站点获取所述任务名对应的任务调度方式，所述任务调度方式包括调度周期、调度起始日期、和/或期望调度时刻；

所述数据分析平台网页站点提交所述任务调度方式；

所述任务调度引擎从所述数据库中调度并执行所述任务信息对应的任务包括：

所述任务调度方式在所述任务调度方式下，调度并执行所述数据库中存储的任务信息对应的任务。