CN108037919A

CN108037919A - 一种基于web的可视化大数据工作流配置方法及系统

Info

Publication number: CN108037919A
Application number: CN201711246865.6A
Authority: CN
Inventors: 张祺君; 黄超; 曹正凤
Original assignee: BEIJING BOYU TONGDA TECHNOLOGY Co Ltd
Current assignee: BEIJING BOYU TONGDA TECHNOLOGY Co Ltd
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2018-05-15

Abstract

本公开公开了一种基于WEB的可视化大数据工作流配置方法及系统，通过浏览器使用拖拽的方式和向导界面实现工作流配置，提升开发效率，降低人员成本。同时，提供完善的MapReduce/Hive/Spark支持，当前主流的大数据处理程序为HiveSQL、MapReduce、Spark、SparkSQL，本公开试图对上述大数据分布式处理程序提供完善的支持。进一步的，本公开的方案能够提升运行速度，实现为轻量级的分布式工作流引擎，提升分布式程序的调度、运行速度，提升系统性能。

Description

一种基于WEB的可视化大数据工作流配置方法及系统

技术领域

本公开涉及大数据处理技术领域，具体涉及一种基于WEB的可视化大数据工作流配置方法及系统。

背景技术

大数据环境下数据来源非常丰富且数据类型多样，存储和分析挖掘的数据量庞大，对数据展现的要求较高，并且很看重数据处理的高效性和可用性。

传统的数据采集来源单一，且存储、管理和分析数据量也相对较小，大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言，传统的并行数据库技术追求高度一致性和容错性，根据CAP理论，难以保证其可用性和扩展性。

传统的数据处理方法是以处理器为中心，而大数据环境下，需要采取以数据为中心的模式，减少数据移动带来的开销。因此，传统的数据处理方法，已经不能适应大数据的需求！

大数据的基本处理流程与传统数据处理流程并无太大差异，主要区别在于：由于大数据要处理大量的结构化和非结构化的数据，所以在各个处理环节中都可以采用MapReduce等方式进行并行处理。

现有技术中，通常采用两种办法调度执行大数据Spark/MapReduce分布式程序，分别是采用Linux计划任务方式调度和使用开源分布式工作流引擎调度。在编写Spark/Mapreduce程序或者脚本，通过Linux计划任务对这些程序进行调度运行。这么做生产率低、复杂度高，系统的维护成本也会非常高。采用开源的工作流引擎调度执行，目前有较常见开源的工作流引擎的有Oozie和Azkaban。

Apache Oozie是一个工作流引擎服务器,用于运行分布式任务工作流，运行在Tomcat等Java Servlet容器中。Oozie使用基于XML自定义处理的语言HPDL来定义工作流。Oozie工作流中包含分支、汇合等流程控制节点和执行节点(Action)。执行节点通常是独立的Hadoop Map Reuce任务、Hadoop Pig任务等，所有的Action以有向无环图(DAG DirectAcyclic Graph)的模式部署运行。

Apache Oozie还存在很多问题，主要有：a.实现机制低效，执行的时候需要把所有程序文件保存到HDFS中，在执行时再将程序文件下载到运行节点执行。该机制造成流程的支撑有较多的延时；b.稳定性不够，当前Oozie的成熟度还比较低，存在非常多BUG以及修正速度很慢；c.工作流工作繁琐，需要编写大量的XML配置文件，非常容易出错。

Azkaban是由Linkedin公司推出的一个批量工作流任务调度器，用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系，并提供一个web用户界面维护和跟踪工作流。

Azkaban具有相当的局限性，包括：a.任务之间的依赖，不能够指定部分完成；b.目前支持的分布式程序类型较少，目前只支持Java程序、HadoopShell、Pig、Hive、Hive2等程序，尚不支持主流的Spark、Spark SQL等分布式大数据应用程序类型。

现有技术中，使用Linux计划任务调度的方式需要手工编写计划任务脚本，具有配置繁琐和维护成本很高的问题。

配置繁琐。使用手工编写计划任务脚本的方式，配置过程繁琐，正确性难以得到有效验证。

维护成本高。因为直接采用Linux计划任务，在任务增加、计划运行时间修改、删除等时候，都需要直接登录到操作系统调整计划任务。维护效率低，非常容易出错。

现有开源工作流引擎存在配置过程繁琐、运行速度慢、部分功能不完善的问题。

配置过程繁琐。开源工作流引擎通过XML文件配置工作流，开发效率低且容易出错。开发人员、运维人员学习周期长难度大。

功能不完善。系统自带的简单范例程序可以正常运行。由于企业开发的程序调用外部程序库比较多，开源工作流引擎下常常无法正常运行。

运行速度慢。开源工作流引擎所有配置数据和程序文件全部保存在HDFS上，任务运行时需要下载到本地硬盘后启动，启动耗时长。

发明内容

鉴于上述问题，提出了本公开以便提供一种克服上述问题或者至少部分地解决上述问题的基于WEB的可视化大数据工作流配置方法及系统。

根据本公开的一个方面，提供了一种基于WEB的可视化大数据工作流配置方法，其包括：

界面层设置可视化流程设计组件，接收通过所述设计组件和对应的数据处理节点设计的大数据处理业务流程；

引擎层根据所述大数据处理业务流程，依次调度所述数据处理节点；将所述数据处理节点打包成分布式程序，提交到执行层；

执行层在分布式程序运行环境中执行所述分布式程序并将执行结果返回所述引擎层；

所述引擎层接收所述执行结果并整理；将所述执行结果返回给所述界面层；

所述界面层展示所述大数据处理业务流程的执行结果。

所述界面层将大数据处理业务流程形成的大数据处理任务提交引擎层；

所述引擎层根据所述大数据处理任务调度所述数据处理节点。

所述引擎层在所有所述分布式程序执行完毕并收到相应执行结果后，将所述执行结果返回给所述界面层。

所述引擎层包括工作流引擎和执行器；

所述工作流引擎根据所述大数据处理业务流程，依次调度所述数据处理节点；

所述执行器遵照适配器设计模式实现；将一个类的接口转换成不兼容的另一个接口，将所述数据处理节点打包成适配各类接口的分布式程序。

所述方法还包括：

所述适配器为若干个，根据所述接口分别设置。

所述方法还包括：

所述执行层为第三方的分布式程序分别搭建分布式程序运行环境，在对应的运行环境中运行所述分布式程序。

根据本公开的另一方面，提供一种基于WEB的可视化大数据工作流配置系统，包括：

界面层，用于设置可视化流程设计组件，接收通过所述设计组件和对应的数据处理节点设计的大数据处理业务流程；展示所述大数据处理业务流程的执行结果；

引擎层，用于根据所述大数据处理业务流程，依次调度所述数据处理节点；将所述数据处理节点打包成分布式程序；接收所述分布式程序的执行结果并整理；将所述执行结果返回给所述界面层；

执行层，用于在分布式程序运行环境中执行所述分布式程序并将执行结果返回所述引擎层。

所述引擎层包括工作流引擎和执行器；

所述工作流引擎，根据所述大数据处理业务流程，依次调度所述数据处理节点；

所述执行器，遵照适配器设计模式实现；将一个类的接口转换成不兼容的另一个接口，将所述数据处理节点打包成适配各类接口的分布式程序。

所述适配器为若干个，根据所述接口分别设置。

根据本公开上述的一个或多个技术方案，其提供了一种基于WEB的可视化大数据工作流配置的方案，通过浏览器使用拖拽的方式和向导界面实现工作流配置，提升开发效率，降低人员成本。同时，提供完善的MapReduce/Hive/Spark支持，当前主流的大数据处理程序为HiveSQL、MapReduce、Spark、SparkSQL，本公开试图对上述大数据分布式处理程序提供完善的支持。进一步的，本公开的方案能够提升运行速度，实现为轻量级的分布式工作流引擎，提升分布式程序的调度、运行速度，提升系统性能。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本公开的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本公开的一个实施例的基于WEB的可视化大数据工作流配置平台的结构图；

图2示出了根据本公开一个实施例的基于WEB的可视化大数据工作流配置方法的流程图；

图3示出了根据本公开一个实施例的基于WEB的可视化大数据工作流配置系统的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本公开各个实施例的方案，旨在设计和实现一个基于WEB的可视化大数据工作流配置系统，在该系统中可以通过拖拽的方式完成工作流设计和配置。该工作流配置系统生成JSON格式字符串描述的工作流对象。设计和实现一个分布式大数据工作流引擎，该引擎根据上述JSON描述的工作流对象，按照节点的依赖关系生成执行计划，按照执行计划运行节点程序。

本公开的各个实施例，基于一个分布式大数据工作流引擎，为三层架构，即界面层、引擎层和执行层，具体如图1所示。其中，界面层提供可视化的用户操作WEB页面，包含一整套的流程绘制界面、组件设置向导窗口等。用户在WEB页面中设计完成的流程定义数据以JSON格式存入数据库中，以便引擎层取用。

引擎层实现大数据处理流程的调度执行功能。引擎层包含了工作流引擎和执行器。执行器遵照适配器设计模式来实现。适配器模式将一个类的接口转换成客户希望的另外一个接口，使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。需要支持新的分布式应用程序类型时只需要实现新的Adaptee，其它部分代码完全不需要改变。使用该模式既可以保证系统的可扩展性，又能有效地隔离变化。

执行层分布式大数据处理程序实际运行在执行层中。执行层通常为第三方的分布式程序程序运行环境，例如Hadoop MapReduce、Spark、Hive等。

Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop由许多元素构成。其最底部是HadoopDistributed File System(HDFS)，它存储Hadoop集群中所有存储节点上的文件。HDFS的上一层是MapReduce引擎，该引擎由JobTrackers和TaskTrackers组成。Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce、Yarn分布式调度框架，以及数据仓库工具Hive和分布式数据库Hbase，基本涵盖了Hadoop分布式平台的所有技术核心。

Hive是一个基于hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。把海量数据存储于hadoop文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并采用HQL(类SQL)语言对这些数据进行自动化管理和处理。我们可以把Hive中海量结构化数据看成一个个的表，而实际上这些数据是分布式存储在HDFS中的。Hive经过对语句进行解析和转换，最终生成一系列基于hadoop的map/reduce任务，通过执行这些任务完成数据处理

Sqoop(是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(MySQL、PostgreSql等)间进行数据的传递，可以将一个关系型数据库(例如：MySQL,Oracle,PostgreSql等)中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于MapReduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

工作流(Workflow)，指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。在计算机中，工作流属于计算机支持的协同工作(CSCW)的一部分。后者是普遍地研究一个群体如何在计算机的帮助下实现协同工作的。工作流主要解决的主要问题是为了实现某个业务目标，利用计算机在多个参与者之间按某种预定规则自动传递文档、信息或者任务。

实施例一

图2示出了本实施例的基于WEB的可视化大数据工作流配置方法流程图，参照图1，所述方法可以包括：

步骤11，界面层设置可视化流程设计组件，接收通过所述流程设计组件和对应的数据处理节点设计的大数据处理业务流程。

本实施例中，界面层主要提供方便用户使用的可视化界面，提供相应的设计组件，这些设计组件可以根据用户的需求和操作随意推拽，并任意组合。根据用户的组合和设计来形成大数据处理业务流程，这些业务流程是与对应的数据处理节点相应的。也即用户通过操作设计组件，达到控制和组合数据处理节点的目的，并形成根据用户需求来设计的大数据处理业务流程。

界面层可以通过WEB页面来实现和展示，用户登陆相关WEB页面即可进行设置。

步骤12，引擎层根据大数据处理业务流程，依次调度数据处理节点；将所述数据处理节点打包成分布式程序，提交到执行层。

界面层将大数据处理业务流程形成的大数据处理任务提交引擎层；所述引擎层根据所述大数据处理任务调度所述数据处理节点。

引擎层包括工作流引擎和执行器；所述工作流引擎根据所述大数据处理业务流程，依次调度所述数据处理节点；所述执行器遵照适配器设计模式实现；将一个类的接口转换成不兼容的另一个接口，将所述数据处理节点打包成适配各类接口的分布式程序。

适配器可以为多个，根据接口分别设置。也即适配器的数量的形式均根据实际的需求来设置。

步骤13，执行层在分布式程序运行环境中执行所述分布式程序并将执行结果返回所述引擎层。

执行层为第三方的分布式程序分别搭建分布式程序运行环境，在对应的运行环境中运行所述分布式程序。

步骤14，引擎层接收所述执行结果并整理；将所述执行结果返回给所述界面层。

引擎层在所有所述分布式程序执行完毕并收到相应执行结果后，将所述执行结果返回给所述界面层。

步骤15，界面层展示所述大数据处理业务流程的执行结果。

这个展示也是可视化的展示，为用户提供可视化的大数据处理业务流程的全过程展示和执行结果的展示。展示形式可以根据用户需求定义。

用户通过本实施例的方案可以仅仅通过定制流程、配置流程节点的方式就可以进行大数据的计算处理工作。大大降低了大数据处理应用开发的门槛，以及平缓了学习曲线。通过设置运行计划定时或周期运行，方便使用。

支持流行的大数据运算框架MapReduce、Spark和Hive，支持流行的数据导入导出工具Sqoop。使用向导实现参数配置过程，通过一步一步的选择可以完成配置。

工作流引擎调度服务通过多进程的方式实现任务调度和任务运行，由于调度服务和每个任务使用不同的Java虚拟机。可以有效格力资源访问，降低之间的相互影响。如果某个任务发生异常退出不会影响其他任务正常运行。

通过一站式的流程，本实施例的方案完整支持上述定制流程->提交->运行->检查运行结果的全过程，用户可以连续进行开发运行相关工作，而不需要在每一个步骤都切换工作环境。在这种情况下，本实施例的方案与业界的现有技术和工作相比提高了工作效率。

通过以上各特性，本实施例的方案可以达到降低大数据应用门槛、提高生产效率、降低生产成本的目标。

实施例二

如图3所示，其中公开了一种基于WEB的可视化大数据工作流配置系统，其中，

界面层21，用于设置可视化流程设计组件，接收通过所述设计组件和对应的数据处理节点设计的大数据处理业务流程；展示所述大数据处理业务流程的执行结果；

引擎层22，用于根据所述大数据处理业务流程，依次调度所述数据处理节点；将所述数据处理节点打包成分布式程序；接收所述分布式程序的执行结果并整理；将所述执行结果返回给所述界面层21；

执行层23，用于在分布式程序运行环境中执行所述分布式程序并将执行结果返回所述引擎层22。

进一步的，所述引擎层22包括工作流引擎和执行器；

进一步的，所述适配器为若干个，根据所述接口分别设置。

进一步的，所述执行层为第三方的分布式程序分别搭建分布式程序运行环境，在对应的运行环境中运行所述分布式程序。

根据本公开上述的一个或多个技术方案，其提供了一种基于WEB的可视化大数据工作流配置的方案，用户通过本实施例的方案可以仅仅通过定制流程、配置流程节点的方式就可以进行大数据的计算处理工作。大大降低了大数据处理应用开发的门槛，以及平缓了学习曲线。通过设置运行计划定时或周期运行，方便使用。

通过浏览器使用拖拽的方式和向导界面实现工作流配置，提升开发效率，降低人员成本。同时，提供完善的MapReduce/Hive/Spark支持，当前主流的大数据处理程序为HiveSQL、MapReduce、Spark、SparkSQL，本公开试图对上述大数据分布式处理程序提供完善的支持。进一步的，本公开的方案能够提升运行速度，实现为轻量级的分布式工作流引擎，提升分布式程序的调度、运行速度，提升系统性能。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如，在权利要求书中所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中，这些系统中的若干个可以是通过同一个硬件项来具体体现。

以上所述仅是本公开的具体实施方式，应当指出的是，对于本领域的普通技术人员来说，在不脱离本公开精神的前提下，可以作出若干改进、修改、和变形，这些改进、修改、和变形都应视为落在本申请的保护范围内。

Claims

1.一种基于WEB的可视化大数据工作流配置方法，其特征在于，包括：

所述界面层展示所述大数据处理业务流程的执行结果。

2.如权利要求1所述的方法，其特征在于，所述界面层将大数据处理业务流程形成的大数据处理任务提交引擎层；

3.如权利要求1所述的方法，其特征在于，所述引擎层在所有所述分布式程序执行完毕并收到相应执行结果后，将所述执行结果返回给所述界面层。

4.如权利要求1所述的方法，其特征在于，所述引擎层包括工作流引擎和执行器；

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

所述适配器为若干个，根据所述接口分别设置。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种基于WEB的可视化大数据工作流配置系统，其特征在于，包括：

8.如权利要求7所述的系统，其特征在于，所述引擎层包括工作流引擎和执行器；

9.如权利要求8所述的系统，其特征在于，所述适配器为若干个，根据所述接口分别设置。

10.如权利要求7所述的系统，其特征在于，所述执行层为第三方的分布式程序分别搭建分布式程序运行环境，在对应的运行环境中运行所述分布式程序。