CN108037919A - 一种基于web的可视化大数据工作流配置方法及系统 - Google Patents

一种基于web的可视化大数据工作流配置方法及系统 Download PDF

Info

Publication number
CN108037919A
CN108037919A CN201711246865.6A CN201711246865A CN108037919A CN 108037919 A CN108037919 A CN 108037919A CN 201711246865 A CN201711246865 A CN 201711246865A CN 108037919 A CN108037919 A CN 108037919A
Authority
CN
China
Prior art keywords
data processing
big data
distributed program
distributed
engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711246865.6A
Other languages
English (en)
Inventor
张祺君
黄超
曹正凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING BOYU TONGDA TECHNOLOGY Co Ltd
Original Assignee
BEIJING BOYU TONGDA TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING BOYU TONGDA TECHNOLOGY Co Ltd filed Critical BEIJING BOYU TONGDA TECHNOLOGY Co Ltd
Priority to CN201711246865.6A priority Critical patent/CN108037919A/zh
Publication of CN108037919A publication Critical patent/CN108037919A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/34Graphical or visual programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开公开了一种基于WEB的可视化大数据工作流配置方法及系统,通过浏览器使用拖拽的方式和向导界面实现工作流配置,提升开发效率,降低人员成本。同时,提供完善的MapReduce/Hive/Spark支持,当前主流的大数据处理程序为HiveSQL、MapReduce、Spark、SparkSQL,本公开试图对上述大数据分布式处理程序提供完善的支持。进一步的,本公开的方案能够提升运行速度,实现为轻量级的分布式工作流引擎,提升分布式程序的调度、运行速度,提升系统性能。

Description

一种基于WEB的可视化大数据工作流配置方法及系统
技术领域
本公开涉及大数据处理技术领域,具体涉及一种基于WEB的可视化大数据工作流配置方法及系统。
背景技术
大数据环境下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。
传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性和扩展性。
传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。因此,传统的数据处理方法,已经不能适应大数据的需求!
大数据的基本处理流程与传统数据处理流程并无太大差异,主要区别在于:由于大数据要处理大量的结构化和非结构化的数据,所以在各个处理环节中都可以采用MapReduce等方式进行并行处理。
现有技术中,通常采用两种办法调度执行大数据Spark/MapReduce分布式程序,分别是采用Linux计划任务方式调度和使用开源分布式工作流引擎调度。在编写Spark/Mapreduce程序或者脚本,通过Linux计划任务对这些程序进行调度运行。这么做生产率低、复杂度高,系统的维护成本也会非常高。采用开源的工作流引擎调度执行,目前有较常见开源的工作流引擎的有Oozie和Azkaban。
Apache Oozie是一个工作流引擎服务器,用于运行分布式任务工作流,运行在Tomcat等Java Servlet容器中。Oozie使用基于XML自定义处理的语言HPDL来定义工作流。Oozie工作流中包含分支、汇合等流程控制节点和执行节点(Action)。执行节点通常是独立的Hadoop Map Reuce任务、Hadoop Pig任务等,所有的Action以有向无环图(DAG DirectAcyclic Graph)的模式部署运行。
Apache Oozie还存在很多问题,主要有:a.实现机制低效,执行的时候需要把所有程序文件保存到HDFS中,在执行时再将程序文件下载到运行节点执行。该机制造成流程的支撑有较多的延时;b.稳定性不够,当前Oozie的成熟度还比较低,存在非常多BUG以及修正速度很慢;c.工作流工作繁琐,需要编写大量的XML配置文件,非常容易出错。
Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个web用户界面维护和跟踪工作流。
Azkaban具有相当的局限性,包括:a.任务之间的依赖,不能够指定部分完成;b.目前支持的分布式程序类型较少,目前只支持Java程序、HadoopShell、Pig、Hive、Hive2等程序,尚不支持主流的Spark、Spark SQL等分布式大数据应用程序类型。
现有技术中,使用Linux计划任务调度的方式需要手工编写计划任务脚本,具有配置繁琐和维护成本很高的问题。
配置繁琐。使用手工编写计划任务脚本的方式,配置过程繁琐,正确性难以得到有效验证。
维护成本高。因为直接采用Linux计划任务,在任务增加、计划运行时间修改、删除等时候,都需要直接登录到操作系统调整计划任务。维护效率低,非常容易出错。
现有开源工作流引擎存在配置过程繁琐、运行速度慢、部分功能不完善的问题。
配置过程繁琐。开源工作流引擎通过XML文件配置工作流,开发效率低且容易出错。开发人员、运维人员学习周期长难度大。
功能不完善。系统自带的简单范例程序可以正常运行。由于企业开发的程序调用外部程序库比较多,开源工作流引擎下常常无法正常运行。
运行速度慢。开源工作流引擎所有配置数据和程序文件全部保存在HDFS上,任务运行时需要下载到本地硬盘后启动,启动耗时长。
发明内容
鉴于上述问题,提出了本公开以便提供一种克服上述问题或者至少部分地解决上述问题的基于WEB的可视化大数据工作流配置方法及系统。
根据本公开的一个方面,提供了一种基于WEB的可视化大数据工作流配置方法,其包括:
界面层设置可视化流程设计组件,接收通过所述设计组件和对应的数据处理节点设计的大数据处理业务流程;
引擎层根据所述大数据处理业务流程,依次调度所述数据处理节点;将所述数据处理节点打包成分布式程序,提交到执行层;
执行层在分布式程序运行环境中执行所述分布式程序并将执行结果返回所述引擎层;
所述引擎层接收所述执行结果并整理;将所述执行结果返回给所述界面层;
所述界面层展示所述大数据处理业务流程的执行结果。
所述界面层将大数据处理业务流程形成的大数据处理任务提交引擎层;
所述引擎层根据所述大数据处理任务调度所述数据处理节点。
所述引擎层在所有所述分布式程序执行完毕并收到相应执行结果后,将所述执行结果返回给所述界面层。
所述引擎层包括工作流引擎和执行器;
所述工作流引擎根据所述大数据处理业务流程,依次调度所述数据处理节点;
所述执行器遵照适配器设计模式实现;将一个类的接口转换成不兼容的另一个接口,将所述数据处理节点打包成适配各类接口的分布式程序。
所述方法还包括:
所述适配器为若干个,根据所述接口分别设置。
所述方法还包括:
所述执行层为第三方的分布式程序分别搭建分布式程序运行环境,在对应的运行环境中运行所述分布式程序。
根据本公开的另一方面,提供一种基于WEB的可视化大数据工作流配置系统,包括:
界面层,用于设置可视化流程设计组件,接收通过所述设计组件和对应的数据处理节点设计的大数据处理业务流程;展示所述大数据处理业务流程的执行结果;
引擎层,用于根据所述大数据处理业务流程,依次调度所述数据处理节点;将所述数据处理节点打包成分布式程序;接收所述分布式程序的执行结果并整理;将所述执行结果返回给所述界面层;
执行层,用于在分布式程序运行环境中执行所述分布式程序并将执行结果返回所述引擎层。
所述引擎层包括工作流引擎和执行器;
所述工作流引擎,根据所述大数据处理业务流程,依次调度所述数据处理节点;
所述执行器,遵照适配器设计模式实现;将一个类的接口转换成不兼容的另一个接口,将所述数据处理节点打包成适配各类接口的分布式程序。
所述适配器为若干个,根据所述接口分别设置。
所述执行层为第三方的分布式程序分别搭建分布式程序运行环境,在对应的运行环境中运行所述分布式程序。
根据本公开上述的一个或多个技术方案,其提供了一种基于WEB的可视化大数据工作流配置的方案,通过浏览器使用拖拽的方式和向导界面实现工作流配置,提升开发效率,降低人员成本。同时,提供完善的MapReduce/Hive/Spark支持,当前主流的大数据处理程序为HiveSQL、MapReduce、Spark、SparkSQL,本公开试图对上述大数据分布式处理程序提供完善的支持。进一步的,本公开的方案能够提升运行速度,实现为轻量级的分布式工作流引擎,提升分布式程序的调度、运行速度,提升系统性能。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本公开的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本公开的一个实施例的基于WEB的可视化大数据工作流配置平台的结构图;
图2示出了根据本公开一个实施例的基于WEB的可视化大数据工作流配置方法的流程图;
图3示出了根据本公开一个实施例的基于WEB的可视化大数据工作流配置系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本公开各个实施例的方案,旨在设计和实现一个基于WEB的可视化大数据工作流配置系统,在该系统中可以通过拖拽的方式完成工作流设计和配置。该工作流配置系统生成JSON格式字符串描述的工作流对象。设计和实现一个分布式大数据工作流引擎,该引擎根据上述JSON描述的工作流对象,按照节点的依赖关系生成执行计划,按照执行计划运行节点程序。
本公开的各个实施例,基于一个分布式大数据工作流引擎,为三层架构,即界面层、引擎层和执行层,具体如图1所示。其中,界面层提供可视化的用户操作WEB页面,包含一整套的流程绘制界面、组件设置向导窗口等。用户在WEB页面中设计完成的流程定义数据以JSON格式存入数据库中,以便引擎层取用。
引擎层实现大数据处理流程的调度执行功能。引擎层包含了工作流引擎和执行器。执行器遵照适配器设计模式来实现。适配器模式将一个类的接口转换成客户希望的另外一个接口,使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。需要支持新的分布式应用程序类型时只需要实现新的Adaptee,其它部分代码完全不需要改变。使用该模式既可以保证系统的可扩展性,又能有效地隔离变化。
执行层分布式大数据处理程序实际运行在执行层中。执行层通常为第三方的分布式程序程序运行环境,例如Hadoop MapReduce、Spark、Hive等。
Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop由许多元素构成。其最底部是HadoopDistributed File System(HDFS),它存储Hadoop集群中所有存储节点上的文件。HDFS的上一层是MapReduce引擎,该引擎由JobTrackers和TaskTrackers组成。Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce、Yarn分布式调度框架,以及数据仓库工具Hive和分布式数据库Hbase,基本涵盖了Hadoop分布式平台的所有技术核心。
Hive是一个基于hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。把海量数据存储于hadoop文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用HQL(类SQL)语言对这些数据进行自动化管理和处理。我们可以把Hive中海量结构化数据看成一个个的表,而实际上这些数据是分布式存储在HDFS中的。Hive经过对语句进行解析和转换,最终生成一系列基于hadoop的map/reduce任务,通过执行这些任务完成数据处理
Sqoop(是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(MySQL、PostgreSql等)间进行数据的传递,可以将一个关系型数据库(例如:MySQL,Oracle,PostgreSql等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。在计算机中,工作流属于计算机支持的协同工作(CSCW)的一部分。后者是普遍地研究一个群体如何在计算机的帮助下实现协同工作的。工作流主要解决的主要问题是为了实现某个业务目标,利用计算机在多个参与者之间按某种预定规则自动传递文档、信息或者任务。
实施例一
图2示出了本实施例的基于WEB的可视化大数据工作流配置方法流程图,参照图1,所述方法可以包括:
步骤11,界面层设置可视化流程设计组件,接收通过所述流程设计组件和对应的数据处理节点设计的大数据处理业务流程。
本实施例中,界面层主要提供方便用户使用的可视化界面,提供相应的设计组件,这些设计组件可以根据用户的需求和操作随意推拽,并任意组合。根据用户的组合和设计来形成大数据处理业务流程,这些业务流程是与对应的数据处理节点相应的。也即用户通过操作设计组件,达到控制和组合数据处理节点的目的,并形成根据用户需求来设计的大数据处理业务流程。
界面层可以通过WEB页面来实现和展示,用户登陆相关WEB页面即可进行设置。
步骤12,引擎层根据大数据处理业务流程,依次调度数据处理节点;将所述数据处理节点打包成分布式程序,提交到执行层。
界面层将大数据处理业务流程形成的大数据处理任务提交引擎层;所述引擎层根据所述大数据处理任务调度所述数据处理节点。
引擎层包括工作流引擎和执行器;所述工作流引擎根据所述大数据处理业务流程,依次调度所述数据处理节点;所述执行器遵照适配器设计模式实现;将一个类的接口转换成不兼容的另一个接口,将所述数据处理节点打包成适配各类接口的分布式程序。
适配器可以为多个,根据接口分别设置。也即适配器的数量的形式均根据实际的需求来设置。
步骤13,执行层在分布式程序运行环境中执行所述分布式程序并将执行结果返回所述引擎层。
执行层为第三方的分布式程序分别搭建分布式程序运行环境,在对应的运行环境中运行所述分布式程序。
步骤14,引擎层接收所述执行结果并整理;将所述执行结果返回给所述界面层。
引擎层在所有所述分布式程序执行完毕并收到相应执行结果后,将所述执行结果返回给所述界面层。
步骤15,界面层展示所述大数据处理业务流程的执行结果。
这个展示也是可视化的展示,为用户提供可视化的大数据处理业务流程的全过程展示和执行结果的展示。展示形式可以根据用户需求定义。
用户通过本实施例的方案可以仅仅通过定制流程、配置流程节点的方式就可以进行大数据的计算处理工作。大大降低了大数据处理应用开发的门槛,以及平缓了学习曲线。通过设置运行计划定时或周期运行,方便使用。
支持流行的大数据运算框架MapReduce、Spark和Hive,支持流行的数据导入导出工具Sqoop。使用向导实现参数配置过程,通过一步一步的选择可以完成配置。
工作流引擎调度服务通过多进程的方式实现任务调度和任务运行,由于调度服务和每个任务使用不同的Java虚拟机。可以有效格力资源访问,降低之间的相互影响。如果某个任务发生异常退出不会影响其他任务正常运行。
通过一站式的流程,本实施例的方案完整支持上述定制流程->提交->运行->检查运行结果的全过程,用户可以连续进行开发运行相关工作,而不需要在每一个步骤都切换工作环境。在这种情况下,本实施例的方案与业界的现有技术和工作相比提高了工作效率。
通过以上各特性,本实施例的方案可以达到降低大数据应用门槛、提高生产效率、降低生产成本的目标。
实施例二
如图3所示,其中公开了一种基于WEB的可视化大数据工作流配置系统,其中,
界面层21,用于设置可视化流程设计组件,接收通过所述设计组件和对应的数据处理节点设计的大数据处理业务流程;展示所述大数据处理业务流程的执行结果;
引擎层22,用于根据所述大数据处理业务流程,依次调度所述数据处理节点;将所述数据处理节点打包成分布式程序;接收所述分布式程序的执行结果并整理;将所述执行结果返回给所述界面层21;
执行层23,用于在分布式程序运行环境中执行所述分布式程序并将执行结果返回所述引擎层22。
进一步的,所述引擎层22包括工作流引擎和执行器;
所述工作流引擎,根据所述大数据处理业务流程,依次调度所述数据处理节点;
所述执行器,遵照适配器设计模式实现;将一个类的接口转换成不兼容的另一个接口,将所述数据处理节点打包成适配各类接口的分布式程序。
进一步的,所述适配器为若干个,根据所述接口分别设置。
进一步的,所述执行层为第三方的分布式程序分别搭建分布式程序运行环境,在对应的运行环境中运行所述分布式程序。
根据本公开上述的一个或多个技术方案,其提供了一种基于WEB的可视化大数据工作流配置的方案,用户通过本实施例的方案可以仅仅通过定制流程、配置流程节点的方式就可以进行大数据的计算处理工作。大大降低了大数据处理应用开发的门槛,以及平缓了学习曲线。通过设置运行计划定时或周期运行,方便使用。
支持流行的大数据运算框架MapReduce、Spark和Hive,支持流行的数据导入导出工具Sqoop。使用向导实现参数配置过程,通过一步一步的选择可以完成配置。
工作流引擎调度服务通过多进程的方式实现任务调度和任务运行,由于调度服务和每个任务使用不同的Java虚拟机。可以有效格力资源访问,降低之间的相互影响。如果某个任务发生异常退出不会影响其他任务正常运行。
通过一站式的流程,本实施例的方案完整支持上述定制流程->提交->运行->检查运行结果的全过程,用户可以连续进行开发运行相关工作,而不需要在每一个步骤都切换工作环境。在这种情况下,本实施例的方案与业界的现有技术和工作相比提高了工作效率。
通过以上各特性,本实施例的方案可以达到降低大数据应用门槛、提高生产效率、降低生产成本的目标。
通过浏览器使用拖拽的方式和向导界面实现工作流配置,提升开发效率,降低人员成本。同时,提供完善的MapReduce/Hive/Spark支持,当前主流的大数据处理程序为HiveSQL、MapReduce、Spark、SparkSQL,本公开试图对上述大数据分布式处理程序提供完善的支持。进一步的,本公开的方案能够提升运行速度,实现为轻量级的分布式工作流引擎,提升分布式程序的调度、运行速度,提升系统性能。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如,在权利要求书中所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个硬件项来具体体现。
以上所述仅是本公开的具体实施方式,应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开精神的前提下,可以作出若干改进、修改、和变形,这些改进、修改、和变形都应视为落在本申请的保护范围内。

Claims (10)

1.一种基于WEB的可视化大数据工作流配置方法,其特征在于,包括:
界面层设置可视化流程设计组件,接收通过所述设计组件和对应的数据处理节点设计的大数据处理业务流程;
引擎层根据所述大数据处理业务流程,依次调度所述数据处理节点;将所述数据处理节点打包成分布式程序,提交到执行层;
执行层在分布式程序运行环境中执行所述分布式程序并将执行结果返回所述引擎层;
所述引擎层接收所述执行结果并整理;将所述执行结果返回给所述界面层;
所述界面层展示所述大数据处理业务流程的执行结果。
2.如权利要求1所述的方法,其特征在于,所述界面层将大数据处理业务流程形成的大数据处理任务提交引擎层;
所述引擎层根据所述大数据处理任务调度所述数据处理节点。
3.如权利要求1所述的方法,其特征在于,所述引擎层在所有所述分布式程序执行完毕并收到相应执行结果后,将所述执行结果返回给所述界面层。
4.如权利要求1所述的方法,其特征在于,所述引擎层包括工作流引擎和执行器;
所述工作流引擎根据所述大数据处理业务流程,依次调度所述数据处理节点;
所述执行器遵照适配器设计模式实现;将一个类的接口转换成不兼容的另一个接口,将所述数据处理节点打包成适配各类接口的分布式程序。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
所述适配器为若干个,根据所述接口分别设置。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
所述执行层为第三方的分布式程序分别搭建分布式程序运行环境,在对应的运行环境中运行所述分布式程序。
7.一种基于WEB的可视化大数据工作流配置系统,其特征在于,包括:
界面层,用于设置可视化流程设计组件,接收通过所述设计组件和对应的数据处理节点设计的大数据处理业务流程;展示所述大数据处理业务流程的执行结果;
引擎层,用于根据所述大数据处理业务流程,依次调度所述数据处理节点;将所述数据处理节点打包成分布式程序;接收所述分布式程序的执行结果并整理;将所述执行结果返回给所述界面层;
执行层,用于在分布式程序运行环境中执行所述分布式程序并将执行结果返回所述引擎层。
8.如权利要求7所述的系统,其特征在于,所述引擎层包括工作流引擎和执行器;
所述工作流引擎,根据所述大数据处理业务流程,依次调度所述数据处理节点;
所述执行器,遵照适配器设计模式实现;将一个类的接口转换成不兼容的另一个接口,将所述数据处理节点打包成适配各类接口的分布式程序。
9.如权利要求8所述的系统,其特征在于,所述适配器为若干个,根据所述接口分别设置。
10.如权利要求7所述的系统,其特征在于,所述执行层为第三方的分布式程序分别搭建分布式程序运行环境,在对应的运行环境中运行所述分布式程序。
CN201711246865.6A 2017-12-01 2017-12-01 一种基于web的可视化大数据工作流配置方法及系统 Pending CN108037919A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711246865.6A CN108037919A (zh) 2017-12-01 2017-12-01 一种基于web的可视化大数据工作流配置方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711246865.6A CN108037919A (zh) 2017-12-01 2017-12-01 一种基于web的可视化大数据工作流配置方法及系统

Publications (1)

Publication Number Publication Date
CN108037919A true CN108037919A (zh) 2018-05-15

Family

ID=62095159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711246865.6A Pending CN108037919A (zh) 2017-12-01 2017-12-01 一种基于web的可视化大数据工作流配置方法及系统

Country Status (1)

Country Link
CN (1) CN108037919A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877309A (zh) * 2018-06-06 2018-11-23 江苏晓创教育科技有限公司 一种可视化it实训教育方法及系统
CN109284324A (zh) * 2018-10-16 2019-01-29 深圳中顺易金融服务有限公司 基于Apache Oozie框架处理大数据的流程任务的调度装置
CN109471709A (zh) * 2018-10-16 2019-03-15 深圳中顺易金融服务有限公司 基于Apache Oozie框架处理大数据的流程任务的调度方法
CN109558392A (zh) * 2018-11-20 2019-04-02 南京数睿数据科技有限公司 一种跨平台多引擎支持的海量数据迁移装置
CN109656682A (zh) * 2018-12-03 2019-04-19 中国石油化工股份有限公司 一种基于容器技术的勘探开发大数据处理平台的系统和方法
CN109710215A (zh) * 2018-12-25 2019-05-03 福建南威软件有限公司 分布式流计算的可视化流程处理引擎及其使用方法
CN110008242A (zh) * 2019-03-12 2019-07-12 广州亚美信息科技有限公司 一种基于Spark流式程序生成器及程序数据处理方法
CN110069334A (zh) * 2019-05-05 2019-07-30 重庆天蓬网络有限公司 一种基于包管理的分布式数据作业调度的方法和系统
CN110908641A (zh) * 2019-11-27 2020-03-24 中国建设银行股份有限公司 基于可视化的流计算平台、方法、设备和存储介质
CN111104102A (zh) * 2019-11-20 2020-05-05 杭州端点网络科技有限公司 一种用于构建多业务场景自动化流水线的方法
CN111427546A (zh) * 2019-01-10 2020-07-17 阿里巴巴集团控股有限公司 页面事件的处理装置和方法以及电子设备
CN111506412A (zh) * 2020-04-22 2020-08-07 上海德拓信息技术股份有限公司 基于Airflow的分布式异步任务构建、调度系统及方法
CN114385233A (zh) * 2022-03-24 2022-04-22 山东省计算中心(国家超级计算济南中心) 一种跨平台自适应数据处理工作流系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015095322A1 (en) * 2013-12-17 2015-06-25 The Cleveland Clinic Foundation Logic flow generator system and method
CN106202452A (zh) * 2016-07-15 2016-12-07 复旦大学 大数据平台的统一数据资源管理系统与方法
CN106202192A (zh) * 2016-06-28 2016-12-07 浪潮软件集团有限公司 一种基于工作流的大数据分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015095322A1 (en) * 2013-12-17 2015-06-25 The Cleveland Clinic Foundation Logic flow generator system and method
CN106202192A (zh) * 2016-06-28 2016-12-07 浪潮软件集团有限公司 一种基于工作流的大数据分析方法
CN106202452A (zh) * 2016-07-15 2016-12-07 复旦大学 大数据平台的统一数据资源管理系统与方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877309A (zh) * 2018-06-06 2018-11-23 江苏晓创教育科技有限公司 一种可视化it实训教育方法及系统
CN109284324A (zh) * 2018-10-16 2019-01-29 深圳中顺易金融服务有限公司 基于Apache Oozie框架处理大数据的流程任务的调度装置
CN109471709A (zh) * 2018-10-16 2019-03-15 深圳中顺易金融服务有限公司 基于Apache Oozie框架处理大数据的流程任务的调度方法
CN109558392A (zh) * 2018-11-20 2019-04-02 南京数睿数据科技有限公司 一种跨平台多引擎支持的海量数据迁移装置
CN109656682A (zh) * 2018-12-03 2019-04-19 中国石油化工股份有限公司 一种基于容器技术的勘探开发大数据处理平台的系统和方法
CN109710215B (zh) * 2018-12-25 2022-05-27 福建南威软件有限公司 分布式流计算的可视化流程处理引擎及其使用方法
CN109710215A (zh) * 2018-12-25 2019-05-03 福建南威软件有限公司 分布式流计算的可视化流程处理引擎及其使用方法
CN111427546A (zh) * 2019-01-10 2020-07-17 阿里巴巴集团控股有限公司 页面事件的处理装置和方法以及电子设备
CN111427546B (zh) * 2019-01-10 2023-04-11 阿里巴巴集团控股有限公司 页面事件的处理装置和方法以及电子设备
CN110008242A (zh) * 2019-03-12 2019-07-12 广州亚美信息科技有限公司 一种基于Spark流式程序生成器及程序数据处理方法
CN110069334A (zh) * 2019-05-05 2019-07-30 重庆天蓬网络有限公司 一种基于包管理的分布式数据作业调度的方法和系统
CN111104102A (zh) * 2019-11-20 2020-05-05 杭州端点网络科技有限公司 一种用于构建多业务场景自动化流水线的方法
CN110908641A (zh) * 2019-11-27 2020-03-24 中国建设银行股份有限公司 基于可视化的流计算平台、方法、设备和存储介质
CN110908641B (zh) * 2019-11-27 2024-04-26 中国建设银行股份有限公司 基于可视化的流计算平台、方法、设备和存储介质
CN111506412A (zh) * 2020-04-22 2020-08-07 上海德拓信息技术股份有限公司 基于Airflow的分布式异步任务构建、调度系统及方法
CN111506412B (zh) * 2020-04-22 2023-04-25 上海德拓信息技术股份有限公司 基于Airflow的分布式异步任务构建、调度系统及方法
CN114385233A (zh) * 2022-03-24 2022-04-22 山东省计算中心(国家超级计算济南中心) 一种跨平台自适应数据处理工作流系统及方法
CN114385233B (zh) * 2022-03-24 2022-08-02 山东省计算中心(国家超级计算济南中心) 一种跨平台自适应数据处理工作流系统及方法

Similar Documents

Publication Publication Date Title
CN108037919A (zh) 一种基于web的可视化大数据工作流配置方法及系统
US11790161B2 (en) Machine learning selection and/or application of a data model defined in a spreadsheet
CN107239335B (zh) 分布式系统的作业调度系统及方法
US11080435B2 (en) System architecture with visual modeling tool for designing and deploying complex models to distributed computing clusters
Ali et al. From conceptual design to performance optimization of ETL workflows: current state of research and open problems
Barbierato et al. Performance evaluation of NoSQL big-data applications using multi-formalism models
Ogasawara et al. Chiron: a parallel engine for algebraic scientific workflows
US20180173763A1 (en) Predictive table pre-joins in large scale data management system using graph community detection
US9043750B2 (en) Automated generation of two-tier mobile applications
US20130339943A1 (en) Computerized migration tool and method
CN103324765B (zh) 一种基于列存储的多核并行数据查询优化方法
CN103942099B (zh) 基于Hive的并行执行任务方法及装置
US10949218B2 (en) Generating an execution script for configuration of a system
Jindal et al. Peregrine: Workload optimization for cloud query engines
KR102565455B1 (ko) 신속한 스크리닝을 위한 도메인-특정 언어 해석기 및 대화형 시각적 인터페이스
US11521077B1 (en) Automatic recommendation of predictor variable values for improving predictive outcomes
Lovas et al. Orchestrated Platform for Cyber‐Physical Systems
CN109840267A (zh) 一种数据etl系统及方法
CN108427709A (zh) 一种多源海量数据处理系统及方法
US9324036B1 (en) Framework for calculating grouped optimization algorithms within a distributed data store
US20140244570A1 (en) Optimizing and managing execution of hybrid flows
Zhu et al. Towards Building Autonomous Data Services on Azure
Bandi et al. Machine learning based oozie workflow for hive query schedule mechanism
Ali et al. Parallelizing user-defined functions in the ETL workflow using orchestration style sheets
Avati et al. Declarative big data analysis for high-energy physics: TOTEM use case

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180515

WD01 Invention patent application deemed withdrawn after publication