CN105976158A - 一种可视化的etl流程管理与调度监控方法 - Google Patents

一种可视化的etl流程管理与调度监控方法 Download PDF

Info

Publication number
CN105976158A
CN105976158A CN201610264433.7A CN201610264433A CN105976158A CN 105976158 A CN105976158 A CN 105976158A CN 201610264433 A CN201610264433 A CN 201610264433A CN 105976158 A CN105976158 A CN 105976158A
Authority
CN
China
Prior art keywords
workflow
etl
scheduling
visual
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610264433.7A
Other languages
English (en)
Inventor
常梦楠
唐明
任红雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electronic Technology Cyber Security Co Ltd
Original Assignee
China Electronic Technology Cyber Security Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electronic Technology Cyber Security Co Ltd filed Critical China Electronic Technology Cyber Security Co Ltd
Priority to CN201610264433.7A priority Critical patent/CN105976158A/zh
Publication of CN105976158A publication Critical patent/CN105976158A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种可视化的ETL流程管理与调度监控方法,采用界面拖拽组件画流程图的方式实现工作流程的图形化创建:根据需要拖拽数据处理单元、流程依赖和相关分支、合并的流程组件,绘制工作流程图;保存画板中的流程时,画板所有对象、对象属性、对象X轴和Y轴位置,以及对象间连线以JSON对象保存传至后台,后台把JSON对象转换为JBPM流程,将流程属性转换为JBPM属性;采用自动按时调度的处理方式实现ETL工作流程的调度监控。本发明采用交互式、图形化、可拖拽的设计,使得ETL的工作流程易于创建、便于维护,其所见即所得的特性,减少繁琐的人工介入,降低了ETL系统的使用门槛,降低企业的人力成本,提高工作效率。

Description

一种可视化的ETL流程管理与调度监控方法
技术领域
本发明属于大数据技术领域,具体涉及一种可视化的ETL流程管理与调度监控方法。
背景技术
数据是企业、政府乃至国家运用科学管理、决策分析的基础。在实际的生产应用中,由于不同原始数据库中的数据的来源、存储格式不一样,导致了具体的系统实施、数据整合容易出现问题,ETL(Extract-Transform-Load,数据提取、转换和加载)系统是解决这一问题的有力工具,然而作为一种专业的工具,其复杂、易出错、配置繁琐的特点使得其有较高的使用门槛,如何设计使得其操作简单、便于维护、易于扩展是ETL开发过程中重要的问题,在如今的大数据时代,假如任何数据迁移和加载都需要专业的数据开发人员来使用ETL工具,将大大降低企业工作效率,增加人力成本。
发明内容
为了克服现有技术的缺点,本发明提供了一种可视化的ETL流程管理与调度监控方法。
本发明所采用的技术方案是:一种可视化的ETL流程管理与调度监控方法,包括如下内容:
(1)采用界面拖拽组件画流程图的方式实现ETL工作流程的图形化创建:
根据需要拖拽数据处理单元、流程依赖和相关分支、合并的流程组件,绘制ETL工作流程图;保存画板中的流程时,画板所有对象、对象属性、对象X轴和Y轴位置,以及对象间连线以JSON对象保存传至后台,后台把JSON对象转换为JBPM流程,将流程属性转换为JBPM属性;
(2)采用自动按时调度的处理方式实现ETL工作流程的调度监控:
1)工作流程对未来数据的可视化调度监控:创建工作流程后,当系统时间到达预定的时间,ETL工作流程将会进入调度状态,操作和处理当前时间段的数据;
2)工作流程对特定历史时间段数据的可视化调度监控:在启动调度前,先选定工作流程和历史时间范围,系统自动按时间顺序逐天调度执行。
与现有技术相比,本发明的积极效果是:采用交互式、图形化、可拖拽的设计,使得ETL的工作流程易于创建、便于维护,其所见即所得的特性,减少繁琐的人工介入,降低了ETL系统的使用门槛,降低企业的人力成本,提高工作效率。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为可视化的ETL工作流程管理与调度监控示意图;
图2可插拔式的数据处理单元示意图;
图3 ETL工作流程可视化调度监控示意图;
图4 ETL工作流程的数据处理单元可视化调度监控示意图。
具体实施方式
一种可视化的ETL流程管理与调度监控方法,如图1所示,包括如下内容:
一、ETL工作流程的可视化管理:
1、图形化创建ETL工作流程:
本发明中,ETL工作流程的创建通过界面拖拽组件画流程图的方式完成。用户可根据需要拖拽数据处理单元、流程依赖和相关分支、合并的流程组件,绘制ETL工作流程图,当用户选择保存画板中的流程时,画板所有对象、对象属性、对象X轴和Y轴位置,对象间连线以JSON对象保存传至后台,后台把JSON对象转换为JBPM流程,流程属性转换为JBPM属性。为不影响数据库查询效率,本发明建议JBPM数据和JSON数据存入磁盘,仅把存储磁盘路径存入数据库。
需要说明的是本发明将ETL工作流程中的数据处理单元转化为JBPM自定义的TASK,转化后的JBPM自定义TASK运行于JBPM工作流引擎平台,以适配不同的数据处理单元,故此本发明的ETL工作流程以JBPM工作流引擎为骨架,其上可堆集附加各种不同数据处理单元和流程依赖。如图2所示,数据处理单元以插件的形式存在,可按需求增减,使得以本发明为基础的ETL具有可定制、易扩展的特性。
2、ETL工作流程的图形化查询、修改:
当用户需要查看某ETL工作流程的详细定义时,例如查看该工作流程所包含的具体数据处理单元详细内容、该工作流程的前后依赖关系,可根据该流程的唯一性标识,从后台取得该工作流程的JBPM数据和JSON数据,将该ETL工作流程图所包含的详细信息,展现在画板区域,并支持具体到每一个数据处理单元的修改功能。
二、ETL工作流程的调度采用自动按时调度的处理方式,其可视化调度监控包括:
1、工作流程对未来数据的可视化调度与监控:
创建工作流程后,当系统时间到达预定的时间,该ETL工作流程将会进入调度状态,操作和处理当前时间段的数据。在本发明中ETL工作流程的调度状态分为等待执行、队列排队、正在执行、执行成功和执行失败,后台根据该ETL工作流程信息及其相关依赖信息,使用Graphviz库以SVG(Scalable Vector Graphics)形式生成DAG(Directed AcyclicGraph)图,并标注当前调度流程及其依赖调度流程的状态,最后展现至前端页面,实现对ETL工作流程的整体可视化监控。参阅图3所示,调度流程1无依赖工作流程,且执行失败;调度流程3和4均依赖调度流程2,则当且仅当调度流程2执行成功,调度流程3和4方可执行,如图中所示调度流程2执行失败,流程3和流程4将不会执行。
当右击单个工作流程,可选择查询该流程中所有数据处理单元的运行情况,同样的工作流程中每个数据处理单元也以DAG图的方式展现,并标注该数据处理单元是否成功执行,使类似Crontab,Spring Quarz的黑盒调度变为白盒调度,实现对ETL工作流程中具体数据处理单元的可视化监控。工作流程数据处理单元严格依赖,避免由于输入环节出错导致下游环节异常.保障数据完整性和可靠性,具体参阅图4所示,该ETL工作流程为图3中的调度流程1,该调度流程的数据处理单元2失败执行,数据处理单元3将不会执行。
同时右击单个工作流程或数据处理单元,均可选择手动重新调度和终止调度工作流程或数据处理单元。
2、工作流程对特定历史时间段数据的可视化调度监控。
在ETL的实际业务场景中,很多情况下需要补充历史数据,如历史一个月、半年的数据。本发明中,对特定历史时间段数据的可视化调度监控,类似于未来数据的可视化调度与监控,只是启动该种调度方式前,需要用户选定工作流程和历史时间范围,系统自动按时间顺序逐天调度执行,摆脱传统需要人工介入,不断修改参数,逐天触发调度方式,同时保证后一天数据依赖前一天数据的准确性。
通过以上的发明实施例的详细说明,所属领域的技术人员可以清楚的了解到本发明的实现方式。可将上述实例中的Graphviz库等效替换为其他开源的SVG工具,如Inkscape等;将上述的JPBM工作流引擎改为Shark;将上述实例的B/S架构,改为C/S架构。
本发明的工作原理为:
采用交互式、图形化、可拖拽的设计,将离散的数据抽取、转换、装载任务以工作流程的方式组织起来,统一调度与监控。使得ETL的工作流程以图形化的形式展现,包括流程的可视化管理模块和调度监控模块,具体内容如下:
1)采用交互式、拖拽式的图形化设计创建ETL工作流程及其依赖流程;
2)图形化查询、修改ETL工作流程及其数据处理单元;
3)可视化调度监控ETL工作流程。

Claims (5)

1.一种可视化的ETL流程管理与调度监控方法,其特征在于:包括如下内容:
(1)采用界面拖拽组件画流程图的方式实现ETL工作流程的图形化创建:
根据需要拖拽数据处理单元、流程依赖和相关分支、合并的流程组件,绘制ETL工作流程图;保存画板中的流程时,画板所有对象、对象属性、对象X轴和Y轴位置,以及对象间连线以JSON对象保存传至后台,后台把JSON对象转换为JBPM流程,并将流程属性转换为JBPM属性;
(2)采用自动按时调度的处理方式实现ETL工作流程的调度监控:
1)工作流程对未来数据的可视化调度与监控:创建工作流程后,当系统时间到达预定的时间,ETL工作流程将会进入调度状态,操作和处理当前时间段的数据;
2)工作流程对特定历史时间段数据的可视化调度监控:在启动调度前,先选定工作流程和历史时间范围,系统自动按时间顺序逐天调度执行。
2.根据权利要求1所述的一种可视化的ETL流程管理与调度监控方法,其特征在于:将JBPM数据和JSON数据存入磁盘,将存储磁盘路径存入数据库。
3.根据权利要求1所述的一种可视化的ETL流程管理与调度监控方法,其特征在于:将数据处理单元转化为JBPM自定义的TASK,且TASK运行于JBPM工作流引擎平台。
4.根据权利要求1所述的一种可视化的ETL流程管理与调度监控方法,其特征在于:ETL工作流程的调度状态分为等待执行、队列排队、正在执行、执行成功和执行失败。
5.根据权利要求4所述的一种可视化的ETL流程管理与调度监控方法,其特征在于:后台根据ETL工作流程信息及其相关依赖信息,使用Graphviz库以SVG形式生成DAG图,并标注当前调度流程及其依赖调度流程的状态,最后展现至前端页面,实现对ETL工作流程的调度监控。
CN201610264433.7A 2016-04-26 2016-04-26 一种可视化的etl流程管理与调度监控方法 Pending CN105976158A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610264433.7A CN105976158A (zh) 2016-04-26 2016-04-26 一种可视化的etl流程管理与调度监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610264433.7A CN105976158A (zh) 2016-04-26 2016-04-26 一种可视化的etl流程管理与调度监控方法

Publications (1)

Publication Number Publication Date
CN105976158A true CN105976158A (zh) 2016-09-28

Family

ID=56994532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610264433.7A Pending CN105976158A (zh) 2016-04-26 2016-04-26 一种可视化的etl流程管理与调度监控方法

Country Status (1)

Country Link
CN (1) CN105976158A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145576A (zh) * 2017-05-08 2017-09-08 科技谷(厦门)信息技术有限公司 一种支持可视化和流程化的大数据etl调度系统
CN107301113A (zh) * 2017-05-26 2017-10-27 北京小度信息科技有限公司 任务监控方法及装置
CN108170696A (zh) * 2017-06-08 2018-06-15 国云科技股份有限公司 一种数据挖掘的方法
CN108470047A (zh) * 2018-03-07 2018-08-31 谭亮 基于物联网的远程平台监测系统
CN109101571A (zh) * 2018-07-17 2018-12-28 新华三大数据技术有限公司 Etl设计过程的处理方法、装置和设备
CN109636342A (zh) * 2018-12-14 2019-04-16 平安城市建设科技(深圳)有限公司 审核流程的构建方法、审核设备、存储介质及装置
CN109814991A (zh) * 2018-12-25 2019-05-28 北京明略软件系统有限公司 一种数据治理中的任务管理方法及装置
CN109992249A (zh) * 2019-03-06 2019-07-09 北京国舜科技股份有限公司 一种流式数据流程操作方法及系统
CN110232085A (zh) * 2019-04-30 2019-09-13 中国科学院计算机网络信息中心 一种大数据etl任务的编排方法与系统
CN110362300A (zh) * 2019-07-18 2019-10-22 北京聚通达科技股份有限公司 一种数据清洗工具
CN110471978A (zh) * 2019-08-23 2019-11-19 国家气象信息中心 一种基于jbpm调度系统的气象政务数据抽取方法
CN111082976A (zh) * 2019-12-02 2020-04-28 东莞数汇大数据有限公司 一种支持etl任务调度可视化的方法
CN111125451A (zh) * 2019-12-25 2020-05-08 北京百度网讯科技有限公司 数据生产加工方法、装置、电子设备及存储介质
CN111176802A (zh) * 2019-07-26 2020-05-19 腾讯科技(深圳)有限公司 任务处理方法、装置、电子设备及存储介质
CN111291106A (zh) * 2020-05-13 2020-06-16 成都四方伟业软件股份有限公司 一种etl系统的高效流程编排方法及系统
CN113626116A (zh) * 2021-07-20 2021-11-09 中国电子科技集团公司电子科学研究院 智能学习系统及数据分析方法
CN114153367A (zh) * 2022-02-10 2022-03-08 中国电子信息产业集团有限公司 快速替代连接关系的交互方法、设备及可读存储介质
CN114880015A (zh) * 2021-07-26 2022-08-09 深圳前海微众银行股份有限公司 任务配置方法、装置、设备及存储介质
CN116166162A (zh) * 2023-04-20 2023-05-26 紫金诚征信有限公司 一种数据库的可视化操作方法、装置及计算机可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020046301A1 (en) * 2000-08-11 2002-04-18 Manugistics, Inc. System and method for integrating disparate networks for use in electronic communication and commerce
CN101567013A (zh) * 2009-06-02 2009-10-28 阿里巴巴集团控股有限公司 一种etl调度的实现方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020046301A1 (en) * 2000-08-11 2002-04-18 Manugistics, Inc. System and method for integrating disparate networks for use in electronic communication and commerce
CN101567013A (zh) * 2009-06-02 2009-10-28 阿里巴巴集团控股有限公司 一种etl调度的实现方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李云松: "小微企业数据整合中ETL工具Kettle的应用", 《菏泽学院学报》 *
许爱军: "JBPM工作流管理系统的研究和实现", 《计算机技术与发展》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145576A (zh) * 2017-05-08 2017-09-08 科技谷(厦门)信息技术有限公司 一种支持可视化和流程化的大数据etl调度系统
CN107145576B (zh) * 2017-05-08 2020-06-23 科技谷(厦门)信息技术有限公司 一种支持可视化和流程化的大数据etl调度系统
CN107301113A (zh) * 2017-05-26 2017-10-27 北京小度信息科技有限公司 任务监控方法及装置
CN108170696A (zh) * 2017-06-08 2018-06-15 国云科技股份有限公司 一种数据挖掘的方法
CN108470047A (zh) * 2018-03-07 2018-08-31 谭亮 基于物联网的远程平台监测系统
CN108470047B (zh) * 2018-03-07 2023-09-26 谭亮 基于物联网的远程平台监测系统
CN109101571A (zh) * 2018-07-17 2018-12-28 新华三大数据技术有限公司 Etl设计过程的处理方法、装置和设备
CN109101571B (zh) * 2018-07-17 2020-12-08 新华三大数据技术有限公司 Etl设计过程的处理方法、装置和设备
CN109636342A (zh) * 2018-12-14 2019-04-16 平安城市建设科技(深圳)有限公司 审核流程的构建方法、审核设备、存储介质及装置
CN109814991A (zh) * 2018-12-25 2019-05-28 北京明略软件系统有限公司 一种数据治理中的任务管理方法及装置
CN109992249A (zh) * 2019-03-06 2019-07-09 北京国舜科技股份有限公司 一种流式数据流程操作方法及系统
CN110232085A (zh) * 2019-04-30 2019-09-13 中国科学院计算机网络信息中心 一种大数据etl任务的编排方法与系统
CN110232085B (zh) * 2019-04-30 2021-09-24 中国科学院计算机网络信息中心 一种大数据etl任务的编排方法与系统
CN110362300A (zh) * 2019-07-18 2019-10-22 北京聚通达科技股份有限公司 一种数据清洗工具
CN111176802A (zh) * 2019-07-26 2020-05-19 腾讯科技(深圳)有限公司 任务处理方法、装置、电子设备及存储介质
CN111176802B (zh) * 2019-07-26 2023-03-14 腾讯科技(深圳)有限公司 任务处理方法、装置、电子设备及存储介质
CN110471978A (zh) * 2019-08-23 2019-11-19 国家气象信息中心 一种基于jbpm调度系统的气象政务数据抽取方法
CN111082976A (zh) * 2019-12-02 2020-04-28 东莞数汇大数据有限公司 一种支持etl任务调度可视化的方法
CN111082976B (zh) * 2019-12-02 2022-07-29 东莞数汇大数据有限公司 一种支持etl任务调度可视化的方法
CN111125451A (zh) * 2019-12-25 2020-05-08 北京百度网讯科技有限公司 数据生产加工方法、装置、电子设备及存储介质
CN111291106A (zh) * 2020-05-13 2020-06-16 成都四方伟业软件股份有限公司 一种etl系统的高效流程编排方法及系统
CN113626116A (zh) * 2021-07-20 2021-11-09 中国电子科技集团公司电子科学研究院 智能学习系统及数据分析方法
CN113626116B (zh) * 2021-07-20 2023-12-15 中国电子科技集团公司电子科学研究院 智能学习系统及数据分析方法
CN114880015A (zh) * 2021-07-26 2022-08-09 深圳前海微众银行股份有限公司 任务配置方法、装置、设备及存储介质
CN114153367A (zh) * 2022-02-10 2022-03-08 中国电子信息产业集团有限公司 快速替代连接关系的交互方法、设备及可读存储介质
CN116166162A (zh) * 2023-04-20 2023-05-26 紫金诚征信有限公司 一种数据库的可视化操作方法、装置及计算机可读介质

Similar Documents

Publication Publication Date Title
CN105976158A (zh) 一种可视化的etl流程管理与调度监控方法
WO2009055465A3 (en) Method and system for managing enterprise content
CN104899034A (zh) 在im沟通界面生成沟通事项的待办任务和结论的方法
CN107145576B (zh) 一种支持可视化和流程化的大数据etl调度系统
CN108446396B (zh) 一种基于改进型cim模型的电力数据处理方法
CN103279454A (zh) 文档自动生成方法、装置及系统
CN102419831A (zh) 流程管理系统及其处理方法
CN105677763A (zh) 一种基于Hadoop的图像质量评估系统
CN106920070A (zh) 一种简历收集方法、装置及系统
CN202414169U (zh) 一种可配置的通用综合航电系统
US10296376B2 (en) Planning for manufacturing environments
CN102916867A (zh) 一种消息推送方法及系统
EP3437060A1 (en) Rule based hierarchical configuration
CN107423270B (zh) 一种在线流程图和代码实时互转的实现方法
CN108073705B (zh) 一种分布式海量数据聚合采集方法
CN104268607A (zh) 一种基于rfid技术的纺织面料管理系统及方法
CN103699977A (zh) 基于移动通信的工作流管理系统及管理方法
EP2600243A3 (en) Automated implementation of business service communication and/or linkage of executable processes through automatic generation and population of variables
CN112668843A (zh) 车险理赔风险管控方法及系统、电子设备、介质
CN105205639A (zh) 一种智达物流业务流程及方法
CN103559586B (zh) 一种报表文档管理装置、系统及方法
CN103136037B (zh) 任务管理系统及方法
US20160188538A1 (en) Method and apparatus of building intermediate character library
CN104408550A (zh) 一种商品规格的处理方法
CN101815082A (zh) 一种外部消息集成装置及业务系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160928