CN105976158A - 一种可视化的etl流程管理与调度监控方法 - Google Patents
一种可视化的etl流程管理与调度监控方法 Download PDFInfo
- Publication number
- CN105976158A CN105976158A CN201610264433.7A CN201610264433A CN105976158A CN 105976158 A CN105976158 A CN 105976158A CN 201610264433 A CN201610264433 A CN 201610264433A CN 105976158 A CN105976158 A CN 105976158A
- Authority
- CN
- China
- Prior art keywords
- workflow
- etl
- scheduling
- visual
- flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种可视化的ETL流程管理与调度监控方法,采用界面拖拽组件画流程图的方式实现工作流程的图形化创建:根据需要拖拽数据处理单元、流程依赖和相关分支、合并的流程组件,绘制工作流程图;保存画板中的流程时,画板所有对象、对象属性、对象X轴和Y轴位置,以及对象间连线以JSON对象保存传至后台,后台把JSON对象转换为JBPM流程,将流程属性转换为JBPM属性;采用自动按时调度的处理方式实现ETL工作流程的调度监控。本发明采用交互式、图形化、可拖拽的设计,使得ETL的工作流程易于创建、便于维护,其所见即所得的特性,减少繁琐的人工介入,降低了ETL系统的使用门槛,降低企业的人力成本,提高工作效率。
Description
技术领域
本发明属于大数据技术领域,具体涉及一种可视化的ETL流程管理与调度监控方法。
背景技术
数据是企业、政府乃至国家运用科学管理、决策分析的基础。在实际的生产应用中,由于不同原始数据库中的数据的来源、存储格式不一样,导致了具体的系统实施、数据整合容易出现问题,ETL(Extract-Transform-Load,数据提取、转换和加载)系统是解决这一问题的有力工具,然而作为一种专业的工具,其复杂、易出错、配置繁琐的特点使得其有较高的使用门槛,如何设计使得其操作简单、便于维护、易于扩展是ETL开发过程中重要的问题,在如今的大数据时代,假如任何数据迁移和加载都需要专业的数据开发人员来使用ETL工具,将大大降低企业工作效率,增加人力成本。
发明内容
为了克服现有技术的缺点,本发明提供了一种可视化的ETL流程管理与调度监控方法。
本发明所采用的技术方案是:一种可视化的ETL流程管理与调度监控方法,包括如下内容:
(1)采用界面拖拽组件画流程图的方式实现ETL工作流程的图形化创建:
根据需要拖拽数据处理单元、流程依赖和相关分支、合并的流程组件,绘制ETL工作流程图;保存画板中的流程时,画板所有对象、对象属性、对象X轴和Y轴位置,以及对象间连线以JSON对象保存传至后台,后台把JSON对象转换为JBPM流程,将流程属性转换为JBPM属性;
(2)采用自动按时调度的处理方式实现ETL工作流程的调度监控:
1)工作流程对未来数据的可视化调度监控:创建工作流程后,当系统时间到达预定的时间,ETL工作流程将会进入调度状态,操作和处理当前时间段的数据;
2)工作流程对特定历史时间段数据的可视化调度监控:在启动调度前,先选定工作流程和历史时间范围,系统自动按时间顺序逐天调度执行。
与现有技术相比,本发明的积极效果是:采用交互式、图形化、可拖拽的设计,使得ETL的工作流程易于创建、便于维护,其所见即所得的特性,减少繁琐的人工介入,降低了ETL系统的使用门槛,降低企业的人力成本,提高工作效率。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为可视化的ETL工作流程管理与调度监控示意图;
图2可插拔式的数据处理单元示意图;
图3 ETL工作流程可视化调度监控示意图;
图4 ETL工作流程的数据处理单元可视化调度监控示意图。
具体实施方式
一种可视化的ETL流程管理与调度监控方法,如图1所示,包括如下内容:
一、ETL工作流程的可视化管理:
1、图形化创建ETL工作流程:
本发明中,ETL工作流程的创建通过界面拖拽组件画流程图的方式完成。用户可根据需要拖拽数据处理单元、流程依赖和相关分支、合并的流程组件,绘制ETL工作流程图,当用户选择保存画板中的流程时,画板所有对象、对象属性、对象X轴和Y轴位置,对象间连线以JSON对象保存传至后台,后台把JSON对象转换为JBPM流程,流程属性转换为JBPM属性。为不影响数据库查询效率,本发明建议JBPM数据和JSON数据存入磁盘,仅把存储磁盘路径存入数据库。
需要说明的是本发明将ETL工作流程中的数据处理单元转化为JBPM自定义的TASK,转化后的JBPM自定义TASK运行于JBPM工作流引擎平台,以适配不同的数据处理单元,故此本发明的ETL工作流程以JBPM工作流引擎为骨架,其上可堆集附加各种不同数据处理单元和流程依赖。如图2所示,数据处理单元以插件的形式存在,可按需求增减,使得以本发明为基础的ETL具有可定制、易扩展的特性。
2、ETL工作流程的图形化查询、修改:
当用户需要查看某ETL工作流程的详细定义时,例如查看该工作流程所包含的具体数据处理单元详细内容、该工作流程的前后依赖关系,可根据该流程的唯一性标识,从后台取得该工作流程的JBPM数据和JSON数据,将该ETL工作流程图所包含的详细信息,展现在画板区域,并支持具体到每一个数据处理单元的修改功能。
二、ETL工作流程的调度采用自动按时调度的处理方式,其可视化调度监控包括:
1、工作流程对未来数据的可视化调度与监控:
创建工作流程后,当系统时间到达预定的时间,该ETL工作流程将会进入调度状态,操作和处理当前时间段的数据。在本发明中ETL工作流程的调度状态分为等待执行、队列排队、正在执行、执行成功和执行失败,后台根据该ETL工作流程信息及其相关依赖信息,使用Graphviz库以SVG(Scalable Vector Graphics)形式生成DAG(Directed AcyclicGraph)图,并标注当前调度流程及其依赖调度流程的状态,最后展现至前端页面,实现对ETL工作流程的整体可视化监控。参阅图3所示,调度流程1无依赖工作流程,且执行失败;调度流程3和4均依赖调度流程2,则当且仅当调度流程2执行成功,调度流程3和4方可执行,如图中所示调度流程2执行失败,流程3和流程4将不会执行。
当右击单个工作流程,可选择查询该流程中所有数据处理单元的运行情况,同样的工作流程中每个数据处理单元也以DAG图的方式展现,并标注该数据处理单元是否成功执行,使类似Crontab,Spring Quarz的黑盒调度变为白盒调度,实现对ETL工作流程中具体数据处理单元的可视化监控。工作流程数据处理单元严格依赖,避免由于输入环节出错导致下游环节异常.保障数据完整性和可靠性,具体参阅图4所示,该ETL工作流程为图3中的调度流程1,该调度流程的数据处理单元2失败执行,数据处理单元3将不会执行。
同时右击单个工作流程或数据处理单元,均可选择手动重新调度和终止调度工作流程或数据处理单元。
2、工作流程对特定历史时间段数据的可视化调度监控。
在ETL的实际业务场景中,很多情况下需要补充历史数据,如历史一个月、半年的数据。本发明中,对特定历史时间段数据的可视化调度监控,类似于未来数据的可视化调度与监控,只是启动该种调度方式前,需要用户选定工作流程和历史时间范围,系统自动按时间顺序逐天调度执行,摆脱传统需要人工介入,不断修改参数,逐天触发调度方式,同时保证后一天数据依赖前一天数据的准确性。
通过以上的发明实施例的详细说明,所属领域的技术人员可以清楚的了解到本发明的实现方式。可将上述实例中的Graphviz库等效替换为其他开源的SVG工具,如Inkscape等;将上述的JPBM工作流引擎改为Shark;将上述实例的B/S架构,改为C/S架构。
本发明的工作原理为:
采用交互式、图形化、可拖拽的设计,将离散的数据抽取、转换、装载任务以工作流程的方式组织起来,统一调度与监控。使得ETL的工作流程以图形化的形式展现,包括流程的可视化管理模块和调度监控模块,具体内容如下:
1)采用交互式、拖拽式的图形化设计创建ETL工作流程及其依赖流程;
2)图形化查询、修改ETL工作流程及其数据处理单元;
3)可视化调度监控ETL工作流程。
Claims (5)
1.一种可视化的ETL流程管理与调度监控方法,其特征在于:包括如下内容:
(1)采用界面拖拽组件画流程图的方式实现ETL工作流程的图形化创建:
根据需要拖拽数据处理单元、流程依赖和相关分支、合并的流程组件,绘制ETL工作流程图;保存画板中的流程时,画板所有对象、对象属性、对象X轴和Y轴位置,以及对象间连线以JSON对象保存传至后台,后台把JSON对象转换为JBPM流程,并将流程属性转换为JBPM属性;
(2)采用自动按时调度的处理方式实现ETL工作流程的调度监控:
1)工作流程对未来数据的可视化调度与监控:创建工作流程后,当系统时间到达预定的时间,ETL工作流程将会进入调度状态,操作和处理当前时间段的数据;
2)工作流程对特定历史时间段数据的可视化调度监控:在启动调度前,先选定工作流程和历史时间范围,系统自动按时间顺序逐天调度执行。
2.根据权利要求1所述的一种可视化的ETL流程管理与调度监控方法,其特征在于:将JBPM数据和JSON数据存入磁盘,将存储磁盘路径存入数据库。
3.根据权利要求1所述的一种可视化的ETL流程管理与调度监控方法,其特征在于:将数据处理单元转化为JBPM自定义的TASK,且TASK运行于JBPM工作流引擎平台。
4.根据权利要求1所述的一种可视化的ETL流程管理与调度监控方法,其特征在于:ETL工作流程的调度状态分为等待执行、队列排队、正在执行、执行成功和执行失败。
5.根据权利要求4所述的一种可视化的ETL流程管理与调度监控方法,其特征在于:后台根据ETL工作流程信息及其相关依赖信息,使用Graphviz库以SVG形式生成DAG图,并标注当前调度流程及其依赖调度流程的状态,最后展现至前端页面,实现对ETL工作流程的调度监控。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610264433.7A CN105976158A (zh) | 2016-04-26 | 2016-04-26 | 一种可视化的etl流程管理与调度监控方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610264433.7A CN105976158A (zh) | 2016-04-26 | 2016-04-26 | 一种可视化的etl流程管理与调度监控方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105976158A true CN105976158A (zh) | 2016-09-28 |
Family
ID=56994532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610264433.7A Pending CN105976158A (zh) | 2016-04-26 | 2016-04-26 | 一种可视化的etl流程管理与调度监控方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105976158A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145576A (zh) * | 2017-05-08 | 2017-09-08 | 科技谷(厦门)信息技术有限公司 | 一种支持可视化和流程化的大数据etl调度系统 |
CN107301113A (zh) * | 2017-05-26 | 2017-10-27 | 北京小度信息科技有限公司 | 任务监控方法及装置 |
CN108170696A (zh) * | 2017-06-08 | 2018-06-15 | 国云科技股份有限公司 | 一种数据挖掘的方法 |
CN108470047A (zh) * | 2018-03-07 | 2018-08-31 | 谭亮 | 基于物联网的远程平台监测系统 |
CN109101571A (zh) * | 2018-07-17 | 2018-12-28 | 新华三大数据技术有限公司 | Etl设计过程的处理方法、装置和设备 |
CN109636342A (zh) * | 2018-12-14 | 2019-04-16 | 平安城市建设科技(深圳)有限公司 | 审核流程的构建方法、审核设备、存储介质及装置 |
CN109814991A (zh) * | 2018-12-25 | 2019-05-28 | 北京明略软件系统有限公司 | 一种数据治理中的任务管理方法及装置 |
CN109992249A (zh) * | 2019-03-06 | 2019-07-09 | 北京国舜科技股份有限公司 | 一种流式数据流程操作方法及系统 |
CN110232085A (zh) * | 2019-04-30 | 2019-09-13 | 中国科学院计算机网络信息中心 | 一种大数据etl任务的编排方法与系统 |
CN110362300A (zh) * | 2019-07-18 | 2019-10-22 | 北京聚通达科技股份有限公司 | 一种数据清洗工具 |
CN110471978A (zh) * | 2019-08-23 | 2019-11-19 | 国家气象信息中心 | 一种基于jbpm调度系统的气象政务数据抽取方法 |
CN111082976A (zh) * | 2019-12-02 | 2020-04-28 | 东莞数汇大数据有限公司 | 一种支持etl任务调度可视化的方法 |
CN111125451A (zh) * | 2019-12-25 | 2020-05-08 | 北京百度网讯科技有限公司 | 数据生产加工方法、装置、电子设备及存储介质 |
CN111176802A (zh) * | 2019-07-26 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 任务处理方法、装置、电子设备及存储介质 |
CN111291106A (zh) * | 2020-05-13 | 2020-06-16 | 成都四方伟业软件股份有限公司 | 一种etl系统的高效流程编排方法及系统 |
CN113626116A (zh) * | 2021-07-20 | 2021-11-09 | 中国电子科技集团公司电子科学研究院 | 智能学习系统及数据分析方法 |
CN114153367A (zh) * | 2022-02-10 | 2022-03-08 | 中国电子信息产业集团有限公司 | 快速替代连接关系的交互方法、设备及可读存储介质 |
CN114880015A (zh) * | 2021-07-26 | 2022-08-09 | 深圳前海微众银行股份有限公司 | 任务配置方法、装置、设备及存储介质 |
CN116166162A (zh) * | 2023-04-20 | 2023-05-26 | 紫金诚征信有限公司 | 一种数据库的可视化操作方法、装置及计算机可读介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020046301A1 (en) * | 2000-08-11 | 2002-04-18 | Manugistics, Inc. | System and method for integrating disparate networks for use in electronic communication and commerce |
CN101567013A (zh) * | 2009-06-02 | 2009-10-28 | 阿里巴巴集团控股有限公司 | 一种etl调度的实现方法及装置 |
-
2016
- 2016-04-26 CN CN201610264433.7A patent/CN105976158A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020046301A1 (en) * | 2000-08-11 | 2002-04-18 | Manugistics, Inc. | System and method for integrating disparate networks for use in electronic communication and commerce |
CN101567013A (zh) * | 2009-06-02 | 2009-10-28 | 阿里巴巴集团控股有限公司 | 一种etl调度的实现方法及装置 |
Non-Patent Citations (2)
Title |
---|
李云松: "小微企业数据整合中ETL工具Kettle的应用", 《菏泽学院学报》 * |
许爱军: "JBPM工作流管理系统的研究和实现", 《计算机技术与发展》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145576A (zh) * | 2017-05-08 | 2017-09-08 | 科技谷(厦门)信息技术有限公司 | 一种支持可视化和流程化的大数据etl调度系统 |
CN107145576B (zh) * | 2017-05-08 | 2020-06-23 | 科技谷(厦门)信息技术有限公司 | 一种支持可视化和流程化的大数据etl调度系统 |
CN107301113A (zh) * | 2017-05-26 | 2017-10-27 | 北京小度信息科技有限公司 | 任务监控方法及装置 |
CN108170696A (zh) * | 2017-06-08 | 2018-06-15 | 国云科技股份有限公司 | 一种数据挖掘的方法 |
CN108470047A (zh) * | 2018-03-07 | 2018-08-31 | 谭亮 | 基于物联网的远程平台监测系统 |
CN108470047B (zh) * | 2018-03-07 | 2023-09-26 | 谭亮 | 基于物联网的远程平台监测系统 |
CN109101571A (zh) * | 2018-07-17 | 2018-12-28 | 新华三大数据技术有限公司 | Etl设计过程的处理方法、装置和设备 |
CN109101571B (zh) * | 2018-07-17 | 2020-12-08 | 新华三大数据技术有限公司 | Etl设计过程的处理方法、装置和设备 |
CN109636342A (zh) * | 2018-12-14 | 2019-04-16 | 平安城市建设科技(深圳)有限公司 | 审核流程的构建方法、审核设备、存储介质及装置 |
CN109814991A (zh) * | 2018-12-25 | 2019-05-28 | 北京明略软件系统有限公司 | 一种数据治理中的任务管理方法及装置 |
CN109992249A (zh) * | 2019-03-06 | 2019-07-09 | 北京国舜科技股份有限公司 | 一种流式数据流程操作方法及系统 |
CN110232085A (zh) * | 2019-04-30 | 2019-09-13 | 中国科学院计算机网络信息中心 | 一种大数据etl任务的编排方法与系统 |
CN110232085B (zh) * | 2019-04-30 | 2021-09-24 | 中国科学院计算机网络信息中心 | 一种大数据etl任务的编排方法与系统 |
CN110362300A (zh) * | 2019-07-18 | 2019-10-22 | 北京聚通达科技股份有限公司 | 一种数据清洗工具 |
CN111176802A (zh) * | 2019-07-26 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 任务处理方法、装置、电子设备及存储介质 |
CN111176802B (zh) * | 2019-07-26 | 2023-03-14 | 腾讯科技(深圳)有限公司 | 任务处理方法、装置、电子设备及存储介质 |
CN110471978A (zh) * | 2019-08-23 | 2019-11-19 | 国家气象信息中心 | 一种基于jbpm调度系统的气象政务数据抽取方法 |
CN111082976A (zh) * | 2019-12-02 | 2020-04-28 | 东莞数汇大数据有限公司 | 一种支持etl任务调度可视化的方法 |
CN111082976B (zh) * | 2019-12-02 | 2022-07-29 | 东莞数汇大数据有限公司 | 一种支持etl任务调度可视化的方法 |
CN111125451A (zh) * | 2019-12-25 | 2020-05-08 | 北京百度网讯科技有限公司 | 数据生产加工方法、装置、电子设备及存储介质 |
CN111291106A (zh) * | 2020-05-13 | 2020-06-16 | 成都四方伟业软件股份有限公司 | 一种etl系统的高效流程编排方法及系统 |
CN113626116A (zh) * | 2021-07-20 | 2021-11-09 | 中国电子科技集团公司电子科学研究院 | 智能学习系统及数据分析方法 |
CN113626116B (zh) * | 2021-07-20 | 2023-12-15 | 中国电子科技集团公司电子科学研究院 | 智能学习系统及数据分析方法 |
CN114880015A (zh) * | 2021-07-26 | 2022-08-09 | 深圳前海微众银行股份有限公司 | 任务配置方法、装置、设备及存储介质 |
CN114153367A (zh) * | 2022-02-10 | 2022-03-08 | 中国电子信息产业集团有限公司 | 快速替代连接关系的交互方法、设备及可读存储介质 |
CN116166162A (zh) * | 2023-04-20 | 2023-05-26 | 紫金诚征信有限公司 | 一种数据库的可视化操作方法、装置及计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105976158A (zh) | 一种可视化的etl流程管理与调度监控方法 | |
WO2009055465A3 (en) | Method and system for managing enterprise content | |
CN104899034A (zh) | 在im沟通界面生成沟通事项的待办任务和结论的方法 | |
CN107145576B (zh) | 一种支持可视化和流程化的大数据etl调度系统 | |
CN108446396B (zh) | 一种基于改进型cim模型的电力数据处理方法 | |
CN103279454A (zh) | 文档自动生成方法、装置及系统 | |
CN102419831A (zh) | 流程管理系统及其处理方法 | |
CN105677763A (zh) | 一种基于Hadoop的图像质量评估系统 | |
CN106920070A (zh) | 一种简历收集方法、装置及系统 | |
CN202414169U (zh) | 一种可配置的通用综合航电系统 | |
US10296376B2 (en) | Planning for manufacturing environments | |
CN102916867A (zh) | 一种消息推送方法及系统 | |
EP3437060A1 (en) | Rule based hierarchical configuration | |
CN107423270B (zh) | 一种在线流程图和代码实时互转的实现方法 | |
CN108073705B (zh) | 一种分布式海量数据聚合采集方法 | |
CN104268607A (zh) | 一种基于rfid技术的纺织面料管理系统及方法 | |
CN103699977A (zh) | 基于移动通信的工作流管理系统及管理方法 | |
EP2600243A3 (en) | Automated implementation of business service communication and/or linkage of executable processes through automatic generation and population of variables | |
CN112668843A (zh) | 车险理赔风险管控方法及系统、电子设备、介质 | |
CN105205639A (zh) | 一种智达物流业务流程及方法 | |
CN103559586B (zh) | 一种报表文档管理装置、系统及方法 | |
CN103136037B (zh) | 任务管理系统及方法 | |
US20160188538A1 (en) | Method and apparatus of building intermediate character library | |
CN104408550A (zh) | 一种商品规格的处理方法 | |
CN101815082A (zh) | 一种外部消息集成装置及业务系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160928 |