CN107145576B - 一种支持可视化和流程化的大数据etl调度系统 - Google Patents
一种支持可视化和流程化的大数据etl调度系统 Download PDFInfo
- Publication number
- CN107145576B CN107145576B CN201710316129.7A CN201710316129A CN107145576B CN 107145576 B CN107145576 B CN 107145576B CN 201710316129 A CN201710316129 A CN 201710316129A CN 107145576 B CN107145576 B CN 107145576B
- Authority
- CN
- China
- Prior art keywords
- etl
- big data
- submodule
- configuration
- management module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种支持可视化和流程化的大数据ETL调度系统,基于B/S架构实现,其包括大数据组件操作单元、ETL作业管理模块、ETL调度管理模块、系统管理模块及作业配置数据库,所述ETL作业管理模块、ETL调度管理模块与大数据组件操作单元彼此独立、互不影响。本发明有效摒弃复杂的后台操作,极大提升了ETL的开发速度和效率,同时降低了企业项目实施的成本。
Description
技术领域
本发明涉及大数据处理技术领域,特别涉及一种支持可视化和流程化的大数据ETL调度系统。
背景技术
ETL(Extract-Transform-Load,提取、转换和加载)是BI(大数据)项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。
大数据ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。大数据ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到大数据平台系统后,进行清洗、转换、集成,最后加载到大数据平台、数据仓库或数据集市中,成为联机分析处理、数据挖掘提供决策支持的数据。这个过程通常都需要在后台进行相关操作,且后台操作复杂,降低了ETL的开发速度和效率,同时对于集群来说可能存在着误操作的风险,大大增加企业项目实施成本。
发明内容
为解决上述问题,本发明提供了一种支持可视化和流程化的大数据ETL调度系统,其能够有效摒弃复杂的后台操作,极大提升了ETL的开发速度和效率,同时降低了企业项目实施的成本。
本发明采用以下技术方案:
一种支持可视化和流程化的大数据ETL调度系统,基于B/S架构实现,其包括大数据组件操作单元、ETL作业管理模块、ETL调度管理模块、系统管理模块及作业配置数据库,所述ETL作业管理模块、ETL调度管理模块与大数据组件操作单元彼此独立、互不影响,其中:
所述大数据组件操作单元包括支持可视化操作的数据查询模块、组件脚本编辑模块、脚本执行监控模块、平台组件驱动模块、大数据平台、本地业务系统及远程业务系统;
所述ETL作业管理模块用于对大数据抽取、清洗、加载的配置提供可视化操作,并生成JSON或XML格式作业配置文件进行提交或保存到作业配置数据库;
所述ETL调度管理模块用于进行ETL作业的定时调度工作以及完成对ETL作业执行过程的监控,并生成作业监控结果;
所述系统管理模块用于针对系统各模块提供用户、角色、资源的管理以及访问权限控制,其包括资源管理子模块、权限管理子模块及系统驱动子模块,所述驱动子模块连接所述作业配置数据库。
优选地,所述ETL作业管理模块包括抽取配置子模块、清洗配置子模块、加载配置子模块,所述抽取配置子模块用于实现大数据抽取的可视化操作,所述清洗配置子模块用于实现大数据清洗的可视化操作,所述加载配置子模块用于实现大数据加载的可视化操作。
优选地,所述ETL调度管理模块包括流程配置子模块、作业调度子模块及调度监控子模块,所述流程配置子模块用于提供ETL作业流程配置的可视化操作,生成ETL作业列表存储到作业配置数据库,以及从作业配置数据库中读取ETL作业列表,所述作业调度子模块连接流程配置子模块,用于实现ETL作业的定时调度工作,所述调度监控子模块用于对ETL作业执行过程进行监控,并生成作业监控结果。
优选地,所述作业监控结果包括ETL作业的日志、状态、结果以及告警信息。
优选地,所述大数据平台的组件包括HDFS、Hive、HBase、Solr、YARN、Oozie、Spark、Storm、Sqoop、Pig、Impala、Zookeeper。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
本发明有效摒弃复杂的后台操作,极大提升了ETL的开发速度和效率,同时降低了企业项目实施的成本。
附图说明
图1为本发明结构示意图;
图2为本发明大数据组件操作单元的工作流程示意图;
图3为本发明ETL作业管理模块和ETL调度管理模块的工作流程示意图;
图4为本发明ETL作业管理模块和ETL调度管理模块的工作流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
请参阅图1,本发明公开了一种支持可视化和流程化的大数据ETL调度系统,基于B/S架构实现,其包括大数据组件操作单元、ETL作业管理模块、ETL调度管理模块、系统管理模块及作业配置数据库,所述ETL作业管理模块、ETL调度管理模块与大数据组件操作单元彼此独立、互不影响,其中:
参考图1所示,所述大数据组件操作单元包括支持可视化操作的数据查询模块、组件脚本编辑模块、脚本执行监控模块、平台组件驱动模块、大数据平台、本地业务系统及远程业务系统。大数据平台的组件包括HDFS、Hive、HBase、Solr、YARN、Oozie、Spark、Storm、Sqoop、Pig、Impala、Zookeeper。
所述ETL作业管理模块用于对大数据抽取、清洗、加载的配置提供可视化操作,并生成JSON或XML格式作业配置文件进行提交或保存到作业配置数据库。所述ETL作业管理模块包括抽取配置子模块、清洗配置子模块、加载配置子模块,所述抽取配置子模块用于实现大数据抽取的可视化操作,所述清洗配置子模块用于实现大数据清洗的可视化操作,所述加载配置子模块用于实现大数据加载的可视化操作。
所述ETL调度管理模块用于进行ETL作业的定时调度工作以及完成对ETL作业执行过程的监控,并生成作业监控结果。所述ETL调度管理模块包括流程配置子模块、作业调度子模块及调度监控子模块,所述流程配置子模块用于提供ETL作业流程配置的可视化操作,生成ETL作业列表存储到作业配置数据库,以及从作业配置数据库中读取ETL作业列表,所述作业调度子模块连接流程配置子模块,用于实现ETL作业的定时调度工作,所述调度监控子模块用于对ETL作业执行过程进行监控,并生成作业监控结果。所述作业监控结果包括ETL作业的日志、状态、结果以及告警信息。
所述系统管理模块用于针对系统各模块提供用户、角色、资源的管理以及访问权限控制,其包括资源管理子模块、权限管理子模块及系统驱动子模块,所述驱动子模块连接所述作业配置数据库。
为便于更好的理解本发明,下面结合附图对本发明各模块的工作流程做进一步说明。
参考图2所示,大数据组件操作单元的工作流程为:
用户根据实际需要选择数据查询模块、组件脚本编辑模块、脚本执行监控模块进行可视化操作,并加载平台组件驱动模块,平台组件驱动模块读取大数据平台、本地业务系统及远程业务系统的数据信息。
参考图3所示,ETL作业管理模块和ETL调度管理模块的工作流程为:
用户通过ETL作业管理模块对大数据抽取、清洗、加载的配置进行可视化操作,并生成JSON或XML格式的作业配置文件,作业配置文件提交到平台组件驱动模块和系统驱动子模块,大数据平台、本地业务系统及远程业务系统基于作业配置文件进行ETL作业,系统驱动子模块将作业配置文件保存到作业配置数据库;ETL调度管理模块读取作业配置数据库的ETL作业列表,根据ETL作业列表进行作业调度,并对ETL作业执行过程进行监控。
参考图4所示,系统管理模块的工作流程为:
用户通过系统管理模块进行用户、角色、资源的管理以及访问权限控制,并通过系统驱动子模块将用户、角色、资源的管理信息以及访问权限保存到作业配置数据库。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (3)
1.一种支持可视化和流程化的大数据ETL调度系统,其特征在于,其基于B/S架构实现,包括大数据组件操作单元、ETL作业管理模块、ETL调度管理模块、系统管理模块及作业配置数据库,所述ETL作业管理模块、ETL调度管理模块与大数据组件操作单元彼此独立、互不影响,其中:
所述大数据组件操作单元包括支持可视化操作的数据查询模块、组件脚本编辑模块、脚本执行监控模块、平台组件驱动模块、大数据平台、本地业务系统及远程业务系统;
所述ETL作业管理模块用于对大数据抽取、清洗、加载的配置提供可视化操作,并生成JSON或XML格式作业配置文件进行提交或保存到作业配置数据库,所述ETL作业管理模块包括抽取配置子模块、清洗配置子模块、加载配置子模块,所述抽取配置子模块用于实现大数据抽取的可视化操作,所述清洗配置子模块用于实现大数据清洗的可视化操作,所述加载配置子模块用于实现大数据加载的可视化操作;
所述ETL调度管理模块用于进行ETL作业的定时调度工作以及完成对ETL作业执行过程的监控,并生成作业监控结果,所述ETL调度管理模块包括流程配置子模块、作业调度子模块及调度监控子模块,所述流程配置子模块用于提供ETL作业流程配置的可视化操作,生成ETL作业列表存储到作业配置数据库,以及从作业配置数据库中读取ETL作业列表,所述作业调度子模块连接流程配置子模块,用于实现ETL作业的定时调度工作,所述调度监控子模块用于对ETL作业执行过程进行监控,并生成作业监控结果;
所述系统管理模块用于针对系统各模块提供用户、角色、资源的管理以及访问权限控制,其包括资源管理子模块、权限管理子模块及系统驱动子模块,所述驱动子模块连接所述作业配置数据库。
2.如权利要求1所述的一种支持可视化和流程化的大数据ETL调度系统,其特征在于:所述作业监控结果包括ETL作业的日志、状态、结果以及告警信息。
3.如权利要求1所述的一种支持可视化和流程化的大数据ETL调度系统,其特征在于:所述大数据平台的组件包括HDFS、Hive、HBase、Solr、YARN、Oozie、Spark、Storm、Sqoop、Pig、Impala、Zookeeper。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710316129.7A CN107145576B (zh) | 2017-05-08 | 2017-05-08 | 一种支持可视化和流程化的大数据etl调度系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710316129.7A CN107145576B (zh) | 2017-05-08 | 2017-05-08 | 一种支持可视化和流程化的大数据etl调度系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107145576A CN107145576A (zh) | 2017-09-08 |
CN107145576B true CN107145576B (zh) | 2020-06-23 |
Family
ID=59776923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710316129.7A Active CN107145576B (zh) | 2017-05-08 | 2017-05-08 | 一种支持可视化和流程化的大数据etl调度系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107145576B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107944004B (zh) * | 2017-12-07 | 2020-09-29 | 深圳乐信软件技术有限公司 | Spark-SQL调度的方法、系统、设备及存储介质 |
CN110795489A (zh) * | 2019-11-13 | 2020-02-14 | 四川长虹电器股份有限公司 | 一种作业单元流程管控系统及方法 |
CN111026739B (zh) * | 2019-11-26 | 2023-08-29 | 智器云南京信息科技有限公司 | 批量数据清洗的方法及装置、计算机设备和存储介质 |
CN111666324B (zh) * | 2020-05-18 | 2023-06-27 | 新浪技术(中国)有限公司 | 一种关系型数据库之间的etl调度方法及装置 |
CN112732809B (zh) * | 2020-12-31 | 2023-08-04 | 杭州海康威视系统技术有限公司 | 一种etl系统及基于etl系统的数据处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537573A (zh) * | 2014-12-17 | 2015-04-22 | 国家电网公司 | 一种电网运行信息全景可视化展示系统 |
CN104915341A (zh) * | 2014-03-10 | 2015-09-16 | 中国科学院沈阳自动化研究所 | 可视化多数据库etl集成方法和系统 |
CN105976158A (zh) * | 2016-04-26 | 2016-09-28 | 中国电子科技网络信息安全有限公司 | 一种可视化的etl流程管理与调度监控方法 |
CN106156956A (zh) * | 2016-08-30 | 2016-11-23 | 广东华际友天信息科技有限公司 | 一种银行数据加工作业调度系统及其方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101533417B (zh) * | 2009-04-28 | 2012-04-18 | 阿里巴巴集团控股有限公司 | 一种实现etl调度的方法及系统 |
CN101567013B (zh) * | 2009-06-02 | 2011-09-28 | 阿里巴巴集团控股有限公司 | 一种etl调度的实现方法及装置 |
US10324917B2 (en) * | 2012-10-15 | 2019-06-18 | Qliktech International Ab | Methods and systems for data management |
CN105389402B (zh) * | 2015-12-29 | 2019-04-12 | 曙光信息产业(北京)有限公司 | 一种面向大数据的etl方法和装置 |
-
2017
- 2017-05-08 CN CN201710316129.7A patent/CN107145576B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915341A (zh) * | 2014-03-10 | 2015-09-16 | 中国科学院沈阳自动化研究所 | 可视化多数据库etl集成方法和系统 |
CN104537573A (zh) * | 2014-12-17 | 2015-04-22 | 国家电网公司 | 一种电网运行信息全景可视化展示系统 |
CN105976158A (zh) * | 2016-04-26 | 2016-09-28 | 中国电子科技网络信息安全有限公司 | 一种可视化的etl流程管理与调度监控方法 |
CN106156956A (zh) * | 2016-08-30 | 2016-11-23 | 广东华际友天信息科技有限公司 | 一种银行数据加工作业调度系统及其方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107145576A (zh) | 2017-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107145576B (zh) | 一种支持可视化和流程化的大数据etl调度系统 | |
CN109408337B (zh) | 一种接口运维的方法及装置 | |
CN102375731B (zh) | 一种免编码集成应用软件平台系统 | |
US9471651B2 (en) | Adjustment of map reduce execution | |
US9336288B2 (en) | Workflow controller compatibility | |
CN109446274B (zh) | 大数据平台bi元数据管理的方法和装置 | |
CN104537015A (zh) | 一种日志分析的计算机实现的方法、计算机和系统 | |
CN109299180A (zh) | 一种数据仓库etl操作系统 | |
CN111460019A (zh) | 一种异构数据源的数据转换方法及中间件 | |
CN112379884A (zh) | 基于Spark和并行内存计算的流程引擎实现方法及系统 | |
CN112347071A (zh) | 一种配电网云平台数据融合方法及配电网云平台 | |
CN110619014A (zh) | 一种基于etl的数据抽取方法 | |
CN113570468A (zh) | 一种企业支付风控服务平台 | |
CN102571413A (zh) | 一种集群环境下资源管理的方法 | |
US10754868B2 (en) | System for analyzing the runtime impact of data files on data extraction, transformation, and loading jobs | |
CN112633850A (zh) | 通过管理调用及监控rpa机器人实现业务流程自动化的方法 | |
US20180189701A1 (en) | Distributed cache cleanup for analytic instance runs processing operating data from industrial assets | |
CN111680478B (zh) | 基于组态软件的报表生成方法、装置、设备和存储介质 | |
CN111538886B (zh) | 一种基于人工智能的大数据采集存储系统及方法 | |
CN113886465A (zh) | 一种用于汽车物流的大数据分析平台 | |
CN113554328A (zh) | 基于与设备开机强关联的点检任务督办系统、方法及设备 | |
CN113779026A (zh) | 业务数据表的处理方法和装置 | |
CN112612841A (zh) | 一种知识抽取构建方法、装置、设备及存储介质 | |
CN113407530A (zh) | 一种权限数据的回收方法、管理装置以及存储介质 | |
CN110888928B (zh) | 基于etl工具服务组件的可视化控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |