CN107145576B - 一种支持可视化和流程化的大数据etl调度系统 - Google Patents

一种支持可视化和流程化的大数据etl调度系统 Download PDF

Info

Publication number
CN107145576B
CN107145576B CN201710316129.7A CN201710316129A CN107145576B CN 107145576 B CN107145576 B CN 107145576B CN 201710316129 A CN201710316129 A CN 201710316129A CN 107145576 B CN107145576 B CN 107145576B
Authority
CN
China
Prior art keywords
etl
big data
submodule
configuration
management module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710316129.7A
Other languages
English (en)
Other versions
CN107145576A (zh
Inventor
陈思恩
杨紫胜
廖雅哲
林振州
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tech Valley Xiamen Information Technology Co ltd
Original Assignee
Tech Valley Xiamen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tech Valley Xiamen Information Technology Co ltd filed Critical Tech Valley Xiamen Information Technology Co ltd
Priority to CN201710316129.7A priority Critical patent/CN107145576B/zh
Publication of CN107145576A publication Critical patent/CN107145576A/zh
Application granted granted Critical
Publication of CN107145576B publication Critical patent/CN107145576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种支持可视化和流程化的大数据ETL调度系统,基于B/S架构实现,其包括大数据组件操作单元、ETL作业管理模块、ETL调度管理模块、系统管理模块及作业配置数据库,所述ETL作业管理模块、ETL调度管理模块与大数据组件操作单元彼此独立、互不影响。本发明有效摒弃复杂的后台操作,极大提升了ETL的开发速度和效率,同时降低了企业项目实施的成本。

Description

一种支持可视化和流程化的大数据ETL调度系统
技术领域
本发明涉及大数据处理技术领域,特别涉及一种支持可视化和流程化的大数据ETL调度系统。
背景技术
ETL(Extract-Transform-Load,提取、转换和加载)是BI(大数据)项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。
大数据ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。大数据ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到大数据平台系统后,进行清洗、转换、集成,最后加载到大数据平台、数据仓库或数据集市中,成为联机分析处理、数据挖掘提供决策支持的数据。这个过程通常都需要在后台进行相关操作,且后台操作复杂,降低了ETL的开发速度和效率,同时对于集群来说可能存在着误操作的风险,大大增加企业项目实施成本。
发明内容
为解决上述问题,本发明提供了一种支持可视化和流程化的大数据ETL调度系统,其能够有效摒弃复杂的后台操作,极大提升了ETL的开发速度和效率,同时降低了企业项目实施的成本。
本发明采用以下技术方案:
一种支持可视化和流程化的大数据ETL调度系统,基于B/S架构实现,其包括大数据组件操作单元、ETL作业管理模块、ETL调度管理模块、系统管理模块及作业配置数据库,所述ETL作业管理模块、ETL调度管理模块与大数据组件操作单元彼此独立、互不影响,其中:
所述大数据组件操作单元包括支持可视化操作的数据查询模块、组件脚本编辑模块、脚本执行监控模块、平台组件驱动模块、大数据平台、本地业务系统及远程业务系统;
所述ETL作业管理模块用于对大数据抽取、清洗、加载的配置提供可视化操作,并生成JSON或XML格式作业配置文件进行提交或保存到作业配置数据库;
所述ETL调度管理模块用于进行ETL作业的定时调度工作以及完成对ETL作业执行过程的监控,并生成作业监控结果;
所述系统管理模块用于针对系统各模块提供用户、角色、资源的管理以及访问权限控制,其包括资源管理子模块、权限管理子模块及系统驱动子模块,所述驱动子模块连接所述作业配置数据库。
优选地,所述ETL作业管理模块包括抽取配置子模块、清洗配置子模块、加载配置子模块,所述抽取配置子模块用于实现大数据抽取的可视化操作,所述清洗配置子模块用于实现大数据清洗的可视化操作,所述加载配置子模块用于实现大数据加载的可视化操作。
优选地,所述ETL调度管理模块包括流程配置子模块、作业调度子模块及调度监控子模块,所述流程配置子模块用于提供ETL作业流程配置的可视化操作,生成ETL作业列表存储到作业配置数据库,以及从作业配置数据库中读取ETL作业列表,所述作业调度子模块连接流程配置子模块,用于实现ETL作业的定时调度工作,所述调度监控子模块用于对ETL作业执行过程进行监控,并生成作业监控结果。
优选地,所述作业监控结果包括ETL作业的日志、状态、结果以及告警信息。
优选地,所述大数据平台的组件包括HDFS、Hive、HBase、Solr、YARN、Oozie、Spark、Storm、Sqoop、Pig、Impala、Zookeeper。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
本发明有效摒弃复杂的后台操作,极大提升了ETL的开发速度和效率,同时降低了企业项目实施的成本。
附图说明
图1为本发明结构示意图;
图2为本发明大数据组件操作单元的工作流程示意图;
图3为本发明ETL作业管理模块和ETL调度管理模块的工作流程示意图;
图4为本发明ETL作业管理模块和ETL调度管理模块的工作流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
请参阅图1,本发明公开了一种支持可视化和流程化的大数据ETL调度系统,基于B/S架构实现,其包括大数据组件操作单元、ETL作业管理模块、ETL调度管理模块、系统管理模块及作业配置数据库,所述ETL作业管理模块、ETL调度管理模块与大数据组件操作单元彼此独立、互不影响,其中:
参考图1所示,所述大数据组件操作单元包括支持可视化操作的数据查询模块、组件脚本编辑模块、脚本执行监控模块、平台组件驱动模块、大数据平台、本地业务系统及远程业务系统。大数据平台的组件包括HDFS、Hive、HBase、Solr、YARN、Oozie、Spark、Storm、Sqoop、Pig、Impala、Zookeeper。
所述ETL作业管理模块用于对大数据抽取、清洗、加载的配置提供可视化操作,并生成JSON或XML格式作业配置文件进行提交或保存到作业配置数据库。所述ETL作业管理模块包括抽取配置子模块、清洗配置子模块、加载配置子模块,所述抽取配置子模块用于实现大数据抽取的可视化操作,所述清洗配置子模块用于实现大数据清洗的可视化操作,所述加载配置子模块用于实现大数据加载的可视化操作。
所述ETL调度管理模块用于进行ETL作业的定时调度工作以及完成对ETL作业执行过程的监控,并生成作业监控结果。所述ETL调度管理模块包括流程配置子模块、作业调度子模块及调度监控子模块,所述流程配置子模块用于提供ETL作业流程配置的可视化操作,生成ETL作业列表存储到作业配置数据库,以及从作业配置数据库中读取ETL作业列表,所述作业调度子模块连接流程配置子模块,用于实现ETL作业的定时调度工作,所述调度监控子模块用于对ETL作业执行过程进行监控,并生成作业监控结果。所述作业监控结果包括ETL作业的日志、状态、结果以及告警信息。
所述系统管理模块用于针对系统各模块提供用户、角色、资源的管理以及访问权限控制,其包括资源管理子模块、权限管理子模块及系统驱动子模块,所述驱动子模块连接所述作业配置数据库。
为便于更好的理解本发明,下面结合附图对本发明各模块的工作流程做进一步说明。
参考图2所示,大数据组件操作单元的工作流程为:
用户根据实际需要选择数据查询模块、组件脚本编辑模块、脚本执行监控模块进行可视化操作,并加载平台组件驱动模块,平台组件驱动模块读取大数据平台、本地业务系统及远程业务系统的数据信息。
参考图3所示,ETL作业管理模块和ETL调度管理模块的工作流程为:
用户通过ETL作业管理模块对大数据抽取、清洗、加载的配置进行可视化操作,并生成JSON或XML格式的作业配置文件,作业配置文件提交到平台组件驱动模块和系统驱动子模块,大数据平台、本地业务系统及远程业务系统基于作业配置文件进行ETL作业,系统驱动子模块将作业配置文件保存到作业配置数据库;ETL调度管理模块读取作业配置数据库的ETL作业列表,根据ETL作业列表进行作业调度,并对ETL作业执行过程进行监控。
参考图4所示,系统管理模块的工作流程为:
用户通过系统管理模块进行用户、角色、资源的管理以及访问权限控制,并通过系统驱动子模块将用户、角色、资源的管理信息以及访问权限保存到作业配置数据库。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (3)

1.一种支持可视化和流程化的大数据ETL调度系统,其特征在于,其基于B/S架构实现,包括大数据组件操作单元、ETL作业管理模块、ETL调度管理模块、系统管理模块及作业配置数据库,所述ETL作业管理模块、ETL调度管理模块与大数据组件操作单元彼此独立、互不影响,其中:
所述大数据组件操作单元包括支持可视化操作的数据查询模块、组件脚本编辑模块、脚本执行监控模块、平台组件驱动模块、大数据平台、本地业务系统及远程业务系统;
所述ETL作业管理模块用于对大数据抽取、清洗、加载的配置提供可视化操作,并生成JSON或XML格式作业配置文件进行提交或保存到作业配置数据库,所述ETL作业管理模块包括抽取配置子模块、清洗配置子模块、加载配置子模块,所述抽取配置子模块用于实现大数据抽取的可视化操作,所述清洗配置子模块用于实现大数据清洗的可视化操作,所述加载配置子模块用于实现大数据加载的可视化操作;
所述ETL调度管理模块用于进行ETL作业的定时调度工作以及完成对ETL作业执行过程的监控,并生成作业监控结果,所述ETL调度管理模块包括流程配置子模块、作业调度子模块及调度监控子模块,所述流程配置子模块用于提供ETL作业流程配置的可视化操作,生成ETL作业列表存储到作业配置数据库,以及从作业配置数据库中读取ETL作业列表,所述作业调度子模块连接流程配置子模块,用于实现ETL作业的定时调度工作,所述调度监控子模块用于对ETL作业执行过程进行监控,并生成作业监控结果;
所述系统管理模块用于针对系统各模块提供用户、角色、资源的管理以及访问权限控制,其包括资源管理子模块、权限管理子模块及系统驱动子模块,所述驱动子模块连接所述作业配置数据库。
2.如权利要求1所述的一种支持可视化和流程化的大数据ETL调度系统,其特征在于:所述作业监控结果包括ETL作业的日志、状态、结果以及告警信息。
3.如权利要求1所述的一种支持可视化和流程化的大数据ETL调度系统,其特征在于:所述大数据平台的组件包括HDFS、Hive、HBase、Solr、YARN、Oozie、Spark、Storm、Sqoop、Pig、Impala、Zookeeper。
CN201710316129.7A 2017-05-08 2017-05-08 一种支持可视化和流程化的大数据etl调度系统 Active CN107145576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710316129.7A CN107145576B (zh) 2017-05-08 2017-05-08 一种支持可视化和流程化的大数据etl调度系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710316129.7A CN107145576B (zh) 2017-05-08 2017-05-08 一种支持可视化和流程化的大数据etl调度系统

Publications (2)

Publication Number Publication Date
CN107145576A CN107145576A (zh) 2017-09-08
CN107145576B true CN107145576B (zh) 2020-06-23

Family

ID=59776923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710316129.7A Active CN107145576B (zh) 2017-05-08 2017-05-08 一种支持可视化和流程化的大数据etl调度系统

Country Status (1)

Country Link
CN (1) CN107145576B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944004B (zh) * 2017-12-07 2020-09-29 深圳乐信软件技术有限公司 Spark-SQL调度的方法、系统、设备及存储介质
CN110795489A (zh) * 2019-11-13 2020-02-14 四川长虹电器股份有限公司 一种作业单元流程管控系统及方法
CN111026739B (zh) * 2019-11-26 2023-08-29 智器云南京信息科技有限公司 批量数据清洗的方法及装置、计算机设备和存储介质
CN111666324B (zh) * 2020-05-18 2023-06-27 新浪技术(中国)有限公司 一种关系型数据库之间的etl调度方法及装置
CN112732809B (zh) * 2020-12-31 2023-08-04 杭州海康威视系统技术有限公司 一种etl系统及基于etl系统的数据处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537573A (zh) * 2014-12-17 2015-04-22 国家电网公司 一种电网运行信息全景可视化展示系统
CN104915341A (zh) * 2014-03-10 2015-09-16 中国科学院沈阳自动化研究所 可视化多数据库etl集成方法和系统
CN105976158A (zh) * 2016-04-26 2016-09-28 中国电子科技网络信息安全有限公司 一种可视化的etl流程管理与调度监控方法
CN106156956A (zh) * 2016-08-30 2016-11-23 广东华际友天信息科技有限公司 一种银行数据加工作业调度系统及其方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101533417B (zh) * 2009-04-28 2012-04-18 阿里巴巴集团控股有限公司 一种实现etl调度的方法及系统
CN101567013B (zh) * 2009-06-02 2011-09-28 阿里巴巴集团控股有限公司 一种etl调度的实现方法及装置
US10324917B2 (en) * 2012-10-15 2019-06-18 Qliktech International Ab Methods and systems for data management
CN105389402B (zh) * 2015-12-29 2019-04-12 曙光信息产业(北京)有限公司 一种面向大数据的etl方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915341A (zh) * 2014-03-10 2015-09-16 中国科学院沈阳自动化研究所 可视化多数据库etl集成方法和系统
CN104537573A (zh) * 2014-12-17 2015-04-22 国家电网公司 一种电网运行信息全景可视化展示系统
CN105976158A (zh) * 2016-04-26 2016-09-28 中国电子科技网络信息安全有限公司 一种可视化的etl流程管理与调度监控方法
CN106156956A (zh) * 2016-08-30 2016-11-23 广东华际友天信息科技有限公司 一种银行数据加工作业调度系统及其方法

Also Published As

Publication number Publication date
CN107145576A (zh) 2017-09-08

Similar Documents

Publication Publication Date Title
CN107145576B (zh) 一种支持可视化和流程化的大数据etl调度系统
CN109408337B (zh) 一种接口运维的方法及装置
CN102375731B (zh) 一种免编码集成应用软件平台系统
US9471651B2 (en) Adjustment of map reduce execution
US9336288B2 (en) Workflow controller compatibility
CN109446274B (zh) 大数据平台bi元数据管理的方法和装置
CN104537015A (zh) 一种日志分析的计算机实现的方法、计算机和系统
CN109299180A (zh) 一种数据仓库etl操作系统
CN111460019A (zh) 一种异构数据源的数据转换方法及中间件
CN112379884A (zh) 基于Spark和并行内存计算的流程引擎实现方法及系统
CN112347071A (zh) 一种配电网云平台数据融合方法及配电网云平台
CN110619014A (zh) 一种基于etl的数据抽取方法
CN113570468A (zh) 一种企业支付风控服务平台
CN102571413A (zh) 一种集群环境下资源管理的方法
US10754868B2 (en) System for analyzing the runtime impact of data files on data extraction, transformation, and loading jobs
CN112633850A (zh) 通过管理调用及监控rpa机器人实现业务流程自动化的方法
US20180189701A1 (en) Distributed cache cleanup for analytic instance runs processing operating data from industrial assets
CN111680478B (zh) 基于组态软件的报表生成方法、装置、设备和存储介质
CN111538886B (zh) 一种基于人工智能的大数据采集存储系统及方法
CN113886465A (zh) 一种用于汽车物流的大数据分析平台
CN113554328A (zh) 基于与设备开机强关联的点检任务督办系统、方法及设备
CN113779026A (zh) 业务数据表的处理方法和装置
CN112612841A (zh) 一种知识抽取构建方法、装置、设备及存储介质
CN113407530A (zh) 一种权限数据的回收方法、管理装置以及存储介质
CN110888928B (zh) 基于etl工具服务组件的可视化控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant