CN108595480A - 一种基于云计算的大数据etl工具系统及应用方法 - Google Patents

一种基于云计算的大数据etl工具系统及应用方法 Download PDF

Info

Publication number
CN108595480A
CN108595480A CN201810204424.8A CN201810204424A CN108595480A CN 108595480 A CN108595480 A CN 108595480A CN 201810204424 A CN201810204424 A CN 201810204424A CN 108595480 A CN108595480 A CN 108595480A
Authority
CN
China
Prior art keywords
data
data transmission
cloud computing
module
etl tool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810204424.8A
Other languages
English (en)
Other versions
CN108595480B (zh
Inventor
袁进波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Youpu Technology Co Ltd
Original Assignee
Guangzhou Youpu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Youpu Technology Co Ltd filed Critical Guangzhou Youpu Technology Co Ltd
Priority to CN201810204424.8A priority Critical patent/CN108595480B/zh
Publication of CN108595480A publication Critical patent/CN108595480A/zh
Application granted granted Critical
Publication of CN108595480B publication Critical patent/CN108595480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • General Factory Administration (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于云计算的大数据ETL工具系统及应用方法,包括有数据源层、作业层和目标数据库层,作业层包括有数据传输单元,目标数据库层数据传输单元包括有数据集成模块,数据源层包括有结构化数据和非结构化数据,对于非结构化数据,数据集成模块通过MapReduce任务实现数据传输,利用MapReduce分布式批处理,能够分割数据集并创建Hadoop任务来处理每个区块,加快了数据传输速度,保证容错性;对于非结构化数据,数据集成模块,基于生产者‑消费者模式的消息队列,以流处理的方式实现数据传输。

Description

一种基于云计算的大数据ETL工具系统及应用方法
技术领域
本发明涉及数据处理领域,尤其涉及一种基于云计算的大数据ETL工具系统及应用方法。
背景技术
随着大数据时代的到来,Hadoop成为越来越通用的分布式计算环境。海量的数据集在Hadoop与关系数据库之间转移,这凸显了能够帮助数据传输的工具的重要性。业界急需一种可以在Hadoop和关系型数据库之间转移大量数据的工具。同时,当今社会的各种应用系统(如商业门户网站)像信息工厂一样不断的生产出各种信息。如何高效地收集、分析这些海量的信息成为各个企业都必须解决的问题。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种基于云计算的大数据ETL工具系统及应用方法,用于实现数据源和目标数据库之间的数据传输。
本发明的大数据ETL工具系统,采用如下技术方案实现:
一种基于云计算的大数据ETL工具系统,包括数据源层、作业层和目标数据库层,所述数据源层包括有结构化数据和非结构化数据,所述目标数据库层包括有基于Hadoop的存储单元;所述作业层包括有作业数据库和数据传输单元,所述作业数据库存放有作业配置表,所述数据传输单元根据所述作业配置表的配置信息对数据传输作业进行配置;
所述数据传输单元包括有数据集成模块,所述数据集成模块用于将数据从数据源层传输至目标数据库层中存储,其中,对于结构化数据,所述数据集成模块通过MapReduce任务实现数据传输,对于非结构化数据,所述数据集成模块基于生产者-消费者模式的消息队列,以流处理的方式实现数据传输。
进一步地,所述基于Hadoop的存储单元包括分布式文件存储系统HDFS和面向列的分布式存储系统Hbase。
进一步地,所述流处理的方式包括:以push模式将数据加载到工作流中,并以pull模式将数据从工作流中消费至目标数据库层。
进一步地,所述数据传输单元还包括有作业守护模块,其用于实时监控作业进程,并在作业进程挂死时,通过失败重试机制重新调起该作业进程。
进一步地,所述数据传输单元根据所述作业配置表的配置信息,配置数据传输作业的并发个数及优先级。
进一步地,所述作业数据库还存放有数据类型映射表,所述数据类型映射表用于记录目标数据库层中的数据类型与数据源层的数据类型之间的映射关系,所述数据传输单元还包括数据回流模块,所述数据回流模块根据所述数据类型映射表所记录的映射关系,将数据从目标数据库层中回流至数据源层。
进一步地,所述作业数据库还包括有作业日志表和作业依赖表,所述作业日志表用于记录作业的运行轨迹,所述作业依赖表用于记录各作业之间的依赖关系;所述数据传输单元还包括有作业调度模块;
所述作业调度模块用于读取作业日志表,根据其所记录的作业的运行轨迹,实现对作业的可视化监控;所述作业调度模块还用于读取作业依赖表,根据其所记录的各作业之间的依赖关系,得到对应的作业调度顺序,并按照所述作业调度顺序对作业进行调度。
本发明的应用方法,采用如下技术方案实现:
一种如上所述的基于云计算的大数据ETL工具系统的应用方法,包括:
通过作业配置表,定制各类数据的发送方和各类数据的接收方;
启动作业调度模块,令其定时或实时调用数据集成模块,以实现数据传输。
相比现有技术,本发明的有益效果在于:
本发明的基于云计算的大数据ETL工具系统及应用方法,包括有数据源层、作业层和目标数据库层,作业层包括有数据传输单元,目标数据库层数据传输单元包括有数据集成模块,数据源层包括有结构化数据和非结构化数据,对于非结构化数据,数据集成模块通过MapReduce任务实现数据传输,利用MapReduce分布式批处理,能够分割数据集并创建Hadoop任务来处理每个区块,加快了数据传输速度,保证容错性;
对于非结构化数据,数据集成模块,基于生产者-消费者模式的消息队列,以流处理的方式实现数据传输;当今社会的各种应用系统(如商业门户网站)像信息工厂一样不断的生产出各种信息,如何高效地收集、分析这些海量的信息成为各个企业都必须解决的问题,这实际上形成了一个业务需求模型,即生产者生产各种信息,消费者消费这些信息。本发明的基于云计算的大数据ETL工具系统,能够用来实现生产者和消费者之间的消息传递。
附图说明
图1为本发明较佳实施例的基于云计算的大数据ETL工具系统的系统架构图;
图2为如图1所示ETL工具系统的应用方法的流程图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
如图1所示,本发明实施例提供了一种基于云计算的大数据ETL工具系统,其包括有数据源层、作业层和目标数据库层,数据源层包括有结构化数据和非结构化数据,所述目标数据库层包括有基于Hadoop的存储单元,其包括分布式文件存储系统HDFS和面向列的分布式存储系统Hbase。
本实施例中,该大数据ETL工具系统的作业层包括作业数据库和数据传输单元,其中作业数据库存放有作业配置表、作业日志表、作业依赖表和数据类型映射表;数据传输单元包括作业调度模块、数据集成模块和作业守护模块。所述作业配置表记录有数据传输作业的配置信息,数据传输单元根据配置信息对数据传输作业进行配置。作业日记表用于记录作业的运行轨迹,实际上为作业的监控数据。作业依赖表记录有各作业之间的依赖关系。数据类型映射表用于记录数据源层的数据类型与目标数据库层的数据类型之间的映射关系。
本实施例中,数据集成模块用于将数据从数据源层传输至目标数据库层中存储,其中,对于结构化数据,数据集成模块通过MapReduce任务实现数据传输,对于非结构化数据,数据集成模块基于生产者-消费者模式的消息队列,以流处理的方式实现数据传输。利用Mapreduce分布式批处理,能够分割数据集并创建Hadoop任务来处理每个区块,加快了数据传输速度,保证容错性。
本实施例中,在以流处理的方式实现数据传输时,具体操作为:数据集成模块以push模式将数据加载到工作流中,并以pull模式将数据从工作流中消费至目标数据库层。
本实施例中,作业调度模块通过作业配置表,可对数据传输作业的并发个数及优先级进行配置,以提高传输效率。作业调度模块用于定时或实时调用数据集成模块,实现数据传输。另外,作业调度模块还用于读取作业日志表,根据其所记录的作业的运行轨迹,实现对作业的可视化监控;作业调度模块还用于读取作业依赖表,根据其所记录的各作业之间的依赖关系,得到对应的作业调度顺序,并按照所述作业调度顺序对作业进行调度。作业依赖表可保证作业流程串的完整性,作业调度模块依据作业依赖表的信息,确保作业的调度顺序,即确保当前作业的前置依赖作业已经完成,保证数据的完整和正确。
本实施例中,作业守护模块用于实时监控当前所进行的作业进程,在作业进程挂死时,通过失败重试机制重新调起该作业进程。其得到监控数据,被记录于作业日志表中,为作业调度模块的可视化监控提供基本数据。
本实施例中,数据回流模块,数据回流模块根据数据类型映射表所记录的映射关系,将数据从目标数据库层中回流至数据源层。例如在HDFS和关系型数据库之间的数据传输,需要数据类型的映射表来保证数据能够转化为正确的数据类型,以存储对应的存储单元中。有些用户希望能够将分析后的数据回流到本地数据库进行应用访问,因此本实施例的大数据ETL工具系统提供了该数据回流模块,以满足与数据回流有关的业务需求。
如图2所示,本实施例还提供了上述基于云计算的大数据ETL工具系统的应用方法,包括以下步骤:
通过作业配置表,定制各类数据的发送方和接收方,即确定数据源(应用系统、门户网站等)和目标数据库(HDFS、HBase等);
启动作业调度模块,令其定时或实时调用数据集成模块,以实现数据传输,从而完成对应的数据传输作业。其中还可以通过作业日志表来对数据传输作业进程进行可视化监控。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims (8)

1.一种基于云计算的大数据ETL工具系统,其特征在于:包括数据源层、作业层和目标数据库层,所述数据源层包括有结构化数据和非结构化数据,所述目标数据库层包括有基于Hadoop的存储单元;所述作业层包括有作业数据库和数据传输单元,所述作业数据库存放有作业配置表,所述数据传输单元根据所述作业配置表的配置信息对数据传输作业进行配置;
所述数据传输单元包括有数据集成模块,所述数据集成模块用于将数据从数据源层传输至目标数据库层中存储,其中,对于结构化数据,所述数据集成模块通过MapReduce任务实现数据传输,对于非结构化数据,所述数据集成模块基于生产者-消费者模式的消息队列,以流处理的方式实现数据传输。
2.如权利要求1所述的基于云计算的大数据ETL工具系统,其特征在于:所述基于Hadoop的存储单元包括分布式文件存储系统HDFS和面向列的分布式存储系统Hbase。
3.如权利要求1所述的基于云计算的大数据ETL工具系统,其特征在于:所述流处理的方式包括:以push模式将数据加载到工作流中,并以pull模式将数据从工作流中消费至目标数据库层。
4.如权利要求1所述的基于云计算的大数据ETL工具系统,其特征在于:所述数据传输单元还包括有作业守护模块,其用于实时监控作业进程,并在作业进程挂死时,通过失败重试机制重新调起该作业进程。
5.如权利要求1所述的基于云计算的大数据ETL工具系统,其特征在于:所述数据传输单元根据所述作业配置表的配置信息,配置数据传输作业的并发个数及优先级。
6.如权利要求1所述的基于云计算的大数据ETL工具系统,其特征在于:所述作业数据库还存放有数据类型映射表,所述数据类型映射表用于记录目标数据库层中的数据类型与数据源层的数据类型之间的映射关系,所述数据传输单元还包括数据回流模块,所述数据回流模块根据所述数据类型映射表所记录的映射关系,将数据从目标数据库层中回流至数据源层。
7.如权利要求1-6任一项所述的基于云计算的大数据ETL工具系统,其特征在于:所述作业数据库还包括有作业日志表和作业依赖表,所述作业日志表用于记录作业的运行轨迹,所述作业依赖表用于记录各作业之间的依赖关系;所述数据传输单元还包括有作业调度模块;
所述作业调度模块用于读取作业日志表,根据其所记录的作业的运行轨迹,实现对作业的可视化监控;所述作业调度模块还用于读取作业依赖表,根据其所记录的各作业之间的依赖关系,得到对应的作业调度顺序,并按照所述作业调度顺序对作业进行调度。
8.一种如权利要求1-7任一项所述的基于云计算的大数据ETL工具系统的应用方法,其特征在于,包括:
通过作业配置表,定制各类数据的发送方和各类数据的接收方;
启动作业调度模块,令其定时或实时调用数据集成模块,以实现数据传输。
CN201810204424.8A 2018-03-13 2018-03-13 一种基于云计算的大数据etl工具系统及应用方法 Active CN108595480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810204424.8A CN108595480B (zh) 2018-03-13 2018-03-13 一种基于云计算的大数据etl工具系统及应用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810204424.8A CN108595480B (zh) 2018-03-13 2018-03-13 一种基于云计算的大数据etl工具系统及应用方法

Publications (2)

Publication Number Publication Date
CN108595480A true CN108595480A (zh) 2018-09-28
CN108595480B CN108595480B (zh) 2022-01-21

Family

ID=63626081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810204424.8A Active CN108595480B (zh) 2018-03-13 2018-03-13 一种基于云计算的大数据etl工具系统及应用方法

Country Status (1)

Country Link
CN (1) CN108595480B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795479A (zh) * 2019-10-08 2020-02-14 中国建设银行股份有限公司 基于数据的分布式etl调度的方法和装置
CN110880146A (zh) * 2019-11-21 2020-03-13 上海中信信息发展股份有限公司 区块链上链方法、装置、电子设备及存储介质
CN113312416A (zh) * 2021-05-20 2021-08-27 成都美尔贝科技股份有限公司 一种跨数据中心的etl工具

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391989A (zh) * 2014-12-16 2015-03-04 浪潮电子信息产业股份有限公司 一种分布式etl一体机系统
CN105786864A (zh) * 2014-12-24 2016-07-20 国家电网公司 一种实现海量数据离线分析的方法
CN105930417A (zh) * 2016-04-18 2016-09-07 四川创意信息技术股份有限公司 一种基于云计算的大数据etl交互式处理平台
US20160261727A1 (en) * 2015-03-06 2016-09-08 Connie W. Yang Systems and methods of streaming data
CN105956015A (zh) * 2016-04-22 2016-09-21 四川中软科技有限公司 一种基于大数据的服务平台整合方法
CN106611046A (zh) * 2016-12-16 2017-05-03 武汉中地数码科技有限公司 基于大数据技术的空间数据存储处理中间件框架
CN107391611A (zh) * 2017-07-04 2017-11-24 南京国电南自电网自动化有限公司 一种基于工作流的通用etl工具的过程模型生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391989A (zh) * 2014-12-16 2015-03-04 浪潮电子信息产业股份有限公司 一种分布式etl一体机系统
CN105786864A (zh) * 2014-12-24 2016-07-20 国家电网公司 一种实现海量数据离线分析的方法
US20160261727A1 (en) * 2015-03-06 2016-09-08 Connie W. Yang Systems and methods of streaming data
CN105930417A (zh) * 2016-04-18 2016-09-07 四川创意信息技术股份有限公司 一种基于云计算的大数据etl交互式处理平台
CN105956015A (zh) * 2016-04-22 2016-09-21 四川中软科技有限公司 一种基于大数据的服务平台整合方法
CN106611046A (zh) * 2016-12-16 2017-05-03 武汉中地数码科技有限公司 基于大数据技术的空间数据存储处理中间件框架
CN107391611A (zh) * 2017-07-04 2017-11-24 南京国电南自电网自动化有限公司 一种基于工作流的通用etl工具的过程模型生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘荣辉著: "《大数据架构技术与实例分析》", 31 January 2018, 长春:东北师范大学出版社 *
林建昌: "电力行业分布式ETL数据集成系统研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795479A (zh) * 2019-10-08 2020-02-14 中国建设银行股份有限公司 基于数据的分布式etl调度的方法和装置
CN110880146A (zh) * 2019-11-21 2020-03-13 上海中信信息发展股份有限公司 区块链上链方法、装置、电子设备及存储介质
CN113312416A (zh) * 2021-05-20 2021-08-27 成都美尔贝科技股份有限公司 一种跨数据中心的etl工具
CN113312416B (zh) * 2021-05-20 2022-09-09 成都美尔贝科技股份有限公司 一种跨数据中心的etl工具

Also Published As

Publication number Publication date
CN108595480B (zh) 2022-01-21

Similar Documents

Publication Publication Date Title
US11627053B2 (en) Continuous data sensing of functional states of networked computing devices to determine efficiency metrics for servicing electronic messages asynchronously
US7788237B2 (en) Method and system for tracking changes in a document
US11481642B2 (en) Professional services demand fulfillment framework using machine learning
US10303690B1 (en) Automated identification and classification of critical data elements
US20090138549A1 (en) Method, Apparatus and System for Business Performance Monitoring and Analysis Using Metric Network
CN108595480A (zh) 一种基于云计算的大数据etl工具系统及应用方法
CN109033113A (zh) 数据仓库和数据集市的管理方法及装置
Leng et al. Framework and key enabling technologies for social manufacturing
EP3958128B1 (en) Customized processing of sensor data
US20200234250A1 (en) Techniques to improve a schedule with optimization
US10210284B2 (en) Method and system for managing data in a manufacturing execution system
Huang et al. Modelci-e: Enabling continual learning in deep learning serving systems
CN113378219B (zh) 一种非结构化数据的处理方法和系统
Park et al. An implementation of a high throughput data ingestion system for machine logs in manufacturing industry
WO2024088026A1 (zh) 一种云数据迁移的优化方法及系统
CN110046150A (zh) 一种人力资源监控分析方法及系统
CN115689788A (zh) 一种财务数据分析方法
US20230229461A1 (en) Correlation engine and policy manager (cpe), method and computer program product
US20150127402A1 (en) Method and system for structuring information background of the invention
CN113407429B (zh) 一种任务处理方法和装置
US10798208B2 (en) Availability data caching in meeting systems
US20140337382A1 (en) System and method for remote data harmonization
CN114116908A (zh) 一种数据管理方法、装置及电子设备
Ordonez-Ante et al. Interactive querying and data visualization for abuse detection in social network sites
US11580580B2 (en) Customer review and ticket management system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant