CN108595480A - 一种基于云计算的大数据etl工具系统及应用方法 - Google Patents
一种基于云计算的大数据etl工具系统及应用方法 Download PDFInfo
- Publication number
- CN108595480A CN108595480A CN201810204424.8A CN201810204424A CN108595480A CN 108595480 A CN108595480 A CN 108595480A CN 201810204424 A CN201810204424 A CN 201810204424A CN 108595480 A CN108595480 A CN 108595480A
- Authority
- CN
- China
- Prior art keywords
- data
- data transmission
- cloud computing
- module
- etl tool
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- General Factory Administration (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于云计算的大数据ETL工具系统及应用方法,包括有数据源层、作业层和目标数据库层,作业层包括有数据传输单元,目标数据库层数据传输单元包括有数据集成模块,数据源层包括有结构化数据和非结构化数据,对于非结构化数据,数据集成模块通过MapReduce任务实现数据传输,利用MapReduce分布式批处理,能够分割数据集并创建Hadoop任务来处理每个区块,加快了数据传输速度,保证容错性;对于非结构化数据,数据集成模块,基于生产者‑消费者模式的消息队列,以流处理的方式实现数据传输。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种基于云计算的大数据ETL工具系统及应用方法。
背景技术
随着大数据时代的到来,Hadoop成为越来越通用的分布式计算环境。海量的数据集在Hadoop与关系数据库之间转移,这凸显了能够帮助数据传输的工具的重要性。业界急需一种可以在Hadoop和关系型数据库之间转移大量数据的工具。同时,当今社会的各种应用系统(如商业门户网站)像信息工厂一样不断的生产出各种信息。如何高效地收集、分析这些海量的信息成为各个企业都必须解决的问题。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种基于云计算的大数据ETL工具系统及应用方法,用于实现数据源和目标数据库之间的数据传输。
本发明的大数据ETL工具系统,采用如下技术方案实现:
一种基于云计算的大数据ETL工具系统,包括数据源层、作业层和目标数据库层,所述数据源层包括有结构化数据和非结构化数据,所述目标数据库层包括有基于Hadoop的存储单元;所述作业层包括有作业数据库和数据传输单元,所述作业数据库存放有作业配置表,所述数据传输单元根据所述作业配置表的配置信息对数据传输作业进行配置;
所述数据传输单元包括有数据集成模块,所述数据集成模块用于将数据从数据源层传输至目标数据库层中存储,其中,对于结构化数据,所述数据集成模块通过MapReduce任务实现数据传输,对于非结构化数据,所述数据集成模块基于生产者-消费者模式的消息队列,以流处理的方式实现数据传输。
进一步地,所述基于Hadoop的存储单元包括分布式文件存储系统HDFS和面向列的分布式存储系统Hbase。
进一步地,所述流处理的方式包括:以push模式将数据加载到工作流中,并以pull模式将数据从工作流中消费至目标数据库层。
进一步地,所述数据传输单元还包括有作业守护模块,其用于实时监控作业进程,并在作业进程挂死时,通过失败重试机制重新调起该作业进程。
进一步地,所述数据传输单元根据所述作业配置表的配置信息,配置数据传输作业的并发个数及优先级。
进一步地,所述作业数据库还存放有数据类型映射表,所述数据类型映射表用于记录目标数据库层中的数据类型与数据源层的数据类型之间的映射关系,所述数据传输单元还包括数据回流模块,所述数据回流模块根据所述数据类型映射表所记录的映射关系,将数据从目标数据库层中回流至数据源层。
进一步地,所述作业数据库还包括有作业日志表和作业依赖表,所述作业日志表用于记录作业的运行轨迹,所述作业依赖表用于记录各作业之间的依赖关系;所述数据传输单元还包括有作业调度模块;
所述作业调度模块用于读取作业日志表,根据其所记录的作业的运行轨迹,实现对作业的可视化监控;所述作业调度模块还用于读取作业依赖表,根据其所记录的各作业之间的依赖关系,得到对应的作业调度顺序,并按照所述作业调度顺序对作业进行调度。
本发明的应用方法,采用如下技术方案实现:
一种如上所述的基于云计算的大数据ETL工具系统的应用方法,包括:
通过作业配置表,定制各类数据的发送方和各类数据的接收方;
启动作业调度模块,令其定时或实时调用数据集成模块,以实现数据传输。
相比现有技术,本发明的有益效果在于:
本发明的基于云计算的大数据ETL工具系统及应用方法,包括有数据源层、作业层和目标数据库层,作业层包括有数据传输单元,目标数据库层数据传输单元包括有数据集成模块,数据源层包括有结构化数据和非结构化数据,对于非结构化数据,数据集成模块通过MapReduce任务实现数据传输,利用MapReduce分布式批处理,能够分割数据集并创建Hadoop任务来处理每个区块,加快了数据传输速度,保证容错性;
对于非结构化数据,数据集成模块,基于生产者-消费者模式的消息队列,以流处理的方式实现数据传输;当今社会的各种应用系统(如商业门户网站)像信息工厂一样不断的生产出各种信息,如何高效地收集、分析这些海量的信息成为各个企业都必须解决的问题,这实际上形成了一个业务需求模型,即生产者生产各种信息,消费者消费这些信息。本发明的基于云计算的大数据ETL工具系统,能够用来实现生产者和消费者之间的消息传递。
附图说明
图1为本发明较佳实施例的基于云计算的大数据ETL工具系统的系统架构图;
图2为如图1所示ETL工具系统的应用方法的流程图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
如图1所示,本发明实施例提供了一种基于云计算的大数据ETL工具系统,其包括有数据源层、作业层和目标数据库层,数据源层包括有结构化数据和非结构化数据,所述目标数据库层包括有基于Hadoop的存储单元,其包括分布式文件存储系统HDFS和面向列的分布式存储系统Hbase。
本实施例中,该大数据ETL工具系统的作业层包括作业数据库和数据传输单元,其中作业数据库存放有作业配置表、作业日志表、作业依赖表和数据类型映射表;数据传输单元包括作业调度模块、数据集成模块和作业守护模块。所述作业配置表记录有数据传输作业的配置信息,数据传输单元根据配置信息对数据传输作业进行配置。作业日记表用于记录作业的运行轨迹,实际上为作业的监控数据。作业依赖表记录有各作业之间的依赖关系。数据类型映射表用于记录数据源层的数据类型与目标数据库层的数据类型之间的映射关系。
本实施例中,数据集成模块用于将数据从数据源层传输至目标数据库层中存储,其中,对于结构化数据,数据集成模块通过MapReduce任务实现数据传输,对于非结构化数据,数据集成模块基于生产者-消费者模式的消息队列,以流处理的方式实现数据传输。利用Mapreduce分布式批处理,能够分割数据集并创建Hadoop任务来处理每个区块,加快了数据传输速度,保证容错性。
本实施例中,在以流处理的方式实现数据传输时,具体操作为:数据集成模块以push模式将数据加载到工作流中,并以pull模式将数据从工作流中消费至目标数据库层。
本实施例中,作业调度模块通过作业配置表,可对数据传输作业的并发个数及优先级进行配置,以提高传输效率。作业调度模块用于定时或实时调用数据集成模块,实现数据传输。另外,作业调度模块还用于读取作业日志表,根据其所记录的作业的运行轨迹,实现对作业的可视化监控;作业调度模块还用于读取作业依赖表,根据其所记录的各作业之间的依赖关系,得到对应的作业调度顺序,并按照所述作业调度顺序对作业进行调度。作业依赖表可保证作业流程串的完整性,作业调度模块依据作业依赖表的信息,确保作业的调度顺序,即确保当前作业的前置依赖作业已经完成,保证数据的完整和正确。
本实施例中,作业守护模块用于实时监控当前所进行的作业进程,在作业进程挂死时,通过失败重试机制重新调起该作业进程。其得到监控数据,被记录于作业日志表中,为作业调度模块的可视化监控提供基本数据。
本实施例中,数据回流模块,数据回流模块根据数据类型映射表所记录的映射关系,将数据从目标数据库层中回流至数据源层。例如在HDFS和关系型数据库之间的数据传输,需要数据类型的映射表来保证数据能够转化为正确的数据类型,以存储对应的存储单元中。有些用户希望能够将分析后的数据回流到本地数据库进行应用访问,因此本实施例的大数据ETL工具系统提供了该数据回流模块,以满足与数据回流有关的业务需求。
如图2所示,本实施例还提供了上述基于云计算的大数据ETL工具系统的应用方法,包括以下步骤:
通过作业配置表,定制各类数据的发送方和接收方,即确定数据源(应用系统、门户网站等)和目标数据库(HDFS、HBase等);
启动作业调度模块,令其定时或实时调用数据集成模块,以实现数据传输,从而完成对应的数据传输作业。其中还可以通过作业日志表来对数据传输作业进程进行可视化监控。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。
Claims (8)
1.一种基于云计算的大数据ETL工具系统,其特征在于:包括数据源层、作业层和目标数据库层,所述数据源层包括有结构化数据和非结构化数据,所述目标数据库层包括有基于Hadoop的存储单元;所述作业层包括有作业数据库和数据传输单元,所述作业数据库存放有作业配置表,所述数据传输单元根据所述作业配置表的配置信息对数据传输作业进行配置;
所述数据传输单元包括有数据集成模块,所述数据集成模块用于将数据从数据源层传输至目标数据库层中存储,其中,对于结构化数据,所述数据集成模块通过MapReduce任务实现数据传输,对于非结构化数据,所述数据集成模块基于生产者-消费者模式的消息队列,以流处理的方式实现数据传输。
2.如权利要求1所述的基于云计算的大数据ETL工具系统,其特征在于:所述基于Hadoop的存储单元包括分布式文件存储系统HDFS和面向列的分布式存储系统Hbase。
3.如权利要求1所述的基于云计算的大数据ETL工具系统,其特征在于:所述流处理的方式包括:以push模式将数据加载到工作流中,并以pull模式将数据从工作流中消费至目标数据库层。
4.如权利要求1所述的基于云计算的大数据ETL工具系统,其特征在于:所述数据传输单元还包括有作业守护模块,其用于实时监控作业进程,并在作业进程挂死时,通过失败重试机制重新调起该作业进程。
5.如权利要求1所述的基于云计算的大数据ETL工具系统,其特征在于:所述数据传输单元根据所述作业配置表的配置信息,配置数据传输作业的并发个数及优先级。
6.如权利要求1所述的基于云计算的大数据ETL工具系统,其特征在于:所述作业数据库还存放有数据类型映射表,所述数据类型映射表用于记录目标数据库层中的数据类型与数据源层的数据类型之间的映射关系,所述数据传输单元还包括数据回流模块,所述数据回流模块根据所述数据类型映射表所记录的映射关系,将数据从目标数据库层中回流至数据源层。
7.如权利要求1-6任一项所述的基于云计算的大数据ETL工具系统,其特征在于:所述作业数据库还包括有作业日志表和作业依赖表,所述作业日志表用于记录作业的运行轨迹,所述作业依赖表用于记录各作业之间的依赖关系;所述数据传输单元还包括有作业调度模块;
所述作业调度模块用于读取作业日志表,根据其所记录的作业的运行轨迹,实现对作业的可视化监控;所述作业调度模块还用于读取作业依赖表,根据其所记录的各作业之间的依赖关系,得到对应的作业调度顺序,并按照所述作业调度顺序对作业进行调度。
8.一种如权利要求1-7任一项所述的基于云计算的大数据ETL工具系统的应用方法,其特征在于,包括:
通过作业配置表,定制各类数据的发送方和各类数据的接收方;
启动作业调度模块,令其定时或实时调用数据集成模块,以实现数据传输。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810204424.8A CN108595480B (zh) | 2018-03-13 | 2018-03-13 | 一种基于云计算的大数据etl工具系统及应用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810204424.8A CN108595480B (zh) | 2018-03-13 | 2018-03-13 | 一种基于云计算的大数据etl工具系统及应用方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108595480A true CN108595480A (zh) | 2018-09-28 |
CN108595480B CN108595480B (zh) | 2022-01-21 |
Family
ID=63626081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810204424.8A Active CN108595480B (zh) | 2018-03-13 | 2018-03-13 | 一种基于云计算的大数据etl工具系统及应用方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595480B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795479A (zh) * | 2019-10-08 | 2020-02-14 | 中国建设银行股份有限公司 | 基于数据的分布式etl调度的方法和装置 |
CN110880146A (zh) * | 2019-11-21 | 2020-03-13 | 上海中信信息发展股份有限公司 | 区块链上链方法、装置、电子设备及存储介质 |
CN113312416A (zh) * | 2021-05-20 | 2021-08-27 | 成都美尔贝科技股份有限公司 | 一种跨数据中心的etl工具 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391989A (zh) * | 2014-12-16 | 2015-03-04 | 浪潮电子信息产业股份有限公司 | 一种分布式etl一体机系统 |
CN105786864A (zh) * | 2014-12-24 | 2016-07-20 | 国家电网公司 | 一种实现海量数据离线分析的方法 |
CN105930417A (zh) * | 2016-04-18 | 2016-09-07 | 四川创意信息技术股份有限公司 | 一种基于云计算的大数据etl交互式处理平台 |
US20160261727A1 (en) * | 2015-03-06 | 2016-09-08 | Connie W. Yang | Systems and methods of streaming data |
CN105956015A (zh) * | 2016-04-22 | 2016-09-21 | 四川中软科技有限公司 | 一种基于大数据的服务平台整合方法 |
CN106611046A (zh) * | 2016-12-16 | 2017-05-03 | 武汉中地数码科技有限公司 | 基于大数据技术的空间数据存储处理中间件框架 |
CN107391611A (zh) * | 2017-07-04 | 2017-11-24 | 南京国电南自电网自动化有限公司 | 一种基于工作流的通用etl工具的过程模型生成方法 |
-
2018
- 2018-03-13 CN CN201810204424.8A patent/CN108595480B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391989A (zh) * | 2014-12-16 | 2015-03-04 | 浪潮电子信息产业股份有限公司 | 一种分布式etl一体机系统 |
CN105786864A (zh) * | 2014-12-24 | 2016-07-20 | 国家电网公司 | 一种实现海量数据离线分析的方法 |
US20160261727A1 (en) * | 2015-03-06 | 2016-09-08 | Connie W. Yang | Systems and methods of streaming data |
CN105930417A (zh) * | 2016-04-18 | 2016-09-07 | 四川创意信息技术股份有限公司 | 一种基于云计算的大数据etl交互式处理平台 |
CN105956015A (zh) * | 2016-04-22 | 2016-09-21 | 四川中软科技有限公司 | 一种基于大数据的服务平台整合方法 |
CN106611046A (zh) * | 2016-12-16 | 2017-05-03 | 武汉中地数码科技有限公司 | 基于大数据技术的空间数据存储处理中间件框架 |
CN107391611A (zh) * | 2017-07-04 | 2017-11-24 | 南京国电南自电网自动化有限公司 | 一种基于工作流的通用etl工具的过程模型生成方法 |
Non-Patent Citations (2)
Title |
---|
刘荣辉著: "《大数据架构技术与实例分析》", 31 January 2018, 长春:东北师范大学出版社 * |
林建昌: "电力行业分布式ETL数据集成系统研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795479A (zh) * | 2019-10-08 | 2020-02-14 | 中国建设银行股份有限公司 | 基于数据的分布式etl调度的方法和装置 |
CN110880146A (zh) * | 2019-11-21 | 2020-03-13 | 上海中信信息发展股份有限公司 | 区块链上链方法、装置、电子设备及存储介质 |
CN113312416A (zh) * | 2021-05-20 | 2021-08-27 | 成都美尔贝科技股份有限公司 | 一种跨数据中心的etl工具 |
CN113312416B (zh) * | 2021-05-20 | 2022-09-09 | 成都美尔贝科技股份有限公司 | 一种跨数据中心的etl工具 |
Also Published As
Publication number | Publication date |
---|---|
CN108595480B (zh) | 2022-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11627053B2 (en) | Continuous data sensing of functional states of networked computing devices to determine efficiency metrics for servicing electronic messages asynchronously | |
US7788237B2 (en) | Method and system for tracking changes in a document | |
US11481642B2 (en) | Professional services demand fulfillment framework using machine learning | |
US10303690B1 (en) | Automated identification and classification of critical data elements | |
US20090138549A1 (en) | Method, Apparatus and System for Business Performance Monitoring and Analysis Using Metric Network | |
CN108595480A (zh) | 一种基于云计算的大数据etl工具系统及应用方法 | |
CN109033113A (zh) | 数据仓库和数据集市的管理方法及装置 | |
Leng et al. | Framework and key enabling technologies for social manufacturing | |
EP3958128B1 (en) | Customized processing of sensor data | |
US20200234250A1 (en) | Techniques to improve a schedule with optimization | |
US10210284B2 (en) | Method and system for managing data in a manufacturing execution system | |
Huang et al. | Modelci-e: Enabling continual learning in deep learning serving systems | |
CN113378219B (zh) | 一种非结构化数据的处理方法和系统 | |
Park et al. | An implementation of a high throughput data ingestion system for machine logs in manufacturing industry | |
WO2024088026A1 (zh) | 一种云数据迁移的优化方法及系统 | |
CN110046150A (zh) | 一种人力资源监控分析方法及系统 | |
CN115689788A (zh) | 一种财务数据分析方法 | |
US20230229461A1 (en) | Correlation engine and policy manager (cpe), method and computer program product | |
US20150127402A1 (en) | Method and system for structuring information background of the invention | |
CN113407429B (zh) | 一种任务处理方法和装置 | |
US10798208B2 (en) | Availability data caching in meeting systems | |
US20140337382A1 (en) | System and method for remote data harmonization | |
CN114116908A (zh) | 一种数据管理方法、装置及电子设备 | |
Ordonez-Ante et al. | Interactive querying and data visualization for abuse detection in social network sites | |
US11580580B2 (en) | Customer review and ticket management system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |