CN109359146A - 一种自动化etl数据处理工具及其使用方法 - Google Patents

一种自动化etl数据处理工具及其使用方法 Download PDF

Info

Publication number
CN109359146A
CN109359146A CN201811078167.4A CN201811078167A CN109359146A CN 109359146 A CN109359146 A CN 109359146A CN 201811078167 A CN201811078167 A CN 201811078167A CN 109359146 A CN109359146 A CN 109359146A
Authority
CN
China
Prior art keywords
data
module
etl
task
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811078167.4A
Other languages
English (en)
Inventor
赵明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui San Shi Software Technology Co Ltd
Original Assignee
Anhui San Shi Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui San Shi Software Technology Co Ltd filed Critical Anhui San Shi Software Technology Co Ltd
Priority to CN201811078167.4A priority Critical patent/CN109359146A/zh
Publication of CN109359146A publication Critical patent/CN109359146A/zh
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机领域并公开了一种自动化ETL数据处理工具及其使用方法;包括数据抽取模块、数据转换模块、任务创建模块、数据加载模块、数据存储模块和数据输出模块;所述的数据抽取模块与数据转换模块连接,所述的数据转换模块与任务创建模块连接,所述任务创建模块与数据加载模块连接,所述数据加载模块与数据输出模块连接,所述数据抽取模块、数据转换模块、任务创建模块、数据加载模块均与数据存储模块连接;本发明的自动化ETL数据处理工具可减少频繁地导入导出ETL工具降低处理速度的情况,进而较现有技术有效提高了处理速度和开发效率。

Description

一种自动化ETL数据处理工具及其使用方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种自动化ETL数据处理工具及其使用方法。
背景技术
随着大数据业务的快速发展,对数据进行ETL处理就变得非常的普遍。ETL处理的过程大致是将来自不同数据源中的数据抽取后进行清洗、转换、集成处理,即数据抽取、数据转换、数据加载等处理,并将处理后的数据置入目标数据仓库中。目前,存在多种不同类型的数据源,例如:关系型Mysql、非关系型HBase、数据仓库有Hive、文件存储HDFS、具有存储功能的文件索引服务Elasticsearch;而不同的数据类型的数据源可能会具有不同的接口类型。然而,针对不同的接口类型的数据源技术人员需要开发不同的ETL处理工具进行ETL处理,这样不仅增加了技术开发人员的工作量,而且开发效率也会偏低。鉴于现有技术中的缺点,如何提供一种使用简单、运行速度快、开发效率高的自动化ETL数据处理工具及其使用方法是本领域技术人员需要解决的技术难题。
发明内容
针对现有技术中的上述不足之处,本发明提供了一种自动化ETL数据处理工具及其使用方法。
本发明为解决上述技术问题,采用以下技术方案来实现:
设计一种自动化ETL数据处理工具,包括数据抽取模块、数据转换模块、任务创建模块、数据加载模块、数据存储模块和数据输出模块;
所述的数据抽取模块与所述的数据转换模块连接,且所述的数据抽取模块用于获取数据源中的源数据,并将获取的源数据传递至所述的数据转换模块中;
所述的数据转换模块与所述的任务创建模块连接,且所述的数据转换模块用于将接收到的源数据转换成CSV格式数据,并将所述的CSV格式数据传递至任务创建模块中;
所述的任务创建模块与所述的数据加载模块连接,且所述的任务创建模块用于依据所述的CSV格式数据来创建ETL任务;
所述的数据加载模块与所述的数据输出模块连接,且所述的数据加载模块用于根据创建的ETL任务来执行、加载该ETL任务;
所述的数据输出模块用于将ETL任务执行、加载以后的结果发送至目标数据仓库;
所述的数据存储模块均与数据抽取模块、数据转换模块、任务创建模块以及数据加载模块连接,其用于存储输入数据、中间数据以及ETL任务执行以后的结果。
优选的,所述的数据抽取模块还包括对数据源中的源数据进行归一化处理。
优选的,所述数据加载模块的架构为ETL架构、ELT架构中的一种。
设计一种自动化ETL数据处理工具的使用方法,包括如下步骤:
步骤一:数据抽取模块获取数据源中的源数据,并将获取的源数据传递至所述的数据转换模块中;
步骤二:数据转换模块将接收到的源数据转换成CSV格式数据;
步骤三:任务创建模块依据所述的CSV格式数据来创建ETL任务;
步骤四:数据加载模块用于根据创建的ETL任务来执行、加载该ETL任务;
步骤五:数据输出模块将ETL任务执行、加载以后的结果发送至目标数据仓库中。
本发明提出的一种自动化ETL数据处理工具及其使用方法,有益效果在于:
(1)本发明的自动化ETL数据处理工具首先将抽取的数据转换成统一的CSV格式数据,然后在进行转换、执行和加载,最后将加载以后的数据输出至目标数据仓库中;
(2)本发明的自动化ETL数据处理工具无需根据不同类型的数据源提供不同的处理工具,提高了适用性,只需要先将不同类型的数据源转换成CSV格式数据即可,也就说只需要一个ETL工具;可减少频繁地导入导出ETL工具降低处理速度的情况,进而较现有技术有效提高了处理速度和开发效率。
附图说明
下面结合附图中的实施例对本发明作进一步的详细说明,但并不构成对本发明的任何限制。
图1为本发明系统的结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
参阅附图1所示,本发明的一种自动化ETL数据处理工具,包括数据抽取模块、数据转换模块、任务创建模块、数据加载模块、数据存储模块和数据输出模块;
所述的数据抽取模块与所述的数据转换模块连接,且所述的数据抽取模块用于获取数据源中的源数据,并将获取的源数据传递至所述的数据转换模块中,所述的数据抽取模块还包括对数据源中的源数据进行归一化处理;
所述的数据转换模块与所述的任务创建模块连接,且所述的数据转换模块用于将接收到的源数据转换成CSV格式数据,并将所述的CSV格式数据传递至任务创建模块中;
所述的任务创建模块与所述的数据加载模块连接,且所述的任务创建模块用于依据所述的CSV格式数据来创建ETL任务;
所述的数据加载模块与所述的数据输出模块连接,且所述的数据加载模块用于根据创建的ETL任务来执行、加载该ETL任务,所述数据加载模块的架构为ETL架构;
所述的数据输出模块用于将ETL任务执行、加载以后的结果发送至目标数据仓库;
所述的数据存储模块均与数据抽取模块、数据转换模块、任务创建模块以及数据加载模块连接,其用于存储输入数据、中间数据以及ETL任务执行以后的结果。
本发明的一种自动化ETL数据处理工具的使用方法,包括如下步骤:
步骤一:数据抽取模块获取数据源中的源数据,并将获取的源数据传递至所述的数据转换模块中;
步骤二:数据转换模块将接收到的源数据转换成CSV格式数据;
步骤三:任务创建模块依据所述的CSV格式数据来创建ETL任务;
步骤四:数据加载模块用于根据创建的ETL任务来执行、加载该ETL任务;
步骤五:数据输出模块将ETL任务执行、加载以后的结果发送至目标数据仓库中。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (4)

1.一种自动化ETL数据处理工具,其特征在于,包括数据抽取模块、数据转换模块、任务创建模块、数据加载模块、数据存储模块和数据输出模块;
所述的数据抽取模块与所述的数据转换模块连接,且所述的数据抽取模块用于获取数据源中的源数据,并将获取的源数据传递至所述的数据转换模块中;
所述的数据转换模块与所述的任务创建模块连接,且所述的数据转换模块用于将接收到的源数据转换成CSV格式数据,并将所述的CSV格式数据传递至任务创建模块中;
所述的任务创建模块与所述的数据加载模块连接,且所述的任务创建模块用于依据所述的CSV格式数据来创建ETL任务;
所述的数据加载模块与所述的数据输出模块连接,且所述的数据加载模块用于根据创建的ETL任务来执行、加载该ETL任务;
所述的数据输出模块用于将ETL任务执行、加载以后的结果发送至目标数据仓库;
所述的数据存储模块均与数据抽取模块、数据转换模块、任务创建模块以及数据加载模块连接,其用于存储输入数据、中间数据以及ETL任务执行以后的结果。
2.根据权利要求1所述的一种自动化ETL数据处理工具,其特征在于,所述的数据抽取模块还包括对数据源中的源数据进行归一化处理。
3.根据权利要求1所述的一种自动化ETL数据处理工具,其特征在于,所述数据加载模块的架构为ETL架构、ELT架构中的一种。
4.如权利要求1至权利要求3所述任意一种自动化ETL数据处理工具的使用方法,其特征在于,包括如下步骤:
步骤一:数据抽取模块获取数据源中的源数据,并将获取的源数据传递至所述的数据转换模块中;
步骤二:数据转换模块将接收到的源数据转换成CSV格式数据;
步骤三:任务创建模块依据所述的CSV格式数据来创建ETL任务;
步骤四:数据加载模块用于根据创建的ETL任务来执行、加载该ETL任务;
步骤五:数据输出模块将ETL任务执行、加载以后的结果发送至目标数据仓库中。
CN201811078167.4A 2018-09-16 2018-09-16 一种自动化etl数据处理工具及其使用方法 Withdrawn CN109359146A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811078167.4A CN109359146A (zh) 2018-09-16 2018-09-16 一种自动化etl数据处理工具及其使用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811078167.4A CN109359146A (zh) 2018-09-16 2018-09-16 一种自动化etl数据处理工具及其使用方法

Publications (1)

Publication Number Publication Date
CN109359146A true CN109359146A (zh) 2019-02-19

Family

ID=65350827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811078167.4A Withdrawn CN109359146A (zh) 2018-09-16 2018-09-16 一种自动化etl数据处理工具及其使用方法

Country Status (1)

Country Link
CN (1) CN109359146A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008042A (zh) * 2019-03-28 2019-07-12 北京易华录信息技术股份有限公司 一种基于容器的算法级联方法及系统
CN111159265A (zh) * 2019-12-03 2020-05-15 武汉达梦数据库有限公司 一种etl数据迁移方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008042A (zh) * 2019-03-28 2019-07-12 北京易华录信息技术股份有限公司 一种基于容器的算法级联方法及系统
CN111159265A (zh) * 2019-12-03 2020-05-15 武汉达梦数据库有限公司 一种etl数据迁移方法和系统
CN111159265B (zh) * 2019-12-03 2023-04-14 武汉达梦数据库股份有限公司 一种etl数据迁移方法和系统

Similar Documents

Publication Publication Date Title
CN108536761B (zh) 报表数据查询方法及服务器
CN107256206B (zh) 字符流格式转换的方法和装置
CN105205105B (zh) 一种基于storm的数据ETL系统及处理方法
CN102508919B (zh) 数据处理方法及系统
CN104317928A (zh) 一种基于分布式数据库的业务etl方法及系统
CN106528070A (zh) 一种数据表生成方法及设备
CN102902750A (zh) 一种通用的数据抽取转换方法
CN107784026A (zh) 一种etl数据处理方法及装置
CN103514205A (zh) 海量数据处理方法和系统
CN103810272A (zh) 一种数据处理方法和系统
CN106557307A (zh) 业务数据的处理方法及处理系统
CN109471893B (zh) 网络数据的查询方法、设备及计算机可读存储介质
CN109359146A (zh) 一种自动化etl数据处理工具及其使用方法
CN105391777A (zh) 一种解耦逻辑代码与性能代码的算法托管PaaS平台
CN105468793A (zh) 一种仿真模型数据的自动化管理方法
CN106657099A (zh) 一种Spark数据分析服务发布系统
CN115330540A (zh) 一种处理交易数据的方法和装置
CN110134646B (zh) 知识平台服务数据存储与集成方法及系统
CN107506292A (zh) 一种多级非均匀目录下随机读时延的自动化测试方法
CN104123135A (zh) 一种统一后台接口的方法及装置
CN111625596A (zh) 新能源实时消纳调度的多源数据同步共享方法及系统
CN112148705A (zh) 数据迁移的方法和装置
CN115794078A (zh) 无代码ai模型开发系统和方法
CN105630997A (zh) 一种数据并行处理方法、装置及设备
CN104484174A (zh) Rar格式的压缩文件的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190219

WW01 Invention patent application withdrawn after publication