CN106250571A - 一种etl数据处理的方法及系统 - Google Patents
一种etl数据处理的方法及系统 Download PDFInfo
- Publication number
- CN106250571A CN106250571A CN201610886270.6A CN201610886270A CN106250571A CN 106250571 A CN106250571 A CN 106250571A CN 201610886270 A CN201610886270 A CN 201610886270A CN 106250571 A CN106250571 A CN 106250571A
- Authority
- CN
- China
- Prior art keywords
- data
- unit
- plug
- etl
- write
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种ETL数据处理的方法,其能够实现从多个源头读取原始数据,向多个异构存储系统同步数据,可以大大提升ETL研发的速度和数据交换的效率。该方法包括:(1)配置ETL系统的读插件,每一种读插件对应一个异构的数据源,读插件是开放的;(2)配置ETL系统的写插件,每一种写插件对应一个异构的目标存储系统,写插件也是开放的;(3)每一个ETL任务具有其对应的配置文件,任务驱动器通过配置文件中的配置信息加载相关的读写插件,完成数据多读和多写的并发执行。还有ETL数据处理的系统。
Description
技术领域
本发明涉及大数据处理的技术领域,尤其涉及一种ETL数据处理的方法,以及ETL数据处理的系统。
背景技术hdfs Hadoop Distributed File System或者Hadoop数据库hbase
ETL是英文Extract-Transform-Load的缩写,其用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
中国专利申请号2014106820339,公开了一种ETL数据采集方法和装置。但是,目前的技术只能适应一读一写或者多读一写的ETL场景,还没有出现支持多写的技术方案。如果要在两个异构的存储平台上存放同一份ETL结果数据,必须先在一个平台上落地之后,再通过数据交换的工具同步到另外一个平台,或者同时启动两个不同的ETL过程,效率比较低下。
而且,现有ETL系统一般与业务深度结合,只能在某一个场景下应用,与业务耦合度非常高,导致整个系统不够灵活,不容易被复用。
在收集业务系统日志或者接入外部数据源时,往往会面临设计通用的高效ETL的问题,并且需要把处理后的数据落地到多个异构的系统中,如何一次性解决数据同步的问题,需要在现有的ETL框架基础上进一步创新设计。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种ETL数据处理的方法,其能够实现从多个源头读取原始数据,向多个异构存储系统同步数据,可以大大提升ETL研发的速度和数据交换的效率。
本发明的技术方案是:这种ETL数据处理的方法,该方法包括以下步骤:
(1)配置ETL系统的读插件,每一种读插件对应一个异构的数据源,读插件是开放的;
(2)配置ETL系统的写插件,每一种写插件对应一个异构的目标存储系统,写插件也是开放的;
(3)每一个ETL任务具有其对应的配置文件,任务驱动器通过配置文件中的配置信息加载相关的读写插件,完成数据多读和多写的并发执行。
本发明通过配置ETL系统的读插件、写插件,任务驱动器通过配置文件中的配置信息加载相关的读写插件,完成数据多读和多写的并发执行,从而能够实现从多个源头读取原始数据,向多个异构存储系统同步数据,可以大大提升ETL研发的速度和数据交换的效率。
还提供了一种ETL数据处理的系统,该系统包括:
第一配置模块,其配置ETL系统的读插件,每一种读插件对应一个异构的数据源,读插件是开放的;
第二配置模块,其配置ETL系统的写插件,每一种写插件对应一个异构的目标存储系统,写插件也是开放的;
任务驱动器,其配置来执行读写插件的加载、数据分发策略以及流程控制,每一个ETL任务都有其对应的配置文件,任务驱动器通过配置文件中的配置信息加载相关的读写插件,完成数据多读和多写的并发执行。
附图说明
图1所示为根据本发明的ETL数据处理的方法的流程图。
具体实施方式
如图1所示,这种ETL数据处理的方法,该方法包括以下步骤:
(1)配置ETL系统的读插件,每一种读插件对应一个异构的数据源,读插件是开放的;
(2)配置ETL系统的写插件,每一种写插件对应一个异构的目标存储系统,写插件也是开放的;
(3)每一个ETL任务具有其对应的配置文件,任务驱动器通过配置文件中的配置信息加载相关的读写插件,完成数据多读和多写的并发执行。
本发明通过配置ETL系统的读插件、写插件,任务驱动器通过配置文件中的配置信息加载相关的读写插件,完成数据多读和多写的并发执行,从而能够实现从多个源头读取原始数据,向多个异构存储系统同步数据,可以大大提升ETL研发的速度和数据交换的效率。
另外,所述步骤(1)中通过实现接口的方式来添加新的读插件。
另外,所述步骤(2)中通过实现接口的方式来添加新的写插件。
另外,在海量数据的情况下,本方法部署到storm集群中,由storm中的topology来负责数据的多读和多写,把数据落地到Hadoop分布式文件系统hdfs或者Hadoop数据库hbase。
另外,在小数据量的场景下,在单机环境中执行本方法的单机版本,把数据落地到Hadoop分布式文件系统hdfs或者Hadoop数据库hbase。。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与本发明的方法相对应的,本发明还同时包括一种ETL数据处理的系统,该系统通常以与方法各步骤相对应的功能模块的形式表示。使用该方法的系统,该系统包括:
第一配置模块,其配置ETL系统的读插件,每一种读插件对应一个异构的数据源,读插件是开放的;
第二配置模块,其配置ETL系统的写插件,每一种写插件对应一个异构的目标存储系统,写插件也是开放的;
任务驱动器,其配置来执行读写插件的加载、数据分发策略以及流程控制,每一个ETL任务都有其对应的配置文件,任务驱动器通过配置文件中的配置信息加载相关的读写插件,完成数据多读和多写的并发执行。
另外,所述第一配置模块中通过实现接口的方式来添加新的读插件。
另外,所述第二配置模块中通过实现接口的方式来添加新的写插件。
另外,在海量数据的情况下,本系统部署到storm集群中,由storm中的topology来负责数据的多读和多写,把数据落地到Hadoop分布式文件系统hdfs或者Hadoop数据库hbase。
另外,在小数据量的场景下,在单机环境中执行本方法的单机版本,把数据落地到Hadoop分布式文件系统hdfs或者Hadoop数据库hbase。
本发明的有益效果如下:
1.多写特性,可以同时对多个异构存储系统发出写请求,提升数据转换效率。
2.读写模块可插拔,一次研发,多次复用。
3.ETL任务数据源与目标存储系统的可配置化特性。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (10)
1.一种ETL数据处理的方法,其特征在于:该方法包括以下步骤:
(1)配置ETL系统的读插件,每一种读插件对应一个异构的数据源,读插件是开放的;
(2)配置ETL系统的写插件,每一种写插件对应一个异构的目标存储系统,写插件也是开放的;
(3)每一个ETL任务具有其对应的配置文件,任务驱动器通过配置文件中的配置信息加载相关的读写插件,完成数据多读和多写的并发执行。
2.根据权利要求1所述的ETL数据处理的方法,其特征在于:所述步骤(1)中通过实现接口的方式来添加新的读插件。
3.根据权利要求2所述的ETL数据处理的方法,其特征在于:所述步骤(2)中通过实现接口的方式来添加新的写插件。
4.根据权利要求3所述的ETL数据处理的方法,其特征在于:在海量数据的情况下,本方法部署到storm集群中,由storm中的topology来负责数据的多读和多写,把数据落地到Hadoop分布式文件系统hdfs或者Hadoop数据库hbase。
5.根据权利要求3所述的ETL数据处理的方法,其特征在于:在小数据量的场景下,在单机环境中执行本方法的单机版本,把数据落地到Hadoop分布式文件系统hdfs或者Hadoop数据库hbase。
6.一种ETL数据处理的系统,其特征在于:该系统包括:第一配置模块,其配置ETL系统的读插件,每一种读插件对应一个异构的数据源,读插件是开放的;第二配置模块,其配置ETL系统的写插件,每一种写插件对应一个异构的目标存储系统,写插件也是开放的;
任务驱动器,其配置来执行读写插件的加载、数据分发策略以及流程控制,每一个ETL任务都有其对应的配置文件,任务驱动器通过配置文件中的配置信息加载相关的读写插件,完成数据多读和多写的并发执行。
7.根据权利要求6所述的ETL数据处理的系统,其特征在于:所述第一配置模块中通过实现接口的方式来添加新的读插件。
8.根据权利要求7所述的ETL数据处理的系统,其特征在于:所述第二配置模块中通过实现接口的方式来添加新的写插件。
9.根据权利要求8所述的ETL数据处理的系统,其特征在于:在海量数据的情况下,本系统部署到storm集群中,由storm中的topology来负责数据的多读和多写,把数据落地到Hadoop分布式文件系统hdfs或者Hadoop数据库hbase。
10.根据权利要求8所述的ETL数据处理的系统,其特征在于:在小数据量的场景下,在单机环境中执行本方法的单机版本,把数据落地到Hadoop分布式文件系统hdfs或者Hadoop数据库hbase。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610886270.6A CN106250571A (zh) | 2016-10-11 | 2016-10-11 | 一种etl数据处理的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610886270.6A CN106250571A (zh) | 2016-10-11 | 2016-10-11 | 一种etl数据处理的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106250571A true CN106250571A (zh) | 2016-12-21 |
Family
ID=57612393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610886270.6A Pending CN106250571A (zh) | 2016-10-11 | 2016-10-11 | 一种etl数据处理的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106250571A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609061A (zh) * | 2017-08-28 | 2018-01-19 | 武汉奇米网络科技有限公司 | 一种数据同步的方法和装置 |
CN108446335A (zh) * | 2018-02-27 | 2018-08-24 | 广州港数据科技有限公司 | 基于数据库的异构系统数据抽取及统一对外数据交换方法 |
CN110825453A (zh) * | 2019-10-25 | 2020-02-21 | 中盈优创资讯科技有限公司 | 基于大数据平台的数据处理方法及装置 |
CN110851513A (zh) * | 2019-10-16 | 2020-02-28 | 中盈优创资讯科技有限公司 | 基于Spark计算引擎的多源异构数据读取方法及装置 |
CN111538772A (zh) * | 2020-04-14 | 2020-08-14 | 北京宝兰德软件股份有限公司 | 数据的交换处理方法、装置、电子设备及存储介质 |
CN113411271A (zh) * | 2021-06-16 | 2021-09-17 | 阿波罗智联(北京)科技有限公司 | 数据接入方法、装置、设备以及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205105A (zh) * | 2015-08-27 | 2015-12-30 | 浪潮集团有限公司 | 一种基于storm的数据ETL系统及处理方法 |
CN105512162A (zh) * | 2015-09-28 | 2016-04-20 | 杭州圆橙科技有限公司 | 一种基于Storm的流数据实时智能化处理框架 |
CN105574082A (zh) * | 2015-12-08 | 2016-05-11 | 曙光信息产业(北京)有限公司 | 基于Storm的流处理方法及系统 |
-
2016
- 2016-10-11 CN CN201610886270.6A patent/CN106250571A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205105A (zh) * | 2015-08-27 | 2015-12-30 | 浪潮集团有限公司 | 一种基于storm的数据ETL系统及处理方法 |
CN105512162A (zh) * | 2015-09-28 | 2016-04-20 | 杭州圆橙科技有限公司 | 一种基于Storm的流数据实时智能化处理框架 |
CN105574082A (zh) * | 2015-12-08 | 2016-05-11 | 曙光信息产业(北京)有限公司 | 基于Storm的流处理方法及系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609061A (zh) * | 2017-08-28 | 2018-01-19 | 武汉奇米网络科技有限公司 | 一种数据同步的方法和装置 |
CN108446335A (zh) * | 2018-02-27 | 2018-08-24 | 广州港数据科技有限公司 | 基于数据库的异构系统数据抽取及统一对外数据交换方法 |
CN110851513A (zh) * | 2019-10-16 | 2020-02-28 | 中盈优创资讯科技有限公司 | 基于Spark计算引擎的多源异构数据读取方法及装置 |
CN110851513B (zh) * | 2019-10-16 | 2021-06-08 | 中盈优创资讯科技有限公司 | 基于Spark计算引擎的多源异构数据读取方法及装置 |
CN110825453A (zh) * | 2019-10-25 | 2020-02-21 | 中盈优创资讯科技有限公司 | 基于大数据平台的数据处理方法及装置 |
CN110825453B (zh) * | 2019-10-25 | 2023-12-05 | 中盈优创资讯科技有限公司 | 基于大数据平台的数据处理方法及装置 |
CN111538772A (zh) * | 2020-04-14 | 2020-08-14 | 北京宝兰德软件股份有限公司 | 数据的交换处理方法、装置、电子设备及存储介质 |
CN113411271A (zh) * | 2021-06-16 | 2021-09-17 | 阿波罗智联(北京)科技有限公司 | 数据接入方法、装置、设备以及存储介质 |
US11816031B2 (en) | 2021-06-16 | 2023-11-14 | Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. | Method and apparatus for ingesting data, device and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106250571A (zh) | 一种etl数据处理的方法及系统 | |
CN107577420B (zh) | 文件处理方法和装置、服务器 | |
US8590050B2 (en) | Security compliant data storage management | |
CN105450734B (zh) | 分布式存储ceph的数据分布优化方法 | |
CN104657366B (zh) | 海量日志写入数据库的方法、装置和日志容灾系统 | |
CN103647850B (zh) | 一种分布式版本控制系统的数据处理方法、设备及系统 | |
CN104699723A (zh) | 数据交换适配器、异构系统之间数据同步系统和方法 | |
CN104331453A (zh) | 一种分布式文件系统及分布式文件系统的构建方法 | |
CN108427728A (zh) | 元数据的管理方法、设备及计算机可读介质 | |
US20170339251A1 (en) | Supporting interoperability in cloud environments | |
CN106909595A (zh) | 一种数据迁移方法及装置 | |
CN108604162A (zh) | 优化对生产数据的访问 | |
CN109697020A (zh) | 一种数据存储方法、服务器及系统 | |
CN111163149B (zh) | 一种基于区块链的智能合约平台方法 | |
CN106294842A (zh) | 一种数据交互方法、平台及分布式文件系统 | |
CN103942301A (zh) | 一种面向多数据类型访问应用的分布式文件系统 | |
CN105677579B (zh) | 缓存系统中的数据访问方法和系统 | |
CN104951528B (zh) | 一种数据迁移的方法及终端 | |
CN109413130A (zh) | 一种云存储系统 | |
CN103914223B (zh) | 终端应用界面的生成方法及装置 | |
CN107885582B (zh) | 异构容器集群迁移方法和控制器 | |
CN103617177A (zh) | 一种堆叠式重复数据删除文件系统 | |
CN105022779A (zh) | 一种利用Filesystem API实现HDFS文件存取方法 | |
CN103714179A (zh) | 一种系统日志的多语言支持方法和系统 | |
CN105488047B (zh) | 元数据读写方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161221 |
|
RJ01 | Rejection of invention patent application after publication |