CN106250571A

CN106250571A - 一种etl数据处理的方法及系统

Info

Publication number: CN106250571A
Application number: CN201610886270.6A
Authority: CN
Inventors: 温宗臣; 张翼; 何良均; 范卫卫; 冯森林; 李冰; 曾攀; 严亮; 张书凡
Original assignee: BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Current assignee: BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2016-12-21

Abstract

本发明公开了一种ETL数据处理的方法，其能够实现从多个源头读取原始数据，向多个异构存储系统同步数据，可以大大提升ETL研发的速度和数据交换的效率。该方法包括：(1)配置ETL系统的读插件，每一种读插件对应一个异构的数据源，读插件是开放的；(2)配置ETL系统的写插件，每一种写插件对应一个异构的目标存储系统，写插件也是开放的；(3)每一个ETL任务具有其对应的配置文件，任务驱动器通过配置文件中的配置信息加载相关的读写插件，完成数据多读和多写的并发执行。还有ETL数据处理的系统。

Description

一种ETL数据处理的方法及系统

技术领域

本发明涉及大数据处理的技术领域，尤其涉及一种ETL数据处理的方法，以及ETL数据处理的系统。

背景技术hdfs Hadoop Distributed File System或者Hadoop数据库hbase

ETL是英文Extract-Transform-Load的缩写，其用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

中国专利申请号2014106820339，公开了一种ETL数据采集方法和装置。但是，目前的技术只能适应一读一写或者多读一写的ETL场景，还没有出现支持多写的技术方案。如果要在两个异构的存储平台上存放同一份ETL结果数据，必须先在一个平台上落地之后，再通过数据交换的工具同步到另外一个平台，或者同时启动两个不同的ETL过程，效率比较低下。

而且，现有ETL系统一般与业务深度结合，只能在某一个场景下应用，与业务耦合度非常高，导致整个系统不够灵活，不容易被复用。

在收集业务系统日志或者接入外部数据源时，往往会面临设计通用的高效ETL的问题，并且需要把处理后的数据落地到多个异构的系统中，如何一次性解决数据同步的问题，需要在现有的ETL框架基础上进一步创新设计。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种ETL数据处理的方法，其能够实现从多个源头读取原始数据，向多个异构存储系统同步数据，可以大大提升ETL研发的速度和数据交换的效率。

本发明的技术方案是：这种ETL数据处理的方法，该方法包括以下步骤：

(1)配置ETL系统的读插件，每一种读插件对应一个异构的数据源，读插件是开放的；

(2)配置ETL系统的写插件，每一种写插件对应一个异构的目标存储系统，写插件也是开放的；

(3)每一个ETL任务具有其对应的配置文件，任务驱动器通过配置文件中的配置信息加载相关的读写插件，完成数据多读和多写的并发执行。

本发明通过配置ETL系统的读插件、写插件，任务驱动器通过配置文件中的配置信息加载相关的读写插件，完成数据多读和多写的并发执行，从而能够实现从多个源头读取原始数据，向多个异构存储系统同步数据，可以大大提升ETL研发的速度和数据交换的效率。

还提供了一种ETL数据处理的系统，该系统包括：

第一配置模块，其配置ETL系统的读插件，每一种读插件对应一个异构的数据源，读插件是开放的；

第二配置模块，其配置ETL系统的写插件，每一种写插件对应一个异构的目标存储系统，写插件也是开放的；

任务驱动器，其配置来执行读写插件的加载、数据分发策略以及流程控制，每一个ETL任务都有其对应的配置文件，任务驱动器通过配置文件中的配置信息加载相关的读写插件，完成数据多读和多写的并发执行。

附图说明

图1所示为根据本发明的ETL数据处理的方法的流程图。

具体实施方式

如图1所示，这种ETL数据处理的方法，该方法包括以下步骤：

另外，所述步骤(1)中通过实现接口的方式来添加新的读插件。

另外，所述步骤(2)中通过实现接口的方式来添加新的写插件。

另外，在海量数据的情况下，本方法部署到storm集群中，由storm中的topology来负责数据的多读和多写，把数据落地到Hadoop分布式文件系统hdfs或者Hadoop数据库hbase。

另外，在小数据量的场景下，在单机环境中执行本方法的单机版本，把数据落地到Hadoop分布式文件系统hdfs或者Hadoop数据库hbase。。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而所述的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。因此，与本发明的方法相对应的，本发明还同时包括一种ETL数据处理的系统，该系统通常以与方法各步骤相对应的功能模块的形式表示。使用该方法的系统，该系统包括：

另外，所述第一配置模块中通过实现接口的方式来添加新的读插件。

另外，所述第二配置模块中通过实现接口的方式来添加新的写插件。

另外，在海量数据的情况下，本系统部署到storm集群中，由storm中的topology来负责数据的多读和多写，把数据落地到Hadoop分布式文件系统hdfs或者Hadoop数据库hbase。

另外，在小数据量的场景下，在单机环境中执行本方法的单机版本，把数据落地到Hadoop分布式文件系统hdfs或者Hadoop数据库hbase。

本发明的有益效果如下：

1.多写特性，可以同时对多个异构存储系统发出写请求，提升数据转换效率。

2.读写模块可插拔，一次研发，多次复用。

3.ETL任务数据源与目标存储系统的可配置化特性。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种ETL数据处理的方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的ETL数据处理的方法，其特征在于：所述步骤(1)中通过实现接口的方式来添加新的读插件。

3.根据权利要求2所述的ETL数据处理的方法，其特征在于：所述步骤(2)中通过实现接口的方式来添加新的写插件。

4.根据权利要求3所述的ETL数据处理的方法，其特征在于：在海量数据的情况下，本方法部署到storm集群中，由storm中的topology来负责数据的多读和多写，把数据落地到Hadoop分布式文件系统hdfs或者Hadoop数据库hbase。

5.根据权利要求3所述的ETL数据处理的方法，其特征在于：在小数据量的场景下，在单机环境中执行本方法的单机版本，把数据落地到Hadoop分布式文件系统hdfs或者Hadoop数据库hbase。

6.一种ETL数据处理的系统，其特征在于：该系统包括：第一配置模块，其配置ETL系统的读插件，每一种读插件对应一个异构的数据源，读插件是开放的；第二配置模块，其配置ETL系统的写插件，每一种写插件对应一个异构的目标存储系统，写插件也是开放的；

7.根据权利要求6所述的ETL数据处理的系统，其特征在于：所述第一配置模块中通过实现接口的方式来添加新的读插件。

8.根据权利要求7所述的ETL数据处理的系统，其特征在于：所述第二配置模块中通过实现接口的方式来添加新的写插件。

9.根据权利要求8所述的ETL数据处理的系统，其特征在于：在海量数据的情况下，本系统部署到storm集群中，由storm中的topology来负责数据的多读和多写，把数据落地到Hadoop分布式文件系统hdfs或者Hadoop数据库hbase。

10.根据权利要求8所述的ETL数据处理的系统，其特征在于：在小数据量的场景下，在单机环境中执行本方法的单机版本，把数据落地到Hadoop分布式文件系统hdfs或者Hadoop数据库hbase。