CN105930417B

CN105930417B - 一种基于云计算的大数据etl交互式处理平台

Info

Publication number: CN105930417B
Application number: CN201610242621.XA
Authority: CN
Inventors: 龚坤
Original assignee: Creative Information Technology Co Ltd
Current assignee: Creative Information Technology Co Ltd
Priority date: 2016-04-18
Filing date: 2016-04-18
Publication date: 2019-11-26
Anticipated expiration: 2036-04-18
Also published as: CN105930417A

Abstract

本发明公开一种基于云计算的大数据ETL交互式处理平台，包括云端服务器、数据采集服务器、ETL服务器、数据库服务器、应用服务器、以太网交换机、光纤交换机、zoopkeer集群和Hadoop集群；ETL服务器到Hadoop集群的输出口采用sqoop，ETL服务器采用mapreduce into和mapreduce output两个接口与Hadoop集群进行交互，将处理数据输入到Hadoop集群上，Hadoop集群上的数据再抽取到ETL中。本发明将Hadoop集群和MapReduce运用到ETL的处理过程中，提高了ETL在处理海量数据存储、抽取等操作效率，达到一种优化构造数据仓库的目的。

Description

一种基于云计算的大数据ETL交互式处理平台

技术领域

本发明涉及云计算技术领域，特别是涉及一种基于云计算的大数据ETL交互式处理平台。

背景技术

云计算系统能够提供海量存储、可靠服务，因此日益受到重视。在云基础设施中，由成千上万台互相连接在一起的计算机构成提供服务的“云”，大量的用户可以同时共享这块“云”，并根据自己的实际需求对所需资源进行剪裁。作为云数据处理中的一个重要组成部分，当前的云存储系统绝大部分都采用分布式散列表的方式来构建索引，数据被组织成键值对的形式。大数据是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

专利文献201520554128.2公开了一种大数据处理平台网络架构，包括核心层交换机，应用虚拟化服务器，数据库集群，存储阵列，备份服务器以及至少一交换机；所述应用虚拟化服务器，数据库集群，存储阵列以及备份服务器分别连接所述核心层交换机，所述存储阵列连接所述交换机，所述交换机分别连接所述应用虚拟化服务器和数据库集群。此技术方案满足了处理大数据所需要的硬件环境；而且具有开放性、扩展性。当前大量数据主要存储在传统的SQL数据库中，与大数据技术使用的NoSQL数据库有很大的不同，同时由于数据的多样性特点，使用大数据平台处理数据前，需要把数据导入大数据平台自己的存储系统，且在导入时一般需要进ETL(数据仓库技术)处理，完成各类数据的抽取，清洗，装载等过程。

ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。传统的ETL工具是设置一个专有的转换引擎置于数据源和目标数据仓库之间，它用于运用所有的转换程序，这种方法解决了在不同系统平台上使用不同的编程语言的问题，只需要掌握ETL工具本身的编程语言即可。但是在数据转换过程中，专有引擎执行所有转换工作成为“瓶颈”。在引擎转换数据的时候，各个数据源需要一行接一行地经过转换引擎，最后存储到数据仓库中。这对与大量数据、多目标源的情况来说，是非常慢的。此外传统ETL的体系结构在应用到分布式ETL的过程中也存在数据不一致的问题。

发明内容

本发明的目的就在于克服现有技术的不足，提供一种基于云计算的大数据ETL交互式处理平台。

为了实现上述目的，本发明提供了一种基于云计算的大数据ETL交互式处理平台，包括云端服务器、数据采集服务器、ETL服务器、数据库服务器、应用服务器、以太网交换机、光纤交换机、zoopkeer集群、Hadoop集群，所述云端服务器与数据采集服务器相连接，所述数据采集服务器与ETL服务器相连接，所述数据采集服务器与zoopkeer集群相连接，所述ETL服务器与以太网交换机相连接，所述以太网交换机与数据库服务器相连接，所述数据库服务器与应用服务器相连接；所述ETL服务器与Hadoop集群相连接；所述ETL服务器到Hadoop集群的输出口采用Sqoop，所述ETL服务器采用MapReduce输入端和mapreduce输出端两个接口与Hadoop集群进行交互，ETL服务器将处理数据输入到Hadoop集群上，Hadoop集群上的数据再抽取到ETL服务器中。

所述ZooKeeper为开放源码的分布式应用程序协调服务，所述Hadoop为分布式系统的基础架构，所述Sqoop是用来将Hadoop和关系型数据库中的数据相互转移的工具，所述MapReduce为Map“映射”Reduce“归约”，是一种计算模型，用于大规模数据集的并行运算。

所述数据库服务器通过光纤交换机连接有存储阵列。

所述ETL服务器包括抽取器、加载器、转换器。

所述数据采集服务器包括四个组件，分别是数据采集服务组件、数据验证服务组件、数据采集任务分发组件和采集端组件。

所述ETL服务器设置有可视化的ETL过程配置管理模块和远程管理软件，提供给远程对ETL服务过程进行配置和管理。

所述数据采集服务器的功能是用于数据采集的认证和完成数据采集服务。

所述Zookeeper集群的功能是进行数据采集任务分发和数据验证。

所述ETL服务器的功能是负责数据抽取、数据装载、数据处理的配置、调度，提供相应的管理界面和后台服务。

所述应用服务器的功能是管理后台服务、负责页面的组织管理、认证、单点登录服务、提供权限管理界面和鉴权服务。

所述ETL服务器采用抽取数据之后先加载，再转换的方式处理，将数据转换过程在本地执行。

本发明的有益效果：

本发明提供一种基于云计算的大数据ETL交互式处理平台，取消了传统ETL工具中需要在源和目标之间使用的集线器，由于数据事先已经加载在本地利用SQL语言操作数据的批处理比一行接一行的数据处理方法速度上快1000次。在ETL结构中，所有的数据库引擎都可以参与一个转换，因而每一部分程序都是在最优的地方运行。

本发明将Hadoop集群和MapReduce运用到ETL的处理过程中，提高了ETL在处理海量数据存储、抽取等操作效率，从而达到一种优化构造数据仓库的目的。采取E-L-T的方式，即抽取数据之后先加载，再转换的方式，将转换过程在本地执行，这种方法可以减少网络的传输量、提高转换加载速度、扩展分布式装载、实现委托装载、支持所有类型的数据源，一定程度上解决了ETL的效率问题，加快了ETL的处理速度，提高了分布式数据仓库的整体效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的结构示意图；

图2为本发明ETL服务器的体系结构图；

图3为本发明MapReduce处理大数据集群的结构示意图。

具体实施方式

下面结合附图对发明进一步说明，但不用来限制本发明的范围。

如图1所示，本发明提供了一种基于云计算的大数据ETL交互式处理平台，包括云端服务器、数据采集服务器、ETL服务器、数据库服务器、应用服务器、以太网交换机、光纤交换机、zoopkeer集群和Hadoop集群；所述云端服务器与数据采集服务器相连接，所述数据采集服务器与ETL服务器相连接，所述数据采集服务器与zoopkeer集群相连接，所述ETL服务器与以太网交换机相连接，所述以太网交换机与数据库服务器相连接，所述数据库服务器与应用服务器相连接；所述ETL服务器与Hadoop集群相连接；所述ETL服务器到Hadoop集群的输出口采用Sqoop，所述ETL服务器采用MapReduce输入端和MapReduce输出端两个接口与Hadoop集群进行交互，ETL服务器将处理数据输入到Hadoop集群上，Hadoop集群上的数据再抽取到ETL服务器中。

所述数据库服务器通过光纤交换机连接有存储阵列。

具体实施时，数据采集服务器从云端服务器采集数据的的传输方式包括推模式和拉模式。

推模式：用户生成数据文件并通过FTP上传至数据验证服务组件，数据验证服务组件对数据进行验证，并返回验证结果，如果验证未通过告知责任人重新上传数据，当用户生成采集请求时，提交给数据采集服务组件，数据采集服务组件通过认证后，从数据验证服务组件获得采集的数据。

拉模式:当用户生成采集请求时，将采集请求提交给采集服务组件，如果通过认证，则采集服务组件将这一请求提交给验证服务组件，由验证服务组件通过Zookeeper集群分发任务给各个低端broker，broker将验证文件传递给验证服务组件进行验证，然后验证通过这broker直接将数据传递给请求用户主机。

如图2所示，所述ETL服务器包括抽取器、加载器、转换器,所述ETL服务器的功能是负责数据抽取、数据装载、数据处理的配置、调度，提供相应的管理界面和后台服务，所述ETL服务器设置有可视化的ETL过程配置管理模块和远程管理软件，提供给远程对ETL服务过程进行配置和管理。

数据采集服务器将数据输入到ETL服务器，ETL服务器采用抽取数据之后先加载，再转换的方式处理，将数据转换过程在本地执行。ETL服务器将处理的结果数据存放到Hadoop集群(HDFS)上，整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持，并通过Mapreduce来实现对分布式并行任务处理的程序支持，采用sqoop为云计算和大数据分布式文件系统的交互实现ETL到Hadoop集群的输出口。通过sqoop源码研究改进，我们可以将数据从关系数据库导入到HDFS，或者将数据从HDFS导出到关系数据库。

Hadoop集群数据输入ETL：ETL接受存放在Hadoop群集上的文件作为ETL处理的原始输入文件，Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

如图3所示，采用MapReduce计算模型来进行，MapReduce把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。

在Hadoop中，用于执行MapReduce任务的机器角色有两个：一个是JobTracker；另一个是TaskTracker，JobTracker是用于调度工作的，TaskTracker是用于执行工作的，一个Hadoop集群中只有一台JobTracker，在分布式计算中，MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题，把处理过程高度抽象为两个函数：map和reduce，map负责把任务分解成多个任务，reduce负责把分解后多任务处理的结果汇总起来。

MapReduce处理过程：在Hadoop中，每个MapReduce任务都被初始化为一个Job，每个Job又可以分为两种阶段：map阶段和reduce阶段。这两个阶段分别用两个函数表示，即map函数和reduce函数。map函数接收一个<key,value>形式的输入，然后同样产生一个<key,value>形式的中间输出，Hadoop函数接收一个如<key,(list of values)>形式的输入，然后对这个value集合进行处理，每个reduce产生0或1个输出，reduce的输出也是<key,value>形式。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于云计算的大数据ETL交互式处理平台，其特征在于：包括云端服务器、数据采集服务器、ETL服务器、数据库服务器、应用服务器、以太网交换机、光纤交换机、Zoopkeer集群和Hadoop集群；所述云端服务器与数据采集服务器相连接，所述数据采集服务器与ETL服务器相连接，所述数据采集服务器与Zoopkeer集群相连接，所述ETL服务器与以太网交换机相连接，所述以太网交换机与数据库服务器相连接，所述数据库服务器与应用服务器相连接；所述ETL服务器与Hadoop集群相连接；所述ETL服务器到Hadoop集群的输出口采用Sqoop，所述ETL服务器采用MapReduce输入端和MapReduce输出端两个接口与Hadoop集群进行交互，ETL服务器将处理数据输入到Hadoop集群上，Hadoop集群上的数据再抽取到ETL服务器中；

2.根据权利要求1所述的一种基于云计算的大数据ETL交互式处理平台，其特征在于：所述数据库服务器通过光纤交换机连接有存储阵列。

3.根据权利要求1所述的一种基于云计算的大数据ETL交互式处理平台，其特征在于：所述ETL服务器包括抽取器、加载器、转换器。

4.根据权利要求1所述的一种基于云计算的大数据ETL交互式处理平台，其特征在于：所述数据采集服务器包括四个组件，分别是数据采集服务组件、数据验证服务组件、数据采集任务分发组件和采集端组件。

5.根据权利要求1所述的一种基于云计算的大数据ETL交互式处理平台，其特征在于：所述ETL服务器设置有可视化的ETL过程配置管理模块和远程管理软件。

6.根据权利要求1所述的一种基于云计算的大数据ETL交互式处理平台，其特征在于：所述数据采集服务器的功能是用于数据采集的认证和完成数据采集服务。

7.根据权利要求1所述的一种基于云计算的大数据ETL交互式处理平台，其特征在于：所述Zoopkeer集群的功能是进行数据采集任务分发和数据验证。

8.根据权利要求1所述的一种基于云计算的大数据ETL交互式处理平台，其特征在于：所述ETL服务器的功能是负责数据抽取、数据装载、数据处理的配置、调度，提供相应的管理界面和后台服务。

9.根据权利要求1所述的一种基于云计算的大数据ETL交互式处理平台，其特征在于：所述应用服务器的功能是管理后台服务、负责页面的组织管理、认证、单点登录服务、提供权限管理界面和鉴权服务。