CN105930417B - 一种基于云计算的大数据etl交互式处理平台 - Google Patents

一种基于云计算的大数据etl交互式处理平台 Download PDF

Info

Publication number
CN105930417B
CN105930417B CN201610242621.XA CN201610242621A CN105930417B CN 105930417 B CN105930417 B CN 105930417B CN 201610242621 A CN201610242621 A CN 201610242621A CN 105930417 B CN105930417 B CN 105930417B
Authority
CN
China
Prior art keywords
etl
server
data
cloud computing
platform based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610242621.XA
Other languages
English (en)
Other versions
CN105930417A (zh
Inventor
龚坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Creative Information Technology Co Ltd
Original Assignee
Creative Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Creative Information Technology Co Ltd filed Critical Creative Information Technology Co Ltd
Priority to CN201610242621.XA priority Critical patent/CN105930417B/zh
Publication of CN105930417A publication Critical patent/CN105930417A/zh
Application granted granted Critical
Publication of CN105930417B publication Critical patent/CN105930417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于云计算的大数据ETL交互式处理平台,包括云端服务器、数据采集服务器、ETL服务器、数据库服务器、应用服务器、以太网交换机、光纤交换机、zoopkeer集群和Hadoop集群;ETL服务器到Hadoop集群的输出口采用sqoop,ETL服务器采用mapreduce into和mapreduce output两个接口与Hadoop集群进行交互,将处理数据输入到Hadoop集群上,Hadoop集群上的数据再抽取到ETL中。本发明将Hadoop集群和MapReduce运用到ETL的处理过程中,提高了ETL在处理海量数据存储、抽取等操作效率,达到一种优化构造数据仓库的目的。

Description

一种基于云计算的大数据ETL交互式处理平台
技术领域
本发明涉及云计算技术领域,特别是涉及一种基于云计算的大数据ETL交互式处理平台。
背景技术
云计算系统能够提供海量存储、可靠服务,因此日益受到重视。在云基础设施中,由成千上万台互相连接在一起的计算机构成提供服务的“云”,大量的用户可以同时共享这块“云”,并根据自己的实际需求对所需资源进行剪裁。作为云数据处理中的一个重要组成部分,当前的云存储系统绝大部分都采用分布式散列表的方式来构建索引,数据被组织成键值对的形式。大数据是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
专利文献201520554128.2公开了一种大数据处理平台网络架构,包括核心层交换机,应用虚拟化服务器,数据库集群,存储阵列,备份服务器以及至少一交换机;所述应用虚拟化服务器,数据库集群,存储阵列以及备份服务器分别连接所述核心层交换机,所述存储阵列连接所述交换机,所述交换机分别连接所述应用虚拟化服务器和数据库集群。此技术方案满足了处理大数据所需要的硬件环境;而且具有开放性、扩展性。当前大量数据主要存储在传统的SQL数据库中,与大数据技术使用的NoSQL数据库有很大的不同,同时由于数据的多样性特点,使用大数据平台处理数据前,需要把数据导入大数据平台自己的存储系统,且在导入时一般需要进ETL(数据仓库技术)处理,完成各类数据的抽取,清洗,装载等过程。
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。传统的ETL工具是设置一个专有的转换引擎置于数据源和目标数据仓库之间,它用于运用所有的转换程序,这种方法解决了在不同系统平台上使用不同的编程语言的问题,只需要掌握ETL工具本身的编程语言即可。但是在数据转换过程中,专有引擎执行所有转换工作成为“瓶颈”。在引擎转换数据的时候,各个数据源需要一行接一行地经过转换引擎,最后存储到数据仓库中。这对与大量数据、多目标源的情况来说,是非常慢的。此外传统ETL的体系结构在应用到分布式ETL的过程中也存在数据不一致的问题。
发明内容
本发明的目的就在于克服现有技术的不足,提供一种基于云计算的大数据ETL交互式处理平台。
为了实现上述目的,本发明提供了一种基于云计算的大数据ETL交互式处理平台,包括云端服务器、数据采集服务器、ETL服务器、数据库服务器、应用服务器、以太网交换机、光纤交换机、zoopkeer集群、Hadoop集群,所述云端服务器与数据采集服务器相连接,所述数据采集服务器与ETL服务器相连接,所述数据采集服务器与zoopkeer集群相连接,所述ETL服务器与以太网交换机相连接,所述以太网交换机与数据库服务器相连接,所述数据库服务器与应用服务器相连接;所述ETL服务器与Hadoop集群相连接;所述ETL服务器到Hadoop集群的输出口采用Sqoop,所述ETL服务器采用MapReduce输入端和mapreduce输出端两个接口与Hadoop集群进行交互,ETL服务器将处理数据输入到Hadoop集群上,Hadoop集群上的数据再抽取到ETL服务器中。
所述ZooKeeper为开放源码的分布式应用程序协调服务,所述Hadoop为分布式系统的基础架构,所述Sqoop是用来将Hadoop和关系型数据库中的数据相互转移的工具,所述MapReduce为Map“映射”Reduce“归约”,是一种计算模型,用于大规模数据集的并行运算。
所述数据库服务器通过光纤交换机连接有存储阵列。
所述ETL服务器包括抽取器、加载器、转换器。
所述数据采集服务器包括四个组件,分别是数据采集服务组件、数据验证服务组件、数据采集任务分发组件和采集端组件。
所述ETL服务器设置有可视化的ETL过程配置管理模块和远程管理软件,提供给远程对ETL服务过程进行配置和管理。
所述数据采集服务器的功能是用于数据采集的认证和完成数据采集服务。
所述Zookeeper集群的功能是进行数据采集任务分发和数据验证。
所述ETL服务器的功能是负责数据抽取、数据装载、数据处理的配置、调度,提供相应的管理界面和后台服务。
所述应用服务器的功能是管理后台服务、负责页面的组织管理、认证、单点登录服务、提供权限管理界面和鉴权服务。
所述ETL服务器采用抽取数据之后先加载,再转换的方式处理,将数据转换过程在本地执行。
本发明的有益效果:
本发明提供一种基于云计算的大数据ETL交互式处理平台,取消了传统ETL工具中需要在源和目标之间使用的集线器,由于数据事先已经加载在本地利用SQL语言操作数据的批处理比一行接一行的数据处理方法速度上快1000次。在ETL结构中,所有的数据库引擎都可以参与一个转换,因而每一部分程序都是在最优的地方运行。
本发明将Hadoop集群和MapReduce运用到ETL的处理过程中,提高了ETL在处理海量数据存储、抽取等操作效率,从而达到一种优化构造数据仓库的目的。采取E-L-T的方式,即抽取数据之后先加载,再转换的方式,将转换过程在本地执行,这种方法可以减少网络的传输量、提高转换加载速度、扩展分布式装载、实现委托装载、支持所有类型的数据源,一定程度上解决了ETL的效率问题,加快了ETL的处理速度,提高了分布式数据仓库的整体效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的结构示意图;
图2为本发明ETL服务器的体系结构图;
图3为本发明MapReduce处理大数据集群的结构示意图。
具体实施方式
下面结合附图对发明进一步说明,但不用来限制本发明的范围。
如图1所示,本发明提供了一种基于云计算的大数据ETL交互式处理平台,包括云端服务器、数据采集服务器、ETL服务器、数据库服务器、应用服务器、以太网交换机、光纤交换机、zoopkeer集群和Hadoop集群;所述云端服务器与数据采集服务器相连接,所述数据采集服务器与ETL服务器相连接,所述数据采集服务器与zoopkeer集群相连接,所述ETL服务器与以太网交换机相连接,所述以太网交换机与数据库服务器相连接,所述数据库服务器与应用服务器相连接;所述ETL服务器与Hadoop集群相连接;所述ETL服务器到Hadoop集群的输出口采用Sqoop,所述ETL服务器采用MapReduce输入端和MapReduce输出端两个接口与Hadoop集群进行交互,ETL服务器将处理数据输入到Hadoop集群上,Hadoop集群上的数据再抽取到ETL服务器中。
所述数据库服务器通过光纤交换机连接有存储阵列。
所述数据采集服务器包括四个组件,分别是数据采集服务组件、数据验证服务组件、数据采集任务分发组件和采集端组件。
所述数据采集服务器的功能是用于数据采集的认证和完成数据采集服务。
所述Zookeeper集群的功能是进行数据采集任务分发和数据验证。
所述应用服务器的功能是管理后台服务、负责页面的组织管理、认证、单点登录服务、提供权限管理界面和鉴权服务。
具体实施时,数据采集服务器从云端服务器采集数据的的传输方式包括推模式和拉模式。
推模式:用户生成数据文件并通过FTP上传至数据验证服务组件,数据验证服务组件对数据进行验证,并返回验证结果,如果验证未通过告知责任人重新上传数据,当用户生成采集请求时,提交给数据采集服务组件,数据采集服务组件通过认证后,从数据验证服务组件获得采集的数据。
拉模式:当用户生成采集请求时,将采集请求提交给采集服务组件,如果通过认证,则采集服务组件将这一请求提交给验证服务组件,由验证服务组件通过Zookeeper集群分发任务给各个低端broker,broker将验证文件传递给验证服务组件进行验证,然后验证通过这broker直接将数据传递给请求用户主机。
如图2所示,所述ETL服务器包括抽取器、加载器、转换器,所述ETL服务器的功能是负责数据抽取、数据装载、数据处理的配置、调度,提供相应的管理界面和后台服务,所述ETL服务器设置有可视化的ETL过程配置管理模块和远程管理软件,提供给远程对ETL服务过程进行配置和管理。
数据采集服务器将数据输入到ETL服务器,ETL服务器采用抽取数据之后先加载,再转换的方式处理,将数据转换过程在本地执行。ETL服务器将处理的结果数据存放到Hadoop集群(HDFS)上,整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过Mapreduce来实现对分布式并行任务处理的程序支持,采用sqoop为云计算和大数据分布式文件系统的交互实现ETL到Hadoop集群的输出口。通过sqoop源码研究改进,我们可以将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。
Hadoop集群数据输入ETL:ETL接受存放在Hadoop群集上的文件作为ETL处理的原始输入文件,Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
如图3所示,采用MapReduce计算模型来进行,MapReduce把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。
在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;另一个是TaskTracker,JobTracker是用于调度工作的,TaskTracker是用于执行工作的,一个Hadoop集群中只有一台JobTracker,在分布式计算中,MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题,把处理过程高度抽象为两个函数:map和reduce,map负责把任务分解成多个任务,reduce负责把分解后多任务处理的结果汇总起来。
MapReduce处理过程:在Hadoop中,每个MapReduce任务都被初始化为一个Job,每个Job又可以分为两种阶段:map阶段和reduce阶段。这两个阶段分别用两个函数表示,即map函数和reduce函数。map函数接收一个<key,value>形式的输入,然后同样产生一个<key,value>形式的中间输出,Hadoop函数接收一个如<key,(list of values)>形式的输入,然后对这个value集合进行处理,每个reduce产生0或1个输出,reduce的输出也是<key,value>形式。
本发明将Hadoop集群和MapReduce运用到ETL的处理过程中,提高了ETL在处理海量数据存储、抽取等操作效率,从而达到一种优化构造数据仓库的目的。采取E-L-T的方式,即抽取数据之后先加载,再转换的方式,将转换过程在本地执行,这种方法可以减少网络的传输量、提高转换加载速度、扩展分布式装载、实现委托装载、支持所有类型的数据源,一定程度上解决了ETL的效率问题,加快了ETL的处理速度,提高了分布式数据仓库的整体效率。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims (9)

1.一种基于云计算的大数据ETL交互式处理平台,其特征在于:包括云端服务器、数据采集服务器、ETL服务器、数据库服务器、应用服务器、以太网交换机、光纤交换机、Zoopkeer集群和Hadoop集群;所述云端服务器与数据采集服务器相连接,所述数据采集服务器与ETL服务器相连接,所述数据采集服务器与Zoopkeer集群相连接,所述ETL服务器与以太网交换机相连接,所述以太网交换机与数据库服务器相连接,所述数据库服务器与应用服务器相连接;所述ETL服务器与Hadoop集群相连接;所述ETL服务器到Hadoop集群的输出口采用Sqoop,所述ETL服务器采用MapReduce输入端和MapReduce输出端两个接口与Hadoop集群进行交互,ETL服务器将处理数据输入到Hadoop集群上,Hadoop集群上的数据再抽取到ETL服务器中;
所述ETL服务器采用抽取数据之后先加载,再转换的方式处理,将数据转换过程在本地执行。
2.根据权利要求1所述的一种基于云计算的大数据ETL交互式处理平台,其特征在于:所述数据库服务器通过光纤交换机连接有存储阵列。
3.根据权利要求1所述的一种基于云计算的大数据ETL交互式处理平台,其特征在于:所述ETL服务器包括抽取器、加载器、转换器。
4.根据权利要求1所述的一种基于云计算的大数据ETL交互式处理平台,其特征在于:所述数据采集服务器包括四个组件,分别是数据采集服务组件、数据验证服务组件、数据采集任务分发组件和采集端组件。
5.根据权利要求1所述的一种基于云计算的大数据ETL交互式处理平台,其特征在于:所述ETL服务器设置有可视化的ETL过程配置管理模块和远程管理软件。
6.根据权利要求1所述的一种基于云计算的大数据ETL交互式处理平台,其特征在于:所述数据采集服务器的功能是用于数据采集的认证和完成数据采集服务。
7.根据权利要求1所述的一种基于云计算的大数据ETL交互式处理平台,其特征在于:所述Zoopkeer集群的功能是进行数据采集任务分发和数据验证。
8.根据权利要求1所述的一种基于云计算的大数据ETL交互式处理平台,其特征在于:所述ETL服务器的功能是负责数据抽取、数据装载、数据处理的配置、调度,提供相应的管理界面和后台服务。
9.根据权利要求1所述的一种基于云计算的大数据ETL交互式处理平台,其特征在于:所述应用服务器的功能是管理后台服务、负责页面的组织管理、认证、单点登录服务、提供权限管理界面和鉴权服务。
CN201610242621.XA 2016-04-18 2016-04-18 一种基于云计算的大数据etl交互式处理平台 Active CN105930417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610242621.XA CN105930417B (zh) 2016-04-18 2016-04-18 一种基于云计算的大数据etl交互式处理平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610242621.XA CN105930417B (zh) 2016-04-18 2016-04-18 一种基于云计算的大数据etl交互式处理平台

Publications (2)

Publication Number Publication Date
CN105930417A CN105930417A (zh) 2016-09-07
CN105930417B true CN105930417B (zh) 2019-11-26

Family

ID=56838502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610242621.XA Active CN105930417B (zh) 2016-04-18 2016-04-18 一种基于云计算的大数据etl交互式处理平台

Country Status (1)

Country Link
CN (1) CN105930417B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106533791B (zh) * 2016-12-12 2019-10-25 武汉烽火信息集成技术有限公司 一种基于大数据平台的端到端业务质量优化装置及方法
CN107145585A (zh) * 2017-05-10 2017-09-08 温州市鹿城区中津先进科技研究院 Hadoop数据仓库的自动导入数据方法及系统
CN107729533A (zh) * 2017-10-31 2018-02-23 国网四川省电力公司信息通信公司 一种基于云端发布技术的早会信息化支持系统
CN108595480B (zh) * 2018-03-13 2022-01-21 广州市优普科技有限公司 一种基于云计算的大数据etl工具系统及应用方法
CN111914007B (zh) * 2020-06-15 2024-02-02 武汉达梦数据库股份有限公司 一种hadoop集群运行ETL流程的方法及装置
CN112526974A (zh) * 2020-12-04 2021-03-19 中国航空工业集团公司成都飞机设计研究所 采用插件式管理架构的通用试验数据采集系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949175B2 (en) * 2012-04-17 2015-02-03 Turn Inc. Meta-data driven data ingestion using MapReduce framework
CN204887003U (zh) * 2015-07-28 2015-12-16 深圳市华傲数据技术有限公司 大数据处理平台网络架构
CN105389402A (zh) * 2015-12-29 2016-03-09 曙光信息产业(北京)有限公司 一种面向大数据的etl方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949175B2 (en) * 2012-04-17 2015-02-03 Turn Inc. Meta-data driven data ingestion using MapReduce framework
CN204887003U (zh) * 2015-07-28 2015-12-16 深圳市华傲数据技术有限公司 大数据处理平台网络架构
CN105389402A (zh) * 2015-12-29 2016-03-09 曙光信息产业(北京)有限公司 一种面向大数据的etl方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于MapReduce的分布式ETL体系结构研究;宋杰 等;《计算机科学》;20130615;第40卷(第6期);152-154 *
基于Mapreduce的数据挖掘平台设计与实现;黄斌 等;《计算机工程与设计》;20130216;第34卷(第2期);495-501 *

Also Published As

Publication number Publication date
CN105930417A (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
CN105930417B (zh) 一种基于云计算的大数据etl交互式处理平台
KR101621137B1 (ko) 아파치 하둡을 위한 로우 레이턴시 쿼리 엔진
CN106599197B (zh) 数据采集交换引擎
Padhy Big data processing with Hadoop-MapReduce in cloud systems
CN107679192A (zh) 多集群协同数据处理方法、系统、存储介质及设备
CN108932588B (zh) 一种前后端分离的水电站群优化调度系统及方法
CN105824957A (zh) 分布式内存列式数据库的查询引擎系统及查询方法
CN103399942B (zh) 一种支持SaaS多租户的数据引擎系统及其工作方法
US20160103702A1 (en) Low latency architecture with directory service for integration of transactional data system with analytical data structures
Ngu et al. B+-tree construction on massive data with Hadoop
JP2014194769A6 (ja) Apache hadoop用の低レイテンシクエリエンジン
CN107710200A (zh) 用于并行化smp数据库中的基于散列的运算符的系统和方法
CN104111996A (zh) 基于hadoop平台的医保门诊大数据抽取系统及方法
CN103309958A (zh) Gpu和cpu混合架构下的olap星型连接查询优化方法
CN105574082A (zh) 基于Storm的流处理方法及系统
CN103605698A (zh) 一种用于分布异构数据资源整合的云数据库系统
CN107220310A (zh) 一种数据库数据管理系统、方法及装置
CN103646073A (zh) 一种基于HBase表的条件查询优化方法
CN107193898B (zh) 基于分级复用的日志数据流的查询共享方法和系统
CN107609061A (zh) 一种数据同步的方法和装置
CN107247799A (zh) 兼容多种大数据存储的数据处理方法、系统及其建模方法
CN106708917A (zh) 一种数据处理方法、装置以及olap系统
CN114297173B (zh) 一种面向大规模海量数据的知识图谱构建方法和系统
CN103646051A (zh) 一种基于列存储的大数据并行处理系统及方法
CN108170535A (zh) 一种基于MapReduce模型的提升表连接效率的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 610000 room 99, Liyang 7-9, Vanward Road, Qingyang District, Chengdu, Sichuan.

Applicant after: Creative Information Technology Co., Ltd.

Address before: No. 28 West Road core high tech Zone of Chengdu City, Sichuan province 610000

Applicant before: Sichuan Troy Information Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant