CN107871013A

CN107871013A - 一种海量数据高效抽取方法

Info

Publication number: CN107871013A
Application number: CN201711181459.6A
Authority: CN
Inventors: 石文威
Original assignee: Anhui Kechuang Wisdom Intellectual Property Services Co Ltd
Current assignee: Anhui Kechuang Wisdom Intellectual Property Services Co Ltd
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2018-04-03

Abstract

本发明公开了一种海量数据高效抽取方法，包括，步骤1，使用Golden Gate提取数据；利用Golden Gate解析Oracle的日志文件，提取出初始数据及发生变化的增量数据；步骤2，用MapReduce并行计算引擎加快处理速度；使用Hadoop大数据平台的MapReduce并行计算框架，来加速装载抽取出的数据；步骤3，将数据装载进HBase；采用多节点并行写入，直接生成HBase数据的存储格式文件。本发明提供了一种基于日志的结构化数据复制方式，可以从在线日志中准实时地抓取变化的数据，并将变化的数据保存在Trail格式的文件中。其优势在于通过对日志文件的分析实现变化数据的抓取只会占用很小的系统资源，特别是当Oracle中存储的数据量极大、Oracle系统负载很重时基本不会影响Oracle的运行效率。

Description

一种海量数据高效抽取方法

技术领域

本发明涉及大数据领域，具体涉及一种海量数据高效抽取方法。

背景技术

数据发展历程上出现过类似的术语有超大规模数据、海量数据等。“超大规模”一般表示对应GB(1GB＝1024MB)的数据，“海量”一般表示的是TB(1TB＝1024GB)级的数据，而现在的“大数据”则是PB(1PB＝1024TB)、EB(1EB＝1024PB)、甚至ZB(1ZB＝1024EB)级别以上的数据。2013年Gartner预测世界上存储的数据将达到1.2ZB，如果将这些数据刻录到 CD-R只读光盘上，并堆起来，其高度将是地球到月球距离的5倍。不同规模的背后隐含的是不同的技术问题或挑战性研究难题。

大数据(big data)，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在日新月异的IT业界，各个企业对大数据都有着自己不同的解读.但大家都普遍认为，大数据有着4“V”特征，即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低)：

(1)量大(Volume Big)。数据量级已从TB(210GB)发展至PB(210TB)乃至ZB(220PB)，可称海量、巨量乃至超量。

(2)多样化(Variable Type)。数据类型繁多，愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。

(3)快速化(Velocity Fast)。数据流往往为高速实时数据流，而且往往需要快速、持续的实时处理；处理工具亦在快速演进，软件工程及人工智能等均可能介入。

(4)价值高和密度低(Value Highand Low Density)。以视频安全监控为例，连续不断的监控流中，有重大价值者可能仅为一两秒的数据流；360°全方位视频监控的“死角”处，可能会挖掘出最有价值的图像信息。

(5)复查Complexity：处理和分析的难度非常大。

现有技术中的数据抽取对数据系统资源的占用较大。

发明内容

本发明所要解决的技术问题是现有技术中的数据抽取对数据系统资源的占用较大，目的在于提供一种海量数据高效抽取方法，实现对数据源系统资源占用的最小化。

本发明通过下述技术方案实现：

一种海量数据高效抽取方法，包括，

步骤1，使用Golden Gate提取数据；利用Golden Gate解析Oracle的日志文件，提取出初始数据及发生变化的增量数据；

步骤2，用MapReduce并行计算引擎加快处理速度；使用Hadoop大数据平台的MapReduce 并行计算框架，来加速装载抽取出的数据；

步骤3，将数据装载进HBase；采用多节点并行写入，直接生成HBase数据的存储格式文件。

进一步地，步骤3中采取批量导入的方法来装载数据。

进一步地，步骤1中的增量数据包括插入数据、更新数据和删除数据。

Golden Gate并没有提供对Hadoop集群的直接支持，但是提供了将Trail文件解析为平面文件(Flat File)的功能。而平面文件是可以被Hadoop识别的。Oracle中数据的变化情况一般可以分为三类：插入数据、更新数据和删除数据。因此，对于这三类情况，我们在解析Oracle 的变化数据时，将这三类数据分别解析到各自的文件中，例如用后缀I代表插入的数据 (Insert)，用后缀D代表删除的数据(Delete)，用U代表更新的数据(Update)。

由于导出的原始数据往往非常大，如果继续使用传统的串行方法进行数据装载，那么装载过程将会很漫长。因此，我们使用Hadoop大数据平台的MapReduce并行计算框架，来加速装载抽取出的数据。MapReduce计算框架将输入的数据分为多个块(block)存储在多个计算节点上，每个节点只计算本节点上的数据。在每个节点的计算完成之后，将结果输出到 MapReduce框架中。MapReduce框架自动汇聚(Aggregate)这些数据并进行排序，最后将最终的结果输出到HDFS中。在这一过程中，多个节点的计算过程是同时进行的，因此整个计算与串行计算相比，速度会大大提高，且计算的时间将与计算节点的数量成反比。

NoSQL数据库可以存储相当大的数据，但是如果采用单客户端来加载数据，则吞吐量会受到单机的带宽及磁盘等硬件的限制。此外，NoSQL数据库往往采取复杂的机制来保证数据的健壮性及一致性，数据的写入会经历一个复杂而耗时的过程。例如，HBase在写入数据时，会首先将数据写入预写日志文件(WAL,Write-Ahead Log)，然后将数据写入到缓存区域 (MemStore)中，等到缓存区域满了之后才将其中的数据一次性地写入到磁盘里。因此，为了加快数据导入的速度，我们一方面采用多节点并行写入，另一方面直接生成HBase数据的存储格式文件，即采取批量导入(Bulkload)的方法来装载数据。

本发明与现有技术相比，具有如下的优点和有益效果：本发明利用Golden Gate提取变化数据。Golden Gate可实现秒级的数据捕捉、转换和投递，提供了一种基于日志的结构化数据复制方式，可以从在线日志中准实时地抓取变化的数据，并将变化的数据保存在Trail格式的文件中。其优势在于通过对日志文件的分析实现变化数据的抓取只会占用很小的系统资源，特别是当Oracle中存储的数据量极大、Oracle系统负载很重时基本不会影响Oracle的运行效率。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

一种海量数据高效抽取方法，包括，

步骤3中采取批量导入的方法来装载数据。

步骤1中的增量数据包括插入数据、更新数据和删除数据。

1、利用Golden Gate提取变化数据。Golden Gate可实现秒级的数据捕捉、转换和投递，提供了一种基于日志的结构化数据复制方式，可以从在线日志中准实时地抓取变化的数据，并将变化的数据保存在Trail格式的文件中。其优势在于通过对日志文件的分析实现变化数据的抓取只会占用很小的系统资源，特别是当Oracle中存储的数据量极大、Oracle系统负载很重时基本不会影响Oracle的运行效率。

2、在大数据平台实现数据的清洗、转换和存储。对于Golden Gate提取出的数据，首先将其以半结构化的数据形式存储在HDFS中，然后根据规则对数据进行清洗和转换、过滤异常数据，并转换成更适合HBase存储的格式。为了加快数据装载到HBase的速度，采用了批量导入(Bulkload)数据的方式，即利用MapReduce并行计算引擎直接生成HBase能够识别的HFile文件，大大缩短了数据入库的时间。

3、使用Tomcat作为Web Server提供Web层的访问服务。由于Oracle和CDH大数据平台处于两个不同的集群中，因此以Web服务作为中间通道可以方便地连接这两个集群，例如在集群间传递指令、查询并展现集群中的数据等。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种海量数据高效抽取方法，其特征在于，包括，

步骤2，用MapReduce并行计算引擎加快处理速度；使用Hadoop大数据平台的MapReduce并行计算框架，来加速装载抽取出的数据；

2.根据权利要求1所述的一种海量数据高效抽取方法，其特征在于，所述步骤3中采取批量导入的方法来装载数据。

3.根据权利要求1所述的一种海量数据高效抽取方法，其特征在于，所述步骤1中的增量数据包括插入数据、更新数据和删除数据。