CN107871013A - 一种海量数据高效抽取方法 - Google Patents

一种海量数据高效抽取方法 Download PDF

Info

Publication number
CN107871013A
CN107871013A CN201711181459.6A CN201711181459A CN107871013A CN 107871013 A CN107871013 A CN 107871013A CN 201711181459 A CN201711181459 A CN 201711181459A CN 107871013 A CN107871013 A CN 107871013A
Authority
CN
China
Prior art keywords
data
oracle
hbase
extracted
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201711181459.6A
Other languages
English (en)
Inventor
石文威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Kechuang Wisdom Intellectual Property Services Co Ltd
Original Assignee
Anhui Kechuang Wisdom Intellectual Property Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Kechuang Wisdom Intellectual Property Services Co Ltd filed Critical Anhui Kechuang Wisdom Intellectual Property Services Co Ltd
Priority to CN201711181459.6A priority Critical patent/CN107871013A/zh
Publication of CN107871013A publication Critical patent/CN107871013A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种海量数据高效抽取方法,包括,步骤1,使用Golden Gate提取数据;利用Golden Gate解析Oracle的日志文件,提取出初始数据及发生变化的增量数据;步骤2,用MapReduce并行计算引擎加快处理速度;使用Hadoop大数据平台的MapReduce并行计算框架,来加速装载抽取出的数据;步骤3,将数据装载进HBase;采用多节点并行写入,直接生成HBase数据的存储格式文件。本发明提供了一种基于日志的结构化数据复制方式,可以从在线日志中准实时地抓取变化的数据,并将变化的数据保存在Trail格式的文件中。其优势在于通过对日志文件的分析实现变化数据的抓取只会占用很小的系统资源,特别是当Oracle中存储的数据量极大、Oracle系统负载很重时基本不会影响Oracle的运行效率。

Description

一种海量数据高效抽取方法
技术领域
本发明涉及大数据领域,具体涉及一种海量数据高效抽取方法。
背景技术
数据发展历程上出现过类似的术语有超大规模数据、海量数据等。“超大规模”一般表示对应GB(1GB=1024MB)的数据,“海量”一般表示的是TB(1TB=1024GB)级的数据,而现在的“大数据”则是PB(1PB=1024TB)、EB(1EB=1024PB)、甚至ZB(1ZB=1024EB)级别以上的数据。2013年Gartner预测世界上存储的数据将达到1.2ZB,如果将这些数据刻录到 CD-R只读光盘上,并堆起来,其高度将是地球到月球距离的5倍。不同规模的背后隐含的是不同的技术问题或挑战性研究难题。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在日新月异的IT业界,各个企业对大数据都有着自己不同的解读.但大家都普遍认为,大数据有着4“V”特征,即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低):
(1)量大(Volume Big)。数据量级已从TB(210GB)发展至PB(210TB)乃至ZB(220PB),可称海量、巨量乃至超量。
(2)多样化(Variable Type)。数据类型繁多,愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。
(3)快速化(Velocity Fast)。数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理;处理工具亦在快速演进,软件工程及人工智能等均可能介入。
(4)价值高和密度低(Value Highand Low Density)。以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流;360°全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。
(5)复查Complexity:处理和分析的难度非常大。
现有技术中的数据抽取对数据系统资源的占用较大。
发明内容
本发明所要解决的技术问题是现有技术中的数据抽取对数据系统资源的占用较大,目的在于提供一种海量数据高效抽取方法,实现对数据源系统资源占用的最小化。
本发明通过下述技术方案实现:
一种海量数据高效抽取方法,包括,
步骤1,使用Golden Gate提取数据;利用Golden Gate解析Oracle的日志文件,提取出初始数据及发生变化的增量数据;
步骤2,用MapReduce并行计算引擎加快处理速度;使用Hadoop大数据平台的MapReduce 并行计算框架,来加速装载抽取出的数据;
步骤3,将数据装载进HBase;采用多节点并行写入,直接生成HBase数据的存储格式文件。
进一步地,步骤3中采取批量导入的方法来装载数据。
进一步地,步骤1中的增量数据包括插入数据、更新数据和删除数据。
Golden Gate并没有提供对Hadoop集群的直接支持,但是提供了将Trail文件解析为平面文件(Flat File)的功能。而平面文件是可以被Hadoop识别的。Oracle中数据的变化情况一般可以分为三类:插入数据、更新数据和删除数据。因此,对于这三类情况,我们在解析Oracle 的变化数据时,将这三类数据分别解析到各自的文件中,例如用后缀I代表插入的数据 (Insert),用后缀D代表删除的数据(Delete),用U代表更新的数据(Update)。
由于导出的原始数据往往非常大,如果继续使用传统的串行方法进行数据装载,那么装载过程将会很漫长。因此,我们使用Hadoop大数据平台的MapReduce并行计算框架,来加速装载抽取出的数据。MapReduce计算框架将输入的数据分为多个块(block)存储在多个计算节点上,每个节点只计算本节点上的数据。在每个节点的计算完成之后,将结果输出到 MapReduce框架中。MapReduce框架自动汇聚(Aggregate)这些数据并进行排序,最后将最终的结果输出到HDFS中。在这一过程中,多个节点的计算过程是同时进行的,因此整个计算与串行计算相比,速度会大大提高,且计算的时间将与计算节点的数量成反比。
NoSQL数据库可以存储相当大的数据,但是如果采用单客户端来加载数据,则吞吐量会受到单机的带宽及磁盘等硬件的限制。此外,NoSQL数据库往往采取复杂的机制来保证数据的健壮性及一致性,数据的写入会经历一个复杂而耗时的过程。例如,HBase在写入数据时,会首先将数据写入预写日志文件(WAL,Write-Ahead Log),然后将数据写入到缓存区域 (MemStore)中,等到缓存区域满了之后才将其中的数据一次性地写入到磁盘里。因此,为了加快数据导入的速度,我们一方面采用多节点并行写入,另一方面直接生成HBase数据的存储格式文件,即采取批量导入(Bulkload)的方法来装载数据。
本发明与现有技术相比,具有如下的优点和有益效果:本发明利用Golden Gate提取变化数据。Golden Gate可实现秒级的数据捕捉、转换和投递,提供了一种基于日志的结构化数据复制方式,可以从在线日志中准实时地抓取变化的数据,并将变化的数据保存在Trail格式的文件中。其优势在于通过对日志文件的分析实现变化数据的抓取只会占用很小的系统资源,特别是当Oracle中存储的数据量极大、Oracle系统负载很重时基本不会影响Oracle的运行效率。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
一种海量数据高效抽取方法,包括,
步骤1,使用Golden Gate提取数据;利用Golden Gate解析Oracle的日志文件,提取出初始数据及发生变化的增量数据;
步骤2,用MapReduce并行计算引擎加快处理速度;使用Hadoop大数据平台的MapReduce 并行计算框架,来加速装载抽取出的数据;
步骤3,将数据装载进HBase;采用多节点并行写入,直接生成HBase数据的存储格式文件。
步骤3中采取批量导入的方法来装载数据。
步骤1中的增量数据包括插入数据、更新数据和删除数据。
1、利用Golden Gate提取变化数据。Golden Gate可实现秒级的数据捕捉、转换和投递,提供了一种基于日志的结构化数据复制方式,可以从在线日志中准实时地抓取变化的数据,并将变化的数据保存在Trail格式的文件中。其优势在于通过对日志文件的分析实现变化数据的抓取只会占用很小的系统资源,特别是当Oracle中存储的数据量极大、Oracle系统负载很重时基本不会影响Oracle的运行效率。
2、在大数据平台实现数据的清洗、转换和存储。对于Golden Gate提取出的数据,首先将其以半结构化的数据形式存储在HDFS中,然后根据规则对数据进行清洗和转换、过滤异常数据,并转换成更适合HBase存储的格式。为了加快数据装载到HBase的速度,采用了批量导入(Bulkload)数据的方式,即利用MapReduce并行计算引擎直接生成HBase能够识别的HFile文件,大大缩短了数据入库的时间。
3、使用Tomcat作为Web Server提供Web层的访问服务。由于Oracle和CDH大数据平台处于两个不同的集群中,因此以Web服务作为中间通道可以方便地连接这两个集群,例如在集群间传递指令、查询并展现集群中的数据等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种海量数据高效抽取方法,其特征在于,包括,
步骤1,使用Golden Gate提取数据;利用Golden Gate解析Oracle的日志文件,提取出初始数据及发生变化的增量数据;
步骤2,用MapReduce并行计算引擎加快处理速度;使用Hadoop大数据平台的MapReduce并行计算框架,来加速装载抽取出的数据;
步骤3,将数据装载进HBase;采用多节点并行写入,直接生成HBase数据的存储格式文件。
2.根据权利要求1所述的一种海量数据高效抽取方法,其特征在于,所述步骤3中采取批量导入的方法来装载数据。
3.根据权利要求1所述的一种海量数据高效抽取方法,其特征在于,所述步骤1中的增量数据包括插入数据、更新数据和删除数据。
CN201711181459.6A 2017-11-23 2017-11-23 一种海量数据高效抽取方法 Withdrawn CN107871013A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711181459.6A CN107871013A (zh) 2017-11-23 2017-11-23 一种海量数据高效抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711181459.6A CN107871013A (zh) 2017-11-23 2017-11-23 一种海量数据高效抽取方法

Publications (1)

Publication Number Publication Date
CN107871013A true CN107871013A (zh) 2018-04-03

Family

ID=61754625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711181459.6A Withdrawn CN107871013A (zh) 2017-11-23 2017-11-23 一种海量数据高效抽取方法

Country Status (1)

Country Link
CN (1) CN107871013A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189908A (zh) * 2018-08-22 2019-01-11 重庆市智权之路科技有限公司 海量数据提取推送工作方法
CN109359103A (zh) * 2018-09-04 2019-02-19 河南智云数据信息技术股份有限公司 一种数据聚合清洗方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425762A (zh) * 2013-08-05 2013-12-04 南京邮电大学 基于Hadoop平台的电信运营商海量数据处理方法
CN104331435A (zh) * 2014-10-22 2015-02-04 国家电网公司 一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法
CN104516985A (zh) * 2015-01-15 2015-04-15 浪潮(北京)电子信息产业有限公司 一种基于HBase数据库的海量数据快速导入方法
CN106021285A (zh) * 2016-04-29 2016-10-12 武汉佰钧成技术有限责任公司 一种基于Hadoop平台的海量数据增量抽取与分析方法
CN106897411A (zh) * 2017-02-20 2017-06-27 广东奡风科技股份有限公司 基于Spark技术的ETL系统及其方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425762A (zh) * 2013-08-05 2013-12-04 南京邮电大学 基于Hadoop平台的电信运营商海量数据处理方法
CN104331435A (zh) * 2014-10-22 2015-02-04 国家电网公司 一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法
CN104516985A (zh) * 2015-01-15 2015-04-15 浪潮(北京)电子信息产业有限公司 一种基于HBase数据库的海量数据快速导入方法
CN106021285A (zh) * 2016-04-29 2016-10-12 武汉佰钧成技术有限责任公司 一种基于Hadoop平台的海量数据增量抽取与分析方法
CN106897411A (zh) * 2017-02-20 2017-06-27 广东奡风科技股份有限公司 基于Spark技术的ETL系统及其方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189908A (zh) * 2018-08-22 2019-01-11 重庆市智权之路科技有限公司 海量数据提取推送工作方法
CN109359103A (zh) * 2018-09-04 2019-02-19 河南智云数据信息技术股份有限公司 一种数据聚合清洗方法及系统

Similar Documents

Publication Publication Date Title
Karim et al. Mining maximal frequent patterns in transactional databases and dynamic data streams: a spark-based approach
CN106777351B (zh) 基于art树分布式系统图存储计算系统及其方法
Buyya et al. Big data: principles and paradigms
Rathee et al. R-Apriori: an efficient apriori based algorithm on spark
Hammad et al. Big data analysis and storage
Das et al. Big data analytics: A framework for unstructured data analysis
CN104331435B (zh) 一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法
CN109272155A (zh) 一种基于大数据的企业行为分析系统
Costa et al. The SusCity big data warehousing approach for smart cities
CN107871013A (zh) 一种海量数据高效抽取方法
Ikhlaq et al. Computation of Big Data in Hadoop and Cloud Environment
Mukherjee et al. Naive bayes and decision tree classifier for streaming data using hbase
CN107967319A (zh) 一种海量数据高效抽取平台
Wang et al. Association rules mining in parallel conditional tree based on grid computing inspired partition algorithm
Mun et al. Bitsql: A sql-based bitcoin analysis system
CN107832451A (zh) 一种简化的大数据清洗方式
Chen et al. Efficient direct agent interaction in optimistic distributed multi-agent-system simulations
Ni et al. The golden age for popularizing big data.
Wen et al. Challenges and Opportunities of Building Fast GBDT Systems.
Kolici et al. Scalability, memory issues and challenges in mining large data sets
SHARMA et al. Big Data: The Future of Information Management
Zhou et al. Training backpropagation neural network in MapReduce
Ma et al. Live data migration approach from relational tables to schema-free collections with mapreduce
CN107291380A (zh) 高效大数据存储方法
Loris et al. Programming big data analysis: principles and solutions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180403