CN104516985A - 一种基于HBase数据库的海量数据快速导入方法 - Google Patents

一种基于HBase数据库的海量数据快速导入方法 Download PDF

Info

Publication number
CN104516985A
CN104516985A CN201510020951.XA CN201510020951A CN104516985A CN 104516985 A CN104516985 A CN 104516985A CN 201510020951 A CN201510020951 A CN 201510020951A CN 104516985 A CN104516985 A CN 104516985A
Authority
CN
China
Prior art keywords
data
hbase database
hbase
write
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510020951.XA
Other languages
English (en)
Inventor
范荣盛
辛国茂
赵仁明
金洪殿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510020951.XA priority Critical patent/CN104516985A/zh
Publication of CN104516985A publication Critical patent/CN104516985A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提出一种基于HBase的海量数据快速导入方法,基于HBase数据库中表的格式,对数据源中的数据进行拆分;基于数据源中数据量的大小和HBase数据库中行键的设计,在建立所述表的时候进行预分区;设置HBase数据库的预写日志系统,关闭自动提交功能,设置缓存大小;启用多线程,将所述数据导入HBase数据库的表中。所述方法不需要对数据源进行预处理,方便操作,提高了效率。

Description

一种基于HBase数据库的海量数据快速导入方法
技术领域
本发明涉及大数据处理技术领域,具体涉及一种基于HBase的海量数据快速导入方法。
背景技术
随着人类社会全面进入信息时代,数据成为与水、石油同等重要的战略资源。通过挖掘海量数据,能够使政府和企业的运行决策建立在更加科学的依据基础上,提高决策效率、危机应对能力和公共服务水平。大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。HBase(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase在处理大数据问题上拥有很大优势,越来越多的实际应用将迁移到HBase中。但是,传统的数据源与HBase存在一定差异,如何将传统数据导入至HBase成为一个棘手问题。
发明内容
为了解决上述现有技术中存在的问题,本发明提出一种基于HBase的海量数据快速导入方法,包括:
S1.基于HBase数据库中表的格式,对数据源中的数据进行拆分;
S2.基于数据源中数据量的大小和HBase数据库中行键的设计,在建立所述表的时候进行预分区;
S3.设置HBase数据库的预写日志系统,关闭自动提交功能,设置缓存大小;
S4.启用多线程,将所述数据导入HBase数据库,流程结束。
特别地:
根据所述数据的重要性设置所述预写日志系统,若所述数据非常重要,则将所述预写日志系统设置为不关闭,若所述数据不重要,则将所述预写日志系统设置为关闭。
特别地:
根据实现所述HBase数据库的计算机硬件性能设置所述缓存大小。
特别地:
根据所述计算机硬件的中央处理单元CPU性能,或内存大小确定需要启动的所述线程的数量。
本发明的有益效果是:不需要对数据源进行预处理,方便操作,提高了效率。本发明实现为java类,调用了Hadoop和HBase中的基类,在大量实验的基础上,通过控制变量方法,得出了一套最高效快速的导入数据方法。通过关闭预写日志系统(WAL)该功能主要用于持久化数据,保证异常情况下可以恢复数据,关闭自动提交功能(AutoFlush),调优自动提交缓存大小(AutoFlushSize),多线程插入,预分区域(Region)等进行优化。经过实验表明,从文本中导入HBase大约1G数据(6000000条),未采取任何优化的情况下大约需要200分钟,采用该方法大约需要15分钟,性能提升了12倍。
附图说明
图1本发明提出方法的流程示意图;
图2为本发明提出的HBase预分区示意图。
具体实施方式
下面结合附图对本发明提出的技术方案进行详细说明。
参见图1,其示出了本发明提出的方法流程图,包括:
1.分析数据源格式,进行数据清洗
将数据拆分,对应HBase中的表结构,方便插入。
2.划分预分区Region
参见图2,其示出了本发明提出的预分区示意图。根据数据源的大小,行键(Rowkey)的设计,在建表时候进行预分区。
3.关闭预写日志系统WAL,关闭自动提交功能AutoFlush,设置缓存大小BufferSize。此步骤根据实际情况进行,如果数据非常重要则不要关闭WAL,同时调整BufferSize需要根据自己计算机的硬件条件。
4.启用多线程
根据第二步中对数据源的掌握,合理启动线程数量,进行数据导入。线程分配时,需要根据物理主机的性能,例如CPU,内存大小。

Claims (4)

1.一种基于HBase的海量数据快速导入方法,包括:
S1.基于HBase数据库中表的格式,对数据源中的数据进行拆分;
S2.基于数据源中数据量的大小和HBase数据库中行键的设计,在建立所述表的时候进行预分区;
S3.设置HBase数据库的预写日志系统,关闭自动提交功能,设置缓存大小;
S4.启用多线程,将所述数据导入HBase数据库的表中,流程结束。
2.如权利要求1所述的方法,其特征在于:
根据所述数据的重要性设置所述预写日志系统,若所述数据非常重要,则将所述预写日志系统设置为不关闭,若所述数据不重要,则将所述预写日志系统设置为关闭。
3.如权利要求1所述的方法,其特征在于:
根据实现所述HBase数据库的计算机硬件性能设置所述缓存大小。
4.如权利要求1所述的方法,其特征在于:
根据所述计算机硬件的中央处理单元CPU性能和/或内存大小,确定需要启动的所述线程的数量。
CN201510020951.XA 2015-01-15 2015-01-15 一种基于HBase数据库的海量数据快速导入方法 Pending CN104516985A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510020951.XA CN104516985A (zh) 2015-01-15 2015-01-15 一种基于HBase数据库的海量数据快速导入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510020951.XA CN104516985A (zh) 2015-01-15 2015-01-15 一种基于HBase数据库的海量数据快速导入方法

Publications (1)

Publication Number Publication Date
CN104516985A true CN104516985A (zh) 2015-04-15

Family

ID=52792284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510020951.XA Pending CN104516985A (zh) 2015-01-15 2015-01-15 一种基于HBase数据库的海量数据快速导入方法

Country Status (1)

Country Link
CN (1) CN104516985A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227803A (zh) * 2016-07-21 2016-12-14 浪潮电子信息产业股份有限公司 一种基于Hbase的海量数据导入方法及装置
CN106294886A (zh) * 2016-10-17 2017-01-04 北京集奥聚合科技有限公司 一种从HBase中全量抽取数据的方法及系统
CN106776598A (zh) * 2015-11-19 2017-05-31 中国移动通信集团公司 一种信息处理方法及装置
CN107871013A (zh) * 2017-11-23 2018-04-03 安徽科创智慧知识产权服务有限公司 一种海量数据高效抽取方法
CN109063194A (zh) * 2018-08-30 2018-12-21 广东南方数码科技股份有限公司 基于空间编码的数据检索方法及装置
WO2022151593A1 (zh) * 2021-01-13 2022-07-21 华为云计算技术有限公司 一种数据恢复方法、装置、设备、介质及程序产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617211A (zh) * 2013-11-20 2014-03-05 浪潮电子信息产业股份有限公司 一种HBase加载数据的导入方法
CN103646073A (zh) * 2013-12-11 2014-03-19 浪潮电子信息产业股份有限公司 一种基于HBase表的条件查询优化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617211A (zh) * 2013-11-20 2014-03-05 浪潮电子信息产业股份有限公司 一种HBase加载数据的导入方法
CN103646073A (zh) * 2013-12-11 2014-03-19 浪潮电子信息产业股份有限公司 一种基于HBase表的条件查询优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
焦冬冬等: "一种基于HBase的海量微博数据高效存储方案", 《微型机与应用》 *
陆婷等: "基于HBase的交通流数据实时存储系统", 《计算机应用》 *
马延辉 等: "《HBase企业应用开发实战》", 30 September 2014, 机械工业出版社 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776598A (zh) * 2015-11-19 2017-05-31 中国移动通信集团公司 一种信息处理方法及装置
CN106227803A (zh) * 2016-07-21 2016-12-14 浪潮电子信息产业股份有限公司 一种基于Hbase的海量数据导入方法及装置
CN106294886A (zh) * 2016-10-17 2017-01-04 北京集奥聚合科技有限公司 一种从HBase中全量抽取数据的方法及系统
CN107871013A (zh) * 2017-11-23 2018-04-03 安徽科创智慧知识产权服务有限公司 一种海量数据高效抽取方法
CN109063194A (zh) * 2018-08-30 2018-12-21 广东南方数码科技股份有限公司 基于空间编码的数据检索方法及装置
WO2022151593A1 (zh) * 2021-01-13 2022-07-21 华为云计算技术有限公司 一种数据恢复方法、装置、设备、介质及程序产品

Similar Documents

Publication Publication Date Title
US11093466B2 (en) Incremental out-of-place updates for index structures
CN104516985A (zh) 一种基于HBase数据库的海量数据快速导入方法
Ji et al. Big data processing in cloud computing environments
Bai Feasibility analysis of big log data real time search based on Hbase and ElasticSearch
CN104516979B (zh) 一种基于二次检索的数据查询方法及系统
CN105138661A (zh) 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法
CN103440288A (zh) 一种大数据存储方法及装置
Naheman et al. Review of NoSQL databases and performance testing on HBase
CN102200979A (zh) 一种分布式并行信息检索系统及其方法
CN107766541B (zh) 配用电全局全量数据传输及存储方法、装置、电子设备
Ding et al. ComMapReduce: An improvement of MapReduce with lightweight communication mechanisms
CN109446230A (zh) 一种光伏发电影响因素的大数据分析系统及方法
CN103226608A (zh) 一种基于目录级可伸缩的Bloom Filter位图表的并行文件搜索方法
CN111858730A (zh) 一种图数据库的数据导入导出装置、方法、设备及介质
Papadakis et al. Blocking for large-scale entity resolution: Challenges, algorithms, and practical examples
Sawyer et al. Understanding query performance in Accumulo
CN108319604B (zh) 一种hive中大小表关联的优化方法
Peng et al. An analysis platform of road traffic management system log data based on distributed storage and parallel computing techniques
Serbanescu et al. Architecture of distributed data aggregation service
Chihoub et al. A scalability comparison study of data management approaches for smart metering systems
CN104714956A (zh) 一种异构记录集对比方法及装置
Lou et al. Research on data query optimization based on SparkSQL and MongoDB
Rao et al. A novel and efficient method for protecting internet usage from unauthorized access using map reduce
CN115237426A (zh) 一种数据库差异的确定方法、装置、设备及存储介质
Sun et al. The implementation of air pollution monitoring service using hybrid database converter

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150415

RJ01 Rejection of invention patent application after publication