CN104516985A - 一种基于HBase数据库的海量数据快速导入方法 - Google Patents
一种基于HBase数据库的海量数据快速导入方法 Download PDFInfo
- Publication number
- CN104516985A CN104516985A CN201510020951.XA CN201510020951A CN104516985A CN 104516985 A CN104516985 A CN 104516985A CN 201510020951 A CN201510020951 A CN 201510020951A CN 104516985 A CN104516985 A CN 104516985A
- Authority
- CN
- China
- Prior art keywords
- data
- hbase database
- hbase
- write
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提出一种基于HBase的海量数据快速导入方法,基于HBase数据库中表的格式,对数据源中的数据进行拆分;基于数据源中数据量的大小和HBase数据库中行键的设计,在建立所述表的时候进行预分区;设置HBase数据库的预写日志系统,关闭自动提交功能,设置缓存大小;启用多线程,将所述数据导入HBase数据库的表中。所述方法不需要对数据源进行预处理,方便操作,提高了效率。
Description
技术领域
本发明涉及大数据处理技术领域,具体涉及一种基于HBase的海量数据快速导入方法。
背景技术
随着人类社会全面进入信息时代,数据成为与水、石油同等重要的战略资源。通过挖掘海量数据,能够使政府和企业的运行决策建立在更加科学的依据基础上,提高决策效率、危机应对能力和公共服务水平。大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。HBase(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase在处理大数据问题上拥有很大优势,越来越多的实际应用将迁移到HBase中。但是,传统的数据源与HBase存在一定差异,如何将传统数据导入至HBase成为一个棘手问题。
发明内容
为了解决上述现有技术中存在的问题,本发明提出一种基于HBase的海量数据快速导入方法,包括:
S1.基于HBase数据库中表的格式,对数据源中的数据进行拆分;
S2.基于数据源中数据量的大小和HBase数据库中行键的设计,在建立所述表的时候进行预分区;
S3.设置HBase数据库的预写日志系统,关闭自动提交功能,设置缓存大小;
S4.启用多线程,将所述数据导入HBase数据库,流程结束。
特别地:
根据所述数据的重要性设置所述预写日志系统,若所述数据非常重要,则将所述预写日志系统设置为不关闭,若所述数据不重要,则将所述预写日志系统设置为关闭。
特别地:
根据实现所述HBase数据库的计算机硬件性能设置所述缓存大小。
特别地:
根据所述计算机硬件的中央处理单元CPU性能,或内存大小确定需要启动的所述线程的数量。
本发明的有益效果是:不需要对数据源进行预处理,方便操作,提高了效率。本发明实现为java类,调用了Hadoop和HBase中的基类,在大量实验的基础上,通过控制变量方法,得出了一套最高效快速的导入数据方法。通过关闭预写日志系统(WAL)该功能主要用于持久化数据,保证异常情况下可以恢复数据,关闭自动提交功能(AutoFlush),调优自动提交缓存大小(AutoFlushSize),多线程插入,预分区域(Region)等进行优化。经过实验表明,从文本中导入HBase大约1G数据(6000000条),未采取任何优化的情况下大约需要200分钟,采用该方法大约需要15分钟,性能提升了12倍。
附图说明
图1本发明提出方法的流程示意图;
图2为本发明提出的HBase预分区示意图。
具体实施方式
下面结合附图对本发明提出的技术方案进行详细说明。
参见图1,其示出了本发明提出的方法流程图,包括:
1.分析数据源格式,进行数据清洗
将数据拆分,对应HBase中的表结构,方便插入。
2.划分预分区Region
参见图2,其示出了本发明提出的预分区示意图。根据数据源的大小,行键(Rowkey)的设计,在建表时候进行预分区。
3.关闭预写日志系统WAL,关闭自动提交功能AutoFlush,设置缓存大小BufferSize。此步骤根据实际情况进行,如果数据非常重要则不要关闭WAL,同时调整BufferSize需要根据自己计算机的硬件条件。
4.启用多线程
根据第二步中对数据源的掌握,合理启动线程数量,进行数据导入。线程分配时,需要根据物理主机的性能,例如CPU,内存大小。
Claims (4)
1.一种基于HBase的海量数据快速导入方法,包括:
S1.基于HBase数据库中表的格式,对数据源中的数据进行拆分;
S2.基于数据源中数据量的大小和HBase数据库中行键的设计,在建立所述表的时候进行预分区;
S3.设置HBase数据库的预写日志系统,关闭自动提交功能,设置缓存大小;
S4.启用多线程,将所述数据导入HBase数据库的表中,流程结束。
2.如权利要求1所述的方法,其特征在于:
根据所述数据的重要性设置所述预写日志系统,若所述数据非常重要,则将所述预写日志系统设置为不关闭,若所述数据不重要,则将所述预写日志系统设置为关闭。
3.如权利要求1所述的方法,其特征在于:
根据实现所述HBase数据库的计算机硬件性能设置所述缓存大小。
4.如权利要求1所述的方法,其特征在于:
根据所述计算机硬件的中央处理单元CPU性能和/或内存大小,确定需要启动的所述线程的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510020951.XA CN104516985A (zh) | 2015-01-15 | 2015-01-15 | 一种基于HBase数据库的海量数据快速导入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510020951.XA CN104516985A (zh) | 2015-01-15 | 2015-01-15 | 一种基于HBase数据库的海量数据快速导入方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104516985A true CN104516985A (zh) | 2015-04-15 |
Family
ID=52792284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510020951.XA Pending CN104516985A (zh) | 2015-01-15 | 2015-01-15 | 一种基于HBase数据库的海量数据快速导入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104516985A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227803A (zh) * | 2016-07-21 | 2016-12-14 | 浪潮电子信息产业股份有限公司 | 一种基于Hbase的海量数据导入方法及装置 |
CN106294886A (zh) * | 2016-10-17 | 2017-01-04 | 北京集奥聚合科技有限公司 | 一种从HBase中全量抽取数据的方法及系统 |
CN106776598A (zh) * | 2015-11-19 | 2017-05-31 | 中国移动通信集团公司 | 一种信息处理方法及装置 |
CN107871013A (zh) * | 2017-11-23 | 2018-04-03 | 安徽科创智慧知识产权服务有限公司 | 一种海量数据高效抽取方法 |
CN109063194A (zh) * | 2018-08-30 | 2018-12-21 | 广东南方数码科技股份有限公司 | 基于空间编码的数据检索方法及装置 |
WO2022151593A1 (zh) * | 2021-01-13 | 2022-07-21 | 华为云计算技术有限公司 | 一种数据恢复方法、装置、设备、介质及程序产品 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617211A (zh) * | 2013-11-20 | 2014-03-05 | 浪潮电子信息产业股份有限公司 | 一种HBase加载数据的导入方法 |
CN103646073A (zh) * | 2013-12-11 | 2014-03-19 | 浪潮电子信息产业股份有限公司 | 一种基于HBase表的条件查询优化方法 |
-
2015
- 2015-01-15 CN CN201510020951.XA patent/CN104516985A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617211A (zh) * | 2013-11-20 | 2014-03-05 | 浪潮电子信息产业股份有限公司 | 一种HBase加载数据的导入方法 |
CN103646073A (zh) * | 2013-12-11 | 2014-03-19 | 浪潮电子信息产业股份有限公司 | 一种基于HBase表的条件查询优化方法 |
Non-Patent Citations (3)
Title |
---|
焦冬冬等: "一种基于HBase的海量微博数据高效存储方案", 《微型机与应用》 * |
陆婷等: "基于HBase的交通流数据实时存储系统", 《计算机应用》 * |
马延辉 等: "《HBase企业应用开发实战》", 30 September 2014, 机械工业出版社 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776598A (zh) * | 2015-11-19 | 2017-05-31 | 中国移动通信集团公司 | 一种信息处理方法及装置 |
CN106227803A (zh) * | 2016-07-21 | 2016-12-14 | 浪潮电子信息产业股份有限公司 | 一种基于Hbase的海量数据导入方法及装置 |
CN106294886A (zh) * | 2016-10-17 | 2017-01-04 | 北京集奥聚合科技有限公司 | 一种从HBase中全量抽取数据的方法及系统 |
CN107871013A (zh) * | 2017-11-23 | 2018-04-03 | 安徽科创智慧知识产权服务有限公司 | 一种海量数据高效抽取方法 |
CN109063194A (zh) * | 2018-08-30 | 2018-12-21 | 广东南方数码科技股份有限公司 | 基于空间编码的数据检索方法及装置 |
WO2022151593A1 (zh) * | 2021-01-13 | 2022-07-21 | 华为云计算技术有限公司 | 一种数据恢复方法、装置、设备、介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11093466B2 (en) | Incremental out-of-place updates for index structures | |
CN104516985A (zh) | 一种基于HBase数据库的海量数据快速导入方法 | |
Ji et al. | Big data processing in cloud computing environments | |
Bai | Feasibility analysis of big log data real time search based on Hbase and ElasticSearch | |
CN104516979B (zh) | 一种基于二次检索的数据查询方法及系统 | |
CN105138661A (zh) | 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法 | |
CN103440288A (zh) | 一种大数据存储方法及装置 | |
Naheman et al. | Review of NoSQL databases and performance testing on HBase | |
CN102200979A (zh) | 一种分布式并行信息检索系统及其方法 | |
CN107766541B (zh) | 配用电全局全量数据传输及存储方法、装置、电子设备 | |
Ding et al. | ComMapReduce: An improvement of MapReduce with lightweight communication mechanisms | |
CN109446230A (zh) | 一种光伏发电影响因素的大数据分析系统及方法 | |
CN103226608A (zh) | 一种基于目录级可伸缩的Bloom Filter位图表的并行文件搜索方法 | |
CN111858730A (zh) | 一种图数据库的数据导入导出装置、方法、设备及介质 | |
Papadakis et al. | Blocking for large-scale entity resolution: Challenges, algorithms, and practical examples | |
Sawyer et al. | Understanding query performance in Accumulo | |
CN108319604B (zh) | 一种hive中大小表关联的优化方法 | |
Peng et al. | An analysis platform of road traffic management system log data based on distributed storage and parallel computing techniques | |
Serbanescu et al. | Architecture of distributed data aggregation service | |
Chihoub et al. | A scalability comparison study of data management approaches for smart metering systems | |
CN104714956A (zh) | 一种异构记录集对比方法及装置 | |
Lou et al. | Research on data query optimization based on SparkSQL and MongoDB | |
Rao et al. | A novel and efficient method for protecting internet usage from unauthorized access using map reduce | |
CN115237426A (zh) | 一种数据库差异的确定方法、装置、设备及存储介质 | |
Sun et al. | The implementation of air pollution monitoring service using hybrid database converter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150415 |
|
RJ01 | Rejection of invention patent application after publication |