CN109582643A - 一种基于HBase的实时动态数据管理系统 - Google Patents

一种基于HBase的实时动态数据管理系统 Download PDF

Info

Publication number
CN109582643A
CN109582643A CN201811385057.2A CN201811385057A CN109582643A CN 109582643 A CN109582643 A CN 109582643A CN 201811385057 A CN201811385057 A CN 201811385057A CN 109582643 A CN109582643 A CN 109582643A
Authority
CN
China
Prior art keywords
data
hbase
storage
real
parallel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811385057.2A
Other languages
English (en)
Inventor
张卫山
任鹏程
房凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201811385057.2A priority Critical patent/CN109582643A/zh
Publication of CN109582643A publication Critical patent/CN109582643A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于HBase的实时动态数据管理系统,包括数据的读取优化、复合索引机制以及并行查询优化。该发明设计基于HDFS和HBase的持久化数据存储机制,解决多结构数据海量存储问题;基于HBase表结构设计复合索引存储模型,实现索引缓存地址的映射管理以及缓存数据存储的索引表设计;基于多源缓冲区结构对数据进行队列划分,实现并行存储,并结合一致性哈希算法、多线程技术、行键优化设计等策略缓解海量数据并发写入压力;基于HBase查询实执行模块与多线技术,设计多查询并行机制,提高查询速度。该发明的基于HBase的实时动态数据管理系统有效提升数据写入与读取性能,解决多结构化数据海量存储,满足高动态、实时性的环境需求。

Description

一种基于HBase的实时动态数据管理系统
技术领域
本发明涉及大数据存储、数据搜索领域,具体涉及到一种基于HBase的实时动态数据管理系统。
背景技术
HBase作为基于大数据的数据库对于数据的管理服务效率是非常重要的。
HBase作为底层数据库,首先必须保证对于各类数据的存储效率,以适应不同环境的不同存储需求。如何利用多源缓冲区结构对不同类型的流数据进行队列划分,并结合哪些策略可以将数据并行存储到HBase集群服务器中,从而缓解海量数据与写入并发压力,这是基于HBase的实时动态数据管理系统涉及面临的挑战。其次,HBase的索引机制也不完善,无法满足实时环境的高效查询请求。
HBase的列存储系统的查询优化主要通过使用列存储、数据压缩、直接操作压缩数据、延迟物化、隐形连接等技术来提高查询效率。但其都是基于单线程的查询引擎,不能充分利用多核处理器资源。如何利用多线程技术实现多查询并行化,也给基于HBase的实时动态数据管理系统的设计带来了挑战。
发明内容
为解决现有技术中的缺点和不足,本发明提出了一中基于HBase的实时动态数据管理系统,优化数据存储、查询性能。
本发明的技术方案为:
一种基于HBase的实时动态数据管理系统,数据存储按逻辑划分,分为以文件形式和以HBase表结构形式存储。前者主要针对于结构化的文件;非结构化的数据使用HBase表存储。文件形式的存储包括索引文件和小文件的存储;HBase存储包括高维特征的存储、正排文件存储和缓存数据的存储。索引文件用Lucene对其文本数据建立倒排;正排文件,采用HBase表结构来存储,并存储器TD/IDF值;小文件基于二进制序列化数据流合并为一个大文件。
复合索引存储模型分为两部分:第一部分是基于磁盘的数据存储,使用分布式顺序索引存储模型,实现索引缓存的存储、更新以及地址映射;第二部分是基于内存的索引缓存,利用内存随机访问迅速的特性存储访问频繁的索引数据,使用分布式哈希存储模型,构建索引表以及索引范围表。
利用多源缓冲区结构对不同类型的流数据进行队列划分,并结合一致性哈希算法、多线程技术、行键优化设计等策略将数据并行存储到HBase集群服务器中。HBase并行查询分为四个方面:I/O并行,多查询并行,操作节点并行以及用户并行。并且利用JAVA多线程技术,实现实时流数据多查询并行。
本发明的有益效果:
(1)解决多结构海量数据的存储问题,缓解海量数据并发写入压力,加快多结构海量数据写入写入速度。
(2)优化HBase索引模型设计,优化多查询并行化性能,提高数据查询效率,满足高动态、实施性的数据查询需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明系统逻辑框架图;
图2为本发明基于HBase的多结构化存储模型;
图3为本发明复合索引模型;
图4为本发明HBase写入优化流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明基于HBase的实时动态数据管理系统逻辑框架如图1所示,包括数据存储、数据写入、索引设计以及并行查询设计。
海量数据存储优化首先从逻辑上进行结构划分,按照存储方式可以划分为两部分:以文件形式的存储和以HBase表结构的存储。以文件形式的存储主要针对于有结构化的文件;而非结构化的数据则选择使用HBase存储。文件形式的存储包括索引文件和小文件的存储;HBase存储包括高维特征的存储、正排文件存储和缓存数据的存储。索引文件的底层实现技术,采用Lucene对其文本数据建立倒排,并且通过一个接口转换器,实现Lucene与HBase中的索引文件透明地进行交互。正排文件,其底层实现技术采用HBase表结构来存储,并存储器TD/IDF值。对于海量小文件,采用合并的手段,将海量小文件序列化为一个大文件,底层实现是基于二进制序列化数据流。数据存储图如图2所示。
复合索引存储模型分为两部分:第一部分是基于磁盘的数据存储,使用分布式顺序索引存储模型,实现索引缓存的存储、更新以及地址映射;第二部分是基于内存的索引缓存,利用内存随机访问迅速的特性存储访问频繁的索引数据,使用分布式哈希存储模型,构建索引表以及索引范围表。复合索引存储架构如图3所示。
数据接入预处理层实现对数据的整合、规范化操作,以保证数据的完整性、有效性。经预处理之后的数据上送至缓冲区进行队列划分。为实现对不同类型流数据的实时处理,数据缓冲区针对不同类型数据对象的多源缓冲区结构及一致性哈希算法、多线程技术、行键优化设计策略划分数据。数据写入区接收分片数据。其中写入层基于多线程技术,采用并行写入的方法存储数据。数据存储层将最终发送过来的数据存储在HBase集群。写入流程如图4所示。
HBase并行查询分为四个方面:I/O并行,多查询并行,操作节点并行以及用户并行。并且利用JAVA多线程技术,依靠强大的处理器,实现实时流数据多查询并行。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于HBase的实时动态数据管理系统,其特征在于,数据存储按逻辑划分,分为以文件形式和以HBase表结构形式存储。前者主要针对于结构化的文件;非结构化的数据使用HBase表存储。文件形式的存储包括索引文件和小文件的存储;HBase存储包括高维特征的存储、正排文件存储和缓存数据的存储。索引文件用Lucene对其文本数据建立倒排;正排文件,采用HBase表结构来存储,并存储器TD/IDF值;小文件基于二进制序列化数据流合并为一个大文件。
2.如权利1要求所述的基于HBase的实时动态数据管理系统,其特征在于,复合索引存储模型分为两部分:第一部分是基于磁盘的数据存储,使用分布式顺序索引存储模型,实现索引缓存的存储、更新以及地址映射;第二部分是基于内存的索引缓存,利用内存随机访问迅速的特性存储访问频繁的索引数据,使用分布式哈希存储模型,构建索引表以及索引范围表。
3.如权利1要求所述的基于HBase的实时动态数据管理系统,其特征在于,利用多源缓冲区结构对不同类型的流数据进行队列划分,并结合一致性哈希算法、多线程技术、行键优化设计等策略将数据并行存储到HBase集群服务器中。
4.如权利1要求所述的基于HBase的实时动态数据管理系统,其特征在于,HBase并行查询分为四个方面:I/O并行,多查询并行,操作节点并行以及用户并行。并且利用JAVA多线程技术,实现实时流数据多查询并行。
CN201811385057.2A 2018-11-20 2018-11-20 一种基于HBase的实时动态数据管理系统 Pending CN109582643A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811385057.2A CN109582643A (zh) 2018-11-20 2018-11-20 一种基于HBase的实时动态数据管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811385057.2A CN109582643A (zh) 2018-11-20 2018-11-20 一种基于HBase的实时动态数据管理系统

Publications (1)

Publication Number Publication Date
CN109582643A true CN109582643A (zh) 2019-04-05

Family

ID=65923343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811385057.2A Pending CN109582643A (zh) 2018-11-20 2018-11-20 一种基于HBase的实时动态数据管理系统

Country Status (1)

Country Link
CN (1) CN109582643A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515990A (zh) * 2019-07-23 2019-11-29 华信永道(北京)科技股份有限公司 数据查询展示方法及查询展示系统
CN111125121A (zh) * 2020-03-30 2020-05-08 四川新网银行股份有限公司 基于HBase表的实时数据显示方法
CN111459945A (zh) * 2020-04-07 2020-07-28 中科曙光(南京)计算技术有限公司 一种基于HBase的分层式索引查询方法
CN115269524A (zh) * 2022-09-26 2022-11-01 创云融达信息技术(天津)股份有限公司 一种端到端小文件归集传输和存储的一体化系统及方法
CN117149709A (zh) * 2023-10-30 2023-12-01 太平金融科技服务(上海)有限公司 影像文件的查询方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678491A (zh) * 2013-11-14 2014-03-26 东南大学 一种基于Hadoop中小文件优化和倒排索引的方法
CN103838830A (zh) * 2014-02-18 2014-06-04 广东亿迅科技有限公司 一种HBase数据库的数据管理方法及系统
CN104317966A (zh) * 2014-11-18 2015-01-28 国家电网公司 一种用于电力大数据快速组合查询的动态索引方法
CN104820714A (zh) * 2015-05-20 2015-08-05 国家电网公司 基于hadoop的海量瓦片小文件存储管理方法
CN104850572A (zh) * 2014-11-18 2015-08-19 中兴通讯股份有限公司 HBase非主键索引构建与查询方法及其系统
CN104850640A (zh) * 2015-05-26 2015-08-19 华北电力大学(保定) 一种基于HBase的电网设备状态监测数据存储和查询方法及系统
CN105677826A (zh) * 2016-01-04 2016-06-15 博康智能网络科技股份有限公司 一种针对海量非结构化数据的资源管理方法
CN108595664A (zh) * 2018-04-28 2018-09-28 尚谷科技(天津)有限公司 一种hadoop环境下的农业数据监控方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678491A (zh) * 2013-11-14 2014-03-26 东南大学 一种基于Hadoop中小文件优化和倒排索引的方法
CN103838830A (zh) * 2014-02-18 2014-06-04 广东亿迅科技有限公司 一种HBase数据库的数据管理方法及系统
CN104317966A (zh) * 2014-11-18 2015-01-28 国家电网公司 一种用于电力大数据快速组合查询的动态索引方法
CN104850572A (zh) * 2014-11-18 2015-08-19 中兴通讯股份有限公司 HBase非主键索引构建与查询方法及其系统
CN104820714A (zh) * 2015-05-20 2015-08-05 国家电网公司 基于hadoop的海量瓦片小文件存储管理方法
CN104850640A (zh) * 2015-05-26 2015-08-19 华北电力大学(保定) 一种基于HBase的电网设备状态监测数据存储和查询方法及系统
CN105677826A (zh) * 2016-01-04 2016-06-15 博康智能网络科技股份有限公司 一种针对海量非结构化数据的资源管理方法
CN108595664A (zh) * 2018-04-28 2018-09-28 尚谷科技(天津)有限公司 一种hadoop环境下的农业数据监控方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515990A (zh) * 2019-07-23 2019-11-29 华信永道(北京)科技股份有限公司 数据查询展示方法及查询展示系统
CN110515990B (zh) * 2019-07-23 2021-10-01 华信永道(北京)科技股份有限公司 数据查询展示方法及查询展示系统
CN111125121A (zh) * 2020-03-30 2020-05-08 四川新网银行股份有限公司 基于HBase表的实时数据显示方法
CN111459945A (zh) * 2020-04-07 2020-07-28 中科曙光(南京)计算技术有限公司 一种基于HBase的分层式索引查询方法
CN111459945B (zh) * 2020-04-07 2023-11-10 中科曙光(南京)计算技术有限公司 一种基于HBase的分层式索引查询方法
CN115269524A (zh) * 2022-09-26 2022-11-01 创云融达信息技术(天津)股份有限公司 一种端到端小文件归集传输和存储的一体化系统及方法
CN117149709A (zh) * 2023-10-30 2023-12-01 太平金融科技服务(上海)有限公司 影像文件的查询方法、装置、电子设备及存储介质
CN117149709B (zh) * 2023-10-30 2024-02-02 太平金融科技服务(上海)有限公司 影像文件的查询方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109582643A (zh) 一种基于HBase的实时动态数据管理系统
CN110825748B (zh) 利用差异化索引机制的高性能和易扩展的键值存储方法
CN104850572B (zh) HBase非主键索引构建与查询方法及其系统
CN104133661B (zh) 基于列存储的多核并行哈希分区优化方法
CN107533518B (zh) 用于容错对象存储器结构的分布式索引
CN104765575B (zh) 信息存储处理方法
CN109213772A (zh) 数据存储方法及NVMe存储系统
US20120011144A1 (en) Aggregation in parallel computation environments with shared memory
CN104580437A (zh) 一种云存储客户端及其高效数据访问方法
CN105487818A (zh) 针对云存储系统中重复冗余数据的高效去重方法
CN104778270A (zh) 一种用于多文件的存储方法
CN109902088A (zh) 一种面向流式时序数据的数据索引方法
CN104765574A (zh) 数据云端存储方法
CN101593202A (zh) 基于共享Cache多核处理器的数据库哈希连接方法
CN111124675A (zh) 一种面向图计算的异构存内计算设备及其运行方法
EP2469423A1 (en) Aggregation in parallel computation environments with shared memory
CN104778077A (zh) 基于随机和连续磁盘访问的高速核外图处理方法及系统
CN113297136B (zh) 一种面向lsm树的键值存储方法和存储系统
CN110413612A (zh) 一种基于混合索引的混合内存性能优化方法及系统
CN111309266A (zh) 一种基于ceph的分布式存储元数据系统日志优化系统与方法
CN104156482A (zh) 一种地图瓦片数据的发布方法
CN104778100A (zh) 一种安全备份数据的方法
JP2002182953A (ja) 分散ファイル管理方法
Ji et al. Efficient multi-dimensional spatial RKNN query processing with mapreduce
Auradkar et al. Performance tuning analysis of spatial operations on Spatial Hadoop cluster with SSD

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190405

WD01 Invention patent application deemed withdrawn after publication