CN109471856A - 一种基于Hbase协处理器的大数据实时索引方法 - Google Patents

一种基于Hbase协处理器的大数据实时索引方法 Download PDF

Info

Publication number
CN109471856A
CN109471856A CN201811081889.5A CN201811081889A CN109471856A CN 109471856 A CN109471856 A CN 109471856A CN 201811081889 A CN201811081889 A CN 201811081889A CN 109471856 A CN109471856 A CN 109471856A
Authority
CN
China
Prior art keywords
hbase
data
real time
coprocessor
kafka
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811081889.5A
Other languages
English (en)
Inventor
朱静轩
吴问海
章文友
孟彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Network Information Security Ltd By Share Ltd
Original Assignee
China Network Information Security Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Network Information Security Ltd By Share Ltd filed Critical China Network Information Security Ltd By Share Ltd
Priority to CN201811081889.5A priority Critical patent/CN109471856A/zh
Publication of CN109471856A publication Critical patent/CN109471856A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Devices For Executing Special Programs (AREA)

Abstract

本发明涉及Hbase实时索引技术领域,具体涉及一种基于Hbase协处理器的大数据实时索引方法,包括对于需要索引的表,添加协处理器监听;针对Hbase中DDL、DML动作,定义相应动作的KEY;编写基于Hbase协处理器的动作监听代码,以及将Hbase中操作的数据序列化发送到kafka。本发明通过对Hbase的DML、DDL动作进行监听,及时感知到对hbase的表以及数据操作动作,对相应动作进行封装,并发送到kafka消息队列中,同时索引转换器能够对于kafka中的数据以及相应动作进行相应索引处理,将hbase的动作监听与数据索引写入程序进行解耦,避免数据读取和写入速度不一致,造成的资源等待占用资源的问题。

Description

一种基于Hbase协处理器的大数据实时索引方法
技术领域
本发明涉及Hbase实时索引技术领域,具体涉及一种基于Hbase协处理器的大数据实时索引方法。
背景技术
HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。但是由于hbase的数据读取,全部依赖于hbase的rowkey。为了实现能够基于对hbase中的部分数据进行复杂查询、或者进行全文检索,需要对hbase进行构建索引。传统的索引方法对于hbase索引的时候是循环读取Hbase表数据,然后直接将hbase表数据,存储到elasticsearch或者solr等索引服务器中。或者通过Hbase和elasticsearch进行直连,实现数据的直接进入索引集群,这样会对于hbase读取和elasticsearch写入的读写速度不同步造成阻塞的压力。
发明内容
本发明的目的在于克服现有技术中存在的问题,提供一种基于Hbase协处理器的大数据实时索引方法,它可以实现能够基于hbase中数据操作,实时对hbase数据进行提交到elasticsearch索引的方法,同时解决由于elasticsearch等索引服务器写入速度和hbase读取速度不一致造成的对索引集群或者hbase集群的资源占用压力,更好的解除hbase集群与索引服务集群之间的耦合。
为实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现的:
一种基于Hbase协处理器的大数据实时索引方法,包括如下步骤:
Step1,对于需要索引的表,添加协处理器监听;
Step2,针对Hbase中DDL、DML动作,定义相应动作的KEY;
Step3,编写基于Hbase协处理器的动作监听代码,以及将Hbase中操作的数据序列化发送到kafka;
Step4,将Hbase协处理动作数据进行处理,转成字节流写入Kafka中;
Step5,编写Kafka消费程序,对kafka中的数据进行转换,转成elasticsearch中Doc对象;
Step6,将数据实时写入elasticsearch中;
Step7,数据查询。
进一步地,所述步骤7数据查询,先基于Elasticsearch进行查询。
本发明的有益效果:通过对Hbase的DML、DDL动作进行监听,及时感知到对hbase的表以及数据操作动作,对相应动作进行封装,并发送到kafka消息队列中,同时索引转换器能够对于kafka中的数据以及相应动作进行相应索引处理,将hbase的动作监听与数据索引写入程序进行解耦,避免数据读取和写入速度不一致,造成的资源等待占用资源的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图;
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示的一种基于Hbase协处理器的大数据实时索引方法,包括如下步骤:
Step1,针对需要进行DDL(deleteTable、truncateTable)动作监听的表添加协处理器。
Step2,针对需要进行DML(delete、put)动作监听的表添加协处理器。
Step3,针对hbase中DDL、DML动作进行封装、定义动作类型的唯一标识KEY。
Step4,编写KAFKA生产者代码,将捕获到的HBASE动作、数据进行适配转成字节流发送数据到KAFKA。
Step5,根据具体业务需要,针对HBASE中数据类型、以及分词需求,定义相关Mapping,针对不同类型的数据建立相应类型的索引对应关系。
Step6,编写Kafka消费程序,对kafka中的数据进行消费,同时根据定义的Mapping进行转换。
Step7,将数据实时写入elasticsearch中。
Step8,数据查询的时候,先基于elasticsearch根据条件进行多条件分页查询,然后基于rowkey获取hbase中数据。
所述步骤7数据查询,先基于Elasticsearch进行查询。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (2)

1.一种基于Hbase协处理器的大数据实时索引方法,其特征在于,包括如下步骤:
Step1,对于需要索引的表,添加协处理器监听;
Step2,针对Hbase中DDL、DML动作,定义相应动作的KEY;
Step3,编写基于Hbase协处理器的动作监听代码,以及将Hbase中操作的数据序列化发送到kafka;
Step4,将Hbase协处理动作数据进行处理,转成字节流写入Kafka中;
Step5,编写Kafka消费程序,对kafka中的数据进行转换,转成elasticsearch中Doc对象;
Step6,将数据实时写入elasticsearch中;
Step7,数据查询。
2.根据权利要求1所述的一种基于Hbase协处理器的大数据实时索引方法,其特征在于,所述步骤3通过实时监听hbase表动作进行相应的数据实时索引。
CN201811081889.5A 2018-09-17 2018-09-17 一种基于Hbase协处理器的大数据实时索引方法 Pending CN109471856A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811081889.5A CN109471856A (zh) 2018-09-17 2018-09-17 一种基于Hbase协处理器的大数据实时索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811081889.5A CN109471856A (zh) 2018-09-17 2018-09-17 一种基于Hbase协处理器的大数据实时索引方法

Publications (1)

Publication Number Publication Date
CN109471856A true CN109471856A (zh) 2019-03-15

Family

ID=65664686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811081889.5A Pending CN109471856A (zh) 2018-09-17 2018-09-17 一种基于Hbase协处理器的大数据实时索引方法

Country Status (1)

Country Link
CN (1) CN109471856A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427366A (zh) * 2019-06-29 2019-11-08 苏州浪潮智能科技有限公司 基于phoenix改造hbase旧系统的索引同步方法、装置及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105681397A (zh) * 2015-12-30 2016-06-15 曙光信息产业(北京)有限公司 一种网络流量数据存储方法及系统、查询方法及装置
CN106528847A (zh) * 2016-11-24 2017-03-22 北京集奥聚合科技有限公司 一种海量数据的多维度处理方法及系统
CN107169083A (zh) * 2017-05-11 2017-09-15 聚龙融创科技有限公司 公安卡口海量车辆数据存储与检索方法及装置、电子设备
CN108153805A (zh) * 2017-11-17 2018-06-12 广东睿江云计算股份有限公司 一种高效清理Hbase时序数据的方法、系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105681397A (zh) * 2015-12-30 2016-06-15 曙光信息产业(北京)有限公司 一种网络流量数据存储方法及系统、查询方法及装置
CN106528847A (zh) * 2016-11-24 2017-03-22 北京集奥聚合科技有限公司 一种海量数据的多维度处理方法及系统
CN107169083A (zh) * 2017-05-11 2017-09-15 聚龙融创科技有限公司 公安卡口海量车辆数据存储与检索方法及装置、电子设备
CN108153805A (zh) * 2017-11-17 2018-06-12 广东睿江云计算股份有限公司 一种高效清理Hbase时序数据的方法、系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
夏超俊: "《基于协处理器机制的HBase检索速度改进研究》", 《万方学术会议数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427366A (zh) * 2019-06-29 2019-11-08 苏州浪潮智能科技有限公司 基于phoenix改造hbase旧系统的索引同步方法、装置及系统
CN110427366B (zh) * 2019-06-29 2022-07-12 苏州浪潮智能科技有限公司 基于phoenix改造hbase旧系统的索引同步方法、装置及系统

Similar Documents

Publication Publication Date Title
CN109254733B (zh) 用于存储数据的方法、装置和系统
CN109194736B (zh) 消息去重方法、装置、电子设备、介质和无人车
CN106503276A (zh) 一种用于实时监控系统的时间序列数据库的方法与装置
CN107870728A (zh) 用于移动数据的方法和设备
CN111258978B (zh) 一种数据存储的方法
US10372684B2 (en) Metadata peering with improved inodes
US9747302B2 (en) Method and apparatus for associating information
CN104881466A (zh) 数据分片的处理以及垃圾文件的删除方法和装置
US9672056B2 (en) Reducing redundant network transmissions in virtual machine live migration
CN113316772A (zh) 用于启用具有指示符的部分数据传输的系统、方法和装置
CN104598161B (zh) 数据读取、写入方法和装置及数据存储结构
CN111949850A (zh) 多源数据的采集方法、装置、设备及存储介质
CN104410666A (zh) 云计算下实现异构存储资源管理的方法及系统
US9380126B2 (en) Data collection and distribution management
CN109657167B (zh) 数据采集方法、装置、服务器及存储介质
CN108108392B (zh) 商品数据管理方法、装置、计算机设备及存储介质
CN109471856A (zh) 一种基于Hbase协处理器的大数据实时索引方法
CN109388651B (zh) 一种数据处理方法和装置
CN108763562A (zh) 一种基于大数据技术提升数据交换效率的构建方法
CN107003932A (zh) 多核处理器系统的缓存目录处理方法和目录控制器
CN112039975A (zh) 一种报文字段的处理方法、装置、设备及存储介质
CN109542860B (zh) 基于hdfs的业务数据管理方法、终端设备
CN110674080A (zh) 一种基于NiFi的大数据量非结构文件采集方法及系统
US10114864B1 (en) List element query support and processing
CN113268506A (zh) 缓存数据库的查询方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190315