CN109471856A - 一种基于Hbase协处理器的大数据实时索引方法 - Google Patents
一种基于Hbase协处理器的大数据实时索引方法 Download PDFInfo
- Publication number
- CN109471856A CN109471856A CN201811081889.5A CN201811081889A CN109471856A CN 109471856 A CN109471856 A CN 109471856A CN 201811081889 A CN201811081889 A CN 201811081889A CN 109471856 A CN109471856 A CN 109471856A
- Authority
- CN
- China
- Prior art keywords
- hbase
- data
- real time
- coprocessor
- kafka
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Devices For Executing Special Programs (AREA)
Abstract
本发明涉及Hbase实时索引技术领域,具体涉及一种基于Hbase协处理器的大数据实时索引方法,包括对于需要索引的表,添加协处理器监听;针对Hbase中DDL、DML动作,定义相应动作的KEY;编写基于Hbase协处理器的动作监听代码,以及将Hbase中操作的数据序列化发送到kafka。本发明通过对Hbase的DML、DDL动作进行监听,及时感知到对hbase的表以及数据操作动作,对相应动作进行封装,并发送到kafka消息队列中,同时索引转换器能够对于kafka中的数据以及相应动作进行相应索引处理,将hbase的动作监听与数据索引写入程序进行解耦,避免数据读取和写入速度不一致,造成的资源等待占用资源的问题。
Description
技术领域
本发明涉及Hbase实时索引技术领域,具体涉及一种基于Hbase协处理器的大数据实时索引方法。
背景技术
HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。但是由于hbase的数据读取,全部依赖于hbase的rowkey。为了实现能够基于对hbase中的部分数据进行复杂查询、或者进行全文检索,需要对hbase进行构建索引。传统的索引方法对于hbase索引的时候是循环读取Hbase表数据,然后直接将hbase表数据,存储到elasticsearch或者solr等索引服务器中。或者通过Hbase和elasticsearch进行直连,实现数据的直接进入索引集群,这样会对于hbase读取和elasticsearch写入的读写速度不同步造成阻塞的压力。
发明内容
本发明的目的在于克服现有技术中存在的问题,提供一种基于Hbase协处理器的大数据实时索引方法,它可以实现能够基于hbase中数据操作,实时对hbase数据进行提交到elasticsearch索引的方法,同时解决由于elasticsearch等索引服务器写入速度和hbase读取速度不一致造成的对索引集群或者hbase集群的资源占用压力,更好的解除hbase集群与索引服务集群之间的耦合。
为实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现的:
一种基于Hbase协处理器的大数据实时索引方法,包括如下步骤:
Step1,对于需要索引的表,添加协处理器监听;
Step2,针对Hbase中DDL、DML动作,定义相应动作的KEY;
Step3,编写基于Hbase协处理器的动作监听代码,以及将Hbase中操作的数据序列化发送到kafka;
Step4,将Hbase协处理动作数据进行处理,转成字节流写入Kafka中;
Step5,编写Kafka消费程序,对kafka中的数据进行转换,转成elasticsearch中Doc对象;
Step6,将数据实时写入elasticsearch中;
Step7,数据查询。
进一步地,所述步骤7数据查询,先基于Elasticsearch进行查询。
本发明的有益效果:通过对Hbase的DML、DDL动作进行监听,及时感知到对hbase的表以及数据操作动作,对相应动作进行封装,并发送到kafka消息队列中,同时索引转换器能够对于kafka中的数据以及相应动作进行相应索引处理,将hbase的动作监听与数据索引写入程序进行解耦,避免数据读取和写入速度不一致,造成的资源等待占用资源的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图;
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示的一种基于Hbase协处理器的大数据实时索引方法,包括如下步骤:
Step1,针对需要进行DDL(deleteTable、truncateTable)动作监听的表添加协处理器。
Step2,针对需要进行DML(delete、put)动作监听的表添加协处理器。
Step3,针对hbase中DDL、DML动作进行封装、定义动作类型的唯一标识KEY。
Step4,编写KAFKA生产者代码,将捕获到的HBASE动作、数据进行适配转成字节流发送数据到KAFKA。
Step5,根据具体业务需要,针对HBASE中数据类型、以及分词需求,定义相关Mapping,针对不同类型的数据建立相应类型的索引对应关系。
Step6,编写Kafka消费程序,对kafka中的数据进行消费,同时根据定义的Mapping进行转换。
Step7,将数据实时写入elasticsearch中。
Step8,数据查询的时候,先基于elasticsearch根据条件进行多条件分页查询,然后基于rowkey获取hbase中数据。
所述步骤7数据查询,先基于Elasticsearch进行查询。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (2)
1.一种基于Hbase协处理器的大数据实时索引方法,其特征在于,包括如下步骤:
Step1,对于需要索引的表,添加协处理器监听;
Step2,针对Hbase中DDL、DML动作,定义相应动作的KEY;
Step3,编写基于Hbase协处理器的动作监听代码,以及将Hbase中操作的数据序列化发送到kafka;
Step4,将Hbase协处理动作数据进行处理,转成字节流写入Kafka中;
Step5,编写Kafka消费程序,对kafka中的数据进行转换,转成elasticsearch中Doc对象;
Step6,将数据实时写入elasticsearch中;
Step7,数据查询。
2.根据权利要求1所述的一种基于Hbase协处理器的大数据实时索引方法,其特征在于,所述步骤3通过实时监听hbase表动作进行相应的数据实时索引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811081889.5A CN109471856A (zh) | 2018-09-17 | 2018-09-17 | 一种基于Hbase协处理器的大数据实时索引方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811081889.5A CN109471856A (zh) | 2018-09-17 | 2018-09-17 | 一种基于Hbase协处理器的大数据实时索引方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109471856A true CN109471856A (zh) | 2019-03-15 |
Family
ID=65664686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811081889.5A Pending CN109471856A (zh) | 2018-09-17 | 2018-09-17 | 一种基于Hbase协处理器的大数据实时索引方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109471856A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427366A (zh) * | 2019-06-29 | 2019-11-08 | 苏州浪潮智能科技有限公司 | 基于phoenix改造hbase旧系统的索引同步方法、装置及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105681397A (zh) * | 2015-12-30 | 2016-06-15 | 曙光信息产业(北京)有限公司 | 一种网络流量数据存储方法及系统、查询方法及装置 |
CN106528847A (zh) * | 2016-11-24 | 2017-03-22 | 北京集奥聚合科技有限公司 | 一种海量数据的多维度处理方法及系统 |
CN107169083A (zh) * | 2017-05-11 | 2017-09-15 | 聚龙融创科技有限公司 | 公安卡口海量车辆数据存储与检索方法及装置、电子设备 |
CN108153805A (zh) * | 2017-11-17 | 2018-06-12 | 广东睿江云计算股份有限公司 | 一种高效清理Hbase时序数据的方法、系统 |
-
2018
- 2018-09-17 CN CN201811081889.5A patent/CN109471856A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105681397A (zh) * | 2015-12-30 | 2016-06-15 | 曙光信息产业(北京)有限公司 | 一种网络流量数据存储方法及系统、查询方法及装置 |
CN106528847A (zh) * | 2016-11-24 | 2017-03-22 | 北京集奥聚合科技有限公司 | 一种海量数据的多维度处理方法及系统 |
CN107169083A (zh) * | 2017-05-11 | 2017-09-15 | 聚龙融创科技有限公司 | 公安卡口海量车辆数据存储与检索方法及装置、电子设备 |
CN108153805A (zh) * | 2017-11-17 | 2018-06-12 | 广东睿江云计算股份有限公司 | 一种高效清理Hbase时序数据的方法、系统 |
Non-Patent Citations (1)
Title |
---|
夏超俊: "《基于协处理器机制的HBase检索速度改进研究》", 《万方学术会议数据库》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427366A (zh) * | 2019-06-29 | 2019-11-08 | 苏州浪潮智能科技有限公司 | 基于phoenix改造hbase旧系统的索引同步方法、装置及系统 |
CN110427366B (zh) * | 2019-06-29 | 2022-07-12 | 苏州浪潮智能科技有限公司 | 基于phoenix改造hbase旧系统的索引同步方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109254733B (zh) | 用于存储数据的方法、装置和系统 | |
CN109194736B (zh) | 消息去重方法、装置、电子设备、介质和无人车 | |
CN106503276A (zh) | 一种用于实时监控系统的时间序列数据库的方法与装置 | |
CN107870728A (zh) | 用于移动数据的方法和设备 | |
CN111258978B (zh) | 一种数据存储的方法 | |
US10372684B2 (en) | Metadata peering with improved inodes | |
US9747302B2 (en) | Method and apparatus for associating information | |
CN104881466A (zh) | 数据分片的处理以及垃圾文件的删除方法和装置 | |
US9672056B2 (en) | Reducing redundant network transmissions in virtual machine live migration | |
CN113316772A (zh) | 用于启用具有指示符的部分数据传输的系统、方法和装置 | |
CN104598161B (zh) | 数据读取、写入方法和装置及数据存储结构 | |
CN111949850A (zh) | 多源数据的采集方法、装置、设备及存储介质 | |
CN104410666A (zh) | 云计算下实现异构存储资源管理的方法及系统 | |
US9380126B2 (en) | Data collection and distribution management | |
CN109657167B (zh) | 数据采集方法、装置、服务器及存储介质 | |
CN108108392B (zh) | 商品数据管理方法、装置、计算机设备及存储介质 | |
CN109471856A (zh) | 一种基于Hbase协处理器的大数据实时索引方法 | |
CN109388651B (zh) | 一种数据处理方法和装置 | |
CN108763562A (zh) | 一种基于大数据技术提升数据交换效率的构建方法 | |
CN107003932A (zh) | 多核处理器系统的缓存目录处理方法和目录控制器 | |
CN112039975A (zh) | 一种报文字段的处理方法、装置、设备及存储介质 | |
CN109542860B (zh) | 基于hdfs的业务数据管理方法、终端设备 | |
CN110674080A (zh) | 一种基于NiFi的大数据量非结构文件采集方法及系统 | |
US10114864B1 (en) | List element query support and processing | |
CN113268506A (zh) | 缓存数据库的查询方法、装置、电子设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190315 |