CN105069151A - HBase二级索引构建装置和方法 - Google Patents

HBase二级索引构建装置和方法 Download PDF

Info

Publication number
CN105069151A
CN105069151A CN201510521891.XA CN201510521891A CN105069151A CN 105069151 A CN105069151 A CN 105069151A CN 201510521891 A CN201510521891 A CN 201510521891A CN 105069151 A CN105069151 A CN 105069151A
Authority
CN
China
Prior art keywords
data
index
cluster
file
index data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510521891.XA
Other languages
English (en)
Inventor
费英林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yonyou Network Technology Co Ltd
Original Assignee
Yonyou Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yonyou Network Technology Co Ltd filed Critical Yonyou Network Technology Co Ltd
Priority to CN201510521891.XA priority Critical patent/CN105069151A/zh
Publication of CN105069151A publication Critical patent/CN105069151A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • G06F16/2386Bulk updating operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures

Abstract

本发明提供了一种HBase二级索引构建装置,包括:数据复制单元,用于通过主从集群的架构,将写入主集群的数据,以异步方式复制到从集群;数据更新单元,用于获取从集群中复制得到的数据,对相应的索引数据进行更新处理;索引文件生成单元,用于基于更新处理后的索引数据,部署批处理服务,生成索引文件。本发明还提供了一种HBase二级索引构建方法。通过本发明的技术方案,可以在现有的索引构建方式基础上,充分利用单对象类型完成多对象类型的索引构建,建立多对象类型元数据参与的面向复杂类型索引构建的通用、统一构建思路。

Description

HBase二级索引构建装置和方法
技术领域
本发明涉及计算机技术领域,具体地,涉及一种HBase二级索引构建装置和一种HBase二级索引构建方法。
背景技术
HBase是一个列存数据库,每行数据只有一个主键-RowKey,无法依据指定列的数据进行检索。查询时需要通过RowKey进行检索,然后查看指定列的数据是什么,效率低下。在实际应用中,我们经常需要根据指定列进行检索,或者几个列进行组合检索,这就提出了建立HBase二级索引的需求。
目前的HBase二级索引构建方案主要有两种。第一种方案是将索引数据单独存储为一张表,通过HBaseCoprocessor生成并访问索引数据。第二种方案是将索引数据与源数据存储在相同的Region里,索引数据定义为一个单独的列族,也是利用Coprocessor来生成并访问索引数据。对于第一种方案,源数据表与索引表的数据一致性很难保证,访问两张不同的表也会增加IO开销和远程调用的次数。对于第二种方案,单表的数据容量会急剧增加,对同一Region里的多个列族进行Split或Merge等操作时可能会造成数据丢失或不一致。
因此,需要一种新的索引构建技术,可以在现有的索引构建方式基础上,充分利用单对象类型完成多对象类型的索引构建,建立多对象类型元数据参与的面向复杂类型索引构建的通用、统一构建思路。
发明内容
本发明正是基于上述问题,提出了一种新的索引构建技术,可以在现有的索引构建方式基础上,充分利用单对象类型完成多对象类型的索引构建,建立多对象类型元数据参与的面向复杂类型索引构建的通用、统一构建思路。
有鉴于此,本发明提出了一种HBase二级索引构建装置,包括:数据复制单元,用于通过主从集群的架构,将写入主集群的数据,以异步方式复制到从集群;数据更新单元,用于获取从集群中复制得到的数据,对相应的索引数据进行更新处理;索引文件生成单元,用于基于更新处理后的索引数据,部署批处理服务,生成索引文件。在该技术方案中,将索引文件与HBase数据文件分开存储,提高了系统的IO性能,充分结合了批处理和实时处理两种流程,解决了数据一致性问题,减少了索引中的冗余数据。
在上述技术方案中,优选地,所述数据复制单元,具体包括:主集群中数据写入模块,用于将待构建二级索引的数据,写入至主集群;主从集群间数据复制模块,用于将写入主集群的数据,通过主从集群间的响应机制,以异步方式复制到从集群。在该技术方案中,通过主从集群的架构设计避免了HBase的高速读写与索引服务之间的资源竞争。
在上述技术方案中,优选地,所述数据更新单元,具体包括:索引数据更新模块,用于将从集群接收到的数据写入区域服务器和部署在从集群上的实时索引创建服务中,并更新索引数据至查询服务器;索引数据增量更新模块,用于将索引数据更新至查询服务器后,对索引数据进行增量更新,增量更新后的索引文件存储在分布式文件系统中。在该技术方案中,由于系统是部署在Hadoop集群上的,系统的处理能力和存储容量可以很方便的进行扩展,系统的安全性也得到了保障。
在上述技术方案中,优选地,所述索引文件生成单元,具体包括:批处理服务部署模块,用于在从集群上部署在批处理服务中,运行批处理服务,对增量更新后的索引数据进行全量更新,读取全量更新得到的所有数据,生成索引文件并发布到查询服务器;索引数据缓存模块,用于将索引文件中的索引数据缓存在查询服务器中。在该技术方案中,批处理服务通常是定期运行的,索引数据的全量更新保证了索引数据的准确性,减少了索引文件中的垃圾数据,同时也会大幅提升检索速度。
在上述技术方案中,优选地,所述索引文件生成单元,具体还包括:索引数据读取模块,用于通过辅助处理器上的插件,访问查询服务器,读取索引数据;进一步地,所述索引文件生成单元,用于基于更新处理后的索引数据,部署批处理服务,生成索引文件,并对索引文件中的索引数据进行处理。在该技术方案中,批处理与实时处理的有机结合,极大的提高了索引数据的准确度。
根据本发明的又一个方面,还提出了一种HBase二级索引构建方法,包括:步骤202:通过主从集群的架构,将写入主集群的数据,以异步方式复制到从集群;步骤204:获取从集群中复制得到的数据,对相应的索引数据进行更新处理;步骤206:基于更新处理后的索引数据,部署批处理服务,生成索引文件。在该技术方案中,将索引文件与HBase数据文件分开存储,提高了系统的IO性能,充分结合了批处理和实时处理两种流程,解决了数据一致性问题,减少了索引中的冗余数据。
在上述技术方案中,优选地,所述步骤202,具体包括:步骤302:将待构建二级索引的数据,写入至主集群;步骤304:将写入主集群的数据,通过主从集群间的响应机制,以异步方式复制到从集群。在该技术方案中,通过主从集群的架构设计避免了HBase的高速读写与索引服务之间的资源竞争。
在上述技术方案中,优选地,所述步骤204,具体包括:步骤402:将从集群接收到的数据写入区域服务器和部署在从集群上的实时索引创建服务中,并更新索引数据至查询服务器;步骤404:将索引数据更新至查询服务器后,对索引数据进行增量更新,增量更新后的索引文件存储在分布式文件系统中。在该技术方案中,由于系统是部署在Hadoop集群上的,系统的处理能力和存储容量可以很方便的进行扩展,系统的安全性也得到了保障。
在上述技术方案中,优选地,所述步骤206,具体包括:步骤502:在从集群上部署在批处理服务中,运行批处理服务,对增量更新后的索引数据进行全量更新,读取全量更新得到的所有数据,生成索引文件并发布到查询服务器;步骤504:将索引文件中的索引数据缓存在查询服务器中。在该技术方案中,批处理服务通常是定期运行的,索引数据的全量更新保证了索引数据的准确性,减少了索引文件中的垃圾数据,同时也会大幅提升检索速度。
在上述技术方案中,优选地,所述步骤206,具体还包括:步骤506:通过辅助处理器上的插件,访问查询服务器,读取索引数据;所述步骤206,进一步地用于基于更新处理后的索引数据,部署批处理服务,生成索引文件,并对索引文件中的索引数据进行处理。在该技术方案中,批处理与实时处理的有机结合,极大的提高了索引数据的准确度。
通过以上技术方案,可以在现有的索引构建方式基础上,充分利用单对象类型完成多对象类型的索引构建,建立多对象类型元数据参与的面向复杂类型索引构建的通用、统一构建思路。
附图说明
图1示出了根据本发明的实施例的HBase二级索引构建装置的框图;
图2示出了根据本发明的实施例的HBase二级索引构建方法的流程图;
图3示出了根据本发明的实施例的数据复制单元的流程图;
图4示出了根据本发明的实施例的数据更新单元的流程图;
图5示出了根据本发明的实施例的索引文件生成单元的流程图;
图6示出了根据本发明的实施例的HBase二级索引构建装置的总体架构图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的HBase二级索引构建装置的框图。
如图1所示,根据本发明的实施例的HBase二级索引构建装置100,包括:数据复制单元102,用于通过主从集群的架构,将写入主集群的数据,以异步方式复制到从集群;数据更新单元104,用于获取从集群中复制得到的数据,对相应的索引数据进行更新处理;索引文件生成单元106,用于基于更新处理后的索引数据,部署批处理服务,生成索引文件。在该技术方案中,将索引文件与HBase数据文件分开存储,提高了系统的IO性能,充分结合了批处理和实时处理两种流程,解决了数据一致性问题,减少了索引中的冗余数据。
在上述技术方案中,优选地,数据复制单元102,具体包括:主集群中数据写入模块1022,用于将待构建二级索引的数据,写入至主集群;主从集群间数据复制模块1024,用于将写入主集群的数据,通过主从集群间的响应机制,以异步方式复制到从集群。在该技术方案中,通过主从集群的架构设计避免了HBase的高速读写与索引服务之间的资源竞争。
在上述技术方案中,优选地,数据更新单元104,具体包括:索引数据更新模块1042,用于将从集群接收到的数据写入区域服务器和部署在从集群上的实时索引创建服务中,并更新索引数据至查询服务器;索引数据增量更新模块1044,用于将索引数据更新至查询服务器后,对索引数据进行增量更新,增量更新后的索引文件存储在分布式文件系统中。在该技术方案中,由于系统是部署在Hadoop集群上的,系统的处理能力和存储容量可以很方便的进行扩展,系统的安全性也得到了保障。
在上述技术方案中,优选地,索引文件生成单元106,具体包括:批处理服务部署模块1062,用于在从集群上部署在批处理服务中,运行批处理服务,对增量更新后的索引数据进行全量更新,读取全量更新得到的所有数据,生成索引文件并发布到查询服务器;索引数据缓存模块1064,用于将索引文件中的索引数据缓存在查询服务器中。在该技术方案中,批处理服务通常是定期运行的,索引数据的全量更新保证了索引数据的准确性,减少了索引文件中的垃圾数据,同时也会大幅提升检索速度。
在上述技术方案中,优选地,索引文件生成单元106,具体还包括:索引数据读取模块1066,用于通过辅助处理器上的插件,访问查询服务器,读取索引数据;进一步地,索引文件生成单元106,用于基于更新处理后的索引数据,部署批处理服务,生成索引文件,并对索引文件中的索引数据进行处理。在该技术方案中,批处理与实时处理的有机结合,极大的提高了索引数据的准确度。
图2示出了根据本发明的实施例的HBase二级索引构建方法的流程图。
如图2所示,根据本发明的实施例的HBase二级索引构建方法,包括:步骤202:通过主从集群的架构,将写入主集群的数据,以异步方式复制到从集群;步骤204:获取从集群中复制得到的数据,对相应的索引数据进行更新处理;步骤206:基于更新处理后的索引数据,部署批处理服务,生成索引文件。在该技术方案中,将索引文件与HBase数据文件分开存储,提高了系统的IO性能,充分结合了批处理和实时处理两种流程,解决了数据一致性问题,减少了索引中的冗余数据。
在上述技术方案中,优选地,参见图3,步骤202,具体包括:步骤302:将待构建二级索引的数据,写入至主集群;步骤304:将写入主集群的数据,通过主从集群间的响应机制,以异步方式复制到从集群。在该技术方案中,通过主从集群的架构设计避免了HBase的高速读写与索引服务之间的资源竞争。
在上述技术方案中,优选地,参见图4,步骤204,具体包括:步骤402:将从集群接收到的数据写入区域服务器和部署在从集群上的实时索引创建服务中,并更新索引数据至查询服务器;步骤404:将索引数据更新至查询服务器后,对索引数据进行增量更新,增量更新后的索引文件存储在分布式文件系统中。在该技术方案中,由于系统是部署在Hadoop集群上的,系统的处理能力和存储容量可以很方便的进行扩展,系统的安全性也得到了保障。
在上述技术方案中,优选地,参见图5,步骤206,具体包括:步骤502:在从集群上部署在批处理服务中,运行批处理服务,对增量更新后的索引数据进行全量更新,读取全量更新得到的所有数据,生成索引文件并发布到查询服务器;步骤504:将索引文件中的索引数据缓存在查询服务器中。在该技术方案中,批处理服务通常是定期运行的,索引数据的全量更新保证了索引数据的准确性,减少了索引文件中的垃圾数据,同时也会大幅提升检索速度。
在上述技术方案中,优选地,步骤206,具体还包括:步骤506:通过辅助处理器上的插件,访问查询服务器,读取索引数据;步骤206,进一步地用于基于更新处理后的索引数据,部署批处理服务,生成索引文件,并对索引文件中的索引数据进行处理。在该技术方案中,批处理与实时处理的有机结合,极大的提高了索引数据的准确度。
本发明的技术方案,实现了一种HBase二级索引的构建方案,即基于CDHSearch的HBase二级索引构建方案。通过该方案,用户可以方便地实现HBase中单列或多列数据的索引创建及查询。为了实现分布式索引的创建和查询,该方案利用CDHSearch、HBase主从集群以及索引读取Coprocessor来实现索引的生成与读取。该系统有效地结合了批处理和实时处理两种方式,充分利用了HBaseCoprocessor的工作机制,系统本身具有很好的扩展性,可以快速方便的扩展计算能力和存储容量。
本发明的技术方案,针对已有HBase二级索引构建方案中的不足,提出了基于CDHSearch、HBase主从集群以及HBaseCoprocessor的分布式索引构建方案。该方案分离了索引的创建和读取过程,将索引文件与HBase数据文件分开存储,提高了系统的IO性能,充分结合了批处理和实时处理两种流程,解决了数据一致性问题,减少了索引中的冗余数据。基于Hadoop的整体设计也保证了系统的高可用性和高可扩展性。
本发明的技术方案的总体结构如图6所示。针对执行流程中与本发明技术方案相关的一些概念解释如下:
主HBase集群:主集群接收客户端数据并复制到从HBase集群。IndexReadCoprocessor部署在主HBase集群上。客户端从主集群读取数据,读取数据时首先执行IndexReadCoprocessor。
从HBase集群:接收主集群发来的数据,在从集群上创建索引。主从集群之间通过ZooKeeper进行协作,数据通过RPC协议进行传输。
LilyHBaseNRTIndexer:是CDH(ClouderaDistributionofHadoop)的一个实时索引创建服务,部署在从集群。它长期运行在从集群,HBase把它视为一个RegionServer。当主集群数据到达时,从集群除了向正常RegionServer里写数据之外,还要向这个Indexer写入数据。Indexer将接收到的数据实时更新至在线Search服务器。可以通过配置文件定义数据读取内容、数据处理及加载等。生成的索引文件存储在从集群的HDFS里。
LilyHBaseBatchIndexer:是CDH(ClouderaDistributionofHadoop)的一个基于MapReduce的批量索引创建服务,部署在从集群。它以固定周期运行,读取HBase表中全量数据,批量生成索引文件并更新到Search服务器。可以通过配置文件定义数据读取内容、数据处理及加载等。生成的索引文件存储在从集群的HDFS里。
索引文件:Indexer生成的索引文件存储在HDFS里,Search服务器读取并缓存这些索引数据。
CDHSearch服务:CDHSearch是一个索引创建与检索服务,它与CDH(ClouderaDistributionofHadoop)高度集成,核心系统是ApacheSolr-包括ApacheLucene,SolrCloud,ApacheTika和SolrCell。Search的索引文件存储在HDFS里,避免了海量数据的移动问题,缩短了索引的创建周期,HDFS的多数据备份也保证了索引数据的安全性。
IndexReadCoprocessor:是HBase的插件,部署在主集群里。当客户端读取数据时,首先执行IndexReadCoprocessor,读取Search索引文件,查看是否存在指定的键值。如果存在索引,则取出源数据的RowKey,以RowKey再次查询数据库;如果不存在,则直接查询数据库。
本发明技术方案的详细步骤解释如下:
⑴首先,客户端写数据至HBase主集群,写入的数据通过主从集群间的Replication机制复制至从集群。主从集群的架构设计避免了HBase的高速读写与索引服务之间的资源竞争,主集群以异步方式将数据复制到从集群,后续的数据处理完全在从集群上进行。
⑵从集群接收到数据后向RegionServer中写入数据,部署在从集群上的LilyHBaseNRTIndexer也会接收到同样的数据,然后更新索引数据至Search服务器。
⑶LilyHBaseNRTIndexer是一个实时索引创建服务,部署在从集群上。它接收到数据后,对索引数据进行增量更新,更新后的索引文件存储在HDFS里。我们可以通过配置文件来定义LilyHBaseNRTIndexer的数据处理过程,比如我们需要哪些字段,在这些字段上需要做哪些处理,等等。
⑷LilyHBaseBatchIndexer是一个基于Map-Reduce的批处理服务,部署在从集群上。当需要对索引数据做全量更新时,我们可以运行这个服务。它读取表中所有数据,生成索引文件并发布到Search服务器。这个服务通常是定期运行的,索引数据的全量更新保证了索引数据的准确性,减少了索引文件中的垃圾数据,同时也会大幅提升检索速度。
⑸CDHSearch服务读取HDFS上的索引文件并对索引数据进行缓存,客户端可通过标准的SolrAPI访问这些索引数据。CDHSearch是一个分布式索引服务,可包含多台服务器,这些服务器共享HDFS上的索引文件。
⑹IndexReadCoprocessor是HBase的一个插件,HBase提供了相应的接口。当客户端读数据时,这个插件会访问Search服务,读取索引数据。
目前的HBase二级索引构建方案或者需要一张单独的索引表,或者需要一个单独的列族来存储索引数据,索引的生成和访问都是在HBase中完成的。这样的设计会影响到HBase的整体性能,独立的表或列族与源数据表或列族之间的数据也会经常出现不一致,系统架构复杂,难于维护。
本发明的技术方案利用了HBase的Replication机制、CDHSearch服务和HBaseCoprocessor插件,实现了索引数据的读写分离;批处理与实时处理的有机结合,极大的提高了索引数据的准确度。主从集群的架构保证了主集群中HBase的高可用性和时效性,位于从集群上的索引服务器也能最大化的利用系统资源。由于系统是部署在Hadoop集群上的,系统的处理能力和存储容量可以很方便的进行扩展,系统的安全性也得到了保障。
本发明的技术方案,充分利用了HBase的Replication机制、CDHSearch服务和HBaseCoprocessor插件,实现了读写分离;在索引创建过程中实现了批处理和实时处理的有机结合,保证了索引数据的时效性与准确性。
以上结合附图详细说明了本发明的技术方案,考虑到相关技术中没有简便的、统一的针对复杂类型元数据构建的解决办法。现有的索引构建无法完成有复杂类型参与的索引构建过程。因此,本发明提出了一种HBase二级索引构建装置和一种HBase二级索引构建方法,可以在现有的索引构建方式基础上,充分利用单对象类型完成多对象类型的索引构建,建立多对象类型元数据参与的面向复杂类型索引构建的通用、统一构建思路。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种HBase二级索引构建装置,其特征在于,包括:
数据复制单元,用于通过主从集群的架构,将写入主集群的数据,以异步方式复制到从集群;
数据更新单元,用于获取从集群中复制得到的数据,对相应的索引数据进行更新处理;
索引文件生成单元,用于基于更新处理后的索引数据,部署批处理服务,生成索引文件。
2.根据权利要求1所述的HBase二级索引构建装置,其特征在于,所述数据复制单元,具体包括:
主集群中数据写入模块,用于将待构建二级索引的数据,写入至主集群;
主从集群间数据复制模块,用于将写入主集群的数据,通过主从集群间的响应机制,以异步方式复制到从集群。
3.根据权利要求1或2所述的HBase二级索引构建装置,其特征在于,所述数据更新单元,具体包括:
索引数据更新模块,用于将从集群接收到的数据写入区域服务器和部署在从集群上的实时索引创建服务中,并更新索引数据至查询服务器;
索引数据增量更新模块,用于将索引数据更新至查询服务器后,对索引数据进行增量更新,增量更新后的索引文件存储在分布式文件系统中。
4.根据权利要求1或2所述的HBase二级索引构建装置,其特征在于,所述索引文件生成单元,具体包括:
批处理服务部署模块,用于在从集群上部署在批处理服务中,运行批处理服务,对增量更新后的索引数据进行全量更新,读取全量更新得到的所有数据,生成索引文件并发布到查询服务器;
索引数据缓存模块,用于将索引文件中的索引数据缓存在查询服务器中。
5.根据权利要求4所述的HBase二级索引构建装置,其特征在于,所述索引文件生成单元,具体还包括:
索引数据读取模块,用于通过辅助处理器上的插件,访问查询服务器,读取索引数据;
进一步地,
所述索引文件生成单元,用于基于更新处理后的索引数据,部署批处理服务,生成索引文件,并对索引文件中的索引数据进行处理。
6.一种HBase二级索引构建方法,其特征在于,包括:
步骤202:通过主从集群的架构,将写入主集群的数据,以异步方式复制到从集群;
步骤204:获取从集群中复制得到的数据,对相应的索引数据进行更新处理;
步骤206:基于更新处理后的索引数据,部署批处理服务,生成索引文件。
7.根据权利要求1所述的HBase二级索引构建方法,其特征在于,所述步骤202,具体包括:
步骤302:将待构建二级索引的数据,写入至主集群;
步骤304:将写入主集群的数据,通过主从集群间的响应机制,以异步方式复制到从集群。
8.根据权利要求6或7所述的HBase二级索引构建方法,其特征在于,所述步骤204,具体包括:
步骤402:将从集群接收到的数据写入区域服务器和部署在从集群上的实时索引创建服务中,并更新索引数据至查询服务器;
步骤404:将索引数据更新至查询服务器后,对索引数据进行增量更新,增量更新后的索引文件存储在分布式文件系统中。
9.根据权利要求6或7所述的HBase二级索引构建方法,其特征在于,所述步骤206,具体包括:
步骤502:在从集群上部署在批处理服务中,运行批处理服务,对增量更新后的索引数据进行全量更新,读取全量更新得到的所有数据,生成索引文件并发布到查询服务器;
步骤504:将索引文件中的索引数据缓存在查询服务器中。
10.根据权利要求9所述的HBase二级索引构建方法,其特征在于,所述步骤206,具体还包括:
步骤506:通过辅助处理器上的插件,访问查询服务器,读取索引数据;
所述步骤206,进一步地用于基于更新处理后的索引数据,部署批处理服务,生成索引文件,并对索引文件中的索引数据进行处理。
CN201510521891.XA 2015-08-24 2015-08-24 HBase二级索引构建装置和方法 Pending CN105069151A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510521891.XA CN105069151A (zh) 2015-08-24 2015-08-24 HBase二级索引构建装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510521891.XA CN105069151A (zh) 2015-08-24 2015-08-24 HBase二级索引构建装置和方法

Publications (1)

Publication Number Publication Date
CN105069151A true CN105069151A (zh) 2015-11-18

Family

ID=54498520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510521891.XA Pending CN105069151A (zh) 2015-08-24 2015-08-24 HBase二级索引构建装置和方法

Country Status (1)

Country Link
CN (1) CN105069151A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294826A (zh) * 2016-08-17 2017-01-04 北京北信源软件股份有限公司 一种集群数据实时查询方法及系统
CN106777357A (zh) * 2017-01-19 2017-05-31 郑州云海信息技术有限公司 一种异步构建HBase全文索引的方法
CN107273462A (zh) * 2017-06-02 2017-10-20 郑州云海信息技术有限公司 一种构建HBase集群全文索引方法,数据读取方法以及数据写入方法
CN107368477A (zh) * 2016-05-11 2017-11-21 北京京东尚科信息技术有限公司 基于HBase协处理器的类SQL查询的方法和系统
CN107577680A (zh) * 2016-07-05 2018-01-12 滴滴(中国)科技有限公司 基于HBase大数据的实时全文检索系统及其实现方法
CN111522832A (zh) * 2020-05-09 2020-08-11 深圳市铭墨科技有限公司 一种大数据实时更新方法、系统、设备和存储介质
CN111797092A (zh) * 2019-04-02 2020-10-20 Sap欧洲公司 在数据库系统内提供次级索引的方法和系统
CN112286905A (zh) * 2020-10-15 2021-01-29 北京沃东天骏信息技术有限公司 数据迁移方法及装置、存储介质、电子设备
CN112632083A (zh) * 2020-12-31 2021-04-09 中国农业银行股份有限公司 一种实现索引数据更新的方法、装置及设备
CN114372064A (zh) * 2022-03-22 2022-04-19 飞狐信息技术(天津)有限公司 数据处理装置、方法、计算机可读介质及处理器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426589A (zh) * 2011-10-31 2012-04-25 合一网络技术(北京)有限公司 一种用于数据库信息检索的中间层系统及信息检索方法
US20140012867A1 (en) * 2010-08-27 2014-01-09 Pneuron Corp. Method And Process For Enabling Distributing Cache Data Sources For Query Processing And Distributed Disk Caching Of Large Data And Analysis Requests
CN104112013A (zh) * 2014-07-17 2014-10-22 浪潮(北京)电子信息产业有限公司 HBase二级索引方法及装置
CN104217011A (zh) * 2014-09-19 2014-12-17 浪潮(北京)电子信息产业有限公司 HBase二级索引表的查询方法和装置
CN104731922A (zh) * 2015-03-26 2015-06-24 江苏物联网研究发展中心 基于分布式数据库HBase的结构化数据的快速检索系统及方法
CN104834688A (zh) * 2015-04-20 2015-08-12 北京奇艺世纪科技有限公司 一种二级索引建立方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140012867A1 (en) * 2010-08-27 2014-01-09 Pneuron Corp. Method And Process For Enabling Distributing Cache Data Sources For Query Processing And Distributed Disk Caching Of Large Data And Analysis Requests
CN102426589A (zh) * 2011-10-31 2012-04-25 合一网络技术(北京)有限公司 一种用于数据库信息检索的中间层系统及信息检索方法
CN104112013A (zh) * 2014-07-17 2014-10-22 浪潮(北京)电子信息产业有限公司 HBase二级索引方法及装置
CN104217011A (zh) * 2014-09-19 2014-12-17 浪潮(北京)电子信息产业有限公司 HBase二级索引表的查询方法和装置
CN104731922A (zh) * 2015-03-26 2015-06-24 江苏物联网研究发展中心 基于分布式数据库HBase的结构化数据的快速检索系统及方法
CN104834688A (zh) * 2015-04-20 2015-08-12 北京奇艺世纪科技有限公司 一种二级索引建立方法和装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368477A (zh) * 2016-05-11 2017-11-21 北京京东尚科信息技术有限公司 基于HBase协处理器的类SQL查询的方法和系统
CN107577680B (zh) * 2016-07-05 2021-04-09 北京嘀嘀无限科技发展有限公司 基于HBase大数据的实时全文检索系统及其实现方法
CN107577680A (zh) * 2016-07-05 2018-01-12 滴滴(中国)科技有限公司 基于HBase大数据的实时全文检索系统及其实现方法
CN106294826B (zh) * 2016-08-17 2019-06-21 北京北信源软件股份有限公司 一种集群数据实时查询方法及系统
CN106294826A (zh) * 2016-08-17 2017-01-04 北京北信源软件股份有限公司 一种集群数据实时查询方法及系统
CN106777357B (zh) * 2017-01-19 2020-06-02 郑州云海信息技术有限公司 一种异步构建HBase全文索引的方法
CN106777357A (zh) * 2017-01-19 2017-05-31 郑州云海信息技术有限公司 一种异步构建HBase全文索引的方法
CN107273462A (zh) * 2017-06-02 2017-10-20 郑州云海信息技术有限公司 一种构建HBase集群全文索引方法,数据读取方法以及数据写入方法
CN111797092A (zh) * 2019-04-02 2020-10-20 Sap欧洲公司 在数据库系统内提供次级索引的方法和系统
CN111522832A (zh) * 2020-05-09 2020-08-11 深圳市铭墨科技有限公司 一种大数据实时更新方法、系统、设备和存储介质
CN111522832B (zh) * 2020-05-09 2024-04-19 深圳市铭墨科技有限公司 一种大数据实时更新方法、系统、设备和存储介质
CN112286905A (zh) * 2020-10-15 2021-01-29 北京沃东天骏信息技术有限公司 数据迁移方法及装置、存储介质、电子设备
CN112632083A (zh) * 2020-12-31 2021-04-09 中国农业银行股份有限公司 一种实现索引数据更新的方法、装置及设备
CN114372064A (zh) * 2022-03-22 2022-04-19 飞狐信息技术(天津)有限公司 数据处理装置、方法、计算机可读介质及处理器

Similar Documents

Publication Publication Date Title
CN105069151A (zh) HBase二级索引构建装置和方法
JP6602355B2 (ja) クラウドベースの分散永続性及びキャッシュデータモデル
CN107169083B (zh) 公安卡口海量车辆数据存储与检索方法及装置、电子设备
US10078681B2 (en) Differentiated secondary index maintenance in log structured NoSQL data stores
Padhy et al. RDBMS to NoSQL: reviewing some next-generation non-relational database’s
Makris et al. A classification of NoSQL data stores based on key design characteristics
Vora Hadoop-HBase for large-scale data
Tan et al. Faster and cheaper: Parallelizing large-scale matrix factorization on GPUs
JP2020514935A (ja) データベース用の方法及びシステム
US20130191523A1 (en) Real-time analytics for large data sets
Chrysafis et al. Foundationdb record layer: A multi-tenant structured datastore
CN103559247A (zh) 一种数据业务处理方法及装置
Mukhopadhyay et al. Addressing name node scalability issue in Hadoop distributed file system using cache approach
CN104794567B (zh) 一种基于HBase的传染病数据管理方法
Yang From Google file system to omega: a decade of advancement in big data management at Google
CN104699720A (zh) 海量数据融合存储方法及系统
Shin et al. Parqua: Online reconfigurations in virtual ring-based nosql systems
Li et al. Research and implementation of a distributed transaction processing middleware
Vilaça et al. On the expressiveness and trade-offs of large scale tuple stores
Singh NoSQL: A new horizon in big data
CN104239576A (zh) 查找HBase表列值中所有行的方法和装置
Cheng et al. BF-matrix: A secondary index for the cloud storage
CN110196871B (zh) 数据入库方法和系统
Diaz et al. Working with NoSQL Alternatives
Nidzwetzki BBoxDB–A Distributed Key-Bounding-Box-Value Store

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151118

RJ01 Rejection of invention patent application after publication