CN105069151A

CN105069151A - HBase二级索引构建装置和方法

Info

Publication number: CN105069151A
Application number: CN201510521891.XA
Authority: CN
Inventors: 费英林
Original assignee: Yonyou Network Technology Co Ltd
Current assignee: Yonyou Network Technology Co Ltd
Priority date: 2015-08-24
Filing date: 2015-08-24
Publication date: 2015-11-18

Abstract

本发明提供了一种HBase二级索引构建装置，包括：数据复制单元，用于通过主从集群的架构，将写入主集群的数据，以异步方式复制到从集群；数据更新单元，用于获取从集群中复制得到的数据，对相应的索引数据进行更新处理；索引文件生成单元，用于基于更新处理后的索引数据，部署批处理服务，生成索引文件。本发明还提供了一种HBase二级索引构建方法。通过本发明的技术方案，可以在现有的索引构建方式基础上，充分利用单对象类型完成多对象类型的索引构建，建立多对象类型元数据参与的面向复杂类型索引构建的通用、统一构建思路。

Description

HBase二级索引构建装置和方法

技术领域

本发明涉及计算机技术领域，具体地，涉及一种HBase二级索引构建装置和一种HBase二级索引构建方法。

背景技术

HBase是一个列存数据库，每行数据只有一个主键-RowKey，无法依据指定列的数据进行检索。查询时需要通过RowKey进行检索，然后查看指定列的数据是什么，效率低下。在实际应用中，我们经常需要根据指定列进行检索，或者几个列进行组合检索，这就提出了建立HBase二级索引的需求。

目前的HBase二级索引构建方案主要有两种。第一种方案是将索引数据单独存储为一张表，通过HBaseCoprocessor生成并访问索引数据。第二种方案是将索引数据与源数据存储在相同的Region里，索引数据定义为一个单独的列族，也是利用Coprocessor来生成并访问索引数据。对于第一种方案，源数据表与索引表的数据一致性很难保证，访问两张不同的表也会增加IO开销和远程调用的次数。对于第二种方案，单表的数据容量会急剧增加，对同一Region里的多个列族进行Split或Merge等操作时可能会造成数据丢失或不一致。

因此，需要一种新的索引构建技术，可以在现有的索引构建方式基础上，充分利用单对象类型完成多对象类型的索引构建，建立多对象类型元数据参与的面向复杂类型索引构建的通用、统一构建思路。

发明内容

本发明正是基于上述问题，提出了一种新的索引构建技术，可以在现有的索引构建方式基础上，充分利用单对象类型完成多对象类型的索引构建，建立多对象类型元数据参与的面向复杂类型索引构建的通用、统一构建思路。

有鉴于此，本发明提出了一种HBase二级索引构建装置，包括：数据复制单元，用于通过主从集群的架构，将写入主集群的数据，以异步方式复制到从集群；数据更新单元，用于获取从集群中复制得到的数据，对相应的索引数据进行更新处理；索引文件生成单元，用于基于更新处理后的索引数据，部署批处理服务，生成索引文件。在该技术方案中，将索引文件与HBase数据文件分开存储，提高了系统的IO性能，充分结合了批处理和实时处理两种流程，解决了数据一致性问题，减少了索引中的冗余数据。

在上述技术方案中，优选地，所述数据复制单元，具体包括：主集群中数据写入模块，用于将待构建二级索引的数据，写入至主集群；主从集群间数据复制模块，用于将写入主集群的数据，通过主从集群间的响应机制，以异步方式复制到从集群。在该技术方案中，通过主从集群的架构设计避免了HBase的高速读写与索引服务之间的资源竞争。

在上述技术方案中，优选地，所述数据更新单元，具体包括：索引数据更新模块，用于将从集群接收到的数据写入区域服务器和部署在从集群上的实时索引创建服务中，并更新索引数据至查询服务器；索引数据增量更新模块，用于将索引数据更新至查询服务器后，对索引数据进行增量更新，增量更新后的索引文件存储在分布式文件系统中。在该技术方案中，由于系统是部署在Hadoop集群上的，系统的处理能力和存储容量可以很方便的进行扩展，系统的安全性也得到了保障。

在上述技术方案中，优选地，所述索引文件生成单元，具体包括：批处理服务部署模块，用于在从集群上部署在批处理服务中，运行批处理服务，对增量更新后的索引数据进行全量更新，读取全量更新得到的所有数据，生成索引文件并发布到查询服务器；索引数据缓存模块，用于将索引文件中的索引数据缓存在查询服务器中。在该技术方案中，批处理服务通常是定期运行的，索引数据的全量更新保证了索引数据的准确性，减少了索引文件中的垃圾数据，同时也会大幅提升检索速度。

在上述技术方案中，优选地，所述索引文件生成单元，具体还包括：索引数据读取模块，用于通过辅助处理器上的插件，访问查询服务器，读取索引数据；进一步地，所述索引文件生成单元，用于基于更新处理后的索引数据，部署批处理服务，生成索引文件，并对索引文件中的索引数据进行处理。在该技术方案中，批处理与实时处理的有机结合，极大的提高了索引数据的准确度。

根据本发明的又一个方面，还提出了一种HBase二级索引构建方法，包括：步骤202：通过主从集群的架构，将写入主集群的数据，以异步方式复制到从集群；步骤204：获取从集群中复制得到的数据，对相应的索引数据进行更新处理；步骤206：基于更新处理后的索引数据，部署批处理服务，生成索引文件。在该技术方案中，将索引文件与HBase数据文件分开存储，提高了系统的IO性能，充分结合了批处理和实时处理两种流程，解决了数据一致性问题，减少了索引中的冗余数据。

在上述技术方案中，优选地，所述步骤202，具体包括：步骤302：将待构建二级索引的数据，写入至主集群；步骤304：将写入主集群的数据，通过主从集群间的响应机制，以异步方式复制到从集群。在该技术方案中，通过主从集群的架构设计避免了HBase的高速读写与索引服务之间的资源竞争。

在上述技术方案中，优选地，所述步骤204，具体包括：步骤402：将从集群接收到的数据写入区域服务器和部署在从集群上的实时索引创建服务中，并更新索引数据至查询服务器；步骤404：将索引数据更新至查询服务器后，对索引数据进行增量更新，增量更新后的索引文件存储在分布式文件系统中。在该技术方案中，由于系统是部署在Hadoop集群上的，系统的处理能力和存储容量可以很方便的进行扩展，系统的安全性也得到了保障。

在上述技术方案中，优选地，所述步骤206，具体包括：步骤502：在从集群上部署在批处理服务中，运行批处理服务，对增量更新后的索引数据进行全量更新，读取全量更新得到的所有数据，生成索引文件并发布到查询服务器；步骤504：将索引文件中的索引数据缓存在查询服务器中。在该技术方案中，批处理服务通常是定期运行的，索引数据的全量更新保证了索引数据的准确性，减少了索引文件中的垃圾数据，同时也会大幅提升检索速度。

在上述技术方案中，优选地，所述步骤206，具体还包括：步骤506：通过辅助处理器上的插件，访问查询服务器，读取索引数据；所述步骤206，进一步地用于基于更新处理后的索引数据，部署批处理服务，生成索引文件，并对索引文件中的索引数据进行处理。在该技术方案中，批处理与实时处理的有机结合，极大的提高了索引数据的准确度。

通过以上技术方案，可以在现有的索引构建方式基础上，充分利用单对象类型完成多对象类型的索引构建，建立多对象类型元数据参与的面向复杂类型索引构建的通用、统一构建思路。

附图说明

图1示出了根据本发明的实施例的HBase二级索引构建装置的框图；

图2示出了根据本发明的实施例的HBase二级索引构建方法的流程图；

图3示出了根据本发明的实施例的数据复制单元的流程图；

图4示出了根据本发明的实施例的数据更新单元的流程图；

图5示出了根据本发明的实施例的索引文件生成单元的流程图；

图6示出了根据本发明的实施例的HBase二级索引构建装置的总体架构图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明的实施例的HBase二级索引构建装置的框图。

如图1所示，根据本发明的实施例的HBase二级索引构建装置100，包括：数据复制单元102，用于通过主从集群的架构，将写入主集群的数据，以异步方式复制到从集群；数据更新单元104，用于获取从集群中复制得到的数据，对相应的索引数据进行更新处理；索引文件生成单元106，用于基于更新处理后的索引数据，部署批处理服务，生成索引文件。在该技术方案中，将索引文件与HBase数据文件分开存储，提高了系统的IO性能，充分结合了批处理和实时处理两种流程，解决了数据一致性问题，减少了索引中的冗余数据。

在上述技术方案中，优选地，数据复制单元102，具体包括：主集群中数据写入模块1022，用于将待构建二级索引的数据，写入至主集群；主从集群间数据复制模块1024，用于将写入主集群的数据，通过主从集群间的响应机制，以异步方式复制到从集群。在该技术方案中，通过主从集群的架构设计避免了HBase的高速读写与索引服务之间的资源竞争。

在上述技术方案中，优选地，数据更新单元104，具体包括：索引数据更新模块1042，用于将从集群接收到的数据写入区域服务器和部署在从集群上的实时索引创建服务中，并更新索引数据至查询服务器；索引数据增量更新模块1044，用于将索引数据更新至查询服务器后，对索引数据进行增量更新，增量更新后的索引文件存储在分布式文件系统中。在该技术方案中，由于系统是部署在Hadoop集群上的，系统的处理能力和存储容量可以很方便的进行扩展，系统的安全性也得到了保障。

在上述技术方案中，优选地，索引文件生成单元106，具体包括：批处理服务部署模块1062，用于在从集群上部署在批处理服务中，运行批处理服务，对增量更新后的索引数据进行全量更新，读取全量更新得到的所有数据，生成索引文件并发布到查询服务器；索引数据缓存模块1064，用于将索引文件中的索引数据缓存在查询服务器中。在该技术方案中，批处理服务通常是定期运行的，索引数据的全量更新保证了索引数据的准确性，减少了索引文件中的垃圾数据，同时也会大幅提升检索速度。

在上述技术方案中，优选地，索引文件生成单元106，具体还包括：索引数据读取模块1066，用于通过辅助处理器上的插件，访问查询服务器，读取索引数据；进一步地，索引文件生成单元106，用于基于更新处理后的索引数据，部署批处理服务，生成索引文件，并对索引文件中的索引数据进行处理。在该技术方案中，批处理与实时处理的有机结合，极大的提高了索引数据的准确度。

图2示出了根据本发明的实施例的HBase二级索引构建方法的流程图。

如图2所示，根据本发明的实施例的HBase二级索引构建方法，包括：步骤202：通过主从集群的架构，将写入主集群的数据，以异步方式复制到从集群；步骤204：获取从集群中复制得到的数据，对相应的索引数据进行更新处理；步骤206：基于更新处理后的索引数据，部署批处理服务，生成索引文件。在该技术方案中，将索引文件与HBase数据文件分开存储，提高了系统的IO性能，充分结合了批处理和实时处理两种流程，解决了数据一致性问题，减少了索引中的冗余数据。

在上述技术方案中，优选地，参见图3，步骤202，具体包括：步骤302：将待构建二级索引的数据，写入至主集群；步骤304：将写入主集群的数据，通过主从集群间的响应机制，以异步方式复制到从集群。在该技术方案中，通过主从集群的架构设计避免了HBase的高速读写与索引服务之间的资源竞争。

在上述技术方案中，优选地，参见图4，步骤204，具体包括：步骤402：将从集群接收到的数据写入区域服务器和部署在从集群上的实时索引创建服务中，并更新索引数据至查询服务器；步骤404：将索引数据更新至查询服务器后，对索引数据进行增量更新，增量更新后的索引文件存储在分布式文件系统中。在该技术方案中，由于系统是部署在Hadoop集群上的，系统的处理能力和存储容量可以很方便的进行扩展，系统的安全性也得到了保障。

在上述技术方案中，优选地，参见图5，步骤206，具体包括：步骤502：在从集群上部署在批处理服务中，运行批处理服务，对增量更新后的索引数据进行全量更新，读取全量更新得到的所有数据，生成索引文件并发布到查询服务器；步骤504：将索引文件中的索引数据缓存在查询服务器中。在该技术方案中，批处理服务通常是定期运行的，索引数据的全量更新保证了索引数据的准确性，减少了索引文件中的垃圾数据，同时也会大幅提升检索速度。

在上述技术方案中，优选地，步骤206，具体还包括：步骤506：通过辅助处理器上的插件，访问查询服务器，读取索引数据；步骤206，进一步地用于基于更新处理后的索引数据，部署批处理服务，生成索引文件，并对索引文件中的索引数据进行处理。在该技术方案中，批处理与实时处理的有机结合，极大的提高了索引数据的准确度。

本发明的技术方案，实现了一种HBase二级索引的构建方案，即基于CDHSearch的HBase二级索引构建方案。通过该方案，用户可以方便地实现HBase中单列或多列数据的索引创建及查询。为了实现分布式索引的创建和查询，该方案利用CDHSearch、HBase主从集群以及索引读取Coprocessor来实现索引的生成与读取。该系统有效地结合了批处理和实时处理两种方式，充分利用了HBaseCoprocessor的工作机制，系统本身具有很好的扩展性，可以快速方便的扩展计算能力和存储容量。

本发明的技术方案，针对已有HBase二级索引构建方案中的不足，提出了基于CDHSearch、HBase主从集群以及HBaseCoprocessor的分布式索引构建方案。该方案分离了索引的创建和读取过程，将索引文件与HBase数据文件分开存储，提高了系统的IO性能，充分结合了批处理和实时处理两种流程，解决了数据一致性问题，减少了索引中的冗余数据。基于Hadoop的整体设计也保证了系统的高可用性和高可扩展性。

本发明的技术方案的总体结构如图6所示。针对执行流程中与本发明技术方案相关的一些概念解释如下：

主HBase集群：主集群接收客户端数据并复制到从HBase集群。IndexReadCoprocessor部署在主HBase集群上。客户端从主集群读取数据，读取数据时首先执行IndexReadCoprocessor。

从HBase集群：接收主集群发来的数据，在从集群上创建索引。主从集群之间通过ZooKeeper进行协作，数据通过RPC协议进行传输。

LilyHBaseNRTIndexer：是CDH（ClouderaDistributionofHadoop）的一个实时索引创建服务，部署在从集群。它长期运行在从集群，HBase把它视为一个RegionServer。当主集群数据到达时，从集群除了向正常RegionServer里写数据之外，还要向这个Indexer写入数据。Indexer将接收到的数据实时更新至在线Search服务器。可以通过配置文件定义数据读取内容、数据处理及加载等。生成的索引文件存储在从集群的HDFS里。

LilyHBaseBatchIndexer：是CDH（ClouderaDistributionofHadoop）的一个基于MapReduce的批量索引创建服务，部署在从集群。它以固定周期运行，读取HBase表中全量数据，批量生成索引文件并更新到Search服务器。可以通过配置文件定义数据读取内容、数据处理及加载等。生成的索引文件存储在从集群的HDFS里。

索引文件：Indexer生成的索引文件存储在HDFS里，Search服务器读取并缓存这些索引数据。

CDHSearch服务：CDHSearch是一个索引创建与检索服务，它与CDH（ClouderaDistributionofHadoop）高度集成，核心系统是ApacheSolr-包括ApacheLucene，SolrCloud，ApacheTika和SolrCell。Search的索引文件存储在HDFS里，避免了海量数据的移动问题，缩短了索引的创建周期，HDFS的多数据备份也保证了索引数据的安全性。

IndexReadCoprocessor：是HBase的插件，部署在主集群里。当客户端读取数据时，首先执行IndexReadCoprocessor，读取Search索引文件，查看是否存在指定的键值。如果存在索引，则取出源数据的RowKey，以RowKey再次查询数据库；如果不存在，则直接查询数据库。

本发明技术方案的详细步骤解释如下：

⑴首先，客户端写数据至HBase主集群，写入的数据通过主从集群间的Replication机制复制至从集群。主从集群的架构设计避免了HBase的高速读写与索引服务之间的资源竞争，主集群以异步方式将数据复制到从集群，后续的数据处理完全在从集群上进行。

⑵从集群接收到数据后向RegionServer中写入数据，部署在从集群上的LilyHBaseNRTIndexer也会接收到同样的数据，然后更新索引数据至Search服务器。

⑶LilyHBaseNRTIndexer是一个实时索引创建服务，部署在从集群上。它接收到数据后，对索引数据进行增量更新，更新后的索引文件存储在HDFS里。我们可以通过配置文件来定义LilyHBaseNRTIndexer的数据处理过程，比如我们需要哪些字段，在这些字段上需要做哪些处理，等等。

⑷LilyHBaseBatchIndexer是一个基于Map-Reduce的批处理服务，部署在从集群上。当需要对索引数据做全量更新时，我们可以运行这个服务。它读取表中所有数据，生成索引文件并发布到Search服务器。这个服务通常是定期运行的，索引数据的全量更新保证了索引数据的准确性，减少了索引文件中的垃圾数据，同时也会大幅提升检索速度。

⑸CDHSearch服务读取HDFS上的索引文件并对索引数据进行缓存，客户端可通过标准的SolrAPI访问这些索引数据。CDHSearch是一个分布式索引服务，可包含多台服务器，这些服务器共享HDFS上的索引文件。

⑹IndexReadCoprocessor是HBase的一个插件，HBase提供了相应的接口。当客户端读数据时，这个插件会访问Search服务，读取索引数据。

目前的HBase二级索引构建方案或者需要一张单独的索引表，或者需要一个单独的列族来存储索引数据，索引的生成和访问都是在HBase中完成的。这样的设计会影响到HBase的整体性能，独立的表或列族与源数据表或列族之间的数据也会经常出现不一致，系统架构复杂，难于维护。

本发明的技术方案利用了HBase的Replication机制、CDHSearch服务和HBaseCoprocessor插件，实现了索引数据的读写分离；批处理与实时处理的有机结合，极大的提高了索引数据的准确度。主从集群的架构保证了主集群中HBase的高可用性和时效性，位于从集群上的索引服务器也能最大化的利用系统资源。由于系统是部署在Hadoop集群上的，系统的处理能力和存储容量可以很方便的进行扩展，系统的安全性也得到了保障。

本发明的技术方案，充分利用了HBase的Replication机制、CDHSearch服务和HBaseCoprocessor插件，实现了读写分离；在索引创建过程中实现了批处理和实时处理的有机结合，保证了索引数据的时效性与准确性。

以上结合附图详细说明了本发明的技术方案，考虑到相关技术中没有简便的、统一的针对复杂类型元数据构建的解决办法。现有的索引构建无法完成有复杂类型参与的索引构建过程。因此，本发明提出了一种HBase二级索引构建装置和一种HBase二级索引构建方法，可以在现有的索引构建方式基础上，充分利用单对象类型完成多对象类型的索引构建，建立多对象类型元数据参与的面向复杂类型索引构建的通用、统一构建思路。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种HBase二级索引构建装置，其特征在于，包括：

数据复制单元，用于通过主从集群的架构，将写入主集群的数据，以异步方式复制到从集群；

数据更新单元，用于获取从集群中复制得到的数据，对相应的索引数据进行更新处理；

索引文件生成单元，用于基于更新处理后的索引数据，部署批处理服务，生成索引文件。

2.根据权利要求1所述的HBase二级索引构建装置，其特征在于，所述数据复制单元，具体包括：

主集群中数据写入模块，用于将待构建二级索引的数据，写入至主集群；

主从集群间数据复制模块，用于将写入主集群的数据，通过主从集群间的响应机制，以异步方式复制到从集群。

3.根据权利要求1或2所述的HBase二级索引构建装置，其特征在于，所述数据更新单元，具体包括：

索引数据更新模块，用于将从集群接收到的数据写入区域服务器和部署在从集群上的实时索引创建服务中，并更新索引数据至查询服务器；

索引数据增量更新模块，用于将索引数据更新至查询服务器后，对索引数据进行增量更新，增量更新后的索引文件存储在分布式文件系统中。

4.根据权利要求1或2所述的HBase二级索引构建装置，其特征在于，所述索引文件生成单元，具体包括：

批处理服务部署模块，用于在从集群上部署在批处理服务中，运行批处理服务，对增量更新后的索引数据进行全量更新，读取全量更新得到的所有数据，生成索引文件并发布到查询服务器；

索引数据缓存模块，用于将索引文件中的索引数据缓存在查询服务器中。

5.根据权利要求4所述的HBase二级索引构建装置，其特征在于，所述索引文件生成单元，具体还包括：

索引数据读取模块，用于通过辅助处理器上的插件，访问查询服务器，读取索引数据；

进一步地，

所述索引文件生成单元，用于基于更新处理后的索引数据，部署批处理服务，生成索引文件，并对索引文件中的索引数据进行处理。

6.一种HBase二级索引构建方法，其特征在于，包括：

步骤202：通过主从集群的架构，将写入主集群的数据，以异步方式复制到从集群；

步骤204：获取从集群中复制得到的数据，对相应的索引数据进行更新处理；

步骤206：基于更新处理后的索引数据，部署批处理服务，生成索引文件。

7.根据权利要求1所述的HBase二级索引构建方法，其特征在于，所述步骤202，具体包括：

步骤302：将待构建二级索引的数据，写入至主集群；

步骤304：将写入主集群的数据，通过主从集群间的响应机制，以异步方式复制到从集群。

8.根据权利要求6或7所述的HBase二级索引构建方法，其特征在于，所述步骤204，具体包括：

步骤402：将从集群接收到的数据写入区域服务器和部署在从集群上的实时索引创建服务中，并更新索引数据至查询服务器；

步骤404：将索引数据更新至查询服务器后，对索引数据进行增量更新，增量更新后的索引文件存储在分布式文件系统中。

9.根据权利要求6或7所述的HBase二级索引构建方法，其特征在于，所述步骤206，具体包括：

步骤502：在从集群上部署在批处理服务中，运行批处理服务，对增量更新后的索引数据进行全量更新，读取全量更新得到的所有数据，生成索引文件并发布到查询服务器；

步骤504：将索引文件中的索引数据缓存在查询服务器中。

10.根据权利要求9所述的HBase二级索引构建方法，其特征在于，所述步骤206，具体还包括：

步骤506：通过辅助处理器上的插件，访问查询服务器，读取索引数据；

所述步骤206，进一步地用于基于更新处理后的索引数据，部署批处理服务，生成索引文件，并对索引文件中的索引数据进行处理。