CN103390038B

CN103390038B - 一种基于HBase的构建和检索增量索引的方法

Info

Publication number: CN103390038B
Application number: CN201310298976.7A
Authority: CN
Inventors: 郑庆华; 董博; 贺欢; 宋凯磊; 徐海鹏; 马天; 陈亚兴
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2013-07-16
Filing date: 2013-07-16
Publication date: 2016-03-30
Anticipated expiration: 2033-07-16
Also published as: CN103390038A

Abstract

本发明公开了一种基于HBase的构建和检索增量索引的方法，包括以下步骤：基于HBase的列存储机制设计索引的存储结构，使用三个数据表分别保存原始文本、索引信息和统计信息；设计面向Web的待索引文本获取接口，提供基于HTTP协议的文本索引服务；对持续增加的文本构建增量索引，当新的待索引文本产生并到达时，索引系统不重新将全部数据构建索引，将新增文本的索引追加存储到已有索引中，在存储索引时，先将所有文本内容以及索引信息其放入缓冲区，当缓冲区的数据量达到阈值时批量写入数据；提供多种格式结果的检索服务接口，用户通过面向Web的接口使用检索服务，检索系统将按照用户提交的搜索请求进行检索并按用户的要求对检索结果进行格式化。

Description

一种基于HBase的构建和检索增量索引的方法

技术领域

本发明涉及一种在HBase（一个分布式的、面向列的开源数据库，支持百万列上亿行数据的存储）基础上对持续增加的文本，构建增量索引和对增量索引检索结果格式化的方法，主要解决目前对持续增加的文本内容构建索引效率低，以及索引与检索系统难以与其他信息系统协作的问题。

背景技术

随着互联网技术的发展，信息系统的中存储的文本数量日益庞大，为了从中查找所需信息，必须构建索引。当需要索引的数据量极大时，单个计算机提供的存储容量无法满足索引的存储需求。并且，随着数据的规模持续增长，按照传统方法对全部数据重新构建索引所花费的时间会难以忍受。另外，用户对于检索结果的呈现格式也有更多要求，单一的结果格式无法满足用户的使用需求。因此，如何有效的对不断增长的数据构建增量索引，满足用户在检索格式化方面的需求，成为了亟待解决的难题。

针对如何有效地构建数据索引以及存储和检索，以下3篇专利文献提供了不同的技术方案：

1.对计算机网络中的资源内容构建索引的方法和设备（200810084087.X）；

2.一种分布式实时搜索引擎（201110137785.3）；

3.一种基于MapReduce编程架构的索引生成方法和装置（201110446325.9）。

文献1通过判断资源是否链接有用户定义的索引代码来判断使用何种索引构建的方法，由于用户或者内容所有者比其他人更好的理解自身的文档内容，所以该方法可以有助于提高索引的质量，进而提高搜索的质量。

文献2包括一种基于Master/Slave的集群式系统的功能性架构，含有中心控制节点、索引数据存储节点和对外服务节点。也包括一种树形层次的索引结构，含有索引、索引分片、段、文档和域的多层结构。通过系统内存中的更新时索引、合并时索引和磁盘索引的配合，实现实时的索引与检索能力。

文献3包括利用HBase集群、Hadoop集群和Solr集群功能协作，使用MapReduce编程模型对数据记录进行分解、合并处理，得到倒排索引文件。该方法可以并行的处理数据，提高了构建海量数据索引的效率。

以上文献所述方法主要存在以下问题：文献1没有考虑数据持续增加时如何构建索引，不适合对持续增加的数据增量构建索引。文献2没有提供检索结果的多种格式化输出，所以不适合其他信息系统协作索引和检索持续增加的新数据。文献3在存储时没有重新设计索引的存储格式，而是依然使用原有单机索引系统的文件存储方式。

发明内容

本发明的目的在于解决现有方法不能快速有效的对持续增加的数据构建索引并检索的问题，根据HBase的列存储机制和索引的格式特点，提出一种基于HBase的构建和检索增量索引的方法。

为了达到以上目的，本发明是采取如下技术方案予以实现的：

一种基于HBase的构建和检索增量索引的方法，其特征在于，包括下述步骤：

（1）利用HBase来设计增量索引的存储结构

利用HBase的数据列动态可扩展的特点，将词元作为关键字主键，将文本主键作索引存储表的列字段名称，利用HBase的分布式存储的特点，实现对大规模文本和索引信息的存储，索引系统同时为多个不同的数据源分别提供索引服务；为了有效的存储索引信息，共设计三个表：

a、表T_text存储索引数据的原始信息，字段包括文本主键，文本内容与来源等信息；

b、表T_index存储数据的索引信息，字段包括关键字主键，含有关键字的数据内容所对应的全部文本主键索引列，且表T_index中的文本主键索引列随着持续增加的索引数据而动态的增加；

c、表T_statistic存储统计信息，包括总文本数量，总关键字数量；

（2）提供面向Web的待索引文本获取接口；

（3）对持续增加的文本构建增量索引

当新增文本产生并到达时，索引系统将新增文本的索引追加存储到已有索引中，不重新对全部数据构建索引，具体方法为：

a、根据表T_statistic中的总文本数量，对新的待索引文本生成新文本主键，然后采用缓冲机制，将新文本主键和数据内容存入缓冲区，使用缓冲区将原始文本追加到表T_text；

b、将待索引文本分词得到词元，英文以单词为词元分词，中文以字、词作为词元分词，记录词元在内容中出现的数量、位置信息；最后，在表T_index中以词元作为关键字主键进行查询，根据查询结果，增加新的索引信息，有两种情况：①如果表T_index中已存在该关键字主键，则在已有的文本主键索引列基础上，将新文本主键追加为该关键字主键的索引列；②如果表T_index中不存在该关键字主键，则在表T_index中新增该关键字主键，并将新文本主键作为新的索引列，采用缓冲机制，将新的索引信息存入缓冲区，使用缓冲区将索引信息存入表T_index，根据文本主键的数量和关键字主键的数量，将表T_statistic中的总文本数量、总关键字数量等信息更新；

（4）提供多种格式检索结果的服务接口。

上述方法中，所述的提供面向Web的待索引文本获取接口包括：该接口的入口参数采用HTTP协议的POST请求规范，要求用户提供两类信息，第一类是配置信息，包括服务地址、端口号码、服务口令、索引库名称等信息用于身份验证和索引系统的配置；第二类是待索引信息，包括待索引文本的标题、来源地址、正文内容等用于构建索引；该接口收到用户的索引请求后，根据请求的内容，交由索引系统实现增量索引。

所述的基于缓冲机制存储增量索引的方法为：全部被索引的文本内容，以及全部通过索引系统构建的索引信息，在存储时不直接写入HBase，而是先将其放入缓冲区，缓冲区队列中的每个元素是新增的索引信息，索引信息存放的顺序严格按照信息生成的时间顺序；当新增文本的索引构建完成后，检查缓冲区的数据量是否大于等于预定义的阈值，有两种情况：

a、如果缓冲区的数据量小于阈值，则暂时不进行存储；

b、如果缓冲区的数据量大于等于阈值，则将缓冲区中的文本主键与文本内容批量存储到表T_text，关键字主键和索引列数据批量存储到表T_index，完成索引信息写入HBase；从缓冲区取出索引信息的过程严格按照其队列顺序，按先进先出的方式从最早缓存的数据开始取出，将取出的数据写入到HBase的对应表中。

所述的提供多种格式检索结果的服务接口具体包括：

通过面向Web的接口提交搜索请求，接口参数采用HTTP协议的GET请求规范，用户需要提交检索关键字和检索结果格式要求，其中检索结果格式包括：XML格式，HTML格式，JSON格式，CSV格式，将搜索词作为关键字主键，在表T_index中查询与关键字主键相同的记录，根据查询结果，有以下两种情况：

a、如果不存在记录，则检索结果数量为0，检索结果列表为空；

b、如果存在记录，则取出记录的全部文本主键索引列，检索结果数量为全部文本主键索引列的列数量，根据文本主键从表T_text取得对应的文本内容，检索结果列表为全部文本主键对应的文本内容列表；然后根据用户要求的数据格式，将检索结果的数量与检索结果的列表进行格式化，如果用户不指定格式，则将按照默认的HTML格式对检索结果进行格式化，生成最终检索结果返回给用户。

与现有技术相比，本发明方法的优点是：

1、利用HBase的列存储机制和索引格式的特点，提出用HBase保存索引的方法，将索引由传统的文件存储替换为HBase，解决了索引存储的容量问题并提高了检索速度。

2、对持续增加的新数据进行增量索引，无需重新批量处理全部数据，提高了索引的速度。

3、使用缓冲区批量保存新增索引信息，提高了存储数据的效率。

4、通过Web，基于HTTP协议提供索引和检索服务接口，且检索结果支持多种输出格式，提高了索引与检索系统的可用性，使其他信息系统可以通过接口与系统进行协作。

采用本发明方法，可以同时为多个信息系统的数据分别提供独立的增量索引服务，并且可以按照用户的需求提供多种格式的检索服务。

附图说明

图1是本发明方法的整体流程示意图。

图2是图1中HBase数据库存储结构示意图。

图3是图1中索引系统的流程图。

图4是图1中检索系统的流程图。

具体实施方式

以下结合附图，对本发明基于HBase的构建和检索增量索引方法的具体内容做细致描述。

如图1所示，本发明利用HBase存储索引，由索引系统和检索系统组成。

A、利用HBase存储索引

在设计索引的存储结构时，利用HBase的数据列动态可扩展的特点，将词元作为关键字主键，将文本主键作索引存储表的列字段名称。随着被索引文本数量的增加，列字段数量也相应动态增加；利用HBase的分布式存储的特点，实现对大规模文本和索引信息的存储，索引系统可以同时为多个不同的数据源分别提供索引服务；利用HBase的键值访问方式特点，实现索引信息的快速查询，随着被索引文本数量的增加，检索速度不会有明显下降。

存储索引的格式如图2所示，共三个表，（a）原始文本存储表T_text，字段包括文本主键、文本内容和来源等信息；（b）索引信息存储表T_index，字段包括关键字主键、含有关键字的文本内容所对应的全部文本主键索引列；（c）统计信息存储表T_statistic，包括总文本数量和总关键字数量等；

B、索引系统

在索引系统中，通过面向Web的待索引文本接口获取新增文本，对新增文本构建增量索引，并将新索引信息存入缓冲区，采用缓冲机制将增量索引写入到HBase中。具体过程如图3所示：

1）索引系统提供了面向Web的待索引文本获取接口，在用户提交索引参数时，需要提交的索引参数包括两类信息，第一类是配置信息，包括服务地址、端口号码、服务口令、索引库名称等信息用于身份验证和索引系统的配置；第二类是待索引信息，包括待索引文本的标题、来源地址、正文内容等用于构建索引。通过该接口，即可获得新增的待索引数据内容C_doc；

2）在表T_statistic中查询总文本数量，根据总文本数量，生成新文本主键K_doc，然后采用缓冲机制，将新文本主键K_doc和文本内容C_doc存入缓冲区，在步骤6）中可以将缓冲区的数据追加到表T_text中。其中，缓冲区是一个先进先出的有序队列，队列中的每个元素是新增的索引信息，索引信息存放的顺序严格按照信息生成的时间顺序；

3）将C_doc进行分词得到词元，英文以单词为词元，中文按照字和词典分词，以字、词作为词元。同时，记录词元在待索引文本内容中出现的数量、位置等信息。对每个词元，以词元作为关键字主键K_word，在表T_index中查询是否存在该关键字主键K_word，根据查询结果，判断如何操作。如果表T_index中已存在该关键字主键K_word，则在K_word已有的文本主键索引列基础上，将K_doc追加为K_word的索引列；

4）如果表T_index中不存在K_word，则在表T_index中新增K_word，并将K_doc作为新的索引列。然后采用缓冲机制，新增的索引信息存入缓冲区，在步骤6）中可以将缓冲区的数据追加到表T_index中；

5）根据步骤2）和步骤3）中生成的文本主键的数量和关键字主键的数量，将表T_statistic中的总文本数量，总关键字数量等信息更新；

6）检查缓冲区的当前存储的数据量，根据数据量的大小和预定义的阈值进行操作。如果缓冲区数据量小于阈值，则执行步骤7）。如果缓冲区的数据量大于阈值，则从缓冲区中取出所有缓冲数据，取出过程严格按照其队列顺序，按先进先出的方式从最早缓存的数据开始取出，将取出的数据写入到HBase的对应表中；

7）向用户发送消息，通知用户对所发送的待索引内容C_doc已经完成增量索引的构建。

C、检索系统

如图1所示，检索系统通过面向Web的接口提供检索服务，用户使用HTTP协议提交检索请求，包括关键字与格式要求，检索系统按关键词检索后，将检索结果格式化返回给用户。

检索系统的具体流程如图4所示：

1）用户通过面向Web的接口提交搜索请求，接口参数采用HTTP协议的GET请求规范。用户需要提交检索关键字和检索结果格式要求，其中检索结果格式包括XML格式，HTML格式，JSON格式，CSV格式；

2）检索系统在表T_index中按照关键字主键进行查询，根据查询结果进行操作。如果查询结果中不存在该关键字主键对应的记录，则生成的检索结果数量为0，检索结果列表为空，执行步骤4）；

3）如果查询结果中存在记录，则将该关键字主键对应的所有文本主键索引列都提取出来，根据这些索引列构造检索结果。其中检索结果数量为全部文本主键索引列的列数量。对每一个文本主键，从表T_text中可以取得对应的文本内容，检索结果列表为全部文本主键对应的数据内容列表；

4）得到检索结果后，如果用户指定了格式，则按照用户指定的格式对检索结果进行格式化；如果用户不指定格式，则将按照默认的HTML格式对检索结果进行格式化。最后将检索结果数量与检索结果列表进行格式化，生成最终检索结果返回给用户。

综合上述结合附图的说明，本发明的技术方案的主要步骤如下：

（1）利用Hbase来设计增量索引的存储结构，共设计三个数据表：（a）原始文本存储表T_text，字段包括文本主键、文本内容和来源等信息，按照步骤（3）向表T_text添加数据；（b）索引信息存储表T_index，字段包括关键字主键、含有关键字的文本内容所对应的全部文本主键索引列，表T_index的文本主键索引列按照步骤（3）增加；（c）统计信息存储表T_statistic，包括总文本数量和总关键字数量等，按照步骤（3）更新表T_statistic；

（2）提供面向Web的待索引文本获取接口，提供基于HTTP协议的文本索引服务，该接口的入口参数采用HTTP协议的POST请求规范，要求用户提供配置信息与待索引信息，该接口收到用户的新增文本索引请求后由索引系统实现增量索引；

（3）对持续增加的文本构建增量索引，当新的待索引文本产生并到达时，索引系统不重新将全部数据构建索引，将新增文本的索引追加存储到已有索引中。首先根据表T_statistic中的总文本数量，对新的待索引文本生成新文本主键，采用缓冲机制，将新文本主键和数据内容存入缓冲区；然后，将待索引文本分词得到词元：英文以单词为词元分词，中文以字、词作为词元分词；记录词元在文本内容中出现的数量、位置等信息；最后，在表T_index中以词元作为关键字主键进行查询，根据查询结果，增加新的索引信息，有两种情况：（a）如果表T_index中已存在该关键字主键，则在已有的文本主键索引列基础上，将新文本主键追加为该关键字主键的索引列；（b）如果表T_index中不存在该关键字主键，则在表T_index中新增该关键字主键，并将新文本主键作为新的索引列；采用缓冲机制，将新的索引信息存入缓冲区。根据文本主键的数量和关键字主键的数量，将表T_statistic中的总文本数量、总关键字数量等信息更新。

全部被索引的文本内容，以及全部通过索引系统构建的索引信息，在存储时不直接写入HBase，而是先将其放入缓冲区，缓冲区队列中的每个元素是新增的索引信息，索引信息存放的顺序严格按照信息生成的时间顺序；当新增文本的索引构建完成后，检查缓冲区的数据量是否大于等于预定义的阈值，有两种情况：

a、如果缓冲区的数据量小于阈值，则暂时不进行存储；

（4）提供多种格式结果的检索服务接口，接口参数采用HTTP协议的GET请求规范，用户需要提交检索关键字和检索结果格式要求，其中检索结果格式包括：XML格式，HTML格式，JSON格式，CSV格式，通过面向Web的接口提交搜索请求，将搜索词作为关键字主键，在表T_index中查询与关键字主键相同的记录，根据查询结果，有以下两种情况：（a）如果不存在记录，则检索结果数量为0，检索结果列表为空；（b）如果存在记录，则取出记录的全部文本主键索引列，检索结果数量为全部文本主键索引列的列数量，根据文本主键从表T_text取得对应的文本内容，检索结果列表为全部文本主键对应的文本内容列表；然后根据用户要求的数据格式，将检索结果的数量与检索结果的列表进行格式化，生成最终检索结果返回给用户，如果用户不指定格式，则将按照默认的HTML格式对检索结果进行格式化，生成最终检索结果返回给用户。

Claims

1.一种基于HBase的构建和检索增量索引的方法，其特征在于，包括下述步骤：

(1)利用HBase来设计增量索引的存储结构

(2)提供面向Web的待索引文本获取接口；

(3)对持续增加的文本构建增量索引

(4)提供多种格式检索结果的服务接口。

2.如权利要求1所述的基于HBase的构建和检索增量索引的方法，其特征在于，所述的提供面向Web的待索引文本获取接口包括：该接口的入口参数采用HTTP协议的POST请求规范，要求用户提供两类信息，第一类是配置信息，包括服务地址、端口号码、服务口令、索引库名称等信息用于身份验证和索引系统的配置；第二类是待索引信息，包括待索引文本的标题、来源地址、正文内容等用于构建索引；该接口收到用户的索引请求后，根据请求的内容，交由索引系统实现增量索引。

3.如权利要求1所述的基于HBase的构建和检索增量索引的方法，其特征在于，所述的提供多种格式检索结果的服务接口具体包括：