CN103488702A

CN103488702A - 基于SorlCloud非结构化数据检索方法和系统

Info

Publication number: CN103488702A
Application number: CN201310400164.9A
Authority: CN
Inventors: 罗学礼; 杨晴; 杨莉; 杜韶辉; 吴清华; 马瑞; 臧戎
Original assignee: Yunnan Electric Power Experimental Research Institute Group Co Ltd of Electric Power Research Institute; Kunming Enersun Technology Co Ltd
Current assignee: Yunnan Electric Power Experimental Research Institute Group Co Ltd of Electric Power Research Institute; Kunming Enersun Technology Co Ltd
Priority date: 2013-09-06
Filing date: 2013-09-06
Publication date: 2014-01-01

Abstract

本发明涉及信息技术处理领域，具体涉及一种基于SorlCloud非结构化数据检索方法和系统；包括：用户通过向部署在servlet容器中的Solr Web的应用程序发送HTTP请求来启动索引和搜索；Apache Solr接收用户发送的检索请求，确定要使用的适当的SolrRequestHandler，然后处理请求；Apache Solr调用搜索接口通过发送HTTP将符合检索条件的对象返回给用户；本发明有益效果在于：其实时性好、占用资源少，本发明检索耗费时间从原来的10秒以上缩短至亚秒级。

Description

基于SorlCloud非结构化数据检索方法和系统

技术领域

本发明涉及信息技术处理领域，具体涉及一种基于SorlCloud非结构化数据检索方法和系统。

背景技术

传统的搜索引擎是基于关键字和关系型数据库的，即需要在数据库中包含关键字字段，通过模糊查询对包含查询条件的关键字字段进行检索，找到符合条件的记录，进一步获取详细信息。而非结构化数据的搜索则有着很大的不同，非结构化的数据不是按照关系型数据库的结构排列好的，而是一些文档、图像、音频、视频等，在对文档内容、图像中的文字、音频中的说话内容、视频中的字幕等的搜索存在比较大得需求。因此针对非结构化数据的搜索制定一套完整的解决方案是一个非常重要的研究课题。

SolrCloud是当前较为流行的开源分布式搜索引擎解决方案，其基于ZooKeeper和Solr进行搭建，支持分布式索引的全文检索机制，自动容错，通过配置即可完成分布式环境的部署，具有良好的可扩展性，是非结构化数据搜索的最好选择。

发明内容

本发明的目的为了解决上述问题，提供了一种基于SorlCloud非结构数据检索方法，其实时性好、占用资源少。

为实现上述目的，基于SorlCloud非结构化数据检索方法，包括：

用户通过向部署在servlet容器中的Solr Web的应用程序发送HTTP请求来启动索引和搜索；

Apache Solr接收用户发送的检索请求，确定要使用的适当的SolrRequestHandler，然后处理请求；

Apache Solr调用搜索接口通过发送HTTP将符合检索条件的对象返回给用户。

具体的，所述用户向Apache Solr索引servlet传递索引请求包括：

add/update允许向Apache Solr添加文档或更新文档；

commit告诉Apache Solr，上次提交的请求所做的所有更改都可以被搜索到；

optimize重构Lucene的文件以改进搜索性能；

delete可以通过id或查询来指定。

进一步的，所述用户发送的检索请求携带用户所要目标的检索条件。

进一步的，所述根据用户发送的检索请求，Lucene先在内存中进行索引操作，并根据一定的批量进行文件的写入，IndexWriter中的MERGE_FACTOR参数可以在构造索引器后根据应用环境的情况充分利用内存减少文件的操作。

进一步的：根据所述的Apache Solr调用搜索接口通过发送HTTP将符合检索条件的对象返回具体为将所有结果中匹配度最高的头100条结果的ID放到结果集缓存中并返回。

再者，若首批缓存结果数用完后还要读取更后面的结果时Searcher会再次检索并生成一个上次的搜索缓存数大1倍的缓存，并再重新向后抓取。

具体的，所述Apache Solr接收用户发送的检索请求为用POST方法向Solr服务器发送一个描述所有Field及其内容的XML文档。

进一步的，Apache Solr调用搜索接口时只需要发送HTTP GET请求即可，然后对Solr返回的信息进行重新布局，以产生利于用户理解的页面内容布局。

本发明中基于SorlCloud非结构化数据检索系统，包括4个Solr节点的集群，索引库分布在两个Shard里面，每个Shard包含两个Solr节点，一个是主节点，一个是备份节点，主节点负责维护集群状态信息的Overseer节点，它是一个总控制器。

进一步的，所述的4个Solr节点中的任何节点都可以接收索引更新的请求，然后再将这个请求转发到文档所应该属于的那个Shard的主节点，主节点更新结束完成，最后将版本号和文档转发给同属于一个Shard的备份节点。

本发明具有以下有益效果：非结构化数据管理平台的搜索解决方案集成了优秀的分布式搜索引擎SorlCloud，基于ZooKeeper和Solr进行搭建，支持分布式索引的全文检索机制，自动容错，通过配置即可完成分布式环境的部署，具有良好的可扩展性。加上OCR、ICR和其他一些智能识别技术的支撑，并根据非结构化数据特点进行针对性优化和功能扩展，从而形成一个强有力的分布式智能搜索引擎，对于非结构化数据管理来说是一个质的飞跃。本发明检索耗费时间从原来的10秒以上缩短至亚秒级，从而达到高效的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明提供基于SorlCloud非结构化数据检索方法，包括：

S101，用户通过向部署在servlet容器中的Solr Web的应用程序发送HTTP请求来启动索引和搜索；Lucene全文索引引擎，将数据源中的数据都通过全文索引一一建立反向索引，然后通过词元(term)进行匹配，通过语言分析接口的实现，可以实现对中文等非英语的支持，其中采用有匹配度算法，将匹配程度（相似度）比较高的结果排在前面。

S102，Apache Solr接收用户发送的检索请求，确定要使用的适当的SolrRequestHandler，然后处理请求；

S103，Apache Solr调用搜索接口通过发送HTTP将符合检索条件的对象返回给用户；默认配置返回Solr的标准XML响应，也可以配置Solr的备用响应格式。Lucene通过特别的算法，将最匹配度最高的头100条结果输出，结果集是缓冲式的小批量读取的，通过不同的语言分析接口实现，可以方便的定制出符合应用需要的索引规则（包括对中文的支持）。

作为本发明具体的实施例，所述用户向Apache Solr索引servlet传递索引请求包括：add/update允许向Apache Solr添加文档或更新文档；直到提交后才能搜索到这些添加和更新。commit告诉Apache Solr，上次提交的请求所做的所有更改都可以被搜索到。optimize重构Lucene的文件以改进搜索性能；索引完成后执行一下优化通常比较好。如果更新比较频繁，则应该在使用率较低的时候安排优化。一个索引无需优化也可以正常地运行。优化是一个耗时较多的过程。delete可以通过id或查询来指定；按id删除将删除具有指定id的文档；按查询删除将删除查询返回的所有文档。进一步的，所述用户发送的检索请求携带用户所要目标的检索条件。

所述根据用户发送的检索请求，Lucene先在内存中进行索引操作，并根据一定的批量进行文件的写入，这个批次的间隔越大，文件的写入次数越少，但占用内存会很多。反之占用内存少，但文件IO操作频繁，索引速度会很慢。在IndexWriter中的MERGE_FACTOR参数可以在构造索引器后根据应用环境的情况充分利用内存减少文件的操作，缺省Indexer是每20条记录索引后写入一次，每将MERGE_FACTOR增加50倍，索引速度可以提高1倍左右。

Lucene面向全文检索的优化在于首次索引检索后，并不把所有的记录（Document）具体内容读取出来，根据所述的Apache Solr调用搜索接口通过发送HTTP将符合检索条件的对象返回具体为将所有结果中匹配度最高的头100条结果的ID放到结果集缓存中并返回，这里可以比较一下数据库检索：如果是一个10,000条的数据库检索结果集，数据库是一定要把所有记录内容都取得以后再开始返回给应用结果集的。所以即使检索匹配总数很多，Lucene的结果集占用的内存空间也不会很多。对于一般的模糊检索应用是用不到这么多的结果的，头100条已经可以满足90%以上的检索需求，。

再者，若首批缓存结果数用完后还要读取更后面的结果时Searcher会再次检索并生成一个上次的搜索缓存数大1倍的缓存，并再重新向后抓取。如果构造一个Searcher去查1－120条结果，Searcher其实是进行了2次搜索过程：头100条取完后，缓存结果用完，Searcher重新检索再构造一个200条的结果缓存，依此类推，400条缓存，800条缓存。由于每次Searcher对象消失后，这些缓存也访问那不到了，你有可能想将结果记录缓存下来，缓存数尽量保证在100以下以充分利用首次的结果缓存，不让Lucene浪费多次检索，而且可以分级进行结果缓存。

再者，Apache Solr是一个开源的搜索服务器，Solr使用Java语言开发，主要基于HTTP和Apache Lucene实现。所述Apache Solr接收用户发送的检索请求为用POST方法向Solr服务器发送一个描述所有Field及其内容的XML文档。Apache Solr调用搜索接口时只需要发送HTTP GET请求即可，然后对Solr返回的信息进行重新布局，以产生利于用户理解的页面内容布局。

本发明中基于SorlCloud非结构化数据检索系统，SolrCloud是基于ZooKeeper和Solr的分布式解决方案，为Solr添加分布式功能，用于建立高可用，高伸缩，自动容错，分布式索引，分布式查询的Solr服务器集群；SolrCloud并非一个新的软件发布包，而是Solr4.0版本新增组件用于跟ZooKeeper配合提供分布式功能，部署时只是修改启动配置。SorlCloud包括4个Solr节点的集群，索引库分布在两个Shard里面，每个Shard包含两个Solr节点，一个是主节点，一个是备份节点，主节点负责维护集群状态信息的Overseer节点，它是一个总控制器。集群的所有状态信息都放在Zookeeper集群中统一维护。

进一步的，所述的4个Solr节点中的任何节点都可以接收索引更新的请求，然后再将这个请求转发到文档所应该属于的那个Shard的主节点，主节点更新结束完成，最后将版本号和文档转发给同属于一个Shard的备份节点

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于SorlCloud非结构化数据检索方法，其特征在于：包括：

2.根据权利要求1所述的基于SorlCloud非结构化数据检索方法,其特征在于：所述用户向Apache Solr索引servlet传递索引请求包括：

add/update允许向Apache Solr添加文档或更新文档；

optimize重构Lucene的文件以改进搜索性能；

delete可以通过id或查询来指定。

3.根据权利要求1述的基于SorlCloud非结构化数据检索方法,其特征在于：所述用户发送的检索请求携带用户所要目标的检索条件。

4.根据权利要求1所述的基于SorlCloud非结构化数据检索方法,其特征在于：所述根据用户发送的检索请求，Lucene先在内存中进行索引操作，并根据一定的批量进行文件的写入，IndexWriter中的MERGE_FACTOR参数可以在构造索引器后根据应用环境的情况充分利用内存减少文件的操作。

5.根据权利要求1所述的基于SorlCloud非结构化数据检索方法,其特征在于：根据所述的Apache Solr调用搜索接口通过发送HTTP将符合检索条件的对象返回具体为将所有结果中匹配度最高的头100条结果的ID放到结果集缓存中并返回。

6.根据权利要求5所述的基于SorlCloud非结构化数据检索方法,其特征在于：若首批缓存结果数用完后还要读取更后面的结果时Searcher会再次检索并生成一个上次的搜索缓存数大1倍的缓存，并再重新向后抓取。

7.根据权利要求1所述的基于SorlCloud非结构化数据检索方法,其特征在于：所述Apache Solr接收用户发送的检索请求为用POST方法向Solr服务器发送一个描述所有Field及其内容的XML文档。

8.根据权利要求1所述的基于SorlCloud非结构化数据检索方法,其特征在于：Apache Solr调用搜索接口时只需要发送HTTP GET请求即可，然后对Solr返回的信息进行重新布局，以产生利于用户理解的页面内容布局。

9.基于SorlCloud非结构化数据检索系统，其特征在于：包括4个Solr节点的集群，索引库分布在两个Shard里面，每个Shard包含两个Solr节点，一个是主节点，一个是备份节点，主节点负责维护集群状态信息的Overseer节点，它是一个总控制器。

10.根据权利要求9所述的基于SorlCloud非结构化数据检索系统，其特征在于：所述的4个Solr节点中的任何节点都可以接收索引更新的请求，然后再将这个请求转发到文档所应该属于的那个Shard的主节点，主节点更新结束完成，最后将版本号和文档转发给同属于一个Shard的备份节点。