CN106649800A

CN106649800A - 一种基于Solr的中文检索方法

Info

Publication number: CN106649800A
Application number: CN201611241315.0A
Authority: CN
Inventors: 林芝聪; 周华; 宋小厚
Original assignee: Linewell Software Co Ltd
Current assignee: Linewell Software Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-05-10

Abstract

本发明公开一种基于Solr的中文检索方法，用于使用中文进行高效的全文检索。其中，SolrCloud平台接收Solrj客户端创建的查询语句，Solrj客户端用于根据用户的查询请求创建查询语句，SolrCloud平台中创建有基于中文分词的多个中文索引库；SolrCloud平台对查询语句进行中文分词处理，得到中文分词处理后的多个中文词语；SolrCloud平台根据多个中文词语分别创建对应的搜索索引；SolrCloud平台使用多个中文词语分别对应的搜索索引对SolrCloud平台内的多个中文索引库进行全文检索；SolrCloud平台从多个中文索引库获取到检索结果，并向Solrj客户端发送检索结果。

Description

一种基于Solr的中文检索方法

技术领域

本发明涉及计算机技术领域，具体涉及一种基于Solr的中文检索方法。

背景技术

随着大数据的广泛应用，在我们的日常生活中，充斥的越来越多的数据。如何管理以及存储这些海量的数据，并且怎么从这些庞大的数据中获取到自己所需要的信息成了一个很大的问题。而对于政府机构，这个问题无疑更严重了。因为从最早的政务信息化到现在，政府部门累积了大量的数据，例如审计部门，报表与法律法规文档数不胜数，而且这些数据都是需要登记在案的，一旦需要查询，或者修改这些数据，按照原来的数据修改机制，需要采用人工查找的方式来找到需要修改的数据，这必然会严重影响工作效率。

越来越需要自主可控的政务办公系统需要实现高效率的全文检索，并且政务办公系统通常需要在国产化硬件系统上运行，而目前的开源检索技术都不能够用中文进行直接检索，称为政务办公系统的发展瓶颈。

发明内容

本发明的目的在于提供一种基于Solr的中文检索方法，用于使用中文进行高效的全文检索，提高大数据背景下的数据检索效率。

为了达到上述目的，本发明采用这样的如下技术方案：

本发明提供一种基于Solr的中文检索方法，包括：

SolrCloud平台接收Solrj客户端创建的查询语句，所述Solrj客户端用于根据用户的查询请求创建所述查询语句，所述SolrCloud平台中创建有基于中文分词的多个中文索引库；

所述SolrCloud平台对所述查询语句进行中文分词处理，得到中文分词处理后的多个中文词语；

所述SolrCloud平台根据所述多个中文词语分别创建对应的搜索索引；

所述SolrCloud平台使用所述多个中文词语分别对应的搜索索引对所述SolrCloud平台内的多个中文索引库进行全文检索；

所述SolrCloud平台从所述多个中文索引库获取到检索结果，并向所述Solrj客户端发送所述检索结果。

采用上述技术方案后，本发明提供的技术方案将有如下优点：

本发明实施例中搭建的SolrCloud平台中创建有基于中文分词的多个中文索引库，因此当Solrj客户端创建查询语句之后，SolrCloud平台对该查询语句进行中文分词处理，根据多个中文词语分别创建对应的搜索索引，SolrCloud平台使用多个中文词语分别对应的搜索索引对多个中文索引库进行全文检索，SolrCloud平台从多个中文索引库获取到检索结果，并向Solrj客户端发送所述检索结果。本发明实施例中使用中文进行高效的全文检索，提高大数据背景下的数据检索效率。

附图说明

图1为本发明实施例提供一种基于Solr的中文检索方法的流程方框示意图；

图2为本发明实施例提供的检索流程示意图。

具体实施方式

本发明实施例提供了一种基于Solr的中文检索方法，用于使用中文进行高效的全文检索，提高大数据背景下的数据检索效率。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域的技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

以下分别进行详细说明。

本发明基于Solr的中文检索方法的一个实施例，请参阅图1所示，可以包括如下步骤：

步骤10、SolrCloud平台接收Solrj客户端创建的查询语句，Solrj客户端用于根据用户的查询请求创建查询语句，SolrCloud平台中创建有基于中文分词的多个中文索引库；

步骤20、SolrCloud平台对查询语句进行中文分词处理，得到中文分词处理后的多个中文词语；

步骤30、SolrCloud平台根据多个中文词语分别创建对应的搜索索引；

步骤40、SolrCloud平台使用多个中文词语分别对应的搜索索引对SolrCloud平台内的多个中文索引库进行全文检索；

步骤50、SolrCloud平台从多个中文索引库获取到检索结果，并向Solrj客户端发送检索结果。

本发明的目的在于提供一种大数据量的、高效的、高并发的、可集群的支持国产化系统全文检索技术方案。通过采用本技术方案，可在国产化系统上，根据用户需求创建索引和进行全文检索。在本发明实施例中，Solr是一个独立的企业级搜索应用服务器，它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果。Solr基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。

本发明实施例中利用基于Solr和ZooKeeper的分布式搜索方案，搭建Solr服务器集群，构成SolrCloud平台，在SolrCloud上创建、存储和管理大型资料库文档和数据库信息的索引，构建分布式的全文检索系统。用户可登陆系统，普通用户可以对大量文档进行检索、预览和下载等操作，机构内部资料还可以共享。

在本发明的一些实施例中，SolrCloud平台通过如下方式创建：

使用Solr工具、ZooKeeper工具和JDK工具在应用服务器上搭建SolrCloud平台，SolrCloud平台是分布式的全文检索系统集群。

进一步的，在本发明的一些实施例中，Solr工具为Solr5工具，JDK工具为JDK1.7以上；

Solr工具为Solr6工具，JDK工具为JDK1.8。

本发明实施例中可以采用开源的、分布式的全文检索技术solr集成到本发明实施例提供的SolrCloud平台来解决现有技术中的问题。本发明实施例中实现基于Solr的国产化全文检索技术，首先用Solr、ZooKeeper、Tongweb、JDK等工具在国产化的应用服务器Tongweb上搭建集群，SolrCloud平台是基于solr和zookeeper的分布式搜索方案，本发明实施例中可以搭建的SolrCloud。例如使用Solr5.2.1、Zookeeper3.4.6、Tongweb5.0、JDK1.8进行配置搭建SolrCloud集群平台。其中，JDK是java开发工具包，solr是一个Java程序，运行时需要依赖JDK。搭建过程主要是利用solr提供的war包和zookeeper的集群特性，以及对solr、zookeeper相关配置的修改，然后部署在应用服务器tongweb上。此步骤要注意的是：Solr各个版本都对JDK版本有要求，Solr5要求JDK1.7以上，Solr6要求JDK1.8，国产化应用服务器的龙芯CPU要求特定的JDK，目前没有龙芯对应的JDK1.7版本，有JDK1.8。

在本发明的一些实施例中，基于Solr的中文检索方法除了执行前述步骤，还可以包括如下步骤：

SolrCloud平台配置中文分词，以及配置停用词；

SolrCloud平台分别创建多个中文索引库；

SolrCloud平台对多个中文索引库中保存的索引进行修改或者删除。

其中，SolrCloud平台搭建完成之后，可以创建中文索引库，也可以简称为索引库，可在SolrCloud平台创建多个索引库。搭建完SolrCloud集群平台后，可根据需求在集群里面创建多个索引库，应用进行全文检索就是搜索索引库里面的索引。Solr支持数据库表、XML、JSON、CSV等格式的数据导入。创建索引库之前必须进行中文分词配置以及停用词配置，数据的中文分词可以配置的，可根据需求配置需要索引的字段进行中文分词，停用词是分词时过滤的词，如“的”、“了”等。因为solr本身不支持中文分词，只有配置了中文分词才能正确创建中文索引库，配置了中文分词之后，就可以把如“中国福建省”分词为“中国”、“福建省”、“福建”，然后根据这些分词创建索引。

进一步的，在本发明的一些实施例中，基于Solr的中文检索方法还包括如下步骤：

SolrCloud平台获取待检索数据；

SolrCloud平台对待检索数据进行中文分词处理，得到中文分词处理后的多个待检索词语；

SolrCloud平台对中文分词处理后的多个待检索词语分别创建对应的索引；

SolrCloud平台将多个待检索词语以及对应的索引保存到中文索引库中。

其中，SolrCloud平台可以根据用户的需要在各个中文索引库中增加索引以及对应的待检索词语。通过Solr和Zookeeper搭建一个SolrCloud的集群平台，待检索的数据导入该平台(SolrCloud平台保存数据和索引)，并对数据创建索引保存在该平台的中文索引库，再根据需求对索引库进行增加、删除、修改、查询等操作，通过使用集群突破全文检索的检索速度、检索并发量、检索数据量等方面的瓶颈。全文检索技术是针对文件内容、大文本等数据的搜索。直接在数据库搜索速度会很慢，并随数据量变大越来越慢；单机的全文检索技术在并发上(多人同时进行检索)也存在瓶颈，并随着数据量变大也越来越明显。采用集群可根据实际情况决定集群的机器台数来解决这些问题。

在本发明的一些实施例中，步骤20SolrCloud平台对查询语句进行中文分词处理，包括：

SolrCloud平台使用中文分词器对查询语句。

其中，在进行全文检索时，使用Solr提供的Java客户端Solrj对中文索引库进行增加、删除、修改、查询操作，本发明实施例中支持中文、英文的检索，Solr本身支持英文，本发明实施例中还可以配置中文分词器作为分词工具，就可支持中文检索。

在本发明的一些实施例中，步骤50中向Solrj客户端发送检索结果之前，基于Solr的中文检索方法还包括：

SolrCloud平台对检索结果进行排序。

其中，本发明实施例中，SolrCloud平台向Solrj客户端发送检索结果之前，还可以对检索结果进行排序，检索结果就是根据输入的查询语句搜索出来的结果，排序后输出检索结果，用户可以通过Solrj客户端快速的查询到检索结果。本发明一种基于Solr的国产化全文检索技术，通过Solr、Zookeeper在国产服务器上搭建集群创建SolrCloud平台，能够快速的、大量的导入数据创建中文索引库，并对中文索引库进行增删改查操作。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

综上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照上述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于Solr的中文检索方法，其特征在于，包括：

2.根据权利要求1所述的一种基于Solr的中文检索方法，其特征在于，所述SolrCloud平台通过如下方式创建：

使用Solr工具、ZooKeeper工具和JDK工具在应用服务器上搭建SolrCloud平台，所述SolrCloud平台是分布式的全文检索系统集群。

3.根据权利要求2述的一种基于Solr的中文检索方法，其特征在于，所述Solr工具为Solr5工具，所述JDK工具为JDK1.7以上；

所述Solr工具为Solr6工具，所述JDK工具为JDK1.8。

4.根据权利要求1所述的一种基于Solr的中文检索方法，其特征在于，所述方法还包括：

所述SolrCloud平台配置中文分词，以及配置停用词；

所述SolrCloud平台分别创建多个中文索引库；

所述SolrCloud平台对所述多个中文索引库中保存的索引进行修改或者删除。

5.根据权利要求4所述的一种基于Solr的中文检索方法，其特征在于，所述方法还包括：

所述SolrCloud平台获取待检索数据；

所述SolrCloud平台对所述待检索数据进行中文分词处理，得到中文分词处理后的多个待检索词语；

所述SolrCloud平台对所述中文分词处理后的多个待检索词语分别创建对应的索引；

所述SolrCloud平台将所述多个待检索词语以及对应的索引保存到中文索引库中。

6.根据权利要求1所述的一种基于Solr的中文检索方法，其特征在于，所述SolrCloud平台对所述查询语句进行中文分词处理，包括：

所述SolrCloud平台使用中文分词器对所述查询语句。

7.根据权利要求1所述的一种基于Solr的中文检索方法，其特征在于，所述向所述Solrj客户端发送所述检索结果之前，所述方法还包括：

所述SolrCloud平台对所述所述检索结果进行排序。