CN105787029A

CN105787029A - 一种基于solr的关键字词识别办法

Info

Publication number: CN105787029A
Application number: CN201610103279.5A
Authority: CN
Inventors: 郭特宇; 程林
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2016-02-25
Filing date: 2016-02-25
Publication date: 2016-07-20

Abstract

本发明公开了一种基于SOLR的关键字词识别办法，该方法如下：在后台数据库增加关键字词配置表，分别记录敏感字词库及相关字词库，敏感字词库和相关字词库会保存到缓存中以提高读取速度，并配置定时更新缓存机制；在WEB前端用户交互页面中，增加拦截方法，对用户提交的搜索字词调用识别器进行处理，进行关键字词识别后，根据处理结果确定是拒绝检索返回提醒用户修改搜索字词，或者通过提交到Solr后台进行检索结果操作，并将检索结果返回给用户。本发明和现有技术相比，具有以下有益效果：1）避免提交敏感信息或无效信息进行检索，提高检索效率和命中率；2）避免垃圾数据和敏感数据进入到索引库中，提高索引库数据质量。

Description

一种基于SOLR的关键字词识别办法

技术领域

本发明涉及一种，具体地说是一种基于SOLR的关键字词识别办法。

背景技术

随着互联网的飞速发展，数据量与日俱增，越来越多的大型企业或集团的核心业务数据都存储在关系数据库管理系统（RDBMS）中。但传统的关系数据库缺乏对存储在库中字段的内容进行检索和分析的核心功能，解决这个问题的关键是建立一条有效的包含数据整合、高速查询、信息分析的、将数据转化为信息的途径。

从目前信息科学技术的发展来看，海量信息的全文检索技术是最先进、最适合的解决途径。国内外相继出现了一些全文检索产品，比较著名的有IBM公司研发的关系型数据库DB2其中的TextExtender，Oracle公司的OracleText，Microsoft公司开发的SQLServer和开源的Lucene[1]全文检索工具包。

利用大型关系数据库本身提供的检索服务还有较多不足，所以不适合作为开发平台。而Lucene是Apache软件基金会Jakarta项目组的一个子项目，是一个纯Java编写的开放源代码的全文检索工具包。作为一个开放源代码项目，Lucene自问世之后引发了开放源代码社群的巨大反响，程序员们不仅使用它构建具体的全文检索应用，而且将之集成到各种系统软件中去，以及构建Web应用，甚至某些商业软件也采用了Lucene作为其内部全文检索子系统的核心。近几年，学者对基于Lucene全文检索的应用研究层出不穷，如Web页面检索、数据库全文检索、图像检索等。

由于搜索引擎功能在门户网站中对提高用户体验有着重在门户网站中涉及大量需要搜索引擎的功能需求，目前在实现搜索引擎的方案上有集中方案可供选择：

1.基于Lucene自己进行封装实现站内搜索。

2.调用Google、Baidu的API实现站内搜索。

3.基于Solr自己进行扩展实现站内搜索。

Solr是一个基于Lucene的Java搜索引擎服务器。Solr提供了层面搜索、命中醒目显示并且支持多种输出格式（包括XML/XSLT和JSON格式）。它易于安装和配置，而且附带了一个基于HTTP的管理界面。Solr已经在众多大型的网站中使用，较为成熟和稳定。

在基于Solr的搜索引擎服务器上，对所有提交的数据内容，未加识别就直接经过分词器进行检索建立索引纳入到索引库中。同时也没有对该数据内容的相关性进行检查，导致无关的内容进入到索引库中，降低数据质量。

发明内容

本发明的技术任务是提供一种基于SOLR的关键字词识别办法。

本发明的技术任务是按以下方式实现的，该方法如下：在后台数据库增加关键字词配置表，分别记录敏感字词库及相关字词库，敏感字词库和相关字词库会保存到缓存中以提高读取速度，并配置定时更新缓存机制；

在WEB前端用户交互页面中，增加拦截方法，对用户提交的搜索字词调用识别器进行处理，进行关键字词识别后，根据处理结果确定是拒绝检索返回提醒用户修改搜索字词，或者通过提交到Solr后台进行检索结果操作，并将检索结果返回给用户。

该方法在提交新数据内容进入到索引库前，调用识别器对数据内容进行处理，进行关键字词识别后，根据处理结果确定是拒绝纳入索引返回提醒用户修改数据内容，或者通过提交到Solr后台进行数据抽取、转换，建立索引保存到索引库中。

所述的进行关键字词识别后，如果查询字词中存在敏感字词，则返回命中敏感字词标识为真，否则返回命中敏感字词标识为假；如果查询字词中存在相关性字词，则返回命中相关字词标识为真，否则返回命中相关字词标识为假；

若敏感字词标识为假且相关字词标识为真时，提交到Solr搜索器进行搜索处理；若敏感字词标识为真或相关字词标识为假时，直接返回页面提醒用户修改查询字词。

所述的关键字词识别步骤如下：用户通过WEB页面提交数据内容，数据内容至多由两个字段构成，包括字段：标题、正文内容；数据内容被传递到分词器，根据分词规则和分词表，对数据内容进行切词，得到关键字词结果；识别器根据这些查询字词遍历敏感字词库和相关字词库，得到匹配结果，并返回处理结果。

本发明的一种基于SOLR的关键字词识别办法和现有技术相比，具有以下有益效果：1）避免提交敏感信息或无效信息进行检索，提高检索效率和命中率；2）避免垃圾数据和敏感数据进入到索引库中，提高索引库数据质量。

具体实施方式

实施例1：

该基于SOLR的关键字词识别办法如下：在后台数据库增加关键字词配置表，分别记录敏感字词库及相关字词库，敏感字词库和相关字词库会保存到缓存中以提高读取速度，并配置定时更新缓存机制；

在WEB前端用户交互页面中，增加拦截方法，对用户提交的搜索字词调用识别器进行处理，进行关键字词识别后，根据处理结果确定是拒绝纳入索引返回提醒用户修改数据内容，或者通过提交到Solr后台进行数据抽取、转换，建立索引并将检索结果返回给用户。

用户通过WEB页面提交数据内容，数据内容至多由两个字段构成，包括字段：标题、正文内容；数据内容被传递到分词器，根据分词规则和分词表，对数据内容进行切词，得到关键字词结果；识别器根据这些查询字词遍历敏感字词库和相关字词库，得到匹配结果，并返回处理结果。进行关键字词识别后，如果查询字词中存在敏感字词，则返回命中敏感字词标识为真，否则返回命中敏感字词标识为假；如果查询字词中存在相关性字词，则返回命中相关字词标识为真，否则返回命中相关字词标识为假；

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

Claims

1.一种基于SOLR的关键字词识别办法，其特征在于，该方法如下：在后台数据库增加关键字词配置表，分别记录敏感字词库及相关字词库，敏感字词库和相关字词库会保存到缓存中以提高读取速度，并配置定时更新缓存机制；

2.根据权利要求1所述的一种基于SOLR的关键字词识别办法，其特征在于，该方法在提交新数据内容进入到索引库前，调用识别器对数据内容进行处理，进行关键字词识别后，根据处理结果确定是拒绝纳入索引返回提醒用户修改数据内容，或者通过提交到Solr后台进行数据抽取、转换，建立索引保存到索引库中。

3.根据权利要求1所述的一种基于SOLR的关键字词识别办法，其特征在于，所述的进行关键字词识别后，如果查询字词中存在敏感字词，则返回命中敏感字词标识为真，否则返回命中敏感字词标识为假；如果查询字词中存在相关性字词，则返回命中相关字词标识为真，否则返回命中相关字词标识为假；

4.根据权利要求3所述的一种基于SOLR的关键字词识别办法，其特征在于，所述的关键字词识别步骤如下：用户通过WEB页面提交数据内容，数据内容至多由两个字段构成，包括字段：标题、正文内容；数据内容被传递到分词器，根据分词规则和分词表，对数据内容进行切词，得到关键字词结果；识别器根据这些查询字词遍历敏感字词库和相关字词库，得到匹配结果，并返回处理结果。