CN105787029A - 一种基于solr的关键字词识别办法 - Google Patents

一种基于solr的关键字词识别办法 Download PDF

Info

Publication number
CN105787029A
CN105787029A CN201610103279.5A CN201610103279A CN105787029A CN 105787029 A CN105787029 A CN 105787029A CN 201610103279 A CN201610103279 A CN 201610103279A CN 105787029 A CN105787029 A CN 105787029A
Authority
CN
China
Prior art keywords
words
solr
sensitive
user
crucial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610103279.5A
Other languages
English (en)
Inventor
郭特宇
程林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201610103279.5A priority Critical patent/CN105787029A/zh
Publication of CN105787029A publication Critical patent/CN105787029A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于SOLR的关键字词识别办法,该方法如下:在后台数据库增加关键字词配置表,分别记录敏感字词库及相关字词库,敏感字词库和相关字词库会保存到缓存中以提高读取速度,并配置定时更新缓存机制;在WEB前端用户交互页面中,增加拦截方法,对用户提交的搜索字词调用识别器进行处理,进行关键字词识别后,根据处理结果确定是拒绝检索返回提醒用户修改搜索字词,或者通过提交到Solr后台进行检索结果操作,并将检索结果返回给用户。本发明和现有技术相比,具有以下有益效果:1)避免提交敏感信息或无效信息进行检索,提高检索效率和命中率;2)避免垃圾数据和敏感数据进入到索引库中,提高索引库数据质量。

Description

一种基于SOLR的关键字词识别办法
技术领域
本发明涉及一种,具体地说是一种基于SOLR的关键字词识别办法。
背景技术
随着互联网的飞速发展,数据量与日俱增,越来越多的大型企业或集团的核心业务数据都存储在关系数据库管理系统(RDBMS)中。但传统的关系数据库缺乏对存储在库中字段的内容进行检索和分析的核心功能,解决这个问题的关键是建立一条有效的包含数据整合、高速查询、信息分析的、将数据转化为信息的途径。
从目前信息科学技术的发展来看,海量信息的全文检索技术是最先进、最适合的解决途径。国内外相继出现了一些全文检索产品,比较著名的有IBM公司研发的关系型数据库DB2其中的TextExtender,Oracle公司的OracleText,Microsoft公司开发的SQLServer和开源的Lucene[1]全文检索工具包。
利用大型关系数据库本身提供的检索服务还有较多不足,所以不适合作为开发平台。而Lucene是Apache软件基金会Jakarta项目组的一个子项目,是一个纯Java编写的开放源代码的全文检索工具包。作为一个开放源代码项目,Lucene自问世之后引发了开放源代码社群的巨大反响,程序员们不仅使用它构建具体的全文检索应用,而且将之集成到各种系统软件中去,以及构建Web应用,甚至某些商业软件也采用了Lucene作为其内部全文检索子系统的核心。近几年,学者对基于Lucene全文检索的应用研究层出不穷,如Web页面检索、数据库全文检索、图像检索等。
由于搜索引擎功能在门户网站中对提高用户体验有着重在门户网站中涉及大量需要搜索引擎的功能需求,目前在实现搜索引擎的方案上有集中方案可供选择:
1.基于Lucene自己进行封装实现站内搜索。
2.调用Google、Baidu的API实现站内搜索。
3.基于Solr自己进行扩展实现站内搜索。
Solr是一个基于Lucene的Java搜索引擎服务器。Solr提供了层面搜索、命中醒目显示并且支持多种输出格式(包括XML/XSLT和JSON格式)。它易于安装和配置,而且附带了一个基于HTTP的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。
在基于Solr的搜索引擎服务器上,对所有提交的数据内容,未加识别就直接经过分词器进行检索建立索引纳入到索引库中。同时也没有对该数据内容的相关性进行检查,导致无关的内容进入到索引库中,降低数据质量。
发明内容
本发明的技术任务是提供一种基于SOLR的关键字词识别办法。
本发明的技术任务是按以下方式实现的,该方法如下:在后台数据库增加关键字词配置表,分别记录敏感字词库及相关字词库,敏感字词库和相关字词库会保存到缓存中以提高读取速度,并配置定时更新缓存机制;
在WEB前端用户交互页面中,增加拦截方法,对用户提交的搜索字词调用识别器进行处理,进行关键字词识别后,根据处理结果确定是拒绝检索返回提醒用户修改搜索字词,或者通过提交到Solr后台进行检索结果操作,并将检索结果返回给用户。
该方法在提交新数据内容进入到索引库前,调用识别器对数据内容进行处理,进行关键字词识别后,根据处理结果确定是拒绝纳入索引返回提醒用户修改数据内容,或者通过提交到Solr后台进行数据抽取、转换,建立索引保存到索引库中。
所述的进行关键字词识别后,如果查询字词中存在敏感字词,则返回命中敏感字词标识为真,否则返回命中敏感字词标识为假;如果查询字词中存在相关性字词,则返回命中相关字词标识为真,否则返回命中相关字词标识为假;
若敏感字词标识为假且相关字词标识为真时,提交到Solr搜索器进行搜索处理;若敏感字词标识为真或相关字词标识为假时,直接返回页面提醒用户修改查询字词。
所述的关键字词识别步骤如下:用户通过WEB页面提交数据内容,数据内容至多由两个字段构成,包括字段:标题、正文内容;数据内容被传递到分词器,根据分词规则和分词表,对数据内容进行切词,得到关键字词结果;识别器根据这些查询字词遍历敏感字词库和相关字词库,得到匹配结果,并返回处理结果。
本发明的一种基于SOLR的关键字词识别办法和现有技术相比,具有以下有益效果:1)避免提交敏感信息或无效信息进行检索,提高检索效率和命中率;2)避免垃圾数据和敏感数据进入到索引库中,提高索引库数据质量。
具体实施方式
实施例1:
该基于SOLR的关键字词识别办法如下:在后台数据库增加关键字词配置表,分别记录敏感字词库及相关字词库,敏感字词库和相关字词库会保存到缓存中以提高读取速度,并配置定时更新缓存机制;
在WEB前端用户交互页面中,增加拦截方法,对用户提交的搜索字词调用识别器进行处理,进行关键字词识别后,根据处理结果确定是拒绝纳入索引返回提醒用户修改数据内容,或者通过提交到Solr后台进行数据抽取、转换,建立索引并将检索结果返回给用户。
用户通过WEB页面提交数据内容,数据内容至多由两个字段构成,包括字段:标题、正文内容;数据内容被传递到分词器,根据分词规则和分词表,对数据内容进行切词,得到关键字词结果;识别器根据这些查询字词遍历敏感字词库和相关字词库,得到匹配结果,并返回处理结果。进行关键字词识别后,如果查询字词中存在敏感字词,则返回命中敏感字词标识为真,否则返回命中敏感字词标识为假;如果查询字词中存在相关性字词,则返回命中相关字词标识为真,否则返回命中相关字词标识为假;
若敏感字词标识为假且相关字词标识为真时,提交到Solr搜索器进行搜索处理;若敏感字词标识为真或相关字词标识为假时,直接返回页面提醒用户修改查询字词。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

Claims (4)

1.一种基于SOLR的关键字词识别办法,其特征在于,该方法如下:在后台数据库增加关键字词配置表,分别记录敏感字词库及相关字词库,敏感字词库和相关字词库会保存到缓存中以提高读取速度,并配置定时更新缓存机制;
在WEB前端用户交互页面中,增加拦截方法,对用户提交的搜索字词调用识别器进行处理,进行关键字词识别后,根据处理结果确定是拒绝检索返回提醒用户修改搜索字词,或者通过提交到Solr后台进行检索结果操作,并将检索结果返回给用户。
2.根据权利要求1所述的一种基于SOLR的关键字词识别办法,其特征在于,该方法在提交新数据内容进入到索引库前,调用识别器对数据内容进行处理,进行关键字词识别后,根据处理结果确定是拒绝纳入索引返回提醒用户修改数据内容,或者通过提交到Solr后台进行数据抽取、转换,建立索引保存到索引库中。
3.根据权利要求1所述的一种基于SOLR的关键字词识别办法,其特征在于,所述的进行关键字词识别后,如果查询字词中存在敏感字词,则返回命中敏感字词标识为真,否则返回命中敏感字词标识为假;如果查询字词中存在相关性字词,则返回命中相关字词标识为真,否则返回命中相关字词标识为假;
若敏感字词标识为假且相关字词标识为真时,提交到Solr搜索器进行搜索处理;若敏感字词标识为真或相关字词标识为假时,直接返回页面提醒用户修改查询字词。
4.根据权利要求3所述的一种基于SOLR的关键字词识别办法,其特征在于,所述的关键字词识别步骤如下:用户通过WEB页面提交数据内容,数据内容至多由两个字段构成,包括字段:标题、正文内容;数据内容被传递到分词器,根据分词规则和分词表,对数据内容进行切词,得到关键字词结果;识别器根据这些查询字词遍历敏感字词库和相关字词库,得到匹配结果,并返回处理结果。
CN201610103279.5A 2016-02-25 2016-02-25 一种基于solr的关键字词识别办法 Pending CN105787029A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610103279.5A CN105787029A (zh) 2016-02-25 2016-02-25 一种基于solr的关键字词识别办法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610103279.5A CN105787029A (zh) 2016-02-25 2016-02-25 一种基于solr的关键字词识别办法

Publications (1)

Publication Number Publication Date
CN105787029A true CN105787029A (zh) 2016-07-20

Family

ID=56403662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610103279.5A Pending CN105787029A (zh) 2016-02-25 2016-02-25 一种基于solr的关键字词识别办法

Country Status (1)

Country Link
CN (1) CN105787029A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107093115A (zh) * 2017-05-10 2017-08-25 杭州纸箱哥文化传播有限公司 一种精准营销的广告纸箱定制方法及系统
US10726004B2 (en) 2017-03-09 2020-07-28 Walmart Apollo, Llc Enterprise integration processing for mainframe COBOL programs
CN116010609A (zh) * 2023-03-23 2023-04-25 山东中翰软件有限公司 一种物料数据归类方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923580A (zh) * 2010-09-09 2010-12-22 北京开心人信息技术有限公司 一种基于多词表的关键词快速匹配的方法与系统
CN103198066A (zh) * 2012-01-06 2013-07-10 腾讯科技(深圳)有限公司 一种基于词表的信息搜索方法及搜索系统
CN103714056A (zh) * 2012-09-28 2014-04-09 深圳市微讯移通信息技术有限公司 一种基于后台程序的关键字/敏感词过滤方法
CN104216901A (zh) * 2013-05-31 2014-12-17 北京新媒传信科技有限公司 信息搜索的方法和系统
CN104702424A (zh) * 2013-12-05 2015-06-10 中国联合网络通信集团有限公司 一种网络行为监控的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923580A (zh) * 2010-09-09 2010-12-22 北京开心人信息技术有限公司 一种基于多词表的关键词快速匹配的方法与系统
CN103198066A (zh) * 2012-01-06 2013-07-10 腾讯科技(深圳)有限公司 一种基于词表的信息搜索方法及搜索系统
CN103714056A (zh) * 2012-09-28 2014-04-09 深圳市微讯移通信息技术有限公司 一种基于后台程序的关键字/敏感词过滤方法
CN104216901A (zh) * 2013-05-31 2014-12-17 北京新媒传信科技有限公司 信息搜索的方法和系统
CN104702424A (zh) * 2013-12-05 2015-06-10 中国联合网络通信集团有限公司 一种网络行为监控的方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726004B2 (en) 2017-03-09 2020-07-28 Walmart Apollo, Llc Enterprise integration processing for mainframe COBOL programs
CN107093115A (zh) * 2017-05-10 2017-08-25 杭州纸箱哥文化传播有限公司 一种精准营销的广告纸箱定制方法及系统
CN107093115B (zh) * 2017-05-10 2021-05-25 杭州纸箱哥文化传播有限公司 一种精准营销的广告纸箱定制方法及系统
CN116010609A (zh) * 2023-03-23 2023-04-25 山东中翰软件有限公司 一种物料数据归类方法、装置、电子设备及存储介质
CN116010609B (zh) * 2023-03-23 2023-06-09 山东中翰软件有限公司 一种物料数据归类方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US20210209182A1 (en) Systems and methods for improved web searching
US10289618B2 (en) Third party search applications for a search system
US10289700B2 (en) Method for dynamically matching images with content items based on keywords in response to search queries
US9898554B2 (en) Implicit question query identification
EP2973041B1 (en) Apparatus, systems, and methods for batch and realtime data processing
KR101661198B1 (ko) 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템
US10242051B2 (en) Efficient multi-tenant spatial and relational indexing
CN101251852B (zh) 面向领域的Web数据集成系统和方法
US20120158738A1 (en) Inference Indexing
JP6165955B1 (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
WO2011097053A2 (en) Generating and presenting lateral concepts
US10275472B2 (en) Method for categorizing images to be associated with content items based on keywords of search queries
US10235387B2 (en) Method for selecting images for matching with content based on metadata of images and content in real-time in response to search queries
CN104391908B (zh) 一种图上基于局部敏感哈希的多关键字索引方法
US8805848B2 (en) Systems, methods and computer program products for fast and scalable proximal search for search queries
CN106227788A (zh) 一种以Lucene为基础的数据库查询方法
US11789946B2 (en) Answer facts from structured content
CN103365915A (zh) 基于搜索引擎和数据库查询系统的搜索结果排名方法
CN105787029A (zh) 一种基于solr的关键字词识别办法
US20230131872A1 (en) Augmenting search results based on relevancy and utility
Kumar et al. Design of a mobile Web crawler for hidden Web
CN103646034A (zh) 一种基于内容可信的Web搜索引擎系统及搜索方法
Vidhya et al. Research document search using elastic search
US20160019204A1 (en) Matching large sets of words
CN101576897A (zh) 文件内容检索系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160720

RJ01 Rejection of invention patent application after publication