CN105787029A - 一种基于solr的关键字词识别办法 - Google Patents
一种基于solr的关键字词识别办法 Download PDFInfo
- Publication number
- CN105787029A CN105787029A CN201610103279.5A CN201610103279A CN105787029A CN 105787029 A CN105787029 A CN 105787029A CN 201610103279 A CN201610103279 A CN 201610103279A CN 105787029 A CN105787029 A CN 105787029A
- Authority
- CN
- China
- Prior art keywords
- words
- solr
- sensitive
- user
- crucial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000003993 interaction Effects 0.000 claims abstract description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于SOLR的关键字词识别办法,该方法如下:在后台数据库增加关键字词配置表,分别记录敏感字词库及相关字词库,敏感字词库和相关字词库会保存到缓存中以提高读取速度,并配置定时更新缓存机制;在WEB前端用户交互页面中,增加拦截方法,对用户提交的搜索字词调用识别器进行处理,进行关键字词识别后,根据处理结果确定是拒绝检索返回提醒用户修改搜索字词,或者通过提交到Solr后台进行检索结果操作,并将检索结果返回给用户。本发明和现有技术相比,具有以下有益效果:1)避免提交敏感信息或无效信息进行检索,提高检索效率和命中率;2)避免垃圾数据和敏感数据进入到索引库中,提高索引库数据质量。
Description
技术领域
本发明涉及一种,具体地说是一种基于SOLR的关键字词识别办法。
背景技术
随着互联网的飞速发展,数据量与日俱增,越来越多的大型企业或集团的核心业务数据都存储在关系数据库管理系统(RDBMS)中。但传统的关系数据库缺乏对存储在库中字段的内容进行检索和分析的核心功能,解决这个问题的关键是建立一条有效的包含数据整合、高速查询、信息分析的、将数据转化为信息的途径。
从目前信息科学技术的发展来看,海量信息的全文检索技术是最先进、最适合的解决途径。国内外相继出现了一些全文检索产品,比较著名的有IBM公司研发的关系型数据库DB2其中的TextExtender,Oracle公司的OracleText,Microsoft公司开发的SQLServer和开源的Lucene[1]全文检索工具包。
利用大型关系数据库本身提供的检索服务还有较多不足,所以不适合作为开发平台。而Lucene是Apache软件基金会Jakarta项目组的一个子项目,是一个纯Java编写的开放源代码的全文检索工具包。作为一个开放源代码项目,Lucene自问世之后引发了开放源代码社群的巨大反响,程序员们不仅使用它构建具体的全文检索应用,而且将之集成到各种系统软件中去,以及构建Web应用,甚至某些商业软件也采用了Lucene作为其内部全文检索子系统的核心。近几年,学者对基于Lucene全文检索的应用研究层出不穷,如Web页面检索、数据库全文检索、图像检索等。
由于搜索引擎功能在门户网站中对提高用户体验有着重在门户网站中涉及大量需要搜索引擎的功能需求,目前在实现搜索引擎的方案上有集中方案可供选择:
1.基于Lucene自己进行封装实现站内搜索。
2.调用Google、Baidu的API实现站内搜索。
3.基于Solr自己进行扩展实现站内搜索。
Solr是一个基于Lucene的Java搜索引擎服务器。Solr提供了层面搜索、命中醒目显示并且支持多种输出格式(包括XML/XSLT和JSON格式)。它易于安装和配置,而且附带了一个基于HTTP的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。
在基于Solr的搜索引擎服务器上,对所有提交的数据内容,未加识别就直接经过分词器进行检索建立索引纳入到索引库中。同时也没有对该数据内容的相关性进行检查,导致无关的内容进入到索引库中,降低数据质量。
发明内容
本发明的技术任务是提供一种基于SOLR的关键字词识别办法。
本发明的技术任务是按以下方式实现的,该方法如下:在后台数据库增加关键字词配置表,分别记录敏感字词库及相关字词库,敏感字词库和相关字词库会保存到缓存中以提高读取速度,并配置定时更新缓存机制;
在WEB前端用户交互页面中,增加拦截方法,对用户提交的搜索字词调用识别器进行处理,进行关键字词识别后,根据处理结果确定是拒绝检索返回提醒用户修改搜索字词,或者通过提交到Solr后台进行检索结果操作,并将检索结果返回给用户。
该方法在提交新数据内容进入到索引库前,调用识别器对数据内容进行处理,进行关键字词识别后,根据处理结果确定是拒绝纳入索引返回提醒用户修改数据内容,或者通过提交到Solr后台进行数据抽取、转换,建立索引保存到索引库中。
所述的进行关键字词识别后,如果查询字词中存在敏感字词,则返回命中敏感字词标识为真,否则返回命中敏感字词标识为假;如果查询字词中存在相关性字词,则返回命中相关字词标识为真,否则返回命中相关字词标识为假;
若敏感字词标识为假且相关字词标识为真时,提交到Solr搜索器进行搜索处理;若敏感字词标识为真或相关字词标识为假时,直接返回页面提醒用户修改查询字词。
所述的关键字词识别步骤如下:用户通过WEB页面提交数据内容,数据内容至多由两个字段构成,包括字段:标题、正文内容;数据内容被传递到分词器,根据分词规则和分词表,对数据内容进行切词,得到关键字词结果;识别器根据这些查询字词遍历敏感字词库和相关字词库,得到匹配结果,并返回处理结果。
本发明的一种基于SOLR的关键字词识别办法和现有技术相比,具有以下有益效果:1)避免提交敏感信息或无效信息进行检索,提高检索效率和命中率;2)避免垃圾数据和敏感数据进入到索引库中,提高索引库数据质量。
具体实施方式
实施例1:
该基于SOLR的关键字词识别办法如下:在后台数据库增加关键字词配置表,分别记录敏感字词库及相关字词库,敏感字词库和相关字词库会保存到缓存中以提高读取速度,并配置定时更新缓存机制;
在WEB前端用户交互页面中,增加拦截方法,对用户提交的搜索字词调用识别器进行处理,进行关键字词识别后,根据处理结果确定是拒绝纳入索引返回提醒用户修改数据内容,或者通过提交到Solr后台进行数据抽取、转换,建立索引并将检索结果返回给用户。
用户通过WEB页面提交数据内容,数据内容至多由两个字段构成,包括字段:标题、正文内容;数据内容被传递到分词器,根据分词规则和分词表,对数据内容进行切词,得到关键字词结果;识别器根据这些查询字词遍历敏感字词库和相关字词库,得到匹配结果,并返回处理结果。进行关键字词识别后,如果查询字词中存在敏感字词,则返回命中敏感字词标识为真,否则返回命中敏感字词标识为假;如果查询字词中存在相关性字词,则返回命中相关字词标识为真,否则返回命中相关字词标识为假;
若敏感字词标识为假且相关字词标识为真时,提交到Solr搜索器进行搜索处理;若敏感字词标识为真或相关字词标识为假时,直接返回页面提醒用户修改查询字词。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
Claims (4)
1.一种基于SOLR的关键字词识别办法,其特征在于,该方法如下:在后台数据库增加关键字词配置表,分别记录敏感字词库及相关字词库,敏感字词库和相关字词库会保存到缓存中以提高读取速度,并配置定时更新缓存机制;
在WEB前端用户交互页面中,增加拦截方法,对用户提交的搜索字词调用识别器进行处理,进行关键字词识别后,根据处理结果确定是拒绝检索返回提醒用户修改搜索字词,或者通过提交到Solr后台进行检索结果操作,并将检索结果返回给用户。
2.根据权利要求1所述的一种基于SOLR的关键字词识别办法,其特征在于,该方法在提交新数据内容进入到索引库前,调用识别器对数据内容进行处理,进行关键字词识别后,根据处理结果确定是拒绝纳入索引返回提醒用户修改数据内容,或者通过提交到Solr后台进行数据抽取、转换,建立索引保存到索引库中。
3.根据权利要求1所述的一种基于SOLR的关键字词识别办法,其特征在于,所述的进行关键字词识别后,如果查询字词中存在敏感字词,则返回命中敏感字词标识为真,否则返回命中敏感字词标识为假;如果查询字词中存在相关性字词,则返回命中相关字词标识为真,否则返回命中相关字词标识为假;
若敏感字词标识为假且相关字词标识为真时,提交到Solr搜索器进行搜索处理;若敏感字词标识为真或相关字词标识为假时,直接返回页面提醒用户修改查询字词。
4.根据权利要求3所述的一种基于SOLR的关键字词识别办法,其特征在于,所述的关键字词识别步骤如下:用户通过WEB页面提交数据内容,数据内容至多由两个字段构成,包括字段:标题、正文内容;数据内容被传递到分词器,根据分词规则和分词表,对数据内容进行切词,得到关键字词结果;识别器根据这些查询字词遍历敏感字词库和相关字词库,得到匹配结果,并返回处理结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610103279.5A CN105787029A (zh) | 2016-02-25 | 2016-02-25 | 一种基于solr的关键字词识别办法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610103279.5A CN105787029A (zh) | 2016-02-25 | 2016-02-25 | 一种基于solr的关键字词识别办法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105787029A true CN105787029A (zh) | 2016-07-20 |
Family
ID=56403662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610103279.5A Pending CN105787029A (zh) | 2016-02-25 | 2016-02-25 | 一种基于solr的关键字词识别办法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105787029A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107093115A (zh) * | 2017-05-10 | 2017-08-25 | 杭州纸箱哥文化传播有限公司 | 一种精准营销的广告纸箱定制方法及系统 |
US10726004B2 (en) | 2017-03-09 | 2020-07-28 | Walmart Apollo, Llc | Enterprise integration processing for mainframe COBOL programs |
CN116010609A (zh) * | 2023-03-23 | 2023-04-25 | 山东中翰软件有限公司 | 一种物料数据归类方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923580A (zh) * | 2010-09-09 | 2010-12-22 | 北京开心人信息技术有限公司 | 一种基于多词表的关键词快速匹配的方法与系统 |
CN103198066A (zh) * | 2012-01-06 | 2013-07-10 | 腾讯科技(深圳)有限公司 | 一种基于词表的信息搜索方法及搜索系统 |
CN103714056A (zh) * | 2012-09-28 | 2014-04-09 | 深圳市微讯移通信息技术有限公司 | 一种基于后台程序的关键字/敏感词过滤方法 |
CN104216901A (zh) * | 2013-05-31 | 2014-12-17 | 北京新媒传信科技有限公司 | 信息搜索的方法和系统 |
CN104702424A (zh) * | 2013-12-05 | 2015-06-10 | 中国联合网络通信集团有限公司 | 一种网络行为监控的方法及装置 |
-
2016
- 2016-02-25 CN CN201610103279.5A patent/CN105787029A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923580A (zh) * | 2010-09-09 | 2010-12-22 | 北京开心人信息技术有限公司 | 一种基于多词表的关键词快速匹配的方法与系统 |
CN103198066A (zh) * | 2012-01-06 | 2013-07-10 | 腾讯科技(深圳)有限公司 | 一种基于词表的信息搜索方法及搜索系统 |
CN103714056A (zh) * | 2012-09-28 | 2014-04-09 | 深圳市微讯移通信息技术有限公司 | 一种基于后台程序的关键字/敏感词过滤方法 |
CN104216901A (zh) * | 2013-05-31 | 2014-12-17 | 北京新媒传信科技有限公司 | 信息搜索的方法和系统 |
CN104702424A (zh) * | 2013-12-05 | 2015-06-10 | 中国联合网络通信集团有限公司 | 一种网络行为监控的方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10726004B2 (en) | 2017-03-09 | 2020-07-28 | Walmart Apollo, Llc | Enterprise integration processing for mainframe COBOL programs |
CN107093115A (zh) * | 2017-05-10 | 2017-08-25 | 杭州纸箱哥文化传播有限公司 | 一种精准营销的广告纸箱定制方法及系统 |
CN107093115B (zh) * | 2017-05-10 | 2021-05-25 | 杭州纸箱哥文化传播有限公司 | 一种精准营销的广告纸箱定制方法及系统 |
CN116010609A (zh) * | 2023-03-23 | 2023-04-25 | 山东中翰软件有限公司 | 一种物料数据归类方法、装置、电子设备及存储介质 |
CN116010609B (zh) * | 2023-03-23 | 2023-06-09 | 山东中翰软件有限公司 | 一种物料数据归类方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210209182A1 (en) | Systems and methods for improved web searching | |
US10289618B2 (en) | Third party search applications for a search system | |
US10289700B2 (en) | Method for dynamically matching images with content items based on keywords in response to search queries | |
US9898554B2 (en) | Implicit question query identification | |
EP2973041B1 (en) | Apparatus, systems, and methods for batch and realtime data processing | |
KR101661198B1 (ko) | 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템 | |
US10242051B2 (en) | Efficient multi-tenant spatial and relational indexing | |
CN101251852B (zh) | 面向领域的Web数据集成系统和方法 | |
US20120158738A1 (en) | Inference Indexing | |
JP6165955B1 (ja) | 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム | |
WO2011097053A2 (en) | Generating and presenting lateral concepts | |
US10275472B2 (en) | Method for categorizing images to be associated with content items based on keywords of search queries | |
US10235387B2 (en) | Method for selecting images for matching with content based on metadata of images and content in real-time in response to search queries | |
CN104391908B (zh) | 一种图上基于局部敏感哈希的多关键字索引方法 | |
US8805848B2 (en) | Systems, methods and computer program products for fast and scalable proximal search for search queries | |
CN106227788A (zh) | 一种以Lucene为基础的数据库查询方法 | |
US11789946B2 (en) | Answer facts from structured content | |
CN103365915A (zh) | 基于搜索引擎和数据库查询系统的搜索结果排名方法 | |
CN105787029A (zh) | 一种基于solr的关键字词识别办法 | |
US20230131872A1 (en) | Augmenting search results based on relevancy and utility | |
Kumar et al. | Design of a mobile Web crawler for hidden Web | |
CN103646034A (zh) | 一种基于内容可信的Web搜索引擎系统及搜索方法 | |
Vidhya et al. | Research document search using elastic search | |
US20160019204A1 (en) | Matching large sets of words | |
CN101576897A (zh) | 文件内容检索系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160720 |
|
RJ01 | Rejection of invention patent application after publication |