CN102339294A - 一种对关键词进行预处理的搜索方法和系统 - Google Patents
一种对关键词进行预处理的搜索方法和系统 Download PDFInfo
- Publication number
- CN102339294A CN102339294A CN2010102379508A CN201010237950A CN102339294A CN 102339294 A CN102339294 A CN 102339294A CN 2010102379508 A CN2010102379508 A CN 2010102379508A CN 201010237950 A CN201010237950 A CN 201010237950A CN 102339294 A CN102339294 A CN 102339294A
- Authority
- CN
- China
- Prior art keywords
- title
- word segmentation
- keyword
- storehouse
- segmentation processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种对关键词进行预处理的搜索方法和系统,所述方法包括:接收用户输入的关键词;对所述关键词进行分词处理从而生成分词处理结果;采用第一逻辑运算在对应于标题库的标题索引库中对分词处理结果进行检索,从而得到包含所述关键词的标题;采用第二逻辑运算在内容索引库中对所述分词处理结果和包含所述关键词的标题进行联合搜索,并输出搜索结果。本发明通过对用户输入的关键词进行预处理,采用分词技术和索引技术直接找到完全包含用户输入关键词的内容标题,然后将标题加入到用户搜索关键词中进行联合搜索,使得用户输入的关键字全部出现在内容的标题中并且在搜索的结果中排序靠前,准确快速搜索到所需内容,极大的提升用户的体验。
Description
技术领域
本发明涉及用户搜索技术,更具体地说,涉及一种对关键词进行预处理的搜索方法和系统。
背景技术
目前的中文搜索引擎大多基于中文词库的方法来实现索引创建和关键词搜索,从搜索的效果和性能角度来说,传统的这种搜索方法不可能将搜索内容源的所有单字全部建立索引存入索引库中,这样用户在不清楚具体的内容标题的前提下,只输入个别汉字或是只言片语的情形下是无法准确的搜索到所需要的内容,即便找到了所需内容,期间花费的时间也是比较多的,最终会影响用户的搜索体验。
因此,需要一种搜索方案,能够克服现有技术之中存在的难以准确快速搜索到所需内容的缺陷。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述难以准确快速搜索到所需内容的缺陷,提供一种对关键词进行预处理的搜索方法和系统。
本发明解决其技术问题所采用的技术方案是:构造一种对关键词进行预处理的搜索方法,包括:
接收用户输入的关键词;
对所述关键词进行分词处理从而生成分词处理结果;
采用第一逻辑运算在对应于标题库的标题索引库中对分词处理结果进行检索,从而得到包含所述关键词的标题;
采用第二逻辑运算在内容索引库中对所述分词处理结果和包含所述关键词的标题进行联合搜索,并输出搜索结果。
在本发明所述的方法中,所述第一逻辑运算为与运算。
在本发明所述的方法中,所述第二逻辑运算为或运算。
在本发明所述的方法中,所述标题索引库采用中文分词法和单字分词法来建立。
在本发明所述的方法中,还包括定期更新所述标题库。
本发明还提供一种对关键词进行预处理的搜索系统,包括:
标题索引库,用于对内容源的标题构成的标题库建立索引;
内容索引库,用于对内容源建立索引;
接收单元,用于接收用户输入的关键词;
分词处理单元,用于对所述关键词进行分词处理从而生成分词处理结果;
预处理单元,用于采用第一逻辑运算在对应于标题库的标题索引库中对分词处理结果进行检索,从而得到包含所述关键词的标题;
搜索单元,用于采用第二逻辑运算在内容索引库中对所述分词处理结果和包含所述关键词的标题进行联合搜索,并输出搜索结果。
在本发明所述的系统中,所述第一逻辑运算为与运算。
在本发明所述的系统中,所述第二逻辑运算为或运算。
在本发明所述的系统中,所述标题索引库采用中文分词法和单字分词法来建立。
在本发明所述的系统中,所述标题库是定期更新的。
本发明的有益效果是,通过对用户输入的关键词进行预处理,采用分词技术和索引技术直接找到完全包含用户输入关键词的内容标题,然后将标题加入到用户搜索关键词中进行联合搜索,使得用户输入的关键字全部出现在内容的标题中并且在搜索的结果中排序靠前,准确快速搜索到所需内容,极大的提升用户的体验。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是依据本发明一实施例的对关键词进行预处理的搜索方法流程示意图;
图2是依据本发明一实施例的对关键词进行预处理的搜索系统结构示意图。
具体实施方式
本发明通过对用户输入的关键词进行预处理,采用分词技术和索引技术直接找到完全包含用户输入关键词的内容标题,然后将标题加入到用户搜索关键词中进行联合搜索,使得用户输入的关键字全部出现在内容的标题中并且在搜索的结果中排序靠前,准确快速搜索到所需内容,将极大的提升用户的体验。
图1是依据本发明一实施例的对关键词进行预处理的搜索方法100流程示意图。对关键词进行预处理的搜索方法100包括以下步骤:
步骤101中,接收用户输入的关键词;
用户输入的关键词可以是单个字,单个词,也可以是多个字,多个词,本发明对此不受限制。
步骤102中,对所述关键词进行分词处理从而生成分词处理结果。
对于用户输入的关键词,可以使用常用的中文分词算法来进行分词处理,
关于中文分词算法,包括很多种,例如但不限于基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等等。下面对这些分词方法进行详细的描述,以便有助于理解本发明的方案。
基于字符串匹配的分词方法又称为机械分词方法。这种方法依照特定的策略将待分析的文字序列与一个机器词典中的词条进行匹配,若在词典中找到某个词,则匹配成功(识别出一个词)。按照扫描方向的不同,字符串匹配方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的标准,字符串匹配方法可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合的标准,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。这种方法的基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。基于这种分词方法开发的分词系统通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,通过模拟人对句子的理解来达到分词的目标。
第三种分词方法是基于统计的分词方法。从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算例如两个汉字的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语句中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。
在步骤103中,采用第一逻辑运算在对应于标题库的标题索引库中对分词处理结果进行检索,从而得到包含所述关键词的标题。
在本发明一实施例中,第一逻辑运算优选为“与(and)”运算。标题索引库是对标题库建立的索引,而该标题库对应于内容源,也即每一内容都对应有相应的标题,所有的标题构成标题库。
在本发明一实施例中,还可定期或不定期地对标题库进行更新。
对标题库建立索引所采用的分词技术不仅包括常规的上文所述的几种分词方法外,还包括单字分词方法。所谓单字分词,是指对标题的每一个字进行分词,对每一字都建立索引。与常规的分词方法不同,不是建立在对词语的分词上。例如,标题“我是中国人”,单字分词就是把“我”“是”“中”“国”“人”都建立索引,而常规分词方法可能会分为例如“我”“是”“中国人”。
在标题库中找到完全包含用户输入关键词的标题后,就将此标题也作为用户输入关键词的一部分,进入下一步骤104。
步骤104中,采用第二逻辑运算在内容索引库中对所述分词处理结果和包含所述关键词的标题进行联合搜索,并输出搜索结果。
包含所述关键词的标题可能是一个或多个,本发明对此不做限制,若步骤103中得到多个包含关键词的标题,那么在此步骤中采用第二逻辑运算在内容索引库中对所述分词处理结果和多个包含关键词的标题进行联合搜索。
在本发明一实施例中,第二逻辑运算优选为“或(or)”运算。内容索引库是对内容源建立的索引,其中单独对每一内容源的标题建立只索引不分词的字段,也对每一内容源的标题进行建立即分词又索引的字段。
将用户输入的关键词和预处理过程得到的包含关键词的标题一起作为新的关键词,从而能够正确快速地将用户真正需要的内容排列靠前。
图2是依据本发明一实施例的对关键词进行预处理的搜索系统结构200示意图。对关键词进行预处理的搜索系统200包括:接收单元201、分词处理单元202、预处理单元203、搜索单元204、标题索引库205、内容索引库206。
接收单元201,用于接收用户输入的关键词;
分词处理单元202,用于对所述关键词进行分词处理从而生成分词处理结果;
预处理单元203,用于采用第一逻辑运算在对应于标题库的标题索引库中对分词处理结果进行检索,从而得到包含所述关键词的标题;
搜索单元204,用于采用第二逻辑运算在内容索引库中对所述分词处理结果和包含所述关键词的标题进行联合搜索,并输出搜索结果。
标题索引库205,用于对内容源的标题构成的标题库建立索引;
内容索引库206,用于对内容源建立索引。
在本发明一实施例中,第一逻辑运算优选为“与(and)”运算。标题索引库是对标题库建立的索引,而该标题库对应于内容源,也即每一内容都对应有相应的标题,所有的标题构成标题库。
在本发明一实施例中,还可定期或不定期地对标题库进行更新。
对标题库建立索引所采用的分词技术不仅包括常规的上文所述的几种分词方法外,还包括单字分词方法。所谓单字分词,是指对标题的每一个字进行分词,对每一字都建立索引。与常规的分词方法不同,不是建立在对词语的分词上。例如,标题“我是中国人”,单字分词就是把“我”“是”“中”“国”“人”都建立索引,而常规分词方法可能会分为例如“我”“是”“中国人”。
在本发明一实施例中,第二逻辑运算优选为“或(or)”运算。内容索引库是对内容源建立的索引,其中单独对每一内容源的标题建立只索引不分词的字段,也对每一内容源的标题进行建立即分词又索引的字段。
在标题库中找到完全包含用户输入关键词的标题后,将用户输入的关键词和预处理过程得到的包含关键词的标题一起作为新的关键词,从而能够正确快速地将用户真正需要的内容排列靠前。
本发明通过对用户输入的关键词进行预处理,采用分词技术和索引技术直接找到完全包含用户输入关键词的内容标题,然后将标题加入到用户搜索关键词中进行联合搜索,相当于形成新的关键词,使得用户输入的关键字全部出现在内容的标题中并且在搜索的结果中排序靠前,准确快速搜索到所需内容,将极大的提升用户的体验。
Claims (10)
1.一种对关键词进行预处理的搜索方法,其特征在于,包括:
接收用户输入的关键词;
对所述关键词进行分词处理从而生成分词处理结果;
采用第一逻辑运算在对应于标题库的标题索引库中对分词处理结果进行检索,从而得到包含所述关键词的标题;
采用第二逻辑运算在内容索引库中对所述分词处理结果和包含所述关键词的标题进行联合搜索,并输出搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述第一逻辑运算为与运算。
3.根据权利要求1所述的方法,其特征在于,所述第二逻辑运算为或运算。
4.根据权利要求1所述的方法,其特征在于,所述标题索引库采用中文分词法和单字分词法来建立。
5.根据权利要求1~4任一项所述的方法,其特征在于,还包括定期更新所述标题库。
6.一种对关键词进行预处理的搜索系统,其特征在于,包括:
标题索引库,用于对内容源的标题构成的标题库建立索引;
内容索引库,用于对内容源建立索引;
接收单元,用于接收用户输入的关键词;
分词处理单元,用于对所述关键词进行分词处理从而生成分词处理结果;
预处理单元,用于采用第一逻辑运算在对应于标题库的标题索引库中对分词处理结果进行检索,从而得到包含所述关键词的标题;
搜索单元,用于采用第二逻辑运算在内容索引库中对所述分词处理结果和包含所述关键词的标题进行联合搜索,并输出搜索结果。
7.根据权利要求6所述的系统,其特征在于,所述第一逻辑运算为与运算。
8.根据权利要求6所述的系统,其特征在于,所述第二逻辑运算为或运算。
9.根据权利要求6所述的系统,其特征在于,所述标题索引库采用中文分词法和单字分词法来建立。
10.根据权利要求6~9任一项所述的系统,其特征在于,所述标题库是定期更新的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010237950 CN102339294B (zh) | 2010-07-27 | 2010-07-27 | 一种对关键词进行预处理的搜索方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010237950 CN102339294B (zh) | 2010-07-27 | 2010-07-27 | 一种对关键词进行预处理的搜索方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102339294A true CN102339294A (zh) | 2012-02-01 |
CN102339294B CN102339294B (zh) | 2013-09-11 |
Family
ID=45515031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010237950 Expired - Fee Related CN102339294B (zh) | 2010-07-27 | 2010-07-27 | 一种对关键词进行预处理的搜索方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102339294B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799661A (zh) * | 2012-07-09 | 2012-11-28 | 北京中科希望软件股份有限公司 | 一种对电子文件进行语义检索的方法和系统 |
WO2015035821A1 (en) * | 2013-09-16 | 2015-03-19 | Tencent Technology (Shenzhen) Company Limited | Methods and systems for query segmentation in a search |
CN104598439A (zh) * | 2013-10-30 | 2015-05-06 | 阿里巴巴集团控股有限公司 | 信息对象的标题修正方法及装置和推送信息对象的方法 |
WO2016124097A1 (zh) * | 2015-02-02 | 2016-08-11 | 阿里巴巴集团控股有限公司 | 一种文本检索方法和装置 |
CN106610927A (zh) * | 2016-12-19 | 2017-05-03 | 厦门二五八网络科技集团股份有限公司 | 一种基于翻译模板的互联网文章的建构方法与系统 |
CN106951513A (zh) * | 2017-03-17 | 2017-07-14 | 宫辉 | 一种法律案件或法律法规关键字处理方法及关键字处理系统 |
CN108304421A (zh) * | 2017-02-24 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种信息搜索方法及装置 |
CN110781365A (zh) * | 2018-07-13 | 2020-02-11 | 阿里巴巴集团控股有限公司 | 商品搜索方法、装置、系统及电子设备 |
CN112052361A (zh) * | 2019-06-06 | 2020-12-08 | Oppo广东移动通信有限公司 | 搜索方法、装置、终端及存储介质 |
WO2021031862A1 (zh) * | 2019-08-21 | 2021-02-25 | 华为技术有限公司 | 一种数据处理方法及其装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08101841A (ja) * | 1994-09-30 | 1996-04-16 | Toshiba Corp | 文書検索方法及びその装置 |
US20070088695A1 (en) * | 2005-10-14 | 2007-04-19 | Uptodate Inc. | Method and apparatus for identifying documents relevant to a search query in a medical information resource |
CN101145153A (zh) * | 2006-09-13 | 2008-03-19 | 阿里巴巴公司 | 一种搜索信息的方法及系统 |
-
2010
- 2010-07-27 CN CN 201010237950 patent/CN102339294B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08101841A (ja) * | 1994-09-30 | 1996-04-16 | Toshiba Corp | 文書検索方法及びその装置 |
US20070088695A1 (en) * | 2005-10-14 | 2007-04-19 | Uptodate Inc. | Method and apparatus for identifying documents relevant to a search query in a medical information resource |
CN101145153A (zh) * | 2006-09-13 | 2008-03-19 | 阿里巴巴公司 | 一种搜索信息的方法及系统 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799661A (zh) * | 2012-07-09 | 2012-11-28 | 北京中科希望软件股份有限公司 | 一种对电子文件进行语义检索的方法和系统 |
US10061844B2 (en) | 2013-09-16 | 2018-08-28 | Tencent Technology (Shenzhen) Company Limited | Methods and systems for query segmentation in a search |
WO2015035821A1 (en) * | 2013-09-16 | 2015-03-19 | Tencent Technology (Shenzhen) Company Limited | Methods and systems for query segmentation in a search |
US11003700B2 (en) | 2013-09-16 | 2021-05-11 | Tencent Technology (Shenzhen) Company Limited | Methods and systems for query segmentation in a search |
CN104598439A (zh) * | 2013-10-30 | 2015-05-06 | 阿里巴巴集团控股有限公司 | 信息对象的标题修正方法及装置和推送信息对象的方法 |
WO2016124097A1 (zh) * | 2015-02-02 | 2016-08-11 | 阿里巴巴集团控股有限公司 | 一种文本检索方法和装置 |
CN106610927A (zh) * | 2016-12-19 | 2017-05-03 | 厦门二五八网络科技集团股份有限公司 | 一种基于翻译模板的互联网文章的建构方法与系统 |
CN108304421A (zh) * | 2017-02-24 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种信息搜索方法及装置 |
CN106951513B (zh) * | 2017-03-17 | 2020-02-07 | 宫辉 | 一种法律案件或法律法规关键字处理方法及关键字处理系统 |
CN106951513A (zh) * | 2017-03-17 | 2017-07-14 | 宫辉 | 一种法律案件或法律法规关键字处理方法及关键字处理系统 |
CN110781365A (zh) * | 2018-07-13 | 2020-02-11 | 阿里巴巴集团控股有限公司 | 商品搜索方法、装置、系统及电子设备 |
CN110781365B (zh) * | 2018-07-13 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 商品搜索方法、装置、系统及电子设备 |
CN112052361A (zh) * | 2019-06-06 | 2020-12-08 | Oppo广东移动通信有限公司 | 搜索方法、装置、终端及存储介质 |
WO2021031862A1 (zh) * | 2019-08-21 | 2021-02-25 | 华为技术有限公司 | 一种数据处理方法及其装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102339294B (zh) | 2013-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102339294B (zh) | 一种对关键词进行预处理的搜索方法和系统 | |
US11275898B2 (en) | Search method and device based on artificial intelligence | |
CN109800284B (zh) | 一种面向任务的非结构化信息智能问答系统构建方法 | |
CN102915299B (zh) | 一种分词方法及装置 | |
CN101510222B (zh) | 一种多层索引语音文档检索方法 | |
US7949514B2 (en) | Method for building parallel corpora | |
CN104281702B (zh) | 基于电力关键词分词的数据检索方法及装置 | |
CN104063387A (zh) | 在文本中抽取关键词的装置和方法 | |
CN105869634A (zh) | 一种基于领域的带反馈语音识别后文本纠错方法及系统 | |
CN103902652A (zh) | 自动问答系统 | |
WO2018201600A1 (zh) | 信息挖掘方法、系统、电子装置及可读存储介质 | |
WO2011057259A1 (en) | Enabling faster full-text searching using a structured data store | |
CN103425687A (zh) | 一种基于关键词的检索方法和系统 | |
CN114065758B (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
CN102999534A (zh) | 一种基于逆向最大匹配的中文分词算法 | |
CN104199965A (zh) | 一种语义信息检索方法 | |
CN103399901A (zh) | 一种关键词抽取方法 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN100524293C (zh) | 一种从双语句对获取词对译文的方法及系统 | |
CN107844493B (zh) | 一种文件关联方法及系统 | |
CN111832299A (zh) | 一种中文分词系统 | |
CN103544266A (zh) | 一种搜索建议词生成的方法以及装置 | |
CN112883165B (zh) | 一种基于语义理解的智能全文检索方法及系统 | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130911 Termination date: 20140727 |
|
EXPY | Termination of patent right or utility model |