CN103294670B - 一种基于词表的搜索方法和系统 - Google Patents

一种基于词表的搜索方法和系统 Download PDF

Info

Publication number
CN103294670B
CN103294670B CN201210040527.8A CN201210040527A CN103294670B CN 103294670 B CN103294670 B CN 103294670B CN 201210040527 A CN201210040527 A CN 201210040527A CN 103294670 B CN103294670 B CN 103294670B
Authority
CN
China
Prior art keywords
retrieval
vocabulary
classification
string
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210040527.8A
Other languages
English (en)
Other versions
CN103294670A (zh
Inventor
石峰
石一峰
李强
林僚
潘树燊
张黎明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210040527.8A priority Critical patent/CN103294670B/zh
Publication of CN103294670A publication Critical patent/CN103294670A/zh
Application granted granted Critical
Publication of CN103294670B publication Critical patent/CN103294670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于词表的搜索方法和系统,方法包括:通过离线分析用户的检索意图相关数据建立优质词表;将检索请求中的检索串与所述优质词表进行匹配,并根据匹配结果修正所述检索串;根据修正后的检索串进行检索,得到检索结果。通过本发明,解决了现有的搜索方法存在的搜索结果不准确、无法处理交互式搜索请求、搜索结果不丰富、无法过滤额外干扰信息的问题。

Description

一种基于词表的搜索方法和系统
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于词表的搜索方法和系统。
背景技术
随着互联网社区化进度的逐步加快,网络社区中的人与人之间的关系越来越紧密,网络社区的用户期望通过搜人系统找到感兴趣的人;明星、商家等希望也通过搜人系统被他人追随、认知,从而达到宣传自己、扩大交际圈的目的。由此可以看出,在社区应用中,人物搜索具有较好的发展前景。
在目前的网络上已经有很多人物搜索的应用,但大多采用的是传统的基于内容检索的方法,即基于文本模糊检索,这需要检索请求串全匹配才能搜出结果。然而,这对用户要求很高,需要用户很准确的输入关键词,而且不能有多余的干扰因素。现有的人物搜索方法存在搜人不准确、无法处理用户交互式搜人请求、搜索结果不丰富、无法过滤额外干扰信息等缺陷。
发明内容
有鉴于此,本发明提供一种基于词表的搜索方法和系统,以解决现有的人物搜索方法存在的搜人不准确的问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种基于词表的搜索方法,该方法包括:
通过离线分析用户的检索意图相关数据建立优质词表;
将检索请求中的检索串与所述优质词表进行匹配,并根据匹配结果修正所述检索串;
根据修正后的检索串进行检索,得到检索结果。
所述通过离线分析用户的检索意图相关数据建立优质词表,具体为:
离线分析用户的检索意图相关数据,从中提取用户检索词,并从搜索系统中提取与所述用户检索词相关的信息,根据所述与用户检索词相关的信息和人工编辑信息对所述用户检索词进行分类存储;
对每个分类下的词进行离线权值计算,并按照所述权值大小进行排序。
所述将检索请求中的检索串与所述优质词表进行匹配,并根据匹配结果修正所述检索串,具体为:
根据业务需求和当前检索次数,从所述检索串匹配到的各个分类中选择其中一个分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串。
在得到检索结果后,该方法还包括:
对检索结果进行分析,如果所述检索结果不满足检索需求,则判断检索次数是否达到设定的阈值,如果没有达到,则从所述检索串匹配到的各个分类中选择其他分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串,根据修正后的检索串继续进行检索;如果达到,则合并多次检索的结果并返回;
如果所述检索结果满足检索需求,则正常返回所述检索结果。
本发明还提供了一种基于词表的搜索系统,该系统包括:词表建立模块、检索串修正模块和检索模块,其中,
所述词表建立模块,用于通过离线分析用户的检索意图相关数据建立优质词表;
所述检索串修正模块,用于将检索请求中的检索串与所述优质词表进行匹配,并根据匹配结果修正所述检索串;
所述检索模块,用于根据修正后的检索串进行检索,得到检索结果。
所述词表建立模块具体用于,离线分析用户的检索意图相关数据,从中提取用户检索词,并从搜索系统中提取与所述用户检索词相关的信息,根据所述与用户检索词相关的信息和人工编辑信息对所述用户检索词进行分类存储;
对每个分类下的词进行离线权值计算,并按照所述权值大小进行排序。
所述检索串修正模块具体用于,根据业务需求和当前检索次数,从所述检索串匹配到的各个分类中选择其中一个分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串。
所述检索模块进一步用于,在得到检索结果后,对检索结果进行分析,如果所述检索结果不满足检索需求,则判断检索次数是否达到设定的阈值,如果没有达到,则通知所述检索串修正模块;相应的,所述检索串修正模块从所述检索串匹配到的各个分类中选择其他分类,提取所选分类中匹配到的离线权值最高的词,修正所述检索串并提供给所述检索模块,所述检索模块根据修正后的检索串继续进行检索;如果达到,则所述检索模块合并多次检索的结果并返回;
如果所述检索结果满足检索需求,则所述检索模块正常返回所述检索结果。
本发明所提供的一种基于词表的搜索方法和系统,通过离线分析用户的检索意图相关数据建立优质词表;将检索请求中的检索串与所述优质词表进行匹配,并根据匹配结果修正所述检索串;根据修正后的检索串进行检索,得到检索结果。
本发明通过引入优质词表,满足了用户丰富信息输入、交互式输入的检索需求,解决了现有的搜索方法和系统存在的搜索不准确、无法处理用户交互式搜索请求、搜索结果不丰富、无法过滤额外干扰信息的问题,达到优化、丰富、精准化检索结果的目的。
附图说明
图1为本发明实施例的一种基于词表的搜索方法的流程图;
图2为本发明实施例的一种基于词表的人物搜索方法的流程图;
图3为本发明实施例的一种基于词表的搜索系统的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
本发明实施例所提供的一种基于词表的搜索方法,如图1所示,主要包括以下步骤:
步骤101,通过离线分析用户的检索意图相关数据建立优质词表。
离线分析用户的检索意图相关数据,从中提取用户检索词,并从搜索系统中提取与所述用户检索词相关的信息,根据所述与用户检索词相关的信息和人工编辑信息对所述用户检索词进行分类存储;对每个分类下的词进行离线权值计算,并按照所述权值大小进行排序。
步骤102,将检索请求中的检索串与所述优质词表进行匹配,并根据匹配结果修正所述检索串。
根据业务需求和当前检索次数,从所述检索串匹配到的各个分类中选择其中一个分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串。
步骤103,根据修正后的检索串进行检索,得到检索结果。
在得到检索结果后,对检索结果进行分析,如果所述检索结果不满足检索需求,则判断检索次数是否达到设定的阈值,如果没有达到,则从所述检索串匹配到的各个分类中选择其他分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串,根据修正后的检索串继续进行检索;如果达到,则合并多次检索的结果并返回;
如果所述检索结果满足检索需求,则正常返回所述检索结果。
下面以人物搜索为例对上述基于词表的搜索方法进一步详细说明。需要指出的是,本发明的搜索方法并非仅限于人物搜索,也适用于其他各种信息的搜索。
参见图2所示的人物搜索流程,首先离线分析用户的检索意图相关数据(如用户的检索log),从中提取优质的用户检索词,并从搜人系统中提取与所述用户检索词相关的信息(如人物信息、帐号、昵称等等),根据所述与用户检索词相关的信息、以及人工编辑信息对所述用户检索词进行分类存储,分类主要包括但不限于:名人名字及昵称、常用的用户名及昵称、地区名称及简称、公司名称及简称、兴趣名称及简称等等;对每个分类下的词进行离线权值计算,并按照所述权值大小进行排序。不同分类的各个词表组成最终的词表文件。词表的分类并不是固定不变的,可以根据实际需要进行增加、删除等操作。其中,离线权值的计算可以根据不同的业务种类、业务的对应参数进行计算,如:微博中人物的关注数、广播数,QQ空间里的用户等级等等。以微博为例,在“名人名字及昵称”这个分类下,张三的关注数最高,则赋予张三最高的权值,依此类推,该分类下的词按照权值从高到低的顺序进行排序。
当用户提交检索请求时,提取检索请求中的检索串,如果检索串为句子,则需要进行分词;然后根据业务需求和针对该检索请求的当前检索次数,从所述检索串匹配到的各个分类中选择其中一个分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串。
根据修正后的检索串向检索系统进行检索,对检索结果进行分析,如果所述检索结果不满足检索需求(如检索的结果不够丰富、结果不准确等等),则判断检索次数是否达到设定的阈值(即判断是否需要再次检索),如果没有达到设定的阈值,则从所述检索串匹配到的各个分类中选择其他分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串,根据修正后的检索串再次进行检索;如果达到设定的阈值,则合并多次检索的结果并返回给检索界面向用户展示;
如果所述检索结果满足检索需求,则正常返回所述检索结果到检索界面向用户展示。
对应上述基于词表的搜索方法,本发明还提供了一种基于词表的搜索系统,如图3所示,主要包括:词表建立模块10、检索串修正模块20和检索模块30。其中,词表建立模块10,用于通过离线分析用户的检索意图相关数据建立优质词表。检索串修正模块20,用于将检索请求中的检索串与所述优质词表进行匹配,并根据匹配结果修正所述检索串。检索模块30,用于根据修正后的检索串进行检索,得到检索结果。
较佳的,词表建立模块10可具体用于,离线分析用户的检索意图相关数据,从中提取用户检索词,并从搜索系统中提取与所述用户检索词相关的信息,根据所述与用户检索词相关的信息和人工编辑信息对所述用户检索词进行分类存储;对每个分类下的词进行离线权值计算,并按照所述权值大小进行排序。
较佳的,检索串修正模块20可具体用于,根据业务需求和当前检索次数,从所述检索串匹配到的各个分类中选择其中一个分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串。
较佳的,检索模块30可进一步用于,在得到检索结果后,对检索结果进行分析,如果所述检索结果不满足检索需求,则判断检索次数是否达到设定的阈值,如果没有达到,则通知检索串修正模块20;相应的,检索串修正模块20从所述检索串匹配到的各个分类中选择其他分类,提取所选分类中匹配到的离线权值最高的词,修正所述检索串并提供给检索模块30,检索模块根据修正后的检索串继续进行检索;如果达到,则检索模块30合并多次检索的结果并返回;
如果所述检索结果满足检索需求,则检索模块30正常返回所述检索结果。
本发明实施例的人物搜索方法和系统通过引入优质词表,实现了人物搜索系统的检索请求精准定向、优化检索结果的目的,对现有的人物搜索系统是一个很好的补充。在用户进行交互式搜索、丰富信息搜索时,可以提取关键检索串信息,去除多余信息的干扰,将更优的结果展现给用户。很大程度上解决了现有的人物搜索方法和系统存在的搜人不准确、无法处理用户交互式搜人请求、搜索结果不丰富、无法过滤额外干扰信息的问题。为人物搜索系统在网站社区中的应用提供了优质的体验基础。
需要说明的是,本发明的搜索方法并非仅限于人物搜索,也适用于其他各种信息的搜索。应用于其他信息的搜索时,本发明能够解决现有搜索系统存在的搜索结果不准确、无法处理用户交互式搜索请求、搜索结果不丰富、无法过滤额外干扰信息的问题,达到优化、丰富、精准化检索结果的目的。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (6)

1.一种基于词表的搜索方法,其特征在于,该方法包括:
通过离线分析用户的检索意图相关数据建立优质词表;
将检索请求中的检索串与所述优质词表进行匹配,并根据匹配结果修正所述检索串;
根据修正后的检索串进行检索,得到检索结果;
对检索结果进行分析,如果所述检索结果不满足检索需求,则判断检索次数是否达到设定的阈值,如果没有达到,则从所述检索串匹配到的各个分类中选择其他分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串,根据修正后的检索串继续进行检索;
其中,所述通过离线分析用户的检索意图相关数据建立优质词表,具体为:
离线分析用户的检索意图相关数据,从中提取用户检索词,并从搜索系统中提取与所述用户检索词相关的信息,根据所述与用户检索词相关的信息和人工编辑信息对所述用户检索词进行分类存储;
根据业务种类和业务的对应参数,对每个分类下的词进行离线权值计算,并按照所述权值大小进行排序。
2.根据权利要求1所述基于词表的搜索方法,其特征在于,所述将检索请求中的检索串与所述优质词表进行匹配,并根据匹配结果修正所述检索串,具体为:
根据业务需求和当前检索次数,从所述检索串匹配到的各个分类中选择其中一个分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串。
3.根据权利要求2所述基于词表的搜索方法,其特征在于,该方法还包括:
如果所述检索次数达到设定的阈值,则合并多次检索的结果并返回;
如果所述检索结果满足检索需求,则正常返回所述检索结果。
4.一种基于词表的搜索系统,其特征在于,该系统包括:词表建立模块、检索串修正模块和检索模块,其中,
所述词表建立模块,用于通过离线分析用户的检索意图相关数据建立优质词表;
所述检索串修正模块,用于将检索请求中的检索串与所述优质词表进行匹配,并根据匹配结果修正所述检索串;
所述检索模块,用于根据修正后的检索串进行检索,得到检索结果;对检索结果进行分析,如果所述检索结果不满足检索需求,则判断检索次数是否达到设定的阈值,如果没有达到,则通知所述检索串修正模块;相应的,所述检索串修正模块从所述检索串匹配到的各个分类中选择其他分类,提取所选分类中匹配到的离线权值最高的词,修正所述检索串并提供给所述检索模块,所述检索模块根据修正后的检索串继续进行检索;
其中,所述词表建立模块具体用于,离线分析用户的检索意图相关数据,从中提取用户检索词,并从搜索系统中提取与所述用户检索词相关的信息,根据所述与用户检索词相关的信息和人工编辑信息对所述用户检索词进行分类存储;
根据业务种类和业务的对应参数,对每个分类下的词进行离线权值计算,并按照所述权值大小进行排序。
5.根据权利要求4所述基于词表的搜索系统,其特征在于,所述检索串修正模块具体用于,根据业务需求和当前检索次数,从所述检索串匹配到的各个分类中选择其中一个分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串。
6.根据权利要求5所述基于词表的搜索系统,其特征在于,所述检索模块进一步用于,如果所述检索次数达到设定的阈值,则所述检索模块合并多次检索的结果并返回;
如果所述检索结果满足检索需求,则所述检索模块正常返回所述检索结果。
CN201210040527.8A 2012-02-22 2012-02-22 一种基于词表的搜索方法和系统 Active CN103294670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210040527.8A CN103294670B (zh) 2012-02-22 2012-02-22 一种基于词表的搜索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210040527.8A CN103294670B (zh) 2012-02-22 2012-02-22 一种基于词表的搜索方法和系统

Publications (2)

Publication Number Publication Date
CN103294670A CN103294670A (zh) 2013-09-11
CN103294670B true CN103294670B (zh) 2018-07-06

Family

ID=49095564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210040527.8A Active CN103294670B (zh) 2012-02-22 2012-02-22 一种基于词表的搜索方法和系统

Country Status (1)

Country Link
CN (1) CN103294670B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761326A (zh) * 2014-01-29 2014-04-30 百度在线网络技术(北京)有限公司 图片搜索方法以及搜索引擎
CN105550177B (zh) * 2014-10-28 2019-11-19 腾讯数码(深圳)有限公司 一种搜索结果的干预方法及装置
CN104715066B (zh) * 2015-03-31 2017-04-12 北京奇付通科技有限公司 一种搜索优化方法、装置和系统
CN104834736A (zh) * 2015-05-19 2015-08-12 深圳证券信息有限公司 构建索引库的方法、装置及检索的方法、装置和系统
CN106774969B (zh) * 2015-11-20 2021-12-14 北京搜狗科技发展有限公司 一种输入方法和装置
CN110674443B (zh) * 2019-09-18 2022-10-11 苏州达家迎信息技术有限公司 一种信息扩展方法、装置、终端、服务器及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
CN101281523A (zh) * 2007-04-25 2008-10-08 北大方正集团有限公司 查询扩展方法和装置以及相关检索词库

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
CN101281523A (zh) * 2007-04-25 2008-10-08 北大方正集团有限公司 查询扩展方法和装置以及相关检索词库

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"分析用户搜索意图 提高流量质量";王志炜;《http://wenku.baidu.com/link?url=-LtMH9jORwsRTX2sYOyX8sxiDwkE4qQyATQtLwzBrUKDC1GxWsbymiYINK5woNDlOyAa0Ecf7D5HkgpgYQsftjWjjDUQERa1dPwSa_X5fTu》;20110610;全文 *

Also Published As

Publication number Publication date
CN103294670A (zh) 2013-09-11

Similar Documents

Publication Publication Date Title
CN103294670B (zh) 一种基于词表的搜索方法和系统
US9846748B2 (en) Searching for information based on generic attributes of the query
CN103294778B (zh) 一种推送资讯信息的方法及系统
US20130304818A1 (en) Systems and methods for discovery of related terms for social media content collection over social networks
US20130297581A1 (en) Systems and methods for customized filtering and analysis of social media content collected over social networks
CN103853738B (zh) 一种网页信息相关地域的识别方法
JP6428795B2 (ja) モデル生成方法、単語重み付け方法、モデル生成装置、単語重み付け装置、デバイス、コンピュータプログラム及びコンピュータ記憶媒体
US20110093455A1 (en) Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
US20060248072A1 (en) System and method for spam identification
KR20160055930A (ko) 연속적인 소셜 커뮤니케이션에 사용되는 콘텐츠를 능동적으로 구성하기 위한 시스템 및 방법
US20140280242A1 (en) Method and apparatus for acquiring hot topics
CN103049440A (zh) 一种相关文章的推荐处理方法和处理系统
CN103116588A (zh) 一种个性化推荐方法及系统
WO2012177396A1 (en) Inferring topics from social networking system communications
TW201115370A (en) Systems and methods for capturing and managing collective social intelligence information
EP2774061A1 (en) Method and apparatus of ranking search results, and search method and apparatus
CN108829652A (zh) 一种基于众包的图片标注系统
CN103186556B (zh) 得到和搜索结构化语义知识的方法及对应装置
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
US11789946B2 (en) Answer facts from structured content
CN104281565B (zh) 语义词典构建方法和装置
Khotimah et al. Sentiment detection of comment titles in booking. com using probabilistic latent semantic analysis
CN105893484A (zh) 一种基于文本特征和行为特征的微博Spammer识别方法
CN105528411A (zh) 船舶装备交互式电子技术手册全文检索装置及方法
CN108399265A (zh) 基于搜索的实时热点新闻提供方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant