CN103034709B - 检索结果重排序系统及其方法 - Google Patents
检索结果重排序系统及其方法 Download PDFInfo
- Publication number
- CN103034709B CN103034709B CN201210526364.4A CN201210526364A CN103034709B CN 103034709 B CN103034709 B CN 103034709B CN 201210526364 A CN201210526364 A CN 201210526364A CN 103034709 B CN103034709 B CN 103034709B
- Authority
- CN
- China
- Prior art keywords
- word sequence
- record
- module
- similarity
- notable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种检索结果重排序系统及重排序方法。该系统包括相关拾取模块、词序列提取模块、显著词序列判别模块、检索结果集、词序列集和重新计算相似度排序模块;其中,相关拾取模块显示原始检索结果,并由用户选择相关的记录,词序列提取模块提取每项记录的词序列,显著词序列判别模块根据相关与不相关两类记录的差别挖掘用于分类的显著词序列,重新计算相似度排序模块基于显著词序列对每项记录分别计算相似度,并依据相似度的值对检索结果的记录重新排序。本发明能够将用户真实期望得到的检索结果记录排在靠前的位置,节省用户的查询时间。用户可以准确快速地得到所期望的信息,从而提高对检索结果的满意程度。
Description
技术领域
本发明涉及一种对搜索引擎的检索结果进行重新排序的系统,同时也涉及该系统对检索结果进行重新排序的方法,属于网络搜索技术领域。
背景技术
当前,互联网中的数据总量以几百兆兆字节来计算,而且仍然呈指数增长。为了帮助用户从这个漫无边际的数据海洋中快速获取所需的信息,搜索引擎发挥着不可替代的作用。由于互联网信息是极其浩繁的,任何一个关键词都可能搜索到数百个甚至数万个相关的网页或者链接,而用户的时间和精力都是有限的,他往往只会关注排在前面的搜索结果,对排在后面的相关链接视而不见。因此,针对人们的这一使用习惯,有必要让搜索引擎有选择地安排搜索结果的排列顺序。
对检索结果进行重新排序是搜索引擎优化检索结果、提高用户体验的有效技术手段,其利用缩小的检索结果集,通过与用户不同层次的交互,重新确定(估计)用户检索的焦点,可以帮助用户更快找到满意的检索结果。目前,已有很多对检索结果重新排序的技术方案,例如清华大学在专利号为ZL 200710099594.6的中国发明专利中,提出了一种基于用户行为信息的搜索引擎检索结果重排序方法,利用用户历史查询点击的行为信息的统计,通过查询词关联其他用户的查询网页对检索结果进行优化。它根据单个或多个搜索引擎日志,首先利用查询对应的用户数信息,从中筛选出用户关注的常用查询集合;随后计算常用查询集中各查询对应的用户点击页面对应的用户点击率,若利用多搜索引擎日志信息,则对用户点击率进行合并;根据用户点击率对用户点击页面进行有效筛选,并把相关查询和对应的结果页面地址保存到相关数据库;最后,当用户提交查询需求时,把从用户信息得到的结果和搜索引擎搜索得到的结果进行有效融合,重新排序后返回给用户。
另外,美国雅虎公司在申请号为201010190475.3的中国专利申请中,提出了一种用于重排序和提高互联网搜索的结果的相关性的方法,利用检索词概念聚焦搜索与通用搜索结果融合重排来试图提高检索精度。该方法中,首先将搜索查询分解为多个独立的单元。每个单元对应于一个或多个表示自然概念的词。对概念网络进行分析,以定位与搜索查询中的单元相关的概念。从概念网络选出特定概念。对每个选出的概念执行独立的互联网搜索。将从这些搜索得出的搜索结果与原始搜索查询中的单元进行比较,并根据它们与原始搜索查询的相关性对搜索结果进行分级。
发明内容
本发明所要解决的技术问题在于提供一种检索结果重排序系统及重排序方法。该技术方案能够将用户真实期望得到的信息记录排在检索结果的靠前位置,从而节省用户的检索时间。
为实现上述的发明目的,本发明采用下述的技术方案:
一种检索结果重排序系统,包括相关拾取模块、词序列提取模块、显著词序列判别模块、检索结果集、词序列集和重新计算相似度排序模块;其中,
所述相关拾取模块与所述检索结果集连接,所述词序列提取模块分别连接所述检索结果集、所述词序列集、所述相关拾取模块和所述显著词序列判别模块,所述显著词序列判别模块分别连接所述词序列集和所述重新计算相似度排序模块;
所述相关拾取模块显示原始检索结果,并由用户选择相关的记录,所述词序列提取模块提取每项记录的词序列,所述显著词序列判别模块根据相关与不相关两类记录的差别挖掘用于分类的显著词序列,所述重新计算相似度排序模块基于所述显著词序列对每项记录分别计算相似度,并依据所述相似度的值对检索结果的记录重新排序。
其中较优地,所述词序列提取模块对每项记录的文本进行分词处理,得到有确切语义的词汇,并将停用词过滤,以句子为单位保存每项记录的词序列。
一种检索结果重排序方法,基于上述的检索结果重排序系统实现,包括如下步骤:
显示原始检索结果,并由用户选择相关的记录;
提取每项记录的词序列,根据相关与不相关两类记录的差别挖掘用于分类的显著词序列;
基于所述显著词序列对每项记录分别计算相似度,并依据所述相似度的值对检索结果的记录重新排序。
其中较优地,在提取所述词序列的过程中,首先对每项记录的文本进行分词处理,得到有确切语义的词汇,并将停用词过滤,以句子为单位保存每项记录的词序列。
其中较优地,在挖掘所述显著词序列的过程中,计算所述显著词序列的显著性,归一化处理以确定权重值。
其中较优地,所述相似度通过如下步骤计算:
1)确定一定数量的显著词序列作为中心集,依次计算其他词序列与中心集的相似度;
2)将所述相似度与所述显著词序列的权重值作积,作为最终相似度;
3)将每项记录与中心集的最终相似度作为其得分,依据该得分对各项记录进行重新排序。
本发明能够将用户真实期望得到的检索结果记录排在靠前的位置,节省用户的查询时间。用户可以准确快速地得到所期望的信息,从而提高对检索结果的满意程度。
附图说明
图1是本发明所提供的检索结果重排序系统的整体结构示意图;
图2是检索结果重排序过程中,词序列提取模块的操作流程图。
具体实施方式
下面结合附图和具体实施例,对本发明所采用的技术方案做进一步的详细说明。
本发明提供了一种检索结果重排序系统,利用关键句子的词序列特征对检索结果进行重新排序。该词序列能够准确表达句子的语义,从而精确体现用户的检索意图。
图1显示了本发明所提供的检索结果重排序系统的整体结构。该检索结果重排序系统由相关拾取模块、词序列提取模块、显著词序列判别模块、检索结果集、词序列集和重新计算相似度排序模块组成。其中,相关拾取模块与检索结果集连接,以便提供用户浏览检索结果集,并在检索结果集中选择与其期望相关的记录的功能。词序列提取模块分别连接检索结果集、词序列集、相关拾取模块和显著词序列判别模块,用于对检索结果集中各项记录的文字进行处理,提取每项记录的词序列,该词序列用以表征检索结果记录的特征。提取后的词序列提交词序列集存储。显著词序列判别模块分别连接词序列提取模块和重新计算相似度排序模块,用于通过特征集合及每项记录是否为相关记录,挖掘显著词序列。重新计算相似度排序模块基于显著词序列判别模块提取出的显著词序列,对词序列集中的每项记录分别计算其相似度,并依据相似度的值重新排序。
在本发明中,相关拾取模块为检索结果的重排序创建训练集,并以检索结果记录文本的句子为单位,由词序列提取模块提取记录文本中的词序列。具体地说,该相关拾取模块显示原始检索结果,并按检索结果的原始顺序(原始顺序由通用搜索引擎的排序算法确定)排序,同时通过检索结果界面向用户提供点选拾取记录的功能。用户将部分记录标记为满意结果,作为检索结果训练集。通过这一形式的交互,生成检索结果训练集。至此,本检索结果重排序系统可以执行检索结果重排的操作。
图2显示了词序列提取模块的操作流程。在词序列提取模块提取词序列的过程中,首先对检索结果记录文本进行分词处理,得到有确切语义的词汇,并将停用词过滤,以便减少不必要的计算。接下来,以句子为单位保存检索结果记录文本中的词序列,用以表征检索结果记录的特征。提取后的词序列提交词序列集进行存储。
显著词序列判别模块针对词序列集及检索结果集中相关与不相关两类记录组成的训练集,根据相关与不相关两类记录的差别挖掘用于分类的显著词序列。计算显著词序列的显著性,归一化处理用以确定其权重值。
重新计算相似度排序模块通过显著词序列判别模块提取出的显著词序列,对词序列集中的各项记录分别计算相似度。相似度的计算分为三个步骤:1)确定一定数量的显著词序列作为中心集,依次计算其他词序列(对应各自的检索结果记录)与中心集的相似度;2)将相似度与显著词序列的权重值作积,作为最终相似度;3)将每项检索结果记录与中心集的最终相似度作为其得分,依据该得分对各项检索结果记录进行重新排序。
上述词序列提取模块、显著词序列判别模块等可以采用计算机自然语言处理领域的成熟算法,以软件或者固件方式实现。例如关于显著词序列挖掘的具体算法,可以参考彭时名的硕士论文《中文文本分类中特征提取算法研究》(重庆大学2006年出版)等相关文献。关于相似度的具体算法,可以参考冉婕、孙瑜的论文《语义检索中的词语相似度计算研究》(刊载于《计算机技术与发展》2011年04期)等相关文献。检索结果集和词序列集等可以以非易失性存储器方式实现。这些是本领域技术人员都能掌握的惯用技术手段,在此就不详细说明了。
下面通过一个实施例对本检索结果重排序方法展开具体说明。例如用户向某个通用搜索引擎输入三个查询关键词:XTC、X达、衰退,通用搜索引擎输出的搜索结果如下:
用户真正的检索意图是生产XTC手机的X达集团衰退的原因。从返回的搜索结果看,符合用户意图的有3个记录。通过用户的勾选,相关拾取模块将返回结果记录分成正反两个类别,其中正类即为用户勾选的相关记录,而反类为用户未勾选的不相关记录。接下来,显著词序列判别模块通过再次训练得到正类的显著词序列,重新计算相似度排序模块利用检索结果训练集中各项记录对显著词序列的中心距离度量每项记录的得分,重新排列记录顺序如下:
本发明所提供的检索结果重排序方法在实施时,输入的数据(即检索结果)可以来自不同的通用搜索引擎。对于不同通用搜索引擎的检索结果,重新排序是必要的步骤。这是因为每个通用搜索引擎的排序方法截然不同,没有任何关联。本检索结果重排序系统及其方法能够将用户真实期望得到的检索结果记录排在靠前的位置,节省用户的查询时间。用户可以准确快速地得到所期望的信息,从而提高对检索结果的满意程度。
以上对本发明所提供的检索结果重排序系统及其方法进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。
Claims (7)
1.一种检索结果重排序系统,其特征在于包括相关拾取模块、词序列提取模块、显著词序列判别模块、
检索结果集、词序列集和重新计算相似度排序模块;其中,
所述相关拾取模块与所述检索结果集连接,所述词序列提取模块分别连接所述检索结果集、所述词序列集、所述相关拾取模块和所述显著词序列判别模块,所述显著词序列判别模块分别连接所述词序列集和所述重新计算相似度排序模块;
所述相关拾取模块显示来自不同通用搜索引擎的原始检索结果,并由用户选择相关记录,所述词序列提取模块提取每项记录的词序列,所述显著词序列判别模块根据相关与不相关两类记录的差别挖掘用于分类的显著词序列,通过再次训练得到用户选择的相关记录的显著词序列,所述重新计算相似度排序模块基于所述显著词序列对每项记录分别计算相似度,并依据所述相似度的值对原始检索结果的记录重新排序。
2.如权利要求1所述的检索结果重排序系统,其特征在于:
所述词序列提取模块对每项记录的文本进行分词处理,得到有确切语义的词汇,并将停用词过滤,以句子为单位保存每项记录的词序列。
3.如权利要求1或2所述的检索结果重排序系统,其特征在于:
所述词序列保存在所述词序列集中。
4.一种检索结果重排序方法,基于权利要求1所述的检索结果重排序系统实现,其特征在于:
显示来自不同通用搜索引擎的原始检索结果,并由用户选择相关记录;
提取每项记录的词序列,根据相关与不相关两类记录的差别挖掘用于分类的显著词序列,通过再次训练得到用户选择的相关记录的显著词序列;
基于所述显著词序列对每项记录分别计算相似度,并依据所述相似度的值对原始检索结果的记录重新排序。
5.如权利要求4所述的检索结果重排序方法,其特征在于:
在提取所述词序列的过程中,首先对每项记录的文本进行分词处理,得到有确切语义的词汇,并将停用词过滤,以句子为单位保存每项记录的词序列。
6.如权利要求4所述的检索结果重排序方法,其特征在于:
在挖掘所述显著词序列的过程中,计算所述显著词序列的显著性,归一化处理以确定权重值。
7.如权利要求4所述的检索结果重排序方法,其特征在于所述相似度通过如下步骤计算:
1)确定一定数量的显著词序列作为中心集,依次计算其他词序列与中心集的相似度;
2)将所述相似度与所述显著词序列的权重值作积,作为最终相似度;
3)将每项记录与中心集的最终相似度作为其得分,依据该得分对各项记录进行重新排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210526364.4A CN103034709B (zh) | 2012-12-07 | 2012-12-07 | 检索结果重排序系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210526364.4A CN103034709B (zh) | 2012-12-07 | 2012-12-07 | 检索结果重排序系统及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103034709A CN103034709A (zh) | 2013-04-10 |
CN103034709B true CN103034709B (zh) | 2017-05-31 |
Family
ID=48021603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210526364.4A Active CN103034709B (zh) | 2012-12-07 | 2012-12-07 | 检索结果重排序系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103034709B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133918B (zh) * | 2014-08-15 | 2019-07-02 | 百度在线网络技术(北京)有限公司 | 一种兴趣点信息的获取方法及装置、推送方法及装置 |
CN107506402B (zh) * | 2017-08-03 | 2021-06-11 | 北京百度网讯科技有限公司 | 搜索结果的排序方法、装置、设备及计算机可读存储介质 |
CN108920488B (zh) * | 2018-05-14 | 2021-09-28 | 平安科技(深圳)有限公司 | 多系统相结合的自然语言处理方法及装置 |
CN111159348B (zh) * | 2019-12-30 | 2023-10-20 | 苏州电力设计研究院有限公司 | 基于实体检索词的用户行为意图挖掘方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101169797A (zh) * | 2007-11-30 | 2008-04-30 | 朱廷劭 | 一种对搜索结果优化的方法 |
CN101853272A (zh) * | 2010-04-30 | 2010-10-06 | 华北电力大学(保定) | 基于相关反馈和聚类的搜索引擎技术 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2575310C (en) * | 2004-07-28 | 2014-11-04 | Ims Health Incorporated | A method for linking de-identified patients using encrypted and unencrypted demographic and healthcare information from multiple data sources |
-
2012
- 2012-12-07 CN CN201210526364.4A patent/CN103034709B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101169797A (zh) * | 2007-11-30 | 2008-04-30 | 朱廷劭 | 一种对搜索结果优化的方法 |
CN101853272A (zh) * | 2010-04-30 | 2010-10-06 | 华北电力大学(保定) | 基于相关反馈和聚类的搜索引擎技术 |
Also Published As
Publication number | Publication date |
---|---|
CN103034709A (zh) | 2013-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101246499B (zh) | 网络信息搜索方法及系统 | |
KR102080362B1 (ko) | 쿼리 확장 | |
CN103778227B (zh) | 从检索图像中筛选有用图像的方法 | |
CN101408887B (zh) | 推荐词条以指定本体空间 | |
EP2515242B1 (en) | Incorporating lexicon knowledge to improve sentiment classification | |
CN103678576B (zh) | 基于动态语义分析的全文检索系统 | |
US8909652B2 (en) | Determining entity popularity using search queries | |
US20150074112A1 (en) | Multimedia Question Answering System and Method | |
CN111708740A (zh) | 基于云平台的海量搜索查询日志计算分析系统 | |
CN106339502A (zh) | 一种基于用户行为数据分片聚类的建模推荐方法 | |
CN103455487B (zh) | 一种搜索词的提取方法及装置 | |
US20110004618A1 (en) | Recognizing Domain Specific Entities in Search Queries | |
CN101727454A (zh) | 用于对象自动分类的方法和系统 | |
CN103838833A (zh) | 基于相关词语语义分析的全文检索系统 | |
CN101404015A (zh) | 自动生成词条层次 | |
JP2010055618A (ja) | トピックを基にした検索を提供する方法及びシステム | |
CN102314443B (zh) | 搜索引擎的修正方法和系统 | |
JP6355840B2 (ja) | ストップワード識別方法および装置 | |
CN110543595A (zh) | 一种站内搜索系统及方法 | |
CN101261629A (zh) | 基于自动分类技术的特定信息搜索方法 | |
CA3217669A1 (en) | Commodity short title generation method and apparatus | |
CN102968419B (zh) | 交互式互联网实体名称的消歧方法 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN109829045A (zh) | 一种问答方法和装置 | |
CN103034709B (zh) | 检索结果重排序系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190917 Address after: Room 322-323, No. 1, Rongyuan Road, Tianjin Garden Industrial Zone, 300384 Patentee after: Tianjin mass information technology Limited by Share Ltd Address before: 100080 Beijing, Haidian District, West Zijin Digital Park, building 3, room 11, floor 1108 Patentee before: Beijing Hylanda Software Technology Co., Ltd. |