CN103034709B

CN103034709B - 检索结果重排序系统及其方法

Info

Publication number: CN103034709B
Application number: CN201210526364.4A
Authority: CN
Inventors: 王东胜; 宋传宝; 王树强
Original assignee: BEIJING HYLANDA SOFTWARE TECHNOLOGY Co Ltd
Current assignee: Tianjin mass information technology Limited by Share Ltd
Priority date: 2012-12-07
Filing date: 2012-12-07
Publication date: 2017-05-31
Anticipated expiration: 2032-12-07
Also published as: CN103034709A

Abstract

本发明公开了一种检索结果重排序系统及重排序方法。该系统包括相关拾取模块、词序列提取模块、显著词序列判别模块、检索结果集、词序列集和重新计算相似度排序模块；其中，相关拾取模块显示原始检索结果，并由用户选择相关的记录，词序列提取模块提取每项记录的词序列，显著词序列判别模块根据相关与不相关两类记录的差别挖掘用于分类的显著词序列，重新计算相似度排序模块基于显著词序列对每项记录分别计算相似度，并依据相似度的值对检索结果的记录重新排序。本发明能够将用户真实期望得到的检索结果记录排在靠前的位置，节省用户的查询时间。用户可以准确快速地得到所期望的信息，从而提高对检索结果的满意程度。

Description

检索结果重排序系统及其方法

技术领域

本发明涉及一种对搜索引擎的检索结果进行重新排序的系统，同时也涉及该系统对检索结果进行重新排序的方法，属于网络搜索技术领域。

背景技术

当前，互联网中的数据总量以几百兆兆字节来计算，而且仍然呈指数增长。为了帮助用户从这个漫无边际的数据海洋中快速获取所需的信息，搜索引擎发挥着不可替代的作用。由于互联网信息是极其浩繁的，任何一个关键词都可能搜索到数百个甚至数万个相关的网页或者链接，而用户的时间和精力都是有限的，他往往只会关注排在前面的搜索结果，对排在后面的相关链接视而不见。因此，针对人们的这一使用习惯，有必要让搜索引擎有选择地安排搜索结果的排列顺序。

对检索结果进行重新排序是搜索引擎优化检索结果、提高用户体验的有效技术手段，其利用缩小的检索结果集，通过与用户不同层次的交互，重新确定（估计）用户检索的焦点，可以帮助用户更快找到满意的检索结果。目前，已有很多对检索结果重新排序的技术方案，例如清华大学在专利号为ZL 200710099594.6的中国发明专利中，提出了一种基于用户行为信息的搜索引擎检索结果重排序方法，利用用户历史查询点击的行为信息的统计，通过查询词关联其他用户的查询网页对检索结果进行优化。它根据单个或多个搜索引擎日志，首先利用查询对应的用户数信息，从中筛选出用户关注的常用查询集合；随后计算常用查询集中各查询对应的用户点击页面对应的用户点击率，若利用多搜索引擎日志信息，则对用户点击率进行合并；根据用户点击率对用户点击页面进行有效筛选，并把相关查询和对应的结果页面地址保存到相关数据库；最后，当用户提交查询需求时，把从用户信息得到的结果和搜索引擎搜索得到的结果进行有效融合，重新排序后返回给用户。

另外，美国雅虎公司在申请号为201010190475.3的中国专利申请中，提出了一种用于重排序和提高互联网搜索的结果的相关性的方法，利用检索词概念聚焦搜索与通用搜索结果融合重排来试图提高检索精度。该方法中，首先将搜索查询分解为多个独立的单元。每个单元对应于一个或多个表示自然概念的词。对概念网络进行分析，以定位与搜索查询中的单元相关的概念。从概念网络选出特定概念。对每个选出的概念执行独立的互联网搜索。将从这些搜索得出的搜索结果与原始搜索查询中的单元进行比较，并根据它们与原始搜索查询的相关性对搜索结果进行分级。

发明内容

本发明所要解决的技术问题在于提供一种检索结果重排序系统及重排序方法。该技术方案能够将用户真实期望得到的信息记录排在检索结果的靠前位置，从而节省用户的检索时间。

为实现上述的发明目的，本发明采用下述的技术方案：

一种检索结果重排序系统，包括相关拾取模块、词序列提取模块、显著词序列判别模块、检索结果集、词序列集和重新计算相似度排序模块；其中，

所述相关拾取模块与所述检索结果集连接，所述词序列提取模块分别连接所述检索结果集、所述词序列集、所述相关拾取模块和所述显著词序列判别模块，所述显著词序列判别模块分别连接所述词序列集和所述重新计算相似度排序模块；

所述相关拾取模块显示原始检索结果，并由用户选择相关的记录，所述词序列提取模块提取每项记录的词序列，所述显著词序列判别模块根据相关与不相关两类记录的差别挖掘用于分类的显著词序列，所述重新计算相似度排序模块基于所述显著词序列对每项记录分别计算相似度，并依据所述相似度的值对检索结果的记录重新排序。

其中较优地，所述词序列提取模块对每项记录的文本进行分词处理，得到有确切语义的词汇，并将停用词过滤，以句子为单位保存每项记录的词序列。

一种检索结果重排序方法，基于上述的检索结果重排序系统实现，包括如下步骤：

显示原始检索结果，并由用户选择相关的记录；

提取每项记录的词序列，根据相关与不相关两类记录的差别挖掘用于分类的显著词序列；

基于所述显著词序列对每项记录分别计算相似度，并依据所述相似度的值对检索结果的记录重新排序。

其中较优地，在提取所述词序列的过程中，首先对每项记录的文本进行分词处理，得到有确切语义的词汇，并将停用词过滤，以句子为单位保存每项记录的词序列。

其中较优地，在挖掘所述显著词序列的过程中，计算所述显著词序列的显著性，归一化处理以确定权重值。

其中较优地，所述相似度通过如下步骤计算：

1）确定一定数量的显著词序列作为中心集，依次计算其他词序列与中心集的相似度；

2）将所述相似度与所述显著词序列的权重值作积，作为最终相似度；

3）将每项记录与中心集的最终相似度作为其得分，依据该得分对各项记录进行重新排序。

本发明能够将用户真实期望得到的检索结果记录排在靠前的位置，节省用户的查询时间。用户可以准确快速地得到所期望的信息，从而提高对检索结果的满意程度。

附图说明

图1是本发明所提供的检索结果重排序系统的整体结构示意图；

图2是检索结果重排序过程中，词序列提取模块的操作流程图。

具体实施方式

下面结合附图和具体实施例，对本发明所采用的技术方案做进一步的详细说明。

本发明提供了一种检索结果重排序系统，利用关键句子的词序列特征对检索结果进行重新排序。该词序列能够准确表达句子的语义，从而精确体现用户的检索意图。

图1显示了本发明所提供的检索结果重排序系统的整体结构。该检索结果重排序系统由相关拾取模块、词序列提取模块、显著词序列判别模块、检索结果集、词序列集和重新计算相似度排序模块组成。其中，相关拾取模块与检索结果集连接，以便提供用户浏览检索结果集，并在检索结果集中选择与其期望相关的记录的功能。词序列提取模块分别连接检索结果集、词序列集、相关拾取模块和显著词序列判别模块，用于对检索结果集中各项记录的文字进行处理，提取每项记录的词序列，该词序列用以表征检索结果记录的特征。提取后的词序列提交词序列集存储。显著词序列判别模块分别连接词序列提取模块和重新计算相似度排序模块，用于通过特征集合及每项记录是否为相关记录，挖掘显著词序列。重新计算相似度排序模块基于显著词序列判别模块提取出的显著词序列，对词序列集中的每项记录分别计算其相似度，并依据相似度的值重新排序。

在本发明中，相关拾取模块为检索结果的重排序创建训练集，并以检索结果记录文本的句子为单位，由词序列提取模块提取记录文本中的词序列。具体地说，该相关拾取模块显示原始检索结果，并按检索结果的原始顺序（原始顺序由通用搜索引擎的排序算法确定）排序，同时通过检索结果界面向用户提供点选拾取记录的功能。用户将部分记录标记为满意结果，作为检索结果训练集。通过这一形式的交互，生成检索结果训练集。至此，本检索结果重排序系统可以执行检索结果重排的操作。

图2显示了词序列提取模块的操作流程。在词序列提取模块提取词序列的过程中，首先对检索结果记录文本进行分词处理，得到有确切语义的词汇，并将停用词过滤，以便减少不必要的计算。接下来，以句子为单位保存检索结果记录文本中的词序列，用以表征检索结果记录的特征。提取后的词序列提交词序列集进行存储。

显著词序列判别模块针对词序列集及检索结果集中相关与不相关两类记录组成的训练集，根据相关与不相关两类记录的差别挖掘用于分类的显著词序列。计算显著词序列的显著性，归一化处理用以确定其权重值。

重新计算相似度排序模块通过显著词序列判别模块提取出的显著词序列，对词序列集中的各项记录分别计算相似度。相似度的计算分为三个步骤：1）确定一定数量的显著词序列作为中心集，依次计算其他词序列（对应各自的检索结果记录）与中心集的相似度；2）将相似度与显著词序列的权重值作积，作为最终相似度；3）将每项检索结果记录与中心集的最终相似度作为其得分，依据该得分对各项检索结果记录进行重新排序。

上述词序列提取模块、显著词序列判别模块等可以采用计算机自然语言处理领域的成熟算法，以软件或者固件方式实现。例如关于显著词序列挖掘的具体算法，可以参考彭时名的硕士论文《中文文本分类中特征提取算法研究》（重庆大学2006年出版）等相关文献。关于相似度的具体算法，可以参考冉婕、孙瑜的论文《语义检索中的词语相似度计算研究》（刊载于《计算机技术与发展》2011年04期）等相关文献。检索结果集和词序列集等可以以非易失性存储器方式实现。这些是本领域技术人员都能掌握的惯用技术手段，在此就不详细说明了。

下面通过一个实施例对本检索结果重排序方法展开具体说明。例如用户向某个通用搜索引擎输入三个查询关键词：XTC、X达、衰退，通用搜索引擎输出的搜索结果如下：

用户真正的检索意图是生产XTC手机的X达集团衰退的原因。从返回的搜索结果看，符合用户意图的有3个记录。通过用户的勾选，相关拾取模块将返回结果记录分成正反两个类别，其中正类即为用户勾选的相关记录，而反类为用户未勾选的不相关记录。接下来，显著词序列判别模块通过再次训练得到正类的显著词序列，重新计算相似度排序模块利用检索结果训练集中各项记录对显著词序列的中心距离度量每项记录的得分，重新排列记录顺序如下：

本发明所提供的检索结果重排序方法在实施时，输入的数据（即检索结果）可以来自不同的通用搜索引擎。对于不同通用搜索引擎的检索结果，重新排序是必要的步骤。这是因为每个通用搜索引擎的排序方法截然不同，没有任何关联。本检索结果重排序系统及其方法能够将用户真实期望得到的检索结果记录排在靠前的位置，节省用户的查询时间。用户可以准确快速地得到所期望的信息，从而提高对检索结果的满意程度。

以上对本发明所提供的检索结果重排序系统及其方法进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质精神的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种检索结果重排序系统，其特征在于包括相关拾取模块、词序列提取模块、显著词序列判别模块、

检索结果集、词序列集和重新计算相似度排序模块；其中，

所述相关拾取模块显示来自不同通用搜索引擎的原始检索结果，并由用户选择相关记录，所述词序列提取模块提取每项记录的词序列，所述显著词序列判别模块根据相关与不相关两类记录的差别挖掘用于分类的显著词序列，通过再次训练得到用户选择的相关记录的显著词序列，所述重新计算相似度排序模块基于所述显著词序列对每项记录分别计算相似度，并依据所述相似度的值对原始检索结果的记录重新排序。

2.如权利要求1所述的检索结果重排序系统，其特征在于：

所述词序列提取模块对每项记录的文本进行分词处理，得到有确切语义的词汇，并将停用词过滤，以句子为单位保存每项记录的词序列。

3.如权利要求1或2所述的检索结果重排序系统，其特征在于：

所述词序列保存在所述词序列集中。

4.一种检索结果重排序方法，基于权利要求1所述的检索结果重排序系统实现，其特征在于：

显示来自不同通用搜索引擎的原始检索结果，并由用户选择相关记录；

提取每项记录的词序列，根据相关与不相关两类记录的差别挖掘用于分类的显著词序列，通过再次训练得到用户选择的相关记录的显著词序列；

基于所述显著词序列对每项记录分别计算相似度，并依据所述相似度的值对原始检索结果的记录重新排序。

5.如权利要求4所述的检索结果重排序方法，其特征在于：

在提取所述词序列的过程中，首先对每项记录的文本进行分词处理，得到有确切语义的词汇，并将停用词过滤，以句子为单位保存每项记录的词序列。

6.如权利要求4所述的检索结果重排序方法，其特征在于：

在挖掘所述显著词序列的过程中，计算所述显著词序列的显著性，归一化处理以确定权重值。

7.如权利要求4所述的检索结果重排序方法，其特征在于所述相似度通过如下步骤计算：

1)确定一定数量的显著词序列作为中心集，依次计算其他词序列与中心集的相似度；

2)将所述相似度与所述显著词序列的权重值作积，作为最终相似度；

3)将每项记录与中心集的最终相似度作为其得分，依据该得分对各项记录进行重新排序。