CN102637171A

CN102637171A - 一种优化搜索结果的方法和装置

Info

Publication number: CN102637171A
Application number: CN2011100357265A
Authority: CN
Inventors: 殷庆轩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-02-10
Filing date: 2011-02-10
Publication date: 2012-08-15

Abstract

本发明提供了一种优化搜索结果的方法和装置，其中方法包括：将用户输入的当前搜索词query与相邻的上一query进行上下文比对，确定所述当前query与所述上一query的语义关系，其中所述语义关系包括以下所列的任一种：相同关系、同义关系、扩展关系、省略关系、相关关系和无关关系；根据确定的语义关系，对当前query的搜索结果执行与所述确定的语义关系相对应的调整策略。通过本发明能够提高搜索质量，更充分地满足用户的搜索需求。

Description

一种优化搜索结果的方法和装置

【技术领域】

本发明涉及互联网技术领域，特别涉及一种优化搜索结果的方法和装置。

【背景技术】

随着互联网技术的不断发展以及信息的不断膨胀，人们对于网络信息的使用需求越来越高，搜索引擎成为人们获取网络信息的重要工具。当用户输入搜索词(query)后，搜索引擎通常会将包含该搜索词的页面作为搜索结果返回给用户。

现有技术中，搜索引擎返回的搜索结果的排序通常是基于与当前输入的query之间的相关性，然而，用户在通过搜索引擎获取信息时，往往相邻两次输入的query是存在相关性的，且该相关性是能够体现出用户的当前需求的。例如，当用户在输入“姚明资料”的query获得搜索结果后，再次进行搜索时输入“姚明介绍”的query，这就说明用户第一次输入“姚明资料”的query所对应的搜索结果未能充分满足用户需求，那么在针对“姚明介绍”的query返回搜索结果时，需要充分考虑这一情况，为用户优先提供更可能满足用户需求的搜索结果。但现有的搜索方式显然没有考虑相邻两次输入的query之间的相关性，搜索质量较差。

【发明内容】

有鉴于此，本发明实施例提供了一种优化搜索结果的方法和装置，以便于提高搜索质量。

具体技术方案如下：

一种优化搜索结果的方法，该方法包括：

A、将用户输入的当前搜索词query与相邻的上一query进行上下文比对，确定所述当前query与所述上一query的语义关系，其中所述语义关系包括以下所列的任一种：相同关系、同义关系、扩展关系、省略关系、相关关系和无关关系；

B、根据确定的语义关系，对当前query的搜索结果执行与所述确定的语义关系相对应的调整策略。

在所述步骤A之前还包括：

判断用户输入的当前query与相邻的上一query是否携带相同的cookie ID，如果是，继续执行所述步骤A；否则，结束当前优化搜索结果的流程。

在所述步骤A之前还包括：

判断用户输入的当前query与相邻的上一query之间的输入时间间隔是否在预设的有效时间间隔之内，如果是，继续执行所述步骤A；否则，结束当前优化搜索结果的流程。

其中，所述步骤A具体包括：

A11、对所述当前query和所述上一query分别做分词处理；

A12、过滤掉分词处理后得到的词语中的非关键词，得到所述当前query的关键词以及上一query的关键词；所述非关键词至少包括以下中的一种：标点和虚词；

A3、将所述当前query的关键词和所述上一query的关键词进行比对，确定所述当前query与所述上一query的语义关系。

或者，所述步骤A具体包括：

A21、对所述当前query进行分词处理；

A22、过滤掉分词处理后得到的词语中的非关键词，得到并记录所述当前query的关键词，获取已记录的所述上一query的关键词；所述非关键词至少包括以下中的一种：标点和虚词；

其中，所述步骤A3具体包括：

将所述当前query的关键词和所述上一query的关键词进行比对，如果所述当前query的关键词与所述上一query的关键词完全相同，则确定所述当前query与所述上一query是相同关系；或者，

将所述当前query的关键词与所述上一query的关键词中不相同的关键词进行比较，如果确定是同义词，则确定所述当前query和所述上一query是同义关系；或者，

将所述当前query的关键词与所述上一query的关键词中相同的关键词排除后，如果所述当前query有剩余关键词而所述上一query没有剩余关键词，则确定所述当前query与所述上一query为扩展关系；或者，

将所述当前query的关键词与所述上一query的关键词中相同的关键词排除后，如果所述当前query没有剩余关键词而所述上一query有剩余关键词，则确定所述当前query与所述上一query为省略关系；或者，

如果确定所述当前query与所述上一query不属于相同关系、同义关系、扩展关系和省略关系中的任一种，则采用概率潜在语义分析PLSA技术对所述当前query的关键词和所述上一query的关键词进行主题相关度分析，如果主题相关度满足相关关系要求，则确定所述当前query与所述上一query为相关关系；或者，

如果确定所述当前query与所述上一query不属于相同关系、同义关系、扩展关系、省略关系和相关关系中的任一种，则确定所述当前query和所述上一query为无关关系。

具体地，确定所述当前query的关键词与所述上一query的关键词中不相同的关键词是否为同义词采用查找预设的同义词辞典的方式。

其中，所述采用PLSA技术对所述当前query的关键词和所述上一query的关键词进行主题相关度分析具体包括：

查询PLSA辞典确定所述当前query的关键词的主题概率分布以及所述上一query的关键词的主题概率分布；

利用所述当前query的关键词的主题概率分布拟合出所述当前query的主题概率分布，并利用所述上一query的关键词的主题概率分布拟合出所述上一query的主题概率分布；

确定所述当前query和所述上一query的主题概率分布重合度，如果重合度达到预设的重合度阈值，则确定所述当前query和所述上一query为相关关系。

根据实施例中的描述，如果步骤A中确定所述当前query与所述上一query的语义关系为相同关系或同义关系，则步骤B中采用的调整策略包括：

调整策略11：降低用户在所述上一query的搜索结果中点击的页面，或者，点击的页面及其之前的所有页面，或者，浏览过但未点击的页面在所述当前query的搜索结果中的排序；或者，

调整策略12：在所述当前query的搜索结果中将用户在所述上一query的搜索结果中点击的页面，或者，点击的页面及其之前的所有页面，或者，浏览过但未点击的页面删除。

如果步骤A中确定所述当前query与所述上一query的语义关系为扩展关系，则步骤B中采用的调整策略包括：

提高所述当前query剩余的关键词在所述当前query的搜索结果中的排序权重。

如果步骤A中确定所述当前query与所述上一query的语义关系为省略关系，则步骤B中采用的调整策略包括：

调整策略22：将用户在所述上一query的搜索结果中点击的页面，或者，点击的页面及其之前的所有页面，或者，浏览过但未点击的页面在所述当前query的搜索结果中删除。

其中，所述调整策略11可以具体包括：

将用户在所述上一query的搜索结果中点击的页面，或者，点击的页面及其之前的所有页面，或者，浏览过但未点击的页面排在所述当前query的搜索结果中的最后；或者，

将用户在所述上一query的搜索结果中点击的页面，或者，点击的页面及其之前的所有页面，或者，浏览过但未点击的页面排在所述当前query的搜索结果中设定排序位置之后；或者，

将用户在所述上一query的搜索结果中点击的页面的排序位置，或者，用户在所述上一query的搜索结果中点击的页面及其之前的所有页面，或者，浏览过但未点击的页面的排序位置，在所述当前query的搜索结果中向后移动设定排次。

如果步骤A中确定所述当前query与所述上一query的语义关系为省略关系，则该方法还包括：

判断用户是否对所述上一query的搜索结果满意，如果是，则在步骤B中采用所述调整策略22；否则，在所述步骤B中采用所述调整策略11。

其中，所述判断用户是否对所述上一query的搜索结果满意可以具体包括：

判断用户在所述上一query的搜索结果中点击页面的次数是否在预设的次数范围内，如果是，则确定用户对所述上一query的搜索结果满意；或者，

判断用户浏览所述上一query的搜索结果中的页面时长是否超过预设的满意时长，如果是，确定用户对所述上一query的搜索结果满意。

如果步骤A中确定所述当前query与所述上一query的语义关系为相关关系，则步骤B中采用的调整策略包括：

确定所述当前query的关键词和所述上一query的关键词中满足预设高概率要求且发生重合的主题，提高确定的主题在所述当前query的搜索结果中的排序权值。

本发明实施例中还提供了一种优化搜索结果的装置，该装置包括：上下文比对单元、结果调整单元和搜索词记录单元；

所述上下文比对单元，用于根据所述搜索词记录单元的记录，将用户输入的当前搜索词query与相邻的上一query进行上下文比对，确定所述当前query与所述上一query的语义关系；其中所述语义关系包括以下所列的任一种：相同关系、同义关系、扩展关系、省略关系、相关关系和无关关系；

所述结果调整单元，用于根据所述上下文比对单元确定的语义关系，对当前query的搜索结果执行与所述确定的语义关系相对应的调整策略；

所述搜索词记录单元，用于记录用户输入的query。

该装置还包括：

第一判断单元，用于判断用户输入的当前query与相邻的上一query是否携带相同的cookie ID，如果是，触发所述上下文比对单元执行所述将用户输入的当前query与相邻的上一query进行上下文比对的操作；否则，禁止所述上下文比对单元执行所述将用户输入的当前query与相邻的上一query进行上下文比对的操作。

该装置还包括：

第二判断单元，用于判断用户输入的当前query与相邻的上一query之间的输入时间间隔是否在预设的有效时间间隔之内，如果是，触发所述上下文比对单元执行所述将用户输入的当前query与相邻的上一query进行上下文比对的操作；否则，禁止所述上下文比对单元执行所述将用户输入的当前query与相邻的上一query进行上下文比对的操作。

其中，所述上下文比对单元具体包括：第一分词子单元、第一过滤子单元和比对处理子单元；

所述第一分词子单元，用于对所述当前query和所述上一query分别做分词处理；

所述第一过滤子单元，用于过滤掉所述分词处理后得到的词语中的非关键词，得到所述当前query的关键词以及上一query的关键词；所述非关键词至少包括以下中的一种：标点和虚词；

所述比对处理子单元，用于将所述当前query的关键词和所述上一query的关键词进行比对，确定所述当前query与所述上一query的语义关系。

或者，所述上下文比对单元具体包括：第二分词子单元、第二过滤子单元、结果记录子单元和比对处理子单元；

所述第二分词子单元，用于对所述当前query进行分词处理；

所述第二过滤子单元，用于过滤掉所述第二分词子单元分词处理后得到的词语中的非关键词，得到所述当前query的关键词并记录在所述结果记录子单元中；所述非关键词至少包括以下中的一种：标点和虚词；

所述结果记录子单元，用于记录各query的关键词；

所述比对处理子单元具体包括：相同关系确定模块、同义关系确定模块、扩展关系确定模块、省略关系确定模块、相关关系确定模块或者无关关系确定模块中的一种或任意组合；

所述相同关系确定模块，用于将所述当前query的关键词和所述上一query的关键词进行比对，如果所述当前query的关键词与所述上一query的关键词完全相同，则确定所述当前query与所述上一query是相同关系；

所述同义关系确定模块，用于将所述当前query的关键词和所述上一query的关键词中不相同的关键词进行比较，如果确定是同义词，则确定所述当前query和所述上一query是同义关系；

所述扩展关系确定模块，用于将所述当前query的关键词与所述上一query的关键词中相同的关键词排除后，如果所述当前query有剩余关键词而所述上一query没有剩余关键词，则确定所述当前query与所述上一query为扩展关系；

所述省略关系确定模块，用于将所述当前query的关键词与所述上一query的关键词中相同的关键词排除后，如果所述当前query没有剩余关键词而所述上一query有剩余关键词，则确定所述当前query与所述上一query为省略关系；

所述相关关系确定模块，用于如果所述当前query与所述上一query不属于相同关系、同义关系、扩展关系和省略关系中的任一种，则采用概率潜在语义分析PLSA技术对所述当前query的关键词和所述上一query的关键词进行主题相关度分析，如果主题相关度满足相关关系要求，则确定所述当前query与所述上一query为相关关系；

所述无关关系确定模块，用于如果所述当前query与所述上一query不属于相同关系、同义关系、扩展关系、省略关系和相关关系中的任一种，则确定所述当前query和所述上一query为无关关系。

具体地，所述同义关系确定模块采用查找预设的同义词辞典的方式，确定所述当前query的关键词与所述上一query的关键词中不相同的关键词是否为同义词。

其中，所述相关关系确定模块具体包括：

概率查询子模块，用于查询PLSA辞典确定所述当前query的关键词的主题概率分布以及所述上一query的关键词的主题概率分布；

概率拟合子模块，用于利用所述当前query的关键词的主题概率分布拟合出所述当前query的主题概率分布，并利用所述上一query的关键词的主题概率分布拟合出所述上一query的主题概率分布；

重合度确定子模块，用于根据所述当前query的主题概率分布和所述上一query的主题概率分布，确定所述当前query和所述上一query的主题概率分布重合度；

关系确定子模块，用于判断所述重合度确定子模块确定的重合度是否达到预设的重合度阈值，如果是，则确定所述当前query和所述上一query为相关关系。

根据实施例中的描述，如果所述相同关系确定模块确定所述当前query与所述上一query的语义关系为相同关系，或者，确定所述当前query与所述上一query的语义关系为同义关系，则所述结果调整单元采用的调整策略包括：

如果所述扩展关系确定模块确定所述当前query与所述上一query的语义关系为扩展关系，则所述结果调整单元采用的调整策略包括：

如果所述省略关系确定模块确定所述当前query与所述上一query的语义关系为省略关系，则所述结果调整单元采用的调整策略包括：

更进一步地，所述比对处理子单元还包括：满意度判断模块，用于在所述省略关系确定模块确定所述当前query与所述上一query的语义关系为省略关系时，判断用户是否对所述上一query的搜索结果满意，如果是，通知所述结果调整单元采用所述调整策略22；否则，通知所述结果调整单元采用所述调整策略11。

其中，所述满意度判断模块判断用户在所述上一query的搜索结果中点击页面的次数是否在预设的次数范围内，如果是，则确定用户对所述上一query的搜索结果满意；或者，判断用户浏览所述上一query的搜索结果中的页面时长是否超过预设的满意时长，如果是，确定用户对所述上一query的搜索结果满意。

如果所述相关关系确定模块确定所述当前query与所述上一query的语义关系为相关关系，则所述结果调整单元采用的调整策略包括：

由以上技术方案可以看出，本发明通过将用户输入的当前query与相邻的上一query进行上下文比对后，确定当前query与上一query的语义关系是相同关系、同义关系、扩展关系、省略关系、相关关系和无关关系中的一种；充分考虑了两query的语义关系所体现出的用户对当前query的搜索需求，对当前query的搜索结果执行与确定的语义关系相对应的调整策略，从而提高搜索质量。

【附图说明】

图1为本发明实施例提供的主要方法流程图；

图2为本发明实施例提供的一个详细方法流程图；

图3a为本发明实施例提供的一种装置结构示意图；

图3b为本发明实施例提供的另一种装置结构示意图；

图4为本发明实施例提供的一个比对处理子单元的结构图；以及，

图5为本发明实施例提供的相关关系确定模块的结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明提供的方法可以如图1所示，主要包括以下步骤：

步骤101：将用户输入的当前query与相邻的上一query进行上下文比对，确定当前query与上一query的语义关系，其中，语义关系包括以下所列的任一种：相同关系、同义关系、扩展关系、省略关系、相关关系和无关关系。

在本发明中，会对用户输入的query进行记录，在用户输入当前query时，可以利用已记录的上一query进行上下文比对。同时，记录当前query，供用户输入下一query时作为该下一query的上一query进行上下文比对。

一种较优的实施状况，搜索引擎的服务器端在对相邻query进行上下文比对时，可以首先判断当前query和相邻的上一query携带的cookie ID是否相同，如果相同，则将当前query与相邻的上一query进行上下文比对，如果不同，则不执行该上下文比对的操作，不对当前query的搜索结果进行调整。也就是说，仅将具有同一cookie ID的相邻query进行上下文比对，通常用户使用同一浏览器输入的query会具有相同的cookie ID，这种情况下才有对相邻query进行上下文比对的需要；而对于网吧等用户经常变动的场景，在更换用户时，通常会对之前的cookie进行清除，这样浏览器接收到的query携带的cookie ID就发生变化，这种情况下对不同用户输入的相邻query就没有进行上下文比对的需要。

更进一步地，在对相邻query进行上下文比对之前可以对相邻query的输入时间间隔进行限制，即判断当前query与相邻的上一query的输入时间间隔是否在预设的有效间隔之内时，如果是，对相邻query进行上下文比对，否则，不进行上下文比对，对当前query的搜索结果不进行调整。例如，可以设置有效间隔为40分钟，如果当前query和上一query的输入时间间隔超过40分钟，则不会对这两个query进行上下文比对。

步骤102：根据确定的语义关系，对当前query的搜索结果执行与确定的语义关系相对应的调整策略。

下面对图1所示方法流程进行详细的描述。

在步骤101中，将当前query与上一query进行上下文比对时，首先对当前query和上一query分别做分词处理，过滤掉分词处理后得到的词语中的非关键词，得到当前query的关键词以及上一query的关键词。非关键词可以包括：标点、虚词等。除此之外，也可以对每次得到的query的关键词进行记录，这样仅需要对当前query进行分词处理，过滤掉分词处理后得到的词语中的非关键词，得到并记录当前query的关键词，另外，获取已记录的上一query的关键词。

接下来，将当前query的关键词与上一query的关键词进行比对，确定当前query与上一query的语义关系，可以具体包括以下几种情况：

第一种情况：如果当前query的关键词与上一query的关键词完全相同，则确定当前query与上一query是相同关系。

第二种情况：将当前query的关键词与上一query的关键词中不相同的关键词进行比较，如果比较结果是同义词，则确定当前query与上一query是同义关系。

其中，可以通过查找同义词辞典的方式，比较当前query的关键词与上一query的关键词中不相同的关键词，确定该不同的关键词在同义词辞典中是否为同义词。

对于第一种情况和第二种情况，通常是上一query的搜索没有充分满足用户的需求，用户再次检索或者通过变换一种说法的方式再次检索，因此，在返回当前query的搜索结果时，采用的调整策略可以为：降低用户在上一query的搜索结果中点击过的页面，或者点击过的页面及其之前的所有页面在当前query的搜索结果中的排序，或者在当前query的搜索结果中删除用户在上一query的搜索结果中点击过的页面，或者删除点击过的页面及其之前的所有页面。

更优地，采用的调整策略还可以为：降低用户在上一query的搜索结果中浏览过但未点击的页面在当前query的搜索结果中的排序或者将其删除页面及其之前所有的页面删除。其中，浏览器呈现给用户的搜索结果中的页面都可以认为是用户浏览过的页面，例如浏览器可以将搜索引擎服务器端返回的搜索结果分页显示给用户，凡是呈现给用户的分页上的所有页面都可以认为是用户浏览过的页面，当用户浏览了多个分页但未点击页面时，说明用户已浏览的页面均不满足需求，则当用户再次输入具有同义关系的query时，对这部分页面可以降低排序或将其删除。

降低排序的方式可以包括但不限于以下方式中的任一种：

方式1：将用户在上一query的搜索结果中点击过的页面，或者，点击过的页面及其之前的所有页面，或者，浏览过但未点击的页面，排在当前query的搜索结果中的最后。

方式2：将用户在上一query的搜索结果中点击过的页面，或者，点击过的页面及其之前的所有页面，或者，浏览过但未点击的页面，排在当前query的搜索结果中设定排序位置之后。

方式3：将用户在上一query的搜索结果中点击过的页面的排序位置，或者，点击过的页面及其之前的所有页面的排序位置，或者，浏览过但未点击的页面的排序位置向后移动设定排次。

针对第二种情况举一个例子，假设用户输入的上一query和输入的当前query进行分词和过滤处理后得到的关键词分别为“姚明资料”和“姚明介绍”，其中不相同的关键词“资料”和“介绍”通过查找同义词辞典确定为同义词，说明上一query和当前query为同义关系。在针对当前query返回的搜索结果采用的调整策略可以为：将用户在上一query的搜索结果中点击的页面及其之前的所有页面均放在当前query的搜索结果中的最后。

第三种情况：将当前query的关键词与上一query的关键词中相同的关键词排除后，如果当前query有剩余关键词而上一query没有剩余关键词，则确定当前query与上一query为扩展关系。

这种情况通常是用户在细化自己的需求表达，说明当前query中扩展的关键词(当前query剩余的关键词)体现了用户的重要需求，在返回搜索结果时应被重视，即应该提高包括扩展的关键词的页面在当前query的搜索结果中的排序。

此时采用的调整策略可以为：提高当前query剩余的关键词在当前query的搜索结果中的排序权重。提高的方式可以为：将当前query剩余的关键词的排序权重提高到一个预设的排序权重值，或者，提高一个预设的幅度值。

针对第三种情况举一个例子：假设用户输入的上一query和输入的当前query进行分词和过滤处理后得到的关键词分别为“姚明”和“姚明图片”，在排除相同的关键词后，上一query没有剩余关键词，当前query剩余关键词“图片”，说明当前query和上一query是扩展关系，用户重点需求体现在“图片”上。在返回的当前query的搜索结果中通过提高“图片”的排序权重将包含“图片”的页面排序提前。

第四种情况：将当前query的关键词与上一query的关键词中相同的关键词排除后，如果当前query没有剩余关键词而上一query有剩余关键词，则确定当前query与上一query为省略关系。

这种情况下，实际上用户是对自己的需求进行泛化，有可能上一query的搜索结果已经满足需求，用户还想了解其他情况，也有可能上一query的搜索结果没有满足需求，用户想通过泛化的方式获取同主题下的相对泛化的信息。

此时采用的策略可以为：将用户在上一query的搜索结果中点击的页面，或者点击的页面及其之前的所有页面，或者，浏览过但未点击的页面在当前query的搜索结果中删除；或者，降低用户在上一query的搜索结果中点击的页面，或者点击的页面及其之前的所有页面，或者，浏览过但未点击的页面在当前query的搜索结果中的排序。

具体地，如果确定用户对上一query的搜索结果满意，则无需在当前query的搜索结果中再次向用户显示点击过的页面，或者点击过的页面及其之前所有的页面，或者浏览过但未点击的页面，即可以将用户在上一query的搜索结果中点击的页面，或者点击的页面及其之前的所有页面，或者浏览过但未点击的页面在当前query的搜索结果中删除。

如果确定用户对上一query的搜索结果不满意，则可以将用户在上一query的搜索结果中点击的页面，或者点击的页面及其之前的所有页面，或者浏览过但未点击的页面在当前query的搜索结果中降序，这样有助于用户对现有信息进行整合。

降序的方式可以包括但不限于以下几种方式中的任一种：

方式1：将包含上一query剩余的关键词的页面排在当前query的搜索结果中的最后。

方式2：将包含上一query剩余的关键词的页面排在当前query的搜索结果中设定排序位置之后。

方式3：将包含上一query剩余的关键词的页面的排序位置向后移动设定排次。

其中，判断用户对上一query的搜索结果是否满意，可以采用以下判断方式中的一种或任意组合：

判断方式1：判断用户在上一query的搜索结果中点击页面的次数是否在预设的次数范围内，如果是，确定用户对上一query的搜索结果满意；否则确定用户对上一query的搜索结果不满意。例如，如果用户在上一query的搜索结果中点击页面的次数在3次到10次之间，说明用户对上一query的搜索结果满意。

判断方式2：判断用户浏览上一query的搜索结果中的页面时长是否超过预设的满意时长，如果是，确定用户对上一query的搜索结果满意；否则确定用户对上一query的搜索结果不满意。

针对第四种情况举一个例子：假设用户输入的上一query和输入的当前query进行分词和过滤处理后得到的关键词分别为“姚明图片”和“姚明”，在排除相同的关键词后，上一query剩余有关键词“图片”，当前query没有剩余关键词，说明当前query和上一query是省略关系，可以将包含“图片”的页面在当前query的搜索结果中进行降序。

第五种情况：如果不属于以上四种情况，则采用概率潜在语义分析(PLSA)技术对当前query的关键词和上一query的关键词进行主题相关度分析，如果相关度满足相关关系要求，则确定当前query与上一query属于相关关系。

采用PLSA技术对当前query的关键词和上一query的关键词进行主题相关度分析的过程可以具体包括：查询PLSA辞典确定当前query的各关键词的主题概率分布以及上一query的各关键词的主题概率分布；利用当前query的各关键词的主题概率分布拟合出当前query的主题概率分布，并利用上一query的各关键词的主题概率分布拟合出上一query的主题概率分布；确定当前query和上一query的主题概率分布重合度，如果重合度达到预设的重合度阈值，则确定当前query和上一query属于相关关系。

在确定当前query和上一query的主题概率分布重合度时，可以确定当前query的关键词的满足预设高概率要求的主题与上一query的关键词的满足预设高概率要求的主题发生重合的个数是否满足预设个数阈值，如果是，则认为重合度达到预设的重合度阈值。其中，上述高概率要求是指分布概率达到预设的分布概率阈值。

一种优选的实例，预设个数阈值为1，即当前query的关键词的主题和上一query的关键词的主题中分布概率达到预设的分布概率阈值的主题只要存在重合，则认为当前query和上一query是相关关系。

这种情况下，当前query和上一query的相关主题可能更能满足用户的需求，采用的策略可以为：提高当前query的关键词和上一query的关键词中满足预设高概率要求且发生重合的主题在当前query的搜索结果中的排序权值。

针对第五种情况举一个例子：假设用户输入的上一query和输入的当前query进行分词和过滤处理后得到的关键词分别为“姚明”和“火箭”。对上一query的关键词“姚明”查询PLSA辞典确定主题概率分布如表1所示：

表1

主题	概率
		篮球	7.263939
体育名人	6.732829
		田径	5.549465
奥运会	4.726272
		运动用品	4.497340
脑筋急转弯	4.401719
		足球	4.384274
博彩	4.247538

对当前query的关键词“火箭”查询PLSA辞典确定主题概率分布如表2所示：

表2

主题	概率
		篮球	7.632816
体育名人	6.542224
		军事	5.380473
户外运动	5.172017
		赛车	4.936407
舞蹈	4.845619
		博彩	4.745115
足球	4.695066
		运动用品	4.545378

预先设置个数阈值为1，高概率要求为分布概率大于6，则当前query和上一query满足高概率要求且发生重合的主题为“篮球”、“体育名人”，可以认为当前query和上一query属于相关关系，可以将当前query“火箭”的搜索结果中，主题“篮球”和“体育名人”的排序权重提高。

再针对第五种情况举一个包含多个关键词的query的例子：假设用户输入的上一query经过分词和过滤处理后得到的关键词为“倚天屠龙记”和“在线阅读”，输入的当前query进行分词和过滤处理后得到的关键词为“天龙八部”。对上一query的关键词“倚天屠龙记”和“在线阅读”分别查询PLSA词典确定主题概率分布分别如表3和表4所示。

表3

主题	概率
		电视	5.191773
明星	4.535777

小说	4.208640
		传奇	2.750024

表4

主题	概率
		文档、报告共享	6.086322
小说	5.720181
		网站推荐	3.944374

对当前query的关键词“天龙八部”查询PLSA词典确定主题概率分布如表5所示。

表5

主题	概率
		游戏	5.659057
电视	5.401862
		游戏工具	5.335165
明星	4.395720
		天堂	4.340671
小说	4.289240
		传奇	4.152346

利用上一query的各关键词的主题概率分布拟合出上一query的主题概率分布，具体采用的拟合策略可以为：对于各关键词的公共主题，拟合后的该公共主题的概率为各关键词的概率之和；对于各关键词的非公共主题，将该非公共主题的概率减去一个预设的值后得到的概率值如果大于0，则在你和后的主题概率分布中保留该非公共主题，将该减去一个预设的值后得到的概率值作为该非公共主题拟合后的概率值；如果小于或等于0，则拟合后的主题概率分布中不包括该非公共主题。在本实例中预设的值取4。拟合后的上一query的主题概率分布如表6所示。

表6

主题	概率
		小说	9.928821
文档、报告共享	2.086322
		电视	1.191773
明星	0.535777

如果预先设置高概率要求为分布概率大于4，则当前query和上一query满足高概率要求且发生重合的主题为小说，可以认为当前query和上一query属于相关关系，可以将当前query的搜索结果中，主题“小说”的排序权重提高。

第六种情况：如果不属于以上五种情况，则可以确定当前query和上一query属于无关关系。

对于这种情况，则无需对当前query的搜索结果进行调整。

在上述六种情况中，对第五种情况和第六种情况的判断是在针对第一种情况至第四种情况进行判断后才进行的，而第一种情况和第四种情况可以采用任意的顺序进行判断，也可以同时进行判断。下面以一个实施例为例描述一种执行顺序，但本发明并不限于该实施例中的执行顺序。

图2为本发明实施例提供的方法流程图，该实施例中将用户输入的上一query表示为queryA，将用户输入的当前query表示为queryB。如图2所示，可以具体包括以下步骤：

步骤201：对queryA和queryB进行分词处理，过滤掉分词处理后得到的词语中的非关键词，从而得到queryA和queryB的关键词。

步骤202：判断queryA的关键词和queryB的关键词是否完全相同，如果是，确定是相同关系，执行步骤203；否则，执行步骤204。

步骤203：将用户在queryA的搜索结果中点击过的页面从queryB的搜索结果中删除，结束对queryB的搜索。

步骤204：利用queryA的关键词和queryB的关键词查找同义词辞典，判断queryA的关键词和queryB的关键词是否为同义词，如果是，确定queryA和queryB是同义关系，执行步骤205；否则，执行步骤206。

步骤205：降低用户在queryA的搜索结果中点击过的页面及其之前的所有页面在queryB的搜索结果中的排序，结束对queryB的搜索。

步骤206：将queryA的关键词和queryB的关键词中相同的关键词排除后，判断剩余状况，如果queryB有剩余关键词而queryA没有剩余关键词，则确定queryB和queryA为扩展关系，执行步骤207；如果queryA有剩余关键词而queryB没有剩余关键词，则确定queryB和queryA为省略关系，执行步骤208；否则执行步骤211。

步骤207：提高queryB剩余的关键词在queryB的搜索结果中的排序权重，结束对queryB的搜索。

步骤208：根据用户对queryA的搜索结果的点击状况和浏览时长，判断用户对queryA的搜索结果是否满意，如果是，执行步骤209；否则，执行步骤210。

步骤209：将用户在queryA的搜索结果中点击的页面及其之前的所有页面在queryB的搜索结果中删除，结束对queryB的搜索。

步骤210：将用户在queryA的搜索结果中点击的页面及其之前的所有页面在queryB的搜索结果中降序，结束对queryB的搜索。

步骤211：采用PLSA技术对queryB的关键词和queryA的关键词进行主题相关度分析，如果相关度超过设定的阈值，则确定queryB与queryA属于相关关系，执行步骤212；否则，确定无关，执行步骤213。

步骤212：提高queryB的关键词和queryA的关键词中主题概率分布重合度较高的主题在queryB的搜索结果中的排序权重，结束对queryB的搜索。

步骤213：不对queryB的搜索结果进行额外处理。

以上是对本发明所提供方法进行的描述，下面对本发明所提供的装置进行详细描述。图3a和图3b为本发明实施例提供的装置结构示意图，如图3a和图3b所示，该装置可以包括：上下文比对单元300、结果调整单元310和搜索词记录单元320。

上下文比对单元300，用于根据搜索词记录单元320的记录，将用户输入的当前query与相邻的上一query进行上下文比对，确定当前query与上一query的语义关系；其中语义关系包括以下所列的任一种：相同关系、同义关系、扩展关系、省略关系、相关关系和无关关系。

结果调整单元310，用于根据上下文比对单元300确定的语义关系，对当前query的搜索结果执行与确定的语义关系相对应的调整策略。

搜索词记录单元320，用于对用户输入的query进行记录。

其中，该搜索词记录单元320可以对用户输入的所有query按照先后顺序都进行记录；也可以仅记录上一query，当完成当前query和上一query的比对后，利用当前query更新上一query。

更进一步地，该装置还可以包括：第一判断单元330，用于判断用户输入的当前query与相邻的上一query是否携带相同的cookie ID，如果是，触发上下文比对单元300执行所述将用户输入的当前query与相邻的上一query进行上下文比对的操作；否则，禁止上下文比对单元300执行所述将用户输入的当前query与相邻的上一query进行上下文比对的操作。

另外，该装置还可以进一步包括：第二判断单元340，用于判断用户输入的当前query与相邻的上一query之间的输入时间间隔是否在预设的有效时间间隔之内，如果是，触发上下文比对单元300执行所述将用户输入的当前query与相邻的上一query进行上下文比对的操作；否则，禁止上下文比对单元300执行所述将用户输入的当前query与相邻的上一query进行上下文比对的操作。

需要说明的是，上述第一判断单元330和第二判断单元340可以择一出现在该装置中，也可以同时出现在该装置中。当同时出现在该装置中时，第一判断单元330和第二判断单元340只要存在一个禁止上下文对比单元300进行上下文比对的操作，上下文比对单元300就不执行上下文比对的操作。本发明实施例提供的图3a和图3b中以同时出现在该装置中为例。

具体地，上述上下文比对单元300可以采用以下两种结构：

第一种结构：如图3a所示，上下文比对单元300可以具体包括：第一分词子单元301、第一过滤子单元302和比对处理子单元303。

第一分词子单元301，用于对当前query和上一query分别做分词处理。

第一过滤子单元302，用于过滤掉分词处理后得到的词语中的非关键词，得到当前query的关键词以及上一query的关键词；非关键词至少包括以下中的一种：标点和虚词。

比对处理子单元303，用于将当前query的关键词和上一query的关键词进行比对，确定当前query与上一query的语义关系。

第二种结构：如图3b所示，上下文比对单元300可以具体包括：第二分词子单元304、第二过滤子单元305、结果记录子单元306和比对处理子单元307。

第二分词子单元304，用于对当前query进行分词处理。

第二过滤子单元305，用于过滤掉第二分词子单元304分词处理后得到的词语中的非关键词，得到当前query的关键词并记录在结果记录子单元306中。

结果记录子单元306，用于记录各query的关键词。

该结果记录子单元306可以设置为独立的单元，也可以通过搜索词记录单元320实现记录各query的关键词的功能，即结果记录子单元306可以和搜索词记录单元320设置为一个单元。

比对处理子单元307，用于将当前query的关键词和上一query的关键词进行比对，确定当前query与上一query的语义关系。

其中，比对处理子单元303和比对处理子单元307可以具体包括(图3中未示出比对处理子单元的具体结构，将在图4中以一实例具体示出)：相同关系确定模块、同义关系确定模块、扩展关系确定模块、省略关系确定模块、相关关系确定模块或者无关关系确定模块中的一种或任意组合。

相同关系确定模块，用于将当前query的关键词和上一query的关键词进行比对，如果当前query的关键词与上一query的关键词完全相同，则确定当前query与上一query是相同关系。

同义关系确定模块，用于将当前query的关键词和上一query的关键词中不相同的关键词进行比较，如果确定是同义词，则确定当前query和上一query是同义关系。

扩展关系确定模块，用于将当前query的关键词与上一query的关键词中相同的关键词排除后，如果当前query有剩余关键词而上一query没有剩余关键词，则确定当前query与上一query为扩展关系。

省略关系确定模块，用于将当前query的关键词与上一query的关键词中相同的关键词排除后，如果当前query没有剩余关键词而上一query有剩余关键词，则确定当前query与上一query为省略关系。

相关关系确定模块，用于如果当前query与上一query不属于相同关系、同义关系、扩展关系和省略关系中的任一种，则采用PLSA技术对当前query的关键词和上一query的关键词进行主题相关度分析，如果主题相关度满足相关关系要求，则确定当前query与上一query为相关关系。

无关关系确定模块，用于如果当前query与上一query不属于相同关系、同义关系、扩展关系、省略关系和相关关系中的任一种，则确定当前query和上一query为无关关系。

图4为同时存在上述相同关系确定模块、同义关系确定模块、扩展关系确定模块、省略关系确定模块、相关关系确定模块以及无关关系确定模块的比对处理子单元303的其中一个实例，但本发明并不限于图4所示的连接关系，相同关系确定模块、同义关系确定模以及扩展关系确定模块可以以任意顺序执行操作，也可以同时执行操作。

在图4中，相同关系确定模块401将当前query的关键词和上一query的关键词进行比对，如果当前query的关键词与上一query的关键词完全相同，则确定当前query与上一query是相同关系并通知给结果调整单元310；如果不完全相同，则触发同义关系确定模块402执行操作。

同义关系确定模块402受到相同关系确定模块401的触发后，将当前query的关键词和上一query的关键词中不相同的关键词进行比较，如果确定是同义词，则确定当前query和上一query是同义关系并通知给结果调整单元310；如果确定不是同义词，则触发扩展关系确定模块403或省略关系确定模块404执行操作。

扩展关系确定模块403受到同义关系确定模块402的触发后，将当前query的关键词与上一query的关键词中相同的关键词排除后，如果当前query有剩余关键词而上一query没有剩余关键词，则确定当前query与上一query为扩展关系并通知给结果调整单元310。

省略关系确定模块404受到同义关系确定模块402的触发后，将当前query的关键词与上一query的关键词中相同的关键词排除后，如果当前query没有剩余关键词而上一query有剩余关键词，则确定当前query与上一query为省略关系并通知给结果调整单元310。

相关关系确定模块405在扩展关系确定单元403确定当前query与上一query不是扩展关系且省略关系确定模块404确定当前query与上一query不是省略关系时，则采用PLSA技术对当前query的关键词和上一query的关键词进行主题相关度分析，如果主题相关度满足相关关系要求，则确定当前query与上一query为相关关系并通知给结果调整单元310；否则，触发无关关系确定模块406执行操作。

无关关系确定模块406受到相关关系确定模块405的触发后，确定当前query与上一query为无关关系并通知给结果调整单元310。

具体地，上述同义关系确定模块402可以采用查找预设的同义词辞典的方式，确定当前query的关键词与上一query的关键词中不相同的关键词是否为同义词。

另外，相关关系确定模块405的具体结构可以如图5所示，可以包括：概率查询子模块501、概率拟合子模块502、重合度确定子模块503和关系确定子模块504。

概率查询子模块501，用于查询PLSA辞典确定当前query的关键词的主题概率分布以及上一query的关键词的主题概率分布。

概率拟合子模块502，用于利用当前query的关键词的主题概率分布拟合出当前query的主题概率分布，并利用上一query的关键词的主题概率分布拟合出上一query的主题概率分布。

重合度确定子模块503，用于根据当前query的主题概率分布和上一query的主题概率分布，确定当前query和上一query的主题概率分布重合度。

关系确定子模块504，用于判断重合度确定子模块503确定的重合度是否达到预设的重合度阈值，如果是，则确定当前query和上一query为相关关系。

根据确定的当前query和上一query的不同语义关系，结果调整单元310采用的调整策略如下：

如果相同关系确定模块确定当前query与上一query的语义关系为相同关系，或者，同义关系确定模块确定当前query与上一query的语义关系为同义关系，则结果调整单元310采用的调整策略包括：

调整策略11：降低用户在上一query的搜索结果中点击的页面，或者，点击的页面及其之前的所有页面，或者，浏览过但未点击的页面在当前query的搜索结果中的排序；或者，

调整策略12：在当前query的搜索结果中将用户在上一query的搜索结果中点击的页面，或者，点击的页面及其之前的所有页面，或者，浏览过但未点击的页面删除。

如果扩展关系确定模块确定当前query与上一query的语义关系为扩展关系，则结果调整单元310采用的调整策略包括：提高当前query剩余的关键词在当前query的搜索结果中的排序权重。

如果省略关系确定模块确定当前query与上一query的语义关系为省略关系，则结果调整单元310采用的调整策略包括：

调整策略22：将用户在上一query的搜索结果中点击的页面，或者，点击的页面及其之前的所有页面，或者，浏览过但未点击的页面在当前query的搜索结果中删除。

上述的调整策略11可以具体包括：

将用户在上一query的搜索结果中点击的页面，或者，点击的页面及其之前的所有页面，或者，浏览过但未点击的页面排在当前query的搜索结果中的最后；或者，

将用户在上一query的搜索结果中点击的页面，或者，点击的页面及其之前的所有页面，或者，浏览过但未点击的页面排在当前query的搜索结果中设定排序位置之后；或者，

将用户在上一query的搜索结果中点击的页面的排序位置，或者，用户在上一query的搜索结果中点击的页面及其之前的所有页面，或者，浏览过但未点击的页面的排序位置，在当前query的搜索结果中向后移动设定排次。

较优地，比对处理子单元303可以进一步包括：满意度判断模块407(如图4所示)，用于在省略关系确定模块404确定当前query与上一query的语义关系为省略关系时，判断用户是否对上一query的搜索结果满意，如果是，通知结果调整单元310采用调整策略22；否则，通知结果调整单元310采用调整策略11。

具体地，满意度判断模块407可以判断用户在上一query的搜索结果中点击页面的次数是否在预设的次数范围内，如果是，则确定用户对上一query的搜索结果满意；或者，判断用户浏览上一query的搜索结果中的页面时长是否超过预设的满意时长，如果是，确定用户对上一query的搜索结果满意。

如果相关关系确定模块405确定当前query与上一query的语义关系为相关关系，则结果调整单元310采用的调整策略包括：

提高当前query的关键词和上一query的关键词中满足预设高概率要求且发生重合的主题在当前query的搜索结果中的排序权值。

本发明实施例提供的上述方法和装置，可以应用于浏览器-搜索引擎服务器的架构中的搜索引擎服务器端。浏览器将用户输入的当前query发送给搜索引擎服务器端，由本发明所提供的装置执行当前query和相邻上一query的上下文比对，根据比对结果确定的语义关系对当前query的搜索结果进行优化调整，然后搜索引擎服务器端将优化调整后的搜索结果再发送给浏览器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种优化搜索结果的方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述步骤A之前还包括：

3.根据权利要求1所述的方法，其特征在于，在所述步骤A之前还包括：

4.根据权利要求1所述的方法，其特征在于，所述步骤A具体包括：

A11、对所述当前query和所述上一query分别做分词处理；

5.根据权利要求1所述的方法，其特征在于，所述步骤A具体包括：

A21、对所述当前query进行分词处理；

6.根据权利要求4或5所述的方法，其特征在于，所述步骤A3具体包括：

7.根据权利要求6所述的方法，其特征在于，确定所述当前query的关键词与所述上一query的关键词中不相同的关键词是否为同义词采用查找预设的同义词辞典的方式。

8.根据权利要求6所述的方法，其特征在于，所述采用PLSA技术对所述当前query的关键词和所述上一query的关键词进行主题相关度分析具体包括：

9.根据权利要求1所述的方法，其特征在于，如果步骤A中确定所述当前query与所述上一query的语义关系为相同关系或同义关系，则步骤B中采用的调整策略包括：

10.根据权利要求6所述的方法，其特征在于，如果步骤A中确定所述当前query与所述上一query的语义关系为扩展关系，则步骤B中采用的调整策略包括：

11.根据权利要求1所述的方法，其特征在于，如果步骤A中确定所述当前query与所述上一query的语义关系为省略关系，则步骤B中采用的调整策略包括：

12.根据权利要求9或11所述的方法，其特征在于，所述调整策略11具体包括：

13.根据权利要求11所述的方法，其特征在于，如果步骤A中确定所述当前query与所述上一query的语义关系为省略关系，则该方法还包括：

14.根据权利要求13所述的方法，其特征在于，所述判断用户是否对所述上一query的搜索结果满意可以具体包括：

15.根据权利要求6所述的方法，其特征在于，如果步骤A中确定所述当前query与所述上一query的语义关系为相关关系，则步骤B中采用的调整策略包括：

16.一种优化搜索结果的装置，其特征在于，该装置包括：上下文比对单元、结果调整单元和搜索词记录单元；

所述搜索词记录单元，用于记录用户输入的query。

17.根据权利要求16所述的装置，其特征在于，该装置还包括：

18.根据权利要求16所述的装置，其特征在于，该装置还包括：

19.根据权利要求16所述的装置，其特征在于，所述上下文比对单元具体包括：第一分词子单元、第一过滤子单元和比对处理子单元；

20.根据权利要求16所述的装置，其特征在于，所述上下文比对单元具体包括：第二分词子单元、第二过滤子单元、结果记录子单元和比对处理子单元；

所述第二分词子单元，用于对所述当前query进行分词处理；

所述结果记录子单元，用于记录各query的关键词；

21.根据权利要求19或20所述的装置，其特征在于，所述比对处理子单元具体包括：相同关系确定模块、同义关系确定模块、扩展关系确定模块、省略关系确定模块、相关关系确定模块或者无关关系确定模块中的一种或任意组合；

22.根据权利要求21所述的装置，其特征在于，所述同义关系确定模块采用查找预设的同义词辞典的方式，确定所述当前query的关键词与所述上一query的关键词中不相同的关键词是否为同义词。

23.根据权利要求21所述的装置，其特征在于，所述相关关系确定模块具体包括：

24.根据权利要求21所述的装置，其特征在于，如果所述相同关系确定模块确定所述当前query与所述上一query的语义关系为相同关系，或者，确定所述当前query与所述上一query的语义关系为同义关系，则所述结果调整单元采用的调整策略包括：

25.根据权利要求21所述的装置，其特征在于，如果所述扩展关系确定模块确定所述当前query与所述上一query的语义关系为扩展关系，则所述结果调整单元采用的调整策略包括：

26.根据权利要求21所述的装置，其特征在于，如果所述省略关系确定模块确定所述当前query与所述上一query的语义关系为省略关系，则所述结果调整单元采用的调整策略包括：

27.根据权利要求26所述的装置，其特征在于，所述比对处理子单元还包括：满意度判断模块，用于在所述省略关系确定模块确定所述当前query与所述上一query的语义关系为省略关系时，判断用户是否对所述上一query的搜索结果满意，如果是，通知所述结果调整单元采用所述调整策略22；否则，通知所述结果调整单元采用所述调整策略11。

28.根据权利要求27所述的装置，其特征在于，所述满意度判断模块判断用户在所述上一query的搜索结果中点击页面的次数是否在预设的次数范围内，如果是，则确定用户对所述上一query的搜索结果满意；或者，判断用户浏览所述上一query的搜索结果中的页面时长是否超过预设的满意时长，如果是，确定用户对所述上一query的搜索结果满意。

29.根据权利要求21所述的装置，其特征在于，如果所述相关关系确定模块确定所述当前query与所述上一query的语义关系为相关关系，则所述结果调整单元采用的调整策略包括：