CN101334773B

CN101334773B - 一种过滤搜索引擎查询结果的方法

Info

Publication number: CN101334773B
Application number: CN200710118084.9A
Authority: CN
Inventors: 范昂
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2007-06-28
Filing date: 2007-06-28
Publication date: 2014-07-30
Anticipated expiration: 2027-06-28
Also published as: CN101334773A

Abstract

本发明公开了一种过滤搜索引擎查询结果的方法，该方法包括以下步骤：用户端根据查询关键字发起查询请求；从所述用户端的当前操作窗口中提取数据信息后，通过在所述查询关键字与所述数据信息之间建立的关联，对所述搜索引擎返回的查询结果进行过滤和重新排序。采用本发明，对搜索引擎返回的查询结果进行了过滤和重新排序，这样的查询结果会更加接近于用户当前的查询需求，用户能获得与当前查询需要相匹配的查询结果，从而，降低了用户的查询工作量，大大提高了用户的查询效率。

Description

一种过滤搜索引擎查询结果的方法

技术领域

本发明涉及一种搜索技术，尤其涉及一种过滤搜索引擎查询结果的方法。

背景技术

目前，用户通过互联网进行查询的过程通常为：首先，在搜索引擎中直接键入查询关键字，然后，在搜索引擎返回的众多查询结果中，选择用户当前所需要的查询结果。但是这种单一地依赖查询关键字来获取查询结果的方式，获得的查询结果不仅数量很大，而且往往搜索出很多用户并不需要的查询结果，不能很好地匹配用户当前的查询需要。

发明内容

有鉴于此，本发明的主要目的在于提供一种过滤搜索引擎查询结果的方法，对搜索引擎返回的查询结果进行了过滤和重新排序，用户能获得与当前查询需要相匹配的查询结果。

为达到上述目的，本发明的技术方案是这样实现的：

一种过滤搜索引擎查询结果的方法，该方法包括以下步骤：

A、用户端根据查询关键字发起查询请求；或用户端向搜索引擎发起查询请求；所述搜索引擎将从其网络端数据库中查询到的查询结果返回给所述用户端；

B、从所述用户端的当前操作窗口中提取数据信息后，通过在所述查询关键字与所述数据信息之间建立的关联，具体为：在所述查询关键字与所述数据信息之间建立关联，并将与所述查询关键字相关联的所述数据信息确定为用户当前的查询需要；计算所述搜索引擎返回的查询结果与所述当前查询需要之间的相似匹配程度，根据该相似匹配程度，对所述搜索引擎返回的查询结果进行过滤和重新排序。

其中，所述用户端向搜索引擎发起查询请求具体为：

在用户端设置有搜索代理单元，搜索代理单元设定不同的搜索引擎，用户端通过所述搜索代理单元，向一个或一个以上搜索引擎发起查询请求。

其中，在用户端设置有搜索代理单元，步骤A进一步为：或用户端向所述搜索代理单元发起查询请求；

相应的，或步骤B具体为：在所述查询关键字与所述数据信息之间建立关联，并将其他从用户当前操作窗口数据信息中提取的关键信息确定为附加信息，将相关联的所述查询关键字与所述数据信息以及所述附加信息相结合，设置为查询条件；根据所述查询条件，所述用户端向所述搜索引擎发起查询请求；所述搜索引擎将查询结果返回所述用户端，完成用户查询。

其中，在所述查询关键字与所述数据信息之间建立关联进一步为：计算所述搜索引擎返回的查询结果与提取的所述数据信息之间的相似匹配程度；对所述数据信息进行聚类处理。

其中，所述聚类处理具体包括以下步骤：

X1、对当前操作窗口分类，提取所述操作窗口中的主题数据信息，获得对应各类操作窗口主题数据信息的向量特征；

X2、计算所述主题数据信息与所述搜索引擎返回的查询结果的相似匹配程度并聚类；

X3、对聚类得到的每类主题数据信息进行所述向量特征的合并，提取出这一类主题数据信息的特征向量。

其中，步骤X1中提取所述操作窗口中的主题数据信息具体采用的算法为：tf×IDF；其中，tf为所述主题数据信息在所述当前操作窗口出现的频率，以统计方式获得的通用参数IDF为倒排文献频率。

其中，步骤X2中所述计算相似匹配程度采用基于向量空间模型VSM的VSM算法，VSM算法具体为：

Sim (w_{i}, v_{j}) = Cosθ = \frac{Σ_{k = 1}^{n} w_{ik} . v_{jk}}{\sqrt{Σ_{k = 1}^{n} w_{ik}^{2}} \cdot \sqrt{Σ_{k = 1}^{n} v_{jk}^{2}}};

其中，W、V分别表示一个特征向量；W为从所述主题数据信息中提取出的向量，V为从所述搜索引擎返回的查询结果中提取出的向量，θ为向量间夹角。

其中，步骤X2进一步为：

X21、对相似匹配程度计算结果进行精确性校验，计算并获得精确的相似匹配程度。

其中，所采用的精确性校正函数为：

R_{is} = Subjrela + \frac{T_{is} \cap C_{s}}{C_{s}}

以及

其中，T为待计算的主题数据信息；C为当前操作窗口中，聚类中心的主题数据信息；Subjrela为当前操作窗口中，聚类中心主题数据信息的相关系数；R为主题数据信息相关系数；P为向量相似匹配程度精确性校正系数；

则所述精确的相似匹配程度为：Sim(w_i，v_j)×R_is×P_i。

由于，用户进行的搜索操作通常与其当前正在从事的操作有关。比如，正在编写文档，需要相关的文档材料；正在编写程序，需要相关的程序资料；正在以即时通讯方式与别人谈论事情，需要针对某个具体问题搜索相关的详细信息。因此，本发明根据用户搜索操作与其当前正在从事操作的相关性，在用户输入的查询关键字与用户当前操作窗口中的数据信息之间建立关联，对搜索引擎返回的查询结果进行过滤和重新排序。采用本发明，对单一地依赖查询关键字来获取查询结果的方式进行了完善，并对搜索引擎返回的查询结果进行了过滤和重新排序，过滤掉了很多用户并不需要的查询结果，这样的查询结果会更加接近于用户当前的查询需求，用户能获得与当前查询需要相匹配的查询结果，从而，降低了用户的查询工作量，大大提高了用户的查询效率。

附图说明

图1为本发明的一个实施例的实现流程图。

具体实施方式

本发明的核心思想是：在用户输入的查询关键字与用户当前操作窗口中的数据信息之间建立关联，对搜索引擎返回的查询结果进行过滤和重新排序。采用本发明，用户能获得与当前查询需要相匹配的查询结果。

为使本发明的目的、技术方案和优点更加清楚明白，以下举实施例并参照附图，对本发明进一步详细说明。

实施例一：

图1所示的过滤搜索引擎查询结果的方法，该方法包括以下步骤：

步骤101、在用户端，用户输入查询关键字，并根据查询关键字向搜索引擎发起查询请求；搜索引擎在其网络端数据库中进行查询，并将从网络端数据库中查询到的查询结果返回给用户端。

其中，在用户端，用户根据查询关键字向搜索引擎发起查询请求具体为：在用户端设置有搜索代理单元，并根据搜索代理单元所设定的不同搜索引擎，用户端通过搜索代理单元，向一个或一个以上搜索引擎发起查询请求。

这里，搜索代理单元可以为一个搜索代理程序，用于向不同的搜索引擎发起查询请求。比如，用户将“搜索”这一查询关键字输入至搜索代理程序中，根据搜索代理程序所设定的不同搜索引擎，就能实现用户向搜索引擎发起的查询请求。搜索引擎包括：目前广泛应用的各种互联网搜索引擎以及用户桌面搜索引擎。用户桌面搜索引擎是通过其对用户硬盘中所有文件建立的索引，根据查询关键字，完成对用户硬盘的搜索功能。

步骤102、搜索代理单元从用户端的当前操作窗口中提取数据信息后，在用户输入的查询关键字与用户当前操作窗口中的数据信息之间建立关联，并将与所述查询关键字相关联的所述数据信息确定为用户当前的查询需要。

所谓建立关联指：计算用户输入的查询关键字与用户当前操作窗口中的数据信息的相关性。

步骤103、将搜索引擎返回的查询结果与用户当前的查询需要进行相似度匹配，并计算出两者之间的相似匹配程度；根据该相似匹配程度，对搜索引擎返回的查询结果进行过滤和重新排序。这里，重新排序指：采用用户查询时，搜索引擎返回的查询结果和提取出的用户当前的查询需要进行相似匹配程度计算并根据这个相似匹配程度进行排序。

其中，所谓排序指：将最匹配的查询结果排在第一位，其他查询结果按照相似匹配程度，由大到小呈降序排列，相似匹配程度越高的优先排序。

实施例二：

一种过滤搜索引擎查询结果的方法，该方法包括以下步骤：

步骤201、在用户端，用户输入查询关键字，并向在用户端设置的搜索代理单元发出查询请求。

步骤202、搜索代理单元从用户端的当前操作窗口中提取数据信息后，在用户输入的查询关键字与用户当前操作窗口中的数据信息之间建立关联，并将其他从用户当前操作窗口数据信息中提取的关键信息作为附加信息，将相关联的所述查询关键字与所述数据信息以及附加信息相结合，设置为查询条件。

这里，关键信息指：关键词，结合以关键词为附加信息的查询条件，缩小了查询范围，能取得比实施例一更好的效果，提高了用户查询的效率。

比如，用户当前正在看《绿茶》电影相关的信息，如果用户再次输入“绿茶”作为查询关键词进行搜索，则搜索代理会发现“绿茶”与用户正在看的电影相关信息有关，将“电影”这一关键信息作为附加信息，并把查询条件更改为“绿茶”+“电影”从而达到更准确检索的目的。

实际上，用户当前操作窗口中的数据信息也是由关键词组成的，与用户输入查询关键词的区别仅仅在于：查询关键词是由用户输入，数据信息由搜索代理单元提取。

步骤203、根据查询条件，用户端向搜索引擎发起查询请求，搜索引擎将查询结果返回用户端，完成用户查询。

在实施例一中，步骤102中在所述查询关键字与所述数据信息之间建立关联进一步为：计算所述搜索引擎返回的查询结果与提取的所述数据信息之间的相似匹配程度；对所述数据信息进行聚类处理。这里，聚类的数据信息的表现形式是以类型划分的特征向量。相应的，根据查询关键字获得搜索引擎返回的查询结果的表现形式也是特征向量。

由于在用户桌面上，用户当前打开操作窗口的类型有很多，比如，当前打开操作窗口的类型包括：word文档、邮件、网页，而且，每个类型有多个操作窗口。那么，从所述操作窗口中提取出的数据信息会有很多。因此，需根据相似匹配程度，对所述数据信息进行聚类处理，数据信息进行聚类处理后，把属于相同类型的数据信息聚成类，并形成特征向量，得到聚类的数据信息。

所述聚类处理具体包括以下步骤：

步骤a1、对当前操作窗口分类，提取所述操作窗口中的主题数据信息，获得对应各类操作窗口主题数据信息的向量特征。

其中，提取所述操作窗口中的主题数据信息具体采用的算法可为：tf×IDF；其中，tf(Term Frequency)为所述主题数据信息在所述当前操作窗口出现的频率，以统计方式获得的通用参数IDF为倒排文献频率。

倒排文献频率(IDF，Inverse Document Frequency)是以统计方式获得的一个通用参数IDF，可以用于对操作窗口中数据信息的处理，IDF算法为：

IDF = Log \frac{N - n}{n} \approx Log \frac{N}{n}

其中，N为文献集中总文献数，n为出现特征词的文献频率

这里，文献集特指一个训练集，一般是一个大规模的标注语料库，这些语料库中的文献都是一定时期内具有时代特征的普遍性的文献，这样在大规模的训练库中训练出的词的IDF值就是比较符合统计规律的通用参数。

这里，所述主题数据信息也可以称为关键词或主题词，所谓IDF指：信息检索中计算主题数据信息与文献的相关权重的经典算法，它不仅可以用于计算关键字检索中关键字与相关文献的相关权重，而且可以用于计算文献自动分类中主题词与相关文献的相关权重。IDF是计算主题数据信息与文献相关权重的概率性表示方法。此外，另有一种信息论的表示法，就是基于香农(Shannon)信息熵的表示方法。

通过IDF算法可以去掉那些常用而不具备分类特征的词，如介词、副词等，并获得词所具备的分类意义的概率，从而找出具有分类意义的词。通常在某些文本中出现而在另外文本中不出现的词IDF值较高，也就是说这些词具有更高的类别特征。通过分析可以发现文本中具有意义特征的词是实词，并且主要是名词、动词和动名词，可以通过训练的方法提取对分类和聚类特征具有较好效果的关键词或主题词。

所谓权重的计算指：以词频、词长、词的文本IDF值作为权重计算因子，计算当前操作窗口中每一特征、主题词的权重，用于确定主题词在文章中所蕴含的信息量。

步骤a2、计算所述主题数据信息与所述搜索引擎返回的查询结果的相似匹配程度并聚类。

其中，所述计算相似匹配程度采用基于向量空间模型(VSM，Vector SpaceModel)的VSM算法，VSM算法具体为：

Sim (w_{i}, v_{j}) = Cosθ = \frac{Σ_{k = 1}^{n} w_{ik} . v_{jk}}{\sqrt{Σ_{k = 1}^{n} w_{ik}^{2}} \cdot \sqrt{Σ_{k = 1}^{n} v_{jk}^{2}}};

若Sim(w_i，v_j)≥λ(λ为一阈值)，则认为两者是相似的。

其中，W、V分别表示一个特征向量；W为从所述主题数据信息中提取出的向量，V为从所述搜索引擎返回的查询结果中提取出的向量；θ为向量间夹角。θ越大，Cosθ越小，所以当两个向量之间的夹角越小时，Cosθ越大，说明向量之间的夹角越小，即：相似匹配程度最大。

这里，聚类算法有很多可以选择，如：K近邻(K-means)、模糊聚类(FuzzyC-means)、层次聚类(Hierarchical clustering)、高斯矩阵(Mixture of Gaussians)等。而且，单一的聚类算法并不能很好的满足要求，采用复合的聚类算法才能达到最佳的聚类效果。

步骤a2进一步为：

步骤a21、对相似匹配程度计算结果进行精确性校验，计算并获得精确的相似匹配程度。

这里，所采用的精确性校正函数为：

R_{is} = Subjrela + \frac{T_{is} \cap C_{s}}{C_{s}},

以及

其中，T为待计算的主题数据信息；C为当前操作窗口中，聚类中心的主题数据信息；Subjrela为当前操作窗口中，聚类中心主题数据信息的相关系数；R为主题数据信息相关系数。P为向量相似匹配程度精确性校正系数。

则精确的相似匹配程度为：Sim(w_i，v_j)×R_is×P_i。

步骤a3、对聚类得到的每类主题数据信息进行向量特征的合并，提取出这一类主题数据信息的特征向量。

如果属于不同向量特征的主题数据信息之间的相似度很高，则需要把这些向量合并成为一个向量来作为过滤和重排结果的依据，这个过程类似于找重心的过程，合并的方法可以是简单的取各维向量平均值的方法。这样，可以有效的对特征向量进行降维处理，并保持向量相似匹配程度计算的准确度。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种过滤搜索引擎查询结果的方法，其特征在于，在用户端设置搜索代理单元，搜索代理单元设定不同的搜索引擎，用户端通过所述搜索代理单元，向一个或一个以上搜索引擎发起查询请求，该方法包括以下步骤：

A、通过用户端输入查询关键字，并向所述搜索代理单元发起查询请求；

B、搜索代理单元从所述用户端的当前文本类型操作窗口中提取数据信息后，在所述查询关键字与用户当前文本类型操作窗口中的所述数据信息之间建立关联，并将其他从用户当前文本类型操作窗口数据信息中提取的关键信息确定为附加信息，将相关联的所述查询关键字与所述数据信息以及所述附加信息相结合，设置为查询条件；根据所述查询条件，所述用户端向所述搜索引擎发起查询请求；所述搜索引擎将查询结果返回所述用户端，完成用户查询。

2.根据权利要求1所述的方法，其特征在于，其还包括有计算所述搜索引擎返回的查询结果与提取的所述数据信息之间的相似匹配程度，然后对所述数据信息进行聚类处理的步骤，所述聚类处理具体包括以下步骤：

3.根据权利要求2所述的方法，其特征在于，步骤X1中提取所述操作窗口中的主题数据信息具体采用的算法为：tf×IDF；其中，tf为所述主题数据信息在所述当前操作窗口出现的频率，以统计方式获得的通用参数IDF为倒排文献频率。

4.根据权利要求2所述的方法，其特征在于，步骤X2中所述计算相似匹配程度采用基于向量空间模型VSM的VSM算法，VSM算法具体为：

Sim (w_{i}, v_{j}) = Cosθ = \frac{Σ_{k = 1}^{n} w_{ik} . v_{jk}}{\sqrt{Σ_{k = 1}^{n} w_{ik}^{2}} \cdot \sqrt{Σ_{k = 1}^{n} v_{jk}^{2}}};

5.根据权利要求4所述的方法，其特征在于，步骤X2进一步为：

6.根据权利要求5所述的方法，其特征在于，所采用的精确性校正函数为：

则所述精确的相似匹配程度为：Sim(w_i，v_j)×R_is×P_i。