CN101256573B

CN101256573B - 基于内容相关性的反馈式搜索方法及内容相关方法

Info

Publication number: CN101256573B
Application number: CN200810052580A
Authority: CN
Inventors: 侯越先
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2008-04-01
Filing date: 2008-04-01
Publication date: 2012-10-10
Anticipated expiration: 2028-04-01
Also published as: CN101256573A

Abstract

本发明公开了一种基于内容相关性的反馈式搜索方法及内容相关方法，该方法包括以下步骤：当收到一个查询请求时，利用主流搜索引擎生成初始查询结果集；当前用户查看查询结果并点击目标网页后，获取该目标网页的ID，并从网页相关性矩阵K中查询出初始结果集中所有网页与目标网页的相关性；将与目标网页相关性最大的网页作为新的查询结果提交给用户。与已有技术相比，本发明避免了学习query-sensitive的ranking函数的复杂性取消搜索类别的概念，代以网页级的相关性分析，可解决类别划分的粒度-归属难题；与基于用户个性配置文件跟踪的方法相比，不需长期跟踪特定用户的行为；与基于点击数据直接优化搜索结果的方法相比，可有效解决一义多词和一词多义问题。

Description

基于内容相关性的反馈式搜索方法及内容相关方法

技术领域

本发明涉及利用计算机技术的内容管理系统及其实现方法，特别是涉及一种在反馈式搜索引擎框架下实现网页内容相关性挖掘的方法。

背景技术

随着互联网的迅速发展，搜索引擎已成为WEB用户获取网络资源的最主要途径。目前主流的搜索引擎主要根据用户输入的查询词在网页中的出现频率，同时辅以网页权威性等信息，从而生成相关联的查询结果。但由于WEB用户提交的关键字一般很简短，且可能有歧义，导致搜索引擎无法确定用户所需要的网页，降低了搜索结果的准确性，也影响了检索信息的中肯度(包括查全和查准两方面的综合评价)。

现有的搜索引擎所常用的个性化搜索的方法有以下四种不同的设计技巧：

1、类别搜索方法：

对网页数据库进行信息预分类，然后设法确定用户需要哪一类的网页，如果用户单击其中一个类别，然后再使用搜索引擎，将可以选择搜索整个Internet还是搜索当前类别。此类目录式搜索引擎，目前最有代表性的分类目录式搜索引擎如雅虎。但是，它存在以下问题：一方面，为了提交给用户一组最中肯的搜索结果，往往需要借助很细的类别划分粒度来进行预分类处理，但是细类别划分粒度下往往导致大量的分类交叉。另一方面，单纯根据用户给出的关键词，往往无法精确定位到用户想要搜索的类别。

2、利用用户个性配置与关键词结合的搜索方法：

将系统记录的用户个性信息与用户输入的关键字一起构成查询条件，为用户提供符合个人需要的查询结果。这种方法除了需要对网页分类，还需长期跟踪用户行为，这就必须假定用户行为是平稳的。web用户集体行为具有一定的自相似特征，即持续的突发性。因此单用户行为的时域平稳性假定须谨慎对待。直观地说，在此类搜索设计方法中，并不能根据用户行为的历史统计特征并推测出该用户经常可能发生的具有一定持续性的未来行为，原因是事实中存在用户的兴趣转移。持续性的兴趣转移效应对用户行为造成的影响不应被简单忽略。因此，该方法在设计上存在难度，使用中存在不可预期的风险。

3、基于点击量(click popularity)与粘性参数(stickiness)排序结果的搜索方法

该方法通过分析用户的行为信息决定搜索结果链接的排列位置。具体做法如DirectHit排序系统：目前被Lycos、Hotbot、MSN及很多其它搜索引擎所使用。其中，点击量是对搜索引擎结果页面上的链接被用户点击的次数的统计，粘性是对用户在某个网站上停留的时间长度的统计。该方法的缺点是：对于通用搜索引擎，当遇到多义性的查询关键词时；该方法由于忽视“一词多义”的问题，使得链接与查询语句的相关度更多的取决于关注这个链接的人数，这样的搜索结果会有缺失。

4、超链接分析的搜索方法

基于互联网的超链接结构评价网页的权威性，这种方法专注于评价网页本身的质量而不是查询词和网页之间的相关度。其出发点：一个网页有较高的关注度则说明它是被很多用户推荐的，由此说明这个网页是一个高质量的网页。但是，在我们看来，网页在搜索引擎结果中的排列位置不仅与网页本身的质量相关，更重要的是网页与查询词以及用户兴趣的相关度，这两者之间并不存在本质上的冲突。而通过分析网页的关注度来评价网页的质量则无助于计算网页与查询语句的相关度。

一些现有技术也试图利用海量clickthrough数据改进检索结果的中肯性。这类技术大致可归入两个方向。第一个方向是通过分析clickthrough数据来优化搜索引擎中的ranking函数；第二个方向是通过分析clickthrough数据来抽取用户偏好的信息。近来，将ranking SVM扩展到一种co-training框架以解决部分clickthrough数据未标定的问题，利用spybayes方法学习基于特定用户偏好的ranking函数。但是，无论所希望学习的ranking函数是否基于特定用户偏好，ranking的系统都有查询依赖性(query dependent)的，有必要考虑使用二元ranking函数r(qi，dj)。这里qi是第i个查询，dj是第j个文本。由于可能查询潜在的无限性，使得ranking函数难以在实际搜索引擎的大规模开放环境中被有效学习。

因此，如何克服上述各现有方法的缺陷，从而提高搜索引擎中用户所关心的搜索结果的中肯度，是本发明中要解决的问题。

发明内容

为了提供给用户更为准确和个性化的信息，本发明提出一种基于内容相关性挖掘的反馈式搜索引擎系统(FSE)及其数据相关方法，能够根据用户反馈提供扩展查询，即对于一次查询事件，首先生成一组初始查询结果；在当前用户点击了初始查询结果中的某个网页(称为目标网页)后，再从系统网页库中选择一组与目标网页内容相关性较高的网页作为扩展查询结果提交给用户，这样一来，所提供的扩展查询结果将与查询词和反映当前用户需求的目标网页都具有较高的相关性，能够更有效满足用户的查询需求。

本发明提出了一种基于内容相关性的反馈式搜索方法，该方法包括以下步骤：

当收到一个查询请求时，利用主流搜索引擎生成初始查询结果集；

当前用户查看查询结果并点击目标网页后，获取该目标网页的ID，并从网页相关性矩阵K中查询出初始查询结果集中所有网页与目标网页的相关性；

将与目标网页相关性最大的网页作为新的查询结果提交给用户；

其中，网页相关性矩阵K的建立，包括以下步骤：

由[0，t]时段的用户点击数据获得一个n×n的网页间的Co-Click矩阵C_n×n，Co-Click矩阵C_n×n即C_n×n的第i行第j列元素C_i，j表示网页i和网页j在同一次查询事件中被同时点击的次数；

由C_n×n确定一个有向图G_C，求解G_C上各结点之间的概率可达性，基于矩阵C_n×n求解任意两个网页实体间的概率可达性矩阵M_n×n，概率可达性矩阵M_n×n其第i行第j列元素M_i，j表示从网页i到网页j的概率可达性；定义有向图G_C＝<V，E，p>，其中V是结点集合，E是有向边集合，p是边权集合，

代表一个网页，

任意边<i，j>∈E_iff p_i，j≠0，如此定义的p决定了一个Markov矩阵，p_i，j表示网页i到达网页j的转移概率；

对概率可达性矩阵M_n×n进行降维，获得M_n×n的低维压缩表示矩阵R_n×k；所述对概率可达性矩阵M_n×n进行降维，该步骤包括：令M_n×n＝[x₁，x₂，…，x_n]^T，x_i∈R_n×k ⁿ，选出矩阵M_n×n中方差最大的k个列，这k个列组成的矩阵为M_(k)，将其嵌入

R_{n \times k} = \frac{| | M_{n \times n} {| |}_{F}}{| | M_{(k)} {| |}_{F}} M_{(k)};

将网页相关性矩阵K定义为归一化的R_n×kR_n×k ^T。

所述基于矩阵C_n×n求解任意两个网页实体间的概率可达性矩阵M_n×n，该步骤包括：给定一个有向图G＝<V，E，p>，其中每条边<i，j>有一个可靠度p_i，j，且0＜p_i，j≤1；G中任意一条路P的可靠度定义为P上所有边的可靠度的乘积，即

所有路中可靠度最大的路作为最大可靠路；

对于

令w_ij＝-logp_i，j，求出G中所有点对间的最大可靠路等价于所有点对间关于w的最短路；

网页i到j的概率可达性M_i，j计算公式为：

l_i，j是点i和j之间的最大可靠路长度。

所述基于矩阵C_n×n求解任意两个网页实体间的概率可达性矩阵M_n×n，该步骤包括：

依次选取有向图G_C中每个结点作为源结点，重复执行以下仿真过程，依次求解各源结点到其它结点的概率可达性矩阵M_n×n：

首先为当前的源结点i分配细胞，数量记为nc；

所有细胞依p所决定的转移概率随机行走，即处于源结点i的任意细胞在下一随机步行走到结点j的概率为p_i，j；

依此类推，在每个批次的随机行走结束后，记录各结点中包含的细胞数，记第t步随机行走结束后结点j中包含的细胞数为

在t_max个批次的随机行走结束后，定义

其中t_max＝6。

本发明还提出了一种直接应用于基于内容相关性的反馈式搜索的内容相关方法，建立网页相关性矩阵K，该方法包括以下步骤：

由[0，t]时段的用户点击数据获得一个n×n的网页间的Co-Click矩阵C_n×n，即C_n×n的第i行第j列元素C_i，j表示网页i和网页j在同一次查询事件中被同时点击的次数；

由C_n×n确定一个有向图G_C，求解G_C上各结点之间的概率可达性，基于矩阵C_n×n求解任意两个网页实体间的概率可达性矩阵M_n×n；其第i行第j列元素M_i，j表示从网页i到网页j的概率可达性；定义有向图G_C＝<V，E，p>，其中V是结点集合，E是有向边集合，p是边权集合，

代表一个网页，

R_{n \times k} = \frac{| | M_{n \times n} {| |}_{F}}{| | M_{(k)} {| |}_{F}} M_{(k)};

将网页相关性矩阵K定义为归一化的R_n×kR_n×k ^T。

所有路中可靠度最大的路作为最大可靠路；

对于

网页i到j的概率可达性M_i，j计算公式为：

l_i，j是点i和j之间的最大可靠路长度。

依次选取有向图G G_C中每个结点作为源结点，重复执行以下仿真过程，依次求解各源结点到其它结点的概率可达性矩阵M_n×n：

首先为当前的源结点i分配细胞，数量记为nc；

在t_max个批次的随机行走结束后，定义

其中t_max＝6。

与已有技术相比，本发明避免了学习query-sensitive的ranking函数的复杂性，具有与通用搜索引擎相适应的时空效率。与基于网页分类的方法相比，本查询扩展系统通过取消类别的概念，代以网页级的相关性分析，可解决类别划分的粒度一归属难题；与基于用户个性配置文件跟踪的方法相比，FSE利用具有统计平稳性的网页内容相关性信息，不需长期跟踪特定用户的行为，即可为该用户提供统计意义上的优化服务；与基于点击数据直接优化搜索结果的方法相比，FSE可有效解决一义多词和一词多义问题。

附图说明

图1为本发明的基于内容相关性的反馈式搜索方法的整体流程图。

图2为本发明的直接应用于基于内容相关性的反馈式搜索的内容相关方法的网页相关性矩阵K的建立流程图。

具体实施方式

反馈式搜索引擎系统(FSE)的查询扩展机制依赖于对网页内容相关性的定义。本发明根据任意两个网页被同时(指在同一次查询事件中)打开的次数来定义其间的内容相关性，即同时打开的次数越多，两个网页间的内容相关性越大。在实际应用中，即使采用稀疏表示，n×n网页相关性矩阵的规模也可能很大，故需使用高效维数约简方法(如直接随机映像方法，DRP)方法对其进行压缩。

通常搜索引擎的用户不会随机的点击搜索结果列表上的链接，而是作出某种有目的性的判断和选择，用户更加趋向于点击那些与他们的需求相吻合的链接。因此，点击数据是一种包含丰富信息的隐性反馈。如果搜索引擎可以提供动态的查询结果，使查询结果既与关键词相关，又与用户点击的特定目标网页相关，则可提高搜索结果对用户的可用性。

据此提出基于点击数据的FSE系统的框架模型如下：

FSE维护一个n×n的网页相关性矩阵K_n×n，其第i行j列元素K_i，j代表网页i和网页j的内容相关性。K_i，j的值越大，则表明网页i和网页j相关性越强。对于通用搜索引擎，即使考虑到数据稀疏性，K的存储和处理开销也可能非常大。故我们利用先进的维数约简方法，以获得K低扰动、高压缩比的约简表示。

因此，在FSE框架中的核心数据结构是网页相关性矩阵K。下面给出由[0，t]时段的用户点击数据建立网页相关性矩阵的方法。

网页相关性矩阵K的建立方法：

步骤一：由[0，t]时段的用户点击数据获得一个n×n的网页间的Co-Click矩阵C_n×n。其中C_i，j表示网页i和网页j被同时点击(指在同一次查询事件中被同时点击)的次数；

步骤二：由C_n×n确定一个有向图G_C，G_C的每个结点代表一个网页。求解G_C上各结点之间的概率可达性，获得概率可达性矩阵M_n×n，其第i行j列元素m_i，j表示从网页i到网页j的概率可达性；

步骤三：对M进行降维，获得M的低维压缩表示矩阵R_n×k；

步骤四：将网页相关性矩阵K定义为归一化的RR^T，其第i行j列元素K_i，j表示网页i和网页j的内容相关性。实际使用中，可以不显示求出K，而只是在使用K_i，j时计算R中对应行列的内积；

一个自然的直觉是，若C_i，j＞0且C_j，k＞0(即网页i和j被同时点击过，且网页j和k被同时点击过)，则可能i和k之间也具有一定的内容相关性。但难以期望实际的用户点击数据矩阵C直接满足此种概率意义上的传递性。有两个原因：1)由主流搜索引擎获得的用户点击数据，因其固有的ranking机制，使得网页对之间的Co-click关系存在显著的系统偏差。一个典型的例子是：网页Pi与Pj之间具有显著的内容相关性，但Pj的ranking较低，因而在多数查询下难以被用户点击，则由矩阵C所反映的Pi与Pj之间的内容相关性必然不合理地低；2)考虑到通用搜索引擎的网页库规模和网页数量的动态增加，在某一具体的时段内，用户点击数据可能很不完备。

为了补偿上述ranking系统给矩阵C_n×n引入的系统偏差和数据不充分所导致的问题，我们基于矩阵C_n×nC求解任意两个网页实体间的概率可达性矩阵M_n×n，期望M可在一定程度上反映任意网页对之间内容相关性的传递性。

求出矩阵M之后，一个直接的做法是定义网页相关性矩阵K＝MM^T。但这样做时空开销太大，所以我们对矩阵M_n×n进行降维，获得其低维表示：矩阵R_n×k，并定义K为归一化的R_n×kR_n×k ^T。这里所用的降维方法要符合两个条件：1)降维过程要保持内积，即可以用R_n×kR_n×k ^T近似M_n×nM_n×n ^T。2)降维方法对于大规模数据集具有现实的时空开销。我们提出的DRP方法较好地满足了上述两个要求。

本发明介绍了两种计算概率可达性的方法，它们分别有不同的应用场合。

定义有向图G_C＝<V，E，p>，其中V是结点集合，E是有向边集合，p是边权集合，

代表一个网页，

任意边<i，j>∈E_iff p_i，j≠0。显然，如此定义的p决定了一个Markov矩阵，p_i，j表示网页i到达网页j的转移概率。

下面分别给出求解概率可达性的两种方法。

1)基于最大可靠路的概率可达性方法

基于最大可靠路求解概率可达性的方法是一种精确方法，但其时间复杂性较高，只可用于中小规模的问题。下面先给出最大可靠路模型：

最大可靠路：

给定一个有向图G_c＝<V，E，p>，G_C中每条边<i，j>有一个可靠度p_i，j，0＜p_i，j≤1。G_C中任意一条路P的可靠度定义为P上所有边的可靠度的乘积，即

G_C的所有路中可靠度最大的路称为最大可靠路。

对于

令w_ij＝-logp_i，j。则求G_C中所有点对间的最大可靠路等价于求所有点对间关于w的最短路，而后者可由Dijkstra算法求解，其复杂度为O(|V|²log|V|)。若图G_C中有较多的连通分支，可先确定G_C的各连通分支，再对各连通分支分别使用Dijkstra算法，以降低时间开销。

上面给出了最大可靠路模型及其解法，将求解概率到达性的问题转化为求解最大可靠路问题。据此，网页i到j的概率可达性M_i，j可由为图G_C中对应点间的最大可靠路获得，M_i，j计算公式为：

l_i，j是点i和j之间的最大可靠路长度。

另外，根据不同的应用场合，本发明还提出了一种基于Markov chain Monte Carlo(MCMC)的概率可达性方法。

2)基于MCMC的概率可达性方法。

依次选取G_C中每个结点作为源结点，重复以下仿真过程，依次求解各源结点到其它结点的概率可达性：首先为当前的源结点(不失一般性，记为当前源结点为i)分配一定数量(记为nc)的细胞，然后让所有细胞依p所决定的转移概率随机行走，即处于结点i的任意细胞在下一随机步行走到结点j的概率为p_i，j，依此类推；在每个批次(一个批次指所有细胞均随机行走一步)的随机行走结束后，记录各结点中包含的细胞数，记第t步随机行走结束后结点j中包含的细胞数为

在t_max个批次的随机行走结束后，定义

这里规定t_max＝6，这是考虑了所谓的6度分离效应[20]。上述方法的时间复杂度为O(n×nc×logd).其中，d为图G_C中的各顶点最大的出度。可以证明，当细胞数量趋近无穷时，上述过程获得的解收敛于精确方法的解。

上面提到的直接随机映像(DRP)，它作为一种概率可达性矩阵M的压缩方法。在本发明中的具体实现方法如下：M的预期规模使基于特征值计算的维数约简方法(如SVD)难以有效工作，为此采用随机映像方法族。当前的主要随机映像方法需要通过矩阵乘法获得数据点的投影，其时间复杂性为O(kdn)。我而本发明则给出一个复杂性为O(dn)的新颖随机映像方法(直接随机映像，DRP)。DRP除了具有的加速比k(对于典型的文本应用，k经常在100-1000之间)，还可以有效保持原数据矩阵的稀疏性，相对于其他RP方法具有更高的空间效率。

DRP方法：令M_n×n＝[x₁，x₂，…，x_n]^T，x_i∈R_n×k ⁿ，选出矩阵M中方差最大的k个列，记这k个列组成的矩阵为M_(k)，则嵌入

DRP的有效性和可用性可由下列定理和分析导出：

定理1给定d个随机变量X₁，X₂，…，X_d，其中

独立于X_j。X＝{x₁，x₂，…，x_n}是这d个随机变量的一个中大规模的样本(例如n＞100)，每一个x_i＝[x₁，x₂，…，x_d]^T都是随机变量X₁，X₂，…，X_d的一个采样，则存在线性约简映射f：R^d→R^k，(1□k＜d)，使得：

\frac{1}{n (n - 1)} \underset{i, j &Element; {1, \cdot \cdot \cdot, n}, i < j}{Σ} | \frac{| | f (x_{i}) - f (x_{j}) {| |}^{2} - | | x_{i} - x_{j} {| |}^{2}}{| | x_{i} - x_{j} {| |}^{2}} | \leq B_{(d,k)}

(*)

其中

B_{(d, k)} = \max {(1 - {&Integral;}_{0}^{1} βdG (β)), (- {&Integral;}_{1}^{d / k} βdG (β) - 1)},

G (β) = \{\begin{matrix} \exp (\frac{k}{2} (1 - β + 1 nβ)) & 0 < β < d / k \\ 0 & β = d / k \end{matrix}

定理2给定d个随机变量X₁，X₂，…，X_d，其中

独立于X_j。X＝{x₁，x₂，…，x_n}是这d个随机变量的一个中大规模的样本(例如n＞100)，每一个x_i＝[x₁，x₂，…，x_d]^T都是随机变量X₁，X₂，…，X_d的一个采样，则给定任意小的失败概率δ，可以在

的随机时间内，发现一个满足由定理1给出的期望扰动边界的DRP。

定理1和2的前提假设是即各个随机变量X_i的方差是相同的。对于方差不同的随机变量，如方法1所述，应选择那些方差最大的列作为嵌入。下面说明这样做的理由。

令各随机变量

则可把各随机变量中心化，得到

显然中心化不影响样本点之间距离的分布。同时，可定义一组相互独立的单元随机变量，这些单元随机变量服从N(0，σ²)，使得

X′_i可被看作是ρ_i个独立的单元随机变量的和，即

这里ρ_i是正整数。可以看出，选择变量X′_i就可以看作是选择了ρ_i个单元随机变量。根据定理1，期望误差(指嵌入误差的期望)的界随着k的增加而单调递减。所以，为了得到较理想的期望扰动，应选用方差最大的那些列作为嵌入。

另一个值得注意的是缩放因子。当各个随机变量的方差不一样时，其缩放因子应该是总的单元变量个数与所选的单元变量个数之比的开方，即：(实际计算中利用||X||_F/||X_(k)||_F作为(

的估计，这里矩阵X_(k)由X中方差最大的k个列组成。以上说明了DRP对于距离的保持。利用类似的思路及Hoeffding不等式，可证明DRP的内积保持性质。

以上建立好网页相关性矩阵的FSE搜索方法，包括以下步骤：

步骤一：当收到一个查询请求时，首先利用主流搜索引擎生成一个初始查询结果集(初始结果集中的网页应与查询词相关。)作为初始查询结果集，在系统开销许可的前提下，应尽可能具有一定的多样性，特别是作为第一页返回的结果。

步骤二：当前用户查看查询结果并点击了某个目标网页后，FSE获取该目标网页的ID，并从网页相关性矩阵K中查询出初始结果集中所有网页与目标网页的相关性，然后将与目标网页相关性最大的网页作为新的查询结果提交给用户。

本发明的最佳实施效果依赖于网页内容相关性矩阵的有效性分析，因此，给出一最佳实施例来说明分析网页内容相关性矩阵K_n×n(即M_n×nM_n×n ^T)的有效性。基本思路是：以人工标注的网页相关性作为标准，比较由矩阵K和由向量空间模型(VSM)所分别导出的网页相关性序关系的中肯性，即哪个序关系与人工标注之间具有更强的相似性。具体方法描述如下，例如：

1)从5000个网页中选出50个网页。选择的标准是尽量使这50个网页间具有较大的主观差异性，以便于人工标注；

2)从矩阵K中选出这50个网页对应的50×50子矩阵，记为L；

3)计算这50个网页的基于VSM的相关性矩阵S；

4)找出矩阵L和S的所有逆序对：(j_i，k_i)为一个逆序对，当且仅当(L_i，j-L_i，k)(S_i，j-S_i，k)＜0，其中i，j，k∈{1，…，50}，且j≠i，k≠i；

5)从第4步中得到的逆序对中人工选择出可做明显主观判断的m个逆序对；

6)以人工判断作为评判依据，找出矩阵L和S在m个逆序对中的错误数，分别记为err(L)和err(S)；以及矩阵L和S在m个逆序对中的错误率，即r(L)＝err(L)/m和r(S)＝err(S)/m。易知r(L)+r(S)＝1

7)由第6步的结果和Chernoff不等式，估计L的错误数小于S的错误数的概率。

具体实验中，我们选择人工可做明显的主观判断的m＝529个逆序对，求得err(L)＝235，err(S)＝294。r(L)＝0.4442。r(S)＝0.5558。利用Chernoff不等式估计获得的尾边界为0.0372，即L的错误数小于S的错误数的概率为1-0.0372＝0.9628。

基于点击数据的FSE维护由大量用户点击样本获得的网页内容相关性，对于每个查询请求，经由用户交互和网页内容相关性信息辨识查询主题和查询意图。该方法避免了学习query-sensitive的ranking函数的复杂性，具有与通用搜索引擎相适应的时空效率。与基于网页分类的方法相比，本查询扩展系统通过取消类别的概念，代以网页级的相关性分析，可解决类别划分的粒度-归属难题；与基于用户个性配置文件跟踪的方法相比，FSE利用具有统计平稳性的网页内容相关性信息，不需长期跟踪特定用户的行为，即可为该用户提供统计意义上的优化服务；与基于点击数据直接优化搜索结果的方法相比，FSE可有效解决一义多词和一词多义问题。