CN101770521A

CN101770521A - 一种用于垂直搜索引擎的聚焦相关度排序方法

Info

Publication number: CN101770521A
Application number: CN 201010122365
Authority: CN
Inventors: 温泉; 傅增明; 程裕强
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2010-03-11
Filing date: 2010-03-11
Publication date: 2010-07-07

Abstract

本发明涉及一种用于垂直搜索引擎的聚焦相关度排序方法，针对主题爬虫无法穿越“黑暗隧道”问题，使用在线学习的方法并利用辅助函数，对主题爬虫的主题爬行策略进行改进，使其能抓取到相关度更高的主题数据。研究了PageRank算法及其改进算法，通过对用户点击网页行为进行建模，改进链接之间PageRank值的传递方式，从而提出改进算法。针对网页权重特征提取模型维度过高的缺陷，提出网页权重的自定义方法，定义出网页权重的因素，并利用可分性判据来衡量页面权重因素的权重，从而给出页面权重的评价函数，有效地降低网页特征空间维度。通过本发明，用户在使用主题资源搜索引擎系统时，能够得到高质量的搜索结果集。

Description

一种用于垂直搜索引擎的聚焦相关度排序方法

技术领域

本发明涉及计算机网络搜索引擎的技术领域，特别是涉及一种用于垂直搜索引擎的聚焦相关度排序方法，即在搜索引擎搜索中基于网页相关度技术的搜索方法。

背景技术

随着互联网相关技术的日益成熟和蕴含信息量的快速增长，搜索引擎已经成为人们检索互联网数据的主要手段。目前互联网已经拥有100亿的静态网页，传统的通用搜索引擎虽然具有全面的检索能力，但其存在数据冗余量大、查询精度低等缺陷，已不能满足用户对信息检索的精确性要求。面向主题、专业化的垂直搜索引擎正逐步占据着市场，并引起了人们的广泛关注。

垂直搜索引擎的目的是找到与主题密切相关的资源，这需要预测文档的相关性，并按照其相关度对文档进行排序。一般而言，相关度高的文档排在搜索结果集的顶端。提高相关度排序的质量，是垂直搜索引擎的核心问题之一。现在相关度排序技术主要有两个方面：基于链接结构的网页排序和基于页面内容权重的网页排序。

谷歌的PageRank算法是基于链接结构的网页排序中最流行的算法，它利用网页的超链接结构信息来估算网页的重要性。斯坦福大学的博士研究生Sergey Brin和Lawrence提出了网络链接分析的一个新算法PageRank，该算法是建立在随机用户行为上的。具体来说，假设用户跟随链接进行了若干步的浏览后转向一个随机的起点网页又重新跟随链接浏览，那么一个网页的价值就由该网页被这个随机用户所访问的频率所决定。

PageRank算法基本原理：通过对网络超链接结构和文献引文机制的相似性进行研究，利用网络本身的超链接结构给所有的网页确定一个重要性的等级数，当从网页A链接到网页B时，就认为网页A投了网页B一票，增加了网页B的重要性。最后根据网页的得票数评定其重要性，而这个重要性的量化指标就是PageRank值。在实际计算的时候，先给每个网页一个初始的PageRank值，然后通过简单的迭代算法计算出每个网页p的PR(p)值。但由于其链接间平均传递PageRank值的做法，易产生主题漂移现象。

基于页面权重的网页排序，采用特征提取模型，其中向量模型和布尔模型运用最为广泛，但由于它们的空间维度过高，使其受到一定的限制。因此，垂直搜索引擎中的相关度排序问题遇到了很大的挑战。

由此可见，现在并没有一种普适的并且高效的相关度排序方案，能在不增加存储信息量的情况下，解决用户查询主题漂移的问题。同时，对这一问题的深入研究有助于垂直搜索引擎的发展。

发明内容

本发明所要解决的技术问题是提供一种用于垂直搜索引擎的聚焦相关度排序方法，提高相关度排序的质量，从而改善垂直搜索引擎的性能。

本发明解决其技术问题所采用的技术方案是：提供一种用于垂直搜索引擎的聚焦相关度排序方法，包括以下步骤：

(1)使用主题爬虫抓取网页，保存在其URL队列中，抓取主题数据，为搜索引擎做数据准备；

(2)对抓取的网页链接进行分析，通过对用户点击行为进行分析，建立用户行为模型，推导出PageRank值传递公式；

(3)页面权重特征提取与评价，即对页面进行权重评分，利用可分性判据计算页面特征的类间距，推导出页面权重的评价函数，计算出页面的重要性；

(4)在搜索引擎接受查询时，根据计算出的页面重要性进行排序，返回给用户结果集。

所述的用于垂直搜索引擎的聚焦相关度排序方法的步骤(1)中对主题爬虫的爬取行为加入主题判别函数，当主题样本被第i级主题分类器判为假后，使用第i级的主题判别函数对其进行辅助判决，若辅助判决为真，则将已判决为拒绝的主题样本输入到第i+1级的主题分类中，反之，则拒绝该主题样本，其中，i为正整数；所述的第i级主题判别函数为：

F_{i} (t_{c}) = α Σ_{l = 1}^{L_{i}} F_{l} (t_{c}) + β {(\frac{1}{2})}^{count},

其中，α是锚文本的相关度值，β是链接附近文本的值，F_i(t_c)表示第i级主题判别函数的值。

所述的用于垂直搜索引擎的聚焦相关度排序方法的步骤(2)中所述的用户点击行为分为四类：

(a)该用户从当前页跳转到一个随机页面，并在关注同一主题的动作记为M_s，其行为概率为

P (M_{s} | i_{k}) = (1 - d) &PartialD;;

(b)该用户从当前页跳转到一个随机页面，并在关注任一主题的动作记为M_j，其行为概率为

P (M_{j} | i_{k}) = (1 - d) (1 - &PartialD;);

(c)该用户从当前页跟随该页面链接，并在关注同一主题的动作记为J_j，其行为概率为

P (J_{j} | i_{k}) = d (1 - &PartialD;);

(d)该用户从当前页跟随该页面链接，并在关注任一随机主题的动作记为J_s，其行为概率为

P (J_{s} | i_{k}) = d * &PartialD;;

所述的用户点击行为的概率在用户到达目标页面j的主题q时可以做如下描述：

P (J_{q} | i_{q}, M_{s}) = \frac{1}{| out (i) |},

P (J_{q} | i_{k}, M_{j}) = \frac{1}{| out (i) |} C (i_{q}),

P (J_{q} | i_{k}, J_{j}) = \frac{1}{N} C (j_{q}),

P (J_{q} | i_{q}, J_{s}) = \frac{1}{N} C (j_{q}),

其中，C(i)(i∈(0，n))是文本的内容向量，out(i)是网页的链出数；

所述的概率模型用来计算用户在页面j中的聚焦主题q的概率：

P (J_{q}) = (1 - d) &PartialD; \underset{i &RightArrow; j}{Σ} \frac{1}{| out (i) |} P (i_{q}) + (1 - d) (1 - &PartialD;) \underset{i &RightArrow; j}{Σ} \frac{1}{| out (i) |} C (i_{q}) \underset{k &Element; W}{Σ} P (i_{k}) + d \frac{1}{N} C (j_{q}) \underset{k &Element; W}{Σ} P (i_{k}),

其中，N是爬取网页的数量；W是爬取的网页集；d是在所述的概率模型中的一个随机跳转的概率；i-＞j页面i中的一个超链接指向j。

所述的用于垂直搜索引擎的聚焦相关度排序方法的步骤(3)中评价函数使所有类的类内平均距离最小，类间平均距离最大，用J(·)表示：

J (\cdot) = \frac{1}{N - 1} \frac{Σ_{i = 1}^{M} P_{i} Σ_{j = 1}^{M} P_{j} \overset{&OverBar;}{d_{c}^{2}} (C_{i}, C_{j})}{Σ_{i = 1}^{N} P_{i} \overset{&OverBar;}{d_{c}^{2}} (C_{i})},

采用所述的评价函数对页面进行权重评分，从而确定页面的重要性。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：

(1)搜索引擎的数据准备过程中，针对主题爬虫无法穿越“黑暗隧道”问题，使用在线学习的方法并利用辅助函数，对主题爬虫的主题爬行策略进行改进，使其能抓取到相关度更高的主题数据。

(2)研究了PageRank算法及其改进算法，通过对用户点击网页行为进行建模，改进链接之间PageRank值的传递方式，从而提出改进算法。实验证明，该算法能在不增加额外存储空间的情况下，有效地避免主题漂移现象的发生。

(3)针对网页权重特征提取模型维度过高的缺陷，提出网页权重的自定义方法，定义出网页权重的因素，并利用可分性判据来衡量页面权重因素的权重，从而给出页面权重的评价函数，有效地降低网页特征空间维度。

(4)融合以上三方面改进方案，提出聚焦相关度排序方案，并将其运用到搜索引擎的应用系统中，能够提高相关度排序的质量，从而改善垂直搜索引擎的性能，最终设计并实现了面向领域的垂直搜索引擎系统。

附图说明

图1是本发明用于垂直搜索引擎的聚焦相关度排序方法的流程图；

图2是主题爬虫抓取网页的主要流程图；

图3是本发明的主题爬虫框架示意图；

图4是用户行为模型结构图；

图5是本发明搜索引擎系统的总体架构示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种用于垂直搜索引擎的聚焦相关度排序方法，包括以下步骤：(1)使用主题爬虫抓取网页，保存在其URL队列中，抓取主题数据，为搜索引擎做数据准备；(2)对抓取的网页链接进行分析，通过对用户点击行为进行分析，建立用户行为模型，推导出PageRank值传递公式；(3)页面权重特征提取与评价，即对页面进行权重评分，利用可分性判据计算页面特征的类间距，推导出页面权重的评价函数，计算出页面的重要性；(4)在搜索引擎接受查询时，根据页面重要性进行排序，返回给用户结果集。

下面对本发明的实施方式进行具体地说明，如图1所示。

1)主题爬虫抓取数据，为搜索引擎做数据准备。

按照图2的步骤利用主题爬虫抓取网页，将抓取网页的URL放入URL队列中。

从图2中可知主题爬行策略改进有两点：第一是借鉴了“在线学习(Online Learning)”的思想，利用网页分类器对URL打分器进行在线“训练”，从而不断提高URL打分器的准确性。另一个更重要的改进是主题爬行的爬虫利用了包括锚文本、链接附近文本和父页面相关度信息三个方面的线索，设计一个辅助函数，充分利用了超链接微观环境中HTML代码的树形结构特征，对链接附近文本的精确挖掘。

改进的主题爬虫框架如图3所示，当样本被某一级主题分类器判为假后，使用该级的主题判别函数对其进行辅助判决。若辅助判决为真，则将已判决为拒绝的主题样本输入到下一级的主题分类中，反之，则拒绝该主题样本。本发明提出的新的主题爬虫框架在每一级增加了相对应的主题判别函数。

第i级的主题判决函数为：

F_{i} (t_{c}) = α Σ_{l = 1}^{L_{i}} F_{l} (t_{c}) + β {(\frac{1}{2})}^{count},

其中，α是锚文本的相关度值，β是链接附近文本的值，F_i(t_c)表示第i级主题判别函数的值。可以发现F_i(t_c)值是随α值递增的，α值越大，F_i(t_c)越大，则主题爬虫更倾向于使用本次判决的结果；α值越小，F_i(t_c)越小，则主题爬虫越偏重于考虑历史判决信息。

2)对抓取网页进行链接分析，利用本发明提出的用户行为模型对PageRank算法进行改进。

本发明在传统的用户行为建模的基础上提出了一种新的用户行为建模的思想：通过分析用户查询行为来计算页面跳转的概率事件，从而来预测用户可能感兴趣的点击行为。并结合用户的点击行为、点击次序及操作形式来构建用户行为模型。其模型的结构图如图4所示。

基本流程如下：

(1)用户进行关键词查询，并对该查询进行识别，若用户没有后续点击动作将识别结果存入用户行为库。

(2)若用户查询后还有对别的网页进行点击的动作，对点击行为进行跟踪，并将结果存入用户行为库。

(3)从行为库中导出用户行为，进行用户行为分析。

其中，用户行为分析基于上面的建模流程。定义用户的点击行为可以分为几类，其定义如下：

假设用户正在浏览一个网页的某个主题，下一步，该用户可能在当前页以概率1-d跳转到一个出度链接，或者以概率d跳转到任意随机网页。同理，如果一个用户准备跳转一个链接，该用户可能以概率停留在同一主题；或者以概率

跳转到任意一个主题。

(a)定义一：该用户从当前页跳转到一个随机页面，并在关注同一主题的动作记为M_s。其行为概率为：

P (M_{s} | i_{k}) = (1 - d) &PartialD;

(b)定义二：该用户从当前页跳转到一个随机页面，并在关注任一随机主题的动作记为M_j。其行为概率为：

P (M_{j} | i_{k}) = (1 - d) (1 - &PartialD;)

(c)定义三：该用户从当前页跟随该页面链接，并在关注同一主题的动作记为J_j。其行为概率为：

P (J_{j} | i_{k}) = d (1 - &PartialD;)

(d)定义四：该用户从当前页跟随该页面链接，并在关注任一随机主题的动作记为J_s。其行为概率为：

P (J_{s} | i_{k}) = d * &PartialD;

改进PageRank值传递方式

上述行为的概率在用户到达目标页面j的主题q时可以做如下描述：

P (J_{q} | i_{q}, M_{s}) = \frac{1}{| out (i) |}

P (J_{q} | i_{k}, M_{j}) = \frac{1}{| out (i) |} C (i_{q})

P (J_{q} | i_{k}, J_{j}) = \frac{1}{N} C (j_{q})

P (J_{q} | i_{q}, J_{s}) = \frac{1}{N} C (j_{q})

其中，C(i)(i∈(0，n))是文本的内容向量；out(i)是网页的链出数。这个概率模型可以用来计算用户在页面j中的聚焦主题q的概率：

P (J_{q}) = (1 - d) &PartialD; \underset{i &RightArrow; j}{Σ} \frac{1}{| out (i) |} P (i_{q}) + (1 - d) (1 - &PartialD;) \underset{i &RightArrow; j}{Σ} \frac{1}{| out (i) |} C (i_{q}) \underset{k &Element; W}{Σ} P (i_{k}) + d \frac{1}{N} C (j_{q}) \underset{k &Element; W}{Σ} P (i_{k})

其中，N是爬取网页的数量；W是爬取的网页集；d是在上述概率模型中的一个随机跳转的概率；i-＞j页面i中的一个超链接指向j。

根据上述公式可以轻松的推导出基于用户行为模型的PageRank算法计算PageRank的公式：

PR (j_{q}) = (1 - d) &PartialD; \underset{i &RightArrow; j}{Σ} \frac{1}{| out (i) |} PR (i_{q}) + (1 - d) (1 - &PartialD;) \underset{i &RightArrow; j}{Σ} \frac{1}{| out (i) |} C (i_{q}) \underset{k &Element; W}{Σ} PR (i_{k}) + d \frac{1}{N} C (j_{q}) \underset{k &Element; W}{Σ} PR (i_{k})

从该公式中可以发现：

(1)若用户查询后并没有后续点击动作，PageRank值没有进行迭代计算，为初始值。

(2)若用户有后续点击动作，PageRank值可以根据该公式进行迭代计算出来。

这样就计算出了目标网页的PageRank值，解决了PageRank算法中链接之间PageRank值平均传递的弊端，且该算法不需要去ODP中查询主题分类，节省了大量的时间和空间，可以有效的减少主题漂移现象的发生。在对用户行为跟踪以后，把得到的结果更新到用户行为兴趣库，以便下一次对用户行为的跟踪与分析。

3)页面权重特征提取与评价

特征提取就是特征选择，特征选择是从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程。实际工作中有两种特征选择的问题，一种是从原始特征集中选出固定数目的特征，使得分类器的错误率最小，这是一个无约束的组合优化问题。另一种是对于给定的允许错误率，求维数最小的特征子集，这是一种有约束的最优化问题。

可分性判据用于衡量一组对分类最有效的特征的一个定量判据，可分性判据分为基于类内类间距离的可分性判据、基于概率分布的可分性判据、基于熵函数的可分性判据。

基于类内类间距离的可分性判据根据特征子集满足类内距离最小，类间距离最大的原则来度量可分性，基于概率分布的可分性判据根据类的概密函数的重叠程度来度量可分性，基于熵函数的可分性判据根据类的类后验概率的差别来度量可分性。基于概率分布的可分性判据需要知道类的概密函数，基于熵函数的可分性判据需要知道类的后验概率，但是搜索引擎数据源的各类的概密函数和后验概率都无法求得，所以选择基于类内类间距离的可分性判据作为页面权重的评价函数。

C_i表示第i分类因素，x_j ⁽ⁱ⁾表示第i分类因素的第j特征向量，N_i表示第i分类因素的特征向量集合的大小，M表示类别数，N表示所有特征向量集合的大小，P_i表示i分类因素的概率，

P_{i} = \frac{N_{i}}{N},

F表示所有分类的互异特征集合，D表示F的大小，f_ij表示C_i的第j特征集合。

特征向量：C_i的第j特征向量的第1列分量定义为：

x_{jl}^{(i)} = \{\begin{matrix} 1 & F_{l} &NotElement; f_{ij} \\ 0 & F_{l} &Element; f_{ij} \end{matrix}

C_i的第j特征向量定义为：

x_{j}^{(i)} = [x_{j_{0}}^{(i)}, x_{j_{1}}^{(i)}, x_{j_{2}}^{(i)} . . . x_{j_{l}}^{(i)}], j = D

向量距离：向量之间的距离采用Jaccard计算方法，向量之间的距离用δ(x，y)表示。

δ (x, y) = \frac{{xy}^{T} + x {(\overset{&OverBar;}{y})}^{T} + \overset{&OverBar;}{x} y^{T}}{{xy}^{T}}

计算类距离：类内距离为C_i类与C_j类之间的两两特征向量的均方距离，用d²(C_i，C_j)表示。

\overset{&OverBar;}{d^{2}} (C_{i}, C_{j}) = \frac{1}{N_{i} N_{j}} Σ_{k = 1}^{N_{i}} Σ_{l = 1}^{N_{j}} δ^{2} (x_{k}^{(i)}, x_{l}^{(i)})

评价函数：特征选择方法的评价函数使所有类的类内平均距离最小，类间平均距离最大，用J(·)表示。

J (\cdot) = \frac{1}{N - 1} \frac{Σ_{i = 1}^{M} P_{i} Σ_{j = 1}^{M} P_{j} \overset{&OverBar;}{d_{c}^{2}} (C_{i}, C_{j})}{Σ_{i = 1}^{N} P_{i} \overset{&OverBar;}{d_{c}^{2}} (C_{i})}

可以用该评价函数对页面进行权重评分，从而确定页面的重要性。

4)在搜索引擎接受查询时，可通过页面重要性进行排序，并将结果集返回给用户。

图5是对主题爬行、基于链接结构排序、基于页面权重排序等方面提出了改进模型和算法，以提高相关度排序的质量，从而改善垂直搜索引擎的性能，最终设计并实现了面向领域的垂直搜索引擎系统结构示意图。

不难发现，在搜索引擎的数据准备过程中，针对主题爬虫无法穿越“黑暗隧道”问题，使用在线学习的方法并利用辅助函数，对主题爬虫的主题爬行策略进行改进，使其能抓取到相关度更高的主题数据。

研究了PageRank算法及其改进算法，通过对用户点击网页行为进行建模，改进链接之间PageRank值的传递方式，从而提出改进算法。实验证明，该算法能在不增加额外存储空间的情况下，有效地避免主题漂移现象的发生。

针对网页权重特征提取模型维度过高的缺陷，提出网页权重的自定义方法，定义出网页权重的因素，并利用可分性判据来衡量页面权重因素的权重，从而给出页面权重的评价函数，有效地降低网页特征空间维度。

Claims

1.一种用于垂直搜索引擎的聚焦相关度排序方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的用于垂直搜索引擎的聚焦相关度排序方法，其特征在于，所述的步骤(1)中对主题爬虫的爬取行为加入主题判别函数，当主题样本被第i级主题分类器判为假后，使用第i级的主题判别函数对其进行辅助判决，若辅助判决为真，则将已判决为拒绝的主题样本输入到第i+1级的主题分类中，反之，则拒绝该主题样本，其中，i为正整数；所述的第i级主题判别函数为：

F_{i} (t_{c}) = α Σ_{l = 1}^{L_{i}} F_{l} (t_{c}) + β {(\frac{1}{2})}^{count},

3.根据权利要求1所述的用于垂直搜索引擎的聚焦相关度排序方法，其特征在于，所述的步骤(2)中所述的用户点击行为分为四类：

P (M_{s} | i_{k}) = (1 - d) &PartialD;;

P (M_{j} | i_{k}) = (1 - d) (1 - &PartialD;);

P (J_{j} | i_{k}) = d (1 - &PartialD;);

P (J_{s} | i_{k}) = d * &PartialD;;

P (J_{q} | i_{q}, M_{s}) = \frac{1}{| out (i) |},

P (J_{q} | i_{k}, M_{j}) = \frac{1}{| out (i) |} C (i_{q}),

P (J_{q} | i_{k}, J_{j}) = \frac{1}{N} C (j_{q}),

P (J_{q} | i_{q}, J_{s}) = \frac{1}{N} C (j_{q}),

P (J_{q}) = (1 - d) &PartialD; \underset{i &RightArrow; j}{Σ} \frac{1}{| out (i) |} P (i_{q}) + (1 - d) (1 - &PartialD;) \underset{i &RightArrow; j}{Σ} \frac{1}{| out (i) |} C (i_{q}) \underset{k &Element; W}{Σ} P (i_{k}) + d \frac{1}{N} C (j_{q}) \underset{k &Element; W}{Σ} P (i_{k}),

4.根据权利要求1所述的用于垂直搜索引擎的聚焦相关度排序方法，其特征在于，所述的步骤(3)中的评价函数使所有类的类内平均距离最小，类间平均距离最大，用J(·)表示：

J (\cdot) = \frac{1}{N - 1} \frac{Σ_{i = 1}^{M} P_{i} Σ_{j = 1}^{M} P_{j} \overset{&OverBar;}{d_{c}^{2}} (C_{i}, C_{j})}{Σ_{i = 1}^{N} P_{i} \overset{&OverBar;}{d_{c}^{2}} (C_{i})},