CN101814093A

CN101814093A - 一种基于相似性的半监督学习垃圾网页检测方法

Info

Publication number: CN101814093A
Application number: CN201010139921A
Authority: CN
Inventors: 张卫丰; 朱丹梅; 周国强; 张迎周; 陆柳敏; 许碧娣; 刘霞
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2010-04-02
Filing date: 2010-04-02
Publication date: 2010-08-25

Abstract

本发明的目的是设计基于相似性的半监督学习垃圾网页检测方法，解决利用网页链接关系进行半监督学习出现的问题。该方法根据网页间的相似性建立一个隐含的“链接”关系图。步骤1：从网页中提取基于内容和链接的特征步骤2)对步骤1)所提取的特征用主成分分析方法进行特征提取；步骤3)根据网页间的相似性建立隐含的“链接”关系图；步骤4)在“链接”关系图上建立高斯随机域模型，利用调和函数进行半监督学习，步骤5)将步骤4)的模型与其它分类器的分类结果结合，提高分类效果，在关系图中，网页间的链接根据相似性赋予权重，然后建立高斯随机域模型，使用调和函数进行半监督学习，提高了半监督学习的能力。

Description

一种基于相似性的半监督学习垃圾网页检测方法

技术领域

本发明涉及一种搜索引擎垃圾网页的检测方法，主要解决了小样本条件下的垃圾网页检测问题，属于搜索引擎和半监督机器学习的领域。

背景技术

搜索引擎使得用户能从海量的网页中找到自己感兴趣的、正确的内容。但垃圾网页的盛行损害了搜索引擎的信誉，减弱了其用户的信任。找到一种有效的降低网页垃圾影响，提高搜索引擎网页排名质量的方法，对用户迅速找到感兴趣而且正确的网页有十分重要的意义。

最初，搜索引擎使用传统的信息提取算法，如TF-IDF(词频-逆文档频率)[1]，为提交给搜索引擎的查询所返回的结果进行排名。为了提高搜索质量，现在的网页重要性排名大多基于链接图，这个过程称为链接分析。著名的链接分析算法包括HITS[2]，PageRank(网页排名)[3，4]以及其它一些算法[5，6，7，8]。此类算法都基于这样的假设，如果一个网页在链接图中有很多重要的网页链向它，那么这个网页也很可能是重要的。为了进一步提高网页排名的有效性和准确性，研究者们又提出了许多改进算法。如针对链接工厂的TrustRank(信任排名)[6]算法在计算网页重要性时考虑了网页的可靠性。但是这些方法都只是针对某种类型的垃圾网页，对新的垃圾网页技术无能为力。

机器学习方法是一种从样本中提取能表征该样本的特征，根据特征的差异对样本进行分类的方法。检测垃圾网页的一种重要途径就是利用机器学习方法对网页进行分类。这种方法可以适应新出现的垃圾网页类型，并取得了不错的效果。但是，传统的机器学习方法实际上是利用已标签数据训练一个目标函数，然后每个未标签的数据由训练得到的目标函数获得一个函数值，若这个函数值大于某个既定阀值则认为它是属于垃圾网页，否则不是垃圾网页。这种方法属于监督学习的范围。然而，数据的标签类别通常需要具有相关知识的熟练的专家才能确定，因此对数据进行标签是费时的，而且代价也很大。用小量的样本训练的分类器通常都是不理想的。应该注意的是，未标签数据是大量存在的。怎样有效地将标签数据和未标签数据结合起来进行半监督学习以提高分类效果，现已成为机器学习中的重要部分。

当前，在垃圾网页检测方面的半监督方法主要是利用网页之间的链接关系，决定本网页是否为垃圾网页时，它的邻居网页(包括链入网页和链出网页)的标签也作为考虑的因素。例如Guang-Gang Geng[7]等人提出的Link training(链接训练法)，就是基于链接的小样本学习算法。它遵循的原则是相邻的节点有相似的属性。在链接训练算法中首先用少量的标签数据训练一个分类器。然后用训练好的分类器对大量的未标签数据分类，从而每个未标签的样本都会得到一个预测值PS，表示属于垃圾网页的概率。在链接学习阶段，未标签样本将根据它的邻居计算LS值，表示在参考其邻居的类别后该样本属于垃圾网页的概率。最后，把具有最大LS值的p个样本和最小LS值的n个样本分布作为垃圾网页和非垃圾网页加入到标签集中。这个训练过程将会进行多次，直到迭代次数到达预设值。这样最终会得到一个扩展的标签数据集。最后，利用扩展后的标签数据集训练最终的分类器。

利用网页链接关系进行半监督学习的方法取得了一定的效果。但是，若在一个垃圾网页通过增加对权威网页的链接来增加自身重要性等的情况下，这种方法就失效了，相邻的网页并没有相似的属性。而且这种方法往往需要多次迭代以扩展训练集，较为费时。本发明所涉及到的一种基于调和函数的半监督学习垃圾网页检测方法，正是为解决此问题而开展进行的。目的是根据网页间相似性，建立一个隐含的“链接”关系图，在这个隐含的关系图上进行半监督学习，提高机器学习检测垃圾网页的性能。

参考文献：

[1]SALTON，G..Developments in automatic text retrieval.Science 253，974-980，1991.

[2]J.M.Kleinberg.Authoritative sources in a hyperlinked environment.In SODA’98，pages 668-677，Philadelphia，PA，USA，1998.

[3]S.Brin，L.Page.The anatomy of a large-scale hypertextual Web search engine.Computer Networks and ISDN Systems，30(1-7)：107-117，1998.

[4]L.Page，S.Brin，R.Motwani，T.Winograd.The pagerank citation ranking：Bringingorder to the web.Technical report，Stanford Digital Library Technologies Project，1998.

[5]P.Boldi，M.Santini，S.Vigna.Pagerank as a function of the damping factor.InWWW’05.ACM，2005.

[6]Z.Gyongyi，H.Garcia-Molina，J.Pedersen.Combating web spam with trustrank.InVLDB’04，pages 576-587.VLDB Endowment，2004.

[7]T.Haveliwala.Effcient computation of pageRank.Technical Report，StanfordUniversity，1999.

[8]Z.Gyongyi，H.Garcia-Molina，J.Pedersen.Combating web spam with trustrank.VLDB’04，pages 576-587.VLDB Endowment，2004.

发明内容

技术问题：本发明的目的是设计一种基于相似性的半监督学习垃圾网页检测方法，解决利用网页链接关系进行半监督学习出现的问题。该方法根据网页间的相似性建立一个隐含的“链接”关系图。在关系图中，网页间的链接根据相似性赋予权重，然后建立高斯随机域模型，使用调和函数进行半监督学习。

技术方案：本发明提出的一种基于相似性的半监督学习垃圾网页检测方法，根据网页间的相似性建立一个隐含的“链接”关系图，在关系图中，网页间的链接根据相似性赋予权重，然后建立高斯随机域模型，使用调和函数进行半监督学习；所包含的步骤为：

步骤1：从网页中提取基于内容和链接的特征

基于内容的特征，主要包括以下几种类型的内容特征：

a.网页词的个数、标题词的个数，词的平均长度，仅考虑网页中可视文本的词，并且这些词是数字或字符类型的，

b.锚文本的比值：锚文本中词的个数与网页全部词个数的比值。

c.可视化文本的比值：可视化文本中词的个数与网页全部词个数的比值，包括html标签和其它不可视文本，

c.压缩率，压缩为bzip格式的网页与未压缩网页大小的比值，

d.词库的精度和召全率：找到数据集中最常用的k个词，词库的精度为网页中属于k个词的个数的比例，词库召全率则表示k个词中出现在该网页的比例，k＝100，200，500，1000，

e.查询精度和召全率：找到查询日志中最常用的q个查询词，查询精度和召全率的定义与词库的精度和召全率类似，

f.词三元组的熵：网页压缩率的另一种度量方法，

基于链接的特征，主要包括以下几种类型的链接特征：

g.与度相关的度量：网页的入度和出度，

h.网页排名：本网页的网页排名和链入网页的网页排名，

i.信任排名，

j.删减后的网页排名，

k.支持者的个数：若网页x到网页y的最短路径为d，则称x为yd距离内的支持者；

步骤2)对步骤1)所提取的特征用主成分分析方法进行特征提取；

步骤3)根据网页间的相似性建立隐含的“链接”关系图；

设有l个已标签样本(x₁，y₁)，...，(x_l，y_l)和u个未标签样本x_l+1，...，x_l+u，其中y∈{0，1}，l＜＜u，令n＝l+u为样本的总数，定义链接图G＝(V，E)，V表示n个节点，E表示V中节点之间的边集；节点集合L＝{1，...，l}代表l个已标签样本，标签分别为y₁，...，y_l。节点集合U＝{l+1，...，l+u}代表u个未标签样本，

为节点U指定标签，设矩阵W为n×n的对称权重矩阵，

w_{ij} = \exp (- Σ_{d = 1}^{m} {(x_{id} - x_{jd})}^{2}) - - - (1)

其中，x_id为样本x_i的第d个特征，因此，在欧几里德空间中距离近的节点直接的边具有较大的权重；

步骤4)在“链接”关系图上建立高斯随机域模型，利用调和函数进行半监督学习，

调和性表示未标签样本的f值是其邻居节点f值的均值：

f (j) = \frac{1}{d_{j}} \underset{i - j}{Σ} w_{ij} f (i), j = l + 1, . . . l + u - - - (3)

这与之前要求f的特性一致，调和性用矩阵的形式表示为f＝Pf，且P＝D^-1W，

为了通过矩阵操作计算未标签样本的f函数值，将权重矩阵W划分为4块：

W = [\begin{matrix} W_{ll} & W_{lu} \\ W_{ul} & W_{uu} \end{matrix}] - - - (4)

矩阵D和P也进行类似的划分，令

f_u表示未标签样本的f值，有调和性满足的两个性质，得到：

f_u＝(D_uu-W_uu)^-1W_ulf_l＝(I-P_uu)^-1P_ulf_l (5)

步骤5)将步骤4)的模型与其它分类器的分类结果结合，提高分类效果，

在图G中，每个未标签节点i链接到一个附加节点，附加节点的标签为h_u，节点i到附加节点的概率为η，则到原图G中所有其它节点的概率为1-η，记经过修改后的关系图为G′，然后在G′中推导f_u的矩阵计算表达式，

f_u＝(I-(1-η)P_uu)^-1((1-η)P_ulf_l+ηh_u) (6)。

有益效果：作为一种垃圾网页检测方法，基于调和函数的半监督学习可以很好的解决小样本训练的分类器性能不高的问题。根据相似性建立网页之间的链接关系，而不是直接利用网页间的超链接，就避免了在垃圾网页中随意增加和减少链接而影响分类结果的问题。本发明中网页的相似性综合考虑了网页的内容、链接方面的信息，能较好的表示网页间的相似而建立邻居关系，而不是片面地根据网页间的链接关系，因而通过该相似性能更好说明网页的关系。并且通过调和函数性质的推导就能得到未标签网页函数值与已标签网页函数值间的对应关系，计算步骤得到简化，而不需要像利用链接关系进行半监督学习时要多次迭代来不断扩大已标签数据集。

具体实施方式

一种基于相似性的半监督学习垃圾网页检测方法的具体实现步骤为：

(1)从网页中提取基于内容和链接的特征。

1)基于内容的特征，主要包括以下几种类型的内容特征：

a)网页词的个数、标题词的个数，词的平均长度。我们仅考虑网页中可视文本的词，并且这些词是数字或字符类型的。

b)锚文本的比值。锚文本中词的个数与网页全部词个数的比值。

c)可视化文本的比值。可视化文本中词的个数与网页全部词个数的比值(包括html标签和其它不可视文本)。

d)压缩率。压缩为bzip格式的网页与未压缩网页大小的比值。

e)词库的精度和召全率。找到数据集中最常用的k个词。词库的精度为网页中属于k个词的个数的比例。词库召全率则表示k个词中出现在该网页的比例。k＝100，200，500和1000。

f)查询精度和召全率。找到查询日志中最常用的q个查询词。查询精度和召全率的定义与词库的精度和召全率类似。

g)词三元组的熵。网页压缩率的另一种度量方法。

2)基于链接的特征，主要包括以下几种类型的链接特征：

a)与度相关的度量。网页的入度和出度等

b)网页排名。本网页的网页排名和链入网页的网页排名。

c)信任排名。

d)Truncated PageRank(删减后的网页排名)。

e)支持者的个数。若网页x到网页y的最短路径为d，则称x为yd距离内的支持者。

(2)对步骤1)所提取的特征用主成分分析方法进行特征提取。

为了使步骤1)所提取的特征更好地表示数据集的结构特点，我们利用主成分分析法提取特征。主成分分析法是一种设法将原来众多具有一定相关性的特征，重新组合成一组新的互相无关的综合特征来代替原来的特征。主成分分析将原来的特征空间投影到一个低维的特征空间，投影得到的特征彼此线性无关，减少了特征的冗余，更好地表示数据集的结构特点。我们使用WEKA软件中的主成分分析功能进行特征提取。WEKA是一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。

(3)根据网页间的相似性建立隐含的“链接”关系图。

我们根据网页间的相似性来建立网页间的相邻关系，可以解决用链接关系来描述网页关系存在的缺陷，从而相邻的网页有相似的属性。

假设有1个已标签样本(x₁，y₁)，...，(x_l，y_l)和u个未标签样本x_l+1，...，x_l+u，其中y∈{0，1}，l＜＜u，令n＝l+u为样本的总数。我们定义链接图G＝(V，E)，V表示n个节点。节点集合L＝{1，...，l}代表1个已标签样本，标签分别为y₁，...，y_l。节点集合U＝{l+1，...，l+u}代表u个未标签样本。我们的任务就是为节点U指定标签。假设矩阵W为n×n的对称权重矩阵，

w_{ij} = \exp (- Σ_{d = 1}^{m} {(x_{id} - x_{jd})}^{2}) - - - (1)

x_id为样本x_i的第d个特征。因此，在欧几里德空间中距离近的节点直接的边具有较大的权重。

(4)在“链接”关系图上建立高斯随机域模型，利用调和函数进行半监督学习。

我们的策略是希望在步骤3)中得到的关系图中寻找一个具有某些利于我们解决问题的特性的实值函数f：V→R，然后根据函数f对未标签数据指定标签。这些特性包括：

1)在标签样本上，f(i)＝f_l(i)≡y_i，i＝1，...，l。

2)在未标签样本中，希望图G中相邻的节点具有相似的标签。

由要求的特性可得二次能量函数：

E (f) = \frac{1}{2} \underset{i, j}{Σ} w_{ij} {(f (i) - f (j))}^{2} - - - (2)

在函数f上定义概率分布，我们得到高斯域

β为参数，划分函数

容易证明最小能量函数

是调和的。所谓的调和性，指定是它满足两个性质：

1)在标签样本上，f(i)＝f_l(i)≡y_i，i＝1，...，l。

2)在未标签样本上，Δf＝0。

这里，Δ是拉普拉斯矩阵，且Δ＝D-W。其中，D是对角线矩阵，D＝diag(d_i)，

而W＝[w_ij]是(3)中的权重矩阵。

调和性表示未标签样本的f值是其邻居节点f值的均值：

f (j) = \frac{1}{d_{j}} \underset{i - j}{Σ} w_{ij} f (i), j = l + 1, . . . l + u - - - (3)

这与我们之前要求f的特性一致。调和性用矩阵的形式表示为f＝Pf，且P＝D^-1W。由调和函数的最大原则得，f是单调的，且f或者是常数或者满足0＜f(j)＜1，j∈U。

为了通过矩阵操作计算未标签样本的f函数值，我们将权重矩阵W划分为4块：

W = [\begin{matrix} W_{ll} & W_{lu} \\ W_{ul} & W_{uu} \end{matrix}] - - - (4)

矩阵D和P也进行类似的划分。令f_u表示未标签样本的f值。有调和性满足的两个性质，得到：

f_u＝(D_uu-W_uu)^-1W_ulf_l＝(I-P_uu)^-1P_ulf_l (5)

(5)将(4)的f_u表达式与其它分类器的分类结果结合，提高分类效果。

通常有许多现成的分类器可供我们使用，可以用已标签数据训练这些分类器。这一步中我们将说明如何将这些分类器的分类结果与(4)中的调和能量最小化函数结合起来。我们使用的分类器为AdaBoost。假设该分类器对未标签数据的标注为h_u。只要对关系图G作简单的修改就可以将两者结合。在图G中，每个未标签节点i链接到一个附加节点，附加节点的标签为h_u。节点i到附加节点的概率为η，则到原图G中所有其它节点的概率为1-η。记经过修改后的关系图为G′。然后在G′中推导f_u的矩阵计算表达式。

f_u＝(I-(1-η)P_uu)^-1((1-η)P_ulf_l+ηh_u) (6)

步骤(4)和(5)的矩阵计算用MATLAB编程实现。

Claims

1.一种基于相似性的半监督学习垃圾网页检测方法，其特征在于根据网页间的相似性建立一个隐含的“链接”关系图，在关系图中，网页间的链接根据相似性赋予权重，然后建立高斯随机域模型，使用调和函数进行半监督学习；所包含的步骤为：

步骤1：从网页中提取基于内容和链接的特征

基于内容的特征，主要包括以下几种类型的内容特征：

a.网页词的个数、标题词的个数，词的平均长度，仅考虑网页中可视文本的词，并且这些词是数字或字符类型的。

c.可视化文本的比值：可视化文本中词的个数与网页全部词个数的比值，包括html标签和其它不可视文本。

c.压缩率，压缩为bzip格式的网页与未压缩网页大小的比值。

d.词库的精度和召全率。

e.查询精度和召全率：找到查询日志中最常用的查询词，查询精度和召全率的定义与词库的精度和召全率类似。

f.词三元组的熵：网页压缩率的另一种度量方法。基于链接的特征，主要包括以下几种类型的链接特征：

g.与度相关的度量：网页的入度和出度。

h.网页排名：本网页的网页排名和链入网页的网页排名。

i.信任排名。

j.删减后的网页排名。

k.支持者的个数。

步骤3)根据网页间的相似性建立隐含的“链接”关系图；

步骤4)在“链接”关系图上建立高斯随机域模型，利用调和函数进行半监督学习；

步骤5)将步骤4)的模型与其它分类器的分类结果结合，提高分类效果。