CN105183784A

CN105183784A - 一种基于内容的垃圾网页检测方法及其检测装置

Info

Publication number: CN105183784A
Application number: CN201510502698.1A
Authority: CN
Inventors: 喻梅; 孟莹; 于瑞国; 周静; 雷霆; 田逸尘
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2015-08-14
Filing date: 2015-08-14
Publication date: 2015-12-23
Anticipated expiration: 2035-08-14
Also published as: CN105183784B

Abstract

本发明公开了一种基于内容的垃圾网页检测方法及其检测装置，方法包括：计算所有网页与种子垃圾网页的内容最大相似度值，生成相似度集合；利用PageRank算法对所有网页进行降序排序；基于排序结果，从相似度集合中查寻网页与种子垃圾网页间的内容相似度值；比较相似度值与相似度阈值，对网页进行检测，并将检测出的垃圾网页加入到垃圾网页集合中。装置包括：生成模块、排序模块、查询模块和检测模块，通过这些模块，本发明在传统的PageRank算法基础上加入对网页内容相似度的判定，把网页的链接与内容结合起来，对垃圾网页进行检测，以此提高了垃圾网页检测的准确度和效率。

Description

一种基于内容的垃圾网页检测方法及其检测装置

技术领域

本发明涉及数据挖掘、文本挖掘和搜索引擎领域，尤其涉及一种基于内容的垃圾网页检测方法及其检测装置。

背景技术

页面排序算法可用于对垃圾网页的检测。其中的网页等级(PageRank)是Google用于标识网页的等级/重要性的一种方法，是Google用来衡量一个网站好坏的唯一标准。

PageRank的计算基于以下两个基本假设：

数量假设：在网络图模型中，如果一个页面节点接收到的其他网页指向的入链数量越多，那么这个页面越重要。

质量假设：指向页面A的入链质量不同，质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A，则页面A越重要。

所以PageRank实现了将链接价值概念作为网页排名的因素。

PageRank的计算步骤可分为如下两个：

在初始阶段：网页通过链接关系构建起网络图，每个页面设置相同的PageRank值，通过若干轮的计算，会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行，网页当前的PageRank值会不断得到更新。

在一轮中更新页面PageRank得分的计算方法：在一轮更新页面PageRank得分的计算中，每个页面将其当前的PageRank值平均分配到本页面包含的出链上，这样每个链接即获得了相应的权值。而每个页面将所有指向本页面的入链所传入的权值求和，即可得到新的PageRank得分。当每个页面都获得了更新后的PageRank值，就完成了一轮PageRank计算。

PageRank的缺陷在于它单纯地根据一个网页上被链接的站点数量和质量来给该网页分配一个绝对的“重要性”值。即若一个网页的链入网页数越多且其等级越高，则传递给此网页的页面等级值也将会越高。由此可以看出，PageRank算法只考虑了网页之间的链接而忽略了网页的内容与主题间的相关性，所以即使一个网页的内容与主题的相关性较低，也会因为此网页的PageRank值较大而获得较高的排名，从而影响了搜索结果的相关性与准确性。

发明内容

本发明提供了一种基于内容的垃圾网页检测方法及其检测装置，本发明能够有效克服PageRank算法在检测垃圾网页时只考虑研究垃圾网页之间链接的关系，忽略了网页内容关系的问题，详见下文描述：

一种基于内容的垃圾网页检测方法，所述垃圾网页检测方法包括以下步骤：

计算所有网页与种子垃圾网页的内容最大相似度值，生成相似度集合；

利用PageRank算法对所有网页进行降序排序；

基于排序结果，从相似度集合中查寻网页与种子垃圾网页间的内容相似度值；

比较相似度值与相似度阈值，对网页进行检测，并将检测出的垃圾网页加入到垃圾网页集合中。

其中，所述计算所有网页与种子垃圾网页的内容最大相似度值，生成相似度集合的步骤具体为：

采用统计的方法对所有网页进行特征提取，然后利用向量空间模型将提取出的特征组成向量；

采用基于向量空间的余弦相似度方法计算所有网页与种子垃圾网页内容间的相似性，选取最大相似度值；

由最大相似度值组成相似度集合。

其中，所述比较相似度值与相似度阈值，对网页进行检测，并将检测出的垃圾网页加入到垃圾网页集合中的步骤具体为：

若某一网页与种子垃圾网页内容的相似度值大于相似度阈值，则认定网页为垃圾网页，并将网页加入到垃圾网页集合中。

其中，所述方法还包括：挑选若干个垃圾网页作为种子垃圾网页。

其中，所述方法还包括：

设置垃圾网页集合的最大容量，重复进行查询，直至达到最大容量，流程结束。

一种基于内容的垃圾网页检测装置，所述垃圾网页检测装置包括：

生成模块，用于计算所有网页与种子垃圾网页的内容最大相似度值，生成相似度集合；

排序模块，用于利用PageRank算法对所有网页进行降序排序；

查询模块，用于基于排序结果，从相似度集合中查寻网页与种子垃圾网页间的内容相似度值；

检测模块，用于比较相似度值与相似度阈值，对网页进行检测，并将检测出的垃圾网页加入到垃圾网页集合中。

所述生成模块包括：

提取子模块，用于采用统计的方法对所有网页进行特征提取，然后利用向量空间模型将提取出的特征组成向量；

选取模块，用于采用基于向量空间的余弦相似度方法计算所有网页与种子垃圾网页内容间的相似性，选取最大相似度值；

组成模块，用于由最大相似度值组成相似度集合。

所述检测模块包括：

检测子模块，用于若某一网页与种子垃圾网页内容的相似度值大于相似度阈值，则认定网页为垃圾网页，并将网页加入到垃圾网页集合中。

所述装置还包括：

挑选模块，用于挑选若干个垃圾网页作为种子垃圾网页。

本发明提供的技术方案的有益效果是：本发明为垃圾网页的检测提供了一种新思路，鉴于传统的PageRank算法只考虑了网页之间的链接，本发明在传统的PageRank算法基础上加入了对网页内容相似度的判定，把网页间的链接与内容结合起来，从链接的角度提高了网页的重要性，从内容的角度提高了网页的相关性。首先，它提高了垃圾网页检测的准确度和效率。其次，它方便了用户的查询，并且降低了引擎服务商的运营成本。最后，它减少了数据库的存储空间，提高了数据库的存储利用率。实验结果表明，加入相似度计算后，实验效果要优于PageRank算法，验证了本发明的可行性。

附图说明

图1为一种基于内容的垃圾网页检测方法的流程图；

图2为不同相似度阈值s时检测出的垃圾网页数量值随s值变化的示意图；

图3为PageRank算法和本方法的垃圾网页召回率比较的示意图；

图4为一种基于内容的垃圾网页检测装置的结构示意图；

图5为生成模块的示意图；

图6为检测模块的示意图；

图7为一种基于内容的垃圾网页检测装置的另一结构示意图。

附图中，各标号所代表的部件列表如下：

1：生成模块；2：排序模块；

3：查询模块；4：检测模块；

5：挑选模块；11：提取子模块；

12：选取模块；13：组成模块；

41：检测子模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于内容的垃圾网页检测方法，参见图1，该垃圾网页检测方法包括以下步骤：

101：挑选出若干个垃圾网页作为种子垃圾网页；

假设总共有N个网页，其中已被标记出的垃圾网页有x个，存放在集合X中。从集合X中随机挑选出m个垃圾网页作为样本集合M，用M来表示种子垃圾网页。

102：计算所有网页与种子垃圾网页的内容最大相似度值，生成相似度集合S；

首先采用统计的方法对所有网页进行特征提取，然后利用VSM把提取出的特征组成向量。最后采用基于向量空间的余弦相似度方法计算所有网页与种子垃圾网页内容间的相似性。

103：利用PageRank算法对所有网页进行排序；并将排序后的网页设为排序集合R；

104：基于排序结果，从相似度集合中查寻网页与种子垃圾网页间的内容相似度值；

从排序集合R中，以倒序的方式查找每一个网页q∈R在相似度集合S中对应的相似度值t。与此同时，为网页设置相似度阈值s。

105：通过比较相似度值与相似度阈值，对网页进行检测，并将检测出的垃圾网页加入到垃圾网页集合W中，重复执行步骤104，直至垃圾网页集合达到最大容量，流程结束。

若该网页与种子垃圾网页内容的相似度值t大于相似度阈值s，则认定该网页为垃圾网页，并将该网页加入到垃圾网页集合W中。否则，反之。并为垃圾网页集合W设置最大容量。

综上所述，本发明实施例通过上述步骤101-步骤105在传统的PageRank算法基础上加入对网页内容相似度的判定，把网页的链接与内容结合起来，对垃圾网页进行检测，以此提高了垃圾网页检测的准确度和效率。

实施例2

下面结合具体的计算公式、例子对实施例1中的方案进行详细说明，详见下文描述：

201：挑选出若干个垃圾网页作为种子垃圾网页；

其中，垃圾网页是指存在着一种包含恶意内容或是无价值内容的网页。本发明实施例选取作为种子的垃圾网页的过程为：设总共有N个网页，其中已被标记出的垃圾网页有x个，存放在集合X中。从集合X中随机挑选m个垃圾网页作为样本集合M，用M来表示种子垃圾网页。

202：采用统计的方法对网页进行特征提取，然后利用VSM将提取出的特征组成特征向量；

本发明实施例的创新点在于基于传统的PageRank算法上，加入与垃圾网页的内容相似度的计算。

首先采用统计的方法对所有网页进行特征提取，本发明实施例中采用最常用的TF-IDF词频统计算法。TF表示词频，指的是某一个给定的词语在该文件中出现的频率，这个可以被正规化，以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。)对于在某一特定文件里的词语t_i来说，它的重要性如公式(1)所示：

{tf}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k, j}} - - - (1)

以上式子中，tf_i,j为词频，表示词语t_i在文件d_j中出现的频率；n_i,j是该词在文件d_j中的出现次数，而分母表示在文件d_j中所有字词出现的次数之和，其中n_k,j表示为任一词语在文件d_j中出现的次数。

IDF是逆向文件频率，表示一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的书名，再将得到的商取对数得到，IDF的计算公式如(2)所示：

{idf}_{i} = l o g \frac{| D |}{| {j : t_{i} &Element; d_{j}} |} - - - (2)

在公式(2)中，idf_i表示为词语t_i在整个文件中的频率；|D|表示语料库中的文件总数；|{j:t_i∈d_j}|表示包含词语t_i的文件书目(即n_i,j≠0的文件书目)，如果该词语不在语料库中，就会导致除数为零。因此一般情况下使用1+|{j:t_i∈d_j}|。

综合公式(1)和(2)，得到TF—IDF表达式，如公式(3)所示：

(tf-idf)_i,j＝tf_i,j×idf_i(3)

其中，(tf-idf)_i,j表示词语t_i与文件d_j的相关性。因此利用TF—IDF方法即可将网页中的关键词、链接数量，可读文本等特征提取出来。

VSM概念简单，把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂。特征向量表达式如公式(4)所示：

V_n＝(n,d₁,d₂,d₃......d_i)(4)

其中：n代表网页编号，d_i代表特征项。

203：通过特征向量计算所有网页与种子垃圾网页的内容相似度；

当文档被标示为文档空间的向量时，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离，所以本发明采用基于向量空间的余弦相似度方法。余弦相似度，又称余弦相似性。它是通过计算两个向量的夹角余弦值来评估他们的相似度。

将特征向量加入到相似度计算公式，计算网页与种子垃圾网页内容的相似度，如公式(5)所示：

S i m (D_{1}, D_{2}) = \cos θ = \frac{Σ_{k = 1}^{m} V_{1 k} \times V_{2 k}}{\sqrt{(Σ_{k = 1}^{m} V_{1 k}^{2}) (Σ_{k = 1}^{m} V_{2 k}^{2})}} - - - (5)

其中，D₁和D₂表示两个网页；V_1k与V_2k分别表示网页1和2的特征向量中第k个特征；m为网页的总的特征数。

204：选取每一个网页与种子垃圾网页内容的最大的相似度值，生成相似度集合S；

205：采用PageRank算法对网页进行降序排序；基于排序结果查询网页与种子垃圾网页间的内容相似度并设定相似度阈值；

对网页进行排序时，本发明实施例采用了PageRank算法对网页进行降序排序，由于PageRank值体现了网页的重要性，即PageRank值越大，网页越重要。所以PageRank算法可以通过计算每一个网页的PageRank值，然后根据这个值的大小对网页的重要性进行排序。

网页的重要性即网页的等级一般是由该网页的链入网页的数量和链入网页的PageRank值，以及链入网页的链出数量决定。PageRank的计算公式如(6)所示：

P R (A) = \frac{1 - d}{N} + d \underset{X &Element; M (A)}{Σ} \frac{P R (X)}{L (X)} - - - (6)

公式中，PR(X)代表链接到网页A的网页X的PageRank值，L(X)代表网页X的出链数量，M(A)代表链接到网页A的所有网页的集合。d为一个调节参数，用于当网页A没有入链时，给网页A赋予一个的PageRank值。

同时，为每个网页设置一个相似度阈值s。

206：通过比较相似度值与相似度阈值，检测垃圾网页，并将检测出的垃圾网页加入到垃圾网页集合W中；

其中，PageRank值越小，网页重要性越低，即它越有可能是垃圾网页，所以本发明实施例以倒序方式查询网页与种子垃圾网页内容的相似度值。由于在步骤203中，已计算出所有网页与种子垃圾网页内容的相似度值，并将相似度最大的值放入相似度集合S中，所以本步骤只需在相似度集合S中查询该网页相应的相似度值t即可。

由于相似度阈值是判断垃圾网页的门槛，通过比较t与s的大小可预测垃圾网页。若t>s，则认定该网页为垃圾网页，并将该网页加入到垃圾网页集合W中。为垃圾网页集合W设置最大容量。

207：判断垃圾网页集合W是否达到最大值，若W未达到最大值，则需通过重复步骤206，来继续查询网页是否为垃圾网页，直至集合W满为止；待垃圾网页集合W达到设置的最大值时，流程结束。

综上所述，本发明实施例通过上述步骤201-步骤207在传统的PageRank算法基础上加入对网页内容相似度的判定，把网页的链接与内容结合起来，对垃圾网页进行检测，以此提高了垃圾网页检测的准确度和效率。

实施例3

下面结合具体的实例，对实施例1和2中的方案进行可行性验证，详见下文描述：

本发明实施例采取召回率来对实验结果进行评测，即用检测出的垃圾网页与已标记的垃圾网页集合的交集，在已标记的垃圾网页集合中所占的比率来表示召回率。

在计算实验结果时，检测垃圾网页集合的容量设定为20000个网页。相似度的阈值s分别被设为0.91，0.93，0.95，0.97和0.99五个值来对召回率进行监控。

本方法的实验结果与传统的PageRank结果进行对比，发现本方法(Sim-PageRank)检测出的垃圾网页数量和召回率要高于传统PageRank算法，当相似度的阈值s取0.91时，检测出的垃圾网页数量和召回率与传统PageRank算法的检测相差最小。此时，两者检测出的垃圾网页数量相差11，召回率相差3.34％。当阈值取0.99时，两者检测出垃圾网页数量和召回率相差最大，其中检测出的垃圾网页数量相差22，召回率相差6.68％。

在图2中，随着相似度阈值s从0.91逐渐增大至0.99，检测出的垃圾网页数量呈递增趋势，在s＝0.91时，两者差值最小，在s＝0.99时，两者差值达到最大。在图3中，可以看出本方法明显优于PageRank算法。

即，通过实验结果表明，加入相似度计算后，本方法实验效果要优于传统PageRank算法。

实施例4

一种基于内容的垃圾网页检测装置，参见图4，该垃圾网页检测装置包括：

生成模块1，用于计算所有网页与种子垃圾网页的内容最大相似度值，生成相似度集合；

排序模块2，用于利用PageRank算法对所有网页进行降序排序；

查询模块3，用于基于排序结果，从相似度集合中查寻网页与种子垃圾网页间的内容相似度值；

检测模块4，用于比较相似度值与相似度阈值，对网页进行检测，并将检测出的垃圾网页加入到垃圾网页集合中。

其中，参见图5，生成模块1包括：

提取子模块11，用于采用统计的方法对所有网页进行特征提取，然后利用向量空间模型将提取出的特征组成向量；

选取模块12，用于采用基于向量空间的余弦相似度方法计算所有网页与种子垃圾网页内容间的相似性，选取最大相似度值；

组成模块13，用于由最大相似度值组成相似度集合。

其中，参见图6，检测模块4包括：

检测子模块41，用于若某一网页与种子垃圾网页内容的相似度值大于相似度阈值，则认定网页为垃圾网页，并将网页加入到垃圾网页集合中。

其中，参见图7，该检测装置还包括：

挑选模块5，用于挑选若干个垃圾网页作为种子垃圾网页。

本发明实施例对上述模块、子模块的执行主体不做限制，能实现上述功能的器件均可，例如：单片机、PC机等。

综上所述，本发明实施例通过上述的模块、子模块，提高了垃圾网页检测的准确度和效率。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于内容的垃圾网页检测方法，其特征在于，所述垃圾网页检测方法包括以下步骤：

利用PageRank算法对所有网页进行降序排序；

2.根据权利要求1所述的一种基于内容的垃圾网页检测方法，其特征在于，所述计算所有网页与种子垃圾网页的内容最大相似度值，生成相似度集合的步骤具体为：

由最大相似度值组成相似度集合。

3.根据权利要求1或2所述的一种基于内容的垃圾网页检测方法，其特征在于，所述比较相似度值与相似度阈值，对网页进行检测，并将检测出的垃圾网页加入到垃圾网页集合中的步骤具体为：

4.根据权利要求1至3中任一权利要求所述的一种基于内容的垃圾网页检测方法，其特征在于，所述方法还包括：

挑选若干个垃圾网页作为种子垃圾网页。

5.根据权利要求1至3中任一权利要求所述的一种基于内容的垃圾网页检测方法，其特征在于，所述方法还包括：

6.一种基于内容的垃圾网页检测装置，其特征在于，所述垃圾网页检测装置包括：

排序模块，用于利用PageRank算法对所有网页进行降序排序；

7.根据权利要求6所述的一种基于内容的垃圾网页检测装置，其特征在于，所述生成模块包括：

组成模块，用于由最大相似度值组成相似度集合。

8.根据权利要求6所述的一种基于内容的垃圾网页检测装置，其特征在于，所述检测模块包括：

9.根据权利要求6-8中任一权利要求所述的一种基于内容的垃圾网页检测装置，其特征在于，所述装置还包括：

挑选模块，用于挑选若干个垃圾网页作为种子垃圾网页。