CN107423319B

CN107423319B - 一种垃圾网页检测方法

Info

Publication number: CN107423319B
Application number: CN201710198162.4A
Authority: CN
Inventors: 张亚平; 马舒婕; 于瑞国; 喻梅; 王建荣; 孟莹
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-03-29
Filing date: 2017-03-29
Publication date: 2020-07-03
Anticipated expiration: 2037-03-29
Also published as: CN107423319A

Abstract

本发明公开了一种垃圾网页检测方法，包括以下步骤：一：对数据集进行K‑Means算法，将全部对象n用数据集D存储；二：对数据集D进行IPR计算，并将IPR值按照从高到低顺序进行排序；三：在数据集中选取IPR值最大和最小的网页作为初始的聚类中心C；四：计算数据集D中的x_i与c_j间的距离dist(x_i,c_j)，并将dist(x_i,c_j)划分到与之相距最小的中心所处的簇中；五：查看聚集结束时的聚类中心，得到新的c_j表达式；六：重复步骤四至步骤六，将目标函数用SSE表示，直到SSE取最小值时算法终止；得到最终聚类结果，以此识别垃圾网页。该方法能够克服传统推荐技术在分配链接权重时忽略网页重要性的缺点，结合个性化网页排序，达到将网页以聚集的形式来检测垃圾网页的目的。

Description

一种垃圾网页检测方法

技术领域

本发明涉及数据挖掘、自然语言处理和信息检索领域，涉及垃圾网页检测技术和对网页进行聚类技术，尤其是一种基于网页权威性的垃圾网页检测方法。

背景技术

目前在相关技术中，推荐技术主要分为两类：第一类推荐技术是基于链接的推荐，如PageRank算法。它的优点在于将权威性通过数值形式表达出来，再对其按照从高到低的顺序排列。正是由于网页质量数值化，所以被广泛应用于发现垃圾网页，形成了很好的网页权威性评判标准。

PageRank算法的缺陷主要表现为两个方面，一方面是其忽视网页内容的相关性。例如：垃圾网页如果采取堆砌关键字等内容作弊的手段来欺骗搜索引擎，此时算法就无法检测到内容作弊的垃圾网页。另一方面是平均分配链接权重，使用这样的分配方式使得网页结果不具有可靠性，并且有失分配公平。

另一类是基于K-Means算法的垃圾网页检测技术。算法的主要思想是选取划分聚集k，并以数据对象与k个中心的距离为评判标准，经过多次聚集将数据对象划分到合适的聚类中。随着数据挖掘的快速发展，此算法可以更好地为管理人员提供决策。

但是基于K-Means算法的垃圾网页检测推荐也有其缺点。其一，初始聚类时k需要提前设定。而往往我们并不能够提前确定需要聚类的数目。其二，初始聚类时中心选取的随机性，可能导致两极分化的聚集效果。其三，噪声点对聚类影响较为严重。其四，反复计算使得方法有较高的时间复杂度。

发明内容

本发明的目的是为了克服现有技术中的不足，提供一种基于个性化网页排序(Individuation Page Ranking,IPR)算法和K-Means算法相结合形成基于个性化网页的K-Means聚类(Individuation Page-based K-Means,IPK-Means)的垃圾网页检测方法。该检测方法能够有效克服传统推荐技术在分配链接权重时忽略网页重要性的缺点，结合个性化网页排序，达到将网页以聚集的形式来检测垃圾网页的目的。

其中，IPR算法是针对PageRank算法的缺点提出的一种改进算法。它考虑到个性化网页的特点，将网页依据权威性的差别传递相应的值。拥有较高IPR值的网页，表明其具有较高的权威程度。

本发明的目的是通过以下技术方案实现的：

一种垃圾网页检测方法，基于IPR算法和K-Means算法相结合形成有IPK-Means算法，包括以下步骤：

步骤一：对数据集进行K-Means算法，将全部对象n用数据集D存储；k值起始值为2，分别代表垃圾网页和非垃圾网页；

步骤二：对数据集D进行IPR计算，并将IPR值按照从高到低顺序进行排序；

步骤三：在数据集中选取IPR值最大和最小的网页作为初始的聚类中心C；

步骤四：计算数据集D中的x_i与c_j间的距离dist(x_i,c_j)，并将dist(x_i,c_j)划分到与之相距最小的中心所处的簇中；其中x_i是一个d维向量，表示第i个数据的d个不同属性；c_j表示第j个中心，每个c_j含有d个不同属性；

步骤五：查看聚集结束时的聚类中心，得到新的c_j表达式；

步骤六：重复步骤四至步骤六，将目标函数用SSE表示，直到SSE取最小值时算法终止；即簇的平方误差取到最小的k个簇，从而得到最终的聚类结果，以此识别垃圾网页。

所述数据集D来源于WEBSPAM-UK2007数据集。

步骤三中，IPR值高的网页，表示该网页权威程度较高，则其属于非垃圾网页的概率增加；反之，其属于非垃圾网页的概率降低。

与现有技术相比，本发明的技术方案所带来的有益效果是：

1.本发明检测方法，为网络中垃圾网页检测推荐技术提供了一种新思路，提出并定义IPK-Means检测方法，通过衡量网页的权威程度，达到将网页以聚集的形式来检测垃圾网页的目的，提高搜索引擎的精确度和效率，保持网络和社会的文化健康。

2.本发明方法克服了PageRank算法的缺点，使挑选的网页在准确程度上更有说服力和代表性。

附图说明

图1是本发明方法的简洁流程示意图。

图2是特征向量个数不同时通过不同算法得到的垃圾网页检测数量示意图。

图3是特征向量个数不同时通过不同算法垃圾网页的召回率示意图。

图4是IPR算法解释的示意图。

具体实施方式

下面结合附图对本发明作进一步的描述：

本发明提供了一种垃圾网页检测方法，如图1所示，为本发明方法的整体流程示意图，包括：

步骤S101：对数据集进行K-Means算法，将全部对象n用数据集D存储，其D表达形式如公式(1)所示。

D＝{x_i|x_i＝(x_i1,x_i2,…,x_id),i＝1,2,…,n} (1)

在公式(1)中，x_i＝(x_i1,x_i2,…,x_id)是一个d维向量，表示第i个数据的d个不同属性，i是样本容量。本实施例中使用的数据集D源于WEBSPAM-UK2007数据集，特征属性由WebSpam Challenge平台提供，其链接为http://webspam.lip6.fr/wiki/pmwiki.php。

步骤S201：对数据集D进行IPR计算，并将IPR值按照从高到低的顺序进行排序。排序集合R的表达形式如公式(2)所示。

R＝{IPR(i)|IPR(n)>IPR(n-1)>…>IPR(1),i＝1,2,…,n} (2)

在公式(2)中，i代表编号，IPR(i)可以看作其权威值的数学表现形式。

步骤S301：在数据集中选取IPR值最大和最小的网页作为初始的聚类中心C，聚类中心C的表达式如公式(3)所示。

C＝{c_j|c_j＝(c_j1,c_j2,…,c_jd),j＝1,2} (3)

在公式(3)中，c_j＝(c_j1,c_j2,…,c_jd)表示第j个中心，每个c_j含有d个不同属性。

步骤S401：计算D中的x_i与c_j间的距离，并将其划分到与之相距最小的中心所处的簇中。两个数据对象之间的距离用欧几里德距离dist(x_i,c_j)表示。dist(x_i,c_j)的表达式如公式(4)所示。

在公式(4)中，x_i＝(x_i1,x_i2,…,x_id)，c_j＝(c_j1,c_j2,…,c_jd)，n是数据集中数据对象的个数。

步骤S501：查看聚集结束的聚类中心，得到新的c_j的表达式如公式(5)所示。

在公式(5)中，φ_j表示第j个簇的集合。N(φ_j)表示第j个簇φ_j中数据对象的个数，x_i＝(x_i1,x_i2,…,x_id)。

步骤S601：重复步骤S401至步骤S601，将目标函数用SSE表示，直到SSE取最小值时算法终止。SSE的表达式如公式(6)所示。

在公式(6)中，x_i＝(x_i1,x_i2,…,x_id)，c_j＝(c_j1,c_j2,…,c_jd)。

以下具体实验，通过改变网页的特征向量数为15、35、55、75、95、115、135和139的情况下，测试本发明IPK-Means算法、PK-Means算法、K-Means算法的垃圾网页检测数量和垃圾网页的召回率。其中，PK-Means算法是指基于PageRank算法的常规K-Means聚类。

评估标准如下：检测到的垃圾网页数目为A、检测到的非垃圾网页数目为B、未检测到的垃圾网页数目为C、未检测到的非垃圾网页数目为D。

根据评估标准，召回率的表达形式如公式(7)所示。

在公式(7)中，R代表召回率的意思，A代表在检测的结果中被验证为确实是某一属性正确的数量，C代表原本就有的某一属性的数量。

实验结果表明，三种算法随网页的特征数的不同而检测到的垃圾网页数量的变化形式和垃圾网页的召回率有所不同。从图2中可以看到，K-Means算法检测的垃圾网页数量最少，其次是PK-Means算法；当特征向量数大于95时，PK-Means算法检测到的垃圾网页数量相对特征向量数小于95时较少。最终综合比较而言，IPK-Means算法明显好于K-Means算法和PK-Means算法。

从图3中可以看出，K-Means算法的单独使用并不能出色的完成识别垃圾网页的任务，这是由于聚类中心选择造成的。另外，PK-Means算法在识别网页的性能上明显好于K-Means，结果划分更精确。表现最好的算法是IPK-Means，克服了前两种算法。选取的中心更具有代表性，分析效果良好，使挑选的网页在准确程度上更有说服力和代表性。

综合对比分析可知，IPK-Means算法检测垃圾网页的效果最好。

进一步的，以图4对IPR算法的思想进一步说明如下：

IPR算法考虑到个性化网页的特点，将网页依据权威性的差别传递相应的值。基于此思想，网页获得权威值的大小可以由其推荐次数的多少所占的比重来衡量。在图4中，网页B指向A和D，由于两者的权威程度不同，所以B不应该分别向它们传递自身的1/2的权威值，而是根据推荐次数来判断所分得的大小，A推荐了1次，D推荐了2次，推荐次数代表重要性，A获得B的1/(1+2)权威值，D获得B的2/(1+2)权威值。由此，IPR如公式(8)所示。

在公式(8)中，N表示全部网页的个数，d代表矩阵，矩阵存储网页在最开始时的值。OUT_X表示X向外指向了多少网页，

首先统计_j向外链接多少个页面，然后再将每个页面的所有链出页面都加起来。

表示节点X的链出数在所有B_i指向节点的的链出数所占的比重，节点X也是根据这个比重分得B_i的IPR值。

当分配策略发生改变时，表示互相转移关系概率的矩阵M也随之改变，M如公式(9)所示。

在公式(9)中，OUT_X是节点j指向的第k个页面的链出数(k＝1,2,…,m)。调整后的矩阵中依然满足列元素相加等于1。

从以上的分析中，IPR算法步骤如下。

首先，根据网络中网页之间的链接关系，得到网络中节点的邻接矩阵A，若为无向网络，则A的满足条件如公式(10)所示，若为有向网络，则A的满足条件如公式(11)所示。

若为无向网络，则：

若为有向网络，则：

然后根据A计算M，最终M如公式(12)所示。

然后，设置网络中每一个节点的初始值，并且满足初始值之和为1。

利用初始的IPR值和转移概率矩阵M，可以计算下一时刻的各节点IPR值，这样依次迭代，直到系统收敛。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。