CN107423319B - 一种垃圾网页检测方法 - Google Patents

一种垃圾网页检测方法 Download PDF

Info

Publication number
CN107423319B
CN107423319B CN201710198162.4A CN201710198162A CN107423319B CN 107423319 B CN107423319 B CN 107423319B CN 201710198162 A CN201710198162 A CN 201710198162A CN 107423319 B CN107423319 B CN 107423319B
Authority
CN
China
Prior art keywords
web page
data set
ipr
spam
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710198162.4A
Other languages
English (en)
Other versions
CN107423319A (zh
Inventor
张亚平
马舒婕
于瑞国
喻梅
王建荣
孟莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201710198162.4A priority Critical patent/CN107423319B/zh
Publication of CN107423319A publication Critical patent/CN107423319A/zh
Application granted granted Critical
Publication of CN107423319B publication Critical patent/CN107423319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种垃圾网页检测方法,包括以下步骤:一:对数据集进行K‑Means算法,将全部对象n用数据集D存储;二:对数据集D进行IPR计算,并将IPR值按照从高到低顺序进行排序;三:在数据集中选取IPR值最大和最小的网页作为初始的聚类中心C;四:计算数据集D中的xi与cj间的距离dist(xi,cj),并将dist(xi,cj)划分到与之相距最小的中心所处的簇中;五:查看聚集结束时的聚类中心,得到新的cj表达式;六:重复步骤四至步骤六,将目标函数用SSE表示,直到SSE取最小值时算法终止;得到最终聚类结果,以此识别垃圾网页。该方法能够克服传统推荐技术在分配链接权重时忽略网页重要性的缺点,结合个性化网页排序,达到将网页以聚集的形式来检测垃圾网页的目的。

Description

一种垃圾网页检测方法
技术领域
本发明涉及数据挖掘、自然语言处理和信息检索领域,涉及垃圾网页检测技术和对网页进行聚类技术,尤其是一种基于网页权威性的垃圾网页检测方法。
背景技术
目前在相关技术中,推荐技术主要分为两类:第一类推荐技术是基于链接的推荐,如PageRank算法。它的优点在于将权威性通过数值形式表达出来,再对其按照从高到低的顺序排列。正是由于网页质量数值化,所以被广泛应用于发现垃圾网页,形成了很好的网页权威性评判标准。
PageRank算法的缺陷主要表现为两个方面,一方面是其忽视网页内容的相关性。例如:垃圾网页如果采取堆砌关键字等内容作弊的手段来欺骗搜索引擎,此时算法就无法检测到内容作弊的垃圾网页。另一方面是平均分配链接权重,使用这样的分配方式使得网页结果不具有可靠性,并且有失分配公平。
另一类是基于K-Means算法的垃圾网页检测技术。算法的主要思想是选取划分聚集k,并以数据对象与k个中心的距离为评判标准,经过多次聚集将数据对象划分到合适的聚类中。随着数据挖掘的快速发展,此算法可以更好地为管理人员提供决策。
但是基于K-Means算法的垃圾网页检测推荐也有其缺点。其一,初始聚类时k需要提前设定。而往往我们并不能够提前确定需要聚类的数目。其二,初始聚类时中心选取的随机性,可能导致两极分化的聚集效果。其三,噪声点对聚类影响较为严重。其四,反复计算使得方法有较高的时间复杂度。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种基于个性化网页排序(Individuation Page Ranking,IPR)算法和K-Means算法相结合形成基于个性化网页的K-Means聚类(Individuation Page-based K-Means,IPK-Means)的垃圾网页检测方法。该检测方法能够有效克服传统推荐技术在分配链接权重时忽略网页重要性的缺点,结合个性化网页排序,达到将网页以聚集的形式来检测垃圾网页的目的。
其中,IPR算法是针对PageRank算法的缺点提出的一种改进算法。它考虑到个性化网页的特点,将网页依据权威性的差别传递相应的值。拥有较高IPR值的网页,表明其具有较高的权威程度。
本发明的目的是通过以下技术方案实现的:
一种垃圾网页检测方法,基于IPR算法和K-Means算法相结合形成有IPK-Means算法,包括以下步骤:
步骤一:对数据集进行K-Means算法,将全部对象n用数据集D存储;k值起始值为2,分别代表垃圾网页和非垃圾网页;
步骤二:对数据集D进行IPR计算,并将IPR值按照从高到低顺序进行排序;
步骤三:在数据集中选取IPR值最大和最小的网页作为初始的聚类中心C;
步骤四:计算数据集D中的xi与cj间的距离dist(xi,cj),并将dist(xi,cj)划分到与之相距最小的中心所处的簇中;其中xi是一个d维向量,表示第i个数据的d个不同属性;cj表示第j个中心,每个cj含有d个不同属性;
步骤五:查看聚集结束时的聚类中心,得到新的cj表达式;
步骤六:重复步骤四至步骤六,将目标函数用SSE表示,直到SSE取最小值时算法终止;即簇的平方误差取到最小的k个簇,从而得到最终的聚类结果,以此识别垃圾网页。
所述数据集D来源于WEBSPAM-UK2007数据集。
步骤三中,IPR值高的网页,表示该网页权威程度较高,则其属于非垃圾网页的概率增加;反之,其属于非垃圾网页的概率降低。
与现有技术相比,本发明的技术方案所带来的有益效果是:
1.本发明检测方法,为网络中垃圾网页检测推荐技术提供了一种新思路,提出并定义IPK-Means检测方法,通过衡量网页的权威程度,达到将网页以聚集的形式来检测垃圾网页的目的,提高搜索引擎的精确度和效率,保持网络和社会的文化健康。
2.本发明方法克服了PageRank算法的缺点,使挑选的网页在准确程度上更有说服力和代表性。
附图说明
图1是本发明方法的简洁流程示意图。
图2是特征向量个数不同时通过不同算法得到的垃圾网页检测数量示意图。
图3是特征向量个数不同时通过不同算法垃圾网页的召回率示意图。
图4是IPR算法解释的示意图。
具体实施方式
下面结合附图对本发明作进一步的描述:
本发明提供了一种垃圾网页检测方法,如图1所示,为本发明方法的整体流程示意图,包括:
步骤S101:对数据集进行K-Means算法,将全部对象n用数据集D存储,其D表达形式如公式(1)所示。
D={xi|xi=(xi1,xi2,…,xid),i=1,2,…,n} (1)
在公式(1)中,xi=(xi1,xi2,…,xid)是一个d维向量,表示第i个数据的d个不同属性,i是样本容量。本实施例中使用的数据集D源于WEBSPAM-UK2007数据集,特征属性由WebSpam Challenge平台提供,其链接为http://webspam.lip6.fr/wiki/pmwiki.php。
步骤S201:对数据集D进行IPR计算,并将IPR值按照从高到低的顺序进行排序。排序集合R的表达形式如公式(2)所示。
R={IPR(i)|IPR(n)>IPR(n-1)>…>IPR(1),i=1,2,…,n} (2)
在公式(2)中,i代表编号,IPR(i)可以看作其权威值的数学表现形式。
步骤S301:在数据集中选取IPR值最大和最小的网页作为初始的聚类中心C,聚类中心C的表达式如公式(3)所示。
C={cj|cj=(cj1,cj2,…,cjd),j=1,2} (3)
在公式(3)中,cj=(cj1,cj2,…,cjd)表示第j个中心,每个cj含有d个不同属性。
步骤S401:计算D中的xi与cj间的距离,并将其划分到与之相距最小的中心所处的簇中。两个数据对象之间的距离用欧几里德距离dist(xi,cj)表示。dist(xi,cj)的表达式如公式(4)所示。
Figure BDA0001257917480000031
在公式(4)中,xi=(xi1,xi2,…,xid),cj=(cj1,cj2,…,cjd),n是数据集中数据对象的个数。
步骤S501:查看聚集结束的聚类中心,得到新的cj的表达式如公式(5)所示。
Figure BDA0001257917480000032
在公式(5)中,φj表示第j个簇的集合。N(φj)表示第j个簇φj中数据对象的个数,xi=(xi1,xi2,…,xid)。
步骤S601:重复步骤S401至步骤S601,将目标函数用SSE表示,直到SSE取最小值时算法终止。SSE的表达式如公式(6)所示。
Figure BDA0001257917480000041
在公式(6)中,xi=(xi1,xi2,…,xid),cj=(cj1,cj2,…,cjd)。
以下具体实验,通过改变网页的特征向量数为15、35、55、75、95、115、135和139的情况下,测试本发明IPK-Means算法、PK-Means算法、K-Means算法的垃圾网页检测数量和垃圾网页的召回率。其中,PK-Means算法是指基于PageRank算法的常规K-Means聚类。
评估标准如下:检测到的垃圾网页数目为A、检测到的非垃圾网页数目为B、未检测到的垃圾网页数目为C、未检测到的非垃圾网页数目为D。
根据评估标准,召回率的表达形式如公式(7)所示。
Figure BDA0001257917480000042
在公式(7)中,R代表召回率的意思,A代表在检测的结果中被验证为确实是某一属性正确的数量,C代表原本就有的某一属性的数量。
实验结果表明,三种算法随网页的特征数的不同而检测到的垃圾网页数量的变化形式和垃圾网页的召回率有所不同。从图2中可以看到,K-Means算法检测的垃圾网页数量最少,其次是PK-Means算法;当特征向量数大于95时,PK-Means算法检测到的垃圾网页数量相对特征向量数小于95时较少。最终综合比较而言,IPK-Means算法明显好于K-Means算法和PK-Means算法。
从图3中可以看出,K-Means算法的单独使用并不能出色的完成识别垃圾网页的任务,这是由于聚类中心选择造成的。另外,PK-Means算法在识别网页的性能上明显好于K-Means,结果划分更精确。表现最好的算法是IPK-Means,克服了前两种算法。选取的中心更具有代表性,分析效果良好,使挑选的网页在准确程度上更有说服力和代表性。
综合对比分析可知,IPK-Means算法检测垃圾网页的效果最好。
进一步的,以图4对IPR算法的思想进一步说明如下:
IPR算法考虑到个性化网页的特点,将网页依据权威性的差别传递相应的值。基于此思想,网页获得权威值的大小可以由其推荐次数的多少所占的比重来衡量。在图4中,网页B指向A和D,由于两者的权威程度不同,所以B不应该分别向它们传递自身的1/2的权威值,而是根据推荐次数来判断所分得的大小,A推荐了1次,D推荐了2次,推荐次数代表重要性,A获得B的1/(1+2)权威值,D获得B的2/(1+2)权威值。由此,IPR如公式(8)所示。
Figure BDA0001257917480000051
在公式(8)中,N表示全部网页的个数,d代表矩阵,矩阵存储网页在最开始时的值。OUTX表示X向外指向了多少网页,
Figure BDA0001257917480000052
首先统计j向外链接多少个页面,然后再将每个页面的所有链出页面都加起来。
Figure BDA0001257917480000053
表示节点X的链出数在所有Bi指向节点的的链出数所占的比重,节点X也是根据这个比重分得Bi的IPR值。
当分配策略发生改变时,表示互相转移关系概率的矩阵M也随之改变,M如公式(9)所示。
Figure BDA0001257917480000054
在公式(9)中,OUTX是节点j指向的第k个页面的链出数(k=1,2,…,m)。调整后的矩阵中依然满足列元素相加等于1。
从以上的分析中,IPR算法步骤如下。
首先,根据网络中网页之间的链接关系,得到网络中节点的邻接矩阵A,若为无向网络,则A的满足条件如公式(10)所示,若为有向网络,则A的满足条件如公式(11)所示。
若为无向网络,则:
Figure BDA0001257917480000055
若为有向网络,则:
Figure BDA0001257917480000056
然后根据A计算M,最终M如公式(12)所示。
Figure BDA0001257917480000057
然后,设置网络中每一个节点的初始值,并且满足初始值之和为1。
利用初始的IPR值和转移概率矩阵M,可以计算下一时刻的各节点IPR值,这样依次迭代,直到系统收敛。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

Claims (3)

1.一种垃圾网页检测方法,其特征在于,基于IPR算法和K-Means算法相结合形成有IPK-Means算法,包括以下步骤:
步骤一:对数据集进行K-Means算法,将全部对象n用数据集D存储;k值起始值为2,分别代表垃圾网页和非垃圾网页;
步骤二:对数据集D进行IPR计算,并将IPR值按照从高到低顺序进行排序,
IPR计算如下式所示
Figure FDA0002388084680000011
在上式中,N表示全部网页的个数,d代表矩阵,Bi为检测到的非垃圾网页数目;矩阵存储网页在最开始时的值;OUTX表示X向外指向了多少网页,
Figure FDA0002388084680000012
首先统计Bi向外链接多少个页面,然后再将每个页面的所有链出页面都加起来;
Figure FDA0002388084680000013
表示节点X的链出数在所有Bi指向节点的的链出数所占的比重,节点X也是根据这个比重分得Bi的IPR值;
步骤三:在数据集中选取IPR值最大和最小的网页作为初始的聚类中心C;
步骤四:计算数据集D中的xi与cj间的距离dist(xi,cj),并将dist(xi,cj)划分到与之相距最小的中心所处的簇中;其中xi是一个d维向量,表示第i个数据的d个不同属性;cj表示第j个中心,每个cj含有d个不同属性;
步骤五:查看聚集结束时的聚类中心,得到新的cj表达式;
步骤六:重复步骤四至步骤六,将目标函数用SSE表示,直到SSE取最小值时算法终止;即簇的平方误差取到最小的k个簇,从而得到最终的聚类结果,以此识别垃圾网页。
2.根据权利要求1所述一种垃圾网页检测方法,其特征在于,所述数据集D来源于WEBSPAM-UK2007数据集。
3.根据权利要求1所述一种垃圾网页检测方法,其特征在于,步骤三中,IPR值高的网页,表示该网页权威程度较高,则其属于非垃圾网页的概率增加;反之,其属于非垃圾网页的概率降低。
CN201710198162.4A 2017-03-29 2017-03-29 一种垃圾网页检测方法 Active CN107423319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710198162.4A CN107423319B (zh) 2017-03-29 2017-03-29 一种垃圾网页检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710198162.4A CN107423319B (zh) 2017-03-29 2017-03-29 一种垃圾网页检测方法

Publications (2)

Publication Number Publication Date
CN107423319A CN107423319A (zh) 2017-12-01
CN107423319B true CN107423319B (zh) 2020-07-03

Family

ID=60423163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710198162.4A Active CN107423319B (zh) 2017-03-29 2017-03-29 一种垃圾网页检测方法

Country Status (1)

Country Link
CN (1) CN107423319B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984630B (zh) * 2018-06-20 2021-08-24 天津大学 复杂网络中节点重要性在垃圾网页检测中的应用方法
CN109902236B (zh) * 2019-03-07 2021-06-11 成都数之联科技有限公司 一种基于非概率模型的垃圾网页降级方法
CN117473353A (zh) * 2023-10-26 2024-01-30 兰州交通大学 一种基于PageRank的改进K-means算法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393555A (zh) * 2008-09-09 2009-03-25 浙江大学 一种垃圾博客检测方法
CN103853744A (zh) * 2012-11-29 2014-06-11 中国科学院计算机网络信息中心 一种面向用户生成内容的欺骗性垃圾意见检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147669A1 (en) * 2006-12-14 2008-06-19 Microsoft Corporation Detecting web spam from changes to links of web sites
US20130304742A1 (en) * 2012-03-12 2013-11-14 Los Alamos National Security, Llc Hardware-accelerated context-sensitive filtering

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393555A (zh) * 2008-09-09 2009-03-25 浙江大学 一种垃圾博客检测方法
CN103853744A (zh) * 2012-11-29 2014-06-11 中国科学院计算机网络信息中心 一种面向用户生成内容的欺骗性垃圾意见检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于K-means聚类算法和信息熵的页面排序算法研究;黄贤英,等.;《计算机工程与设计》;20130531;第34卷(第5期);第1695-1700页 *
基于PageRank算法的权威值不均衡分配问题;田甜,等.;《计算机工程》;20070930;第33卷(第18期);第53-55页 *

Also Published As

Publication number Publication date
CN107423319A (zh) 2017-12-01

Similar Documents

Publication Publication Date Title
CN107944485B (zh) 基于聚类群组发现的推荐系统及方法、个性化推荐系统
CN105224872A (zh) 一种基于神经网络聚类的用户异常行为检测方法
CN113807422B (zh) 融合多特征信息的加权图卷积神经网络评分预测模型
CN110866030A (zh) 一种基于无监督学习的数据库异常访问检测方法
CN110991474A (zh) 一种机器学习建模平台
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
CN107423319B (zh) 一种垃圾网页检测方法
CN108322428A (zh) 一种异常访问检测方法及设备
CN113568368B (zh) 一种工控数据特征重排序算法的自适应确定方法
CN112162977A (zh) 一种面向mes的海量数据去冗余方法和系统
Huang et al. Weighting method for feature selection in k-means
CN114116829A (zh) 异常数据分析方法、异常数据分析系统和存储介质
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
Rahman et al. Seed-Detective: A Novel Clustering Technique Using High Quality Seed for K-Means on Categorical and Numerical Attributes.
CN103455491B (zh) 对查询词分类的方法及装置
CN109977131A (zh) 一种房型匹配系统
CN114417095A (zh) 一种数据集划分方法及装置
Diao et al. Clustering by Detecting Density Peaks and Assigning Points by Similarity‐First Search Based on Weighted K‐Nearest Neighbors Graph
CN111612531B (zh) 一种点击欺诈的检测方法及系统
CN109284409A (zh) 基于大规模街景数据的图片组地理定位方法
CN117478390A (zh) 一种基于改进密度峰值聚类算法的网络入侵检测方法
CN108280548A (zh) 基于网络传输的智能处理方法
CN111914930A (zh) 一种基于自适应微簇融合的密度峰值聚类方法
CN108984630B (zh) 复杂网络中节点重要性在垃圾网页检测中的应用方法
CN116702132A (zh) 网络入侵检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant