CN102750345A - 通过网页多视图数据关联组合识别垃圾网页的方法 - Google Patents

通过网页多视图数据关联组合识别垃圾网页的方法 Download PDF

Info

Publication number
CN102750345A
CN102750345A CN2012101870987A CN201210187098A CN102750345A CN 102750345 A CN102750345 A CN 102750345A CN 2012101870987 A CN2012101870987 A CN 2012101870987A CN 201210187098 A CN201210187098 A CN 201210187098A CN 102750345 A CN102750345 A CN 102750345A
Authority
CN
China
Prior art keywords
webpage
matrix
web pages
view
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101870987A
Other languages
English (en)
Other versions
CN102750345B (zh
Inventor
张化祥
高爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201210187098.7A priority Critical patent/CN102750345B/zh
Publication of CN102750345A publication Critical patent/CN102750345A/zh
Application granted granted Critical
Publication of CN102750345B publication Critical patent/CN102750345B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种通过网页多视图数据关联组合识别垃圾网页的方法。它首先提取已标记网页的内容特征数据及超链接特征数据,分别称为内容视图及链接视图,并表示为已标记网页的内容矩阵和链接矩阵;利用典型相关分析及其相关改进方法,获取内容视图及链接视图的最大相关投影矩阵;提取未标记网页的内容矩阵及链接矩阵;利用最大相关投影矩阵生成网页新的内容矩阵及链接矩阵;采用不同的组合方式,生成网页单视图数据;用已标记网页单视图数据训练分类器,将未标记网页识别为正常网页或垃圾网页。本发明解决了如何处理垃圾网页特征的问题,可有效提高垃圾网页的识别精度;同时由于对数据实现了降维,从而提高了识别效率。

Description

通过网页多视图数据关联组合识别垃圾网页的方法
技术领域
本发明涉及一种通过网页多视图数据关联组合识别垃圾网页的方法,属于internet信息检索领域。
背景技术
网络已经成为最主要的信息来源,人们通过信息检索(IR)查找相关信息。用户在使用搜索引擎检索信息时,往往只选取排名靠前的几条结果,某些网站为了达到商业目的利用一些专门为其他网站提供提高排名服务的盈利组织(如SEO)[Luca Becchetti,Carlos Castillo,Debora Donato,et al.Web spamdetection:link-based and content-based techniques[R].Yahoo!ResearchBarcelona,2008.]误导和欺骗用户,严重影响了用户获取有用信息。由此可见,对垃圾网页进行有效检测是一个亟待解决的问题。
目前垃圾网页主要分为三种类型:基于内容的垃圾网页,基于链接的垃圾网页和网页隐藏[Carlos Castillo,Debora Donato,AristidesGionis,et al.Know your neighbors:web spam detection using the web topology[C]//Proceedings of the 30th Annual International ACM SIGIR Conferenceon Research and Development in Information Retrieval.New York,USA:ACM,2007:423-430]。基于内容的垃圾网页通过恶意制作网页内容(如插入与流行的查询条件相关的关键字)提高搜索排名,通常使用基于语言模型[István Bíró,Dávid Siklósi,Jácint Szabó,András A.Benczúr.Linked latent dirichletallocation in web spam filtering[C]//Proceedings of the 5thInternational Workshop on Adversarial Information Retrieval on the Web.New York,USA:ACM,2009:37-40,Lourdes Araujo,Juan Martinez-romo.Webspam detection:new classification features based on qualified linkanalysis and language models[J].IEEE Transactions on InformationForensics and Security,2010,5(3):581-590]的方法检测该类垃圾网页。基于链接的垃圾网页通过创建一个联系紧密的链接结构影响排名算法,常用基于信任传播的方法进行检测[Jacob Abernethy,Olivier Chapelle,CarlosCastillo.Graph regularization methods for web spam detection[J].Machine Learning,2010,81(2):207-225]。网页隐藏通过向搜索引擎和用户发送内容不同的网页来实现,可以利用比较索引版本和用户实际看到的网页的方法进行检测。
上述垃圾网页检测方法都是利用网页的内容特征或链接特征进行分类,也有一些研究提出方法将两部分特征同时用于分类:将两部分特征进行了串行合并,但简单合两类特征,网页识别效果不好。因为在基于内容的垃圾网页检测方法中加入链接信息进行分类[István Bíró,Dávid Siklósi,Jácint Szabó,András A.Benczúr.Linked latent dirichlet allocation in web spamfiltering[C]//Proceedings of the 5th International Workshop onAdversarial Information Retrieval on the Web.New York,USA:ACM,2009:37-40],实际用于网页识别的仍然是所链接网页的内容特征。基于内容和基于链接的两类网页特征不同,所以将网页检测作为一个多视图问题考虑更加恰当。目前还没有通过分析网页内容与链接数据间的最大关联,实现垃圾网页识别的相关研究。本发明提出通过网页多视图数据关联组合识别垃圾网页,目的是利用典型相关分析方法[David R.Hardoon,Sandor R.Szedmak,John R.Shawe-taylor.Canonical correlation analysis:an overview withapplication to learning method[J].Neural Computation,2004,16(12):2639-2664,Tingkai Sun,Songcan Chen.Locality preserving CCA withapplications to data visualization and pose estimation[J].Image andVision Computing,2007,25(5):531-543.,Tingkai Sun,Songcan Chen.Anovel method of combined feature extraction for recognition[C]//Proceedings of the 2008Eighth IEEE International Conference on DataMining.Washington,USA:IEEE Computer Society,2008:1043-1048,孙廷凯.增强型典型相关分析研究与应用[D].南京航空航天大学,2006]对基于内容和基于链接的特征进行特征提取,提高垃圾网页的识别精度。
发明内容
本发明就是针对现有垃圾网页检测方法通常利用网页的内容特征或者链接特征进行分类,或将两部分特征简单串行合并后进行分类,上述方法无法解决如何处理垃圾网页内容和链接特征问题,而这两部分特征又有着本质不同。为此本发明提出通过网页多视图数据关联组合识别垃圾网页的方法,将垃圾网页特征分为两个不同的视图,即基于内容特征的视图和基于链接特征的视图,利用典型相关分析及其相关改进方法进行特征提取,生成两组新特征。对新生成的两视图特征采用不同组合方式产生网页单视图数据,并利用这组数据作为训练数据构建分类算法,提高垃圾网页的识别准确率。
为了实现上述目的,本发明采用如下技术方案:
一种通过网页多视图数据关联组合识别垃圾网页的方法,首先提取已标记网页的内容特征数据及超链接特征数据,分别称为内容视图及链接视图,并表示为已标记网页的内容矩阵和链接矩阵;利用典型相关分析及其相关改进方法,获取内容视图及链接视图的最大相关投影矩阵;提取未标记网页的内容矩阵及链接矩阵;利用最大相关投影矩阵生成网页新的内容矩阵及链接矩阵;采用不同的组合方式,生成网页单视图数据;用已标记网页单视图数据训练分类器,将未标记网页识别为正常网页或垃圾网页。
具体包括以下步骤:
步骤1.对已经标记为正常及垃圾的网页,提取网页的内容特征数据及超链接特征数据,分别称为内容视图及链接视图,并表示为以行为网页以列为属性的已标记网页内容矩阵X1和已标记网页链接矩阵Y1
步骤2.将步骤1得到的标记网页的两视图矩阵X1,Y1,利用典型相关分析及其相关改进方法,分析其最大相关性,并获取内容视图及链接视图的最大相关投影矩阵,即内容投影矩阵wx和链接投影矩阵wy,下标x表示内容视图,下标y表示链接视图;
步骤3.对未标记网页,提取网页的内容视图及链接视图,以行为网页以列为属性分别表示为未标记网页内容矩阵X2和未标记网页链接矩阵Y2
步骤4.利用步骤2生成的两视图最大相关投影矩阵wx,wy,分别对步骤1中的已标记网页的两视图矩阵X1,Y1和步骤3中的未标记网页的两视图矩阵X2,Y2进行投影,得到已标记网页新的内容矩阵
Figure BDA00001738391100041
及链接矩阵
Figure BDA00001738391100042
和未标记网页新的内容矩阵
Figure BDA00001738391100043
及链接矩阵
Figure BDA00001738391100044
其中为内容投影矩阵wx的转置,
Figure BDA00001738391100046
为内容投影矩阵wy的转置;
步骤5.将步骤4生成的新的已标记网页两视图矩阵
Figure BDA00001738391100047
采用并行及串行组合方式,生成已标记网页单视图数据;
步骤6.利用步骤5产生的已标记网页的单视图数据,训练分类器,用于未标记网页的识别;
步骤7.将步骤4生成的新的未标记网页两视图矩阵采用并行及串行组合方式,生成未标记网页单视图数据;
步骤8.利用步骤6得到的分类器,对步骤7中生成的未标记网页单视图数据分类,根据分类结果,将未标记网页识别为正常网页或垃圾网页。
所述步骤2中,典型相关分析及其相关改进方法包括:
典型相关分析(Canonical Correlation Analysis,CCA)通过最大化两组特征间的相关性,找出两个线性变换的投影矩阵,使变换后的两组数据相关性最大化。针对垃圾网页检测,考虑到其非线性、局部信息及判别信息,除使用CCA,还可使用核典型相关分析(Kernel Canonical Correlation Analysis,KCCA),局部保持典型相关分析(Locality Preserving Canonical CorrelationAnalysis,LPCCA)和判别典型相关分析(Discriminative CanonicalCorrelation Analysis,DCCA),学习最大相关投影矩阵。
(1)典型相关分析CCA
给定n个样本的两组特征,一组特征记为X,另一组特征记为Y,将这两组特征表示为以行为样本,以列为特征的矩阵,即X=[x1,x2,...,xn]∈Rp×n和Y=[y1,y2,...,yn]∈Rq×n,其中R加上标的形式表示的是维数如上标所示的实数矩阵,n为样本个数,p和q分别是特征X和Y中样本的特征个数。CCA方法用来寻找两组投影矩阵wx∈Rp×d和wy∈Rq×d,使得投影后的矩阵
Figure BDA00001738391100052
Figure BDA00001738391100053
之间的相关性最大,其中d表示将特征X和Y降至的维数。相应目标函数如下:
max w x T , w y T cov ( w x T X , w y T Y ) var ( w x T X ) var ( w y T Y ) - - - ( 1 )
其中cov是求两个矩阵之间的协方差,var是求某一矩阵的方差,(1)可以表示为:
max w x T , w y T w x T XY T w y w x T XX T w x w y T YY T w y - - - ( 2 )
这个函数可以表示成如下一个等式约束的线性规划问题:
max w x T , w y T w x T XY T w y
s . t . w x T XX T w x = 1 , w y T YY T w y = 1 - - - ( 3 )
利用拉格朗日乘子法可以将(1)转换成求解广义特征值问题,将特征值按从大到小的顺序排序,取前d(d=min(p,q))个非负的特征值对应的特征向量作为投影矩阵wx和wy,p和q分别是特征X和Y中样本的特征个数。下面的典型相关分析的改进方法求解步骤同CCA相似,最后都转化为求解广义特征值的问题,所以只对其中不同的部分详细说明。
(2)核典型相关分析KCCA
为解决非线性问题,采用加入核函数的KCCA方法学习投影矩阵。首先将两组特征用核函数进行投影,由非线性问题转换为线性问题。两组特征集X和Y隐式非线性映射为φ:xa φ(x)和ψ:ya ψ(y),其中φ和ψ表示将两组特征集X和Y映射到某一无限的空间,利用映射后的样本进行典型相关分析。由对偶定理可知,KCCA的解向量可表示为两组投影后样本的线性组合,于是KCCA的解向量为
Figure BDA00001738391100064
Figure BDA00001738391100065
其中wφ和wψ是映射后的两组特征进行典型相关分析得到的投影矩阵,其下标φ和ψ同上所述表示将两组特征集X和Y映射到某一无限的空间,αi和βi是分别对应每个映射后的样本φ(xi)和ψ(yi)的线性组合系数,以αi和βi为元素分别组成两个系数向量,记为α和β,i为1到n之间任意整数,n为样本个数,则KCCA的目标函数为:
max w φ , w ψ w φ T φ ( X ) ψ ( Y ) T w ψ = max α , β α T K X K Y β - - - ( 4 )
其中
Figure BDA00001738391100072
Figure BDA00001738391100073
可以看出KX和KY是两个n×n维的实数矩阵(即Rn×n表示的意思),这两个矩阵中的每个元素是kX和kY这两个高斯核函数分别对特征X和Y中每两个样本求得的值,其中i,j是1到n之间任意的数,n为样本个数。相应优化函数表示为:
max α , β α T K X K Y β
s.t.αTKXKXα=1,βTKYKYβ=1    (5)
利用拉格朗日乘子法,可以将(3)中对偶向量的求解表示为求广义特征值问题,于是分别得到内容投影矩阵wx=φ(X)α和链接投影矩阵wy=ψ(Y)β,即为上述的解向量。
(3)局部保持典型相关分析LPCCA
在非线性问题中同时考虑数据局部信息,采用LPCCA方法学习最大关联矩阵。首先找出每个视图特征集中某样本的k个近邻。根据样本的近邻,对两视图特征分别定义相似度矩阵SX和SY,上标X和Y分别是指两个视图特征,其中的每个元素按下述公式求出,下标ij指矩阵中第i行,第j列的那个元素,i和j为1到n之间任意整数,n为样本个数:
S ij X = exp ( - | | x i - x j | | 2 / σ x 2 ) x i ∈ ne ( x j ) or x j ∈ ne ( x i ) 0 otherwise - - - ( 6 )
S ij Y = exp ( - | | y i - y j | | 2 / σ y 2 ) y i ∈ ne ( y j ) or y j ∈ ne ( y i ) 0 otherwise - - - ( 7 )
其中参数
Figure BDA00001738391100077
取值为特征X的样本均方距离,参数
Figure BDA00001738391100078
取值为特征Y的样本均方距离,xi∈ne(xj)表示xi为xj的近邻,ne(xj)表示一个集合,集合中的元素是样本xj的k个近邻,otherwise表示除了互为近邻以外的其他情况。在典型相关分析中加入上述的相似度矩阵后,可以用如下优化问题描述,其中wx,wy仍然表示要求的投影矩阵,xi,yi仍然表示两视图中的每个样本,i和j为1到n之间任意整数,n为样本个数:
max w x , w y w x T · Σ i = 1 n Σ j = 1 n S ij X ( x i - x j ) S ij Y ( y i - y j ) T · w y
s . t . w x T · Σ i = 1 n Σ j = 1 n S ij X ( x i - x j ) S ij X ( x i - x j ) T · w x = 1
w y T · Σ i = 1 n Σ j = 1 n S ij Y ( y i - y j ) S ij Y ( y i - y j ) T · w y = 1 - - - ( 8 )
通过拉格朗日乘子法,求得特征值及特征向量,同样取前d(d=min(p,q))个非负特征值对应的特征向量作为投影矩阵wx和wy,其中p和q分别是特征X和Y中样本的特征个数。
(4)判别典型相关分析DCCA
结合网页数据类信息,使用加入判别信息的典型相关分析方法DCCA,学习关联矩阵wx和wy
对于n个样本的两组特征X和Y,DCCA方法旨在寻找两个投影矩阵wx和wy,使两个映射后的特征具有最大的类内相关性和最小的类间相关性。其优化问题描述如下:
max w x , w y w x T ( C w - ηC b ) w y
s . t . w x T XX T w x = 1 , w y T YY T w y = 1 - - - ( 9 )
其中Cw为类内相关性矩阵,下标w表示类内,Cb为类间相关性矩阵,下标b表示类间,η是一个平衡因子。求得上述问题的特征值后,取前d个最大特征值对应的特征向量,d除了满足小于等于min(p,q)还要满足小于等于类别数c把这些特征向量作为两视图投影矩阵wx和wy,其中p和q分别是特征X和Y中样本的特征个数。
所属步骤5和步骤7中的串行及并行组合定义如下:
对于新生成的两视图特征
Figure BDA00001738391100091
进行特征组合,并行组合是将两组新特征相加,即
Figure BDA00001738391100092
串行组合是将两组新特征按列串行合并起来,即 w x T X w y T Y .
本发明的有益效果:本发明将网页数据分成两视图数据,并应用多视图典型相关分析技术及其推广方法,分析两视图间的最大相关性,一方面可有效提高垃圾网页的识别精度,同时由于对数据实现了降维,从而提高了识别效率。不同于以往利用网页内容特征或者链接特征进行分类或将两部分特征简单串行合并后进行分类的方法,本发明解决了如何处理垃圾网页特征的问题。
附图说明
图1为已标记网页视图特征的提取;
图2为利用典型相关分析及其相关改进方法获取投影矩阵;
图3为未标记网页视图特征的提取;
图4a为生成已标记网页新的内容矩阵;
图4b为生成已标记网页新的链接矩阵;
图5a为生成未标记网页新的内容矩阵;
图5b为生成未标记网页新的链接矩阵;
图6为识别未标记网页的过程。
具体实施方式
下面结合附图与实施实例对本发明作进一步说明。
它将垃圾网页检测问题作为一个多视图分类问题考虑,从已标记的网页中提取基于内容的特征和基于链接的特征,把这两部分特征分别看作已标记网页的两个视图,即内容视图和链接视图。如图1所示,将已标记网页的两视图数据分别表示为以行表示网页,以列表示属性的已标记网页内容矩阵X1和已标记网页链接矩阵Y1。如图2所示,用典型相关分析及其推广方法对垃圾网页特征进行特征提取,分别使用CCA、KCCA、LPCCA和DCCA对已标记网页内容矩阵和已标记网页链接矩阵进行最大相关分析,分别求出使用每种方法得到的内容投影矩阵和链接投影矩阵。如图3所示,从未标记网页中提取基于内容的特征和基于链接的特征作为内容视图和链接视图,同样以行为网页以列为属性分别表示为未标记网页内容矩阵X2和未标记网页链接矩阵Y2。如图4a和图4b所示,利用两视图最大相关投影矩阵wx,wy,分别对已标记网页的两视图矩阵X1,Y1进行投影,得到已标记网页新的内容矩阵
Figure BDA00001738391100101
及链接矩阵
Figure BDA00001738391100102
如图5a和图5b所示,利用两视图最大相关投影矩阵wx,wy,分别对未标记网页的两视图矩阵X2,Y2进行投影,得到未标记网页新的内容矩阵
Figure BDA00001738391100103
及链接矩阵
Figure BDA00001738391100104
如图6所示,对新生成的已标记网页两视图数据采用不同组合方式产生已标记网页单视图数据,并用这组数据作为训练数据训练分类器,再对新生成的未标记网页两视图数据采用不同组合方式产生未标记网页单视图数据,并使用训练得到的分类器对其进行类,根据分类结果,将未标记网页识别为正常网页或垃圾网页。
以下对本发明中典型相关分析及其推广方法及组合方式作进一步说明。具体包括:
1.典型相关分析CCA
给定n个样本的两组特征,一组特征记为X,另一组特征记为Y,将这两组特征表示为以行为样本,以列为特征的矩阵,即X=[x1,x2,...,xn]∈Rp×n和Y=[y1,y2,...,yn]∈Rq×n,其中R加上标的形式表示的是维数如上标所示的实数矩阵,n为样本个数,p和q分别是特征X和Y中样本的特征个数。CCA方法用来寻找两组投影矩阵wx∈Rp×d和wy∈Rq×d,使得投影后的矩阵
Figure BDA00001738391100111
Figure BDA00001738391100112
之间的相关性最大,其中d表示将特征X和Y降至的维数。相应目标函数如下:
max w x T , w y T cov ( w x T X , w y T Y ) var ( w x T X ) var ( w y T Y ) - - - ( 1 )
其中cov是求两个矩阵之间的协方差,var是求某一矩阵的方差,(1)可以表示为:
max w x T , w y T w x T XY T w y w x T XX T w x w y T YY T w y - - - ( 2 )
这个函数可以表示成如下一个等式约束的线性规划问题:
max w x T , w y T w x T XY T w y
s . t . w x T XX T w x = 1 , w y T YY T w y = 1 - - - ( 3 )
利用拉格朗日乘子法可以将(1)转换成求解广义特征值问题,将特征值按从大到小的顺序排序,取前d(d=min(p,q))个非负的特征值对应的特征向量作为投影矩阵wx和wy,p和q分别是特征X和Y中样本的特征个数。下面的典型相关分析的改进方法求解步骤同CCA相似,最后都转化为求解广义特征值的问题,所以只对其中不同的部分详细说明。
2.核典型相关分析KCCA
为解决非线性问题,采用加入核函数的KCCA方法学习投影矩阵。首先将两组特征用核函数进行投影,由非线性问题转换为线性问题。两组特征集X和Y隐式非线性映射为φ:xa φ(x)和ψ:ya ψ(y),其中φ和ψ表示将两组特征集X和Y映射到某一无限的空间,利用映射后的样本进行典型相关分析。由对偶定理可知,KCCA的解向量可表示为两组投影后样本的线性组合,于是KCCA的解向量为
Figure BDA00001738391100121
Figure BDA00001738391100122
其中wφ和wψ是映射后的两组特征进行典型相关分析得到的投影矩阵,其下标φ和ψ同上所述表示将两组特征集X和Y映射到某一无限的空间,αi和βi是分别对应每个映射后的样本φ(xi)和ψ(yi)的线性组合系数,以αi和βi为元素分别组成两个系数向量,记为α和β,i为1到n之间任意整数,n为样本个数,则KCCA的目标函数为:
max w φ , w ψ w φ T φ ( X ) ψ ( Y ) T w ψ = max α , β α T K X K Y β - - - ( 4 )
其中
Figure BDA00001738391100124
Figure BDA00001738391100125
可以看出KX和KY是两个n×n维的实数矩阵(即Rn×n表示的意思),这两个矩阵中的每个元素是kX和kY这两个高斯核函数分别对特征X和Y中每两个样本求得的值,其中i,j是1到n之间任意的数,n为样本个数。相应优化函数表示为:
max α , β α T K X K Y β
s.t.αTKXKXα=1,βTKYKYβ=1    (5)
利用拉格朗日乘子法,可以将(3)中对偶向量的求解表示为求广义特征值问题,于是分别得到内容投影矩阵wx=φ(X)α和链接投影矩阵wy=ψ(Y)β,即为上述的解向量。
3.局部保持典型相关分析LPCCA
在非线性问题中同时考虑数据局部信息,采用LPCCA方法学习最大关联矩阵。首先找出每个视图特征集中某样本的k个近邻。根据样本的近邻,对两视图特征分别定义相似度矩阵SX和SY,上标X和Y分别是指两个视图特征,其中的每个元素按下述公式求出,下标i j指矩阵中第i行,第j列的那个元素,i和j为1到n之间任意整数,n为样本个数:
S ij X = exp ( - | | x i - x j | | 2 / σ x 2 ) x i ∈ ne ( x j ) or x j ∈ ne ( x i ) 0 otherwise - - - ( 6 )
S ij Y = exp ( - | | y i - y j | | 2 / σ y 2 ) y i ∈ ne ( y j ) or y j ∈ ne ( y i ) 0 otherwise - - - ( 7 )
其中参数
Figure BDA00001738391100133
取值为特征X的样本均方距离,参数
Figure BDA00001738391100134
取值为特征Y的样本均方距离,xi∈ne(xj)表示xi为xj的近邻,ne(xj)表示一个集合,集合中的元素是样本xj的k个近邻,otherwise表示除了互为近邻以外的其他情况。在典型相关分析中加入上述的相似度矩阵后,可以用如下优化问题描述,其中wx,wy仍然表示要求的投影矩阵,xi,yi仍然表示两视图中的每个样本,i和j为1到n之间任意整数,n为样本个数:
max w x , w y w x T · Σ i = 1 n Σ j = 1 n S ij X ( x i - x j ) S ij Y ( y i - y j ) T · w y
s . t . w x T · Σ i = 1 n Σ j = 1 n S ij X ( x i - x j ) S ij X ( x i - x j ) T · w x = 1
w y T · Σ i = 1 n Σ j = 1 n S ij Y ( y i - y j ) S ij Y ( y i - y j ) T · w y = 1 - - - ( 8 )
通过拉格朗日乘子法,求得特征值及特征向量,同样取前d(d=min(p,q))个非负特征值对应的特征向量作为投影矩阵wx和wy,其中p和q分别是特征X和Y中样本的特征个数。
4.判别典型相关分析DCCA
结合网页数据类信息,使用加入判别信息的典型相关分析方法DCCA,学习关联矩阵wx和wy
对于n个样本的两组特征X和Y,DCCA方法旨在寻找两个投影矩阵wx和wy,使两个映射后的特征具有最大的类内相关性和最小的类间相关性。其优化问题描述如下:
max w x , w y w x T ( C w - ηC b ) w y
s . t . w x T XX T w x = 1 , w y T YY T w y = 1 - - - ( 9 )
其中Cw为类内相关性矩阵,下标w表示类内,Cb为类间相关性矩阵,下标b表示类间,η是一个平衡因子。求得上述问题的特征值后,取前d个最大特征值对应的特征向量,d除了满足小于等于min(p,q)还要满足小于等于类别数c把这些特征向量作为两视图投影矩阵wx和wy,其中p和q分别是特征X和Y中样本的特征个数。
5.串行及并行组合
对于新生成的两视图特征
Figure BDA00001738391100142
进行特征组合,并行组合是将两组新特征相加,即
Figure BDA00001738391100143
串行组合是将两组新特征按列串行合并起来,即 w x T X w y T Y .

Claims (7)

1.一种通过网页多视图数据关联组合识别垃圾网页的方法,其特征是,首先提取已标记网页的内容特征数据及超链接特征数据,分别称为内容视图及链接视图,并表示为已标记网页的内容矩阵和链接矩阵;利用典型相关分析及其相关改进方法,获取内容视图及链接视图的最大相关投影矩阵;提取未标记网页的内容矩阵及链接矩阵;利用最大相关投影矩阵生成网页新的内容矩阵及链接矩阵;采用不同的组合方式,生成网页单视图数据;用已标记网页单视图数据训练分类器,将未标记网页识别为正常网页或垃圾网页。
2.如权利要求1所述的通过网页多视图数据关联组合识别垃圾网页的方法,其特征是,该方法包括如下步骤:
步骤1.对已经标记为正常及垃圾的网页,提取网页的内容特征数据及超链接特征数据,分别称为内容视图及链接视图,并表示为以行为网页以列为属性的已标记网页内容矩阵X1和已标记网页链接矩阵Y1
步骤2.将步骤1得到的两矩阵X1,Y1,利用典型相关分析方法,分析其最大相关性,并获取内容视图及链接视图的最大相关投影矩阵,即内容投影矩阵wx和链接投影矩阵wy
步骤3.对未标记网页,提取网页的内容视图及链接视图,以行为网页以列为属性分别表示为未标记网页内容矩阵X2和未标记网页链接矩阵Y2
步骤4.利用步骤2生成的两视图最大相关投影矩阵wx,wy,分别对步骤1中的已标记网页的两视图矩阵X1,Y1和步骤3中的未标记网页的两视图矩阵X2,Y2进行投影,得到已标记网页新的内容矩阵
Figure FDA00001738391000011
及链接矩阵
Figure FDA00001738391000012
和未标记网页新的内容矩阵
Figure FDA00001738391000013
及链接矩阵
步骤5.将步骤4生成的新的已标记网页两视图矩阵
Figure FDA00001738391000015
采用并行及串行组合方式,生成已标记网页单视图数据;
步骤6.利用步骤5产生的已标记网页的单视图数据,训练分类器,用于未标记网页的识别;
步骤7.将步骤4生成的新的未标记网页两视图矩阵
Figure FDA00001738391000021
采用并行及串行组合方式,生成未标记网页单视图数据;
步骤8.利用步骤6得到的分类器,对步骤7中生成的未标记网页单视图数据分类,根据分类结果,将未标记网页识别为正常网页或垃圾网页。
3.如权利要求书2所述的通过网页多视图数据关联组合识别垃圾网页的方法,其特征是,所述步骤2中,典型相关分析方法为:
给定n个样本的两组特征X=[x1,x2,...,xn]∈Rp×n和Y=[y1,y2,...,yn]∈Rq×n,寻找两组投影矩阵wx∈Rp×d和wy∈Rq×d,使得投影后的矩阵
Figure FDA00001738391000022
Figure FDA00001738391000023
之间的相关性最大;相应目标函数表示成如下一个等式约束的线性规划问题:
max w x T , w y T w x T XY T w y
s . t . w x T XX T w x = 1 , w y T YY T w y = 1 - - - ( 1 )
利用拉格朗日乘子法将(1)转换成求解广义特征值问题,将特征值按从大到小的顺序排序,取前d(d=min(p,q))个非负的特征值对应的特征向量作为投影矩阵wx和wy
4.如权利要求3所述的通过网页多视图数据关联组合识别垃圾网页的方法,其特征是,对典型相关分析方法改进如下:
首先将两组特征用核函数进行投影,由非线性问题转换为线性问题;两组特征集X和Y隐式非线性映射为φ:xa φ(x)和ψ:ya ψ(y),利用映射后的样本进行典型相关分析,典型相关分析方法的解向量为
Figure FDA00001738391000026
w ψ = Σ i = 1 n β i ψ ( y i ) = ψ ( Y ) β , 目标函数为:
max w φ , w ψ w φ T φ ( X ) ψ ( Y ) T w ψ = max α , β α T K X K Y β - - - ( 2 )
其中
Figure FDA00001738391000033
Figure FDA00001738391000034
kX和kY为高斯核函数,其中参数取值为与某视图中样本的均方距离同数量级的实数;相应优化函数表示为:
max α , β α T K X K Y β
s.t.αTKXKXα=1,βTKYKYβ=1    (3)
利用拉格朗日乘子法,将(3)中对偶向量的求解表示为求广义特征值问题,分别得到内容投影矩阵wx=φ(X)α和链接投影矩阵wy=ψ(Y)β。
5.如权利要求3所述的通过网页多视图数据关联组合识别垃圾网页的方法,所述步骤2中,对典型相关分析方法的另一种改进如下:
首先找出每个视图特征集中某样本的k个近邻,根据样本的近邻,对两视图特征分别定义如下相似度矩阵:
S ij X = exp ( - | | x i - x j | | 2 / σ x 2 ) x i ∈ ne ( x j ) or x j ∈ ne ( x i ) 0 otherwise - - - ( 4 )
S ij Y = exp ( - | | y i - y j | | 2 / σ y 2 ) y i ∈ ne ( y j ) or y j ∈ ne ( y i ) 0 otherwise - - - ( 5 )
其中xi∈ne(xj)表示xi为xj的近邻,参数
Figure FDA00001738391000038
取值为样本的均方距离。在典型相关分析中加入相似度矩阵后,用如下优化问题描述:
max w x , w y w x T · Σ i = 1 n Σ j = 1 n S ij X ( x i - x j ) S ij Y ( y i - y j ) T · w y
s . t . w x T · Σ i = 1 n Σ j = 1 n S ij X ( x i - x j ) S ij X ( x i - x j ) T · w x = 1
w y T · Σ i = 1 n Σ j = 1 n S ij Y ( y i - y j ) S ij Y ( y i - y j ) T · w y = 1 - - - ( 6 )
通过拉格朗日乘子法,求得特征值及特征向量,同样取前d(d=min(p,q))个非负特征值对应的特征向量作为投影矩阵wx和wy
6.如权利要求3所述的通过网页多视图数据关联组合识别垃圾网页的方法,所述步骤2中,典型相关分析方法的另一种改进如下:
结合网页数据类信息,使用加入判别信息的典型相关分析方法,学习关联矩阵wx和wy
对于n个样本的两组特征X和Y,该方法旨在寻找两个投影矩阵wx和wy,使两个映射后的特征具有最大的类内相关性和最小的类间相关性,其优化问题描述如下:
max w x , w y w x T ( C w - ηC b ) w y
s . t . w x T XX T w x = 1 , w y T YY T w y = 1 - - - ( 7 )
其中Cw为类内相关性矩阵,Cb为类间相关性矩阵,η是一个平衡因子,求得上述问题的特征值后,取前d个最大特征值对应的特征向量,d除了满足小于等于min(p,q)还要满足小于等于类别数c把这些特征向量作为两视图投影矩阵wx和wy
7.如权利要求书2所述的通过网页多视图数据关联组合识别垃圾网页的方法,所述步骤5中,组合方式包括:
对于新生成的两视图特征
Figure FDA00001738391000043
进行特征组合,并行组合是将两组新特征相加,即
Figure FDA00001738391000044
串行组合是将两组新特征按列串行合并起来,即 w x T X w y T Y .
CN201210187098.7A 2012-06-07 2012-06-07 通过网页多视图数据关联组合识别垃圾网页的方法 Expired - Fee Related CN102750345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210187098.7A CN102750345B (zh) 2012-06-07 2012-06-07 通过网页多视图数据关联组合识别垃圾网页的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210187098.7A CN102750345B (zh) 2012-06-07 2012-06-07 通过网页多视图数据关联组合识别垃圾网页的方法

Publications (2)

Publication Number Publication Date
CN102750345A true CN102750345A (zh) 2012-10-24
CN102750345B CN102750345B (zh) 2014-04-16

Family

ID=47030530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210187098.7A Expired - Fee Related CN102750345B (zh) 2012-06-07 2012-06-07 通过网页多视图数据关联组合识别垃圾网页的方法

Country Status (1)

Country Link
CN (1) CN102750345B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239787A (zh) * 2016-03-29 2017-10-10 南京大学 一种利用多来源数据具有隐私保护功能的图象分类方法
CN108304866A (zh) * 2018-01-22 2018-07-20 西南交通大学 一种多视图特征判别方法
CN109598336A (zh) * 2018-12-05 2019-04-09 国网江西省电力有限公司信息通信分公司 一种基于栈式降噪自编码神经网络的数据约简方法
CN109902236A (zh) * 2019-03-07 2019-06-18 成都数之联科技有限公司 一种基于非概率模型的垃圾网页降级方法
CN110991470A (zh) * 2019-07-03 2020-04-10 北京市安全生产科学技术研究院 数据降维方法、画像构建方法及系统、可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393555A (zh) * 2008-09-09 2009-03-25 浙江大学 一种垃圾博客检测方法
CN102521369A (zh) * 2011-12-16 2012-06-27 山东师范大学 一种多视图网络垃圾页面检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393555A (zh) * 2008-09-09 2009-03-25 浙江大学 一种垃圾博客检测方法
CN102521369A (zh) * 2011-12-16 2012-06-27 山东师范大学 一种多视图网络垃圾页面检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
《2008 Eighth IEEE International Conference on Data Mining》 20081231 Tingkai Sun et al. "A Novel Method of Combined Feature Extraction for Recognition" 1043-1048 , *
《Image and Vision Computing》 20060426 Tingkai Sun et al. "Locality preserving CCA with applications to data visualization and pose estimation" 531-543 , *
《计算机应用研究》 20130331 高爽等 "基于多视图典型相关分析的垃圾网页检测" 810-813 第30卷, 第3期 *
TINGKAI SUN ET AL.: ""A Novel Method of Combined Feature Extraction for Recognition"", 《2008 EIGHTH IEEE INTERNATIONAL CONFERENCE ON DATA MINING》 *
TINGKAI SUN ET AL.: ""Locality preserving CCA with applications to data visualization and pose estimation"", 《IMAGE AND VISION COMPUTING》 *
高爽等: ""基于多视图典型相关分析的垃圾网页检测"", 《计算机应用研究》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239787A (zh) * 2016-03-29 2017-10-10 南京大学 一种利用多来源数据具有隐私保护功能的图象分类方法
CN108304866A (zh) * 2018-01-22 2018-07-20 西南交通大学 一种多视图特征判别方法
CN109598336A (zh) * 2018-12-05 2019-04-09 国网江西省电力有限公司信息通信分公司 一种基于栈式降噪自编码神经网络的数据约简方法
CN109902236A (zh) * 2019-03-07 2019-06-18 成都数之联科技有限公司 一种基于非概率模型的垃圾网页降级方法
CN109902236B (zh) * 2019-03-07 2021-06-11 成都数之联科技有限公司 一种基于非概率模型的垃圾网页降级方法
CN110991470A (zh) * 2019-07-03 2020-04-10 北京市安全生产科学技术研究院 数据降维方法、画像构建方法及系统、可读存储介质
CN110991470B (zh) * 2019-07-03 2022-04-15 北京市应急管理科学技术研究院 数据降维方法、画像构建方法及系统、可读存储介质

Also Published As

Publication number Publication date
CN102750345B (zh) 2014-04-16

Similar Documents

Publication Publication Date Title
Katsurai et al. Image sentiment analysis using latent correlations among visual, textual, and sentiment views
Wei et al. Sentiment learning on product reviews via sentiment ontology tree
Yang et al. Combining lexical and semantic features for short text classification
CN102521368B (zh) 基于相似度矩阵迭代的跨媒体语义理解和优化方法
CN101539930B (zh) 一种相关反馈图像检索方法
CN108090048B (zh) 一种基于多元数据分析的高校评价系统
Bendersky et al. Learning from user interactions in personal search via attribute parameterization
CN103995903B (zh) 基于同构子空间映射和优化的跨媒体检索方法
CN102750345B (zh) 通过网页多视图数据关联组合识别垃圾网页的方法
WO2015016784A1 (en) A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image
CN106095966B (zh) 一种用户可扩展的标签标注方法及系统
CN106372122B (zh) 一种基于维基语义匹配的文档分类方法及系统
Rakholia et al. Classification of Gujarati documents using Naïve Bayes classifier
JP2008123486A (ja) デジタルメディアで1つまたは複数の概念を検出する方法、システム及びプログラム
CN103678422A (zh) 网页分类方法和装置、网页分类器的训练方法和装置
CN111538741A (zh) 一种面向警情大数据的深度学习分析方法及系统
Sun et al. Towards effective short text deep classification
CN102693316A (zh) 基于线性泛化回归模型的跨媒体检索方法
Dhingra et al. A Review on Comparison of Machine Learning Algorithms for Text Classification
Ni et al. Cross-modal hashing with missing labels
CN102880638B (zh) 一种面向植物叶片的多样化图像检索的自适应的鲁棒cmvm特征降维与抽取方法
CN105760471B (zh) 基于组合凸线性感知器的两类文本分类方法
Hong et al. Project Rank: An internet topic evaluation model based on latent dirichlet allocation
Gordo et al. Document classification using multiple views
CN103207893B (zh) 基于向量组映射的两类文本的分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140416

Termination date: 20200607

CF01 Termination of patent right due to non-payment of annual fee