CN101470731B - 一种可个性化定制的网页过滤方法 - Google Patents
一种可个性化定制的网页过滤方法 Download PDFInfo
- Publication number
- CN101470731B CN101470731B CN2007103042241A CN200710304224A CN101470731B CN 101470731 B CN101470731 B CN 101470731B CN 2007103042241 A CN2007103042241 A CN 2007103042241A CN 200710304224 A CN200710304224 A CN 200710304224A CN 101470731 B CN101470731 B CN 101470731B
- Authority
- CN
- China
- Prior art keywords
- webpage
- user
- vocabulary
- web page
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000001914 filtration Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000000605 extraction Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims description 23
- 238000005516 engineering process Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 241000270322 Lepidosauria Species 0.000 claims description 3
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 claims description 3
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 2
- 238000010380 label transfer Methods 0.000 claims description 2
- 239000002131 composite material Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 230000001473 noxious effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明一种可个性化定制的网页过滤方法,包括步骤:用户实例网页和训练网页库特征提取;基于半监督学习的用户兴趣类属性挖掘;用户兴趣类的特征提取和特征选择;基于贝叶斯分类器的个性化网页过滤。本发明提出了一种新型的实例驱动的网页过滤框架,用户的过滤需求通过网页实例来表达,用户实例可以是任何类型或者多类型复合的网页,并借助半监督学习构造出符合用户个性化需求的网页过滤器,克服了传统网页过滤方法仅限于过滤单一或有限类型网页,难以实现个性化定制的缺点。本发明并具有高精确度、鲁棒性和运行速度的优点,具有很好的应用前景。
Description
技术领域
本发明涉及计算机网络技术领域,特别涉及网页过滤技术。
背景技术
随着互联网(the Internet)的飞速发展,它已经逐渐成为人们生活中一个重要的部分,人们对于互联网的依赖也越来越强,同时对于网页过滤的需求也越来越大。一方面,由于互联网的开放性,一些不良信息也在互联网上传播,如色情、毒品、暴力等。这些不良信息对于人们特别是青少年的身心健康有着很大的影响,危害社会的稳定。另一方面,由于信息爆炸和互联网的飞速发展,网络上的信息量正以几何方式增加,但对于特定的互联网使用者来说,绝大部分信息都是无用的甚至是垃圾信息。因此如何在这么多信息中保留自己感兴趣的而把无关的信息过滤掉,逐渐成为一项迫切的需求。近年来,由于其广泛的需求和巨大的实用市场,网页过滤技术已经成为一项研究热点。
网页过滤可以看成是一个二元分类问题,它的基本需求在于1).针对用户的个性化需求提供不同的过滤服务,2).准确把握网页的语义实施过滤。目前的大多数技术针对色情网页的检测与过滤
早期的原始网页过滤技术有以下几种:互联网内容选择平台(Platform for Internet Content Selection,PICS),该方法允许网页发布者主动在网页内容中嵌入对网页内容描述的标签,从而在客户端浏览时按要求过滤特定内容的页面。PICS完全依赖于网页发布者的自觉性,实际应用很少。URL拦截方法检查用户浏览的每个网页的URL,如果它属于一个预定义的URL黑名单,则过滤该网页。URL拦截在初期小规模的互联网上有着较好的效果,但它对URL黑名单的更新和维护需求已不可能适应目前互联网的规模和发展速度。之后人们开始使用简单关键字计数的方法来检测网页,当网页中包含的“关键字”数量超过某一阈值时,则认为它需要被过滤。简单关键字计数方法在一定程度上实现了网页的语义判断,但仅基于关键字数量无法准确分析,以色情网页过滤为例,如果目标网页的内容是反对网络色情或性教育,其关键字出现次数很可能超过阈值而被误过滤掉。
针对原始技术的不足之处,现在过滤技术的重点在于对网页的内容分析。有学者提出了基于人工神经网络的网页过滤方法。此方构造两类人工神经网络之一:KSOM或Fuzzy ART,并把提取的网页特征(包括55个网页关键字计数和一些全页面统计量)输入到神经网络中,根据输出结果判断网页性质。针对传统关键字列表容易误过滤的事实,有方法认为关键字之间不是孤立的,而是将关键字分为显式、隐式和逻辑三类,有害网页的性质可以从这三类关键字互相影响共同作用体现出来。此方法使用类细胞神经网络(CNN-Like)来描述关键字之间的相互关系,并以此过滤有害网页。以上这类方法在色情网页过滤方面取得了较好的效果,但它们的应用仍受到关键字列表的限制。首先,构建关键字列表需要对需过滤的领域有很多的先验知识,不容易应用到别的领域;其次,色情网页中存在着区分性很强的关键字,而某些领域并不能保证存在这些符合要求的关键字,因此无法使用这类技术。因此,基于关键字的过滤方法普遍无法满足个性化过滤的需求。
另一种基于文本分类的方法可以实现多种类的网页过滤。对于一个需要分类的网页,计算它和训练网页库中所有网页之间的余弦相似度,将所有相似度值中的前n%计算平均值,如果该数值大于预定义的阈值则过滤它。这种方法假设训练网页库中的网页可以准确描述用户兴趣类(需要过滤的网页类)的分布特征,但实际此训练库是难于构造的。由于训练库的要求规模很大,在过滤每一个网页时需要计算目标网页和库中所有网页的相似度,其时间复杂度可能无法满足实时过滤的需求。此外,此方法中的过滤阈值是领域相关的,因此在实现个性化时需要根据具体过滤测试结果仔细调整该阈值,这是对该方法实际应用的另一限制。
虽然经过了大量的研究,网页过滤技术仍不能满足实际的需求。其中重要的难点,一是如何在个性化定制的情况下实现准确的网页识别,二是如何解决训练网页库的构建,三是如何满足实时过滤的分类时间要求。
发明内容
为了避免传统方法难于个性化定制、分类时间不能满足实时性要求等缺点,本发明目的在于提供一种快速、鲁棒、可个性化定制的网页过滤方法。
为实现上述目的,本发明提供的可个性化定制的网页过滤方法,包括步骤如下:
(1).用户通过提供网页实例表达个性化过滤需求;
(2).用户实例网页和训练网页库特征提取;
(3).基于半监督学习的用户兴趣类属性挖掘;
(4).用户兴趣类的特征提取和特征选择;
(5).基于贝叶斯分类器的个性化网页过滤;
(6).半监督学习过程可使用加速计算和增量计算。
步骤1:系统使用web爬虫自动从互联网上爬取大量网页构建无标签训练网页库并做预处理和特征提取;
步骤2:系统从用户获取用以表达对过滤系统的个性化需求的网页实例,并对用户个性化实例网页做预处理和特征提取;
步骤3:基于用户个性化实例网页和无标签训练网页库特征,利用半监督学习的方法挖掘用户兴趣类属性;
步骤4:提取用户兴趣类词汇表概率特征,并进行特征选择;
步骤5:基于特征选择之后的用户兴趣类词汇表特征构造贝叶斯分类器,实现对目标网页的个性化过滤。
根据本发明的实施例,步骤1所述系统使用web爬虫自动从互联网上爬取大量网页构建无标签训练网页库并做预处理和特征提取,包括步骤:
步骤11:使用web爬虫技术从互联网上自动的爬取大量的网页作为过滤系统的无标签训练网页库U,此大型无标签训练网页库是对实际互联网网页分布的近似描述;
步骤12:对无标签训练网页库中的网页进行预处理:首先使用网页解析器对网页源文件进行解析,提取网页中的文本;对网页文本中的中文进行中文分词处理,得到以词为单位的网页文本;在网页中删除停词和罕用词;
步骤13:对无标签训练网页库中的网页提取特征;在经过预处理的网页文本中,统计词汇表中的每一个词在每一个网页中出现的次数;词汇表是网页中可能出现的非停词和非罕用的所有词汇的集合;在特征提取之后,每个网页表示为如下词袋(bag-of-word)向量:
Di=(t1,t2,…,tnv)
其中,Di是网页i的词袋向量表示,tj是词汇表中第j个词汇在网页i中出现的次数,nv是词汇表中词汇的数量。
根据本发明的实施例,步骤2所述系统从用户获取用以表达对过滤系统的个性化需求的用户个性化实例网页,并对用户个性化实例网页做预处理和特征提取,包括步骤:
步骤21:系统从用户获取用以表达对过滤系统的个性化需求的用户个性化实例网页,该集合记作L;用户个性化实例网页集合是用户自己从实际的互联网中提取的若干网页,当中需要包含两类网页,一类是用户希望被过滤的网页,另一类是用户希望正常浏览的网页;用户个性化实例网页里的样本由用户根据自己的需求自行确定,以此达到对过滤系统的个性化定制;
步骤22:用户个性化实例网页的预处理和特征提取。
根据本发明的实施例,步骤3所述基于用户个性化实例网页和无标签训练网页库特征,利用半监督学习的方法挖掘用户兴趣类属性包括步骤:
步骤31:将用户个性化实例网页集合L和无标签训练网页库U组成一个新的集合(L+U),其中L中的网页具有用户标记的标签y∈{+1,-1},+1表示需要过滤的网页,-1表示不需要过滤正常浏览的网页;
步骤32:基于图的半监督学习方法的过程是:建立一个图,其中图顶点是L+U所有中的所有网页的数据点,图边是数据点之间的相似度;
步骤33:在建立的图上执行标签传递算法,直到算法收敛,所有顶点都分配了标签y∈{+1,-1};
对于标签传递算法,有如下加速计算增量计算方法:标签传递算法的直接计算公式是:
fU=(I-PUU)-1PULYL
其中PUU和PUL是标签传递矩阵的分块子矩阵,YL是用户个性化实例网页的标签,则fU是标签传递算法分配标签的直接计算结果;
用户个性化实例的数量nL和训练网页库中网页的数量nU相比很小,即有n=nL+nU≈nU,因此直接执行标签传递算法和按上式计算的时间复杂度是0(n3);如果实际需要在同一训练网页库上计算多个个性化的网页过滤器,则按照以下方式计算fU:
f′U=(I-PUU)-1(PULYL)
其中(I-PUU)-1项只需在训练网页库建立之后计算一次;当有新的用户需要实现个性化过滤或需要改进之前创建的过滤器时,只有YL项变化,在这种情况下,创建或改进个性化网页过滤器时的时间复杂度是0(n2)。
根据本发明的实施例,步骤4所述提取用户兴趣类词汇表概率特征P(Y|t),并进行特征选择,包括步骤:
步骤41:将分配了标签的集合(L+U)按标签分成两个子集X+和X-,其中X+是具有标签+1的网页,X-是具有标签-1的网页;
步骤42:在集合X+和X-上,对词汇表中所有词汇统计以下用户兴趣类词汇表概率特征P(-1|t)、P(+1|t)为:
其中Ft+和Ft-分别是X+和X-中出现词汇t的网页数;ε是一个防止0分母的小常数;P(-1|t)、P(+1|t)整体记作P(Y|t),即其中Y的取值范围是{+1,-1};
步骤43:对用户兴趣类词汇表概率特征P(Y|t)进行选择:将所得的用户兴趣类词汇表概率特征P(Y|t)概率值列表按P(+1|t)值进行降序排序或者按P(-1|t)值进行升序排序,只保留列表中顶端nct个词汇的概率值和列表底端ncb个词汇的概率值,其它概率值统一设置为0.5;nct和ncb的取值根据具体词汇表的大小而定,一般nct取为词汇表大小的10%,ncb取为词汇表大小的30%。
根据本发明的实施例,所述基于特征选择之后的用户兴趣类词汇表特征构造贝叶斯分类器,实现对目标网页的个性化过滤是:
对于一个新来的网页x,由条件全概率公式得:
其中Y的取值范围是{+1,-1},t是网页中的某一个词汇;设概率值P(Y|t,x)满足:
P(Y|t)=P(Y|t,x)
则P(Y|x)的计算公式可化为:
其中,P(Y|t)是经特征选择之后的用户兴趣类词汇表概率特征,P(t|x)是归一化后的词汇t在网页x中出现的频率,计算公式为:
最后比较计算出的P(+1|x)和P(-1|x),如果P(+1|x)>P(-1|x),则目标网页x被标记为+1且被过滤;反之则不过滤。
本发明的主要特点在于:1)使用实例驱动的策略获得用户兴趣。由于不同的互联网用户对于网络有着不同的兴趣和要求,他们需要过滤的网页种类也不相同。采用实例驱动的策略,用户可以更容易的表达自己的兴趣,也避免了基于关键字的过滤技术难于个性化的局限;2)使用半监督学习挖掘用户兴趣类。本发明方法建立一个独立的大型网页训练集作为用户提供的少量实例的补充,使用基于图的半监督学习方法在训练集上建立用户兴趣类的精确描述;3)建立贝叶斯分类器进行最终的网页性质判断,使得分类速度达到实时过滤的要求;4)提出了半监督学习过程的快速计算和增量计算方法,在某些情况下可以实现训练过程的加速。本发明提出了一种新型的网页过滤技术,客服了传统网页过滤方法难于个性化定制、识别过程耗时长、虚警率高的缺点,具有广阔的应用前景。
附图说明
图1是本发明方案的整体框架。
图2是本发明创建无标签训练网页库并做预处理和特征提取的框图。
图3是本发明用户个性化实例网页的预处理和特征提取的框图。
图4是本发明利用半监督学习的方法挖掘用户兴趣类属性的框图。
图5是本发明提取用户兴趣类词汇表概率特征和特征选择的框图。
图6是本发明基于贝叶斯分类器的目标网页个性化过滤流程图。
具体实施方式
下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
本发明实施例方案系统的整体框架见附图1,由个性化定制单元1、网页浏览单元2两部分组成。个性化定制单元1包括:输入模块11、第一、第二网页预处理和特征提取模块12和15、互联网13、无标签训练网页库14、监督学习模块16、特征提取和特征选择模块17;网页浏览单元2包括:目标网页21、第三网页预处理和特征提取模块22、贝叶斯分类器23。
系统事先从互联网13自动抓取建立无标签训练网页库14并由第二网页信息预处理和特征提取模块15的进行网页信息预处理和特征提取操作;接下来用户向输入模块11提供用户个性化实例网页;然后输入模块11经过第一网页预处理和特征提取模块12提取的用户个性化实例网页和经第二网页信息预处理和特征提取模块15的无标签训练网页库一起进行半监督学习模块16,在此基础上特征提取和特征选择模块17进行特征提取和特征选择以创建贝叶斯分类器23;最后使用建立的贝叶斯分类器23在用户浏览单元2浏览过程中实时的执行过滤。每一个被请求的目标网页21在经过第三网页预处理和特征提取模块22之后进入贝叶斯分类器23中分类,系统根据分类结果决定目标网页是否被过滤。
个性化定制单元1在可以任何计算机上进行,例如过滤系统包括个性化定制单元1和网页浏览单元2的整体的提供者可以架设服务器收集用户的个性化需求并训练出分类器,或者当用户计算机有足够的计算资源时可以在用户各自的计算机上直接训练出分类器。训练出的分类器加入到分类系统的客户端,分类系统的客户端是作为用户浏览器软件的一部分或是以插件的形式存在,并在用户浏览网页浏览单元2的过程中实时地对用户请求的网页分类并进行过滤。
下面详细给出该发明技术方案中所涉及的各个细节问题的说明。
(1) 获取用户个性化实例网页
用户向输入模块11提供的用户个性化实例网页集合包含两部分,一部分是希望被过滤的网页实例,一部分是希望正常浏览的网页实例。用户实例集合记为L,L={xi,i=1,…,n1},n1为用户实例的数量,包括n1+个正(需要过滤)样本(yi=+1,i=1,…,n1+)和n1-=n1-n1+个负(正常浏览)样本(yj=-1,i=n1++1,…,n1)。
(2) 网页样本的预处理和信息抽取
系统中所有的原始网页都需要首先进行网页信息预处理和特征提取操作,用以变成系统可以处理的操作,具体是:输入单元11输入的所有用户个性化实例网页需经过第一网页预处理和特征提取模块12操作;步骤12:对无标签训练网页库14中(用户网页库的创建详见(3)节)的网页样本需经第二网页信息预处理和特征提取模块15操作;过滤过程中用户请求的目标网页21需经第三网页预处理和特征提取模块22操作。
如图2创建无标签训练网页库并做预处理和特征提取的框图所示:使用第二网页预处理和特征提取模块15的第二网页解析器15-1(Webpage parser)解析网页源文件,提出网页中的文本。对网页文本中的中文进行中文分词处理,得到以词为单位的网页文本。在网页中删除停词(Stop-words)和罕用词。步骤13:由第二网页预处理和特征提取模块15中的第二统计模块15-2对无标签训练网页库中的网页提取特征,在经过预处理的网页文本中,统计词汇表(vocabulary)中的每一个词在每一个网页中出现的次数。词汇表是网页中可能出现的非停词和非罕用的所有词汇的集合。在特征提取之后,每个网页表示为如下词袋(bag-of-word)向量:
其中,Di是网页i的词袋(bag-of-word)向量表示,tj是词汇表中第j个词汇在网页i中出现的次数,nv是词汇表中词汇的数量。
如图3用户个性化网页实例的预处理和特征提取的框图所示:使用第一网页预处理和特征提取模块12的第一网页解析器12-1解析网页源文件,提出网页中的文本。对网页文本中的中文进行中文分词处理,得到以词为单位的网页文本。在网页中删除停词和罕用词。由第一网页预处理和特征提取模块12中的第一统计模块12-2对无标签训练网页库中的网页提取特征,在经过预处理的网页文本中,统计词汇表中的每一个词在每一个网页中出现的次数。在特征提取之后,每个网页表示为如下词袋(bag-of-word)向量:
其中,Di是网页i的词袋(bag-of-word)向量表示,ti是词汇表中第j个词汇在网页i中出现的次数,nv是词汇表中词汇的数量。
如图6基于贝叶斯分类器的目标网页个性化过滤流程图所示:对于目标网页21,使用第三网页预处理和特征提取模块22的第三网页解析器22-1解析网页源文件,提出网页中的文本。对网页文本中的中文进行中文分词处理,得到以词为单位的网页文本。在网页中删除停词和罕用词。由第一网页预处理和特征提取模块22中的第一统计模块22-2对无标签训练网页库中的网页提取特征,在经过预处理的网页文本中,统计词汇表中的每一个词在每一个网页中出现的次数。在特征提取之后,目标网页表示为如下词袋(bag-of-wotd)向量:
其中,D是目标网页的词袋(bag-of-word)向量表示,ti是词汇表中第j个词汇在网页i中出现的次数,nv是词汇表中词汇的数量。
(3) 半监督学习扩展用户实例
由于用户只能提供较少的个性化实例,因此算法使用模块16的半监督学习方法从用户实例网页中获得用户兴趣类的精确描述。
建立一个大型的无标签训练网页库U。步骤11:利用网络爬虫技术,在Internet上爬去大量的实际网页作为训练网页库。建立的大型网页训练库是实际Internet网页分布的近似描述。
如图4是利用半监督学习的方法挖掘用户兴趣类属性的框图所示:
将用户个性化实例网页16-1集合L和无标签训练网页库U16-2组成一个新的集合16-3为L+U。如前,L中的网页具有用户标记的标签y∈{+1,-1},+1表示需要过滤的网页,-1表示不需要过滤可以正常浏览的网页。算法在L+U上进行基于图的半监督学习方法。建立一个图,图的顶点是L+U所有中的所有数据点(网页),图的边是数据点之间的相似度。网页相似度使用二元的余弦相似度度量:
其中ni和nj分别表示网页i和j中出现的词汇个数(同一网页中出现同一词汇多次的算作一次),ni∧j表示同时出现在网页i和j中的词汇个数。则wij是图中顶点i,j之间边的权值。为了减少学习过程中标签传递的复杂度和避免网页训练库高度不平衡(在网页训练库中和实际的网页分布中,通常正样本的数量远小于负样本的数量),相似度图16-4是kNN连接图而不是简单的全连通图,kNN连接图的定义是:顶点i和j之间连接一条边当且仅当i是j的k-近邻节点或j是i的k-近邻节点。
接下来在建立的图上执行标签传递算法16-5(Label propagationalgorithm),将标签从用户实例向训练网页库上传播:定义n×n的传播概率矩阵P:
其中n是集合L+U的大小。则Pij是标签从节点i向j的传播概率。在标签传递过程中使用的是网页节点的软标签f。f是一个n×2的矩阵,其中fj1和fj2分别是节点i被分配标签+1和-1的概率。
标签传递算法的运行过程是:
步骤i. 初始化f为随机值;
步骤ii. “夹固”用户实例样本的标签:对于每一个用户实例样本i,如果是正样本,设fi1=1,fi2=0;如果是负样本,则设fi1=0,fi2=1;
步骤iii. 传递标签:f←Pf;
步骤iv. 转到步骤ii,直到f收敛。
可以证明标签传递算法中f收敛到一个固定值。不失一般性,假设L∪U所有的网页样本记为如下顺序:X=(x1,…,xn1,xnl+1,…,xn),则f和P可以按照其标记/未标记分割成如下子矩阵形式:
则上面的迭代算法的结果是:
fU=(I-PUU)-1PULYL (1)
其中YL是所有用户实例样本按照算法步骤ii“夹固”的软标签矩阵。
标签传递算法最小化了定义在图上的如下quadratc能量函数
经过标签传递16-5算法之后,所有L+U集合16-4上的网页都已经分配了标签,即得所有顶点都分配了标签的图16-6。
(4) 用户兴趣类的特征提取和特征选择
如图5是提取用户兴趣类词汇表概率特征和特征选择的框图所示:
在进行半监督学习之后,特征提取和特征选择模块17在已确定了标签的训练集17-1上提取用户兴趣类词汇表概率特征并进行特征选择操作。用户兴趣类词汇表概率P(Y|t)是词汇表中词汇t出现在正/负样本类中的概率。将在分割模块17-2中将L+U按标签分成两个子集X+单元17-3和X-单元17-4,其中X+是具有标签+1的网页,X-是具有标签-1的网页。在概率特征模块17-5中对统计词汇表中所有词汇统计以下:
其中Ft+和Ft-分别为X+和X-中出现词汇t的网页数。ε是一个防止0分母的小常数。P(-1|t)、P(+1|t)整体记作P(Y|t),即其中Y的取值范围是{+1,1};
在估计P(Y|t)的值时,在特征选择模块17-6执行一步选择操作:将计算所得的P(Y|t)概率值列表按P(+1|t)值进行降序排序(或者按P(-1|t)值进行升序排序)。只保留列表中顶端nct个词汇的概率值和列表底端ncb个词汇的概率值,其它概率值统一设置为0.5。因为在最后的分类过程中,如果P(+1|t)=P(-1|t)=0.5,则词汇t对P(+1|x)和P(-1|x)的贡献相同,在实际计算是就可以忽略词汇t,减少了分类的时间复杂度,以适应实时过滤的需求。同时考察特征选择的过程,在选择之后保留的词汇具有较大的P(+1|t)或P(-1|t)值,即这些词汇是针对用户兴趣类区分性较强的词汇,可以使得分类结果更加准确。nct和ncb的取值根据具体词汇表的大小而定,一般nct可取为词汇表大小的10%,ncb可取为词汇表大小的30%。
(5) 目标网页21性质判断
如图6是基于贝叶斯分类器的目标网页个性化过滤流程图所示:
对于一个用户新浏览的目标网页21,记做x,经预处理22-1和特征提取22-2操作之后在模块23-2中分别计算P(+1|x)和P(-1|x),使用贝叶斯分类器23-3对其进行分类。由条件全概率公式得:
其中t是网页中的某一个词汇,Y的取值范围是{+1,-1},设概率值P(Y|t,x)满足:
P(Y|t)=P(Y|t,x)
即得:
(2)
其中,P(t|x)为归一化后的词汇t在网页x中出现的频率:
P(Y|t)是在特征提取和特征选择模块17中得到经选择的用户兴趣类词汇表概率特征(图6中23-1)。
最后比较计算出的P(+1|x)和P(-1|x),如果P(+1|x)>P(-1|x),则目标网页x被标记为+1且被过滤23-5;反之则不过滤(正常浏览23-4)。
(6) 半监督学习过程的加速计算和增量计算
虽然本算法中分类过滤目标网页的过程时间复杂度很低,但半监督学习的过程时间复杂度较高,并且半监督学习过程需要维护一个大型的训练网页库,因此如果用户的计算机没有足够的计算资源时,训练过程并不适合在最终用户的系统上进行。本发明中描述的训练过程可以在由过滤系统提供者的服务器系统上集中进行,并以Web Service或类似的方式向最终用户提供个性化接口。并且,在这种集中服务的情况下,可以实现半监督学习过程的快速计算和增量计算。
如图4所示利用半监督学习的方法挖掘用户兴趣类属性的框图中的标签传递算法16-5,直接执行标签传递算法的时间复杂度是0(n3)。另一方面,(4)节中所述的基于图的半监督学习中的标签传递算法,有直接计算公式如下:
fU=(I-PUU)-1PULYL (3)
用户个性化实例的数量n1和训练网页库中网页的数量nu相比很小,可以忽略,即有n=n1+nu≈nu。在使用式(3)计算时,计算A1=(I-PUU)-1项的时间需求是0(nu 3)≈0(n3)计算A2=A1PUL和fU=A2YL的时间都是0(n2),因此按式(3)计算的时间复杂度是0(n3)。但是如果实际需要在同一训练网页库上计算多个个性化的网页过滤器,则可以按照一下方式计算fU:
fU′=(I-PUU)-1(PULYL) (4)
其中(I-PUU)-1项只需在训练网页库建立之后计算一次。(PULYL)是一个nu×2的矩阵,计算时间是0(nu×n1)。当有新的用户需要实现个性化过滤或需要改进之前创建的过滤器时,只有YL项变化,因此在这种情况下,每次创建或改进个性化网页过滤器时的时间复杂度是:0(nu 2)≈0(n2)。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (5)
1.一种可个性化定制的网页过滤方法,其特征在于,包括步骤:
步骤1:系统使用web爬虫自动从互联网上爬取大量网页构建无标签训练网页库并做预处理和特征提取,包括步骤:
步骤11:使用web爬虫技术从互联网上自动的爬取大量的网页作为过滤系统的无标签训练网页库U,此大型无标签训练网页库是对实际互联网网页分布的近似描述;
步骤12:对无标签训练网页库中的网页进行预处理:首先使用网页解析器对网页源文件进行解析,提取网页中的文本;对网页文本中的中文进行中文分词处理,得到以词为单位的网页文本;在网页中删除停词和罕用词;
步骤13:对无标签训练网页库中的网页提取特征;在经过预处理的网页文本中,统计词汇表中的每一个词在每一个网页中出现的次数;词汇表是网页中可能出现的非停词和非罕用的所有词汇的集合;在特征提取之后,每个网页表示为如下词袋(bag-of-word)向量:
Di=(t1,t2,…,tnv)
其中,Di是网页i的词袋向量表示,tj是词汇表中第j个词汇在网页i中出现的次数,nv是词汇表中词汇的数量;
步骤2:系统从用户获取用以表达对过滤系统的个性化需求的网页实例,并对用户个性化实例网页做预处理和特征提取;
步骤3:基于用户个性化实例网页和无标签训练网页库特征,利用半监督学习的方法挖掘用户兴趣类属性;
步骤4:提取用户兴趣类词汇表概率特征,并进行特征选择;
步骤5:基于特征选择之后的用户兴趣类词汇表特征构造贝叶斯分类器,实现对目标网页的个性化过滤。
2.按照权利要求1所述的可个性化定制的网页过滤方法,其特征在于,步骤2所述系统从用户获取用以表达对过滤系统的个性化需求的用户个性化实例网页,并对用户个性化实例网页做预处理和特征提取,包括步骤:
步骤21:系统从用户获取用以表达对过滤系统的个性化需求的用户个性化实例网页,该集合记作L;用户个性化实例网页集合是用户自己从实际的互联网中提取的若干网页,当中需要包含两类网页,一类是用户希望被过滤的网页,另一类是用户希望正常浏览的网页;用户个性化实例网页里的样本由用户根据自己的需求自行确定,以此达到对过滤系统的个性化定制;
步骤22:用户个性化实例网页的预处理和特征提取。
3.按照权利要求1所述的可个性化定制的网页过滤方法,其特征在于,步骤3所述基于用户个性化实例网页和无标签训练网页库特征,利用半监督学习的方法挖掘用户兴趣类属性包括步骤:
步骤31:将用户个性化实例网页集合L和无标签训练网页库U组成一个新的集合(L+U),其中L中的网页具有用户标记的标签y∈{+1,-1},+1表示需要过滤的网页,-1表示不需要过滤正常浏览的网页;
步骤32:基于图的半监督学习方法的过程是:建立一个图,其中图顶点是L+U所有中的所有网页的数据点,图边是数据点之间的相似度;
步骤33:在建立的图上执行标签传递算法,直到算法收敛,所有顶点都分配了标签y∈{+1,-1};
对于标签传递算法,有如下加速计算增量计算方法:标签传递算法的直接计算公式是:
fU=(I-PUU)-1PULYL
其中PUU和PUL是标签传递矩阵的分块子矩阵,YL是用户个性化实例网页的标签,则fU是标签传递算法分配标签的直接计算结果;
用户个性化实例的数量nL和训练网页库中网页的数量nU相比很小,即有n=nL+nU≈nU,因此直接执行标签传递算法和按上式计算的时间复杂度是O(n3);如果实际需要在同一训练网页库上计算多个个性化的网页过滤器,则按照以下方式计算fU:
f′U=(I-PUU)-1(PULYL)
其中(I-PUU)-1项只需在训练网页库建立之后计算一次;当有新的用户需要实现个性化过滤或需要改进之前创建的过滤器时,只有YL项变化,在这种情况下,创建或改进个性化网页过滤器时的时间复杂度是O(n2)。
4.按照权利要求1所述的可个性化定制的网页过滤方法,其特征在于,步骤4所述提取用户兴趣类词汇表概率特征P(Y|t),并进行特征选择,包括步骤:
步骤41:将分配了标签的集合(L+U)按标签分成两个子集X+和X-,其中X+是具有标签+1的网页,X-是具有标签-1的网页;
步骤42:在集合X+和X-上,对词汇表中所有词汇统计以下用户兴趣类词汇表概率特征P(-1|t)、P(+1|t)为:
其中Ft+和Ft-分别是X+和X-中出现词汇t的网页数;ε是一个防止O分母的小常数;P(-1|t)、P(+1|t)整体记作P(Y|t),即其中Y的取值范围是{+1,-1};
步骤43:对用户兴趣类词汇表概率特征P(Y|t)进行选择:将所得的用户兴趣类词汇表概率特征P(Y|t)概率值列表按P(+1|t)值进行降序排序或者按P(-1|t)值进行升序排序,只保留列表中顶端nct个词汇的概率值和列表底端ncb个词汇的概率值,其它概率值统一设置为0.5;nct和ncb的取值根据具体词汇表的大小而定,nct取为词汇表大小的10%,ncb取为词汇表大小的30%。
5.按照权利要求1所述的可个性化定制的网页过滤方法,其特征在于,基于特征选择之后的用户兴趣类词汇表特征构造贝叶斯分类器,实现对目标网页的个性化过滤是:
对于一个新来的网页x,由条件全概率公式得:
其中Y的取值范围是{+1,-1},t是网页中的某一个词汇;设概率值P(Y|t,x)满足:
P(Y|t)=P(Y|t,x)
则P(Y|x)的计算公式可化为:
其中,P(Y|t)是经特征选择之后的用户兴趣类词汇表概率特征,P(t|x)是归一化后的词汇t在网页x中出现的频率,计算公式为:
最后比较计算出的P(+1|x)和P(-1|x),如果P(+1|x)>P(-1|x),则目标网页x被标记为+1且被过滤;反之则不过滤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007103042241A CN101470731B (zh) | 2007-12-26 | 2007-12-26 | 一种可个性化定制的网页过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007103042241A CN101470731B (zh) | 2007-12-26 | 2007-12-26 | 一种可个性化定制的网页过滤方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101470731A CN101470731A (zh) | 2009-07-01 |
CN101470731B true CN101470731B (zh) | 2012-06-20 |
Family
ID=40828207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007103042241A Active CN101470731B (zh) | 2007-12-26 | 2007-12-26 | 一种可个性化定制的网页过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101470731B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101794311B (zh) * | 2010-03-05 | 2012-06-13 | 南京邮电大学 | 基于模糊数据挖掘的中文网页自动分类方法 |
EP2606438A4 (en) * | 2010-08-20 | 2014-06-11 | Hewlett Packard Development Co | SYSTEMS AND METHODS SUITABLE FOR FILTERING THE CONTENT OF A WEB PAGE |
CN101986299A (zh) * | 2010-10-28 | 2011-03-16 | 浙江大学 | 基于超图的多任务个性化网络服务方法 |
CN103853720B (zh) * | 2012-11-28 | 2017-04-26 | 苏州信颐系统集成有限公司 | 基于用户关注度的网络敏感信息监控系统及方法 |
CN103078854B (zh) * | 2012-12-28 | 2016-04-13 | 北京亿赞普网络技术有限公司 | 报文过滤方法与装置 |
CN103268346B (zh) * | 2013-05-27 | 2016-08-10 | 翁时锋 | 半监督分类方法及系统 |
CN103366019B (zh) * | 2013-08-06 | 2016-09-28 | 飞天诚信科技股份有限公司 | 一种基于iOS设备的网页拦截方法和设备 |
CN104731833A (zh) * | 2013-12-24 | 2015-06-24 | 中兴通讯股份有限公司 | 网页布局方法和装置 |
CN105099996B (zh) * | 2014-04-30 | 2020-03-06 | 奇安信科技集团股份有限公司 | 网站验证方法及装置 |
CN103994771B (zh) * | 2014-05-06 | 2018-01-16 | 湖南商学院 | 一种景区智能导航应用系统及其使用方法 |
CN106156053B (zh) * | 2015-03-27 | 2020-01-10 | 阿里巴巴集团控股有限公司 | 网页换肤方法、装置及系统 |
CN105141508B (zh) * | 2015-09-10 | 2018-03-06 | 天津师范大学 | 一种基于近邻关系的微博系统朋友推荐方法 |
CN107291760A (zh) * | 2016-04-05 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 无监督的特征选择方法、装置 |
CN109033269A (zh) * | 2018-07-10 | 2018-12-18 | 卓源信息科技股份有限公司 | 一种分布式区域人才供需主题数据爬取方法 |
CN109408947A (zh) * | 2018-10-19 | 2019-03-01 | 杭州刀豆网络科技有限公司 | 一种基于机器学习的侵权网页判断方法 |
CN109670279A (zh) * | 2018-11-30 | 2019-04-23 | 成都知道创宇信息技术有限公司 | 一种网站灵活配置网页嵌入权限的方法 |
CN109815386B (zh) * | 2018-12-21 | 2022-04-29 | 厦门市美亚柏科信息股份有限公司 | 一种基于用户画像的构建方法、装置及存储介质 |
CN110113228B (zh) * | 2019-04-25 | 2020-12-18 | 新华三信息安全技术有限公司 | 一种网络连接检测方法及装置 |
CN110225055B (zh) * | 2019-06-22 | 2020-10-09 | 福州大学 | 一种基于knn半监督学习模型的网络流量异常检测方法与系统 |
CN111046283A (zh) * | 2019-12-04 | 2020-04-21 | 深圳前海微众银行股份有限公司 | 特征选择方法、装置、设备及存储介质 |
CN113688905A (zh) * | 2021-08-25 | 2021-11-23 | 中国互联网络信息中心 | 一种有害域名核验方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5800769A (en) * | 1996-02-26 | 1998-09-01 | Haskett; Thomas E. | Method for forming an electrostatic fibrous filter web |
CN1402156A (zh) * | 2001-08-22 | 2003-03-12 | 威瑟科技股份有限公司 | 网站信息提取系统与方法 |
-
2007
- 2007-12-26 CN CN2007103042241A patent/CN101470731B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5800769A (en) * | 1996-02-26 | 1998-09-01 | Haskett; Thomas E. | Method for forming an electrostatic fibrous filter web |
CN1402156A (zh) * | 2001-08-22 | 2003-03-12 | 威瑟科技股份有限公司 | 网站信息提取系统与方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101470731A (zh) | 2009-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101470731B (zh) | 一种可个性化定制的网页过滤方法 | |
Leung et al. | Integrating collaborative filtering and sentiment analysis: A rating inference approach | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
TWI424325B (zh) | 使用有機物件資料模型來組織社群智慧資訊的系統及方法 | |
CN106815297A (zh) | 一种学术资源推荐服务系统与方法 | |
CN102789498B (zh) | 基于集成学习的中文评论文本的情感分类方法与系统 | |
EP1736901B1 (en) | Method for classifying sub-trees in semi-structured documents | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
CN103309862B (zh) | 一种网页类型识别方法和系统 | |
CN106156272A (zh) | 一种基于多源语义分析的信息检索方法 | |
CN104820629A (zh) | 一种智能的舆情突发事件应急处理系统及方法 | |
CN106599054A (zh) | 一种题目分类及推送的方法及系统 | |
CN101216825A (zh) | 标引关键词提取/预测方法、在线广告推荐方法和装置 | |
CN111309936A (zh) | 一种电影用户画像的构建方法 | |
CN103177036A (zh) | 一种标签自动提取方法和系统 | |
CN111966888B (zh) | 融合外部数据的基于方面类别的可解释性推荐方法及系统 | |
CN111241410B (zh) | 一种行业新闻推荐方法及终端 | |
CN114254201A (zh) | 一种科技项目评审专家的推荐方法 | |
Li et al. | Misinformation-oriented expert finding in social networks | |
CN107609113A (zh) | 一种文本自动分类方法 | |
CN109710725A (zh) | 一种基于文本分类的中文表格列标签恢复方法和系统 | |
Musaev et al. | Fast text classification using randomized explicit semantic analysis | |
Melba Rosalind et al. | Predicting students’ satisfaction towards online courses using aspect-based sentiment analysis | |
CN109871429B (zh) | 融合Wikipedia分类及显式语义特征的短文本检索方法 | |
Anggara et al. | Analysis of Netizen Comments Sentiment on Public Official Statements on Instagram Social Media Accounts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |