CN102332028B - 一种面向网页的不良Web内容识别方法 - Google Patents

一种面向网页的不良Web内容识别方法 Download PDF

Info

Publication number
CN102332028B
CN102332028B CN 201110312691 CN201110312691A CN102332028B CN 102332028 B CN102332028 B CN 102332028B CN 201110312691 CN201110312691 CN 201110312691 CN 201110312691 A CN201110312691 A CN 201110312691A CN 102332028 B CN102332028 B CN 102332028B
Authority
CN
China
Prior art keywords
webpage
page
pornographic
feature
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110312691
Other languages
English (en)
Other versions
CN102332028A (zh
Inventor
郑庆华
刘子奇
刘均
田振华
程晓程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN 201110312691 priority Critical patent/CN102332028B/zh
Publication of CN102332028A publication Critical patent/CN102332028A/zh
Application granted granted Critical
Publication of CN102332028B publication Critical patent/CN102332028B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种面向网页的不良Web内容识别方法,按照如下步骤:(1)以待识别的网页Page为输入,提取网页视觉结构信息、HTML标签信息、链接信息以及正文信息;(2)采用2层识别模型识别该Page是否是不良内容网页:首先采用面向网页结构的不良内容识别模型判别Page,如果Page判为不良则输出;否则采用面向网页文本内容的识别模型判别Page并输出结果;面向网页结构的不良内容识别模型采用决策树模型学习不良网页在页面结构中的规律并完成分类。面向网页文本内容的识别模型基于色情词典采用规则过滤明显为正常的网页,对剩下的疑似色情网页要区分的性知识类网页和真正色情网页,构建正负例比例1∶1的训练数据,抽取特征词采用SVM分类模型学习规律并完成最终识别。

Description

一种面向网页的不良Web内容识别方法
技术领域
本发明涉及互联网中文本分类技术,特别涉及一种面向互联网中网页的不良Web内容识别方法,应用机器学习领域的特征抽取及分类技术完成最终的判别。
背景技术
随着互联网的飞速发展,不良网络文化内容充斥其中,色情网页的大量出现更是严重影响青少年的健康成长。自动识别互联网中充斥的各种色情网页亟待解决。申请人经过查新,检索到三篇与本发明相关的属于不良网络内容识别领域的专利文献,它们分别是:①基于内容的网络色情图像和不良图像检测系统(申请号200510048577.0)。②一种基于URL的不良网页识别方法(申请号200910023926.1)。③一种基于多分类器融合的敏感网页过滤方法及系统(申请号200710065181.6)。
在上述专利①中,发明人提出的检测系统含有图标检测子系统,筛选出多数为网站广告之类的窄条形状和尺寸太小的网络图像;文本检测子系统,判断出文本图像和可疑图像;颜色检测子系统,分析图像的颜色组成,通过颜色空间的实验比较建立肤色模型,通过检测网络图像肤色暴露程度,分离出网页正常图像和可疑图像;姿态检测子系统,建立色情标准图像特征库,作为判决是否为色情图像的匹配相似性的依据,区分出网页正常图像和可疑图像。
在专利②中,发明人提出的方法是通过URL主域名部分的语义分析和整个URL的结构分析来判别其是否为色情站点URL。判别时,提取了URL所包含的敏感串特征与结构特征两类特征作为判别的依据,并采用将和SVM算法综合起来的判别器最终综合特征进行二分类得到判别结果。该发明在不需要获取网页内容的情况下就可以进行不良网页内容判别,从而快速地识别不良网页。
在专利③中,处理对象是一幅网页,其处理结果是该网页是否包含敏感内容。系统基于多个分类器的协作,在给定网页的统一资源定位器的条件下,获取该网页的源代码,在预处理阶段进行文本和图像的分流,获取文本信息和有效图像信息;利用决策树算法将输入网页分为三种样式;利用连续文本分类器、离散敏感文本分类器和图像分类器对网页进行识别,根据各分类器识别的输出结果进行融合计算,给出判别因子,将最终结果返回给浏览器。
根据上述查新,现有技术主要存在以下两个方面的问题:
1.现有专利多采用直接识别文件对象中的图像信息的方式,通常色情页面包含大量图片信息,而现有图片识别技术的精度和效率都离实际应用有一定距离。
2.现有专利中大量基于文本内容的识别方法中,均没有考虑区分真正色情内容和疑似色情内容,如性保健、性知识等文本中同样会包含很多色情词汇。
在互联网高速发展的今天,不良内容网页充斥其中并快速增长。由于不良内容网页具有海量、动态的特点,人工检查的方式效率低下,自动、高效、准确的不良网页识别方法亟待提出。随着基于统计的分类模型技术的成熟,如SVM、决策树等模型的广泛应用,为不良网页识别提供了技术基础。
发明内容
本发明的目的是,一方面,利用页面结构信息构建不良页面识别器,利用机器学习的方法训练识别色情内容的分类器,在不考虑图片识别的前提下为针对该类页面的准确识别提供了新思路;另一方面,利用真正不良页面和疑似不良页面如性知识、性保健文本分别作为训练数据中的正例和负例,构造分类器识别这两类容易混淆的页面。
为达到以上目的,本发明是采取如下技术方案予以实现的:
一种面向网页的不良Web内容识别方法,其特征在于,包括下述步骤:
第一步,提取网页视觉结构、HTML标签、链接三类信息,分别从3类信息中提取12维特征,利用决策树构建的二元分类模型识别当前网页的12维特征,如果判定是不良网页,则标记该网页为不良网页,否则执行第二步;
第二步,提取网页文本内容和特定HTML标签内容,其中特定HTML标签包括title、A标签;由人工设置初始种子色情词汇19个并自动迭代生成最终色情词典,并通过学习到的规则判别正常页面和疑似色情页面;在此基础上,基于文档频率和信息增益方法在整个文档集上抽取特征词,利用SVM模型从疑似色情网页中识别色情网页;
其中,第一步所述的基于页面结构分析的识别方法包括如下具体步骤:
Step1:通过分析大量不良网站的页面,将视觉特征、HTML标签特征、链接特征三类特征具体细化为12维特征向量定义为Fstruct,包括F1,F2,F3,…,F12,其中每一维对应一个特征值,这些特征值对应如下:
视觉结构
A.F1:背景颜色BGColor;获取方法:背景颜色对应标签属性为“background”的属性值;特征值类型:枚举型;
B.F2:页面主体是否由一张大图片占据BigPicOccup;获取方法:检查img标签中图像的宽度和高度属性值;特征值类型:布尔型;
C.F3:图片个数PicN;获取方法:统计整个html中标签为IMG的个数;特征值类型:数值型;
D.F4:同级图片连续出现数目最大值MaxOccurPic;获取方法:统计html页面中所有兄弟节点中连续IMG标签个数;特征值类型:数值型;
E.F5:字体信息FontInfo;获取方法:检查font标签中face属性值、size属性值;特征值类型:枚举型;
链接结构
F.F6:出现超链接个数HyplinkN;获取方法:计算整个html页面中A标签个数;特征值类型:数值型;
G.F7:所有超链接实际指向的不同URL数目UrlOutN;获取方法:遍历整个html,每次遍历到A标签,判断如果该A标签中的URL是否在Hash表中存储,如果未存储则计数加1,并将该URL存储在Hash表中,否则继续遍历,直到遍历完整个html,最终的计数就是该特征值:特征值类型:数值型;
H.F8:同级超链接连续出现数目最大值MaxHyplinkOccurN;获取方法:经过BeautifulSoup解析html后得到一张树形结构,计算树中每个级别的连续A标签个数的最大值;特征值类型:数值型;
标签结构
F9锚文本长度Alen;获取方法:计算标签A中NavigableString的长度,NavigableString定义为起始<A>标签和结束</A>标签中间的字符;特征值类型:数值型;
F10:标签A中title属性长度TitleLen;获取方法:计算A标签中title属性对应的字符串的长度;特征值类型:数值型;
F11:Title标签包含的NavigableString长度TitleNavstrLen;获取方法:计算Title标签包含的NavigableString长度;特征值类型:数值型;
F12:Meta标签包含的NavigableString长度MetaNavstrLen;获取方法:计算Meta标签包含的NavigableString长度;特征值类型:数值型;
Step2:借助于HTML解析工具计算每一维特征值,并为每个页面生成对应的特征向量,特征向量中每一维值对应上述12维特征计算得到的特征值;
Step3:利用决策树J48方法训练得到判别模型,1)训练数据构造如下:从门户网站如新浪、腾讯、天涯论坛搜集正常网页作为正例,从色情网站搜集不良网页作为负例,正负样例比例为1∶10;2)取所有12维属性作为属性集Fstruct,包括F1,F2,F3,…,F12;3)遍历属性集中所有属性,分别计算每个属性对应的信息增益率,取具有最大信息增益率的属性F为当前根属性,并从属性集FStruct中删除该属性;4)重复步骤3)直到属性集为空或者当前根属性不再划分数据集;
Step4:对于输入网页,采用Step1、2中的方法计算该网页中的特征向量,并作为输入到Step3中训练出的决策树模型,最后判别输出该网页属于正常网页还是不良网页;
第二步所述的基于文本的识别方法包括如下具体步骤:
Step1:人工设定种子色情词汇,根据文档频率DF、共现句子频率CoSenFreq、最短距离MinDist和词性POS的指标生成色情词汇,并通过常领域文本集过滤,最终形成色情词典PornDic;
Step2:基于上一步生成的色情词典PornDic,结合规则识别正常网页NorPage和疑似色情网页SuspPage;
Step3:以色情网页和正常网页1∶1比例构造训练数据集,抽取特征词形成特征向量,最终通过SVM学习得到二元分类模型,识别疑似色情网页是否是真正色情网页。
上述方案中,第二步所述的自动迭代生成最终色情词典的方法包括如下具体步骤:
将色情小说、色情网页中的文本内容作为色情文本集PornCorpus,采用以下方案从色情文本集PornCorpus中抽取出色情词典:
Step1:人工设定种子色情词汇19个词,构成初始色情词典PornDic,对PornCorpus分词和词性标注处理得到PornTokenCorpus;
Step2:将满足如下条件的词汇添加到PornDic中:
1)文档频率DF大于阈值0.2;
2)与S中词汇共同出现的句子频率CoSenFreq大于0.3;
3)与S中词汇的最短距离MinDist小于2;
4)词性POS属于名词、形容词、或动词;
Step3:重复Step2过程直到每次迭代后PornDic大小增加量不超过词汇总量的10%,此步骤共生成N个色情词汇;
Step4:选择人民日报2008年的语料作为常用领域文本集,遍历PornDic词典中所有色情词汇,为每一个词汇计算:在常用领域文本集中出现的词汇频率Vfreq和该词汇的文档频率DF的乘积VfilterP,如果VfilterP超过0.001×0.05,从PornDic中删除该词汇,其中,词汇频率的计算方法为Vfreq=|Vi|/|V|,|Vi|为待计算词汇在整个文本集中出现的次数,|V|为文本集中所有词汇的个数,i取值从1到N;最终得到色情词典。
第二步所述的通过学习到的规则判别正常页面和疑似色情页面的方法包括如下步骤:
设待判别网页为Page,其中eroticwords_C(Page)指输入文件Page中出现的色情词汇个数,即属于色情词典S的词的个数,len(Page)指Page中包含的词汇总数,eroticsents_C(Page)指Page中出现的色情句子的个数,色情句子指包含色情词汇超过阈值p的句子,slen(Page)指Page包含的句子总数,eroticwords_minDis(Page)指Page中相邻色情词的最短距离,eroticsents_minDis(Page)指Page中相邻色情句的最短距离定义的规则如下:
vi.if eroticwords_C(Page)/len(Page)<r1,Page是正常网页;else if eroticwords_C(Page)/len(Page)>r2,Page是疑似色情网页;
vii.Else if eroticsents_C(Page)/slen(Page)<e1,Page是正常网页;else if eroticsents_C(Page)/slen(Page)>e2,Page是疑似色情网页;
viii.Else if eroticwords_minDis(Page)>LW1,Page是正常网页,elseif eroticwords_minDis(Page)<LW2,Page是疑似色情网页;
ix.Else if eroticsents_minDis(Page)>LS1,Page是正常网页;
x.Else Page是疑似色情网页
以上不等式右边的参数以及p值都需要通过从色情样本和常领域样本集学习得到,将这些数值分别设为:r1=0.01,r2=0.1,p=0.1,e1=0.05,e2=0.15,LW1=20,LW2=10,LS1=8。
第二步中所述的基于文档频率和信息增益方法在整个文档集上抽取特征词,利用SVM模型从疑似色情网页中识别色情网页包括如下步骤:
规则判别输出疑似不良网页,在此基础上,利用SVM分类算法对色情类和疑似色情类进行二类分类,其中色情类即正例主要为从色情网站获取的色情小说,疑似色情类即负例为性知识、性保健、生理卫生三类,具体流程如下:
Step1:构造训练数据:按照1∶1的文档比例数构造正例和负例,其中正例来自于色情网站获取的色情小说和色情网页中的纯文本;负例来自于门户网站新浪、腾讯中分类为性知识、性保健和生理卫生的网页;
Step2:分类训练:对所有训练数据,提取网页中正文、并对文本进行分词处理得到网页中所有出现的词,计算该网页对应的特征向量,最后学习一个基于SVM的分类模型Classifier;
Step2.1:预处理:去掉训练数据中网页的非文本信息,HTML标签信息,保留网页正文;借助于分词工具对文本进行分词处理;
Step2.2:特征提取和表示:采用BOW即bag-of-words模型来表征一个文档,基于文档频率DF、信息增益InfoGain过滤方法在整个文档集上进行特征词选择,最终选择的特征词共2630个,每个特征词的权值利用LTC权值计算方法得到,该方法分别对词频TF和文档频率DF值取对数,进行平滑处理,最后归一化;
Step2.3:学习一个基于SVM的分类模型Classifier;
Step3:分类预测:对于新需要判别的网页,通过Step2提取网页中正文、并对文本进行分词处理得到网页中所有出现的词,通过Step3计算该网页对应的特征向量,利用Step4中得到的Classifier判别该疑似色情网页属于正常网页还是不良网页。
与现有技术相比,本发明针对互联网中充斥的各种不良色情网页,综合考虑网页结构信息、链接结构信息、网页内容信息,具有高效、准确的特点。其中基于网页结构的决策树分类模型利用页面结构信息构建不良页面识别器,无需图像识别即可高效识别不良网页,基于文本内容的分类模型可以有效区分性知识等正常网页和真正的色情网页。
附图说明
图1为本发明的面向网页的不良Web内容识别流程。
图2为图1中的面向网页结构的不良网页识别流程。
图3为图1中面向网页内容的不良网页识别流程。
具体实施方式
为了更清楚的理解本发明,以下结合附图对本发明作进一步的详细描述。
参照图1所示,在不良网页判别过程中,首先通过HTML解析工具解析HTML文件,生成HTML解析树;接下来进入到网页结构分析和识别阶段,根据定义的12维特征抽取和计算网页对应的特征向量,利用决策树模型判别网页是否是不良网页;如果网页结构分析过程并未识别出该网页是不良网页,则进入文本内容识别阶段:人工构造初始种子色情词典并规则生成最终色情词典,利用该色情词典及定义的规则自动过滤掉非色情网页,剩下的疑似色情网页可能是真正的色情网页,也可能是性知识,最后通过训练的一个SVM分类器区分真正的色情网页和疑似色情网页。
该方法包括图2面向网页结构的不良网页识别和图3面向文本内容的不良网页识别两个部分。
面向网页结构的不良网页识别见图2。参照图2所示,首先使用网页结构信息对网页进行判别。结构信息包括链接信息、视觉信息以及标签信息。在现有图片识别技术精度和效率都不能达到很好效果,以及网页本身文字并不充分的情况下,网页结构信息对帮助机器自动识别不良网页提供了很好的思路。面向网页结构的不良网页识别主要包括以下步骤:
Step1:输入待识别网页Page;
Step2:抽取待识别网页Page的结构信息如:视觉结构信息、标签结构信息、链接结构信息,正文文本信息。利用Html解析器如Python的BeautifulSoup模块,解析Html页面中的视觉结构信息、标签结构信息、链接结构信息和正文文本信息,并计算特征向量。
Step2.1特征向量定义为(F1,F2,F3,…,F12),共12维,其中每一维对应一个特征值,这些特征值对应如下:
视觉结构
1)F1:背景颜色BGColor;获取方法:背景颜色对应标签属性为“background”的属性值;特征值类型:枚举型;
2)F2:页面主体是否由一张大图片占据BigPicOccup;获取方法:检查img标签中图像的宽度和高度属性值;特征值类型:布尔型;
3)F3:图片个数PicN;获取方法:统计整个html中标签为IMG的个数;特征值类型:数值型;
4)F4:同级图片连续出现数目最大值MaxOccurPic;获取方法:统计html页面中所有兄弟节点中连续IMG标签个数;特征值类型:数值型;
5)F5:字体信息FontInfo;获取方法:检查font标签中face属性值、size属性值;特征值类型:枚举型;
链接结构
6)F6:出现超链接个数HyplinkN;获取方法:计算整个html页面中A标签个数;特征值类型:数值型;
7)F7:所有超链接实际指向的不同URL数目UrlOutN;获取方法:遍历整个html,每次遍历到A标签,判断如果该A标签中的URL是否在Hash表中存储,如果未存储则计数加1,并将该URL存储在Hash表中,否则继续遍历,直到遍历完整个html,最终的计数就是该特征值:特征值类型:数值型;
8)F8:同级超链接连续出现数目最大值MaxHyplinkOccurN;获取方法:经过BeautifulSoup解析html后得到一张树形结构,计算树中每个级别的连续A标签个数的最大值;特征值类型:数值型;
标签结构
9)F9锚文本长度Alen;获取方法:计算标签A中NavigableString的长度,NavigableString定义为起始<A>标签和结束</A>标签中间的字符;特征值类型:数值型;
10)F10:标签A中title属性长度TitleLen;获取方法:计算A标签中title属性对应的字符串的长度;特征值类型:数值型;
11)F11:Title标签包含的NavigableString长度TitleNavstrLen;获取方法:计算Title标签包含的NavigableString长度;特征值类型:数值型;
12)F12:Meta标签包含的NavigableString长度MetaNavstrLen;获取方法:计算Meta标签包含的NavigableString长度;特征值类型:数值型;
Step2.2提取视觉结构信息,并计算特征值:1)背景颜色对应标签属性为“background”的属性值。该特征值为枚举型;2)页面主题是否由一张大图片占据:布尔型数值,检查img标签中图像的宽度和高度属性值;3)图片个数:数值型数值,统计整个html中标签为IMG的个数;4)同级图片连续出现数目最大值:数值型数值,统计html页面中所有兄弟节点中连续IMG标签个数;5)字体信息:枚举型数值,检查font标签中face属性值;6)字体大小信息:枚举型数值,检查font标签中size属性值;
Step2.3提取链接结构信息,并计算特征值:1)出现超链接个数:数值型数值,计算整个html页面中A标签个数;2)所有超链接实际指向的不同URL数目:数值型数值,遍历整个html,每次遍历到A标签,判断如果该A标签中的URL是否在Hash表中存储,如果未存储则计数加1,并将该URL存储在Hash表中,否则继续遍历,直到遍历完整个html,最终的计数就是该特征值;3)同级超链接连续出现数目最大值:数值型数值,经过BeautifulSoup解析html后得到一张树形结构,计算树中每个级别的连续A标签个数的最大值;
Step2.4提取标签结构信息,并计算特征值:1)锚文本长度:数值型数值,计算标签A中NavigableString的长度,NavigableString定义为起始<A>标签和结束</A>标签中间的字符;2)标签A中title属性长度:数值型数值,计算A标签中title属性对应的字符串的长度;3)分别计算Title、Meta标签包含的NavigableString长度;
Step3利用决策树算法J48判别网页Page是否是不良网页。利用决策树J48方法训练得到判别模型,决策树模型每次选择能最优划分数据集中正负样例的属性作为判别属性,如果当前属性不能完全区分训练数据中的正负样例,再选择次优的判别属性,一直迭代到能够完全区分正负样例,其中最优属性选择方法由信息增益计算;
Step3.1决策树J48算法根据收集到的训练数据训练决策树判别模型;
Step3.1.1训练数据构造如下:从门户网站如新浪、腾讯、天涯论坛搜集正常网页作为正例,从色情网站搜集不良网页作为负例,正负样例比例为1∶10;
Step3.1.2取所有12维属性作为属性集FStruct(F1,F2,F3,…,F12);
Step3.1.3遍历属性集中所有属性,分别计算每个属性对应的信息增益率InfoGain,取具有最大信息增益率的属性F为当前根属性,并从属性集FStruct(F1,F2,F3,…,F12)中删除该属性F。信息增益是很有效的特征选择方法。特征T给系统带来的信息增益就可以写成系统原本的熵与固定特征T后的条件熵之差,即公式(1)所示:
Gain ( t ) = Entropy ( S ) - Expected Entropy ( S t )
= { - &Sigma; i = 1 M P ( c i ) log P ( c i ) } -
[ P ( t ) { - &Sigma; i = 1 M P ( c i | t ) log P ( c i | t ) } + - - - ( 1 )
P ( t &OverBar; ) { - &Sigma; i = 1 M P ( c i | t &OverBar; ) log P ( c i | t &OverBar; ) } ]
其中S为系统原本的熵,St为固定特征t后的条件熵,M为类标签个数,本方法该值为2,t代表当前选定属性。
Step3.1.4重复Step3.1.3直到属性集FStruct(F1,F2,F3,…,F12)为空或者当前根属性不再划分数据集。
Step3.2对于新的待判断不良内容的网页Page,根据Step2中的过程抽取该网页的特征向量,根据Step3.1中获得的决策树J48模型判断该网页是否是不良内容的网页。表1和表2分别给出了该方法的交叉验证判别实验结果和在测试集上的判别实验结果。通过实验发现采用决策树J48方法能获得最好的分类效果,采用10折交叉验证的结果如表1所示,测试集上结果如表2所示,其判别精度在测试集上同样令人满意。由于文本识别器在对文本信息较少的页面进行判别时很可能失效,通常这类色情页面包含大量图片、超链接信息,而图片识别的精度和效率都离实际应用有一定距离。
表1交叉验证判别结果
Figure BDA0000099000940000111
表2测试集上的判别结果
Figure BDA0000099000940000112
参照图3所示,在面向网页结构的不良网页判别方法无法判别该网页为不良网页的情况下,使用网页内容信息对网页进行判别。面向网页内容的不良网络识别方法首先利用色情词典过滤掉大部分正常网页,对于剩下的疑似色情页面,训练SVM分类器判别真正的色情页面和疑似色情页面,如性知识等页面。该部分主要包括以下步骤:
Step1:利用BeatifulSoup模块解析title标签、A标签、P标签,并提取标签中的文本内容;
Step2:构造色情词典,将色情小说、色情网页中的文本内容作为色情文本集PornCorpus,采用以下方案从色情文本集PornCorpus中抽取出色情词典:首先,人工设定种子色情词汇19个词,组成初始色情词典PornDic,对PornCorpus分词和词性标注处理得到PornTokenCorpus,再将满足如下条件的词汇自动添加到PornDic中:
1)文档频率DF大于阈值0.2;
2)与S中词汇共同出现的句子频率CoSenFreq大于0.3;
3)与S中词汇的最短距离MinDist小于2;
4)词性POS属于名词、形容词、或动词;
重复以上过程直到每次迭代后PornDic大小增加量不超过词汇总量的10%,此时生成色情词汇N个。最后选择人民日报2008年的语料作为常用领域文本集,遍历PornDic词典中所有色情词汇,为每一个词汇计算:在常用领域文本集中出现的词汇频率Vfreq和该词汇的文档频率DF的乘积VfilterP,如果VfilterP超过0.001×0.05,从PornDic中删除该词汇,其中,词汇频率的计算方法为Vfreq=|Vi|/|V|,|Vi|为待计算词汇在整个文本集中出现的次数,|V|为文本集中所有词汇的个数,i取值从1到N;最终得到色情词典,大小为170。
Step3:利用规则识别正常网页和疑似网页
设待判别网页为Page,其中eroticwords_C(Page)指输入文件Page中出现的色情词汇个数,即属于色情词典S的词的个数,len(Page)指Page中包含的词汇总数,eroticsents_C(Page)指Page中出现的色情句子的个数,色情句子指包含色情词汇超过阈值p的句子,slen(Page)指Page包含的句子总数,eroticwords_minDis(Page)指Page中相邻色情词的最短距离,eroticsents_minDis(Page)指Page中相邻色情句的最短距离定义的规则如下:
1)if eroticwords_C(Page)/len(Page)<r1,Page是正常网页;else if eroticwords_C(Page)/len(Page)>r2,Page是疑似色情网页
2)Else if eroticsents_C(Page)/slen(Page)<e1,Page是正常网页;else if eroticsents_C(Page)/slen(Page)>e2,Page是疑似色情网页
3)Else if eroticwords_minDis(Page)>LW1,Page是正常网页,else if eroticwords_minDis(Page)<LW2,Page是疑似色情网页
4)Else if eroticsents_minDis(Page)>LS1,Page是正常网页
5)Else Page是疑似色情网页
以上不等式右边的参数以及p值都需要通过从色情样本和常领域样本集学习得到,将这些数值分别设为:r1=0.01,r2=0.1,p=0.1,e1=0.05,e2=0.15,LW1=20,LW2=10,LS1=8。
Step4:基于SVM的疑似色情网页分类
规则判别输出疑似不良网页,利用SVM分类算法对色情类和疑似色情类进行二类分类,其中色情类主要为从色情网站获取的色情小说,疑似色情类为性知识、性保健、生理卫生三类。
Step4.1构造训练数据:按照1∶1的文档比例数构造正例和负例,其中正例来自于色情网站获取的色情小说和色情网页中的纯文本;负例来自于门户网站新浪、腾讯中分类为性知识、性保健和生理卫生的网页,各类训练样本集均采用3000篇网页;
Step4.2预处理:对文档集进行中文分词处理。此时,Web页面完全被当做纯文本文档来对待,中文分词工具借助于中科院分词工具ICTCLAS2.0。该分词工具将文本中的字符串分成在当前语义背景下具有独立意义的词语。
Step4.3特征选择:采用bag-of-words来表征一个文档,首先将整个文本集中所有分词得到的词作为一个元素添加到词典集合V中,可以将该V看作一个向量{v1,v2,…,vN},其中N是该词典的大小,该向量每一维对应V中的每一个词。其次,基于文档频率、信息增益选择方法在整个文档集上进行特征词选择,最终选择的特征词共2630个。特征选择方法具体为:对每个词计算:
1)如果文档频率大于tDF1,说明该词没有区分度,反之,如果文档频率小于tDF2,说明该词不具代表性,均过滤该词。其中文档频率计算方法为:文档频率=包含该词的文档数/文档总数。设tDF1=0.55,tDF2=0.5
2)如果信息增益小于tINFG,过滤该词。信息增益的计算方法见公式(1)所示。
Step4.4特征表示:为每个文档生成特征向量,其中每维特征对应的特征值利用LTC权值计算方法得到,LTC特征表示方法作为tfidf方法的改进版,针对tfidf加入了平滑机制和归一化,其计算公式如公式(2)所示。其中下表i、j分别代表文档和特征词。
a ij = log ( TF ij + 1.0 ) * log ( N / DF i ) &Sigma; k [ log ( TF ij + 1.0 ) * log ( N / DF k ) ] 2 - - - ( 2 )
Step4.5分类训练:将网页对应的特征向量连同该网页的分类标签作为输入给SVM分类算法来训练文本分类器,具体的训练过程借助于LIBSVM工具包;
Step4.6分类预测:对于新需要判别的网页,提取网页中正文,预处理得到分词处理后的结果,计算网页对应的特征向量,通过网页对应的特征向量和SVM分类模型判断该网页属于正常网页还是不良网页,具体的测试过程借助于LIBSVM工具包。
实验评测:实验中的正例为色情页面,负例为性知识页面。实验数据集包含正例为1864个,负例3129个。将其均匀划分为大小为3993的测试集和大小为1000的测试集。对于整个数据集使用规则判别时,色情类准确率高于90%,而性知识类的准确率仅为70%,由此可见基于规则的判别并不能较好地区分出性知识类页面。使用在训练集上学习到的SVM分类器在测试集上判别两个类别的准确率和召回率均大于96%,其中色情页面的正确率高达98%。此外,重新构建新的测试集来测试训练模型的泛化能力,选择色情小说1862篇和来自qq.com上的性知识文本912篇进行测试,分类正确率2616/2774=94.3%。结果显示,该方法得到的识别模型可以获得非常好的性能。

Claims (5)

1.一种面向网页的不良Web内容识别方法,其特征在于,包括如下步骤:
第一步,提取网页视觉结构、HTML标签、链接三类信息,分别从3类信息中提取12维特征,利用决策树构建的二元分类模型识别当前网页的12维特征,如果判定是不良网页,则标记该网页为不良网页,否则执行第二步;
第二步,提取网页文本内容和特定HTML标签内容,其中特定HTML标签包括title、A标签;由人工设置初始种子色情词汇并自动迭代生成最终色情词典,并通过学习到的规则判别正常页面和疑似色情页面;在此基础上,基于文档频率和信息增益方法在整个文档集上抽取特征词,利用SVM模型从疑似色情网页中识别色情网页;
所述第一步包括如下具体步骤:
Step1:通过分析大量不良网站的页面,将视觉结构特征、HTML标签特征、链接特征三类特征具体细化为12维特征向量定义为Fstruct,包括F1,F2,F3,…,F12,其中每一维对应一个特征值,这些特征值对应如下:
视觉结构特征
A.F1:背景颜色BGColor;获取方法:背景颜色对应标签属性为“background”的属性值;特征值类型:枚举型;
B.F2:页面主体是否由一张大图片占据BigPicOccup;获取方法:检查IMG标签中图像的宽度和高度属性值;特征值类型:布尔型;
C.F3:图片个数PicN;获取方法:统计整个html页面中标签为IMG的个数;特征值类型:数值型;
D.F4:同级图片连续出现数目最大值MaxOccurPic;获取方法:统计html页面中所有兄弟节点中连续IMG标签个数;特征值类型:数值型;
E.F5:字体信息FontInfo;获取方法:检查font标签中face属性值、size属性值;特征值类型:枚举型;
链接特征
F.F6:出现超链接个数HyplinkN;获取方法:计算整个html页面中A标签个数;特征值类型:数值型;
G.F7:所有超链接实际指向的不同URL数目UrlOutN;获取方法:遍历整个html页面,每次遍历到A标签,判断如果该A标签中的URL是否在Hash表中存储,如果未存储则计数加1,并将该URL存储在Hash表中,否则继续遍历,直到遍历完整个html页面,统计最终的计数:特征值类型:数值型;
H.F8:同级超链接连续出现数目最大值MaxHyplinkOccurN;获取方法:经过BeautifulSoup解析html页面后得到一张树形结构,计算树中每个级别的连续A标签个数的最大值;特征值类型:数值型;
HTML标签特征
I.F9锚文本长度Alen;获取方法:计算标签A中NavigableString的长度,NavigableString定义为起始<A>标签和结束</A>标签中间的字符;特征值类型:数值型;
J.F10:标签A中title属性长度TitleLen;获取方法:计算A标签中title属性对应的字符串的长度;特征值类型:数值型;
K.F11:Title标签包含的NavigableString长度TitleNavstrLen;获取方法:计算Title标签包含的NavigableString长度;特征值类型:数值型;
L.F12:Meta标签包含的NavigableString长度MetaNavstrLen;获取方法:计算Meta标签包含的NavigableString长度;特征值类型:数值型;
Step2:借助于HTML解析工具计算每一维特征值,并为每个页面生成对应的特征向量,特征向量中每一维值对应上述12维特征计算得到的特征值;
Step3:利用决策树J48方法训练得到判别模型,1)训练数据构造如下:从门户网站新浪、腾讯、天涯论坛搜集正常网页作为正例,从色情网站搜集不良网页作为负例,正负样例比例为1:10;2)取所有12维特征作为特征集Fstruct,包括F1,F2,F3,…,F12;3)遍历特征集中所有特征,分别计算每个特征对应的信息增益率,取具有最大信息增益率的特征F为当前根特征,并从特征集FStruct中删除该特征;4)重复步骤3)直到特征集为空或者当前根特征不再划分数据集;
Step4:对于输入网页,采用Step1、2中的方法计算该网页中的特征向量,并作为输入到Step3中训练出的决策树模型,最后判别输出该网页属于正常网页还是不良网页;
所述第二步包括如下具体步骤:
Step1:人工设定种子色情词汇,根据文档频率DF、共现句子频率CoSenFreq、最短距离MinDist和词性POS的指标生成色情词汇,并通过常用领域文本集过滤,最终形成色情词典PornDic;
Step2:基于上一步生成的色情词典PornDic,结合规则识别正常网页NorPage和疑似色情网页SuspPage;
Step3:以真正色情网页和疑似色情网页1:1比例构造训练数据集,抽取特征词形成特征向量,最终通过SVM模型学习得到二元分类模型,识别疑似色情网页是否是真正色情网页。
2.如权利要求1所述的面向网页的不良Web内容识别方法,其特征在于:第二步中所述的自动迭代生成最终色情词典的方法包括如下具体步骤:
将色情小说、色情网页中的文本内容作为色情文本集PornCorpus,采用以下方案从色情文本集PornCorpus中抽取出色情词典:
Step1:人工设定种子色情词汇19个词,构成初始色情词典PornDic,对PornCorpus分词和词性标注处理得到PornTokenCorpus;
Step2:将满足如下条件的词汇添加到PornDic中:
1)文档频率DF大于阈值0.2;
2)与PornDic中词汇共同出现的句子频率CoSenFreq大于0.3;
3)与PornDic中词汇的最短距离MinDist小于2;
4)词性POS属于名词、形容词、或动词;
Step3:重复上一步过程直到每次迭代后PornDic大小增加量不超过词汇总量的10%,此步骤共生成N个色情词汇;
Step4:选择人民日报2008年的语料作为常用领域文本集,遍历PornDic词典中所有色情词汇,为每一个词汇计算:在常用领域文本集中出现的词汇频率Vfreq和该词汇的文档频率DF的乘积VfilterP,如果VfilterP超过0.001×0.05,从PornDic中删除该词汇,其中,词汇频率的计算方法为Vfreq=|Vi|/|V|,|Vi|为待计算词汇在整个文本集中出现的次数,|V|为文本集中所有词汇的个数,i取值从1到N;最终得到色情词典。
3.如权利要求1所述的面向网页的不良Web内容识别方法,其特征在于:第二步所述的通过学习到的规则判别正常页面和疑似色情页面的方法包括如下步骤:
设待判别网页为Page,其中eroticwords_C(Page)指输入文件Page中出现的色情词汇个数,即属于色情词典S的词的个数,len(Page)指Page中包含的词汇总数,eroticsents_C(Page)指Page中出现的色情句子的个数,色情句子指包含色情词汇超过阈值p的句子,slen(Page)指Page包含的句子总数,eroticwords_minDis(Page)指Page中相邻色情词的最短距离,eroticsents_minDis(Page)指Page中相邻色情句的最短距离,规则的定义如下:
i.if eroticwords_C(Page)/len(Page)<r1,Page是正常网页;
else if eroticwords_C(Page)/len(Page)>r2,Page是疑似色情网页;
ii.Else if eroticsents_C(Page)/slen(Page)<e1,Page是正常网页;else if eroticsents_C(Page)/slen(Page)>e2,Page是疑似色情网页;
iii.Else if eroticwords_minDis(Page)>LW1,Page是正常网页,elseif eroticwords_minDis(Page)<LW2,Page是疑似色情网页;
iv.Else if eroticsents_minDis(Page)>LS1,Page是正常网页;
v.Else Page是疑似色情网页
以上不等式右边的参数以及p值都需要通过从色情样本和常领域样本集学习得到,将这些数值分别设为:r1=0.01,r2=0.1,p=0.1,e1=0.05,e2=0.15,LW1=20,LW2=10,LS1=8。
4.如权利要求1所述的面向网页的不良Web内容识别方法,其特征在于:第二步中所述的基于文档频率和信息增益方法在整个文档集上抽取特征词,利用SVM模型从疑似色情网页中识别色情网页包括如下步骤:
规则判别输出疑似不良网页,在此基础上,利用SVM分类算法对色情类和疑似色情类进行二类分类,其中色情类即正例主要为从色情网站获取的色情小说,疑似色情类即负例为性知识、性保健、生理卫生三类,具体流程如下:
Step1:构造训练数据:按照1:1的文档比例数构造正例和负例,其中正例来自于色情网站获取的色情小说和色情网页中的纯文本;负例来自于门户网站新浪、腾讯中分类为性知识、性保健和生理卫生的网页;
Step2:分类训练:对所有训练数据,提取网页中正文、并对文本进行分词处理得到网页中所有出现的词作为候选特征词,基于文档频率和信息增益方法进行特征选择并得到特征词,最后学习一个基于SVM的分类模型Classifier;
Step3:分类预测:对于新需要判别的网页,提取网页中正文、并对文本进行分词处理得到网页中所有出现的词,根据上一步分类训练得到的特征词计算该网页对应的特征向量,利用Classifier判别该疑似色情网页属于正常网页还是不良网页。
5.如权利要求4所述的面向网页的不良Web内容识别方法,其特征在于:所述分类训练包括如下具体步骤:
Step2.1:预处理:去掉训练数据中网页的非文本信息,HTML标签信息,保留网页正文;借助于分词工具对文本进行分词处理;
Step2.2:特征选择和表示:采用BOW即bag-of-words模型来表征一个文档,基于文档频率DF、信息增益InfoGain过滤方法在整个文档集上进行特征词选择,最终选择的特征词共2630个,每个特征词的权值利用LTC权值计算方法得到,该方法分别对词频TF和文档频率DF值取对数,进行平滑处理,最后归一化;
Step2.3:学习一个基于SVM的分类模型Classifier。
CN 201110312691 2011-10-15 2011-10-15 一种面向网页的不良Web内容识别方法 Expired - Fee Related CN102332028B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110312691 CN102332028B (zh) 2011-10-15 2011-10-15 一种面向网页的不良Web内容识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110312691 CN102332028B (zh) 2011-10-15 2011-10-15 一种面向网页的不良Web内容识别方法

Publications (2)

Publication Number Publication Date
CN102332028A CN102332028A (zh) 2012-01-25
CN102332028B true CN102332028B (zh) 2013-08-28

Family

ID=45483804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110312691 Expired - Fee Related CN102332028B (zh) 2011-10-15 2011-10-15 一种面向网页的不良Web内容识别方法

Country Status (1)

Country Link
CN (1) CN102332028B (zh)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902557B (zh) * 2012-12-26 2018-01-30 中国移动通信集团贵州有限公司 一种色情信息源的定位方法和系统
CN103944933A (zh) * 2013-01-18 2014-07-23 珠海市君天电子科技有限公司 广告监管方法及广告监管装置
CN103324722A (zh) * 2013-06-27 2013-09-25 苏州创智宏云信息科技有限公司 一种信息搜索系统
CN103473299B (zh) * 2013-09-06 2017-02-08 北京锐安科技有限公司 一种网站不良似然度获取方法和装置
CN104809125A (zh) * 2014-01-24 2015-07-29 腾讯科技(深圳)有限公司 一种网页类别的识别方法和装置
CN103886088B (zh) * 2014-03-28 2017-05-17 北京金山网络科技有限公司 一种拦截网页中的广告的方法及装置
CN103984770B (zh) * 2014-06-03 2017-02-22 袁运来 一种划分网页语义模块的方法
CN104317891B (zh) * 2014-10-23 2017-11-28 华为软件技术有限公司 一种对页面标注标签的方法及装置
CN104375983A (zh) * 2014-11-21 2015-02-25 无锡科思电子科技有限公司 网络上传文件中敏感轨迹的检测系统
CN104702492B (zh) * 2015-03-19 2019-10-18 百度在线网络技术(北京)有限公司 垃圾消息模型训练方法、垃圾消息识别方法及其装置
CN106303757B (zh) * 2015-06-23 2019-07-16 中国科学院信息工程研究所 一种基于视觉特征及流还原的网络音视频地址解析方法
US9984068B2 (en) * 2015-09-18 2018-05-29 Mcafee, Llc Systems and methods for multilingual document filtering
CN105760439B (zh) * 2016-02-02 2018-12-07 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法
FI20165240A (fi) * 2016-03-22 2017-09-23 Utopia Analytics Oy Menetelmä, järjestelmä ja väline sisällön moderointiin
CN107239701B (zh) 2016-03-29 2020-06-26 腾讯科技(深圳)有限公司 识别恶意网站的方法及装置
CN107784034B (zh) * 2016-08-31 2021-05-25 北京搜狗科技发展有限公司 页面类别识别方法及装置、用于页面类别识别的装置
CN107153716B (zh) * 2017-06-06 2021-01-01 百度在线网络技术(北京)有限公司 网页内容提取方法和装置
CN107957872A (zh) * 2017-10-11 2018-04-24 中国互联网络信息中心 一种完整网站源码获取方法及非法网站检测方法、系统
CN107832925A (zh) * 2017-10-20 2018-03-23 阿里巴巴集团控股有限公司 互联网内容风险评价方法、装置及服务器
CN108021940B (zh) * 2017-11-30 2023-04-18 中国银联股份有限公司 基于机器学习的数据分类方法及系统
CN108038173B (zh) * 2017-12-07 2021-11-26 广东工业大学 一种网页分类方法、系统及一种网页分类设备
CN110020258A (zh) * 2017-12-30 2019-07-16 惠州学院 一种基于近似图的url路径识别有害图片的方法及系统
CN109213862B (zh) * 2018-08-21 2020-11-24 北京京东尚科信息技术有限公司 物体识别方法和装置、计算机可读存储介质
CN109145117A (zh) * 2018-09-05 2019-01-04 杭州安恒信息技术股份有限公司 传销项目的奖金制度识别方法、装置及电子设备
CN110955855B (zh) * 2018-09-27 2023-06-02 花瓣云科技有限公司 一种信息拦截的方法、装置及终端
CN109446424B (zh) * 2018-10-30 2020-10-27 长春理工大学 一种无效地址网页过滤方法及系统
CN111339453A (zh) * 2018-12-19 2020-06-26 顺丰科技有限公司 导航页的判别方法和装置
CN109684844B (zh) * 2018-12-27 2020-11-20 北京神州绿盟信息安全科技股份有限公司 一种webshell检测方法、装置以及计算设备、计算机可读存储介质
CN110109804B (zh) * 2019-05-15 2023-03-17 北京字节跳动网络技术有限公司 展示信息落地页异常监控方法、装置、可读介质及服务器
CN110110252B (zh) * 2019-05-17 2021-01-15 北京市博汇科技股份有限公司 一种视听节目识别方法、装置及存储介质
CN110175288B (zh) * 2019-05-23 2020-05-19 中国搜索信息科技股份有限公司 一种面向青少年群体的文字和图像数据的过滤方法及系统
CN110516710A (zh) * 2019-07-25 2019-11-29 湖南星汉数智科技有限公司 网页分类方法、装置、计算机装置及计算机可读存储介质
CN110427579B (zh) * 2019-08-06 2020-12-01 南京邮电大学 一种基于chrome插件的危险网页识别方法
CN111259237B (zh) * 2020-01-13 2021-02-09 中国搜索信息科技股份有限公司 一种用于公众有害信息的识别方法
CN111401416B (zh) * 2020-03-05 2022-10-21 支付宝(杭州)信息技术有限公司 异常网站的识别方法、装置和异常对抗行为的识别方法
CN111984845B (zh) * 2020-08-17 2023-10-31 江苏百达智慧网络科技有限公司 网站错别字识别方法和系统
CN112528205B (zh) * 2020-12-22 2021-10-29 中科院计算技术研究所大数据研究院 一种网页主体信息提取方法、装置及存储介质
CN113297525B (zh) * 2021-06-17 2023-12-12 恒安嘉新(北京)科技股份公司 网页分类方法、装置、电子设备、及存储介质
US11861923B2 (en) 2021-12-31 2024-01-02 Huawei Technologies Co., Ltd. Methods, apparatuses, and computer-readable storage media for image-based sensitive-text detection

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100412888C (zh) * 2006-04-10 2008-08-20 中国科学院自动化研究所 基于内容的敏感网页识别方法
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法
AU2010306534B2 (en) * 2009-12-07 2012-08-23 Bloomberg Finance L.P. Unified content scanning and reporting engine

Also Published As

Publication number Publication date
CN102332028A (zh) 2012-01-25

Similar Documents

Publication Publication Date Title
CN102332028B (zh) 一种面向网页的不良Web内容识别方法
CN107315738B (zh) 一种文本信息的创新度评估方法
CN103309862B (zh) 一种网页类型识别方法和系统
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN104239485B (zh) 一种基于统计机器学习的互联网暗链检测方法
CN110059311A (zh) 一种面向司法文本数据的关键词提取方法及系统
CN108763484A (zh) 一种基于lda主题模型的法条推荐方法
CN110276054B (zh) 一种保险文本结构化实现方法
CN107193803A (zh) 一种基于语义的特定任务文本关键词提取方法
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN110334178A (zh) 数据检索方法、装置、设备及可读存储介质
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN108595525B (zh) 一种律师信息处理方法和系统
Watrianthos Sentiment analysis of traveloka app using naïve bayes classifier method
CN108763485A (zh) 一种基于文本相似度的裁判文书的证据链关系模型构建方法
CN101609450A (zh) 基于训练集的网页分类方法
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN106844349A (zh) 基于协同训练的垃圾评论识别方法
CN110377731A (zh) 投诉文本处理方法、装置、计算机设备及存储介质
CN103678310A (zh) 网页主题的分类方法及装置
CN110516074A (zh) 一种基于深度学习的网站主题分类方法及装置
CN113312474A (zh) 一种基于深度学习的法律文书的相似案件智能检索系统
CN110134934A (zh) 文本情感分析方法和装置
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN111159342A (zh) 一种基于机器学习的公园文本评论情绪打分方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130828

Termination date: 20171015

CF01 Termination of patent right due to non-payment of annual fee