CN102332028B

CN102332028B - 一种面向网页的不良Web内容识别方法

Info

Publication number: CN102332028B
Application number: CN 201110312691
Authority: CN
Inventors: 郑庆华; 刘子奇; 刘均; 田振华; 程晓程
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2011-10-15
Filing date: 2011-10-15
Publication date: 2013-08-28
Anticipated expiration: 2031-10-15
Also published as: CN102332028A

Abstract

本发明公开了一种面向网页的不良Web内容识别方法，按照如下步骤：(1)以待识别的网页Page为输入，提取网页视觉结构信息、HTML标签信息、链接信息以及正文信息；(2)采用2层识别模型识别该Page是否是不良内容网页：首先采用面向网页结构的不良内容识别模型判别Page，如果Page判为不良则输出；否则采用面向网页文本内容的识别模型判别Page并输出结果；面向网页结构的不良内容识别模型采用决策树模型学习不良网页在页面结构中的规律并完成分类。面向网页文本内容的识别模型基于色情词典采用规则过滤明显为正常的网页，对剩下的疑似色情网页要区分的性知识类网页和真正色情网页，构建正负例比例1∶1的训练数据，抽取特征词采用SVM分类模型学习规律并完成最终识别。

Description

一种面向网页的不良Web内容识别方法

技术领域

本发明涉及互联网中文本分类技术，特别涉及一种面向互联网中网页的不良Web内容识别方法，应用机器学习领域的特征抽取及分类技术完成最终的判别。

背景技术

随着互联网的飞速发展，不良网络文化内容充斥其中，色情网页的大量出现更是严重影响青少年的健康成长。自动识别互联网中充斥的各种色情网页亟待解决。申请人经过查新，检索到三篇与本发明相关的属于不良网络内容识别领域的专利文献，它们分别是：①基于内容的网络色情图像和不良图像检测系统(申请号200510048577.0)。②一种基于URL的不良网页识别方法(申请号200910023926.1)。③一种基于多分类器融合的敏感网页过滤方法及系统(申请号200710065181.6)。

在上述专利①中，发明人提出的检测系统含有图标检测子系统，筛选出多数为网站广告之类的窄条形状和尺寸太小的网络图像；文本检测子系统，判断出文本图像和可疑图像；颜色检测子系统，分析图像的颜色组成，通过颜色空间的实验比较建立肤色模型，通过检测网络图像肤色暴露程度，分离出网页正常图像和可疑图像；姿态检测子系统，建立色情标准图像特征库，作为判决是否为色情图像的匹配相似性的依据，区分出网页正常图像和可疑图像。

在专利②中，发明人提出的方法是通过URL主域名部分的语义分析和整个URL的结构分析来判别其是否为色情站点URL。判别时，提取了URL所包含的敏感串特征与结构特征两类特征作为判别的依据，并采用将和SVM算法综合起来的判别器最终综合特征进行二分类得到判别结果。该发明在不需要获取网页内容的情况下就可以进行不良网页内容判别，从而快速地识别不良网页。

在专利③中，处理对象是一幅网页，其处理结果是该网页是否包含敏感内容。系统基于多个分类器的协作，在给定网页的统一资源定位器的条件下，获取该网页的源代码，在预处理阶段进行文本和图像的分流，获取文本信息和有效图像信息；利用决策树算法将输入网页分为三种样式；利用连续文本分类器、离散敏感文本分类器和图像分类器对网页进行识别，根据各分类器识别的输出结果进行融合计算，给出判别因子，将最终结果返回给浏览器。

根据上述查新，现有技术主要存在以下两个方面的问题：

1.现有专利多采用直接识别文件对象中的图像信息的方式，通常色情页面包含大量图片信息，而现有图片识别技术的精度和效率都离实际应用有一定距离。

2.现有专利中大量基于文本内容的识别方法中，均没有考虑区分真正色情内容和疑似色情内容，如性保健、性知识等文本中同样会包含很多色情词汇。

在互联网高速发展的今天，不良内容网页充斥其中并快速增长。由于不良内容网页具有海量、动态的特点，人工检查的方式效率低下，自动、高效、准确的不良网页识别方法亟待提出。随着基于统计的分类模型技术的成熟，如SVM、决策树等模型的广泛应用，为不良网页识别提供了技术基础。

发明内容

本发明的目的是，一方面，利用页面结构信息构建不良页面识别器，利用机器学习的方法训练识别色情内容的分类器，在不考虑图片识别的前提下为针对该类页面的准确识别提供了新思路；另一方面，利用真正不良页面和疑似不良页面如性知识、性保健文本分别作为训练数据中的正例和负例，构造分类器识别这两类容易混淆的页面。

为达到以上目的，本发明是采取如下技术方案予以实现的：

一种面向网页的不良Web内容识别方法，其特征在于，包括下述步骤：

第一步，提取网页视觉结构、HTML标签、链接三类信息，分别从3类信息中提取12维特征，利用决策树构建的二元分类模型识别当前网页的12维特征，如果判定是不良网页，则标记该网页为不良网页，否则执行第二步；

第二步，提取网页文本内容和特定HTML标签内容，其中特定HTML标签包括title、A标签；由人工设置初始种子色情词汇19个并自动迭代生成最终色情词典，并通过学习到的规则判别正常页面和疑似色情页面；在此基础上，基于文档频率和信息增益方法在整个文档集上抽取特征词，利用SVM模型从疑似色情网页中识别色情网页；

其中，第一步所述的基于页面结构分析的识别方法包括如下具体步骤：

Step1：通过分析大量不良网站的页面，将视觉特征、HTML标签特征、链接特征三类特征具体细化为12维特征向量定义为Fstruct，包括F1，F2，F3，…，F12，其中每一维对应一个特征值，这些特征值对应如下：

视觉结构

A.F1：背景颜色BGColor；获取方法：背景颜色对应标签属性为“background”的属性值；特征值类型：枚举型；

B.F2：页面主体是否由一张大图片占据BigPicOccup；获取方法：检查img标签中图像的宽度和高度属性值；特征值类型：布尔型；

C.F3：图片个数PicN；获取方法：统计整个html中标签为IMG的个数；特征值类型：数值型；

D.F4：同级图片连续出现数目最大值MaxOccurPic；获取方法：统计html页面中所有兄弟节点中连续IMG标签个数；特征值类型：数值型；

E.F5：字体信息FontInfo；获取方法：检查font标签中face属性值、size属性值；特征值类型：枚举型；

链接结构

F.F6：出现超链接个数HyplinkN；获取方法：计算整个html页面中A标签个数；特征值类型：数值型；

G.F7：所有超链接实际指向的不同URL数目UrlOutN；获取方法：遍历整个html，每次遍历到A标签，判断如果该A标签中的URL是否在Hash表中存储，如果未存储则计数加1，并将该URL存储在Hash表中，否则继续遍历，直到遍历完整个html，最终的计数就是该特征值：特征值类型：数值型；

H.F8：同级超链接连续出现数目最大值MaxHyplinkOccurN；获取方法：经过BeautifulSoup解析html后得到一张树形结构，计算树中每个级别的连续A标签个数的最大值；特征值类型：数值型；

标签结构

F9锚文本长度Alen；获取方法：计算标签A中NavigableString的长度，NavigableString定义为起始<A>标签和结束</A>标签中间的字符；特征值类型：数值型；

F10：标签A中title属性长度TitleLen；获取方法：计算A标签中title属性对应的字符串的长度；特征值类型：数值型；

F11：Title标签包含的NavigableString长度TitleNavstrLen；获取方法：计算Title标签包含的NavigableString长度；特征值类型：数值型；

F12：Meta标签包含的NavigableString长度MetaNavstrLen；获取方法：计算Meta标签包含的NavigableString长度；特征值类型：数值型；

Step2：借助于HTML解析工具计算每一维特征值，并为每个页面生成对应的特征向量，特征向量中每一维值对应上述12维特征计算得到的特征值；

Step3：利用决策树J48方法训练得到判别模型，1)训练数据构造如下：从门户网站如新浪、腾讯、天涯论坛搜集正常网页作为正例，从色情网站搜集不良网页作为负例，正负样例比例为1∶10；2)取所有12维属性作为属性集Fstruct，包括F1，F2，F3，…，F12；3)遍历属性集中所有属性，分别计算每个属性对应的信息增益率，取具有最大信息增益率的属性F为当前根属性，并从属性集FStruct中删除该属性；4)重复步骤3)直到属性集为空或者当前根属性不再划分数据集；

Step4：对于输入网页，采用Step1、2中的方法计算该网页中的特征向量，并作为输入到Step3中训练出的决策树模型，最后判别输出该网页属于正常网页还是不良网页；

第二步所述的基于文本的识别方法包括如下具体步骤：

Step1：人工设定种子色情词汇，根据文档频率DF、共现句子频率CoSenFreq、最短距离MinDist和词性POS的指标生成色情词汇，并通过常领域文本集过滤，最终形成色情词典PornDic；

Step2：基于上一步生成的色情词典PornDic，结合规则识别正常网页NorPage和疑似色情网页SuspPage；

Step3：以色情网页和正常网页1∶1比例构造训练数据集，抽取特征词形成特征向量，最终通过SVM学习得到二元分类模型，识别疑似色情网页是否是真正色情网页。

上述方案中，第二步所述的自动迭代生成最终色情词典的方法包括如下具体步骤：

将色情小说、色情网页中的文本内容作为色情文本集PornCorpus，采用以下方案从色情文本集PornCorpus中抽取出色情词典：

Step1：人工设定种子色情词汇19个词，构成初始色情词典PornDic，对PornCorpus分词和词性标注处理得到PornTokenCorpus；

Step2：将满足如下条件的词汇添加到PornDic中：

1)文档频率DF大于阈值0.2；

2)与S中词汇共同出现的句子频率CoSenFreq大于0.3；

3)与S中词汇的最短距离MinDist小于2；

4)词性POS属于名词、形容词、或动词；

Step3：重复Step2过程直到每次迭代后PornDic大小增加量不超过词汇总量的10％，此步骤共生成N个色情词汇；

Step4：选择人民日报2008年的语料作为常用领域文本集，遍历PornDic词典中所有色情词汇，为每一个词汇计算：在常用领域文本集中出现的词汇频率Vfreq和该词汇的文档频率DF的乘积VfilterP，如果VfilterP超过0.001×0.05，从PornDic中删除该词汇，其中，词汇频率的计算方法为Vfreq＝|Vi|/|V|，|Vi|为待计算词汇在整个文本集中出现的次数，|V|为文本集中所有词汇的个数，i取值从1到N；最终得到色情词典。

第二步所述的通过学习到的规则判别正常页面和疑似色情页面的方法包括如下步骤：

设待判别网页为Page，其中eroticwords_C(Page)指输入文件Page中出现的色情词汇个数，即属于色情词典S的词的个数，len(Page)指Page中包含的词汇总数，eroticsents_C(Page)指Page中出现的色情句子的个数，色情句子指包含色情词汇超过阈值p的句子，slen(Page)指Page包含的句子总数，eroticwords_minDis(Page)指Page中相邻色情词的最短距离，eroticsents_minDis(Page)指Page中相邻色情句的最短距离定义的规则如下：

vi.if eroticwords_C(Page)/len(Page)＜r1，Page是正常网页；else if eroticwords_C(Page)/len(Page)＞r2，Page是疑似色情网页；

vii.Else if eroticsents_C(Page)/slen(Page)＜e1，Page是正常网页；else if eroticsents_C(Page)/slen(Page)＞e2，Page是疑似色情网页；

viii.Else if eroticwords_minDis(Page)＞LW1，Page是正常网页，elseif eroticwords_minDis(Page)＜LW2，Page是疑似色情网页；

ix.Else if eroticsents_minDis(Page)＞LS1，Page是正常网页；

x.Else Page是疑似色情网页

以上不等式右边的参数以及p值都需要通过从色情样本和常领域样本集学习得到，将这些数值分别设为：r1＝0.01，r2＝0.1，p＝0.1，e1＝0.05，e2＝0.15，LW1＝20，LW2＝10，LS1＝8。

第二步中所述的基于文档频率和信息增益方法在整个文档集上抽取特征词，利用SVM模型从疑似色情网页中识别色情网页包括如下步骤：

规则判别输出疑似不良网页，在此基础上，利用SVM分类算法对色情类和疑似色情类进行二类分类，其中色情类即正例主要为从色情网站获取的色情小说，疑似色情类即负例为性知识、性保健、生理卫生三类，具体流程如下：

Step1：构造训练数据：按照1∶1的文档比例数构造正例和负例，其中正例来自于色情网站获取的色情小说和色情网页中的纯文本；负例来自于门户网站新浪、腾讯中分类为性知识、性保健和生理卫生的网页；

Step2：分类训练：对所有训练数据，提取网页中正文、并对文本进行分词处理得到网页中所有出现的词，计算该网页对应的特征向量，最后学习一个基于SVM的分类模型Classifier；

Step2.1：预处理：去掉训练数据中网页的非文本信息，HTML标签信息，保留网页正文；借助于分词工具对文本进行分词处理；

Step2.2：特征提取和表示：采用BOW即bag-of-words模型来表征一个文档，基于文档频率DF、信息增益InfoGain过滤方法在整个文档集上进行特征词选择，最终选择的特征词共2630个，每个特征词的权值利用LTC权值计算方法得到，该方法分别对词频TF和文档频率DF值取对数，进行平滑处理，最后归一化；

Step2.3：学习一个基于SVM的分类模型Classifier；

Step3：分类预测：对于新需要判别的网页，通过Step2提取网页中正文、并对文本进行分词处理得到网页中所有出现的词，通过Step3计算该网页对应的特征向量，利用Step4中得到的Classifier判别该疑似色情网页属于正常网页还是不良网页。

与现有技术相比，本发明针对互联网中充斥的各种不良色情网页，综合考虑网页结构信息、链接结构信息、网页内容信息，具有高效、准确的特点。其中基于网页结构的决策树分类模型利用页面结构信息构建不良页面识别器，无需图像识别即可高效识别不良网页，基于文本内容的分类模型可以有效区分性知识等正常网页和真正的色情网页。

附图说明

图1为本发明的面向网页的不良Web内容识别流程。

图2为图1中的面向网页结构的不良网页识别流程。

图3为图1中面向网页内容的不良网页识别流程。

具体实施方式

为了更清楚的理解本发明，以下结合附图对本发明作进一步的详细描述。

参照图1所示，在不良网页判别过程中，首先通过HTML解析工具解析HTML文件，生成HTML解析树；接下来进入到网页结构分析和识别阶段，根据定义的12维特征抽取和计算网页对应的特征向量，利用决策树模型判别网页是否是不良网页；如果网页结构分析过程并未识别出该网页是不良网页，则进入文本内容识别阶段：人工构造初始种子色情词典并规则生成最终色情词典，利用该色情词典及定义的规则自动过滤掉非色情网页，剩下的疑似色情网页可能是真正的色情网页，也可能是性知识，最后通过训练的一个SVM分类器区分真正的色情网页和疑似色情网页。

该方法包括图2面向网页结构的不良网页识别和图3面向文本内容的不良网页识别两个部分。

面向网页结构的不良网页识别见图2。参照图2所示，首先使用网页结构信息对网页进行判别。结构信息包括链接信息、视觉信息以及标签信息。在现有图片识别技术精度和效率都不能达到很好效果，以及网页本身文字并不充分的情况下，网页结构信息对帮助机器自动识别不良网页提供了很好的思路。面向网页结构的不良网页识别主要包括以下步骤：

Step1：输入待识别网页Page；

Step2：抽取待识别网页Page的结构信息如：视觉结构信息、标签结构信息、链接结构信息，正文文本信息。利用Html解析器如Python的BeautifulSoup模块，解析Html页面中的视觉结构信息、标签结构信息、链接结构信息和正文文本信息，并计算特征向量。

Step2.1特征向量定义为(F1，F2，F3，…，F12)，共12维，其中每一维对应一个特征值，这些特征值对应如下：

视觉结构

1)F1：背景颜色BGColor；获取方法：背景颜色对应标签属性为“background”的属性值；特征值类型：枚举型；

2)F2：页面主体是否由一张大图片占据BigPicOccup；获取方法：检查img标签中图像的宽度和高度属性值；特征值类型：布尔型；

3)F3：图片个数PicN；获取方法：统计整个html中标签为IMG的个数；特征值类型：数值型；

4)F4：同级图片连续出现数目最大值MaxOccurPic；获取方法：统计html页面中所有兄弟节点中连续IMG标签个数；特征值类型：数值型；

5)F5：字体信息FontInfo；获取方法：检查font标签中face属性值、size属性值；特征值类型：枚举型；

链接结构

6)F6：出现超链接个数HyplinkN；获取方法：计算整个html页面中A标签个数；特征值类型：数值型；

7)F7：所有超链接实际指向的不同URL数目UrlOutN；获取方法：遍历整个html，每次遍历到A标签，判断如果该A标签中的URL是否在Hash表中存储，如果未存储则计数加1，并将该URL存储在Hash表中，否则继续遍历，直到遍历完整个html，最终的计数就是该特征值：特征值类型：数值型；

8)F8：同级超链接连续出现数目最大值MaxHyplinkOccurN；获取方法：经过BeautifulSoup解析html后得到一张树形结构，计算树中每个级别的连续A标签个数的最大值；特征值类型：数值型；

标签结构

9)F9锚文本长度Alen；获取方法：计算标签A中NavigableString的长度，NavigableString定义为起始<A>标签和结束</A>标签中间的字符；特征值类型：数值型；

10)F10：标签A中title属性长度TitleLen；获取方法：计算A标签中title属性对应的字符串的长度；特征值类型：数值型；

11)F11：Title标签包含的NavigableString长度TitleNavstrLen；获取方法：计算Title标签包含的NavigableString长度；特征值类型：数值型；

12)F12：Meta标签包含的NavigableString长度MetaNavstrLen；获取方法：计算Meta标签包含的NavigableString长度；特征值类型：数值型；

Step2.2提取视觉结构信息，并计算特征值：1)背景颜色对应标签属性为“background”的属性值。该特征值为枚举型；2)页面主题是否由一张大图片占据：布尔型数值，检查img标签中图像的宽度和高度属性值；3)图片个数：数值型数值，统计整个html中标签为IMG的个数；4)同级图片连续出现数目最大值：数值型数值，统计html页面中所有兄弟节点中连续IMG标签个数；5)字体信息：枚举型数值，检查font标签中face属性值；6)字体大小信息：枚举型数值，检查font标签中size属性值；

Step2.3提取链接结构信息，并计算特征值：1)出现超链接个数：数值型数值，计算整个html页面中A标签个数；2)所有超链接实际指向的不同URL数目：数值型数值，遍历整个html，每次遍历到A标签，判断如果该A标签中的URL是否在Hash表中存储，如果未存储则计数加1，并将该URL存储在Hash表中，否则继续遍历，直到遍历完整个html，最终的计数就是该特征值；3)同级超链接连续出现数目最大值：数值型数值，经过BeautifulSoup解析html后得到一张树形结构，计算树中每个级别的连续A标签个数的最大值；

Step2.4提取标签结构信息，并计算特征值：1)锚文本长度：数值型数值，计算标签A中NavigableString的长度，NavigableString定义为起始<A>标签和结束</A>标签中间的字符；2)标签A中title属性长度：数值型数值，计算A标签中title属性对应的字符串的长度；3)分别计算Title、Meta标签包含的NavigableString长度；

Step3利用决策树算法J48判别网页Page是否是不良网页。利用决策树J48方法训练得到判别模型，决策树模型每次选择能最优划分数据集中正负样例的属性作为判别属性，如果当前属性不能完全区分训练数据中的正负样例，再选择次优的判别属性，一直迭代到能够完全区分正负样例，其中最优属性选择方法由信息增益计算；

Step3.1决策树J48算法根据收集到的训练数据训练决策树判别模型；

Step3.1.1训练数据构造如下：从门户网站如新浪、腾讯、天涯论坛搜集正常网页作为正例，从色情网站搜集不良网页作为负例，正负样例比例为1∶10；

Step3.1.2取所有12维属性作为属性集FStruct(F1，F2，F3，…，F12)；

Step3.1.3遍历属性集中所有属性，分别计算每个属性对应的信息增益率InfoGain，取具有最大信息增益率的属性F为当前根属性，并从属性集FStruct(F1，F2，F3，…，F12)中删除该属性F。信息增益是很有效的特征选择方法。特征T给系统带来的信息增益就可以写成系统原本的熵与固定特征T后的条件熵之差，即公式(1)所示：

Gain (t) = Entropy (S) - Expected Entropy (S_{t})

= {- Σ_{i = 1}^{M} P (c_{i}) \log P (c_{i})} -

[P (t) {- Σ_{i = 1}^{M} P (c_{i} | t) \log P (c_{i} | t)} + - - - (1)

P (\overset{&OverBar;}{t}) {- Σ_{i = 1}^{M} P (c_{i} | \overset{&OverBar;}{t}) \log P (c_{i} | \overset{&OverBar;}{t})}]

其中S为系统原本的熵，St为固定特征t后的条件熵，M为类标签个数，本方法该值为2，t代表当前选定属性。

Step3.1.4重复Step3.1.3直到属性集FStruct(F1，F2，F3，…，F12)为空或者当前根属性不再划分数据集。

Step3.2对于新的待判断不良内容的网页Page，根据Step2中的过程抽取该网页的特征向量，根据Step3.1中获得的决策树J48模型判断该网页是否是不良内容的网页。表1和表2分别给出了该方法的交叉验证判别实验结果和在测试集上的判别实验结果。通过实验发现采用决策树J48方法能获得最好的分类效果，采用10折交叉验证的结果如表1所示，测试集上结果如表2所示，其判别精度在测试集上同样令人满意。由于文本识别器在对文本信息较少的页面进行判别时很可能失效，通常这类色情页面包含大量图片、超链接信息，而图片识别的精度和效率都离实际应用有一定距离。

表1交叉验证判别结果

表2测试集上的判别结果

参照图3所示，在面向网页结构的不良网页判别方法无法判别该网页为不良网页的情况下，使用网页内容信息对网页进行判别。面向网页内容的不良网络识别方法首先利用色情词典过滤掉大部分正常网页，对于剩下的疑似色情页面，训练SVM分类器判别真正的色情页面和疑似色情页面，如性知识等页面。该部分主要包括以下步骤：

Step1：利用BeatifulSoup模块解析title标签、A标签、P标签，并提取标签中的文本内容；

Step2：构造色情词典，将色情小说、色情网页中的文本内容作为色情文本集PornCorpus，采用以下方案从色情文本集PornCorpus中抽取出色情词典：首先，人工设定种子色情词汇19个词，组成初始色情词典PornDic，对PornCorpus分词和词性标注处理得到PornTokenCorpus，再将满足如下条件的词汇自动添加到PornDic中：

1)文档频率DF大于阈值0.2；

2)与S中词汇共同出现的句子频率CoSenFreq大于0.3；

3)与S中词汇的最短距离MinDist小于2；

4)词性POS属于名词、形容词、或动词；

重复以上过程直到每次迭代后PornDic大小增加量不超过词汇总量的10％，此时生成色情词汇N个。最后选择人民日报2008年的语料作为常用领域文本集，遍历PornDic词典中所有色情词汇，为每一个词汇计算：在常用领域文本集中出现的词汇频率Vfreq和该词汇的文档频率DF的乘积VfilterP，如果VfilterP超过0.001×0.05，从PornDic中删除该词汇，其中，词汇频率的计算方法为Vfreq＝|Vi|/|V|，|Vi|为待计算词汇在整个文本集中出现的次数，|V|为文本集中所有词汇的个数，i取值从1到N；最终得到色情词典，大小为170。

Step3：利用规则识别正常网页和疑似网页

1)if eroticwords_C(Page)/len(Page)＜r1，Page是正常网页；else if eroticwords_C(Page)/len(Page)＞r2，Page是疑似色情网页

2)Else if eroticsents_C(Page)/slen(Page)＜e1，Page是正常网页；else if eroticsents_C(Page)/slen(Page)＞e2，Page是疑似色情网页

3)Else if eroticwords_minDis(Page)＞LW1，Page是正常网页，else if eroticwords_minDis(Page)＜LW2，Page是疑似色情网页

4)Else if eroticsents_minDis(Page)＞LS1，Page是正常网页

5)Else Page是疑似色情网页

Step4：基于SVM的疑似色情网页分类

规则判别输出疑似不良网页，利用SVM分类算法对色情类和疑似色情类进行二类分类，其中色情类主要为从色情网站获取的色情小说，疑似色情类为性知识、性保健、生理卫生三类。

Step4.1构造训练数据：按照1∶1的文档比例数构造正例和负例，其中正例来自于色情网站获取的色情小说和色情网页中的纯文本；负例来自于门户网站新浪、腾讯中分类为性知识、性保健和生理卫生的网页，各类训练样本集均采用3000篇网页；

Step4.2预处理：对文档集进行中文分词处理。此时，Web页面完全被当做纯文本文档来对待，中文分词工具借助于中科院分词工具ICTCLAS2.0。该分词工具将文本中的字符串分成在当前语义背景下具有独立意义的词语。

Step4.3特征选择：采用bag-of-words来表征一个文档，首先将整个文本集中所有分词得到的词作为一个元素添加到词典集合V中，可以将该V看作一个向量{v1，v2，…，vN}，其中N是该词典的大小，该向量每一维对应V中的每一个词。其次，基于文档频率、信息增益选择方法在整个文档集上进行特征词选择，最终选择的特征词共2630个。特征选择方法具体为：对每个词计算：

1)如果文档频率大于tDF1，说明该词没有区分度，反之，如果文档频率小于tDF2，说明该词不具代表性，均过滤该词。其中文档频率计算方法为：文档频率＝包含该词的文档数/文档总数。设tDF1＝0.55，tDF2＝0.5

2)如果信息增益小于tINFG，过滤该词。信息增益的计算方法见公式(1)所示。

Step4.4特征表示：为每个文档生成特征向量，其中每维特征对应的特征值利用LTC权值计算方法得到，LTC特征表示方法作为tfidf方法的改进版，针对tfidf加入了平滑机制和归一化，其计算公式如公式(2)所示。其中下表i、j分别代表文档和特征词。

a_{ij} = \frac{\log ({TF}_{ij} + 1.0) * \log (N / {DF}_{i})}{\sqrt{Σ_{k} {[\log ({TF}_{ij} + 1.0) * \log (N / {DF}_{k})]}^{2}}} - - - (2)

Step4.5分类训练：将网页对应的特征向量连同该网页的分类标签作为输入给SVM分类算法来训练文本分类器，具体的训练过程借助于LIBSVM工具包；

Step4.6分类预测：对于新需要判别的网页，提取网页中正文，预处理得到分词处理后的结果，计算网页对应的特征向量，通过网页对应的特征向量和SVM分类模型判断该网页属于正常网页还是不良网页，具体的测试过程借助于LIBSVM工具包。

实验评测：实验中的正例为色情页面，负例为性知识页面。实验数据集包含正例为1864个，负例3129个。将其均匀划分为大小为3993的测试集和大小为1000的测试集。对于整个数据集使用规则判别时，色情类准确率高于90％，而性知识类的准确率仅为70％，由此可见基于规则的判别并不能较好地区分出性知识类页面。使用在训练集上学习到的SVM分类器在测试集上判别两个类别的准确率和召回率均大于96％，其中色情页面的正确率高达98％。此外，重新构建新的测试集来测试训练模型的泛化能力，选择色情小说1862篇和来自qq.com上的性知识文本912篇进行测试，分类正确率2616/2774＝94.3％。结果显示，该方法得到的识别模型可以获得非常好的性能。

Claims

1.一种面向网页的不良Web内容识别方法，其特征在于，包括如下步骤：

第二步，提取网页文本内容和特定HTML标签内容，其中特定HTML标签包括title、A标签；由人工设置初始种子色情词汇并自动迭代生成最终色情词典，并通过学习到的规则判别正常页面和疑似色情页面；在此基础上，基于文档频率和信息增益方法在整个文档集上抽取特征词，利用SVM模型从疑似色情网页中识别色情网页；

所述第一步包括如下具体步骤：

Step1:通过分析大量不良网站的页面，将视觉结构特征、HTML标签特征、链接特征三类特征具体细化为12维特征向量定义为Fstruct，包括F1,F2,F3,…,F12，其中每一维对应一个特征值，这些特征值对应如下：

视觉结构特征

A.F1：背景颜色BGColor；获取方法:背景颜色对应标签属性为“background”的属性值；特征值类型：枚举型；

C.F3：图片个数PicN；获取方法：统计整个html页面中标签为IMG的个数；特征值类型：数值型；

链接特征

G.F7：所有超链接实际指向的不同URL数目UrlOutN；获取方法：遍历整个html页面，每次遍历到A标签，判断如果该A标签中的URL是否在Hash表中存储，如果未存储则计数加1，并将该URL存储在Hash表中，否则继续遍历，直到遍历完整个html页面，统计最终的计数：特征值类型：数值型；

H.F8：同级超链接连续出现数目最大值MaxHyplinkOccurN；获取方法：经过BeautifulSoup解析html页面后得到一张树形结构，计算树中每个级别的连续A标签个数的最大值；特征值类型：数值型；

HTML标签特征

I.F9锚文本长度Alen；获取方法：计算标签A中NavigableString的长度，NavigableString定义为起始<A>标签和结束</A>标签中间的字符；特征值类型：数值型；

J.F10：标签A中title属性长度TitleLen；获取方法：计算A标签中title属性对应的字符串的长度；特征值类型：数值型；

K.F11：Title标签包含的NavigableString长度TitleNavstrLen；获取方法：计算Title标签包含的NavigableString长度；特征值类型：数值型；

L.F12：Meta标签包含的NavigableString长度MetaNavstrLen；获取方法：计算Meta标签包含的NavigableString长度；特征值类型：数值型；

Step2:借助于HTML解析工具计算每一维特征值，并为每个页面生成对应的特征向量，特征向量中每一维值对应上述12维特征计算得到的特征值；

Step3:利用决策树J48方法训练得到判别模型，1）训练数据构造如下：从门户网站新浪、腾讯、天涯论坛搜集正常网页作为正例，从色情网站搜集不良网页作为负例，正负样例比例为1：10；2）取所有12维特征作为特征集Fstruct，包括F1,F2,F3,…,F12；3）遍历特征集中所有特征，分别计算每个特征对应的信息增益率，取具有最大信息增益率的特征F为当前根特征，并从特征集FStruct中删除该特征；4）重复步骤3）直到特征集为空或者当前根特征不再划分数据集；

所述第二步包括如下具体步骤：

Step1：人工设定种子色情词汇，根据文档频率DF、共现句子频率CoSenFreq、最短距离MinDist和词性POS的指标生成色情词汇，并通过常用领域文本集过滤，最终形成色情词典PornDic；

Step3：以真正色情网页和疑似色情网页1：1比例构造训练数据集，抽取特征词形成特征向量，最终通过SVM模型学习得到二元分类模型，识别疑似色情网页是否是真正色情网页。

2.如权利要求1所述的面向网页的不良Web内容识别方法，其特征在于：第二步中所述的自动迭代生成最终色情词典的方法包括如下具体步骤：

Step2：将满足如下条件的词汇添加到PornDic中：

1）文档频率DF大于阈值0.2；

2）与PornDic中词汇共同出现的句子频率CoSenFreq大于0.3；

3）与PornDic中词汇的最短距离MinDist小于2；

4）词性POS属于名词、形容词、或动词；

Step3：重复上一步过程直到每次迭代后PornDic大小增加量不超过词汇总量的10%，此步骤共生成N个色情词汇；

Step4：选择人民日报2008年的语料作为常用领域文本集，遍历PornDic词典中所有色情词汇，为每一个词汇计算：在常用领域文本集中出现的词汇频率Vfreq和该词汇的文档频率DF的乘积VfilterP，如果VfilterP超过0.001×0.05，从PornDic中删除该词汇，其中，词汇频率的计算方法为Vfreq=|Vi|/|V|，|Vi|为待计算词汇在整个文本集中出现的次数，|V|为文本集中所有词汇的个数，i取值从1到N；最终得到色情词典。

3.如权利要求1所述的面向网页的不良Web内容识别方法，其特征在于：第二步所述的通过学习到的规则判别正常页面和疑似色情页面的方法包括如下步骤：

设待判别网页为Page，其中eroticwords_C(Page)指输入文件Page中出现的色情词汇个数，即属于色情词典S的词的个数，len(Page)指Page中包含的词汇总数，eroticsents_C(Page)指Page中出现的色情句子的个数，色情句子指包含色情词汇超过阈值p的句子，slen(Page)指Page包含的句子总数，eroticwords_minDis(Page)指Page中相邻色情词的最短距离，eroticsents_minDis(Page)指Page中相邻色情句的最短距离，规则的定义如下：

i.if eroticwords_C(Page)/len(Page)<r1,Page是正常网页;

else if eroticwords_C(Page)/len(Page)>r2,Page是疑似色情网页；

ii.Else if eroticsents_C(Page)/slen(Page)<e1,Page是正常网页;else if eroticsents_C(Page)/slen(Page)>e2,Page是疑似色情网页；

iii.Else if eroticwords_minDis(Page)>LW1,Page是正常网页,elseif eroticwords_minDis(Page)<LW2,Page是疑似色情网页；

iv.Else if eroticsents_minDis(Page)>LS1,Page是正常网页；

v.Else Page是疑似色情网页

以上不等式右边的参数以及p值都需要通过从色情样本和常领域样本集学习得到，将这些数值分别设为：r1=0.01,r2=0.1,p=0.1,e1=0.05,e2=0.15,LW1=20,LW2=10,LS1=8。

4.如权利要求1所述的面向网页的不良Web内容识别方法，其特征在于：第二步中所述的基于文档频率和信息增益方法在整个文档集上抽取特征词，利用SVM模型从疑似色情网页中识别色情网页包括如下步骤：

Step1：构造训练数据：按照1：1的文档比例数构造正例和负例，其中正例来自于色情网站获取的色情小说和色情网页中的纯文本；负例来自于门户网站新浪、腾讯中分类为性知识、性保健和生理卫生的网页；

Step2：分类训练：对所有训练数据，提取网页中正文、并对文本进行分词处理得到网页中所有出现的词作为候选特征词，基于文档频率和信息增益方法进行特征选择并得到特征词，最后学习一个基于SVM的分类模型Classifier；

Step3：分类预测：对于新需要判别的网页，提取网页中正文、并对文本进行分词处理得到网页中所有出现的词，根据上一步分类训练得到的特征词计算该网页对应的特征向量，利用Classifier判别该疑似色情网页属于正常网页还是不良网页。

5.如权利要求4所述的面向网页的不良Web内容识别方法，其特征在于：所述分类训练包括如下具体步骤：

Step2.2：特征选择和表示：采用BOW即bag-of-words模型来表征一个文档，基于文档频率DF、信息增益InfoGain过滤方法在整个文档集上进行特征词选择，最终选择的特征词共2630个，每个特征词的权值利用LTC权值计算方法得到，该方法分别对词频TF和文档频率DF值取对数，进行平滑处理，最后归一化；

Step2.3：学习一个基于SVM的分类模型Classifier。