CN100412888C

CN100412888C - 基于内容的敏感网页识别方法

Info

Publication number: CN100412888C
Application number: CNB2006100731727A
Authority: CN
Inventors: 胡卫明; 吴偶; 陈周耀; 朱明亮
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2006-04-10
Filing date: 2006-04-10
Publication date: 2008-08-20
Anticipated expiration: 2026-04-10
Also published as: CN101055621A

Abstract

本发明公开一种基于内容的敏感网页识别方法，包括步骤：在给定网页的统一资源定位器的条件下，获取该网页的源码，数据分流和预处理，获取文本信息和有效图像信息；利用连续敏感文本分类器对文本信息处理，如果分类器输出结果为敏感，则处理完毕。否则利用离散敏感文本分类器对文本信息处理，如果分类器输出结果大于事先给定阈值，识别结果为敏感，则处理完毕。否则利用图像分类器对图像识别，识别结果与离散分类器输出结果融合。本发明采用连续敏感文本识别器、离散文本识别器和敏感图像识别器三者结合的方案解决现有技术的问题，本发明利用web结构信息及构造了一个图像集合识别问题来进行信息融合，提高对敏感网页的识别率。

Description

基于内容的敏感网页识别方法

技术领域

本发明涉及信息过滤技术领域，尤其涉及识别含有敏感信息的网页的方法。

背景技术

由于互联网敏感信息对于互联网用户尤其是青少年造成了极大的危害，因此引起了研究者和业界的广泛关注。

目前有很多种敏感信息过滤方法，包括黑白名单，IP过滤以及关键词匹配等等过滤手段。总的来说，一方面，这些过滤技术采用一种非常机械的方式，能够对一些敏感网页达到100％的过滤效率，响应时间也非常短，但是过滤参数更新的周期只能跟随着实际敏感网页的出现而变化，不能够应对实际敏感网站的快速变化。另一方面，由于网页的内容信息基本上没有利用或者很少利用，因此造成了很高的误过滤率，影响了用户的正常上网。

基于内容的敏感信息智能识别技术是近年来过滤技术的一个发展方向。目前已有多种基于内容的敏感信息识别方法。

目前的敏感网页识别方法一般主要建立敏感文本识别基础之上。因此核心是对文本的处理，首先提取网页中的文本，然后提取特征，然后利用机器学习里面的分类算法来对特征进行训练和分类。其中特征提取的方法通常采用的是：(1)人工给定一个关键词列表；(2)利用文本匹配的方法来统计各关键词出现的次数；(3)各关键词出现的次数组成一个向量，经过归一化等处理后，该向量作为该文本的特征向量。一般给定的关键词数目小于100。然后选取分类器来进行训练和预测。新加坡Pui Y.Lee等人利用Kohonen自组织神经网络来作为分类器，取得了较好的实际效果。还存在一些敏感图像识别方法，例如本单位提出了一种基于内容的敏感图像识别方法，在CAMPAQ数据库上取得了超过80％的识别率。

同机械的过滤方法类似，以上方法没有很好的利用web特征，目前还不能够达到满意的效果，例如基于文本的敏感网页识别不能够对与敏感主题相关的正常网页进行很好的识别，基于图像的敏感网页识别的误识别率很高。已存在的融合算法也仅仅是通过与或操作来融合，不能够根本上提高识别率。

为了解决现有技术的不足，本发明的目的是关注从web网页特点出发进行的敏感信息识别，进一步提高对敏感网页的识别率，为此，本发明提出一种基于内容的敏感网页识别方法。

为了实现上述目的，本发明基于内容的敏感网页识别方法的步骤如下：包括预处理步骤和识别文本信息步骤；

预处理步骤包括：

在给定网页的统一资源定位器的条件下，获取该网页的源码，进行数据分流和预处理，获取文本信息；

获取网页中图像部分结构信息，挑选重要图像组成有效图像集合；

识别敏感信息步骤包括：

利用连续敏感文本识别器对文本信息进行识别处理步骤；

利用离散文本识别器对文本信息进行识别步骤；

利用敏感图像识别器对图像集合的图像进行识别步骤。

所述的识别敏感信息步骤如下：

利用连续敏感文本识别器对文本信息进行识别处理，如果识别结果为敏感，则处理完毕；如果识别结果为不敏感，则执行：

离散文本识别器对文本信息进行识别步骤，如果识别器输出结果大于阈值，则识别结果为敏感，处理完毕；如果识别结果为不敏感，则执行：

敏感图像识别器对图像集合的图像进行识别步骤，识别的结果与离散敏感文本识别器的结果融合，根据其融合结果判断该网页是否敏感。

本发明针对现有技术中，基于文本的敏感网页识别不能够对与敏感主题相关的正常网页进行很好的识别；基于图像的敏感网页识别是采用与或操作融合的技术方案，不能够从根本上提高识别率的问题，本发明采用连续敏感文本识别器、离散文本识别器和敏感图像识别器三者结合的技术方案解决现有技术的问题，本发明利用web结构信息及构造了一个图像集合识别问题来进行信息融合，提高对敏感网页的识别率。

附图说明

通过以下结合附图的详细描述，本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中：

图1是本发明系统框架示意图

具体实施方式

下面结合附图对本发明作具体说明。应该指出，所描述的施例仅仅视为说明的目的，而不是对本发明的限制。

根据本发明，所示的图1是本发明系统框架示意图，具体步骤如下：

在步骤S1：获取给定的网页URL的源码；

在步骤S2：分离出源码中的中文文本；

在步骤S3：获取源码中图像的大小信息，根据规则剔除掉部分图像；

在步骤S4：利用连续文本分类器对分离出来的中文文本进行识别，识别结果为1，该网页为敏感，则退出；

在步骤S5：利用离散文本分类器对中文文本进行识别，如果识别结果大于设定阈值，该网页为敏感，则退出；

在步骤S6：利用图像分类器对图像进行识别；

在步骤S7：识别的结果与离散文本识别的结果融合。

根据步骤S3，挑选出重要图像步骤包括：

获取该网页所包含每幅图像的尺寸信息；

如果图像尺寸大小符合事先统计好的规则，该图像视为重要图像，则划分至有效图像集合中。

根据步骤S4，利用连续敏感文本识别器识别文本步骤包括：

提取该文本的特征；

把文本特征输入到事先已经训练好的支持向量机(Support VectorMachine，简称SVM)中，输出结果为1则该文本为敏感，处理完毕，否则继续处理。

根据步骤S5，利用离散敏感文本识别器识别文本步骤包括：

利用向量空间模型(VSM)提取该文本的特征；

把文本特征输入到已经训练好的贝叶斯网络(Bayes Networks，简称BNS)中，输出的结果为该文本输入敏感的概率，如果概率值大于阈值τ，则文本为敏感，处理完毕，否则继续处理。

根据步骤S6，图像识别步骤包括：

利用图像识别器对每幅图像进行识别，识别结果为敏感的图像数量为N₁，识别结果为正常的图像数量为N₂；

根据步骤S7，信息融合步骤包括：

离散文本识别的结果与步骤S6图像识别的结果融合，识别的结果代入公式(1-1)中，如果结果大于1，则该网页为敏感，否则为正常，处理完毕。

根据本发明方法步骤S1和步骤S2中，基于对web的分析，把web网页分为三类。第一类为以连续文本为主的网页，其中连续文本定义为文章性质的文本，其特点是上下文之间有较强的语义关联，有丰富的语义信息可以利用。该类型网页通常有一篇或者几篇文章。第二类是以离散文本为主的网页，其中离散文本指连续文本以外的文本，例如首页或者一些图片周围的说明文本等等，主要起着链接或者说明作用。第三类是指以图像为主的网页，网页里主要呈现的是图像信息，附加有少量的离散文本。

具体地，本发明对于第一类型的网页，连续文本为主，选用结合语义与统计的过滤方法，定义了三类关键词并给出了描述性的定义：

第一类是显式关键词，这类关键词基本上只可能出现在敏感文本里面，从统计上来说就是出现在敏感文本里面的概率很大(接近于1)，而出现在正常文本里面的概率很小(接近于0)。从语义上来说，这些词本身就携带着敏感信息。

第二类是隐式关键词，这类关键词本来不携带任何的敏感信息。但由于某种原因，这类词于敏感文本产生了固定的联系，也就是说，这些词在敏感文本里面也是以很大的概率出现，当然也会在其它文本里面出现。

第三类式逻辑关键词，这类关键词分为两类：一类是多义词，即这类关键词在正常文本里面意义正常，可是在敏感文本里面携带敏感信息；另外一类关键词主要是在于一定的词搭配起来之后，共同携带着敏感信息。而这种搭配，我们可以分为两种，一种是显式加逻辑，一种是逻辑加逻辑。基于上述定义，选取了关键词集合，同时构建了语义规则来描述词汇之间的语义关联，帮助正确的提取特征信息。提出之后的特征经过归一化之后，作为该连续文本的特征向量。由步骤S4，选用支持向量机(Support Vector Machine，简称SVM)作为分类器，对特征进行训练和分类，根据SVM输出来决定该网页是否是敏感网页。

具体地，本发明对于第二类型的网页，根据步骤S4，人工构建一个关键词列表，对网页里的文本统计关键词后，归一化后作为特征向量输入到训练好的Bayes网络里面，根据网络的输出来决定该网页是否是敏感网页。

具体地，本发明对于第三类型的网页，由步骤S3，根据尺寸来获取网页里面的部分符合要求的图像；由步骤S6，利用图像分类器对图像一一进行识别，识别的结果为(N₁，N₂)，其中N₁为识别结果为敏感的图像个数，N₂为识别结果为正常的图像个数。同时把网页里面的文本当成图像是否为敏感的先验，根据步骤S5，使用针对离散文本的Bayes分类器对文本进行判别，输出的结果为：P_s。根据步骤S7，利用两个参数来描述图像分类器：P₁表示把一副正常图像误分为敏感图像的概率，P₂表示把一副敏感图像误分为正常图像的概率，三个参数代入如下公式进行融合：

\frac{{(1 - p_{2})}^{N_{1}} {p_{2}}^{N_{2}}}{{p_{1}}^{N_{1}} {(1 - p_{1})}^{N_{2}}} * \frac{P_{s}}{1 - P_{s}} - - - (1 - 1)

各分类器输出值代入上述公式，计算的结果与阈值相比较来判断该网页是否是敏感网页。

上述实施例中，各个步骤均为示例，本领域普通技术人员可以根据实际情况确定要使用的实际步骤，而且各个步骤的实现有多种方法，均应属于本发明的范围之内。

最后说明：上面描述是用于实现本发明及其实施例，本发明的范围不应由该描述来限定。本领域的技术人员应该理解，在不脱离本发明的范围的任何修改或局部替换，均属于本发明权利要求来限定的范围。

Claims

1. 一种基于内容的敏感网页识别方法，包括步骤：

预处理步骤包括：

获取网页中图像部分的结构信息，挑选重要图像组成有效图像集合；

网页敏感信息识别步骤包括：

利用连续敏感文本识别器对文本信息进行识别处理步骤；

利用离散文本识别器对文本信息进行识别步骤；

利用敏感图像识别器对图像集合的图像进行识别步骤；

如果离散文本识别器识别结果为不敏感，则敏感图像识别器识别的结果与离散敏感文本识别器识别的结果融合，根据其融合结果判断该网页是否敏感。

2. 根据权利要求1所述基于内容的敏感网页识别方法，其特征在于，所述的网页敏感信息识别步骤如下：

3. 根据权利要求1所述基于内容的敏感网页识别方法，其特征在于，挑选出重要图像步骤包括：

获取该网页所包含每幅图像的尺寸信息；

4. 根据权利要求1所述基于内容的敏感网页识别方法，其特征在于，利用连续敏感文本识别器识别文本步骤包括：

提取该文本的特征；

把文本特征输入到事先已经训练好的支持向量机中，输出结果为1则该文本为敏感，处理完毕，否则继续处理。

5. 根据权利要求1所述基于内容的敏感网页识别方法，其特征在于，利用离散敏感文本识别器识别文本步骤包括：

利用向量空间模型提取该文本的特征；

把文本特征输入到已经训练好的贝叶斯网络中，输出的结果为该文本输入敏感的概率，如果概率值大于阈值τ，则文本为敏感，处理完毕，否则继续处理。

6. 根据权利要求1所述基于内容的敏感网页识别方法，其特征在于，对图像集合的图像识别步骤包括：

利用图像识别器对每幅图像进行识别，识别结果为敏感的图像数量为N₁，识别结果为正常的图像数量为N₂。

7. 根据权利要求1所述基于内容的敏感网页识别方法，其特征在于，所述融合结果判断是：如果结果大于1，则该网页为敏感，否则为正常，处理完毕。