CN100565523C

CN100565523C - 一种基于多分类器融合的敏感网页过滤方法及系统

Info

Publication number: CN100565523C
Application number: CNB2007100651816A
Authority: CN
Inventors: 胡卫明; 陈周耀; 吴偶; 朱明亮
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2007-04-05
Filing date: 2007-04-05
Publication date: 2009-12-02
Anticipated expiration: 2027-04-05
Also published as: CN101281521A

Abstract

本发明公开基于多分类器融合的敏感网页过滤系统及方法，处理对象是一幅网页，其处理结果是该网页是否包含敏感内容，此处的敏感可以定义为色情，反动，暴力等危害社会的不健康互联网内容。系统包括数据流的获取与预处理单元、图像与文本流过滤单元、图像过滤器与文本过滤器的信息融合单元，系统基于多个分类器的协作，在给定网页的统一资源定位器的条件下，获取该网页的源代码，在预处理阶段进行文本和图像的分流，获取文本信息和有效图像信息；利用决策树算法将输入网页分为三种样式；利用连续文本分类器、离散敏感文本分类器和图像分类器对网页进行识别，根据各分类器识别的输出结果进行融合计算，给出判别因子，将最终结果返回给浏览器。

Description

一种基于多分类器融合的敏感网页过滤方法及系统

技术领域

本发明涉及信息过滤技术领域，尤指识别含有敏感信息的网页的方法。

背景技术

由于互联网敏感信息对于互联网用户尤其是青少年造成了极大的危害，因此引起了研究者和业界的广泛关注。

目前有很多种敏感信息过滤方法，包括黑白名单，IP过滤以及关键词匹配等等过滤手段。总的来说，一方面，这些过滤技术采用一种非常机械的方式，能够对一些敏感网页达到100％的过滤效率，响应时间也非常短，但是过滤参数更新的周期只能跟随着实际敏感网页的出现而变化，不能够应对实际敏感网站的快速变化。另一方面，由于网页的内容信息基本上没有利用或者很少利用，因此造成了很高的误过滤率，影响了用户的正常上网。

基于内容的敏感信息智能识别技术是近年来过滤技术的一个发展方向。目前已有多种基于内容的敏感信息识别方法。

目前的敏感网页识别方法一般主要建立敏感文本识别基础之上。因此核心是对文本的处理，首先提取网页中的文本，然后提取特征，然后利用机器学习里面的分类算法来对特征进行训练和分类。其中特征提取的方法通常采用的是：(1)人工给定一个关键词列表；(2)利用文本匹配的方法来统计各关键词出现的次数；(3)各关键词出现的次数组成一个向量，经过归一化等处理后，该向量作为该文本的特征向量。一般给定的关键词数目小于100。然后选取分类器来进行训练和预测。新加坡Pui Y.Lee等人利用Kohonen自组织神经网络作为分类器，取得了较好的实际效果。还存在一些敏感图像识别方法，中国科学院自动化所杨金锋等人提出了一种基于内容的敏感图像识别方法，在CAMPAQ数据库上取得了超过80％的识别率。

同机械的过滤方法类似，以上方法没有很好的利用web特征，目前还不能够达到满意的效果，例如基于文本的敏感网页识别不能够对与敏感主题相关的正常网页进行很好的识别，基于图像的敏感网页识别的误识别率很高。已存在的融合算法也仅仅是通过与或操作来融合，不能够根本上提高识别率。

发明内容

现有技术基于文本的敏感网页识别不能够对与敏感主题相关的正常网页进行很好的识别，基于图像的敏感网页识别的误识别率高，采用的融合算法是通过与或操作来融合，不能够根本上提高识别率，为了解决现有技术的这些问题，本发明的目的是从web网页特点出发，提供一种基于多分类器融合的敏感网页过滤方法及系统。

为了实现所述的目的，本发明的一方面，提供基于多分类器融合的敏感网页过滤方法，包括如下步骤：

步骤S1：获取目标网页统一资源定位符的源代码，进行预处理，用于获取中文文本信息，获取网页中有效图像集合信息；

步骤S2：基于预处理提供信息，利用决策树学习中的C4.5算法将输入网页中文文本和有效图像生成文本、图像及文本与图像的混合网页样式，用于获得文本流、图像流和文本与图像混合流信息；

步骤S3：利用多分类器识别与网页样式的指定分配关系，获得目标网页；

步骤S4：根据识别结果综合判断目标网页是否敏感，如果敏感，则执行步骤5，如果不敏感，则执行步骤6；

步骤S5：将识别的敏感网页送入Web浏览器，并在浏览器中警示用户所浏览网页含有敏感内容，浏览被禁止；

步骤S6：在Web浏览器中正常显示原网页。

所述分类器识别包括：利用连续敏感文本分类器对以文本为主的网页样式进行识别、利用敏感图像分类器器对以图像为主的网页样式中的图像集合进行识别和对混合型网页样式则利用离散敏感文本分类器和敏感图像分类器融合进行识别。

所述获取网页中有效图像步骤包括：

步骤11：在预处理阶段通过解析网页超文本标示语言代码，获取该网页所包含每幅图像的尺寸和位置信息，用于识别目标网页的整体内容；

步骤12：如果尺寸信息和位置信息符合事先统计好的规则，则将该图像划分至有效图像集合中。

所述决策树C4.5算法将输入网页生成网页样式的步骤包括：

步骤21：计算属性集中网页统一资源定位符、网页中文本长度和网页中图像基于像素量的分级，得到信息熵和分类前后信息熵的增益变化；

步骤22：将信息熵增益作为分类尺度，给出分类依据，即取最大的信息熵增益的属性集划分为最终决策；

步骤23：重复步骤22直到所有属性集都被划分，从而形成决策树和分类规则。

所述利用连续敏感文本分类器对以文字为主的网页进行识别步骤包括：

步骤1)：用细胞神经网络(CNN)定义N维离散空间上的大型并行计算网络，将网络上的一个节点作为一个关键词，将节点之间的连接描述，用于生成文本中词汇之间的语义关系；

步骤2)：利用文本中词汇之间的语义关系，将节点之间相互的抑制与激活，用于取得节点的激活次数作为文本的统计特征；

步骤3)：以统计特征作为输入，选用支持向量机(SVM)作为训练以及预测的分类器，对预处理网页中得到的文本进行分类，得到分类结果。

所述利用离散敏感文本分类器对混合型的网页中文字进行识别：

首先利用向量空间模型(VSM)提取离散敏感文本的特征；把离散敏感文本特征输入到已经训练好的贝叶斯网络(Bayes Networks，简称BNS)中，输出的结果为该文本输入敏感的概率值，如果该概率值大于阈值，则得到该文本为敏感分类结果。

所述对混合型网页的图像识别与文字识别的信息融合步骤包括：

首先利用图像识别器对混合型网页的每幅图像进行识别，获得识别结果为敏感的图像数量N₁，获得图像识别结果为正常的图像数量N₂；

离散文本识别的结果与上述图像识别的结果融合，如果结果大于阈值，则该网页为敏感，否则为正常网页。

为了实现所述的目的，本发明的另一方面，提供一种基于多分类器融合的敏感网页过滤系统，包括：数据流的获取与预处理单元，生成原网页的文本流和图像流，并以此为依据将原网页分为网页样式；图像与文本流过滤单元，针对不同网页样式，使用相应的分类器对文本和图像进行识别；图像过滤器与文本过滤器的信息融合单元，针对混合型网页样式，通过融合结合图像过滤器与文本过滤器，得到最终是否为敏感类的识别结果。

本发明利用了微软提供的基于IE内核的浏览器核心控件完成了数据分流传递，利用多分类器协作完成智能识别，利用网络导航技术完成了过滤器与浏览器的数据交互，解决了对网络上敏感信息访问的严格控制问题。本发明系统处理时间较快，单幅网页处理时间小于10秒，处理结果的准确率也可以达到80％以上。因而在网络信息安全领域有很好的应用前景。

附图说明

图1示出三种网页样式与分类器的分配关系

图2(a)gif训练集有效/无效图像尺寸分布，

图2(b)jpg训练集有效/无效图像分布

图3是本发明多分类器敏感网页识别方法总体框图

图4是本发明多分类器敏感网页识别系统框图

具体实施方式

下面将结合附图对本发明加以详细说明，应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

如图4本发明基于多分类器融合的敏感网页过滤系统所示，包括：数据流的获取与预处理单元1，生成原网页的文本流和图像流，并以此为依据将原网页分为网页样式；图像与文本流过滤单元2，针对不同网页样式，使用相应的分类器对文本和图像进行识别；图像过滤器与文本过滤器的信息融合单元3，针对混合型网页样式，通过融合公式结合图像过滤器与文本过滤器，得到最终是否为敏感类的识别结果。综上所述，数据流的获取与预处理单元1将网页解析得到文本与图像流，利用C4.5算法将网页归为网页样式；图像与文本流过滤单元2针对数据流的获取与预处理单元1划分的不同网页样式，使用相对应的分类器识别处理数据流的获取与预处理单元1中解析产生的文本和图像流；图像过滤器与文本过滤器的信息融合单元3针对处理图像与文本流过滤单元2中处理的混合型网页，将图像与文本流过滤单元2产生的文本与图像分类结果代入融合公式，得到综合识别结果。识别完毕。

本发明已于微软windows XP平台，VC6.0，VC.Net编程环境下以微软IE浏览器插件的方式实现，经实验可正确运行于个人电脑及电脑终端上。

在本发明方法中，基于对web的分析，把web网页分为三类。如图1示出三种网页样式与分类器的分配关系所示：第一类为以文本为主的网页，其中文本多为文章性质的文本，例如小说，新闻，人物传记等，其特点是上下文之间有较强的语义关联，有丰富的语义信息可以利用。该类型网页通常包含有一篇或者几篇文章。第二类是指以图像为主的网页，网页里主要呈现的是图像信息，附加有少量的分散文本，起辅助说明作用。这类型的网页主要以图库的形式呈现。第三类也是最普遍的网页样式是文字和图像混合的网页，其中的文本也是分块分散出现的，主要起着链接或者说明作用，，此外网页中包含多幅图像以丰富网页的内容，这种样式的网页主要有一些著名门户网站的首页和电子公告牌(BBS)。

基于预处理提供信息，包括网页URL，网页中文本长度，网页中图像基于像素量的分级等作为属性集合，利用决策树学习中的C4.5算法将输入网页分为如上定义的三种样式。然后对三种类型的网页使用相对应的分类器实行分而治之的策略。

对于第一种样式的网页(以文本为主)，运用细胞神经网络CNN处理，CNN与其他神经网络最大的区别在于信息只在相邻单元之间交换，而全局信息的处理则通过局部信息的交互来实现。细胞神经网络可以是任意维的，但最常见的是一维或者二维。在一维细胞神经网络中，最常见的连接方式是每个细胞与周围2r+1个细胞(包括它自己)相连。在二维网络中最常见的连接方式是Von Neumann连接与Moore连接，其每个细胞只与其Von Neumann和Moore邻域中的细胞相连。对一个细胞单元状态的形式化描述为：

x(t+1)＝g(x(t))+I(t)+f₁(y(t))+f₂(u(t))

y(t)＝f(x(t))

其中x为细胞的内部状态，y是它的输出，u是外部输入，I是偏差，f₁和f₂是两个函数。

为了构建敏感词汇网络，首先把传统意义上的关键词分为三类：

(1)显式关键字；(2)隐式关键字(3)逻辑关键字；

其中，显式关键字决定了逻辑关键字，同时显式关键字和隐式关键字之间也存在内在的联系。利用三者之间的关系，可以构造我们的联想反馈网络。

为了利用细胞神经网络，我们定义一个节点为一个词汇，另外这个词汇有三个状态：沉寂态，隐藏态和激发态。节点与节点之间按照语义关联进行连接，计算规则是：一旦一个节点结束到一个刺激或者输入，那么根据该节点以往的状态和周围节点的状态以及连接所代表的语义规则来确定该节点的下一个状态。

沉寂态定义为节点还未接受一个输入是的状态；隐藏态定义为节点已经接受输入，但其参数以及周围节点的参数未能够达到其激发条件；激发态定义为节点接受了输入并且收到了激发。一旦一个节点被激发，那么我们就统计该节点出现的次数，最后所有激发节点的次数作为一个向量来进行训练和预测。选用支持向量机(Support Vector Machine，简称SVM)作为分类器，对上述向量形成的特征进行训练和分类，根据SVM输出来决定该网页是否是敏感网页。

对于第二种样式的网页(以图像为主)，则提取网页中有效图像集合利用图像分类器进行集合识别，如果判别为敏感的图像数目超过预定阈值，则将该网页判别为敏感。

对于第三种样式的网页(混合型)，首先根据尺寸来获取网页里面的有效图像集合，然后利用图像分类器对图像一一进行识别，识别的结果为(N₁，N₂)，其中N₁为识别结果为敏感的图像个数，N₂为识别结果为正常的图像个数。同时把网页里面的文本当成图像是否为敏感的先验，使用针对离散文本的Bayes分类器对文本进行判别，输出结果为：P_s。然后将各分类器的三个输出参数N₁，N₂，P_s代入融合公式，得到一个判别因子f，通过该因子f与预定阈值相比较来判断该网页是否是敏感网页。

如图3是本发明多分类器敏感网页识别方法总体流程图所示，具体地包括如下：

步骤1)获取给定的目标网页统一资源定位符URL的源代码，分离出源码中的中文文本。

基于W3C上关于Html和XML的相关文档，然后针对解析的难点对源解析程序进行了改进。严格来说，Html文档是一种完全的树形结构，但是标准中对一些标记的宽松规定使得实际的文档可以不以严格的层次结构出现。首先获取目标网页的超文本标示语言Html源代码，之后对Html文档进行解析，这个解析过程分为3个子步骤：

(1)文档的元素分析，生成节点序列；

(2)元素序列的结构/语法分析，生成初始的Html树；

(3)Html树重构。基于生成的Html树中各种tag标记间包含的文本内容，将其分离出来作为源码中的中文文本流。

步骤2)获取源代码中图像的尺寸大小和位置信息，根据相关规则剔除掉部分图像，获得有效图像集合。

处理图像的开销很大，如果网页中大部分都是无效图片的话，会对系统性能造成很大影响。我们图片尺寸放在第一位，因为HTML标准支持网页中包含图片时就指定它的尺寸，因此可以仅从HTML文件本身就忽略掉无效图片，而根本不需要另外下载它们。这同时也减少了网络开销，总的来说，从网络上下载一幅图片要比分析它更加耗时。

网页通常都包含了相当数量的图像。一般来说，一个图文并茂的网页，可能包含几十甚至上百幅图像。但凭人的主观估计，虽然这个网页包含图片较多，但数量应该在几十幅左右。实际统计的图片数和主观感受差别很大是因为图片中有很多完全是为了网页框架需要起装饰作用的，还有些由于包含信息太少，或是在网页中的位置问题，根本不会引起人的注意。而实际需要识别则是里面有效图像集合，这种有效性表现在两个方面，一是图像尺寸，二是图像位置，用来识别目标网页的整体内容。如附图2所示，横坐标和纵坐标分别为图像的宽度和高度，坐标采用对数式。在这种状态下，很明显可以看出有效图像的聚类特征。我们就根据这个特征编制分类策略。图像出现的位置是另外一个重要的指标，在上文中已经详细讨论过网页结构特征对网页元素的影响。相应的，处于网页核心位置的图片其有效性应大于处在角落位置的图片。最后依据以上规则提取出网页中有效图像集合作为图像流。

3)依据步骤1)和步骤2)中提取出的网页中的中文文本和有效图像集合，构成属性集合，以这些属性集合为基础，将其代入C4.5决策树算法的学习公式，得到决策规则。之后只要将目标网页的文本和图像的属性集合参照形成的决策规则分类，就可以将该网页自动分为三种样式中的一种：以文本为主的网页，以图像为主的网页，混合型的网页。C4.5算法的决策规则形成公式如下：

C是分类的数目(在我们的系统中分类数为3)，p(D，j)是在数据集D中属于类别j的那部分的比例。那么可以按照如下公式定义信息熵Info(D)：

Info (D) = - Σ_{j = 1}^{C} p (D, j) * \log_{2} (p (D, j)) - - - (1)

给定一个有k个值的属性集合T，那么D_i就相应代表数据集D中在属性T上取值为i的那部分数据所形成的子集，之后可以按照如下公式定义出在属性集T和数据集D上依据T的不同取值而产生的信息增益：

Gain (D, T) = Info (D) - Σ_{i = 1}^{k} \frac{| D_{i} |}{| D |} * Info (D_{i}) - - - (2)

C4.5算法依据信息增益，每次选取带有最大信息增益的那个属性作为分裂结点形成决策树(决策规则)，以后的分类只要按照这个已经形成的规则来就可以了。

本发明中利用的网页属性集如下表所示：网页URL，网页中文本长度，网页中图像基于像素量的分级。

属性集	描述
属性集	描述	是否为首页性质	是否在网页的URL中包含有表示首页性质的关键词(例如“main”或者“index”)
一般文本的长度	网页中一般文本的字符数	是否为首页性质	是否在网页的URL中包含有表示首页性质的关键词(例如“main”或者“index”)
一般文本的长度	网页中一般文本的字符数	超文本的长度	网页中超文本的字符数
大图像的数目	像素值超过50,000个像素的图像数目	超文本的长度	网页中超文本的字符数
大图像的数目	像素值超过50,000个像素的图像数目	中等图像数目	像素值在10,000和50,000个像素之间的图像数目
小图像数目	像素值低于10,000个像素的图像数目	中等图像数目	像素值在10,000和50,000个像素之间的图像数目

步骤4)利用连续敏感文本分类器对按照步骤3)分类为以文本为主的网页中的文本进行识别，识别结果为1，该网页为敏感，则退出。

并给出了描述性的定义。第一类是显式关键词，这类关键词基本上只可能出现在敏感文本里面，从统计上来说就是出现在敏感文本里面的概率很大(接近于1)，而出现在正常文本里面的概率很小(接近于0)。从语义上来说，这些词本身就携带着敏感信息。第二类是隐式关键词，这类关键词本来不携带任何的敏感信息。但由于某种原因，这类词于敏感文本产生了固定的联系，也就是说，这些词在敏感文本里面也是以很大的概率出现，当然也会在其它文本里面出现。第三类式逻辑关键词，这类关键词分为两类：一类是多义词，即这类关键词在正常文本里面意义正常，可是在敏感文本里面携带敏感信息；另外一类关键词主要是在于一定的词搭配起来之后，共同携带着敏感信息。而这种搭配，我们可以分为两种，一种是显式加逻辑，一种是逻辑加逻辑。基于上述定义，选取了关键词集合，同时构建了语义规则来描述词汇之间的语义关联，帮助正确的提取特征信息。提出之后的特征经过归一化之后，作为该连续文本的特征向量。选用支持向量机(Support Vector Machine，简称SVM)作为分类器，对特征进行训练和分类，根据SVM输出来决定该网页是否是敏感网页。

步骤5)利用敏感图像分类器对按照步骤3)分类为以图像为主的网页中的有效图像集合进行识别，将图像分类器判别为敏感的那部分图像数目和预定阈值进行比较，依据该项来决定该网页是否是敏感网页，如果判别为敏感的图像数目超过了阈值则将该网页判别为敏感。

步骤6)利用离散文本分类器和敏感图像分类器的融合算法对按照步骤3)分类为混合型(即包含大量图像又包含一定数量的文本)的网页中进行融合识别，首先人工构建一个关键词列表，对网页里的文本统计关键词后，归一化后作为离散敏感文本的特征向量输入到训练好的Bayes网络里面，通过离散文本分类器对中文文本进行识别，并获得离散文本分类因子，具体算法描述如下：

首先定义T＝{t₁，t₂， ...，t_|T|}作为类别Cj的训练集；

C＝{c₁，c₂，...，c_|C|}作为类别；W＝{w₁，w₂，...，w_|V|}作为关键词集合。此外，定义N(w，t_i)作为在文档d_i中关键词W出现的次数，也就是W的词频。

然后计算出概率P(w|C_j)，这个概率表示关键词W和一个类别C_j的相关联程度的大小：

P (w | C_{j}) = \frac{1 + Σ_{i = 1}^{| T |} N (w, t_{i})}{| W | + Σ_{s = 1}^{| V |} Σ_{i = 1}^{| T |} N (w_{s}, t_{i})} - - - (3)

在处理目标文本t_i时，计算概率P(C_j|t_i)作为离散文本分类器因子，这个概率表示目标文本t_i属于一个类别C_j的可能性到底有多大，其中需要利用上面提到的概率P(w|C_j)。这里使用了一个Bayes独立性假设：P(w₁，w₂...w_n|C_j)＝∏P(w_i|C_j)。即隐式得表达了在第三类混合型的网页中文本关键词之间的语义联系并不是很紧密，可以视为独立分散存在。

P (C_{j} | t_{i}) = \frac{P (C_{j}) Π_{k = 1}^{| V |} P {(w_{k} | C_{j})}^{N (w_{k}, t_{i})}}{Σ_{r = 1}^{| C |} P (C_{r}) Π_{k = 1}^{| V |} P {(w_{k} | C_{r})}^{N (w_{k}, t_{i})}} - - - (4)

对于第三类型的网页，根据尺寸来获取网页里面的部分符合要求的图像，然后利用图像分类器对图像一一进行识别，识别的结果为(N₁，N₂)，其中N₁为识别结果为敏感的图正常的图像个数，N₂为识别结果为像个数。同时把网页里面的文本当成图像是否为敏感的先验，使用针对离散文本的Bayes分类器对文本进行判别，即上面提到的离散文本分类器因子，记为P_s。利用两个参数来描述图像分类器：P₁表示把一副正常图像误分为敏感图像的概率，P₂表示把一副敏感图像误分为正常图像的概率。三个参数代入如下公式：

f = \frac{{(1 - p_{2})}^{N_{1}} {p_{2}}^{N_{2}}}{{p_{1}}^{N_{1}} {(1 - p_{1})}^{N_{2}}} * \frac{P_{s}}{1 - P_{s}} - - - (5)

得到一个判别因子f，通过该因子f与预定阈值相比较来判断该网页是否是敏感网页。

步骤7)将最终的敏感判别结果返回给web浏览器，结果为敏感则在客户端阻止该网页的显示，结果为非敏感则正常显示。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1、一种基于多分类器融合的敏感网页过滤方法，包括步骤：

步骤12：如果尺寸信息和位置信息符合事先统计好的规则，则将该图像划分至有效图像集合中；

所述决策树C4.5算法将输入网页生成网页样式的步骤包括：

步骤23：重复步骤22直到所有属性集都被划分，从而形成决策树和分类规则；

对混合型网页的图像识别与文字识别的信息融合步骤包括：

离散文本识别的结果与上述图像识别的结果融合，如果结果大于阈值，则该网页为敏感，否则为正常网页；

步骤S3：利用多分类器识别与网页样式的指定分配关系，获得目标网页；所述分类器识别包括：利用连续敏感文本分类器对以文本为主的网页样式进行识别、利用敏感图像分类器器对以图像为主的网页样式中的图像集合进行识别和对混合型网页样式则利用离散敏感文本分类器和敏感图像分类器融合进行识别；

步骤S6：在Web浏览器中正常显示原网页。

2、按权利要求1所述的方法，其特征在于，利用连续敏感文本分类器对以文字为主的网页进行识别步骤包括：

步骤1)：用细胞神经网络定义N维离散空间上的大型并行计算网络，将网络上的一个节点作为一个关键词，将节点之间的连接描述，用于生成文本中词汇之间的语义关系；

步骤3)：以统计特征作为输入，选用支持向量机作为训练以及预测的分类器，对预处理网页中得到的文本进行分类，得到分类结果。

3、按权利要求1所述的方法，其特征在于，利用离散敏感文本分类器对混合型的网页中文字进行识别：

首先利用向量空间模型提取离散敏感文本的特征；

把离散敏感文本特征输入到已经训练好的贝叶斯网络中，输出的结果为该文本输入敏感的概率值，如果该概率值大于阈值，则得到该文本为敏感分类结果。

4、一种基于多分类器融合的敏感网页过滤系统，其特征在于：

数据流的获取与预处理单元(1)，生成原网页的文本流和图像流，并以此为依据将原网页分为网页样式；

图像与文本流过滤单元(2)，针对不同网页样式，使用相应的分类器对文本和图像进行识别；

图像过滤器与文本过滤器的信息融合单元(3)，针对混合型网页样式，通过融合结合图像过滤器与文本过滤器，得到最终是否为敏感类的识别结果。