CN100565523C - 一种基于多分类器融合的敏感网页过滤方法及系统 - Google Patents
一种基于多分类器融合的敏感网页过滤方法及系统 Download PDFInfo
- Publication number
- CN100565523C CN100565523C CNB2007100651816A CN200710065181A CN100565523C CN 100565523 C CN100565523 C CN 100565523C CN B2007100651816 A CNB2007100651816 A CN B2007100651816A CN 200710065181 A CN200710065181 A CN 200710065181A CN 100565523 C CN100565523 C CN 100565523C
- Authority
- CN
- China
- Prior art keywords
- webpage
- text
- image
- responsive
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000001914 filtration Methods 0.000 title claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000003066 decision tree Methods 0.000 claims abstract description 10
- 239000004744 fabric Substances 0.000 claims abstract description 8
- 230000035945 sensitivity Effects 0.000 claims abstract description 5
- 230000008676 import Effects 0.000 claims abstract description 4
- 238000012706 support-vector machine Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 2
- 230000005764 inhibitory process Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 230000004069 differentiation Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 238000002156 mixing Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 2
- 230000005281 excited state Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Abstract
本发明公开基于多分类器融合的敏感网页过滤系统及方法,处理对象是一幅网页,其处理结果是该网页是否包含敏感内容,此处的敏感可以定义为色情,反动,暴力等危害社会的不健康互联网内容。系统包括数据流的获取与预处理单元、图像与文本流过滤单元、图像过滤器与文本过滤器的信息融合单元,系统基于多个分类器的协作,在给定网页的统一资源定位器的条件下,获取该网页的源代码,在预处理阶段进行文本和图像的分流,获取文本信息和有效图像信息;利用决策树算法将输入网页分为三种样式;利用连续文本分类器、离散敏感文本分类器和图像分类器对网页进行识别,根据各分类器识别的输出结果进行融合计算,给出判别因子,将最终结果返回给浏览器。
Description
技术领域
本发明涉及信息过滤技术领域,尤指识别含有敏感信息的网页的方法。
背景技术
由于互联网敏感信息对于互联网用户尤其是青少年造成了极大的危害,因此引起了研究者和业界的广泛关注。
目前有很多种敏感信息过滤方法,包括黑白名单,IP过滤以及关键词匹配等等过滤手段。总的来说,一方面,这些过滤技术采用一种非常机械的方式,能够对一些敏感网页达到100%的过滤效率,响应时间也非常短,但是过滤参数更新的周期只能跟随着实际敏感网页的出现而变化,不能够应对实际敏感网站的快速变化。另一方面,由于网页的内容信息基本上没有利用或者很少利用,因此造成了很高的误过滤率,影响了用户的正常上网。
基于内容的敏感信息智能识别技术是近年来过滤技术的一个发展方向。目前已有多种基于内容的敏感信息识别方法。
目前的敏感网页识别方法一般主要建立敏感文本识别基础之上。因此核心是对文本的处理,首先提取网页中的文本,然后提取特征,然后利用机器学习里面的分类算法来对特征进行训练和分类。其中特征提取的方法通常采用的是:(1)人工给定一个关键词列表;(2)利用文本匹配的方法来统计各关键词出现的次数;(3)各关键词出现的次数组成一个向量,经过归一化等处理后,该向量作为该文本的特征向量。一般给定的关键词数目小于100。然后选取分类器来进行训练和预测。新加坡Pui Y.Lee等人利用Kohonen自组织神经网络作为分类器,取得了较好的实际效果。还存在一些敏感图像识别方法,中国科学院自动化所杨金锋等人提出了一种基于内容的敏感图像识别方法,在CAMPAQ数据库上取得了超过80%的识别率。
同机械的过滤方法类似,以上方法没有很好的利用web特征,目前还不能够达到满意的效果,例如基于文本的敏感网页识别不能够对与敏感主题相关的正常网页进行很好的识别,基于图像的敏感网页识别的误识别率很高。已存在的融合算法也仅仅是通过与或操作来融合,不能够根本上提高识别率。
发明内容
现有技术基于文本的敏感网页识别不能够对与敏感主题相关的正常网页进行很好的识别,基于图像的敏感网页识别的误识别率高,采用的融合算法是通过与或操作来融合,不能够根本上提高识别率,为了解决现有技术的这些问题,本发明的目的是从web网页特点出发,提供一种基于多分类器融合的敏感网页过滤方法及系统。
为了实现所述的目的,本发明的一方面,提供基于多分类器融合的敏感网页过滤方法,包括如下步骤:
步骤S1:获取目标网页统一资源定位符的源代码,进行预处理,用于获取中文文本信息,获取网页中有效图像集合信息;
步骤S2:基于预处理提供信息,利用决策树学习中的C4.5算法将输入网页中文文本和有效图像生成文本、图像及文本与图像的混合网页样式,用于获得文本流、图像流和文本与图像混合流信息;
步骤S3:利用多分类器识别与网页样式的指定分配关系,获得目标网页;
步骤S4:根据识别结果综合判断目标网页是否敏感,如果敏感,则执行步骤5,如果不敏感,则执行步骤6;
步骤S5:将识别的敏感网页送入Web浏览器,并在浏览器中警示用户所浏览网页含有敏感内容,浏览被禁止;
步骤S6:在Web浏览器中正常显示原网页。
所述分类器识别包括:利用连续敏感文本分类器对以文本为主的网页样式进行识别、利用敏感图像分类器器对以图像为主的网页样式中的图像集合进行识别和对混合型网页样式则利用离散敏感文本分类器和敏感图像分类器融合进行识别。
所述获取网页中有效图像步骤包括:
步骤11:在预处理阶段通过解析网页超文本标示语言代码,获取该网页所包含每幅图像的尺寸和位置信息,用于识别目标网页的整体内容;
步骤12:如果尺寸信息和位置信息符合事先统计好的规则,则将该图像划分至有效图像集合中。
所述决策树C4.5算法将输入网页生成网页样式的步骤包括:
步骤21:计算属性集中网页统一资源定位符、网页中文本长度和网页中图像基于像素量的分级,得到信息熵和分类前后信息熵的增益变化;
步骤22:将信息熵增益作为分类尺度,给出分类依据,即取最大的信息熵增益的属性集划分为最终决策;
步骤23:重复步骤22直到所有属性集都被划分,从而形成决策树和分类规则。
所述利用连续敏感文本分类器对以文字为主的网页进行识别步骤包括:
步骤1):用细胞神经网络(CNN)定义N维离散空间上的大型并行计算网络,将网络上的一个节点作为一个关键词,将节点之间的连接描述,用于生成文本中词汇之间的语义关系;
步骤2):利用文本中词汇之间的语义关系,将节点之间相互的抑制与激活,用于取得节点的激活次数作为文本的统计特征;
步骤3):以统计特征作为输入,选用支持向量机(SVM)作为训练以及预测的分类器,对预处理网页中得到的文本进行分类,得到分类结果。
所述利用离散敏感文本分类器对混合型的网页中文字进行识别:
首先利用向量空间模型(VSM)提取离散敏感文本的特征;把离散敏感文本特征输入到已经训练好的贝叶斯网络(Bayes Networks,简称BNS)中,输出的结果为该文本输入敏感的概率值,如果该概率值大于阈值,则得到该文本为敏感分类结果。
所述对混合型网页的图像识别与文字识别的信息融合步骤包括:
首先利用图像识别器对混合型网页的每幅图像进行识别,获得识别结果为敏感的图像数量N1,获得图像识别结果为正常的图像数量N2;
离散文本识别的结果与上述图像识别的结果融合,如果结果大于阈值,则该网页为敏感,否则为正常网页。
为了实现所述的目的,本发明的另一方面,提供一种基于多分类器融合的敏感网页过滤系统,包括:数据流的获取与预处理单元,生成原网页的文本流和图像流,并以此为依据将原网页分为网页样式;图像与文本流过滤单元,针对不同网页样式,使用相应的分类器对文本和图像进行识别;图像过滤器与文本过滤器的信息融合单元,针对混合型网页样式,通过融合结合图像过滤器与文本过滤器,得到最终是否为敏感类的识别结果。
本发明利用了微软提供的基于IE内核的浏览器核心控件完成了数据分流传递,利用多分类器协作完成智能识别,利用网络导航技术完成了过滤器与浏览器的数据交互,解决了对网络上敏感信息访问的严格控制问题。本发明系统处理时间较快,单幅网页处理时间小于10秒,处理结果的准确率也可以达到80%以上。因而在网络信息安全领域有很好的应用前景。
附图说明
图1示出三种网页样式与分类器的分配关系
图2(a)gif训练集有效/无效图像尺寸分布,
图2(b)jpg训练集有效/无效图像分布
图3是本发明多分类器敏感网页识别方法总体框图
图4是本发明多分类器敏感网页识别系统框图
具体实施方式
下面将结合附图对本发明加以详细说明,应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
如图4本发明基于多分类器融合的敏感网页过滤系统所示,包括:数据流的获取与预处理单元1,生成原网页的文本流和图像流,并以此为依据将原网页分为网页样式;图像与文本流过滤单元2,针对不同网页样式,使用相应的分类器对文本和图像进行识别;图像过滤器与文本过滤器的信息融合单元3,针对混合型网页样式,通过融合公式结合图像过滤器与文本过滤器,得到最终是否为敏感类的识别结果。综上所述,数据流的获取与预处理单元1将网页解析得到文本与图像流,利用C4.5算法将网页归为网页样式;图像与文本流过滤单元2针对数据流的获取与预处理单元1划分的不同网页样式,使用相对应的分类器识别处理数据流的获取与预处理单元1中解析产生的文本和图像流;图像过滤器与文本过滤器的信息融合单元3针对处理图像与文本流过滤单元2中处理的混合型网页,将图像与文本流过滤单元2产生的文本与图像分类结果代入融合公式,得到综合识别结果。识别完毕。
本发明已于微软windows XP平台,VC6.0,VC.Net编程环境下以微软IE浏览器插件的方式实现,经实验可正确运行于个人电脑及电脑终端上。
在本发明方法中,基于对web的分析,把web网页分为三类。如图1示出三种网页样式与分类器的分配关系所示:第一类为以文本为主的网页,其中文本多为文章性质的文本,例如小说,新闻,人物传记等,其特点是上下文之间有较强的语义关联,有丰富的语义信息可以利用。该类型网页通常包含有一篇或者几篇文章。第二类是指以图像为主的网页,网页里主要呈现的是图像信息,附加有少量的分散文本,起辅助说明作用。这类型的网页主要以图库的形式呈现。第三类也是最普遍的网页样式是文字和图像混合的网页,其中的文本也是分块分散出现的,主要起着链接或者说明作用,,此外网页中包含多幅图像以丰富网页的内容,这种样式的网页主要有一些著名门户网站的首页和电子公告牌(BBS)。
基于预处理提供信息,包括网页URL,网页中文本长度,网页中图像基于像素量的分级等作为属性集合,利用决策树学习中的C4.5算法将输入网页分为如上定义的三种样式。然后对三种类型的网页使用相对应的分类器实行分而治之的策略。
对于第一种样式的网页(以文本为主),运用细胞神经网络CNN处理,CNN与其他神经网络最大的区别在于信息只在相邻单元之间交换,而全局信息的处理则通过局部信息的交互来实现。细胞神经网络可以是任意维的,但最常见的是一维或者二维。在一维细胞神经网络中,最常见的连接方式是每个细胞与周围2r+1个细胞(包括它自己)相连。在二维网络中最常见的连接方式是Von Neumann连接与Moore连接,其每个细胞只与其Von Neumann和Moore邻域中的细胞相连。对一个细胞单元状态的形式化描述为:
x(t+1)=g(x(t))+I(t)+f1(y(t))+f2(u(t))
y(t)=f(x(t))
其中x为细胞的内部状态,y是它的输出,u是外部输入,I是偏差,f1和f2是两个函数。
为了构建敏感词汇网络,首先把传统意义上的关键词分为三类:
(1)显式关键字;(2)隐式关键字(3)逻辑关键字;
其中,显式关键字决定了逻辑关键字,同时显式关键字和隐式关键字之间也存在内在的联系。利用三者之间的关系,可以构造我们的联想反馈网络。
为了利用细胞神经网络,我们定义一个节点为一个词汇,另外这个词汇有三个状态:沉寂态,隐藏态和激发态。节点与节点之间按照语义关联进行连接,计算规则是:一旦一个节点结束到一个刺激或者输入,那么根据该节点以往的状态和周围节点的状态以及连接所代表的语义规则来确定该节点的下一个状态。
沉寂态定义为节点还未接受一个输入是的状态;隐藏态定义为节点已经接受输入,但其参数以及周围节点的参数未能够达到其激发条件;激发态定义为节点接受了输入并且收到了激发。一旦一个节点被激发,那么我们就统计该节点出现的次数,最后所有激发节点的次数作为一个向量来进行训练和预测。选用支持向量机(Support Vector Machine,简称SVM)作为分类器,对上述向量形成的特征进行训练和分类,根据SVM输出来决定该网页是否是敏感网页。
对于第二种样式的网页(以图像为主),则提取网页中有效图像集合利用图像分类器进行集合识别,如果判别为敏感的图像数目超过预定阈值,则将该网页判别为敏感。
对于第三种样式的网页(混合型),首先根据尺寸来获取网页里面的有效图像集合,然后利用图像分类器对图像一一进行识别,识别的结果为(N1,N2),其中N1为识别结果为敏感的图像个数,N2为识别结果为正常的图像个数。同时把网页里面的文本当成图像是否为敏感的先验,使用针对离散文本的Bayes分类器对文本进行判别,输出结果为:Ps。然后将各分类器的三个输出参数N1,N2,Ps代入融合公式,得到一个判别因子f,通过该因子f与预定阈值相比较来判断该网页是否是敏感网页。
如图3是本发明多分类器敏感网页识别方法总体流程图所示,具体地包括如下:
步骤1)获取给定的目标网页统一资源定位符URL的源代码,分离出源码中的中文文本。
基于W3C上关于Html和XML的相关文档,然后针对解析的难点对源解析程序进行了改进。严格来说,Html文档是一种完全的树形结构,但是标准中对一些标记的宽松规定使得实际的文档可以不以严格的层次结构出现。首先获取目标网页的超文本标示语言Html源代码,之后对Html文档进行解析,这个解析过程分为3个子步骤:
(1)文档的元素分析,生成节点序列;
(2)元素序列的结构/语法分析,生成初始的Html树;
(3)Html树重构。基于生成的Html树中各种tag标记间包含的文本内容,将其分离出来作为源码中的中文文本流。
步骤2)获取源代码中图像的尺寸大小和位置信息,根据相关规则剔除掉部分图像,获得有效图像集合。
处理图像的开销很大,如果网页中大部分都是无效图片的话,会对系统性能造成很大影响。我们图片尺寸放在第一位,因为HTML标准支持网页中包含图片时就指定它的尺寸,因此可以仅从HTML文件本身就忽略掉无效图片,而根本不需要另外下载它们。这同时也减少了网络开销,总的来说,从网络上下载一幅图片要比分析它更加耗时。
网页通常都包含了相当数量的图像。一般来说,一个图文并茂的网页,可能包含几十甚至上百幅图像。但凭人的主观估计,虽然这个网页包含图片较多,但数量应该在几十幅左右。实际统计的图片数和主观感受差别很大是因为图片中有很多完全是为了网页框架需要起装饰作用的,还有些由于包含信息太少,或是在网页中的位置问题,根本不会引起人的注意。而实际需要识别则是里面有效图像集合,这种有效性表现在两个方面,一是图像尺寸,二是图像位置,用来识别目标网页的整体内容。如附图2所示,横坐标和纵坐标分别为图像的宽度和高度,坐标采用对数式。在这种状态下,很明显可以看出有效图像的聚类特征。我们就根据这个特征编制分类策略。图像出现的位置是另外一个重要的指标,在上文中已经详细讨论过网页结构特征对网页元素的影响。相应的,处于网页核心位置的图片其有效性应大于处在角落位置的图片。最后依据以上规则提取出网页中有效图像集合作为图像流。
3)依据步骤1)和步骤2)中提取出的网页中的中文文本和有效图像集合,构成属性集合,以这些属性集合为基础,将其代入C4.5决策树算法的学习公式,得到决策规则。之后只要将目标网页的文本和图像的属性集合参照形成的决策规则分类,就可以将该网页自动分为三种样式中的一种:以文本为主的网页,以图像为主的网页,混合型的网页。C4.5算法的决策规则形成公式如下:
C是分类的数目(在我们的系统中分类数为3),p(D,j)是在数据集D中属于类别j的那部分的比例。那么可以按照如下公式定义信息熵Info(D):
给定一个有k个值的属性集合T,那么Di就相应代表数据集D中在属性T上取值为i的那部分数据所形成的子集,之后可以按照如下公式定义出在属性集T和数据集D上依据T的不同取值而产生的信息增益:
C4.5算法依据信息增益,每次选取带有最大信息增益的那个属性作为分裂结点形成决策树(决策规则),以后的分类只要按照这个已经形成的规则来就可以了。
本发明中利用的网页属性集如下表所示:网页URL,网页中文本长度,网页中图像基于像素量的分级。
属性集 | 描述 |
是否为首页性质 | 是否在网页的URL中包含有表示首页性质的关键词(例如“main”或者“index”) |
一般文本的长度 | 网页中一般文本的字符数 |
超文本的长度 | 网页中超文本的字符数 |
大图像的数目 | 像素值超过50,000个像素的图像数目 |
中等图像数目 | 像素值在10,000和50,000个像素之间的图像数目 |
小图像数目 | 像素值低于10,000个像素的图像数目 |
步骤4)利用连续敏感文本分类器对按照步骤3)分类为以文本为主的网页中的文本进行识别,识别结果为1,该网页为敏感,则退出。
并给出了描述性的定义。第一类是显式关键词,这类关键词基本上只可能出现在敏感文本里面,从统计上来说就是出现在敏感文本里面的概率很大(接近于1),而出现在正常文本里面的概率很小(接近于0)。从语义上来说,这些词本身就携带着敏感信息。第二类是隐式关键词,这类关键词本来不携带任何的敏感信息。但由于某种原因,这类词于敏感文本产生了固定的联系,也就是说,这些词在敏感文本里面也是以很大的概率出现,当然也会在其它文本里面出现。第三类式逻辑关键词,这类关键词分为两类:一类是多义词,即这类关键词在正常文本里面意义正常,可是在敏感文本里面携带敏感信息;另外一类关键词主要是在于一定的词搭配起来之后,共同携带着敏感信息。而这种搭配,我们可以分为两种,一种是显式加逻辑,一种是逻辑加逻辑。基于上述定义,选取了关键词集合,同时构建了语义规则来描述词汇之间的语义关联,帮助正确的提取特征信息。提出之后的特征经过归一化之后,作为该连续文本的特征向量。选用支持向量机(Support Vector Machine,简称SVM)作为分类器,对特征进行训练和分类,根据SVM输出来决定该网页是否是敏感网页。
步骤5)利用敏感图像分类器对按照步骤3)分类为以图像为主的网页中的有效图像集合进行识别,将图像分类器判别为敏感的那部分图像数目和预定阈值进行比较,依据该项来决定该网页是否是敏感网页,如果判别为敏感的图像数目超过了阈值则将该网页判别为敏感。
步骤6)利用离散文本分类器和敏感图像分类器的融合算法对按照步骤3)分类为混合型(即包含大量图像又包含一定数量的文本)的网页中进行融合识别,首先人工构建一个关键词列表,对网页里的文本统计关键词后,归一化后作为离散敏感文本的特征向量输入到训练好的Bayes网络里面,通过离散文本分类器对中文文本进行识别,并获得离散文本分类因子,具体算法描述如下:
首先定义T={t1,t2, ...,t|T|}作为类别Cj的训练集;
C={c1,c2,...,c|C|}作为类别;W={w1,w2,...,w|V|}作为关键词集合。此外,定义N(w,ti)作为在文档di中关键词W出现的次数,也就是W的词频。
然后计算出概率P(w|Cj),这个概率表示关键词W和一个类别Cj的相关联程度的大小:
在处理目标文本ti时,计算概率P(Cj|ti)作为离散文本分类器因子,这个概率表示目标文本ti属于一个类别Cj的可能性到底有多大,其中需要利用上面提到的概率P(w|Cj)。这里使用了一个Bayes独立性假设:P(w1,w2...wn|Cj)=∏P(wi|Cj)。即隐式得表达了在第三类混合型的网页中文本关键词之间的语义联系并不是很紧密,可以视为独立分散存在。
对于第三类型的网页,根据尺寸来获取网页里面的部分符合要求的图像,然后利用图像分类器对图像一一进行识别,识别的结果为(N1,N2),其中N1为识别结果为敏感的图正常的图像个数,N2为识别结果为像个数。同时把网页里面的文本当成图像是否为敏感的先验,使用针对离散文本的Bayes分类器对文本进行判别,即上面提到的离散文本分类器因子,记为Ps。利用两个参数来描述图像分类器:P1表示把一副正常图像误分为敏感图像的概率,P2表示把一副敏感图像误分为正常图像的概率。三个参数代入如下公式:
得到一个判别因子f,通过该因子f与预定阈值相比较来判断该网页是否是敏感网页。
步骤7)将最终的敏感判别结果返回给web浏览器,结果为敏感则在客户端阻止该网页的显示,结果为非敏感则正常显示。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (4)
1、一种基于多分类器融合的敏感网页过滤方法,包括步骤:
步骤S1:获取目标网页统一资源定位符的源代码,进行预处理,用于获取中文文本信息,获取网页中有效图像集合信息;
步骤11:在预处理阶段通过解析网页超文本标示语言代码,获取该网页所包含每幅图像的尺寸和位置信息,用于识别目标网页的整体内容;
步骤12:如果尺寸信息和位置信息符合事先统计好的规则,则将该图像划分至有效图像集合中;
步骤S2:基于预处理提供信息,利用决策树学习中的C4.5算法将输入网页中文文本和有效图像生成文本、图像及文本与图像的混合网页样式,用于获得文本流、图像流和文本与图像混合流信息;
所述决策树C4.5算法将输入网页生成网页样式的步骤包括:
步骤21:计算属性集中网页统一资源定位符、网页中文本长度和网页中图像基于像素量的分级,得到信息熵和分类前后信息熵的增益变化;
步骤22:将信息熵增益作为分类尺度,给出分类依据,即取最大的信息熵增益的属性集划分为最终决策;
步骤23:重复步骤22直到所有属性集都被划分,从而形成决策树和分类规则;
对混合型网页的图像识别与文字识别的信息融合步骤包括:
首先利用图像识别器对混合型网页的每幅图像进行识别,获得识别结果为敏感的图像数量N1,获得图像识别结果为正常的图像数量N2;
离散文本识别的结果与上述图像识别的结果融合,如果结果大于阈值,则该网页为敏感,否则为正常网页;
步骤S3:利用多分类器识别与网页样式的指定分配关系,获得目标网页;所述分类器识别包括:利用连续敏感文本分类器对以文本为主的网页样式进行识别、利用敏感图像分类器器对以图像为主的网页样式中的图像集合进行识别和对混合型网页样式则利用离散敏感文本分类器和敏感图像分类器融合进行识别;
步骤S4:根据识别结果综合判断目标网页是否敏感,如果敏感,则执行步骤5,如果不敏感,则执行步骤6;
步骤S5:将识别的敏感网页送入Web浏览器,并在浏览器中警示用户所浏览网页含有敏感内容,浏览被禁止;
步骤S6:在Web浏览器中正常显示原网页。
2、按权利要求1所述的方法,其特征在于,利用连续敏感文本分类器对以文字为主的网页进行识别步骤包括:
步骤1):用细胞神经网络定义N维离散空间上的大型并行计算网络,将网络上的一个节点作为一个关键词,将节点之间的连接描述,用于生成文本中词汇之间的语义关系;
步骤2):利用文本中词汇之间的语义关系,将节点之间相互的抑制与激活,用于取得节点的激活次数作为文本的统计特征;
步骤3):以统计特征作为输入,选用支持向量机作为训练以及预测的分类器,对预处理网页中得到的文本进行分类,得到分类结果。
3、按权利要求1所述的方法,其特征在于,利用离散敏感文本分类器对混合型的网页中文字进行识别:
首先利用向量空间模型提取离散敏感文本的特征;
把离散敏感文本特征输入到已经训练好的贝叶斯网络中,输出的结果为该文本输入敏感的概率值,如果该概率值大于阈值,则得到该文本为敏感分类结果。
4、一种基于多分类器融合的敏感网页过滤系统,其特征在于:
数据流的获取与预处理单元(1),生成原网页的文本流和图像流,并以此为依据将原网页分为网页样式;
图像与文本流过滤单元(2),针对不同网页样式,使用相应的分类器对文本和图像进行识别;
图像过滤器与文本过滤器的信息融合单元(3),针对混合型网页样式,通过融合结合图像过滤器与文本过滤器,得到最终是否为敏感类的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007100651816A CN100565523C (zh) | 2007-04-05 | 2007-04-05 | 一种基于多分类器融合的敏感网页过滤方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007100651816A CN100565523C (zh) | 2007-04-05 | 2007-04-05 | 一种基于多分类器融合的敏感网页过滤方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101281521A CN101281521A (zh) | 2008-10-08 |
CN100565523C true CN100565523C (zh) | 2009-12-02 |
Family
ID=40013998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2007100651816A Active CN100565523C (zh) | 2007-04-05 | 2007-04-05 | 一种基于多分类器融合的敏感网页过滤方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100565523C (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595422A (zh) * | 2018-04-13 | 2018-09-28 | 卓望信息技术(北京)有限公司 | 一种过滤不良彩信的方法 |
Families Citing this family (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763502B (zh) * | 2008-12-24 | 2012-07-25 | 中国科学院自动化研究所 | 一种高效的敏感图像检测方法及其系统 |
CN101604322B (zh) * | 2009-06-24 | 2011-09-07 | 北京理工大学 | 一种决策级文本自动分类融合方法 |
CN101599122B (zh) | 2009-07-02 | 2013-06-19 | 阿里巴巴集团控股有限公司 | 一种图像识别方法及装置 |
CN101969466A (zh) * | 2010-10-18 | 2011-02-09 | 上海电机学院 | 一种分布式系统中的网络服务搜索方法 |
CN102567319B (zh) * | 2010-12-10 | 2016-08-24 | 深圳市世纪光速信息技术有限公司 | 网页图片过滤方法及系统 |
CN102541913B (zh) * | 2010-12-15 | 2017-10-03 | 中国人民解放军国防科学技术大学 | 面向Web的VSM分类器训练、OSSP页面识别及OSS资源提取方法 |
CN102306287B (zh) * | 2011-08-24 | 2017-10-10 | 百度在线网络技术(北京)有限公司 | 一种用于识别敏感图像的方法与设备 |
CN102567512B (zh) * | 2011-12-27 | 2014-12-17 | 深信服网络科技(深圳)有限公司 | 网页视频分类控制的方法和装置 |
US9037587B2 (en) | 2012-05-10 | 2015-05-19 | International Business Machines Corporation | System and method for the classification of storage |
DE102013000301A1 (de) * | 2013-01-10 | 2014-07-10 | Basler Ag | Verfahren und Vorrichtung zur Erzeugung eines verbesserten Farbbildes mit einem Sensor mit Farbfilter |
CN104184574B (zh) * | 2013-05-22 | 2019-04-16 | 中兴通讯股份有限公司 | 智能移动终端及其数据处理方法 |
CN103366019B (zh) * | 2013-08-06 | 2016-09-28 | 飞天诚信科技股份有限公司 | 一种基于iOS设备的网页拦截方法和设备 |
CN104391860B (zh) * | 2014-10-22 | 2018-03-02 | 安一恒通(北京)科技有限公司 | 内容类别检测方法及装置 |
CN104407839A (zh) * | 2014-10-31 | 2015-03-11 | 北京思特奇信息技术股份有限公司 | 一种复杂运算逻辑的解析方法及装置 |
CN105550182A (zh) * | 2014-11-01 | 2016-05-04 | 江苏威盾网络科技有限公司 | 一种基于云端的网页分类控制装置及方法 |
CN104361059B (zh) * | 2014-11-03 | 2018-03-27 | 中国科学院自动化研究所 | 一种基于多示例学习的有害信息识别和网页分类方法 |
CN104376304B (zh) * | 2014-11-18 | 2018-07-17 | 新浪网技术(中国)有限公司 | 一种文本广告图像的识别方法及装置 |
EP3224738A1 (en) * | 2014-11-27 | 2017-10-04 | Longsand Limited | Block classified term |
CN104866780B (zh) * | 2015-04-24 | 2018-01-05 | 广东电网有限责任公司信息中心 | 基于分级分类的非结构化数据资产防泄露方法 |
CN104965905B (zh) * | 2015-06-30 | 2018-05-04 | 北京奇虎科技有限公司 | 一种网页分类的方法和装置 |
CN105320961A (zh) * | 2015-10-16 | 2016-02-10 | 重庆邮电大学 | 基于卷积神经网络和支持向量机的手写数字识别方法 |
CN105391708A (zh) * | 2015-11-02 | 2016-03-09 | 北京锐安科技有限公司 | 音频数据的检测方法及装置 |
CN105912648A (zh) * | 2016-04-08 | 2016-08-31 | 南京大学 | 一种基于侧面信息的代码片段编程语言识别方法 |
CN106021582B (zh) * | 2016-06-02 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 位置信息过滤的方法、提取有效网页信息的方法及装置 |
CN106294535B (zh) * | 2016-07-19 | 2019-06-25 | 百度在线网络技术(北京)有限公司 | 网站的识别方法和装置 |
CN107688576B (zh) * | 2016-08-04 | 2020-06-16 | 中国科学院声学研究所 | 一种cnn-svm模型的构建及倾向性分类方法 |
CN106776842B (zh) * | 2016-11-28 | 2021-03-19 | 腾讯科技(上海)有限公司 | 多媒体数据检测方法及装置 |
GB201620235D0 (en) * | 2016-11-29 | 2017-01-11 | Microsoft Technology Licensing Llc | Neural network data entry system |
CN106528869A (zh) * | 2016-12-05 | 2017-03-22 | 深圳大图科创技术开发有限公司 | 一种话题检测装置 |
CN106682694A (zh) * | 2016-12-27 | 2017-05-17 | 复旦大学 | 一种基于深度学习的敏感图像识别方法 |
CN106845717B (zh) * | 2017-01-24 | 2021-04-09 | 哈尔滨工业大学 | 一种基于多模型融合策略的能源效率评价方法 |
CN106909654B (zh) * | 2017-02-24 | 2020-07-21 | 北京时间股份有限公司 | 一种基于新闻文本信息的多级分类系统及方法 |
CN109947760A (zh) * | 2017-07-26 | 2019-06-28 | 华为技术有限公司 | 一种挖掘kpi根因的方法及装置 |
CN107679075B (zh) * | 2017-08-25 | 2020-06-02 | 北京德塔精要信息技术有限公司 | 网络监控方法和设备 |
CN107766234A (zh) * | 2017-08-31 | 2018-03-06 | 广州数沃信息科技有限公司 | 一种基于移动设备的网页健康度的测评方法、装置及系统 |
CN109947967B (zh) * | 2017-10-10 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、存储介质和计算机设备 |
CN108052556A (zh) * | 2017-11-29 | 2018-05-18 | 成都东方盛行电子有限责任公司 | 一种基于大数据的分类方法 |
CN108319672B (zh) * | 2018-01-25 | 2023-04-18 | 南京邮电大学 | 基于云计算的移动终端不良信息过滤方法及系统 |
CN110163033B (zh) * | 2018-02-13 | 2022-04-22 | 京东方科技集团股份有限公司 | 正样本获取方法、行人检测模型生成方法和行人检测方法 |
CN109656141A (zh) * | 2019-01-11 | 2019-04-19 | 武汉天喻聚联网络有限公司 | 基于人工智能技术的违规识别及机器行为控制方法、设备、存储介质 |
CN110147817B (zh) * | 2019-04-11 | 2021-08-27 | 北京搜狗科技发展有限公司 | 训练数据集生成方法及装置 |
CN111832588A (zh) * | 2019-04-18 | 2020-10-27 | 四川大学 | 一种基于集成分类的暴恐图像标注方法 |
CN110245227B (zh) * | 2019-04-25 | 2021-12-28 | 义语智能科技(广州)有限公司 | 文本分类的融合分类器的训练方法及设备 |
CN110321936A (zh) * | 2019-06-14 | 2019-10-11 | 浙江鹏信信息科技股份有限公司 | 一种基于vgg16及svm实现图片二分类的方法 |
CN110275958B (zh) * | 2019-06-26 | 2021-07-27 | 北京市博汇科技股份有限公司 | 网站信息识别方法、装置和电子设备 |
CN112199564A (zh) * | 2019-07-08 | 2021-01-08 | Tcl集团股份有限公司 | 一种信息过滤方法、装置及终端设备 |
CN110879963B (zh) * | 2019-09-18 | 2023-09-05 | 北京印刷学院 | 一种敏感表情包检测方法、装置与电子设备 |
CN110909224B (zh) * | 2019-11-22 | 2022-06-10 | 浙江大学 | 一种基于人工智能的敏感数据自动分类识别方法及系统 |
CN111008329A (zh) * | 2019-11-22 | 2020-04-14 | 厦门美柚股份有限公司 | 基于内容分类的页面内容推荐方法及装置 |
CN111259237B (zh) * | 2020-01-13 | 2021-02-09 | 中国搜索信息科技股份有限公司 | 一种用于公众有害信息的识别方法 |
CN111241286A (zh) * | 2020-01-16 | 2020-06-05 | 东方红卫星移动通信有限公司 | 一种基于混合分类器的短文本情感细分类方法 |
CN111488913A (zh) * | 2020-03-17 | 2020-08-04 | 华为技术有限公司 | 基于多分析任务的数据分析方法及电子设备 |
CN111652622B (zh) * | 2020-05-26 | 2023-08-01 | 支付宝(杭州)信息技术有限公司 | 一种风险网址的识别方法、装置及电子设备 |
CN111597310B (zh) * | 2020-05-26 | 2023-10-20 | 成都卫士通信息产业股份有限公司 | 一种敏感内容检测方法、装置、设备、介质 |
CN111783789A (zh) * | 2020-06-30 | 2020-10-16 | 青海民族大学 | 一种图像敏感信息识别方法 |
CN112183465A (zh) * | 2020-10-26 | 2021-01-05 | 天津大学 | 一种基于人物属性和上下文的社会关系识别方法 |
CN112632355A (zh) * | 2020-11-26 | 2021-04-09 | 武汉虹旭信息技术有限责任公司 | 有害信息的碎片内容处理方法及装置 |
CN112258254B (zh) * | 2020-12-21 | 2021-03-09 | 中国人民解放军国防科技大学 | 基于大数据架构的互联网广告风险监测方法及系统 |
CN113177409A (zh) * | 2021-05-06 | 2021-07-27 | 上海慧洲信息技术有限公司 | 一种智能敏感字词识别系统 |
CN113378881B (zh) * | 2021-05-11 | 2022-06-21 | 广西电网有限责任公司电力科学研究院 | 基于信息熵增益svm模型的指令集识别方法及装置 |
CN113849760B (zh) * | 2021-12-02 | 2022-07-22 | 云账户技术(天津)有限公司 | 敏感信息风险评估方法、系统和存储介质 |
CN113869803A (zh) * | 2021-12-02 | 2021-12-31 | 云账户技术(天津)有限公司 | 企业敏感信息风险评估方法、系统和存储介质 |
CN114782670A (zh) * | 2022-05-11 | 2022-07-22 | 中航信移动科技有限公司 | 一种多模态敏感信息鉴别方法、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1295292A (zh) * | 1999-11-05 | 2001-05-16 | 国际商业机器公司 | 用于多语言万维网服务器的方法和系统 |
CN1314634A (zh) * | 2000-03-17 | 2001-09-26 | 索尼株式会社 | 文档转换方法、文档转换器、以及文档显示系统 |
-
2007
- 2007-04-05 CN CNB2007100651816A patent/CN100565523C/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1295292A (zh) * | 1999-11-05 | 2001-05-16 | 国际商业机器公司 | 用于多语言万维网服务器的方法和系统 |
CN1314634A (zh) * | 2000-03-17 | 2001-09-26 | 索尼株式会社 | 文档转换方法、文档转换器、以及文档显示系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595422A (zh) * | 2018-04-13 | 2018-09-28 | 卓望信息技术(北京)有限公司 | 一种过滤不良彩信的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101281521A (zh) | 2008-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100565523C (zh) | 一种基于多分类器融合的敏感网页过滤方法及系统 | |
CN100412888C (zh) | 基于内容的敏感网页识别方法 | |
CN102279894B (zh) | 基于语义的查找、集成和提供评论信息的方法及搜索系统 | |
US8239387B2 (en) | Structural clustering and template identification for electronic documents | |
CN102937951B (zh) | 建立ip地址分类模型的方法、对用户分类的方法及装置 | |
CN104008203B (zh) | 一种融入本体情境的用户兴趣挖掘方法 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN104268148B (zh) | 一种基于时间串的论坛页面信息自动抽取方法及系统 | |
CN106776544A (zh) | 人物关系识别方法及装置和分词方法 | |
CN101593200A (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN106294535B (zh) | 网站的识别方法和装置 | |
CN101770520A (zh) | 基于用户浏览行为的用户兴趣建模方法 | |
CN102650999A (zh) | 一种从网页中抽取对象属性值信息的方法和系统 | |
CN101515272A (zh) | 提取网页内容的方法和装置 | |
CN103246732A (zh) | 一种在线Web新闻内容的抽取方法及系统 | |
CN103559199A (zh) | 网页信息抽取方法和装置 | |
CN113254652B (zh) | 一种基于超图注意力网络的社交媒体贴文真实性检测方法 | |
Islam et al. | A proposed Bi-LSTM method to fake news detection | |
CN116881429B (zh) | 一种基于多租户的对话模型交互方法、装置及存储介质 | |
CN109299286A (zh) | 非结构化数据的知识挖掘方法及系统 | |
CN110175288B (zh) | 一种面向青少年群体的文字和图像数据的过滤方法及系统 | |
Sun et al. | A hybrid approach to news recommendation based on knowledge graph and long short-term user preferences | |
CN110083760A (zh) | 一种基于可视块的多记录型动态网页信息提取方法 | |
CN100357942C (zh) | 一种移动互联网智能信息搜索引擎的搜索方法 | |
CN108595466B (zh) | 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |