CN100412888C - 基于内容的敏感网页识别方法 - Google Patents

基于内容的敏感网页识别方法 Download PDF

Info

Publication number
CN100412888C
CN100412888C CNB2006100731727A CN200610073172A CN100412888C CN 100412888 C CN100412888 C CN 100412888C CN B2006100731727 A CNB2006100731727 A CN B2006100731727A CN 200610073172 A CN200610073172 A CN 200610073172A CN 100412888 C CN100412888 C CN 100412888C
Authority
CN
China
Prior art keywords
text
image
identification
responsive
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2006100731727A
Other languages
English (en)
Other versions
CN101055621A (zh
Inventor
胡卫明
吴偶
陈周耀
朱明亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CNB2006100731727A priority Critical patent/CN100412888C/zh
Publication of CN101055621A publication Critical patent/CN101055621A/zh
Application granted granted Critical
Publication of CN100412888C publication Critical patent/CN100412888C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Character Input (AREA)

Abstract

本发明公开一种基于内容的敏感网页识别方法,包括步骤:在给定网页的统一资源定位器的条件下,获取该网页的源码,数据分流和预处理,获取文本信息和有效图像信息;利用连续敏感文本分类器对文本信息处理,如果分类器输出结果为敏感,则处理完毕。否则利用离散敏感文本分类器对文本信息处理,如果分类器输出结果大于事先给定阈值,识别结果为敏感,则处理完毕。否则利用图像分类器对图像识别,识别结果与离散分类器输出结果融合。本发明采用连续敏感文本识别器、离散文本识别器和敏感图像识别器三者结合的方案解决现有技术的问题,本发明利用web结构信息及构造了一个图像集合识别问题来进行信息融合,提高对敏感网页的识别率。

Description

基于内容的敏感网页识别方法
技术领域
本发明涉及信息过滤技术领域,尤其涉及识别含有敏感信息的网页的方法。
背景技术
由于互联网敏感信息对于互联网用户尤其是青少年造成了极大的危害,因此引起了研究者和业界的广泛关注。
目前有很多种敏感信息过滤方法,包括黑白名单,IP过滤以及关键词匹配等等过滤手段。总的来说,一方面,这些过滤技术采用一种非常机械的方式,能够对一些敏感网页达到100%的过滤效率,响应时间也非常短,但是过滤参数更新的周期只能跟随着实际敏感网页的出现而变化,不能够应对实际敏感网站的快速变化。另一方面,由于网页的内容信息基本上没有利用或者很少利用,因此造成了很高的误过滤率,影响了用户的正常上网。
基于内容的敏感信息智能识别技术是近年来过滤技术的一个发展方向。目前已有多种基于内容的敏感信息识别方法。
目前的敏感网页识别方法一般主要建立敏感文本识别基础之上。因此核心是对文本的处理,首先提取网页中的文本,然后提取特征,然后利用机器学习里面的分类算法来对特征进行训练和分类。其中特征提取的方法通常采用的是:(1)人工给定一个关键词列表;(2)利用文本匹配的方法来统计各关键词出现的次数;(3)各关键词出现的次数组成一个向量,经过归一化等处理后,该向量作为该文本的特征向量。一般给定的关键词数目小于100。然后选取分类器来进行训练和预测。新加坡Pui Y.Lee等人利用Kohonen自组织神经网络来作为分类器,取得了较好的实际效果。还存在一些敏感图像识别方法,例如本单位提出了一种基于内容的敏感图像识别方法,在CAMPAQ数据库上取得了超过80%的识别率。
同机械的过滤方法类似,以上方法没有很好的利用web特征,目前还不能够达到满意的效果,例如基于文本的敏感网页识别不能够对与敏感主题相关的正常网页进行很好的识别,基于图像的敏感网页识别的误识别率很高。已存在的融合算法也仅仅是通过与或操作来融合,不能够根本上提高识别率。
为了解决现有技术的不足,本发明的目的是关注从web网页特点出发进行的敏感信息识别,进一步提高对敏感网页的识别率,为此,本发明提出一种基于内容的敏感网页识别方法。
为了实现上述目的,本发明基于内容的敏感网页识别方法的步骤如下:包括预处理步骤和识别文本信息步骤;
预处理步骤包括:
在给定网页的统一资源定位器的条件下,获取该网页的源码,进行数据分流和预处理,获取文本信息;
获取网页中图像部分结构信息,挑选重要图像组成有效图像集合;
识别敏感信息步骤包括:
利用连续敏感文本识别器对文本信息进行识别处理步骤;
利用离散文本识别器对文本信息进行识别步骤;
利用敏感图像识别器对图像集合的图像进行识别步骤。
所述的识别敏感信息步骤如下:
利用连续敏感文本识别器对文本信息进行识别处理,如果识别结果为敏感,则处理完毕;如果识别结果为不敏感,则执行:
离散文本识别器对文本信息进行识别步骤,如果识别器输出结果大于阈值,则识别结果为敏感,处理完毕;如果识别结果为不敏感,则执行:
敏感图像识别器对图像集合的图像进行识别步骤,识别的结果与离散敏感文本识别器的结果融合,根据其融合结果判断该网页是否敏感。
本发明针对现有技术中,基于文本的敏感网页识别不能够对与敏感主题相关的正常网页进行很好的识别;基于图像的敏感网页识别是采用与或操作融合的技术方案,不能够从根本上提高识别率的问题,本发明采用连续敏感文本识别器、离散文本识别器和敏感图像识别器三者结合的技术方案解决现有技术的问题,本发明利用web结构信息及构造了一个图像集合识别问题来进行信息融合,提高对敏感网页的识别率。
附图说明
通过以下结合附图的详细描述,本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中:
图1是本发明系统框架示意图
具体实施方式
下面结合附图对本发明作具体说明。应该指出,所描述的施例仅仅视为说明的目的,而不是对本发明的限制。
根据本发明,所示的图1是本发明系统框架示意图,具体步骤如下:
在步骤S1:获取给定的网页URL的源码;
在步骤S2:分离出源码中的中文文本;
在步骤S3:获取源码中图像的大小信息,根据规则剔除掉部分图像;
在步骤S4:利用连续文本分类器对分离出来的中文文本进行识别,识别结果为1,该网页为敏感,则退出;
在步骤S5:利用离散文本分类器对中文文本进行识别,如果识别结果大于设定阈值,该网页为敏感,则退出;
在步骤S6:利用图像分类器对图像进行识别;
在步骤S7:识别的结果与离散文本识别的结果融合。
根据步骤S3,挑选出重要图像步骤包括:
获取该网页所包含每幅图像的尺寸信息;
如果图像尺寸大小符合事先统计好的规则,该图像视为重要图像,则划分至有效图像集合中。
根据步骤S4,利用连续敏感文本识别器识别文本步骤包括:
提取该文本的特征;
把文本特征输入到事先已经训练好的支持向量机(Support VectorMachine,简称SVM)中,输出结果为1则该文本为敏感,处理完毕,否则继续处理。
根据步骤S5,利用离散敏感文本识别器识别文本步骤包括:
利用向量空间模型(VSM)提取该文本的特征;
把文本特征输入到已经训练好的贝叶斯网络(Bayes Networks,简称BNS)中,输出的结果为该文本输入敏感的概率,如果概率值大于阈值τ,则文本为敏感,处理完毕,否则继续处理。
根据步骤S6,图像识别步骤包括:
利用图像识别器对每幅图像进行识别,识别结果为敏感的图像数量为N1,识别结果为正常的图像数量为N2
根据步骤S7,信息融合步骤包括:
离散文本识别的结果与步骤S6图像识别的结果融合,识别的结果代入公式(1-1)中,如果结果大于1,则该网页为敏感,否则为正常,处理完毕。
根据本发明方法步骤S1和步骤S2中,基于对web的分析,把web网页分为三类。第一类为以连续文本为主的网页,其中连续文本定义为文章性质的文本,其特点是上下文之间有较强的语义关联,有丰富的语义信息可以利用。该类型网页通常有一篇或者几篇文章。第二类是以离散文本为主的网页,其中离散文本指连续文本以外的文本,例如首页或者一些图片周围的说明文本等等,主要起着链接或者说明作用。第三类是指以图像为主的网页,网页里主要呈现的是图像信息,附加有少量的离散文本。
具体地,本发明对于第一类型的网页,连续文本为主,选用结合语义与统计的过滤方法,定义了三类关键词并给出了描述性的定义:
第一类是显式关键词,这类关键词基本上只可能出现在敏感文本里面,从统计上来说就是出现在敏感文本里面的概率很大(接近于1),而出现在正常文本里面的概率很小(接近于0)。从语义上来说,这些词本身就携带着敏感信息。
第二类是隐式关键词,这类关键词本来不携带任何的敏感信息。但由于某种原因,这类词于敏感文本产生了固定的联系,也就是说,这些词在敏感文本里面也是以很大的概率出现,当然也会在其它文本里面出现。
第三类式逻辑关键词,这类关键词分为两类:一类是多义词,即这类关键词在正常文本里面意义正常,可是在敏感文本里面携带敏感信息;另外一类关键词主要是在于一定的词搭配起来之后,共同携带着敏感信息。而这种搭配,我们可以分为两种,一种是显式加逻辑,一种是逻辑加逻辑。基于上述定义,选取了关键词集合,同时构建了语义规则来描述词汇之间的语义关联,帮助正确的提取特征信息。提出之后的特征经过归一化之后,作为该连续文本的特征向量。由步骤S4,选用支持向量机(Support Vector Machine,简称SVM)作为分类器,对特征进行训练和分类,根据SVM输出来决定该网页是否是敏感网页。
具体地,本发明对于第二类型的网页,根据步骤S4,人工构建一个关键词列表,对网页里的文本统计关键词后,归一化后作为特征向量输入到训练好的Bayes网络里面,根据网络的输出来决定该网页是否是敏感网页。
具体地,本发明对于第三类型的网页,由步骤S3,根据尺寸来获取网页里面的部分符合要求的图像;由步骤S6,利用图像分类器对图像一一进行识别,识别的结果为(N1,N2),其中N1为识别结果为敏感的图像个数,N2为识别结果为正常的图像个数。同时把网页里面的文本当成图像是否为敏感的先验,根据步骤S5,使用针对离散文本的Bayes分类器对文本进行判别,输出的结果为:Ps。根据步骤S7,利用两个参数来描述图像分类器:P1表示把一副正常图像误分为敏感图像的概率,P2表示把一副敏感图像误分为正常图像的概率,三个参数代入如下公式进行融合:
( 1 - p 2 ) N 1 p 2 N 2 p 1 N 1 ( 1 - p 1 ) N 2 * P s 1 - P s - - - ( 1 - 1 )
各分类器输出值代入上述公式,计算的结果与阈值相比较来判断该网页是否是敏感网页。
上述实施例中,各个步骤均为示例,本领域普通技术人员可以根据实际情况确定要使用的实际步骤,而且各个步骤的实现有多种方法,均应属于本发明的范围之内。
最后说明:上面描述是用于实现本发明及其实施例,本发明的范围不应由该描述来限定。本领域的技术人员应该理解,在不脱离本发明的范围的任何修改或局部替换,均属于本发明权利要求来限定的范围。

Claims (7)

1. 一种基于内容的敏感网页识别方法,包括步骤:
预处理步骤包括:
在给定网页的统一资源定位器的条件下,获取该网页的源码,进行数据分流和预处理,获取文本信息;
获取网页中图像部分的结构信息,挑选重要图像组成有效图像集合;
网页敏感信息识别步骤包括:
利用连续敏感文本识别器对文本信息进行识别处理步骤;
利用离散文本识别器对文本信息进行识别步骤;
利用敏感图像识别器对图像集合的图像进行识别步骤;
如果离散文本识别器识别结果为不敏感,则敏感图像识别器识别的结果与离散敏感文本识别器识别的结果融合,根据其融合结果判断该网页是否敏感。
2. 根据权利要求1所述基于内容的敏感网页识别方法,其特征在于,所述的网页敏感信息识别步骤如下:
利用连续敏感文本识别器对文本信息进行识别处理,如果识别结果为敏感,则处理完毕;如果识别结果为不敏感,则执行:
离散文本识别器对文本信息进行识别步骤,如果识别器输出结果大于阈值,则识别结果为敏感,处理完毕;如果识别结果为不敏感,则执行:
敏感图像识别器对图像集合的图像进行识别步骤,识别的结果与离散敏感文本识别器的结果融合,根据其融合结果判断该网页是否敏感。
3. 根据权利要求1所述基于内容的敏感网页识别方法,其特征在于,挑选出重要图像步骤包括:
获取该网页所包含每幅图像的尺寸信息;
如果图像尺寸大小符合事先统计好的规则,该图像视为重要图像,则划分至有效图像集合中。
4. 根据权利要求1所述基于内容的敏感网页识别方法,其特征在于,利用连续敏感文本识别器识别文本步骤包括:
提取该文本的特征;
把文本特征输入到事先已经训练好的支持向量机中,输出结果为1则该文本为敏感,处理完毕,否则继续处理。
5. 根据权利要求1所述基于内容的敏感网页识别方法,其特征在于,利用离散敏感文本识别器识别文本步骤包括:
利用向量空间模型提取该文本的特征;
把文本特征输入到已经训练好的贝叶斯网络中,输出的结果为该文本输入敏感的概率,如果概率值大于阈值τ,则文本为敏感,处理完毕,否则继续处理。
6. 根据权利要求1所述基于内容的敏感网页识别方法,其特征在于,对图像集合的图像识别步骤包括:
利用图像识别器对每幅图像进行识别,识别结果为敏感的图像数量为N1,识别结果为正常的图像数量为N2
7. 根据权利要求1所述基于内容的敏感网页识别方法,其特征在于,所述融合结果判断是:如果结果大于1,则该网页为敏感,否则为正常,处理完毕。
CNB2006100731727A 2006-04-10 2006-04-10 基于内容的敏感网页识别方法 Active CN100412888C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100731727A CN100412888C (zh) 2006-04-10 2006-04-10 基于内容的敏感网页识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100731727A CN100412888C (zh) 2006-04-10 2006-04-10 基于内容的敏感网页识别方法

Publications (2)

Publication Number Publication Date
CN101055621A CN101055621A (zh) 2007-10-17
CN100412888C true CN100412888C (zh) 2008-08-20

Family

ID=38795454

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100731727A Active CN100412888C (zh) 2006-04-10 2006-04-10 基于内容的敏感网页识别方法

Country Status (1)

Country Link
CN (1) CN100412888C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010037332A1 (zh) * 2008-09-26 2010-04-08 腾讯科技(深圳)有限公司 分类器的训练方法及装置、识别图片的方法及装置

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763502B (zh) * 2008-12-24 2012-07-25 中国科学院自动化研究所 一种高效的敏感图像检测方法及其系统
CN102541913B (zh) * 2010-12-15 2017-10-03 中国人民解放军国防科学技术大学 面向Web的VSM分类器训练、OSSP页面识别及OSS资源提取方法
CN102693236A (zh) * 2011-03-24 2012-09-26 苏州风采信息技术有限公司 基于内容理解的不良信息过滤方法
CN102332028B (zh) * 2011-10-15 2013-08-28 西安交通大学 一种面向网页的不良Web内容识别方法
CN102647416A (zh) * 2012-03-30 2012-08-22 上海明复信息技术有限公司 基于互联网数据来源控制实现有害信息过滤的系统及方法
CN103810425B (zh) * 2012-11-13 2015-09-30 腾讯科技(深圳)有限公司 恶意网址的检测方法及装置
CN103473299B (zh) * 2013-09-06 2017-02-08 北京锐安科技有限公司 一种网站不良似然度获取方法和装置
CN106992922A (zh) * 2014-05-15 2017-07-28 周奇 表达主观敏感信息的方法
CN104391860B (zh) * 2014-10-22 2018-03-02 安一恒通(北京)科技有限公司 内容类别检测方法及装置
CN104951802A (zh) * 2015-06-17 2015-09-30 中国科学院自动化研究所 一种分类器更新方法
CN105162652A (zh) * 2015-08-21 2015-12-16 成都秋雷科技有限责任公司 网页浏览的处理方法
CN108234392B (zh) * 2016-12-14 2021-06-08 北京国双科技有限公司 一种网站的监控方法及装置
CN106682694A (zh) * 2016-12-27 2017-05-17 复旦大学 一种基于深度学习的敏感图像识别方法
CN107943954B (zh) * 2017-11-24 2020-07-10 杭州安恒信息技术股份有限公司 网页敏感信息的检测方法、装置及电子设备
CN109656141A (zh) * 2019-01-11 2019-04-19 武汉天喻聚联网络有限公司 基于人工智能技术的违规识别及机器行为控制方法、设备、存储介质
CN109902223B (zh) * 2019-01-14 2020-12-04 中国科学院信息工程研究所 一种基于多模态信息特征的不良内容过滤方法
CN110275958B (zh) * 2019-06-26 2021-07-27 北京市博汇科技股份有限公司 网站信息识别方法、装置和电子设备
CN114782670A (zh) * 2022-05-11 2022-07-22 中航信移动科技有限公司 一种多模态敏感信息鉴别方法、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1349180A (zh) * 2001-12-03 2002-05-15 上海交通大学 基于内容分级的网页服务器
CN1508755A (zh) * 2002-12-17 2004-06-30 中国科学院自动化研究所 敏感视频检测方法
US20040145778A1 (en) * 2003-01-21 2004-07-29 Brother Kogyo Kabushiki Kaisha Communication system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1349180A (zh) * 2001-12-03 2002-05-15 上海交通大学 基于内容分级的网页服务器
CN1508755A (zh) * 2002-12-17 2004-06-30 中国科学院自动化研究所 敏感视频检测方法
US20040145778A1 (en) * 2003-01-21 2004-07-29 Brother Kogyo Kabushiki Kaisha Communication system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010037332A1 (zh) * 2008-09-26 2010-04-08 腾讯科技(深圳)有限公司 分类器的训练方法及装置、识别图片的方法及装置
US8611644B2 (en) 2008-09-26 2013-12-17 Tencent Technology (Shenzhen) Company Limited Method and apparatus for training classifier, method and apparatus for image recognition

Also Published As

Publication number Publication date
CN101055621A (zh) 2007-10-17

Similar Documents

Publication Publication Date Title
CN100412888C (zh) 基于内容的敏感网页识别方法
CN101281521A (zh) 一种基于多分类器融合的敏感网页过滤方法及系统
CN101408883B (zh) 一种网络舆情观点收集方法
CN103313248B (zh) 一种识别垃圾信息的方法和装置
CN109918560A (zh) 一种基于搜索引擎的问答方法和装置
CN100462980C (zh) 内容相关广告识别方法和内容相关广告服务器
CN104679825B (zh) 基于网络文本的地震宏观异常信息获取与筛选方法
CN110069627A (zh) 短文本的分类方法、装置、电子设备和存储介质
CN103020066B (zh) 一种识别搜索需求的方法和装置
CN108038173B (zh) 一种网页分类方法、系统及一种网页分类设备
CN110738033B (zh) 报告模板生成方法、装置及存储介质
CN113051500B (zh) 一种融合多源数据的钓鱼网站识别方法及系统
CN107797998A (zh) 含谣言用户生成内容识别方法和装置
CN106649849A (zh) 文本信息库建立方法和装置、以及搜索方法、装置和系统
CN111310476A (zh) 一种使用基于方面的情感分析方法的舆情监控方法和系统
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
CN101295381A (zh) 一种垃圾邮件检测方法
KR101416291B1 (ko) 규칙기반 다중 에이전트를 이용한 감성 분류 시스템 및 그 방법
CN112492606B (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质
CN109460477B (zh) 信息收集分类系统和方法及其检索和集成方法
CN103902733A (zh) 基于疑问词扩展的信息检索方法
CN110209819A (zh) 文本分类方法、装置、设备和介质
CN116881429B (zh) 一种基于多租户的对话模型交互方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant