CN103093236B - 一种基于图像语义分析的移动终端色情过滤方法 - Google Patents

一种基于图像语义分析的移动终端色情过滤方法 Download PDF

Info

Publication number
CN103093236B
CN103093236B CN201310013947.1A CN201310013947A CN103093236B CN 103093236 B CN103093236 B CN 103093236B CN 201310013947 A CN201310013947 A CN 201310013947A CN 103093236 B CN103093236 B CN 103093236B
Authority
CN
China
Prior art keywords
image
training
image block
sensitizing range
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310013947.1A
Other languages
English (en)
Other versions
CN103093236A (zh
Inventor
段立娟
谷继力
吴春鹏
杨震
苗军
李健
马伟
乔海涛
张祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201310013947.1A priority Critical patent/CN103093236B/zh
Publication of CN103093236A publication Critical patent/CN103093236A/zh
Application granted granted Critical
Publication of CN103093236B publication Critical patent/CN103093236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种在移动设备上基于图像语义分析的敏感区域检测方法,实现了在训练分类器的预处理阶段加入自顶向下的视觉注意机制来增强分类器训练的性能和效果,用训练好的分类器对图像进行分类。包括:输入训练图像;提取输入训练图像的特征;将提取的特征训练多个弱分类器,并级联形成最终需要的强分类器;输入测试图像,对测试图像进行预处理,通过视觉注意机制对图像中敏感区域可能的位置进行标定;进行敏感图像检测;输出敏感图像检测结果。在敏感图像检测前进行自顶向下注意机制的显著图提取,可以提高运算效率,缩短运算时间,显著提高检测速度;也使正检率明显提高,误检率明显降低。

Description

一种基于图像语义分析的移动终端色情过滤方法
技术领域
本发明属于图像处理领域,具体涉及一种基于图像语义分析的移动终端色情过滤方法。
背景技术
中国互联网信息中心发布了《2011年中国青少年上网行为调查报告》,截至2011年12月底,中国青少年网民规模已达2.32亿,占整体网民的45.1%,占青少年总体的64.4%,超出全国网民平均水平26.1个百分点。2011年,新增青少年网民1936万,同比增长9.0%。特别值得一提的是,2007~2010年间青少年手机上网比例已从49.7%提升到80.3%。随着移动互联网的快速发展,特别是3G网络的发展及智能手机、平板电脑等移动终端的发展,未成年人使用手机上网的比例还会进一步提高。早在2009年12月之前,中国科学院相关课题小组同样随机抽样监测了2000个手机网站,其中淫秽色情手机网站167个,占比8.3%。2010年,这一比例增至9.9%。这些手机淫秽色情网站毒害着青少年的心灵,容易引发青少年犯罪。而在传统互联网领域,已经相对成熟的“金盾工程”、“国家计算机网络应急技术处理协调中心”等机制还并未移植到无线互联网上。显然,无线互联网与互联网的信息治理还有待更多协同。
手机色情信息一直难以彻底清除,从技术方面分析主要原因是:青少年手机用户用WAP上网很容易进入淫秽色情网站,这些网站通过购买号段主动推送,浏览者通常会无意闯入,而同样的网址在电脑上呈现的则是无内容或“无色”内容。手机色情网站却由于其特殊的链接方式而不容易被发现。许多存在问题的手机网站都设置了WAP网关,用户只有通过手机上网才能浏览,而且,有一些WAP网站实行的是会员制,必须获得会员资格才能浏览和下载,更加具有隐蔽性。此外,监管部门没有专门的手机网络监控人员,偶尔需要也是通过手机上网进行监测,由于带宽和网速的限制,无法快速搜索浏览、及时发现淫秽色情网站,即使发现了,也存在IP地址定位和取证等困难。种种技术上的限制导致监管部门不能及时发现和关闭那些传播手机色情信息的网站。淫秽色情手机网站一直得不到有效封堵,是因为这些网站采用跳转IP和变换域名的办法。
现在国内外在基于内容的敏感图像过滤的研究方面做了不少工作,可以解决因某些色情网站刻意跳转IP和变换域名而无法检测的问题,但是处理速度和处理的正确率仍然是这种方式的一个瓶颈。
发明内容
为了解决敏感图像过滤方面存在的问题,本发明提供了一种基于图像语义分析的敏感部位检测方法,将视觉注意机制加入到敏感图像检测中,来提高检测的性能与效率。
本发明采取的技术方案如下:
基于图像语义分析的敏感区域检测方法,包括以下步骤:
步骤1,输入训练图像。将敏感图像作为正例样本,正常图像作为负例样本。对正例样本,确定敏感区域(胸部、下体部位)作为自顶向下认定标准,提取注意引导图。研究表明加入视觉模型能够明显提升检测的性能和效率。显著性能够保证图像中的前景物体扭曲度更小,有效突出目标特征,屏蔽掉干扰信息。因而在训练分类器和检测敏感图像的时候加入视觉模型,可达到提高检测率的目的。
步骤2,提取输入训练图像的特征。
假设输入一幅3通道彩色图像I,其宽和高分别为W、H,提取输入训练图像的特征的方法如下:
①将输入图像切分成不重叠的图像块,并将每个图像块向量化。
首先,把图像切分成图像块,将图像I按照从左至右、从上至下的顺序切分成不重叠的图像块pi(i=1,2,...,L),每个图像块是一个方块,宽和高都是k(k<W,k<H),图像I可以切分出的图像块总数为:
L = ( W k ) * ( H k )
当图像的宽和高不是k的整数倍时,需要先对图像进行缩放,要保证图像的宽和高是k的整数倍,这里假定尺寸变化后图像的宽和高仍分别用W、H表示。将每个图像块pi向量化为列向量fi,列向量fi的长度等于彩色图像的通道数a乘k2,即ak2
②计算每个图像块与其他所有图像块的不相似度,得到显著图。对①所得到的所有向量通过主成分分析进行降维,挑选最大的d个特征值所对应的特征向量X1,X2,...,Xd构成矩阵U,矩阵U是一个d*L的矩阵,其第i列对应图像块pi降维后的向量,图像块pi和pj之间的不相似度的计算公式为:
&phi; ij = &Sigma; s = 1 d | &mu; si - &mu; sj |
其中,umn表示矩阵U第m行第n列的元素
每个图像块pi的视觉显著性程度的计算公式为:
其中,ωij表示图像块pi和pj之间的距离,计算公式为:
&omega; ij = ( x pi - x pj ) 2 + ( y pi - y pj ) 2
式中,(xpi,ypi)、(xpj,ypj)分别代表图像块pi和pj的中心点在原图像I上的坐标。
把所有图像块的视觉显著性程度取值按照原图像I上各图像块之间的位置关系组成二维形式,构成显著图SalMap,这是一个J行N列的灰度图,J=H/k,N=W/k,显著图SalMap上第i行第j列的元素对应原图像I上切分出的图像块p(i-1)N+j(i=1,...,J,j=1,...,N)的显著程度取值,具体取值为:
③根据输入图像中每个图像块与预定义的敏感部位的相关性,建立敏感部位相关图。
④将显著图与敏感部位相关图加权点乘,得到注意引导图。
⑤根据注意引导图将敏感部位作为当前的显著区域。在训练的过程中,可以仅选取图像中前3个显著区域进行训练。
⑥对⑤确定的显著点进行敏感区域识别,判定显著点是否为敏感区域,依据注意引导图所选择的最显著的显著点被标记为敏感区域,其他区域均被标记为非敏感区域。
⑦根据⑥所标记的敏感区域,提取对应于敏感区域的Harr特征。
步骤3,将步骤2提取的Harr特征,训练多个弱分类器,并级联形成最终需要的强分类器。方法如下:
①输入N个训练实例:<(x1,y1),……,(xn,yn)>,其中xi是输入的训练样本,yi∈{0,1}分别表示正例样本和负例样本,其中正例样本数为1,负例样本数为m,n=m+1。初始化N个训练样本的权值向量D,训练弱分类器。T指迭代次数,对于i=1,...,N。初始化权值向量:wi 1=D(i),其中i代表第i个样本,上标代表迭代次数,此处表示第1次迭代。
②按下式归一化权值:
p t = &omega; t &Sigma; i = 1 N &omega; i t
其中,p为归一化权值,t为迭代次数,t=1,2,3,…,T。
③对每个特征f,训练一个弱分类器hj
按下式计算所有特征对应的弱分类器的加权错误率:
&epsiv; t = &Sigma; i = 1 N p t i | h t ( x i ) - y
其中,εt为错误率;
④选择错误率最小的分类器为最佳弱分类器ht
⑤设置新的权值向量:
其中,βt=εt/(1-ε)
⑥循环执行②~⑤,最终输出强分类器:
h f ( x ) = 1 , &Sigma; t = 1 T ( log 1 / &beta; t ) h t ( x ) &GreaterEqual; 1 2 &Sigma; t = 1 T log 1 / &beta; t 0 , &Sigma; t = 1 T ( log 1 / &beta; t ) h t ( x ) < 1 2 &Sigma; t = 1 T log 1 / &beta; t
步骤4,输入测试图像,测试图像来源于用户使用移动终端上网时,浏览到的图像。
步骤5,对步骤4得来的测试图像进行预处理:
①建立显著图。
移动设备的屏幕一般较小,因此提取显著性区域之前先对原图像降采样;然后将降采样之后的图像分成图块,对每个图块提取颜色、纹理等特征,用度量每个图像块与其他图像块的不相似度作为显著性度量值,得到显著图。
②对图像中敏感区域可能的位置进行标定。
考虑到移动设备CPU运算能力有限,通过模拟人的视觉注意机制,使用显著性区域检测方法得到的显著图,可使过滤系统快速定位到感兴趣区域,而感兴趣区域往往包含有敏感区域相关信息。对图像中敏感区域可能的位置进行标定,缩小目标范围。
步骤6,使用步骤3得到的分类器对步骤5处理过的图像进行分类,判断该图像是不是敏感图像:当步骤5处理过的图像块与强分类器中的敏感部位图像块差异小于域值T时,则认为该图像为敏感图像;否则,认为是正常图像。
步骤7,根据步骤6的检测结果,标注图像属于敏感图像还是正常图像,并进行正检率、误报率的统计。
本发明的有益效果是:在敏感图像检测前进行自顶向下注意机制的显著图提取,可以提高运算效率,缩短运算时间,显著提高检测速度;也使正检率明显提高,误检率明显降低。
附图说明
图1是本发明所涉及的方法总体流程图;
图2是图像特征提取方法流程图;
图3是训练分类器的方法流程图。
具体实施方式
下面结合附图对本发明做进一步说明。
如图1所示,基于图像语义分析的敏感区域检测方法,包括以下步骤:
步骤1,输入训练图像。
步骤2,提取输入训练图像的特征,如图2所示,提取输入训练图像特征的方法如下:
①切分图像块并计算图像块之间的不相似性;
②计算每个图像块与其他所有图像块的不相似度,建立显著图;
③建立敏感区域相关图;
④将显著图与敏感部位相关图加权点乘,得到注意引导图;
⑤根据注意引导图将敏感部位作为当前的显著区域;
⑥敏感区域识别,认定最显著的显著点作为敏感区域,其他均为非大敏感区域;
⑦提取敏感区域的Harr特征。
步骤3,训练分类器,如图3所示,训练分类器的方法如下:
①输入训练样本;
②归一化权值;
③计算每个特征f的弱分类器h的加权错误率;
④选择错误率最小的分类器为最佳弱分类器ht
⑤设置新的权值向量;
⑥输出强分类器。
步骤4,输入用户使用移动终端上网时浏览到的图像,该图像同样分为正例图像和负例图像。
步骤5,对步骤4得来的测试图像进行预处理:建立显著图;对图像中敏感区域可能的位置进行标定。
步骤6,检测敏感图像。
步骤7,输出检测结果。
本发明是基于内容的敏感图像过滤,利用人眼视觉注意机制,只检测最显著点,在保证正确率的前提下,可以在某种程度上提高检测效率,同时还解决了因某些色情网站刻意跳转IP和变换域名而无法检测的问题。

Claims (2)

1.一种基于图像语义分析的敏感区域检测方法,其特征在于包括以下步骤:
步骤1,输入训练图像:将敏感图像作为正例样本,正常图像作为负例样本;训练样本的采集遵循以下原则:正例样本清晰,扭曲度小,并且在数量上达到一定的量;负例样本的量要超过正例样本,并且包含不同形态的事物,包括自然景色,以及行人图像,以减小误判;对正例样本,确定敏感区域,即胸部、下体部位作为自顶向下认定标准,提取注意引导图;
步骤2,提取输入训练图像的特征,方法如下:
①将输入图像切分成不重叠的图像块,并将每个图像块向量化;
首先,把宽和高分别为W、H的图像I按照从左至右、从上至下的顺序切分成不重叠的图像块pi(i=1,2,...,L),每个图像块是一个方块,宽和高都是k(k<W,k<H),图像I切分出的图像块总数为:
当图像的宽和高不是k的整数倍时,先对图像进行缩放,保证图像的宽和高是k的整数倍,这里假定尺寸变化后图像的宽和高仍分别用W、H表示;将每个图像块pi向量化为列向量fi,fi的长度等于彩色图像的通道数a乘k2,即ak2
②计算每个图像块与其他所有图像块的不相似度,得到显著图;对①所得到的所有向量通过主成分分析进行降维,挑选最大的d个特征值所对应的特征向量X1,X2,...,Xd构成矩阵U,矩阵U是一个d*L的矩阵,其第i列对应图像块pi降维后的向量,图像块pi和pj之间的不相似度的计算公式为:
其中,umn表示矩阵U第m行第n列的元素
每个图像块pi的视觉显著性程度的计算公式为:
其中,ωij表示图像块pi和pj之间的距离,计算公式为:
式中,(xpi,ypi)、(xpj,ypj)分别代表图像块pi和pj的中心点在原图像I上的坐标;
Mi=maxjij}(j=1,...,L)
D=max{W,H}
把所有图像块的视觉显著性程度取值按照原图像I上各图像块之间的位置关系组成二维形式,构成显著图SalMap,这是一个J行N列的灰度图,J=H/k,N=W/k,显著图SalMap上第i行第j列的元素对应原图像I上切分出的图像块p(i-1)N+j(i=1,...,J,j=1,...,N)的显著程度取值,具体取值为:
SalMap(i,j)=Sal(i-1)N+j(i=1,...,J,j=1,...,N)
③根据输入图像中每个图像块与预定义的敏感部位的相关性,建立敏感部位相关图;
④将显著图与敏感部位相关图加权点乘,得到注意引导图;
⑤根据注意引导图将敏感部位作为当前的显著区域;在训练的过程中,仅选取图像中击最显著的显著点进行训练;
⑥对⑤确定的显著点进行敏感区域识别,判定显著点是否为敏感区域,依据注意引导图所选择的最显著的显著点被标记为敏感区域,其他区域均被标记为非敏感区域;
⑦根据⑥所标记的敏感区域,提取对应于敏感区域的Harr特征;
步骤3,将步骤2提取的特征,训练多个弱分类器,并级联形成最终需要的强分类器,训练方法如下:
①输入N个训练实例:<(x1,y1),......,(xn,yn)>,其中xi是输入的训练样本,yi∈{0,1}分别表示正例样本和负例样本,其中正例样本数为1,负例样本数为m,n=m+1;初始化N个训练样本的权值向量D,训练弱分类器;T指迭代次数,对于i=1,...,N,初始化权值向量:wi 1=D(i),其中i代表第i个样本,上标代表迭代次数,此处表示第1次迭代;
②按下式归一化权值:
其中,p为归一化权值,t为迭代次数,t=1,2,3,...,T;
③对每个特征f,训练一个弱分类器hj
按下式计算所有特征对应的弱分类器的加权错误率:
其中,εt为错误率;
④选择错误率最小的分类器为最佳弱分类器ht
⑤设置新的权值向量:
其中,βt=εt/(1-ε)
⑥循环执行②~⑤,最终输出强分类器:
步骤4,输入用户使用移动终端上网时浏览到的图像,该图像同样分为正例图像和负例图像;
步骤5,对步骤4得到的测试图像进行预处理,通过视觉注意机制对图像中敏感区域可能的位置进行标定;
步骤6,检测敏感图像:使用步骤3得到的分类器对步骤5处理过的图像进行分类,判断该图像是不是敏感图像:当步骤5处理过的图像块与强分类器中的敏感部位图像块差异小于域值T时,则认为该图像为敏感图像;否则,认为是正常图像;
步骤7,根据步骤6的检测结果,标注图像属于敏感图像还是正常图像,并进行正检率、误报率的统计。
2.根据权利要求1所述的一种基于图像语义分析的敏感区域检测方法,其特征在于步骤5所述的预处理,通过对图像中敏感区域可能的位置进行标定,缩小目标范围,提高检测速度,预处理的方法如下:
①建立显著图:首先对原图像降采样;然后将降采样之后的图像分成图块,用度量每个图像块与其他图像块的不相似度作为显著性度量值,得到显著图;
②对图像中敏感区域可能的位置进行标定。
CN201310013947.1A 2013-01-15 2013-01-15 一种基于图像语义分析的移动终端色情过滤方法 Active CN103093236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310013947.1A CN103093236B (zh) 2013-01-15 2013-01-15 一种基于图像语义分析的移动终端色情过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310013947.1A CN103093236B (zh) 2013-01-15 2013-01-15 一种基于图像语义分析的移动终端色情过滤方法

Publications (2)

Publication Number Publication Date
CN103093236A CN103093236A (zh) 2013-05-08
CN103093236B true CN103093236B (zh) 2015-11-04

Family

ID=48205784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310013947.1A Active CN103093236B (zh) 2013-01-15 2013-01-15 一种基于图像语义分析的移动终端色情过滤方法

Country Status (1)

Country Link
CN (1) CN103093236B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104184574B (zh) * 2013-05-22 2019-04-16 中兴通讯股份有限公司 智能移动终端及其数据处理方法
CN105303199A (zh) * 2015-12-08 2016-02-03 南京信息工程大学 一种基于内容特征和K-means的数据碎片类型识别方法
CN106682694A (zh) * 2016-12-27 2017-05-17 复旦大学 一种基于深度学习的敏感图像识别方法
CN107992764B (zh) * 2017-11-28 2021-07-23 国网河南省电力公司电力科学研究院 一种敏感网页识别与检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916379A (zh) * 2010-09-03 2010-12-15 华中科技大学 一种基于对象积累视觉注意机制的目标搜索和识别方法
CN102034096A (zh) * 2010-12-08 2011-04-27 中国科学院自动化研究所 基于自顶向下运动注意机制的视频事件识别方法
CN102063623A (zh) * 2010-12-28 2011-05-18 中南大学 一种结合自底向上和自顶向下的图像感兴趣区域提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916379A (zh) * 2010-09-03 2010-12-15 华中科技大学 一种基于对象积累视觉注意机制的目标搜索和识别方法
CN102034096A (zh) * 2010-12-08 2011-04-27 中国科学院自动化研究所 基于自顶向下运动注意机制的视频事件识别方法
CN102063623A (zh) * 2010-12-28 2011-05-18 中南大学 一种结合自底向上和自顶向下的图像感兴趣区域提取方法

Also Published As

Publication number Publication date
CN103093236A (zh) 2013-05-08

Similar Documents

Publication Publication Date Title
CN101894134B (zh) 一种基于空间布局的钓鱼网页检测及其实现方法
CN107862022B (zh) 文化资源推荐系统
CN104077396B (zh) 一种钓鱼网站检测方法及装置
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN110781308B (zh) 一种基于大数据构建知识图谱的反欺诈系统
CN101751438B (zh) 自适应语义驱动的主题网页过滤系统
CN103617235B (zh) 一种基于粒子群算法的网络水军账号识别方法及系统
CN105095368B (zh) 一种对新闻信息进行排序的方法及装置
CN104199874A (zh) 一种基于用户浏览行为的网页推荐方法
CN101826105A (zh) 基于匈牙利匹配算法的钓鱼网页检测方法
CN101350011B (zh) 一种基于小样本集的搜索引擎作弊检测方法
CN101359329A (zh) 基于浏览器的过滤色情软件插件
CN102170446A (zh) 一种基于空间布局与视觉特征的钓鱼网页检测方法
CN104239485A (zh) 一种基于统计机器学习的互联网暗链检测方法
CN107332848A (zh) 一种基于大数据的网络流量异常实时监测系统
CN105224681B (zh) 基于家庭工作地上下文环境的用户需求获取方法及系统
CN107438083B (zh) 一种Android环境下钓鱼网站检测方法及其检测系统
CN103093236B (zh) 一种基于图像语义分析的移动终端色情过滤方法
CN103902597A (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
CN107193987A (zh) 获取与页面相关的搜索词的方法、装置和系统
CN104361059B (zh) 一种基于多示例学习的有害信息识别和网页分类方法
CN109922065A (zh) 恶意网站快速识别方法
CN105912642A (zh) 产品价格数据采集方法及系统
CN101819585A (zh) 一种论坛事件传播图的构建装置及构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20130508

Assignee: Luoyang Xiangzhiwu Culture Communication Co.,Ltd.

Assignor: Beijing University of Technology

Contract record no.: X2024980000225

Denomination of invention: A mobile terminal pornography filtering method based on image semantic analysis

Granted publication date: 20151104

License type: Common License

Record date: 20240105

Application publication date: 20130508

Assignee: Luoyang Lexiang Network Technology Co.,Ltd.

Assignor: Beijing University of Technology

Contract record no.: X2024980000083

Denomination of invention: A mobile terminal pornography filtering method based on image semantic analysis

Granted publication date: 20151104

License type: Common License

Record date: 20240104