CN102938054B

CN102938054B - 基于视觉注意模型的压缩域敏感图像识别方法

Info

Publication number: CN102938054B
Application number: CN201210328831.2A
Authority: CN
Inventors: 张菁; 隋磊; 卓力; 李振伟
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2012-09-06
Filing date: 2012-09-06
Publication date: 2015-07-01
Anticipated expiration: 2032-09-06
Also published as: CN102938054A

Abstract

基于视觉注意模型的压缩域敏感图像识别方法属于图像识别领域。本发明对现有的基于视觉单词的敏感图像识别方法进行改进，根据人眼视觉注意机制，建立视觉注意模型，检测出符合人主观感受的敏感区域，然后提取相关特征，生成视觉单词库，从而有效地提高了视觉单词的表征性，得到了能够准确描述图像敏感信息的特征，进而达到提高敏感图像识别准确率的目的。此外，本发明还引入了压缩域图像处理技术，利用JPEG图像压缩数据的特点，快速检测图像的敏感区域并提取其特征，有效地提高了视觉单词库构建和图像识别的速度。

Description

基于视觉注意模型的压缩域敏感图像识别方法

技术领域

本发明以网络中JPEG压缩格式的敏感图像为研究对象(本发明特指色情图像)，运用压缩域图像处理技术，根据人眼注意视觉机制建立针对敏感图像的视觉注意模型，重点分析图像中的敏感（色情）区域，提取敏感区域内的颜色、纹理、亮度和肤色特征，构建描述敏感图像内容的视觉单词库，然后根据这些敏感视觉单词在图像中的分布情况，采用支持向量机的图像识别方法进行敏感图像的识别与过滤，为网络信息监管领域提供基于人眼视觉注意的敏感图像识别与过滤方法。

背景技术

随着互联网技术的飞速发展，网络成为了人们传播和分享信息的重要媒介，但至今缺乏一个有效的机构对这些信息进行监管，导致色情图像不良信息大量传播。受此影响，互联网色情信息服务产业得以快速发展，并已形成了一个巨大的产业链，其年利润远超过以下著名企业的总和：微软、谷歌、雅虎、苹果和EarthLink。网络中色情信息的大量传播、蔓延，极大地危害了社会稳定和人们的身心健康，尤其影响了青少年的健康成长。此外，许多色情网站在提供色情信息的同时还传播病毒、木马以及流氓软件，从而窃取重要的私人信息，严重妨碍了人们的正常上网。因此，采取相关技术手段，遏制互联网色情产业发展，严厉打击从事非法色情服务的网站是一个需要重视的社会问题。

为了让青少年远离敏感信息的侵扰，方便家长对子女网上冲浪进行监控，从上个世纪开始，陆续出现了很多家用反黄软件，这些敏感信息过滤软件的实现主要采用两种技术：一种是网址过滤和文本信息分析技术；另一种则结合了基于图像内容分析的过滤技术。前一种技术不能适用于图像识别，无法准确地自动过滤包含敏感信息的图像。而后一种技术则利用图像处理技术和模式识别的方法，提取描述图像信息的视觉特征，检测图像中是否含有敏感信息，并取得了较好的效果。但是，这类方法也面临着巨大的挑战，图像是否包含色情信息是一种高层语义概念，具有不同教育程度、背景、经历的用户有着不同的解释，因而从它的定义上来说就不具有统一的标准。由于在不同的背景、光照条件下，色情图像会表现出各种各样的形式，因此很难找到一些稳定的特征来准确、完整地表征这类图像，这给敏感图像的准确识别带来了很大的难度。另外，对于网络环境来说，处理的实时性也是必须考虑的一个重要因素，识别算法自身的复杂程度过高所带来的延时往往会造成网络链接的中断。

基于视觉单词的敏感图像识别与过滤技术是通过寻找图像中局部突出的兴趣点，并对这些兴趣点建立旋转、尺度、仿射不变的局部描述，从而建立视觉单词库，描述图像的语义内容，然后引入模式识别技术完成类别的判定。它为缺乏准确描述图像敏感信息的特征描述算子这一问题，提供了一种重要的解决思路。压缩域图像处理技术是充分利用图像压缩算法及其所形成压缩数据的特点，直接在尽量少解码的压缩数据上进行图像处理。与传统的图像压缩与处理相互分离的方式不同，它省略了解压缩和再压缩的附加环节，减少了图像处理的数据量，有效地提高了图像处理的速度。将上述两种技术有机地结合在一起，并引入视觉注意模型在压缩域检测敏感区域，然后提取区域内颜色、纹理、亮度和肤色特征作为视觉单词，完成敏感图像的识别与过滤，不但能提高系统的识别准确率，而且可以满足敏感图像实时处理的要求，对网络信息的监管具有重要的研究意义

发明内容

本发明与已有的基于视觉单词的敏感图像识别方法不同，针对网络上大部分以JPEG压缩格式存在的敏感图像，引入压缩域图像处理技术，并根据人眼视觉注意机制，建立视觉注意模型检测符合人主观感受的敏感区域，通过提取区域内的颜色、纹理、亮度和肤色特征建立视觉单词库，完成敏感图像的识别。这个方法主要分为两大步骤：视觉单词库构建和敏感图像识别。其中，视觉单词库构建又可细分为四个步骤：视觉注意模型建立，敏感区域检测，特征提取和聚类分析，整个流程如附图1所示。敏感图像的识别则可细分为训练和测试两个阶段，其中训练阶段分为五个步骤：，视觉注意模型建立，敏感区域检测，特征提取，视觉单词直方图建立和支持向量机分类器建立。而测试阶段也分为五个步骤，前四步与训练阶段相同，最后一步则是利用训练阶段建立的分类器对图像进行识别，敏感图像识别流程如附图2所示。

当用户输入图像进行识别时，首先检测图像的敏感区域，然后提取颜色、纹理、亮度和肤色特征，并根据视觉单词库构建描述图像内容的视觉单词直方图，最后通过支持向量机分类器对图像类别进行判决，得到图像识别结果。

本发明以网络中JPEG压缩格式的敏感图像为研究对象(本发明特指色情图像)，运用压缩域图像处理技术，根据人眼视觉注意机制建立针对敏感图像的视觉注意模型，重点分析图像中的敏感区域，分别提取区域内颜色、纹理、亮度和肤色特征，构建描述图像内容的视觉单词库，然后根据这些单词在图像中的分布情况，采用支持向量机的图像识别方法进行敏感图像的识别与过滤，为网络信息监管领域提供基于人眼视觉注意的敏感图像识别与过滤方法。

1.视觉单词库构建：

本发明从敏感图像特点出发，运用压缩域图像处理技术，根据人眼视觉注意机制，建立视觉注意模型，检测出敏感区域，然后提取敏感区域的颜色、纹理、亮度和肤色压缩域特征，构建视觉单词库。

1)视觉注意模型建立：本发明首先寻找图像中最容易引起注意的显著部分，并用一幅灰度图像表示显著度，图中越亮的地方即灰度值越大的区域越能引起人的注意。与大部分正常图像相比，网络中的敏感图像往往包含大量裸露的肤色区域，通过分析这些区域，能够比较容易地得到暴露的人体性器官所在的位置，而这些图像内容恰恰是人们最为关注的。因此，对图像进行肤色检测，计算图像的视觉显著度，建立视觉注意模型。实际中，主要是利用压缩域图像处理技术进行肤色检测。利用从大量标记的肤色和非肤色图像块中提取的颜色和纹理特征，建立决策树模型，通过分析找到与肤色相关度最大的一组特征对应的规则作为最终肤色模型。随后，根据肤色判决规则计算肤色似然图，该图反映了原始图像的肤色概率分布信息，图中各点像素值越高肤色的可能性越大。接着，本发明采用公式(1)对肤色似然图进行阈值分割，将大于阈值的图像像素点判定为肤色，反之为非肤色。然后，将肤色似然图作为颜色关注图，并从JPEG图像的压缩码流中得到图像的亮度信息计算亮度关注图，然后分别进行多尺度高斯滤波，计算中央周边差，最后进行归一化合并和线性组合得到视觉显著图，整个计算过程如附图3所示。视觉显著图是一幅灰度图，图中各点像素值反映了显著度的大小，即人眼关注度的大小。

I^{'} (x, y) = \{\begin{matrix} 255, if & I (x, y) > threshold \\ 0, & otherwise \end{matrix} - - - (1)

式中I(x,y)是肤色似然图中各点像素值，threshold是阈值，I＇(x,y)是阈值分割后图中各点的像素值。

2)敏感区域检测：随后，本发明采用阈值分割的方法对视觉显著图进行初检，保留人体的躯干信息作为敏感区域，并利用该区域外接矩形，将其划分成若干个16×16大小的图像块，保留包含敏感区域的块，这样就可以得到许多包含人体性器官的图像块，最后分别提取各个块内的特征，并通过聚类分析建立基于敏感区域的压缩域视觉单词库。

3)特征提取：本发明提取敏感区域中16×16大小的图像块的特征，而且提取的特征能反映敏感区域的主要特点以及能够包含敏感区域各方面的信息。因此，利用JPEG图像压缩码流中得到的亮度、颜色和纹理信息提取了16×16大小的图像块中的颜色、纹理、亮度和肤色特征。其中各个特征的提取过程如下所示：

颜色特征：本发明在提取敏感区域中16×16大小的图像块时，首先从JPEG图像压缩码流中提取颜色信息，构建一幅缩略图，然后结合敏感区域中16×16大小的图像块在缩略图中的位置信息，提取了MPEG-7中的可伸缩颜色描述子特征 (共包含256维数据)，整个提取过程如下：将缩略图中各个像素点由YCbCr空间转换到HSV空间，其中H表示色调(0≤H≤360°)，S表示饱和度(0≤S≤1)，V表示亮度(0≤V≤1)，然后将H分量均匀量化成16个等级，每个等级的区间宽度为22.5°，同时将V和S均匀量化为4个等级，每个等级的区间宽度为0.25，然后分别统计落在各个等级区间的像素点在图像块中出现的次数，并归一化到[0,1]，这样可以得到16×4×4=256维数据。此外，本发明还利用缩略图中像素点在YCbCr颜色空间的Y分量数据，并通过将该分量均匀量化成16个等级，每个等级的区间宽度为16，然后分别统计落在各个等级区间的像素点在图像块中出现的次数，并归一化到[0,1]，得到16维亮度数据。

纹理特征：本发明计算边缘直方图描述子作为敏感区域的纹理特征，该特征提取过程如下：首先根据传统像素域图像块边缘方向的计算方法，结合JPEG图像压缩数据的区域能量方向性，检测图像的边缘信息即纹理信息，得到一幅边缘检测图。然后根据敏感区域中16×16大小的图像块在边缘检测图中的位置信息，分别统计图像块中边缘方向的出现次数，提取包含5维数据的纹理特征，然后采用公式(2)将特征数据归一化到[0,1]。其中，边缘方向包含无方向、0度、45度、90度和135度5类。此外，本发明还通过计算边缘检测图中敏感区域内16×16大小的图像块中边缘像素点个数与区域总的像素点个数的比值，作为描述图像块纹理复杂程度的特征(1维数据)。

{texture}_{i}^{'} = \frac{{texture}_{i}}{Σ_{i = 1}^{5} {texture}_{i}} - - - (2)

式中，texture_i是图像块中5类边缘方向的出现次数(i=1,2,3,4,5,对应无方向、0度、45度、90度和135度5类方向)，texture＇_i是归一化的结果。

肤色特征：根据敏感区域的检测结果可以发现，区域内各个图像块包含了大量的肤色信息。为此，本发明根据肤色似然图阈值分割的结果，结合敏感区域内各个图像块在阈值分割结果图中的位置，采用公式(3)和(4)提取了区域内图像块的平均肤色概率和肤色区域比例这两个特征。其中，平均肤色概率是敏感区域内图像块中在肤色似然图中各点像素值之和与块总面积比值，肤色区域比例是敏感区域内图像块在肤色似然图阈值分割结果图中肤色面积与块总面积比值。

Avg = \frac{\underset{x_skin}{Σ} \underset{y_skin}{Σ} I (x_skin, y_skin)}{\underset{x_region}{Σ} \underset{y_region}{Σ} I (x_region, y_region)} - - - (3)

Ratio = \frac{\underset{x_skin}{Σ} \underset{y_skin}{Σ} I^{'} (x_skin, y_skin)}{\underset{x_region}{Σ} \underset{y_region}{Σ} I^{'} (x_region, y_region)} - - - (4)

式中I(x_skin,y_skin)为肤色似然图中指定点像素值，I＇(x_skin,y_skin)为肤色似然图阈值分割得到的图像中指定点像素值，x_skin,y_skin和x_region,y_region分别为敏感区域内图像块中在肤色似然图和阈值分割结果图中各个像素点的横、纵坐标。

4)聚类分析：本发明从图像敏感区域内16×16大小的图像块中提取的颜色、纹理、亮度和肤色特征，线性组合起来建立特征数据库，然后采用k均值聚类方法进行聚类分析，并选取每类中心作为视觉单词，构建视觉单词库，其中每类聚类中心的数据维数是280（纹理复杂程度1维数据，肤色区域比例1维数据，平均肤色概率1维数据，边缘直方图5维数据，可伸缩颜色描述子256维数据，亮度特征16维数据）。

2.敏感图像识别：

本发明根据视觉单词库对图像进行语义分析，得到描述敏感内容的视觉单词直方图，然后建立分类器进行敏感图像的识别。为此，本发明从网络中随机下载了部分包含较多肤色信息的正常人物类图像和部分敏感图像，然后从这些图像中随机选取了部分图像作为训练样本，其余的图像作为测试样本，建立支持向量机分类器，完成图像的识别。整个过程主要分为两个阶段：首先是训练阶段，针对训练样本从敏感图像特点出发，运用压缩域图像处理技术，根据人眼视觉注意机制，建立视觉注意模型，检测训练样本的敏感区域，然后提取敏感区域内16×16大小的图像块的颜色、纹理、亮度和肤色特征，并根据建立的视觉单词库，构建视觉单词直方图，最后建立支持向量机分类器(SVM, Support Vector Machine)；然后是预测阶段，即对测试样本使用SVM分类器识别图像类别。

在构建视觉直方图前，本发明首先检测图像中的敏感区域，并提起敏感区域内16×16大小的图像块的纹理、颜色、亮度和肤色特征，然后根据视觉单词库，采用公式(5)和(6)计算词频×反文档(TF×IDF, Term Frequency×Inverse Document Frequency)权重系数，建立视觉单词直方图，其中视觉单词直方图的横坐标代表视觉单词个数，纵坐标代表词频×反文档权重系数。

其中，TF是词频，表示某个视觉单词在图像中出现的次数与图中视觉单词总数的比值；IDF是反文档频率，可以由样本库中图像数目除以包含该视觉单词的图像的数目，再将结果取对数得到。令tf_pq为视觉单词p在图像q中出现的次数，N是样本库中图像的数目，M是视觉单词数目，则p=1,…,M，q=1,…,N，df_p是包含视觉单词p的图像数目，若视觉单词没有在样本库图像出现过，除数会为零，因此在计算idf_p时要将该数加1，则视觉单词p在图像q中的权重系数b_pq为：

b_{pq} = {tf}_{pq} \times {idf}_{p} - - - (5)

式中

{idf}_{p} = \lg (\frac{N}{{df}_{p}}) - - - (6)

本发明的特点

本发明对现有的基于视觉单词的敏感图像识别方法进行改进，根据人眼视觉注意机制，建立视觉注意模型，检测出符合人主观感受的敏感区域，然后提取相关特征，生成视觉单词库，从而有效地提高了视觉单词的表征性，得到了能够准确描述图像敏感信息的特征，进而达到提高敏感图像识别准确率的目的。此外，本发明还引入了压缩域图像处理技术，利用JPEG图像压缩数据的特点，快速检测图像的敏感区域并提取其特征，有效地提高了视觉单词库构建和图像识别的速度。

附图说明：

图1视觉单词库构建流程图；

图2敏感图像识别流程；

图3压缩域视觉显著图计算；

图4肤色检测结果图；

图5压缩域视觉显著图；

图6敏感区域检测结果图；

图7敏感区域划分结果图；

图8边缘检测结果；

图9边缘方向；

图10单个图像块的特征数据图；

图11视觉单词数据图；

图12视觉单词直方图。

具体实施方式

根据上述的描述，以下是一个具体的实施流程，但本专利所保护的范围并不限于该实施流程。下面是本发明具体的工作流程：首先从敏感图像特点出发，建立视觉注意模型，检测图像中符合人主观感受的敏感区域，然后提取区域内颜色、纹理、亮度和肤色特征构建视觉单词库，最后根据这些单词在图像中的分布情况，采用支持向量机的模式分类方法进行敏感图像的识别与过滤。

1.视觉单词库构建：

本发明从敏感图像特点出发，运用压缩域图像处理技术，根据人眼视觉注意机制，建立视觉注意模型，检测出敏感区域，然后提取颜色、纹理、亮度和肤色压缩域特征，构建视觉单词库。

1.1视觉注意模型建立

视觉注意模型主要是寻找图像中最能引起人眼注意的显著部分，并用一幅灰度图像表示其显著部分的显著度，图中越亮的地方即灰度值越大的区域越能引起人的注意。与大部分正常图像相比，网络中的敏感图像往往包含大量裸露的肤色区域，通过分析这些区域，能够比较容易地得到暴露的人体性器官所在的位置，而这些图像内容恰恰是人们最为关注的，因此，本发明对图像进行肤色检测，然后计算图像的视觉显著度，建立视觉注意模型。

1.1.1肤色检测

实际中，首先利用压缩域图像处理技术进行肤色检测。本发明利用从大量标记的肤色和非肤色图像块中提取的颜色和纹理特征，利用Microsoft决策树模型对大量样本数据挖掘，得到肤色判决规则，实际中共提取了CrDC、YDC、CbDC，V₁，V₂等5类特征，其中CrDC、YDC、CbDC为颜色特征，V₁，V₂为纹理特征。

随后，根据肤色判决规则及其对应的样本数目，采用公式(7)计算符合第i条规则的肤色类Skin(i)和非肤色类的类条件概率密度Nonskin(i)的似然比LP_i(x)，并按照公式(8)将结果非均匀量化成48级，这样就得到每个图像块属于肤色的概率，最后将量化结果归一化到[0,255]组成肤色似然图，该图反映了原始图像的肤色概率分布信息，图中各点像素值越高，肤色块的可能性越大。

{LP}_{i} (x) = \frac{Skin (i)}{Skin} / \frac{Nonskin (i)}{NonSkin} - - - (7)

式中，Skin和NonSkin分别为肤色样本和非肤色样本的总数目。

接着，本发明采用公式(9)对肤色似然图进行阈值分割，将大于阈值的图像像素点判定为肤色，反之为非肤色，阈值分割结果如附图4(c)所示。

I^{'} (x, y) = \{\begin{matrix} 255, if & I (x, y) > threshold \\ 0, & otherwise \end{matrix} - - - (9)

式中I(x,y)是肤色似然图中各点像素值，threshold=180是阈值，I＇(x,y)是阈值分割后图中各点的像素值。

1.1.2视觉显著度计算

获得肤色似然图后，本发明将肤色似然图作为颜色关注图，并从JPEG图像的压缩码流中得到图像的亮度信息计算亮度关注图，然后分别进行多尺度高斯滤波，并采用公式(10)和(11)计算中央周边差，最后进行归一化合并和线性组合得到视觉显著图，结果如附图5所示。视觉显著图是一幅灰度图，图中各点像素值反映了显著度的大小，即人眼关注度的大小。

Y = Σ_{c = 0}^{2} Σ_{s = c + 1}^{c + 2} N (G_{YDC} (c) - G_{YDC} (s)) - - - (10)

Skin = Σ_{c = 0}^{2} Σ_{s = c + 1}^{c + 2} N (G_{Skin} (c) - G_{Skin} (s)) - - - (11)

式中N(…)表示归一化操作，G_YDC(…)表示Y分量DC图的高斯金字塔的指定层，GSkin(…)表示肤色似然图的高斯金字塔的指定层，c代表中心层，s代表周边层。其中，，x代表图像横坐标，y代表图像纵坐标，δ代表高斯核参数。

1.2敏感区域检测

本发明采用阈值分割的方法对视觉显著图进行初检，然后保留人体躯干信息作为敏感区域，并利用该区域外接矩形，将其划分成若干个16×16大小的图像块，保留包含敏感区域的块(这些块中敏感区域的面积至少为块总面积的50%)，这样就可以得到许多包含人体性器官的图像块，最后分别提取各个块内的特征，并通过聚类分析建立基于敏感区域的压缩域视觉单词库。敏感区域检测结果如附图6所示。敏感区域中划分的16×16大小的图像块，如附图7所示。

1.3特征提取

本发明遵循以下原则提取敏感区域中16×16大小的图像块的特征：(1)代表性，提取的特征应该能反映敏感区域的主要特点；(2)全面性，提取的特征应该比较丰富，能够包含区域各方面的信息。综合考虑上述两个原则，本发明利用JPEG图像压缩码流中得到的亮度、颜色和纹理信息提取了16×16大小的图像块中的颜色、纹理、亮度和肤色特征。其中各个特征的提取过程如下所示：

1.3.1颜色特征

本发明在提取敏感区域中16×16大小的图像块时，首先从JPEG图像压缩码流中提取颜色信息，构建一幅缩略图，然后结合敏感区域中16×16大小的图像块在缩略图中的位置信息(缩略图敏感区域图像块划分结果如附图7所示，该图为原始图像1/64大小)，提取了MPEG-7中的可伸缩颜色描述子特征 (共包含256维数据)，整个提取过程如下：将缩略图中各个像素点由YCbCr空间转换到HSV空间，其中H表示色调(0≤H≤360°)，S表示饱和度(0≤S≤1)，V表示亮度(0≤V≤1)，然后将H分量均匀量化成16个等级，每个等级的区间宽度为22.5°，同时将V和S均匀量化为4个等级，每个等级的区间宽度为0.25，然后分别统计落在各个等级区间的像素点在图像块中出现的次数，并归一化到[0,1]，这样可以得到16×4×4=256维数据。此外，本发明还利用缩略图中像素点在YCbCr颜色空间的Y分量数据，并通过将该分量均匀量化成16个等级，每个等级的区间宽度为16，然后分别统计落在各个等级区间的像素点在图像块中出现的次数，并归一化到[0,1]，得到16维亮度数据。

1.3.2纹理特征

本发明计算边缘直方图描述子作为敏感区域的纹理特征，该特征提取过程如下：首先根据传统像素域图像块边缘方向的计算方法，结合JPEG图像压缩数据的区域能量方向性，检测图像的边缘信息即纹理信息，得到一幅边缘检测图，如附图8所示。然后根据敏感区域中16×16大小的图像块在边缘检测图中的位置信息，分别统计图像块中边缘方向的出现次数，提取包含5维数据的纹理特征，然后采用公式(8)将特征数据归一化到[0,1]。其中，边缘方向包含无方向、0度、45度、90度和135度5类，如附图9所示。此外，本发明还通过计算边缘检测图中敏感区域内16×16大小的图像块中边缘像素点个数与区域总的像素点个数的比值，作为描述图像块纹理复杂程度的特征(1维数据)。

{texture}_{i}^{'} = \frac{{texture}_{i}}{Σ_{i = 1}^{5} {texture}_{i}} - - - (12)

1.3.3肤色特征

本发明根据敏感区域的检测结果可以发现，区域内各个图像块包含了大量的肤色信息。为此，本发明根据肤色似然图阈值分割的结果，结合敏感区域内各个图像块在阈值分割结果图中的位置，采用公式(13)和(14)提取了区域内图像块的平均肤色概率和肤色区域比例这两个特征。其中，平均肤色概率是敏感区域内图像块中在肤色似然图中各点像素值之和与块总面积比值，肤色区域比例是敏感区域内图像块在肤色似然图阈值分割结果图中肤色面积与块总面积比值。

Avg = \frac{\underset{x_skin}{Σ} \underset{y_skin}{Σ} I (x_skin, y_skin)}{\underset{x_region}{Σ} \underset{y_region}{Σ} I (x_region, y_region)} - - - (13)

Ratio = \frac{\underset{x_skin}{Σ} \underset{y_skin}{Σ} I^{'} (x_skin, y_skin)}{\underset{x_region}{Σ} \underset{y_region}{Σ} I^{'} (x_region, y_region)} - - - (14)

1.4聚类分析：

本发明从图像敏感区域内16×16大小的图像块中提取的颜色、纹理、亮度和肤色特征(共280维数据，如附图10所示，图中横坐标代表数据维数，纵坐标代表各维数值，以直方图形式表示共280柱，从左到右的顺序为纹理复杂程度1维数据，肤色区域比例1维数据，平均肤色概率1维数据，边缘直方图5维数据，可伸缩颜色描述子256维数据，亮度特征16维数据)，线性组合起来建立特征数据库，然后采用k均值聚类方法进行聚类分析，并选取每类中心作为视觉单词，构建视觉单词库，实际中，本发明从网络中随机下载4000幅敏感图像，共提取出64852个图像块，共得到400个聚类中心作为视觉单词库，其中每类聚类中心的数据维数是280(如附图11所示，该图为400个聚类中心中其中一个聚类中心的数据形式：共280维数据，图中横坐标代表数据维数，纵坐标代表各维数值，以直方图形式表示共280柱，从左到右的顺序为纹理复杂程度1维数据，肤色区域比例1维数据，平均肤色概率1维数据，边缘直方图5维数据，可伸缩颜色描述子256维数据，亮度特征16维数据)。

2.敏感图像识别：

本发明根据视觉单词库对图像进行语义分析，得到描述敏感内容的视觉单词直方图，然后建立分类器进行敏感图像的识别。为此，本发明从网络中随机下载了4000幅包含较多肤色信息的正常人物类图像和4000幅敏感图像，然后随机选取6000幅作为训练样本，其余作为测试样本，建立支持向量机分类器，完成图像的识别。整个过程主要分为两个阶段：首先是训练阶段，针对训练样本从敏感图像特点出发，运用压缩域图像处理技术，根据人眼视觉注意机制，建立视觉注意模型，检测训练样本的敏感区域，然后提取敏感区域内16×16大小的图像块的颜色、纹理、亮度和肤色特征，并根据建立的视觉单词库，构建视觉单词直方图，最后建立支持向量机分类器(SVM , Support Vector Machine)；然后是预测阶段，即对测试样本使用SVM分类器预测图像类别。

在构建视觉直方图前，本发明首先检测图像中的敏感区域，并提取敏感区域内16×16大小的图像块的纹理、颜色、亮度和肤色特征，然后根据视觉单词库，采用公式(15)和(16)计算词频×反文档(TF×IDF,Term Frequency×Inverse Document Frequency)权重系数，建立视觉直方图(如附图12所示)。其中，TF是词频，表示某个视觉单词在图像中出现的次数与图中视觉单词总数的比值；IDF是反文档频率，可以由样本库中图像数目除以包含该视觉单词的图像的数目，再将结果取对数得到。附图4(a)的视觉单词直方图如附图12所示，图中横坐标代表视觉单词个数，纵坐标代表词频×反文档权重系数。

令tf_pq为视觉单词p在图像q中出现的次数，N=8000是样本库中图像的数目，M=400是视觉单词数目，则p=1,…,M，q=1,…,N，df_p是包含视觉单词p的图像数目，若视觉单词没有在样本库图像出现过，除数会为零，因此在计算idf_p时要将该数加1，则视觉单词p在图像q中的权重系数b_pq为：

b_{pq} = {tf}_{pq} \times {idf}_{p} - - - (15)

式中

{idf}_{p} = \lg (\frac{N}{{df}_{p}}) - - - (16)

实验中，对2000幅测试图像取得了87.3%的整体识别准确率，即敏感和正常两类图像的正确识别总数目除以总的样本数目的结果，并且单幅图像的平均识别时间为981毫秒。实验结果如下表所示。

表1 识别准确率的比较(%)

表2 识别时间的比较(ms)

Claims

1.基于视觉注意模型的压缩域敏感图像识别方法，其特征在于：分为两个步骤：视觉单词库构建和敏感图像识别，其中，视觉单词库构建又可细分为四个步骤：视觉注意模型建立，敏感区域检测，特征提取和聚类分析；敏感图像的识别则可细分为训练和测试两个阶段，其中训练阶段分为五个步骤：视觉注意模型建立，敏感区域检测，特征提取，视觉单词直方图建立和支持向量机分类器建立；而测试阶段也分为五个步骤，前四步与训练阶段相同，最后一步则是利用训练阶段建立的分类器对图像进行识别；

当用户输入图像进行识别时，首先检测图像的敏感区域，然后提取颜色、纹理、亮度和肤色特征构建视觉单词库，并根据视觉单词库构建描述图像内容的视觉单词直方图，最后通过支持向量机分类器对图像类别进行判决，得到图像识别结果；

1).视觉单词库构架

从敏感图像特点出发，运用压缩域图像处理技术，根据人眼视觉注意机制，建立视觉注意模型，检测出敏感区域，提取敏感区域的颜色、纹理、亮度和肤色压缩域特征，构建视觉单词库，具体步骤如下：

1.1视觉注意模型建立

利用压缩域图像处理技术进行肤色检测，利用从大量标记的肤色和非肤色图像块中提取的颜色和纹理特征，建立决策树模型，通过分析找到与肤色相关度最大的一组特征对应的规则作为最终肤色模型；随后，根据肤色判决规则计算肤色似然图，该图反映了原始图像的肤色概率分布信息，图中各点像素值越高肤色的可能性越大；接着，采用公式(1)对肤色似然图进行阈值分割，将大于阈值的图像像素点判定为肤色，反之为非肤色；然后，将肤色似然图作为颜色关注图，并从JPEG图像的压缩码流中得到图像的亮度信息计算亮度关注图，然后分别进行多尺度高斯滤波，计算中央周边差，最后进行归一化合并和线性组合得到视觉显著图，视觉显著图是一幅灰度图，图中各点像素值反映了显著度的大小，即人眼关注度的大小；

I^{'} (x, y) = \{\begin{matrix} 255, if & I (x, y) > threshold \\ 0, & otherwise \end{matrix} - - - (1)

式中I(x,y)是肤色似然图中各点像素值，threshold是阈值，I'(x,y)是阈值分割后图中各点的像素值；

1.2敏感区域检测

采用阈值分割的方法对视觉显著图进行初检，保留人体的躯干信息作为敏感区域，并利用该区域外接矩形，将其划分成若干个大小相同的图像块，保留包含敏感区域的块，这样就可以得到许多包含人体性器官的图像块，最后分别提取各个块内的特征，并通过聚类分析建立基于敏感区域的压缩域视觉单词库；

1.3特征提取

提取敏感区域中图像块的特征，而且提取的特征能反映敏感区域的主要特点以及能够包含敏感区域各方面的信息，利用JPEG图像压缩码流中得到的亮度、颜色和纹理信息提取图像块中的颜色、纹理、亮度和肤色特征：

1.3.1颜色特征

在提取敏感区域中的图像块时，首先从JPEG图像压缩码流中提取颜色信息，构建一幅缩略图，然后结合敏感区域中图像块在缩略图中的位置信息，提取了MPEG-7中的可伸缩颜色描述子特征；整个提取过程如下：将缩略图中各个像素点由YCbCr空间转换到HSV空间，其中H表示色调(0≤H≤360°)，S表示饱和度(0≤S≤1)，V表示亮度(0≤V≤1)，然后将H分量均匀量化成16个等级，每个等级的区间宽度为22.5°，同时将V和S均匀量化为4个等级，每个等级的区间宽度为0.25，然后分别统计落在各个等级区间的像素点在图像块中出现的次数，并归一化到[0,1]，这样可以得到16×4×4＝256维数据；此外，利用缩略图中像素点在YCbCr颜色空间的Y分量数据，并通过将该分量均匀量化成16个等级，每个等级的区间宽度为16，然后分别统计落在各个等级区间的像素点在图像块中出现的次数，并归一化到[0,1]，得到16维亮度数据；

1.3.2纹理特征

计算边缘直方图描述子作为敏感区域的纹理特征，该特征提取过程如下：首先根据传统像素域图像块边缘方向的计算方法，结合JPEG图像压缩数据的区域能量方向性，检测图像的边缘信息即纹理信息，得到一幅边缘检测图；然后根据敏感区域中图像块在边缘检测图中的位置信息，分别统计图像块中边缘方向的出现次数，提取包含5维数据的纹理特征，然后采用公式(2)将特征数据归一化到[0,1]；其中，边缘方向包含无方向、0度、45度、90度和135度5类；此外，通过计算边缘检测图中敏感区域内图像块中边缘像素点个数与区域总的像素点个数的比值，作为描述图像块纹理复杂程度的特征；

{texture}_{i}^{'} = \frac{{texture}_{i}}{Σ_{i = 1}^{5} {texture}_{i}} - - - (2)

式中，texture_i是图像块中5类边缘方向的出现次数(i＝1,2,3,4,5,对应无方向、0度、45度、90度和135度5类方向)，texture′_i是归一化的结果；

1.3.3肤色特征

根据肤色似然图阈值分割的结果，结合敏感区域内各个图像块在阈值分割结果图中的位置，采用公式(3)和(4)提取了区域内图像块的平均肤色概率和肤色区域比例这两个特征；其中，平均肤色概率是敏感区域内图像块中在肤色似然图中各点像素值之和与块总面积比值，肤色区域比例是敏感区域内图像块在肤色似然图阈值分割结果图中肤色面积与块总面积比值；

Avg = \frac{\underset{x_skin}{Σ} \underset{y_skin}{Σ} I (x_skin, y_skin)}{\underset{x_region}{Σ} \underset{y_region}{Σ} I (x_region, y_region)} - - - (3)

Ratio = \frac{\underset{x_skin}{Σ} \underset{y_skin}{Σ} I^{'} (x_skin, y_skin)}{\underset{x_region}{Σ} \underset{y_region}{Σ} I^{'} (x_region, y_region)} - - - (4)

式中I(x_skin,y_skin)为肤色似然图中指定点像素值，I'(x_skin,y_skin)为肤色似然图阈值分割得到的图像中指定点像素值，x_skin,y_skin和x_region,y_region分别为敏感区域内图像块中在肤色似然图和阈值分割结果图中各个像素点的横、纵坐标；

1.4聚类分析

根据图像敏感区域内图像块中提取的颜色、纹理、亮度和肤色特征，线性组合起来建立特征数据库，然后采用k均值聚类方法进行聚类分析，并选取每类中心作为视觉单词，构建视觉单词库，其中每类聚类中心的数据维数是280，其中纹理复杂程度1维数据，肤色区域比例1维数据，平均肤色概率1维数据，边缘直方图5维数据，可伸缩颜色描述子256维数据，亮度特征16维数据；

2).敏感图像识别

根据视觉单词库对图像进行语义分析，得到描述敏感内容的视觉单词直方图，建立分类器进行敏感图像的识别，具体过程：从网络中随机下载部分包含较多肤色信息的正常人物类图像和部分敏感图像，从这些图像中随机选取部分图像作为训练样本，其余的图像作为测试样本，建立支持向量机分类器，完成图像的识别；整个过程主要分为两个阶段：首先是训练阶段，针对训练样本从敏感图像特点出发，运用压缩域图像处理技术，根据人眼视觉注意机制，建立视觉注意模型，检测训练样本的敏感区域，然后提取敏感区域内图像块的颜色、纹理、亮度和肤色特征，并根据建立的视觉单词库，构建视觉单词直方图，最后建立支持向量机分类器，以下简称SVM；然后是预测阶段，即对测试样本使用SVM分类器识别图像类别；

在构建视觉直方图前，首先检测图像中的敏感区域，并提取敏感区域内图像块的纹理、颜色、亮度和肤色特征，然后根据视觉单词库，采用公式(5)和(6)计算词频×反文档权重系数，即TF×IDF权重系数，建立视觉单词直方图，其中视觉单词直方图的横坐标代表视觉单词个数，纵坐标代表词频×反文档权重系数；

其中，TF是词频，表示某个视觉单词在图像中出现的次数与图中视觉单词总数的比值；IDF是反文档频率，可以由样本库中图像数目除以包含该视觉单词的图像的数目，再将结果取对数得到；令tf_pq为视觉单词p在图像q中出现的次数，N是样本库中图像的数目，M是视觉单词数目，则p＝1,...,M，q＝1,...,N，df_p是包含视觉单词p的图像数目，若视觉单词没有在样本库图像出现过，除数会为零，因此在计算idf_p时要将该数加1，则视觉单词p在图像q中的权重系数b_pq为：

b_pq＝tf_pq×idf_p (5)

式中

{idf}_{p} = \lg (\frac{N}{{df}_{p}}) - - - (6) .