CN111199233B - 一种改进的深度学习色情图像识别方法 - Google Patents

一种改进的深度学习色情图像识别方法 Download PDF

Info

Publication number
CN111199233B
CN111199233B CN201911398435.5A CN201911398435A CN111199233B CN 111199233 B CN111199233 B CN 111199233B CN 201911398435 A CN201911398435 A CN 201911398435A CN 111199233 B CN111199233 B CN 111199233B
Authority
CN
China
Prior art keywords
image
pornographic
network
feature
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911398435.5A
Other languages
English (en)
Other versions
CN111199233A (zh
Inventor
梁刚
陈俊任
许春
杨进
陈诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201911398435.5A priority Critical patent/CN111199233B/zh
Publication of CN111199233A publication Critical patent/CN111199233A/zh
Application granted granted Critical
Publication of CN111199233B publication Critical patent/CN111199233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种改进的深度学习色情图像识别方法,获取每个原始图像的尺度信息,将每个原始图像的最短边固定为统一的尺寸大小,另外一边按原始图像的比例进行缩放,得出图像标准化后的图像;提取图像的紧凑表示;并在此基础上添加高斯噪声攻击得到输出向量,对其进行训练并得到输出特征图,而后依次通过通道注意力模型和空间注意力模型,输出具有注意力机制的注意力机制特征图,而后输入到特征空间组合网络内进行卷积操作,输出特征向量;在其基础上,通过解码网络形成数据,结合输入对该部分进行优化;在输出特征向量的基础上,添加零中心的高斯噪声产生伪类数据,然后将第一损失函数和第二损失函数进行加权联合训练,得到色情图像识别模型。

Description

一种改进的深度学习色情图像识别方法
技术领域
本发明涉及图像识别技术、深度学习技术等领域,具体的说,是一种改进的深度学习色情图像识别方法。
背景技术
随着网络的普及与广泛应用,网络中的色情图片与色情视频的数量在网络中呈指数级增长。相关研究表明:互联网色情内容的增长与性犯罪上升有关,例如性虐待、家庭暴力等。互联网色情正越来越多地影响着人们的正常生活,尤其处于青春发育期的青少年。网络色情泛滥的问题导致了许多社会问题和道德问题,因此,识别或检测互联网色情内容对于互联网资源和文化的健康发展具有重要意义。如何检测和识别网络色情一直是网络信息安全领域广泛关注的问题之一。
现有的网络色情图片识别方法可以归纳为四类:
1)黑名单技术
黑名单技术是当前色情图像识别中应用最为广泛与简单的技术,如果在一个URL所指向的网页中发现有色情信息,该技术就将该URL地址添加到黑名单中,当用户访问该URL时系统给出提醒甚至阻止用户访问。该方法优点是简单、准确。缺点是URL库中的URL依赖于人工识别,且系统的效率随着黑名单中URL地址的增加线性下降,此外,URL的更新使得维护黑名单的开销增大;
2)基于人体肤色识别的方法
基于人体肤色识别的方法因其直观性而较早得到研究者的关注。原因在于色情图片中的人物会有大量的皮肤裸露,因此该类方法通过识别图像中人物中的皮肤的比例来检测图像或视频是否为色情信息。这类方法的优点在于简单、易实现与可解释性强。但该类方法对包括大量皮肤色的正常图片缺乏必要的考虑,比如:人类体育运动照片(沙滩排球、举重、健美,跳水,游泳)、婴儿照片、面部特写照片,导致该类方法在上述情景的检测误报率非常高;
3)基于推理的浅度机器学习方法
基于推理的浅度机器学习方法将色情图片鉴别看作是有监督学习中的分类问题,系统设计师通过特征工程从图片中提取特征向量用来表征图片,然后利用训练好的分类器对图片是否为色情信息进行甄别,这种方法的优点是可解释性高,特征明显的图片检测准确率高。缺点是检测方法中的特征提取与选择受限于工程师的经验与知识背景,模型训练代价大,自适应性差,当色情图片的摄影条件与特征发生明显改变,该类方法的检测率迅速下降;
4)基于结构的深度学习的方法
5)基于结构的深度学习方法利用神经网络的优秀的特征提取能力来挖掘色情图像的深层特征。一般来说,这类方法在性能上优于上述两类方法(基于人体肤色识别的方法、基于推理的的浅度机器学习方法)。互联网上图像内容和规模的多样性使得识别图像内容变得困难,迫切需要一种技术能自动且有效地提取图片中的特征。而基于结构的深度学习的方法就能够充分利用数据,自动地提取低维到高维的图像特征。虽然这类方法往往表现出依赖大量数据集,且模型较为复杂,容易过拟合。但是相比前两个方法(基于人体肤色识别的方法、基于推理的浅度机器学习方法),其识别结果更为让人信服,且具有很强的普适性,在面对大量数据集会有很好的表现效果。
上述方法在一定程度上成功抑制了互联网中色情图片泛滥的问题,但是现有方法仍然存在以下几点不足:
1、现有方法将色情图片识别问题看作是有监督学习的二分类问题,因此训练数据集的标注需要耗费大量的人力与物力。另外,现有方法对色情图像中的负类样本(正常图片)分布不均衡和无穷样本问题(正常图片的千差万别,种类繁多,如猫的图片和汽车的图片)缺乏必要的考虑,导致训练出的模型存在较为严重的分类偏倚问题。
2、现有色情图像识别方法缺乏对图像缩放造成的几何失真的考虑而缺少必要的应对措施。在现有色情识别方法中需要固定输入图片的尺寸(例如,224×224)。这种操作可能改变了图像的原始比例,从而导致色情图像的内容出现几何变形。由图像尺寸缩放引起的几何变形可以在一定程度上会影响色情图片识别的准确性。例如,经过图像缩放后,一个胖男人的胸部在视觉上变得类似于女性的乳房。这种图像的几何失真将会减少色情图像识别的准确性。
3、现有的色情图像识别方法缺乏对抗样本攻击的防御措施。当色情图像加上人类无法观察到的微妙扰动的微型数据扰动时,色情图片性质没有改变。但是现有识别方法将无法识别它们。例如,一个简单的例子是,在添加了不可察觉的噪声后,神经网络将熊猫图片分类为长臂猿。
发明内容
本发明的目的在于提供一种改进的深度学习色情图像识别方法,通过尺度约束池化(SCP)、图像压缩重组预处理(PreCR)和结合视觉注意力机制的深度一分类(DOCAPorn)技术实现色情图像的准确识别。
本发明通过下述技术方案实现:一种改进的深度学习色情图像识别方法,包括下述步骤:
步骤1:图像尺寸的标准化操作:获取每个原始图像的尺度信息(Wo,Ho),将每个原始图像的最短边固定为统一的尺寸大小Sf,另外一边按原始图像的比例进行缩放,得出重塑后尺度为(Wf,Hf)的图像xi
步骤2:在图像xi的基础上,从图像压缩部分,通过深度压缩网络的卷积操作并且不断压缩特征图来提取图像xi的紧凑表示PreC(θc;xi);
步骤3:在图像xi的紧凑表示PreC(θc;xi)的基础上添加高斯噪声攻击
Figure BDA0002346927920000041
得到输出向量zi,利用输出向量zi进行训练并得到输出特征图F;具体为:在图像xi的紧凑表示PreC(θc;xi)的基础上添加高斯噪声攻击
Figure BDA0002346927920000042
得到输出向量zi,利用输出向量zi作为图像重组部分的输入进行训练,在训练时,通过深度重组网络的反卷积操作尽可能地重组干净的图像特征向量
Figure BDA0002346927920000043
以提高重建质量,并进一步增强抵御对抗样本的能力;当图像重组部分通过深度重组网络的反卷积操作尽可能地重组干净的图像特征向量
Figure BDA0002346927920000044
后,将干净的图像特征向量
Figure BDA0002346927920000045
作为结合视觉注意力机制与深度一分类方法模型的输入,通过数据表征网络的特征提取部分后的输出特征图F;
步骤4:将输出特征图F依次通过通道注意力模型和空间注意力模型,输出具有注意力机制的注意力机制特征图F″;
步骤5:将注意力机制特征图F″输入到特征空间组合网络内进行卷积操作,输出特征向量vi;即,经过步骤1~步骤4后,注意力机制特征图F″的尺度信息变为(WL,HL),而后输入到数据表征网络的特征组合部分进行卷积操作,由于该神经网络(数据表征网络)的全连接层特征维度数的原因,经过神经网络(数据表征网络)卷积操作后,输入到特征空间组合网络的全连接层的注意力机制特征图F″的尺度信息由(WL,HL)变为(w,h)(即通过尺度约束池化中自适应地划分操作,从而实现尺度由(WL,HL)到(w,h)的变换),而后从特征空间组合网络的全连接层输出后,注意力机制特征图F″的当前的输出向量变为vi;在经过之前卷积神经网络(数据表征网络、特征空间组合网络)一系列的卷积等操作后,步骤1中重塑后的尺度为(Wf,Hf)的图像通过数据表征网络的特征提取部分形成的特征图F″的尺度信息为(WL,HL)。并且根据特征空间组合网络中全连接层所需的特征维度数设置输入到特征空间组合网络的特征图的尺度大小为(w,h)。通过尺度约束池化中自适应地划分操作,从而实现尺度由(WL,HL)到(w,h)的变换。通过特征空间组合网络后,特征图输出为特征向量vi
步骤6:利用数据表征网络提取特征的卷积过程进行输出特征向量vi的反卷积操作,形成数据
Figure BDA0002346927920000051
并结合干净的图像特征向量
Figure BDA0002346927920000052
通过第一损失函数迭代训练对该数据表征网络部分进行优化;所述第一损失函数为:
Figure BDA0002346927920000053
Figure BDA0002346927920000054
数据表征网络为,使用自编码器技术,根据输入干净的图像特征向量
Figure BDA0002346927920000055
到特征向量vi训练得到;即使用自编码器技术,根据输入干净的图像特征向量
Figure BDA0002346927920000056
到特征向量vi训练得到数据表征网络,在此基础上,利用数据表征网络提取特征的卷积过程进行反卷积操作,形成数据
Figure BDA0002346927920000057
结合输入干净的图像特征向量
Figure BDA0002346927920000058
通过迭代训练减小两者之间的差异来对该部分进行优化,在进行优化时,优化目标(即第一损失函数)如下所示:
Figure BDA0002346927920000059
Figure BDA00023469279200000510
通过神经网络的反向传播和梯度更新策略,该优化目标
Figure BDA00023469279200000511
能够使得数据表征网络学习到色情类图像的特征表示;
步骤7:在输出特征向量vi的基础上,添加零中心的高斯噪声
Figure BDA00023469279200000512
产生伪类数据pi,而后利用第二损失函数进行迭代训练;即在输出特征向量vi的基础上,添加零中心的高斯噪声
Figure BDA00023469279200000513
产生伪类数据pi,进一步的为了加强神经网络模型学习色情图像的表示,确定深度一分类模型的决策边界,通过区分伪类与色情类图像来进行迭代训练。在进行迭代训练时,训练的优化目标(即第二损失函数)如下所示:
Figure BDA0002346927920000061
Figure BDA0002346927920000062
其中yj={0,1},pj∈[0,1];yj=1表示分类器判断特征向量的结果被归类为目标数据,否则(yj=0)为伪负数据;pj和1-pj分别表示yj=1和yj=0的既率;
步骤8:将第一损失函数和第二损失函数进行加权联合训练,得到色情图像识别模型。即将步骤6中迭代训练减小
Figure BDA0002346927920000063
Figure BDA0002346927920000064
之间的差异这一优化目标
Figure BDA0002346927920000065
和步骤7中迭代训练区分伪类与色情类图像这一优化目标
Figure BDA0002346927920000066
进行加权联合训练。在进行加权联合训练时,通过下述公式联合:
Figure BDA0002346927920000067
其中,λ和μ都是常系数,并且为了化简该优化目标,都将其设置为1.00。通过神经网络的反向传播和梯度更新策略,最终训练出本发明提出的色情图像识别模型。
进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤1中图像尺寸的标准化操作采用下述公式实现:
Figure BDA0002346927920000068
其中,Wo为原始图像的宽,Ho为原始图像的高,Sf为原始图像比例压缩后最短边的尺寸大小,Wf为重塑后图像xi的宽,Hf为重塑后图像xi的高。
进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤2在进行提取图像xi的紧凑表示PreC(θc;xi)时,采用深度压缩网络进行卷积操作实现。
进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤3中,在重塑图像xi的紧凑表示PreC(θc;xi)的基础上添加高斯噪声攻击
Figure BDA0002346927920000069
得到输出向量zi通过下述公式实现:
zi=PreC(θc;xi)+n(α,β) (3)
其中,PreC(·)表示通过图像压缩部分的输出,xi∈X,并且θc表示图像压缩部分学习到的参数,
Figure BDA0002346927920000071
表示均值和方差分别为α和β的高斯噪声。
进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤3中,输出向量zi进行训练得到输出特征图F时:将输出向量zi输入到深度重组网络内进行反卷积操作,得到干净的图像特征向量
Figure BDA0002346927920000072
后,将干净的图像特征向量
Figure BDA0002346927920000073
作为结合视觉注意力机制与深度一分类方法模型的输入,通过结合视觉注意力机制与深度一分类方法模型的特征提取网络后得到输出特征图F。
进一步的为更好地实现本发明,特别采用下述设置方式:所述视觉注意力机制与深度一分类方法模型的深度一分类部分设置有解码部分和伪类构造与区分部分,解码部分的结构与所述特征提取网络在结构上形成深度自编码器网络,通过编码与解码的方式,使得数据表征网络学习到色情类图像的特征表示;伪类构造与区分部分,产生伪类并且通过边界决策网络进行分类区分,避免使用其他负类数据,同时加强神经网络模型学习色情图像的表示,确定深度一分类模型的决策边界;伪类数据pi在当前的输出特征向量vi的基础上,通过添加零中心的高斯噪声
Figure BDA0002346927920000074
形成的,即伪类数据pi通过下式计算得到:
Figure BDA0002346927920000075
其中,
Figure BDA0002346927920000076
为零中心的高斯噪声。
进一步的为更好地实现本发明,特别采用下述设置方式:所述通道注意力模型在进行输出特征图F中何种内容是有意义的计算时,采用下述公式:
MC(F)=σ(MLP(AvgPf(F))+MLP(MaxPf(F))) (5)
其中,AvgPf(·)和MaxPf(·)分别代表对输出特征图F进行全局平均池化和全局最大池化操作后的结果;MLP(·)表示具有隐藏层的多层感知器,其由两个感知机神经网络层组成,并且隐藏层中的激活函数为ReLU;σ(·)表示sigmoid函数。
进一步的为更好地实现本发明,特别采用下述设置方式:所述空间注意力模型在进行输出特征图F中有意义的位置信息计算时,采用下述公式:
MS(F)=σ(fk×k([AvgPc(F);MaxPc(F)])) (6)
其中,fk×k(·)表示卷积核大小为k×k的卷积操作;
Figure BDA0002346927920000081
Figure BDA0002346927920000082
Figure BDA0002346927920000083
表示对输入特征分别在通道维度上进行全局平均池化和全局最大池化。
进一步的为更好地实现本发明,特别采用下述设置方式:所述注意力机制特征图F″通过下述公式计算得到:
Figure BDA0002346927920000084
Figure BDA0002346927920000085
其中,
Figure BDA0002346927920000086
表示逐元素相乘。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明提出了结合视觉注意力机制与深度一分类方法来识别色情图像。该方法能够对色情图像这单一的目标类进行训练,在不使用其他类的情况下,有效避免了无穷负样本问题。此外,由于一分类方法更注重目标对象的识别,因此,该方法引入了视觉注意力机制,通过对色情图像中的色情信息及其位置的注意力,使神经网络能够专注于对目标对象特征的提取,在一定程度上能够减少色情图像背景的干扰,忽略一些不相关的信息,从而提高深度一分类色情图像识别的准确率。
(2)本发明提出了一种尺度约束池化模型,该尺度约束池化模型作用在全连接层的前面,通过获取之前对图像的卷积操作而输出的特征图的宽高尺度,并且根据全连接层的特征维度,自适应地将不同尺度的特征图约束为相尺度。如此便能允许输入不同尺度的图像,从而保留图像内容中的原始比例信息。此外,为了处理不同尺度差异过大而导致过度的下采样而产生关键信息丢失的问题,该模型将不同尺度的图像进行了约束,即将每个输入原始图像的最短边固定为统一的大小。
(3)本发明提出了一种图像压缩重组的预处理方法。受图像局部结构中相邻像素之间强烈的相似性和相关性的启发,图像压缩可以在减少冗余和扰动信息的同时,保留图像的主体信息。因此,该方法在图像预处理阶段分为压缩和重组两部分。在预处理的图像压缩部分,通过卷积神经网络提取的压缩表示来保留原始图像的主体信息;在预处理的图像重组部分,通过反卷积神经网络重建干净的原始图像。此外,为了进一步提高重建干净原始图像的质量,在图像压缩部分提取的压缩表示的特征基础上,添加高斯噪声来进行训练,从而进一步增强防御对抗样本攻击的能力。
附图说明
图1为本发明的整体模型(色情图像识别模型)架构图。
图2为尺度约束池化的案例图。
图3为视觉注意力模型图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
实施例1:
本发明设计出一种改进的深度学习色情图像识别方法,通过尺度约束池化(SCP)、图像压缩重组预处理(PreCR)和结合视觉注意力机制的深度一分类(DOCAPorn)技术实现色情图像的准确识别,特别采用下述设置方式:包括下述步骤:
步骤1:图像的尺度的标准化操作:获取每个原始图像的尺度信息(Wo,Ho),将每个原始图像的最短边固定为统一的尺寸大小Sf,另外一边按原始图像的比例进行缩放,得出重塑后尺度为(Wf,Hf)的图像xi
所述步骤1图像尺度的标准化操作采用下述公式实现:
Figure BDA0002346927920000111
其中,Wo为原始图像的宽,Ho为原始图像的高,Sf为原始图像比例压缩后最短边的尺寸大小,Wf为重塑后图像的宽,Hf为重塑后图像的高。
步骤2:在图像xi的基础上,从图像压缩部分,通过深度压缩网络的卷积操作并且不断压缩特征图来提取图像xi的紧凑表示PreC(θc;xi);
步骤3:在图像xi的紧凑表示PreC(θc;xi)的基础上添加高斯噪声攻击
Figure BDA0002346927920000121
得到输出向量zi,利用输出向量zi进行训练并得到输出特征图F;具体为:在图像xi的紧凑表示PreC(θc;xi)的基础上添加高斯噪声攻击
Figure BDA0002346927920000122
得到输出向量zi,利用输出向量zi作为图像重组部分的输入进行训练,在训练时,通过深度重组网络的反卷积操作尽可能地重组干净的图像特征向量
Figure BDA0002346927920000123
以提高重建质量,并进一步增强抵御对抗样本的能力;当图像重组部分通过深度重组网络的反卷积操作尽可能地重组干净的图像特征向量
Figure BDA0002346927920000124
后,将干净的图像特征向量
Figure BDA0002346927920000125
作为结合视觉注意力机制与深度一分类方法模型的输入,通过特征提取网络后的输出特征图F;
步骤4:将输出特征图F依次通过通道注意力模型和空间注意力模型,输出具有注意力机制的注意力机制特征图F″;
步骤5:将注意力机制特征图F″输入到特征空间组合网络内进行卷积操作,输出特征向量vi;即,经过步骤1~步骤4后,注意力机制特征图F″的尺度信息变为(WL,HL),而后输入到数据表征网络的特征组合部分进行卷积操作,由于该神经网络(数据表征网络)的全连接层特征维度数的原因,经过神经网络(数据表征网络)卷积操作后,输入到特征空间组合网络的全连接层的注意力机制特征图F″的尺度信息由(WL,HL)变为(w,h)(即通过尺度约束池化中自适应地划分操作,从而实现尺度由(WL,HL)到(w,h)的变换),而后从特征空间组合网络的全连接层输出后,注意力机制特征图F″的当前的输出向量变为vi;在经过之前神经网络(数据表征网络、特征空间组合网络)一系列的卷积等操作后,步骤1中重塑后的尺度为(Wf,Hf)的图像通过数据表征网络的特征提取部分形成的特征图F″的尺度信息为(WL,HL)。并且根据特征空间组合网络中全连接层所需的特征维度数设置输入到特征空间组合网络的特征图的尺度大小为(w,h)。通过尺度约束池化中自适应地划分操作,从而实现尺度由(WL,HL)到(w,h)的变换。通过特征空间组合网络后,特征图输出为特征向量vi
步骤6:利用数据表征网络提取特征的卷积过程进行输出特征向量vi的反卷积操作,形成数据
Figure BDA0002346927920000131
并结合干净的图像特征向量
Figure BDA0002346927920000132
通过第一损失函数迭代训练对该数据表征网络部分(图1中子网络E到子网络G部分)进行优化;所述第一损失函数为:
Figure BDA0002346927920000133
数据表征网络为,使用自编码器技术,根据输入干净的图像特征向量
Figure BDA0002346927920000134
到特征向量vi训练得到;即使用自编码器技术,根据输入干净的图像特征向量
Figure BDA0002346927920000135
到特征向量vi训练得到数据表征网络,在此基础上,利用数据表征网络提取特征的卷积过程进行反卷积操作,形成数据
Figure BDA0002346927920000136
结合输入干净的图像特征向量
Figure BDA0002346927920000137
通过迭代训练减小两者之间的差异来对该部分进行优化,在进行优化时,优化目标(即第一损失函数)如下所示:
Figure BDA0002346927920000138
通过神经网络的反向传播和梯度更新策略,该优化目标
Figure BDA0002346927920000139
能够使得数据表征网络学习到色情类图像的特征表示;
步骤7:在输出特征向量vi的基础上,添加零中心的高斯噪声
Figure BDA00023469279200001310
产生伪类数据pi,而后利用第二损失函数进行迭代训练;即在输出特征向量vi的基础上,添加零中心的高斯噪声
Figure BDA00023469279200001311
产生伪类数据pi,进一步的为了加强神经网络模型学习色情图像的表示,确定深度一分类模型的决策边界,通过区分伪类与色情类图像来进行迭代训练。在进行迭代训练时,训练的优化目标(即第二损失函数)如下所示:
Figure BDA00023469279200001312
Figure BDA00023469279200001313
其中yj={0,1},pj∈[0,1];yj=1表示分类器判断特征向量的结果被归类为目标数据,否则(yj=0)为伪负数据;pj和1-pj分别表示yj=1和yj=0的既率;
步骤8将第一损失函数和第二损失函数进行加权联合训练,得到色情图像识别模型。即将步骤6中迭代训练减小
Figure BDA0002346927920000141
Figure BDA0002346927920000142
之间的差异这一优化目标
Figure BDA0002346927920000143
和步骤7中迭代训练区分伪类与色情类图像这一优化目标
Figure BDA0002346927920000144
进行加权联合训练。在进行加权联合训练时,通过下述公式联合:
Figure BDA0002346927920000145
其中,λ和μ都是常系数,并且为了化简该优化目标,都将其设置为1.00。通过神经网络的反向传播和梯度更新策略,最终训练出本发明提出的色情图像识别模型。
实施例2:
本实施例是在上述实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:所述步骤3中,在重塑图像xi的紧凑表示PreC(θc;xi)的基础上添加高斯噪声攻击
Figure BDA0002346927920000146
得到输出向量zi通过下述公式实现:
zi=PreC(θc;xi)+n(α,β) (3)
其中,PreC(·)表示通过图像压缩部分的输出,xi∈X,并且θc表示图像压缩部分学习到的参数,
Figure BDA0002346927920000147
表示均值和方差分别为α和β的高斯噪声。
所述步骤3中,输出向量zi进行训练得到输出特征图F时:将输出向量zi输入到深度重组网络内进行反卷积操作,得到干净的图像特征向量
Figure BDA0002346927920000148
后,将干净的图像特征向量
Figure BDA0002346927920000149
作为结合视觉注意力机制与深度一分类方法模型的输入,通过结合视觉注意力机制与深度一分类方法模型的特征提取网络后得到输出特征图F。
所述视觉注意力机制与深度一分类方法模型的深度一分类部分设置有解码部分和伪类构造与区分部分,解码部分的结构与所述特征提取网络在结构上形成深度自编码器网络,通过编码与解码的方式,使得数据表征网络学习到色情类图像的特征表示;伪类构造与区分部分,产生伪类并且通过神经网络进行分类区分,避免使用其他负类数据,同时加强神经网络模型学习色情图像的表示,确定深度一分类模型的决策边界;伪类数据pi在当前的输出特征向量vi的基础上,通过添加零中心的高斯噪声
Figure BDA0002346927920000151
形成的,即伪类数据pi通过下式计算得到:
Figure BDA0002346927920000152
其中,
Figure BDA0002346927920000153
为零中心的高斯噪声。
实施例4:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:所述通道注意力模型在进行输出特征图F中何种内容是有意义的计算时,采用下述公式:
MC(F)=σ(MLP(AvgPf(F))+MLP(MaxPf(F))) (5)
其中,AvgPf(·)和MaxPf(·)分别代表对输出特征图F进行全局平均池化和全局最大池化操作后的结果;MLP(·)表示具有隐藏层的多层感知器,其由两个感知机神经网络层组成,并且隐藏层中的激活函数为ReLU;σ(·)表示sigmoid函数。
所述空间注意力模型在进行输出特征图F中有意义的位置信息计算时,采用下述公式:
MS(F)=σ(fk×k([AvgPc(F);MaxPc(F)])) (6)
其中,fk×k(·)表示卷积核大小为k×k的卷积操作;
Figure BDA0002346927920000154
Figure BDA0002346927920000161
Figure BDA0002346927920000162
表示对输入特征分别在通道维度上进行全局平均池化和全局最大池化。
实施例5:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:所述注意力机制特征图F″通过下述公式计算得到:
Figure BDA0002346927920000163
Figure BDA0002346927920000164
其中,
Figure BDA0002346927920000165
表示逐元素相乘。
实施例6:
本实施例是在上述任一实施例的基础上进一步优化,由于现有色情图片识别方法将色情图片识别问题看作是有监督学习的二分类问题,因此训练数据集的标注需要耗费大量的人力与物力。另外,现有方法对色情图像中的负类样本(正常图片)分布不均衡和无穷样本问题(正常图片的千差万别,种类繁多,如猫的图片和汽车的图片)缺乏必要的考虑,导致训练出的模型存在较为严重的分类偏倚问题。针对该问题,发明人发现在真实的互联网环境中,正常类别的图像种类千差万别,很难收集所有的正常类别的样本。相关研究通常使用公开图像数据集ImageNet作为色情图像识别的负类样本集。该图像数据集起始于2009年,由斯坦福大学计算机科学系的李飞飞教授组织。是目前世界上图像识别领域最大的数据库。至今,其涵盖了大约两千多个类别的正常图像。但是,在真实的互联网环境中,正常类的图像远远不止两千多个种类。因此,对于色情图像识别的负类样本集中涵盖的种类往往是难以全覆盖的。为了避免该问题,本发明提出的结合视觉注意力机制与深度一分类方法,在仅使用色情图像类的情况下,仍然能够取得较高的准确率。
现有的色情图像识别方法通常要求输入图像的尺寸是固定的(例如,224×224),因此现有的方法需要对图像进行缩放。这项要求改变了图像的原始比例,这可能会导致色情图像中的内容出现几何变形。由图像尺寸缩放引起的几何变形可以在一定程度上会影响色情图片识别的准确性。针对该类问题,发明人发现,现有的色情图像识别方法通常将输入图像进行缩放,使得其尺寸是固定的。这是由于神经网络的全连接层需要统一的特征维度作为输入。然而,图像的缩放通常会导致其内容产生几何形变。为了克服这一问题,本发明提出了尺度约束池化模型。在卷积神经网络的相关研究中,池化层是一种下采样技术,并且其池化窗口的尺寸通常是固定的。本发明则是在普通池化层的基础上进行改进,结合输入特征图的宽高尺度和全连接层所需的固定特征维度数量,提出的一种特殊的池化操作。该模型能够将具有不同尺寸的输入图像约束到相同尺度的特征图。从而提高了色情图像识别模型的准确率。
现有的色情图像识别方法缺乏对抗样本攻击的防御措施。攻击者特意向色情图像中添加人眼难以察觉的细微扰动,并且这些图像仍然呈现出色情信息。由于对计算机而言,图像的本质是数字矩阵,所以攻击者特意对其添加的扰动将会破坏数字矩阵的信息,这种攻击方式将会错误地引导现有的图像识别方法。从而导致现有的色情图像识别方法检测失效。针对该类问题,发明人发现当前现有的色情图像识别的相关研究缺乏对抗样本攻击的防御措施。本发明提出了一种图像压缩重组的预处理方法,弥补了色情图像识别领域中防御对抗样本研究的空白。该方法能够有效地防御当前常用的图像对抗样本攻击。
为解决上述三类问题,发明人提出与设计了一种结合视觉注意力机制与深度一分类模型的色情图像识别技术,包含三个部分:尺度约束池化(SCP),图像压缩重组预处理(PreCR)和结合视觉注意力机制的深度一分类(DOCAPorn)。其中,尺度约束池化用于将不同尺度的图像通过神经网络的卷积操作后输出的特征图约束为相同的尺度;图像压缩重组预处理用于重建干净的原始图像;结合视觉注意力机制的深度一分类实现仅通过色情图像数据集来进行训练。色情图像识别模型如图1所示。首先,原始图像固定最短边为统一的大小,其另一边则根据原始图像的宽高尺寸比例自适应缩放。之后,通过提出的图像压缩重组的预处理方法,在原始图像的基础上重建出干净的图像。最后,将预处理后的图像作为输入,通过结合视觉注意力机制的深度一分类的神经网络模型进行识别。并且在结合视觉注意力机制的深度一分类的神经网络模型中的特征融合子网络(即在全连接层前插入尺度约束池化模型)。
基于一种结合视觉注意力机制与深度一分类模型的色情图像识别技术的基础上而设计的一种改进的深度学习色情图像识别方法,其中,尺度约束池化(SCP)的本质是池化操作,能够自适应地将不同的原始图像(特征图)约束到相同的尺度。假设原始图像的尺寸大小为(Wo,Ho),为了处理图像不同尺度差异过大而导致过度的下采样而产生关键信息丢失的问题,该尺度约束池化模型将不同尺度的图像进行了约束。因此,图像的尺寸大小需要进行重塑,其定义如下:
定义1每个输入图像的最短边需要固定为统一的大小,而另外一边将按照原始图像的比例进行缩放,以此来防止关键信息的丢失,图像尺度的约束可经下式计算得到:
Figure BDA0002346927920000181
Figure BDA0002346927920000182
其中Sf表示原始图像最短边经过按比例缩放后的一个统一固定的尺度大小。并且经过计算得出,图像的尺寸大小(Wo,Ho)被重塑为(Wf,Hf)。
重塑尺寸后的图像确保了其内容不会产生几何形变。并且将之作为图像压缩部分的深度压缩网络的输入。每一层卷积神经网络为了提取特征都会进行卷积操作,每次卷积操作后,产生的特征图的尺度定义如下:
定义2每一次卷积操作将会改变每层卷积神经网络的特征图的尺度大小,根据不同的宽高尺度信息可经下式计算得到:
Figure BDA0002346927920000191
Figure BDA0002346927920000192
其中,Wl和Hl分别是卷积神经网络第l层的宽和高,Fl和Pl分别是当前卷积层的卷积核大小和填充大小,Sl则是当前层的卷积步长。
定义3重塑后的输入的图像xi通过不同的卷积层以及一系列的卷积操作后,输出的特征图的宽高尺度可表示为如下:
(WL,HL)=Φ(Wf,Hf) (11)
其中,
Figure BDA0002346927920000193
表示重塑尺度后的图像与全连接层前的输出的映射函数。其是通过公式(9)和公式(10)不断地计算获取的。
对于不同尺度的输入图像,其对应的(WL,HL)是不同的。本发明提出的尺度约束池化的目的是将特征图下采样为统一的(w,h)尺度的特征图,其特征图的网格划分定义如下:
定义4通过一系列卷积神经网络(数据表征网络、特征空间组合网络)层后,根据不同的尺度图像输出的大小为(WL,HL)的特征图,为了最终约束为(w,h)的特征图,其划分可经下式计算得到:
Figure BDA0002346927920000201
Figure BDA0002346927920000202
其中,gw和g′w分别表示一行中前(w-1)个子窗口大小和最后一个子窗口大小。gh和g′h则分别表示一列中前(h-1)个子窗口大小和最后一个子窗口大小。如图2所示,当(WL,HL)=(7,5)并且(w,h)=(2,2)时,尺度约束池化的操作过程。
综上,尺度约束池化模型包含以下2个步骤:
步骤A:获取每个输入原始图像的尺度信息(Wo,Ho),并且将每个原始图像的最短边固定为统一的尺寸大小Sf,另外一边按原始图像的比例进行缩放,得出标准化后的重塑后的尺度为(Wf,Hf)的图像xi
步骤B:尺度重塑后的图像xi通过卷积神经网络(数据表征网络、特征空间组合网络)一系列的卷积操作,输出尺度为(WL,HL)的特征图,并且根据全连接层所需的特征维度数设置输入到全连接层的特征图的尺度大小为(w,h)。通过尺度约束池化中根据公式(12)与公式(13)自适应地划分操作,从而实现尺度由(WL,HL)到(w,h)的变换。
即,经过步骤1~步骤4后,注意力机制特征图F″的尺度信息变为(WL,HL),而后输入到数据表征网络的特征组合部分进行卷积操作,由于该神经网络(数据表征网络)的全连接层特征维度数的原因,经过神经网络(数据表征网络)卷积操作后,输入到特征空间组合网络全连接层的注意力机制特征图F″的尺度信息由(WL,HL)变为(w,h)(即通过尺度约束池化中自适应地划分操作,从而实现尺度由(WL,HL)到(w,h)的变换)。
通过本发明提出的尺度约束池化(SCP),可以保留任意尺度图像中内容的比例信息,从而克服了因缩放导致的几何形变问题。
在本发明提出的压缩重组预处理方法中(PreCR),可分为两个阶段:图像压缩阶段(PreC)和图像重组阶段(PreR)。假设输入的数据集为x={x1,x2,…,xn},则通过压缩重组预处理后的输出的干净数据则为
Figure BDA0002346927920000211
在图像压缩部分,由于像局部结构中相邻像素之间具有很强的相似性和相关性,因此,图像压缩可以在减少冗余和扰动信息的同时,保留图像的主体信息。这部分神经网络框架是完全卷积的,卷积操作能够充分地提取图像的主体特征信息。该部分由11个卷积层组成,其中,卷积核大小为3×3,并且采用ReLU作为激活函数。前6个卷积层的作用是对输入的原始图像xi进行特征抽取,并且产生输出通道为512的特征图。第一层的输入通道和输出通道分别为3和16。之后到第六层,输出通道依次为:32,64,128,256,512。剩下的5个卷积层用于提取输入的图像xi的紧凑表示PreC(θc;xi)。第七层的输入通道和输出通道分别为512和256。之后输出通道依次为:128,64,32,12。当标准化后的重塑图像xi通过图像压缩部分后,图像的主体特征信息被获取。此外,研究表明,重建干净图像中的非二值化映射的增量信息实际上是噪声。因此,当在二值化映射上添加高斯噪声时,可以重建出更好的图像。为了进一步提高重建干净的图像
Figure BDA0002346927920000212
的质量,在图像压缩部分提取的压缩表示的特征基础上,应用随机高斯噪声攻击。其定义如下:
定义5为了实现防御对抗样本攻击的目的,在压缩表示的特征基础上添加随机高斯噪声来进行攻击:
zi=PreC(θc;xi)+n(α,β) (3)
其中,PreC(·)表示通过图像压缩部分的输出,xi∈X,并且θc表示图像压缩部分学习到的参数。
Figure BDA0002346927920000221
表示均值和方差分别为α和β的高斯噪声。实验表明α=0,β=20.00处的效果最好。
在图像重组阶段,这部分的框架是反卷积神经网络。反卷积层前向传播的过程就是卷积层的反向传播过程,其目的就是为了根据图像压缩部分的输出数据来重建干净的图像。在图像重组部分的神经网络结构中,输出的通道与图像压缩阶段相对应,分别为:32,64,128,256,512,256,128,64,32,16,和3。最终由原始图像得到重建的干净图像
Figure BDA0002346927920000222
在整个图像压缩重组预处理阶段,两个部分的权重是同时进行学习的,以此来达到端到端训练的目的。其定义如下:
定义6最小化图像标准化后的重塑图像xi和经过图像压缩重组后的干净图像
Figure BDA0002346927920000223
之间的均方误差作为端到端的学习准则:
Figure BDA0002346927920000224
其中,PreR(·)表示通过图像重组部分的输出,并且(θc,θr)表示图像压缩部分和图像重组部分一起学习到的参数。
综上,图像压缩重组预处理方法包含如下3个步骤:
步骤1):图像压缩部分通过深度压缩网络中的卷积操作提取图像xi的紧凑表示PreC(θc;xi);
步骤2):在图像xi的紧凑表示PreC(θc;xi)的基础上添加随机高斯噪声攻击
Figure BDA0002346927920000225
得到输出向量zi
步骤3):图像重组部分通过深度重组网络中的反卷积操作尽可能地重组干净的图像
Figure BDA0002346927920000226
通过本发明提出的图像压缩重组预处理方法(PreCR),可以将被对抗样本攻击的图像重建为干净的图像,以此来实现防御对抗样本攻击的目的。
在本发明提出的结合视觉注意力机制的深度一分类方法(DOCAPorn)中,引入了视觉注意力机制,神经网络能够专注于对目标对象特征的提取,在一定程度上能够减少色情图像背景的干扰,忽略一些不相关的信息,从而提高色情图像识别的准确率。并且在全连接层之前插入了尺度约束池化,允许输入图像保留各自的比例信息,这防止了图像缩放导致的几何形变。此外,利用色情图像这一目标对象构建了伪负类数据集,来加强深度一分类神经网络模型学习色情图像的表示。
在视觉注意力机制中,如图3所示,可分为两个部分:通道注意力
Figure BDA0002346927920000231
和空间注意力
Figure BDA0002346927920000232
其中,通道注意力是利用特征的通道间关系,生成的通道注意图。在卷积神经网络中,每个特征图的各个通道被考虑作为特征探测器,而通道注意的功能就是聚焦于输入的图像中何种内容是有意义的信息。在本发明的通道注意力机制中,特征映射的空间信息通过对当前的输出特征图F使用全局平均池化和全局最大池化操作来聚合。
其定义如下:
定义7通道注意力表达出输出特征图F中何种内容是是有意义的信息,其可通过下式计算得到:
MC(F)=σ(MLP(AvgPf(F))+MLP(MaxPf(F))) (5)
其中,AvgPf(·)和MaxPf(·)分别代表对输出特征图F进行全局平均池化和全局最大池化操作后的结果。MLP(·)表示具有隐藏层的多层感知器。其由两个感知机神经网络层组成,并且隐藏层中的激活函数为ReLU。此外,σ(·)表示sigmoid函数。
在本发明中的空间注意力机制,是利用特征之间存在的空间关系,生成空间注意图。与本发明中通道注意力不同的是,空间注意力的功能是聚焦内容处于图像中的何处位置,这对通道注意力的信息进行了补充。在本发明的空间注意力机制中,使用全局平均池化和全局最大池化操作来聚合功能映射的通道信息。然后,将这两个映射通过使用一个包含单个卷积核的隐藏层对其进行卷积操作来进行结合,产生空间注意图。其定义如下:
定义8空间注意力表达出输出特征图F中有意义内容的位置信息,其可通过下式计算得到:
MS(F)=σ(fk×k([AvgPc(F);MaxPc(F)])) (6)
其中,fk×k(·)表示卷积核大小为k×k的卷积操作。实验表明,k=7的效果最好。
Figure BDA0002346927920000241
Figure BDA0002346927920000242
表示对输入特征分别在通道维度上进行全局平均池化和全局最大池化。
在本发明中的注意力机制中,假设当前的输出特征图为F。则经过视觉注意力模型后的输出定义如下:
定义9在视觉注意力机制中,输出特征图F依次串行通过了通道注意力和空间注意力,其可通过下式计算得到:
Figure BDA0002346927920000243
Figure BDA0002346927920000244
其中,
Figure BDA0002346927920000245
表示逐元素相乘。
在深度一分类部分中,通过神经网络一系列卷积等操作提取到特征后,存在两个分支部分:解码部分和伪类构造与区分部分。解码部分的结构与之前特征提取网络在结构上形成深度自编码器网络,通过编码与解码的方式,使得神经网络学习到色情类图像的特征表示。训练解码部分的数据表征网络的优化目标是为了减小解码器产生的数据
Figure BDA0002346927920000251
与输入数据
Figure BDA0002346927920000252
之间的差异,因此该部分的优化目标定义如下:
定义10解码部分的优化目标是根据解码器产生的数据
Figure BDA0002346927920000253
与输入数据
Figure BDA0002346927920000254
通过下式计算:
Figure BDA0002346927920000255
在伪类构造与区分部分,本发明利用与当前特征向量相同维度的零中心的高斯噪声
Figure BDA0002346927920000256
来构造伪类数据。其定义如下:
定义11伪类是在当前特征向量vi的基础上,通过添加零中心的高斯噪声
Figure BDA0002346927920000257
形成的,通过下式计算:
pi=vi+N (4)
构造伪类数据的目的是为了避免使用其他负类数据,同时加强神经网络模型学习色情图像的表示,确定深度一分类模型的决策边界。为了对深度一分类模型的决策边界进行约束,伪类区分部分的优化目标定义如下:
定义12伪类构造与区分部分的优化目标是通过最小化伪类数据与色情类数据之间二元交叉熵进行计算:
Figure BDA0002346927920000258
其中yj={0,1},pj∈[0,1]。并且yj=1表示分类器判断特征向量的结果被归类为目标数据,否则(yj=0)为伪负数据。此外,pj和1-pj分别表示yj=1和yj=0的概率。
综上,在深度一分类部分中的整体优化目标定义如下:
定义13伪类构造与区分部分的整体优化目标通过结合
Figure BDA0002346927920000261
Figure BDA0002346927920000262
其可通过下式计算得到:
Figure BDA0002346927920000263
其中,λ和μ都是常系数,并且为了化简该优化目标,都将其设置为1.00。
综上,结合视觉注意力机制的深度一分类方法包含如下4个步骤:
步骤(1):图像压缩重组预处理后的干净的图像特征向量
Figure BDA0002346927920000264
作为输入,依次通过数据表征网络中的特征提取卷积神经网络模型,视觉注意力模型和尺度约束池化模型,经过特征空间组合网络中的全连接层操作输出特征向量vi
步骤(2):在输出特征向量vi的基础上,使用自编码器技术,根据输入干净的图像特征向量
Figure BDA0002346927920000265
到特征向量vi训练得到数据表征网络,在此基础上,利用数据表征网络提取特征的卷积过程进行反卷积操作,形成数据
Figure BDA0002346927920000266
结合输入干净的图像特征向量
Figure BDA0002346927920000267
通过迭代训练减小两者之间的差异来对该部分进行优化,在进行优化时,优化目标(即第一损失函数)如下所示:
Figure BDA0002346927920000268
Figure BDA0002346927920000269
通过神经网络的反向传播和梯度更新策略,该优化目标
Figure BDA00023469279200002610
能够使得神经网络学习到色情类图像的特征表示;
步骤(3):在输出特征向量vi的基础上,添加零中心的高斯噪声
Figure BDA00023469279200002611
产生伪类数据pi。并且为了加强神经网络模型学习色情图像的表示,确定深度一分类模型的决策边界,通过区分伪类与色情类图像来进行迭代训练。训练的优化目标(即第二损失函数)如下所示:
Figure BDA0002346927920000271
Figure BDA0002346927920000272
其中yj={0,1},pj∈[0,1]。并且yj=1表示分类器判断特征向量的结果被归类为目标数据,否则(yj=0)为伪负数据。此外,pj和1-pj分别表示yj=1和yj=0的概率;
步骤(4):将步骤(2)中迭代训练减小
Figure BDA0002346927920000273
Figure BDA0002346927920000274
之间的差异这一优化目标
Figure BDA0002346927920000275
和步骤(3)中迭代训练区分伪类与色情类图像这一优化目标
Figure BDA0002346927920000276
进行加权联合训练。通过下述公式联合:
Figure BDA0002346927920000277
其中,λ和μ都是常系数,并且为了化简该优化目标,都将其设置为1.00。通过神经网络的反向传播和梯度更新策略,最终训练出本发明提出的色情图像识别模型。
本发明提出了结合视觉注意力机制与深度一分类方法来识别色情图像。该方法能够对色情图像这单一的目标类进行训练,在不使用其他类的情况下,有效避免了无穷负样本问题。此外,由于一分类方法更注重目标对象的识别,因此,该方法引入了视觉注意力机制,通过对色情图像中的色情信息及其位置的注意力,使神经网络能够专注于对目标对象特征的提取,在一定程度上能够减少色情图像背景的干扰,忽略一些不相关的信息,从而提高深度一分类色情图像识别的准确率。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (7)

1.一种改进的深度学习色情图像识别方法,其特征在于:包括下述步骤:
步骤1:图像尺寸的标准化操作:获取每个原始图像的尺度信息(Wo,Ho),将每个原始图像的最短边固定为统一的尺寸大小Sf,另外一边按原始图像的比例进行缩放,得出重塑后尺度为(Wf,Hf)的图像xi
步骤2:在图像xi的基础上,从图像压缩部分,通过深度压缩网络的卷积操作并且不断压缩特征图来提取图像xi的紧凑表示PreC(θc;xi),其中θc表示图像压缩部分学习到的参数;
步骤3:通过公式zi=PreC(θc;xi)+n(α,β)实现在图像xi的紧凑表示PreC(θc;xi)的基础上添加高斯噪声攻击n(α,β)得到输出向量zi,利用输出向量zi作为图像重组部分的输入进行训练,在训练时,通过深度重组网络的反卷积操作重组干净的图像特征向量
Figure FDA0002701345730000013
后,将干净的图像特征向量
Figure FDA0002701345730000014
作为结合视觉注意力机制与深度一分类方法模型的输入,通过结合视觉注意力机制与深度一分类方法模型的特征提取网络后得到输出特征图F;
其中,PreC(·)表示通过图像压缩部分的输出,xi∈X,并且θc表示图像压缩部分学习到的参数,n(α,β)表示均值和方差分别为α和β的高斯噪声;
步骤4:将输出特征图F依次通过通道注意力模型和空间注意力模型,输出具有注意力机制的注意力机制特征图F″;
步骤5:将注意力机制特征图F″输入到数据表征网络的特征组合部分进行卷积操作,将注意力机制特征图F″的尺度信息通过尺度约束池化中自适应地划分操作由(WL,HL)变为(w,h),且注意力机制特征图F″通过特征空间组合网络后输出特征向量为vi
步骤6:利用数据表征网络提取特征的卷积过程进行输出特征向量vi的反卷积操作,形成数据
Figure FDA0002701345730000011
并结合干净的图像特征向量
Figure FDA0002701345730000012
通过第一损失函数迭代训练对该数据表征网络部分进行优化;
步骤7:在输出特征向量vi的基础上,添加零中心的高斯噪声
Figure FDA0002701345730000021
产生伪类数据pi,而后利用第二损失函数进行迭代训练;
步骤8:将第一损失函数和第二损失函数进行加权联合训练,得到色情图像识别模型。
2.根据权利要求1所述的一种改进的深度学习色情图像识别方法,其特征在于:所述步骤1中图像尺寸的标准化操作采用下述公式实现:
Figure FDA0002701345730000022
其中,Wo为原始图像的宽,Ho为原始图像的高,Sf为原始图像比例压缩后最短边的尺寸大小,Wf为图像xi的宽,Hf为图像xi的高。
3.根据权利要求1所述的一种改进的深度学习色情图像识别方法,其特征在于:所述视觉注意力机制与深度一分类方法模型的深度一分类部分设置有解码部分和伪类构造与区分部分,解码部分的结构与所述特征提取网络在结构上形成深度自编码器网络,通过编码与解码的方式,使得数据表征网络学习到色情类图像的特征表示;伪类构造与区分部分,产生伪类并且通过边界决策网络进行分类区分,确定深度一分类模型的决策边界。
4.根据权利要求1~2任一项所述的一种改进的深度学习色情图像识别方法,其特征在于:所述通道注意力模型在进行输出特征图F中何种内容是有意义的计算时,采用下述公式:
MC(F)=σ(MLP(AvgPf(F))+MLP(MaxPf(F))) (5)
其中,AvgPf(·)和MaxPf(·)分别代表对输出特征图F进行全局平均池化和全局最大池化操作后的结果;MLP(·)表示具有隐藏层的多层感知器,其由两个感知机神经网络层组成,并且隐藏层中的激活函数为ReLU;σ(·)表示sigmoid函数。
5.根据权利要求1~2任一项所述的一种改进的深度学习色情图像识别方法,其特征在于:所述空间注意力模型在进行输出特征图F中有意义的位置信息计算时,采用下述公式:
MS(F)=σ(fk×k([AvgPc(F);MaxPc(F)])) (6)
其中,fk×k(·)表示卷积核大小为k×k的卷积操作;
Figure FDA0002701345730000031
Figure FDA0002701345730000032
表示对输入特征分别在通道维度上进行全局平均池化和全局最大池化。
6.根据权利要求1~2任一项所述的一种改进的深度学习色情图像识别方法,其特征在于:所述注意力机制特征图F″通过下述公式计算得到:
Figure FDA0002701345730000033
Figure FDA0002701345730000034
其中,
Figure FDA0002701345730000035
表示逐元素相乘。
7.根据权利要求1~2任一项所述的一种改进的深度学习色情图像识别方法,其特征在于:所述伪类数据pi通过下式得到:
Figure FDA0002701345730000036
其中,
Figure FDA0002701345730000037
为零中心的高斯噪声。
CN201911398435.5A 2019-12-30 2019-12-30 一种改进的深度学习色情图像识别方法 Active CN111199233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911398435.5A CN111199233B (zh) 2019-12-30 2019-12-30 一种改进的深度学习色情图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911398435.5A CN111199233B (zh) 2019-12-30 2019-12-30 一种改进的深度学习色情图像识别方法

Publications (2)

Publication Number Publication Date
CN111199233A CN111199233A (zh) 2020-05-26
CN111199233B true CN111199233B (zh) 2020-11-20

Family

ID=70746518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911398435.5A Active CN111199233B (zh) 2019-12-30 2019-12-30 一种改进的深度学习色情图像识别方法

Country Status (1)

Country Link
CN (1) CN111199233B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898645A (zh) * 2020-07-03 2020-11-06 贵州大学 基于注意力机制的可迁移的对抗样本攻击方法
CN112069884B (zh) * 2020-07-28 2024-03-12 中国传媒大学 一种暴力视频分类方法、系统和存储介质
CN111860393A (zh) * 2020-07-28 2020-10-30 浙江工业大学 一种安防系统上的人脸检测识别方法
CN112149684B (zh) * 2020-08-19 2024-06-07 北京豆牛网络科技有限公司 图像处理方法和用于目标检测的图像预处理方法
CN112598016A (zh) * 2020-09-17 2021-04-02 北京小米松果电子有限公司 图像分类方法及装置、通信设备及存储介质
CN112183544B (zh) * 2020-09-29 2024-09-13 厦门大学 一种融合双通道的三层架构数学公式识别方法、系统和存储设备
CN112287989B (zh) * 2020-10-20 2022-06-07 武汉大学 一种基于自注意力机制的航空影像地物分类方法
CN112613393B (zh) * 2020-12-18 2022-08-12 广西壮族自治区蚕业技术推广站 蚕病识别系统
CN112800871B (zh) * 2021-01-13 2022-08-26 南京邮电大学 一种基于注意力机制和关系网络的自动驾驶图像识别方法
CN113112536A (zh) * 2021-03-19 2021-07-13 北京达佳互联信息技术有限公司 图像处理模型训练方法、图像处理方法及装置
CN112801058B (zh) * 2021-04-06 2021-06-29 艾伯资讯(深圳)有限公司 Uml图片的识别方法及系统
CN113362307B (zh) * 2021-06-07 2023-03-28 哈尔滨理工大学 一种rgb-d图像显著性检测方法
CN113989096B (zh) * 2021-12-27 2022-04-12 山东大学 基于深度学习和注意力网络的鲁棒图像水印方法及系统
CN115546824B (zh) * 2022-04-18 2023-11-28 荣耀终端有限公司 禁忌图片识别方法、设备及存储介质
CN114742170B (zh) * 2022-04-22 2023-07-25 马上消费金融股份有限公司 对抗样本生成方法、模型训练方法、图像识别方法及装置
CN114612688B (zh) * 2022-05-16 2022-09-09 中国科学技术大学 对抗样本生成方法、模型训练方法、处理方法及电子设备
CN116223661B (zh) * 2023-01-04 2023-12-15 江苏福多美生物科技有限公司 测定大蒜废水中大蒜素含量的方法
CN115798055B (zh) * 2023-02-10 2023-04-28 四川大学 一种基于cornersort跟踪算法的暴力行为检测方法
CN116563615B (zh) * 2023-04-21 2023-11-07 南京讯思雅信息科技有限公司 基于改进多尺度注意力机制的不良图片分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000067204A2 (en) * 1999-05-03 2000-11-09 Pictuality, Inc. Image analysis process
KR20120126677A (ko) * 2011-05-12 2012-11-21 재단법인 서울호서직업전문학교 음란 이미지 자동 인식 방법, 장치 및 그 방법을 실행하기 위한 프로그램 기록매체
CN104992177A (zh) * 2015-06-12 2015-10-21 安徽大学 基于深层卷积神经网络的网络色情图像检测方法
CN109241951A (zh) * 2018-10-26 2019-01-18 北京陌上花科技有限公司 色情图片识别方法、识别模型构建方法及识别模型和计算机可读存储介质
CN110598029A (zh) * 2019-09-06 2019-12-20 西安电子科技大学 基于注意力转移机制的细粒度图像分类方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266664B1 (en) * 1997-10-01 2001-07-24 Rulespace, Inc. Method for scanning, analyzing and rating digital information content
US6751348B2 (en) * 2001-03-29 2004-06-15 Fotonation Holdings, Llc Automated detection of pornographic images
CN1323370C (zh) * 2004-05-28 2007-06-27 中国科学院计算技术研究所 一种色情图像检测方法
CN101447020B (zh) * 2008-12-12 2011-07-06 北京理工大学 基于直觉模糊的色情图像识别方法
CN104182735A (zh) * 2014-08-18 2014-12-03 厦门美图之家科技有限公司 训练优化的基于卷积神经网络的色情图像或视频检测方法
US9864912B2 (en) * 2016-03-30 2018-01-09 Nec Corporation Large margin high-order deep learning with auxiliary tasks for video-based anomaly detection
CN108154134B (zh) * 2018-01-11 2019-07-23 天格科技(杭州)有限公司 基于深度卷积神经网络的互联网直播色情图像检测方法
CN108491866B (zh) * 2018-03-06 2022-09-13 平安科技(深圳)有限公司 色情图片鉴定方法、电子装置及可读存储介质
CN110610129A (zh) * 2019-08-05 2019-12-24 华中科技大学 一种基于自注意力机制的深度学习人脸识别系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000067204A2 (en) * 1999-05-03 2000-11-09 Pictuality, Inc. Image analysis process
KR20120126677A (ko) * 2011-05-12 2012-11-21 재단법인 서울호서직업전문학교 음란 이미지 자동 인식 방법, 장치 및 그 방법을 실행하기 위한 프로그램 기록매체
CN104992177A (zh) * 2015-06-12 2015-10-21 安徽大学 基于深层卷积神经网络的网络色情图像检测方法
CN109241951A (zh) * 2018-10-26 2019-01-18 北京陌上花科技有限公司 色情图片识别方法、识别模型构建方法及识别模型和计算机可读存储介质
CN110598029A (zh) * 2019-09-06 2019-12-20 西安电子科技大学 基于注意力转移机制的细粒度图像分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Applying deep learning to classify pornographic images and videos;Mohamed Moustafa et al;《https://arxiv.org/pdf/1511.08899.pdf》;20181128;第1-10页 *
Multi-Scale Attention Deep Neural Network for Fast Accurate Object Detection;Kaiyou Song et al;《 IEEE Transactions on Circuits and Systems for Video Technology》;20191031;第29卷(第10期);第2972-2985页 *
基于深度学习和模型级联的色情图像检测算法;赵炜等;《信息安全研究》;20161031;第2卷(第10期);第903-908页 *
深度学习在网络色情图像识别中的研究与应用;杨雄;《佳木斯大学学报(自然科学版)》;20181130;第36卷(第6期);第902-905页 *

Also Published As

Publication number Publication date
CN111199233A (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
CN111199233B (zh) 一种改进的深度学习色情图像识别方法
CN111209952B (zh) 基于改进ssd和迁移学习的水下目标检测方法
CN111415316B (zh) 基于生成对抗网络的缺陷数据合成方法
CN112580590A (zh) 一种基于多语义特征融合网络的指静脉识别方法
CN113050042A (zh) 基于改进UNet3+网络的雷达信号调制类型识别方法
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN112052877B (zh) 一种基于级联增强网络的图片细粒度分类方法
CN109903339B (zh) 一种基于多维融合特征的视频群体人物定位检测方法
CN114998615B (zh) 一种基于深度学习的协同显著性检测方法
CN113361546A (zh) 融合非对称卷积和注意力机制的遥感图像特征提取方法
CN114677722A (zh) 一种融合多尺度特征的多监督人脸活体检测方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN115565056A (zh) 基于条件生成对抗网络的水下图像增强方法及系统
CN116012722A (zh) 一种遥感影像场景分类方法
CN112836637A (zh) 一种基于空间逆向注意网络的行人重识别方法
CN115457568A (zh) 一种基于生成对抗网络的历史文档图像降噪方法及系统
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN116385281A (zh) 一种基于真实噪声模型与生成对抗网络的遥感图像去噪方法
CN117292117A (zh) 一种基于注意力机制的小目标检测方法
CN113378620B (zh) 监控视频噪声环境下跨摄像头行人重识别方法
CN112926667B (zh) 深度融合边缘与高层特征的显著性目标检测方法及装置
CN113989256A (zh) 遥感图像建筑物的检测模型优化方法及检测方法、装置
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN116630964A (zh) 一种基于离散小波注意力网络的食品图像分割方法
CN116597142A (zh) 基于全卷积神经网络与变换器的卫星图像语义分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant