CN111199233B

CN111199233B - 一种改进的深度学习色情图像识别方法

Info

Publication number: CN111199233B
Application number: CN201911398435.5A
Authority: CN
Inventors: 梁刚; 陈俊任; 许春; 杨进; 陈诚
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-11-20
Anticipated expiration: 2039-12-30
Also published as: CN111199233A

Abstract

本发明公开了一种改进的深度学习色情图像识别方法，获取每个原始图像的尺度信息，将每个原始图像的最短边固定为统一的尺寸大小，另外一边按原始图像的比例进行缩放，得出图像标准化后的图像；提取图像的紧凑表示；并在此基础上添加高斯噪声攻击得到输出向量，对其进行训练并得到输出特征图，而后依次通过通道注意力模型和空间注意力模型，输出具有注意力机制的注意力机制特征图，而后输入到特征空间组合网络内进行卷积操作，输出特征向量；在其基础上，通过解码网络形成数据，结合输入对该部分进行优化；在输出特征向量的基础上，添加零中心的高斯噪声产生伪类数据，然后将第一损失函数和第二损失函数进行加权联合训练，得到色情图像识别模型。

Description

一种改进的深度学习色情图像识别方法

技术领域

本发明涉及图像识别技术、深度学习技术等领域，具体的说，是一种改进的深度学习色情图像识别方法。

背景技术

随着网络的普及与广泛应用，网络中的色情图片与色情视频的数量在网络中呈指数级增长。相关研究表明：互联网色情内容的增长与性犯罪上升有关，例如性虐待、家庭暴力等。互联网色情正越来越多地影响着人们的正常生活，尤其处于青春发育期的青少年。网络色情泛滥的问题导致了许多社会问题和道德问题，因此，识别或检测互联网色情内容对于互联网资源和文化的健康发展具有重要意义。如何检测和识别网络色情一直是网络信息安全领域广泛关注的问题之一。

现有的网络色情图片识别方法可以归纳为四类：

1)黑名单技术

黑名单技术是当前色情图像识别中应用最为广泛与简单的技术，如果在一个URL所指向的网页中发现有色情信息，该技术就将该URL地址添加到黑名单中，当用户访问该URL时系统给出提醒甚至阻止用户访问。该方法优点是简单、准确。缺点是URL库中的URL依赖于人工识别，且系统的效率随着黑名单中URL地址的增加线性下降，此外，URL的更新使得维护黑名单的开销增大；

2)基于人体肤色识别的方法

基于人体肤色识别的方法因其直观性而较早得到研究者的关注。原因在于色情图片中的人物会有大量的皮肤裸露，因此该类方法通过识别图像中人物中的皮肤的比例来检测图像或视频是否为色情信息。这类方法的优点在于简单、易实现与可解释性强。但该类方法对包括大量皮肤色的正常图片缺乏必要的考虑，比如：人类体育运动照片(沙滩排球、举重、健美，跳水，游泳)、婴儿照片、面部特写照片，导致该类方法在上述情景的检测误报率非常高；

3)基于推理的浅度机器学习方法

基于推理的浅度机器学习方法将色情图片鉴别看作是有监督学习中的分类问题，系统设计师通过特征工程从图片中提取特征向量用来表征图片，然后利用训练好的分类器对图片是否为色情信息进行甄别，这种方法的优点是可解释性高，特征明显的图片检测准确率高。缺点是检测方法中的特征提取与选择受限于工程师的经验与知识背景，模型训练代价大，自适应性差，当色情图片的摄影条件与特征发生明显改变，该类方法的检测率迅速下降；

4)基于结构的深度学习的方法

5)基于结构的深度学习方法利用神经网络的优秀的特征提取能力来挖掘色情图像的深层特征。一般来说，这类方法在性能上优于上述两类方法(基于人体肤色识别的方法、基于推理的的浅度机器学习方法)。互联网上图像内容和规模的多样性使得识别图像内容变得困难，迫切需要一种技术能自动且有效地提取图片中的特征。而基于结构的深度学习的方法就能够充分利用数据，自动地提取低维到高维的图像特征。虽然这类方法往往表现出依赖大量数据集，且模型较为复杂，容易过拟合。但是相比前两个方法(基于人体肤色识别的方法、基于推理的浅度机器学习方法)，其识别结果更为让人信服，且具有很强的普适性，在面对大量数据集会有很好的表现效果。

上述方法在一定程度上成功抑制了互联网中色情图片泛滥的问题，但是现有方法仍然存在以下几点不足：

1、现有方法将色情图片识别问题看作是有监督学习的二分类问题，因此训练数据集的标注需要耗费大量的人力与物力。另外，现有方法对色情图像中的负类样本(正常图片)分布不均衡和无穷样本问题(正常图片的千差万别，种类繁多，如猫的图片和汽车的图片)缺乏必要的考虑，导致训练出的模型存在较为严重的分类偏倚问题。

2、现有色情图像识别方法缺乏对图像缩放造成的几何失真的考虑而缺少必要的应对措施。在现有色情识别方法中需要固定输入图片的尺寸(例如，224×224)。这种操作可能改变了图像的原始比例，从而导致色情图像的内容出现几何变形。由图像尺寸缩放引起的几何变形可以在一定程度上会影响色情图片识别的准确性。例如，经过图像缩放后，一个胖男人的胸部在视觉上变得类似于女性的乳房。这种图像的几何失真将会减少色情图像识别的准确性。

3、现有的色情图像识别方法缺乏对抗样本攻击的防御措施。当色情图像加上人类无法观察到的微妙扰动的微型数据扰动时，色情图片性质没有改变。但是现有识别方法将无法识别它们。例如，一个简单的例子是，在添加了不可察觉的噪声后，神经网络将熊猫图片分类为长臂猿。

发明内容

本发明的目的在于提供一种改进的深度学习色情图像识别方法，通过尺度约束池化(SCP)、图像压缩重组预处理(PreCR)和结合视觉注意力机制的深度一分类(DOCAPorn)技术实现色情图像的准确识别。

本发明通过下述技术方案实现：一种改进的深度学习色情图像识别方法，包括下述步骤：

步骤1：图像尺寸的标准化操作：获取每个原始图像的尺度信息(W_o,H_o)，将每个原始图像的最短边固定为统一的尺寸大小S_f，另外一边按原始图像的比例进行缩放，得出重塑后尺度为(W_f，H_f)的图像x_i；

步骤2：在图像x_i的基础上，从图像压缩部分，通过深度压缩网络的卷积操作并且不断压缩特征图来提取图像x_i的紧凑表示PreC(θ_c；x_i)；

步骤3：在图像x_i的紧凑表示PreC(θ_c；x_i)的基础上添加高斯噪声攻击

得到输出向量z_i，利用输出向量z_i进行训练并得到输出特征图F；具体为：在图像x_i的紧凑表示PreC(θ_c；x_i)的基础上添加高斯噪声攻击

得到输出向量z_i，利用输出向量z_i作为图像重组部分的输入进行训练，在训练时，通过深度重组网络的反卷积操作尽可能地重组干净的图像特征向量

以提高重建质量，并进一步增强抵御对抗样本的能力；当图像重组部分通过深度重组网络的反卷积操作尽可能地重组干净的图像特征向量

后，将干净的图像特征向量

作为结合视觉注意力机制与深度一分类方法模型的输入，通过数据表征网络的特征提取部分后的输出特征图F；

步骤4：将输出特征图F依次通过通道注意力模型和空间注意力模型，输出具有注意力机制的注意力机制特征图F″；

步骤5：将注意力机制特征图F″输入到特征空间组合网络内进行卷积操作，输出特征向量v_i；即，经过步骤1～步骤4后，注意力机制特征图F″的尺度信息变为(W_L，H_L)，而后输入到数据表征网络的特征组合部分进行卷积操作，由于该神经网络(数据表征网络)的全连接层特征维度数的原因，经过神经网络(数据表征网络)卷积操作后，输入到特征空间组合网络的全连接层的注意力机制特征图F″的尺度信息由(W_L，H_L)变为(w，h)(即通过尺度约束池化中自适应地划分操作，从而实现尺度由(W_L，H_L)到(w，h)的变换)，而后从特征空间组合网络的全连接层输出后，注意力机制特征图F″的当前的输出向量变为v_i；在经过之前卷积神经网络(数据表征网络、特征空间组合网络)一系列的卷积等操作后，步骤1中重塑后的尺度为(W_f，H_f)的图像通过数据表征网络的特征提取部分形成的特征图F″的尺度信息为(W_L，H_L)。并且根据特征空间组合网络中全连接层所需的特征维度数设置输入到特征空间组合网络的特征图的尺度大小为(w，h)。通过尺度约束池化中自适应地划分操作，从而实现尺度由(W_L，H_L)到(w，h)的变换。通过特征空间组合网络后，特征图输出为特征向量v_i；

步骤6：利用数据表征网络提取特征的卷积过程进行输出特征向量v_i的反卷积操作，形成数据

并结合干净的图像特征向量

通过第一损失函数迭代训练对该数据表征网络部分进行优化；所述第一损失函数为：

数据表征网络为，使用自编码器技术，根据输入干净的图像特征向量

到特征向量v_i训练得到；即使用自编码器技术，根据输入干净的图像特征向量

到特征向量v_i训练得到数据表征网络，在此基础上，利用数据表征网络提取特征的卷积过程进行反卷积操作，形成数据

结合输入干净的图像特征向量

通过迭代训练减小两者之间的差异来对该部分进行优化，在进行优化时，优化目标(即第一损失函数)如下所示：

通过神经网络的反向传播和梯度更新策略，该优化目标

能够使得数据表征网络学习到色情类图像的特征表示；

步骤7：在输出特征向量v_i的基础上，添加零中心的高斯噪声

产生伪类数据p_i，而后利用第二损失函数进行迭代训练；即在输出特征向量v_i的基础上，添加零中心的高斯噪声

产生伪类数据p_i，进一步的为了加强神经网络模型学习色情图像的表示，确定深度一分类模型的决策边界，通过区分伪类与色情类图像来进行迭代训练。在进行迭代训练时，训练的优化目标(即第二损失函数)如下所示：

其中y_j＝{0，1}，p_j∈[0，1]；y_j＝1表示分类器判断特征向量的结果被归类为目标数据，否则(y_j＝0)为伪负数据；p_j和1-p_j分别表示y_j＝1和y_j＝0的既率；

步骤8：将第一损失函数和第二损失函数进行加权联合训练，得到色情图像识别模型。即将步骤6中迭代训练减小

和

之间的差异这一优化目标

和步骤7中迭代训练区分伪类与色情类图像这一优化目标

进行加权联合训练。在进行加权联合训练时，通过下述公式联合：

其中，λ和μ都是常系数，并且为了化简该优化目标，都将其设置为1.00。通过神经网络的反向传播和梯度更新策略，最终训练出本发明提出的色情图像识别模型。

进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤1中图像尺寸的标准化操作采用下述公式实现：

其中，W_o为原始图像的宽，H_o为原始图像的高，S_f为原始图像比例压缩后最短边的尺寸大小，W_f为重塑后图像x_i的宽，H_f为重塑后图像x_i的高。

进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤2在进行提取图像x_i的紧凑表示PreC(θ_c；x_i)时，采用深度压缩网络进行卷积操作实现。

进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤3中，在重塑图像x_i的紧凑表示PreC(θ_c；x_i)的基础上添加高斯噪声攻击

得到输出向量z_i通过下述公式实现：

z_i＝PreC(θ_c；x_i)+n(α，β) (3)

其中，PreC(·)表示通过图像压缩部分的输出，x_i∈X，并且θ_c表示图像压缩部分学习到的参数，

表示均值和方差分别为α和β的高斯噪声。

进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤3中，输出向量z_i进行训练得到输出特征图F时：将输出向量z_i输入到深度重组网络内进行反卷积操作，得到干净的图像特征向量

后，将干净的图像特征向量

作为结合视觉注意力机制与深度一分类方法模型的输入，通过结合视觉注意力机制与深度一分类方法模型的特征提取网络后得到输出特征图F。

进一步的为更好地实现本发明，特别采用下述设置方式：所述视觉注意力机制与深度一分类方法模型的深度一分类部分设置有解码部分和伪类构造与区分部分，解码部分的结构与所述特征提取网络在结构上形成深度自编码器网络，通过编码与解码的方式，使得数据表征网络学习到色情类图像的特征表示；伪类构造与区分部分，产生伪类并且通过边界决策网络进行分类区分，避免使用其他负类数据，同时加强神经网络模型学习色情图像的表示，确定深度一分类模型的决策边界；伪类数据p_i在当前的输出特征向量v_i的基础上，通过添加零中心的高斯噪声

形成的，即伪类数据p_i通过下式计算得到：

其中，

为零中心的高斯噪声。

进一步的为更好地实现本发明，特别采用下述设置方式：所述通道注意力模型在进行输出特征图F中何种内容是有意义的计算时，采用下述公式：

M_C(F)＝σ(MLP(AvgP_f(F))+MLP(MaxP_f(F))) (5)

其中，AvgP_f(·)和MaxP_f(·)分别代表对输出特征图F进行全局平均池化和全局最大池化操作后的结果；MLP(·)表示具有隐藏层的多层感知器，其由两个感知机神经网络层组成，并且隐藏层中的激活函数为ReLU；σ(·)表示sigmoid函数。

进一步的为更好地实现本发明，特别采用下述设置方式：所述空间注意力模型在进行输出特征图F中有意义的位置信息计算时，采用下述公式：

M_S(F)＝σ(f^k×k([AvgP_c(F)；MaxP_c(F)])) (6)

其中，f^k×k(·)表示卷积核大小为k×k的卷积操作；

和

表示对输入特征分别在通道维度上进行全局平均池化和全局最大池化。

进一步的为更好地实现本发明，特别采用下述设置方式：所述注意力机制特征图F″通过下述公式计算得到：

其中，

表示逐元素相乘。

本发明与现有技术相比，具有以下优点及有益效果：

(1)本发明提出了结合视觉注意力机制与深度一分类方法来识别色情图像。该方法能够对色情图像这单一的目标类进行训练，在不使用其他类的情况下，有效避免了无穷负样本问题。此外，由于一分类方法更注重目标对象的识别，因此，该方法引入了视觉注意力机制，通过对色情图像中的色情信息及其位置的注意力，使神经网络能够专注于对目标对象特征的提取，在一定程度上能够减少色情图像背景的干扰，忽略一些不相关的信息，从而提高深度一分类色情图像识别的准确率。

(2)本发明提出了一种尺度约束池化模型，该尺度约束池化模型作用在全连接层的前面，通过获取之前对图像的卷积操作而输出的特征图的宽高尺度，并且根据全连接层的特征维度，自适应地将不同尺度的特征图约束为相尺度。如此便能允许输入不同尺度的图像，从而保留图像内容中的原始比例信息。此外，为了处理不同尺度差异过大而导致过度的下采样而产生关键信息丢失的问题，该模型将不同尺度的图像进行了约束，即将每个输入原始图像的最短边固定为统一的大小。

(3)本发明提出了一种图像压缩重组的预处理方法。受图像局部结构中相邻像素之间强烈的相似性和相关性的启发，图像压缩可以在减少冗余和扰动信息的同时，保留图像的主体信息。因此，该方法在图像预处理阶段分为压缩和重组两部分。在预处理的图像压缩部分，通过卷积神经网络提取的压缩表示来保留原始图像的主体信息；在预处理的图像重组部分，通过反卷积神经网络重建干净的原始图像。此外，为了进一步提高重建干净原始图像的质量，在图像压缩部分提取的压缩表示的特征基础上，添加高斯噪声来进行训练，从而进一步增强防御对抗样本攻击的能力。

附图说明

图1为本发明的整体模型(色情图像识别模型)架构图。

图2为尺度约束池化的案例图。

图3为视觉注意力模型图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

实施例1：

本发明设计出一种改进的深度学习色情图像识别方法，通过尺度约束池化(SCP)、图像压缩重组预处理(PreCR)和结合视觉注意力机制的深度一分类(DOCAPorn)技术实现色情图像的准确识别，特别采用下述设置方式：包括下述步骤：

步骤1：图像的尺度的标准化操作：获取每个原始图像的尺度信息(W_o，H_o)，将每个原始图像的最短边固定为统一的尺寸大小S_f，另外一边按原始图像的比例进行缩放，得出重塑后尺度为(W_f，H_f)的图像x_i；

所述步骤1图像尺度的标准化操作采用下述公式实现：

其中，W_o为原始图像的宽，H_o为原始图像的高，S_f为原始图像比例压缩后最短边的尺寸大小，W_f为重塑后图像的宽，H_f为重塑后图像的高。

后，将干净的图像特征向量

作为结合视觉注意力机制与深度一分类方法模型的输入，通过特征提取网络后的输出特征图F；

步骤5：将注意力机制特征图F″输入到特征空间组合网络内进行卷积操作，输出特征向量v_i；即，经过步骤1～步骤4后，注意力机制特征图F″的尺度信息变为(W_L，H_L)，而后输入到数据表征网络的特征组合部分进行卷积操作，由于该神经网络(数据表征网络)的全连接层特征维度数的原因，经过神经网络(数据表征网络)卷积操作后，输入到特征空间组合网络的全连接层的注意力机制特征图F″的尺度信息由(W_L，H_L)变为(w，h)(即通过尺度约束池化中自适应地划分操作，从而实现尺度由(W_L，H_L)到(w，h)的变换)，而后从特征空间组合网络的全连接层输出后，注意力机制特征图F″的当前的输出向量变为v_i；在经过之前神经网络(数据表征网络、特征空间组合网络)一系列的卷积等操作后，步骤1中重塑后的尺度为(W_f，H_f)的图像通过数据表征网络的特征提取部分形成的特征图F″的尺度信息为(W_L，H_L)。并且根据特征空间组合网络中全连接层所需的特征维度数设置输入到特征空间组合网络的特征图的尺度大小为(w，h)。通过尺度约束池化中自适应地划分操作，从而实现尺度由(W_L，H_L)到(w，h)的变换。通过特征空间组合网络后，特征图输出为特征向量v_i；

并结合干净的图像特征向量

通过第一损失函数迭代训练对该数据表征网络部分(图1中子网络E到子网络G部分)进行优化；所述第一损失函数为：

结合输入干净的图像特征向量

通过神经网络的反向传播和梯度更新策略，该优化目标

能够使得数据表征网络学习到色情类图像的特征表示；

步骤7：在输出特征向量v_i的基础上，添加零中心的高斯噪声

步骤8将第一损失函数和第二损失函数进行加权联合训练，得到色情图像识别模型。即将步骤6中迭代训练减小

和

之间的差异这一优化目标

和步骤7中迭代训练区分伪类与色情类图像这一优化目标

实施例2：

本实施例是在上述实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤3中，在重塑图像x_i的紧凑表示PreC(θ_c；x_i)的基础上添加高斯噪声攻击

得到输出向量z_i通过下述公式实现：

z_i＝PreC(θ_c；x_i)+n(α，β) (3)

表示均值和方差分别为α和β的高斯噪声。

所述步骤3中，输出向量z_i进行训练得到输出特征图F时：将输出向量z_i输入到深度重组网络内进行反卷积操作，得到干净的图像特征向量

后，将干净的图像特征向量

所述视觉注意力机制与深度一分类方法模型的深度一分类部分设置有解码部分和伪类构造与区分部分，解码部分的结构与所述特征提取网络在结构上形成深度自编码器网络，通过编码与解码的方式，使得数据表征网络学习到色情类图像的特征表示；伪类构造与区分部分，产生伪类并且通过神经网络进行分类区分，避免使用其他负类数据，同时加强神经网络模型学习色情图像的表示，确定深度一分类模型的决策边界；伪类数据p_i在当前的输出特征向量v_i的基础上，通过添加零中心的高斯噪声

形成的，即伪类数据p_i通过下式计算得到：

其中，

为零中心的高斯噪声。

实施例4：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：所述通道注意力模型在进行输出特征图F中何种内容是有意义的计算时，采用下述公式：

M_C(F)＝σ(MLP(AvgP_f(F))+MLP(MaxP_f(F))) (5)

所述空间注意力模型在进行输出特征图F中有意义的位置信息计算时，采用下述公式：

M_S(F)＝σ(f^k×k([AvgP_c(F)；MaxP_c(F)])) (6)

其中，f^k×k(·)表示卷积核大小为k×k的卷积操作；

和

实施例5：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：所述注意力机制特征图F″通过下述公式计算得到：

其中，

表示逐元素相乘。

实施例6：

本实施例是在上述任一实施例的基础上进一步优化，由于现有色情图片识别方法将色情图片识别问题看作是有监督学习的二分类问题，因此训练数据集的标注需要耗费大量的人力与物力。另外，现有方法对色情图像中的负类样本(正常图片)分布不均衡和无穷样本问题(正常图片的千差万别，种类繁多，如猫的图片和汽车的图片)缺乏必要的考虑，导致训练出的模型存在较为严重的分类偏倚问题。针对该问题，发明人发现在真实的互联网环境中，正常类别的图像种类千差万别，很难收集所有的正常类别的样本。相关研究通常使用公开图像数据集ImageNet作为色情图像识别的负类样本集。该图像数据集起始于2009年，由斯坦福大学计算机科学系的李飞飞教授组织。是目前世界上图像识别领域最大的数据库。至今，其涵盖了大约两千多个类别的正常图像。但是，在真实的互联网环境中，正常类的图像远远不止两千多个种类。因此，对于色情图像识别的负类样本集中涵盖的种类往往是难以全覆盖的。为了避免该问题，本发明提出的结合视觉注意力机制与深度一分类方法，在仅使用色情图像类的情况下，仍然能够取得较高的准确率。

现有的色情图像识别方法通常要求输入图像的尺寸是固定的(例如，224×224)，因此现有的方法需要对图像进行缩放。这项要求改变了图像的原始比例，这可能会导致色情图像中的内容出现几何变形。由图像尺寸缩放引起的几何变形可以在一定程度上会影响色情图片识别的准确性。针对该类问题，发明人发现，现有的色情图像识别方法通常将输入图像进行缩放，使得其尺寸是固定的。这是由于神经网络的全连接层需要统一的特征维度作为输入。然而，图像的缩放通常会导致其内容产生几何形变。为了克服这一问题，本发明提出了尺度约束池化模型。在卷积神经网络的相关研究中，池化层是一种下采样技术，并且其池化窗口的尺寸通常是固定的。本发明则是在普通池化层的基础上进行改进，结合输入特征图的宽高尺度和全连接层所需的固定特征维度数量，提出的一种特殊的池化操作。该模型能够将具有不同尺寸的输入图像约束到相同尺度的特征图。从而提高了色情图像识别模型的准确率。

现有的色情图像识别方法缺乏对抗样本攻击的防御措施。攻击者特意向色情图像中添加人眼难以察觉的细微扰动，并且这些图像仍然呈现出色情信息。由于对计算机而言，图像的本质是数字矩阵，所以攻击者特意对其添加的扰动将会破坏数字矩阵的信息，这种攻击方式将会错误地引导现有的图像识别方法。从而导致现有的色情图像识别方法检测失效。针对该类问题，发明人发现当前现有的色情图像识别的相关研究缺乏对抗样本攻击的防御措施。本发明提出了一种图像压缩重组的预处理方法，弥补了色情图像识别领域中防御对抗样本研究的空白。该方法能够有效地防御当前常用的图像对抗样本攻击。

为解决上述三类问题，发明人提出与设计了一种结合视觉注意力机制与深度一分类模型的色情图像识别技术，包含三个部分：尺度约束池化(SCP)，图像压缩重组预处理(PreCR)和结合视觉注意力机制的深度一分类(DOCAPorn)。其中，尺度约束池化用于将不同尺度的图像通过神经网络的卷积操作后输出的特征图约束为相同的尺度；图像压缩重组预处理用于重建干净的原始图像；结合视觉注意力机制的深度一分类实现仅通过色情图像数据集来进行训练。色情图像识别模型如图1所示。首先，原始图像固定最短边为统一的大小，其另一边则根据原始图像的宽高尺寸比例自适应缩放。之后，通过提出的图像压缩重组的预处理方法，在原始图像的基础上重建出干净的图像。最后，将预处理后的图像作为输入，通过结合视觉注意力机制的深度一分类的神经网络模型进行识别。并且在结合视觉注意力机制的深度一分类的神经网络模型中的特征融合子网络(即在全连接层前插入尺度约束池化模型)。

基于一种结合视觉注意力机制与深度一分类模型的色情图像识别技术的基础上而设计的一种改进的深度学习色情图像识别方法，其中，尺度约束池化(SCP)的本质是池化操作，能够自适应地将不同的原始图像(特征图)约束到相同的尺度。假设原始图像的尺寸大小为(W_o,H_o)，为了处理图像不同尺度差异过大而导致过度的下采样而产生关键信息丢失的问题，该尺度约束池化模型将不同尺度的图像进行了约束。因此，图像的尺寸大小需要进行重塑，其定义如下：

定义1每个输入图像的最短边需要固定为统一的大小，而另外一边将按照原始图像的比例进行缩放，以此来防止关键信息的丢失，图像尺度的约束可经下式计算得到：

其中S_f表示原始图像最短边经过按比例缩放后的一个统一固定的尺度大小。并且经过计算得出，图像的尺寸大小(W_o，H_o)被重塑为(W_f，H_f)。

重塑尺寸后的图像确保了其内容不会产生几何形变。并且将之作为图像压缩部分的深度压缩网络的输入。每一层卷积神经网络为了提取特征都会进行卷积操作，每次卷积操作后，产生的特征图的尺度定义如下：

定义2每一次卷积操作将会改变每层卷积神经网络的特征图的尺度大小，根据不同的宽高尺度信息可经下式计算得到：

其中，W_l和H_l分别是卷积神经网络第l层的宽和高，F_l和P_l分别是当前卷积层的卷积核大小和填充大小，S_l则是当前层的卷积步长。

定义3重塑后的输入的图像x_i通过不同的卷积层以及一系列的卷积操作后，输出的特征图的宽高尺度可表示为如下：

(W_L，H_L)＝Φ(W_f，H_f) (11)

其中，

表示重塑尺度后的图像与全连接层前的输出的映射函数。其是通过公式(9)和公式(10)不断地计算获取的。

对于不同尺度的输入图像，其对应的(W_L，H_L)是不同的。本发明提出的尺度约束池化的目的是将特征图下采样为统一的(w，h)尺度的特征图，其特征图的网格划分定义如下：

定义4通过一系列卷积神经网络(数据表征网络、特征空间组合网络)层后，根据不同的尺度图像输出的大小为(W_L，H_L)的特征图，为了最终约束为(w，h)的特征图，其划分可经下式计算得到：

其中，g_w和g′_w分别表示一行中前(w-1)个子窗口大小和最后一个子窗口大小。g_h和g′_h则分别表示一列中前(h-1)个子窗口大小和最后一个子窗口大小。如图2所示，当(W_L，H_L)＝(7，5)并且(w，h)＝(2，2)时，尺度约束池化的操作过程。

综上，尺度约束池化模型包含以下2个步骤：

步骤A：获取每个输入原始图像的尺度信息(W_o，H_o)，并且将每个原始图像的最短边固定为统一的尺寸大小S_f，另外一边按原始图像的比例进行缩放，得出标准化后的重塑后的尺度为(W_f，H_f)的图像x_i；

步骤B：尺度重塑后的图像x_i通过卷积神经网络(数据表征网络、特征空间组合网络)一系列的卷积操作，输出尺度为(W_L，H_L)的特征图，并且根据全连接层所需的特征维度数设置输入到全连接层的特征图的尺度大小为(w，h)。通过尺度约束池化中根据公式(12)与公式(13)自适应地划分操作，从而实现尺度由(W_L，H_L)到(w，h)的变换。

即，经过步骤1～步骤4后，注意力机制特征图F″的尺度信息变为(W_L，H_L)，而后输入到数据表征网络的特征组合部分进行卷积操作，由于该神经网络(数据表征网络)的全连接层特征维度数的原因，经过神经网络(数据表征网络)卷积操作后，输入到特征空间组合网络全连接层的注意力机制特征图F″的尺度信息由(W_L，H_L)变为(w，h)(即通过尺度约束池化中自适应地划分操作，从而实现尺度由(W_L，H_L)到(w，h)的变换)。

通过本发明提出的尺度约束池化(SCP)，可以保留任意尺度图像中内容的比例信息，从而克服了因缩放导致的几何形变问题。

在本发明提出的压缩重组预处理方法中(PreCR)，可分为两个阶段：图像压缩阶段(PreC)和图像重组阶段(PreR)。假设输入的数据集为x＝{x₁，x₂，…，x_n}，则通过压缩重组预处理后的输出的干净数据则为

在图像压缩部分，由于像局部结构中相邻像素之间具有很强的相似性和相关性，因此，图像压缩可以在减少冗余和扰动信息的同时，保留图像的主体信息。这部分神经网络框架是完全卷积的，卷积操作能够充分地提取图像的主体特征信息。该部分由11个卷积层组成，其中，卷积核大小为3×3，并且采用ReLU作为激活函数。前6个卷积层的作用是对输入的原始图像x_i进行特征抽取，并且产生输出通道为512的特征图。第一层的输入通道和输出通道分别为3和16。之后到第六层，输出通道依次为：32，64，128，256，512。剩下的5个卷积层用于提取输入的图像x_i的紧凑表示PreC(θ_c；x_i)。第七层的输入通道和输出通道分别为512和256。之后输出通道依次为：128，64，32，12。当标准化后的重塑图像x_i通过图像压缩部分后，图像的主体特征信息被获取。此外，研究表明，重建干净图像中的非二值化映射的增量信息实际上是噪声。因此，当在二值化映射上添加高斯噪声时，可以重建出更好的图像。为了进一步提高重建干净的图像

的质量，在图像压缩部分提取的压缩表示的特征基础上，应用随机高斯噪声攻击。其定义如下：

定义5为了实现防御对抗样本攻击的目的，在压缩表示的特征基础上添加随机高斯噪声来进行攻击：

z_i＝PreC(θ_c；x_i)+n(α，β) (3)

其中，PreC(·)表示通过图像压缩部分的输出，x_i∈X，并且θ_c表示图像压缩部分学习到的参数。

表示均值和方差分别为α和β的高斯噪声。实验表明α＝0，β＝20.00处的效果最好。

在图像重组阶段，这部分的框架是反卷积神经网络。反卷积层前向传播的过程就是卷积层的反向传播过程，其目的就是为了根据图像压缩部分的输出数据来重建干净的图像。在图像重组部分的神经网络结构中，输出的通道与图像压缩阶段相对应，分别为：32，64，128，256，512，256，128，64，32，16，和3。最终由原始图像得到重建的干净图像

在整个图像压缩重组预处理阶段，两个部分的权重是同时进行学习的，以此来达到端到端训练的目的。其定义如下：

定义6最小化图像标准化后的重塑图像x_i和经过图像压缩重组后的干净图像

之间的均方误差作为端到端的学习准则：

其中，PreR(·)表示通过图像重组部分的输出，并且(θ_c，θ_r)表示图像压缩部分和图像重组部分一起学习到的参数。

综上，图像压缩重组预处理方法包含如下3个步骤：

步骤1)：图像压缩部分通过深度压缩网络中的卷积操作提取图像x_i的紧凑表示PreC(θ_c；x_i)；

步骤2)：在图像x_i的紧凑表示PreC(θ_c；x_i)的基础上添加随机高斯噪声攻击

得到输出向量z_i；

步骤3)：图像重组部分通过深度重组网络中的反卷积操作尽可能地重组干净的图像

通过本发明提出的图像压缩重组预处理方法(PreCR)，可以将被对抗样本攻击的图像重建为干净的图像，以此来实现防御对抗样本攻击的目的。

在本发明提出的结合视觉注意力机制的深度一分类方法(DOCAPorn)中，引入了视觉注意力机制，神经网络能够专注于对目标对象特征的提取，在一定程度上能够减少色情图像背景的干扰，忽略一些不相关的信息，从而提高色情图像识别的准确率。并且在全连接层之前插入了尺度约束池化，允许输入图像保留各自的比例信息，这防止了图像缩放导致的几何形变。此外，利用色情图像这一目标对象构建了伪负类数据集，来加强深度一分类神经网络模型学习色情图像的表示。

在视觉注意力机制中，如图3所示，可分为两个部分：通道注意力

和空间注意力

其中，通道注意力是利用特征的通道间关系，生成的通道注意图。在卷积神经网络中，每个特征图的各个通道被考虑作为特征探测器，而通道注意的功能就是聚焦于输入的图像中何种内容是有意义的信息。在本发明的通道注意力机制中，特征映射的空间信息通过对当前的输出特征图F使用全局平均池化和全局最大池化操作来聚合。

其定义如下：

定义7通道注意力表达出输出特征图F中何种内容是是有意义的信息，其可通过下式计算得到：

M_C(F)＝σ(MLP(AvgP_f(F))+MLP(MaxP_f(F))) (5)

其中，AvgP_f(·)和MaxP_f(·)分别代表对输出特征图F进行全局平均池化和全局最大池化操作后的结果。MLP(·)表示具有隐藏层的多层感知器。其由两个感知机神经网络层组成，并且隐藏层中的激活函数为ReLU。此外，σ(·)表示sigmoid函数。

在本发明中的空间注意力机制，是利用特征之间存在的空间关系，生成空间注意图。与本发明中通道注意力不同的是，空间注意力的功能是聚焦内容处于图像中的何处位置，这对通道注意力的信息进行了补充。在本发明的空间注意力机制中，使用全局平均池化和全局最大池化操作来聚合功能映射的通道信息。然后，将这两个映射通过使用一个包含单个卷积核的隐藏层对其进行卷积操作来进行结合，产生空间注意图。其定义如下：

定义8空间注意力表达出输出特征图F中有意义内容的位置信息，其可通过下式计算得到：

M_S(F)＝σ(f^k×k([AvgP_c(F)；MaxP_c(F)])) (6)

其中，f^k×k(·)表示卷积核大小为k×k的卷积操作。实验表明，k＝7的效果最好。

和

在本发明中的注意力机制中，假设当前的输出特征图为F。则经过视觉注意力模型后的输出定义如下：

定义9在视觉注意力机制中，输出特征图F依次串行通过了通道注意力和空间注意力，其可通过下式计算得到：

其中，

表示逐元素相乘。

在深度一分类部分中，通过神经网络一系列卷积等操作提取到特征后，存在两个分支部分：解码部分和伪类构造与区分部分。解码部分的结构与之前特征提取网络在结构上形成深度自编码器网络，通过编码与解码的方式，使得神经网络学习到色情类图像的特征表示。训练解码部分的数据表征网络的优化目标是为了减小解码器产生的数据

与输入数据

之间的差异，因此该部分的优化目标定义如下：

定义10解码部分的优化目标是根据解码器产生的数据

与输入数据

通过下式计算：

在伪类构造与区分部分，本发明利用与当前特征向量相同维度的零中心的高斯噪声

来构造伪类数据。其定义如下：

定义11伪类是在当前特征向量v_i的基础上，通过添加零中心的高斯噪声

形成的，通过下式计算：

p_i＝v_i+N (4)

构造伪类数据的目的是为了避免使用其他负类数据，同时加强神经网络模型学习色情图像的表示，确定深度一分类模型的决策边界。为了对深度一分类模型的决策边界进行约束，伪类区分部分的优化目标定义如下：

定义12伪类构造与区分部分的优化目标是通过最小化伪类数据与色情类数据之间二元交叉熵进行计算：

其中y_j＝{0，1}，p_j∈[0，1]。并且y_j＝1表示分类器判断特征向量的结果被归类为目标数据，否则(y_j＝0)为伪负数据。此外，p_j和1-p_j分别表示y_j＝1和y_j＝0的概率。

综上，在深度一分类部分中的整体优化目标定义如下：

定义13伪类构造与区分部分的整体优化目标通过结合

和

其可通过下式计算得到：

其中，λ和μ都是常系数，并且为了化简该优化目标，都将其设置为1.00。

综上，结合视觉注意力机制的深度一分类方法包含如下4个步骤：

步骤(1)：图像压缩重组预处理后的干净的图像特征向量

作为输入，依次通过数据表征网络中的特征提取卷积神经网络模型，视觉注意力模型和尺度约束池化模型，经过特征空间组合网络中的全连接层操作输出特征向量v_i；

步骤(2)：在输出特征向量v_i的基础上，使用自编码器技术，根据输入干净的图像特征向量

结合输入干净的图像特征向量

通过神经网络的反向传播和梯度更新策略，该优化目标

能够使得神经网络学习到色情类图像的特征表示；

步骤(3)：在输出特征向量v_i的基础上，添加零中心的高斯噪声

产生伪类数据p_i。并且为了加强神经网络模型学习色情图像的表示，确定深度一分类模型的决策边界，通过区分伪类与色情类图像来进行迭代训练。训练的优化目标(即第二损失函数)如下所示：

其中y_j＝{0，1}，p_j∈[0，1]。并且y_j＝1表示分类器判断特征向量的结果被归类为目标数据，否则(y_j＝0)为伪负数据。此外，p_j和1-p_j分别表示y_j＝1和y_j＝0的概率；

步骤(4)：将步骤(2)中迭代训练减小

和

之间的差异这一优化目标

和步骤(3)中迭代训练区分伪类与色情类图像这一优化目标

进行加权联合训练。通过下述公式联合：

本发明提出了结合视觉注意力机制与深度一分类方法来识别色情图像。该方法能够对色情图像这单一的目标类进行训练，在不使用其他类的情况下，有效避免了无穷负样本问题。此外，由于一分类方法更注重目标对象的识别，因此，该方法引入了视觉注意力机制，通过对色情图像中的色情信息及其位置的注意力，使神经网络能够专注于对目标对象特征的提取，在一定程度上能够减少色情图像背景的干扰，忽略一些不相关的信息，从而提高深度一分类色情图像识别的准确率。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种改进的深度学习色情图像识别方法，其特征在于：包括下述步骤：

步骤1：图像尺寸的标准化操作：获取每个原始图像的尺度信息(W_o，H_o)，将每个原始图像的最短边固定为统一的尺寸大小S_f，另外一边按原始图像的比例进行缩放，得出重塑后尺度为(W_f，H_f)的图像x_i；

步骤2：在图像x_i的基础上，从图像压缩部分，通过深度压缩网络的卷积操作并且不断压缩特征图来提取图像x_i的紧凑表示PreC(θ_c；x_i)，其中θ_c表示图像压缩部分学习到的参数；

步骤3：通过公式z_i＝PreC(θ_c；x_i)+n(α，β)实现在图像x_i的紧凑表示PreC(θ_c；x_i)的基础上添加高斯噪声攻击n(α，β)得到输出向量z_i，利用输出向量z_i作为图像重组部分的输入进行训练，在训练时，通过深度重组网络的反卷积操作重组干净的图像特征向量

后，将干净的图像特征向量

作为结合视觉注意力机制与深度一分类方法模型的输入，通过结合视觉注意力机制与深度一分类方法模型的特征提取网络后得到输出特征图F；

其中，PreC(·)表示通过图像压缩部分的输出，x_i∈X，并且θ_c表示图像压缩部分学习到的参数，n(α，β)表示均值和方差分别为α和β的高斯噪声；

步骤5：将注意力机制特征图F″输入到数据表征网络的特征组合部分进行卷积操作，将注意力机制特征图F″的尺度信息通过尺度约束池化中自适应地划分操作由(W_L，H_L)变为(w，h)，且注意力机制特征图F″通过特征空间组合网络后输出特征向量为v_i；

并结合干净的图像特征向量

通过第一损失函数迭代训练对该数据表征网络部分进行优化；

步骤7：在输出特征向量v_i的基础上，添加零中心的高斯噪声

产生伪类数据p_i，而后利用第二损失函数进行迭代训练；

步骤8：将第一损失函数和第二损失函数进行加权联合训练，得到色情图像识别模型。

2.根据权利要求1所述的一种改进的深度学习色情图像识别方法，其特征在于：所述步骤1中图像尺寸的标准化操作采用下述公式实现：

其中，W_o为原始图像的宽，H_o为原始图像的高，S_f为原始图像比例压缩后最短边的尺寸大小，W_f为图像x_i的宽，H_f为图像x_i的高。

3.根据权利要求1所述的一种改进的深度学习色情图像识别方法，其特征在于：所述视觉注意力机制与深度一分类方法模型的深度一分类部分设置有解码部分和伪类构造与区分部分，解码部分的结构与所述特征提取网络在结构上形成深度自编码器网络，通过编码与解码的方式，使得数据表征网络学习到色情类图像的特征表示；伪类构造与区分部分，产生伪类并且通过边界决策网络进行分类区分，确定深度一分类模型的决策边界。

4.根据权利要求1～2任一项所述的一种改进的深度学习色情图像识别方法，其特征在于：所述通道注意力模型在进行输出特征图F中何种内容是有意义的计算时，采用下述公式：

M_C(F)＝σ(MLP(AvgP_f(F))+MLP(MaxP_f(F))) (5)

5.根据权利要求1～2任一项所述的一种改进的深度学习色情图像识别方法，其特征在于：所述空间注意力模型在进行输出特征图F中有意义的位置信息计算时，采用下述公式：

M_S(F)＝σ(f^k×k([AvgP_c(F)；MaxP_c(F)])) (6)

其中，f^k×k(·)表示卷积核大小为k×k的卷积操作；