CN112395442A

CN112395442A - 移动互联网上的低俗图片自动识别与内容过滤方法

Info

Publication number: CN112395442A
Application number: CN202011084050.4A
Authority: CN
Inventors: 秦飞巍; 涂岱键; 姚金良; 樊谨; 沈梦欣; 黄瓯涵
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2021-02-23
Anticipated expiration: 2040-10-12
Also published as: CN112395442B

Abstract

本发明公开了一种移动互联网上的低俗图片自动识别与内容过滤方法。本发明步骤：1.基于两大开源数据集建立用于训练和测试四分类低俗图像数据集；2.进行数据预处理；3.构建多阶段注意力机制的神经网络架构；4.基于四分类低俗图像数据集，对多阶段注意力机制的神经网络架构进行训练，获得注意力机制模型；5.将训练过后的注意力机制模型用数据的测试集进行测试，以验证模型的准确率指标；6.将最优的注意力机制模型用于数据的可视化，以热力图的形式展现出图像的高权重重点区域。本发明通过部署注意力机制，对图像的特征图的关键特征所在的区域进行加权操作。通过热力图的形式对特征图进行了数据可视化，通过可视化实验更好地解释模型的决策过程。

Description

移动互联网上的低俗图片自动识别与内容过滤方法

技术领域

本发明属于计算机视觉领域，提供一种移动互联网上的低俗图片自动识别与内容过滤方法。

背景技术

图片是网络上仅次于文本的第二大信息形式，随着智能手机在日常生活中广泛使用，海量的图像信息不断地被终端用户创造、生成、传播和下载，给我们的日常生活带来了极大的便利；与此同时，移动互联网也面临着低俗、色情、有害信息充斥的问题。一些低俗图片存在具体的有害元素，如露点、挑逗等，这些图像中元素类型众多，有害元素在这些图像中的比例未必是显著的。并且互联网上的低俗图片通常在背景、比例、场景和人体姿势等方面都有较大差别。特别是，将色情图片与正常图像区分开的关键有害内容(例如，胸部和隐私部位)通常位于较小的局部区域，而混乱的背景(例如，正常的身体、床、房间等)可能有时占图像的很大一部分。所以当图像拥有相似的背景和人体姿势时，低俗图片可能看起来与某些非色情图片非常相似。这就对低俗图片的识别和过滤提升了难度。

在过去的研究中，计算机视觉领域已经提出了众多低俗图像识别方法，基于特征提取策略的不同，主要可以分为四类：基于特征的识别方法，基于区域的识别方法，基于身体部位的识别方法和深度学习识别方法。

基于特征的方法强调从整个图像中提取特征，流行的方法包括特征包(Bag ofFeature,BoF)和深度卷积神经网络(Convolutional Neural Network,CNN)。但是BoF方法使用人工标记特征使得判别能力十分有限，CNN方法则是会出现某些关键局部细节(例如隐私部位)被忽略的问题。

基于区域的方法基于图像中感兴趣区域(Region of Interest，ROI)的检测来提取特征以进行识别。但是该方法对于皮肤区域的检测存在检测不准确的风险。

基于身体部位的方法定义了几种与色情相关的语义特征，例如胸部，腹部。并为这些功能训练了相应的身体部位检测器。但是，由于这些身体部位检测器的贴片支持量较小且训练中出现的外观变化较大，因此存在歧义性问题，很可能会产生假阳性检测结果。

深度学习方法由于其极其优秀的性能表现使其在计算机视觉各个方向上都取得了重大突破，引发了人工智能研究的全新热潮。而卷积神经网络(Convolutional NeuralNetwork，CNN)作为深度学习中最有代表性的框架，在语音，图像和视频的等领域都取得了突破性的研究进展。由于卷积神经网络的特性，其作为一个端到端的模型，能够在训练过程免去耗时费力的预处理过程，因此广泛受到领域内研究者的欢迎。通过不断增加深度神经网络架构的深度，能够有效地改善性能，减小错误率，同时使模型具备更优秀的可拓展性，与此同时其泛化到不同种类数据的能力也大大提升。我们在方法中施加了软注意力机制。随着特征映射的分辨率降低，关键语义信息将在下采样过程被保留，随后再通过上采样过程中生成的密集特征来用于推断图像每个部分的权重值。

发明内容

本发明针对现有技术的不足，提供了一种移动互联网上的低俗图片自动识别与内容过滤方法。该方法基于空间卷积计算、注意力机制和特征融合，联合学习图像的局部关键特征，自动对海量移动互联网图片进行识别并对有害内容进行过滤。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1.基于两大开源数据集，建立用于训练和测试四分类低俗图像数据集，同时对数据集中各个类别的样本进行分析计算。

所述的两大开源数据集为NSFW数据集和NPDI数据集。

步骤2.进行数据预处理：数据归一化以及数据增广。

步骤3.构建多阶段注意力机制的网络架构，包括对基础的注意力机制单元和深度神经网络的拓扑结构的设计。

步骤4.基于自建的四分类低俗图像数据集，对多阶段注意力机制的神经网络架构进行训练，获得注意力机制模型。

步骤5.将训练过后的注意力机制模型用数据的测试集进行测试，以验证模型的准确率等指标。

步骤6.将最优的注意力机制模型用于数据的可视化，以热力图的形式展现出图像的高权重重点区域。

本发明相对现有的技术在研究创新方面做出了以下几点贡献：

1.通过在模型中部署注意力机制，本文提出的方法在没有人工干预的情况下，在低俗图像识别的任务中达到了92.94％的准确率。通过训练的模型能够在低俗图像分类的任务上达到与人类专业鉴别师相当的水平，并且在与计算机视觉前沿方法比较的对比实验中达到了业内先进的水平。

2.基于上述设计的注意力机制，能够对图像的特征图的关键特征所在的区域进行加权操作。通过这个特点，本文通过热力图的形式对特征图进行了数据可视化，通过可视化实验来更好地解释模型的决策过程，以此更好地辅助专业鉴定的过程。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本发明具体运行过程的流程图。包含了发明的各个模块之间的关系，以及发明实现过程。

图2是本发明的模型整体架构图。包含了若干个注意力机制阶段，来实现特征输出。

图3是本发明的注意力阶段的原理解释图。表示随着注意力阶段数量的增增加，模型倾向于对注意力的选择更加细化，从开始的边缘整体信息，逐渐细化到最关键的器官上。

图4是本发明注意力模块结构图。该模块通过最大池化层与平均池化层实现特征提取和通道选择功能。

图5是本发明数据集样本图。本发明基于NSFW数据集和NPDI数据集，自建了一组低俗图像数据集

图6是本发明数据热力图可视化图。通过颜色的差异可以体现出特征图中各个区域权重的高低，凸显特征图中最具辨识度的特征。

图7是本发明预测错误样本展示图。鉴于模型的准确率往往再实际情况下难以达到100％的水平，意味着往往会出现错误的数据预测结果。

表1是本发明注意力阶段组成模块的详细参数表。

表2是本发明的注意力模块的详细参数表。

表3是本发明数据集类别分布情况表。

表4是本发明不同注意力模块对于模型性能的影响的数据对比表。

表5是本发明注意力阶段结构对于模型性能的影响的数据对比表。

表6是本发明损失函数对于模型性能的影响的数据对比表。

表7是本发明与经典CNN架构的性能对比表。

表8是本发明与业内前沿方法之的性能对比表。

具体实施方式

下面结合附图对本发明进行进一步说明。

如图1-7和表1-8所示，展示一个基于多阶段注意力机制的设计流程，本发明方法的具体步骤为：

步骤1.基于两大开源数据集，建立用于训练和测试四分类低俗图像数据集，同时对数据集中各个类别的样本进行计算。

所述的两大开源数据集为NSFW数据集和NPDI数据集。

步骤2.进行数据预处理：数据归一化以及数据增广。

步骤3.构建多阶段注意力机制的神经网络架构，包括对基础的注意力机制单元和深度神经网络的拓扑结构的设计。

进一步，步骤1所述的基于两大开源数据集——NSFW数据集和NPDI数据集，建立用于训练和测试四分类低俗图像数据集，同时对数据集中各个类别的样本进行分析计算。如表3所示，四分类低俗图像数据集共包含四个类别：正常(训练集26782张，测试集4118张)、轻微敏感(训练集1301张，测试集199张)、高度敏感(训练集13368张，测试集1799张)、色情(训练集29480张，测试集3213张)，每个类别中对性别、种族、身型、外貌特征都较为均匀地分布，数据集的样本见图5。

步骤2.进行数据预处理：数据归一化以及数据增广。

步骤3.构建多阶段注意力机制的网络架构，该网络架构包括多个注意力阶段；每个注意力阶段包含基础的注意力机制单元和深度神经网络的拓扑结构，其中每个注意力阶段的拓扑结构包含两个部分：通道域和空间域。

注意力阶段中通道域与空间域的具体组成部分详情见表1，为了更好地说明注意力阶段的结构特点。在通道域中，输入图像经过连续的两个基础的注意力机制单元处理后得到特征图F(x)。在空间域中，输入图像先通过多个池化层进行下采样，再通过上采样将图像恢复原来的尺寸，从而在采样后的图像中提取出关键信息得到特征图M(x)，此处通过Sigmoid函数正则化。在发明中，为了防止出现梯度消失问题在通道域和空间域中增加了一条捷径，最终在注意力阶段输出的特征图为：

F(x)+F(x)×M(x) (1)

进一步的，每个注意力阶段输出的特征图作为下一个注意力阶段的输入图像。如图2所示，注意力阶段1输出的特征图作为下一个注意力阶段2的输入图像。

所述的表1是对注意力阶段进行分析，对每个注意力阶段划分为两个部分：通道域和空间域。表1的文字表示为注意力阶段中通道域和空间域的具体组成部分。

如图4和表2所示，图4展示的是注意力模块的结构，注意力模块通过最大池化层与平均池化层，来实现特征提取和通道选择的功能。表2展示的是注意力模块中的详细参数，通过注意力模块能够有效地加强模型对于筛选最具分辨性特征的能力。

基础的注意力机制单元具体结构和实现如下：

池化层是卷积神经网络架构中常用的基础构成模块，从本质上来说就是通过某种策略对图像特征图进行下采样的操作，其在减小参数规模，控制过拟合问题的发生，提高模型的运算性能以及减小运算开销等方面都有巨大贡献。最大池化是在其运算范围内取出最具有判别度的特征值，这种策略能够为分类决策过程提供一种非线性的操作，从而在下采样的过程中过滤掉更多的背景信息，保留关键的特征；而平均池化更倾向于保留相对完整的全局信息，能够在下采样的过程中传递更多的信息，能在全局范围内达到正则化的效果以避免过拟合的出现。

通过对比最大池化和平均池化后选择了平均池化，池化层用于缓解卷积层对于位置的过度敏感，池化层与卷积层一样，对于输入有一个固定的窗口，计算窗口内的最大值或者平均值，这就是最大池化层和平均池化层。倾向于保留相对完整的全局信息，能够在下采样的过程中传递更多的信息，能在全局范围内达到正则化的效果以避免过拟合的出现。

Pooling_Avg＝max_i，j(X_i，j)

根据深度神经网络的理论知识了解到提取中会出现偏差的两大原因是相邻区域大小的局限性导致的估计值方差偏大和卷积层参数存在误差而从导致估计平均值出现偏差。对于第一种原因导致的误差，我们可以通过平均池化来改善。平均池化通过在运算过程中保留更多的特征信息使得估计值的方差更加稳定；对于第二种原因导致的误差，最大池化能够有效地避免这种偏移量，从而保留更多的高维特征。

步骤4.基于自建的四分类低俗图像数据集，对多阶段注意力机制的神经网络架构进行训练。为了将不同网络层中的特征图利用不同的注意力机制来处理，多阶段注意力机制显然在性能上更占优势。使用多个注意力阶段能很好地解决甚至避免只能加权出低纬度、非重点的特征区域的问题，通过注意力阶段的增加，加权的特征逐渐细化，向高维度特征发展。

如图3所示，随着注意力阶段数量的增增加，模型倾向于对注意力的选择更加细化，从开始的边缘整体信息，逐渐细化到最关键的器官上。然而值得注意的是，随着注意力阶段数量的增加，所需要的运算力也会逐渐增加，最终考虑到目前拥有的运算力和模型的最终准确率的情况，本文选择使用三个注意力阶段来构建模型。

如图4和表2所示，在本发明中，我们提出注意力机制单元作为模型的基本单元来处理特征图中区域的关联信息。注意力机制单元通过最大池化层与平均池化层实现特征提取和通道选择的功能。对于一个尺寸为H×W×C的特征图χ，先将特征图同时进行平均池化和最大池化以缩小特征图尺寸，分别得到特征图Z_Avg∈R^1×1×C与Z_Max∈R^1×1×C。同时为了加强局部特征与全局特征的联系，本发明提出了一种连接性模式。首先直接将特征图Z_Avg与Z_Max直接叠加，从而将对同一张特征图的两种类型的特征进行叠加。随后再通过一个卷积层(卷积核尺寸为2)使得叠加后的特征图以速率r缩小其通道数量至C/r。为了再次将通道数量扩展至C，此处再次运用一个卷积层来实现通道数量的增加。最后通过Sigmoid函数来作为入门机制函数。整个过程可以通过如下函数表示：

其中，σ表示Sigmoid函数，

代表ReLu函数，W₁与W₂代表卷积层的权重。

在注意力机制单元最后，通过点乘来重新缩放特征图，从而得到最终特征图：

其中

表示点乘运算规则。最终解决了先前未能考虑到通道信息的问题后，通过注意力模块能够有效地加强模型对于筛选最具分辨性特征的能力。

在发明中设计了三种模式的注意力机制单元：仅由平均池化构成的模块、仅由最大池化构成的模块、结合了两种池化的模块。三种类型的模块都采用相同的衰减参数r，采用ResNet-101作为模型的基础。不同模式的注意力模块的实验结果如表以及表4所示。从实验结果可以观察到最大池化方法与平均池化的性能达到了同一水平，结合了两种池化的注意力模块在三种策略中最终达到了最优的性能表现。从原理层面分析，平均池化方法倾向于计算特征图中的全局信息，而最大池化方法通常编码出最突出的部分，结合试验结果表明结合这两种池化策略能够充分联系特征图各个区域的信息，从而最大地提升模型性能。

简而言之，注意力机制单元可以在不增加额外计算量的情况下，结合了两种池化策略的优点，从而以一个合适的方式去计算特征图中各个区域的信息。

为了在空间和通道维度上充分利用本文的模型，实验过程中首先通过ImageNet预训练模型，然后保留特征提取部分的参数并微调模型，其中N代表训练数据总数，C代表数据集的类别总数。当属于第n个的数据的预测属于其正确类别i时

等于1，否则等于0；

表示模型预测第n个数据属于其正确类别i的概率，这是通过Softmax函数来激活的。

为了在空间和通道维度上充分利用本文的模型，实验过程中首先通过ImageNet预训练模型，然后保留特征提取部分的参数并微调模型，最初使用的损失函数如下所示：

为了更好地优化决策过程，应当避免模型对于自身预测结果过于自信的情况，因此我们增加了一个惩罚项来降低模型对自身预测结果的自信度。改进的损失函数如下所示：

其中α＞0是一个用于降低模型自信程度的超参数。然而，当模型认为数据大概率属于某个特定类别时，预测结果之间的交叉墒会相对增大，这会导致Loss的值的增加。最终，我们将损失函数改进为如下所示：

其中β代表L2惩罚参数，Θ代表模型的权重。

本发明设计了三种模式的注意力阶段：仅含通道域的注意力阶段、仅含空间域的注意力阶段、结合通道域与空间域的注意力阶段。表5总结了对于通道域和空间域的消融实验结果。由结果表明，注意力阶段结合了通道域与空间域时能达到更好的准确率。从原理层面分析，主要是因为对于空间域生成的多个特征图，通道域可以平衡特征图上各个区域的权重，从而更好地联系特征图中各个区域的信息关联性，结合二者的模型综合了两种策略的优势所在，最终能有效地提升模型的性能。

在发明中，模型会在大型数据集(如ImageNet)中进行预训练，随后再次在低俗图像数据集上进行更为任务导向的细化训练。在预训练过程中(120epochs)，本文的模型已经达到了78.84％的top-1准确率。随后我们微调模型，设置初始学习率为0.1，同样采用余弦衰退策略，衰退率为0.001。

为了对比损失函数对于模型性能的影响，我们将相同的模型分别配备三种不同的损失函数进行对比实验。实际上，在许多计算机视觉任务中，公式的思想已经能够有效地大幅度降低损失函数的抖动以及训练的过拟合问题。实验结果如表6所示，表明合适的损失函数进一步地提升了模型的性能。

步骤5.将训练过后的网络架构运用于数据的测试集中进行测试，以验证模型的准确率指标。

在深度学习架构中，反向传播策略是模型更新参数的重要法则，其通过梯度下降来更新权重参数，为了能够更好地控制反向传播过程中梯度下降的速度，引入了重要参数——学习率。选择合适的学习率调整策略对模型的训练过程十分重要。在模型训练过程中，当学习率衰退至足够小的值时，模型会出现收敛进度停滞不前的情况，准确率也无法再得到提升。为了使模型在训练过程中以一个相对适合的学习率逼近收敛，余弦学习率衰退策能够使得学习率以一个不断缩小的速率而减少，从而使得最终的学习率不会衰退至一个过于小的值。在本部分发明中，初始的学习率设定为0.1，并在训练过程使用余弦学习率衰退策略：

其中EpochStep代表遍历一遍训练数据集所需要的步数，"GlobalStep"为当前步数。本部分始终保持初始学习率为0.01，与此同时每10epoch进行一次余弦学习率衰退。这样随着epoch数量的增加，也能保证学习率的下降速率逐渐降低，并以此最终提高模型的性能表现。

Dropout是深度学习领域中一种经典的正则化策略，能够在模型训练的过程中通过解除相关神经元的关联，以此减少模型的过拟合问题。在本发明中，我们将Dropout的值设置为0.5。Dropout之所以能够有效地避免过拟合问题，是因为其在训练过程中能够阻止部分被选中的神经元与其余神经元交换信息，所以导致了相关神经元丢失了与其关联的隐藏节点，最终导致了他们无法相互作用与模型的运算过程。Dropout策略过程中的每次更新都能被看作是对训练集不同子集上不同模型的迭代，它能够减少众多神经元之间的复杂的相互反应，从而有效地较少过拟合问题的发生。

我们通过对比实验来验证模型核心模块对整体的效率提升的效果。考虑ResNet-101的参数规模大小与本文模型更为匹配，将其作为发明基线。所有的模型都训练于同一低俗图像数据集上，所有模型都通过85个epochs的训练，并采取余弦学习率衰退策略与Dropout策略。

步骤6.将测试得到的最优的注意力机制模型用于数据的可视化，以热力图的形式展现出图像的重点区域。

热力图的可视化设计原型是红外线成像。在红外线成像生成的图像中，温度相对较高的区域会呈现倾向于红色，而温度相对较低的区域会倾向于蓝色。热力图的可视化设计逻辑也是这样，通过颜色的差异可以体现出特征图中各个区域权重的高低——特征的权重相对较高时呈现红色，反之为蓝色。于是本发明通过热力图的形式来凸显出特征图中最具辨识度的特征。Grad-CAM利用卷积神经网络架构在分类任务中的特点，其最后一层往往利用Softmax函数来计算出各种类别的概率，并将概率最大的类别作为预测的物体类别。于是Grad-CAM基于概率最大值所属的类别开始进行反向传播，并求出网络最后一层卷积层的梯度值，随后求出每一份特征图的平均值。基于这个特征图的平均值，结合最优的注意力机制模型最后一层卷积层的输出结果，将二者的乘积叠加在原本的特征图上就得到最终的热力图可视化结果。

本发明对三个注意力阶段输出的特征图进行了热力图形式的可视化，详细内容见图6。通过对三个注意力阶段的对比，我们观察到每个注意力阶段的关注倾向都有所不同。在第一个注意力阶段的热力图中，我们可以观察到模型在此阶段主要将权重集中在人体的整体轮廓上，即低维度特征，在全局上过滤了大部分无关的背景信息；到了第二个注意力阶段时，会对关注的关键特征区域进行进一步的细分，将权重集中在1-2个关键敏感特征点上。在最后一个注意力阶段，模型能够过滤掉大部分无关的背景信息，将权重全部集中在图像的敏感区域上(胸部、臀部、生殖器官等等)。

步骤7.实验检测结果和性能测试。

本发明实验环境同样基于PyTorch框架，运行于Ubuntu16.02，使用两张NvidiaGeForce 1080Ti图形驱动显卡进行并行加速计算。训练完成后，我们对其测试结果进行了可视化展示，同时对敏感区域进行了马赛克处理。从视觉特征的角度分析，女性的胸部与臀部在低纬度特征方面(形状、轮廓等)具有很高的相似度。但实验测试可视化结果表明模型能够有效地区分这两个类别的区域，说明模型能够在基于低维度特征的基础上，考虑到更高维度的特征(纹理、边缘、质感等)。与此同时，胸部与乳沟两大类别通常会存在一部分重叠的区域，如果模型在运算过程中对于这部分重叠区域添加了较多的权重的话也会影响最终的检测性能表现。

最终通过对于敏感区域检测的可视化实现，能够配合注意力机制网络架构对于低俗图像进行分析。在实际场景中，我们可以先通过注意力机制网络架构对低俗图像进行四分类，得到一个相对准确的初步结果。随后针对存在争议或定界模糊的数据进行敏感区域检测得到一个解释性更好的细分结果。与此同时，鉴于模型的准确率往往在实际情况下难以达到100％的水平，这意味在模型测试过程中会出现部分错误的数据预测结果。为了更好地分析模型的优势以及不足之处，实验额外地分析了本文模型在测试过程中出现的错误样本，并从通过模型对其每个类别的评分情况来对其进行具体分析。如图7展示的错误样本，可以分别观察到每个类别中的典型错误样例。

基于自构建的四分类低俗图像数据集，本发明通过与现行前沿方法的对比实验来验证模型的性能与可行性。我们以四个具有代表性的卷积神经网络架构，包括VGGNet、ResNet、GoogleNet和DenseNet来作为实验基线。所有的网络架构都不经过预训练，初始的学习率为0.1并采用余弦衰退策略来调整训练过程中的学习率。

在相同低俗图像数据集上的实验结果如表7所示。考虑到模型都是从零开始在相同的数据集下进行训练，故实验结果能比较客观地验证本文模型的性能与可行性。本发明相对于四个寄出网络。。。

且其独特之处在于能够以热力图的形式可视化网络中的特征图，这样能更好地解释本文的模型为何在分类任务中能得到更好的性能，更详细的分析请见部分。

同时除了经典的卷积神经网络架构以外，本文还复现了一些图像识别领域前沿的方法来进行对比实验，包括DCNN、Two-Stage CNN、AutoCNN。对比实验结果如表8所示。通过与业内前沿的方法进行对比，更加客观地验证了本文模型的性能优越性。

表1

表2

表3

表4

表5

表6

模型的损失函数组成	Top1准确率(％)
		公式(6)	91.87
公式(7)	92.24
		公式(8)	92.94

表7

模型的损失函数组成	Top1准确率(％)
		VGGNet	91.31
ResNet-101	91.25
		GoogLeNet	90.89
DenseNet-121	91.34
		本文方法	92.94

表8

模型的损失函数组成	Top1准确率(％)
		DCNN	90.74
AutoCNN	91.83
		Two-StageCNN	91.90
本文方法	92.94

。

Claims

1.移动互联网上的低俗图片自动识别与内容过滤方法，其特征在于包括如下步骤：

步骤1.基于两大开源数据集，建立用于训练和测试四分类低俗图像数据集，同时对数据集中各个类别的样本进行计算；

所述的两大开源数据集为NSFW数据集和NPDI数据集；

步骤2.进行数据预处理：数据归一化以及数据增广；

步骤3.构建多阶段注意力机制的神经网络架构，包括对基础的注意力机制单元和深度神经网络的拓扑结构的设计；

步骤4.基于自建的四分类低俗图像数据集，对多阶段注意力机制的神经网络架构进行训练，获得注意力机制模型；

步骤5.将训练过后的注意力机制模型用数据的测试集进行测试，以验证模型的准确率等指标；

2.根据权利要求1所述的移动互联网上的低俗图片自动识别与内容过滤方法，其特征在于步骤1所述的基于两大开源数据集包括NSFW数据集和NPDI数据集；四分类低俗图像数据集共包含四个类别：正常、轻微敏感、高度敏感、色情，每个类别中对性别、种族、身型、外貌特征都较为均匀地分布。

3.根据权利要求1或2所述的移动互联网上的低俗图片自动识别与内容过滤方法，其特征在于步骤3所述的构建多阶段注意力机制的网络架构包括多个注意力阶段；每个注意力阶段包含基础的注意力机制单元和深度神经网络的拓扑结构，其中每个注意力阶段的拓扑结构包含两个部分：通道域和空间域；且每个注意力阶段输出的特征图作为下一个注意力阶段的输入图像。

4.根据权利要求3所述的移动互联网上的低俗图片自动识别与内容过滤方法，其特征在于在通道域中，输入图像经过连续的两个基础的注意力机制单元处理后得到特征图F(x)；在空间域中，输入图像先通过多个池化层进行下采样，再通过上采样将图像恢复原来的尺寸，从而在采样后的图像中提取出关键信息得到特征图M(x)，此处通过Sigmoid函数正则化；为了防止出现梯度消失问题在通道域和空间域中增加了一条捷径，最终在注意力阶段输出的特征图为：

F(x)+F(x)×M(x)(1)。

5.根据权利要求4所述的移动互联网上的低俗图片自动识别与内容过滤方法，其特征在于注意力机制单元具体实现如下：

注意力机制单元通过最大池化层与平均池化层实现特征提取和通道选择的功能；对于一个尺寸为H×W×C的特征图χ，先将特征图同时进行平均池化和最大池化以缩小特征图尺寸，分别得到特征图Z_Avg∈R^1×1×C与Z_Max∈R^1×1×C；同时为了加强局部特征与全局特征的联系，提出了一种新的连接性模式：首先直接将特征图Z_Avg与Z_Max直接叠加，从而将对同一张特征图的两种类型的特征进行叠加；随后再通过一个卷积层使得叠加后的特征图以速率r缩小其通道数量至C/r；为了再次将通道数量扩展至C，此处再次运用一个卷积层来实现通道数量的增加；最后通过Sigmoid函数来作为入门机制函数；整个过程可以通过如下函数表示：

其中，σ表示Sigmoid函数，

代表ReLu函数，W₁与W₂代表卷积层的权重；

其中

表示点乘运算规则；最终解决了先前未能考虑到通道信息的问题后，通过注意力模块能够有效地加强模型对于筛选最具分辨性特征的能力。

6.根据权利要求4或5所述的移动互联网上的低俗图片自动识别与内容过滤方法，其特征在于步骤4具体实现如下：

首先通过ImageNet预训练模型，然后保留特征提取部分的参数并微调模型；最初使用的损失函数如下所示：

其中，N代表训练数据总数，C代表数据集的类别总数；当属于第n个的数据的预测属于其正确类别i时

等于1，否则等于0；

表示模型预测第n个数据属于其正确类别i的概率，这是通过Softmax函数来激活的；

为了更好地优化决策过程，增加一个惩罚项来降低模型对自身预测结果的自信度，改进的损失函数如下所示：

其中，α＞0是一个用于降低模型自信程度的超参数；然而当模型认为数据大概率属于某个特定类别时，预测结果之间的交叉墒会相对增大，这会导致Loss的值的增加；最终将损失函数进一步改为如下所示：

其中β代表L2惩罚参数，Θ代表模型的权重。

7.根据权利要求4或5或6所述的移动互联网上的低俗图片自动识别与内容过滤方法，其特征在于在训练过程使用余弦学习率衰退策略，且初始的学习率设定为0.1：

其中EpochStep代表遍历一遍训练数据集所需要的步数，″GlobalStep″为当前步数；始终保持初始学习率为0.01，与此同时每10epoch进行一次余弦学习率衰退。

8.根据权利要求7所述的移动互联网上的低俗图片自动识别与内容过滤方法，其特征在于步骤6具体实现如下：

将Grad-CAM基于概率最大值所属的类别开始进行反向传播，并求出网络最后一层卷积层的梯度值，随后求出每一份特征图的平均值；基于这个特征图的平均值，结合最优的注意力机制模型最后一层卷积层的输出结果，将二者的乘积叠加在原本的特征图上就得到最终的热力图可视化结果。

9.根据权利要求7或8所述的移动互联网上的低俗图片自动识别与内容过滤方法，其特征在于热力图的可视化设计通过颜色的差异可以体现出特征图中各个区域权重的高低——特征的权重相对较高时呈现红色，反之为蓝色；对三个注意力阶段的对比如下：在第一个注意力阶段的热力图中，模型主要将权重集中在人体的整体轮廓上，即低维度特征；到了第二个注意力阶段时，会对关注的关键特征区域进行进一步的细分，将权重集中在1-2个关键敏感特征点上；在最后一个注意力阶段，模型能够过滤掉大部分无关的背景信息，将权重全部集中在图像的敏感区域。