CN112395442A - 移动互联网上的低俗图片自动识别与内容过滤方法 - Google Patents
移动互联网上的低俗图片自动识别与内容过滤方法 Download PDFInfo
- Publication number
- CN112395442A CN112395442A CN202011084050.4A CN202011084050A CN112395442A CN 112395442 A CN112395442 A CN 112395442A CN 202011084050 A CN202011084050 A CN 202011084050A CN 112395442 A CN112395442 A CN 112395442A
- Authority
- CN
- China
- Prior art keywords
- model
- attention
- attention mechanism
- data
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/535—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/54—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种移动互联网上的低俗图片自动识别与内容过滤方法。本发明步骤:1.基于两大开源数据集建立用于训练和测试四分类低俗图像数据集;2.进行数据预处理;3.构建多阶段注意力机制的神经网络架构;4.基于四分类低俗图像数据集,对多阶段注意力机制的神经网络架构进行训练,获得注意力机制模型;5.将训练过后的注意力机制模型用数据的测试集进行测试,以验证模型的准确率指标;6.将最优的注意力机制模型用于数据的可视化,以热力图的形式展现出图像的高权重重点区域。本发明通过部署注意力机制,对图像的特征图的关键特征所在的区域进行加权操作。通过热力图的形式对特征图进行了数据可视化,通过可视化实验更好地解释模型的决策过程。
Description
技术领域
本发明属于计算机视觉领域,提供一种移动互联网上的低俗图片自动识别与内容过滤方法。
背景技术
图片是网络上仅次于文本的第二大信息形式,随着智能手机在日常生活中广泛使用,海量的图像信息不断地被终端用户创造、生成、传播和下载,给我们的日常生活带来了极大的便利;与此同时,移动互联网也面临着低俗、色情、有害信息充斥的问题。一些低俗图片存在具体的有害元素,如露点、挑逗等,这些图像中元素类型众多,有害元素在这些图像中的比例未必是显著的。并且互联网上的低俗图片通常在背景、比例、场景和人体姿势等方面都有较大差别。特别是,将色情图片与正常图像区分开的关键有害内容(例如,胸部和隐私部位)通常位于较小的局部区域,而混乱的背景(例如,正常的身体、床、房间等)可能有时占图像的很大一部分。所以当图像拥有相似的背景和人体姿势时,低俗图片可能看起来与某些非色情图片非常相似。这就对低俗图片的识别和过滤提升了难度。
在过去的研究中,计算机视觉领域已经提出了众多低俗图像识别方法,基于特征提取策略的不同,主要可以分为四类:基于特征的识别方法,基于区域的识别方法,基于身体部位的识别方法和深度学习识别方法。
基于特征的方法强调从整个图像中提取特征,流行的方法包括特征包(Bag ofFeature,BoF)和深度卷积神经网络(Convolutional Neural Network,CNN)。但是BoF方法使用人工标记特征使得判别能力十分有限,CNN方法则是会出现某些关键局部细节(例如隐私部位)被忽略的问题。
基于区域的方法基于图像中感兴趣区域(Region of Interest,ROI)的检测来提取特征以进行识别。但是该方法对于皮肤区域的检测存在检测不准确的风险。
基于身体部位的方法定义了几种与色情相关的语义特征,例如胸部,腹部。并为这些功能训练了相应的身体部位检测器。但是,由于这些身体部位检测器的贴片支持量较小且训练中出现的外观变化较大,因此存在歧义性问题,很可能会产生假阳性检测结果。
深度学习方法由于其极其优秀的性能表现使其在计算机视觉各个方向上都取得了重大突破,引发了人工智能研究的全新热潮。而卷积神经网络(Convolutional NeuralNetwork,CNN)作为深度学习中最有代表性的框架,在语音,图像和视频的等领域都取得了突破性的研究进展。由于卷积神经网络的特性,其作为一个端到端的模型,能够在训练过程免去耗时费力的预处理过程,因此广泛受到领域内研究者的欢迎。通过不断增加深度神经网络架构的深度,能够有效地改善性能,减小错误率,同时使模型具备更优秀的可拓展性,与此同时其泛化到不同种类数据的能力也大大提升。我们在方法中施加了软注意力机制。随着特征映射的分辨率降低,关键语义信息将在下采样过程被保留,随后再通过上采样过程中生成的密集特征来用于推断图像每个部分的权重值。
发明内容
本发明针对现有技术的不足,提供了一种移动互联网上的低俗图片自动识别与内容过滤方法。该方法基于空间卷积计算、注意力机制和特征融合,联合学习图像的局部关键特征,自动对海量移动互联网图片进行识别并对有害内容进行过滤。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1.基于两大开源数据集,建立用于训练和测试四分类低俗图像数据集,同时对数据集中各个类别的样本进行分析计算。
所述的两大开源数据集为NSFW数据集和NPDI数据集。
步骤2.进行数据预处理:数据归一化以及数据增广。
步骤3.构建多阶段注意力机制的网络架构,包括对基础的注意力机制单元和深度神经网络的拓扑结构的设计。
步骤4.基于自建的四分类低俗图像数据集,对多阶段注意力机制的神经网络架构进行训练,获得注意力机制模型。
步骤5.将训练过后的注意力机制模型用数据的测试集进行测试,以验证模型的准确率等指标。
步骤6.将最优的注意力机制模型用于数据的可视化,以热力图的形式展现出图像的高权重重点区域。
本发明相对现有的技术在研究创新方面做出了以下几点贡献:
1.通过在模型中部署注意力机制,本文提出的方法在没有人工干预的情况下,在低俗图像识别的任务中达到了92.94%的准确率。通过训练的模型能够在低俗图像分类的任务上达到与人类专业鉴别师相当的水平,并且在与计算机视觉前沿方法比较的对比实验中达到了业内先进的水平。
2.基于上述设计的注意力机制,能够对图像的特征图的关键特征所在的区域进行加权操作。通过这个特点,本文通过热力图的形式对特征图进行了数据可视化,通过可视化实验来更好地解释模型的决策过程,以此更好地辅助专业鉴定的过程。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1是本发明具体运行过程的流程图。包含了发明的各个模块之间的关系,以及发明实现过程。
图2是本发明的模型整体架构图。包含了若干个注意力机制阶段,来实现特征输出。
图3是本发明的注意力阶段的原理解释图。表示随着注意力阶段数量的增增加,模型倾向于对注意力的选择更加细化,从开始的边缘整体信息,逐渐细化到最关键的器官上。
图4是本发明注意力模块结构图。该模块通过最大池化层与平均池化层实现特征提取和通道选择功能。
图5是本发明数据集样本图。本发明基于NSFW数据集和NPDI数据集,自建了一组低俗图像数据集
图6是本发明数据热力图可视化图。通过颜色的差异可以体现出特征图中各个区域权重的高低,凸显特征图中最具辨识度的特征。
图7是本发明预测错误样本展示图。鉴于模型的准确率往往再实际情况下难以达到100%的水平,意味着往往会出现错误的数据预测结果。
表1是本发明注意力阶段组成模块的详细参数表。
表2是本发明的注意力模块的详细参数表。
表3是本发明数据集类别分布情况表。
表4是本发明不同注意力模块对于模型性能的影响的数据对比表。
表5是本发明注意力阶段结构对于模型性能的影响的数据对比表。
表6是本发明损失函数对于模型性能的影响的数据对比表。
表7是本发明与经典CNN架构的性能对比表。
表8是本发明与业内前沿方法之的性能对比表。
具体实施方式
下面结合附图对本发明进行进一步说明。
如图1-7和表1-8所示,展示一个基于多阶段注意力机制的设计流程,本发明方法的具体步骤为:
步骤1.基于两大开源数据集,建立用于训练和测试四分类低俗图像数据集,同时对数据集中各个类别的样本进行计算。
所述的两大开源数据集为NSFW数据集和NPDI数据集。
步骤2.进行数据预处理:数据归一化以及数据增广。
步骤3.构建多阶段注意力机制的神经网络架构,包括对基础的注意力机制单元和深度神经网络的拓扑结构的设计。
步骤4.基于自建的四分类低俗图像数据集,对多阶段注意力机制的神经网络架构进行训练,获得注意力机制模型。
步骤5.将训练过后的注意力机制模型用数据的测试集进行测试,以验证模型的准确率等指标。
步骤6.将最优的注意力机制模型用于数据的可视化,以热力图的形式展现出图像的高权重重点区域。
进一步,步骤1所述的基于两大开源数据集——NSFW数据集和NPDI数据集,建立用于训练和测试四分类低俗图像数据集,同时对数据集中各个类别的样本进行分析计算。如表3所示,四分类低俗图像数据集共包含四个类别:正常(训练集26782张,测试集4118张)、轻微敏感(训练集1301张,测试集199张)、高度敏感(训练集13368张,测试集1799张)、色情(训练集29480张,测试集3213张),每个类别中对性别、种族、身型、外貌特征都较为均匀地分布,数据集的样本见图5。
步骤2.进行数据预处理:数据归一化以及数据增广。
步骤3.构建多阶段注意力机制的网络架构,该网络架构包括多个注意力阶段;每个注意力阶段包含基础的注意力机制单元和深度神经网络的拓扑结构,其中每个注意力阶段的拓扑结构包含两个部分:通道域和空间域。
注意力阶段中通道域与空间域的具体组成部分详情见表1,为了更好地说明注意力阶段的结构特点。在通道域中,输入图像经过连续的两个基础的注意力机制单元处理后得到特征图F(x)。在空间域中,输入图像先通过多个池化层进行下采样,再通过上采样将图像恢复原来的尺寸,从而在采样后的图像中提取出关键信息得到特征图M(x),此处通过Sigmoid函数正则化。在发明中,为了防止出现梯度消失问题在通道域和空间域中增加了一条捷径,最终在注意力阶段输出的特征图为:
F(x)+F(x)×M(x) (1)
进一步的,每个注意力阶段输出的特征图作为下一个注意力阶段的输入图像。如图2所示,注意力阶段1输出的特征图作为下一个注意力阶段2的输入图像。
所述的表1是对注意力阶段进行分析,对每个注意力阶段划分为两个部分:通道域和空间域。表1的文字表示为注意力阶段中通道域和空间域的具体组成部分。
如图4和表2所示,图4展示的是注意力模块的结构,注意力模块通过最大池化层与平均池化层,来实现特征提取和通道选择的功能。表2展示的是注意力模块中的详细参数,通过注意力模块能够有效地加强模型对于筛选最具分辨性特征的能力。
基础的注意力机制单元具体结构和实现如下:
池化层是卷积神经网络架构中常用的基础构成模块,从本质上来说就是通过某种策略对图像特征图进行下采样的操作,其在减小参数规模,控制过拟合问题的发生,提高模型的运算性能以及减小运算开销等方面都有巨大贡献。最大池化是在其运算范围内取出最具有判别度的特征值,这种策略能够为分类决策过程提供一种非线性的操作,从而在下采样的过程中过滤掉更多的背景信息,保留关键的特征;而平均池化更倾向于保留相对完整的全局信息,能够在下采样的过程中传递更多的信息,能在全局范围内达到正则化的效果以避免过拟合的出现。
通过对比最大池化和平均池化后选择了平均池化,池化层用于缓解卷积层对于位置的过度敏感,池化层与卷积层一样,对于输入有一个固定的窗口,计算窗口内的最大值或者平均值,这就是最大池化层和平均池化层。倾向于保留相对完整的全局信息,能够在下采样的过程中传递更多的信息,能在全局范围内达到正则化的效果以避免过拟合的出现。
PoolingAvg=maxi,j(Xi,j)
根据深度神经网络的理论知识了解到提取中会出现偏差的两大原因是相邻区域大小的局限性导致的估计值方差偏大和卷积层参数存在误差而从导致估计平均值出现偏差。对于第一种原因导致的误差,我们可以通过平均池化来改善。平均池化通过在运算过程中保留更多的特征信息使得估计值的方差更加稳定;对于第二种原因导致的误差,最大池化能够有效地避免这种偏移量,从而保留更多的高维特征。
步骤4.基于自建的四分类低俗图像数据集,对多阶段注意力机制的神经网络架构进行训练。为了将不同网络层中的特征图利用不同的注意力机制来处理,多阶段注意力机制显然在性能上更占优势。使用多个注意力阶段能很好地解决甚至避免只能加权出低纬度、非重点的特征区域的问题,通过注意力阶段的增加,加权的特征逐渐细化,向高维度特征发展。
如图3所示,随着注意力阶段数量的增增加,模型倾向于对注意力的选择更加细化,从开始的边缘整体信息,逐渐细化到最关键的器官上。然而值得注意的是,随着注意力阶段数量的增加,所需要的运算力也会逐渐增加,最终考虑到目前拥有的运算力和模型的最终准确率的情况,本文选择使用三个注意力阶段来构建模型。
如图4和表2所示,在本发明中,我们提出注意力机制单元作为模型的基本单元来处理特征图中区域的关联信息。注意力机制单元通过最大池化层与平均池化层实现特征提取和通道选择的功能。对于一个尺寸为H×W×C的特征图χ,先将特征图同时进行平均池化和最大池化以缩小特征图尺寸,分别得到特征图ZAvg∈R1×1×C与ZMax∈R1×1×C。同时为了加强局部特征与全局特征的联系,本发明提出了一种连接性模式。首先直接将特征图ZAvg与ZMax直接叠加,从而将对同一张特征图的两种类型的特征进行叠加。随后再通过一个卷积层(卷积核尺寸为2)使得叠加后的特征图以速率r缩小其通道数量至C/r。为了再次将通道数量扩展至C,此处再次运用一个卷积层来实现通道数量的增加。最后通过Sigmoid函数来作为入门机制函数。整个过程可以通过如下函数表示:
在注意力机制单元最后,通过点乘来重新缩放特征图,从而得到最终特征图:
在发明中设计了三种模式的注意力机制单元:仅由平均池化构成的模块、仅由最大池化构成的模块、结合了两种池化的模块。三种类型的模块都采用相同的衰减参数r,采用ResNet-101作为模型的基础。不同模式的注意力模块的实验结果如表以及表4所示。从实验结果可以观察到最大池化方法与平均池化的性能达到了同一水平,结合了两种池化的注意力模块在三种策略中最终达到了最优的性能表现。从原理层面分析,平均池化方法倾向于计算特征图中的全局信息,而最大池化方法通常编码出最突出的部分,结合试验结果表明结合这两种池化策略能够充分联系特征图各个区域的信息,从而最大地提升模型性能。
简而言之,注意力机制单元可以在不增加额外计算量的情况下,结合了两种池化策略的优点,从而以一个合适的方式去计算特征图中各个区域的信息。
为了在空间和通道维度上充分利用本文的模型,实验过程中首先通过ImageNet预训练模型,然后保留特征提取部分的参数并微调模型,其中N代表训练数据总数,C代表数据集的类别总数。当属于第n个的数据的预测属于其正确类别i时等于1,否则等于0;表示模型预测第n个数据属于其正确类别i的概率,这是通过Softmax函数来激活的。
为了在空间和通道维度上充分利用本文的模型,实验过程中首先通过ImageNet预训练模型,然后保留特征提取部分的参数并微调模型,最初使用的损失函数如下所示:
为了更好地优化决策过程,应当避免模型对于自身预测结果过于自信的情况,因此我们增加了一个惩罚项来降低模型对自身预测结果的自信度。改进的损失函数如下所示:
其中α>0是一个用于降低模型自信程度的超参数。然而,当模型认为数据大概率属于某个特定类别时,预测结果之间的交叉墒会相对增大,这会导致Loss的值的增加。最终,我们将损失函数改进为如下所示:
其中β代表L2惩罚参数,Θ代表模型的权重。
本发明设计了三种模式的注意力阶段:仅含通道域的注意力阶段、仅含空间域的注意力阶段、结合通道域与空间域的注意力阶段。表5总结了对于通道域和空间域的消融实验结果。由结果表明,注意力阶段结合了通道域与空间域时能达到更好的准确率。从原理层面分析,主要是因为对于空间域生成的多个特征图,通道域可以平衡特征图上各个区域的权重,从而更好地联系特征图中各个区域的信息关联性,结合二者的模型综合了两种策略的优势所在,最终能有效地提升模型的性能。
在发明中,模型会在大型数据集(如ImageNet)中进行预训练,随后再次在低俗图像数据集上进行更为任务导向的细化训练。在预训练过程中(120epochs),本文的模型已经达到了78.84%的top-1准确率。随后我们微调模型,设置初始学习率为0.1,同样采用余弦衰退策略,衰退率为0.001。
为了对比损失函数对于模型性能的影响,我们将相同的模型分别配备三种不同的损失函数进行对比实验。实际上,在许多计算机视觉任务中,公式的思想已经能够有效地大幅度降低损失函数的抖动以及训练的过拟合问题。实验结果如表6所示,表明合适的损失函数进一步地提升了模型的性能。
步骤5.将训练过后的网络架构运用于数据的测试集中进行测试,以验证模型的准确率指标。
在深度学习架构中,反向传播策略是模型更新参数的重要法则,其通过梯度下降来更新权重参数,为了能够更好地控制反向传播过程中梯度下降的速度,引入了重要参数——学习率。选择合适的学习率调整策略对模型的训练过程十分重要。在模型训练过程中,当学习率衰退至足够小的值时,模型会出现收敛进度停滞不前的情况,准确率也无法再得到提升。为了使模型在训练过程中以一个相对适合的学习率逼近收敛,余弦学习率衰退策能够使得学习率以一个不断缩小的速率而减少,从而使得最终的学习率不会衰退至一个过于小的值。在本部分发明中,初始的学习率设定为0.1,并在训练过程使用余弦学习率衰退策略:
其中EpochStep代表遍历一遍训练数据集所需要的步数,"GlobalStep"为当前步数。本部分始终保持初始学习率为0.01,与此同时每10epoch进行一次余弦学习率衰退。这样随着epoch数量的增加,也能保证学习率的下降速率逐渐降低,并以此最终提高模型的性能表现。
Dropout是深度学习领域中一种经典的正则化策略,能够在模型训练的过程中通过解除相关神经元的关联,以此减少模型的过拟合问题。在本发明中,我们将Dropout的值设置为0.5。Dropout之所以能够有效地避免过拟合问题,是因为其在训练过程中能够阻止部分被选中的神经元与其余神经元交换信息,所以导致了相关神经元丢失了与其关联的隐藏节点,最终导致了他们无法相互作用与模型的运算过程。Dropout策略过程中的每次更新都能被看作是对训练集不同子集上不同模型的迭代,它能够减少众多神经元之间的复杂的相互反应,从而有效地较少过拟合问题的发生。
我们通过对比实验来验证模型核心模块对整体的效率提升的效果。考虑ResNet-101的参数规模大小与本文模型更为匹配,将其作为发明基线。所有的模型都训练于同一低俗图像数据集上,所有模型都通过85个epochs的训练,并采取余弦学习率衰退策略与Dropout策略。
步骤6.将测试得到的最优的注意力机制模型用于数据的可视化,以热力图的形式展现出图像的重点区域。
热力图的可视化设计原型是红外线成像。在红外线成像生成的图像中,温度相对较高的区域会呈现倾向于红色,而温度相对较低的区域会倾向于蓝色。热力图的可视化设计逻辑也是这样,通过颜色的差异可以体现出特征图中各个区域权重的高低——特征的权重相对较高时呈现红色,反之为蓝色。于是本发明通过热力图的形式来凸显出特征图中最具辨识度的特征。Grad-CAM利用卷积神经网络架构在分类任务中的特点,其最后一层往往利用Softmax函数来计算出各种类别的概率,并将概率最大的类别作为预测的物体类别。于是Grad-CAM基于概率最大值所属的类别开始进行反向传播,并求出网络最后一层卷积层的梯度值,随后求出每一份特征图的平均值。基于这个特征图的平均值,结合最优的注意力机制模型最后一层卷积层的输出结果,将二者的乘积叠加在原本的特征图上就得到最终的热力图可视化结果。
本发明对三个注意力阶段输出的特征图进行了热力图形式的可视化,详细内容见图6。通过对三个注意力阶段的对比,我们观察到每个注意力阶段的关注倾向都有所不同。在第一个注意力阶段的热力图中,我们可以观察到模型在此阶段主要将权重集中在人体的整体轮廓上,即低维度特征,在全局上过滤了大部分无关的背景信息;到了第二个注意力阶段时,会对关注的关键特征区域进行进一步的细分,将权重集中在1-2个关键敏感特征点上。在最后一个注意力阶段,模型能够过滤掉大部分无关的背景信息,将权重全部集中在图像的敏感区域上(胸部、臀部、生殖器官等等)。
步骤7.实验检测结果和性能测试。
本发明实验环境同样基于PyTorch框架,运行于Ubuntu16.02,使用两张NvidiaGeForce 1080Ti图形驱动显卡进行并行加速计算。训练完成后,我们对其测试结果进行了可视化展示,同时对敏感区域进行了马赛克处理。从视觉特征的角度分析,女性的胸部与臀部在低纬度特征方面(形状、轮廓等)具有很高的相似度。但实验测试可视化结果表明模型能够有效地区分这两个类别的区域,说明模型能够在基于低维度特征的基础上,考虑到更高维度的特征(纹理、边缘、质感等)。与此同时,胸部与乳沟两大类别通常会存在一部分重叠的区域,如果模型在运算过程中对于这部分重叠区域添加了较多的权重的话也会影响最终的检测性能表现。
最终通过对于敏感区域检测的可视化实现,能够配合注意力机制网络架构对于低俗图像进行分析。在实际场景中,我们可以先通过注意力机制网络架构对低俗图像进行四分类,得到一个相对准确的初步结果。随后针对存在争议或定界模糊的数据进行敏感区域检测得到一个解释性更好的细分结果。与此同时,鉴于模型的准确率往往在实际情况下难以达到100%的水平,这意味在模型测试过程中会出现部分错误的数据预测结果。为了更好地分析模型的优势以及不足之处,实验额外地分析了本文模型在测试过程中出现的错误样本,并从通过模型对其每个类别的评分情况来对其进行具体分析。如图7展示的错误样本,可以分别观察到每个类别中的典型错误样例。
基于自构建的四分类低俗图像数据集,本发明通过与现行前沿方法的对比实验来验证模型的性能与可行性。我们以四个具有代表性的卷积神经网络架构,包括VGGNet、ResNet、GoogleNet和DenseNet来作为实验基线。所有的网络架构都不经过预训练,初始的学习率为0.1并采用余弦衰退策略来调整训练过程中的学习率。
在相同低俗图像数据集上的实验结果如表7所示。考虑到模型都是从零开始在相同的数据集下进行训练,故实验结果能比较客观地验证本文模型的性能与可行性。本发明相对于四个寄出网络。。。
且其独特之处在于能够以热力图的形式可视化网络中的特征图,这样能更好地解释本文的模型为何在分类任务中能得到更好的性能,更详细的分析请见部分。
同时除了经典的卷积神经网络架构以外,本文还复现了一些图像识别领域前沿的方法来进行对比实验,包括DCNN、Two-Stage CNN、AutoCNN。对比实验结果如表8所示。通过与业内前沿的方法进行对比,更加客观地验证了本文模型的性能优越性。
表1
表2
表3
表4
表5
表6
模型的损失函数组成 | Top1准确率(%) |
公式(6) | 91.87 |
公式(7) | 92.24 |
公式(8) | 92.94 |
表7
模型的损失函数组成 | Top1准确率(%) |
VGGNet | 91.31 |
ResNet-101 | 91.25 |
GoogLeNet | 90.89 |
DenseNet-121 | 91.34 |
本文方法 | 92.94 |
表8
模型的损失函数组成 | Top1准确率(%) |
DCNN | 90.74 |
AutoCNN | 91.83 |
Two-StageCNN | 91.90 |
本文方法 | 92.94 |
。
Claims (9)
1.移动互联网上的低俗图片自动识别与内容过滤方法,其特征在于包括如下步骤:
步骤1.基于两大开源数据集,建立用于训练和测试四分类低俗图像数据集,同时对数据集中各个类别的样本进行计算;
所述的两大开源数据集为NSFW数据集和NPDI数据集;
步骤2.进行数据预处理:数据归一化以及数据增广;
步骤3.构建多阶段注意力机制的神经网络架构,包括对基础的注意力机制单元和深度神经网络的拓扑结构的设计;
步骤4.基于自建的四分类低俗图像数据集,对多阶段注意力机制的神经网络架构进行训练,获得注意力机制模型;
步骤5.将训练过后的注意力机制模型用数据的测试集进行测试,以验证模型的准确率等指标;
步骤6.将最优的注意力机制模型用于数据的可视化,以热力图的形式展现出图像的高权重重点区域。
2.根据权利要求1所述的移动互联网上的低俗图片自动识别与内容过滤方法,其特征在于步骤1所述的基于两大开源数据集包括NSFW数据集和NPDI数据集;四分类低俗图像数据集共包含四个类别:正常、轻微敏感、高度敏感、色情,每个类别中对性别、种族、身型、外貌特征都较为均匀地分布。
3.根据权利要求1或2所述的移动互联网上的低俗图片自动识别与内容过滤方法,其特征在于步骤3所述的构建多阶段注意力机制的网络架构包括多个注意力阶段;每个注意力阶段包含基础的注意力机制单元和深度神经网络的拓扑结构,其中每个注意力阶段的拓扑结构包含两个部分:通道域和空间域;且每个注意力阶段输出的特征图作为下一个注意力阶段的输入图像。
4.根据权利要求3所述的移动互联网上的低俗图片自动识别与内容过滤方法,其特征在于在通道域中,输入图像经过连续的两个基础的注意力机制单元处理后得到特征图F(x);在空间域中,输入图像先通过多个池化层进行下采样,再通过上采样将图像恢复原来的尺寸,从而在采样后的图像中提取出关键信息得到特征图M(x),此处通过Sigmoid函数正则化;为了防止出现梯度消失问题在通道域和空间域中增加了一条捷径,最终在注意力阶段输出的特征图为:
F(x)+F(x)×M(x)(1)。
5.根据权利要求4所述的移动互联网上的低俗图片自动识别与内容过滤方法,其特征在于注意力机制单元具体实现如下:
注意力机制单元通过最大池化层与平均池化层实现特征提取和通道选择的功能;对于一个尺寸为H×W×C的特征图χ,先将特征图同时进行平均池化和最大池化以缩小特征图尺寸,分别得到特征图ZAvg∈R1×1×C与ZMax∈R1×1×C;同时为了加强局部特征与全局特征的联系,提出了一种新的连接性模式:首先直接将特征图ZAvg与ZMax直接叠加,从而将对同一张特征图的两种类型的特征进行叠加;随后再通过一个卷积层使得叠加后的特征图以速率r缩小其通道数量至C/r;为了再次将通道数量扩展至C,此处再次运用一个卷积层来实现通道数量的增加;最后通过Sigmoid函数来作为入门机制函数;整个过程可以通过如下函数表示:
在注意力机制单元最后,通过点乘来重新缩放特征图,从而得到最终特征图:
6.根据权利要求4或5所述的移动互联网上的低俗图片自动识别与内容过滤方法,其特征在于步骤4具体实现如下:
首先通过ImageNet预训练模型,然后保留特征提取部分的参数并微调模型;最初使用的损失函数如下所示:
为了更好地优化决策过程,增加一个惩罚项来降低模型对自身预测结果的自信度,改进的损失函数如下所示:
其中,α>0是一个用于降低模型自信程度的超参数;然而当模型认为数据大概率属于某个特定类别时,预测结果之间的交叉墒会相对增大,这会导致Loss的值的增加;最终将损失函数进一步改为如下所示:
其中β代表L2惩罚参数,Θ代表模型的权重。
8.根据权利要求7所述的移动互联网上的低俗图片自动识别与内容过滤方法,其特征在于步骤6具体实现如下:
将Grad-CAM基于概率最大值所属的类别开始进行反向传播,并求出网络最后一层卷积层的梯度值,随后求出每一份特征图的平均值;基于这个特征图的平均值,结合最优的注意力机制模型最后一层卷积层的输出结果,将二者的乘积叠加在原本的特征图上就得到最终的热力图可视化结果。
9.根据权利要求7或8所述的移动互联网上的低俗图片自动识别与内容过滤方法,其特征在于热力图的可视化设计通过颜色的差异可以体现出特征图中各个区域权重的高低——特征的权重相对较高时呈现红色,反之为蓝色;对三个注意力阶段的对比如下:在第一个注意力阶段的热力图中,模型主要将权重集中在人体的整体轮廓上,即低维度特征;到了第二个注意力阶段时,会对关注的关键特征区域进行进一步的细分,将权重集中在1-2个关键敏感特征点上;在最后一个注意力阶段,模型能够过滤掉大部分无关的背景信息,将权重全部集中在图像的敏感区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011084050.4A CN112395442B (zh) | 2020-10-12 | 2020-10-12 | 移动互联网上的低俗图片自动识别与内容过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011084050.4A CN112395442B (zh) | 2020-10-12 | 2020-10-12 | 移动互联网上的低俗图片自动识别与内容过滤方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112395442A true CN112395442A (zh) | 2021-02-23 |
CN112395442B CN112395442B (zh) | 2022-06-14 |
Family
ID=74595933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011084050.4A Active CN112395442B (zh) | 2020-10-12 | 2020-10-12 | 移动互联网上的低俗图片自动识别与内容过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395442B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113554059A (zh) * | 2021-06-23 | 2021-10-26 | 北京达佳互联信息技术有限公司 | 图片处理方法、装置、电子设备及存储介质 |
CN113743188A (zh) * | 2021-06-28 | 2021-12-03 | 杭州电子科技大学 | 一种基于特征融合的互联网视频低俗行为检测方法 |
CN113805695A (zh) * | 2021-08-26 | 2021-12-17 | 东北大学 | 阅读理解水平的预测方法及装置、电子设备和存储介质 |
CN114566216A (zh) * | 2022-02-25 | 2022-05-31 | 桂林电子科技大学 | 一种基于注意力机制的剪接位点预测及解释性方法 |
CN115861745A (zh) * | 2022-10-25 | 2023-03-28 | 中国交通信息科技集团有限公司 | 一种用于生成三维模型的二维图像特征提取方法与系统 |
CN115909374A (zh) * | 2021-09-30 | 2023-04-04 | 腾讯科技(深圳)有限公司 | 一种信息识别方法、装置、设备及存储介质、程序产品 |
CN117077085A (zh) * | 2023-10-17 | 2023-11-17 | 中国科学技术大学 | 大模型结合双路记忆的多模态有害社交媒体内容识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017168125A1 (en) * | 2016-03-31 | 2017-10-05 | Queen Mary University Of London | Sketch based search methods |
WO2019183191A1 (en) * | 2018-03-22 | 2019-09-26 | Michael Bronstein | Method of news evaluation in social media networks |
CN110969124A (zh) * | 2019-12-02 | 2020-04-07 | 重庆邮电大学 | 基于轻量级多分支网络的二维人体姿态估计方法及系统 |
CN111061923A (zh) * | 2019-12-13 | 2020-04-24 | 北京航空航天大学 | 一种基于图依赖规则和监督学习的图数据实体识别方法、系统 |
CN111739075A (zh) * | 2020-06-15 | 2020-10-02 | 大连理工大学 | 一种结合多尺度注意力的深层网络肺部纹理识别方法 |
CN111738124A (zh) * | 2020-06-15 | 2020-10-02 | 西安电子科技大学 | 基于Gabor变换和注意力的遥感图像云检测方法 |
-
2020
- 2020-10-12 CN CN202011084050.4A patent/CN112395442B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017168125A1 (en) * | 2016-03-31 | 2017-10-05 | Queen Mary University Of London | Sketch based search methods |
WO2019183191A1 (en) * | 2018-03-22 | 2019-09-26 | Michael Bronstein | Method of news evaluation in social media networks |
CN110969124A (zh) * | 2019-12-02 | 2020-04-07 | 重庆邮电大学 | 基于轻量级多分支网络的二维人体姿态估计方法及系统 |
CN111061923A (zh) * | 2019-12-13 | 2020-04-24 | 北京航空航天大学 | 一种基于图依赖规则和监督学习的图数据实体识别方法、系统 |
CN111739075A (zh) * | 2020-06-15 | 2020-10-02 | 大连理工大学 | 一种结合多尺度注意力的深层网络肺部纹理识别方法 |
CN111738124A (zh) * | 2020-06-15 | 2020-10-02 | 西安电子科技大学 | 基于Gabor变换和注意力的遥感图像云检测方法 |
Non-Patent Citations (1)
Title |
---|
赵容梅等: ""基于混合神经网络的中文隐式情感分析"", 《四川大学学报(自然科学版)》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113554059A (zh) * | 2021-06-23 | 2021-10-26 | 北京达佳互联信息技术有限公司 | 图片处理方法、装置、电子设备及存储介质 |
CN113743188A (zh) * | 2021-06-28 | 2021-12-03 | 杭州电子科技大学 | 一种基于特征融合的互联网视频低俗行为检测方法 |
CN113743188B (zh) * | 2021-06-28 | 2024-02-09 | 杭州电子科技大学 | 一种基于特征融合的互联网视频低俗行为检测方法 |
CN113805695A (zh) * | 2021-08-26 | 2021-12-17 | 东北大学 | 阅读理解水平的预测方法及装置、电子设备和存储介质 |
CN113805695B (zh) * | 2021-08-26 | 2024-04-05 | 深圳静美大健康科技有限公司 | 阅读理解水平的预测方法及装置、电子设备和存储介质 |
CN115909374A (zh) * | 2021-09-30 | 2023-04-04 | 腾讯科技(深圳)有限公司 | 一种信息识别方法、装置、设备及存储介质、程序产品 |
CN114566216A (zh) * | 2022-02-25 | 2022-05-31 | 桂林电子科技大学 | 一种基于注意力机制的剪接位点预测及解释性方法 |
CN114566216B (zh) * | 2022-02-25 | 2024-04-02 | 桂林电子科技大学 | 一种基于注意力机制的剪接位点预测及解释性方法 |
CN115861745A (zh) * | 2022-10-25 | 2023-03-28 | 中国交通信息科技集团有限公司 | 一种用于生成三维模型的二维图像特征提取方法与系统 |
CN115861745B (zh) * | 2022-10-25 | 2023-06-06 | 中国交通信息科技集团有限公司 | 一种用于生成三维模型的二维图像特征提取方法与系统 |
CN117077085A (zh) * | 2023-10-17 | 2023-11-17 | 中国科学技术大学 | 大模型结合双路记忆的多模态有害社交媒体内容识别方法 |
CN117077085B (zh) * | 2023-10-17 | 2024-02-09 | 中国科学技术大学 | 大模型结合双路记忆的多模态有害社交媒体内容识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112395442B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112395442B (zh) | 移动互联网上的低俗图片自动识别与内容过滤方法 | |
Wadhawan et al. | Deep learning-based sign language recognition system for static signs | |
CN107273845B (zh) | 一种基于置信区域和多特征加权融合的人脸表情识别方法 | |
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN107967456A (zh) | 一种基于人脸关键点的多神经网络级联识别人脸方法 | |
CN105069400B (zh) | 基于栈式稀疏自编码的人脸图像性别识别系统 | |
CN109829427B (zh) | 一种基于纯度检测和空间注意力网络的人脸聚类方法 | |
WO2020114118A1 (zh) | 面部属性识别方法、装置、存储介质及处理器 | |
WO2021143101A1 (zh) | 人脸识别方法和人脸识别装置 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN112307995B (zh) | 一种基于特征解耦学习的半监督行人重识别方法 | |
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及系统 | |
EP4276684A1 (en) | Capsule endoscope image recognition method based on deep learning, and device and medium | |
CN109886161A (zh) | 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法 | |
CN115860152B (zh) | 一种面向人物军事知识发现的跨模态联合学习方法 | |
Boukdir et al. | Isolated video-based Arabic sign language recognition using convolutional and recursive neural networks | |
CN115187786A (zh) | 一种基于旋转的CenterNet2目标检测方法 | |
CN112668486A (zh) | 一种预激活残差深度可分离卷积网络面部表情识别方法、装置和载体 | |
CN112257741A (zh) | 一种基于复数神经网络的生成性对抗虚假图片的检测方法 | |
CN108009512A (zh) | 一种基于卷积神经网络特征学习的人物再识别方法 | |
CN114937298A (zh) | 一种基于特征解耦的微表情识别方法 | |
Li et al. | Egocentric action recognition by automatic relation modeling | |
Shi et al. | Improved metric learning with the CNN for very-high-resolution remote sensing image classification | |
CN103942545A (zh) | 一种基于双向压缩数据空间维度缩减的人脸识别方法和装置 | |
CN116311387B (zh) | 一种基于特征交集的跨模态行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |