CN109145979B

CN109145979B - 敏感图像鉴定方法及终端系统

Info

Publication number: CN109145979B
Application number: CN201810929971.2A
Authority: CN
Inventors: 王西子; 程峰; 王士林; 孙环荣; 刘功申; 周诚
Original assignee: Shanghai Songheng Network Technology Co ltd; Shanghai Jiaotong University
Current assignee: Shanghai Songheng Network Technology Co ltd; Shanghai Jiaotong University
Priority date: 2018-08-15
Filing date: 2018-08-15
Publication date: 2022-06-21
Anticipated expiration: 2038-08-15
Also published as: CN109145979A

Abstract

本发明实施例涉及图像鉴别以及人工智能技术领域，公开了一种敏感图像鉴定方法及终端系统。该方法应用于敏感图像鉴定系统，该系统包括：骨干网络、全局分类网络以及目标区域检测网络，该方法包括：在有局部区域标注的图像训练集上训练所述目标区域检测网络得到骨干网络参数；其中，所述骨干网络参数为所述目标区域检测网络中与所述骨干网络结构相同的网络结构的网络参数；根据所述骨干网络参数对所述全局分类网络进行初始化；初始化后的所述全局分类网络在类别标注数据集上进行训练，采用训练好的所述全局分类网络进行敏感图像分类。本发明实施例可以检测到图像中大小各异的敏感区域，从而大幅提升敏感图像分类性能。

Description

敏感图像鉴定方法及终端系统

技术领域

本发明实施例涉及图像鉴别以及人工智能技术领域，特别涉及一种敏感图像鉴定方法及终端系统。

背景技术

随着科技的发展进步，互联网成为人们日常生活和工作中离不开的工具，它在给人们带来生活方便、处理事务高效的同时，也会成为一些不法分子的有利工具，利用其传播和散延一些不良信息，如黄色图片、影视等，涉黄案件接踵而来，由此一来，“打黄”也显得尤为重要。

目前，现有的敏感图像的主要鉴别技术有两种。第一种是基于卷积神经网络(Convolution Neural Network，简称CNN)的敏感图像分类方法。作者直接将图像的像素信息分别输入到AlexNet[2]与GoogLeNet[3]中，基本保留了输入图像的所有信息，通过卷积、池化等操作对特征进行提取和高层抽象，并将两种网络输出图像识别的概率值加权求和来分类。CNN作为一种端到端的学习方法，应用非常广泛。第二种是CNN全局图像分类与局部图像目标检测Faster RCNN相结合的敏感图像分类方法。在给定的图片中，Faster RCNN可以精确地找到物体所在的位置，并标注物体的类别，即进行图像的识别与定位。作者将局部目标检测和全局特征相结合，进一步提升了敏感图像检测的正确率。基于卷积神经网络CNN的图像分类与普通神经网络非常相似，由具有可学习的权重和偏置常量(biases)的神经元组成。每个神经元接收一些输入，完成点积运算，再输出每个类的分数。CNN运用了权值共享方法大量减少了神经网络的参数，易于端到端的训练。

CNN通常包含以下几种层：

1.卷积层(Convolutional layer)

CNN中每层卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法进行优化而得到的。卷积运算的目的是提取输入的不同特征，第一层卷积层一般只提取低级的边缘、线条和角等层级的特征，高层卷积层能从低级特征中迭代提取更为复杂的特征。卷积计算过程如下：

给定一个图像X_ij，1≤i≤M，1≤j≤N，滤波器(卷积核)f_ij，1≤i≤m，1≤j≤n，一般m≤M，n≤N，以及偏置项b。卷积的输出为：

在一个卷积层中，每一个隐含单元仅仅能连接输入单元的一部分。输出值的计算方法是权重值与输入的点积并与偏置项求和而得。上一层的特征映射(feature map)进行上述的卷积操作，再通过一个激活函数ReLU，可以得到输出特征的特征映射。一个输出单元的大小由深度(depth)，步长(stride)，补零(zero-padding)来决定。深度指输出单元的深度，连接同一块区域的神经元个数。步长控制同一深度的相邻两个隐含单元与它们相连接的输入区域的距离。步长越大相邻隐含单元的输入区域的重叠部分会变少。通过在输入单元周围补零来改变输入单元整体大小，从而控制输出单元的空间大小。定义W₁*H₁*D₁为输入单元的大小，F为感受野，S为步长，P为补零的数量，K为输出单元的深度。则由以下公式计算输出三维单元的维度W₂*H₂*D₂：

在输出单元，第d个深度切片的结果是由第d个滤波器和输入单元做卷积运算，再与偏置求和而得。

2.线性整流层(ReLU layer)

这一层神经的活性化函数(Activation function)使用线性整流(RectifiedLinear Units,简称ReLU)，公式如下：

f(x)＝max(0,x)()＝(0,) (3)

3.池化层(Pooling layer)

池化层即下采样(down sampling)，目的是为了减少特征图。池化操作对每个深度切片独立，相对于卷积层进行卷积运算，并保持深度大小不变，如果池化层的输入单元大小不是2的整数倍，一般采取边缘补零(zero-padding)的方式补成2的倍数，然后再池化。池化层规模一般为2*2，步长为2，最常见的为最大池化与均值池化。

4.全连接层(Fully-Connected layer)

全连接层与卷积层可以相互转换。在全连接层中，每个神经元都与它上一层的所有神经元相连接。它将卷积层产生的特征图映射成一个固定长度(一般为输入图像数据集中的图像类别数)的特征向量。这个特征向量包含了输入图像所有特征的组合信息。该特征向量即表示图像分到每个类别的概率。

AlexNet是ILSVRC-2012ImageNet图像分类竞赛的冠军，而GoogLeNet是2014年ImageNet图像分类的冠军。作者将这两种神经网络结合并稍加改动使它更适合敏感图像识别任务，最终将图像分类为正常图像(benign)以及敏感图像(porn)。

如图1所示，ANet网络包含5个卷积层(内含最大值池化Max Pooling层)，后接三层全连接层。所有神经元都使用了线性整流函数来加速训练过程。ANet的输出即为分类到两个类别(正常图片和敏感图片)的概率分布。

GNet的网络结构如图2所示。它包括22层，与AlexNet相同输出分类为正常图像和敏感图像的概率。作者将ANet和GNet组装成为AGNet，如图3所示，AGNet将每个网络输出的分类概率融合。融合的过程为把输出分类加权平均得到最终概率值，经过比较获得分类结果。

上述技术提取了图像的全局特征进行分类。对于敏感特征明显的图像可以进行较好的分类。然而对于图像中仅包含较小的敏感区域，例如敏感的身体部位，而大部分都非常正常的图像，很难进行准确分类，因此无法达到较高的敏感图像召回率。而且该设计的决策融合方法过于简单，无法满足大部分敏感图像分类任务的要求。

考虑到图像全局特征的局限性，现有技术二基于多语境与层次模型的深度卷积神经网络敏感图像分类DMCNet[5]把全局语境和局部语境融合入多语境的深度卷积神经网络，提取出具有较高鉴别力的多语境特征。并提出由精到粗(fine-to-coarse)的层次模型(hierarchical model)来对图像从细尺度到粗尺度的分类。

1)层次模型

敏感图像与正常图像内部都包含许多分类。比如敏感图像包含裸体、性行为以及敏感器官等，而正常图像包含猫，人物，蛋糕，车等许多种类。因此该层次模型首先将图像进行细粒度分类，再由细分类到粗分类的映射将图像分类为敏感与正常图像。y_c，(y_{c∈C,c＝(1,2,...,M)})为图像粗粒度分类标签，y_f，(y_{f∈F,f＝(1,2,...,N)})为图像的细粒度分类标签。其中M,N分别为粗粒度类别数目与细粒度类别数目。对于输入图像I，y＝(y_c,y_f)为其粗细粒度的标签。先找到该图像分类概率最高的细粒度标签，y_f＝g_(I)。g_(I)是图像输入到深度卷积网络(CNN或目标识别网络Faster RCNN)的输出概率。再通过细粒度标签到粗粒度标签的映射函数T:y_f→y_c将标签映射为粗粒度标签，确定图像的类别。

2)多语境模型

全局语境模型：作者用VGG16作为全局神经网络将输入的RGB图像分类到1007个细粒度类别中。

局部语境模型：作者使用了Faster RCNN建立目标检测网络。Faster RCNN包括区域提取网络(Regional Proposal Network，简称RPN)以及检测网络。目标检测网络与全局神经网络共享卷积层，RPN网络将共享卷积层的最后一层卷积层输出的特征映射(featuremap)作为输入，输出图像中的一系列矩形目标候选框以及各区域是前景图的概率。对于feature map上的每个点，提取了以该点为中心的不同尺度和不同大小的9个锚点(anchor)。RPN网络对输入feature map进行3*3的滑动窗口卷积，每一个滑动窗口通过卷积被映射为512维向量(共享卷积层为VGG16)，再输入到两个全连接层网络中。其中一个网络是候选框坐标回归网络Bbox_reg(9*4＝36维)与二元分类网络(softmax分类，9*2＝18维)。在RPN网络后，使用一个RoI pooling层(Region of Interest pooling)将区域特征映射为固定大小的feature map。并最终提取了4096维特征，用于图像分类到1007个细粒度分类中。

跨语境模型：从全局语境网络和局部语境网络各提取出2048维特征向量连接在一起。用于图像细粒度分类。

作者将上述三种模型的输出结果依照如下的公式进行融合：

其中branches为DMCNet中分叉模型的数量，即3个。F_k为第k个模型生成的特征向量。φ(*)根据层次模型将细粒度分类映射到粗粒度分类。ψ(*)将粗粒度后的特征值归一化到[0,1]之间便于概率值的比较。通过该公式，可以得到图像分到正常图像与敏感图像分别的概率大小。

现有技术二存在以下缺点：

1)对于较小的图像，局部语境模型和跨语境模型无法达到较好的检测效果；

2)该设计仅仅融合了各个模型最终的结果，而不是融合特征再进行分类。因此如果任意一个模型完全分错都会严重影响最终结果的准确性。

综上，发明人发现：目前现有的技术仅采用图像的全局特征进行分类，而在敏感图像中敏感区域较小(图像中大部分是正常图像，小部分区域为敏感图像)时，常常因提取的是全局特征而被忽略，从而判定为正常图像。

发明内容

本发明实施方式的目的在于提供一种敏感图像鉴定方法及终端系统，可以检测到图像中大小各异的敏感区域，从而大幅提升敏感图像分类性能。

为解决上述技术问题，本发明的实施方式提供了一种敏感图像鉴定方法，应用于敏感图像鉴定系统，所述系统包括：骨干网络、全局分类网络以及目标区域检测网络，所述方法包括：在有局部区域标注的图像训练集上训练所述目标区域检测网络得到骨干网络参数；其中，所述骨干网络参数为所述目标区域检测网络中与所述骨干网络结构相同的网络结构的网络参数；根据所述骨干网络参数对所述全局分类网络进行初始化；在仅有类别标注的图像训练集上对初始化后的所述全局分类网络进行训练；采用训练后的所述全局分类网络进行敏感图像分类。

本发明的实施方式还提供了一种敏感图像鉴定终端系统，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前所述的敏感图像鉴定方法。

本发明实施方式相对于现有技术而言，通过搭建包含骨干网络、全局分类网络以及目标区域检测网络的敏感图像鉴定系统，在该系统中，通过在有局部区域标注的图像训练集上训练目标区域检测网络得到骨干网络参数，并根据骨干网络参数对全局分类网络进行初始化，在仅有类别标注的图像训练集上对初始化后的全局分类网络进行训练，从而对全局分类网络的参数进行调整，使得全局分类网络更为关注图像中的小区域特征，进而可以检测到图像中大小各异的敏感区域，大幅提升敏感图像分类性能。

另外，所述在有局部区域标注的图像训练集上训练所述目标区域检测网络得到骨干网络参数，具体包括：所述骨干网络根据输入的待检测图像输出多个不同分辨率的特征图；所述目标区域检测网络对所述多个不同分辨率的特征图进行预设处理以增强分辨率以及语义特征，并根据增强的特征图计算得到标注的各个局部区域包含敏感特征的概率及其坐标位置；根据各个局部区域包含敏感特征的概率及及其坐标位置的计算值与真实值比较，得到损失函数，调整所述目标区域检测网络网络参数以最小化损失函数来确定所述骨干网络参数。

另外，所述目标区域检测网络对所述多个不同分辨率的特征图进行预设处理以增强分辨率以及语义特征，具体包括：所述目标区域检测网络的每一层引入后一分辨率缩放两倍的特征图，并执行基于元素的相加操作；在所述相加操作后，对最后一层特征图进行多次卷积，每次卷积得到一个新增的特征图；所述多次卷积操作之间执行线性整流操作。通过前述操作使生成的特征图融合了不同分辨率、不同语义强度的特征，并且可在不增加额外的计算量的情况下保证每一层都有合适的分辨率以及强语义特征，提升物体检测的精度。

另外，所述并根据增强的特征图计算得到敏感特征的概率，具体包括：对特征图新增后的所有特征图进行卷积以及线性整流，分别提取每个特征图；提取的每个所述特征图上的每一个点均为对应于预设数量检测区域的锚点；分别针对每个锚点进行敏感特征检测得到每个锚点包含敏感特征的概率。

另外，所述系统的损失函数为所述目标区域检测网络的损失函数以及所述全局分类网络的损失函数之和。

另外，所述采用训练后的所述全局分类网络进行敏感图像分类，具体包括：通过五层卷积层生成特征图D₇；每层卷积后均进行线性整流；对D₇进行全局均值池化后连接到一个输出为三单元的全连接层，对图像进行三分类。

另外，所述系统的训练采用多任务学习的方法。

另外，所述系统采用递进学习策略进行训练。

另外，所述递进学习策略包括：在有敏感区域标注的数据集D₁上训练所述敏感图像鉴定系统，同时更新所述骨干网络、全局分类网络以及目标区域检测网络的参数；在仅有类别标注的数据集D₂上训练，固定所述目标区域检测网络的参数，仅更新所述骨干网络以及全局分类网络的参数；在所述D₁上训练，固定所述全局分类网络的参数，仅更新所述骨干网络以及所述目标区域检测网络的参数；重复所述在仅有类别标注的数据集D₂上训练，固定所述目标区域检测网络的参数，仅更新所述骨干网络以及全局分类网络的参数以及在所述D₁上训练，固定所述全局分类网络的参数，仅更新所述骨干网络以及所述目标区域检测网络的参数直到网络收敛。从而使得敏感图像鉴定系统中的各个网络能够快速的移植到其他数据集上进行训练，达到迁移学习的目的。目标区域检测网络的训练前期需要大量的样本目标框标注，消耗大量的人力，而上述递进学习方法的引入可以让模型在无样本框标注的数据集上进行训练，可以大幅节省人力。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是现有技术中基于AlexNet的ANet网络结构示意图；

图2是现有技术中基于GoogLeNet的GNet网络结构示意图；

图3是现有技术中AGNet的网络结构示意图；

图4是根据本发明第一实施方式敏感图像鉴定系统的结构示意图；

图5是根据本发明第一实施方式敏感图像鉴定方法的流程图；

图6是根据本发明第一实施方式的带有敏感图像鉴定方法数据流的敏感图像鉴定系统示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

传统的全局分类网络应用在敏感图片识别任务的主要缺陷在于全局分类网络比较看重整体图像，易于在分类时过多地考虑背景图像。而对于一些有高鉴别力的局部区域，比如鉴黄应用中的身体敏感区域不太关注。而这些局部小区域往往对敏感图像分类起决定性作用。基于此，本发明实施方式提出了以下解决方案以解决上述技术问题。

本发明的第一实施方式涉及一种敏感图像鉴定方法，应用于如图4所示的敏感图像鉴定系统。该敏感图像鉴定系统包括：骨干网络、全局分类网络以及目标区域检测网络。请参阅图5，该敏感图像鉴定方法包括步骤501至步骤504。

步骤501：在有局部区域标注的图像训练集上训练目标区域检测网络得到骨干网络参数。

其中，骨干网络参数为目标区域检测网络中与骨干网络结构相同的网络结构的网络参数。

步骤502：根据骨干网络参数对所述全局分类网络进行初始化。

步骤503：在仅有类别标注的图像训练集上对初始化后的全局分类网络进行训练。

步骤504：采用训练后的全局分类网络进行敏感图像分类。

本实施方式首先在有局部区域标注的图像训练集上训练目标区域检测网络，并用训练好的目标区域检测网络的骨干网络参数来初始化全局分类网络的骨干部分，然后即可在仅有类别标注的图像数据集上训练全局分类网络。经过目标区域检测网络的训练后，使得骨干网络部分拥有了图像局部区域特征提取与目标识别的能力。通过骨干网络参数初始化全局分类网络可以让全局分类网络更好的关注到图像小区域特征。

下面对本实施方式的敏感图像鉴定方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

步骤501具体包括：骨干网络根据输入的待检测图像输出多个不同分辨率的特征图，目标区域检测网络对多个不同分辨率的特征图进行预设处理以增强分辨率以及语义特征，并根据增强的特征图计算得到标注的各个局部区域包含敏感特征的概率及其坐标位置，根据各个局部区域包含敏感特征的概率及及其坐标位置的计算值与真实值比较，得到损失函数，调整目标区域检测网络网络参数以最小化损失函数来确定骨干网络参数。

其中，骨干网络可以采用ResNet，ResNet具有分类准确率高且计算速度快等优点，在一些例子中，还可以采用VGG16、ResNet101等作为骨干网络，本实施方式对于骨干网络的实现方式不作具体限制。

请参阅图6，实际应用中可以采用ResNet50作为骨干网络，骨干网络可以根据输入的待检测图像，例如一张待检测图像，输出一系列不同分辨率的特征图(feature map)，可记作{C₃,C₄,C₅}。其中，特征图C₅输入到全局分类网络，全局分类网络例如采用GcNet，然不限于此。C₃,C₄,C₅输入到目标区域检测网络，目标区域检测网络例如采用SpNet，亦不限于此。

步骤501中，SpNet的设计可借鉴特征金字塔网络(FPN)[6]与RetinaNet[7]。目标区域检测网络对多个不同分辨率的特征图进行预设处理以增强分辨率以及语义特征，具体包括：目标区域检测网络的每一层引入后一分辨率双线性插值缩放为原来两倍大小的特征图，并执行基于元素的相加操作，在相加操作后，对最后一层特征图进行多次卷积，每次卷积得到一个新增的特征图，多次卷积操作之间执行线性整流操作。具体地，目标区域检测网络将骨干网络生成的每一个不同分辨率的特征图feature map{C₃,C₄,C₅}作为输入，每一层可引入后一分辨率缩放两倍的feature map，并做基于元素的相加操作，例如P_i＝C_i+C_i+1expanded，i＝3,4，其中C_i+1expanded为将C_i+1扩展而生成与C_i分辨率相同的特征图。其中，每一层分别是指C₃,C₄,C₅}，而下标expanded表示缩放。通过这样的连接操作使目标区域检测网络生成的特征图融合了不同分辨率、不同语义强度的特征。P₅＝C₅，P₆在P₅的feature map上进行核为3*3，步长为2的卷积而成。P₇在P₆上进行同样的卷积操作生成。P₆,P₇之间加入了ReLU(Rectified Linear Units,ReLU，线性整流)操作层。经过以上步骤生成的featuremap{P₃,P₄,P₅,P₆,P₇}。在不增加额外的计算量的情况下保证了每一层都有合适的分辨率以及强语义特征，提升物体检测的精度。

步骤501中，并根据增强的特征图计算得到敏感特征的概率，具体包括：对特征图新增后的所有特征图进行卷积以及线性整流，分别提取每个特征图，提取的每个特征图上的每一个点均为对应于预设数量检测区域的锚点，分别针对每个锚点进行敏感特征检测得到每个锚点包含敏感特征的概率。具体地，对P₃至P₇的每一层feature mapP_i，进行四层核为3*3，filter数量为256的卷积以及一层ReLU操作提取feature map M_i，i∈[3,7]。M_i上的每一个点为对应九个不同大小的Anchor(锚点)，与输入图像上的一个以该点为中心的九种尺寸的区域对应。SpNet的主要目标为对每一个Anchor进行多目标检测，检测该Anchor所代表的原图区域中是否出现敏感图像特征，例如敏感身体部位的图像特征。举例而言，多目标检测中检测的是敏感图片中人体的一些关键部位，分为胸部(色情)、女性性器官(色情)、男性性器官(色情)、臀部(色情)、阴毛(色情)、胸部(性感)、臀部(性感)、背部(性感)、腿(性感)和上半身(性感)等十个特征部位，然不限于此，敏感图像特征还可以是其它占输入图像的面积较小的敏感图像的特征。对M_i进行核为3*3，filter数量为KA(K为待检测的目标数量，A为每个Anchor对应的尺寸数量，本系统中K＝10，A＝9的卷积并进行Sigmoid操作，得到的feature map即为每个Anchor包含各个目标的概率。SpNet可以对全局分类网络中C₃C₅的参数进行调整，使系统(亦称LocoaNet)更关注敏感区域，学习到更高鉴别力的特征。SpNet在每次迭代过程中输出的损失loss会被加到全局分类网络的损失中共同优化。

步骤504中，GcNet网络起到全局分类的作用，将图片分为三个类别，针对鉴黄应用而言，类型一例如是正常，类型二例如是敏感，类型三例如是色情等三个类别。GcNet将骨干网络的最后一层feature map C₅作为输入，通过五层卷积层生成feature map D₇。每层卷积后都应用ReLU操作进行线性整流。对D₇进行全局均值池化后连接到一个输出为三单元的全连接层，对图像进行三分类。

在一个例子中，所述敏感图像鉴定系统的损失函数为目标区域检测网络的损失函数以及全局分类网络的损失函数之和。SpNet的损失函数使用了focal loss[7]，GcNet的损失函数为交叉熵代价函数(cross-entropy loss)。将损失函数求和可以在训练时让SpNet和GcNet达到平衡。SpNet帮助调整GcNet，使GcNet能关注局部小区域，并且也使系统不至于因过于关注局部区域而将正常图片错分。

在一些例子中，LocoaNet的训练可以采用多任务学习的方法，例如目标区域检测网络通过多任务学习机制与全局分类网络联合调参，从而对全局分类网络的参数进行进一步调整，然不限于此。

需要说明的是，骨干网络可以采用ImageNet的预训练模型进行finetune。在测试过程中，不运算SpNet网络部分，仅计算GcNet部分进行图像分类，减少了计算复杂度。

值得一提的是，敏感图像鉴定系统可以采用递进学习策略进行训练。递进学习策略包括：

步骤一)在有敏感区域标注的数据集D₁上训练敏感图像鉴定系统，同时更新骨干网络、全局分类网络以及目标区域检测网络的参数；

步骤二)在仅有类别标注的数据集D₂上训练，固定目标区域检测网络的参数，仅更新骨干网络以及全局分类网络的参数；

步骤三)在D₁上训练，固定全局分类网络的参数，仅更新骨干网络以及目标区域检测网络的参数；

步骤四)重复上述步骤二)和所述步骤三)直到网络收敛。

通过使用递进学习的策略使得LocoaNet能够快速地移植到其他数据集上进行训练，达到迁移学习的目的。目标区域检测网络的训练前期需要大量的样本目标框标注，消耗大量的人力，而递进学习方法的引入可以让本系统的模型在无样本框标注的数据集上进行训练。

本发明实施方式把目标区域检测网络(即局部敏感区域检测网络)与全局分类网络相结合，让局部敏感区域检测网络帮助调整全局分类网络，对敏感图片提取高鉴别力的特征，达到了很高的分类准确率。相比于现有技术中的目标检测系统仅针对feature map的最后一层，特征表达能力不足，本实施方式的SpNet对图像进行多尺度的目标检测，能够更好地捕捉不同尺寸的敏感身体部位，从而提高了分类的准确率。本发明实施方式同时提出了递进学习策略提升网络对其他数据集的泛化能力。并且，计算复杂度相比于现有设计更小。本发明实施方式在公开数据集NPDI[8]上达到了92.2％的三分类准确率，在AIC(包含有类别标注的150000张图像和有敏感区域标注的14000张色情图像)上达到了95.8％的三分类准确率。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第二实施方式涉及一种敏感图像鉴定终端系统，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述实施方式所述的敏感图像鉴定方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明第三实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种敏感图像鉴定方法，其特征在于，应用于敏感图像鉴定系统，所述系统包括：骨干网络、全局分类网络以及目标区域检测网络，所述方法包括：

在有局部敏感区域标注的图像训练集上训练所述目标区域检测网络得到骨干网络参数；其中，所述骨干网络参数为所述目标区域检测网络中与所述骨干网络结构相同的网络结构的网络参数；

根据所述骨干网络参数对所述全局分类网络进行初始化；

在仅有类别标注的敏感图像训练集上对初始化后的所述全局分类网络进行训练；

采用训练后的所述全局分类网络进行敏感图像分类。

2.根据权利要求1所述的敏感图像鉴定方法，其特征在于，所述在有局部敏感区域标注的图像训练集上训练所述目标区域检测网络得到骨干网络参数，具体包括：

所述骨干网络根据输入的待检测图像输出多个不同分辨率的特征图；

所述目标区域检测网络对所述多个不同分辨率的特征图进行预设处理以增强分辨率以及语义特征，并根据增强的特征图计算得到标注的各个局部敏感区域包含敏感特征的概率及其坐标位置；

根据各个局部敏感区域包含敏感特征的概率及及其坐标位置的计算值与真实值比较，得到损失函数，调整所述目标区域检测网络网络参数以最小化损失函数来确定所述骨干网络参数。

3.根据权利要求2所述的敏感图像鉴定方法，其特征在于，所述目标区域检测网络对所述多个不同分辨率的特征图进行预设处理以增强分辨率以及语义特征，具体包括：

所述目标区域检测网络的每一层引入后一分辨率缩放两倍的特征图，并执行基于元素的相加操作；

在所述相加操作后，对最后一层特征图进行多次卷积，每次卷积得到一个新增的特征图；

所述多次卷积操作之间执行线性整流操作。

4.根据权利要求3所述的敏感图像鉴定方法，其特征在于，所述并根据增强的特征图计算得到敏感特征的概率，具体包括：

对特征图新增后的所有特征图进行卷积以及线性整流，分别提取每个特征图；

提取的每个所述特征图上的每一个点均为对应于预设数量检测区域的锚点；

分别针对每个锚点进行敏感特征检测得到每个锚点包含敏感特征的概率。

5.根据权利要求1所述的敏感图像鉴定方法，其特征在于，所述系统的损失函数为所述目标区域检测网络的损失函数以及所述全局分类网络的损失函数之和。

6.根据权利要求1所述的敏感图像鉴定方法，其特征在于，所述采用训练后的所述全局分类网络进行敏感图像分类，具体包括：

通过五层卷积层生成特征图D₇；

每层卷积后均进行线性整流；

对D₇进行全局均值池化后连接到一个输出为三单元的全连接层，对图像进行三分类。

7.根据权利要求1所述的敏感图像鉴定方法，其特征在于，所述系统的训练采用多任务学习的方法。

8.根据权利要求1所述的敏感图像鉴定方法，其特征在于，所述系统采用递进学习策略进行训练。

9.根据权利要求8所述的敏感图像鉴定方法，其特征在于，所述递进学习策略包括：

在有敏感区域标注的数据集D₁上训练所述敏感图像鉴定系统，同时更新所述骨干网络、全局分类网络以及目标区域检测网络的参数；

在仅有类别标注的数据集D₂上训练，固定所述目标区域检测网络的参数，仅更新所述骨干网络以及全局分类网络的参数；

在所述D₁上训练，固定所述全局分类网络的参数，仅更新所述骨干网络以及所述目标区域检测网络的参数；

重复所述在仅有类别标注的数据集D₂上训练，固定所述目标区域检测网络的参数，仅更新所述骨干网络以及全局分类网络的参数以及

在所述D₁上训练，固定所述全局分类网络的参数，仅更新所述骨干网络以及所述目标区域检测网络的参数直到网络收敛。

10.一种敏感图像鉴定终端系统，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至9中任一所述的敏感图像鉴定方法。