CN109325513A

CN109325513A - 一种基于海量单类单幅图像的图像分类网络训练方法

Info

Publication number: CN109325513A
Application number: CN201810867642.XA
Authority: CN
Inventors: 章东平; 郑寅; 陶禹诺; 陈思瑶; 毕崇圆
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2019-02-12
Anticipated expiration: 2038-08-01
Also published as: CN109325513B

Abstract

本发明公开了一种基于海量单类单幅图像的图像分类网络训练方法，采用单类单幅和单类多幅的双数据形式的训练数据集交替循环训练海量单类单幅图像的图像分类网络，将训练数据输入层替换为训练数据集1输入层和训练数据集2输入层两个网络层，当训练的迭代次数为奇数时，将训练数据集1作为基于海量单类单幅图像的图像分类网络的输入数据，基于迭代次数的动态损失函数采用类间距离损失函数，对网络进行训练，当迭代次数为偶数时，将训练数据集2作为基于海量单类单幅图像的图像分类网络的输入数据，基于迭代次数的动态损失函数采用center loss和Soft‑max损失函数相结合作为训练网络的损失函数对网络进行训练，得到图像分类模型。

Description

一种基于海量单类单幅图像的图像分类网络训练方法

技术领域

本发明涉及计算机视觉、模式识别，机器学习等技术领域，特别是一种基于单类单幅图像的图像分类网络训练方法。

背景技术

机器学习方法被广泛用于图像分析，通过在给定数据集上训练模型来完成新数据上的特定任务，比如分类、识别和分割等。常用的算法有支持向量机(SVM),隐马尔科夫(HMM)以及人工神经网络等。然而，传统的机器学习算法祈要利用先验知识从原始数据中人工提取特征，从而训练模型。由于特征选取难度较大，模型可能存在过拟合问题，泛化能力难以保证；另一方面，传统模型难以适应大规模数据集，模型可扩展性差。

深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习。深度学习是一种数据驱动型模型，能够模拟人脑视觉机理自动地学习到数据各个层次的抽象特征，从而更好地反映数据的本质特征。

DeepID是目前效果不错的人脸图像识别算法，采用的就是深度学习的方法，在DeepID的实验过程中，使用的外部数据集为CelebFaces+，达到了97.20的效果。但是DeepID采用人脸身份证数据集进行实验，效果却不是很理想。这是因为人脸身份证数据集只是单类单幅数据集，本身没有类内距离，DeepID失去了一定的效果。

在深度学习的应用中，时常就会碰到训练例如人脸身份证图片这样的单类单幅图像的问题解决上述问题的关键就是如何使得该模型能够克服训练数据集只有单类单幅数据集的形式，并能够使得训练数据集的类间距离更加大，类内距离更加小。根据单类单幅图片和单类多幅图片的关联性，利用单类多幅图片训练数据集含有的类内距离属性，弥补单类单幅图片没有类内距离的特点，并且利用海量单类单幅图片训练数据集含有的类间距离属性，增大多类单幅图片的的类间距离。

发明内容

本发明克服了难以训练只具有类间距离而没有类内距离的单类单幅图片，从而得到识别单类单副和单类多幅图片准确率高的模型。

本发明为达上述发明目的，采用如下技术方案：

一种基于海量单类单幅图像的图像分类网络训练方法，其步骤包括：

步骤(1)：将包含N类单类单幅的图像数据集作为训练数据集1，将包含M类单类多幅的图像数据集作为训练数据集2，训练数据集1的图片数量要远多于训练数据集2的图片数量，所述单类单幅是每一类图像中仅包含一张该类的图像，单类多幅是每一类图像中包含多张同类的图像。

步骤(2)：在DeepID网络结构的基础上进行改进，将训练数据输入层替换为训练数据集1输入层和训练数据集2输入层两个网络层，将DeepID网络结构中的Soft-max层替换为基于迭代次数的动态损失函数，该基于迭代次数的动态损失函数会根据迭代次数的奇偶性对损失函数计算公式进行动态选择，将改进后的网络称为基于海量单类单幅图像的图像分类网络，所述DeepID网络结构包含四个卷积层(每个卷积层后带有一个最大池化层)、一个全连接层Fc1、一个Soft-max层。

步骤(3)：当训练的迭代次数为奇数时，将训练数据集1作为基于海量单类单幅图像的图像分类网络的输入数据，步骤二中的基于迭代次数的动态损失函数采用类间距离损失函数，对网络进行训练，当迭代次数为偶数时，将训练数据集2作为基于海量单类单幅图像的图像分类网络的输入数据，步骤(2)中的基于迭代次数的动态损失函数采用centerloss和Soft-max损失函数相结合作为训练网络的损失函数对网络进行训练，得到图像分类模型，所述center loss、softmax损失函数的公式分别为L_s和L_c：

当训练的迭代次数为偶数时，训练数据集2作为网络的输入，基于迭代次数的动态损失函数计算公式为：

其中，W_i ^T是第i个训练样本所在训练网络的权重参数，b_i是偏置项，x_i是第i个训练样本在Fc1层输出的特征，y_i是第i个训练样本的类别标签，第y_i类的特征中心，m表示每一次迭代输入的训练样本数量，n表示训练数据集1的类别数。

当训练的迭代次数为奇数时，训练数据集1作为网络的输入，基于迭代次数的动态损失函数计算公式为：

其中z_s表示第s个训练样本在Fc1层输出的特征，z_t表示第t个训练样本在Fc1层输出的特征。

步骤(4)：将图像输入到基于海量单类单幅图像的图像分类网络中，并利用图像分类模型进行特征提取，获得图像分类结果。

与现有技术相比，本发明的有益效果体现在：

采用海量的单类单幅图片训练集和单类多幅图片训练集交替循环训练网络可以有效增大训练集图片的类间距离，减小训练训练集的类内距离，从而得到识别准确率高的模型。

附图说明

图1是本发明的训练流程图。

具体实施方式

本实施例中，流程如图1所示，一种基于海量单类单幅图像的图像分类网络训练流程图，具体实现主要包括如下步骤：

步骤(1)：数据准备：采用100万张单类单幅人脸身份证数据集作为训练数据集1，采用Webface人脸数据集作为训练数据集2。

步骤(2)：数据预处理：将准备好的2种人脸数据集图片都转换成128*128的分辨率。

步骤(3)：交替循环训练基于海量单类单幅图像的图像分类网络：Mini-batch是每批次训练处理的数据样本的个数，本发明采用每批次训练个数为64张，当训练的迭代次数为奇数时，任意不重复地从数据集1中选出64张图片，输入到图像分类网络中去，动态损失函数采用类间距离损失函数的，根据类间距离损失函数进行反向传播计算，迭代更新每一层的权重。上次训练结束后就是偶数次训练，再从CASIA-WebFace人脸数据集的图片中选出64张CASIA-WebFace人脸数据集的图片，输入到图像分类网络中去，动态损失函数采用center loss和Soft-max损失函数，根据center loss和softmax层损失函数值的大小来进行反向传播迭代，训练参数。最终完成设置的训练迭代次数，得到图像分类模型。

步骤(4)：网络测试：将测试图像输入到基于海量单类单幅图像的图像分类网络中，并利用图像分类模型进行特征提取，获得该测试图像的图像分类结果。

Claims

1.一种基于海量单类单幅图像的图像分类网络训练方法，其特征在于：包括如下步骤：

步骤一，数据准备：将包含N类单类单幅的图像数据集作为训练数据集1，将包含M类单类多幅的图像数据集作为训练数据集2，训练数据集1的图片数量要远多于训练数据集2的图片数量，所述单类单幅是每一类图像中仅包含一张该类的图像，单类多幅是每一类图像中包含多张同类的图像；

步骤二，网络结构：在DeepID网络结构的基础上进行改进，将训练数据输入层替换为训练数据集1输入层和训练数据集2输入层两个网络层，将DeepID网络结构中的Soft-max层替换为基于迭代次数的动态损失函数，基于迭代次数的动态损失函数会根据迭代次数的奇偶性对损失函数计算公式进行动态选择，将改进后的网络称为基于海量单类单幅图像的图像分类网络，所述DeepID网络结构包含四个卷积层、一个全连接层Fc1、一个Soft-max层；

步骤三，网络训练：当训练的迭代次数为奇数时，将训练数据集1作为基于海量单类单幅图像的图像分类网络的输入数据，步骤二中的基于迭代次数的动态损失函数采用类间距离损失函数，对网络进行训练，当迭代次数为偶数时，将训练数据集2作为基于海量单类单幅图像的图像分类网络的输入数据，步骤二中的基于迭代次数的动态损失函数采用centerloss和Soft-max损失函数相结合作为训练网络的损失函数对网络进行训练，得到图像分类模型，所述center loss、softmax损失函数的公式分别为L_s和L_c：

步骤四，网络测试：将测试图像输入到基于海量单类单幅图像的图像分类网络中，并利用图像分类模型进行特征提取，获得该测试图像的分类结果。

2.根据权利要求1中所述的基于海量单类单幅图像的图像分类网络训练方法，

其特征在于：步骤二中基于迭代次数的动态损失函数的公式如下:

其中，W_i是第i个训练样本所在训练网络的权重参数，b_i是偏置项，x_i是第i个训练样本在Fc1层输出的特征，y_i是第i个训练样本的类别标签，第y_i类的特征中心，m表示每一次迭代输入的训练样本数量，n表示训练数据集1的类别数。