CN109034205A

CN109034205A - 基于直推式半监督深度学习的图像分类方法

Info

Publication number: CN109034205A
Application number: CN201810713131.2A
Authority: CN
Inventors: 张玥; 龚怡宏; 石伟伟; 程德; 陶小语
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-12-18
Anticipated expiration: 2038-06-29
Also published as: CN109034205B

Abstract

本发明一种基于直推式半监督深度学习的图像分类方法，包括：准备半监督图像数据集，将训练数据划分为训练数据集和验证数据集；训练数据集中其中一部分数据为有标签的数据，另一部分为无标签的数据，验证数据集中为有标签的数据；在有标签的训练数据集上，训练通用的深度神经网络图像分类模型，当训练的模型在验证数据集上达到预期的精度，保存网络模型参数；搭建基于Min‑Max准则的直推式半监督深度卷积神经网络模型，同时使用训练数据集中有标签的数据和无标签的数据循环训练模型，当循环次数达到最大循环次数，保存网络模型参数；使用训练好的模型计算测试图像的标签或测试数据集的识别精度。本发明提出的TSSDL算法，具有很好的可移植性。

Description

基于直推式半监督深度学习的图像分类方法

技术领域

本发明属于计算机视觉图像分类技术领域，具体涉及一种基于Min-Max准则的直推式半监督深度学习的图像分类方法。

背景技术

迄今为止，深度卷积神经网络已经在许多计算机视觉应用中展示了高水准的性能，如图像分类、物体检测、人脸识别和图像转换等。包含数百万个标注图像的大规模训练数据集，是驱动深度卷积神经网络获得成功的重要因素之一。然而，手动标注创建一个大规模、高质量的训练集，是非常耗时、昂贵或甚至难以完成的(例如图像语义分割的训练集)。与此同时，可以很容易地通过网络爬虫和搜索引擎从互联网上获取海量未标记的图像。因此，近年来越来越多的研究人员开始研究如何利用标记数据和未标记数据，使用半监督学习(SSL)方法训练深度卷积神经网络。半监督学习的研究工作在极大的降低训练高性能精度的深度卷积神经网络的成本上有很大的潜力。

传统的SSL方法大多基于标签传播算法，即通过度量训练样本之间的相似性将有标签样本的标签传播到相似度高的无标签样本。另一类研究工作被称为直推式半监督学习(TSSL)，这类方法将无标签样本的标签视为变量，通过迭代训练过程确定其类别。在训练过程结束时，同时使用有标签和无标签的训练样本训练分类器。由于在训练过程中使用了额外的无标签样本，使用SSL和TSSL方法训练得到的分类器通常比使用相同有标签训练样本全监督训练得到的分类器效果更好。

然而，传统的SSL和TSSL存在两个共同的问题。首先，这两类方法通常在训练过程的最初阶段，就需要高质量的特征描述子来度量训练样本之间的相似度。由于深度卷积神经网络模型在训练初始阶段输出的特征质量较差，随着训练过程推进特征质量逐渐提高，因此很难将这两类方法与深度卷积神经网络的训练相结合。其次，传统的SSL和TSSL方法平等地对待每个未标记的样本，不能合理的处理奇异样本和不确定的数据样本，影响模型训练的稳定性和效果。这个问题在深度卷积神经网络训练中影响更明显，因为网络模型训练初始阶段产生的特征质量较差且不稳定，可能会误导模型训练到错误的方向。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种基于直推式半监督深度学习的图像分类方法。

为达到上述目的，本发明采用如下技术方案：

基于直推式半监督深度学习的图像分类方法，包括以下步骤：

1)准备半监督图像数据集，将训练数据划分为训练数据集和验证数据集；训练数据集中其中一部分数据为有标签的数据，另一部分为无标签的数据，验证数据集中为有标签的数据；

2)在有标签的训练数据集上，训练通用的深度神经网络图像分类模型，当训练的模型在验证数据集上达到预期的精度，保存网络模型参数；

3)搭建基于Min-Max准则的直推式半监督深度卷积神经网络模型，同时使用训练数据集中有标签的数据和无标签的数据循环训练模型，当循环次数达到最大循环次数，保存网络模型参数；

4)使用训练好的模型计算测试图像的标签或测试数据集的识别精度。

本发明进一步的改进在于，步骤2)的具体实现方法如下：

设训练集为其中表示有标签的数据集，表示无标签的数据集，X_i是第i^th个训练样本；如果那么是对应的真值标签向量，当X_i属于第j^th类时否则，K表示类别数量，L和U分别表示有标签数据集和无标签数据集训练样本的数量，通常L＜＜U，N＝L+U为训练样本的总数量；

在有标签的训练数据集上，训练通用的深度神经网络图像分类模型时，典型的损失函数通常定义如下：

其中，θ为整个深度卷积神经网络的参数集，l₀(X_i,y_i；θ)为样本X_i的损失函数，为人工提供的训练集的真值标签向量，通过训练过程确定其取值；

如果使用通用的softmax损失函数，那么上述公式改写为：

其中，f(X_i；θ)为样本X_i在深度卷积神经网络倒数第二层的输出，即样本X_i学习到的特征，W为网络最后一层全连接层的参数；定义CEsoftmax(a,b)＝Cross-Entropy(softmax(a),b)，通过最小化损失函数学习模型最优的参数θ^*。

本发明进一步的改进在于，步骤3)中每次循环的具体实现方法如下：

101)根据提出的TSSDL算法，按以下损失训练深度卷积神经模型：

其中，为训练集的预测标签向量集，中的元素r_i为样本X_i的置信度，表征标签向量属于样本X_i的可信度；如果那么在整个训练过程中始终置为真值标签向量如果那么为当前网络参数下预测的标签向量，并作为变量优化；

传导学习过程通过优化以下损失函数，优化参数θ^*,和

102)在上述损失函数中，固定θ，更新置信度

103)在上述损失函数中，固定θ和优化

104)在上述损失函数中，固定和在训练集上使用小批量随机梯度下降法训练深度卷积神经网络至收敛。

本发明进一步的改进在于，步骤102)中具体实现方法如下：

对于有标签的样本始终将其置信度为r_i＝1；对于无标签的样本有如下直观假设：奇异样本和极度不确定样本通常落在特征空间的稀疏区域；稠密区域的样本正确分类的概率更大；设{f₁,…,f_N}为当前网络参数下{X₁,…,X_N}的特征即f_i＝f(X_i；θ)，定义X_i的邻近度d_i为：

其中，为f_i的k近邻；显然，如果样本X_i落在稠密区域，则d_i的值较小，样本X_i预测正确标签的可能性较大；因此，样本X_i的置信度定义如下：

d_max＝max{d₁,…,d_N}

训练过程中，随着网络参数θ迭代更新，学习的样本特征{f₁,…,f_N}也不断更新，训练迭代过程中特征更新后，重新计算置信度

本发明进一步的改进在于，步骤103)中具体实现方法如下：

固定网络参数θ和置信度通过优化获得最优的预测标签向量计算无标签样本X_i,(i＝L+1,…,N)的最优解这里为了方便说明用y_i代替令图像X_i的预测得分向量为p_i＝[p_1i,p_2i,…,p_Ki]，p_i即softmax归一化后的深度卷积神经网络最后一层输出，其中p_ji表示图像X_i在第j^th类上的预测得分；

损失函数中的相关项改写为：

其中，显然，对不同的样本i是解耦的，因此上述公式的优化问题转化为独立的子问题：

由于r_i≥0，优化问题转化为：

当s＝argmax_kp_ki时，上述优化问题的解取决于否则，s＝1,…,K，因此其最优解为：

本发明进一步的改进在于，步骤104)中具体实现方法如下：

定义基于Min-Max准则的MMF正则项为：

其中，若否则h为预设间隔；

对每个训练样本X_i，通过添加不同的随机扰动η_i,η_i′,分别得到两个有扰动的样本X_i+η_i,X_i+η′_i，设计损失项使两个添加了不同扰动的样本学习到的特征尽可能一致，用公式表示如下：

结合上述两项正则项，得到深度卷积网络模型学习鲁棒Min-Max特征：

其中，λ₁和λ₂为两个正则项的权重；因此，提出的TSSDL算法损失函数表示如下：

使用梯度下降法的深度卷积神经网络反向传播；其中，上述公式的第一项的梯度使用标准算法计算，R^RF的梯度根据计算，R^MMF的梯度计算方法为且：

其中，当a＜0时ψ(a)＝1，否则ψ(a)＝0；通过深度卷积神经网络反向传播获得。

相对于现有技术，本发明具有如下的优点：

本发明提出的TSSDL算法独立于任何深度卷积神经网络架构，具有很好的可移植性。首先，本发明提出的TSSDL算法，扩展了传统的SSL方法和TSSL方法，使其适用于深度卷积神经网络的训练。传统的TSSL方法对于每个训练样本的特征描述子是固定的，而本发明提出的TSSDL方法在训练过程中不断优化特征描述子。其次，对每个未标记样本引入的置信度，特殊处理来自异常值和不确定样本的影响。传统的TSSL方法，均等的对待每个无标签样本没有处理奇异样本和极度不确定样本对模型带来的不稳定性。相反的，本发明提出的TSSDL方法对样本X_i引入了置信度r_i，减弱特殊样本对模型训练的负面影响。最后，提出了MMF正规项，使深度卷积神经网络学习到的特征具有如下性质：具有相同标签的图像在特征空间距离尽可能近，不同标签的图像在特征空间距离大于预设间隔。

本发明分别在通用实验基准数据集CIFAR10和SVHN上，对提出的TSSDL算法进行了测试。CIFAR10数据集包括10个类别共计60000张自然图像，其中50000张为训练图像，10000张为验证图像。本发明采用了通用的测试方法，即分别从50000张训练图像中选取1000、2000、4000和50000张图像作为有标签图像，其余训练图像作为无标签图像进行训练。SVHN数据集包括73257张训练图像和26032张验证图像。同样采用通用的测试方法，分别从训练集中选择250、500、1000和73257张图像作为有标签训练数据，其余训练图像为无标签图像进行训练。测试结果显示本发明提出的TSSDL算法与其他SSL方法相比，在数据集上取得了更好的分类精度，提出的TSSDL-MT算法在两个数据集上取得了最好的分类精度。

附图说明

图1为CIFAR10测试集上采用TDCNN方法提取的特征可视化效果图，每个点表示一张图像，不同的颜色深度表示不同的类别。

图2为CIFAR10测试集上采用TMMF方法提取的特征可视化效果图，每个点表示一张图像，不同的颜色深度表示不同的类别。

图3为CIFAR10测试集上采用TRF方法提取的特征可视化效果图，每个点表示一张图像，不同的颜色深度表示不同的类别。

图4为CIFAR10测试集上采用TSSDL方法提取的特征可视化效果图，每个点表示一张图像，不同的颜色深度表示不同的类别。

具体实施方式

针对上述研究现状，本发明提出了一种能有效训练深度卷积神经网络模型的直推式半监督深度学习(TSSDL)算法。提出的直推式半监督深度学习(TSSDL)算法主要包含三个部分：首先，本发明扩展传统的TSSL方法，使其适用于DCNN训练。本发明将未标记样本的标签作为变量，通过迭代训练最小化损失函数，同时确定最优的未标记样本标签和深度卷积神经网络模型参数。据本发明所知，本发明提出的方法是最先尝试将传导学习原理应用于深度卷积神经网络模型训练过程中的。其次，为了克服深度卷积神经网络模型在训练初始阶段生成的低质量特征描述子可能将训练过程误导到错误的方向的问题，本发明为每个未标记样本X_i引入的置信度r_i，表示当前版本的深度卷积神经网络模型预测出样本X_i的标签矢量y_i的可靠程度。通常，在标签高密度区域对无标签样本的预测比低密度区域更为准确，因此提出如下假设计算置信度r_i：如果X_i位于高密度区域，那么预测的标签向量y_i可靠程度较高，反之较低。第三，本发明提出了Min-Max准则强制深度卷积神经网络模型学习的特征具有以下属性：如果两幅图像具有相同的标签，那么它们的特征描述子之间的距离必须尽可能小，如果两幅图像具有不同的标签，它们的特征距离必须大于预定的间隔。MMF可以作为传统标签传播算法的重要扩展，它不仅要求具有相同标签的图像在特征空间尽可能接近，同时要求不同标签的图像在特征空间的距离大于预订的间隔，因此训练的模型能从标记样本和未标记样本中学习到更有辨别力的特征描述子。

设训练集为其中表示有标签的数据集，表示无标签的数据集，X_i是第i^th个训练样本。如果那么是对应的真值标签向量，当X_i属于第j^th类时否则，K表示类别数量，L和U分别表示有标签数据集和无标签数据集训练样本的数量，通常L＜＜U。N＝L+U为训练样本的总数量。

1.直推式半监督深度学习(TSSDL)

使用全监督学习方法训练深度卷积神经网络模型时，典型的损失函数通常定义如下：

其中，θ为整个深度卷积神经网络的参数集，l₀(X_i,y_i；θ)为样本X_i的损失函数。为人工提供的训练集的真值标签向量，通过训练过程确定其取值。如果使用通用的softmax损失函数，那么公式(1)可改写为：

其中，f(X_i；θ)为样本X_i在深度卷积神经网络倒数第二层的输出，即样本X_i学习到的特征，W为网络最后一层全连接层的参数。定义CEsoftmax(a,b)＝Cross-Entropy(softmax(a),b)。通过最小化损失函数学习模型最优的参数θ^*。

本发明提出的TSSDL算法，根据以下损失训练深度卷积神经模型：

其中，为训练集的预测标签向量集。中的元素r_i为样本X_i的置信度，表征标签向量属于样本X_i的可信度。如果那么在整个训练过程中始终置为真值标签向量如果那么为当前网络参数下预测的标签向量，并作为变量优化。随着传导学习过程的收敛，迭代更新收敛到样本X_i的最终预测标签向量。传导学习过程通过优化以下损失函数，优化参数θ^*,和

下面介绍样本X_i的置信度r_i计算方法。对于有标签的样本始终将其置信度为r_i＝1。对于无标签的样本有如下直观假设：奇异样本和极度不确定样本通常落在特征空间的稀疏区域；稠密区域的样本正确分类的概率更大。设{f₁,…,f_N}为当前网络参数下{X₁,…,X_N}的特征即f_i＝f(X_i；θ)，定义X_i的邻近度d_i为：

其中，为f_i的k近邻。显然，如果样本X_i落在稠密区域，则d_i的值较小，样本X_i预测正确标签的可能性较大。因此，样本X_i的置信度定义如下：

d_max＝max{d₁,…,d_N}#(6)

训练过程中，随着网络参数θ迭代更新，学习的样本特征{f₁,…,f_N}也不断更新。因此，训练迭代过程中特征更新后，需要重新计算置信度

2.鲁棒Min-Max特征学习(RMMF)

在提出的TSSDL算法中，通过学习鲁棒的Min-Max特征进一步提高图像分类的精度。具体的，通过在公式(3)增加两个正则项实现，其中一个正则项学习Min-Max特征，另一个学习鲁棒特征，下面将详细介绍这两个正则项。

Min-Max准则要求学习的特征空间具有以下性质，相同标签的图像特征间的距离尽可能小，且不同标签图像特征间的距离大于预设间隔。基于这一性质，定义MMF正则项为：

其中，若否则h为预设间隔。

为了学习鲁棒的特征，对每个训练样本X_i，通过添加不同的随机扰动η_i,η_i′,分别得到两个有扰动的样本X_i+η_i,X_i+η′_i，本发明希望两个添加了不同扰动的样本学习到的特征尽可能一致，用公式表示如下：

结合上述两项正规项，使得深度卷积网络模型学习鲁棒Min-Max特征：

其中，λ₁和λ₂为两个正则项的权重。因此，本发明提出的TSSDL算法损失函数表示如下：

3.TSSDL算法求解

下面将介绍公式(10)中损失函数的优化方法，优化流程如下：

输入：训练集参数λ₁,λ₂,迭代次数Tmax(设Tmax＝3)。

输出：深度卷积神经网络参数θ。

步骤：

1、在有标签的数据集上，使用全监督方法训练深度卷积神经网络。

2、从loop＝1到Tmax：

3、固定θ，根据公式(6)更新置信度

4、固定θ和优化

5、固定和根据公式(10)在训练集上使用小批量随机梯度下降法训练深度卷积神经网络至收敛。

6、循环结束

下面将详细介绍优化流程中的步骤4和步骤5。

步骤4：固定网络参数θ和置信度通过优化获得最优的预测标签向量本发明只需要计算无标签样本X_i,(i＝L+1,…,N)的最优解这里为了方便说明用y_i代替令图像X_i的预测得分向量为p_i＝[p_1i,p_2i,…,p_Ki](p_i即softmax归一化后的深度卷积神经网络最后一层输出)，其中p_ji表示图像X_i在第j^th类上的预测得分。

公式(10)中的相关项可改写为：

其中，显然，对不同的样本i是解耦的，因此公式(11)的优化问题转化为独立的子问题：

由于r_i≥0，优化问题转化为：

当s＝argmax_kp_ki时，上述优化问题的解取决于否则，(s＝1,…,K)。因此，公式(12)的最优解为：

步骤4中的优化根据公式(14)实现。

步骤5：本步骤即使用梯度下降法的深度卷积神经网络反向传播。其中，公式(10)的第一项的梯度使用标准算法计算，R^RF的梯度根据计算，R^MMF的梯度计算方法为且：

其中，当a＜0时ψ(a)＝1，否则ψ(a)＝0。通过深度卷积神经网络反向传播获得。

4.TSSDL-MT算法

在实验中，本发明结合TSSDL算法和Mean Teacher算法，开发了TSSDL的一个变种TSSDL-MT算法，损失函数定义如下：

其中，θ′_t＝αθ′_t-1+(1-α)θ_t，α为指数移动平均数参数(EMA)。使用参数的基准模型为学生模型，使用参数的模型为老师模型。TSSDL-MT算法的优化方法与TSSDL算法相似。

表1为在CIFAR10测试集上Top-1错误率的性能比较结果(取10次实验平均值)。

表2为在SVHN测试集上Top-1错误率的性能比较结果(取10次实验平均值)。

如图1至图4所示，为CIFAR10测试集上不同方法提取的特征可视化效果图，每个点表示一张图像，不同的颜色深度表示不同的类别。

Claims

1.基于直推式半监督深度学习的图像分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于直推式半监督深度学习的图像分类方法，其特征在于，步骤2)的具体实现方法如下：

其中，θ为整个深度卷积神经网络的参数集，l₀(X_i，y_i；θ)为样本X_i的损失函数，为人工提供的训练集的真值标签向量，通过训练过程确定其取值；

如果使用通用的softmax损失函数，那么上述公式改写为：

其中，f(X_i；θ)为样本X_i在深度卷积神经网络倒数第二层的输出，即样本X_i学习到的特征，W为网络最后一层全连接层的参数；定义CEsoftmax(a，b)＝Cross-Entropy(softmax(a)，b)，通过最小化损失函数学习模型最优的参数θ^*。

3.根据权利要求2所述的基于直推式半监督深度学习的图像分类方法，其特征在于，步骤3)中每次循环的具体实现方法如下：

传导学习过程通过优化以下损失函数，优化参数θ^*，和

102)在上述损失函数中，固定θ，更新置信度

103)在上述损失函数中，固定θ和优化

4.根据权利要求3所述的基于直推式半监督深度学习的图像分类方法，其特征在于，步骤102)中具体实现方法如下：

对于有标签的样本始终将其置信度为r_i＝1；对于无标签的样本有如下直观假设：奇异样本和极度不确定样本通常落在特征空间的稀疏区域；稠密区域的样本正确分类的概率更大；设{f₁，…，f_N}为当前网络参数下{X₁，…，X_N}的特征即f_i＝f(X_i；θ)，定义X_i的邻近度d_i为：

训练过程中，随着网络参数θ迭代更新，学习的样本特征{f₁，…，f_N}也不断更新，训练迭代过程中特征更新后，重新计算置信度

5.根据权利要求3所述的基于直推式半监督深度学习的图像分类方法，其特征在于，步骤103)中具体实现方法如下：

固定网络参数θ和置信度通过优化获得最优的预测标签向量计算无标签样本X_i，(i＝L+1，…，N)的最优解这里为了方便说明用y_i代替令图像X_i的预测得分向量为p_i＝[p_1i，p_2i，…，p_Ki]，p_i即softmax归一化后的深度卷积神经网络最后一层输出，其中p_ji表示图像X_i在第j^th类上的预测得分；

损失函数中的相关项改写为：

由于r_i≥0，优化问题转化为：

当s＝argmax_kp_ki时，上述优化问题的解取决于否则，s＝1，…，K，因此其最优解为：

6.根据权利要求3所述的基于直推式半监督深度学习的图像分类方法，其特征在于，步骤104)中具体实现方法如下：

定义基于Min-Max准则的MMF正则项为：

其中，若否则h为预设间隔；

对每个训练样本X_i，通过添加不同的随机扰动η_i，η_i′，分别得到两个有扰动的样本X_i+η_i，X_i+η′_i，设计损失项使两个添加了不同扰动的样本学习到的特征尽可能一致，用公式表示如下：