CN111832650A

CN111832650A - 基于生成对抗网络局部聚合编码半监督的图像分类方法

Info

Publication number: CN111832650A
Application number: CN202010672056.7A
Authority: CN
Inventors: 田小林; 杨坤; 高文星; 张艺帆; 王露; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-10-27
Anticipated expiration: 2040-07-14
Also published as: CN111832650B

Abstract

本发明公开了一种基于生成对抗网络局部聚合编码半监督的图像分类方法，具体实现步骤为：(1)生成训练集；(2)构建生成器网络；(3)训练生成器网络；(4)构建局部聚合编码半监督分类网络；(5)训练局部聚合编码半监督分类网络；(6)判断局部聚合编码半监督分类网络的当前损失值是否接近0.5，若是，执行步骤(7)，否则，执行步骤(3)；(7)得到生成对抗网络；(8)对待分类图像进行分类。本发明通过构建局部聚合编码半监督分类网络，降低了网络复杂度，提高了对类别间特征的辨识度，能够在只含有少量精确标注样本的样本集上获得很好的分类效果。

Description

基于生成对抗网络局部聚合编码半监督的图像分类方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像分类技术领域中的一种基于生成对抗网络局部聚合编码半监督的图像分类方法。本发明从自然场景中的每张图片包含一个或多个类别物体的单通道和多通道图片中，对待分类的所有图片中包含的不同类别目标的图片进行分类。

背景技术

图像分类的主要任务是可以实现对输入的图像中的目标进行类别的识别，进而准确确定目标所属类别。随着人们在计算机视觉领域的不断深入研究，图像分类任务在该领域得到了广泛应用和发展，目前基于生成对抗网络的分类算法主要分为无监督学习和半监督学习。无监督学习通过使用生成网络生成虚假样本，并将真实样本和虚假样本送入判别器网络进行判别，不断对抗式地训练生成器网络和判别器网络，进而对自然场景中包含不同类别的目标图片生成分类结果。半监督学习将生成的虚假样本和一小部分带有精确标签的数据以及大部分的无标签的数据送进判别网络进行训练，进而对送进网络的测试图片输出类别结果。在实际应用场景中，无监督学习由于使用的是没有精确标签的数据集，无法准确判定类别间的界限，造成分类结果不够准确；而一般的半监督图像分类方法，虽然能够判定类别间的界限，但是忽略了类别间的特征差异对分类准确性起到的作用，这限制了一般半监督方法的分类精度。

Jinhao Dong，Tong Lin在其发表的论文“MarginGAN:Adversarial Training inSemi-Supervised Learning.”(NeurIPS，2019年12月)中公开了一种利用生成对抗网络产生图像类间边界的半监督图像分类方法。该方法通过生成器网络产生虚假样本图像，通过判别器网络对真实样本和虚假样本进行判别，得到判别结果，使用一个多类别分类网络对输入分类网络中的带标签数据、未带标签数据以及虚假样本进行分类，生成可分辩的类别边界信息，该方法虽然改进了生成对抗网络无法清晰地辨别图像类间特征差异的问题，能够对自然图像更加准确地分类，但是，该方法仍然存在的不足之处是，该方法在判别器网络之外需要增加一个多类别分类网络，增加了网络的复杂度，增加了网络训练的困难程度，降低了网络分类的速度。

西安电子科技大学在其申请的专利文献“基于生成对抗网络的半监督图像分类方法”(申请号：2019103237026，公开号：110097103A)中公开了一种基于生成对抗网络的半监督图像分类方法。该方法首先将生成器网络接收到的噪声向量映射成特征图，混合真实样本一起送进判别器网络进行训练，得到第一次训练后的判别器网络参数。然后使用这些参数更新生成器网络参数，依次迭代更新判别器和生成器网络的参数。最后通过判别器网络最后一层输出一个单位向量，用来确定特征图片的类别。但是，该方法仍然存在的不足之处是，该方法忽略了图像的类间特征差异，没有使用特征编码本对提取到的特征进行选择和优化，影响了其分类的精度。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于生成对抗网络局部聚合编码半监督的图像分类方法，用于解决现有技术所采用的网络复杂度高、网络训练困难、无法清晰辨识类间特征差异的问题。

实现本发明目的的具体思路是：在局部聚合编码半监督分类网络中对提取到的图像特征进行局部聚合编码，生成局部聚合编码本，产生图像类别特征与局部聚合编码本之间的映射关系，通过特征编码对提取到的图像类间特征进行选择和优化，从而实现对图像更加准确地分类。

实现本发明目的的步骤如下：

(1)生成训练集：

选取包含10个类别的至少50000张图片，将每张图片尺寸调整成28*28个像素，对调整后的每张图片进行归一化处理，将归一化后的所有图片组成训练集；

(2)构建生成器网络：

(2a)搭建一个5层生成器网络，其结构依次为：全连接层→第1卷积层→第2卷积层→第3卷积层→第4卷积层；

(2b)设置生成器网络每层的参数：

将全连接层的输出维度设置为256；

将第1至4层卷积层的卷积核个数依次设置为256、128、64、1，卷积核的尺寸依次设置为5×5、5×5、5×5、1×1，卷积步长依次设置为2、2、2、1，卷积层的激活函数均使用LeakyReLU函数；

将第2至4层卷积层使用的Leaky ReLU激活函数的斜率均设置为1；

(3)训练生成器网络：

将尺寸为28×28个像素的至少100个随机噪声输入到生成器网络中，输出尺度为28×28个像素的虚假样本；

(4)构建局部聚合编码半监督分类网络：

(4a)搭建一个6层局部聚合编码半监督分类网络，其结构依次为：输入层→第1卷积层→第2卷积层→第3卷积层→第4卷积层→局部聚合编码层→全连接层；

(4b)设置局部聚合编码半监督分类网络每层的参数：

将第1至4层卷积层的卷积核大小均设置为3×3，卷积层的步长依次设置为2、2、1、1，卷积核的维度依次设置为64、128、256、256，卷积层的激活函数均使用Leaky ReLU函数；

局部聚合编码层的码本数量设置为4，输出向量维度设置为4×256；

全连接层的卷积核个数设置为11，卷积核尺寸设置为256×256；

将第1至4层卷积层使用的Leaky ReLU激活函数的斜率均设置为1；

(5)训练局部聚合编码半监督分类网络：

(5a)从生成器网络输出的虚假样本和数据集中各随机选取50个样本进行混合，将混合后的样本输入到局部聚合编码半监督分类网络中，利用第1至4层卷积层提取图像特征，输出4×256维的视觉描述符；

(5b)建立局部聚合编码本：

将4×256维的视觉描述符输入到聚合编码层，生成图像特征和局部聚合编码之间的映射关系，输出4×256维的特征向量；

将4×256维的特征向量依次进行归一化和正则化处理，将处理后的特征向量输入到全连接层，全连接层11个卷积核输出对应的11个类别概率值；其中，所述11个类别概率值包含1个虚假样本类别概率值和10个真实样本类别概率值；

(5c)利用局部聚合编码半监督分类网络损失函数，计算11个类别概率值中最大值的分类损失值；

(5d)利用分类损失值，分别更新局部聚合编码半监督分类网络和生成器网络中每一层的权重值；

(6)判断局部聚合编码半监督分类网络的当前损失值是否接近0.5，若是，后执行步骤(7)，否则，执行步骤(3)；

(7)得到生成对抗网络：

完成局部聚合编码半监督分类网络和生成器网络的交替训练，得到训练好的局部聚合编码半监督分类网络和生成器网络，将训练好的局部聚合编码半监督分类网络和训练好的生成器网络级联成生成对抗网络；

(8)对待分类图像进行分类：

将待分类的图片输入到生成对抗网络中，输出分类结果。

本发明与现有技术相比具有如下优点：

第一，由于本发明构建了一个只包含6层的局部聚合编码半监督分类网络，网络结构简单，网络容易训练，克服了现有技术在判别器网络之外需要增加一个多类别分类网络，网络训练困难的缺点，使得本发明具有网络复杂度低，网络容易训练，分类准确度高的优点；

第二，由于本发明在训练局部聚合编码半监督分类网络时，生成局部聚合编码本，产生图像类别特征与局部聚合编码本之间的映射关系，克服了现有技术忽略图像类间特征差异，类间特征辨识不清的问题，使得本发明清晰辨识类间特征差异，能够使用局部聚合编码对特征进行选择和优化，具有分类准确度较高的优点。

附图说明

图1为本发明的流程图；

图2为本发明对MNIST手写数据集的仿真结果图，

图3为本发明对Cifar10数据集的仿真结果图。

具体实施方式

下面结合附图对本发明做进一步的描述。

参照附图1，对本发明的具体步骤做进一步的描述。

步骤1，生成训练集。

选取包含10个类别的至少50000张图片，将每张图片尺寸调整成28×28个像素，对调整后的每张图片进行归一化处理，将归一化后的所有图片组成训练集；

从MNIST手写数据集官网下载包含10类共计50000个样本，50000个样本包含1000个精确标注样本和49000个无标注样本，将每张图片的尺寸调整成28×28个像素，对调整后的每张图片进行归一化处理，将归一化后的图片组成MNIST训练集；

从Cifar10官网下载包含10个类别的共计50000个样本，50000个样本包含2000个精确标注样本和48000个无标注样本，将每张图片尺寸调整成28×28个像素，对调整后的每张图片进行归一化处理，将归一化后的图片组成Cifar10训练集。

步骤2，构建生成器网络。

搭建一个5层生成器网络，其结构依次为：全连接层→第1卷积层→第2卷积层→第3卷积层→第4卷积层；

设置生成器网络每层的参数：

将全连接层的输出维度设置为256；

将第2至4层卷积层使用的Leaky ReLU激活函数的斜率均设置为1。

步骤3，训练生成器网络。

将尺寸为28×28个像素的至少100个随机噪声输入到生成器网络中，输出尺度为28×28个像素的虚假样本。

步骤4，构建局部聚合编码半监督分类网络。

搭建一个6层局部聚合编码半监督分类网络，其结构依次为：输入层→第1卷积层→第2卷积层→第3卷积层→第4卷积层→局部聚合编码层→全连接层；

设置局部聚合编码半监督分类网络每层的参数：

全连接层的卷积核个数设置为11，卷积核尺寸设置为256×256；

将第1至4层卷积层使用的Leaky ReLU激活函数的斜率均设置为1。

步骤5，训练局部聚合编码半监督分类网络。

从生成器网络输出的虚假样本和数据集中各随机选取50个样本进行混合，将混合后的样本输入到局部聚合编码半监督分类网络中，利用第1至4层卷积层提取图像特征，输出4×256维的特征视觉描述子；

使用下列距离公式计算特征视觉描述子与k个聚类中心之间的距离：

其中，V(i,j)表示特征描述子每一维的值与聚类中心每一维的差的和，∑表示求和运算，N表示特征视觉描述子向量的行数，这里设置为4，α_k(x_i)表示第i个特征描述子x_i到每个码字c_k的权重值，k表示聚类中心的个数，这里设置为11，x_i表示第i个视觉描述子，x_i(j)表示第i个视觉描述子的第j维数据，c_k(j)表示第k个聚类中心的第j维数据；

使用随机初始化方法初始化权重值α_k(x_i)，并使用k-means算法聚类特征视觉描述子，得到初始局部聚合编码本；

使用广义线性模型令局部聚合编码权重值服从指数分布，每个码本获得多个特征描述子，更加全面地表示样本特征信息，广义线性模型表示如下：

其中，α表示局部聚合编码本的权重值，l(α)表示局部聚合编码权重的最优值，∑表示求和操作，m表示样本的数量，i表示从1至m的整数值，log表示对数操作，Π表示求积操作，k表示样本的类别数，这里设置为11，l和j表示从1至k的整数值，e^·表示指数操作，T表示转置操作，

表示对应于样本类别l的局部聚合编码本的权重向量的转置，x表示样本，y表示样本的分布，y由下述公式得到：

其中，p(y＝l|x；α)表示给定样本x和局部聚合编码本的权重α时分布y属于类别l的概率值。

将4×256维的视觉描述符输入到局部聚合编码层，生成图像类别特征和局部聚合编码之间的映射关系，输出4×256维的特征向量。

将4×256维的特征向量依次进行归一化和正则化处理，将处理后的特征向量输入到全连接层，全连接层11个卷积核输出对应的11个类别概率值；其中，所述11个类别概率值包含1个虚假样本类别概率值和10个真实样本类别概率值。

所述正则化处理是指，将归一化后的特征向量使用L2正则化进行处理，减少冗余信息，防止过拟合。

利用局部聚合编码半监督分类网络损失函数，计算11个类别概率值中最大值的分类损失值。

所述局部聚合编码半监督分类网络损失函数如下：

其中，L_s表示局部聚合编码半监督分类网络的损失值，

表示服从某一分布的数学期望值，x表示服从某一分布的真实样本向量，y表示分类任务的类别数值，p_data(x,y)表示服从某一分布的真实样本概率密度函数，log表示对数操作，K表示训练集中图像类别数，第K+1类数据表示生成器网络生成的虚假样本，p_model(y|x,y＜K+1)表示K+1类分类模型概率。

利用分类损失值，分别更新局部聚合编码半监督分类网络和生成器网络中每一层的权重值，是由如下公式完成的。

更新局部聚合编码半监督分类网络中每一层权重是由下述公式完成的：

其中，

表示局部聚合编码半监督分类网络中第t层更新后的权值，S_t表示局部聚合编码半监督分类网络中第t层的更新前权值，ξ表示初始值设置为0.001的学习率，在迭代训练次数为10000、30000次时，学习率分别衰减为0.009、0.005，ΔS_t表示局部聚合编码半监督分类网络中第t层更新前权值的梯度值，α表示值为0.1的系数，L_s表示局部聚合编码半监督分类网络的分类损失值。

更新生成器网络中每一层权重是由下述公式完成的：

其中，W_t表示生成器网络第t层更新后的权重值，E_z-p(z)表示噪声向量z服从噪声概率密度函数p(z)的数学期望，log表示以10为底的对数操作，W(·)表示求平均值操作，G(z_t)表示噪声向量在生成器网络第t层对应的权重向量。

步骤6，判断局部聚合编码半监督分类网络的当前损失值是否接近0.5，若是，执行步骤7，否则，执行步骤3。

步骤7，得到生成对抗网络z。

完成局部聚合编码半监督分类网络和生成器网络的交替训练，得到训练好的半监督分类网络和生成器网络，将训练好的局部聚合编码半监督分类网络和训练好的生成器网络级联成生成对抗网络。

步骤8，对待分类图像进行分类。

将待分类的图像输入到生成对抗网络中，输出分类结果。

下面结合仿真实验对本发明的效果做进一步的说明：

1.仿真实验条件：

本发明的仿真实验的硬件平台是：CPU为intel Core i5-6500，主频为3.2GHz，内存为8GB，GPU为NVIDIA TITAN Xp，显存为12GB。

本发明的仿真实验的软件平台是：Ubuntu 16.04LTS，64位操作系统，python 3.5。

本发明仿真实验1所使用的输入图像是MNIST手写数据集的50000个训练样本中的1000个精确标注样本和剩余49000个无标注样本，该数据集包含了10个类别的图像，图像格式是JPEG格式。

本发明仿真实验2所使用的输入图像是Cifar10数据集的50000个训练样本中的2000个精确标注样本和剩余48000个无标注样本，该数据集包含10个类别的图像，图像格式均为JPEG。

2.仿真内容及仿真结果分析：

本发明仿真实验采用本发明分别对输入的MNIST图像和Cifar10图像进行分类，获得分类结果图。

下面结合图2和图3的仿真图对本发明的效果做进一步的描述。

图2为采用本发明的方法对MNIST手写数据集的50000个训练样本中1000个精确标注样本和49000个无标注样本进行分类的结果图，结果图横坐标表示网络迭代训练的次数，结果图纵坐标表示图像分类准确率。从图2可见，本发明在使用了1000个精确标注样本情况下，取得了99.30％的图像分类准确率。

图3为采用本发明的方法对Cifar10数据集的50000个训练样本中2000个精确标注样本和48000个无标注样本进行分类的结果图，其中，结果图横坐标表示网络迭代训练次数，结果图纵坐标表示图像分类准确率。从图3可见，本发明在使用了2000个精确标注样本情况下，取得了82.49％的图像分类准确率。

将本发明的分类结果和三个现有技术(阶梯网络Ladder network半监督分类方法，类别生成对抗网络CatGAN半监督分类方法，任务导向GAN半监督分类方法)的分类结果进行对比，得到分类结果对比表。

采用的三个现有技术是指：

现有技术阶梯网络Ladder network半监督分类方法是指，Shreekantha等人在“Metal-insulator transition in an aperiodic ladder network:an exact result[J],Physical Review Letters,2008,1101(7):10-13.”中提到的半监督图像分类方法，简称Ladder network。

现有技术类别生成对抗网络CatGAN半监督分类方法是指，Jost等人在“Unsupervised and Semi-supervised Learning with Categorical GenerativeAdversarial Networks，In ICLR 2016,abs/1511.06390.”中提出的半监督图像分类方法，简称CatGAN。

现有技术任务导向GAN半监督分类方法是指，Jiao Licheng等人在“Task-Oriented GAN for PolSAR Image Classification and Clustering.[J].IEEETransactions on Neural Networks and Learning Systems,2019,30(9):2707-2719.”中提出的半监督图像分类方法，简称Task-Oriented GAN。

下面结合表1和表2对本发明的效果做进一步的对比说明：

表1.仿真实验中本发明和上述现有技术在MNIST数据集上的分类结果对比表

结合表1可以看出，本发明在带标注样本数为1000的50000个MNIST样本上的准确率为99.30％，高于3种现有技术方法，证明本发明可以得到更高的MNIST手写数字分类准确率。

表2.仿真实验中本发明和上述现有技术在Cifar10数据集上面的分类结果对比表

结合表2可以看出，本发明在带标注样本数为2000的50000个Cifar10样本上的准确率为82.49％，高于3种现有技术方法，证明本发明可以得到更高的Cifar10图像分类准确率。

以上仿真实验和分类结果的对比表明：本发明方法利用搭建的局部聚合编码半监督分类网络，能够更加有效地获取MNIST手写数字和Cifar10图像的类间特征，聚合生成更具表征类间特征的局部聚合编码本，利用级联成的生成对抗网络，能够产生包含虚假样本在内的类间特征和局部聚合编码本之间的映射关系，具有较高的分类准确度，是一种非常实用的多类别图像分类方法。

Claims

1.一种基于生成对抗网络局部聚合编码半监督的图像分类方法，其特征在于，构建由生成器网络和局部聚合编码半监督分类网络组成的生成对抗网络；使用局部聚合编码半监督分类网络特征产生局部聚合编码；对生成对抗网络的生成器网络和局部聚合编码半监督分类网络交替训练；该方法的步骤包括如下：

(1)生成训练集：

(2)构建生成器网络：

(2b)设置生成器网络每层的参数：

将全连接层的输出维度设置为256；

将第2至4层卷积层使用的Leaky ReLU激活函数的斜率均设置为1；

(3)训练生成器网络：

(4)构建局部聚合编码半监督分类网络：

(4b)设置局部聚合编码半监督分类网络每层的参数：

全连接层的卷积核个数设置为11，卷积核尺寸设置为256×256；

将第1至4层卷积层使用的Leaky ReLU激活函数的斜率均设置为1；

(5)训练局部聚合编码半监督分类网络：

(5a)从生成器网络输出的虚假样本和数据集中各随机选取50个样本进行混合，将混合后的样本输入到局部聚合编码半监督分类网络中，利用第1至4层卷积层提取图像特征，输出4×256维的视觉描述子；

(5b)建立局部聚合编码本：

将4×256维的视觉描述符输入到局部聚合编码层，生成图像特征和局部聚合编码之间的映射关系，输出4×256维的特征向量；

(6)判断局部聚合编码半监督分类网络的当前损失值是否接近0.5，若是，执行步骤(7)，否则，执行步骤(3)；

(7)得到生成对抗网络：

(8)对待分类图像进行分类：

将待分类的图像输入到生成对抗网络中，输出分类结果。

2.根据权利要求1所述的基于生成对抗网络局部聚合编码半监督的图像分类方法，其特征在于，步骤(5c)中所述的局部聚合编码半监督分类网络损失函数如下：

其中，L_s表示局部聚合编码半监督分类网络的分类损失值，E_{x,y～Pdata(x,y)}表示服从某一分布的数学期望值，

中的x表示服从某一分布的真实样本向量，y表示分类任务的类别数值，p_data(x,y)表示服从某一分布的真实样本概率密度函数，log表示对数操作，K表示训练集中图像类别数，第K+1类数据表示生成器网络生成的虚假样本，p_model(y|x,y＜K+1)表示K+1类分类模型概率。

3.根据权利要求1所述的基于生成对抗网络局部聚合编码半监督的图像分类方法，其特征在于，步骤(5d)分别更新局部聚合编码半监督分类网络和生成器网络中每一层权重是由如下公式完成的：

其中，

表示局部聚合编码半监督分类网络中第t层更新后的权值，S_t表示局部聚合编码半监督分类网络中第t层更新前的权值，ξ表示初始值设置为0.001的学习率，ΔS_t表示局部聚合编码半监督分类网络中第t层更新前权值的梯度值，α表示值为0.1的系数，L_s表示局部聚合编码半监督分类网络的损失值；

更新生成器网络中每一层权重是由下述公式完成的：

其中，

表示生成器网络第t层更新后的权重值，

表示噪声向量z服从噪声概率密度函数p_(z)的数学期望操作，log表示以10为底的对数操作，W(·)表示求平均值操作，G(z_t)表示噪声向量在生成器网络第t层对应的权重向量。