CN112052893A

CN112052893A - 基于生成对抗网络的半监督图像分类方法

Info

Publication number: CN112052893A
Application number: CN202010904002.9A
Authority: CN
Inventors: 田小林; 王露; 李帅; 张艺帆; 高文星; 杨坤; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2020-12-08

Abstract

本发明公开了一种基于生成对抗网络的半监督图像分类方法，用于解决现有技术中存在的因网络提取的特征缺乏辨识度与多样性导致的分类精度较低的技术问题，实现步骤为：获取训练样本集和测试样本集；搭建生成对抗网络模型；对生成对抗网络模型进行迭代训练；获取半监督图像分类结果。本发明利用特征金字塔网络融合不同层级提取到的特征，通过生成对抗网络的博弈过程提高模型的分类能力，增加了特征的辨识度与多样性，能够更丰富的表征分类图像的类间特征，提高了图像分类精度，并能够在只含有少量精确标注样本的样本集上获得很好的图像分类效果，可用于实际场景中目标分类。

Description

基于生成对抗网络的半监督图像分类方法

技术领域

本发明属于图像处理技术领域，涉及一种图像分类方法，具体涉及一种基于生成对抗网络的半监督图像分类方法，可用于目标检测、目标分类等领域。

背景技术

图像分类是计算机视觉领域的核心问题之一，任务是从给定的分类集合中给图像分配一个标签，标签总是来自预定义的可能类别集。目前图像分类有基于距离度量的方法、基于纹理特征的方法和基于深度学习的方法等。近些年来由于深度学习的迅速发展，图像分类领域也取得了重大进展，目前已经可以在一些现实中的图像分类问题上获得较好的分类精度，图像分类技术被广泛应用于目标分类、目标检测等领域。深度学习主要有监督学习、无监督学习和半监督学习三种方法。监督学习是指利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，现有的图像分类方法能够在监督学习中取的良好的效果，但是这依赖于足够数量的带标签训练样本，在很多实际图像分类任务中，依然没有建立相应应用场景下的标准数据集，例如在医学诊断领域和地物图像领域就存在数据样本获取困难的问题，数据精确标注任务需要专家耗费巨大的人力和物力资源，这大大提高了图像分类任务的门槛，由于缺少精确标注数据使得网络的训练样本集数据量过少，监督学习可能会造成模型过拟合现象，极大地影响分类精度；无监督学习是指根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，使用无监督学习可以降低图像分类任务的门槛，但分类精度不够理想；半监督学习是监督学习与无监督学习相结合的一种学习方法，半监督学习使用大量的未标记数据，同时使用标记数据，来进行模式识别工作，适合在标注数据少，而训练数据多的场景下使用，当标注数据有限时，半监督学习可以降低对标注数据的依赖程度，极大地丰富分类任务的应用场景。

深度学习中深度卷积神经网络应用的范围最广，被广泛用于图像分类中的特征提取。不同层级的卷积网络能提取到不同的图像语义特征，浅层网络获取到的图像特征大都是颜色、纹理等低级语义特征，低级特征种类丰富但辨识度不高，不适用于图像分类任务；而深层网络提取到主要是轮廓、形状等高级语义特征，高级语义特征具有较高的辨识度和代表性，但仅仅依赖高级语义特征来执行图像分类任务，又存在特征单一、缺乏多样性的问题，影响最终的图像分类精度。例如，申请公布号为CN111553424A，名称为“一种基于CGAN的图像数据平衡和分类方法”的专利申请，公开了一种基于条件生成对抗网络CGAN的图像数据平衡和分类方法，该方法首先从数据集中读取真实数据x和标签y,将标签及随机噪声z送入生成器G,将G的输出结果和x送入判别器D,交替训练G和D直到网络达到纳什平衡状态。然后加载训练好的模型，在训练好的模型上新增一个输出层对输入进行分类,以试图解决不平衡数据集对分类精度带来的影响，提高模型的分类精度。但是，该方法仅使用深层网络提取到的高级语义特征执行分类任务，图像特征比较单一，为了获取较高的分类精度，需要大量有标记的样本对模型进行训练，难以在缺乏有标签训练样本的问题上发挥作用，大大限制了其应用范围。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷，提出了一种基于生成对抗网络的半监督图像分类方法，旨在提高图像的分类精度。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取训练样本集和测试样本集：

(1a)获取类别数为K且每个类别包含

幅图像的数据集，并对数据集进行归一化，得到包含S幅归一化图像的归一化数据集，其中，2≤K≤20，S≥60000；

(1b)从归一化数据集的每类别中随机选取n幅归一化图像，并将选取的共N幅归一化图像作为测试样本集，然后对其余S-N幅归一化图像中的l幅进行标注，得到带标签训练样本集L＝{L₁,L₂,...,L_m,...,L_l}，将S-N-l幅归一化图像作为不带标签训练样本集U＝{U₁,U₂,...,U_m,...,U_S-N-l}，其中，

L_m表示第m个带标签的训练样本，U_m表示第m个不带标签的训练样本；

(2)搭建生成对抗网络模型：

搭建包括生成器网络G和与其连接的判别器网络D的生成对抗网络模型，其中，生成器网络G采用包含全连接层和多个卷积层的卷积神经网络；判别器网络D包括特征金字塔网络和与其级联的SoftMax分类器，特征金字塔网络包括级联的输入层、由依次连接的A个卷积层组成的主干网络M＝{M₁,M₂,...,M_a,...,M_A}和由卷积层组成的输出层，主干网络M中的前A-1个卷积层各连接由多个池化层和一个卷积层组成的第一支干，A-1个第一支干并行排布，组成第一支干网络

第A卷积层M_A连接A-1个并行排布的卷积层组成的第二支干网络

末端的卷积层与输出层相连，

的末端与

中的卷积层的前端相连，其中M_a表示M中的第a卷积层，

表示Z¹中的第a个第一支干，

表示Z²中的第a卷积层；

(3)对生成对抗网络模型进行迭代训练：

(3a)初始化生成器网络G的网络参数为θ_G，判别器网络D的网络参数为θ_D，判别器网络D对于生成器网络G生成的虚假样本集的类别选项概率为D(G_i(z))，z表示包括k个服从高斯分布的噪声向量的集合，k≥10000，阈值t＝0.001，迭代次数为i，最大迭代次数为I，I≥500，学习标志位为flag，并令i＝0，D(G_i(z))＝0；

(3b)固定生成器网络G的网络参数θ_G，对判别器网络D的网络参数θ_D进行更新：

(3b1)将从z中随机选取的v个服从高斯分布的噪声向量作为生成器网络G的输入进行特征提取，得到包括v个特征图的虚假样本集V＝{V₁,V₂,...,V_m,...,V_v}，5000≤v≤10000，V_m表示第m个虚假样本；

(3b2)将虚假样本集V、带标签训练样本集L和不带标签训练样本集U作为判别器网络D的输入，特征金字塔网络对样本进行特征提取，并对每个样本所提取的特征进行融合，得到v+S-N个样本特征，SoftMax分类器通过每个样本特征输出每个样本的类别选项概率，更新判别器网络D对于生成器网络G生成的虚假样本集V的类别选项概率D(G_i(z))，选取每个样本类别选项概率最高的类别选项作为样本的类别预测标签；

(3b3)当学习标志位flag＝1时，判别器网络D通过带标签训练样本集L进行监督学习，得到损失函数值L_s，当学习标志位flag＝0时，判别器网络D通过虚假样本集V和不带标签训练样本集U进行无监督学习，得到损失函数值L_uns，并采用随机梯度下降法，通过损失函数值L_loss＝L_s+L_uns对判别器网络D的网络参数θ_D进行更新；

(3c)固定判别器网络D的网络参数θ_D，生成器网络G根据判别器网络D输出的虚假样本集V的类别选项概率D(G_i(z))，计算自己的损失函数值L_G，并采用随机梯度下降法，通过损失函数值L_G对生成器网络G的网络参数θ_G进行更新；

(3d)判断i≥I或|D(G_i(z))-0.5|≤t是否成立，若是，得到训练好的生成对抗网络模型，否则，令i＝i+1，并执行步骤(3b)；

(4)获取半监督图像分类结果：

将测试样本集作为训练好的生成对抗网络模型的输入进行分类，得到图像的分类结果；

本发明与现有技术相比，具有如下优点：

本发明采用的生成对抗网络包含生成器网络G和判别器网络D，D中包含在主干网络不同层级的卷积层上分别级联第一支干网络与第二支干网络构成的特征金字塔网络和softmax分类器，使用主干网络提取G生成的虚假样本和输入的真实样本不同层级的特征，并通过第一支干网络与第二支干网络的特征求和操作融合特征，结合了图像的低级语义特征与高级语义特征，解决了图像特征缺乏辨识度和多样性的问题，在缺乏足够带标签训练样本的情况下也能达到较好的分类精度，减少了对带标签训练样本的依赖性，根据融合特征对样本分类，根据分类结果调节G参数，再固定G参数调节D参数，通过生成对抗网络的极大极小博弈来达到网络的纳什平衡。仿真结果表明，本发明与现有技术相比，cifar10图像分类精度提高了2.32％。

附图说明

图1为本发明的实现流程图；

图2为本发明特征金字塔网络示意图；

图3为用本发明对cifar10数据集的仿真结果图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述。

参照图1，本发明包括如下步骤：

步骤1)获取训练样本集和测试样本集：

步骤1a)获取类别数为K且每个类别包含

幅图像的数据集，并对数据集进行归一化，得到包含S幅归一化图像的归一化数据集，其中，2≤K≤20，S≥60000；本实例中采用类别数为10且每个类别包含6000幅图像的cifar10数据集，对数据集进行归一化，得到包含60000幅归一化图像的归一化数据集；

步骤1b)从归一化数据集的每类别中随机选取n幅归一化图像，并将选取的共N幅归一化图像作为测试样本集，然后对其余S-N幅归一化图像中的l幅进行标注，得到带标签训练样本集L＝{L₁,L₂,...,L_m,...,L_l}，将S-N-l幅归一化图像作为不带标签训练样本集U＝{U₁,U₂,...,U_m,...,U_S-N-l}，其中，

L_m表示第m个带标签的训练样本，U_m表示第m个不带标签的训练样本；本实例中从cifar10数据集每类别中随机选取1000幅归一化图像，测试样本集包含10000幅归一化图像，其余50000幅归一化图像中的4000幅作为带标签训练样本集，46000幅作为不带标签训练样本集；

步骤2)搭建生成对抗网络模型：

第A个卷积层M_A连接A-1个并行排布的卷积层组成的第二支干网络

末端的卷积层与输出层相连，

的末端与

中的卷积层的前端相连，其中M_a表示M中的第a卷积层，

表示Z¹中的第a个第一支干，

表示Z²中的第a卷积层；

本实例中生成器网络G具体结构和参数如下：

全连接层→第一卷积层conv1→第二卷积层conv2→第三卷积层conv3→第四卷积层conv4

全连接层的节点个数为256个；卷积层数量为4个，第一卷积层conv1、第二卷积层conv2、第三卷积层conv3卷积核大小均为5×5，卷积核步长均为2，第四卷积层conv4卷积核大小为1×1，卷积核步长为1，第一卷积层conv1、第二卷积层conv2、第三卷积层conv3和第四卷积层conv4的卷积核数量分别为256，128，64，1，卷积层激活函数均为relu函数；

本实例中判别器网络D中特征金字塔网络输入层的大小为28×28×1；

参照图2，本实例中判别器网络D中特征金字塔主干网络具体参数为：

主干网络M＝{M₁,M₂,M₃,M₄}包括4个依次连接的卷积层，卷积核大小均为3×3，卷积核步长均为2，第一卷积层M₁，第二卷积层M₂，第三卷积层M₃，第四卷积层M₄的卷积核数量分别为64，128，256，256，卷积层的激活函数均为lrelu函数；

本实例中判别器网络D中特征金字塔网络输出层的卷积层的卷积核大小为3×3，卷积核步长为1，卷积核数量为256；

参照图2，判别器网络D中特征金字塔网络第一支干网络参数如下：

第一支干网络

包括3个第一支干，

包含3个池化层和卷积层：第一池化层pool1、第二池化层pool2、第三池化层pool3、第一卷积层conv1_1，

包含2个池化层和卷积层：第四池化层pool4、第五池化层pool5、第二卷积层conv1_2，

包含1个池化层和卷积层：第六池化层pool6、第三卷积层conv1_3；池化层采样核步长均为2，池化方式均为最大池化，第一池化层pool1、第二池化层pool2、第四池化层pool4和第六池化层pool6采样核大小均为3×3，第三池化层pool3和第五池化层pool5采样核大小均为2×2；卷积层卷积核大小均为3×3，卷积核步长均为1，第一卷积层conv1_1、第二卷积层conv1_2和第三卷积层conv1_3的卷积核数量分别为64，128，256；

参照图2，判别器网络D中特征金字塔网络第二支干网络具体参数为：

第二支干网络

包括3个卷积层，

为第一卷积层conv2_1，

为第二卷积层conv2_2，

为第三卷积层conv2_3；卷积层卷积核大小均为1×1，卷积核步长均为2，第一卷积层conv2_1、第二卷积层conv2_2和第三卷积层conv2_3的卷积核数量分别为64，128，256；

通过第一支干网络与第二支干网络之间的特征求和操作，将第一卷积层M₁，第二卷积层M₂，第三卷积层M₃和第四卷积层M₄提取到的不同特征融合到一起，并对融合后的特征进行卷积、拼接操作，得到的图像特征同时具有低级语义特征和高级语义特征，增加了特征的辨识度与多样性，有利于网络对图像进行分类，可以有效地提高分类精度；

步骤3)对生成对抗网络模型进行迭代训练：

步骤3a)初始化生成器网络G的网络参数为θ_G，判别器网络D的网络参数为θ_D，判别器网络D对于生成器网络G生成的虚假样本集的类别选项概率D(G_i(z))，z表示包括k个服从高斯分布的噪声向量的集合，k≥10000，阈值t＝0.001，迭代次数为i，最大迭代次数为I，I≥500，学习标志位为flag，并令i＝0，D(G_i(z))＝0；

步骤3b)固定生成器网络G的网络参数θ_G，对判别器网络D的网络参数θ_D进行更新：

步骤3b1)将从z中随机选取的v个服从高斯分布的噪声向量作为生成器网络G的输入进行特征提取，得到包括v个特征图的虚假样本集V＝{V₁,V₂,...,V_m,...,V_v}，5000≤v≤10000，V_m表示第m个虚假样本；

步骤3b2)将虚假样本集V、带标签训练样本集L和不带标签训练样本集U作为判别器网络D的输入，特征金字塔网络对样本进行特征提取，并对每个样本所提取的特征进行融合，得到v+S-N个样本特征，SoftMax分类器通过每个样本特征输出每个样本类别选项概率，更新判别器网络D对于生成器网络G生成的虚假样本集V类别选项概率D(G_i(z))，选取每个样本概率最高的类别选项作为样本的类别预测标签；

步骤3b3)当学习标志位flag＝1时，判别器网络D通过带标签训练样本集L进行监督学习，得到损失函数值L_s，当学习标志位flag＝0时，判别器网络D通过虚假样本集V和不带标签训练样本集U进行无监督学习，得到损失函数值L_uns，并采用随机梯度下降法，通过损失函数值L_loss＝L_s+L_uns对判别器网络D的网络参数θ_D进行更新；

损失函数值L_s、损失函数值L_uns，计算公式分别为：

其中，y表示样本类别标签，

表示带标签训练样本集L的期望值，P_data(L,y)表示带标签训练样本集L的概率密度函数，P_model(y|L,y＜K+1)表示K+1类分类概率模型，

表示不带标签训练样本集U的期望值，P_model(y＝K+1|U)表示不带标签训练样本集U的概率密度模型，E_z～noise表示噪声向量集合z的数学期望值，P_model(y＝K+1|z)表示噪声向量集合z的概率密度模型；

步骤3c)固定判别器网络D的网络参数θ_D，生成器网络G根据判别器网络D输出的虚假样本集V类别选项概率D(G_i(z))，计算自己的损失函数值L_G，并采用随机梯度下降法，通过损失函数值L_G对生成器网络G的网络参数θ_G进行更新；

生成器网络G的损失函数值L_G，计算公式如下：

L_G＝-E_z～P(z)log(1-D(G_i(z))),

其中，E_z～P(z)表示样本服从高斯分布的数学期望值，P(z)表示噪声向量集合z的概率密度函数；

步骤3d)判断i≥I或|D(G_i(z))-0.5|≤t是否成立，若是，得到训练好的生成对抗网络模型，否则，令i＝i+1，并执行步骤(3b)；

步骤4)获取半监督图像分类结果：

将测试样本集作为训练好的生成对抗网络模型的输入进行分类，得到图像的分类结果；本实例中，将10000个测试样本集输入到训练好的生成对抗网络模型中，得到图像的分类结果。

以下结合附图和具体实施例，对本发明作进一步详细描述。

1.仿真实验条件和内容：

本发明仿真实验的硬件测试平台是：CPU为intel Core i5-6500，主频为3.2GHz，内存8GB，GPU为NVIDIA TITAN Xp；软件平台是：Ubuntu 16.04 LTS，64位操作系统，python3.5。本发明仿真实验是采用本发明和一个现有技术(一种基于CGAN的图像数据平衡和分类方法)对cifar10数据集的50000幅图像中4000个带标签训练样本和剩余46000个不带标签训练样本对网络进行训练，使用训练好的网络对10000个测试样本进行分类仿真，对两种方法的分类精度进行对比，结果如表1所示，本发明的仿真结果图如图3所示。

2.仿真结果分析：

表1

参照图3，其中，结果图横坐标iteration代表网络训练次数，结果图纵坐标testacc代表图像分类精度。从图3可见，本发明在仅使用4000个带标签训练样本的情况下，就取得82.74％的图像分类精度，极大地降低了图形分类任务的训练集门槛，在多领域拥有更好的适用性。

Claims

1.一种基于生成对抗网络的半监督图像分类方法，其特征在于，包括如下步骤：

(1)获取训练样本集和测试样本集：

(1a)获取类别数为K且每个类别包含

(2)搭建生成对抗网络模型：

末端的卷积层与输出层相连，

的末端与

中的卷积层的前端相连，其中M_a表示M中的第a卷积层，

表示Z¹中的第a个第一支干，

表示Z²中的第a卷积层；

(3)对生成对抗网络模型进行迭代训练：

(3b2)将虚假样本集V、带标签训练样本集L和不带标签训练样本集U作为判别器网络D的输入，特征金字塔网络对样本进行特征提取，并对每个样本所提取的特征进行融合，得到v+S-N个样本特征，SoftMax分类器通过每个样本特征输出每个样本的类别选项概率，更新判别器网络D对于生成器网络G生成的虚假样本集V的类别选项概率D(G_i(z))，选取每个样本类别选项概率最高的类别作为样本的类别预测标签；