CN109190665A

CN109190665A - 一种基于半监督生成对抗网络的通用图像分类方法和装置

Info

Publication number: CN109190665A
Application number: CN201810851668.5A
Authority: CN
Inventors: 苏磊; 凌平; 张万才
Original assignee: State Grid Shanghai Electric Power Co Ltd; East China Power Test and Research Institute Co Ltd
Current assignee: State Grid Shanghai Electric Power Co Ltd; East China Power Test and Research Institute Co Ltd
Priority date: 2018-07-30
Filing date: 2018-07-30
Publication date: 2019-01-11
Anticipated expiration: 2038-07-30
Also published as: CN109190665B

Abstract

本发明公开了一种基于半监督生成对抗网络的通用图像分类方法和装置，涉及图像分类技术，所述方法包括：步骤1：训练得到深度卷积生成对抗网络DCGAN，所述DCGAN包括生成网络和判别网络，所述判别网络包括依次连接的卷积神经网络和Softmax多分类器；步骤2：将待分类的图像输入至所述卷积神经网络，得到图像特征；步骤3：将得到的图像特征输入所述Softmax多分类器，得到分类结果。本发明中，由于判别网络是在DCGAN中训练得到，故提高了判别网络的泛化性能和分类准确率，通过该判别网络得到图像特征后，再结合Softmax多分类器，能够极大提高图像分类的准确率。

Description

一种基于半监督生成对抗网络的通用图像分类方法和装置

技术领域

本发明属于深度学习领域，涉及图像分类技术，具体涉及一种基于半监督生成对抗网络的通用图像分类方法和装置。

背景技术

图像分类技术，是计算机视觉和模式识别领域的主要分支之一。图像分类就是根据各自在图像信息中反映的不同特征，将图像中不同类别的目标区分开来的图像处理方法。图像分类是利用计算机对图像进行定量分析，把图像或图像中的某个区域划为若干类别中的某一种，以代替人的视觉判读。随着大数据时代的到来，数据在计算机视觉的任务中越来越明显，在数据足够多的情况下，可以使用基础的模型、算法，比如KNN(k-NearestNeighbor，最近邻分类)，Naive Bayes(朴素贝叶斯)就能得到比较好的结果。图像分类在很多领域都得到广泛应用，包括安防领域的人脸识别、行为检测等，交通领域的车辆识别、车牌检测等，以及互联网领域的图像检索等。本发明关注的是深度学习领域的图像分类，即利用卷积神经网络进行图像分类。

早期的图像分类目标主要集中在一些较为简单的任务，例如，形状分类、OCR(Optical Character Recognition，光学字符识别)等。其中，在OCR中，手写数字识别是一个广泛研究的课题，与此相关的最著名的数据库是MNIST(Mixed National Institute ofStandards and Technology)数据库，MNIST是手写数字识别领域的标准测试数据集，大小是60,000，一共包含10类阿拉伯数字，每一类有5,000张图像进行训练，1,000张图像进行测试。MNIST的图像大小为28*28，即784维，该数据集中的图像手写数字，存在较大的形变。CIFAR-10数据集也是使用比较广泛的一个数据集，该数据集共有60,000张彩色图像，这些图像大小是32*32，分为10个类，每类6,000张图。CIFAR-10数据集中有50,000张用于训练，构成了5个训练批，每一批10,000张图；另外10,000张用于测试，单独构成一批。测试批的数据是取自10类中的每一类，每一类随机取1,000张，剩下的图像就随机排列组成了训练批。本发明使用了MNIST和CIFAR-10两类数据集验证方法的有效性。

半监督学习旨在缓解标签样本数量不够时的小样本问题，半监督学习方法大致可以分为四种：

(1)生成式模型，通过预测条件概率密度来得到未标记样本的标签；

(2)基于图的方法，利用标记样本和非标记样本来构建图模型；

(3)低密度分离，旨在将边界放置在几乎没有标签或无标签数据的区域；

(4)基于包装的方法，这种方法利用有监督方法并且迭代地标记未标记的数据。

发明内容

本发明要解决的技术问题是提供一种基于半监督生成对抗网络的通用图像分类方法和装置，以提高图像分类的准确率。

为解决上述技术问题，本发明提供技术方案如下：

一方面，提供一种基于半监督生成对抗网络的通用图像分类方法，包括：

步骤1：训练得到深度卷积生成对抗网络DCGAN，所述DCGAN包括生成网络和判别网络，所述判别网络包括依次连接的卷积神经网络和Softmax多分类器；

步骤2：将待分类的图像输入至所述卷积神经网络，得到图像特征；

步骤3：将得到的图像特征输入所述Softmax多分类器，得到分类结果。

进一步的，所述步骤1包括：

步骤10：在DCGAN框架下，将随机噪声输入生成网络，根据真实数据的分布拟合噪声的分布，得到和真实数据分布相近的分布，生成无标记样本图像；

步骤11：将真实图像作为有标记样本图像与所述无标记样本图像一起输入判别网络，以供判别网络学习两种类型的数据分布；

步骤12：根据判别网络对输入的样本图像的真假性判别结果，计算梯度，固定生成网络的参数，通过反向传播算法更新判别网络的节点的权重系数；

步骤13：根据判别网络的反馈结果，固定判别网络参数，通过反向传播算法更新生成网络的节点的权重系数；

步骤14：判断判别网络的分类准确率误差是否小于预设阈值，如果否，则转至步骤10，重复进行训练，如果是，则训练结束，得到训练完成的DCGAN。

进一步的，所述步骤10中，所述随机噪声服从高斯分布。

进一步的，所述步骤11中，所述真实图像经过高斯滤波预处理后作为所述有标记样本图像。

进一步的，所述步骤14中，所述分类准确率误差为使用对数似然函数的损失函数，计算公式如下：loss＝-ln ap，其中，ap代表类别p对应的分类概率。

另一方面，提供一种基于半监督生成对抗网络的通用图像分类装置，包括：

网络训练模块，用于训练得到深度卷积生成对抗网络DCGAN，所述DCGAN包括生成网络和判别网络，所述判别网络包括依次连接的卷积神经网络和Softmax多分类器；

图像特征获取模块，用于将待分类的图像输入至所述卷积神经网络，得到图像特征；

分类模块，用于将得到的图像特征输入所述Softmax多分类器，得到分类结果。

进一步的，所述网络训练模块包括：

第一输入子模块，用于在DCGAN框架下，将随机噪声输入生成网络，根据真实数据的分布拟合噪声的分布，得到和真实数据分布相近的分布，生成无标记样本图像；

第二输入子模块，用于将真实图像作为有标记样本图像与所述无标记样本图像一起输入判别网络，以供判别网络学习两种类型的数据分布；

第一更新子模块，用于根据判别网络对输入的样本图像的真假性判别结果，计算梯度，固定生成网络的参数，通过反向传播算法更新判别网络的节点的权重系数；

第二更新子模块，用于根据判别网络的反馈结果，固定判别网络参数，通过反向传播算法更新生成网络的节点的权重系数；

判断子模块，用于判断判别网络的分类准确率误差是否小于预设阈值，如果否，则转至第一输入子模块，重复进行训练，如果是，则训练结束，得到训练完成的DCGAN。

进一步的，所述第一输入子模块中，所述随机噪声服从高斯分布。

进一步的，所述第二输入子模块中，所述真实图像经过高斯滤波预处理后作为所述有标记样本图像。

进一步的，所述判断子模块中，所述分类准确率误差为使用对数似然函数的损失函数，计算公式如下：loss＝-ln ap，其中，ap代表类别p对应的分类概率。

本发明具有以下有益效果：

上述方案中，由于判别网络是在DCGAN中训练得到，故提高了判别网络的泛化性能和分类准确率，通过该判别网络得到图像特征后，再结合Softmax多分类器，能够极大提高图像分类的准确率。

附图说明

图1为本发明的基于半监督生成对抗网络的通用图像分类方法的流程示意图；

图2是本发明方法中在MNIST数据集上由生成网络生成的图像，其中(a)图是生成网络使用半监督方法生成的样本图像，(b)图是生成网络使用无监督方法生成的样本图像；

图3是本发明方法中在CIFAR-10数据集上由生成网络生成的图像，其中(a)图是生成网络使用半监督方法生成的样本图像，(b)图是生成网络使用无监督方法生成的样本图像；

图4为本发明的基于半监督生成对抗网络的通用图像分类装置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

一方面，本发明提供一种基于半监督生成对抗网络的通用图像分类方法，如图1所示，包括：

步骤101：训练得到深度卷积生成对抗网络(Deep Convolutional GenerativeAdversarial Networks，DCGAN)，所述DCGAN包括生成网络和判别网络，所述判别网络包括依次连接的卷积神经网络和Softmax多分类器；

本步骤101优选包括：

步骤1010：在DCGAN框架下，将随机噪声输入生成网络，根据真实数据的分布拟合噪声的分布，得到和真实数据分布相近的分布，生成无标记样本图像；

本步骤中，首先训练生成网络，生成网络的输入是随机噪声，根据真实数据(即真实图像)的分布拟合噪声的分布，得到和真实数据分布相近的分布，生成无标记样本图像，在这个过程中，生成网络的分布尽可能去模仿真实数据的分布。

由于普通的生成对抗网络是无监督学习，输入随机噪声是一个噪声向量，并且生成图像，随机噪声是服从均匀分布或者高斯分布的噪声点。本发明使用的随机噪声服从高斯分布。

生成网络例如可以是一个包括4层反卷积网络和1层全连接层的网络，生成网络的输入是一个服从高斯分布的噪声向量，经过4层反卷积网络后，生成与真实数据分布相近的图像。对于生成网络，每层大小可以分别设置如下：8×8×512,16×16×256,32×32×128,64×64×3，在将噪声输入到网络中前，可以先对噪声做project和reshape处理，处理成4×4×1024的大小，然后输入到卷积神经网络中。

本步骤中的拟合分布：噪声输入到生成网络中之后，会根据真实数据的分布，拟合自己的分布学习其分布，为了生成与真实数据相近的数据样本。对于真实数据的分布，期望和方差都是固定值，所以分布稳定。而对于生成网络输入噪声的分布，在训练过程中会通过不断采样更新自身分布，并尽可能的模拟真实数据的分布。最终噪声的分布会和真实数据的分布接近，差别很小，并不再改变，这就到达了平衡状态，也说明DCGAN模型训练的效果较好。

步骤1011：将真实图像作为有标记样本图像与所述无标记样本图像一起输入判别网络，以供判别网络学习两种类型的数据分布；

本步骤中，优选的，真实图像经过高斯滤波预处理后作为所述有标记样本图像，以去除图像噪声，减小外界噪声的影响。

步骤1012：根据判别网络对输入的样本图像的真假性判别结果，计算梯度，固定生成网络的参数，通过反向传播算法更新判别网络的节点的权重系数；

本步骤中，判别网络中的卷积神经网络，例如可以包括4层卷积神经网络和1层全连接层。对于卷积神经网络，每层大小可以分别设置如下：64×64×3,32×32×128,16×16×256,8×8×512，全连接层可以是一个1024维的向量。真实图像和生成图像输入到判别网络中后，经过卷积操作提取特征，得到图像的特征，经过全连接层对特征进行高维表示，然后提取的图像特征经过softmax多分类器(非二分类器，为三分类以上的分类器，例如可以为四分类、五分类、六分类等)，对图像进行分类。Softmax多分类器的公式可以如下：

其中表示多个数据样本的输入，目的是为了逼近最佳的θ^T，最终得到的y(i)就是多个分类标签，也就实现了数据的多分类，而不是简单的二分类任务。

本方案使用半监督生成对抗网络进行多分类，对于MINST数据集，分类为0，1，2，3，4，5，6，7，8，9，一共是10类。对于CIFAR-10数据集，也是10类，分别是，airplane，automobile，bird，cat，deer，dog，frog，horse，ship，truck。

对于真实的数据样本，判别网络尝试向其分配一个接近1的概率，一般设置为0.9，而对于生成网络生成的数据样本，判别网络尝试向其分配一个接近于0的概率，根据输出这个概率的大小，就可以对真实图像和假图像进行判别。概率越接近于1的图像说明越真实，概率越接近于0的图像说明是假图的可能性大。

梯度计算是通过神经网络的反向传播算法进行计算，就是求二阶导数，运用到的求导方法是链式求导法则。反向传播算法是建立在梯度下降法的基础上的，在本网络中，反向传播算法的输入是图像，输出是分类标签，这是一种映射关系，对反向传播(BP)网络的输入输出关系的解释：一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中有限域的连续映射，这一映射具有高度非线性。反向传播(BP)算法的学习包括正向传播和反向传播两个过程。在本网络的正向传播过程中，输入噪声数据，经过卷积网络，逐层卷积、池化操作，传向输出层，得到生成图像。反向传播过程中，判别网络计算目标函数对各层神经元权值的偏导数，并且将这些结果作为对权值向量的梯量，作为修改网络权值的依据。这个过程就是本发明中整个网络学习的过程。当计算的误差低于事先设定的阈值时，网络收敛，停止训练。

由于本发明是涉及两个神经网络，生成网络和判别网络，在训练更新的时候是迭代交替更新的，所以更新参数的时候是固定生成网络的参数，更新判别网络的参数。

步骤1013：根据判别网络的反馈结果，固定判别网络参数，通过反向传播算法更新生成网络的节点的权重系数；

反馈结果是指判别网络在进行梯度下降时计算得到的网络参数，根据这些得到的网络参数(也就是网络中的权重)更新另一个网络的权重，让模型训练的更好。由于本发明涉及两个神经网络，生成网络和判别网络，在训练更新参数的时候是交替进行更新，例如：先固定生成网络，更新判别网络，待更新完成后，固定判别网络，更新生成网络。

步骤1014：判断判别网络的分类准确率误差是否小于预设阈值，如果否，则转至步骤1010，重复进行训练，如果是，则训练结束，得到训练完成的DCGAN。

本步骤中，由于使用Softmax多分类，本方案使用对数似然函数作为损失函数，计算公式如下：loss＝-ln ap，其中，ap代表类别p对应的分类概率，若分类的好，那么ap接近于1，loss接近于0。设定一个预设阈值，当判别网络的分类准确率误差小于该预设阈值时，就停止训练。本发明中设置的预设阈值可以为10^-6。

重复进行训练指的是重复进行生成网络和判别网络的训练，由于本发明涉及两个神经网络，生成网络和判别网络，在训练更新参数的时候是固定一个网络，更新另一个网络。重复上述过程时，噪声的分布会逐渐拟合真实数据的分布，生成的样本图像也会越来越接近真实图像。

从数据分布的角度来看，对于真实数据的分布，期望和方差都是固定值，所以分布稳定。对于生成网络的分布，在训练过程中与判别网络不断对抗，不断改变自身分布，并尽可能的模仿真实数据的分布。对于判别网络的分布，概率密度越大，是真实数据的可能性就越大。判别网络和生成网络相互对抗，最终会达到平衡状态，也就是判别网络的分布的概率密度越来越小，这也就意味着判别网络难以区分出生成数据和真实数据。

在初始化阶段，生成网络和判别网路的参数都是0，在训练过程中交替进行更新训练，当判别网络难以区分出生成网络生成的数据的真假性的时候，网络就会收敛，此时停止训练。最终得到的理想的判别网络的参数对真实图像和生成图像的区分出的概率为50％，这就意味着判别网络很难区分出生成数据和真实数据，生成网络能够很好的生成数据样本。

步骤102：将待分类的图像输入至所述卷积神经网络，得到图像特征；

步骤103：将得到的图像特征输入所述Softmax多分类器，得到分类结果。

本发明中，由于判别网络是在DCGAN中训练得到，故提高了判别网络的泛化性能和分类准确率，通过该判别网络得到图像特征后，再结合Softmax分类器，能够极大提高图像分类的准确率。

综上，利用本发明的方法可以对通用的图像数据集进行分类，与现有技术相比具有以下优点：

1、本发明结合了半监督学习机制，充分利用了大量未标记数据样本，提高了判别网络的泛化性能，从而提高了判别网络的分类准确率，解决了小样本数据导致的分类准确率低的问题；

2、本发明使用DCGAN，并且利用DCGAN生成图像，生成的图像在视觉方面效果更好，更接近真实图像；

3、判别网络通过与生成网络相互对抗，使生成的图像更真实，提高了判别网络的泛化性能；分类器即判别网络的分类性能也得到了提升。

图2是本发明方法中在MNIST数据集上由生成网络生成的图像，其中(a)图是生成网络使用半监督方法生成的样本图像，(b)图是生成网络使用无监督方法生成的样本图像。图3是本发明方法中在CIFAR-10数据集上由生成网络生成的图像，其中(a)图是生成网络使用半监督方法生成的样本图像，(b)图是生成网络使用无监督方法生成的样本图像。

本发明的方法采用了半监督学习，即将真实图像作为标记样本图像，将生成网络生成的假的图像作为无标记样本图像，将标记样本图像和无标记样本图像共同作为判别网络的输入；如果是监督学习的话，则是将生成网络生成的假的图像进行标记得到标记样本图像，将所有标记样本图像作为判别网络的输入。

本发明的方法在生成图像的过程中，通过设置不同比例的未标记样本数据和标记样本数据作为判别网络的输入，比较不同比例下生成的图像对判别网络欺骗的程度。

实例1基于半监督生成对抗网络的通用图像分类方法

以MNIST手写数字数据集为例，按照本发明的方法，比较在半监督方法和监督方法下的概率，得到的分类准确率如表1所示：

表1.在MNIST数据集上使用半监督学习和监督学习的分类准确率

标记图像的数量	分类准确率
		1,000	0.895
2,000	0.904
		3,000	0.917
5,000	0.925
		8,000	0.930
10,000	0.952
		15,000	0.973
50,000(监督学习)	0.968

表1中，最后一行表示采用监督学习方法得到的分类准确率，其余行表示采用本发明半监督学习方法得到的分类准确率，“标记图像的数量”是指原始的训练数据的数量。50,000为MNIST训练数据集的大小，在实验中，保持监督学习和半监督学习的输入大小相等，得到分类准确率。在经过多次训练测试后，本发明提出的方法可以提高判别网络分类的泛化性能，从而提高分类准确率。

实例2基于半监督生成对抗网络的通用图像分类方法

以CIFAR-10数据集为例，按照本发明的方法，比较在半监督方法和监督方法下的概率，得到的分类准确率如表2所示：

表2.在MNIST数据集上使用半监督学习和监督学习的分类准确率

表2中，最后一行表示采用监督学习方法得到的分类准确率，其余行表示采用本发明半监督学习方法得到的分类准确率，“标记图像的数量”是指原始的训练数据的数量。50,000为CIFAR-10训练数据集的大小，在实验中，保持监督学习和半监督学习的输入大小相等，得到分类准确率。在经过多次训练测试后，本发明提出的方法可以提高判别网络分类的泛化性能，从而提高分类准确率。

由上述表1和表2可知，对于MNIST数据集，总共有5,0000张训练图像，当数据样本全都作为监督数据的情况下，分类准确率达到96.8％，而将标记图像的数量达到15,000张的时候，分类准确率到达97.3％，已经超过了数据样本全都作为监督数据训练的情况。CIFAR-10数据集也是这样的情况。通过两组对比实验也说明了，在少量标记数据的情况下，半监督生成对抗网络的效果比监督训练的效果好。

另一方面，与上述方法相对应，本发明提供一种基于半监督生成对抗网络的通用图像分类装置，如图4所示，包括：

网络训练模块11，用于训练得到深度卷积生成对抗网络DCGAN，所述DCGAN包括生成网络和判别网络，所述判别网络包括依次连接的卷积神经网络和Softmax多分类器；

图像特征获取模块12，用于将待分类的图像输入至所述卷积神经网络，得到图像特征；

分类模块13，用于将得到的图像特征输入所述Softmax多分类器，得到分类结果。

优选的，所述网络训练模块11包括：

进一步的，所述第一输入子模块中，随机噪声服从高斯分布。

进一步的，所述真实图像经过高斯滤波预处理后作为所述有标记样本图像，以去除图像噪声，减小外界噪声的影响。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于半监督生成对抗网络的通用图像分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤1包括：

3.根据权利要求2所述的方法，其特征在于，所述步骤10中，所述随机噪声服从高斯分布。

4.根据权利要求3所述的方法，其特征在于，所述步骤11中，所述真实图像经过高斯滤波预处理后作为所述有标记样本图像。

5.根据权利要求1-4中任一所述的方法，其特征在于，所述步骤14中，所述分类准确率误差为使用对数似然函数的损失函数，计算公式如下：loss＝-lnap，其中，ap代表类别p对应的分类概率。

6.一种基于半监督生成对抗网络的通用图像分类装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述网络训练模块包括：

8.根据权利要求7所述的装置，其特征在于，所述第一输入子模块中，所述随机噪声服从高斯分布。

9.根据权利要求8所述的装置，其特征在于，所述第二输入子模块中，所述真实图像经过高斯滤波预处理后作为所述有标记样本图像。

10.根据权利要求6-9中任一所述的装置，其特征在于，所述判断子模块中，所述分类准确率误差为使用对数似然函数的损失函数，计算公式如下：loss＝-lnap，其中，ap代表类别p对应的分类概率。