CN112257787A

CN112257787A - 基于生成式双重条件对抗网络结构的图像半监督分类方法

Info

Publication number: CN112257787A
Application number: CN202011147833.2A
Authority: CN
Inventors: 宫秀军; 吴泽宇
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-22
Anticipated expiration: 2040-10-23
Also published as: CN112257787B

Abstract

本发明涉及智能图像处理，为提出一种生成式双重条件对抗网络结新型结构用于图像半监督分类的新技术，该技术能够减少模型对无标签数据信息的损耗，提高无标签数据信息的二次利用进而提升了判别器的精度。本发明，基于生成式双重条件对抗网络结构的图像半监督分类方法，步骤一，初始化模型的相关变量和网络参数；步骤二，加载图像数据；步骤三，生成随机噪声以及生成条件即标签；步骤四，得到生成给定条件即标签c下的图像数据；步骤五，训练并且优化生成器；步骤六，输入真实数据和生成的数据，生成器与判别器的对抗；步骤七，给出对于有标签数据和条件生成的数据，判别器所要实现的分类(条件)损失函数；步骤八，输入无标签数据x_u，单独利用无标签数据对判别器进行二次对抗训练。本发明主要应用于智能图像处理场合。

Description

基于生成式双重条件对抗网络结构的图像半监督分类方法

技术领域

本发明涉及智能图像处理，具体涉及基于生成式双重条件对抗网络结构的图像半监督学习方法。

背景技术

生成式对抗网络(GAN,Generative Adversarial Networks)是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。

近些年来，不同的研究学者已经提出了很多利用GAN的对抗机制所学习出数据分布的优势来进行图像的半监督分类学习。目前主流基于GAN的半监督图像分类问题都是通过判别模型D和生成模型G对不同状态数据(有标签数据，无标签数据，生成数据)的三种信息提取方式从而实现对于图像的信息提取来实现图像的分类问题。但是在主流基于GAN的半监督图像分类问题中分类器是由常规GAN中的判别器D改进而成的，而生成模型和常规的GAN中的生成模型原理一致；于是在主流基于GAN的半监督图像分类问题里面生成模型G中生成了大量数据，而这些数据并没有被判别器得到二次利用；并且主流基于GAN的半监督图像分类中对于无标签数据的利用并不够充分。

综上，我们对于上述主流基于GAN的半监督图像分类问题存在的两个问题提出了新的模型结构；本模型能够让生成模型所生成的数据二次利用，以此强化辅助了信息输入量，从而增强判别器D的泛化性；并且还利用了判别器的二次对抗实现了对于无标签数据信息的再次利用，从而达到数据信息利用率的最大化。

发明内容

为克服现有技术的不足，本发明旨在提出一种生成式双重条件对抗网络结新型结构用于图像半监督分类的新技术，该技术采用对抗生成思想以及条件生成模型思想，通过双重对抗网络结构来替代传统单一对抗网络结构中的信息提取，从而减少模型对无标签数据信息的损耗，提高无标签数据信息的二次利用进而提升了判别器的精度。

本发明的目的是通过以下技术方案实现的：

一种基于生成式双重条件对抗网络结构的图像半监督分类方法,包括以下步骤：

步骤一，初始化模型的相关变量和网络参数；

步骤二，加载图像数据，包括图像的初始化，以及图像数据种类的分割，分别切分为训练集和验证集以及测试集,其中x_real表示真实数据,x_fake表示生成器G生成数据；

步骤三，生成随机噪声noise，以及生成条件即标签c；

步骤四，将随机噪声noise以及条件c输入到生成器G中，得到生成给定条件即标签c下的图像数据x_fake＝G(noise,c)；

步骤五，训练并且优化生成器G，对于生成器G的损失函数为L_G：

其中，

和

分别表示判别器D对与真实数据x_real和生成数据x_fake所提取出来的数据特征，L_feature表示生成图像x_fake和真实图像x_real之间重要图像特征的差异的损失函数，L_feature越小说明生成器G所学习的分布越接近真实数据的分布；

是生成器条件生成图像的约束条件的损失函数，这个约束条件可以使得生成器生成某种条件下的图像数据；

步骤六，输入真实数据和生成的数据，生成器与判别器的对抗，实现无监督学习对于无标签数据信息的第一次提取，该过程所要实现的真假判断目标函数L_s如下：

其中，

是判别器D对真实图片x_real预测为真图片，即：s＝real时的对数概率的均值，判别器D需要尽量的增大这个值才能够正确的判断出来这是真实图像；

表示判别器D对于生成图像x_fake预测为假图片，即：s＝fake时的对数概率的均值，判别器要尽量的增大这个值才能够正确的判断出来这是生成图像；结合生成器的损失函数，生成器和判别器实现第一次对抗；

步骤七，对于有标签数据和条件生成的数据，判别器所要实现的分类(条件)损失函数L_c如下：

其中，

和

分别表示判别器D把真实数据的标签预测值预测为真实标签的对数概率均值，以及把生成数据的条件预测值预测为真实给定的条件值的对数概率均值，其中C表示标签或条件分布、c是具体的标签或条件，判别器需要尽量增大这两个均值，才能够正确的预测出其所对应的标签或着对应条件；

步骤八，输入无标签数据x_u，单独利用无标签数据对判别器进行二次对抗训练，即：对于任意一个无标签数据样本x_u的某个领域中，找到一个最大的扰动向量r_qadv，该扰动向量的目的是使得新的扰动样本x_u+r_qadv经过判别器的预测分布与原本的样本预测分布差异最大化；同时判别器要能够尽量的识别出经过扰动向量干扰的新样本，使得新的扰动样本x_u+r_qadv经过判别器的预测分布与原本的样本预测分布差异最小化，这样就形成了对判别器的二次对抗；这次对抗训练的目标函数

如下：

其中

为KL散度，用于衡量两种预测结果分布的差距,θ表示模型参数是个变量利用梯度下降来进行优化,

表示θ的在莫一时刻的某一固定取值是个常量,r为扰动向量即噪声,||r||₂≤ε表示扰动向量r的一个半径小于ε的领域，

表示判别器D在模型参数为

时对无标签数据的预测分布,q(y|x_u+r，θ)表示判别器D在对添加扰动向量的无标签数据的预测分布，其中r_qad_v称为最大扰动向量，该扰动向量的目标是使得判别器对无标签数据x_u预测分布

和判别器对x_u+r的预测分布q(y|x_u+r，θ)偏差达到最大化，q(y|x_u+r_qadv，θ)表示判别器D在对添加最大扰动向量的无标签数据的预测分布；判别器的目标则与之相反，它要使得判别器对无标签数据x_u预测分布

和判别器对x_u+r的预测分布q(y|x_u+r，θ)偏差达到最小化；从而实现第二次对抗；其中具体计算r_qadv的方法为：假设模型在参数为

时对无标签数据x_u的预测分布为

然后在无标签样本上加入高斯分布的噪声得到新样本

输入模型得到预测分布为

然后通过以下公式计算：

得到扰动值，其中

为一个超参数。

步骤九，训练并且优化判别器D，对于判别器D的最终损失函数为

其中L_s为真假判断损失函数如式(2),L_c为分类(条件)损失函数如式(3),

为二次对抗网络的损失函数如式(4)

本发明的特点及有益效果是：

本发明在常规半监督GAN对抗的基础上对判别器的损失函数进行了改进，当无标签数据进入判别器时能够通过增加的这项损失函数达到对判别器的二次对抗效果从而提升无标签数据的利用率，因此我们在判别器上增加了新的一个关于无标签数据的对抗系统实现该模型的双重对抗网络结构并且采用了条件生成的方式来对生成数据进行约束，通过双重网络对抗系统来替代传统单一对抗网络结构，从而避免了对无标签数据信息提取的不充分，提高了判别器对于图像分类的泛化性；运行条件生成的方式来进行数据重构，以此避免了常规半监督GAN中对于生成数据的浪费，进而提高了判别器对于图像分类的精确度。

附图说明：

图1判别器的流程图

图2.cifar10数据生成的图像

图3.cifar10数据集训练过程中有标签数据的损失变化图。

图4.cifar10数据集训练过程中无标签数据的损失变化图。

具体实施方式

本发明涉及了图像处理和深度学习领域，主要通过使用深度学习模型完成对于少量标签图像以及大量无标签图像的半监督分类问题，是半监督图像分类研究的一个重要方向。该深度学习模型在训练的过程中使用不同规模的图像数据集，训练完成后对图像能否与原始标签一一对应进行预测。

为克服主流基于GAN的半监督图像分类模型的不足，本发明旨在提出一种生成式双重条件对抗网络结新型结构用于图像半监督分类的新技术，该技术采用对抗生成思想以及条件生成模型思想，通过双重对抗网络结构来替代传统单一对抗网络结构中的信息提取，从而减少模型对无标签数据信息的损耗，提高无标签数据信息的二次利用进而提升了判别器的精度。为此，本发明采取的技术方案是，利用模型间的对抗和条件生成图像的思想实现了图像分类方法，在给定少量有标签图像以及大量无标签图像中，利用生成器和判别器组成的第一个对抗系统，生成器希望生成的数据能够欺骗判别器，判别器则是需要分清真实数据和生成数据，利用这样的一种对抗关系用来训练判别器和生成器并且学习整体数据的分部；其中，在第一个对抗系统中的生成模型G我们利用了条件生成模型，使得生成器G能够生成指定标签下的图像数据，从而增强了训练数据量并且能够二次利用生成图像。其次为了增强模型对无标签数据的信息提取，我们基于半监督的自治正则化方法在无标签数据上对判别器引入第二个对抗系统，利用第二个自对抗系统充分提取无标签数据信息从而增强判别器D的泛化能力，具体思想是对于每个无标签数据我们先对其进行扰动向量添加(噪声添加)，添加扰动向量后的数据希望判别器不能识别出原无标签数据和添加扰动向量后的无标签数据，对于判别器来说需要正确识别出原无标签数据和添加扰动向量后的无标签数据(注：第一个对抗系统是生成器和判别器的对抗，有别于第一个对抗系统第二个对抗系统是只针对无标签数据的，并且对抗只发生在在判别器上的，并不需要像第一个对抗系统需要额外的模型(生成器)与其发生对抗)；

具体步骤如下：

步骤一，初始化模型的相关变量和网络参数；

步骤三，生成随机噪声noise，以及生成条件(标签)c；

步骤四，将随机噪声noise以及条件c输入到生成器G中，得到生成给定条件(标签)c下的图像数据x_fake＝G(noise,c)；

其中，

和

其中，

是判别器D对真实图片x_real预测为真图片(即：s＝real)的对数概率的均值，判别器D需要尽量的增大这个值才能够正确的判断出来这是真实图像；

表示判别器D对于生成图像x_fake预测为假图片(即：s＝fake)的对数概率的均值，判别器要尽量的增大这个值才能够正确的判断出来这是生成图像；结合生成器的损失函数，生成器和判别器实现第一次对抗；

其中，

和

如下：

其中

表示θ的在莫一时刻的某一固定取值是个常量,r为扰动向量(噪声),||r||₂≤ε表示扰动向量r的一个半径小于ε的领域,

表示判别器D在模型参数为

时对无标签数据的预测分布,q(y|x_u+r，θ)表示判别器D在对添加扰动向量的无标签数据的预测分布。其中r_qadv称为最大扰动向量，该扰动向量的目标是使得判别器对无标签数据x_u预测分布

和判别器对x_u+r的预测分布q(y|x_u+r，θ)偏差达到最小化；从而实现了该模型的第二次对抗。其中具体计算r_qadv的方法为：假设模型在参数为

时对无标签数据x_u的预测分布为

然后在无标签样本上加入高斯分布的噪声得到新样本

输入模型得到预测分布为

然后通过以下公式计算：

得到扰动值，其中

为一个超参数。

为二次对抗网络的损失函数如式(4)

本发明的技术过程主要包含以下内容：

1)数据来源

本实验中使用到的数据集为MNIST和SVHN以及CIFAR-10；以CIFAR数据集为例，该数据集共有60000张彩色图像，图像均为大小为32*32*3的彩色图像，分为10个类，每类6000张图。这里面有45000当作训练集，5000用于做验证集；另外10000用于做测试集。其中训练集的45000张进一步划分：对于不同类别图像各取400张10个类别共计4000张图像作为有标签数据，其余图像数据当作无标签数据进行训练。

表1：数据集的大小

Data set	Train data	Valid data	Test data	Total
					MNIST	40176	5000	10000	55176
SVHN	68257	5000	26032	99289
					CIFAR-10	45000	5000	10000	60000

2)深度学习模型结构

我们的发明中使用到的深度学习模型主要是针对对抗系统中的生成器网络G和判别器网

络D进行结构设计，使用到的深度学习模型主要有以下组件组成：激活函数，批规范化层(Batch-Normalization)，网络权值规范化层(Weight-Normalization)，卷积神经网络层(CNN)和反卷积神经网络层。

其中我们的模型判别器网络的神经网络结构对输入32*32*3的RGB图像使用了九次卷积操作和将原始图像卷积成大小为192维度的特征信息，然后将三位图像数组形式扁平化为一维数组形式，最后将扁平化为一维数组形式的图像特征信息输入一个维度为192和10或者11的全连接层。判别器D对于输入真实数据和生成的数据。

生成器的神经网络结构为对输入的噪声以及噪声对应的约束条件进行了五次反卷积操作，将噪声卷积成为32*32*3的RGB图像。

本发明解决的问题是提供一种多重对抗生成思想的半监督图像分类新技术，该技术采用对抗生成思想以及条件生成模型思想学习到数据的真实分布，通过二次判别对抗学习数据信息来替代传统单一对抗的方法来学习数据信息，从而避免了对模型对数据学习的不充分，提高了模型对图像分类的精度。

本发明的技术方案是：

基于生成式双重条件对抗网络结构的图像半监督学习的预测新技术，包括以下步骤：

步骤一，初始化模型的相关变量和网络参数；

步骤三，生成随机噪声noise，以及生成条件(标签)c；

其中，

和

其中，

其中，

和

如下：

其中

表示判别器D在模型参数为

时对无标签数据x_u的预测分布为

然后在无标签样本上加入高斯分布的噪声得到新样本

输入模型得到预测分布为

然后通过以下公式计算：

得到扰动值，其中

为一个超参数。

为二次对抗网络的损失函数如式(4)

在完成模型对图像类别分类的过程中，使用了三种不同的数据集在有标签数量不同的情况下来完成训练和测试，在训练的过程中，使用五折交叉验证来评估模型的性能。对于五折交叉验证方法，首先将所有样本平均分成五份，在每次实验中，选取其中的4分作为训练集，剩下的1份作为测试集。所以在每个数据集上，我们分别进行了五次实验，然后计算了这五次实验的平均值和中位数以及标准差。结果如下表所示。

表2：每类数据有标签样本量为100时，MNIST测试集误差率对比

表3：每类数据有标签样本量为200时，MNIST测试集误差率对比

表4：每类数据有标签样本量为1000时，SVHN测试集误差率对比

表5：每类数据有标签样本量为2000时，SVHN测试集误差率对比

表6：每类数据有标签样本量为500时，CIFAR-10测试集误差率对比

表7：每类数据有标签样本量为800时，CIFAR-10测试集误差率对比

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。