CN112164008B

CN112164008B - 图像数据增强网络的训练方法及其训练装置、介质和设备

Info

Publication number: CN112164008B
Application number: CN202011055552.4A
Authority: CN
Inventors: 胡庆茂; 苏李一磊
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2024-02-23
Anticipated expiration: 2040-09-29
Also published as: CN112164008A; WO2022067874A1

Abstract

本发明公开了一种图像数据增强网络的训练方法及其训练装置、介质和设备。所述训练方法包括：获取噪声样本和待增强的真实数据样本；将所述噪声样本输入图像数据增强网络以得到生成数据样本；将所述真实数据样本和所述生成数据样本输入所述图像数据增强网络以得到多组余弦距离值，所述图像数据增强网络根据所述多组余弦距离值计算得到损失函数；根据所述损失函数更新所述图像数据增强网络的网络参数。在结合OT理论和GAN的基础上，通过使用余弦距离定义真实数据分布和生成数据分布之间的距离，从而提高网络结构的稳定性和生成数据的质量，降低噪声对网络的影响。

Description

图像数据增强网络的训练方法及其训练装置、介质和设备

技术领域

本发明属于图像处理技术领域，具体地讲，涉及图像数据增强网络的训练方法及其训练装置、计算机可读存储介质、计算机设备。

背景技术

在深度学习中，许多神经网络需要大量的参数进行训练以有效地防止过拟合现象，高质量的数据集应包含足够的类别、具有一定的多样性，且对数据的特征可以充分的表达。

但是在很多实际情况中，大量且高质量数据获取非常困难。具体表现为：1)训练可用数据较少且较难获取，需要大量的人力；2)数据在各个类别上不平衡；3)数据上有敏感信息或个人隐私信息等不能用于公开使用。这些数据上的局限在医学图像处理领域尤为明显。微调等在深度学习中常用的方法在缺乏多样性的小样本的训练上难以起到有效的作用。为了提高训练精度、有效防止过拟合现象，目前在深度学习中使用最多的是数据增强的方法。传统的图像数据增强方法主要包括：平移、旋转、翻转、缩放、裁剪、添加噪声等。这些方法操作简单快速且具有可复制性，但传统数据增强方法产生的图像具有很强的相关性，即新增的有效信息很少，在复杂图像的情况中并不能很好的解决因为小样本产生的问题。

生成式对抗网络(GAN，Generative adversarial network)近年来在图像合成上表现出了巨大的潜力。

原始的GAN结构基于多层感知网络(MLP，Multilayer Perceptron)，包含两部分神经网络：生成器G和判别器D，生成器D的输入z来自已知分布p(z)，通常选取为高斯分布或正态分布，生成器D生成服从分布p_g(x)的输出x_g以实现p_g(x)＝p_r(x)，其中p_r(x)为真实样本x_r的分布；而判别器则输出样本为真实样本的概率：参数为θ_g的生成器输出生成样本x_g＝G(z；θ_g)，参数为θ_d输出y＝D(x；θ_d)。生成器G和判别器D通过对抗训练优化损失函数，使(G，D)达到Nash平衡。

GAN的损失函数为：

其中为数学期望，对原始GAN结构的损失函数分析可知，当判别器已经优化为：

上述损失函数等价为最小化真实数据分布与生成数据分布之间的Jensen-Shannon散度(JSD)：

然而当两个分布的支撑集可忽略时，JSD为常量，导致生成器无法继续训练。而在现实情况中，生成器随机初始化后的生成分布很难与真实分布有不可忽略的重叠，这将导致模式消失或者模式崩塌的问题。

为了解决上述问题，同时最优传输方法(OT，Optimal transport)通过寻找两个分布传输之间的最小代价，无论两个分布的支撑集是否存在重叠，都可以测量两个分布之间的距离。这个理论为解决原始GAN结构损失函数的缺陷提供了方法。

从OT的角度，GAN可以被看做通过生成器实现OT映射，通过判别器实现真实数据分布和生成数据分布之间的距离判定。两个分布之间的距离可以定义为：

在现有的技术中，Wasserstein GAN(WGAN)在将OT用于GAN的改进上做出了突破。WGAN将中的c(x_r,x_g)选为欧氏距离，两个分布之间的距离定义为：

即Wasserstein距离。WGAN生成器的输入为在[-1,1]之间服从正态分布的噪声样本z，通过OT映射及优化Wasserstein距离合成新的数据，WGAN生成的图像可用于数据增强。

但是，将OT理论用于GAN结构中的WGAN中所使用的Wasserstein距离定义基于欧式距离，然而欧式距离对于尺度和异常点较为敏感，即对噪声的影响比较敏感。

发明内容

(一)本发明所要解决的技术问题

本发明解决的技术问题是：如何在解决现有对抗网络训练不稳定的技术问题的基础上，提高模型对噪声影响的鲁棒性。

(二)本发明所采用的技术方案

一种图像数据增强网络的训练方法，所述训练方法包括：

获取噪声样本和待增强的真实数据样本；

将所述噪声样本输入图像数据增强网络以得到生成数据样本；

将所述真实数据样本和所述生成数据样本输入所述图像数据增强网络以得到多组余弦距离值，所述图像数据增强网络根据所述多组余弦距离值计算得到损失函数；

根据所述损失函数更新所述图像数据增强网络的网络参数。

优选地，所述图像数据增强网络包括生成器和判别器，其中

将所述噪声样本输入图像数据增强网络以得到生成数据样本的方法为：将所述噪声样本输入到所述生成器，所述生成器输出生成数据样本；

根据所述真实数据样本和所述生成数据样本计算得到多组余弦距离值的方法为：将所述真实数据样本和所述生成数据样本输入到所述判别器中，所述判别器输出多组余弦距离值，所述多组余弦距离值包括第一余弦距离值、第二余弦距离值和第三余弦距离值。

优选地，所述真实数据样本包括服从相同分布的第一子真实样本x_r和第二子真实样本x_r′，所述生成数据样本包括服从同一分布的第一子生成样本x_g和第二子生成样本x_g′，所述第一余弦距离值d(x_r,x_g)、所述第二余弦距离值d(x_r,x_r′)和所述第三余弦距离值d(x_g,x_g′)的计算公式如下：

优选地，根据所述多组余弦距离值计算损失函数的方法为所述判别器根据如下公式计算得到损失函数L：

其中，为数学期望，L为损失函数。

优选地，根据所述损失函数更新所述图像数据增强网络的网络参数的方法为：

根据所述损失函数对所述图像数据增强网络进行反向操作，并根据随机梯度下降方法对所述判别器的网络参数更新N次；

根据所述损失函数对所述图像数据增强网络进行反向操作，并根据随机梯度下降方法对所述生成器的网络参数更新一次。

本申请还公开了一种图像数据增强网络的训练装置，所述训练装置包括：

获取模块，用于获取噪声样本和待增强的真实数据样本；

第一输入模块，用于将所述噪声样本输入图像数据增强网络以得到生成数据样本；

第二输入模块，用于将所述真实数据样本和所述生成数据样本输入所述图像数据增强网络以得到多组余弦距离值，所述图像数据增强网络所述多组余弦距离值计算得到损失函数；

更新模块，用于根据所述损失函数更新所述图像数据增强网络的网络参数。

优选地，所述图像数据增强网络包括生成器和判别器，其中

所述第一输入模块用于将所述噪声样本输入到所述生成器，所述生成器输出生成数据样本；

所述第二输入模块用于将所述真实数据样本和所述生成数据样本输入到所述判别器中，所述判别器输出多组余弦距离值，所述多组余弦距离值包括第一余弦距离值、第二余弦距离值和第三余弦距离值。

优选地，根据所述损失函数更新所述图像数据增强网络的网络参数时，所述更新模块具体用于：

利用所述损失函数对所述图像数据增强网络进行反向操作，并根据随机梯度下降方法对所述判别器的网络参数更新N次；

利用所述损失函数对所述图像数据增强网络进行反向操作，并根据随机梯度下降方法对所述生成器的网络参数更新一次。

本申请还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有图像数据增强网络的训练程序，所述图像数据增强网络的训练程序被处理器执行时实现上述的图像数据增强网络的训练方法。

本申请还公开了一种计算机设备，所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的图像数据增强网络的训练程序，所述图像数据增强网络的训练程序被处理器执行时实现上述的图像数据增强网络的训练方法。

(三)有益效果

本发明公开了一种图像数据增强网络的训练方法，相对于传统的训练方法，具有如下技术效果：

(1)在结合OT理论和GAN的基础上，通过使用余弦距离定义真实数据分布和生成数据分布之间的距离，从而提高网络结构的稳定性和生成数据的质量，降低噪声对网络的影响。本实施例所提出的方法能够对小样本数据进行数据增强，且生成的结果多样性较高，IS系数大、FID系数小，可以解决传统数据增强方法中增强数据相关性高的问题。

附图说明

图1为本发明的实施例一的图像数据增强网络的训练方法的流程图；

图2为本发明的实施例二的图像数据增强网络的训练装置的示意图；

图3为本发明的实施例的不同网络模型的生成图像的对比图；

图4为本发明的实施例三的计算机设备示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在详细描述本申请的各个实施例之前，首先简单描述本申请的发明构思：现有技术中将OT理论应用在对抗网络训练中，由于采用了欧式距离，其对噪声和异常点较为敏感，本申请通过计算真实数据样本和生成数据样本之间的多组余弦距离值，并根据多组余弦距离值构建损失函数，从而对图像数据增强网络的网络参数进行更新，增强了对噪声和异常点的鲁棒性。

其中，OT理论通过寻找两个分布传输之间的最小代价，无论两个分布的支撑集是否存在重叠，都可以测量两个分布之间的距离。这个理论为解决原始GAN结构损失函数的缺陷提供了方法。OT定义为寻找两个分布p_g(x)和p_r(x)之间基于代价函数c(x_r,x_g)的最优映射函数π：

其中Π(p_r,p_g)为所有联合分布π(x_r,x_g)的集合。从OT的角度，GAN可以被看做通过生成器实现OT映射，通过判别器实现真实数据分布和生成数据分布之间的距离判定。两个分布之间的距离可以定义为：

实施例一

具体地，如图1所示，本实施例一的图像数据增强网络的训练方法包括如下步骤：

步骤S10：获取噪声样本和待增强的真实数据样本。

步骤S20：将所述噪声样本输入图像数据增强网络以得到生成数据样本

步骤S30：将所述真实数据样本和所述生成数据样本输入所述图像数据增强网络以得到多组余弦距离值，所述图像数据增强网络根据所述多组余弦距离值计算得到损失函数。

步骤S40：根据所述损失函数更新所述图像数据增强网络的网络参数。

具体来说，本实施例的图像数据增强网络包括生成器G和判别器D，其中，生成器G和判别器D均采用卷积神经网络。步骤S20中，将所述噪声样本输入到所述生成器G，所述生成器G输出生成数据样本。步骤S30中，将所述真实数据样本和所述生成数据样本输入到所述判别器D中，所述判别器D输出多组余弦距离值，所述多组余弦距离值包括第一余弦距离值、第二余弦距离值和第三余弦距离值。

进一步地，所述真实数据样本包括服从相同分布的第一子真实样本x_r和第二子真实样本x_r′，所述生成数据样本包括服从同一分布的第一子生成样本x_g和第二子生成样本x_g′。具体来说，所采用的真实数据样本服从相同分布，采用随机取样的方式获取第一子真实样本x_r和第二子真实样本x_r′。输入的噪声样本是固定的，经过生成器G之后会生成服从一定分布的生成数据样本，例如服从正态分布，从这个分布中随机取样获得第一子生成样本x_g和第二子生成样本x_g′。

其中，第一余弦距离值d(x_r,x_g)、第二余弦距离值d(x_r,x_r′)和第三余弦距离值d(x_g,x_g′)的计算公式如下：

进一步地，判别器D根据如下计算公式得到损失函数L：

其中，为数学期望，L为损失函数。

进一步地，根据所述损失函数L对所述图像数据增强网络进行反向操作，并根据随机梯度下降方法对所述判别器的网络参数更新N次，以及根据随机梯度下降方法对所述生成器的网络参数更新一次。重复上述步骤，直至生成器和判别器得到均衡，从而完成图像数据增强网络的训练。

具体来说，图像数据增强网络的输入为需要增强的小样本数据，即真实数据，同时需要向系统提供训练步长α、批处理图像数量N，以及每一次生成器参数更新前对判别器参数更新次数n_c。判别器的初始参数为ω₀，生成器的初始参数为θ₀。生成器的输入为在[-1，1]之间服从正态分布的噪声样本z。

当生成器参数θ没有达到收敛时，运用上述损失函数的公式计算真实数据分布p_r(x)和生成数据分布p_g(x)之间的距离。在每一次对生成器参数更新前，需要对判别器参数ω使用随机梯度下降法更新n_c次：之后对生成器参数使用随机梯度下降法更新一次：/>对以上训练步骤进行循环直至生成器参数θ收敛。

进一步地，采用IS系数(Inception Score)以及FID系数(Fréchet inceptiondistance)作为数据增强的评价指标。其公式表示为：

其中，p(l|X)为生成样本X的条件分布，KL为Kullback-Leibler散度，N为一个批处理中的样本数量，m、C和Tr分别为均值、协方差和迹。IS越大、FID越小则说明生成图像的质量和多样性越好。

当图像数据增强网络训练完成之后，将噪声样本输入到生成器中，生成器输出合成数据，将合成数据和真实数据样本一起作为训练样本，用于后续模型训练，从而实现数据增强。

本实施例公开的图像数据增强网络的训练方法，在结合OT理论和GAN的基础上，通过使用余弦距离定义真实数据分布和生成数据分布之间的距离，从而提高网络结构的稳定性和生成数据的质量，降低噪声对网络的影响。本实施例所提出的方法能够对小样本数据进行数据增强，且生成的结果多样性较高，IS系数大、FID系数小，可以解决传统数据增强方法中增强数据相关性高的问题。对于不同领域的深度学习都具有参考价值，可用于不同领域小样本数据集的训练中。

实施例二

如图3所示，本实施例二的图像数据增强网络的训练装置包括获取模块100、第一输入模块200、第二输入模块300和更新模块400，其中获取模块100用于获取噪声样本和待增强的真实数据样本；第一输入模块200用于将所述噪声样本输入图像数据增强网络以得到生成数据样本；第二输入模块300用于将所述真实数据样本和所述生成数据样本输入所述图像数据增强网络以得到多组余弦距离值，所述图像数据增强网络所述多组余弦距离值计算得到损失函数；更新模块400用于根据所述损失函数更新所述图像数据增强网络的网络参数。

进一步地，所述图像数据增强网络包括生成器G和判别器D，其中所述第一输入模块200用于将所述噪声样本输入到所述生成器G，所述生成器G输出生成数据样本；所述第二输入模块300用于将所述真实数据样本和所述生成数据样本输入到所述判别器D中，所述判别器D输出多组余弦距离值，所述多组余弦距离值包括第一余弦距离值、第二余弦距离值和第三余弦距离值。其中，判别器D计算得到多组余弦距离值和损失函数的具体过程参照实施例一，在此不进行赘述。

进一步地，根据所述损失函数更新所述图像数据增强网络的网络参数时，所述更新模块400具体用于：利用所述损失函数对所述图像数据增强网络进行反向操作，并根据随机梯度下降方法对所述判别器的网络参数更新N次；利用所述损失函数对所述图像数据增强网络进行反向操作，并根据随机梯度下降方法对所述生成器的网络参数更新一次。其中，更新模块400的更新方式参照实施例一，在此不进行赘述。

进一步地，为了更加直观地展示本实施例的训练方法得到的图像数据增强网络的优点，申请人进行了实验验证。

具体地，采用CIFAR-10数据集进行实验和验证，CIFAR-10包含60000张32*32的彩色图像，共10类，每一类6000张。

所有的实验均基于Chainer-GAN-lib库完成，为了更好的显示所提出数据增强系统的优越性，我们选择了以下已有网络模型进行对比：GAN-OTD(OT在原始基于MLP的GAN上的改进)、WGAN-GP(使用梯度惩罚对WGAN进行增强，损失函数中仍然为WGAN结构中使用的欧氏距离)。本实施例的网络结构为CNN-GAN-OTD。实验参数均使用Chainer-GAN-lib中的默认参数：批处理数量为64，最大训练次数为100000。5000张随机取样的生成图像用于IS系数的计算，50000张随机取样的真实图像与10000张随机取样的生成图像用于FID系数的计算。

(1)生成图像分析：

在训练参数一致的前提下用不同方法对CIFAR-10数据进行图像合成，IS系数和FID系数结果如表1。本方法在IS和FID结果上均为所列方法中的最优结果，验证了本实施例的训练方法训练得到的图像数据增强网络在生成图像质量以及多样性上的优越性。

表1.不同方法在CIFAR-10数据集上生成图像质量对比

(2)噪声影响分析：

对CIFAR-10数据集添加均值为0，标准差依次增大的高斯噪声，在训练参数一致的前提下用不同网络模型对添加噪声的CIFAR-10数据进行图像合成，IS系数和FID系数结果如表2，生成图像对比如图3。其中标准差最大值根据经验选为20。

本方法在IS和FID结果上均为所列方法中的最优结果，验证了本方法对噪声影响的鲁棒性。

在图3中，(a),(e)和(i)为原始图像添加标准差为2,5和20的高斯噪声后的图像；(b)、(c)和(d)为分别用WGAN-GP、DRAGAN和CNN-GAN-OTD通过(a)合成的图像；(f)、(g)和(h)为分别用WGAN-GP、DRAGAN和CNN-GAN-OTD通过(e)合成的图像；(j)、(k)和(l)为分别用WGAN-GP、DRAGAN和CNN-GAN-OTD通过(i)合成的图像。

表2.不同方法在添加噪声的CIFAR-10数据集上生成图像质量对比

本实施例三还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有图像数据增强网络的训练程序，所述图像数据增强网络的训练程序被处理器执行时实现上述的图像数据增强网络的训练方法。

本实施例四还公开了一种计算机设备，在硬件层面，如图4所示，该终端包括处理器12、内部总线13、网络接口14、计算机可读存储介质11。处理器12从计算机可读存储介质中读取对应的计算机程序然后运行，在逻辑层面上形成请求处理装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。所述计算机可读存储介质11上存储有图像数据增强网络的训练程序，所述图像数据增强网络的训练程序被处理器执行时实现上述的图像数据增强网络的训练方法。

计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上面对本发明的具体实施方式进行了详细描述，虽然已表示和描述了一些实施例，但本领域技术人员应该理解，在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下，可以对这些实施例进行修改和完善，这些修改和完善也应在本发明的保护范围内。

Claims

1.一种图像数据增强网络的训练方法，其特征在于，所述训练方法包括：

获取噪声样本和待增强的真实数据样本；

所述图像数据增强网络包括生成器和判别器，将所述噪声样本输入图像数据增强网络以得到生成数据样本，包括：将所述噪声样本输入到所述生成器，所述生成器输出生成数据样本；

将所述真实数据样本和所述生成数据样本输入所述图像数据增强网络以得到多组余弦距离值，所述图像数据增强网络根据所述多组余弦距离值计算得到损失函数，包括：将所述真实数据样本和所述生成数据样本输入到所述判别器中，所述判别器输出多组余弦距离值，所述多组余弦距离值包括第一余弦距离值、第二余弦距离值和第三余弦距离值；

所述真实数据样本包括服从相同分布的第一子真实样本x_r和第二子真实样本x_r′，所述生成数据样本包括服从同一分布的第一子生成样本x_g和第二子生成样本x_g′，所述第一余弦距离值d(x_r,x_g)、所述第二余弦距离值d(x_r,x_r′)和所述第三余弦距离值d(x_g,x_g′)的计算公式如下：

根据所述多组余弦距离值计算损失函数的方法为所述判别器根据如下公式计算得到损失函数L：

其中，为数学期望，L为损失函数；

根据所述损失函数更新所述图像数据增强网络的网络参数。

2.根据权利要求1所述的图像数据增强网络的训练方法，其特征在于，根据所述损失函数更新所述图像数据增强网络的网络参数的方法为：

3.一种图像数据增强网络的训练装置，其特征在于，所述训练装置包括：

获取模块，用于获取噪声样本和待增强的真实数据样本；

第一输入模块，用于将所述噪声样本输入图像数据增强网络以得到生成数据样本，所述图像数据增强网络包括生成器和判别器，包括：将所述噪声样本输入到所述生成器，所述生成器输出生成数据样本；

第二输入模块，用于将所述真实数据样本和所述生成数据样本输入所述图像数据增强网络以得到多组余弦距离值，所述图像数据增强网络所述多组余弦距离值计算得到损失函数，包括：将所述真实数据样本和所述生成数据样本输入到所述判别器中，所述判别器输出多组余弦距离值，所述多组余弦距离值包括第一余弦距离值、第二余弦距离值和第三余弦距离值；

更新模块，用于根据所述损失函数更新所述图像数据增强网络的网络参数；

其中，为数学期望，L为损失函数。

4.根据权利要求3所述的图像数据增强网络的训练装置，其特征在于，所述图像数据增强网络包括生成器和判别器，其中

5.根据权利要求4所述的图像数据增强网络的训练装置，其特征在于，根据所述损失函数更新所述图像数据增强网络的网络参数时，所述更新模块具体用于：

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有图像数据增强网络的训练程序，所述图像数据增强网络的训练程序被处理器执行时实现权利要求1至2任一项所述的图像数据增强网络的训练方法。

7.一种计算机设备，其特征在于，所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的图像数据增强网络的训练程序，所述图像数据增强网络的训练程序被处理器执行时实现权利要求1至2任一项所述的图像数据增强网络的训练方法。