CN112164008B - 图像数据增强网络的训练方法及其训练装置、介质和设备 - Google Patents
图像数据增强网络的训练方法及其训练装置、介质和设备 Download PDFInfo
- Publication number
- CN112164008B CN112164008B CN202011055552.4A CN202011055552A CN112164008B CN 112164008 B CN112164008 B CN 112164008B CN 202011055552 A CN202011055552 A CN 202011055552A CN 112164008 B CN112164008 B CN 112164008B
- Authority
- CN
- China
- Prior art keywords
- image data
- cosine distance
- sample
- data enhancement
- enhancement network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 title claims abstract description 53
- 238000009826 distribution Methods 0.000 claims abstract description 47
- 238000011478 gradient descent method Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 description 34
- 238000013507 mapping Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种图像数据增强网络的训练方法及其训练装置、介质和设备。所述训练方法包括:获取噪声样本和待增强的真实数据样本;将所述噪声样本输入图像数据增强网络以得到生成数据样本;将所述真实数据样本和所述生成数据样本输入所述图像数据增强网络以得到多组余弦距离值,所述图像数据增强网络根据所述多组余弦距离值计算得到损失函数;根据所述损失函数更新所述图像数据增强网络的网络参数。在结合OT理论和GAN的基础上,通过使用余弦距离定义真实数据分布和生成数据分布之间的距离,从而提高网络结构的稳定性和生成数据的质量,降低噪声对网络的影响。
Description
技术领域
本发明属于图像处理技术领域,具体地讲,涉及图像数据增强网络的训练方法及其训练装置、计算机可读存储介质、计算机设备。
背景技术
在深度学习中,许多神经网络需要大量的参数进行训练以有效地防止过拟合现象,高质量的数据集应包含足够的类别、具有一定的多样性,且对数据的特征可以充分的表达。
但是在很多实际情况中,大量且高质量数据获取非常困难。具体表现为:1)训练可用数据较少且较难获取,需要大量的人力;2)数据在各个类别上不平衡;3)数据上有敏感信息或个人隐私信息等不能用于公开使用。这些数据上的局限在医学图像处理领域尤为明显。微调等在深度学习中常用的方法在缺乏多样性的小样本的训练上难以起到有效的作用。为了提高训练精度、有效防止过拟合现象,目前在深度学习中使用最多的是数据增强的方法。传统的图像数据增强方法主要包括:平移、旋转、翻转、缩放、裁剪、添加噪声等。这些方法操作简单快速且具有可复制性,但传统数据增强方法产生的图像具有很强的相关性,即新增的有效信息很少,在复杂图像的情况中并不能很好的解决因为小样本产生的问题。
生成式对抗网络(GAN,Generative adversarial network)近年来在图像合成上表现出了巨大的潜力。
原始的GAN结构基于多层感知网络(MLP,Multilayer Perceptron),包含两部分神经网络:生成器G和判别器D,生成器D的输入z来自已知分布p(z),通常选取为高斯分布或正态分布,生成器D生成服从分布pg(x)的输出xg以实现pg(x)=pr(x),其中pr(x)为真实样本xr的分布;而判别器则输出样本为真实样本的概率:参数为θg的生成器输出生成样本xg=G(z;θg),参数为θd输出y=D(x;θd)。生成器G和判别器D通过对抗训练优化损失函数,使(G,D)达到Nash平衡。
GAN的损失函数为:
其中为数学期望,对原始GAN结构的损失函数分析可知,当判别器已经优化为:
上述损失函数等价为最小化真实数据分布与生成数据分布之间的Jensen-Shannon散度(JSD):
然而当两个分布的支撑集可忽略时,JSD为常量,导致生成器无法继续训练。而在现实情况中,生成器随机初始化后的生成分布很难与真实分布有不可忽略的重叠,这将导致模式消失或者模式崩塌的问题。
为了解决上述问题,同时最优传输方法(OT,Optimal transport)通过寻找两个分布传输之间的最小代价,无论两个分布的支撑集是否存在重叠,都可以测量两个分布之间的距离。这个理论为解决原始GAN结构损失函数的缺陷提供了方法。
从OT的角度,GAN可以被看做通过生成器实现OT映射,通过判别器实现真实数据分布和生成数据分布之间的距离判定。两个分布之间的距离可以定义为:
在现有的技术中,Wasserstein GAN(WGAN)在将OT用于GAN的改进上做出了突破。WGAN将中的c(xr,xg)选为欧氏距离,两个分布之间的距离定义为:
即Wasserstein距离。WGAN生成器的输入为在[-1,1]之间服从正态分布的噪声样本z,通过OT映射及优化Wasserstein距离合成新的数据,WGAN生成的图像可用于数据增强。
但是,将OT理论用于GAN结构中的WGAN中所使用的Wasserstein距离定义基于欧式距离,然而欧式距离对于尺度和异常点较为敏感,即对噪声的影响比较敏感。
发明内容
(一)本发明所要解决的技术问题
本发明解决的技术问题是:如何在解决现有对抗网络训练不稳定的技术问题的基础上,提高模型对噪声影响的鲁棒性。
(二)本发明所采用的技术方案
一种图像数据增强网络的训练方法,所述训练方法包括:
获取噪声样本和待增强的真实数据样本;
将所述噪声样本输入图像数据增强网络以得到生成数据样本;
将所述真实数据样本和所述生成数据样本输入所述图像数据增强网络以得到多组余弦距离值,所述图像数据增强网络根据所述多组余弦距离值计算得到损失函数;
根据所述损失函数更新所述图像数据增强网络的网络参数。
优选地,所述图像数据增强网络包括生成器和判别器,其中
将所述噪声样本输入图像数据增强网络以得到生成数据样本的方法为:将所述噪声样本输入到所述生成器,所述生成器输出生成数据样本;
根据所述真实数据样本和所述生成数据样本计算得到多组余弦距离值的方法为:将所述真实数据样本和所述生成数据样本输入到所述判别器中,所述判别器输出多组余弦距离值,所述多组余弦距离值包括第一余弦距离值、第二余弦距离值和第三余弦距离值。
优选地,所述真实数据样本包括服从相同分布的第一子真实样本xr和第二子真实样本xr′,所述生成数据样本包括服从同一分布的第一子生成样本xg和第二子生成样本xg′,所述第一余弦距离值d(xr,xg)、所述第二余弦距离值d(xr,xr′)和所述第三余弦距离值d(xg,xg′)的计算公式如下:
优选地,根据所述多组余弦距离值计算损失函数的方法为所述判别器根据如下公式计算得到损失函数L:
其中,为数学期望,L为损失函数。
优选地,根据所述损失函数更新所述图像数据增强网络的网络参数的方法为:
根据所述损失函数对所述图像数据增强网络进行反向操作,并根据随机梯度下降方法对所述判别器的网络参数更新N次;
根据所述损失函数对所述图像数据增强网络进行反向操作,并根据随机梯度下降方法对所述生成器的网络参数更新一次。
本申请还公开了一种图像数据增强网络的训练装置,所述训练装置包括:
获取模块,用于获取噪声样本和待增强的真实数据样本;
第一输入模块,用于将所述噪声样本输入图像数据增强网络以得到生成数据样本;
第二输入模块,用于将所述真实数据样本和所述生成数据样本输入所述图像数据增强网络以得到多组余弦距离值,所述图像数据增强网络所述多组余弦距离值计算得到损失函数;
更新模块,用于根据所述损失函数更新所述图像数据增强网络的网络参数。
优选地,所述图像数据增强网络包括生成器和判别器,其中
所述第一输入模块用于将所述噪声样本输入到所述生成器,所述生成器输出生成数据样本;
所述第二输入模块用于将所述真实数据样本和所述生成数据样本输入到所述判别器中,所述判别器输出多组余弦距离值,所述多组余弦距离值包括第一余弦距离值、第二余弦距离值和第三余弦距离值。
优选地,根据所述损失函数更新所述图像数据增强网络的网络参数时,所述更新模块具体用于:
利用所述损失函数对所述图像数据增强网络进行反向操作,并根据随机梯度下降方法对所述判别器的网络参数更新N次;
利用所述损失函数对所述图像数据增强网络进行反向操作,并根据随机梯度下降方法对所述生成器的网络参数更新一次。
本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有图像数据增强网络的训练程序,所述图像数据增强网络的训练程序被处理器执行时实现上述的图像数据增强网络的训练方法。
本申请还公开了一种计算机设备,所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的图像数据增强网络的训练程序,所述图像数据增强网络的训练程序被处理器执行时实现上述的图像数据增强网络的训练方法。
(三)有益效果
本发明公开了一种图像数据增强网络的训练方法,相对于传统的训练方法,具有如下技术效果:
(1)在结合OT理论和GAN的基础上,通过使用余弦距离定义真实数据分布和生成数据分布之间的距离,从而提高网络结构的稳定性和生成数据的质量,降低噪声对网络的影响。本实施例所提出的方法能够对小样本数据进行数据增强,且生成的结果多样性较高,IS系数大、FID系数小,可以解决传统数据增强方法中增强数据相关性高的问题。
附图说明
图1为本发明的实施例一的图像数据增强网络的训练方法的流程图;
图2为本发明的实施例二的图像数据增强网络的训练装置的示意图;
图3为本发明的实施例的不同网络模型的生成图像的对比图;
图4为本发明的实施例三的计算机设备示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在详细描述本申请的各个实施例之前,首先简单描述本申请的发明构思:现有技术中将OT理论应用在对抗网络训练中,由于采用了欧式距离,其对噪声和异常点较为敏感,本申请通过计算真实数据样本和生成数据样本之间的多组余弦距离值,并根据多组余弦距离值构建损失函数,从而对图像数据增强网络的网络参数进行更新,增强了对噪声和异常点的鲁棒性。
其中,OT理论通过寻找两个分布传输之间的最小代价,无论两个分布的支撑集是否存在重叠,都可以测量两个分布之间的距离。这个理论为解决原始GAN结构损失函数的缺陷提供了方法。OT定义为寻找两个分布pg(x)和pr(x)之间基于代价函数c(xr,xg)的最优映射函数π:
其中Π(pr,pg)为所有联合分布π(xr,xg)的集合。从OT的角度,GAN可以被看做通过生成器实现OT映射,通过判别器实现真实数据分布和生成数据分布之间的距离判定。两个分布之间的距离可以定义为:
在现有的技术中,Wasserstein GAN(WGAN)在将OT用于GAN的改进上做出了突破。WGAN将中的c(xr,xg)选为欧氏距离,两个分布之间的距离定义为:
即Wasserstein距离。WGAN生成器的输入为在[-1,1]之间服从正态分布的噪声样本z,通过OT映射及优化Wasserstein距离合成新的数据,WGAN生成的图像可用于数据增强。
实施例一
具体地,如图1所示,本实施例一的图像数据增强网络的训练方法包括如下步骤:
步骤S10:获取噪声样本和待增强的真实数据样本。
步骤S20:将所述噪声样本输入图像数据增强网络以得到生成数据样本
步骤S30:将所述真实数据样本和所述生成数据样本输入所述图像数据增强网络以得到多组余弦距离值,所述图像数据增强网络根据所述多组余弦距离值计算得到损失函数。
步骤S40:根据所述损失函数更新所述图像数据增强网络的网络参数。
具体来说,本实施例的图像数据增强网络包括生成器G和判别器D,其中,生成器G和判别器D均采用卷积神经网络。步骤S20中,将所述噪声样本输入到所述生成器G,所述生成器G输出生成数据样本。步骤S30中,将所述真实数据样本和所述生成数据样本输入到所述判别器D中,所述判别器D输出多组余弦距离值,所述多组余弦距离值包括第一余弦距离值、第二余弦距离值和第三余弦距离值。
进一步地,所述真实数据样本包括服从相同分布的第一子真实样本xr和第二子真实样本xr′,所述生成数据样本包括服从同一分布的第一子生成样本xg和第二子生成样本xg′。具体来说,所采用的真实数据样本服从相同分布,采用随机取样的方式获取第一子真实样本xr和第二子真实样本xr′。输入的噪声样本是固定的,经过生成器G之后会生成服从一定分布的生成数据样本,例如服从正态分布,从这个分布中随机取样获得第一子生成样本xg和第二子生成样本xg′。
其中,第一余弦距离值d(xr,xg)、第二余弦距离值d(xr,xr′)和第三余弦距离值d(xg,xg′)的计算公式如下:
进一步地,判别器D根据如下计算公式得到损失函数L:
其中,为数学期望,L为损失函数。
进一步地,根据所述损失函数L对所述图像数据增强网络进行反向操作,并根据随机梯度下降方法对所述判别器的网络参数更新N次,以及根据随机梯度下降方法对所述生成器的网络参数更新一次。重复上述步骤,直至生成器和判别器得到均衡,从而完成图像数据增强网络的训练。
具体来说,图像数据增强网络的输入为需要增强的小样本数据,即真实数据,同时需要向系统提供训练步长α、批处理图像数量N,以及每一次生成器参数更新前对判别器参数更新次数nc。判别器的初始参数为ω0,生成器的初始参数为θ0。生成器的输入为在[-1,1]之间服从正态分布的噪声样本z。
当生成器参数θ没有达到收敛时,运用上述损失函数的公式计算真实数据分布pr(x)和生成数据分布pg(x)之间的距离。在每一次对生成器参数更新前,需要对判别器参数ω使用随机梯度下降法更新nc次:之后对生成器参数使用随机梯度下降法更新一次:/>对以上训练步骤进行循环直至生成器参数θ收敛。
进一步地,采用IS系数(Inception Score)以及FID系数(Fréchet inceptiondistance)作为数据增强的评价指标。其公式表示为:
其中,p(l|X)为生成样本X的条件分布,KL为Kullback-Leibler散度,N为一个批处理中的样本数量,m、C和Tr分别为均值、协方差和迹。IS越大、FID越小则说明生成图像的质量和多样性越好。
当图像数据增强网络训练完成之后,将噪声样本输入到生成器中,生成器输出合成数据,将合成数据和真实数据样本一起作为训练样本,用于后续模型训练,从而实现数据增强。
本实施例公开的图像数据增强网络的训练方法,在结合OT理论和GAN的基础上,通过使用余弦距离定义真实数据分布和生成数据分布之间的距离,从而提高网络结构的稳定性和生成数据的质量,降低噪声对网络的影响。本实施例所提出的方法能够对小样本数据进行数据增强,且生成的结果多样性较高,IS系数大、FID系数小,可以解决传统数据增强方法中增强数据相关性高的问题。对于不同领域的深度学习都具有参考价值,可用于不同领域小样本数据集的训练中。
实施例二
如图3所示,本实施例二的图像数据增强网络的训练装置包括获取模块100、第一输入模块200、第二输入模块300和更新模块400,其中获取模块100用于获取噪声样本和待增强的真实数据样本;第一输入模块200用于将所述噪声样本输入图像数据增强网络以得到生成数据样本;第二输入模块300用于将所述真实数据样本和所述生成数据样本输入所述图像数据增强网络以得到多组余弦距离值,所述图像数据增强网络所述多组余弦距离值计算得到损失函数;更新模块400用于根据所述损失函数更新所述图像数据增强网络的网络参数。
进一步地,所述图像数据增强网络包括生成器G和判别器D,其中所述第一输入模块200用于将所述噪声样本输入到所述生成器G,所述生成器G输出生成数据样本;所述第二输入模块300用于将所述真实数据样本和所述生成数据样本输入到所述判别器D中,所述判别器D输出多组余弦距离值,所述多组余弦距离值包括第一余弦距离值、第二余弦距离值和第三余弦距离值。其中,判别器D计算得到多组余弦距离值和损失函数的具体过程参照实施例一,在此不进行赘述。
进一步地,根据所述损失函数更新所述图像数据增强网络的网络参数时,所述更新模块400具体用于:利用所述损失函数对所述图像数据增强网络进行反向操作,并根据随机梯度下降方法对所述判别器的网络参数更新N次;利用所述损失函数对所述图像数据增强网络进行反向操作,并根据随机梯度下降方法对所述生成器的网络参数更新一次。其中,更新模块400的更新方式参照实施例一,在此不进行赘述。
进一步地,为了更加直观地展示本实施例的训练方法得到的图像数据增强网络的优点,申请人进行了实验验证。
具体地,采用CIFAR-10数据集进行实验和验证,CIFAR-10包含60000张32*32的彩色图像,共10类,每一类6000张。
所有的实验均基于Chainer-GAN-lib库完成,为了更好的显示所提出数据增强系统的优越性,我们选择了以下已有网络模型进行对比:GAN-OTD(OT在原始基于MLP的GAN上的改进)、WGAN-GP(使用梯度惩罚对WGAN进行增强,损失函数中仍然为WGAN结构中使用的欧氏距离)。本实施例的网络结构为CNN-GAN-OTD。实验参数均使用Chainer-GAN-lib中的默认参数:批处理数量为64,最大训练次数为100000。5000张随机取样的生成图像用于IS系数的计算,50000张随机取样的真实图像与10000张随机取样的生成图像用于FID系数的计算。
(1)生成图像分析:
在训练参数一致的前提下用不同方法对CIFAR-10数据进行图像合成,IS系数和FID系数结果如表1。本方法在IS和FID结果上均为所列方法中的最优结果,验证了本实施例的训练方法训练得到的图像数据增强网络在生成图像质量以及多样性上的优越性。
表1.不同方法在CIFAR-10数据集上生成图像质量对比
(2)噪声影响分析:
对CIFAR-10数据集添加均值为0,标准差依次增大的高斯噪声,在训练参数一致的前提下用不同网络模型对添加噪声的CIFAR-10数据进行图像合成,IS系数和FID系数结果如表2,生成图像对比如图3。其中标准差最大值根据经验选为20。
本方法在IS和FID结果上均为所列方法中的最优结果,验证了本方法对噪声影响的鲁棒性。
在图3中,(a),(e)和(i)为原始图像添加标准差为2,5和20的高斯噪声后的图像;(b)、(c)和(d)为分别用WGAN-GP、DRAGAN和CNN-GAN-OTD通过(a)合成的图像;(f)、(g)和(h)为分别用WGAN-GP、DRAGAN和CNN-GAN-OTD通过(e)合成的图像;(j)、(k)和(l)为分别用WGAN-GP、DRAGAN和CNN-GAN-OTD通过(i)合成的图像。
表2.不同方法在添加噪声的CIFAR-10数据集上生成图像质量对比
本实施例三还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有图像数据增强网络的训练程序,所述图像数据增强网络的训练程序被处理器执行时实现上述的图像数据增强网络的训练方法。
本实施例四还公开了一种计算机设备,在硬件层面,如图4所示,该终端包括处理器12、内部总线13、网络接口14、计算机可读存储介质11。处理器12从计算机可读存储介质中读取对应的计算机程序然后运行,在逻辑层面上形成请求处理装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。所述计算机可读存储介质11上存储有图像数据增强网络的训练程序,所述图像数据增强网络的训练程序被处理器执行时实现上述的图像数据增强网络的训练方法。
计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上面对本发明的具体实施方式进行了详细描述,虽然已表示和描述了一些实施例,但本领域技术人员应该理解,在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下,可以对这些实施例进行修改和完善,这些修改和完善也应在本发明的保护范围内。
Claims (7)
1.一种图像数据增强网络的训练方法,其特征在于,所述训练方法包括:
获取噪声样本和待增强的真实数据样本;
所述图像数据增强网络包括生成器和判别器,将所述噪声样本输入图像数据增强网络以得到生成数据样本,包括:将所述噪声样本输入到所述生成器,所述生成器输出生成数据样本;
将所述真实数据样本和所述生成数据样本输入所述图像数据增强网络以得到多组余弦距离值,所述图像数据增强网络根据所述多组余弦距离值计算得到损失函数,包括:将所述真实数据样本和所述生成数据样本输入到所述判别器中,所述判别器输出多组余弦距离值,所述多组余弦距离值包括第一余弦距离值、第二余弦距离值和第三余弦距离值;
所述真实数据样本包括服从相同分布的第一子真实样本xr和第二子真实样本xr′,所述生成数据样本包括服从同一分布的第一子生成样本xg和第二子生成样本xg′,所述第一余弦距离值d(xr,xg)、所述第二余弦距离值d(xr,xr′)和所述第三余弦距离值d(xg,xg′)的计算公式如下:
根据所述多组余弦距离值计算损失函数的方法为所述判别器根据如下公式计算得到损失函数L:
其中,为数学期望,L为损失函数;
根据所述损失函数更新所述图像数据增强网络的网络参数。
2.根据权利要求1所述的图像数据增强网络的训练方法,其特征在于,根据所述损失函数更新所述图像数据增强网络的网络参数的方法为:
根据所述损失函数对所述图像数据增强网络进行反向操作,并根据随机梯度下降方法对所述判别器的网络参数更新N次;
根据所述损失函数对所述图像数据增强网络进行反向操作,并根据随机梯度下降方法对所述生成器的网络参数更新一次。
3.一种图像数据增强网络的训练装置,其特征在于,所述训练装置包括:
获取模块,用于获取噪声样本和待增强的真实数据样本;
第一输入模块,用于将所述噪声样本输入图像数据增强网络以得到生成数据样本,所述图像数据增强网络包括生成器和判别器,包括:将所述噪声样本输入到所述生成器,所述生成器输出生成数据样本;
第二输入模块,用于将所述真实数据样本和所述生成数据样本输入所述图像数据增强网络以得到多组余弦距离值,所述图像数据增强网络所述多组余弦距离值计算得到损失函数,包括:将所述真实数据样本和所述生成数据样本输入到所述判别器中,所述判别器输出多组余弦距离值,所述多组余弦距离值包括第一余弦距离值、第二余弦距离值和第三余弦距离值;
更新模块,用于根据所述损失函数更新所述图像数据增强网络的网络参数;
所述真实数据样本包括服从相同分布的第一子真实样本xr和第二子真实样本xr′,所述生成数据样本包括服从同一分布的第一子生成样本xg和第二子生成样本xg′,所述第一余弦距离值d(xr,xg)、所述第二余弦距离值d(xr,xr′)和所述第三余弦距离值d(xg,xg′)的计算公式如下:
根据所述多组余弦距离值计算损失函数的方法为所述判别器根据如下公式计算得到损失函数L:
其中,为数学期望,L为损失函数。
4.根据权利要求3所述的图像数据增强网络的训练装置,其特征在于,所述图像数据增强网络包括生成器和判别器,其中
所述第一输入模块用于将所述噪声样本输入到所述生成器,所述生成器输出生成数据样本;
所述第二输入模块用于将所述真实数据样本和所述生成数据样本输入到所述判别器中,所述判别器输出多组余弦距离值,所述多组余弦距离值包括第一余弦距离值、第二余弦距离值和第三余弦距离值。
5.根据权利要求4所述的图像数据增强网络的训练装置,其特征在于,根据所述损失函数更新所述图像数据增强网络的网络参数时,所述更新模块具体用于:
利用所述损失函数对所述图像数据增强网络进行反向操作,并根据随机梯度下降方法对所述判别器的网络参数更新N次;
利用所述损失函数对所述图像数据增强网络进行反向操作,并根据随机梯度下降方法对所述生成器的网络参数更新一次。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有图像数据增强网络的训练程序,所述图像数据增强网络的训练程序被处理器执行时实现权利要求1至2任一项所述的图像数据增强网络的训练方法。
7.一种计算机设备,其特征在于,所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的图像数据增强网络的训练程序,所述图像数据增强网络的训练程序被处理器执行时实现权利要求1至2任一项所述的图像数据增强网络的训练方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011055552.4A CN112164008B (zh) | 2020-09-29 | 2020-09-29 | 图像数据增强网络的训练方法及其训练装置、介质和设备 |
PCT/CN2020/120175 WO2022067874A1 (zh) | 2020-09-29 | 2020-10-10 | 图像数据增强网络的训练方法及其训练装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011055552.4A CN112164008B (zh) | 2020-09-29 | 2020-09-29 | 图像数据增强网络的训练方法及其训练装置、介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112164008A CN112164008A (zh) | 2021-01-01 |
CN112164008B true CN112164008B (zh) | 2024-02-23 |
Family
ID=73861486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011055552.4A Active CN112164008B (zh) | 2020-09-29 | 2020-09-29 | 图像数据增强网络的训练方法及其训练装置、介质和设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112164008B (zh) |
WO (1) | WO2022067874A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884640B (zh) * | 2021-03-01 | 2024-04-09 | 深圳追一科技有限公司 | 模型训练方法及相关装置、可读存储介质 |
CN114092704B (zh) * | 2021-10-22 | 2022-10-21 | 北京大数据先进技术研究院 | 基于近邻传播的实例匹配方法、装置、设备及存储介质 |
CN114549283A (zh) * | 2022-01-14 | 2022-05-27 | 同济大学 | 图像生成模型的训练方法及图像生成方法 |
CN114881884B (zh) * | 2022-05-24 | 2024-03-29 | 河南科技大学 | 一种基于生成对抗网络的红外目标样本增强方法 |
CN115019128A (zh) * | 2022-06-02 | 2022-09-06 | 电子科技大学 | 图像生成模型训练方法、图像生成方法及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223254A (zh) * | 2019-06-10 | 2019-09-10 | 大连民族大学 | 一种基于对抗生成网络的图像去噪方法 |
CN110503616A (zh) * | 2019-08-28 | 2019-11-26 | 上海海事大学 | 一种应用于图片去噪的生成式网络 |
CN111081266A (zh) * | 2019-12-18 | 2020-04-28 | 暗物智能科技(广州)有限公司 | 一种训练生成对抗网络、语音增强方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200075344A (ko) * | 2018-12-18 | 2020-06-26 | 삼성전자주식회사 | 검출기, 객체 검출 방법, 학습기 및 도메인 변환을 위한 학습 방법 |
CN110991636B (zh) * | 2019-11-14 | 2023-07-04 | 东软医疗系统股份有限公司 | 生成式对抗网络的训练方法及装置、图像增强方法及设备 |
CN111191682A (zh) * | 2019-12-12 | 2020-05-22 | 中国科学院深圳先进技术研究院 | 网络模型训练方法、黑夜图像的目标检测方法及相关设备 |
CN111708030B (zh) * | 2020-05-28 | 2024-05-14 | 深圳市气象局(深圳市气象台) | 基于能量生成对抗性预测器的灾害天气预报方法 |
-
2020
- 2020-09-29 CN CN202011055552.4A patent/CN112164008B/zh active Active
- 2020-10-10 WO PCT/CN2020/120175 patent/WO2022067874A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223254A (zh) * | 2019-06-10 | 2019-09-10 | 大连民族大学 | 一种基于对抗生成网络的图像去噪方法 |
CN110503616A (zh) * | 2019-08-28 | 2019-11-26 | 上海海事大学 | 一种应用于图片去噪的生成式网络 |
CN111081266A (zh) * | 2019-12-18 | 2020-04-28 | 暗物智能科技(广州)有限公司 | 一种训练生成对抗网络、语音增强方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112164008A (zh) | 2021-01-01 |
WO2022067874A1 (zh) | 2022-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112164008B (zh) | 图像数据增强网络的训练方法及其训练装置、介质和设备 | |
CN110574077B (zh) | 利用虚拟三维深层神经网络的影像分析装置及方法 | |
US11403838B2 (en) | Image processing method, apparatus, equipment, and storage medium to obtain target image features | |
US11380034B2 (en) | Semantically-consistent image style transfer | |
US20200364478A1 (en) | Method and apparatus for liveness detection, device, and storage medium | |
CN111260620B (zh) | 图像异常检测方法、装置和电子设备 | |
CN111695421B (zh) | 图像识别方法、装置及电子设备 | |
Tezuka et al. | Grover search revisited: Application to image pattern matching | |
CN110969105B (zh) | 一种人体姿态估计方法 | |
CN112508782B (zh) | 网络模型的训练方法、人脸图像超分辨率重建方法及设备 | |
CN112634146A (zh) | 基于多种注意力机制的多通道cnn医学ct图像去噪方法 | |
CN109409508B (zh) | 一种基于生成对抗网络使用感知损失解决模型崩塌的方法 | |
WO2023231182A1 (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
Xu et al. | AutoSegNet: An automated neural network for image segmentation | |
Camacho et al. | Convolutional neural network initialization approaches for image manipulation detection | |
CN117435896A (zh) | 一种在不平衡分类场景下无分割的验证集合成方法 | |
CN116912923A (zh) | 一种图像识别模型训练方法和装置 | |
CN117094910A (zh) | 基于非线性无激活网络的生成对抗网络图像去模糊方法 | |
Zhou et al. | Four-directional total variation with overlapping group sparsity for image denosing | |
TWI803243B (zh) | 圖像擴增方法、電腦設備及儲存介質 | |
KR102393761B1 (ko) | 이미지 처리를 위한 인공 신경망 모델 학습 방법 및 시스템 | |
KR20230002041A (ko) | 이미지 처리를 위한 인공 신경망 모델 학습 방법 및 시스템 | |
US20150356132A1 (en) | Methods And Systems For Processing Data | |
Sun et al. | Deeper spatial pyramid network with refined up-sampling for optical flow estimation | |
CN116704588B (zh) | 面部图像的替换方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |