CN113988154A - 一种基于不变信息蒸馏的无监督解耦图像生成方法 - Google Patents
一种基于不变信息蒸馏的无监督解耦图像生成方法 Download PDFInfo
- Publication number
- CN113988154A CN113988154A CN202111133017.0A CN202111133017A CN113988154A CN 113988154 A CN113988154 A CN 113988154A CN 202111133017 A CN202111133017 A CN 202111133017A CN 113988154 A CN113988154 A CN 113988154A
- Authority
- CN
- China
- Prior art keywords
- image
- encoder
- random
- generator
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000004821 distillation Methods 0.000 title claims abstract description 18
- 238000009826 distribution Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 238000009827 uniform distribution Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 59
- 238000013528 artificial neural network Methods 0.000 claims description 57
- 230000006870 function Effects 0.000 claims description 56
- 238000010606 normalization Methods 0.000 claims description 25
- 238000011176 pooling Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 9
- 238000005520 cutting process Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 125000004432 carbon atom Chemical group C* 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 8
- 239000010410 layer Substances 0.000 description 29
- 230000003595 spectral effect Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 229910052799 carbon Inorganic materials 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 210000000653 nervous system Anatomy 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- HYIMSNHJOBLJNT-UHFFFAOYSA-N nifedipine Chemical compound COC(=O)C1=C(C)NC(C)=C(C(=O)OC)C1C1=CC=CC=C1[N+]([O-])=O HYIMSNHJOBLJNT-UHFFFAOYSA-N 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
该发明公开了一种基于不变信息蒸馏的无监督解耦图像生成方法,属于计算机视觉领域。首先对训练图像进行归一化,从正态分布与均匀分布中分别采样噪声,并进行拼接以获得混合噪声。通过参数和细节的调整,使得新网络能够适用于解耦图像生成任务。此外,基于信息不变蒸馏思想,为编码器引入额外无监督信息,以进行更加充分的聚类,使得编码器在无监督条件下对图像类别具有更准确的分辨能力,并为生成器提供更加正确的类别信息,从而提升了生成对抗网络的解耦生成效果。本发明提出的基于不变信息蒸馏的聚类方案,可显著提升生成对抗网络的解耦图像生成水平,同时提升了现有方法的图像生成质量。
Description
技术领域
本发明隶属于计算机视觉领域,主要涉及图像的生成问题,主要应用于影视娱乐产业、产品设计以及机器视觉理解等方面。
背景技术
图像生成是指利用计算机视觉技术、辅以深度学习方法理解图像内容表示,并实现图像生成的技术。按照是否具有明确的监督信息作为指导,可以分成有监督图像生成与无监督图像生成两大类。无监督图像生成方法通常以图像作为输入,通过一定学习方案和技术手段,从随机噪声分布中学习图像数据的分布,建立二者之间的映射。有监督图像生成方法则通过详细的标签、属性等细粒度信息,对图像生成过程予以准确的指导,以此推断图像数据分布情况。图像生成技术可以扩充图像数据的数目,挖掘图像数据包含的隐式信息,可以有效地缓解军事、医学等高新技术领域所面临的图像数据量不足的问题,同时,还具有丰富的趣味应用场景,在影视娱乐、产品设计、珍贵影视作品修复等领域具有很高的应用价值。
人类在图像识别与分析方面具有得天独厚的基因优势,对图像的边缘信息以及纹理特征十分敏感。此外,研究表明人类对于图像等数据信息具有很强的因果推理和思维拓展能力,这与人类的神经系统结构密切相关。受动物神经系统启发,科学家提出了人工神经网络来解决复杂的函数拟合问题,并在图像识别等领域取得了巨大突破。21世纪初,依赖深度神经网络的深度学习方法的巨大潜力被进一步挖掘,也涌现出一批在图像生成领域的先驱性工作,然而,早期的图像生成方法需要求解庞大复杂的概率模型,不仅对于研究人员的数学功底具有较高要求,同时还需要消耗大量的计算资源,并且高度依赖与图像相关的额外监督信息,这些缺陷限制了图像生成技术的发展与应用。
2014年,Goodfellow等人提出了基于无监督方法的生成对抗网络,巧妙地避开了传统图像生成方法需要求解显式概率分布的难点,实现了图像生成技术的一个重大突破,也使得以生成对抗网络为基础的众多图像生成方法在不同应用场景取得了卓越的成效。生成对抗网络的优势在于,不预设图像数据的先验分布,而是通过零和博弈的思想,设计了生成图像的生成器以及鉴别图像真假的鉴别器两个模型,在训练时,通过这两个模型的彼此对立与博弈,最终使得生成器能够从随机噪声分布中隐式地推导出图像分布,实现图像生成。
然而,生成对抗网络地隐式分布推导过程在简化计算过程和训练难度的同时,也带来了模型训练不稳定、图像生成结果难以解释、训练不可控等问题。其中,如何建立输入噪声与生成图像之间的对应关系,是生成对抗网络模型亟待解决的难点之一,学会输入与输出之间的关系,不仅可以人为地控制图像生的过程,还可以提升模型图像生成结果的说服力,有助于生成对抗网络在高精尖领域的应用。
Sudipto Mukherjee等人以生成对抗网络为基础,依托聚类思想提出了无监督聚类生成对抗网络Cluster-GAN,实现了无监督解耦图像生成的重大突破。参考文献:Mukherjee S,Asnani H,Lin E,et al.ClusterGAN:Latent Space Clustering inGenerative Adversarial Networks[J].Proceedings of the AAAI Conference onArtificial Intelligence,2019,33:4610-4617.该模型基于聚类思想,构造生成器输入噪声与生成图像类别之间的关系,在MNIST、Fashion-MNIST等数据集上取得了良好效果。然而,该模型在更为复杂的CIFAR10数据集上并未能取得卓越表现,不仅如此,由于该模型使用的网络结构较为简单,其生成的图像质量难以达到实际应用的要求,其按类生成图像的准确率也较低,无法获得实际应用。
近年来,基于无监督方法的分类模型在识别准确率上取得了长足进步,而Cluster-GAN模型由于其自身架构的缺陷,并未能充分利用图像数据的内隐信息,仍有提升空间。本发明受不变信息蒸馏聚类模型(Invariant Information DistillationClustering Model,简称IID)的启发,参考文献:[Ji X,Henriques J F,VedaldiA.Invariant Information Clustering for Unsupervised Image Classification andSegmentation[J].2018.使用不变信息蒸馏方法,改进了现有无监督聚类解耦生成模型对图像信息利用不足的缺点,并充分考虑目前图像生成质量卓越的频谱归一化生成对抗网络(Spectral Normalization for Generative Adversarial Networks,简称SNGAN)的理论优势,引入了图像生成质量更好的谱归一化残差神经网络作为函数拟合器,并成功与无监督聚类算法相结合,以在图像质量和按类图像生成准确率两个方面均取得了出色的成果。参考文献:Miyato T,Kataoka T,Koyama M,et al.Spectral Normalization forGenerative Adversarial Networks[C]//International Conference on LearningRepresentations.2018.
发明内容
本发明是一种无监督不变信息蒸馏聚类的解耦图像生成方法,主要解决现有的聚类生成对抗网络方法存在的图像生成质量差,按类生成图像效果不佳等问题。
本发明方法是一种基于无监督聚类的解耦生成对抗网络框架,使用CIFAR10数据集作为实验数据来源。首先对训练图像进行归一化处理,从高斯分布中采样随机噪声用于训练。同时,为了实现按类图像生成的目的,在高斯噪声之外额外从均匀分布中采样类别噪声,并将其编码成one-hot向量,与高斯噪声进行拼接,共同作为生成对抗网络的噪声输入。为了实现按类图像生成,在生成器与鉴别器之外额外引入一个编码器,用于编码图像的相关信息。然后,以类别噪声作为生成图像的伪标签,使用交叉熵损失计算生成图像的分类损失,为了将类别噪声与其他噪声的功能进一步区分,对于高斯噪声,使用l2范数约束生成图像编码。为了提升编码器分类的准确性,给予生成器更正确的分类生成指导,使用IID损失,令编码器对真实图像进行聚类。同时,为了能够提升图像生成质量,又不牺牲无监督聚类算法的优势,使用谱归一化残差神经网络作为基本框架。实验证明,IID损失显著提升了编码器的分类准确率,并且成功地将类别信息应用于生成器的图像生成过程,提升了生成器按类生成图像的准确性。此外,谱归一化残差神经网络的应用显著提升了模型的生成质量,取得了良好表现。算法的总体结构示意图参见图1。
为了更加明了地表述本发明的具体内容,首先对一些属于进行定义。
定义1:正态分布。又称为高斯分布,是一个在物理、数学等领域具有重要地位的概率分布,由于现实生活中许多规律符合正态分布,其具有十分广泛的应用面。假如一个随机变量x,其概率密度函数满足其中,μ为正态分布的数学期望,σ为正态分布的标准差,则称x满足正态分布,通常记为N(x|μ,σ2)的形式。
定义2:残差神经网络。残差神经网络是对卷积神经网络的一个改进,相较于卷积神经网络,残差神经网络使用了一种称为“short-cut”的跨层连接的方法,在传统的卷积神经网络基础上进行层间的跨层信息交流,这种方法使得不同层之间的信息共享更加直接,实验表明,残差神经网络的表现优于同样层数的卷积神经网络。此外,残差神经网络相比于卷积神经网络,可以在更深的网络结构下保持训练稳定性,有助于更加充分地发挥神经网络对函数的拟合优势。
定义3:平均池化。平均池化是一种将输入的图像划分为若干个矩形区域,对每个子区域进行平均操作的方法。对于一个给定特征图X,若将其划分成k个子区域,那么,子区域xk经过平均池化后的输出为其中,Rk表示第k个子区域中的像素点个数,xkab表示处于第k个子区域中位于(a,b)处元素的值。平均池化通过提取每个矩形区域中的平均值,相比于最大池化方法,可以保留更多的图像背景信息。
定义4:Batch-Norm批规范化函数。批规范化函数是为了解决同一任务的不同图像个体之间分布差异而提出的规范化方法。其核心思想在于求取同一批次图像数据的均值和方差,之后对样本进行归一化处理,使其大体上符合高斯分布,为了使归一化后的各个数据的差异性不至于消失,在归一化后还使用了平移和缩放操作来强调样本间的差异。批规范化函数在以卷积神经网络中具有非常广泛的应用,有助于提升模型的可训练性,使得模型更易于收敛。
定义5:谱归一化函数。谱归一化函数是一种针对鉴别器网络权重所提出的一种归一化函数,其作用在于使鉴别器函数的输出使用满足1-Lipshcitz连续,从而提升生成对抗网络的稳定性。其表达式为其中,Wl表示网络第l层的权值矩阵,σ(·)表示矩阵的最大奇异值。
定义6:ReLU函数。又称为分段线性函数,是人工神经网络中经常使用到的一种激活函数,其思想在于,将小于0的值置为0,而大于0的值不作改变,表达式为Relu(x)=max(0,x)。
定义9:MSE损失。最小均方误差损失,也称为L2损失,其作用是将目标值与估计值的差值的平方和最小化,常用于回归问题。假如目标值为x,估计值为f(x),那么其MSE损失为xi为x的第i维元素的值,MSE损失常简记为
定义10:Softmax函数。Softmax也被称为归一化指数函数,其作用在于,将n维向量的所有数值压缩到[0,1]区间,并且所有数值之和为1。Softmax函数常被用于概率预测模型的输出操作,其表达式为
定义11:One-hot编码。one-hot编码是一种常用的计算机编码方法,将数据编码成二进制形式表示,比如对数字0~9进行one-hot编码,每个数字都将被编码成10维的二进制码,除对应数字i的第i个位置值为1外,其他维度的值均为0。
定义12:上采样。上采样是一类使用双线性、最近邻、均值填充等手段扩大图像尺寸的插值方法的统称。本方法使用最近邻插值法,将输入的图像或特征图尺寸变为原来的两倍。最近邻插值法的计算公式为oriX=neaX·(oriW/neaW),oriY=neaY·(oriH/neaH),其中,ori·、nea·分别表示插值前与插值后的对应参数,X、Y分别表示像素点的横纵坐标,W、H分别表示图像的宽度和长度。
定义13:生成对抗网络。生成对抗网络是一种基于深度学习的图像生成模型,整个网络鉴别器与生成器两部分组成,鉴别器的功能是鉴别输入的图像是生成的虚假图像还是真是图像,生成器的功能是生成尽可能逼真的图像。在实际训练过程中,鉴别器与生成器的训练目的正好相反,鉴别器希望尽可能区分来自生成器生成的图像与真实图像,而生成器希望生成逼真的图像以欺骗鉴别器,二者构成了一种零和博弈关系,通过这种对抗式学习,最终鉴别器将无法区分真实图像与生成图像,即意味着生成模型已经生成了足够逼真的图像。
定义14:编码器。编码器是一种应用广泛的特征提取模型,对于给定的图像输入,编码器期望学习到图像数据的内在特征,从而提取出图像的抽象表示作为输出,以便进行后续的其他任务。编码器是一种类型多样的模型总称,其核心是一个特征提取网络,而提取出的特征形式随着具体任务的不同而不同。
定义15:随机数据增强。也被称为随机数据增广,是一类为缓解数据不足而诞生的扩充数据数量方法的总称。图像随机数据增强方法多样,主要包括以人工添加噪声、随机裁剪、随机旋转与翻转、随机灰度值替换的手动方法以及使用深度学习模型进行数据增强两大类。
定义16:不变信息蒸馏(IID)。是一种基于互信息的无监督聚类方法。其思想在于,对于同一图像的不同表达形式,比如图像与其对应的标签,或者图像的两张不同增强副本,尽管在表现形式上有所不同,但二者应该在大体上表达相同的信息,因此具有较大的互信息。信息不变性聚类方法基于此思想,通过最大化图像与其增强样本特征之间的互信息,以此拉近同一类样本之间的相似性,实现无监督的聚类。
因而,本发明技术方案为:一种基于信息不变性蒸馏的无监督解耦图像生成方法,该方法包括:
步骤1:进行实验数据的预处理;
获取多个类别的图像,并对图像同意尺寸,再进行像素值归一化;
步骤2:进行实验数据的随机数据增强操作;
为经步骤1处理后的图像数据进行随机数据增强处理,一共使用包括随机裁剪、随机水平翻转、随机亮度改变和随机灰度化共四种操作;对每一张图像的具体随机数据增强过程为:
第一步,随机从原图像中60%~100%的区域选定裁剪区域,并将裁剪后的图像恢复原尺寸大小;
第二步,以50%的概率将图像进行水平翻转;
第三步,分别将图像的亮度、对比度、饱和度随机变换为原图像的50%~150%之间,并且将图像的色调随机以-10%~10%之间的幅度进行偏移;
第四步,以10%的概率将图像转换成灰度图像;经过上述步骤处理后,每张图像都将得到一张尺寸与原图像相同的随机增强样本;
步骤3:构建深度神经网络;
1)构建生成器网络:
生成器的输入为由118维高斯噪声和10维one-hot编码组成的128维噪声向量,输出为图像;生成器网络结构由一个全连接层、一个由3个残差神经网络模块组成的残差神经网络和一个二维卷积层顺序连接组成,以全连接层作为输入端,以二维卷积层作为输出端;生成器网络结构如图2所示。
2)构建鉴别器网络:
鉴别器以真实图像和生成图像为输入,输出为1维向量,表示对输入图像属于真实图像的概率判断,其网络结构由四个谱归一化残差块、一个全局平均池化层和一个全连接层组成,四个谱归一化残差神经网络模块顺序连接,构成一个残差神经网络,鉴别器网络以残差神经网络、全局平均池化神经网络、全连接层的顺序依次顺序连接,以残差神经网络作为输入端,全连接层作为输出端;鉴别器网络结构如图3所示。
3)构建编码器网络:
编码器输入为生成图像、真实图像和真实图像的随机数据增强样本,输出为图像特征向量;编码器网络的主体结构由一个经四个残差神经网络模块组成的残差神经网络、一个全局平均池化层和两个全连接层顺序连接组成,以残差神经网络作为输入端,以最后一个全连接层作为输出端,输出为128维特征向量;对于编码器的输出,将特征向量的前118维作为内容特征向量,将后10维作为类别特征向量,额外将类别特征向量送入10个结构相同的全连接层,得到10个信息不变性特征向量;编码器网络结构如图4所示。
步骤4:设计损失函数;
将步骤1中获取的图像张量记为经过步骤2随机数据增强后的图像记为γ(x);记从正态分布中随机采样得到的118维高斯噪声向量为zn,记从均匀分布中以概率0.1采样得到的取值为0~9的随机整数为c,并将其对应的one-hot向量记为zc,将zn与zc进行拼接,得到128维的噪声向量分别记生成器、鉴别器、编码器网络为G、D、E;
记生成器的输出为IF,鉴别器以IR、IF为输入得到的输出分别为dF;
1)生成器损失函数LG:
上述公式中,表示对从分布中采样的若干个随机噪声的损失求期望,D(G(z))表示鉴别器以生成器生成图像为输入对应的输出,E(G(zn))、E(G(zc))分别表示编码器提取到的生成图像的118维内容特征向量和10维类别特征向量,同时,E(G(zc))经Softmax操作归一化至[0,1]区间;CE(·)表示交叉熵损失;
因此,生成器总损失函数为:
2)鉴别器损失函数LD:
鉴别器的优化目的是尽可能准确地区分真实图像与生成图像,其损失函数为:
3)编码器损失函数LE:
编码器的优化目的是尽可能准确地捕捉生成图像的内容和类别信息,即希望对生成图像编码得到的内容特征与类别特征尽可能与生成图像对应的内容和类别噪声一致;同时,使用不变信息蒸馏进行真实图像的无监督聚类,以便帮助编码器更好地提取类别特征;因此,编码器损失由内容一致性损失类别一致性损失和不变信息蒸馏损失三部分组成,其中:
上述公式中,内容一致性损失、类别一致性损失与生成器中的定义相同,I(·)表示互信息函数,E(xc)、E(γ(x)c表示编码器提取到的对应图像的类别特征;采用近似方法求解互信息函数,首先,将类别特征通过步骤3中提到的10个全连接层,得到10个10维信息不变性特征向量lm(m=1,2,...,10),然后,将这10个信息不变性特征向量分别进行Softmax操作,归一化至[0,1]区间,每一个l均表示编码器对图像类别归属的概率分布,记与图像相对应的随机增强图像的不变性特征向量为γ(l),令P=l·γ(l)T为一个10×10的联合概率分布矩阵,(c,c′)处的值Pcc′=P(l=c,γ(l)=c′),表示编码器预测图像属于类别c,对应随机增强图像属于类别c′的联合概率。同时为了保证对称性,令记P按行求和的结果为Pc,按列求和的结果为Pc′,图像的第m个信息不变性向量的互信息可表示为:
最终的互信息为10个信息不变性向量互信息的均值:
因此,编码器总损失函数为:
步骤5:训练总神经网络;
利用步骤3构建的三个神经网络,分别使用步骤4设计的对应损失函数进行训练,使用Adam动量优化器,在更新生成器的网络参数时固定鉴别器、编码器的网络参数,更新鉴别器、编码器时采用同样的方案;
步骤6:采用步骤5中训练好模型,保存模型参数,取生成器,按步骤4所述方法构造随机噪声变量,并输入生成器中,即可获得生成图像,不同的随机噪声输入将产生不同的生成图像。
本发明包括如下改进点:
a,针对当前依托于聚类的无监督解耦生成模型在复杂数据集上图像生成质量差的问题,使用谱归一化残差神经网络提升深度神经网络的拟合能力,提升了图像生成质量,网络结构如图1所示。
b,针对当前无监督聚类解耦生成模型生成图像的解耦效果差、类别辨识度低的问题,引入信息不变性蒸馏无监督聚类方法,通过最大化图像及其对应随即增强图像类别特征之间的互信息,引入真实图像信息辅助编码器进行聚类,提升了生成对抗网络的无监督解耦图像生成能力,并没有使用额外的标签数据。
c,我们将上述方案引入生成对抗网络中进行图像生成实验,并在实验中取得了更出色的图像生成质量和图像解耦生成效果。
a中的改进可以在继续发挥无监督聚类思想优势的基础上,大幅提升图像生成质量,b中的改进可以在不引入额外标签等监督信息的基础上,显著提升模型的图像解耦生成效果,并且解耦能力比只使用1)方法的模型相比也具有显著提升,通过二者的结合,最终,我们的方法生成的图像质量在IS评价指标下比其他基于聚类的无监督解耦图像生成方法提升了60%,生成对抗网络生成按类生成图像的解耦质量在聚类准确率指标上提升了12%,兰德指数提升了11%,标准化互信息提升了20%,即使在相同的谱归一化残差神经网络架构下,本发明方法在不降低图像质量的情况下解耦效果也大幅优于其他基于聚类的无监督解耦生成模型。
附图说明
图1为本发明方法主要网络结构示意图,
图2为本发明生成器网络结构详细示意图,
图3为本发明鉴别器网络结构详细示意图,
图4为本发明编码器和IID模块网络结构详细示意图。
具体实施方式
步骤1:进行实验数据的预处理;
从官方渠道获取CIFAR10数据集。CIFAR10数据集是由60000张彩色RGB图像组成的图像数据集,数据集中共包含10个类别,每个类别的图像数量相等,此外,数据集中每张图像的大小均为32×32,并且注明对应的类别信息。为了将图像数据转换成更易于深度学习模型学习的数据,将图像像素值归一化至[-1,1]区间内,并转换成张量形式储存。
步骤2:进行实验数据的随机数据增强操作;
为经步骤1处理后的图像数据进行随机数据增强处理,一共使用包括随机裁剪、随机水平翻转、随机亮度改变和随机灰度化共四种操作。对每一张图像的具体随机数据增强过程为:第一步,随机从原图像中60%~100%的区域选定裁剪区域,并将裁剪后的图像恢复至32×32大小;第二步,以50%的概率将图像进行水平翻转;第三步,分别将图像的亮度、对比度、饱和度随机变换为原图像的50%~150%之间,并且将图像的色调随机以-10%~10%之间的幅度进行偏移;第四步,以10%的概率将图像转换成灰度图像。经过上述步骤处理后,每张图像都将得到一张尺寸与原图像相同的随机增强样本,将随机增强图像同样保存为张量,一遍后续使用。
步骤3:构建深度神经网络;
1)构建生成器网络:
生成器的输入为由118维高斯噪声和10维one-hot编码组成的128维噪声向量,输出维32×32大小的图像。生成器网络结构由一个全连接层、一个由3个残差神经网络模块组成的残差神经网络和一个二维卷积层顺序连接组成,以全连接层作为输入端,以二维卷积层作为输出端。生成器网络结构如图2所示。
2)构建鉴别器网络:
鉴别器以真实图像和生成图像为输入,输出为1维向量,表示对输入图像属于真实图像的概率判断,其网络结构由四个谱归一化残差块、一个全局平均池化层和一个全连接层组成,四个谱归一化残差神经网络模块顺序连接,构成一个残差神经网络,鉴别器网络以残差神经网络、全局平均池化神经网络、全连接层的顺序依次顺序连接,以残差神经网络作为输入端,全连接层作为输出端。鉴别器网络结构如图3所示。
3)构建编码器网络:
编码器输入为生成图像、真实图像和真实图像的随机数据增强样本,输出为图像特征向量。编码器网络的主体结构由一个经四个残差神经网络模块组成的残差神经网络、一个全局平均池化层和两个全连接层顺序连接组成,以残差神经网络作为输入端,以最后一个全连接层作为输出端,输出为128维特征向量。对于编码器的输出,将特征向量的前118维作为内容特征向量,将后10维作为类别特征向量,额外将类别特征向量送入10个结构相同的全连接层,得到10个信息不变性特征向量。编码器网络结构如图4所示。
步骤4:设计损失函数;
将步骤1中获取的图像张量记为经过步骤2随机数据增强后的图像记为γ(x);记从正态分布中随机采样得到的118维高斯噪声向量为zn,记从均匀分布中以概率0.1采样得到的取值为0~9的随机整数为c,并将其对应的one-hot向量记为zc,将zn与zc进行拼接,得到128维的噪声向量分别记生成器、鉴别器、编码器网络为G、D、E。
记生成器的输出为IF,鉴别器以IR、IF为输入得到的输出分别为dF
1)生成器损失函数LG:
上述公式中,表示对从分布中采样的若干个随机噪声的损失求期望,D(G(z))表示鉴别器以生成器生成图像为输入对应的输出,E(G(zn))、E(G(zc))分别表示编码器提取到的生成图像的118维内容特征向量和10维类别特征向量,同时,E(G(zc))经Softmax操作归一化至[0,1]区间。CE(·)表示定义7中的交叉熵损失。
因此,生成器总损失函数为:
2)鉴别器损失函数LD:
鉴别器的优化目的是尽可能准确地区分真实图像与生成图像,其损失函数为:
3)编码器损失函数LE:
编码器的优化目的是尽可能准确地捕捉生成图像的内容和类别信息,即希望对生成图像编码得到的内容特征与类别特征尽可能与生成图像对应的内容和类别噪声一致。同时,使用不变信息蒸馏进行真实图像的无监督聚类,以便帮助编码器更好地提取类别特征。因此,编码器损失由内容一致性损失类别一致性损失和不变信息蒸馏损失三部分组成,其中:
上述公式中,内容一致性损失、类别一致性损失与生成器中的定义相同,I(·)表示互信息函数,E(xc)、E(γ(x)c表示编码器提取到的对应图像的类别特征。本发明采用近似方法求解互信息函数,首先,将类别特征通过步骤3中提到的10个全连接层,得到10个10维信息不变性特征向量lm(m=1,2,...,10),然后,将这10个信息不变性特征向量分别进行Softmax操作,归一化至[0,1]区间,每一个l均表示编码器对图像类别归属的概率分布,记与图像相对应的随机增强图像的不变性特征向量为γ(l),令P=l·γ(l)T为一个10×10的联合概率分布矩阵,(c,c′)处的值Pcc′=P(l=c,γ(l)=c′),表示编码器预测图像属于类别c,对应随机增强图像属于类别c′的联合概率。同时为了保证对称性,令记P按行求和的结果为Pc,按列求和的结果为Pc′,图像的第m个信息不变性向量的互信息可表示为:
最终的互信息为10个信息不变性向量互信息的均值:
因此,编码器总损失函数为:
步骤5:训练总神经网络;
利用步骤3构建的三个神经网络,分别使用步骤4设计的对应损失函数进行训练,使用Adam动量优化器,设置学习率为0.0002,实验基于依托Python语言的Pytorch平台实现,使用的Python版本为3.6,Pytorch版本为1.4。在更新生成器的网络参数时固定鉴别器、编码器的网络参数,更新鉴别器、编码器时采用同样的方案。鉴别器每更新3次,生成器、编码器更新一次。实际训练中鉴别器每次送入64张生成图像与64张真实图像进行更新,生成器独立同分布采样128个随机噪声进行更新,编码器送入256张生成图像与64张真实图像进行更新。整个实验鉴别器一共使用完整数据集迭代500次。
步骤6:测试总神经网络;
在步骤6中训练好模型,保存模型参数,取生成器,按步骤4所述方法构造随机噪声变量,并输入生成器中,即可获得生成图像,不同的随机噪声输入将产生不同的生成图像。按此方法生成50000张生成图像,计算图像生成质量IS指标,评估生成器的图像生成质量。取编码器,使用CIFAR10数据集中的10000张测试图像(未被用于网络训练),进行类别预测,计算聚类准确度ACC、兰德指数ARI、标准化互信息NMI指标,评估聚类准确性。
Claims (1)
1.一种基于信息不变性蒸馏的无监督解耦图像生成方法,该方法包括:
步骤1:进行实验数据的预处理;
获取多个类别的图像,并对图像同意尺寸,再进行像素值归一化;
步骤2:进行实验数据的随机数据增强操作;
为经步骤1处理后的图像数据进行随机数据增强处理,一共使用包括随机裁剪、随机水平翻转、随机亮度改变和随机灰度化共四种操作;对每一张图像的具体随机数据增强过程为:
第一步,随机从原图像中60%~100%的区域选定裁剪区域,并将裁剪后的图像恢复原尺寸大小;
第二步,以50%的概率将图像进行水平翻转;
第三步,分别将图像的亮度、对比度、饱和度随机变换为原图像的50%~150%之间,并且将图像的色调随机以-10%~10%之间的幅度进行偏移;
第四步,以10%的概率将图像转换成灰度图像;经过上述步骤处理后,每张图像都将得到一张尺寸与原图像相同的随机增强样本;
步骤3:构建深度神经网络;
1)构建生成器网络:
生成器的输入为由118维高斯噪声和10维one-hot编码组成的128维噪声向量,输出为图像;生成器网络结构由一个全连接层、一个由3个残差神经网络模块组成的残差神经网络和一个二维卷积层顺序连接组成,以全连接层作为输入端,以二维卷积层作为输出端;
2)构建鉴别器网络:
鉴别器以真实图像和生成图像为输入,输出为1维向量,表示对输入图像属于真实图像的概率判断,其网络结构由四个谱归一化残差块、一个全局平均池化层和一个全连接层组成,四个谱归一化残差神经网络模块顺序连接,构成一个残差神经网络,鉴别器网络以残差神经网络、全局平均池化神经网络、全连接层的顺序依次顺序连接,以残差神经网络作为输入端,全连接层作为输出端;
3)构建编码器网络:
编码器输入为生成图像、真实图像和真实图像的随机数据增强样本,输出为图像特征向量;编码器网络的主体结构由一个经四个残差神经网络模块组成的残差神经网络、一个全局平均池化层和两个全连接层顺序连接组成,以残差神经网络作为输入端,以最后一个全连接层作为输出端,输出为128维特征向量;对于编码器的输出,将特征向量的前118维作为内容特征向量,将后10维作为类别特征向量,额外将类别特征向量送入10个结构相同的全连接层,得到10个信息不变性特征向量;
步骤4:设计损失函数;
将步骤1中获取的图像张量记为经过步骤2随机数据增强后的图像记为γ(x);记从正态分布中随机采样得到的118维高斯噪声向量为zn,记从均匀分布中以概率0.1采样得到的取值为0~9的随机整数为c,并将其对应的one-hot向量记为zc,将zn与zc进行拼接,得到128维的噪声向量分别记生成器、鉴别器、编码器网络为G、D、E;
记生成器的输出为IF,鉴别器以IR、IF为输入得到的输出分别为dF;
1)生成器损失函数LG:
上述公式中,表示对从分布中采样的若干个随机噪声的损失求期望,D(G(z))表示鉴别器以生成器生成图像为输入对应的输出,E(G(zn))、E(G(zc))分别表示编码器提取到的生成图像的118维内容特征向量和10维类别特征向量,同时,E(G(zc))经Softmax操作归一化至[0,1]区间;CE(·)表示交叉熵损失;
因此,生成器总损失函数为:
2)鉴别器损失函数LD:
鉴别器的优化目的是尽可能准确地区分真实图像与生成图像,其损失函数为:
3)编码器损失函数LE:
编码器的优化目的是尽可能准确地捕捉生成图像的内容和类别信息,即希望对生成图像编码得到的内容特征与类别特征尽可能与生成图像对应的内容和类别噪声一致;同时,使用不变信息蒸馏进行真实图像的无监督聚类,以便帮助编码器更好地提取类别特征;因此,编码器损失由内容一致性损失类别一致性损失和不变信息蒸馏损失三部分组成,其中:
上述公式中,内容一致性损失、类别一致性损失与生成器中的定义相同,I(·)表示互信息函数,E(xc)、E(γ(x)c表示编码器提取到的对应图像的类别特征;采用近似方法求解互信息函数,首先,将类别特征通过步骤3中提到的10个全连接层,得到10个10维信息不变性特征向量lm(m=1,2,...,10),然后,将这10个信息不变性特征向量分别进行Softmax操作,归一化至[0,1]区间,每一个l均表示编码器对图像类别归属的概率分布,记与图像相对应的随机增强图像的不变性特征向量为γ(l),令P=l·γ(l)T为一个10×10的联合概率分布矩阵,(c,c′)处的值Pcc′=P(l=c,γ(l)=c′),表示编码器预测图像属于类别c,对应随机增强图像属于类别c′的联合概率。同时为了保证对称性,令记P按行求和的结果为Pc,按列求和的结果为Pc′,图像的第m个信息不变性向量的互信息可表示为:
最终的互信息为10个信息不变性向量互信息的均值:
因此,编码器总损失函数为:
步骤5:训练总神经网络;
利用步骤3构建的三个神经网络,分别使用步骤4设计的对应损失函数进行训练,使用Adam动量优化器,在更新生成器的网络参数时固定鉴别器、编码器的网络参数,更新鉴别器、编码器时采用同样的方案;
步骤6:采用步骤5中训练好模型,保存模型参数,取生成器,按步骤4所述方法构造随机噪声变量,并输入生成器中,即可获得生成图像,不同的随机噪声输入将产生不同的生成图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111133017.0A CN113988154A (zh) | 2021-09-27 | 2021-09-27 | 一种基于不变信息蒸馏的无监督解耦图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111133017.0A CN113988154A (zh) | 2021-09-27 | 2021-09-27 | 一种基于不变信息蒸馏的无监督解耦图像生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113988154A true CN113988154A (zh) | 2022-01-28 |
Family
ID=79736773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111133017.0A Pending CN113988154A (zh) | 2021-09-27 | 2021-09-27 | 一种基于不变信息蒸馏的无监督解耦图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113988154A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576518A (zh) * | 2024-01-15 | 2024-02-20 | 第六镜科技(成都)有限公司 | 图像蒸馏方法、装置、电子设备和计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020172838A1 (zh) * | 2019-02-26 | 2020-09-03 | 长沙理工大学 | 一种改进辅助分类器gan的图像分类方法 |
CN111832650A (zh) * | 2020-07-14 | 2020-10-27 | 西安电子科技大学 | 基于生成对抗网络局部聚合编码半监督的图像分类方法 |
CN113362422A (zh) * | 2021-06-08 | 2021-09-07 | 武汉理工大学 | 一种阴影鲁棒的基于解耦表示的妆容迁移系统及方法 |
-
2021
- 2021-09-27 CN CN202111133017.0A patent/CN113988154A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020172838A1 (zh) * | 2019-02-26 | 2020-09-03 | 长沙理工大学 | 一种改进辅助分类器gan的图像分类方法 |
CN111832650A (zh) * | 2020-07-14 | 2020-10-27 | 西安电子科技大学 | 基于生成对抗网络局部聚合编码半监督的图像分类方法 |
CN113362422A (zh) * | 2021-06-08 | 2021-09-07 | 武汉理工大学 | 一种阴影鲁棒的基于解耦表示的妆容迁移系统及方法 |
Non-Patent Citations (1)
Title |
---|
张纪宽;彭力;陈志勇;: "动态复杂背景下的智能视频监控系统设计与实现", 计算机测量与控制, no. 07, 25 July 2016 (2016-07-25) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576518A (zh) * | 2024-01-15 | 2024-02-20 | 第六镜科技(成都)有限公司 | 图像蒸馏方法、装置、电子设备和计算机可读存储介质 |
CN117576518B (zh) * | 2024-01-15 | 2024-04-23 | 第六镜科技(成都)有限公司 | 图像蒸馏方法、装置、电子设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111340738B (zh) | 一种基于多尺度渐进融合的图像去雨方法 | |
CN110188827B (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
CN114494489A (zh) | 一种基于深度孪生网络的自监督属性可控图像生成方法 | |
CN111461129B (zh) | 一种基于上下文先验的场景分割方法和系统 | |
Aldroubi et al. | Similarity matrix framework for data from union of subspaces | |
CN116109719A (zh) | 一种基于结构化网络先验知识的公平可控图像生成方法 | |
CN115759237A (zh) | 端到端的深度神经网络模型压缩及异构转换系统及方法 | |
CN114863348A (zh) | 基于自监督的视频目标分割方法 | |
CN114743027B (zh) | 弱监督学习引导的协同显著性检测方法 | |
Cheng et al. | Leveraging semantic segmentation with learning-based confidence measure | |
CN116958827A (zh) | 一种基于深度学习的撂荒区域提取方法 | |
CN115512357A (zh) | 一种基于部件拆分的零样本汉字识别方法 | |
CN111310820A (zh) | 基于交叉验证深度cnn特征集成的地基气象云图分类方法 | |
CN114565628A (zh) | 一种基于边界感知注意的图像分割方法及系统 | |
CN113988154A (zh) | 一种基于不变信息蒸馏的无监督解耦图像生成方法 | |
CN113436115A (zh) | 一种基于深度无监督学习的图像阴影检测方法 | |
CN117372853A (zh) | 一种基于图像增强和注意力机制的水下目标检测算法 | |
Di et al. | FDNet: An end-to-end fusion decomposition network for infrared and visible images | |
CN115424275B (zh) | 一种基于深度学习技术的渔船船牌号识别方法及系统 | |
CN114898464B (zh) | 一种基于机器视觉的轻量化精准手指语智能算法识别方法 | |
CN111242216A (zh) | 基于条件生成对抗卷积神经网络的图像生成方法 | |
CN111429436B (zh) | 一种基于多尺度注意力和标签损失的本质图像分析方法 | |
CN115862015A (zh) | 文字识别系统的训练方法及装置、文字识别方法及装置 | |
CN111008986B (zh) | 一种基于多任务半卷积的遥感图像分割方法 | |
CN115100694A (zh) | 一种基于自监督神经网络的指纹快速检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |