CN114494489A

CN114494489A - 一种基于深度孪生网络的自监督属性可控图像生成方法

Info

Publication number: CN114494489A
Application number: CN202210006607.5A
Authority: CN
Inventors: 陈志勇
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-05-13

Abstract

该发明公开了一种基于深度孪生网络的自监督属性可控图像生成方法，属于计算机视觉图像生成领域。该发明基于孪生网络思想，以余弦相似度作为距离度量方法，约束同一图像的两个增强样本之间的相似性，并使用梯度停止策略进一步稳定网络训练过程，从而为孪生编码器网络提供真实数据中类别属性的差异化表示，并将学习到的类别表示用于图像生成过程，诱导生成器实现类别属性控制，同时删除其他方法中常用的均方差损失，降低模型优化难度。该发明所提出的基于深度孪生网络的自监督属性控制方案，可显著提升生成对抗网络的类别属性控制生成水平，同时提升现有方法的图像生成质量，并通过更少的约束和更短的训练时间实现更加优秀的效果。

Description

一种基于深度孪生网络的自监督属性可控图像生成方法

技术领域

本发明属于计算机视觉领域，主要涉及图像的类别属性可控生成任务，主要应用于文化娱乐产业、工业图像数据扩充以及机器视觉理解等方面。

背景技术

图像生成技术是一种通过建立数学模型，求解图像数据分布的极大似然估计，并从估计分布中进行采样，以生成与原始数据相似、但不存在于原始数据中的新图像的技术。近年来，随着深度学习的快速发展，涌现了一批基于深度神经网络的图像生成技术，并且取得了可以与真实图像相媲美的图像生成效果。按照是否直接计算真实图像分布的极大似然估计，可以分为显式密度估计方法和隐式密度估计方法两大类。其中，显示密度估计方法通过建立约束，直接求解真实图像数据的概率分布，或求解概率分布的近似分布，获取真实图像分布的概率估计表达式；隐式密度估计方法则通过间接约束，以学习一个能够生成与真实数据相似图像的模型，将真实图像的数据分布交由深度神经网络进行估计，避免直接估计真实图像数据分布。图像生成技术可以通过对真实图像数据内隐信息的学习，获得生成逼真图像的能力，从而扩充图像数据的数目，对于自动驾驶、深度医学影像等图像数据稀缺的领域具有重要实用价值，同时，可以应用于珍贵视频、图像资料的修复。

生成对抗网络是一种于2014年由Goodfellow等人提出的无监督隐式密度估计图像生成方法，参考文献：Goodfellow I,Pouget-Abadie J,Mirza M,et al.Generativeadversarial nets[J].Advances in neural information processing systems,2014,27.其基于博弈论中的零和博弈思想，构造以鉴别器-生成器为核心架构的二元模型，通过为鉴别器、生成器设定相反的优化目标，规避了传统图像生成方法中显示估计图像数据概率分布的难点，简化了图像生成任务的优化目标，降低了图像生成任务的研究门槛，同时取得了良好的图像生成效果，实现了图像生成领域的一大突破，已成为目前应用较为广泛的图像生成方法之一。2018年，Miyato T等人提出频谱归一化生成对抗网络(简称SNGAN)，参考文献：Miyato T,Kataoka T,Koyama M,et al.Spectral Normalization forGenerative Adversarial Networks[C]//International Conference on LearningRepresentations.2018.通过对鉴别器网络施加频谱归一化约束，实现1-Lipschitz连续，显著缓解了原始生成对抗网络中存在的模式崩塌问题，提升了生成对抗网络在复杂数据集上的图像生成质量，进一步拓宽了生成对抗网络的应用场景。

属性可控的图像生成任务，旨在实现可控的图像生成，即通过特定输入，获得可以预见的，具有特定属性特征的生成图像，根据数据类型不同，属性可分为光照、方向、类别、俯仰角、物体空间尺度等多种属性；根据具体任务的不同，可以设计针对不同属性进行控制的生成模型，也可以使用单一模型实现多个属性的控制。现有的属性可控图像生成方法普遍从一般图像生成方法改进而来，通过对图像生成方法施加额外约束，建立模型输入隐编码与输出图像特定属性之间的关系，从而实现可控的图像生成，在隐编码空间中实现了不同属性相关特征的分离。

目前，基于生成对抗网络的属性可控图像生成任务普遍通过互信息理论，建立输入隐编码与输出图像某一属性之间的关系，换言之，现有方法常基于数据本身的存在的偏差信息挖掘属性模式，期望由同一属性控制隐编码生成的虚假图像具有较高的互信息，以实现属性控制隐编码与某一图像属性之间的绑定。对于生成对抗网络而言，构建输入隐编码与输出图像之间的具体关系，有助于更好地归因图像生成结果，提升模型的可解释性，同时，具有属性控制能力的生成对抗网络模型有助于使用者根据需求生成具有某种属性的图像，降低某些少数图像的获取成本，提高生成对抗网络的泛用性，对于促进生成对抗网络的发展与推广具有重要意义。

Sudipto Mukherjee等人基于聚类思想，将判别任务中的交叉熵分类损失作为无监督图像属性可控图像生成任务的约束，提出无监督聚类生成对抗网络Cluster-GAN，实现了无监督属性可控图像生成方法的一大突破。参考文献：Mukherjee S,Asnani H,Lin E,etal.ClusterGAN:Latent Space Clustering in Generative Adversarial Networks[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33:4610-4617.然而，Cluster-GAN在MNIST、Fashion-MNIST等简单数据集上取得了较为理想的类别属性控制效果，但在CIFAR-10数据集中未能获得良好表现，其原始网络架构也未取得高质量的图像生成结果，从而限制了该方法的实际应用场景。

中国专利“一种基于不变信息蒸馏的无监督解耦图像生成方法”(申请号：202111133017.0)通过分析真实图像数据中隐含的潜在分离信息对于属性可控图像生成模型学习属性分离表征的促进作用，使用不变信息蒸馏聚类方法将真实图像数据内隐的类别属性信息经由承担属性分离约束的编码器间接引入图像生成过程中，进一步促进了属性可控图像生成模型的属性控制效果，并实现了图像质量的进一步提升。然而，该方法所使用的不变信息蒸馏方法需要提前预设聚类中心的具体数目，并引入了多个额外的不变信息蒸馏模块，增加了模型的参数量，同时增大了计算成本，此外，目前方法的无监督聚类属性控制生成的效果仍存在提升空间。

因此，探索成本更为低廉的真实数据引入方案，简化训练过程，实现更加轻量化、更加高质量的无监督属性可控图像生成，有助于拓宽生成对抗网络的应用场景，降低进行属性可控图像生成方法的研究成本。本发明受基于孪生网络的自监督表征学习方法SimSiam的启发，参考文献：Chen X,He K.Exploring simple siamese representationlearning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2021:15750-15758.通过梯度停止策略，以余弦相似度作为距离度量准则，快速、高效地学习真实图像的内隐属性分离信息，改进了现有方法训练成本较高的缺点，同时，提升了图像的生成质量。此外，本发明方法通过更少的约束项和更短的训练时间即可实现优越的效果，在保持属性控制性能的同时，实现了模型规模、图像生成质量和优化复杂度三个方面的提升。

发明内容

本发明是一种基于孪生网络的自监督属性可控图像生成方法，主要解决现有的无监督聚类属性可控生成对抗网络方法存在的类别属性控制效果不足，模型参数规模较大，网络优化步骤复杂等问题。

本发明方法基于孪生网络，构建自监督属性可控生成对抗网络模型，使用CIFAR-10数据集作为实验数据来源。首先对用于训练的图像数据进行归一化处理，并从高斯分布和均匀分布中采样随机噪声用于图像生成模型的训练，具体来说，从高斯分布中采样大部分随机噪声，并设置一个由范畴分布中采样少量随机噪声编码而成的one-hot向量，将其与从高斯分布中采样的随机噪声进行拼接，作为生成对抗网络的总输入。为了实现生成对抗网络的属性控制能力，在传统生成对抗网络的基础上引入一个额外的孪生编码器网络，进行图像特征提取。对于生成对抗网络，使用Hinge Loss作为优化函数，引导生成器生成真实图像。同时，使用交叉熵损失作为类别属性一致性约束损失，期望具有相同one-hot向量的生成图像具有相近的编码表示，从而实现类别属性与one-hot向量的绑定。为了更好地引导编码器正确提取到图像的属性分离特征，使用余弦相似度计算来自同一真实图像的两个增强图像样本之间的相似性，诱导孪生编码器网络对二者输出近似的编码表征，此外，使用梯度停止策略辅助真实图像的属性挖掘，以获得更准确的编码表示。为了提升图像质量，使用经谱归一化操作改造的深度残差神经网络作为生成对抗网络的基本框架。通过仿真实验证明，使用梯度停止策略的余弦相似度优化方法对编码器学习正确的属性分离特征起到了良好的促进作用，实现了更加快速、高效的图像生成模型训练。此外，本发明方法在不使用其他基于聚类的无监督属性可控图像生成方法中常用的L2正则化损失的前提下，实现了更加优秀的类别属性控制效果，进一步简化了本发明的计算复杂度。本发明算法的总结结构如图1所示。

为了更好地对本发明具体内容进行阐释，首先对本发明中所使用的相关术语进行定义。

定义1：高斯分布。也被称为正态分布，是一种在自然界中广泛存在的概率分布，由于自然和人类社会生活中许多随机事件服从这一分布，高斯分布常被作为理论研究中的初始分布假设。对于一个随机事件x，若其取值的概率密度函数满足

其中，μ为数学期望，σ为标准差，则称事件x服从高斯分布，可简记为N(x|μ,σ²)。

定义2：范畴分布。是对伯努利分布的推广，具体来说，假设一个事件有n种情况，每种情况发生的概率之和

每次采样时将从n种情况中等概率采样某一种情况，常用于构造one-hot编码表示。

定义3：深度残差神经网络。深度残差神经网络是在深度卷积神经网络基础之上改进得到的一种深度神经网络，缓解了普通深度卷积神经网络层数较多时容易出现的过拟合和稳定性低的问题。具体来说，深度残差神经网络引入“short-cut”操作，实现深层网络与浅层网络之间的跨层连接，从而直接共享不同感受野特征图之间的信息，使得深层网络能够直接获取不同尺度的特征图的信息并进行融合，实验证明，深度残差神经网络相比于深度卷积神经网络具有更好的稳定性，从而拓展了深度神经网络的层数，提升了深度神经网络的拟合能力，能够产生更好的特征提取和图像生成效果。

定义4：平均池化。平均池化的思想来自于空域滤波，是一种实现图像平滑的方法。具体来说，平均池化操作首先将输入图像以一定规则划分为若干个子区域，将每个子区域内所有像素点的平均值作为该子区域的池化输出：

其中，x_ab为该子区域内处于(a,b)位置的像素值，R为该子区域包含的像素点数目。平均池化可以压缩图像尺寸，实现下采样，相比于最大池化操作，可以保留更多图像的背景信息。

定义5：上采样技术。上采样技术与池化方法相反，其目的是增大输入图像的尺寸，常用的上采样技术以双线性算法、最近邻算法、均值填充算法等插值算法为基础，实现输入图像尺寸的扩充。本方法使用最近邻插值算法进行上采样，将输入图像或特征图的尺寸变为原来的两倍。

定义6：激活函数。激活函数是深度神经网络的重要组成内容，其目的是通过一定数学映射，控制人工神经元节点输出的取值范围，在深度神经网络中起到“阀门”作用。本发明使用的激活函数为分段线性(ReLU)函数和双曲正切(Tanh)函数。ReLU函数的表达式为Relu(x)＝max(0,x)，其作用是将人工神经元输出的负半区置为0；Tanh函数的表达式为

其作用是使输入和输出保持非线性单调上升或下降关系，以改善深度神经网络中经常出现的梯度消失问题。

定义7：批规范化函数。批规范化函数(Batch Normalization)是为了稳定深度神经网络训练而提出的一种规范化方法。在深度神经网络训练过程中，由于网络参数变化而引起内部结点数据分布变化，会导致深度神经网络收敛过慢，批规范化函数通过对小批次图像计算不同样本间相同通道的均值与方差，对数据归一化处理，对数据分布进行矫正，同时引入两个可学习参数放大归一化后不同样本之间的差异，以防止过拟合，在以深度卷积神经网络为基础架构的模型中取得了良好的表现。

定义8：频谱归一化函数。频谱归一化函数是为解决原始生成对抗网络训练不稳定问题所提出的一种针对鉴别器网络权重的归一化方法，通过将神经网络层l的权值矩阵W^l除以其最大奇异值σ(W^l)，使鉴别器输出满足1-Lipshcitz连续，修改后的权值矩阵为

定义9：余弦相似度。余弦相似度通过测量两个向量夹角大小衡量向量相似性的一种度量方法，可以较好地衡量向量在高维空间中的相似性，其表达式为：

其中，x_i、y_i分别表示向量

在第i维的分量。

定义10：交叉熵损失。交叉熵损失(Cross-Entropy Loss)是一种常用的分类损失函数，通过最小化两个分布之间的交叉熵函数，以增大二者的互信息，从而实现类别与特征之间的关联。对于两个数学分布q与p，使用分布p表达q时，能够传递的平均信息长度即为交叉熵，记为

定义11：归一化指数函数。归一化指数函数(Softmax)是一种常用的向量归一化方法，其通过公式

将n维向量

的每一维x_i压缩至[0,1]区间，同时使压缩后的向量具有

的性质，因此常被用于作为概率预测模型最终的输出操作。

定义12：一位有效编码，一位有效编码又被称为one-hot编码，是一种将数据编码为二进制形式的编码方式，其二进制表示中，除了被编码数据对应的整数索引位置“1”外，其它位均被置“0”。

定义13：生成对抗网络。生成对抗网络是一种隐式概率推断的图像生成模型，其核心组成部分包括生成器和鉴别器，鉴别器的任务是区分输入图像来自真实图像还是生成的虚假图像，生成器的任务则是根据随机噪声输入，尽可能生成足够逼真的图像以欺骗鉴别器。在训练过程中，二者优化目标相反，构成一对零和博弈，在优化过程中，生成器将自动学习真实数据的概率密度函数，而不需要给出具体的表达式，从而可以减少约束条件，降低优化难度。

定义14：编码器网络。以深度神经网络为基础构建的编码器网络是特征提取模块的统称，其作用在于，对高维空间的输出数据进行提取与表示。编码器网络最常见的任务是对输入数据进行归纳，根据监督信息或约束函数的控制，挖掘输入数据的内部差异，归纳出不同数据的不同表征模式。

定义15：孪生网络。深度孪生网络是一种较为特殊的深度神经网络，其优化目的在于学习一对输入数据的相似性。孪生网络通常由两个网络结构相同的神经网络组成，且这两个神经网络常共享网络参数，在优化时，通过优化损失，约束由孪生网络提取到的输入表征之间的相似性或不相似性，以实现对具有不同属性数据在表征上的分离。

定义16：梯度停止策略。梯度停止策略是对基于梯度下降的反向传播训练方法的一种优化技巧，其核心思想在于，在网络的训练过程中，将一些输入数据视为常量，不直接参与网络参数的更新，消除其对梯度反向传播的直接影响。研究表明，梯度停止策略可以有效缓解孪生网络训练过程中常出现的“崩溃解”问题，从而有效提升孪生网络的性能。

定义17：随机数据增强。随机数据增强方法是为缓解训练数据多样性不足而提出的一种数据扩充方法，通过对原始图像根据一定规则进行位置、颜色的变换，或添加额外的噪声等方式，生成增强样本，以减轻深度神经网络的过拟合现象。数据增强可以通过对图像进行具有特定显式函数的变换操作实现，也可以通过深度神经网络进行复杂的变换实现。

因而，本发明技术方案为：一种基于深度孪生网络的自监督属性可控图像生成方法，该方法包括：

步骤1：对实验图像数据进行预处理；

将图像数据从RGB文件格式转换为Tensor格式，将数值范围归一化至[0,1]区间，同时将每一张实验图像的尺寸调整为相同；

步骤2：进行图像的变换操作；

实验图像数据将被应用于生成对抗网络的训练和进行解耦属性分离学习的孪生编码器网络训练，对于生成对抗网络的训练，将经第一步处理得到的Tensor格式数据进一步归一化至[-1,1]区间。

对于孪生编码器网络的训练，需要对图像数据进行随机数据增强，具体流程为：

第一步，随机裁剪。随机选定原图像中20％～100％的区域，将被选定区域从原图像中裁剪出来，使用插值方法恢复至与原图像相同的尺寸；

第二步，随机水平翻转。对于每一张图像数据，以50％的概率将其进行水平翻转；

第三步，随机颜色变换。构建包括亮度、对比度、饱和度和色调的随机颜色变换，在随机颜色变换被应用时，图像的亮度、对比度、饱和度随机变为原图像的40％～140％，图像色调将在原图像色调10％的幅度内偏移。每张图像被应用随机颜色变换的概率为80％；

第四步，随机灰度变换。图像将有20％的概率被转换为灰度图像；

第五步，随机噪声扰动。图像将被随机添加高斯噪声进行扰动。随机噪声扰动被采用时，图像将被添加从原图像尺寸四十分之一的高斯核中，以随机从[0.1,2]区间中采样出的数值为标准差的高斯噪声。每张图像被应用随机噪声扰动的概率为50％。

每张图像将依次顺序进行上述流程两次，生成两张随机增强样本，每张随机增强样本数值被归一化至[-1,1]区间。

步骤3：构建深度残差神经网络；

1)生成器网络构建：

生成器网络的输入为128维随机噪声向量，由118维高斯噪声向量和一个10维one-hot编码向量拼接而成，其中，one-hot向量由从范畴分布中随机采样得到的位于0～9范围内的整数编码而成。生成器网络的输出为Tensor格式的图像，图像尺寸与实验图像数据尺寸相同。生成器网络的结构由一个全连接层、三个由二维卷积层组成的残差神经网络模块和一个二维卷积层顺序连接组成，其中全连接层为网络输入端，二维卷积层为网络输出端。生成器网络结构如图2所示。

2)鉴别器网络构建：

鉴别器网络的输入为真实图像和生成图像，输出为1维向量。鉴别器网络的结构由一个全连接层和四个由二维卷积神经网络组成的谱归一化残差块构成，其中四个谱归一化残差块顺序连接构成一个残差神经网络，作为鉴别器网络的输入端，全连接层为鉴别器网络的输出端。鉴别器网络结构如图3所示。

3)构建孪生编码器网络：

孪生编码器的输入为真实图像的两个随机数据增强样本和生成图像，输出为图像特征向量。孪生编码器网络由两个结构相同的网络组成，且二者参数共享，因此可以将其视为一个网络，其主体结构为八个由二维卷积层构成的残差神经网络模块顺序连接而成，其中第一个残差模块为输入端，最后一个残差模块为输出端，输出端特征图经平均池化操作转变为2048维特征向量。对于生成图像，孪生编码器网络在主体网络之后连接了一个由一层全连接层组成的聚类头(Cluster Head)，输出10维特征向量用于实现生成图像类别属性与生成器输入的one-hot向量之间的绑定。对于真实图像的随机增强样本，首先在孪生编码器网络的主体网络之后连接一个由两层全连接层组成的投影头(Projection Head)，进行进一步的投影变换，同样输出2048维特征向量；在投影头之后额外连接一个由两层全连接层组成的预测头(Prediction Head)，将投影空间中的特征向量映射到预测空间中，其输出同为2048维的特征向量。孪生编码器网络各组件结构如图4所示。

步骤4：设计损失函数；

首先对网络训练过程中涉及到的一些通用符号进行定义：将步骤1中获取的Tensor格式的图像数据被归一化至[-1,1]区间后的表示记为x∈P_r；将经过步骤1进行格式转换、步骤2进行随机数据增强操作后的图像数据记为A(x)＝[A(x)₁,A(x)₂]，其中，A(x)₁、A(x)₂分别表示图像数据的两个增强样本。将从高斯分布中随机采样获得的118维噪声向量记为z_n；将从范畴分布中采样得到的随机整数记为c，c是0～9区间内的整数，将c对应的one-hot编码表示记为z_c，期望z_c承担类别属性控制功能；将z_n、z_c拼接而成的128维的噪声向量记为z＝[z_n,z_c]∈P_z。将生成器、鉴别器、孪生编码器网络分别记为G、D、E，其中孪生网络编码器聚类头、投影头和预测头的输出分别记为E_CLS(·)、E_PRO(·)和E_PRE(·)。

1)生成器损失函数Loss_G：

生成器的优化目的是生成尽量真实的图像，同时，期望生成器生成的图像类别应尽可能与z_c相对应，以实现类别属性控制效果。因此，生成器的损失包括生成对抗网络损失

和类别一致性损失

两部分；其中：

上述公式中，

表示对从混合噪声分布P_z中采样的若干个随机噪声生成的虚假图像G(z)求损失的期望；D(G(z))表示鉴别器对生成器生成的虚假图像的输出响应；E_CLS(G(z))表示孪生编码器网络聚类头对虚假图像生成的10维类别特征编码表示，E_CLS(G(z))经Softmax操作归一化至[0,1]区间作为输出，表示孪生编码器网络对于输入图像属于每个类别概率预测，为了简便表示，在损失函数表达式中省略了Softmax(·)标志；CE(·,·)表示交叉熵损失；

生成器总损失函数为：

上式中，

符号表示对应的网络参数被固定，不计算相关网络的梯度；β_c为可调超参数，表示类别一致性损失占生成器总损失的权重。

2)鉴别器损失函数Loss_D：

鉴别器的优化目的是尽可能准确地区分出真实图像和由生成器生成的虚假图像，其损失函数为：

上式中，

表示对从真实图像分布中随机采样的若干个图像数据样本求损失的期望；D(x)表示鉴别器对真实图像数据的输出响应，未说明的符号含义与生成器优化过程中的相关定义相同；

3)孪生编码器损失函数Loss_E：

孪生编码器网络具有两个优化目的，一是期望通过余弦相似度损失，尽可能对来自同一真实图像数据的两个随机增强样本输出相似的编码表示，以学习类别属性分离的特征表示；二是期望通过交叉熵损失对生成器生成的虚假图像提供类别约束，将生成图像的类别属性与其对应的类别编码z_c相绑定，从而能够通过控制z_c来控制生成图像的类别。因此，孪生编码器网络的损失由余弦相似度损失

和类别一致性损失

和组成，各损失的表达式为：

上述公式中，类别一致性损失与生成器中的定义相同，cos(·,·)表示余弦相似度函数；f_i＝E_PRO(A(x)_i)_detach，q_i＝E_PRE(A(x)_i)，f_i表达式中的detach下标表示梯度停止操作，即在使用反向传播算法更新网络参数时，该部分只作为常量参与梯度更新。通过使用双向梯度停止策略，可以充分学习A(x)₁、A(x)₂中的数据信息，提升网络的类别属性分离特征提取能力。编码器总损失函数为：

上式中的β_c和β_s为两个可调超参数，分别表示类别一致性损失和余弦相似度损失的权重大小，未说明符号与生成器损失函数中的相关定义相同。

步骤5：训练总神经网络；

对于步骤3构建的三个深度神经网络，使用步骤4中设计的损失函数进行对应的神经网络训练，使用Adam动量优化器进行作为梯度更新策略。为了为孪生编码器网络提供更可靠的先验知识，首先使用余弦相似度损失

对孪生编码器网络的主体网络、投影头和预测头进行预训练。为了节省计算成本，缩短训练时间，在正式训练时同步更新生成器与孪生编码器网络，二者在训练时的总损失函数为：

在更新生成器与孪生编码器的网络参数时，固定鉴别器的网络参数，在更新鉴别器网络参数时，固定其他网络的参数。鉴别器每更新3次，生成器与孪生编码器更新1次。

步骤6：采用步骤3、4、5中方法训练模型，保存模型参数与网络结构，按步骤4中的描述采样随机噪声，作为训练好的生成器

的输入，可获得生成图像，不同的随机噪声输入将生成不同的生成图像，通过采样不同的z_c生成对应的图像，可以观察生成器的类别属性控制图像生成效果。

本发明的创新之处在于：

1)针对目前基于无监督聚类方法的类别属性控制生成对抗网络模型约束项较多，训练时间较长的问题，通过分析与论证，删除施加在内容噪声向量中的均方差损失，对模型约束过程实现简化，经过实验证明，本发明的其他约束可以更好地对图像的类别属性进行控制，在使用更少的优化约束的情况下实现了更好的类别属性控制效果。

2)针对目前基于无监督聚类方法的类别属性控制生成对抗网络模型类别属性控制效果仍有待提升的问题，基于使用梯度停止策略的孪生编码器网络结构，使用更为简单的余弦相似度作为同一图像两个随机增强样本的特征相似性约束，通过网络结构的设计和梯度停止策略获得了更好的图像类别属性分离效果，进而为生成器提供更加可靠的先验知识，帮助生成器更好地实现类别属性控制图像生成任务，获得更好的类别属性控制图像生成效果。同时，余弦相似度损失与类别一致性损失应用于孪生网络的不同组件，可以减少真实数据信息对生成器属性控制效果评测过程的干扰，有助于提升实验结果的可靠性。

3)经过实验证明，本发明方法有效改善了无监督聚类生成对抗网络的类别属性控制效果和图像生成质量，在相同的生成对抗网络和相同的编码器主体网络框架下，本发明图像生成质量在IS评价指标下比其他基于聚类的无监督类别属性控制图像生成方法相对提升了10.84％；生成对抗网络生成按类别生成图像的属性控制效果在聚类准确率指标上绝对值提升了8％，兰德指数绝对值提升了10％，标准化互信息提升了5％，将类别控制效果在聚类准确率评价尺度下实现了40％的精度；此外，本发明方法单次迭代用时比其他基于聚类的无监督类别属性控制图像生成方法缩短了34.21％，总迭代次数减少了14.29％，显著降低了训练成本。

附图说明

图1为本发明方法整体网络结构示意图；

图2为本发明生成器网络结构详细示意图；

图3为本发明鉴别器网络结构详细示意图；

图4为本发明孪生编码器网络结构详细示意图。

具体实施方式

步骤1：对实验数据进行预处理；

本发明选择CIFAR-10数据集作为实验数据，从数据集官方发布渠道获取。CIFAR-10数据集由60000张真彩色RGB图像组成，其中50000张为训练数据，剩余10000张为测试数据。CIFAR-10数据集共包含10个类别属性，每个类别属性具有相同的图像数目，此外，数据集中每张图像均为3×32×32尺寸。为将RGB图像数据应用于深度学习模型的训练，将所有图像数据转换成Tensor形式。

步骤2：进行图像的变换操作；

步骤3：构建深度残差神经网络；

1)生成器网络构建：

2)鉴别器网络构建：

3)构建孪生编码器网络：

孪生编码器的输入为真实图像的两个随机数据增强样本和生成图像，输出为图像特征向量。孪生编码器网络由两个结构相同的网络组成，且二者参数共享，因此可以将其视为一个网络，其主体结构为八个由二维卷积层构成的残差神经网络模块顺序连接而成，其中第一个残差模块为输入端，最后一个残差模块为输出端，输出端特征图经全局池化平均操作转变为2048维特征向量。对于生成图像，孪生编码器网络在主体网络之后连接了一个由一层全连接层组成的聚类头(Cluster Head)，输出10维特征向量用于实现生成图像类别属性与生成器输入的one-hot向量之间的绑定。对于真实图像的随机增强样本，首先在孪生编码器网络的主体网络之后连接一个由两层全连接层组成的投影头(Projection Head)，进行进一步的投影变换，同样输出2048维特征向量；在投影头之后额外连接一个由两层全连接层组成的预测头(Prediction Head)，将投影空间中的特征向量映射到预测空间中，其输出同为2048维的特征向量。孪生编码器网络各组件结构如图4所示。

步骤4：设计损失函数；

1)生成器损失函数Loss_G：

和类别一致性损失

两部分；其中：

上述公式中，

生成器总损失函数为：

上式中，

2)鉴别器损失函数Loss_D：

上式中，

3)孪生编码器损失函数Loss_E：

和类别一致性损失

和组成，各损失的表达式为：

上式中的β_c和β_s为两个可调超参数，分别表示类别一致性损失和余弦相似度损失的权重大小，未说明的符号含义与生成器优化过程中的相关定义相同。

步骤5：训练总神经网络；

对于步骤3构建的三个深度神经网络，使用步骤4中设计的损失函数进行对应的神经网络训练，使用Adam动量优化器进行作为梯度更新策略，设置学习率为0.0002，实验使用基于Python语言的Pytorch平台进行实现，使用Python版本为3.6，Pytorch版本为1.7。为了给孪生编码器网络提供更可靠的先验知识，首先使用余弦相似度损失对孪生编码器网络的主体网络、投影头和预测头进行预训练。为了节省计算成本，缩短训练时间，在正式训练时同步更新生成器与孪生编码器网络。在更新生成器与孪生编码器的网络参数时，固定鉴别器的网络参数，在鉴别器时，固定其他网络的参数。鉴别器每更新3次，生成器与孪生编码器更新1次。鉴别器每次更新时使用64张生成图像与等量真实图像；生成器与孪生编码器更新时，随机采样128个独立同分布的随机噪声进行更新，孪生编码器网络额外使用64张真实图像进行更新。整个实验过程中，鉴别器共使用完整数据集迭代300次；在前200次迭代过程中设置余弦相似度权重为3.5，类别一致性损失权重为5；在后100次迭代过程中设置余弦相似度权重为2.5，类别一致性损失权重为3.5。

步骤6：测试总神经网络；

在步骤5中训练好的模型，保存不同网络的参数，取生成器，根据步骤4中所述方法采样随机噪声，生成50000张虚假图像，用于图像生成质量指标IS的计算，以评估生成器的图像生成质量。取孪生编码器网络，使用CIFAR-10数据集中未参与网络训练的10000张测试图像提取图像特征，使用无监督聚类头的输出进行无监督类别预测，计算聚类准确度ACC、兰德指数ARI、标准化互信息NMI指标，以评估类别属性控制的准确性。

Claims

1.一种基于深度孪生网络的自监督属性可控图像生成方法，该方法包括：

步骤1：对实验图像数据进行预处理；

步骤2：进行图像的变换操作；

实验图像数据将被应用于生成对抗网络的训练和进行解耦属性分离学习的孪生编码器网络训练，对于生成对抗网络的训练，将经第一步处理得到的Tensor格式数据进一步归一化至[-1,1]区间；

第一步，随机裁剪，随机选定原图像中20％～100％的区域，将被选定区域从原图像中裁剪出来，使用插值方法恢复至与原图像相同的尺寸；

第二步，随机水平翻转，对于每一张图像数据，以50％的概率将其进行水平翻转；

第三步，随机颜色变换，构建包括亮度、对比度、饱和度和色调的随机颜色变换，在随机颜色变换被应用时，图像的亮度、对比度、饱和度随机变为原图像的40％～140％，图像色调将在原图像色调10％的幅度内偏移；每张图像被应用随机颜色变换的概率为80％；

第四步，随机灰度变换，图像将有20％的概率被转换为灰度图像；

第五步，随机噪声扰动，图像将被随机添加高斯噪声进行扰动；随机噪声扰动被采用时，图像将被添加从原图像尺寸四十分之一的高斯核中，以随机从[0.1,2]区间中采样出的数值为标准差的高斯噪声；每张图像被应用随机噪声扰动的概率为50％；

每张图像将依次顺序进行上述流程两次，生成两张随机增强样本，每张随机增强样本数值被归一化至[-1,1]区间；

步骤3：构建深度残差神经网络；

1)生成器网络构建：

生成器网络的输入为128维随机噪声向量，由118维高斯噪声向量和一个10维one-hot编码向量拼接而成，其中，one-hot向量由从范畴分布中随机采样得到的位于0～9范围内的整数编码而成；生成器网络的输出为Tensor格式的图像，图像尺寸与实验图像数据尺寸相同；生成器网络的结构由一个全连接层、三个由二维卷积层组成的残差神经网络模块和一个二维卷积层顺序连接组成，其中全连接层为网络输入端，二维卷积层为网络输出端；

2)鉴别器网络构建：

鉴别器网络的输入为真实图像和生成图像，输出为1维向量；鉴别器网络的结构由一个全连接层和四个由二维卷积神经网络组成的谱归一化残差块构成，其中四个谱归一化残差块顺序连接构成一个残差神经网络，作为鉴别器网络的输入端，全连接层为鉴别器网络的输出端；

3)构建孪生编码器网络：

孪生编码器的输入为真实图像的两个随机数据增强样本和生成图像，输出为图像特征向量；孪生编码器网络由两个结构相同的网络组成，且二者参数共享，因此可以将其视为一个网络，其主体结构为八个由二维卷积层构成的残差神经网络模块顺序连接而成，其中第一个残差模块为输入端，最后一个残差模块为输出端，输出端特征图经全局池化平均操作转变为2048维特征向量；对于生成图像，孪生编码器网络在主体网络之后连接了一个由一层全连接层组成的聚类头；输出10维特征向量用于实现生成图像类别属性与生成器输入的one-hot向量之间的绑定；对于真实图像的随机增强样本，首先在孪生编码器网络的主体网络之后连接一个由两层全连接层组成的投影头；，进行进一步的投影变换，同样输出2048维特征向量；在投影头之后额外连接一个由两层全连接层组成的预测头(Prediction Head)，将投影空间中的特征向量映射到预测空间中，其输出同为2048维的特征向量；

步骤4：设计损失函数；

首先对网络训练过程中涉及到的一些通用符号进行定义：将步骤1中获取的Tensor格式的图像数据被归一化至[-1,1]区间后的表示记为x∈P_r；将经过步骤1进行格式转换、步骤2进行随机数据增强操作后的图像数据记为A(x)＝[A(x)₁,A(x)₂]，其中，A(x)₁、A(x)₂分别表示图像数据的两个增强样本；将从高斯分布中随机采样获得的118维噪声向量记为z_n；将从范畴分布中采样得到的随机整数记为c，c是0～9区间内的整数，将c对应的one-hot编码表示记为z_c，期望z_c承担类别属性控制功能；将z_n、z_c拼接而成的128维的噪声向量记为z＝[z_n,z_c]∈P_z；将生成器、鉴别器、孪生编码器网络分别记为G、D、E，其中孪生网络编码器聚类头、投影头和预测头的输出分别记为E_CLS(·)、E_PRO(·)和E_PRE(·)；

1)生成器损失函数Loss_G：

生成器的优化目的是生成尽量真实的图像，同时，期望生成器生成的图像类别应尽可能与z_c相对应，以实现类别属性控制效果；因此，生成器的损失包括生成对抗网络损失

和类别一致性损失

两部分；其中：

上述公式中，

生成器总损失函数为：

上式中，

符号表示对应的网络参数被固定，不计算相关网络的梯度；β_c为可调超参数，表示类别一致性损失占生成器总损失的权重；

2)鉴别器损失函数Loss_D：

上式中，

3)孪生编码器损失函数Loss_E：

孪生编码器网络具有两个优化目的，一是期望通过余弦相似度损失，尽可能对来自同一真实图像数据的两个随机增强样本输出相似的编码表示，以学习类别属性分离的特征表示；二是期望通过交叉熵损失对生成器生成的虚假图像提供类别约束，将生成图像的类别属性与其对应的类别编码z_c相绑定，从而能够通过控制z_c来控制生成图像的类别；因此，孪生编码器网络的损失由余弦相似度损失

和类别一致性损失

和组成，各损失的表达式为：

上述公式中，类别一致性损失与生成器中的定义相同，cos(·,·)表示余弦相似度函数；f_i＝E_PRO(A(x)_i)_detach，q_i＝E_PRE(A(x)_i)，f_i表达式中的detach下标表示梯度停止操作，即在使用反向传播算法更新网络参数时，该部分只作为常量参与梯度更新；通过使用双向梯度停止策略，可以充分学习A(x)₁、A(x)₂中的数据信息，提升网络的类别属性分离特征提取能力；编码器总损失函数为：

上式中的β_c和β_s为两个可调超参数，分别表示类别一致性损失和余弦相似度损失的权重大小；

步骤5：训练总神经网络；

对于步骤3构建的三个深度神经网络，使用步骤4中设计的损失函数进行对应的神经网络训练，使用Adam动量优化器进行作为梯度更新策略；为了为孪生编码器网络提供更可靠的先验知识，首先使用余弦相似度损失

对孪生编码器网络的主体网络、投影头和预测头进行预训练；为了节省计算成本，缩短训练时间，在正式训练时同步更新生成器与孪生编码器网络，二者在训练时的总损失函数为：

在更新生成器与孪生编码器的网络参数时，固定鉴别器的网络参数，在更新鉴别器网络参数时，固定其他网络的参数；鉴别器每更新3次，生成器与孪生编码器更新1次；

的输入，可获得生成图像，不同的随机噪声输入将生成不同的生成图像。