CN115809702B

CN115809702B - Acgan模型构建方法、图像生成方法及服装设计方法

Info

Publication number: CN115809702B
Application number: CN202211412446.6A
Authority: CN
Inventors: 鲁鸣鸣; 宁瑞鸿; 苗子阳; 熊海裕
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2023-07-11
Anticipated expiration: 2042-11-11
Also published as: CN115809702A

Abstract

本发明公开了一种ACGAN模型构建方法，包括获取目标ACGAN模型的模型结构及参数；基于K‑means算法进行预聚类；训练时，基于SoftTriple损失构建目标ACGAN模型的损失函数；得到最终构建的ACGAN模型。本发明还公开了一种包括所述ACGAN模型构建方法的图像生成方法，以及包括所述图像生成方法的服装设计方法。本发明通过对现有ACGAN模型的创新性改造和修正，不仅解决了ACGAN模型的模式崩溃问题，提高了ACGAN模型生成样本的多样性，而且可靠性更高。

Description

ACGAN模型构建方法、图像生成方法及服装设计方法

技术领域

本发明属于人工智能技术领域，具体涉及一种ACGAN模型构建方法、图像生成方法及服装设计方法。

背景技术

随着经济技术的发展和人们生活水平的提高，人工智能技术已经广泛应用于人们的生产和生活当中，给人们的生产和生活带来了无尽的便利。因此，对于人工智能技术的研究就显得尤为重要。

GAN(Generative Adversarial Network，生成对抗网络)模型是人工智能技术领域中常用的样本生成模型。解决GAN模型在样本生成阶段的模式崩溃问题，以及提高GAN模型生成样本的多样性，一直是研究人员的研究重点之一。对于普通GAN模型，多样性体现为生成样本丰富多样，互有区别；而对于CGAN(Classifier Generative AdversarialNetwork，条件生成对抗网络)模型而言，CGAN模型不仅需要生成丰富多样的样本，更需要在指定的条件下生成丰富多样的样本，这对生成样本的多样性提出了更高的要求。而且，对于CGAN模型而言，生成多样的样本更为困难，因为CGAN模型使用噪声和条件信息作为输入，相比噪声信息，条件信息为模型提供了更强的结构性先验信息，且具有比输入噪声更高的维度，因此生成器倾向于忽略噪声。

ACGAN(Auxiliary Classifier Generative Adversarial Network，辅助条件生成对抗网络)模型是CGAN模型的一种改进形式。随着近些年的研究深入，研究人员发现，ACGAN模型使用辅助分类损失作为条件约束，这会降低生成样本多样性。对于这一问题，信息瓶颈理论指出，神经网络会淘汰掉与任务无关的信息，而同类样本的差异、多样的背景等显然是与任务无关的信息，神经网络会逐步将这些信息筛除。从信息熵的角度，这可以看作熵降过程，而对于ACGAN模型，这一熵降过程会反向传播至生成器，使得生成器倾向于降低生成样本的熵，导致模式崩溃的发生。此外，这一问题还会导致模型无法做到真实性与多样性兼得；因为若希望生成样本符合给定条件，满足真实性要求，则需要有强力的条件约束，而强力的条件约束则会加重这一熵降过程，降低生成样本的多样性。因此，现有的ACGAN模型并无法保证生成样本的多样性要求。

正因为现今的ACGAN模型并无法保证生成样本的多样性要求，那么现今的ACGAN模型在图像生成应用时，就无法保证生成的图像的多样性；类似的，现今的ACGAN模型在应用到游戏动画人物的服装设计时，也无法保证生成的服装图像的多样性。

发明内容

本发明的目的之一在于提供一种能够保证生成样本的多样性要求，而且可靠性高的ACGAN模型构建方法。

本发明的目的之二在于提供一种包括所述ACGAN模型构建方法的图像生成方法。

本发明的目的之三在于提供一种包括了所述图像生成方法的服装设计方法。

本发明提供的这种ACGAN模型构建方法，包括如下步骤：

S1.获取目标ACGAN模型的模型结构及模型参数；

S2.根据步骤S1获取的模型结构及模型参数，基于K-means算法进行预聚类，从而让不同的子中心能够更好地区别同类样本中的不同模式；

S3.在进行目标ACGAN模型的训练时，基于SoftTriple损失，构建目标ACGAN模型的损失函数，从而让同类的各个子中心互相远离且增大同类样本特征向量间的距离；

S4.得到最终构建的ACGAN模型。

步骤S2所述的根据步骤S1获取的模型结构及模型参数，基于K-means算法进行预聚类，具体包括如下步骤：

对同一条件下的所有真实样本进行无监督聚类：将同类样本输入到Inception-v3中，并对输出结果进行K-means聚类；K-means聚类的结果为样本指定的子标签；

经过聚类后，具有相同子标签的样本在高维特征上特征相似，因此向相同的子中心靠拢；同时，聚类能够让高维特征接近的样本接近相同子中心，从而让高维空间能够更好地反映样本的高维特征；

在具体实施时，基于K-means算法的预聚类过程用于模型训练之前对真实样本进行预处理，将真实样本聚类并将得到的子中心作为真实样本的训练目标。

步骤S3所述的基于SoftTriple损失，构建目标ACGAN模型的损失函数，具体包括如下步骤：

真实样本进行训练时，采用指定的子中心作为训练目标；生成样本进行训练时，随机指定子中心作为训练目标；

基于SoftTriple损失，采用如下算式作为新的损失函数HardTriple：

式中λ为缩放因子；

为样本与正确标签所属中心的相似度且/>

v为样本的特征向量表示，设定每个类别有K个聚类中心，/>

为类别y的第k个聚类中心，k∈K；y_p为当前样本的所属中心的类别标签；Y为所含类别标签集；/>

为v与错误标签y的K个聚类中心相似度的加权平均且/>

k为类别y所含聚类中心的索引，γ为放大系数，/>

为类别y的第k个聚类中心；/>

表示遍历所有错误类别标签，求和变量为y，初始值为类别标签集内的第一个类别且定义为y₁，终止变量为类别标签集内的最后一个类别且定义为y_C，C为类别数量，而且求和过程要求跳过唯一的正确标签y_p；

通过加入熵正则化项来强迫子中心互相远离，从而采用如下算式作为最终的目标ACGAN模型的损失函数L：

式中τ为超参数；

表示遍历所有类别标签，求和变量为y，初始值为类别标签集内的第一个类别，终止变量为类别标签集内的最后一个类别；/>

为同类的K个子中心的两两计算距离并求和且/>

t和s均为求和变量并用于遍历同类中的所有子中心并两两求相隔距离，/>

为每次计算距离中的第一个子中心t，/>

为每次计算距离中的第二个子中心s；C为类别数量；K为同类中聚类中心的数量；L_MS为同类样本之间距离的倒数且/>

ρ为超参数，/>

为类别为y、子中心为k₁的样本，/>

为类别为y、子中心为k₂的样本，且k₁≠k₂；

能够让同类的各个子中心互相远离；L_MS能够增大同类样本特征向量间的距离。

本发明还提供了一种包括所述ACGAN模型构建方法的图像生成方法，具体包括如下步骤：

A.获取所需要采用的ACGAN模型的模型结构及模型参数；

B.将步骤A获取的ACGAN模型作为目标ACGAN模型，采用所述的ACGAN模型构建方法构建得到图像生成ACGAN模型；

C.采用步骤B得到的图像生成ACGAN模型，生成最终所需要的目标图像。

本发明还提供了一种包括所述图像生成方法的服装设计方法方法，具体包括如下步骤：

a.获取现有的动画人物的服装数据，构建动画人物服装数据集；

b.基于步骤a构建的动画人物服装数据集，采用所述的图像生成方法，生成所需要的动画人物的服装图像；

c.根据步骤b得到的动画人物的服装图像，完成对应的动画人物的服装设计。

本发明提供的这种ACGAN模型构建方法、图像生成方法及服装设计方法，通过对现有ACGAN模型的创新性改造和修正，不仅解决了ACGAN模型的模式崩溃问题，提高了ACGAN模型生成样本的多样性，而且可靠性更高。

附图说明

图1为本发明的构建方法的方法流程示意图。

图2为本发明的构建方法中现有的ACGAN模型的多中心代码示意图。

图3为本发明的构建方法中现有的基于SoftTriple的ACGAN模型的生成样本的鉴别器高维特征可视化示意图。

图4为本发明的构建方法中现有的基于SoftTriple的ACGAN模型的子中心可视化示意图。

图5为本发明的构建方法中现有的CIFAR100数据集的可视化示意图。

图6为本发明的构建方法所得到的模型与现有技术的模型的生成样本的可视化对比示意图。

图7为本发明的图像生成方法的方法流程示意图。

图8为本发明的服装设计方法的方法流程示意图。

具体实施方式

如图1所示为本发明的构建方法的方法流程示意图：本发明提供的这种ACGAN模型构建方法，包括如下步骤：

S1.获取目标ACGAN模型的模型结构及模型参数；

S2.根据步骤S1获取的模型结构及模型参数，基于K-means算法进行预聚类，从而让不同的子中心能够更好地区别同类样本中的不同模式；具体包括如下步骤：

在具体实施时，基于K-means算法的预聚类过程，用于模型训练之前对真实样本预处理，将真实样本聚类并将得到的子中心作为真实样本的训练目标；

S3.在进行目标ACGAN模型的训练时，基于SoftTriple损失，构建目标ACGAN模型的损失函数，从而让同类的各个子中心互相远离且增大同类样本特征向量间的距离；具体包括如下步骤：

式中λ为缩放因子；

为样本与正确标签所属中心的相似度且/>

v为样本的特征向量表示，设定每个类别有K个聚类中心，/>

为v与错误标签y的K个聚类中心相似度的加权平均且/>

k为类别y所含聚类中心的索引，γ为放大系数，/>

为类别y的第k个聚类中心；/>

为了防止同一类别下的子中心互相靠近，通过加入熵正则化项来强迫子中心互相远离，从而采用如下算式作为最终的目标ACGAN模型的损失函数L：

式中τ为超参数；

为同类的K个子中心的两两计算距离并求和且/>

为每次计算距离中的第一个子中心t，/>

ρ为超参数，/>

为类别为y、子中心为k₁的样本，/>

为类别为y、子中心为k₂的样本，且k₁≠k₂；

能够让同类的各个子中心互相远离；L_MS能够增大同类样本特征向量间的距离；

S4.得到最终构建的ACGAN模型。

以下说明本发明的构建方法的来源和目的：

现有的ACGAN模型在生成图像的过程会导致熵降，熵降会导致模式崩溃发生；因此可以考虑提出提供多个训练目标，以增大训练的目标的信息熵：

图2为一段关键的多中心代码示例，熵降的原因是因为分类损失要求低熵状态的输出，导致输出接近同一独热编码向量，因此一个很直觉的改进策略是增大训练目标的信息熵；为给定条件下的数据样本提供多个训练目标，以增大训练目标的信息熵；给定条件下不同模式的样本不再需要输出相同，因而可以容纳给定条件下样本的多种模式。

传统的SoftMax损失函数相当于单中心聚类，SoftTriple损失等价于改进后的归一化SoftMax与多中心策略的结合。在图像数据集CIFAR10和CIFAR100上进行实验，通过各项改进提升了CIFAR10上的生成性能，但在难度更大的CIFAR100上数据集上，模式崩溃问题并不能得到有效解决。

图3为本发明的构建方法中现有的基于SoftTriple的ACGAN模型的生成样本的鉴别器高维特征可视化示意图。图4为本发明的构建方法中现有的基于SoftTriple的ACGAN模型的子中心可视化示意图。

图4展示了SoftTriple-ACGAN前10个类别的100子中心(每个类别10个子中心)的UMAP可视化，对比图4与图3，图4中的每一个点都是图3中的聚类中心，这看起来很矛盾，由图3可以看到同类样本聚集至同一点，而图4中同类样本的10个聚类中心却并未如此。这说明多中心策略失效。

在CIFAR100的实验中，通过可视化观察，发现大部分样本向同一个子中心靠拢，多中心坍缩为单中心。问题发生的原因如下：

一方面，这是CIFAR100的复杂性导致的，CIFAR100中的标签是CIFAR10标签的进一步细化，例如CIFAR10有关车辆的标签有“汽车”、“卡车”，而CIFAR100与车辆相关类别却有10个，图5为数据集的可视化。在这样的数据集中，同类样本的差异更小，所包含的模式数量更少，而数据样本囊括更多的类别，这意味着样本空间更大。这意味着鉴别器很难有效提取样本之间的个体差异，同类样本的高维特征距离相近，会自然而然的接近多中心中的其中一个。

另一方面，基于SoftTriple的ACGAN模型削弱了分类损失的熵减效应，却没有使用实际手段增大生成样本的熵，而模式崩溃是许多原因共同造成的结果。此外，生成器需要将条件向量与公共隐分布结合，得到不同条件下的数据分布，这样的复杂性导致生成器选择无视公共隐分布，直接通过条件向量生成样本，而固定的输入导致了固定的输出，这也一定程度上导致了模式崩溃的发生。另一问题在于，基于SoftTriple的ACGAN模型试图为同类别下不同模式的样本设置不同的聚类中心，而没有采取手段约束不同模式的样本接近不同的中心。

因此，本发明的构建方法，其改进点包括K-means预聚类和损失函数两部分。本发明通过措施来防止多中心失效；多中心的目的是让同一类别中不同模式的样本可以接近不同的子中心，原因在于不同的子中心代表了同类样本的不同模式，在模型训练时，模型就不至因分类损失而只生成单一模式的样本。为了让模型生成不同模式的样本，本发明对此过程进行优化。

以下结合实施例，对本发明方法进行进一步说明：

本实施例主要展示了完整的多中心改进策略(即本发明的构建方法得到的模型)和三种基线方法在CIFAR100和CIFAR10上的条件生成性能。

实验给出了生成样本的FID评估，对3次实验取平均值。具体对比数据表1和表2所示：

表1CIFAR100生成效果评估对比示意表

模型	FID指标
		ACGAN模型	85.6
Rebooting-ACGAN模型	27.9
		本发明基于ACGAN模型构建的模型	26.4
MS-ACGAN模型	31.0
		本发明基于MS-ACGAN模型构建的模型	24.5
PDPM-ACGAN模型	31.1
		本发明基于PDPM-ACGAN模型构建的模型	20.4

表2CIFAR10生成效果评估示意表

模型	FID指标
		本发明基于ACGAN模型构建的模型	44.2

从表1可以看到，本发明基于ACGAN模型构建的模型可以有效解决模式崩溃问题，并且效果好于MS-ACGAN模型。本发明基于MS-ACGAN模型构建的模型和本发明基于PDPM-ACGAN模型构建的模型的实验结果表明，本发明的方法在具备良好效果的同时也具备很好的兼容能力。将本发明的改进模型再次应用于CIFAR10数据集，从表2可以看到本发明基于ACGAN模型构建的模型进一步提升了生成样本质量。

为了验证本发明方法的有效性，对第29个轮次(FID最低)的模型进行可视化，如图6所示。图6(a)为真实样本的可视化示意图，图6(b)为本发明基于ACGAN模型构建的模型的真实样本的鉴别器高维特征可视化示意图，图6(c)为本发明基于ACGAN模型构建的模型的生成样本可视化示意图，图6(d)为本发明基于ACGAN模型构建的模型的生成样本的鉴别器高维特征可视化示意图。观察图6(b)，可以看到此时(第29个轮次)鉴别器的分类功能还没训练完善。由图6(c)，可以看到此时生成样本有较好的多样性，同时生成样本可视化结果不像MSGAN连成一条直线，这说明本发明的改进方法可以在多个维度上提升生成样本的多样性。根据图6(c)，生成的样本的低维可视化看起来互相混杂，但由图6(d)，可以看到同类生成样本具备共性，这意味着样本在保留多样性的同时满足了条件要求。

如图7所示为本发明的图像生成方法的方法流程示意图：本发明提供的这种包括所述ACGAN模型构建方法的图像生成方法，具体包括如下步骤：

A.获取所需要采用的ACGAN模型的模型结构及模型参数；

步骤B所述的ACGAN模型构建方法，包括如下步骤：

B1.获取目标ACGAN模型的模型结构及模型参数；

B2.根据步骤B1获取的模型结构及模型参数，基于K-means算法进行预聚类，从而让不同的子中心能够更好地区别同类样本中的不同模式；

B3.在进行目标ACGAN模型的训练时，基于SoftTriple损失，构建目标ACGAN模型的损失函数，从而让同类的各个子中心互相远离且增大同类样本特征向量间的距离；

B4.得到最终构建的ACGAN模型。

步骤B2所述的根据步骤B1获取的模型结构及模型参数，基于K-means算法进行预聚类，具体包括如下步骤：

步骤B3所述的基于SoftTriple损失，构建目标ACGAN模型的损失函数，具体包括如下步骤：

式中λ为缩放因子；

为样本与正确标签所属中心的相似度且/>

v为样本的特征向量表示，设定每个类别有K个聚类中心，/>

为v与错误标签y的K个聚类中心相似度的加权平均且/>

k为类别y所含聚类中心的索引，γ为放大系数，/>

为类别y的第k个聚类中心；/>

式中τ为超参数；

为同类的K个子中心的两两计算距离并求和且/>

为每次计算距离中的第一个子中心t，/>

ρ为超参数，/>

为类别为y、子中心为k₁的样本，/>

为类别为y、子中心为k₂的样本，且k₁≠k₂；

如图8所示为本发明的服装设计方法的方法流程示意图：本发明提供的这种包括所述图像生成方法的服装设计方法，具体包括如下步骤：

步骤b所述的图像生成方法，具体包括如下步骤：

b1.获取所需要采用的ACGAN模型的模型结构及模型参数；

b2.将步骤b1获取的ACGAN模型作为目标ACGAN模型，采用所述的ACGAN模型构建方法构建得到图像生成ACGAN模型；

b3.采用步骤b2得到的图像生成ACGAN模型，生成最终所需要的目标图像。

步骤b2所述的ACGAN模型构建方法，包括如下步骤：

b21.获取目标ACGAN模型的模型结构及模型参数；

b22.根据步骤b21获取的模型结构及模型参数，基于K-means算法进行预聚类，从而让不同的子中心能够更好地区别同类样本中的不同模式；

b23.在进行目标ACGAN模型的训练时，基于SoftTriple损失，构建目标ACGAN模型的损失函数，从而让同类的各个子中心互相远离且增大同类样本特征向量间的距离；

b24.得到最终构建的ACGAN模型。

步骤b22所述的根据步骤b21获取的模型结构及模型参数，基于K-means算法进行预聚类，具体包括如下步骤：

步骤b23所述的基于SoftTriple损失，构建目标ACGAN模型的损失函数，具体包括如下步骤：

式中λ为缩放因子；

为样本与正确标签所属中心的相似度且/>

v为样本的特征向量表示，设定每个类别有K个聚类中心，/>

为v与错误标签y的K个聚类中心相似度的加权平均且/>

k为类别y所含聚类中心的索引，γ为放大系数，/>

为类别y的第k个聚类中心；/>

式中τ为超参数；

为同类的K个子中心的两两计算距离并求和且/>

为每次计算距离中的第一个子中心t，/>

ρ为超参数，/>

为类别为y、子中心为k₁的样本，/>

为类别为y、子中心为k₂的样本，且k₁≠k₂；

本发明所提供的这种服装设计方法，可以快速应用到现有的动画人物的服装设计上；通过本发明提供的这种服装设计方法，能够快速为动画从业人员设计出符合角色的服装图像，从而辅助动画从业人员进行快速的人物服装设计以及后续的服装建模、人物建模等工作。