CN113408673A

CN113408673A - 生成对抗网络子空间解耦和生成编辑方法、系统及计算机

Info

Publication number: CN113408673A
Application number: CN202110951963.XA
Authority: CN
Inventors: 李波; 邓述海; 何志芬; 刘奋成; 赵旭
Original assignee: Nanchang Hangkong University; Lenovo New Vision Nanchang Artificial Intelligence Industrial Research Institute Co Ltd
Current assignee: Nanchang Hangkong University; Lenovo New Vision Nanchang Artificial Intelligence Industrial Research Institute Co Ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-09-17
Anticipated expiration: 2041-08-19
Also published as: CN113408673B

Abstract

本发明提供了一种生成对抗网络子空间解耦和生成编辑方法、系统及计算机，该方法包括：选择网络并生成图片；通过预训练的分类器得到图像标签，并将生成的图片输入至预设属性分类网络，以得到图片的属性标签数据；对单独属性子空间进行粗拟合，并分别使用一个高斯分布来拟合具有同一属性的隐空间向量；对整个隐空间多属性进行解耦聚类，并使用一个高斯混合分布对整个隐空间进行拟合，以使各个高斯分量对语义空间进行解耦；通过解耦空间对生成的语义进行编辑。通过上述方式能够在潜在空间中彻底分析出图像语义的特性，并能够在不重新训练模型的情况下，真实地处理合成图像中出现的各种属性，消除了使用的局限性。

Description

生成对抗网络子空间解耦和生成编辑方法、系统及计算机

技术领域

本发明涉及数据处理技术领域，特别涉及一种生成对抗网络子空间解耦和生成编辑方法、系统及计算机。

背景技术

近些年来，生成对抗网络（GANs）在生成高保真图片中取得了巨大的成功，其中，GANs学习能够随机分布映射到真实数据观测中，然后从随机采样的潜码中生成逼真的图像，从而在人脸识别、检测以及图像编辑上都具有重大意义。

现有的生成对抗网络子空间解耦和生成编辑方法主要有三类：(1)基于无监督的隐空间主成分分析法，其通过对隐空间样本作主成分分析，然后人工操作寻找各个主成分所对应的语义属性；(2)弱监督微调网络的rewriting方法，其通过少量标记位置的样本数据，通过投影定位找到控制标记位置属性的网络参数，然后通过优化该部分参数来拟合生成目标图片；(3)支持向量机的interfaceGAN，其通过支持向量机找寻隐空间中每个语义属性的分割超平面，以超平面对应法向量为控制对应属性的方向向量，该方法只能找到线性的二值属性，如果颜色属性超过2种结果，就不能进行控制。

然而，上述方法只能处理合成图像中的单一属性，使用的局限性较大，不利于大规模的推广与使用。

发明内容

基于此，本发明的目的是提供一种生成对抗网络子空间解耦和生成编辑方法、系统及计算机，以解决现有技术只能处理合成图像中的单一属性，导致使用局限性较大的问题。

第一方面，本发明一实施例提出了一种生成对抗网络子空间解耦和生成编辑方法，所述方法具体包括以下步骤：

选择网络并生成图片；

通过预训练的分类器得到图像标签，并将生成的图片输入至预设属性分类网络，以得到所述图片的属性标签数据；

对单独属性子空间进行粗拟合，并分别使用一个高斯分布来拟合具有同一属性的隐空间向量；

对整个隐空间多属性进行解耦聚类，并使用一个高斯混合分布对整个隐空间进行拟合，以使各个高斯分量对语义空间进行解耦；

通过解耦空间对生成的语义进行编辑。

本发明的有益效果是：通过使用预训练的分类器得到具有监督信息的语义标签，并通过高斯混合模型对生成对抗网络的隐空间进行细致的语义解耦，再利用上述生成对抗网络强大的生成能力对语义生成的图片进行可控编辑。通过上述方式能够在潜在空间中彻底分析出图像语义的特性，并在识别出相应潜在语义的子空间后，能够在不重新训练模型的情况下，真实地处理合成图像中出现的各种属性，同时具有速度快、控制连续精确的特点，适用于多种数据集训练下的多种结构的对抗生成网络的子空间解耦和生成编辑，消除了使用的局限性，有利于大规模的推广与使用。

优选的，所述选择网络并生成图片的步骤包括：

选择预训练的生成对抗网络，并通过所述生成对抗网络指定隐空间的采样方式来采样得到所述隐空间的变量样本第一code；

将所述第一code依次输入至预设的生成网络中，以得到和所述第一code一一对应的生成图像。

优选的，所述通过预训练的分类器得到图像标签的步骤包括：

根据所述分类器的训练数据的图像空间以及所需要解耦的语义空间，以选择出对应的图像语义分类器；

将所述图片输入至所述语义分类器中，以得到所述图片对应的标签数据向量，所述标签数据向量的维度数为语义的类别数，取值范围为[0，1]。

优选的，所述对单独属性子空间进行粗拟合的步骤包括：

构建单一高斯模型并针对每类语义分别使用一个高斯分布模型，以构建出归一化的似然函数；

通过所述高斯模型初步拟合一个隐变量语义子空间，并使所述第一code的似然函数值和所述标签数据作均方差以构建损失函数；

通过所述损失函数对所述高斯模型以及所述似然函数进行Adam算法优化，以得到一组在隐空间具有一定语义信息的高斯模型组。

优选的，所述对整个隐空间多属性进行解耦聚类的步骤包括：

将获取到的所述高斯模型组作为初始组件以构建第一高斯混合模型；

通过归一化似然函数与所述标签数据的均方差损失函数和通过从所述第一高斯混合模型中采样并重构图片的标签数据与采样系数构建L1损失函数；

通过所述L1损失函数对所述第一高斯混合模型进行Adam算法优化，以得到第二高斯混合模型；

通过所述第二高斯混合模型中的每个高斯组件一一对应所述隐空间中的每个语义子空间。

优选的，所述通过解耦空间对生成的语义进行编辑的步骤包括：

在获取到的所述第二高斯混合模型的各个高斯组件中采集属性控制向量zs；

对任意生成器生成的图片的第一code和所述zs进行插值，以得到第二code；

将所述第二code输入至所述生成器中，以根据所述zs的插值比例得到连续属性编辑的图片。

第二方面，本发明一实施例提出了一种生成对抗网络子空间解耦和生成编辑系统，所述系统具体包括：

选择模块，用于选择网络并生成图片；

传输模块，用于通过预训练的分类器得到图像标签，并将生成的图片输入至预设属性分类网络，以得到所述图片的属性标签数据；

第一拟合模块，用于对单独属性子空间进行粗拟合，并分别使用一个高斯分布来拟合具有同一属性的隐空间向量；

第二拟合模块，用于对整个隐空间多属性进行解耦聚类，并使用一个高斯混合分布对整个隐空间进行拟合，以使各个高斯分量对语义空间进行解耦；

编辑模块，用于通过解耦空间对生成的语义进行编辑。

其中，上述生成对抗网络子空间解耦和生成编辑系统中，所述选择模块具体用于：

其中，上述生成对抗网络子空间解耦和生成编辑系统中，所述传输模块具体用于：

其中，上述生成对抗网络子空间解耦和生成编辑系统中，所述第一拟合模块具体用于：

其中，上述生成对抗网络子空间解耦和生成编辑系统中，所述第二拟合模块具体用于：

其中，上述生成对抗网络子空间解耦和生成编辑系统中，所述编辑模块具体用于：

第三方面，本发明一实施例提出了一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上面所述的生成对抗网络子空间解耦和生成编辑方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明第一实施例提供的生成对抗网络子空间解耦和生成编辑方法的流程图；

图2为本发明第二实施例提供的生成对抗网络子空间解耦和生成编辑方法的流程图；

图3为本发明第三实施例提供的生成对抗网络子空间解耦和生成编辑系统的结构框图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

现有的图片处理方法只能处理合成图像中的单一属性，使用的局限性较大，不利于大规模的推广与使用。

请参阅图1，所示为本发明第一实施例提供的生成对抗网络子空间解耦和生成编辑方法，其中，本发明提供的生成对抗网络模型是能够生成高质量图片的预训练模型，其图像目标只能有单一的目标物体（如：对于生成人脸的模型，图片上只能有一张脸），目标大小要超过整张图片像素的60%，背景颜色尽量单调。

具体的：该生成对抗网络子空间解耦和生成编辑方法具体包括以下步骤：

步骤S10，选择网络并生成图片；

具体的，在本实施例中，首先选择一个已经训练好的，并且能够生成高质量图片的生成对抗网络（只需要生成器）。

进一步的，通过该生成对抗网络在其内部的生成网络中对应生成图片。

步骤S20，通过预训练的分类器得到图像标签，并将生成的图片输入至预设属性分类网络，以得到所述图片的属性标签数据；

在本实施例中，需要选择出对应图像空间和属性的语义分类器，来获得图片的语义标签。具体的，根据所选生成器的训练数据的图像空间，以及所需要解耦的语义空间来选择出一个训练好的语义分类器f。

再通过预训练的分类器得到图像标签，并将生成的图片输入至预设属性分类网络，以得到所述图片的属性标签数据。

步骤S30，对单独属性子空间进行粗拟合，并分别使用一个高斯分布来拟合具有同一属性的隐空间向量；

需要说明的是，在本实施例中，利用高斯模型对单独属性子空间进行粗拟合，并分别使用一个高斯分布来拟合具有同一属性的隐空间向量。

步骤S40，对整个隐空间多属性进行解耦聚类，并使用一个高斯混合分布对整个隐空间进行拟合，以使各个高斯分量对语义空间进行解耦；

步骤S50，通过解耦空间对生成的语义进行编辑。

使用时，通过使用预训练的分类器得到具有监督信息的语义标签，并通过高斯混合模型对生成对抗网络的隐空间进行细致的语义解耦，再利用上述生成对抗网络强大的生成能力对语义生成的图片进行可控编辑。通过上述方式能够在潜在空间中彻底分析出图像语义的特性，并在识别出相应潜在语义的子空间后，能够在不重新训练模型的情况下，真实地处理合成图像中出现的各种属性，同时具有速度快、控制连续精确的特点，适用于多种数据集训练下的多种结构的对抗生成网络的子空间解耦和生成编辑，消除了使用的局限性，有利于大规模的推广与使用。

需要说明的是，上述的实施过程只是为了说明本申请的可实施性，但这并不代表本申请的生成对抗网络子空间解耦和生成编辑方法只有上述唯一一种实施流程，相反的，只要能够将本申请的生成对抗网络子空间解耦和生成编辑方法实施起来，都可以被纳入本申请的可行实施方案。

综上，本发明上述实施例当中的生成对抗网络子空间解耦和生成编辑方法能够在潜在空间中彻底分析出图像语义的特性，并在识别出相应潜在语义的子空间后，能够在不重新训练模型的情况下，真实地处理合成图像中出现的各种属性，同时具有速度快、控制连续精确的特点，适用于多种数据集训练下的多种结构的对抗生成网络的子空间解耦和生成编辑，消除了使用的局限性，有利于大规模的推广与使用。

请参阅图2，所示为本发明第二实施例提供的生成对抗网络子空间解耦和生成编辑方法

步骤S11，选择预训练的生成对抗网络，并通过所述生成对抗网络指定隐空间的采样方式来采样得到所述隐空间的变量样本第一code；将所述第一code依次输入至预设的生成网络中，以得到和所述第一code一一对应的生成图像。

在本实施例中，需要说明的是，首先会选择出一个训练好的，并且能够生成高质量图片的生成对抗网络（只需要生成器），进一步的，通过使用该生成对抗网络指定的隐空间的采样方式来采样得到上述隐空间中的变量样本第一code，并用z表示；

更进一步的，将上述z依次输入到已经选好的生成网络G中，以得到和上述z一一对应的生成图片I，其中，I = G(z)。

步骤S21，根据所述分类器的训练数据的图像空间以及所需要解耦的语义空间，以选择出对应的图像语义分类器；将所述图片输入至所述语义分类器中，以得到所述图片对应的标签数据向量，所述标签数据向量的维度数为语义的类别数，取值范围为[0，1]。

在本实施例中，需要选择出对应图像空间和属性的语义分类器，来获得上述图片的语义标签，其具体实施过程如下：

首先根据步骤S11中所选的生成器的训练数据中的图像空间，以及所需要解耦的语义空间来选择出已经训练好的图像语义分类器f。

进一步的，将步骤S11中的图片I一一输入到该语义分类器f中，以得到图片对应的标签数据向量L，其中，L =f（I），具体的，该向量的维度为语义的类别数，且取值范围为[0，1]。

步骤S31，构建单一高斯模型并针对每类语义分别使用一个高斯分布模型，以构建出归一化的似然函数；通过所述高斯模型初步拟合一个隐变量语义子空间，并使所述第一code的似然函数值和所述标签数据作均方差以构建损失函数；通过所述损失函数对所述高斯模型以及所述似然函数进行Adam算法优化，以得到一组在隐空间具有一定语义信息的高斯模型组。

具体的，在本实施例中，获取步骤S21中的图片的标签数据L，再利用高斯模型拟合对隐空间的语义子空间进行拟合，具体实施过程如下：

首先构建单一高斯模型，具体的，针对每类语义，分别使用一个高斯分布模型P(z)，并构建一个归一化的似然函数||*||。

进一步的，构建损失函数，具体的，使用上述高斯模型初步拟合一个隐变量语义子空间，并使用上述归一化似然函数值||P(z)||和上述步骤S21得到的标签数据L作为均方差以得到损失函数。

更进一步的，对上述高斯模型优化，具体的，通过上述损失函数并利用Adam算法来优化上述高斯模型，从而能够得到一组在隐空间具有一定语义信息的高斯模型组。

步骤S41，将获取到的所述高斯模型组作为初始组件以构建第一高斯混合模型；通过归一化似然函数与所述标签数据的均方差损失函数和通过从所述第一高斯混合模型中采样并重构图片的标签数据与采样系数构建L1损失函数；通过所述L1损失函数对所述第一高斯混合模型进行Adam算法优化，以得到第二高斯混合模型；通过所述第二高斯混合模型中的每个高斯组件一一对应所述隐空间中的每个语义子空间。

在本实施例中，需要说明的是，首先需要构建高斯混合模型，具体的，利用上述步骤S31得到的高斯模型组作为高斯混合模型的初始组件并构建第一高斯混合模型，该初始组件的权重参数为1/n，其中，n为组件数量。

进一步的，构建损失函数，具体的，通过使用步骤S31获取到的归一化似然函数与标签数据L的均方差的损失函数，和通过从上述第一高斯混合模型中采样并重构图片的标签数据与采样的系数构建L1损失函数。

更进一步的，优化高斯混合模型，具体的，对上述第一高斯混合模型使用上述L1损失函数，并且通过Adam算法来优化上述第一高斯混和模型，以得到第二高斯混合模型。

最后进行语义解耦，具体的，将获取到的第二高斯混合模型中的每个高斯组件分别对应上述隐空间中的每个语义子空间。

步骤S51，在获取到的所述第二高斯混合模型的各个高斯组件中采集属性控制向量zs；对任意生成器生成的图片的第一code和所述zs进行插值，以得到第二code；将所述第二code输入至所述生成器中，以根据所述zs的插值比例得到连续属性编辑的图片。

具体的，首先进行属性变量采样，利用上述步骤S41得到的第二高斯混合模型中的各个高斯组件中的采样属性来控制向量zs。

进一步的，进行可控编辑，具体的，对任意一张该生成器生成的图片，通过对该图片对应的第一code和上述zs进行插值以得到第二code，并将第二code输入到上述生成器中，则会根据上述zs的插值比例得到属性编辑的图片。

通过上述方法能够实现对人脸图片的微笑、性别、刘海和年龄的语义属性编辑，并且本方法进行语义编辑时各语义属性之间的解耦程度大，即对某种属性编辑时，只改变图片的目标属性，而不会有其他属性的变化。

需要指出的是，本发明第二实施例所提供的方法，其实现原理及产生的一些技术效果和第一实施例相同，为简要描述，本实施例未提及之处，可参考第一实施例中相应内容。

请参阅图3，所示为本发明第三实施例提供的生成对抗网络子空间解耦和生成编辑系统，该系统具体包括：

选择模块12，用于选择网络并生成图片；

传输模块22，用于通过预训练的分类器得到图像标签，并将生成的图片输入至预设属性分类网络，以得到所述图片的属性标签数据；

第一拟合模块32，用于对单独属性子空间进行粗拟合，并分别使用一个高斯分布来拟合具有同一属性的隐空间向量；

第二拟合模块42，用于对整个隐空间多属性进行解耦聚类，并使用一个高斯混合分布对整个隐空间进行拟合，以使各个高斯分量对语义空间进行解耦；

编辑模块52，用于通过解耦空间对生成的语义进行编辑。

其中，上述生成对抗网络子空间解耦和生成编辑系统中，所述选择模块12具体用于：

其中，上述生成对抗网络子空间解耦和生成编辑系统中，所述传输模块22具体用于：

其中，上述生成对抗网络子空间解耦和生成编辑系统中，所述第一拟合模块32具体用于：

其中，上述生成对抗网络子空间解耦和生成编辑系统中，所述第二拟合模块42具体用于：

其中，上述生成对抗网络子空间解耦和生成编辑系统中，所述编辑模块52具体用于：

本发明第四实施例提供了一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一实施例或者第二实施例提供的生成对抗网络子空间解耦和生成编辑方法。

综上所述，本发明上述实施例当中的生成对抗网络子空间解耦和生成编辑方法、系统及计算机能够在潜在空间中彻底分析出图像语义的特性，并在识别出相应潜在语义的子空间后，能够在不重新训练模型的情况下，真实地处理合成图像中出现的各种属性，同时具有速度快、控制连续精确的特点，适用于多种数据集训练下的多种结构的对抗生成网络的子空间解耦和生成编辑，消除了使用的局限性，有利于大规模的推广与使用。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种生成对抗网络子空间解耦和生成编辑方法，其特征在于，所述方法具体包括以下步骤：

选择网络并生成图片；

通过预训练的分类器得到图像标签，并将生成的所述图片输入至预设属性分类网络，以得到所述图片的属性标签数据；

通过解耦空间对生成的语义进行编辑。

2.根据权利要求1所述的生成对抗网络子空间解耦和生成编辑方法，其特征在于：所述选择网络并生成图片的步骤包括：

3.根据权利要求2所述的生成对抗网络子空间解耦和生成编辑方法，其特征在于：所述通过预训练的分类器得到图像标签的步骤包括：

4.根据权利要求3所述的生成对抗网络子空间解耦和生成编辑方法，其特征在于：所述对单独属性子空间进行粗拟合的步骤包括：

5.根据权利要求4所述的生成对抗网络子空间解耦和生成编辑方法，其特征在于：所述对整个隐空间多属性进行解耦聚类的步骤包括：

6.根据权利要求5所述的生成对抗网络子空间解耦和生成编辑方法，其特征在于：所述通过解耦空间对生成的语义进行编辑的步骤包括：

7.一种生成对抗网络子空间解耦和生成编辑系统，其特征在于，所述系统具体包括：

选择模块，用于选择网络并生成图片；

编辑模块，用于通过解耦空间对生成的语义进行编辑。

8.根据权利要求7所述的生成对抗网络子空间解耦和生成编辑系统，其特征在于：所述选择模块具体用于：

9.根据权利要求7所述的生成对抗网络子空间解耦和生成编辑系统，其特征在于：所述传输模块具体用于：

10.一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任意一项所述的生成对抗网络子空间解耦和生成编辑方法。