CN115797503A

CN115797503A - 一种基于隐空间操作和文本引导的自适应图像编辑方法

Info

Publication number: CN115797503A
Application number: CN202211267694.6A
Authority: CN
Inventors: 邓成; 潘思多; 张兹琪; 魏坤; 杨旭
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2023-03-14

Abstract

本发明提供的一种基于隐空间操作和文本引导的自适应图像编辑方法，将待编辑图像输入至训练好的自适应方向隐空间映射ADLM网络，通过对图像自适应的逐信道组操作，可以提高图像编辑的效率，此外通过利用多模态融合网络的语义一致性损失，强制对齐预估编辑图像与对应的历史图像之间的差异值，与给定的描述文本的语义变化方向，以实现精确对齐图像属性与文本提示之间的一致性关系，确保ADLM网络对待编辑图像进行逐信道组操作的精确属性解耦，同时提出基于离散空间频率的重建损失，用于保留图像的不相关部分，从而确保编辑过程与文本提示不相关的部分在编辑时不被修改，以提高输出预估编辑图像的完整性。

Description

一种基于隐空间操作和文本引导的自适应图像编辑方法

技术领域

本发明属于图像编辑技术领域，具体涉及一种基于隐空间操作和文本引导的自适应图像编辑方法。

背景技术

图像编辑是一种通过修饰图像从而实现用户需求的编辑技术，为了保证被编辑的图像满足要求和兴趣，图像编辑任务同时应对两个挑战：(1)编辑相关性：根据给定条件精确编辑相关属性；(2)保持不相关性：不相关的部分(如标识信息、背景或其他属性)在编辑时不可以修改。由于属性的强耦合，同时满足这两个要求是一项棘手的任务。

针对上述问题，近年来的各种方法大多以两种方式探讨属性解耦的问题。Jeong-gi Kwak和David K Han等人在2020年的European Conference on Computer Vision会议上发表的名为“Cafe-gan：Arbitrary face attribute editing with complementaryattention feature”的文章，文章采用空间注意力检测的方式，通过在空间上搜索特定的支持区域来解耦属性，只在这样一个有限的区域内对图像进行操作。显然，当编辑的属性是全局属性时，这些方法可能会忽略支持区域之外必要的细节，比如“化妆”或“年龄”。YujunShen和Jinjin Gu等人在2020年的Computer Vision and Pattern Recognition会议上发表的名为“Interpreting the latent space of gans for semantic face editing”的文章，通过预训练GAN进行隐空间分解。这类方法以高级语义为指导，在隐空间中对图像进行处理，更适合处理全局和局部属性编辑。然而，由于语义的过度耦合，这些方法在没有强有力的监督的情况下很难对特定的属性进行操作，因此上述图像编辑方法并不能满足客户需求。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于隐空间操作和文本引导的自适应图像编辑方法。本发明要解决的技术问题通过以下技术方案实现：

本发明提供的一种基于隐空间操作和文本引导的自适应图像编辑方法，包括：

步骤1，获取历史图像组成的训练样本集，并为每张历史图像增加用于描述图像属性的描述文本；

步骤2，提取每张历史图像的图像特征，并对所述图像特征进行多风格的反演编码，获得每张历史图像的隐向量；

步骤3，将所述每张历史图像的隐向量输入至已构建的自适应方向隐空间映射ADLM网络，以使ADLM网络将执行下述过程：

将所述每张历史图像的隐向量分为g个信道组；将每个信道组的隐向量隐射至W+空间，获得解耦的不同属性特征；计算每个属性特征的范数并从大到小进行排序，选择范数排序在前k个信道组对应的目标属性特征，对所述目标属性特征进行隐层操作，在隐层操作之后与每个信道组未映射之前的隐向量作残差处理，并通过监督学习的方式，输出每张历史图像的预估编辑图像；

步骤4，利用多模态融合网络，根据每张预估编辑图像与对应历史图像之间的差异值，计算给定的描述文本与差异值的语义一致性损失以及每张历史图像与预估编辑图像之间的重建损失，并按照使得所述语义一致性损失以及所述重建损失减少的方向，调整所述ADLM网络的参数以训练所述ADLM网络，直至达到训练截止条件，获得训练好的ADLM网络；

步骤5，基于所述训练好的ADLM网络，对待编辑的图像进行编辑预估，获得满足客户需求的编辑图像。

本发明提供的一种基于隐空间操作和文本引导的自适应图像编辑方法，将待编辑图像输入至训练好的自适应方向隐空间映射ADLM网络，通过对图像自适应的逐信道组操作，可以提高图像编辑的效率，此外通过利用多模态融合网络的语义一致性损失，强制对齐预估编辑图像与对应的历史图像之间的差异值，与给定的描述文本的语义变化方向，以实现精确对齐图像属性与文本提示之间的一致性关系，确保ADLM网络对待编辑图像进行逐信道组操作的精确属性解耦，同时提出基于离散空间频率的重建损失，用于保留图像的不相关部分，从而确保编辑过程与文本提示不相关的部分在编辑时不被修改，以提高输出预估编辑图像的完整性。以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于隐空间操作和文本引导的自适应图像编辑方法的流程示意图；

图2是本发明实施例提供的自适应方向隐空间映射(ADLM)网络的示意图；

图3是本发明实施例提供的自适应方向隐空间映射示意图；

图4是本发明实施例提供的相反语义方向操作的定性结果图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本发明提供的一种基于隐空间操作和文本引导的自适应图像编辑方法包括：

值得说明的是：本发明可以根据用户需求去获取图像，假设用户需求是人脸图像的编辑，则本申请在实际中可以采用CelebA-HQ数据集中的30000个训练样本，如果用户需求为背景图像，本发明可以LSUN Church数据集中的126527个训练样本。如果用户需求为其他图像，则可以从设备中获取所需图像，作为历史图像，实现编辑图像的预估。

值得说明的是：将编码器记作E，输入是历史图像，即指定图像x，输出是N个风格编码E(x)＝(w⁰,w¹,…w^N-1)，N就是StyleGAN中的风格调制层的数目，该空间记作W+空间。

所述ADLM网络包括依次连接的图像特征映射模块、自适应选择模块以及图像生成模块；

本发明中将所述每张历史图像映射到W+空间中，得到隐向量。并将所述隐向量输入到所述图像特征映射模块中，以使所述图像特征映射模块将所述每张历史图像的隐向量分为g个信道组，获得解耦的不同属性特征；并将不同属性特征输入至所述自适应选择模块，以使自适应选择模块通过计算每个信道组的对应的属性特征的范数，并根据所计算的范数大小对信道组从大到小进行排序，选择范数排序在前k个信道组对应的目标属性特征，对所述目标属性特征进行隐层操作，在隐层操作之后与每个信道组未映射之前的隐向量作残差处理，得到最终操纵的隐向量，将所述最终操纵的隐向量输入至所述图像生成模块，以使图像生成模块通过监督学习的方式，输出每张历史图像的预估编辑图像。

所述图像特征映射模块由分配层以及隐向量映射层构成，

所述分配层，用于将每张历史图像的隐向量w分成g个信道组，并将每个信道组的隐向量输入至所述隐向量映射层；

其中，w＝[w₁,w₂,…,w_g]；

所述隐向量映射层，用于将每个信道组的隐向量隐射至W+空间，获得目标属性特征，并将所有属性特征执行concat操作，获得解耦后的每张历史图像的隐向量。

隐向量映射层使用g个全连接网络作为隐层映射模块，将前面得到的图像特征隐向量映射到W+空间中。每一个隐向量对于对应的组都是唯一的，这样就得到根据属性解耦后的属性特征，将不同信道组的属性特征进行concat操作，就得到解耦后整个图像的隐向量表示。解耦后整个图像的隐向量为：

w^*＝[M₁(w₁),M₂(w₂),…,M_g(w_g)]

式中，M_i为第i个隐向量映射层，[·,·]表示concat操作。

所述自适应选择模块由权重计算层、信道选择层以及残差连接层组成；

所述权重计算层，用于计算每个信道组对应的属性特征的范数，将计算结果输入所述信道选择层；计算w^*的L₁范数，用来表示每个权重对应通道的重要性；

为了过滤w^*中不必要的操作，所述信道选择层，用于选择范数从大到小排序在前k个信道组对应的目标属性特征，对所述目标属性特征进行隐层操作，并将其余信道组的隐向量置零，获得每个信道组的操作隐向量，将所述操作隐向量输入至所述残差连接层；

操作隐向量为：

所述残差连接层，用于每个信道组的操作隐向量的与每个信道组未映射之前的隐向量作残差处理，得到最终操纵的隐向量，并将所述最终操纵的隐向量输入至所述图像生成模块。

最终操纵的隐向量为：

本发明的所述图像生成模块由生成器和判别器组成；

所述生成器，用于输入所述最终操纵的隐向量，输出每张历史图像对应的预估编辑图像，将预估编辑图像输入至判别器中；

所述判别器，用于输入每张历史图像的描述文本以及预估编辑图像，计算描述文本与预估编辑图像的相似度，判别预估编辑图像与描述文本的内容是否一致从而反馈至所述生成器，监督生成器重新生成与描述文本一致的预估编辑图像。

值得说明的是：利用在Imagenet数据集上预训练的StyleGANv2生成器G，并固定它在预训练过程中的权重参数，将最终操纵的隐向量送到生成器中，获得编辑后的图像

判别器将CLIP提取的文本特征以及经

映射到隐空间，计算预估编辑图像和描述文本之间的相似度，判别生成的预估编辑图像与文本提示内容是否一致，即生成损失：

其中，D是距离度量，G是预训练的StyleGANv2生成器，生成器与判别器构成了生成对抗网络，它们之间互相博弈，通过优化

可以确保合成图像与期望的要求相匹配。

步骤4，利用多模态融合网络，根据每张预估编辑图像与对应历史图像之间的差异值以及描述文本，在描述文本引导下计算语义一致性损失，并按照使得所述语义一致性损失以及所述重建损失减少的方向，调整所述ADLM网络的参数以训练所述ADLM网络，直至达到训练截止条件，获得训练好的ADLM网络；

参考图2，所述多模态融合网络由多模态特征提取器、语义损失层以及频率重建层组成；

所述多模态特征提取器，用于提取每个历史图像的视觉语义特征、每个描述文本的文本语义特征以及对应的预估编辑图像的视觉语义特征，并将提取到的所有特征输入至所述语义损失层；

所述语义损失层，用于计算每个预估编辑图像与对应的历史图像的视觉语义特征的差异值，并计算该差异值与每个描述文本的文本语义特征的语义方向一致性损失；

参考图3，编辑的所需属性由文本提示t确定，语义损失层使用预训练的CLIP模型作为隐层操纵引导器。对于给定的图像x和文本t，通过利用集成在CLIP中的预训练多模态特征提取器E来提取视觉语义特征y_i＝E_I(x)和文本语义特征y_t＝E_T(t)。编辑后的图像

的语义特征可以由

表示。多模态融合网络希望优化后

和y_t尽可能接近。然而，在隐层空间中，简单地优化它们之间的匹配度可能会导致不相关属性发生变化。因此强制

和y_i之间的变化方向与yt对齐，并提出语义方向一致性损失。语义方向一致性损失由下式给出：

其中S(·,·)是相似性度量，在这里，使用高效的余弦相似度作为度量方式。描述文本为预估编辑图像与每个历史图像的视觉语义特征对齐过程，起到引导作用。

所述频率重建层，用于使用快速傅立叶变换(FFT)将每张历史图像以及对应的预估编辑图像映射到傅立叶谱空间，将映射至傅立叶谱空间后的每张历史图像以及对应的预估编辑图像分别从复数域转换为实数域，并分别计算实数域的每张历史图像的对数以及与对应预估编辑图像的对数，求取每张历史图像的对数与预估编辑图像在傅里叶谱空间的重建损失。

为了保留与文本提示不相关部分，频率重建层使用傅里叶空间中的重构损失，称为傅里叶频率重构(FFR)损失。对于尺寸为H×W的二维图像x，本发明使用快速傅立叶变换(FFT)将x映射到傅立叶谱空间：

其中a＝0,…,H-1,b＝0,…W-1。为了便于后处理，我们将F从复数域转换为实数域。本发明采用对数来稳定训练：

其中∈＝1×10^-8是为数值稳定性添加的超参数；Re和Im分别表示

的实部和虚部。

傅立叶频谱中的每个点将根据离散空间频率利用来自所有像素的信息，该离散空间频率将表示全局水平上的频率特征。然后，在傅立叶谱空间中重建损失：

其中，‖·,·‖₁表示L₁范数。

本发明的所述步骤5包括：

步骤51：获取用户需求携带的对待编辑图像的需求描述文本；

步骤52：从待编辑图像中提取图像特征以及从所述需求描述文本中获取文本特征；

步骤53：将图像特征和文本特征映射至维度为512的公共空间中，获得待编辑图像维度为512的隐向量以及文本特征向量；

步骤54：将图像特征向量输入到训练好的ADLM网络中，以使ADLM网络将待编辑图像的隐向量分为多个信道组；将每个信道组的隐向量隐射至空间，获得解耦的不同属性特征；计算每个属性特征的范数，选择范数排序在前k个信道组对应的目标属性特征，对所述目标属性特征进行隐层操作，在隐层操作之后与每个信道组未映射之前的隐向量作残差处理，并通过监督学习的方式根据所述文本特征向量的提示，输出所述待编辑图像的预估编辑图像。

下面通过仿真实验对本发明的效果进行验证。

1.仿真条件：

本发明使用型号为TITAN RTX的GPU，基于深度学习的工具箱PyTorch进行仿真实验。

2.仿真内容：

本发明在两个公开的专门用于图像生成质量测试的数据集CelebA-HQ和LSUN上进行测试仿真实验。

训练过程为：对整体网络进行初始化，得到初始化的特征映射、自适应选择模块；

设本发明整体网络的损失函数为

CelebA-HQ数据集包含从原始CelebA数据集中挑选的30000张高质量的面部图像。每张高质量图像的大小为1024×1024。在原始数据集中，每个图像有40个来自原始CelebA的属性注释。然而在本发明中，我们删除了这些注释，并利用CLIP模型作为强有力的监督。

LSUN Church数据集由126527张256×256分辨率的图像组成。我们在LSUN Church数据集中选取了300张图片进行测试。

将经过步骤1提取到的图像特征输入到特征映射网络中分解为不同部位的属性特征，将解耦的属性特征输入到自适应选择模块选择出权重大的属性特征，将经过选择的属性特征和步骤1提取的文本特征输入到多模态融合网络生成融合文本语义的图像属性特征，将图像和文本的全局特征以及权重向量输入到图像生成网络，通过最小化损失函数

实现对特征映射网络、自适应选择网络和图像生成模块的训练，且在训练网络时采用深度学习工具箱PyTorch中的Adam优化器，其初始学习率为0.005，在训练过程中设置g＝9和k＝10，损失函数的系数为λ_SDC＝1,λ_FFR＝0.05，批大小N对于CelebA-HQ和LSUN Church数据集分别设置为5和10。

3.评估指标：

FID：指真实图像和生成图像的特征向量之间的距离。

用本发明和现有的图像属性编辑方法，在上述两个公开数据集CelebA-HQ、LSUNChurch上进行仿真对比实验，结果如表1。

表1本发明与其他技术在CelebA-HQ数据集上的性能比较

表1表明本发明在CelebA-HQ数据集上的生成编辑效果准确度都高于现有技术的生成效果。

在CelebA-HQ和LSUN Church数据集上展示利用不同模型的属性编辑可视化结果，如图4所示。本发明中L2M-GAN模型的特征映射模块和自适应选择模块比基础模型实现了更生动准确的属性修改，证明了我们的方法在图像和文本对齐方面的有效性。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于隐空间操作和文本引导的自适应图像编辑方法，其特征在于，包括：

2.根据权利要求1所述的一种基于隐空间操作和文本引导的自适应图像编辑方法，其特征在于，所述ADLM网络包括依次连接的图像特征映射模块、自适应选择模块以及图像生成模块；

所述步骤3包括：将所述每张历史图像的隐向量输入所述图像特征映射模块中，以使所述图像特征映射模块将所述每张历史图像的隐向量分为多个信道组，将每个信道组的隐向量隐射至W+空间，获得解耦的不同属性特征；并将不同属性特征输入至所述自适应选择模块，以使自适应选择模块通过计算每个信道组的对应的属性特征的范数，选择范数从大到小排序在前k个信道组对应的目标属性特征，对所述目标属性特征进行隐层操作，在隐层操作之后与每个信道组未映射之前的隐向量作残差处理，得到最终操纵的隐向量，将所述最终操纵的隐向量输入至所述图像生成模块，以使图像生成模块通过监督学习的方式，输出每张历史图像的预估编辑图像。

3.根据权利要求2所述的一种基于隐空间操作和文本引导的自适应图像编辑方法，其特征在于，所述图像特征映射模块由分配层以及隐向量映射层构成，

所述分配层，用于将每张历史图像的隐向量分为多个信道组，并将每个信道组的隐向量输入至所述隐向量映射层；

4.根据权利要求2所述的一种基于隐空间操作和文本引导的自适应图像编辑方法，其特征在于，所述自适应选择模块由权重计算层、信道选择层以及残差连接层组成；

所述权重计算层，用于计算每个信道组对应的属性特征的范数，将计算结果输入所述信道选择层；

所述信道选择层，用于选择范数排序在前k个信道组对应的目标属性特征，对所述目标属性特征进行隐层操作，并将其余信道组的隐向量置零，获得每个信道组的操作隐向量，将所述操作隐向量输入至所述残差连接层；

5.根据权利要求2所述的一种基于隐空间操作和文本引导的自适应图像编辑方法，其特征在于，所述图像生成模块由生成器和判别器组成；

6.根据权利要求5所述的一种基于隐空间操作和文本引导的自适应图像编辑方法，其特征在于，所述多模态融合网络由多模态特征提取器、语义损失层以及频率重建层组成；

所述语义损失层，用于计算每个预估编辑图像与对应历史图像的视觉语义特征的差异值，并计算该差异值与每个描述文本的文本语义特征的语义方向一致性损失；

7.根据权利要求6所述的一种基于隐空间操作和文本引导的自适应图像编辑方法，其特征在于，所述步骤5包括：

步骤54：将图像特征向量输入到训练好的ADLM网络中，以使ADLM网络将待编辑图像的隐向量分为多个信道组；将每个信道组的隐向量隐射至W+空间，获得解耦的不同属性特征；计算每个属性特征的范数，选择范数排序在前k个信道组对应的目标属性特征，对所述目标属性特征进行隐层操作，在隐层操作之后与每个信道组未映射之前的隐向量作残差处理，并通过监督学习的方式根据所述文本特征向量的提示，输出所述待编辑图像的预估编辑图像。