CN114842105A

CN114842105A - 一种一体化的条件图像重绘方法及装置

Info

Publication number: CN114842105A
Application number: CN202210625609.2A
Authority: CN
Inventors: 施柏鑫; 李思; 孙冀蒙; 翁书晨; 常征
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-08-02

Abstract

本发明公开了一种一体化的条件图像重绘方法及装置，设计多模态条件融合模块以及注入模块来实现多模态条件的解耦和交互，通过建立背景条件与其他条件的交互和依赖关系来缓解阶段间独立性，生成高质量、拼接自然的重绘图像。同时，本发明通过设计垂直的跨模态相似度模块来匹配不同中间层的特征以及颜色文本不同语义层的特征，兼顾局部特征和全局特征，即粗细粒度的特征匹配，使得文本编码器能进行细粒度表征，缓解两阶段中的重绘图像与颜色文本间的不一致现象，使得重绘图像和输入颜色条件保持一致，满足用户需求。此外，本发明扩展了应用场景，构造了一个新的风景数据集，实现了人物重绘到对室外风景重绘的扩展，体现了本发明方法较高的泛化性能。

Description

一种一体化的条件图像重绘方法及装置

技术领域

本发明涉及计算视觉技术领域，尤其涉及一种一体化的条件图像重绘方法及装置。

背景技术

内容的生产与营销已经成为当今互联网产业盈利的基本方式之一，由内容生产者创作的、以文字、图像、视频等形式出现的多媒体信息吸引了大量消费者的阅读和观看，由此产生了巨大的商业价值，并促进了整个互联网行业的发展。其中，图像编辑是一项重要的工作，在插画设计、视频封面制作、游戏素材制作等方面均有广泛的需求，但编辑图像通常是复杂的，往往需要掌握专业的绘图和美术知识，且创作时间耗时、创作结果难以修改。因此，面对广泛的需求，利用深度学习的方法进行图像编辑已成为近期研究的热点。常见的图像编辑的应用有：给黑白老照片上色，修复被损坏的区域等。为了增加用户在图像编辑中的参与感，条件图像重绘任务成为一个比较热门的话题。

条件图像重绘(Conditional image repainting，CIR)是一种先进的图像编辑任务，需要模型基于用户提供的多模态输入(颜色、几何、背景等)，在指定的区域内生成让用户满意的视觉内容。条件图像重绘任务中，“重绘”代表着已有图像中的部分区域被重新绘制，而“条件”则表示重新绘制的内容是由用户输入的多模态条件控制生成的，这些多模态条件输入包括：纹理条件(形态为高斯噪声)、颜色条件(形态为文本属性或自然语言)、几何条件(形态为语义分割掩码)以及背景条件(形态为RGB图像)。

经典的条件图像重绘方法采用两阶段的设计：生成阶段和拼接阶段。(1)在生成阶段中，模型利用输入的颜色、几何、纹理条件来进行重绘内容的生成。(2)在拼接阶段中，模型丢弃第一阶段生成的无意义的背景区域，并用输入的背景条件替换。然后利用拼接模型对重绘区域的色调进行调整，使拼接后的图像更加和谐，最终生成了重绘图像。

现有技术具有如下缺点：

(1)两阶段间的独立性：现有技术将图像重绘任务明确的分为两个阶段，由于拼接阶段是在生成阶段完成之后才能开始，导致拼接模型只能在得到重绘内容的生成后才能进行调整，极大的限制了拼接模型的发挥空间并且导致区域之间的色调不一致，拼接效果不自然。除此之外，由于两阶段的设计，第一阶段生成的背景区域将会被丢弃，因此导致该部分的梯度会被截断，从而导致梯度回传变得不稳定，最终在生成结果上出现很多伪影，极大影响重绘图像的生成质量。

(2)重绘图像和颜色文本之间的不一致性：预训练跨模态相似度模型用于消除不同模态之间的差距，而经典的两阶段方法中，对文本模态和图像模态分别使用全局编码器进行编码，缺乏了细节特征与局部信息的表示，因此重绘图像会不符合颜色条件的约束，导致重绘图像和输入的颜色文本不能保持一致，难以满足用户需求。

(3)现有技术都是在人物场景下应用的，即只能进行室内人物的重绘。

发明内容

本发明针对现有方法受限于两阶段模型的设计，阶段间的独立性以及模态间的差异性导致重绘结果的图像质量不高、重绘区域与背景输入的拼接效果不够自然、重绘图像与颜色输入不一致的技术问题，提出一种一体化的条件图像重绘方法及装置，在一个阶段内建立了不同模态的输入条件之间的交互和依赖关系，提升了重绘图像的生成质量以及重绘区域与背景输入的拼接效果。同时提出一个多层结构的跨模态相似度模型，在不同层次上捕捉不同粒度的特征进行匹配，提高了重绘图像与颜色输入的一致程度。

为了实现上述目的，本发明提供如下技术方案：

一种一体化的条件图像重绘方法，包括以下步骤：

S1、颜色条件x^c首先被编码并且在几何条件x^g的指导下进行广播，处理后的特征表示为e^gc，随后对处理后的特征e^gc进行卷积，得到隐层特征h作为生成网络F^G的原始输入；生成网络F^G由卷积层和FABN模块堆叠构成，FABN模块中还包含CMCFM模块进行模态融合；

S2、纹理条件z、几何条件x^g和背景条件y^b通过FABN模块在生成网络F^G的中间注入，在FABN模块中，几何条件x^g、背景条件y^b和隐层特征h首先在CMCFM模块中进行融合，随后通过卷积生成两个可学习的外表参数β^a和γ^a，同时，纹理条件z也生成两个可学习的模式参数β^p和γ^p；

S3、采用步骤S2生成的外表参数β^a和γ^a以及模式参数β^p和γ^p调制经过批归一化处理后的隐层特征h，经过多层修正，最后生成重绘图像。

进一步地，步骤S1采用HCMSM模型实现；HCMSM模型包括两个编码器以及一个基于多粒度注意力的相似度损失函数，图像编码器含有n组的组卷积网络，m个不同的中间层捕捉m层的特征作为输出；文本编码器由m个编码器单元组成，并且用不同的语义层表示文本属性，通过元素级的累加，不同的单元被连接起来并组成一个多层结构。

进一步地，步骤S1采用HCMSM模型实现的实现过程为：图像编码器首先将合成图像按照几何条件x^g的指导分割成n个不同的类别区域，记做(y′₀，y′₁，...，y′_n-1)；随后将各部分类别区域分别注入到n组的组卷积网络(G₀，G₁，...，G_n)中，其中每个组卷积对应每个类别区域；通过提取m个中间层特征来挖掘不同粒度的语义信息，表示为

其中i∈{0，...，m-1}，j∈{0，...，n-1}，Q为特征维度，H为图像高度，W为图像宽度；每个编码单元对颜色条件xc进行单独编码，记为

其中i∈{0，...，m-1}；颜色属性与图像类别区域的相关性矩阵为：

N_c为文本属性的数量，N_g为重绘区域中切分的部分数目；将编码后的属性映射到相应的图像类别区域中，得到

最终通过加法得到第(i+1)层的特征

进一步地，多粒度基于注意力的相似度损失函数为：

其中，E_i,t为第t个样本中第i层的颜色特征，Y_i，t为第t个样本中第i层的图像特征，P(E_i，t|Y_i，t)为E_i,t和Y_i，t匹配的后验概率，m为文本编码单元个数，T为一个批次中的样本总数。

进一步地，步骤S2的FABN模块中，几何条件x^g被卷积并且作为一种门控来混合重绘隐层特征h和背景条件y^b。

进一步地，步骤S2中几何条件x^g、背景条件y^b和隐层特征h在CMCFM模块中进行融合的过程为：CMCFM模块将输入的背景条件y^b首先映射到一个高维特征空间，然后以几何条件x^g作为门控在高维特征空间上混合重绘隐层特征和背景特征；当条件融合成一个空间自适应的特征后，几何条件x^g、背景条件y^b和隐层特征h被注入FABN模块卷积层生成两个外表参数β^a和γ^a，同时通过纹理条件z生成两个模式参数β^p和γ^p；通过分别的加和操作，空间自适应参数相乘并且加在归一化后的特征上。

进一步地，生成网络F^G的训练过程为：

(1)采用条件-无条件联合图像块辨别器，判断条件间的一致性以及判断每个图像块的真实程度，生成损失L_g定义为：

其中，

为背景条件y^b和重绘生成y^r的拼接，N^pat表示辨别器中图像块的个数，

为无条件辨别器

的预测，

为条件辨别器

的预测，λ^u为无条件损失所占权重；

(2)采用一个三层的CNN作为辨别器D^C来区分重绘区域和背景区域，记做p^r＝D^C(y)，p^r表示每个像素点被判断为重绘区域的概率，拼接损失L_c表示为：

其中，

为重绘区域的像素总数；

(3)采用l1损失来确保背景特征提取的意义，l1损失L_b表示为：

其中，

为背景区域的像素总数，

为生成图像中背景部分特征，

为原始图像中背景部分特征；

(4)采用特征匹配损失来计算从辨别器D^FM中提取的特征对之间的l1平均距离，特征匹配损失L_FM定义为：

感知损失使用一个预训练好的基础网络Φ作为编码器来降低图像特征之间的差距，感知损失L_p记做：

其中，T_FM和T_P分别代表辨别器D^FM和编码器Φ的层数；C_i为图像特征的维度，H_i为图像特征的高度，W_i为图像特征的宽度，Φ(y)为生成图像经过编码器的特征，Φ(y^b)为真实图像经过编码器的特征；

(5)将生成损失L_g、拼接损失L_c、11损失L_b、特征匹配损失L_FM、感知损失L_p加权作为整体目标函数，如下：

其中，λ_c为拼接损失所占的权重参数，λ_b为11损失所占的权重参数，λ_FM为特征匹配损失所占的权重参数，λ_p为感知损失所占的权重参数，λ_m为多粒度基于注意力的相似度损失所占的权重参数，L_m为多粒度基于注意力的相似度损失：

其中，E_i，t为第t个样本中第i层的颜色特征，Y_i，t为第t个样本中第i层的图像特征，P(E_i，t|Y_i，t)为E_i，t和Y_i，t匹配的后验概率，m为文本编码单元个数，T为一个批次的样本个数。

另一方面，本发明还提供一种一体化的条件图像重绘装置，包括以下模块，用于实现上述的方法：

多模态条件融合模块和注入模块，用于实现多模态条件的解耦和交互；多模态条件融合模块和注入模块将输入的背景条件y^b首先映射到一个高维特征空间，然后以几何条件x^g作为门控在高维特征空间上混合重绘隐层特征和背景特征；当条件融合成一个空间自适应的特征后，几何条件x^g、背景条件y^b和隐层特征h被注入FABN模块卷积层生成两个外表参数β^a和γ^a，同时通过纹理条件z生成两个模式参数β^p和γ^p；通过分别的加和操作，空间自适应参数相乘并且加在归一化后的特征上；

多层结构跨模态相似度模块，用于匹配不同语义层的特征，兼顾局部特征和全局特征，使得重绘图像和输入颜色条件保持一致；多层结构跨模态相似度模块包括两个编码器以及一个基于多粒度注意力的相似度损失函数，图像编码器是一个含有n个组的组卷积网络，m个不同的中间层捕捉m层的特征作为输出，文本编码器由m个编码器单元组成，并且用不同的语义层表示文本属性，通过元素级的累加，不同的单元连接起来并组成一个多层结构。

与现有技术相比，本发明的有益效果为：

不同于两阶段模型，本发明提供的一体化的条件图像重绘方法及装置，是端到端的，避免了两阶段模型的缺陷，设计多模态条件融合模块以及注入模块来实现多模态条件的解耦和交互，具体而言，通过建立背景条件与其他条件的交互和依赖关系来缓解阶段间独立性，生成高质量、拼接自然的重绘图像。同时，本发明通过设计垂直的跨模态相似度模块来匹配不同中间层的特征以及颜色文本不同语义层的特征，兼顾局部特征和全局特征，即粗细粒度的特征匹配，使得文本编码器能进行细粒度表征，缓解两阶段中的重绘图像与颜色文本间的不一致现象，使得重绘图像和输入颜色条件保持一致，满足用户需求。此外，本发明扩展了应用场景，构造了一个新的风景数据集，实现了人物重绘到对室外风景重绘的扩展，体现了本发明方法较高的泛化性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一体化的条件图像重绘方法的流程图。

图2为本发明实施例提供的图像编辑器结构示意图。

图3为本发明实施例提供的文本编辑器结构示意图。

具体实施方式

为了更好地理解本技术方案，下面结合附图对本发明的方法做详细的说明。

本发明实施例提供的一体化的条件图像重绘方法，如图1所示，端到端的流程可以用以下公式表示：

y^r＝F^G(z，x^c，x^g，y^b)

其中，F^G表示本发明设计的生成网络，输入包括：

(1)z～N(0，1)表示可以合成多样性结果的高斯噪声向量，即纹理条件；

(2)

表示颜色文本属性，即颜色条件，其中

N_C表示文本属性的数量，例如hair color(头发颜色)；N_v表示每个属性所包含的颜色取值个数，比如blue(蓝色)；

(3)

表示语义分割掩码，即几何条件，其中

N_g，H，W分别表示重绘区域中切分的部分数目、图像高度和图像宽度；

(4)

表示用户提供的背景图像，即背景条件、背景特征。

生成网络F^G由卷积层和FABN模块(Feature adaptive batch normalization，特征自适应批归一化模块)堆叠构成，FABN模块中还包含CMCFM模块进行模态融合。

如图1所示，流程具体包括以下步骤：

S1、颜色条件x^c首先被编码并且在几何条件x^g的指导下进行广播，处理后的特征表示为e^gc，随后对处理后的特征e^gc进行卷积，得到隐层特征h作为生成网络F^G的原始输入；

S2、纹理条件z、几何条件x^g和背景条件y^b通过FABN模块在生成网络F^G的中间注入，在FABN模块(Cross-modality condition fusion module，跨模态条件融合模块)中，几何条件x^g、背景条件y^b和隐层特征h首先在CMCFM模块中进行融合，随后通过卷积生成两个可学习的外表参数β^a和γ^a，同时，纹理条件z也生成两个可学习的模式参数β^p和γ^p；

S3、采用步骤S2生成的外表参数β^a和γ^a以及模式参数β^p和γ^p调制经过批归一化处理后的隐层特征h，即通过改变尺度和偏差来不断更新修正h，经过多层修正，h包含更多局部细节特征，最后生成重绘图像。

具体地，步骤S1采用HCMSM模型(Hierarchical cross-modality similaritymodel，多层结构跨模态相似度模型)实现。

HCMSM模型包括两个编码器以及一个基于多粒度注意力的相似度损失函数。两个编码器都是采用金字塔结构设计，其中，如图2所示，图像编码器是一个含有n个组的组卷积网络(G₀，G₁，...，G_n)，m个不同的中间层捕捉m层的特征作为输出；如图3所示，文本编码器由m个编码器单元组成，并且用不同的语义层表示文本属性，通过元素级的累加，不同的单元被连接起来并组成一个多层结构。

采用HCMSM模型实现的实现过程为：

图像编码器首先将合成图像按照几何条件x^g的指导分割成n个不同的类别区域，记做(y′₀，y′₁，...，y′_n-1)；随后将各部分类别区域分别注入到n组的组卷积网络(G₀，G₁，...，G_n)中，其中每个组卷积对应每个类别区域；通过提取m个中间层特征来挖掘不同粒度的语义信息，表示为

其中i∈{0，...，m-1}，j∈{0，...，n-1}，Q为特征维度。

文本编码器引入MISC(Multi-condition Injection and Spatially-adaptiveCompositing多条件注入和空间自适应拼接)中的属性编码器，并且作为本发明文本编码单元，随后连接m个单元并且组成一个金字塔结构作为文本编码器。具体而言，给定颜色属性x^c，每个编码单元对颜色条件x^c进行单独编码，记为

Nc为文本属性的数量，N_g为重绘区域中切分的部分数目；将编码后的属性映射到相应的图像类别区域中，得到

最终通过加法得到第(i+1)层的特征

给定颜色条件E和合成图像Y，将第t个样本中第i层的颜色-图像特征对记为{E_i，t，Y_i，t}。因此计算了E_i,t和Y_i，t匹配的后验概率，记为P(E_i,t|Y_i，t)。最终多粒度基于注意力的相似度损失函数为：

其中，E_i,t为第t个样本中第i层的颜色特征，Y_i，t为第t个样本中第i层的图像特征，P(E_i，t|Y_i，t)为E_i,t和Y_i，t匹配的后验概率，m为文本编码单元个数，T为一个批次的样本个数。

步骤S2的FABN模块中，几何条件x^g被卷积并且作为一种门控来混合重绘隐层特征h和背景条件y^b。

对于多模态条件，对他们单独设计注入模块是不现实的，因为不同模态条件之间的交互和依赖关系需要进行建模，比如：几何条件需要指导颜色条件的空间分布，以及把重绘区域和背景区域区分开。简单的将各种条件堆叠起来操作也是不合理的，因为这些条件属于不同的模态并且有不同的表现形式，例如几何条件是语义分割掩码，而颜色条件是一系列的向量。

基于以上问题，本发明步骤S2中的CMCFM和FABN进行以下设计：

具体地，几何条件x^g、背景条件y^b和隐层特征h在CMCFM模块中进行融合的过程为：

CMCFM模块将输入的背景条件y^b首先映射到一个高维特征空间，然后以几何条件x^g作为门控在高维特征空间上混合重绘隐层特征和背景特征；当条件融合成一个空间自适应的特征后，几何条件x^g、背景条件y^b和隐层特征h被注入FABN模块卷积层生成两个外表参数β^a和γ^a，同时通过纹理条件z生成两个模式参数β^p和γ^p；通过分别的加和操作，空间自适应参数相乘并且加在归一化后的特征上。

本发明采用了三种不同的辨别器对生成网络F^G进行训练：(1)一个条件-无条件联合图像块辨别器，用于判断条件间的一致性以及判断每个图像块的真实程度；(2)一个三层卷积神经网络来判断重绘区域和背景区域的色调和谐程度；(3)一个多尺度辨别器通过计算特征匹配损失在不同特征层中区分真实图像和合成图像。

本发明通过以上技术方案对模块进行设计，并且对一体化模型进行端到端的训练，具体的训练过程为：

其中，

为无条件辨别器

的预测，

为条件辨别器

的预测，λ^u为无条件判别损失所占的比重；

(2)(2)考虑到重绘内容应该和输入背景无缝拼接在一起，本发明采用一个三层的CNN(Convolutional neural network，卷积神经网络)作为辨别器D^C来区分重绘区域和背景区域，记做p^r＝D^C(y)，p^r表示每个像素点被判断为重绘区域的概率，拼接损失L_c表示为：

其中，

为重绘区域的像素总数；

(3)同样考虑到背景区域的作用，本发明采用l1损失(L1 Loss：MAELoss，平均绝对误差)来确保背景特征提取的意义，l1损失L_b表示为：

其中，

为背景区域的像素总数，

为生成图像中背景部分特征，

为原始图像中背景部分特征；

(4)征匹配损失和感知损失经常被用于提升图像生成质量，本发明采用特征匹配损失来计算从辨别器D^FM中提取的特征对之间的l1平均距离，特征匹配损失L_FM定义为：

感知损失(Perceptual Loss，用VGG-16网络对两张图像取特征图，计算特征图之间的差值)使用一个预训练好的基础网络Φ作为编码器来降低图像特征之间的差距，感知损失L_p记做：

与现有技术相比，本发明具有以下优点：

(1)打破图像重绘任务中已有的两阶段依赖性假设，通过提出一个全新的一体化模型来避免两阶段的阶段依赖性导致的梯度回传困难问题，同时设计模态融合和模态条件注入的模块，更好的进行模态条件解耦与交互，产生更好的条件控制效果和更高质量的重绘结果，极大减少了伪影的生成，并且取得了更自然的拼接效果。

(2)提出一个新的多层结构跨模态相似度模块，避免了已有方法中全局编码带来的局部信息的缺失，充分挖掘图像和颜色文本间的细粒度局部特征进行匹配，使得颜色文本能编码成一个较为准确的表示，缩短了文本和图像间的差距，使得重绘图像更加符合输入的颜色文本，满足用户需求。

(3)扩展了新的应用场景，构造了一个新的风景数据集，将人物重绘扩展到风景重绘上，并且在风景重绘中依然取得了优于其他方法的效果，体现了本专利方法较高的泛化性能。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，但这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种一体化的条件图像重绘方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一体化的条件图像重绘方法，其特征在于，步骤S1采用HCMSM模型实现；HCMSM模型包括两个编码器以及一个基于多粒度注意力的相似度损失函数，图像编码器含有n组的组卷积网络，m个不同的中间层捕捉m层的特征作为输出；文本编码器由m个编码器单元组成，并且用不同的语义层表示文本属性，通过元素级的累加，不同的单元被连接起来并组成一个多层结构。

3.根据权利要求2所述的一体化的条件图像重绘方法，其特征在于，步骤S1采用HCMSM模型实现的实现过程为：图像编码器首先将合成图像按照几何条件x^g的指导分割成n个不同的类别区域，记做(y′₀，y′₁，...，y′_0-1)；随后将各部分类别区域分别注入到n组的组卷积网络(G₀，G₁，...，G_n)中，其中每个组卷积对应每个类别区域；通过提取m个中间层特征来挖掘不同粒度的语义信息，表示为

其中i∈{0，...，m-1}，j∈{0，...，n-1}，Q为特征维度，H为图像高度，W为图像宽度；每个编码单元对颜色条件x^c进行单独编码，记为

最终通过加法得到第(i+1)层的特征

4.根据权利要求2所述的一体化的条件图像重绘方法，其特征在于，多粒度基于注意力的相似度损失函数为：

其中，E_i，t为第t个样本中第i层的颜色特征，Y_i，t为第t个样本中第i层的图像特征，P(E_i，t|Y_i，t)为E_i，t和Y_i，t匹配的后验概率，m为文本编码单元个数，T为一个批次中的样本总数。

5.根据权利要求1所述的一体化的条件图像重绘方法，其特征在于，步骤S2的FABN模块中，几何条件x^g被卷积并且作为一种门控来混合重绘隐层特征h和背景条件y^b。

6.根据权利要求5所述的一体化的条件图像重绘方法，其特征在于，步骤S2中几何条件x^g、背景条件y^b和隐层特征h在CMCFM模块中进行融合的过程为：CMCFM模块将输入的背景条件y^b首先映射到一个高维特征空间，然后以几何条件x^g作为门控在高维特征空间上混合重绘隐层特征和背景特征；当条件融合成一个空间自适应的特征后，几何条件x^g、背景条件y^b和隐层特征h被注入FABN模块卷积层生成两个外表参数β^a和γ^a，同时通过纹理条件z生成两个模式参数β^p和γ^p；通过分别的加和操作，空间自适应参数相乘并且加在归一化后的特征上。

7.根据权利要求1所述的一体化的条件图像重绘方法，其特征在于，生成网络F^G的训练过程为：