CN116452414A

CN116452414A - 一种基于背景风格迁移的图像和谐化方法及系统

Info

Publication number: CN116452414A
Application number: CN202310700172.9A
Authority: CN
Inventors: 张友梅; 智昱旻; 李彬; 杨姝慧; 周大正; 张明亮; 刘丽霞; 张瑜
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-07-18
Anticipated expiration: 2043-06-14
Also published as: CN116452414B

Abstract

本发明属于图像处理技术领域，为了解决现有的图像和谐化中存在的视觉不一致、前景语义信息改变的问题，提出了一种基于背景风格迁移的图像和谐化方法及系统，将所提取的背景风格特征分别与待优化的合成图像的多尺度前景语义特征进行拼接，得到融合特征；将所得到的融合特征、融合特征所对应尺度的前景语义特征进行归一化操作，得到前景语义固定、前景风格改变的和谐化前景特征；将所述和谐化前景特征与待优化的合成图像的背景区域进行拼接，得到和谐化图像。在保持前景语义不变的基础上，根据背景风格特征来标准化前景风格，从而实现整体图像视觉上一致。

Description

一种基于背景风格迁移的图像和谐化方法及系统

技术领域

本发明属于图像处理技术领域，尤其涉及一种基于背景风格迁移的图像和谐化方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

将图像A上的目标物体剪切，粘贴在图像B上形成新的合成图像是计算机视觉领域的一项基本操作。图像和谐化旨在根据背景调整合成图像的前景，实现合成图像的整体协调，可广泛应用于数据增强、图像编辑、人像换背景等多种任务及领域中。

传统的图像和谐化方法主要通过低层次的外观特征变换来改进合成图像，如颜色统计数据和梯度信息，但是它们无法处理源图像与目标有较大的外观或语义差距的复杂情况。

随着深度学习的发展，更多的基于深度神经网络的方法被提出。虽然现有的基于卷积神经网络的图像和谐化方法在改进合成图像方面已经取得了不错的性能，但其仍存在不足之处。

现有的基于深度神经网络的图像和谐化方法及系统主要可分为两类：基于通道或空间分离的注意力模块来学习背景重要性权重的前景-背景图像和谐化方法、基于风格特征学习的前景-背景图像和谐化方法。但是，基于通道或空间分离的注意力模块来学习背景重要性权重的前景-背景图像和谐化方法没有真正从视觉风格一致性的角度来考虑现实意义上的合成图像优化；基于风格特征学习的前景-背景图像和谐化方法虽然从视觉风格一致性的角度考虑了图像和谐化任务，但没有考虑到前景-背景风格迁移时，前景的形状、纹理等语义内容信息是否相应会发生改变的情况。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于背景风格迁移的图像和谐化方法及系统，通过提取待优化合成图像的多尺度前景语义特征，利用多尺度前景语义特征分别与背景风格特征进行融合，在保持前景语义不变的基础上，利用背景风格特征改变待优化的合成图像的前景风格，从而实现整体图像视觉上一致。

为实现上述目的，本发明的第一个方面提供一种基于背景风格迁移的图像和谐化方法，包括：

获取待优化的合成图像，以及所对应的背景图像、前景掩膜；

利用第一编码器-第一解码器提取待优化的合成图像的多尺度特征，将前景掩膜与第一编码器-第一解码器所提取的多尺度特征进行运算，得到多尺度前景语义特征；

利用第二编码器提取所述背景图像的背景风格特征；

将所提取的背景风格特征与多尺度前景语义特征进行背景风格迁移操作；

其中，背景风格迁移操作为：将所提取的背景风格特征分别与多尺度前景语义特征进行拼接，得到融合特征；

将所得到的融合特征、融合特征所对应尺度的前景语义特征进行归一化操作，得到前景语义固定、前景风格改变的和谐化前景特征；

将所述和谐化前景特征与待优化的合成图像的背景区域进行拼接，得到和谐化图像。

本发明的第二个方面提供一种基于背景风格迁移的图像和谐化系统，包括：

获取单元，用于获取待优化的合成图像，以及所对应的背景图像、前景掩膜；

第一提取单元，利用第一编码器-第一解码器提取待优化的合成图像的多尺度特征，将前景掩膜与第一编码器-第一解码器所提取的多尺度特征进行运算，得到多尺度前景语义特征；

第二提取单元用于：利用第二编码器提取所述背景图像的背景风格特征；

迁移单元，用于将所提取的背景风格特征与多尺度前景语义特征进行背景风格迁移操作；

所述迁移单元中，包括：

融合单元，用于将所提取的背景风格特征分别与多尺度前景语义特征进行拼接，得到融合特征；

归一化单元，用于将所得到的融合特征、融合特征所对应尺度的前景语义特征进行归一化操作，得到前景语义固定、前景风格改变的和谐化前景特征；

拼接单元：将所述和谐化前景特征与待优化的合成图像的背景区域进行拼接，得到和谐化图像。

以上一个或多个技术方案存在以下有益效果：

在本发明中，通过提取待优化合成图像的多尺度前景语义特征以及背景图像的背景风格特征，前景语义信息是希望在和谐化过程中保留的信息，将所得到的背景风格特征与对应尺度的前景语义特征进行融合，在保持前景语义不变的基础上，根据背景风格特征来标准化前景风格，使待优化合成图像的前景风格与背景图像对齐，从而实现整体图像视觉上一致。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一中基于背景风格迁移的图像和谐化方法流程图；

图2为本发明实施例一中图像和谐化网络示意图；

图3为本发明实施例一中图像和谐化网络中语义固定的背景风格迁移框架图；

图4为本发明实施例一中U-Net网络编码器中的注意力块示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1所示，本实施例公开了一种基于背景风格迁移的图像和谐化方法，包括：

利用第二编码器提取所述背景图像的背景风格特征；

在本实施例中，对于所获取的待优化的合成图像进行预处理，预处理为对待优化的合成图像进行分辨率调整，将待优化的合成图像的分辨率调整为256 × 256。

在本实施例中，将预处理后的待优化的合成图像输入至所构建的图像和谐化网络中，图像和谐化网络包括作为生成器G的U-Net结构和背景风格迁移操作BST；其中，U-Net结构为采用跳跃式连接的编码器-解码器结构，用于提取多尺度特征；背景风格迁移模块BST，用于提取背景风格特征并将其应用至前景中，实现前景-背景和谐化；最后利用前景损失实现更准确的和谐化结果。

如图2-图4所示，在本实施例中，对U-Net网络的解码器进行改进，在U-Net网络解码器的最后三层的每一层后面添加注意力块，其中，注意力块的输入是所对应的解码器层提取的卷积特征，对应的解码器层提取的卷积特征经过一个卷积核为的二维卷积层以及一个sigmoid函数得到注意力权重图，将对应的解码器层的提取的卷积特征与注意力权重图相乘得到注意力加权的卷积特征。通过注意力机制可以更好地实现对前景区域的关注，以及对无关背景区域的抑制。将预处理后的待优化的合成图像/>输入到U-Net网络的解码器中提取待优化的合成图像的多尺度特征。其中，/>用来表示维度，/>和/>分别为图像的高度和宽度。

在本实施例中，在U-Net网络解码器的层与层之间进行背景风格迁移操作BST。

具体的，以U-Net网络解码器的第层为例进行说明：

U-Net网络解码器的第层提取卷积特征/>，利用前景掩膜/>与/>作用得到前景特征，再对前景特征进行标准化，得到标准化后的前景卷积特征，记为/>。公式表示为：

（1）

其中，为解码器第/>层提取的卷积特征，/>分别为经过解码器第i层对应的图像高度、宽度和通道数；/>为与/>匹配的前景掩膜，即对前景掩膜/>通过pytorch中的F.interpolate函数进行插值得到与/>具有相同空间尺寸的/>，/>用来与/>作用得到前景语义特征；/>为前景语义卷积特征的均值；/>为前景语义卷积特征/>的方差；/>为输入的前景掩膜，它是一个0，1矩阵，通过前景掩膜/>和待优化的合成图像/>作用可以得到需要和谐化的前景区域，具体公式为：/>，/>代表图像前景。将本实施例的图像和谐化网络作为生成器G，和谐化结果记作/>：/>；/>为待优化的合成图像。

将待优化的合成图像与/>做哈达玛积，得到背景图像/>，/>为背景掩膜，由/>得到，此时背景区域对应的值在/>中变成了1；/>为得到的背景区域。

前景掩膜是已知的输入，是0，1矩阵，合成图像的前景区域对应前景掩膜的1，背景区域对应前景掩膜的0。

在本实施中，利用预先训练的VGG编码器来提取背景图像的风格特征，用通道的均值和方差来表示风格特征，将风格特征进行线性变换，以得到与匹配的风格特征/>，公式表示为：

（2）

其中，为待优化合成图像的背景区域，/>为待优化合成图像，/>为前景掩膜，Linear表示线性变换。

将与风格特征/>进行拼接，然后通过线性变换得到融合特征，计算融合特征的通道均值/>和方差/>，公式表示为：

（3）

（4）

其中，为前景语义卷积特征/>的通道均值；/>为前景语义卷积特征/>的通道方差；/>，/>分别为背景风格特征/>的通道均值、方差；Linear表示线性变换。

在本实施例中，给定前景语义卷积特征和背景风格特征/>，优化后的和谐化前景特征/>通过下式计算得到：

（5）

其中，为第/>层的卷积特征，/>为对应前景掩膜，/>为融合特征的通道方差，/>为融合特征的通道均值，/>为前景语义卷积特征/>的通道均值；/>为前景语义卷积特征/>的通道方差。

第层U-Net解码器输入特征/>为：

（6）

其中，为优化后的和谐化前景特征，/>为/>对应前景掩膜，/>为第/>层提取的卷积特征。

在本实施例中，经过所构建的图像和谐化网络所输出的和谐化图像为：，/>为待优化的合成图像，/>为前景掩膜。

在本实施例中，采用前景MSE损失作为图像和谐化网络的损失函数：

（7）

其中，是一个超参数，防止在非常小物体的图像上损失函数的不稳定，一般情况下，设置/>；/>为真实图像；/>为和谐化图像；为前景掩膜；/>分别为图像的高度、宽度，/>为单通道。

图像和谐化任务的特点是，输出图像的背景区域相对于输入的复合图像保持不变，只改变前景区域，使其与背景在视觉上“一致”。因此，背景区域的像素级误差将接近于零，这意味着对不同大小的前景对象的训练样本应进行不同的损失量训练，故本实施例使用前景MSE损失作为损失函数，进一步地提升了模型估计的准确性。

实施例二

本实施例的目的是提供一种基于背景风格迁移的图像和谐化系统，包括：

所述迁移单元中，包括：

在本实施例中，归一化单元包括：

第一计算单元，用于根据所述融合特征计算融合特征的通道均值和通道方差；

第二计算单元：将融合特征所对应尺度的前景语义特征与融合特征的通道方差相乘，将相乘结果与融合特征的通道均值相加，得到前景语义固定、前景风格改变的和谐化前景特征。

在本实施例中，拼接单元包括：

第三计算单元：用于将所述和谐化前景特征与待优化合成图像的前景掩膜进行第一相乘操作，

第四计算单元，用于将所述和谐化前景特征所对应的第一解码器所提取的待优化合成图像的卷积特征、1与所述和谐化前景特征对应的前景掩膜之差第二相乘操作；

第五计算单元，用于将第一相乘操作的结果与第二相乘操作的结果相加，进而得到和谐化图像。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于背景风格迁移的图像和谐化方法，其特征在于，包括：

利用第二编码器提取所述背景图像的背景风格特征；

2.如权利要求1所述的一种基于背景风格迁移的图像和谐化方法，其特征在于，所述第一编码器-第一解码器采用U-Net网络，在U-Net网络的第一解码器的层与层之间均进行背景风格迁移操作。

3.如权利要求1所述的一种基于背景风格迁移的图像和谐化方法，其特征在于，将背景风格特征与所对应尺度的前景语义特征进行拼接，然后利用线性变换得到融合特征。

4.如权利要求1所述的一种基于背景风格迁移的图像和谐化方法，其特征在于，将所得到的融合特征、融合特征所对应尺度的前景语义特征进行归一化操作，得到前景语义固定、前景风格改变的和谐化前景特征，具体为：

根据所述融合特征计算融合特征的通道均值和通道方差；

将融合特征所对应尺度的前景语义特征与融合特征的通道方差相乘，将相乘结果与融合特征的通道均值相加，得到前景语义固定、前景风格改变的和谐化前景特征。

5.如权利要求4所述的一种基于背景风格迁移的图像和谐化方法，其特征在于，根据所述融合特征计算融合特征的通道均值和方差，具体为：

根据前景语义卷积特征的通道均值以及背景风格特征的通道均值，利用线性变换得到融合特征的通道均值；

根据前景语义卷积特征的通道方差以及背景风格特征的通道方差，利用线性变换得到融合特征的通道方差。

6.如权利要求1所述的一种基于背景风格迁移的图像和谐化方法，其特征在于，将所述和谐化前景特征与待优化的合成图像的背景区域进行拼接，得到和谐化图像，具体为：

将所述和谐化前景特征、所述和谐化前景特征对应的前景掩膜进行第一相乘操作，

所述和谐化前景特征所对应的第一解码器所提取的待优化合成图像的卷积特征、1与所述和谐化前景特征对应的前景掩膜之差进行第二相乘操作；

将第一相乘操作的结果与第二相乘操作的结果相加，进而得到和谐化图像。

7.如权利要求2所述的一种基于背景风格迁移的图像和谐化方法，其特征在于，所述第一编码器的最后三层每一层后面添加注意力块，将注意力块前的第一编码器层所输出的卷积特征通过二维卷积层得到注意力权重图；将注意力块前的第一编码器层所输出的卷积特征与所对应的注意力权重图相乘得到注意力块所输出的注意力加权的卷积特征。

8.一种基于背景风格迁移的图像和谐化系统，其特征在于，包括：

所述迁移单元包括：

9.如权利要求8所述的一种基于背景风格迁移的图像和谐化系统，其特征在于，所述归一化单元包括：

10.如权利要求8所述的一种基于背景风格迁移的图像和谐化系统，其特征在于，所述拼接单元包括：