CN113222875A

CN113222875A - 一种基于色彩恒常性的图像和谐化合成方法

Info

Publication number: CN113222875A
Application number: CN202110610246.0A
Authority: CN
Inventors: 徐梦迪; 金小刚
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-08-06
Anticipated expiration: 2041-06-01
Also published as: CN113222875B

Abstract

本发明公开了一种基于色彩恒常性的图像和谐化合成方法，包括：将基于深度学习的粗调整网络模型和引入注意力机制的精细调整网络模型组成整体对抗生成网络，训练数据为包含成对真实图像和合成图像的公开图像数据集；以待调整的合成图像为原输入图像，获取灰度信息输入到粗调整网络模型中，输出图像光源色度的影响权重并据此估算光源颜色信息，对前景区域进行基于色彩平衡的调整得到粗糙和谐化的合成结果；利用精细调整网络模型，将粗调整的合成图像和对应掩码图通过转换相似的域特征得到色彩和谐的合成结果；通过高斯泊松方法结合精细调整的合成图像的颜色低频特征和原输入图像的梯度信息，共同优化生成和谐化合成图像。

Description

一种基于色彩恒常性的图像和谐化合成方法

技术领域

本发明涉及图像编辑技术领域，具体涉及一种基于色彩恒常性的图像和谐化合成方法。

背景技术

图像处理技术已逐渐被广泛应用于各个领域，其中最为常见的表现形式是在文化艺术方面的应用，为了进一步提高图像作品的品质，常通过后期对于视觉效果不佳的图像进行“再创作”。日常生活中用户借助于相关软件如Photoshop、美图秀秀等进行图像创作，而电影广告等场景获取图像时会考虑采用“绿幕”等技术手段便于后期处理。将感兴趣的目标物体与已知的新背景图像进行融合时，为减轻人工处理的负担，人们提出了相关的图像抠图与合成技术来满足各类图像编辑的需求。

在不考虑图像风格变化的前提下，为减少直接合成图像的违和感，自动化生成批量的视觉一致的合成图像，图像合成技术常侧重于考虑视觉效果的协调性，包括边缘细节、整体视觉特征等方面进行改进。

减少合成图像的边缘突变，通常依赖于精确的抠图结果，在无法满足时，较常见的是采用基于梯度域的无缝克隆技术，如经典的泊松克隆算法(Poisson Cloning)。随着深度学习的发展和应用，Wu等人(Gp-gan:Towards realistic high-resolution imageblending.Proceedings of the 27th ACM International Conference on Multimedia,(2019),2487-2495)提出了一种改进的高斯泊松生成对抗网络算法，联合优化梯度信息和颜色信息，减少合成图像的伪影，以生成视觉效果自然的合成图像。这个方法利用网络训练进行图像色彩处理辅以传统算法进行边缘突变处理，但其限制在于需要提供完整且风格差距较小的源图像和背景图像。

对于前景区域冗余无法获取准确掩码的情况，图像合成的目标就在于同时提高源图像和目标图像的空间一致性和颜色一致性。除了上述图像无缝融合技术，另一类最有效的方法之一就是在视觉特征(如亮度，颜色，纹理，风格等不同方面)上对前景进行调整。Zhu等人(Learning adiscriminative model for the perception of realism incomposite images.Proceedings of the IEEE International Conference on ComputerVision,(2015)3943-3951)提出从判断合成图像的真实性入手，训练了CNN网络模型学习根据颜色、光照和纹理的兼容性用于预测评估合成图像的视觉真实感，通过优化预测的真实感分数以确定模型参数，从而调整图像前景区域的颜色。该方法虽然无法完美区分夸张的真实图和自然的合成图，但不需要附加注释，对于评估图像的真实感判断也有一定的准确性。

Tsai等(Deep image harmonization.Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,(2017),3789-3797)提出了第一个端到端的卷积神经网络来直接生成协调图像，另外使用了额外的分割分支捕获合成图像的上下文和语义信息，并提出了一个图像转换的方法为图像协调工作提供了大量图像数据。DoveNet:Deep Image Harmonization via Domain Verification.Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition,(2020),8394-8403.这一工作公开提供了高质量的合成图像训练数据集，提出添加一个注意力模块来学习转换前景和背景的域特征的方案，完成自动化的图像色彩和谐处理。上述的相关论文工作都充分利用深度学习的优势批量获取合成效果更色彩和谐自然的结果，但也会存在少数图像边缘处的合成痕迹明显，整体效果有待进一步加强。

另外，使用光源信息等进行仅二维层面上的图像和谐调整处理难度较大，受到限制较多。相对常见的是图像白平衡处理，其借助对图像整体光源色彩的估计，将图像恢复至正常白光状态下，但很少被引入图像合成的相关工作中。

发明内容

为了减少目标物体与新背景图像融合时存在的违和感，特别是针对前景、背景色彩不和谐的问题，得以自动化实现批量的和谐自然的合成结果，本发明提供了基于色彩恒常性校正的图像和谐化合成方法。对于给定的简单的复制粘贴合成图像，即待调整的合成图像，该方法可生成清晰自然的和谐图像结果。

一种基于色彩恒常性的图像和谐化合成方法，包括步骤：

S1、将基于深度学习的粗调整网络模型和引入注意力机制的精细调整网络模型组成整体对抗生成网络，训练数据为包含成对真实图像和合成图像的公开图像数据集；

S2、以待调整的合成图像作为原输入图像，获取灰度信息输入到训练好的基于深度学习的粗调整网络模型中，输出图像光源色度的影响权重；

S3、依据输出的图像光源色度的影响权重估算光源颜色信息，对原输入图像的前景区域进行基于色彩平衡的调整以生成粗糙和谐化的合成结果，得到粗调整后的合成图像；

S4、利用训练好的引入注意力机制的精细调整网络模型，将粗调整后的合成图像和对应的掩码图通过转换相似的域特征得到色彩和谐的合成结果，得到精细调整后的合成图像；

S5、通过高斯泊松方法结合精细调整后的合成图像的颜色低频特征和原输入图像的梯度信息，共同优化生成高分辨率的、视觉感知具有一致性的和谐化合成图像。

步骤S1中：

粗调整网络模型以U-Net的网络结构为基础，最后的反卷积操作Sigmoid产生图像光源色度的影响权重；粗调整网络模型预估图像光源色度进行基于色彩恒常性的区域调整，在重建损失函数基础上添加光源色差估计的损失函数L_c：

其中，ε＝10^-6，由合成图像估算的图像场景光源表示为I_{c_process}＝(I_I,I_g,I_b)，由真实图像估算的图像场景光源表示为I_{c_gt}＝(I_{r_gt},I_{g_gt},I_{b_gt})，I_r、I_g、I_b、I_{r_gt}、I_{g_gt}、I_{b_gt}分别代表RGB图像相应R、G、B通道的数值。

步骤S1中：

精细调整网络模型以U-Net的网络结构为基础，引入注意力机制进行空间注意映射，具体地，在对应的编码解码特征结构上应用1×1的卷积运算和Sigmoid激活作为单个注意模块，串联至后续的模块中；

精细调整网络模型是像素化调整的域处理模块，输入粗调整后的合成图像，输出精细调整后的合成图像，采用部分卷积的结果提取合成图像的前景区域、背景区域的域特征表示，在训练时作为判别损失的一部分进行网络优化。

步骤S1中：整体对抗生成网络的判别器部分由传统的GAN相似的全局判别器和基于域特征的判别器组成，基于域特征的判别器采用部分卷积层堆叠的结构分别提取前景区域和背景区域的域特征表示，添加域相似性的损失函数，具体的：

每个像素位置p的部分卷积表示为公式：

其中，X是当前滑动窗口的特征值，M为掩码信息，W和b为参数，使用逐元素乘法处理；在每个部分卷积层和ReLU或LeakyReLU层之间使用批量归一化层，最后得到一维的域特征表示，用于判别器的损失计算进行网络优化；

基于域特征的判别器，分别对真实图像和精细调整网络模型输出的合成图像进行操作，利用二值掩码分别处理前景区域和背景区域，在获取前景区域的域特征表示l_f和背景区域的域特征表示l_b之后，计算域相似性D_v(I,M)＝l_f·l_b，其损失函数表示为：

其中，

和

分别表示域判别器D_v和域生成器G_v损失，I_gt和I_h分别表示真实图像和和谐化合成图像，M表示掩码信息，E表示相应图像的概率分布期望。

步骤S2具体包括步骤：

S21、以固定位置的前景区域和背景区域组成待调整的合成图像，引入伽马校正调整至线性RGB空间，提取灰度信息并进行直方图均衡化处理；

S22、将灰度信息输入至粗调整网络模型中得到图像光源色度的影响权重。

步骤S3中：

以图像场景光源I_G代替前景区域的光源色度，简化比对关系对前景区域进行颜色恒常性计算和调整，具体如下式：

其中，c表示RGB图像的某颜色通道，I_rgb表示原输入图像的像素颜色信息，I′_rgb表示粗调整后的合成图像的像素颜色信息，I_B为结合背景区域的像素占比估算得到的光源色度。

图像场景光源的计算近似简化为输入图像的加权和来表示，图像分辨率为H×W，其网络输出的权重映射为w，Z表示对向量进行归一化处理，计算图像场景光源I_G的公式为：

x表示输入图像的像素信息。

步骤S5具体包括步骤：

S51、对原输入图像的前景区域和背景区域分别进行拓展处理：利用掩码二值获取前景区域或背景区域，对前景区域或背景区域颜色部分重复依次进行膨胀、原内容覆盖、高斯模糊羽化操作；

S52、对拓展处理后的原输入图像提取梯度信息，对精细调整后的合成图像提取颜色低频特征，组成高斯泊松方程优化目标函数，求得高分辨率的、视觉感知具有一致性的和谐化合成图像；

以I_h表示和谐化合成图像，I_x表示原输入图像，需要优化的目标函数由下式表示，α、β为约束系数：

H(I_h)＝αP(I_h)+βC(I_h)

其中，P(I_h)表示梯度约束，基于泊松融合的变形，如下式所示：

对于整幅图像而言，i表示逐像素，divv表示散度的计算，在不同的区域前景区域、背景区域均分别进行计算，L表示使用拉普拉斯算子操作；

C(I_h)表示颜色约束，基于精细调整网络模型输出的结果，高斯滤波G提取的颜色低频特征G(I_h)与精细调整后的合成图像的颜色低频特征Net(I_x)尽量保持一致，如下式所示：

S53、对得到的结果上采样，重复步骤S51、S52直至达到相应的处理次数，得到原分辨率下的高清的和谐化合成图像。

S2-S5的操作适用于S1训练的过程。

本发明与现有技术相比，主要优点包括：

1、本发明提供的基于色彩恒常性的图像和谐化合成方法是一种基于色彩恒常性校正的图像协调方法，从全局的光源环境和像素层面的域特征权衡合成图像的前景色彩优化，兼顾场景光源、局部颜色明暗片段等影响，生成视觉一致的合成图像。适用于前背景区域光源信息存在差异的图像合成等图像编辑应用中。

2、本发明在仅含有待调整的合成图像和掩码图的条件下，融合和谐化网络对图像视觉特征调整的优势，提高合成图像的清晰度，明显保留细节信息，满足实际应用中对大尺寸图像处理的需求。

附图说明

图1为本发明提供的基于色彩恒常性的图像和谐化合成方法的具体流程示意图；

图2为本发明提供的整体对抗生成网络模型的流程示意图(包括基于色彩恒常性校正的粗调整模块和基于域处理的精细图像和谐模块)。

具体实施方式

下面结合附图及具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的操作方法，通常按照常规条件，或按照制造厂商所建议的条件。

如图1所示，本发明的基于色彩恒常性的图像和谐化合成方法，包括步骤：

下面涉及的S2-S5的具体操作适用于S1训练的过程。

步骤S2和S3组成的是基于颜色恒常性校正的粗调整模块。首先，该网络模型结构是一个U形的使用跳跃式连接的编码解码结构，其由多个4×4卷积核和步长为2的卷积模块组成编码器部分，由类似的成对的反卷积层组成解码器的主要部分。在每个卷积块操作之后，添加BatchNorm归一化以降低数据之间的绝对差异，也添加激活函数ReLU加快训练速度。在最后一次反卷积的操作使用Sigmoid方法产生输出的权重结果。

该网络的输入是待调整的合成图像的灰度信息，其分辨率设为256×256。以固定位置的前景对象和另一背景图像组成的合成图像，引入伽马校正进行调整至线性RGB空间处理图像，提取图像的灰度信息并进行直方图均衡化处理。

该网络的输出是光源色度的影响权重。合成图像的前景、背景区域分别简化为单一的光源影响，图像场景光源的计算可以近似简化为输入图像的加权和来表示，图像分辨率为H×W，其网络输出的权重映射为w，Z表示对向量进行归一化处理，计算场景光源I_G的公式为：

以全局光源I_G代替前景区域的光源色度，背景区域估算的光源色度I_B考虑掩码信息对应背景区域的像素占比结，简化比对关系对前景区域进行颜色恒常性计算和调整，具体如下式：

其中，c表示RGB图像的某颜色通道，I_rgb表示原图像像素颜色信息，I′_rgb表示调整后的像素信息。经过处理后，合成图像的前景区域进行区域映射的粗糙调整。

步骤S4在获取上述步骤的粗调整的合成结果后结合掩码信息进行基于像素层面的图像色彩和谐化处理。首先，所述的精细调整网络模型以U-Net的网络结构为基础结构，采用8个下采样卷积模块，跳跃连接对应7个反卷积模块，最后三个反卷积层后分别串联注意力模块至后续网络中。

注意力机制可认为是一种资源分配机制，其将对应的编码结构与解码结构的特征串联起来，对相应位置的特征求加权和，并以此根据响应。在串联的编码解码特征上应用1×1的卷积运算，进行Sigmoid激活。因输入时使用了掩码信息，添加的注意力模块可以自动利用掩码信息对特征的前景区域和背景区域区别关注。

步骤S1是合成图像对基于色彩恒常性的粗调整和基于域判别的精细调整的综合性阐述，整体的网络模型处理流程在训练阶段如图2所示，实际应用阶段图像无需通过判别网络。

整体网络模型是一个较为复杂的对抗生成网络，其生成网络主要由两个模块组成，即粗调整网络和精细调整网络模型。前半部分预估光源色度进行基于色彩恒常性的区域调整，添加光源色差估计的损失函数L_c以角度余弦值表示，如下定义：

其中，合成图像估算全局场景光源表示为I_{c_process}＝(I_r,I_g,I_b)，真实图像结合估算此时的场景光源表示为I_{c_gt}＝(I_{r_gt},I_{g_gt},I_{b_gt})。另外，考虑最常见的结果对比的重建损失函数。

后半部分是像素化调整的域处理模块，输入粗调整后的中间结果，输出和谐化的结果图像，训练使用重建损失函数以进行优化。

判别网络部分由传统的GAN相似的全局判别器和基于域特征的判别器组成。全局判别器D_g与传统的GAN和Pix2Pix图像翻译技术类似，利用铰链损失函数来稳定训练，由下式给出：

其中，

和

分别表示判别器D_g和生成器G_g损失，I_gt和I_h分别表示真实图像和和谐化的合成图像结果，M表示掩码信息，E表示相应图像的概率分布期望。

域(Domain)的概念比较抽象和宽泛，在图像合成技术中，对于合成图像来说前景区域与背景图像在不同的条件下形成的，分别具有独特的风格、颜色、光照效果等，把每一种不同条件组合的场景情况称为一个域。

为了提取前景和背景的域表示，特征提取利用由部分卷积层堆叠而成，只对指定的掩码区域的特征进行卷积提取等处理。每个像素位置p的部分卷积可以表示为公式：

其中，X是当前滑动窗口的特征值，M为相应二进制掩码，W和b为参数，使用逐元素乘法处理。在每个部分卷积层和ReLU或LeakyReLU层之间使用批量归一化层，最后得到一维的域信息表示用于判别器的损失计算进行网络优化。

而基于域验证的判别器，分别对真实图像和输出的合成图像进行操作，利用二值掩码分别处理前景区域和背景区域，在获取域表示l_f和l_b之后，计算域相似性D_v(I，M)＝l_f·l_b，其损失函数可以表示为：

其中，

和

分别表示域判别器D_v和域生成器G_v损失，I_gt和I_h分别表示真实图像和和谐化的合成图像结果，M表示掩码信息，E表示相应图像的概率分布期望。

通过最小化色差损失、重建损失、域损失组成的总损失函数以训练生成器时，期望生成的图像可以欺骗判别器D_g，表明图像更具真实性，也可以欺骗D_v获得高分，表明通过匹配前景域和背景域，生成的图像更具兼容性，使得前景背景区域更为和谐。

整个过程的训练图像数据集参见DoveNet:Deep Image Harmonization viaDomain Verification.Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition,(2020),8394-8403.，由成对的合成图像和真实图像组成训练数据，且每对图像数据仅在前景区域存在视觉感知上的差异，不存在语义差异。

步骤S5针对S4网络模型输出结果的和谐化色彩信息和原输入图像的梯度信息共同优化高斯泊松方程，以求恢复至原分辨率大小的合成图像保留清晰细节和和谐自然的视觉效果。

为减少边缘处的伪影，对原输入图像的前景区域和背景区域分别进行拓展处理；拓展流程为利用掩码二值获取背景为空白的前景区域，对该区域颜色部分重复依次进行膨胀、原内容覆盖、高斯模糊羽化等操作，具体一次流程用以下公式表示：

I_ef＝f_blur((1-x_mask)(f_erode(I_f))+x_maskI_f).#式(12)

其中，I_ef表示拓展后的前景结果，I_f表示原前景图像区域的内容，x_mask表示相应掩码信息，f表示膨胀、高斯模糊等操作。重复迭代合适的次数，在拓宽边缘区域的同时，更多保留清晰的内部信息，以选取理想的效果。背景区域操作亦然。

对拓展处理后的原输入图像提取梯度信息，对精细调整后的合成图像提取颜色低频特征，组成高斯泊松方程优化目标函数，求得高分辨率的视觉感知具有一致性的合成图像。以I_h表示和谐化合成图像，I_x表示原输入图像，需要优化的目标函数由下式表示，αβ为约束系数：

H(I_h)＝αP(I_h)+βC(I_h).#式(4)

其中，P(I_h)表示梯度约束基于泊松融合的变形，如下式所示：

对于整幅图像而言，i表示逐像素，v表示梯度的计算，在不同的区域前、背景处分别计算，L表示使用拉普拉斯算子操作。

而C(I_h)颜色约束基于网络模型输出的结果，高斯滤波G提取的低频颜色信息与网络调整Net结果的颜色特征尽量保持一致，如下式所示：

对处理后的结果上采样，重复图像拓展和高斯混合一定的处理次数，直至最终达到原始分辨率下的高清和谐图像。

此外应理解，在阅读了本发明的上述描述内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种基于色彩恒常性的图像和谐化合成方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于色彩恒常性的图像和谐化合成方法，其特征在于，步骤S1中：

其中，ε＝10^-6，由合成图像估算的图像场景光源表示为I_{c_process}＝(I_r，I_g，I_b)，由真实图像估算的图像场景光源表示为I_{c_gt}＝(I_{r_gt}，I_{g_gt}，I_{b_gt})，I_r、I_g、I_b、I_{r_gt}、I_{g_gt}、I_{b_gt}分别代表RGB图像相应R、G、B通道的数值。

3.根据权利要求1或2所述的基于色彩恒常性的图像和谐化合成方法，其特征在于，步骤S1中：

4.根据权利要求3所述的基于色彩恒常性的图像和谐化合成方法，其特征在于，步骤S1中：整体对抗生成网络的判别器部分由传统的GAN相似的全局判别器和基于域特征的判别器组成，基于域特征的判别器采用部分卷积层堆叠的结构分别提取前景区域和背景区域的域特征表示，添加域相似性的损失函数，具体的：

每个像素位置p的部分卷积表示为公式：