CN112884682A

CN112884682A - 一种基于匹配与融合的立体图像颜色校正方法及系统

Info

Publication number: CN112884682A
Application number: CN202110022806.0A
Authority: CN
Inventors: 陈羽中; 朱文婧; 范媛媛; 牛玉贞
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-06-01
Anticipated expiration: 2041-01-08
Also published as: CN112884682B

Abstract

本发明涉及一种基于匹配与融合的立体图像颜色校正方法及系统，该方法包括：S1、建立包括无失真立体图像和失真立体图像的训练集；S2、构建基于视差注意力的颜色校正初始模型及其损失函数，训练得到训练好的颜色校正初始模型，利用其对目标图像进行初步颜色校正得到初始校正图；S3、利用光流网络计算从初始校正图到参考图像的光流，并对参考图像进行图像变形和空洞填充得到匹配目标图；S4、构建基于U‑net模型架构的图像融合网络模型及其损失函数，训练得到训练好的图像融合网络模型；S5、利用步骤S2到S4训练好的模型对待校正的失真立体图像进行颜色校正。该方法及系统有利于快速高效地校正立体图像左右视图间的颜色差异。

Description

一种基于匹配与融合的立体图像颜色校正方法及系统

技术领域

本发明涉及图像处理和计算机视觉领域，特别是一种基于匹配与融合的立体图像颜色校正方法及系统。

背景技术

随着计算机视觉的飞速发展和多媒体技术的不断进步，双目立体视觉以其沉浸式视觉效果吸引了人们的广泛关注，并得以快速发展。与传统二维图像的平面感相比，双目立体视觉给人们带来了更加真实、自然而震撼的体验。在一些特定的研究中，如立体图像颜色校正、多视点视频颜色校正、全景图像拼接、遥感图像融合等，人们希望获得的图像组之间具备较好的颜色一致性。但是受摄像机参数设置与摆放位置、光源分布变化以及物体表面漫反射等不同因素的影响，相同物体在不同视点摄像机捕获到的图像中所呈现的亮度和颜色会存在一定差别。人类视觉系统可以自动调节并消除各种因素对颜色和亮度的影响，正确感知所观察物体的颜色。而计算机进行图像分析时，这种颜色差异不仅会影响到与颜色一致性有关的后期制作，在双目立体视觉中也会影响到深度信息重建，进而使观众感到视觉疲劳。因此计算机也需要这种处理图像组间颜色差异的能力，避免对其他颜色一致性相关算法的效果造成负面影响。立体图像颜色校正也因而成为一种非常重要的图像预处理技术。

颜色校正就是使用某种映射关系改变目标图像的颜色值使其具有与参考图像相似的分布，也被称为颜色迁移。可以用于消除图像组间的颜色失真，也可以用于改变目标图像的整体颜色风格，使其与参考图像一致。目前国内外已经提出了很多颜色校正算法，根据映射函数的数量来划分，颜色校正可以分为全局颜色校正算法和局部颜色校正算法两个类别。

全局颜色校正方法的映射函数通常由图像的简单统计信息计算得到，在图像色彩纹理较为简单的情况下可以得到很好的校正效果，并且具有较高的效率。但是它们在寻找最优颜色校正方案时缺乏对局部纹理信息的关注，若目标图像纹理过于复杂，算法的校正效果就无法达到要求。例如Reinhard最早提出的一种全局颜色迁移方法在无相关性的Lab颜色空间内用各通道的标准差与平均值对目标图像逐个通道进行颜色转换。Xiao等人认为Lab空间与RGB空间的转换带来了额外时间开销，为了消除这个转换过程，他们在RGB颜色空间下使用协方差矩阵转换实现了全局颜色迁移。Yao等人基于直方图提出了一种梯度保留颜色迁移算法，通过建立拉普拉斯金字塔使直方图误差和梯度误差同时最小化，以达到将参考图像的颜色映射到源图像，同时保持源图像的梯度的目的。

与全局颜色校正方法对比，局部颜色校正算法能为目标图像提供更加精确的映射关系。由于局部颜色校正对不同区域的像素使用不同的颜色映射函数，参考图像与目标图像的区域分割和对应关系匹配就成为影响算法性能非常重要的一个环节，并且对应关系匹配的稳定性和准确性也成为影响校正结果好坏的关键。例如，Zhang等人提出的主要区域映射方法先利用配准算法对图像进行重叠区域匹配，在重叠区域中通过HSV颜色空间中的颜色直方图峰值配对找出匹配的主区域，最后在每个主区域计算一个独立的映射函数。由于没有提供像素对应关系，只进行直方图的峰值匹配，该算法得到的映射函数不够准确，颜色校正结果容易出现异常的颜色值。Wang等人在2011年提出了一种基于尺度不变特征变换的颜色校正算法，通过匹配参考图像和目标图像中不同区域内的稀疏SIFT(Scale InvariantFeature Transform,SIFT)特征点，根据区域内特征点的颜色值求出各区域的颜色映射函数，再进行逐区域的颜色校正。由于稀疏特征点较少，图像中容易出现无匹配特征区域或者错误匹配区域，导致得到错误的校正结果。后来，学者们提出了一些基于稠密像素匹配的立体图像颜色校正方法，利用SIFT Flow进行参考图像与目标图像的逐像素配准，然后通过将全局颜色校正结果与配准图融合得到初始结果，最后使用不同的优化策略得到校正结果。这些方法能得到较好的局部颜色校正结果，但是耗费时间过长，且使用的图像融合策略会导致部分结果出现结构变形。

发明内容

本发明的目的在于提供一种基于匹配与融合的立体图像颜色校正方法及系统，该方法及系统有利于快速高效地校正立体图像左右视图间的颜色差异。

为实现上述目的，本发明采用的技术方案是：一种基于匹配与融合的立体图像颜色校正方法，包括以下步骤：

步骤S1：对数据集中无失真立体图像的左或右视图进行颜色失真处理，产生具有颜色差异的失真立体图像，失真立体图像中进行了颜色失真处理的视图为目标图像，另一个视图为参考图像，建立包括无失真立体图像和失真立体图像的训练集；

步骤S2：构建基于视差注意力的颜色校正初始模型及其损失函数，以参考图像和目标图像作为颜色校正初始模型的输入，在训练集上通过最小化损失函数学习颜色校正初始模型的最优参数得到训练好的颜色校正初始模型，利用颜色校正初始模型对目标图像进行初步颜色校正得到初始校正图；

步骤S3：将初始校正图和参考图像作为预训练的光流网络FlowNet2.0的输入，得到从初始校正图到参考图像的光流，并利用光流对参考图像进行图像变形和空洞填充得到匹配目标图；

步骤S4：构建基于U-net模型架构的图像融合网络模型以及适用于颜色校正的损失函数，在训练集上使用该损失函数训练图像融合网络模型，通过最小化损失函数学习图像融合网络模型的最优参数得到训练好的图像融合网络模型，将参考图像、目标图像、初始校正图和匹配目标图共同作为图像融合网络模型的输入，融合四张图像的特征得到校正结果；

步骤S5：利用步骤S2到S4训练好的模型对待校正的失真立体图像进行颜色校正。

进一步地，所述步骤S1具体包括以下步骤：

步骤S11：将无失真立体图像的左视图作为参考图像，右视图作为理想目标图像；对数据集中每幅无失真立体图像的右视图进行多种颜色失真处理，得到多幅目标图像，每幅目标图像与相应的参考图像组成参考-目标图像对，每个参考图像-目标图像对构成一幅失真立体图像，从而由每幅无失真立体图像得到多幅失真立体图像；所有无失真立体图像和失真立体图像组成训练集；

步骤S12：对训练集中的无失真立体图像和失真立体图像进行一致的尺寸调整及裁剪，即每幅失真立体图像及其对应的无失真立体图像的尺寸调整及裁剪操作使用的参数相同，从而得到新的更多的无失真立体图像和失真立体图像，将每幅失真立体图像及其对应的无失真立体图像按照参考图像-目标图像-理想目标图像对的形式存储，从而由步骤S11中的每幅无失真立体图像得到多个参考图像-目标图像-理想目标图像对，并形成新的训练集。

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：构建基于视差注意力的颜色校正初始模型；首先通过共享参数的多尺度特征提取模块分别提取参考图像和目标图像具有密集像素采样率的多尺度特征，所述多尺度特征提取模块先通过卷积层和残差块进行初步特征提取，然后将提取的初步特征经过残差空洞空间金字塔模块得到多尺度特征，再经过残差块进行多尺度特征融合，接下来再经过另一组空洞空间金字塔模块和残差块进行进一步的多尺度特征提取和融合，最终得到具有丰富上下文信息和强判别力的特征表示；然后将提取出的多尺度特征同时输入视差注意力模块生成立体图像对，即参考图像-目标图像对的视差注意力图M_left→right和M_right→left，视差注意力图可以反映出参考图像与目标图像的像素对应关系，利用视差注意力图和有效掩膜指导两张图像特征，使用1×1的卷积进行信息融合，使结果保留目标图像的结构且像素颜色与参考图像中对应位置一致；最后将融合后的特征通过残差块、像素重组(PixelShuffle)和卷积层进行图像重建得到初始校正图；

步骤S22：构建适用于颜色校正初始模型的损失函数，颜色校正初始模型的损失函数包含两个部分，分别用于辅助捕获立体图像对之间对应关系的损失和用于辅助完成颜色校正任务的损失；

辅助捕获立体图像对之间对应关系的损失主要由光度损失L_photometric、平滑损失L_smooth和循环损失L_cycle组成；光度损失L_photometric使用平均绝对误差损失来进行图像间的距离度量，计算公式如下：

其中，I_left表示输入的左视图，I_right表示输入的右视图，假设I_left是参考图像，I_right是目标图像，对于I_right表示参考图像，I_left表示目标图像的情况同理；符号

表示批次化矩阵乘法运算，

表示右视图到左视图的视差注意力图与右视图进行批次化矩阵乘法运算得到I′_left，同理

表示左视图到右视图的视差注意力图与左视图进行批次化矩阵乘法运算得到I′_right，V_left→right表示左视图到右视图的有效掩码，V_right→left表示右视图到左视图的有效掩码，p表示非遮挡区域的像素点，I_left(p)和I_right(p)分别表示左视图和右视图中像素点p处的颜色值，|*|表示绝对值；上式第一项针对左视图到右视图的对应关系，第二项针对右视图到左视图的对应关系；有效掩码V_left→right和V_right→left的计算公式如下：

其中τ是阈值，W是立体图像的宽，(i,k,j)表示视差注意力图中的像素位置；根据视差注意力机制，视差注意图上的值M_left→right(i,k,j)表示左视图中位置(i,j)对右视图中位置(i,k)的贡献，M_right→left(i,k,j)表示右视图中位置(i,j)对左视图中位置(i,k)的贡献，由于左视图(右视图)中被遮挡的像素无法在右视图(左视图)中找到具有对应关系的像素，因此这些像素的有效掩膜V_left→right(i,j)和V_right→left(i,j)的值被设为0，这类像素被认定为遮挡像素；

在视差注意力图M_left→right和M_right→left上定义平滑损失L_smooth：

其中，M∈{M_left→right,M_right→left}，上式中的第一项和第二项分别用于实现垂直注意一致性和水平注意一致性；

循环损失L_cycle为：

其中

由H个单位矩阵堆叠而成，H同时也表示输入图像的高，M_{left→right→left}和M_{right→left→right}为循环注意图；p表示非遮挡区域的像素点，M_{left→right→left}(p)和M_{right→left→right}(p)表示循环注意图中p处的值，E(p)表示堆叠单位矩阵中p处的值，计算公式如下：

辅助完成颜色校正任务的损失主要由逐像素损失L_per-pixel和感知损失L_perceptual组成，其中逐像素损失L_per-pixel是初始校正图I_initial与理想目标图像

的均方误差损失，计算公式如下所示：

其中，W和H分别为图像的宽和高，(i,j)表示图像中的坐标，I(i,j)表示图像上坐标为(i,j)的像素点的值，I_initial表示模型的初始校正图，

表示理想目标图像；

感知损失L_perceptual计算初始校正图I_initial与理想目标图像

在预训练的VGG19网络模型中五个激活层的距离度量：

其中φ_i()表示预训练的VGG19网络模型的第i个激活层，N_i为第i个激活层的总元素数，||*||₁表示1范数；

结合上述损失，基于视差注意力的颜色校正初始模型的损失函数如下：

L＝L_per-pixel+λ₁L_perceptual+λ₂(L_photometric+L_smooth+L_cycle)

其中，λ₁表示感知损失的权重，λ₂用于调节辅助对应关系获取的三种损失的权重；

步骤S23：按照步骤S22的损失函数公式计算损失函数并进行反向传播，通过多次迭代最小化损失函数，在每次迭代中，训练集被分成多个批次进行分批优化，采用基于梯度方差的ADAM方法自适应控制每个参数的分批优化学习率，得到训练好的基于视差注意力的颜色校正初始模型。

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：将初始校正图和参考图像作为预训练的光流网络FlowNet2.0的输入，得到从初始校正图到参考图像的逆向光流F_{initial→left}；

步骤S32：利用光流对参考图像进行图像变形得到初始匹配目标图I'_match，计算公式如下：

I'_match(x,y)＝I_left(x-u,y-v)

其中，I_left表示参考图像，I'_match表示初始匹配目标图，I(x,y)表示图像中像素点(x,y)的值，(u,v)＝F_{initial→left}(x,y)表示像素点(x,y)的光流，其中u和v分别代表像素点(x,y)发生水平位移和垂直位移的变化率；

步骤S33：使用双线性插值对初始匹配目标图I'_match进行空洞填充，得到匹配目标图I_match。

进一步地，所述步骤S4具体包括以下步骤：

步骤S41：构建基于U-net模型架构的图像融合网络模型，首先把参考图像、目标图像、初始校正图和匹配目标图分别输入编码器进行特征提取得到对应的四个特征图，编码器的结构表示为[Conv1+LeakyReLU]，[Conv2+BN]，其中Conv表示卷积层，用四元组(输入通道数，输出通道数，卷积核尺寸，步长)表示卷积层的参数设置，Conv1＝(3,32,5,2)，Conv2＝(32,64,5,2)，LeakyReLU为激活函数，BN表示批标准化，编码器之间不进行参数共享；然后拼接四个特征图并输入融合层[LeakyReLU+Conv3+BN]进行特征融合，Conv3＝(256,256,5,2)，接着将融合后的特征输入残差块；最后使用解码器进行反卷积输出残差图，解码器结构表示为[ReLU+TConv1+BN]，[ReLU+TConv2+BN]，[ReLU+TConv3+BN+ReLU+Conv4]，其中ReLU为激活函数，TConv表示反卷积，卷积参数设置分别为：TConv1＝(512,128,5,2)，TConv2＝(384,128,5,2)，TConv3＝(256,32,5,2)，Conv4＝(32,3,1,1)；将解码器输出的残差图与目标图像相加得到最终的校正结果图像I_result，通过这种残差训练的方式保持结果与目标图像的结构一致性和清晰度；

步骤S42：构建图像融合网络模型适用于立体图像颜色校正的损失函数；图像融合网络模型的损失函数包括L1损失、感知损失、风格损失以及多尺度结构相似性MS-SSIM损失，其中，L1损失和多尺度结构相似性损失用于最小化理想目标图像

与校正结果图像I_result的颜色和结构不一致，感知损失和风格损失最小化参考图像I_left与校正结果图像I_result之间的距离度量，保持校正结果与参考图像的感知风格一致；

L1损失公式如下：

其中，W和H分别为图像的宽和高，(i,j)表示图像中的坐标，I(i,j)表示图像上坐标为(i,j)的像素点的值，I_result表示融合校正结果，

表示理想目标图像；

MS-SSIM损失的计算公式如下：

其中，m表示不同的图像尺度，M为最高尺度；指数α_M、β_m、γ_m用于调节不同分量的重要性，l()、c()和s()分别代表亮度、对比度以及结构三种相似性度量分量，具体计算过程如下所示：

其中μ表示图像所有像素的平均值，σ²表示图像的方差，

是理想目标图像和校正结果图的协方差，C₁、C₂和C₃是用于维持稳定的常数；

感知损失和风格损失计算校正结果图像与参考图像之间的一致性，将校正结果图和参考图像分别输入预训练的VGG19网络模型提取激活层特征进行距离度量；感知损失的计算公式如下：

其中，I_result为校正结果图像，I_left为参考图像，φ_i()表示预训练VGG19网络的第i个激活层，N_i为第i个激活层的总元素数，||*||₁表示1范数；

风格损失在预训练的VGG19网络中进行特征提取；使用四个激活层进行风格损失计算，对每一个激活层都求出格拉姆矩阵，然后对应层间计算两个格拉姆矩阵的欧式距离并累加求和，得到风格损失；具体公式如下：

其中，

表示图像I在第i个激活层特征图的格拉姆矩阵，||*||_F表示Frobenius范数；

结合以上四种损失函数，图像融合网络模型的损失函数如下：

上式中，α₁、α₂、α₃和α₄分别用于调节L1损失、MS-SSIM损失、感知损失和风格损失的权重；

步骤S43：按照步骤S42构建的损失函数公式计算融合损失函数并进行反向传播，通过多次迭代最小化损失函数，在每次迭代中，训练集被分成多个批次进行分批优化，采用基于梯度方差的ADAM方法自适应控制每个参数的分批优化学习率，得到训练好的图像融合网络模型。

进一步地，所述步骤S5具体包括以下步骤：

步骤S51：使用步骤S2训练好的基于视差注意力的颜色校正初始模型得到初始校正图；

步骤S52：通过步骤S3获取初始校正图和参考图像的光流图并进行图像变形和空洞填充得到匹配目标图；

步骤S53：使用步骤S4训练好的图像融合网络模型对参考图像、目标图像、初始校正图和匹配目标图进行特征融合得到校正结果。

本发明还提供了一种基于匹配与融合的立体图像颜色校正系统，包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序，当处理器运行该计算机程序时，实现如上所述的方法步骤。

相较于现有技术，本发明具有以下有益效果：本发明适用于多种颜色差异类型的、不同失真程度的立体图像颜色校正，本发明首先通过基于视差注意力的立体图像颜色校正模型进行参考图像与目标图像对应关系匹配和初步颜色校正得到初始校正图，再利用基于光流的图像变形得到匹配目标图像以弥补视差注意力机制对于垂直视差和细节匹配的不足，最后融合参考图像、目标图像、初始校正图和匹配目标图得到颜色与理想目标图像更加一致，感知风格与参考图像一致，且结构保持不变的校正结果图像。整个过程都是基于卷积神经网络设计，与传统局部颜色校正算法相比，不管是效率上还是校正效果上都能得到提升。

附图说明

图1是本发明实施例的立体图像颜色校正方法实现流程图。

图2是本发明实施例的立体图像颜色校正系统的原理框图。

图3是本发明实施例中基于视差注意力的颜色校正初始模型的原理框图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

如图1-2所示，本发明提供了一种基于深度残差优化的立体图像颜色校正方法，包括以下步骤：

步骤S1：对数据集中无失真立体图像的左或右视图进行颜色失真处理，产生具有颜色差异的失真立体图像，失真立体图像中进行了颜色失真处理的视图为目标图像，另一个视图为参考图像，建立包括无失真立体图像和失真立体图像的训练集。具体包括以下步骤：

步骤S11：不失一般性的，将无失真立体图像的左视图作为参考图像，右视图作为理想目标图像；对数据集中每幅无失真立体图像的右视图进行多种颜色失真处理，得到多幅目标图像，每幅目标图像与相应的参考图像组成参考-目标图像对，每个参考图像-目标图像对构成一幅失真立体图像，从而由每幅无失真立体图像得到多幅失真立体图像；所有无失真立体图像和失真立体图像组成训练集。

在本实施例中，以立体图像的左视图为参考图像，进行后续处理，但并不影响该处理方法的通用性。在本发明其他实施例中，完全可以立体图像的右视图为参考图像。

在本实施例中，对无失真立体图像的右视图进行六种不同的颜色失真处理，包括修改曝光度、亮度、对比度、RG通道、色相以及饱和度，每一种失真处理方式都有低、中、高3种修改粒度，从而得到多幅目标图像。

步骤S12：对训练集中的无失真立体图像和失真立体图像进行一致的尺寸调整及裁剪，即每幅失真立体图像及其对应的无失真立体图像的尺寸调整及裁剪操作使用的参数相同，从而得到新的更多的无失真立体图像和失真立体图像，将每幅失真立体图像及其对应的无失真立体图像按照参考图像-目标图像-理想目标图像对的形式存储，从而由步骤S11中的每幅无失真立体图像得到多个参考图像-目标图像-理想目标图像对，并形成新的训练集。具体方法为：每个视图的短边缩放到400像素，长边进行相应的等比缩放，再将缩放后的立体图像随机数裁剪出多个大小为128×128的图像块，每一次裁剪时一对无失真立体图像和失真立体图像的左右视图按照统一的方式裁剪得到新的无失真立体图像和失真立体图像对，从而增加训练数据集的多样性。训练集中每一幅立体图像的尺寸为128×128。

步骤S2：如图3所示，构建基于视差注意力的颜色校正初始模型及其损失函数，以参考图像和目标图像作为颜色校正初始模型的输入，在训练集上通过最小化损失函数学习颜色校正初始模型的最优参数得到训练好的颜色校正初始模型，利用颜色校正初始模型对目标图像进行初步颜色校正得到初始校正图。具体包括以下步骤：

步骤S21：构建基于视差注意力的颜色校正初始模型；首先通过共享参数的多尺度特征提取模块分别提取参考图像和目标图像具有密集像素采样率的多尺度特征，所述多尺度特征提取模块先通过卷积层和残差块进行初步特征提取，然后将提取的初步特征经过残差空洞空间金字塔模块得到多尺度特征，再经过残差块进行多尺度特征融合，接下来再经过另一组空洞空间金字塔模块和残差块进行进一步的多尺度特征提取和融合，最终得到具有丰富上下文信息和强判别力的特征表示；然后将提取出的多尺度特征同时输入视差注意力模块生成立体图像对，即立体图像对，即参考图像-目标图像对的视差注意力图M_left→right和M_right→left，视差注意力图可以反映出参考图像与目标图像的像素对应关系，利用视差注意力图和有效掩膜指导两张图像特征，使用1×1的卷积进行信息融合，使结果保留目标图像的结构且像素颜色与参考图像中对应位置一致；最后将融合后的特征通过残差块、像素重组(Pixel Shuffle)和卷积层进行图像重建得到初始校正图。

步骤S22：构建适用于颜色校正初始模型的损失函数，基于视差注意力的颜色校正初始模型可以看作是一个学习立体对应关系和颜色校正的多任务网络，因此颜色校正初始模型的损失函数包含两个部分，分别用于辅助捕获立体图像对之间对应关系的损失和用于辅助完成颜色校正任务的损失。

辅助捕获立体图像对之间对应关系的损失主要由光度损失L_photometric、平滑损失L_smooth和循环损失L_cycle组成；由视差注意力机制中的左右一致性约束可知：理想情况下，左视图到右视图的视差注意力图M_left→right与输入的右视图I_right进行批次化矩阵乘法后可以得到左视图I′_left(只适用于立体图像的非遮挡区域)；根据这一性质，最小化原始输入图像I_left和由视差注意力图运算所得图像I′_left的逐像素差值，就能使该视差注意力图M_left→right接近真实视差注意力，对于右视图到左视图的映射M_right→left同理；因此，光度损失L_photometric使用平均绝对误差损失(MeanAbsolute Error，MAE)来进行图像间的距离度量，计算公式如下：

表示批次化矩阵乘法(Batch-wise Matrix Multiplication)运算，

表示左视图到右视图的视差注意力图与左视图进行批次化矩阵乘法运算得到I′_right，V_left→right表示左视图到右视图的有效掩码，V_right→left表示右视图到左视图的有效掩码，p表示非遮挡区域的像素点(即对应有效掩码值不为0的像素)，I_left(p)和I_right(p)分别表示左视图和右视图中像素点p处的颜色值，|*|表示绝对值；上式第一项针对左视图到右视图的对应关系，第二项针对右视图到左视图的对应关系；有效掩码V_left→right和V_right→left的计算公式如下：

其中τ是阈值，W是立体图像的宽，(i,k,j)表示视差注意力图中的像素位置；根据视差注意力机制，视差注意图上的值M_left→right(i,k,j)表示左视图中位置(i,j)对右视图中位置(i,k)的贡献，M_right→left(i,k,j)表示右视图中位置(i,j)对左视图中位置(i,k)的贡献，由于左视图(右视图)中被遮挡的像素无法在右视图(左视图)中找到具有对应关系的像素，因此这些像素的有效掩膜V_left→right(i,j)和V_right→left(i,j)的值被设为0，这类像素被认定为遮挡像素。

为了使图像中纹理结构不清晰的区域产生准确一致的视差注意力，可以在视差注意力图M_left→right和M_right→left上定义平滑损失L_smooth：

其中，M∈{M_left→right,M_right→left}，上式中的第一项和第二项分别用于实现垂直注意一致性和水平注意一致性。

除了光度损失和平滑损失，视差注意力模块进一步引入循环损失，以实现周期一致性；循环损失L_cycle为：

其中

由H个单位矩阵堆叠而成，H同时也表示输入图像的高，M_{left→right→left}和M_{right→left→right}为循环注意图，实际上是单位矩阵；p表示非遮挡区域的像素点(即对应有效掩码值不为0的像素)，M_{left→right→left}(p)和M_{right→left→right}(p)表示循环注意图中p处的值，E(p)表示堆叠单位矩阵中p处的值，计算公式如下：

的均方误差(MeanSquare Error，MSE)损失，计算公式如下所示：

表示理想目标图像。

感知损失L_perceptual计算初始校正图I_initial与理想目标图像

在预训练的VGG19网络模型中五个激活层(relu1_1、relu2_1、relu3_1、relu4_1、relu5_1)的距离度量：

其中φ_i()表示预训练的VGG19网络模型的第i个激活层，N_i为第i个激活层的总元素数，||*||₁表示1范数。

L＝L_per-pixel+λ₁L_perceptual+λ₂(L_photometric+L_smooth+L_cycle)

其中，λ₁表示感知损失的权重，λ₂用于调节辅助对应关系获取的三种损失的权重。

步骤S3：将初始校正图和参考图像作为预训练的光流网络FlowNet2.0的输入，得到从初始校正图到参考图像的光流，并利用光流对参考图像进行图像变形和空洞填充得到匹配目标图。具体包括以下步骤：

步骤S31：将初始校正图和参考图像作为预训练的光流网络FlowNet2.0的输入，得到从初始校正图到参考图像的逆向光流F_{initial→left}。

I'_match(x,y)＝I_left(x-u,y-v)

其中，I_left表示参考图像，I'_match表示初始匹配目标图，I(x,y)表示图像中像素点(x,y)的值，(u,v)＝F_{initial→left}(x,y)表示像素点(x,y)的光流，其中u和v分别代表像素点(x,y)发生水平位移和垂直位移的变化率。

步骤S4：构建基于U-net模型架构的图像融合网络模型以及适用于颜色校正的损失函数，在训练集上使用该损失函数训练图像融合网络模型，通过最小化损失函数学习图像融合网络模型的最优参数得到训练好的图像融合网络模型，将参考图像、目标图像、初始校正图和匹配目标图共同作为图像融合网络模型的输入，融合四张图像的特征得到校正结果。具体包括以下步骤：

步骤S41：构建基于U-net模型架构的图像融合网络模型，首先把参考图像、目标图像、初始校正图和匹配目标图分别输入编码器进行特征提取得到对应的四个特征图，编码器的结构表示为[Conv1+LeakyReLU]，[Conv2+BN]，其中Conv表示卷积层，用四元组(输入通道数，输出通道数，卷积核尺寸，步长)表示卷积层的参数设置，Conv1＝(3,32,5,2)，Conv2＝(32,64,5,2)，LeakyReLU为激活函数，BN表示批标准化(Batch Normalization)，编码器之间不进行参数共享；然后拼接四个特征图并输入融合层[LeakyReLU+Conv3+BN]进行特征融合，Conv3＝(256,256,5,2)，接着将融合后的特征输入残差块；最后使用解码器进行反卷积输出残差图，解码器结构表示为[ReLU+TConv1+BN]，[ReLU+TConv2+BN]，[ReLU+TConv3+BN+ReLU+Conv4]，其中ReLU为激活函数，TConv表示反卷积，卷积参数设置分别为：TConv1＝(512,128,5,2)，TConv2＝(384,128,5,2)，TConv3＝(256,32,5,2)，Conv4＝(32,3,1,1)；从编码器到解码器之间的跳跃连接(SkipConnection)可以避免模型发生梯度爆炸和梯度消失问题，同时可以防止低层信息丢失；由于网络输出图像的值并非实际的像素值，而是预测的像素值与目标图像像素值的残差，因此将解码器输出的残差图与目标图像相加得到最终的校正结果图像I_result，通过这种残差训练的方式保持结果与目标图像的结构一致性和清晰度。

与校正结果图像I_result的颜色和结构不一致，感知损失和风格损失最小化参考图像I_left与校正结果图像I_result之间的距离度量，保持校正结果与参考图像的感知风格一致。

多尺度结构相似性损失对局部结构变化的感知敏感，可以更好地使图像边缘和纹理细节等高频信息保持不变，但是容易导致亮度或颜色产生偏差，而L1损失函数与之相反，可以使结果的亮度和颜色更接近理想图像，因此将L1损失和多尺度结构相似性损失两相结合互补能够得到更好的效果。L1损失公式如下：

表示理想目标图像。

结构相似性指标(SSIM)分别计算两幅图像的亮度相似度、对比度相似度以及结构相似度，并将三者相乘得到两张图像的相似度，贴近人类视觉系统的特性，而MS-SSIM质量评价指标通过对图像在不同尺度(分辨率)下的相似性进行评价，是对SSIM的改进。MS-SSIM损失的计算公式如下：

其中，m表示不同的图像尺度，M为最高尺度，对输入图像迭代应用低通滤波和倍数为2的下采样，输入图像原始尺度设为1，迭代进行M-1次即可得到最高图像尺度M；指数α_M、β_m、γ_m用于调节不同分量的重要性，实验中为了简化参数选择令α_m＝β_m＝γ_m，并且规范跨尺度参数设置使得

l()、c()和s()分别代表亮度、对比度以及结构三种相似性度量分量，具体计算过程如下所示：

其中μ表示图像所有像素的平均值，σ²表示图像的方差，

是理想目标图像和校正结果图的协方差，C₁、C₂和C₃是用于维持稳定的常数。

风格损失可以提高校正结果和参考图像之间的风格一致性，与感知损失类似，也是在预训练的VGG19网络中进行特征提取；使用四个激活层(relu2-2、relu3-4、relu4-4、relu5-2)进行风格损失计算，对每一个激活层都求出格拉姆(Gram)矩阵，然后对应层间计算两个格拉姆矩阵的欧式距离并累加求和，得到风格损失；具体公式如下：

其中，

上式中，α₁、α₂、α₃和α₄分别用于调节L1损失、MS-SSIM损失、感知损失和风格损失的权重。

步骤S5：利用步骤S2到S4训练好的模型对待校正的失真立体图像进行颜色校正。具体包括以下步骤：

步骤S51：使用步骤S2训练好的基于视差注意力的颜色校正初始模型得到初始校正图。

步骤S52：通过步骤S3获取初始校正图和参考图像的光流图并进行图像变形和空洞填充得到匹配目标图。

本发明还提供了用于实现上述方法的基于匹配与融合的立体图像颜色校正系统，包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序，当处理器运行该计算机程序时，实现如上所述的方法步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于匹配与融合的立体图像颜色校正方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于匹配与融合的立体图像颜色校正方法，其特征在于，所述步骤S1具体包括以下步骤：

3.根据权利要求2所述的一种基于匹配与融合的立体图像颜色校正方法，其特征在于，所述步骤S2具体包括以下步骤：

步骤S21：构建基于视差注意力的颜色校正初始模型；首先通过共享参数的多尺度特征提取模块分别提取参考图像和目标图像具有密集像素采样率的多尺度特征，所述多尺度特征提取模块先通过卷积层和残差块进行初步特征提取，然后将提取的初步特征经过残差空洞空间金字塔模块得到多尺度特征，再经过残差块进行多尺度特征融合，接下来再经过另一组空洞空间金字塔模块和残差块进行进一步的多尺度特征提取和融合，最终得到具有丰富上下文信息和强判别力的特征表示；然后将提取出的多尺度特征同时输入视差注意力模块生成立体图像对，即参考图像-目标图像对的视差注意力图M_left→right和M_right→left，视差注意力图可以反映出参考图像与目标图像的像素对应关系，利用视差注意力图和有效掩膜指导两张图像特征，使用1×1的卷积进行信息融合，使结果保留目标图像的结构且像素颜色与参考图像中对应位置一致；最后将融合后的特征通过残差块、像素重组(Pixel Shuffle)和卷积层进行图像重建得到初始校正图；