CN113538243A

CN113538243A - 基于多视差注意力模块组合的超分辨图像重建方法

Info

Publication number: CN113538243A
Application number: CN202110832953.4A
Authority: CN
Inventors: 刘丹华; 马赛; 高大化; 李太行; 石光明
Original assignee: Xidian University
Current assignee: Xi'an Yangu Technology Co.,Ltd.
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-10-22
Anticipated expiration: 2041-07-22
Also published as: CN113538243B

Abstract

本发明公开一种基于多视差注意力模块组合的超分辨图像重建方法，实现步骤为：1)构建训练样本集；2)构建多视差注意力模块网络；3)对多视差注意力模块网络进行训练；4)得到训练好的多视差注意力模块网络模型；5)获的超分辨重建图像结果。本发明通过构建基于多视差模块组合结构和图像平滑损失函数的立体图像超分辨网络模型，以更加合理和灵活的方式改善了现有的图像超分辨网络模型，不仅有效地提升了超分辨成像质量，相较于现有超分辨重建图像的技术有更好的抗干扰能力和更高的超分辨性能，可以为超分辨重建图像的进一步处理提供更加丰富的细节信息。

Description

基于多视差注意力模块组合的超分辨图像重建方法

技术领域

本发明属于图像处理技术领域，更进一步涉及超分辨图像处理技术领域中的一种基于多视差注意力模块组合的超分辨图像重建方法。本发明可利用多张有视差的低分辨率图像生成对应的高分辨图像，以便为图像后续的处理提供更加全面、准确的信息。

背景技术

超分辨率图像重建是指结合图像中有限的先验知识，利用数字图像处理技术，从单幅或多幅低分辨率的图像中重新构建出一幅细节丰富的高分辨率图像的过程。超分辨图像重建的目的是为了得到高分辨图像，增强和丰富了景物的细节内容，以便为后续的图像解译、目标检测、目标跟踪提供更准确、全面的信息。随着单张图像超分辨和视频超分辨算法技术日渐成熟，基于立体像对的超分辨算法逐渐流行起来。立体像对是从两个不同位置对同一地区所摄取的一对相片。用立体观测法和专用的工具可以在像对重叠影像部分内看出所摄目标的立体视模型。立体像对中包含的子像素偏移可用于改善超分辨性能，但是，由于输入为具有立体视差的图像，使得输入图像之间存在特征、景深和分辨率等差异。解决这些差异性问题，并充分利用双目图像间有效细节信息优势可以提高模型的超分辨性能。

Daniel S.Jeon,Seung-Hwan Baek,Inchang Choi,Min H.Kim等人在其发表的论文“Enhancing the Spatial Resolution of Stereo Imaged using a Parallax Prior.”(Proceedings of the IEEE Conference on Computer Vision and PatternRecognition(CVPR),2018,pp.1721-1730)中提出了一种超分辨图像重建方法。该方法的实现步骤是，1、对采集到的低分辨率图像进行多维度特征提取；2、两台采样相机通过提取到的不同维度下的右图像，经过不同间隔移动与对应维度的左图像级联而获得图像堆栈；3、将生成的图像堆栈融合获得超分辨左图像。该方法存在的不足之处是，由于该方法中图像移动的距离是固定的，相机允许的最大视差也是固定的，因此对于不同的传感器和场景，使用该方法时必须重新训练模型数据。

西南科技大学在其申请的专利文献“一种多尺度特征融合的双目图像超分辨率重建方法”(专利申请专利号：CN202110158551.0，申请公布号：CN 112767253A)中提出了一种多尺度特征融合的双目图像超分辨率图像重建方法。该方法实现的步骤是，1、对采集到的低分辨率图像进行多维度特征提取；2、利用视差注意力模块沿极线方向搜索左右图像的互补信息，得到左右图之间的极线方向融合互补信息；3、将左右特征图与互补信息融合并获得超分辨图像。该方法存在的不足之处是，由于该方法沿极线方向搜索左右图像的互补信息，当两台采样相机的相对位置发生偏移时，该方法训练出来的模型超分辨性能会下降，鲁棒性较差。

发明内容

本发明的目的是针对上述现有技术存在的不足，提出一种基于多视差注意力模块组合结构的多目立体图像超分辨成像方法。用于解决现有技术抗干扰能力差和超分辨性能较低的问题。

实现本发明目的的技术思路是：本发明针对现有技术抗干扰能力差的问题，在构建多视差模块网络结构时，根据采样相机的布放位置融合了左右图像视差和上下图像视差的多维度特征，即使某些视差下的采样相机相对位置发生了偏移，也可以从其余视差下的图像获取更多的图像特征信息，从而提高了模型的抗干扰能力。本发明针对现有技术超分辨性能较低的问题，在总损失函数中添加了对角线像素平滑度损失函数，用于改善超分辨图像的像素平滑度，从而提高了模型的超分辨性能。

本发明具体步骤如下：

步骤1，构建训练集：

(1a)对长和宽均为L_r×W_r的至少100对高分辨率立体图像进行降质处理，得到长和宽均为l_r×w_r的低分辨率立体像对；

(1b)将所有高分辨率立体像对与低分辨率立体像对组成训练集；

步骤2，构建多视差注意力模块网络：

(2a)构建特征提取子网络，其结构依次为：输入层，卷积层，第一残差层，第一空洞卷积层，第二残差层，第二空洞卷积层，融合层，第三残差层；所述融合层的输入为第一空洞卷积层的输出特征图与第二空洞卷积层的输出特征图在通道方向的拼接特征图；

设置特征提取子网络各层参数：

将输入层的输入特征图通道大小设置为64；

将卷积层的卷积核大小设置为3×3，步长设置为1，输出特征图通道大小设置为64；

将第一、二、三残差层的卷积核大小均设置为3×3，步长均设置为1，输出特征张量通道大小均设置为64；

将第一、二空洞卷积层卷积核大小均设置为3×3，步长均设置为1，输出特征图通道大小均设置为64；

(2b)构建多视差注意力组合子网络，其结构依次为：输入层，残差层，第一卷积层，第二卷积层，第三卷积层，左右视差注意力索引图变换层，上下视差注意力索引图变换层，多视差特征图融合层，第四卷积层；

设置多视差注意力组合子网络各层参数：

将输入层的输入特征图通道大小设置为64；

将残差层的卷积核大小设置为3×3，步长设置为1，输出特征图通道大小设置为64；

将第一、二、三、四卷积层的卷积核大小均设置为3×3，步长均设置为1，输出特征图通道大小均设置为64；

(2c)构建图像重建子网络，其结构依次为：输入层，第一残差层，第二残差层，第三残差层，第四残差层，像素重组层，全局残差层，卷积层；

设置图像重建子网络各层参数：

将输入层的输入特征图通道大小设置为64；

将第一、二、三、四残差层的卷积核大小均设置为3×3，步长均设置为1，输出特征图通道大小均设置为64；

将像素重组层的放大因子设置为s，输出特征图通道大小设置为64，其中，s为超分辨图像重建的倍数，s＝2ⁿ，n为大于或等于1的整数；

将全局残差层的卷积核大小设置为3×3，步长设置为1/s，输出特征图通道大小设置为64；

将卷积层的卷积核大小设置为3×3，步长设置为1，输出特征图通道大小设置为3；

(2d)将特征提取子网络、多视差组合子网络、图像重建子网络级联组成多视差注意力模块网络；

步骤3，训练多视差模块网络：

将训练集中的高分辨立体像对和低分辨立体像对输入到多视差注意力模块网络中，利用梯度下降法，对网络参数进行迭代更新，直至含有对角线像素平滑度损失函数的总损失函数收敛为止，得到训练好的多视差模块网络模型；

步骤4，对低分辨立体像对进行超分辨图像重建：

将采样相机拍摄的立体像对输入到训练好的多视差模块网络模型中，经过处理得到重建后的超分辨图像。

本发明与现有技术相比，具有以下优点：

第一，本发明构建了多视差模块网络，该网络根据采样相机的布放位置融合了左右图像视差和上下图像视差的多维度特征，即使某些视差下的采样相机相对位置发生了偏移，也可以从其余视差下的图像获取更多的图像特征信息。且采样相机可以按照“L”形、“十”字形或“田”字形任意组合且数量不加限制。模型的超分辨效果和抗干扰能力可以根据采样相机的数量的增加而提高。有效地解决了现有技术抗干扰能力差的问题，使得本发明提高了超分辨图像重建效果，提升了人的视觉感官体验。

第二，本发明在总损失函数中添加了对角线像素平滑度损失函数，该损失函数可以缩小注意力视差索引图对角线方向元素的数值差距。从而使得重建的超分辨图像中物体的边缘更加平滑，降低像素颗粒感。本发明中添加的对角线像素平滑度损失函数克服了现有技术超分辨性能低的问题，使得本发明进一步提升了人的视觉感官体验。

附图说明

图1为本发明的流程图；

图2为本发明构建的多视差模块网络结构的示意图；

图3为本发明仿真图。

具体实施方式

以下结合附图和具体实施例，对本发明进行进一步详细描述。

参照图1，对本发明的实现步骤进行进一步详细描述。

步骤1，构建训练集。

对长和宽均为L_r×W_r的至少100对高分辨率立体图像进行降质处理，得到长和宽均为l_r×w_r的低分辨率立体像对。

所述的降质处理指的是，利用y＝DBFx+n，对每对高分辨率立体像进行降质处理，得到长和宽均为l_r×w_r的低分辨率立体像对，其中，L_r≥512，W_r≥512，l_r＝L_r/4，M_r≥100，w_r＝W_r/4，D表示亚采样矩阵，B表示模糊矩阵，F表示几何运动矩阵，n表示附加噪声，M_r表示样本集数量。

将所有高分辨率立体像对与低分辨率立体像对组成训练集。

步骤2，构建多视差注意力模块网络。

构建特征提取子网络，其结构依次为：输入层，卷积层，第一残差层，第一空洞卷积层，第二残差层，第二空洞卷积层，融合层，第三残差层；所述融合层的输入为第一空洞卷积层的输出特征图与第二空洞卷积层的输出特征图在通道方向的拼接特征图。

设置特征提取子网络各层参数如下：

将输入层的输入特征图通道大小设置为64。

将卷积层的卷积核大小设置为3×3，步长设置为1，输出特征图通道大小设置为64。

将第一、二、三残差层的卷积核大小均设置为3×3，步长均设置为1，输出特征张量通道大小均设置为64。

将第一、二空洞卷积层卷积核大小均设置为3×3，步长均设置为1，输出特征图通道大小均设置为64。

构建多视差注意力组合子网络，其结构依次为：输入层，残差层，第一卷积层，第二卷积层，第三卷积层，左右视差注意力索引图变换层，上下视差注意力索引图变换层，多视差特征图融合层，第四卷积层。

所述的左右视差注意力索引图变换层包括第一次矩阵乘法，逻辑回归，第二次矩阵乘法；将特征提取子网络输出的左特征图与右特征图依次经过第一次矩阵乘法、逻辑回归处理得到形状为H×W×W的左右视差注意力索引图，再分别将左、右特征图与左右视差注意力索引图进行变换层内的第二次矩阵乘法处理，得到左、右特征融合图；其中，H表示特征提取子网络输出的左特征图的高度，W表示特征提取子网络输出的左特征图的宽度。

所述的上下视差注意力索引图变换层包括第一次矩阵乘法，逻辑回归，第二次矩阵乘法；将特征提取子网络输出的上特征图与下特征图依次经过第一次矩阵乘法、逻辑回归处理得到形状为W×H×H的上下视差注意力索引图，再分别将上、下特征图与上下视差注意力索引图进行变换层内的第二次矩阵乘法处理，得到上、下特征融合图；其中，H表示特征提取子网络输出的上特征图的高度，W表示特征提取子网络输出的上特征图的宽度。

所述的多视差特征图融合层指的是，将左、右特征融合图与上、下特征融合图在通道方向进行拼接，输出多方向视差融合后的特征图。

设置多视差注意力组合子网络各层参数如下：

将输入层的输入特征图通道大小设置为64。

将残差层的卷积核大小设置为3×3，步长设置为1，输出特征图通道大小设置为64。

将第一、二、三、四卷积层的卷积核大小均设置为3×3，步长均设置为1，输出特征图通道大小均设置为64。

构建图像重建子网络，其结构依次为：输入层，第一残差层，第二残差层，第三残差层，第四残差层，像素重组层，全局残差层，卷积层。

所述的全局残差层指的是，将低分辨率左图像经过转置卷积得到与目标高分辨图像大小一样的特征图，与像素重组层输出的特征图在通道方向进行拼接。

设置图像重建子网络各层参数如下：

将输入层的输入特征图通道大小设置为64。

将第一、二、三、四残差层的卷积核大小均设置为3×3，步长均设置为1，输出特征图通道大小均设置为64。

将像素重组层的放大因子设置为s，输出特征图通道大小设置为64，其中，s为超分辨图像重建的倍数，s＝2ⁿ，n为大于或等于1的整数。

将全局残差层的卷积核大小设置为3×3，步长设置为1/s，输出特征图通道大小设置为64。

将卷积层的卷积核大小设置为3×3，步长设置为1，输出特征图通道大小设置为3。

将特征提取子网络、多视差组合子网络、图像重建子网络级联组成多视差注意力模块网络。

步骤3，训练多视差模块网络。

将训练集中的高分辨立体像对和低分辨立体像对输入到多视差注意力模块网络中，利用梯度下降法，对网络参数进行迭代更新，直至含有对角线像素平滑度损失函数的总损失函数收敛为止，得到训练好的多视差模块网络模型。

所述总损失函数如下：

||M(i,j+1,k)-M(i+1,j,k+1)||₁+||M(i+1,j+1,k)-M(i,j,k+1)||₁)

其中，L表示总损失函数，

表示均方误差操作，I^SR表示由训练好的多视差模块网络模型输出的超分辨重建图像，I^HR表示训练集和测试集中的高分辨图像，L₁表示水平与竖直像素平滑度损失函数，M表示包括左右视差与上下视差的视差注意力索引图，∑表示求和操作，||·||₁表示1范数操作，M(i,j,k)表示视差注意力索引图中第i行第j列高度为k的元素，i+1，j+1，k+1分别表示对应坐标加1后的第i+1行第j+1列高度为k+1，L₂表示对角线像素平滑度损失函数。

步骤4，对低分辨立体像对进行超分辨图像重建。

本发明的效果可以通过以下仿真实验做进一步的描述。

1.实验条件：

本发明的仿真实验的硬件测试平台为：CPU：i7-9700K3.60GHz，32G内存，GPU：TITAN Xp；

本发明的软件仿真平台为：Windows10 64位操作系统，Pycharm开发平台；

本发明使用的软件仿真语言及深度学习框架为：Python、Pytorch。

本发明仿真实验所使用的输入图像为自行制作的红外图像数据集。两组实验数据用来拍摄数据集的采样相机分别以“L”形和“田”字形摆设，使主低分辨图像与分支低分辨图像具有水平视差以及竖直视差。该红外图像数据集中包含400组训练集和100组测试集。每组训练集和测试集中包含1张像素为624×624的高分辨率红外图像，3张包含左右视差和上下视差的像素为156×156的低分辨率红外图像，图像格式为png。

2.实验内容及结果分析：

本发明仿真实验是采用本发明和一个现有技术(平行视差注意力超分辨方法PASSRnet)分别对红外图像数据集中的图片进行处理，得到超分辨重建图像。

在本发明仿真实验中，采用的一个现有技术平行视差注意力立体图像超分辨方法PASSRnet是指：

L.Wang等人在其发表的论文“Learning parallax attention for stereo imagesuper-resolution.”(Proceedings of the IEEE Conference on Computer Vision andPattern Recognition(CVPR),2019,pp.12250-12259)中提出的超分辨图像重建方法，简称平行视差注意力超分辨方法PASSRnet。

在本发明仿真实验中，采用的超分辨图像重建性能指标为峰值信噪比PSNR，计算公式如下：

其中，

在上式中，MAX_I表示图像点颜色的最大数值，本仿真实验样本集图像每个像素点采用8位表示，所以MAX_I＝255，I^SR表示由训练好的多视差模块网络模型输出的超分辨重建图像，I^HR表示训练集和测试集中的高分辨图像，

表示均方误差操作。

下面结合图3的仿真图对本发明的效果做进一步的描述。

图3(a)是本发明仿真实验所用的红外图像数据集中的一幅高分辨图像。

图3(b)是对图3(a)中高分辨图像经过图像降质后得到的低分辨图像。

图3(c)是采用现有技术平行视差注意力超分辨方法PASSRnet重建后的超分辨重建图像，PSNR＝28.09。

图3(d)是本发明使用三台以“L”形摆放的摄像机拍摄得到的图像重建后的超分辨重建图像，PSNR＝29.33。

图3(e)是本发明使用四台以“田”字形摆放的摄像机拍摄得到的图像重建后的超分辨重建图像，PSNR＝29.56。

通过图3(d)和图3(e)与图3(c)的对比可以看出，在增加更多分支低分辨图像后，超分辨重建图像的细节更接近高分辨图像，说明本发明相较于现有技术有更好的图像超分辨效果，有效地提升了人的视觉感官体验。

以上描述仅是本发明的一个具体实例，并不构成对本发明的任何限制。显然对于本领域的专业人员来说，在了解了本发明的内容和原理后，都可以在不背离发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于多视差注意力模块组合的超分辨图像重建方法，其特征在于，构建训练样本集和测试样本集，构建多维度视差注意力模块；该重建方法的具体步骤包括如下：

步骤1，构建训练集：

步骤2，构建多视差注意力模块网络：

设置特征提取子网络各层参数：

将输入层的输入特征图通道大小设置为64；

设置多视差注意力组合子网络各层参数：

将输入层的输入特征图通道大小设置为64；

设置图像重建子网络各层参数：

将输入层的输入特征图通道大小设置为64；

步骤3，训练多视差模块网络：

步骤4，对低分辨立体像对进行超分辨图像重建：

2.根据权利要求1所述的基于多视差注意力模块组合的超分辨图像重建方法，其特征在于，步骤(1a)中所述的降质处理指的是，利用y＝DBFx+n，对每对高分辨率立体像进行降质处理，得到长和宽均为l_r×w_r的低分辨率立体像对，其中，L_r≥512，W_r≥512，l_r＝L_r/4，M_r≥100，w_r＝W_r/4，D表示亚采样矩阵，B表示模糊矩阵，F表示几何运动矩阵，n表示附加噪声，M_r表示样本集数量。

3.根据权利要求1所述的基于多视差注意力模块组合的超分辨图像重建方法，其特征在于，步骤(2b)中所述的左右视差注意力索引图变换层包括第一次矩阵乘法，逻辑回归，第二次矩阵乘法；将特征提取子网络输出的左特征图与右特征图依次经过第一次矩阵乘法、逻辑回归处理得到形状为H×W×W的左右视差注意力索引图，再分别将左、右特征图与左右视差注意力索引图进行变换层内的第二次矩阵乘法处理，得到左、右特征融合图；其中，H表示特征提取子网络输出的左特征图的高度，W表示特征提取子网络输出的左特征图的宽度。

4.根据权利要求1所述的基于多视差注意力模块组合的超分辨图像重建方法，其特征在于，步骤(2b)中所述的上下视差注意力索引图变换层包括第一次矩阵乘法，逻辑回归，第二次矩阵乘法；将特征提取子网络输出的上特征图与下特征图依次经过第一次矩阵乘法、逻辑回归处理得到形状为W×H×H的上下视差注意力索引图，再分别将上、下特征图与上下视差注意力索引图进行变换层内的第二次矩阵乘法处理，得到上、下特征融合图；其中，H表示特征提取子网络输出的上特征图的高度，W表示特征提取子网络输出的上特征图的宽度。

5.根据权利要求1所述的基于多视差注意力模块组合的超分辨图像重建方法，其特征在于，步骤(2b)中所述的多视差特征图融合层指的是，将左、右特征融合图与上、下特征融合图在通道方向进行拼接，输出多方向视差融合后的特征图。

6.根据权利要求1所述的基于多视差注意力模块组合的超分辨图像重建方法，其特征在于，步骤(2c)中所述的全局残差层指的是，将低分辨率左图像经过转置卷积得到与目标高分辨图像大小一样的特征图，与像素重组层输出的特征图在通道方向进行拼接。

7.根据权利要求1所述的基于多视差注意力模块组合的超分辨图像重建方法，其特征在于，步骤3中所述总损失函数如下：

其中，L表示总损失函数，