CN114820323A

CN114820323A - 一种基于立体注意力机制的多尺度残差双目图像超分辨率方法

Info

Publication number: CN114820323A
Application number: CN202210541241.1A
Authority: CN
Inventors: 裴文江; 冯程晨; 夏亦犁
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-07-29

Abstract

本文公开了一种基于立体注意力机制的多尺度残差双目图像超分辨率方法，属于图像处理技术领域。该方法包含以下步骤：S1.建立双目图像训练集；S2.设计网络结构；S3.设置训练参数训练该网络；S4.测试该网络性能。本发明具有以下优点：(1)与基于副本平移的双目图像超分辨方法相比，本方法不局限于固定视差图像的超分辨率处理，通过立体注意力机制并行提取左右视图间交互信息，提高了方法的性能。(2)与基于立体匹配的双目图像超分辨率相比，本方法不需要根据三维或四维的匹配代价估计视图间视差，提高了方法的效率。

Description

一种基于立体注意力机制的多尺度残差双目图像超分辨率方法

技术领域

本发明涉及一种基于立体注意力机制的多尺度残差双目图像超分辨率方法,属于图像处理技术领域。

背景技术

图像作为人类感觉系统的视觉根本，饰演捕捉信息、分析信息、表达信息以及传递信息的重要角色，图像处理技术对人类有不可或缺的意义。近现代以来，随着自动化技术、电子信息技术和计算机网络技术的快速发展，图像携带的自然景观中形状、颜色、纹理等数字化信息，提供了视觉信息的量化表示。

相较于模拟图像处理，数字图像处理有再现性好、精度高、灵活度高的特点，而数字图像处理技术作为一种“软技术”，其发展为后续的大量研究奠定了基础，例如图像重建、图像分析、目标检测、语义理解等。基于对图像质量的需求，高分辨率图像在很多应用场合都极其重要。然而，由于传感器排列密度的限制及技术工艺的制约，通过提升成像装置的分辨率直接提升图像分辨率显然不太切合实际，图像超分辨率重建则提供了另一种更为高效便捷的方式，即利用一张或多张低分辨率图像通过计算机软件生成高分辨率图像，并尽可能恢复原图像中的细节纹理和遮挡区域，在降低成本的同时获取更好的视觉效果。

仿照人类双眼的成像过程，立体视觉通过左右相机同步成像的视觉差异，在图像中还原其在三维空间中的相对位置，作为主流的视觉方案之一，与其他视觉方案相比有突出的优势。双目视觉的使用场景广泛，可以同时提供二维(图像)和三维(距离)信息，通过调整相机间的基线能够调控测量范围，同时搭载图像处理芯片后，对于场景的纹理、结构、颜色等也能有较好的实时性识别。立体视觉以灵活、方便、成本低的特点在视觉检测、3D虚拟现实技术、计算机辅助技术及高级驾驶辅助系统中具有重要的研究价值。

立体视觉现阶段的研究重点在于通过利用双目视图间的视差信息进行场景的三维重建，作为底层图像处理过程，双目图像超分辨率本质上是多输入多输出的过程，即输入低分辨率左右视图，通过利用图像间的交互信息重建出相应的高分辨率双目图像。为满足深度估计、立体匹配等高级视觉任务对于输入图像质量的要求，双目图像超分辨率的研究一方面需要借鉴上层任务的建模思想，另一方面需要克服双目成像中的固有缺陷(如环境光照影响、纹理单一或过于复杂等造成的匹配不当问题)。

双目图像能够仿知人眼视觉系统的重要前提是不同深度的物体在成像过程中会出现在不同的位置。同时由于外极线约束，成像物体的相对位置只存在水平变化，极少有纵向变化，也就说明，视差补偿沿水平极线展开的效益是最高的。

发明内容

技术问题：本发明的目的是提供一种基于立体注意力机制的多尺度残差双目图像超分辨率方法，针对现有技术的不足，通过立体视差注意力机制，在解决极线视差问题的前提下利用左右视图的互补信息提高双目图像的分辨率。

技术方案：本发明公开了基于立体视差注意力机制的双目图像超分辨率方法，包括以下步骤：

步骤S1.建立双目图像训练集：通过训练样本随机进行上下翻转、左右翻转操作增强训练样本；

步骤S2.设计网络结构：整体网络由特征提取、立体视差提取及特征重建三个模块组成，其中，特征提取模块通过引入共享权值的多尺度残差结构分别对输入网络的低分辨率左右视图进行特征提取；立体视差提取模块根据立体视差注意力机制计算得到的视差注意力图进行左右视图特征张量的融合；特征重建模块通过密集残差块和上采样模块对融合得到的特征张量进行超分辨率重建，恢复出高分辨率的左右视图图像；

步骤S3.设置训练参数训练网络，将步骤S1得到的训练样本送到步骤S2设计的网络中，选择合适的优化器，设置损失函数、学习参数及最大迭代次数对网络进行训练，直至训练结束得到最终的网络模型；

步骤S4.测试该网络性能，将低分辨率的双目图像测试对输入步骤S3得到的网络中，输出高分辨率的双目图像对。

其中，

所述步骤S1建立的双目图像训练集具体为，挑选四个常见双目图像数据集中的图片对作为双目图像训练集，每对图像包括同一场景下的左视图和右视图两张高分辨率图像，通过双三次下采样得到对应的低分辨率图像对，训练样本由高分辨率图像对和低分辨率图像对裁剪的图像块构成。双三次插值是专业术语，又称立方卷积插值(bicubicinterpolation)利用待采样点周围16个点的灰度值作三次插值，用来实现图片的缩放，此处的“双三次下采样”是指通过双三次插值的逆运算实现图像的缩小。后续的“双三次上采样”是指通过双三次插值算法实现图像的放大。

所述步骤S2设计网络结构：包含以下三个步骤：

步骤S2.1.特征提取：利用共享权值的多尺度残差网络对输入网络中低分辨率的左视图和右视图进行特征提取，分别得到其特征张量；

步骤S2.2.立体视差提取：利用残差单元分别对步骤S1.1中左视图和右视图的特征张量进行二次处理得到调和后的左右特征张量；以左视图的处理为例，经过左视图特征张量与右视图转置的特征张量的批次化矩阵相乘和Softmax归一化操作生成立体视差注意力图，对右视图特征张量进行卷积操作，并与立体视差注意力图进行批次化矩阵相乘，将得到的结果与左特征张量进行拼接，通过卷积操作得到融合后的左视图立体视差特征张量；对调步骤S1.1 中的左右视图特征张量通过类似操作得到融合后的右视图立体视差特征张量；

步骤S2.3.特征重建：利用残差稠密块组分别对步骤S2.2中融合的左右视图特征张量进行处理，利用反卷积网络对高维特征张量进行操作，融合输入低分辨率图像的双三次上采样结果，恢复出高分辨率的左右视图图像。

在步骤S3中，所述训练网络使用Nvidia GTX1080Ti GPU训练网络结构，基于Pytorch1.8 部署训练；所述的优化器为Adam优化器，初始学习率设置为2×10^-4，最大迭代次数为80，且学习率每隔20个迭代下降为之前的一半。

在步骤S4中，将经过双三次上采样的双目图像对与利用本方法超分辨率后的双目图像对进行视觉效果的比较。

有益效果：本发明由于采取以上的技术方案，与现有技术相比，具有以下优点：

(1)与基于副本平移的双目图像超分辨方法相比，本方法不局限于固定视差图像的超分辨率处理，利用卷积神经网络直接构建低分辨率图像和高分辨率图像之间的映射关系，提高了方法的性能。

(2)与基于立体匹配的双目图像超分辨率相比，本方法不需要根据三维或四维的匹配代价估计视图间视差，通过立体注意力机制并行提取左右视图间交互信息，对双目图像中的视差变化具有更好的鲁棒性，提高了方法的效率。

附图说明

图1为本发明的整体步骤流程图；

图2为本发明网络设计的总体结构示意图；

图2(a)为特征提取中残差空洞空间卷积池化金字塔块的结构示意图；

图2(b)为立体视差提取中立体视差注意力模块的结构示意图；

图2(c)为特征重建中残差稠密模块的结构示意图；

图3为本发明与现有技术在实施例下的结果对比图。

具体实施方式

下面结合附图及实施例对本发明进行详细的阐述，本发明提出的基于立体注意力机制的图像超分辨率方法，具体包含如下步骤：

图1为本发明的整体步骤流程图，具体包含以下步骤：

步骤S1.建立双目图像训练集：挑选四个常见双目图像数据集中的860对双目图像(每对图像包含一张左视图及一张右视图)作为双目图像训练集中的高分辨率图像，通过双三次下采样得到对应的低分辨率图像对。训练样本由高分辨率图像对和低分辨率图像对裁剪后的图像块构成。

步骤S2.设计网络结构：图2为本发明中卷积神经网络的总体结构示意图，由图可知，本发明的整体网络由特征提取、立体视差提取及特征重建三个模块组成。其中，特征提取模块通过引入共享权值的多尺度残差结构分别对输入网络的低分辨率左右视图进行特征提取；立体视差提取模块通过立体视差注意力机制计算得到的视差注意力图进行左右视图的特征张量的融合；特征重建模块通过密集残差块和上采样模块对融合得到的特征张量进行超分辨率重建，恢复出高分辨率的左右视图图像。具体过程如下：

步骤S2.1.特征提取：利用共享权值的多层卷积神经网络对输入的低分辨率左视图和右视图进行特征提取，得到特征张量

具体地：

步骤S2.1.1.通过3×3卷积层和基础残差块提取输入图像的浅层特征，以LeakyReLU 为激活函数，馈送至多尺度残差模块中进行多尺度特征的捕获；

步骤S2.1.2.多尺度残差模块由两组残差空洞空间卷积池化金字塔块(ResidualAtrous Spatial Pyramid Pooling Module,resASPP)和基础残差块级联组成，前者负责生成多尺度信息，后者则进行信息融合。其中，单个resASPP结构如图2(a)所示，由膨胀率为1、2、5的空洞卷积组合而成，通过1×1卷积控制输出通道数为64。

步骤S2.2.立体视差提取：通过引入立体视差注意力模块(如图2(b)所示)，建立沿极线位置之间的相似度。具体如下：

步骤S2.2.1.利用一个共享权值的残差块分别对步骤S2.1得到的特征张量

进行 2个3×3卷积操作，通过1×1卷积层得到调和后的特征张量

和

分别表征为：

其中，H_rb指残差块，

和

分别表示处理左右特征图的1×1卷积。

步骤S2.2.2.以左视图的立体视差注意力图

的生成过程为例，步骤S2.2.1中左视图特征张量

首先需要和转置后的右视图特征张量

进行批次化矩阵相乘，并进行softmax操作。分别最终得到的双视图下的立体视差注意力图组，其生成过程表示为：其中，立体视差注意力图

中坐标代表的是

对于

的贡献度，即两个特征点之间的相关度。

步骤S2.2.3.图3展示了以Middlebury数据集中Toy图片对为实施例得到的视差注意力图，由图分析，立体视察注意力模块对于特征相似度的计算集中在准确差异化特征上，并不

强制收集所有像素特征点间的相似性，只关注沿极线的最大相似特征，所以视差注意力图是稀疏的。采用掩膜机制对于步骤S2.2.2中的立体视差注意力图进行补偿，以左视图特征张量的掩膜计算为例，过程如下：

步骤S2.2.4.在实际训练中，将掩膜的阈值τ设置为0.1，通过批次化矩阵相乘得到视差注意力图与输入图像之间的交互特征张量：

步骤S2.2.5.将步骤S2.2.1中的特征张量、步骤S2.3中的掩膜与步骤S2.4中的交互特征张量连接，利用1×1卷积对级联后的特征张量进行特征融合，得到最终的立体视差特征张量，表示如下：

其中，

和

分别指左右视图立体视差特征张量经过1×1卷积层。

步骤S2.3.特征重建：利用四个残差稠密块对步骤S2.2.5中融合后的立体视差特征张量进行卷积操作，单个残差稠密块的结构如图2(c)所示。在实施例中，每个残差稠密块设置4 个3×3卷积层和ReLU函数组，通过反卷积层对特征张量进行反卷积操作，反卷积层由3× 3卷积组成，利用卷积层将特征张量映射到RGB空间，融合输入低分辨率图像的双三次上采样结果，得到最终输出的左右视图高分辨率图像。

步骤S3.设置训练参数训练该网络：将步骤S1中生成的训练样本送入设计好的网络中进行训练，设置代价函数为超分辨率图像与真实高分辨率图像的均方误差，在NvidiaGTX1080Ti GPU上基于Pytorch1.8部署训练，使用Adam优化器进行优化，初始学习率设置为2×10^-4，最大迭代次数为80，且学习率每隔20个迭代下降为之前的一半。

步骤S4.测试该网络性能：将低分辨率双目测试图像输入训练好的网络中，输出对应的高分辨率双目图像对。图3为经过双三次上采样的双目图像对与利用本方法超分辨率后的双目图像对的视觉效果对比。通过该图中的细节放大部分可以看出，本方法在文字细节和结构方面有较强的重建能力，通过左右视图间的视差补偿，能够取得较为优异的视觉效果。

Claims

1.一种基于立体注意力机制的多尺度残差双目图像超分辨率方法，其特征在于：所述方法包含以下步骤：

步骤S1.建立双目图像训练集：通过对训练样本随机进行上下翻转、左右翻转操作增强训练样本；

2.根据权利要求1所述基于立体视差注意力机制的多尺度残差双目图像超分辨率方法，其特征在于：所述步骤S1建立的双目图像训练集具体为，挑选四个常见双目图像数据集中的图片对作为双目图像训练集，每对图像包括同一场景下的左视图和右视图两张高分辨率图像，通过双三次下采样得到对应的低分辨率图像对，训练样本由高分辨率图像对和低分辨率图像对裁剪的图像块构成。

3.根据权利要求1所述基于立体视差注意力机制的多尺度残差双目图像超分辨率方法，其特征在于：所述步骤S2设计网络结构：包含以下三个步骤：

步骤S2.2.立体视差提取：利用残差单元分别对步骤S1.1中左视图和右视图的特征张量进行二次处理得到调和后的左右特征张量；以左视图的处理为例，经过左视图特征张量与右视图转置的特征张量的批次化矩阵相乘和Softmax归一化操作生成立体视差注意力图，对右视图特征张量进行卷积操作，并与立体视差注意力图进行批次化矩阵相乘，将得到的结果与左特征张量进行拼接，通过卷积操作得到融合后的左视图立体视差特征张量；对调步骤S1.1中的左右视图特征张量通过类似操作得到融合后的右视图立体视差特征张量；

4.根据权利要求1所述基于立体视差注意力机制的多尺度残差双目图像超分辨率方法，其特征在于：在步骤S3中，所述训练网络使用Nvidia GTX1080Ti GPU训练网络结构，基于Pytorch1.8部署训练；所述的优化器为Adam优化器，初始学习率设置为2×10^-4，最大迭代次数为80，且学习率每隔20个迭代下降为之前的一半。

5.根据权利要求1所述基于立体视差注意力机制的多尺度残差双目图像超分辨率方法，其特征在于：在步骤S4中，将经过双三次上采样的双目图像对与利用本方法超分辨率后的双目图像对进行视觉效果的比较。