CN115375930A

CN115375930A - 基于多尺度信息的立体匹配网络及立体匹配方法

Info

Publication number: CN115375930A
Application number: CN202211314567.7A
Authority: CN
Inventors: 方弘毅; 王登奎; 杨明; 邹远禄; 杨上峰; 张帅; 陈涛
Original assignee: AECC Sichuan Gas Turbine Research Institute
Current assignee: AECC Sichuan Gas Turbine Research Institute
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2022-11-22
Anticipated expiration: 2042-10-26
Also published as: CN115375930B

Abstract

本发明提供了一种基于多尺度信息的立体匹配网络及立体匹配方法，立体匹配网络包括金字塔编码器、特征体构造模块、视差生成约束模块、特征体解码器。其中金字塔编码器包括两组带有跳层连接的编码器‑解码器模块；特征体解码器内设有多个解码器模块，所述解码器模块输出端连接有多尺度特征自适应融合模块，所述多尺度特征自适应融合模块输出两个红外图像融合后的立体图像。本发明设计的立体匹配网络及立体匹配方法，解决红外成像存在可用信息少，大面积弱纹理、无纹理的问题。

Description

基于多尺度信息的立体匹配网络及立体匹配方法

技术领域

本发明属于测试技术领域，涉及一种基于多尺度信息的立体匹配网络及立体匹配方法。

背景技术

近年来，随着人工智能领域的快速发展，研究双目视觉系统，使计算机进行快速分析和复杂计算，从而获得对外界环境辨别和感知能力的技术逐步进入人们的视野。其中，立体匹配作为计算机视觉研究的一个热点问题，最重要的任务是利用左右图像的成像差异寻找目标视图的视差值。而视差值是由左、右图像的相应像素位置的差异决定，这与人类视觉系统中左眼和右眼看到的图像相似。

立体匹配算法则是根据左右图像的信息来预测出视差值, 然后可以从视差图中得到相机和物体之间的距离。基于传统模型的立体匹配方法可分为局部方法和全局方法，局部方法计算量低并且运行速度快；全局方法通常基于马尔科夫随机场生成视差，全局方法为视差输出提供了更好的准确性，但也带来了计算的复杂。

众所周知，温度高于绝对零度的物体都在不停地向周围空间辐射能量，而物体的辐射特性决定了其辐射能量的大小，同时由于辐射测温的最佳工作波长全部落在红外波段内，因此通过测量物体自身的红外辐射能量，便可准确获得其表面温度值。其与常规测温技术相比，红外成像技术具有测温范围广、非接触的优点，并且可快速实时的测量面域温度分布。

但是由于红外热像纹理稀疏且分辨率低，导致现有的立体匹配算法难以使红外热像获得好的匹配结果；而且局部方法在处理弱纹理或无纹理的图像时，容易造成数据信息丢失的情况，因此针对红外热像立体匹配的研究更具有必要性。

发明内容

为了解决红外图像在处理弱纹理或无纹理的图像时，由于纹理信息弱且分辨率低，容易造成数据信息丢失的问题，本发明设计了一种基于多尺度信息的立体匹配网络及立体匹配方法，其能够在更大视差范围内进行匹配。

实现发明目的的技术方案如下：

第一方面，本发明提供了一种基于多尺度信息的立体匹配网络，包括：

金字塔编码器，所述金字塔编码器包括两组带有跳层连接的编码器-解码器模块；

特征体构造模块，所述特征体构造模块的输入端与所述金字塔编码器连接，输出端与特征体解码器的输入端连接；

视差生成约束模块，所述视差生成约束模块的输入端与所述金字塔编码器连接，输出端与特征体解码器的输入端连接；

所述特征体解码器内设有多个解码器模块，所述解码器模块输出端连接有多尺度特征自适应融合模块，所述多尺度特征自适应融合模块输出两个红外图像融合后的立体图像。

进一步的，金字塔编码器带有跳层连接的编码器-解码器模块包括卷积层、池化层、残差层；

所述卷积层提取红外图像的浅层特征，并输出红外图像的1/4尺寸特征图像；

所述池化层与所述卷积层连接，所述池化层将1/4尺寸特征图像还原为红外图像的大小并输出至所述残差层；

所述残差层与所述池化层连接，所述残差层包括4个依次连接的残差块，所述残差层对所述池化层输出的图像提取高级特征，并依次输出红外图像的1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像；

所述池化层对所述残差层输出的1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像进行整合后输出上下文信息。

进一步的，所述特征体构造模块与所述残差层中最末端的所述残差块连接，将最末端的所述残差块输出的1/64尺寸特征图像，依据上下文信息和预定义的视差范围，将两个红外图像的1/64尺寸特征图像之间的差异作为比配代价，构建并输出1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体。

进一步的，所述视差生成约束模块包括4个依次连接的视差注意力模块，且所述视差注意力模块与所述残差块一一对应并连接；

所述视差注意力模块对与其连接的各所述残差块输出的尺寸特征图像，利用门控自适应方法进行红外图像降噪及成像一致性调整，对1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体增加特征通道维度，输出1/8尺寸4D特征体、1/16尺寸4D特征体、1/32尺寸4D特征体、1/64尺寸4D特征体。

进一步的，每一个3D特征体均包含3个维度，分别为长度、宽度、视差。

进一步的，所述解码器模块有3个，第一个所述解码器模块输入1/64尺寸4D特征体，输出解码后特征；

第二个所述解码器模块与第一个所述解码器模块连接，输入第一个所述解码器模块输出的解码后特征，以及1/32尺寸4D特征体，输出解码后特征；

第三个所述解码器模块与第二个所述解码器模块连接，输入第二个所述解码器模块输出的解码后特征，以及1/16尺寸4D特征体，输出解码后特征；

所述多尺度特征自适应融合模块对3个所述解码器模块输出的解码后特征进行融合，并输出两个红外图像融合后的立体图像。

第二方面，本发明提供了一种基于多尺度信息的立体匹配方法，包括以下步骤：

S1、提取并输出两个红外图像的多尺度特征图像；

S2、依据多尺度特征图像中最小尺寸特征图像，并按照预先定义的视差范围，计算两个最小尺寸特征图像的差异作为比配代价，构建并输出1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体；

S3、对步骤S2中各3D特征体增加特征通道维度，构建并输出各尺寸3D特征体的4D特征体；

S4、对4D特征体进行解码，输出两个红外图像融合后的立体图像。

进一步的，多尺度特征图像为4个尺度特征图像，包括红外图像的1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像，且步骤S1中，提取并输出两个红外图像的多尺度特征图像的方法，包括：

S101、分别提取两个红外图像的浅层特征，并将红外图像编码为1/4特征尺寸图像；

S102、将1/4特征尺寸图像经池化层还原为与原红外图像大小相同的图像；

S103、将步骤S102的图像输入4个步幅为2的残差块提取高级特征，分别编码为1/8尺寸图像、1/16尺寸图像、1/32尺寸图像、1/64尺寸图像；

S104、将1/8尺寸图像、1/16尺寸图像、1/32尺寸图像、1/64尺寸图像输入池化层中整合后输出上下文信息；

S105、对1/8尺寸图像、1/16尺寸图像、1/32尺寸图像、1/64尺寸图像分别解码，并融合步骤S104中的上下文信息，输出1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像。

进一步的，步骤S3中，各3D特征体增加特征通道维度的方法为：采用门控自适应方法对1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体进行红外图像降噪及成像一致性调整，对各尺寸3D特征体增加特征通道维度后输出各尺寸3D特征体的4D特征体。

进一步的，步骤S4中，4D特征体解码的方法包括：

S401、第一个所述解码器模块输入1/64尺寸4D特征体，输出解码后特征；

S402、第二个所述解码器模块与第一个所述解码器模块连接，输入第一个所述解码器模块输出的解码后特征，以及1/32尺寸4D特征体，输出解码后特征；

S403、第三个所述解码器模块与第二个所述解码器模块连接，输入第二个所述解码器模块输出的解码后特征，以及1/16尺寸4D特征体，输出解码后特征；

S404、对步骤S401~S403中输出的解码后特征进行融合，输出两个红外图像融合后的立体图像。

与现有技术相比，本发明的有益效果是：本发明设计的基于多尺度信息的立体匹配网络及立体匹配方法，获得的立体图像噪声更少且更加准确，其对于图像中纹理稀疏的部分也可以准确的匹配，解决了红外图像立体匹配时存在可用信息少、大面积弱纹理、无纹理的问题。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明为了更清楚地说明本发明实施例或现有技术中的技术方案，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为实施例1中基于多尺度信息的立体匹配网络的架构图；

其中，100.金字塔编码器；200.特征体构造模块；300.视差生成约束模块；400.特征体解码器。

具体实施方式

下面结合具体实施例来进一步描述本发明，本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的，并不对本发明的范围构成任何限制。本领域技术人员应该理解的是，在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换，但这些修改和替换均落入本发明的保护范围内。

在本实施例的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明创造和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明创造的限制。

此外，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中，除非另有说明，“多个”的含义是两个或两个以上。

实施例1：

本实施例提供了一种基于多尺度信息的立体匹配网络，参阅图1所示，参阅图1所示，基于多尺度信息的立体匹配网络包括金字塔编码器100、特征体构造模块200、视差生成约束模块300、特征体解码器400。

其中，所述金字塔编码器100包括两组带有跳层连接的编码器-解码器模块，在本具体实施方式中，金字塔编码器100为FCN架构类型，其可以有效提取不同层次的特征，同时保存不同的尺度信息。

在一个可选的实施例中，带有跳层连接的编码器-解码器模块包括卷积层、池化层、残差层。

所述卷积层提取红外图像的浅层特征，并输出红外图像的1/4尺寸特征图像。

所述池化层与所述卷积层连接，所述池化层将1/4尺寸特征图像还原为红外图像的大小并输出至所述残差层。

所述残差层与所述池化层连接，所述残差层包括4个依次连接的残差块，所述残差层对所述池化层输出的图像提取高级特征，并依次输出红外图像的1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像。

本实施例中，通过残差层取代了部分池化层，能够避免多层池化对红外图像中物体边界信息的影响，同时加速了立体匹配网络模型的收敛。

其中，特征体构造模块200的输入端与所述金字塔编码器100连接，输出端与特征体解码器400的输入端连接，在本具体实施方式中，特征体构造模块200具有两类特征体的构造方式，一类是引入相关层计算两个红外图像中特征的相关性，其通过点乘进行计算，另一类是显示编码不同视差之间的特征，然后通过3D卷积进一步的处理特征信息。

在一个可选的实施例中，所述特征体构造模块200与所述残差层中最末端的残差块连接（即特征体构造模块200分别与两组带有跳层连接的编码器-解码器模块中残差层的最后一个残差块连接），将最末端的所述残差块输出的1/64尺寸特征图像，依据上下文信息和预定义的视差范围，将两个红外图像的1/64尺寸特征图像之间的差异作为比配代价，构建并输出1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体。

其中，视差生成约束模块300的输入端与所述金字塔编码器100连接，输出端与特征体解码器400的输入端连接。

在一个可选的实施例中，所述视差生成约束模块300包括4个依次连接的视差注意力模块，且所述视差注意力模块与所述残差块一一对应并连接。本实施例中，视差生成约束模块300选用GFT模块（图信号傅里叶变换（Graph Fourier Transform，GFT））。

进一步的，上述每一个3D特征体均包含3个维度，分别为长度、宽度、视差。

其中，所述特征体解码器400内设有多个解码器模块，所述解码器模块输出端连接有多尺度特征自适应融合模块，所述多尺度特征自适应融合模块输出两个红外图像融合后的立体图像。

在一个可选的实施例中，解码器模块有多个，且解码器模块的数量与特征图像的尺寸数量有关，例如当金字塔编码器100处理后输出有1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像共3个尺寸时，此时解码器模块有两个；当金字塔编码器处理后输出有1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像、1/128尺寸特征图像时，此时解码器模块有4个。在本实施例中，所述解码器模块有3个（即对应金字塔编码器100处理后输出有1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像共4个尺寸特征图像）。

具体的，第一个所述解码器模块输入1/64尺寸4D特征体，输出解码后特征；第二个所述解码器模块与第一个所述解码器模块连接，输入第一个所述解码器模块输出的解码后特征，以及1/32尺寸4D特征体，输出解码后特征；第三个所述解码器模块与第二个所述解码器模块连接，输入第二个所述解码器模块输出的解码后特征，以及1/16尺寸4D特征体，输出解码后特征；

本实施例提供的基于多尺度信息的立体匹配网络，获得的立体图像噪声更少且更加准确，其对于图像中纹理稀疏的部分也可以准确的匹配。

实施例2：

本实施例提供了一种基于多尺度信息的立体匹配方法，包括以下步骤：

S1、提取并输出两个红外图像的多尺度特征图像。

本步骤中，多尺度特征图像为4个尺度特征图像，包括红外图像的1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像，且步骤S1中，提取并输出两个红外图像的多尺度特征图像的方法，包括：

S2、依据多尺度特征图像中最小尺寸特征图像，并按照预先定义的视差范围，计算两个最小尺寸特征图像的差异作为比配代价，构建并输出1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体。

S3、对步骤S2中各3D特征体增加特征通道维度，构建并输出各尺寸3D特征体的4D特征体。

本步骤中，各3D特征体增加特征通道维度的方法为：采用门控自适应方法对1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体进行红外图像降噪及成像一致性调整，对各尺寸3D特征体增加特征通道维度后输出各尺寸3D特征体的4D特征体。

本步骤中，4D特征体解码的方法包括：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于多尺度信息的立体匹配网络，其特征在于，包括：

2.根据权利要求1所述的基于多尺度信息的立体匹配网络，其特征在于：带有跳层连接的编码器-解码器模块包括卷积层、池化层、残差层；

3.根据权利要求2所述的基于多尺度信息的立体匹配网络，其特征在于：所述特征体构造模块与所述残差层中最末端的所述残差块连接，将最末端的所述残差块输出的1/64尺寸特征图像，依据上下文信息和预定义的视差范围，将两个红外图像的1/64尺寸特征图像之间的差异作为比配代价，构建并输出1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体。

4.根据权利要求3所述的基于多尺度信息的立体匹配网络，其特征在于：所述视差生成约束模块包括4个依次连接的视差注意力模块，且所述视差注意力模块与所述残差块一一对应并连接；

5.根据权利要求4所述的基于多尺度信息的立体匹配网络，其特征在于：每一个3D特征体均包含3个维度，分别为长度、宽度、视差。

6.根据权利要求5所述的基于多尺度信息的立体匹配网络，其特征在于：所述解码器模块有3个，第一个所述解码器模块输入修正后1/64尺寸4D特征体，输出解码后特征；

第三个所述解码器模块与第二个所述解码器模块连接，输入第二个所述解码器模块输出的解码后特征，以及修正后1/16尺寸4D特征体，输出解码后特征；

7.一种基于多尺度信息的立体匹配方法，其特征在于，包括以下步骤：

S1、提取并输出两个红外图像的多尺度特征图像；

8.根据权利要求7所述的基于多尺度信息的立体匹配方法，其特征在于，多尺度特征图像为4个尺度特征图像，包括红外图像的1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像，且步骤S1中，提取并输出两个红外图像的多尺度特征图像的方法，包括：

9.根据权利要求8所述的基于多尺度信息的立体匹配方法，其特征在于：步骤S3中，各3D特征体增加特征通道维度的方法为：采用门控自适应方法对1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体进行红外图像降噪及成像一致性调整，对各尺寸3D特征体增加特征通道维度后输出各尺寸3D特征体的4D特征体。

10.根据权利要求9所述的基于多尺度信息的立体匹配方法，其特征在于：步骤S4中，4D特征体解码的方法包括：