CN113724308A

CN113724308A - 基于光度与对比度互注意力的跨波段立体匹配算法

Info

Publication number: CN113724308A
Application number: CN202111286968.1A
Authority: CN
Inventors: 李怡然; 张毅; 陈霄宇; 张权; 冯琳; 何丰郴; 滕之杰; 魏驰恒
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2021-11-30
Anticipated expiration: 2041-11-02
Also published as: CN113724308B

Abstract

本发明涉及基于光度与对比度互注意力的跨波段立体匹配算法，包括：1.采集数据集，2.搭建端到端的跨模态立体匹配网络，3.构建约束，4.构建注意力增强机制，5.模型训练，包括共有特征提取训练和共有特征的视差匹配训练。本发明完成了红外‑可见光立体匹配系统的搭建，提供可见光长波红外跨模态立体匹配算法；提出并设计基于自编码的特征相关性学习框架，在高层语义特征上挖掘不同波段共有信息；提出特征层约束与明度注意力约束机制，特征约束有效的提升了代价卷模块在跨模态立体匹配任务中的性能；明度注意力提高在低曝光条件下网络对有效信息获取的能力。

Description

基于光度与对比度互注意力的跨波段立体匹配算法

技术领域

本发明涉及一种基于光度与对比度互注意力的跨波段立体匹配算法，属于计算机视觉技术领域。

背景技术

夜间视觉感知问题，一直是计算机视觉领域的难点，但由于夜间视觉感知在无人驾驶等领域有很大的需求，构建性能良好的夜间视觉感知系统对于计算机视觉领域的发展有很大的作用，其中夜视三维重建在自动驾驶、机器人应用、无人搜救等任务中有广泛的应用场景前景。可见光与红外图像得信息表达上代表着不同模态得信息。根据Retinex理论和黑体辐射定理，可见这两种模态受不同条件的影响，表达了不同的物理信息。在这样不同的模态条件下，两者成像信息有着不同的特点，在暗光条件下，可见光在光照强度较低时信噪比较低，而红外图像则不受光照条件影响。根据这些特点，跨波段立体匹配算法有着自己的优势与难点。优势在于红外相较于可见光在夜间有着极高的信噪比，能够提供比可见光更多高置信度的信息，难点在于两种模态的信息不在同一个特征空间。如果能将两种模态信息进行融合，那么系统就可以在夜间视觉感知上达到很好的性能。

立体匹配算法是系统中非常重要的一个模块，夜间场景立体匹配算法一直是机器视觉领域的难题。随着深度学习的迅速发展，基于深度学习的立体匹配算法在立体匹配任务上取得了很好的效果，在双目可见光任务上有很多成熟的立体匹配算法，其中常见的一种方法为使用代价卷进行相似性度量，在可见光任务上，常见的方法是提取双目图像的高维特征，再做相似度匹配，得到视差图。由于左右图都为模态相同的可见光图像，空间上有很强的可比较性，因此用传统的特征提取方法，就可以得到较为准确的视差。而近年来结合深度网络提取深度视觉信息也大大提高了立体匹配算法的性能。但在夜间的双目立体匹配任务中，可见光在暗光条件下信噪比非常低，为了提高系统在夜间的性能，一种常用的方法是通过图像增强算法对可见光图像进行增强，来提高系统夜间感知能力。但是由于可见光在部分场景中信噪比低，仅通过图像增强对系统性能带来的提升有限，因此为了系统能在夜间视觉感知上取得良好的效果，在系统中引入另一波段，以提升系统获取信息的能力，利用不同模态提供的信息进行跨模态的立体匹配。然而跨模态立体匹配同样也是计算机视觉领域的难题。首先在跨模态任务上，由于左右图信息差别太大，传统的深度学习立体匹配算法无法在跨模态任务上达到良好的效果；而且，由于不同波段数据成像原理不同，导致不同波段关注的特征也不同，因此在匹配任务上具有一定的难度。目前主流的深度学习方法依赖于大量标定数据，而立体匹配任务的标定数据需要对双目相机进行精准的标定，然而由于两种不同模态相机内外参数难以协调，因此利用传统的标定方法难以获得很好的标定结果，因此双波段立体匹配任务的数据集难以获得。

发明内容

为了解决上述技术问题，本发明提供一种基于光度与对比度互注意力的跨波段立体匹配算法，其具体技术方案如下：

基于光度与对比度互注意力的跨波段立体匹配算法，包括以下步骤：

步骤1：采集数据集，利用长波红外相机、可见光相机和激光雷达相协同的数据采集系统采集数据，激光雷达提供视差真实值；

步骤2：搭建端到端的跨模态立体匹配网络，跨模态立体匹配网络包括特征提取层、代价卷、3d卷积层以及视差回归，特征提取层用来提取两种不同模态图片的共性特征，代价卷与卷积层用来匹配不同模态图片的共性特征，并通过视差回归返回视差；

步骤3：构建约束，在特征层上构建约束，包括基于特征一致性的高维特征约束、基于解码特性的内容保留约束和交叉一致性约束：

3.1基于特征一致性的高维特征约束，由于有视差真实值，因此通过视差真实值将不同模态提取到的特征互相映射，如公式（1）和（2）所示

（1）

（2）

式中红外图像表示为

,可见光图像表示为

，红外特征解码器输出表示为

,可见光特征解码器输出表示为

，卷积层从红外图像提取到的高维特征为

，从可见光图像提到的特征为

，真实视差图为

，特征视差图为

，根据特征视差，将红外图像特征在空间上映射到可见光图像特征域，如公式（3）所示

（3）

通过约束

和

，来直接约束编码器的特性，将不同模态信息通过编码器映射到相同的特征空间，并使该高维特征在空间上保持映射关系；

3.2基于解码特性的内容保留约束，引入特征保留损失函数对解码信息进行约束，根据编码器构成的编码网络构建对应的解码网络，通过可见光编码器和红外编码器提取到的特征利用相同的解码器进行解码，如公式（4）和（5）所示

（4）

（5）

公式（4）和（5）约束

和

，

和

，使编码网络尽量保留输入信息，供给解码器以还原输入；

3.3交叉一致性约束，增强的解码网络的性能，更好的解码相同信息，因为

和

在特征空间上有一致性，因此，解码

的解码器

，同样也可以解码

，同理

也一样，如公式（6）和（7）所示

（6）

（7）

式中，

和

为左目图像，因此在空间上通过

来进行对应约束，如公式（8）和（9）所示

（8）

（9）

因此，得到空间和特征空间上一致的输出图像：

，

，

，

，实现不同模态的特征匹配；

步骤4：构建注意力增强机制，包括明度特征注意力增强和对比度特征注意增强：

4.1明度特征注意力增强，将可见光转换成HSV色彩空间，提取其中的V通道作为明度权重，使得网络针对可见光图像信噪比较高的区域加强学习，提高对高信噪比区域的信息采集度，如公式（4.1）、（4.2）和（4.3）所示

（4.1）

（4.2）

（4.3）

式中可见光图像为

，

为权重，

为视差真实值；

4.2对比度特征注意增强，使用灰度级的概率密度函数的积分作为局部对比度的评价标准，当灰度级归一化至[0,1]内，则在选定区域内灰度概率密度分布可以表示为

为某灰度级，且

，计算其累计分布函数，如公式（4.4）所示

（4.4）

使用累计分布函数与

之差，在[0,1]之间的定积分作为判断对比度的依据，对比度越高，该定积分相对于

在[0,1]之间的定积分的比值越小，则对比度

如公式（4.5）所示

（4.5）

当红外图像为

，规定局部滑动窗为

，且对框内最大像素值与最小像素值差值

不大于

的对比度不予考虑，归一化后的局部红外图像为

，使用

的对比度指标来指代此像素位置的局部对比度，当

累积分布函数为

，图像局部对比度地图中的一点为

，则如公式（4.6）所示

（4.6）；

步骤5：模型训练，包括共有特征提取训练和共有特征的视差匹配训练，首先，同时训练左右图像作为输入的两个编解码网络，去除解码网络，采用端到端的学习方式训练主干网络，对编码后的高维特征进行视差学习。

进一步的，所述步骤1中数据采集中选择依靠辐射源的长波红外波段对可见光信息进行补全。

进一步的，所述步骤3中编码网络的编码结构采用特征提取层，解码网络利用反卷积层作为解码层。

本发明的有益效果：

本发明完成了红外-可见光立体匹配系统的搭建，提供可见光长波红外跨模态立体匹配算法；提出并设计基于自编码的特征相关性学习框架，在高层语义特征上挖掘不同波段共有信息；提出特征层约束与明度注意力约束机制，特征约束有效的提升了代价卷模块在跨模态立体匹配任务中的性能；明度注意力提高在低曝光条件下网络对有效信息获取的能力。

附图说明

图1是本发明的流程示意图，

图2是本发明的跨模态立体匹配网络示意图，

图3是本发明的自编码模型训练结构，

图4是本发明的编码特征空间验证过程示意图，

图5是本发明的编码网络验证示意图，

图6是本发明的红外图像和局部对比度特征图，

图7是本发明的特征一致性与明度注意力损失函数示意图，

图8是本发明的数据集示意图，

图9是本发明的特征一致性验证示意图，

图10是本发明的代价卷匹配的视差响应及曲线图，

图11是本发明的不同曝光条件的对比图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1所示，本发明的基于光度与对比度互注意力的跨波段立体匹配算法。为了提取各波段共性特征来进行立体匹配，需要对对齐的多波段图像进行共性特征挖掘。本发明基于视差真实值设计了一种共性特征提取的约束方案，通过视差真实值在特征层进行约束，从而使不同模态的数据具有特征之间的可比性，并且对红外和可见光图像进行分析，设计了基于不同模态图像特征的自适应的注意力增强机制。根据以上思路，本发明提供了一套完整的跨模态立体匹配方案，数据集方面，由于公开的立体匹配数据集以双目可见光居多，而在跨模态领域上公开的数据集很少，其中基于可见光与长波红外的更少，例如CAT 和LITIV。其中LITIV数据集为手动标注，因此密度很低，而CAT主要包含近景数据集，而且标定后的数据变形很严重，因此两者均不适用于本发明的系统。因此本发明构建了一套长波红外、可见光、激光雷达互相协作的数据采集系统，其中激光雷达为系统提供准确的深度信息。在算法层面，本发明利用在双目可见光立体匹配领域比较成熟的算法作为本发明的主干网络，在此基础上改进，设计出一套新的在跨模态领域可用的立体匹配算法，并且设计出新的约束方法对模型进行收敛，最终在自建数据集上达到良好的效果。

因此，本发明首先通过激光雷达辅助进行跨模态双目立体匹配数据集的采集，在现有经典双目可见光立体匹配深度学习算法的基础上加以改进，搭建可用的跨模态双目立体匹配算法，利用不同模态数据之间的信息关联性，设计出在特征层上的约束方法，并且利用可见光图像明度与红外图像对比度信息，设计出基于上述特征的注意力增强机制。最终在自建数据集上完成模型训练，并且达到很好的性能。最终完成跨模态立体匹配系统的搭建。

双可见光立体算法，在立体匹配算法方面，有很多成熟的基于KITTI数据集的立体匹配算法，Alex Kendall等人提出GCNet，首次将代价卷引入立体匹配领域，GCNet通过使用代价卷使用高层特征进行立体匹配。 Jia-Ren Chang等人提出金字塔立体匹配网络（PSMNet），他们重新设计了SPP模块结合空洞卷积扩大感受野，同时他们设计了堆叠沙漏3D卷积层进行视差匹配，最终在KITTI数据集上达到很好的效果。但是在夜间场景传统的立体匹配算法是不可用的，HaoyuanZhang等人提出了Retinex based Self Adaptive StereoMatching Network(RSAN)，RSAN分为两个部分图像增强和立体匹配，他们采集不同光照下的图片，用光线良好的图片作为真实值，去增强光线不好的图片，再将增强过的图片作为输入进行立体匹配，最终在暗光场景取得一定效果。Haoyuan Zhang等人通过对暗光图像进行增强来提高夜间场景信噪比，利用增强的图像进行视差估计，实现夜间场景的立体匹配。但是夜间场景由于信噪比很低，仅仅通过增强可见光无法达到很好的效果。可见光波段在夜间会有信息量不足的特点，所以需要其他波段的信息进行补足。Namil Kim等人提出多模态转换网络(MTN)，通过引入长波红外的波段来解决夜间三维重建的难题。虽然激光雷达获得精度很高的立体点云数据，但是由于激光雷达采样率低，高采样率的激光雷达成本过高，因此本发明选择依靠辐射源的长波红外波段对可见光信息进行补全。

跨模态立体匹配算法，在跨模态立体匹配领域上，Mingyang Liang等人提供了可见光-近红外立体匹配算法Cross-spectral Stereo Matching by Learning toSynthesize(CSMLS)，CSMLS分为spectral translation network (STN) and stereomatching network (SMN)两部分，其中STN利用CYCLE GAN将近红外图像预测为可见光图像，然后用预测的可见光图像和另一路可见光图像通过SMN进行立体匹配，实现了近红外与可见光的立体匹配。David-Alexandre Beaupre等人提出了Siamese CNNs for RGB-LWIRDisparity Estimation通过Siamese CNNs以及图像块匹配实现了基于深度学习的长波红外与可见光图像的深度预测，由于采用的是LITIV的稀疏视差数据集，因此他们只能基于图像块匹配而不能进行稠密的视差匹配。Namil Kim等人提出了Multispectral TransferNetwork(MTN)，他们通过单张长波红外图像进行单目的深度预测。MTN利用单张长波红外图像作为输入预测视差，再通过预测出来的视差将配准过的双目可见光图像进行映射，通过映射的图像互相约束，从而实现在自建KAIST数据集上的自监督视差预测。然而由于MTN本质上是一个单目深度预测的任务，因此深度预测的精度不高。综上所述，现阶段还没有成熟的可见光-长波红外的立体匹配算法。

本发明设计了一种端到端的跨模态立体匹配网络，通过搭建跨模态特征提取网络和特征立体匹配网络实现。网络分为特征提取层、代价卷、3d卷积层以及视差回归，如图2所示，特征提取层用来提取两种不同模态图片的共性特征；代价卷与3d卷积层用来匹配这些共性特征；最后通过视差回归返回视差。其中，(a)为本发明的主干网络，输入为左红外图像和右可见光图像，输出为右目深度预测值。(b)和(c)分别为用于解码红外特征和可见光特征的上采样网络，输入为红外特征或可见光特征，输出为最初的红外图像或可见光图像，在预训练过程中，他帮助编码网络对红外图像和可见光特征的学习。其中，本发明参考GCNet的思路将代价卷结构应用到本发明的算法中。本发明将两种不同模态的高维特征组合成尺寸为H×W×C×max disparity（其中C为feature size）的代价卷来进行相似性度量。这种方式可以将两种不同模态数据的特征进行有效的统一，从而让后续的3D卷积、视差回归等模块有更好的性能。

立体匹配任务需要匹配两幅图像之间的共性特征，但是由于可见光与红外图像在空间上的特征信息不同。为此本发明设计了一种约束方法，尽可能让卷积层能够从不同模态数据中获取相同的高维特征，并反应到空间上去。本发明利用视差真实值，对特征层进行视差平移，并将左右特征放在同一个空间上进行比较，从而进行一致性约束。在编码模块的预训练过程中，为了使特征提取网络不全输出0，本发明将其输出的高维特征输入了另一对解码网络，如图2中(b)和(c)所示，再用红外图像和可见光图像约束解码模块的输出，以保证编码模块特征信息不消失，过程如图3所示。在主干网络的训练过程中，本发明用PSMNet作为本发明的主干网络，不同的是，本发明在编码模块的权重是独立的，并且在高维特征层加入新的特征约束。最后将约束后的特征送入代价卷进行特征匹配。本发明算法的主干结构如图2中(a)所示。让两条编码模块分别学习出左右同模态图需要的特征是有难度的，他们往往会映射到不同的特征空间，导致输出计算代价卷时难以匹配。在同模态立体匹配任务中，大部分立体匹配网络让两条分支的参数进行共享，这样可以保证卷积层能对相同目标提取到一样的特征。事实证明这种结构确实在单一模态的立体匹配上具有很好的性能，但是这种结构难以提取不同模态的数据下相同目标的一致性特征，尤其是可见光波段和长波红外波段这种模态差异巨大的数据。为了解决这个问题，本发明使两个编码模块具有独立的权重，这样提取特征层可以将不同的模态信息送入相同的特征空间。如图3所示，自编码模型训练结构，其中编码模型的学习结果作为预训练模型进入主干网络的学习。如图4所示，编码特征空间趋于相同的验证过程：不同模态的特征信息输入相同解码器后，输出是趋于相同。

基于特征一致性的高维特征约束，特征一致性损失函数旨在让网络尽可能去得到两种模态数据相同的特征。由于有视差真实值，因此可以通过视差真实值将不同模态提取到的特征互相映射。本发明假设红外图像表示为

,可见光图像表示为

，红外特征解码器输出表示为

,可见光特征解码器输出表示为

，卷积层从红外图像提取到的高维特征为

，从可见光图像提到的特征为

，真实视差图为

，特征视差图为

，其中：

根据特征视差，将红外图像特征在空间上映射到可见光图像特征域：

通过约束

和

，来直接约束编码器的特性。通过这种方式将不同模态信息通过编码器映射到相同的特征空间，并使该高维特征在空间上保持映射关系。

基于解码特性的内容保留约束，特征一致性约束能够排除本发明跨模态信息中无法匹配的部分，但是这样引入了新的问题，特征信息中可以匹配的部分也会被排除，导致输出全0或全1。特征一致性约束虽然可以约束不同模态信息的一致性特征表达，不代表能约束其编码过程中的信息丢失。为了保留本发明需要的信息，本发明引入特征保留损失函数对解码信息进行约束，如图3中的内容loss。为了使不同的自编码模块输出内容不消失，本发明为两个编码网络设计了与之对应的解码网络，其中编码结构采用前一章的特征提取层，解码层利用反卷积层进行解码，本发明同样在特征层加入特征一致性损失函数，网络模型如图3所示，网络结构分为编码模块和解码模块，红外编码模块和可见光编码模块分别将红外和可见光图像提取到相似的特征空间，然后本发明将提取到的特征通过特征一致性损失函数进行约束，解码层利用多个反卷积层将特征上采样为与输入相同尺度的图片，并将得到的图片与原始输入计算均方差损失以确保编码层不会丢失信息。在推理过程中本发明将分别通过可见光编码器和红外编码器提取到的特征利用相同的解码器进行解码。

其中，本发明约束

和

，

和

，使编码网络尽量保留输入信息，供给解码器以还原输入。这是为了在一致性约束的基础上，尽量不让网络向消除信息量的方向拟合。由于解码器与编码器之间没有跳层连接，编码器不得不保留足够的信息量。预训练过程中本发明发现，当本发明对解码模块进行约束，可以得到有效的特征信息，而当不进行内容保留约束时，高维特征会逐渐趋向于全0。如果单独取出其中一组编解码网络来看，此约束就是将原图输入作为输出的真实值，编解码网络就是一个无损编解码系统。通过这种方式，可以看到空间特征信息得以被保留，并且不同模态的特征信息输入相同解码器后具有一定的相似性，也印证了本发明的策略是有效的。最后，本发明可以直接观察到两种不同方式的编码提取出来的特征，证明编码器的有效性。如图5所示，输入图像

和

经过编解码系统后输出的大致相同的

和

，说明编码网络保留了大部分输入图像的信息。

交叉一致性约束。对于编码网络，一致性约束和内容约束为网络提供了一个大致的计算规则，前者约束了编码网络学习双目相同特征，后者约束编解码网络保留特征。而为了增强的解码网络的性能，本发明设计了另一个约束，用以约束本发明的网络更好的解码两者相同信息，如图4所示。因为

和

在特征空间上有一致性，因此，解码

的解码器

，同样也可以解码

，同理

也一样，可得：

其中，

和

为左目图像，因此，在空间上，通过

来进行对应约束，具体如下：

本发明得到了空间和特征空间上都一致的四张输出图像：

，

，

，

。本发明发现通过约束两两之间的关系，可以让解码网络对高维特征的解码方式趋于一致。

基于视觉注意力的视差回归。由于不同模态在不同区域获取的信息量有明显不同，例如可见光在暗处的信噪比较低，而红外图像中同物体的温度变化不大导致部分场景对比度低，缺少纹理和梯度。因此本发明分别根据可见光与红外图像的特性，设计了基于这些特性的注意力权重来增强对特定信息的学习。

明度特征注意力增强。如图6中Value attention loss所示。本发明将可见光转换成HSV色彩空间，并提取其中的V通道作为明度权重，让网络针对可见光图像信噪比较高的区域加强学习。提高对高信噪比区域的信息采集度。假设可见光图像为

，本发明将它映射到HSV空间，并取其中V(Value)通道作为注意力权重依据，则有：

两者关系为

本发明的权重

为

对比度特征注意力增强。如图6中Contrast attention loss所示。本发明计算了红外图像的局部对比度，并以对比度为依据作为对比度注意力权重。由于在红外图像中，无论是前景还是背景，一方面，单个物体的温度较为均匀，另一方面，受制于红外成像的特性，红外图像通常具有较低的分辨率和对比度。两者导致在红外图像上的梯度较为平滑，只有物体之间的边缘处才存在一定的跳变。为了加强这一纹理信息，本发明增加高对比度区域的权重，这样可以增强对物体边缘信息的学习。另外，在双目立体匹配任务中，物体边缘的深度跳变总是无法学到很好的结果，加强边缘权重，可以有效增加对边缘位置的学习强度。本发明使用灰度级的概率密度函数的积分（累积分布函数）来作为局部对比度的评价标准。假设灰度级归一化至[0,1]内，则在选定区域内灰度概率密度分布可以表示为

为某灰度级，且

。

计算其累计分布函数得：

本发明使用累计分布函数与

之差，在[0,1]之间的定积分作为判断对比度的依据：对比度越高，该定积分相对于

在[0,1]之间的定积分的比值越小，则对比度

可表示为：

假设红外图像为

，规定局部滑动窗为

。并且，本发明对框内最大像素值与最小像素值差值

不大于

的对比度不予考虑。归一化后的局部红外图像为

，本发明使用

的对比度指标，来指代此像素位置的局部对比度。本发明设

累积分布函数为

，假设图像局部对比度地图某点为

，则：

如图6所示，在温度差异大的物体交界处局部对比度较大，而物体内部的对比度较小。计算结果如图6中contrast图像所示。这样本发明就可以对红外图像中较高对比度图像进行机枪学习。更好的利用红外图像中的有效信息。在训练过程中，本发明将

作为一种二维的权重来改变网络着重学习的红外图像的局部位置。图6中，ir为红外图像， contrast为计算得到的局部对比度特征图。a和b点分别为物体交界处与物体内部的两个采样快，右侧两表分别指a和b采样块的灰度累计分布函数

和

的函数图像对比。

训练过程中的损失函数。传统的立体匹配网络通过约束预测到的视差图来约束整个网络的收敛，而在本发明的任务中，由于特征提取模块需要两条分支去学习不同模态下的特征，因此，仅约束预测的视差无法很好的收敛特征提取层，而本发明希望特征提取层能提取两种模态数据相同内容的共有特征，这样才能让后续的代价卷和3D卷积层更有效地发挥他们的作用。因此，本发明将整个训练过程分为两步，第一步是共有特征提取的训练，第二步是对共有特征的视差匹配训练。首先，本发明同时训练左右图像作为输入的两个编解码网络，如图3所示，这两个网络的训练是一起进行的。其次，本发明去除解码网络，采用端到端的学习方式训练主干网络，对编码后的高维特征进行视差学习。主干网络的训练过程中两个解码网络模块不参与训练。

由于解码器输出的高维特征具有特征一致性，本发明通过相同尺度下的视差进行回归：

结合上公式：

如图3中的contentloss，假设红外图像表示为

,可见光图像表示为

，红外特征解码器输出表示为

,可见光特征解码器输出表示为

，则有：

contentloss则表示为：

。

由于左右图像之间存在映射关系，在内容保留loss的约束下，解码器的输出也将存在映射关系，因此可以利用地面真值去约束两者之间的位置关系，本发明用mse来评价这种映射后的对比，而这样的loss本发明称之为交叉loss。因此，在空间上，他们可通过

来进行对应约束，具体如下：

最终，本发明预训练模型的loss为：

。

在很多场景红外与可见光可匹配区域有差别，因此，对于每个像素点都进行同等的约束会对模型拟合造成许多不利因素。为解决这个问题，本发明设计了针对可见光图像与红外图像不同特点的注意力增强机制。基于以上两点，如图7所示本发明设计了两个损失函数：特征一致性损失函数与明度注意力损失函数。公式如下所示：

Loss=loss（0.5+0.7+1 smooth_l1_loss(output,gt)）*(1+contrast+value)+

。

实验阶段。深度学习需要大量的标注数据，但是立体匹配任务需要稠密标注的视差真实值，在单一模态立体匹配领域有KITTI数据集，并且很多任务在该数据集上达到了很好的效果，但是在跨模态领域上，数据集较少例如LITIV、CATS，而且各有各的局限性，LITIV数据集密度很低，CATS数据集图像形变过大等。因此为了获取大景深跨模态立体匹配数据集，本发明模仿KITTI数据集利用长波红外相机、可见光相机和激光雷达相协同的数据采集系统采集数据，激光雷达用来提供视差真实值。本发明在校园内采集夜间不同温度湿度条件下的数据共计763组，分为641组验证集，122组测试集，每组数据包含7张不同曝光时间的可见光图像、红外图像、以及视差真实值，本发明采集的数据如图8所示。从左至右分别为曝光2000μs、6000μs、10000μs、14000μs、18000μs、22000μs、26000μs以及85000μs的可将光图片，红外图片以及视差真实值。由于夜间光线对可见光影响较大，因此本发明采集8种不同曝光时长的可见光数据，借此研究不同曝光条件下的可见光图像对立体匹配算法的影响，并且由于环境温度以及湿度等条件对红外图像的成像质量影响较大，因此本发明采集了多种不同温度、湿度条件下的红外图像让数据集尽可能覆盖更多的场景。

本发明利用采集的数据集进行模型训练，本发明利用自编码网络训练好的下采样模型作为特征提取层的预训练模型，以缩短训练时间。本发明利用PyTorch进行模型的训练，输入图片本发明采用随机裁剪为512*512的图片，最大视差设计为192，并且在预处理阶段对可见光数据进行双边滤波处理以增强信噪比。自编码模型训练时用0.0001的学习率训练10次迭代，最终的立体匹配模型特征提取层学习率为0.0001，其他层的学习率设为0.001，批大小设为6，学习500个迭代，本发明利用双路NVIDIA TITAN RTX显卡经过50个小时的训练完成模型的拟合。对于8种不同曝光数据，每组数据单独完成模型训练，每一组数据都进行500次迭代，最终完成所有曝光条件下模型的训练。

训练该模型时本发明采用600组数据作为训练集，100组数据作为验证集进行模型的训练，本发明将可见光图像与红外图像提到的特征分别通过训练过的可见光解码器与红外解码器，分别得到两组图像，并比较他们的特性。结果如图9所示，可以看出无论是红外解码器还是可见光的解码器，均可以利用不同编码器提取到的特征并返回一定的信息，因此利用该约束可以让网络从不同模态数据提取到共有特征。为了进行对比本发明同时训练了没有特征一致性约束的模型，同样按照之前的验证方法，完成多组数据，虽然没有特征约束的情况下不同模态的编解码器能够提取到一定程度的特征，但是他们都丢失了很多信息，也就是说不采用特征约束难以提取到不同模态之间的共性特征。综上所述，本发明设计的特征一致性约束可有效地统一不同模态信息的一致性特征，并尽可能的保留多的细节，从而能够让代价卷进行更好的匹配。相比不采用特征约束，该方法在跨模态数据特征的融合和匹配上有很大的帮助。因此该方法在立体匹配问题上具有很好的性能。

本发明对比了不同曝光下的实验结果，包括6000μs至85000μs曝光时间下模型训练结果，本发明在122组测试集下进行测试最终实验结果如表1所示。如表中所见，可见光曝光时间对于网络的性能有很大的影响，随着曝光时间增加，立体匹配精度也随之增加，同时本发明也比较了相同曝光条件下不同约束条件下的结果，如表2所示，无论是对于何种曝光的数据，引入特征约束可以有效的提升跨模态立体匹配的精度，并且明度注意力在低曝光条件下对精度提升更明显。同时如图10所示，代价卷可以有效地找出不同模态特征之间的关联性，并且在可见光信息不足的条件下也可以得到很好的效果。本发明的实验结果如图7所示，对于在不同模态下差异性较大的目标，本发明的模型都能对它们们进行很好的匹配，并且对于墙壁、路面这种弱特征的目标也能够进行很好的预测。

表1：不同曝光对网络预测性能的影响

为验证本发明特征loss和注意力loss的有效性，本发明对个别不同曝光条件的图像做了比较。实验结果显示两个损失函数均能提升网络的预测能力。

表2：Feature loss和Attentionloss的有效性

实验证明，本发明的网络对测试集也有着良好的预测能，如图11所示，图11中（a）左目红外图像，（b）右目可见光图像，（c）预测视差值，（d）表面真实值。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。