CN113140011B

CN113140011B - 一种红外热成像单目视觉测距方法及相关组件

Info

Publication number: CN113140011B
Application number: CN202110541321.2A
Authority: CN
Inventors: 王建生; 刘斌; 李港庆; 王水根; 康萌萌
Original assignee: Iray Technology Co Ltd
Current assignee: Iray Technology Co Ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2022-09-06
Anticipated expiration: 2041-05-18
Also published as: WO2022241874A1; CN113140011A

Abstract

本发明公开了一种红外热成像单目视觉测距方法，该方法针对用于对红外图像进行视差推理提出了一项新的损失函数：边缘损失函数，该边缘损失函数为根据图像帧的边缘特征与相邻图像帧的边缘特征空间投影间的差值进行边缘损失约束的函数，在该损失函数的约束下，先提取红外图像的边缘再将源图像和目标图像的边缘进行匹配，红外单目测距深度神经网络可以比较精准的定位各像素点，从而可以降低图像重投影时的像素误匹配，提升图像预测深度和相机估计姿态的更新准确度，提升相对视差图的精准度，从而进一步提升测距精准度。本发明还公开了一种红外热成像单目视觉测距装置、设备及可读存储介质，具有相应的技术效果。

Description

一种红外热成像单目视觉测距方法及相关组件

技术领域

本发明涉及视觉测距技术领域，特别是涉及一种红外热成像单目视觉测距方法、装置、设备及可读存储介质。

背景技术

视觉测距在自动驾驶及红外精准测温领域是必不可少的关键技术。在视觉测距中，与常用的激光雷达和双目测距相比，无监督单目视觉测距由于其低成本、便于部署、工艺要求低等特点，吸引了众多研究者的注意。

虽然基于可见光单目视觉测距取得了重大发展，然而在夜间、雾天等场景，可见光并不适用，而红外热成像是有益的补充。但与可见光图像相比，红外图像有对比度低、动态范围宽、图像不连续、信噪比低、低纹理等缺点，简单地将可见光的单目视觉测距算法应用于红外热成像的单目视觉测距，会导致训练崩溃、精度低、深度图像边缘模糊等问题，难以满足用户需求。

综上所述，如何实现高精准的红外热成像单目视觉测距，是目前本领域技术人员急需解决的技术问题。

发明内容

本发明的目的是提供一种红外热成像单目视觉测距方法、装置、设备及可读存储介质，以实现高精准的红外热成像单目视觉测距。

为解决上述技术问题，本发明提供如下技术方案：

一种红外热成像单目视觉测距方法，包括：

获取红外热成像仪的内参矩阵，以及所述红外热成像仪针对目标对象采集生成的红外图像；

调用预训练的红外单目测距深度神经网络根据所述内参矩阵对所述红外图像进行视差推理，得到相对视差图；其中，所述红外单目测距深度神经网络的损失函数中包括边缘损失函数，所述边缘损失函数为根据图像帧的边缘特征与相邻图像帧的边缘特征空间投影间的差值进行边缘损失约束的函数；

根据所述相对视差图确定绝对深度，并将所述绝对深度作为测距结果。

可选地，所述红外单目测距深度神经网络的多尺度特征提取层中包括BiFPN层，所述BiFPN层用于根据不同尺度视差图之间的关联性加强特征融合。

可选地，所述红外单目测距深度神经网络的残差网络采用CSPNet网络。

可选地，所述红外单目测距深度神经网络包括深度估计网络以及姿态网络。

可选地，所述红外单目测距深度神经网络的训练方法包括：

获取所述红外热成像仪采集生成的连续图像，第一图像以及第二图像；其中，所述第二图像为第一图像的相邻帧图像；

调用所述深度估计网络对所述第一图像进行深度计算，得到深度图；

调用所述姿态网络对所述第一图像以及所述第二图像进行位姿变化计算，得到位姿变化矩阵；

根据所述位姿变化矩阵以及所述深度图调用相邻图像间像素投影关系公式对所述第一图像进行图像重构，得到重构第一图像；

根据所述重构第一图像以及所述第一图像进行网络训练。

可选地，所述损失函数中还包括：重投影损失函数以及边缘平滑度损失函数。

可选地，所述损失函数为所述重投影损失函数、所述边缘平滑度损失函数以及所述边缘损失函数的加权和。

一种红外热成像单目视觉测距装置，包括：

数据获取单元，用于获取红外热成像仪的内参矩阵，以及所述红外热成像仪针对目标对象采集生成的红外图像；

网络推理单元，用于调用预训练的红外单目测距深度神经网络根据所述内参矩阵对所述红外图像进行视差推理，得到相对视差图；其中，所述红外单目测距深度神经网络的损失函数中包括边缘损失函数，所述边缘损失函数为根据图像帧的边缘特征与相邻图像帧的边缘特征空间投影间的差值进行边缘损失约束的函数；

深度计算单元，用于根据所述相对视差图确定绝对深度，并将所述绝对深度作为测距结果。

一种红外热成像单目视觉测距设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述红外热成像单目视觉测距方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述红外热成像单目视觉测距方法的步骤。

本发明实施例所提供的方法，针对用于对红外图像进行视差推理的红外单目测距深度神经网络提出了一项新的损失函数：边缘损失函数，该边缘损失函数为根据图像帧的边缘特征与相邻图像帧的边缘特征空间投影间的差值进行边缘损失约束的函数，在该损失函数的约束下，先提取红外图像的边缘，然后将源图像和目标图像的边缘进行匹配，增加边缘的像素点的区分度，基于该边缘损失函数进行网络参数约束后，红外单目测距深度神经网络可以比较精准的定位各像素点，从而可以降低图像重投影时的像素误匹配，提升图像预测深度和相机估计姿态的更新准确度，提升相对视差图的精准度，从而进一步提升测距精准度。

相应地，本发明实施例还提供了与上述红外热成像单目视觉测距方法相对应的红外热成像单目视觉测距装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种红外热成像单目视觉测距方法的实施流程图；

图2为本发明实施例中一种红外单目测距深度神经网络输入的红外图像与输出的相对视差图的对比示意图；

图3为本发明实施例中一种使用Laplacian算子实现图像边缘的提取前后对比的红外图像示意图；

图4为本发明实施例中一种红外单目测距深度神经网络的结构示意图；

图5为本发明实施例中一种BiFPN结构示意图；

图6为本发明实施例中一种原始图像示意图；

图7为本发明实施例中一种无BiFPN的多尺度特征提取层进行特征提取后生成的相对视差图示意图；

图8为本发明实施例中一种有BiFPN的多尺度特征提取层进行特征提取后生成的相对视差图示意图；

图9为本发明实施例中一种PAnet的结构示意图；

图10为本发明实施例中一种Resnet18的一个基本模块示意图；

图11为本发明实施例中一种改进之后的Resnet18基本模块示意图；

图12为本发明实施例中一种红外热成像单目视觉测距装置的结构示意图；

图13为本发明实施例中一种红外热成像单目视觉测距设备的结构示意图。

具体实施方式

本发明的核心是提供一种红外热成像单目视觉测距方法，可以实现高精准的红外热成像单目视觉测距。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例中一种红外热成像单目视觉测距方法的流程图，该方法包括以下步骤：

S101、获取红外热成像仪的内参矩阵，以及红外热成像仪针对目标对象采集生成的红外图像；

获取红外热成像仪的内参矩阵，以及该红外热成像仪针对目标对象采集生成的红外图像。本实施例中对于内参矩阵的生成方式不做限定，可以参照相关技术，为加深理解，在此介绍一种红外热成像仪的内参矩阵标定方法，可以利用特制的多圆形孔铝板标定出红外热成像仪的内参矩阵。具体地，可以在室内环境，启动红外热成像仪，待系统达到热平衡状态后，将特制的多圆形孔铝板放置于距红外热成像仪1到3米左右，采集多张红外图像，利用目前通用的技术即可标定出红外热成像仪的内参矩阵K。本实施例中仅以上述内参矩阵的生成方式为例进行介绍，其它计算以及生成方式均可参照本实施例的介绍，在此不再赘述。

将标定出内参矩阵K的红外热像仪安装到待测距的设备上(比如汽车)上，启动红外热成像仪，待系统达到热平衡状态后，针对目标对象进行图像采集，获取红外热像仪生成红外图像。

S102、调用预训练的红外单目测距深度神经网络根据内参矩阵对红外图像进行视差推理，得到相对视差图；

本申请中调用的红外单目测距深度神经网络主要用于对红外图像进行视差推理，生成相对视差图，如图2所示为一种红外单目测距深度神经网络输入的红外图像与输出的相对视差图的对比示意图。

而本实施例中对于调用的红外单目测距深度神经网络的结构以及训练方式不做限定，可以参照相关红外测距网络的相关介绍。

每个深度神经网络都需要通过损失函数来实现训练时参数的约束，目前，常见的红外单目测距深度神经网络的损失函数中包括：重投影损失函数、边缘平滑度损失函数等中的一种或多种，具体可以根据实际需要进行损失函数的配置。但是由于红外图像与可见光图像特性的不同，目前基于灰度损失和SSIM构成的光度损失函数已经不能满足红外图像单目测距的需要，具体地，将图像重建作为监督信号的原理是通过从源图像的像素点根据预测深度和相机姿态来寻找目标图像的像素点计算损失，从而更新深度和相机姿态以获得准确的深度和相机姿态。可见光图像拥有RGB三个通道的像素值，有丰富的细节纹理，因而可以比较容易的在目标图像寻找到源图像的像素点。然而红外图像缺乏纹理，当程序读取红外图像时，它的RGB三个通道为相同的像素值，因而在目标图像中寻找源图像的相同的像素点时，很容易将附近相同的像素值的像素点当成源图像的同一个像素点，这样会导致错误的深度和姿态估计。

为此，根据红外低纹理造成像素点对之间无法精准配对的问题，本申请中提出了一种针对红外图像的边缘损失函数，用以增强图像的边缘特征，避免边缘特征的弱化甚至消失。边缘损失函数为根据图像帧的边缘特征与相邻图像帧的边缘特征空间投影间的差值进行边缘损失约束的函数。在该损失函数的约束下，先提取红外图像的边缘，然后将源图像和目标图像的边缘进行匹配，由于边缘的像素点易于区分，可以比较精准的定位，从而较为准确的更新图像预测深度和相机估计姿态。

具体地，针对上述表述的一种函数表达式如下：L_e＝|edge(I_t)-Trans(edge(I_t+1))|。其中，edge表示图像的边缘特征，Trans表示空间投影，保证这两个图像在空间中是对齐的，I_t表示t时刻的图像帧，I_t+1表示t+1时刻的图像帧，L_e表示边缘特征值，Trans＝KT_t→t+ ₁D_t(p)K^-1，K为内参矩阵，T_t→t+1表示t时刻图像帧与t+1时刻图像帧之间的位姿变化，D_t(p)为深度网络所估计的p点(t时刻图像帧中的一个像素点)的深度。

随着网络层次的增加，在边缘特征变模糊时，通过本实施例提供的边缘损失函数的约束增强边缘特征，保证边缘特征不消失。

如图3所示为一种使用Laplacian算子实现图像边缘的提取前后对比的红外图像示意图，可见，在本实施例提出的边缘损失函数的约束下，图像边缘特征明显，边缘特征保留程度高。

S103、根据相对视差图确定绝对深度，并将绝对深度作为测距结果。

在得到相对视差图后将其转换为绝对深度，实现方式本实施例中不做限定，可以参照相关技术中的实现方式，在此不再赘述。

得到绝对深度值后，将该绝对深度作为获取的红外图像的测距结果。

基于上述介绍，本发明实施例所提供的技术方案，基于红外图像对比度低、动态范围宽、图像不连续、信噪比低、低纹理的特性，针对用于对红外图像进行视差推理的红外单目测距深度神经网络提出了一项新的损失函数：边缘损失函数，该边缘损失函数为根据图像帧的边缘特征与相邻图像帧的边缘特征空间投影间的差值进行边缘损失约束的函数，在该损失函数的约束下，先提取红外图像的边缘，然后将源图像和目标图像的边缘进行匹配，增加边缘的像素点的区分度，基于该边缘损失函数进行网络参数约束后，红外单目测距深度神经网络可以比较精准的定位各像素点，从而可以降低图像重投影时的像素误匹配，提升图像预测深度和相机估计姿态的更新准确度，提升相对视差图的精准度，从而进一步提升测距精准度。

需要说明的是，基于上述实施例，本发明实施例还提供了相应的改进方案。在优选/改进实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考，相应的有益效果也可相互参照，在本文的优选/改进实施例中不再一一赘述。

上述实施例中对于调用的红外单目测距深度神经网络的结构以及训练方式不做限定，本实施例中介绍一种红外单目测距深度神经网络的结构以及训练方式以供借鉴。

在输入单目的红外视频进行网络模型的训练时红外热成像仪在获取每一帧图片时红外热成像仪的位姿是在不断变化的，针对于此，可以针对位姿变化进行相对视差的估计。相应地，红外单目测距深度神经网络具体可以包括：深度估计网络以及姿态网络，其中，深度估计网络用于估计每帧图片的深度，姿态网络用于估计两帧图片之间相机的位姿变化。

在上述网络组成下的一种网络结构示意图如图4所示，针对上述网络结构，一种网络的训练方式如下：

(1)获取红外热成像仪采集生成的连续图像，第一图像以及第二图像；其中，第二图像为第一图像的相邻帧图像；

使用连续的红外视频图像帧作为数据集输入网络进行训练，假设相机连续拍摄的图像分别为I_t，I_s。其中I_t是目标图像，即第一图像，I_s是I_t的上一帧或下一帧图像，即第二图像。

(2)调用深度估计网络对第一图像进行视差计算，得到视差图；

将I_t送入深度估计网络得到其视差图D_t。

(3)调用姿态网络对第一图像以及第二图像进行位姿变化计算，得到位姿变化矩阵；

将I_t和I_s送入姿势网络得到两帧之间相机的位姿变化矩阵T。

(4)根据位姿变化矩阵以及深度图调用相邻图像间像素投影关系公式对第一图像进行图像重构，得到重构第一图像；

取I_t图像上固定一点p_t，I_t转化为视差图D_t之后该点变为D_t(p)，同时该点在I_s上的投影点分别表示为p_s。由于之前的两个网络分别得到了p_t点的深度信息以及该点与上下帧该点投影点的位姿矩阵，根据像素投影的几何约束关系，p_t与p_s有以下的约束关系：p_s＝KT_t→sD_t(p)K^-1p_t。式中K是相机内参，通过标定获取，T是姿态网络所得到的连续帧之间的位姿矩阵，D_t(p)是深度网络所估计的p_t点的深度。

如果t时刻图片每一点的深度D_t和t时刻与s时刻之间的位姿变化T都能获取的话，那就可以建立t时刻图片与其上下帧图片每一像素点之间的对应关系。因此将一点的关系推广到整幅图像，得到I_t上的每一点的深度和T_t→s，就能重构出一幅图像

因此，本实施例中根据位姿变化矩阵以及深度图调用相邻图像间像素投影关系公式对第一图像进行图像重构，得到重构第一图像。

(5)根据重构第一图像以及第一图像进行网络训练。

重构出的图像

与真实图像I_t之间的差异就构成了训练过程的监督信号，通过训练将

不断逼近于I_t，就能得到越接近于真实值的D_t。

需要说明的是，在本实施例介绍的网络训练过程中并没有用到真实的深度信息，因此本发明的方法是完全无监督的。

本实施例中仅以基于位姿视差估计对红外单目测距深度神经网络结构以及训练过程进行介绍，基于其他类型的网络结构以及训练过程均可参照本实施例的介绍，在此不再赘述。

另外，上述实施例中针对红外单目测距深度神经网络的损失函数提出其中需要包括本申请所提出的边缘损失函数，而在边缘损失函数外，也可以进一步包括其它类型的一个或多个损失函数，比如重投影损失函数等。

为了提升位姿矩阵以及视差估计效果，在在边缘损失函数之外，本实施例中提出可以进一步设置重投影损失函数和边缘平滑损失函数，以便于更好的衡量重投影误差、消除视差图的噪声，则同时根据重投影损失函数、边缘平滑损失函数以及边缘损失函数进行网络参数的优化约束。

(1)为了同时从整体和细节来更好的衡量重投影误差，重投影损失函数也可以由两个部分组成，分别是结构相似性度量函数和L1范数损失函数。表达式如下：

其中，SSIM的表达式为：

其中，μ是平均值，在损失函数中就是图像像素点的平均值，μ_x为x方向的平均值，μ_y为Y方向的平均值，σ是方差，σ_x为x方向的方差，σ_y为y方向的方差，σ_xy为x方向和Y方向的整体方差，在损失函数中也就代表像素点的方差，C是用来维持稳定的常数。SSIM的取值范围是0到1，两幅图像越是相似，SSIM的值就越接近1。这里的超参数α的取值具体可以选用0.85。

在两个连续图像计算重投影误差时，现有的自我监督深度估计方法会将重投影误差平均到两个图像中，这可能会导致较高的光度误差。这种有问题的像素主要来自两类：由于图像边界处的自运动而导致的视线外的像素，以及被遮挡的像素。可以通过在重投影损失中掩盖此类像素来减少视线外像素的影响，但这不能解决遮挡问题，因为平均重投影会导致模糊的深度不连续性。

本申请借鉴Monodepth2的方法。在每个像素上没有对两个上下帧图像平均光度误差，而是仅使用最小值。因此，本实施例中最终的每像素光度损失函数为：

(2)边缘平滑损失用于消除视差图中的噪声，深度梯度感知项使输出视差图更平滑，同时边缘感知项则鼓励模型更好的学习物体边缘信息。

表达式如下：

其中，L_s为损失函数，d_t为深度图。

最终的红外单目测距深度神经网络的损失函数就是重投影损失函数、边缘平滑度损失函数以及边缘损失函数的组合。而三种损失函数的组合方式本实施例中不做限定，比如可以选用重投影损失函数、边缘平滑度损失函数以及边缘损失函数的加权和，即损失函数为：

其中μ、λ、β为三个超参数，表示每个损失的重要程度，满足μ+λ+β＝1。

其中，对于加权值μ，可以将自动掩膜损失函数作为该加权值，自动掩膜损失函数

其中[]是艾弗森(Iverson)括号。在照相机和另一个物体都以相似的速度移动的情况下，μ可防止图像中保持静止的像素损失很小而不利于梯度下降。同样，当相机静止时，该损失可以滤除图像中的所有像素。

为加深理解，在次介绍一种基于上述损失函数设置下的网络训练方式，具体如下：使用操作系统为Ubuntu 18.04的计算机，红外单目测距深度神经网络的训练和测试模型可以在Pytorch1.4架构下搭建，所使用的服务器可以为RTX6000。数据集使用HD1280红外相机采集，供训练的数据集一共有19000张，另外1000张作验证集。总的损失函数中三个超参数分别设置为μ＝0.7、λ＝0.2、β＝0.1。红外单目测距深度神经网络可以使用Adam梯度下降法训练20轮，批处理大小为12，输入/输出分辨率为640*192。对于前15轮，学习率大小为10^-4，剩下的5轮，将学习率降至10^-5后红外单目测距深度神经网络训练完成。

基于上述实施例，目前，在红外单目测距深度神经网络的多尺度特征提取中通常采用在四个不同尺度的视差图都上采样到原图像分辨率上计算损失的方式，该方式忽略了不同尺度之间的关联性。基于此，本实施例中提出一种可以提升特征提取效果的方法。

具体地，可以在红外单目测距深度神经网络的多尺度特征提取层中设置BiFPN层，在多尺度特征提取层中增加BiFPN层，如图5所示为一种BiFPN结构示意图，BiFPN层用于根据不同尺度视差图之间的关联性加强特征融合，BiFPN层通过下采样上采样和跨越链接来加强不同尺度之间特征融合的效果，可以更好的利用不同尺度视差图之间的关联性，以解决视差图像边缘模糊的问题。如图6所示为一种原始图像示意图，图7所示为一种无BiFPN的多尺度特征提取层进行特征提取后生成的相对视差图示意图，图8所示为一种有BiFPN的多尺度特征提取层进行特征提取后生成的相对视差图示意图，经过对比可见，加入BiFPN多尺度特征融合之后，图像的细节更加明显，边缘更加清晰。比如图中电线杆和自行车，加入BiFPN结构之后，边缘模糊问题有了明显的改善。

具体地，BiFPN是在PAnet的基础上改进得到，一种PAnet的结构如图9所示。调用BiFPN层根据不同尺度视差图之间的关联性加强特征融合时，首先删除那些只有一个输入边的节点。如果一个节点只有一个输入边且没有特征融合，那么它将对旨在融合不同特征的特征网络贡献较小。这导致简化的双向网络。其次，如果原始输入与输出节点处于同一级别，则在原始输入和输出节点之间添加一条额外的边，以便在不增加成本的情况下融合更多功能。第三，与PANet仅具有一个自上而下和一个自下而上的路径不同，将每个双向(自上而下和自下而上)路径视为一个特征网络层，并重复相同的层多次以启用更多高级特征融合。当融合具有不同分辨率的特征时，一种常见的方法是先将它们的大小调整为相同的分辨率，然后对其进行汇总。金字塔注意力网络引入了全局自注意力上采样以恢复像素定位。以前的所有方法均等地对待所有输入特征，没有区别。但是，经申请人研究发现，由于不同的输入特征图的分辨率不同，因此它们通常对输出特征图的贡献不均。为了解决这个问题，可以为每个输入增加一个额外的权重，并让网络学习每个输入功能的重要性。具体地，本实施例中提出了一种加权融合方法：

快速归一化融合方法如下所示：

其中w_i≥0是通过在每个w_i之后应用Relu来确保的，而ε＝0.0001是一个小数值，以避免数值不稳定。同样，每个归一化权重的值也介于0和1之间。一种BiFPN第三层的输出如下：

其中

是自顶向下路径上第3级的中间特征，

是第3级的输入特征，

是第4级的输入特征，

是自下而上路径上第3级的输出特征，而

是自下而上路径上第3级的输出特征，w₁为第1级的权重，w₂为第2级的权重，w₃为第3级的权重。所有其他特征均以类似方式构造。值得注意的是，为了进一步提高效率，本实施例中使用深度可分离卷积进行特征融合，并在每次卷积后添加批处理规范化和激活。

本实施例中将双向特征金字塔网络(BiFPN)应用于多尺度视差图的特征融合，可以解决视差图边缘模糊问题。

另外，目前通用的单目视觉测距网络模型中的残差网络通常是以Resnet18网络为基础来搭建的，Resnet18的一个基本模块如图10所示。而经过实践申请人发现，基于Resnet18搭建残差网络时计算量大，会进一步导致整体复杂大，对于应用设备要求高，且计算效率低。

为进一步解决上述问题，本实施例中提出不再单纯的使用Resnet18网络作为深度以及姿势估计网络(一种残差网络)，而是使用CSPNet网络对原先的Resnet18网络进行改进。改进之后的Resnet18基本模块如图11所示。CSPNet的主要工作思想是将特征图拆成两个部分，一部分进行卷积操作，另一部分和上一部分卷积操作的结果直接进行拼接。采用CSPNet作为残差网络可以很大程度上减少计算量同时降低内存成本，并且使用该结构可以增强CNN的学习能力，降低网络复杂度，能够在系统轻量化的同时保持计算的准确性，便于将算法移植到低端的AI处理芯片。

相应于上面的方法实施例，本发明实施例还提供了一种红外热成像单目视觉测距装置，下文描述的红外热成像单目视觉测距装置与上文描述的红外热成像单目视觉测距方法可相互对应参照。

参见图12所示，该装置包括以下模块：

数据获取单元110主要用于获取红外热成像仪的内参矩阵，以及红外热成像仪针对目标对象采集生成的红外图像；

网络推理单元120主要用于调用预训练的红外单目测距深度神经网络根据内参矩阵对红外图像进行视差推理，得到相对视差图；其中，红外单目测距深度神经网络的损失函数中包括边缘损失函数，边缘损失函数为根据图像帧的边缘特征与相邻图像帧的边缘特征空间投影间的差值进行边缘损失约束的函数；

深度计算单元130主要用于根据相对视差图确定绝对深度，并将绝对深度作为测距结果。

相应于上面的方法实施例，本发明实施例还提供了一种红外热成像单目视觉测距设备，下文描述的一种红外热成像单目视觉测距设备与上文描述的一种红外热成像单目视觉测距方法可相互对应参照。

该红外热成像单目视觉测距设备包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现上述方法实施例的红外热成像单目视觉测距方法的步骤。

具体的，请参考图13，为本实施例提供的一种红外热成像单目视觉测距设备的具体结构示意图，该红外热成像单目视觉测距设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中，存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，处理器322可以设置为与存储器332通信，在红外热成像单目视觉测距设备301上执行存储器332中的一系列指令操作。

红外热成像单目视觉测距设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。

上文所描述的红外热成像单目视觉测距方法中的步骤可以由红外热成像单目视觉测距设备的结构实现。

相应于上面的方法实施例，本发明实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种红外热成像单目视觉测距方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的红外热成像单目视觉测距方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种红外热成像单目视觉测距方法，其特征在于，包括：

2.根据权利要求1所述的红外热成像单目视觉测距方法，其特征在于，所述红外单目测距深度神经网络的多尺度特征提取层中包括BiFPN层，所述BiFPN层用于根据不同尺度视差图之间的关联性加强特征融合。

3.根据权利要求1所述的红外热成像单目视觉测距方法，其特征在于，所述红外单目测距深度神经网络的残差网络采用CSPNet网络。

4.根据权利要求1所述的红外热成像单目视觉测距方法，其特征在于，所述红外单目测距深度神经网络包括深度估计网络以及姿态网络。

5.根据权利要求4所述的红外热成像单目视觉测距方法，其特征在于，所述红外单目测距深度神经网络的训练方法包括：

根据所述重构第一图像以及所述第一图像进行网络训练。

6.根据权利要求1所述的红外热成像单目视觉测距方法，其特征在于，所述损失函数中还包括：重投影损失函数以及边缘平滑度损失函数。

7.根据权利要求6所述的红外热成像单目视觉测距方法，其特征在于，所述损失函数为所述重投影损失函数、所述边缘平滑度损失函数以及所述边缘损失函数的加权和。

8.一种红外热成像单目视觉测距装置，其特征在于，包括：

9.一种红外热成像单目视觉测距设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述红外热成像单目视觉测距方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述红外热成像单目视觉测距方法的步骤。