CN114332187A

CN114332187A - 单目目标测距方法及装置

Info

Publication number: CN114332187A
Application number: CN202210224999.2A
Authority: CN
Inventors: 孙浩; 蒋海滨
Original assignee: Shenzhen Anngic Technology Co ltd
Current assignee: Shenzhen Anngic Technology Co ltd
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-04-12
Anticipated expiration: 2042-03-09
Also published as: CN114332187B

Abstract

本发明提供一种单目目标测距方法及装置，该方法包括如下步骤：获得训练好的神经网络模型，通过单目视觉传感器采集图像，生成图像数据；将所述图像数据输入到模型中，得到视差图和实例分割结果，进一步将视差图转换为深度图，根据所述实例分割结果得到目标对应区域，再从深度图中取出该目标对应区域的深度值，再经计算得到目标距离值。该方法采用深度估计和实例分割联合训练，得出目标对应区域的深度值，该双目训练数据不需要标注，所以可用大量的数据训练模型，减少数据标注成本，同时提高最终的测距精度。

Description

单目目标测距方法及装置

技术领域

本发明涉及无人驾驶技术领域，具体涉及一种单目目标测距方法及装置。

背景技术

在无人驾驶技术中，例如自动驾驶或无人机等的系统，主要包括大模块、感知、认知和控制等方面。这个顺序其实也正是一项操作进行的顺序，首先需要对环境进讲行准确的感知，然后对信息进行理，最后向汽车的控制系统发出指令，实现具体的功能。

在感知模块当中，传感器是最重要的硬件。目前的传感器也有许多种类，除了各种各样的雷达之外，例如，激光雷达、毫米波雷达，视觉传感器也是必不可少的。基于计算机视觉技术的车载视觉传感器能够对环境中的很多物体进行感知，甚至有一部分人认为随着计算机视觉的发展，激光雷达并非是必需品。

从测距原理上，单目视觉传感器和双目视觉传感器完全不同。单目视觉传感器需要对目标进行识别，也就是说在测距前先识别障碍物是车、人还是别的目标。在此基础上再进行测距。而双目视觉传感器则更加像人类的双眼，主要通过两幅图像的视差计算来确定距离。从这个角度来看，单目视觉传感器需要大量数据，并目不断更新和维护，而且针对—些特殊地区特殊情况，还需要不断优化。例如内蒙古大草原上经常有牛羊横穿公路，那你就需要更新数据，让机器知道这是牛，那是羊。双目视觉传感器虽然可以较准确确定距离，但是难点在于计算量巨大，这就需要较大型的智能配置来实现自动驾驶。

通常利用单目视觉传感器对周围的目标进行测距。传统的基于几何关系的单目测距方法由于在真实场景使用时，适应性较差，导致对本车周围的目标测距精度不够。而基于深度学习的方法具有较好的适应性，但是基于深度学习的方法大多是基于监督学习的（如3D目标检测），这种方法需要大量带标注的数据进行训练，这需要大量的人工成本。

例如，中国发明第202110156157.3专利申请提供了一种用于自动驾驶的卷积神经网络计算量压缩方法，利用位置区域上的差异，对中央区域与周围区域采用不同的缩放系数，通过对图像进行非线性变换，达到在神经网络性能下降较小的情况下压缩计算量的目的。该发明申请就是为了降低自动驾驶测距中的计算量以及加快计算速度。

中国发明第202110720765.2号申请提供了一种单目测距方法、目标的物理参数测量方法、装置及无人机，其中单目测距方法包括：在无人机处于第一位置时，控制拍摄装置对目标拍摄第一图像；根据定位装置的定位数据，控制无人机从第一位置移动预设偏移距离至第二位置；在第二位置控制拍摄装置对目标拍摄第二图像；获取第一图像及第二图像中目标的视差；根据拍摄装置的焦距、预设偏移距离、及目标的视差，确定目标与无人机之间的距离。该单目测距是通过在不同位置拍摄不同的图像再进行计算处理，以确定目标与无人机之间的距离。这种方法可适合于无人机，但是在汽车自动驾驶中显著不太适应，毕竟汽车驾驶分分秒秒都可能存在障碍物，不能实时地测距。

中国发明第202110984297.X号申请提供了一种测距方法、装置、电子设备、存储介质及系统。该方法包括：先采用单目测距方式对目标对象进行测距，得到目标对象的第一距离，再基于第一距离确定是否需要将当前采用的单目测距方式切换为双目测距方式来对目标对象进行测距。该测距方法同时兼顾了单目测距方式和双目测距方式的优点，提高了测距稳定性和测距准确度，然而显然也提高了成本。

发明内容

有鉴于此，提供一种基于深度估计以及实例分割的单目测距方法和装置, 能在满足实时性的条件下提高单目测距的精度，并且大量减少数据标注成本。

一种单目目标测距方法，包括如下步骤：

将准备好预定双目测距数据和实例分割数据同一批次输入到神经网络模型进行训练，得到训练好的神经网络模型；

通过单目视觉传感器采集图像，生成图像数据；

将所述图像数据输入到所述训练好的神经网络模型中，得到视差图和实例分割结果，进一步将视差图转换为深度图，根据所述实例分割结果得到目标对应区域，再从深度图中取出该目标对应区域的深度值；

根据该目标对应区域中预定范围的深度值，得到该目标在视觉传感器坐标系中的深度，再根据该目标在视觉传感器坐标系中的深度以及视觉传感器内外参数，得到该目标的距离。

在具体实施方案中，所述得到该目标在视觉传感器坐标系中的深度包括根据深度图提取出该目标对应区域的深度值进行计算，得到该目标在视觉传感器坐标系中的深度值，并选取数值从小算起预定范围内的最小深度数据，计算该最小深度数据中的深度值的平均值，得到该目标在视觉传感器坐标系中的深度。

优选地，所述得到该目标的距离包括根据获得的深度值以及视觉传感器内外参数，计算得到该目标在世界坐标系中的坐标，从而得到该目标的距离值，具体公式如下：

；

式中，Z _c表示当前目标在相机坐标系中的深度；(x _w,y _w,z _w)为计算得到的该目标在世界坐标系中的坐标，(u,v)为目标在图像中的像素坐标，M、R、T分别表示为标定好的视觉传感器内参数矩阵、视觉传感器坐标系相对于世界坐标系的旋转矩阵、视觉传感器坐标系相对于世界坐标系的平移矩阵。

在优选实施方案中，所述得到训练好的神经网络模型包括以下步骤：

从原始图像中获取成对的双目数据以及基于原始图像获得实例分割数据，所述双目数据用于深度估计任务，所述实例分割数据用于训练实例分割任务；

从原始图像中使用Resnet-50和FPN结构提取特征；

将双目数据和实例分割数据组成一个批次同时输入给神经网络模型进行训练，预先进行神经网络前向传播，然后计算出神经网络模型的损失函数，根据输入数据和损失函数同时训练深度估计分支任务和实例分割分支任务，其中，将双目数据进行自监督训练，以训练深度估计网络输出视差图。

优选地，所述深度估计分支任务是采用双目数据自监督训练，并采用monodepth算出的损失，记为lossDepth；所述实例分割分支任务是采用Mask RCNN中的损失，记为lossInsSeg；总损失记为loss，计算公式为：

其中，2n+m = batchsize，batchsize是训练时每个批次的图片数目；

其中n为每个批次中双目数据的对数，m为每个批次中实例分割的图片数，scale为学习参数，lossDepth _i为每对双目数据产生的损失，lossInsSeg _j为每张图片实例分割数据产生的损失；

其中，通过学习参数scale使神经网络模型在训练时自动平衡两个分支任务的损失，学习参数scale通过神经网络反向传播, 进行参数学习。

以及，一种单目目标测距装置，其包括：

神经网络模型生成训练模块，用于建立神经网络模型，并将预定双目测距数据和实例分割数据输入到所述神经网络模型进行训练，得到训练好的神经网络模型；

采集模块，通过单目视觉传感器采集图像，生成图像数据；

深度生成模块，将所述图像数据输入到所述训练好的神经网络模型中，得到视差图和实例分割结果，进一步将视差图转换为深度图，根据所述实例分割结果得到目标对应区域，再从深度图中取出该目标对应区域的深度值；

计算模块，用于根据该目标对应区域中预定范围的深度值，计算得到该目标在视觉传感器坐标系中的深度，再根据该目标在视觉传感器坐标系中的深度以及视觉传感器内外参数，计算得到该目标的距离。

在一些具体实施方案中，所述计算模块包括深度计算模块，所述深度计算模块是从深度图提取出该目标对应区域的深度值，并选取数值从小算起预定范围内的最小深度数据，计算该最小深度数据中的深度值的平均值，得到该目标在视觉传感器坐标系中的深度。

在一些具体实施方案中，所述计算模块还包括距离计算模块，所述距离计算模块是根据深度计算模块获得的平均深度值以及视觉传感器内外参数，计算得到该目标在世界坐标系中的坐标，从而得到该目标的距离值，具体公式如下：

；

在一些具体实施方案中，所述神经网络模型生成训练模块包括：

数据获取模块，用于从原始图像中获取成对的双目数据以及基于原始图像获得实例分割数据，所述双目数据用于深度估计任务，所述实例分割数据用于训练实例分割任务；

神经网络模型创建模块，用于从原始图像中使用Resnet-50和FPN结构提取特征；

神经网络模型训练模块，将双目数据和实例分割数据组成一个批次同时输入给神经网络模型进行训练，预先进行神经网络前向传播，然后计算出神经网络模型的损失函数，根据输入数据和损失函数同时训练深度估计分支任务和实例分割分支任务，其中，将双目数据进行自监督训练，以训练深度估计网络输出视差图。

上述单目目标测距方法和装置至少具有以下优点：

1. 在满足实时性的条件下，提高单目测距的精度：

（1）使用实例分割可精确获取目标在深度图中对应区域，对该区域采用统计方法确定该目标的深度，有助于提升测距精度；

（2）将深度估计和实例分割网络的特征提取部分共享，可大量减少计算量；

（3）采用深度估计和实例分割联合训练，并且使用双目数据对深度估计任务进行训练，该双目训练数据不需要标注，所以可用大量的数据训练模型，提高最终的测距精度；

2. 减少数据标注成本(用于模型训练)

（1）将不带标注的双目数据和带标注的实例分割进行联合训练, 不需要对分割的数据标注深度值，也不需要对双目数据进行实例标注，减少数据标注工作量和成本；

（2）进一步使用自监督的深度估计方法, 不需要对训练的数据进行深度值标注,可大量减少人力成本。

附图说明

图1是本发明实施例的单目目标测距方法的流程示意图。

图2是本发明实施例的单目目标测距方法中的模型具体训练流程图。

图3是本发明实施例的单目目标测距方法中模型训练应用流程图。

图4是本发明实施例的单目目标测距方法将训练好的模型应用于实际图像的流程示意图。

图5是本发明实施例的单目目标测距装置的框架结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，示出本发明实施例的提供的一种单目目标测距方法，该方法包括如下步骤：

S10，获得训练好的神经网络模型，具体为：将准备好预定双目测距数据和实例分割数据同一批次输入到神经网络模型进行训练，得到训练好的神经网络模型；

S20，采集图像，生成图像数据：通过单目视觉传感器采集图像，生成图像数据；

S30，生成深度图和获取目标区域的深度值，具体为：将所述图像数据输入到所述训练好的神经网络模型中，得到视差图和实例分割结果，进一步将视差图转换为深度图，根据所述实例分割结果得到目标对应区域，再从深度图中取出该目标对应区域的深度值；

S40，得到目标距离值，具体为：根据该目标对应区域中预定范围的深度值，得到该目标在视觉传感器坐标系中的深度，再根据该目标在视觉传感器坐标系中的深度以及视觉传感器内外参数，得到该目标的距离。

在步骤S10中，在一些优选实施例中，所述得到训练好的神经网络模型包括以下步骤：

从原始图像中使用Resnet-50和FPN结构提取特征；

其中，通过学习参数scale使神经网络模型在训练时自动平衡两个分支任务的损失，学习参数scale通过神经网络反向传播，进行参数学习。

通过上述这样的同一批次数据以及损失函数，可以同时训练深度估计分支和实例分割分支。并且，用于两个任务的数据可相互独立，其中用于深度估计的数据不需要进行实例分割数据标注，用于实例分割的数据不用受限于成对约束。这样实例分割任务可使用大量的带标注的开源数据，深度估计任务可采集大量的双目数据进行自监督训练（无需标注），这样可大量降低数据成本。

如图2所示，示出一个具体实施例的训练过程，首先，预先选取同一批次的高分辨的原始图像，这些原始图像优选为已经拍摄好的, 存在于训练服务器硬盘中。图片总数（batchsize）为96幅。其中，其中32对双目数据（即32对双目图片）用于深度估计，另外32张用于实例分割。接着，使用Resnet-50和FPN（Feature Pyramid Networks，特征图金字塔网络）结构提取特征；然后分两个任务支路，同时训练深度估计分支任务和实例分割分支任务，也就实现特征的共享。

如图2所示，由于ResNet50和FPN都是神经网络结构，主要是使用卷积神经网络模型、上采样等操作提取特征，然后同时将该特征共享作为后面深度估计和实例分割的输入，即使用同一个Res50+FPN的特征。

具体地，将提取的特征应用于单目深度的视差估计的训练，以及实例分割的处理，一方面计算出深度估计分支任务的输入图片，产生lossD，即前述的lossDepth，同时计算32张用于实例分割任务的的输入图片，产生lossS，即前述的lossInsSeg，再通过以下公式计算总损失：

loss=w*lossD + lossS；

然后，对该公式进行梯度反向传播，更新神经网络参数，获得w值，w是可学习参数，用于平衡lossD和lossS，w值等同上面公式中的学习参数scale。

在实际的应用中，可以在一个训练服务器进行神经网络模型的训练，具体操作如图3所示。预先用双目视觉传感器，如双目摄像头采集数据，获得成对的双目数据，同时选用实例分割数据和神经网络模型，将双目数据和实例分割数据作为同一批次的数据输入到神经网络模型，基于一定计算量要求，本实例选择在一个具体的训练服务器中进行训练，获得训练好的神经网络模型，然后将该训练好的神经网络模型结合应用于实际的测距装置中进行预测，即实时测距。

如图4所示，示出一个具体实施例的训练过程。首先通过单目视觉传感器获得原始图像，再输入到训练好的神经网络模型进行训练，同时训练单目深度视差估计分支任务和实例分割分支任务，具体地，将提取的特征应用于单目深度的视差估计的训练，得到深度图，同时进行实例分割处理。实例分割处理得出图片中各目标的区域特征或数据。其中，视差图转换为深度图为如下公式：

其中f为相机的焦距，b为双目相机的基线长度，d为视差，z为每个像素在相机坐标系中的深度。

在具体实施例中，先根据深度图获得深度值，结合实例分割处理结果，得到目标区域的深度值。即，对于图片中的每一个目标，根据实例分割的结果，从深度图中取出该目标对应区域的深度值。具体地，得到该目标在视觉传感器坐标系中的深度包括根据深度图提取出该目标对应区域的深度值进行计算，得到该目标在视觉传感器坐标系中的深度值，并选取数值从小算起预定范围内的最小深度数据，计算该最小深度数据中的深度值的平均值，本实施例优选采用最小的10%-20%范围内的深度值的平均值，由此得到该目标在视觉传感器坐标系中的深度。具体地，该目标对应区域内有很多深度值, 先对这些深度值进行从小到大排序，再取出靠前10%或靠前20%的数据, 对这个范围内的数据计算平均值。这个可以是一个范围, 比如10-20%

更进一步地，视觉传感器如单目相机的参数预先标定好，然后通过计算得到该目标的距离，具体包括以下过程：根据获得的深度值以及视觉传感器内外参数，计算得到该目标在世界坐标系中的坐标，从而得到该目标的距离值，具体计算公式如下：

；

在本发明实施例的另一方面，提供一种单目目标测距装置，如图5所示，该测距装置包括神经网络模型生成训练模块11、采集模块12、深度生成模块13和计算模块15。

具体地，所述神经网络模型生成训练模块11，用于建立神经网络模型，并将预定双目测距数据和实例分割数据输入到所述神经网络模型进行训练，得到训练好的神经网络模型。

在一些具体实施方案中，所述神经网络模型生成训练模块11包括数据获取模块16、神经网络模型创建模块17、神经网络模型训练模块18。具体地，所述数据获取模块16用于从原始图像中获取成对的双目数据以及基于原始图像获得实例分割数据，所述双目数据用于深度估计任务，所述实例分割数据用于训练实例分割任务。所述神经网络模型创建模块17用于从原始图像中使用Resnet-50和FPN结构提取特征。所述神经网络模型训练模块18将双目数据和实例分割数据组成一个批次同时输入给神经网络模型进行训练，预先进行神经网络前向传播，然后计算出神经网络模型的损失函数，根据输入数据和损失函数同时训练深度估计分支任务和实例分割分支任务，其中，将双目数据进行自监督训练，以训练深度估计网络输出视差图。

本实施例中，采集模块12通过单目视觉传感器即单目相机采集图像，生成图像数据，优选为高分辨率即高清图像数据。

所述深度生成模块13用于将所述图像数据输入到所述训练好的神经网络模型中，得到视差图和实例分割结果，进一步将视差图转换为深度图，根据所述实例分割结果得到目标对应区域，再从深度图中取出该目标对应区域的深度值。因此，所述深度生成模块13优选包括深度图生成模块131和融合模块132，深度图生成模块131用于获得视差图，再转换为深度图。融合模块132根据所述实例分割结果得到目标对应区域，再从深度图中取出该目标对应区域的深度值。

所述计算模块15用于根据该目标对应区域中预定范围的深度值，计算得到该目标在视觉传感器（例如单目相机）坐标系中的深度，再根据该目标在视觉传感器坐标系中的深度以及视觉传感器内外参数，计算得到该目标的距离。

在一些具体实施方案中，如图所示，所述计算模块15包括深度计算模块151，所述深度计算模块151是从深度图提取出该目标对应区域的深度值，并选取数值从小算起预定范围内的最小深度数据，计算该最小深度数据中的深度值的平均值，得到该目标在视觉传感器坐标系中的深度。预定范围优选为从小到大算起的前10-20%的深度值数据。

在一些具体实施方案中，所述计算模块15还包括距离计算模块152，所述距离计算模块152是根据深度计算模块151获得的平均深度值（也即获得的最后深度）以及视觉传感器内外参数，计算得到该目标在世界坐标系中的坐标，从而得到该目标的距离值，具体公式如下：

；

此外，以上各模块的操作和实施过程参照如前所述的测距方法中相应的部分，在此不再赘述。

上述单目目标测距方法和装置至少具有以下优点：

1. 在满足实时性的条件下，提高单目测距的精度：

2. 减少数据标注成本(用于模型训练)

需要说明的是，以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种单目目标测距方法，其特征在于，包括如下步骤：

通过单目视觉传感器采集图像，生成图像数据；

2.如权利要求1所述的单目目标测距方法，其特征在于，所述得到该目标在视觉传感器坐标系中的深度包括根据深度图提取出该目标对应区域的深度值进行计算，得到该目标在视觉传感器坐标系中的深度值，并选取数值从小算起预定范围内的最小深度数据，计算该最小深度数据中的深度值的平均值，得到该目标在视觉传感器坐标系中的深度。

3.如权利要求2所述的单目目标测距方法，其特征在于，所述得到该目标的距离包括根据获得的深度值以及视觉传感器内外参数，计算得到该目标在世界坐标系中的坐标，从而得到该目标的距离值，具体公式如下：

；

4.如权利要求1所述的单目目标测距方法，其特征在于，所述得到训练好的神经网络模型包括以下步骤：

从原始图像中使用Resnet-50和FPN结构提取特征；

5.如权利要求4所述的单目目标测距方法，其特征在于，所述深度估计分支任务是采用双目数据自监督训练，并采用monodepth算出损失，记为lossDepth；所述实例分割分支任务是采用Mask RCNN中的损失，记为lossInsSeg；总损失记为loss，计算公式为：

其中n为每个批次中双目数据的对数，m为每个批次中实例分割的图片数，scale为可学习参数，lossDepth _i为每对双目数据产生的损失，lossInsSeg _j为每张图片实例分割数据产生的损失；

6.一种单目目标测距装置，其特征在于，包括：

采集模块，通过单目视觉传感器采集图像，生成图像数据；

7.如权利要求6所述的单目目标测距装置，其特征在于，所述计算模块包括深度计算模块，所述深度计算模块是从深度图提取出该目标对应区域的深度值，并选取数值从小算起预定范围内的最小深度数据，计算该最小深度数据中的深度值的平均值，得到该目标在视觉传感器坐标系中的深度。

8.如权利要求7所述的单目目标测距装置，其特征在于，所述计算模块还包括距离计算模块，所述距离计算模块是根据深度计算模块获得的平均深度值以及视觉传感器内外参数，计算得到该目标在世界坐标系中的坐标，从而得到该目标的距离值，具体公式如下：

；

9.如权利要求6所述的单目目标测距装置，其特征在于，所述神经网络模型生成训练模块包括：

10.如权利要求9所述的单目目标测距装置，其特征在于，所述深度估计分支任务是采用双目数据自监督训练，并采用monodepth算出的损失，记为lossDepth；所述实例分割分支任务是采用Mask RCNN中的损失，记为lossInsSeg；总损失记为loss，计算公式为：