CN116740657A

CN116740657A - 一种基于相似三角形的目标检测以及测距方法

Info

Publication number: CN116740657A
Application number: CN202310600799.7A
Authority: CN
Inventors: 谢磊; 穆清风; 苏宏业
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-09-12

Abstract

本发明公开了一种基于相似三角形的目标检测以及测距方法，包括：(1)获取由摄像头传输的视频流，对视频流中的每一帧进行图像采集；(2)将采集的数据通过图像处理操作，使得其能够输入到后续的模块中；(3)通过卷积神经网络模型自动的提取图像中的特征信息，根据所提取的特征通过检测头获得移动目标在图像中的位置，并准确将目标做分类；(4)通过一种基于相似三角形的快速测距算法，依托摄像头内参以及位置等其他参数，获得图像中的移动目标距离摄像头的实际距离，并最后输出实际距离化。本发明在保证模型轻量的前提下，对于实时性的要求非常高的车路协同驾驶具有非常重要的意义。

Description

一种基于相似三角形的目标检测以及测距方法

技术领域

本发明属于目标检测以及单目深度估计领域，具体涉及一种基于相似三角形的目标检测以及测距方法。

背景技术

汽车作为18世纪以来最为重要的发明之一，极大地提升了人们的生活节奏并促进了文明的发展进程，现如今，汽车行业的发展水平，俨然已经成为了一种科技进步的标杆。但是，人们在享受汽车带来便利的同时，也饱受着交通事故的折磨。据不完全统计，全球每年因为交通事故伤亡的人不少于1000万。为了预防交通事故的发生，行驶车辆必须与前方行人车辆保持安全距离。车路协同驾驶作为自动驾驶系统的重要组成部分，对于提高自动驾驶系统的可靠性和安全性也是至关重要的。通过利用图像的方法感知车辆和行人的位置，可以有效避免和防止大量的事故。

单目视觉测距算法首先利用摄像机对所观测场景进行图像采集，然后采用目标检测算法对图像中的对象进行识别和检测，最后根据成像模型、函数拟合或几何关系推导方法，结合检测结果对对象距离进行测量。由于成像装置或者成像装置安装存在的误差，导致相机成像与预期的不一致，因此，在对目标进行距离测量之前，需要对采用的相机进行标定，根据获得的相机内参对整张图像或图像像素进行矫正，再将矫正后的图像像素带入单目测距模型进行距离测量。

发明内容

本发明提供了一种基于相似三角形的目标检测以及测距方法。模型识别准确率、计算效率高，占用内存小，能够在输入图像分辨率不高的情况下取得较好的检测以及测距结果，整体架构轻量和快速，对于实时性的要求非常高的车路协同驾驶具有非常重要的意义。

本发明具体采用的技术方案如下：

一种基于相似三角形的目标检测以及测距方法，其包括以下步骤：

S1、通过安装于车道正上方的摄像头获取车道区域的视频流，并对视频流中的每-帧进行图像采集；

S2、将采集的每帧图像缩放至目标检测网络的输入图像尺寸，并对缩放后的图像帧进行标准化处理，从而得到待检测帧；

S3、将待检测帧输入目标检测网络中，通过卷积神经网络模型提取待检测帧中的特征，再将提取的特征通过检测头获得待检测帧中的移动目标位置和类别；

S4、根据待检测帧中的移动目标检测结果，同时结合摄像头内参、摄像头悬挂位置以及预先标定的参考线，利用移动目标和参考线通过摄像头成像过程中的几何关系，通过基于相似三角形的快速测距算法获得待检测帧中的移动目标距离摄像头的实际距离。

作为优选，所述S1中，所述目标检测网络预先利用带标注的视频数据集进行训练，且视频数据集中包含多种场景和多种天气下采集的数据。

作为优选，所述S2中，所采集的每帧图像通过图像处理得到待检测帧的方法如下：

首先对原始的图像帧进行缩放操作，放大过程中多余的无值部分用0填充，使图像符合目标检测网络的输入尺寸大小，缩放倍数Scale为目标检测网络输入图像与原始图像帧的宽比值和高比值中的最小值：

然后对缩放后的图像中所有像素值进行z-score标准化操作，从而得到待检测帧。

作为优选，所述S3中，目标检测网络包含特征提取网络和目标检测头，其中特征提取网络由卷积神经网络模型和Neck层组成，目标检测头用于检测出道路上的行人和车辆在图像中的位置。

作为优选，所述摄像头位于车道的正上方，其成像图像中下边缘与车道线方向保持垂直。

作为优选，所述S4中，所述基于相似三角形的快速测距算法计算实际距离的过程如下：

S41、以摄像头成像图像中下边缘在道路上的物理位置作为参考线，从摄像头成像时的内参中获取摄像头焦距F，同时结合待检测帧中检测到的移动目标位置，计算移动目标与摄像头的水平距离L，计算式如下：

式中：H为摄像头距离道路的安装高度，D为参考线到摄像头在道路上投影之间的水平距离，α为摄像头的内部传感器成像面与水平面的夹角，Δ为移动目标与参考线在摄像头成像面上的成像位置间距；

S42、按照摄像头和移动目标的空间几何关系，计算移动目标距离摄像头的实际距离EC，计算式为：

以计算得到的EC作为快速测距算法输出的测距结果。

作为优选，将待检测帧输入深度估计网络中，得到待检测帧对应的深度图，计算深度图的中心局部区域内所有像素点的深度值均值，并作为第一目标距离值；同时将基于S4中通过快速测距算法获得的实际距离作为第二目标距离值，将第一目标距离值和第二目标距离值进行融合修正，得到移动目标距离摄像头的实际距离最终值。

作为优选，所述深度图的中心局部区域的宽度和高度分别为深度图宽度和高度的一半。

作为优选，所述深度估计网络的输入为RGB形式的待检测帧，内部的深度图输出过程如下：

1)将待检测帧先进行两次0.5倍下采样得到第一特征图，再将第一特征图依次进行一次0.5倍下采样和一次2倍上采样得到第二特征图，将第一特征图减去第二特征图得到第三特征图；

2)将待检测帧依次经过四个swin-transformer模块，分别提取到四个不同尺度的特征图；

3)将第四个swin-transformer模块提取到的最深层特征图输入由卷积模块和MLP层级联而成的深度预测块，由深度预测块输出待检测帧对应的多个离散深度估计值；

4)将第四个swin-transformer模块提取到的最深层特征图输入特征金字塔结构的PSP模块中，模块输出再依次经过四个级联的注意力模块，其中四个注意力模块与四个swin-transformer模块一一对应构成跳跃连接，每个注意力模块在执行注意力机制时均以上一个级联模块的输出特征作为查询Q，以对应的swin-transformer模块提取得到的特征图作为键K和值V；以最后一个注意力模块输出的经过注意力融合后的特征作为第四特征图；

5)将第三特征图和第四特征图进行拼接，然后先通过两个卷积模块后再通过Softmax层输出待检测帧中每一个像素对应的权重向量，该权重向量的维度与所述深度预测块输出的离散深度估计值数量相同，且权重向量中的权重与离散深度估计值一一对应；针对待检测帧中每一个像素，利用对应的权重向量对所述深度预测块输出的离散深度估计值进行加权求和，得到各像素对应的深度值，从而将待检测帧转换为相同尺寸的深度图。

作为优选，所述将第一目标距离值depth_model和第二目标距离值depth_fast进行融合修正的方法为加权修正，实际距离最终值depth_final的计算公式如下：

depth_final＝λ*depth_fast+(1-λ)*depth_model

式中：λ代表大于0且小于1的权重值。

与现有技术相比，本发明具有以下有益效果：

1、本发明将目标检测网络和轻量化测距算法融合在一起，在交通场景下的检测以及测距速度快，精度高。

2、本发明还可以进一步融合深度估计网络的估计结果，并在深度估计网络中加入注意力和上下文机制，使用特征金字塔结构在多种尺度上对深度进行预测，提升了测距的精度。

3、本发明针对在深度估计时存在的物体边缘深度估计不准确的问题，提出了采用加入针对性的边缘残差信息来提升深度估计在边缘的准确度。

附图说明

图1为本发明一种基于相似三角形的目标检测以及测距方法；

图2为本发明的基于相似三角形的快速测距算法结构图；

图3为本发明实施例中一个实际交通场景下快速测距算法的结果；

图4为本发明实施例中另一个实际交通场景下快速测距算法的结果；

图5为本发明的深度估计网络结构图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，在本发明的一个较佳实施例中，提供了一种基于相似三角形的目标检测以及测距方法，该方法包括以下步骤：

S1、通过安装于车道正上方的摄像头获取车道区域的视频流，并对视频流中的每一帧进行图像采集。

为了保证本发明后续的快速测距方法能够实现，该摄像头需要在安装时需要通过安装杆装在车道的正上方，不能在道路侧部安装，避免其成像方向的水平投影与车辆行驶方向形成一定的角度。具体而言，摄像头安装完毕后，需要通过角度和姿态调整，使其成像图像中下边缘与车道线方向保持垂直。

S2、将采集的每帧图像缩放至目标检测网络的输入图像尺寸，并对缩放后的图像帧进行标准化处理，从而得到待检测帧。

在本发明的实施例中，所采集的每帧图像需要预先通过图像处理，使得到的待检测帧能够满足后续神经网络的输入要求，该图像处理过程需要根据图像的实际情况以及神经网络对于输入图像的要求进行选定，一般可通过基本的缩放，裁剪，归一化等图像基本的处理操作。在本发明的实施例中，对每帧图像进行图像处理的方法如下：

首先对原始的图像帧进行缩放操作，放大过程中多余的无值部分用0填充，使图像符合目标检测网络的输入尺寸大小，缩放倍数Scale为目标检测网络输入图像与原始图像帧的宽比值和高比值中的最小值。该缩放比例通过公式表达如下：

式中：Dst.width和Dst.height分别代表目标检测网络输入图像的宽度和高度，Origin.width和Origin.height分别代表原始图像帧的宽度和高度。

然后对缩放后的图像中所有像素值进行z-score标准化操作，从而得到待检测帧。具体的标准化方法是将像素值减去平均值后除以标准差，图像完成标准化操作之后即可送进目标检测网络中进行检测。

S3、将待检测帧输入目标检测网络中，通过卷积神经网络模型提取待检测帧中的特征，再将提取的特征通过检测头获得待检测帧中的移动目标位置和类别。

在本发明的实施例中，上述目标检测网络预先利用带标注的视频数据集进行训练，且为了保证在不同环境下均具有较好地检测性能，视频数据集中应当包含多种场景和多种天气下采集的训练数据。

上述目标检测网络的网络结构不限。在本发明的实施例中，目标检测网络包含特征提取网络和目标检测头，其中特征提取网络由卷积神经网络模型和Neck层组成，Neck层采用了FPN+PAN结合的方式，可以使得检测精度进一步提升；目标检测头根据所提取的特征通过检测头获得移动目标在图像中的位置，并准确将目标做分类，本实施例中检测目标类别可包括行人和车辆，因此该目标检测头可用于检测出道路上的行人和车辆在图像中的位置，即获得图像中目标框的位置和类别。上述待Neck层的目标检测网络可以直接采用YOLOV5模型来实现，该模型具有学习能力强、计算效率高、内存成本低等优点。

在本发明的实施例中，上述基于相似三角形的快速测距算法实际是根据成像过程中的相似三角形原理来计算的，其相似关系如图2中左图所示。特别需要说明的是，为了便于说明，图2的左图中将摄像机内部的焦点与成像面的间距放大了，但在实际应用中这个焦距相对于实际的摄像头与道路之间的距离基本可以忽略不计，因此图中焦点的位置即可代表摄像头位置。图2的右图中展示了本发明的相似三角形计算原理，在得到目标检测网络的检测结果后，由于测距最终的结果是要输出目标检测box随对应的物理目标到摄像头的距离，因此可以先测量目标到摄像头在路面投影点的直线距离，然后根据几何关系计算出到摄像头的直线距离。在该过程中，可预先选取一个参考线，本实施例中可以摄像头拍摄的照片的最下边缘对应寻找参考线，根据图中的几何关系计算出目标到参考线的距离。该快速测距算法计算实际距离的过程如下：

S41、以摄像头成像图像中下边缘在道路上的物理位置作为参考线，从摄像头成像时的内参中获取摄像头焦距F，同时结合待检测帧中检测到的移动目标位置，参照图2中右图所示，图中EB的距离计算式如下：

对应的，移动目标与摄像头的水平距离L＝EB+D计算式如下：

式中：H为摄像头距离道路的安装高度，D为参考线到摄像头在道路上投影之间的水平距离，α为摄像头的内部传感器成像面与水平面的夹角，Δ为移动目标与参考线在摄像头成像面上的成像位置间距(可通过相机内参由像素距离换算)。上述各参数中，H，D，α可以从道理现场测出来，F是摄像头的已知参数，Δ可以从相机底片上测量出来。

需要说明的是，由于摄像头一般是安装在直立的安装杆上的，因此上述水平距离D实际也可以等价于参考线到安装杆的水平距离。

以计算得到的EC作为快速测距算法输出的测距结果。

需要说明的是，由于摄像头在不断地获取视频流，其中的每一帧图像都可以按照上述方法获得其目标检测结果和测距结果，因此这个过程可以是实时的。当然，也可以间隔一定的帧数进行上述目标检测和测距，对此不做限定。

为了展示上述S1～S4所示的目标检测以及测距方法的实际效果，将其在实际的交通场景进行了验证。图3和图4分别为两个不同路口的摄像头所拍摄的图像帧的检测结果，这两个路口场景下分别对应的检测性能如表3和表4所示

表3

物体ID	类别	置信度	预测距离/m	真实距离/m
					1	vehicle	91％	103.9	103.5
2	vehicle	91％	47.4	47.2
					3	vehicle	92％	39.9	40.0
4	vehicle	95％	14.2	14.2

表4

物体ID	类别	置信度	预测距离/m	真实距离/m
					1	vehicle	97％	100.8	100.5
2	vehicle	93％	80.1	79.9
					3	vehicle	95％	22.0	21.8
4	Person	95％	24.3	24.5

从上述结果可以看出，模型对于实际场景，具有检测和测距功能，并且检测的置信度均达到90％以上，测距的误差保持在0.8m以内。由此可见，本发明提出的方法通过将目标检测网络和轻量化快速测距算法融合在一起，在交通场景下的检测以及测距速度快，精度高。

另外，在本发明的另一实施例中，基于上述目标检测网络和轻量化快速测距算法得到的快速测距结果，还可以进一步融合深度估计网络对快速测距结果进行修正。其具体做法如下：

将待检测帧输入深度估计网络中，得到待检测帧对应的深度图，计算深度图的中心局部区域内所有像素点的深度值均值，并作为第一目标距离值；同时将基于S4中通过快速测距算法获得的实际距离作为第二目标距离值，将第一目标距离值和第二目标距离值进行融合修正，得到移动目标距离摄像头的实际距离最终值。

需要说明的是，在从深度图中计算第一目标距离值时，最好需要剔除其周边的边缘像素，因此只需要选择其中的一个中心局部区域的像素纳入均值计算范围即可。在本发明的实施例中，优选的，深度图的中心局部区域的宽度和高度分别为深度图宽度和高度的一半。

在本发明的实施例中，深度估计网络基于transformer模型，采用多特征融合的方法，模型具有强大的上下文建模能力。模型采用swin-transformer作为骨干网络，使用特征金字塔结构(PSP block)在多种尺度上对深度进行预测，预测采用先预测bins再预测perbin probability再计算最终深度结果的方式(PB block)，同时，模型为了解决深度估计预测边缘不够精确的问题，使用对原始的输入图像尺寸先下采样再上采样然后作差的方式，得到残差边缘信息(residual edge information)，然后与后续预测深度的特征进行拼接操作，增加了特征的边缘信息。如图5所示，该深度估计网络的输入为RGB形式的待检测帧，内部的深度图输出过程具体详述如下：

4)将第四个swin-transformer模块提取到的最深层特征图输入特征金字塔结构的PSP模块(即PSP Block)中，模块输出再依次经过四个级联的注意力模块，其中四个注意力模块与四个swin-transformer模块一一对应构成跳跃连接，每个注意力模块在执行注意力机制时均以上一个级联模块的输出特征作为查询Q，以对应的swin-transformer模块提取得到的特征图作为键K和值V；以最后一个注意力模块输出的经过注意力融合后的特征作为第四特征图。

需要注意的是，四个注意力模块与四个swin-transformer模块是一一对应的，图中即第N个注意力模块对应于第N个swin-transformer模块。沿数据前向传播过程，注意力模块的次序依次是第1个注意力模块、第2个注意力模块、第3个注意力模块、第4个注意力模块，而swin-transformer模块的次序依次是第4个swin-transformer模块、第3个swin-transformer模块、第2个swin-transformer模块、第1个swin-transformer模块。4个swin-transformer模块输出的特征图参数标注于图5中。

5)将第三特征图和第四特征图进行拼接，然后先通过两个卷积模块后再通过Softmax层输出待检测帧中每一个像素对应的权重向量，该权重向量的维度与上述深度预测块输出的离散深度估计值数量相同，且权重向量中的权重与离散深度估计值一一对应；针对待检测帧中每一个像素，利用对应的权重向量对上述深度预测块输出的离散深度估计值进行加权求和，得到各像素对应的深度值，从而将待检测帧转换为相同尺寸的深度图。

本发明将第一目标距离值depth_model和第二目标距离值depth_fast进行融合修正的方法可以是多样的。在本发明的实施例中，可采用加权修正，即实际距离最终值depth_final的计算公式如下：

depth_final＝λ*depth_fast+(1-λ)*depth_model

式中：λ代表大于0且小于1的权重值。λ的具体取值可以根据实际进行优化调整。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于相似三角形的目标检测以及测距方法，其特征在于，包括以下步骤：

S1、通过安装于车道正上方的摄像头获取车道区域的视频流，并对视频流中的每一帧进行图像采集；

2.根据权利要求1所述的基于相似三角形的目标检测以及测距方法，其特征在于，所述S1中，所述目标检测网络预先利用带标注的视频数据集进行训练，且视频数据集中包含多种场景和多种天气下采集的数据。

3.根据权利要求1所述的基于相似三角形的目标检测以及测距方法，其特征在于，所述S2中，所采集的每帧图像通过图像处理得到待检测帧的方法如下：

4.根据权利要求1所述的基于相似三角形的目标检测以及测距方法，其特征在于，所述S3中，目标检测网络包含特征提取网络和目标检测头，其中特征提取网络由卷积神经网络模型和Neck层组成，目标检测头用于检测出道路上的行人和车辆在图像中的位置。

5.根据权利要求1所述的基于相似三角形的目标检测以及测距方法，其特征在于，所述摄像头位于车道的正上方，其成像图像中下边缘与车道线方向保持垂直。

6.根据权利要求1所述的基于相似三角形的目标检测以及测距方法，其特征在于，所述S4中，所述基于相似三角形的快速测距算法计算实际距离的过程如下：

以计算得到的EC作为快速测距算法输出的测距结果。

7.根据权利要求1所述的基于相似三角形的目标检测以及测距方法，其特征在于，将待检测帧输入深度估计网络中，得到待检测帧对应的深度图，计算深度图的中心局部区域内所有像素点的深度值均值，并作为第一目标距离值；同时将基于S4中通过快速测距算法获得的实际距离作为第二目标距离值，将第一目标距离值和第二目标距离值进行融合修正，得到移动目标距离摄像头的实际距离最终值。

8.根据权利要求7所述的基于相似三角形的目标检测以及测距方法，其特征在于，所述深度图的中心局部区域的宽度和高度分别为深度图宽度和高度的一半。

9.根据权利要求7所述的基于相似三角形的目标检测以及测距方法，其特征在于，所述深度估计网络的输入为RGB形式的待检测帧，内部的深度图输出过程如下：

10.根据权利要求9所述的基于相似三角形的目标检测以及测距方法，其特征在于，所述将第一目标距离值depth_model和第二目标距离值depth_fast进行融合修正的方法为加权修正，实际距离最终值depth_final的计算公式如下：

depth_final＝λ*depth_fast+(1-λ)*depth_model

式中：λ代表大于0且小于1的权重值。