CN112699748A

CN112699748A - 基于yolo及rgb图像的人车距离估计方法

Info

Publication number: CN112699748A
Application number: CN202011521991.XA
Authority: CN
Inventors: 李蔚清; 张俱豪
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-04-23
Anticipated expiration: 2040-12-21
Also published as: CN112699748B

Abstract

本发明公开了一种基于YOLO及RGB图像的人车距离估计方法，包括：获取用于目标测距的图像；构建基于YOLO的深度学习卷积网络模型；对基于YOLO的深度学习卷积网络模型进行训练，将步骤1获取的用于目标测距的图像输入训练好的深度学习卷积网络模型进行目标检测，识别出图像中的人车目标，获取目标候选框；采集人车RGB图像并进行标定，获得距离与像素高度差间关联关系的先验知识；采用基于先验知识的投影反演方法对目标候选框中的目标进行距离估计，得到目标与RGB相机的距离。本发明采用的算法模型简单，实时性高，设备成本低。

Description

基于YOLO及RGB图像的人车距离估计方法

技术领域

本发明属于人工智能领域，具体为一种基于YOLO及RGB图像的人车距离估计方法。

背景技术

随着人民生活水平的提高和汽车工业的发展，汽车逐渐走进更多家庭的生活和工作，人们得以享受到更大的交通便利。但随之而来的是道路的拥挤和频发的交通事故，汽车自动驾驶及主动安全成为当下汽车技术发展所面临的一个重要问题。而自动驾驶主要需要解决对目标物体如行人和车辆较为精确的识别，同时估算目标物与驾驶车辆的距离，从而控制车辆行驶在一个相对安全的距离，保证行车过程中的安全。

目标检测的主要任务之一，是找出图像中所有特定物体，即目标物，并确定物体的位置信息和大小信息，然后采用较为直观的矩形框图来确定其所在位置。目标检测是计算机视觉领域中较为核心的问题之一，也为计算机视觉在其他领域的任务奠定了基础。目标检测不仅包含图像处理、模式识别等方法，还融合了特征提取、深度学习等一系列在许多领域有广泛应用的前沿技术，是一项极具挑战性的课题。当前目标检测领域取得了很多重要的成果，已经大量运用于安防、工业、汽车辅助驾驶等多个领域，同时也面临着诸多挑战，比如复杂多样的背景环境下的检侧、系统实时性和稳定性的严格要求、形态各异的外貌特征检测等。

目标测距作为汽车自动驾驶系统的关键技术之一，是汽车根据周围行车环境通过智能决策模块控制车辆主动加减速及转向的基础。目前三维目标检测算法根据传感器不同，大致可以分为视觉、激光点云和多模态融合这三大类。但是由于车载环境下的条件限制，同时为了获得实时的目标信息，激光点云和多模态融合的方法并不适用于本场景。而视觉方法由于其成本低、纹理特征丰富等优势，在目标检测领域中被广泛使用，并且可根据相机类型分为单目视觉和双目视觉两类。前者关键问题在于无法直接获取深度信息，从而导致目标在三维空间中的定位误差较大。后者虽然在获取距离方面更加容易和精确，但是所使用的设备也更加复杂，同时双目视觉对光照条件等因素更加敏感，容易导致深度计算的偏差。

发明内容

本发明的目的在于提出了一种基于YOLO及RGB图像的人车距离估计方法。

实现本发明的技术解决方案为：一种基于YOLO及RGB图像的人车距离估计方法，具体步骤为：

步骤1：获取用于目标测距的图像；

步骤2：构建基于YOLO的深度学习卷积网络模型；

步骤3：对基于YOLO的深度学习卷积网络模型进行训练，将步骤1获取的用于目标测距的图像输入训练好的深度学习卷积网络模型进行目标检测，识别出图像中的人车目标，获取目标候选框；

步骤4：采集人车RGB图像并进行标定，获得距离与像素高度差间关联关系的先验知识；

步骤5：采用基于先验知识的投影反演方法对目标候选框中的目标进行距离估计，得到目标与RGB相机的距离。

优选地，所述深度学习卷积网络模型采用YOLOv3模型。

优选地，所述深度学习卷积网络模型对图片的处理过程为：

将输入的图片划分为网格；

每个网格预测8个边界框以及对应的置信度分数，每个预测的边界框包括：边界框中心点的坐标、边界框的宽和高以及置信度。

优选地，置信度的计算公式为：

式中，若网格中并不存在指定目标，Pr(Object)＝0；若存在任一目标的中心落在网格中，则Pr(Object)＝1，

为预测目标框面积与真实目标框面积之间的交并比。

优选地，当Pr(Object)＝1时，每个预测边框中出现在网格中的指定拟合类别的物体i的置信度Confidence(i)为：

式中，Pr(Classi|Object)为第i类物体中心存在网格中的概率。

优选地，采集人车RGB图像并进行标定，获得距离与像素高度差间关联关系的先验知识的具体方法为：

(1)采集含有人车目标的道路场景视频，对采集到的视频信息进行分帧处理，得到RGB图像；

(2)对RGB图像进行标定，标定内容包括被检测目标的边界框像素高度，被检测目标的边界框类别信息，被检测目标的深度信息；

(3)按照以上步骤对人车两类目标进行标定，获得距离与像素高度差间关联的先验知识。

优选地，采用基于先验知识的投影反演方法对目标候选框中的目标进行距离估计，得到目标与RGB相机的距离的具体方法为：

h1为场景中人物高度，H1为相机拍下场景的最大高度，D1为人物距离镜头的距离，h2为人物投影到相片上的高度，H2为场景投影到相片上的最大高度；

当人物身高固定，根据相似三角形可知：

则：

D1＝D2×propotion×α

α为可以通过先验知识获得的参数，D2为相机焦距；

令D2×α＝γ，则只要知道γ和propotion，即可求出人物距离镜头的距离；

物体与镜头的距离为

其中j为图像中第j帧，i为图像中第i个物体，共有k帧，每一帧有n个检测物体；

图像分辨率为High×Width，第j帧第i个物体的候选框大小为

则：

通过对不同样本进行训练，得到不同

下对应的γ，找到γ与

的关系，求出不同环境下γ的变化，得到目标物体与镜头的距离

本发明与现有技术相比，其显著优点为：本发明采用的算法模型简单，实时性高，设备成本低。

下面结合附图对本发明做进一步详细的描述。

附图说明

图1为一种基于YOLO及RGB图像的人车距离估计方法中YOLOv3网络结构图。

图2为一种基于YOLO及RGB图像的人车距离估计方法中YOLOv3目标检测流程。

图3为一种基于YOLO及RGB图像的人车距离估计方法中投影反演示意图。

图4为一种基于YOLO及RGB图像的人车距离估计方法中距离估计流程图。

图5为一种基于YOLO及RGB图像的人车距离估计方法中行人检测结果。

图6为一种基于YOLO及RGB图像的人车距离估计方法中车辆检测结果。

图7为一种基于YOLO及RGB图像的人车距离估计方法中目标测距结果。

具体实施方式

参考图1到图3，根据本发明实施例的一种基于YOLO及RGB图像的人车距离估计方法，包括如下步骤：

步骤1：获取用于目标测距的图像，

作为一个较优的实施例，在汽车的顶部搭载RGB相机，固定RGB相机位置和其相机焦距，采集不同目标物在距离相机不同位置的图片信息。

步骤2：构建基于YOLO的深度学习卷积网络模型；

具体地，在Windows10系统下，Pytroch平台，搭建YOLO算法模型下的使用环境，成功运行算法模型，构建基于YOLO的深度学习卷积网络模型的过程为：

(1)在基于Python语言的深度学习框架Pytorch上搭建网络模型输入数据的预处理模块。

(2)在基于Python语言的深度学习框架Pytorch上搭建网络模型模块。具体包括：网络模型结构和模型的损失函数。

(3)在基于Python语言的深度学习框架Pytorch上搭建网络模型存储模块。

如图1、2所示，深度学习卷积网络模型采用YOLO系列中效果较好的YOLOv3模型。

首先，YOLOv3算法模型会将输入的图片划分为网格(grid-cell)，其大小划分为S×S，如果图片中的一个特定目标(object)的中心点刚好属于划分后的某一个网格中，该目标就由这个特定的网格进行预测。

划分后的每一个网格都将预测8个边界框(boundingboxes)以及其置信度分数(confidencescores)，每一个预测的边界框都将包括：x、y、w、h和confidence在内的五个参数。其中(x,y)为边界框的中心点的坐标，是边界框的中心点与网格的相对位置的表现，(w,h)为边界框的宽和高，是边界框相对于整幅图片的宽和高。Confidence为置信度，反映了边界框内网络所预测的指定目标的可能性，其计算公式如下所示

假使网格中并不存在指定目标，那么上述公式中的Pr(Object)＝0，则预测的指定目标置信度也等于0。如果存在某一目标的中心落在网格中，则Pr(Object)＝1，置信度分数等于预测目标框面积与真实目标框面积之间的交集与并集之比(intersectionoverunion,IOU)，计算公式为：

同时，每个网格单元还对网格内存在的目标是否为C个类别中某一类的条件概率进行预测，从而得到C个类别概率Pr(Classi|Object)，表示第i类物体中心存在于该网格中的概率。C代表的是类别数量，与B无关。之后将预测类别得到的数据值和预测边框的置信度数值进行乘法运算，得到每个预测边框中出现在该网格中的某个指定拟合类别的物体i的置信度Confidence(i)，即

在对YOLOv3目标检测进行训练的过程中，需要对损失函数进行一定的设计，使得预测的边界框坐标、置信度以及网格得目标类别这三个方面达到一定的平衡，从而确保该网络模型的鲁棒性。

在使用坐标定位误差、IOU误差和分类误差三者的均方和误差作为损失函数的时候，显然8维的坐标定位误差和20维的分类误差同等重要是不合理的。另外，在计算IOU误差时，存在很多网格不包含目标中心，这种网格预测的置信度等于0，与包含物体的网格相比，这些网格在训练时对梯度更新的影响将会大得多，容易导致神经网络的训练不稳定甚至发散。

因此，就需要这三类误差的权重值进行适当的调整，以平衡这三类误差对网络损失造成的不同程度影响。将定位误差的权重进行一定比例的提高，调节至λ_coord＝5；同时如果没有指定目标物体的中心点落入到了网格内部，则将其置信度误差的权重比例减小至λ_noobj＝0.5；其他情况下的分类误差以及置信度误差的权重比例则不进行调整。对于边界框来说，其定位误差以及尺寸误差对损失函数的影响不尽相同，其中，边界框的尺寸误差相比于边界框所在网格的定位误差对损失函数的影响更为明显，因此用

和

替换原先的w和h更为合适。最后，规定每个边界框只能预测一个目标，计算预测边界框和所有参考标准框的IOU值，比较得出预测目标IOU值最大的即为该边界框的预测结果。YOLOv3模型的损失函数如下所示：

使用训练好的YOLOv3神经网络对步骤1中采集到的图像进行目标检测，识别出图像中的人车目标，并将目标定位、标记。从而获的目标的候选框。

(1)搭建数据采集平台，采集含有人车目标的道路场景视频，对采集到的视频信息进行分帧处理，从而获得到RGB图像。

(2)对采集到的RGB图像利用标定工具进行标定，标定内容包括被检测目标的边界框像素高度，被检测目标的边界框类别信息，被检测目标的深度信息。

(3)按照以上步骤对人车这两类目标进行操作，获得距离与像素高度差间关联的先验知识。

投影反演方法如图3所示，h1为场景中人物高度，H1为相机拍下场景的最大高度。D1为人物距离镜头的距离，h2为人物投影到相片上的高度，H2为场景投影到相片上的最大高度。

当人物身高固定，即h1固定的情况下，根据相似三角形可知：

所以有：

则结合上述式子可得

D1＝D2×propotion×α

令D2×α＝γ，则只要知道γ和propotion，即可求出D1，即人物距离镜头的距离。

对于样本数据来说，规定物体与镜头的距离为

其中j为图像中第j帧，i为图像中第i个物体。共有k帧，每一帧有n个检测物体。

设图像分辨率为High×Width，第j帧第i个物体的候选框大小为

则得

即

通过对不同样本进行训练，得到不同

下对应的γ。找到γ与

的关系，求出不同环境下γ的变化，从而得到目标物体与镜头的距离。图4为投影反演方法的距离估计的流程。

对本发明的实际效果进行试验测试，分析结果。

(1)测试条件

本方法使用的硬件平台：CUP采用Intel Core i7-8750，操作系统为Windows10，训练框架采用Pytroch0.4。

(2)测试结果

目标检测的实验结果如图5、6所示

目标测距实验结果如图7所示

测量距离与实际距离及误差如表1所示。

表1投影反演法测量距离与实际距离及误差

(3)测试分析

由图5、6可知，使用基于YOLO模型改进的YOLOv3网络模型，可以准确的检测出目标物体并框出具体位置，在较为密集以及较小目标物的检测，效果也较为良好。

由图7、表1可知，本发明的一种基于YOLO及RGB图像的人车距离估计方法可以较为准确的估计出目标物距镜头的距离，当目标物体距离较近时(5-12m)，测量误差较小，误差小于2％；当目标母体距离较远时(≥15m)，测量误差相对较大，但误差也小于4％。综上所述，基于先验样本知识的投影反演技术估计目标物体距离，误差均小于4％。