CN112183485B

CN112183485B - 基于深度学习的交通锥桶检测定位方法、系统及存储介质

Info

Publication number: CN112183485B
Application number: CN202011204025.5A
Authority: CN
Inventors: 王立勇; 王浩东; 苏清华
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2024-03-05
Anticipated expiration: 2040-11-02
Also published as: CN112183485A

Abstract

本发明涉及一种基于深度学习的交通锥桶检测定位方法、系统及存储介质，其包括：在预先获取的彩色图像中对交通锥桶进行检测识别；在预先获取的深度图像中对交通锥桶进行检测识别；将彩色图像的检测识别结果与深度图像的检测识别结果进行匹配，得到最终的交通锥桶的类别和三维空间位置。本发明将改进的YOLOv4算法应用于交通锥桶检测任务中，能够准确、全面和快速的从图像中检测到交通锥桶，并通过匹配彩色图像和深度图像检测结果的方法，同时获取到交通锥桶的类别和三维位置。

Description

基于深度学习的交通锥桶检测定位方法、系统及存储介质

技术领域

本发明涉及一种基于机器视觉的目标检测技术领域，特别是关于一种基于深度学习的交通锥桶检测和定位方法、系统及存储介质。

背景技术

随着电子信息技术和汽车工业的发展，辅助驾驶、自动驾驶技术成为热门的研究方向，而基于机器视觉系统的目标检测技术是辅助驾驶、自动驾驶领域的核心技术之一。目前，对于车辆、行人和交通标志等已有较好的检测效果，但是对于检测道路上的交通锥桶，国内外的相关研究较少。交通锥桶通常放置于发生特殊状况的道路或引导、标识临时道路。在自动驾驶任务中，由于车辆在不断移动，因此对检测速度和检测精度都有一定要求。

在交通锥桶识别领域，过去常常使用基于图像特征的识别方法，如形状特征和颜色特征。HUANG Yong等人提出使用形状匹配的方法检测候选区域是否是交通锥桶。对图像进行预处理，并提取图像的轮廓，与预先设置好的模板进行匹配，以确定目标是否为交通锥桶，实验结果显示可以检测到距离在45m内的交通锥桶。但这种方法受到环境的影响较大，容易将相近形状的物体误检为锥桶。近年来将机器学习技术应用到交通锥桶检测问题上。Lester Kalms等人将Viola-Jones算法应用于交通锥桶检测，通过提取交通锥桶的Haar特征，训练级联分类器，并进行交通锥桶检测。但这种方法鲁棒性较差，对环境光线造成的锥桶亮度和色调的适应性较差。

得益于卷积神经网络在目标检测任务中的高精度和实时性，以及网络优秀的泛化能力，可将其应用于交通锥桶检测。Ankit Dhall等人训练了一个YOLOv2网络用于检测交通锥桶，并使用了一个卷积神经网络提取交通锥桶检测结果上的关键点，并使用关键点和交通锥桶的先验信息进行PnP解算，获取交通锥桶的三维位置，但是该方法算法复杂，实时计算资源消耗量大，应用在嵌入式领域硬件成本高，且可能产生较大误差。

发明内容

针对上述问题，本发明的目的是提供一种基于深度学习的交通锥桶检测和定位方法、系统及存储介质，其能提高交通锥桶检测速度和精度，并降低系统计算资源消耗。

为实现上述目的，本发明采取以下技术方案：一种基于深度学习的交通锥桶检测和定位方法，其包括以下步骤：1)在预先获取的彩色图像中对交通锥桶进行检测识别；2)在预先获取的深度图像中对交通锥桶进行检测识别；3)将彩色图像的检测识别结果与深度图像的检测识别结果进行匹配，得到最终的交通锥桶的类别和三维空间位置。

进一步，采用改进的YOLOv4的彩色图检测网络进行交通锥桶检测识别；采用改进的YOLOv4的深度图检测网络在深度图像中进行交通锥桶检测识别。

进一步，所述检测识别方法包括以下步骤：

1.1)制作交通锥桶的彩色图像数据集或深度图像数据集，并制作数据集中图片文件信息对应的标签文件；

1.2)采用k-means聚类计算锚盒框大小；

1.3)将训练集图片按随机顺序传入改进的YOLOv4网络中，并对图片做增强处理；

1.4)使用测试集对网络进行评估，记录平均精度均值mAP，并保存最高mAP时的网络权重作为最终权重，当训练次数达到预定次数后，训练停止；

1.5)加载最终权重，对测试集进行评估，判断网络是否出现过拟合，当检测结果与测试集中的检测结果相近，则认为训练完成；

1.6)使用训练好的网络和最终权重执行检测识别，输出目标的类别和位置。

进一步，所述步骤1.3)中，对YOLOv4网络的改进包括：

对损失函数中边界框回归部分进行改进，将原有比例系数(2-w*h)更改为(2-w*h*2)；

对损失函数中边界框分类部分进行改进，构造一个新的动态分类值c＝α*cls+(1-α)*loc，用于代替网络直接输出的类别分类值在损失函数中计算分类损失，其中α为常数，loc为当前预测的边界框与真实框的IoU，cls为网络输出的类别分类。

进一步，所述步骤1.3)中，对于彩色图像的增强处理方法为：将图片转换到HSV色彩通道，并根据配置文件中的色调、饱和度和曝光度参数，在H通道增加[-色调值,色调值]中的随机值，对S和V通道分别随机乘或者除以饱和度和曝光度参数值，达到改变图像色调、饱和度和亮度的目的，再将图片从HSV通道转换回RGB通道，最后根据配置文件中的角度参数，将图片随机旋转[-角度,角度]中的某一角度。

进一步，所述步骤1.3)中，对于深度图像的增强处理方法为：根据配置文件的角度参数，将图片随机旋转[-角度,角度]中的某一角度。

进一步，所述步骤3)具体包括以下步骤：

3.1)遍历深度图检测识别结果，对于其中的每个检测边界框，都在彩色图检测结果中寻找该交通锥桶对应的彩色图像检测边界框；

匹配方法为：对每个深度图检测结果边界框即原边界框，建立一个新的边界框，需保持该新的边界框与原边界框的中心点相同，新的边界框的宽和高为原边界框的宽和高的倍数，寻找中心点落在新边界框范围内的彩色图像的检测结果边界框，并取一个中心点与原深度图像中心点距离最近的彩色图检测结果边界框作为匹配成功的边界框；

3.2)对于匹配成功的检测结果，在深度图中求其三维空间位置：对深度图检测结果边界框包围的所有像素，求各像素点在坐标系中的坐标的平均值，作为该交通锥桶在三维空间的坐标位置。

一种基于深度学习的交通锥桶检测和定位系统，其包括：彩色图像处理模块、深度图像处理模块和匹配输出模块；

所述彩色图像处理模块在预先获取的彩色图像中对交通锥桶进行检测识别；

所述深度图像处理模块在预先获取的深度图像中对交通锥桶进行检测识别；

所述匹配输出模块将彩色图像的检测识别结果与深度图像的检测识别结果进行匹配，得到最终的交通锥桶的类别和三维空间位置。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述方法中的任一方法。

一种计算设备，其包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述方法中的任一方法的指令。

本发明由于采取以上技术方案，其具有以下优点：本发明将改进的YOLOv4算法应用于交通锥桶检测任务中，能够准确、全面和快速的从图像中检测到在画面中尺寸普遍较小交通锥桶，并通过匹配彩色图像和深度图像检测结果的方法，同时获取到交通锥桶的类别和三维位置。相比于单独在彩色或深度图像中进行识别的方案，本发明能够同时完成图像中的交通锥桶识别及其位置融合；相比于同时使用摄像头和雷达等传感器进行识别和位置感知的方案，本发明采用方案的成本更低且更加稳定。

附图说明

图1为本发明的交通锥桶检测和定位方法流程示意图。

图2为本发明中用于生成深度图的双目相机模型示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的第一实施方式中，如图1所示，本实施例提供一种基于深度学习的交通锥桶检测和定位方法，其包括以下步骤：

1)在预先获取的彩色图像中对交通锥桶进行检测识别；

在本实施例中，采用改进的YOLOv4的彩色图检测网络进行交通锥桶检测识别；

具体检测识别方法包括以下步骤：

1.1)制作交通锥桶的彩色图像数据集，并制作数据集中图片文件信息对应的标签文件；

数据集中图片文件为彩色图片，每张图片对应一个标签文件，标签文件包含图片中所有的交通锥桶矩形边界框的像素坐标系坐标(x，y)、高度h和宽度w四个位置信息和类别信息，并按预先设定的比例随机分为训练集、验证集和测试集。

预先设定的比例可以为7:2:1或8:1:1，该比例并不固定，可以根据具体情况进行设定。

类别信息是指锥桶的颜色，红色、蓝色和黄色锥桶。

1.2)采用k-means聚类计算锚盒框大小；

在目标检测算法中，可通过预先设计一些锚盒框，并通过在检测时调整锚盒框的位置和大小完成检测的任务。如果锚盒框的尺寸和目标的尺寸差异较大，则会影响模型的检测效果，YOLOv4网络通过k-means聚类算法，对数据集中的目标边界框的宽和高的值进行聚类，自动生成一组更加适合数据集的锚盒框，可以使网络的检测效果更好，例如对数据集中边界框的宽高进行聚类，生成9对宽和高，则可认为更能“代表”本数据集的数据。将矩形框按尺寸从小到大排列，将其宽、高数值配置为YOLOv4网络配置文件中anchor参数，并将图片分辨率配置为width和height参数。

1.3)开始训练过程，将训练集图片按随机顺序传入改进的YOLOv4网络中，并对图片做增强处理；

由于交通锥桶的尺寸较小，且随着距离的增加，交通锥桶在图像中的尺寸进一步减小，为了使网络对于不同距离的交通锥桶的检测更加鲁棒，本发明在原来的基础上，对损失函数中边界框回归部分进行改进，增加对小尺寸目标的敏感性。

对YOLOv4网络的改进具体包括：

对于边界框的回归损失，由(x,y)、(w,h)两部分组成，将原有比例系数(2-w*h)更改为(2-w*h*2)，可进一步增加对小尺寸目标的敏感性。

为了解决遮挡、目标处于图像边缘等造成无法获取目标全部信息或包含其他种类目标信息的问题，使一些包含丰富语义信息或者位置信息但IoU(Intersection overUnion)较低的边界框能够参与到预测中，本发明在原来的基础上，对损失函数中边界框分类部分进行改进，进一步提升网络分类的精度。

对于边界框分类部分，构造一个新的动态分类值c＝α*cls+(1-α)*loc，用于代替网络直接输出的类别分类值在损失函数中计算分类损失，由于同时融合了预测边界框的定位精确度和分类信息，可进一步提升网络分类的精度。其中α为常数，loc为当前预测的边界框与真实框的IoU，cls为网络输出的类别分类。

增强处理包括在预先设定范围内随机改变图片的色调、饱和度和亮度，以及在预先设定角度内随机旋转图片。具体方法为：将图片转换到HSV色彩通道，并根据配置文件中的色调、饱和度和曝光度参数，在H通道增加[-色调值,色调值]中的随机值，对S和V通道分别随机乘或者除以饱和度和曝光度参数值，达到改变图像色调、饱和度和亮度的目的，再将图片从HSV通道转换回RGB通道，最后根据配置文件中的角度参数，将图片随机旋转[-角度,角度]中的某一角度。其中，色调范围和角度范围中的色调值和角度值均为预先设定的值，优选的，色调范围可以设定为[-0.05,0.05]，饱和度和曝光度参数值可以设置为1.5，角度范围可以设定为[-10°,10°]。

1.4)训练中，每循环预先设定次数的训练集后，使用测试集对网络进行评估，记录平均精度均值mAP(mean average precision)，并保存最高mAP时的网络权重作为最终权重，当训练次数达到预定次数后，训练停止；

1.6)使用训练好的网络和最终权重执行检测识别，输出目标的类别和位置；

2)在预先获取的深度图像中对交通锥桶进行检测识别；

在本实施例中，采用改进的YOLOv4的深度图检测网络在深度图像中进行交通锥桶检测识别，具体方法包括以下步骤：

2.1)制作交通锥桶的深度图像数据集，并制作图片中信息对应的标签文件；

其中，数据集中图片文件为深度图片，采用双目相机系统获取深度图片，双目相机系统建模如图2所示，O-XYZ为世界坐标系，o-x₁y₁和o-x₂y₂为左、右图像像素坐标系，P为世界坐标系中一点，P_L(x_l,y_l,z_l)和P_R(x_r,y_r,z_r)为P点在左、右图像上的投影，经公式(1)、(2)计算后，得到的(X,Y,Z)即为该点P的三维坐标。

式中，f表示相机的焦距；b表示左右相机间基线的长度。

每张深度图片对应一个标签文件，标签文件包含每张图片中的所有交通锥桶的像素坐标系坐标、高度和宽度四个位置信息，并按预先设定的比例随机分为训练集、验证集和测试集。

2.2)采用k-means聚类计算锚盒框大小；

YOLOv4网络通过k-means聚类算法，对深度图像数据集中的目标边界框进行聚类，自动生成一组更加适合数据集的锚盒框，使网络的检测效果更好；将矩形框按尺寸从小到大排列，将其宽、高数值配置为YOLOv4网络配置文件中anchor参数，并将图片分辨率配置为width和height参数。

2.3)开始训练过程，将训练集图片按随机顺序传入改进的YOLOv4网络中，并对图片做增强处理

YOLOv4网络的改进包括：

对于边界框的回归损失，由(x,y)、(w,h)两部分组成，本发明将原有比例系数(2-w*h)更改为(2-w*h*2)，可进一步增加对小尺寸目标的敏感性。

为了解决遮挡、目标处于图像边缘等造成无法获取目标全部信息或包含其他种类目标信息的问题，使一些包含丰富语义信息或者位置信息但IoU较低的边界框能够参与到预测中，本发明在原来的基础上，对损失函数中边界框分类部分进行改进，进一步提升网络分类的精度。

对于边界框分类部分，构造一个新的动态分类值c＝α*cls+(1-α)*loc，用于计算损失函数中边界框分类损失，进一步提升网络分类的精度。其中α为常数，loc为当前预测的边界框与真实框的IoU，cls为网络输出的类别分类。

增强处理包括在预先设定角度内随机旋转图片。具体方法为根据配置文件的角度参数，将图片随机旋转[-角度,角度]中的某一角度。其中，角度范围中的角度值为预先设定，优选的，角度范围可以设定为[-10°,10°]。

2.4)训练中，每循环预先设定次数的训练集后，使用测试集对网络进行评估，记录mAP，并保存最高mAP时的网络权重作为最终权重，当训练次数达到预定次数后，训练停止；

2.5)加载最终权重，对测试集进行评估，判断网络是否出现过拟合，当检测结果与测试集中的检测结果相近，则认为训练完成；

2.6)使用训练好的网络和最终权重执行检测任务，输出目标的位置；

3)将彩色图像的检测识别结果与深度图像的检测识别结果进行匹配，得到最终的交通锥桶的类别和三维空间位置；

由于彩色图像和深度图像中物体位置并不相同，故需要将彩色图检测网络和深度图检测网络的检测结果进行匹配，具体方法包括以下步骤：

由于彩色图像的信息更加丰富，所以彩色图像的检测结果更加全面，故以深度图检测结果为基础进行匹配。

匹配方法为：对每个深度图检测结果边界框(以下简称为原边界框)，建立一个新的边界框，需保持该新的边界框与原边界框的中心点相同，即中心点不变，新的边界框的宽和高为原边界框的宽和高的倍数，在本实施例中优选为新的边界框的宽为原边界框宽的2倍，高为原边界框高的1.67倍；寻找中心点落在新边界框范围内的彩色图像的检测结果边界框，并取一个中心点与原深度图像中心点距离最近的彩色图检测结果边界框作为匹配成功的边界框。

3.2)对于匹配成功的检测结果，在深度图中求其三维空间位置；

在制作深度图像的过程中，可获取深度图像各像素点对应在三维世界中的坐标距离。对深度图检测结果边界框包围的所有像素，求各像素点在坐标系中的坐标的平均值，作为该交通锥桶在三维空间的坐标位置。

在本发明的第二实施方式中，还提供一种基于深度学习的交通锥桶检测和定位系统，其包括彩色图像处理模块、深度图像处理模块和匹配输出模块；

彩色图像处理模块在预先获取的彩色图像中对交通锥桶进行检测识别；

深度图像处理模块在预先获取的深度图像中对交通锥桶进行检测识别；

匹配输出模块将彩色图像的检测识别结果与深度图像的检测识别结果进行匹配，得到最终的交通锥桶的类别和三维空间位置。

在本发明的第三实施方式中，还提供一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行第一实施方式中的任一方法。

在本发明的第四实施方式中，还提供一种计算设备，其包括一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为一个或多个处理器执行，个或多个程序包括用于执行第一实施方式中的任一方法的指令。

综上，本发明使用改进的YOLOv4算法，训练得到彩色图检测网络，可检测彩色图像得到交通锥桶的类别和图像中的位置，训练得到深度图检测网络，可检测彩色图像得到交通锥桶的类别和三维空间中的位置，最后将两者检测结果进行匹配，得到交通锥桶的类别和三维空间位置。

上述各实施例仅用于说明本发明，各个步骤都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别部件及步骤进行的改进和等同变换，均不应排除在本发明的保护范围之外。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种基于深度学习的交通锥桶检测和定位方法，其特征在于，包括以下步骤：

1)在预先获取的彩色图像中对交通锥桶进行检测识别；

2)在预先获取的深度图像中对交通锥桶进行检测识别；

所述步骤3)具体包括以下步骤：

2.如权利要求1所述交通锥桶检测和定位方法，其特征在于，采用改进的YOLOv4的彩色图检测网络进行交通锥桶检测识别；采用改进的YOLOv4的深度图检测网络在深度图像中进行交通锥桶检测识别；

对YOLOv4网络的改进包括：

3.如权利要求2所述交通锥桶检测和定位方法，其特征在于，所述检测识别方法包括以下步骤：

1.2)采用k-means聚类计算锚盒框大小；

4.如权利要求3所述交通锥桶检测和定位方法，其特征在于，所述步骤1.3)中，对于彩色图像的增强处理方法为：将图片转换到HSV色彩通道，并根据配置文件中的色调、饱和度和曝光度参数，在H通道增加[-色调值,色调值]中的随机值，对S和V通道分别随机乘或者除以饱和度和曝光度参数值，达到改变图像色调、饱和度和亮度的目的，再将图片从HSV通道转换回RGB通道，最后根据配置文件中的角度参数，将图片随机旋转[-角度,角度]中的某一角度。

5.如权利要求3所述交通锥桶检测和定位方法，其特征在于，所述步骤1.3)中，对于深度图像的增强处理方法为：根据配置文件的角度参数，将图片随机旋转[-角度,角度]中的某一角度。

6.一种基于深度学习的交通锥桶检测和定位系统，其特征在于，包括：彩色图像处理模块、深度图像处理模块和匹配输出模块；

所述匹配输出模块将彩色图像的检测识别结果与深度图像的检测识别结果进行匹配，得到最终的交通锥桶的类别和三维空间位置；

所述匹配输出模块中，将彩色图像的检测识别结果与深度图像的检测识别结果进行匹配，具体包括：

7.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1至5所述方法中的任一方法。

8.一种计算设备，其特征在于，包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行如权利要求1至5所述方法中的任一方法的指令。