CN108921875B

CN108921875B - 一种基于航拍数据的实时车流检测与追踪方法

Info

Publication number: CN108921875B
Application number: CN201810746646.2A
Authority: CN
Inventors: 叶允明; 夏武; 张晓峰; 项耀军
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2021-08-17
Anticipated expiration: 2038-07-09
Also published as: CN108921875A

Abstract

本发明提供了一种基于航拍数据的实时车流检测与追踪方法，包括以下步骤：S1、基于弱监督学习的预训练部分，使用弱监督学习的方式训练好一个YOLO网络的预训练模型；S2、基于航拍数据的实时车流检测部分，采用全卷积神经网络以及具有先验信息的多目标框检测方法对YOLO网络的预训练模型进行改进，得到YOLO检测网络。本发明的有益效果是：基于YOLO算法进行改进，采用全卷积神经网络以及具有先验信息的多目标框检测方法，有效地利用了无人机航拍数据集多视角和多分辨率的图像特点进行训练，在不损失太多检测时间的情况下提升了算法的检测准确率，达到了准确率与时间的平衡。

Description

一种基于航拍数据的实时车流检测与追踪方法

技术领域

本发明涉及车流检测，尤其涉及一种基于航拍数据的实时车流检测与追踪方法。

背景技术

目前较为成熟的车流检测技术是主要基于帧间差分法，首先将视频转换为图像序列，进行灰度化处理，通过帧间差分法得到差分图像，再差分图像进行滤波、二值化和形态学处理，最后利用轮廓检测算法实现对车辆进行检测和追踪。

基于航拍视频数据中像素强度变化直接检测车辆的方法，有着准确性好的优点，但其由于原理上的限制有着以下的不足：

(1)由帧间差分法得到的二值图像的存在的图像信息损失，该技术容易导致车辆漏检和重复检测。

(2)该技术对复杂自然场景中车流检测的鲁棒性较差。

发明内容

为了解决现有技术中的问题，本发明提供了一种基于航拍数据的实时车流检测与追踪方法。

本发明提供了一种基于航拍数据的实时车流检测与追踪方法，包括以下步骤：

S1、基于弱监督学习的预训练部分，使用弱监督学习的方式训练好一个YOLO网络的预训练模型；

S2、基于航拍数据的实时车流检测部分，采用全卷积神经网络以及具有先验信息的多目标框检测方法对YOLO网络的预训练模型进行改进，得到YOLO检测网络；

S3、多视角多分辨率训练部分，采用多视角多分辨率的训练方法在YOLO检测网络上进行训练，得到一个检测模型；

S4、匹配式车流追踪部分，采用检测模型实时地对航拍视频进行前后两帧检测，最后采用匹配式车流追踪方法进行追踪。

作为本发明的进一步改进，步骤S1包括：每张无标注的图像进入两个流程，第一个流程用于图像的粗标注，主要包括候选框提取、候选框分类以及NMS(非极大值抑制)三个步骤，第二个流程为YOLO网络的基本训练流程，在计算预测损失的时候，将第一个流程中得到的粗标注图像视为标注数据。

作为本发明的进一步改进，所述候选框提取采用的是Selective Search(选择性搜索)算法，该Selective Search算法首先利用一种贪心分割策略将图像划分为很多小区域，然后将相邻相似性最高的区域进行合并，接着将合并后的区域保存为一个候选框，最后重复合并和保存候选框操作，得到所有的候选框，并通过车辆尺寸的统计数据，去除不可能是待检测车辆的候选框。

作为本发明的进一步改进，所述候选框分类包含2个卷积层、2个最大池化层、2个全连接层和1个损耗层。

作为本发明的进一步改进，步骤S2包括以下子步骤：

S21、采用全卷积神经网络，全卷积神经网络对输入的图像提取一系列特征，形成一张特征图，然后对特征图采用Softmax函数进行编码，即进行回归预测，得到一个tensor(张量)，该tensor存储的是目标框的位置信息和分类信息；

S22、具有先验信息的多目标框检测方法，采用单网格预测多个目标框的方法，即对训练数据集中的目标物的坐标值及长宽比信息进行统计，得到一种先验信息，再次将先验信息运用到网络模型的训练和预测中。

作为本发明的进一步改进，采用全卷积神经网络结构替换所述候选框分类中的卷积层和全连接层。

作为本发明的进一步改进，步骤S3包括以下子步骤：

S31、多分辨率航拍图像训练，将输入图像根据车辆的分辨率进行自动缩放，使图像车辆具有多种不同的分辨率，不同的分辨的图像依次输入YOLO检测网络中进行训练；

S32、多视角航拍图像训练，对输入图像进行不同视角下的透视变换，使得一张图像变成多张不同视角下的图像，将多种视角下的图像依次输入YOLO检测网络中进行训练。

作为本发明的进一步改进，在步骤S4中，采用检测模型实时地对航拍视频进行前后两帧检测，对视频中前后两帧的检测结果进行一一匹配，实现前后两帧检测车辆的关联，扩展到整个视频，即可实现某辆车在整段视频中出现的位置，从而实现车流的追踪效果。

作为本发明的进一步改进，步骤S4包括以下子步骤：

S41、获取第i帧及其前10帧图像信息；

S42、判断是否完成所有匹配，如果否，则进入下一步骤，如果是，则进入步骤S46；

S43、获取第i帧被检测车辆C的信息，根据车辆C的位置、尺度、颜色直方图信息在其前10帧结构中寻找匹配；

S44、判断是否匹配成功，如果匹配不成功，则初始化车辆C的运动模型并返回步骤S42，如果匹配成功，则进入下一步骤；

S45、更新车辆C的运动模型；

S46、判断是否完成所有视频的匹配，如果否，则i＝i+1，并返回步骤S41，如果是，则结束。

作为本发明的进一步改进，步骤S43包括以下子步骤：

S431、根据前面检测结果中所有车辆的运动状态预判在当前帧中检测框出现的位置、尺寸和颜色直方图；

S432、根据检测框的重叠率和颜色直方图的差异计算两个检测框之间的距离，距离越近，则相似度越高，反之相似性越低；

S433、根据阈值判定匹配是否成功。

本发明的有益效果是：通过上述方案，基于YOLO算法进行改进，采用全卷积神经网络以及具有先验信息的多目标框检测方法，有效地利用了无人机航拍数据集多视角和多分辨率的图像特点进行训练，在不损失太多检测时间的情况下提升了算法的检测准确率，达到了准确率与时间的平衡。

附图说明

图1是本发明一种基于航拍数据的实时车流检测与追踪方法的YOLO网络的预训练模型的结构示意图。

图2是本发明一种基于航拍数据的实时车流检测与追踪方法的YOLO检测网络的结构图。

图3是本发明一种基于航拍数据的实时车流检测与追踪方法的多目标框检测示意图。

图4是本发明一种基于航拍数据的实时车流检测与追踪方法的多分辨率图像训练过程示意图。

图5是本发明一种基于航拍数据的实时车流检测与追踪方法的多视角图像训练过程示意图。

图6是本发明一种基于航拍数据的实时车流检测与追踪方法的匹配式追踪过程示意图。

具体实施方式

下面结合附图说明及具体实施方式对本发明作进一步说明。

一种基于航拍数据的实时车流检测与追踪方法，包括以下步骤：

本发明主要包括四个部分：1.基于弱监督学习的预训练方法；2.基于航拍数据的实时车流检测方法；3.多视角多分辨率训练方法；4.匹配式车流追踪方法。整体的流程为首先利用基于弱监督学习的YOLO车流检测方法得到预训练模型，再采用多视角多分辨率训练方法在第二部分给出的改进后的YOLO检测算法上训练，最后得到一个鲁棒的检测模型。然后用上面训练得到的模型实时地对航拍视频进行前后两帧检测，最后采用匹配式车流追踪方法进行追踪。

一、基于弱监督学习的预训练方法

原始的YOLO算法需要大量的检测框级的标注图像进行训练，基于航拍数据易采集但不易标注的性质，本发明研究利用弱监督深度学习的方法，对YOLO的训练过程进行改进。

如图1所示，每张无标注的图像将进入两个流程。第一个流程用于图像的粗标注，主要包括候选框提取、候选框分类以及NMS三个步骤；第二个流程为YOLO的基本训练流程(即基于YOLO算法的检测模型)，在计算预测损失的时候，将第一个流程中得到的粗标注图像视为标注数据。粗标注流程中的候选框提取采用的是Selective Search算法，该算法首先利用一种贪心分割策略将图像划分为很多小区域，然后将相邻相似性最高的区域进行合并，接着将合并后的区域保存为一个候选框，最后重复合并和保存候选框操作，得到所有的候选框，并通过车辆尺寸的统计数据，去除不可能是待检测车辆的候选框。粗标注流程中候选框分类器采用的是类似LeNet的网络结构，该分类器包含2个卷积层、2个最大池化层、2个全连接层和1个损耗层，分类器的网络结构如表1所示。

表1分类器网络结构表

	卷积层	最大池化层	全连接层	激活函数	损失函数
						第一层	6×5×5	无	无	Leaky ReLU	无
第二层	无	6×2×2	无	无	无
						第三层	16×5×5	无	无	Leaky ReLU	无
第四层	无	16×2×2	无	无	无
						第五层	120×5×5	无	无	Leaky ReLU	无
第六层	无	无	84	无	无
						第七层	无	无	无	无	logistic

粗标注流程中的非极大值抑制算法，用于过滤交叉重复的检测框。在对SelectiveSearch提出的候选框进行分类后，一张图像中会有多个检测框，每个检测框会对应一个是车概率值。

YOLO的基本训练流程对两个地方进行修改。第一处是对全连接的最后一层进行修改，最后一层的tensor维度应为7×7×11，其中7×7表示对每张图像网格的划分方法，11表示每个网格需要存储一个11维的信息，因为每个网格负责预测2个检测框，每个检测框包含5维信息，并且每个网格需要存储一维是否有目标物的信息，所以2×5+1＝11。第二处是对YOLO的损失函数进行修改，在使用弱监督数据进行训练时，由于该数据存在一些噪声，所以希望通过对损失函数的修改，降低噪声对模型训练的影响。

在使用弱监督的方式训练好一个YOLO检测模型后，该检测模型的效果与强监督学习的模型相差很大，本发明将弱监督学习后的模型作为YOLO网络的预训练模型，然后利用部分全标注的数据进行全监督的fine-tune模型。这种弱监督的训练方式能够使模型融入更多目标车辆的特征，最后使用强监督的训练方式使模型收敛。

二、基于航拍数据的实时车流检测方法

本发明研究的方法主要是利用Faster R-CNN的anchor思想和全卷积神经网络(FCN)的思想对YOLO进行改进，并基于航拍数据的特点，对训练网络进行了调整，提升模型在航拍数据上的车流检测效果。经过这些修改后，利用公开数据集和本发明标注的数据集分别训练模型，最终实验结果表明修改后的网络模型在保证实时性的同时，大大的提升了检测准确率。

从YOLO基本思想可以知道，YOLO存在一些检测上面的缺陷。第一，YOLO对相互很近的物体检测效果很差；第二，YOLO算法中一个网格只能预测2个目标物检测框，所以它对图像中很小的物体的检测效果不好；第三，YOLO对同一类目标物的不常见的长宽比的泛化能力差。基于航拍数据的特点，俯视视角下的车辆不会相互重叠，但图像中的车辆非常小，属于小目标物检测的范畴，另外图像中的车辆具有不同的长宽比，需要模型在不同长宽比的检测上具有很强的泛化能力。故本发明的算法重点针对YOLO的后两个问题进行相应的改进。

1.采用全卷积神经网络。为了确保网络的检测速度，本发明研究采用全卷积神经网络结构替换原有的卷积层加全连接层的结构，因为YOLO检测的大部分计算量都在全连接处，本发明提出的全卷积神经网络极大的提升了检测速度，对全卷积后的特征同时进行目标框位置预测和目标框类别预测，改进后的YOLO结构如图2所示。

图2是一个基于全卷积神经网络的统一车辆检测网络，全卷积神经网络对输入的图像提取一系列特征，形成一张特征图，然后对特征图采用Softmax进行编码，即进行回归预测。得到一个tensor，该tensor存储的是目标框的位置信息和分类信息。

2.具有先验信息的多目标框检测方法。受Faster R-CNN中的anchor机制的影响，本发明采用单网格预测多个目标框的方法，即对训练数据集中的目标物的坐标值及长宽比信息进行统计，得到一种先验信息，再次将先验信息运用到网络模型的训练和预测中，根据统计结果可知，很少有B个以上的目标物的中心点落在同一个网格中，即每个网格预测B个目标框可以满足本发明研究的航拍数据的要求。提取的B个框的大小及长宽比并不是随机选择的，这些数据也是根据先验统计数据得到，选取过程是先对真实目标物的框按照大小、长宽比信息进行排序，然后按阈值进行聚类，选取B种最具代表性的尺寸和长宽比的检测框。这种多目标物检测框的提取方法有利于提升对小目标物的检测效果，并且有利于模型迭代时的快速收敛。

三、模型训练方法。

本节主要介绍提高车流检测鲁棒性的两种方法，根据航拍数据的特点，当飞行器飞行高度不一致时，图像中的车辆的分辨率不一样，当摄像头的拍摄角度转动时，地面车辆的特征也不一样。本发明主要提出多分辨率检测和多视角检测的训练方法来提高检测模型的鲁棒性。

1.多分辨率航拍图像训练。本发明采用同一网络模型来学习不同分辨率下的车辆特征。因为本发明采用的是全卷积神经网络，在去掉了全连接层之后，网络模型能够处理任意尺寸的图像，所以本发明提出将输入图像根据车辆的分辨率进行自动缩放，使图像车辆具有多种不同的分辨率，不同的分辨的图像依次输入网络中进行训练，使得模型具有多种分辨率下的泛化能力，所以每张图像都能为不同分辨率的模型提供一些特征，从而迭代优化模型。多分辨率训练的示意图如图4所示。

事先根据现实应用场景，摄像头的参数固定，将飞行器检测高度设定在90-150m之间，然后将不同高度的图像中的车辆分分辨率进行聚类，设置四种不同的分辨率中心，对应到输入图像的四种尺寸，四种尺寸为{416，480，544，608}，因为本发明设计的全卷积网络中有5个池化层，所以网络的下采样系数为32。每种输入图像的尺寸对应一种飞行器的拍摄高度。在多分辨率训练过程，首先获取飞行器的飞行高度，根据高度对图像进行分类，然后上采样或下采样到四种不同的尺寸下，最后不同尺寸的输入图像依次训练模型。多分辨率训练方法使得网络模型可以更好的检测不同尺寸下的图像，也就是说同一个网络能够同时进行不同分辨率的检测任务。

2.多视角航拍图像训练。使用不同拍摄角度的图像来训练同一网络，使得模型具有车辆不同视角下的特征，提高模型在通用环境下的鲁棒性。为了降低不同拍摄图像视角图像数量不同产生偏向的影响，以及提升训练数据的利用率，本发明对输入图像进行不同视角下的透视变换，使得一张图像变成多张不同视角下的图像，将多种视角下的图像依次输入网络中进行训练。多视角训练的示意图如图5所示。

和多分辨率训练过程类似，先对原图的拍摄视角进行分类，类别总共有四种，分别是{90°，60°，45°，30°}，然后通过拍摄角度间的透视变换，将一张图变换成四个拍摄角度下的图片，最后将四张图片都输入网络中进行训练，其中透视变换公式提前计算好，根据图像拍摄视角的分类自动选择透视变换公式。在透视变换之前，就先通过图像变换对，通过获取四组点的变换关系，即可学习到一个变换公式，通过这种方式，学习到四种视角下两两变换的12种透视变换公式。

四、匹配式车流追踪方法

本发明采用匹配式车流追踪方法，即对视频中前后两帧的检测结果进行一一匹配，实现前后两帧检测车辆的关联，扩展到整个视频，即可实现某辆车在整段视频中出现的位置，从而实现车流的追踪效果。

如图4所示，步骤S4、匹配式车流追踪部分具体包括以下步骤：

S41、获取第i帧及其前10帧图像信息；

S45、更新车辆C的运动模型；

其中根据车辆的位置、颜色直方图、尺寸等信息在其前10帧检测结果中寻找匹配，寻找顺序由距离最近的帧开始，依次往前。具体匹配过程分为三步，第一步，根据前面检测结果中所有车辆的运动状态预判在当前帧中检测框出现的位置、尺寸和颜色直方图；第二步，根据检测框的重叠率和颜色直方图的差异计算两个检测框之间的距离，距离越近，则相似度越高，反之相似性越低；第三步，根据阈值判定匹配是否成功。

该发明通过3个实验分别验证：(1)多分辨率图像训练方法的有效性；(2)多视角图像训练方法的有效性；(3)算法在无人机航拍车辆检测任务中的有效性。实验结果如表2至表4所示，实验采用的算法的检测时间和平均准确率(mAP)作为评估标准，数据集均为无人机采集的航拍数据集。

表2多分辨率对比结果表

N值	分辨率	训练数据	mAP(％)	时间(ms)
					13	416×416	航拍数据集	57.6	28
15	480×480	航拍数据集	67.5	34
					17	544×544	航拍数据集	78.8	39
19	608×608	航拍数据集	80.1	45
					{13,15,17,19}	多分辨率	航拍数据集	85.4	46

实验结果表明采用多分辨率图像的训练方法融合更多分辨率下的图像特征，有利于图像目标物的检测工作，对模型的mAP值有较大的提升，在检测时间上差距不大。

表3多分辨率+多视角对比结果表

训练方法	分辨率	mAP(％)	时间(ms)
				FCNN	608×608	80.1	45
FCNN+多分辨率	608×608	85.4	46
				FCNN+多视角	608×608	85.2	46
FCNN+多分辨率+多视角	608×608	88.8	47

实验结果表明采用多视角图像的训练方法可以提升模型的检测鲁棒性，采用多分辨率和多视角的训练方法的可以提升模型的mAP值，在时间上并没有额外的消耗。

表4多分辨率对比结果表

算法	车辆数	mAP(％)	时间(ms)
				Kang Liu’s	17548	76.1	76
Faster R-CNN	17548	57.4	257
				SSD	17548	63.5	39
YOLO v2	17548	60.5	29
				Ours	17548	88.8	47

实验结果表明采用该算法平衡了检测时间和检测准确率，在mAP值达到了最好效果，并且检测时间较快。

实验运行于Intel(R)Core(TM)i5-7500CPU和NVIDIA GeForce GTX980Ti GPU，在该条件下算法的运行速度为每张图片47ms，基本满足实时要求。

本发明提出的检测算法和Kang Liu等人提出的检测算法进行对比，数据采用本发明采集的航拍数据集。由实验结果可知，当拍摄角度接近俯视90°时，两种检测算法的检测效果差不多，然而当拍摄角度接近45°时，本发明提出的检测算法效果好很多。

本发明提供的一种基于航拍数据的实时车流检测与追踪方法，基于YOLO算法进行改进，采用全卷积神经网络以及具有先验信息的多目标框检测方法，有效地利用了无人机航拍数据集多视角和多分辨率的图像特点进行训练，在不损失太多检测时间的情况下提升了算法的检测准确率，达到了准确率与时间的平衡。该发明能应用于航拍道路车流的场合，对车辆进行检测和追踪，预计平均准确率值可以达到88.8％，同时满足实时检测的要求。

本发明提供的一种基于航拍数据的实时车流检测与追踪方法，实现的功能是在无人机携带的摄像头对车流进行拍摄地条件下实时地对镜头中的车流进行检测和追踪，其检测性能在保证实时性的同时，也具有较高的检测准确率。

本发明提供的一种基于航拍数据的实时车流检测与追踪方法，应用领域包括：(1)交通领域中，结合无人机技术对地面车流进行实时地车流检测以及流量估计，可以成为智能交通监控系统的重要部分；(2)国防领域中，结合无人机技术实现高空对敌方多个车辆进行实时监测，探查敌方车辆行进路线；(3)城市规划领域中，可以对各个道路的车流进行实时监控，为道路规划提供关键信息。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于航拍数据的实时车流检测与追踪方法，其特征在于，包括以下步骤：

S4、匹配式车流追踪部分，采用检测模型实时地对航拍视频进行前后两帧检测，最后采用匹配式车流追踪方法进行追踪；

步骤S1包括：每张无标注的图像进入两个流程，第一个流程用于图像的粗标注，主要包括候选框提取、候选框分类以及非极大值抑制三个步骤，第二个流程为YOLO网络的基本训练流程，在计算预测损失的时候，将第一个流程中得到的粗标注图像视为标注数据；

所述候选框提取采用的是选择性搜索算法，该选择性搜索算法首先利用一种贪心分割策略将图像划分为很多小区域，然后将相邻相似性最高的区域进行合并，接着将合并后的区域保存为一个候选框，最后重复合并和保存候选框操作，得到所有的候选框，并通过车辆尺寸的统计数据，去除不可能是待检测车辆的候选框；

所述候选框分类包含2个卷积层、2个最大池化层、2个全连接层和1个损耗层。

2.根据权利要求1所述的基于航拍数据的实时车流检测与追踪方法，其特征在于，步骤S2包括以下子步骤：

S21、采用全卷积神经网络，全卷积神经网络对输入的图像提取一系列特征，形成一张特征图，然后对特征图采用Softmax函数进行编码，即进行回归预测，得到一个张量，该张量存储的是目标框的位置信息和分类信息；

3.根据权利要求2所述的基于航拍数据的实时车流检测与追踪方法，其特征在于：采用全卷积神经网络结构替换所述候选框分类中的卷积层和全连接层。

4.根据权利要求2所述的基于航拍数据的实时车流检测与追踪方法，其特征在于：步骤S3包括以下子步骤：

5.根据权利要求4所述的基于航拍数据的实时车流检测与追踪方法，其特征在于，在步骤S4中，采用检测模型实时地对航拍视频进行前后两帧检测，对视频中前后两帧的检测结果进行一一匹配，实现前后两帧检测车辆的关联，扩展到整个视频，即可实现某辆车在整段视频中出现的位置，从而实现车流的追踪效果。

6.根据权利要求5所述的基于航拍数据的实时车流检测与追踪方法，其特征在于，步骤S4包括以下子步骤：

S41、获取第i帧及其前10帧图像信息；

S45、更新车辆C的运动模型；

7.根据权利要求6所述的基于航拍数据的实时车流检测与追踪方法，其特征在于，步骤S43包括以下子步骤：

S433、根据阈值判定匹配是否成功。