CN110717387A

CN110717387A - 一种基于无人机平台的实时车辆检测方法

Info

Publication number: CN110717387A
Application number: CN201910823920.6A
Authority: CN
Inventors: 路小波; 陈诗坤; 姜良维; 吴仁良
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2020-01-21
Anticipated expiration: 2039-09-02
Also published as: CN110717387B

Abstract

本发明公开了一种基于无人机平台的实时车辆检测方法，通过无人机拍摄建立航拍车辆数据集，整体数据集按一定比例划分为训练集和测试集；建立卷积神经网络的快速消除卷积层；建立神经网络的多尺度卷积层；基于航拍视频中车辆的宽高比进行多尺度锚点设计，并对小尺度锚点进行稠密化处理；基于二值权重网络；对网络进行时间优化；加载视频数据集，对卷积神经网络进行训练；在无人机航拍视频中实时检测出视频中的车辆。本发明可以在运动的背景中检测出车辆，适用于无人机航拍的环境，通过合理设计RDCL层的步长和调整锚点宽高比等措施大大减小了小目标车辆的漏检率，航拍视频中的车辆能够在机载计算模块上被实时得检测出来。

Description

一种基于无人机平台的实时车辆检测方法

技术领域

本发明属于视频图像处理领域，涉及一种基于无人机平台的实时车辆检测方法。

背景技术

随着经济发展和人们生活水平的不断提高，我国汽车数量不断增加。据公安部统计，截至2018年底，全国机动车保有量达到3.25亿辆，与2017年底相比增加了1556万辆，机动车驾驶人数量达到4.07亿人，与2017年底相比增加了223万人。与此同时，交通拥挤、交通事故、交通环境恶化等逐渐成为了各城市存在的普遍问题。为了缓解日益严重的交通问题，发展智能交通系统、利用各种新技术进行交通信息采集已经成为交通领域的研究热点。

近年，日益智能化的交通信息采集技术不断发展，依靠地面检测器、浮动车技术和移动通讯定位技术是交通管理部门常用的交通信息采集技术。其中地面检测器设备主要包括感应线圈、雷达传感器和交通监控摄像头等，然而由于设备采用固定安装的形式，其监测范围非常有限，需要大量、高密度的设备投入来实现城市交通路网数据的采集。浮动车技术主要通过车载摄像头对交通环境进行监测，但其极易受到驾驶员自身和周围道路环境的影响。移动通讯定位技术主要通过移动通讯网络获取交通信息，对通讯网络依赖程度很高，并且定位精度不准确。可见这些交通信息采集技术都不同程度的存在缺陷，并且这些交通信息采集技术一般应用在城市交通中，对于高速公路交通环境下则难以运用。

无人机作为一种空中移动设备，具备高度的机动灵活性，与传统固定视角的监控设备相比，基于无人机视觉的智能监控系统是更有效解决交通系统中车辆检测、车辆跟踪和车流量估算等问题的重要途径之一，具有检测范围广，采集信息丰富，机动灵活，安装维护方便和成本较低等优势。

在基于无人机的交通信息采集技术当中，通常是基于回传的监测视频进行人工检测或者计算机视觉处理。基于人工检测会耗费大量的人力，并且容易出现错误，随着深度学习等计算机视觉技术的快速发展，基于计算机视觉技术的交通视频行为分析具有巨大的应用优势，是目前的前沿方向。然而，基于回传的监测视频进行分析处理具有延时性和滞后性，不能及时反映交通环境和车辆状态，在机载计算设备上利用深度学习技术对监测视频直接分析处理可以解决因为视频回传造成的延时，实现对航拍车辆的实时检测。

发明内容

本发明的目的是为了解决上述问题，提供一种基于无人机平台的实时车辆检测方法。

为达到上述目的，本发明采用的方法是：一种基于无人机平台的实时车辆检测方法，该方法包括以下步骤：

步骤1：通过无人机拍摄建立航拍车辆数据集，同时为了模型训练与验证，整体数据集按一定比例划分为训练集和测试集。

步骤2：建立卷积神经网络的快速消除卷积层(Rapidly Digested Convoluti-onal L ayers，RDCL)。

步骤3：借鉴RPN网络结构和FSSD的多尺度特征融合思想建立神经网络的多尺度卷积层(Multiple Scale Convolutional Layers，MSCL)。

步骤4：基于航拍视频中车辆的宽高比进行多尺度锚点设计，并对小尺度锚点进行稠密化处理。

步骤5：基于二值权重网络(Binary Weight Networks，BWN)对网络进行时间优化。

步骤6：加载视频数据集，对卷积神经网络进行训练。

步骤7：通过步骤6训练的网络，在无人机航拍视频中实时检测出视频中的车辆。

作为本发明的一种改进，所述步骤1训练网络采用的数据集为采集的航拍车辆数据集，包括一个图片样本集和一个测试视频集，其中图片集共4000张图片，有3000张训练样本和1000张测试样本，测试视频集包含10段航拍车辆视频。训练过程基于图片样本集的3000张训练样本进行训练，同时采用1000张测试样本在训练过程中进行测试。

作为本发明的一种改进，所述步骤2的RDCL层包含两个卷积层(conv)和两个池化层(pool)，其步长分别为2，2，2，2，使得输入图片尺度从1024迅速降到64，减小了16倍。同时，为了弥补空间尺度减小带来的信息损失而又不至于影响计算速度，在Conv1和Conv2层分别选用5×5，3×3的卷积核；RDCL层的设计可以使步骤2中的MSCL结构能够利用到足够的底层的网络特征，以至于可以在MSCL结构中添加更小的尺度锚点。

作为本发明的一种改进，所述步骤3，在MSCL层结构中首先设计三个串联的Inception v2结构使得关联锚点的网络层可以对应不同尺度的感受野，Inception v2结构删有多个卷积分支，分别包含不同尺度的卷积核，便得拼接后的层包含不同尺寸的感受野，以此增加了网络尺度的适应性；然后基于FSSD的多尺度融合思想设计MSCL层的多尺度特征融合模块和特征金字塔。FSSD的多尺度特征融合过程表示如下：

X_f＝Φ_f{Γ_i(X_i)}i∈C

X′_p＝Φ_p{X_f}p∈P

loc，class＝Φ_c，l(∪{X′_p})p∈P

其中，X_i是需要进行多尺度融合的第i个特征映射，Γ_i表示第i个特征映射在合并前进行的函数变换，φ_f为特征融合函数，X_f对应融合后的特征层，φ_p表示基于融合特征层X_f构造特征金字塔的函数，X_p′对应构造的特征金字塔的第p个特征映射，φ_c，l表示基于构造的特征金字塔进行目标检测的函数，loc和class分别表示预测出来的检测框位置和类别。

本发明选用MSCL层中的Inception3、Conv3_2、Conv4_2网络层进行多尺度特征融合，其对应的特征映射尺度大小分别为64×64、32×32、16×16。以Inception3的尺度大小(64×64)为基础将得到的特征映射合并，采用双线性插值的采样方式将Conv3_2和Conv4_2的特征映射大小调整为64×64，双线性差值得到的像素值为：

其中f(P)是由插值得到的点p像素值，x和y分别为点p的横坐标和纵坐标，Q₁₁(x₁，y₁)，Q₁₂(x₁，y₂)，Q₂₁(x₂，y₁)，Q₂₂(x₂，y₂)为点p周围的四个点。得到相同尺度的特征映射后，将特征映射按照通道维度直接拼接在一起做归一化处理。

采用3×3的卷积核在Concat层上依次得到Conv5、Conv6、Conv7、Conv8卷积层，其尺度分别为64×64、32×32、16×16、8×8，用这四个卷积层构建特征金字塔，然后在这四个网络层上关联锚点，根据锚点预测检测框，并对检测框做非极大值抑制处理。

作为本发明的一种改进，所述步骤4，为了设置适用于无人机平台车辆检测的默认锚点宽高比，本发明对航拍数据集的车辆宽高比按车辆高度分区间进行统计。为了适应旋转不变性，样本均顺时针旋转90度来补充数据集，然后只统计宽度小于等于高度的车辆，统计结果显示对于较小尺度的锚点倾向于设置1∶1的比例，而对于较大尺度锚点，在1∶1比例的基础上，添加1∶2和2∶1的比例。采用Conv5、Conv6、Conv7、Conv8四个卷积层作为检测网络层来关联多尺度锚点，锚点密度：

其中S_anchor表示锚点的面积大小，A_stride表示锚点所在检测网络层的步长，A_density表示锚点密度。经计算Conv6、Conv7、Conv8层锚点对应的密度均为4，而Conv5层尺度为16×16、32×32、64×64的锚点密度分别为1、2、4，对尺度为16×16、32×32的锚点进行稠密化处理，锚点以A_scale/4为间隔(A_scale为锚点的尺度)，在(0，A_stride)区间内沿宽和高两个方向进行平铺扩展，由此对16×16锚点数目扩充4倍，对32×32锚点数目扩充2倍，实现了多尺度锚点等密度分布。

作为本发明的一种改进，所述步骤5，本发明要实时检测出无人机航拍视频中的车辆，使用二值权重网络对设计的卷积神经网络进行效率优化。二值权重网络通过对网络权重做二值化处理，把权重量化到{-1，1}，使得计算时间明显加快，其关键就是针对每个卷积核权重W，找到量化矩阵B和尺度因子α，满足公式如下：

W≈αB B∈{-1，1}

量化矩阵最优解B^*和尺度因子最优解α^*的目标函数：

α^*，B^*＝arg min J(B，α)＝arg min||W-αB||²

求得最优解：

在反向传播过程中，对于符号函数sign(W)的导数为0，无法进行反向传播，需要对sign(W)进行松弛求解，反向传播过程中梯度的计算公式为：

其中C为损失函数，

虽然是通过量化后的二值矩阵来计算网络的梯度，但是因为每次网络更新时梯度下降是很小的，会被二值量化操作忽略掉，所以权重更新是在原始权重基础上更新，当训练完成后可以删除原始权重。

作为本发明的一种改进，所述步骤6，对于训练样本中的每一张图片，首先进行图片光度变换，然后对图片样本进行随机裁剪，从原图片中随机裁剪5张满足约束条件的图片，从中随机挑选一张进入后续输入，调整其尺度大小为1024×1024，最后对图片以0.5的概率反转和0.5的概率顺时针90度。在训练过程中，需要确定每个锚点对应的车辆真实边界框，本文通过锚点产生的候选框和真实边界框的IOU(Intersection over Union)匹配度来作为判断依据：

其中DR表示候选框，GT表示真实边界框。首先选择与真实边界框的IOU(Intersection over Union)匹配度最高的锚点作为正样本，然后对于选择IOU大于阈值(0.35)的锚点作为正样本，其余的锚点为负样本。车辆的分类损失函数采用二分类的softmax分类器，边界框回归的损失函数基于L1平滑函数。经过边界框匹配之后，会出现大量的负样本，造成正负样本失衡，本文基于损失函数对负样本排序，选取排序靠前的负样本使得正负样本比例为1:3。

作为本发明的一种改进，所述步骤7，在实时检测过程中，会产生大量的车辆检测框，采用非极大值抑制算法(Non-Maximum Suppression，NMS)搜索局部得分最高的检测框，删除非极大值检测框，最终确定目标车辆检测结果。在一般的检测网络中，NMS阈值参数一般设置为0.3～0.5，然而在本发明设计的卷积神经网络中，考虑到无人机航拍视角下道路车辆的重叠度一般较低，NMS阈值参数为0.25。

有益效果：

与现有的技术相比，本发明具有以下优点：

(1)本发明采用基于深度学习的视频目标检测算法并不依赖目标运动信息，其通过对目标结构、色彩等视觉特征的有效描述来实现目标检测，可以在运动的背景中检测出车辆，适用于无人机航拍的环境。

(2)本发明设计的卷积神经网络，通过合理设计RDCL层的步长和调整锚点宽高比等措施大大减小了小目标车辆的漏检率。

(3)本发明基于无人机机载计算模块的性能，合理设计神经网络的结构，并通过FSSD的多特征融合思想和二指权重网络等手段提升算法的效率，使得航拍视频中的车辆能够在机载计算模块上被实时得检测出来。

附图说明

图1是本发明的模型整体结构图；

图2是本发明的卷积神经网络模型结构图；

图3是本发明的车辆检测效果图。

具体实施方式

下面结合具体实施例和说明附图对本发明作进一步说明，本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。此处所描述的优先实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1到图3所示，本发明公开了一种基于无人机平台的实时车辆检测方法，该方法包括以下步骤：

本发明中神经网络训练所需的视频样本由大疆经纬MATRICE100四旋翼无人机拍摄，其搭载的摄像头型号为大疆创新禅思Z3，机载计算设备为基于NVIDIA Tegra TK1扩展的大疆妙算MANIFOLD开发板；车辆的检测功能在开发板上实现，以满足实时性。系统运行过程中，网络的输入为无人机拍摄的视频，输出的视频中用红色矩形框标识出被检测到的车辆。

训练网络采用的数据集为采集的航拍车辆数据集，包括一个图片样本集和一个测试视频集，其中图片集共4000张图片，有3000张训练样本和1000张测试样本，测试视频集包含10段航拍车辆视频。训练过程基于图片样本集的3000张训练样本进行训练，同时采用1000张测试样本在训练过程中进行测试。

步骤2：建立卷积神经网络的快速消除卷积层(Rapidly Digested Convoluti-onal L ayers，RDCL)。RDCL层包含两个卷积层(conv)和两个池化层(pool)，其步长分别为2，2，2，2，使得输入图片尺度从1024迅速降到64，减小了16倍。同时，为了弥补空间尺度减小带来的信息损失而又不至于影响计算速度，在Conv1和Conv2层分别选用5×5，3×3的卷积核；RDCL层的设计可以使步骤2中的MSCL结构能够利用到足够的底层的网络特征，以至于可以在MSCL结构中添加更小的尺度锚点。

步骤3：借鉴RPN网络结构和FSSD的多尺度特征融合思想建立神经网络的多尺度卷积层(Multiple Scale Convolutional Layers，MSCL)。在MSCL层结构中首先设计三个串联的Inception v2结构使得关联锚点的网络层可以对应不同尺度的感受野，Inception v2结构拥有多个卷积分支，分别包含不同尺度的卷积核，使得拼接后的层包含不同尺寸的感受野，以此增加了网络尺度的适应性；然后基于FSSD的多尺度融合思想设计MSCL层的多尺度特征融合模块和特征金字塔。FSSD的多尺度特征融合过程表示如下：

X_f＝Φ_f{Γ_i(X_i)}i∈C

X′_p＝Φ_p{X_f}p∈P

loc，class＝Φ_c，l(∪{X′_p})p∈P

步骤4：基于航拍视频中车辆的宽高比进行多尺度锚点设计，并对小尺度锚点进行稠密化处理。为了设置适用于无人机平台车辆检测的默认锚点宽高比，本发明对航拍数据集的车辆宽高比按车辆高度分区间进行统计。为了适应旋转不变性，样本均顺时针旋转90度来补充数据集，然后只统计宽度小于等于高度的车辆，统计结果显示对于较小尺度的锚点倾向于设置1∶1的比例，而对于较大尺度锚点，在1∶1比例的基础上，添加1∶2和2∶1的比例。采用Conv5、Conv6、Conv7、Conv8四个卷积层作为检测网络层来关联多尺度锚点，锚点密度：

步骤5：基于二值权重网络(Binary Weight Networks，BWN)对网络进行时间优化。本发明要实时检测出无人机航拍视频中的车辆，使用二值权重网络对设计的卷积神经网络进行效率优化。二值权重网络通过对网络权重做二值化处理，把权重量化到{-1，1}，使得计算时间明显加快，其关键就是针对每个卷积核权重W，找到量化矩阵B和尺度因子α，满足公式如下：

W≈αB B∈{-1，1}

量化矩阵最优解B^*和尺度因子最优解α^*的目标函数：

α^*，B^*＝arg min J(B，α)＝arg min||W-αB||²

求得最优解：

其中C为损失函数，

步骤6：加载视频数据集，对卷积神经网络进行训练。对于训练样本中的每一张图片，首先进行图片光度变换，然后对图片样本进行随机裁剪，从原图片中随机裁剪5张满足约束条件的图片，从中随机挑选一张进入后续输入，调整其尺度大小为1024×1024，最后对图片以0.5的概率反转和0.5的概率顺时针90度。在训练过程中，需要确定每个锚点对应的车辆真实边界框，本文通过锚点产生的候选框和真实边界框的IOU(Intersection overUnion)匹配度来作为判断依据：

在实时检测过程中，会产生大量的车辆检测框，采用非极大值抑制算法(Non-Maximum Suppression，NMS)搜索局部得分最高的检测框，删除非极大值检测框，最终确定目标车辆检测结果。在一般的检测网络中，NMS阈值参数一般设置为0.3～0.5，然而在本发明设计的卷积神经网络中，考虑到无人机航拍视角下道路车辆的重叠度一般较低，NMS阈值参数为0.25。

Claims

1.一种基于无人机平台的实时车辆检测方法，其特征在于，该方法包括以下步骤：

步骤1：通过无人机拍摄建立航拍车辆数据集，整体数据集按一定比例划分为训练集和测试集；

步骤2：建立卷积神经网络的快速消除卷积层；

步骤3：借鉴RPN网络结构和FSSD的多尺度特征融合思想建立神经网络的多尺度卷积层；

步骤4：基于航拍视频中车辆的宽高比进行多尺度锚点设计，并对小尺度锚点进行稠密化处理；

步骤5：基于二值权重网络；对网络进行时间优化；

步骤6：加载视频数据集，对卷积神经网络进行训练；

2.根据权利要求1所述的基于无人机平台的实时车辆检测方法，其特征在于，所述步骤1训练网络采用的数据集为采集的航拍车辆数据集，包括一个图片样本集和一个测试视频集，其中图片集共4000张图片，有3000张训练样本和1000张测试样本，测试视频集包含10段航拍车辆视频，训练过程基于图片样本集的3000张训练样本进行训练，同时采用1000张测试样本在训练过程中进行测试。

3.根据权利要求1所述的基于无人机平台的实时车辆检测方法，其特征在于，所述步骤2的多尺度卷积层包含两个卷积层conv和两个池化层pool，其步长分别为2，2，2，2，在两个卷积层层分别选用5×5，3×3的卷积核。

4.根据权利要求1所述的基于无人机平台的实时车辆检测方法，其特征在于：所述步骤3中在MSCL层结构中首先设计三个串联的Inception v2结构使得关联锚点的网络层可以对应不同尺度的感受野，Inception v2结构拥有多个卷积分支，分别包含不同尺度的卷积核，使得拼接后的层包含不同尺寸的感受野，以此增加了网络尺度的适应性；然后基于FSSD的多尺度融合思想设计MSCL层的多尺度特征融合模块和特征金字塔，FSSD的多尺度特征融合过程表示如下：

X_f＝Φ_f{Γ_i(X_i)} i∈C

X′_p＝Φ_p{X_f} p∈P

loc,class＝Φ_c,l(∪{X′_p}) p∈P

其中，X_i是需要进行多尺度融合的第i个特征映射，Γ_i表示第i个特征映射在合并前进行的函数变换，φ_f为特征融合函数，X_f对应融合后的特征层，φ_p表示基于融合特征层X_f构造特征金字塔的函数，X_p'对应构造的特征金字塔的第p个特征映射，φ_c,l表示基于构造的特征金字塔进行目标检测的函数，loc和class分别表示预测出来的检测框位置和类别；

选用MSCL层中的Inception3、Conv3_2、Conv4_2网络层进行多尺度特征融合，其对应的特征映射尺度大小分别为64×64、32×32、16×16，以Inception3的尺度大小64×64为基础将得到的特征映射合并，采用双线性插值的采样方式将Conv3_2和Conv4_2的特征映射大小调整为64×64，双线性差值得到的像素值为：

其中f(P)是由插值得到的点p像素值，x和y分别为点p的横坐标和纵坐标，Q₁₁(x₁,y₁)，Q₁₂(x₁,y₂)，Q₂₁(x₂,y₁)，Q₂₂(x₂,y₂)为点p周围的四个点，得到相同尺度的特征映射后，将特征映射按照通道维度直接拼接在一起做归一化处理；

5.根据权利要求1所述的基于无人机平台的实时车辆检测方法，其特征在于，所述步骤4中对航拍数据集的车辆宽高比按车辆高度分区间进行统计，为了适应旋转不变性，样本均顺时针旋转90度来补充数据集，然后只统计宽度小于等于高度的车辆，统计结果显示对于较小尺度的锚点倾向于设置1:1的比例，而对于较大尺度锚点，在1:1比例的基础上，添加1:2和2:1的比例，采用Conv5、Conv6、Conv7、Conv8四个卷积层作为检测网络层来关联多尺度锚点，锚点密度：

其中S_anchor表示锚点的面积大小，A_stride表示锚点所在检测网络层的步长，A_density表示锚点密度，经计算Conv6、Conv7、Conv8层锚点对应的密度均为4，而Conv5层尺度为16×16、32×32、64×64的锚点密度分别为1、2、4，对尺度为16×16、32×32的锚点进行稠密化处理，锚点以A_scale/4为间隔，在(0,A_stride)区间内沿宽和高两个方向进行平铺扩展，由此对16×16锚点数目扩充4倍，对32×32锚点数目扩充2倍，实现多尺度锚点等密度分布。

6.根据权利要求1所述的基于无人机平台的实时车辆检测方法，其特征在于，所述步骤5中要实时检测出无人机航拍视频中的车辆，使用二值权重网络对设计的卷积神经网络进行效率优化，二值权重网络通过对网络权重做二值化处理，把权重量化到{-1,1}，针对每个卷积核权重W，找到量化矩阵B和尺度因子α，满足公式如下：

W≈αB B∈{-1,1}

量化矩阵最优解B^*和尺度因子最优解α^*的目标函数：

α^*,B^*＝arg min J(B,α)＝arg min||W-αB||²

求得最优解：

其中C为损失函数，

权重更新是在原始权重基础上更新，当训练完成后可以删除原始权重。

7.根据权利要求1所述的基于无人机平台的实时车辆检测方法，其特征在于，所述步骤6中对于训练样本中的每一张图片，首先进行图片光度变换，然后对图片样本进行随机裁剪，从原图片中随机裁剪5张满足约束条件的图片，从中随机挑选一张进入后续输入，调整其尺度大小为1024×1024，最后对图片以0.5的概率反转和0.5的概率顺时针90度；在训练过程中，需要确定每个锚点对应的车辆真实边界框，通过锚点产生的候选框和真实边界框的IOU匹配度来作为判断依据：

其中DR表示候选框，GT表示真实边界框，首先选择与真实边界框的IOU匹配度最高的锚点作为正样本，然后对于选择IOU大于阈值(0.35)的锚点作为正样本，其余的锚点为负样本，车辆的分类损失函数采用二分类的softmax分类器，边界框回归的损失函数基于L1平滑函数，经过边界框匹配之后，会出现大量的负样本，造成正负样本失衡，基于损失函数对负样本排序，选取排序靠前的负样本使得正负样本比例为1:3。

8.根据权利要求1所述的基于无人机平台的实时车辆检测方法，其特征在于，所述步骤7中，在实时检测过程中，会产生大量的车辆检测框，采用非极大值抑制算法搜索局部得分最高的检测框，删除非极大值检测框，最终确定目标车辆检测结果，NMS阈值参数为0.25。