CN110909800B

CN110909800B - 一种基于Faster R-CNN改进算法的车辆检测方法

Info

Publication number: CN110909800B
Application number: CN201911173474.5A
Authority: CN
Inventors: 吕文涛; 林琪琪; 郭理鹏
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2023-08-08
Anticipated expiration: 2039-11-26
Also published as: CN110909800A

Abstract

本发明公开了一种基于Faster R‑CNN改进算法的车辆检测方法。通过使用基本单元为深度可分离卷积的轻量级卷积网络MobileNet特征提取网络提取特征图，将不同尺度的特征图进行特征融合，维度聚类GT框的长和宽得到更精准的锚框尺寸；通过将MobileNet的神经网络提取的不同尺度的特征图相融合，融合后的特征图被区域生成网络和检测网络共享；在RPN网络中引入维度聚类方法处理GT框得到更为准确的锚框尺寸，更快得到准确候选区域。本发明减少了模型参数量，加快了检测速度，提高了车辆检测的性能，具有替代一些先进方法的优越性。

Description

一种基于Faster R-CNN改进算法的车辆检测方法

技术领域

本发明涉及图像目标检测方法，具体涉及了一种基于Faster R-CNN改进算法的车辆检测方法。

背景技术

目标检测是计算机视觉领域的重要组成模块，而车辆检测在辅助驾驶、道路监控、遥感图像等方面有着重要应用，已成为目标检测中重要的研究对象。

传统的车辆检测通常包括两个步骤：首先，通过局部二值模式(LBP)、方向梯度直方图(HOG)、尺度不变特征变换(SIFT)等方法从图像中提取车辆目标的特征向量。然后将提取的特征向量送入分类器，如：支持向量机(SVM)、自适应增强(AdaBoost)、决策树(DT)等进行分类。这些方法依托人工设计的特定目标特征提取算法提高了检测性能，但是在很大程度上这些算法取决于研究者已知的经验和知识，这些经验和知识无法在复杂场景中取得好的效果，传统的方法在车辆检测中存在瓶颈。

基于深度学习的目标检测方法使用大量数据训练的更深更复杂的网络模型对图像提取特征，所提取的特征优于传统方法中人工设计方法所提取的特征，在一定程度上解决了传统方法训练时间长，检测速度慢的问题。Faster R-CNN利用基于CNN的RPN提取候选区域，将特征提取、RPN、ROI Pooling、目标分类和边框回归这四个步骤整合在一个深度学习网络框架中，实现了端到端的过程，使得目标检测的性能有了较大提高。

但是此方法模型参数量大，检测消耗时间长，对小目标车辆检测错误和漏检情况多，使得车辆检测不能获得较好的检测结果。

发明内容

本发明的目的是针对现有的Faster R-CNN车辆检测方法所存在的模型参数量大、检测消耗时间长、对小目标车辆检测错误和漏检情况多的问题。为提高车辆检测的性能，提供了一种基于Faster R-CNN改进算法的车辆检测方法。

本方法是首先将MobileNet特征提取网络提取的不同尺度的特征图进行特征融合，融合后的特征图被RPN网络和检测网络共享；然后在RPN网络中引入维度聚类得到更准确的锚框的宽和高，作为目标分类和边框回归的依据。这样通过降低模型参数量，加快检测速度，以及提升对小目标的检测能力，提高了Faster R-CNN检测的性能。

本发明的目的是通过以下具体技术方案来实现的，如图1所示，包括以下具体步骤：

A1，采集车辆数据集，车辆数据集包含物体Ground Truth(GT)框的多幅图像I，物体对象为车辆，GT框数据为(c^*，x^*,y^*,w^*,h^*)，c^*表示GT框内物体的类别，x^*，y^*分别表示GT框内中心点的x坐标和y坐标，w^*，h^*分别表示GT框的高度和宽度；

A2，使用维度聚类方法对GT框的宽和高进行聚类，生成若干聚类后的框宽和高尺寸，供后续区域生成网络(Region Proposal Network，RPN)中使用；

A3，特征融合：将图像I输入到基本单元为深度可分离卷积(depthwise separableconvolution，DSC)的轻量级卷积网络MobileNet中进行特征提取得到不同尺度的特征图，将不同尺度的特征图相融合，融合后的特征图后续被RPN网络和检测网络共享，即特征图被输入到RPN网络和检测网络；

A4，利用A3中得到的特征图，输入到RPN网络进行候选框预测；

A4-1，用滑动窗口在A3中得到的特征图上进行卷积，滑动窗口的中心为锚点，以每个锚点作为中心由A2产生的框宽和高尺寸生成固定数量的不同尺寸的框作为锚框，每个滑动窗口卷积后生成一个固定维度的特征；

A4-2，将A4-1中生成的特征输入到两个全连接层，一个全连接层输出是图像中车辆的预测概率p，另一个全连接层通过边框回归的方法输出候选框及其相对于锚框的位置偏移量t；

A4-3，标签和偏移量设定：锚框的真实值标签设为p^*，将不同尺寸的锚框，通过计算锚框和GT框(Ground Truth)之间的交并比(Intersection-over-Union，IOU)，根据交并比确定锚框为正样本还是负样本而设置真实值标签p^*，即确定真实值标签p^*的值为1还是0；把标定为正样本的锚框与GT框之间的偏移量设为t^*；

A4-4，基于A4-2中得到的预测概率p，对候选框按照预测概率p按由高到低的顺序进行排序，输出排序高的若干候选框；

A5，利用A3中得到的特征图和A4-4中得到的候选框输入到检测网络中进行检测；

所述的检测网络由ROI Pooling层和全连接层构成。首先将A3中得到的共享特征图和A4-4中得到的候选框输入到ROI Pooling层，将每个候选框映射到共享特征图中，得到每个候选框对应特征图中的候选区域，经过ROI Pooling层将特征图上大小不一的候选区域转变为大小统一的特征向量，送入到两个全连接层。一个全连接层是对候选框的内容进行分类，并计算出候选框在该分类下的类别置信度；另一个全连接层是对候选框进行边框回归，调整候选框的坐标，以更好的逼近目标。最后输出候选框的类别置信度分数及其候选框的位置坐标。

A6，重复步骤A3～A5，即将车辆数据集的包含多幅已知物体GT框的图像I采用上述A2～A5进行处理，将图像I输入到由RPN网络和检测网络组成的Faster R-CNN改进模型中，通过梯度下降最小化损失函数进行训练，使得预测的候选框和GT框相匹配；针对未知物体GT框的待测图像，输入到训练后的Faster R-CNN改进模型中，得到候选框的类别置信度分数及其候选框的位置坐标，作为车辆物体的检测结果。

本发明创新在于在特征提取网络MobileNet基础上将MobileNet网络提取获得的不同尺度的特征图相融合，且输入RPN网络中并特别使用了维度聚类方法处理GT框数据生成了更为准确的锚框尺寸，实现增加对小物体检测的能力、减少网络模型的参数量、提高速度性能的优势效果。

所述A2具体为：

A2-1，聚类输入的原始数据是GT框数据，数据中每行都包含 j∈(1,2,…,N)，/>是GT框的中心点，/>是GT框的宽和高，N是所有GT框的个数。

A2-2，首先初始化k个聚类中心centroid(W_i，H_i)，i∈(1,2,…,k)，k即为需要生成的锚框个数，W_i和H_i分别是聚类中心点的宽和高的尺寸；

A2-3，通过计算GT框与聚类中心点的距离，把GT框划分到与之最近的一个簇中，计算GT框box与聚类中心距离d时，选用两者之间的交并比(Intersection-over-Union，IOU)值作为距离指标，距离计算公式为：d(box,centroid)＝1-IOU(box,centroid)；

A2-4，所有GT框划分完毕后，对每个簇重新计算聚类中心，更新聚类中心的值(W_i，H_i)，更新为当前簇中的所有GT框的宽和高的均值，计算方式为N_i是第i个簇的GT框个数；

A2-5，重复A2-3和A2-4步骤，直到聚类中心改变量收敛，得到k个聚类中心点(W_i，H_i)，即得到k个锚框的宽和高的尺寸。

所述A3具体为：

A3-1，特征提取网络是MobileNet，对输入图片进行多次卷积和池化操作，将最大尺度特征图通过池化减小维度，将最小尺度特征图通过反卷积增大维度；

A3-2，将处于尺度最大、中间和最小的特征图进行特征叠加融合。

所述A4-3中，当锚框与GT框的交并比大于0.7或者锚框与GT框的交并比为最大值时，认为该锚框为物体，标签p^*为正样本；当锚框与GT框的交并比小于0.3时，认为该锚框为背景，标签p^*为负样本。

所述步骤A4中，建立RPN网络的损失函数，损失函数是由分类损失函数和回归损失函数按照一定比重组成；

分类损失函数为：

其中，i是锚框的索引，p_i是第i个锚框是物体的预测概率，是第i个锚框的真实值标签，L_cls是分类损失，N_cls为分类样本数量；

回归损失函数为：

其中，t_i是预测候选框与锚框的偏移量，是GT框与锚框的偏移量，N_reg为偏移量的数据总数，L_reg是回归损失，/>R表示具有鲁棒性的Smooth L1损失函数；

总损失函数为：

其中，λ为比例系数。

本发明的有益效果是：

本发明与现有车辆检测方法相比，选择了轻量级的MobileNet卷积神经网络，用特征融合方法充分利用了不同特征图中的信息，并利用维度聚类得到合适尺寸的锚框大小，从而降低了模型的大小，加快了检测速度，提高了对小物体的检测能力，有效的提高了车辆检测性能，结果较为准确。

附图说明

图1是本发明方法的流程示意图；

图2是维度聚类结果：左边部分子图真实道路车辆锚框聚类结果，右边部分子图为光学遥感车辆锚框聚类结果；

图3是普通车辆检测结果：左边部分子图为Faster R-CNN检测结果，右边部分子图为本发明检测结果；

图4是遥感车辆检测结果：左边部分子图为Faster R-CNN检测结果，右边部分子图为本发明检测结果。

具体实施方式

下面结合附图与实施例对本发明做进一步说明，本发明的目的和效果将变得更加明显。

本发明的具体实施例及其实施过程如下：

A1，采集真实道路车辆图像和光学遥感车辆图像分别进行实验，从中选取质量高、形变小的图像作为数据集进行实验。车辆数据集包含物体GT框的多幅图像I，物体对象为车辆，GT框数据为(c^*，x^*,y^*,w^*,h^*)，c^*表示GT框内物体的类别，x^*，y^*分别表示GT框内中心点的x坐标和y坐标，w^*，h^*分别表示GT框的高度和宽度；

A2，使用维度聚类方法对GT框数据的宽和高进行聚类，生成k＝9个聚类后的框宽和高尺寸，供后续RPN网络中使用；

具体实施中，将真实道路车辆训练数据集和光学遥感车辆训练数据集的GT框数据，通过维度聚类的方法得到锚框的宽和高，将锚框的数量设置为k＝9，两种数据集的GT框数据通过维度聚类后的结果如图2所示。真实道路车辆锚框宽和高：(102,114),(131,163),(192,181),(205,197),(204,225),(219,215),(231,239),(217,270),(254,297)；光学遥感车辆锚框宽和高：(30,27),(27,41),(26,56),(59,27),(43,39),(29,68),(77,33),(37,84),(54,60)。

A3，特征融合：将图像I输入到基本单元为DSC的轻量级卷积网络MobileNet网络中进行特征提取，具体为DSC中使用3*3的卷积核来进行卷积，计算量和参数量比标准卷积减少了1/8到1/9，将特征提取后，将大尺度的特征图通过池化将尺度减小，将小尺度的特征图通过反卷积将尺度增大。由此将前面，中间和后面的不同尺度的特征图，进行特征融合，融合后的特征图被RPN网络和检测网络共享；

具体实施中，真实道路车辆图像数据集大约包含10000张图片，光学遥感车辆图像数据集大约包含7000张图片，从中随机选择70％作为训练集对模型进行训练，30％作为测试集。通过MobileNet网络中进行特征提取，将前面提取的特征图进行池化操作减小维度，后边的特征图通过反卷积增大维度。将前面，中间和后面的特征图进行特征融合，将特征图的通道数变为512。

A4，利用A3中得到的特征图，输入到RPN网络进行候选框预测；

A4-1，用3×3的滑动窗口在A3中得到的特征图上进行卷积，滑动窗口的中心为锚点，每个锚点对应k个由A2产生的不同尺寸的锚框，每个滑动窗口卷积后生成一个512维的特征；

A4-2，将A4-1中生成的特征输入到两个全连接层，一个全连接层输出是图像中车辆的预测概率p，另一个全连接层通过边框回归的方法计算出候选框相对于锚框的位置偏移量t，由此得到候选框的位置；

A4-3，标签和偏移量设定：锚框的真实值标签设为p^*，将不同尺寸的锚框，通过计算锚框和GT框之间的IOU，来确定此锚框为正样本还是负样本；把标定为正样本的锚框与GT框之间的偏移量设为t^*；

具体实施中，当锚框与GT框的交并比大于0.7或者锚框与GT框的交并比为最大值时，认为该锚框为物体，标签p^*为正样本；当锚框与GT框的交并比小于0.3时，认为该锚框为背景，标签p^*为负样本；

通过计算得到，候选框和锚框的位置偏移量t＝(t_x,t_y,t_w,t_h)，GT框和锚框的位置偏移量

其中，(x,y,w,h)，(x^*,y^*,w^*,h^*)，(x_a,y_a,w_a,h_a)是候选框，GT框和锚框的中心坐标、宽和高。t_x，t_y分别表示候选框和锚框在x，y上的平移量，t_w，t_h分别表示候选框和锚框在w，h上的尺度缩放量，分别表示GT框和锚框在x，y上的平移量，/>分别表示候选框和锚框在w，h上的尺度缩放量。

A4-4，建立预测网络模型的损失函数；

所述损失函数是由分类损失和回归损失按照一定比重组成。

分类损失函数为：

其中，i是一次批处理中锚框的索引，p_i是第i个锚框是物体的预测概率，p_i ^*是第i个锚框的真实值标签，如果锚框为正样本，p_i ^*为1，为负样本，p_i ^*为0，L_cls是分类损失，N_cls为分类样本数量；

回归损失函数为：

其中，t_i是预测候选框与锚框的偏移量，t_i ^*是GT框与锚框的偏移量，N_reg为偏移量的数据总数，L_reg是回归损失，L_reg(t_i,t_i ^*)＝R(t_i-t_i ^*)，R表示具有鲁棒性的Smooth L1损失函数；

总损失函数为：

其中，λ为比例系数；

A4-5，基于A4-2中得到的预测概率p，对候选框按照预测概率p按由高到低的顺序进行排序，输出排序高的若干候选框；

具体实施中，输出预测概率p最高的300个候选框。

A5，利用A3中得到的特征图，和A4-5中得到的候选框，输入到最后的检测网络中进行检测；

所述的检测网络由ROI Pooling层和全连接层构成。首先将A3中得到的共享特征图和A4-5中得到的候选框输入到ROI Pooling层，将每个候选框映射到共享特征图中，得到每个候选框对应特征图中的候选区域，经过ROI Pooling层将特征图上大小不一的候选区域转变为大小统一的特征向量，送入到两个全连接层。一个全连接层是对候选框的内容进行分类，并计算出候选框在该分类下的类别置信度；另一个全连接层是对候选框进行边框回归，调整候选框的坐标，以更好的逼近目标。最后输出候选框的类别置信度分数及其候选框的位置坐标。

具体实施中，采用动量优化器，动量参数设置为0.9，初始的学习率设置为10^-3，最大迭代次数设置为50000次。

为了验证方法的性能，利用测试集对R-CNN、Fast R-CNN、Faster R-CNN(VGG16)、Faster R-CNN(ResNet101)和方法(DSC Faster R-CNN)进行了测试。使用目标检测评判准则中的平均精度均值mAP、检测时间、模型大小进行评价，mAP值越大，检测时间越短，模型大小越小，说明性能越好。本方法和不同方法对普通车辆图像和遥感车辆图像的检测性能如图3和图4以及表1和表2所示(上方表1为普通车辆图像检测性能结果，下方表2为遥感车辆图像检测性能结果)。

表1不同方法对普通车辆图像的检测性能对比表

表2不同方法对遥感车辆图像的检测性能对比表

由表可以看出，本发明提供方法的mAP值高于其他方法，检测时间低于其他方法，模型大小小于其他方法。可见本发明方法，与现有车辆检测方法相比，选择了轻量级的MobileNet卷积神经网络，用特征融合方法充分利用了不同特征图中的信息，并利用维度聚类得到合适尺寸的锚框大小，从而降低了模型的大小，加快了检测速度，提高了对小物体的检测能力，有效的提高了车辆检测性能。

Claims

1.一种基于Faster R-CNN改进算法的车辆检测方法，包括如下步骤：

A1，采集车辆数据集，车辆数据集包含物体Ground Truth框即GT框的多幅图像I，物体对象为车辆，GT框数据为(c^*，x^*,y^*,w^*,h^*)，c^*表示GT框内物体的类别，x^*，y^*分别表示GT框内中心点的x坐标和y坐标，w^*，h^*分别表示GT框的高和GT框的宽；

A2，使用维度聚类方法对GT框的宽和高进行聚类，生成聚类后的锚框宽和高的尺寸；

所述A2具体为：

A2-1，聚类输入的原始数据是GT框数据，数据中每行都包含 j∈(1,2,…,N)，/>是GT框的中心点，/>分别是第j个GT框的宽和GT框的高，j表示GT框的序数，N是所有GT框的个数；

A2-2，首先初始化k个聚类中心即centroid(W_i，H_i)，i∈(1,2,…,k)，k即为需要生成的锚框个数，W_i和H_i分别是聚类中心的宽和高的尺寸，i表示锚框的序数；

A2-3，通过计算GT框与聚类中心的距离，把GT框划分到与之最近的一个簇中，计算GT框box与聚类中心距离d时，选用两者之间的交并比值作为距离指标，距离计算公式为：d(box,centroid)＝1-IOU(box,centroid)；

A2-4，所有GT框划分完毕后，对每个簇重新计算聚类中心，更新聚类中心的值(W_i，H_i)，更新为当前簇中的所有GT框的宽和GT框的高的均值，计算方式为N_a是第a个簇的GT框个数，a表示簇的序数；W_i′为当前簇中的所有GT框的宽的均值，H′_i为当前簇中的所有GT框的高的均值；

A2-5，重复A2-3和A2-4步骤，直到聚类中心改变量收敛，得到k个聚类中心(W_i，H_i)，即得到k个锚框的宽和高的尺寸；

A3，特征融合：将图像I输入到基本单元为深度可分离卷积的轻量级卷积网络MobileNet中进行特征提取得到不同尺度的特征图，将不同尺度的特征图相融合；

A4，利用A3中得到的特征图，输入到RPN网络进行候选框预测；

A4-1，用滑动窗口在A3中得到的特征图上进行卷积，滑动窗口的中心为锚点，以每个锚点作为框的中心且以A2中获得的锚框的宽和高的尺寸作为框的尺寸，生成若干个框并将每个框作为一个锚框，每个滑动窗口卷积后生成一个固定维度的特征；

A4-3，标签和偏移量设定：锚框的真实值标签设为p^*，将不同尺寸的锚框，通过计算锚框和GT框之间的交并比，根据交并比确定锚框为正样本还是负样本而设置真实值标签p^*；把标定为正样本的锚框与GT框之间的偏移量设为t^*；

A4-4，建立预测网络模型的损失函数；

所述A5具体为：

所述的检测网络由ROI Pooling层和全连接层构成，首先将A3中得到的特征图和A4-5中得到的候选框输入到ROI Pooling层，将每个候选框映射到特征图中，得到每个候选框对应特征图中的候选区域，经过ROI Pooling层将特征图上大小不一的候选区域转变为大小统一的特征向量，送入到两个全连接层，一个全连接层是对候选框的内容进行分类，并计算出候选框在该分类下的类别置信度；另一个全连接层是对候选框进行边框回归，调整候选框的坐标，以更好的逼近目标，最后输出候选框的类别置信度分数及其候选框的位置坐标；

A6，重复步骤A3～A5，将图像I输入到由RPN网络和检测网络组成的Faster R-CNN改进模型中，通过梯度下降最小化损失函数进行训练，使得预测的候选框和GT框相匹配；针对未知物体GT框的待测图像，输入到训练后的Faster R-CNN改进模型中，得到候选框的类别置信度分数及其候选框的位置坐标，作为车辆物体的检测结果。

2.根据权利要求1所述的一种基于Faster R-CNN改进算法的车辆检测方法，其特征是：所述A3具体为：

3.根据权利要求1所述的一种基于Faster R-CNN改进算法的车辆检测方法，其特征是：所述A4-3中，当锚框与GT框的交并比大于0.7或者锚框与GT框的交并比为最大值时，认为该锚框为物体，标签p^*为正样本；当锚框与GT框的交并比小于0.3时，认为该锚框为背景，标签p^*为负样本。

4.根据权利要求1所述的一种基于Faster R-CNN改进算法的车辆检测方法，其特征是：所述步骤A4中，建立预测网络模型的损失函数，损失函数是由分类损失函数和回归损失函数组成；

分类损失函数为：

回归损失函数为：

总损失函数为：

其中，λ为比例系数。