CN110826411B

CN110826411B - 一种基于无人机图像的车辆目标快速识别方法

Info

Publication number: CN110826411B
Application number: CN201910958507.0A
Authority: CN
Inventors: 罗欣; 田虓岳; 王萌; 许文波; 贾海涛; 张建; 张民; 任金胜; 赫熙煦; 王枭; 李玉超; 刘旭
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2022-05-03
Anticipated expiration: 2039-10-10
Also published as: CN110826411A

Abstract

本发明公开了一种基于无人机图像的车辆目标快速识别方法，输入图像处理的目标识别领域。针对无人机图像中车辆目标的像素占比小，而且车辆目标在无人机图像中比较密集，原始的网络对其检测比较困难的问题，首先使用不同的anchor个数与大小去匹配图像中的车辆目标，相比于原始网络，使得识别的AP值提高了8.5％，然后又对网络增加了多层特征融合，使得网络在最后分类的时候使用到网络的前面的浅层特征，使得最后的分类与识别的效果更好，在前面改进的基础上，增加多层特征融合以后，网络的AP值提高了1.6％，最后得到的改进后的网络的AP值相比于原始网络的AP值提高了10.1％，从80.5％提高到90.6％，检测的速度相比原始网络有略微的下降，但是精度得到大幅度的提升。

Description

一种基于无人机图像的车辆目标快速识别方法

技术领域

本发明属于地球视觉目标识别领域，是一种基于无人机图像实现车辆目标的快速检测与识别方法。

技术背景

目标识别一直以来都是计算机视觉领域的一个重要的研究课题。无人机地面目标自动识别算法不仅在军用，而且在民用领域也都具有极其重要的地位；在民用领域，在智能交通和智慧城市的建设中，车辆目标识别是不可或缺的一部分。在这些应用场景中，地面目标在视觉场中的尺寸一般来说比较小，现有的检测算法对于大规模的小型密集目标检测与识别而言仍然比较乏力。利用无人机平台搭载的系统在进行目标检测的时候，由于地面的车辆目标在无人机的视场中尺寸过小，给目标检测带来较大挑战。在具体应用中需要先分析感兴趣目标在无人机图像中表现出的特点，借鉴现有的先进成熟的目标识别算法，通过修改和优化后设计出针对无人机图像的目标识别算法。深度学习具有强大的特征表征能力，能够自动地从样本中学习目标特征，完成检测识别任务。基于深度学习的目标检测方法可以有效的解决无人机图像中目标识别存在的目标颜色纹理干扰、旋转缩放变化和形似干扰物的关键问题，能够在准确性、鲁棒性和实时性等三个性能上都达到比较好的状态。

Faster RCNN模型主要包含两个部分：Fast RCNN模型结构和RPN。RPN可以接收不同尺寸的图像或特征作为输入，然后输出一个矩形的候选区域边框集合，且每个框都有一个得分。首先为了生成候选区域，RPN首先利用一个尺寸为n×n的滑动窗口在卷积层得到的feature maps上再次进行卷积运算，每次卷积会生成固定大小的特征向量，对应于一个低维的特征。然后将这些特征向量传递给两个不同的全连接层中，一个用于边框回归(box-regression)，另一个用于检测框目标分类(box-classification)。需要注意的是RPN以滑动窗口的方式将再次卷积后的结果作为输入，后续的两个全连接层会共享所有的空间位置信息。自然的在n×n的滑动窗口卷积后使用两个卷积核大小为1×1的卷积层作为RPN网络架构的实现思想(分别为regression和classification)。该方法不能很好的识别小目标和不完整目标,并且会丢失部分完整目标。

发明内容

本发明针对现有的无人机图像目标识别方法对密集的小目标检测困难的难题，使用一种在自然图像场景表现较为优秀的算法，基于深度学习的目标识别算法(FasterRCNN，Region-based Convolution Neural Networks)转移应用到无人机图像领域。FasterRCNN算法是一个能够同时预测多个边界框的位置和类别的卷积神经网络算法，可以实现端到端的目标检测和识别，与其他同类型算法模型相比，它最大的优势是精度高，而且可以兼顾到精度与速度。Faster RCNN在RCNN与Fast RCNN的基础上提出了区域推荐网络(RegionProposal Networks，RPN)，从而使得候选区域的生成过程也加入网络的训练过程，进而能实现端到端检测。RPN模块会在网络里面生成300个潜在的目标区域，这些潜在的目标图像块会被传到Fast RCNN网络中，在这个网络的前半部分的特征提取的部分，计算过程会给后续的两个部分分享，然后这个网络的整个过程就会组成一个完整的识别网络。Faster RCNN的流程如图1所示。

自卷积神经网络引入到目标识别领域中之后，目标检测变得更准确、更快速，但绝大部分的识别方法都只能对目标物体与图像相差不大的目标物进行识别。而且相比于用于分类和标记图像的数据集而言，当前目标识别数据集较为有限，两者图片数量上相差成百上千倍。比如COCO、Pascal VOC等常见的用于目标识别的数据集都含有数万的图像，但只有数十至数百个标签。而ImageNet、Yfcc 100m等分类数据集都含有数百万的图像，而且其类别高达数十万。为改善上述问题，Faster RCNN提出了一种联合分类和识别数据集的训练机制，用于目标识别的图像数据集用于学习识别限定的能力，包括如何预测边界框坐标，判断目标存在于否以及给出目标属于各个类别的概率；包含目标类别标签的分类图像数据被用来扩展模型能够检测识别出的类别范围，增强模型的鲁棒性。联合训练机制大大提高了数据样本的利用效率的同时，减少了人工标注的时间与成本。

本发明技术方案为一种基于无人机图像的车辆目标快速识别方法,该方法包括：

步骤1：获取训练数据，并对得到的数据进行数据增强；

增强方式包括：1、随机旋转，对图像进行随机任意角度旋转；2、镜像翻转，对图像进行上下或者左右的翻转；3、对图像进行颜色抖动，包括随机调整图像的饱和度、亮度、对比度、锐度；4、对图像加随机高斯噪声；

步骤2：构建目标识别神经网络；

神经网络包括：输入图像模块、第一卷积模块、anchor模块、第二卷积模块、第一ROI池化模块、第二ROI池化模块、第三ROI池化模块、归一化模块、拼接模块、1*1卷积模块、全连接层、softmax分类模块、边框回归模块；输入图像模块首先将图像输入第一卷积模块，所述第一卷积模块包括5层依次连接的卷积层，第一卷积模块输出特征图，依次经过anchor模块和第二卷积模块进行特征提取，获得区域位置特征；所述anchor模块中包含多个不同尺寸不同比例的矩形模型，根据包含的矩形模型对得到的区域位置特征进行判断是否为车辆；将第一卷积模块中第三卷积层和区域位置特征通过输入第一ROI池化模块，第一卷积模块中第四卷积层和区域位置特征通过输入第二ROI池化模块，第一卷积模块中第五卷积层和区域位置特征通过输入第三ROI池化模块；然后对第一ROI池化模块、第二ROI池化模块、第三ROI池化模块的输出输入归一化模块，归一化模块对然后对第一ROI池化模块、第二ROI池化模块、第三ROI池化模块的输出进行归一化处理，得到的归一化后的数据输入拼接模块，对归一化后的三路数据进行拼接；拼接后的数据一次经过1*1卷积模块和全连接层，对全连接层的输出分别输入softmax分类模块、边框回归模块；所述softmax分类模块判断输出输入图像是否为车辆，边框回归模块使得得到的边框更加接近真实的边框；

步骤3：采用步骤1获得的训练数据对步骤2建立的神经网络进行训练，得到训练好的神经网络；

步骤4：在实际处理过程中采用步骤3训练好的神经网络对实际图像进行车辆识别。

本发明在Faster RCNN网络的基础上，针对无人机图像中车辆目标的像素占比小，而且车辆目标在无人机图像中比较密集，原始的网络对其检测比较困难的问题，首先使用不同的anchor个数与大小去匹配图像中的车辆目标，相比于原始网络，使得识别的AP值提高了8.5％，然后又对网络增加了多层特征融合，使得网络在最后分类的时候使用到网络的前面的浅层特征，使得最后的分类与识别的效果更好，在前面改进的基础上，增加多层特征融合以后，网络的AP值提高了1.6％，最后得到的改进后的网络的AP值相比于原始网络的AP值提高了10.1％，从80.5％提高到90.6％，检测的速度相比原始网络有略微的下降，但是精度得到大幅度的提升。

附图说明

图1为Faster RCNN结构示意图；

图2为本发明数据扩增示意图，其中(a)为原图，(b)为随机旋，(c)为锐度调整，(d)为左右翻转，(e)为上下翻转，(f)为随机高斯噪声；

图3为Faster RCNN网络的训练与测试结果图，其中(a)为网络训练Loss曲线，(b)为网络测试PR曲线；

图4为Faster RCNN在测试集上的识别结果示意图；

图5为Faster RCNN网络对不完整目标的漏检样例；

图6为Faster RCNN网络对完整目标的漏检样例；

图7为训练数据集的Ground Truth面积直方图；

图8为增加多层特征融合以后的网络结构示意图；

图9为改进后的网络的训练与测试结果，其中(a)为改进后的网络的训练Loss曲线，(b)为改进后的网络测试PR曲线；

图10为改进后的Faster RCNN在测试集上的识别结果样例；

图11为改进后的Faster RCNN网络对不完整目标的检测样例；

图12为改进后的Faster RCNN网络对原始网络漏检目标的检测样例。

具体实施步骤

一、数据集准备

本发明使用的无人机图像车辆目标识别数据集的来源有几个方面，第一就是PKLot的子数据集PUCPR，它从一个高层建筑物的10楼拍摄的图像，因此在一定程度上类似于无人机的图像视图。还有一部分是PKCAR数据集，这个数据集是无人机拍摄的停车场数据集，前两个数据集的图像大小为1280×720，最后一部分是本发明拍摄的数据集，图像的大小为4608×3456把所有数据合在一起，总共包括1978张图片，所有图片中的目标包括接近10万个车辆目标。

一般来说，网络训练过程中，训练的数据样本过少容易造成网络过拟合，因此对原数据集进行数据增强，目的是扩大图像的数据量，以减小过拟合的风险。1、随机旋转。对图像进行随机任意角度(0～360度)旋转。2、镜像翻转。对图像进行上下或者左右的翻转。3、对图像进行颜色抖动。包括随机调整图像的饱和度、亮度、对比度、锐度。4、对图像加随机高斯噪声。对数据进行以上几种方式的扩充，其对应示意图如下图2所示。

本发明通过更改原始的Faster RCNN模型的anchor的尺寸，增加相应的较小尺度的锚框，根据训练数据集里原图里的车辆目标的大小值，绘制了训练集的Ground Truth的面积直方图，如图7所示，这样可以更好的选择anchor的尺寸。为了更好的识别不完整目标，本发明修改Faster RCNN的网络结构，除了使用原始网络结构中使用到的第五层卷积层的输出特征之外，还将使用之前输出的低层的conv3的输出特征与conv4的输出特征与conv5的特征相结合，补充小目标的相应的细节信息，使得模型对小目标的检测准确率更加高，模型的判别能力更强。这个技巧的具体做法是，第一步先将每一个RPN的候选区域经过ROI池化，把池化后的结果映射到第三、第四层的特征图当中，通过这个方式获取得到proposal的第三与第四层特征信息，然后把这个信息做池化，然后得到固定长度的向量；第二步就是把三个层的特征信息都通过归一化的处理以后，在通道上进行合并；最后一步就是把合并的特征通过1×1的卷积降低维度，然后把得到的最后的特征向量输入到最后的全连接层进行分类与回归处理。具体的结构图如图8所示。

通过对训练样本进行以上的数据增强，可以有效解决无人机图像中存在的目标颜色纹理干扰问题与旋转缩放变化问题。图2为对原始数据集任选一张图片做数据增强处理后的示例图。对原来正样本数量为1978张图片的数据集扩增5倍后得到11868张图片和对应的标注文件，随机选择数据集的30％作为测试集，剩下的图片用来训练，其中训练与测试的分配比例为7:3。

二、Faster RCNN网络的实验

网络在数据中学习的时候，使用交替训练的做法来优化网络的参数。这种方法首先需要做的就是找到一个分类数据集上得到的模型来对网络进行初始赋值，然后把RPN经过一定的调整之后，让它去产生潜在的图像块。Faster RCNN网络的损失函数如下式(1)所示。

在上式中，i这个值代表的是在批量(mini-batch)学习的时候，不同的anchor的标号，p_i是一个可能性大小，是代表第i个anchor是否为前景的可能性。假设anchor确实是目标，则其取值就是1，反之则取0。t_i是一个数组，数组里的数据就是用来表示anchor的位置坐标(t_x,t_y,t_w,t_h)；

表示候选区域正样本标记的边界坐标

λ是调制参数，1/N_cls表示的是学习的mini-batch的值，1/N_reg表示的是anchor的多少,L_cls是用来代表对图像块的分类的损失的值。为了得到最佳的检测效果，在本发明中将使用不同的特征提取网络构建Faster RCNN网络来进行实验，实验得到的结果如下表1所示。

表1 Faster RCNN使用不同的特征提取网络的训练结果

根据上表中的结果，本发明选取VGG16网络作为Faster RCNN的特征提取网络。在训练Faster RCNN网络的时候，总共训练70000次，网络的学习率的变化是步进式的，基础的学习率是0.0001，当网络训练到50000次的时候，学习率下降为原来的0.1倍，也就是变为0.00001，这样做的原因主要是考虑到网络在训练后期在寻找最优解的时候，需要调整的幅度越来越小，在训练的后期降低学习率的值，有利于网络更好的收敛到最优解，要是后期的学习率设定得过大的话，有可能网络在后期会出现震荡，网络不收敛或者不会收敛到最优解。

将网络训练过程中的Loss函数的值的全部记录下来，然后将其可视化，如图3中的(a)图所示，可以看到网络的Loss函数的值虽然会偶尔出现比较大的值，但是整体的趋势是下降的。一般来说，训练得到的网络参数对训练数据集拟合得越好，Loss函数的值越小；但是Loss函数的值很小，网络训练的到的参数在测试集上的效果不一定很好，因为网络在训练数据集上的拟合效果很好，不一定保证在测试集上的效果就会越好；当网络训练的Loss函数的值很小时，网络可能会出现过拟合，网络在测试集上的效果反而不好，就是说得到的参数的泛化性能不好。将不同的训练次数得到的参数用于测试集的测试结果如下表2所示。

表2 Faster RCNN网络在不同的训练次数对应的测试AP值

从表2中可以看到，网络在第40000次迭代的时候，得到的AP值最高，也就是网络的综合性能最好。所以网络在40000次迭代以后得到的参数出现了过拟合，也就是说虽然在70000次迭代的时候，Loss函数的值还是呈现一个下降的趋势，但是网络已经过拟合了，后续的训练没有意义。网络在40000次迭代的时候得到的参数在测试集上的测试详细结果如表3所示。

表3 Faster RCNN在40000次迭代时的测试结果

Faster RCNN网络在40000次迭代的时候得到的参数用于训练集中的图像的测试示意图如下图4所示。可以看到网络对部分不完整目标的存在漏检，除了不完整目标漏检以外，还有一部分完整目标的漏检，但是漏检的目标最主要的不完整目标。图5所示是网络在测试集上对不完整目标的漏检样例，图6所示是网络在测试集上对部分完整目标的漏检样例。为了解决网络对不完整目标的漏检以及部分完整目标的漏检，本发明在下一小节提出具体的解决方案，对原始的Faster RCNN网络进行改进。

三、Faster RCNN网络的改进及实验

从Faster RCNN网络的识别结果可以看出，网络对那些在缺失的或者被遮挡的不完整的车辆目标存在比较严重的漏检，还有就是对那些在密集存在的大量车辆目标中间存在一些完整目标的漏检。存在这种情况的主要原因如下，当图像里的目标尺寸比较小的时候，也就是其中的不完整目标或者小目标，车辆目标在经过了VGG16的多层卷积提取特征以后，生成的特征图是原始图像的1/16大小，所有这些小尺寸的目标在低分辨率的特征图中做占据的像素是比较少的，特征图里的特征向量对这些小目标的描述就会比较抽象，这就会造成大量的细节信息的丢失，只保留了部分抽象的信息，当后续的网络使用特征图里的特征进行分类与定位的时候，就会产生较大的误差，这就会造成网络对小目标的识别效果下降。与此同时，Faster RCNN中的RPN网络中的anchor的设定尺寸是以下几个{128²,256²,512²}，其对应的长宽比是{1:1,1:2,2:1}，这些尺寸与大小所标定的区域对应原图里的目标的尺寸比较大，初始的网络anchor设置的值比较大的话，会造成网络在训练的过程中无法自适应地匹配好图像中的车辆目标，因此这个参数的设定对小目标的检测就会比较困难，从而会造成网络性能的严重下降。还有一个导致准确率下降的原因就是anchor的数量，本次用到的数据集里存在大量的停车场图片，车与车之间相隔很近，虽然从理论上来说，每个特征点的预测框的个数越多越好，预测框与其对应的比例越多，与其对应到原图中的框的数量就会越多，这样对目标的检测也就会越准确；但是在工程实践中，还需要考虑另外一个问题，那就是计算成本的问题，或者简单地说是计算时间的问题，当把框的数量增加的时候，网络在后续的计算的量也会大大增加，还有就是当把anchor的数量慢慢往上升的时候，刚开始预测准确率可能会因为anchor数量的增加而有所增长，但是当anchor的数量增加到一定的量的时候，检测的准确率肯定就会趋于平缓，而不会一直上升，但是计算量会一直不断的上升，所以在选择的时候，要在计算量与准确率之间做一个平衡，选择增加一定的可接受的计算量，然后可以大幅度的增加准确率。

针对上述两个问题，本发明通过更改原始的Faster RCNN模型的anchor的尺寸，增加相应的较小尺度的锚框，根据训练数据集里原图里的车辆目标的大小值，绘制了训练集的Ground Truth的面积直方图，如图7所示，这样可以更好的选择anchor的尺寸，根据直方图的大致分布，拟使用的anchor尺寸是{32²,64²,9²6,12²8,2²56，长宽比设定为原来的相同比例{1:1,1:2,2:1}。还有为了更好的识别不完整目标，修改Faster RCNN的网络结构，除了使用原始网络结构中使用到的第五层卷积层的输出特征之外，还将使用之前输出的低层的conv3的输出特征与conv4的输出特征与conv5的特征相结合，补充小目标的相应的细节信息，使得模型对小目标的检测准确率更加高，模型的判别能力更强。

为了选择更好的anchor组合，综合考虑网络性能与计算量，在实验中将不同的anchor组合使用到Faster RCNN网络中进行训练，得到的结果如下表4所示。

从表4的测试结果可以看出，综合考虑网络的性能与计算量，最终选取的anchor的尺寸是{32²,64²,96²,128²}。

为了改善小目标的检测效果，使用网络的第三、第四与第五层卷积层的输出的特征融合以后来对车辆目标进行识别。这个技巧的具体做法是，第一步先将每一个RPN的候选区域经过ROI池化，把池化后的结果映射到第三、第四层的特征图当中，通过这个方式获取得到proposal的第三与第四层特征信息，然后把这个信息做池化，然后得到固定长度的向量；第二步就是把三个层的特征信息都通过归一化的处理以后，在通道上进行合并；最后一步就是把合并的特征通过1×1的卷积降低维度，然后把得到的最后的特征向量输入到最后的全连接层进行分类与回归处理。具体的结构图如图8所示。

在对Faster RCNN网络增加了多层特征融合以后，将使用更改后的anchor结合多层特征更改后的网络进行训练，训练的策略与原始的Faster RCNN相同，训练的结果如图9所示。

使用改进后的网络在训练数据集上总共训练70000次，从图9中的(a)图中的训练Loss曲线可以看出，虽然训练的Loss函数的值在70000次的时候，仍然存在一个下降的趋势，但是通过测试不同迭代次数得到的模型结果可以看出，在50000次以后，网络的训练过程已经开始出现过拟合了，其测试结果如下表5所示。

表4不同的anchor组合下的检测效果

表5改进后的Faster RCNN网络在不同的训练次数对应的测试AP值

从上表可以看出，更改后的网络在50000次迭代的时候，得到的参数的测试结果性能最好，也就是其AP值最高。更改后的网络训练得到的参数在测试集上的测试指标如下表6所示，网络在测试集上测试得到的PR曲线如图9(b)所示。

表6改进后的Faster RCNN网络测试结果

图10为改进后的Faster RCNN在测试集上的识别结果。在图11与12图中，显示的是Faster RCNN网络在改进前未识别出的目标，图11中显示的是在网络改进前不完整的目标的漏检目标的检测，图12中显示的是网络改进前完整目标的漏检目标。可以看出，对FasterRCNN网络进行了改进以后，网络对不完整的目标，对大量存在的密集目标中的部分完整目标的漏检都有很大的改善。

四、模型效果评估

从图3(a)与9(a)的改进前后的损失函数的变换曲线可以看到，在网络改进前，虽然网络的损失函数也是同样的呈现一个整体下降的趋势，但是中间存在很多相对于平均值来说很高的“毛刺”；这个原因在前面介绍网络的改进的过程中有提到过，主要的原因就是网络的anchor的值过大，当它映射到原图中以后，相比于那些小目标或者残缺目标来说，在训练的图像中对它们标记的实际的框相比于网络生成的框之间的差异过大，所以就会造成网络的损失函数的值过大，从而会出现这种毛刺。但是从改进后的损失函数的值也可以看到，改进后的网络在训练过程中毛刺明显变少了，这主要是对anchor的尺寸大小进行了改进以后，anchor的尺寸与图像里的真实目标的标记框之间的差异比较大的车辆目标减少了；还有就是改进后的损失函数的图像里的“毛刺”的值明显变小了，则主要是anchor与原图里的真实的车辆目标的标记框之间的差异减小了。

从图3(b)与图9(b)的对比，也就是改进前后的PR曲线对比，改进后的网络的AP更高，也就是网络改进以后的综合性能更好。在测试过程中，原始网络训练以后的测试AP是80.5％，在论文中使用合适的anchor再加上多层特征融合改进网络以后，训练得到的网络的测试AP是90.6％，通过多层特征的融合，再加上更改网络的anchor的数量与大小值，对整体的AP提高10.1％；从表7还可以看到，网络改进后无论是在召回率还是在准确率上都有较大的提升，召回率提升了9.0％，准确率提升了7.0％。改进后的综合性能整体优于改进前的网络。

表7 Faster RCNN网络改进前后测试指标对比

为了验证网络的鲁棒性，本发明选取一部分与本发明中使用的数据集差别较大的数据集进行模型的鲁棒性验证，中科院的CAR数据集是在Google earth上截图所得，COWC的数据集上航空器拍摄所得，VEDAI也是航空器拍摄的图片，这三个数据集中的图像的大小基本在500×500左右，分辨率与大小都与测试数据集差别巨大，能更好地体现模型的鲁棒性；得到的结果如下表8所示，可以看到，尽管使用的数据集与原始数据集差别较大，改进后的网络对其识别效果并不会大幅度下降，效果相对来说还是比较好，可以说明网络的鲁棒性较好。

表8 Faster RCNN在公开数据集上的验证结果

从上述的结果可以看到，原始的Faster RCNN对无人机图像中的小的车辆目标的识别效果较差，尤其是其中的不完整目标。本发明使用不同的anchor组合，选取最优的anchor大小与个数，使得网络的检测AP值提高了8.0％；然后又针对网络对小目标的运算造成细节信息丢失的问题，在网络中增加了多层特征融合，使得网络的检测AP值提高2.1％。改进后的网络的测试AP总共提高10.1％，精度从80.5％提高到了90.6％，但是因为增加了anchor个数的原因，改进后的网络识别的速度略有下降。改进后得到的模型对于无人机图像中的车辆目标的检测效果有较大提升。

Claims

1.一种基于无人机图像的车辆目标快速识别方法,该方法包括：

步骤1：获取训练数据，并对得到的数据进行数据增强；

步骤2：构建目标识别神经网络；