CN108647665A

CN108647665A - 基于深度学习的航拍车辆实时检测方法

Info

Publication number: CN108647665A
Application number: CN201810479135.9A
Authority: CN
Inventors: 谢雪梅; 曹桂梅; 杨文哲; 杨建秀; 石光明
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2018-10-12
Anticipated expiration: 2038-05-18
Also published as: CN108647665B

Abstract

本发明提出了一种基于深度学习的航拍车辆实时检测方法，主要解决现有技术难以在保证实时性的基础上对复杂场景下的航拍车辆目标进行精确检测的问题。实现步骤为：1.构建航拍车辆数据集；2.设计多尺度特征融合模块，结合该模块对基于深度学习的RefineDet实时目标检测网络进行优化，从而得到航拍车辆实时检测网络；3.利用交叉熵损失函数和焦点损失函数对航拍车辆实时检测网络依次进行训练；4.用训练好的检测模型对待检测的航拍车辆视频中的车辆进行检测。本发明设计的多尺度特征融合模块能够有效提高对航拍车辆目标的信息利用率，同时利用两个损失函数能够对航拍车辆数据集进行更为充分的训练，从而提高复杂场景下的航拍车辆目标的检测准确率。

Description

基于深度学习的航拍车辆实时检测方法

技术领域

本发明属于图像识别技术领域，涉及一种车辆实时检测方法，具体涉及一种基于深度学习的航拍车辆实时检测方法，可用于低空航拍场景下对道路行驶车辆的实时检测。

背景技术

车辆实时检测是指对视频或图像中的车辆目标进行实时检测，从而得到车辆目标的位置和类别信息的过程。航拍车辆实时检测是指在无人机航拍场景下对道路行驶车辆进行实时检测，它作为智能交通系统的重要环节对于实时路况的获取、高速公路巡查、违章停车处理等起到重要作用。目前，常用的航拍车辆检测方法可以分为以下几类：基于运动信息的航拍车辆检测、基于特征提取的航拍车辆检测和基于深度学习的航拍车辆检测。

基于运动信息的航拍车辆检测算法主要有帧间差分法、背景差分法和光流法。帧间差分法是一种简单常用的车辆检测方法，该方法基于视频序列中的背景不变性假设，利用相邻帧之间的差值找到运动车辆的位置。背景差分法是一种经典的车辆检测方法，其主要思想为通过对图像中的背景进行建模，检测图像与背景模型之间的差异找到目标所在位置。光流法能够计算出车辆的光流运动信息，从而对其进行检测。以上三种方法的共同优点是简单快速，但是由于在航拍场景下的车辆检测中相机是运动的，即背景并不是处于不变状态，容易引入背景噪声的干扰，并且当无人机与运动车辆相对静止时检测效果并不理想。

基于特征提取的航拍车辆检测算法能够在静止图像中对车辆进行检测识别，主要依靠的是对图像中的目标特征进行描述。其基本原理是对车辆特征的先验知识学习，从而利用提取到的特征训练分类器如SVM、Adaboost等对目标进行识别。比较常用的特征提取方法有Haar-like特征，HOG特征、SIFT特征以及基于字典学习提取到的特征等。在航拍图像中车辆的特征尺度较小、不清晰，容易与地面阴影等复杂背景混淆，因此传统的特征提取方式难以对车辆特征进行很好的描述。

随着深度学习的发展，目标检测领域取得了许多突破性的进展，为航拍车辆检测的研究带来了新的思路。这些方法以基于深度学习的目标检测网络为基础网络，利用多尺度特征融合方法对基础网络的特征提取方式进行改进，从而将航拍车辆目标的自身特征及其周围的上下文特征进行结合，使得改进后的基础网络提取到的特征更加丰富，然后利用训练集和损失函数对改进后的基础网络进行训练，得到可用于航拍视频中的车辆进行检测的网络模型。然而目前大多数的航拍车辆检测算法所采用的基础网络不能实现实时检测，如Fast RCNN、Faster RCNN等，因此这些航拍车辆检测算法难以做到实时检测。2017年，国防科技大学电子科学与工程学院的TianYu Tang等人在Remote Sensing withIntelligent Processing，2017International Workshop on上发表的《Fast VehicleDetection in UAV Images》中，公开了一种利用实时目标检测网络YOLOv2进行实时航拍车辆检测的方法。该方法以YOLOv2为基础网络，首先通过一个特征传递层将YOLOv2的最后两组卷积层提取到的特征进行融合，从而丰富了YOLOv2所提取到的航拍车辆特征，然后通过交叉熵损失函数对改进后的YOLOv2进行训练，得到可用于航拍车辆检测的网络模型。但是该方法进行特征融合时所使用的特征尺度较大，对较小的航拍车辆目标的信息利用率不高；并且该方法在训练时采用交叉熵损失函数，该损失函数对航拍车辆数据集中的所有训练样本采用统一对待的策略，导致困难车辆样本得不到充分训练，因而无法对复杂场景下(包含困难车辆样本)的航拍车辆目标进行精确检测。因此，如何在保证实时性的基础上进一步提高算法的检测精度仍是该领域一项亟待解决的问题。

发明内容

本发明的目的在于针对上述已有的航拍道路车辆检测技术的不足，提出一种基于深度学习的航拍车辆实时检测方法，在保证实时性的基础上提高复杂场景下航拍车辆目标的检测准确率。

本发明的技术思路是：首先构建航拍车辆数据集，其次结合多尺度特征融合方法对基于深度学习的RefineDet实时目标检测网络进行优化，从而得到航拍车辆实时检测网络，然后利用交叉熵损失函数和焦点损失函数对航拍车辆实时检测网络依次进行训练，最后利用训练好的航拍车辆实时检测网络对待检测的航拍车辆视频进行检测。

根据上述技术思路，实现本发明目的采取的技术方案包括如下步骤：

(1)构建航拍车辆数据集：

(1a)将无人机拍摄的道路行驶车辆的视频中的连续或非连续多帧图像以图片形式保存到JPEGImages文件夹中，并对各幅图片进行命名，其中视频的分辨率为1920×1080，JPEGImages文件夹中保存的图片的数量不少于1000幅；

(1b)对JPEGImages文件夹中每幅图片所包含的不同车辆目标的类别及位置坐标进行标注，并将每幅图片的标注信息以xml格式进行保存，得到多个由xml格式文件组成的Annotations文件夹，其中每个xml格式文件的名称与其包含的标注信息所对应的图片名称相同；

(1c)将JPEGImages文件夹中一半以上的图片作为训练样本集，其余的图片作为测试样本集，并将训练样本集中所有图片的名称写入ImageSets/Main文件夹下的trainval.txt文件中，将测试样本集中所有图片的名称写入ImageSets/Main文件夹下的test.txt文件中；(1d)从Annotations文件夹中选取与trainval.txt文件中每幅图片名称相同的xml文件作为训练样本集的标注信息集，同时选取与test.txt文件中每幅图片的名称相同的xml文件作为测试样本集的标注信息集；

(1e)将训练样本集及其标注信息集以lmdb格式保存为训练集，同时将测试样本集及其标注信息集以lmdb格式保存为测试集，所述训练集和测试集构成航拍车辆数据集；

(2)构建航拍车辆实时检测网络：

(2a)对RefineDet实时目标检测网络中的锚框修正模块ARM进行优化：在锚框修正模块ARM中添加conv3_3层所对应的目标预测层，得到优化后的锚框修正模块ARM；

(2b)设计四个具有相同结构的多尺度特征融合模块FFM1、FFM2、FFM3和FFM4：输入层F₁→卷积层→线性整流层→卷积层→L2规范化层→输出层O₁，输入层F₂→反卷积层→线性整流层→卷积层→L2规范化层→输出层O₂，输出层O₁与输出层O₂→相加型融合层→线性整流层→卷积层→线性整流层→输出层O₃；

(2c)将锚框修正模块ARM中的conv3_3层输入到多尺度特征融合模块FFM1的输入层F₁，将锚框修正模块ARM中的conv4_3层输入到多尺度特征融合模块FFM1的输入层F₂及多尺度特征融合模块FFM2的输入层F₁，将锚框修正模块ARM中的conv5_3层输入到多尺度特征融合模块FFM2的输入层F₂及多尺度特征融合模块FFM3的输入层F₁，将锚框修正模块ARM中的fc7层输入到多尺度特征融合模块FFM3的输入层F₂及多尺度特征融合模块FFM4的输入层F₁，将锚框修正模块ARM中的conv6_2层输入到多尺度特征融合模块FFM4的输入层F₂，得到四个结构相同输入不同的多尺度特征融合模块FFM'1、FFM'2、FFM'3、和FFM'4；

(2d)对优化后的锚框修正模块ARM模块、四个多尺度特征融合模块FFM'1、FFM'2、FFM'3和FFM'4以及RefineDet实时目标检测网络中的目标检测模块ODM进行组合，得到优化后的RefineDet实时目标检测网络，并将其作为航拍车辆实时检测网络；

(3)利用交叉熵损失函数对航拍车辆实时检测网络进行训练：

(3a)对航拍车辆实时检测网络的训练参数进行初始化设置；

(3b)将航拍车辆数据集中的训练集作为航拍车辆实时检测网络的输入，并利用交叉熵损失函数对航拍车辆实时检测网络进行K₁次迭代训练，K₁≥80000，得到初步训练的航拍车辆实时检测网络；

(4)利用焦点损失函数对初步训练的航拍车辆实时检测网络进行训练：

(4a)采用控制变量法选择焦点损失函数的多个平衡因子α和多个调制因子γ，并对每个平衡因子α与每个调制因子γ进行组合，得到具有不同平衡因子α和调制因子γ的多个焦点损失函数，再利用每个焦点损失函数对初步训练的航拍车辆实时检测网络继续迭代训练K₂次，K₂≥1，得到多个训练后的航拍车辆实时检测网络；

(4b)将航拍车辆数据集中的测试集输入到每一个训练后的航拍车辆实时检测网络中进行前向计算，得到每个车辆目标的类别概率和位置坐标，以及每一个网络对测试集的平均检测准确率；

(4c)选择最高的平均检测准确率所对应的训练后的航拍车辆实时检测网络作为最终的航拍车辆实时检测网络；

(5)利用最终的航拍车辆实时检测网络对待检测的航拍车辆视频进行检测：

将待检测的航拍车辆视频输入到最终的航拍车辆实时检测网络中进行前向计算，得到车辆目标的检测结果。

本发明与现有技术相比，具有以下优点：

本发明首先对基于深度学习的RefineDet实时目标检测网络进行改进，通过设计多个多尺度特征融合模块将航拍车辆目标的自身特征及其周围的上下文特征进行结合，与现有技术只进行一次大尺度特征层的特征融合相比，本发明对大尺度特征层和小尺度特征层均进行了特征融合，因此提取到的车辆特征更加丰富，尤其是对较小车辆目标的信息利用率更高；其次，本发明利用交叉熵损失函数和焦点损失函数对航拍车辆实时检测网络依次进行训练，在适当时机使用焦点损失函数加大对困难车辆样本的训练权重，与现有技术只利用交叉熵损失函数进行训练的方式相比，本发明能够对航拍车辆数据集的所有样本进行更加充分地训练，从而提高复杂场景下的航拍车辆目标的检测准确率。

附图说明

图1为本发明的实现流程图；

图2为本发明中多尺度特征融合模块的结构示意图；

图3为本发明对多个场景下航拍车辆的检测效果图。

具体实施方式

下面将结合附图和具体实施例，对本发明进行详细说明。

参照图1，一种基于深度学习的航拍车辆实时检测方法，包括如下步骤：

步骤1)构建航拍车辆数据集：

步骤1a)将无人机拍摄的道路行驶车辆的视频中的连续帧图像每隔20帧提取一帧，以图片形式保存到JPEGImages文件夹中，并将各幅图片进行命名为不同的名字，其中视频的分辨率为1920×1080，JPEGImages文件夹中保存的图片的数量不少于1000幅；

步骤1b)对JPEGImages文件夹中每幅图片所包含的不同车辆目标进行标注：

步骤1b1)对车辆目标的类别c及位置坐标(x1,y1,x2,y2)进行标注，其中类别c属于小汽车、公交车、卡车、摩托车、自行车、油罐车六类车辆目标中的一种，x1和y1为图像中包含整个车辆目标的矩形框的左上角位置，x2和y2为图像中包含整个车辆目标的矩形框的右下角位置；

步骤1b2)将每幅图片中所有车辆目标的标注信息以xml格式进行保存，得到多个由xml格式文件组成的Annotations文件夹，其中每个xml格式文件的名称与其包含的标注信息所对应的图片名称相同，如图片image1.jpg所对应的标注信息文件名称为image1.xml；

步骤1c)将JPEGImages文件夹中的图片分为训练样本集和测试样本集两部分：

步骤1c1)将JPEGImages文件夹中的图片以2:1的比例分为训练样本集和测试样本集两部分；

步骤1c2)将训练样本集中所有图片的名称写入ImageSets/Main文件夹下的trainval.txt文件中，将测试样本集中所有图片的名称写入ImageSets/Main文件夹下的test.txt文件中，其中每幅图片的名称在trainval.txt文件和test.txt文件中作为一行；

步骤1d)从Annotations文件夹中选取与trainval.txt文件中每幅图片名称相同的xml文件作为训练样本集的标注信息集，同时选取与test.txt文件中每幅图片的名称相同的xml文件作为测试样本集的标注信息集；

步骤1e)将训练样本集及其标注信息集以lmdb格式保存为训练集，同时将测试样本集及其标注信息集以lmdb格式保存为测试集，所述训练集和测试集构成航拍车辆数据集；

步骤2)构建航拍车辆实时检测网络：

步骤2a)在RefineDet实时目标检测网络中的锚框修正模块ARM中添加conv3_3层所对应的目标预测层：

步骤2a1)在conv3_3层后面添加归一化层，层类型为“Normalize”，将该层命名为“conv3_3_norm”，输入层为“conv3_3”，输出层为“conv3_3_norm”，归一化参数value为20；

步骤2a2)设置conv3_3预测层的默认框参数：在conv3_3_norm层后面添加类型为“PriorBox”的层，该层输入层bottom为“conv3_3_norm”和“data”，输出层top为“conv3_3_norm_mbox_priorbox”，prior_box_param中的min_size为16，aspect_ratio为2，flip为true，clip为false，四个variance分别为0.1、0.1、0.2、0.2，step为4.0，offset为0.5；

步骤2a3)在conv3_3_norm层后面添加车辆目标的位置预测层“conv3_3_norm_mbox_loc”，该层输入层bottom设为“conv3_3_norm”，输出层top设为“conv3_3_norm_mbox_loc”，层类型type设为“convolution”，由于该层是完成对车辆位置坐标(x,y,w,h)的预测，且该层设置的默认框个数为3个，因此输出数量num_output设为12，卷积核大小为3×3，步长stride为1；

添加层conv3_3_norm_mbox_loc_perm，层类型为“Permute”，该层输入层bottom为“conv3_3_norm_mbox_loc”，输出层top为“conv3_3_norm_mbox_loc_perm”，参数permute_param中的四个order分别为0,2,3,1；

添加层conv3_3_norm_mbox_loc_flat，层类型为“Flatten”，该层输入层bottom为“conv3_3_norm”，输出层top为“conv3_3_norm_mbox_loc_flat”，参数flatten_param中的axis设为1；

步骤2a4)在conv3_3_norm层后面添加车辆目标的类别预测层“conv3_3_norm_mbox_conf”，该层输入层bottom设为“conv3_3_norm”，输出层top设为“conv3_3_norm_mbox_conf”，层类型type设为“convolution”，由于在ARM模块中该层是完成对车辆目标及背景(二分类)的预测，且该层设置的默认框个数为3个，因此输出数量num_output设为6，卷积核大小为3x3，步长stride为1；

添加层conv3_3_norm_mbox_conf_perm，层类型为“Permute”，该层输入层bottom为“conv3_3_norm_mbox_conf”，输出层top为“conv3_3_norm_mbox_conf_perm”，参数permute_param中的四个order分别为0,2,3,1；

添加层conv3_3_norm_mbox_conf_flat，层类型为“Flatten”，该层输入层bottom为“conv3_3_norm”，输出层top为“conv3_3_norm_mbox_conf_flat”，参数flatten_param中的axis设为1；

步骤2a5)在连接层arm_loc层中添加bottom为“conv3_3_norm_mbox_loc_flat”，在arm_conf中添加“conv3_3_norm_mbox_conf_flat”，在arm_priorbox中添加bottom为“conv3_3_mbox_priorbox”；

步骤2b)设计四个具有相同结构的多尺度特征融合模块FFM1、FFM2、FFM3和FFM4：

步骤2b1)参照图2，每个多尺度特征融合模块的结构为：输入层F₁→卷积层→线性整流层→卷积层→L2规范化层→输出层O₁，输入层F₂→反卷积层→线性整流层→卷积层→L2规范化层→输出层O₂，输出层O₁与输出层O₂→相加型融合层→线性整流层→卷积层→线性整流层→输出层O₃；

步骤2b2)根据输入层F₁的输入特征图大小l×l×ch1和输入层F₂的输入特征图大小h×h×ch2来确定反卷积层参数：

计算插值因子：

计算卷积核大小：kernel_size＝2×factor-factor％2，其中factor％2表示求factor除以2的余数；

计算边缘扩充：其中表示对的值向上取整，

设置步长stride与插值因子factor相等；

设置卷积核个数kernel_num与输入层2的通道数ch2相等；

设置分组group与输入层2的通道数ch2相等；

其中，l×l×ch1为输入层F₁的长×宽×通道数，h×h×ch2为输入层F₂的长×宽×通道数，factor为插值因子，kernel_size为卷积核大小，pad为边缘扩充参数；

步骤2b3)L2规范化层和L2规范化层分别用于对输入到L2规范化层和L2规范化层中的输入信号进行规范化，其规范化方式为：

记L2规范化层的输入信号F_i的维度为N_i，其中i∈{1,2}，利用式(1)对输入信号F_i进行规范化：

其中，为F_i的规范化值，

步骤2b4)每个多尺度特征融合模块中每层参数设置如下：

卷积层的卷积核大小设置为3，步长设置为1，边缘扩充参数设置为1，特征映射图个数设置为256；

反卷积层的卷积核大小设置为2，步长设置为2，边缘扩充参数设置为0，特征映射图个数设置为256；

相加型融合层的操作参数operation设置为SUM；

步骤2c)将锚框修正模块ARM中的conv3_3层输入到多尺度特征融合模块FFM1的输入层F₁，将锚框修正模块ARM中的conv4_3层输入到多尺度特征融合模块FFM1的输入层F₂及多尺度特征融合模块FFM2的输入层F₁，将锚框修正模块ARM中的conv5_3层输入到多尺度特征融合模块FFM2的输入层F₂及多尺度特征融合模块FFM3的输入层F₁，将锚框修正模块ARM中的fc7层输入到多尺度特征融合模块FFM3的输入层F₂及多尺度特征融合模块FFM4的输入层F₁，将锚框修正模块ARM中的conv6_2层输入到多尺度特征融合模块FFM4的输入层F₂，得到四个结构相同输入不同的多尺度特征融合模块FFM'1、FFM'2、FFM'3、和FFM'4；

步骤2d)对优化后的锚框修正模块ARM模块、四个多尺度特征融合模块FFM'1、FFM'2、FFM'3和FFM'4以及RefineDet实时目标检测网络中的目标检测模块ODM进行组合，得到优化后的RefineDet实时目标检测网络，并将其作为航拍车辆实时检测网络；

步骤3)采用交叉熵损失函数与SmoothL1损失函数构成的多任务损失函数L1对航拍车辆实时检测网络进行训练：

步骤3a)对航拍车辆实时检测网络的训练参数进行初始化设置：

修改文件solver.prototxt中训练集与测试集的路径，并将最大迭代次数max_iter设为100000次，图片批处理大小(batch_size)为16，初始学习率为10^-3，80001次时学习率降为10^-4；

步骤3b)利用交叉熵损失函数与SmoothL1损失函数对网络进行训练：

步骤3b1)将航拍车辆数据集中的训练集作为航拍车辆实时检测网络的输入：修改训练文件train.prototxt文件中训练集trainval_lmdb的路径；

步骤3b2)将train.prototxt中的损失函数参数中的conf_loss_type设置为SOFTMAX loc_loss_type设置为SmoothL1，运行训练程序，其中交叉熵损失函数SOFTMAX为：

CE(p,y)＝-log(p_t) (2)

其中p∈[0,1]是softmax分类函数对各类正样本(y≥1)的预测概率值，y∈{±1}是目标的类别标签c；

步骤4)采用焦点损失函数与SmoothL1损失函数构成的多任务损失函数对初步训练的航拍车辆实时检测网络进行训练：

步骤4a)对航拍车辆实时检测网络的训练参数进行初始化设置：

修改文件solver.prototxt中训练集与测试集的路径，并将最大迭代次数max_iter设为20000次，图片批处理大小(batch_size)为16，初始学习率为10^-4，将train.prototxt中的损失函数参数中的conf_loss_type设置为FOCAL_LOSS，loc_loss_type设置为SmoothL1；

步骤4b)焦点损失函数的参数选择：

步骤4b1)采用控制变量法选择焦点损失函数的多个平衡因子α和多个调制因子γ，并对每个平衡因子α与每个调制因子γ进行组合，得到具有不同平衡因子α和调制因子γ的多个焦点损失函数，其中焦点损失函数为

FL(p_t)＝-α(1-p_t)^γlog(p_t) (4)

其中α为平衡因子，γ为调制因子，p_t与公式(3)相同；

步骤4b2)利用每个焦点损失函数与SmoothL1损失函数所构成的多任务损失函数对初步训练的航拍车辆实时检测网络继续迭代训练20000次，得到多个训练后的航拍车辆实时检测网络；

步骤4c)将航拍车辆数据集中的测试集输入到每一个训练后的航拍车辆实时检测网络中进行前向计算，得到每个车辆目标的类别概率和位置坐标，以及每一个网络对测试集的平均检测准确率mAP；

步骤4d)选择最高的平均检测准确率所对应的训练后的航拍车辆实时检测网络作为最终的航拍车辆实时检测网络；

步骤5)利用最终的航拍车辆实时检测网络对待检测的航拍车辆视频进行检测：

以下结合仿真实验，对本发明的技术效果作进一步说明。

1.仿真条件和内容：

本发明的仿真实验是在GPU GeForce GTX 1080Ti，RAM 20G的硬件环境与Ubuntu16.04的软件环境下基于caffe平台实现的。实验中使用的航拍车辆视频数据来源于采用大疆无人机精灵4Pro实际拍摄的道路行驶车辆。

仿真实验：根据本发明构建航拍车辆数据集后，对训练集先利用交叉熵损失函数进行100000次迭代训练，然后在此基础上利用焦点损失函数进行20000次迭代训练得到最终的航拍车辆检测模型。将测试集输入到已训练好的航拍车辆检测模型中得到检测结果图，如图3所示。

2.仿真结果分析：

本发明所得到的航拍车辆检测结果与其他实时航拍车辆检测算法相比具有明显的优势，本发明对航拍车辆数据集中的测试集的平均检测准确率达到90.8％，而现有技术仅为53.7％。且由图3的检测结果可以明显的看出，本发明对各种复杂场景下的运动车辆都能够达到很好的检测效果，其中图3(a)为畅通道路、图3(b)为交叉路口、图3(c)为车辆密集情况、图3(d)为复杂环境。

Claims

1.一种基于深度学习的航拍车辆实时检测方法，其特征在于包括如下步骤：

(1)构建航拍车辆数据集：

(1c)将JPEGImages文件夹中一半以上的图片作为训练样本集，其余的图片作为测试样本集，并将训练样本集中所有图片的名称写入ImageSets/Main文件夹下的trainval.txt文件中，将测试样本集中所有图片的名称写入ImageSets/Main文件夹下的test.txt文件中；

(1d)从Annotations文件夹中选取与trainval.txt文件中每幅图片名称相同的xml文件作为训练样本集的标注信息集，同时选取与test.txt文件中每幅图片的名称相同的xml文件作为测试样本集的标注信息集；

(2)构建航拍车辆实时检测网络：

(2a)对基于深度学习的RefineDet实时目标检测网络中的锚框修正模块ARM进行优化：在锚框修正模块ARM中添加与conv3_3层所对应的目标预测层；

(3)利用交叉熵损失函数对航拍车辆实时检测网络进行训练：

(3a)对航拍车辆实时检测网络的训练参数进行初始化设置；

2.根据权利要求1所述的基于深度学习的航拍车辆实时检测方法，其特征在于，步骤(2b)中所述的反卷积层其参数设置方法为：

根据输入层F₁的输入大小l×l×ch1和输入层F₂的输入大小h×h×ch2来确定反卷积层参数：

计算插值因子：

计算边缘扩充参数：其中表示对的值向上取整；

设置步长stride与插值因子factor相等；

设置卷积核个数kernel_num与输入层F₂的通道数ch2相等；

设置分组group与输入层F₂的通道数ch2相等；

其中，l×l×ch1为输入层F₁的长×宽×通道数，h×h×ch2为输入层F₂的长×宽×通道数，kernel_size为卷积核大小，pad为边缘扩充参数。

3.根据权利要求1所述的基于深度学习的航拍车辆实时检测方法，其特征在于，步骤(2b)中所述的L2规范化层和L2规范化层分别用于对输入到L2规范化层和L2规范化层中的输入信号进行规范：

将L2规范化层的维度为N_i的输入信号F_i记为其中i∈{1,2}，利用式(1)对输入信号F_i进行规范：

其中，为F_i的规范化值，

4.根据权利要求1所述的基于深度学习的航拍车辆实时检测方法，其特征在于，步骤(2b)中的多尺度特征融合模块，每层参数设置如下：

相加型融合层的操作参数operation设置为SUM；

卷积层的卷积核大小设置为3，步长设置为1，边缘扩充参数设置为1，特征映射图个数设置为256。