CN109614985B

CN109614985B - 一种基于密集连接特征金字塔网络的目标检测方法

Info

Publication number: CN109614985B
Application number: CN201811310528.3A
Authority: CN
Inventors: 秦华标; 杨光俊
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2023-06-20
Anticipated expiration: 2038-11-06
Also published as: CN109614985A

Abstract

本发明公开了一种基于密集连接特征金字塔网络的目标检测方法，涉及图像处理和计算机视觉技术。该方法包括：收集标注目标边界框和类别信息的图像数据集；构造含有能学习特征通道间依赖关系的Squeeze‑Excitation结构的密集连接特征金字塔网络作为特征提取主干网络；交替训练RPN子网和R‑FCN子网得到目标检测模型；利用该模型检测图像中特定的目标。通过在特征提取主干网络中引入Squeeze‑Excitation结构和密集连接结构，增强模型的表征能力，特征金字塔结构增强模型对不同尺寸目标的适应性，采用R‑FCN检测头最大程度地实现整个网络模型计算的共享，节省计算资源，提高整个目标检测模型的性能。

Description

一种基于密集连接特征金字塔网络的目标检测方法

技术领域

本发明涉及图像处理和计算机视觉技术，具体是涉及一种基于密集连接特征金字塔网络的目标检测方法。

背景技术

视觉要解决的问题可归结为“What is Where”，即“什么东西在什么地方”。传统的图像分类解决的主要是“What”问题，即判断一幅图像包含的是哪类物体。但随着技术的发展和应用需求的增长，我们不仅关注对图像的简单分类，而且希望能够准确获得图像中存在的感兴趣目标及其位置(一般通过目标边界框给出)，这正是目标检测所要解决的问题。目标检测具有巨大的实用价值和应用前景，同时，目标检测也是整个计算机视觉的研究基石，是解决跟踪、分割、场景理解等其他高层视觉处理和分析任务的基础。因此，在计算机视觉领域中，目标检测是一个非常重要的研究领域并且受到了广泛地关注。

近十几年来，已有大量的学者对目标检测算法进行了深入地研究。目标检测技术在流程上大致分为三个步骤：区域建议(Region proposal)、特征表示(Featurerepresentation)和区域分类(Region classification)。首先对图像中可能的目标位置提出建议,也就是提出一些可能含有目标的候选区域。然后采用合适的特征模型对候选区域进行特征表示。最后借助分类器判断各个区域中是否含有特定类型的目标,并且通过一些后处理操作,得到最终的目标边界框。从历史发展的角度来看，目标检测算法的研究大致可以分为两个阶段：基于传统手工特征+分类器方式的研究和基于深度学习尤其是卷积神经网络的端到端方式的研究。

基于传统手工特征+分类器方式的目标检测算法通常先采取一定策略对输入图像中可能含有目标的位置进行区域建议。最常采用的策略就是利用不同尺寸和形状的滑动窗进行穷举搜索。滑动窗策略虽然简单但非常耗时，其它常用的策略有基于组合提名的策略和基于窗口打分的策略。这两种策略虽然相对滑动窗策略要更有效一些，但仍旧因为需要采样大量候选区域显得比较耗时。在通过区域建议策略得到大量候选区域后，需要对候选区域提取手工特征，例如SIFT特征，Haar特征，LBP特征，HOG特征等或是多种特征的组合，最后再利用SVM、Adaboost、随机森林等分类器对提取到的特征向量进行训练和分类从而得到最终的目标区域及类别。手工特征+分类器的方式因为在设计手工特征时需要丰富的专业知识并且花费大量的时间，而且由于加入了设计者的先验知识，通常只能针对特定任务或目标具有较好的效果，难以应用于更广泛的场景。

近年来,深度学习在图像分类和目标检测等领域取得了突破性进展,成为目前最有效的研究方法。深度学习模型具有强大的表征和建模能力,通过监督或非监督的方式,逐层自动地学习目标的特征表示,将原始数据经过一系列非线性变换,生成高层次的抽象表示,避免了手工设计特征的繁琐低效。主要的深度神经网络架构包括卷积神经网络(CNN)、深度置信网(DBN)、自动编码器(Auto-encoder)，其中在目标检测中运用最为成功的是卷积神经网络。基于深度学习的目标检测器按照是否显式地包含区域建议过程可分为两大类：显式包含区域建议的二阶检测器和无区域建议的一阶检测器。二阶检测器把目标检测任务分成两步：第一步首先生成众多候选区域，然后第二步在生成的候选区域上进行目标的识别，代表模型有R-CNN，Fast R-CNN,Faster R-CNN和R-FCN。这些模型通过不断将目标检测的各个过程纳入到深度神经网络架构中使得目标检测模型的检测精度不断提升，但由于二级检测器明显地将检测分为区域建议和区域分类两大阶段，且网络结构中存在头重设计，使得检测速度不够快。一阶检测器则把目标检测问题直接看成一个回归问题，基于整幅图像来预测可能的目标位置和类别。代表模型有YOLO，SSD和RetinaNet。由于没有了区域建议过程，一阶检测器的速度比较快，但检测精度相对二阶检测器要差一些。虽然基于深度学习的目标检测器相比传统目标检测方法在检测精度和速度上都有了较大提升，但面对实际应用场景中可能同时存在的目标外观差异不明显以及目标尺寸差异大等问题仍无法很好地解决。

发明内容

本发明的目的是解决进行目标检测时可能同时存在的目标外观差异不明显和尺寸差异大的问题。通过设计一个表达和适应能力更强的基于密集连接金字塔网络的R-FCN目标检测模型，然后利用收集并处理过的训练数据集训练该模型，最后利用训练好的模型来进行目标检测，实现对异类相似目标以及尺寸差异大的目标也能有较好检测效果的方法。本发明通过如下技术方案实现。

一种基于密集连接特征金字塔网络的目标检测方法，其特征在于：该方法包括以下步骤：(1)收集标注了目标边界框和类别信息的图像数据集，将图像数据集划分成训练集和验证集，并对图像数据进行一定的数据预处理；(2)构建一个基于密集连接结构和特征金字塔结构的可以增强特征表达能力和尺度适应能力的特征提取主干网络，所述特征提取主干网络为特征提取主干网络模型；(3)在特征提取主干网络模型基础上并接区域生成网络(Region Proposal Network,RPN)和基于区域的全卷积网络(Region-based FullyConvolutional Networks,R-FCN)检测头，利用RPN生成目标候选区域，然后利用R-FCN检测头对目标候选区域进行分类和边界框回归；(4)利用训练数据集按照四步交替训练法对RPN子网和R-FCN子网进行交替训练并利用验证集对特征提取主干网络的训练效果进行检验和超参数调整，最终训练得到一个统一的目标检测模型；(5)利用训练得到的目标检测模型，检测待测试图像中的指定目标。

进一步的，所述的步骤(1)包括：将图像数据集的目标边界框和类别等标注信息制作成Pascal VOC或MS COCO数据集格式，对图像数据集按照3:1的比例划分成训练数据集和验证数据集，并通过水平镜像翻转、裁剪、旋转操作对训练数据集进行数据扩增。

进一步的，所述的步骤(2)的特征提取主干网络以引入Squeeze-Excitation结构的密集连接卷积网络SE-DenseNet作为主干结构，同时利用卷积网络固有的因分辨率逐步降低而形成的特征金字塔结构来构建密集连接特征金字塔网络作为特征提取主干网络；所述主干结构包括密集连接结构，使不同卷积层之间均有连接通路，密集连接结构能充分利用网络提取到的特征并加强特征间的联系；主干结构由若干个dense block(密集块)组成，每个dense block又由若干个相同尺寸的卷积层堆叠而成，每个卷积层均包括批规范化、ReLU(线性整流单元)激活以及3*3卷积三个操作，且同一个dense block中每个卷积层都将当前卷积层前所有卷积层提取到的特征图相连的结果作为输入并输出固定通道数的输出特征图，两个相邻的dense block则通过过渡层相连接，所述过渡层为一个1*1卷积层和一个均值池化层，通过在dense block中的每个卷积层前添加包含1*1卷积的瓶颈层，减少每个卷积层的输入特征图数量。

进一步的，所述主干结构还包括能学习特征通道间依赖关系的Squeeze-Excitation结构；在每个过渡层前，通过Squeeze-Excitation结构对输入过渡层的所有卷积层提取到的特征图通过赋予不同的权重进行通道重标定，以进一步增强特征提取主干网络的表征能力；Squeeze-Excitation结构首先通过全局平均池化的Squeeze操作压缩输入通道的空间信息，只保留通道信息，然后利用由两层全连接层构成的Excitation操作学习通道间的依赖关系(即通道权值)，最后利用学到的依赖关系对各通道特征图进行重标定加权。

进一步的，所述特征提取主干网络包括密集连接特征金字塔网络，特征金字塔网络通过将主干结构富含语义信息的高层特征图和分辨率更高的低层特征图融合，能够增强特征提取主干网络对不同尺寸目标的适应性；构建过程为从密集连接卷积网络最后一个dense block的特征图开始，先对特征图进行1*1卷积得到特征金字塔网络的最高层，然后从最高层开始自顶向下地进行上采样，同时对相邻较低层dense block的特征图进行1*1卷积使卷积后的特征图与上采样后的特征图通道数一致，并将卷积后的特征图与上采样后的特征图进行相加融合作为密集连接特征金字塔网络的融合层，最后再对特征金字塔网络的各融合层运用3*3卷积得到不同的预测层。

进一步的，所述的步骤(3)中，在密集连接特征金字塔网络的各预测层上都并接一个区域生成网络(Region Proposal Network,RPN)和一个基于区域的全卷积网络(Region-based Fully Convolutional Networks,R-FCN)检测头。

进一步地，步骤(4)具体包括：并采用四步交替训练法训练模型：先在密集连接特征金字塔网络的各预测层上训练RPN子网，然后用训练好的RPN子网生成的目标候选区域去训练各预测层上的R-FCN检测头，再用训练好的R-FCN检测头的参数初始化RPN子网，固定共享卷积层参数只微调RPN子网独有层的参数，最后固定共享卷积层参数再微调R-FCN子网独有层的参数，最终训练得到一个统一的目标检测模型。

进一步的，步骤(5)具体包括：输入的测试图像先由密集连接特征金字塔网络对输入的测试图像进行多尺度的特征提取，然后由各预测层的RPN网络生成可能的目标候选区域，对目标候选区域依据置信度进行筛选并经过非极大值抑制后根据其尺寸大小将其分配到合适尺度的预测层，再经由该预测层的R-FCN检测头对目标候选区域进行位置敏感的感兴趣区域(ROI)池化操作并利用池化得到的综合得分图对目标候选区域进行分类和边框回归，最后对各预测层的结果按照置信度排序输出最终预测结果。

与现有技术相比，本发明具有如下优点和效果：本发明通过在特征提取主干网络中引入了Squeeze-Excitation结构和密集连接的结构，增强了模型的表征能力，同时特征金字塔结构的引入也增强了模型对不同尺寸目标的适应性，而采用R-FCN检测头最大程度地实现了整个网络模型计算的共享，节省了计算资源，从而提高了整个目标检测模型的性能。

附图说明

图1a、图1b分别为训练阶段和预测阶段的流程图；

图2为特征提取主干网络的主干结构SE-DenseNet的网络示意图；

图3为基于密集连接特征金字塔网络的目标检测模型的结构图。

具体实施方式

下面结合附图和实施例对本发明的方法作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了实施方式和具体操作过程，但本发明的保护范围不限于下述实施例。

本实施方式中，所提出的基于密集连接特征金字塔网络的目标检测方法能在一定程度上克服目标检测时目标外观差异不明显以及目标尺寸差异大带来的影响。

本实施方式中，在训练阶段，图1a所示，具体实施方式如下：

步骤1：收集标注了目标边界框和类别信息的图像数据集，将数据集划分成训练集和验证集，并进行一定的数据预处理。该步骤包括：将图像数据集的目标边界框和类别等标注信息制作成作成Pascal VOC或MS COCO数据集格式，再将数据集按照一定比例划分成训练集和验证集，并通过水平镜像翻转、裁剪、旋转操作对训练集进行数据扩增。本实施例将数据集按照3:1的比例划分成训练集和验证集，并通过水平镜像翻转、裁剪、旋转操作对训练集进行数据扩增。

步骤2：设计一个基于密集连接结构和特征金字塔结构的可以增强特征表达能力和尺度适应能力的特征提取主干网络。该步骤包括：特征提取主干网络的主干结构SE-DenseNet如图2所示，其采用含有四个dense blocks的DenseNet-169(169层的密集连接网络，不包含最后的全局平均池化层和全连接层)，并且在DenseNet-169前三个dense blocks的每个dense block和其后的过渡层之间引入Squeeze-Excitation结构即Squeeze-Excitationblock，组成三个SE-Dense Block模块，分为SE-Dense Block1，SE-DenseBlock2等。先通过Squeeze操作Fsq(.)对输入过渡层的所有特征图进行全局平均池化，压缩输入特征图的空间信息，只保留N维的通道信息，然后利用两层全连接层的Excitation操作F_ex(.)学习通道间的依赖关系(权值)，最后利用学到的依赖关系对各通道特征图进行重标定F_scale(.)(加权)。为了限制模型的复杂度，全连接层采用瓶颈结构，第一层全连接层的输出尺寸为1*1*(N/r)，其中缩减因子r取16，同时后跟一个ReLU激活操作，第二层全连接层的输出尺寸为1*1*N，后跟一个Sigmoid(S型函数)激活操作。在引入Squeeze-Excitation结构后的DenseNet(密集卷积网络)的基础上，同时利用卷积网络固有的因分辨率逐步降低而形成的特征金字塔结构构建基于密集连接特征金字塔网络的特征提取主干网络。首先，对SE-DenseNet的dense block4的特征图进行1*1卷积，将1*1卷积后的特征图作为特征金字塔网络第四层(即最后一层)，接着从第四层开始，对其特征图进行2倍上采样，然后将SE-DenseNet的SE-Dense Block3的所有特征图通过1*1卷积产生与第四层特征图通道数一样的特征图，并将其和第四层上采样后的特征图进行相加融合，作为特征金字塔网络的第三层；然后自顶向下(从后往前)依次对SE-DenseNet的SE-Dense Block2和SE-Dense Block1重复以上类似的操作得到特征金字塔网络的其余各层，最后对特征金字塔网络各层运用3*3卷积得到最终的各预测层。

步骤3：在特征提取主干网络的基础上设计相适应的RPN区域生成网络和R-FCN检测头。该步骤包括：在基于密集连接的特征金字塔特征提取主干网络的各预测层上添加RPN区域生成子网并生成RPN子网的训练样本。RPN子网由1个3*3卷积层和两个并联的1*1卷积层构成，对3*3卷积后特征图上的每个位置，分配三种宽高比{1:2,1:1,2:1}的anchor box(锚点框)，特征金字塔网络各预测层(从下到上)RPN子网的anchor box尺寸依次从{32²,64²,128²,256²}中选取。在添加完RPN子网后，在特征金字塔网络各预测层上还要添加与RPN子网并行的R-FCN检测头并生成相应的训练样本。即在各预测层后再接两个1*1的卷积层分别得到输出通道数为k²*(C+1)维(C表示前景目标类别数)和k²*4维的位置敏感分数图分别用于边界框分类和边框回归，然后根据相同预测层RPN子网生成的RoI候选区域对两种位置敏感分数图进行位置敏感的RoI池化操作得到尺寸分别为k²*(C+1)和k²*4的综合得分图，对两种综合得分图分别各自求和后得到C+1维类别预测向量和4维的回归预测向量用于R-FCN子网的训练。

步骤4：利用训练数据集按照四步交替训练法对RPN子网和R-FCN子网进行交替训练并利用验证集对模型的训练效果进行检验和超参数调整，最终训练得到一个统一的目标检测模型。训练步骤如下：

a)生成RPN子网的训练样本，各RPN子网均由1个3*3卷积层和两个并联的1*1卷积层构成，对3*3卷积后特征图上的每个位置，分配三种宽高比{1:2,1:1,2:1}的anchor，特征金字塔主干对于RPN子网的每个anchor box，根据其所对应预测层的空间分辨率将其映射回原图与真实的各目标边界框求交并比(IoU)，若IoU超过0.7或对于某个真实目标边界框其有最高的IoU，则将anchor box标记为正样本，若IoU小于0.3，则将anchor box标记为负样本。为了平衡正负样本的训练比例，对每一幅输入的训练图像，随机采样256个anchor样本作为一个mini-batch(小批量)，且anchor样本中正负样本的比例保持1:1。生成RPN子网的训练样本后利用在ImageNet数据集上预训练的DenseNet模型参数初始化RPN子网(未包括在DenseNet模型参数中的权重参数进行高斯随机初始化，偏置参数进行零初始化)后对RPN子网进行单独训练。采用随机梯度下降法更新网络的参数，总共迭代训练25个epoch(轮，将训练集完整训练一遍为一轮)，初始学习率设置为0.0025，当训练到第16个epoch时，学习率衰减为0.00025，达到第22个epoch时，学习率设置为0.000025，直到训练完毕,权值衰减系数设为0.0001,momentum(动量项)设为0.9。

RPN子网的损失函数为：

其中N表示训练样本的个数，i表示anchor box的编号，p_i表示第i个anchor box属于一个目标的预测概率，

表示anchor box的真值标签，若anchor box被标为正样本则为1，若anchor box被标为负样本则为0,λ为分类和回归损失的平衡参数，默认取1,t_i是代表第i个预测边界框的参数化坐标向量，/>

是第i个anchor box对应的真实边界框的相应参数化坐标向量，L_cls为分类任务的损失，如公式(3)，L_reg为边界框回归任务的损失，如公式(4)。

预测边界框的参数化坐标向量t＝(t_x,t_y,t_w,t_h)和真实边界框的参数化坐标向量

计算方法如公式(2)所示。

x,y,w,h依次表示预测框的中心坐标(x,y)和宽w、高h；x_a,y_a,w_a,h_a依次表示anchor框的中心坐标(x_a,y_a)和宽w_a,、高h_a；x^*,y^*,w^*,h^*依次表示真实框的中心坐标(x^*,y^*)和宽w^*、高h^*；t_x,t_y,t_w,t_h分别为预测边界框的4个参数化坐标，

分别为真实边界框的4个参数化坐标。

b)训练完RPN子网后，生成R-FCN子网(包括特征提取主干网络)的训练样本并对R-FCN子网进行训练：对于a)中RPN子网生成的每个RoI候选区域，若其与真实目标边界框的IoU不低于0.5，则标记为正样本；反之，若低于0.5，则标记为负样本。生成R-FCN子网的训练样本后也用ImageNet预训练的DenseNet模型初始化网络然后对R-FCN子网进行训练。

R-FCN子网采用的损失函数与RPN子网的的损失函数一样，如式(5)所示，只不过下标i表示RoI的编号。

每个RoI的类别预测概率p_i和边界框参数化坐标向量t_i通过利用式(6)表示的位置敏感的RoI池化操作计算得到。

r_c(i,j|Θ)＝∑_{(x,y)∈bin(i,j)}z_i,j,c(x+x₀,y+y₀|Θ)/n (6)

位置敏感的RoI池化操作将位置敏感分数图中每个RoI矩形框所覆盖区域均分成k*k个子区域(本方法中k取3)，上式中r_c(i,j|Θ)表示对第c个类别的第(i,j)个子区域的池化响应，z_i,j,c代表k²(C+1)张位置敏感分数图中的一张分数图，(x₀,y₀)表示RoI左上角坐标，x，y表示像素点在RoI矩形框中的位置坐标，n是一个子区域中的像素个数，Θ表示网络可学习的参数。计算得到r_c(i,j|Θ)后，对于每个RoI,将各子区域的池化响应求和得到C+1维向量，再通过softmax函数(归一化指数函数)得到每个RoI的类别预测概率p_i,边界框参数化坐标向量t_i也通过类似的过程得到4维向量。同样采用随机梯度下降法更新网络的参数，训练的超参数设置与单独训练RPN子网的设置相同。另外，为了进一步提升模型性能，在训练R-FCN子网时，使用在线难例挖掘(OHEM)策略，即在网络前向计算时，评估所有RoI候选区域(正负都有)的损失，然后只排序选出损失最高的前若干个RoI进行反向传播。

c)用R-FCN子网训练好的网络参数去初始化RPN子网，训练RPN子网时固定RPN子网和R-FCN子网共享卷积层的参数，只微调RPN子网独有的卷积层参数。同样训练25个epoch，学习率等超参数的设置与前面一致。

d)最后保持共享卷积层的参数固定，微调R-FCN子网独有的卷积层参数，经25个epoch训练得到一个统一的目标检测模型，图3为实施例的基于密集连接特征金字塔网络的目标检测模型。

步骤五：利用训练得到的目标检测模型，检测待测试图像中的指定目标。检测步骤包括对输入的测试图像，先由密集连接特征金字塔网络对其进行多尺度的特征提取，然后由各预测层的RPN网络生成可能的目标候选区域，对候选区域依据置信度进行筛选并经过非极大值抑制后根据其尺寸大小将其分配到合适尺度的预测层，再经由该预测层的R-FCN检测头对候选区域进行位置敏感的感兴趣区域池化操作并利用池化得到的综合得分图对候选区域的类别分类和边框回归进行预测，最后对各预测层的结果按照置信度排序输出最终预测结果。

本实施方式中，预测阶段，图1b所示，输入一张新的图片，图片经过密集连接特征金字塔网络提取特征后由各预测层的RPN子网生成可能的目标候选区域，对候选区域依据置信度进行筛选，每个预测层取前300个RoI候选区域并经过阈值为0.3的非极大值抑制后根据其尺寸大小将其分配到合适尺度的预测层，再经由该预测层的R-FCN检测头对候选区域进行位置敏感的感兴趣区域池化操作并利用池化得到的综合得分图对候选区域的类别和边界框位置进行预测，最后对各预测层的结果按照置信度排序输出最终预测结果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于密集连接特征金字塔网络的目标检测方法，其特征在于，包括如下步骤：

步骤1：收集标注了目标边界框和类别信息的图像数据集，将数据集划分成训练集和验证集，并进行一定的数据预处理；该步骤包括：将图像数据集的目标边界框和类别等标注信息制作成作成PascalVOC或MS COCO数据集格式，再将数据集按照一定比例划分成训练集和验证集，并通过水平镜像翻转、裁剪、旋转操作对训练集进行数据扩增；

步骤2：设计一个基于密集连接结构和特征金字塔结构的可以增强特征表达能力和尺度适应能力的特征提取主干网络；该步骤包括：特征提取主干网络的主干结构SE-DenseNet，其采用含有四个dense blocks的DenseNet-169，169层的密集连接网络不包含最后的全局平均池化层和全连接层，并且在DenseNet-169前三个dense blocks的每个denseblock和其后的过渡层之间引入Squeeze-Excitation结构即Squeeze-Excitation block，组成三个SE-Dense Block模块，分为SE-Dense Block1，SE-Dense Block2等；先通过Squeeze操作Fsq(.)对输入过渡层的所有特征图进行全局平均池化，压缩输入特征图的空间信息，只保留N维的通道信息，然后利用两层全连接层的Excitation操作F_ex(.)学习通道间的权值关系，最后利用学到的权值关系对各通道特征图进行加权；为了限制模型的复杂度，全连接层采用瓶颈结构，第一层全连接层的输出尺寸为1*1*(N/r)，其中缩减因子r取16，同时后跟一个ReLU激活操作，第二层全连接层的输出尺寸为1*1*N，后跟一个Sigmoid激活操作；在引入Squeeze-Excitation结构后的DenseNet的基础上，同时利用卷积网络固有的因分辨率逐步降低而形成的特征金字塔结构构建基于密集连接特征金字塔网络的特征提取主干网络；首先，对SE-DenseNet的dense block4的特征图进行1*1卷积，将1*1卷积后的特征图作为特征金字塔网络第四层，接着从第四层开始，对其特征图进行2倍上采样，然后将SE-DenseNet的SE-Dense Block3的所有特征图通过1*1卷积产生与第四层特征图通道数一样的特征图，并将其和第四层上采样后的特征图进行相加融合，作为特征金字塔网络的第三层；然后从后往前依次对SE-DenseNet的SE-Dense Block2和SE-Dense Block1重复以上类似的操作得到特征金字塔网络的其余各层，最后对特征金字塔网络各层运用3*3卷积得到最终的各预测层；

步骤3：在特征提取主干网络的基础上设计相适应的RPN区域生成网络和R-FCN检测头；该步骤包括：在基于密集连接的特征金字塔特征提取主干网络的各预测层上添加RPN区域生成子网并生成RPN子网的训练样本；RPN子网由1个3*3卷积层和两个并联的1*1卷积层构成，对3*3卷积后特征图上的每个位置，分配三种宽高比{1:2,1:1,2:1}的anchor box，特征金字塔网络各预测层RPN子网的anchor box尺寸依次从{32²,64²,128²,256²}中选取；在添加完RPN子网后，在特征金字塔网络各预测层上还要添加与RPN子网并行的R-FCN检测头并生成相应的训练样本；即在各预测层后再接两个1*1的卷积层分别得到输出通道数为k²*(C+1)维，C表示前景目标类别数，和k²*4维的位置敏感分数图分别用于边界框分类和边框回归，然后根据相同预测层RPN子网生成的RoI候选区域对两种位置敏感分数图进行位置敏感的RoI池化操作得到尺寸分别为k²*(C+1)和k²*4的综合得分图，对两种综合得分图分别各自求和后得到C+1维类别预测向量和4维的回归预测向量用于R-FCN子网的训练；

步骤4：利用训练数据集按照四步交替训练法对RPN子网和R-FCN子网进行交替训练并利用验证集对模型的训练效果进行检验和超参数调整，最终训练得到一个统一的目标检测模型；训练步骤如下：

a)生成RPN子网的训练样本，各RPN子网均由1个3*3卷积层和两个并联的1*1卷积层构成，对3*3卷积后特征图上的每个位置，分配三种宽高比{1:2,1:1,2:1}的anchor，特征金字塔主干对于RPN子网的每个anchor box，根据其所对应预测层的空间分辨率将其映射回原图与真实的各目标边界框求交并比，若IoU超过0.7或对于某个真实目标边界框其有最高的IoU，则将anchor box标记为正样本，若IoU小于0.3，则将anchor box标记为负样本；为了平衡正负样本的训练比例，对每一幅输入的训练图像，随机采样256个anchor样本作为一个mini-batch，且anchor样本中正负样本的比例保持1:1；生成RPN子网的训练样本后利用在ImageNet数据集上预训练的DenseNet模型参数初始化RPN子网，对未包括在DenseNet模型参数中的权重参数进行高斯随机初始化，偏置参数进行零初始化，后对RPN子网进行单独训练；采用随机梯度下降法更新网络的参数，总共迭代训练25个epoch，将训练集完整训练一遍为一轮，初始学习率设置为0.0025，当训练到第16个epoch时，学习率衰减为0.00025，达到第22个epoch时，学习率设置为0.000025，直到训练完毕,权值衰减系数设为0.0001,momentum设为0.9；

RPN子网的损失函数为：

其中M表示训练样本的个数，i表示anchor box的编号，p_i表示第i个anchor box属于一个目标的预测概率，

是第i个anchor box对应的真实边界框的相应参数化坐标向量，L_cls为分类任务的损失，如公式(3)，L_reg为边界框回归任务的损失，如公式(4)；

计算方法如公式(2)所示；

分别为真实边界框的4个参数化坐标；

b)训练完RPN子网后，生成包括特征提取主干网络的R-FCN子网的训练样本并对R-FCN子网进行训练：对于a)中RPN子网生成的每个RoI候选区域，若其与真实目标边界框的IoU不低于0.5，则标记为正样本；反之，若低于0.5，则标记为负样本；生成R-FCN子网的训练样本后也用ImageNet预训练的DenseNet模型初始化网络然后对R-FCN子网进行训练；

R-FCN子网采用的损失函数与RPN子网的的损失函数一样，如式(5)所示，只不过下标i表示RoI的编号；

每个RoI的类别预测概率p_i和边界框参数化坐标向量t_i通过利用式(6)表示的位置敏感的RoI池化操作计算得到；

r_c(i,j|Θ)＝∑_{(x,y)∈bin(i,j)}z_i,j,c(x+x₀,y+y₀|Θ)/n (6)

位置敏感的RoI池化操作将位置敏感分数图中每个RoI矩形框所覆盖区域均分成q*q个子区域，q取3，上式中r_c(i,j|Θ)表示对第c个类别的第(i,j)个子区域的池化响应，z_i,j,c代表k²(C+1)张位置敏感分数图中的一张分数图，(x₀,y₀)表示RoI左上角坐标，x，y表示像素点在RoI矩形框中的位置坐标，n是一个子区域中的像素个数，Θ表示网络可学习的参数；计算得到r_c(i,j|Θ)后，对于每个RoI,将各子区域的池化响应求和得到C+1维向量，再通过softmax函数得到每个RoI的类别预测概率p_i,边界框参数化坐标向量t_i也通过类似的过程得到4维向量；同样采用随机梯度下降法更新网络的参数，训练的超参数设置与单独训练RPN子网的设置相同；另外，为了进一步提升模型性能，在训练R-FCN子网时，使用在线难例挖掘策略，即在网络前向计算时，评估所有RoI候选区域的损失，然后只排序选出损失最高的前若干个RoI进行反向传播；

c)用R-FCN子网训练好的网络参数去初始化RPN子网，训练RPN子网时固定RPN子网和R-FCN子网共享卷积层的参数，只微调RPN子网独有的卷积层参数；同样训练25个epoch，学习率等超参数的设置与前面一致；

d)最后保持共享卷积层的参数固定，微调R-FCN子网独有的卷积层参数，经25个epoch训练得到一个统一的目标检测模型；

步骤五：利用训练得到的目标检测模型，检测待测试图像中的指定目标；检测步骤包括对输入的测试图像，先由密集连接特征金字塔网络对其进行多尺度的特征提取，然后由各预测层的RPN网络生成可能的目标候选区域，对候选区域依据置信度进行筛选并经过非极大值抑制后根据其尺寸大小将其分配到合适尺度的预测层，再经由该预测层的R-FCN检测头对候选区域进行位置敏感的感兴趣区域池化操作并利用池化得到的综合得分图对候选区域的类别分类和边框回归进行预测，最后对各预测层的结果按照置信度排序输出最终预测结果。