CN111462090B

CN111462090B - 一种多尺度图像目标检测方法

Info

Publication number: CN111462090B
Application number: CN202010252426.1A
Authority: CN
Inventors: 徐成琪; 洪学海
Original assignee: Institute Of Big Data Cloud Computing Center Of Chinese Academy Shangrao
Current assignee: Zhongke Digital Economy Research Institute
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2023-09-01
Anticipated expiration: 2040-04-01
Also published as: CN111462090A

Abstract

本发明公开了一种多尺度图像目标检测方法,涉及计算机视觉在图像目标检测算法中应用，其基于功能保持的特征金字塔网络能够充分增强每一层的语义特征，对多尺度目标的表示能力大大增强，同时利用两阶段的特征描述目标进一步提升了对多尺度目标的表示能力。相比目前主流的目标检测算法，能够更加有效的解决尺度变化的问题，尤其是小目标检测的问题，大大提升了检测的精度。

Description

一种多尺度图像目标检测方法

技术领域

本发明涉及人工智能与计算机视觉领域，尤其涉及计算机视觉在图像目标检测算法中应用的一种多尺度图像目标检测方法。

背景技术

近年来，基于深度学习的图像目标检测算法实现了突破性的进展。通过卷积神经网络进行检测，大大提升了精度。基于深度学习的目标检测算法依据其结构差异主要分为两大类：基于回归的检测算法和基于区域提议的检测算法。

其中基于回归的目标检测算法主要有YOLO、SSD、RetinaNet、RefineDet等算法，该类型算法主要通过主网络提取的特征进行一次回归与多分类计算得到结果。基于区域提议的检测算法主要有R-CNN、SPPNET、Fast-RCNN、Faster-RCNN、R-FCN、FPN等算法，该类型算法是分两个阶段进行检测，第一阶段主要负责对图像中提取到的特征对初始框anchor进行粗略回归与与二分类得到提议框，第二阶段主要利用第一阶段检测得到的提议框(proposal)对其进行进一步的回归与分类计算得到结果，将网络得到的所有结果进行非极大值抑制、防越界处理等后处理操作，最终将得到的所有检测框标注在原始图像上即完成检测。然而，以上两种算法针对目标尺度变化的问题完全依赖于anchor的尺度变化，不能很好的解决目标检测中尺度变化的问题，尤其是小目标检测的问题。

发明内容

本发明要解决的主要技术问题是，提供一种多尺度图像目标检测方法，其利于提高算法在多尺度目标检测中的性能、提高检测的精度。

为解决上述技术问题，本发明提供一种多尺度图像目标检测方法,其特征在于，其基于功能保持的特征金字塔的多尺度目标检测网络，以FPN检测网络为对比模型，构建一种全新网络；其目标检测的训练过程流程包括以下步骤：

步骤a、准备公开数据集PASCAL VOC2007+2012；

步骤b、将数据集转换成tfrecord格式；

步骤c、构建主网络用于一阶段的RPN检测；

步骤d、构建功能保持特征融合模块，进一步构建功能保持特征金字塔网络用于二阶段的检测；

步骤e、对每一类所有的检测结果利用NMS算法去除重叠度较高、冗余的检测框；

步骤f、构造两阶段损失函数：L1/L2损失与交叉熵损失；

步骤g、将数据传入网络开始训练。

实施时，所述全新网络的目标是利用卷积神经网络的内在结构，自然的构建一个每一层都具有强语义信息的特征金字塔。

实施时，所述全新网络是一个全卷积网络，其架构包含一个自上而下的连接和横向连接；所述全新网络设置了功能保持特征融合模块，用于来维持每一步特征融合过程中的强语义信息，减少其在该过程中的损失；同时，利用两个不同阶段的特征图分别用于两个不同阶段的检测。

实施时，所述步骤a中首先收集公开数据集PASCAL VOC2007和PASCAL VOC2012训练集，并将所有训练数据按照所述步骤b统一转换成tfrecord格式，完成数据预处理。

实施时，所述步骤c中，开始构建区域提议网络RPN用于一阶段检测；主干网络采用Resnet101，在每个阶段的卷积步长都设为2，因此每个阶段的特征图大小都各不相同，而在每个模块内的特征图大小都相同，选择每个模块中的最后一个特征图来构建主网络的特征金字塔，每个特征图大小都比前一个特征图缩小一半；将主网络特征金字塔对应的特征图用于一阶段的RPN检测，用于生成多个尺度和多个比例的proposal框。

实施时，所述步骤d中，构建的功能保持特征融合模块用于自上而下的生成融合特征图，进而用于二阶段的目标检测；功能保持特征融合模块将高层特征图与低层特征图进行低损失的融合，其网络结构为：

首先通过一个上采样将本层特征图扩大到和下一层特征图具有相同分辨率的大小，然后再利用一个3×3的卷积核将得到的特征图通道数压缩一半，而横向连接的特征图不需要压缩通道数直接传给功能保持特征融合模块模块，得到它们之后通过相加操作融合两层的特征图，最后通过一个3×3的卷积防止混叠效应；

同时，所述全新网络也采用共享卷积的方式，将所有得到的特征图再进行一个3×3且通道数为256的卷积，得到最终的融合后的特征图；将得到的融合后的特征图分别用于二阶段的检测。

实施时，所述步骤e中，针对上一步骤整个网络输出得到的所有检测框进行后处理操作，即对每一类所有的检测框利用非极大值抑制算法NMS去重，把重叠度较高较冗余的检测框过滤掉，防止一个目标同时拥有多个同类的检测框。

实施时，所述步骤f中，包括构建网络的损失函数，网络的总的损失函数包含rpn网络的损失和Fastrcnn网络的损失，公式如下，这里λ我们取1：

L＝L_rpn+λL_Fastrcnn (2)

两个阶段的损失又包含分类损失和回归损失，在rpn阶段网络需要对所有anchor进行二分类。

实施时，在所述步骤g中，开始将数据传入整个网络，迭代约13万轮即完成训练。

实施时，为了使二阶段检测每个ROI所能采样到的特征点都较均匀，设计可适应性RPN(SDRPN)结构：由一阶段的特征图传入进行区域提议运算生成相应的ROI框，并将所有ROI按照面积分为4类，分别可适应性的传到二阶段特征图上做进一步的检测，分配公式如下：

实施时，在测试时，网络检测结束后，需要对所有的预测框进行后处理，要包括对预测框解码、防止越界处理、非极大值抑制(NMS)等操作。

所述整个目标检测的训练过程流程，是针对目标检测网络训练的流程，训练完得到的模型即可用于测试，测试流程仅包含权利要求1中的步骤c、步骤d以及上述后处理操作(对预测框解码、防止越界处理、非极大值抑制)，把测试图像传入我们构建的网络，经过步骤c、步骤d后得到结果，此时网络检测结束。接着需要对检测结束得到的所有预测框进行后处理，包括对预测框解码、防止越界处理、非极大值抑制(NMS)，完成这些操作即得到最终我们想要的结果，也是最终的结果。这些结果画在图像上就可以看到网络的检测框。

本发明的有益效果是：一种多尺度图像目标检测方法，基于功能保持的特征金字塔网络能够充分增强每一层的语义特征，对多尺度目标的表示能力大大增强，同时利用两阶段的特征描述目标进一步提升了对多尺度目标的表示能力。相比目前主流的目标检测算法，能够更加有效的解决尺度变化的问题，尤其是小目标检测的问题，大大提升了检测的精度。

附图说明

图1是本发明一种实施例整个网络训练流程图；

图2是本网络结构图；

图3是功能保持特征融合模块结构图；

图4是跨越两阶段特征图的SDRPN结构图；

图5是本算法FMFPD与FPN算法检测性能——PR曲线对比图；

图6是本算法FMFPD与FPN算法检测效果对比图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

目前，针对多尺度目标检测的算法也有很多，其中图像金字塔的方法能够大大提升多尺度目标检测的精度，SN I P算法就是在图像金字塔中寻找合适大小尺度的目标进行训练，然而图像金字塔需要耗费大量的计算量和时间，因此不具有实用价值。另一种解决多尺度的方法是利用卷积神经网络中产生的多个特征图构建特征金字塔，其中SSD算法就利用了6层大小不同的特征图来检测尺度不同的目标，因为每一层特征图具有不同大小的感受野，所以该方法一定程度上缓解了尺度变化问题。然而SSD的底层特征图具有的语义信息较弱，对于小目标的表示能力不足，影响了精度，FPN算法为了增强底层特征的语义信息，利用了一个自上而下的连接将高层特征不断地传到底层进行融合，从而增强了小目标检测的性能，有效的缓解了多尺度问题。

本发明方案基于功能保持的特征金字塔网络能够充分增强每一层的语义特征，相比目前主流的目标检测算法，能够更加有效的解决尺度变化的问题，大大提升了检测的精度。

请参考图1-图6所示实施例，一种多尺度图像目标检测方法，其基于功能保持特征金字塔的多尺度目标检测网络。以FPN检测网络为对比模型。整个目标检测的训练过程流程图如图1所示，包括以下步骤：

步骤a、准备公开数据集PASCAL VOC2007+2012(这是两个训练数据集，分别是PASCALVOC2007和PASCALVOC2012一般都是将两个放在一起训练。)

步骤b、将数据集转换成tfrecord格式；

步骤c、构建主网络用于一阶段的RPN检测；

步骤d、构建功能保持特征融合模块(FMFM模块)，进一步构建功能保持特征金字塔网络用于二阶段的检测；

步骤f、构造两阶段损失函数：L1/L2损失与交叉熵损失；

步骤g、将数据传入网络开始训练。

本检测网络的目标是利用卷积神经网络的内在结构，自然的构建一个每一层都具有强语义信息的特征金字塔。本网络是一个全卷积网络，可以接受任意大小的输入，其主干网络采用Resnet101，整个检测网络架构如图2所示。可以看出和FPN特征金字塔网络类似，都包含一个自上而下的连接和横向连接，本网络主要设计了功能保持特征融合模块来维持每一步特征融合过程中的强语义信息，减少其在该过程中的损失。同时，利用两个不同阶段的特征图分别用于两个不同阶段的检测。

所述步骤a中首先收集公开数据集PASCALVOC2007和PASCALVOC2012训练集，并将所有训练数据按照所述步骤b统一转换成tfrecord格式，完成数据预处理。

所述步骤c中，开始构建区域提议网络RPN用于一阶段检测。主干网络采用Resnet101，在每个阶段的卷积步长都设为2，因此每个阶段的特征图大小都各不相同，而在每个模块内的特征图大小都相同，我们选择每个模块中的最后一个特征图来构建主网络的特征金字塔。将其中每个特征图表示为{C2,C3,C4,C5,C6}，每个特征图大小都比前一个特征图缩小一半。我们将主网络特征金字塔对应的特征图用于一阶段的RPN检测，用于生成多个尺度和多个比例的proposal框。

所述步骤d中，构建的功能保持特征融合模块(即FMFM模块，即构建功能保持特征金字塔网络的基础)用于自上而下的生成融合特征图。进而用于二阶段的目标检测。主网络的深层特征具有较好的语义信息，表示能力较强，而网络的浅层特征下采样次数较少，能学习到目标较多的纹理信息，对目标的定位更加精确。传统的特征融合方法为了方便融合，首先通过1×1的卷积将每一层的通道数都压缩到和最底层特征图C2通道数一样的256维，然后将高层特征图上采样到和底层特征图相同的分辨率，最后将两者相加，为了防止混叠效应，在得到的特征图上再加入一个3×3的卷积。本发明为了减小特征融合过程中高层语义信息的流失，提出FMFM模块将高层特征图与低层特征图进行低损失的融合，网络结构如图3所示，首先通过一个上采样将本层特征图扩大到和下一层特征图具有相同分辨率的大小，然后再利用一个3×3的卷积核将得到的特征图通道数压缩一半，而横向连接的特征图不需要压缩通道数直接传给FMFM模块，得到它们之后通过相加操作融合两层的特征图，最后通过一个3×3的卷积防止混叠效应。该模块不仅保持了本层特征图较多的信息，同时也保持了上层特征图较多的信息，使得底层特征图的语义信息更加充足，从而对小目标的表示能力大大增强。同时，为了使每一层的参数能够得到更多的训练，本网络也采用共享卷积的方式，因此，将所有得到的特征图再进行一个3×3且通道数为256的卷积，得到最终的融合后的特征图，将得到的特征图表示为{P2,P3,P4,P5}，可以看出C6并没有参与构建融合特征，主要是因为特征图太小，二阶段检测过程中大部分ROI(感兴趣区域)在C6上能采样到的特征点太少，因此C6只用于一阶段的特征图用于部署最大的anchor。最后，将得到的融合后的特征图分别用于二阶段的检测。

为了使二阶段检测每个ROI(感兴趣区域)所能采样到的特征点都较均匀，设计可适应性RPN(SDRPN)结构，该结构如图4所示，由一阶段的特征图传入进行区域提议运算生成相应的ROI框，并将所有ROI按照面积分为4类，分别可适应性的传到二阶段特征图上做进一步的检测，分配公式如下。

可以看出网络将ROI分成的四个集合分别是(0,112),[112,224),[224,448),[448,)，分别传到P2,P3,P4,P5层上。

所述步骤e中，针对上一步骤整个网络输出得到的所有检测框进行后处理操作，即对每一类所有的检测框利用非极大值抑制算法NMS去重，把重叠度较高较冗余的检测框过滤掉，防止一个目标同时拥有多个同类的检测框。

所述步骤f中，构建网络的损失函数。网络的总的损失函数包含rpn网络的损失和Fastrcnn网络的损失，公式如下，这里λ我们取1。

L＝L_rpn+λL_Fastrcnn (2)

两个阶段的损失又包含分类损失和回归损失，在rpn阶段网络需要对所有anchor进行二分类，将anchor分成正样本有两条准则，满足一条即可。

①如果一个anchor和任意一个ground-truth框之间的IoU超过0.7，即将其分为正样本。

②如果一个ground-truth框和某一个anchor拥有最高的IoU，即将其分为正样本。

如果一个anchor和所有的ground-truth框之间的IoU都小于0.3，即将其分为负样本。而那些没有分配标签的anchor就设为无关样本，不参与网络的训练过程。因此，网络的rpn阶段的损失可以定义为如下公式。

这里的分类损失L_cls是针对两个类别的交叉熵损失。L_loc代表回归损失，α代表回归损失的权重，这里设为1。

N代表选择的样本数量，这里默认设为256，为解决正负样本不均衡问题，网络会随机选择128个正样本，若没有足够的正样本，剩下的就用负样本来填充，i代表anchor的索引，c_i代表网络预测第i个anchor包含目标的概率，x_i代表第i个anchor的真实标签，若是正样本则为1，若是负样本则为0，L_{cross_entropy}代表交叉熵损失函数。

回归损失L_loc定义为预测框和ground-truth框之间的smooth L1损失，通过对ground-truth框的中心点坐标偏移量和宽高偏移量进行编码，分别与已编码后的预测框的中心点(cx,xy)和宽高(w,h)计算smooth L1损失，公式如下。

其中，代表第i个anchor对应预测框的中心点偏移量和宽高偏移量，/>代表第i个anchor匹配的ground-truth的中心点偏移量和宽高偏移量，/>则代表该ground-truth的实际中心点坐标和实际宽高值，/>代表第i个anchor的实际中心点坐标和实际宽高值。

二阶段的损失函数L_Fastrcnn与rpn阶段类似。首先也需要先对所有一阶段rpn传来的proposal框二分类，分类原则和rpn类似，如下。

a.如果一个proposal和任意一个ground-truth框之间的IoU超过0.5，即将其分为正样本。

b.如果一个ground-truth框和某一个proposal拥有最高的IoU，即将其分为正样本。

剩下的proposal全部分为负样本。

二阶段检测的损失函数公式如下。

其中，回归损失和rpn阶段类似，只针对正样本的proposal框计算回归损失，而二阶段的分类损失是多分类的情况，损失计算公式如下。

其中代表第i个proposal框是不是属于第k类，如果是则为1，否则为0，如果它属于负样本，则/>为1。/>代表网络预测的第i个proposal属于第k类的概率，同样/>表示第i个proposal属于负样本的概率。N代表所有的proposal的数量，M代表所有类别数。

最后，在所述步骤g中，开始将数据传入整个网络，迭代约13万轮即完成训练。

在测试时，网络检测结束后，需要对所有的预测框进行后处理，主要包括对预测框解码、防止越界处理、非极大值抑制(NMS)等操作。

如图1所示，整个目标检测的训练过程流程是针对目标检测网络训练的流程，训练完得到的模型即可用于测试，测试流程仅包含权利要求1中的步骤c、步骤d以及上述后处理操作(对预测框解码、防止越界处理、非极大值抑制)，把测试图像传入我们构建的网络，经过步骤c、步骤d后得到结果，此时网络检测结束。接着需要对检测结束得到的所有预测框进行后处理，包括对预测框解码、防止越界处理、非极大值抑制(NMS)，完成这些操作即得到最终我们想要的结果，也是最终的结果。这些结果画在图像上就可以看到网络的检测框。

本发明的积极效果：

1、基于功能保持特征金字塔的检测网络比目前主流的检测网络拥有更高的检测精度，同时比大多数两阶段目标检测算法拥有更快的速度。下表通过实验与目前主流目标检测算法在PASCALVOC2007公开数据集上进行性能对比，为了较公平的对比，本算法没有采用相关训练技巧，例如难样本挖掘、Focalloss、多尺度训练(MST)等。

2、在多尺度与小目标检测、遮挡以及模糊等情况下，基于功能保持特征金字塔的检测算法比目前主流算法性能更好，实验检测性能对比如图5和图6。通过图5的PR曲线对比图可以看出，本算法FMFPD的检测性能已经完全在FPN之上了。通过图6的算法检测效果对比图可以看出(从左往右依次是原图、FPN检测结果、FMFPD检测结果，红色箭头标注的是FPN漏检的目标)，本算法FMFPD比FPN效果更好，从左往右依次是原图、FPN检测结果、FMFPD检测结果，红色箭头标注的是FPN漏检的目标，例如在第一张图中可以看出，左边马尾后部有一个较小的人的背影FPN未检测到，最右侧的一头牛未检测到，在第二张图中左边和中间区域有部分人FPN未检测到，在第三张图中模糊场景下后面两辆车FPN也未检测到。而这些目标本算法依然可以检测到。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种多尺度图像目标检测方法,其特征在于，其基于功能保持的特征金字塔的多尺度目标检测网络，以FPN检测网络为对比模型，构建一种全新网络；其目标检测的训练过程流程包括以下步骤：

步骤a、准备公开数据集PASCAL VOC2007+2012；

步骤b、将数据集转换成tfrecord格式；

步骤c、构建主网络用于一阶段的RPN检测；

步骤d、构建功能保持特征融合模块，进一步构建功能保持特征金字塔网络用于二阶段的检测；功能保持特征融合模块将高层特征图与低层特征图进行低损失的融合，其网络结构为：首先通过一个上采样将本层特征图扩大到和下一层特征图具有相同分辨率的大小，然后再利用一个3×3的卷积核将得到的特征图通道数压缩一半，而横向连接的特征图不需要压缩通道数直接传给功能保持特征融合模块，得到它们之后通过相加操作融合两层的特征图，最后通过一个3×3的卷积防止混叠效应；同时，所述全新网络也采用共享卷积的方式，将所有得到的特征图再进行一个3×3且通道数为256的卷积，得到最终的融合后的特征图；将得到的融合后的特征图分别用于二阶段的检测；

步骤f、构造两阶段损失函数：L1/L2损失与交叉熵损失；

步骤g、将数据传入网络开始训练。

2.如权利要求1所述的多尺度图像目标检测方法，其特征在于，所述全新网络的目标是利用卷积神经网络的内在结构，自然的构建一个每一层都具有强语义信息的特征金字塔。

3.如权利要求1所述的多尺度图像目标检测方法，其特征在于，所述全新网络是一个全卷积网络，其架构包含一个自上而下的连接和横向连接；所述全新网络设置了功能保持特征融合模块，用于来维持每一步特征融合过程中的强语义信息，减少其在该过程中的损失；同时，利用两个不同阶段的特征图分别用于两个不同阶段的检测。

4.如权利要求1、2或3所述的多尺度图像目标检测方法，其特征在于，所述步骤a中首先收集公开数据集PASCAL VOC2007和PASCAL VOC2012训练集，并将所有训练数据按照所述步骤b统一转换成tfrecord格式，完成数据预处理。

5.如权利要求1、2或3所述的多尺度图像目标检测方法，其特征在于，所述步骤c中，开始构建区域提议网络RPN用于一阶段检测；主干网络采用Resnet101，在每个阶段的卷积步长都设为2，因此每个阶段的特征图大小都各不相同，而在每个模块内的特征图大小都相同，选择每个模块中的最后一个特征图来构建主网络的特征金字塔，每个特征图大小都比前一个特征图缩小一半；将主网络特征金字塔对应的特征图用于一阶段的RPN检测，用于生成多个尺度和多个比例的proposal框。

6.如权利要求1、2或3所述的多尺度图像目标检测方法，其特征在于，所述步骤d中，构建的功能保持特征融合模块用于自上而下的生成融合特征图，进而用于二阶段的目标检测；功能保持特征融合模块将高层特征图与低层特征图进行低损失的融合，其网络结构为：

首先通过一个上采样将本层特征图扩大到和下一层特征图具有相同分辨率的大小，然后再利用一个3×3的卷积核将得到的特征图通道数压缩一半，而横向连接的特征图不需要压缩通道数直接传给功能保持特征融合模块，得到它们之后通过相加操作融合两层的特征图，最后通过一个3×3的卷积防止混叠效应；

7.如权利要求1、2或3所述的多尺度图像目标检测方法，其特征在于，所述步骤e中，针对上一步骤整个网络输出得到的所有检测框进行后处理操作，即对每一类所有的检测框利用非极大值抑制算法NMS去重，把重叠度较高较冗余的检测框过滤掉，防止一个目标同时拥有多个同类的检测框。

8.如权利要求1、2或3所述的多尺度图像目标检测方法，其特征在于，所述步骤f中，包括构建网络的损失函数，网络的总的损失函数包含rpn网络的损失和Fastrcnn网络的损失，公式如下，这里λ我们取1：

L＝L_rpn+λL_Fastrcnn(2)

9.如权利要求1、2或3所述的多尺度图像目标检测方法，其特征在于，在所述步骤g中，开始将数据传入整个网络，迭代13万轮即完成训练。

10.如权利要求6所述的多尺度图像目标检测方法，其特征在于，为了使二阶段检测每个ROI所能采样到的特征点都较均匀，设计可适应性RPN结构：由一阶段的特征图传入进行区域提议运算生成相应的ROI框，并将所有ROI按照面积分为4类，分别可适应性的传到二阶段特征图上做进一步的检测，分配公式如下：

11.如权利要求1、2或3所述的多尺度图像目标检测方法，其特征在于，在测试时，网络检测结束后，需要对所有的预测框进行后处理，要包括对预测框解码、防止越界处理、非极大值抑制NMS操作。