CN109117876B

CN109117876B - 一种稠密小目标检测模型构建方法、模型及检测方法

Info

Publication number: CN109117876B
Application number: CN201810833623.5A
Authority: CN
Inventors: 李宏亮; 邱荷茜
Original assignee: Chengdu Kuaiyan Technology Co ltd
Current assignee: Chengdu Kuaiyan Technology Co ltd
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2022-11-04
Anticipated expiration: 2038-07-26
Also published as: CN109117876A

Abstract

本发明提供了一种稠密小目标检测模型构建方法、模型及检测方法，基于目标中点上下文信息融合，通过对分辨率较大的图片切割，避免输入网络下采样后的图片丢失太多图像信息，影响网络特征提取；采用残差金字塔特征提取网络，融合不同尺度的特征，提高了网络在不同大小目标的检测精度，尤其是小目标；采用RoIAlign层代替原始的RoIPooling层，解决了候选区域特征不匹配引起的候选框位置偏差；由于在网络传递中易丢失小目标特征，将中心点上下文特征与原始RoI特征融合，使网络充分利用目标上下文信息，在保证网络运行速度的同时，更精确地定位与识别稠密的小目标，提高了网络性能。

Description

一种稠密小目标检测模型构建方法、模型及检测方法

技术领域

本发明涉及一种稠密小目标检测模型构建方法、模型及检测方法，涉及目标检测领域。

背景技术

目标检测是目前计算机视觉领域最具挑战性的课题之一，其主要任务是根据给定的图片或视频，同时实现识别与定位图片中相应的目标。近几年，随着深度学习的快速发展，基于卷积神经网络的目标检测技术取得了显著的进步，并分别在自动驾驶、国防安全、医学领域、人机交互等方面取得了广泛的应用，对人类的科技文明进步有着非常重要的意义。

传统的目标检测方法中，可变形部件模型DPM(Deformable Part Model)是最为经典的手工设计特征的方法，该方法针对目标自身的形变以及大小多样性等问题，将整个物体拆分为多个部件，利用部件之间的关系融合部件的特征，进而得到整个物体的检测结果。该模型

是方向梯度直方图(HOG)和支持矢量机(SVM)算法的扩展，然而手工设计的特征仅表现了图像的底层特征，并不具备图像的语义信息和一定的特征可分性，导致检测模型鲁棒性较低，除此之外，DPM模型复杂度也相对较高，从而导致检测速度较慢。与这些传统方法相比，基于深度学习的目标检测算法体现出相对较大的优势。

目前，基于深度学习的目标检测算法主要分为两大类：以Faster R-CNN为代表的two-stage方法和以SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)为代表的one-stage方法。其中，two-stage方法是基于候选框提取的方法，该类方法首先利用候选区域网络RPN(RegionProposal Network)生成可能包含目标的候选框，其次将候选框映射到特征谱上，得到其特征信息，最后分别用分类器和回归器获得目标的类别以及位置信息，并取得了目前最好的检测性能。one-stage方法是基于回归的方法，该类方法去除了two-stage方法中的RPN网络，直接对网络回归获取目标的位置和类别，因此这类方法相比two-stage方法速度较快，但精度却相对较低。

这些方法虽然取得了不错的效果，但对于图片中目标较小、密集且存在遮挡等情况，通用的目标检测网络框架就会导致小目标特征信息在网络传递中丢失，假阳性样本较多，从而造成严重的小目标漏检、错检等问题。由于底层特征具有丰富的细节纹理信息，定位准确，而高层特征具有较强的语义信息，特征可分性强，因此，一些先进的网络通过融合底层和高层特征，使网络对不同尺度目标表现出较好的检测性能。

发明内容

本发明提供了一种稠密小目标检测模型构建方法、模型及检测方法，具有能够更精确检测稠密小目标的特点。

本发明采用的技术方案如下：

一种稠密小目标检测模型构建方法，具体方法包括，

S1，获取充足的训练样本数据，对训练图片进行切割，获取切割后的图片；

S2，将获得的切割图片输入特征提取网络，利用构建的多尺度特征金字塔网络，生成金字塔特征谱；

S3，利用RPN网络生成候选区域，具体方法包括，利用S2中金字塔多层特征谱上每个像素点生成的不同大小和尺度的锚点框，对锚点框回归并分类预测每个框属于前景或背景，得到候选区域；

S4，将S3中得到的候选区域分别映射到对应的不同尺度的特征谱上，利用RolAlign获取候选区域的特征，从而预测中心点位置坐标；其中，利用RolAlign获取候选区域的特征的具体方法为：

遍历每一个候选区域，保持浮点数边界不做量化；将候选区域分割成K×K个单元，保持每个单元的边界不做量化；在每个单元中计算固定四个坐标位置，用双线性内插的方法计算出这四个位置的值，最后进行最大池化操作；

S5，利用S4预测得到的中心点位置坐标，分别在相应不同尺度特征谱上获取中心点上下文特征，并将获取的上下文特征与S4中RolAlign的候选区域特征级联，再用滤波器卷积得到融合后的特征谱；

S6，使用训练好的softmax分类器和边界框回归器分别预测融合后的特征谱所属的具体类别以及每个框的坐标，训练过程中，该部分网络损失函数由分类损失L_cls和定位损失L_reg构成：L＝L_cls+λL_reg；其中，分类损失L_cls采用softmaxloss，定位损失采用smoothL1损失；

S7，将切割后图片的预测结果映射到对应的原始图片，使用非极大抑制方法获得最终检测结果；

利用上述S1到S7反复对模型进行训练最终得到构建后的稠密小目标检测模型。

在S1中，对训练样本进行切割时，采用与原图等比例的滑动窗口对原始图片每隔一定的步长进行切割。

在S2中，采用残差特征金字塔网络，利用深度卷积神经网络金字塔结构特性，使用自顶向下的侧边连接将高层语义信息与底层细节特征信息融合，构建多尺度特征金字塔网络；其中，为构建残差特征金字塔网络，将深度神经网络中高层特征谱上采样2倍，与相邻的底层特征采用元素级相加的方式融合。

所述方法还包括，采用3*3的卷积核处理融合后的特征，最终生成金字塔特征谱。

在S4中，中心点位置坐标预测的方法还包括，在训练网络过程中，利用SmoothL1损失回归中心点位置坐标。

在S5中，所述滤波器的卷积核大小为1。

一种稠密小目标检测模型，采用上述稠密小目标检测模型构建方法获得，用于实现对稠密小目标的检测，包括，

图片获取模块，获取要检测的目标图片；

图片切割模块，对获取的图片进行图片切割；

金字塔特征谱生成模块，将获得的切割图片输入特征提取网络，生成金字塔特征谱；

候选区域生成模块，利用RPN网络生成候选区域；具体包括，利用金字塔多层特征谱上每个像素点生成的不同大小和尺度的锚点框，对锚点框回归并分类预测每个框属于前景或背景，得到候选区域；

中心点位置坐标预测模块，用于预测中心点位置坐标；具体包括，将得到的候选区域分别映射到对应的不同尺度的特征谱上，利用RolAlign获取候选区域的特征，从而预测中心点位置坐标；其中，利用RolAlign获取候选区域的特征的具体方法为：

特征谱获取模块，利用预测得到的中心点位置坐标，分别在相应不同尺度特征谱上获取中心点上下文特征，并将获取的上下文特征与RolAlign的候选区域特征级联，再用滤波器卷积得到融合后的特征谱；

类别及边界框坐标预测模块，使用训练好的softmax分类器和边界框回归器分别预测融合后的特征谱所属的具体类别以及每个框的坐标；

最终检测结果获取模块，将切割后图片的预测结果映射到对应的原始图片，使用非极大抑制方法获得最终检测结果。

一种稠密小目标检测方法，利用构建好的稠密小目标检测模型，对目标进行检测，具体方法包括，

1)获取目标图片进行切割，获取切割后的图片；

2)将获得的切割图片输入特征提取网络，利用构建的多尺度特征金字塔网络，生成金字塔特征谱；

3)利用RPN网络生成候选区域，具体方法包括，利用金字塔多层特征谱上每个像素点生成的不同大小和尺度的锚点框，对锚点框回归并分类预测每个框属于前景或背景，得到候选区域；

4)将得到的候选区域分别映射到对应的不同尺度的特征谱上，利用RolAlign获取候选区域的特征，从而预测中心点位置坐标；其中，利用RolAlign获取候选区域的特征的具体方法为：

5)利用S4预测得到的中心点位置坐标，分别在相应不同尺度特征谱上获取中心点上下文特征，并将获取的上下文特征与S4中RolAlign的候选区域特征级联，再用滤波器卷积得到融合后的特征谱；

6)使用训练好的softmax分类器和边界框回归器分别预测融合后的特征谱所属的具体类别以及每个框的坐标；

7)将切割后图片的预测结果映射到对应的原始图片，使用非极大抑制获得最终检测结果。

所述方法还包括，设置非极大抑制阈值为0.5。

与现有技术相比，更有利于网络特征的提取，提高了网络在不同大小目标的检测精度，尤其是小目标，解决了候选区域特征不匹配引起的候选框位置偏差，使网络充分利用目标上下文信息，在保证网络运行速度的同时，更精确地定位与识别稠密的小目标，提高了网络性能。

附图说明

图1为本发明金字塔网络结构结构示意图。

图2为图1的所示结构的截面图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本说明书(包括摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

一种稠密小目标检测模型构建方法，具体方法包括，

S1，获取训练样本数据，对训练图片进行切割，获取切割后的图片；

S2，如图1所示，将获得的切割图片输入特征提取网络，如：VGG16、GoogLeNet、ResNet50、ResNet101等，利用构建的多尺度特征金字塔网络，生成金字塔特征谱；

S7，将切割后图片的预测结果映射到对应的原始图片，使用非极大抑制方法(NMS)获得最终检测结果；

在S1中获取充足的训练样本数据，由于训练图片样本分辨率较高，图片中目标小且密集，容易导致丢失小目标特征，因此，本发明首先对训练图片进行切割。

由于目标大小、尺度不同，因此在S2中的多层特征谱上每个像素点分别生成不同大小、尺度的锚点框(anchor)，作为一种实施方式，anchor的尺度比例为{0.5，1，2}，大小为{32，64，128，256}分别对应金字塔网络的不同尺度特征谱，然后对生成的锚点框回归并分类预测每个框属于前景或背景，得到候选区域。

S4中，利用RolAlign获取候选区域的特征的具体方法上，不同于传统的RoIPooling，RoIAlign并不是简单地填充候选区域边界上的坐标点，RoIAlign解决了RoIPooling带来的位置不匹配问题，而这类问题对大目标也许影响微弱，但对小目标的影响是很大的，因此，使用RoIAlign代替RoIPooling在一定程度上提高了小目标检测性能。

本发明技术方案基于目标中点上下文信息融合，通过对分辨率较大的图片切割，避免输入网络下采样后的图片丢失太多图像信息，影响网络特征提取；采用残差金字塔特征提取网络，融合不同尺度的特征，提高了网络在不同大小目标的检测精度，尤其是小目标；采用RoIAlign层代替原始的RoIPooling层，解决了候选区域特征不匹配引起的候选框位置偏差；由于在网络传递中易丢失小目标特征，将中心点上下文特征与原始RoI特征融合，使网络充分利用目标上下文信息，在保证网络运行速度的同时，更精确地定位与识别稠密的小目标，从而提高网络性能。

作为本发明的一种实施方式，在S1中，对训练样本进行切割时，采用与原图等比例的滑动窗口对原始图片每隔一定的步长进行切割，以保证切割后的图片不影响原始图片尺寸比例分布。该步长根据实际需求进行设定。

作为本发明的一种实施方式，由于输入图片中目标大小不同，在S2中，采用残差特征金字塔网络，利用深度卷积神经网络金字塔结构特性，使用自顶向下的侧边连接将高层语义信息与底层细节特征信息融合，构建多尺度特征金字塔网络；其中，为构建残差特征金字塔网络，将深度神经网络中高层特征谱上采样2倍(作为一种实施方式，采用最近邻上采样法)，与相邻的底层特征采用元素级相加的方式融合。

作为本发明的一种实施方式，为避免特征谱混叠效应，所述方法还包括，采用3*3的卷积核处理融合后的特征，最终生成金字塔特征谱。

为预测小目标中心点位置坐标(x_c，y_c)，在训练网络过程中，本发明利用SmoothL1损失回归中心点位置坐标。具体描述如下：

其中，L_center为中心点位置损失，

为中心点预测坐标值，

为中心点真实坐标值，

损失为：

作为本发明的一种实施方式，在S5中，所述滤波器的卷积核大小为1。

本发明还提供了一种稠密小目标检测模型，采用上述稠密小目标检测模型构建方法获得，用于实现对稠密小目标的检测，包括，

图片获取模块、图片切割模块、金字塔特征谱生成模块、候选区域生成模块、中心点位置坐标预测模块、特征谱获取模块、类别及边界框坐标预测模块和最终检测结果获取模块。。

1)获取目标图片进行切割，获取切割后的图片；

7)将切割后图片的预测结果映射到对应的原始图片，使用非极大抑制方法获得最终检测结果。

作为本发明的一种实施方式，选取现有的公开数据库，由于本发明旨解决稠密小目标检测的问题，为验证本发明的有效性，此处，选用具有目标小且密集特点的公开数据库VisDrone，该数据库共有10类目标，训练集图片6471张，测试集图片548张，切割后的训练集图片134731张，测试集图片8301张。

考虑使用ResNet50作为特征提取网络，因为选用的数据库图片较少，而网络参数过多，为防止过拟合，首先在ImageNet训练集上预训练ResNet50模型。

如图2所示，使用上述预训练模型在选用的数据库上微调构建的检测网络，该步骤的主要关键点如下：

采用的深度框架为caffe2

在构建特征金字塔网络时，分别对残差2、3、4、5模块的最后一层特征谱融合，并分别对应不同的anchor大小{32，64，128，256}，以预测不同尺度的目标。

设置学习率为0.01，最大迭代次数为16万次，候选框的批大小设置为512，在训练过程中使用随机梯度下降法训练模型

利用训练好的模型对数据库的测试集进行测试。这里，设置NMS阈值为0.5。

本发明申请方案解决了由于输入图片中目标小且密集，导致现有目标检测框架在训练过程中小目标特征信息丢失，造成错检、漏检已经定位精度较低的问题。通过预测中心坐标位置，利用小目标周围上下文特征，辅助小目标的定位以及分类，提高小目标检测性能。

Claims

1.一种稠密小目标检测模型构建方法，具体方法包括，

S6，使用训练好的softmax分类器和边界框回归器分别预测融合后的特征谱所属的具体类别以及每个框的坐标，训练过程中，该部分网络损失函数由分类损失L_cls和定位损失L_reg构成：L＝L_cls+λL_reg；其中，分类损失L_cls采用softmaxloss，定位损失L_reg采用smoothL1损失；

利用上述S1到S7反复对模型进行训练最终得到构建后的稠密小目标检测模型；

2.根据权利要求1所述的稠密小目标检测模型构建方法，在S1中，对训练样本进行切割时，采用与原图等比例的滑动窗口对原始图片每隔一定的步长进行切割。

3.根据权利要求1所述的稠密小目标检测模型构建方法，所述方法还包括，采用3*3的卷积核处理融合后的特征，最终生成金字塔特征谱。

4.根据权利要求1所述的稠密小目标检测模型构建方法，在S4中，中心点位置坐标预测的方法还包括，在训练网络过程中，利用SmoothL1损失回归中心点位置坐标。

5.根据权利要求1所述的稠密小目标检测模型构建方法，在S5中，所述滤波器的卷积核大小为1。

6.一种稠密小目标检测模型，采用权利要求1到5之一所述的稠密小目标检测模型构建方法获得，用于实现对稠密小目标的检测，包括，

图片获取模块，获取要检测的目标图片；

图片切割模块，对获取的图片进行图片切割；

7.一种稠密小目标检测方法，利用权利要求1到5之一构建好的稠密小目标检测模型，对目标进行检测，具体方法包括，

获取目标图片进行切割，获取切割后的图片；

将获得的切割图片输入特征提取网络，利用构建的多尺度特征金字塔网络，生成金字塔特征谱；

利用RPN网络生成候选区域，具体方法包括，利用金字塔多层特征谱上每个像素点生成的不同大小和尺度的锚点框，对锚点框回归并分类预测每个框属于前景或背景，得到候选区域；

将得到的候选区域分别映射到对应的不同尺度的特征谱上，利用RolAlign获取候选区域的特征，从而预测中心点位置坐标；其中，利用RolAlign获取候选区域的特征的具体方法为：

利用预测得到的中心点位置坐标，分别在相应不同尺度特征谱上获取中心点上下文特征，并将获取的上下文特征与RolAlign的候选区域特征级联，再用滤波器卷积得到融合后的特征谱；

使用训练好的softmax分类器和边界框回归器分别预测融合后的特征谱所属的具体类别以及每个框的坐标；

将切割后图片的预测结果映射到对应的原始图片，使用非极大抑制获得最终检测结果。

8.根据权利要求7所述的稠密小目标检测方法，所述方法还包括，设置非极大抑制阈值为0.5。