CN112733942A

CN112733942A - 一种基于多级特征自适应融合的变尺度目标检测方法

Info

Publication number: CN112733942A
Application number: CN202110039156.0A
Authority: CN
Inventors: 张弘; 闫超奇; 杨一帆; 陈浩; 李旭亮; 袁丁
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-04-30

Abstract

本发明涉及一种基于多级特征自适应融合的变尺度目标检测方法，主要包括：图像预处理部分、基础网络模块、附加特征提取模块、两级特征融合模块、预测模块以及分类和回归模块。具体检测方法如下：获取目标检测数据集并按照图像预处理部分将输入图像进行统一尺寸与数据增强；设置变尺度目标检测网络模型参数及各种训练参数；将提取得到的浅层特征与深层特征进行两级特征阶段自适应融合，获取多级特征融合特征层；将获取的多级特征自适应融合特征层经过预测模块，获得加强后的多尺度融合特征层；对加强后的多尺度融合特征层进行分类和回归，计算损失，进行网络参数的迭代更新；完成网络训练后，进行实际场景测试。

Description

一种基于多级特征自适应融合的变尺度目标检测方法

技术领域

本发明涉及一种基于多级特征自适应融合的变尺度目标检测方法，适用于高清图像复杂场景下目标检测领域。

背景技术

目标检测技术是计算机视觉领域极为重要的研究方向。在民用与军用领域都有着极为广泛的应用，在智能视频监控分析，自动驾驶、军用制导、侦察等方面都发挥了重要作用。如何在复杂的运动背景下精确地确定目标的位置，以及如何利用有限的计算资源快速地定位目标，是目前这一领域需要解决的两大难题。

目标检测可以被分为运动目标检测与静态目标检测两大类。两类都有着极为广泛的应用范围，运动目标检测致力于快速检测出图像中的运动区域，用于视频目标检测，在监控等领域非常常用；而静态目标检测无需使用视频，只需要在单帧图像中检测目标。此外，在实际工程实践中，动目标检测与静目标检测能够结合起来，作为彼此的补充。

传统的目标检测算法通常根据具体任务设计人工特征，然后在滑动窗口上提取图像特征，最后基于这些特征训练一个分类器，通过这个分类器来判断滑窗区域是否为目标。然而人工特征一般在特定的目标检测任务中比较有效，例如，物体识别采用尺度不变特征(Scale-invariant feature transform，SIFT)，人脸识别采用局部纹理特征(LocalBinary Patterns，LBP)，行人检测采用方向梯度直方图特征(Histogram of OrientedGradient，HOG)，传统的分类器主要有支持向量机(Support Vector Machine，SVM)，K最近邻(k-NearestNeighbor，KNN)等。然而这些浅层的人工特征通常很难适应目标尺度、角度以及形态的变化，同时如果场景背景复杂，人工特征也很难提取比较有用的信息。这些原因导致传统的目标检测算法很难满足多类目标检测任务的需求。

近几年来，深度学习方法在多个图像处理与模式识别领域获得了极佳的效果。卷积神经网络的引入让原本难以训练的深度网络训练变成可能。ReLu，DropOut技术的引入也解决了神经网络方法的诸多缺陷。基于深度学习的目标检测算法通常利用卷积神经网络(Convolution neural network，CNN)从大量数据中自动学习如何提取有效特征。基于深度学习的目标检测算法能够将特征提取与特征分类融合在同一个网络模型当中，通过误差反向传播来进行优化。例如近年来被提出的SSD，YOLO,以及Faster-RCNN算法，分别大大提高了静态图像的目标的检测的速度和精度。此类方法一般先选出可能是目标的区域，然后依次对其分类。

但是，基于上述已有的目标检测方法存在的缺点主要体现在：

(1)对训练数据集的依赖性很强，由于特征质量及分类器泛化能力的限制，导致模型在实际场景中泛化能力较弱，并且在复杂环境(包括目标模糊、目标重叠、目标遮挡)下，针对多尺度小目标可能无法检出，漏检率以及误检率均较高。

(2)常见的静态目标检测网络，其在拥有较高的检出率同时，由于其复杂的网络设计导致检测速度较慢，时间消耗较大，无法在实际工程中进行部署。

专利《一种基于深度学习的运动目标检测方法》(公开号：CN107123131)也提出了一种基于深度学习的方法。然而该方法中，需要实现存储应用场景的背景图片，这就限制了其应用场景。并且其运动区域提取部分仍应用直方图等低级特征，如果运动区域提取的并不可靠，则会直接限制了算法的表现性能。最终的判断是否为目标的部分应用了深度学习的方法，而此时的目标检测已经完全忽略了目标与背景的运动信息，同样也无法保持目标运动的一致性。

发明内容

本发明解决的技术问题是：克服现有技术的不足，针对复杂场景中图像目标的检测，提供一种基于多级特征自适应融合的变尺度目标检测的方法，提升了小目标在复杂场景多种变尺度情况下的目标检测精度，易于在硬件平台上实现。

本发明的技术解决方案为：基于多级特征自适应融合的变尺度目标检测的方法，步骤如下：

(1)确定训练所需的数据集，将标注信息转化为网络模型可直接读取的格式。

(2)构建多级特征自适应融合的变尺度目标检测网络，设置算法的预训练模型，最大迭代次数、学习率、测试频率、反向传播方法、训练批次尺寸batch_size、每一次迭代批尺寸的个数inter_size、动量参数、分类IOU阈值等参数，设置模型初始迭代次数为0。

(3)从训练集中按批量抽取batch_size张图片输入训练网络，由图像输入预处理部分将输入的图片尺度统一转化为300×300像素，并采用缩放、翻转、随机裁剪、色彩变换、随机加入高斯噪声和椒盐噪声等操作对输入的训练样本集进行数据扩充。

(4)由基础网络模块对经过步骤(1)和步骤(3)预处理后的训练图片进行初步特征提取，并由附加特征提取模块来提取行人的深层特征，选取Stage3_unit4、Stage4_unit6、Conv6_2、Conv7_2、Conv8_2、Conv9_2作为特征提取层，形成变尺度检测框架，用以检测不同尺度的目标。

(5)进行第一阶段特征融合，将Stage3_unit4、Stage4_unit6、Conv6_2、Conv7_2特征层以concatenation的方式融合形成新的特征层FM1_1，将Stage4_unit6、Conv6_2、Conv7_2特征层以concatenation的方式融合形成新的特征层FM1_2，将Conv6_2、Conv7_2特征层以concatenation的方式融合形成新的特征层FM1_3。其中FM1_2,FM1_3融合策略与FM1_1融合策略相同。

(6)进行第二阶段特征融合，将FM1_1、FM1_2、FM1_3，以及FM1_2、FM1_3以concatenation的方式融合形成新的特征层FM2_1以及FM2_2。其中FM2_1、FM2_2与FM1_1融合策略相同。

(7)根据上述设置和选择开始训练，由分类和回归模块对最终经过多级融合的多尺度特征提取层FM2_1、FM2_2、FM1_3、Conv7_2、Conv8_2以及Conv9_2进行分类和目标框的回归，通过分类IOU阈值来判定检测的正误，使用Softmax函数计算分类的损失，使用SmoothL1函数计算回归的损失，总的损失为分类损失和回归损失的加权求和。

(8)判断是否完成步骤(2)中所设置的inter_size次batch_size张图片的迭代，如果是则转到步骤(9)；否则返回步骤(7)继续训练网络模型。

(9)利用(8)获得的卷积神经网络模型，对测试集进行测试，得到识别准确率，对识别准确率进行判断，如果识别准确率能够满足实际工程需要，则所述的卷积神经网络模型能够应用到实际的目标检测的任务，执行步骤(10)，若不满足，则重新开始步骤(1)、(2)、(3)，直至满足实际工程为止。

(10)将实际满足工程需求的卷积神经网络模型的参数应用到目标检测的实际场景中去，对采集到的目标检测图片进行识别。

所述步骤(7)中，得到参数最优解的卷积神经网络模型的方法为：当训练集的损失函数Loss下降幅度不超过0.001时，而验证集的损失函数Loss趋于上升的临界点时，即获得参数最优解的卷积神经网络模型。

所述步骤(2)中，设置最大迭代次数、学习率、测试频率，选择反向传播方法具体如下：

实验环境配置：Ubuntu18.04，GPU型号为GTX2080Ti，cuDNN版本为8.0.5，CPU型号为Intel(R)Core(TM)i7-10850K@3.60GHz。

最大迭代次数：120,000次；

训练批次尺寸batch_size：16；

学习率：初始学习率为0.001，在迭代至80,000次、100,000次的时候学习率衰减10倍；

测试频率：1000次迭代/1次；

反向传播方法：SGD随机梯度下降算法；

动量参数：0.9；

分类IOU阈值参数：0.5；

所述步骤(7)中采用的损失函数针对位置误差与置信度误差这两类进行计算回归，loss函数为这两类误差的加权和：

其中N是训练集中先验框正样本数量。c为类别置信度预测值。l为先验框对应的边界框的位置预测值，g是ground truth的位置参数。

其中，位置回归函数定义为：

其中，

是一个指示参数。当

时，表示对应的第i个先验框与第j个ground truth匹配，并且k表示ground truth类别。

是数据集中经过处理的真实框的位置参数，

表示先验框的预测值。

其中，Smooth L1 loss表示为：

对于置信度误差，采用Softmax Loss进行计算：

其中权重系数α通过交叉验证设置为1。

本发明与现有技术相比的优点在于：

(1)本发明采用卷积神经网络对目标进行检测，相对于传统的基于人工特征的目标检测技术，人工设计的特征很难完全表达出目标信息，而利用卷积神经网络进行反馈学习，能够学习到更加具有鲁棒性的特征表达，从而保证识别准确率要求。

(2)本发明对经过骨干特征提取网络后的特征图进行了多次下采样，保证了模型对多尺度目标识别精度，并且对得到的多尺度特征图进行了简单有效的多级策略融合，通过引入两级特征融合策略，利用特征层之间的上下文信息，将深层网络信息有效地融合到浅层网络中，保证了算法对小目标检测的精度。

(3)本发明提出的多级特征自适应融合的变尺度目标检测方法，针对不同的数据集，可以通过改变骨干特征提取网络以及网络模型的深度进行训练测试，本法提出的融合方法可以适应不同的数据集，适应于多种变尺度目标检测。

附图说明

图1为本发明一种基于多级特征自适应融合的变尺度目标检测方法的卷积神经网络结构框图；

图2为本发明特征层Stage3_unit4与Conv7_2融合方法网络结构示例图；

图3为本发明预测模块网络结构图；

图4为本发明实施例基于多级特征自适应融合的变尺度目标检测方法的模型训练和测试流程框图。

图5为本发明实施例检测方法与原始SSD方法在VOC测试数据集上，当分类IOU阈值设为0.5时的测试结果对比。

具体实施方式

为了更好的理解本发明的技术方案，下面结合附图详细描述本发明提供的实施例，但本发明的实施方式不限于此。

一种基于多级特自适应融合的变尺度目标检测方法，其网络结构包括图像预处理部分、基础网络模块、附加特征提取模块、一级特征融合模块、两级特征融合模块、预测模块、以及分类和回归模块；其检测方法基于网络结构，图1所示为算法的网络结构总框图。

下面以在VOC通用目标检测数据集上作为实施例来详细介绍本发明的实施过程。其中，实验环境配置系统为Ubuntu18.04，cuDNN版本为8.0.5，CPU型号为Intel(R)Core(TM)i7-10850K@3.60GHz，实施例主要基于深度学习框架Pytorch来实现，实验所用显卡型号为GTX2080Ti。

本发明的模型流程框图如图4所示，具体步骤如下：

(1)第一步，将VOC2007和VOC2012的train+val数据集作为训练数据集，最终所得训练图片共16551张，使用VOC2007的test作为测试数据集，最终所得测试图片4952张。

(2)第二步，将SSD算法在ImageNet数据集上训练好的模型作为预训练模型，设置迭代此次数为120,000次，其中初始学习率为0.001，在迭代至80,000次、100,000次的时候学习率衰减10倍，衰减为0.0001,0.00001，优化方法为SGD(随机梯度下降法)，算法训练的批尺寸batch_size为16，每一次迭代批尺寸的个数iter_size为2，分类IOU阈值为0.5。设置模型初始迭代次数为0。

(3)第三步，模型训练迭代次数加1，继续模型训练。

(4)第四步，从训练集中输入16张训练图片，由预处理模块将输入的图片尺度统一转化为300×300像素，并采用缩放、翻转、随机裁剪、色彩变换、随机加入高斯噪声和椒盐噪声等操作对输入的训练样本集进行数据扩充。

(5)第五步，由基础网络模块ResNeXt50对预处理后的模块进行浅层特征提取，并由附加特征提取模块来提取检测目标的深层特征，选取Stage3_unit4、Stage4_unit6、Conv6_2、Conv7_2、Conv8_2、Conv9_2作为特征提取层，形成多种变尺度检测框架，用以检测不同尺度的目标。

(6)第六步，进行第一阶段特征融合，将Stage3_unit4、Stage4_unit6、Conv6_2、Conv7_2特征层以concatenation的方式融合形成新的特征层FM1_1，如图2所示为Stage3_unit4与Conv7_2的具体融合方法结构图，其中，先将Stage3_unit4经过3×3卷积并经过Batch Norm处理，将Conv7_2首先经过两次重复的2×2反卷积、3×3卷积、ReLu激活操作，接着经过3×3反卷积、3×3卷积、Batch Norm处理使其与Stage3_unit4，然后将处理后的Stage3_unit4与Conv7_2以concatenation方式融合在一起；然后，利用1×1卷积核降低通道数。其中图2所示，最终concat操作的上下虚线分别来自于Stage3_unit4与Con6_2，Stage3_unit4与Stage4_unit6的融合处理，最终，将三部分融合结果继续以concatenation方式融合，并利用1×1卷积核降低通道数，形成经过一级阶段融合后的特征FM1_1。FM1_2以及FM1_3融合方式与FM1_1一致。

(7)第七步，进行第二阶段特征融合，将FM1_1、FM1_2、FM1_3，以及FM1_2、FM1_3以concatenation的方式融合形成新的特征层FM2_1以及FM2_2。其中FM2_1、FM2_2融合方式与FM1_1一致。

(8)第八步，将融合形成的六个多尺度特征层进行预测模块处理，如图3所示为本法预测模块网络结构图，其中，每一个特征层都经历了1×1×256，1×1×512，1×1×512，1×1×1024卷积核进行了通道数的调整，并与添加的一个1×1×1024的残差边进行了Eltw-sum进行了融合。

(9)第九步，据上述设置和选择开始训练，由分类和回归模块对最终经过经过预测模块处理后的多级融合的多尺度特征提取层FM2_1、FM2_2、FM1_3、Conv7_2、Conv8_2以及Con9_2进行分类和目标框的回归，通过分类IOU阈值来判定检测的正误，使用Softmax函数计算分类的损失，使用Smooth L1函数计算回归的损失，总的损失为分类损失和回归损失的加权求和。

(10)第十步，判断是否完成2次16张的迭代，如果是则转到第十一步，如果不是，则返回第二步。

(11)第十一步，将2次16张训练所得损失的平均值作为每一次总迭代的损失，利用随机梯度下降法进行反向传播，更新基础网络模块、附加特征提取模块和两级特征融合模块中的网络系数。

(12)第十二步，判定总迭代次数是否达到120,000次，如果是则保存最终训练好的权重系数，结束模型的训练，否则返回第三步继续训练。

(13)第十三步，将得到的网络模型参数导入到网格模型中进行测试，如图5所示，为原始算法SSD算法与改进后的本方法进行的测试对比结果。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于多级特征自适应融合的变尺度目标检测方法，其特征在于，包括以下步骤：

预处理部分，用于输入图像数据的尺寸统一以及样本扩增；

基础网络模块，用于提取样本的初步浅层特征；

附加特征提取模块，用于提取样本的深层语义特征；

两级特征融合模块，用于将深层特征与浅层特征融合；

预测模块，用于将融合后的特征进一步处理；

分类和回归模块，用于计算分类损失和回归损失，实现模型参数优化。

2.根据权利要求1所述的目标检测网络结构，其特征在于，所述基础网络模块为ResNeXt50内置网络，其Stage3_unit4为浅层特征提取层；

所述附加特征提取模块，其中Stage4_unit6、Conv6_2、Conv7_2、Conv8_2、Conv9_2作为深层特征提取层；

所述两级特征融合模块，用于将Stage3_unit4、Stage4_unit6、Conv6_2、Conv7_2、Conv8_2、Conv9_2的特征进行融合，形成多级特征自适应融合；

第一阶段特征融合，将Stage3_unit4、Stage4_unit6、Conv6_2、Conv7_2特征层以concatenation的方式融合形成新的特征层FM1_1，将Stage4_unit6、Conv6_2、Conv7_2特征层以concatenation的方式融合形成新的特征层FM1_2，将Conv6_2、Conv7_2特征层以concatenation的方式融合形成新的特征层FM1_3。其中FM1_2,FM1_3融合策略与FM1_1融合策略相同。

第二阶段特征融合，将FM1_1、FM1_2、FM1_3，以及FM1_2、FM1_3以concatenation的方式融合形成新的特征层FM2_1以及FM2_2。其中FM2_1、FM2_2与FM1_1融合策略相同。

所述预测模块，用于将融合后的特征进一步加强处理。

3.一种基于多级特征自适应融合的变尺度目标检测方法，其特征在于，包括以下训练和测试步骤：

获取用于变尺度目标检测的训练和测试数据集，将标注信息转化为网络模型可直接读取的格式；

初始化网络训练模型，对训练样本进行预处理，将所述原始图像变倍到设定尺寸，并进行浮点转换，得到浮点图像；

利用基础网络模块和附加特征提取模块，提取输入数据的浅层特征和深层特征，形成多级特征变尺度目标检测框架；

利用预测模块对多级特征变尺度特征层进行进一步特征加强；

计算分类与回归损失并反向传播，进行网络参数的迭代更新；

完成网络训练；

将保存的网络模型应用到实际测试数据，完成测试。

4.根据权利要求3所述的目标检测方法，其特征在于，所述初始化训练模型过程中设置算法的预训练模型参数，最大迭代次数、学习率、测试频率、反向传播方法、训练批次尺寸batch_size、每一次迭代批尺寸的个数inter_size、动量参数、分类IOU阈值等参数；对训练样本进行预处理包括将样本统一尺寸，并采用缩放、翻转、随机裁剪、色彩变换、随机加入高斯噪声和椒盐噪声等操作对输入的训练样本集进行数据扩充。

5.根据权利要求3所述的目标检测方法，其特征在于，将经过预处理后的样本经过基础网络模块和附加特征提取模块提取输入数据的浅层特征和深层特征，通过两级融合策略将浅层特征与深层语义信息融合，并将融合后形成的多尺度目标检测特征层通过预测模块进一步加强融合特征处理。

选取选取Stage3_unit4、Stage4_unit6、Conv6_2、Conv7_2、Conv8_2、Conv9_2作为特征提取层，形成变尺度检测框架，将深层特征与浅层特征融合的具体步骤为：

6.根据权利要求5所述的检测方法，其特征在于，两级特征融合的第一阶段特征融合方法具体如下：

将Stage3_unit4、Stage4_unit6、Conv6_2、Conv7_2特征层以concatenation的方式融合形成新的特征层FM1_1，如图2所示为Stage3_unit4与Conv7_2的具体融合方法结构图，其中，先将Stage3_unit4经过3×3卷积并经过Batch Norm处理，将Conv7_2首先经过两次重复的2×2反卷积、3×3卷积、ReLu激活操作，接着经过3×3反卷积、3×3卷积、Batch Norm处理使其与Stage3_unit4，然后将处理后的Stage3_unit4与Conv7_2以concatenation方式融合在一起；然后，利用1×1卷积核降低通道数。其中图2所示，最终concat操作的上下虚线分别来自于Stage3_unit4与Con6_2，Stage3_unit4与Stage4_unit6的融合处理，最终，将三部分融合结果继续以concatenation方式融合，并利用1×1卷积核降低通道数，形成经过一级阶段融合后的特征FM1_1。FM1_2以及FM1_3融合方式与FM1_1一致。

7.根据权利要求5所述的检测方法，其特征在于，两级特征融合的第二阶段特征融合方法具体如下：

进行第二阶段特征融合，将FM1_1、FM1_2、FM1_3，以及FM1_2、FM1_3以concatenation的方式融合形成新的特征层FM2_1以及FM2_2。其中FM2_1、FM2_2融合方式与FM1_1一致。

8.根据权利要求5所述的检测方法，其特征在于，预测模块方法具体如下：

每一个多尺度特征层都经历了1×1×256，1×1×512，1×1×512，1×1×1024卷积核进行了通道数的调整，并与添加的一个1×1×1024的残差边进行了Eltw-sum进行了融合。

9.根据权利要求3所述的检测方法，其特征在于，由分类和回归模块对最终经过经过预测模块处理后的多级融合的多尺度特征提取层FM2_1、FM2_2、FM1_3、Conv7_2、Conv8_2以及Con9_2进行分类和目标框的回归，通过分类IOU阈值来判定检测的正误，使用Softmax函数计算分类的损失，使用Smooth L1函数计算回归的损失，总的损失为分类损失和回归损失的加权求和。

10.根据权利要求3所述的检测方法，其特征在于，当训练集的损失函数Loss下降幅度不超过0.001时，而验证集的损失函数Loss趋于上升的临界点时，即获得参数最优解的卷积神经网络模型。

11.根据权利要求3所述的检测方法，其特征在于，将训练获得网络模型参数直接输入到网络模型中，得到测试图片中目标的种类置信度与位置，完成测试。