CN113887649B

CN113887649B - 一种基于深层特征和浅层特征融合的目标检测方法

Info

Publication number: CN113887649B
Application number: CN202111214721.9A
Authority: CN
Inventors: 单东日; 许亚鲁; 王晓芳; 张鹏; 贺冬梅
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-05-27
Anticipated expiration: 2041-10-19
Also published as: CN113887649A

Abstract

本发明提供了一种基于深层特征和浅层特征融合的目标检测方法。步骤如下：构建目标检测网络模型，获取数字图像，分为训练集和测试集；将图像增强过后的图片x首先输入到分类网络进行特征提取，然后再将特征提取的结果输入到特征融合网络进行特征融合，最后利用融合后的特征图对模型进行分类和回归得到预测值，使用预测值、标签y、预选框匹配结果和Loss函数计算得到误差进行反向传播，得到了保存模型参数的文件；对模型进行测试，首先计算冗余的预测值，最后通过NMS算法去除冗余的预测值，得到最终结果。经验证我们的方法在PascalVOC数据集上的20类的平均监测准确率达到了70%，在行人检测、人脸检测、文本检测、交通信号和遥感目标检测拥有良好的应用前景。

Description

一种基于深层特征和浅层特征融合的目标检测方法

技术领域

本发明涉及一种基于深层特征和浅层特征融合的目标检测方法，属于视觉特征融合技术领域。

背景技术

目标检测作为计算机视觉中的基础任务，在自动驾驶、视频监控、人脸识别、文本检测和行人检测等领域有着广泛的应用前景，方法总的目标是要识别数字图片或者视频数据当中人们感兴趣的物体的类别和位置坐标，整个检测过程不仅要解决分类问题，还要解决定位的问题，这就需要我们对学习到的特征进行融合，以达到更好的检测效果。人在识别一个物体的过程是十分复杂的，单纯通过眼睛的视觉，人们可以预测出场景当中目标的大小和类别，这给了我们提出的方法实际经验的支持。

目标检测算法的发展历程主要分为基于传统手工设计特征和CNN特征两个发展阶段，在传统手工设计特征阶段，需要人为设计卷积核得到能够在场景中检测目标物体的特征，例如Haar(哈尔)特征、LBF(local binarypattern)特征、HOG(histogram oforientation gradient)特征，这种方法的缺点是当需要识别不同的物体时，它们对于特征的敏感度并不一样，需要人工进行大量的试验进行挑选，人力成本高。基于CNN特征的方法有效的避免了这种缺点，因为CNN特征会根据损失函数，也就是检测任务的总目标，自动调整各层卷积核的权重，进而自动学习得到适合检测任务的特征，其中各层的特征之间的融合方式对于检测的结果影响很大，因为我们在识别一个物体时，不只是单纯由于它的某种颜色特征和纹理特征，而是综合考虑的结果，而探索这种融合方式是一项具有挑战性的工作，本文通过大量试验论证，提出了一种多层特征融合的模块，可以有效的对CNN特征进行融合，并在此基础上提出了一种多尺度目标检测算法。

由于目标检测问题是一个多任务的拟合问题，既要识别物体的类别，又要定位物体在图片中的坐标，既需要局部的微观特征，又需要宏观的整体特征把控，所以将深层的CNN特征和浅层的CNN特征进行融合可以有效的将分类任务中的模型迁移到目标检测任务当中来。而对于目标的多尺度问题，我们使用逆卷积和池化操作分离出6个不同尺度的特征图，它们各自负责检测不同尺度大小的目标，最后将检测结果通过非最大值抑制(NMS)的方法去除，避免单个物体产生多个候选框的情况出现。现有的目标检测算法存在以下不足：

1、由于现有的算法忽略了特征之间的相关性，导致特征的学习和误差的反向传播的拓扑结构过于简单，模型的泛化性不强，容易产生过拟合现象。

2、有一些算法对于小目标物体的定位效果不好，可能是因为深层的卷积特征忽略掉了一些浅层特征才具有的空间位置信息，导致对于小目标物体定位不够精确。

发明内容

本发明目的是提供了一种基于深层特征和浅层特征融合的目标检测方法，提高了目标检测的准确率和检测速度。

本发明为实现上述目的，通过以下技术方案实现：

一种基于深层特征和浅层特征融合的目标检测方法，其特征在于，包括以下步骤：

1)构建目标检测网络模型，包含分类网络+特征融合网络+预测网络；

2)获取数字图像，分为训练集和测试集；

3)将图像增强过后的图片x首先输入到分类网络进行特征提取，然后再将特征提取的结果输入到特征融合网络进行特征融合，最后利用融合后的特征图对模型进行分类和回归得到预测值，使用预测值、标签y、预选框匹配结果和Loss函数计算得到误差进行反向传播，更新网络模型中参数，通过多次迭代训练得到了保存模型参数的文件；

4)对模型进行测试，首先将训练保存的参数文件导入预测网络模型，然后把测试集中的图片x输入到预测网络模型中，得到冗余的预测值，最后通过NMS算法去除冗余的预测值，得到最终结果。

优选的，所述Loss函数设计过程如下：使用softmaxloss来进行分类，使用了smoothl1进行位置拟合；

首先要进行预选框的匹配，计算预选框坐标a和定位标签g的IOU值，此处预选框的生成机制和匹配策略采用SSD算法当中的方法，将IOU大于0.5的预选框索引设为1，然后将标签分类标签c和定位标签g赋值给标记为1的预选框，通过L_conf和L_loc计算分类损失和定位损失，最后将误差反向传播，更新网络参数；

具体公式如下：

其中x为分类预测向量，c为分类标签，l为定位预测向量，a为预选框坐标，g为定位标签；L_conf是分类损失，L_loc是定位损失；其中i为预选框的索引，j为图像中对象的索引，p为分类向量中每个元素的索引，cx,cy是预测框与真实框的中心偏移量，w为宽度偏移量，h为高度偏移量。

优选的，所述图像增强具体过程如下：所述图像增强包括随机剪裁，随机亮度，随机扩展，随机镜像，将四种处理方式随机组合处理图像；将得到的处理后图像进行重采样处理，并且进行零均值化处理。

优选的，所述特征融合的具体步骤如下：

1)将处理后的图像输入到DenseNet169网络中进行CNN特征的提取；

2)将提取到的特征进行融合，具体分为6个不同尺度的分支，分别为scale_1、scale_2、scale_3、scale_4、scale_5、scale_6；其中scale_1、scale_2和scale_3三个分支首先对提取的特征进行平均均值化和最大值池化，然后对结果进行相加，如公式(1)所示；

X为Densenet169提取的CNN的特征，k为池化核大小，i，j指代池化核的宽度和高度坐标，m，n为输出特征值的坐标，Max操作是指从X的左上角为起始点划定k×k的区域，选取区域内的最大值x_i,j，并和区域内的均值进行相加进行融合得到y_m,n，让操作区域在宽度和高度两个维度以步长为1进行遍历，得到融合后的特征图Y；

scale_4不做任何处理，直接输入到最后的预测模块；

scale_5、scale_6两个分支对特征进行像素重组和逆卷积，如公式(2)所示；

Y＝PixelShuffle(X,ratio)+deconvolution(X,stride,padding,output_padding) (2)

Y为整个特征图的输出响应，其中PixelShuffle操作是将输入的特征图X的通道数c这一维度进行缩减，增加宽度w和高度h的数量，整体特征总数保持不变；deconvolution是指逆卷积操作，将特征图X逆卷积成和PixcelShuffle操作输出一样的维度，其中stride是卷积的步长，padding是特征图填充像素数量，output_padding是输出特征图的像素填充数量，最后将两种操作的输出相加得到最后的融合特征图Y。

优选的，所述预测值计算具体步骤如下：

将得到的六个特征图进行BatchNorm(BN),Relu，然后分别输入到六个预测网络，预测网络有两个分支处理Y，第一个分支将Y进行连续的3个1×1卷积操作，分别为1×1conv(Y_c,512),1×1conv(512,512),1×1conv(512,1024),Y_c是指输入的特征图Y的通道数，第二个分支将Y进行1×1conv(Y_c,1024),最后将两个分支的结果相加，最后进行分类预测1×1conv(1024,num_class*num_prior)和位置预测1×1conv(1024,4*num_prior)，其中num_class是指要识别物体类别的数量，num_prior是指每个位置预选框的数量，4是指位置坐标的数量。

优选的，所述NMS算法去除冗余预测值的具体步骤如下：先将每一类的置信度最高并且超过0.5的框选定作为初始框的某一个框，让剩余的这类的预测框分别计算和这个初始框的IOU，将IOU超过0.1的预测框移除。

本发明的优点在于：本发明可以嵌入到任何一个分类任务的模型中，实现深层特征和浅层特征的融合。让模型适应目标检测任务的需求，取得了不错的检测效果。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本实现过程结构示意图。

图2为本发明目标检测网络模型整体框架示意图。

图3为本发明特征融合模块具体层级结构示意图。

图4为本发明网络结构示意图。

图5为未使用特征融合模块的loss示意图。

图6为使用特征融合模块的loss示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所提出的目标检测方法是一种基于深层特征和浅层特征融合的目标检测方法，为了验证其中的特征融合模块和整体算法的有效性，我们在PascalVOC数据集上对我们的算法进行了验证，整个实验部分分为训练过程和推断过程，训练过程包含图像增强，多任务Loss设计，减少重复预测框，预选框的尺度设计等关键技术。

1.构建目标检测网络模型，包含分类网络+特征融合网络+预测网络。

2.将PascalVOC2007、Pascal2012数据集和对应的标签下载下来，分为训练集和测试集。

3.对模型进行训练。在训练时我们对样本进行了图像增强，包括随机剪裁、翻转和随机调整对比度、色相、亮度调整，来提升模型的泛化能力。这四种独立的过程可以随机进行组合，一共有16种组合方式，这样不仅可以增加原始数据的数量，还可以增强学习的CNN特征的可识别性。在对图像进行完上述过程后得到的图像的大小不能统一，所以还需要对它们进行重采样处理，并且进行零均值化处理，可以加快神经网络的收敛速度。

将图像增强过后的图片x首先输入到分类网络进行特征提取，然后再将特征提取的结果输入到特征融合网络进行特征融合，最后利用融合后的特征图对模型进行分类和回归得到预测值，使用预测值、标签y、预选框匹配结果和Loss函数计算得到误差进行反向传播，更新网络模型中参数，通过多次迭代训练得到了保存模型参数的文件；

Loss设计过程如下：

使用softmaxloss来进行分类，使用了smoothl1进行位置拟合；首先要进行预选框的匹配，计算预选框坐标a和定位标签g的IOU值，此处预选框的生成机制和匹配策略采用SSD算法当中的方法，将IOU大于0.5的预选框索引设为1，然后将标签分类标签c和定位标签g赋值给标记为1的预选框，通过L_conf和L_loc计算分类损失和定位损失，最后将误差反向传播，更新网络参数；

具体公式如下：

特征融合具体步骤如下：

1)将处理后的图像输入到DenseNet169网络中进行CNN特征的提取；

2)将提取到的特征进行融合，具体分为6个不同尺度的分支，分别为scale_1、scale_2、scale_3、scale_4、scale_5、scale_6；其中scale_1、scale_2和scale_3三个分支首先对提取的特征进行平均均值化和最大值池化，然后对于结果进行相加，如公式(1)所示，

X为Densenet169提取的CNN的特征{32,1664,10,10}，32是指batchsize大小，{1664,10,10}为单张图片提取出的特征，1664是通道数c，两个10分别代表宽度w和高度h两个维度，k为池化核大小，i，j指代池化核的宽度和高度坐标，m，n为输出特征值的坐标，Max操作是指从X的左上角为起始点划定k×k的区域，选取区域内的最大值x_i,j，并和区域内的均值进行相加进行融合得到y_m,n，让操作区域在宽度和高度两个维度以步长为1进行遍历，得到融合后的特征图Y；scale_4不做任何处理，直接输入到最后的预测模块；而scale_5、scale_6两个分支则对特征进行了像素重组和逆卷积，如公式(2)所示，

Y＝PixelShuffle(X,ratio)+deconvolution(X,stride,padding,output_padding) (2)

Y为整个特征图的输出响应，其中PixelShuffle操作是将输入的特征图X的通道数c这一维度进行缩减，增加宽度w和高度h的数量，整体特征总数保持不变，ratio是重组倍率，例如输入特征图维度为(c*r²,w,h),则得到输出特征图的维度是(c,w*r,h*r),重组的原则为以r²个通道数为周期，在每个周期中以第一个通道的特征作为左上角基准，将剩余通道中的对应特征依次填充到基准的周围；deconvolution是指逆卷积操作，将特征图X逆卷积成和PixcelShuffle操作输出一样的维度，其中stride是卷积的步长，padding是特征图填充像素数量，output_padding是输出特征图的像素填充数量，最后将两种操作的输出相加得到最后的融合特征图Y。scale_1采用的是10×10average pool和10×10maxpool相加得到Y1(1664,1,1)，scale_2采用的是8×8average pool和8×8maxpool相加得到Y2(1664,3,3)，scale_3采用的是6×6average pool和6×6maxpool相加得到Y3(1664,5,5)，scale_4不做处理直接将X作为Y4(1664,10,10)，scale_5采用pixelshuffle(ratio＝2)和3×3deconv,stride＝2,padding＝1,output_padding＝1相加得到Y5(416,20,20)，scale_6采用pixelshuffle(ratio＝4)3×3deconv,stride＝4,padding＝0,output_padding＝1相加得到Y6(104,40,40)。

3)将得到的六个特征图Y1，Y2，Y3，Y4，Y5，Y6进行BatchNorm(BN),Relu，然后分别输入到六个预测网络，预测网络有两个分支处理Y，第一个分支将Y进行连续的3个1×1卷积操作，分别为1×1conv(Y_c,512),1×1conv(512,512),1×1conv(512,1024),Y_c是指输入的特征图Y的通道数，第二个分支将Y进行1×1conv(Y_c,1024),最后将两个分支的结果相加，最后进行分类预测1×1conv(1024,168)和位置预测1×1conv(1024,32)，168是num_class*num_prior计算得来的，num_class是指要识别物体类别的数量，num_prior是指每个位置预选框的数量；32是4*num_prior计算得到，4是指位置坐标的数量。

4.对模型进行测试，首先将训练保存的参数文件导入预测网络模型，然后把测试集中的图片x输入到预测网络模型中，得到冗余的预测值，最后通过NMS算法去除冗余的预测值，得到最终结果。在测试阶段，对于一张图片，我们会生成17080个预测值，我门采用了目标检测领域通用的NMS算法原则，先将每一类的置信度(即预测为某一类的概率)最高并且超过0.5的框选定作为初始框的某一个框，让剩余的这类的预测框分别计算和这个初始框的IOU，将IOU超过0.1的预测框移除。

预选框的生成与匹配：

我们提出的方法是基于预选框匹配的，预选框的匹配是在训练过程中的一个阶段，通过计算真实标定框和预选框的IOU值，来确定负责预测该目标物体的分类器，并将真实标签赋予给它进行训练，为了提升正样本对于模型反向传播梯度的影响，我们设定一个阈值0.5，IOU超过这个阈值的分类器我们都设定为正样本标签，然后未被匹配到的分类器我们就随机抽取正样本3倍数量的分类器赋予负样本标签，这样的做法可以大大减轻正负样本的不均衡带来的负面影响，正负样本数比例为3:1，即将相当于输入的图像切分成无数个小的区域，真实物体的位置覆盖的这些区域的检测器负责检测。

IoU的全称为交并比(Intersection over Union)，通过这个名称我们大概可以猜到IoU的计算方法。IoU计算的是“预测的边框”和“真实的边框”的交集和并集的比值。

我们的方法的核心创造性是提出了一种基于深度CNN特征和浅层CNN特征融合模块的目标检测算法，这种算法可以结合具体的应用场景进行本地化训练，用来解决具体的实际问题。

在直接使用CNN特征来进行目标检测和使用特征融合后的CNN特征进行目标检测，结果证明我们的特征融合模块提升了10％的准确度。图5为使用DenseNet169提取的CNN特征进行训练的loss下降图，图6为使用融合后的CNN特征进行训练的loss下降图，下表为在PascalVOC数据集上的检测结果。如图5、图6所示，展示了训练过程中平均准确率的变化过程，我们设置每一次迭代输入8个图像，可以看出随着训练次数的增加，测试准确率越来越高，说明我们的特征融合模块对于检测的准确度有一定的提升，并且收敛速度也会提高。

经验证我们所提出的方法在我们收集的数据集上平均准确率在70.1％，相较于未使用特征融合模块的模型准确度提升了9.9％。可以得出结论，我们提出的特征融合模块在目标检测方面可以有效提高检测的准确率。

Claims

1.一种基于深层特征和浅层特征融合的目标检测方法，其特征在于，包括以下步骤：

2)获取数字图像，分为训练集和测试集；

3)将图像增强过后的图片x首先输入到分类网络进行特征提取，然后再将特征提取的结果输入到特征融合网络进行特征融合，

所述特征融合的具体步骤如下：

3-1)将处理后的图像输入到DenseNet169网络中进行CNN特征的提取；

3-2)将提取到的特征进行融合，具体分为6个不同尺度的分支，分别为scale_1、scale_2、scale_3、scale_4、scale_5、scale_6；其中scale_1、scale_2和scale_3三个分支首先对提取的特征进行平均均值化和最大值池化，然后对结果进行相加，如公式(1)所示；

scale_4不做任何处理，直接输入到最后的预测模块；

Y＝PixelShuffle(X,ratio)+deconvolution(X,stride,padding,output_padding) (2)

Y为整个特征图的输出响应，其中PixelShuffle操作是将输入的特征图X的通道数c这一维度进行缩减，增加宽度w和高度h的数量，整体特征总数保持不变；deconvolution是指逆卷积操作，将特征图X逆卷积成和PixcelShuffle操作输出一样的维度，其中stride是卷积的步长，padding是特征图填充像素数量，output_padding是输出特征图的像素填充数量，最后将两种操作的输出相加得到最后的融合特征图Y；

最后利用融合后的特征图对模型进行分类和回归得到预测值，使用预测值、标签y、预选框匹配结果和Loss函数计算得到误差进行反向传播，更新网络模型中参数，通过多次迭代训练得到了保存模型参数的文件；

2.根据权利要求1所述的基于深层特征和浅层特征融合的目标检测方法，其特征在于，所述Loss函数设计过程如下：使用softmaxloss来进行分类，使用了smoothl1进行位置拟合；

具体公式如下：

3.根据权利要求1所述的基于深层特征和浅层特征融合的目标检测方法，其特征在于，所述图像增强具体过程如下：所述图像增强包括随机剪裁，随机亮度，随机扩展，随机镜像，将四种处理方式随机组合处理图像；将得到的处理后图像进行重采样处理，并且进行零均值化处理。

4.根据权利要求1所述的基于深层特征和浅层特征融合的目标检测方法，其特征在于，所述预测值计算具体步骤如下：

5.根据权利要求1所述的基于深层特征和浅层特征融合的目标检测方法，其特征在于，所述NMS算法去除冗余预测值的具体步骤如下：先将每一类的置信度最高并且超过0.5的框选定作为初始框的某一个框，让剩余的这类的预测框分别计算和这个初始框的IOU，将IOU超过0.1的预测框移除。