CN109886066A

CN109886066A - 基于多尺度和多层特征融合的快速目标检测方法

Info

Publication number: CN109886066A
Application number: CN201811542026.3A
Authority: CN
Inventors: 刘亚洲; 曹森
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2019-06-14
Anticipated expiration: 2038-12-17
Also published as: CN109886066B

Abstract

本发明公开了一种基于多尺度和特征融合的快速目标检测方法。设计卷积神经网络的主要模块Front module和Tinier module，由基础模块构建完整的卷积神经网络结构，将低层次的特征图进行上采样，得到与上一层同样尺度的特征图，将不同层次的特征图进行融合操作，得到新的特征图，预处理训练集，并初始化卷积神经网络训练参数，训练神经网络，即通过不断迭代前向传播过程、反向传播过程优化网络的参数，使用训练好的网络模型对测试图像中的目标进行检测。本发明方法适应性更强，检测效果更好，检测的速度更快，提高了密集目标检测效果和小目标检测效果。

Description

基于多尺度和多层特征融合的快速目标检测方法

技术领域

本发明涉及计算机视觉和道路区域目标检测领域，具体地说，是一种基于多尺度和多层特征融合快速目标检测方法。

背景技术

目标检测作为计算机视觉领域一个重要的研究内容，已经广泛应用于各个真实的生活场景之下，如交通出行、安防监控、健康医疗、国防安全等。目标检测是指根据输入的图像或者视频找出其中感兴趣的物体，正确识别物体类别，并用矩形框标记物体的位置。早期主要通过人力对视频图像内容进行分析和判断，但是枯燥无聊识别工作很容易使工作人疲劳乏味，从而对视频内容错判误判。随之计算机视觉的不断发展，现实中视频图像的数量越来越多，人们希望可以通过计算机智能的对图像中的物体进行分类识别，由此目标检测技术成为一个热门的研究方向。

目标检测方法可以分为传统的目标检测方法和基于深度学习的目标检测方法。传统目标检测算法按照思想的不同，可以划分为目标实例检测和传统目标类别检测。目标实例检测首先需要根据图像稳定的特征点建立模板库，根据模板库和待检测图像之间的对应关系，识别目标实例。传统的目标类别检测则是将HOG/DPM特征、支持向量机、分类器集成算法结合使用，根据选定的特征，使用合适的分类器，检测出目标实例。不管是哪种思想的方法，其中使用的图像特征都是人为手工设计，检测效果很大程度上取决于设计者的先验知识，泛化能力差，而且需要手动调参，难以找到最优解。

基于深度学习的目标测方法也分为两种不同的类型。一是基于候选区域的目标检测方法。这类方法先使用区域生成算法获得若干个可能包含物体的边框。然后将这些候选区域送入卷积神经网络提取特征，在网络最后接分类器和回归器，用于对目标分类和候选框位置的进一步修正。典型的算法有：RCNN,Fast RCNN,Faster RCNN等。另一种是基于回归思想的目标检测方法。这类方法将目标检测问题看成一个回归问题来解决，通过单个神经网络从一个完整的图像中直接预测出边框位置和类别可能性。典型的算法有：YOLO,SSD。目前多数基于深度学习的目标检测方法普遍存在了两个问题：(1)卷积神经网络太深，导致网络的模型的体积很大，计算量大，检测速度缓慢；(2)对于复杂场景，小目标、遮挡目标、密集目标检测效果差，如道路区域。

发明内容

本发明的目的在于提出一种基于多尺度和多层特征融合的快速目标检测方法。

实现本发明目的的技术解决方案为：一种基于多尺度和多层特征融合的快速目标检测方法，包括以下步骤：

1)设计卷积神经网络的主要模块Front module和Tinier module；

2)由基础模块构建完整的卷积神经网络结构；

3)特征图上采样，即将低层次的特征图进行上采样，得到与上一层同样尺度的特征图；

4)特征融合，即将不同层次的特征图进行融合操作，得到新的特征图；

5)预处理训练集，并初始化卷积神经网络训练参数；

6)训练神经网络，即通过不断迭代前向传播过程、反向传播过程优化网络的参数；

7)使用训练好的网络模型对测试图像中的目标进行检测。

与现有技术相比，本发明显著的优点在于：其一，使用深度学习中卷积神经网络提取图像特征，而不是传统的人为定义特征，适应性更强，检测效果更好；其二，设计的模块化的轻量级卷积神经网络，模型体积更小，检测的速度更快。其三，将不同层次的特征图融合，能利用更加丰富的上下文语义信息，提高密集目标检测效果，在不同尺度的特征图上检测，提高小目标检测效果。

附图说明

图1是本发明基于多尺度和多层特种融合的快速目标检测方法整体流程图。

图2是Front module和Tinier module的结构组成。

图3是多尺度和多层特征融合模型的组成。

图4是特征图上采样双线性插值。

图5是图像预处理过程。

图6是本发明的训练过程。

图7是本发明的可视化检测结果图。

具体实施方式

下面结合附图对本发明作进一步说明。

结合图1，本发明基于多尺度和多层特征融合的快速目标检测方法包括以下步骤：

1)卷积神经网络的主要模块Front module和Tinier module的设计；

2)由基础模块构建完整的卷积神经网络结构。

3)特征图上采样，即将低层次的特征图进行上采样，得到与上一层同样尺度的特征图。

4)特征融合，即将不同层次的特征图进行融合操作，得到新的特征图。

5)预处理训练集，并初始化卷积神经网络训练参数。

6)训练神经网络，即通过不断迭代前向传播过程、反向传播过程优化网络的参数。

7)使用训练好的网络模型对测试图像中的目标进行检测。

步骤1)中所述卷积神经网络的主要模块Front module和Tinier module的设计的具体方法为：

首先，设计网络的前置部分，前置部分即卷积神经网络的前面几层，负责提取输入图像的基本特征，将其封装为Front module，如图2(左)所示。Front module 由三层卷积层和一层池化层组成。三层卷积层在前，一层池化层在后。前三层卷积层的卷积核大小都是3×3，卷积核个数分别是64,64,128。池化层大小为2×2。Front module的作用在于减少原始输入图像的信息损失，使得后面的卷积层可以提取出更有用的特征，提高检测的准确率。

设计并使用Tinier module作为神经网络的主体部分,神经网络的主体部分主要提取图像的抽象特征(高层特征)，如图2(右)所示。Tinier module由4层卷积层构成，第一层和第三层使用的卷积核大小为1×1，第二层和第四层使用的卷积核大小为3×3。每个1×1的卷积层使用的卷积核个数是3×3的卷积层的卷积核个数的四分之一。这样设计的作用是减少神经网络的参数，并且减少了3×3的卷积层的计算量，用来提高高目标检测出的速度。

步骤2)中所述由基础模块构建完整的卷积神经网络结构的具体方法为：

如图3所示，完整的卷积神经网络结构主要由1个Front module，5个Tiniermodule和2个Detector layer。在神经网络的开始部分使用一个Front module，紧接着使用四个Tinier module，在前三个Tinier module之后使用池化层。这里说明，DetectorLayer使用的是一个1×1的卷积层，卷积核的个数由具体是数据集类别数决定，即：

N_output＝N_box+(5+N_boxclasses)

其中N_output是最后一层卷积核个数，N_box是特征图中每一个点负责检测物体的个数，默认值为3，N_boxclasses是类别数，即训练集中有多少种需要检测的物体，本发明使用的训练集是KITTI数据集，包含3个物体类别，分别是汽车，行人，自行车，所以N_boxclasses是3。

步骤3)中所述特征图上采样，即将低层次的特征图进行上采样，得到与上一层同样尺度的特征图的具体方法为：

在第四个Tinier module之后，特征图的大小为18×10×1024，如图3所示。其中1024代表维度。将此特征图先使用1×1卷积核进行降维到256，然后使用双线性插值进行上采样，特征图大小最终变成了36×10×256。其中双线性插值算法如图 4所示：

已知Q₁₁，Q₁₂,Q₂₁,Q₂₂点的值，要差值的点为P,求P点的值。用函数f表示各个点的值，即f(Q₁₁),f f(Q₁₂),f(Q₂₁),f(Q₂₂)已知，求f(P)。

首先在x方向上线性插值，得到：

最终求得f(P)的值，实际使用时，f即代表各个点的像素值。

步骤4)中所述特征融合，即将不同层次的特征图进行融合操作，得到新的特征图的具体方法为：

将第三个Tinier module之后的特征图经过1×1的卷积层，特征图大小变为18 ×10×256，然后将其与步骤三得到的18×10×256的特征图融合，所谓特征图的融合，即特征图大小不变，维度叠加，最终得到18×10×512的新的特征图，将此特征图经过第5个Tinier module，得到具有上下文信息的特征图，用于目标检测。特征图的融合操作，可用如下公式描述：

其中，X_i表示第i层的原特征图，T_i表示原特征图融合之前的尺度变换函数，是特征融合函数，是生成特征金字塔函数，表示在提供的特征图中做目标检测。

步骤5)中所述预处理训练集，并初始化卷积神经网络训练参数的具体方法为：

本发明使用的训练集是KITTI数据集，包含近8000张图片，3类物体，原始尺寸约为1225×375。将训练集中的图片重新调整为576×320的大小，如图5所示，并将标签文件转换为(x1,y1,x1,y2,object),其中(x1,y1,x2,y2)为图像中物体的位置信息，是一个矩形框。object表示这个物体的类别。将处理好的训练集作为神经网络的输入。迭代次数iteration＝52000,一次输入的图像数batch＝64,阈值τ ＝0.06，动量因子为0.9，权重衰减为0.0005。

步骤6)中训练神经网络，即通过不断迭代前向传播过程、反向传播过程优化网络的参数的具体方法为：

如图6所示，在步骤5)预处理数据集和初始化网络参数后，先进行前向传播。前向传播即计算输入图像在神经网络每一次的输出。深层神经网络包含一个输入层，多个中间层，一个输出层，每一层可以表示为非线性映射过程。样本x在第m层的输入计算公式如下：

其中，表示网络的m层和m-1层之间的权重矩阵，表示偏移参数，p^(m)表示m层的节点数目，表示非线性激励函数，通常使用tanh、 sigmoid或者ReLU函数。

前向传播结束之后，计算网络的损失函数，将得到的损失函数值和阈值比较，如果损失函数值小于阈值或者此时的迭代次数大于最大迭代次数，则结束训练。否则执行反向传播。反向传播过程通过计算损失函数关于某一节点的偏导数，使用梯度下降算法更新网络的权重参数。网络权重的更新参数如下：

其中m表示层数，i表示神经元在层中的序号，j表示一个神经元输入的序号，α表示学习率。反向传播过程更新网络权重参数结束后，跳转前向传播。

步骤7)中使用训练好的网络模型对测试图像中的目标进行检测的具体方法为：

将待检测的图像重新调整到576×320的大小，根据已经训练好的多尺度和多层特征网络模型和输入图像进行卷积计算，在输入层输出所有检测的结果。将检测结果设定的阈值比较，执行根据阈值筛选检测结果。最后输出检测结果(数值)，根据正确的检测结果值在原始图像上以矩形框的形式标记出物体的位置和类别，并将检测的结果写入txt文件中，以文本的方式保存检测结果信息。

这里需要着重指出，相比于传统的目标检测方法，本发明取得了至少1倍的准确率提升。和目前最较先进的深度网络Resqueeze和Tiny-det，本发明设计多尺度和多层特征融合目标检测方法，获得同等准确度的前提下取得了至少50％的检测速度提升。图7给出了本发明的部分检测结果可视化视图。

Claims

1.一种基于多尺度和特征融合的快速目标检测方法，其特征在于，包括以下步骤：

1)设计卷积神经网络的主要模块Front module和Tinier module；

2)由基础模块构建完整的卷积神经网络结构；

3)将低层次的特征图进行上采样，得到与上一层同样尺度的特征图；

4)将不同层次的特征图进行融合操作，得到新的特征图；

5)预处理训练集，并初始化卷积神经网络训练参数；

7)使用训练好的网络模型对测试图像中的目标进行检测。

2.根据权利要求1所述的方法，其特征在于，所述步骤1)包括以下具体步骤：

11)构建前置模块Front module；

12)构建主体模块Tinier module；

步骤11)包括以下具体步骤：

111)使用3层卷积层和1层最大池化层组成Front module；

112)在每个卷积层之后依次添加权重归一化层和激活函数层；

113)3层卷积层位置在前面，1层最大池化层在最后；

114)初始化卷积层和池化层参数，三层卷积层卷积核大小为3×3，卷积核的个数分别为64，64，128，最大池化层大小为2×2，步长为2；

步骤12)包括以下具体步骤：

121)使用4层卷积层组成Tinier module；

122)将第一层和第三层卷积层的卷积核大小设置为1×1；

123)将第二层和第四层的卷积层的卷积核大小设置为3×3，提取图像中的抽象特征。

3.根据权利要求1所述的方法，其特征在于，所述步骤2)包括以下具体步骤：

21)使用1个Front module，5个Tinier module和2个Detector layer组成完整的卷积神经网络结构；

22)调整每个模块的位置，Front module在最前面，Tinier module在中间，Detectorlayer在最后，前三个Tinier module之后加入最大池化层；

23)设定Detector Layer的主要参数。

4.根据权利要求3所述的方法，其特征在于，所述步骤23)包括以下具体步骤：

231)Detector layer使用1×1的卷积层；

232)根据数据集中目标的类别总数确定1×1的卷积层的卷积核个数，方法如下：

N_output＝N_box+(5+N_boxclasses)

其中N_output是最后一层卷积核个数，N_box是特征图中每一个点负责检测物体的个数，默认值为3，N_boxclasses是类别数；使用KITTI数据集作为训练集，包含3个物体类别，分别是汽车，行人，自行车，N_boxclasses设置为3。

5.根据权利要求1所述的方法，其特征在于，所述步骤3)包括以下具体步骤：

31)在第四个Tinier module之后特征图尺度是18×10×1024，将此特征图先使用1×1卷积核进行降维到256，得到尺度为18×10×256的特征图；

32)将上述步骤31)中得到的特征图，使用双线性插值进行上采样，得到36×10×256的特征图，方法为：

其中Q11，Q12，Q21，Q22为已知像素点值，要插值的点为P，函数f表示各个点的像素值。

6.根据权利要求1所述的方法，其特征在于，所述步骤4)包括以下具体步骤：

41)将第三个Tinier module之后的特征图经过1×1的卷积层，得到尺度大小为18×10×256的特征图；

42)将步骤41)和步骤32)分别得到的特征图进行融合，即特征图大小不变，维度叠加，最终得到18×10×512的新的特征图；特征融合方法为：

43)18×10×512的特征图经过第5个Tinier module，生成具有上下文语义信息的特征图，用于目标检测。

7.根据权利要求1所述的方法，其特征在于，所述步骤5)包括以下具体步骤：

51)选择包含道路场景图像的KITTI数据集作为训练集；

52)将训练集中的图片大小重新调整为576×320；

53)将标签文件转换为(x1，y1，x1，y2，object)格式，其中(x1，y1，x2，y2)为图像中物体的位置信息，是一个矩形框，object表示这个物体的类别；

54)初始化卷积神经网络的训练参数，迭代次数iteration＝52000，一次输入的图像数batch＝64，阈值τ＝0.06，动量因子为0.9，权重衰减为0.0005。

8.根据权利要求1所述的方法，其特征在于，所述步骤6)包括以下具体步骤：

61)卷积神经网络进行前向传播，方法如下：

其中，表示网络的m层和m-1层之间的权重矩阵，表示偏移参数，p^(m)表示m层的节点数目，表示非线性激励函数，通常使用tanh、sigmoid或者ReLU函数；

62)根据每个图片的真实标签信息和前向传播得到到预测信息，计算网络的损失函数；

63)执行反向传播过程，计算损失函数关于某一节点的偏导数，使用梯度下降法更新网络的权重参数；方法如下：

其中m表示层数，i表示神经元在层中的序号，j表示一个神经元输入的序号，α表示学习率；

64)重复步骤61)～步骤63)直至损失函数小于阈值或者达到最大迭代次数；

65)保存训练好的网络模型。

9.根据权利要求1所述的方法，其特征在于，所述步骤7)包括以下具体步骤：

71)将待检测的图像重新调整为576×320的大小；

72)根据训练好的网络模型和输入图像进行卷积计算；

73)将网络的输出结果和设定的阈值对比，将大于阈值的检测结果输出，并在图像中以矩形框的形状标记出物体的位置和类别；

74)将检测结果写入txt文件，和标记过的结果图像一起保存。