CN109389057B

CN109389057B - 一种基于多尺度高级语义融合网络的物体检测方法

Info

Publication number: CN109389057B
Application number: CN201811111228.2A
Authority: CN
Inventors: 庞彦伟; 李亚钊
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-09-22
Filing date: 2018-09-22
Publication date: 2021-08-06
Anticipated expiration: 2038-09-22
Also published as: CN109389057A

Abstract

本发明一种基于多尺度高级语义融合网络的物体检测方法，包含以下步骤：准备训练图像：收集应用场景中的包含各种不同类别物体的图像，并标注感兴趣的物体；设计多尺度高级语义融合的深度卷积神经网络结构；初始化网络中的参数；输入图像数据，通过前向计算预测检测结构，并与标签对应计算损失代价；反向传播计算网络参数的梯度，采用批量随机梯度下降法更新网络参数；迭代的进行，直到损失代价收敛，得到最终的模型；将训练好的最终模型应用于实际应用中，当输入图像时，通过该模型计算得到检测结果。

Description

一种基于多尺度高级语义融合网络的物体检测方法

技术领域

本发明涉及计算机视觉领域中高性能的物体检测方法，特别是涉及采用深度学习方法进行图像物体检测的方法。

背景技术

物体检测技术作为视觉智能中的一种关键技术，在视频监控、辅助驾驶、自动驾驶等任务中有着广泛的应用。在自动驾驶任务中，由于需要精确的对周围的路况进行实时的分析，确保道路场景的行驶安全，因此实时正确的检测出感兴趣的物体，如人、车等物体，对于自动驾驶中的智能决策至关重要。因此，提升物体检测的精度和效率，能够有效保证自动驾驶的安全性，进一步推动自动驾驶的发展。图1展示了物体检测技术在智能驾驶中的一种应用。

随着深度学习的发展，基于卷积神经网络的物体检测方法取得了巨大的成功，也成为当前实现高精度物体检测的主流方法。现有的基于神经网络的物体检测方法可以分为单阶段物体检测方法和双阶段物体检测方法。其中单阶段物体检测方法主要有SSD系列方法[1-3]和YOLO[4]系列方法，双阶段物体检测方法主要包含R-CNN[5-6]系列方法。在物体检测中，应用多尺度特征进行物体检测成为一种提升性能的有效策略。然而，传统的基于多尺度特征的方法中，直接采用浅层的特征(较大特征分辨率)检测小物体，而采用深层的特征(较小特征分辨率)检测大尺度物体。以上多尺度方法并未考虑到浅层特征的语义层级较低的特点，应用语义层级较低的特征进行复杂的检测，造成小尺度物体检测精度不佳的问题。FPN[7]方法中，将深层特征与浅层特征直接简单的融合，由于两种特征的语义信息差别较大，造成融合后的特征不能有效提升对小尺度物体的检测性能。

本专利主要针对目前物体检测精度不佳的问题，设计一种基于多尺度高级语义融合网络的物体检测方法，以有效提升物体检测的精度。具体地，通过保持特征提取过程中特征图的分辨率，使得在较深层次的特征依然具有适当的分辨率的同时具有较深的语义信息。并通过深层特征产生特征金字塔，并进一步融合金字塔各个尺度之间的特征，使得进行多尺度物体检测的每一个尺度的特征都能具有高级语义信息，进而提升各个尺度物体检测的效果。本专利提出的物体检测方法可以应用于上述提到的多种应用场景中实现高精度的物体检测。

参考文献：

[1]Liu W,Anguelov D,Erhan D,et al.SSD:Single Shot MultiBoxDetector.European Conference on Computer Vision.Springer,Cham,2016:21-37.

[2]S.Zhang,L.Wen,X.Bian,Z.Lei,Stan Z.Li.Single-Shot Refinement NeuralNetwork for Object Detection.CORR,abs/1711.06897,2017.

[3]Z.Zhang,S.Qiao,C.Xie,et al.Single-Shot Object Detection withEnriched Semantics.CoRR,abs/1712.00433,2017.

[4]Redmon,J.and Divvala,S.and Girshick,R.and Farhadi,A.You only lookonce:Unified,real-time object detection.Computer Vision and PatternRecognition,2016.

[5]Girshick.R.Fast R-CNN.IEEE International Conference on ComputerVision.IEEE Computer Society,2015:1440-1448.

[6]Cai Z,Fan Q,Feris R S,et al.A Unified Multi-scale DeepConvolutional Neural Network for Fast Object Detection.ECCV 2016.

[7]Lin.T.Y,Dollar.P,Girshick.R,et al.Feature Pyramid Networks forObject Detection.CVPR,2016:936-944.

发明内容

本发明的目的是克服现有的基于深度卷积神经网络的物体检测算法检测精度较低的问题，提出一种基于多尺度高级语义融合的深度卷积神经网络物体检测方法，能够有效的提升物体检测的精度，进一步促进物体检测在众多领域中的应用。技术方案如下：

一种基于多尺度高级语义融合网络的物体检测方法，包含以下步骤：

1)准备训练图像：收集应用场景中的包含各种不同类别物体的图像，并标注感兴趣的物体；

2)设计多尺度高级语义融合的深度卷积神经网络结构：

(1)设计主干网络:主干网络中包含卷积块1-2和膨胀卷积块3-5，其中膨胀卷积块的引入使得深层特征在具有深层语义信息的同时，能够有较高的特征分辨率，进而保持更多的细节信息；

(2)设计多尺度高级语义融合模块:由膨胀卷积块6产生的特征具有深层的语义信息,为实现多尺度的特征融合和多尺度的预测，引入空间金字塔结构，通过上采样和下采样操作产生N个尺度的特征图，实现对不同尺度物体的预测,为进一步融合多尺度特征，将分辨率较高的特征图进行下采样，与分辨率较低的特征图进行融合，通过递进的融合，使得不同尺度的特征具有更强的表达能力，以适应不同尺度检测的需要；采用多尺度高级语义融合模块输出的各尺度特征，实现不同尺度物体的检测；

(3)设计监督网络所用的损失代价函数：L＝L_loc+αL_cls；其中L_loc表示检测的定位损失，常采用的为L1 Smooth损失函数；L_cls为检测的分类损失，常采用的为SoftmaxLoss函数；α为损失权重。

3)初始化网络中的参数。

4)输入图像数据，通过前向计算预测检测结构，并与标签对应计算损失代价。

5)反向传播计算网络参数的梯度，采用批量随机梯度下降法更新网络参数。

6)迭代的进行第4步和第5步，直到损失代价收敛，得到最终的模型。

7)将训练好的最终模型应用于实际应用中，当输入图像时，通过该模型计算得到检测结果。

本发明所述方法，通过在主干网络中引入膨胀卷积，使得深层特征仍然具有较高的分辨率，能够保持更多的细节信息。通过采用深层特征生成特征金字塔，使得金字塔中的每个尺度特征仍然具有较强的深层次语义信息。通过实现多尺度特征的深层次融合，进一步增强特征的表达能力。因此，本发明所述方法能够有效提升物体检测的精度，进一步促进物体检测在实际场景中的应用。

附图说明

图1中描述了物体检测在自动驾驶中的应用。

图2中描述了传统的基于多尺度预测的物体检测方法。

图3描述了本专利提出的多尺度高级语义融合的深度卷积神经网络应用于物体检测的示例。

具体实施方式

下面结合附图对本专利作进一步的描述。

图2描述了传统的基于多尺度预测的物体检测方法。具体地，该类方法将原始图像输入到所设计的卷积神经网络中，采用多个尺度的特征产生对不同尺度物体的预测结果。然而，由于该方法用到了浅层特征和深层特征的直接融合，而浅层特征的语义层级较低，深层特征语义层级较高，由于语义层级的不一致性，限制了网络对较小尺度物体的检测性能。

图3描述了本专利所提出的基于提出的多尺度高级语义融合网络应用于物体检测的示例。具体地，该网络主要包含三个主要部分，主干网络、多尺度高级语义融合模块和检测模块。具体地，本专利所述方法的具体实施方式包含以下几个步骤：

第一步：准备训练数据集。

准备训练网络所需的图像并标注感兴趣物体的位置和类别，得到训练所需数据集。通过随机翻转、随机裁剪、随机噪声等方式增强训练数据，以训练更加鲁棒的模型。

第二步：设计多尺度高级语义融合网络

(4)设计主干网络。以图3为例进行说明。主干网络中应包含卷积块(1-2)和膨胀卷积块(3-5)，其中膨胀卷积块的引入使得深层特征在具有深层语义信息的同时，能够有较高的特征分辨率，进而保持更多的细节信息。设计主干网络包括设计主干网络中的卷积层配置、膨胀卷积层配置、池化层配置、非线性激活层配置等。

(5)设计多尺度高级语义融合模块。由膨胀卷积块6产生的特征具有深层的语义信息。为实现多尺度的特征融合和多尺度的预测，引入空间金字塔结构，通过上采样和下采样操作产生N个尺度的特征图，实现对不同尺度物体的预测。为进一步融合多尺度特征，将分辨率较高的特征图进行下采样，与分辨率较低的特征图进行融合，通过递进的融合，使得不同尺度的特征具有更强的表达能力，以适应不同尺度检测的需要。融合方式如图3所示。设计该模块，包括设计模块中的尺度、融合细节等。

(6)采用多尺度高级语义融合模块输出的各尺度特征，实现不同尺度物体的检测。检测模块设计应包含检测的类别，产生检测结果所需的卷积层等。

(7)设计监督网络所用的损失代价函数：L＝L_loc+αL_cls。其中L_loc表示检测的定位损失，常采用的为L1 Smooth损失函数。L_cls为检测的分类损失，常采用的为SoftmaxLoss函数。α为损失权重，通常由手工设定。

(8)初始化网络中的参数。参数包括卷积层的滤波器参数，归一化层的参数，以及需要手工设定如损失权重、学习率、权重衰减系数等参数。主干网络通常由预训练的权重进行初始化，其他参数则采用Gaussian、Xavier等方法对其进行随机初始化。

第三步：训练本发明的多尺度高级语义融合深度卷积神经网络。

(1)前向计算：(结合图3说明)

a)将训练图像输入网络中，通过主干子网络的各卷积块和膨胀卷积块的计算，得到的特征C₆。

b)将特征C₆经过上采样和下采样得到多种尺度的特征S₁,S₂,...,S_N

c)层次融合相邻尺度的特征S_n,S_n-1得到各个尺度最终用于预测的特征。

d)基于每个尺度融合后的特征，回归对应尺度物体的坐标，并计算对应的分类得分。

e)根据设计的损失函数，计算预测结果与实际标签的损失。

(2)反向传播：

通过反向传播(BP)算法，计算每一层参数的梯度，采用梯度下降法(SGD)更新神经网络中的所有可学习的参数。

(3)迭代训练：

迭代的进行上述的(1)前向传播和(2)反向传播过程，不断的更新参数。直至损失函数收敛

第四步：将训练得到的多尺度高级语义融合网络应用于实际的物体检测中

(1)将训练所得模型嵌入计算设备中

(2)通过图像采集设备获取场景图像

(3)将图像输入模型中，计算得到检测结果

(4)将检测结果显示在图像上，并辅助进行场景智能决策。

Claims

1.一种基于多尺度高级语义融合网络的物体检测方法，包含以下步骤：

2)设计多尺度高级语义融合的深度卷积神经网络结构：

(3)设计监督网络所用的损失代价函数：L＝L_loc+αL_cls；其中L_loc表示检测的定位损失，常采用的为L1 Smooth损失函数；L_cls为检测的分类损失，常采用的为SoftmaxLoss函数；α为损失权重；

3)初始化网络中的参数；

4)输入图像数据，通过前向计算预测检测结构，并与标签对应计算损失代价；

5)反向传播计算网络参数的梯度，采用批量随机梯度下降法更新网络参数；

6)迭代的进行第4步和第5步，直到损失代价收敛，得到最终的模型；