CN109389057B - 一种基于多尺度高级语义融合网络的物体检测方法 - Google Patents
一种基于多尺度高级语义融合网络的物体检测方法 Download PDFInfo
- Publication number
- CN109389057B CN109389057B CN201811111228.2A CN201811111228A CN109389057B CN 109389057 B CN109389057 B CN 109389057B CN 201811111228 A CN201811111228 A CN 201811111228A CN 109389057 B CN109389057 B CN 109389057B
- Authority
- CN
- China
- Prior art keywords
- scale
- network
- features
- object detection
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 58
- 230000004927 fusion Effects 0.000 title claims abstract description 31
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 238000011478 gradient descent method Methods 0.000 claims abstract description 4
- 238000002372 labelling Methods 0.000 claims abstract description 3
- 238000005070 sampling Methods 0.000 claims description 10
- 230000000750 progressive effect Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明一种基于多尺度高级语义融合网络的物体检测方法,包含以下步骤:准备训练图像:收集应用场景中的包含各种不同类别物体的图像,并标注感兴趣的物体;设计多尺度高级语义融合的深度卷积神经网络结构;初始化网络中的参数;输入图像数据,通过前向计算预测检测结构,并与标签对应计算损失代价;反向传播计算网络参数的梯度,采用批量随机梯度下降法更新网络参数;迭代的进行,直到损失代价收敛,得到最终的模型;将训练好的最终模型应用于实际应用中,当输入图像时,通过该模型计算得到检测结果。
Description
技术领域
本发明涉及计算机视觉领域中高性能的物体检测方法,特别是涉及采用深度学习方法进行图像物体检测的方法。
背景技术
物体检测技术作为视觉智能中的一种关键技术,在视频监控、辅助驾驶、自动驾驶等任务中有着广泛的应用。在自动驾驶任务中,由于需要精确的对周围的路况进行实时的分析,确保道路场景的行驶安全,因此实时正确的检测出感兴趣的物体,如人、车等物体,对于自动驾驶中的智能决策至关重要。因此,提升物体检测的精度和效率,能够有效保证自动驾驶的安全性,进一步推动自动驾驶的发展。图1展示了物体检测技术在智能驾驶中的一种应用。
随着深度学习的发展,基于卷积神经网络的物体检测方法取得了巨大的成功,也成为当前实现高精度物体检测的主流方法。现有的基于神经网络的物体检测方法可以分为单阶段物体检测方法和双阶段物体检测方法。其中单阶段物体检测方法主要有SSD系列方法[1-3]和YOLO[4]系列方法,双阶段物体检测方法主要包含R-CNN[5-6]系列方法。在物体检测中,应用多尺度特征进行物体检测成为一种提升性能的有效策略。然而,传统的基于多尺度特征的方法中,直接采用浅层的特征(较大特征分辨率)检测小物体,而采用深层的特征(较小特征分辨率)检测大尺度物体。以上多尺度方法并未考虑到浅层特征的语义层级较低的特点,应用语义层级较低的特征进行复杂的检测,造成小尺度物体检测精度不佳的问题。FPN[7]方法中,将深层特征与浅层特征直接简单的融合,由于两种特征的语义信息差别较大,造成融合后的特征不能有效提升对小尺度物体的检测性能。
本专利主要针对目前物体检测精度不佳的问题,设计一种基于多尺度高级语义融合网络的物体检测方法,以有效提升物体检测的精度。具体地,通过保持特征提取过程中特征图的分辨率,使得在较深层次的特征依然具有适当的分辨率的同时具有较深的语义信息。并通过深层特征产生特征金字塔,并进一步融合金字塔各个尺度之间的特征,使得进行多尺度物体检测的每一个尺度的特征都能具有高级语义信息,进而提升各个尺度物体检测的效果。本专利提出的物体检测方法可以应用于上述提到的多种应用场景中实现高精度的物体检测。
参考文献:
[1]Liu W,Anguelov D,Erhan D,et al.SSD:Single Shot MultiBoxDetector.European Conference on Computer Vision.Springer,Cham,2016:21-37.
[2]S.Zhang,L.Wen,X.Bian,Z.Lei,Stan Z.Li.Single-Shot Refinement NeuralNetwork for Object Detection.CORR,abs/1711.06897,2017.
[3]Z.Zhang,S.Qiao,C.Xie,et al.Single-Shot Object Detection withEnriched Semantics.CoRR,abs/1712.00433,2017.
[4]Redmon,J.and Divvala,S.and Girshick,R.and Farhadi,A.You only lookonce:Unified,real-time object detection.Computer Vision and PatternRecognition,2016.
[5]Girshick.R.Fast R-CNN.IEEE International Conference on ComputerVision.IEEE Computer Society,2015:1440-1448.
[6]Cai Z,Fan Q,Feris R S,et al.A Unified Multi-scale DeepConvolutional Neural Network for Fast Object Detection.ECCV 2016.
[7]Lin.T.Y,Dollar.P,Girshick.R,et al.Feature Pyramid Networks forObject Detection.CVPR,2016:936-944.
发明内容
本发明的目的是克服现有的基于深度卷积神经网络的物体检测算法检测精度较低的问题,提出一种基于多尺度高级语义融合的深度卷积神经网络物体检测方法,能够有效的提升物体检测的精度,进一步促进物体检测在众多领域中的应用。技术方案如下:
一种基于多尺度高级语义融合网络的物体检测方法,包含以下步骤:
1)准备训练图像:收集应用场景中的包含各种不同类别物体的图像,并标注感兴趣的物体;
2)设计多尺度高级语义融合的深度卷积神经网络结构:
(1)设计主干网络:主干网络中包含卷积块1-2和膨胀卷积块3-5,其中膨胀卷积块的引入使得深层特征在具有深层语义信息的同时,能够有较高的特征分辨率,进而保持更多的细节信息;
(2)设计多尺度高级语义融合模块:由膨胀卷积块6产生的特征具有深层的语义信息,为实现多尺度的特征融合和多尺度的预测,引入空间金字塔结构,通过上采样和下采样操作产生N个尺度的特征图,实现对不同尺度物体的预测,为进一步融合多尺度特征,将分辨率较高的特征图进行下采样,与分辨率较低的特征图进行融合,通过递进的融合,使得不同尺度的特征具有更强的表达能力,以适应不同尺度检测的需要;采用多尺度高级语义融合模块输出的各尺度特征,实现不同尺度物体的检测;
(3)设计监督网络所用的损失代价函数:L=Lloc+αLcls;其中Lloc表示检测的定位损失,常采用的为L1 Smooth损失函数;Lcls为检测的分类损失,常采用的为SoftmaxLoss函数;α为损失权重。
3)初始化网络中的参数。
4)输入图像数据,通过前向计算预测检测结构,并与标签对应计算损失代价。
5)反向传播计算网络参数的梯度,采用批量随机梯度下降法更新网络参数。
6)迭代的进行第4步和第5步,直到损失代价收敛,得到最终的模型。
7)将训练好的最终模型应用于实际应用中,当输入图像时,通过该模型计算得到检测结果。
本发明所述方法,通过在主干网络中引入膨胀卷积,使得深层特征仍然具有较高的分辨率,能够保持更多的细节信息。通过采用深层特征生成特征金字塔,使得金字塔中的每个尺度特征仍然具有较强的深层次语义信息。通过实现多尺度特征的深层次融合,进一步增强特征的表达能力。因此,本发明所述方法能够有效提升物体检测的精度,进一步促进物体检测在实际场景中的应用。
附图说明
图1中描述了物体检测在自动驾驶中的应用。
图2中描述了传统的基于多尺度预测的物体检测方法。
图3描述了本专利提出的多尺度高级语义融合的深度卷积神经网络应用于物体检测的示例。
具体实施方式
下面结合附图对本专利作进一步的描述。
图2描述了传统的基于多尺度预测的物体检测方法。具体地,该类方法将原始图像输入到所设计的卷积神经网络中,采用多个尺度的特征产生对不同尺度物体的预测结果。然而,由于该方法用到了浅层特征和深层特征的直接融合,而浅层特征的语义层级较低,深层特征语义层级较高,由于语义层级的不一致性,限制了网络对较小尺度物体的检测性能。
图3描述了本专利所提出的基于提出的多尺度高级语义融合网络应用于物体检测的示例。具体地,该网络主要包含三个主要部分,主干网络、多尺度高级语义融合模块和检测模块。具体地,本专利所述方法的具体实施方式包含以下几个步骤:
第一步:准备训练数据集。
准备训练网络所需的图像并标注感兴趣物体的位置和类别,得到训练所需数据集。通过随机翻转、随机裁剪、随机噪声等方式增强训练数据,以训练更加鲁棒的模型。
第二步:设计多尺度高级语义融合网络
(4)设计主干网络。以图3为例进行说明。主干网络中应包含卷积块(1-2)和膨胀卷积块(3-5),其中膨胀卷积块的引入使得深层特征在具有深层语义信息的同时,能够有较高的特征分辨率,进而保持更多的细节信息。设计主干网络包括设计主干网络中的卷积层配置、膨胀卷积层配置、池化层配置、非线性激活层配置等。
(5)设计多尺度高级语义融合模块。由膨胀卷积块6产生的特征具有深层的语义信息。为实现多尺度的特征融合和多尺度的预测,引入空间金字塔结构,通过上采样和下采样操作产生N个尺度的特征图,实现对不同尺度物体的预测。为进一步融合多尺度特征,将分辨率较高的特征图进行下采样,与分辨率较低的特征图进行融合,通过递进的融合,使得不同尺度的特征具有更强的表达能力,以适应不同尺度检测的需要。融合方式如图3所示。设计该模块,包括设计模块中的尺度、融合细节等。
(6)采用多尺度高级语义融合模块输出的各尺度特征,实现不同尺度物体的检测。检测模块设计应包含检测的类别,产生检测结果所需的卷积层等。
(7)设计监督网络所用的损失代价函数:L=Lloc+αLcls。其中Lloc表示检测的定位损失,常采用的为L1 Smooth损失函数。Lcls为检测的分类损失,常采用的为SoftmaxLoss函数。α为损失权重,通常由手工设定。
(8)初始化网络中的参数。参数包括卷积层的滤波器参数,归一化层的参数,以及需要手工设定如损失权重、学习率、权重衰减系数等参数。主干网络通常由预训练的权重进行初始化,其他参数则采用Gaussian、Xavier等方法对其进行随机初始化。
第三步:训练本发明的多尺度高级语义融合深度卷积神经网络。
(1)前向计算:(结合图3说明)
a)将训练图像输入网络中,通过主干子网络的各卷积块和膨胀卷积块的计算,得到的特征C6。
b)将特征C6经过上采样和下采样得到多种尺度的特征S1,S2,...,SN
c)层次融合相邻尺度的特征Sn,Sn-1得到各个尺度最终用于预测的特征。
d)基于每个尺度融合后的特征,回归对应尺度物体的坐标,并计算对应的分类得分。
e)根据设计的损失函数,计算预测结果与实际标签的损失。
(2)反向传播:
通过反向传播(BP)算法,计算每一层参数的梯度,采用梯度下降法(SGD)更新神经网络中的所有可学习的参数。
(3)迭代训练:
迭代的进行上述的(1)前向传播和(2)反向传播过程,不断的更新参数。直至损失函数收敛
第四步:将训练得到的多尺度高级语义融合网络应用于实际的物体检测中
(1)将训练所得模型嵌入计算设备中
(2)通过图像采集设备获取场景图像
(3)将图像输入模型中,计算得到检测结果
(4)将检测结果显示在图像上,并辅助进行场景智能决策。
Claims (1)
1.一种基于多尺度高级语义融合网络的物体检测方法,包含以下步骤:
1)准备训练图像:收集应用场景中的包含各种不同类别物体的图像,并标注感兴趣的物体;
2)设计多尺度高级语义融合的深度卷积神经网络结构:
(1)设计主干网络:主干网络中包含卷积块1-2和膨胀卷积块3-5,其中膨胀卷积块的引入使得深层特征在具有深层语义信息的同时,能够有较高的特征分辨率,进而保持更多的细节信息;
(2)设计多尺度高级语义融合模块:由膨胀卷积块6产生的特征具有深层的语义信息,为实现多尺度的特征融合和多尺度的预测,引入空间金字塔结构,通过上采样和下采样操作产生N个尺度的特征图,实现对不同尺度物体的预测,为进一步融合多尺度特征,将分辨率较高的特征图进行下采样,与分辨率较低的特征图进行融合,通过递进的融合,使得不同尺度的特征具有更强的表达能力,以适应不同尺度检测的需要;采用多尺度高级语义融合模块输出的各尺度特征,实现不同尺度物体的检测;
(3)设计监督网络所用的损失代价函数:L=Lloc+αLcls;其中Lloc表示检测的定位损失,常采用的为L1 Smooth损失函数;Lcls为检测的分类损失,常采用的为SoftmaxLoss函数;α为损失权重;
3)初始化网络中的参数;
4)输入图像数据,通过前向计算预测检测结构,并与标签对应计算损失代价;
5)反向传播计算网络参数的梯度,采用批量随机梯度下降法更新网络参数;
6)迭代的进行第4步和第5步,直到损失代价收敛,得到最终的模型;
7)将训练好的最终模型应用于实际应用中,当输入图像时,通过该模型计算得到检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811111228.2A CN109389057B (zh) | 2018-09-22 | 2018-09-22 | 一种基于多尺度高级语义融合网络的物体检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811111228.2A CN109389057B (zh) | 2018-09-22 | 2018-09-22 | 一种基于多尺度高级语义融合网络的物体检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109389057A CN109389057A (zh) | 2019-02-26 |
CN109389057B true CN109389057B (zh) | 2021-08-06 |
Family
ID=65417781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811111228.2A Expired - Fee Related CN109389057B (zh) | 2018-09-22 | 2018-09-22 | 一种基于多尺度高级语义融合网络的物体检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109389057B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110599B (zh) * | 2019-04-03 | 2023-05-09 | 天津大学 | 一种基于多尺度特征融合的遥感图像目标检测方法 |
CN110245655B (zh) * | 2019-05-10 | 2023-06-06 | 天津大学 | 一种基于轻量级图像金字塔网络的单阶段物体检测方法 |
CN110348531B (zh) * | 2019-07-17 | 2022-12-30 | 沈阳亚视深蓝智能科技有限公司 | 具有分辨率适应性的深度卷积神经网络构建方法及应用 |
CN110516732B (zh) * | 2019-08-22 | 2022-03-15 | 北京地平线机器人技术研发有限公司 | 特征金字塔网络的训练方法、提取图像特征的方法和装置 |
CN110738113B (zh) * | 2019-09-12 | 2023-07-28 | 天津大学 | 一种基于邻近尺度特征滤除与转移的物体检测方法 |
CN111191508A (zh) * | 2019-11-28 | 2020-05-22 | 浙江省北大信息技术高等研究院 | 人脸识别方法及装置 |
CN113076926B (zh) * | 2021-04-25 | 2022-11-18 | 华南理工大学 | 一种带语义引导的多尺度目标检测方法及系统 |
CN113688709B (zh) * | 2021-08-17 | 2023-12-05 | 广东海洋大学 | 一种安全帽佩戴智能检测方法、系统、终端及介质 |
CN113744224A (zh) * | 2021-08-26 | 2021-12-03 | 成都盛锴科技有限公司 | 一种轨道车辆走行部焊缝的检测方法及其系统 |
CN116229336B (zh) * | 2023-05-10 | 2023-08-18 | 江西云眼视界科技股份有限公司 | 视频移动目标识别方法、系统、存储介质及计算机 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945185A (zh) * | 2017-11-29 | 2018-04-20 | 北京工商大学 | 基于宽残差金字塔池化网络的图像分割方法及系统 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
CN108268870A (zh) * | 2018-01-29 | 2018-07-10 | 重庆理工大学 | 基于对抗学习的多尺度特征融合超声图像语义分割方法 |
-
2018
- 2018-09-22 CN CN201811111228.2A patent/CN109389057B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945185A (zh) * | 2017-11-29 | 2018-04-20 | 北京工商大学 | 基于宽残差金字塔池化网络的图像分割方法及系统 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
CN108268870A (zh) * | 2018-01-29 | 2018-07-10 | 重庆理工大学 | 基于对抗学习的多尺度特征融合超声图像语义分割方法 |
Non-Patent Citations (3)
Title |
---|
Image Segmentation with Pyramid Dilated;Qiao Zhang et al.;《International Conference on Neural Information Processing》;20171026;第 364–372页 * |
Multi-Scale Salient Object Detection with;Jing Zhang et al.;《Proceedings of APSIPA Annual Summit and Conference 2017》;20180208;第1286-1291页 * |
基于深度学习的图像语义分割方法;张建;《中国优秀硕士学位论文全文数据库信息科技辑》;20180815(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109389057A (zh) | 2019-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109389057B (zh) | 一种基于多尺度高级语义融合网络的物体检测方法 | |
CN111563508B (zh) | 一种基于空间信息融合的语义分割方法 | |
CN109214349B (zh) | 一种基于语义分割增强的物体检测方法 | |
CN109325534B (zh) | 一种基于双向多尺度金字塔的语义分割方法 | |
CN108537136B (zh) | 基于姿态归一化图像生成的行人重识别方法 | |
Ju et al. | A simple and efficient network for small target detection | |
CN110084850B (zh) | 一种基于图像语义分割的动态场景视觉定位方法 | |
CN111539887B (zh) | 一种基于混合卷积的通道注意力机制和分层学习的神经网络图像去雾方法 | |
Ding et al. | Vehicle pose and shape estimation through multiple monocular vision | |
CN111311708B (zh) | 一种基于语义光流和逆深度滤波的视觉slam方法 | |
CN108595558B (zh) | 一种数据均衡策略和多特征融合的图像标注方法 | |
CN108921850B (zh) | 一种基于图像分割技术的图像局部特征的提取方法 | |
CN111461212A (zh) | 一种用于点云目标检测模型的压缩方法 | |
CN113269224B (zh) | 一种场景图像分类方法、系统及存储介质 | |
CN110781850A (zh) | 道路识别的语义分割系统和方法、计算机存储介质 | |
CN111339849A (zh) | 一种融合行人属性的行人重识别的方法 | |
CN114120115B (zh) | 一种融合点特征和网格特征的点云目标检测方法 | |
CN113160283A (zh) | 一种基于sift的多摄像头场景下的目标跟踪方法 | |
CN116310128A (zh) | 基于实例分割与三维重建的动态环境单目多物体slam方法 | |
CN112396039A (zh) | 一种基于邻域关系的火星栅格地形地图生成方法 | |
CN113723356B (zh) | 异质特征关系互补的车辆重识别方法和装置 | |
CN115393601A (zh) | 一种基于点云数据的三维目标检测方法 | |
CN112785610B (zh) | 一种融合低层特征的车道线语义分割方法 | |
CN108717436B (zh) | 一种基于显著性检测的商品目标快速检索方法 | |
Gomez-Donoso et al. | Three-dimensional reconstruction using SFM for actual pedestrian classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210806 |