CN111160407B - 一种深度学习目标检测方法及系统 - Google Patents
一种深度学习目标检测方法及系统 Download PDFInfo
- Publication number
- CN111160407B CN111160407B CN201911260883.9A CN201911260883A CN111160407B CN 111160407 B CN111160407 B CN 111160407B CN 201911260883 A CN201911260883 A CN 201911260883A CN 111160407 B CN111160407 B CN 111160407B
- Authority
- CN
- China
- Prior art keywords
- frame
- target
- calculating
- giou
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种深度学习目标检测方法,包括如下步骤:输入图片经过卷积神经网络骨干网络提取图片中目标的特征;通过区域候选网络,首先产生许多不同尺度和长宽比的滑窗,然后经过分类、边框回归操作得到可能含有目标的候选框;通过所述候选框映射到需要检测目标的特征层上,对感兴趣目标区域进行池化操作,得到目标区域维数大小相同的池化后的特征图;对需要检测目标的特征层上分别使用分类和边框回归操作;经过非极大值抑制后得到最终的目标检测框。本发明的优点在于:避免当预测框和真实框不重叠时,检测网络的目标函数无法优化;可以使用牛顿法更新网络权重,检测网络训练更快;目标检测结果准确。
Description
技术领域
本发明属于基于深度学习的计算机视觉领域,具体涉及一种深度学习目标检测方法及系统。
背景技术
随着深度卷积神经网络的兴起,它已经变得更好的工具来处理目标检测任务。例如在手机拍照过程中,在预拍摄模式下会显示预测框(通常是框住人脸的矩形或正方形),检测网络通常有效地学习标记一个像素为背景或前景。损失函数是一种量化预测值和真实值的误差的度量。通常情况下,交叉熵损失作为像素标记任务中一种可以选择的损失函数。这种损失函数用于分割或分类任务中,满足条件为只要所有类别的标记是均衡的。类别不平衡使得网络预测结果偏向于类别数目多的一类,因为网络收敛到非最优局部最小。通常损失函数的计算是通过计算预测框和真实框的交集和并集的比值来得到的,比如IoU,然后再计算损失值。
然而,现有技术中,当预测框和真实框不重叠时,检测网络的目标函数无法优化。
发明内容
本发明的目的是通过以下技术方案实现的。
根据本发明的发明目的,提供了一种深度学习目标检测方法,包括如下步骤:
输入图片经过卷积神经网络骨干网络提取图片中目标的特征;
通过区域候选网络,首先产生许多不同尺度和长宽比的滑窗,然后经过分类、边框回归操作得到可能含有目标的候选框;
通过所述候选框映射到需要检测目标的特征层上,对感兴趣目标区域进行池化操作,得到目标区域维数大小相同的池化后的特征图;
对需要检测目标的特征层上分别使用分类和边框回归操作;
经过非极大值抑制后得到最终的目标检测框。
进一步地,所述边框回归操作使用边框优化损失函数。
进一步地,所述分类操作使用SoftMax损失函数。
进一步地,所述边框优化损失函数的计算步骤如下:
1)计算预测框和真实框的交并比;
2)计算预测框和真实框的广义交并比;
3)计算GIoU损失;
4)计算Log-Cosh损失。
进一步地,所述预测框和真实框的交并比计算过程如下:
其中,P为预测框,G为真实框。
进一步地,所述预测框和真实框的广义交并比的计算过程如下:
其中,C是包含P和G的最小闭包区域或最小外接矩形。
进一步地,所述计算GIoU损失的计算过程如下:LGIoU=1-GIoU。
进一步地,所述计算Log-Cosh损失的计算过程如下:LLog-Cosh=log(cosh(LGIoU))。
根据本发明的另一个方面,还提供了一种深度学习目标检测系统,包括:
特征提取模块,用于输入图片经过卷积神经网络骨干网络提取图片中目标的特征;
候选框获取模块,用于通过区域候选网络,首先产生许多不同尺度和长宽比的滑窗,然后经过分类、边框回归操作得到可能含有目标的候选框;
区域池化模块,用于通过所述候选框映射到需要检测目标的特征层上,对感兴趣目标区域进行池化操作,得到目标区域维数大小相同的池化后的特征图;
检测模块,用于对需要检测目标的特征层上分别使用分类和边框回归操作;
非极大值抑制模块,用于经过非极大值抑制后得到最终的目标检测框。
本发明的优点在于:避免当预测框和真实框不重叠时,检测网络的目标函数无法优化;可以使用牛顿法更新网络权重,检测网络训练更快;目标检测结果准确。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1示出了根据本发明实施方式的一种深度学习目标检测方法流程图。
附图2示出了根据本发明实施方式的一种深度学习目标检测系统结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
目前,目标检测主流的边界框优化采用的是边界框回归损失,例如使用平方差(MSE)损失或平滑L1(smooth-L1)损失等,这些损失计算方式使用了边界框的距离度量,而忽略了边界框本身最显著的性质:交并比(IoU),也就是预测框和真实框的交集和并集的比值,这个IoU值可以作为目标检测算法性能mAP计算的一个重要的性能指标。虽然IoU具有尺度不变性,但是由于当预测框和真实框没有重合时,IoU值为0,此时优化损失函数时,反向传播的梯度为0,无法优化目标函数,因此不适合作为目标检测任务的损失函数。GIoU可以弥补IoU的上述缺陷,当预测框和真实框不重合时,依然可以计算GIoU值,因此可以作为损失函数,替代边界框回归损失。
Log-Cosh也是一种用于回归问题的,且比L2损失更平滑的损失函数,计算方式为预测框和真实框的预测误差的双曲余弦的对数。Log-Cosh损失函数的优点是不易受到异常点的影响,具有Huber损失的所有优点,且二阶处处可微,因此牛顿法可以使用来计算二阶导数,训练时收敛速度更快。
如图1所示,本发明提供了一种深度学习目标检测方法,包括如下步骤:
S1、输入图片经过卷积神经网络(CNN)骨干网络提取图片中目标的特征;
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification),因此也被称为“平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks,SIANN)”。
本发明中,通过将输入图片输入卷积神经网络骨干网络,能够提取图片中目标的特征。
S2、通过区域候选网络(RPN),首先产生许多不同尺度和长宽比的滑窗,然后经过分类、边框回归操作得到可能含有目标的候选框,其中边框回归操作使用了边框优化损失函数,分类操作使用了SoftMax损失函数;
区域候选网络(RPN),Region Proposal Network,中文意思是“区域选取”,也就是“提取候选框”的意思,所以RPN就是用来提取候选框的网络。
Softmax是将神经网络得到的多个值,进行归一化处理,使得到的值在0和1之间,让结果变得可解释。即可以将结果看作是概率,某个类别概率越大,将样本归为该类别的可能性也就越高。
softmax用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而进行多分类。
本发明中,经过分类、边框回归操作得到可能含有目标的候选框。
S3、通过第2步候选框映射到需要检测目标的特征层上,对感兴趣目标区域进行池化操作,得到目标区域维数大小相同的池化后的特征图;
卷积层是对图像的一个邻域进行卷积得到图像的邻域特征,亚采样层(池化层)就是使用pooling技术将小邻域内的特征点整合得到新的特征。在完成卷积特征提取之后,对于每一个隐藏单元,它都提取到多个特征,把它看做一个矩阵,并在这个矩阵上划分出几个不重合的区域,然后在每个区域上计算该区域内特征的均值或最大值,然后用这些均值或最大值参与后续的训练,这个过程就是池化。
S4、对需要检测目标的特征层上分别使用分类和边框回归操作,其中边框回归操作使用边框优化损失函数,分类操作使用了SoftMax损失函数;
S5、最后经过非极大值抑制(NMS)后得到最终的目标检测框。
NMS(Non Maximum Suppression),又名非极大值抑制,是目标检测框架中的后处理模块,主要用于删除高度冗余的边界框:在目标检测过程中,对于每个目标在检测的时候会产生多个边界框,NMS本质就是对每个目标的多个边界框去冗余,得到最终的检测结果。
非极大值抑制就是抑制不是极大值的元素,可以理解为局部最大搜索。这个局部代表的是一个邻域,邻域有两个参数可变,一是邻域的维数,二是邻域的大小。
进一步的,本发明提出了一种新的边界框优化损失函数,结合了GIoU损失和Log-Cosh损失的优点,可以广泛用于目标检测任务中。
本发明的具体的边界框优化的损失函数的计算步骤如下:
其中,P为预测框,G为真实框。
其中,C是包含P和G的最小闭包区域或最小外接矩形。
3)计算GIoU损失:LGIoU=1-GIoU
4)计算Log-Cosh损失:LLog-Cosh=log(cosh(LGIoU))
本发明描述了一种新的边界框优化的损失函数。该发明将GIoU损失作为Log-Cosh损失函数的参数,避免了当IoU损失所存在的预测框和真实框不重合时,反向传播的梯度为0,致使检测网络的目标函数无法优化,本发明提出新的损失函数避免了上述缺点,使得目标检测网络更加容易收敛,加速网络的训练。因此本发明可以广泛应用于物体检测和图像分割等计算机视觉领域。
如图2所示,本发明还提供了一种深度学习目标检测系统100,包括:
特征提取模块101,用于输入图片经过卷积神经网络骨干网络提取图片中目标的特征;
候选框获取模块102,用于通过区域候选网络,首先产生许多不同尺度和长宽比的滑窗,然后经过分类、边框回归操作得到可能含有目标的候选框;
区域池化模块103,用于通过所述候选框映射到需要检测目标的特征层上,对感兴趣目标区域进行池化操作,得到目标区域维数大小相同的池化后的特征图;
检测模块104,用于对需要检测目标的特征层上分别使用分类和边框回归操作;
非极大值抑制模块105,用于经过非极大值抑制后得到最终的目标检测框。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (5)
1.一种深度学习目标检测方法,其特征在于,包括如下步骤:
输入图片经过卷积神经网络骨干网络提取图片中目标的特征;
通过区域候选网络,首先产生许多不同尺度和长宽比的滑窗,然后经过分类、边框回归操作得到可能含有目标的候选框;
通过所述候选框映射到需要检测目标的特征层上,对感兴趣目标区域进行池化操作,得到目标区域维数大小相同的池化后的特征图;
对需要检测目标的特征层上分别使用分类和边框回归操作;所述边框回归操作使用边框优化损失函数,所述边框优化损失函数的计算步骤如下:
1)计算预测框和真实框的交并比;
2)计算预测框和真实框的广义交并比;
3)计算GIoU损失;所述计算GIoU损失的计算过程如下:LGIoU=1-GIoU;
4)计算Log-Cosh损失;所述计算Log-Cosh损失的计算过程如下:LLog-Cosh=log(cosh(LGIoU));
经过非极大值抑制后得到最终的目标检测框。
2.根据权利要求1所述的一种深度学习目标检测方法,其特征在于,
所述分类操作使用SoftMax损失函数。
5.一种深度学习目标检测系统,其特征在于,包括:
特征提取模块,用于输入图片经过卷积神经网络骨干网络提取图片中目标的特征;
候选框获取模块,用于通过区域候选网络,首先产生许多不同尺度和长宽比的滑窗,然后经过分类、边框回归操作得到可能含有目标的候选框;
区域池化模块,用于通过所述候选框映射到需要检测目标的特征层上,对感兴趣目标区域进行池化操作,得到目标区域维数大小相同的池化后的特征图;
检测模块,用于对需要检测目标的特征层上分别使用分类和边框回归操作;所述边框回归操作使用边框优化损失函数,所述边框优化损失函数的计算步骤如下:
1)计算预测框和真实框的交并比;
2)计算预测框和真实框的广义交并比;
3)计算GIoU损失;所述计算GIoU损失的计算过程如下:LGIoU=1-GIoU;
4)计算Log-Cosh损失;所述计算Log-Cosh损失的计算过程如下:LLog-Cosh=log(cosh(LGIoU));非极大值抑制模块,用于经过非极大值抑制后得到最终的目标检测框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911260883.9A CN111160407B (zh) | 2019-12-10 | 2019-12-10 | 一种深度学习目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911260883.9A CN111160407B (zh) | 2019-12-10 | 2019-12-10 | 一种深度学习目标检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111160407A CN111160407A (zh) | 2020-05-15 |
CN111160407B true CN111160407B (zh) | 2023-02-07 |
Family
ID=70556672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911260883.9A Active CN111160407B (zh) | 2019-12-10 | 2019-12-10 | 一种深度学习目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111160407B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508168B (zh) * | 2020-09-25 | 2023-09-22 | 上海海事大学 | 基于预测框自动修正的边框回归神经网络构建方法 |
CN114608801B (zh) * | 2020-12-08 | 2024-04-19 | 重庆云石高科技有限公司 | 一种机车轴温探头连接线脱落自动检测算法 |
CN112613472B (zh) * | 2020-12-31 | 2022-04-26 | 上海交通大学 | 一种基于深度搜索匹配的行人检测方法及系统 |
CN113139437B (zh) * | 2021-03-31 | 2022-09-20 | 成都飞机工业(集团)有限责任公司 | 一种基于YOLOv3算法的安全帽佩戴检查方法 |
CN113343975A (zh) * | 2021-04-22 | 2021-09-03 | 山东师范大学 | 基于深度学习的白细胞分类系统及方法 |
CN113255682B (zh) * | 2021-06-04 | 2021-11-16 | 浙江智慧视频安防创新中心有限公司 | 一种目标检测系统、方法、装置、设备及介质 |
CN113838099A (zh) * | 2021-10-20 | 2021-12-24 | 浙江大立科技股份有限公司 | 一种基于孪生神经网络的单目标跟踪方法 |
CN114359742B (zh) * | 2022-03-21 | 2022-09-16 | 济南大学 | 一种优化小目标检测的加权损失函数计算方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4472473B2 (ja) * | 2004-09-13 | 2010-06-02 | 富士通株式会社 | 受信装置及び通信システム |
US20150065854A1 (en) * | 2012-10-31 | 2015-03-05 | General Electric Company | Joint estimation of attenuation and activity information using emission data |
CN109271856B (zh) * | 2018-08-03 | 2021-09-03 | 西安电子科技大学 | 基于扩张残差卷积的光学遥感图像目标检测方法 |
CN110148148A (zh) * | 2019-03-01 | 2019-08-20 | 北京纵目安驰智能科技有限公司 | 一种基于目标检测的下边缘检测模型的训练方法、模型和存储介质 |
CN109919087B (zh) * | 2019-03-06 | 2022-03-08 | 腾讯科技(深圳)有限公司 | 一种视频分类的方法、模型训练的方法及装置 |
CN111611998A (zh) * | 2020-05-21 | 2020-09-01 | 中山大学 | 一种基于候选区域面积和宽高的自适应特征块提取方法 |
-
2019
- 2019-12-10 CN CN201911260883.9A patent/CN111160407B/zh active Active
Non-Patent Citations (2)
Title |
---|
基于级联全卷积神经网络的颈部淋巴结自动识别算法;秦品乐 等;《计算机应用》;20190528;第39卷(第10期);2915-2922 * |
端到端深度图像分割网络中抑制无效率学习的目标损失函数设计;叶靖雯 等;《微电子学与计算机》;20190905;第36卷(第9期);38-43 * |
Also Published As
Publication number | Publication date |
---|---|
CN111160407A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160407B (zh) | 一种深度学习目标检测方法及系统 | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN108596053B (zh) | 一种基于ssd和车辆姿态分类的车辆检测方法和系统 | |
CN107529650B (zh) | 闭环检测方法、装置及计算机设备 | |
CN112150493B (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN111160249A (zh) | 基于跨尺度特征融合的光学遥感图像多类目标检测方法 | |
Wang et al. | Multifocus image fusion using convolutional neural networks in the discrete wavelet transform domain | |
CN110569782A (zh) | 一种基于深度学习目标检测方法 | |
CN110443279B (zh) | 一种基于轻量级神经网络的无人机图像车辆检测方法 | |
CN110111346B (zh) | 基于视差信息的遥感图像语义分割方法 | |
CN113888461A (zh) | 基于深度学习的小五金件缺陷检测方法、系统及设备 | |
CN112215079B (zh) | 一种全局多阶段目标跟踪方法 | |
CN110909665A (zh) | 一种多任务的图像处理方法、装置、电子设备及存储介质 | |
WO2024021461A1 (zh) | 缺陷检测方法及装置、设备、存储介质 | |
CN113052184A (zh) | 一种基于两阶段局部特征对齐的目标检测方法 | |
CN114897738A (zh) | 一种基于语义不一致性检测的图像盲修复方法 | |
CN107423771B (zh) | 一种两时相遥感图像变化检测方法 | |
CN114926498B (zh) | 一种基于时空约束与可学习特征匹配的快速目标跟踪方法 | |
CN116229112A (zh) | 一种基于多重注意力的孪生网络目标跟踪方法 | |
Wang et al. | Video background/foreground separation model based on non-convex rank approximation RPCA and superpixel motion detection | |
CN113421210B (zh) | 一种基于双目立体视觉的表面点云重建方法 | |
CN108428234B (zh) | 基于图像分割结果评价的交互式分割性能优化方法 | |
CN110348311B (zh) | 一种基于深度学习的道路交叉口识别系统及方法 | |
CN111612802A (zh) | 一种基于现有图像语义分割模型的再优化训练方法及应用 | |
CN114998611A (zh) | 一种基于结构融合的目标轮廓检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |