CN111160407B

CN111160407B - 一种深度学习目标检测方法及系统

Info

Publication number: CN111160407B
Application number: CN201911260883.9A
Authority: CN
Inventors: 贾琳; 赵磊
Original assignee: Chongqing Terminus Technology Co Ltd
Current assignee: Chongqing Terminus Technology Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2023-02-07
Anticipated expiration: 2039-12-10
Also published as: CN111160407A

Abstract

本发明公开了一种深度学习目标检测方法，包括如下步骤：输入图片经过卷积神经网络骨干网络提取图片中目标的特征；通过区域候选网络，首先产生许多不同尺度和长宽比的滑窗，然后经过分类、边框回归操作得到可能含有目标的候选框；通过所述候选框映射到需要检测目标的特征层上，对感兴趣目标区域进行池化操作，得到目标区域维数大小相同的池化后的特征图；对需要检测目标的特征层上分别使用分类和边框回归操作；经过非极大值抑制后得到最终的目标检测框。本发明的优点在于：避免当预测框和真实框不重叠时，检测网络的目标函数无法优化；可以使用牛顿法更新网络权重，检测网络训练更快；目标检测结果准确。

Description

一种深度学习目标检测方法及系统

技术领域

本发明属于基于深度学习的计算机视觉领域，具体涉及一种深度学习目标检测方法及系统。

背景技术

随着深度卷积神经网络的兴起，它已经变得更好的工具来处理目标检测任务。例如在手机拍照过程中，在预拍摄模式下会显示预测框(通常是框住人脸的矩形或正方形)，检测网络通常有效地学习标记一个像素为背景或前景。损失函数是一种量化预测值和真实值的误差的度量。通常情况下，交叉熵损失作为像素标记任务中一种可以选择的损失函数。这种损失函数用于分割或分类任务中，满足条件为只要所有类别的标记是均衡的。类别不平衡使得网络预测结果偏向于类别数目多的一类，因为网络收敛到非最优局部最小。通常损失函数的计算是通过计算预测框和真实框的交集和并集的比值来得到的，比如IoU，然后再计算损失值。

然而，现有技术中，当预测框和真实框不重叠时，检测网络的目标函数无法优化。

发明内容

本发明的目的是通过以下技术方案实现的。

根据本发明的发明目的，提供了一种深度学习目标检测方法，包括如下步骤：

输入图片经过卷积神经网络骨干网络提取图片中目标的特征；

通过区域候选网络，首先产生许多不同尺度和长宽比的滑窗，然后经过分类、边框回归操作得到可能含有目标的候选框；

通过所述候选框映射到需要检测目标的特征层上，对感兴趣目标区域进行池化操作，得到目标区域维数大小相同的池化后的特征图；

对需要检测目标的特征层上分别使用分类和边框回归操作；

经过非极大值抑制后得到最终的目标检测框。

进一步地，所述边框回归操作使用边框优化损失函数。

进一步地，所述分类操作使用SoftMax损失函数。

进一步地，所述边框优化损失函数的计算步骤如下：

1)计算预测框和真实框的交并比；

2)计算预测框和真实框的广义交并比；

3)计算GIoU损失；

4)计算Log-Cosh损失。

进一步地，所述预测框和真实框的交并比计算过程如下：

其中，P为预测框，G为真实框。

进一步地，所述预测框和真实框的广义交并比的计算过程如下：

其中，C是包含P和G的最小闭包区域或最小外接矩形。

进一步地，所述计算GIoU损失的计算过程如下：L_GIoU＝1-GIoU。

进一步地，所述计算Log-Cosh损失的计算过程如下：L_Log-Cosh＝log(cosh(L_GIoU))。

根据本发明的另一个方面，还提供了一种深度学习目标检测系统，包括：

特征提取模块，用于输入图片经过卷积神经网络骨干网络提取图片中目标的特征；

候选框获取模块，用于通过区域候选网络，首先产生许多不同尺度和长宽比的滑窗，然后经过分类、边框回归操作得到可能含有目标的候选框；

区域池化模块，用于通过所述候选框映射到需要检测目标的特征层上，对感兴趣目标区域进行池化操作，得到目标区域维数大小相同的池化后的特征图；

检测模块，用于对需要检测目标的特征层上分别使用分类和边框回归操作；

非极大值抑制模块，用于经过非极大值抑制后得到最终的目标检测框。

本发明的优点在于：避免当预测框和真实框不重叠时，检测网络的目标函数无法优化；可以使用牛顿法更新网络权重，检测网络训练更快；目标检测结果准确。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

附图1示出了根据本发明实施方式的一种深度学习目标检测方法流程图。

附图2示出了根据本发明实施方式的一种深度学习目标检测系统结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

目前，目标检测主流的边界框优化采用的是边界框回归损失，例如使用平方差(MSE)损失或平滑L1(smooth-L1)损失等，这些损失计算方式使用了边界框的距离度量，而忽略了边界框本身最显著的性质：交并比(IoU)，也就是预测框和真实框的交集和并集的比值，这个IoU值可以作为目标检测算法性能mAP计算的一个重要的性能指标。虽然IoU具有尺度不变性，但是由于当预测框和真实框没有重合时，IoU值为0，此时优化损失函数时，反向传播的梯度为0，无法优化目标函数，因此不适合作为目标检测任务的损失函数。GIoU可以弥补IoU的上述缺陷，当预测框和真实框不重合时，依然可以计算GIoU值，因此可以作为损失函数，替代边界框回归损失。

Log-Cosh也是一种用于回归问题的，且比L2损失更平滑的损失函数，计算方式为预测框和真实框的预测误差的双曲余弦的对数。Log-Cosh损失函数的优点是不易受到异常点的影响，具有Huber损失的所有优点，且二阶处处可微，因此牛顿法可以使用来计算二阶导数，训练时收敛速度更快。

如图1所示，本发明提供了一种深度学习目标检测方法，包括如下步骤：

S1、输入图片经过卷积神经网络(CNN)骨干网络提取图片中目标的特征；

卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)，因此也被称为“平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks,SIANN)”。

本发明中，通过将输入图片输入卷积神经网络骨干网络，能够提取图片中目标的特征。

S2、通过区域候选网络(RPN)，首先产生许多不同尺度和长宽比的滑窗，然后经过分类、边框回归操作得到可能含有目标的候选框，其中边框回归操作使用了边框优化损失函数，分类操作使用了SoftMax损失函数；

区域候选网络(RPN)，Region Proposal Network,中文意思是“区域选取”,也就是“提取候选框”的意思,所以RPN就是用来提取候选框的网络。

Softmax是将神经网络得到的多个值，进行归一化处理，使得到的值在0和1之间，让结果变得可解释。即可以将结果看作是概率，某个类别概率越大，将样本归为该类别的可能性也就越高。

softmax用于多分类过程中，它将多个神经元的输出，映射到(0,1)区间内，可以看成概率来理解，从而进行多分类。

本发明中，经过分类、边框回归操作得到可能含有目标的候选框。

S3、通过第2步候选框映射到需要检测目标的特征层上，对感兴趣目标区域进行池化操作，得到目标区域维数大小相同的池化后的特征图；

卷积层是对图像的一个邻域进行卷积得到图像的邻域特征，亚采样层(池化层)就是使用pooling技术将小邻域内的特征点整合得到新的特征。在完成卷积特征提取之后，对于每一个隐藏单元，它都提取到多个特征，把它看做一个矩阵，并在这个矩阵上划分出几个不重合的区域，然后在每个区域上计算该区域内特征的均值或最大值，然后用这些均值或最大值参与后续的训练，这个过程就是池化。

S4、对需要检测目标的特征层上分别使用分类和边框回归操作，其中边框回归操作使用边框优化损失函数，分类操作使用了SoftMax损失函数；

S5、最后经过非极大值抑制(NMS)后得到最终的目标检测框。

NMS(Non Maximum Suppression)，又名非极大值抑制，是目标检测框架中的后处理模块，主要用于删除高度冗余的边界框：在目标检测过程中，对于每个目标在检测的时候会产生多个边界框，NMS本质就是对每个目标的多个边界框去冗余，得到最终的检测结果。

非极大值抑制就是抑制不是极大值的元素，可以理解为局部最大搜索。这个局部代表的是一个邻域，邻域有两个参数可变，一是邻域的维数，二是邻域的大小。

进一步的，本发明提出了一种新的边界框优化损失函数，结合了GIoU损失和Log-Cosh损失的优点，可以广泛用于目标检测任务中。

本发明的具体的边界框优化的损失函数的计算步骤如下：

1)计算预测框和真实框的交并比：

其中，P为预测框，G为真实框。

2)计算预测框和真实框的广义交并比：

其中，C是包含P和G的最小闭包区域或最小外接矩形。

3)计算GIoU损失：L_GIoU＝1-GIoU

4)计算Log-Cosh损失：L_Log-Cosh＝log(cosh(L_GIoU))

本发明描述了一种新的边界框优化的损失函数。该发明将GIoU损失作为Log-Cosh损失函数的参数，避免了当IoU损失所存在的预测框和真实框不重合时，反向传播的梯度为0，致使检测网络的目标函数无法优化，本发明提出新的损失函数避免了上述缺点，使得目标检测网络更加容易收敛，加速网络的训练。因此本发明可以广泛应用于物体检测和图像分割等计算机视觉领域。

如图2所示，本发明还提供了一种深度学习目标检测系统100，包括：

特征提取模块101，用于输入图片经过卷积神经网络骨干网络提取图片中目标的特征；

候选框获取模块102，用于通过区域候选网络，首先产生许多不同尺度和长宽比的滑窗，然后经过分类、边框回归操作得到可能含有目标的候选框；

区域池化模块103，用于通过所述候选框映射到需要检测目标的特征层上，对感兴趣目标区域进行池化操作，得到目标区域维数大小相同的池化后的特征图；

检测模块104，用于对需要检测目标的特征层上分别使用分类和边框回归操作；

非极大值抑制模块105，用于经过非极大值抑制后得到最终的目标检测框。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种深度学习目标检测方法，其特征在于，包括如下步骤：

对需要检测目标的特征层上分别使用分类和边框回归操作；所述边框回归操作使用边框优化损失函数，所述边框优化损失函数的计算步骤如下：

1)计算预测框和真实框的交并比；

2)计算预测框和真实框的广义交并比；

3)计算GIoU损失；所述计算GIoU损失的计算过程如下：L_GIoU＝1-GIoU；

4)计算Log-Cosh损失；所述计算Log-Cosh损失的计算过程如下：L_Log-Cosh＝log(cosh(L_GIoU))；

经过非极大值抑制后得到最终的目标检测框。

2.根据权利要求1所述的一种深度学习目标检测方法，其特征在于，

所述分类操作使用SoftMax损失函数。

3.根据权利要求1所述的一种深度学习目标检测方法，其特征在于，

所述预测框和真实框的交并比计算过程如下：

其中，P为预测框，G为真实框。

4.根据权利要求3所述的一种深度学习目标检测方法，其特征在于，

所述预测框和真实框的广义交并比的计算过程如下：

其中，C是包含P和G的最小闭包区域或最小外接矩形。

5.一种深度学习目标检测系统，其特征在于，包括：

检测模块，用于对需要检测目标的特征层上分别使用分类和边框回归操作；所述边框回归操作使用边框优化损失函数，所述边框优化损失函数的计算步骤如下：

1)计算预测框和真实框的交并比；

2)计算预测框和真实框的广义交并比；

4)计算Log-Cosh损失；所述计算Log-Cosh损失的计算过程如下：L_Log-Cosh＝log(cosh(L_GIoU))；非极大值抑制模块，用于经过非极大值抑制后得到最终的目标检测框。