CN109800770A

CN109800770A - 一种实时目标检测的方法、系统及装置

Info

Publication number: CN109800770A
Application number: CN201811623883.6A
Authority: CN
Inventors: 葛海玉; 杨琳; 郝禄国; 龙鑫; 曾文彬; 李伟儒
Original assignee: Guang Zhou Hai Noboru Computer Science And Technology Ltd
Current assignee: Guang Zhou Hai Noboru Computer Science And Technology Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-05-24

Abstract

本发明公开一种实时目标检测的方法、系统及装置，其中方法步骤为：获取待检测的图片，对图片进行第一卷积处理获得第一特征图；结合第一特征图、第一空间信息和第一通道信息获得第二特征图；对第二特征图进行第二卷积处理获得第三特征图；结合第三特征图、第二空间信息和第二通道信息获得第四特征图；对第四特征图进行第三卷积处理获得第五特征图；依次对第五特征图进行多次反卷积处理后，获得第六特征图、第七特征图和第八特征图，以及通过结合特征图获取第九特征图和第十特征图，对第六特征图、第九特征图和第十特征图进行分类和边界框的预测，本发明通过结合不同特征图以及空间信息和通道信息来提高检测准确率，可广泛应用于目标检测领域。

Description

一种实时目标检测的方法、系统及装置

技术领域

本发明涉及目标检测领域，尤其涉及一种实时目标检测的方法、系统及装置。

背景技术

随着深度学习的不断发展，在自然语言处理以及目标检测和分类方面也取得了不错的进步。其中目标检测主要分为两分支，一分支是具有两阶段的目标检测，如：RCNN系列(RCNN、Fast RCNN以及RFCN等)这些目标检测方法分为两个阶段，在第一阶段，通过算法或区域提议网络生成高质量的候选框。然后在第二阶段设计子网络对这些候选框进行分类和边框回归，因此由于这类检测方法分为两阶段所以在检测速度方面存在缺陷，达不到实时的效果。另一分支则是单阶段的目标检测方法(如YOLO、SSD以及DSOD等)，因为没有产生候选框阶段所以相对于前一种方法来说准确率相对较差，但其检测速度十分优秀可以达到实时的检测。

目前基于单阶段的目标检测方法的改进主要是通过结合不同特征图的信息或者采用更复杂的网络结构来获取具有高语义的特征信息，例如：在YOLO方法中直接在最后的卷积层上进行边界框回归的目标检测，SSD方法则是在YOLO方法的基础上提出来的，该方法是结合最后几个卷积层进行预测，因而有更高的准确率。DSSD方法则是在SSD的改进，通过采用更复杂的网络结构(ResNet)进行特征提取，并结合反卷积层获取更多的语义信息。在Single-Shot Bidirectional Pyramid Networks的方法中则采用了双向的特征金字塔网络结构，结合了底层和高层之间的特征信息，并采用了一个级联的锚优化模块来提高候选框的定位能力。

上述大多数的改进方法都是在牺牲检测速度的基础上提高其检测精度，例如：1、采用更复杂的网络模型进行特征提取的方法。在DSSD方法中，因其用于特征提取的网络结构ResNet相对复杂，引入了较多的参数所以在检测帧率上会大幅度下降；2、通过引入新的模块来解决单阶段目标检测的正负样本失衡问题。在Single-Shot BidirectionalPyramid Networks方法中便通过添加一个新的级联的锚优化模块来提高方法的定位准确率，同样在Single-shot Refinement Neural Network方法中也引入了类似的锚优化模块来去除一些负样本。相比于通过引入新的损失函数来缓解正负样本严重失衡问题，添加新模块的这种方法也增加了训练参数，从而也会使检测速率极大地下降。

名词解释：

CoupleNet：复合网络。

CBAM：(Convolutional Block Attention Module)卷积块注意模块。

DSOD：(Deeply Supervised Object Detectors)强监督目标检测器。

DSSD(Deconvolutional Single Shot Detector)反卷积的单次多边界盒检测器。

Focal Loss：聚焦损失。

FPN：(Feature Pyramid Networks)空间金字塔网络。

Fast RCNN：基于区域提议的快速卷积神经网络。

IOU：(Intersection over Union)重叠度。

NMS：(Non-Maximum Suppression)非极大值抑制。

RCNN：(Regions with CNN features)基于区域提议的卷积神经网络。

RFCN：(Region-based Fully Convolutional Networks)基于区域提议的全卷积网络。

ROI Pooling：(Region of Interest Pooling)感兴趣区域池化。

ResNet：深度残差网络。

Soft-NMS：(Soft Non-Maximum Suppression)软化非极大值抑制。

SSD：(Single Shot MultiBox Detector)单次多边界盒检测器。

SENet：(Squeeze-and-Excitation Networks)压缩激励网络。

Single-Shot Bidirectional Pyramid Networks：单次双向的金字塔网络。

Single-shot Refinement Neural Network：单次优化神经网络。

VGG：即Visual Geometry Group的缩写。

YOLO：即You only look once的缩写。

发明内容

为了解决上述技术问题，本发明的目的是提供一种高准确率的实时目标检测的方法、系统及装置。

本发明方法所采用的技术方案是：

一种实时目标检测的方法，包括以下步骤：

获取待检测的图片，并对图片进行第一卷积处理后，获得第一特征图；

提取第一特征图的第一空间信息和第一通道信息后，结合第一特征图、第一空间信息和第一通道信息获得第二特征图；

对第二特征图进行第二卷积处理后，获得第三特征图；

提取第三特征图的第二空间信息和第二通道信息后，结合第三特征图、第二空间信息和第二通道信息获得第四特征图；

对第四特征图进行第三卷积处理后，获得第五特征图；

对第五特征图进行第一反卷积处理后，获得第六特征图；

对第六特征图进行第二反卷积处理后，获得第七特征图；

对第七特征图进行第三反卷积处理后，获得第八特征图；

将第一特征图与第八特征图进行合并后获得第九特征图，以及将第三特征图与第七特征图进行合并后获得第十特征图；

根据预设的损失函数分别对第六特征图、第九特征图和第十特征图进行分类和边界框的预测。

进一步，所述预设的损失函数包括分类损失函数、边界框回归损失函数和聚焦损失函数。

进一步，所述根据预设的损失函数分别对第六特征图、第九特征图和第十特征图进行分类和边界框的预测这一步骤，具体为：

结合分类损失函数、边界框回归损失函数、聚焦损失函数和预设的IOU阈值分别对第六特征图、第九特征图和第十特征图进行分类和边界框的预测。

进一步，所述提取第一特征图的第一空间信息和第一通道信息这一步骤，具体为：

采用预设的卷积块注意模块提取第一特征图的第一空间信息和第一通道信息。

进一步，所述卷积块注意模块包括通道注意模块和空间注意模块。

进一步，所述对图片进行第一卷积处理这一步骤，具体为：

采用预设的卷积层对图片进行第一卷积处理，并提取图片中的特征信息，所述特征信息包括位置信息和语义信息。

进一步，所述卷积层采用VGG-16网络模型。

本发明系统所采用的技术方案是：

一种实时目标检测的系统，包括：

第一卷积模块，用于获取待检测的图片，并对图片进行第一卷积处理后，获得第一特征图；

第一提取模块，用于提取第一特征图的第一空间信息和第一通道信息后，结合第一特征图、第一空间信息和第一通道信息获得第二特征图；

第二卷积模块，用于对第二特征图进行第二卷积处理后，获得第三特征图；

第二提取模块，用于提取第三特征图的第二空间信息和第二通道信息后，结合第三特征图、第二空间信息和第二通道信息获得第四特征图；

第三卷积模块，用于对第四特征图进行第三卷积处理后，获得第五特征图；

第四卷积模块，用于对第五特征图进行第一反卷积处理后，获得第六特征图；

第五卷积模块，用于对第六特征图进行第二反卷积处理后，获得第七特征图；

第六卷积模块，用于对第七特征图进行第三反卷积处理后，获得第八特征图；

合并模块，用于将第一特征图与第八特征图进行合并后获得第九特征图，以及将第三特征图与第七特征图进行合并后获得第十特征图；

预测模块，用于根据预设的损失函数分别对第六特征图、第九特征图和第十特征图进行分类和边界框的预测。

进一步，所述预设的损失函数包括分类损失函数、边界框回归损失函数和聚焦损失函数，所述预测模块具体用于结合分类损失函数、边界框回归损失函数、聚焦损失函数和预设的IOU阈值分别对第六特征图、第九特征图和第十特征图进行分类和边界框的预测。

本发明装置所采用的技术方案是：

一种实时目标检测的装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述的一种实时目标检测的方法。

本发明的有益效果是：本发明基于单阶段的目标检测方法的改进，通过结合多个特征图以及空间信息和通道信息来提高检测准确率，从而保证实时检测的基础上提高检测准确率，满足了实时目标检测的要求。

附图说明

图1是本发明一种实时目标检测的方法的步骤流程图；

图2是本发明一种实时目标检测的系统的结构框图；

图3是具体实施例中实时目标检测方法的结构示意图。

具体实施方式

实施例一

如图1所示，本实施例提供了一种实时目标检测的方法，包括以下步骤：

S1、获取待检测的图片，并对图片进行第一卷积处理后，获得第一特征图；

S2、提取第一特征图的第一空间信息和第一通道信息后，结合第一特征图、第一空间信息和第一通道信息获得第二特征图；

S3、对第二特征图进行第二卷积处理后，获得第三特征图；

S4、提取第三特征图的第二空间信息和第二通道信息后，结合第三特征图、第二空间信息和第二通道信息获得第四特征图；

S5、对第四特征图进行第三卷积处理后，获得第五特征图；

S6、对第五特征图进行第一反卷积处理后，获得第六特征图；

S7、对第六特征图进行第二反卷积处理后，获得第七特征图；

S8、对第七特征图进行第三反卷积处理后，获得第八特征图；

S9、将第一特征图与第八特征图进行合并后获得第九特征图，以及将第三特征图与第七特征图进行合并后获得第十特征图；

S10、根据预设的损失函数分别对第六特征图、第九特征图和第十特征图进行分类和边界框的预测。

上述方法的工作原理为：本方法的框架为在SSD方法上，结合卷积块注意模块和空间金字塔网络的结构框架，获取多个特征图、空间信息和通道信息来提高检测准确率从而保证实时检测的基础上提高检测准确率。

具体地，S10中所述预设的损失函数包括分类损失函数、边界框回归损失函数和聚焦损失函数。步骤S10具体为：结合分类损失函数、边界框回归损失函数、聚焦损失函数和预设的IOU阈值分别对第六特征图、第九特征图和第十特征图进行分类和边界框的预测。

所述IOU阈值是用于将候选框分为正负样本，在IOU阈值的基础上，可计算计算每个候选框的损失函数，通常损失函数包括分类损失和边界框回归损失两部分，由于本实施例增加了聚焦损失函数，可通过不断优化损失来产生更准确的候选边界框，从而获得更加准确的检测结果。

具体地，步骤S2中所述提取第一特征图的第一空间信息和第一通道信息这一步骤，具体为：采用预设的卷积块注意模块提取第一特征图的第一空间信息和第一通道信息。所述卷积块注意模块包括通道注意模块和空间注意模块。

所述卷积块注意模块将注意力机制引入到了通道和空间维度上，形成了通道注意模块和空间注意模块，通过在内部级联这两个注意力模块，分别从特征图的空间和通道层面上提取有用信息，从而增强特征表达能力。其中通道注意模块与SENet类似，都是将特征图在空间上维度上进行压缩，得到一个一维矢量以后再进行操作。与SENet不同之处在于，对特征图进行维度压缩时不仅进行了平均池化同时也通过采用最大值池化来补充信息。而空间注意模块则是在通道层面上进行压缩，对输入特征分别在通道维度上做了平均和最大值池化操作，以此来提取空间中的信息。

所述步骤S4中提取第三特征图的第二空间信息和第二通道信息也可采用上述的方式进行实现。

具体地，所述步骤S1中所述对图片进行第一卷积处理这一步骤，具体为：采用预设的卷积层对图片进行第一卷积处理，并提取图片中的特征信息，所述特征信息包括位置信息和语义信息。所述卷积层采用VGG-16网络模型。

其中，所述预设的卷积层通过一系列的卷积操作来提取图像中的特征信息，这些信息包括了位置信息和语义信息，通常卷积层包括5*5、3*3、1*1或7*7的卷积核，针对不同的网络结构采用的卷积核的大小和数目也不相同。在本实施例中所述卷积层采用VGG-16网络模型来实现，及通过VGG-16网络模型针对图片进行特征提取。

所述步骤S3、步骤S5、步骤S6、步骤S7和步骤S8均可采用上述的方式进行实现。

以下结合图3对上述方法进行详细的说明。

如图3所示，为目标检测方法的整体结构，该结构与特征图像金字塔的类似，主要包括三个部分：左侧的自底向上结构，包括第一卷积层、第二卷积层和第三卷积层，待检测的图片输入第一卷积层；右侧的自顶向下结构，包括第四卷积层、第五卷积层和第六卷积层；位于中间的横向连接，实质上是一个1*1的卷积核，通过该卷积操作可以降低特征图的维度便于连接。其中，自底向上结构与一般方法的结构相同，用来不断提取特征信息，而右侧的自顶向下结构则通过下采样(即反卷积)来不断的将顶层的特征图放大，横向连接则是将右侧的顶层特征与左侧的底层特征进行结合，使得特征更具有表达能力。

当输入待检测的图片时，第一卷积层先提取图片中的特征信息，随后网络将分为两条支路同时进行特征提取，其中一支路进行卷积处理，类似于第一卷积层的卷积操作，另一支路则通过卷积块注意模块来提取特征图上的空间和通道信息，然后将两支路中的特征信息合并应用于下一个卷积层，第二卷积层和第三卷积层与第一卷积层进行的卷积操作类似。接着第四卷积层对第三卷积层的结果进行下采样，即反卷积。其中，第四卷积层、第五卷积层和卷积层依次进行下采样。最后通过横向连接分别将第二卷积层和第五卷积层、第一卷积层和第六卷积层进行合，并获取高语义的特征信息。最后在预测模块中引入Focalloss来解决候选框的正负样本问题，并在卷积层四、五、六上同时进行对分类和边界框的预测，从而快速准确地对目标进行检测。

综上所述，本发明相对于现有的目标检测方法，至少具有如下有益效果：

(1)本方法采用较简单的网络结构所以其检测速度的损失相对较少，进而可以达到类似SSD的实时检测，同时又能提高检测的准确度。

(2)通过采用FPN、CBAM分别结合不同特征图以及通道间的信息，并运用FocalLoss损失函数来缓解其正负样本失衡问题，极大地提高了检测精确度。

实施例二

如图2所示，本实施例提供了一种实时目标检测的系统，包括：

进一步作为优选的实施方式，所述预设的损失函数包括分类损失函数、边界框回归损失函数和聚焦损失函数，所述预测模块具体用于结合分类损失函数、边界框回归损失函数、聚焦损失函数和预设的IOU阈值分别对第六特征图、第九特征图和第十特征图进行分类和边界框的预测。

上述系统基于单阶段的目标检测方法的改进，通过结合多个特征图以及空间信息和通道信息来提高检测准确率，从而保证实时检测的基础上提高检测准确率，满足了实时目标检测的要求。

实施例三

本实施例提供一种实时目标检测的装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现实施例一所述的一种实时目标检测的方法。

本实施例的一种实时目标检测的装置，可执行本发明方法实施例一所提供的一种实时目标检测的方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种实时目标检测的方法，其特征在于，包括以下步骤：

对第二特征图进行第二卷积处理后，获得第三特征图；

对第四特征图进行第三卷积处理后，获得第五特征图；

对第五特征图进行第一反卷积处理后，获得第六特征图；

对第六特征图进行第二反卷积处理后，获得第七特征图；

对第七特征图进行第三反卷积处理后，获得第八特征图；

2.根据权利要求1所述的一种实时目标检测的方法，其特征在于，所述预设的损失函数包括分类损失函数、边界框回归损失函数和聚焦损失函数。

3.根据权利要求2所述的一种实时目标检测的方法，其特征在于，所述根据预设的损失函数分别对第六特征图、第九特征图和第十特征图进行分类和边界框的预测这一步骤，具体为：

4.根据权利要求1所述的一种实时目标检测的方法，其特征在于，所述提取第一特征图的第一空间信息和第一通道信息这一步骤，具体为：

5.根据权利要求4所述的一种实时目标检测的方法，其特征在于，所述卷积块注意模块包括通道注意模块和空间注意模块。

6.根据权利要求5所述的一种实时目标检测的方法，其特征在于，所述对图片进行第一卷积处理这一步骤，具体为：

7.根据权利要求6所述的一种实时目标检测的方法，其特征在于，所述卷积层采用VGG-16网络模型。

8.一种实时目标检测的系统，其特征在于，包括：

9.根据权利要求8所述的一种实时目标检测的系统，其特征在于，所述预设的损失函数包括分类损失函数、边界框回归损失函数和聚焦损失函数，所述预测模块具体用于结合分类损失函数、边界框回归损失函数、聚焦损失函数和预设的IOU阈值分别对第六特征图、第九特征图和第十特征图进行分类和边界框的预测。

10.一种实时目标检测的装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-7任一项所述的一种实时目标检测的方法。