CN109543662A

CN109543662A - 基于区域提议的目标检测方法、系统、装置和存储介质

Info

Publication number: CN109543662A
Application number: CN201811619663.6A
Authority: CN
Inventors: 郝禄国; 杨琳; 葛海玉; 龙鑫; 曾文彬; 李伟儒
Original assignee: Guang Zhou Hai Noboru Computer Science And Technology Ltd
Current assignee: Guang Zhou Hai Noboru Computer Science And Technology Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-03-29
Anticipated expiration: 2038-12-28
Also published as: CN109543662B

Abstract

本发明公开了一种基于区域提议的目标检测方法、系统、装置和存储介质，所述方法包括将待检测图像输入到目标检测网络中，接收目标检测网络输出的最终边界框，根据所述最终边界框，从所述待检测图像中确定要检测的目标等步骤。本发明提供了一种全新的目标检测网络，目标检测网络包括多个分支，各分支的特征图中均包含相应的局部信息和全局信息，每个分支在上一个分支的处理结果的基础上继续进行特征提取和特征信息学习，因此能够兼顾图像的局部信息和全局信息，能够取得很高的目标检测准确度。本发明广泛应用于图像识别技术领域。

Description

基于区域提议的目标检测方法、系统、装置和存储介质

技术领域

本发明涉及图像识别技术领域，尤其是基于区域提议的目标检测方法、系统、装置和存储介质。

背景技术

目标检测算法可以检测到图像中的人脸或汽车等特定目标，被广泛应用在图像识别技术领域。主流的目标检测算法分为基于区域提议的算法和无区域提议的算法两大类。基于区域提议的算法的主要原理是将目标检测任务分为两个子任务：在第一个子任务中，生成高质量的候选框；在第二个子任务中，通过子网络对这些候选框进行分类和边框回归，选择出最适合的边界框，从而确定图像中的目标。

目前针对现有的基于区域提议的目标检测方法的改进主要有以下几个方面：获取具有更高语义的特征表达，例如采用更复杂的网络模型进行特征提取(ResNet、DenseNet)，或结合多层特征进行表达，例如SPPNet(空间金字塔网络)、FPN(空间金字塔网络)等；改进正负样本的选择方法，例如NMS(非极大值抑制)、Soft-NMS(软化非极大值抑制)等；增强检测方法的定位能力从而提高精度，例如CascadeNet(级联网络)、迭代的边界框回归方法等。

现有的基于区域提议的目标检测算法及其改进的缺点在于，片面的只关注某一方面的改进如特征信息的增强、边界框的定位能力，但是难以同时有效地实现各方面的改进，因此目标检测精度仍有较大的空间。

发明内容

为了解决上述技术问题，本发明的目在于提供一种基于区域提议的目标检测方法、系统、装置和存储介质。

一方面，本发明实施例包括一种基于区域提议的目标检测方法，包括以下步骤：

将待检测图像输入到目标检测网络中；

接收目标检测网络输出的最终边界框；

根据所述最终边界框，从所述待检测图像中确定要检测的目标；

所述目标检测网络包括第一卷积层、第二卷积层、区域候选网络和多个具有顺序关系的分支；

所述第一卷积层用于接收待检测图像并执行第一卷积处理，从而输出第一卷积结果；所述第二卷积层用于接收所述第一卷积结果并执行第二卷积处理，从而输出第二卷积结果；

所述区域候选网络用于接收所述第一卷积结果并输出多个候选框；

各所述分支分别包括投影单元、池化处理单元、融合单元和预测网络；

顺序为第一的分支的投影单元用于将所述区域候选网络输出的候选框投影到所述第二卷积结果上，从而得到与该分支相应的第一感兴趣区域和第二感兴趣区域；顺序为其他的分支的投影单元用于将上一顺序的分支输出的候选框投影到所述第二卷积结果上，从而得到与该分支相应的第一感兴趣区域和第二感兴趣区域；

各所述分支中：池化处理单元用于对该分支相应的第一感兴趣区域进行第一池化处理，以及对该分支相应的第二感兴趣区域进行第二池化处理；融合单元用于将该分支相应的第一池化处理的结果和第二池化处理的结果融合得到特征图；预测网络用于接收该分支相应的特征图并输出该分支相应的分类得分和边界框；

顺序为最后的分支输出的边界框为最终边界框。

进一步地，所述第一卷积层为ResNet-50网络中的前40层部分，所述第二卷积层为ResNet-50网络中的后10层部分。

进一步地，所述第二感兴趣区域是相应分支中对应的第一感兴趣区域的副本。

进一步地，所述第一池化处理是通过位置敏感的感兴趣区域池化过程进行的，所述第二池化处理是通过感兴趣区域池化过程进行的。

进一步地，各所述分支中的预测网络分别对应各自的重叠度阈值，各所述预测网络的重叠度阈值随着相应分支的顺序递增。

进一步地，顺序为第一的分支中的预测网络对应的重叠度阈值为0.5。

另一方面，本发明实施例还包括一种基于区域提议的目标检测方法，包括以下步骤：

将待检测图像输入到目标检测网络中；

接收目标检测网络输出的最终边界框；

所述目标检测网络包括第一卷积层、第二卷积层、区域候选网络、投影单元、池化处理单元、融合单元和预测网络；

所述投影单元用于将所述区域候选网络输出的候选框投影到所述第二卷积结果上，从而得到第一感兴趣区域和第二感兴趣区域；所述池化处理单元用于对第一感兴趣区域进行第一池化处理，以及对第二感兴趣区域进行第二池化处理；所述融合单元用于将第一池化处理的结果和第二池化处理的结果融合得到特征图；预测网络用于接收特征图并输出分类得分和最终边界框。

另一方面，本发明实施例还包括一种基于区域提议的目标检测系统，包括：

目标检测网络模块，用于将待检测图像输入到目标检测网络中；

边界框模块，用于接收目标检测网络输出的最终边界框；

目标确定模块，用于根据所述最终边界框，从所述待检测图像中确定要检测的目标；

顺序为最后的分支输出的边界框为最终边界框。

另一方面，本发明还包括一种基于区域提议的目标检测装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行本发明方法。

另一方面，本发明还包括一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行本发明方法。

本发明的有益效果是：本发明提供了一种全新的目标检测网络，目标检测网络包括多个分支，各分支的特征图中均包含相应的局部信息和全局信息，每个分支在上一个分支的处理结果的基础上继续进行特征提取和特征信息学习，并不断地对边界框进行优化，得到最终边界框，因此能够同时增强特征信息的有效性和边界框的定位能力，能够取得很高的目标检测准确度。

附图说明

图1为本发明基于区域提议的目标检测方法一个实施例的流程图；

图2为本发明实施例中目标检测网络的结构图。

具体实施方式

实施例1

本发明包括一种基于区域提议的目标检测方法，参照图1，包括以下步骤：

S1.将待检测图像输入到目标检测网络中；

S2.接收目标检测网络输出的最终边界框；

S3.根据所述最终边界框，从所述待检测图像中确定要检测的目标；

顺序为最后的分支输出的边界框为最终边界框。

本实施例中，步骤S1-S3所用的目标检测网络的结构如图2所示。其中第一卷积层和第二卷积层用于执行一系列卷积操作来提取图像中的特征信息。第一卷积层和第二卷积层分别包括多个卷积核，卷积核的大小和总数量与所选择的卷积神经网络结构有关。优选地，本实施例中使用ResNet-50网络，将ResNet-50网络中的前40层作为第一卷积层，将ResNet-50网络中的后10层作为第二卷积层。第一卷积层所执行的第一卷积处理，是指ResNet-50网络中的前40层所进行的处理；第二卷积层所执行的第二卷积处理，是指ResNet-50网络中的后10层所进行的处理。

本实施例中，区域候选网络是一个小型的卷积神经网络，它可以输出多个候选框，这些候选框可以分别投影在待检测图像上，从而确定各自对应的感兴趣区域。本实施例中，区域候选网络的原理是：对第一卷积结果进行3*3卷积操作，在每次卷积操作的图像中心位置产生3个尺度以及3个宽高比的候选框，从而得到9个候选框，可以通过改变区域候选网络中候选框的尺度大小和宽高比来调整所得到的感兴趣区域的数量，一般来说，感兴趣区域越多，最终的目标检测结果越准确，但耗时也相应变长。

本实施例中，目标检测网络包括第一分支、第二分支和第三分支，它们的顺序依次为第一、第二和第三。本发明中各分支的顺序只用于简要清楚地说明技术方案，并不意味着实际使用中必须要对各分支进行标号和排序才能工作。

本实施例中，每个分支都包括各自的投影单元、池化处理单元、融合单元和预测网络。

第一分支中：投影单元将区域候选网络输出的候选框投影到第二卷积结果上，得到与第一分支相应的第一感兴趣区域和第二感兴趣区域；池化处理单元对第一感兴趣区域进行第一池化处理，池化处理单元对第二感兴趣区域进行第二池化处理；融合单元将第一池化处理的结果和第二池化处理的结果融合得到特征图；预测网络接收特征图并输出分类得分和边界框。

第二分支中：投影单元将第一分支输出的边界框投影到第二卷积结果上，得到与第二分支相应的第一感兴趣区域和第二感兴趣区域；池化处理单元对第一感兴趣区域进行第一池化处理，池化处理单元对第二感兴趣区域进行第二池化处理；融合单元将第一池化处理的结果和第二池化处理的结果融合得到特征图；预测网络接收特征图并输出分类得分和边界框。

第三分支中：投影单元将第二分支输出的边界框投影到第二卷积结果上，得到与第三分支相应的第一感兴趣区域和第二感兴趣区域；池化处理单元对第一感兴趣区域进行第一池化处理，池化处理单元对第二感兴趣区域进行第二池化处理；融合单元将第一池化处理的结果和第二池化处理的结果融合得到特征图；预测网络接收特征图并输出分类得分和最终边界框。其中最终边界框为步骤S1-S3所用到的数据。

本实施例中，所述第二感兴趣区域是相应分支中对应的第一感兴趣区域的副本。也就是说说，第一分支中的第二感兴趣区域与第一分支中的第一感兴趣区域是完全相同的，第二分支中的第二感兴趣区域与第二分支中的第一感兴趣区域是完全相同的，第三分支中的第二感兴趣区域与第三分支中的第一感兴趣区域也是完全相同的。可以直接由第一感兴趣区域复制得到第二感兴趣区域，大幅减少所需要处理的数据量。

本实施例中，各分支都会对各自得到的第一感兴趣区域和第二感兴趣区域分别进行池化处理，优选地，针对第一感兴趣区域进行的第一池化处理为位置敏感的感兴趣区域池化过程(Position Sensitive Region of Interest Pooling，PSROI Pooling)，针对第二感兴趣区域进行的第一池化处理为感兴趣区域池化过程(Region of InterestPooling，ROI Pooling)。对第一感兴趣区域进行的PSROI Pooling过程可以提取第一感兴趣区域的局部信息，对第二感兴趣区域进行的ROI Pooling过程可以提取第二感兴趣区域的全局信息。因此，各分支中由第一池化处理结果和第二池化处理结果融合得到的特征图就包括了局部信息和全局信息。特征图中包含的局部信息和全局信息主要通过语义信息和位置信息表示，其中语义信息用于描述目标的类型，即目标是什么，位置信息用于描述目标在待检测图像中的坐标。

本实施例中，预测网络输出分类得分和边界框的原理是：在一定的重叠度(Intersection over Union，IOU)阈值的基础上，计算特征图对应的各候选框的损失函数，通过不断优化损失函数的方式输出最优的候选框作为边界框，以及将相应损失函数的结果输出为分类得分。其中，重叠度阈值是用来将候选框分为正负样本，损失函数包括分类损失和边界框回归损失两部分。

进一步作为优选的实施方式，各所述分支中的预测网络分别对应各自的重叠度阈值，各所述预测网络的重叠度阈值随着相应分支的顺序递增。本实施例中，第一分支中的预测网络对应的重叠度阈值为0.5，第二分支中的预测网络对应的重叠度阈值为0.6，第三分支中的预测网络对应的重叠度阈值为0.7。

本实施例中的目标检测方法具有以下优点：提供了一种全新的目标检测网络，目标检测网络包括多个分支，各分支的特征图中均包含相应的局部信息和全局信息，每个分支在上一个分支的处理结果的基础上继续进行特征提取和特征信息学习，因此能够兼顾图像的局部信息和全局信息，能够取得很高的目标检测准确度。

实施例2

本实施例中的目标检测方法包括以下步骤：

S1.将待检测图像输入到目标检测网络中；

S2.接收目标检测网络输出的最终边界框；

本实施例中所用的目标检测网络属于实施例1中所用的目标检测网络的简化结果，即只包括一个分支。由于实施例1中各分支的原理是一样的，本实施例的说明也可以参考实施例1的说明。

本实施例还包括一种基于区域提议的目标检测系统，包括：

边界框模块，用于接收目标检测网络输出的最终边界框；

顺序为最后的分支输出的边界框为最终边界框。

本实施例中的基于区域提议的目标检测系统，可以执行本发明的基于区域提议的目标检测方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还包括一种基于区域提议的目标检测装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行本发明方法。本实施例中的基于区域提议的目标检测装置，可以执行本发明的基于区域提议的目标检测方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还包括一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行本发明方法。通过使用本实施例中的存储介质，可以执行本发明的基于区域提议的目标检测方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

以上是对本发明的较佳实施进行了具体说明，但对本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于区域提议的目标检测方法，其特征在于，包括以下步骤：

将待检测图像输入到目标检测网络中；

接收目标检测网络输出的最终边界框；

顺序为最后的分支输出的边界框为最终边界框。

2.根据权利要求1所述的一种基于区域提议的目标检测方法，其特征在于，所述第一卷积层为ResNet-50网络中的前40层部分，所述第二卷积层为ResNet-50网络中的后10层部分。

3.根据权利要求1所述的一种基于区域提议的目标检测方法，其特征在于，所述第二感兴趣区域是相应分支中对应的第一感兴趣区域的副本。

4.根据权利要求1所述的一种基于区域提议的目标检测方法，其特征在于，所述第一池化处理是通过位置敏感的感兴趣区域池化过程进行的，所述第二池化处理是通过感兴趣区域池化过程进行的。

5.根据权利要求1所述的一种基于区域提议的目标检测方法，其特征在于，各所述分支中的预测网络分别对应各自的重叠度阈值，各所述预测网络的重叠度阈值随着相应分支的顺序递增。

6.根据权利要求5所述的一种基于区域提议的目标检测方法，其特征在于，顺序为第一的分支中的预测网络对应的重叠度阈值为0.5。

7.一种基于区域提议的目标检测方法，其特征在于，包括以下步骤：

将待检测图像输入到目标检测网络中；

接收目标检测网络输出的最终边界框；

8.一种基于区域提议的目标检测系统，其特征在于，包括：

边界框模块，用于接收目标检测网络输出的最终边界框；

顺序为最后的分支输出的边界框为最终边界框。

9.一种基于区域提议的目标检测装置，其特征在于，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行权利要求1-7任一项所述方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-7任一项所述方法。