CN111461145B

CN111461145B - 一种基于卷积神经网络进行目标检测的方法

Info

Publication number: CN111461145B
Application number: CN202010244313.7A
Authority: CN
Inventors: 唐乾坤; 胡瑜
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-04-18
Anticipated expiration: 2040-03-31
Also published as: CN111461145A

Abstract

本发明提供一种基于卷积神经网络进行的目标检测方法，包括：提取特征图并设置若干不同的预设框；将所述预设框进行回归以调整其位置和大小；基于所述回归后的预设框提取其对应的局部卷积特征；将所述局部卷积特征输入卷积预测器进行分类和回归，获得目标的边界框位置和目标的类别，其中，所述卷积预测器是通过将所述预设框进行分类并选择正例预设框来训练获得。

Description

一种基于卷积神经网络进行目标检测的方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于卷积神经网络进行目标检测的方法。

背景技术

目标检测作为计算机视觉中的一个重要组成部分，其目的是从复杂的背景中识别出目标的类别并给出目标在图像中的位置信息，为后续目标追踪、情景理解等任务提供基础。目标检测技术对检测的精确性和实时性都有较高的要求，被广泛应用于自动驾驶、智能监控、增强现实、人脸识别、计算机辅助医疗以及军事国防等各个尖端领域。

现有的基于深度学习的目标检测方法主要包括基于候选区域的两阶段检测和基于回归的单阶段检测两种，两种方法各有优缺点。基于候选区域的目标检测方法，例如R-CNN、Fast R-CNN、Faster-RCNN、R-FCN以及Mask R-CNN等，是首先使用一个推荐区域(region proposal)网络来生成感兴趣区域(region of interest)，然后通过全连接层或者位置敏感卷积层对感兴趣区域进行分类。该方法虽然能获得较高的检测精度，但是需要较长的运行时间，在运算速度上无法达到实时性。基于回归的单阶段目标检测方法，例如YOLO、SSD等，通过使用回归的思想大幅提高了运行速度，但是其检测精度不及Faster-RCNN等两阶段目标检测方法。

因此，亟需一种目标检测方法使得在检测速度和检测准确方面达到平衡。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提供一种基于卷积神经网络进行的目标检测方法，包括：提取特征图并设置若干不同的预设框；将所述预设框进行回归以调整其位置和大小；基于所述回归后的预设框提取其对应的局部卷积特征；将所述局部卷积特征输入卷积预测器进行分类和回归，获得目标的边界框位置和目标的类别，其中，所述卷积预测器是通过将所述预设框进行分类并选择正例预设框来训练获得。

可选的，其中，所述正例预设框包括：预设框与真实目标框之间的重叠率IOU大于预设的阈值的预设框，其中

其中，d表示预设框，g表示真实的目标边界框，S_d表示预设框的面积，S_g表示真实的目标边界框的面积。

可选的，上述方法还包括：将所述特征图进行特征融合；为融合后的特征图设置若干不同的预设框。

可选的，其中，所述特征融合包括相邻特征融合。

可选的，上述方法还包括：采用级联卷积网络提取特征图。

可选的，其中，将所述预设框进行回归以调整其位置和大小包括：基于真实的目标边界框的中心点的位置调整所述预设框的中心点的位置；基于所述真实的目标边界框的大小调整所述预设框的宽和高；基于所述预设框的中心点位置以及宽和高的调整信息确定回归后的预设框的位置和大小。

可选的，其中，所述基于所述回归后的预设框提取其对应的局部卷积特征包括：根据所述回归后的预设框的位置的调整信息确定卷积核的整体偏移量；根据所述回归后的预设框的大小的调整信息确定所述卷积核中每个卷积单元的偏移量；根据所述卷积核的整体偏移量和所述每个卷积单元的偏移量确定卷积核卷积位置；基于所述卷积核的卷积位置提取回归后的预设框对应的局部卷积特征。

可选的，上述方法还包括：采用非极大值抑制算法优化检测结果。

可选的，其中，所述非极大值抑制算法包括：将各个边界框按照置信度从大到小排序；选择置信度最高的边界框作为输出边界框，并将其从边界框列表中删除；计算所有边界框的面积；计算该输出边界框与其他边界框的IOU；删除IOU大于指定阈值的边界框；重复上述过程，直至边界框列表为空。

本发明的另一方面提供了一种存储介质，其中存储有计算机程序，在所述计算机程序被处理器执行时，能够用于上述任一方法。

本发明的另一方面提供了一种电子设备，包括处理器和存储器，所述存储器中存储有计算机程序，在所述计算机程序被处理器执行时，能够用于实现上述任一方法。

与现有技术相比，本发明的优点在于：

使用本发明的目标检测方法可以有效地抑制过多的初始负例预设框对检测结果的负面影响，通过提升初始正例预设框的数量和定位性能以获得更好的检测精度；相比于现有技术，本发明能够同时处理大量的预设框，并消耗较少的时间，大幅提高检测的速度和准确度，改善网络的整体性能。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1A示出了现有技术中使用SSD网络模型进行目标检测的示意图；

图1B示出了现有技术中了使用SSD网络模型进行目标检测的流程图；

图2示出了根据一个实施例的基于卷积神经网络的目标检测方法；

图3A示出了根据一个实施例的对特征图进行相邻特征融合的示意图；

图3B示出了根据一个实施例的进行相邻特征融合后的特征图的示意图；

图4示出了根据一个实施例的将预设框进行回归的示意图；

图5示出了一个实施例的基于回归后的预设框提取其对应的局部卷积特征的示意图；

图6示出了另一个实施例的基于卷积神经网络的目标检测方法。

具体实施方式

下面结合附图和具体实施方式对本发明作详细说明。

现有的目标检测方法中，基于回归方法的SSD(Single Shot Multi-BoxDetector)网络模型结合了YOLO与Faster R-CNN的优点，能够在一个网络框架内同时进行位置与类别的预测，在一定程度上同时提升了检测速度和检测性能，是目前目标检测中较为先进的一种方法。

图1A示出了现有技术中使用SSD网络模型进行目标检测的示意图。如图1A所示，SSD的网络模型包括特征提取模块和检测识别模块两部分，其中，特征提取模块由基础网络和辅助结构组成，用于对输入图像提取不同尺度的卷积特征图以进行后续的多尺度预测；检测识别模块通过独立的卷积预测器对特征提取网络所获取的每一种尺度的卷积特征图进行处理，预测输入图像中目标的类别以及目标所在图像中的位置，并给出目标属于某一类的置信度得分以及目标的边界框的位置，然后综合这些在多尺度特征图上获得的目标类别以及位置的预测信息，执行非极大值抑制算法，去除冗余的目标预测边界框，从而得到最终的检测与识别结果。如图1A所示，一幅输入图像经过SSD网络模型的上述特征提取和检测识别过程，可以在输出图像中显示出目标的位置和类别，其中矩形框表示预测的目标的边界框，并且矩形框中的目标被分成小车这一类，相应的类别置信度得分为1。

图1B示出了使用SSD网络模型进行目标检测的流程图。如图1B所示，通过SSD网络模型进行目标检测主要包括以下步骤：(1)通过卷积网络提取不同尺度的特征图；(2)为每个特征图设置k个预设框；(3)卷积提取特征图中每一个特征单元所对应的预设框的局部深层特征；(4)将局部深层特征分别输入到卷积预测器的Softmax分类层和边框回归层，获得目标的边界框位置以及目标类别的预测结果。

相比于其他目标检测方法，虽然SSD网络模型的性能有所提升，但由于需要在特征图的每个特征单元均设置若干个不同长宽比、不同尺度的预设框，因此引入了大量的负例预设框，导致正负例预设框数量不均衡，进而影响检测的精度。

针对上述问题，本发明在SSD网络模型基础上做了进一步改进，提出一种新的基于卷积神经网络的目标检测方法，该方法在将预设框对应的局部深层特征分别输入到卷积预测器的Softmax分类层和边框回归层之前，先对预设框进行回归，通过回归调整预设框的位置和大小，并基于回归后的预设框提取对应的局部卷积特征输入卷积预测器进行目标检测，其中卷积预测器通过分类预设框并筛选正例预设框训练获得。该方法能够有效抑制过多的初始负例预设框对检测网络预测器的负面影响，提高检测精度，并且可以有效提高检测的速度和准确度，改善网络的整体性能。

图2示出了本发明一个实施例的基于卷积神经网络的目标检测方法。如图2所示，该方法主要包括以下步骤：

S210，提取输入图像的特征图并设置若干不同的预设框。

卷积神经网络主要由卷积层、激活函数层、池化层以及全连接层组成，其中，卷积层作为基本的数据处理单元，通过卷积核对输入图像或上一层的输出特征图进行滤波来自动提取输入数据中不同类型的特征信息(例如图像的边缘特征、轮廓特征等)。在一个实施例中，可以使用大小为3×3，输出通道数为256的卷积核来提取特征图。在一个实施例中，也可以在卷积层后面连接池化层，以减小卷积层输出的特征图尺寸，简化网络的计算复杂度，同时对卷积特征图进行压缩，提取出主要特征。在一个实施例中，还可以采用VGG、ResNet等级联卷积网络，通过把不同的卷积层、激活函数层、池化层、全连接层等按照一定的结构顺序串联起来，从网络的底层和高层获取不同尺度的卷积特征图。

在一个实施例中，为了实现不同层特征图之间语义信息互补，可以将卷积特征图中低分辨率、高语义信息的高层特征图与相邻的高分辨率、低语义信息的低层特征图进行特征融合，对融合后的特征图进行目标检测。

图3A示出了根据一个实施例的对特征图进行相邻特征融合的示意图。如图3A所示，经过卷积网络对输入图像提取特征后得到分辨率逐层递减的第N-1层、第N层和第N+1层卷积特征图。由于不同层次的特征图的分辨率不一样，在特征融合前需要对高层特征图进行上采样，以获得更高的分辨率与低层特征图相匹配。例如，为了与第N层特征图的分辨率相同，可以对第N+1层特征图进行上采样使其分辨率增加到原来的两倍。此外，为了得到更好的特征图，也可分别对上采样后的第N+1层以及第N层特征图层先进行卷积以提取特征。第N+1层经过以上一系列操作后与第N层特征图层中相同位置的元素值相加而不改变其维度，得到第N个融合后的特征图。图3B示出了根据一个实施例的进行相邻特征融合后的特征图的示意图。如图3B所示，通过上述方法，将卷积特征图中所有相邻特征图两两融合，得到融合后的特征图。由于融合后的特征图具有更丰富的语义信息，因此在其基础上进行分类和边框回归能够得到更好的检测结果。

与SSD类似，为了实现目标检测，需要在特征图上设置若干个不同大小的预设框来进行密集抽样。例如，若卷积特征图大小为w×w，可以将其等分成w×w个特征单元，每一个特征单元预设k个预设框，则共设置w×w×k个预设框，k个预设框具有不同的尺度和大小，并且每个预设框与其对应的特征单元的位置是固定的。

S220，将预设框进行回归以调整其位置和大小。

对预设框进行回归是指对预设框的位置和大小进行微调，使得回归后的预设框更加接近于真实的目标边界框。

图4示出了一个实施例的将预设框进行回归的示意图。如图4所示，P代表预设框，G代表真实的目标边界框，

代表回归后的预设框，(x，y)代表预设框P的中心点的坐标，w，h分别表示预设框P的宽和高。通过回归将预设框P进行平移和尺度放缩，可产生Δx，Δy，ΔS_w和ΔS_h4个变量，其中Δx，Δy表示预设框中心点坐标的偏移量，ΔS_w和ΔS_h分别表示预设框宽和高的变化量，则回归后的预设框

由于回归后的预设框与真实的目标边界框更为接近，即

因此将基于回归后的预设框提取对应的卷积特征进行检测可以提高有效提升检测的速度和准确率。

S230，基于回归后的预设框提取其对应的局部卷积特征。

根据本发明的一个实施例，提取局部卷积特征包括以下步骤：

S231：根据回归后的预设框的中心点位置的调整信息确定用于提取局部特征的卷积核的整体偏移量。可以使用多层卷积层级联的结构从回归后的预设框的中心点位置的调整信息中提取特征以获取用于提取局部特征的卷积核的整体偏移量。图5示出了一个实施例中基于回归后的预设框提取其对应的局部卷积特征的示意图。如图5所示，首先使用卷积核大小为1×1,输出通道为2k的卷积操作1提取特征，然后再使用卷积核大小为3×3，输出通道数为2(2代表x,y方向)的卷积操作2提取特征，得到用于提取局部特征的卷积核的整体平移量c。

S232：根据回归后的预设框的大小的调整信息确定用于提取局部特征的卷积核中每个卷积单元的偏移量。可以使用多层卷积层级联的结构从预设框的宽和高的调整信息中提取特征，以获取每个卷积单元的偏移量。如图5所示，首先使用卷积核大小为1×1,输出通道为2k的卷积操作1提取特征，然后再使用卷积核大小为3×3，输出通道数为2×3×3(2代表x,y方向,3×3代表卷积核大小)的卷积操作3，得到用于提取局部特征的卷积核中的每个卷积单元的平移量Δs。

S233：根据用于提取局部特征的卷积核的整体偏移量和每个卷积单元的偏移量确定其卷积位置。将上述卷积核整体偏移量c与每个卷积单元的偏移量Δs相加，可得到用于提取局部特征的卷积核的偏移位置

卷积核的大小例如可以是3×3。

S234：根据卷积核的卷积位置提取回归后的预设框对应的局部卷积特征。

S240，将提取到的局部卷积特征输入卷积预测器进行分类和回归，获得目标的边界框位置和目标的类别。

将回归后的预设框对应的局部卷积特征分别输入到卷积预测器Softmax分类层和边界框回归层，从而获得目标的类别以及目标的边界框的位置，其中卷积预测器可以通过将特征图的所有预设框进行分类并选择正例预设框来训练获得。对于特征单元的每一个回归后的预设框都会获得其目标类别和位置的预测信息，其中目标的类别通过类别与对应的置信度得分来表示，目标边界框的位置则包括边界框相对于回归后的预设框的4个偏移量，即中心点的横坐标、纵坐标、框的高度和宽度的变化量。由于目标的总类别数加上背景一共有C+1个类别，每一个特征单元有k个回归后的预设框，产生(C+1+4)×k个输出。对于该特征图来说，需要(C+1+4)k个卷积核去处理，其中(C+1)k个卷积核提取的局部特征输送到卷积预测器的Softmax分类层获得目标类别的预测信息，而4k个卷积核提取的局部特征送到卷积预测器的边框回归层获得目标边界框位置的预测信息。

在一个实施例中，由于卷积预测器可能获得多个置信度不同的目标边界框，可以采用非极大值抑制算法去除冗余的目标边界框，具体包括：将各个边界框按照置信度从大到小排序；选择置信度最高的边界框作为输出边界框，并将其从边界框列表中删除；计算所有预测边界框的面积；计算该输出边界框与其他边界框的IOU；删除IOU大于指定阈值的边界框；重复上述过程，直至边界框列表为空。

在一个实施例中，在提取特征图并设置预设框后可以分别对预设框进行分类和回归，通过分类获得预设框的正负例标签以选择正例预设框用于训练卷积预测器，通过回归调整预设框的位置和大小，并基于回归后的预先框提取对应的局部卷积特征输入预测器以获得检测结果。

图6示出了另一个实施例的基于卷积神经网络的目标检测方法。如图6所示，该方法包括如下步骤：

S610，提取输入图像的特征图并设置若干不同的预设框。该步骤与上述S210类似，在此不再赘述。

S620，将预设框进行分类以选择正例预设框来训练卷积预测器。

可以将特征图中设置的所有预设框都映射到输入图像上的对应位置，并且与输入图像中真实的目标边界框依次进行匹配。基于预设框与真实目标边界框之间的重叠率(Intersection Over Union,IOU)来表征预设框的正负例，其中IOU的计算公式如下：

可设定一个阈值

例如

为0.5，若当某个预设框的

时，可认为该预设框为正例；当

时，可认为该预设框为负例。在一个实施例中，可以使用卷积核大小为3×3,输出通道为2×k的卷积网络对预设框进行分类，筛选正例预设框来训练预测器。若某个预设框的IOU小于阈值

则在训练预测器时将该预设框的反传梯度置为0以忽略该预设框。

S630，将预设框进行回归以调整其位置和大小。

S640，基于所述回归后的预设框提取其对应的局部卷积特征。

S650，训练好的卷积预测对局部卷积特征进行分类和回归，获得目标的边界框位置和目标的类别。

基于上述实施例可以看出，通过使用正例可能性较大的预设框来训练分类预测器，能够本在保障检测速度的同时，更好的提高目标检测的精度和准确率，具有更好的性能。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于卷积神经网络进行目标检测的方法，包括：

提取特征图并设置若干不同的预设框；

将所述预设框进行回归以调整其位置和大小，其包括：基于真实的目标边界框的中心点的位置调整所述预设框的中心点的位置，基于所述真实的目标边界框的大小调整所述预设框的宽和高，基于所述预设框的中心点位置以及宽和高的调整信息确定回归后的预设框的位置和大小；

基于所述回归后的预设框提取其对应的局部卷积特征，其包括：根据所述回归后的预设框的中心点位置的调整信息确定卷积核的整体偏移量，根据所述回归后的预设框的大小的调整信息确定所述卷积核中每个卷积单元的偏移量，根据所述卷积核的整体偏移量和所述每个卷积单元的偏移量确定卷积核卷积位置，基于所述卷积核的卷积位置提取回归后的预设框对应的局部卷积特征；

将所述局部卷积特征输入卷积预测器进行分类和回归，获得目标的边界框位置和目标的类别，其中，所述卷积预测器是通过将所述预设框进行分类并选择正例预设框来训练获得。

2.根据权利要求1所述的方法，其中，所述正例预设框包括：预设框与真实目标框之间的重叠率IOU大于预设的阈值的预设框，其中

3.根据权利要求1所述的方法，还包括：

将所述特征图进行特征融合；

为融合后的特征图设置若干不同的预设框。

4.根据权利要求3所述的方法，其中，所述特征融合包括相邻特征融合。

5.根据权利要求1所述的方法，还包括：采用级联卷积网络提取特征图。

6.根据权利要求1所述的方法，还包括：采用非极大值抑制算法优化检测结果。

7.根据权利要求6所述的方法，其中，所述非极大值抑制算法包括：

将各个边界框按照置信度从大到小排序；

选择置信度最高的边界框作为输出边界框，并将其从边界框列表中删除；

计算所有边界框的面积；

计算该输出边界框与其他边界框的IOU；

删除IOU大于指定阈值的边界框；

重复上述过程，直至边界框列表为空。

8.一种存储介质，其中存储有计算机程序，在所述计算机程序被处理器执行时，能够用于实现权利要求1-7中任一项所述的方法。

9.一种电子设备，包括处理器和存储器，所述存储器中存储有计算机程序，在所述计算机程序被处理器执行时，能够用于实现权利要求1-7中任一项所述的方法。