CN108846826A

CN108846826A - 物体检测方法、装置、图像处理设备及存储介质

Info

Publication number: CN108846826A
Application number: CN201810373286.6A
Authority: CN
Inventors: 施建源; 陈剑勇; 朱映映
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2018-11-20
Anticipated expiration: 2038-04-24
Also published as: CN108846826B

Abstract

本发明适用计算机技术领域，提供了一种物体检测方法、装置、图像处理设备及存储介质，该方法包括：通过训练好的卷积神经网络提取待检测图像在不同卷积层的特征图，从这些特征图中选取待预测特征图，在待预测特征图的每个特征值位置处生成与待检测图像尺寸相关的先验框，通过训练好的特征增强模块和预测模块，对待预测特征图进行预测，生成每个先验框对应的预测框，根据待预测特征图上的预测框，确定待检测图像上的目标物体类别和目标物体位置，从而有效地提高待检测图像上较小物体的检测效果，降低了复杂背景对检测结果的干扰，并实现多尺寸待检测图像的物体检测，进而有效地提高了物体检测的速度、效率和灵活性。

Description

物体检测方法、装置、图像处理设备及存储介质

技术领域

本发明属于计算机技术领域，尤其涉及一种物体检测方法、装置、图像处理设备及存储介质。

背景技术

随着无人驾驶、人脸检测、智能视频监控等应用的蓬勃发展，检测速度和检测准确度是制约物体检测技术在各种应用上部署的重要因素，基于传统特征提取的物体检测技术都存在检测准确率低、检测速度慢的问题。

目前，对图像进行物体检测的主流做法是采用基于卷积神经网络的物体检测技术，相对于基于传统特征提取的物体检测技术，基于卷积神经网络的物体检测技术能够实现更快速、更准确的检测。然而，现有的基于卷积神经网络的物体检测技术难检测出图像中较小的物体、且易于被复杂背景干扰，检测速度和检测准确度仍有待提高，此外，现有的物体检测技术大多只能对单一尺寸的图像进行物体检测，灵活性不足。

发明内容

本发明的目的在于提供一种物体检测方法、装置、图像处理设备及存储介质，旨在解决由于现有技术无法提供一种有效的物体检测方法，导致物体检测的检测速度不高、检测准确度不足、以及灵活性不足的问题。

一方面，本发明提供了一种物体检测方法，所述方法包括下述步骤：

接收待检测图像，通过预先训练好的卷积神经网络对所述待检测图像进行特征提取，以得到所述待检测图像在不同卷积层的特征图；

从所述提取得到的所有特征图中选取预设数目个待预测特征图，在每个所述待预测特征图的每个特征值位置处生成相应的先验框；

通过预先训练好的特征增强模块和预测模块，对每个所述待预测特征图进行预测，生成所述每个先验框对应的预测框；

根据所述待预测特征图上的所述预测框，确定所述待检测图像上的目标物体类别和目标物体位置。

另一方面，本发明提供了一种物体检测装置，所述装置包括：

特征提取单元，用于接收待检测图像，通过预先训练好的卷积神经网络对所述待检测图像进行特征提取，以得到所述待检测图像在不同卷积层的特征图；

先验框生成单元，用于从所述提取得到的所有特征图中选取预设数目个待预测特征图，在每个所述待预测特征图的每个特征值位置处生成相应的先验框；

特征图预测单元，用于通过预先训练好的特征增强模块和预测模块，对每个所述待预测特征图进行预测，生成所述每个先验框对应的预测框；以及

目标物体确定单元，用于根据所述待预测特征图上的所述预测框，确定所述待检测图像上的目标物体类别和目标物体位置。

另一方面，本发明还提供了一种图像处理设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述物体检测方法所述的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述物体检测方法所述的步骤。

本发明通过训练好的卷积神经网络提取待检测图像在不同卷积层的特征图，在从这些特征图中选取的待预测特征图的每个特征位置处，生成与待检测图像尺寸相关的先验框，通过训练好的特征增强模块和预测模块，对待预测特征图进行预测，生成每个先验框对应的预测框，根据这些预测框确定待检测图像上的目标物体类别和目标物体位置，从而通过图像卷积特征的增强，提高待检测图像上较小物体的检测效果、降低复杂背景对检测结果的干扰，通过生成与待检测图像尺寸相适应的先验框，实现多尺寸待检测图像的物体检测，进而有效地提高了物体检测的速度、效率和灵活性。

附图说明

图1是本发明实施例一提供的物体检测方法的实现流程图；

图2是本发明实施例二提供的物体检测装置的结构示意图；

图3是本发明实施例二提供的物体检测装置的优选结构示意图；以及

图4是本发明实施例三提供的图像处理设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的物体检测方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，接收待检测图像，通过预先训练好的卷积神经网络对待检测图像进行特征提取，以得到待检测图像在不同卷积层的特征图。

本发明实施例适用于对图像上的目标物体进行检测的平台或系统。在训练卷积神经网络时，可收集训练图像集，训练图像集中每张训练图像上存在一个或多个标准框体，这些标准框体用来标记训练图像上目标物体的位置和类别，因此卷积神经网络的训练过程为有监督训练。作为示例地，可采用现有公共数据集作为训练图像集，如COCO数据集、VOC数据集，这些现有公共数据集中的图像上都预先标记出了标准框体，此外，也可参照物体检测算法YOLO、MultiBox和Faster R-CNN中的RPN在训练图像上制作标准框体。

在本发明实施例中，通过训练好的卷积神经网络对待检测图像进行特征提取，得到待检测图像在卷积神经网络不同卷积层的特征图，不同卷积层的特征图尺寸不同。在预先训练卷积神经网络时，可先构建卷积神经网络，卷积神经网络由多层卷积层构成，不包含全连接层，再对卷积神经网络的参数进行初始化，通过训练数据集对卷积神经网络、后续的特征增强模块和后续的预测模块进行有监督训练。

在本发明实施例中，在有监督训练过程中，可通过卷积神经网络提取训练图像的特征图，生成相应特征图上的先验框，再通过后续特征增强模块、预测模块得到每个先验框对应的预测框，通过将先验框与标准框进行匹配，来确定预测框与标准框的关系，再通过预设的损失函数来计算预测框与标准框之间的误差，进而根据该误差对卷积神经网络、后续的特征增强模块和后续的预测模块进行参数调整。作为示例地，先验框与标准框的匹配方式和损失函数都可参照物体检测算法MultiBox进行设计。

在步骤S102中，从提取得到的所有特征图中选取预设数目个待预测特征图，在每个待预测特征图的每个特征值位置处生成与待检测图像尺寸相关的先验框。

在本发明实施例中，从所有特征图中选取预设数目个待预测特征图，优选地，根据卷积神经网络的层数，从卷积神经网络按照从高层到低层的方式挑选池化层前的预设数目个待预测特征图，从而有效地避免挑选太过于低层的特征图，导致物体检测的计算量较大。预设数目在此不进行限制，可根据卷积神经网络的层数或者待检测图像的尺寸确定。

在本发明实施例中，在待预测特征图的每个特征值位置处生成与待检测图像尺寸相关的先验框，从而依据待检测图像的尺寸自适应性地生成先验框体，实现对多尺寸图像进行物体检测，有效提高物体检测的灵活性。优选地，在待预测特征图的每个特征值位置处生成与待检测图像尺寸相关的先验框时，通过下述步骤实现：

(1)根据卷积神经网络中待预测特征图所在的卷积层、待预测特征图的数目，计算每个待预测特征图对应的默认框尺寸。

在本发明实施例中，可根据待预测特征图在卷积神经网络中所在的卷积层，从低层到高层将待预测特征图进行排序，再根据卷积神经网络中待预测特征图所在的卷积层、待预测特征图的数目，计算每个待预测特征图对应的默认框尺寸。优选地，排序后第k个待预测特征图对应的默认框尺寸S_k的计算公式为：

其中，m为挑选的待预测特征图的数目，S_max为预设的最大默认框尺寸，S_min为预设的最小默认框尺寸，从而高层特征图对应较大的默认框尺寸，低层特征图对应较小的默认框尺寸，使得高层特征图用来检测尺寸较大的物体，低层特征图用来检测尺寸较小的物体，有效地提高了待检测图像中小物体的检测效果。

(2)根据默认框尺寸和预设的、待预测特征图上每个特征值位置处不同的长宽比，计算每个特征值位置处不同默认框的长宽值。

在本发明实施例中，为了待预测特征图上每个特征值位置处生成不同形状的默认框，可预先设置不同的长宽比，根据待预测特征图对应的默认框尺寸和不同的长宽比，计算待预测特征图上每个特征值位置处不同默认框的长宽值。

作为示例地，将每个特征值位置处不同的长宽比设置为对于长宽比为1的默认框，可另外添加一个尺寸因此每个待预测特征图上每个特征值位置处对应6个不同的默认框。

(3)根据待预测特征图上的每个特征值位置和待预测特征图的尺寸，计算每个特征值位置对应的默认框中心点位置。

在本发明实施例中，根据待预测特征图上的每个特征值位置和待预测特征图的尺寸，计算每个待预测特征图每个特征值位置对应的默认框中心点位置，默认框中心点位置表示为：

其中，|f_k|为第k个待预测特征图的尺寸，(i,j)为待预测特征图上特征值的位置，从而在每个待预测特征图的每个特征值位置处生成多个默认框。

(4)计算待预测特征图上默认框与先验框之间的坐标关系，根据每个特征值位置处不同默认框的长宽值、默认框中心点位置和待预测特征图上默认框与先验框之间的坐标关系，生成待预测特征图上每个特征值位置处每个默认框对应的先验框。

在本发明实施例中，由于默认框用来辅助生成先验框，默认框的尺寸对应的是待预测特征图的尺寸，先验框的尺寸对应的是待检测图像的尺寸，因此可根据待预测特征图的尺寸、待检测图像的尺寸，来计算待预测特征图上默认框与先验框的坐标关系，在确定这些坐标关系后，可在每张待预测特征图上每个特征值位置处每个默认框对应的先验框。

优选地，在根据待预测特征图的尺寸、待检测图像的尺寸，计算待预测特征图上默认框与先验框的坐标关系时，计算待预测特征图尺寸与待检测图像尺寸的比值，将该比值设置为默认框与先验框的坐标关系，从而依据待检测图像的尺寸自适应性地生成先验框体，实现对多尺寸图像进行物体检测，有效提高物体检测的灵活性。

在步骤S103中，通过预先训练好的特征增强模块和预测模块，对每个待预测特征图进行预测，生成每个先验框对应的预测框。

在本发明实施例中，由于低层的待预测特征图为卷积神经网络的低层，提取的特征信息较为粗糙、且语义表达能力较差，导致物体检测中对物体的类别进行分类时，容易与背景或其它相似物体混淆。此外，相较于高层的待预测特征图，通过预测模块的卷积操作对低层的待预测特征图进行预测时，产生的预测量很多，而且大多数的预测都是负样本，进而导致物体检测整体不稳定。因此，通过特征增强模块对待预测特征图进行特征增强处理，以使得低层的待预测特征图具有更好的语义特征，使得每层的待预测特征图具有更大的感受野，还能够缓冲低层的待预测特征图在预测时对物体检测稳定性的冲击。

优选地，特征增强模块由多层卷积层或inception V3结构构成，从而有效地提高对待预测特征图的特征增强效果。进一步优选地，当特征增强模块由多层卷积层构成时，卷积层的层数为3层，从而使得由多层卷积层构成的特征增强模块达到最佳的特征增强效果，进而提高待检测图像的后续检测效果。

在本发明实施例中，可通过预测模块计算待预测特征图上每个特征值位置相应的预测值，所得到的预测值包括每个先验框对应的类别预测值和偏距预测值，进而可根据先验框的位置信息和先验框对应的偏距预测值，计算得到待预测特征图上每个先验框对应的预测框的位置信息，每个先验框对应的类别预测值即每个先验框对应的预测框的类别预测值，预测框的类别预测值为预测框中的物体属于不同的预设目标类别的概率。

在本发明实施例中，预测模块由多个卷积核构成的一个卷积层，卷积核在待预测特征图上进行一次卷积运算，待预测特征图的每个特征值位置处会产生一个预测值，因此可根据需要产生的预测值的数量，来确定预测模块中卷积核的数量。作为示例地，预设的目标类别的数量为c，待预测特征图上每个特征值位置处先验框的数量为f，每个先验框对应4个偏距预测值，可计算得到对于一个m*n大小的待预测特征图，待预测特征图的每个特征值位置对应f个预测框，需要f*(c+4)个卷积核，最终产生(c+4)f*m*n个预测值。

在步骤S104中，根据待预测特征图上的预测框，确定待检测图像上的目标物体类别和目标物体位置。

在本发明实施例中，在得到待预测特征图上每个特征位置处的预测框后，可对冗余的预测结果(即预测框)进行消除得到最终的检测结果。可通过对待预测特征图上的所有预测框进行非极大值抑制处理(non maximum suppression，NMS)，来消除冗余的预测结果，剩下的预测框为待检测图像上的检测框，根据这些检测框的位置信息和检测框中物体属于不同的目标类别的概率，获得待检测图像上的目标物体类别和目标物体位置。

在本发明实施例中，从待检测图像在不同卷积层的特征图中选取待预测特征图，在待预测特征图的每个特征位置处生成与待检测图像尺寸相关的先验框，通过特征增强模块和预测模块生成待预测特征图上每个先验框对应的预测框，根据这些预测框确定待检测图像上的目标物体类别和目标物体位置，从而提高了待检测图像上较小物体的检测效果，降低了复杂背景对检测结果的干扰，并实现多尺寸待检测图像的物体检测，进而有效地提高了物体检测的速度、效率和灵活性。

实施例二：

图2示出了本发明实施例二提供的物体检测装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

特征提取单元21，用于接收待检测图像，通过预先训练好的卷积神经网络对待检测图像进行特征提取，以得到待检测图像在不同卷积层的特征图。

先验框生成单元22，用于从提取得到的所有特征图中选取预设数目个待预测特征图，在每个待预测特征图的每个特征值位置处生成与待检测图像尺寸相关的先验框。

在本发明实施例中，在待预测特征图的每个特征值位置处生成与待检测图像尺寸相关的先验框，从而依据待检测图像的尺寸自适应性地生成先验框体，实现对多尺寸图像进行物体检测，有效提高物体检测的灵活性。

特征图预测单元23，用于通过预先训练好的特征增强模块和预测模块，对每个待预测特征图进行预测，生成每个先验框对应的预测框。

目标物体确定单元24，用于根据待预测特征图上的预测框，确定待检测图像上的目标物体类别和目标物体位置。

优选地，如图3所示，先验框生成单元22包括：

尺寸计算单元321，用于根据卷积神经网络中待预测特征图所在的卷积层、待预测特征图的数目，计算每个待预测特征图对应的默认框尺寸。

长宽计算单元322，用于根据默认框尺寸和预设的、待预测特征图上每个特征值位置处不同的长宽比，计算每个特征值位置处不同默认框的长宽值。

中心计算单元323，用于根据待预测特征图上的每个特征值位置和待预测特征图的尺寸，计算每个特征值位置对应的默认框中心点位置。

先验框生成子单元324，用于计算待预测特征图上默认框与先验框之间的坐标关系，根据每个特征值位置处不同默认框的长宽值、默认框中心点位置和待预测特征图上默认框与先验框之间的坐标关系，生成待预测特征图上每个特征值位置处每个默认框对应的先验框。

进一步优选地，在根据待预测特征图的尺寸、待检测图像的尺寸，计算待预测特征图上默认框与先验框的坐标关系时，计算待预测特征图尺寸与待检测图像尺寸的比值，将该比值设置为默认框与先验框的坐标关系，从而依据待检测图像的尺寸自适应性地生成先验框体，实现对多尺寸图像进行物体检测，有效提高物体检测的灵活性。

优选地，特征图预测单元23包括：

特征图增强单元331，用于通过特征增强模块对待预测特征图进行特征增强处理；

预测值计算单元332，用于通过预测模块计算处理后的待预测特征图上每个特征值位置相应的预测值，预测值包括类别预测值和偏距预测值；以及

预测框生成单元333，用于根据待预测特征图每个特征值位置处的先验框、偏距预测值，计算每个先验框对应的预测框的位置信息，类别预测值为预测框中的物体属于不同的预设目标类别的概率。

在本发明实施例中，物体检测装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。

实施例三：

图4示出了本发明实施例三提供的图像处理设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

本发明实施例的图像处理设备4包括处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。该处理器40执行计算机程序42时实现上述方法实施例中的步骤，例如图1所示的步骤S101至S104。或者，处理器40执行计算机程序42时实现上述装置实施例中各单元的功能，例如图2所示单元21至24的功能。

实施例四：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例中的步骤，例如，图1所示的步骤S101至S104。或者，该计算机程序被处理器执行时实现上述装置实施例中各单元的功能，例如图2所示单元21至24的功能。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种物体检测方法，其特征在于，所述方法包括下述步骤：

从所述提取得到的所有特征图中选取预设数目个待预测特征图，在每个所述待预测特征图的每个特征值位置处生成与所述待检测图像尺寸相关的先验框；

2.如权利要求1所述的方法，其特征在于，在每个所述待预测特征图的每个特征值位置处生成与所述待检测图像尺寸相关的先验框的步骤，包括：

根据所述卷积神经网络中所述待预测特征图所在的卷积层、所述待预测特征图的数目，计算所述每个待预测特征图对应的默认框尺寸；

根据所述默认框尺寸和预设的、所述待预测特征图上每个特征值位置处不同的长宽比，计算所述每个特征值位置处不同默认框的长宽值；

根据所述待预测特征图上的每个特征值位置和所述待预测特征图的尺寸，计算所述每个特征值位置对应的默认框中心点位置；

计算所述待预测特征图上所述默认框与所述先验框之间的坐标关系，根据所述每个特征值位置处不同默认框的长宽值、所述默认框中心点位置和所述待预测特征图上所述默认框与所述先验框之间的坐标关系，生成所述待预测特征图上每个特征值位置处所述每个默认框对应的先验框。

3.如权利要求2所述的方法，其特征在于，计算所述待预测特征图上所述默认框与所述先验框之间的坐标关系的步骤，包括：

根据所述待预测特征图的尺寸和所述待检测图像的尺寸，计算所述待预测特征图上所述默认框与所述先验框之间的坐标关系。

4.如权利要求1所述的方法，其特征在于，通过预先训练好的特征增强模块和预测模块，对每个所述待预测特征图进行预测，生成所述每个先验框对应的预测框的步骤，包括：

通过所述特征增强模块对所述待预测特征图进行特征增强处理；

通过所述预测模块计算所述处理后的待预测特征图上每个特征值位置相应的预测值，所述预测值包括类别预测值和偏距预测值；

根据所述待预测特征图每个特征值位置处的所述先验框、所述偏距预测值，计算所述每个先验框对应的预测框的位置信息，所述类别预测值为所述预测框中的物体属于不同的预设目标类别的概率。

5.如权利要求1所述的方法，其特征在于，确定所述待检测图像上的目标物体类别和目标物体位置的步骤，包括：

通过对所述待预测特征图上的所述所有预测框进行非极大值抑制处理，确定所述待检测图像上的检测框；

根据所述检测框的位置信息和所述检测框中的物体属于不同的预设目标类别的概率，获得所述待检测图像上的目标物体类别和目标物体位置。

6.一种物体检测装置，其特征在于，所述装置包括：

先验框生成单元，用于从所述提取得到的所有特征图中选取预设数目个待预测特征图，在每个所述待预测特征图的每个特征值位置处生成与所述待检测图像尺寸相关的先验框；

7.如权利要求6所述的装置，其特征在于，所述先验框生成单元包括：

尺寸计算单元，用于根据所述卷积神经网络中所述待预测特征图所在的卷积层、所述待预测特征图的数目，计算所述每个待预测特征图对应的默认框尺寸；

长宽计算单元，用于根据所述默认框尺寸和预设的、所述待预测特征图上每个特征值位置处不同的长宽比，计算所述每个特征值位置处不同默认框的长宽值；

中心计算单元，用于根据所述待预测特征图上的每个特征值位置和所述待预测特征图的尺寸，计算所述每个特征值位置对应的默认框中心点位置；以及

先验框生成子单元，用于计算所述待预测特征图上所述默认框与所述先验框之间的坐标关系，根据所述每个特征值位置处不同默认框的长宽值、所述默认框中心点位置和所述待预测特征图上所述默认框与所述先验框之间的坐标关系，生成所述待预测特征图上每个特征值位置处所述每个默认框对应的先验框。

8.如权利要求6所述的装置，其特征在于，所述特征图预测单元包括：

特征图增强单元，用于通过所述特征增强模块对所述待预测特征图进行特征增强处理；

预测值计算单元，用于通过所述预测模块计算所述处理后的待预测特征图上每个特征值位置相应的预测值，所述预测值包括类别预测值和偏距预测值；以及

预测框生成单元，用于根据所述待预测特征图每个特征值位置处的所述先验框、所述偏距预测值，计算所述每个先验框对应的预测框的位置信息，所述类别预测值为所述预测框中的物体属于不同的预设目标类别的概率。

9.一种图像处理设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。