CN113379683A

CN113379683A - 物体检测方法、装置、设备及介质

Info

Publication number: CN113379683A
Application number: CN202110565334.3A
Authority: CN
Inventors: 商明阳; 向大卫; 王志成
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-09-10

Abstract

本发明实施例提供了一种物体检测方法、装置、设备及介质，属于图像处理技术领域，旨在提高物体检测的准确性，所述方法包括：对待检测图像中的物体的局部区域进行检测，得到所述物体的至少一个候选局部框，其中，一个物体的候选局部框用于框选该物体的局部区域；从所述物体的至少一个候选局部框中，筛选出所述物体的目标局部框；根据所述物体的目标局部框，确定所述物体的完整框，其中，一个物体的完整框表征该物体的检测结果。

Description

物体检测方法、装置、设备及介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种物体检测方法、装置、设备及介质。

背景技术

物体检测是利用计算机视觉技术确定图片和视频中的物体位置的技术。其中，在进行物体检测时，一般是先确定出物体的多个候选框，之后，对多个候选框去重后保留一个候选框作为物体的目标框。该目标框即框选出了物体在图像中的位置，后续便可以对目标框中的物体进行识别和处理。

然而，在一张图像中往往存在多个需要待检测的物体，此种情况下，便需要框选出多个物体的目标框。此种情况下，往往在对多个物体得到的多个候选框进行去重时，会使得一些相互有重叠的物体的目标框被漏检。例如，以物体检测中的行人检测为例，对于密集的行人检测，行人A和行人B具有遮挡关系，此时对行人A和行人B进行检测时，可能将行人B的候选框全部去除，而只保留了行人A的候选框，使得最终确定出的行人的数量不准确。

综上，现有的物体检测会导致物体检测的准确率不高的问题。

发明内容

鉴于上述问题，提出了本发明实施例的一种物体检测方法、装置、设备及介质，以便克服上述问题或者至少部分地解决上述问题。

为了解决上述问题，本发明的第一方面，公开了一种物体检测方法，所述方法包括：

对待检测图像中的物体的局部区域进行检测，得到所述物体的至少一个候选局部框，其中，一个物体的候选局部框用于框选该物体的局部区域；

从所述物体的至少一个候选局部框中，筛选出所述物体的目标局部框；

根据所述物体的目标局部框，确定所述物体的完整框，其中，一个物体的完整框表征该物体的检测结果。

可选地，从所述物体的至少一个候选局部框中筛选出一个候选局部框，作为所述物体的目标局部框，包括：

根据所述物体的至少一个候选局部框之间的重叠度，从所述物体的至少一个候选局部框中筛选出一个候选局部框，作为所述物体的目标局部框；或

根据所述物体的至少一个候选局部框分别与预先标记的所述物体的中心之间的距离，从所述物体的至少一个候选局部框中筛选出一个候选局部框，作为所述物体的目标局部框。

可选地，根据所述物体的目标局部框，确定所述物体的完整框，包括：

根据所述物体的目标局部框和所述目标局部框对应的局部特征图，确定所述物体的目标局部结构；

根据所述物体的完整结构与所述物体的各个局部结构之间的相对位置关系和所述物体的目标局部结构，确定所述物体的完整框。

将所述物体的目标局部框和所述目标局部框所框选的图像区域的特征图，输入预先训练的第一物体检测模型，得到所述物体的完整框，其中，所述第一物体检测模型是利用预先标记有样本物体的局部框和完整框的样本图像训练得到的；或

将所述物体的目标局部框和所述待检测图像的特征图，输入预先训练的第二物体检测模型，得到所述物体的完整框，其中，所述第二物体检测模型是利用预先标记有样本物体的局部框和完整框的样本图像训练得到的。

可选地，对待检测图像中的物体的局部区域进行检测，得到所述物体的至少一个候选局部框，包括：

将所述待检测图像输入局部区域检测模型，得到所述待检测图像中的物体的至少一个候选局部框。

可选地，对待检测图像中的物体的局部区域进行检测，得到所述物体的至少一个候选局部框，以及，从所述物体的至少一个候选局部框中，筛选出所述物体的目标局部框，包括：

将所述待检测图像输入预先训练的物体检测模型中的局部框预测子模型，得到所述待检测图像中的物体的目标局部框；

根据所述物体的目标局部框，确定所述物体的完整框，包括：

获得所述局部框预测子模型中的预设层输出的所述待检测图像的特征图；

将所述待检测图像的特征图和所述物体的目标局部框输入所述预先训练的物体检测模型中的完整框预测子模型，得到所述物体的完整框；其中，所述物体检测模型包括顺次串联的所述局部框预测子模型和所述完整框预测子模型，所述物体检测模型是以多个预先标记有样本物体的局部框和完整框的样本图像为训练样本，对第三预设模型进行训练得到的。

本发明实施例的第二方面，提供一种物体检测装置，所述装置包括：

检测模块，用于根据用于对待检测图像中的物体的局部区域进行检测，得到所述物体的至少一个候选局部框，其中，一个物体的候选局部框用于框选该物体的局部区域；

筛选模块，用于从所述物体的至少一个候选局部框中，筛选出所述物体的目标局部框；

框选模块，用于根据所述物体的目标局部框，确定所述物体的完整框，其中，一个物体的完整框表征该物体的检测结果。

本发明实施例的第三方面，还公开了一种电子设备，包括：包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现如第一方面实施例所述的物体检测方法。

本发明实施例的第四方面，还公开了一种计算机可读存储介质，其存储的计算机程序使得处理器执行如本发明第一方面实施例所述的物体检测方法。

本发明实施例包括以下优点：

在本发明实施例中，可以对待检测图像中的物体的局部区域进行检测，得到物体的至少一个候选局部框，其中，一个物体的候选局部框用于框选该物体的局部区域；从物体的至少一个候选局部框中，筛选出物体的目标局部框；根据物体的目标局部框，确定物体的完整框，其中，一个物体的完整框表征该物体的检测结果。

由于本实施例先对物体的局部区域进行检测，得到了局部区域的至少一个候选局部框，这样，一个候选局部框可以是一个物体未被其他物体所遮挡的局部区域的候选框，不同物体的候选局部框之间相互重叠的概率近乎为零，因此，从至少一个候选局部框中筛选出的目标局部框便可以唯一表征一个物体，可以极大地降低漏检率，既能排除同一物体的重复框，也能将不同物体保留下来，从而根据目标框确定出的物体的完整框，便也可以准确表征一个物体，从而避免在去重时使得一些相互有重叠的物体的完整框被漏检的问题，从而提高了物体检测的准确性。

进一步地，由于在得到至少一个候选局部框时，便对至少一个候选局部框进行处理，以筛选出一个目标局部框，之后，便可以根据该一个目标局部框预测完整框。相比于相关技术中，在得到至少一个候选局部框后，再估计出至少一个候选局部框各自对应的完整框，然后在多个完整框的基础上再筛选的方式，本申请由于可以根据一个物体的一个目标局部框预测出最终的完整框，避免了对一个物体需要估计出多个完整框，因而提高了本申请确定出物体的完整框的整体效率，使得本申请的物体检测效率也得到了极大提升。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中的一种物体检测方法的步骤流程图；

图2是本发明实施中得到物体的候选局部框的原理示意图；

图3是本发明实施中的一种得到物体的完整框的方法示意图，；

图4是本发明实施中的另一种得到物体的完整框的方法示意图；

图5是本发明实施中一种物体检测方法的原理示意图；

图6是本发明实施中一种物体检测装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在物体检测的相关技术中，以行人检测为例，行人检测往往应用于视频分析、动作判断、智能机器人和自动驾驶等应用场景中。由于不同人体的动作、姿态、穿着、遮挡、尺度有很大的不同，因而行人检测往往是物体检测中比较难点的领域。其中，对于火车站、地铁站、步行街等密集场景下的行人检测更是一个重点，此种场景下，一张图像中有上百个人体，一般需要对图像中的行人的数量进行识别，以确定人流量。

传统的行人检测方法利用边缘特征、形状特征、统计特征或者变换特征等图像的各类静态特征来描述行人，主要包含了两个阶段：第一阶段，从图像中识别出人体的可见区域；第二阶段，根据人类对人体结构的理解从可见区域推测出全身框位置。相关技术中，一方面，将这两个任务杂糅成了一个任务用一个单独的神经网络来学习，增加网络的学习难度。另一方面，现有检测方法都是在预测到行人的全身框之后，依赖非极大值抑制(Non-maximum Suppression,NMS)从一个行人的全身框中筛选出一个全身框，而由于密集场景下人体全身框的重叠程度可能会很高，使用全身框做NMS在密集场景下会造成大量误杀(错误地丢弃掉实际存在的人)，导致人体检测指标下降，使得行人检测的准确率不高，很难确定出准确的人流量。

当然，以上是以行人检测为例进行说明，实际中，对于其他场景中的物体检测也存在同样的问题，例如，密集场景下的动物检测等。

有鉴于此，本申请提出了一种更符合人类视觉的渐进式检测框架的物体检测方法，按照人类的感知过程进行物体的完整框的检测，即首先确定出物体可见区域的多个候选局部框，可见区域可以是指物体未被遮挡的区域，通过对所有候选局部框做一定的处理得到了每个物体对应的单独的目标局部框，并从目标局部框中推断出每个物体真正的完整框，从而实现效果更好的遮挡场景下的物体检测。

由于一个候选局部框可以是一个物体未被其他物体所遮挡的局部区域的候选框，不同物体的候选局部框之间相互重叠的概率近乎为零，通过对所有候选局部框做一定的处理，便可以得到每个物体对应的单独的目标局部框，从而避免在去重(非极大值抑制)时使得一些相互有重叠的物体的完整框被漏检的问题，从而提高了物体检测的准确性。

参照图1所示，示出了本申请实施例的一种物体检测方法的步骤流程示意图，如图1所示，具体可以包括以下步骤：

步骤S101：对待检测图像中的物体的局部区域进行检测，得到所述物体的至少一个候选局部框。

其中，一个物体的候选局部框用于框选该物体的局部区域。

本实施例中，待检测图像中可以包括多个物体的图像，该多个物体可以属于同一类别，例如，均是属于人物。其中，对于待检测图像中的每个物体，均可以对该物体的局部区域进行检测，该局部区域可以是指该物体未被其他物体所遮挡的一个可见区域。例如，以行人检测为例，其中一个行人的侧脸未被其他行人遮挡，则可以对该行人的侧脸进行检测，从而得到该行人的侧脸的至少一个候选局部框。

其中，物体的至少一个候选局部框是指物体的局部区域的至少一个候选局部框，本实施例中，一个物体的一个局部区域可以对应至少一个候选局部框，至少一个候选局部框中的每个候选局部框均可以表征该局部区域在待检测图像中的位置，对同一个局部区域而言，不同的候选局部框对局部区域的位置的准确率可以是不同的，这样，可以方便后续从至少一个候选局部框中筛选出位置准确率较高的候选局部框作为局部区域的目标局部框。

步骤S102：从所述物体的至少一个候选局部框中，筛选出所述物体的目标局部框。

本实施例中，可以对物体的至少一个候选局部框进行非极大值抑制处理，从而得到物体的目标局部框。

其中，由于一个候选局部框可以是一个物体未被其他物体所遮挡的局部区域的候选框，不同物体的候选局部框之间相互重叠的概率近乎为零，因而可以得到每个物体独立的目标局部框，即不同的物体指向不同的目标局部框。

示例地，以行人A和行人B为例，行人A和行人B具有遮挡关系，行人A遮挡了行人B的肩膀以下的身体部分，行人B的侧脸未被遮挡，如此，可以得到行人B的侧脸的至少一个候选局部框，以及行人A的肩膀区域的至少一个候选局部框，由于行人B的侧脸未被行人A所遮挡，如此，行人B的侧脸的至少一个候选局部框和行人A的肩膀区域的至少一个候选局部框之间互不重叠。这样，当在候选局部框的层面上进行非极大值抑制处理时，便可以得到行人A和行人B各自独立的目标局部框。

步骤S103：根据所述物体的目标局部框，确定所述物体的完整框。

其中，一个物体的完整框表征该物体的检测结果。

本实施例中，由于目标局部框是从至少一个候选局部框中筛选出来的，而至少一个候选局部框可以表征物体的局部区域在待检测图像中的位置，即目标局部框也表征了物体的该局部区域，因而，可以根据物体的局部区域与物体的完整区域之间的关系，确定出物体的完整框，该物体的完整框可以表征完整的物体在待检测图像中的位置，即得到该物体的位置检测结果。

采用本申请实施例的技术方案，由于先对物体的局部区域进行检测，得到了局部区域的至少一个候选局部框，这样，一个候选局部框可以是一个物体未被其他物体所遮挡的局部区域的候选框，不同物体的候选局部框之间相互重叠的概率近乎为零，因此，从至少一个候选局部框中筛选出的目标局部框便可以唯一表征一个物体，从而根据目标框确定出的物体的完整框，便也可以准确表征一个物体，从而避免在去重时使得一些相互有重叠的物体的完整框被漏检的问题，从而提高了物体检测的准确性。

参照图2所示，示出了得到物体的至少一个候选局部框的原理示意图，如图2所示，可以通过局部区域检测模型获得物体的至少一个候选局部框，则相应地，可以将所述待检测图像输入局部区域检测模型，得到所述待检测图像中的物体的至少一个候选局部框。

本实施例中，局部区域检测模型可以是以携带物体的局部区域的位置标记的样本图像为训练样本，对预设模型进行训练得到的。其中，样本图像可以是密集场景下的样本图像，即样本图像中包括多个具有遮挡关系的物体，其中，物体的局部区域的位置标记具有是指物体的未被遮挡的局部区域的位置标记。其中，训练该预设模型的过程可以采用相关技术即可，在此不再赘述。

本申请实施例中，可以将待检测图像输入到局部区域检测模型，从而得到待检测图像中的物体的至少一个候选局部框。

在本发明实施例的一种具体实施方式中，在步骤S102中，从物体的至少一个候选局部框中筛选出一个候选局部框，作为物体的目标局部框时，可以采取以下方式筛选：

其中，一种方式是：根据所述物体的至少一个候选局部框之间的重叠度，从所述物体的至少一个候选局部框中筛选出一个候选局部框，作为所述物体的目标局部框。

本实施例中，由于至少一个候选局部框均是框选物体的局部区域的框，而不同的候选局部框对局部区域的位置准确率可以是不同的，则至少一个候选局部框之间可以是具有重叠部分的，即每两个候选局部框之间是具有重叠部分的，因而可以从至少一个候选局部框中筛选出表征局部区域的位置的准确度最高的目标局部框。

在一种示例中，可以根据至少一个候选局部框之间的重叠度，从至少一个候选局部框中确定出重叠度最高的两个候选局部框，进而可以将重叠度最高的两个候选局部框中的一个候选局部框作为目标局部框。其中，至少一个候选局部框之间的重叠度可以是表征候选局部框之间相重合的区域的大小，重叠度越高，表征候选局部框之间相重合的区域越大。

当然，在又一种示例中，可以确定至少一个候选局部框中一个候选局部框与其他候选局部框之间的平均重叠度，之后，可以将平均重叠度最高的候选局部框作为目标局部框。其中，一个候选局部框与其他候选局部框之间的平均重叠度可以表征该候选局部框与其他至少一个候选局部框之间的重叠度，平均重叠度越高，表征该候选局部框与其他至少一个候选局部框均可以得到较高的重叠，因而该候选局部框是可以准确表征物体的局部区域的中心位置的框，代表的物体的局部区域的位置最准确，因而可以将该平均重叠度最高的候选局部框作为目标局部框。

其中，另一种方式：根据所述物体的至少一个候选局部框分别与所述物体的中心之间的距离，从所述物体的至少一个候选局部框中筛选出一个候选局部框，作为所述物体的目标局部框。

本方式中，物体的中心可以是指预先标记的物体的局部区域的中心，该局部区域的中心可以表征局部区域在待检测图像中的真实位置。其中，可以确定至少一个候选局部框中的每个候选局部框与局部区域的中心之间的距离，从而将距离局部区域的中心最近的候选候选局部框作为目标局部框。

其中，在确定候选局部框与局部区域的中心之间的距离时，可以是指候选局部框的中心与局部区域的中心之间的距离，其中，候选局部框的中心和局部区域的中心均可以是指几何中心。

采用本申请实施例的方式，需要在待检测图像中标记出局部区域的中心，进而确定至少一个候选局部框分别与物体的中心之间的距离，采用此种方式时，由于标记的局部区域的中心可以反映局部区域在待检测图像中的真实位置，从而可以提高目标局部框反映物体的局部区域的准确率。

在本发明实施例的一种具体实施方式中，在步骤S103中，根据物体的目标局部框，确定物体的完整框时，可以通过以下步骤确定：

首先，根据所述物体的目标局部框和所述目标局部框对应的局部特征图，确定所述物体的目标局部结构。

接着，根据所述物体的完整结构与所述物体的各个局部结构之间的相对位置关系和所述物体的目标局部结构，确定所述物体的完整框。

本实施方式中，可以按照人类的感知过程进行物体的完整框的检测，具体地，可以先根据物体的目标局部框和目标局部框对应的局部特征图，确定物体的目标局部结构，其中，目标局部框可以表征物体的局部区域的位置，而目标局部框对应的局部特征图可以用于描述物体的局部区域的特征，如此，可以结合目标局部框和局部特征图得到物体的目标局部结构，该目标局部结构可以反映局部区域的结构特征。例如，以局部区域是人的侧脸为例，目标局部结构可以反映人的侧脸的结构特征，例如，结构特征可以包括轮廓特征和包含的脸部的五官特征。

其中，在得到物体的目标局部结构后，可以根据物体的完整结构与物体的各个局部结构之间的相对位置关系，确定目标局部结构与物体的完整结构之间的目标位置关系。其中，物体的完整结构与物体的各个局部结构之间的相对位置关系可以是指：物体的各个局部区域位于物体的哪一位置，可以反映局部区域与物体之间的相对位置关系。

示例地，以物体为行人为例，局部区域是人脸时，该人脸与行人的完整结构之间的位置关系可以是指：人脸位于人体的上部，局部区域是左脚时，左脚与人体的完整结构之间的位置关系是：左脚位于人体的左下角。

其中，在得到物体的目标局部结构对应的目标位置关系后，便根据目标位置关系和物体的目标局部结构，确定物体的完整框，即根据目标局部结构、和目标局部框与完整结构之间的目标位置关系，可以逆向得到物体的完整结构，从而得到物体的完整框。示例地，以物体为行人为例，局部区域是人脸时，获得的人脸与行人的完整结构之间的位置关系是人脸位于人体的上部，则根据目标局部框的位置，可以逆向解出人体的完整框。

采用本实施方式的技术方案，可以以符合人类视觉的渐进式检测，按照人类的感知过程进行物体的完整框的检测，从而使得确定出的完整框更加合理地反映物体的完整结构的位置。

在一种示例中，示出了两种得到物体的完整框的方法，具体地，可以通过第一物体检测模型或者第二物体检测模型，得到物体的完整框。

其中，如图3所示，示出了一种得到物体的完整框的方法示意图，如图3所示，在通过第一物体检测模型确定物体的完整框时，可以将目标局部框和该目标局部框所框选的图像区域的特征图输入到第一物体检测模型，从而得到物体的完整框。其中，所述第一物体检测模型是利用预先标记有样本物体的局部框和完整框的样本图像，对第一预设模型进行训练得到的。

采用此种方式时，第一物体检测模型可以根据目标局部框和该目标局部框所框选的图像区域的特征图，确定物体的完整框。其中，第一物体检测模型确定物体的完整框的方式可以参照上述实施例所示的过程，即确定物体的完整结构与物体的目标局部结构对应的目标位置关系，之后，根据目标位置关系，确定所述物体的完整框。

其中，训练第一预设模型的过程可以参照相关技术即可，在此不再赘述。

其中，如图4所示，示出了一种得到物体的完整框的方法示意图，如图4所示，在通过第二物体检测模型确定物体的完整框时，可以将物体的目标局部框和待检测图像的特征图，输入预先训练的第二物体检测模型，得到物体的完整框。其中，第二物体检测模型是利用预先标记的样本物体的局部框和完整框的样本图像，对第二预设模型进行训练得到的。

采用此种实施方式时，第二物体检测模型可以根据物体的目标局部框和待检测图像的特征图，确定物体的完整框。具体地，待检测图像的特征图可以用于描述待检测图像的特征，可以反映物体与其他物体之间的位置关系，如此，可以将目标局部框和待检测图像的特征图输入到第二物体检测模型，从而得到物体的完整框。

本实施例中，训练第二预设模型的样本图像中被标记的局部框可以是指样本物体未被遮挡的局部区域。其中，训练第二预设模型的过程可以参照相关技术即可，在此不再赘述。

需要说明的是，本实施例中可以利用第一物体检测模型或者第二物体检测模型预测物体的完整框，在训练得到第一物体检测模型时，可以将预测有物体的目标局部框的样本图像和该样本图像的目标局部框所框选的图像区域的特征图作为输入，进而训练第一物体检测模型可以基于物体的目标局部框和目标局部框所框选的区域的特征图，预测出物体的完整框的能力。

其中，在训练得到第二物体检测模型时，可以将预测有物体的目标局部框的样本图像和该样本图像的特征图作为输入，进而训练第二物体检测模型可以基于物体的目标局部框和待检测图像的特征图，预测出物体的完整框的能力。

参照图5所示，示出了本申请实施例的一种物体检测方法的原理示意图，如图5所示，包括物体检测模型，该物体检测模型可以包括顺次串联的局部框预测子模型和完整框预测子模型，且物体检测模型是以多个预先标记有样本物体的局部框和完整框的样本图像为训练样本，对第三预设模型进行训练得到的。

其中，局部框预测子模型用于预测待检测图像中物体的目标局部框，完整框预测子模型用于根据物体的目标局部框，确定物体得到完整框。

则相应地，可以将待检测图像输入预先训练的物体检测模型中的局部框预测子模型，得到待检测图像中的物体的目标局部框，进而，可以获得局部框预测子模型中的预设层输出的所述待检测图像的特征图，并将待检测图像的特征图和所述物体的目标局部框输入所述预先训练的物体检测模型中的完整框预测子模型，得到所述物体的完整框。

本实施例中，可以利用一个物体检测模型实现对物体的完整框的检测，具体地，可以直接将待检测图像输入到物体检测模型即可，该物体检测模型的输出端即可以输出物体的完整框。

其中，局部框预测子模型中可以包括多个卷积层，其中，待检测图像的特征图可以是局部框预测子模型中的第一个卷积层所输出的，物体的目标局部框可以是局部框预测子模型中的最后一层所输出的。其中，完整框预测子模型可以为包括三层全连接层(FullyConnection layer,FC)拼接起来的FEN网络，可以根据物体的目标局部框预测物体的完整框。

具体实施时，可以将局部框预测子模型中的第一个卷积层所输出的待检测图像的特征图和最后一层所输出的目标局部框输入到完整框预测子模型，从而得到物体的完整框。

其中，完整框预测子模型获得物体的完整框的方式可以参照上述实施例所述，在此不再赘述。

采用本申请实施例的技术方案，具有以下优点：

本申请实施例，不同于相关技术中的在最后的完整框上做非极大值抑制，而是在中间检测出的候选局部框上做非极大值抑制，由于即使具有相互遮挡的物体之间的可见部分并不是重叠的，因此，不同物体之间的候选局部框相互重叠的可能性很小，如此，在候选局部框上做非极大值抑制可以极大地降低漏检率，既能排除同一物体的重复框，也能将不同物体保留下来，从而得到的完整框便是最终的检测结果，因而可以极大地提升物体检测的准确率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6所示，示出了本发明实施例的一种物体检测装置的结构框图，如图6所示，所述装置具体可以包括以下模块：

检测模块601，用于根据用于对待检测图像中的物体的局部区域进行检测，得到所述物体的至少一个候选局部框，其中，一个物体的候选局部框用于框选该物体的局部区域；

筛选模块602，用于从所述物体的至少一个候选局部框中，筛选出所述物体的目标局部框；

框选模块603，用于根据所述物体的目标局部框，确定所述物体的完整框，其中，一个物体的完整框表征该物体的检测结果。

可选地，所述筛选模块602，具体可以用于根据所述物体的至少一个候选局部框之间的重叠度，从所述物体的至少一个候选局部框中筛选出一个候选局部框，作为所述物体的目标局部框；或根据所述物体的至少一个候选局部框分别与预先标记的所述物体的中心之间的距离，从所述物体的至少一个候选局部框中筛选出一个候选局部框，作为所述物体的目标局部框。

可选地，所述框选模块603具体可以包括以下单元：

第一确定单元，用于根据所述物体的目标局部框和所述目标局部框对应的局部特征图，确定所述物体的目标局部结构；

第二确定单元，用于根据所述物体的完整结构与所述物体的各个局部结构之间的相对位置关系和所述目标局部结构，确定所述物体的完整框。

可选地，所述框选模块603具体可以用于将所述物体的目标局部框和所述目标局部框所框选的图像区域的特征图，输入预先训练的第一物体检测模型，得到所述物体的完整框，其中，所述第一物体检测模型是利用预先标记有样本物体的局部框和完整框的样本图像训练得到的；或

可选地，所述检测模块601，具体可以用于将所述待检测图像输入局部区域检测模型，得到所述待检测图像中的物体的至少一个候选局部框。

可选地，所述装置可以包括输入模块，所述输入模块用于执行所述检测模块601和所述筛选模块602所执行的步骤，具体用于将所述待检测图像输入预先训练的物体检测模型中的局部框预测子模型，得到所述待检测图像中的物体的目标局部框；

所述框选模块603具体可以包括以下单元：

特征图获得单元，用于获得所述局部框预测子模型中的预设层输出的所述待检测图像的特征图；

输入单元，用于将所述待检测图像的特征图和所述物体的目标局部框输入所述预先训练的物体检测模型中的完整框预测子模型，得到所述物体的完整框；其中，所述物体检测模型包括顺次串联的所述局部框预测子模型和所述完整框预测子模型，所述物体检测模型是以多个预先标记有样本物体的局部框和完整框的样本图像为训练样本，对第三预设模型进行训练得到的。

需要说明的是，装置实施例与方法实施例相近，故描述的较为简单，相关之处参见方法实施例即可。

本发明实施例还提供了一种电子设备，该电子设备可以用于执行物体检测方法，可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器被配置为执行所述的物体检测方法。

本发明实施例还提供了一种计算机可读存储介质，其存储的计算机程序使得处理器执行如本发明实施例所述的物体检测方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种物体检测方法、装置、设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种物体检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，从所述物体的至少一个候选局部框中，筛选出所述物体的目标局部框，包括：

根据所述物体的至少一个候选局部框分别与所述物体的中心之间的距离，从所述物体的至少一个候选局部框中筛选出一个候选局部框，作为所述物体的目标局部框。

3.根据权利要求1或2所述的方法，其特征在于，根据所述物体的目标局部框，确定所述物体的完整框，包括：

4.根据权利要求1或2所述的方法，其特征在于，根据所述物体的目标局部框，确定所述物体的完整框，包括：

将所述物体的目标局部框和所述目标局部框所框选的图像区域的特征图，输入预先训练的第一物体检测模型，得到所述物体的完整框，其中，所述第一物体检测模型，是利用预先标记有样本物体的局部框和完整框的样本图像训练得到的；或

将所述物体的目标局部框和所述待检测图像的特征图，输入预先训练的第二物体检测模型，得到所述物体的完整框，其中，所述第二物体检测模型是利用标记有样本物体的局部框和完整框的样本图像训练得到的。

5.根据权利要求1-4任一所述的方法，其特征在于，对待检测图像中的物体的局部区域进行检测，得到所述物体的至少一个候选局部框，包括：

将所述待检测图像输入局部区域检测模型，得到所述待检测图像中的物体的所述至少一个候选局部框。

6.根据权利要求1-3任一所述的方法，其特征在于，对待检测图像中的物体的局部区域进行检测，得到所述物体的至少一个候选局部框，以及，从所述物体的至少一个候选局部框中，筛选出所述物体的目标局部框，包括：

7.一种物体检测装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现如权利要求1-6任一所述的物体检测方法。

9.一种计算机可读存储介质，其特征在于，其存储的计算机程序使得处理器执行如权利要求1-6任一所述的物体检测方法。