CN109711241B

CN109711241B - 物体检测方法、装置与电子设备

Info

Publication number: CN109711241B
Application number: CN201811280331.XA
Authority: CN
Inventors: 胡扬; 高原; 刘霄; 李旭斌; 文石磊; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2021-07-20
Anticipated expiration: 2038-10-30
Also published as: CN109711241A

Abstract

本申请实施例公开了一种物体检测方法、装置与电子设备，该方法包括：将视频流中连续的N帧图像依次输入到检测模型中，获得每帧图像的M个特征图；针对每帧图像，将该帧图像的M个特征图的尺度缩放到统一尺度，并对尺度统一的M个特征图进行融合，输入到所述检测模型中的预测模块中，获得该帧图像的物体检测结果；将所述N帧图像的物体检测结果进行比较，确定目标物体。在实现对较大物体的准确检测的基础上，实现对小物体的准确检测。同时，将N帧图像的物体检测结果进行比较，进而对视频流中模糊图像的误检测结果进行过滤，实现目标物体的准确检测。

Description

物体检测方法、装置与电子设备

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种物体检测方法、装置与电子设备。

背景技术

目前，随着计算机视觉的发展，物体检测得到了广泛的应用。基于深度学习的物体检测主要分为两种流派，一种是解构图片特征，编码各区域的空间位置信息，直接回归出场景中的物体类别和位置的单阶段模式。另一种则是先从图片中初步确认出一些可能存在物体的潜在区域，然后再进一步针对这些区域进行物体分类和位置校正的二阶段模式。

现在的通用物体检测技术的发展主要来自于公开数据集，发源于网络搜索引擎搜集的大量的场景，经过了专家的精细标注而来，数据本身相对固定，图片非常清晰。

然而现实生活场景中，尤其是对于实用的机器视觉来说，场景语义往往是一个动态连续的过程，图片质量因为采集设备的不同，最终给到机器模型的会是分辨率差异极大，甚至存在大量模糊的情况。即现有技术，基于终端设备采集的视频流，无法实现物体的准确检测。

发明内容

本申请实施例提供一种物体检测方法、装置与电子设备，用于实现对视频流中物体的准确检测。

第一方面，本申请实施例提供一种物体检测方法，包括：

将视频流中连续的N帧图像依次输入到检测模型中，获得每帧图像的M个特征图，其中，所述M、N均为大于1的正整数；

针对每帧图像，将该帧图像的M个特征图的尺度缩放到统一尺度，并对尺度统一的M个特征图进行融合，输入到所述检测模型中的预测模块中，获得该帧图像的物体检测结果；

将所述N帧图像的物体检测结果进行比较，确定目标物体。

在第一方面的一种可能的实现方式中，所述对尺度统一的M个特征图进行融合，包括：

将尺度统一的M个特征图进行叠加。

在第一方面的另一种可能的实现方式中，所述将所述N帧图像的物体检测结果进行比较，确定目标物体，包括：

确定所述N帧图像中相邻两帧图像的检测框的交并比，获得交并比大于预设值的各第一检测框，其中，所述物体检测结果包括检测框；

根据各所述第一检测框的位置信息，获得属于同一个区域的各第二检测框；

判断属于同一个区域的各第二检测框的数量是否为N；

若是，则确定各所述第二检测框对应的为同一个目标物体。

在第一方面的另一种可能的实现方式中，所述确定目标物体之后，所述方法还包括：

标记所述目标物体。

基于卡尔曼滤波算法，对所述目标物体的检测结果进行校正。

在第一方面的另一种可能的实现方式中，所述基于卡尔曼滤波算法，对所述目标物体的检测结果进行校正，包括：

将所述目标物体的检测结果作为观测值，校正所述目标物体的估计值，并将校正后的估计值作为所述目标物体的最终检测结果。

第二方面，本申请实施例提供一种物体检测装置，包括：

获取模块，用于将视频流中连续的N帧图像依次输入到检测模型中，获得每帧图像的M个特征图，其中，所述M、N均为大于1的正整数；

处理模块，用于针对每帧图像，将该帧图像的M个特征图的尺度缩放到统一尺度，并对尺度统一的M个特征图进行融合，输入到所述检测模型中的预测模块中，获得该帧图像的物体检测结果；

确定模块，用于将所述N帧图像的物体检测结果进行比较，确定目标物体。

在第二方面的一种可能的实现方式中，所述处理模块，具体用于将尺度统一的M个特征图进行叠加。

在第二方面的另一种可能的实现方式中，所述确定模块包括获取单元、判断单元和确定单元，包括：

所述获取单元，用于确定所述N帧图像中相邻两帧图像的检测框的交并比，获得交并比大于预设值的各第一检测框，其中，所述物体检测结果包括检测框；根据各所述第一检测框的位置信息，获得属于同一个区域的各第二检测框；

所述判断单元，用于判断属于同一个区域的各第二检测框的数量是否为N；

所述确定单元，用于在所述判断单元判断属于同一个区域的各第二检测框的数量为N时，确定各所述第二检测框对应的为同一个目标物体。

在第二方面的另一种可能的实现方式中，所述装置还包括标记模块；

所述标记模块，用于标记所述目标物体。

在第二方面的另一种可能的实现方式中，所述装置还包括：

校正模块，用于基于卡尔曼滤波算法，对所述目标物体的检测结果进行校正。

在第二方面的另一种可能的实现方式中，所述校正模块，具体用于将所述目标物体的检测结果作为观测值，校正所述目标物体的估计值，并将校正后的估计值作为所述目标物体的最终检测结果。

第三方面，本申请实施例提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如第一方面任一项所述的物体检测方法。

第四方面，本申请实施例提供一种电子设备，包括：

摄像头，用于拍摄视频流；

处理器，用于将视频流中连续的N帧图像依次输入到检测模型中，获得每帧图像的M个特征图，其中，所述M、N均为大于1的正整数；针对每帧图像，将该帧图像的M个特征图的尺度缩放到统一尺度，并对尺度统一的M个特征图进行融合，输入到所述检测模型中的预测模块中，获得该帧图像的物体检测结果；将所述N帧图像的物体检测结果进行比较，确定目标物体。

在第四方面的一种可能的实现方式中，处理器用于对尺度统一的M个特征图进行融合，包括：

将尺度统一的M个特征图进行叠加。

在第四方面的一种可能的实现方式中，处理器用于将所述N帧图像的物体检测结果进行比较，确定目标物体，包括：

判断属于同一个区域的各第二检测框的数量是否为N；

若是，则确定各所述第二检测框对应的为同一个目标物体。

在第四方面的另一种可能的实现方式中，处理器用于确定目标物体之后，还用于：

标记所述目标物体。

在第四方面的另一种可能的实现方式中，处理器用于基于卡尔曼滤波算法，对所述目标物体的检测结果进行校正，包括：

第五方面，本申请实施例提供一种计算机存储介质，所述存储介质中存储计算机程序，所述计算机程序在执行时实现如第一方面任一项所述的物体检测方法。

本申请实施例提供的物体检测方法、装置与电子设备，通过将视频流中连续的N帧图像依次输入到检测模型中，获得每帧图像的M个特征图，其中，所述M、N均为大于1的正整数；针对每帧图像，将该帧图像的M个特征图的尺度缩放到统一尺度，并对尺度统一的M个特征图进行融合，输入到所述检测模型中的预测模块中，获得该帧图像的物体检测结果；将所述N帧图像的物体检测结果进行比较，确定目标物体。即本实施例，获得视频流中连续的N帧图像中每帧图像的M个特征图，接着，将这M个特征图进行融合，实现对小物体的特征的放大，这样基于放大的特征，在实现对较大物体的准确检测的基础上，实现对小物体的准确检测。同时，将N帧图像的物体检测结果进行比较，进而对视频流中模糊图像的误检测结果进行过滤，实现目标物体的准确检测。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一提供的物体检测方法的流程示意图；

图2为本实施例涉及的物体检测吸引的架构图；

图3为本实施例涉及的检测模型的机构图；

图4为本申请实施例二提供的物体检测方法的流程示意图；

图5为本实施例二涉及的第一帧图像的检测结果示意图；

图6为本实施例二涉及的第二帧图像的检测结果示意图；

图7为本实施例二涉及的第三帧图像的检测结果示意图；

图8为本申请实施例一提供的物体检测装置的结构示意图；

图9为本申请实施例二提供的物体检测装置的结构示意图；

图10为本申请实施例三提供的物体检测装置的结构示意图；

图11为本申请实施例四提供的物体检测装置的结构示意图；

图12为本申请一实施例提供的电子设备的结构示意图；

图13为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请实施例涉及的背景技术进行如下简要介绍。

场景语义识别对于理解自然场景，生活场景有着极其重要的意义，人们能够与生活中的方方面面进行交互，离不开强大的视觉感知能力，如果能让机器也能更好的感知世界，感知生活中的各种事物，那么机器能辅助人们做的事情也必然越来越多，越来越人性化。

物体检测作为场景感知中的重要一环，提供了物体的语义信息和位置信息，为机器能分析场景，做好了前置铺垫。场景的物体检测存在物体类型多样性，环境多样性，状态多样性，角度多样性等问题。同时，针对真实场景的数据采集，一般是通过手持设备的摄像头进行，这里面则涉及到图片模糊，帧与帧之间语义信息相似，存储信息源细节部分却存在较大不同的问题。

为了解决上述问题，本申请实施例，以电子设备采集的视频流为研究对象，基于深度学习技术，实现对该视频流中物体的准确检测。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本申请实施例一提供的物体检测方法的流程示意图。该如图1所示，本实施例的方法可以包括：

S101、将视频流中连续的N帧图像依次输入到检测模型中，获得每帧图像的M个特征图，其中，所述M、N均为大于1的正整数。

本实施例的执行主体可以是具有物体检测功能的装置，例如物体检测装置。该物体检测装置可以是电子设备的一部分，例如为电子设备的处理器。可选的，本实施例的物体检测装置还可以是单独的电子设备。

本实施例的电子设备可以是智能手机、台式电脑、笔记本电脑、智能手环、AR设备、VA设备等电子设备。

本实施例以执行主体为电子设备为例进行说明。

本实施例的电子设备可以具有拍摄功能，可以拍摄获取某场景的视频流，例如，电子设备为手持设备，该手持设备的摄像头可以采集视频流。这样，对摄像头采集的视频流进行处理，检测出该视频流中的目标物体。

可选的，本实施例的电子设备还可以从其他的终端设备中获取视频流，并对获取的视频流进行处理，检测出该视频流中的目标物体。

本实施例对视频流的具体来源不做限制，具体根据实际情况确定。

可选的，本实施例的电子设备中安装有检测模型，该检测模型例如为基于深度卷积神经网络模型。

如图2所示，本实施例的检测模型可以包括多个卷积层和预测模块，其中每个卷积层可以输出一个特征图，预测模块可以对特征图进行检测，获得物体检测结果。

以视频流中的一帧图像为例，将该帧图像输入到检测模型的输入层，获得该帧图像的M张特征图。

可选的，本实施例的物体检测方法采用SSD检测算法，而SSD检测算法采用如图3所示的采用金字塔结构，例如，利用了conv4-3、conv-7、conv8_2、conv9_2、conv10_2、conv11_2这些大小不同的feature maps，在这6个feature maps上同时进行softmax分类和位置回归。

可选的，本实施例可以采用mobilenet的结构作为检测算法底座，保证检测系统的速度。

参照上述例子，对视频流中连续的N帧图像中的每帧图像执行上述步骤，获得每帧图像的M张特征图。

其中，本实施例的N与M均为大于1的正整数，具体根据实际需要确定，本实施例对此不做限制。

S102、针对每帧图像，将该帧图像的M个特征图的尺度缩放到统一尺度，并对尺度统一的M个特征图进行融合，输入到所述检测模型中的预测模块中，获得该帧图像的物体检测结果。

在实际场景中，物体距离摄像头的远近，决定了物体的大小，例如，距离摄像头近的物体在拍摄图像中较大，特征显示的较清晰，距离摄像头较远的物体，在图像中显示的较小，对应的特征显示较模糊。

本实施例为了使得图像中较小得物体也可以准确检测出来，则将每帧图像的M个特征图进行缩放，缩放到统一尺度，这样在保证显示较大物体的特征外，可以实现对较小物体的特征的放大显示。

接着，将尺度统一的M个特征图进行融合，然后输入到检测模型的预测模块中，获得该帧图像的物体检测结果。

可选的，本实施比例将尺度统一的M个特征图进行融合，可以是将尺度统一的M个特征图中相同的特征进行增加，不同的特征进行相减。

可选的，本实施例对尺度统一的M个特征图进行融合，可以是，将尺度统一的M个特征图进行叠加。

举例说明，以图像1为例进行说明，假设检测模型如图3所述，包括6个卷积层和一个预测模块。首先将图像1输入到预先训练好的检测模型中，检测模块的每个卷积层对该图像进行卷积运算，获得图像1的6张特征图。其中，对图像1进行卷积运算，获得6张特征图的具体过程可以参照已有的方法实现，在此不再赘述。

接着，将6张特征图缩放到统一的尺度，例如，缩放到128×128。然后，将7张尺度均为128×128的特征图进行融合，例如，进行相加，作为输入，输入到预测模块中，预测模型对融合后的特征图进行softmax分类和位置回归，获得该图像1的物体检测结果。例如，获得图像1中各物体的位置信息和类别。

参照上述方法，对N帧图像进行上述处理，获得每帧图像的物体检测结果。

S103、将所述N帧图像的物体检测结果进行比较，确定目标物体。

在实际场景中，由于摄像头的晃动等因素，使得拍摄的图像出现模糊等显示，基于模糊的图像进行物体检测时，可能存在误检测的问题。例如，将背景作为运动物体进行检测。

为了对上述误检测的结果进行校正，本实施例对上述步骤获得的N帧图像的物体检测结果进行比较，确定目标物体。

由于本实施的N帧图像是连续的，这样物体在这N帧图像中均存在，而晃动的背景只在部分拍摄模糊的图像中存在，这样，通过将N帧图像的检测结果进行比较，将N帧图像的检测结果中均存在的物体，作为目标物体，而在某一帧，或少数的几帧图像中出现的物体作为误检测，删除，进而实现对目标物体的准确检测。

例如，上述N为4，即对连续的4帧图像进行物体检测中，获得的检测结果如表1所示：

表1

由表1可知，上述4帧图像的检测结果中均有物体A，而其中第3帧图像的检测结果中还存在物体B，这样，可以确定物体B为误检测，这样，可以将物体A作为目标物体。

本申请实施例提供的物体检测方法，通过将视频流中连续的N帧图像依次输入到检测模型中，获得每帧图像的M个特征图，其中，所述M、N均为大于1的正整数；针对每帧图像，将该帧图像的M个特征图的尺度缩放到统一尺度，并对尺度统一的M个特征图进行融合，输入到所述检测模型中的预测模块中，获得该帧图像的物体检测结果；将所述N帧图像的物体检测结果进行比较，确定目标物体。即本实施例，获得视频流中连续的N帧图像中每帧图像的M个特征图，接着，将这M个特征图进行融合，实现对小物体的特征的放大，这样基于放大的特征，在实现对较大物体的准确检测的基础上，实现对小物体的准确检测。同时，将N帧图像的物体检测结果进行比较，进而对视频流中模糊图像的误检测结果进行过滤，实现目标物体的准确检测。

图4为本申请实施例二提供的物体检测方法的流程示意图，在上述实施例的基础上，本实施例涉及将所述N帧图像的物体检测结果进行比较，确定目标物体的具体过程。如图4所示，上述S103具体可以包括：

S401、确定所述N帧图像中相邻两帧图像的检测框的交并比，获得交并比大于预设值的各第一检测框，其中，所述物体检测结果包括检测框。

S402、根据各所述第一检测框的位置信息，获得属于同一个区域的各第二检测框。

S403、判断属于同一个区域的各第二检测框的数量是否为N。

S404、若是，则确定各所述第二检测框对应的为同一个目标物体。

由上述描述可知，在拍摄图像中由于晃动等原因，使得拍摄的图像不清晰，这样基于不清晰的图像进行物体检测时，可能将不是物体的背景等作为物体进行检测，使得检测结果不准确。

为了解决该技术问题，本实施例将N帧图像的检测结果进行比较，以准确确定出目标物体。

本实施例的物体检测结果为检测框，将N帧图像的检测结果进行比较，具体可以是，将N帧图像中相邻两帧图像的检测框进行比较，确定相邻的两帧图像的检测框的交并比。如果一帧图像对应多个检测框，则将任意两个检测框进行交并比运算。接着，获取交并比大于预设值的检测框，并将该检测框记为第一检测框。

由于同一个物体的检测框大小基本相同，这样，通过交并比运算，可以将不是同一个物体的检测框过滤掉。

为了进一步确定第一检测框对应的物体是不是同一个物体，还需要将对各第一检测框的位置信息进行确定。

具体是，根据各第一检测框的位置信息，获得属于同一个区域的各第二检测框，接着，判断属于同一个区域的各第二检测框的数量是否为N，如果是，则确定该第二检测框对应的物体为同一个物体，将该物体记为目标物体。

举例说明，假设有3帧图像，其中，第一帧图像的检测结果如图5所示，第二帧图像的检测结果如图6所示，第三帧图像的检测结果如图7所示。对该3帧图像中连续的两帧图像中各检测框进行交并比运算，可以确定第一帧图像中的检测框1分别与第二帧图像的检测框2、检测框3和检测框4的交并比，依次记为：交并比1、交并比2和交并比3。其中，交并比1和2大于预设值，交并比3小于预设值，此时，可以将检测框1、检测框2和检测框3记为第一检测框，检测框4过滤掉。接着，参照上述方法，确定第二帧图像中的检测框2、检测框3和检测框4分别与第三帧图像的检测框5的交并比，依次记为：交并比4、交并比5和交并比6。其中，交并比4和5大于预设值，交并比6小于预设值，此时，可以将检测框2、检测框3、检测框5记为第一检测框，检测框4过滤掉。

接着，判断上述各第一检测框的位置信息，获得属于同一个区域的第一检测框为检测框1、检测框2、检测框5，因此，将检测框1、检测框2、检测框5记为第二检测框，过滤掉检测框3。可以确定检测框1、检测框2、检测框5对应的为同一个物体，该物体即为实际场景中真实存在的目标物体。

本实施例的方法，通过交并比，将检测框大小基于相同的检测框记为第一检测框，接着对第一检测框的位置进行检测，将属于同一个位置的第一检测框记为第二检测框，这些第二检测框对应的物体即为实际场景中真实存在的目标物体，进而实现对目标物体的准确检测。

本申请实施例的方法，确定所述N帧图像中相邻两帧图像的检测框的交并比，获得交并比大于预设值的各第一检测框，其中，所述物体检测结果包括检测框；根据各所述第一检测框的位置信息，获得属于同一个区域的各第二检测框；判断属于同一个区域的各第二检测框的数量是否为N；若是，则确定各所述第二检测框对应的为同一个目标物体，进而实现对目标物体的准确检测，且检测过程简单，易于实现。

可选的，本实施例在根据上述步骤，准确确定出目标物体后，还对目标物体进行标记，便于后续的识别。

可选的，本实施例为进一步实现对目标物体的准确检测，则上述S103确定目标物体之后，还包括：

具体是，使用基于卡尔曼滤波算法对检测系统进行除噪处理，使得除噪后的检测系统输出的结果更加平滑，以实现对目标物体的准确检测。

在一种实现方式中，上述基于卡尔曼滤波算法，对所述目标物体的检测结果进行校正可以包括：

设定系统的状态方程为：x(k)＝A·x(k-1)+B·u(k)+w(k)，(1)

观测方程为：z(k)＝H·x(k)+y(k)，(2)

其中，x(k)为k时刻系统的状态，u(k)为控制量，w(k)为符合高斯分布的过程噪声，z(k)为k时刻系统的观测值，y(k)为符合高斯分布的测量噪声，A，B，H为系统参数。

本实施例以新的目标物体的检测结果作为观测值z(k)，相互调和上述公式(1)和公式(2)，进而实现对系统系数A和B确定。

接着，通过公式x(k|k-1)＝A·x(k-1|k-1)+B·u(k)来计算目标物体的最终检测结果。其中，x(k|k-1)即为系统目标物体的最终检测结果。

需要说明的是，本实施例以目标物体的检测结果作为观测值，基于卡尔曼滤波算法，对所述目标物体的检测结果进行校正的具体过程可以参照已有的卡尔曼滤波算法实现，本实施例在此不再赘述。

本申请实施例的方法，在确定完目标物体后，将目标物体的检测结果作为观测值，基于卡尔曼滤波算法，对目标物体的检测结果进行校正，实现对目标物体的进一步准确检测。

图8为本申请实施例一提供的物体检测装置的结构示意图，在上述实施例的基础上，如图8所示，本实施例的物体检测装置100可以包括：

获取模块110，用于将视频流中连续的N帧图像依次输入到检测模型中，获得每帧图像的M个特征图，其中，所述M、N均为大于1的正整数；

处理模块120，用于针对每帧图像，将该帧图像的M个特征图的尺度缩放到统一尺度，并对尺度统一的M个特征图进行融合，输入到所述检测模型中的预测模块中，获得该帧图像的物体检测结果；

确定模块130，用于将所述N帧图像的物体检测结果进行比较，确定目标物体。

本申请实施例的物体检测装置，可以用于执行上述所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

可选的，所述处理模块120，具体用于将尺度统一的M个特征图进行叠加。

图9为本申请实施例二提供的物体检测装置的结构示意图。在上述实施例的基础上，如图9所示，所述确定模块130包括获取单元131、判断单元132和确定单元133，包括：

所述获取单元131，用于确定所述N帧图像中相邻两帧图像的检测框的交并比，获得交并比大于预设值的各第一检测框，其中，所述物体检测结果包括检测框；根据各所述第一检测框的位置信息，获得属于同一个区域的各第二检测框；

所述判断单元132，用于判断属于同一个区域的各第二检测框的数量是否为N；

所述确定单元133，用于在所述判断单元132判断属于同一个区域的各第二检测框的数量为N时，确定各所述第二检测框对应的为同一个目标物体。

图10为本申请实施例三提供的物体检测装置的结构示意图。在上述实施例的基础上，如图10所示，本实施例的装置还包括标记模块；

所述标记模块140，用于标记所述目标物体。

图11为本申请实施例四提供的物体检测装置的结构示意图。在上述实施例的基础上，如图11所示，本实施例的装置还包括：

校正模块150，用于基于卡尔曼滤波算法，对所述目标物体的检测结果进行校正。

在一些实施例中，上述校正模块150，具体用于将所述目标物体的检测结果作为观测值，校正所述目标物体的估计值，并将校正后的估计值作为所述目标物体的最终检测结果。

图12为本申请一实施例提供的电子设备的结构示意图，如图12所示，本实施例的电子设备200包括：

存储器210，用于存储计算机程序；

处理器220，用于执行所述计算机程序，以实现上述物体检测方法，其实现原理和技术效果类似，此处不再赘述。

图13为本申请一实施例提供的电子设备的结构示意图，如图13所示，本实施例的电子设备300包括：摄像头310、处理器320和存储器330。

其中，摄像头310，用于拍摄视频流；

存储器330，用于存储计算机程序；

处理器320，用于执行所述计算机程序。

例如，处理器320在执行计算机程序时，具体执行以下步骤：

将所述N帧图像的物体检测结果进行比较，确定目标物体。

在一些实施例中，处理器320用于对尺度统一的M个特征图进行融合，包括：

将尺度统一的M个特征图进行叠加。

在一些实施例中，处理器320用于将所述N帧图像的物体检测结果进行比较，确定目标物体，包括：

判断属于同一个区域的各第二检测框的数量是否为N；

若是，则确定各所述第二检测框对应的为同一个目标物体。

在一些实施例中，处理器320用于确定目标物体之后，还用于标记所述目标物体。

在一些实施例中，处理器320用于确定目标物体之后，还用于基于卡尔曼滤波算法，对所述目标物体的检测结果进行校正

在一些实施例中，处理器320用于基于卡尔曼滤波算法，对所述目标物体的检测结果进行校正，包括：

本申请实施例的电子设备，可以用于执行上述所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

进一步的，当本申请实施例中物体检测方法的至少一部分功能通过软件实现时，本申请实施例还提供一种计算机存储介质，计算机存储介质用于储存为上述对物体检测的计算机软件指令，当其在计算机上运行时，使得计算机可以执行上述方法实施例中各种可能的物体检测方法。在计算机上加载和执行所述计算机执行指令时，可全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机存储介质中，或者从一个计算机存储介质向另一个计算机存储介质传输，所述传输可以通过无线(例如蜂窝通信、红外、短距离无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如SSD)等。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种物体检测方法，其特征在于，包括：

将所述N帧图像的物体检测结果进行比较，确定目标物体，包括：

判断属于同一个区域的各第二检测框的数量是否为N；

若是，则确定各所述第二检测框对应的为同一个目标物体。

2.根据权利要求1所述的方法，其特征在于，所述对尺度统一的M个特征图进行融合，包括：

将尺度统一的M个特征图进行叠加。

3.根据权利要求1所述的方法，其特征在于，所述确定目标物体之后，所述方法还包括：

标记所述目标物体。

4.根据权利要求1所述的方法，其特征在于，所述确定目标物体之后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于卡尔曼滤波算法，对所述目标物体的检测结果进行校正，包括：

6.一种物体检测装置，其特征在于，包括：

确定模块，用于将所述N帧图像的物体检测结果进行比较，确定目标物体；

所述确定模块，具体用于：确定所述N帧图像中相邻两帧图像的检测框的交并比，获得交并比大于预设值的各第一检测框，其中，所述物体检测结果包括检测框；根据各所述第一检测框的位置信息，获得属于同一个区域的各第二检测框；判断属于同一个区域的各第二检测框的数量是否为N；若是，则确定各所述第二检测框对应的为同一个目标物体。

7.一种电子设备，其特征在于，包括：

摄像头，用于拍摄视频流；

处理器，用于将视频流中连续的N帧图像依次输入到检测模型中，获得每帧图像的M个特征图，其中，所述M、N均为大于1的正整数；针对每帧图像，将该帧图像的M个特征图的尺度缩放到统一尺度，并对尺度统一的M个特征图进行融合，输入到所述检测模型中的预测模块中，获得该帧图像的物体检测结果；将所述N帧图像的物体检测结果进行比较，确定目标物体；

所述将所述N帧图像的物体检测结果进行比较，确定目标物体，包括：

判断属于同一个区域的各第二检测框的数量是否为N；

若是，则确定各所述第二检测框对应的为同一个目标物体。

8.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1-5任一项所述的物体检测方法。

9.一种计算机存储介质，其特征在于，所述存储介质中存储计算机程序，所述计算机程序在执行时实现如权利要求1-5中任一项所述的物体检测方法。