CN105279484B

CN105279484B - 对象检测方法和对象检测装置

Info

Publication number: CN105279484B
Application number: CN201510654143.9A
Authority: CN
Inventors: 俞刚; 李超; 何奇正; 印奇
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2015-10-10
Filing date: 2015-10-10
Publication date: 2019-08-06
Anticipated expiration: 2035-10-10
Also published as: US20180204057A1; US20170103258A1; US9940509B2; US10192107B2; CN105279484A

Abstract

本发明提供了一种对象检测方法和对象检测装置，所述对象检测方法包括：将图像序列中的至少一帧图像映射到三维物理空间，以获得所述图像中每个像素的三维坐标；提取所述图像中的前景区域；对所述前景区域进行分块操作，以获得块集合；以及对所述块集合中的每个块，基于所述块中预定参考点的三维坐标，通过神经网络检测所述块中的对象，以得到对象检测结果。

Description

对象检测方法和对象检测装置

技术领域

本发明涉及对象检测的领域，更具体地，本发明涉及一种对象检测方法和对象检测装置。

背景技术

随着监控视频的普及和对安全问题的日益关注，对于智能的分析监控视频数据中的特定对象，例如行人或车辆，有着紧迫的需求。

以行人检测为例，在一种行人检测方法中，对视频场景进行分块(blob)处理，然后以块为单位进行行人跟踪。这种方法往往对行人密集程度比较低的场景有效，但是对客流比较复杂或者客流量大的场景，每个块可能包含多个行人，这种算法难以确定地定位到每一个行人。

在另一种行人检测方法中，对视频中每一帧直接使用行人检测算法。然而，这种方法的计算时间复杂度比较高，而且对于客流比较大的监控场景，由于场景中存在很强的遮挡情况，也很难完整地定位出场景中的每一个行人。

发明内容

有鉴于上述情况，本发明提供了一种对象检测方法和对象检测装置，其即使在复杂的高密度场景中也能进行准确的对象检测。

进一步地，本发明还提供了一种对象检测方法和对象检测装置，其不仅能够在复杂的高密度场景中进行准确的对象检测，还能够在后续准确地进行对象跟踪。

根据本发明一实施例，提供了一种对象检测方法，包括：将图像序列中的至少一帧图像映射到三维物理空间，以获得所述图像中每个像素的三维坐标；提取所述图像中的前景区域；对所述前景区域进行分块操作，以获得块集合；以及对所述块集合中的每个块，基于所述块中预定参考点的三维坐标，通过神经网络检测所述块中的对象，以得到对象检测结果。

根据本发明另一实施例，提供了一种对象检测装置，包括：三维坐标获取单元，将图像序列中的至少一帧图像映射到三维物理空间，以获得所述图像中每个像素的三维坐标；前景提取单元，提取所述图像中的前景区域；分块单元，对所述前景区域进行分块操作，以获得块集合；以及检测单元，对所述块集合中的每个块，基于所述块中预定参考点的三维坐标，通过神经网络检测所述块中的对象，以得到对象检测结果。

根据本发明另一实施例，提供了一种对象检测装置，包括：处理器；存储器；和存储在所述存储器中的计算机程序指令，在所述计算机程序指令被所述处理器运行时执行以下步骤：将图像序列中的至少一帧图像映射到三维物理空间，以获得所述图像中每个像素的三维坐标；提取所述图像中的前景区域；对所述前景区域进行分块操作，以获得块集合；以及对所述块集合中的每个块，基于所述块中预定参考点的三维坐标，通过神经网络检测所述块中的对象，以得到对象检测结果。

根据本发明另一实施例，提供了一种计算机程序产品，包括计算机可读存储介质，在所述计算机可读存储介质上存储了计算机程序指令，所述计算机程序指令在被计算机运行时执行以下步骤：将图像序列中的至少一帧图像映射到三维物理空间，以获得所述图像中每个像素的三维坐标；提取所述图像中的前景区域；对所述前景区域进行分块操作，以获得块集合；以及对所述块集合中的每个块，基于所述块中预定参考点的三维坐标，通过神经网络检测所述块中的对象，以得到对象检测结果。

在本发明实施例的对象检测方法和对象检测装置中，对各帧图像进行分块操作，通过神经网络检测所得到的每个块，从而即使在复杂的高密度场景中也能进行准确的对象检测。

附图说明

图1是图示根据本发明一实施例的对象检测方法的主要步骤的流程图；

图2是图示根据本发明另一实施例的对象检测方法的主要步骤的流程图；

图3是图示根据本发明一实施例的对象检测装置的主要配置的框图；

图4是图示根据本发明另一实施例的对象检测装置的主要配置的框图；以及

图5是图示根据本发明又一实施例的对象检测装置的主要配置的框图。

具体实施方式

以下将参考附图详细描述本发明实施例。

首先，参照图1描述根据本发明实施例的对象检测方法。

如图1所示，首先，在步骤S110，将图像序列中的至少一帧图像映射到三维物理空间，以获得所述图像中每个像素的三维坐标。

所述图像序列可以由安装在所要检测的场景中的摄像头采集。所述至少一帧图像可以为所述图像序列中的任一帧或多帧图像。可选地，在对象检测之后还要进行对象跟踪的情况下，可将图像序列中的多帧图像甚至每一帧图像映射到三维物理空间。

关于映射，示例性地，首先，可以在图像空间中确定预定参考面上的不共线的三个像素。所述预定参考面例如为地平面等。

接下来，可以获取所述三个像素的深度信息。所述深度信息表示所述像素对应的真实世界中的点与相机原点之间的距离。作为一示例，所述深度信息可以通过测距仪观测得到。作为另一示例，所述深度信息可通过人工估计得到。作为又一示例，所述深度信息可通过深度相机获得。

在获取了这三个像素的深度信息之后，可以基于所述三个像素的深度信息，建立从图像空间到三维物理空间的映射变换。示例性地，假设相机模型为小孔成像模型，从而可以基于所述三个像素的深度信息，通过小孔成像模型，建立所述映射变换。由此，可以将所述图像中的每个像素通过所述映射变换而映射到三维物理空间，从而获得每个像素的三维坐标。所述三维坐标例如可以以相机所在的位置为原点。

接下来，所述对象检测方法进行到步骤S120。在步骤S120，提取所述图像中的前景区域。

具体地，首先，可以通过例如基于以像素为单位的方法、基于颜色模型的方法、基于帧为单位的子空间方法等的各种方法，确定背景模型。然后，从所述图像中提取出不同于背景模型的区域作为前景区域。当然，以上所述的前景区域提取方式仅为示例。本领域技术人员完全可根据除此以外的各种方式来提取图像中的前景区域。

此外，可选地，为使对象检测结果更为精确，还可对所述图像进行阴影清除处理，也即，通过阴影检测算法清除前景区域中的阴影部分。具体地，例如，考虑到阴影部分中的光线亮度会比非阴影部分中的光线亮度更暗，此外，考虑到阴影部分会保存地面本身的纹理信息，因此，可以基于亮度信息、纹理信息等的各种信息，通过本领域已知的和将来开发的各种阴影检测算法找到阴影部分，然后从前景区域中清除所述阴影部分。

然后，在步骤S130，对所述前景区域进行分块操作，从而最终获得各个不连通的块，形成块集合。具体地，可以采用图像处理领域中已知的和未来开发的各种分块处理方式，对所述前景区域进行分块操作，在此不再详述。

在通过分块处理获得了由各个块组成的块集合之后，在步骤S140，对所述块集合中的每个块，基于所述块中预定参考点的三维坐标，通过神经网络检测所述块中的对象，以得到对象检测结果。

具体地，首先，可基于所述块中与预定参考面接触的像素的三维坐标以及所述块的尺寸信息，估计真实场景中所述块的物理尺寸。更具体地，这里，可以假设同一块中所有对象处于相同或相似的深度距离下。由此，基于所述块中与例如地平面的预定参考面相接触的像素的坐标，确定在所述图像中所述块的尺寸信息，例如所述块的宽度。进一步地，基于所述块在所述图像中的宽度以及长度，计算真实场景中所述块的物理尺寸，例如宽度以及高度。更具体地，可以预先获得所述图像所对应的真实场景的物理尺寸，并基于所述块在所述图像中的尺寸和预先获得的真实场景的物理尺寸，计算得到所述块的物理尺寸。

然后，可基于所述块的物理尺寸，计算所述块中可能存在的对象的数目的上限。例如，对于特定的对象，可预先设置所述对象的单位物理尺寸，如单位宽度。由此，可基于所述对象的单位物理尺寸和所述块的物理尺寸，估计所述块中可能存在的对象的数目的上限。此外，还可预设所述块中对象的密度，并结合预设的密度来估计上限。示例性地，可假设所述块中布满所述对象，所述块中对象的重叠率为120％、130％等等。此后，基于所述块和所述上限，通过神经网络检测所述块中的对象，以得到对象检测结果。

更具体地，所述神经网络可以为各种类型的神经网络，例如，反馈神经网络。所述反馈神经网络可以采用各种结构，在此不作具体限定。可通过所述神经网络执行多次检测过程。对于每次检测过程，将所述块和所述上限输入训练后的神经网络，以得到所述块中本次检测过程所对应的对象的位置以及所述位置处存在所述对象的置信度。多次检测过程中所分别获得的置信度可以以例如降序的特定顺序排列。

然后，判断是否达到结束条件。作为第一示例，可判断检测到的对象的数目是否到达所述上限。作为第二示例，例如在置信度降序排列的情况下，可判断本次检测过程所得到的置信度是否小于阈值。当然，如上所述的结束条件仅为示例。本领域技术人员能够在此基础之上设计其他各种结束条件。

当判断没有达到结束条件时，继续执行下一次检测过程。另一方面，当判断达到结束条件时，将各次检测过程所对应的各个对象的位置及各自的置信度输出作为对象检测结果。

以上，描述了通过神经网络检测所述块中的对象的处理。关于所述神经网络的训练，可预先将包含正样本(即，包含对象的数据)和负样本(即，不包含对象的数据)的多个训练数据输入神经网络。每个训练数据可包含图像以及图像中对象的位置等的各种信息。然后，对标定的真实数据(ground-truth)中的样本与预测结果中的样本通过诸如匈牙利算法等的各种算法进行匹配，从而训练所述神经网络。可选地，在进行所述匹配之后，还可基于匹配的准确度以及输出的结果在三维物理场景中的大小的可能性，计算出预测结果的损耗(loss)。

需要指出的是，以上描述了神经网络的一种训练方式。本领域技术人员能够理解，可通过其他各种方式对所述神经网络进行训练，在此不作具体限定。

以上，参照图1描述了本发明实施例的对象检测方法。在本发明实施例的对象检测方法中，对各帧图像进行分块操作，通过神经网络检测所得到的每个块，从而即使在复杂的高密度场景中也能进行准确的对象检测，极大提高了对象检测的准确度。

而且，本发明实施例的对象检测方法有广泛的通用性，通过一次性地简单配置可以有效地应用于各种智能监控场景和领域，从而可以有效地节约人力资源，并且实时准确地对于监控中的安全问题(如人流密度过高)给出分析和警报。

需要指出的是，在上面的描述中，有时以行人检测为例说明本发明实施例的对象检测方法。然而，本领域技术人员能够理解，本发明实施例的对象检测方法不限于此，而是可以适当地应用于诸如车辆等的其他各种对象的检测。

此外，本发明实施例的对象检测方法还可应用于对象跟踪，即，本发明实施例的对象检测方法可实现为一种对象跟踪方法。图2是图示在此情况下的对象检测方法的主要步骤的流程图。

图2中的步骤S210-S240的处理分别与图1中的步骤S110-S140的处理相类似，在此不再重复。与图1不同的是，在图2中，在获得对象检测结果之后，在步骤S250，对至少两帧图像的对象检测结果进行匹配，以得到对象跟踪结果。此时，步骤S210中的至少一帧为不少于两帧，步骤S250中的至少两帧为步骤S210中的至少一帧的子集。

具体地，所述至少两帧图像可以为所述图像序列中的任两帧图像。可选地，为使得对象跟踪结果更加准确，所述至少两帧图像为所述图像序列中时间上比较接近的两帧。例如，所述至少两帧图像可以为所述图像序列中的相邻两帧。

更具体地，可以对于所述至少两帧图像中的每一帧图像，提取所述图像中检测到的每个对象的特征信息。所述特征信息例如包括所述对象的位置信息、外观信息和纹理信息中的至少一个。所述外观信息例如为所述对象的颜色信息，如RGB或HSV直方图、方向梯度直方图等等。所述纹理信息例如为局部二值模式(local binary pattern)等等。

接下来，对于所述至少两帧图像的其中一帧中每个对象，基于所述特征信息，对所述对象与所述至少两帧图像的其他帧中每个对象的对分配权重，所述权重表示所述对象与其他帧中每个对象之间相匹配的概率。例如：对于当前帧中每个对象，基于所述特征信息，对所述对象与下一帧中每个对象的对分配权重。所述权重表示所述对象与下一帧中每个对象之间相匹配的概率。

在第一种方式中，可基于所述特征信息，通过诸如支持向量机、随机分类器(random forest)、卷积神经网络等的各种方式，直接计算所述对象与下一帧中每个对象之间的对的权重。

在第二种方式中，可通过诸如支持向量机、随机分类器(random forest)、卷积神经网络等的各种方式，计算所述对象与下一帧中每个对象之间的欧氏距离。然后，基于所述欧氏距离，对所述对象与下一帧中每个对象的对分配权重。所述欧氏距离越小，代表所述对象对中的两个对象之间的相似度越高，从而对所述对象对所分配的权重越大。所述欧氏距离越大，代表所述对象对中的两个对象之间的相似度越低，从而对所述对象对所分配的权重越小。

当然，如上所述的两种方式仅为示例。本领域技术人员可以在此基础之上设计其他方式来计算权重。

然后，基于所述权重，对所述图像序列中的所述至少两帧图像进行匹配，以得到对象跟踪结果。具体地，可通过诸如匈牙利算法、粒子滤波器、卡尔曼滤波器等的各种算法，对所述至少两帧图像之间进行匹配，以得到对象跟踪结果。

以上，描述了本发明实施例的对象检测方法在对象跟踪场景中的应用。在本发明实施例的对象检测方法中，对每帧图像进行分块操作，通过神经网络检测所得到的每个块，并对至少两帧之间的对象检测结果进行匹配从而得到对象跟踪结果，从而即使在复杂的高密度场景中也能进行准确的对象检测和跟踪。

下面，将参照图3描述本发明实施例的对象检测装置。

图3是图示本发明实施例的对象检测装置的主要配置的框图。如图3所示，本发明实施例的对象检测装置300包括：三维坐标获取单元310、前景提取单元320、分块单元330和检测单元340。

具体地，所述三维坐标获取单元310将图像序列中的至少一帧图像映射到三维物理空间，以获得所述图像中每个像素的三维坐标。所述前景提取单元320提取所述图像中的前景区域。所述分块单元330对所述前景区域进行分块操作，以获得块集合。所述检测单元340对所述块集合中的每个块，基于所述块中预定参考点的三维坐标，通过神经网络检测所述块中的对象，以得到对象检测结果。

在另一实施例中，所述检测单元240包括：物理尺寸估计单元，基于所述块中与预定参考面接触的像素的三维坐标以及所述块的尺寸信息，估计真实场景中所述块的物理尺寸；上限计算单元，基于所述块的物理尺寸，计算所述块中可能存在的对象的数目的上限；以及检测结果获得单元，基于所述块和所述上限，通过神经网络检测所述块中的对象，以得到对象检测结果。

在另一实施例中，所述检测结果获得单元包括：执行单元，对于每次检测过程，将所述块和所述上限输入训练后的神经网络，以得到所述块中本次检测过程所对应的对象的位置以及所述位置处存在所述对象的置信度；以及判断单元，判断是否达到结束条件；所述执行单元当判断没有达到结束条件时，执行下一次检测过程；当判断达到结束条件时，将各次检测过程所对应的各个对象的位置及各自的置信度输出作为对象检测结果。

在另一实施例中，所述判断单元配置为执行以下中的任一：判断检测到的对象的数目是否到达所述上限；判断本次检测过程所得到的置信度是否小于阈值。

在另一实施例中，所述三维坐标获取单元包括：像素确定单元，在图像空间中确定预定参考面上的不共线的三个像素；深度信息获取单元，获取所述三个像素的深度信息；映射变换建立单元，基于所述三个像素的深度信息，建立从图像空间到三维物理空间的映射变换；以及映射单元，将每一帧图像中的每个像素通过所述映射变换而映射到三维物理空间，从而获得所述像素的三维坐标。

所述对象检测装置的各个单元的配置和操作已经在参照图1所述的对象检测方法中详细描述，在此不再详述。

此外，本发明实施例的对象检测装置还可应用于对象跟踪，即，本发明实施例的对象检测装置还可实现为一种对象跟踪装置。图4是图示在此情况下的对象检测装置的主要配置的框图。

如图4所示，本发明实施例的对象检测装置400包括：三维坐标获取单元410、前景提取单元420、分块单元430、检测单元440和跟踪单元450。

所述三维坐标获取单元410、所述前景提取单元420、所述分块单元430和所述检测单元440的配置和操作与图3所示的对象检测装置300中的相应单元的配置和操作类似，在此不再详述。

与图3所示不同的是，本发明实施例的对象检测装置400还包括跟踪单元450，其对至少两帧之间的对象检测结果进行匹配，以得到对象跟踪结果。

具体地，所述跟踪单元可包括：特征提取单元，对于所述至少两帧图像中的每一帧图像，提取所述图像中检测到的每个对象的特征信息，所述特征信息包括所述对象的位置信息、外观信息和纹理信息中的至少一个；权重分配单元，对于所述至少两帧图像的其中一帧中每个对象，基于所述特征信息，对所述对象与所述至少两帧图像的其他帧中每个对象的对分配权重，所述权重表示所述对象与其他帧中每个对象之间相匹配的概率；以及匹配单元，基于所述权重，对所述图像序列中的所述至少两帧图像进行匹配，以得到对象跟踪结果。

图5是图示根据本发明另一实施例的对象检测装置的主要配置的框图。

如图5所示，本发明实施例的对象检测装置500主要包括：一个或多个处理器510和存储器520，这些组件通过总线系统530和/或其它形式的连接机构(未示出)互连。应当注意，图5所示的对象检测装置500的组件和结构只是示例性的，而非限制性的，根据需要，对象检测装置500也可以具有其他组件和结构。

处理器510可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制对象检测装置300中的其它组件以执行期望的功能。

存储器520可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器520可以运行所述程序指令，以实现本发明实施例的对象检测方法的功能以及/或者其它期望的功能。

以上，参照图3-图5描述了本发明实施例的对象检测装置。在本发明实施例的对象检测装置中，对各帧图像进行分块操作，通过神经网络检测所得到的每个块，从而即使在复杂的高密度场景中也能进行准确的对象检测，极大提高了对象检测的准确度。

此外，本发明实施例还提供了一种计算机程序产品，包括计算机可读存储介质，在所述计算机可读存储介质上存储了计算机程序指令，所述计算机程序指令在被计算机运行时执行如上所述的对象检测方法的各个步骤。例如，所述计算机程序指令在被计算机运行时，可以将图像序列中的一帧图像映射到三维物理空间，以获得所述图像中每个像素的三维坐标；提取所述图像中的前景区域；对所述前景区域进行分块操作，以获得块集合；以及对所述块集合中的每个块，基于所述块中预定参考点的三维坐标，通过神经网络检测所述块中的对象，以得到对象检测结果。

以上，参照图1到图5描述了根据本发明实施例的对象检测方法和对象检测装置。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

此外，需要说明的是，在本说明书中，类似“第一…单元”、“第二...单元”的表述仅为了在描述时方便区分，而并不意味着其必须实现为物理分离的两个或多个单元。事实上，根据需要，所述单元可以整体实现为一个单元，也可以实现为多个单元。

最后，还需要说明的是，上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理，而且包括并行或分别地、而不是按时间顺序执行的处理。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

在本发明实施例中，单元/模块可以用软件实现，以便由各种类型的处理器执行。举例来说，一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块，举例来说，其可以被构建为对象、过程或函数。尽管如此，所标识模块的可执行代码无需物理地位于一起，而是可以包括存储在不同位里上的不同的指令，当这些指令逻辑上结合在一起时，其构成单元/模块并且实现该单元/模块的规定目的。

在单元/模块可以利用软件实现时，考虑到现有硬件工艺的水平，所以可以以软件实现的单元/模块，在不考虑成本的情况下，本领域技术人员都可以搭建对应的硬件电路来实现对应的功能，所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

以上对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种对象检测方法，包括：

将图像序列中的至少一帧图像映射到三维物理空间，以获得所述图像中每个像素的三维坐标；

提取所述图像中的前景区域；

对所述前景区域进行分块操作，以获得块集合；以及

对所述块集合中的每个块，基于所述块中预定参考点的三维坐标，通过神经网络检测所述块中的对象，以得到对象检测结果，

其中，对所述块集合中的每个块，基于所述块中预定参考点的三维坐标，通过神经网络检测所述块中的对象，以得到对象检测结果的步骤包括：

基于所述块中与预定参考面接触的像素的三维坐标以及所述块的尺寸信息，估计真实场景中所述块的物理尺寸；

基于所述块的物理尺寸，计算所述块中可能存在的对象的数目的上限；以及

基于所述块和所述上限，通过神经网络检测所述块中的对象，以得到对象检测结果。

2.如权利要求1所述的对象检测方法，还包括：

对至少两帧图像的对象检测结果进行匹配，以得到对象跟踪结果。

3.如权利要求1所述的对象检测方法，通过神经网络检测所述块中的对象的步骤包括：

对于每次检测过程，将所述块和所述上限输入训练后的神经网络，以得到所述块中本次检测过程所对应的对象的位置以及所述位置处存在所述对象的置信度；

判断是否达到结束条件；以及

当判断没有达到结束条件时，执行下一次检测过程；当判断达到结束条件时，将各次检测过程所对应的各个对象的位置及各自的置信度输出作为对象检测结果。

4.如权利要求3所述的对象检测方法，其中，判断是否达到结束条件的步骤包括以下中的任一：

判断检测到的对象的数目是否到达所述上限；

判断本次检测过程所得到的置信度是否小于阈值。

5.如权利要求2所述的对象检测方法，对至少两帧图像的对象检测结果进行匹配的步骤包括：

对于所述至少两帧图像中的每一帧图像，提取所述图像中检测到的每个对象的特征信息，所述特征信息包括所述对象的位置信息、外观信息和纹理信息中的至少一个；

对于所述至少两帧图像的其中一帧中每个对象，基于所述特征信息，对所述对象与所述至少两帧图像的其他帧中每个对象的这一对的权重进行分配，所述权重表示所述对象与其他帧中每个对象之间相匹配的概率；以及

基于所述权重，对所述图像序列中的所述至少两帧图像进行匹配，以得到对象跟踪结果。

6.如权利要求1所述的对象检测方法，获得所述图像中每个像素的三维坐标的步骤包括：

在图像空间中确定预定参考面上的不共线的三个像素；

获取所述三个像素的深度信息；

基于所述三个像素的深度信息，建立从图像空间到三维物理空间的映射变换；以及

将所述图像中的每个像素通过所述映射变换而映射到三维物理空间，从而获得所述像素的三维坐标。

7.一种对象检测装置，包括：

三维坐标获取单元，将图像序列中的至少一帧图像映射到三维物理空间，以获得所述图像中每个像素的三维坐标；

前景提取单元，提取所述图像中的前景区域；

分块单元，对所述前景区域进行分块操作，以获得块集合；以及

检测单元，对所述块集合中的每个块，基于所述块中预定参考点的三维坐标，通过神经网络检测所述块中的对象，以得到对象检测结果，

其中，所述检测单元包括：

物理尺寸估计单元，基于所述块中与预定参考面接触的像素的三维坐标以及所述块的尺寸信息，估计真实场景中所述块的物理尺寸；

上限计算单元，基于所述块的物理尺寸，计算所述块中可能存在的对象的数目的上限；以及

检测结果获得单元，基于所述块和所述上限，通过神经网络检测所述块中的对象，以得到对象检测结果。

8.如权利要求7所述的对象检测装置，还包括：

跟踪单元，对至少两帧图像的对象检测结果进行匹配，以得到对象跟踪结果。

9.如权利要求7所述的对象检测装置，所述检测结果获得单元包括：

执行单元，对于每次检测过程，将所述块和所述上限输入训练后的神经网络，以得到所述块中本次检测过程所对应的对象的位置以及所述位置处存在所述对象的置信度；以及

判断单元，判断是否达到结束条件；

所述执行单元当判断没有达到结束条件时，执行下一次检测过程；当判断达到结束条件时，将各次检测过程所对应的各个对象的位置及各自的置信度输出作为对象检测结果。

10.如权利要求9所述的对象检测装置，其中，所述判断单元配置为执行以下中的任一：

判断检测到的对象的数目是否到达所述上限；

判断本次检测过程所得到的置信度是否小于阈值。

11.如权利要求8所述的对象检测装置，所述跟踪单元包括：

特征提取单元，对于所述至少两帧图像中的每一帧图像，提取所述图像中检测到的每个对象的特征信息，所述特征信息包括所述对象的位置信息、外观信息和纹理信息中的至少一个；

权重分配单元，对于所述至少两帧图像的其中一帧中每个对象，基于所述特征信息，对所述对象与所述至少两帧图像的其他帧中每个对象的这一对的权重进行分配，所述权重表示所述对象与其他帧中每个对象之间相匹配的概率；以及

匹配单元，基于所述权重，对所述图像序列中的所述至少两帧图像进行匹配，以得到对象跟踪结果。

12.如权利要求7所述的对象检测装置，所述三维坐标获取单元包括：

像素确定单元，在图像空间中确定预定参考面上的不共线的三个像素；

深度信息获取单元，获取所述三个像素的深度信息；

映射变换建立单元，基于所述三个像素的深度信息，建立从图像空间到三维物理空间的映射变换；以及

映射单元，将所述图像中的每个像素通过所述映射变换而映射到三维物理空间，从而获得所述像素的三维坐标。