CN103903246A

CN103903246A - 物体检测方法和装置

Info

Publication number: CN103903246A
Application number: CN201210574632.XA
Authority: CN
Inventors: 范圣印; 王鑫
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2012-12-26
Filing date: 2012-12-26
Publication date: 2014-07-02
Also published as: JP6295645B2; US20140177915A1; JP2014127208A; US9741130B2

Abstract

公开了一种物体检测方法和装置。该方法包括：通过多个立体相机获得物体的多个深度图像；从每个深度图像提取前景；在以x、y、z方向的矩形坐标定义的统一的三维世界坐标系中，融合各个前景，其中物体相当于站立于x、z轴限定的xz平面上；从所述三维世界坐标系中融合的前景计算得到xz平面上的外观二维直方图；根据该多个立体相机的部署，确定对应的多个深度图像在xz平面上的交叠区域，并确定交叠次数；根据某检测位置是否处于交叠区域以及对应的交叠次数，确定该检测位置相关联的检测参数；以及基于确定的检测参数，利用外观二维直方图来检测物体。该物体检测方法和装置可以降低错误率，增加物体的检出率和精度。

Description

物体检测方法和装置

技术领域

本发明总体地涉及图像处理，更具体地涉及基于立体视觉的物体检测方法和装置。

背景技术

已经存在一些利用立体摄像机采集的图像来检测对象的技术，例如，标题为“METHOD AND SYSTEM TO SEGMENT DEPTH IMAGES AND TODETECT SHAPES IN THREE-DIMENSIONALLY ACQUIRED DATA”的专利文献US8009871B，标题为“SURFACE GENERATION METHOD FROMBOUNDARIES OF STEREO IMAGES”的专利文献US5202928A,MichaelHarville在2003年发表的文章"Stereo Person Tracking with Adaptive Plan-ViewTemplates of Height and Occupancy Statistics"等。

以人的定位或检测为例，人的定位是以人为中心的技术的基础，只有人被准确的定位后方能提供和推送主动的服务。人定位是指检测到人进而得到人在室内或者室外的位置信息，也就是得到人在世界坐标系中的坐标值(x,y,z)的过程。

基于立体视觉的人的定位技术的核心是深度图/视差图序列中的人的检测和跟踪技术。目前，其仍是一个挑战性的技术课题，主要是因为实际应用中人的姿态和外观变化大、遮挡问题经常发生。在室内场景中，由于背景复杂，人员众多，遮挡发生的频率更高，其经常导致人的检测和跟踪的失效。同时，单个立体相机的视角的有限，其测量误差随着距离的增大而增大。为此，可以通过部署多个立体相机来增大系统的视角、有效测量范围和减少遮挡问题。

发明内容

发明人认为，如何利用多个立体相机的深度/视差信息来更有效的检测人、跟踪人和更精确的定位人，是对实际应用非常有意义的课题，可以通过使用融合技术来进行解决。融合，按照其融合对象的不同大致可以分为三类：原始数据集的融合；特征集的融合；再有就是结果集的融合。

对于多个立体相机诸如双目相机的场景而言，原始数据集的融合，即像素集的融合，网络传输数据量大和处理的数据量大，无法在实际场景中进行实时应用。

专利US7929017 B2提出了一种方法和装置用于立体相机、多相机以及RF和视频的融合。该方法融合单目相机、立体相机的跟踪结果，以及RFID、定位系统和生物识别系统的结果。该融合技术通过对不同传感器信息的噪声和模糊进行严格地不确定性分析后，进行传感器信息的转换。其基于时空约束来融合不同传感器的位置和速度信息。该专利提出的方法使用了贝叶斯方法来融合各类结果，融合目标是跟踪的结果和位置信息。为了增加稳定性，其考虑了时空的约束。

专利US7742620 B2提出了一种通过时域和空域融合来提升检测结果的方法。该方法融合目标是各个不同传感器的处理结果，其将空域和时域的融合结合到一起，同时采用了特殊的阈值处理。

上述两篇专利文献采用的方法均是在结果集上的融合，一般而言，由于结果已经丢失了许多原始的信息和特征，结果本身的置信度不确定，会导致融合的结果的错误率高。

针对现有技术中的以上问题，做出了本发明。

本发明的一个目的是希望提供一种物体检测方法和装置，其对物体遮挡具有较强的鲁棒性，能够准确且尽可能多地检测出对象。

根据本发明的实施例，提供了一种物体检测方法，可以包括下述步骤：通过多个立体相机拍摄物体获得该物体的多个深度图像；从每个深度图像提取前景，每个深度图像的前景具有各自的图像坐标系统；在以x、y、z方向的矩形坐标定义的统一的三维世界坐标系中，融合各个前景，其中物体相当于站立于x、z轴限定的xz平面上；从所述三维世界坐标系中融合的前景计算得到xz平面上的外观二维直方图，该外观二维直方图通过如下处理得到：将所述三维世界坐标系中融合的前景分割成沿y方向延伸的竖直体，统计每个竖直体中前景点的个数，从而得到表征各个竖直体内的前景点个数的外观二维直方图；根据该多个立体相机的部署，确定对应的多个深度图像在xz平面上的交叠区域，并确定交叠次数；根据某检测位置是否处于交叠区域以及对应的交叠次数，确定该检测位置相关联的检测参数；以及基于确定的检测参数，利用外观二维直方图来检测物体。

根据本发明的另一实施例，提供了一种物体检测装置，可以包括：多深度图像获得部件，通过多个立体相机拍摄物体获得该物体的多个深度图像；前景提取部件，从每个深度图像提取前景，每个深度图像的前景具有各自的图像坐标系统；前景融合部件，在以x、y、z方向的矩形坐标定义的统一的三维世界坐标系中，融合各个前景，其中物体相当于站立于x、z轴限定的xz平面上；外观二维直方图计算部件，从所述三维世界坐标系中融合的前景计算得到xz平面上的外观二维直方图，该外观二维直方图通过如下处理得到：将所述三维世界坐标系中融合的前景分割成沿y方向延伸的竖直体，统计每个竖直体中前景点的个数，从而得到表征各个竖直体内的前景点个数的外观二维直方图；交叠次数确定部件，根据该多个立体相机的部署，确定对应的多个深度图像在xz平面上的交叠区域，并确定交叠次数；检测参数确定部件，根据某检测位置是否处于交叠区域以及对应的交叠次数，确定该检测位置相关联的检测参数；以及物体检测部件，基于确定的检测参数，利用外观二维直方图来检测物体。

利用根据本发明实施例的物体检测方法和装置，可以消除或减轻遮挡的影响，更准确和尽可能多地检测出对象。

附图说明

图1示出了使用本发明实施例的方法或装置的系统示意图。

图2示出了根据本发明一个实施例的物体检测方法的总体流程图。

图3示出根据本发明一个实施例的在统一的xyz世界坐标系中进行前景点的融合的示意图。

图4是根据本发明一个实施例的前景点融合的示例性方法的流程图。

图5示出根据本发明实施例的在统一世界坐标系中的竖直体的示意。

图6是根据本发明一个实施例的基于鸟瞰视图的外观二维直方图的生成的流程图。

图7示出了外观二维直方图的示意图。

图8示出了根据本发明一个实施例的交叠区域的交叠次数的计算的示意图。

图9示出根据本发明实施例的不同交叠区域的作为检测参数的物体标准表面积的确定的示意图。

图10示出了根据本发明第二实施例的物体检测方法的总体流程图。

图11示出了根据本发明一个实施例从融合的前景计算得到外观二维直方图和高度二维直方图二者的方法的流程图。

图12示出了根据本发明实施例的基于俯视图的高度二维直方图的示意图。

图13示出了根据本发明一个实施例的利用二维直方图进行物体跟踪的方法的流程图。

图14示出根据本发明实施例的根据交叠区域的交叠次数来改变跟踪特征的示意图。

图15示出了根据本发明一个实施例的示例性物体检测装置的功能配置框图。

图16是示出按照本发明实施例的物体检测系统的总体硬件框图。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

将按下列顺序进行描述：

1、系统示意图

2、基于外观二维直方图的物体检测方法（第一实施例）

3、基于外观二维直方图和高度二维直方图的物体检测方法（第二实施例）

4、基于高度二维直方图的物体跟踪方法（第三实施例）

5、物体检测装置

6、系统硬件配置

1、系统示意图

图1示出了使用本发明实施例的方法或装置的系统示意图，主要示例性给出了本发明实施例的输入和输出。其中，输入的信息来自于两个个双目相机，图中仅给出了两个双目相机，实际上本发明可以支持一个、两个、更多个双目相机。本发明实施例的输出是定位到的人的位置，我们以鸟瞰图或俯视图的形式呈现出来。图1中的两个圆1、3表示的是两个双目相机在鸟瞰图中的位置；直线A,B,C表示的是双目相机1的视角边缘;D,E，F表示的是双目像机2的视角边缘；多个白色的菱形表示定位到的人。

需要说明的是，本例子以及后续例子中，以人为检测目标，并假设人站在地面上。不过这仅为示例，本发明并不局限于此，可以以任何物体为检测目标，如动物、椅子等等，而且被检测对象可以任意布置而未必一定位于地面上。

2、基于外观二维直方图的物体检测方法（第一实施例）

下面描述根据本发明一个实施例的、利用多个立体摄像机来对物体进行检测的整体过程。

图2示出了根据本发明一个实施例的物体检测方法100的总体流程图。

为便于描述，该总体流程图假定针对一预定空间中，布置了多个立体摄像机，以对出现于该预定空间中的对象进行立体成像，通过对立体图像进行处理来进行对象检测。

关于预定空间，例如可以是一个房间，例如超市、厂房等，不过也可以是室外的空间，例如学校场地、军工场所等，只要是可以作为监控对象的空间即可。关于被检测的对象，没有特别限制，可以是人、动物、飞行物、汽车、椅子等等。

关于立体摄像机是指能够对物体进行三维成像或立体成像的摄像机，一般可同时输出深度图像和彩色图像（或灰度图像）。如前所述，一类立体摄像机使用主动发射红外光来辅助生成立体信息，这样的摄像机例子，有微软的Kinect，还有基于红外光飞行时间(Time of Flight,TOF)技术的类型，或者基于纹理光的类型。另一类立体摄像机基于立体视距的双目原理，例如双目摄像机或多目摄像机。为描述便利，下文将采用双目摄像机为例进行说明，不过本发明并不局限于此，而是可以应用任何立体摄像机。

请注意，由于使用立体摄像机，能得到准确的三维信息。所以本发明提出的人的检测应理解为可以同时完成检测和定位，当然不必说也可以仅进行对象检测和定位之一。

如图2所示，在步骤S110中，通过多个立体相机拍摄物体获得该物体的多个深度图像。

在步骤S120中，从每个深度图像提取前景，每个深度图像的前景具有各自的图像坐标系统。

从深度图像提取前景或者说前景分割，即从立体图像中将作为处理对象的前景与背景分开，并提取出前景。作为一种示例性实现，可以使用RGBD的混合高斯动态建模来分割前景，具体可以参考标题为"Plan-view trajectoryestimation with dense stereo background model"的T.Darrel于2001年发表的文章。

在步骤S130中，在以x、y、z方向的矩形坐标定义的统一的三维世界坐标系中，融合各个前景，其中物体相当于站立于x、z轴限定的xz平面上。

以检测站在地面上的人为例，则地面处于xz平面上，人的高度方向为y轴方向。

下面，参考图3、4详细介绍根据本发明一个示例性实施例的融合前景的例子。

图3示出根据本发明一个实施例的在统一的xyz世界坐标系中进行前景点的融合的示意图。如图3所示，中间位置的前景对象的前景点来自于不同的双目相机，部分来自于双目相机A，部分来自于双目相机B。实际上，图3中其他位置的前景对象也是类似的情形。

图4是根据本发明一个实施例的前景点融合的示例性方法130的流程图。该方法130可以应用于图2所示的步骤S130。

建立统一世界坐标系的基础是先确定每个双目相机的外参，目前已经是公知技术，这里不再详述。为多个双目相机确定统一的世界坐标系后，可以确保物理世界中的一个点在不同双目相机中的坐标值是相似的，即该点通过不同双目相机获取到的在统一世界坐标系中的不同坐标点之间的距离很小。

如图4所示，在步骤S131中，在xyz统一世界坐标系中，得到不同双目相机获取到的前景点。一点从图像坐标系到世界坐标系的坐标变换是公知技术，这里省略对其的详细描述。

在步骤S132中，判定这些不同源的前景点是否属于物理世界中的一个点。在一个例子中，可以通过计算在统一世界坐标系中这些不同源的前景点的距离来进行判定，如果距离小于给定的阈值，认为这些不同源的前景点为同一个点，否则认为这些不同源的前景点为不同的点。阈值可以通过实验确定，或者通过学习获得。在一个示例中，将阈值默认设置为1cm。

如果在步骤S132中判定不同源的前景点不是同一个点，则前进到步骤S133，在步骤S133中，直接把它们作为统一世界坐标系中的前景点。

如果在步骤S132中判定不同源的这些前景点是同一个点，则前进到步骤S134。

在图3的示例中，当判定不同源的这些前景点是同一个点时，需要进行多个点的融合，以得到最终点的坐标值。

在一个示例中，可以采用加权和的方法来进行融合。

具体地，在步骤S134中，计算每个点到自身源（即双目相机）的距离。

在步骤S135中，根据不同的距离值，计算不同源的前景点的权值，根据距离的不同，确定不同源的前景点的权重，使得距离越近，权值越高；然后，融合得到该点的最终的坐标值。

下面以两个不同源的前景点对应于物理世界中的同一个点为例进行说明。假设，源自双目相机A的前景点在自身的图像坐标系中的坐标值为(xa,ya,za)，经变换到统一世界坐标系中后输出的前景点的坐标为(x1,y1,z1)，该点到相机A的距离为dist_a。源自双目相机B的前景点在自身的图像坐标系中的坐标值为(xb,yb,zb)，经变换到统一世界坐标系中后输出的前景点的坐标为(x2,y2,z2)，该点到相机B的距离为dist_b。

在一个示例中，可以根据公式1利用该点到相机A、相机B的这两个距离进行权值的计算。

weight_a=1-dist-a/(dist_a+dist_b)

weight_b＝1-weight_a …(1)

其中，weight_a是从相机A来的前景点的权重；weight_b是从相机B来的前景点的权重。

根据计算得到的权重值，可以计算融合后点的最终坐标值（x,y，z）。根据一个示例，具体的计算公式如（2）所示。

(x,y,z)=(x1，y1,z1)*weight_a+(x2,y2,z2)*weight_b ...(2)

上面示例中，根据距离确定权重的公式(1)和坐标融合公式(2)仅为示例，可以根据不同应用和实际情况设计其它公式，只要满足距离越近，权重越大，对最终坐标值的决定作用越强即可。

另外，需要说明的是，上面以来自两个双目相机的前景点为例说明来自多个不同双目相机的前景点的融合，不过这仅为示例，可以对来自例如3、4等更多个双目相机的前景点进行融合。

返回到图2，在步骤S130中完成前景融合后，前进到步骤S140。

在步骤S140中，从所述三维世界坐标系中融合的前景计算得到xz平面上的外观二维直方图，该外观二维直方图通过如下处理得到：将所述三维世界坐标系中融合的前景分割成沿y方向延伸的竖直体，统计每个竖直体中前景点的个数，从而得到表征各个竖直体内的前景点个数的外观二维直方图。

上述外观二维直方图和/或后文描述的高度二维直方图可以视为立体图像在某个平面视图上物体的表面点的分布的统计数据，在某些文献例如标题为"Plan-view trajectory estimation with dense stereo background model"的T.Darrel于2001年发表的文章中也称为外观平面视图(Appearance plan view)，或者在发明人为王鑫的专利申请号为CN201210292660.2的发明专利申请中被称为累加俯视图或高度俯视图。

外观二维直方图表征了人的表面积，实际上其为人所包含的所有竖直bin内的前景点数的和，和越大表明人的表面积越大。采用外观二维直方图表征人的表面积，其可以作为后续对人进行检测的基本特征。

上述竖直体，也被称为竖直bin。图5示出根据本发明实施例的在统一世界坐标系中的竖直bin的示意。在统一世界坐标系中，通过竖直bins对三维空间进行划分；然后，在每个竖直的bin内统计其包含的前景点的数目（对于外观二维直方图）或者统计其内前景点的最高的值（对于高度二维直方图）；如此在鸟瞰图上进行统计分析，就得到了外观二维直方图和/或高度二维直方图。

在步骤S141中，得到前景点。

在步骤S142中，依次枚举每个竖直bin。

在步骤S143中，统计bin内的前景点的个数。

在步骤S144中，计算得到外观二维直方图。外观或外观模型就是指人的表面积，实际上其为人所包含的所有的竖直bin内的前景点数的和，和越大表明人的表面积越大。采用外观模型的二维直方图表征人的表面积，其可以作为后续的人的检测的基本特征。

图7示出了外观二维直方图的示意图，其中的各个白色斑点即表示各个人的外观二维直方图。

关于获得外观二维直方图（或称为外观平面视图）的方法的更具体描述，可以参考标题为"Plan-view trajectory estimation with dense stereo backgroundmodel"的T.Darrel于2001年发表的文章，或者参考发明人为王鑫的专利申请号为CN201210292660.2的发明专利申请，将上述两文献全文并入本文，作为参考。

返回到图2，在步骤S140中得到外观二维直方图之后，前进到步骤S150。

在步骤S150中，根据该多个立体相机的部署，确定对应的多个深度图像在xz平面上的交叠区域，并确定交叠次数。

在两个双目相机的交叠区域中，对于选择的某个矩形区域而言，其bin的数量要大于非交叠区域中选择的矩形区域中的bin的数量。同时，在交叠区域中，对于选择地某个矩形区域而言，通常来讲，其面积（前景点的总个数）也要大于非交叠区域中选择的矩形区域中的面积（前景点的总个数）。示例性地，在如图7所示的外观二维直方图中，处于交叠区域的白色斑点的强度大于不处于交叠区域的白色斑点的强度，也就是说处于交叠区域的人的表面积大于非交叠区域中的人的表面积。

外观模型将被用于后续的人的检测，考虑到不同的交叠区域的人的表面积存在差异，为此检测算法部分需要相应的机制进行应对。

因此，发明人想到要确定各个相机的交叠区域以及有关区域的交叠次数，并相应地调整检测参数，以便更准确地检测到对象。

因此，在步骤S150中，进行交叠区域的确定，以及交叠次数的计算。

根据多个双目相机的部署情况来计算其交叠区域的分布和交叠的次数。仅有一个双目相机覆盖的区域，其交叠次数为1，有两个双目相机覆盖的区域，其交叠次数为2，依次类推。当我们知道摄像机的内参和部署信息后，三维空间中的那个区域会被摄像机覆盖是共知的技术，这里不做详细描述。完成区域的交叠次数的计算后，可以把交叠次数作为掩膜（如图8中的网格所示），用于外观二维直方图或者后文所述的高度二维直方图。

在步骤S160中，根据某检测位置是否处于交叠区域以及对应的交叠次数，确定该检测位置相关联的检测参数。

这里的检测参数是指在用于检测对象的检测方法中涉及到的参数。检测参数根据采用检测方法的不同而不同。

根据一个示例，如果通过物体标准模板和外观二维直方图中待检对象进行匹配的方法进行检测，则检测参数可以为阈值和物体标准模板。在此情况下，通过将被检测物体和物体标准模板进行匹配、确定匹配程度、将匹配程度和阈值进行比较来检测物体。

作为另一示例，如果通过对物体检测模型进行建模的方法来对物体进行检测，则检测参数可以是依赖于具体物体检测模型的具体参数。

这里，对于检测方法和检测参数，本发明没有特别限制，任何检测方法和对应的检测参数都可以用于本发明，例如基于连通域分析来分割和检测对象的方法等。不过后面为了描述方便，作为示例，将以物体标准模板和外观二维视图中待检对象进行匹配的对象检测方法为例来说明如何进行检测参数调整。

说明一下，关于物体标准模板，根据一个示例可以理解由刻画标准物体的特征组成的特征向量，例如，标准物体的表面积大小（单个取值或者确定的取值范围）、标准物体的高度范围、标准物体的外观二维直方图图样例如高斯模板等等。更具体地，在一个示例中，标准物体模板被简单地设置为标准物体的表面积大小。

在一个示例性检测方法中，物体的检测过程如下：以预定形状例如矩形、圆形等的匹配窗口在外观二维直方图上移动，通过匹配窗口内的区域和物体标准模板的匹配来检测物体。例如，在检测人的情况下，计算匹配窗口内的物体表面积，将计算的物体表面积和标准物体的表面积大小进行比较，如果差值小于预定阈值，则认为匹配窗口内存在待检测对象即人，否则认为不存在待检测对象。

这里，检测位置是匹配窗口或者检测窗口当前所处于的位置。

图9示出根据本发明实施例的对于不同交叠区域的作为检测参数的物体标准表面积的确定的示意图。图9中表示，利用例如通过图8计算得到的掩膜（交叠次数）来对于交叠次数多的区域使用更大的物体标准表面积，相反，对于交叠次数少的区域使用更小的物体标准表面积。

在一个示例性实施例中，检测位置相关联的检测参数是表征标准物体的表面积大小的标准表面积物体标准模板，其中根据某检测位置是否处于交叠区域以及交叠次数来确定该检测位置相关联的检测参数，具体地，根据检测位置所处区域的交叠次数计算该检测位置相关联的标准表面积，使得交叠次数越大，标准表面积越大。

如前所述，外观模型本质上反映的是观测到的人的表面积，因此在多个双目相机的交叠次数高的区域通常得到的人的表面积要大于交叠次数少的区域和非交叠区域。在进行人的检测时，需要根据交叠区域交叠次数的不同而采用不同的物体模板，即不同的物体标准表面积，使得一个区域对应的交叠次数越大，物体标准表面积也相应地更大。

在一个示例性实施例中，使用公式(3)、（4）计算物体标准表面积。

Area_i=f(overlap_value_i)*Std_Area ...(3)

Std_Area=W_Avg*H_Avg*0.25 ...(4)

其中，Area_i表示检测位置i处对应的物体标准表面积，Overlap_value_i表示检测位置i处对应的交叠次数，取值为1，2，3，...，等等，f(Overlap_value_i)表示满足取值随Overlap_value_i单调递增的正函数，同时满足f(1)=1。Std_Area表示不存在交叠或者说交叠次数为1的区域对应的物体标准表面积，W_avg是物体的平均宽度，当检测对象为人时其取值可以大概为40cm；H_avg是物体的平均高度，当检测对象为人时大概为170cm，这里物体的标准表面积用物体的平均宽度和物体的平均高度乘积的1/4来估计，这是考虑到在单个摄像机倾斜拍摄物体时因存在遮挡等的一般情况下对物体表面积的经验估计示例。

根据一个更具体的实施例，使用公式(5)计算物体标准表面积。

Area_i=Sigmoid(overlap_value_i-1)*Std_Area …(5)

其中sigmoid函数是一个良好的阈值函数，其连续、光滑且严格单调。根据一个例子，其数学表达式可以如公式(6)所示：

y = g (x) = 2 . \frac{1}{1 + e^{- x}} . . . (6)

需要说明的是，上述物体标准表面积计算中使用的公式(3)-(6)仅为示例，本发明并不局限于此，可以根据需要设计各种公式，例如在一个示例中，对于公式(3)并不要求f(1)=1，而是可以不做要求，或者要求为其它取值例如f(1)=0.5，此时可以相应地调整公式(6)例如去除系数2等。

需要说明的是，上面以调整的检测参数为物体标准表面积为例进行了说明，不过这仅为示例，本发明并不局限于此。例如，调整的检测参数可以为在判断物体模板与待检测对象的匹配程度（或差异程度）时使用的阈值。另外，如前所述，检测参数可以随检测方法而不同。

返回图2，在步骤S160中确定了检测参数之后，前进到步骤S170。

在步骤S170中，基于确定的检测参数，利用外观二维直方图来检测物体。

如前所述，检测方法是预先确定的，并且利用步骤S160的操作确定了检测方法中涉及到的检测参数，则此时可以基于所确定的检测参数，通过预定的检测方法利用外观二维直方图来检测物体。

根据一个实施例，所确定的检测参数是各检测位置对应的物体标准模板，更具体地，物体标准表面积。在此情况下，检测过程如下：以预定形状例如矩形、圆形等的匹配窗口在外观二维直方图上移动；确定匹配窗口所处的检测位置；进而确定该检测位置相关联的物体标准表面积；然后将匹配窗口内的区域和所确定的物体标准表面积进行匹配，更具体地例如，在检测人的情况下，计算匹配窗口内的物体表面积，将计算的物体表面积和所确定的物体标准表面积（标准人的表面积大小）进行比较，如果两者之间的差值绝对值小于预定阈值，则认为匹配窗口内存在待检测对象即人，否则认为不存在人。

根据另一个实施例，所确定的检测参数是各检测位置对应的阈值。检测过程大致如下：以预定形状例如矩形、圆形等的匹配窗口在外观二维直方图上移动；确定匹配窗口所处的检测位置；进而确定该检测位置相关联的阈值，即，在此示例中，物体标准模板在整个外观二维直方图上是统一的，而阈值随检测位置的不同而可能不同；然后将匹配窗口内的区域和物体标准模板进行匹配，更具体地例如，在检测人的情况下，计算匹配窗口内的物体表面积，计算物体表面积和标准人的表面积大小的差值绝对值；将该差值绝对值与前述确定的该检测位置相关联的阈值相比较，如果该差值绝对值小于对应的阈值，则认为匹配窗口内存在待检测对象即人，否则认为不存在人。

需要说明的是，上面描述的检测方法和检测参数仅为示例，但是本发明并不局限于此，实际上任何能够利用本发明实施例的外观二维直方图进行物体检测的检测方法和相关联的检测参数均可以用于本发明，例如在对物体检测模型进行建模的情况下，检测方法是物体检测建模方法，而检测是依赖于物体检测模型的具体参数，再例如，在利用分类器如决策树、支持向量机等通过对物体分类来检测物体的情况下，检测参数可以是与分类器相关联的参数等等。

在检测到物体例如人之后，可以输出检测到的人的位置和/或其它信息，从而实现了对人的定位，由此可以向人提供和推送主动的服务。

根据本发明上述实施例的物体检测方法，至少具有如下优势：

（1）、通过对多个立体相机拍摄获得的图像的前景进行提取和融合，从而相比于对结果集进行融合的现有技术，保存了更多的原始信息和特征，同时相比于对原始数据集即像素集进行融合的现有技术，显著降低了数据量，便于网络传输和处理，由此在信息丢失和网络传输和处理开销方面找到了一个良好的平衡。

（2）、通过根据有关区域的交叠次数的不同而确定和/或调整检测参数，并基于这样的检测参数进行检测，能够降低遮挡的影响、降低错误率、增加物体的检出率和定位的精度。

前文描述了利用外观二维直方图进行物体检测，不过还可以结合利用高度二维直方图来进行物体检测，后文将对高度二维直方图的意义、获取方法进行描述。

图10示出了根据本发明第二实施例的物体检测方法200的总体流程图。

下面参考图10描述根据本发明第二实施例的物体检测方法200，其中既利用外观二维直方图也利用高度二维直方图来进行物体检测。

图10例示的第二实施例的物体检测方法200与图2例示的第一实施例的物体检测方法100的不同在于步骤S240以及添加了步骤S280和S290。其余的步骤S210-S230、S250-S270与图2中的对应步骤S110-S130、S150-S170类似，关于其实现以及功能可以参考图2对应步骤的描述，这里不再赘述。

步骤S240与步骤S140的不同在于除了从融合的前景计算得到外观二维直方图外，还得到高度二维直方图。

在检测对象是人的情况下，高度二维直方图描述了人的高度分布状况，其表征的是各个竖直bin内的最高高度。

图11示出了根据本发明一个实施例从融合的前景计算得到外观二维直方图和高度二维直方图二者的方法240的流程图，该方法240可以用于图10中的步骤S240。

图11所示方法240与图6所示方法140的不同在于多了计算高度二维直方图的步骤，即步骤S245和S246。其它步骤与图6中的对应步骤类似，这里不再赘述。

在步骤S245中，统计各个竖直bin内的前景点的最高值。在步骤S246中得到了高度二维直方图（也可称为高度模型二维直方图）。

图12示出了根据本发明实施例的基于俯视图的高度二维直方图的示意图，其中的白色斑点为各个人的高度二维直方图。

从图12中可以看出，在交叠区域或者非交叠区域，每个bin的最高值基本一致，即人的高度分布是基本类似的。

综合图7和图12，可以得出两个结论：

1）在交叠区域由于更多的双目相机可以观测到人，所以得到的人的表面积要大于非交叠区域的；

2）在交叠区域，虽有更多的双目相机可以观测到人，但人的高度本身没有变化，为此人的高度分布同非交叠区域得到的类似。

因此，在利用外观二维直方图进行物体检测时，需要对有关检测参数进行调整；而在利用高度二维直方图进行物体检测时，无需对检测参数进行调整。

返回到图10，在步骤S240之后，与图2类似，在步骤S250中，确定各区域的交叠次数；在步骤S260中，基于检测位置所处区域的交叠次数，确定检测位置相关联的检测参数；在步骤S270中，基于确定的检测参数，利用外观二维直方图检测物体。

在步骤S280中，利用高度二维直方图来检测物体，其中利用高度二维直方图来检测物体期间所使用的与高度二维直方图相关联的检测参数与检测位置是否处于交叠区域以及交叠次数无关。

在一个示例性实施例中，以人检测为例，可以计算待检测区域内的平均高度作为该区域高度的表征，然后将查看该高度是否落入预定的人的高度范围，如果落入，认为该待检测物体为人，否则认为该待检测物体不为人。

当然这只是一个简单示例，可以根据需要采用更复杂的检测方法，例如在一个示例方法中，不仅查看平均高度是否落入预定高度范围，而且查看高度的标准偏差是否落入预定的高度偏差范围。再例如，可以通过形状匹配来进行检测，例如将待检测区域的图案与人的标准高度二维直方图图案(pattern)进行匹配来判定该区域内是否存在人，等等。

不过上面各种基于高度二维直方图进行物体检测的共性为，所涉及到的检测参数与检测位置是否处于交叠区域以及交叠次数无关。

当然该检测结果可以不是二值的0和1，替代地，可以是表征是人的置信度（或概率）。

在步骤S290中，组合检测结果，即将步骤S270的基于外观二维直方图的物体检测结果和步骤S280的基于高度二维直方图的物体检测结果进行组合，而得到最终的检测结果。

组合方法可以根据步骤S270和S280的输出不同而不同，并可以根据需要来设计。例如，当步骤S270和步骤S280的检测结果均为表示是人的置信度时，可以通过将二者进行加权组合来得到最后的置信度，并将该最后的置信度和预定置信度阈值比较来确定是否为人。

或者，可以基于规则来组合检测结果，例如，一个规则是，只有当基于外观二维直方图的检测结果和基于高度二维直方图的检测结果均表示为人的情况下，才确定检测到了人，等等。

在检测到人之后，可以输出检测到的人的位置信息和/或其它信息，从而实现了人的定位，以便能向人提供和推送主动的服务。

根据本发明第二实施例的物体检测方法，可以进一步提高物体的检测准确度，增加定位精度。

4、基于高度二维直方图的物体跟踪方法（第三实施例）

如前所述，物体的高度不受立体相机的数目和部署的影响，因此可以利用高度二维直方图来进行物体跟踪。

图13示出了根据本发明一个实施例的利用二维直方图进行物体跟踪的方法300的流程图。

如图13所示，在步骤S310中，从所述三维世界坐标系中融合的前景计算得到xz平面上的高度二维直方图，其中通过统计每个竖直体内的前景点中高度最大的前景点的高度来得到表征各个竖直体内最高高度的高度二维直方图。这里假定已经获得了统一的三维世界坐标系中融合的前景，关于获得方法可以参考结合图2的步骤S110-S130。有关高度二维直方图的获得方法可以参考图11中的右侧分支。

接下来，利用高度二维直方图来跟踪物体。

具体地，在步骤S320中，从高度二维直方图提取特征。

在一个例子中，定义三种用于跟踪的特征：第一种特征是与高度二维直方图对应的高度掩膜，其中，如果高度二维直方图某点的值大于预定阈值，则该点对应的高度掩膜为第一数值，否则该点对应的高度掩膜为第二数值，其中第一数值大于第二数值，例如，第一数值为255，第二数值为0，阈值可以根据经验确定例如默认为90cm，或者阈值也可以通过学习获得；第二种特征是表征候选物体的平均高度值的平均高度，例如，为矩形匹配窗口内的平均高度。第三种特征是候选物体的位置信息，例如矩形匹配窗口的中心位置,即在俯视图中的坐标(x,z)。

在步骤S330中，判断物体是否在不同的交叠区域的边界处。例如，可以根据匹配窗口移动过程中，窗口对应区域的交叠次数变化情况来判断物体是否处于不同交叠区域的边界处。

在步骤S340中，根据判断结果的不同而采用不同的特征进行跟踪。如果确定物体在不同的交叠区域的边界处，则基于上述第二种特征和第三种特征即平均高度和位置(x,z)进行物体跟踪。如果确定物体不在不同的交叠区域的边界处，则基于上述第一种特征、第二种特征和第三种特征即高度掩膜、平均高度和位置(x,z)进行物体跟踪。

这里所述的跟踪可采用通用的跟踪算法，例如Mean Shift算法，卡尔曼滤波或者粒子滤波进行实现。这里进行跟踪的特征不是通常的颜色/灰度直方图、边缘等，而是高度掩模，平均高度和位置；而且当物体处于不同区域的边界时，特征会调整。

我们以物体在非边界区域同时使用三种特征为例来说明如何利用特征。对象的高度掩膜模板为T_H，平均高度模板T_{H_avg}，对象的位置模板为T_position，这些信息在最近的历史帧图像的跟踪后确定。当前帧中，测量得到的对象的高度掩膜表示为H_mask，对象的平均高度为H_avg,对象的位置为P_x,z。根据公式（7），判定测量得到的对象是否同历史帧的结果匹配，如果匹配则跟踪成功。

M_value=α*SAD(T_H,H_mask)+β*SAD(T_{H_avg},H_avg)+γ*SAD(T_positioin,P_x，z) …（7）

其中，M_value是计算得到的匹配值，其小于某个给定的阈值，即可认为跟踪成功；α，β和γ是上述三个特征的权重，可通过实验确定，其默认值分别为1.0，0.7，9.0；SAD是Sum of Absolute Difference，即绝对差值和，

关于其详细介绍可参见

http://en.wikipedia.org/wiki/Sum_of_absolute_differences。

类似地，可以简单地修改公式(7)如去掉高度掩膜项来在边界区域使用两种特征进行跟踪。

图14示出根据本发明实施例的根据交叠区域的交叠次数来改变跟踪特征的示意图。其中的网格指示高度掩膜，其中的箭头1指示人正在跨越交叠区域的边界从交叠次数小的区域向交叠次数大的区域移动，箭头2指示人正在跨越交叠区域的边界从交叠次数大的区域向交叠次数小的区域移动。

可以通过各种方式输出跟踪结果，例如跟踪到的人以及位置信息。

另外，发明人发现：在整个跟踪过程中，不论人处于何种位置，平均高度特征和位置特征的变换是渐变的过程。但是高度掩膜在交叠区域的边界处会发生较大的变化。具体地，当人向交叠次数大的区域移动时，其高度掩膜范围会变大，当人向交叠次数小的区域移动时，其高度掩膜范围会变小。

为此，发明人想到，可以利用高度掩膜的变化趋势来辅助进行物体跟踪。

根据一个示例，在基于高度二维直方图进行跟踪的过程中，如果确定物体在不同的交叠区域的边界处，判定高度掩膜变化趋势是否符合预期的高度掩膜变化趋势。以及如果确定高度掩膜变化趋势与预期的高度掩膜变化趋势不符，则确定本次跟踪失败。根据一个示例，所述预期的高度掩膜变化趋势可以为：当物体通过边界进入高的交叠次数的区域时，其高度掩膜范围变大，当一个物体通过边界进入低的交叠次数的区域时，其高度掩膜范围变小。

5、物体检测装置

图15示出了根据本发明一个实施例的示例性物体检测装置5000的功能配置框图。

物体检测装置5000用于对针对预定空间布置的多个立体摄像机获得的图像进行处理，对物体进行检测和/或跟踪。

如图15所示，物体检测装置5000包括;多深度图像获得部件5100，通过多个立体相机拍摄物体获得该物体的多个深度图像；前景提取部件5200，从每个深度图像提取前景，每个深度图像的前景具有各自的图像坐标系统；前景融合部件5300，在以x、y、z方向的矩形坐标定义的统一的三维世界坐标系中，融合各个前景，其中物体相当于站立于x、z轴限定的xz平面上；外观二维直方图计算部件5400，从所述三维世界坐标系中融合的前景计算得到xz平面上的外观二维直方图，该外观二维直方图通过如下处理得到：将所述三维世界坐标系中融合的前景分割成沿y方向延伸的竖直体，统计每个竖直体中前景点的个数，从而得到表征各个竖直体内的前景点个数的外观二维直方图；交叠次数确定部件5500，根据该多个立体相机的部署，确定对应的多个深度图像在xz平面上的交叠区域，并确定交叠次数；检测参数确定部件5600，根据某检测位置是否处于交叠区域以及对应的交叠次数，确定该检测位置相关联的检测参数；以及物体检测部件5700，基于确定的检测参数，利用外观二维直方图来检测物体。

有关上述物体检测装置5000的各个功能部件5100到5700的操作可以参考图2中所示的流程图以及相关的描述，这里不再赘述。

6、系统硬件配置

本发明还可以通过一种物体检测（跟踪）硬件系统来实施。图16是示出按照本发明实施例的物体检测（跟踪）系统1000的总体硬件框图。如图16所示，物体检测系统1000可以包括：输入设备1100，用于从外部输入有关图像或信息，例如多个立体摄像机拍摄的图像或视频流、预定空间的大小、摄像机的各种内部参数和外部参数如位置等，例如可以包括键盘、鼠标器、以及通信网络及其所连接的远程输入设备等等；处理设备1200，用于实施上述的按照本发明实施例的物体检测方法，或者实施为上述的物体检测装置，例如可以包括计算机的中央处理器或其它的具有处理能力的芯片等等，可以连接到诸如因特网的网络（未示出），根据处理过程的需要向远程传送处理后的图像等等；输出设备1300，用于向外部输出实施上述物体检测（跟踪）过程所得的结果，例如可以包括显示器、打印机、以及通信网络及其所连接的远程输出设备等等；以及存储设备1400，用于以易失或非易失的方式存储上述物体检测（跟踪）过程所涉及的诸如立体图像、空间大小、摄像机的参数、外观二维直方图、高度二维直方图图、物体标准模板、阈值等数据，例如可以包括随机存取存储器（RAM）、只读存储器（ROM）、硬盘、或半导体存储器等等的各种易失或非易失性存储器。

7、总结

前述描述仅为说明性的，可以进行很多修改和/或替换。

前面的附图和描述中以立体摄像机为双目摄像机为例进行说明，不过本发明并不局限于此，而是可以应用任何立体摄像机。

前文的示例性描述中以人为检测目标。不过这仅为示例，本发明并不局限于此，可以以任何物体为检测目标，如动物、椅子等等。

前文的示例性描述中，假设人站在地面上，不过本发明并不局限于此，被检测对象可以任意布置，而未必一定位于地面上。

前文的示例性描述中，以俯视图中的外观二维直方图为处理对象，不过这仅为示例，本发明并不局限于此，可以以任意方向的外观二维直方图为处理对象，例如可以以侧视图中的外观二维直方图为处理对象。另外，处理对象并不一定是外观二维直方图，也可以是例如高度二维直方图等。

前文的示例性描述中，术语深度图像应该做广义理解，任何包括距离信息的图像均可以用于本发明的目的，例如视差图像等。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案，例如图10中所示的步骤S240可以分解为分开的外观二维直方图的获得和高度二维直方图的获得。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行，例如，图10中所示的基于外观二维直方图的物体检测和基于高度二维直方图的物体检测可以根据需要按任何顺序执行。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种物体检测方法，包括：

通过多个立体相机拍摄物体获得该物体的多个深度图像；

从每个深度图像提取前景，每个深度图像的前景具有各自的图像坐标系统；

在以x、y、z方向的矩形坐标定义的统一的三维世界坐标系中，融合各个前景，其中物体相当于站立于x、z轴限定的xz平面上；

从所述三维世界坐标系中融合的前景计算得到xz平面上的外观二维直方图，该外观二维直方图通过如下处理得到：将所述三维世界坐标系中融合的前景分割成沿y方向延伸的竖直体，统计每个竖直体中前景点的个数，从而得到表征各个竖直体内的前景点个数的外观二维直方图；

根据该多个立体相机的部署，确定对应的多个深度图像在xz平面上的交叠区域，并确定交叠次数；

根据某检测位置是否处于交叠区域以及对应的交叠次数，确定该检测位置相关联的检测参数；以及

基于确定的检测参数，利用外观二维直方图来检测物体。

2.根据权利要求1的物体检测方法，其中，在所述确定检测参数的步骤中确定的检测参数是阈值和/或物体标准模板，其中通过将被检测物体和物体标准模板进行匹配、确定匹配程度、比较匹配程度和阈值来检测物体。

3.根据权利要求1的物体检测方法，还包括:

从所述三维世界坐标系中融合的前景计算得到xz平面上的高度二维直方图，其中通过统计每个竖直体内的前景点中高度最大的前景点的高度来得到表征各个竖直体内最高高度的高度二维直方图；以及

利用高度二维直方图来跟踪物体，包括：

从高度二维直方图提取特征；

判断物体是否在不同的交叠区域的边界处，以及

根据判断结果的不同而采用不同的特征进行跟踪。

4.根据权利要求3的物体检测方法，还包括：

定义三种用于跟踪的特征：第一种特征是与高度二维直方图对应的高度掩膜，其中，如果高度二维直方图某点的值大于预定阈值，则该点对应的高度掩膜为第一数值，否则该点对应的高度掩膜为第二数值，其中第一数值大于第二数值；第二种特征是表征候选物体的平均高度值的平均高度；第三种特征是候选物体的位置信息；

其中所述根据判断结果的不同而采用不同的特征进行跟踪包括：

如果确定物体在不同的交叠区域的边界处，则基于上述第二种特征和第三种特征进行物体跟踪；以及

如果确定物体不在不同的交叠区域的边界处，则基于上述第一种特征、第二种特征和第三种特征进行物体跟踪。

5.根据权利要求4的物体检测方法，还包括：

如果确定物体在不同的交叠区域的边界处，判定高度掩膜变化趋势是否符合预期的高度掩膜变化趋势，以及

如果确定高度掩膜变化趋势与预期的高度掩膜变化趋势不符，则确定本次跟踪失败。

6.根据权利要求5的物体检测方法，其中所述预期的高度掩膜变化趋势为：当物体通过边界进入高的交叠次数的区域时，其高度掩膜范围变大，当一个物体通过边界进入低的交叠次数的区域时，其高度掩膜范围变小.

7.根据权利要求1的物体检测方法，其中：

所述检测位置相关联的检测参数是表征标准物体的表面积大小的标准表面积物体标准模板，

其中根据某检测位置是否处于交叠区域以及交叠次数，确定该检测位置相关联的检测参数包括：根据检测位置所处区域的交叠次数计算该检测位置相关联的标准表面积，使得交叠次数越大，标准表面积越大。

8.根据权利要求1的物体检测方法，还包括：

利用高度二维直方图来检测物体，其中利用高度二维直方图来检测物体期间所使用的与高度二维直方图相关联的检测参数与检测位置是否处于交叠区域以及交叠次数无关。

9.根据权利要求1的物体检测方法，所述在以x、y、z方向的矩形坐标定义的统一的三维世界坐标系中，融合各个前景包括：

判断来自不同立体相机的前景点是否属于物理世界中的同一个点；

如果确定来自不同立体相机的前景点不是同一个点，则直接把它们作为统一世界坐标系中的前景点；以及

如果确定来自不同立体相机的前景点是同一个点，则通过计算来自不同立体相机的前景点的坐标值的加权和来得到在统一世界坐标系中的前景点的坐标值，其中根据来自不同立体相机的前景点中每个前景点距自身立体相机的距离来确定该前景点的坐标值的权值，使得距离越近，权值越高。

10.一种物体检测装置，包括：

多深度图像获得部件，通过多个立体相机拍摄物体获得该物体的多个深度图像；

前景提取部件，从每个深度图像提取前景，每个深度图像的前景具有各自的图像坐标系统；

前景融合部件，在以x、y、z方向的矩形坐标定义的统一的三维世界坐标系中，融合各个前景，其中物体相当于站立于x、z轴限定的xz平面上；

外观二维直方图计算部件，从所述三维世界坐标系中融合的前景计算得到xz平面上的外观二维直方图，该外观二维直方图通过如下处理得到：将所述三维世界坐标系中融合的前景分割成沿y方向延伸的竖直体，统计每个竖直体中前景点的个数，从而得到表征各个竖直体内的前景点个数的外观二维直方图；

交叠次数确定部件，根据该多个立体相机的部署，确定对应的多个深度图像在xz平面上的交叠区域，并确定交叠次数；

检测参数确定部件，根据某检测位置是否处于交叠区域以及对应的交叠次数，确定该检测位置相关联的检测参数；以及

物体检测部件，基于确定的检测参数，利用外观二维直方图来检测物体。