CN104021538A

CN104021538A - 物体定位方法和装置

Info

Publication number: CN104021538A
Application number: CN201310063037.4A
Authority: CN
Inventors: 王千; 王鑫; 范圣印; 乔刚
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2013-02-28
Filing date: 2013-02-28
Publication date: 2014-09-03
Anticipated expiration: 2033-02-28
Also published as: CN104021538B

Abstract

公开了一种物体定位方法，包括：从多个立体相机获得彩色图像和深度图像；利用每个立体相机获得的图像，对物体进行定位；对每个立体相机定位到的每个物体计算复合特征，该复合特征包括物体在统一世界坐标系下的位置信息并且包括物体的可见特征、速度矢量、加速度矢量中的至少一种；基于各个立体相机定位到的各个物体的复合特征，计算不同相机定位到的物体之间的相似度，从而确定不同相机定位到的物体是否属于同一物体；如果确定不同相机定位到的物体属于同一物体，则基于物体对于相机的可见度和物体与相机间距离，融合不同相机关于该同一物体的定位结果。该物体定位方法和装置可以降低融合歧义，得到更合理的融合结果。

Description

物体定位方法和装置

技术领域

本发明总体地涉及图像处理，更具体地涉及基于立体视觉的物体定位方法和装置。

背景技术

近年来，基于视频的人的跟踪定位已成为了计算机视觉领域一个热门的研究课题，这是因为它是许多高层应用如人的动作识别，行为分析与预测的基础。人定位是指检测到人进而得到人在室内或者室外的位置信息，也就是得到人在世界坐标系中的坐标值(x,y,z)的过程。

已经存在一些利用立体摄像机采集的图像来定位跟踪对象的技术，例如，标题为“METHOD AND SYSTEM TO SEGMENT DEPTH IMAGES AND TODETECT SHAPES IN THREE-DIMENSIONALLY ACQUIRED DATA”的专利文献US8009871B，标题为“SURFACE GENERATION METHOD FROMBOUNDARIES OF STEREO IMAGES”的专利文献US5202928A，MichaelHarville在2003年发表的文章"Stereo Person Tracking with Adaptive Plan-ViewTemplates of Height and Occupancy Statistics"等。

基于单个单目摄像机的人的跟踪定位这一研究课题已被广泛开展了多年，但目前，其仍是一个挑战性的技术课题，尤其是当前技术不能很好地适应宽敞且人流量大场景下的多人跟踪问题。造成这一问题的原因主要有：第一，人流量大，场景中出现的人多，势必造成一定的人与人之间的遮挡，这将在一定程度上降低跟踪的准确度；第二，单摄像机的拍摄范围有限，难以覆盖整个需要监视的区域。这样以来，为了克服上述问题，已经逐渐引入和采用基于多个立体双目相机的人的跟踪定位系统。

发明内容

如何利用多个立体相机的深度/视差信息来更有效地检测人、跟踪人和更精确地定位人，是对实际应用非常有意义的课题，可以通过使用融合技术来进行解决。融合，按照其融合对象的不同大致可以分为三类：原始数据集的融合；特征集的融合；以及结果集的融合。

对于多个立体相机诸如双目相机的场景而言，原始数据集的融合，即像素集的融合，网络传输数据量大和处理的数据量大，无法在实际场景中进行实时应用。

本发明关注结果集层面的融合。

专利US7929017B2提出了一种方法和装置用于立体相机、多相机以及RF和视频的融合。该方法融合单目相机、立体相机的跟踪结果，以及RFID、定位系统和生物识别系统的结果。该融合技术通过对不同传感器信息的噪声和模糊进行严格地不确定性分析后，进行传感器信息的转换。其基于时空约束来融合不同传感器的位置和速度信息。该专利提出的方法使用了贝叶斯方法来融合各类结果，融合目标是跟踪的结果和位置信息。为了增加稳定性，其考虑了时空的约束。

专利US7742620B2提出了一种采用时空融合来提高目标检测的方法。该发明提出的目标检测方法采用预处理与后处理相结合的方法对传感器发来的数据进行时域上的融合。为了进一步提高目标的检出率以及避免传统恒虚警率检测器存在的缺点，该发明采用了双门限阈值与反向阈值的方法。

本发明的一个目的是希望提供一种物体定位方法和装置，其对多个物体距离较近且存在遮挡的情况具有较强的鲁棒性，能够准确地定位出对象。

根据本发明的实施例，提供了一种物体定位方法，包括：从多个立体相机获得彩色图像和深度图像；利用每个立体相机获得的图像，对物体进行定位；对每个立体相机定位到的每个物体计算复合特征，该复合特征包括物体在统一世界坐标系下的位置信息并且包括物体的可见特征、速度矢量、加速度矢量中的至少一种；基于各个立体相机定位到的各个物体的复合特征，计算不同相机定位到的物体之间的相似度，从而确定不同相机定位到的物体是否属于同一物体；如果确定不同相机定位到的物体属于同一物体，则基于物体对于相机的可见度和物体与相机间距离，融合不同相机关于该同一物体的定位结果。

根据本发明的另一实施例，提供了一种物体定位装置，包括：图像获得部件，从多个立体相机获得彩色图像和深度图像；物体定位部件，利用每个立体相机获得的图像，对物体进行定位；复合特征计算部件，对每个立体相机定位到的每个物体计算复合特征，该复合特征包括物体在统一世界坐标系下的位置信息并且包括物体的可见特征、速度矢量、加速度矢量中的至少一种；同一物体判定部件，基于各个立体相机定位到的各个物体的复合特征，计算不同相机定位到的物体之间的相似度，从而确定不同相机定位到的物体是否属于同一物体；结果融合部件，如果确定不同相机定位到的物体属于同一物体，则基于物体对于相机的可见度和物体与相机间距离，融合不同相机关于该同一物体的定位结果。

利用根据本发明实施例的物体检测方法和装置，因为引入了复合特征来判定不同相机定位到的物体是否属于同一物体，从而能够更好地区别如人与人之间距离很近情况下的人，避免融合歧义（fusion ambiguity）；因为在融合不同相机的定位结果时综合考虑了物体对于相机的可见度和物体与相机间距离，因此得到更合理的融合结果。

附图说明

图1(a)和1(b)是根据本发明一个实施例的解释引入人相对于摄像机可见性原因的示意图。

图2(a)和(b)是根据本发明一个实施例的解释了双目立体相机用于人的跟踪定位时的鸟瞰图概念的示意图。

图3是根据本发明一个实施例的生成鸟瞰视图下的颜色直方图、鸟瞰视图下的高度直方图，鸟瞰视图下的表面积直方图的示意图。

图4是根据本发明一个实施例的通过复合特征融合多路跟踪结果完成人定位的系统示意图。

图5是根据本发明一个实施例的系统构架图以及构架中的每个组成部分所完成功能的示意图。

图6示出了根据本发明一个实施例的物体定位方法的总体流程图。

图7示出了根据本发明一个实施例的作为复合特征示例的人的速度矢量、相对于相机的可见度、转换后的高度直方图、转换后的颜色直方图的计算方法的流程图。

图8(a)、8(b)、8(c)是根据本发明一个实施例的解释人相对于摄像机可见度概念的示意图。图8（a）示意性地示出了当人相对于摄像机完全可见时的鸟瞰视图下的表面积图；图8（b）示意性地示出了当人被部分遮挡住时，其相应的鸟瞰视图下的表面积图；图8(c)示意性地示出了根据本发明实施例的计算人相对于摄像机可见度过程中所涉及的因素。

图9示出了根据本发明一个示例性实施例的基于各个立体相机定位到的各个物体的复合特征而建立的关联度矩阵的示意图。

图10是根据本发明一个实施例的由复合特征序列建立关联度矩阵的示例性方法的流程图。

图11示出了根据本发明一个实施例的基于关联度矩阵的示例性物体定位方法的流程图。

图12示出了根据本发明一个实施例的示例性物体定位装置的功能配置框图。

图13是示出按照本发明实施例的物体定位（跟踪）系统的总体硬件框图。

具体实施方式

以下，将参照附图描述本发明的优选实施例。需注意，在本说明书和附图中，具有实质上相同功能和结构的元件用相同的参考标记表示，并且省略了重复的解释。

将按下列顺序进行描述：

1、发明思想概述

2、本发明中的概念或术语含义

3、系统示意图

4、物体定位方法的概述

5、复合特征示例以及获得方法示例

6、基于复合特征序列建立关联度矩阵以及关联性判定

7、基于关联度矩阵的物体定位跟踪方法

8、物体定位装置

9、系统硬件配置

10、总结

1、发明思想概述

下面，首先总体介绍一下本发明的思想，以便本领域人员更好地理解本发明。

本发明中所关注的“融合”是结果的融合，更具体地，可以理解为在考虑某些因素的条件下，将从多个摄像机跟踪的结果根据某种策略合为一个跟踪结果，并把这个跟踪结果作为最终的融合结果。一般地，该最终的融合结果比单摄像机跟踪的结果精度要高。例如，一个人出现在了两台摄像机A和B视野的公共区域中，将从摄像机A和摄像机B检测和跟踪到的结果分别记为result_A和result_B。由于result_A和result_B是属于同一个人的跟踪结果，而该人的跟踪结果只能有一个。因此，需将其合并为一个result_final，作为最终的结果输出。在本发明中以上这个过程称之为“融合”。

发明人总结得出，融合涉及的技术点主要有：

(1)、当场景中出现了多个人的时候，如何判断哪些跟踪结果来自于同一个人，即关联问题；

(2)、当多个来自不同相机的跟踪结果被判定属于同一个人的时候，采用何种策略将这若干个结果融合为一个最终的结果输出。

对于第一个问题，现有的方案一般是根据不同跟踪结果间的距离来关联的。这样做的合理性在于，对同一个人的来自不同相机的跟踪结果在统一的世界坐标系下的距离不会相隔太大（理想情况下是完全重合，但是由于存在各种误差，它们之间会有距离偏差）。但是发明人发现，这种方法，在人与人之间距离很近的情况下将失效，从而产生融合歧义的问题（fusionambiguity）。

对于第二个问题，现有的方案一般是根据摄像机的跟踪结果与相应相机的距离来衡量该跟踪结果在最终融合结果中的重要性。这是因为，一般而言，双目立体相机的深度值的精度会随着离相机距离的增大而降低。因此，对于属于同一个人的若干跟踪结果，在融合时，一般根据他们离相应相机的距离来分配它们在最终结果中的重要性。但是，发明人发现，当人被部分遮挡时，这种融合方案可能有失妥当，如图1(a)和图1(b)所示。在图1(a)中，有两个人A和B出现在了摄像机C1和摄像机C2视野的公共交叠区域。假设人A比人B高，对于摄像机C2，人B部分可见（存在源于人A的遮挡）；对于摄像机C1，人B完全可见（不存在遮挡）。图1(b)是图1(a)对应的俯视图，其中直线1、2、3代表摄像机C1的视野或者说视角边缘；直线4、5、6代表摄像机C2的视野或者说视角边缘，圆点1B和2B分别表示摄像机C1和摄像机C2对人B的跟踪结果，而d1和d2分别表示跟踪结果1B、2B和相应相机C1、C2的距离（为了表示的清晰，人A的跟踪结果未在图上标记出）。按照现有的方法，在只考虑跟踪结果与摄像机距离的因素下，因为摄像机Ｃ2和对应跟踪结果2B的距离比摄像机Ｃ1和对应跟踪结果1B的距离更小，因此摄像机C2的跟踪结果被认为更精确，从而在融合中将给予更大的权重。然而，事实上，人B对于摄像机C2仅部分可见，这将在一定程度上影响C2对人B的跟踪；而人B对于摄像机C1完全可见。若加之考虑人对摄像机可见性的因素，来自C1的跟踪结果的重要性将在融合时得到提升。

鉴于以上发现，为了克服上述两个问题，发明人提出如下解决思想：

(1)、上述融合歧义性问题产生的根源在于缺少可观测的特征。因此，本发明人提出基于更复杂的复合特征的关联方法，该复合特征除了位置信息外还包括统计的可观测特征；

(2)、在融合时，不仅考虑跟踪结果与相应相机的距离，还考虑人对于相机的可见度。

后续将结合具体实施描述实践本发明的思想的示例。

2、本发明中的概念或术语含义

下面介绍与本发明相关的鸟瞰视图、鸟瞰视图下的高度直方图，颜色直方图和表面积直方图以及转换的高度直方图、转换的颜色直方图的概念，更多细节请参看Michael Harville于2003年发表的论文“Stereo PersonTracking with Adaptive Plan-View Templates of Height and OccupancyStatistics”

“鸟瞰图”或“俯视图”：本发明中的鸟瞰图是指是指当世界坐标系的两个坐标轴ＸＺ置于地面（下文称之为ＸＯＺ平面）上时世界坐标系中的点投影到ＸＯＺ平面下获得的图像。

图2(a)示出了将立体摄像机获得的立体图像进行坐标转化，获得相当于假想的摄像机垂直拍摄物体的立体图像的示意图；以及图2(b)示意性示出了真实立体摄像机拍摄的图像和假想的摄像机拍摄的图像的对比示意图。

如图2a所示，在已知摄像机外参（图2(a)中的R和T）的情况下，对于按照与对面成一定倾斜角度布置的真实摄像机所拍摄的图像，可以将图像中的任意一个像素位置转换到世界坐标系，转换后就得到了如同图2(a)中的假想摄像机垂直俯拍物体时得到的立体图像。注意，图2(a)中的摄像机外参R为旋转参数，外参T为平移参数，具体描述可参见上述T.Darrel于2001年发表的文章“Stereo Person Tracking with Adaptive Plan-View Templates ofHeight and Occupancy Statistics”。

鸟瞰视图下的高度直方图、颜色直方图、表面积直方图：图3示出了从立体图像即彩色图像和深度图像获得鸟瞰视图下的高度直方图、颜色直方图和表面积直方图的示例性过程的示意图。具体地，从双目摄像机获取颜色图和深度图后，首先通过背景减除法提取前景像素，然后把提取到的前景像素投影到三维世界坐标系中。并且将世界坐标系沿垂直于XOZ平面的方向分成等底面积的小立方体，称之为BIN,然后基于BIN，生成三种图：

鸟瞰视图下的高度直方图：统计落入每个BIN中的最高点的高度，反映在图上为：高度越高，亮度越亮。

鸟瞰视图下的颜色直方图：保存高度图中每个最高点的颜色，可以近似的看成是从上往下观察人的外观颜色。

鸟瞰视图下的表面积直方图：保存的是落入每个BIN中的像素点的个数，反映在图上为：点数越多，亮度越亮。

上述表面积直方图、高度直方图可以视为立体图像在某个平面视图上物体的表面点的分布的统计数据，在某些文献例如标题为"Plan-view trajectoryestimation with dense stereo background model"的T.Darrel于2001年发表的文章中也称为外观平面视图(Appearance plan view)，或者同属理光株式会社申请人的发明人为王鑫等的专利申请号为CN201210292660.2的发明专利申请中被称为累加俯视图或高度俯视图，或者在同属理光株式会社申请的发明人为范圣印等的专利申请号为CN201210574632.X中被称为外观二维直方图或高度二维直方图。这里通过引用将上述三篇文献并入本文。

本文中的颜色直方图的获得方法和高度直方图的获得方法类似，只不过代替保存每个BIN中的最高点的高度，保存最高点的颜色。

另外，下文某实施例中，为了例如简化处理和适于实际应用的目的，可以对上述高度直方图和颜色直方图通过进一步统计进行转换处理，以转换成去除了位置信息的直方图。具体地，例如，对于高度直方图，可以通过统计像素值落入例如各区间[80,90],[90,100],…[190,200]内的像素个数，从而得到了转换后的高度直方图。类似地，可以得到转换后的颜色直方图。下文中，为了与高度直方图和颜色直方图进行区分的目的，将此转换后的直方图称为转换后的高度直方图和转换后的颜色直方图。

3、系统示意图

图4是根据本发明一个实施例的通过复合特征融合多路跟踪结果完成人定位的系统示意图。图4主要示例性给出了本发明实施例的输入和输出。其中，输入的信息来自于两个双目相机，图4中仅给出了两个双目相机，实际上本发明可以支持一个、两个、更多个双目相机。本发明实施例的输出是定位到的人的位置，我们以鸟瞰图或俯视图的形式呈现出来。图1中的两个圆1、2表示的是两个双目相机在鸟瞰图中的位置；线A,B,C表示的是双目相机1的视角边缘;D,E,F表示的是双目像机2的视角边缘；正方形3、4表示经融合后的人在统一世界坐标系下的位置。

需要说明的是，本例子以及后续例子中，以人为检测目标，并假设人站在地面上。不过这仅为示例，本发明并不局限于此，可以以任何物体为检测目标，如动物、椅子等等，而且被检测对象可以任意布置而未必一定位于地面上。

图5示出了根据本发明一个实施例的示例性系统构架以及构架中的每个组成部分所完成功能的示意图。在该例子中，装置系统主要包括两个部分：第一个部分是在客户端上运行的复合特征队列生成模块；第二个部分是在服务器端运行的基于复合特征序列的多路跟踪结果融合模块。这两个部分之间通过网络进行连接。

4、物体定位方法的概述

下面参考图6描述根据本发明一个实施例的、利用多个立体摄像机来对物体进行定位的整体过程。

图6示出了根据本发明一个实施例的物体定位方法100的总体流程图。

为便于描述，该总体流程图假定针对一预定空间中，布置了多个立体摄像机，以对出现于该预定空间中的对象进行立体成像，通过对立体图像进行处理来进行对象检测。

关于预定空间，例如可以是一个房间，例如超市、厂房等，不过也可以是室外的空间，例如学校场地、军工场所等，只要是可以作为监控对象的空间即可。关于被检测的对象，没有特别限制，可以是人、动物、飞行物、汽车、椅子等等。

关于立体摄像机是指能够对物体进行三维成像或立体成像的摄像机，一般可同时输出深度图像和彩色图像（或灰度图像）。作为立体摄像机的例子，一类立体摄像机使用主动发射红外光来辅助生成立体信息，这样的摄像机例子，有微软的Kinect，还有基于红外光飞行时间(Time of Flight,TOF)技术的类型，或者基于纹理光的类型。作为立体摄像机的另一例子，另一类立体摄像机基于立体视距的双目原理，例如双目摄像机或多目摄像机。为描述便利，下文将采用双目摄像机为例进行说明，不过本发明并不局限于此，而是可以应用任何立体摄像机。

请注意，由于使用立体摄像机，能得到准确的三维信息。所以本发明提出的人的检测应理解为可以同时完成检测和定位，当然不必说也可以仅进行对象检测和定位之一。

如图6所示，在步骤S110中，从多个立体相机的每个获得彩色图像和深度图像。

在步骤S120中，利用每个立体相机获得的图像，对物体进行定位。

任何基于彩色图像和/或深度图像进行物体检测和/或定位的方法均可以用于本发明。

在一个示例中，对物体进行定位包括从深度图像或彩色图像提取前景，或者说进行前景分割，即从立体图像中将作为处理对象的前景与背景分开，并提取出前景。作为提取前景的方法的示例，可以根据深度信息或者颜色信息，或者是两者的结合建立起当前场景的背景模型；然后根据建立的背景模型，采用背景减除法，获得每一帧图像上的前景。背景建模可以使用静态背景建模，也可以使用动态背景建模，作为一种示例性实现，可以使用RGBD的混合高斯动态建模来分割前景，具体可以参考标题为"Plan-view trajectoryestimation with dense stereo background model"的T.Darrel于2001年发表的文章。

在前景提取之后，对于提取到的前景像素，采用例如图3中所示的方法，利用深度信息将其投影到三维空间中，生成鸟瞰图。接着在鸟瞰图上完成对人进行检测。这里可采用的检测方法可以有很多，最终的输出为鸟瞰图下人的外接矩形框。

这里，对于检测方法，本发明没有特别限制，任何检测方法都可以用于本发明，例如基于连通域分析来分割和检测对象的方法等。

作为一个物体检测方法示例，可以通过物体标准模板和表面积直方图中待检对象进行匹配的方法进行检测。具体地，例如通过将被检测物体和物体标准模板进行匹配、确定匹配程度、将匹配程度和阈值进行比较来检测物体。

例如，在一个示例性检测方法中，通过将物体标准模板和表面积直方图中待检对象进行匹配来检测对，例如以预定形状例如矩形、圆形等的匹配窗口在表面积直方图上移动，通过匹配窗口内的区域和物体标准模板的匹配来检测物体。例如，在检测人的情况下，计算匹配窗口内的物体表面积，将计算的物体表面积和标准物体的表面积大小进行比较，如果差值小于预定阈值，则认为匹配窗口内存在待检测对象即人，否则认为不存在待检测对象。

作为物体检测方法的另一示例，可以通过对物体检测模型进行建模的方法来对物体进行检测。

在同属理光株式会社申请人的发明人为王鑫等的专利申请号为CN201210292660.2的发明专利申请中或者在同属理光株式会社申请的发明人为范圣印等的专利申请号为CN201210574632.X的发明专利申请中介绍的物体检测方法均可以用于本发明。

在步骤S130中，对每个立体相机定位到的每个物体计算复合特征，该复合特征包括物体在统一世界坐标系下的位置信息并且包括物体的可见特征、纹理、速度矢量、加速度矢量中的至少一种。

在一个示例中，复合特征包括物体在统一世界坐标系下的位置信息、某种可见特征和速度矢量。可见特征例如包括物体相对于立体相机的可见度（或表面积直方图）、物体在鸟瞰视图下的高度直方图、以及物体在鸟瞰视图下的颜色直方图中的一种或者几种的任意组合。

下文中，将参考图7、图8(a)-8(c)详细描述各种复合特征以及获得方法示例。

在步骤S140中，基于各个立体相机定位到的各个物体的复合特征，计算不同相机定位到的物体之间的相似度，从而确定不同相机定位到的物体是否属于同一物体。

下文将参考图9-10描述通过基于来自各个相机的复合特征序列建立关联度矩阵来计算不同相机定位到的物体之间的相似度（或关联度），从而确定不同相机定位到的物体是否属于同一物体的示例。

在步骤S150中，如果确定不同相机定位到的物体属于同一物体，则基于物体对于相机的可见度和物体与相机间距离，融合不同相机关于该同一物体的定位结果。

在一个示例中，基于物体对于相机的可见度和物体与相机间距离，融合不同相机关于该同一物体的定位结果包括：如果确定不同相机定位到的物体属于同一物体，则如果可见度最高的物体定位结果相关联的相机和距离所定位的物体位置最近的相机为不同的相机，则融合该可见度最高的物体定位结果和距离所定位的物体位置最近的相机的物体定位结果。

例如，假设摄像机A的一个物体定位结果是R_A(P_A,V_A,D_A)，摄像机B的一个物体定位结果是R_B(P_B,V_B,D_B)，且来自摄像机A的物体定位结果R_A(P_A,V_A,D_A)和来自摄像机B的物体定位结果R_B(P_B,V_B,D_B)被判定为属于同一个人的定位结果。这里P表示在统一世界坐标系下的位置坐标，V表示可见度，D表示人离摄像机的距离，即P_A表示摄像机A的物体定位结果在统一世界坐标系下的位置坐标，V_A表示摄像机A定位的该物体相对于摄像机A的可见度，D_A表示摄像机A定位到的该物体相对于摄像机A的距离；类似地，P_B表示摄像机B的物体定位结果在统一世界坐标系下的位置坐标，V_B表示摄像机B定位的该物体相对于摄像机B的可见度，D_B表示摄像机B定位到的该物体相对于摄像机B的距离。在一个示例中，可以通过公式(1)将这对关联上的跟踪结果融合：

式（1）中，φ表示拥有较小人到摄像机距离的跟踪结果所占的权重，Pos_{SmalllerDisToCam}等于P_A和P_B中具有较小的人与摄像机距离的跟踪结果；而表示可见度对最终融合结果影响的权重，Pos_{LargerVisibility}等于P_A和P_B中具有较大可见度的跟踪结果。

在另一示例中，物体定位结果的融合可以分为两步来进行。在第一步中，一方面，单独基于可见度来融合各个相机的物体定位结果使得可见度越高的相机定位结果的对应权重越高；另一方面，单独基于相机距物体的距离来融合各个相机的物体定位结果，使得距离物体越近的相机定位结果的对应权重越高。在第二步中，进一步融合第一步中获得的基于可见度的融合结果和基于距离的融合结果。

其它的既考虑物体对于相机的可见度也考虑物体与相机间距离的融合不同相机关于该同一物体的定位结果的方法也可以用于本发明。

利用根据本发明实施例的物体检测方法和装置，至少具有如下优点：（1）因为引入了复合特征来判定不同相机定位到的物体是否属于同一物体，该复合特征既包括定位到的物体位置信息，也可以包括物体的其它可观测特征，例如颜色直方图、表面积直方图、高度直方图、速度矢量、加速度矢量等，从而能够更准确地判断不同相机定位（或检测）到的对象是否为同一对象，因而能够更好地区别在人与人之间距离很近情况下的人，避免融合歧义（fusion ambiguity）；（2）因为在融合不同相机的定位结果时综合考虑了物体对于相机的可见度和物体与相机间距离，因此相比于传统上仅考虑物体与相机间距离来融合定位结果的现有技术而言，能够得到更合理的融合结果。

5、复合特征示例以及获得方法示例

在一个示例中，复合特征可以由以下6种特征组成：

●人的ID号

●人在统一世界坐标系下的位置

●人在统一世界坐标系下的速度矢量

●人相对于摄像机的可见度（或表面积直方图）

●鸟瞰视图下人的转换后的高度直方图

●鸟瞰视图下人的转换后的颜色直方图

其中，人的ID号可以是直接由定位或跟踪模块分配的，其作用是便于在连续跟踪过程中的人的标识，并且方便利用历史信息而省略一下处理以便节省处理资源。例如，以两个摄像机A、B跟踪人为例，如果在某个时刻，摄像机A定位到一个人，向其分配ID号A3，而摄像机B定位到一个人，向其分配ID号B2，在提取出A3的复合特征以及B2的复合特征，并计算二者相似度（关联度）后，假设判定A3和B2为同一人（或者说，关联到同一对象）。则如果在后来的某时刻，摄像机A又跟踪到了A3，摄像机B又跟踪到了B2，则基于先前曾经判定二者属于同一人的历史信息，可以直接判定此时跟踪到的A3和B2属于同一人，而无需再次进行复合特征计算、相似度计算和判定的过程。

另外，在已知摄像机内参和外参的条件下，可以很容易地计算出人在统一世界坐标下的位置，这里不对此进行详述。

下面重点介绍其余4种特征的计算过程。

图7示出了根据本发明一个实施例的作为复合特征示例的人的速度矢量、相对于相机的可见度、转换后的高度直方图、转换后的颜色直方图的计算方法130的流程图。该计算方法130可以应用于图6所示的步骤S130。

如图7所示，模块S131,S132,S133,S134分别获得鸟瞰图下的高度直方图，鸟瞰图下的颜色直方图图，鸟瞰图下的表面积直方图以及从跟踪模块中获得的人的外接矩形框，这里的鸟瞰图下的高度直方图、颜色直方图和表面积直方图是对提取的整个前景图像处理得到的。然后取出三种鸟瞰视图下的高度直方图，颜色直方图，表面积直方图中每个人外接矩形框中的图块，如图3所示，每个人的复合特征由这些图块生成。

在步骤S135中，获得人在统一世界坐标系下的位置，例如取人的外接矩形框的中心点的坐标作为该人在统一世界坐标系下的位置信息。

在步骤S136中，计算人在每一帧中的速度矢量，它的计算可以由连续两帧，人在统一世界坐标系下x与z坐标的差计算而得。

在步骤S137中，实现计算人相对于摄像机的可见度。在一个示例中，人相对于摄像机的可见度是基于鸟瞰视图下的表面积图来定义的。图8（a）和图8（b）给出了相应的示例。图8（a）显示的是当人相对于摄像机完全可见时的鸟瞰视图下的表面积图。而图8（b）显示的是当人被部分遮挡住时，其相应的鸟瞰视图下的表面积图。

在一个示例中，定义人相对于摄像机的可见度为：

VisDegree = \frac{AO}{AB} - - - (2)

在图8（c）中，AO代表灰度值不为0的区域的面积，而AB代表整个外接矩形框区域的面积。分析图8（a）和图8（b）两种情况可知，当人被部分遮挡住时，可见度VisDegree将变小，并且遮挡得越严重，值越小。因此，可以通过VisDegree来衡量人对于摄像机的可见程度。这里，从某种意义上，人对于相机的可见度可以视为人的表面积直方图的规范化处理。

在步骤S138中，计算人的外界矩形框区域内的转换后的高度直方图。如图3所示，鸟瞰视图下的高度直方图显示的是落入每个bin中最高点的高度，因此可以看成是一个二维的高度分布图。在一个示例中，为了方便在服务器端利于采用高度直方图计算关联度，S138将外接矩形框内的二维高度直方图转换为一维高度直方图，具体地，定义一个高度区间（如80cm-200cm）以及bin的个数，然后进行直方图的统计操作。作为替代实施例，也可以不进行二维高度直方图到一维高度直方图的转换，而直接使用二维高度直方图。不过，考虑相机拍摄人的角度不同的情况下，二维高度直方图对同一个人的情况下体现出的差别比一维高度直方图情况下的大，所以利用转换后的一维高度直方图更合适。

在步骤S139中，统计人外接矩形框内的颜色直方图。如图3所示，鸟瞰视图下的颜色直方图显示的是落入每个bin中最高点的颜色，近似地认为是从上往下观察人的外观。该颜色直方图有RGB三个通道，因此在一个示例中，折中考虑网络传输数据的负载以及减少后续关联错误，每个通道bin的个数要适当地选择。Bin的数目多，区分性好，但是网络的负载变大；bin的数目少，区分性差，但是网络的负载变小。作为替代实施例，也可以直接采用各个人的颜色直方图用于后续的相似度（关联度）计算。

在步骤S1310中，将每个人的复合特征组成复合特征序列通过网络由客户端发往服务器端，以供进行下一步融合操作。

需要说明的是，此示例中，复合特征由6个单一特征组成，不过这仅为示例。复合特征可以还包括更多的特征，例如纹理、加速度矢量等。本文中，将人眼可观测的特征称为可见特征。复合特征也可以包括更少的特征，例如除了物体在统一世界坐标系下的位置信息外，还包括物体的可见特征、速度矢量、加速度矢量中的至少一种。

6、基于复合特征序列建立关联度矩阵以及关联性判定

根据一个示例性实施例，图6中所示的步骤S140中的基于各个立体相机定位到的各个物体的复合特征，计算不同相机定位到的物体之间的相似性，从而确定不同相机定位到的物体是否属于同一物体，可以通过建立关联度矩阵、以及根据矩阵来判定属于同一个人而来自不同摄像机的跟踪结果。

下面将参考图9描述根据本发明一个示例性实施例的基于各个立体相机定位到的各个物体的复合特征，建立的关联度矩阵的示例。

关联度矩阵可以根据客户端传来的复合特征序列动态地建立，客户端每发来一次复合特征序列，服务器端就建立一次关联度矩阵。

关联度矩阵的行数等于来自客户端A的复合特征序列的长度，矩阵的列数等于来自客户端B的复合特征序列的长度，反之亦然。从某种意义上，复合特征序列的长度意味着对应相机所定位的人的个数，因为每个定位到的人用一个复合特征来表达。这里，我们将关联度矩阵第i行第j列元素记为s_(i,j)，用于表示客户端A跟踪到的第i个人与客户端B跟踪到的第j个人的关联度（相似度）。关联度的计算可以从两方面加以考虑，一是两者外观的相似性，二是两者运动的一致性。外观相似性又可以从高度和颜色两方面来考虑的。更具体地，我们分别计算复合特征序列A中第i个元素和复合特征序列B中第j个元素的转换后的高度直方图和转换后的颜色直方图的距离。若这两个跟踪结果属于同一个人，则它们的高度差异和颜色差异不会太大。同理，这两个跟踪结果的运动差异也不会太大。

在一个示例中，关联度可按照式（3）来计算：

s_{(i, j)} = &PartialD; \times (2 - HD ({HHist}_{i}, {HHist}_{j})) + β \times (2 - HD ({CHist}_{i}, {CHist}_{j})) + γ \times ({VA}_{COS} ({sp}_{i}, {sp}_{j}) + 1)

（3）

其中，HHist，CHist以及sp分别代表转换后的高度直方图，转换后的颜色直方图和速度矢量。HD(HHist_i,HHist_j)表示第i个元素的转换后的高度直方图和第j个元素的转换后的高度直方图之间的距离，HD(CHist_i,CHist_j)表示第i个元素的转换后的颜色直方图和第j个元素的转换后的颜色直方图之间的距离。

这里，HD(·)表示计算两个直方图之间的距离，在一个示例中，可定义为下式(4)的卡方距离，该卡方距离取值范围为[0,2]，其中的k表示每个直方图的项的编号。

HD (H_{i}, H_{j}) = Σ_{k} \frac{{(H_{i} (k) - H_{j} (k))}^{2}}{H_{i} (k) + H_{j} (k)} - - - (4)

不过可以采用其它计算方式来度量两个直方图之间的相似度，例如巴氏距离、相关性计算等。

上式(3)中的VA_cos(·)表示两个向量间角度的COS值，可以利用式（5）来计算：

{VA}_{\cos} ({sp}_{i}, {sp}_{j}) = \frac{{sp}_{i} (x) {sp}_{j} (x) + {sp}_{i} (y) {sp}_{j} (y)}{\sqrt{{sp}_{i} (x) {sp}_{i} (x) + {sp}_{i} (y) {sp}_{i} (y)} + \sqrt{{sp}_{j} (x) {sp}_{j} (x) + {sp}_{j} (y) {sp}_{j} (y)}} - - - (5)

上式(5)中的x、y表示向量所在平面的x和y坐标。

下面参考图10描述根据本发明一个实施例的建立关联度矩阵的示例性方法的流程图。

图10是根据本发明一个实施例的由复合特征序列建立关联度矩阵的示例性方法140的流程图。该示例性方法140可以应用于图6所示的步骤S140中。

在步骤S141中，计算两个复合特征队列中两两元素（即两两跟踪结果）间在统一世界坐标系下的欧式距离。如果距离大于一个设定的阈值MIN_FUSION_DISTANCE，则不再按照(3)式计算这两个元素间的关联相似度，而在S142中将关联矩阵的对应元素直接设定为0，即关联度为0。这是因为，在一定的误差范围内，属于同一个人的来自不同相机的跟踪结果在统一世界坐标系下间的距离不会太大。可以将这一操作看成是一个预处理，事先从距离上判断两个跟踪结果是否属于同一个人。若不属于，则可以避免后续S143中计算关联度。

若通过预处理条件，将在S143中按照公式(3)计算这两个跟踪结果间的关联度。如果关联度大于关联度阈值MIN_ASSOCIATION_SCORE，则将其保存到关联度矩阵的对应元素中。否则设其关联度为0.

在一个示例中，按照上述方法建立起关联矩阵后，可以在图6所示的步骤S140中根据关联矩阵判断属于同一个人而来自不同摄像机的跟踪结果。根据关联度的定义和关联矩阵的计算过程，第i行第j列元素表示的是A队列中第i个跟踪结果与B队列中第j个跟踪结果的相似度，即他们属于同一个人的跟踪结果的置信程度。在基于关联度矩阵判定具体是否以及如何将来自不同相机的跟踪结果关联到同一人时，可能涉及到一些约束条件，并最好在满足约束条件的同时进行一些优化。作为约束条件的示例，例如，在关联度矩阵中，由于每一个行元素最多只能与一个列元素关联，一个列元素也最多只能与一个行元素关联。这里以行为例，经过S144和S145的操作后，可能出现某行关联度不为0的元素个数不为0或者不为1，即大于1（当个数为0时，说明该人只被A摄像机跟踪到了，B摄像机没有拍摄到该人；当个数为1，说明该人被A摄像机和B摄像机同时拍摄到了；当个数大于1时，表明出现了冲突）。列的情况与行的情况相同。事实上，这是一个分配优化问题，该问题可以用现有的方法解决，如整数规划中的匈牙利算法或者是动态规划算法。在关联优化时，优化目标例如可以是关联的总体置信度最高。

7、基于关联度矩阵的物体定位跟踪方法

下面参考图11描述根据本发明一个实施例的基于关联度矩阵的示例性物体定位方法100’的流程。

图11示出了根据本发明一个实施例的基于关联度矩阵的示例性物体定位方法100’的流程图。

图11所示的物体定位方法100’与图6所示的物体定位方法100的不同在于步骤S120’和S140’。

该流程图100’主要包括：从双目摄像机中获得彩色图和深度图S110；在客户端上分别对人进行检测和跟踪S120’；对客户端上检测和跟踪到的每个人，为其计算复合特征S130；在服务器端，根据客户端传来的复合特征序列建立关联度矩阵，根据关联度矩阵，对属于同一个人的来自不同客户端的跟踪结果进行关联S140’；在考虑人相对于相机的可见度和人到相机距离两个因素下，将关联上的跟踪结果加权融合为一个值S150。

附带说一下，该示例中采用了客户端和服务器结构来将不同的工作分散于不同的计算设备上，从而降低单个计算设备的工作负荷，平衡工作任务。但是，本发明并不限于此，实际上可以将基于各个相机定位物体、复合特征计算、关联度建立和关联性判定、结果融合的所有工作集中于一个计算设备上执行，或者以其它分布方式分布上述任务的全部，或者也可以将某项任务的一部分或若干部分进行分布。

8、物体定位装置

图12示出了根据本发明一个实施例的示例性物体定位装置5000的功能配置框图。

物体定位装置5000用于对针对预定空间布置的多个立体摄像机获得的图像进行处理，对物体进行定位和/或跟踪。

如图12所示，物体检测装置5000包括;图像获得部件5100，从多个立体相机获得彩色图像和深度图像；物体定位部件5200，利用每个立体相机获得的图像，对物体进行定位；复合特征计算部件5300，对每个立体相机定位到的每个物体计算复合特征，该复合特征包括物体在统一世界坐标系下的位置信息并且包括物体的可见特征、速度矢量、加速度矢量中的至少一种；同一物体判定部件5400，基于各个立体相机定位到的各个物体的复合特征，计算不同相机定位到的物体之间的相似度，从而确定不同相机定位到的物体是否属于同一物体；结果融合部件5500，如果确定不同相机定位到的物体属于同一物体，则基于物体对于相机的可见度和物体与相机间距离，融合不同相机关于该同一物体的定位结果。

有关上述物体定位装置5000的各个功能部件5100到5500的操作可以参考图6中所示的流程图以及相关的描述，这里不再赘述。

另外，需要说明的是，图12中箭头所示的连接关系并不是绝对的，实际上，可以存在图中未示出的其它部件之间的连接关系或者其它方向的连接关系。

9、系统硬件配置

本发明还可以通过一种物体定位（跟踪）硬件系统来实施。图13是示出按照本发明实施例的物体定位（跟踪）系统1000的总体硬件框图。如图13所示，物体定位系统1000可以包括：输入设备1100，用于从外部输入有关图像或信息，例如多个立体摄像机拍摄的图像或视频流、预定空间的大小、摄像机的各种内部参数和外部参数如位置等，例如可以包括键盘、鼠标器、以及通信网络及其所连接的远程输入设备等等；处理设备1200，用于实施上述的按照本发明实施例的物体定位方法，或者实施为上述的物体检测装置，例如可以包括计算机的中央处理器或其它的具有处理能力的芯片等等，可以连接到诸如因特网的网络（未示出），根据处理过程的需要向远程传送处理后的图像等等；输出设备1300，用于向外部输出实施上述物体定位（跟踪）过程所得的结果，例如可以包括显示器、打印机、以及通信网络及其所连接的远程输出设备等等；以及存储设备1400，用于以易失或非易失的方式存储上述物体检测（跟踪）过程所涉及的诸如立体图像、空间大小、摄像机的参数、颜色直方图、高度直方图、关联度矩阵、阈值等数据，例如可以包括随机存取存储器（RAM）、只读存储器（ROM）、硬盘、或半导体存储器等等的各种易失或非易失性存储器。

10、总结

根据本发明的实施例，提供了一种物体定位方法，可以包括下述步骤：从多个立体相机获得彩色图像和深度图像；利用每个立体相机获得的图像，对物体进行定位；对每个立体相机定位到的每个物体计算复合特征，该复合特征包括物体在统一世界坐标系下的位置信息并且包括物体的可见特征、速度矢量、加速度矢量中的至少一种；基于各个立体相机定位到的各个物体的复合特征，计算不同相机定位到的物体之间的相似度，从而确定不同相机定位到的物体是否属于同一物体；如果确定不同相机定位到的物体属于同一物体，则基于物体对于相机的可见度和物体与相机间距离，融合不同相机关于该同一物体的定位结果。

前述描述仅为说明性的，可以进行很多修改和/或替换。

前面的附图和描述中以立体摄像机为双目摄像机为例进行说明，不过本发明并不局限于此，而是可以应用任何立体摄像机。

前文的示例性描述中以人为检测目标。不过这仅为示例，本发明并不局限于此，可以以任何物体为检测目标，如动物、椅子等等。

前文的示例性描述中，假设人站在地面上，不过本发明并不局限于此，被检测对象可以任意布置，而未必一定位于地面上。

前文的示例性描述中，术语深度图像应该做广义理解，任何包括距离信息的图像均可以用于本发明的目的，例如视差图像等。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种物体定位方法，包括：

从多个立体相机获得彩色图像和深度图像；

利用每个立体相机获得的图像，对物体进行定位；

对每个立体相机定位到的每个物体计算复合特征，该复合特征包括物体在统一世界坐标系下的位置信息并且包括物体的可见特征、速度矢量、加速度矢量中的至少一种；

基于各个立体相机定位到的各个物体的复合特征，计算不同相机定位到的物体之间的相似度，从而确定不同相机定位到的物体是否属于同一物体；

如果确定不同相机定位到的物体属于同一物体，则基于物体对于相机的可见度和物体与相机间距离，融合不同相机关于该同一物体的定位结果。

2.根据权利要求1的物体定位方法，其中复合特征包括物体的可见特征和速度矢量，该可见特征包括物体相对于立体相机的可见度、物体在鸟瞰视图下的高度直方图、以及物体在鸟瞰视图下的颜色直方图。

3.根据权利要求1的物体定位方法，所述基于各个立体相机定位到的各个物体的复合特征，计算不同相机定位到的物体之间的相似性，从而确定不同相机定位到的物体是否属于同一物体包括：

基于各个立体相机定位到的各个物体的复合特征，建立关联度矩阵，其中对于来自任意两个相机的两个第一和第二复合特征序列，关联矩阵的行数等于第一复合特征序列所包含的元素个数，关联矩阵的列数等于第二复合特征序列所包含的元素个数，反之亦然，其中每个相机的复合特征序列由该相机定位到的各物体的复合特征作为元素而组成；

依次计算第一复合特征序列中每个第一元素所包含的物体在统一世界坐标系下的位置与第二复合特征序列中每个第二元素所包含的物体在统一世界坐标系下的位置之间的距离；

如果距离大于预定的距离阈值，将该复合特征矩阵的相应元素设定为0；

否则，计算第一元素和第二元素之间的相似度，并将该相似度与预定阈值比较；如果该相似度小于预定阈值，将矩阵的相应元素设定为0；否则保存该相似度到矩阵的相应元素中。

4.根据权利要求3的物体定位方法，所述基于各个立体相机定位到的各个物体的复合特征，计算不同相机定位到的物体之间的相似度，从而确定不同相机定位到的物体是否属于同一物体包括：

根据关联度矩阵，为第一复合特征序列中的物体和第二复合特征序列中的物体，分配局部或全局的最优关联，这里的关联是指将两个相机定位到的哪两个物体确定为属于同一物体。

5.根据权利要求1的物体定位方法，基于物体对于相机的可见度和物体与相机间距离，融合不同相机关于该同一物体的定位结果包括：

如果确定不同相机定位到的物体属于同一物体，则如果可见度最高的物体定位结果相关联的相机和距离所定位的物体位置最近的相机为不同的相机，则融合该可见度最高的物体定位结果和距离所定位的物体位置最近的相机的物体定位结果。

6.一种物体定位装置，包括：

图像获得部件，从多个立体相机获得彩色图像和深度图像；

物体定位部件，利用每个立体相机获得的图像，对物体进行定位；

复合特征计算部件，对每个立体相机定位到的每个物体计算复合特征，该复合特征包括物体在统一世界坐标系下的位置信息并且包括物体的可见特征、纹理、速度矢量、加速度矢量中的至少一种；

同一物体判定部件，基于各个立体相机定位到的各个物体的复合特征，计算不同相机定位到的物体之间的相似度，从而确定不同相机定位到的物体是否属于同一物体；

结果融合部件，如果确定不同相机定位到的物体属于同一物体，则基于物体对于相机的可见度和物体与相机间距离，融合不同相机关于该同一物体的定位结果。

7.根据权利要求6的物体定位装置，其中复合特征包括物体的可见特征和速度矢量，该可见特征包括物体相对于立体相机的可见度、物体在鸟瞰视图下的高度直方图、以及物体在鸟瞰视图下的颜色直方图。

8.根据权利要求6的物体定位装置，所述基于各个立体相机定位到的各个物体的复合特征，计算不同相机定位到的物体之间的相似性，从而确定不同相机定位到的物体是否属于同一物体包括：

基于各个立体相机定位到的各个物体的复合特征，建立关联度矩阵，其中对于来自任意两个相机的任意两个第一和第二复合特征序列，关联矩阵的行数等于第一复合特征序列所包含的元素个数，关联矩阵的列数等于第二复合特征序列所包含的元素个数，反之亦然，其中每个相机的复合特征序列由该相机定位到的各物体的复合特征作为元素而组成；依次计算第一复合特征序列中每个第一元素所包含的物体在统一世界坐标系下的位置与第二复合特征序列中每个第二元素所包含的物体在统一世界坐标系下的位置之间的距离；如果距离大于预定的距离阈值，将该复合特征矩阵的相应元素设定为0；否则，计算第一元素和第二元素之间的相似度，并将该相似度与预定阈值比较；如果该相似度小于预定阈值，将矩阵的相应元素设定为0；否则保存该相似度到矩阵的相应元素中。

9.根据权利要求8的物体定位方法，所述基于各个立体相机定位到的各个物体的复合特征，计算不同相机定位到的物体之间的相似度，从而确定不同相机定位到的物体是否属于同一物体包括：

10.根据权利要求6的物体定位方法，基于物体对于相机的可见度和物体与相机间距离，融合不同相机关于该同一物体的定位结果包括：

如果确定不同相机定位到的物体属于同一物体，则如果可见度最高的物体定位结果相关联的相机和距离物体最近的相机为不同的相机，则融合该可见度最高的物体定位结果和距离物体最近的相机的物体定位结果。