CN104715249B

CN104715249B - 物体跟踪方法和装置

Info

Publication number: CN104715249B
Application number: CN201310687905.6A
Authority: CN
Inventors: 游赣梅; 鲁耀杰; 师忠超; 陈超; 王刚
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2013-12-16
Filing date: 2013-12-16
Publication date: 2018-06-05
Anticipated expiration: 2033-12-16
Also published as: US9298990B2; CN104715249A; US20150169956A1; JP6455113B2; JP2015118706A

Abstract

提供了基于连续视差图跟踪多个同类物体的物体跟踪装置和方法，该物体跟踪方法可以包括：获得从当前帧视差图检测到的第一待识别物体的第一边界区域；计算第一待识别物体的像素概率图；获得各个跟踪对象的标识符信息、一个或多个像素概率图；基于第一待识别物体的像素概率图与跟踪对象的一个或多个像素概率图之间的匹配，来确定第一待识别物体的标识符信息并更新第一待识别物体的像素概率图；以及基于更新的第一待识别物体的像素概率图，更新第一边界区域，获得第二边界区域。本发明的物体跟踪装置和物体跟踪方法，能够基于历史跟踪结果来修正当前检测结果，达到消除或减轻对象检测结果的边界矩形框相对实际对象的偏移和变小的问题。

Description

物体跟踪方法和装置

技术领域

本发明总体地涉及图像处理，具体地涉及基于图像处理的物体跟踪方法和装置。

背景技术

基于图像处理的物体跟踪可应用于诸如车辆辅助驾驶、商场人员监控、医院病人监控等领域。

已经提出了一些基于图像处理对移动对象持续跟踪的技术方案。

在发明名称为“Detection and tracking of moving objects from a movingplatform in presence of strong parallax”的美国专利US8073196B2中，公开了一种移动对象检测和跟踪技术，使用联合概率模型来反映当前和过去的观察，通过从滑动缓冲区中收集区别点来最大化联合概率，从而定义合适的数据相关性。区别点包括对象的显示，运动以及从视差图中抽取的边界框。

在发明名称为“METHOD OF MOBILE PLATFORM DETECTING AND TRACKING DYNAMICOBJECTS AND COMPUTER-READABLE MEDIUM THEREOF”的美国专利公开US20110052043A1中，公开了一种动态对象检测和跟踪技术，其中移动平台使用飞行时间传感器获取三维图像，用随机样本一致性算法从三维图像中获得一个基本平面，并从三维图像中分离出对象。用联合概率数据相关过滤器(JPDAF)来推测这些对象的运动。

发明内容

根据本发明的一个方面，提供了一种计算机实现的基于连续视差图跟踪多个同类物体的物体跟踪方法，可以包括：获得从当前帧视差图检测到的第一待识别物体在当前帧视差图中的第一边界区域；计算该第一边界区域内的各个有效像素属于构成该第一待识别物体的像素的概率，从而获得第一待识别物体的像素概率图；获得各个跟踪对象的历史跟踪数据，每个跟踪对象的历史跟踪数据包括跟踪对象的标识符信息、与在当前帧图像之前的一个或多个先前视差图的每个关联的像素概率图；基于第一待识别物体的像素概率图与跟踪对象的每个的一个或多个像素概率图之间的匹配，来确定第一待识别物体的标识符信息并更新第一待识别物体的像素概率图；以及基于更新的第一待识别物体的像素概率图，更新第一待识别物体的第一边界区域，获得第二边界区域。

根据本发明的另一方面，提供了一种计算机实现的基于连续视差图跟踪多个同类物体的物体跟踪装置，可以包括：待识别物体边界区域获得部件，配置为获得从当前帧视差图检测到的第一待识别物体在当前帧视差图中的第一边界区域；待识别物体像素概率图计算部件，配置为计算该第一边界区域内的各个有效像素属于构成该第一待识别物体的像素的概率，从而获得第一待识别物体的像素概率图；跟踪对象历史像素概率图获得部件，获得各个跟踪对象的历史跟踪数据，每个跟踪对象的历史跟踪数据包括跟踪对象的标识符信息、与在当前帧图像之前的一个或多个先前视差图的每个关联的像素概率图；待识别物体标识以及像素概率图更新部件，基于第一待识别物体的像素概率图与跟踪对象的每个的一个或多个像素概率图之间的匹配，来确定第一待识别物体的标识符信息并更新第一待识别物体的像素概率图；以及待识别物体边界区域更新部件，基于更新的第一待识别物体的像素概率图，更新第一待识别物体的第一边界区域，获得第二边界区域。

根据上述实施例的物体跟踪装置和物体跟踪方法，能够基于历史跟踪结果来修正当前检测结果，达到消除或减轻对象检测结果的边界矩形框相对实际对象的偏移和变小的问题，换句话，能够尽可能地将对象的边界矩形框补全，使得其将对象的整体轮廓包围在内。

附图说明

从下面结合附图对本发明实施例的详细描述中，本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解，其中：

图1示出了在现有技术中因为各帧对象检测结果不准确导致的对象跟踪结果不准确的情况的示意图。

图2示出了根据本发明一个实施例的可以应用本发明的示例场景的示意图。

图3示出了用于解释本发明基本思想的图示。

图4示出了根据本发明一个实施例的基于连续视差图跟踪多个同类物体的物体跟踪装置100的配置框图。

图5示出根据本发明一个实施例的基于连续视差图跟踪多个同类物体的物体跟踪方法200的总体流程图。

图6示出了根据本发明一个实施例的计算该第一边界区域内的各个有效像素属于构成该第一待识别物体的像素的概率的示例性方法220的流程图。

图7示意性地示出了当前帧检测对象的边界区域和抽取的视差主平面的视差图例子。

图8示意性地示出了各个单元值表示第一边界区域内的各个像素是构成该第一待识别物体的像素的概率的表格。

图9示出了根据本发明另一实施例的计算该第一边界区域内的各个有效像素属于构成该第一待识别物体的像素的概率的示例性方法220’的流程图。

图10示意性地示出了对原始边界区域进行扩展后得到的边界区域以及相应的计算得到的像素概率图其中，其中，图10中的(a)示出了原始边界区域（实线矩形框），图10中的(b)示出了扩展后的边界区域（虚线矩形框），图 10中的(c)示出了抽取出的扩展后的边界区域，图10中的(d)示出了与扩展后的边界区域对应的像素概率图。

图11示出了根据本发明一个实施例的基于第一待识别物体的像素概率图与跟踪对象的每个的一个或多个像素概率图之间的匹配，来确定第一待识别物体的标识符信息并更新第一待识别物体的像素概率图的示例性方法240 的流程图。

图12示意性地示出了抽取的视差主平面和视差主平面在X坐标上的投影（即水平投影直方图），其中，图12中的(a)示出了抽取的视差主平面，图 12中的(b)示出了主平面水平投影。

图13示意性示出了将待识别物体的水平投影直方图在该跟踪对象的该像素概率图相关联的边界区域的水平投影直方图上沿水平方向滑动、计算各个匹配度、找到最大匹配度、以及找到最匹配部分的过程的示意图。

图14示意性示出了基于第一待识别物体的像素概率图与该跟踪对象的一个像素概率图之间的对齐位置，组合第一待识别物体的像素概率图与该跟踪对象的该像素概率图，得到了该第一待识别物体作为基于该跟踪对象的该像素概率图进行更新后的像素概率图的示例性过程。

图15示意性地示出了累计待识别物体关于该跟踪对象的各个像素概率图更新后的各个像素概率图，得到待识别物体关于该跟踪对象的像素概率图的操作示意图。

图16示意性地示出了基于关于跟踪对象p更新后的待识别物体的像素概率图以及基于第一待识别物体的第一边界区域距该跟踪对象p的当前帧预测区域位置的距离来计算第一待识别物体与该跟踪对象p之间的相似度的示意图。

图17中的(a)示出了获得的检测物体的视差概率图大于预定阈值的部分，图17中的(b)示出了在视差图中的对应边界区域，即第二边界区域。

图18示出了适于用来实现本发明实施方式的示例性计算系统600的框图。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

下面参考图1来说明本发明提出的动机。

这里，各帧对象检测结果是指单独（不结合其它帧图像）对各个帧进行图像处理得到的对象检测结果。例如，对于第N-2帧图像，只处理第N-2帧图像并且不参考其它帧的历史信息，得到对象检测结果；类似地，对于第N-1 帧图像，只处理第N-1帧图像并且不参考其它帧的历史信息，得到对象检测结果；对于第N帧图像，只处理第N帧图像并且不参考其它帧的历史信息，得到对象检测结果。这里，对于对象检测技术没有限制，可以采用任何对象检测、定位和/或识别技术。

相对比地，各帧对象跟踪结果是指结合本帧的对象检测结果和各个对象的先前帧的历史跟踪信息得到的各帧的对象跟踪结果。例如对于第N-2帧图像，结合第N-3帧、第N-4帧图像中各个对象的历史跟踪信息，来得到该第 N-2帧的对象跟踪结果；对于第N-1帧图像，结合第N-2帧、第N-3帧图像中各个对象的历史跟踪信息，来得到该第N-1帧的对象跟踪结果；对于第N 帧图像，结合第N-1帧、第N-2帧图像中各个对象的历史跟踪信息，来得到该第N帧的对象跟踪结果。

从图1可见，在各帧对象检测结果不准确时，得到的对应跟踪结果也不准确。尤其是，从第N-2帧、第N-1帧、第N帧的检测结果可见，检测中逐渐地出现了定位的边界矩形框出现偏移且变小，所包围的对象的部分越来越小，即没有将对象的全部包围进边界矩形框内，而且这种趋势渐趋严重。由此，对应的跟踪结果也逐渐地出现了边界矩形框的偏移和变小。可见跟踪的过程是不稳定的。

针对因为对象检测结果的边界矩形框的偏移和变小而导致跟踪结果出现同样趋势的问题，希望能够基于历史跟踪结果来修正当前检测结果，来达到消除或减轻上述边界矩形框相对实际对象的偏移和变小的问题，换句话，尽可能地将对象的边界矩形框补全，使得其将对象的整体轮廓包围在内。

如图2所示，双目相机可以安装在车辆的顶部，拍摄获得左图像和右图像，该左图像和右图像传送到车载计算装置（例如实现为一芯片的形式），由车载计算装置进行对于例如路面上车辆的检测和跟踪。

图3示出了用于解释本发明基本思想的图示。其中，对于当前第N帧图像，得到待识别对象的视差概率图，基于跟踪对象的历史视差概率图，来更新该视差概率图，最后得到更新后的第N帧跟踪对象的定位结果。

参考图4，其中示出了根据本发明一个实施例的基于连续视差图跟踪多个同类物体的物体跟踪装置100的配置框图。

这里的同类物体，是指同种类型的物体。例如在道路上，各个行人属于同类对象，各个车辆属于同类物体，各个大楼属于同类物体。

本发明中的物体跟踪是指对多个同类对象的跟踪，其中涉及到了对各个同类对象的身份识别。例如，假设历史上已经跟踪到了3个对象1、2、3，那么当在当前帧中检测到一同类对象时，需要判断该对象是否是新出现的对象或者是3个对象中的哪个，并会为该检测到的对象赋予标识符（ID）。

这里的连续视差图是指存在时间上先后关系的视差图，不过并不限于必需是时间紧接的视差图，而是例如可以是按每隔一帧或多帧的方式抽取的连续性视差图。

如图4所示，物体跟踪装置100可以包括：待识别物体边界区域获得部件110、待识别物体像素概率图计算部件120、跟踪对象历史像素概率图获得部件130、待识别物体标识以及像素概率图更新部件140、待识别物体边界区域更新部件150。

待识别物体边界区域获得部件110配置为获得从当前帧视差图检测到的第一待识别物体在当前帧视差图中的第一边界区域。

从当前帧视差图中检测到的物体尚未标识其是否是先前跟踪到的某个对象，还是一个新出现的对象，因此将其称为待识别物体。在本文中，有时也称其为检测物体，两者指代相同含义，都是指从当前帧中检测到的对象，但尚未借助先前的历史跟踪数据对其进行标识。

待识别物体像素概率图计算部件120配置为计算该第一边界区域内的各个有效像素属于构成该第一待识别物体的像素的概率，从而获得第一待识别物体的像素概率图。

跟踪对象历史像素概率图获得部件130配置为获得各个跟踪对象的历史跟踪数据，每个跟踪对象的历史跟踪数据可以包括跟踪对象的标识符信息、与在当前帧图像之前的一个或多个先前视差图的每个关联的像素概率图。历史跟踪数据还可以包括跟踪对象在先前视差图中的定位信息，例如边界点的坐标等。

待识别物体标识以及像素概率图更新部件140配置为基于第一待识别物体的像素概率图与跟踪对象的每个的一个或多个像素概率图之间的匹配，来确定第一待识别物体的标识符信息并更新第一待识别物体的像素概率图。

待识别物体边界区域更新部件150配置为基于更新的第一待识别物体的像素概率图，更新第一待识别物体的第一边界区域，获得第二边界区域。在一个示例中，该第二边界区域的大小大于或等于第一边界区域的大小。

待识别物体边界区域获得部件110、待识别物体像素概率图计算部件 120、跟踪对象历史像素概率图获得部件130、待识别物体标识以及像素概率图更新部件140、待识别物体边界区域更新部件150可以通过例如总线系统（未示出）耦合在一起，并且可以通过计算硬件系统中的CPU、RAM、ROM 以及其中运行或存储的代码来实现。

上述各个部件的结构和数量不对本发明的范围构成限制。可以将上述各部件中的两个或更多个合并为一个独立的单元来执行和实现相应的功能和操作，或者可以将待识别物体边界区域获得部件110、待识别物体像素概率图计算部件120、跟踪对象历史像素概率图获得部件130、待识别物体标识以及像素概率图更新部件140、待识别物体边界区域更新部件150进一步拆分为更小的单元来实现他们各自的功能和操作。

图5示出根据本发明一个实施例的基于连续视差图跟踪多个同类物体的物体跟踪方法200的总体流程图。图5的物体跟踪方法200可以由图4所示的物体跟踪装置300来实现，其中图4的各个部件可以实现图5中的对应步骤。不过图5所示的方法也可以由其它计算装置来实现，例如，台式机、平板电脑、工作站等。

如图5所示，在步骤S210中，获得从当前帧视差图检测到的第一待识别物体在当前帧视差图中的第一边界区域。

这里，关于第一边界区域的信息的表现形式可以为例如左上角和右下角的坐标。另外，当前帧视差图作为已经获得的图像数据。该图像数据可以是视差图获得部件（图4中未示出）依据从双目相机输入的左图像和右图像计算得到的，也可以是直接从外部装置（未示出）获得的。

这里的第一边界区域作为基于当前帧视差图的对象检测的结果而得到，例如如图1中的第N帧视差图中的矩形框形式。关于对象检测的结果，可以是由本地对象检测部件（图4中未示出）在本地基于获得的视差图像（可选地，还基于灰度图像）实时执行对象检测获得的，或者也可以是从外部装置（未示出）获得的。

本发明对于对象检测的方法没有限制。任何对象检测方法均可以用于本发明，例如如下文章中描述的对象检测方法，Zhencheng Hu,Francisco Lamosa, KeiichiUchimura:A Complete U-V-Disparity Study for Stereovision Based3D DrivingEnvironment Analysis.3DIM2005:204-211。

在步骤S220中，计算该第一边界区域内的各个有效像素属于构成该第一待识别物体的像素的概率，从而获得第一待识别物体的像素概率图。

图6示出了根据本发明一个实施例的计算该第一边界区域内的各个有效像素属于构成该第一待识别物体的像素的概率的示例性方法220的流程图，该示例性方法可以应用于图5中所示的步骤S220。

如图6所示，在步骤S221中，抽取第一待识别物体的与视差方向垂直的一平面作为视差主平面。

这里的视差方向，也可称为深度方向，为与对应灰度图像平面垂直的方向。

在一个示例中，可以统计该第一待识别物体的第一边界区域内的取各个视差值的像素的数目，并且确定哪个视差值，取其值的像素点数最多，并将该视差值对应的平面取为视差主平面。形象地说，可以设想沿着深度方向，存在许多视差平面，哪个视差平面上的像素点数最多，该视差平面就是视差主平面。

该视差主平面的选取办法仅为示例。作为替代，例如可以选择边界视差平面的中间平面，例如假设在第一边界区域内，出现的最小的视差值为dmin，最大的视差值为dmax，则可以将dm=(dmin+dmax)/2的视差值所在的平面作为视差主平面。

从物理意义上说，理想地，认为视差主平面代表了第一待识别物体在深度方向上的位置。

在步骤S222中，根据第一边界区域内的各个有效像素到该视差主平面的距离，来确定第一边界区域内的各个有效像素属于构成该第一待识别物体的像素的概率，其中一像素到该视差主平面的距离越小，该像素属于构成该第一待识别物体的像素的概率越大。

这里的有效像素表示视差值不为零并且存在视差值的像素。

在一个示例中，可以采用下述公式(1)来计算第一边界区域内的各个有效像素属于构成该第一待识别物体的像素的概率。

weight(x,y,d)={C1/(distance+1) (1)

其中，distance表示视差为d的像素距离视差主平面（其对应视差值为 dm）的距离，该距离可以依据视差d和视差dm而求得；C1>0，是预定义常数。

该公式(1)仅为示例，可以根据需要采用不同的公式来计算第一边界区域内的各个有效像素属于构成该第一待识别物体的像素的概率。

图8示意性地示出了第一边界区域内的各个像素是构成该第一待识别物体的像素的概率的表格。图中每行对应X坐标，每列对应Y坐标。于是每个单元对应位置（x,y）。单元中的值表示此位置像素点的为构成该第一待识别物体的像素的概率。

图9示出了根据本发明另一实施例的计算该第一边界区域内的各个有效像素属于构成该第一待识别物体的像素的概率的示例性方法220’的流程图，该示例性方法可以应用于图5中所示的步骤S220。

图9所示的像素概率计算方法与图6所示的像素概率计算方法的不同在于多了步骤S223，而关于步骤S221和步骤S222与图6所示的对应步骤相同，这里不再赘述。

在步骤S223中，渐进式地扩展第一边界区域直到计算得到的被扩展的像素属于构成该第一待识别物体的像素的概率低于预定阈值。

在一个示例中，可以按预定步长沿图像宽度方向（附图中的纸面横向方向）扩展第一边界区域，并计算被扩展的像素属于构成该第一待识别物体的像素的概率，如果该概率高于预定阈值，则可以继续扩展，否则回到上一步扩展的区域的边界。

此步进行扩展是考虑到作为原始检测结果的边界区域可能偏小，因此可以进行初步扩展。由此，在一个示例中，可以将当前帧原始检测结果的边界区域与先前帧的检测结果的边界区域的尺寸进行比较，并且在当前帧的原始检测结果的边界区域小于先前帧的检测结果的边界区域的尺寸且减小的程度大于预定阈值时，进行上述边界区域扩展的操作。

图10示意性地示出了对原始边界区域进行扩展后得到的边界区域以及相应的计算得到的像素概率图。其中，图10中的(a)示出了原始边界区域（实线矩形框），图10中的(b)示出了扩展后的边界区域（虚线矩形框），图10中的(c)示出了抽取出的扩展后的边界区域，图10中的(d)示出了与扩展后的边界区域对应的像素概率图。

上面参考图6到图10给出了计算待识别物体的像素概率图的方法的示例。

回到图5，在步骤S220中完成计算待识别物体的像素概率图之后，前进到步骤S230中。

在步骤S230中，获得各个跟踪对象的历史跟踪数据，每个跟踪对象的历史跟踪数据包括跟踪对象的标识符信息、与在当前帧图像之前的一个或多个先前视差图的每个关联的像素概率图。

这里，一个跟踪对象被赋予唯一的ID，该跟踪对象在各帧中被定位，并可以按照如图5所示的方式，迭代地计算有与各帧关联的像素概率图。例如，对于第一帧，检测到的各个对象被定位、被赋予了ID，并且例如按照上述步骤S220中的操作计算了像素概率图。对于第二帧，则可以例如按照图5所示的步骤S210-S250来得到各个检测物体的标识符并且计算与各个检测对象关联的关于当前帧的像素概率图。对于第三帧、第四帧，……可以进行同样的处理。

在步骤S240中，基于第一待识别物体的像素概率图与跟踪对象的每个的一个或多个像素概率图之间的匹配，来确定第一待识别物体的标识符信息并更新第一待识别物体的像素概率图。

图11示出了根据本发明一个实施例的基于第一待识别物体的像素概率图与跟踪对象的每个的一个或多个像素概率图之间的匹配，来确定第一待识别物体的标识符信息并更新第一待识别物体的像素概率图的示例性方法240 的流程图。该示例性方法240可以应用于图5所示的步骤S240。

如图11所示，其中对于每个跟踪对象，都将执行步骤S241-S243，以计算得到第一待识别物体与各个跟踪对象之间的相似度。在求得第一待识别物体与各个跟踪对象之间的相似度之后，前进到步骤S244，其中进行标识符赋予和第一待识别物体的与当前帧关联的像素概率图更新操作。

具体地，在步骤S241中，确定第一待识别物体的像素概率图与该跟踪对象的一个或多个像素概率图的每个之间的对齐位置。

此操作的思想在于，假定第一待识别物体就是该跟踪对象，那么彼此的像素概率图应该接近，但是两者的像素概率图可能尺寸不同，此时应该确定如何对准，只有进行了相互对准，才能进行后续的相互组合操作。

关于此对齐位置，根据检测对象不同，关注的维度可能不同。例如，在跟踪对象为车辆的情况下，关注的主要是在车辆宽度方向上的位置，而不是高度方向上的位置。这其中的一个原因在于车辆的高度方向相对而言特征比较突出，在不同帧之间的定位基本一致。而车辆跟踪出现偏移，一般出现在车辆宽度方向上。

在一个示例中，可以通过第一待识别物体在当前帧视差图上的视差主平面的投影以及跟踪对象在各个历史帧中的主平面图的投影的对准来实现待识别物体的像素概率图和跟踪对象的对应帧相关的像素概率图的对准。

如前所述，可以将第一待识别物体的第一边界区域内出现频度最高的视差值所在的平面作为视差主平面，然后将该视差主平面投影到水平X坐标。更确切地说，获得第一待识别物体的第一边界区域内出现频度最高的视差值对应的各个像素点在水平X坐标上的投影的数目累计，得到水平投影直方图，其中该直方图的一维为X坐标，另一维表示在X坐标上的对应位置的取值为频度最高的视差值的像素点的数目。

图12示意性地示出了抽取的视差主平面和视差主平面在X坐标上的投影（即前述水平投影直方图）。其中，图12中的(a)示出了抽取的视差主平面，图12中的(b)示出了主平面水平投影，其中以椭圆形圈出了投影中的波峰，在主平面水平投影图中，水平维为X-坐标，垂直维表示在X位置有视差值的点的个数。

在一个示例中，可以通过如下操作来确定第一待识别物体的边界区域与跟踪对象在一历史帧中的边界区域之间的对齐位置：

（1）针对第一待识别物体的边界区域与跟踪对象在一历史帧中的边界区域，生成水平投影直方图；

（2）将第一待识别物体的水平投影直方图在该跟踪对象的该像素概率图相关联的边界区域的水平投影直方图上滑动，计算两者在不同位置处匹配时的匹配度；

在一个示例中，通过下述公式(2)来计算待识别物体Dobj在不同位置pos 时与跟踪对象Tobj_k的匹配度，

MatchDegree_k(Dobj,Tobj_k,pos)=1-Σw_i(h_D,i-hTi)*(h_D,i-h_Ti)/t; (2)

其中，MatchDegree_k(Dobj,Tobj_k,pos)是待识别物体Dobj的水平投影直方图和跟踪对象Tobj_k之间关于候选对齐位置pos(该候选对齐位置pos随着在水平方向的移动而按照例如步长而增加)的匹配度(后文简写为MD)，其中i 表示跟踪对象Tobj_k在水平投影直方图上的水平轴上的坐标，pos≤i≤pos +Dobj_Width，其中Dobj_Width宽度标识检测对象的边界区域的宽度。Tobj_k是第k帧中的该跟踪对象，w_i是i位置对应的权重，t是待识别物体Dobj的水平投影直方图的宽度，h_D,i是x=i时待识别物体Dobj在水平投影直方图中国的垂直坐标，也即像素数，h_Ti是x=i时跟踪对象Tobj_k在水平投影直方图的垂直坐标，也即像素数。

3）将匹配度最高，即MatchDegree=Max{MatchDegree(pos)}的位置选择为对齐位置。

如图13所示，移动检测对象的水平投影直方图，并计算在每一个位置上与跟踪对象之间的匹配度，于是得到MD₁,MD₂,…,MD_m-1。这里移动的意思是 pos从1变到跟踪对象的水平投影直方图宽度与检测对象的水平投影直方图直方图宽度之差，即（跟踪对象的水平投影直方图宽度-检测对象的水平投影直方图直方图宽度）。将匹配度最大时的位置pos对应的匹配度值表示为SSpos。

回到图11，在步骤S241中确定第一待识别物体的像素概率图与该跟踪对象的一个或多个像素概率图的每个之间的对齐位置之后，前进到步骤S242。

在步骤S242中，基于所确定的第一待识别物体的像素概率图与该跟踪对象的一个或多个像素概率图的每个之间的对齐位置，来组合第一待识别物体的像素概率图与该跟踪对象的一个或多个像素概率图的每个，从而得到与该跟踪对象相关联的更新的第一待识别物体的像素概率图。

在一个示例中，可以对于某ID标识的跟踪对象，将其每个历史帧的像素概率图与待识别物体的像素概率图对齐，然后组合两者的像素概率图，最后将所有关于该跟踪对象的历史帧组合的像素概率图累计起来，最后关于该跟踪对象得到的待识别物体的更新的像素概率图。

例如，对于某跟踪对象的第k历史帧的像素概率图Tobj_k，根据下述公式 (3)计算Dobj的视差概率图DPM(Dobj,Tobjk)

DPM(Dobj,Tobjk)=F(Dobj的初始视差概率图,Tobjk的视差概率图)

(3)

其中，F是预定函数，它的参数是Dobj的初始视差概率图和Tobjk的视差概率图。

在一个示例，函数F的对应输出与对应的Dobj的初始视差概率图和Tobjk 的视差概率图中的值成正相关。例如F可以是两视差概率图中对应像素点值的乘积。不过，公式F不限于此，可以根据需要设计和使用其它的公式形式。

其中图14中的(a)示出了该跟踪对象的主视差平面的水平投影直方图上与待识别物体的主视差平面的水平投影直方图最匹配的部分；图14中的(b) 示出了该待识别物体的视差概率图，图14中的(c)示出了该跟踪对象的关于第 k帧图像的视差概率图且以与图14中的(b)所示的待识别物体的视差概率图对齐，图14中的(d)示出了该待识别物体的视差概率图基于图14中的(c)的跟踪对象的视差概率图更新后得到的视差概率图。

在图14的(a)、(b)、(c)的三个表中，每一行对应x坐标，每一列对应y 坐标，每一个单元对于（x，y）位置，每个单元中的值表示该位置处的像素属于对应对象的概率。

关于该ID标识的跟踪对象的每个像素概率图，都可以对应地更新第一待识别物体的像素概率图。

在一个示例中，可以累计待识别物体关于该跟踪对象的各个像素概率图更新后的各个像素概率图，得到待识别物体关于该跟踪对象的像素概率图；然后在后续步骤S243中基于待识别物体关于该跟踪对象的像素概率图，来计算待识别物体与该跟踪对象之间的相似度。

在一个示例中，可以如下计算待识别物体关于该跟踪对象的像素概率图。

如前所述，关于某个ID（假设其ID为P）标识的跟踪对象，其存在与先前帧k对应的各个视差概率图，0≤k≤N-1，并更新得到对应的各个第一待识别物体的像素概率图DPM(Dobj,Tobj^P _N-1),DPM(Dobj,Tobj^P _N-2),…,DPM(Dobj,Tobj^P ₁), DPM(Dobj,Tobj^P ₀)。在一个示例中，例如可以基于下述公式(4)得到待识别对象 Dobj关于该跟踪对象Tobj^p的视差概率图DPM(Dobj)^P

DPM(Dobj)^P=(w_N-1*DPM(Dobj,Tobj^P _N-1)+…+w₀*DPM(Dobj,Tobj^P ₀))/N(4)

其中，w_i是权重，在一个示例中，w_N-1>w_N-2>…>w₀，即帧在时间维度上与当前帧越接近，权重越大，在一个示例中，设置w_i=i/(N*(N+1)/2)。

回到图11，在步骤S242中，得到待识别物体关于该跟踪对象的像素概率图，前进到步骤S243。

在步骤S243中，基于待识别物体关于该跟踪对象的像素概率图，计算第一待识别物体与该跟踪对象之间的相似度。

在得到待识别物体Dobj关于该跟踪对象p的像素概率图DPM(Dobj)^P后，可以例如根据下述公式（5）计算该待识别物体Dobj与该跟踪对象Tobj_p之间的相似度similarityscore(Dobj,Tobj_p)。

similarityscore(Dobj,Tobj^p)=∑DPM(Dobj)^P(x,y)/(distance+1)(5)

其中，DPM(Dobj)^P(x,y)表示更新后的位置(x,y)处的像素属于构成待识别的物体的像素的概率；distance表示待识别物体的边界区域的代表性位置和距该跟踪对象在当前帧中的预测的位置之间在真实世界的距离，例如可以以待识别物体的边界区域的中心点作为其代表性位置。关于基于历史跟踪信息来预测跟踪对象在当前帧中的位置，例如可以基于跟踪对象在前一帧中的位置和估计的移动速度来实现。

图16示意性地示出了基于关于跟踪对象p更新后的待识别物体的像素概率图以及基于第一待识别物体的第一边界区域距该跟踪对象p的在当前帧中的预测的区域位置的距离来计算第一待识别物体与该跟踪对象p之间的相似度的示意图。

回到图11，对于各个跟踪对象1,2，…,p,…执行图11中所示的步骤S241 到S243，由此获得该第一待识别物体与各个跟踪对象1,2，…,p,…之间的相似度，可见关于各个跟踪对象执行步骤S241到S243可以并行进行。在对所有跟踪对象，执行了步骤S241到S243后，前进到步骤S244。

在步骤S244中，将与第一待识别物体相似度最高的跟踪对象的标识符赋予第一待识别物体，以及获得与相似度最高的跟踪对象相关联的更新的第一待识别物体的像素概率图。

例如，假设该待识别物体Dobj与该跟踪对象p之间的相似度 similarityscore(Dobj,Tobj_p)是各个相似度中最高的，则认为该第一待识别物体为跟踪对象p，也即将标识符p赋予该待识别物体，并且将该第一待识别物体的关于该跟踪对象p的像素概率图DPM(Dobj)^P添加到该跟踪对象p的历史跟踪数据中。

在一个示例中，可以检查该最高相似度是否大于预定阈值。如果该最高相似度不大于预定阈值，则可以认为不存在与待识别物体相似的跟踪对象，因此该待识别物体为新出现的对象，则将一个新的唯一ID赋予该待识别物体。在此情况下，将不基于跟踪对象来更新待识别物体的视差概率图。

以上结合图11到图16描述了实现图5中的步骤S240的方法的示例。

在图11所示的图5中的步骤S240的实现方法中，先基于某ID标识的跟踪对象的各个历史视差概率图，来获得第一待识别物体关于该跟踪对象的更新的视差概率图，然后再计算该待识别对象与该跟踪对象之间的相似度。

在另一个示例中，可以如下操作(1-(3))实现图5中的步骤S240：

（1）基于当前帧的第一待识别物体的视差主平面和每个跟踪对象ID标识的跟踪对象的一个或多个先前视差图相关联的视差主平面的全部或部分之间的匹配度，计算第一待识别物体与每个跟踪对象ID标识的跟踪对象之间的相似度。

在一个示例中，可以如图13所示，确定待识别物体的视差主平面（的水平投影直方图）与某跟踪对象的历史帧视差图的每个的视差主平面（的水平投影直方图）的最大匹配度和匹配部分。然后确定该待识别物体与该跟踪对象的相似度，例如该相似度可以为该待识别物体与该跟踪对象的各个历史帧视差图的视差主平面的各个最大匹配度的加权平均。

（2）确定与第一待识别物体相似度最高的跟踪对象和相关联的跟踪对象 ID；

（3）将与第一待识别物体相似度最高的跟踪对象的标识符赋予第一待识别物体，以及基于第一待识别物体的像素概率图和与第一待识别物体相似度最高的跟踪对象的像素概率图，更新第一待识别物体的像素概率图。

基于第一待识别物体的像素概率图和与第一待识别物体相似度最高的跟踪对象的像素概率图，更新第一待识别物体的像素概率图。

回到图5，在步骤S240中完成了确定第一待识别物体的标识符信息并更新第一待识别物体的像素概率图之后，前进到步骤S250。

在步骤S250中，基于更新后的第一待识别物体的像素概率图，更新第一待识别物体的第一边界区域，获得第二边界区域。

在一个示例中，可以基于预定阈值，抽取更新后的第一待识别物体的像素概率图中像素概率大于预定阈值的像素，将这样抽取到的像素的最小矩形边界作为第二边界区域。

在另一示例中，在基于预定阈值，抽取更新后的第一待识别物体的像素概率图中像素概率大于预定阈值的像素之后，还可以检查保留的像素点，去除野点(outlier)，然后将剩余的像素的最小外接矩形作为第二边界区域。

在一个示例中，在获得第二边界区域时，确保该第二边界区域的大小大于或等于第一边界区域的大小。由此，使得能够尽可能地补全当前帧中的对象被遗漏的部分。

图17中的(a)示出了获得的检测物体的视差概率图大于预定阈值（例如， 0.1）的部分，图17中的(b)示出了在视差图中的对应边界区域，即第二边界区域。

可以将例如指示第二边界区域的矩形框叠加到视差图上，作为跟踪结果显示到显示屏上。此外，也可以在边界区域附近显示其它信息，例如对象的标识符指示。

本发明还可以通过一种用于基于连续视差图跟踪多个同类物体的物体跟踪的计算系统来实施。图18示出了适于用来实现本发明实施方式的示例性计算系统600的框图。如图18所示，计算系统600可以包括：CPU（中央处理单元）601、RAM（随机存取存储器）602、ROM（只读存储器）603、系统总线604、硬盘控制器605、键盘控制器606、串行接口控制器607、并行接口控制器608、显示控制器609、硬盘610、键盘611、串行外部设备612、并行外部设备613和显示器614。在这些设备中，与系统总线604耦合的有 CPU601、RAM602、ROM603、硬盘控制器605、键盘控制器606、串行接口控制器607、并行接口控制器608和显示控制器609。硬盘610与硬盘控制器605耦合，键盘611与键盘控制器606耦合，串行外部设备612与串行接口控制器607耦合，并行外部设备613与并行接口控制器648耦合，以及显示器614与显示控制器609耦合。应当理解，图18 所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。

所属技术领域的技术人员知道，本发明可以实现为系统、装置、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件（包括固件、驻留软件、微代码等），还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”、“装置”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如 Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN) 或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

上面参照本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的制造品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种计算机实现的基于连续视差图跟踪多个同类物体的物体跟踪方法，包括：

获得从当前帧视差图检测到的第一待识别物体在当前帧视差图中的第一边界区域；

计算该第一边界区域内的各个有效像素属于构成该第一待识别物体的像素的概率，从而获得第一待识别物体的像素概率图；

获得各个跟踪对象的历史跟踪数据，每个跟踪对象的历史跟踪数据包括跟踪对象的标识符信息、与在当前帧图像之前的一个或多个先前视差图的每个关联的像素概率图；

基于第一待识别物体的像素概率图与跟踪对象的每个的一个或多个像素概率图之间的匹配，来确定第一待识别物体的标识符信息并更新第一待识别物体的像素概率图；以及

基于更新的第一待识别物体的像素概率图，更新第一待识别物体的第一边界区域，获得第二边界区域；

其中，所述计算该第一边界区域内的各个有效像素属于构成该第一待识别物体的像素的概率，从而获得第一待识别物体的像素概率图包括：

抽取第一待识别物体的与视差方向垂直的一平面作为视差主平面；以及

根据第一边界区域内的各个有效像素到该视差主平面的距离，来确定第一边界区域内的各个有效像素属于构成该第一待识别物体的像素的概率，其中一像素到该视差主平面的距离越小，该像素属于构成该第一待识别物体的像素的概率越大。

2.根据权利要求1的物体跟踪方法，其中抽取第一待识别物体的有效像素个数最多的与视差方向垂直的平面作为视差主平面。

3.根据权利要求2的物体跟踪方法，还包括：

渐进式地扩展第一边界区域直到计算得到的被扩展的像素属于构成该第一待识别物体的像素的概率低于预定阈值。

4.根据权利要求1到3中任一项的物体跟踪方法，其中，所述基于第一待识别物体的像素概率图与跟踪对象的每个的一个或多个像素概率图之间的匹配，来确定第一待识别物体的标识符信息并更新第一待识别物体的像素概率图包括：

对于跟踪对象的每个，

确定第一待识别物体的像素概率图与该跟踪对象的一个或多个像素概率图的每个之间的对齐位置；

基于所确定的第一待识别物体的像素概率图与该跟踪对象的一个或多个像素概率图的每个之间的对齐位置，来组合第一待识别物体的像素概率图与该跟踪对象的一个或多个像素概率图的每个，从而得到与该跟踪对象相关联的更新的第一待识别物体的像素概率图；

基于与该跟踪对象相关联的更新的第一待识别物体的像素概率图，计算第一待识别物体与该跟踪对象之间的相似度；以及

将与第一待识别物体相似度最高的跟踪对象的标识符赋予第一待识别物体，以及获得与相似度最高的跟踪对象相关联的更新的第一待识别物体的像素概率图。

5.根据权利要求4的物体跟踪方法，所述组合第一待识别物体的像素概率图与该跟踪对象的一个或多个像素概率图的每个，从而得到与该跟踪对象相关联的更新的第一待识别物体的像素概率图包括：

将第一待识别物体的像素概率图与该跟踪对象的一个或多个像素概率图的每个相乘并加权累计，

其中跟踪对象的一像素概率图与第一待识别物体的像素概率图在时间上帧间距越近，加权累计中的对应权重越大。

6.根据权利要求4的物体跟踪方法，所述确定第一待识别物体的像素概率图与该跟踪对象的一个或多个像素概率图的每个之间的对齐位置包括：

获得第一待识别物体的第一边界区域内出现频度最高的视差值对应的各个像素点在水平X坐标上的投影的数目累计，得到水平投影直方图，其中该直方图的一维为X坐标，另一维表示在X坐标上的对应位置的取值为频度最高的视差值的像素点的数目；

获得该跟踪对象的该像素概率图相关联的边界区域的水平投影直方图；

将第一待识别物体的水平投影直方图在该跟踪对象的该像素概率图相关联的边界区域的水平投影直方图上滑动，计算两者在不同位置处匹配时的匹配度；以及

将匹配度最高的位置确定为所述对齐位置。

7.根据权利要求4的物体跟踪方法，所述基于与该跟踪对象相关联的更新的第一待识别物体的像素概率图，计算第一待识别物体与该跟踪对象之间的相似度包括：

基于所述像素概率图以及基于第一待识别物体的第一边界区域距该跟踪对象的当前帧预测区域位置的距离，计算第一待识别物体与该跟踪对象之间的相似度，其中该跟踪对象的当前帧预测区域位置是依据该跟踪对象的历史跟踪信息预测得到的该跟踪对象在当前帧图像中的位置。

8.根据权利要求1到3中任一项的物体跟踪方法，所述基于第一待识别物体的像素概率图与跟踪对象的每个的一个或多个像素概率图之间的匹配，来确定第一待识别物体的标识符信息并更新第一待识别物体的像素概率图包括：

基于当前帧的第一待识别物体的视差主平面和每个跟踪对象ID标识的跟踪对象的一个或多个先前视差图相关联的视差主平面的全部或部分之间的匹配度，计算第一待识别物体与每个跟踪对象ID标识的跟踪对象之间的相似度；

确定与第一待识别物体相似度最高的跟踪对象和相关联的跟踪对象ID；

将与第一待识别物体相似度最高的跟踪对象的标识符赋予第一待识别物体，以及基于第一待识别物体的像素概率图和与第一待识别物体相似度最高的跟踪对象的像素概率图，更新第一待识别物体的像素概率图。

9.一种计算机实现的基于连续视差图跟踪多个同类物体的物体跟踪装置，包括：

待识别物体边界区域获得部件，配置为获得从当前帧视差图检测到的第一待识别物体在当前帧视差图中的第一边界区域；

待识别物体像素概率图计算部件，配置为计算该第一边界区域内的各个有效像素属于构成该第一待识别物体的像素的概率，从而获得第一待识别物体的像素概率图；

跟踪对象历史像素概率图获得部件，获得各个跟踪对象的历史跟踪数据，每个跟踪对象的历史跟踪数据包括跟踪对象的标识符信息、与在当前帧图像之前的一个或多个先前视差图的每个关联的像素概率图；

待识别物体标识以及像素概率图更新部件，基于第一待识别物体的像素概率图与跟踪对象的每个的一个或多个像素概率图之间的匹配，来确定第一待识别物体的标识符信息并更新第一待识别物体的像素概率图；以及

待识别物体边界区域更新部件，基于更新的第一待识别物体的像素概率图，更新第一待识别物体的第一边界区域，获得第二边界区域；

其中，所述待识别物体像素概率图计算部件被配置为：

10.一种计算机可读介质，用于基于连续视差图跟踪多个同类物体的物体跟踪，所述计算机可读介质上存储计算机指令，当所述计算机指令被计算机执行时，使得所述计算机执行以下步骤：