CN104952056B

CN104952056B - 一种基于立体视觉的目标检测方法和系统

Info

Publication number: CN104952056B
Application number: CN201410115292.3A
Authority: CN
Inventors: 诸加丹; 王鑫; 范圣印; 王千; 乔刚
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2014-03-26
Filing date: 2014-03-26
Publication date: 2018-01-16
Anticipated expiration: 2034-03-26
Also published as: CN104952056A

Abstract

公开了一种基于立体视觉的目标检测方法和系统，该方法包括：获得从立体深度图像提取的前景深度图像；设置高度阈值，以得到在前景深度图像中高于所述高度阈值的区块；如果得到的区块满足预定单目标条件，则将所述得到的区块检测为单个目标所在的区块；如果得到的区块满足预定多目标条件，则将得到的区块中的多个目标所在的每个更小的区块检测为单个目标所在的区块；如果得到的区块不满足预定单目标条件或预定多目标条件，则改变所述高度阈值，直到确定得到的区块满足所述预定单目标条件或预定多目标条件。

Description

一种基于立体视觉的目标检测方法和系统

技术领域

本公开涉及立体视觉图像处理领域，且更具体地，涉及基于立体视觉的目标检测技术。

背景技术

诸如人的目标的检测与跟踪是以例如人为中心计算的技术的基础，在人被准确的定位后方能提供和推送主动的服务。诸如人的目标定位是得到目标在室内或者室外的位置信息，也就是得到目标在世界坐标系中的坐标值(x,y,z)。

诸如人的目标的检测的正确性是诸如人的目标的定位的根本问题。目前，其仍是一个挑战性的技术课题。三维视觉的引入对于解决这个问题有了很大的提高。三维视觉不仅包含图像的红、绿、蓝（RGB）的颜色信息，还包含深度（距离）信息。立体相机是一种常见的可以输出三维视觉图像的设备。

虽然利用三维视觉的目标检测和跟踪的系统可以获得优于二维视觉系统的性能，但是，现存的三维视觉系统还是存在着很大的可改进空间。比如，基于立体相机的人的检测技术在处理稠密（拥挤）人群时，精度仍然有限。比如在超市和购物大厦中人的检测，此时目标稠密，单个目标被严重遮挡，这将导致现有技术检测难度很大或者检测精度比较低。因此，如何更充分的利用三维信息来提高稠密目标的检测效率是充满了挑战和实际意义的课题。

BRUMITT在2003年12月2日公告的题为“System and process for locating andtracking a person or object in a scene using a series of range images”的美国专利号US6658136B1提出了一种方法和装置，利用一系列的深度图像来进行人的定位和跟踪。该方法主要流程为，利用多帧连续图像建立背景模型，通过与背景模型相减获得前景图像；利用前景像素与立体相机的距离，将前景图像分割为不同区域，每一个区域代表了一个目标；将分割的区域投影到鸟瞰视图上来进行目标定位。该专利提出的方法首先是基于距离信息的分割方法，然后在鸟瞰视图上，采用基于联通性的分割优化技术，来达到将单个目标检测出来并且完成目标定位。

ZHANG等人于2013年7月18日公开的题为“SYSTEM AND METHOD FOR VIDEOCONTENT ANALYSIS USING DEPTH SENSING”的美国专利申请公开号US20130182904A1提出了一种基于深度传感器的视频内容分析的系统和方法。该方法首先利用2D（RGB）图像进行前景提取，然后对前景像素的3D点云进行聚类，最后利用分割块的物理（高度）体积对目标进行检查和分类。总结来说，该方法利用3D点云的聚类来得到关于聚类块的3D模型（高度和体积），然后利这些信息来检查目标和对目标进行分类。

但是，仍然需要改进的基于立体视觉的目标检测技术。

发明内容

鉴于上述情况，提出了本发明。

需要解决如何正确地、有效地分割和检测目标，特别是针对比较拥挤的场景。在引入深度设备（如双目相机和飞行时间（Time of flight，TOF）相机）后，获取的图像包含了(x,y,z)的3D信息。在3D视觉中，为了解决在2D图像中的遮挡问题，目标检测一般会在鸟瞰视图上进行。然而，当2个或者多个目标彼此很近又存在遮挡，使得目标在图像中只有部分身体。在现有目标检测技术中，这样的多个目标容易出现漏检的情况。

因此，需要利用3D信息更准确、有效地将每个目标分割出来，特别是在目标相互很近又存在遮挡的情况下。

根据本公开的一个方面，提供一种基于立体视觉的目标检测方法，包括：获得从立体深度图像提取的前景深度图像；设置高度阈值，以得到在前景深度图像中高于所述高度阈值的区块；如果得到的区块满足预定单目标条件，则将所述得到的区块检测为单个目标所在的区块；如果得到的区块满足预定多目标条件，则将得到的区块中的多个目标所在的每个更小的区块检测为单个目标所在的区块；如果得到的区块不满足预定单目标条件或预定多目标条件，则改变所述高度阈值，直到确定得到的区块满足所述预定单目标条件或预定多目标条件。

根据本公开的另一个方面，提供一种基于立体视觉的目标检测系统，包括：前景提取装置，被配置为获得从立体深度图像提取的前景深度图像；高度阈值设置装置，被配置为设置高度阈值，以得到在前景深度图像中高于所述高度阈值的区块；目标检测装置，被配置为：如果得到的区块满足预定单目标条件，则将所述得到的区块检测为单个目标所在的区块；如果得到的区块满足预定多目标条件，则将得到的区块中的多个目标所在的每个更小的区块检测为单个目标所在的区块；高度阈值改变装置，被配置为如果得到的区块不满足预定单目标条件或预定多目标条件，则改变所述高度阈值，直到所述目标检测装置确定得到的区块满足所述预定单目标条件或预定多目标条件。

附图说明

图1示出了应用根据本发明的一个实施例的目标检测技术的场景示意图。

图2示出了根据本发明的一个实施例的基于立体视觉的目标检测方法的流程图。

图3A示出了根据本发明的另一实施例的基于立体视觉的目标检测方法的流程图；图3B示出了示例前景图像；图3C示出了示例鸟瞰视图。

图4A示出在图3A的方法中的基于高度信息的区块的分割（步骤S14）的示例的具体流程图；图4B示出了基于高度信息的区块的分割的原理图；

图5示出了在图3A的方法中的对分割得到的区块进行单目标验证和多目标验证（步骤S15）和输出目标检测结果（S16）的示例的具体流程图。

图6A示出了如图5中的步骤S151的初级验证的实例示意图；图6B示出了如图5中的步骤S153的获得区块内的运动矢量的实例示意图；图6C示出了如图5中的步骤S153-S155-S16（聚类的个数>1的情况）的实例示意图。

图7A示出了如图5中的步骤S156的计算区块的高度分布特征与预定的高度分布特征之间的置信度的示例的具体流程图；图7B示出了如图7A所示的流程图的实例示意图。

图8示出了如图5中的步骤S158-S159-S16的实例示意图。

图9A-9G示出了应用本技术的各个实施例得到的目标检测的过程和结果的示例示意图。

对于单个目标（斑块）来说，分布都极为相似——具有较高高度的头肩部分在目标（斑块）中间，具有较低高度的手足部分在目标（斑块）周围。同时，底部的图片示出多个目标非常靠近时，在鸟瞰是图上他们是连接起来的。

图10示出了根据本发明的另一实施例的基于立体视觉的目标检测系统的方框图。

图11示出了根据本发明的另一实施例的基于立体视觉的目标检测系统的方框图。

具体实施方式

现在将详细参照本发明的具体实施例，在附图中例示了本发明的例子。尽管将结合具体实施例描述本发明，但将理解，不是想要将本发明限于所述的实施例。相反，想要覆盖由所附权利要求限定的在本发明的精神和范围内包括的变更、修改和等价物。应注意，这里描述的方法步骤都可以由任何功能块或功能布置来实现，且任何功能块或功能布置可被实现为物理实体或逻辑实体、或者两者的组合。

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

图1主要示出了应用根据本发明的一个实施例的目标检测技术的输入和输出。其中，输入的信息来自于一个双目相机1。在经过应用了根据本发明的实施例的目标检测技术的计算机之后，输出是将图像中的目标分割开来，例如以鸟瞰图的形式呈现出来。如图1右下所示的鸟瞰图中，不同的区块可以表示不同的单个目标。当然，图1只是一个应用场景的示例示意图，只显示了一个双目相机作为输入，但是实际上，本技术的输入可以是任何能输出深度信息的设备。

在此，鸟瞰视图（或鸟瞰图）是本领域常用的技术名词，通常表示从上往下的俯视图。

图2所示的基于立体视觉的目标检测方法200包括：步骤S201，获得从立体深度图像提取的前景深度图像；步骤S202，设置高度阈值，以得到在前景深度图像中高于所述高度阈值的区块；步骤S203，如果得到的区块满足预定单目标条件，则将所述得到的区块检测为单个目标所在的区块；步骤S204，如果得到的区块满足预定多目标条件，则将得到的区块中的多个目标所在的每个更小的区块检测为单个目标所在的区块；步骤S205，如果得到的区块不满足预定单目标条件或预定多目标条件，则改变所述高度阈值，直到确定得到的区块满足所述预定单目标条件或预定多目标条件。

如此，通过基于立体视觉的图像中的前景图像的高度信息，来得到高于某一高度阈值的区块，并通过改变高度阈值一次或多次来得到满足预定单目标条件或预定多目标条件的区块，从而检测到该立体图像中的目标所在的区块。在一个例子中，这种基于前景图像的高度信息和高度阈值的设置和改变来检测目标区块的方式能够很好地检测有高度变化的通常直立的目标、例如行人、车辆、建筑物。

在一个实施例中，所述预定单目标条件可以包括：条件1，得到的区块在鸟瞰视图上的大小小于与要检测的目标相关联的预定大小。

通常，如果已知要检测目标之后，可以通过经验值或通过样本学习来得到与检测的目标相关联的预定大小，例如在目标是人的区块下，可以将预定大小设置为40cm×40cm，该数值40cm是通常的人的肩膀的宽度。当然该示例中仅使用正方形作为与要检测的目标相关联的预定大小，实际上也可以根据目标的鸟瞰视图的形状而采用其他形状、例如长方形、圆形、三角形、多边形等，而形状的大小也是可以根据实际目标的情况来重新设置的。

如此，可以粗略地将前景图像分割为包括目标的区块。如果为了算法简单、节省时间，在该实施例（以下，称为初级验证）中，已经可以得到粗略的目标分割的结果了。

当然，在有些情况下，实际上存在在与要检测的目标相关联的预定大小内的两个或更多目标，例如在目标为人的情况下，两个人可能走的很近，或者两个人的身材娇小，而导致在与要检测的目标相关联的预定大小内实际上存在两个人，则可以通过以下实施例来进一步验证（以下称为高级验证）该预定大小内存在单个目标还是多个目标、以及是否需要进一步改变高度阈值来重新分割区块。

在一个实施例中，所述预定单目标条件还可以包括：条件2，在所述得到的区块中存在方向一致的运动矢量。在此，运动矢量可以包括实际立体空间中的运动矢量或鸟瞰视图上的运动矢量。优选地但非限制，在鸟瞰视图上投影得到鸟瞰视图的运动矢量，来判断其方向的一致性。

如果满足在所述得到的区块中存在方向一致的运动矢量，则可以进一步判断该区块中存在单个目标的可能性增加，因为通常单个目标的运动方向是统一的。当然，在此，为了提前获得区块中的运动矢量信息，那么可能需要获得连续多帧的立体图像的信息。

如此，可以在小于与要检测的目标相关联的预定大小的所述得到的区块中存在方向一致的运动矢量的区块下，进一步确定该区块中存在单个目标，而非多个目标。

但是，也有可能在目标为人的情况下，两人走的很近（位于一个要检测的目标相关联的预定大小内）、且运动的方向一致（例如，两人都朝一个方向走动），则利用该实施例也可能将实际上存在两人的区块检测为单个目标的区块，因此，以下实施例可以改善这一情况。

在一个实施例中，所述预定单目标条件还可以包括：条件3，所述得到的区块的高度分布特征匹配要检测的目标的预定高度分布特征。在此，通过将立体的前景图像投影到鸟瞰视图上也可以得到以每个像素点的高度为取值的鸟瞰视图，因此，优选地，在这之前，可以将立体的前景图像和运动矢量都投影到鸟瞰视图上，以得到两个鸟瞰视图（结合图3A-3C所述）。

例如，在要检测的目标是人的情况下，所述预定高度分布特征可以是人的头肩模型的高度分布特征，且可以以所述得到的区块中与所述运动矢量的方向垂直的中线为所述头肩模型的肩所在的位置。如此，如果在得到的区块中的高度分布特征匹配例如人的头肩高度分布特征，则通常可以确定该区块中仅存在一个人。如此，利用该实施例可以进一步准确地检测到单个目标所在的区块。另外，该实施例也可以在例如目标是静止的情况下（即，不需要利用运动矢量信息）来准确地检测单个目标所在的区块（因为其利用了与运动矢量无关的高度分布特征），也就是说，可以仅将区块经过条件1和条件3的验证而不经过条件2的验证。

注意，上述条件1、条件2、条件3可以被任意组合来形成上述预定单目标条件，而不要求同时满足这三个条件。

如果在此该区块不满足上述预定单目标条件，则在一个实施例中，可以改变高度阈值，来重新得到新的区块，并将该新的区块经过单目标条件的重新验证，直到该区块同时满足单目标条件为止。

但是，由于在计算条件3（计算区块的高度分布特征和预定高度分布特征之间的匹配）时需要耗费一些计算时间和成本，因此，以下实施例可以避免这样的重新验证来节省这种计算时间和成本。

如方法200中的步骤S204所述，如果得到的区块满足预定多目标条件，则将得到的区块中的多个目标所在的每个更小的区块检测为单个目标所在的区块。因此，在一个实施例中，所述预定多目标条件可以包括：得到的区块在鸟瞰视图上的大小小于与要检测的目标相关联的预定大小，且在所述得到的区块中存在不同方向的运动矢量。如此，所述将得到的区块中的多个目标所在的每个更小的区块检测为单个目标所在的区块的步骤可以包括将每个方向的运动矢量所在的更小的区块检测为单个目标所在的区块。

在此，由于得到的区块在鸟瞰视图上的大小已经小于与要检测的目标相关联的预定大小，因此通常可以认为该区块中存在少量目标，从而在确定该区块中存在不同方向的运动矢量时，可以认为这些不同方向运动矢量来自于不同的目标。例如两个人的行走的运动矢量通常是不同的，因此，可以利用该实施例就检测到该区块中存在的不同运动矢量所属的不同目标。利用该实施例可以节省重新进行单目标条件的验证和各种相关计算导致的时间和成本，并且能够获得较为准确的目标检测结果。

在另一实施例中，所述预定多目标条件可以包括：改变了高度阈值后的高度阈值比改变前的高度阈值高，且改变了高度阈值后得到的区块的数量比在改变前得到的区块的数量更多，其中，所述改变前得到的区块在鸟瞰视图上的大小已经小于与要检测的目标相关联的预定大小。因此，所述将得到的区块中的多个目标所在的每个更小的区块检测为单个目标所在的区块的步骤可以包括：将改变了高度阈值后得到的区块检测为单个目标所在的区块。

原理同前，即由于得到的区块在鸟瞰视图上的大小已经小于与要检测的目标相关联的预定大小，因此通常可以认为该区块中存在少量目标，如果进一步改变高度阈值来得到重新分割的区块，则不一定要将该重新分割的区块重新经过上述单目标条件的验证，而是可以直接在改变高度阈值之后的区块的数量大于改变之前的区块的数量时，判断该区块中存在与改变后的区块的数量类似的目标的数量，同时检测改变后的得到的多个更小的区块为各个目标所在的区块。例如，改变高度阈值之前的区块为1个，而改变高度阈值之后（例如增加高度阈值），得到高于改变后的高度阈值的区块的数量为2个，则可以认为改变前的区块中应该存在2个目标，因为通常彼此靠近的两个目标在越高的部位越不会重叠。

如此，利用该实施例，可以节省重新进行条件1、2、3的判断和各种相关计算导致的时间和成本，并且能够获得较为准确的目标检测结果。

在一个实施例中，确定得到的区块中的运动矢量的方向是一致还是不同可以通过将得到的区块中的运动矢量进行聚类来实现。聚类算法是本领域的常用算法，其目的在于将相同或相近似的东西划分为一个类，在此不具体阐述。

在一个实施例中，改变所述高度阈值的步骤可以包括如下中的至少一种：递增所述高度阈值；递减所述高度阈值；随机改变所述高度阈值等。在优选实施例中，可以采用递增所述高度阈值的方式，这样可以使得高于高度阈值的区块逐渐变小，从而有效地经过上述方法中的各种验证，来实现较为准确而不容易遗漏的目标检测。

因此，利用根据本发明的各个实施例，可以不同准确程度地进行目标检测，并优选地在节省计算时间和成本的同时高效且准确地得到目标检测的结果。

图3A示出了根据本发明的另一实施例的基于立体视觉的目标检测方法的流程图。图3B示出了示例前景图像。图3C示出了示例鸟瞰视图。

图3A所示的示例流程图仅是示例，而非限制本发明为图3A所示的具体步骤。在图3A所示的例子中，假设输入的是连续多帧的深度图像。

如图3A所示，在步骤S11，获取连续多帧的深度图像。

在步骤S12，获得前景图像和前景像素的运动矢量。在此，获得前景的方法可以采用任何现存的用于检测图像运动像素或者变化像素的方法。通常，当前帧与预先建立的静态背景模型相减得到前景图像。在此，步骤S12之前可以对于前景图像进行可选的预处理，预处理可以包括对前景图像进行形态学操作等。同时，将相邻帧前景图像相减得到前景像素的运动矢量。图3B也示出了示例的前景和带有运动矢量的前景的示意图。其中，黑色部分代表的是前景像素，而箭头代表前景像素的运动矢量。

回到图3A，在步骤S13，将前景图像和运动矢量投影到鸟瞰视图。在此，投影到鸟瞰视图上可以简化后续步骤。具体地，例如，首先，获得前景像素在世界坐标系里的位置，然后在统一的世界坐标系中，通过竖直bin对三维空间进行划分；然后，在每个竖直的bin内统计其包含的前景点的数目或者统计其内前景点的最高的值；就可以在鸟瞰图上进行统计分析。这种方式目前已经是共知技术，这里不再详述。对于前景运动信息，也可以投影到鸟瞰视图上，计算过程如下，例如，依次枚举每个竖直的bin，统计其内最大高度值点的运动矢量值，将世界坐标投影到平面，得到鸟瞰视图的运动矢量二维直方图。当然，上述获得前景图像和运动矢量的鸟瞰视图都仅是示例，而非限制，例如也可以不采用前景点的最高点的位置和运动矢量值，而采用前景点的中点的位置和运动矢量值，以及其他方式。然后，输出这三个二维直方图、即前景图像的外观模型的二维直方图和高度模型的二维直方图，以及运动模型的二维直方图。图3C示出了示例的鸟瞰视图的示意图，其中，左边的图表示了鸟瞰视图的高度模型的二维直方图，右边带有箭头的图示出鸟瞰视图的运动模型的二维直方图。

在步骤S14，基于前景图像的高度信息，在鸟瞰视图上得到高于某一高度阈值的分割的区块。

在步骤S15，可以利用区块的大小、运动矢量和/或高度分布特征来对基于该高度阈值的分割的区块进行级联式的验证（例如初级验证和高级验证、或按另一种划分方式的单目标验证和多目标验证），在该过程中，如果区块未通过级联式的验证，则可能需要改变高度阈值，来得到重新分割的区块来得到经过级联式的验证的目标检测结果。

在步骤S16，在鸟瞰视图上，输出最终的分割的区块结果（包括单目标验证结果和多目标验证结果）作为目标检测的结果。

以上虽然描述了具体的详细流程图，但是本领域技术人员可知，有些步骤不是必须的，例如步骤S11-S13的处理，另外，这些步骤的顺序也可以不同于图3A所示的顺序，例如获得运动矢量的步骤可以在步骤S14-S15之间，并且可以根据前景图像自身的特点（例如可能是静止的），可能也不需要用到运动矢量，因此不需要获得运动矢量的步骤等等。也就是说，图3A仅是示出了一种具体的甚至优选的实施方式以供本领域技术人员参考并能够基于本发明的原理而进行修改、替换等，但并非限制。

图4A示出在图3A的方法中的基于高度信息的区块的分割（步骤S14）的示例的具体流程图；图4B示出了基于高度信息的区块的分割的原理图。

如图4A所示，在步骤S141，设置高度阈值，这可以是初始的高度阈值，且在改变了高度阈值的区块下，是改变后的高度阈值。在步骤S142，利用该高度阈值将鸟瞰视图二值化。在步骤S143，在二值化的图像上进行分割处理，其中，S143可以采用任何现存的基于空间信息的分割方法，例如一个实施例是采用联通与分析（Canonical CorrelationAnalysis，CCA）。

在此，二值化的处理即是得到高于高度阈值的区块。

参考图4B，下图示出了示例的高度分布特征，而横直线代表高度阈值，则可以看到当高度阈值较低时（例如图4B中的最低处），则在该高度分布特征中得到的高于高度阈值的区块如左上图的圆圈所示，是连在一起的区块，而该区块中可能存在三个单个目标。而当高度阈值逐渐增加时，可以想象，连在一起的区块可能会逐渐变为三个单个目标，从而能准确地判断目标所在的正确区块。因此改变高度阈值的终止条件、即验证通过的条件是需要考虑的。以下将详细描述根据本发明的各个实施例的单目标验证和多目标验证（或者在另一划分方式下的初级验证和高级验证）的具体示例流程。

在初级验证S151中，将高于高度阈值的分割的区块的形状（或大小）与预设的目标在鸟瞰视图上的形状（或大小）进行对比，如果前者大于后者，则说明分割区块内可能有多个目标，则继续改变高度阈值（步骤S152），来重新分割直到得到小于预设的形状或大小的区块。

接下来，如果高于高度阈值的分割的区块的形状（或大小）小于预设的目标在鸟瞰视图上的形状（或大小），则在步骤S153，获得分割的区块内的运动矢量。当然，实际上如果高于高度阈值的分割的区块的形状（或大小）小于预设的目标在鸟瞰视图上的形状（或大小），已经可以粗略确定该区块内有一个目标了，但是为了避免重叠在一起彼此靠近的两个或更多目标，则可以进行步骤S153以后的步骤。

在步骤S154，将这些运动矢量聚类。在此，聚类的方式是本领域公知的技术，在此不赘述。

在步骤S155，判断运动矢量聚类后的类的个数是否=1。如果等于1，则可以认为区块内的运动矢量的方向基本一致。此时，在一个实施例中，已经可以粗略确定该区块中能够存在一个目标了，但是为了避免重叠在一起彼此靠近的运动方向基板一致的两个或更多目标，可以在步骤S156，基于区块内的高度分布特征来确定该区块内是否只有一个目标。具体地，在步骤S156，计算该区块内的高度分布特征与预定的与要检测的目标相关的高度分布特征之间的置信度。在此，置信度可以表示该区块内的高度分布特征与预定的高度分布特征之间的匹配程度。如果在步骤S157，置信度大于预定置信度阈值，则可以认为该区块内含有一个目标，因此在步骤S16，可以确定该区块是目标所在的区块。而如果在步骤S157，确定置信度不大于预定置信度阈值，则表示该区块内的高度分布特征不匹配要检测的单个目标的预定高度分布特征，则可以认为该区块内存在多于一个目标。例如，两个人彼此走的很近，则该区块内的高度分布特征一般不会匹配仅有单个目标的预定高度分布特征。因此，如果在步骤S157，确定置信度不大于预定置信度阈值，则在步骤S158，可以进一步改变高度阈值来重新得到高于高度阈值的分割的区块。在此，在重新得到高于高度阈值的分割的区块以后，也可以重新经过步骤S151-S157的重新验证，这样可以得到更为准确的检测结果。当然为了减少计算量，也可以在步骤S158之后直接经过步骤S159的多目标条件，且在步骤S159，如果改变高度阈值之后重新分割的区块的数量比改变前的数量更多，这表示之前被混淆在一起的区块随着高度阈值的改变（通常是增加）而浮现了更多的区块，如之前的图4B所示，则在步骤S16，检测改变高度阈值之后重新分割的区块，如此可以节省计算量地检测到目标所在的区块。

图5仅示出了根据本发明的一个实施例的基于高度信息的目标检测的方法的一个示例的流程图，但这并不限制本发明为必需经过图5所示的具体的每个步骤，有时为了节省计算量或更准确地检测等而省略某些步骤或增加某些步骤，这都在本发明的范围之内。

下面通过示意图来更形象地描述上述示例的流程图是如何进行目标检测的。

例如，如图6A所示，在步骤S151的初级验证之前，高于某一预定高度阈值的区块的大小可能大于预定的区块大小，因此，在初级验证之后，继续升高预定高度阈值（步骤S152）来重新得到更小的区块，直到分割的区块小于预定的区块大小。

如图6B所示，在步骤S153，获得区块内的运动矢量（如图6B的右图所示）。

如图6C所示，在步骤S154，对这些运动矢量进行聚类，如图6C的左二图所示，示出了两个不同方向聚类的运动矢量，因此在步骤S155处判断聚类大于1而非=1。

从而在步骤S16，可以直接将两类运动矢量所在的区块检测为目标所在的区块（如图6C的右二图）。从而在实际立体图像中，可以检测到例如如图6C的最右图的目标检测结果。

步骤S156是为了在运动矢量的聚类的数量为1个的情况下，进一步通过区块的高度特征分布来确定在该区块内是否仅具有一个目标。示例地但非限制地，如图7A所示，在步骤S156-1，确定该运动矢量所指示的运动方向，然后，在步骤S156-2，确定在区块中的与该运动方向垂直的中线。在此，在目标为人的情况下，假设人的运动方向是运动矢量所指示的方向，则人的肩膀一般位于与该运动方向垂直的方向，且人的肩膀一般处在区块正中的位置，因此以区块中的与该运动方向垂直的中线的位置作为假设的人的肩的位置。在步骤S156-3，将分割的区块的高度分布特征与以上述中线为肩的人的头肩模型的高度分布特征相比较，并计算两者之间的匹配程度、例如置信度。在步骤S156-4，将该计算的匹配程度、例如置信度（conf_score）输出。

具体地，如下公式1给出了头肩模型的数学表达式。

其中，Height表示分割块的高度最大值（即人的身高），Height右边的表达式是一个椭圆的2D高斯分布函数，其中，x、y表示深度图像中的宽和深度，ρ表示人的肩的长轴与短轴的比值，这是可以通过经验来得到的常数，而σ²表示该2D高斯分布函数的方差，也是常数。

以下公式2给出了置信度的计算公式。

其中，M和N代表分割的区块的长度和宽度，blob(x,y)代表区块内坐标为(x,y)处的高度值。需要注意的是，x轴应该与区块的长轴重合。

当然上述头肩模型仅是在目标为人的情况下的一种示例而非限制的模型，在要检测的目标为其他物体的情况下，可以采用与该实际目标类似的模型。本领域技术人员根据图7A所示的具体的步骤，可以构思在目标为其他物体的情况下，如何计算区块的高度分布特征和预定高度分布特征之间的置信度的方式。

更形象地，如图7B所示，如图7B的左二图所示，假设区块内的运动矢量的聚类的数量为1个，即图中所示的朝上的方向。在这种情况下，计算区块的高度分布特征和以与运动矢量的方向垂直的方向上的中线为肩的预定高度分布特征之间的置信度，如图7B的右二图所示。具体地，参见图7B的最右图的上半部，即区块的实际高度分布，而图7B的最右图的下半部即以与运动矢量的方向垂直的方向上的中线为肩的预定高度分布特征，可见，这两者的高度分布特征是相差很大的，因此如此计算的置信度的匹配程度是相对较低的。因此，在该情况下，可以判断在该区块中不仅存在一个目标。从而可以进行改变高度阈值的步骤，计算量大的步骤S152或计算量小的步骤S158。

图8示出了如图5中的步骤S158-S159-S16的实例示意图。

如图8所示，如果在步骤S158的改变高度阈值的步骤之后，得到如图8的左二图所示地，例如升高高度阈值，从而可能得到如图8的右二图所示的高于该升高后的高度阈值的区块的数量变为2个，此时，在步骤S159，确定区块的数量比改变前的区块的数量更多，则可以检测该重新分割的区块为目标所在的区块，如图8的右侧的两个图。

示例地，如图9A所示，输入深度图像。图9B示出了对该深度图像提取前景图像。图9C示出了将前景图像投影在鸟瞰视图上。图9D示出了获得高于预定高度阈值的区块的鸟瞰视图。从图中可见有左上圆圈中区块看上去像是2个目标比较靠近，且右下圆圈中的区块看上去像是三个目标彼此靠近，因此用传统方式很容易将多于一个目标检测为一个目标，但是实际上可能是不准确的。而经过图5所示的逐渐改变高度阈值（例如逐渐增加高度阈值）的示例流程图之后，得到图9E和图9F所示的目标检测结果，即可见右下角的三个目标被逐渐准确地分割出来了。在图9G中，示出了在获得如图9E的鸟瞰视图上的区块的目标检测结果之后，在立体图像上表现出来的目标检测结果，可见立体图像中的各个作为目标的人都被准确地分割出来了。

图10所示的基于立体视觉的目标检测系统1000包括：前景提取装置1001，被配置为获得从立体深度图像提取的前景深度图像；高度阈值设置装置1002，被配置为设置高度阈值，以得到在前景深度图像中高于所述高度阈值的区块；目标检测装置1003，被配置为：如果得到的区块满足预定单目标条件，则将所述得到的区块检测为单个目标所在的区块；如果得到的区块满足预定多目标条件，则将得到的区块中的多个目标所在的每个更小的区块检测为单个目标所在的区块；高度阈值改变装置1004，被配置为如果得到的区块不满足预定单目标条件或预定多目标条件，则改变所述高度阈值，直到所述目标检测装置确定得到的区块满足所述预定单目标条件或预定多目标条件。

如前所述，如果得到的区块满足预定多目标条件，则将得到的区块中的多个目标所在的每个更小的区块检测为单个目标所在的区块。因此，在一个实施例中，所述预定多目标条件可以包括：得到的区块在鸟瞰视图上的大小小于与要检测的目标相关联的预定大小，且在所述得到的区块中存在不同方向的运动矢量。如此，所述将得到的区块中的多个目标所在的每个更小的区块检测为单个目标所在的区块的步骤可以包括将每个方向的运动矢量所在的更小的区块检测为单个目标所在的区块。

在一个实施例中，改变所述高度阈值的高度阈值改变装置1004可以被配置为进行如下中的至少一种：递增所述高度阈值；递减所述高度阈值；或随机改变所述高度阈值等。在优选实施例中，可以采用递增所述高度阈值的方式，这样可以使得高于高度阈值的区块逐渐变小，从而有效地经过上述方法中的各种验证，来实现较为准确而不容易遗漏的目标检测。

图11包括深度传感器U10、网络链接设备U19、处理设备（CPU）U20、存储设备U21、显示设备U22和根据本发明的另一实施例的目标检测系统。该目标检测系统包括：连续多帧深度图像获取单元U11，被配置为获取连续的多帧深度图像；前景和运动矢量提取单元U12，被配置为从连续的多帧深度图像提取前景图像和其运动矢量；鸟瞰视图生成单元U13，被配置为生成前景图像和运动矢量的鸟瞰视图；基于高度特性的区块分割单元U14，被配置为基于前景图像的高度特性来得到高于预定高度阈值的区块；验证单元U15，被配置为对区块进行诸如单目标验证或多目标验证的验证；目标检测结果输出单元U16，被配置为输出目标检测结果。且在未经过验证单元U15的验证之后，可以改变高度阈值使之重新经过基于高度特性的区块分割单元U14。

当然，图11所示的系统仅是示例，而非限制，某些单元可以根据实际需要而减少或增加。

注意，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

本公开中的步骤流程图以及以上方法描述仅作为例示性的例子并且不意图要求或暗示必须按照给出的顺序进行各个实施例的步骤。如本领域技术人员将认识到的，可以按任意顺序进行以上实施例中的步骤的顺序。诸如“其后”、“然后”、“接下来”等等的词语不意图限制步骤的顺序；这些词语仅用于引导读者通读这些方法的描述。此外，例如使用冠词“一个”、“一”或者“该”对于单数的要素的任何引用不被解释为将该要素限制为单数。

以上所述的方法的各个操作可以通过能够进行相应的功能的任何适当的手段而进行。该手段可以包括各种硬件和/或软件组件和/或模块，包括但不限于电路、专用集成电路（ASIC）或处理器。

可以利用被设计用于进行在此所述的功能的通用处理器、数字信号处理器（DSP）、ASIC、场可编程门阵列信号（FPGA）或其他可编程逻辑器件（PLD）、离散门或晶体管逻辑、离散的硬件组件或者其任意组合而实现或进行所述的各个例示的逻辑块、模块和电路。通用处理器可以是微处理器，但是作为替换，该处理器可以是任何商业上可获得的处理器、控制器、微控制器或状态机。处理器还可以实现为计算设备的组合，例如DSP和微处理器的组合，多个微处理器、与DSP核协作的一个或多个微处理器或任何其他这样的配置。

结合本公开描述的方法或算法的步骤可以直接嵌入在硬件中、处理器执行的软件模块中或者这两种的组合中。软件模块可以存在于任何形式的有形存储介质中。可以使用的存储介质的一些例子包括随机存取存储器（RAM）、只读存储器（ROM）、快闪存储器、EPROM存储器、EEPROM存储器、寄存器、硬碟、可移动碟、CD-ROM等。存储介质可以耦接到处理器以便该处理器可以从该存储介质读取信息以及向该存储介质写信息。在替换方式中，存储介质可以与处理器是整体的。软件模块可以是单个指令或者许多指令，并且可以分布在几个不同的代码段上、不同的程序之间以及跨过多个存储介质。

在此公开的方法包括用于实现所述的方法的一个或多个动作。方法和/或动作可以彼此互换而不脱离权利要求的范围。换句话说，除非指定了动作的具体顺序，否则可以修改具体动作的顺序和/或使用而不脱离权利要求的范围。

所述的功能可以按硬件、软件、固件或其任意组合而实现。如果以软件实现，功能可以作为一个或多个指令存储在切实的计算机可读介质上。存储介质可以是可以由计算机访问的任何可用的切实介质。通过例子而不是限制，这样的计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光碟存储、磁碟存储或其他磁存储器件或者可以用于携带或存储指令或数据结构形式的期望的程序代码并且可以由计算机访问的任何其他切实介质。如在此使用的，碟（disk）和盘（disc）包括紧凑盘（CD）、激光盘、光盘、数字通用盘（DVD）、软碟和蓝光盘，其中碟通常磁地再现数据，而盘利用激光光学地再现数据。

因此，计算机程序产品可以进行在此给出的操作。例如，这样的计算机程序产品可以是具有有形存储（和/或编码）在其上的指令的计算机可读的有形介质，该指令可由一个或多个处理器执行以进行在此所述的操作。计算机程序产品可以包括包装的材料。

软件或指令也可以通过传输介质而传输。例如，可以使用诸如同轴电缆、光纤光缆、双绞线、数字订户线（DSL）或诸如红外、无线电或微波的无线技术的传输介质从网站、服务器或者其他远程源传输软件。

此外，用于进行在此所述的方法和技术的模块和/或其他适当的手段可以在适当时由用户终端和/或基站下载和/或其他方式获得。例如，这样的设备可以耦接到服务器以促进用于进行在此所述的方法的手段的传送。或者，在此所述的各种方法可以经由存储部件（例如RAM、ROM、诸如CD或软碟等的物理存储介质）提供，以便用户终端和/或基站可以在耦接到该设备或者向该设备提供存储部件时获得各种方法。此外，可以利用用于将在此所述的方法和技术提供给设备的任何其他适当的技术。

其他例子和实现方式在本公开和所附权利要求的范围和精神内。例如，由于软件的本质，以上所述的功能可以使用由处理器、硬件、固件、硬连线或这些的任意的组合执行的软件实现。实现功能的特征也可以物理地位于各个位置，包括被分发以便功能的部分在不同的物理位置处实现。而且，如在此使用的，包括在权利要求中使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC（即A和B和C）。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于立体视觉的目标检测方法，包括：

获得从立体深度图像提取的前景深度图像；

设置高度阈值，以得到在前景深度图像中高于所述高度阈值的区块；

如果得到的区块满足预定单目标条件，则将所述得到的区块检测为单个目标所在的区块；

如果得到的区块满足预定多目标条件，则将得到的区块中的多个目标所在的每个更小的区块检测为单个目标所在的区块，其中，所述预定多目标条件包括：

改变了高度阈值后的高度阈值比改变前的高度阈值高，且改变了高度阈值后得到的区块的数量比在改变前得到的区块的数量更多，其中，所述改变前得到的区块在鸟瞰视图上的大小已经小于与要检测的目标相关联的预定大小，

其中，所述将得到的区块中的多个目标所在的每个更小的区块检测为单个目标所在的区块的步骤包括：

将改变了高度阈值后得到的区块检测为单个目标所在的区块；

如果得到的区块不满足预定单目标条件或预定多目标条件，则改变所述高度阈值，直到确定得到的区块满足所述预定单目标条件或预定多目标条件。

2.根据权利要求1所述的方法，其中，所述预定单目标条件包括：

得到的区块在鸟瞰视图上的大小小于与要检测的目标相关联的预定大小。

3.根据权利要求2所述的方法，其中，所述预定单目标条件还包括：

在所述得到的区块中存在方向一致的运动矢量。

4.根据权利要求3所述的方法，其中，所述预定单目标条件还包括：

所述得到的区块的高度分布特征匹配要检测的目标的预定高度分布特征。

5.根据权利要求4所述的方法，其中，在要检测的目标是人的情况下，所述预定高度分布特征是人的头肩模型的高度分布特征，且以所述得到的区块中与所述运动矢量的方向垂直的中线为所述头肩模型的肩所在的位置。

6.根据权利要求1所述的方法，其中，所述预定多目标条件包括：

得到的区块在鸟瞰视图上的大小小于与要检测的目标相关联的预定大小，且在所述得到的区块中存在不同方向的运动矢量，

将每个方向的运动矢量所在的更小的区块检测为单个目标所在的区块。

7.根据权利要求3或6所述的方法，其中，确定得到的区块中的运动矢量的方向是一致还是不同通过将得到的区块中的运动矢量进行聚类来实现。

8.根据权利要求1所述的方法，其中，改变所述高度阈值的步骤包括如下中的至少一种：

递增所述高度阈值；

递减所述高度阈值；

随机改变所述高度阈值。

9.一种基于立体视觉的目标检测系统，包括：

前景提取装置，被配置为获得从立体深度图像提取的前景深度图像；

高度阈值设置装置，被配置为设置高度阈值，以得到在前景深度图像中高于所述高度阈值的区块；

目标检测装置，被配置为：如果得到的区块满足预定单目标条件，则将所述得到的区块检测为单个目标所在的区块；如果得到的区块满足预定多目标条件，则将得到的区块中的多个目标所在的每个更小的区块检测为单个目标所在的区块，其中，所述预定多目标条件包括：

其中，所述将得到的区块中的多个目标所在的每个更小的区块检测为单个目标所在的区块包括：

高度阈值改变装置，被配置为如果得到的区块不满足预定单目标条件或预定多目标条件，则改变所述高度阈值，直到所述目标检测装置确定得到的区块满足所述预定单目标条件或预定多目标条件。