CN105096292B

CN105096292B - 对象数量估计方法和装置

Info

Publication number: CN105096292B
Application number: CN201410180851.9A
Authority: CN
Inventors: 王千; 范圣印; 王鑫; 乔刚; 诸加丹
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2014-04-30
Filing date: 2014-04-30
Publication date: 2018-02-02
Anticipated expiration: 2034-04-30
Also published as: CN105096292A

Abstract

提供了对象数量估计方法和系统。生成包括对象在内的目标场景的深度图，并根据该深度图生成相应的投影表面积图。在该深度图上估计对象的遮挡度。根据估计的遮挡度，为相应的投影表面积图上的前景像素分配第一权重。基于为投影表面积图上的前景像素所分配的第一权重，利用预先建立的权重与对象数量之间的映射模型，估计目标场景中的对象的数量。

Description

对象数量估计方法和装置

技术领域

本申请涉及对象数量估计方法和装置，更具体地，涉及基于立体视觉估计场景中的对象的数量的方法和装置。

背景技术

对某一场景中的对象、比如过往行人进行人数估计或密度估计在公共安全领域以及经济消费领域有着重要的现实意义。比如，当某一公共场所中的人数突然发生变化时，往往意味着某些突发事件的发生；而对于大型的百货商店以及超市，若能掌握人员的流动、集中与分布情况，便可更好地规划商店超市的铺位布局，更加合理地安排店铺的销售计划。在欧美的一些发达国家，已经有许多公司开展了这方面的专门研究，并将其称为基于视频的商业智能(Business Intelligence，BI)分析。目前，在视频分析和智能监控领域，也已开展了这类的课题研究工作。总体来说，现有的用于人数统计和密度估计的方法可以大致划分为以下4大类：

(1)基于映射的方法：这种方法通过训练回归的方式，建立起每帧图像前景像素或者前景像素上的某些特征(如纹理特征，边缘特征等)与场景中的总人数或人群密度之间的统计映射关系。当有新视频图像到来时，首先提取前景图像以及某些前景图像的特征，然后将提取的特征输入到已预先建立的统计映射关系中，从而获得场景中的总人数或人群密度。这种方法的优点是它特别适合场景中人数较多、人员密集的情况(特别是基于纹理特征的映射，能给出较为准确的估计结果)，并且能满足实时性的需求。而其缺点是：统计映射关系的建立需要足够的训练样本，且估计精度易受到场景中阴影、人与人、人与物之间的遮挡以及相机透视畸变等因素的影响。

(2)基于检测和跟踪的方法：这种方法可以通过现有的任何一种对象检测跟踪算法来实现，其通过将场景中的对象检测出来并加以跟踪，从而统计出场景中的对象数量。这种方法的优点是：在场景中人群密度稀疏或中等的情况下，较之基于映射的方法，该方法能够给出更加准确的估计结果。然而，对于高密度拥挤的情况，这种方法经常失效。这主要是由于人与人之间的严重遮挡致使检测和跟踪算法失效，同时这种方法在人多的情况下也难以做到实时，因为检测跟踪是一项费时的操作，它们的复杂度以及计算开销随着人数的增加而显著上升。

(3)基于可见图像特征轨迹聚类的方法：总的来说，这种方法通过在若干帧内，连续识别和跟踪一些可见的局部图像特征，形成这些可见局部特征的轨迹来统计人数。然后通过分析这些局部特征所形成轨迹的空域相邻性和时域相似性来对这些局部特征点进行聚类，最后将聚类的结果作为人数统计的结果。然而对于高密度拥挤的情况，这种方法也常常失效。

(4)基于彩色信息和深度信息的方法：从原理上说，这种方法与基于检测和跟踪的方法类似。但在这种方法中，用于捕获图像的相机一般要求安装于建筑物的室内天花板上，相机垂直于地面拍摄，而深度信息则用于建立人的头肩模型，作为检测跟踪的特征。这种部署相机方法的缺点是：相机的视场范围变小；同时，由于只可以拍摄到人的头顶，因此人的面部信息将丢失。与传统相机部署的方法(倾斜部署)相比，覆盖同样面积的场地，需要的相机数量更多，从而造成硬件成本的增加。

由此可见，现有的人数统计和密度估计的方法在中低人群密度的情况下可以给出较为准确的结果，然而在高人群密度的情况下，结果却还有待提高。这主要是高人群密度下人与人之间的相互遮挡以及传统单目相机缺乏深度信息等所导致的。

在高人群度情况下，基于映射的方法所给出结果的平均精度较高，因此它成为了实现高密度下人数统计和密度估计的主流方法。然而，该方法利用回归方程来拟合人数与图像中代表人的像素数目之间的关系，但是这种回归关系是在较为理想(人与人的相互遮挡不严重)的情况下才有较好的适应性，它本身还容易受到摄像机成像固有的透视投影变换的影响，如图1所示。

图1(a)和(b)分别对应同一个人在同一个场景中离相机很近和很远时，他在图像中的像素的个数。当很近时，他的像素数目为374个，而较远时只有158个。因此，随着人在场景中移动，与相机的距离发生变化的时候，他所拥有的图像像素数目也将变化，这样以来就会影响基于映射方法用来统计人数或人的密度的准确度。

发明内容

考虑到以上问题，本申请提出了基于立体视觉估计场景中的对象的数量的方法和装置。

根据本申请的一个方面，提供了对象数量估计方法，包括：生成包括对象在内的目标场景的深度图，并根据该深度图生成相应的投影表面积图；在该深度图上估计对象的遮挡度；根据估计的遮挡度，为相应的投影表面积图上的前景像素分配第一权重；基于为投影表面积图上的前景像素所分配的第一权重，利用预先建立的权重与对象数量之间的映射模型，估计目标场景中的对象的数量。

可选地，该方法还可以还包括：根据该深度图生成相应的投影高度图。在该深度图上估计对象的遮挡度的步骤可以包括：通过从该投影高度图到该深度图的反向投影操作，在该深度图上确定对象的外接框；以及根据该外接框内的像素深度值的分布，估计所述对象的遮挡度。

可选地，通过从该投影高度图到该深度图的反向投影操作在该深度图上确定对象的外接框的步骤可以包括：在该投影高度图上获得多个局部极值点及相应的深度信息；将所述局部极值点反向投影到相应的深度图上；根据所述局部极值点的深度信息以及对象的属性，确定所述对象在所述深度图上的外接框。

可选地，根据该外接框内的像素深度值的分布估计所述对象的遮挡度的步骤可以包括：将所述外接框在垂直方向上划分为多个单元；统计每个单元中的目标像素的数量，所述目标像素的深度值与所述局部极值点的深度值之差在预定范围内；基于每个单元中的所述目标像素的数量与每个单元中的像素的总数的比例来估计所述遮挡度。

可选地，在根据该深度图生成相应的投影表面积图时，可以根据对象的深度信息将所述对象在所述投影表面积图上的像素数量归一化。

可选地，该方法还可以包括：判断场景中的对象相对于相机的朝向；基于对象的朝向为相应的投影表面积图上的前景像素分配第二权重。其中基于为投影表面积图上的前景像素所分配的第一权重，利用预先建立的权重与对象数量之间的映射模型，估计目标场景中的对象的数量的步骤还可以包括：基于为投影表面积图上的每个前景像素分配的第一权重和第二权重，确定每个像素的最终权重；以及利用投影表面积图上的每个像素的最终权重，从所述映射模型估计所述对象的数量。

可选地，该方法还可以包括：根据该深度图生成相应的投影灰度图。其中，可以通过在该投影灰度图上计算每个像素的光流场方向来判断对象的朝向。

可选地，当像素的光流场方向为0度或180度时，该像素的第二权重的值可以是最大；当像素的光流场方向为90度或270度时，该像素的第二权重的值可以是最小。

可选地，基于为投影表面积图上的每个像素分配的第一权重和第二权重确定每个像素的最终权重的步骤可以包括：计算该像素的第一权重和第二权重的加权和，作为该像素的最终权重。

根据本发明的另一方面，提供了对象数量估计系统，包括：生成部件，配置为生成包括对象在内的目标场景的深度图，并根据该深度图生成相应的投影表面积图；遮挡度估计部件，配置为在该生成部件生成的深度图上估计对象的遮挡度；分配部件，配置为根据该遮挡度估计部件估计的遮挡度，为相应的投影表面积图上的前景像素分配第一权重；数量估计部件，配置为基于该分配部件为投影表面积图上的前景像素所分配的第一权重，利用预先建立的权重与对象数量之间的映射模型，估计目标场景中的对象的数量。

根据本发明，考虑了对象的遮挡度对数量估计的影响，因此，即使在场景中对象密集的情况下，也能给出更加准确的估计结果。而且，通过在投影图上进行数量估计，也使得估计结果更准确。

附图说明

图1(a)和(b)是分别示出同一个人在同一个场景中距离相机近和远时图像中的像素数量的示意图；

图2(a)和(b)是示出场景中的对象之间存在遮挡的情况以及相应的投影表面积图的示意图；

图3是示出从目标场景生成投影高度图、投影灰度图和投影表面积图的示意图；

图4是示出根据本发明的一个实施例的对象数量估计方法的流程图；

图5是示出根据本发明的一个实施例的投影高度图上局部极值点的示意图；

图6是示出根据本发明的一个实施例的通过反向投影操作将局部极值点定位到深度图上的示意图；

图7是示出当人完全可见于相机时其相应的投影表面积图的示意图；

图8是示出当人不完全可见于相机时其相应的投影表面积图的示意图；

图9(a)和(b)是示出根据本发明的一个实施例的在人完全可见于相机时在深度图上的外接框和划分的单元的示意图；

图10是示出图9(b)中的划分的单元的深度分布的示意图；

图11(a)和(b)是示出根据本发明的一个实施例的在人不完全可见于相机时在深度图上的外接框和单元的示意图；

图12是示出图11(b)中的划分的单元的深度分布的示意图；

图13(a)和(b)是示出在人相对于相机的方向不同的情况下其在投影表面积图上的图像的示意图；

图14是示出本发明一个实施例的根据光流场方向判断对象相对于相机的朝向的示意图；

图15是示出根据本发明的一个实施例的对象数量估计系统的框图。

具体实施方式

现在将参照附图详细描述本发明的具体实施例，在附图中例示了本发明的例子。尽管将结合具体实施例描述本发明，但是将理解，不意图将本发明限于所公开的具体实施例。应注意，在此所述的方法步骤都可以由任何功能块或功能布置来实现，且任何功能块或功能布置可被实现为物理实体或逻辑实体、或者两者的组合。

传统的在彩色或者灰度图上基于回归映射的对象数量估计方法对相机透视投影变换敏感，归根到底还是在于缺少足够的深度信息，即无法准确知晓人距离相机有多远。然而，如果知道人与相机的深度信息，则这种透视投影带来的影响可以通过获得的深度信息来加以校正。通俗地说就是，人的图像大小能获得一定的归一化，从而使得其与相机的远近无关。

一般说来，当深度信息的噪声不大时且人的相互遮挡不严重时，每个人在投影图(更具体地，这里的投影图是指投影表面积图)上的大小是相似的，每个人在投影图中的像素个数是相近的，如图2所示。在图2中，标号为2、3、5的人没有被其它人遮挡到，他们在投影表面积图中有着相似的大小。因为根据投影表面积图的生成过程，人在投影表面积图上的像素数目根据深度信息归一化了，从而使得人在投影表面积图上的像的大小与人到相机的距离无关。

考虑到此，本发明提出在投影表面积图上进行对象数量的估计。

在估计目标场景中的对象的数量时，一个需要考虑的因素是对象的遮挡度，即对象之间相互遮挡的程度，这可以通过对象相对于相机的可见性的来衡量。如上所述，当直接在彩色或灰度图上基于前景像素的诸如数量的特征来估计对象数量时，由于对象与对象之间的相互遮挡，会导致被遮挡的对象的相应像素数量减少。

例如，在图2中，除了标号为2、3、5的人外，其余人都不同程度地被他人遮住了，如标号为6的人。图2(b)对应于图2(a)的投影表面积图，从该图中可以看出，较之没有被遮挡住的人，被遮挡住的人在投影表面积图下的像的面积有所减少。而这种减少又是随机的，有悖于事先建立投影图上人的像素个数与人数间的回归映射关系。

因此，为了补偿投影图下被遮挡住的人的面积的减小，本发明提出根据对象的遮挡程度，为投影表面积图下的前景像素赋予不同的权重。这里通过一个简单的例子加以说明。假设在没被遮挡的情况下，平均每个人在投影表面积图下占100个像素；但是由于遮挡，某个人在投影表面积图像上只有50个像素。这时，如果用50/100进行估计，则将得到0.5个人，这显然是不正确的。但是，如果可以通过确定该人的遮挡程度，为他的50个像素赋予2倍的权重，那么将得到更准确的结果，即50*2/100＝1人。

由此，根据本发明，提出了基于立体视觉的对象数量估计方法，其在深度图上估计对象的遮挡度，根据估计的遮挡度，为相应的投影表面积图上的前景像素分配权重，并根据该权重和预先建立的权重与对象数量之间的映射模型来估计目标场景中的对象的数量。由于此方法考虑了对象的遮挡度对数量估计的影响，因此，即使在场景中对象密集的情况下，也能给出更加准确的估计结果。而且，由于在投影图上对象的像素的个数与对象数量之间存在较好的回归关系，也使得估计结果更准确。

在详细描述本申请的具体实施例之前，首先简要介绍在以下描述中可能涉及的本领域中常用的三种视图：投影高度图、投影灰度图、投影表面积图，它们的生成过程如图3所示。具体地，从双目摄像机获取场景的颜色图和深度图后，首先通过背景减除法提取前景像素，然后把提取到的前景像素投影到三维世界坐标系中，并且将世界坐标系沿垂直于XOZ平面的方向分成等底面积的小立方体，称之为BIN,然后基于BIN，生成这三种图：

投影高度图：统计落入每个BIN中的最高点的高度，反映在图上为：高度越高，亮度越亮；

投影灰度图：保存高度图中每个最高点的灰度，可以近似的看成是从上往下观察人的外观灰度；

投影表面积图：保存的是落入每个BIN中的像素点的个数，反映在图上为：点数越多，亮度越亮。

有关投影视图的更多细节参见T.Darrel于2001年的论文“Plan-view trajectoryestimation with dense stereo background model”。

图4示出了根据本发明的一个实施例的对象数量估计方法。如图3所示，该方法包括以下步骤：S401，生成包括对象在内的目标场景的深度图，并根据该深度图生成相应的投影表面积图；S402，在该深度图上估计对象的遮挡度；S403，根据估计的遮挡度，为相应的投影表面积图上的前景像素分配第一权重；以及S404，基于为投影表面积图上的前景像素所分配的第一权重，利用预先建立的权重与对象数量之间的映射模型，估计目标场景中的对象的数量。

首先，需要说明的是，尽管在本申请中采用表述“对象的数量”这样的表述，但是在此所述的“对象的数量”不仅仅指代对象的数目，也可以包括对象的密度等。因为对象的密度通常是单位空间内的对象的数量，因此在某种意义上也可以理解为是对象的数量的一种特殊表示。因此，以下将对象的数目、对象的密度等等统称为“对象的数量”。

另外，尽管以下描述中将以场景中的人作为对象进行描述，但是本领域技术人员很清楚，本申请适用的对象不限于人。

如所述，在步骤S401，生成包括对象在内的目标场景的深度图。例如，可以利用双目相机对包括对象在内的目标场景进行拍摄以生成该目标场景的深度图，并且可以如上所述根据该深度图生成相应的投影表面积图。

在步骤S402，在该深度图上估计对象的遮挡度。在本申请的一个实施例中，例如，还可以根据在步骤S401中生成的深度图而生成相应的投影高度图，以便通过从该投影高度图到该深度图的反向投影操作，在该深度图上确定对象的外接框，以便根据该外接框内的像素深度值的分布，估计所述对象的遮挡度。

具体地，例如，可以在该投影高度图上获得多个局部极值点及相应的深度信息。图5示出了在投影高度图上的局部极值点的示意图。如图5所示，图5的左图表示根据图3所示而生成的投影高度图，右图则将左图以更加形象的方式表示出来。可以将左图表示的投影高度图想象成右图所示的绵延起伏的“山脉”，该山脉包含了一系列的“山峰”和“谷底”。左图中像素点的亮度强度表示该投影的像素点在世界坐标系中的高度。换言之，像素亮度值越大，该像素点在世界坐标系中的位置就越高。而在右图中，黑色的点代表一些位于投影高度图上的局部极值点，这些局部极值点的物理含义是它们对应于人的上半身部位，比如人的头部、肩部等等。另一点需要强调的是，一般情况下，图中局部极值点的个数与场景中的人数不会相等，这是因为每个人一般将对应多个局部极值点。

获得这些局部极值点之后，例如，在一个实施例中，可以从投影高度图获得这些局部极值点的深度信息。然后，可以将这些局部极值点反向投影到原始深度图上，根据所述局部极值点的深度信息以及对象的属性，确定所述对象在深度图上的外接框。这里，反向投影(back projection)是指将点从三维世界坐标系转换到对应二维图像坐标系中的操作。

具体地，根据深度信息，可以知道真实三维世界坐标系与二维图像坐标系之间的转换，因此可以根据该转换找到这些局部极值点在二维深度图像上的点的坐标。从而，根据局部极值点的深度信息以及对象的属性，可以确定对象在原始深度图上的外接框(bounding box)的位置和外接框的大小。在对象是目标场景中的人的情况下，其属性可以包括但不限于例如每个人的平均肩宽、人相对于相机的朝向信息(将在下文中详细描述)等等。基于这些属性信息，每个人在二维图像上外接框的尺寸也能被估计出来。

图6示出了根据本申请的一个实施例通过反向投影操作确定对象的外接框的示意图。如图6所示，左图中的圆点表示反向投影的局部极值点位置，右图中的虚线框表示人的外接矩形框。

在确定了对象在深度图上的外接框之后，可以根据该外接框内的像素深度值的分布，估计对象的遮挡度。

在一个实施例中，例如，可以将所确定的外接框在垂直方向上划分为多个单元(Cell)，统计每个单元中的目标像素的数量。该目标像素是具有与局部极值点相似的深度的像素，也即这些目标像素的深度值与上述局部极值点的深度值之差在预定范围内。然后，可以基于每个单元中的目标像素的数量与每个单元中的像素的总数的比例来估计遮挡度。

图7和图8分别示出了同一个人在完全暴露于摄像机和被其他人遮挡住的情况下所对应的投影表面积图。通过对比这两种情况下的该人的投影表面积图的大小、即像素的个数，可知当人被遮挡住时，其投影表面积图的尺寸将缩小。因此，可以通过判断人的遮挡程度来估计其投影表面积图所缩小的大小，从而对缩小的尺寸大小加以补偿，以获得更加准确的数量估计结果。

根据之前的讨论可知，可以计算外接框的每个单元中的目标像素的个数与该单元中的总前景像素的个数之比作为每个单元相对于相机的可见度。但是，在计算时，要排除掉较之局部极值点的深度值具有更大深度值的像素点，因为这些点通常不是对象上的点。以下对此进行详细描述。

图9(a)和(b)是图示对象即人在没有被遮挡的情况下在深度图上的外接框和划分的单元的示意图。当进行了上述的反向投影操作后，可以获得如图9(a)中的虚线框所示的人的外接矩形框。接着，将整个人的外接矩形框划分为在垂直方向上分布的若干个子矩形框，即单元(Cell)。这样做的原因是：根据投影表面积图的生成原理，当某些单元中发生了人的遮挡，但是在另外一些单元中未发生遮挡时，那么该人的投影表面积图的大小将不会因为人的遮挡而发生明显的缩小。因此，可以分别估计出所有单元中的可见度，然后选择一个可见度最佳的单元来估计该人相对于相机的可见性。毫无疑问，确定了对象的可见性也就是确定了对象的遮挡度。然后可以将此可见性或遮挡度应用于数量估计的回归映射中。

当一个人未被遮挡时，其每个单元中的像素将有相近的深度值，其深度分布如图10所示。在图10中，6个直方图分别代表6个单元中像素点的深度分布，其中每个直方图的横轴代表像素的深度，纵轴代表属于每个深度值的像素个数。在每个直方图中，虚直线标出的深度值如上所述找到的局部极值点的深度值，其中Cell1的像素分布图中的右侧的分布曲线则表示在该人身后(距离摄像机更远)的人的像素深度分布。较之于该人，在相机的视野中，由于位于离该相机更远位置的人不会遮挡到该人，所以出现在单元中的距离更远的人的像素分布将被忽略。

图11(a)和(b)图示对象即人在被遮挡的情况下在深度图上的外接框和单元的示意图。该图中由于最左边的人的右半身体被后边的人遮挡住了，因此最左边的人的外接矩形框的单元中含有属于其后边人的像素，而这些像素的深度值较之该人像素点的深度值要小。图12中示出了6个单元中的像素点的深度分布。从图中可知，根据深度值，可以形成两个分布：与最左边人的局部极值点的深度值有相近深度值的像素(即与局部极值点的深度值之差在预定范围内的像素)将被聚类在一起，我们称之为目标类；而位于该人身后人的像素点由于具有较小的深度，将形成另外一个聚类，如图中的每个单元的直方图中的左侧分布所示。

由此，基于每个单元中的属于目标类的像素的数量与每个单元中的像素的总数的比例，可以估计对象的遮挡度。

接下来，可以在步骤S403中根据所估计的遮挡度，为相应的投影表面积图上的前景像素分配权重，以下称为遮挡权重。

在一个实施例中，可以如以下公式(1)所示根据对象的可见度计算要分配给投影表面积图中的属于对象的像素的遮挡权重：

其中，weight_occlusion表示对象的像素的遮挡权重，n表示对象的外接框中划分的单元的个数，PixelNumberInTargetCluster_i表示在第i个单元中的属于目标类的总的像素个数，TotalPixelNumberInThisCell_i表示落入第i个单元中的总像素的个数。

从公式(1)可知，对于某个对象而言，如果其目标像素数量与总像素数量的比值越小，即对象的可见度越低，也即遮挡度越高(遮挡越严重)，则weight_occlusion的值将越大，从而该投影表面积图中的属于该对象的像素将获得更大的遮挡权重以补偿在投影表面积图中缩小的面积。

由此，根据所估计的每个对象的遮挡度，为相应的投影表面积图上的属于每个对象的像素分配权重。也就是说，为投影表面积图上的前景像素分配遮挡权重，因为对象数量的估计主要是针对前景像素进行的，对于背景像素，可以不予考虑。当然，以上给出的仅仅是权重的分配方式的一个具体例子，基于遮挡度确定遮挡权重的方法不限于此，本领域技术人员完全可以构思其他的实现方式，只要该遮挡权重能够反映出对象的遮挡度并能够适当地补偿由于遮挡引起的对象在投影表面积图上的像素数量的减少即可。

从而，在步骤S404，可以基于为投影表面积图上的前景像素所分配的权重，利用预先建立的权重与对象数量之间的映射模型，估计目标场景中的对象的数量。

例如，可以如以下公式(2)所示从预先建立的回归映射模型来估计对象的数量或密度：

其中EstimatedNumber表示估计的目标场景中的对象的数量(或密度)，N代表投影表面积图中的对应于对象的像素的个数，PixelWeight_i代表分配给第i个像素点的遮挡权重，而RegressionModel代表预先建立的对象数量或者密度与像素的权重之和的回归映射模型，其可以在进行估计之前预先建立。该回归映射模型的具体形式不是本发明讨论的重点，在此不赘述。

从而，根据本申请的上述实施例的对象数量估计方法，在深度图上估计对象的遮挡度，根据估计的遮挡度，为相应的投影表面积图上的前景像素分配权重，从而在投影表面积图上进行对象数量的估计。因为该方法充分考虑了目标场景中可能存在的对象之间的相互遮挡，通过为对象的像素分配权重来补偿遮挡，使得数量估计更加准确。

在投影图上进行对象数量的估计能够很好地减小由于相机成像时引入的透视投影变换所带来的影响，使得对象在投影表面积图上的像素数目根据深度信息而被归一化，因此优于直接在彩色或者灰度图像上做像素数目与人数之间的回归映射分析。

另外，在投影的表面积图上建立对象的像素数目与对象数量之间的回归映射关系比直接在彩色或灰度图像上建立回归映射关系，有更好的抗遮挡能力。因为根据投影表面积图的生成原理，每个人出现在投影的表面积图上的大小主要与人上半身(比如肩膀等)相对于摄像机的可见程度有关。在高密度的人群情况下，较之每个人的下半身，上半身更不容易被别人遮挡住的，因此投影表面积图更加适合于建立回归映射关系。总之，在没有严重遮挡的情况下，投影图上属于对象的像素的个数与对象数量之间存在一种较好的回归关系。

在某些情况下，在估计目标场景中的对象的数量时，可能还需要考虑人与相机的相对朝向。图13(a)和(b)分别显示了人侧向对着相机以及正对着相机时的情形和他们相应的投影表面积图。从该图可知，同一个人在正对着相机的情形下在投影表面积图上的面积比侧对着相机的情形下的面积要大。

因此，可选地，与处理遮挡的情况类似，可以根据人相对于相机的朝向为投影图上的前景像素分配不同的权重来补偿由于人朝向的不同导致其在投影图上像的面积的不同。以下将此权重称为朝向权重。

为此，在一个实施例中，可以根据在步骤S401中生成的目标场景的深度图而生成相应的投影灰度图，并通过在该投影灰度图上计算每个像素的光流场方向来判断对象的朝向。当然，本领域技术人员很清楚，除了投影灰度图之外，也可以采用投影彩色图等本领域中已知的其他方式来计算光流场。

图14示出了根据光流场方向判断对象相对于相机的朝向的示意图。如图14所示，当对象正对着相机和背对着相机时，即光流场的方向是90度或270度时，人的投影表面积图最大。因此，具有90度或270度光流方向的投影表面积图的像素获得的方向权重值应当最小；而在光流方向为0度或180度的情况下，即对象侧身对着相机的情况下，该对象在投影表面积图上的像素的权重值应当最大，因为此时其可见于摄像机的身体面积最小，因此投影表面积图也最小。

也就是说，可以根据对象在不同朝向时在投影表面积图上的面积或像素的数量来分配朝向权重。举例而言，假设在对象正对着相机时的投影表面积是对象在完全侧向(即在与正对着相机的方向垂直的方向上)时的投影表面积的2倍，则可以将对象正对相机时的朝向权重分配为1，而将对象完全侧向面对相机时的朝向权重分配为2，并在1-2之间适当地选取在这两个朝向之间的其他朝向的权重，以此补偿由于朝向引起的表面积的改变。当然，这仅仅是权重分配的一个说明性的例子，在其他实施例中，也可以采用任何其他适当的朝向权重分配方式。

由此，基于对象相对于相机的朝向为相应的投影表面积图上的前景像素分配朝向权重。

考虑目标场景中的对象被遮挡并且以某个非正向朝向面对相机的情况，如上所述为每个对象在投影表面积图上的像素分配了遮挡权重和朝向权重两者。在此情况下，可以基于为投影表面积图上的每个前景像素分配的遮挡权重和朝向权重来确定该像素的最终权重，以便利用每个前景像素的最终权重从映射模型估计对象的数量。

在一个实施例中，例如，根据如以下公式(3)所示基于遮挡权重和朝向权重确定最终权重：

FinalPixelWeight＝α×weight_occlusion+β×weight_direction(3)

其中FinalPixelWeight表示像素的最终权重，weight_occlusion表示遮挡权重，weight_direction表示朝向权重，α和β分别代表遮挡权重和朝向权重的加权系数，它们的大小取决于遮挡因素和朝向因素对该投影表面积图上像素数目的影响的大小，本领域技术人员可以根据具体情况而适当确定。公式(3)将上述两个因素进行加权，表示同时考虑两者对回归映射关系的影响。

从而，可以利用每个前景像素的最终权重，根据上述的预先建立的回归映射模型来估计场景中的对象的数量或的密度，如公式以下(4)所示：

其中EstimatedNumber表示估计的目标场景中的对象的数量(或密度)，N代表投影表面积图中的对应于对象的像素(即前景像素)的个数，FinalPixelWeight_i代表第i个像素的最终权值，而RegressionModel代表如上所述的预先建立的对象数量或者密度与所有像素的最终权重之和的回归映射模型。

由此，可以同时考虑到对象之间的遮挡以及对象的不同朝向的影响而进行更加准确的数量估计。

根据本发明的另一方面，提供了对象数量估计系统。图15示出了对象数量估计系统1500的框图。如图15所示，该系统1500包括以下部件：生成部件1510，配置为生成包括对象在内的目标场景的深度图，并根据该深度图生成相应的投影表面积图；遮挡度估计部件1520，配置为在该生成部件1510生成的深度图上估计对象的遮挡度；分配部件1530，配置为根据该遮挡度估计部件1520估计的遮挡度，为相应的投影表面积图上的前景像素分配第一权重；数量估计部件1540，配置为基于该分配部件1530为投影表面积图上的前景像素所分配的第一权重，利用预先建立的权重与对象数量之间的映射模型，估计目标场景中的对象的数量。

在一个实施例中，该遮挡度估计部件1520可以通过从该投影高度图到该深度图的反向投影操作，在该深度图上确定对象的外接框，并根据该外接框内的像素深度值的分布，估计对象的遮挡度。

在一个实施例中，该遮挡度估计部件1520可以在该投影高度图上获得多个局部极值点及相应的深度信息，将局部极值点反向投影到相应的深度图上，并根据局部极值点的深度信息以及对象的属性，确定对象在深度图上的外接框。

在一个实施例中，该遮挡度估计部件1520可以将外接框在垂直方向上划分为多个单元，统计每个单元中的目标像素的数量，该目标像素的深度值与所述局部极值点的深度值之差在预定范围内，并基于每个单元中的目标像素的数量与每个单元中的像素的总数的比例来估计遮挡度。

在一个实施例中，该生成部件1510可以在根据该深度图生成相应的投影表面积图时，根据对象的深度信息将所述对象在所述投影表面积图上的像素数量归一化。

在一个实施例中，该系统1500还可以包括判断部件(未示出)，配置为判断场景中的对象相对于相机的朝向。

在一个实施例中，该分配部件1530可以基于该判断部件所判断的对象的朝向为相应的投影表面积图上的像素分配第二权重。

在一个实施例中，该分配部件1530可以基于为投影表面积图上的每个前景像素分配的第一权重和第二权重，确定每个像素的最终权重，该数量估计部件1540可以利用投影表面积图上的每个像素的最终权重，从所述映射模型估计所述对象的数量。

在一个实施例中，该生成部件1510还可以根据该深度图生成相应的投影灰度图，该判断部件可以通过在该生成部件1510所生成的投影灰度图上计算每个像素的光流场方向来判断对象的朝向。

在一个实施例中，当像素的光流场方向为0度或180度时，该像素的第二权重的值可以是最大；当像素的光流场方向为90度或270度时，该像素的第二权重的值可以是最小。

在一个实施例中，该分配部件可以计算该像素的第一权重和第二权重的加权和，作为该像素的最终权重。

本公开中涉及的部件、装置、设备、系统的方框图仅作为例示性的例子，并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些部件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

本公开中的步骤流程图以及以上方法描述仅作为例示性的例子，并且不意图要求或暗示必须按照给出的顺序进行各个实施例的步骤。如本领域技术人员将认识到的，可以按任意顺序进行以上实施例中的步骤的顺序。诸如“其后”、“然后”、“接下来”等等的词语不意图限制步骤的顺序；这些词语仅用于引导读者通读这些方法的描述。此外，例如使用冠词“一个”、“一”或者“该”对于单数的要素的任何引用不被解释为将该要素限制为单数。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

Claims

1.一种对象数量估计方法，包括：

生成包括对象在内的目标场景的深度图，并根据该深度图生成相应的投影表面积图；

在该深度图上估计对象的遮挡度；

根据估计的遮挡度，为相应的投影表面积图上的前景像素分配第一权重；

基于为投影表面积图上的前景像素所分配的第一权重，利用预先建立的权重与对象数量之间的映射模型，估计目标场景中的对象的数量。

2.如权利要求1所述的方法，还包括：根据该深度图生成相应的投影高度图，

其中，在该深度图上估计对象的遮挡度的步骤包括：

通过从该投影高度图到该深度图的反向投影操作，在该深度图上确定对象的外接框；以及

根据该外接框内的像素深度值的分布，估计所述对象的遮挡度。

3.如权利要求2所述的方法，其中通过从该投影高度图到该深度图的反向投影操作在该深度图上确定对象的外接框的步骤包括：

在该投影高度图上获得多个局部极值点及相应的深度信息；

将所述局部极值点反向投影到相应的深度图上；

根据所述局部极值点的深度信息以及对象的属性，确定所述对象在所述深度图上的外接框。

4.根据权利要求3所述的方法，其中根据该外接框内的像素深度值的分布估计所述对象的遮挡度的步骤包括：

将所述外接框在垂直方向上划分为多个单元；

统计每个单元中的目标像素的数量，所述目标像素的深度值与所述局部极值点的深度值之差在预定范围内；

基于每个单元中的所述目标像素的数量与每个单元中的像素的总数的比例来估计所述遮挡度。

5.如权利要求1所述的方法，其中在根据该深度图生成相应的投影表面积图时，根据对象的深度信息将所述对象在所述投影表面积图上的像素数量归一化。

6.如权利要求1所述的方法，还包括：判断场景中的对象相对于相机的朝向；

基于对象的朝向为相应的投影表面积图上的前景像素分配第二权重，

其中，基于为投影表面积图上的前景像素所分配的第一权重，利用预先建立的权重与对象数量之间的映射模型，估计目标场景中的对象的数量的步骤包括：

基于为投影表面积图上的每个前景像素分配的第一权重和第二权重，确定每个像素的最终权重；以及

利用投影表面积图上的每个像素的最终权重，从所述映射模型估计所述对象的数量。

7.如权利要求6所述的方法，还包括：根据该深度图生成相应的投影灰度图，

其中，通过在该投影灰度图上计算每个像素的光流场方向来判断对象的朝向。

8.如权利要求7所述的方法，其中当像素的光流场方向为0度或180度时，该像素的第二权重的值最大；当像素的光流场方向为90度或270度时，该像素的第二权重的值最小。

9.如权利要求6或7所述的方法，其中基于为投影表面积图上的每个像素分配的第一权重和第二权重确定每个像素的最终权重的步骤包括：

计算该像素的第一权重和第二权重的加权和，作为该像素的最终权重。

10.一种对象数量估计系统，包括：

生成部件，配置为生成包括对象在内的目标场景的深度图，并根据该深度图生成相应的投影表面积图；

遮挡度估计部件，配置为在该生成部件生成的深度图上估计对象的遮挡度；

分配部件，配置为根据该遮挡度估计部件估计的遮挡度，为相应的投影表面积图上的前景像素分配第一权重；

数量估计部件，配置为基于该分配部件为投影表面积图上的前景像素所分配的第一权重，利用预先建立的权重与对象数量之间的映射模型，估计目标场景中的对象的数量。