CN113196296A

CN113196296A - 使用几何上下文检测人群中的对象

Info

Publication number: CN113196296A
Application number: CN201980082636.6A
Authority: CN
Inventors: I·查克拉博蒂; 华刚
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-12-17
Filing date: 2019-12-10
Publication date: 2021-07-30
Also published as: US11450019B2; US20210035322A1; US20200193628A1; EP3899786A1; WO2020131467A1; US10818028B2

Abstract

计算系统被配置为训练对象分类器。接收针对场景的单目图像数据以及地面真值数据。确定几何上下文，该几何上下文包括相对于固定平面的三维相机位置。在所述图像数据内标识感兴趣区域(RoI)以及潜在遮挡物集合。针对每个潜在遮挡物，遮挡区被投影到三维中的所述固定平面。针对每个遮挡区，生成在所述固定平面上的遮挡的RoI集合。每个遮挡的RoI被投影回到二维中的所述图像数据。分类器通过以下操作而被训练：最小化损失函数，该损失函数通过将与所述RoI和遮挡的RoI有关的信息输入分类器而生成；以及基于所述地面真值数据，最小化所述集合中的每个RoI和每个遮挡的RoI在所述固定平面上的位置误差。然后，将经训练的分类器输出以用于对象检测。

Description

使用几何上下文检测人群中的对象

背景技术

现代对象检测系统通常依赖于区域候选方法以及卷积神经网络以生成候选区域，然后将这些区域分类为是否包含所期望的对象。使用这些方法，基于图像数据诸如人和车辆等对象可以被标识和量化。

发明内容

提供本发明内容以简化形式介绍一些概念，这些概念将在下面的具体实施方式中进一步描述。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。此外，要求保护的主题不限于解决在本公开的任何部分中指出的任何或所有缺点的实现。

与使用几何上下文对对象进行分类有关的示例被公开。在一个示例中，计算系统被配置为训练对象分类器。接收针对场景的单目图像数据以及地面真值数据。确定几何上下文，包括相对于固定平面的三维相机的位置。在图像数据内标识感兴趣区域(RoI)以及潜在遮挡物集合。针对每个潜在遮挡物，遮挡区被投影到三维中的所述固定平面。针对每个遮挡区，生成在所述固定平面上的遮挡的RoI集合。每个遮挡的RoI被投影回二维中的所述图像数据。分类器通过以下操作被训练：最小化损失函数，该损失函数通过将与所述RoI和遮挡的RoI有关的信息输入分类器而生成，以及基于所述地面真值数据，最小化所述集合中的每个RoI和每个遮挡的RoI在所述固定平面上的位置误差。然后，将所述经训练的分类器输出以用于对象检测。

附图说明

图1示出了在其中可以执行对象检测的示例场景。

图2示意性地示出了用于使用深度神经网络的对象检测的示例流水线。

图3示出了用于在对象检测期间锚生成的示例描绘图。

图4示出了针对场景中的潜在遮挡物生成的示例遮挡区。

图5示出了针对前景遮挡物和伴随的遮挡区域生成的示例边界框。

图6示意性地示出了3D投影损失的示例。

图7示出了用于使用几何上下文训练分类器的示例方法的流程图。

图8示出了图示操作使用几何上下文训练的分类器的示例方法的流程图。

图9示出了在几何上下文上训练的示例分类模型的精确召回曲线。

图10是指示在几何上下文上训练的示例分类模型的跨相机性能的描绘图。

图11描绘了相对于照相机海拔和径向距离的在遮挡下的mAP增益的图。

图12示意性地示出了示例计算系统。

具体实施方式

对象识别的早期研究是建立在人类固有的几何原理上的，诸如遮挡、透视图、以及有根性，使用正式的几何模型作为信息先验来调制统计学习。最近，对象检测器通常扮演作为对深度卷积图像特征的回归。在大型数据集上训练了神经网络，诸如基于区域的全卷积网络(R-FCN)和基于区域的卷积神经网络(例如，Faster R-CNN)，使它们对大多数感知变化都具有鲁棒性。但是，这样的神经网络可能无法在拥挤的场景中特征化同一类别中的大量对象。

例如，当行人处于良好空间且彼此不遮挡时，这种神经网络在检测通过广角监视或监控相机生成的图像中的行人方面可以表现得相当好。但是，在图像的拥挤区域，行人可能会完全被遗漏或表现为合并检测，其中多个行人被检测为单个斑点。因此，描绘这些部分地可见的实例将有助于提高整体检测精度并改善下游任务，例如人员跟踪和活动识别。

在拥挤的场景中性能不太好的的一个原因是，对象检测器被单独在外观特征的统计信息上被训练。例如，人员检测可能会将所标识的对象倾向成特定大小，并具有某些特征，例如头部、躯干、腿等。许多现成的模型以孤立对象和干净图像背景为特征的理想情况下都能很好地工作。但是，在真实世界应用中，拥挤的场景以对象遮挡或部分遮挡、部分观察、照明改变、背景渐变和图案、比例大小等问题为特征。

作为示例，图1示出了示例场景100。个体110和个体120被描绘为站在地平面120上。监视相机130、监视相机134和监视相机138从各个视角显示成像场景100。相机130是位于地平面120上方的高度h₁处的高架相机。相机134是位于地面平面120上方的高度h₂处的眼睛水平相机，其中h₂<h₁。相机138是位于地平面120上的地面水平相机。

监视相机的两个问题是比例(例如，接近相机)和遮挡。在此示例中，个体110比个体112更靠近相机130、相机134和相机138。如果个体112距离相机明显较远，则个体112在场景图像中可能会比个体110看起来更小。对于广阔的场景，距离不同的个体在场景图像中可能具有明显不同的大小。这样，基于简单大小阈值来过滤出对象可能变得困难。

当诸如个体110的对象位于照相机与诸如个体112的另一对象之间时，远端个体可能被近端个体遮挡。在该示例中，个体112可以从相机130和相机138的角度被个体110部分地遮挡，并且可以被相机134显著地遮挡。例如，照相机130可以看到个体112的头部和躯干，但是不能看到个体112的腿和脚。

图像中附近对象的特定遮挡模式取决于相对于3D中的地平面的相机视点。相机130位于高度h1处，并具有图像平面140，该图像平面140位于在与地面平面120成锐角处。相机134位于高度h2处，并具有图像平面144，该图像平面144垂直位于地平面120。相机138位于在地面上，并具有图像平面148，该图像平面148与地平面120成钝角。相机的姿态和场景几何形状会报告图像视图的物理。信息提示，例如以虚线显示的视线(“los”)角对于每种相机姿态均有所不同。

通常，对象检测器构成多级流水线，通过该流水线，图像首先被解析为显著区域，然后被提炼为边界框，所有边界框都被限制在2D图像(像素)空间中。利用这种检测器的假设是，从一大组训练数据中进行独立且均匀分布(i.i.d.)的采样最终将实质地覆盖视空间中的所有可能的变化，从而形成了一种遮挡弹性模型。这些卷积特征不考虑场景规律性，诸如在某个位置的预期对象大小，或者大多数对象被固定。

此外，基于外观和图像处理的对象检测方法通常假定整个对象始终可见。因此，此类方法的召回很差，并且由于缺少分类和假阴性而容易被低估。对于人类来说，部分遮挡通过非模态完成的过程来被补偿，例如，基于已知或假定的对象几何形状，在遮挡表面的后面填充丢失的对象信息。多项工作已经尝试结合几何上下文来改进统计对象检测器。在这种工作的一个示例中，图形模型通过对对象大小、表面取向和相机视点之间的相互依赖进行建模，将局部对象检测放置在整个3D场景中。该模型还可以包括对反馈回路内的对象配置的附加姿态约束。在另一个示例中，将立方体的房间表示部署用于室内场景，这表明布局估计改善对象检测。这些模型提高了整体检测精度，但通常会分被阶段为顺序或迭代组件，这些组件与独立的对象检测器耦合以改善对象假设。

当前，最精确的对象检测器主要是单级或多级卷积神经网络(CNN)，其表现为高度并行化的滑动窗口分类器。但是，在不破坏固定CNN架构的端到端公式的情况下，将上下文包含用作结构化预测实施起来是有挑战。该挑战的一些解决方法包括在后续迭代期间，将来自当前检测的对象掩码作为上下文输入。为了引入比例上下文，可以生成透视热图，并将其与来自粗略网络和精细子网络的推理相融合。但是，这些方法可能仅限于适应透视失真下的比例，并且可能涉及多网络或多迭代流水线。

从理论上讲，较旧的模型可以在比例和遮挡数据上进行训练。然而，这将需要大量的组合可能性来解释现实世界中可能发生的事件集。这将包括大量可能的相机角度、视场等，应用于不同的地平面定位和成像区域覆盖区的大小。因此，以这种方式提高准确性将涉及指数级地增加的训练数据和训练时间。

因此，公开了包括由场景的几何上下文调制的基于候选的深度神经网络的示例。所公开的示例将图像处理和外观模型与现实世界的物理和光学相结合。通过使用单目图像提示来估计场景的几何上下文(例如，相机姿态和场景提示)并将该信息隐含地放置到对象检测器本身中，模糊性可以被减少。这样的几何上下文通过以遮挡物为中心的候选以在区域候选生成(RPN)期间对对象间的遮挡进行建模，以及通过在每个区域损失计算期间中使用对象位置和比例一致性进行建模的几何损失来在两个学习级别上充当先验知识，同时保持底层对象检测器的前馈拓扑。

几何上下文可以通过重投影损失在深度神经网络中被引入，重投影损失可以量化3D点估计与其在2D图像空间中的真实投影的接近程度。可以将固定平面(例如地平面)建立为通用参考框架，允许测量3D中的位置一致性。这允许通过使用相机的几何形状来缩小搜索空间。相机姿态和场景提示因此可以隐含地放置在对象检测器中，并用于使对象检测器准备好。

视点不可知区域候选可以在区域候选生成期间，通过稀疏，以遮挡物为中心的候选来被增强，以便专注于特定于场景的硬区域，同时学习在不同遮挡模式集下进行检测。这模仿了非模态完成，该完成允许人类可以通过使用场景几何将分类器集中在可见对象的各个部分上来自然地执行遮挡推理。虽然先前的方法将非模态完成纯粹视为学习问题，本文中的方法证明非模态完成本质上是依赖于潜在场景提示的几何现象。

几何损失被引入以用于加界框回归，其中场景布局用作投影空间，以在地面平面上强加候选的关系和位置一致性。通过利用底层场景的几何来调制这种类型的特征激活，可以学习改善基线对象检测器的区分特征。为此，将场景的几何上下文(例如，相对于地平面的相机姿态)被插入对象检测的深度神经网络(DNN)模型中，其中变量会通过网络的所有层反向传播。最新DNN检测器和检测基准的实验在本文中被介绍，并且证明所公开的示例具有胜过强基准平均大约5％的技术效果，从而降低了对象检测和分类的错误率。

所公开的示例利用两阶段对象检测的已知方法，即快速RCNN和基于区域的全卷积网络(R-FCN)，在特征激活和损失计算期间引入几何上下文。通过将几何上下文引入特征学习，遮挡的部分可能会被更好的建模，并且召回可能会得到改善。所公开的示例是在行人检测的上下文被描述的，但是可以应用于具有固定参考平面的其他类型的对象检测。例如，锚定于地平面的车辆、动物和其他对象，只要已知现实世界中对象的近似物理尺寸，就可以被这种使用类似的检测参数的模型分类。固定平面不必是地平面。例如，洞穴天花板可以提供用于蝙蝠检测的固定平面，船体可以提供用于藤壶检测的固定平面，等等。

图2示出了示例检测流水线200。在流水线200中，图像数据205可以在210处被馈送到DNN中。例如，DNN可以包括残差网络(Resnet)-101。第4个(Res4)resnet块和第5个(Res5)resnet块被描绘出来，但是，可以在网络的其他层和块处引入图像数据205。此外，几何上下文215可以从图像数据处被接收和/或生成。例如，相机姿态可以被包括在地面真值数据或与图像数据相关联的其他数据内，和/或可以将根据图像数据确定的一次性近似相机姿态估计执行为预处理步骤。所确定的几何上下文可以应用于作为3D模型的一部分的对象。例如，如果对象位于地面上，则看起来像是人但很远的对象可能被识别为人，而悬浮在空中的对象将被忽略。

几何上下文建立在包含两个模块的两个阶段的对象检测器的体系结构上：区域候选网络220(RPN)和分类阶段225。边界框被RPN 220拟合在对象周围，然后对象在分类阶段225被分类。

图像数据205和几何上下文215可以用于锚生成230。在锚生成期间，密集的基于像素的锚利用3D的稀疏的、以遮挡物为中心的锚的2D投影来被增强。接下来，锚被通过区域候选网络(RPN)阶段235，在其中其被过滤和标记。

为了集成几何上下文215，RPN 235可以被修改以生成以遮挡物为中心的区域。传统上，RPN通常会从图像数据(例如背景/前景)的训练中寻找特定的梯度。站在一起的两个人将取决于训练被一起分类或完全不一起分类。如本文进一步所述，前景对象用于生成以遮挡为中心的锚点，其中相邻区域被解析用于被前景对象部分遮挡的对象的存在。以遮挡物为中心的锚和对位置敏感的ROI(245)在本文中可以被称为早期融合，指的是几何上下文与分类流水线的融合。

接下来，多任务目标损失函数250被通过最小化RoI在地平面上的位置误差来共同最小化。这是通过将RoI和地面真值重投影回3D空间来实现的，在本文中可将其称为几何上下文与分类流水线的后期融合。

采样步骤可以在执行损失函数之前发生。在一些示例中，这可以包括随机分层采样。前景、背景和遮挡区域的子集被采样用于损失函数。在损失函数最小化之后，可以将数据反馈回到RPN 235，RPN 235可以包括类不可知阶段，在该阶段确定RoI是否包含对象，然后是包含类特定边界框回归的阶段。

几何上下文可以在215通过从图像数据提示推理来确定。这样的推理过程可以特别适用于静态相机捕获拥挤场景的广角视图的场景。在这种场景下，执行简单的一次性相机姿态估计可以提供有关空间中对象的丰富空间提示。特别地，知道相机相对于地平面的姿态允许按比例执行对象的深度排序以及在图像平面和地平面之间变换点。

作为示例，可以使用几何算法以根据场景提示来计算相机外参。相机投影矩阵P＝[R,t]，可以基于其视角和地平面上的高度被参数化。可以使用来自单视图几何的概念来解决这些参数。例如，假设针孔相机模型使用已知的相机内参K，正在观察所谓的“曼哈顿世界”。针对相机角度，一些线段可以被注释以计算z方向v_z上的消失点。假设零滚动，则地平线是对应的图像行v₀。旋转向量为

其可以与旋转矩阵匹配以恢复

以及

对于相机高度，令y_c以世界坐标表示相机的高度。给定已知对象的图像高度h_i，底部位置v_i和世界(物理)高度y_i，使用以下公式计算相机高度y_c，y_c＝y_i(v_i v₀)/h_i。相机高度估计可以在场景中的多个对象实例上取平均，以获得鲁棒的估计。

图3示出了描绘用于对象检测的锚放置的示例描绘图。描绘图300表示用于常规对象检测的锚放置。分类器查看XY图像平面中的场景，确定预期的感兴趣区域，然后在图像上放置边框。在训练示例中，可以至少部分基于地面真值数据来确定感兴趣区域。高置信度边界框可以被假设与前景中的对象相关联，并且因此具有遮挡场景中的其他对象的高可能性。

描绘图310表示用于遮挡对象的锚放置。为了确定放置锚的位置，在一些示例中，一旦遮挡物被标识，遮挡区就被生成，然后基于遮挡区，多个RoI被候选。然后边界框围绕着针对遮挡物的原始边界框被建造。如在310所示，XZ代表地平面。基于潜在遮挡物的位置，同心圆形区域在XZ中被绘制。场景提示可以被用于建造锚，Y维度可以被从XY平面上绘制的边界框中知道。因此，锚定的边界框可以被投影到XZ地平面。

在此示例中，同心圆被围绕着地平面绘制。圆可以被用于生成地面接触点，然后锚被放置在这些位置。在其他示例中，可以使用任何其他合适的形状。新的边界框可以被放置在相对于相机的遮挡物后面的锥体内。每个新的边界框都被锚定在LoS和圆的交点处的同心圆中的一个。在模型的回归阶段，关联的锚加入原始锚。

图4描绘了遮挡区生成的示例。在场景400中，两个遮挡物410和412被示出相对于相机415和地平面420的被定位。以遮挡物为中心的锚可以被生成，其通过它们相对于前景遮挡物410和412的位置以及特定场景的布局被识别。尤其是，当多个对象沿着相机的视线(LoS)出现在不同深度时，就会发生遮挡。

遮挡物后面的锥体形状的空间在3D中将遮挡区域封闭起来。例如，遮挡锥体430在遮挡物410后面被生成，以及遮挡锥体432在遮挡物412后面被生成。占据遮挡锥体430和432的对象可能表现为在2D图像数据中部分可见。例如，描绘图440示出了场景400的示例x-z投影(鸟瞰图)，场景400包括相机415和遮挡锥体430和432。基于真实世界大小，每个遮挡锥体被生成，因为基于该大小，区域候选被投影至2D图像。每个遮挡锥体通过参数集合被定义，例如，x,z,r,以及θ，如图3所示，其中θ是基于遮挡物的视线的角度。

以遮挡物为中心的锚可以被生成，作为出现在遮挡锥体的密集的锚。例如，在500处，图5示出了具有前景边界框512的示例遮挡物510。边界框512包括遮挡的个体515的部分。至少基于场景几何、遮挡物的相对大小、以及遮挡锥体来生成边界框。在520示出了一个示例，其中针对遮挡物510的遮挡锥体(未示出)的多个边界框525被生成。这些边界框可以被放置在3D几何内，之后被投影回2D。作为一个示例，使用已知或所推断相机矩阵，2D边界框被投影至地平面上。这可以帮助对边界框525中的至少一个中遮挡的个体515进行明确分类。新框覆盖了更少的遮挡物，覆盖了更多的遮挡锥体的翼。以此方式，用于分类器的注意力掩膜的指示被调整，从而将注意力推向翼区域并远离遮挡对象。

两阶段对象检测器中的区域候选模拟了在所有比例和纵横比上的滑动窗口搜索，并且是从固定的锚集合中绘制的，这些锚在所有图像上都是恒定的。在RPN阶段期间，基于锚点与地面真值框的重叠程度，锚点被分类为前景和背景类。在本文描述的示例中，针对遮挡区域生成的锚也被馈送到RPN阶段。通过这样做，可以在训练期间位置敏感遮挡的RoI可以被明确地优先。

作为示例，令(x_o,z_o)为地面上的边界框的接触点。LoS是将相机中心连接到此点的射线。令该Los的角度为θ_los,o。然后，与该框相关联的遮挡锥体可以被参数化为(x_o,z_o,r,θ)，其中r表示距o的径向距离，以及θ＝θ_los,oθ_Δ,...,θ_los,o+θ_Δ表示与Los的角度分离。

接下来，在每个被参数化的(x_o,z_o,r,θ)处,假设的RoI被生成对应于预期的人的维度。具体来说，给定(r,θ)，在3D中左上和右下位置的3D位置为(x_o-w/2,h,z_o)以及(x_o+w/2,0,z_o)，其中(h,w)是预期的人类身高和宽度(大约h＝5.6英尺，w＝1.7英尺)。然后这些3D框被以2D RoI的形式重投影回图像平面。与这些RoI重叠的锚可以通过相应的(r,θ)值被索引。最后，这些锚的子集可以从(r,θ)分布中被均匀采样。

在候选注释阶段之后，b_fg,b_occ,b_bg可以被表示为前景、遮挡的以及背景锚的随机子集，在区域分类器阶段处的组合损失函数表示如下：

方程1

其中λ是每个候选集σ适当的缩放函数,l1表示针对类可能性的softmax损失和针对候选与对应的地面真值框C之间的边界框回归的smooth-L1损失的组合。背景候选不携带框回归惩罚。

该阶段以边界框回归结束，但分类还没有完成。在具有更小的框集合的第二个回归之后，分类阶段可以更好地执行。引入几何损失项可以帮助确保候选的接触点适当地接近相应的地面真值框。这可以通过已建立的几何上下文来计算投影矩阵来完成。

例如，图6示出了示例场景600，包括遮挡边界框610以及图像平面边界框620。遮挡边界框610被生成为图像平面边界框620沿着Z轴向3D的投影。但是，遮挡边界框610最终必须在针对分类的图像平面中被评估。这样，使用逆投影矩阵，遮挡边界框610可以从3D被向后投影至2D，以在图像平面中生成所估计的边界框。为了有效地完成这一投影，希望通过反向传播使距离函数最小化。

在等式1中，多任务损失

包括惩罚对象类别误匹配的分类损失，以及惩罚在像素中锚框与邻近地面真值的偏移量的回归损失。此外，几何损失可以被合并，该几何损失编码在地面上的锚的位置一致性。

在Faster-RCNN中，回归目标通过卷积子网络bbox_reg被参数化为四个维度，作为t_x＝(x_g x_a)/w_a,t_y＝(y_g y_a)/h_a,t_w＝log(w_g/w_a),t_h＝log(h_g/h_a),其中(.)_g以及(.)_a分别表示地面真值和锚，以及(x,y)是框中点，以及(w,h)是对应的宽度和高度。R-FCN中的技术类似，不同之处在于位置敏感图被用作中间表示。在这两种方法中，基于联合交叉(IoU)重叠，锚框被匹配至地面真值框。bbox_reg子网被期待去学习到小的偏置以“改正”锚位置，以及将它们完美地对准。但是，好的锚候选与对象之间可能比与通过改正偏置学习到的更远。一些边界框可能与所选择的地面真值有很大的重叠，但与附近的地面真值等距离。这导致粗略的定位，因为多个地面真值框争用同样的锚集合。

给定参考地平面的相机姿态，投影损失函数可以被引入，以尝试通过扩展回归标准来解决这些问题。为此，两个附加维度被添加到回归目标中，其在x_w和z_w中预测锚和对象之间的标准化距离，例如t_x ^w＝(tpx_g tpx_a)/g_x和t^w＝(tpz_g tpz_a)/g_z，其中tp_(.)表示在地面平面的x-z维度上所投影的边界框的接触点。

为了建立用于回归的目标，2D框坐标(x,y)需要被投影至在地平面的位置(x_w,y_w,z_w)。当从2D点到3D的准确恢复是错误姿态时，两个合理的假设有助于使解决方案易于处理：(a)行人在地平面上休息，例如，y_w＝0；以及(b)地面平面的方向与直立的人平行，例如

基于这些限制，RoI在地面平面上的位置(表示为G(b)_yw＝0)被代数计算如下：(a)找到相机中心，由相机矩阵P＝null(P)的空空间给定；(b)从相机中心到对象散发的射线由下式给出：R＝inv(P)*X_im,其中X_im图像框的底部坐标；以及(c)所投影的射线R和地面单位向量

的交点被代数计算，以给出地面上相应的接触点Xg。

给定边界框的3D位置，2D+3D回归损失可以被估计。令前景集合和遮挡锚为如上面计算的{b_fg,b_occ}，并且对应的地面真值框是C。然后，偏置通过平滑L1函数被惩罚。预测的特征图

被扩展，以适应沿两个维度的回归项，分别由地平面的宽度和高度归一化。

方程2

其中

图7描绘了用于训练分类器进行对象分类的示例方法700的流程图。方法700可以通过一个或多个计算系统被执行，以及可能导致分类器和/或分类模块的输出，该分类器和/或分类模块可以附加到对象检测和分类系统，例如深度神经网络。

在705处，方法700包括接收针对场景的单目图像数据。单目图像数据可包括从静态相机位置拍摄的场景的一个或多个数字图像。在710处，方法700包括接收针对场景的地面真值数据。地面真值数据可以包括先前附加的描述和解析图像数据的数据。例如，地面真值数据可能包括在图像数据中表示的多个对象，可能包括先前生成的感兴趣区域等。地面真值数据还可以包括关于场景的附加信息，例如场景足迹、背景信息、和/或在单目图像数据内与对象检测有关的附加数据。

在715处，方法700包括确定针对场景的几何上下文，几何上下文包括相对于固定平面的三维相机位置。在一些示例中，固定平面可以是地平面。在一些示例中，确定针对场景的几何上下文可以包括从地面真值数据中提取相对于固定平面的三维相机位置。在一些示例中，确定针对场景的几何上下文可以包括从单目图像数据得到相对于固定平面的三维相机位置，如本文所述。

在720处，方法700包括确定单目数据中的感兴趣区域集合。感兴趣区域集合可以以任何合适的方式确定，和/或可以包括在针对场景的地面真值数据中。每个感兴趣区域可以包括针对问题中的对象的锚、大小和形状数据，和/或可以被用作生成感兴趣区域的用于下游分析的其他数据。

在725处，方法700包括识别感兴趣区域内的一个或多个潜在遮挡物的集合。例如，一个或多个潜在遮挡物可以基于感兴趣区域的置信度水平大于阈值来被确定。换句话说，如果存在感兴趣区域包含对象的大部分，并且该对象很可能位于相机的直接视线内高可能性，则它可能被标识为背景中更远距离的对象的潜在遮挡物。

在730处，方法700包括，针对每个所标识的潜在遮挡物，基于几何上下文，在三维中将遮挡区投影至固定平面。投影遮挡区可以包括基于几何上下文在三个维度中生成遮挡锥体。如关于图3和图4的描述，遮挡锥体可以基于到锚点的径向距离以及从相机和锚点与固定平面之间的视线的角度分离来被确定。

在735处，方法700包括在针对每个遮挡区的三维中的固定平面生成遮挡的感兴趣区域集合。例如，生成遮挡的感兴趣区域集合可以包括基于几何上下文将感兴趣区域投影到遮挡锥体的固定平面上，如关于图5所描述的。此外，在740处，方法700包括将每个遮挡的感兴趣区域投影回二维的图像数据。

在745处，方法700包括训练分类器。训练分类器包括，在750处，最小化通过将关于感兴趣区域集合和遮挡的感兴趣区域集合的信息输入分类器而生成的损失函数。例如，前景、背景和遮挡的感兴趣区域可以被采样以生成每种类型的RoI集合。最小化损失函数然后可以包括针对前景、背景和遮挡的感兴趣区域中的每一个的每个区域损失的计算期间，对象位置和比例一致性进行建模。以这种方式训练分类器的技术效果是降低了分类错误率。

在755处，训练分类器包括基于地面真值数据最小化固定平面集合的每个感兴趣区域和每个遮挡的感兴趣区域的位置误差。最小化位置误差可以包括将前景、背景和遮挡的感兴趣区域中的每一个和地面真值中重投影回3D空间。以这种方式，通过惩罚错误放置锚的偏置，所估计的感兴趣区域可以被回归到已知对象位置。

在760处，方法700包括输出用于对象检测的分类器。分类器可以包括一个或多个基于候选的深度神经网络、卷积神经网络或其他神经网络类型。在一些示例中，方法700包括输出可以集成到多个两阶段对象检测架构中的模块。

图8描绘了用于部署经训练的分类器的示例方法800的流程图，例如经由方法700训练的分类器。方法800可以被一个或多个计算系统、云计算系统、网络应用或其他执行两阶段对象检测和分类模型的平台所执行。

在805处，方法800包括接收针对场景的单目图像数据。单目图像数据可以包括从静态相机位置拍摄的场景的一个或多个数字图像。在810处，方法800包括确定针对场景的几何上下文，几何上下文包括相对于固定平面的三维相机位置。在一些示例中，确定针对场景的几何上下文可以包括从单目图像数据得到相对于固定平面的三维相机位置，如本文所述。固定平面可以是地平面或其他合适的平面。

在815处，方法800包括生成单目数据中的感兴趣区域的集合，例如，通过生成图像数据中的RoI集合，然后经由在所期望对象上训练的一个或多个区域候选网络过滤RoI。例如，每个感兴趣区域可以被通过在针对每个感兴趣区域的单目图像数据上绘制边界框来指定。每个感兴趣区域可以被通过区域候选网络围绕预期对象来拟合。感兴趣区域的大小可以基于所期望对象的大小。感兴趣区域的位置可以基于几何上下文，例如，锚定到固定平面。

在820处，方法800包括识别感兴趣区域内的一个或多个潜在遮挡物的集合。例如，一个或多个潜在遮挡物可以基于感兴趣区域的置信度水平大于阈值来被确定。换句话说，如果存在感兴趣区域包含对象的大部分的高可能性，则它可能被标识为背景中更远距离的对象的潜在遮挡物。

在825处，方法800包括，针对所标识的每个潜在遮挡物，基于几何上下文，在三维中将遮挡区投影至固定平面。投影遮挡区可以包括基于几何上下文在三个维度中生成遮挡锥体。如关于图3和图4的描述，遮挡锥体可以基于到锚点的径向距离以及从相机和锚点与固定平面之间的视线的角度分离来被确定。

在830处，方法800包括，针对每个遮挡区绘制遮挡的感兴趣区域集合。例如，生成遮挡的感兴趣区域集合可以包括基于几何上下文，沿着遮挡锥体将感兴趣区域放置在固定参考平面上，如关于图5所描述的。然后感兴趣区域可以被从3D空间投影回到2D空间。

在835处，方法800包括，将每个感兴趣区域和每个遮挡的感兴趣区域分类为作为感兴趣对象的可能性。分类标准可以部分地基于几何上下文。例如，高架相机可能不太可能捕捉到人的脚，因此该标准可以被最小化。

在840处，方法800包括输出针对每个感兴趣区域和每个遮挡的感兴趣区域的分类。在对象部分地包括在多个重叠的遮挡的感兴趣区域中的示例中，具有最高可能性的遮挡的感兴趣区域可以被指示为可能是感兴趣的对象，而具有较小可能性的相邻重叠的遮挡的感兴趣区域可以被指定为不包含感兴趣的对象，以避免对象的重复计数。

上述示例训练算法在两个开源行人数据集上进行了评估——ETH WildTrack以及MOT 2017检测(MOT)。WildTrack数据集包含七个行人序列，来自利用具有可变相机高度的广角静态相机的重叠视点。相机被联合校准，并且相应的相机内参和外参是可用的。MOT数据集被用作在环境场景中测试示例算法。MOT数据集包括各种室内和室外行人交通的七个序列。场景校准通过使用单视图几何(例如，如关于图1和2所描述的)以及推理的几何参数来执行。两个数据集都包含移动行人的拥挤动态场景的捕获视频帧(～17个行人每帧)，使用安装在各个有利位置的静态相机(例如监视视图，低于眼睛水平的视图等)，并在所有地面真值实例上提供全身注释。为了评估，每个视频都进行了时间分区，使得前60％的帧用于训练和验证，而其余40％的帧被隔离用于测试。

示例算法在两个经过充分研究的架构上被评估——基于区域的全卷积网络(R-FCN)和Faster-RCNN，其中示例算法位于这些流水线之上。

所有的训练实验共享相同的协议。Resnet-101被用作主干。模型在COCO数据集上被预训练，并通过冻结所有层直到第4个resnet块被微调，并在此之后重新训练所有层。训练通过使用SGD来被执行，其中动量0.9、权重衰减5e-4、初始学习率5e-5、批大小为1。每个训练例程允许运行20个时期(epoch)。超参数调整或数据增强没有被执行。为0.7联合交集(IoU)被用作正检测的阈值，以及平均精度(mAP)被作为评估度量。

在RPN阶段256RoI的预算被设定。在基线模型中，前景RoI的比例设置为25％，其余75％被指定为背景。在示例算法中，遮挡的-RoI占总RoI的12.5％，使得前景、遮挡的和背景RoI的比例为25:12.5:62.5。遮挡的RoI通过使用均匀采样从(r,θ)分布中被采样。通过改变到遮挡物的距离(r)和沿视线(θ)的方向，遮挡的锚被密集采样。根据相机的高度，高架相机视图的半径范围为1-10英尺，水平和低于视线水平视图的半径范围为1-50英尺，每个增量为1英尺。偏离视线的角度范围为0到60度，增量为5度。为了将锚投影回图像平面，假设针对MOT的平均人类身高为5.5英尺，针对Wildtrack的平均身高为5.9英尺(如数据集中提供的)。

表1

表2

使用示例算法，跨数据集和检测架构两者更高的mAP被实现。如上表1和表2所示，基线R-FC在Wildtrack(表1)上达到75.24％，在MOT(表2)上达到86.20％。图9示出了Wildtrack(曲线900)和MOT(曲线910)的几何-RFCN模型的精确召回曲线。添加示例算法将这些分数提高到MOT上的93.02％和Wildtrack上的78.16％，分别提高了8％和3％。在本领域中，已经观察到快速RCNN的性能优于R-FCN。添加示例算法使基准快速RCNN模型的性能平均高出2％。表1和表2示出了每个相机视图的mAP，示例算法在所有相机视图上始终优于基线。有趣的是，俯视图的mAP增益高于水平(眼睛水平)视图。

如本文所述，遮挡的样本可以通过所公开的几何始发方法被更好地检测。这些结果显示在表3中。实际上，在Wildtrack上观察到了17个百分点(pp)的增益，在MOT数据集上观察到了9pp的增益。遮挡部分的增益明显高于整个数据集的增益。这表明使用示例算法可以更好地描绘遮挡的实例。

表3

跨相机性能在Wildtrack数据集上被评估，以测试在视图子集上训练的高级模型是否也可能在捕获相同底层场景的未观察视图上执行的更好。相机视图C1-C4被用作训练，以及视图C5-C7被测试。如在表4和图10的描绘图1000所示，在未观察到的视图上，检测精度比基线提高了2％。地平面上的精度还通过测量预测位置与地面之间的平均欧几里德距离(以厘米为单位)来被评估。与基线相比，实现了15.3％的定位误差减少，如表4和图10的描绘图1000所示。

表4

然后mAP增益通过相机海拔、空间间的距离和地平面上遮挡物体之间的径向角度来被分析。该数据被示出在图11中所描绘的图1100和1110中。在图1100中，相机海拔(x轴)被示出为对mAP增益具有显著影响。相机越高，公开的模型就越能更好地代表遮挡的模式。在视线水平，一个人可能会被完全遮挡，从而更难使用几何约束对关系进行建模。例如，视图MOT11、WT4和WT6均在眼睛水平处被捕获，示出了较低的mAP增益。这个结果反映了为什么大多数监控相机更喜欢俯视图以获得更好的场景捕捉。在图1110中，参考从视线(line ofsight)的偏离的角度绘制了增益，其中los＝0°直接在遮挡物后面。低层和高架相机视图显示出类似的模式——以～15°的轻微角度分离实现更高的增益。直观地说，如果没有几何上下文提供的明确注意力，这些样本的非常挑战。相比之下，在较大的径向分离下，例如并排配置，在眼睛水平增益可以被看到。

表5示出了对示例算法中各个设计选择和模块影响的评估结果。在第一个实验中，以遮挡物为中心的候选单独在推理过程中就被考虑了，如第1列和第2列所示。具体来说，使用预训练的COCO模型运行了两轮推理。在第二轮中，来自第一轮的前K个检测被使用，以及以遮挡物为中心的候选被生成，其以这些检测为中心。该策略获得了41分的增益，从第一轮的48％增加到利用增强候选的68％，如第2列所示。针对MOT的增益较小，可能是因为行人以各种违反遮挡模式的姿势出现。接下来，通过在有以及没有在线硬性负挖掘(OHEM)的情况下进行训练，对示例算法进行了评估，如第3和第4列所示。OHEM追溯选择了具有最高损失的RoI子集，并根据所选示例进行反向传播。如果没有OHEM，则会主动选择硬(遮挡)的ROI。该策略的表现优于利用OHEM的示例。最后，以遮挡为中心的候选(几何的早期融合)的影响被单独评估，并且还评估了以遮挡为中心的候选与3D几何损失(早期+晚期融合)的综合影响，如第5和第6列所示。每个模块都单独改进了mAP，但通过一起使用两个模块实现了最佳性能，如第6列所示。

表5

在一些实施例中，本文描述的方法和过程可以绑定到一个或多个计算设备的计算系统。特别地，这样的方法和过程可以被实现为计算机应用程序或服务、应用程序编程接口(API)、库和/或其他计算机程序产品。

图12示意性地示出了可以执行上述方法和过程的中的一个或多个计算系统1200的非限制性实施例。计算系统1200以简化形式示出。计算系统1200可以采用一台或多台个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能电话)和/或其他计算设备的形式。

计算系统1200包括逻辑机器1210和存储机器1220。计算系统1200可以可选地包括显示子系统1230、输入子系统1240、通信子系统1250和/或图12中未示出的其他组件。

逻辑机器1210包括被配置为执行指令的一个或多个物理设备。例如，逻辑机器可以被配置为执行作为一个或多个应用、服务、程序、例程、库、对象、组件、数据结构或其他逻辑结构的一部分的指令。此类指令可实施执行任务、实施数据类型、转换一个或多个组件的状态、实现技术效果或以其他方式达到期望的结果。

逻辑机器可以包括被配置为执行软件指令的一个或多个处理器。附加地或替代地，逻辑机器可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑机器。逻辑机器的处理器可以是单核或多核，并且在其上执行的指令可以被配置用于顺序、并行和/或分布式处理。逻辑机器的各个组件可选地可以分布在两个或更多个单独的设备中，这些设备可以位于远程和/或被配置用于协调处理。逻辑机器的各方面可以被在云计算配置中配置的可远程访问的联网计算设备虚拟化和执行。

存储机器1220包括一个或多个物理设备，该物理设备被配置为保持逻辑机器可执行的指令以实施这里描述的方法和过程。当实施这样的方法和过程时，存储机器1220的状态可以被转换——例如，以保持不同的数据。

存储机器1220可以包括可移除和/或内置设备。存储机器1220可以包括光学存储器(例如，CD、DVD、HD-DVD、蓝光光盘等)、半导体存储器(例如，RAM、EPROM、EEPROM等)和/或磁存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)等。存储机器1220可以包括易失性、非易失性、动态、静态、读/写、只读、随机访问、顺序访问、位置可寻址、文件可寻址和/或内容可寻址设备。

应当理解，存储机器1220包括一个或多个物理设备。然而，这里描述的指令的各方面可替代地由物理设备在有限时间内不保持的通信介质(例如，电磁信号、光信号等)传播。

逻辑机器1210和存储机器1220的各方面可以被集成到一个或多个硬件逻辑组件中。此类硬件逻辑组件可能包括现场可编程门阵列(FPGA)、程序和专用集成电路(PASIC/ASIC)、程序和专用标准产品(PSSP/ASSP)、片上系统(SOC)，以及例如复杂的可编程逻辑器件(CPLD)。

术语“模块”、“程序”和“引擎”可用于描述被实现为执行特定功能的计算系统1200的一个方面。在某些情况下，模块、程序或引擎可以通过逻辑机器1210执行存储机器1220持有的指令来实例化。应该理解，不同的模块、程序和/或引擎可以从相同的应用、服务、代码块、对象、库、例程、API、函数等被实例化。同样，相同的模块、程序和/或引擎可以由不同的应用、服务、代码块、对象、例程、API、函数等实例化。术语“模块”、“程序”和“引擎”可能包括单个或一组可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。

应当理解，本文使用的“服务”是跨多个用户会话可执行的应用程序。一项服务可能对一个或多个系统组件、程序和/或其他服务可用。在一些实施方式中，服务可以在一个或多个服务器计算设备上运行。

当被包括时，显示子系统1230可用于呈现由存储机器1220保存的数据的视觉表示。该视觉表示可采用图形用户界面(GUI)的形式。由于本文描述的方法和过程改变了存储机器所保持的数据，从而改变了存储机器的状态，因此显示子系统1230的状态同样可以被转换以在视觉上表示底层数据的变化。显示子系统1230可以包括虚拟地利用任何类型的技术的一个或多个显示设备。这样的显示设备可以与逻辑机器1210和/或存储机器1220组合在一个共享的外壳中，或者这样的显示设备可以是外围显示设备。

当被包括时，输入子系统1240可以包括一个或多个用户输入设备(例如键盘、鼠标、触摸屏或游戏控制器)或与一个或多个用户输入设备对接。在一些实施例中，输入子系统可以包括选定的自然用户输入(NUI)组件或与选定的自然用户输入(NUI)组件对接。这种组件可以是集成的或外围的，并且输入动作的转换和/或处理可以在机上或机外处理。示例NUI组件可以包括用于语音和/或声音识别的麦克风；用于机器视觉和/或手势识别的红外、彩色、立体和/或深度相机；用于运动检测和/或意图识别的头部追踪器、眼部追踪器、加速度计和/或陀螺仪；以及用于评估大脑活动的电场感应组件。

当被包括时，通信子系统1250可以被配置为将计算系统1200与一个或多个其他计算设备通信耦合。通信子系统1250可以包括与一种或多种不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子系统可以被配置用于经由无线电话网络或者有线或无线局域网或广域网进行通信。在一些实施例中，通信子系统可以允许计算系统1200经由诸如因特网的网络向和/或从其他设备发送和/或接收消息。

作为示例，一种用于训练分类器以对对象进行分类的计算系统，计算系统包括：逻辑机器；以及存储机器，保存有指令，该指令在被执行时使该逻辑机器：接收针对场景的单目图像数据；接收针对场景的地面真值数据；确定针对场景的几何上下文，几何上下文包括相对于固定平面的三维相机位置；确定单目图像数据内的感兴趣区域集合；基于感兴趣区域集合，标识一个或多个潜在遮挡物集合；针对所标别的每个潜在遮挡物，基于几何上下文，将遮挡区在投影到三维中的固定平面上；针对每个遮挡区，生成在三维中的固定平面上的遮挡的感兴趣区域集合；将每个遮挡的感兴趣区域投影回到二维中的图像数据；通过以下方式训练分类器：最小化损失函数，该损失函数通过将与感兴趣区域集合和遮挡的感兴趣区域集合有关的信息输入分类器而生成；以及基于地面真值数据，将集合中的每个感兴趣区域和每个遮挡的感兴趣区域在固定平面上的位置误差最小化；以及输出用于对象检测的分类器。在该示例或任何其他示例中，固定平面可以附加地或替代地是地平面。在上述任何一个例子中，或任何其他示例，附加地或替代地，指令被执行，以通过从地面真值数据中提取相对于固定平面的三维相机位置来确定用于场景的几何上下文。在上述任何一个例子中，或任何其他示例，附加地或替代地，指令被执行，以通过从单目图像数据中得到相对于固定平面的三维相机位置来确定用于场景的几何上下文。在上述任何一个例子中，或任何其他示例，附加地或替代地，指令被执行，以基于针对感兴趣区域的置信度水平大于阈值来确定一个或多个潜在遮挡物。在上述任何一个例子中，或任何其他示例，附加地或替代地，指令被执行，以通过基于几何上下文在三维上生成遮挡锥来投影遮挡区。在上述任何一个例子中，或任何其他示例，附加地或替代地，指令被执行，以通过基于几何上下文将边界框投影到遮挡锥体的固定平面来生成遮挡的感兴趣区域集合。在上述任何一个例子中，或任何其他示例，附加地或替代地，指令被执行，以通过在针对每个前景、背景，以及遮挡的感兴趣区域中的每个在每区域损失的计算期间，对对象位置和比例一致性进行建模，来最小化损失函数。在上述任何一个例子中，或任何其他示例，附加地或替代地，最小化位置误差包括将前景、背景，以及遮挡的感兴趣区域中的每个以及地面真值重投影回3D空间。在上述任何一个例子中，或任何其他示例，附加地或替代地，分类器包含一个或多个基于候选的深度神经网络。

在另一示例中，一种用于执行对象检测的计算系统，包括：逻辑机器；以及存储机器，保存有指令，指令被执行时使逻辑机器：接收针对场景的单目图像数据；确定场景的几何上下文，几何上下文包括相对于固定平面的三维相机的位置；生成单目图像数据内的感兴趣区域集合；标识在感兴趣区域集合内的一个或多个潜在遮挡物的集合；针对所标识的每个潜在遮挡物，基于几何上下文，将遮挡区投影到三维中的固定平面上；针对每个遮挡区，绘制遮挡的感兴趣区域集合；将每个感兴趣区域以及每个遮挡的感兴趣区域分类为作为感兴趣对象的可能性；以及输出针对每个感兴趣区域和每个遮挡的感兴趣区域的分类。在这样的示例系统或任何其他示例系统中，固定平面可以附加地或替代地是地平面。在上述任何一个例子中，或任何其他示例，附加地或替代地，指令被执行，以通过从单目图像数据中得到相对于固定平面的三维相机位置来确定针对场景的几何上下文。在上述任何一个例子中，或任何其他示例，附加地或替代地，指令可执行，以基于针对感兴趣区域的置信度水平大于阈值来确定一个或多个潜在遮挡物的集合。在上述任何一个例子中，或任何其他示例，附加地或替代地，指令可执行，以通过基于几何上下文在三维上生成遮挡锥体来投影遮挡区。在上述任何一个例子中，或任何其他示例，附加地或替代地，指令被执行，以通过基于几何上下文将感兴趣区域投影到遮挡锥体的固定平面来生成遮挡的感兴趣区域集合。在上述任何一个例子中，或任何其他示例，附加地或替代地，指令可执行，以通过应用部分基于几何上下文的分类标准来对每个感兴趣区域和每个遮挡的感兴趣区域进行分类。

在又一示例中，一种用于训练分类器以对对象进行分类的方法包括：接收针对场景的单目图像数据；接收针对场景的地面真值数据；确定针对场景的几何上下文，几何上下文包括相对于地平面的三维相机的位置；确定单目图像数据内的感兴趣区域集合；基于感兴趣区域集合，标识具有一个或多个潜在遮挡物的集合；针对所标识的每个潜在遮挡物，基于几何上下文，将遮挡区投影到三维中的地平面上；针对每个遮挡区，生成在三维中的地平面上的遮挡的感兴趣区域集合；将每个遮挡的感兴趣区域在投影回到二维中的图像数据；通过以下方式训练分类器：最小化损失函数，该损失函数通过将与感兴趣区域集合和遮挡的感兴趣区域集合有关的信息输入分类器而生成；以及基于地面真值数据，将集合中的每个感兴趣区域和每个遮挡的感兴趣区域在地平面上的位置误差最小化；以及输出用于对象检测的所训练的分类器。在上述任何一个示例方法中，或任何其他示例方法，附加地或替代地，投影遮挡区可以包括基于几何上下文生成在三维中生成遮挡锥体。在上述任何一个示例方法中，附加地或替代地，最小化损失函数可以包括在针对前景、背景，以及遮挡的感兴趣区域的每个在每区域损失的计算期间，对对象位置和比例一致性进行建模。

应当理解，本文描述的配置和/或方法本质上是示例性的，并且这些特定实施例或示例不应被视为限制性的，因为许多变化是可能的。在此描述的特定例程或方法可以代表任何数量的处理策略中的一种或多种。因此，所示和/或描述的各种动作可以按照所示和/或描述的顺序、以其他顺序、并行或省略来执行。同样，上述过程的顺序可以改变。

本公开的主题包括本文公开的各种过程、系统和配置以及本文公开的其他特征、功能、动作和/或特性的所有新颖和非显而易见的组合和子组合，以及任何和其中所有等同物。

Claims

1.一种用于训练分类器以对对象进行分类的计算系统，所述计算系统包括：

逻辑机器；以及

存储机器，保存指令，所述指令在被执行时使所述逻辑机器：

接收针对场景的单目图像数据；

接收针对所述场景的地面真值数据；

确定针对所述场景的几何上下文，所述几何上下文包括相对于固定平面的三维相机位置；

确定所述单目图像数据内的感兴趣区域集合；

基于所述感兴趣区域集合，标识一个或多个潜在遮挡物的集合；

针对所标识的每个潜在遮挡物，基于所述几何上下文，将遮挡区投影到三维中的所述固定平面上；

针对每个遮挡区，生成三维中的所述固定平面上的遮挡的感兴趣区域集合；

将每个遮挡的感兴趣区域投影回到二维中的所述图像数据；

通过以下操作训练所述分类器：

最小化损失函数，所述损失函数通过将与所述感兴趣区域集合和所述遮挡的感兴趣区域集合有关的信息输入所述分类器中而被生成；以及

基于所述地面真值数据，最小化所述集合中的每个感兴趣区域和每个遮挡的感兴趣区域在所述固定平面上的位置误差；

以及

输出所述分类器以用于对象检测。

2.根据权利要求1所述的计算系统，其中所述固定平面是地平面。

3.根据权利要求1所述的计算系统，其中所述指令可执行，以通过从所述地面真值数据中提取相对于所述固定平面的所述三维相机位置来确定针对所述场景的所述几何上下文。

4.根据权利要求1所述的计算系统，其中所述指令可执行，以通过从所述单目图像数据中得到相对于所述固定平面的所述三维相机位置来确定针对所述场景的所述几何上下文。

5.根据权利要求1所述的计算系统，其中所述指令可执行，以基于针对感兴趣区域的置信度水平大于阈值来确定所述一个或多个潜在遮挡物。

6.根据权利要求1所述的计算系统，其中所述指令可执行，以通过基于所述几何上下文在三维中生成遮挡锥体来投影所述遮挡区。

7.根据权利要求6所述的计算系统，其中所述指令可执行，以通过基于所述几何上下文将边界框投影到所述遮挡锥体的所述固定平面上来生成所述遮挡的感兴趣区域集合。

8.根据权利要求1所述的计算系统，其中所述指令可执行，以通过针对前景、背景，以及遮挡的感兴趣区域中的每个在每区域损失的计算期间，对对象位置和比例一致性进行建模，来最小化所述损失函数。

9.根据权利要求1所述的计算系统，其中最小化位置误差包括将前景、背景，以及遮挡的感兴趣区域中的每个以及地面真值重投影回到3D空间上。

10.根据权利要求1所述的计算系统，其中所述分类器包括一个或多个基于候选的深度神经网络。

11.一种用于执行对象检测的方法，包括：

接收针对场景的单目图像数据；

确定针对所述场景的几何上下文，所述几何上下文包括相对于固定平面的三维相机的位置；

生成所述单目图像数据内的感兴趣区域集合；

在所述感兴趣区域集合内，标识一个或多个潜在遮挡物的集合；

针对每个遮挡区，绘制遮挡的感兴趣区域集合；

将每个感兴趣区域以及每个遮挡的感兴趣区域分类为作为感兴趣的对象的可能性；以及

输出针对每个感兴趣区域和每个遮挡的感兴趣区域的分类。

12.根据权利要求11所述的方法，其中所述固定平面是地平面。

13.根据权利要求11所述的方法，其中确定针对所述场景的所述几何上下文包括从所述单目图像数据中得到相对于所述固定平面的所述三维相机位置。

14.根据权利要求11所述的方法，其中所述一个或多个潜在遮挡物的集合基于针对感兴趣区域的置信度水平大于阈值而被标识。

15.根据权利要求11所述的方法，其中对每个感兴趣区域和每个遮挡的感兴趣区域进行分类包括应用部分基于所述几何上下文的分类标准。