CN108701376B

CN108701376B - 三维图像的基于识别的对象分割

Info

Publication number: CN108701376B
Application number: CN201780009208.1A
Authority: CN
Inventors: G·库特里洛夫
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2016-02-09
Filing date: 2017-01-06
Publication date: 2023-07-18
Anticipated expiration: 2037-01-06
Also published as: WO2017139049A1; US10482681B2; US20170228940A1; CN108701376A

Abstract

提供用于在场景的3D图像中分割对象的技术。示例性方法可以包括接收场景的3D图像帧。每个3D图像帧与产生3D图像帧的深度照相机的姿态相关联。方法还可以包括：基于对象识别来检测每个帧中的对象；将标签与检测到的对象相关联；计算对象周围的2D限位框；并且计算限位框的中心的3D位置。方法还可以包括：基于标签和限位框的中心的位置，将检测到的对象与从先前接收的图像帧创建的现有对象边界集匹配；或者如果匹配失败，则创建与检测到的对象相关联的新对象边界集。

Description

三维图像的基于识别的对象分割

背景技术

存在可能需要从场景的三维(3D)图像中分割出一个或多个对象的许多应用。例如，在许多基于计算机视觉的任务中的初步操作是从对象出现的场景中分割出一些特定的感兴趣对象，以用于后续分析。需要3D分割的另一示例性应用是盒体测量。来自深度照相机的3D图像提供照相机与场景内的对象之间的距离，其可以用于获得诸如盒体或箱体的对象的表面积或体积的测量结果。然而，首先需要执行感兴趣对象的3D分割，以确保用于计算对象尺寸的采样点不属于周围环境。用于3D分割的又一示例性应用在于机器人领域，更具体地，在于导航机器人通过任意环境的问题。通常，机器人必须执行各种计算以理解场景的几何形状，这允许它做出某些决定。例如，机器人必须能够估计其路径上两个相邻对象之间的距离，以决定其是否能够从对象之间通过。分割问题通常被认为是困难的并且现有技术受到各种限制和问题的困扰，特别是当对象由具有不同几何形状的多个部分组成时或者当对象包括不同材料和纹理时。

附图说明

本专利或申请文件包含至少一幅彩色附图。具有彩色附图的本专利或专利申请公开的副本将在请求和支付必要费用后由主管局提供。

所要求保护的主题的实施例的特征和优点将随着以下详细描述的进行并且参考附图而变得显而易见，其中相同的数字表示相同的部分。

图1是根据本文公开的某些实施例的用于三维(3D)图像分割的系统的顶层框图。

图2示出根据本文公开的某些实施例的示例性彩色图像和深度图。

图3示出根据本文公开的某些实施例的3D图像中的分割对象的示例。

图4是根据本文公开的某些实施例配置的分割电路的更详细框图。

图5示出根据本文公开的某些实施例的二维(2D)限位框的示例。

图6示出根据本文公开的某些实施例的与对象边界集中的像素相关联的示例性位置和射线。

图7是示出根据本文公开的某些实施例的用于边界调整的方法的流程图。

图8A、图8B、图8C和图8D示出根据本文公开的某些实施例的用于边界调整的射线的示例。

图9是示出根据本文公开的某些实施例的用于表面平面去除的方法的流程图。

图10是示出根据本文公开的某些实施例的用于3D图像分割的方法的流程图。

图11是示意性地示出根据本文公开的某些实施例配置的用于从3D图像分割对象的系统平台的框图。

尽管以下具体实施方式将参考说明性实施例进行，但是本领域技术人员将清楚其许多替换、修改和变化。

具体实施方式

通常，本公开提供用于在场景的3D图像中分割感兴趣对象的技术。与常规分割系统不同，本公开实现一种自上而下的方法，其包括初始三维检测对象并且随后去除场景中不是检测对象的部分的元素。利用如此检测和隔离的对象，然后可以辨识3D空间中指定整个对象的边界的对象边界点的集合。

根据实施例，深度照相机从不同视角捕获场景的多个图像。场景包括多个对象。采用对象识别技术来检测和标记每个图像中的对象，并且产生2D限位框以包含每个图像中的每个对象。尝试将对象与3D像素的现有对象边界集匹配。然而，如果找不到匹配，则创建新的对象边界集，其中包含2D限位框中包含的像素的3D投影。对象边界集中的3D像素还与描述与该像素的捕获相关联的照相机的视角的向量配对。如下面将更详细地解释的，基于像素的位置并且基于相关联的照相机视角向量，可以执行对象边界集的细化以消除像素重复并解决遮挡对象的问题。附加地，作为进一步细化，还可以从对象边界集中去除与对象可能所在的表面平面相关联的像素。

本文描述的用于3D对象分割的技术可以相对于常规技术提供许多改进，常规技术仅尝试将相似的像素组合在一起或者依赖于假设的对象几何形状，并且因此根据一些实施例，本文描述的技术可以更有效地处理更复杂的对象形状和不同纹理。分割技术可以以硬件或软件或其组合来实现，并且可以适用于期望从场景中3D分割对象的任何数量的应用。

图1是根据本文公开的某些实施例的用于三维(3D)图像分割的系统的顶层框图100。3D图像分割系统102被示出为包括分割电路104、边界调整电路106和表面平面去除电路108。系统102还可以包括或以其他方式耦合至深度照相机110和显示元件112。系统可以配置为可以相对于场景120移动的移动平台，以从多个视角或照相机姿态捕获3D图像帧。每个3D图像帧可以包括提供彩色(例如，红色、绿色和蓝色或RGB)像素的彩色图像帧以及提供深度像素的深度图帧。场景120可以包括一个或多个感兴趣对象，其中一些可以位于或以其他方式置于诸如桌子或架子的表面平面上。

如下面将更详细地解释的，分割电路104可以被配置为基于根据深度照相机的多个姿态获得的3D图像来产生场景中感兴趣对象的3D边界的初始估计。估计边界可以表示为与边界相关联的3D像素的集合。边界调整电路106可以被配置为通过从边界集中去除重复像素来改进估计边界，该重复像素是由从对象的不同视角获得的图像帧的处理产生的。边界调整电路106还可以被配置为去除与遮挡对象相关联的像素。表面平面去除电路108可以被配置为通过去除与对象可能所在的表面平面相关联的像素来进一步改进估计边界。

图2示出根据本文公开的某些实施例的示例性彩色图像和深度图。RGB图像帧202与由深度照相机提供的带家具的房间的场景的对应深度图帧204一起示出。场景包括各种对象，诸如桌子、灯、沙发等。RGB帧202捕获由图像的RGB像素表示的颜色数据，但是其他颜色方案也是可能的。在深度图帧204中，每个像素表示场景的该区域与照相机之间的距离。这可以通过每个像素的强度值来实现。在深度图帧204中，例如，像素指示与照相机的接近度。特别地，具有更暗(更强)像素210的区域相对远离照相机，而更亮(更弱)像素212距照相机更近。另外，已知或提供照相机的操作参数(诸如，焦距)，使得每个深度像素可以相对于照相机投影到场景中的3D位置。

图3示出根据本文公开的某些实施例的3D图像中的分割对象的示例。这里，图2示出相同的带家具房间，但是检测对象(例如，灯310、桌子320、沙发330等)已经用边界(蓝色)标记，以表示本文描述的分割处理的结果。更具体地，分割处理针对每个感兴趣对象产生3D点的集合，称为对象边界集，表示感兴趣对象的3D边界。

图4是根据本文公开的某些实施例配置的分割电路104的更详细框图。分割电路104被示出为包括照相机姿态跟踪电路404、对象检测电路408、对象边界集匹配电路410和对象边界集创建电路420。

当深度照相机110捕获场景120的新RGB和深度帧时，在操作402中，将它们提供到照相机姿态跟踪电路404。照相机姿态跟踪电路404可以被配置为计算并更新照相机的位置和取向(或姿态)。计算出的照相机姿态是从前一帧中照相机的位置和取向到当前帧中的位置和取向的3D变换。三个参数可以描述照相机在连续帧之间的平移(例如，x、y和z)。三个附加参数可以描述总共六个自由度(6DOF)的取向变化(例如，偏航、俯仰和滚转角)，其被计算以确定照相机相对于其在前一帧中的姿态的更新姿态。可以使用针对每一帧的照相机姿态的确定来建立全局坐标系，其在所有捕获的帧上是一致的，其中可以放置照相机姿态以及从深度图中提取的3D点。可以实时执行照相机姿态的计算。

在一些实施例中，可以使用基于RGB的同时定位和映射(SLAM)算法来计算照相机姿态，该算法被配置为从每个RGB帧中提取特征描述符、跨多个帧匹配对应特征以及通过三角测量来针对每一帧计算6DOF照相机姿态。替代地，可以独立地或与RGB SLAM技术的结果组合使用来自惯性传感器(诸如陀螺仪和加速度计)的数据，以获得照相机姿态的更具鲁棒性的估计。

在一些实施例中，照相机姿态的计算可以基于深度图。迭代最近点算法(ICP)可以应用于由照相机捕获的连续深度图，以对准两个点云集合并计算两者之间的变换。假设两个点云集合表示静态场景，则计算的变换描述捕获两个点云集合的照相机的移动。通过计算描述连续点云帧的照相机变换，可以计算每一帧的全局照相机姿态，并且可以将关联的点云累积到表示整个场景的3D重建的单个数据结构中。此外，场景中的每个点被多次采样，因此，可以计算其3D位置的加权平均值，从而产生场景的更高质量的3D重建。此外，依赖于深度数据的下面描述的分割技术可以直接在由照相机提供的深度图上操作，或者基于对准连续的深度帧并对累积的点的3D位置求平均来在3D重建上操作。在一些实施例中，可以使用鉴于本公开的其他已知技术来估计照相机姿态。

照相机姿态跟踪电路在全局坐标系中确定每一帧处的照相机的3D位置。因此，从关联的深度图中提取的3D点也可以变换到该坐标系中。因此，针对每一帧的照相机姿态的计算允许将在不同时间获得的深度图集成到单个3D空间中。每个照相机帧还包括RGB图像，其可以类似地与6DOF照相机姿态相关联。

当扫描场景时，照相机运动可能相对较慢，使得连续RGB图像之间可能存在显著重叠。在操作406中，如果照相机姿态的变化不超过阈值，则RGB帧的处理可能不合理，并且系统将等待后续帧捕获。可以基于系统的处理能力和/或照相机扫描运动的预期速度来设定阈值。

对象检测电路408可以被配置为处理RGB图像，并且在一些实施例中，还可以处理关联的深度图，以产生在图像中识别到的任何感兴趣对象的列表。可以将标签附加到每个识别到的对象上，并且产生包含对象的2D限位框。附加地，计算2D限位框的中心的3D位置。图5示出应用于在与一个照相机姿态相关联的场景的RGB图像中识别到的对象的2D限位框的示例。例如，限位框510包含被识别并标记为灯的对象。

可以使用任何合适的对象检测技术来识别场景中的对象，并计算其在图像中的位置，包括例如使用词袋(bag-of-words)视觉模型的模板匹配或分类。在一些实施例中，检测电路408采用深度学习方法，特别地，采用卷积神经网络。一些神经网络方法将图像处理为输入并计算给定对象存在于图像中的概率。可以使用可以逐渐应用于图像的滑动窗口、裁剪图像的更小区域以及将网络应用于每个窗口，来完成对图像中对象位置的确定。用于对象定位的其他技术首先滤除并拒绝不太可能包含对象的那些窗口。重要的是，这些方法通常对于可视角度是不变的，使得可以从多个照相机姿态检测同一对象及其对应的2D位置。

如果可能，对象边界集匹配电路410可以被配置为寻找匹配每个检测到的对象的适当现有对象边界集。匹配基于检测到的对象与每个现有对象边界集(如果有的话)之间的对象标签和/或2D限位框的中心的3D位置的比较。可以使用比较阈值来说明当从不同照相机视角捕获时，与同一对象对应的2D限位框的估计中心可能稍微变化的事实。

对象边界集创建电路420可以被配置为如果对象边界集匹配电路410未找到针对检测到的对象的合适匹配，则创建新对象边界集。对于每个不匹配的检测到的感兴趣对象，扫描包含对象的2D限位框以分析限位框内的每个像素。在操作412中，对于每个像素，通过对关联的深度图进行采样以获得关联的深度像素并将该深度像素投影到3D空间中的点来计算2D像素的关联3D位置。然后，在操作414中，产生从照相机延伸到3D空间中的投影点的位置的射线。在操作416中，将该3D位置处的点包括在对象边界集中。为了在对象边界集中表示该点，存储两个3元素向量：全局坐标系中点的3D(x、y、z)位置，以及表示从照相机位置延伸到该点的射线的向量(本文称为“照相机射线”)。图6以俯视图示出这一点，其示出照相机110在给定姿态中的位置以及包含在2D限位框630中的对象610。还示出两个示例性像素点630和640以及从照相机延伸到交集的射线620，每个像素点都在对象的边界上。在处理2D限位框中的每个像素之后，以新的照相机姿态继续图像捕获，直到完成场景扫描(操作418)。

当完成场景扫描时，存在针对在场景中检测到的每个对象的单个对象边界集。每个对象边界集包含从对象(从多个照相机视角捕获)的2D限位框中的像素投影的所有点的聚合。然后可以进一步处理对象边界集以去除同一点的多个样本(从不同照相机视角看到的)，并且去除包括在限位框中的不正确的点(不属于感兴趣对象)，例如，由于存在遮挡感兴趣对象视野的其他对象而引起。

图7是示出根据本文公开的某些实施例的用于边界调整的方法的流程图700。边界调整电路106可以被配置为实现该方法，以通过从每个对象边界集中去除重复像素和与遮挡照相机对感兴趣对象的视野的其他对象相关联的像素，来改进检测到的对象的估计边界。在操作702中，考虑对象边界集中的每个点P，并且在操作704中，从点P沿先前针对该点存储的照相机射线的方向投射射线。该射线在本文中称为“点射线”。接下来，在操作706中，关于当前点P分析对象边界集中的所有点，并且选择足够靠近点射线(在给定阈值距离内)的任何点。所选点这一集合被称为“集合A”，并且集合A中的点被认为位于点射线上。

对于集合A中的每个点，提取关联的照相机射线并将其与当前点P的点射线进行比较。如果照相机射线的方向与当前点射线的方向相反，则在操作708中，从集合A中丢弃与照相机射线相关联的该点。为了确定照相机射线和点射线是否处于相反方向，可以计算两条射线的点积。如果两条射线的方向相差超过90度，则该点积的值将为负。因此，如果点积为负，则当观察对象的相反侧时，照相机可能捕获来自集合A的点，并且忽略关于点P的进一步考虑。换句话说，从集合A中丢弃的点不再是从对象边界集中去除的候选，因为在对象的另一侧，其不是点P的重复。

在集合A中的每个点被类似地处理之后，为了消除对象的另一侧上的点以免考虑去除，假设已经从对象的同一总体视图捕获集合A的剩余点，并且仅一个点将保留在对象边界集中。为了决定保留哪个点，在操作710中，将集合A的所有剩余点投影到点射线上。在操作712中，选择集合A中沿点射线的方向离点P最远的点，并且从对象边界集中丢弃其余点。集合A中在点射线上具有负位置(即，位于与点射线相反的方向)的任何点也被丢弃。注意，在该阶段中，也可以从对象边界集中丢弃点P。通过保留离点P最远的点(沿P的点射线方向)，将丢弃与遮挡对象相关联的点，因为根据定义，遮挡对象将比感兴趣对象更靠近照相机。

图8A、图8B、图8C和图8D进一步示出根据本文公开的某些实施例的用于边界调整的射线的使用。在图8A中，示出照相机110从由照相机射线830a描述的第一视角或姿态观看感兴趣对象610。遮挡对象810阻挡照相机沿该视角的视野，因此1号点可以包括在对象边界集中。在图8B中，照相机的视角随着场景被扫描而改变，并且新的照相机射线830b避开遮挡对象810。因此可以将2号点添加到对象边界集。在图8C中，照相机的视角再次改变，并且新的照相机射线830c提供对象610的相反侧的视野。因此可以将3号点添加到对象边界集。在图8D中，关于被选择为点P的点1，使用上面建立的术语，用对应的点射线840来示出对象边界集调整。从对象边界集中选择点2和3以包括在集合A中，因为它们足够靠近点射线840。消除点3以免考虑去除，因为其照相机射线620b与点射线840的方向相反(因为其相对于点P位于对象的相反侧)。点2保留在对象边界集中，因为其距点P最远(并且与感兴趣对象而不是遮挡对象正确关联)。因此，由于保留点2，所以将点1从对象边界集中去除。

图9是示出根据本文公开的某些实施例的用于表面平面去除的方法的流程图900。表面平面去除电路108可以被配置为实现本方法以通过去除对象可能所在的表面平面来改进检测到的对象的估计边界。感兴趣对象可能通常置于平坦表面上，诸如地板、桌架等。结果，可能的是，来自表面的点可能被错误地包括在边界形状中。因此，在一些实施例中，实现后处理操作，其中检测这样的表面平面，并从3D分割结果中去除。

在操作902中，将平面拟合算法应用于整个场景，以便检测场景内包含的平面。达成此目的的一种方法是通过扫描深度图并计算相邻深度像素的差异的叉积来计算表面的法向量。然后，基于空间接近度和向量值将法向量聚集成组。接下来，将平面拟合到每个集群。具体地，在xyz坐标系中，平面的公式可以表示为：

ax+by+cz+d＝0

这里，定义平面的常数a,b,c,d可以通过最小二乘拟合或鉴于本公开的其他已知技术来计算。

接下来，在操作904中，针对平坦表面列表扫描对象边界集，以检查交集。对于每个对象边界集，计算交点的子集。在操作906中，评估该交集相对于整个平坦表面的尺寸的尺寸，并且可以表示为比率。如果平坦表面延伸超出对象的边界，则可以合理地假设其表示支撑感兴趣对象的表面，并且其像素应该从对象边界集中排除。在一些实施例中，值90％可以用作比率的阈值(操作908)。也就是说，如果交集包含平坦表面所包含像素中的90％，则在操作910中，从对象边界集中排除平坦表面的所有像素。否则，对象边界集保持原样，并且评估下一检测到的对象边界集。

本公开描述一种用于3D分割的技术，在一些实施例中，该技术可以以交互方式实现。例如，可以在显示元件112上显示并更新分割结果，使得操作照相机的用户可以通过在感兴趣对象周围移动并继续用深度照相机对其进行扫描来继续细化并改进分割的质量，直到分割结果符合预期。

方法

图10是示出根据本公开的实施例的用于在场景的3D图像中分割对象的示例性方法1000的流程图。可以看出，示例性方法1000包括多个阶段和子过程，其顺序可以在实施例之间变化。然而，当在聚合中考虑时，这些阶段和子过程形成根据本文公开的某些实施例的用于3D图像分割的过程。例如，如上所述，可以使用图1所示的系统架构来实现这些实施例。然而，在其他实施例中可以使用其他系统架构，根据本公开这将是显而易见的。为此，图10所示的各种功能与图1所示的指定组件的相关性并不意味着暗示任何结构和/或使用限制。相反，其他实施例可以包括例如不同的集成度，其中由一个系统有效地实现多个功能。例如，在替代实施例中，单个模块可以用于实现方法1000的所有功能。因此，取决于实施方式的精细度，其他实施例可以具有更少或更多的模块和/或子模块。根据本公开，许多变化和替代配置将显而易见。

如图10所示，在一个实施例中，用于在场景的3D图像中分割对象的方法1000开始于，在操作1010中，在深度照相机扫描包含一个或多个对象的场景时从照相机接收场景的一系列3D图像帧。因此，每一帧可以从不同视角或照相机姿态提供场景的新视图。由深度照相机提供的每一帧可以包括具有彩色(RGB)像素的彩色图像帧和具有深度像素的深度图帧。接下来，在操作1020中，使用对象识别技术在每一帧中检测一个或多个对象，并且在操作1030中，将标签与每个检测到的对象相关联。

在操作1040中，计算包含检测到的对象的2D限位框，并且还计算与限位框的中心对应的3D位置。在操作1050中，尝试将检测到的对象与现有对象边界集匹配。匹配基于标签和限位框的3D中心位置。在操作1060中，如果匹配失败，则为检测到的对象创建新的对象边界集。对象边界集包括2D限位框中像素的3D位置以及每个像素的关联向量。向量指定从与当前照相机姿态相关联的深度照相机的位置到像素的射线或方向。

当然，在一些实施例中，可以执行附加操作，如先前结合系统所描述的。这些附加操作可以包括，例如，基于像素距照相机的距离并且还基于关联向量的方向，调整对象边界集以去除根据深度照相机的不同姿态产生的重复像素。调整还可以去除与遮挡对象相关联的像素。另外附加的操作可以包括，例如，检测对象可能所在的表面平面以及从对象边界集中去除与那些平面相关联的像素。

示例性系统

图11示出示例性系统1100，如本文所述，其可以被配置为例如基于对象识别来从场景的3D图像中分割对象。在一些实施例中，系统1100包括平台1110，其可以托管或以其他方式结合到个人计算机、工作站、膝上型计算机、超便携式计算机、平板电脑、触摸板、便携式计算机、手持式计算机、掌上电脑、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话和PDA、智能设备(例如，智能电话或智能平板电脑)、移动互联网设备(MID)等。在某些实施例中，可以使用不同设备的任何组合。

在一些实施例中，平台1110可以包括处理器1120、存储器1130、3D图像分割系统102、深度照相机106、网络接口1140、输入/输出(I/O)系统1150、显示元件112和存储系统1170的任何组合。可以进一步看出，还提供总线和/或互连1192，以允许以上列出的各种组件和/或未示出的其他组件之间的通信。平台1110可以通过网络接口1140耦合到网络1194，以允许与其他计算设备、平台或资源进行通信。根据本公开，未在图11的框图中反映出的其他组件和功能将显而易见，并且应当理解，其他实施例不限于任何特定的硬件配置。

处理器1120可以是任何合适的处理器，并且可以包括一个或多个协处理器或控制器，诸如音频处理器或图形处理单元，以帮助控制和处理与系统1100相关联的操作。在一些实施例中，处理器1120可以实现为任何数量的处理器核心。例如，处理器(或处理器核心)可以是任何类型或组合的处理器，诸如微处理器、嵌入式处理器、数字信号处理器(DSP)、图形处理器(GPU)、网络处理器、现场可编程门阵列或配置为执行代码的其他设备。处理器可以是多线程核心，因为其可以每个核心包括不止一个硬件线程上下文(或“逻辑处理器”)。处理器1120可以实现为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器。在一些实施例中，处理器1120可以被配置为x86指令集兼容处理器。

存储器1130可以使用任何合适类型的数字存储来实现，包括例如闪存和/或随机存取存储器(RAM)。在一些实施例中，存储器1130可以包括本领域技术人员已知的存储器层级和/或存储器高速缓存的各种层。存储器1130可以实现为易失性存储器设备，诸如但不限于RAM、动态RAM(DRAM)或静态RAM(SRAM)设备。存储系统1170可以实现为非易失性存储设备，诸如但不限于硬盘驱动器(HDD)、固态驱动器(SSD)、通用串行总线(USB)驱动器、光盘驱动器、磁带驱动器、内部存储设备、附加存储设备、闪存、备用电池的同步DRAM(SDRAM)和/或网络可访问存储设备中的一个或多个。在一些实施例中，存储1170可以包括当包括多个硬盘驱动器时增加对有价值数字媒介的存储性能增强保护的技术。

处理器1120可以被配置为执行操作系统(OS)1180，其可以包括任何合适的操作系统，诸如Google Android(Google Inc.，Mountain View，CA)、Microsoft Windows(Microsoft Corp.，Redmond，WA)、Linux或Apple OS X(Apple Inc.，Cupertino，CA)和/或各种实时操作系统。如根据本公开将理解的，本文提供的技术可以在不考虑结合系统1100提供的特定操作系统的情况下实现，因此也可以使用任何合适的现有或随后开发的平台来实现。

网络接口模块1140可以是任何适当的网络芯片或芯片组，其允许计算机系统1100和/或网络1194的其他组件之间的有线和/或无线连接，从而使系统1100能够与其他本地和/或远程计算系统、服务器和/或资源通信。例如，有线通信可以符合现有(或尚未开发)的标准，诸如以太网。例如，无线通信可以符合现有(或尚未开发)的标准，诸如包括LTE(长期演进)的蜂窝通信、无线保真(Wi-Fi)、蓝牙和/或近场通信(NFC)。示例性无线网络包括但不限于无线局域网、无线个域网、无线城域网、蜂窝网和卫星网。

I/O系统1150可以被配置为在计算机系统1100的各种I/O设备和其他组件之间进行连接。I/O设备可以包括但不限于显示元件112、深度照相机106和未示出的其他设备，诸如键盘、鼠标、扬声器、麦克风等。

I/O系统1150可以包括被配置为执行显示元件112的图像处理的图形子系统。例如，图形子系统可以是图形处理单元或视觉处理单元(VPU)。模拟或数字接口可以用于通信地耦合图形子系统和显示元件112。例如，接口可以是高清晰度多媒体接口(HDMI)、显示端口(DisplayPort)、无线HDMI和/或使用无线高清兼容技术的任何其他合适的接口中的任何一种。在一些实施例中，图形子系统可以集成到平台1110的处理器1120或任何芯片组中。在一些实施例中，显示元件112可以包括任何电视类型的监视器或显示器，包括液晶显示器(LCD)和发光二极管显示器(LED)。显示元件112可以包括例如计算机显示屏、触摸屏显示器、视频监视器、类似电视的设备和/或电视。显示元件112可以是数字和/或模拟的。在OS1180(或一个或多个软件应用)的控制下，平台1110可以在显示元件112上显示经处理的图像。图像可以由3D图像分割系统102、深度照相机106或其他源来提供。照相机106可以被配置为提供场景的彩色(RGB)和深度图像或扫描，从中可以产生对象的3D图像分割。

应当理解，在一些实施例中，系统1100的各种组件可以组合或集成在片上系统(SoC)架构中。在一些实施例中，组件可以是硬件组件、固件组件、软件组件或硬件、固件或软件的任何合适组合。

3D图像分割系统102被配置为从场景的3D图像中分割对象。分割可以采用对象识别技术，并且可以包括由深度照相机扫描场景以从多个视角或照相机姿态收集3D图像。3D图像分割系统102可以包括图1中所示和上文所述的任何或所有组件。3D图像分割系统102可以与耦合到或以其他方式形成系统1100的一部分的各种合适的软件和/或硬件一起实现或以其他方式使用。可以附加地或替代地实现3D图像分割系统102，或者以其他方式与能够向用户提供信息并从用户接收信息和命令的用户I/O设备结合使用。这些I/O设备可以包括显示元件112、诸如键盘的文本输入设备以及诸如鼠标的基于指针的输入设备。可以在其他实施例中使用的其他输入/输出设备包括触摸屏、触摸板、扬声器和/或麦克风。在其他实施例中可以使用其他输入/输出设备。

在一些实施例中，3D图像分割系统102可以安装在系统1100的本地，如图11的示例性实施例所示。替代地，系统1100可以以客户端-服务器布置(或基于本地和云的布置)来实现，其中使用小程序(诸如JavaScript小程序或其他可下载模块)向系统1100提供与3D图像分割系统102相关联的至少一些功能。这样的远程可访问模块或子模块可以响应于来自客户端计算系统的请求而实时提供，以访问具有客户端计算系统的用户感兴趣的资源的给定服务器。在这样的实施例中，服务器可以是网络1194的本地服务器或通过一个或多个其他网络和/或通信信道远程耦合到网络1194。在一些情况下，对给定网络或计算系统上的资源的访问可能需要诸如用户名、密码和/或遵守任何其他合适的安全机制的凭证。

在各种实施例中，系统1100可以实现为无线系统、有线系统或两者的组合。当实现为无线系统时，系统1100可以包括适合于通过无线共享媒介进行通信的组件和接口，诸如一个或多个天线、发射机、接收机、收发机、放大器、滤波器、控制逻辑等。无线共享媒介的示例可以包括无线频谱的部分，诸如射频频谱等。当实现为有线系统时，系统1100可以包括适合于通过有线通信媒介进行通信的组件和接口，诸如输入/输出适配器、用于将输入/输出适配器与对应的有线通信媒介连接的物理连接器、网络接口卡(NIC)、光盘控制器、视频控制器、音频控制器等。有线通信介质的示例可以包括引线、电缆金属线、印刷电路板(PCB)、背板、交换光纤、半导体材料、双绞线、同轴电缆、光纤等。

可以使用硬件元件、软件元件或两者的组合来实现各种实施例。硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如，晶体管、电阻器、电容器、电感器等)、集成电路、ASIC、可编程逻辑器件、数字信号处理器、FPGA、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。软件的示例可以包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子程序、功能、方法、进程、软件界面、应用程序界面、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号或其任何组合。确定是否使用硬件要素和/或软件要素实施实施例可以根据任何数目的因素而变化，例如期望的计算速率、功率水平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度和其他设计或性能约束。

可以使用表达“耦合”和“连接”及其派生词来描述一些实施例。这些术语不是作为彼此的同义词。例如，可以使用术语“连接”和/或“耦合”来描述一些实施例，以指示两个或更多个元件彼此直接物理或电接触。然而，术语“耦合”也可以表示两个或更多个元件彼此不直接接触，但仍然彼此协作或相互作用。

本文公开的各种实施例可以以各种形式的硬件、软件、固件和/或专用处理器来实现。例如，在一个实施例中，至少一个非暂时性计算机可读存储介质上具有编码的指令，当由一个或多个处理器执行时，指令使得本文公开的用于产生3D对象图像变化的一种或多种方法被实现。可以使用合适的编程语言对指令进行编码，诸如C、C++、面向对象的C、JavaScript、Visual Basic.NET、初学者的通用符号指令代码(BASIC)，或者替代地使用定制或专有指令集来对指令进行编码。指令可以以有形地体现在存储器设备上并且可以由具有任何合适架构的计算机执行的一个或多个计算机软件应用和/或小程序的形式提供。在一个实施例中，系统可以托管在给定网站上并且例如使用JavaScript或其他合适的基于浏览器的技术来实现。例如，在某些实施例中，3D图像分割系统102可以通过利用由经由网络1194可访问的远程计算机系统提供的处理资源来操作。在其他实施例中，本文公开的功能可以合并到其他软件应用中，诸如图像管理应用。本文公开的计算机软件应用可以包括任何数量的不同模块、子模块或不同功能的其他组件，并且可以向其他组件提供信息或从其他组件接收信息。例如，这些模块可以用于与输入和/或输出设备通信，诸如显示屏、触敏表面、打印机和/或任何其他合适的设备。根据本公开，未在图中反映出的其他组件和功能将显而易见，并且应当理解，其他实施例不限于任何特定的硬件或软件配置。因此，在其他实施例中，与图11的示例性实施例中包括的那些相比，系统1100可以包括附加的、更少的或替代的子组件。

上述非暂时性计算机可读介质可以是用于存储数字信息的任何合适的介质，诸如硬盘驱动器、服务器、闪存和/或随机存取存储器(RAM)或存储器的组合。在替代实施例中，本文公开的组件和/或模块可以用硬件实现，包括诸如现场可编程门阵列(FPGA)的门级逻辑，或者替代地包括诸如专用集成电路(ASIC)的专用半导体。其他实施例可以用具有用于接收和输出数据的多个输入/输出端口和用于执行本文公开的各种功能的多个嵌入式例程的微控制器来实现。显而易见的是，可以使用硬件、软件和固件的任何合适组合，并且其他实施例不限于任何特定系统架构。

一些实施例可以例如使用机器可读介质或物品来实现，该机器可读介质或物品可以存储一条指令或一组指令，如果机器执行指令，则可以使机器根据实施例实现方法和/或操作。这样的机器可以包括例如任何合适的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、处理器等，并且可以使用硬件和/或软件的任何合适的组合来实现。机器可读介质或物品可以包括例如任何合适类型的存储单元、存储设备、存储物品、存储介质、储存设备、储存物品、储存介质和/或储存单元，诸如存储器、可移动或不可移动介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、光盘只读存储器(CD-ROM)、可记录光盘(CD-R)存储器、可重写光盘(CD-RW)存储器、光盘、磁介质、磁光介质、可移动存储卡或磁盘、各种类型的数字通用光盘(DVD)、磁带、盒式磁带等。指令可以包括使用任何合适的高级、低级、面向对象、可视、编译和/或解译编程语言实现的任何合适类型的代码，例如源代码、编译代码、解译代码、可执行代码、静态代码、动态代码、加密代码等。

除非另有特别说明，否则可以理解的是，诸如“处理”、“计算”、“运算”、“确定”等的术语是指计算机或计算系统或类似电子计算设备的动作和/或处理，其将在计算机系统的寄存器和/或存储器单元内表示为物理量(例如，电子)的数据操作和/或转换成类似地表示为计算机系统的寄存器、存储器单元或其他这样的信息存储、传输或显示设备内的物理量的其他数据。实施例在这方面不受限制。

在本文的任何实施例中使用的术语“电路”或“电路系统”可以单独地或以任何组合包括例如硬连线电路、可编程电路(诸如包括一个或多个单独指令处理核心的计算机处理器)、状态机电路和/或存储由可编程电路执行的指令的固件。电路可以包括处理器和/或控制器，其被配置为执行一个或多个指令以实现本文描述的一个或多个操作。指令可以体现为例如应用、软件、固件等，其被配置为使电路执行任何上述操作。软件可以体现为记录在计算机可读存储设备上的软件分组、代码、指令、指令集和/或数据。软件可以体现或实现为包括任何数量的处理，并且处理又可以以分层方式体现或实现为包括任何数量的线程等。固件可以体现为在存储器设备中硬编码(例如，非易失性)的代码、指令或指令集和/或数据。电路可以共同地或单独地实现为形成更大系统的一部分的电路，例如，集成电路(IC)、专用集成电路(ASIC)、片上系统(SoC)、桌面计算机、膝上型计算机、平板计算机、服务器、智能电话等。其他实施例可以实现为由可编程控制设备执行的软件。如本文所述，可以使用硬件元件、软件元件或其任何组合来实现各种实施例。硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如，晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。

本文阐述了许多具体细节以提供对实施例的透彻理解。然而，本领域普通技术人员将会理解，可以在没有这些具体细节的情况下实践这些实施例。在其他实例中，公知的操作、组件和电路未被详细描述以免混淆实施例。可以理解的是，本文公开的具体结构和功能细节可以是代表性的，并且不一定限制实施例的范围。另外，虽然已经用结构特征和/或方法动作专用的语言描述了本主题，但是应当理解，所附权利要求中限定的主题不一定限于本文公开的具体特征或动作。相反，本文公开的具体特征和动作是作为实施权利要求的示例性形式而公开的。

其他示例性实施例

以下示例涉及其他实施例，其中许多排列和配置将是显而易见的。

示例1是一种用于对象的三维(3D)分割的方法。该方法包括：接收场景的多个3D图像帧，其中，每个3D图像帧与产生3D图像帧的深度照相机的姿态相关联；基于对象识别来检测每个3D图像帧中的一个或多个对象；将标签与检测到的对象相关联；计算包含检测到的对象的二维(2D)限位框和2D限位框的中心的3D位置；将检测到的对象与从先前接收的3D图像帧创建的现有对象边界集匹配，该匹配基于标签和2D限位框的中心的3D位置；以及响应于匹配失败，创建与检测到的对象相关联的新对象边界集。

示例2包括示例1的主题，其中，对象边界集包括与对象的边界对应的2D限位框中的像素的3D位置，并且还包括与像素相关联的向量，该向量指定从与对应姿态相关联的深度照相机的位置到每个像素的射线。

示例3包括示例1和2的主题，还包括：调整对象边界集以去除根据深度照相机的不同姿态产生的重复像素，该去除基于像素距照相机的距离并且还基于关联向量的方向。

示例4包括示例1-3的主题，还包括：调整对象边界集以去除与遮挡对象相关联的像素。

示例5包括示例1-4的主题，还包括：检测场景中的表面平面；计算检测到的表面平面与对象边界集的交集；计算交集中的像素与检测到的表面平面中的像素的比率；并且如果比率小于阈值，则从对象边界集中去除检测到的表面平面中的像素。

示例6包括示例1-5的主题，其中，表面平面的检测还包括：将法向量计算为3D图像帧的相邻深度像素的差异的叉积；基于法向量的值和空间接近度来对法向量进行聚集；并且基于最小二乘拟合将平面拟合到每个集群中。

示例7包括示例1-6的主题，其中，深度照相机的每种姿态通过以下之一来估计：使用基于对3D图像帧的深度像素执行的迭代最近点(ICP)匹配操作的照相机变换；或使用对3D图像帧的红-绿-蓝(RGB)像素执行的同时定位和映射(SLAM)操作；或基于深度照相机中的惯性传感器提供的数据。

示例8包括示例1-7的主题，其中，对象识别基于模板匹配、使用词袋视觉模型的分类和使用卷积神经网络的分类中的至少一个。

示例9是一种用于对象的三维(3D)分割的系统，该系统包括：对象检测电路，用于：基于对象识别，在场景的多个3D图像帧中的每一个中检测一个或多个对象，其中，多个3D图像帧由深度照相机捕获，每个3D图像帧与深度照相机的姿态相关联；将标签与检测到的对象相关联；并且计算包含检测到的对象的二维(2D)限位框和2D限位框的中心的3D位置；对象边界集匹配电路，用于将检测到的对象与从先前接收的3D图像帧创建的现有对象边界集匹配，该匹配基于标签和2D限位框的中心的3D位置；以及对象边界集创建电路，用于响应于匹配失败，创建与检测到的对象相关联的新对象边界集。

示例10包括示例9的主题，其中，对象边界集包括与对象的边界对应的2D限位框中的像素的3D位置，并且还包括与像素相关联的向量，该向量指定从与对应姿态相关联的深度照相机的位置到每个像素的射线。

示例11包括示例9和10的主题，还包括：边界调整电路，用于调整对象边界集以去除根据深度照相机的不同姿态产生的重复像素，该去除基于像素距照相机的距离并且还基于关联向量的方向。

示例12包括示例9-11的主题，其中，边界调整电路还用于调整对象边界集以去除与遮挡对象相关联的像素。

示例13包括示例9-12的主题，还包括：表面平面去除电路，用于：检测场景中的表面平面；计算检测到的表面平面与对象边界集的交集；计算交集中的像素与检测到的表面平面中的像素的比率；并且如果比率小于阈值，则从对象边界集中去除检测到的表面平面中的像素。

示例14包括示例9-13的主题，其中，表面平面去除电路还用于：将法向量计算为3D图像帧的相邻深度像素的差异的叉积；基于法向量的值和空间接近度来对法向量进行聚集；并且基于最小二乘拟合将平面拟合到每个集群中，以检测场景中的表面平面。

示例15包括示例9-14的主题，其中，深度照相机的每种姿态通过以下之一来估计：使用基于对3D图像帧的深度像素执行的迭代最近点(ICP)匹配操作的照相机变换；或使用对3D图像帧的红-绿-蓝(RGB)像素执行的同时定位和映射(SLAM)操作；或基于深度照相机中的惯性传感器提供的数据。

示例16包括示例9-15的主题，其中，对象识别基于模板匹配、使用词袋视觉模型的分类和使用卷积神经网络的分类中的至少一个。

示例17包括示例9-16的主题，还包括深度照相机。

示例18是包括示例9-17的系统的片上系统或芯片组。

示例19是至少一种非暂时性计算机可读存储介质，其上编码有指令，该指令在由一个或多个处理器执行时，实现对象的三维(3D)分割的以下操作，该操作包括：接收场景的多个3D图像帧，其中，每个3D图像帧与产生3D图像帧的深度照相机的姿态相关联；基于对象识别来检测每个3D图像帧中的一个或多个对象；将标签与检测到的对象相关联；计算包含检测到的对象的二维(2D)限位框以及2D限位框的中心的3D位置；将检测到的对象与从先前接收的3D图像帧创建的现有对象边界集匹配，该匹配基于标签和2D限位框的中心的3D位置；以及响应于匹配失败，创建与检测到的对象相关联的新对象边界集。

示例20包括示例19的主题，其中，对象边界集包括与对象的边界对应的2D限位框中的像素的3D位置，并且还包括与像素相关联的向量，该向量指定从与对应姿态相关联的深度照相机的位置到每个像素的射线。

示例21包括示例19和20的主题，还包括：调整对象边界集以去除根据深度照相机的不同姿态产生的重复像素，该去除基于像素距照相机的距离并且还基于关联向量的方向。

示例22包括示例19-21的主题，还包括：调整对象边界集以去除与遮挡对象相关联的像素。

示例23包括示例19-22的主题，还包括：检测场景中的表面平面；计算检测到的表面平面与对象边界集的交集；计算交集中的像素与检测到的表面平面中的像素的比率；并且如果比率小于阈值，则从对象边界集中去除检测到的表面平面中的像素。

示例24包括示例19-23的主题，其中，表面平面的检测还包括：将法向量计算为3D图像帧的相邻深度像素的差异的叉积；基于法向量的值和空间接近度来对法向量进行聚集；并且基于最小二乘拟合将平面拟合到每个集群中。

示例25包括示例19-24的主题，其中，深度照相机的每种姿态通过以下之一来估计：使用基于对3D图像帧的深度像素执行的迭代最近点(ICP)匹配操作的照相机变换；或使用对3D图像帧的红-绿-蓝(RGB)像素执行的同时定位和映射(SLAM)操作；或或基于深度照相机中的惯性传感器提供的数据。

示例26包括示例19-25的主题，其中，对象识别基于模板匹配、使用词袋视觉模型的分类和使用卷积神经网络的分类中的至少一个。

示例27是一种用于对象的三维(3D)分割的系统，该系统包括：用于接收场景的多个3D图像帧的模块，其中，每个3D图像帧与产生3D图像帧的深度照相机的姿态相关联；用于基于对象识别来检测每个3D图像帧中的一个或多个对象的模块；用于将标签与检测到的对象相关联的模块；用于计算包含检测到的对象的二维(2D)限位框以及2D限位框的中心的3D位置的模块；用于将检测到的对象与从先前接收的3D图像帧创建的现有对象边界集匹配的模块，该匹配基于标签和2D限位框的中心的3D位置；以及用于响应于匹配失败而创建与检测到的对象相关联的新对象边界集的模块。

示例28包括示例27的主题，其中，对象边界集包括与对象的边界对应的2D限位框中的像素的3D位置，并且还包括与像素相关联的向量，该向量指定从与对应姿态相关联的深度照相机的位置到每个像素的射线。

示例29包括示例27和28的主题，还包括：用于调整对象边界集以去除根据深度照相机的不同姿态产生的重复像素的模块，该去除基于像素距照相机的距离并且还基于关联向量的方向。

示例30包括示例27-29的主题，还包括：用于调整对象边界集以去除与遮挡对象相关联的像素的模块。

示例31包括示例27-30的主题，还包括：用于检测场景中的表面平面的模块；用于计算检测到的表面平面与对象边界集的交集的模块；用于计算交集中的像素与检测到的表面平面中的像素的比率的模块；以及用于在比率小于阈值的情况下从对象边界集中去除检测到的表面平面中的像素的模块。

示例32包括示例27-31的主题，其中，表面平面的检测还包括：用于将法向量计算为3D图像帧的相邻深度像素的差异的叉积的模块；用于基于法向量的值和空间接近度来对法向量进行聚集的模块；以及用于基于最小二乘拟合将平面拟合到每个集群中的模块。

示例33包括示例27-32的主题，其中，深度照相机的每种姿态通过以下之一来估计：使用基于对3D图像帧的深度像素执行的迭代最近点(ICP)匹配操作的照相机变换；和使用对3D图像帧的红-绿-蓝(RGB)像素执行的同时定位和映射(SLAM)操作；以及基于深度照相机中的惯性传感器提供的数据。

示例34包括示例27-33的主题，其中，对象识别基于模板匹配、使用词袋视觉模型的分类和使用卷积神经网络的分类中的至少一个。

本文采用的术语和表达用作描述的术语而非限制，并且在使用这些术语和表达时，不旨在排除所示和所述特征的任何等同物(或其部分，并且认识到在权利要求的范围内可以进行各种修改。因此，权利要求旨在涵盖所有这些等同物。本文已经描述了各种特征、方面和实施例。如本领域技术人员将理解的，特征、方面和实施例易于彼此组合以及变化和修改。因此，本公开应被视为包含这样的组合、变化和修改。意图在于，本公开的范围不受该详细描述的限制，而是受所附权利要求的限制。要求本申请优先权的未来提交的申请可以以不同的方式要求保护所公开的主题，并且通常可以包括本文中不同地公开或以其他方式展示的一个或多个要素的任何集合。

Claims

1.一种处理器实现的用于对象的三维（3D）分割的方法，所述方法包括：

通过处理器接收场景的多个3D图像帧，其中，每个所述3D图像帧与产生所述3D图像帧的深度照相机的姿态相关联；

基于对象识别，通过所述处理器检测每个所述3D图像帧中的一个或多个对象；

通过所述处理器将标签与检测到的对象相关联；

通过所述处理器计算包含检测到的对象的二维（2D）限位框和所述2D限位框的中心的3D位置；

通过所述处理器将检测到的对象与从先前接收的3D图像帧创建的现有对象边界集匹配，所述匹配基于所述标签和所述2D限位框的中心的3D位置；以及

响应于所述匹配失败，通过所述处理器创建与检测到的对象相关联的新对象边界集。

2.根据权利要求1所述的方法，其中，所述对象边界集包括与所述对象的边界对应的2D限位框中的像素的3D位置，并且还包括与所述像素相关联的向量，所述向量指定从与对应姿态相关联的深度照相机的位置到每个所述像素的射线。

3.根据权利要求2所述的方法，还包括：调整所述对象边界集以去除根据所述深度照相机的不同姿态产生的重复像素，所述去除基于所述像素距照相机的距离并且还基于关联向量的方向。

4.根据权利要求3所述的方法，还包括：调整所述对象边界集以去除与遮挡对象相关联的像素。

5.根据权利要求1所述的方法，还包括：

检测所述场景中的表面平面；

计算检测到的表面平面与所述对象边界集的交集；

计算所述交集中的像素与检测到的表面平面中的像素的比率；并且

如果所述比率小于阈值，则从所述对象边界集中去除检测到的表面平面中的像素。

6.根据权利要求5所述的方法，其中，检测所述表面平面还包括：

将法向量计算为所述3D图像帧的相邻深度像素的差异的叉积；

基于法向量的值和空间接近度来对所述法向量进行聚集；并且

基于最小二乘拟合将平面拟合到每个集群中。

7.根据权利要求1或2所述的方法，其中，所述深度照相机的每种姿态通过以下之一来估计：使用基于对所述3D图像帧的深度像素执行的迭代最近点（ICP）匹配操作的照相机变换；或使用对所述3D图像帧的红-绿-蓝（RGB）像素执行的同时定位和映射（SLAM）操作；或基于所述深度照相机中的惯性传感器提供的数据。

8.根据权利要求1或2所述的方法，其中，所述对象识别基于模板匹配、使用词袋视觉模型的分类和使用卷积神经网络的分类中的至少一个。

9.一种用于对象的三维（3D）分割的系统，所述系统包括：

对象检测电路，用于：基于对象识别，在场景的多个3D图像帧中的每一个中检测一个或多个对象，其中，所述多个3D图像帧由深度照相机捕获，每个所述3D图像帧与所述深度照相机的姿态相关联；将标签与检测到的对象相关联；并且计算包含检测到的对象的二维（2D）限位框和所述2D限位框的中心的3D位置；

对象边界集匹配电路，用于将检测到的对象与从先前接收的3D图像帧创建的现有对象边界集匹配，所述匹配基于所述标签和所述2D限位框的中心的3D位置；以及

对象边界集创建电路，用于响应于所述匹配失败，创建与检测到的对象相关联的新对象边界集。

10.根据权利要求9所述的系统，其中，所述对象边界集包括与所述对象的边界对应的2D限位框中的像素的3D位置，并且还包括与所述像素相关联的向量，所述向量指定从与对应姿态相关联的深度照相机的位置到每个所述像素的射线。

11.根据权利要求10所述的系统，还包括：边界调整电路，用于调整所述对象边界集以去除根据所述深度照相机的不同姿态产生的重复像素，所述去除基于所述像素距照相机的距离并且还基于关联向量的方向。

12.根据权利要求11所述的系统，其中，所述边界调整电路还用于调整所述对象边界集以去除与遮挡对象相关联的像素。

13.根据权利要求9所述的系统，还包括表面平面去除电路，用于：

检测所述场景中的表面平面；

计算检测到的表面平面与所述对象边界集的交集；

14.根据权利要求13所述的系统，其中，所述表面平面去除电路还用于：

基于最小二乘拟合将平面拟合到每个集群中，以检测所述场景中的表面平面。

15.根据权利要求9或10所述的系统，其中，所述深度照相机的每种姿态通过以下之一来估计：使用基于对所述3D图像帧的深度像素执行的迭代最近点（ICP）匹配操作的照相机变换；或使用对所述3D图像帧的红-绿-蓝（RGB）像素执行的同时定位和映射（SLAM）操作；或基于所述深度照相机中的惯性传感器提供的数据。

16.根据权利要求9或10所述的系统，其中，所述对象识别基于模板匹配、使用词袋视觉模型的分类和使用卷积神经网络的分类中的至少一个。

17.根据权利要求9或10所述的系统，还包括所述深度照相机。

18.一种片上系统，包括根据权利要求9所述的系统。

19.一种芯片组，包括根据权利要求9所述的系统。

20.一种用于对象的三维（3D）分割的系统，所述系统包括：

用于接收场景的多个3D图像帧的模块，其中，每个所述3D图像帧与产生所述3D图像帧的深度照相机的姿态相关联；

用于基于对象识别来检测每个所述3D图像帧中的一个或多个对象的模块；

用于将标签与检测到的对象相关联的模块；

用于计算包含检测到的对象的二维（2D）限位框和所述2D限位框的中心的3D位置的模块；

用于将检测到的对象与从先前接收的3D图像帧创建的现有对象边界集匹配的模块，所述匹配基于所述标签和所述2D限位框的中心的3D位置；以及

用于响应于所述匹配失败而创建与检测到的对象相关联的新对象边界集的模块。

21.根据权利要求20所述的系统，其中，所述对象边界集包括与所述对象的边界对应的2D限位框中的像素的3D位置，并且还包括与所述像素相关联的向量，所述向量指定从与对应姿态相关联的深度照相机的位置到每个所述像素的射线。

22.根据权利要求21所述的系统，还包括：用于调整所述对象边界集以去除根据所述深度照相机的不同姿态产生的重复像素的模块，所述去除基于所述像素距照相机的距离并且还基于关联向量的方向。

23.根据权利要求22所述的系统，还包括：用于调整所述对象边界集以去除与遮挡对象相关联的像素的模块。

24.根据权利要求20所述的系统，还包括：

用于检测所述场景中的表面平面的模块；

用于计算检测到的表面平面与所述对象边界集的交集的模块；

用于计算所述交集中的像素与检测到的表面平面中的像素的比率的模块；并且

用于在所述比率小于阈值的情况下从所述对象边界集中去除检测到的表面平面中的像素的模块。

25.根据权利要求24所述的系统，其中，检测所述表面平面还包括：

用于将法向量计算为所述3D图像帧的相邻深度像素的差异的叉积的模块；

用于基于法向量的值和空间接近度来对所述法向量进行聚集的模块；并且

用于基于最小二乘拟合将平面拟合到每个集群中的模块。

26.根据权利要求20或21所述的系统，其中，所述深度照相机的每种姿态通过以下之一来估计：使用基于对所述3D图像帧的深度像素执行的迭代最近点（ICP）匹配操作的照相机变换；或使用对所述3D图像帧的红-绿-蓝（RGB）像素执行的同时定位和映射（SLAM）操作；或基于所述深度照相机中的惯性传感器提供的数据。

27.根据权利要求20或21所述的系统，其中，所述对象识别基于模板匹配、使用词袋视觉模型的分类和使用卷积神经网络的分类中的至少一个。