CN108496127B

CN108496127B - 集中于对象的有效三维重构

Info

Publication number: CN108496127B
Application number: CN201680079169.8A
Authority: CN
Inventors: A·阿加默汉马蒂; S·H·纳沙菲什沙塔里; R·B·托瓦
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2016-01-22
Filing date: 2016-12-22
Publication date: 2021-08-06
Anticipated expiration: 2036-12-22
Also published as: EP3405845B1; TW201732739A; CN108496127A; US20170213070A1; WO2017127218A1; EP3405845A1; US10372968B2

Abstract

一种用于通过基于采样的规划来引导装备有相机的机器人以促成三维(3D)重构的方法包括：识别和局部化二维(2D)图像中的对象。该方法还包括：计算经局部化的对象的3D深度图。从深度图构造3D对象图。在3D对象图周围形成基于采样的结构，并且向该基于采样的结构的每条边指派成本。可搜索基于采样的结构以确定最低成本的边序列，该边序列可进而用于引导机器人。

Description

集中于对象的有效三维重构

相关申请的交叉引用

本申请要求于2016年1月22日提交的题为“OBJECT-FOCUSED ACTIVE THREE-DIMENSIONAL RECONSTRUCTION(集中于对象的有效三维重构)”的美国临时专利申请No.62/286,032的权益，该临时专利申请的公开内容通过援引全部明确纳入于此。

背景

领域

本公开的某些方面一般涉及机器学习，尤其涉及改善集中于对象的三维重构和运动规划的系统和方法。

背景

使自主系统(诸如机器人)具有鉴于不确定性作出决定的能力是期望的。例如，在一些情形中，当在未知环境中进行操作时，还期望定位和标识该环境内的某些对象。此外，可能期望确定用于控制机器人与环境内的某些对象交互的规划。然而，确定此规划是计算密集的并且昂贵的。

概述

在本公开的一方面，给出了一种用于通过基于采样的规划来引导装备有相机的机器人以促成三维(3D)重构的方法。所述方法包括：识别和局部化二维(2D)图像中的对象。所述方法还包括：计算经局部化的对象的多个3D深度图以及从所述深度图构造3D对象图。所述方法进一步包括：在所述3D对象图周围形成基于采样的结构以及向所述基于采样的结构的每条边指派成本。另外，所述方法包括：搜索所述基于采样的结构以确定最低成本的边序列以及基于所述搜索来引导所述机器人。

在本公开的另一方面，给出了一种用于通过基于采样的规划来引导装备有相机的机器人以促成三维(3D)重构的装置。所述装置包括存储器和至少一个处理器。所述一个或多个处理器耦合到所述存储器并且被配置成：识别和局部化二维(2D)图像中的对象。所述(诸)处理器还被配置成：计算经局部化的对象的3D深度图以及从所述深度图构造3D对象图。所述(诸)处理器被进一步配置成：在所述3D对象图周围形成基于采样的结构以及向所述基于采样的结构的每条边指派成本。另外，所述(诸)处理器被配置成：搜索所述基于采样的结构以确定最低成本的边序列以及基于所述搜索来引导所述机器人。

在本公开的另一方面，给出了一种用于通过基于采样的规划来引导装备有相机的机器人以促成三维(3D)重构的设备。所述设备包括：用于识别和局部化二维(2D)图像中的对象的装置。所述设备还包括：用于计算经局部化的对象的3D深度图的装置以及用于从所述深度图构造3D对象图的装置。所述设备进一步包括：用于在所述3D对象图周围形成基于采样的结构的装置以及用于向所述基于采样的结构的每条边指派成本的装置。另外，所述设备包括：用于搜索所述基于采样的结构以确定最低成本的边序列的装置以及用于基于所述搜索来引导所述机器人的装置。

根据本公开的再一方面，给出了一种非瞬态计算机可读介质。所述非瞬态计算机可读介质上编码有用于通过基于采样的规划来引导装备有相机的机器人以促成三维(3D)重构的程序代码。所述程序代码由处理器执行并包括用于识别和局部化二维(2D)图像中的对象的程序代码。所述程序代码还包括：用于计算经局部化的对象的3D深度图以及从所述深度图构造3D对象图的程序代码。所述程序代码进一步包括：用于在所述3D对象图周围形成基于采样的结构以及向所述基于采样的结构的每条边指派成本的程序代码。另外，所述程序代码包括：用于搜索所述基于采样的结构以确定最低成本的边序列以及基于所述搜索来引导所述机器人的程序代码。

本公开的附加特征和优点将在下文描述。本领域技术人员应该领会，本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到，这样的等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而，要清楚理解的是，提供每一幅附图均仅用于解说和描述目的，且无意作为对本公开的限定的定义。

附图简述

在结合附图理解下面阐述的详细描述时，本公开的特征、本质和优点将变得更加明显，在附图中，相同附图标记始终作相应标识。

图1解说根据本公开的某些方面的使用片上系统(SOC)(包括通用处理器)来设计神经网络的示例实现。

图2解说根据本公开的各方面的系统的示例实现。

图3A是解说根据本公开的各方面的神经网络的示图。

图3B是解说根据本公开的各方面的示例性深度卷积网络(DCN)的框图。

图4是解说根据本公开的各方面的可将人工智能(AI)功能模块化的示例性软件架构的框图。

图5是解说根据本公开的各方面的智能手机上人工智能(AI)应用的运行时操作的框图。

图6是解说根据本公开的各方面的用于3D重构的框架的框图。

图7A是解说根据本公开的各方面的像素深度确定的示例性示图。

图7B是解说根据本公开的各方面的依赖于运动的深度方差的示例性示图。

图7C示出根据本公开的各方面的示例性操纵器。

图8解说根据本公开的各方面的用于引导装备有相机的机器人以促成3D重构的方法。

详细描述

以下结合附图阐述的详细描述旨在作为各种配置的描述，而无意表示可实践本文中所描述的概念的仅有的配置。本详细描述包括具体细节以便提供对各种概念的透彻理解。然而，对于本领域技术人员将显而易见的是，没有这些具体细节也可实践这些概念。在一些实例中，以框图形式示出众所周知的结构和组件以避免湮没此类概念。

基于本教导，本领域技术人员应领会，本公开的范围旨在覆盖本公开的任何方面，不论其是与本公开的任何其他方面相独立地还是组合地实现的。例如，可以使用所阐述的任何数目的方面来实现装置或实践方法。另外，本公开的范围旨在覆盖使用作为所阐述的本公开的各个方面的补充或者与之不同的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解，所披露的本公开的任何方面可由权利要求的一个或多个要素来实施。

措辞“示例性”在本文中用于表示“用作示例、实例或解说”。本文中描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。

尽管本文描述了特定方面，但这些方面的众多变体和置换落在本公开的范围之内。虽然提到了优选方面的一些益处和优点，但本公开的范围并非旨在被限定于特定益处、用途或目标。相反，本公开的各方面旨在能宽泛地应用于不同的技术、系统配置、网络和协议，其中一些作为示例在附图以及以下对优选方面的描述中解说。详细描述和附图仅仅解说本公开而非限定本公开，本公开的范围由所附权利要求及其等效技术方案来定义。

3D模型重构

本公开的诸方面涉及用于改善的3D模型重构的系统和方法。在一个示例性方面，可在用于自主机器人或其他代理(例如，操纵器、无人机、地面移动机器人、水面交通工具(例如，船)、水下交通工具、自主汽车等等)的运动规划的上下文中采用3D模型重构。在该上下文中，可能期望确定如何移动机器人以与环境中的对象交互或接触该对象。例如，机器人可被配置有相机。相机可被放置在机器人的抓取器或手内或周围。相机的位置和数目仅是示例性的，并且机器人或其他代理也可被配置有在各个位置处的多个相机。在该配置中，可相对于相机的运动来表征重构机制的精度。该信息可被纳入规划框架中以计算相机轨迹，该相机轨迹可产生对感兴趣的对象的改善的或高度精确的表面重构。

期望的目标可能是用机器人手臂来抓取对象(例如，杯子)。可以探索经由相机的环境的场景或当前视图来定位感兴趣的对象。探索过程的目标是移动操纵器和/或相机以便找到环境或场景中的对象(例如，图像中或相机的视场内的感兴趣的对象)。在一些方面，可使用随机搜索技术、覆盖技术、基于前沿的探索技术等等来进行场景探索。当识别出对象时，可基于该对象的相机图像来计算深度图。例如，可确定每幅图像中的像素的深度。深度信息或深度图可进而用于确定对象图，该对象图是经局部化的对象的3D重构。

对象图可以用于生成规划图。规划图可包括在要抓取的对象周围的候选运动的图。可确定候选运动中的每一者的成本。可选择具有最低成本的候选运动并使用该候选运动来移动机器人手臂。在移动机器人手臂时，可捕捉对象的附加图像并使用这些附加图像来确定后续的移动或移动序列。因此，可基于所生成的3D对象重构来确定用于用机器人的手臂来抓取对象的最佳或最高效的轨迹。

图1解说根据本公开的某些方面的用于使用片上系统(SOC)100、通过基于采样的规划来引导装备有相机的机器人以促成3D重构的示例实现，SOC 100可包括通用处理器(CPU)或多核通用处理器(CPU)102。变量(例如，神经信号和突触权重)、与计算设备相关联的系统参数(例如，带有权重的神经网络)、延迟、频率槽信息、以及任务信息可被存储在与神经处理单元(NPU)108相关联的存储器块中、与CPU 102相关联的存储器块中、与图形处理单元(GPU)104相关联的存储器块中、与数字信号处理器(DSP)106相关联的存储器块中、专用存储器块118中，或可跨多个块分布。在通用处理器102处执行的指令可从与CPU 102相关联的程序存储器加载或可从专用存储器块118加载。

SOC 100还可包括为具体功能定制的附加处理块(诸如GPU 104、DSP 106、连通性块110(其可包括第四代长期演进(4G LTE)连通性、无执照Wi-Fi连通性、USB连通性、蓝牙连通性等))以及例如可检测和识别姿势的多媒体处理器112。在一种实现中，NPU实现在CPU、DSP、和/或GPU中。SOC 100还可包括传感器处理器114、图像信号处理器(ISP)、和/或导航120(其可包括全球定位系统)。

SOC 100可基于ARM指令集。在本公开的一方面，被加载到通用处理器102中的指令可包括：用于识别和局部化二维(2D)图像中的对象的代码。被加载到通用处理器102中的指令还可包括：用于计算经局部化的对象的三维(3D)深度图以及从深度图构造3D对象图的代码。另外，被加载到通用处理器102中的指令可包括：用于在3D对象图周围形成基于采样的结构以及向该基于采样的结构的每条边指派成本的代码。此外，被加载到通用处理器102中的指令可包括：用于搜索基于采样的结构以确定最低成本的边序列以及基于该搜索来引导机器人的代码。

图2解说根据本公开的某些方面的系统200的示例实现。如图2中所解说的，系统200可具有可执行本文所描述的方法的各种操作的多个局部处理单元202。每个局部处理单元202可包括局部状态存储器204和可存储神经网络的参数的局部参数存储器206。另外，局部处理单元202可具有用于存储局部模型程序的局部(神经元)模型程序(LMP)存储器208、用于存储局部学习程序的局部学习程序(LLP)存储器210、以及局部连接存储器212。此外，如图2中所解说的，每个局部处理单元202可与用于为该局部处理单元的各局部存储器提供配置的配置处理器单元214对接，并且与提供各局部处理单元202之间的路由的路由连接处理单元216对接。

深度学习架构可通过学习在每一层中以逐次更高的抽象程度来表示输入、藉此构建输入数据的有用特征表示来执行对象识别任务。以此方式，深度学习解决了传统机器学习的主要瓶颈。在深度学习出现之前，用于对象识别问题的机器学习办法可能严重依赖人类工程设计的特征，或许与浅分类器相结合。浅分类器可以是两类线性分类器，例如，其中可将特征向量分量的加权和与阈值作比较以预测输入属于哪一类。人类工程设计的特征可以是由拥有领域专业知识的工程师针对具体问题领域定制的模板或内核。相反，深度学习架构可学习以表示与人类工程师可能会设计的相似的特征，但它是通过训练来学习的。另外，深度网络可以学习以表示和识别人类可能还没有考虑过的新类型的特征。

深度学习架构可以学习特征阶层。例如，如果向第一层呈递视觉数据，则第一层可学习以识别输入流中的相对简单的特征(诸如边)。在另一示例中，如果向第一层呈递听觉数据，则第一层可学习以识别特定频率中的频谱功率。取第一层的输出作为输入的第二层可以学习以识别特征组合，诸如对于视觉数据识别简单形状或对于听觉数据识别声音组合。例如，更高层可学习以表示视觉数据中的复杂形状或听觉数据中的词语。再高层可学习以识别常见视觉对象或口语短语。

深度学习架构在被应用于具有自然阶层结构的问题时可能表现特别好。例如，机动交通工具的分类可受益于首先学习以识别轮子、挡风玻璃、以及其他特征。这些特征可在更高层以不同方式被组合以识别轿车、卡车和飞机。

神经网络可被设计成具有各种连通性模式。在前馈网络中，信息从较低层被传递到较高层，其中给定层中的每个神经元向更高层中的神经元进行传达。如上所述，可在前馈网络的相继层中构建阶层式表示。神经网络还可具有回流或反馈(也被称为自顶向下(top-down))连接。在回流连接中，来自给定层中的神经元的输出可被传达给相同层中的另一神经元。回流架构可有助于识别跨越不止一个按顺序递送给该神经网络的输入数据组块的模式。从给定层中的神经元到较低层中的神经元的连接被称为反馈(或自顶向下)连接。当高层级概念的识别可辅助辨别输入的特定低层级特征时，具有许多反馈连接的网络可能是有助益的。

参照图3A，神经网络的各层之间的连接可以是全连接的(302)或局部连接的(304)。在全连接网络302中，第一层中的神经元可将它的输出传达给第二层中的每个神经元，从而第二层中的每个神经元将从第一层中的每个神经元接收输入。替换地，在局部连接网络304中，第一层中的神经元可连接至第二层中有限数目的神经元。卷积网络306可以是局部连接的，并且被进一步配置成使得与针对第二层中每个神经元的输入相关联的连接强度被共享(例如，308)。更一般化地，网络的局部连接层可被配置成使得一层中的每个神经元将具有相同或相似的连通性模式，但其连接强度可具有不同的值(例如，310、312、314和316)。局部连接的连通性模式可能在更高层中产生空间上相异的感受野，这是由于给定区域中的更高层神经元可接收到通过训练被调谐为到网络的总输入的受限部分的性质的输入。

局部连接的神经网络可能非常适合于其中输入的空间位置有意义的问题。例如，被设计成识别来自车载相机的视觉特征的网络300可发展具有不同性质的高层神经元，这取决于它们与图像下部关联还是与图像上部关联。例如，与图像下部相关联的神经元可学习以识别车道标记，而与图像上部相关联的神经元可学习以识别交通信号灯、交通标志等。

深度卷积网络(DCN)可以用受监督式学习来训练。在训练期间，可向DCN呈递图像(诸如限速标志的经裁剪图像326)，并且可随后计算“前向传递(forward pass)”以产生输出322。输出322可以是对应于特征(诸如“标志”、“60”、和“100”)的值向量。网络设计者可能希望DCN在输出特征向量中针对其中一些神经元输出高得分，例如与经训练的网络300的输出322中所示的“标志”和“60”对应的那些神经元。在训练之前，DCN产生的输出很可能是不正确的，并且由此可计算实际输出与目标输出之间的误差。DCN的权重可随后被调整以使得DCN的输出得分与目标更紧密地对准。

为了调整权重，学习算法可为权重计算梯度向量。该梯度可指示在权重被略微调整情况下误差将增加或减少的量。在顶层，该梯度可直接对应于连接倒数第二层中的活化神经元与输出层中的神经元的权重的值。在较低层中，该梯度可取决于权重的值以及所计算出的较高层的误差梯度。权重可随后被调整以减小误差。这种调整权重的方式可被称为“后向传播”，因为其涉及在神经网络中的“后向传递(backward pass)”。

在实践中，权重的误差梯度可能是在少量示例上计算的，从而计算出的梯度近似于真实误差梯度。这种近似方法可被称为随机梯度下降法。随机梯度下降法可被重复，直到整个系统可达成的误差率已停止下降或直到误差率已达到目标水平。

在学习之后，可向DCN呈递新图像326并且在网络中的前向传递可产生输出322，其可被认为是该DCN的推断或预测。

深度置信网络(DBN)是包括多层隐藏节点的概率性模型。DBN可被用于提取训练数据集的阶层式表示。DBN可通过堆叠多层受限波尔兹曼机(RBM)来获得。RBM是一类可在输入集上学习概率分布的人工神经网络。由于RBM可在没有关于每个输入应该被分类到哪个类的信息的情况下学习概率分布，因此RBM经常被用于无监督式学习。使用混合无监督式和受监督式范式，DBN的底部RBM可按无监督方式被训练并且可以用作特征提取器，而顶部RBM可按受监督方式(在来自先前层的输入和目标类的联合分布上)被训练并且可用作分类器。

深度卷积网络(DCN)是卷积网络的网络，其配置有附加的池化和归一化层。DCN已在许多任务上达成现有最先进的性能。DCN可使用受监督式学习来训练，其中输入和输出目标两者对于许多典范是已知的并被用于通过使用梯度下降法来修改网络的权重。

DCN可以是前馈网络。另外，如上所述，从DCN的第一层中的神经元到下一更高层中的神经元群的连接跨第一层中的神经元被共享。DCN的前馈和共享连接可被利用于进行快速处理。DCN的计算负担可比例如类似大小的包括回流或反馈连接的神经网络小得多。

卷积网络的每一层的处理可被认为是空间不变模板或基础投影。如果输入首先被分解成多个通道，诸如彩色图像的红色、绿色和蓝色通道，那么在该输入上训练的卷积网络可被认为是三维的，其具有沿着该图像的轴的两个空间维度以及捕捉颜色信息的第三维度。卷积连接的输出可被认为在后续层318和320中形成特征图，该特征图(例如，320)的每个要素从先前层(例如，318)中一定范围的神经元以及从该多个通道中的每一个通道接收输入。特征图中的值可以用非线性(诸如矫正)max(0,x)进一步处理。来自毗邻神经元的值可被进一步池化(这对应于降采样)并可提供附加的局部不变性以及维度缩减。还可通过特征图中神经元之间的侧向抑制来应用归一化，其对应于白化。

深度学习架构的性能可随着有更多被标记的数据点变为可用或随着计算能力提高而提高。现代深度神经网络用比仅仅十五年前可供典型研究者使用的计算资源多数千倍的计算资源来例行地训练。新的架构和训练范式可进一步推升深度学习的性能。经矫正的线性单元可减少被称为消失梯度的训练问题。新的训练技术可减少过度拟合(over-fitting)并因此使更大的模型能够达成更好的普遍化。封装技术可抽象出给定的感受野中的数据并进一步提升总体性能。

图3B是解说示例性深度卷积网络350的框图。深度卷积网络350可包括多个基于连通性和权重共享的不同类型的层。如图3B所示，该示例性深度卷积网络350包括多个卷积块(例如，C1和C2)。每个卷积块可被配置有卷积层、归一化层(LNorm)、和池化层。卷积层可包括一个或多个卷积滤波器，其可被应用于输入数据以生成特征图。尽管仅示出了两个卷积块，但本公开不限于此，而是，根据设计偏好，任何数目的卷积块可被包括在深度卷积网络350中。归一化层可被用于对卷积滤波器的输出进行归一化。例如，归一化层可提供白化或侧向抑制。池化层可提供在空间上的降采样聚集以实现局部不变性和维度缩减。

例如，深度卷积网络的平行滤波器组可任选地基于ARM指令集被加载到SOC100的CPU 102或GPU 104上以达成高性能和低功耗。在替换实施例中，平行滤波器组可被加载到SOC 100的DSP 106或ISP 116上。另外，DCN可访问其他可存在于SOC上的处理块，诸如专用于传感器114和导航120的处理块。

深度卷积网络350还可包括一个或多个全连接层(例如，FC1和FC2)。深度卷积网络350可进一步包括逻辑回归(LR)层。深度卷积网络350的每一层之间是要被更新的权重(未示出)。每一层的输出可以用作深度卷积网络350中后续层的输入以从第一卷积块C1处提供的输入数据(例如，图像、音频、视频、传感器数据和/或其他输入数据)学习阶层式特征表示。

图4是解说可使人工智能(AI)功能模块化的示例性软件架构400的框图。使用该架构，应用402可被设计成可使得SOC 420的各种处理块(例如CPU 422、DSP 424、GPU 426和/或NPU 428)在该应用402的运行时操作期间执行支持计算。

AI应用402可被配置成调用在用户空间404中定义的功能，例如，这些功能可提供对指示该设备当前操作位置的场景的检测和识别。例如，AI应用402可取决于识别出的场景是办公室、报告厅、餐馆、还是室外环境(诸如湖泊)而以不同方式配置话筒和相机。AI应用402可向与在场景检测应用编程接口(API)406中定义的库相关联的经编译程序代码作出请求以提供对当前场景的估计。该请求可最终依赖于被配置成基于例如视频和定位数据来提供场景估计的深度神经网络的输出。

运行时引擎408(其可以是运行时框架的经编译代码)可进一步可由AI应用402访问。例如，AI应用402可使得运行时引擎请求以特定时间间隔的场景估计或由应用的用户接口检测到的事件触发的场景估计。在使得运行时引擎估计场景时，运行时引擎可进而发送信号给在SOC 420上运行的操作系统410(诸如Linux内核412)。操作系统410进而可使得在CPU 422、DSP 424、GPU 426、NPU 428、或其某种组合上执行计算。CPU 422可被操作系统直接访问，而其他处理块可通过驱动器(诸如用于DSP 424、GPU 426、或NPU 428的驱动器414-418)被访问。在示例性示例中，深度神经网络可被配置成在处理块的组合(诸如CPU 422和GPU426)上运行，或可在NPU 428(如果存在的话)上运行。

图5是解说智能手机502上的AI应用的运行时操作500的框图。AI应用可包括预处理模块504，该预处理模块504可被配置(例如，使用JAVA编程语言被配置)成转换图像的格式(506)并随后对该图像进行剪裁和/或调整大小(508)。经预处理的图像可接着被传达给分类应用510，该分类应用510包含场景检测后端引擎512，该场景检测后端引擎512可被配置(例如，使用C编程语言被配置)成基于视觉输入来检测和分类场景。场景检测后端引擎512可被配置成进一步通过缩放(516)和剪裁(518)来预处理(514)该图像。例如，该图像可被缩放和剪裁以使所得到的图像是224像素×224像素。这些维度可映射到神经网络的输入维度。神经网络可由深度神经网络块520配置以使得SOC 100的各种处理块进一步借助深度神经网络来处理图像像素。深度神经网络的结果可随后被取阈(522)并被传递通过分类应用510中的指数平滑块524。经平滑的结果可接着使得智能手机502的设置和/或显示改变。

在一种配置中，机器学习模型被配置成用于识别和局部化对象。该模型还被配置成用于计算经局部化的对象的多个深度图以及用于从深度图构造对象图(经局部化的对象的3D构造)。该模型被进一步配置成用于：在对象图周围形成基于采样的结构以及向该基于采样的结构的每条边指派成本。此外，该模型被配置成用于搜索基于采样的结构以确定最低成本的边序列以及用于基于该搜索来引导机器人。该模型包括用于识别和局部化的装置、计算装置、构造装置、形成装置、指派装置、搜索装置和/或引导装置。在一个方面，用于识别和局部化的装置、计算装置、构造装置、形成装置、指派装置、搜索装置和/或引导装置可以是被配置成执行所叙述功能的通用处理器102、与通用处理器102相关联的程序存储器、存储器块118、局部处理单元202、和或路由连接处理单元216。在另一配置中，前述装置可以是被配置成执行由前述装置所叙述的功能的任何模块或任何装置。

根据本公开的某些方面，每个局部处理单元202可被配置成基于模型的一个或多个期望功能特征来确定模型的参数，以及随着所确定的参数被进一步适配、调谐和更新来使这一个或多个功能特征朝着期望的功能特征发展。

图6是解说根据本公开的各方面的用于3D重构的框架600的框图。该框架可用于产生促成对在2D图像中观察到的对象的3D重构的运动规划。框架600包括对象识别和局部化单元602、深度映射单元604、规划图单元606、运动规划单元610以及执行单元612。在一些方面，该框架还可包括精度评估单元608，该精度评估单元608可评估对象重构的精度。

对象识别和局部化单元602例如使用深度学习技术来执行图像中的对象局部化，以确定该图像中感兴趣的区域。如此，框架600可集中于所确定的感兴趣的区域以达成集中的和高效的3D重构。

对象识别和局部化单元602可被配置成：局部化和识别或标识图像(例如，相机的视场)中的对象。在一些方面，例如当感兴趣的对象不在视场中时也可执行场景探索。场景探索技术可用于移动相机和/或代理以在环境或场景中找到感兴趣的对象。例如，可使用覆盖或随机技术、基于前沿的探索或其他探索技术来探索场景。在一个示例中，在代理是无人机的情况下，可探索区域的地形。可执行场景探索以通过控制相机在无人机飞过地形时扫掠下方的区域来定位着陆区域。

在一些方面，还可使用对象关系图来增强场景探索性能。对象关系图可以纳入关于感兴趣的对象的知识以限制要搜索的区域。例如，在被搜索的对象是杯子的情况下，杯子在桌子上而不是在地板上的可能性较高。因此，如果图像中包括(或者部分地包括)桌子，则对象关系图可用于调整场景探索以使得以比桌子下方更高的优先级来搜索桌子的顶部。

在一些方面，还可训练对象识别和局部化单元602以基于可听输入来识别对象。例如，在接收到针对感兴趣的对象(例如，杯子)的可听输入之际，对象识别和局部化单元602可从对应于词语“杯子”的图像储存库中取回图像。

当检测到候选对象时，可使用对象识别技术来标识该候选对象。如果候选对象对于场景探索不是感兴趣的对象，则场景探索可以继续。

如果候选对象对于场景探索是感兴趣的对象(例如，在视场(或图像)中识别出感兴趣的对象)，则可执行对象局部化以确定该对象或该对象的一部分在图像(例如，2D图像)中的位置。对象局部化技术可用于确定对对象位置的估计。在一些方面，可在对象周围形成边界框。通过这样做，可确定对象的缩放和位置。基于该信息以及相机的位置，可确定控制输入以移动相机以使对象在边界框内更好地居中。

在一些方面，可通过找到图像的功率谱中的残余来达成轻量局部化。另一方面，可使用深度学习技术来达成更稳健的局部化。例如，DCN 350(图3B)可学习很可能包括感兴趣的对象的图像贴片的特征。使用更稳健的方法，可定位并且随后跟踪对象而不是重复局部化规程。

该框架还可包括深度映射单元604。深度映射单元604计算经局部化的对象的密集深度图。在已局部化对象后，可以针对与该对象相对应的每个像素确定深度信息，诸如深度估计。由于已局部化对象，因此深度估计可限制于图像的相关部分(例如，边界框区域内的像素)而不是针对图像中的每个像素计算深度估计。通过以此方式集中深度计算，框架600可以实现功率和存储器消耗的减小以及增加的处理效率。

针对与感兴趣的对象相对应的每个像素的深度估计可用于生成该对象的深度图。深度图可包括网格，诸如举例而言三维网格。可基于图像中像素的位置以及对应的深度或深度估计来布置网格。在一些方面，像素的位置和对应的深度信息可用于针对图像或所标识部分中的每个像素找到网格中的对应单元(或体素)。像素及其深度信息可被存储在网格的对应单元中。找到网格中的对应单元或体素的该过程可随时间针对每个单元重复以生成深度图。

在一种示例性配置中，相机可被放置和/或耦合到代理(例如，机器人)的手(例如，手掌)上或周围。当然，相机的数目以及相机相对于代理的放置仅是示例性的而非限定性的。将相机放置在手中可改善深度推断。这是因为一个点的深度是通过从两个不同位置观察该点来确定的。这两个位置之间的距离越大，对该点深度的推断就更佳。因此，与使用拟人机器人(其中相机被放置在机器人的头上或周围)的常规办法相比，在相机被放置在手上或周围的情况下更大的位移量是可能的。

另外，还可通过将相机放置或耦合到代理(例如，机器人)的手上或周围来增强场景探索任务。即，通过移动代理的手，可改变相机位置以提供增加的有利视点(从其观察环境或区域)的范围。例如，可以提升代理的手以从该代理的头上方的位置观看区域。在另一示例中，可降低代理的手以使得可观察结构(例如，桌子)下方的区域。

图7A是解说根据本公开的各方面的像素深度确定的示例性示图。从两个位置(r,k)观察点rP(点p的真实位置)，这两个位置(r,k)由相应位置处并且被标示为C_r和C_k的相机的中心指示。在每个位置处在相机的图像平面(分别为I_r和I_k)上示出了与点p相对应的像素u。可确定对像素深度的估计，其可对应于相机中心C_r与点位置(rP)之间的距离。

在一个示例中，可使用卡尔曼滤波器来确定对像素深度的估计。滤波器输出可以是基于经估计的位置(示出为

)的点p的实际位置

的概率分布函数(PDF)(参见要素编号702)的形式。可通过背投影恒定方差(例如，针对一个像素)来计算点p的方差。使用在点p的最可能位置处PDF的峰值，相机中心C_r与点位置

的距离。

另外，分布的宽度或窄度可提供对所估计的像素深度

的置信度的指示。即，概率分布越宽，点p的可能位置的数目就越大。由此，可推断像素深度方差

与位置k和r之间的轨迹(T_k,r)之间的关系。在图7A的示例中，可鉴于以下各式来计算像素深度方差

a＝rp-t (1)

γ⁺＝π-α-β⁺ (5)

其中

是单位向量，f(未加粗)是焦距，并且是σ_p是像素匹配不确定性。像素匹配不确定性σ_p可直接影响像素深度不确定性

如图7A的示例中所解说的，较小的像素匹配不确定性σ_p可得到更窄的像素深度不确定性

并且反之，较大的像素匹配不确定性σ_p可得到较宽的像素深度不确定性

因此，用于观看或观察点p的位置可被选择为使得PDF是窄的，并且在一些情形中，使得PDF是最窄的。

在一些方面，所确定的像素深度和方差信息可作为反馈提供给对象识别和局部化单元602以改善对象局部化。例如，像素深度和方差信息可用于减小关于包封感兴趣的对象的边界框的位置的不确定性和/或调整该边界框的位置。

图7B是解说根据本公开的各方面的依赖于运动的深度方差的示例性示图。如图7B所示，获取区块S中一个点的三幅图像。区块S具有划分成两个区域的表面。为解说简单起见，区块内区域的数目仅是示例性的。本公开不限于此，并且区块中可包括任何数目的区域。

区域可包括具有不同特性(例如，颜色、纹理和/或拓扑)的表面。在一个示例中，区域可具有不同的颜色(例如，黑色地毯和白色地毯)。在另一示例中，区域可具有不同的纹理(例如，草地和混凝土)。如所示出的，在图7B中，相机从一个位置到下一位置的运动可显著影响像素深度方差。此处，将相机从产生图像平面I_r的位置移动到产生位于

的图像平面的位置得到与将相机移动到产生位于θ＝0的图像平面的位置相比更小的像素深度方差(经由更窄的PDF(τ)示出)。值得注意的是，图7B解说在两个不同方向上移动相机可得到两个不同的像素深度方差，并且由此，取决于环境中的可用纹理而得到两个不同量的信息。

再次参照图6，框架600还可包括规划图单元606。规划图单元606可用于基于深度图来构造对象图或重构。在一些方面，可生成2D图像的3D对象图或3D重构。

规划图单元606还可构造和/或更新运动规划图。运动规划图可用于确定用于控制代理围绕感兴趣的对象移动以促成3D重构的控制输入。可在感兴趣的对象周围增量式地形成规划图。例如，可以在围绕相机的当前位置的给定半径r中对各点进行采样。采样点(其可被称为节点)中的每一者可被连接到其在图上的k个最近邻居。连接可包括一条或多条边。边是可以表示相机的短轨迹或小运动段(例如，几厘米)的运动基元。可以串接各边以形成图，该图可用于运动规划目的。以此方式，可以增量式地创建基于采样的运动规划框架。

在一些方面，形状先验知识也可用于辅助对感兴趣的对象的3D重构。即，如果存在感兴趣的对象的形状的一些知识，则该先验知识可用作为构造规划图的起始点。例如，对运动库中各点的采样和连接可基于对象的形状的先验知识来确定。类似地，3D重构(例如，对象图)也可基于对象的形状的先验知识来确定。

运动规划单元610可确定边或已连接节点的序列，以形成用于将相机和/或代理沿着轨迹移动到观察感兴趣的对象的位置并促成对该对象的3D重构的潜在规划。在一些方面，可生成多个潜在运动规划。可基于选择准则来选择潜在运动规划。例如，可基于到期望对象的距离(例如，到茶杯的抓取位置的距离)或其他度量来选择潜在规划。

在一些方面，可根据重构度量来选择潜在规划。例如，重构可包括边成本。边成本可被定义为将相机和/或代理沿着潜在运动规划的特定边移动的成本。在一个示例性方面，可基于与感兴趣的对象相对应的图像中的每个像素的像素深度的方差来确定边成本或重构报偿。

在该示例性方面，与参考图像的像素u相对应的深度估计的标准差可由第k时间步阶处的

给出。可使用滤波器来估计未知量(例如，深度)。在一个示例性方面，滤波器(例如，卡尔曼滤波器)可沿着边进行滤波，以递归地计算深度估计。因此，协方差可演变为：

其中

是预测，

是在时间步阶k+1处对方差的更新，Q是过程噪声，R是测量噪声，A是系统运动学的雅克比行列式(例如，从线性化获得)，并且H是传感器模型的雅克比行列式(例如，从线性化获得)。滤波器输出包括均值和方差的概率分布。

滤波等式(7)和(8)可被重写以定义由下式给出的信息矩阵：

Ω_k＝(P_k)^-1 (9)

信息可沿着边被累加为：

其中

是与测量z(例如，像素深度)相对应的信息。由于信息(Ω_k)与方差成反比，因此方差越小，所提供的信息就越多。如此，感兴趣的对象的每个像素可添加到关于感兴趣的对象的信息。此外，经由相机的每次观察(例如，图像)可添加到关于感兴趣的对象的信息。

因此，第(i,j)边的成本可被定义为如下所表达的沿着该边的信息增益的总和：

其中BB是参考帧中对象周围的边界框，并且N是边的长度。根据等式(11)，成本函数可集中于考虑沿着位于参考帧中感兴趣的对象周围的边界框内的边的像素的信息。

使用成本度量，可能更期望选择沿着产生较大报偿(例如，最多信息)的边的运动路径。即，通过沿着引起增加的信息(以及较低的像素深度方差)的轨迹移动相机，可达成对感兴趣的对象的2D图像的更精确的3D重构。另外，可以更高效的方式执行3D重构。如此，本公开的各办法可有益地降低功耗并改善处理效率。

在一些方面，可使用经加权的报偿或成本。经加权的成本可由下式给出：

其中

是测量z(例如，像素深度)的信息的权重。例如，在抓取应用中，其中代理被分配抓取杯子的任务，沿着杯子的手柄的边的权重可小于沿着碗状容器的边的权重。

在一些方面，成本(报偿)可相对于像素深度方差而不同。在测量被建模为像素深度的情况下，经加权的边成本可被表达为：

其中

是因变于相机位置之间的距离的像素深度方差。

在一些方面，关键帧或参考帧在规划图中的每个节点处可以是固定的。关键帧在每条边处也可以是固定的。在该情形中，对于延伸到关键帧的节点外(例如，从该节点传出)的边，该关键帧可用作或起到参考帧的作用。在该情况下，当确定边太长时，可将该边拆分成两条边。如果关键帧限制于节点，则在对节点进行采样以及连接边时可考虑图像交叠。例如，如果在边的开始和结尾处的图像交叠不足以对对象的精确3D重构，则可丢弃该边。替换地，可再次拆分边。在一些方面，可基于关键帧的适用性(例如，基于运动模糊、可用特征的百分比)来调整或更新图节点。

可确定和评估沿着每条边的信息增益和重构不确定性。使用成本函数(例如，C^ij)作为规划度量，可搜索规划图以确定沿其移动相机的最佳边序列。运动规划单元610可进而生成控制输入，该控制输入可由执行单元612执行以根据所确定的边序列来移动代理和/或相机。在一些方面，运动规划单元610可生成控制输入以仅沿着边序列中的第一边移动代理和/或相机。在沿着各边的轨迹移动相机时，可重复规程。例如，可更新深度图和对象图。还可更新规划图和运动规划。

再次参照图6，在一些方面，框架600还可包括精度评估单元608。精度评估单元608可评估3D重构的精度。例如，给定像素深度的地面实况，可确定重构误差。在一些方面，重构误差可用于确定用于移动相机和/或代理的经更新的运动规划。

框架600可进一步包括规划图单元606以构造和/或更新运动规划图。该图可在感兴趣的对象周围增量式地形成。例如，可在围绕相机的当前位置的给定半径r中对各点进行采样。采样点(其可被称为节点)中的每一者可被连接到其在图上的k个最近邻居。连接可包括边或运动基元。已连接节点的序列可形成用于将相机或轨迹移动到观察感兴趣的对象的位置以促成对该对象的3D重构的潜在规划。

在一个解说性示例中，可向相机提供操纵器(示出为图7C中的要素720)。操纵器720包括一组关节(转动或移动)和相机(未示出)，该相机可被放置或耦合到末端执行器722上或周围。在该配置中，可计算机器人操纵器的反向运动学模型(IK)以确定提供末端执行器的期望位置的联合参数。即，反向运动学可将运动规划变换成如下的机器人的联合致动器轨迹(例如，将3D空间(相机位置)映射到联合角度空间中)：

可通过对末端执行器周围的各点进行采样并通过开环轨迹(例如，直线)连接各点来生成运动库(例如，相机轨迹)。可通过使用反向运动学将相机位置变换到联合空间来计算对应的控制动作(例如，致动器命令)。在相机根据经计算的控制动作移动时，可形成规划图以表示感兴趣的对象周围的操纵器的工作空间。

在一些方面，可生成多个潜在运动规划。可基于选择准则来选择潜在运动规划。例如，可基于到期望对象的距离(例如，到茶杯的抓取位置的距离)或其他度量来选择潜在规划。

在一些方面，可根据重构度量来选择潜在规划。关键帧或参考帧可以在图上的每个节点处。可确定和评估沿着每条边的信息增益和重构不确定性。

图8解说用于引导装备有相机的机器人以促成3D重构的方法800。在一些方面，可使用多个相机以提供多视图立体视觉。另外，在一些示例性配置中，相机可被放置在最接近对象的肢体的末端。

在框802中，该过程识别和局部化2D图像中的对象(2D局部化)。在一些方面，识别和局部化可以是集中于对象的。在其他方面，可根据对象周围的边界框来限制识别和局部化。此外，2D局部化可基于深度学习技术(例如，DCN 350可学习很可能包括感兴趣的对象的图像贴片的特征)。

在框804中，该过程计算经局部化的对象的3D深度图。可基于感兴趣的对象的每幅图像中的像素的深度来计算深度图。在框806中，该过程从深度图构造3D对象图。

在框808中，该过程在3D对象图周围形成基于采样的结构。基于采样的结构可包括与相机(和/或机器人手臂)的短轨迹相对应的边或运动基元。在框810中，该过程向基于采样的结构的每条边指派成本。在框812中，该过程搜索基于采样的结构以确定最低成本的边序列(或者具有最大报偿的序列)。此外，在框814中，该过程基于搜索来引导机器人。

在一些方面，在框816中，该过程可任选地基于关于对象的纹理信息来引导机器人。在一个示例中，纹理信息可包括关于区域的地形或拓扑的信息，其可以用于确定无人机的着陆区域。在另一示例中，纹理信息可包括关于地板覆盖物(诸如地毯)的存在性的信息。

在一些方面，在框818中，该过程可任选地基于指派给对象的不同部分的重要性权重来引导机器人。例如，在对象要抓取茶杯的情况下，可向手柄指派比杯子的碗/容器的权重更大的权重。

在一些方面，在框820中，该过程可任选地通过增量式地创建基于采样的运动规划框架来引导机器人。

在一些方面，在框822中，该过程可任选地从深度图细化对象图。还可使用对象的进一步的或附加的图像来计算附加的深度图。附加的深度图可进而用于进一步细化对象图。

在一些方面，该过程可对所获得的关于3D结构的信息进行量化以用作运动规划中的成本。

以上所描述的方法的各种操作可由能够执行相应功能的任何合适的装置来执行。这些装置可包括各种硬件和/或软件组件和/或模块，包括但不限于电路、专用集成电路(ASIC)、或处理器。一般而言，在附图中有解说的操作的情况下，那些操作可具有带相似编号的相应配对装置加功能组件。

在一些方面，方法800可由SOC 100(图1)或系统200(图2)来执行。即，举例而言而非限定，方法800的每个要素可由SOC 100或系统200、或者一个或多个处理器(例如，CPU102和局部处理单元202)和/或其中包括的其他组件来执行。

如本文所使用的，术语“确定”涵盖各种各样的动作。例如，“确定”可包括演算、计算、处理、推导、研究、查找(例如，在表、数据库或其他数据结构中查找)、探知及诸如此类。另外，“确定”可包括接收(例如接收信息)、访问(例如访问存储器中的数据)、及类似动作。而且，“确定”可包括解析、选择、选取、确立及类似动作。

如本文所使用的，引述一列项目中的“至少一个”的短语是指这些项目的任何组合，包括单个成员。作为示例，“a、b或c中的至少一个”旨在包括：a、b、c、a-b、a-c、b-c和a-b-c。

结合本公开所描述的各种解说性逻辑框、模块、以及电路可用设计成执行本文所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、分立的门或晶体管逻辑、分立的硬件组件或其任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，处理器可以是任何市售的处理器、控制器、微控制器、或状态机。处理器还可被实现为计算设备的组合，例如，DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器、或任何其它此类配置。

结合本公开所描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在本领域所知的任何形式的存储介质中。可使用的存储介质的一些示例包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、CD-ROM，等等。软件模块可包括单条指令、或许多条指令，且可分布在若干不同的代码段上，分布在不同的程序间以及跨多个存储介质分布。存储介质可被耦合到处理器以使得该处理器能从/向该存储介质读写信息。在替换方案中，存储介质可以被整合到处理器。

本文所公开的方法包括用于实现所描述的方法的一个或多个步骤或动作。这些方法步骤和/或动作可以彼此互换而不会脱离权利要求的范围。换言之，除非指定了步骤或动作的特定次序，否则具体步骤和/或动作的次序和/或使用可以修改而不会脱离权利要求的范围。

所描述的功能可在硬件、软件、固件或其任何组合中实现。如果以硬件实现，则示例硬件配置可包括设备中的处理系统。处理系统可以用总线架构来实现。取决于处理系统的具体应用和整体设计约束，总线可包括任何数目的互连总线和桥接器。总线可将包括处理器、机器可读介质、以及总线接口的各种电路链接在一起。总线接口可用于尤其将网络适配器等经由总线连接至处理系统。网络适配器可用于实现信号处理功能。对于某些方面，用户接口(例如，按键板、显示器、鼠标、操纵杆，等等)也可以被连接到总线。总线还可以链接各种其他电路，诸如定时源、外围设备、稳压器、功率管理电路以及类似电路，它们在本领域中是众所周知的，因此将不再进一步描述。

处理器可负责管理总线和一般处理，包括执行存储在机器可读介质上的软件。处理器可用一个或多个通用和/或专用处理器来实现。示例包括微处理器、微控制器、DSP处理器、以及其他能执行软件的电路系统。软件应当被宽泛地解释成意指指令、数据、或其任何组合，无论是被称作软件、固件、中间件、微代码、硬件描述语言、或其他。作为示例，机器可读介质可包括随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦式可编程只读存储器(EPROM)、电可擦式可编程只读存储器(EEPROM)、寄存器、磁盘、光盘、硬盘驱动器、或者任何其他合适的存储介质、或其任何组合。机器可读介质可被实施在计算机程序产品中。该计算机程序产品可以包括包装材料。

在硬件实现中，机器可读介质可以是处理系统中与处理器分开的一部分。然而，如本领域技术人员将容易领会的，机器可读介质或其任何部分可在处理系统外部。作为示例，机器可读介质可包括传输线、由数据调制的载波、和/或与设备分开的计算机产品，所有这些都可由处理器通过总线接口来访问。替换地或补充地，机器可读介质或其任何部分可被集成到处理器中，诸如高速缓存和/或通用寄存器文件可能就是这种情形。虽然所讨论的各种组件可被描述为具有特定位置，诸如局部组件，但它们也可按各种方式来配置，诸如某些组件被配置成分布式计算系统的一部分。

处理系统可以被配置为通用处理系统，该通用处理系统具有一个或多个提供处理器功能性的微处理器、以及提供机器可读介质中的至少一部分的外部存储器，它们都通过外部总线架构与其他支持电路系统链接在一起。替换地，该处理系统可以包括一个或多个神经元形态处理器以用于实现本文所述的神经元模型和神经系统模型。作为另一替换方案，处理系统可以用带有集成在单块芯片中的处理器、总线接口、用户接口、支持电路系统、和至少一部分机器可读介质的专用集成电路(ASIC)来实现，或者用一个或多个现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、状态机、门控逻辑、分立硬件组件、或者任何其他合适的电路系统、或者能执行本公开通篇所描述的各种功能性的电路的任何组合来实现。本领域技术人员将认识到如何取决于具体应用和加诸于整体系统上的总体设计约束来最佳地实现关于处理系统所描述的功能性。

机器可读介质可包括数个软件模块。这些软件模块包括当由处理器执行时使处理系统执行各种功能的指令。这些软件模块可包括传送模块和接收模块。每个软件模块可以驻留在单个存储设备中或者跨多个存储设备分布。作为示例，当触发事件发生时，可以从硬盘驱动器中将软件模块加载到RAM中。在软件模块执行期间，处理器可以将一些指令加载到高速缓存中以提高访问速度。随后可将一个或多个高速缓存行加载到通用寄存器文件中以供处理器执行。在以下述及软件模块的功能性时，将理解此类功能性是在处理器执行来自该软件模块的指令时由该处理器来实现的。此外，应领会，本公开的各方面产生对处理器、计算机、机器或实现此类方面的其它系统的机能的改进。

如果以软件实现，则各功能可作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，这些介质包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，此类计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能用于携带或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。另外，任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或无线技术(诸如红外(IR)、无线电、以及微波)从web网站、服务器、或其他远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL或无线技术(诸如红外、无线电、以及微波)就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘、和

碟，其中盘(disk)常常磁性地再现数据，而碟(disc)用激光来光学地再现数据。因此，在一些方面，计算机可读介质可包括非瞬态计算机可读介质(例如，有形介质)。另外，对于其他方面，计算机可读介质可包括瞬态计算机可读介质(例如，信号)。上述的组合应当也被包括在计算机可读介质的范围内。

因此，某些方面可包括用于执行本文中给出的操作的计算机程序产品。例如，此类计算机程序产品可包括其上存储(和/或编码)有指令的计算机可读介质，这些指令能由一个或多个处理器执行以执行本文中所描述的操作。对于某些方面，计算机程序产品可包括包装材料。

此外，应当领会，用于执行本文中所描述的方法和技术的模块和/或其它恰适装置能由用户终端和/或基站在适用的场合下载和/或以其他方式获得。例如，此类设备能被耦合到服务器以促成用于执行本文中所描述的方法的装置的转移。替换地，本文所述的各种方法能经由存储装置(例如，RAM、ROM、诸如压缩碟(CD)或软盘等物理存储介质等)来提供，以使得一旦将该存储装置耦合到或提供给用户终端和/或基站，该设备就能获得各种方法。此外，可利用适于向设备提供本文所描述的方法和技术的任何其他合适的技术。

将理解，权利要求并不被限定于以上所解说的精确配置和组件。可在以上所描述的方法和装置的布局、操作和细节上作出各种修改、变更和变型而不会脱离权利要求的范围。

Claims

1.一种用于通过基于采样的规划来引导装备有相机的机器人以促成三维(3D)重构的方法，包括：

在包括多个对象的环境中搜索感兴趣的对象；

识别经由所述相机捕捉的二维(2D)图像中的所述感兴趣的对象；

局部化所述2D图像中的所述感兴趣的对象；

基于所述2D图像中的经局部化的对象和与3D对象图的像素相关联的深度方差来构造所述3D对象图；

在所述3D对象图周围形成基于采样的结构；

基于沿给定边可视的像素的所述深度方差来向所述基于采样的结构的每条边指派成本；

搜索所述基于采样的结构以确定最低成本的边序列；以及

基于所述最低成本的边序列来引导所述机器人通过所述环境。

2.如权利要求1所述的方法，进一步包括：从所述深度图细化所述对象图。

3.如权利要求1所述的方法，进一步包括：基于关于所述对象的纹理信息来引导所述机器人。

4.如权利要求1所述的方法，进一步包括：基于指派给所述对象的不同部分的重要性权重来引导所述机器人。

5.如权利要求1所述的方法，进一步包括：通过增量式地创建基于采样的运动规划框架来引导所述机器人。

6.一种用于通过基于采样的规划来引导装备有相机的机器人以促成三维(3D)重构的装置，包括：

存储器；以及

耦合到所述存储器的至少一个处理器，所述至少一个处理器被配置成：

在包括多个对象的环境中搜索感兴趣的对象；

局部化所述2D图像中的所述感兴趣的对象；

在所述3D对象图周围形成基于采样的结构；

搜索所述基于采样的结构以确定最低成本的边序列；以及

7.如权利要求6所述的装置，其中所述至少一个处理器被进一步配置成：从所述深度图细化所述对象图。

8.如权利要求6所述的装置，其中所述至少一个处理器被进一步配置成：基于关于所述对象的纹理信息来引导所述机器人。

9.如权利要求6所述的装置，其中所述至少一个处理器被进一步配置成：基于指派给所述对象的不同部分的重要性权重来引导所述机器人。

10.如权利要求6所述的装置，其中所述至少一个处理器被进一步配置成：通过增量式地创建基于采样的运动规划框架来引导所述机器人。

11.一种用于通过基于采样的规划来引导装备有相机的机器人以促成三维(3D)重构的设备，包括：

用于在包括多个对象的环境中搜索感兴趣的对象的装置；

用于识别经由所述相机捕捉的二维(2D)图像中的所述感兴趣的对象的装置；

用于局部化所述2D图像中的所述感兴趣的对象的装置；

用于基于所述2D图像中的经局部化的对象和与3D对象图的像素相关联的深度方差来构造所述3D对象图的装置；

用于在所述3D对象图周围形成基于采样的结构的装置；

用于基于沿给定边可视的像素的所述深度方差来向所述基于采样的结构的每条边指派成本的装置；

用于搜索所述基于采样的结构以确定最低成本的边序列的装置；以及

用于基于所述最低成本的边序列来引导所述机器人通过所述环境的装置。

12.如权利要求11所述的设备，进一步包括：用于从所述深度图细化所述对象图的装置。

13.如权利要求11所述的设备，进一步包括：用于基于关于所述对象的纹理信息来引导所述机器人的装置。

14.如权利要求11所述的设备，进一步包括：用于基于指派给所述对象的不同部分的重要性权重来引导所述机器人的装置。

15.如权利要求11所述的设备，进一步包括：用于通过增量式地创建基于采样的运动规划框架来引导所述机器人的装置。

16.一种其上编码有用于通过基于采样的规划来引导装备有相机的机器人以促成三维(3D)重构的程序代码的非瞬态计算机可读介质，所述程序代码可由处理器执行并包括：

用于在包括多个对象的环境中搜索感兴趣的对象的程序代码；

用于识别经由所述相机捕捉的二维(2D)图像中的所述感兴趣的对象的程序代码；

用于局部化所述2D图像中的所述感兴趣的对象的程序代码；

用于基于所述2D图像中的经局部化的对象和与3D对象图的像素相关联的深度方差来构造所述3D对象图的程序代码；

用于在所述3D对象图周围形成基于采样的结构的程序代码；

用于基于沿给定边可视的像素的所述深度方差来向所述基于采样的结构的每条边指派成本的程序代码；

用于搜索所述基于采样的结构以确定最低成本的边序列的程序代码；以及

用于基于所述最低成本的边序列来引导所述机器人通过所述环境的程序代码。

17.如权利要求16所述的非瞬态计算机可读介质，进一步包括：用于从所述深度图细化所述对象图的程序代码。

18.如权利要求16所述的非瞬态计算机可读介质，进一步包括：用于基于关于所述对象的纹理信息来引导所述机器人的程序代码。

19.如权利要求16所述的非瞬态计算机可读介质，进一步包括：用于基于指派给所述对象的不同部分的重要性权重来引导所述机器人的程序代码。

20.如权利要求16所述的非瞬态计算机可读介质，进一步包括：用于通过增量式地创建基于采样的运动规划框架来引导所述机器人的程序代码。