CN115136202A

CN115136202A - 点云集群的语义标注

Info

Publication number: CN115136202A
Application number: CN202180013986.4A
Authority: CN
Inventors: P·约特瓦尼
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2020-02-27
Filing date: 2021-01-26
Publication date: 2022-09-30
Also published as: US20220254102A1; WO2021173277A1; US11361501B2; EP4111359A1; US20210272355A1

Abstract

在一个具体实施中，在包括一个或多个处理器和非暂态存储器的设备处执行对点云集群的语义标注的方法。该方法包括获得包括多个点的物理环境的点云，该多个点中的每一个与三维空间中的坐标相关联。该方法包括将多个点的部分在空间上消除成多个集群。该方法包括基于该多个集群中的特定集群的点的体积布置来确定语义标签。该方法包括生成特定集群的点中的特定点的表征向量，其中该表征向量包括特定点的坐标、特定集群的集群标识符和语义标签。

Description

点云集群的语义标注

相关申请的交叉引用

本申请要求于2020年2月27日提交的美国临时专利申请第62/982324号的优先权，该美国临时专利申请据此全文以引用方式并入本文。

技术领域

本公开整体涉及点云，并且具体地涉及用于点云集群的语义标注的系统、方法和设备。

背景技术

点云包括三维空间中的一组点。在各种具体实施中，点云中的每个点对应于物理环境中的对象的表面。点云可用于表示各种计算机视觉和/或扩展现实(XR)应用中的物理环境。

附图说明

因此，本公开可被本领域的普通技术人员理解，更详细的描述可参考一些例示性具体实施的方面，其中一些具体实施在附图中示出。

图1示出了具有调查物理环境的手持式电子设备的物理环境。

图2A和图2B示出了图1的手持式电子设备，其显示从不同视角捕获的物理环境的两个图像。

图3A和图3B示出了图1的手持式电子设备，其显示覆盖有点云的表示的两个图像。

图4A和图4B示出了图1的手持式电子设备，其显示覆盖有在空间上被消除成多个集群的点云的表示的两个图像。

图5示出了根据一些具体实施的点云数据对象。

图6是根据一些具体实施的对点云进行语义标注的方法的流程图表示。

图7是根据一些具体实施的电子设备的框图。

根据通常的做法，附图中示出的各种特征部可能未按比例绘制。因此，为了清楚起见，可以任意地扩展或减小各种特征部的尺寸。另外，一些附图可能未描绘给定的系统、方法或设备的所有部件。最后，在整个说明书和附图中，类似的附图标号可用于表示类似的特征部。

发明内容

本文所公开的各种具体实施包括用于对点云进行语义标注的设备、系统和方法。在各种具体实施中，该方法是在具有一个或多个处理器和非暂态存储器的设备处执行的。该方法包括获得包括多个点的物理环境的点云，该多个点中的每一个与三维空间中的一组坐标相关联。该方法包括将多个点的部分在空间上消除成多个集群。该方法包括基于该多个集群中的特定集群的点的体积布置来确定语义标签。该方法包括生成特定集群的点中的特定点的表征向量，其中该表征向量包括特定点的坐标、特定集群的集群标识符和语义标签。

根据一些具体实施，一种设备包括一个或多个处理器、非暂态存储器以及一个或多个程序；一个或多个程序被存储于非暂态存储器中并且被配置为由一个或多个处理器执行。一个或多个程序包括用于执行或促使执行本文描述的任何方法的指令。根据一些具体实施，一种非暂态计算机可读存储介质中存储有指令，这些指令在由设备的一个或多个处理器执行时使该设备执行或使执行本文所述方法中的任一种。根据一些具体实施，一种设备包括：一个或多个处理器、非暂态存储器以及用于执行或使执行本文所述方法中的任一种的装置。

具体实施方式

物理环境是指人们在没有电子设备帮助的情况下能够对其感测和/或与其交互的物理场所。物理环境可包括物理特征，诸如物理表面或物理对象。例如，物理环境对应于包括物理树木、物理建筑物和物理人的物理公园。人们能够诸如通过视觉、触觉、听觉、味觉和嗅觉来直接感测物理环境和/或与物理环境交互。相反，扩展现实(XR)环境是指人们经由电子设备感测和/或交互的完全或部分模拟的环境。例如，XR环境可包括增强现实(AR)内容、混合现实(MR)内容、虚拟现实(VR)内容等。在XR系统的情况下，跟踪人的物理运动的一个子集或其表示，并且作为响应，以符合至少一个物理定律的方式调节在XR系统中模拟的一个或多个虚拟对象的一个或多个特征。例如，XR系统可以检测呈现XR环境的电子设备(例如，移动电话、平板电脑、膝上型电脑、头戴式设备等)的移动，并且作为响应，以类似于此类视图和声音在物理环境中将如何改变的方式调节由电子设备呈现给人的图形内容和声场。在一些情况下(例如，出于可达性原因)，XR系统可响应于物理运动的表示(例如，声音命令)来调节XR环境中图形内容的特征。

有许多不同类型的电子系统使人能够感测和/或与各种XR环境交互。示例包括头戴式系统、基于投影的系统、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为设计用于放置在人的眼睛上的透镜的显示器(例如，类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入系统(例如，具有或不具有触觉反馈的可穿戴或手持式控制器)、智能电话、平板电脑、以及台式/膝上型计算机。头戴式系统可具有集成不透明显示器和一个或多个扬声器。另选地，头戴式系统可被配置为接受外部不透明显示器(例如，智能电话)。头戴式系统可结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式系统可具有透明或半透明显示器，而不是不透明显示器。透明或半透明显示器可以具有媒介，代表图像的光通过该媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或它们的任意组合。在一些具体实施中，透明或半透明显示器可被配置为选择性地变得不透明。基于投影的系统可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影系统也可以被配置为将虚拟对象投影到物理环境中，例如作为全息图或在物理表面上。

在各种具体实施中，物理环境由点云表示。点云包括多个点，该多个点中的每一个与三维空间中的至少一组坐标相关联并且对应于物理环境中的对象的表面。在各种具体实施中，该多个点中的每一个进一步与表示物理环境中的对象的表面的其它数据相关联，诸如表示对象的表面的颜色的RGB数据。如本文所述，该多个点中的至少一个进一步与表示对象表面的对象类型(或身份)的语义标签相关联。例如，语义标签可以是“桌面”或“桌子”或“墙壁”。

描述了许多细节以便提供对附图中所示的示例具体实施的透彻理解。然而，附图仅示出了本公开的一些示例方面，因此不应被视为限制。本领域的普通技术人员将理解，其他有效方面和/或变体不包括本文所述的所有具体细节。此外，没有详尽地描述众所周知的系统、方法、部件、设备和电路，以免模糊本文所述的示例性具体实施的更多相关方面。

图1示出了具有调查物理环境101的手持式电子设备110的物理环境101。物理环境101包括挂在墙壁103上的图片102、地板106上的桌子105以及桌子105上的圆柱体104。

手持式电子设备110在显示器上显示物理环境111的表示，其包括挂在墙壁113的表示上的图片112的表示、地板116的表示上的桌子115的表示以及桌子115的表示上的圆柱体114的表示。在各种具体实施中，基于用手持式电子设备110的场景相机捕获的物理环境的图像来生成物理环境111的表示，该场景相机具有朝向物理环境101的视场。

除了物理环境101的真实对象的表示之外，物理环境111的表示包括在桌子115的表示上显示的虚拟对象119。

在各种具体实施中，手持式电子设备110包括单个场景相机(或设置在手持式电子设备110的与显示器相反的侧上的单个后置相机)。在各种具体实施中，手持式电子设备110包括至少两个场景相机(或设置在手持式电子设备110的与显示器相反的侧上的至少两个后置相机)。

图2A示出了手持式电子设备110，其显示从第一视角捕获的物理环境101的第一图像211A。图2B示出了手持式电子设备110，其显示从不同于第一视角的第二视角捕获的物理环境101的第二图像211B。

在各种具体实施中，第一图像211A和第二图像211B由同一相机在不同时间捕获(例如，当手持式电子设备110在两个不同时间之间移动时，由同一单个场景相机在两个不同时间捕获)。在各种具体实施中，第一图像211A和第二图像211B由不同的相机在同一时间捕获(例如，由两个场景相机捕获)。

使用从多个不同视角捕获的物理环境101的多个图像，诸如第一图像211A和第二图像211B，手持式电子设备110生成物理环境101的点云。

图3A示出了手持式电子设备110，其显示覆盖有点云310的表示的第一图像211A。图3B示出了手持式电子设备110，其显示覆盖有点云310的表示的第二图像211B。

点云包括多个点，其中该多个点中的每一个与三维空间中的一组坐标相关联。例如，在各种具体实施中，每个点与x坐标、y坐标和z坐标相关联。在各种具体实施中，点云中的每个点对应于物理环境101中的特征部，诸如物理环境101中的对象的表面。

手持式电子设备110将点云在空间上消除成多个集群。因此，集群中的每一个包括点云310的点的子集。

图4A示出了手持式电子设备110，其显示覆盖有在空间上被消除成多个集群412-416的点云310的表示的第一图像211A。图4B示出了手持式电子设备110，其显示覆盖有在空间上被消除成多个集群412-416的点云310的表示的第二图像211B。点云310的表示包括第一集群412(以浅灰色示出)、第二集群413(以黑色示出)、第三集群414(以深灰色示出)、第四集群415(以白色示出)和第五集群416(以中等灰色示出)。

在各种具体实施中，多个集群中的每一个被分配唯一的集群标识符。例如，集群可以被分配数字、字母或其它唯一标签。

对于每个集群，手持式电子设备110确定语义标签。在各种具体实施中，每个集群对应于物理环境101中的对象。例如，在图4A和图4B中，第一集群412对应于图片102，第二集群413对应于墙壁103，第三集群414对应于圆柱体104，第四集群415对应于桌子105，并且第五集群416对应于地板106。在各种具体实施中，语义标签指示对象的对象类型或身份。

在各种具体实施中，手持式电子设备110将语义标签与集群的每个点相关联地存储。图5示出了根据一些具体实施的点云数据对象500。点云数据对象500包括多个数据元素(在图5中示出为行)，其中每个数据元素与点云的特定点相关联。特定点的数据元素包括点标识符字段510，其包括特定点的点标识符。例如，点标识符可以是唯一的数字。特定点的数据元素包括坐标字段520，其包括特定点的三维空间中的一组坐标。特定点的数据元素包括集群标识符字段530，其包括特定点在空间上被消除成的集群的标识符。例如，集群标识符可以是字母或数字。特定点的数据元素包括语义标签字段540，其包括用于特定点在空间上被消除成的集群的语义标签。

语义标签可以以其它方式与点云相关联地存储。例如，点云可以被存储为一组集群对象，每个集群对象包括特定集群的集群标识符、特定集群的语义标签，以及对应于在空间上被消除成特定集群的多个点的多组坐标。

手持式电子设备110可以以多种方式使用语义标签。例如，在各种具体实施中，手持式电子设备110可以在标记为“桌子”的集群的顶部上，但不在标记为“地板”的集群的顶部上显示虚拟对象，诸如虚拟球。在各种具体实施中，手持式电子设备110可以在标记为“图片”的集群上方，但不在标记为“电视”的集群上方显示虚拟对象，诸如虚拟绘画。

图6是根据一些具体实施的对点云进行语义标注的方法600的流程图表示。在各种具体实施中，方法600由具有一个或多个处理器和非暂态存储器的设备执行。在一些具体实施中，方法600由处理逻辑部件(包括硬件、固件、软件、或它们的组合)执行。在一些具体实施中，方法600由执行存储在非暂态计算机可读介质(例如，存储器)中的指令(例如，代码)的处理器执行。

该方法600在框610中开始，其中设备获得包括多个点的物理环境的点云，其中该多个点中的每一个与三维空间中的一组坐标相关联。

在各种具体实施中，获得点云包括：从多个不同视角获得物理环境的多个图像，以及基于物理环境的多个图像来生成点云。例如，在各种具体实施中，设备在物理环境的两个或更多个图像中检测到同一特征部，并且使用透视变换几何来确定三维空间中的该组坐标。在各种具体实施中，多个图像由同一相机在不同时间捕获(例如，当设备在时间之间移动时，由设备的同一单个场景相机在不同时间捕获)。在各种具体实施中，多个图像由不同相机在同一时间捕获(例如，由设备的多个场景相机捕获)。

在各种具体实施中，获得点云包括：获得物理环境的图像，获得物理环境的图像的深度图，以及基于物理环境的图像和深度图来生成点云。在各种具体实施中，该图像由设备的场景相机捕获，并且该深度图由设备的深度传感器生成。

在各种具体实施中，获得点云包括使用3D扫描仪来生成点云。

在各种具体实施中，每个点与附加数据相关联。在各种具体实施中，每个点与颜色相关联。在各种具体实施中，每个点与指示点如何随时间改变颜色的颜色变化相关联。例如，此类信息可用于区分“图片”或“电视”的语义标签。在各种具体实施中，每个点与指示点的三维空间中的坐标是物理环境中对象的对应表面的真实位置的概率的置信度相关联。

该方法600在框620中继续，其中设备将多个点的部分在空间上消除成多个集群。每个集群包括点云的多个点的子集。在各种具体实施中，多个点的特定点(例如，指定为噪声的那些)不包括在多个集群中的任何集群中。

可以使用各种点云聚类算法在空间上消除点云。在各种具体实施中，将多个点的部分在空间上消除成多个集群包括执行平面模型分割。因此，多个集群中的某些集群对应于位于同一平面中的点云的点集。在各种具体实施中，将多个点的部分在空间上消除成多个集群包括执行欧式聚类提取。

该方法600在框630中继续，其中设备基于该多个集群中的特定集群的点的体积布置来确定语义标签。在各种具体实施中，设备确定多个集群中的每一个的语义标签。

在各种具体实施中，设备通过确定特定集群的平坦度来确定语义标签。例如，如果围绕集群的边界框的深度的尺寸大体上小于其高度和宽度，则该集群是“平坦的”。如果平坦集群是竖直的，则设备确定“墙壁”的语义标签。如果平坦集群是水平的，则设备确定“桌面”的语义标签，但是如果集群是最低的此类水平集群，则设备确定“地板”的语义标签。

在各种具体实施中，设备利用神经网络确定语义标签。具体地讲，设备将神经网络应用于特定集群的点的三维空间中的该组坐标以生成语义标签。

在各种具体实施中，神经网络包括一组互连的节点。在各种具体实施中，每个节点包括实施数学函数的人工神经元，其中根据一组权重对每个输入值进行加权，并且加权输入的总和通过激活函数，通常来讲是非线性函数，诸如s形、分段线性函数或阶跃函数，以产生输出值。在各种具体实施中，利用训练数据训练神经网络以设置权重。

在各种具体实施中，神经网络包括深度学习神经网络。因此，在一些具体实施中，神经网络包括(节点的)输入层与(节点的)输出层之间的(节点的)多个层。在各种具体实施中，神经网络接收特定集群的点的三维空间中的多组坐标作为输入。在各种具体实施中，神经网络提供集群的语义标签作为输出。

如上所述，在各种具体实施中，每个点与附加数据相关联。在各种具体实施中，附加数据也作为输入被提供给神经网络。例如，在各种具体实施中，将集群的每个点的颜色或颜色变化提供给神经网络。在各种具体实施中，将集群的每个点的置信度提供给神经网络。

在各种具体实施中，针对各种对象类型训练神经网络。针对每个对象类型，提供了呈该对象类型的对象的点云形式的训练数据。更具体地，提供了呈点云的点的三维空间中的多组坐标形式的训练数据。因此，利用不同桌子的许多不同点云训练神经网络，以训练神经网络将集群分类为“桌子”。类似地，利用不同椅子的许多不同点云训练神经网络，以训练神经网络将集群分类为“椅子”。

在各种具体实施中，神经网络包括多个神经网络检测器，每个神经网络检测器针对不同的对象类型进行训练。利用特定对象类型的对象的点云训练的每个神经网络检测器响应于接收到特定集群的点的三维空间中的多组坐标提供特定集群对应于特定对象类型的概率作为输出。因此，响应于接收到特定集群的点的三维空间中的多组坐标，针对桌子的神经网络检测器可以输出0.9，针对椅子的神经网络检测器可以输出0.5，并且针对圆柱体的神经网络检测器可以输出0.2。语义标签是基于最大输出确定的。

在各种具体实施中，设备确定特定集群的多个语义标签。在各种具体实施中，设备确定特定集群的一系列层级或层状语义标签。例如，设备确定语义标签的数目，该语义标签利用增加的特异性度识别由集群表示的对象。例如，设备确定特定集群的第一语义标签“平坦”，指示该集群的一个维度大体上小于另两个。然后，设备确定第二语义标签“水平”，指示该平坦集群是水平的(例如，像地板或桌面)，而不是竖直的(像墙壁或图片)。然后，设备确定第三语义标签“地板”，指示该平坦的水平集群是地板，而不是桌子或天花板。然后，设备确定第四语义标签“地毯”，指示地板铺的是地毯，而不是瓷砖或硬木地板。

在各种具体实施中，设备确定与特定集群的子集群相关联的子标签。在各种具体实施中，该方法包括：将特定集群的部分在空间上消除成多个子集群，并且基于多个集群中的特定子集群的点的体积布置来确定语义子标签。例如，在各种具体实施中，设备确定特定集群的第一语义标签“桌子”。将桌子集群在空间上消除成多个子集群之后，确定第一子集群的第一语义子标签“桌面”，然后确定第二子集群的第二语义子标签“桌腿”。

方法600在框640中继续，其中设备生成特定集群的点中的特定点的表征向量。在各种具体实施中，设备针对特定集群的每个点生成表征向量。表征向量包括特定点的坐标、特定集群的集群标识符和语义标签。例如，在图5中，每个数据元素对应于包括坐标字段520中的特定点的坐标、集群标识符字段530中的集群标识符以及语义标签字段540中的语义标签的表征向量。

在各种具体实施中，语义标签是文本串，诸如“桌子”或“地板”。在各种具体实施中，语义标签是数字，诸如对应于桌子或地板的对象类型“3”或对象类型“7”。

在各种具体实施中，表征向量包括多个语义标签。在各种具体实施中，表征向量包括语义标签的各种层。在各种具体实施中，表征向量包括一个或多个语义子标签。

图7是根据一些具体实施的电子设备700的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。出于该目的，作为非限制性示例，在一些具体实施中，电子设备700包括一个或多个处理单元702(例如，微处理器、ASIC、FPGA、GPU、CPU、处理核心等)、一个或多个输入/输出(I/O)设备和传感器706、一个或多个通信接口708(例如，USB、FIREWIRE、THUNDERBOLT、IEEE802.3x、IEEE 802.11x、IEEE 802.16x、GSM、CDMA、TDMA、GPS、IR、BLUETOOTH、ZIGBEE和/或类似类型的接口)、一个或多个编程(例如，I/O)接口710、一个或多个XR显示器712、一个或多个任选的面向内部和/或面向外部的图像传感器714、存储器720以及用于互连这些部件和各种其他部件的一条或多条通信总线704。

在一些具体实施中，该一条或多条通信总线704包括互连系统部件和控制系统部件之间的通信的电路。在一些具体实施中，一个或多个I/O设备及传感器706包括惯性测量单元(IMU)、加速度计、陀螺仪、温度计、一个或多个生理传感器(例如，血压监测仪、心率监测仪、血液氧传感器、血糖传感器等)、一个或多个传声器、一个或多个扬声器、触觉引擎以及/或者一个或多个深度传感器(例如，结构光、飞行时间等)等。

在一些具体实施中，一个或多个XR显示器712被配置为向用户呈现XR内容。在一些具体实施中，一个或多个XR显示器712对应于全息、数字光处理(DLP)、液晶显示器(LCD)、硅上液晶(LCoS)、有机发光场效应晶体管(OLET)、有机发光二极管(OLED)、表面传导电子发射显示器(SED)、场发射显示器(FED)、量子点发光二极管(QD-LED)、微机电系统(MEMS)和/或类似的显示器类型。在一些具体实施中，一个或多个XR显示器712对应于衍射、反射、偏振、全息等波导显示器。例如，电子设备700包括单个XR显示器。又如，电子设备700对于用户的每只眼睛包括XR显示器。在一些具体实施中，一个或多个XR显示器712能够呈现AR、MR和/或VR内容。

在各种具体实施中，一个或多个XR显示器712为视频透传显示器，其将物理环境的至少一部分显示为由场景相机所捕获的图像。在各种具体实施中，一个或多个XR显示器712为光学透传显示器，其至少部分为透明的并通过由物理环境发射或反射的光。

在一些具体实施中，一个或多个图像传感器714被配置为获取对应于用户面部的至少一部分(包括用户的眼睛)的图像数据(任一传感器可称为眼睛跟踪相机)。在一些具体实施中，一个或多个图像传感器714被配置为面向前方，以便获得对应于当不存在电子设备700时用户将看到的物理环境的图像数据(因而可以被称为场景相机)。一个或多个任选图像传感器714可包括一个或多个RGB相机(例如，具有互补金属氧化物半导体(CMOS)图像传感器或电荷耦合器件(CCD)图像传感器)、一个或多个红外(IR)相机、一个或多个基于事件的相机等。

存储器720包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备。在一些具体实施中，存储器720包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器720任选地包括与一个或多个处理单元702远程定位的一个或多个存储设备。存储器720包括非暂态计算机可读存储介质。在一些具体实施中，存储器720或存储器720的非暂态计算机可读存储介质存储下述程序、模块和数据结构或者它们的子集，其中包括任选的操作系统730和XR呈现模块740。

操作系统730包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。在一些具体实施中，XR呈现模块740被配置为经由一个或多个XR显示器712向用户呈现XR内容。为此，在各种具体实施中，XR呈现模块740包括数据获取单元742、语义标注单元744、XR呈现单元746和数据传输单元748。

在一些具体实施中，数据获取单元742被配置为获取数据(例如，呈现数据、交互数据、传感器数据、位置数据等)。可以从一个或多个处理单元702或另一电子设备获得数据。例如，在各种具体实施中，数据获取单元742获得物理环境的点云。为此，在各种具体实施中，数据获取单元742包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，语义标注单元744被配置为将点云在空间上消除成多个集群并且确定集群中的至少一个集群的语义标签。为此，在各种具体实施中，语义标注单元744包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，XR呈现单元746被配置为经由一个或多个XR显示器712呈现XR内容。为此，在各种具体实施中，XR呈现单元746包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，数据传输单元748被配置为向一个或多个处理单元702、存储器720或另一电子设备传输数据(例如，呈现数据、位置数据等)。为此，在各种具体实施中，数据传输单元748包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

尽管数据获取单元742、语义标注单元744、XR呈现单元746和数据传输单元748被示为驻留在单个电子设备700上，但应当理解，在其他具体实施中，数据获取单元742、语义标注单元744、XR呈现单元746和数据传输单元748的任何组合可位于单独的计算设备中。

此外，图7更多地用作可能存在于特定实施方案中的各种特征的功能描述，与本文所述的具体实施的结构示意图不同。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图7中单独示出的一些功能模块可在单个模块中实现，并且单个功能块的各种功能可在各种实施方案中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。

虽然上文描述了在所附权利要求书范围内的具体实施的各个方面，但是应当显而易见的是，上述具体实施的各种特征可通过各种各样的形式体现，并且上述任何特定结构和/或功能仅是例示性的。基于本公开，本领域的技术人员应当理解，本文所述的方面可以独立于任何其他方面来实现，并且这些方面中的两个或更多个可以采用各种方式组合。例如，可以使用本文阐述的任何数量的方面来实现装置和/或可以实践方法。另外，除了本文阐述的一个或多个方面之外或者不同于本文阐述的一个或多个方面，可以使用其他结构和/或功能来实现这样的装置和/或可以实践这样的方法。

还将理解的是，虽然术语“第一”、“第二”等可能在本文中用于描述各种元素，但是这些元素不应当被这些术语限定。这些术语只是用于将一个元件与另一元件区分开。例如，第一节点可以被称为第二节点，并且类似地，第二节点可以被称为第一节点，其改变描述的含义，只要所有出现的“第一节点”被一致地重命名并且所有出现的“第二节点”被一致地重命名。第一节点和第二节点都是节点，但它们不是同一个节点。

本文中所使用的术语仅仅是为了描述特定具体实施并非旨在对权利要求进行限制。如在本具体实施的描述和所附权利要求中所使用的那样，单数形式的“一个”和“该”旨在也涵盖复数形式，除非上下文清楚地另有指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件，和/或其分组。

如本文所使用的，术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真，具体取决于上下文。类似地，短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真，具体取决于上下文。

Claims

1.一种方法，包括：

在包括非暂态存储器和一个或多个处理器的电子设备处：

获得包括多个点的物理环境的点云，所述多个点中的每一个与三维空间中的坐标相关联；

将所述多个点的部分在空间上消歧成多个集群；

基于所述多个集群中的特定集群的点的体积布置来确定语义标签；以及

生成所述特定集群的所述点中的特定点的表征向量，其中所述表征向量包括所述特定点的坐标、所述特定集群的集群标识符和所述语义标签。

2.根据权利要求1所述的方法，其中获得所述点云包括：

从多个不同视角获得所述物理环境的多个图像；以及

基于所述物理环境的所述多个图像来生成所述点云。

3.根据权利要求1或2所述的方法，其中获得所述点云包括：

获得所述物理环境的图像；

获得所述物理环境的所述图像的深度图；以及

基于所述物理环境的所述图像和所述深度图来生成所述点云。

4.根据权利要求1至3中任一项所述的方法，其中将所述多个点的所述部分在空间上消歧成所述多个集群包括执行平面模型分割。

5.根据权利要求1至4中任一项所述的方法，其中将所述多个点的所述部分在空间上消歧成所述多个集群包括执行欧几里德聚类提取。

6.根据权利要求1至5中任一项所述的方法，其中确定所述语义标签包括确定所述特定集群的平坦度。

7.根据权利要求1至6中任一项所述的方法，其中确定所述语义标签包括将所述特定集群的所述点的坐标提供给机器学习对象分类器以获得所述语义标签。

8.根据权利要求1至7中任一项所述的方法，其中所述表征向量还包括颜色或颜色变化。

9.根据权利要求1至8中任一项所述的方法，所述方法还包括：

将所述特定集群的部分在空间上消歧成多个子集群；

基于所述多个子集群中的特定子集群的点的体积布置来确定语义子标签；以及

生成所述特定子集群的所述点中的特定点的表征向量，其中所述表征向量包括所述特定点的所述坐标、所述特定集群的所述集群标识符、所述语义标签和所述语义子标签。

10.一种设备，包括：

一个或多个处理器；

非暂态存储器；以及

存储在所述非暂态存储器中的一个或多个程序，所述一个或多个程序在由所述一个或多个处理器执行时使所述设备执行根据权利要求1至9所述的方法中的任一种方法。

11.一种非暂态存储器，所述非暂态存储器存储一个或多个程序，所述一个或多个程序在由设备的一个或多个处理器执行时使所述设备执行根据权利要求1至9所述的方法中的任一种方法。

12.一种设备，包括：

一个或多个处理器；

非暂态存储器；以及

用于使所述设备执行根据权利要求1至9所述的方法中的任一种方法的装置。

13.一种设备，包括：

非暂态存储器；以及

一个或多个处理器，所述一个或多个处理器用于：

将所述多个点的部分在空间上消歧成多个集群；

生成所述特定集群的所述点中的特定点的表征向量，其中

所述表征向量包括所述特定点的坐标、所述特定集群的集群标识符和所述语义标签。