CN110199322A

CN110199322A - 从内部空间的3d网格表示提取2d平面图

Info

Publication number: CN110199322A
Application number: CN201880007919.XA
Authority: CN
Inventors: 于尔根·斯特姆; 克里斯托夫·舒特
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-04-28
Filing date: 2018-04-27
Publication date: 2019-09-03
Also published as: KR20190098201A; KR102219276B1; EP3616164A1; WO2018201019A1; JP6907325B2; US20180315162A1; JP2020518038A; US10572970B2

Abstract

成像相机(212)和深度相机(302、304、306)被配置为执行对内部空间(100、1600)的3D扫描。处理器(1510)被配置为基于3D扫描在三维(3D)网格中生成体素。体素表示内部空间的体积的部分。处理器还被配置为将体素投影到内部空间的2D平面图(2100)中的图块(620、920)上并且基于图块生成表示内部空间中的特征的2D距离网格(700)。处理器还被配置为基于2D距离网格实时生成表示平面图的元素的多边形集合(801、802、803)。处理器还被配置为生成表示平面图的简化基元集合(1205)。

Description

从内部空间的3D网格表示提取2D平面图

背景技术

建筑物、房屋或公寓的二维(2D)平面图是相对应的结构的有价值的表示。例如，2D平面图被用于向住宅或建筑物的潜在购买者、公寓的潜在租户、计划重新设计内部空间的室内设计师和参与结构翻新的建筑师等图示出房间布局。即使系统可用于对内部空间的三维(3D)几何形状进行扫描，生成2D平面图的传统过程也需要人为干预。例如，通常需要绘图员基于所扫描的3D几何形状来绘制2D建筑平面图。此外，用于执行3D扫描的商业上可用的系统相对昂贵并且扫描过程是时间和劳动密集的。例如，传统3D扫描系统使用安装在三脚架上的检测器，必须将所述检测器移动到正在被扫描的结构内的若干采集位置。每个采集位置的扫描时间通常为几分钟或更长。可以通过将深度相机添加到移动电话以捕获结构的3D几何形状来实现移动3D扫描。然而，这种方法仍然需要根据3D几何形状手动提取2D平面图。因此，对于大多数建筑物、房屋和公寓，最新的平面图是不可获取的。

附图说明

通过参考附图，可以更好地理解本公开并且本公开的多种特征和优点对于本领域技术人员而言可以是显而易见的。在不同附图中使用相同的附图标号表示相似或相同的项目。

图1是根据一些实施例的内部空间和执行对内部空间的三维(3D)扫描的电子设备的图。

图2和图3示出了根据一些实施例的形状因子为平板电脑的电子设备的示例实现的示例正视平面图和后视平面图。

图4示出了根据本公开的至少一个实施例的沿着图2和图3的平面图中所描绘的线的电子设备的示例横截面视图。

图5示出了根据一些实施例的诸如公寓或房屋的建筑物的内部空间的俯视图。

图6是根据一些实施例的表示内部空间的3D网格的一部分的框图。

图7是根据一些实施例的表示内部空间内的墙、空闲空间和家具的二维(2D)距离网格。

图8示出了根据一些实施例的生成表示内部空间的平面图的多边形集合的方法。

图9是根据一些实施例的表示内部空间的3D网格的一部分的框图。

图10示出了根据一些实施例的包括多个主要定向的内部空间的俯视图。

图11是根据一些实施例的对应于2D距离网格的不同定向的权重的直方图。

图12示出了根据一些实施例的基于具有多个主要定向的内部空间的2D距离网格生成的基元集合。

图13是根据一些实施例的从体素的3D网格生成2D平面图的方法的流程图。

图14是根据一些实施例的迭代地选择表示2D距离网格的基元集合的方法的流程图。

图15是根据一些实施例的被配置为通过垂直投影3D体素的值来生成2D平面图的电子设备的框图。

图16示出了根据一些实施例的包括各种家具的建筑物的内部空间的俯视图。

图17是根据一些实施例的被训练为基于位于内部空间的各部分中的家具来标记内部空间的各部分的卷积神经网络(CNN)的框图。

图18是示出了根据一些实施例的作为对CNN的输入而提供的图块和重叠图块集合的框图。

图19是根据一些实施例的具有叠加在内部空间的轮廓上的经标记的图块的地图的框图。

图20是根据一些实施例的标记内部空间的平面图中的各部分的方法的流程图。

图21示出了根据一些实施例的经标记的2D平面图。

具体实施方式

使用表示由结构包围的体积的3D网格中的体素的垂直投影来生成结构的2D平面图。在一些实施例中，使用实现2D相机和深度相机的移动电话中的3D扫描应用来获取3D网格。体素存储包括体素的空间位置、体素的空间范围、体素的观察数目(或信息的权重)以及到距体素最接近的表面的估计的有符号距离的信息。表示所扫描的体积的三角形的3D网格基于体素的值来生成(或提取)。将体素垂直投影到2D平面图中的2D图块包括：沿垂直方向对体素的权重进行求和以确定图块的2D权重，并确定沿垂直方向的有符号距离的加权和以确定图块的2D有符号距离。在一些实施例中，从3D表示中提取附加特征，诸如从上方可见的最高表面的高度、从下方可见的最低表面的高度和垂直带中的空闲空间与占用空间的比率等。图块的2D权重和2D有符号距离用于生成表示结构中的诸如墙、空闲空间、家具、门和窗等的特征的二维距离网格。在某些情况下，2D距离网格被转换为表示平面图中特征的多边形。

2D平面图的实时生成由将3D网格细分为包含预定数目的体素的体积集合来支持，所述体积例如是16×16×16体素的体积。系统识别响应于获取结构的新深度图像而受影响的体积。仅更新受影响的体积中的体素的值并重新提取相对应的3D网格。2D平面图中的图块子集与包括被垂直投影到图块子集上的体素的相对应的体积相关联。通过确定在与图块子集相关联的每个垂直柱形中的一个或多个体积是否已更新而更新2D平面图。如果是，则重新计算包括图块子集的2D平面图的一部分并提取相对应的多边形(或部分多边形)。通过将平面图表示为一系列诸如线、矩形、三角形、圆形和多边形等的基元来减少2D平面图中的噪声。基元与诸如空闲空间、墙、未知物的类以及可包括家具、门和窗等的其他类相关联。基元可以定向于任何方向。迭代过程用于通过最小化基元集合的成本函数和定向来找到近似于2D平面图的基元序列和对应的定向。

图1是根据一些实施例的内部空间100和执行对内部空间100的3D扫描的电子设备110的图。内部空间100包围包括诸如家具(例如书柜101)、墙102、墙103、门104和窗105的特征的体积。内部空间100的一些实施例包括额外的房间、其他类型的家具以及设置在内部空间100内的各种其他对象。

根据本公开的至少一个实施例，电子设备110被配置为使用图像和非图像传感器数据来支持基于位置的功能，诸如即时定位与地图构建(SLAM)或增强现实(AR)。电子设备110可以包括便携式用户设备，诸如平板电脑、支持计算的蜂窝电话(例如“智能手机”)、笔记本电脑、个人数字助理(PDA)、游戏系统遥控器、电视遥控器和AR/VR耳机等。在其他实施例中，电子设备110包括固定设备，例如诸如真空清洁机器人的个人服务机器人、医学成像设备、安全成像相机系统、工业机器人控制系统、无人机控制系统和3D扫描装置等。为了便于说明，本文一般在诸如平板计算机或智能电话的便携式用户设备的示例背景中描述电子设备110；然而电子设备110不限于这些示例实现。

电子设备110包括用于获取关于内部空间100的信息的多个传感器。电子设备110经由设置在面向前方的表面处的成像相机和深度传感器以及在一些实施例中的设置在面向用户的表面处的成像相机来获取内部空间100的视觉信息(图像)。如本文所讨论的，成像相机和深度传感器被用于执行对内部空间100的环境的3D扫描。在一些实施例中，如箭头115、箭头120所示，持有电子设备110的用户移动通过内部空间100。用户定向电子设备110，使得成像相机和深度传感器能够捕获图像并感测如虚线椭圆125所示的内部空间100的一部分的深度。然后，电子设备110存储捕获到的图像和相应的深度以用于稍后在生成内部空间100的3D网格表示和内部空间100的2D平面图中使用。

电子设备110的一些实施例依赖于非图像信息来进行位置/定向检测。这种非图像信息可以由电子设备110经由诸如陀螺仪或环境光传感器的一个或多个非图像传感器(图1中未示出)来获取。非图像传感器还可以包括用户界面组件，诸如小键盘(例如触摸屏或键盘)、麦克风和鼠标等。表示在给定时间点的电子设备110的状态的非图像传感器信息被称为该时间点的电子设备的“当前场境”。这种当前场境可以包括显式场境，诸如电子设备110的相对旋转定向或入射在电子设备110上的来自本地环境的环境光。例如，当前场境可以包括指示在内部空间100内的电子设备110的3D坐标和电子设备110的诸如俯仰、滚转和偏航的旋转坐标的电子设备110的6个自由度(6DoF)的姿态。当前场境还可以包括隐式场境信息，诸如从日历信息或时钟信息推断的信息或者从用户与电子设备110的交互推断的信息。

在操作中，电子设备110使用图像传感器数据和非图像传感器数据来确定电子设备110的相对位置/定向，即相对于内部空间100的位置/定向。在至少一个实施例中，相对位置/定向的确定基于由成像相机中的一个或多个捕获到的图像数据中的空间特征的检测和电子设备110的相对于检测到的空间特征的位置/定向的确定。诸如来自陀螺仪、磁力计、环境光传感器、小键盘和麦克风等的读数的非图像传感器数据也由电子设备110在电子设备110的当前位置/定向上采集。

电子设备110的一些实施例对电子设备110的相对位置/定向、电子设备110的姿态、图像传感器数据和深度传感器数据进行组合以生成表示内部空间100和内部空间100内的特征的体素的3D网格，所述特征包括书柜101、墙102、墙103、门104和窗105。每个体素表示由内部空间100包围的体积的一部分。体素包括指示观察结果的数目的权重的值和相对于与体素相关联的表面的有符号距离，该观察结果包括内部空间100的体积的相应部分。

电子设备110能够通过将3D网格垂直投影到内部空间100的地面的平面中来生成表示内部空间100的2D距离网格。在所示的实施例中，2D距离网格指示内部空间100的平面图中的书架101和墙102、墙103的位置。2D距离网格还可以包括指示内部空间100中的门104、窗105以及其他对象或特征的位置的信息。电子设备110的一些实施例例如通过在电子设备110正在执行3D扫描的同时，获取在先前时间间隔中修改的体素的子集，来与执行对内部空间100的3D扫描并发地生成2D距离网格。通过将内部空间100的2D平面图表示为诸如线、圆、三角形、矩形或其他多边形的基元的集合来减小2D网格中的噪声。因此，在基元被添加到用于表示内部空间100的基元集合中时，电子设备110的一些实施例能够迭代地选择最小化成本函数的基元。如本文所讨论的，成本函数指示基元集合与2D距离网格的匹配程度。

图2和图3示出了根据一些实施例的以平板电脑形状因子的电子设备110的示例实现的示例前视平面图和后视平面图。电子设备110可以以其他形状因子实现，诸如智能电话形状因子和医学成像设备形状因子等，所述其他形式因子实现与所示出的那些配置类似的配置。

如图2的前视平面图200所示，电子设备110可以包括一个或多个用户界面组件，诸如设置在面向用户的表面208处的小键盘的触摸键202、204和206。电子设备110还包括显示器210。显示器210的一些实施例被实现为触摸屏显示器，以便经由用户与显示器210的交互来促进用户输入和控制。在所示实施例中，电子设备110还包括面向用户的成像相机212。成像相机212可以用于捕获面向表面208的局部环境的图像数据。此外，在一些实施例中，成像相机212被配置以用于跟踪头部的移动或用于面部识别并且从而提供可以用于调整经由显示器210呈现的图像的视角的头部跟踪信息。

如图3的后视平面图300所示，电子设备110包括宽视图成像相机302、窄视图成像相机304和设置在面向前方的表面310处的调制光投影器306。

在一个实施例中，成像相机302被实现为具有鱼眼镜头或其他广角镜头的广角成像相机以提供面向表面310的局部环境的较宽角视图。成像相机304被实现为具有典型视角的镜头的窄角成像相机以提供面向表面310的局部环境的较窄角视图。因此，成像相机302和成像相机304在本文中也分别称为“广角成像相机302”和“窄角成像相机304”。如下面更详细地描述的，广角成像相机302和窄角成像相机304可以被定位和定向在面向前方的表面310上，使得它们的视场在距电子设备110的指定距离处开始重叠，由此使得能够经由多视图图像分析来深度感测定位于重叠视场的区域中的局部环境中的对象。

在电子设备110中实现的深度传感器的一些实施例使用调制光投影器306将调制光图案(pattern)从面向前方的表面310投影到本地环境中，并使用成像相机302、304中的一个或两个在调制光图案的反射从本地环境中的对象反射回时捕获调制光图案的反射。这些调制光图案可以是空间调制光图案或时间调制光图案。捕获到的调制光图案的反射在本文中称为“深度图像”。深度传感器基于对深度图像的分析来计算对象的深度，即对象距电子设备110的距离。从深度传感器获取的结果深度数据可以用于校准或增强从对由成像相机302、304捕获的图像数据的多视图分析(例如立体分析)中获取的深度信息。或者，来自深度传感器的深度数据可以用于代替从多视图分析中获取的深度信息。为了说明，多视图分析通常更适合于明亮的光照条件和对象相对较远时，而基于调制光的深度感测更适合于较低的光照条件或所观察的对象相对较近时(例如在4-5米内)。因此，在电子设备110感测到电子设备110位于户外或在相对良好的光照条件下时，电子设备110可以选择使用多视图分析来确定对象深度。相反，在电子设备110感测到它位于室内或在相对不良的光照条件下时，电子设备110可以切换到使用经由深度传感器的基于调制光的深度感测。

尽管图2和图3示出了成像相机212、302和304以及沿直线对准的调制光投影器306以有利于图4中的示例性横截面，但是成像相机212、302和304以及调制光投影器306可以相对于彼此偏离(offset)。例如，调制光投影器306可以被定位在从在成像相机302与304之间延伸的线偏离的位置处，或者调制光投影器306和广角成像相机302可以沿平行于电子设备110的顶部边缘的线设置并且窄角成像相机304可以设置在偏离该线的位置处。此外，虽然调制光投影器306被示出为被定位在成像相机302和304之间，但是在其他实现中，调制光投影器306可以定位在成像相机302和304中的一个的外侧。

图4示出了根据本公开的至少一个实施例的沿着在图2和图3的平面视图中描绘的线215的电子设备110的示例横截面视图400。如图所示，电子设备110包括设置在孔402中或面向用户的表面208中的其他开口中的面向用户的成像相机212并且包括分别设置在孔404和孔406或者在面向前方的表面310中的其他开口中的广角成像相机302和窄角成像相机304。广角成像相机302包括图像传感器408和设置在图像传感器408的感测表面上的一个或多个镜头410。窄角成像相机304包括图像传感器412和设置在图像传感器412的感测表面上的一个或多个镜头414。类似地，面向用户的成像相机212包括图像传感器416和设置在图像传感器416的感测表面上的一个或多个镜头418。

针对每个成像相机实现的镜头类型取决于成像相机的预期功能。在一个实施例中，因为面向前方的成像相机302旨在用于机器视觉特定的图像以用于分析局部环境，所以镜头410可以被实现为具有例如160-180度之间的视角并且具有已知的高失真的广角镜头或鱼眼镜头。在一个实施例中，面向前方的成像相机304支持用户启动的图像捕获，并且因此面向前方的成像相机304的镜头414可以被实现为具有例如水平80-90度之间的视角的窄角镜头。注意的是，这些视角仅是示例性的。除了支持局部环境成像或头部跟踪之外，面向用户的成像相机212同样可以具有其他用途。例如，面向用户的成像相机212还可以用于支持电子设备110的视频会议功能。因此，取决于应用，面向用户的成像相机212的镜头418可以被实现为窄角镜头、广角镜头或鱼眼镜头。

成像相机212、302和304的图像传感器408、412和416可以分别被实现为基于电荷耦合器件(CCD)的传感器、互补金属氧化物半导体(CMOS)有源像素传感器等。在基于CMOS的实现中，图像传感器可以包括滚动快门传感器，由此，在传感器上的所有其他行继续被曝光的同时对图像传感器的一行或多行像素传感器组进行读出。该方法具有由于较长的曝光时间或更多可用的光敏区域而提供增加的灵敏度的益处，但是具有由于在帧中捕获高速对象而遭受失真的缺点。通过在滚动快门中实现全局复位机制使得传感器上的全部像素同时而不是逐行地开始采集电荷，可以最小化失真的影响。在基于CCD的实现中，图像传感器可以被实现为全局快门传感器，由此传感器的全部像素同时曝光并且然后被传送到屏蔽区域，所述屏蔽区域随后在下一个图像帧正在曝光时可以被读出。这种方法具有较不易受失真影响的益处，由于每个像素需要附加的电子器件而具有灵敏度通常会降低的缺点。

在一些实施例中，广角成像相机302和窄角成像相机304的视场在区域420中重叠，使得区域420中的局部环境中的对象被表示在由广角成像相机302捕获的图像帧和由窄角成像相机304并发捕获的图像帧两者中，从而允许由电子设备110通过两个并发的图像帧的多视图分析来确定区域420中的对象的深度。因此，面向前方的成像相机302和304定位在面向前方的表面310处，使得区域420覆盖预期距离范围并相对于电子设备110扫视。此外，由于多视图分析依赖于视差现象，所以面向前方的成像相机302和304被充分分离以为多视图分析提供充足的视差。

横截面视图400中还示出了调制光投影器306的多种示例位置。调制光投影器306在大致垂直于表面310的方向上投影红外调制光图案424，并且面向前方的成像相机302和304中的一个或两个被用于捕获投影光图案424的反射。在所描绘的示例中，调制光投影器306被设置在面向前方的表面310上的成像相机302与304之间的位置处。在一些实施例中，调制光投影器306可以设置在成像相机中的一个与壳体边缘之间的位置处，诸如在广角成像相机302与壳体侧面之间的位置422处或者在窄角成像相机304与壳体侧面之间的位置处(未示出)。

图5示出了根据一些实施例的诸如公寓或房屋的建筑物的内部空间的俯视图500。图1中所示的内部空间100的一些实施例对应于俯视图500的一部分。持有用户设备505的用户沿着路径510移动通过内部空间。使用图1、图2和图3中所示的电子设备110的一些实施例来实现用户设备505。在用户沿着路径510移动时，用户将用户设备505对准内部空间的各种特征，诸如墙515(为了清楚起见，仅通过一个附图标记表示一个墙)、家具(为了清楚起见，未在图5中示出)或者内部空间内的其他特征。

用户设备505使用在对内部空间的3D扫描期间采集的图像和深度值来生成表示内部空间的3D网格。用户设备的一些实施例生成3D截断有符号距离函数(TSDF)网格来表示内部空间。例如，用户设备505可以使用视觉惯性测距(VIO)或者并发测距与地图构建(COM)来实时估计相机姿态。然后使用深度图像来构建表示内部空间的特征的3D体积TSDF网格。用于生成3D TSDF网格的技术在本领域中是已知的并且为了清楚起见，本文不再进一步讨论。在一些实施例中，响应于由用户设备505获取的每个深度图像而更新3D TSDF网格。或者，响应于获取了预定数目的深度图像或响应于经过了预定的时间间隔而更新3D TSDF网格。例如使用行进立方体算法(marching cubes algorithm)从3D TSDF网格中提取3D三角形网格。

3D TSDF网格由具有例如2厘米(cm)的特定边长的相等尺寸的体素组成。每个体素存储两个值：由用户设备505获取的包括由体素表示的体积的观察结果的数目(权重)和到诸如墙515的表面的相对应表面的估计的有符号距离。通过沿垂直方向投影体素，从3DTSDF网格生成2D距离网格。在一些实施例中，通过对权重和垂直方向上的有符号距离进行平均来完成垂直投影。例如，垂直平均值可以计算为：

weight_2d(x，y)＝∑_zweight_3d(x，y，z) (1)

在此示例中，2D平面图位于x-y平面中并且垂直投影沿z方向。在所示实施例中，通过将从3D TSDF网格提取的3D权重除以2D权重来对2D有符号距离进行归一化。

用户设备505的一些实施例被配置为从3D TSDF网格提取其他特征。例如，用户设备505可以提取从上方可见的最高表面的高度值：

surface_fromabove(x，y)＝

max{z|distance_3d(x，y，z)＞0&&distance_3d(x，y，z-1)＜0} (3)

可以提取的其他特征，所述其他特征包括从下方查看的最低表面的高度和垂直带中的空闲空间与占用空间的比率等。空闲空间/占用空间的比率可用于将墙与窗、门和其他开口区分。

图6是根据一些实施例的表示内部空间的3D网格的一部分600的框图。部分600表示图1中所示的内部空间100的一些实施例。部分600包括布置在内部空间的平面图的平面中的图块620上方的垂直柱形中的体素605、610、615。如本文所讨论的，体素605、610、615与表示内部空间的诸如权重和有符号距离的特性的相对应的值相关联。通过对体素605、610、615的值进行平均或加和来将体素605、610、615垂直投影到图块620上。然后，通过诸如2D权重和2D有符号距离的平均值或加和值来表示图块620。图块620与其他图块(图6中未示出)组合使用以用于生成2D距离网格。在一些实施例中，为不同的对象语义类来定义单独的2D距离网格。例如，可以生成三个2D距离网格来编码墙、空闲空间和家具。

图7是根据一些实施例的表示内部空间内的墙、空闲空间和家具的2D距离网格700。通过将体素从3D网格垂直投影到内部空间的平面图的平面中来生成2D距离网格700。所示的2D距离网格700的实施例被表示为2D TSDF网格。基于相对于限定内部空间的表面的估计的有符号距离来确定像素的颜色。黑色像素表示最大负截断边界，所述黑色像素对应于对象或墙内的像素。灰色像素是位于表面内部和外部的区域之间的边界处的像素。在所示实施例中，灰色像素也是在估计的有符号距离未知时所应用的默认值。白色像素是最大正截断距离，所述白色像素对应于在对象或墙之外的像素，例如在空闲空间中的像素。

2D距离网格700中的像素被分类在不同的语义类中。在所示实施例中，语义类是墙、空闲空间和家具。例如，表示墙705(为了清楚起见，仅由一个附图标记指示一个墙)的像素以黑色编码、表示空闲空间710的像素以白色编码并且表示家具715的像素以灰色编码。2D距离网格700是相对有噪声的并且包括伪像，诸如由从窗外的对象获取到的图像和深度所产生的区域720。因此，在一些实施例中，通过例如使用行进方块算法(marching squaresalgorithm)来提取零等表面(zero iso-surface)，将2D距离网格700转换为多边形集合。使用行进方块算法生成的多边形集合被称为表示内部空间的多边形平面图的原始版本。

图8示出了根据一些实施例的生成表示内部空间的平面图的多边形集合的方法。多边形集合是基于在用户设备505执行图5所示的对内部空间的3D扫描时由用户设备505生成的2D距离网格来生成的。方法通过确定最小化成本函数的多边形来迭代地一次选择一个多边形，所述成本函数指示多边形在与任何先前选择的多边形组合时与2D距离网格的匹配程度。在所示实施例中，多边形是矩形。然而在其他实施例中，使用包括线、三角形、圆形或其他多边形的基元来表示内部空间的平面图的部分。

图8所示的方法首先基于2D距离网格来生成目标标签图像。将目标标签图像中的像素分配到语义类集合中的一个语义类。在所示实施例中，像素被分配到以下三个语义类中的一个：空闲空间、墙和未知物。然而，在其他实施例中，像素被分配到更多或更少的语义类，包括家具、电器、窗和门等。该方法的目标是找到最接近输入平面图的语义类的基元(在这种情况下是矩形)的序列。序列表示为：

P＝<p₁，p₂，...-p_N> (4)

基元表示为：

其中，(x，y)是平面图的平面中的基元上的参考点的坐标，是平面中的基元的定向，width是矩形基元的宽度，height是矩形基元的高度以及class是基元的类。不同的参数集合用于表示其他类型的基元。

通过确定平面图的主要定向的集合，减小了沿着可能的定向的搜索空间。在一些实施例中，如下所述，构建直方图以用于累加根据2D TSDF距离网格的加权的梯度定向。将大于全局极大值的预定百分比的直方图中的极大值选择为主要定向。在图8中所示的实施例中，主要定向在附图的平面中是垂直的或者等效地是水平的。在矩形基元的(x，y)坐标、宽度和高度上的搜索空间是二次方以及图像中的像素数。因此，搜索的复杂度是：

O(n²*N_orientations*N_classes) (6)

其中，n是像素的数目，N_orientations是可能的定向的数目，N_classes是可能的类的数目。通过按顺序在基元中光栅化(rasterize)来生成预测的标签图像。

选择基元序列，使得由序列生成的预测图像最佳地匹配目标标签图像。此标准表示为：

P_best＝argmax_P∑_(x，y)cost(predicted(P，x，y)，target(x，y)) (7)

其中，成本函数指示预测图像与目标标签图像匹配的程度。成本函数还用于为不同的语义类分配权重。例如，可以为缺少的墙分配比分配给缺少的空闲空间的成本更高的成本。在实践中，找到未知长度的最佳序列是NP难问题(NP-hard problem)。因此，方法的一些实施例利用在方法的每次迭代时搜索最小化成本函数的单个基元的迭代算法。

在可能的基元的整个空间上为每个基元和定向预先计算成本地图。为了评估在每次迭代时将基元添加到表示内部空间的基元集合中的成本，通过迭代基元的像素来计算成本函数。成本函数表示为：

cost(p)＝∑_(x，y)∈Pcost(predicted(P，x，y)，target(x，y)) (8)

成本地图被转换为积分图像，所述积分图像也称为区域求和表。用于计算区域求和表的技术在本领域中是已知的并且因此本文不再详细讨论。利用积分图像或区域求和表允许例如使用对区域求和表的四次查找以在恒定时间内确定成本。如上所述，成本函数的一些实施例包括用于匹配或不匹配像素的成本项，针对标签变化的成本项以防止组合大的重叠矩形或其他基元、针对顶点的成本项用于防止包括在其他墙内的墙或者具有相互接触的平行墙。针对顶点的成本项增强了算法区分水平墙、垂直墙和具有其他定向的墙的能力以避免包括具有相同定向的墙。表示成本函数的参数是以经验确定的。

在每次迭代时，该方法评估全部可能的基元，并选择具有最低成本的基元。在一次迭代到下一次迭代的成本差异低于预定阈值之后，算法收敛。

在所示实施例中，表示内部空间的多边形集合805在第三次迭代完成之后包括三个多边形801、802、803。如白色填充所指示的，多边形801、802、803处于空闲空间类中。在第五次迭代之后，如交叉阴影线所指示的，表示内部空间的多边形集合810包括两个都处于未知类别中的附加的多边形811、812。在多次迭代之后，算法已经将多边形815(为了清楚起见，仅由一个附图标记指示一个多边形)添加到多边形集合820。如黑色填充所指示的，多边形815表示内部空间中的墙。该方法继续，直到满足收敛标准。

图9是根据一些实施例的表示内部空间的3D网格的一部分900的框图。部分900表示图1中所示的内部空间100的一些实施例。部分900包括布置在内部空间的平面图的平面中的图块920上方的垂直柱形中的体素905、910、915和布置在平面图的平面中的图块940上方的垂直柱形中的体素925、930、935。如本文所讨论的，体素905、910、915、925、930、935与表示内部空间的诸如权重和有符号距离的特征的相对应的值相关联。表示体素905、910、915、925、930、935的不同线指示在3D扫描过程中的先前时间间隔期间是否修改了相对应的体素的值。在所示实施例中，浅虚线指示体素905、910、915、925、935在3D扫描过程中的先前时间间隔期间未被修改。实线指示体素930在先前时间间隔期间被修改。

根据在3D扫描中的先前时间间隔期间相对应的体素905、910、915、925、930、935是否被更新来选择性地更新图块920、940。在所示实施例中，因为在先前时间间隔期间体素905、910、915中没有体素被修改，所以不对图块920进行更新(如浅虚线所示)。因为在先前时间间隔期间体素930的值被修改，所以对图块940进行更新(如实线所示)。因此，通过对体素925、930、935的值进行平均或求和来将体素925、930、935垂直投影到图块940上以更新图块940的值。基于相对应的体素905、910、915、925、930、935先前是否更新来选择性地更新图块920、图块940的值允许实时地执行用于生成本文公开的2D平面图的技术的一些实施例。

在一些实施例中，体素905、910、915、925、930、935被分组为包括预定数目的体素的体积。例如，体积可以包括16×16×16体素集合，所述体素集合包括体素905、910、915、925、930、935中的一个或多个。在这种情况下，图块被分组为对应图块集合，例如与包括16×16×16体素集合的体积的垂直柱形相关联的16×16图块集合。基于在3D扫描中的先前时间间隔期间体积的相对应的垂直柱形内的至少一个体素是否更新来选择性地更新图块集合。在一些实施例中，使用散列来识别包括已经更新的体素的体积，例如通过将相对应的体积标记为“脏”体积。

图10示出了根据一些实施例的包括多个主要定向的内部空间的俯视图1000。如本文所讨论的，持有用户设备1005的用户在移动通过内部空间并将成像相机和深度传感器对准内部空间内的各种特征时执行3D扫描。俯视图1000与图5中所示的俯视图500在几个方面不同。例如，如箭头1010、1015所示，俯视图1000包括多个主要定向。对于另一示例，俯视图1000包括由除矩形之外的多边形更精确地表示的部分，诸如可以用圆形基元表示的部分1020。

图11是根据一些实施例的对应于2D距离网格的不同定向的权重的直方图1100。直方图1100用于确定图5中所示的内部空间的俯视图500和图10中所示的内部空间的俯视图1000的一些实施例的主要定向。纵轴指示任意坐标的权重并且横轴指示从0°至90°的角度的定向。

通过估计像素值的梯度定向来确定与像素相关联的权重。例如，因为墙内的像素(例如2D TSDF网格中的黑色像素)的值不同于墙外的空闲空间中的像素(例如2D TSDF网格中的白色像素)的值，所以墙表面附近的像素的梯度近似垂直于墙。来自2D TSDF距离网格的加权的梯度定向被累积在对应于不同定向的区间1105(为了清楚起见，仅由一个附图标记指示一个区间)中。直方图中的大于全局极大值的预定百分比的极大值被选择为主要定向。预定百分比由图11中的线1115指示。在对应于图10中所示的内部空间的俯视图1000的所示实施例中，直方图1100指示内部空间具有两个主要定向，一个接近0°/90°，一个接近45°。

图12示出了根据一些实施例的基于具有多个主要定向的内部空间的2D距离网格所生成的基元集合1200。使用诸如图11中所示的直方图1100的一些实施例的直方图来确定主要定向。如本文所讨论，集合1200表示在用于基于成本函数来选择集合1200的算法的五次迭代之后的图10中所示的内部空间的俯视图1000的一些实施例。集合1200包括具有接近第一主定向0°的矩形多边形1201、1202、1203和具有接近第二主定向45°的矩形多边形1204。集合1200还包括用于表示图10中所示的内部空间的俯视图1000中的相对应的部分1020的圆形基元1205。

图13是根据一些实施例的从体素的3D网格生成2D平面图的方法1300的流程图。方法1300在图1、图2和图3中所示的电子设备110、在图5中所示的用户设备505和图10中所示的用户设备1005的一些实施例中实现。

在框1305处，获取表示内部空间的体素的3D网格。如本文所讨论的，在一些实施例中，由用户持有的电子设备或用户设备在用户移动通过内部空间时获取体素的3D网格。然而，在其他实施例中，可以使用其他图像获取和深度感测设备来获取体素的3D网格，所述其他图像获取和深度感测设备可以或不可以在可由用户携带的单个设备中实现。此外，体素的3D网格可以由一个系统获取并且然后由另一个系统根据方法1300处理。

在框1310处，用户设备通过将3D网格中的体素投影到平面图的平面中来确定平面图中的2D图块的2D权重。在框1315处，用户设备通过对3D网格中的体素的3D有符号距离的值进行投影来确定2D图块的2D有符号距离。在框1320处，用户生成表示2D平面图的2D距离网格。例如，用户设备可以生成2D距离网格，诸如图7中所示的2D距离网格700。

在框1325处，用户设备通过生成表示2D距离网格的基元集合来减少或去除2D距离网格中的噪声。例如，如图8所示，用户设备可以使用基于成本函数来选择基元的迭代过程来生成基元集合。

图14是根据一些实施例的迭代地选择表示2D距离网格的基元集合的方法1400的流程图。方法1400在图1、图2和图3中所示的电子设备110、在图5中所示的用户设备505和图10中所示的用户设备1005的一些实施例中实现。

在框1405处，用户设备生成表示平面图的2D距离网格。如本文所讨论的，通过将3D体素的值投影到平面图的平面中来生成2D距离网格。在框1410处，将2D距离网格中的像素分配给诸如墙、空闲空间和未知物的语义类。其他语义类包括家具、门和窗等。

在框1415处，用户设备确定平面图的主要定向。用户设备的一些实施例通过构建基于2D距离网格确定的加权的梯度的直方图来确定主要定向。通过识别直方图中对应于不同定向的峰值来确定主要定向。

在框1420处，用户设备找到最小化成本函数的基元。在第一次迭代期间，用户设备选择用于表示平面图的单个基元。在后续的迭代期间，用户设备选择在与先前所选择的基元组合时最小化当前所选择的基元的成本函数的基元。在框1425处，将所选择的基元添加到表示平面图的基元集合。

在判定框1430处，用户设备确定迭代的选择过程是否已收敛。迭代选择过程的一些实施例响应于从一次迭代到另一次迭代的成本函数值的差低于预定阈值而收敛。如果迭代选择过程已经收敛，则方法1400流向终止块1435并且方法1400结束。如果迭代选择过程尚未收敛，则方法1400回流到框1420并且用户设备选择最小化成本函数的另一基元。

图15是根据一些实施例的被配置为通过对3D体素的值进行垂直投影来生成2D平面图的电子设备1500的框图。电子设备1500用于实现在图1、图2和图3中示出的电子设备110、在图5中示出的用户设备505以及图10中示出的用户设备1005的一些实施例。

电子设备1500包括用于支持与其他设备的通信的收发器1505。电子设备1500的一些实施例在用户设备中实现，在这种情况下，收发器1505被配置为支持通过空中接口进行通信。电子设备1500还包括处理器1510和存储器1515。处理器1510被配置为执行指令，诸如存储在存储器1515中的指令，并且存储器1515被配置为存储指令、将由指令在其上操作的数据或者由处理器1510执行的指令的结果。因此，电子设备1500能够实现图13中所示的方法1300和图14中所示的方法1400的一些实施例。

图16示出了根据一些实施例的包括各种家具的建筑物的内部空间1600的俯视图。图1中所示的内部空间100的一些实施例对应于俯视图1600的一部分。尽管从内部空间1600的正上方示出了内部空间1600的俯视图，但是也可以使用来自更倾斜角度的其他视图。内部空间1600被细分为几个房间，包括厨房1601、卧室1602、书房1603、餐厅1604、卧室1605和浴室1606，它们在本文中统称为“房间1601-1606”。内部空间1600的一些实施例包括更多或更少的房间。

房间1601-1606包括诸如桌子1610的多件家具。房间1601-1606还包括另外几件家具，诸如椅子、床、梳妆台、书架、坐便器、水槽、淋浴器、洗衣机、冰箱、烤箱、厨灶和洗碗机等。为了清楚起见，未用附图标记表示所述另外几件家具。如本文所使用的，术语“家具”指代位于内部空间1600内的任何对象，包括本文公开的特定家具以及位于一个或多个房间1601-1606内的其他对象。

如本文所讨论的，使用诸如图1中所示的电子设备110的电子设备来获取对内部空间1600的3D扫描。3D扫描的一些实施例使用针对3D扫描中的每个像素所获取的颜色信息和深度信息来表示内部空间1600。例如，颜色信息可以包括用于表示像素的红绿蓝(RGB)值和用于指示像素的深度的深度值。深度信息被表示为从执行3D扫描的相机到由像素表示的内部空间1600中的对象的表面的距离、被表示为表面距内部空间1600中的参考点的距离或被表示为相对于一些其他位置的距离。例如使用移动立方体算法将3D网格从3D扫描中生成，并且然后将RGB图像投影到3D网格上以生成纹理化的3D网格。

基于3D扫描将标签分配给内部空间1600的部分。在一些实施例中，使用分析内部空间1600的颜色和深度图像的训练的卷积神经网络(CNN)来选择标签。从集合中选择标签，所述集合包括指示浴室、卧室、客厅、厨房、办公室的标签和用于CNN无法识别的3D扫描的部分的未知标签。例如，CNN基于桌子1610和桌子周围的椅子的存在来用标签“餐厅”标记房间1604。对于另一示例，因为房间1601包括清洗机、洗碗机、冰箱、厨房水槽和厨灶，所以CNN用标签“厨房”标记房间1601。

图17是根据一些实施例的被训练为基于位于内部空间的部分中的家具来标记内部空间的部分的CNN 1700的框图。CNN 1700用于基于分布在整个内部空间1600中的家具分析图16中所示的内部空间1600的一些实施例。在所示实施例中，CNN 1700被实现为残差网络。然而，CNN 1700的其他实施例被实现为不同类型的神经网络。

对CNN 1700的输入1705包括表示内部空间的2D彩色图像。输入1705还包括相对应的用于指示内部空间内的每个位置的深度的2D深度图像。在所示实施例中，2D彩色图像和深度图像是从基于对内部空间的3D扫描生成的纹理化的3D网格来生成的。例如，输入1705可以包括从由诸如图1所示的电子设备110的电子设备捕获的3D扫描中生成的内部空间的RGB-D图像。对天花板和地平面的位置进行估计并将所述位置用于在鸟瞰图中渲染纹理化的3D网格，其中地平面位于z＝0处并且近场剪切平面位于略低于天花板水平面的位置。2D彩色图像表示(从鸟瞰图中看到的)内部空间中的对象的颜色并且2D深度图像将内部空间中的对象的深度表示为灰色阴影，例如从地面层处的黑色到天花板层处的白色。以预定的诸如每厘米一个像素的分辨率对2D彩色图像和深度图像进行渲染。在所示的实施例中，输入1705中的2D彩色图像和深度图像被细分为重叠的图块。例如，可以在尺寸为2米(m)×2米的重叠图块中对输入1705进行渲染。CNN 1700使用重叠的图块以诸如0.3米×0.3米的较低的粒度对输入1705的部分进行分类。

卷积层1710接收输入1705。卷积层1710实现由参数集合定义的卷积函数，所述参数是基于一个或多个训练数据集来训练的。参数包括具有小感知场并且延伸通过卷积层1710的输入体积的整个深度的滤波器(或内核)的集合。参数还可以包括控制卷积层1710的输出图像的尺寸的深度参数、步进参数和零填充参数。卷积层1710将卷积操作应用于输入1705并且将卷积操作的结果提供给后续的卷积层1715。CNN 1700还包括允许输入1705的识别部分绕过(bypass)卷积层1710的识别捷径连接1720。在所示实施例中，CNN 1700包括附加卷积层1725和附加识别捷径连接1730。CNN 1700的一些实施例包括更多或更少的卷积层或识别捷径连接。

由卷积层1710、1715、1725执行的卷积操作的结果被提供到全连接层1735、1740和DO层1745。全连接层1735、1740中的神经元连接到诸如卷积层1725或其他全连接层的另一层中的每个神经元。全连接层1735、1740通常实现表示产生输出1750的高级推理的功能，所述输出1750表示由CNN 1700生成的标签。例如，如果CNN 1700被训练以用于执行图像识别，则全连接层1735、1740实现标记已被CNN 1700“识别”的图像部分的功能。例如，全连接层1735、1740可以将内部空间的各部分识别为具有特定功能的房间，在这种情况下，全连接层1735、1740使用相对应的房间标签标记各部分。如本文所讨论的，在完全连接的层1735、1740中实现的功能由使用训练数据集确定的参数值表示。

CNN 1700的输出1750是表示内部空间的一部分被标记为诸如浴室、卧室、客厅、厨房和办公室等的指示房间类型的标签集合中的一个标签的概率的向量。因为某些对象(或其组合)的存在或不存在提供了对包括对象的房间的类型的约束，所以CNN 1700能够标记内部空间的部分。例如，水槽通常存在于厨房和浴室两者中、椅子存在于所有类型的房间但很少存在于浴室中、床存在于卧室中。因此，识别房间中的水槽和椅子使得房间更可能是厨房而不是浴室。将未知标签分配给CNN 1700无法识别的内部空间的部分。因为识别内部空间的一部分的房间类型的问题是不适定的，所以包括未知标签是有用的。例如，如果2D颜色图像和深度图像的2m×2m部分仅显示平铺的白色地板，则CNN 1700将不具有用于识别房间类型的任何信息。将输入1705的一些部分标记为“未知”有效地允许CNN 1700在难以或不可能基于可用信息来识别房间类型的情况下避免选择特定房间类型。

图18是示出根据一些实施例的作为对CNN的输入而提供的图块1800和重叠图块集合1805的框图。图块1800和重叠图块集合1805被提供至图17中所示的CNN 1700的一些实施例。图块1800包含多个像素1810。为了清楚起见，仅由附图标记指示一个像素。如本文所讨论的，CNN识别图块1800的标签并且然后将标签分配至图块1800的中心像素1810。由图块1800表示的信息并不总是为中心像素1810提供准确的上下文，其中仅基于包括在图块1800中的信息降低了应用于中心像素1810的标签的精度。因此CNN处理重叠的图块1805以识别由重叠图块1805中的每个覆盖的像素1815的标签。尽管在图18中示出了四个重叠的图块1805，但是在一些实施例中使用更多或更少的重叠图块来识别像素1815的标签。

图19是根据一些实施例的叠加在内部空间的轮廓1905上的经标记的图块的地图1900的框图。地图1900由图17中所示的CNN 1700的一些实施例生成。在所示实施例中，如图块1910中的交叉影线所示，CNN用标签“卧室”标记图块1910(为了清楚起见，仅由一个附图标记指示一个图块)。如图块1915中的垂直/水平交叉影线所示，CNN用标签“书房”标记图块1915(为了清楚起见，仅由一个附图标记指示一个图块)。如从左至右向下指向的填充线所示，CNN用标签“餐厅”标记图块1920(为了清楚起见，仅由一个附图标记指示一个图块)。如水平填充线所示，CNN用标签“卧室”标记图块1925(为了清楚起见，仅由一个附图标记指示一个图块)。如垂直填充线所示，CNN用标签“浴室”标记图块1930(为了清楚起见，仅由一个附图标记指示一个图块)。如从左至右向上指向的填充线所示，CNN用标签“厨房”标记图块1935(为了清楚起见，仅由一个附图标记指示一个图块)。

图20是根据一些实施例的标记内部空间的平面图的各部分的方法2000的流程图。方法2000在图1中所示的电子设备110的一些实施例中实现。在框2005处，电子设备基于内部空间的3D深度图像来标记内部空间的分部(sections)。电子设备的一些实施例使用诸如图17中所示的CNN 1700的CNN来标记内部空间的分部。在框2010处，电子设备生成表示内部空间的2D平面图的2D距离网格。电子设备的一些实施例根据图14中所示的方法1400生成表示平面图的2D距离网格。框2005、2010处执行的操作可以并发、顺序、在不同时间或并行地执行。在框2010处，电子设备生成标记的2D平面图。例如，电子设备可以识别2D平面图的经标记的区域内的中心位置附近的像素或像素组，并且然后将该区域的标签与像素或像素组相关联。

图21示出了根据一些实施例的经标记的2D平面图2100。经标记的2D平面图2100包括2D平面图2105，诸如由图8中所示的多边形集合820表示的2D平面图。经标记的2D平面图2100包括：指示2D平面图2105的相对应部分表示卧室的第一标签2110、指示2D平面图2105的相对应部分表示书房的第二标签2115、指示2D平面图2105的相对应部分表示餐厅的第三标签2120、指示2D平面图2105的相对应部分表示卧室的第四标签2125、指示2D平面图2105的相对应部分表示浴室(WC)的第五标签2130以及指示2D平面图2105的相对应部分表示厨房的第六标签2135。

在一些实施例中，上述技术的某些方面可以由执行软件的处理系统的一个或多个处理器实现。软件包括存储或以其他方式有形地具体实现在非暂时性计算机可读存储介质上的一个或多个可执行指令集合。软件可以包括指令和某些数据，所述指令和某些数据在由一个或多个处理器执行时，操作一个或多个处理器以执行上述技术中的一个或多个方面。非暂时性计算机可读存储介质可包括例如磁盘或光盘存储设备、固态存储设备，诸如闪存、高速缓存、随机存取存储器(RAM)或其他非易失性存储设备或装置等。存储在非暂时性计算机可读存储介质上的可执行指令可以是源代码、汇编语言代码、目标代码或由一个或多个处理器解译或以其他方式可执行的其他指令格式。

计算机可读存储介质可以包括在使用期间计算机系统可访问的用于向计算机系统提供指令和/或数据的任何存储介质或存储介质的组合。这类存储介质可以包括但不限于光学介质(例如光盘(CD)、数字通用光盘(DVD)、蓝光光盘)、磁介质(例如软盘、磁带或磁硬盘驱动器)、易失性存储器(例如随机存取存储器(RAM)或高速缓冲存储器)、非易失性存储器(例如只读存储器(ROM)或闪存)或基于微机电系统(MEMS)的存储介质。计算机可读存储介质可以嵌入在计算系统(例如系统RAM或ROM)中、固定地附接到计算系统(例如磁硬盘驱动器)、可移除地附接到计算系统(例如光盘或基于通用串行总线(USB)的闪存)或经由有线或无线网络(例如网络可访问存储(NAS))耦合到计算机系统。

注意到并非需要上述大体的描述中的全部活动或元素，可能不需要特定活动或设备的一部分，并且可以执行一个或多个附加活动或者还包括除了所述的那些元素之外的元素。此外，活动被列出的顺序不一定是活动的执行顺序。而且，已经参考了特定实施例描述了概念。然而，本领域的普通技术人员认识到的是，在不脱离如权利要求所阐述的本公开的范围的情况下，可以进行各种修改和改变。因此，说明书和附图应被视为说明性而非限制性意义，并且全部这类修改旨在包括在本公开的范围内。

上面已经针对特定实施例描述了益处、其他优点和对问题的解决方案。然而，益处、优点、对问题的解决方案以及可能导致任何益处、优点或解决方案发生或变得更加明显的任何特征不应被解释为任何或全部权利要求的关键的、必需的或必要的特征。此外，因为所公开的主题可以以受益于本文教导的本领域技术人员显而易见的不同但等同的方式进行修改和实践，所以以上公开的特定实施例仅是说明性的。除了在以下的权利要求中描述的之外，对于本文所示的结构或设计的细节没有限制。因此显而易见的是，可以改变或修改上面公开的特定实施例并且所有这些变化都被认为在所公开的主题的范围内。因此，本文寻求的保护如以下权利要求中所述。

Claims

1.一种方法，包括：

执行对内部空间的三维(3D)扫描；

访问根据所述3D扫描生成的3D网格中的体素，其中，所述体素表示所述内部空间的体积的部分；

将所述体素投影到所述内部空间的二维(2D)平面图中的图块上；以及

基于所述图块来生成表示所述内部空间中的特征的2D距离网格。

2.根据权利要求1所述的方法，其中，生成所述2D距离网格包括与执行对所述内部空间的所述3D扫描并发地实时生成所述2D距离网格。

3.根据权利要求2所述的方法，其中，访问所述3D网格中的所述体素包括访问在先前时间间隔期间执行所述3D扫描同时已被修改的所述体素的子集。

4.根据权利要求3所述的方法，其中，访问所述体素的所述子集包括访问包括在所述先前时间间隔期间被修改的至少一个体素的体积内的预定数目的体素。

5.根据权利要求3所述的方法，其中，生成所述2D距离网格包括选择性地更新与已经修改的所述体素的所述子集相关联的所述2D距离网格的部分，并且绕过更新与在所述先前时间间隔期间未修改的所述体素的其他子集相关联的所述2D距离网格的不同部分。

6.根据权利要求1所述的方法，其中，访问所述体素包括访问存储指示包括所述内部空间的所述体积的对应部分的观察值的数目的权重和相对于与所述体素相关联的表面的有符号距离的体素。

7.根据权利要求6所述的方法，其中，将所述体素投影到所述图块上包括沿垂直于包括所述2D平面图的平面的垂直方向对所述权重进行求和以确定所述图块的2D权重。

8.根据权利要求7所述的方法，其中，将所述体素投影到所述图块上包括将所述权重与沿着所述垂直方向的所述体素的所述有符号距离的乘积进行求和以确定所述图块的加权的2D有符号距离。

9.根据权利要求8所述的方法，其中，将所述体素投影到所述图块上包括通过所述图块的相对应的2D权重对所述加权的2D有符号距离进行归一化。

10.根据前述权利要求中任一项所述的方法，还包括：

从所述3D网格中提取以下中的至少一个：从上方可见的最高表面的高度、从下方可见的最低表面的高度以及垂直带中的空闲空间与占用空间的比率。

11.根据前述权利要求中任一项所述的方法，其中，生成所述2D距离网格包括生成表示所述内部空间中的所述特征的像素的值。

12.根据权利要求11所述的方法，其中，生成所述2D距离网格包括使用行进方块算法生成多边形平面图的原始版本。

13.根据权利要求11所述的方法，其中，所述特征包括以下中的至少一个：墙、空闲空间、家具、门和窗。

14.根据权利要求11所述的方法，还包括：

识别表示所述2D距离网格的所述特征的基元集合。

15.根据权利要求14所述的方法，其中，所述基元包括以下中的至少一个：线、圆、三角形、矩形或另一个多边形。

16.根据权利要求14所述的方法，其中，识别所述基元集合包括当最小化成本函数的基元被添加到所述基元集合时迭代地选择该基元，并且其中所述成本函数指示所述基元集合与所述2D距离网格的匹配程度。

17.根据前述权利要求中任一项所述的方法，还包括：

基于所述3D扫描中的特征来将标签分配给所述内部空间的部分，其中所述标签指示房间类型。

18.根据权利要求17所述的方法，还包括：

训练卷积神经网络(CNN)以基于在对所述内部空间的所述部分的所述3D扫描中表示的不同类型的家具来分配所述标签，其中所述CNN是使用包括针对每个像素的颜色信息和深度信息的训练图像集合来训练的。

19.根据权利要求18所述的方法，其中，训练所述卷积神经网络包括训练所述CNN以分配标签，所述标签包括指示浴室、卧室、客厅、厨房、办公室的标签和用于所述CNN无法识别的所述3D扫描的部分的未知标签。

20.根据权利要求17所述的方法，还包括：

通过将所述标签与所述2D距离网格的部分相关联来生成标记的2D距离网格，所述2D距离网格的所述部分对应于基于所述3D扫描中的所述特征被分配有所述标签的所述内部空间的所述部分。

21.一种电子设备，包括：

成像相机和深度相机，所述成像相机和所述深度相机被配置为执行对内部空间的3D扫描；以及

处理器，所述处理器被配置为

基于所述3D扫描在三维(3D)网格中生成体素，其中所述体素表示所述内部空间的体积的部分；

22.根据权利要求21所述的电子设备，其中，所述处理器被配置为与所述成像相机和所述深度相机执行对所述内部空间的所述3D扫描并发地实时生成所述2D距离网格。

23.根据权利要求22所述的电子设备，其中，所述处理器被配置为在时间间隔期间与所述成像相机和所述深度相机执行所述3D扫描并发地修改所述体素的子集。

24.根据权利要求22所述的电子设备，其中，所述处理器被配置为对体积内的预定数目的体素进行分组。

25.根据权利要求24所述的电子设备，其中，所述处理器被配置为选择性地更新与体素的子集相关联的所述2D距离网格的部分，所述体素的所述子集在包括在先前时间间隔期间被修改的至少一个体素的体积中，并且所述处理器被配置为绕过更新与所述体素的其他子集相关联的所述2D距离网格的不同部分，所述体素的所述其他子集不在包括在所述先前时间间隔期间被修改的至少一个体素的体积中。

26.根据权利要求21所述的电子设备，其中，所述处理器被配置为生成具有指示包括所述内部空间的所述体积的对应部分的观察数目的权重值和相对于与所述体素相关联的表面的有符号距离的值的体素。

27.根据权利要求26所述的电子设备，其中，所述处理器被配置为沿垂直于包括所述2D平面图的平面的垂直方向对所述权重进行求和以确定所述图块的2D权重。

28.根据权利要求27所述的电子设备，其中，所述处理器被配置为对所述权重和沿着所述垂直方向的所述体素的所述有符号距离的乘积进行求和，以确定所述图块的加权2D有符号距离。

29.根据权利要求26所述的电子设备，其中，所述处理器被配置为通过所述图块的对应2D权重来对所述2D有符号距离进行归一化。

30.根据权利要求21所述的电子设备，其中，所述处理器被配置为从所述3D网格提取以下中的至少一个：从上方可见的最高表面的高度、从下方可见的最低表面的高度以及垂直带中空闲空间与占用空间的比率。

31.根据权利要求21所述的电子设备，其中，所述处理器被配置为生成表示所述内部空间中的所述特征的像素的值。

32.根据权利要求31所述的电子设备，其中，所述特征包括以下中的至少一个：墙、空闲空间、家具、门和窗。

33.根据权利要求31所述的电子设备，其中，所述处理器被配置为识别表示所述2D距离网格的所述特征的基元集合。

34.根据权利要求33所述的电子设备，其中，所述基元包括以下中的至少一个：线、圆、三角形、矩形或另一多边形。

35.根据权利要求33所述的电子设备，其中所述处理器被配置为当最小化成本函数的基元被添加到所述基元集合时迭代地选择该基元，并且其中，所述成本函数指示所述基元集合与所述2D距离网格匹配的程度。

36.根据权利要求21所述的电子设备，其中，所述处理器被配置为基于所述3D扫描中的特征将标签分配给所述内部空间的部分，其中所述标签指示房间类型。

37.根据权利要求36所述的电子设备，其中，所述处理器被配置为基于卷积神经网络(CNN)来分配标签，所述卷积神经网络被训练为基于在所述内部空间的所述部分的所述3D扫描中表示的家具的不同类型来分配所述标签，其中，使用包括针对每个像素的颜色信息和深度信息的训练图像集合来训练所述CNN。

38.根据权利要求37所述的电子设备，其中，所述CNN被训练以用于分配标签，所述标签包括指示浴室、卧室、客厅、厨房、办公室的标签和用于所述CNN无法识别的所述3D扫描的部分的未知标签。

39.根据权利要求36所述的电子设备，其中，所述处理器被配置为通过将所述标签与所述2D距离网格的部分相关联来生成经标记的2D距离网格，所述2D距离网格的所述部分对应于基于在所述3D扫描中所述特征被分配有所述标签的所述内部空间的所述部分。

40.一种方法，包括：

将在三维(3D)网格中的体素投影到二维(2D)平面图中的图块上，其中所述体素是根据对内部空间的3D扫描生成的，并且其中与执行所述3D扫描并发地执行投影所述体素；

基于所述图块来生成表示在所述内部空间中的特征的2D距离网格；以及

识别表示所述2D距离网格的基元集合。

41.根据权利要求40所述的方法，其中与执行所述3D扫描并发地将所述体素投影到所述图块上包括：与执行所述3D扫描并发地将所获取的所述体素的值投影到所述图块上以修改先前获取的体素的值或获取新体素的值。

42.根据权利要求41所述的方法，其中，所述体素被分组为包括预定数目的体素的体积，并且其中，生成所述2D距离网格包括修改所述图块的子集，所述图块的所述子集与包括具有通过执行所述3D扫描修改的值的至少一个体素的体积相关联。

43.根据权利要求40所述的方法，其中，识别所述基元集合包括当最小化成本函数的基元被添加到所述基元集合时迭代地选择该基元，并且其中，所述成本函数指示所述基元集合与所述2D距离网格匹配的程度。

44.根据权利要求40所述的方法，还包括：

基于所述3D扫描中的特征来标记所述基元集合的子集，其中所述标签指示房间类型。