CN110769240B

CN110769240B - 基于拍照的3d建模系统及方法、自动3d建模装置及方法

Info

Publication number: CN110769240B
Application number: CN201911268632.5A
Authority: CN
Inventors: 赵明; 向中正; 蔡锫
Original assignee: Shang Hai Yiwo Information Technology Co ltd
Current assignee: Shang Hai Yiwo Information Technology Co ltd
Priority date: 2019-08-23
Filing date: 2019-12-11
Publication date: 2022-06-21
Anticipated expiration: 2039-12-11
Also published as: KR102580961B1; CN110769240A; KR20210064115A; CN110505463A; WO2021036353A1

Abstract

本发明公开了一种基于拍照的3D建模系统及方法、自动3D建模装置及方法，其中包括：S1)将移动设备和相机固定在同一拍摄支架上；S2)在移动支架的过程中获取多张相机或移动设备的定位用图像，获取每个拍摄点的位置和朝向，形成使用统一坐标系的路线图；S3)在所述移动设备上或远程服务器端基于在每个拍摄点的3D建模用图像进行3D建模；S4)将每个拍摄点的3D模型按照S2中获取的位置和朝向，统一放置在同一个三维坐标系内，对多个拍摄点3D模型之间的结合部位进行拼接处理，形成包含多拍摄点的整体3D模型。本发明能够支持多种拍摄设备，自动精确记录各个拍摄点的相对位置和相机的镜头朝向，自动生成可在内部漫游的3D模型以及2D平面图。

Description

基于拍照的3D建模系统及方法、自动3D建模装置及方法

技术领域

本发明涉及一种3D建模系统及方法，尤其涉及一种基于拍照的3D建模系统及方法、自动3D建模装置及方法。

背景技术

本发明所要解决的技术问题是一种基于拍照的三维空间建模方案，可用于单空间或多空间的3D建模和/或2D平面图生成。

以往，基于拍照的3D建模方法主要有以下两种，但是都有明显的缺点：

方法a)使用能够识别深度信息的相机，直接生成3D模型。这种方法依赖于更加复杂的硬件，导致更高的设备成本，往往需要专业摄影师才能操作，不利于普及；

方法b)在一个拍摄点距离较近的地方拍摄两张照片，优选间隔厘米级和分米级并连续进行匹配和定位，然后使用MVS(Multi View Stereo，参考https://github.com/cdcseacave/openMVS)进行建模，优点是整个过程全自动不需要人工干预，但是缺点也很明显：

缺点1：计算量较大，不易在移动设备等计算资源有限的设备上建模，通常需要上传到服务器(云端/PC)，利用更强的计算能力，运行建模算法；

缺点2：无法给出具体间隔多远拍摄的规范，如果太密则使用太麻烦，耗时过长；如果只是靠两两可见，靠感觉，可能建模失败，而拍摄时无法给用户提示。

此外，以往还提供过基于拍照重建三维空间场景的方法，但这些方法中基本都无法基于3D建模用的图像自动生成3D模型，需要大量的人工操作介入来修正每个空间的3D模型。另外，无法对多个空间各自的3D模型进行自动拼接处理，需要人工观察各空间的3D模型并找出其共同点后，手动进行拼接，耗时耗力。

发明内容

为了克服以往方法的上述缺点中的一个或多个，本发明使用了创新的方法，即使用深度学习和图像处理方法进行单拍摄点建模，既可以在移动设备那样的有限的计算能力下运行，也可以将相关数据上传到云端服务器运行。此外，在利用移动设备实时建模的情况下，为了提高实时性，只对房间轮廓建模，不复原家具、饰品等物体模型；通过构建拍摄点定位系统，把多个拍摄点的模型按照位置和方向放在同一坐标系内；对多个拍摄点的独立模型进行优化处理，处理好结合部分，生成整体3D模型、2D平面图。

本发明支持的拍摄方式广泛，包括但不限于手机鱼眼镜头、全景相机、带鱼眼镜头的相机，以及普通手机和普通数码相机等，成本低廉。

普通照片(定义)：使用普通数码相机(包括普通单反、微单、Point&Shoot相机等)、全景相机、带鱼眼镜头的相机，普通手机和带鱼眼镜头的手机，以及摄像头采集的照片。区别于双目视觉，普通照片并不能通过同一拍摄点拍摄的两张照片复原三维信息。普通照片以下简称照片。

使用全景相机时，通常获取的是全景图。部分计算机视觉、图像算法，例如直线检测，需要将全景图转换为不变形的图片。以下使用的照片和图片表述包括全景照片和经转换过的不变形的图片。

本发明提供一种基于拍照的3D建模系统及方法、自动3D建模装置及方法，能够支持多种拍摄设备，并基于获取的各个拍摄点的相对位置和相机的镜头拍摄方向信息，自动将各个拍摄点的3D模型拼接而生成整体3D模型。本发明还能生成2D平面图。

具体而言，本发明提供一种基于拍照的3D建模系统，其包括：拍摄单元，用于对多个空间分别拍摄该空间的第一图像；3D模型生成单元，分别基于所述拍摄单元针对各个所述空间拍摄的所述第一图像，生成各个所述空间的3D模型；拍摄位置获取单元，用于获取所述拍摄单元拍摄各个空间的第一图像时的位置和拍摄方向信息；3D模型拼接单元，基于所述位置和拍摄方向信息，将所述各个空间的3D模型在同一个三维坐标系内进行拼接处理，形成包括所述各个空间的整体3D模型。

进一步地，所述拍摄单元在所述各个空间之间移动的过程中拍摄多张第二图像，所述拍摄位置获取单元通过所述多张第二图像进行特征点匹配，来获得各拍摄点的相对位移和拍摄方向信息，例如可形成包括所有拍摄点的在同一坐标系内的路线图，从而获取所述拍摄单元对所处空间拍摄第一图像时的位置和拍摄方向信息。

进一步地，所述拍摄单元具有定位传感器和方向传感器；所述拍摄位置获取单元基于所述拍摄单元对所处空间拍摄第一图像时提供的定位信息和方向信息，来获取所述拍摄单元对所处空间拍摄第一图像时的位置和拍摄方向信息。

进一步地，所述拍摄单元在所述各个空间之间移动的过程中拍摄多张第二图像；所述拍摄单元具有定位传感器和方向传感器；所述拍摄位置获取单元通过所述拍摄单元拍摄的多张第二图像中的相近拍摄点图像进行特征点匹配，来获得各拍摄点的相对位移和拍摄方向信息，例如可形成包括所有拍摄点的在同一坐标系内的路线图，并通过结合所述拍摄单元对所处空间拍摄第一图像时的定位信息和方向信息对路线图进行校正，从而获取所述拍摄单元对所处空间拍摄第一图像时的位置和拍摄方向信息。

进一步地，所述拍摄位置获取单元还通过所述拍摄单元具备的位移传感器例如可以包括加速度传感器、速度传感器提供的位移信息例如加速度信息和移动速度信息，对所述相对位移即路线图和拍摄方向信息进行校正。

进一步地，所述3D模型拼接单元根据所述拍摄位置获取单元获取的拍摄各个房间时的所述位置和拍摄方向信息，例如可利用一个转换矩阵，把单个房间的所述3D模型的局部坐标转换为全局的世界坐标，从而获得所有拍摄点的整体3D模型。

进一步地，把单个房间的所述3D模型的局部坐标转换为全局的世界坐标的方法，包括，使所述拍摄单元移动预定距离，所述拍摄位置获取单元获取所述预定距离的两个端点的坐标，所述两个端点的坐标的差和所述预定距离的比值即为所述局部坐标和所述世界坐标的比值；或者利用所述拍摄位置获取单元识别到的特征点，预估所述空间的底面或顶面所在的平面的高度与所述拍摄单元的高度的比值，即为所述局部坐标和所述世界坐标的比值。

进一步地，在所述拍摄单元进行第一个拍摄点的拍摄之前、或在后续拍摄的移动过程中，移动预定距离以获得预定数量的所述特征点。

进一步地，所述拍摄单元具有双目镜头，在同一个拍摄点，该双目镜头分别拍摄所述第一图像；所述3D模型生成单元通过对所述双目镜头各自拍摄的所述第一图像进行图像比对，确定对应像素，并获得每个所述对应像素的深度信息，以用于生成所述3D模型。

进一步地，所述3D模型生成单元通过深度学习技术，预测所述第一图像中每个像素的深度，计算或直接运用所述深度学习技术预测所述每个像素的法线方向，以生成各个所述空间的3D模型。

进一步地，所述拍摄单元由相机和/或带拍照功能的移动设备例如手机实现；所述3D模型生成单元由所述手机实现或者由远程服务器实现，在由所述远程服务器实现的情况下，其通过网络接收所述相机和/或所述带拍照功能的手机拍摄并发送来的第一图像，生成各个所述空间的3D模型；所述拍摄位置获取单元由所述相机或所述手机实现；所述3D模型拼接单元，由所述手机实现或者由远程服务器实现，在由所述远程服务器实现的情况下，其通过网络接收所述拍摄位置获取单元发送来的各个空间的所述位置和拍摄方向信息，基于该位置和拍摄方向信息完成所述拼接处理，并将生成的所述整体3D模型发送给所述手机或其它设备。

进一步地，实现所述拍摄单元的相机和带拍照功能的手机固定在同一拍摄支架上；在移动所述支架的过程中，获取多张所述相机或所述带拍照功能的手机所拍摄的第二图像，从而获取所述相机或所述带拍照功能的手机对所处空间拍摄第一图像时的位置和拍摄方向信息。

进一步地，基于所述相机或所述带拍照功能的手机的定位系统，使用所述相机或所述带拍照功能的手机拍摄的第二图像，通过相近拍摄点的第二图像进行特征点匹配来获得各拍摄点的相对位移和拍摄方向信息，从而提供每个拍摄点的相对位置和方向。

进一步地，在所述拍摄单元对第一个所述空间拍摄所述第一图像之前、或在后续拍摄的移动过程中，通过以下方式的一种或多种，获取所述相机的镜头和所述手机的拍摄方向的夹角：

这里，相机的镜头的拍摄方向可以是指常见的全景相机的前后两个鱼眼镜头中的其中一个镜头的方向；或者是指通过旋转一个镜头来拍摄多张照片的全景相机的拍摄第一张照片时的镜头的方向。

(1)同时运行基于所述手机的定位系统和基于所述相机的定位系统，并移动所述支架一段距离，此时两套系统各提供一个位移向量，两个向量的夹角即为所述相机的镜头与所述手机的拍摄方向的夹角；

(2)通过手工旋转所述相机的预览图或者拍摄的图像，指定与所述手机拍摄方向一致的角度；

(3)通过图像识别算法匹配所述手机与所述相机的预览图或拍摄的图像，找到所述夹角；

(4)通过使用额外的标识、包括在支架上增加刻度与所述手机的安装方向形成固定夹角，然后在所述相机的预览图或图像中识别该标识来计算所述相机的镜头和所述手机拍摄方向的夹角；

(5)通过在所述支架上设置卡槽，保证所述相机与所述手机(移动设备)形成已知的固定夹角。

进一步地，所述空间是房间；所述第一图像是所述房间的室内图像；所述3D模型生成单元基于深度学习技术，识别所述第一图像中的地板、天花板、墙壁中的至少一者的图像，并基于图像处理技术，对识别出的图像进行分块，每块近似认为是一个平面，使地板和天花板的图像块位于水平平面，使墙壁的图像块位于垂直平面，通过求解各个平面方程生成所述3D模型；其中，对于在所述第一图像中相交的两个平面，使得计算得到的交线与实际观察到的交线的误差最小。

进一步地，所述3D模型生成单元还利用计算机视觉技术识别所述室内图像中的墙角，并将墙角连接起来，生成房间的粗略模型。

进一步地，所述3D模型拼接单元对所述多个房间各自的3D模型进行统一校正，包括使用统计的方法对所有的房间的墙线方向进行统一校正，使得所有房间在一定偏差范围内的墙线平行；所述3D模型拼接单元在将所述各个房间的3D模型进行拼接处理时，对重叠的部分和/或出现的空洞进行修正。

进一步地，本发明的基于拍照的3D建模系统还包括2D平面图生成单元，以如下方式生成2D平面图：将生成的所述3D模型的每个面向垂直于地板的平面投影，并将这些投影合并成为一个多边形；对得到的所述多边形进行校正和简化，包括以下至少一种方式：(1)仅保留所述多边形的主要顶点，删除小的凹凸，(2)利用计算机视觉技术检测图片中的直线，进而确定墙壁的走向，并将与墙壁走向近似平行或垂直的边都修正到对应的方向上；基于所述拍摄位置获取单元获取的各个空间的所述位置和拍摄方向信息，将生成的所述各个房间的2D平面图在同一个二维坐标系内进行拼接处理，形成由所述各个房间各自的2D平面图拼接而成的整体2D平面图；识别并标示出门和/或窗的位置，包括使用深度学习的方法，在所述室内图像上识别出门和/或窗的位置，或者根据所述拍摄单元对属于同一套房子的多个房间分别拍摄所述第一图像时的移动轨迹与该房间轮廓的交点，确定门的位置。

进一步地，所述2D平面图生成单元对所述多个房间各自的2D平面图进行统一校正，包括使用统计的方法对所有的房间的墙线方向进行统一校正，使得所有房间在一定偏差范围内的墙线平行；所述2D平面图生成单元在将所述各个房间的2D平面图进行拼接处理时，对重叠的部分和/或出现的空洞进行修正。

进一步地，本发明的基于拍照的3D建模系统也可以包括：2D平面图生成单元，以如下方式生成2D平面图：将所述3D模型拼接单元生成的所述整体3D模型的每个面向垂直于地板的平面投影，并将这些投影合并成为一个多边形；对得到的所述多边形进行校正和简化，包括以下至少一种方式：(1)仅保留所述多边形的主要顶点，删除小的凹凸，(2)利用计算机视觉技术检测图片中的直线，进而确定墙壁的走向，并将与墙壁走向近似平行或垂直的边都修正到对应的方向上；识别并标示出门和/或窗的位置，包括使用深度学习的方法，在所述室内图像上识别出门和/或窗的位置，或者根据所述拍摄单元对属于同一套房子的多个房间分别拍摄所述第一图像时的移动轨迹与该房间轮廓的交点，确定门的位置。

此外，本发明还提供一种自动3D建模装置，包括：3D模型生成单元，基于建模对象所包括的多个空间各自的第一图像，分别生成各个所述空间的3D模型；3D模型拼接单元，基于所述多个空间各自的所述第一图像被拍摄时的位置和拍摄方向信息，将所述3D模型生成单元生成的所述各个空间的3D模型在同一个三维坐标系内进行拼接处理，形成由所述各个空间各自的3D模型拼接而成的整体3D模型。

此外，本发明还提供一种自动3D建模方法，包括：3D模型生成步骤，基于建模对象所包括的多个空间各自的第一图像，分别生成各个所述空间的3D模型；3D模型拼接步骤，基于所述多个空间各自的所述第一图像被拍摄时的位置和拍摄方向信息，将所述3D模型生成步骤中生成的所述各个空间的3D模型在同一个三维坐标系内进行拼接处理，形成由所述各个空间各自的3D模型拼接而成的整体3D模型。

此外，本发明还提供一种基于拍照的3D建模方法，包括如下步骤：S1)将具有拍照功能的移动设备和相机固定在同一拍摄支架上；S2)在移动支架的过程中获取多张相机或移动设备的第二图像，结合所述相机或移动设备的传感器来获取每个拍摄点的位置和拍摄方向，形成使用统一坐标系的路线图；S3)在所述移动设备上或远程服务器端基于在每个拍摄点拍摄的第一图像进行3D建模；S4)将每个拍摄点的所述3D模型按照S2中获取的位置和拍摄方向，统一放置在同一个三维坐标系内，对多个拍摄点3D模型之间的结合部位进行拼接处理，形成包含多拍摄点的整体3D模型。

进一步地，所述步骤S2是基于所述移动设备或相机的定位系统，使用所述移动设备或相机拍摄的第二图像，通过相近拍摄点的第二图像进行特征点匹配来找到拍摄点的相对位移和拍摄方向信息，形成包括所有拍摄点的在同一坐标系内的所述路线图，并提供每个拍摄点的位置和方向。

进一步地，所述步骤S2还包括通过所述移动设备或相机的传感器，获取包括移动的加速度、速度和方向信息，对所述路线图进行校正。

进一步地，所述步骤S2还包括获取所述相机的镜头和所述移动设备的拍摄方向的夹角，在初始化阶段同时运行基于所述移动设备的定位系统和基于所述相机的定位系统，并移动支架一段距离，此时两套系统各提供一个位移向量，两个向量的夹角即为所述相机的镜头与所述移动设备的拍摄方向的夹角；或者通过手工旋转所述相机的预览图或者拍摄的图像，指定与所述移动设备拍摄方向一致的角度；或者通过图像识别算法匹配所述移动设备与所述相机的预览图或拍摄的图像，找到夹角；或者通过使用额外的标识、包括在支架上增加刻度与所述移动设备的安装方向形成固定夹角，然后在所述相机的预览图或图像中识别该标识来计算所述相机的镜头和所述移动设备拍摄方向的夹角。

进一步地，所述步骤S3包括：S31)基于深度学习技术，识别图像中的地板、天花板、墙壁的至少一者的图像；S32)基于图像处理技术，对识别出的图像进行分块，每块近似认为是一个平面，地板和天花板的图像块位于水平平面，墙壁的图像块位于垂直平面，求解各个平面方程生成所述3D模型；对于在图像中相交的两个平面，以这两个平面的一条交线为约束条件，使得计算得到的交线与实际观察到的交线的误差最小。

进一步地，所述步骤S3还包括：对于室内图像，利用计算机视觉技术识别图像中的墙角，并将墙角连接起来即为房间的粗略模型。

进一步地，所述步骤S4包括：S41)根据每个拍摄点的位置和拍摄方向，例如可利用一个转换矩阵，把单个拍摄点的3D模型的局部坐标转换为成全局的世界坐标，从而获得所有拍摄点的整体3D模型；S42)对多个拍摄点的3D模型进行统一校正，包括使用统计的方法对所有的拍摄点的墙线方向进行统一校正，使得所有房间在一定偏差范围内的墙线平行；S43)在将各个拍摄点的3D模型进行拼接处理时，对其重叠的部分和/或出现的空洞进行修正。

本发明对比现有技术，可实现如下有益效果的一种或多种：能够支持多种拍摄设备；3D建模及拼接等工作既能够在移动设备这样的计算能力有限的设备中运行，又能够在远程服务器端进行；能够基于获取的各个拍摄点的相对位置和相机的镜头拍摄方向信息，自动将各个拍摄点的3D模型拼接而生成整体3D模型；还能根据需要而生成2D平面图。本发明建模成功率高；支持每个房间只拍摄一组图像并合成全景图，效率高，用户体验好；建模效率高，既可在拍摄过程中实时建模，又可在远程服务器端精确建模；所见即所得，用户可以参照实时建模结果选择拍摄点位，防止漏拍；建模可不包括家具等干扰物，有利于生成准确的户型图。

附图说明

图1为本发明可以应用于其中的一个示例性系统架构图；

图2为本发明的基于拍照的3D建模系统的一个实施例的结构示意图；

图3为本发明的基于拍照的3D建模系统的另一个实施例的结构示意图；

图4为本发明的基于拍照的3D建模方法的一个实施例的流程示意图；

图5为本发明的自动3D建模装置的一个实施例的结构示意图；

图6为本发明的自动3D建模装置的另一个实施例的结构示意图；

图7为本发明的自动3D建模方法的一个实施例的流程示意图；

图8为本发明的电子设备的一个实施例的结构示意图。

结合附图并参考以下具体实施方式，本发明各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明；本发明的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本发明的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本发明的方案，下面结合附图和实施例对本发明作进一步的描述。

[系统结构]

首先，说明本发明的一个实施例的系统的结构。如图1所示，系统结构100可以包括移动设备101、102、103、104，网络105和服务器106。网络105用以在终端设备101、102、103、104和服务器106之间提供通信链路的介质。

在本实施例中，图1所示的移动设备101、102、103或104可以通过网络105进行各种信息的传输。网络105可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。需要指出的是，上述无线连接方式可以包括但不限于3G/4G/5G连接、Wi-Fi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB连接、局域网(“LAN”)、广域网(“WAN”)、网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)以及其他现在已知或将来开发的网络连接方式。网络105可以利用诸如HTTP(Hyper Text Transfer Protocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。

用户可以使用移动设备101、102、103、104通过网络105与服务器106交互，以接收或发送消息等。移动设备101、102、103或104上可以安装有各种客户端应用，例如视频直播与播放类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

移动设备101、102、103或104可以是具有触摸显示屏和/或支持网页浏览的各种电子设备，并且具有拍照功能，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(动态影像专家压缩标准音频层面3)、MP4(动态影像专家压缩标准音频层面4)播放器、头戴式显示设备、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PMP(便携式多媒体播放器)、车载终端等等的移动终端以及诸如数字TV、台式计算机等等。

服务器106可以是提供各种服务的服务器，例如对移动设备101、102、103或104上进行3D建模提供支持的后台服务器。

应该理解，图1中的移动设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的移动设备、网络和服务器。

这里，移动设备可以独立或通过与其他电子终端设备例如相机固定在同一个支架(例如三脚架)上，配合运行安卓系统中的应用实现本发明的实施例方法，也可以运行其他操作系统中的应用例如iOS系统、Windows系统、鸿蒙系统等的应用实现本发明的实施例方法。

[基于拍照的3D建模系统]

图2为本发明基于拍照的3D建模系统的一个实施例的结构示意图。如图2所示，该实施例中基于拍照的3D建模系统包括：拍摄单元201，用于对多个所处空间分别拍摄该空间的第一图像，这里第一图像例如可以是3D建模用图像，可以包括普通照片、全景照片、处理过的全景照片(例如去变形等)。该拍摄单元201可以由移动设备中的拍摄模块来实现。

这里，拍摄单元201可以在各个空间之间移动的过程中拍摄多张第二图像，这里第二图像例如可以是定位用图像，可以包括普通照片、全景照片、处理过的全景照片(例如去变形等)。这里，第一图像和第二图像可以为相同的图像，也可以是部分相同的图像，也可以是不同的图像，并不做限定。此处的定位用图像还可以是拍摄单元201拍摄的照片、预览图、视频帧等，可以存储，也可以不存储而仅用于进行特征点的识别及匹配。

这里，拍摄单元201例如具有定位传感器和方向传感器，能够获得在对所处空间拍摄3D建模用图像时的定位信息和方向信息，这里，定位传感器例如可以是加速度传感器、陀螺仪、线性加速度传感器、旋转矢量传感器、重力传感器等中的一个或多个；方向传感器例如可以是方向传感器、磁力传感器等中的一个或多个。

3D模型生成单元202，分别基于拍摄单元201针对各个空间拍摄的3D建模用图像，生成各个空间的3D模型；

在一个或多个实施例中，例如，拍摄单元201具有双目镜头，在同一个拍摄点，该双目镜头分别拍摄3D建模用图像；则3D模型生成单元202通过对该双目镜头各自拍摄的3D建模用图像进行图像比对，确定对应像素，并获得每个对应像素的深度信息，以用于生成3D模型。

当然，在一个或多个实施例中，例如，3D模型生成单元202还可以通过深度学习技术，预测3D建模用图像中每个或一些像素的深度，计算或直接运用深度学习技术预测每个或一些像素的法线方向，以生成各个空间的3D模型。

这里，在一个或多个实施例中，深度学习技术预测3D建模用图像中每个像素的深度或预测每个像素的法线方向的方法例如可以为一种用于从单个室内360°图像中预测密集深度和表面法线以及平面边界的训练平面感知卷积神经网络的方法(比如可参见PanoPopups:Indoor 3D Reconstruction with a Plane-Aware Network)；或者使用大规模三维数据集以端到端的方式学习从360°图像中预测深度的方法(比如可参见OmniDepth:Dense Depth Estimation for Indoors Spherical Panoramas)。

拍摄位置获取单元203，用于获取拍摄单元201拍摄各个空间的3D建模用图像时的位置和拍摄方向信息；

这里，拍摄位置获取单元203例如可以通过拍摄单元201拍摄的多张定位用图像中的相近拍摄点图像进行特征点匹配，来获得各拍摄点的相对位移和拍摄方向信息，例如可形成包括所有拍摄点的在同一坐标系内的路线图，从而获取拍摄单元201对所处空间拍摄3D建模用图像时的位置和拍摄方向信息。

这里，拍摄位置获取单元203还可以例如基于拍摄单元201对所处空间拍摄3D建模用图像时提供的定位信息和方向信息，来获取拍摄单元201对所处空间拍摄3D建模用图像时的位置和拍摄方向信息。

这里，拍摄位置获取单元203还通过拍摄单元201具备的传感器，包括位移传感器例如加速度传感器、速度传感器等以及陀螺仪、气压传感器或其他动作传感器提供的位移信息例如加速度信息和移动速度信息或其他动作/运动信息等，对相对位移形成的路线图和拍摄方向信息进行校正。

3D模型拼接单元204，基于拍摄位置获取单元203获取的各个空间的位置和拍摄方向信息，将3D模型生成单元202生成的各个空间的3D模型在同一个三维坐标系内进行拼接处理，形成由各个空间各自的3D模型拼接而成的整体3D模型。

这里，3D模型拼接单元204还可以根据拍摄位置获取单元203获取的拍摄各个房间时的位置和拍摄方向信息，例如利用一个转换矩阵，把单个房间的3D模型的局部坐标转换为全局的世界坐标，从而获得所有拍摄点的整体3D模型。

这里，把单个房间的3D模型的局部坐标转换为全局的世界坐标的方法，包括，使拍摄单元201移动预定距离，拍摄位置获取单元203获取预定距离(例如为1米)的两个端点的坐标，两个端点的坐标的差和预定距离的比值即为局部坐标和世界坐标的比值；或者，利用拍摄位置获取单元203识别到的特征点，预估该空间的底面或顶面所在的平面的高度与拍摄单元201的高度的比值，即为局部坐标和世界坐标的比值，其中，在拍摄单元201进行第一个拍摄点的拍摄之前、或在后续拍摄的移动过程中，移动预定距离以获得预定数量的特征点。

这里，预估该空间的底面或顶面所在的平面的高度与拍摄单元201的高度的比值的方法例如为，把拍摄点垂直投影到底面，再连接特征点(在底面上)，这三个点形成一个三角形。假设投影线为L1，拍摄点到特征点连线为L2，投影点到特征点的连线为L3；L1和L2之间的夹角已知(根据全景图的特性)，根据L3的长度以及以上夹角，使用三角函数可以算出L1，再根据与实际的相机高度计算出比例尺。

这里，预定距离需要满足获得预定数量的特征点的足够距离。

具体来说，在一个或多个实施例中，例如，拍摄单元201只使用相机或者手机摄像头，由于得到的坐标都是相对值，必须将坐标转换为绝对值。也就是说图像比对的算法通常不具有精确的比例尺，坐标是相对的，没有具体尺寸。这也导致由不同图片计算出来的位移、比例尺不统一，导致错位。上述转换坐标的方法具体实现时可以是：

a)可以让用户移动指定的距离(例如1米)，获取该移动距离的两个端点的坐标，两端点坐标的差和移动距离的比值即为局部坐标和世界坐标的坐标比值；

b)利用系统识别到的特征点，预估例如房间地面或顶面所在的平面。假设坐标系中垂直方向的坐标轴为z轴，该平面的方程为z＝a；由于拍摄单元201的高度已知(或拍摄单元201到房顶的高度已知)，为h，则a/h即为局部坐标与世界坐标的比值。这里，由于估算a需要找到同一平面(地面或房顶)上的一定数量的特征点，在实现中可以设置初始化过程，即移动足够长的一段距离(例如2米以上)，才能在不同的环境中都能积累足够多的特征点。该初始化过程可以放在第一个拍摄点之前，如果初始化失败，可以再次进行，不影响后续拍摄；也可以把初始化过程放在后续拍摄点之间的移动过程中。

在该实施例中，拍摄单元201例如可以由相机和/或带拍照功能的手机实现；

在一个或多个实施例中，例如可以将实现拍摄单元201的相机和带拍照功能的手机固定在同一拍摄支架上；在移动支架的过程中，获取多张相机或带拍照功能的手机所拍摄的定位用图像，从而获取相机或带拍照功能的手机对所处空间拍摄3D建模用图像时的位置和拍摄方向信息。

这里，还可以基于相机或所述带拍照功能的手机的定位系统，使用相机或带拍照功能的手机拍摄的定位用图像，通过相近拍摄点的定位用图像进行特征点匹配来获得各拍摄点的相对位移和拍摄方向信息，从而提供每个拍摄点的相对位置和方向。

在一个或多个实施例中，由于拍摄点的位置、方向和路线图通过手机获得。由于相机可以通过旋转螺丝固定到支架上，每次安装相机与手机的夹角可能不同(但是在拍摄一套房源的过程中夹角不变)。单房间的3D模型需要转动这个夹角，再根据手机获取的位置和拍摄方向，放入到全局坐标中，形成整体的3D模型。

这里，在拍摄单元201对第一个空间拍摄3D建模用图像之前、或在后续拍摄的移动过程中，可以通过以下方式的一种或多种，获取相机的镜头和手机的拍摄方向的夹角：

(1)同时运行基于手机的定位系统和基于相机的定位系统，并移动支架一段距离，此时两套系统各提供一个位移向量，两个向量的夹角即为相机的镜头与手机的拍摄方向的夹角；

(2)通过手工旋转相机的预览图或者拍摄的图像，指定与手机拍摄方向一致的角度；

(3)通过图像识别算法匹配手机与相机的预览图或拍摄的图像，找到夹角；

(4)通过使用额外的标识、包括在支架上增加刻度与手机的安装方向形成固定夹角，然后在相机的预览图或图像中识别该标识来计算相机的镜头和手机拍摄方向的夹角；

当然，这里，拍摄点的位置、方向和路线图也可以由相机图像计算得到，在这种情况下，计算3D模型不依赖于相机与手机的夹角，所以手机可以不用固定在支架上。

这里，如果相机也具备方向传感器，可以通过直接获取相机和手机的方向计算夹角。

3D模型生成单元202由手机实现或者由远程服务器实现，在由远程服务器实现的情况下，其通过网络接收相机和/或带拍照功能的手机拍摄并发送来的3D建模用图像，生成各个所述空间的3D模型；

拍摄位置获取单元203例如可以由所述相机或所述手机实现；

3D模型拼接单元204，例如可以由所述手机实现或者由远程服务器实现，在由所述远程服务器实现的情况下，其通过网络接收拍摄位置获取单元203发送来的各个空间的所述位置和拍摄方向信息，基于该位置和拍摄方向信息完成拼接处理，并将生成的整体3D模型发送给所述手机或其它设备。图3为本发明基于拍照的3D建模系统的另一个实施例的结构示意图。如图3所示，该实施例的基于拍照的3D建模系统中，基于拍照的3D建模空间例如是指房间；3D建模用图像例如是该房间的室内图像，包括：

拍摄单元301，用于对多个房间分别拍摄该房间的3D建模用图像；

这里，拍摄单元301可以在各个房间之间移动的过程中拍摄多张定位用图像。

这里，拍摄单元301例如具有定位传感器和方向传感器，能够获得在对所处房间拍摄3D建模用图像时的定位信息和方向信息。

3D模型生成单元302，分别基于拍摄单元301针对各个房间拍摄的3D建模用图像，生成各个房间的3D模型；

这里，3D模型生成单元302基于深度学习技术，识别3D建模用图像中的地板、天花板、墙壁中的至少一者的图像，并基于图像处理技术，对识别出的图像进行分块，每块近似认为是一个平面，使地板和天花板的图像块位于水平平面，使墙壁的图像块位于垂直平面，通过求解各个平面方程生成3D模型；其中，对于在3D建模用图像中相交的两个平面，使得计算得到的交线与实际观察到的交线的误差最小。

这里，3D模型生成单元302还利用计算机视觉技术识别室内图像中的墙角，并将墙角连接起来，生成房间的粗略模型。

这里，在一个或多个实施例中，计算机视觉技术识别室内图像中的墙角的方法例如可以使用三维几何短语模型，以实现能够捕捉在同一三维空间结构中频繁出现的对象例如墙角之间的几何关系。

拍摄位置获取单元303，用于获取拍摄单元301拍摄各个房间的3D建模用图像时的位置和拍摄方向信息；

这里，拍摄位置获取单元303例如可以通过拍摄单元301拍摄的多张定位用图像中的相近拍摄点图像进行特征点匹配，来获得各拍摄点的相对位移和拍摄方向信息，例如可形成包括所有拍摄点的在同一坐标系内的路线图，从而获取拍摄单元301对所处房间拍摄3D建模用图像时的位置和拍摄方向信息。

这里，拍摄位置获取单元303还可以例如基于拍摄单元301对所处房间拍摄3D建模用图像时提供的定位信息和方向信息，来获取拍摄单元301对所处房间拍摄3D建模用图像时的位置和拍摄方向信息。

这里，拍摄位置获取单元303还通过拍摄单元301具备的加速度传感器、速度传感器提供的加速度信息和移动速度信息，对路线图进行校正。

3D模型拼接单元304，基于拍摄位置获取单元303获取的各个房间的位置和拍摄方向信息，将3D模型生成单元302生成的各个房间的3D模型在同一个三维坐标系内进行拼接处理，形成由各个房间各自的3D模型拼接而成的整体3D模型。

这里，3D模型拼接单元304还可以根据拍摄位置获取单元303获取的拍摄各个房间时的位置和拍摄方向信息，例如可利用一个转换矩阵，把单个房间的3D模型的局部坐标转换为全局的世界坐标，从而获得所有拍摄点的整体3D模型。

这里，3D模型拼接单元304还可以对多个房间各自的3D模型进行统一校正，包括使用统计的方法对所有的房间的墙线方向进行统一校正，使得所有房间在一定偏差范围内的墙线平行；

这里，3D模型拼接单元304还可以在将各个房间的3D模型进行拼接处理时，对重叠的部分和/或出现的空洞进行修正。

2D平面图生成单元305，以如下方式生成2D平面图：

1、将生成的3D模型的每个面向垂直于地板的平面投影，并将这些投影合并成为一个多边形；

2、对得到的多边形进行校正和简化，例如可以包括以下方式：

(1)仅保留多边形的主要顶点，删除小的凹凸，例如，小于墙的标准厚度(例如12cm或24cm)的凹凸，可以删除；

(2)利用计算机视觉技术检测图片中的直线，进而确定墙壁的走向，并将与墙壁走向近似平行或垂直的边都修正到对应的方向上；

当然，对得到的多边形进行校正和简化的方式当然也可以是其他方式，并不做限定；

3、基于拍摄位置获取单元303获取的各个房间的位置和拍摄方向信息，将生成的各个房间的2D平面图在同一个二维坐标系内进行拼接处理，形成由各个房间各自的2D平面图拼接而成的整体2D平面图；

4、识别并标示出门和/或窗的位置，包括使用深度学习的方法，在室内图像上识别出门和/或窗的位置，或者根据拍摄单元301对属于同一套房子的多个房间分别拍摄3D建模用图像时的移动轨迹与该房间轮廓的交点，确定门的位置。

这里，在一个或多个实施例中，使用深度学习的方法在室内图像上识别出门和/或窗的位置的方法例如可以通过单阶段的关键点检测模型，通过三个关键点而不是一对关键点检测每个目标物例如门和/或窗，以提高准确率及返回率。

这里，2D平面图生成单元305还可以对多个房间各自的2D平面图进行统一校正，包括使用统计的方法对所有的房间的墙线方向进行统一校正，使得所有房间在一定偏差范围内的墙线平行；

这里，2D平面图生成单元305还可以在将各个房间的2D平面图进行拼接处理时，对重叠的部分和/或出现的空洞进行修正。

这里，2D平面图生成单元还可以以如下方式生成2D平面图：

1、将3D模型拼接单元304生成的整体3D模型的每个面向垂直于地板的平面投影，并将这些投影合并成为一个多边形；

(1)仅保留多边形的主要顶点，删除小的凹凸，

3、识别并标示出门和/或窗的位置，包括使用深度学习的方法，在室内图像上识别出门和/或窗的位置，或者根据拍摄单元301对属于同一套房子的多个房间分别拍摄3D建模用图像时的移动轨迹与该房间轮廓的交点，确定门的位置。

[基于拍照的3D建模方法]

图4为本发明基于拍照的3D建模方法流程示意图。

请参见图4，本发明提供的基于拍照的3D建模方法，包括如下步骤：

S1)将具有拍照功能的移动设备(包括手机、平板电脑等)和/或相机(包括全景、鱼眼和普通数码相机)固定在同一拍摄支架(包括三脚架)上。

S2)在移动支架的过程中获取多张相机或移动设备的定位用图像，通过图像处理算法，结合相机或移动设备的传感器来获取每个拍摄点的位置和拍摄方向，形成使用统一坐标系的路线图。

这里，步骤S2基于移动设备或相机的定位系统，使用移动设备或相机拍摄的定位用图像，通过相近拍摄点的定位用图像进行特征点匹配来找到拍摄点的相对位移和拍摄方向信息，形成包括所有拍摄点的在同一坐标系内的所述路线图，并提供每个拍摄点的位置和方向。

这里，步骤S2还包括通过移动设备或相机的传感器，获取包括移动的加速度、速度和方向信息，对所述路线图进行校正。

这里，步骤S2还包括获取相机的镜头和移动设备的拍摄方向的夹角，在初始化阶段同时运行基于移动设备的定位系统和基于相机的定位系统，并移动支架一段距离，此时两套系统各提供一个位移向量，两个向量的夹角即为相机的镜头与移动设备的拍摄方向的夹角；或者通过手工将相机与移动设备调节成朝向一致的角度，比如旋转相机的预览图或者拍摄的图像，指定与移动设备拍摄方向一致的角度；或者通过图像识别算法匹配移动设备与相机的预览图或拍摄的图像，找到夹角；或者通过使用额外的标识、包括在支架上增加刻度与移动设备的安装方向形成固定夹角，然后在相机的预览图或图像中识别该标识来计算相机的镜头和移动设备拍摄方向的夹角。

S3)在移动设备上或远程服务器端基于在每个拍摄点拍摄的3D建模用图像，通过深度学习算法或其他方法进行3D建模，获得每个拍摄点的3D模型和/或2D平面图。

这里，步骤S3包括：

S31)基于深度学习技术，识别图像中的地板、天花板、墙壁的至少一者的图像；

S32)基于图像处理技术，对识别出的图像进行分块，每块近似认为是一个平面，地板和天花板的图像块位于水平平面，墙壁的图像块位于垂直平面，求解各个平面方程生成3D模型；对于在图像中相交的两个平面，以这两个平面的一条交线为约束条件，使得计算得到的交线与实际观察到的交线的误差最小。

这里，步骤S3还包括：对于室内图像，利用计算机视觉技术识别图像中的墙角，并将墙角连接起来即为房间的粗略模型。这里，在一个或多个实施例中，计算机视觉技术识别室内图像中的墙角的方法例如可以使用三维几何短语模型，以实现能够捕捉在同一三维空间结构中频繁出现的对象例如墙角之间的几何关系。

S4)将每个拍摄点的3D模型按照S2中获取的位置和拍摄方向，统一放置在同一个三维坐标系内，对多个拍摄点3D模型之间的结合部位进行拼接处理，形成多个拍摄点的3D模型和/或2D平面图，对所有房间墙的方向进行统一校正并对重叠和空洞情况进行优化处理。正常房型中多数房间由平行的墙构成，而单个拍摄点形成的房间模型中本来平行的墙会有一定偏差(不平行)；通过考虑多个房间墙的方向，找出一个主流方向，并以此调整所有房间墙的方向。

这里，步骤S4包括：

S41)根据每个拍摄点的位置和拍摄方向，例如可利用一个转换矩阵，把单个拍摄点的3D模型的局部坐标转换为成全局的世界坐标，从而获得所有拍摄点的整体3D模型；

S42)对多个拍摄点的3D模型进行统一校正，包括使用统计的方法对所有的拍摄点的墙线方向进行统一校正，使得所有房间在一定偏差范围内的墙线平行；

S43)在将各个拍摄点的3D模型进行拼接处理时，对其重叠的部分和/或出现的空洞进行修正。

S5)在移动设备上自动生成全景漫游效果。

下面，将结合基于拍照的3D建模系统说明本实施例的基于拍照的3D建模方法的应用。

一、硬件系统

本实施例中将手机和相机都固定在同一个支架(包括例如三脚架等)上。

二、系统初始化

本发明使用以下两种方法之一来获取每个拍摄点的拍摄位置和相机的拍摄方向：

方法一)基于手机的定位系统，即使用手机的图像(照片、视频或预览图)，通过相近拍摄点图像进行特征点匹配来找到拍摄点的位移，以及优选使用移动设备的传感器(包括陀螺仪Gyroscope、加速度计Accelerometer、指南针Compass等)进行校正，以此生成路线图，并提供拍摄点的位置和方向；

方法二)基于相机的定位系统，即使用相机的图像(照片、视频或预览图)，通过相近拍摄点图像进行特征点匹配来找到拍摄点的位移，优选是间隔厘米级和分米级并连续进行匹配和定位，以及优选使用相机的传感器(包括陀螺仪Gyroscope、加速度计Accelerometer、指南针Compass等)进行校正，以此生成路线图，并提供拍摄点的位置和方向。

两种方法对比：方法一基于手机系统，由于手机有多种传感器，一般可以提供较为精确的绝对坐标信息，可以测量拍摄点间的绝对距离，但使用前需要额外的初始化过程。

方法二由于相机往往不具备完善的传感器，只能提供拍摄位置的相对坐标，但不需要额外的初始化以对齐路径和单个拍摄点3D模型的坐标轴；此外，如果拍摄路径中存在回环，方法二提供的坐标误差较小。

使用方法一时，手机提供的坐标是基于手机自身的坐标系(一般一个轴指向与地面垂直的方向，另两个轴分别指向前后和左右方向)，而基于全景照片生成的3D模型的坐标系是基于相机的坐标系，两者的坐标轴不重合，为了解决这个问题，需要对系统进行手动或自动的初始化，可以采用手动或自动的方法：

手动：用户使用额外的测量工具或者在支架等设备上增加刻度，手工输入相机镜头和手机拍摄方向的夹角；

自动：初始化阶段同时运行方法一和方法二，并移动设备一段距离，优选移动1-3米，此时两套系统可以各提供一个系统的位移向量，两个向量的夹角即为相机镜头与手机的拍摄方向的夹角。

三、拍摄点位置和拍摄方向的确定

上述系统开始运行后，即可提供拍摄者所在的位置和拍摄方向信息。

四、单个拍摄点3D模型生成

传统上，基于拍照的建模方法有以下两种，但是都有明显的缺点：

传统方法a)使用能够识别深度信息的相机，直接生成3D模型。这种方法依赖于更加复杂的硬件，导致更高的设备成本，往往需要专业摄影师才能操作，不利于普及；

传统方法b)在一个拍摄点距离较近的地方拍摄两张照片，优选间隔厘米级和分米级并连续进行匹配和定位，然后使用MVS(Multi View Stereo，比如可参考https://github.com/cdcseacave/openMVS)进行建模，优点是整个过程全自动不需要人工干预，但是缺点也很明显：

缺点1：计算量较大，无法在移动设备上实时建模，通常上传到服务器(云端/PC)，利用更强的计算能力，运行建模算法；

为了克服以上的缺点，本发明使用了创新的方法：为了提高实时性，达到所见即所得的效果，通常只对房间轮廓(墙体位置)建模，而不去复原家具、饰品等房间附属物体的模型。即：

i.基于深度学习技术，识别图像中的地板，天花板，墙壁和屋顶等部分，这些部分所在的平面要么法线方向确定(地板，天花板)，要么法线在水平面上(墙壁)；

ii.基于图像处理技术，对图像进行分块，每块可近似认为是一个平面。对于地板部分的块，平面方程是已知的。假设y轴垂直向上，则地板部分的方程为y+1＝0。对于墙壁部分，平面方程为Ax+Cz+D＝0，天花板部分为y+D＝0,其他部分为Ax+By+Cz+D＝0，生成3D模型的过程即为求解各个平面方程的过程。对于在图片中相交的两个平面，在图片中有一条交线，以此为约束条件，上述求解方程的过程可以变为一个最小化问题，使得对于相交的两个平面，计算得到的交线与实际观察到的交线的误差最小；

iii.也可使用其他方法对场景进行建模。例如在室内，可以利用计算机视觉技术结合深度学习来识别图中的墙角，将墙角连接起来即为房间的粗略模型。这里，在一个或多个实施例中，计算机视觉技术识别室内图像中的墙角的方法例如可以使用三维几何短语模型，以实现能够捕捉在同一三维空间结构中频繁出现的对象例如墙角之间的几何关系。

iv.2D平面图生成，得到每个拍摄点的3D模型后，可以进一步生成平面图，尤其是对室内场景的应用，很多时候都需要平面图。方法是：

1.将3D模型的每个面投影到2D俯视图平面上；

2.将这些投影进行合并成一个大的多边形；

3.对得到的多边形进行校正和简化，例如可以包括以下方式：

a)得到的多边形往往点的数量较多，可以对多边形进行简化，仅保留2D平面图上多边形的顶点，删除小的凹凸；

b)对于室内场景，可以利用计算机视觉技术检测图片中的直线，进而确定墙壁的走向，将与墙壁走向近似平行或垂直的边都修正到对应的方向上。

4.门和/或窗的识别。对于室内场景，需要在2D平面图上对门和/或窗进行标注，可以使用以下两个方法：

a)直接使用深度学习的方法，在全景图上识别门和/或窗的位置和大小；

这里，在一个或多个实施例中，使用深度学习的方法在室内图像上识别出门和/或窗的位置和大小的方法例如可以通过单阶段的关键点检测模型，通过三个关键点而不是一对关键点检测每个目标物例如门和/或窗的位置和大小，以提高准确率及返回率。

b)由于基于手机或相机的定位系统不仅给出知道每个拍摄点的位置和拍摄方向，还具备整个拍摄过程中相机的移动轨迹，这个路径和房间本身的轮廓的交点必然是门的位置。

五、多个拍摄点3D模型以及2D平面图生成

a)步骤4解决了每个拍摄点的3D模型生成，得到的3D模型坐标都是相对于拍摄点的相对坐标。为了将这些模型结合起来，从而生成完整的3D模型和2D平面图。首先，由于已经知道每个拍摄点的位置和拍摄方向，例如可以利用一个转换矩阵，把单个模型的局部坐标转换成全局的世界坐标。

b)在此基础上，可以进一步对模型和平面图进行校正。

i.单各拍摄点的模型使用了直线进行校正，一般是存在误差的，拍摄了多个点位后，可以用统计的方法对所有的拍摄点进行统一校正，例如，使用RANSEC(Random SampleConsensus)等方法，找到最合理的校正直线，使得所有房间在一定偏差范围内的墙线平行、避免出现小的偏差角度；

ii.由于建模的误差，多个拍摄点的3D模型和2D平面图放在一起可能存在重叠，空洞等情况，可以自动去除重叠的部分，在2D平面图上对空洞进行填补等。

六、即时展示

上述过程可以完全在手机上自动进行，完成后，可以使用展示软件在手机上即时进行展示，漫游等，并能上传至云端分享给他人。

七、人工编辑

由于定位系统、单拍摄点3D建模算法以及多拍摄点3D模型/2D平面图优化各环节均可能存在误差，为了得到更高精度的模型，本发明允许用户手工对拍摄的结果进行编辑，并提供审核和编辑工具。

[自动3D建模装置]

图5为本发明的自动3D建模装置的一个实施例的结构示意图；如图5所示，包括：

3D模型生成单元501，基于建模对象所包括的多个空间各自的3D建模用图像，分别生成各个空间的3D模型；

3D模型拼接单元502，基于多个空间各自的3D建模用图像被拍摄时的位置和拍摄方向信息，将3D模型生成单元501生成的各个空间的3D模型在同一个三维坐标系内进行拼接处理，形成由各个空间各自的3D模型拼接而成的整体3D模型。

这里，3D模型拼接单元502还可以根据位置和拍摄方向信息，例如可利用一个转换矩阵，把单个空间的所述3D模型的局部坐标转换为全局的世界坐标，从而获得所有空间的整体3D模型。

图6为本发明的自动3D建模装置的另一个实施例的结构示意图；在该实施例中，自动3D建模空间例如是房间；3D建模用图像例如是所述房间的室内图像。

如图6所示，该实施例包括3D模型生成单元601，基于建模对象所包括的多个房间各自的3D建模用图像，分别生成各个房间的3D模型；

这里，3D模型生成单元601基于深度学习技术，识别3D建模用图像中的地板、天花板、墙壁中的至少一者的图像，并基于图像处理技术，对识别出的图像进行分块，每块近似认为是一个平面，使地板和天花板的图像块位于水平平面，使墙壁的图像块位于垂直平面，通过求解各个平面方程生成所述3D模型；其中，对于在3D建模用图像中相交的两个平面，使得计算得到的交线与实际观察到的交线的误差最小；

这里，3D模型生成单元601还利用计算机视觉技术识别室内图像中的墙角，并将墙角连接起来，生成房间的粗略模型。这里，在一个或多个实施例中，计算机视觉技术识别室内图像中的墙角的方法例如可以使用三维几何短语模型，以实现能够捕捉在同一三维空间结构中频繁出现的对象例如墙角之间的几何关系。

3D模型拼接单元602，基于多个房间各自的3D建模用图像被拍摄时的位置和拍摄方向信息，将3D模型生成单元601生成的各个房间的3D模型在同一个三维坐标系内进行拼接处理，形成由各个房间各自的3D模型拼接而成的整体3D模型。

这里，3D模型拼接单元602还可以根据位置和拍摄方向信息，例如可利用一个转换矩阵，把单个房间的3D模型的局部坐标转换为全局的世界坐标，从而获得所有房间的整体3D模型。

这里，3D模型拼接单元602还可以对多个房间各自的3D模型进行统一校正，包括使用统计的方法对所有的房间的墙线方向进行统一校正，使得所有房间在一定偏差范围内的墙线平行；

这里，3D模型拼接单元602还可以在将各个房间的3D模型进行拼接处理时，对重叠的部分和/或出现的空洞进行修正。

2D平面图生成单元603，以如下方式生成2D平面图：

(1)仅保留所述多边形的主要顶点，删除小的凹凸，

3、基于位置和拍摄方向信息，将生成的各个房间的2D平面图在同一个二维坐标系内进行拼接处理，形成由各个房间各自的2D平面图拼接而成的整体2D平面图；

4、识别并标示出门和/或窗的位置，包括使用深度学习的方法，在室内图像上识别出门和/或窗的位置，或者根据对属于同一套房子的多个房间分别拍摄3D建模用图像时获取的移动轨迹与该房间轮廓的交点，确定门的位置。

这里，2D平面图生成单元603还可以对多个房间各自的2D平面图进行统一校正，包括使用统计的方法对所有的房间的墙线方向进行统一校正，使得所有房间在一定偏差范围内的墙线平行；

这里，2D平面图生成单元603还可以在将各个房间的2D平面图进行拼接处理时，对重叠的部分和/或出现的空洞进行修正。

这里，2D平面图生成单元603还可以以如下方式生成2D平面图：

1、将3D模型拼接单元602生成的整体3D模型的每个面向垂直于地板的平面投影，并将这些投影合并成为一个多边形；

2、对得到的所述多边形进行校正和简化，例如可以包括以下方式：

(1)仅保留所述多边形的主要顶点，删除小的凹凸，

3、识别并标示出门和/或窗的位置，包括使用深度学习的方法，在室内图像上识别出门和/或窗的位置，或者根据对属于同一套房子的多个房间分别拍摄所述3D建模用图像时的移动轨迹与该房间轮廓的交点，确定门的位置。具体方法例如通过上述的单阶段的关键点检测模型，这里不再赘述。

[自动3D建模方法]

图7为本发明的自动3D建模方法的一个实施例的流程示意图；如图7所示，包括：

3D模型生成步骤S71，基于建模对象所包括的多个空间各自的3D建模用图像，分别生成各个空间的3D模型；

在本实施例中，自动3D建模空间例如是房间；3D建模用图像例如是所述房间的室内图像。

在3D模型生成步骤S71中，基于深度学习技术，识别3D建模用图像中的地板、天花板、墙壁中的至少一者的图像，并基于图像处理技术，对识别出的图像进行分块，每块近似认为是一个平面，使地板和天花板的图像块位于水平平面，使墙壁的图像块位于垂直平面，通过求解各个平面方程生成3D模型；其中，对于在3D建模用图像中相交的两个平面，使得计算得到的交线与实际观察到的交线的误差最小；

在3D模型生成步骤S71中还利用计算机视觉技术识别室内图像中的墙角，并将墙角连接起来，生成房间的粗略模型。这里，在一个或多个实施例中，计算机视觉技术识别室内图像中的墙角的方法例如可以使用三维几何短语模型，以实现能够捕捉在同一三维空间结构中频繁出现的对象例如墙角之间的几何关系。

3D模型拼接步骤S72，基于多个房间各自的3D建模用图像被拍摄时的位置和拍摄方向信息，将3D模型生成步骤S71中生成的各个房间的3D模型在同一个三维坐标系内进行拼接处理，形成由各个房间各自的3D模型拼接而成的整体3D模型。

这里，在3D模型拼接步骤S72中，还可以根据位置和拍摄方向信息，例如可利用一个转换矩阵，把单个空间的3D模型的局部坐标转换为全局的世界坐标，从而获得所有空间的整体3D模型。

2D平面图生成步骤S73，以如下方式生成2D平面图：

(1)仅保留所述多边形的主要顶点，删除小的凹凸，

这里，对得到的多边形进行校正和简化的方式当然也可以是其他方式，并不做限定；

4、识别并标示出门和/或窗的位置，包括使用深度学习的方法，在室内图像上识别出门和/或窗的位置，或者根据对属于同一套房子的多个房间分别拍摄3D建模用图像时获取的移动轨迹与该房间轮廓的交点，确定门的位置。具体方法例如通过上述的单阶段的关键点检测模型，这里不再赘述。

这里，2D平面图生成步骤S73还可以对多个房间各自的2D平面图进行统一校正，包括使用统计的方法对所有的房间的墙线方向进行统一校正，使得所有房间在一定偏差范围内的墙线平行；

这里，2D平面图生成步骤S73还可以在将各个房间的2D平面图进行拼接处理时，对重叠的部分和/或出现的空洞进行修正。

这里，2D平面图生成步骤S73还可以以如下方式生成2D平面图：

1、将3D模型拼接步骤S72生成的整体3D模型的每个面向垂直于地板的平面投影，并将这些投影合并成为一个多边形；

(1)仅保留所述多边形的主要顶点，删除小的凹凸，

3、识别并标示出门和/或窗的位置，包括使用深度学习的方法，在室内图像上识别出门和/或窗的位置，或者根据对属于同一套房子的多个房间分别拍摄3D建模用图像时的移动轨迹与该房间轮廓的交点，确定门的位置。具体方法例如通过上述的单阶段的关键点检测模型，这里不再赘述。

[电子设备]

下面参考图8，其示出了适于用来实现本发明实施例的电子设备(例如图1中的移动设备或服务器)800的结构示意图。本发明实施例中的电子设备可以是上述系统中的各种移动设备，并且优选具有拍照功能，以独立或通过与其他电子终端设备例如相机固定在同一个支架(例如三脚架)上，配合运行各类移动操作系统中的应用软件实现本发明的实施例方法。图8示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801，用于控制电子设备的整体操作。处理装置可以包括一个或多个处理器来执行指令，以完成上述的方法的全部或部分步骤。此外，处理装置801还可以包括一个或多个模块，用于处理和其他装置或单元之间的交互。

存储装置802用于存储各种类型的数据，存储装置802可以是包括各种类型的计算机可读存储介质或者它们的组合，例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

传感器装置803，用于感受规定的被测量的信息并按照一定的规律转换成可用输出信号，可以包括一个或多个传感器。例如，其可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器等，用于检测电子设备的打开/关闭状态、相对定位、加速/减速、温度、湿度和光线等的变化。

处理装置801、存储装置802以及传感器装置803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

多媒体装置806可以包括触摸屏、触摸板、键盘、鼠标、摄像头、麦克风等的输入装置用以接收来自用户的输入信号，在各种输入装置可以与上述传感器装置803的各种传感器配合完成例如手势操作输入、图像识别输入、距离检测输入等；多媒体装置806还可以包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置。

电源装置807，用于为电子设备中的各种装置提供电力，可以包括电源管理系统、一个或多个电源及为其他装置分配电力的组件。

通信装置808，可以允许电子设备800与其他设备进行无线或有线通信以交换数据。

上述各项装置也均可以连接至I/O接口805以实现电子设备800的应用。

虽然图8示出了具有各种装置的电子设备800，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置从网络上被下载和安装，或者从存储装置被安装。在该计算机程序被处理装置执行时，执行本发明实施例的方法中限定的上述功能。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。

要说明的是，本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。而在本发明中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种基于拍照的3D建模系统，其特征在于，包括：

相机或带有拍照功能的手机，用于对多个空间分别拍摄该空间的第一图像；

由所述带有拍照功能的手机或者由远程服务器分别基于所述相机或带有拍照功能的手机针对各个所述空间拍摄的所述第一图像，生成各个所述空间的3D模型；

所述相机或带有拍照功能的手机还用于获取拍摄各个空间的第一图像时的位置和拍摄方向信息；

由所述带有拍照功能的手机或者由所述远程服务器按照所述位置和拍摄方向信息，将所述各个空间的3D模型自动放置在同一个三维坐标系内，并对所述各个空间的3D模型之间的结合部位进行拼接处理，形成包括所述各个空间的整体3D模型；

所述相机或带有拍照功能的手机在所述各个空间之间移动的过程中拍摄多张第二图像，

所述相机或所述带有拍照功能的手机通过所述多张第二图像进行特征点匹配，来获得各拍摄点的相对位移和拍摄方向信息，基于此获得所述位置和拍摄方向信息；

将所述相机和带有拍照功能的手机固定在同一拍摄支架上，在所述相机或带有拍照功能的手机对第一个所述空间拍摄所述第一图像之前、或在后续拍摄的移动过程中，获取相机和带有拍照功能的手机的拍摄方向的夹角，在一次拍摄过程中所述夹角不变。

2.如权利要求1所述的基于拍照的3D建模系统，其特征在于，

所述相机或带有拍照功能的手机具有定位传感器和方向传感器；

所述相机或所述带有拍照功能的手机通过对所处空间拍摄第一图像时的定位信息和方向信息对所述相对位移和拍摄方向信息进行校正，从而获取所述相机或带有拍照功能的手机对所处空间拍摄第一图像时的位置和拍摄方向信息。

3.如权利要求1所述的基于拍照的3D建模系统，其特征在于，

所述相机或所述带有拍照功能的手机还通过其具备的加速度传感器和速度传感器提供的加速度信息和移动速度信息，对所述相对位移和拍摄方向信息进行校正。

4.如权利要求1所述的基于拍照的3D建模系统，其特征在于，

所述带有拍照功能的手机或者所述远程服务器根据所述相机或所述带有拍照功能的手机获取的拍摄各个空间时的所述位置和拍摄方向信息，把单个空间的所述3D模型的局部坐标转换为全局的世界坐标，从而获得所述多个空间的整体3D模型。

5.如权利要求1所述的基于拍照的3D建模系统，其特征在于，

在所述相机和带有拍照功能的手机在后续拍摄的移动过程中，移动预定距离以获得相应的位移向量。

6.如权利要求1所述的基于拍照的3D建模系统，其特征在于，

所述带有拍照功能的手机或者远程服务器通过深度学习技术，计算或直接运用所述深度学习技术识别所述第一图像中的法线方向。

7.如权利要求1至6的任一项所述的基于拍照的3D建模系统，其特征在于，

在由所述远程服务器实现所述生成各个所述空间的3D模型的情况下，其通过网络接收所述相机或所述带有拍照功能的手机拍摄并发送来的第一图像，生成各个所述空间的3D模型；

在由所述远程服务器实现所述对所述各个空间的3D模型之间的结合部位进行拼接处理形成包括所述各个空间的整体3D模型的情况下，其通过网络接收所述相机或所述带有拍照功能的手机发送来的各个空间的定位信息以及各个空间的3D模型以生成的更高精度的所述整体3D模型并分享给他人。

8.如权利要求7所述的基于拍照的3D建模系统，其特征在于，

在移动所述支架的过程中，获取多张所述相机或所述带有拍照功能的手机所拍摄的第二图像，从而获取所述相机或所述带有拍照功能的手机对所处空间拍摄第一图像时的位置和拍摄方向信息。

9.如权利要求8所述的基于拍照的3D建模系统，其特征在于，

基于所述相机或所述带有拍照功能的手机的定位系统，使用所述相机或所述带有拍照功能的手机拍摄的第二图像，通过相近拍摄点的第二图像进行特征点匹配来获得各拍摄点的相对位移和拍摄方向信息，从而提供每个拍摄点的相对位置和方向。

10.如权利要求8所述的基于拍照的3D建模系统，其特征在于，还包括，

在所述相机或带有拍照功能的手机对第一个所述空间拍摄所述第一图像之前、或在后续拍摄的移动过程中，通过以下方式的一种或多种，获取所述相机的镜头和所述带有拍照功能的手机的拍摄方向的夹角：

(1)同时运行基于所述带有拍照功能的手机的定位系统和基于所述相机的定位系统，并移动所述支架一段距离，此时两套系统各提供一个位移向量，两个向量的夹角即为所述相机的镜头与所述带有拍照功能的手机的拍摄方向的夹角；

(2)通过手工旋转所述相机的预览图或者拍摄的图像，指定所述预览图或者拍摄的图像与所述带有拍照功能的手机拍摄方向一致的角度，确定旋转的角度即为所述相机的镜头和所述带有拍照功能的手机的拍摄方向的夹角；

(3)通过图像识别算法匹配所述带有拍照功能的手机与所述相机的预览图或拍摄的图像，找到所述夹角；

(4)通过使用额外的标识与所述带有拍照功能的手机的安装方向形成固定夹角，然后在所述相机的预览图或拍摄的图像中识别该标识来计算所述相机的镜头和所述带有拍照功能的手机拍摄方向的夹角。

11.如权利要求1所述的基于拍照的3D建模系统，其特征在于，

所述空间是房间；

所述第一图像是所述房间的室内图像；

所述带有拍照功能的手机或者远程服务器基于深度学习技术，识别所述第一图像中的地板、天花板、墙壁中的至少一者的图像，并基于图像处理技术，对识别出的图像进行分块，每块近似认为是一个平面，使地板和天花板的图像块位于水平平面，使墙壁的图像块位于垂直平面，通过求解各个平面方程生成所述3D模型；其中，对于在所述第一图像中相交的两个平面，使得计算得到的交线与实际观察到的交线的误差最小。

12.如权利要求11所述的基于拍照的3D建模系统，其特征在于，

所述带有拍照功能的手机或者远程服务器还利用计算机视觉技术识别所述室内图像中的墙角，并将墙角连接起来，生成房间的粗略模型。

13.如权利要求11所述的基于拍照的3D建模系统，其特征在于，

所述带有拍照功能的手机或者远程服务器对多个所述房间各自的3D模型进行统一校正，包括使用统计的方法对所有的房间的墙线方向进行统一校正，使得所有房间在一定偏差范围内的墙线平行；

所述带有拍照功能的手机或者远程服务器在将各个所述房间的3D模型进行拼接处理时，对重叠的部分和/或出现的空洞进行修正。

14.如权利要求11所述的基于拍照的3D建模系统，其特征在于，还包括：

所述带有拍照功能的手机或者远程服务器以如下方式生成2D平面图：

将生成的所述3D模型的每个面向平行于地板的平面投影，并将这些投影合并成为一个多边形；

对得到的所述多边形进行校正和简化，包括以下至少一种方式：

(1)仅保留所述多边形的主要顶点，删除小的凹凸以形成直线边缘，

基于所述相机或所述带有拍照功能的手机获取的各个空间的所述位置和拍摄方向信息，将生成的各个所述房间的2D平面图在同一个二维坐标系内进行拼接处理，形成由各个所述房间各自的2D平面图拼接而成的整体2D平面图；

识别并标示出门的位置，包括使用深度学习的方法，在所述第一图像上识别门的位置，或者根据所述相机或带有拍照功能的手机对属于同一套房子的多个房间分别拍摄所述第一图像时的移动轨迹与该房间轮廓的交点，确定门的位置。

15.如权利要求14所述的基于拍照的3D建模系统，其特征在于，

所述带有拍照功能的手机或者远程服务器对所述多个房间各自的2D平面图进行统一校正，包括使用统计的方法对所有的房间的墙线方向进行统一校正，使得所有房间在一定偏差范围内的墙线平行；

所述带有拍照功能的手机或者远程服务器在将所述各个房间的2D平面图进行拼接处理时，对重叠的部分和/或出现的空洞进行修正。

16.如权利要求11所述的基于拍照的3D建模系统，其特征在于，还包括：

将所述带有拍照功能的手机或者远程服务器生成的所述整体3D模型的每个面向平行于地板的平面投影，并将这些投影合并成为一个多边形；

17.一种自动3D建模装置，其特征在于，包括：

移动设备或者远程服务器，基于建模对象所包括的多个空间各自的第一图像，分别生成各个所述空间的3D模型；

移动设备或者远程服务器，按照所述多个空间各自的所述第一图像被拍摄时的位置和拍摄方向信息，将所述移动设备或者远程服务器生成的所述各个空间的3D模型自动放置在同一个三维坐标系内，并对所述各个空间的3D模型之间的结合部位进行拼接处理，形成由所述各个空间各自的3D模型拼接而成的整体3D模型；

其中，所述位置和拍摄方向信息是基于在各个所述空间之间移动的过程中拍摄的多张第二图像，通过特征点匹配获得的各拍摄点的相对位移和拍摄方向信息而得到的；

所述第一图像由第一图像拍摄单元拍摄；

所述第二图像由第二图像拍摄单元拍摄；

所述第一图像拍摄单元或所述第二图像拍摄单元由所述移动设备实现；

将所述第一图像拍摄单元和所述第二图像拍摄单元固定在同一拍摄支架上，在所述第一图像拍摄单元对第一个所述空间拍摄所述第一图像之前、或在后续拍摄的移动过程中，获取所述第一图像拍摄单元和所述第二图像拍摄单元的拍摄方向的夹角，在一次拍摄过程中所述夹角不变。

18.如权利要求17所述的自动3D建模装置，其特征在于，

所述移动设备或者远程服务器根据所述位置和拍摄方向信息，把单个空间的所述3D模型的局部坐标转换为全局的世界坐标，从而获得所有空间的整体3D模型。

19.如权利要求17所述的自动3D建模装置，其特征在于，

所述空间是房间；

所述第一图像是所述房间的室内图像；

所述移动设备或者远程服务器基于深度学习技术，识别所述第一图像中的地板、天花板、墙壁中的至少一者的图像，并基于图像处理技术，对识别出的图像进行分块，每块近似认为是一个平面，使地板和天花板的图像块位于水平平面，使墙壁的图像块位于垂直平面，通过求解各个平面方程生成所述3D模型；其中，对于在所述第一图像中相交的两个平面，使得计算得到的交线与实际观察到的交线的误差最小；

所述移动设备或者远程服务器还利用计算机视觉技术识别所述室内图像中的墙角，并将墙角连接起来，生成房间的粗略模型。

20.如权利要求19所述的自动3D建模装置，其特征在于，

所述移动设备或者远程服务器对多个所述房间各自的3D模型进行统一校正，包括使用统计的方法对所有的房间的墙线方向进行统一校正，使得所有房间在一定偏差范围内的墙线平行；

所述移动设备或者远程服务器在将各个所述房间的3D模型进行拼接处理时，对重叠的部分和/或出现的空洞进行修正。

21.如权利要求19所述的自动3D建模装置，其特征在于，还包括：

所述移动设备或者远程服务器以如下方式生成2D平面图：

基于所述位置和拍摄方向信息，将生成的各个所述房间的2D平面图在同一个二维坐标系内进行拼接处理，形成由各个所述房间各自的2D平面图拼接而成的整体2D平面图；

识别并标示出门的位置，包括使用深度学习的方法，在所述第一图像上识别门的位置，或者根据对属于同一套房子的多个房间分别拍摄所述第一图像时获取的移动轨迹与该房间轮廓的交点，确定门的位置。

22.如权利要求21所述的自动3D建模装置，其特征在于，

所述移动设备或者远程服务器对所述多个房间各自的2D平面图进行统一校正，包括使用统计的方法对所有的房间的墙线方向进行统一校正，使得所有房间在一定偏差范围内的墙线平行；

所述移动设备或者远程服务器在将所述各个房间的2D平面图进行拼接处理时，对重叠的部分和/或出现的空洞进行修正。

23.如权利要求19所述的自动3D建模装置，其特征在于，还包括：

移动设备或者远程服务器以如下方式生成2D平面图：

将所述移动设备或者远程服务器生成的所述整体3D模型的每个面向平行于地板的平面投影，并将这些投影合并成为一个多边形；

识别并标示出门的位置，包括使用深度学习的方法，在所述第一图像上识别门的位置，或者根据对属于同一套房子的多个房间分别拍摄所述第一图像时的移动轨迹与该房间轮廓的交点，确定门的位置。

24.一种自动3D建模方法，其特征在于，包括：

基于建模对象所包括的多个空间各自的第一图像，分别生成各个所述空间的3D模型；

按照所述多个空间各自的所述第一图像被拍摄时的位置和拍摄方向信息，将移动设备或者远程服务器生成的所述各个空间的3D模型自动放置在同一个三维坐标系内，并对所述各个空间的3D模型之间的结合部位进行拼接处理，形成由所述各个空间各自的3D模型拼接而成的整体3D模型；

所述第一图像由第一图像拍摄单元拍摄；

所述第二图像由第二图像拍摄单元拍摄；

25.如权利要求24所述的自动3D建模方法，其特征在于，

在所述对所述各个空间的3D模型之间的结合部位进行拼接处理，形成由所述各个空间各自的3D模型拼接而成的整体3D模型时，根据所述位置和拍摄方向信息，把单个空间的所述3D模型的局部坐标转换为全局的世界坐标，从而获得所有空间的整体3D模型。

26.如权利要求24所述的自动3D建模方法，其特征在于，

所述空间是房间；

所述第一图像是所述房间的室内图像；

在所述生成各个所述空间的3D模型时，基于深度学习技术，识别所述第一图像中的地板、天花板、墙壁中的至少一者的图像，并基于图像处理技术，对识别出的图像进行分块，每块近似认为是一个平面，使地板和天花板的图像块位于水平平面，使墙壁的图像块位于垂直平面，通过求解各个平面方程生成所述3D模型；其中，对于在所述第一图像中相交的两个平面，使得计算得到的交线与实际观察到的交线的误差最小；

在所述生成各个所述空间的3D模型时还利用计算机视觉技术识别所述室内图像中的墙角，并将墙角连接起来，生成房间的粗略模型。

27.如权利要求26所述的自动3D建模方法，其特征在于，还包括：

以如下方式生成2D平面图：

28.如权利要求27所述的自动3D建模方法，其特征在于，

还包括对多个所述房间各自的2D平面图进行统一校正，包括使用统计的方法对所有的房间的墙线方向进行统一校正，使得所有房间在一定偏差范围内的墙线平行；

还包括在将各个所述房间的2D平面图进行拼接处理时，对重叠的部分和/或出现的空洞进行修正。

29.如权利要求26所述的自动3D建模方法，其特征在于，还包括：

以如下方式生成2D平面图：

将生成的所述整体3D模型的每个面向平行于地板的平面投影，并将这些投影合并成为一个多边形；

30.一种基于拍照的3D建模方法，其特征在于，包括如下步骤：

S1)将具有拍照功能的手机和相机固定在同一拍摄支架上；

S2)在拍摄第一图像之前或移动支架的过程中获取多张相机或手机拍摄的第二图像，结合所述相机或手机的传感器来获取每个拍摄点的位置和拍摄方向，形成使用统一坐标系的路线图；

S3)在所述手机上或远程服务器端基于在每个拍摄点拍摄的第一图像进行3D建模以获得3D模型；

S4)将每个拍摄点的所述3D模型按照S2中获取的位置和拍摄方向，自动统一放置在同一个三维坐标系内，并对多个拍摄点的3D模型之间的结合部位进行拼接处理，形成包含多个拍摄点的3D模型的整体3D模型；

所述步骤S2是基于所述手机或相机的定位系统，使用所述手机或相机拍摄的第二图像，通过相近拍摄点的第二图像进行特征点匹配来找到拍摄点的相对位移和拍摄方向信息，形成包括所有拍摄点的在同一坐标系内的所述路线图，并提供每个拍摄点的位置和方向；

所述步骤S2还包括获取所述相机的镜头和所述手机的拍摄方向的夹角，在一次拍摄过程中所述夹角不变。

31.如权利要求30所述的基于拍照的3D建模方法，其特征在于，

所述步骤S2还包括通过所述手机或相机的传感器，获取包括移动的加速度、速度和方向信息，对所述路线图进行校正。

32.如权利要求30所述的基于拍照的3D建模方法，其特征在于，

在初始化阶段同时运行基于所述手机的定位系统和基于所述相机的定位系统，并移动支架一段距离，此时两套系统各提供一个位移向量，两个向量的夹角即为所述相机的镜头与所述手机的拍摄方向的夹角；或者通过手工旋转所述相机的预览图或者拍摄的图像，指定所述预览图或者拍摄的图像与所述手机拍摄方向一致的角度，确定旋转的角度即为所述相机的镜头和所述手机的拍摄方向的夹角；或者通过图像识别算法匹配所述手机与所述相机的预览图或拍摄的图像，找到夹角；或者通过使用额外的标识与所述手机的安装方向形成固定夹角，然后在所述相机的预览图或拍摄的图像中识别该标识来计算所述相机的镜头和所述手机拍摄方向的夹角。

33.如权利要求30所述的基于拍照的3D建模方法，其特征在于，所述步骤S3包括：

S32)基于图像处理技术，对识别出的图像进行分块，每块近似认为是一个平面，地板和天花板的图像块位于水平平面，墙壁的图像块位于垂直平面，求解各个平面方程生成所述3D模型；对于在图像中相交的两个平面，以这两个平面的一条交线为约束条件，使得计算得到的交线与实际观察到的交线的误差最小。

34.如权利要求30所述的基于拍照的3D建模方法，其特征在于，

所述步骤S3还包括：对于室内图像，利用计算机视觉技术识别图像中的墙角，并将墙角连接起来即为房间的粗略模型。

35.如权利要求30所述的基于拍照的3D建模方法，其特征在于，所述步骤S4包括：

S41)根据每个拍摄点的位置和拍摄方向，把单个拍摄点的3D模型的局部坐标转换为成全局的世界坐标，从而获得所有拍摄点的整体3D模型；