CN115362480A

CN115362480A - 用于以数字方式采集建筑的空间的方法和装置

Info

Publication number: CN115362480A
Application number: CN202180029049.8A
Authority: CN
Inventors: C·弗雷
Original assignee: Siemens Schweiz AG
Current assignee: Siemens Schweiz AG
Priority date: 2020-04-17
Filing date: 2021-04-09
Publication date: 2022-11-18
Also published as: WO2021209341A1; DE102020204921A1; EP4136567A1; US20230154214A1

Abstract

用于以数字方式采集建筑的空间的方法和装置，其中所述建筑中的相应的空间通过扫描设备来扫描并在数字点云中和/或通过图像记录被采集，其中基于所述数字点云和/或所述图像记录借助人工智能进行对象识别，其中在进行了对象识别之后将数字点云和/或图像记录映射到数字建筑模型中，其中在采集所述建筑中的定义对象的情况下，相应的定义对象由所述扫描设备以专用的方式采集，并且其中通过语音输入将属性分配给所述相应的定义对象。

Description

用于以数字方式采集建筑的空间的方法和装置

技术领域

本发明涉及用于以数字方式采集建筑的空间的方法和装置，其中建筑中的相应的空间通过扫描设备扫描并且在数字点云和/或图像记录中被采集。

背景技术

越来越多的工程办公室和建筑师使用数字建筑模型（BIM，Building InformationModel（建筑信息模型），数字孪生）。数字建筑模型尤其能够实现在建造建筑时和在经营（即管理）建筑时参与的角色（利益相关者（stakeholder））之间的全面信息交换。在此情况下，建筑的组件和元件通常以IFC注释（Industry Foundation Classes（工业基础类））映射在数字建筑模型中。

为了以数字方式采集建筑的空间/区域，主要使用扫描仪器或扫描设备（例如NavVis公司的NavVis扫描仪或扫描设备），这些扫描仪器或扫描设备借助例如墙、门、窗、机器、家具等的反射产生点云并由此创建定向规划和甚至平面图。扫描仪大多基于激光、红外或声学传感器技术工作。扫描仪器可以以静态或移动的方式使用。后者于是可以以可携带或可行驶的方式移动穿过建筑。

所谓的室内查看器（用于呈现以数字方式采集的空间的呈现仪器或软件工具）提高3D激光扫描的意义，其方式是：所述室内查看器使扫描数据对于建筑中的所有参与方来说可见并可用。室内查看器可以被用作用于显示和交换建筑信息的协同平台或被集成到现有的软件平台中，以便能够实现空间理解的新维度。用户可以像在现场一样探索所扫描的空间，其方式是：用户在高度详细的逼真的数字孪生中移动并且用户也改变楼层。

通常，点云限于使用平面图和数字建筑模型（BIM模型；BIM代表BuildingInformation Model（建筑信息模型））的专家。室内查看器将点云与高度详细的生动的360°图像组合成数字孪生，每个感兴趣的建筑查看者都可以利用该数字孪生就像其在实际生活中将会做的那样探索所扫描的空间并与所述扫描的空间进行交互。

室内查看器通常拥有易于操作、可扩展的内容管理系统，用于将带地理标签的信息（换言之，地点信息被分配给信息）和媒体添加到3D扫描。用户可以用鼠标右键点击屏幕上的任意位置，以便添加和显示这些信息作为感兴趣的对象或兴趣点（POI）。室内查看器中的相应的搜索功能使用户容易在2D规划中或在3D扫描中找到所期望的信息。

迄今为止，仅仅复杂地利用人工视觉标识来找出并注释通过扫描仪器以数字方式采集到的对象。因此，这非常费时和易出错，因为以数字方式采集到的对象在点云中或在3D扫描中可能容易被忽略。

发明内容

因此，本发明的任务是提供用于有效地找出并注释通过扫描仪器以数字方式采集到的对象的方法和装置。

该任务通过一种用于以数字方式采集建筑的空间（例如房间、走廊）的方法来解决，

其中建筑中的相应的空间通过扫描设备（例如NavVis扫描仪）来扫描（测量）并在数字点云中和/或通过图像记录（图像记录例如可以通过数字摄像机进行）被采集，

其中基于数字点云和/或图像记录借助人工智能进行对象识别（有利地也进行对象标识），

其中在进行了对象识别之后将数字点云和/或图像记录映射到数字建筑模型中，

其中在采集建筑中的定义对象（例如兴趣点、POI、感兴趣的对象）的情况下，相应的定义对象（例如火灾探测器、执行器或传感器）由扫描设备（例如通过摄像机和/或点云）以专用的方式采集，并且其中通过扫描设备的操作员的语音输入将属性（例如地点信息、建筑开发信息、类型信息、产品信息）分配给所述相应的定义对象。因此，在建筑扫描中通过操作员的音频输入进行对象利用附加的元信息（例如标签、属性）的丰富。有利地，图像内容的注释由扫描人员通过合适的语音识别进行。有利地，该语音识别是基于机器学习机制的经训练的语音识别。通过扫描设备以专用的方式采集定义对象或事先规定的对象（例如火灾探测器、执行器或传感器）例如可以通过为此设立的记录装置进行（例如通过由安置在扫描设备上的摄像机缩放对象）。有利地，对象识别还包括对象标识。图像记录例如可以以数字图像记录的形式通过相应地合适的数字摄像机进行。这可以通过单独记录（或单独记录的序列）和/或记录一个或多个视频序列来进行。有利地，该图像记录包括图像识别，用于识别或标识图像记录上的对象。有利地，模式识别和/或模式分类和/或模式分析的算法被用于图像识别。有利地，人工智能的方法也被用于图像识别。

口头或语言注释尤其在采集或记录圆形对象时是有利的。在数字图像记录中或在点云中，例如区分火灾探测器与运动探测器是不容易的。通过关于对象的口头或语言注释，给该对象配备相应的属性（火灾探测器或运动探测器）。该信息与对象一起被存储在数字建筑模型（BIM）中。因此，保证了明确的对象识别以及有利地在相应的注释的情况下也保证了对象标识。

定义对象（例如兴趣点，POI）例如是在空间中预先知道的对象。例如是位于空间中的库存对象（Inventarobjekt）。有利地，预先知道的对象或库存对象在用于空间的库存目录或库存规划中被列出。用户可以访问库存目录和/或库存规划。有利地，库存目录和/或库存规划被显示在扫描设备的显示器上。

本发明的第一有利设计方案在于，在建筑中的相应的定义对象的扫描地点处进行语音输入。由此可以自动地将扫描设备的地点位置用作对定义对象的注释。

本发明的另一有利设计方案在于，由用户在相应的定义对象的扫描地点处进行语音输入，其中在输出设备（例如移动通信终端设备的显示器或扫描设备上的显示器）上将定义对象的各个属性提供给用户。由此，用户可以通过（以合适的音量）读出显示器的信息来将注释添加到相应的对象。有利地，显示器上的信息通过替代源（例如已经存在的建筑规划（例如作为pdf文件）。

本发明的另一有利设计方案在于，根据扫描设备的方位在输出设备(例如显示器)上提供定义对象的各个属性。由此扫描设备的操作员不必在已经存在的建筑规划中寻找关于对象的相应信息，因为要注释的信息根据扫描设备的位置来提供。有利地，已配备有注释的对象由操作员确认。由此确保没有对象被忽略。

本发明的另一有利设计方案在于，针对定义对象的对象识别（以及有利地也针对对象标识），使用通过语音输入分配给相应的定义对象的属性。这能够实现对象识别以及对象标识的置信度的提高。置信度例如可以通过使用精密回忆（Precision-Recall）图（PR图）来确定。

本发明的另一有利设计方案在于，针对语音输入的识别，使用与说话者无关的语音识别（Siri等；经由深度学习的优化）。与说话者无关的语音识别不需要在前的训练阶段。

本发明的另一有利设计方案在于，在（例如从已存在的旧规划或替代信息源）识别位于附近的定义对象的情况下，扫描设备（以光学和/或声学方式）为扫描设备的用户输出通知。因此避免对象被遗忘或被忽略。

本发明的另一有利设计方案在于用于执行根据本发明的方法的扫描设备（扫描仪器）。已经存在的扫描仪器或扫描设备可以容易地被升级，以便能够实现根据本发明的方法。

该任务此外通过一种用于以数字方式采集建筑的空间（房间、走廊）的装置来解决，该装置包括：

扫描设备（例如NavVis扫描仪），用于扫描和/或记录建筑中的空间（房间、走廊），其中扫描设备设立为，基于通过扫描和/或记录获得的数据生成数字点云和/或数字图像记录；

处理装置，该处理装置设立为，基于数字点云和/或图像记录借助人工智能进行对象识别（有利地也进行对象标识），其中处理装置进一步设立为，将数字点云和/或图像记录映射到数字建筑模型（BIM，Building Information Model（建筑信息模型），数字孪生）中；

其中扫描设备包括语音识别设备（例如麦克风），用于采集关于空间中的定义对象的语音输入，其中通过语音输入将属性（例如地点信息、建筑开发信息、制造商信息、产品信息）分配给相应的定义对象，所述属性在生成点云和/或图像记录时被使用。点云和/或数字图像记录被存储在合适的存储介质中。该存储介质可以在扫描设备本身中存在。但是，该存储介质也可以在具有到扫描设备的合适的数据连接（例如无线电连接、IP连接）的云基础设施中实施。有利地，使用与说话者无关的语音识别。有利地，该扫描还包括空间的测量。图像记录例如可以通过相应地合适的数字摄像机以数字图像记录的形式进行。这可以通过单独记录（或单独记录的序列）和/或记录一个或多个视频序列来进行。有利地，该图像记录包括用于识别或标识图像记录上的对象的图像识别。有利地，模式识别和/或模式分类和/或模式分析的算法被用于图像识别。有利地，人工智能的方法也被用于图像识别。

本发明的另一有利设计方案在于，在采集建筑中的定义对象的情况下，由扫描设备（例如通过摄像机）以专用的方式采集相应的定义对象，并且其中可以通过语音输入以专用的方式将属性分配给所述相应的定义对象。通过扫描设备以专用的方式采集定义对象或事先规定的对象（例如火灾探测器、执行器或传感器）例如可以通过为此设立的记录装置来进行（例如通过由安置在扫描设备上的摄像机缩放该对象）。

本发明的另一有利设计方案在于，该装置包括位置确定系统（例如IPS，室内GPS），用于识别建筑中的扫描设备的方位，其中可以根据扫描设备的方位在输出设备（例如移动通信终端设备的显示器或扫描设备上的显示器）上提供定义对象的各个属性。由此扫描设备的操作员不必在已经存在的建筑规划中寻找关于对象的相应信息，因为要注释的信息根据扫描设备的位置来提供。有利地，已配备有注释的对象由操作员确认。由此确保没有对象被忽略。

本发明的另一有利设计方案在于，由用户在相应的定义对象的方位处进行语音输入，其中可以在输出设备（例如移动通信终端设备的显示器或扫描设备上的显示器）上将定义对象的各个属性提供给用户。由此用户可以通过（以合适的音量）读出显示器的信息来将注释添加到相应的对象。有利地，显示器上的信息通过替代源（例如已经存在的建筑规划（例如作为pdf文件））。有利地，由用户在相应的定义对象的扫描地点处进行语音输入。

本发明的另一有利设计方案在于，在识别位于附近的定义对象的情况下，扫描设备（以光学和/或声学方式）为扫描设备的用户输出通知。因此避免对象被遗忘或被忽略。

本发明的另一有利设计方案在于，处理装置被集成在扫描设备中。处理装置是为此设立的具有相应的输入/输出装置、存储器和通信装置的处理器或计算机。

本发明的另一有利设计方案在于，处理装置被集成在云基础设施中。在此情况下，扫描设备利用合适的通信装置（例如无线电、WLAN）与处理装置（例如计算机）连接。有利地，扫描设备和处理装置包括合适的存储装置（例如数据库、闪存）。

附图说明

以下图为例来解释本发明以及本发明的有利的实施方案。在所述图中：

图1示出用于以数字方式采集建筑的空间的第一示例性装置，

图2示出用于以数字方式采集建筑的空间的第二示例性装置，

图3示出用于语音识别设备的示例性装置，

图4示出用于以数字方式采集建筑的空间的方法的示例性流程图。

具体实施方式

所谓的“兴趣点”（POI）可以利用室内查看器来生成。兴趣点（POI）是在室内查看器实例的3D坐标系中定义的具有附加信息的点并且拥有用于位置确定的WGS 84坐标（GPS）。所有的POI具有类型、类型组和位置。POI描述的内容可以从简单的文本扩展到嵌入式iFrames。将用户定义的数据添加到POI对于连接到基于室内查看器的应用来说是有用的。POI大多被分配给3D扫描中的对象，并且所述POI可以事后在室内查看器中由人员用手标识并且借助编辑器来分配。

另一种可能性在于对象的图像识别。对象识别是用于标识图像或视频中的对象的计算机视觉技术。对象识别是深度学习和机器学习算法的重要输出。如果人观看照片或视频，我们可以容易地识别人、对象、场景和视觉细节。目标是教计算机做对人来说自然的事情：理解图像包含什么。3D模型、部件标识、边缘识别和从不同视角分析现象属于用于对象标识的方法。

对象识别在机器人技术、机器视觉、神经网络和AI（人工智能）的聚集点上进行。

通过深度学习的对象识别

深度学习技术已经成为用于对象识别的流行方法。深度学习模型、如卷积神经网络（CNN）被用于自动学习对象的固有特征，以便标识该对象。例如，CNN可以学习识别猫和狗之间的差异，其方式是：所述CNN分析数千的训练图像并学习使猫和狗不同的特征。为了借助深度学习执行对象识别，存在两种方法：

• 从头开始重新训练模型：为了从头开始训练深度网络，收集非常大的、被标记的数据集，并设计网络架构，所述网络架构学习所述功能和创建模型。结果可能令人印象深刻，但是这种方法需要大量的训练数据，而且必须在CNN中设立层和权重。

• 使用预训练的深度学习模型：大多数的深度学习应用使用迁移学习方法，包含对预训练的模型的微调的过程。从现有的网络、诸如AlexNet或GoogLeNet开始，并且输入具有迄今为止未知的类别的新数据。这种方法不太费时而且可以导致更快的结果，因为已经在数千或数百万的图像上训练了该模型。

深度学习提供高度的精确性，但是需要大的数据量，以便做出精确的预测。

用于基于图像的定位的深度学习

通过机器学习的对象识别

机器学习技术对于对象识别来说也是流行的并提供与深度学习不同的方法。机器学习技术的常见示例是：

• 具有SVM机器学习模型的HOG特征提取。

• 具有如SURF和MSER之类的功能的词袋模型。

• 维奥拉-琼斯（Viola-Jones）算法，利用该算法可以识别多个对象，其中包括表面和上身。

机器学习的工作流程

为了利用机器学习的标准方法执行对象识别，从收集图像（或视频）开始并且在每个图像中选择相关功能。这样，例如特征提取算法可以提取边缘特征或角特征，所述边缘特征或角特征可以被用于区分您的数据中的类别。

这些功能被添加到机器学习模型，该机器学习模型将这些功能分为其不同分类，并且然后在分析和分类新对象时使用这些信息。可以使用提供许多组合的多个机器学习算法和特征提取方法，以便创建精确的对象识别模型。将机器学习用于对象识别提供为学习选择特征和分类器的最佳组合的灵活性。可以利用最小的数据量获得精确的结果。用于对象识别的最佳方法的选择取决于您的应用和应被解决的问题。在许多情况下，机器学习可以是有效的技术，特别是在知道图像的哪些特征或特性最佳地适合于区分对象的类别时。

在机器学习和深度学习之间进行选择时应注意的最重要的考虑是，是否拥有性能高的GPU和许多被标记的训练图像。如果对这些问题之一的答案是否，则机器学习也许是最佳选择。通常，深度学习技术在更多图像的情况下更好地起作用，并且图形处理器有助于缩短训练模型所需的时间。

利用MATLAB的对象识别

利用仅仅几行MATLAB®代码就可以创建用于对象识别的机器学习和深度学习模型，而不必是专家。将MATLAB用于对象识别能够实现在较短时间内成功。MATLAB使模型在公司系统、集群、云和嵌入式设备上的提供自动化。

图1示出用于以数字方式采集建筑或建筑部分R1的空间的第一示例性装置。根据图1的用于以数字方式采集建筑的空间R1（例如房间、走廊）的示例性装置包括：

移动扫描设备MG1（例如NavVis扫描仪），用于扫描和/或记录建筑中的空间R1的（例如照片和/或视频记录），其中所述扫描设备MG1设立为，基于通过扫描和/或记录获得的数据生成数字点云PW1和/或数字测图（Abbild）；

处理装置S，该处理装置设立为，基于数字点云PW1和/或数字测图借助人工智能进行对象识别，其中该处理装置S进一步设立为，将数字点云PW1和/或数字测图映射到数字建筑模型BIM（BIM，Building Information Model（建筑信息模型），数字孪生)中；

其特征在于，

所述扫描设备MG1包括语音识别设备SPEV1（例如麦克风），用于采集关于空间R1中的定义对象OB1的语音输入，其中通过语音输入将属性（例如地点信息、建筑开发信息、制造商信息、产品信息）分配给相应的定义对象OB1，所述属性在生成点云PW1和/或数字测图时被使用。点云PW1例如是3D点云。（维基百科中点云的定义“点云或点群（英语point cloud）是向量空间的点的集合，所述集合具有无组织的空间结构（“云”）。点云通过所包含的点来描述，所述点分别通过其空间坐标来采集。具有地理参考的点云包含与地球有关的坐标系中的点。关于所述点，可以附加地采集属性、诸如几何法线、颜色值或测量精度。

扫描设备MG1包括用于扫描空间R1的合适的记录设备AV1（例如摄像机、光雷达（光探测和测距）、激光雷达（激光探测和测距）、激光扫描等）。有利地，该扫描还包括空间RI的测量。有利地，对象标识也与对象识别一起进行，或除了对象识别之外也进行对象标识。

合适的文件格式或图形格式被用于数字测图，例如用于光栅图形（例如.ami、.apx、.bpg）和/或向量图形（例如.ai、.cgm、.dwg、.dwf）。图形格式例如可以是JPG、Exif、IPTC或XMP。有利地，这些图形格式相应地被压缩。

有利地，建筑中的相应空间通过扫描设备MG1（例如NavVis扫描仪）来扫描（测量），并在数字点云中和/或通过数字测图被采集并且有利地被进一步处理（例如映射到BIM中）。

定义对象（例如兴趣点、POI）例如是在空间中预先知道的对象。例如是位于该空间中的库存对象（换言之，定义对象是空间的库存对象）。有利地，预先知道的对象或库存对象在空间的库存目录或库存规划中被列出。用户可以访问库存目录和/或库存规划。有利地，库存目录和/或库存计划被显示在扫描设备的显示器上。

点云存放在合适的存储介质DB（例如数据库、闪存）中。该存储介质可以存在于扫描设备MG1本身的数据处理单元（例如处理器、计算机）中。但是，该存储介质也可以在具有到扫描设备MG1的合适的数据连接KV1（例如无线电连接、IP连接)的云基础设施C中实施。有利地，使用与说话者无关的语音识别SPEV1。

扫描设备也可以是相应地设立的移动通信终端设备MG2（例如智能手机）。移动通信终端设备MG2配备有合适的记录设备AV2（例如摄像机）。由记录设备AV2产生的点云PW2可以经由合适的通信连接KV2（例如无线电连接、IP连接）从扫描设备MG2（例如智能手机、平板电脑）被转发到处理装置S（相应设立的服务器)，以便将数字点云PW2映射到数字建筑模型BIM（BIM，Building Information Model（建筑信息模型），数字孪生）中。

有利地，服务器S和BIM数据库DB在云基础设施C中实现。

扫描设备MG1有利地是由用户P1操作的可行驶的移动设备。扫描设备MG2是由用户P1操作的相应地设立的便携式移动设备（例如智能手机）。对象OB1的语音注释通过相应的扫描设备MG1、MG2的操作员P1或由另一人进行。

该扫描设备也可以是相应地设立的无人机。

有利地，在采集建筑R1中的定义对象OB1的情况下，相应的定义对象OB1由扫描设备MG1、MG2以专用的方式采集。通过由操作员P1进行的语音输入SPEV1将属性（例如类型特征、建筑开发特征、与建筑基础设施的关系）V1以专用的方式分配给相应的定义对象OB1。

根据图1的示例性装置包括位置确定系统IPS（例如室内定位系统；I-Beacons（信标）)，用于识别扫描设备MG1、MG2在建筑R1中的方位，其中根据扫描设备MG1、MG2的方位可以在输出设备（例如扫描设备MG1、MG2的显示器）上提供定义对象OB1的各个属性。

有利地，语音输入由用户P1在相应的定义对象OB1的方位处进行，其中定义对象OB1的各个属性可以在扫描设备MG1、MG2的输出设备上提供给用户P1。因此尤其确保：所有已知的属性都被分配给对象OB1。有利地，这些属性由替代或其他源提供。

有利地，在识别位于附近的定义对象OB1的情况下扫描设备MG1、MG2为扫描设备MG1、MG2的用户P1（以光学和/或声学方式）输出通知。因此确保：在分配属性期间没有定义对象（PoI）OB1被遗忘。

有利地，处理装置被集成在扫描设备中。例如作为嵌入式系统（embedded System）中的处理器。

但是，处理装置S也可以被集成在云基础设施C中。处理装置S例如可以作为可以访问BIM数据库DB的BIM服务器被集成在云基础设施C中。由扫描设备（扫描仪器）MG1、MG2生成的点云PW1、PW2经由合适的通信连接KV1、KV2从扫描设备MG1、MG2被传输到BIM服务器S。通信连接KV1、KV2例如是无线电连接、WLAN（无线局域网）、IP网络连接。

图2示出用于以数字方式采集建筑或建筑部分R2的空间的第二示例性装置。根据图2的用于以数字方式采集建筑的空间R2（例如房间、走廊）的示例性装置包括：

移动扫描设备MG3（例如NavVis扫描仪），用于扫描建筑中的空间R2，其中所述扫描设备MG3设立为，基于通过扫描获得的数据生成数字点云PW3；

处理装置S，该处理装置设立为，基于数字点云PW3借助人工智能进行对象识别，其中处理装置S进一步设立为，将数字点云PW3映射到数字建筑模型BIM（BIM，BuildingInformation Model（建筑信息模型），数字孪生)中，

其特征在于，

所述扫描设备MG3包括语音识别设备SPEV2（例如麦克风），用于采集关于空间R2中的定义对象OB2的语音输入，其中通过语音输入SPRE将属性（例如地点信息、建筑开发信息、制造商信息、产品信息）分配给相应的定义对象OB2，所述属性在生成点云PW3时被使用。点云PW3例如是3D点云。点云PW3经由合适的通信连接KV3（例如无线电）从扫描设备MG3被传输到处理装置S。有利地，传输实时（real-time）地进行。点云PW3可以经由合适的通信连接KV3（例如无线电）从扫描设备MG3被传输到处理装置S，但是也可以通过批量运行、例如以通过操作员P2触发的方式或每天在确定的时刻被传输。处理装置S（例如BIM服务器）可以位于云基础设施C中。

扫描设备MG1包括用于扫描空间R2的合适的记录设备AV3（例如摄像机、光雷达（光探测和测距）、激光雷达（激光探测和测距）、激光扫描等）。有利地，该扫描也包括空间R2的测量。有利地，对象标识也与对象识别一起进行，或除了对象识别之外也进行对象标识。

在根据图2的示例性图示中，属性A由操作员P2通过语音输入SPRE分配给定义对象OB2（例如兴趣点PoI）。在根据图2的示例性图示中，定义对象OB2是火灾探测器。火灾探测器OB2由扫描设备MG3的记录设备AV3（例如通过直接或几乎直接位于火灾探测器OB2下方的摄像机)以专用的方式采集。有利地，摄像机AV3位于对象OB2相对于地面的垂直轴中，或者在记录（或固定）对象OB2的情况下位于围绕垂直轴的2米、尤其1米的范围内。

在扫描房间R2期间，操作员P2通过语音输入SPRE为对象OB2（火灾探测器）分配以下示例性的属性A：烟雾探测器，Sinteso，FDOOT241-9。火灾探测器的记录应通过示例性的摄像机0进行。在生成点云的情况下，这些属性被分配给火灾探测器OB2，并且在数字建筑模型BIM中这些属性也被分配给对象OB2。在建筑扫描时通过音频或语音输入将这些属性A作为附加的元信息分配给对象OB2。

本发明的另一有利的设计方案在于，为了识别语音输入SPRE，使用与说话者无关的语音识别（Siri等；有利地利用经由深度学习和/或机器学习算法的优化）。与说话者无关的语音识别不需要在前的训练阶段。

例如用于语音识别的深度学习方法（例如神经网络）的优点或长处在于对输入数据的表示的隐性学习，这导致最优的结果（基于可用示例的数量）。与浅层方法相比，深度学习方法一般具有非常高数量的参数（数百万到数十亿），这些参数必须在训练过程期间被优化。因此，深度学习方法通常需要明显更大数量的示例，可以从这些示例中学习并且利用神经网络是计算非常密集的。深度学习实际上已为机器学习的相当多数量的应用领域做出了许多贡献，但是尽管其创新能力和明显的实际应用可能性，这种类型的机器学习仍然与相当多的耗费相关联。

为了减少这种耗费并且已经在图像采集期间简化对象识别和分配并严格限制选择，根据本发明已经在扫描期间经由语音输入口头描述要标识的对象（例如烟雾探测器）。

这样，驶近要识别的对象并经由语音输入在该方位处进行描述：例如“摄像机0，烟雾探测器Sinteso FDOOT241-9”。在此情况下，“摄像机0”是在扫描仪中向上定向的摄像机。麦克风启用功能（Push-to-Talk（按键通话）或语音激活）触发用于扫描的语音记录。有利地，尽可能靠近地驶近要识别的对象，具有在某一间距内的可能性，在该间距内基本上可以选择性地（有利地单独地在一次记录中）记录对象。如果要记录的对象位于天花板上（如例如在火灾探测器的情况下通常的那样），记录有利地基本上在对象向下的垂直轴中进行。

因此，对象识别可以“集中”在通过语音识别所描述的对象上并将来自语音识别的描述分派给在摄像机0中识别出的对象。

在此情况下有利地使用“与说话者无关的”语音识别。表征“与说话者无关的”语音识别是如下特征：用户可以在没有在前的训练阶段的情况下立即开始语音识别。然而，词汇量被限制在几千个单词内。但是，这对于建筑中的对象来说完全足够了。

与此同时，当前系统在个人计算机上听写连续文本的情况下达到大约99%的识别率，并且因此对于许多使用领域来说，例如对于科学文本、商业信函或法律文件来说，满足实际的要求。除了词典的大小和灵活性之外，声学记录的质量也起决定性作用。在直接安置在嘴前的麦克风的情况下（例如在耳机或电话的情况下），与在距离更远的房间麦克风的情况下相比达到显著更高的识别精度。因此，有利的是将手推车（扫描仪）与耳机连接。

在语音识别方面的发展非常快速地推进。自2016年以来，语音识别系统尤其被使用在智能手机中。

不再必须训练当前的语音识别系统。在此情况下，对于在日常语音之外的高准确性来说决定性的是系统的可塑性。为了能够满足高要求，专业系统为用户提供通过先写或先说来影响个人结果的可能性。由于建筑中的对象大多根据功能指南和规则来安装，所以也可以进行对象选择的经过滤的分派。这样，例如火灾探测器在办公建筑中大多被装配在天花板上，即可以在摄像机0中最佳地被识别。在灯开关的情况下，例如，尤其在墙上的、例如在过道旁边在1m至1.4m的高度处的区域被分析，所述区域通过侧面的摄像机1或3最佳地被采集。

利用扫描仪的地理参考可以附加地确定用于位置确定的WGS 84坐标（GPS），由此可以在2D/3D规划中注释对象。在2D规划中可以附加地放置相应的符号。

此外，放置规则可以减少错误率或者通知错误放置。这样，例如火灾探测器必须具有与房间界限（墙、窗）的最小间距。

图3示出用于语音识别设备SPEV3的示例性装置。用户的模拟语音AS由预处理单元VVE采集并被变换为相应的参考向量RV。参考向量RV被转发给语音识别单元SPEE的解码器D。解码器D基于声学模型AM、词典WB和语音模型SM创建“单词的列表”，换言之，单词列表WL。

语音识别（Voice Recognition）是语音分析方法，其中具有自动语音识别的基于计算机的系统对所输入的语音信息进行分析、分类和存储。由于自动语音识别包含准确的描述，所以可以减少包含在扫描中的感兴趣对象（训练数据）的复杂学习。这样，该系统可以训练和优化自身，其方式是，所述系统包含用于识别和处理自然说出的语音的软件。

最初，许多尤其新的对象当然必须在云中被训练。但是，这随着扫描次数和语音分配而急剧减少，因为要采集和表征的对象被存储在数据库中（例如在云中），并且因此该系统自动扩大其训练数据，并因此变得越来越好。尤其有利的是，扫描产生关于相同对象的多个训练数据，所述对象被分派给相同语音模式。如果该对象从外部看是相同的（房屋），然而在功能上不同，那么所述功能尤其有帮助。

图4示出用于以数字方式采集建筑的空间（例如房间、走廊）的方法的示例性流程图，

（VS1）其中通过扫描设备（例如NavVis扫描仪）扫描（和/或测量）并在数字点云中采集建筑中的相应空间，

（VS2）其中基于数字点云，借助人工智能进行对象识别（有利地也进行对象标识），

（VS3）其中在进行了对象识别之后，将数字点云映射到数字建筑模型中，

（VS4）其中在采集建筑中的定义对象（例如兴趣点、POI、感兴趣的对象）的情况下，相应的定义对象（例如火灾探测器、执行器或传感器）由扫描设备（例如通过摄像机和/或点云）以专用的方式采集，并且其中通过扫描设备的操作员的语音输入将属性（例如地点信息、建筑开发信息、类型信息、产品信息）分配给相应的定义对象。

因此，在建筑扫描期间，通过操作员的音频输入进行对象利用附加的元信息（例如标签、属性）的丰富。有利地，图像内容的注释由扫描人员通过合适的语音识别进行。有利地，该语音识别是基于机器学习机制的经训练的语音识别。通过扫描设备以专用的方式采集定义对象或事先规定的对象（例如火灾探测器、执行器或传感器）例如可以通过为此设立的记录装置进行（例如通过由安置在扫描设备上的摄像机缩放对象）。有利地，对象识别还包括对象标识。

定义对象（例如兴趣点，POI）例如是在空间中预先知道的对象。例如是位于空间中的库存对象（换言之，定义对象是空间的库存对象）。有利地，预先知道的对象或库存对象在用于空间的库存目录或库存规划中被列出。用户可以访问库存目录和/或库存规划。有利地，库存目录和/或库存计划被显示在扫描设备的显示器上。

有利地，建筑中的相应空间通过扫描设备（例如NavVis扫描仪）来扫描（测量），并在数字点云中和/或通过图像识别（图像识别例如可以通过数字摄像机进行）被采集并且有利地被进一步处理（例如映射到BIM中）。

有利地，在建筑中的相应的定义对象的扫描地点处进行语音输入。

有利地，由用户在相应的定义对象的扫描地点处进行语音输入，其中在输出设备上将定义对象的各个属性提供给用户。

有利地，根据扫描设备的方位，在输出设备（例如显示器）上提供定义对象的各个属性。

有利地，针对定义对象的对象识别，使用通过语音输入分配给相应的定义对象的属性。

有利地，针对语音输入的识别，使用与说话者无关的语音识别。

有利地，在识别位于附近的定义对象的情况下，扫描设备（以光学和/或声学方式）为扫描设备的用户输出通知。该通知通过扫描设备上的相应的输出装置、例如扬声器、显示器输出。

根据本发明的用于以数字方式采集建筑的空间（例如房间、走廊）的方法可以通过相应地设立的扫描设备来实现。

如果在扫描中识别出定义对象，则所述对象可以在室内查看器中在所识别的位置处自动地被注释。对象的位置可以在数字建筑模型（BIM，数字孪生）中被参考。为此可以使用WGS84位置或房间位置（墙、天花板、地面的距离）。这里，扫描提供非常精确的测量结果。即360°图像不仅仅是数字图像。这些图像中的像素通过激光扫描（点云）被丰富，这能够实现与所扫描的区域进行交互，就像在现场一样，包括精确的点对点测量在内。

点云已被证明为用于解决计算机视觉的基本问题的室内场景的非常有用的呈现。其利用彩色图像的优点，该彩色图像提供关于对象的外观的信息，但是也利用深度图像，该深度图像不受颜色、照明、旋转角度和缩放的波动影响。

现今，自动对象识别非常先进，这保证可靠的使用。因为自动对象识别除了其他信息外也包含对象描述，所以明确的标识和分派是可能的。在例如利用NavVis M6手推车扫描的情况下，因此可以将相应的语音注释（例如关于相应的对象的属性或元数据）分派给扫描中的每个单独的对象。

所存放的规则可以在此情况下提高对象识别的质量。尤其，如果根据定位规则应该存在一个对象（例如火灾探测器），但是在扫描区域中没有识别出该对象，则可以输出通知。

有利地，通过自动语音识别明确地标识的对象作为训练数据被存储在数据库中，该数据库有利地被相应的深度学习方法连续使用。

为了提供所谓的“数字孪生”（数字建筑模型），根据本发明的方法提供有效的数据采集。用于机器学习或深度学习的训练数据“在扫描工作中”产生。这意味着成本节约、质量改进和此外时间/扫描优化。

用于以数字方式采集建筑的空间的方法和装置，其中建筑中的相应的空间通过扫描设备来扫描并在数字点云中被采集，其中基于数字点云借助人工智能进行对象识别，其中在进行了对象识别之后，将数字点云映射到数字建筑模型中，其中在采集建筑中的定义对象的情况下，相应的定义对象由扫描设备以专用的方式采集，并且其中属性通过语音输入和/或语音消息分配给相应的定义对象。

附图标记

C 云

BIM 建筑模型

S 服务器

R1，R2 房间

KV1-KV3 通信连接

P1，P2 用户

AV1-AV3 记录设备

PW1-PW3 点云

MG1-MG3 扫描设备

OB1，OB2 对象

IPS 位置确定系统

SPRE 语音输入

A 属性

SPEV1-SPEV3 语音识别设备

W E 预处理单元

SPEE 语音识别单元

D 解码器

AS 模拟语音

RV 参考向量

AM 声学模型

WB 词典

SM 语音模型

WL 词汇列表

VS1-VS4 方法步骤

Claims

1.一种用于以数字方式采集建筑的空间（R1，R2）的方法，

（VS1）其中所述建筑中的相应的空间（R1，R2）通过扫描设备（MG1-MG3）来扫描并在数字点云（PW1-PW3）中和/或通过图像记录来采集，

（VS2）其中基于所述数字点云（PW1-PW3）和/或所述图像记录借助人工智能进行对象识别，

（VS3）其中在进行了对象识别之后将所述数字点云（PW1-PW3）和/或所述图像记录映射到数字建筑模型（BIM）中，

其特征在于，

（VS4）在采集所述建筑中的定义对象（OB1，OB2）的情况下，相应的定义对象（OB1，OB2）由所述扫描设备（MG1-MG3）以专用的方式采集，并且其中通过语音输入（SPRE）将属性（A）分配给所述相应的定义对象（OB1，OB2）。

2.根据权利要求1所述的方法，其中在所述建筑中的所述相应的定义对象（OB1，OB2）的扫描地点处进行所述语音输入（SPRE）。

3.根据上述权利要求中任一项所述的方法，其中由用户在所述相应的定义对象（OB1，OB2）的扫描地点处进行所述语音输入（SPRE），其中在输出设备上将定义对象（OB1，OB2）的各个属性提供给用户（P1，P2）。

4.根据权利要求3所述的方法，其中根据所述扫描设备（MG1-MG3）的方位在所述输出设备上提供定义对象（OB1，OB2）的各个属性（A）。

5.根据上述权利要求中任一项所述的方法，其中针对定义对象（OB1，OB2）的对象识别，使用通过所述语音输入（SPRE）分配给所述相应的定义对象（OB1，OB2）的属性（A）。

6.根据上述权利要求中任一项所述的方法，其中针对所述语音输入（SPRE）的识别，使用与说话者无关的语音识别。

7.根据上述权利要求中任一项所述的方法，其中在识别位于附近的定义对象（OB1，OB2）的情况下，所述扫描设备（MG1-MG3）为所述扫描装置（MG1-MG3）的用户（P1，P2）输出通知。

8.一种用于执行根据权利要求1至7中任一项所述的方法的扫描设备（MG1-MG3）。

9.一种用于以数字方式采集建筑的空间（R1，R2）的装置，所述装置包括：

用于扫描和/或记录所述建筑中的空间（R1，R2）的扫描设备（MG1-MG3），其中所述扫描设备（MG1-MG3）设立为，基于通过所述扫描和/或通过所述记录所获得的数据生成数字点云（PW1-PW3）和/或数字图像记录；

处理装置（S），所述处理装置设立为，基于所述数字点云（PW1-PW3）和/或所述数字图像记录，借助人工智能进行对象识别，其中所述处理装置（S）进一步设立为，将所述数字点云（PW1-PW3）和/或所述图像记录映射到数字建筑模型（BIM）中；

其特征在于，

所述扫描设备（MG1-MG3）包括语音识别设备（SPEV1-SPEV3），用于采集关于所述空间（R1，R2）中的定义对象（OB1，OB2）的语音输入，其中通过语音输入（SPRE）将属性（A）分配给相应的定义对象（OB1，OB2），所述属性在生成所述点云（PW1-PW3）和/或所述图像记录时被使用。

10.根据权利要求9所述的装置，其中在采集所述建筑中的定义对象的情况下，所述相应的定义对象（OB1，OB2）由所述扫描设备（MG1-MG3）以专用的方式采集，并且其中能够通过语音输入（SPRE）以专用的方式将属性（A）分配给所述相应的定义对象（OB1，OB2）。

11.根据权利要求9或10所述的装置，进一步包括位置确定系统（IPS），用于识别所述扫描设备（MG1-MG3）在所述建筑中的方位，其中能够根据所述扫描设备（MG1-MG3）的方位在所述输出设备上提供定义对象（OB1，OB2）的各个属性。

12.根据权利要求9至11中任一项所述的装置，其中由用户（P1，P2）在所述相应的定义对象（OB1，OB2）的方位处进行所述语音输入，其中能够在输出设备上将定义对象（OB1，OB2）的各个属性（A）提供给所述用户（P1，P2）。

13.根据权利要求9至12中任一项所述的装置，其中在识别位于附近的定义对象（OB1，OB2）的情况下，所述扫描设备（MG1-MG3）为所述扫描设备（MG1-MG3）的用户（P1，P2）输出通知。

14.根据权利要求9至13中任一项所述的装置，其中所述处理装置（S）集成在所述扫描设备（MG1-MG3）中。

15.根据权利要求9至14中任一项所述的装置，其中所述处理装置（S）集成在云基础设施（C）中。