CN114742995B

CN114742995B - 一种基于数字孪生建筑和异质特征融合的室内定位方法

Info

Publication number: CN114742995B
Application number: CN202210516739.2A
Authority: CN
Inventors: 周小平; 王佳; 陈丹燕; 陆一昕; 任远; 宋有利
Original assignee: Bim Winner Shanghai Technology Co ltd; Foshan Yingjia Smart Space Technology Co ltd; Jiaxing Wuzhen Yingjia Qianzhen Technology Co ltd; Shandong Jiaying Internet Technology Co ltd; Shenzhen Bim Winner Technology Co ltd; Shenzhen Qianhai Yingjia Data Service Co ltd; Yingjia Internet Beijing Smart Technology Co ltd; Bim Winner Beijing Technology Co ltd
Current assignee: Qingdao Saab Weitong Technology Co ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-09-20
Anticipated expiration: 2042-05-13
Also published as: CN114742995A

Abstract

本申请提供了一种基于数字孪生建筑和异质特征融合的室内定位方法，涉及室内视觉定位技术领域，包括根据目标室内图像中的每个实体的视觉特征，生成目标室内图像的图像特征；根据目标室内图像中的每个实体的位置特征、视觉特征和语义特征以及目标室内图像的融合语义图，生成目标室内图像的语义图特征；根据目标室内图像的图像特征和语义图特征，融合生成目标室内图像的第一融合特征；根据第一融合特征，确定出当前建筑物对应的数据库中满足匹配条件的目标第二融合特征，以输出目标第二融合特征对应的视觉定位信息作为目标室内图像的视觉定位信息，以在弱视觉特征下更稳定的确定出室内图像的视觉定位信息。

Description

一种基于数字孪生建筑和异质特征融合的室内定位方法

技术领域

本申请涉及室内视觉定位技术领域，具体而言，涉及一种基于数字孪生建筑和异质特征融合的室内定位方法。

背景技术

现有技术中，室内视觉定位的方法主要有三维模型和图像检索两种。其中，基于图像检索的室内视觉定位方法的性能主要取决于图像检索算法和匹配数据库。图像特征表达是基于图像检索室内视觉定位的核心关键。现有基于图像检索的室内视觉定位方法大多采用图像的视觉特征。但仅采用图像视觉特征很难适用于弱视觉特征下的室内视觉定位。因此需要一种稳定性更高的室内视觉定位方法。

发明内容

有鉴于此，本申请的目的在于提供一种基于数字孪生建筑和异质特征融合的室内定位方法，以在弱视觉特征下更稳定的确定出室内图像的视觉定位信息。

第一方面，本申请实施例提供一种基于数字孪生建筑和异质特征融合的室内定位方法，方法包括：针对当前建筑物的目标室内图像中的每个实体，根据该实体的实体识别区域，生成该实体的位置特征，根据该实体的实体语义标签生成该实体的语义特征，以及根据目标室内图像和该实体的实体识别区域，生成该实体的视觉特征；根据目标室内图像中的每个实体的视觉特征，生成目标室内图像的图像特征；根据目标室内图像中的每个实体的位置特征、视觉特征和语义特征以及目标室内图像的融合语义图，生成目标室内图像的语义图特征；根据目标室内图像的图像特征和语义图特征，融合生成目标室内图像的第一融合特征；根据第一融合特征，确定出当前建筑物对应的数据库中满足匹配条件的目标第二融合特征，以输出目标第二融合特征对应的视觉定位信息作为目标室内图像的视觉定位信息，其中，数据库包括多个匹配数据对，每个匹配数据对包括当前建筑物的多个室内图像的第二融合特征和该第二融合特征对应的视觉定位信息。

优选地，当前建筑物内设置有多个图像采集设备，通过以下方式获取当前建筑物的目标室内图像：获取目标图像采集设备所采集的室内图像；将室内图像输入实体检测模型，以获得实体检测模型的主干网络输出的实体检测特征；将室内图像的实体检测特征输入注意力机制网络，以输出室内图像的语义增强特征；根据室内图像的实体检测特征和语义增强特征融合生成的增强检测特征，识别室内图像中的所有实体，并在室内图像中标记出每个实体的实体识别区域以及对应的实体语义标签。

优选地，通过以下方式生成目标室内图像中每个实体的位置特征和语义特征：根据该实体的实体识别区域，确定出用于指示该实体的大小的顶点坐标；将所述顶点坐标输入注意力机制网络，以输出该实体的位置特征；以及将该实体的实体语义标签所指示的该实体的语义输入预设词向量模型，以输出该实体的语义特征。

优选地，通过以下方式生成目标室内图像中每个实体的视觉特征：将目标室内图像依次输入ResNet的骨干网络，以输出目标室内图像的视觉特征；确定出目标室内图像的视觉特征中，与该实体的实体识别区域的位置所对应的视觉特征，以作为该实体的视觉特征。

优选地，根据目标室内图像中每个实体的视觉特征，生成目标室内图像的图像特征的步骤，具体包括：将目标室内图像的视觉特征输入ResNet的头部网络，以输出目标室内图像的图像特征。

优选地，融合语义图至少包括目标室内图像中的实体与实体之间的关系，根据目标室内图像中的每个实体的位置特征、视觉特征和语义特征以及融合语义图，生成目标室内图像的语义图特征的步骤，具体包括：确定目标室内图像中的实体与实体之间的关系的关系类型；针对每个关系类型，根据融合语义图，提取该关系类型对应的融合语义子图，根据融合语义子图的实体和边，生成该融合语义子图对应的邻接矩阵；针对每个关系类型，将该关系类型对应的融合语义子图的邻接矩阵和该关系类型对应的实体的位置特征、视觉特征和语义特征，输入该关系类型对应的图卷积神经网络，以输出每个关系类型对应的第一语义图子特征；将所有实体关系类型对应的第一语义图子特征输入第一全连接层，以输出目标室内图像的语义图特征。

优选地，根据目标室内图像的图像特征和语义图特征，融合生成目标室内图像的第一融合特征的步骤，具体包括：将目标室内图像的语义图特征和图像特征输入第二全连接层，以输出目标室内图像的第一融合特征。

优选地，还包括：若数据库中没有满足匹配条件的目标第二融合特征，则获取目标室内图像的视觉定位信息；根据目标室内图像的视觉定位信息和第一融合特征生成匹配数据对，并更新至数据库中。

第二方面，本申请实施例还提供一种基于数字孪生建筑和异质特征融合的室内定位方法装置，包括：

第一提取模块，用于针对当前建筑物的目标室内图像中的每个实体，根据该实体的实体识别区域，生成该实体的位置特征，根据该实体的实体语义标签生成该实体的语义特征，以及根据目标室内图像和该实体的实体识别区域，生成该实体的视觉特征；

第二提取模块，用于根据目标室内图像中的每个实体的视觉特征，生成目标室内图像的图像特征；

第一融合模块，用于根据目标室内图像中的每个实体的位置特征、视觉特征和语义特征以及融合语义图，生成目标室内图像的语义图特征；

第二融合模块，用于根据目标室内图像的图像特征和语义图特征，融合生成目标室内图像的第一融合特征；

匹配模块，用于根据第一融合特征，确定出当前建筑物对应的数据库中满足匹配条件的目标第二融合特征，以输出目标第二融合特征对应的视觉定位信息作为目标室内图像的视觉定位信息，其中，数据库包括多个匹配数据对，每个匹配数据对包括当前建筑物的多个室内图像的第二融合特征和该第二融合特征对应的视觉定位信息。

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，存储器存储有处理器可执行的机器可读指令，当电子设备运行时，处理器与存储器之间通过总线通信，处理器执行机器可读指令，以执行如上视觉定位方法的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时执行如上视觉定位方法的步骤。

本申请实施例提供的一种基于数字孪生建筑和异质特征融合的室内定位方法，针对当前建筑物的目标室内图像中的每个实体，根据该实体的实体识别区域，生成该实体的位置特征，根据该实体的实体语义标签生成该实体的语义特征，以及根据目标室内图像和该实体的实体识别区域，生成该实体的视觉特征；根据目标室内图像中的每个实体的视觉特征，生成目标室内图像的图像特征；根据目标室内图像中的每个实体的位置特征、视觉特征和语义特征以及融合语义图，生成目标室内图像的语义图特征；根据目标室内图像的图像特征和语义图特征，融合生成目标室内图像的第一融合特征；根据所述第一融合特征，确定出当前建筑物对应的数据库中满足匹配条件的目标第二融合特征，以输出目标第二融合特征对应的视觉定位信息作为所述目标室内图像的视觉定位信息，其中，数据库包括多个匹配数据对，每个匹配数据对包括当前建筑物的多个室内图像的第二融合特征和该第二融合特征对应的视觉定位信息，通过目标室内图像提取的图像特征和语义图特征融合生成第一融合特征，并基于融合特征进行室内视觉定位匹配，即使在弱视觉特征的场景下，也能稳定的输出目标室内图像的视觉定位信息。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种基于数字孪生建筑和异质特征融合的室内定位方法的流程图；

图2为本申请实施例所提供的一种生成语义图特征的步骤的流程图；

图3为本申请实施例所提供的一种获取目标室内图像的步骤的流程图；

图4为本申请实施例所提供的一种基于数字孪生建筑和异质特征融合的室内定位装置的结构示意图；

图5为本申请实施例所提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中的附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例，都属于本申请保护的范围。

这里的弱视觉特征可以指代以下几种室内场景所采集的图像的特征：体积小的实体占据图像中大部分区域、图像的纹理少、图像中结构高度对称、图像中光线变化大、图像中人或可移动物体较多。

建筑数字孪生模型数据可由实体及实体间关系组成，即M（建筑语义图） = (E, R,T, C)，其中E为建筑数字孪生模型M中的实体集合，R为实体关系集合, T为实体类型集合，C为实体关系类型集合。对于M中的任一实体

，其包括该实体可用于视觉定位的属性特征。对于任意两个实体

和

，其可能存在多种不同类型的关系，这里通过

表示

和

所有关系的集合。对于任一实体关系

，其可描述为：

,

，其含义为

以关系

依赖于

。因此，可用

描述

以关系

依赖的所有实体。实体

的类型可以用

或者

进行描述。

针对上述问题，本申请实施例提供了一种基于数字孪生建筑和异质特征融合的室内定位方法，下面通过实施例进行描述。

为便于对本申请进行理解，下面结合具体实施例对本申请提供的技术方案进行详细说明。

请参阅图1，为本申请实施例提供的一种基于数字孪生建筑和异质特征融合的室内定位方法的流程图，该方法包括：

S101、针对当前建筑物的目标室内图像中的每个实体，根据该实体的实体识别区域，生成该实体的位置特征，根据该实体的实体语义标签生成该实体的语义特征，以及根据目标室内图像和该实体的实体识别区域，生成该实体的视觉特征。

这里的目标室内图像是对室内图像进行实体检测后获得的，其中可以通过识别框标记出每个实体的实体识别区域，以及在识别框上标记出每个实体对应的实体语义标签。

具体的，通过以下方式生成目标室内图像中每个实体的位置特征和语义特征：

根据该实体的实体识别区域，确定出用于指示该实体的大小的顶点坐标，将所述顶点坐标输入注意力机制网络，以输出该实体的位置特征。

针对目标室内图像中的每个实体，这里的顶点坐标可以为每个实体的识别区域的左下角坐标

和右上角坐标

。这里采用注意力机制，将每个坐标点嵌入到64维向量，即

。最终，实体

的位置特征向量

可以表示为：

以及将该实体的实体语义标签所指示的该实体的语义输入预设词向量模型，以输出该实体的语义特征。

这里的实体语义标签用于指示每个实体的语义，例如桌子、电视、窗户等。这里可以采用常规的词向量模型，如word2vec、GloVe、BERT等。将实体

的语义标签转化为300维的语义特征向量

。

具体的，通过以下方式生成目标室内图像中每个实体的视觉特征：

将目标室内图像依次输入ResNet的骨干网络，以输出目标室内图像的视觉特征。确定出目标室内图像的视觉特征中，与该实体的实体识别区域的位置所对应的视觉特征，以作为该实体的视觉特征。

目标室内图像中图实体

的视觉特征向量表示为

。这里将ResNet-50模型分解为ResNet骨干网络（ResNet-50-C4，1-4阶段）和ResNet头部网络（去掉最后全连接层的第5阶段网络）。因此，ResNet骨干网将输出14×14×1024维的卷积特征。将目标室内图像输入ResNet的骨干网络，基于输出的卷积特征采用Mask RCNN中的ROI对齐的方法从卷积特征中提取

位置区域对应的2048维特征向量，以形成

。

S102、根据目标室内图像中的每个实体的视觉特征，生成目标室内图像的图像特征。

具体的，将目标室内图像的视觉特征输入ResNet的头部网络，以输出目标室内图像的图像特征。

这里的ResNet头部网络连接在ResNet骨干网络后，输出2048维的特征即为目标室内图像的图像特征。

S103、根据目标室内图像中的每个实体的位置特征、视觉特征和语义特征以及目标室内图像的融合语义图，生成目标室内图像的语义图特征。

图2为本申请实施例提供的一种生成语义图特征的步骤的流程图。具体的，融合语义图至少包括目标室内图像中的实体与实体之间的关系，根据目标室内图像中的每个实体的位置特征、视觉特征和语义特征以及融合语义图，生成目标室内图像的语义图特征的步骤，具体包括：

S1030、确定目标室内图像中的实体与实体之间的关系的关系类型。

需要说明的是，这里采用建筑语义图增强的定位语义图机器学习模型，生成其场景图

。其中

和

分别表示场景图中的实体及实体间关系集合。在不考虑语义图的情况下，任一实体

i都可以由其位置特征向量、视觉特征向量和语义特征向量综合表示为：

。

S1032、针对每个关系类型，根据融合语义图，提取该关系类型对应的融合语义子图，根据融合语义子图的实体和边，生成该融合语义子图对应的邻接矩阵。

这里采用图学习的方法，通过语义图建立基于扩散机制的图像异质特征融合图学习模型。由于实体与实体之间的不同类型的关系对室内视觉定位的作用不同，这里设计一种定位语义图驱动的多路径信息扩散图学习机制。

对于不同类型的关系

，根据该关系类型对应的融合语义图分别建立其邻接矩阵A _k，其中，融合语义图的邻接矩阵可以表示为

。

S1034、针对每个关系类型，将该关系类型对应的融合语义子图的邻接矩阵和该关系类型对应的实体的位置特征、视觉特征和语义特征，输入该关系类型对应的图卷积神经网络，以输出每个关系类型对应的第一语义图子特征。

这里每条路径上包括三层图卷积神经子网络，每层图卷积神经子网络的信息扩散函数可以表示为

其中，

为

按行归一化后的矩阵，

为第i层特征矩阵，

为第i层图卷积神经网络参数。最终，每条卷积路径将输出一个256×8维的特征矩阵。

S1036、将所有实体关系类型对应的第一语义图子特征输入第一全连接层，以输出目标室内图像的语义图特征。

这里将每条卷积路径输出的特征矩阵分别展开，并输入设计好的第一全连接层，以输出2048维的目标室内图像的语义图特征向量。

S104、根据目标室内图像的图像特征和语义图特征，融合生成目标室内图像的第一融合特征。

具体的，将目标室内图像的语义图特征和图像特征输入第二全连接层，以输出目标室内图像的第一融合特征。

这里的第二全连接层包括fc（fully connected layers）-2048全连接层和fc-1024全连接层。这里将2048维的目标室内图像的语义图特征向量和2048维的目标室内图像的图像特征同时输入到fc-2048全连接层，再将fc-2048全连接层的输出结果输入到fc-1024全连接层，以输出第一融合特征。这里输出的融合特征向量综合考虑了图像中实体位置、视觉、语义和语义图特征，更有助于稳定、准确的室内视觉定位。

S105、根据第一融合特征，确定出当前建筑物对应的数据库中满足匹配条件的目标第二融合特征，以输出目标第二融合特征对应的视觉定位信息作为目标室内图像的视觉定位信息，其中，数据库包括多个匹配数据对，每个匹配数据对包括当前建筑物的多个室内图像的第二融合特征和该第二融合特征对应的视觉定位信息。

这里的数据库中包括多个匹配数据对。这里的匹配数据对是根据当前建筑物中预设的采集点所采集的图像生成的。这里可以通过渲染建筑数字孪生模型建立用于室内视觉定位的数据库。具体地，可以采用BIM混合室内地图模型生成视觉定位匹配数据库。需要说明的是，待定位位置通常为可通行区域，因此在设计采集点位置时，可以忽略不可通行区域的空间位置的设计。另一方面，混合地图模型中拓扑路网的节点往往为室内空间中的关键位置，例如门、楼道拐弯处等。因此，拓扑路网中的节点都可以作为建立数据库的采集点。对于其他可通行网格，本项目拟以一定概率η随机选取其为数据库的采集点。若采集点p处所采集图像的三方向角分别为α，β和γ，则该室内图像的采集位置记为I(p, α, β, γ)（即视觉定位信息）。对于每个采集点p，改变Δα，Δβ和Δγ旋转三方向的采集角度并采集样本室内图像。对于采集到的样本室内图像，可以通过步骤S101至S104同样的方法，提取出样本室内图像的第二融合特征，最后生成 “第二融合特征−采集位置”匹配数据库。

具体的，可以计算目标室内图像的第一融合特征和数据库中每个第二融合特征的相似度，确定出最大相似度对应的第二融合特征，并确定该最大相似度是否大于相似度阈值，若大于相似度阈值，则确定该第二融合特征满足匹配条件，则可以确定该第二融合特征对应的视觉定位信息为目标室内图像的视觉定位信息并输出。

具体的，若数据库中没有满足匹配条件的目标第二融合特征，则获取目标室内图像的视觉定位信息，根据目标室内图像的视觉定位信息和第一融合特征生成匹配数据对，并更新至数据库中。

若在预设好的数据库中没有匹配到满足匹配条件的目标第二融合特征，则会输出匹配失败的信息。此时，后台人员可以人工获取目标室内图像的视觉定位信息，并根据目标室内图像的第一融合特征和视觉定位信息生成匹配数据对，并更新至当前建筑物的数据库中。通过及时更新数据库中的匹配数据对，提高了室内定位方法的准确性。

本申请实施例提供的基于数字孪生建筑和异质特征融合的室内定位方法，通过目标室内图像提取的图像特征和语义图特征融合生成第一融合特征，并基于融合特征在当前建筑物预设好的数据库中匹配，以确定目标室内图像的视觉定位信息，与现有技术中仅根据图像特征进行定位的方式相比，即使在弱视觉特征的场景下，也能稳定的输出目标室内图像的视觉定位信息。

图3为本申请实施例提供的一种获取目标室内图像的步骤的流程图。在本申请的一个实施例中，在步骤S101之前，需要获取目标室内图像。具体的，当前建筑物内设置有多个图像采集设备，通过以下步骤获取当前建筑物的目标室内图像：

S201、获取目标图像采集设备所采集的室内图像。

这里的建筑物中可以设置有多个图像采集设备，图像采集设备用于采集建筑物的室内图像，图像采集设备可以设置在预先设定好的采集点上。这里的图像采集设备所采集的可以是视频也可以是图像，当图像采集设备采集的是视频时，视频中某一帧的图像则可以作为室内图像。用户可以根据具体的需要确定出需要定位的室内图像。

S202、将室内图像输入实体检测模型，以获得实体检测模型的主干网络输出的实体检测特征。

这里的实体检测模型可以是现有的实体检测模型，如Faster 、RCNN等。将室内图像输入实体检测模型，并提取实体检测模型的主干网络所输出的实体检测特征F _B∈R^WxH×D。其中D、W、H分别为图像的长、宽、高。

S203、将室内图像的实体检测特征输入注意力机制网络，以输出室内图像的语义增强特征。

具体的，将实体检测特征输入第一卷积层降低特征大小，再输入一个按通道维度池化的池化层，再将结果输入第三全连接层，最后与softmax函数结合，即可得到注意力机制系数。该注意力机制系数的表达式为：

，

通过将室内图像输入该注意力机制系数对应的注意力机制网络，可以输出室内图的语义增强特征。其中，

为第一卷积层输出的特征，

为第三全连接层的权重，T指示实体类型。

S204、根据室内图像的实体检测特征和语义增强特征融合生成的增强检测特征，识别室内图像中的所有实体，并在室内图像中标记出每个实体的实体识别区域以及对应的实体语义标签。

在本申请的一个实施例中，步骤S103之前，还包括获取目标室内图像的融合语义图。这里提供一种建筑语义图增强的定位语义图机器学习模型，用于提取室内图像的融合语义图。

这里的建筑语义图M包含了实际建筑中可用于室内视觉定位的完整信息，是待定位现场图像定位语义图生成的重要依据，可有效校正大多数误检的室内实体语义关系。基于该基本假设，这里通过在现有图像场景语义图生成方法的基础上，融入建筑语义图M，建立可用于室内视觉定位的、可靠的融合语义图的生成方法。

通过一组样本图像I及其对应的语义图G，在现有的图像场景语义图生成模型中融入 “建筑语义图增强的图像实体检测模型”，以建立图像场景语义图生成模型f _P(I)：

,

其中，

为场景语义图S生成图像I的概率。此时，基于建筑语义图M，则图像场景语义图生成模型

可以表示为

其中，

为M中语义子图S存在的概率。

这里的图像场景语义图

融入了源于M的后验信息，能够得到更准确的图像场景语义图。然而，

往往低估了语义图中的长尾分布，导致无法预测不太常见的实体关系。因此，这里进一步建立

和

的融合模型

，以生成更稳定的定位语义图

。

具体地，首先从f _P(I)和f _B(I)的骨干网络得到任一检测到实体i的特征向量，分别表示为

和

。而后，分别计算其置信度q分别为

实体i融合后的特征向量为：

对

进行softmax计算，求解融合后i的类别，从而生成融合语义图S_F。

在本申请的一个实施例中，提供一种定位语义图驱动的视觉−语义−语义图图像异质特征融合图学习模型，用于执行步骤S101~步骤S104的融合特征的提取的步骤。

基于同一发明构思，本申请实施例中还提供了与基于数字孪生建筑和异质特征融合的室内定位方法对应的基于数字孪生建筑和异质特征融合的室内定位装置，由于本申请实施例中的室内视觉定位装置解决问题的原理与本申请实施例上述基于数字孪生建筑和异质特征融合的室内定位方法相似，因此室内视觉定位装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图4，图4为本申请实施例所提供的一种基于数字孪生建筑和异质特征融合的室内定位装置的结构示意图。如图4中所示，室内视觉定位装置600包括：

第一提取模块610，用于针对当前建筑物的目标室内图像中的每个实体，根据该实体的实体识别区域，生成该实体的位置特征，根据该实体的实体语义标签生成该实体的语义特征，以及根据目标室内图像和该实体的实体识别区域，生成该实体的视觉特征；

第二提取模块620，用于根据目标室内图像中的每个实体的视觉特征，生成目标室内图像的图像特征；

第一融合模块630，用于根据目标室内图像中的每个实体的位置特征、视觉特征和语义特征以及融合语义图，生成目标室内图像的语义图特征；

第二融合模块640，用于根据目标室内图像的图像特征和语义图特征，融合生成目标室内图像的第一融合特征；

匹配模块650，用于根据第一融合特征，确定出当前建筑物对应的数据库中满足匹配条件的目标第二融合特征，以输出目标第二融合特征对应的视觉定位信息作为目标室内图像的视觉定位信息，其中，数据库包括多个匹配数据对，每个匹配数据对包括当前建筑物的多个室内图像的第二融合特征和该第二融合特征对应的视觉定位信息。

在一优选实施例中，当前建筑物内设置有多个图像采集设备，还包括识别模块（图中未示出），用于通过以下方式获取当前建筑物的目标室内图像：获取目标图像采集设备所采集的室内图像；将室内图像输入实体检测模型，以获得实体检测模型的主干网络输出的实体检测特征；将室内图像的实体检测特征输入注意力机制网络，以输出室内图像的语义增强特征；根据室内图像的实体检测特征和语义增强特征融合生成的增强检测特征，识别室内图像中的所有实体，并在室内图像中标记出每个实体的实体识别区域以及对应的实体语义标签。

在一优选实施例中，第一提取模块610具体用于通过以下方式生成目标室内图像中每个实体的位置特征和语义特征：根据该实体的实体识别区域，确定出用于指示该实体的大小的顶点坐标；将所述顶点坐标输入注意力机制网络，以输出该实体的位置特征；以及将该实体的实体语义标签所指示的该实体的语义输入预设词向量模型，以输出该实体的语义特征。

在一优选实施例中，第一提取模块610，具体用于通过以下方式生成目标室内图像中每个实体的视觉特征：将目标室内图像依次输入ResNet的骨干网络，以输出目标室内图像的视觉特征；确定出目标室内图像的视觉特征中，与该实体的实体识别区域的位置所对应的视觉特征，以作为该实体的视觉特征。

在一优选实施例中，第二提取模块620具体用于将目标室内图像的视觉特征输入ResNet的头部网络，以输出目标室内图像的图像特征。

在一优选实施例中，融合语义图至少包括目标室内图像中的实体与实体之间的关系，第一融合模块630具体用于确定目标室内图像中的实体与实体之间的关系的关系类型；针对每个关系类型，根据融合语义图，提取该关系类型对应的融合语义子图，根据融合语义子图的实体和边，生成该融合语义子图对应的邻接矩阵；针对每个关系类型，将该关系类型对应的融合语义子图的邻接矩阵和该关系类型对应的实体的位置特征、视觉特征和语义特征，输入该关系类型对应的图卷积神经网络，以输出每个关系类型对应的第一语义图子特征；将所有实体关系类型对应的第一语义图子特征输入第一全连接层，以输出目标室内图像的语义图特征。

在一优选实施例中，第二融合模块640具体用于将目标室内图像的语义图特征和图像特征输入第二全连接层，以输出目标室内图像的第一融合特征。

在一优选实施例中，还包括更新模块（图中未示出），具体用于若数据库中没有满足匹配条件的目标第二融合特征，则获取目标室内图像的视觉定位信息；根据目标室内图像的视觉定位信息和第一融合特征生成匹配数据对，并更新至数据库中。

请参阅图5，图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示，电子设备700包括处理器710、存储器720和总线730。

存储器720存储有处理器710可执行的机器可读指令，当电子设备700运行时，处理器710与存储器720之间通过总线730通信，机器可读指令被处理器710执行时，可以执行如上述基于数字孪生建筑和异质特征融合的室内定位方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述基于数字孪生建筑和异质特征融合的室内定位方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于数字孪生建筑和异质特征融合的室内定位方法，其特征在于，所述方法包括：

针对当前建筑物的目标室内图像中的每个实体，根据该实体的实体识别区域，生成该实体的位置特征，根据该实体的实体语义标签生成该实体的语义特征，以及将目标室内图像输入ResNet的骨干网络，以输出目标室内图像的视觉特征，确定出目标室内图像的视觉特征中，与该实体的实体识别区域的位置所对应的视觉特征，作为该实体的视觉特征；

将目标室内图像的视觉特征输入ResNet的头部网络，以输出目标室内图像的图像特征；

根据目标室内图像中的每个实体的位置特征、视觉特征和语义特征以及目标室内图像的融合语义图，生成目标室内图像的语义图特征；

将所述目标室内图像的语义图特征和图像特征输入第二全连接层，以输出所述目标室内图像的第一融合特征；

根据所述第一融合特征，确定出当前建筑物对应的数据库中满足匹配条件的目标第二融合特征，以输出目标第二融合特征对应的视觉定位信息作为所述目标室内图像的视觉定位信息，其中，数据库包括多个匹配数据对，每个匹配数据对包括当前建筑物的多个室内图像的第二融合特征和该第二融合特征对应的视觉定位信息；

其中，融合语义图至少包括目标室内图像中的实体与实体之间的关系，所述根据目标室内图像中的每个实体的位置特征、视觉特征和语义特征以及融合语义图，生成目标室内图像的语义图特征的步骤，具体包括：

确定目标室内图像中的实体与实体之间的关系的关系类型；

针对每个关系类型，根据融合语义图，提取该关系类型对应的融合语义子图，根据融合语义子图的实体和边，生成该融合语义子图对应的邻接矩阵；

针对每个关系类型，将该关系类型对应的融合语义子图的邻接矩阵和该关系类型对应的实体的位置特征、视觉特征和语义特征，输入该关系类型对应的图卷积神经网络，以输出每个关系类型对应的第一语义图子特征；

将所有实体关系类型对应的第一语义图子特征输入第一全连接层，以输出目标室内图像的语义图特征。

2.根据权利要求1所述的方法，其特征在于，当前建筑物内设置有多个图像采集设备，通过以下方式获取当前建筑物的目标室内图像：

获取目标图像采集设备所采集的室内图像；

将室内图像输入实体检测模型，以获得实体检测模型的主干网络输出的实体检测特征；

将室内图像的实体检测特征输入注意力机制网络，以输出室内图像的语义增强特征；

根据室内图像的实体检测特征和语义增强特征融合生成的增强检测特征，识别室内图像中的所有实体，并在室内图像中标记出每个实体的实体识别区域以及对应的实体语义标签以作为目标室内图像。

3.根据权利要求2所述的方法，其特征在于，通过以下方式生成目标室内图像中每个实体的位置特征和语义特征：

根据该实体的实体识别区域，确定出用于指示该实体的大小的顶点坐标；

将所述顶点坐标输入注意力机制网络，以输出该实体的位置特征；以及

将该实体的实体语义标签所指示的该实体的语义输入预设词向量模型，以输出该实体的语义特征。

4.根据权利要求1所述的方法，其特征在于，还包括：

若数据库中没有满足匹配条件的目标第二融合特征，则获取所述目标室内图像的视觉定位信息；

根据所述目标室内图像的视觉定位信息和第一融合特征生成匹配数据对，并更新至数据库中。

5.一种基于数字孪生建筑和异质特征融合的室内定位装置，其特征在于，包括：

第一提取模块，用于针对当前建筑物的目标室内图像中的每个实体，根据该实体的实体识别区域，生成该实体的位置特征，根据该实体的实体语义标签生成该实体的语义特征，以及将目标室内图像输入ResNet的骨干网络，以输出目标室内图像的视觉特征，确定出目标室内图像的视觉特征中，与该实体的实体识别区域的位置所对应的视觉特征，作为该实体的视觉特征；

第二提取模块，用于将目标室内图像的视觉特征输入ResNet的头部网络，以输出目标室内图像的图像特征；

第一融合模块，用于根据目标室内图像中的每个实体的位置特征、视觉特征和语义特征以及融合语义图，生成目标室内图像的语义图特征，所述第一融合模块具体用于：确定目标室内图像中的实体与实体之间的关系的关系类型；针对每个关系类型，根据融合语义图，提取该关系类型对应的融合语义子图，根据融合语义子图的实体和边，生成该融合语义子图对应的邻接矩阵；针对每个关系类型，将该关系类型对应的融合语义子图的邻接矩阵和该关系类型对应的实体的位置特征、视觉特征和语义特征，输入该关系类型对应的图卷积神经网络，以输出每个关系类型对应的第一语义图子特征；将所有实体关系类型对应的第一语义图子特征输入第一全连接层，以输出目标室内图像的语义图特征；

第二融合模块，用于将所述目标室内图像的语义图特征和图像特征输入第二全连接层，以输出所述目标室内图像的第一融合特征；

匹配模块，用于根据所述第一融合特征，确定出当前建筑物对应的数据库中满足匹配条件的目标第二融合特征，以输出目标第二融合特征对应的视觉定位信息作为所述目标室内图像的视觉定位信息，其中，数据库包括多个匹配数据对，每个匹配数据对包括当前建筑物的多个室内图像的第二融合特征和该第二融合特征对应的视觉定位信息。

6.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至4任一所述的基于数字孪生建筑和异质特征融合的室内定位方法的步骤。