CN114627426A

CN114627426A - 一种融合建筑数字孪生语义图的图像检测方法及装置

Info

Publication number: CN114627426A
Application number: CN202210516762.1A
Authority: CN
Inventors: 周小平; 王佳; 任远; 陆一昕; 陈丹燕; 宋有利
Original assignee: Bim Winner Shanghai Technology Co ltd; Foshan Yingjia Smart Space Technology Co ltd; Jiaxing Wuzhen Yingjia Qianzhen Technology Co ltd; Shandong Jiaying Internet Technology Co ltd; Shenzhen Bim Winner Technology Co ltd; Shenzhen Qianhai Yingjia Data Service Co ltd; Yingjia Internet Beijing Smart Technology Co ltd; Bim Winner Beijing Technology Co ltd
Current assignee: Qingdao Saab Weitong Technology Co.,Ltd.
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-06-14
Anticipated expiration: 2042-05-13
Also published as: CN114627426B

Abstract

本申请提供了一种融合建筑数字孪生语义图的图像检测方法及装置，涉及图像处理技术领域，包括：获取目标图像，目标图像为目标建筑内部中的目标区域图像；确定目标图像的预估类别概率矩阵；根据目标建筑的建筑数字孪生模型，创建目标建筑语义图；根据目标建筑语义图，创建目标类别关系矩阵G；将预估类别概率矩阵、目标类别关系矩阵G和分类器的网络权重参数输入第一全连接层进行特征融合，获得目标图像的建筑语义图融合特征；将目标图像的建筑语义图融合特征输入预先训练完成的头部网络，获得目标图像中的各实际物体区域以及每个实际物体区域对应的实际物体类别。本申请通过将建筑语义图融入图像检测模型，提高图像识别精度。

Description

一种融合建筑数字孪生语义图的图像检测方法及装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种融合建筑数字孪生语义图的图像检测方法及装置。

背景技术

现有技术中，将视频中的目标帧图像输入现有的图像检测模型（如Faster RCNN等），现有的图像检测模型可将视频中的某一帧图像转化为其面向物体检测的视觉特征，输出识别出的目标帧图像中的物体，然后完成对目标帧图像的识别。

但是，受室内场景的弱视觉特征（如物体遮挡等）的影响，降低了现有图像检测模型对物体的识别精度。

发明内容

有鉴于此，本申请的目的在于至少提供一种融合建筑数字孪生语义图的图像检测方法及装置，通过将建筑语义图融入图像检测模型，提高图像识别精度。

本申请主要包括以下几个方面：

第一方面，本申请实施例提供一种融合建筑数字孪生语义图的图像检测方法，包括：获取目标图像，目标图像为目标建筑内部中的目标区域图像；确定目标图像的预估类别概率矩阵，预估类别概率矩阵中的每个元素表示目标图像中的预估目标物体区域对应的预估物体类别概率值，预估物体是通过分类器对目标图像进行识别确定的；根据目标建筑的建筑数字孪生模型，创建目标建筑语义图；根据目标建筑语义图，创建目标类别关系矩阵G，目标类别关系矩阵中的每个元素表示目标建筑中的任意两个物体之间的类别关系；将预估类别概率矩阵、目标类别关系矩阵G和分类器的网络权重参数输入第一全连接层进行特征融合，获得目标图像的建筑语义图融合特征；将目标图像的建筑语义图融合特征输入头部网络，获得目标图像中的各实际物体区域以及每个实际物体区域对应的实际物体类别。

在一种可能的实施方式中，目标建筑语义图包括目标建筑内部的物体集合E和物体关系集合R，其中，根据目标建筑语义图，创建目标类别关系矩阵G的步骤包括：根据目标建筑语义图，创建初始类别关系矩阵G0，初始类别关系矩阵G0的初始值为零；遍历目标建筑语义图中的物体

E与物体

E之间的物体关系集合

，将初始类别关系矩阵中的元素G0[T(

)][T(

)]和G0[T(

)][T(

)]的值都设置为1，并对初始类别关系矩阵G0进行更新，得到更新后的初始类别关系矩阵G1，其中，T(

)和T(

)表示物体

E与物体

E的物体类别；对更新后的初始类别关系矩阵G1进行归一化处理，得到目标类别关系矩阵G。

在一种可能的实施方式中，通过以下公式确定目标图像的建筑语义图融合特征：

该公式中，

表示目标图像的建筑语义图融合特征，P表示预估类别概率矩阵，

表示目标类别关系矩阵，

表示分类器的网络权重参数，

表示第一全连接层的网络权重参数。

在一种可能的实施方式中，图像检测方法还包括：从主干网络中获取目标图像的第一基础特征；将第一基础特征输入注意力机制神经网络的卷积层，得到第二基础特征，卷积层由步长为2，

个5×5大小的卷积核构成，其中，

表示第一基础特征的特征向量长度；将第二基础特征，输入注意力机制神经网络中按通道维度进行池化的池化层，得到形状为1×

的第三基础特征

∈

；将第三基础特征

∈

输入注意力机制神经网络中的第二全连接层，得到第四基础特征；根据第四基础特征，确定注意力机制系数。

在一种可能的实施方式中，通过以下公式确定注意力机制系数：

该公式中，

表示注意力机制系数，

表示第三基础特征，

表示第二全连接层的网络权重参数，

表示分类器的网络权重参数，

表示激励函数。

在一种可能的实施方式中，图像检测方法还包括：对建筑语义图融合特征和注意力机制系数进行融合，得到融入注意力机制的建筑语义图融合特征；对第一基础特征进行对齐处理，得到第五基础特征；将融入注意力机制的建筑语义图融合特征和第五基础特征进行融合，获得目标图像的目标融合特征。

在一种可能的实施方式中，通过以下公式确定融入注意力机制的建筑语义图融合特征：

在该公式中，

表示融入注意力机制的建筑语义图融合特征，P表示预估类别概率矩阵，

表示注意力机制系数，

表示目标类别关系矩阵，

表示分类器的网络权重参数，

表示第一全连接层的网络权重参数，

表示按照通道维度进行乘积运算。

在一种可能的实施方式中，目标图像的目标融合特征为：

在该公式中，

表示目标图像的目标融合特征，

表示第五基础特征，

表示融入注意力机制的建筑语义图融合特征。

在一种可能的实施方式中，通过以下公式确定目标图像中各实际物体区域：

在该公式中，

表示目标图像中各目标物体的实际物体区域，

表示目标图像的目标融合特征，

表示头部网络的第一头部权重参数；

通过以下公式确定目标图像中每个实际物体区域对应的实际物体类别：

在该公式中，

表示目标图像中每个实际物体区域对应的实际物体类别，

表示目标图像的目标融合特征，

表示头部网络的第二头部权重参数，

表示激励函数。

第二方面，本申请实施例还提供一种融合建筑数字孪生语义图的图像检测装置，图像检测装置包括：第一获取模块，用于获取目标图像，目标图像为目标建筑内部中的目标区域图像；第二获取模块，用于确定目标图像的预估类别概率矩阵，预估类别概率矩阵中的每个元素表示目标图像中的预估目标物体区域对应的预估物体类别概率值，预估物体是通过分类器对所述目标图像进行识别确定的；第一创建模块，用于根据目标建筑的建筑数字孪生模型，创建目标建筑语义图；第二创建模块，用于根据目标建筑语义图，创建目标类别关系矩阵G，目标类别关系矩阵中的每个元素表示目标建筑中的任意两个物体之间的类别关系；融合模块，用于将预估类别概率矩阵、目标类别关系矩阵G和分类器的网络权重参数输入第一全连接层进行特征融合，获得目标图像的建筑语义图融合特征；第三获取模块，用于将目标图像的建筑语义图融合特征输入头部网络，获得目标图像中的各实际物体区域以及每个实际物体区域对应的实际物体类别。

本申请实施例提供的一种融合建筑数字孪生语义图的图像检测方法及装置，包括：获取目标图像，目标图像为目标建筑内部中的目标区域图像；确定目标图像的预估类别概率矩阵；根据目标建筑的建筑数字孪生模型，创建目标建筑语义图；根据目标建筑语义图，创建目标类别关系矩阵G；将预估类别概率矩阵、目标类别关系矩阵G和分类器的网络权重参数输入第一全连接层进行特征融合，获得目标图像的建筑语义图融合特征；将目标图像的建筑语义图融合特征输入头部网络，获得目标图像中的各实际物体区域以及每个实际物体区域对应的实际物体类别。本申请通过将建筑语义图融入图像检测模型，提高图像识别精度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种图像检测方法的流程图；

图2示出了本申请实施例所提供的建筑语义图中的局部示意图；

图3示出了本申请实施例提供的一种图像检测装置的结构示意图；

图4示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中的附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例，都属于本申请保护的范围。

现有技术中，图像检测模型（如Faster RCNN等）可将视频某一帧图像转化为其面向物体检测的视觉特征，并输出识别出的目标帧图像中的物体，但由于室内场景的弱视觉特征（包括物体遮挡、室内视野小、室内大量区域纹理少、室内和室外照明导致室内光照条件复杂以及室内人或物体移等），降低了现有图像检测模型对物体的识别精度，例如由于室内场景的弱视觉特征，可能将图像中的“窗户”误检为“电视”。

基于此，本申请实施例提供了一种图像检测方法，通过将建筑语义图融入图像检测模型，提高图像识别精度，具体如下：

请参阅图1，图1示出了本申请实施例所提供的一种融合建筑数字孪生语义图的图像检测方法的流程图。如图1所示，本申请实施例提供的图像检测方法，包括以下步骤：

S100、获取目标图像。

具体的，目标图像为目标建筑内部中的目标区域图像，在目标建筑内部的多个区域设置有图像采集传感器，图像采集传感器用于采集目标建筑内部的图像信息，图像采集传感器可以为监控摄像头等。

S200、确定目标图像的预估类别概率矩阵。

具体的，预估类别概率矩阵中的每个元素表示目标图像中的预估目标物体区域对应的预估物体类别概率值，预估物体是通过分类器对所述目标图像进行识别确定的，其中，预估类别概率矩阵P∈

，

表示目标图像中预估物体的数量，

表示预估物体类别。

S300、根据目标建筑的建筑数字孪生模型，创建目标建筑语义图。

建筑数字孪生语义图，简称建筑语义图，即对建筑数字孪生模型一种形式化描述。

在一优选实施例中，目标建筑的建筑数字孪生模型由目标建筑内部物体以及物体间关系构成，也就是说，目标建筑语义图包括目标建筑内部的物体集合E和物体关系集合R，物体集合E包括目标建筑内部所有物体，物体关系集合R包括目标建筑内部所有物体之间的物体关系。

在一具体实施例中，请参阅图2，图2示出了本申请实施例所提供的建筑语义图中的局部示意图，如图2所示，S1、S2、S3、S4、S5、S6表示建筑中的物体，其中，每一种形状对应一种物体类型，例如，物体类型可以为桌子、椅子、窗户、墙体等，①、②、③表示物体间不同的物体关系，例如，物体关系包括但不限于物体间的从属关系、结构关系、遮挡关系、相交关系等。

返回图1，S400、根据目标建筑语义图，创建目标类别关系矩阵G。

优选地，目标类别关系矩阵中的每个元素表示目标建筑中的任意两个物体之间的类别关系，其中，目标类别关系矩阵G∈

。

优选地，创建目标类别关系矩阵G的步骤包括：

根据目标建筑语义图，创建初始类别关系矩阵G0，其中，G0∈

，初始类别关系矩阵G0的初始值为零。

遍历目标建筑语义图中的物体

E与物体

E之间的物体关系集合

，将初始类别关系矩阵中的元素G0[T(

)][T(

)]和G0[T(

)][T(

)和T(

)表示目标建筑语义图中物体

E与物体

E的物体类别；

对更新后的初始类别关系矩阵G1进行归一化处理，得到目标类别关系矩阵G。

S500、将预估类别概率矩阵、目标类别关系矩阵G和分类器的网络权重参数输入第一全连接层进行特征融合，获得目标图像的建筑语义图融合特征。

在一优选实施例中，分类器的网络权重参数

预先经过大量图像数据不断地训练后，能够表达目标图像的全局语义特征，其中，D表示分类器从主干网络中提取的特征向量长度，用于对分类器的网络权重参数进行训练的数据为已经标注好物体区域以及物体类别的预先从历史数据库获取的历史图像。

具体的，通过目标类别关系矩阵G，对分类器的网络权重参数C进行全局扩散，将分类器的网络权重参数C融入目标类别关系矩阵G，形成带有目标建筑语义图的语义特征矩阵GC，然后，通过第一全连接层，获得目标图像的建筑语义图融合特征。

在一具体实施例中，通过以下公式确定所述目标图像的建筑语义图融合特征：

该公式中，

表示所述目标图像的建筑语义图融合特征，

∈

,其中，N表示目标图像中预估物体的数量，M表示目标建筑语义图融合后的特征向量维度，P表示预估类别概率矩阵，

表示目标类别关系矩阵，

表示分类器的网络权重参数，

表示所述第一全连接层的网络权重参数，其中，

∈

， D表示分类器从主干网络中提取的特征向量长度。

在一优选实施例中，图像检测方法还包括：

从主干网络中获取目标图像的第一基础特征。

其中，通过主干网络抽取得到的目标图像的第一基础特征

∈

，其中，W、H分别对应主干网络中不同的网络参数。

将第一基础特征输入注意力机制神经网络的卷积层，得到第二基础特征。

注意力机制神经网络的卷积层由步长为2，

个5×5大小的卷积核构成，其中，

表示分类器从主干网络中提取的特征向量长度。

在一具体实施例中，带有目标建筑语义图的语义特征矩阵GC是一种全局特征，包含整个目标建筑语义图中所有类别的物体的特征信息，但是，对于识别一个特定图像中的物体来说，并非目标建筑语义图中所有类别的物体的特征信息都是有效用的，基于此，本方法融入必要的注意力机制神经网络，将目标图像的第一基础特征作为注意力机制神经网络的输入由步长为2，

个5×5大小的卷积核构成的卷积层，降低第一基础特征大小，获得第二基础特征。

将第二基础特征，输入注意力机制神经网络中按通道维度进行池化的池化层，得到形状为1×

的第三基础特征

∈

。

将第三基础特征

∈

输入注意力机制神经网络中的第二全连接层，得到第四基础特征。

根据第四基础特征，确定注意力机制系数，具体的，可以将第四基础特征与激励函数结合，以确定注意力机制系数。

在一优选实施例中，通过以下公式确定注意力机制系数：

该公式中，

表示注意力机制系数，其中，

∈

，

表示第三基础特征，其中，

∈

，

表示注意力机制神经网络中的第二全连接层的网络权重参数，

∈

，

表示分类器的网络权重参数，

表示激励函数。

S600、将目标图像的建筑语义图融合特征输入头部网络，获得目标图像中的各实际物体区域以及每个实际物体区域对应的实际物体类别。

在一具体实施例中，图像检测方法还包括：

对建筑语义图融合特征和注意力机制系数进行融合，得到融入注意力机制的建筑语义图融合特征，对第一基础特征进行对齐处理，得到第五基础特征，将融入注意力机制的建筑语义图融合特征和第五基础特征进行融合，获得目标图像的目标融合特征。

具体的，会对获取到的第一基础特征

进行对齐处理，可以采用Roi-Align算法进行对齐处理，以获取第五基础特征F，其中，第五基础特征F∈

。

在一优选实施例中，通过以下公式确定融入注意力机制的建筑语义图融合特征：

在该公式中，

表示融入注意力机制的建筑语义图融合特征，其中，

∈

，N表示目标图像中预估物体的数量，M表示目标建筑语义图融合后的特征向量维度，P表示预估类别概率矩阵，

表示注意力机制系数，

表示目标类别关系矩阵，

表示分类器的网络权重参数，

表示第一全连接层的网络权重参数，

表示按照通道维度进行乘积运算。

在一具体实施例中，目标图像的目标融合特征：

在该公式中，

表示目标图像的目标融合特征，其中

∈

，F∈

表示第五基础特征，

表示融入注意力机制的建筑语义图融合特征。

在一具体实施例中，会将目标图像的目标融合特征输入头部网络（BoundingBox-Head Hbb和Classifier-Head HC），然后，获得目标图像中的各实际物体区域以及每个实际物体区域对应的实际物体类别。

具体的，可以通过大量的历史图像数据对头部网络进行不断地训练，以使头部网络对头部BoundingBox-Head Hbb对应的第一头部权重及Classifier-Head HC对应的第二头部权重进行学习，以获得训练好的头部网络。

在一优选实施例中，通过以下公式确定目标图像中各实际物体区域：

在该公式中，

表示目标图像中各目标物体的实际物体区域，其中，

，

表示目标图像的目标融合特征，

表示头部网络的第一头部权重参数；

在该公式中，

表示目标图像中每个实际物体区域对应的实际物体类别，其中，

，

表示目标图像的目标融合特征，

表示头部网络的第二头部权重参数，

表示激励函数。

在一具体实施例中，目标图像中各实际物体区域可以以包围框的形式在目标图像中进行显示，同时每个实际物体区域对应的实际物体类别会显示在对应的包围框附近，已完成对目标图像的检测识别。

在一优选实施例中，本申请涉及到的图像检测方法可共同构成一个基于建筑语义图增强图像特征的图像检测模型，且本申请的图像检测方法涉及到的各项网络权重参数，均为已经训练好的。

基于同一申请构思，本申请实施例中还提供了与上述实施例提供的图像检测方法对应的图像检测装置，由于本申请实施例中的装置解决问题的原理与本申请上述实施例的图像检测方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图3，图3示出了本申请实施例提供的一种融合建筑数字孪生语义图的图像检测装置的结构示意图。

第一获取模块710，用于获取目标图像，目标图像为目标建筑内部中的目标区域图像；第二获取模块720，用于确定目标图像的预估类别概率矩阵，预估类别概率矩阵中的每个元素表示目标图像中的预估目标物体区域对应的预估物体类别概率值，预估物体是通过分类器对所述目标图像进行识别确定的；第一创建模块730，用于根据目标建筑的建筑数字孪生模型，创建目标建筑语义图；第二创建模块740，用于根据目标建筑语义图，创建目标类别关系矩阵G，目标类别关系矩阵中的每个元素表示目标建筑中的任意两个物体之间的类别关系；融合模块750，用于将预估类别概率矩阵、目标类别关系矩阵G和分类器的网络权重参数输入第一全连接层进行特征融合，以获得目标图像的建筑语义图融合特征；第三获取模块760，用于将目标图像的建筑语义图融合特征输入预先训练完成的头部网络，获得目标图像中的各实际物体区域以及每个实际物体区域对应的实际物体类别。

优选地，目标建筑语义图包括目标建筑内部的物体集合E和物体关系集合R，第二模块740，还用于：根据目标建筑语义图，创建初始类别关系矩阵G0，初始类别关系矩阵G0的初始值为零；遍历目标建筑语义图中的物体

E与物体

E之间的物体关系集合

，将初始类别关系矩阵中的元素G0[T(

)][T(

)]和G0[T(

)][T(

)和T(

)表示物体

E与物体

优选地，融合模块750，还用于：通过以下公式确定目标图像的建筑语义图融合特征：

该公式中，

表示目标类别关系矩阵，

表示分类器的网络权重参数，

表示第一全连接层的网络权重参数。

优选地，图像检测装置还包括确定模块（图中未示出），用于：从主干网络中获取目标图像的第一基础特征；将第一基础特征输入注意力机制神经网络的卷积层，得到第二基础特征，卷积层由步长为2，

个5×5大小的卷积核构成，其中，

表示特征向量长度；将第二基础特征，输入注意力机制神经网络中按通道维度进行池化的池化层，得到形状为1×

的第三基础特征

∈

；将第三基础特征

∈

优选地，确定模块，还用于：通过以下公式确定注意力机制系数：

该公式中，

表示注意力机制系数，

表示第三基础特征，

表示第二全连接层的网络权重参数，

表示分类器的网络权重参数，

表示激励函数。

优选地，图像检测装置还包括第二融合模块（图中未示出），第二融合模块，用于：对建筑语义图融合特征和注意力机制系数进行融合，得到融入注意力机制的建筑语义图融合特征；对第一基础特征进行对齐处理，得到第五基础特征；将融入注意力机制的建筑语义图融合特征和第五基础特征进行融合，获得目标图像的目标融合特征。

优选地，第二融合模块还用于通过以下公式确定融入注意力机制的建筑语义图融合特征：

在该公式中，

表示注意力机制系数，

表示目标类别关系矩阵，

表示分类器的网络权重参数，

表示第一全连接层的网络权重参数，

表示按照通道维度进行乘积运算。

优选地，目标图像的目标融合特征：

在该公式中，

表示目标图像的目标融合特征，

表示第五基础特征，

表示融入注意力机制的建筑语义图融合特征。

优选地，第三获取模块760还用于通过以下公式确定所述目标图像中各实际物体区域：

在该公式中，

表示所述目标图像中各目标物体的实际物体区域，

表示所述目标图像的目标融合特征，

表示所述头部网络的第一头部权重参数；

通过以下公式确定所述目标图像中每个实际物体区域对应的实际物体类别：

在该公式中，

表示所述目标图像中每个实际物体区域对应的实际物体类别，

表示所述目标图像的目标融合特征，

表示所述头部网络的第二头部权重参数，

表示激励函数。

基于同一申请构思，请参阅图4，图4示出了本申请实施例提供的一种电子设备800的结构示意图，包括：处理器810、存储器820和总线830，所述存储器820存储有所述处理器810可执行的机器可读指令，当电子设备800运行时，所述处理器810与所述存储器820之间通过所述总线830进行通信，所述机器可读指令被所述处理器810运行时执行如上述实施例中任一的图像检测方法的步骤。

基于同一申请构思，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述实施例提供的图像检测方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应所述理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来，所述计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种融合建筑数字孪生语义图的图像检测方法，其特征在于，所述图像检测方法包括：

获取目标图像，所述目标图像为目标建筑内部中的目标区域图像；

确定所述目标图像的预估类别概率矩阵，所述预估类别概率矩阵中的每个元素表示所述目标图像中的预估物体对应的预估物体类别概率值，预估物体是通过分类器对所述目标图像进行识别确定的；

根据所述目标建筑的建筑数字孪生模型，创建目标建筑语义图；

根据所述目标建筑语义图，创建目标类别关系矩阵G，所述目标类别关系矩阵中的每个元素表示所述目标建筑中的任意两个物体之间的类别关系；

将所述预估类别概率矩阵、目标类别关系矩阵G和分类器的网络权重参数输入第一全连接层进行特征融合，获得所述目标图像的建筑语义图融合特征；

将所述目标图像的建筑语义图融合特征输入头部网络，获得所述目标图像中的各实际物体区域以及每个实际物体区域对应的实际物体类别。

2.根据权利要求1所述的图像检测方法，其特征在于，目标建筑语义图包括目标建筑内部的物体集合E和物体关系集合R，

其中，根据所述目标建筑语义图，创建目标类别关系矩阵G的步骤包括：

根据所述目标建筑语义图，创建初始类别关系矩阵G0，所述初始类别关系矩阵G0的初始值为零；

遍历目标建筑语义图中的物体

E与物体

E之间的物体关系集合

，将初始类别关系矩阵中的元素G0[T(

)][T(

)]和G0[T(

)][T(

)和T(

)表示物体

E与物体

E的物体类别；

3.根据权利要求1所述的图像检测方法，其特征在于，通过以下公式确定所述目标图像的建筑语义图融合特征：

该公式中，

表示所述目标图像的建筑语义图融合特征，P表示预估类别概率矩阵，

表示目标类别关系矩阵，

表示所述分类器的网络权重参数，

表示所述第一全连接层的网络权重参数。

4.根据权利要求1所述的图像检测方法，其特征在于，所述图像检测方法还包括：

从主干网络中获取所述目标图像的第一基础特征；

将所述第一基础特征输入注意力机制神经网络的卷积层，得到第二基础特征，所述卷积层由步长为2，

个5×5大小的卷积核构成，其中，

表示特征向量长度；

将所述第二基础特征，输入注意力机制神经网络中按通道维度进行池化的池化层，得到形状为1×

的第三基础特征

∈

；

将所述第三基础特征

∈

输入注意力机制神经网络中的第二全连接层，得到第四基础特征；

根据所述第四基础特征，确定注意力机制系数。

5.根据权利要求4所述的图像检测方法，其特征在于，通过以下公式确定注意力机制系数：

该公式中，

表示注意力机制系数，

表示第三基础特征，

表示所述第二全连接层的网络权重参数，

表示分类器的网络权重参数，

表示激励函数。

6.根据权利要求4所述的图像检测方法，其特征在于，所述图像检测方法还包括：

对所述建筑语义图融合特征和所述注意力机制系数进行融合，得到融入注意力机制的建筑语义图融合特征；

对所述第一基础特征进行对齐处理，得到第五基础特征；

将所述融入注意力机制的建筑语义图融合特征和所述第五基础特征进行融合，获得所述目标图像的目标融合特征。

7.根据权利要求6所述的图像检测方法，其特征在于，通过以下公式确定融入注意力机制的建筑语义图融合特征：

在该公式中，

表示注意力机制系数，

表示目标类别关系矩阵，

表示分类器的网络权重参数，

表示所述第一全连接层的网络权重参数，

表示按照通道维度进行乘积运算。

8.根据权利要求7所述的图像检测方法，其特征在于，所述目标图像的目标融合特征为：

在该公式中，

表示所述目标图像的目标融合特征，

表示所述第五基础特征，

表示融入注意力机制的建筑语义图融合特征。

9.根据权利要求1所述的图像检测方法，其特征在于，通过以下公式确定所述目标图像中各实际物体区域：

在该公式中，

表示所述目标图像中各目标物体的实际物体区域，

表示所述目标图像的目标融合特征，

表示所述头部网络的第一头部权重参数；

在该公式中，

表示所述目标图像的目标融合特征，

表示所述头部网络的第二头部权重参数，

表示激励函数。

10.一种融合建筑数字孪生语义图的图像检测装置，其特征在于，所述图像检测装置包括：

第一获取模块，用于获取目标图像，所述目标图像为目标建筑内部中的目标区域图像；

第二获取模块，用于确定所述目标图像的预估类别概率矩阵，所述预估类别概率矩阵中的每个元素表示所述目标图像中的预估目标物体区域对应的预估物体类别概率值，预估物体是通过分类器对所述目标图像进行识别确定的；

第一创建模块，用于根据所述目标建筑的建筑数字孪生模型，创建目标建筑语义图；

第二创建模块，用于根据所述目标建筑语义图，创建目标类别关系矩阵G，所述目标类别关系矩阵中的每个元素表示所述目标建筑中的任意两个物体之间的类别关系；

融合模块，用于将所述预估类别概率矩阵、目标类别关系矩阵G和分类器的网络权重参数输入第一全连接层进行特征融合，获得所述目标图像的建筑语义图融合特征；

第三获取模块，用于将所述目标图像的建筑语义图融合特征输入头部网络，获得所述目标图像中的各实际物体区域以及每个实际物体区域对应的实际物体类别。