CN116958698A

CN116958698A - 一种基于街景图像多模态信息的建筑物分类方法

Info

Publication number: CN116958698A
Application number: CN202310953601.3A
Authority: CN
Inventors: 田盼盼; 方芳; 李圣文; 康家宁; 刘洋
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-10-27

Abstract

本发明公开了一种基于街景图像多模态信息的建筑物分类方法，所述方法基于SVI全局视觉信息、局部视觉信息、招牌文本等多种模态信息，采用图神经网络实现多模态信息推理，实现城市建筑物单体功能自动分类。该方法首先通过招牌文本知识图谱获取文本信息，然后对文本信息和局部视觉进行多模态推理，最后融合全局视觉信息实现建筑物功能分类。本发明通过构建招牌文本知识图谱和多模态推理图，融合SVI多模态信息，克服现有技术中对SVI蕴含信息利用不充分的问题。对SVI多模态信息的充分利用和有效融合使得建筑物分类的精度得到了有效提升。

Description

一种基于街景图像多模态信息的建筑物分类方法

技术领域

本发明涉及建筑物分类领域，尤其涉及一种基于街景图像多模态信息的建筑物分类方法。

背景技术

建筑物是市民生活、工作、娱乐的基础，是城市规划、城市管理和风险评估的基本组成部分。识别记录建筑物类型，对于灾害管理工作和改善城市职能功能、提高城市生活水平、更好的制定城市建设计划、促进城市的协调可持续发展具有很好的参考价值。

传统的建筑物分类方法主要依赖于实地调查，费时费力，且不利于信息的更新。随着深度学习技术的发展，基于遥感影像的建筑物分类方法被提出，然而，由于建筑物形状、纹理等同质性，无法很好地区分建筑物的类型。相较于遥感图像，街景图像不仅具有分布广泛的特性，还包含了街道尺度的细粒度的建筑环境信息，能够提供与功能相关的社会经济属性。现有基于街景图像的城市功能分类方法大多仅采用图像的场景特征，存在分类精度不高、相似类型无法区分等问题。

街景图像(Street View Image，SVI)中除图像场景信息外，还包括图像招牌所提供的文本信息。有效融合街景图像中的多模态信息实现建筑物的功能分类，有助于提高城市建筑物功能自动分类精度。

发明内容

为了解决现有从建筑物图像中，进行建筑物分类精度不高、信息提取不够全面的技术问题，本发明提出一种基于街景图像多模态信息的建筑物分类方法，其中方法具体包括以下步骤：

S1：获取SVI全局视觉特征、SVI局部视觉特征、视觉位置数据、招牌文本信息、文本位置数据和建筑物类别文本特征；

S2：对所述招牌文本信息进行分类，获取招牌概念文本数据，将所述招牌概念文本数据输入预训练的自然语言模型，提取所述招牌概念文本数据的概念文本特征；将所述建筑物类别文本特征和概念文本特征输入知识图卷积神经网络，获得SVI文本特征；

S3：将所述视觉位置数据和文本位置数据输入全连接层网络，获得视觉位置特征向量和文本位置特征向量；

S4：将所述SVI局部视觉特征、视觉位置特征向量、SVI文本特征和文本位置特征向量输入待训练的多模态推理图卷积神经网络，经过多层图卷积层对多种模态特征进行推理融合，获得多模态推理特征；

S5：将所述多模态推理特征和所述SVI全局视觉特征组合后，输出至分类器进行分类，获得建筑物分类结果。

本发明提供的有益效果是：通过构建招牌文本知识图谱和多模态推理图，融合SVI多模态信息，克服现有技术中对SVI蕴含信息利用不充分的问题。对SVI多模态信息的充分利用和有效融合使得建筑物分类的精度得到了有效提升。

附图说明

图1是本发明方法流程示意图；

图2为方法的总体实施步骤。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，图1是本发明方法流程示意图。

本发明提供了一种基于街景图像多模态信息的建筑物分类方法，方法包括以下步骤：

需要说明的是，步骤S1具体为：

S11：将SVI输入至预训练的ResNet 152网络，获取全局视觉特征向量；

S12：将SVI输入至预训练的Faster R-CNN网络，获取局部视觉特征和局部视觉位置数据；

S13：将SVI输入至PaddleOCR基础模型进行招牌文本提取，获得招牌文本数据和招牌文本位置数据；

S14：将不同的建筑物类别输入预训练的Fasttext基础模型，得到每个建筑物类别文本特征。

作为一种实施例而言，ResNet 152网络采用ImageNet数据集预训练；Faster R-CNN网络采用Visual Genome数据集预训练。

需要说明的是，步骤S2具体为：

S21：根据专家先验知识，对所述招牌文本数据进行招牌概念分类，得到招牌概念文本数据；将所述招牌概念文本数据输入预训练的Fasttext基础模型，映射为招牌概念文本数据的概念文本特征；

作为一种实施例而言，概念文本特征为300维的特征向量。

S22：对每张SVI，为所述概念文本特征和建筑物类别文本特征构建知识图

所述知识图的节点v包括两种类型：建筑物类别节点v_b和招牌概念节点v_t；其中建筑物类别节点v_b代表SVI建筑物类别，一个招牌概念节点v_t代表一张SVI中的一个招牌文本；

所述图G(V，e)的边e包括两种类型：一种是建筑物类别节点与招牌概念节点的边e_ct，一种是招牌概念节点与招牌概念节点之间的边e_tt；

S23：将所述知识图送入图卷积神经网络，经过知识融合，得到所述SVI文本特征。

步骤S23具体为：

对所述知识图其中/>代表节点集合，/>代表关联矩阵，具体为：

其中k_i，k_j∈V，代表两个全连接层，将知识图/>输入图卷积神经网络，单个卷积层操作为：

其中，R为关联矩阵，V为节点，W_g为图卷积神经网络中可学习的权重矩阵，W_r为残差权重矩阵，l为图卷积神经网络层数。

需要说明的是，步骤S3具体为：

S31：将所述视觉位置数据输入全连接层网络，映射为视觉位置特征向量；

作为一种实施例，所述视觉位置特征向量为128维特征向量；

S32：将所述文本位置数据输入全连接层网络，映射为文本位置特征向量；

作为一种实施例，所述文本位置特征向量为128维特征向量；

需要说明的是，步骤S4具体为：

S41：将所述SVI局部视觉特征输入全连接层，映射得到第一局部视觉特征向量；将所述第一局部视觉特征向量与所述视觉位置特征向量连接，得到第二局部视觉特征向量；

作为一种实施例，第一局部视觉特征向量为1920维特征向量；所述第二局部视觉特征向量为2048维特征向量；

将所述SVI文本特征输入全连接层，映射得到第一文本特征向量，将所述第一文本特征向量与所述文本位置特征向量连接，得到第二文本特征向量；

作为一种实施例，第一文本特征向量为1920维特征向量；所述第二文本特征向量为2048维特征向量；

S42：对每张SVI，为所述概念文本特征和建筑物类别文本特征构建多模态推理图

S43：将所述推理图送入图卷积神经网络，经过多模态特征融合，得到所述多模态推理特征。

本发明中，所述建筑物分类结果包括：商业，住宅，工业，零售和办公。

作为一种实施例，图2为方法的总体实施步骤，包括视觉特征获取；文本特征获取；多模态推理；模型优化与建筑物类型预测。表1为方法的实验结果。如表1所示，共有799张街景图像，其中被正确预测为住宅、零售、办公、工业和商业的街景图像分别为407、50、44、5和137，占街景图像总数的80.47％。

表1实验结果表

本发明的有益效果是：通过构建招牌文本知识图谱和多模态推理图，融合SVI多模态信息，克服现有技术中对SVI蕴含信息利用不充分的问题。对SVI多模态信息的充分利用和有效融合使得建筑物分类的精度得到了有效提升。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于街景图像多模态信息的建筑物分类方法，其特征在于：包括以下步骤：

2.如权利要求1所述的一种基于街景图像多模态信息的建筑物分类方法，其特征在于：步骤S1具体为：

S11:将SVI输入至预训练的ResNet 152网络，获取全局视觉特征向量；

3.如权利要求1所述的一种基于街景图像多模态信息的建筑物分类方法，其特征在于：步骤S2具体为：

4.如权利要求3所述的一种基于街景图像多模态信息的建筑物分类方法，其特征在于：所述知识图的节点v包括两种类型：建筑物类别节点v_b和招牌概念节点v_t；其中建筑物类别节点v_b代表SVI建筑物类别，一个招牌概念节点v_t代表一张SVI中的一个招牌文本；

所述图G(V,e)的边e包括两种类型：一种是建筑物类别节点与招牌概念节点的边e_ct，一种是招牌概念节点与招牌概念节点之间的边e_tt。

5.如权利要求3所述的一种基于街景图像多模态信息的建筑物分类方法，其特征在于：所述知识图是无向图。

6.如权利要求4所述的一种基于街景图像多模态信息的建筑物分类方法，其特征在于：步骤S23具体为：

其中k_i,k_j∈V，代表两个全连接层，将知识图/>输入图卷积神经网络，单个卷积层操作为：

7.如权利要求1所述的一种基于街景图像多模态信息的建筑物分类方法，其特征在于：步骤S3具体为：

S32：将所述文本位置数据输入全连接层网络，映射为文本位置特征向量。

8.如权利要求7所述的一种基于街景图像多模态信息的建筑物分类方法，其特征在于：步骤S4具体为：

9.如权利要求8所述的一种基于街景图像多模态信息的建筑物分类方法，其特征在于：所述推理图的节点v包括两种类型：局部视觉节点V_v和文本节点V_t；其中一个局部视觉节点V_v代表一张SVI中一个边框所包含的视觉特征和边框的位置特征，一个文本节点V_t代表一张SVI中一个边框所包含的文本特征和边框的位置特征；所述图G(V,e)的边e包括三种类型：一种是局部视觉节点与文本节点的边e_vt，一种是局部视觉节点与局部视觉节点之间的边e_vv；一种是文本节点与文本节点之间的边e_tt；

所述推理图是无向图。

10.如权利要求1所述的一种基于街景图像多模态信息的建筑物分类方法，其特征在于：步骤S5具体为：

S51：对所述多模态推理特征进行平均池化操作后，与SVI全局视觉特征经全连接层组合，得到所述多模态特征向量；

S52：将所述多模态特征向量输出至分类器，得到建筑物分类结果。