CN116958698A - 一种基于街景图像多模态信息的建筑物分类方法 - Google Patents

一种基于街景图像多模态信息的建筑物分类方法 Download PDF

Info

Publication number
CN116958698A
CN116958698A CN202310953601.3A CN202310953601A CN116958698A CN 116958698 A CN116958698 A CN 116958698A CN 202310953601 A CN202310953601 A CN 202310953601A CN 116958698 A CN116958698 A CN 116958698A
Authority
CN
China
Prior art keywords
text
features
svi
building
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310953601.3A
Other languages
English (en)
Inventor
田盼盼
方芳
李圣文
康家宁
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202310953601.3A priority Critical patent/CN116958698A/zh
Publication of CN116958698A publication Critical patent/CN116958698A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于街景图像多模态信息的建筑物分类方法,所述方法基于SVI全局视觉信息、局部视觉信息、招牌文本等多种模态信息,采用图神经网络实现多模态信息推理,实现城市建筑物单体功能自动分类。该方法首先通过招牌文本知识图谱获取文本信息,然后对文本信息和局部视觉进行多模态推理,最后融合全局视觉信息实现建筑物功能分类。本发明通过构建招牌文本知识图谱和多模态推理图,融合SVI多模态信息,克服现有技术中对SVI蕴含信息利用不充分的问题。对SVI多模态信息的充分利用和有效融合使得建筑物分类的精度得到了有效提升。

Description

一种基于街景图像多模态信息的建筑物分类方法
技术领域
本发明涉及建筑物分类领域,尤其涉及一种基于街景图像多模态信息的建筑物分类方法。
背景技术
建筑物是市民生活、工作、娱乐的基础,是城市规划、城市管理和风险评估的基本组成部分。识别记录建筑物类型,对于灾害管理工作和改善城市职能功能、提高城市生活水平、更好的制定城市建设计划、促进城市的协调可持续发展具有很好的参考价值。
传统的建筑物分类方法主要依赖于实地调查,费时费力,且不利于信息的更新。随着深度学习技术的发展,基于遥感影像的建筑物分类方法被提出,然而,由于建筑物形状、纹理等同质性,无法很好地区分建筑物的类型。相较于遥感图像,街景图像不仅具有分布广泛的特性,还包含了街道尺度的细粒度的建筑环境信息,能够提供与功能相关的社会经济属性。现有基于街景图像的城市功能分类方法大多仅采用图像的场景特征,存在分类精度不高、相似类型无法区分等问题。
街景图像(Street View Image,SVI)中除图像场景信息外,还包括图像招牌所提供的文本信息。有效融合街景图像中的多模态信息实现建筑物的功能分类,有助于提高城市建筑物功能自动分类精度。
发明内容
为了解决现有从建筑物图像中,进行建筑物分类精度不高、信息提取不够全面的技术问题,本发明提出一种基于街景图像多模态信息的建筑物分类方法,其中方法具体包括以下步骤:
S1:获取SVI全局视觉特征、SVI局部视觉特征、视觉位置数据、招牌文本信息、文本位置数据和建筑物类别文本特征;
S2:对所述招牌文本信息进行分类,获取招牌概念文本数据,将所述招牌概念文本数据输入预训练的自然语言模型,提取所述招牌概念文本数据的概念文本特征;将所述建筑物类别文本特征和概念文本特征输入知识图卷积神经网络,获得SVI文本特征;
S3:将所述视觉位置数据和文本位置数据输入全连接层网络,获得视觉位置特征向量和文本位置特征向量;
S4:将所述SVI局部视觉特征、视觉位置特征向量、SVI文本特征和文本位置特征向量输入待训练的多模态推理图卷积神经网络,经过多层图卷积层对多种模态特征进行推理融合,获得多模态推理特征;
S5:将所述多模态推理特征和所述SVI全局视觉特征组合后,输出至分类器进行分类,获得建筑物分类结果。
本发明提供的有益效果是:通过构建招牌文本知识图谱和多模态推理图,融合SVI多模态信息,克服现有技术中对SVI蕴含信息利用不充分的问题。对SVI多模态信息的充分利用和有效融合使得建筑物分类的精度得到了有效提升。
附图说明
图1是本发明方法流程示意图;
图2为方法的总体实施步骤。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
请参考图1,图1是本发明方法流程示意图。
本发明提供了一种基于街景图像多模态信息的建筑物分类方法,方法包括以下步骤:
S1:获取SVI全局视觉特征、SVI局部视觉特征、视觉位置数据、招牌文本信息、文本位置数据和建筑物类别文本特征;
需要说明的是,步骤S1具体为:
S11:将SVI输入至预训练的ResNet 152网络,获取全局视觉特征向量;
S12:将SVI输入至预训练的Faster R-CNN网络,获取局部视觉特征和局部视觉位置数据;
S13:将SVI输入至PaddleOCR基础模型进行招牌文本提取,获得招牌文本数据和招牌文本位置数据;
S14:将不同的建筑物类别输入预训练的Fasttext基础模型,得到每个建筑物类别文本特征。
作为一种实施例而言,ResNet 152网络采用ImageNet数据集预训练;Faster R-CNN网络采用Visual Genome数据集预训练。
S2:对所述招牌文本信息进行分类,获取招牌概念文本数据,将所述招牌概念文本数据输入预训练的自然语言模型,提取所述招牌概念文本数据的概念文本特征;将所述建筑物类别文本特征和概念文本特征输入知识图卷积神经网络,获得SVI文本特征;
需要说明的是,步骤S2具体为:
S21:根据专家先验知识,对所述招牌文本数据进行招牌概念分类,得到招牌概念文本数据;将所述招牌概念文本数据输入预训练的Fasttext基础模型,映射为招牌概念文本数据的概念文本特征;
作为一种实施例而言,概念文本特征为300维的特征向量。
S22:对每张SVI,为所述概念文本特征和建筑物类别文本特征构建知识图
所述知识图的节点v包括两种类型:建筑物类别节点vb和招牌概念节点vt;其中建筑物类别节点vb代表SVI建筑物类别,一个招牌概念节点vt代表一张SVI中的一个招牌文本;
所述图G(V,e)的边e包括两种类型:一种是建筑物类别节点与招牌概念节点的边ect,一种是招牌概念节点与招牌概念节点之间的边ett
S23:将所述知识图送入图卷积神经网络,经过知识融合,得到所述SVI文本特征。
步骤S23具体为:
对所述知识图其中/>代表节点集合,/>代表关联矩阵,具体为:
其中ki,kj∈V,代表两个全连接层,将知识图/>输入图卷积神经网络,单个卷积层操作为:
其中,R为关联矩阵,V为节点,Wg为图卷积神经网络中可学习的权重矩阵,Wr为残差权重矩阵,l为图卷积神经网络层数。
S3:将所述视觉位置数据和文本位置数据输入全连接层网络,获得视觉位置特征向量和文本位置特征向量;
需要说明的是,步骤S3具体为:
S31:将所述视觉位置数据输入全连接层网络,映射为视觉位置特征向量;
作为一种实施例,所述视觉位置特征向量为128维特征向量;
S32:将所述文本位置数据输入全连接层网络,映射为文本位置特征向量;
作为一种实施例,所述文本位置特征向量为128维特征向量;
S4:将所述SVI局部视觉特征、视觉位置特征向量、SVI文本特征和文本位置特征向量输入待训练的多模态推理图卷积神经网络,经过多层图卷积层对多种模态特征进行推理融合,获得多模态推理特征;
需要说明的是,步骤S4具体为:
S41:将所述SVI局部视觉特征输入全连接层,映射得到第一局部视觉特征向量;将所述第一局部视觉特征向量与所述视觉位置特征向量连接,得到第二局部视觉特征向量;
作为一种实施例,第一局部视觉特征向量为1920维特征向量;所述第二局部视觉特征向量为2048维特征向量;
将所述SVI文本特征输入全连接层,映射得到第一文本特征向量,将所述第一文本特征向量与所述文本位置特征向量连接,得到第二文本特征向量;
作为一种实施例,第一文本特征向量为1920维特征向量;所述第二文本特征向量为2048维特征向量;
S42:对每张SVI,为所述概念文本特征和建筑物类别文本特征构建多模态推理图
S43:将所述推理图送入图卷积神经网络,经过多模态特征融合,得到所述多模态推理特征。
S5:将所述多模态推理特征和所述SVI全局视觉特征组合后,输出至分类器进行分类,获得建筑物分类结果。
本发明中,所述建筑物分类结果包括:商业,住宅,工业,零售和办公。
作为一种实施例,图2为方法的总体实施步骤,包括视觉特征获取;文本特征获取;多模态推理;模型优化与建筑物类型预测。表1为方法的实验结果。如表1所示,共有799张街景图像,其中被正确预测为住宅、零售、办公、工业和商业的街景图像分别为407、50、44、5和137,占街景图像总数的80.47%。
表1实验结果表
本发明的有益效果是:通过构建招牌文本知识图谱和多模态推理图,融合SVI多模态信息,克服现有技术中对SVI蕴含信息利用不充分的问题。对SVI多模态信息的充分利用和有效融合使得建筑物分类的精度得到了有效提升。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于街景图像多模态信息的建筑物分类方法,其特征在于:包括以下步骤:
S1:获取SVI全局视觉特征、SVI局部视觉特征、视觉位置数据、招牌文本信息、文本位置数据和建筑物类别文本特征;
S2:对所述招牌文本信息进行分类,获取招牌概念文本数据,将所述招牌概念文本数据输入预训练的自然语言模型,提取所述招牌概念文本数据的概念文本特征;将所述建筑物类别文本特征和概念文本特征输入知识图卷积神经网络,获得SVI文本特征;
S3:将所述视觉位置数据和文本位置数据输入全连接层网络,获得视觉位置特征向量和文本位置特征向量;
S4:将所述SVI局部视觉特征、视觉位置特征向量、SVI文本特征和文本位置特征向量输入待训练的多模态推理图卷积神经网络,经过多层图卷积层对多种模态特征进行推理融合,获得多模态推理特征;
S5:将所述多模态推理特征和所述SVI全局视觉特征组合后,输出至分类器进行分类,获得建筑物分类结果。
2.如权利要求1所述的一种基于街景图像多模态信息的建筑物分类方法,其特征在于:步骤S1具体为:
S11:将SVI输入至预训练的ResNet 152网络,获取全局视觉特征向量;
S12:将SVI输入至预训练的Faster R-CNN网络,获取局部视觉特征和局部视觉位置数据;
S13:将SVI输入至PaddleOCR基础模型进行招牌文本提取,获得招牌文本数据和招牌文本位置数据;
S14:将不同的建筑物类别输入预训练的Fasttext基础模型,得到每个建筑物类别文本特征。
3.如权利要求1所述的一种基于街景图像多模态信息的建筑物分类方法,其特征在于:步骤S2具体为:
S21:根据专家先验知识,对所述招牌文本数据进行招牌概念分类,得到招牌概念文本数据;将所述招牌概念文本数据输入预训练的Fasttext基础模型,映射为招牌概念文本数据的概念文本特征;
S22:对每张SVI,为所述概念文本特征和建筑物类别文本特征构建知识图
S23:将所述知识图送入图卷积神经网络,经过知识融合,得到所述SVI文本特征。
4.如权利要求3所述的一种基于街景图像多模态信息的建筑物分类方法,其特征在于:所述知识图的节点v包括两种类型:建筑物类别节点vb和招牌概念节点vt;其中建筑物类别节点vb代表SVI建筑物类别,一个招牌概念节点vt代表一张SVI中的一个招牌文本;
所述图G(V,e)的边e包括两种类型:一种是建筑物类别节点与招牌概念节点的边ect,一种是招牌概念节点与招牌概念节点之间的边ett
5.如权利要求3所述的一种基于街景图像多模态信息的建筑物分类方法,其特征在于:所述知识图是无向图。
6.如权利要求4所述的一种基于街景图像多模态信息的建筑物分类方法,其特征在于:步骤S23具体为:
对所述知识图其中/>代表节点集合,/>代表关联矩阵,具体为:
其中ki,kj∈V,代表两个全连接层,将知识图/>输入图卷积神经网络,单个卷积层操作为:
其中,R为关联矩阵,V为节点,Wg为图卷积神经网络中可学习的权重矩阵,Wr为残差权重矩阵,l为图卷积神经网络层数。
7.如权利要求1所述的一种基于街景图像多模态信息的建筑物分类方法,其特征在于:步骤S3具体为:
S31:将所述视觉位置数据输入全连接层网络,映射为视觉位置特征向量;
S32:将所述文本位置数据输入全连接层网络,映射为文本位置特征向量。
8.如权利要求7所述的一种基于街景图像多模态信息的建筑物分类方法,其特征在于:步骤S4具体为:
S41:将所述SVI局部视觉特征输入全连接层,映射得到第一局部视觉特征向量;将所述第一局部视觉特征向量与所述视觉位置特征向量连接,得到第二局部视觉特征向量;
将所述SVI文本特征输入全连接层,映射得到第一文本特征向量,将所述第一文本特征向量与所述文本位置特征向量连接,得到第二文本特征向量;
S42:对每张SVI,为所述概念文本特征和建筑物类别文本特征构建多模态推理图
S43:将所述推理图送入图卷积神经网络,经过多模态特征融合,得到所述多模态推理特征。
9.如权利要求8所述的一种基于街景图像多模态信息的建筑物分类方法,其特征在于:所述推理图的节点v包括两种类型:局部视觉节点Vv和文本节点Vt;其中一个局部视觉节点Vv代表一张SVI中一个边框所包含的视觉特征和边框的位置特征,一个文本节点Vt代表一张SVI中一个边框所包含的文本特征和边框的位置特征;所述图G(V,e)的边e包括三种类型:一种是局部视觉节点与文本节点的边evt,一种是局部视觉节点与局部视觉节点之间的边evv;一种是文本节点与文本节点之间的边ett
所述推理图是无向图。
10.如权利要求1所述的一种基于街景图像多模态信息的建筑物分类方法,其特征在于:步骤S5具体为:
S51:对所述多模态推理特征进行平均池化操作后,与SVI全局视觉特征经全连接层组合,得到所述多模态特征向量;
S52:将所述多模态特征向量输出至分类器,得到建筑物分类结果。
CN202310953601.3A 2023-07-31 2023-07-31 一种基于街景图像多模态信息的建筑物分类方法 Pending CN116958698A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310953601.3A CN116958698A (zh) 2023-07-31 2023-07-31 一种基于街景图像多模态信息的建筑物分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310953601.3A CN116958698A (zh) 2023-07-31 2023-07-31 一种基于街景图像多模态信息的建筑物分类方法

Publications (1)

Publication Number Publication Date
CN116958698A true CN116958698A (zh) 2023-10-27

Family

ID=88446119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310953601.3A Pending CN116958698A (zh) 2023-07-31 2023-07-31 一种基于街景图像多模态信息的建筑物分类方法

Country Status (1)

Country Link
CN (1) CN116958698A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117079148A (zh) * 2023-10-17 2023-11-17 腾讯科技(深圳)有限公司 城市功能区的识别方法、装置、设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117079148A (zh) * 2023-10-17 2023-11-17 腾讯科技(深圳)有限公司 城市功能区的识别方法、装置、设备和介质
CN117079148B (zh) * 2023-10-17 2024-01-05 腾讯科技(深圳)有限公司 城市功能区的识别方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN111461258A (zh) 耦合卷积神经网络和图卷积网络的遥感影像场景分类方法
CN104077447B (zh) 基于纸质平面数据的城市三维空间矢量建模方法
CN113947766B (zh) 一种基于卷积神经网络的实时车牌检测方法
CN116958698A (zh) 一种基于街景图像多模态信息的建筑物分类方法
Guo et al. Using multi-scale and hierarchical deep convolutional features for 3D semantic classification of TLS point clouds
CN104268140A (zh) 基于权重自学习超图和多元信息融合的图像检索方法
Vargas Munoz et al. Deploying machine learning to assist digital humanitarians: making image annotation in OpenStreetMap more efficient
CN113822232B (zh) 一种基于金字塔注意力的场景识别方法、训练方法及装置
Cao et al. Urban land use classification based on aerial and ground images
CN116662468A (zh) 基于地理对象空间模式特征的城市功能区识别方法及系统
CN116524189A (zh) 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法
Ogawa et al. Deep learning approach for classifying the built year and structure of individual buildings by automatically linking street view images and GIS building data
CN114519819A (zh) 一种基于全局上下文感知的遥感图像目标检测方法
CN117079148A (zh) 城市功能区的识别方法、装置、设备和介质
CN113052121A (zh) 一种基于遥感影像的多层级网络地图智能生成方法
CN116778347A (zh) 数据更新方法、装置、电子设备和存储介质
CN117197451A (zh) 基于域自适应的遥感图像语义分割方法及装置
Kajabad et al. YOLOv4 for urban object detection: Case of electronic inventory in St. Petersburg
CN110633890A (zh) 一种土地利用效率判断方法和系统
Gong et al. Urban land-use land-cover extraction for catchment modelling using deep learning techniques
Sun et al. Automatic building age prediction from street view images
CN115713603A (zh) 基于建筑空间图谱的多类型街区建筑群形态智能生成方法
CN112579813A (zh) 一种基于知识图谱的遥感图像检索方法及其装置
Wang et al. Mountainous village relocation planning with 3D GIS virtual imaging space model and neural network
CN112348038A (zh) 一种基于胶囊网络的视觉定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination