CN114708521A

CN114708521A - 基于街景图像目标关系感知网络的城市功能区识别方法及系统

Info

Publication number: CN114708521A
Application number: CN202210372812.3A
Authority: CN
Inventors: 陈杰; 孙家豪; 胡淑苓; 白雪; 邓敏
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-07-05

Abstract

本发明提供了一种基于街景图像目标关系感知网络的城市功能区识别方法及系统，包括：获取街景图像，并对所述街景图像进行随机水平翻转、随机几何变换和随机颜色抖动操作，增强训练数据；根据所述训练数据构建训练数据集，将训练集街景图像输入到基于图的关系感知网络中进行训练，得到训练后的城市功能区识别模型；对街景图像进行空间关系感知，根据得到的城市功能区类型对所述街景图像进行识别；获取到研究区域范围内的POI数据，对所述POI数据进行分类，并基于POI数据得到城市功能区分类；能够模拟人类识别和推理过程，捕捉街景图像中的局部空间关系和全局语义关系，增强城市功能区检测器的能力。

Description

基于街景图像目标关系感知网络的城市功能区识别方法及系统

技术领域

本发明涉及城市功能区识别领域，特别涉及一种基于街景图像目标关系感知网络的城市功能区识别方法及系统。

背景技术

目前，针对高分辨率遥感影像进行城市功能区识别的研究主要使用了地物的低层次的视觉特征，无法准确识别纹理和灰度较为相似的不同类型的地物。例如，来自高分遥感影像的光谱信息不足以将相同(土地覆盖)材料区分为不同的建筑物类别。例如，一栋混凝土建筑可能属于一所学校、一个市政厅或一家酒店。此外，城市功能区通常由一系列不同材料、不同纹理的对象组成，并被围在某个边界之内。例如，医院可就可能包含以将公园、道路和建筑物围在其边界内。从俯视角度确定复杂城市地区的功能区类别要困难得多，因为我们无法从遥感图像上确定一座建筑物是餐厅还是理发店。利用遥感图像仅从俯视角度进行识别，缺少了重要的建筑物细节信息，很难得到正确的建筑物类型。因此，对经济社会特征十分明显的城市功能区类型，利用遥感影像很难进行识别。

随着街景图像服务例如谷歌街景服务(GSV)的兴起，越来越多不同城市的具有准确地理定位的街景图像可以被获得。在常见计算机视觉任务中表现良好的视觉模型，如CNN，最近被广泛用于提取街景图像的视觉特征，用于城市土地利用和城市功能区分析。然而，现有的基于街景图像的城市功能区分类热衷于关注图像的整体视觉特征，而忽略了图像中的局部视觉特征之间的关系。所以，在当直接使用整个图像时，它们包含的许多相同的视觉元素(例如天空和地面)的特征就会对不同功能区的区分造成干扰，而使得最具可区分性的视觉元素(例如建筑物)反而没有得到充分利用。这些方法的一个共性不足，就是本质上受限于对忽略图像中对象之间复杂的局部空间关系的忽略。对图像中对象之间复杂的全局语义关系的忽略也是这些方法的局限性之一。

发明内容

本发明提供了一种基于街景图像目标关系感知网络的城市功能区识别方法及系统，其目的是为了解决城市功能区类型识别的问题。

为了达到上述目的，本发明提供了一种基于街景图像目标关系感知网络的城市功能区识别方法，包括：

步骤1，获取街景图像，并对所述街景图像进行随机水平翻转、随机几何变换和随机颜色抖动操作，增强训练数据；

步骤2，根据所述训练数据构建训练数据集，将训练集街景图像输入到基于图的关系感知网络中进行训练，得到训练后的城市功能区识别模型；

步骤3，对街景图像进行空间关系感知，根据得到的城市功能区类型对所述街景图像进行识别；

步骤4，获取到研究区域范围内的POI数据，对所述POI数据进行分类，并基于POI数据得到城市功能区分类。

其中，所述步骤2具体包括：

从所述街景图像的每个类别中随机选择75％的样本作为训练/验证集，剩余的25％作为测试集，将训练/验证集按照9:1的比例随机分为训练集和验证集，将训练集街景图像输入到基于图的关系感知网络中进行训练，得到训练后的城市功能区识别模型。

其中，所述对街景图像进行空间关系感知的步骤具体包括：

将街景图像输入到预训练的基线模型Faster R-CNN网络中，得到街景图像中建筑物的目标框和分类权重；

利用得到的分类权重对建筑物对象进行视觉嵌入，使用成对的伪坐标函数u(a,b)捕获成对的空间信息，并从中确定具有可学习的均值和协方差K的高斯核WK作为图卷积网络的权重；

将区域视觉嵌入作为节点和高斯核WK作为权重，输入到图卷积网络中，进行街景图像的空间关系感知。

其中，所述根据得到的城市功能区类型对所述街景图像进行识别的步骤具体包括：

对街景图像进行语义关系感知，对街景图像的标签进行词嵌入，得到标签的词嵌入向量；

通过计算数据集中标签的共线次数得到一个归一化的图卷积网络的邻接矩阵；

将词嵌入向量和邻接矩阵输入到图卷积神经网络中，得到图像标签的图嵌入向量；

将图嵌入向量与预训练的基线模型Faster R-CNN得到的视觉特征向量进行点乘，得到街景图像的语义关系特征；

将得到的街景图像的空间关系特征与语义关系特征和街景图像整体的视觉关系特征进行连接；

将连接得到的向量输入到全连接网络当中，最后进行softmax分类得到城市功能区的类型。

其中，所述步骤4具体包括：

通过爬虫方式从OSM官网上获取到研究区域范围内的POI数据；

根据城市功能区类型将POI数据分为居住功能区、商业功能区、工业功能区和公共服务功能区，与街景图像功能区分类相对应；

通过对POI数据进行关键数据处理，完成POI的城市功能区类型界定；

获取研究区域内相应路网数据,根据研究区域范围进行数据裁剪；

将根据关系感知网络得到的基于街景图像的城市功能区分类和POI点数据得到的功能区映射进行结合，将4类功能区数据进行二维核密度计算，得到各功能区类别的核密度分布；

根据得到的各功能区类别的核密度分布，通过设定各区域内的核密度阈值，对各个区域内的城市功能区类型进行确定。

本发明还提供了一种基于街景图像目标关系感知网络的城市功能区识别系统，包括：

数据获取模块，用于获取街景图像，并对所述街景图像进行随机水平翻转、随机几何变换和随机颜色抖动操作，增强训练数据；

模型训练模块，用于根据所述训练数据构建训练数据集，将训练集街景图像输入到基于图的关系感知网络中进行训练，得到训练后的城市功能区识别模型；

图像识别模块，用于对街景图像进行空间关系感知，根据得到的城市功能区类型对所述街景图像进行识别；

功能区分类模块，用于获取到研究区域范围内的POI数据，对所述POI数据进行分类，并基于POI数据得到城市功能区分类。

本发明的上述方案有如下的有益效果：

本发明所述的基于街景图像目标关系感知网络的城市功能区识别方法及系统基于图的关系感知网络框架，可以用来捕捉街景图像中的局部空间关系和全局语义关系，能够获得更多的建筑物细节特征，从而获得更加准确的建筑物类别，与基于图像级CNN的街景图像城市功能区识别方法相比，能够模拟人类识别和推理过程，捕捉街景图像中的局部空间关系和全局语义关系，增强城市功能区检测器的能力。

本发明的其它有益效果将在随后的具体实施方式部分予以详细说明。

附图说明

图1为本发明的基于街景图像目标关系感知网络的城市功能区识别方法流程图。

图2为建筑物检测的可视化结果。

图3为卡尔加里预测建筑物的建筑类别比例及功能区比例。

图4为结合POI数据及街景数据的城市功能区分类图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是锁定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

如图1所示，本发明的实施例提供了一种基于街景图像目标关系感知网络的城市功能区识别方法，包括：

步骤1，街景图像的预处理：主要是对街景图像进行随机水平翻转、随机几何变换和随机颜色抖动来增强训练数据。

步骤2，构建训练数据集和模型训练：从街景图像的每个类别中随机选择75％的样本作为训练/验证集，剩余的25％作为测试集。然后将训练/验证集按照9:1的比例随机分为训练集和验证集。将训练集街景图像输入到基于图的关系感知网络中进行训练，得到训练后的城市功能区识别模型。

步骤3，对街景图像进行功能区识别的主要步骤如下：

对街景图像进行空间关系感知，首先，将街景图像输入到预训练的基线模型Faster R-CNN网络中，得到街景图像中建筑物的目标框和分类权重。

利用得到的分类权重对建筑物对象进行视觉嵌入。

使用成对的伪坐标函数u(a,b)捕获成对的空间信息，并从中确定具有可学习的均值和协方差K的高斯核WK作为图卷积网络的权重。

对街景图像进行语义关系感知，首先对街景图像的标签进行词嵌入，得到标签的词嵌入向量。

通过计算数据集中标签的共线次数得到一个归一化的图卷积网络的邻接矩阵。

将词嵌入向量和邻接矩阵输入到图卷积神经网络中，得到图像标签的图嵌入向量。

将图嵌入向量与预训练的基线模型Faster R-CNN得到的视觉特征向量进行点乘，得到街景图像的语义关系特征。

将得到的街景图像的空间关系特征与语义关系特征和街景图像整体的视觉关系特征进行连接。

步骤4，基于POI数据得到城市功能区分类的主要步骤如下：

通过爬虫方式从OSM官网上获取到研究区域范围内的POI数据。

对城市功能的普遍认知度以及功能显著性进行考虑,与街景图像功能区分类相同，将POI数据也分为居住功能区、商业功能区、工业功能区和公共服务功能区,直接作为城市功能区类型。

通过对POI数据进行提取、清洗、查重、坐标变换、定义投影和空间位置等关键数据处理,从而完成POI的城市功能区类型界定,以及相对地的数量计算。

从OpenStreetMap官网下载研究区域内相应路网数据,根据研究区域范围进行数据裁剪。

根据本发明的POI样本点,对其进行了二维平面的展开,再根据各类功能用地网络覆盖区域比例指数Sij,实现功能区域的初步提取。

将根据关系感知网络得到的基于街景图像的城市功能区分类和POI点数据得到的功能区映射进行结合，将4类功能区数据进行二维核密度计算，得到各功能区类别的核密度分布。根据得到的各功能区类别的核密度分布，通过设定各区域内的核密度阈值，对各个区域内的城市功能区类型进行确定。

第一实施例

下面以加拿大的卡尔加里市为研究区域，对本发明的具体实施进行说明。

步骤一、数据预处理

1)本发明采用的数据集BEAUTY数据集其中包含19,070张街景图像和38,857个独立建筑物。

2)从每个类别中随机选择75％的样本作为训练/验证集，剩余的25％作为测试集。然后将训练/验证集按照9:1的比例随机分为训练集和验证集。为了减少类不平衡的影响并获得更好的性能，使用随机少数过采样策略对训练样本进行类重新平衡。公共和工业的样本分别扩大了2倍和2.5倍。由于在训练前的数据增强阶段所有训练样本都会在水平方向随机翻转，因此少数只需要随机复制即可。本发明还尝试了随机几何变换和随机颜色抖动来增强训练数据。但考虑到街景图像分类和建筑物检测的任务，性能不如随机水平翻转。再平衡后的样本分布。将数据增强的类平衡后，训练图像和单个建筑物的总数分别为16,871和32,439。

步骤二、街景图像分类的基线测试：对于街景图像分类的任务，选择ResNet50和ResNet101作为候选基线模型。我们以0.01的学习率对BEAUYT上的预训练模型5进行微调，每10个epoch后乘以0.1倍。使用Adam作为优化器进行了100个epoch的训练。虽然训练集已经重新平衡，使用每类指标的宏观平均值，即全局精度(M-P)、全局召回率(M-R)和全局F1Score(M-F1)。如表I所示，ResNet50在所有宏观平均指标上的表现都优于ResNet101。因此，选择ResNet50作为BEAUTY上街景图像分类的基线模型。

表I图像分类精度

步骤三、建筑物检测的基线测试：对于建筑物检测的任务，选择具有ResNet50和ResNet101主干的Faster R-CNN和Cascaded RCNN作为候选基线模型。建筑物检测精度如表II所示

表II建筑物检测精度

步骤四、基于关系感知网络的功能区识别测试：在选择Ca-101作为默认检测器后，通过两个关系感知网络，即空间关系感知和语义关系感知网络进行功能区识别测试。

表III功能区识别精度

步骤五、基于POI数据的功能区识别

1)通过爬虫方式从OSM官网上获取到研究区域范围内的POI数据。

2)对城市功能的普遍认知度以及功能显著性进行考虑,与街景图像功能区分类相同，将POI数据也分为居住功能区、商业功能区、工业功能区和公共服务功能区,直接作为城市功能区类型。

3)通过对POI数据进行提取、清洗、查重、坐标变换、定义投影和空间位置等关键数据处理,从而完成POI的城市功能区类型界定,以及相对地的数量计算。

4)从OpenStreetMap官网下载研究区域内相应路网数据,根据研究区域范围进行数据裁剪。

5)根据本发明的POI样本点,对其进行了二维平面的展开,再根据各类功能用地网络覆盖区域比例指数Sij,实现功能区域的初步提取。

6)将根据关系感知网络得到的基于街景图像的城市功能区分类和POI点数据得到的功能区映射进行结合，将4类功能区数据进行二维核密度计算，得到各功能区类别的核密度分布。根据得到的各功能区类别的核密度分布，通过设定各区域内的核密度阈值，对各个区域内的城市功能区类型进行确定。

步骤六、结合POI数据及街景图像数据得到的城市功能用核密度分析的方法进行城市功能区识别。

本发明的实验结果表明，与基于图像级CNN的模型相比，所提出的方法在宏观精度上实现了12.8％的性能提升，在宏观召回率上实现了12％的性能提升。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于街景图像目标关系感知网络的城市功能区识别方法，其特征在于，包括：

2.根据权利要求1所述的基于街景图像目标关系感知网络的城市功能区识别方法，其特征在于，所述步骤2具体包括：

3.根据权利要求2所述的基于街景图像目标关系感知网络的城市功能区识别方法，其特征在于，所述对街景图像进行空间关系感知的步骤具体包括：

4.根据权利要求3所述的基于街景图像目标关系感知网络的城市功能区识别方法，其特征在于，所述根据得到的城市功能区类型对所述街景图像进行识别的步骤具体包括：

5.根据权利要求3所述的基于街景图像目标关系感知网络的城市功能区识别方法，其特征在于，所述步骤4具体包括：

通过爬虫方式从OSM官网上获取到研究区域范围内的POI数据；

6.一种基于街景图像目标关系感知网络的城市功能区识别系统，其特征在于，包括：