CN111125553A - 一种支持多源数据的城市建成区智能提取方法 - Google Patents
一种支持多源数据的城市建成区智能提取方法 Download PDFInfo
- Publication number
- CN111125553A CN111125553A CN201911153539.XA CN201911153539A CN111125553A CN 111125553 A CN111125553 A CN 111125553A CN 201911153539 A CN201911153539 A CN 201911153539A CN 111125553 A CN111125553 A CN 111125553A
- Authority
- CN
- China
- Prior art keywords
- data
- built
- area
- city
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A30/00—Adapting or protecting infrastructure or their operation
- Y02A30/60—Planning or developing urban green infrastructure
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种支持多源数据的城市建成区智能提取方法,通过寻找与城市建成区信息存在关联的不同来源的低成本数据,通过核密度估计方法实现点、线和面三类数据源的归一化,并通过决策树算法实现统一的分类器的构建和评估,从而获得一个有效的分类器;这些数据可以单独或组合使用,通过分类器进行城市建成区信息的提取,从而估计城市建成区的空间分布。本提取方法,它能够以一个极低的成本为城市规划者和决策部门提供城市建成区的变动信息,从而为他们检测城市扩张和制定城市规划提供参考信息。
Description
技术领域
本发明涉及城市规划和城市管理领域,尤其涉及一种支持多源数据的城市建成区智能提取方法。
背景技术
准确地获取城市建成区信息是一项有意义但具有挑战性的工作。学者对此开展了广泛的研究。传统上城市建成区信息主要借助遥感技术从遥感影像中获取。包括路网(RN)数据、夜间照明(Nighttime Light,简称NTL)数据、雷达图像数据及其它基于遥感影像的数据。从遥感影像中获取城市建成区信息已经取得了一定的成就。然而,由于不同遥感数据的获取成本不同,处理流程并不简单,因而传统的研究方法难以实现普及应用。寻找与城市建成区信息存在关联的不同来源的低成本数据,并将它们应用于城市建成区识别是一件有意义的事情。
使用开放获取的多源地理数据实现城市建成区的自动提取是一个必然的研究趋势。随着大数据时代的到来,网络空间的数据以几何形式增长,从海量的开放获取的数据中挖掘相关信息并将其用于城市建成区提取是一项有意义的工作。
点类型的电子地图兴趣点(Point ofInterest,POI)数据为城市建成区信息的获取提供了数据源。由于POI数据开放获取的、更新周期短,且可以很好地表征城市空间要素的集聚状况,已经引起了学者的广泛关注,在城市功能区识别、人口的空间分布、土地利用分类等领域具有广泛的应用。POI数据中潜藏的城市建成区信息需要学者的挖掘。
因此,结合多源数据可以从不同的视角表征城市建成区信息,探索一种结合开放获取的点、线、面三类数据的城市建成区提取的通用方法很有必要。
发明内容
有鉴于现有技术的上述缺陷,本发明的目的是提供一种支持多源数据的城市建成区智能提取方法,从海量的开放获取的数据中挖掘相关信息并将其用于城市建成区提取。
为实现上述目的,本发明提供了以下方案:
一种支持多源数据的城市建成区智能提取方法,包括以下步骤:
S1:输入地理空间数据集和与之对应的真实城市建成区数据集;
S2:数据预处理,通过核密度估计算法,将地理空间数据集和真实城市建成区数据集归一化到同一平面下的设定分辨率的归一化空间数据;
S3:图像数字化,将归一化空间数据转为二维数组并降为一维数组;
S4:建立数据框,如果S1输入的地理空间数据集个数大于1,则会得到多个一维数组,将这些一维数组组合后转为数据框;否则,得到一个一维数组,将其直接转为数据框;
S5:将数据框包含的样本数据分为训练样本和测试样本,通过决策树算法,实现分类器构建和评估;
S6:根据训练完成的分类器,输入新的地理空间数据样本,提取城市建成区信息,估计城市建成区的空间分布。
进一步的,所述地理空间数据包括点类型数据、线类型数据和面类型数据;所述S2的数据预处理包括以下步骤:
S21,对于点类型数据、线类型数据通过核密度估计算法得到面类型数据;
S22,对于真实的建成区数据进行二值化处理,是建成区则赋值为1,非建成区则赋值为0;
S23,将点类型数据、线类型数据、面类型数据和真实建成区数据归一化到同一平面下的设定分辨率的归一化空间数据。
进一步的,所述点类型数据包括POI数据;所述线类型数据包括RN数据;所述面类型数据包括NTL数据。
进一步的,所述S2中的设定分辨率为20m-50m。
进一步的,所述S4中的数据框为有若干行和列的数据集,它的每列是一个变量,每行是一个观测样本。
进一步的,所述S5包括:
S51,将数据框包含的样本数据分为训练样本和测试样本;
S52,将训练样本输入决策树,确定决策树的叶节点数,从而得到一个分类器,并输出训练样本的分类结果;
S53,根据真实城市建成区数据,评估分类器对训练样本的分类结果,验证分类器的性能;
S54,根据真实城市建成区数据,评估分类器对测试样本的分类结果,验证分类器的泛化能力即其对新数据样本的适用性。
进一步的,所述分类器评估是采用双分类器进行分类,并采用指标Precision、recall和F1-score在对建成区提取的准确率进行评估;
所述双分类器的分类,根据参考数据,将分类结果分为四类:TP、TN、FP和FN;其中TP代表被正确归类的建成区的样本;FP代表非建成区被错误归类到建成区的样本;FN表示建成区被错误归类到非建成区的样本;TN代表被正确归类为非建成区的样本;
在所述指标中,Precision为精准度/查准率,Precision=TP/(TP+FP);recall为召回率/查全率,recall=TP/(TP+FN);F1-score是precision和recall的调和平均值,F1-score=2*(precision*recall)/(precision+recall)。
进一步的,所述决策树的叶节点数采用等距离抽样测试法确定。
进一步的,所述S6包括:
S61,输入新的地理空间数据集;
S62,数据预处理,将地理空间数据集预处理成归一化空间数据,将归一化空间数据转为二维数组并降为一维数组,将一维数组转为数据框;
S63,使用训练完成的分类器,输入数据框中的数据样本,提取城市建成区信息,估计城市建成区的空间分布。
本发明实现了如下技术效果:
本发明的支持多源数据的城市建成区智能提取方法,通过寻找与城市建成区信息存在关联的不同来源的低成本数据,通过核密度估计算法产生归一化的空间数据,进而通过决策树算法实现统一的分类器的构建和评估,提出了一种支持点、线和面三类数据源输入的城市建成区智能提取方法,三类数据可以单独或组合使用,并基于这些数据估计城市建成区的空间分布。它能够以一个极低的成本为城市规划者和决策部门提供城市建成区的变动信息,进而为他们检测城市扩张和制定城市规划提供参考信息。
附图说明
图1是厦门市地理位置信息;
图2是高德POI数据的三级分类编码系统;
图3是厦门市2019年的各类POI数据的空间分布;
图4是本发明的城市建成区智能提取方法框架;
图5是决策树的基本结构;
图6是厦门市2019年各类城市建成区和非建成区的POI比例;
图7是KDE带宽对不同指标的影响及其在城市建设中的应用;
图8是DT模型节点数对城市建成区提取不同指标及其组合的影响;
图9是利用BAIE不同输入数据对城市建成区的提取结果;
图10是BAIE不同数据指标计算评价指标的变化;
图11是用不同数据指标计算的BAIE ROC曲线。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
现结合附图和具体实施方式对本发明进一步说明。
本发明公开了一种支持多源数据的城市建成区智能提取方法,寻找与城市建成区信息存在关联的不同来源的低成本数据,并基于这些数据估计城市建成区的空间分布。在本实施例中,选取POI数据、RN数据和NTL数据三类包含地理空间信息的典型数据,结合核密度估计(Kernel Density Estimation,KDE)方法与决策树(Decision Tree,DT)算法,提出了一种支持点、线和面三类数据源输入的城市建成区智能提取方法(Built-up AreaIntelligent Extraction,BAIE)。在本实施例中,以厦门市(图1)为例验证了BAIE的有效性。它能够以一个极低的成本为城市规划者和决策部门提供城市建成区的变动信息,从而为他们检测城市扩张和制定城市规划提供参考信息。
(一)、本发明公开了一种支持多源数据的城市建成区智能提取方法,包括以下步骤:
如图4所示,本发明公开了一种支持多源数据的城市建成区智能提取方法,框架图展示了使用该方法实现城市建成区提取的流程,包括输入数据样本、数据预处理、图像数字化、建立数据框、分类器构建与评估(原始样本总量:1890571。其中,测试集占比33%,随机状态为160)、城市建成区提取。具体包括:
S1:输入数据样本
输入地理空间数据样本和真实城市建成区数据样本;所述地理空间数据包括点类型数据、线类型数据和面类型数据。
1.1POI数据
POI数据是一种包含了名称、类型、经纬度、地址、地理区划、联系方式等详细信息的离散的点形式的地理空间数据。在中国的高德电子地图中,与人类的衣食住行等人类活动有关的空间接触(例如,咖啡厅、酒店、便利店和医院等)全部抽象为含有一个地理坐标对(经纬度)的地理空间数据点。本文用到的POI数据由高德地图开放平台的Web服务提供的开放数据。数据可以通过程序从高德Web服务API网站(https://lbs.amap.com/api/webservice/summary)免费爬取。数据获取步骤的简要介绍如下:将中国的行政边界范围划分为大小合适的网格并将每一个网格作为查询的多边形,通过多边形搜索机制构建URL,发送HTTP请求给高德的搜索服务API,API会返回对应多边形内部的所有JSON格式的数据,将返回的数据解析存入SQL Server。
1.2RN数据
RN数据为OpenStreetMap(OSM)提供的开放数据。数据从OpenStreetMap网站(https://www.openstreetmap.org/)直接免费下载。
1.3NTL数据
NTL数据是利用Suomi国家极轨伙伴关系(S-NPP)卫星的日/夜波段(DNB)记录可见红外成像辐射计套件(VIIRS)数据。数据可从NOAA/NGDC网站(https://ngdc.noaa.gov/eog/index.html)直接下载。
1.4Target数据
Target数据为真实建成区数据,为厦门市自然资源和规划局(Xiamen MunicipalNatural Resources and Planning Bureau)提供的当地城市建成区实际分布现状数据集。
这些数据均为公开数据,可以免费获取。
S2:数据预处理
对于点类型数据、线类型数据通过核密度估计算法得到面类型数据;对于真实的城市建成区数据进行二值化处理,是城市建成区则赋值为1,是非城市建成区则赋值为0;将点类型数据、线类型数据、面类型数据和真实建成区数据归一化到同一平面下的设定分辨率的归一化空间数据。
2.1POI数据预处理
高德地图自定义了POI数据的3级分类系统(图2)。每条POI数据的类别编码由一个6位的十进制数组成。类别编码的前两位数代表一级类别;中间的两位数代表二级类别;最后的两位数代表三级类别。类别的分级越高,数据的分类就越详细具体。总体来看,高德POI数据有23个一级类别,264个二级类别,869个三级类别。在本实施例中,主要集中于高德POI数据的一级类别。
一个典型的高德POI记录如鸟巢为:{"id":"B000A7GWO5","name":"国家体育场","type":"体育休闲服务;运动场馆;综合体育馆","typecode":"080101","address":"国家体育场南路1号奥林匹克公园","location":"116.395777,39.993427","citycode":"010","cityname":"北京市","alias":"鸟巢",…}。其中,“adname”字段记录了该条POI数据所在的县级行政区域名称。在中国县级行政区划分的命名规则中,所有行政区划汉字名称包括这些尾缀:“区”、“市”、“域”、“旗”、“县”、“岛”、“辖”七种汉字后缀。其中,名字以“区”、“市”作为尾缀的行政区划单元基本分布于城市建成区内部。名字以“域”、“旗”、“县”、“岛”、“辖”作为尾缀的行政区划单元主要分布于非建成区内部。据此,我们对全国6000多万条POI数据记录的“adname”字段进行了文本分析。然后使用结构化查询语言(T-SQL)语句在SQL Server中分别统计了中国城市建成区和非建成区POI数据的分布比例。
POI数据在厦门城市中心区的空间分布密度明显高于边缘区域郊区(图3)。POI数据的分布差异可以用于估计城市建成区的空间分布。在全国尺度下,对于一级类别的POI数据,我们将数量高于10000并且城市建成区与非建成区的数量比例大于4:1的类别视为与城市建成区信息高度相关的类别。据此,我们从厦门市原始的POI数据集中筛选了6类与城市建成区信息高度相关的POI数据(交通设施服务、通行设施、公共设施、室内设施、公司企业、商务住宅)构建了POI_Sel指标。设置原始的POI数据作为对照指标,用POI_All表示,用以验证数据筛选对城市建成区提取结果的改进。
2.2点、线和面的尺度统一
首先对于点、线类型的数据即POI_Sel、POI_All和RN数据通过KDE得到面类型数据。然后对于真实城市建成区数据即Target数据进行二值化处理,城市建成区赋值为1,非建成区赋值为0。最后通过投影变换(projection transformation)、重采样等空间分析技术将POI_Sel、POI_All、RN、NTL、Target数据归一化到同一平面下30m分辨率的空间数据。该分辨率可根据空间密度进行调整,一般设置为20m-50m,在本实施例中,该分辨率为30m,与之相对应的,城市网格的大小为30m×30m。
2.3核密度估计(KDE)算法
KDE提供了一种在不假设密度分布或特征参数的情况下估计指标的可能分布的非参数密度估计(Non-parametric density estimation,NPDE)方法。在本实施例中,我们通过KDE将POI和RN数据转换为面类型的数据,以用于估计城市建成区的空间分布。
KDE假设将核函数相加来表征第j个样本点的密度,其核函数公式如下:
其中,K(x)假设为一个对称概率密度函数,Xj=(X1,X2,…,Xn)为来自总体的n维的观察数据,β是带宽。
带宽决定了估计结果曲线的光滑性并会对估计结果的准确性产生影响,寻找合适的带宽是估计中一个非常关键的步骤。现有技术已经给出了很多不同的带宽选择方法。本方法采用等距离抽样测试法确定KDE的局部最优带宽。我们在带宽范围250-2500m内等距离选取了10个代表性带宽估计样本,间隔为250m。对比不同样本用于城市建成区提取的F1-score,选择F1-score最高的样本对应的估计带宽作为最合适的带宽。
S3:图像数字化,将二维的m行n列的城市网格的归一化空间数据转换为m行n列的二维数组,将二维数据按行展开为含有m×n个元素的一维数组。
S4:建立数据框,如果S1输入的地理空间数据集个数大于1,则会得到多个一维数组,将这些一维数组组合后转为数据框;否则,得到一个一维数组,将其直接转为数据框;
S5:分类器构建和评估,具体包括:
S51,将数据框包含的样本数据分为训练样本和测试样本;
S52,将训练样本输入决策树,确定决策树的叶节点数,从而得到一个分类器,并输出基于训练样本的城市建成区提取结果;
S53,根据真实城市建成区数据,评估双分类器对训练样本的分类结果,根据决策树分类器的评估指标评价分类器的性能;
S54,根据真实城市建成区数据,评估双分类器对测试样本的分类结果,验证分类器的泛化能力即其对新数据样本的适用性。
5.1决策树
决策树是一种通过学习从数据特征推断出特定的决策规则来预测目标变量值的非参数监督学习方法。该方法已经被广泛的应用于解决遥感领域的分类问题。结构图(图5)描述了一个由节点和有方向的边共同组成的决策树的基本分层结构。决策树通常在根节点和内部节点根据测试条件确定要遍历的分支。它的每个叶节点含有一个分类标签。决策树的构建步骤:(1)所有参与训练的样本从根节点开始执行运算。(2)根据输入的变量将样本划分为尽可能纯(purest)的子集。基尼系数可以表示子集的纯度。基尼系数值越小,数据纯度越高。(3)重复划分样本数据到更纯的子集中。
采用等距离抽样测试法确定决策树的叶节点数。我们在叶节点数范围2-30内等距离选取了29个代表性样本,间隔为1。参考F1-score的大小并尽可能降低决策树结构的复杂性,确定决策树的叶节点数。
5.2分类器评估
根据参考数据,即target数据,将分类结果分为四种类型(表1)在对建成区分类的评估中,精准度/查准率(Precision)、召回率/查全率(recall)和F1分数(F1-score)被用作主要指标(表2)。在遥感分类问题中,精准度/查准率又称用户精度,召回率又称生产者精度,Precision,recall和F1-score的范围都在0到100%之间,值越大,准确率越高。由于研究区域包含不平衡的土地覆盖类型,且基于地图的准确率无法解释分类的准确率,因此,我们使用了三种准确率指标,而不是总体准确率和Kappa统计。此外,为了了解模型的泛化能力,我们还计算了观测者操作特性曲线(ROC)和ROC曲线下的面积(AUC)。
表1-与参考数据相对应的分类结果中的四种类型
TP代表被正确归类的建成区的样本;
FP代表非建成区被错误归类到建成区的样本(委托误差);
FN表示建成区被错误归类到非建成区的样本(漏分误差);
TN代表被正确归类为非建成区的样本。
表2-BAIE精度评价指标的意义及计算方法
S6,城市建成区提取,具体包括:输入新的地理空间数据集;数据预处理,将地理空间数据集预处理成归一化空间数据,将其转为二维数组并降为一维数组,将一维数组转为数据框;使用训练完成的分类器,对数据框中的空间数据进行分类,提取城市建成区信息,估计城市建成区的空间分布。
(二)、结果
1POI在城市建成区内部与外部的分布
图6给出了厦门市2019年POI数据在城市建成区和非建成区的分布差异。从数据的总体分布状况来看,分布于城市建成区的POI数据约占总体比例的75%,几乎是分布于城市非建成区内数据比例的3倍。对于23个单独类别的POI数据,城市建成区内部有18类POI占总体的比例高于70%,城市非建成区内部有5类POI占总体的比例低于30%。
2带宽
图7的折线图显示了随着KDE带宽的变化,根据POI_All、POI_Sel和RN三个数据指标计算的城市建成区识别的F1-score的变化趋势。总体来看,在带宽的变化范围内,POI_Sel数据的F1-score始终保持最高,与此同时RN数据的F1-score在开始最低,然后随着带宽的增加,它的F1-score缓慢提高到其他两个指标的同等大小。
由POI_Sel数据计算的F1-score在带宽为750m达到最大值77.92%,它高于带宽为500m时POI_All数据的F1-score的最大值74.85%。在带宽为1500m时,RN数据的F1-score达到最大值72.50%。POI数据的KDE的最优带宽为500m,与此同时RN数据的KDE的最优带宽为1500m。
3指标组合与叶节点数
图8的条形图显示了随着决策树叶节点数的增加根据不同的数据指标计算的城市建成区识别F1-score的变化趋势。总体来看,当决策树的节点数达到11及以上时,不同指标的F1-score均保持平稳。
为了确保DT的参数不被过度优化,节点数截取11,这个时候所有数据指标的F1-score达到稳定状态。RN_NTL_POI数据的F1-score最高为79.59%,其次为NTL_POI和RN_POI数据,F1-score分别为79.33%,77.45%。POI数据的F1-score为75.76%,略微高于RN_NTL数据的F1-score为74.59%。NTL和RN数据的F1-score相对较低,它们分别为72.19%和71.29%。
4.建成区提取与精度评价
4.1建成区提取
图9展示了使用不同的指标通过BAIE模拟的城市建成区结果。总体来看,RN_NTL_POI指标正确识别的城市建成区样本比例最高,与此同时RN数据正确识别的城市建成区样本比例最低。POI数据正确识别的城市建成区样本的比例高于NTL数据,它们主要分布在城市建成区与非建成区的交界处。
BAIE误判的建成区(FP)集中分布在城市建成区与非建成区的交界部分。它误判的非建成区(FN)主要分布在两类区域,一类主要由距离主城区较远的非建成区内部的发达乡镇组成,另一类主要为城市建成区与非建成区的交界处。RN_NTL_POI指标的FP和FN低于单独的RN、NTL和POI数据。
根据不同的数据指标预测的城市建成区面积与真实面积存在差异(表3)。RN数据具有仅仅为0.08%的最小相对误差,其次RN_NTL_POI指标的它为0.62%。NTL数据的相对误差为3.56%,小于POI数据的相对误差12.26%。
表3-利用不同数据及其相对误差使用BAIE预测城市建成区
4.2精度评价
图10的图表展示了不同的数据指标使用BAIE计算的精度评价指标Precision、Recall和F1-score的值的差异。总体来看,三个精度评价指标的值均在70%-82%范围内,POI数据的Precision最大,RN_NTL_POI指标的Recall和F1-score最大。
RN数据的Precision、Recall和F1-score分别为71.32%,71.26%和71.29%,NTL数据三个精度分别为73.52%,70.90%和72.19%,POI数据的三个精度分别为81.05%,71.11%和75.76%。POI数据的3个精度评价指标值均高于NTL数据。点、线、面三种类型的数据的组合(RN_NTL_POI)的Precision、Recall和F1-score分别为79.34%,79.84%和79.59%。
我们根据不同的数据指标绘制了ROC曲线,并计算了ROC曲线下面积(AUC)(图11)。总体来看,四个指标的AUC得分均高于0.9。其中,根据RN_NTL_POI计算的AUC得分最高为0.95,根据RN计算的AUC得分最低为0.92。POI的AUC得分为0.94,高于NTL的AUC得分0.93。
根据上述分析,我们获得了RN、POI和NTL数据三类数据的不同组合对城市建成区提取结果的影响。虽然使用三类数据的组合的表现最好,但是使用单独的RN、POI和NTL数据实现城市建成区自动提取的精度同样很高。因而,只需拥有RN、POI和NTL数据中的一种数据源,就可以使用本发明提出的BAIE实现高精度的城市建成区自动提取。
在应用本方法时,数据获取并不局限于RN、POI和NTL数据这三类数据,也可是其他可以用于城市建成区自动提取的新的开放获取或低成本的数据源。
本发明的支持多源数据的城市建成区智能提取方法,可转化成计算机程序,并运行于个人电脑(PC)、服务器或云服务器等计算机系统。计算机系统包括有存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现所述的支持多源数据的城市建成区智能提取方法。优选的,所述计算机系统运行有数据库系统,如SQL Server、MySQL等,以支持海量的数据的存取、查询、运算等操作。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
Claims (10)
1.一种支持多源数据的城市建成区智能提取方法,其特征在于,包括以下步骤:
S1:输入地理空间数据集和与之对应的真实城市建成区数据集;
S2:数据预处理,通过核密度估计算法,将地理空间数据集和真实城市建成区数据集归一化到同一平面下的设定分辨率的归一化空间数据;
S3:图像数字化,将归一化空间数据转为二维数组并降为一维数组;
S4:建立数据框,如果S1输入的地理空间数据集个数大于1,则会得到多个一维数组,将这些一维数组组合后转为数据框;否则,得到一个一维数组,将其直接转为数据框;
S5:将数据框包含的样本数据分为训练样本和测试样本,通过决策树算法,实现分类器构建和评估;
S6:根据训练完成的分类器,输入新的地理空间数据样本,提取城市建成区信息,估计城市建成区的空间分布。
2.如权利要求1所述的支持多源数据的城市建成区智能提取方法,其特征在于,所述地理空间数据包括点类型数据、线类型数据和面类型数据;所述S2的数据预处理包括以下步骤:
S21,对于点类型数据、线类型数据通过核密度估计算法得到面类型数据;
S22,对于真实的建成区数据进行二值化处理,是建成区则赋值为1,是非建成区则赋值为0;
S23,将点类型数据、线类型数据、面类型数据和真实建成区数据归一化到同一平面下的设定分辨率的归一化空间数据。
3.如权利要求2所述的支持多源数据的城市建成区智能提取方法,其特征在于:所述点类型数据包括POI数据;所述线类型数据包括RN数据;所述面类型数据包括NTL数据。
4.如权利要求1所述的支持多源数据的城市建成区智能提取方法,其特征在于:所述S2中的设定分辨率为20m-50m。
5.如权利要求1所述的支持多源数据的城市建成区智能提取方法,其特征在于:所述S4中的数据框为有若干行和列的数据集,它的每列是一个变量,每行是一个观测样本。
6.如权利要求1所述的支持多源数据的城市建成区智能提取方法,其特征在于:所述S5包括:
S51,将数据框包含的样本数据分为训练样本和测试样本;
S52,将训练样本输入决策树,确定决策树的叶节点数,从而得到一个分类器,并输出训练样本的分类结果;
S53,根据真实城市建成区数据,评估分类器对训练样本的分类结果,验证分类器的性能;
S54,根据真实城市建成区数据,评估分类器对测试样本的分类结果,验证分类器的泛化能力即其对新数据样本的适用性。
7.如权利要求6所述的支持多源数据的城市建成区智能提取方法,其特征在于:所述分类器评估是采用双分类器进行分类,并采用指标Precision、recall和F1-score再对建成区分类进行评估;
所述双分类器的分类,根据参考数据,将分类结果分为四类:TP、TN、FP和FN;其中TP代表被正确归类的建成区的样本;FP代表非建成区被错误归类到建成区的样本;FN表示建成区被错误归类到非建成区的样本;TN代表被正确归类为非建成区的样本;
在所述指标中,Precision为精准度/查准率,Precision=TP/(TP+FP);recall为召回率/查全率,recall=TP/(TP+FN);F1-score是precision和recall的调和平均值,F1-score=2*(precision*recall)/(precision+recall)。
8.如权利要求1所述的支持多源数据的城市建成区智能提取方法,其特征在于,所述城市建成区提取包括:
S61,输入新的地理空间数据集;
S62,数据预处理,将地理空间数据集预处理成归一化空间数据,将其转为二维数组并降为一维数组,将数组转为数据框;
S63,使用训练完成的分类器,对数据框中的空间数据进行分类,提取城市建成区信息,估计城市建成区的空间分布。
9.一种计算机系统,其特征在于:包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如权利要求1至8任一项所述的支持多源数据的城市建成区智能提取方法。
10.一种计算机可读存储介质,其特征在于:所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1至8任一项所述的支持多源数据的城市建成区智能提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911153539.XA CN111125553B (zh) | 2019-11-22 | 2019-11-22 | 一种支持多源数据的城市建成区智能提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911153539.XA CN111125553B (zh) | 2019-11-22 | 2019-11-22 | 一种支持多源数据的城市建成区智能提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111125553A true CN111125553A (zh) | 2020-05-08 |
CN111125553B CN111125553B (zh) | 2022-05-31 |
Family
ID=70496211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911153539.XA Active CN111125553B (zh) | 2019-11-22 | 2019-11-22 | 一种支持多源数据的城市建成区智能提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111125553B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010797A (zh) * | 2021-04-15 | 2021-06-22 | 王美珍 | 一种基于云平台的智慧城市数据分享方法及其系统 |
CN113065481A (zh) * | 2021-04-09 | 2021-07-02 | 中国测绘科学研究院 | 一种运输投送环境下融合多源数据的城市建成区提取方法 |
CN113205042A (zh) * | 2021-04-30 | 2021-08-03 | 武汉大学 | 一种城市多层次边界的识别方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750363A (zh) * | 2012-06-13 | 2012-10-24 | 天津市规划信息中心 | 一种城市地理信息数据仓库的构建方法 |
CN106127121A (zh) * | 2016-06-15 | 2016-11-16 | 四川省遥感信息测绘院 | 一种基于夜间灯光数据的建成区智能化提取方法 |
CN107766572A (zh) * | 2017-11-13 | 2018-03-06 | 北京国信宏数科技有限责任公司 | 基于经济领域数据的分布式提取及可视化分析方法和系统 |
CN109508585A (zh) * | 2017-09-15 | 2019-03-22 | 中国科学院城市环境研究所 | 一种基于poi和高分辨率遥感影像提取城市功能区的方法 |
CN109948697A (zh) * | 2019-03-19 | 2019-06-28 | 中南大学 | 一种利用众源数据辅助遥感影像分类提取城市建成区的方法 |
US20190242714A1 (en) * | 2016-06-23 | 2019-08-08 | Elbit Systems Ltd. | Combined Raster And Vector Data Representation |
CN110458048A (zh) * | 2019-07-23 | 2019-11-15 | 南京林业大学 | 顾及城镇格局特征的人口分布时空演变与认知 |
-
2019
- 2019-11-22 CN CN201911153539.XA patent/CN111125553B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750363A (zh) * | 2012-06-13 | 2012-10-24 | 天津市规划信息中心 | 一种城市地理信息数据仓库的构建方法 |
CN106127121A (zh) * | 2016-06-15 | 2016-11-16 | 四川省遥感信息测绘院 | 一种基于夜间灯光数据的建成区智能化提取方法 |
US20190242714A1 (en) * | 2016-06-23 | 2019-08-08 | Elbit Systems Ltd. | Combined Raster And Vector Data Representation |
CN109508585A (zh) * | 2017-09-15 | 2019-03-22 | 中国科学院城市环境研究所 | 一种基于poi和高分辨率遥感影像提取城市功能区的方法 |
CN107766572A (zh) * | 2017-11-13 | 2018-03-06 | 北京国信宏数科技有限责任公司 | 基于经济领域数据的分布式提取及可视化分析方法和系统 |
CN109948697A (zh) * | 2019-03-19 | 2019-06-28 | 中南大学 | 一种利用众源数据辅助遥感影像分类提取城市建成区的方法 |
CN110458048A (zh) * | 2019-07-23 | 2019-11-15 | 南京林业大学 | 顾及城镇格局特征的人口分布时空演变与认知 |
Non-Patent Citations (1)
Title |
---|
唐立娜: "《空间形态受限型城市紧凑发展研究-以厦门岛为例》", 《生态学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065481A (zh) * | 2021-04-09 | 2021-07-02 | 中国测绘科学研究院 | 一种运输投送环境下融合多源数据的城市建成区提取方法 |
CN113010797A (zh) * | 2021-04-15 | 2021-06-22 | 王美珍 | 一种基于云平台的智慧城市数据分享方法及其系统 |
CN113010797B (zh) * | 2021-04-15 | 2022-04-12 | 贵州华泰智远大数据服务有限公司 | 一种基于云平台的智慧城市数据分享方法及其系统 |
CN113205042A (zh) * | 2021-04-30 | 2021-08-03 | 武汉大学 | 一种城市多层次边界的识别方法及系统 |
CN113205042B (zh) * | 2021-04-30 | 2022-07-19 | 武汉大学 | 一种城市多层次边界的识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111125553B (zh) | 2022-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446293B (zh) | 一种基于城市多源异构数据构建城市画像的方法 | |
Gong et al. | A new research paradigm for global land cover mapping | |
Hu et al. | Automated urban land-use classification with remote sensing | |
Pijanowski et al. | Modelling urbanization patterns in two diverse regions of the world | |
CN111125553B (zh) | 一种支持多源数据的城市建成区智能提取方法 | |
US20080195584A1 (en) | Communication Efficient Spatial Search in a Sensor Data Web Portal | |
CN107133900B (zh) | 城市土地混合利用特征格网计算方法及装置 | |
Hu et al. | Extraction and monitoring approach of dynamic urban commercial area using check-in data from Weibo | |
Fonte et al. | Assessing the applicability of OpenStreetMap data to assist the validation of land use/land cover maps | |
Chen et al. | A new method for building-level population estimation by integrating LiDAR, nighttime light, and POI data | |
Galimberti | Forecasting GDP growth from outer space | |
KR20210082112A (ko) | 가상 데이터 기반 저변동성 시계열 데이터의 이중 학습 장치 및 그 동작 방법 | |
CN109614507A (zh) | 一种基于频繁项挖掘的遥感图像推荐装置 | |
Stepper et al. | Using canopy heights from digital aerial photogrammetry to enable spatial transfer of forest attribute models: a case study in central Europe | |
Gao et al. | Different spatiotemporal patterns in global human population and built‐up land | |
Zhou et al. | Estimating and interpreting fine-scale gridded population using random forest regression and multisource data | |
Marshall et al. | An interpolated biogeographical framework for tropical Africa using plant species distributions and the physical environment | |
Mast et al. | Mapping urban villages using fully convolutional neural networks | |
Linard et al. | Modelling changing population distributions: an example of the Kenyan Coast, 1979–2009 | |
CN110826454B (zh) | 一种遥感影像变化检测方法及装置 | |
Lin et al. | Extracting urban landmarks from geographical datasets using a random forests classifier | |
Honarparvar et al. | Improvement of a location-aware recommender system using volunteered geographic information | |
Palumbo et al. | SONET: a semantic ontological network graph for managing points of interest data heterogeneity | |
Wu et al. | Improving tourism analytics from climate data using knowledge graphs | |
Zhou et al. | Spatial autoregressive analysis of nationwide street network patterns with global open data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |