CN114969007A - 一种基于功能混合度和集成学习的城市功能区识别方法 - Google Patents

一种基于功能混合度和集成学习的城市功能区识别方法 Download PDF

Info

Publication number
CN114969007A
CN114969007A CN202210621710.0A CN202210621710A CN114969007A CN 114969007 A CN114969007 A CN 114969007A CN 202210621710 A CN202210621710 A CN 202210621710A CN 114969007 A CN114969007 A CN 114969007A
Authority
CN
China
Prior art keywords
data
land
city
functional area
urban
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210621710.0A
Other languages
English (en)
Inventor
徐云耘
周琛
赵鑫
余治欣
杜皓阳
温伯清
王梓安
夏南
李满春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202210621710.0A priority Critical patent/CN114969007A/zh
Priority to US18/031,009 priority patent/US20240013091A1/en
Priority to PCT/CN2022/103267 priority patent/WO2023050955A1/zh
Publication of CN114969007A publication Critical patent/CN114969007A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate
    • G06Q50/165Land development
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A30/00Adapting or protecting infrastructure or their operation
    • Y02A30/60Planning or developing urban green infrastructure

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于功能混合度和集成学习的城市功能区识别方法,属于数字信息技术领域。该方法执行如下步骤:1)收集数据以及预处理;2)构建所述城市功能区的识别体系的10个指标特征;3)结构化指标;通过空间统计工具统计各宗地所对应的10个指标特征数据;4)自变量数据集构建;5)响应变量标记;6)根据功能混合度将训练数据集划分为若干子训练集;7)基于Stacking策略的集成学习训练;8)属性表连接完成该宗地的功能区识别。本发明通过对功能混合度进行分级的方式将训练集分开并让预测集数据按照对应功能混合度进行预测,提供了一种较为准确挖掘城市功能区类型和城市特征之间的相关性,实现城市特征映射城市功能区类型识别的方法。

Description

一种基于功能混合度和集成学习的城市功能区识别方法
技术领域
本发明涉及一种基于功能混合度和集成学习的城市功能区识别方法,属于数字信息技术领域。
背景技术
我们可以重新探索城市环境。而规划的前提就是先了解我们现有的城市功能格局,过去的城市功能区识别方法识别效率低,动态程度差,并且城市由“地”与“人”以及“人地关系”组合而成,“人”的作用不可忽视。
近年来,城市功能区布局的合理性受到挑战。
城市功能区一直是城市规划关注的重点,过去有学者通过遥感方法获取土地利用、统计调查等对城市功能进行划分,虽然以遥感为基础的方法能够捕捉城市功能区的物理变化,但它们不能展现与城市功能区有关的社会信息和经济信息;并且这种传统方法数据获取周期长,受主观判断影响也较大。
过往的一些研究中将城市POI数据与其他时空大数据结合,使用聚类分析、人口热度以及密度分析等传统地理分析方法进行功能分区的识别,在阈值的选择上具有主观性,且由于大数据结构复杂,使用传统地理分析方法不能更好的揭示内部规律,处理效率也较低。并且少有研究使用了集成学习方法进行城市功能区识别的研究,城市功能区识别采用的多源数据具有数据间的差异,亟需集成学习方法来揭示复杂的内在机制。
发明内容
本发明要解决的技术问题是:如何更好地挖掘城市功能区类型和城市特征之间的相关性,实现城市特征映射城市功能区类型的方法。
为了解决上述技术问题,本发明提出的技术方案是:一种基于功能混合度和集成学习的城市功能区识别方法,执行如下步骤:
1)收集数据以及预处理;按照所述城市的城市空间分异和社会分异获取相应的源数据;
所述预处理包括城市功能区的划分、脏数据清洗和研究单元划分;
所述脏数据清洗是指从所述源数据剔除存在缺失、错误、重复或格式不统一的数据;
所述城市功能区划分是指将所述城市划分成各个城市功能区的过程;
所述研究单元划分是以所述城市路网数据为基础形成若干小的封闭的宗地的过程;
2)构建所述城市功能区的识别体系的10个指标特征,所述指标特征用于描述所述城市空间分异或所述社会分异;
3)结构化指标;通过空间统计工具统计各宗地所对应的10个指标特征数据;
4)自变量数据集构建;以步骤3)中各宗地所对应的10个指标特征数据建立宗地的属性集合,并保留对应宗地的名称;
5)响应变量标记;选取部分宗地作为训练数据集,并标注对应的功能区编号,其余宗地作为预测集使用;
6)根据功能混合度将训练数据集划分为若干子训练集;将相同或相近的功能混合度的宗地划入同一子训练集,并形成以功能混合度逐级增加或逐级减小的若干子训练集;
7)基于Stacking策略的集成学习训练;采用RF、GBDT、SVM和BPNN四种机器学习算法作为Stacking集成策略模型的第1级,采用XGBoost作为Stacking集成策略模型的第2级;对步骤6)中各子训练集进行单独训练,并对与各子训练集功能混合度所在级别相同的预测集进行预测;
8)属性表连接;通过各宗地的名称将步骤7)的预测结果与对应宗地挂钩,从而完成该宗地的功能区识别。
上述技术方案的改进是:所述数据源包括建筑物数据、生态源地数据、公交站数据、地铁站数据、数字高程数据、网约车需求数据、微博签到数据和手机信令数据;其中建筑物数据、生态源地数据、公交站数据、地铁站数据和数字高程数据用于描述所述城市的城市空间分异;网约车需求数据、微博签到数据和手机信令数据用于描述所述城市的社会分异。
上述技术方案的改进是:所述城市功能区划分参考GBT21010-2017《土地利用现状分类》中地用地分类标准一级类将城市功能区分为居住用地、工业用地、公共服务设施用地、商业服务业设施用地、道路交通用地和其他用地;对其中的二级类中的用地类型有所调整,特殊用地中的宗教丧葬用地、旅游用地以及公共服务设施用地中的绿地与公园被归为其他用地;排除采矿用地、农村道路、管道运输用地、物流与仓储用地、军事设施用地和使领馆用地。
上述技术方案的改进是:所述脏数据清洗是指从所述城市的社会分异获取的源数据中剔除存在缺失、错误、重复或格式不统一的数据。
上述技术方案的改进是:利用OpenStreetMap地图开放平台的道路数据,保留部分等级道路,并修剪未闭合的路段。
上述技术方案的改进是:所述10个指标特征分别为,POI用途类型、坡向、坡度、建筑容积率、生态绿地区域、范围地铁覆盖、范围公交覆盖、至主干道举例、各类人群到达次数和城市活力。
本发明的有益效果是:本发明通过对功能混合度进行分级的方式将训练集分开并让预测数据集按照对应功能混合度进行预测,有效提高了各预测集的精度,提供了一种较为准确,且与城市功能区类型和城市特征之间的相关的城市特征映射城市功能区类型的识别方法。
附图说明
图1是本发明实施例的一种基于功能混合度和集成学习的城市功能区识别方流程图。
图2是本发明实施例的10个指标特征对照关系。
图3是本发明实施例的研究区的宗地划分图示。
图4是本发明实施例对研究区城市功能区识别后的结果。
具体实施方式
实施例
本实施例以南京市中心城区作为研究去,去阐释如图1所示的一种基于功能混合度和集成学习的城市功能区识别方法,执行如下步骤:
1)收集数据以及预处理(由于是数据准备过程因此图中未示出);按照所述城市的城市空间分异和社会分异获取相应的源数据;
采用Openstreetmap地图开放平台所提供的道路数据划分研究,使用建筑物数据、生态源地数据、公交站数据、地铁站数据、数字高程数据等刻画南京市城市空间分异,使用网约车需求数据、微博签到数据和手机信令数据来描绘社会分异现象。各类数据的数据类型、数据大小和数据来源具体见表1。
表1 数据来源
Figure BDA0003674886830000031
Figure BDA0003674886830000041
所述预处理包括城市功能区的划分、脏数据清洗和研究单元划分;
所述脏数据清洗是指从所述源数据剔除存在缺失、错误、重复或格式不统一的数据;
脏数据指的是存在缺失、错误、重复或者格式不统一的数据,将脏数据从数据库中剔除的过程被称为数据清洗,数据清洗是数据预处理的重要步骤。借助Python3.7.9的Pandas库进行手机信令数据、微博签到数据、网约车需求数据和城市兴趣点数据的脏数据清洗,清洗标准如表2所示。
表2 手机信令数据清洗标准
Figure BDA0003674886830000042
所述城市功能区划分是指将所述城市划分成各个城市功能区的过程;
所述城市功能区划分参考GBT21010-2017《土地利用现状分类》中地用地分类标准一级类将城市功能区分为居住用地、工业用地、公共服务设施用地、商业服务业设施用地、道路交通用地和其他用地;对其中的二级类中的用地类型有所调整,特殊用地中的宗教丧葬用地、旅游用地以及公共服务设施用地中的绿地与公园被归为其他用地;排除采矿用地、农村道路、管道运输用地、物流与仓储用地、军事设施用地和使领馆用地。
所述研究单元划分是以所述城市路网数据为基础形成若干小的封闭的宗地的过程;
选取Openstreetmap地图开放平台下载的道路数据“gis_osm_railways_free”以及“gis_osm_roads_free”。利用数据中“fclass”属性选择不同等级道路,保留“primary”(主要道路)、“primary_link”(主要道路-连接)、“secondary”(次要道路)、“secondary_link”(次要道路-连接)、“tertiary”(第三级道路)、“tertiary_link”(第三级道路-支路)、“trunk”(干道)、“trunk_link”、“cycleway”(自行车道)、“motorway”(高速公路)、“motorway_link”(高速公路-连接)属性,并修剪未闭合的路段。对照地理配准后的南京市哨兵2号遥感影像,使用 Arcgis矢量化工具补充南京市中心城区内的在建道路,完善南京市城市道路网。最后利用南京市河网数据结合以上道路网数据,划分出南京市城市宗地结果,所以南京市中心城区的宗地由城市道路和城市内河网围合而成,是单一的封闭地块,划分结果如图3所示。
2)构建所述城市功能区的识别体系的10个指标特征,所述指标特征用于描述所述城市空间分异或所述社会分异;
具体从用途分类、自然条件、政策限制、交通条件、行为活动和城市活力6个层面出发,包含POI用途类型(含等级规模和影响力权重)、坡向、坡度、建筑物容积率、生态绿地区域、地铁覆盖、公交覆盖、至主干道距离、各类人群到达次数、城市活力10个特征指标。可参照图2的对应关系。
3)结构化指标;通过空间统计工具统计各宗地所对应的10个指标特征数据;
31)用途指标,根据《中国现行的业态分类标准》(GB T18106-2010),引入规模权重评价兴趣点的规模和占地面积,规模权重选择面积区间的中位数,例如业态规模标准中的小型超市面积区间为200m2~1999m2,则规模权重为1100m2
为描述不同兴趣点的影响力,本实施例使用AHP层次分析法,引入影响力权重来区分不同兴趣点的影响力差异,利用Yaahp软件构建具有决策目标、中间层要素和备选方案的AHP 层次分析法结构模型,根据各要素(兴趣点类型)之间的重要性比较,确定和构造判断矩阵,汇总得到不同类型兴趣点的影响力权重。
由于规模权重和影响力权重衡量指标数值差异大,为实现合理的权重调和过程,将规模权重和影响力权重进行归一化处理,并将规模权重归一化结果和影响力权重归一化结果相加得到总权重,公式如下:
Figure BDA0003674886830000051
Figure BDA0003674886830000052
Figure BDA0003674886830000053
其中W1i和W2i分别为i类兴趣点的规模权重和影响力权重,
Figure BDA0003674886830000054
Figure BDA0003674886830000055
分别为i类兴趣点的规模权重和影响力权重归一化后的结果,Wi为i类兴趣点的总权重。
测算出的兴趣点各类权重结果如表3所示。
表3兴趣点权重指标表
Figure BDA0003674886830000061
Figure BDA0003674886830000071
统计划定的各宗地的兴趣点权重分数,汇总6类功能区类型在各宗地的占比情况,进行对比后确定地块的功能区类型,统计公式如下:
Figure BDA0003674886830000072
其中Sij为第i个宗地内第j类功能类型的权重分数,Qp为第i个宗地内第j类功能类型 (一级类)的兴趣点的数量值。Wp为第i个宗地内第j类功能类型(一级类)的p类兴趣点(三级类)的总权重值,n为第i个宗地内第j类功能类型(一级类)的第p类兴趣点(三级类)的数量;Qk为第i个宗地内第k功能类型(一级类)的兴趣点。Wk为第i个宗地内第k功能类型(一级类)的总权重值,m第i个宗地内所有兴趣点的数量。
Fi=max{Sij} 公式5
其中Fi为第i个宗地上权重分数最高的功能区类型的权重分数。
在划定宗地矢量文件的属性表内标记第i个宗地的用途分类为Fi所代表的功能区类型,居住用地赋值为1,工业用地为2,公共服务设施用地为3,商业服务业设施用地为4,道路交通用地为5,以及其他用地赋值为6(见表4)。
表4 功能区标记编号表
Figure BDA0003674886830000081
32)自然条件对于区分农用地、建设用地和未利用地的意义重大,对于建设用地内部的功能区分类也具有辅助作用,例如其他用地中的旅游用地一般位于地表起伏较大的山川湖泊附近.选择坡度和坡向作为自然条件的指标,可以区分出一些特殊的其他用地。利用Arcgis10.3 空间分析工具集的坡度工具和坡向工具分析哨兵2号的DEM数据,得到坡度数据和坡向数据。统计划定的各宗地的坡度和坡向平均值,进行汇总和标记。
33)政策限制,政策引导是优化城市功能区的重要方面,面对城市功能结构中的不合理性,政策的规划导向作用越来越明显,政策通过提升城市功能空间的适宜性来助力城市发展,也通过限制条件来规范城市功能空间的合理性布局。本实施例选择生态重要区域和容积率两个因素来作为政策限制指标。
(1)生态重要区域
在城市的重要生态区域内,建设用地被限制和禁止蔓延,重要生态区域内具有丰富的资源、生态、环境和历史文化价值,是优良的旅游资源,可以区分其他用地以及居住用地、工业用地、商业服务业设施用地、公共服务设施用地和道路交通用地。在重要生态区域内的地块设置严格的识别标签,新建生态限制属性列,除其他用地外,生态重要区域内不标记其他功能区类型数值,范围内宗地赋值为其他用地的标签(表4),生态重要区域外宗地该属性列赋值为0。
(2)容积率限制
另外需要考虑的重要因素的是城市建设的容积率要求,容积率是城市功能区划制度的核心指标,指的是地上建筑物的总面积与地块面积的比值,其中选择3米为单个楼层的高度,则容积率的计算公式如下:
Figure BDA0003674886830000091
其中Far为某块宗地的容积率数值,Sbi为某块宗地上的第i个建筑物的底面面积数值,Hi为某块宗地上的第i个建筑物的高度,Sp为该宗地的占地面积。
根据《江苏省城市规划管理技术规定》中的容积率指标标准,以及城市居住区规划设计规范》(GB50180-93)中的居住区用地平衡控制指标标准,可以区分居住用地、公共服务设施用地、商业服务业设施用地和工业用地,新区和旧区范围在城市总体规划中确定,按照容积率要求在属性表内新建容积率属性列,并标记宗地相应的功能区类型数值,如表5所示。
表5 容积率指标表
Figure BDA0003674886830000092
34)交通条件一定程度上决定了城市内居民和物资的流动,居民的出行半径和物流的运输距离都对城市内部空间结构和空间肌理产生了深远的影响,而城市内部的空间结构和空间肌理也决定了交通条件需求的空间异质性(Liu et al.,2012;Gong et al.,2022)。由于承载功能的差异,不同类型的功能区对于交通条件的需求是不同的,本实施例选择城市主干道、地铁站和公交站点三种交通数据来衡量交通条件空间异质性,至城市主干道的距离、地铁站覆盖率和公交车站覆盖率这三种交通因素也同样驱动了城市形态和城市肌理的演变。
在居住用地、商业服务业设施用地和重要的公共服务设施用地上,地铁站和公交站点的覆盖率较其余类型功能区高,对于居民步行可达的交通需要也较高。地铁站覆盖率的计算,使用Arcgis10.3中的缓冲区分析工具,计算城市内步行500米宗地覆盖的地铁站数量。公交站覆盖率的计算,同样使用Arcgis10.3中的缓冲区分析工具,计算城市内步行350米宗地覆盖的公交站数量。工业用地对于物流需求大,距离城市主干道近,与高速公路相通便利快速,可高效输入生产材料,高效输出生产产品。至城市主干道的距离的计算,使用Arcgis10.3中的距离分析工具,分析宗地至城市主干道欧式距离。
35)行为活动,在本实施例中提供用户脱敏信息属性的手机信令数据、微博签到数据和网约车数据都为大型CSV文件,数据量大,数据构成复杂。用户画像部分基于Python3.7.9环境,调用Pandas、Shapely、Geopandas等软件包进行数据清洗、数据结构化和数据整合,提高处理效率。
主要通过统计三类用户人群在各宗地上出现的次数来测度居民行为活动。首先通过数据属性将数据进行划分,划分出的每类数据代表某一种人群,这些数据均含有位置信息;其次通过Arcgis的空间连接工具统计每类人群出现在某块宗地上的次数;最终得到的宗地空间数据,含有每类人群出现次数的属性表。三类数据具体的人群划分过程如下:
手机信令用户属性主要包括三方面,第一方面是手机信令用户性别,性别包括男性和女性;第二方面是手机信令用户停留时长,由于停留时长可以区别常住人口还是短期流动人口,所以将手机信令用户停留时长分为停留时长小于7天和停留时长大于7天;第三方面是手机信令用户年龄,年龄可以区分人群的社会状态,所以将手机信令用户年龄分为小于25岁、25 岁至60岁和大于60岁,将小于25岁的人群定义为学龄人群,将25岁至60岁的人群定义为工作人群,大于60岁的为退休人群。根据以上手机信令用户属性,交叉组合可以获得12类手机信令用户,其中保留7类手机信令用户,如表6所示,分别是常住工作男性(性别男性、停留时长大于7天、年龄为25岁至60岁)、常住工作女性(性别女性、停留时长大于7天、年龄为25岁至60岁)、非常住工作人群(停留时长小于7天、年龄为25岁至60岁)、常住退休男性(性别男性、停留时长大于7天、年龄为60岁以上)、常住退休女性(性别女性、停留时长大于7天、年龄为60岁以上)、学龄人群(停留时长大于7天、年龄为25岁以下)。
微博用户属性主要包括两个方面,第一方面是微博用户性别,性别包括男性和女性;第二方面是微博用户签到时段,签到时段包括7:00-20:00以及20:00-次日7:00,分别作为日间签到数据和夜间签到数据。根据以上微博用户属性,交叉组合可以获得4类微博用户,如表 6所示,分别是日间签到男性(性别男性、签到时段为7:00-20:00)、日间签到女性(性别男性、签到时段为7:00-20:00)、夜间签到男性(性别男性、签到时段为20:00-次日7:00)、夜间签到女性(性别女性、签到时段为20:00-次日7:00)。
网约车用户属性包括打车时段和日期,其中打车时段被划分为7:00-9:00、9:00-16: 00、16:00-20:00、21:00-24:00以及00:00-24:00,分别代表早高峰、工作时段、晚高峰、夜间和全天;日期按照周末和工作日进行划分。根据以上网约车用户属性,并考虑研究目的,交叉组合可以获得10类手机信令用户,其中保留6类手机信令用户,如表6所示,分别是早高峰打车人群(打车时段为7:00-9:00、日期为工作日)、晚高峰打车人群(打车时段为16:00-20:00、日期为工作日)、工作时段打车人群(打车时段为9:00-16:00、日期为工作日)、夜间打车人群(打车时段为21:00-24:00、日期为工作日)、工作日打车人群(打车时段为00:00-24:00、日期为工作日)、周末打车人群(打车时段为00:00-24:00、日期为周末)。
表6 用户画像表
Figure BDA0003674886830000111
36)城市活力,考虑城市活力日间和夜间的动态差异,为综合考虑日夜城市活力,本研究选择NPP/VIIRS夜间灯光数据集和WorldPop人口密度数据集进行城市活力的测算,通过空间统计计算各宗地的夜间灯光平均值和人口密度平均值,夜间灯光平均值和人口密度平均值的和作为各宗地的城市活力值。
4)自变量数据集构建;以步骤3)中各宗地所对应的10个指标特征数据建立宗地的属性集合,并保留对应宗地的名称;
根据表3提供的规模权重和影响力权重,赋值于南京市城市兴趣点。根据公式4计算南京市中心城区内各城市功能在每块宗地上的占比情况,根据公式5得到每块宗地上占比最高的功能类型,判别宗地为该功能类型所对应的功能区类型。基于南京市2020年7月的哨兵二号DEM数据,利用坡度分析和坡向分析得到南京市中心城区的坡度和坡向数据;根据政策限制内容得到南京市中心城区内的生态绿地范围以及宗地容积率计算结果;空间分析得到地铁站覆盖率、公交站覆盖率和至城市主干道的距离这三个要素的测度结果;根据用户统计方法,基于单一宗地,对南京市中心城区范围内的手机信令用户、微博签到用户和网约车需求用户的各类人群进行统计;根据3.3.2的内容,统计单一宗地内的夜间灯光数据和人口密度数据的平均值。
5)响应变量标记;选取部分宗地作为训练数据集,并标注对应的功能区编号,其余宗地作为预测集使用;
通过实地调查用地功能、遥感影像目视解译以及街景地图判断的方法,在自变量集的第 25列标记若干个宗地(q块)的功能区类型,功能区类型标注编号见表7功能区标记编号表,最终形成q*25的训练数据集,其余不含第25列功能区类型的宗地(k-q块)作为预测数据集,不进行标记。
表7 功能区标记编号表
Figure BDA0003674886830000121
6)根据功能混合度将训练数据集划分为若干子训练集;将相同或相近的功能混合度的宗地划入同一子训练集,并形成以功能混合度逐级增加或逐级减小的若干子训练集;
其中功能混合度直接影响到宗地功能的单一程度,如果功能混合度较大,该宗地内部的功能识别机制越复杂。
单一地块内居住用地、公共服务设施用地、商业服务业设施用地、道路交通用地、工业用地和其他用地的混合程度代表了该地块的用地功能混合程度,混合程度越高说明该地块的用地功能越多样,而集成学习训练效果越差。利用城市POI(兴趣点)数据可以计算用地功能混合度,用地功能混合度的计算公式如下:
Figure BDA0003674886830000122
其中Hparcel为某块宗地的用地功能混合度,n为该宗地内兴趣点的类型总数,Pi为该地块内第i个类型的兴趣点占兴趣点总数的比例,兴趣点类型分类见下表。
表8 兴趣点类别映射表
Figure BDA0003674886830000123
Figure BDA0003674886830000131
Figure BDA0003674886830000141
7)基于Stacking策略的集成学习训练;采用RF、GBDT、SVM和BPNN四种机器学习算法作为Stacking集成策略模型的第1级,采用XGBoost作为Stacking集成策略模型的第2级;对步骤6)中各子训练集进行单独训练,并对与各子训练集功能混合度所在级别相同的预测集进行预测;
利用公式7计算得到南京市中心城区用地功能混合度结果,南京市中心城区宗地用地混合度范围在0~1之间,根据宗地功能混合度的大小将训练数据集均分为12个子训练数据集,同一子训练集内的用地混合度处于同一范围,标记为S1~S12,S1至S12的用地混合度是逐渐减小的,将预测集也按照相同用地功能混合度范围划分为12个,分别为预测集P1~P12,从 P1至P12用地混合度逐渐降低。基于用地功能混合度进行地理分区,针对12个子训练数据集及其对应预测集进行独立训练。并在未地理分区的训练数据集内进行以上12个子训练数据集的精度统计,如表9所示,由于用地混合度反映了宗地内功能区类型的复杂程度,相同用地混合度的宗地内城市特征和居民行为规律具有相似性,将训练数据集按照用地混合度划分为多个子训练数据集,并进行单独训练具有必要性,经过分区域训练后,准确度得到明显提升。
由此可知,城市内发展不均衡,城市内用地混合度差异较大,针对大区域的城市功能区类型识别,需要利用用地混合度进行训练数据集的拆分,基于用地混合度将训练数据集拆分为子训练数据集,每个子训练数据集内的用地混合度相似。每个子训练集进行单独训练,并对与其相同用地混合度的预测集进行预测。
表9 不同用地混合度子训练集集成学习准确度对比表
Figure BDA0003674886830000142
8)属性表连接;通过各宗地的名称将步骤7)的预测结果与对应宗地挂钩,从而完成该宗地的功能区识别。
南京市中心城区城市功能区识别的可视化结果如图4所示,其中识别居住用地2007块,占比为34.1%;识别工业用地624块,占全部宗地的10.6%;公共服务设施用地被识别出1089 块,占比为18.5%;识别商业服务业设施用地1065块,占比为18.0%;识别道路交通用地124 块、其他用地986块,分别占宗地总数的2.1%和16.7%
上述技术方案的改进是:所述10个指标特征分别为,POI用途类型、坡向、坡度、建筑容积率、生态绿地区域、范围地铁覆盖、范围公交覆盖、至主干道举例、各类人群到达次数和城市活力。

Claims (6)

1.一种基于功能混合度和集成学习的城市功能区识别方法,其特征在于执行如下步骤:
1)收集数据以及预处理;按照所述城市的城市空间分异和社会分异获取相应的源数据;
所述预处理包括城市功能区的划分、脏数据清洗和研究单元划分;
所述脏数据清洗是指从所述源数据剔除存在缺失、错误、重复或格式不统一的数据;
所述城市功能区划分是指将所述城市划分成各个城市功能区的过程;
所述研究单元划分是以所述城市路网数据为基础形成若干小的封闭的宗地的过程;
2)构建所述城市功能区的识别体系的10个指标特征,所述指标特征用于描述所述城市空间分异或所述社会分异;
3)结构化指标;通过空间统计工具统计各宗地所对应的10个指标特征数据;
4)自变量数据集构建;以步骤3)中各宗地所对应的10个指标特征数据建立宗地的属性集合,并保留对应宗地的名称;
5)响应变量标记;选取部分宗地作为训练数据集,并标注对应的功能区编号,其余宗地作为预测集使用;
6)根据功能混合度将训练数据集划分为若干子训练集;将相同或相近的功能混合度的宗地划入同一子训练集,并形成以功能混合度逐级增加或逐级减小的若干子训练集;
7)基于Stacking策略的集成学习训练;采用RF、GBDT、SVM和BPNN四种机器学习算法作为Stacking集成策略模型的第1级,采用XGBoost作为Stacking集成策略模型的第2级;对步骤6)中各子训练集进行单独训练,并对与各子训练集功能混合度所在级别相同的预测集进行预测;
8)属性表连接;通过各宗地的名称将步骤7)的预测结果与对应宗地挂钩,从而完成该宗地的功能区识别。
2.根据权利要求1所述的基于功能混合度和集成学习的城市功能区识别方法,其特征在于:所述数据源包括建筑物数据、生态源地数据、公交站数据、地铁站数据、数字高程数据、网约车需求数据、微博签到数据和手机信令数据;其中建筑物数据、生态源地数据、公交站数据、地铁站数据和数字高程数据用于描述所述城市的城市空间分异;网约车需求数据、微博签到数据和手机信令数据用于描述所述城市的社会分异。
3.根据权利要求1所述的基于功能混合度和集成学习的城市功能区识别方法,其特征在于:所述城市功能区划分参考GBT21010-2017《土地利用现状分类》中地用地分类标准一级类将城市功能区分为居住用地、工业用地、公共服务设施用地、商业服务业设施用地、道路交通用地和其他用地;对其中的二级类中的用地类型有所调整,特殊用地中的宗教丧葬用地、旅游用地以及公共服务设施用地中的绿地与公园被归为其他用地;排除采矿用地、农村道路、管道运输用地、物流与仓储用地、军事设施用地和使领馆用地。
4.根据权利要求1所述的基于功能混合度和集成学习的城市功能区识别方法,其特征在于:所述脏数据清洗是指从所述城市的社会分异获取的源数据中剔除存在缺失、错误、重复或格式不统一的数据。
5.根据权利要求1所述的基于功能混合度和集成学习的城市功能区识别方法,其特征在于:利用OpenStreetMap地图开放平台的道路数据,保留部分等级道路,并修剪未闭合的路段。
6.根据权利要求1所述的基于功能混合度和集成学习的城市功能区识别方法,其特征在于:所述10个指标特征分别为,POI用途类型、坡向、坡度、建筑容积率、生态绿地区域、范围地铁覆盖、范围公交覆盖、至主干道举例、各类人群到达次数和城市活力。
CN202210621710.0A 2022-06-01 2022-06-01 一种基于功能混合度和集成学习的城市功能区识别方法 Pending CN114969007A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210621710.0A CN114969007A (zh) 2022-06-01 2022-06-01 一种基于功能混合度和集成学习的城市功能区识别方法
US18/031,009 US20240013091A1 (en) 2022-06-01 2022-07-01 Identification method of urban functional areas based on mixing degree of functions and integrated learning
PCT/CN2022/103267 WO2023050955A1 (zh) 2022-06-01 2022-07-01 一种基于功能混合度和集成学习的城市功能区识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210621710.0A CN114969007A (zh) 2022-06-01 2022-06-01 一种基于功能混合度和集成学习的城市功能区识别方法

Publications (1)

Publication Number Publication Date
CN114969007A true CN114969007A (zh) 2022-08-30

Family

ID=82960677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210621710.0A Pending CN114969007A (zh) 2022-06-01 2022-06-01 一种基于功能混合度和集成学习的城市功能区识别方法

Country Status (3)

Country Link
US (1) US20240013091A1 (zh)
CN (1) CN114969007A (zh)
WO (1) WO2023050955A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116258404A (zh) * 2023-02-08 2023-06-13 广东省科学院广州地理研究所 基于机器学习的主体功能区识别方法以及装置
CN116308956A (zh) * 2023-03-17 2023-06-23 中国测绘科学研究院 一种城市区域主导功能与规划用途差异检测的方法
CN116956133A (zh) * 2023-07-26 2023-10-27 中国地震局地质研究所 基于时序手机信令数据和机器学习的建筑功能识别方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612421B (zh) * 2023-07-20 2023-09-29 山东高速股份有限公司 一种融合多源空间数据的建成环境识别方法及设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9123259B2 (en) * 2013-03-14 2015-09-01 Microsoft Technology Licensing, Llc Discovering functional groups of an area
US10984532B2 (en) * 2018-08-24 2021-04-20 Ordnance Survey Limited Joint deep learning for land cover and land use classification
CN109816581A (zh) * 2019-01-25 2019-05-28 东南大学 一种综合业态大数据与建筑形态的城市用地自动识别系统
CN110766589A (zh) * 2019-10-28 2020-02-07 电子科技大学 一种基于通信数据与兴趣点数据推断城市功能的方法
CN111178179B (zh) * 2019-12-16 2023-08-11 广州地理研究所 一种基于像元尺度的城市功能区的识别方法及装置
CN113392859A (zh) * 2020-03-11 2021-09-14 Tcl科技集团股份有限公司 一种确定城市功能区域的类型的方法及装置
CN112579718B (zh) * 2020-12-14 2023-12-29 深圳市城市交通规划设计研究中心股份有限公司 一种城市用地功能的识别方法、装置及终端设备
CN113806419B (zh) * 2021-08-26 2024-04-12 西北大学 基于时空大数据的城市区域功能识别模型及识别方法
CN114003828B (zh) * 2021-11-02 2022-04-19 东南大学 一种基于poi数据的城市街区功能混合度表达方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116258404A (zh) * 2023-02-08 2023-06-13 广东省科学院广州地理研究所 基于机器学习的主体功能区识别方法以及装置
CN116308956A (zh) * 2023-03-17 2023-06-23 中国测绘科学研究院 一种城市区域主导功能与规划用途差异检测的方法
CN116308956B (zh) * 2023-03-17 2023-11-24 中国测绘科学研究院 一种城市区域主导功能与规划用途差异检测的方法
CN116956133A (zh) * 2023-07-26 2023-10-27 中国地震局地质研究所 基于时序手机信令数据和机器学习的建筑功能识别方法
CN116956133B (zh) * 2023-07-26 2024-02-27 中国地震局地质研究所 基于时序手机信令数据和机器学习的建筑功能识别方法

Also Published As

Publication number Publication date
WO2023050955A1 (zh) 2023-04-06
US20240013091A1 (en) 2024-01-11

Similar Documents

Publication Publication Date Title
CN106096631B (zh) 一种基于手机大数据的流动人口分类识别分析方法
CN114969007A (zh) 一种基于功能混合度和集成学习的城市功能区识别方法
CN109978224B (zh) 一种分析获取不同性质建筑的交通出行率的方法
CN105677804A (zh) 权威站点的确定以及权威站点数据库的建立方法和装置
CN110781267A (zh) 一种基于地理国情的多尺度空间分析评价方法及系统
CN110555544B (zh) 一种基于gps导航数据的交通需求估计方法
CN108717676A (zh) 基于多数据融合的不同尺度下的职住空间评价方法及系统
Guyot et al. The urban form of Brussels from the street perspective: The role of vegetation in the definition of the urban fabric
CN103337035A (zh) 基于定量评价的确定城市中心体系选址方法
CN107506433A (zh) 城市发展空间格局情景模拟系统
Yuan et al. Recognition of functional areas based on call detail records and point of interest data
CN113505999A (zh) 应用于城市空间质量评估的指标计算方法
CN116796904A (zh) 一种轨道交通新线客流预测方法、系统、电子设备及介质
Zhang et al. How road network transformation may be associated with reduced carbon emissions: An exploratory analysis of 19 major Chinese cities
CN114219521A (zh) 基于多源数据的体育中心选址评价方法
CN109508815B (zh) 基于地铁ic卡数据的通学活动空间测度分析方法
CN114742131A (zh) 基于模式挖掘的城市过度旅游区域识别方法
Bi et al. Analysis of Travel Hot Spots of Taxi Passengers Based on Community Detection
Phithakkitnukoon et al. Temporary Migration Flow Inference and Analysis From Perspective of Mobile Phone Network Data
Qiu et al. Accessibility of rehabilitation facility: evaluation based on spatial big data in xiamen
Gao et al. Integrating multi-source geographic big data to delineate urban growth boundary: A case study of Changsha
CN116227791B (zh) 基于语义融合模型探索城市功能区动态划分的可视分析方法
CN113487465B (zh) 基于标签传播算法的城市重叠结构特征检测方法及系统
CN114139827B (zh) 一种城市功能区功能绩效的智能感知与优化方法
Bian et al. Analysis of the Influence of Built Environment on Peak Hour Travel Demand of Youth Group Based on Cell Phone Signaling Data: A Case Study of Shanghai

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination