CN115238584A - 一种基于多源大数据的人口分布识别方法 - Google Patents
一种基于多源大数据的人口分布识别方法 Download PDFInfo
- Publication number
- CN115238584A CN115238584A CN202210903919.6A CN202210903919A CN115238584A CN 115238584 A CN115238584 A CN 115238584A CN 202210903919 A CN202210903919 A CN 202210903919A CN 115238584 A CN115238584 A CN 115238584A
- Authority
- CN
- China
- Prior art keywords
- data
- population
- residential
- population distribution
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A30/00—Adapting or protecting infrastructure or their operation
- Y02A30/60—Planning or developing urban green infrastructure
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Remote Sensing (AREA)
- Computational Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Astronomy & Astrophysics (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于多源大数据的人口分布识别方法,包括:获取某个城市的统计数据、矢量数据以及栅格数据,对这些数据进行预处理,以得到预处理后的统一坐标系数据;将得到的百度热力图、住宅POI数据、建筑轮廓数据、遥感影像数据输入训练好的居住区人口识别模型,以获取城区居住区人口分布,将得到的经济发展水平数据、市区/县和街道的人口统计数据、道路矢量数据、以及土地利用数据输入训练好的多因素融合模型,以得到人口分布影响因素及其系数,并根据人口分布影响因素及其系数获取非城区人口分布、以及城区非居住区人口分布。本发明构建“宏观层面上分城乡、分行政区、分城市功能以及微观层面上分街区单元”的人口分布模拟模型。
Description
技术领域
本发明属于模式识别技术领域,更具体地,涉及一种基于多源大数据的人口分布识别方法。
背景技术
人口数据来源广泛,在属性、时间、空间精度方面具有一定的差异性。人口分布的精确识别是城市规划的一大重点,为城市规划的功能设施布局、城市空间结构组织提供基础的参考。目前,大数据在城市发展和管理中已经广泛应用于城市功能布局、空间组织、空间活力测度等方面。
现有的宏观层面的人口分布识别主要采用基于行政单元人口统计数据的插值法,空间精度较低。在城市内部人口识别传统的基本方法包括:一是空间插值,即通过划分格网,将人口数连到区域中心点,使用内插方法把中心点上的人口密度内插到格网表面;二是基于多因素综合分析的多元线性加权模型,以及距离衰减模型、基于夜间灯光数据的人口密度模拟、土地利用类型法等。
然而,上述关于人口分布识别的方法仍然存在不可忽略的缺陷:自上而下的推演往往忽视了尺度的制约因素,且数据处理较多依赖于人工操作,自动化程度相对较低,满足大跨度空间且高分辨率人口分布的模拟研究较少,或仅估算城市尺度的人口分布,大尺度下全采用高分辨率导致存贮过大,缺少将宏观和微观结合的城市人口识别系统性的方法。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于多源大数据的人口分布识别方法,其目的在于,采用多源大数据的数据融合、神经网络算法和随机森林等模型,并充分考虑模型的尺度效应,引入区域划分,从而构建“宏观层面上分城乡、分行政区、分城市功能以及微观层面上分街区单元”的人口分布模拟模型,不同精度的显示能减少存贮空间。
为实现上述目的,按照本发明的一个方面,提供了一种基于多源大数据的人口分布识别方法,包括以下步骤:
(1)获取某个城市的统计数据、矢量数据以及栅格数据,对这些数据进行预处理,以得到预处理后的统一坐标系数据;其中统计数据包括经济发展水平数据以及市区/县和街道的人口统计数据,矢量数据包括兴趣点数据POI、道路矢量数据、以及建筑轮廓数据,栅格数据包括遥感影像数据、土地利用数据、以及百度热力图;
(2)将步骤(1)得到的百度热力图、住宅POI数据、建筑轮廓数据、遥感影像数据输入训练好的居住区人口识别模型,以获取城区居住区人口分布;
(3)将步骤(1)得到的经济发展水平数据、市区/县和街道的人口统计数据、道路矢量数据、以及土地利用数据输入训练好的多因素融合模型,以得到人口分布影响因素及其系数,并根据人口分布影响因素及其系数获取非城区人口分布、以及城区非居住区人口分布;
(4)将步骤(2)得到的城区居住区人口分布、连同步骤(3)得到的非城区人口分布和城区非居住区人口分布融合成为初步人口分布图,使用该城市的人口统计年鉴判断该初步人口分布图是否校验通过,如果通过则进入步骤(5),否则返回步骤(2);
(5)使用该城市的百度热力图判断步骤(4)得到的初步人口分布图是否校验通过,如果通过则进入步骤(6),否则返回步骤(2);
(6)使用该区域的遥感影像数据将初步人口分布图中的无建筑区域赋值为零,以得到包含了无居住建筑的用地的真实情况的初步人口分布图。
(7)通过分区验证的方式判断初步人口分布图是否验证通过,如果通过则将该初步人口分布图作为最终的人口分布图输出,过程结束,否则返回步骤(2)。
优选地,步骤(1)是从城市的统计年鉴中获取该城市的经济发展水平数据GDP、市区/县和各街道人口统计数据;从地理空间数据云获取遥感影像数据;从OpenStreetMap网站获取道路矢量数据、住宅POI数据和建筑轮廓数据;从Esri Land Cover网站获取土地利用数据;从百度地图获取18级的百度热力图。
针对包括遥感影像数据、土地利用数据、以及百度热力图的栅格数据而言,预处理过程是进行重采样,形成300*300m的统一尺度;
针对包括各级行政区划、住宅POI数据、道路矢量数据、以及建筑轮廓数据的矢量数据而言,预处理过程是:对其中空间坐标不一致的数据使用GIS投影变换,形成统一坐标系的空间数据库;针对包括GDP数据、以及市区/县和街道的人口统计数据的统计数据而言,与相应的行政区划矢量数据进行表格链接,选取最小面积的“街道”或“镇”行政面积的10%作为像元大小,通过插值方法转化为栅格数据。
市区尺度数据预处理是使用GIS统一空间坐标系;
省级数据的预处理首先对道路网密度、GDP进行格式转化,选取最小面积的“街道”或“镇”行政面积的10%作为像元大小,通过插值方法转化为300*300m的栅格数据,并对空间坐标不一致的数据使用GIS进行空间配准,形成统一坐标系的空间数据库然后利用GIS对一部分宏观数据(夜间灯光、土地利用)进行重采样,形成300*300m的统一尺度。
优选地,居住区人口识别模型包括居住区范围提取模型、建筑高度识别模型、以及GIS模型,其中建筑高度识别模型和GIS模型均与居住区范围提取模型相连;
居住区范围提取模型是先后采用Relief F算法和J48决策树来实现;
建筑高度识别模型采用M3Net模型和高分影像反演方法。
GIS模型采用GIS几何统计建筑面积。
优选地,居住区人口识别模型是通过以下步骤训练得到的:
(a1)采用Relief F算法对遥感影像数据中自然地物和非自然地物进行分类,以得到自然地物遥感影像和非自然地物遥感影像;
(a2)从步骤(a1)得到的非自然地物遥感影像中随机选择多个样本,获取所有样本的特征权重,并按照从大到小的顺序对特征权重进行排序;
(a3)对于步骤(a2)得到的选择分类能力排名前10%的特征权重而言,运用PSO封装算法对这些特征权重进行特征重要性度量,从而得到对分类有贡献力的多个特征权重;
(a4)对步骤(a3)得到的特征权重进行降序排列,利用排名和序列后向选择方法相结合的方式,以得到多个分类特征;
(a5)根据(a4)得到的分类特征对步骤(a1)处理后的非自然地物遥感影像进行处理,以得到基于遥感影像数据的建筑物;
(a6)采用J48决策树算法根据对(a5)得到的建筑物进行区分,以初步提取居住建筑;
(a7)在GIS中将建筑轮廓数据与住宅POI数据进行叠置,以提取住宅建筑,并将提取的住宅数据与步骤(a6)提取的居住建筑进行融合,以得到完整的住宅建筑数据;
(a8)通过GIS中的聚合工具对步骤(a7)得到的住宅建筑数据进行提取,以得到各居住区范围;
(a9)利用GIS对步骤(a8)得到的各居住区范围中的住宅建筑数据进行几何统计,以得到各居住区建筑面积;
(a10)根据百度街景数据和步骤(a9)得到的各居住区建筑面积,将步骤(a8)得到的各居住区范围进行进一步划分,以得到能够获得百度街景的居住区A和不能获得百度街景的居住区B;
(a11)根据步骤(a10)得到的居住区A提取相应范围的百度街景图像,并将其输入M3Net模型,通过转置卷积操作得到特征图;
(a12)根据M3Net模型中的多视图分支,并使用两次Conv、BN和ReLU的组合,将输入的百度街景图像映射到特征图,然后在编码阶段使用2×2最大池化操作对特征图进行下采样,将该过程重复四次,从而得到同比例尺特征图;
(a13)通过跳跃式连接将步骤(a11)得到的特征图与步骤(a12)得到的同比例尺特征图连接起来,并应用Conv和ReLU组合两次生成新的特征图,重复此过程四次,从而得到特征筛选过的新的特征图;
(a14)使用Conv1×1卷积对步骤(a13)得到的新的特征图进行处理,以得到建筑高度图,并将其输入多视图分支,以得到来自多视图分支的建筑高度;
(a15)将得到的建筑高度图输入多光谱分支,从而得到来自多光谱分支的建筑高度和建筑足迹,将来自多视图分支的建筑高度、以及来自多光谱分支的建筑高度和建筑足迹连接起来,从而得到最终预测的建筑高度;
(a16)针对步骤(a10)得到的居住区B而言,提取其中的GF-2卫星影像数据,通过正射校正以得到校正影像;
(a17)利用平行法确定步骤(a16)得到的校正影像中建筑物在太阳光方向下的阴影长度L:
(a18)根据步骤(17)得到的阴影长度获取步骤(a16)得到的校正影像中建筑物在太阳光方向下的阴影的平均长度。
(a19)结合步骤(a15)得到的最终预测的建筑高度和步骤(a18)得到的阴影的平均长度,并根据建筑物的平均层高得到居住区A与居住区B内每栋建筑的层数,并通过居住区的规划图获取每栋建筑中每层的户数;
(a20)根据步骤(a19)得到的层数和每层户数带入等式“居住区总人口=总户数*户规模=每层户数*层数*户规模”,得到居住区人口数;
(a21)将步骤(a20)得到的居住区人口数通过ArcGIS划分成30m*30m的格网,以得到城区居住区人口30m*30m分布格网。
优选地,多因素融合模型是通过以下步骤训练得到的:
(b1)将步骤(1)得到的统一坐标系数据划分为训练集和测试集,将统一坐标系数据对应的区域作为研究区,初步选取训练集的影响人口分布的主要因素,并进行显著性检验,以确定影响研究区人口密度分布的主导因素,如土地利用类型、夜间灯光强度、路网密度和GDP等;
(b2)以各街道统计单元的人口密度为因变量Y,步骤(b1)选取的主导因素为自变量X,将应变量Y与自变量X进行离散化处理;
(b3)将步骤(b2)离散化后的数据输入地理探测器中的因子探测器,以获取各主导因素对人口分布的解释力值f;
(b4)将步骤(b2)离散化后的数据输入生态探测器,以得到各个主导因素对人口密度分布的影响系数。
(b5)结合步骤(b3)、(b4)得到的结果删选主导因素及其影响程度,并运用多元线性回归模型获取多个格网。
(b6)根据街道行政边界范围对步骤(b5)得到的每个格网的人口进行重新划分,以获取各个街道的人口分布图;
(b7)使用bootstrap抽样法,从步骤(b6)的获取的街道的人口分布图随机选择20个街道,然后从中选择N个样本用于训练,并将选择的N个样本用来训练一个决策树,作为决策树根节点处的样本。其中N∈[1,20];
(b8)对步骤(b7)的样本进行查看,如果每个样本有B个属性,在决策树的每个节点需要分裂时,随机从这B个属性中选取出b`∈[1,B]个属性,然后从这b`个属性中采用最大化信息增益策略来选择1个属性作为该节点的分裂属性,以得到决策树初步分裂的结构,其中B为自然数;
(b9)决策树形成过程中每个节点都按照步骤(b8)来分裂,以得到精度85%以上的决策树模型;
(b11)将步骤(b10)生成的随机森林模型应用到每个格网中,预测每个格网的人口密度,将得到的格网人口密度值与格网面积相乘,最后生成研究区非城区和城区非居住区人口分布的300*300m格网。
优选地,解释力值f等于:
上式中:k∈[1,K],且表示因变量Y或自变量X的第k个分层(Strata)或分类,K表示分层总数;Nk和N分别为第k个分层和全部分层的单元数;σ和o2分别是第k个分层和全部分层的因变量Y值的方差。SW为每个分层k内的方差之和,ST为全部分层的总方差。f的值域为[0,1],如果分层是由自变量X生成的,则f值越大表示自变量X对应变量Y的解释力越强,反之则越弱;
影响系数E等于:
式中:NX1及NX2分别表示两个主导因素X1和X2的样本量;SWX1和SWX2分别表示由主导因素X1和X2形成的分层的层内方差之和;k表示主导因素X1和X2的第k个分层,K1和K2分别表示主导因素X1和X2的分层总数目。其中零假设H0:SWX1=SWX2。如果在α的显著性水平上拒绝H0,这表明主导因素X1和X2对应变量Y的空间分布的影响存在着显著的差异。
优选地,步骤(1)的判断过程具体为。
(c1)使用决定系数R2和MAE对统计年鉴中市区(县)人口总数与模拟生成的相应范围人口总数进行精度检验:其中:
式中:Oi为第i个最小人口统计单元人口密度的实际统计值大小;Pi为第i个最小人口统计单元的人口密度随机拟合结果值;为所有最小人口统计单元人口密度随机森林拟合值的平均值;为所有最小人口统计单元人口密度的实际统计的平均值;I为研究区内最小人口统计单元的总数。
(c2)判断是否有步骤(c1)中R2>0.8且MAE<10%,如果是,则说明预测结果具有分析实际人口分布意义,该初步人口分布图校验通过,基于随机森林模型可进一步模拟较大范围的人口分布,否则说明该初步人口分布图校验不通过。
优选地,步骤(5)的判断过程具体为:
(d1)选取当年夜间24:00的百度人口热力图,在ArcGIS中新建研究区范围内30*30m的格网,根据百度热力图显示的颜色对新建的格网进行属性表赋值:
(d2)针对每一个格网而言,判断城区居住区人口分布中该格网中的人口分布模拟的数值是否位于赋值后的该格网中的人口数值范围内,若与该范围一致,则说明该初步人口分布图校验通过,否则说明该初步人口分布图校验不通过。
优选地,步骤(6)的判断过程具体为:
(e1)将步骤(a1)所划分的自然地物遥感影像范围进行提取;
(e2)选择初步人口分布图中与步骤(e1)的范围重合的区域,利用GIS将这些无建筑区域的人口数据赋值为零。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)由于本发明采用了步骤(1),其对人口分布相关的数据分成两类,即表征城乡差异的宏观数据和城市内部分异的微观数据,然后对相应数据进行预处理,消除数据格式、尺度和坐标等差异,再将两类数据分别导入人口分布识别模型,从而能够减少由于输入数据的精度差异过大而对识别效果的影响;
(2)由于本发明采用了步骤(2)和(3),其根据不同类型、不同尺度数据采用分区方法对人口分布进行特征识别,即宏观尺度(省域尺度)采用地理探测器和随机森林模型构建多因素融合的多元回归模型,即根据各种功能用地、地类类别与人口的关系影响强度来得到人口分布影响因素和系数,此模型可应用于非城区人口和城区中非居住区的300m*300m人口分布模拟;市区尺度的人口分布则通过提取居住区,再根据居住区建成环境参数(建筑面积、建筑层高等)获取其30m*30m人口分布图。由于考虑了不同地类下数据精度和所需精度的实际情况,突出关键影响部分,能减少数据挖掘的计算量;
(3)由于本发明采用了步骤(4)至(7),其通过特征规则和分区检验对模型参数进行修正,增强了算法的适用性,最后获得多尺度的人口分布数据,从而不仅能根据所需要的尺度,保留细节信息,有效节省存贮空间,而且拥有计算效率高、可迁移能力强等优点,进一步提升人口分布模拟精度。
附图说明
图1是本发明基于多源大数据的人口分布识别方法的总体流程示意图;
图2是本发明方法的步骤(2)中使用的居住区人口识别模型示意图;
图3是本发明方法中使用的Relief F-PSO特征算法的流程示意图;
图4是本发明方法中使用的M3Net模型的结构示意图,其中上半部分是该M3Net的多视图分支,下半部分是该M3Net的多光谱分支;
图5是本发明方法的步骤(3)的过程示意图;
图6是本发明方法的步骤(4)-(7)模型修正和结果输出的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明提供了一种基于多源大数据的人口分布识别方法,包括以下步骤:
(1)获取某个城市的统计数据(包括经济发展水平数据、市区/县和街道的人口统计数据)、矢量数据(包括兴趣点数据,即Point of Interest简称POI、道路矢量数据、建筑轮廓数据)以及栅格数据(遥感影像数据、土地利用数据、百度热力图),对这些数据进行预处理,以得到预处理后的统一坐标系数据。
具体而言,本步骤中是从城市的统计年鉴中获取该城市的经济发展水平数据(GDP)、市区/县和各街道人口统计数据;从地理空间数据云(https://www.gscloud.cn/)获取遥感影像数据;从OpenStreetMap网站(https://www.openhistoricalmap.org/)获取道路矢量数据、住宅POI数据和建筑轮廓数据;从Esri Land Cover网站(https:// www.arcgis.com/apps/instant/media/index.html?appid=fc92d38533d440078f17678e bc20e8e2)获取30米分辨率的土地利用数据;从百度地图获取18级的百度热力图(100m分辨率)。
具体而言,针对包括遥感影像数据、土地利用数据、以及百度热力图的栅格数据而言,预处理过程是进行重采样,形成300*300m的统一尺度;针对包括各级行政区划、住宅POI数据、道路矢量数据、以及建筑轮廓数据的矢量数据而言,预处理过程是:对其中空间坐标不一致的数据使用GIS投影变换,形成统一坐标系的空间数据库;针对包括GDP数据、以及市区/县和街道的人口统计数据的统计数据而言,与相应的行政区划矢量数据进行表格链接,选取最小面积的“街道”或“镇”行政面积的10%(大约为300*300m)作为像元大小,通过插值方法转化为栅格数据。
本步骤中的预处理过程,市区尺度数据预处理主要为使用ArcGIS10.6软件(以下简称GIS)统一空间坐标系;省级数据首先对道路网密度、GDP进行格式转化,选取最小面积的“街道”或“镇”行政面积的10%(大约为300*300m)作为像元大小,通过插值方法转化为300*300m的栅格数据,并对空间坐标不一致的数据使用GIS进行空间配准,形成统一坐标系的空间数据库然后利用GIS对一部分宏观数据(夜间灯光、土地利用)进行重采样,形成300*300m的统一尺度。
(2)将步骤(1)得到的百度热力图、住宅POI数据、建筑轮廓数据、遥感影像数据输入训练好的居住区人口识别模型,以获取城区居住区人口分布,如图2所示;
本步骤中的居住区人口识别模型包括居住区范围提取模型、建筑高度识别模型、以及地理信息系统(Geographic information system,简称GIS)模型,其中建筑高度识别模型和GIS模型均与居住区范围提取模型相连。
具体而言,本发明中的居住区范围提取模型是先后采用Relief F算法和J48决策树来实现。
建筑高度识别模型采用M3Net模型和高分影像反演方法。
GIS模型采用GIS几何统计建筑面积。
由于遥感影像数据更新周期为每月一次,住宅POI和建筑轮廓数据更新周期为每年一次,因而以遥感影像数据为基础数据提取居住区建筑。因此,本发明中的居住区人口识别模型结合了三者数据,且是通过以下步骤训练得到的:
(a1)采用Relief F算法对遥感影像数据中自然地物(水体、植被、阴影等背景地物)和非自然地物(建筑、道路和裸地等)进行分类,以得到自然地物遥感影像和非自然地物遥感影像,如图3所示;
(a2)从步骤(a1)得到的非自然地物遥感影像中随机选择多个样本,获取所有样本的特征权重,并按照从大到小的顺序对特征权重进行排序;
(a3)对于步骤(a2)得到的选择分类能力排名前10%的特征权重而言,运用PSO封装算法对这些特征权重进行特征重要性度量(用于消除冗余和不相关特征),从而得到对分类有贡献力的多个特征权重;
(a4)对步骤(a3)得到的特征权重进行降序排列,利用排名和序列后向选择方法相结合的方式(每次从特征集合中删除重要性排序最后的特征,逐次迭代运算),以得到多个分类特征(特征维度和分类精度的关系);
(a5)根据(a4)得到的分类特征(光谱多样性特征,如光谱、形状、以及纹理特征)对步骤(a1)处理后的非自然地物遥感影像进行处理(即将建筑物、道路以及裸地进一步划分,划分中结合建筑物与阴影的邻近关系等特征),以得到基于遥感影像数据的建筑物;
(a6)采用J48决策树算法根据对(a5)得到的建筑物进行区分,以初步提取居住建筑(具体是根据屋顶颜色、面积、样式等);
(a7)在GIS中将建筑轮廓数据与住宅POI数据进行叠置,以提取住宅建筑,并将提取的住宅数据与步骤(a6)提取的居住建筑进行融合,以得到完整的住宅建筑数据;
(a8)通过GIS中的聚合工具对步骤(a7)得到的住宅建筑数据进行提取,以得到各居住区范围;
(a9)利用GIS对步骤(a8)得到的各居住区范围中的住宅建筑数据进行几何统计,以得到各居住区建筑面积;
(a10)根据百度街景数据和步骤(a9)得到的各居住区建筑面积,将步骤(a8)得到的各居住区范围进行进一步划分,以得到能够获得百度街景的居住区A和不能获得百度街景的居住区B;
(a11)根据步骤(a10)得到的居住区A提取相应范围的百度街景图像,并将其输入M3Net模型,通过转置卷积操作得到特征图;
具体而言,M3Net模型包括两个分支,其中一个分支用于学习多光谱图像(红/绿/蓝/近红外波段),另一个分支用于学习多视图图像(最低点/前向/后向图像),采用U-Net作为每个分支的基础,构成带跳跃连接的编-解码器网络;
具体而言,该U-Net网络中,编-解码器结构主要包括:
i)卷积层(Conv),该层将输入图像与滤波核(如3×3)进行卷积,生成特征映射;
ii)最大池化层(Max pooling),对小邻域进行Max操作,降低样本特征映射,提高局部平移不变性;
iii)批处理归一化层(Batch Normalization,简称BN),对每个训练小批的特征映射进行归一化,以降低内部协变量移位;
iv)转置卷积层(Trans-conv,又称反卷积层),利用滤波核进行转置卷积运算,扩大特征映射;
v)校正线性单元(Rectified linear unit,简称ReLU)激活函数,通过保持正值不变和将负值设置为零,使网络的非线性建模成为可能;
(a12)根据M3Net模型中的多视图分支(如图4(a)所示),并使用两次Conv、BN和ReLU的组合,将输入的百度街景图像映射到特征图,然后在编码阶段使用2×2最大池化操作对特征图进行下采样,将该过程重复四次,从而得到同比例尺特征图;
具体而言,在每次最大池化操作后,将特征通道的数量增加一倍。在译码阶段,通过转置卷积操作,特征图的大小每次增加一倍;
(a13)通过跳跃式连接将步骤(a11)得到的特征图与步骤(a12)得到的同比例尺特征图连接起来,并应用Conv和ReLU组合两次生成新的特征图,重复此过程四次(其中每一次反卷积操作后特征通道的数量减半),从而得到特征筛选过的新的特征图;
(a14)使用Conv1×1卷积对步骤(a13)得到的新的特征图进行处理,以得到建筑高度图,并将其输入多视图分支,以得到来自多视图分支的建筑高度(BH1);
具体而言,自动编码建筑物在多视图图像中的辐射和结构特征(如材料和侧面),以估计建筑物高度。
多光谱分支(图4(b))的组成与多视图分支相似。主要的区别在于输入图像的通道数量,即多光谱分支为4个通道(红/绿/蓝/近红外波段),多视图分支为3个通道(最低点/前向/后向图像);
(a15)将得到的建筑高度图输入多光谱分支(可重用多光谱图像中最深层特征图,即编码部分的最后一层,作为两个解码器的输入),从而得到来自多光谱分支的建筑高度(BH2)和建筑足迹(BF),将来自多视图分支的建筑高度(BH1)、以及来自多光谱分支的建筑高度(BH2)和建筑足迹(BF)连接起来,从而得到最终预测的建筑高度(FBH);
(a16)针对步骤(a10)得到的居住区B而言,提取其中的GF-2卫星影像数据,通过正射校正以得到校正影像(即消除畸变的成像);
具体而言,本步骤中的校正方法为多项式校正,即通过设置控制点和验证点进行近似拟合校正,多项式的阶数决定控制点数量的多少,控制点的数量表达公式如下:
式中,C和c分别为控制点的数量和平方数。
(a17)利用平行法确定步骤(a16)得到的校正影像中建筑物在太阳光方向下的阴影长度L,其包括两部分:
其中α表示太阳高度角,n和m分别表示校正影像在行和列方向上的像元数,l表示像元的边长(单位是米),即空间分辨率;
(a18)根据步骤(17)得到的阴影长度获取步骤(a16)得到的校正影像中建筑物在太阳光方向下的阴影的平均长度。
具体而言,本步骤首先根据太阳方位角度,按照0.1m的宽度在整幅校正影像上生成入射平行线,然后使该入射平行线与阴影进行相交运算,提取出多条太阳光入射方向与阴影相交的平行线,并对这些平行线进行平均计算,从而得到阴影的平均长度;
(a19)结合步骤(a15)得到的最终预测的建筑高度和步骤(a18)得到的阴影的平均长度,并根据建筑物的平均层高得到居住区A与居住区B内每栋建筑的层数,并通过居住区的规划图获取每栋建筑中每层的户数;
(a20)根据步骤(a19)得到的层数和每层户数带入等式“居住区总人口=总户数*户规模=每层户数*层数*户规模”,得到居住区人口数;
具体而言,户规模是通过查看人口统计年鉴得到的。
(a21)将步骤(a20)得到的居住区人口数通过ArcGIS划分成30m*30m的格网,以得到城区居住区人口30m*30m分布格网。
(3)将步骤(1)得到的经济发展水平数据、市区/县和街道的人口统计数据、道路矢量数据、以及土地利用数据输入训练好的多因素融合模型(其包括顺次连接的地理探测器和随机森林模型),以得到人口分布影响因素及其系数,并根据人口分布影响因素及其系数获取非城区人口分布、以及城区非居住区人口分布,如图5所示;
本发明中的多因素融合模型是通过以下步骤训练得到的:
(b1)将步骤(1)得到的统一坐标系数据划分为训练集和测试集,将统一坐标系数据对应的区域作为研究区,初步选取训练集的影响人口分布的主要因素,并进行显著性检验,以确定影响研究区人口密度分布的主导因素,如土地利用类型、夜间灯光强度、路网密度和GDP等;
(b2)以各街道统计单元的人口密度为因变量Y,步骤(b1)选取的主导因素为自变量X,将应变量Y与自变量X进行离散化处理;
(b3)将步骤(b2)离散化后的数据输入地理探测器中的“因子探测器”,以获取各主导因素对人口分布的解释力值f;
具体而言,解释力值f越高,则说明对应的主导因素对人口分布密度的影响越大;
上式中:k∈[1,K],且表示因变量Y或自变量X的第k个分层(Strata)或分类,K表示分层总数;Nk和N分别为第k个分层和全部分层的单元数;σ和o2分别是第k个分层和全部分层的因变量Y值的方差。SW为每个分层k内的方差之和,ST为全部分层的总方差。f的值域为[0,1],如果分层是由自变量X生成的,则f值越大表示自变量X对应变量Y的解释力越强,反之则越弱;
(b4)将步骤(b2)离散化后的数据输入“生态探测器”,以得到各个主导因素对人口密度分布的影响系数。
具体而言,生态探测器通过比较主导因素之间的相对重要性,补充解释主导因素之间的差异性,其探测结果与主导因素解释力值综合分析可得到各主导因素的影响系数E:
式中:NX1及NX2分别表示两个主导因素X1和X2的样本量;SWX1和SWX2分别表示由主导因素X1和X2形成的分层的层内方差之和;k表示主导因素X1和X2的第k个分层,K1和K2分别表示主导因素X1和X2的分层总数目。其中零假设H0:SWX1=SWX2。如果在α的显著性水平上拒绝H0,这表明主导因素X1和X2对应变量Y的空间分布的影响存在着显著的差异。
(b5)结合步骤(b3)、(b4)删选主导因素及其影响程度,运用多元线性回归模型获取多个格网;
具体而言,每个格网的人口分布模型构建为:
式中,t为所选取的土地利用类型种类总数,Pi为研究区内第i个最小人口统计单元(即30m*30m的格网)的人口数,其中i∈[1,I],I为研究区内最小人口统计单元的总数;aj为第j类土地利用类型的人口分布初始系数;Sij为第i个j类土地利用指数;t为所选取的土地利用类型种类总数,Mi、Ri、Fi分别为第i个格网夜间灯光强度值、道路网密度和GDP,b、c、d为相应的人口分布影响系数,d为常数项;
(b6)根据街道行政边界范围对步骤(b5)得到的每个格网的人口进行重新划分,以获取各个街道(除了居住区)的人口分布图;
(b7)使用bootstrap抽样法,从步骤(b6)的获取的街道的人口分布图随机选择20个街道,然后从中选择N个样本(格网)用于训练,并将选择的N个样本用来训练一个决策树,作为决策树根节点处的样本。其中N∈[1,20];
(b8)对步骤(b7)的样本进行查看,如果每个样本有B个属性(其中B为自然数),在决策树的每个节点需要分裂时,随机从这B个属性中选取出b`∈[1,B]个属性,然后从这b`个属性中采用最大化信息增益策略来选择1个属性作为该节点的分裂属性,以得到决策树初步分裂的结构;
(b9)决策树形成过程中每个节点都按照步骤(b8)来分裂,以得到精度85%以上的决策树模型;
具体而言,其流程为:在决策树分裂过程中,如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性,则该节点已经达到了叶子节点,无须继续分裂了,一直到不能够再分裂为止,重复以上过程1000-2000次;模型精度随子树数量增加而增加,模型精度趋于稳定;在统一较大子树数量的前提下,可通过训练确定模型中误差最小的子树最大变量个数。根据经验,当子树深度等于6时,模型精度达到85%。汇总每棵决策树的类标进行多数投票。
(b11)将步骤(b10)生成的随机森林模型应用到每个格网中,预测每个格网的人口密度,将得到的格网人口密度值与格网面积相乘,最后生成研究区非城区和城区非居住区人口分布的300*300m格网。
(4)将步骤(2)得到的城区居住区人口分布、连同步骤(3)得到的非城区人口分布和城区非居住区人口分布融合成为初步人口分布图,使用该城市的人口统计年鉴判断该初步人口分布图是否校验通过,如果通过则进入步骤(5),否则返回步骤(2);
具体而言,本步骤的判断过程具体为。
(c1)使用决定系数R2和平均绝对误差(Mean absolute error,简称MAE)对统计年鉴中市区(县)人口总数与模拟生成的相应范围人口总数进行精度检验:其中:
式中:Oi为第i个最小人口统计单元人口密度的实际统计值大小;Pi为第i个最小人口统计单元的人口密度随机拟合结果值;为所有最小人口统计单元人口密度随机森林拟合值的平均值;为所有最小人口统计单元人口密度的实际统计的平均值;I为研究区内最小人口统计单元的总数。
R2值越大,MAE值越小,表示随机模型的预测精度越高,越能反映实际人口的分布情况;
(c2)判断是否有步骤(c1)中R2>0.8且MAE<10%,如果是,则说明预测结果具有分析实际人口分布意义,该初步人口分布图校验通过,基于随机森林模型可进一步模拟较大范围的人口分布,否则说明该初步人口分布图校验不通过。
(5)使用该城市的百度热力图判断步骤(4)得到的初步人口分布图是否校验通过,如果通过则进入步骤(6),否则返回步骤(2);
具体而言,本步骤的判断过程具体为:
(d1)选取当年夜间24:00的百度人口热力图(这是由于夜晚的人口分布呈现与居住区具有高关联性),在ArcGIS中新建研究区范围内30*30m的格网,根据百度热力图显示的颜色对新建的格网进行属性表赋值:
具体而言,红色代表非常拥挤,人口密度>60人/hm2;橙色代表拥挤,人口密度为40~60人/hm2,黄色代表一般,人口密度为20~40人/hm2;浅绿色代表人口密度为10~20人/hm2,深绿色代表人口密度≤10人/hm2;
(d2)将步骤(d1)赋值后的格网与步骤(2)得到的城区居住区人口分布中的格网进行叠置和对比(即针对每一个格网而言,判断城区居住区人口分布中该格网中的人口分布模拟的数值是否位于赋值后的该格网中的人口数值范围内),若与该范围一致,则说明该初步人口分布图校验通过,否则说明该初步人口分布图校验不通过。
(6)使用该区域的遥感影像数据将初步人口分布图中的无建筑区域赋值为零,以得到包含了无居住建筑的用地的真实情况的初步人口分布图。
具体而言,本步骤的判断具体流程为:
(e1)将步骤(a1)所划分的自然地物遥感影像范围进行提取;
(e2)选择初步人口分布图中与步骤(e1)的范围重合的区域,利用GIS将这些无建筑区域的人口数据赋值为零。
(7)通过分区验证的方式判断初步人口分布图是否验证通过,如果通过则将该初步人口分布图作为最终的人口分布图输出,过程结束,否则返回步骤(2);
具体而言,本步骤的分区验证过程具体为:选取不同尺度下具有代表性的空间进行分区验证。其中省级尺度选取市区(县)/街道一级的人口作为检验单元进行复核;城区选取功能地块区作为人口检验单元进行复核;镇/乡尺度选取居民点作为人口检验单元进行复核。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于多源大数据的人口分布识别方法,其特征在于,包括以下步骤:
(1)获取某个城市的统计数据、矢量数据以及栅格数据,对这些数据进行预处理,以得到预处理后的统一坐标系数据;其中统计数据包括经济发展水平数据以及市区/县和街道的人口统计数据,矢量数据包括兴趣点数据POI、道路矢量数据、以及建筑轮廓数据,栅格数据包括遥感影像数据、土地利用数据、以及百度热力图;
(2)将步骤(1)得到的百度热力图、住宅POI数据、建筑轮廓数据、遥感影像数据输入训练好的居住区人口识别模型,以获取城区居住区人口分布;
(3)将步骤(1)得到的经济发展水平数据、市区/县和街道的人口统计数据、道路矢量数据、以及土地利用数据输入训练好的多因素融合模型,以得到人口分布影响因素及其系数,并根据人口分布影响因素及其系数获取非城区人口分布、以及城区非居住区人口分布;
(4)将步骤(2)得到的城区居住区人口分布、连同步骤(3)得到的非城区人口分布和城区非居住区人口分布融合成为初步人口分布图,使用该城市的人口统计年鉴判断该初步人口分布图是否校验通过,如果通过则进入步骤(5),否则返回步骤(2);
(5)使用该城市的百度热力图判断步骤(4)得到的初步人口分布图是否校验通过,如果通过则进入步骤(6),否则返回步骤(2);
(6)使用该区域的遥感影像数据将初步人口分布图中的无建筑区域赋值为零,以得到包含了无居住建筑的用地的真实情况的初步人口分布图。
(7)通过分区验证的方式判断初步人口分布图是否验证通过,如果通过则将该初步人口分布图作为最终的人口分布图输出,过程结束,否则返回步骤(2)。
2.根据权利要求1所述的基于多源大数据的人口分布识别方法,其特征在于,
步骤(1)是从城市的统计年鉴中获取该城市的经济发展水平数据GDP、市区/县和各街道人口统计数据;从地理空间数据云获取遥感影像数据;从OpenStreetMap网站获取道路矢量数据、住宅POI数据和建筑轮廓数据;从Esri Land Cover网站获取土地利用数据;从百度地图获取18级的百度热力图。
针对包括遥感影像数据、土地利用数据、以及百度热力图的栅格数据而言,预处理过程是进行重采样,形成300*300m的统一尺度;
针对包括各级行政区划、住宅POI数据、道路矢量数据、以及建筑轮廓数据的矢量数据而言,预处理过程是:对其中空间坐标不一致的数据使用GIS投影变换,形成统一坐标系的空间数据库;针对包括GDP数据、以及市区/县和街道的人口统计数据的统计数据而言,与相应的行政区划矢量数据进行表格链接,选取最小面积的“街道”或“镇”行政面积的10%作为像元大小,通过插值方法转化为栅格数据。
市区尺度数据预处理是使用GIS统一空间坐标系;
省级数据的预处理首先对道路网密度、GDP进行格式转化,选取最小面积的“街道”或“镇”行政面积的10%作为像元大小,通过插值方法转化为300*300m的栅格数据,并对空间坐标不一致的数据使用GIS进行空间配准,形成统一坐标系的空间数据库然后利用GIS对一部分宏观数据进行重采样,形成300*300m的统一尺度。
3.根据权利要求1或2所述的基于多源大数据的人口分布识别方法,其特征在于,
居住区人口识别模型包括居住区范围提取模型、建筑高度识别模型、以及GIS模型,其中建筑高度识别模型和GIS模型均与居住区范围提取模型相连;
居住区范围提取模型是先后采用ReliefF算法和J48决策树来实现;
建筑高度识别模型采用M3Net模型和高分影像反演方法。
GIS模型采用GIS几何统计建筑面积。
4.根据权利要求1至3中任意一项所述的基于多源大数据的人口分布识别方法,其特征在于,居住区人口识别模型是通过以下步骤训练得到的:
(a1)采用ReliefF算法对遥感影像数据中自然地物和非自然地物进行分类,以得到自然地物遥感影像和非自然地物遥感影像;
(a2)从步骤(a1)得到的非自然地物遥感影像中随机选择多个样本,获取所有样本的特征权重,并按照从大到小的顺序对特征权重进行排序;
(a3)对于步骤(a2)得到的选择分类能力排名前10%的特征权重而言,运用PSO封装算法对这些特征权重进行特征重要性度量,从而得到对分类有贡献力的多个特征权重;
(a4)对步骤(a3)得到的特征权重进行降序排列,利用排名和序列后向选择方法相结合的方式,以得到多个分类特征;
(a5)根据(a4)得到的分类特征对步骤(a1)处理后的非自然地物遥感影像进行处理,以得到基于遥感影像数据的建筑物;
(a6)采用J48决策树算法根据对(a5)得到的建筑物进行区分,以初步提取居住建筑;
(a7)在GIS中将建筑轮廓数据与住宅POI数据进行叠置,以提取住宅建筑,并将提取的住宅数据与步骤(a6)提取的居住建筑进行融合,以得到完整的住宅建筑数据;
(a8)通过GIS中的聚合工具对步骤(a7)得到的住宅建筑数据进行提取,以得到各居住区范围;
(a9)利用GIS对步骤(a8)得到的各居住区范围中的住宅建筑数据进行几何统计,以得到各居住区建筑面积;
(a10)根据百度街景数据和步骤(a9)得到的各居住区建筑面积,将步骤(a8)得到的各居住区范围进行进一步划分,以得到能够获得百度街景的居住区A和不能获得百度街景的居住区B;
(a11)根据步骤(a10)得到的居住区A提取相应范围的百度街景图像,并将其输入M3Net模型,通过转置卷积操作得到特征图;
(a12)根据M3Net模型中的多视图分支,并使用两次Conv、BN和ReLU的组合,将输入的百度街景图像映射到特征图,然后在编码阶段使用2×2最大池化操作对特征图进行下采样,将该过程重复四次,从而得到同比例尺特征图;
(a13)通过跳跃式连接将步骤(a11)得到的特征图与步骤(a12)得到的同比例尺特征图连接起来,并应用Conv和ReLU组合两次生成新的特征图,重复此过程四次,从而得到特征筛选过的新的特征图;
(a14)使用Conv1×1卷积对步骤(a13)得到的新的特征图进行处理,以得到建筑高度图,并将其输入多视图分支,以得到来自多视图分支的建筑高度;
(a15)将得到的建筑高度图输入多光谱分支,从而得到来自多光谱分支的建筑高度和建筑足迹,将来自多视图分支的建筑高度、以及来自多光谱分支的建筑高度和建筑足迹连接起来,从而得到最终预测的建筑高度;
(a16)针对步骤(a10)得到的居住区B而言,提取其中的GF-2卫星影像数据,通过正射校正以得到校正影像;
(a17)利用平行法确定步骤(a16)得到的校正影像中建筑物在太阳光方向下的阴影长度L:
(a18)根据步骤(17)得到的阴影长度获取步骤(a16)得到的校正影像中建筑物在太阳光方向下的阴影的平均长度。
(a19)结合步骤(a15)得到的最终预测的建筑高度和步骤(a18)得到的阴影的平均长度,并根据建筑物的平均层高得到居住区A与居住区B内每栋建筑的层数,并通过居住区的规划图获取每栋建筑中每层的户数;
(a20)根据步骤(a19)得到的层数和每层户数带入等式“居住区总人口=总户数*户规模=每层户数*层数*户规模”,得到居住区人口数;
(a21)将步骤(a20)得到的居住区人口数通过ArcGIS划分成30m*30m的格网,以得到城区居住区人口30m*30m分布格网。
5.根据权利要求1所述的基于多源大数据的人口分布识别方法,其特征在于,多因素融合模型是通过以下步骤训练得到的:
(b1)将步骤(1)得到的统一坐标系数据划分为训练集和测试集,将统一坐标系数据对应的区域作为研究区,初步选取训练集的影响人口分布的主要因素,并进行显著性检验,以确定影响研究区人口密度分布的主导因素,如土地利用类型、夜间灯光强度、路网密度和GDP等;
(b2)以各街道统计单元的人口密度为因变量Y,步骤(b1)选取的主导因素为自变量X,将应变量Y与自变量X进行离散化处理;
(b3)将步骤(b2)离散化后的数据输入地理探测器中的因子探测器,以获取各主导因素对人口分布的解释力值f;
(b4)将步骤(b2)离散化后的数据输入生态探测器,以得到各个主导因素对人口密度分布的影响系数。
(b5)结合步骤(b3)、(b4)得到的结果删选主导因素及其影响程度,并运用多元线性回归模型获取多个格网。
(b6)根据街道行政边界范围对步骤(b5)得到的每个格网的人口进行重新划分,以获取各个街道的人口分布图;
(b7)使用bootstrap抽样法,从步骤(b6)的获取的街道的人口分布图随机选择20个街道,然后从中选择N个样本用于训练,并将选择的N个样本用来训练一个决策树,作为决策树根节点处的样本。其中N∈[1,20];
(b8)对步骤(b7)的样本进行查看,如果每个样本有B个属性,在决策树的每个节点需要分裂时,随机从这B个属性中选取出b`∈[1,B]个属性,然后从这b`个属性中采用最大化信息增益策略来选择1个属性作为该节点的分裂属性,以得到决策树初步分裂的结构,其中B为自然数;
(b9)决策树形成过程中每个节点都按照步骤(b8)来分裂,以得到精度85%以上的决策树模型;
(b11)将步骤(b10)生成的随机森林模型应用到每个格网中,预测每个格网的人口密度,将得到的格网人口密度值与格网面积相乘,最后生成研究区非城区和城区非居住区人口分布的300*300m格网。
6.根据权利要求5所述的基于多源大数据的人口分布识别方法,其特征在于,
解释力值f等于:
上式中:k∈[1,K],且表示因变量Y或自变量X的第k个分层(Strata)或分类,K表示分层总数;Nk和N分别为第k个分层和全部分层的单元数;σ和o2分别是第k个分层和全部分层的因变量Y值的方差。SW为每个分层k内的方差之和,ST为全部分层的总方差。f的值域为[0,1],如果分层是由自变量X生成的,则f值越大表示自变量X对应变量Y的解释力越强,反之则越弱;
影响系数E等于:
式中:NX1及NX2分别表示两个主导因素X1和X2的样本量;SWX1和SWX2分别表示由主导因素X1和X2形成的分层的层内方差之和;k表示主导因素X1和X2的第k个分层,K1和K2分别表示主导因素X1和X2的分层总数目。其中零假设H0:SWX1=SWX2。如果在α的显著性水平上拒绝H0,这表明主导因素X1和X2对应变量Y的空间分布的影响存在着显著的差异。
7.根据权利要求1所述的基于多源大数据的人口分布识别方法,其特征在于,步骤(1)的判断过程具体为。
(c1)使用决定系数R2和MAE对统计年鉴中市区(县)人口总数与模拟生成的相应范围人口总数进行精度检验:其中:
式中:Oi为第i个最小人口统计单元人口密度的实际统计值大小;Pi为第i个最小人口统计单元的人口密度随机拟合结果值;为所有最小人口统计单元人口密度随机森林拟合值的平均值;为所有最小人口统计单元人口密度的实际统计的平均值;I为研究区内最小人口统计单元的总数。
(c2)判断是否有步骤(c1)中R2>0.8且MAE<10%,如果是,则说明预测结果具有分析实际人口分布意义,该初步人口分布图校验通过,基于随机森林模型可进一步模拟较大范围的人口分布,否则说明该初步人口分布图校验不通过。
8.根据权利要求1所述的基于多源大数据的人口分布识别方法,其特征在于,步骤(5)的判断过程具体为:
(d1)选取当年夜间24:00的百度人口热力图,在ArcGIS中新建研究区范围内30*30m的格网,根据百度热力图显示的颜色对新建的格网进行属性表赋值:
(d2)针对每一个格网而言,判断城区居住区人口分布中该格网中的人口分布模拟的数值是否位于赋值后的该格网中的人口数值范围内,若与该范围一致,则说明该初步人口分布图校验通过,否则说明该初步人口分布图校验不通过。
9.根据权利要求1所述的基于多源大数据的人口分布识别方法,其特征在于,步骤(6)的判断过程具体为:
(e1)将步骤(a1)所划分的自然地物遥感影像范围进行提取;
(e2)选择初步人口分布图中与步骤(e1)的范围重合的区域,利用GIS将这些无建筑区域的人口数据赋值为零。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210903919.6A CN115238584B (zh) | 2022-07-29 | 2022-07-29 | 一种基于多源大数据的人口分布识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210903919.6A CN115238584B (zh) | 2022-07-29 | 2022-07-29 | 一种基于多源大数据的人口分布识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115238584A true CN115238584A (zh) | 2022-10-25 |
CN115238584B CN115238584B (zh) | 2023-07-11 |
Family
ID=83678283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210903919.6A Active CN115238584B (zh) | 2022-07-29 | 2022-07-29 | 一种基于多源大数据的人口分布识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115238584B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052088A (zh) * | 2023-03-06 | 2023-05-02 | 合肥工业大学 | 基于点云的活力空间测度方法、系统及计算机设备 |
CN116415110A (zh) * | 2023-06-05 | 2023-07-11 | 武汉大学 | 基于多源遥感密度数据进行碳排放量分区网格化的方法 |
CN116595121A (zh) * | 2023-07-19 | 2023-08-15 | 北京国遥新天地信息技术股份有限公司 | 一种基于遥感技术数据显示监测系统 |
CN117521908A (zh) * | 2023-11-20 | 2024-02-06 | 深圳技术大学 | 一种城市空间区域适配性评估方法、系统及终端 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650618A (zh) * | 2016-11-15 | 2017-05-10 | 中山大学 | 一种基于随机森林模型的人口数据空间化方法 |
CN108871286A (zh) * | 2018-04-25 | 2018-11-23 | 中国科学院遥感与数字地球研究所 | 空间大数据协同的城市建成区人口密度估算方法和系统 |
CN109829029A (zh) * | 2019-01-30 | 2019-05-31 | 中国测绘科学研究院 | 一种顾及居住建筑属性的城市人口空间化方法及系统 |
CN109978249A (zh) * | 2019-03-19 | 2019-07-05 | 广州大学 | 基于分区建模的人口数据空间化方法、系统及介质 |
CN110716998A (zh) * | 2019-07-25 | 2020-01-21 | 首都师范大学 | 一种精细尺度人口数据空间化方法 |
CN112395383A (zh) * | 2020-11-30 | 2021-02-23 | 湘潭大学 | 基于多源信息融合的人口数据空间化方法、装置和设备 |
US20210217117A1 (en) * | 2019-01-25 | 2021-07-15 | Southeast University | Automatic urban land identification system integrating business big data with building form |
CN113191553A (zh) * | 2021-05-06 | 2021-07-30 | 深圳市数字城市工程研究中心 | 基于建筑物尺度的人口空间分布估算方法及系统 |
CN113657324A (zh) * | 2021-08-24 | 2021-11-16 | 速度时空信息科技股份有限公司 | 基于遥感影像地物分类的城市功能区识别方法 |
-
2022
- 2022-07-29 CN CN202210903919.6A patent/CN115238584B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650618A (zh) * | 2016-11-15 | 2017-05-10 | 中山大学 | 一种基于随机森林模型的人口数据空间化方法 |
CN108871286A (zh) * | 2018-04-25 | 2018-11-23 | 中国科学院遥感与数字地球研究所 | 空间大数据协同的城市建成区人口密度估算方法和系统 |
US20210217117A1 (en) * | 2019-01-25 | 2021-07-15 | Southeast University | Automatic urban land identification system integrating business big data with building form |
CN109829029A (zh) * | 2019-01-30 | 2019-05-31 | 中国测绘科学研究院 | 一种顾及居住建筑属性的城市人口空间化方法及系统 |
CN109978249A (zh) * | 2019-03-19 | 2019-07-05 | 广州大学 | 基于分区建模的人口数据空间化方法、系统及介质 |
CN110716998A (zh) * | 2019-07-25 | 2020-01-21 | 首都师范大学 | 一种精细尺度人口数据空间化方法 |
CN112395383A (zh) * | 2020-11-30 | 2021-02-23 | 湘潭大学 | 基于多源信息融合的人口数据空间化方法、装置和设备 |
CN113191553A (zh) * | 2021-05-06 | 2021-07-30 | 深圳市数字城市工程研究中心 | 基于建筑物尺度的人口空间分布估算方法及系统 |
CN113657324A (zh) * | 2021-08-24 | 2021-11-16 | 速度时空信息科技股份有限公司 | 基于遥感影像地物分类的城市功能区识别方法 |
Non-Patent Citations (3)
Title |
---|
WANG RONG等: "GIS-based study on the relationship between accessibility and population distribution", IEEE * |
成方龙;赵冠伟;: "分区策略与机器学习的人口分布精细化模拟", 测绘科学, no. 09 * |
成方龙;赵冠伟;杨木壮;刘月亮;李芳;: "集成地理探测器与随机森林模型的城市人口分布格网模拟", 测绘通报, no. 01 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052088A (zh) * | 2023-03-06 | 2023-05-02 | 合肥工业大学 | 基于点云的活力空间测度方法、系统及计算机设备 |
CN116415110A (zh) * | 2023-06-05 | 2023-07-11 | 武汉大学 | 基于多源遥感密度数据进行碳排放量分区网格化的方法 |
CN116415110B (zh) * | 2023-06-05 | 2023-08-15 | 武汉大学 | 基于多源遥感密度数据进行碳排放量分区网格化的方法 |
CN116595121A (zh) * | 2023-07-19 | 2023-08-15 | 北京国遥新天地信息技术股份有限公司 | 一种基于遥感技术数据显示监测系统 |
CN116595121B (zh) * | 2023-07-19 | 2023-10-20 | 北京国遥新天地信息技术股份有限公司 | 一种基于遥感技术数据显示监测系统 |
CN117521908A (zh) * | 2023-11-20 | 2024-02-06 | 深圳技术大学 | 一种城市空间区域适配性评估方法、系统及终端 |
Also Published As
Publication number | Publication date |
---|---|
CN115238584B (zh) | 2023-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136170B (zh) | 一种基于卷积神经网络的遥感影像建筑物变化检测方法 | |
CN115238584B (zh) | 一种基于多源大数据的人口分布识别方法 | |
Bechtel et al. | Generating WUDAPT Level 0 data–Current status of production and evaluation | |
CN109978249B (zh) | 基于分区建模的人口数据空间化方法、系统及介质 | |
CN109543630B (zh) | 基于深度学习的遥感影像林地提取方法及系统、存储介质、电子设备 | |
Ching et al. | Pathway using WUDAPT's Digital Synthetic City tool towards generating urban canopy parameters for multi-scale urban atmospheric modeling | |
CN113128134B (zh) | 一种矿区生态环境演变驱动因子权重量化分析方法 | |
CN102521273B (zh) | 一种高分辨率遥感的多功能城市用地空间信息生成方法 | |
CN111950942B (zh) | 基于模型的水污染风险评估方法、装置和计算机设备 | |
CN108629287A (zh) | 一种遥感影像地物分类方法 | |
CN116151610B (zh) | 一种非均质城市下垫面承灾体风险暴露空间模拟方法 | |
Peeters | A GIS-based method for modeling urban-climate parameters using automated recognition of shadows cast by buildings | |
CN113780307A (zh) | 一种区域年度最大蓝绿空间信息提取方法 | |
Shi et al. | An improved framework for assessing the impact of different urban development strategies on land cover and ecological quality changes-A case study from Nanjing Jiangbei New Area, China | |
CN116091911A (zh) | 一种地震勘探工区建筑物自动识别方法及系统 | |
Sun et al. | GABLE: A first fine-grained 3D building model of China on a national scale from very high resolution satellite imagery | |
CN114511787A (zh) | 一种基于神经网络的遥感图像地物信息生成方法及其系统 | |
Crols et al. | Downdating high-resolution population density maps using sealed surface cover time series | |
CN115147726B (zh) | 城市形态图的生成方法、装置、电子设备和可读存储介质 | |
CN115880427A (zh) | 一种自然环境的三维构建方法、装置 | |
CN113254554B (zh) | 基于地图抓取与聚类学习的城市街区热岛建模方法及系统 | |
CN114842356A (zh) | 一种高分辨率地表类型样本自动生成方法、系统及设备 | |
CN114596490A (zh) | 丘陵地形特征线提取方法、丘陵地dem精细化生产方法 | |
Sharma et al. | Developing a 3D geometry for urban energy modelling of Indian cities | |
LOTFIAN | Urban climate modeling: case study of Milan city |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |