CN115238584A

CN115238584A - 一种基于多源大数据的人口分布识别方法

Info

Publication number: CN115238584A
Application number: CN202210903919.6A
Authority: CN
Inventors: 焦胜; 蔡勇; 欧林之
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-10-25
Anticipated expiration: 2042-07-29
Also published as: CN115238584B

Abstract

本发明公开了一种基于多源大数据的人口分布识别方法，包括：获取某个城市的统计数据、矢量数据以及栅格数据，对这些数据进行预处理，以得到预处理后的统一坐标系数据；将得到的百度热力图、住宅POI数据、建筑轮廓数据、遥感影像数据输入训练好的居住区人口识别模型，以获取城区居住区人口分布，将得到的经济发展水平数据、市区/县和街道的人口统计数据、道路矢量数据、以及土地利用数据输入训练好的多因素融合模型，以得到人口分布影响因素及其系数，并根据人口分布影响因素及其系数获取非城区人口分布、以及城区非居住区人口分布。本发明构建“宏观层面上分城乡、分行政区、分城市功能以及微观层面上分街区单元”的人口分布模拟模型。

Description

一种基于多源大数据的人口分布识别方法

技术领域

本发明属于模式识别技术领域，更具体地，涉及一种基于多源大数据的人口分布识别方法。

背景技术

人口数据来源广泛，在属性、时间、空间精度方面具有一定的差异性。人口分布的精确识别是城市规划的一大重点，为城市规划的功能设施布局、城市空间结构组织提供基础的参考。目前，大数据在城市发展和管理中已经广泛应用于城市功能布局、空间组织、空间活力测度等方面。

现有的宏观层面的人口分布识别主要采用基于行政单元人口统计数据的插值法，空间精度较低。在城市内部人口识别传统的基本方法包括：一是空间插值，即通过划分格网，将人口数连到区域中心点，使用内插方法把中心点上的人口密度内插到格网表面；二是基于多因素综合分析的多元线性加权模型，以及距离衰减模型、基于夜间灯光数据的人口密度模拟、土地利用类型法等。

然而，上述关于人口分布识别的方法仍然存在不可忽略的缺陷：自上而下的推演往往忽视了尺度的制约因素，且数据处理较多依赖于人工操作，自动化程度相对较低，满足大跨度空间且高分辨率人口分布的模拟研究较少，或仅估算城市尺度的人口分布，大尺度下全采用高分辨率导致存贮过大，缺少将宏观和微观结合的城市人口识别系统性的方法。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于多源大数据的人口分布识别方法，其目的在于，采用多源大数据的数据融合、神经网络算法和随机森林等模型，并充分考虑模型的尺度效应，引入区域划分，从而构建“宏观层面上分城乡、分行政区、分城市功能以及微观层面上分街区单元”的人口分布模拟模型，不同精度的显示能减少存贮空间。

为实现上述目的，按照本发明的一个方面，提供了一种基于多源大数据的人口分布识别方法，包括以下步骤：

(1)获取某个城市的统计数据、矢量数据以及栅格数据，对这些数据进行预处理，以得到预处理后的统一坐标系数据；其中统计数据包括经济发展水平数据以及市区/县和街道的人口统计数据，矢量数据包括兴趣点数据POI、道路矢量数据、以及建筑轮廓数据，栅格数据包括遥感影像数据、土地利用数据、以及百度热力图；

(2)将步骤(1)得到的百度热力图、住宅POI数据、建筑轮廓数据、遥感影像数据输入训练好的居住区人口识别模型，以获取城区居住区人口分布；

(3)将步骤(1)得到的经济发展水平数据、市区/县和街道的人口统计数据、道路矢量数据、以及土地利用数据输入训练好的多因素融合模型，以得到人口分布影响因素及其系数，并根据人口分布影响因素及其系数获取非城区人口分布、以及城区非居住区人口分布；

(4)将步骤(2)得到的城区居住区人口分布、连同步骤(3)得到的非城区人口分布和城区非居住区人口分布融合成为初步人口分布图，使用该城市的人口统计年鉴判断该初步人口分布图是否校验通过，如果通过则进入步骤(5)，否则返回步骤(2)；

(5)使用该城市的百度热力图判断步骤(4)得到的初步人口分布图是否校验通过，如果通过则进入步骤(6)，否则返回步骤(2)；

(6)使用该区域的遥感影像数据将初步人口分布图中的无建筑区域赋值为零，以得到包含了无居住建筑的用地的真实情况的初步人口分布图。

(7)通过分区验证的方式判断初步人口分布图是否验证通过，如果通过则将该初步人口分布图作为最终的人口分布图输出，过程结束，否则返回步骤(2)。

优选地，步骤(1)是从城市的统计年鉴中获取该城市的经济发展水平数据GDP、市区/县和各街道人口统计数据；从地理空间数据云获取遥感影像数据；从OpenStreetMap网站获取道路矢量数据、住宅POI数据和建筑轮廓数据；从Esri Land Cover网站获取土地利用数据；从百度地图获取18级的百度热力图。

针对包括遥感影像数据、土地利用数据、以及百度热力图的栅格数据而言，预处理过程是进行重采样，形成300*300m的统一尺度；

针对包括各级行政区划、住宅POI数据、道路矢量数据、以及建筑轮廓数据的矢量数据而言，预处理过程是：对其中空间坐标不一致的数据使用GIS投影变换，形成统一坐标系的空间数据库；针对包括GDP数据、以及市区/县和街道的人口统计数据的统计数据而言，与相应的行政区划矢量数据进行表格链接，选取最小面积的“街道”或“镇”行政面积的10％作为像元大小，通过插值方法转化为栅格数据。

市区尺度数据预处理是使用GIS统一空间坐标系；

省级数据的预处理首先对道路网密度、GDP进行格式转化，选取最小面积的“街道”或“镇”行政面积的10％作为像元大小，通过插值方法转化为300*300m的栅格数据，并对空间坐标不一致的数据使用GIS进行空间配准，形成统一坐标系的空间数据库然后利用GIS对一部分宏观数据(夜间灯光、土地利用)进行重采样，形成300*300m的统一尺度。

优选地，居住区人口识别模型包括居住区范围提取模型、建筑高度识别模型、以及GIS模型，其中建筑高度识别模型和GIS模型均与居住区范围提取模型相连；

居住区范围提取模型是先后采用Relief F算法和J48决策树来实现；

建筑高度识别模型采用M³Net模型和高分影像反演方法。

GIS模型采用GIS几何统计建筑面积。

优选地，居住区人口识别模型是通过以下步骤训练得到的：

(a1)采用Relief F算法对遥感影像数据中自然地物和非自然地物进行分类，以得到自然地物遥感影像和非自然地物遥感影像；

(a2)从步骤(a1)得到的非自然地物遥感影像中随机选择多个样本，获取所有样本的特征权重，并按照从大到小的顺序对特征权重进行排序；

(a3)对于步骤(a2)得到的选择分类能力排名前10％的特征权重而言，运用PSO封装算法对这些特征权重进行特征重要性度量，从而得到对分类有贡献力的多个特征权重；

(a4)对步骤(a3)得到的特征权重进行降序排列，利用排名和序列后向选择方法相结合的方式，以得到多个分类特征；

(a5)根据(a4)得到的分类特征对步骤(a1)处理后的非自然地物遥感影像进行处理，以得到基于遥感影像数据的建筑物；

(a6)采用J48决策树算法根据对(a5)得到的建筑物进行区分，以初步提取居住建筑；

(a7)在GIS中将建筑轮廓数据与住宅POI数据进行叠置，以提取住宅建筑，并将提取的住宅数据与步骤(a6)提取的居住建筑进行融合，以得到完整的住宅建筑数据；

(a8)通过GIS中的聚合工具对步骤(a7)得到的住宅建筑数据进行提取，以得到各居住区范围；

(a9)利用GIS对步骤(a8)得到的各居住区范围中的住宅建筑数据进行几何统计，以得到各居住区建筑面积；

(a10)根据百度街景数据和步骤(a9)得到的各居住区建筑面积，将步骤(a8)得到的各居住区范围进行进一步划分，以得到能够获得百度街景的居住区A和不能获得百度街景的居住区B；

(a11)根据步骤(a10)得到的居住区A提取相应范围的百度街景图像，并将其输入M³Net模型，通过转置卷积操作得到特征图；

(a12)根据M³Net模型中的多视图分支，并使用两次Conv、BN和ReLU的组合，将输入的百度街景图像映射到特征图，然后在编码阶段使用2×2最大池化操作对特征图进行下采样，将该过程重复四次，从而得到同比例尺特征图；

(a13)通过跳跃式连接将步骤(a11)得到的特征图与步骤(a12)得到的同比例尺特征图连接起来，并应用Conv和ReLU组合两次生成新的特征图，重复此过程四次，从而得到特征筛选过的新的特征图；

(a14)使用Conv1×1卷积对步骤(a13)得到的新的特征图进行处理，以得到建筑高度图，并将其输入多视图分支，以得到来自多视图分支的建筑高度；

(a15)将得到的建筑高度图输入多光谱分支，从而得到来自多光谱分支的建筑高度和建筑足迹，将来自多视图分支的建筑高度、以及来自多光谱分支的建筑高度和建筑足迹连接起来，从而得到最终预测的建筑高度；

(a16)针对步骤(a10)得到的居住区B而言，提取其中的GF-2卫星影像数据，通过正射校正以得到校正影像；

(a17)利用平行法确定步骤(a16)得到的校正影像中建筑物在太阳光方向下的阴影长度L：

(a18)根据步骤(17)得到的阴影长度获取步骤(a16)得到的校正影像中建筑物在太阳光方向下的阴影的平均长度。

(a19)结合步骤(a15)得到的最终预测的建筑高度和步骤(a18)得到的阴影的平均长度，并根据建筑物的平均层高得到居住区A与居住区B内每栋建筑的层数，并通过居住区的规划图获取每栋建筑中每层的户数；

(a20)根据步骤(a19)得到的层数和每层户数带入等式“居住区总人口＝总户数*户规模＝每层户数*层数*户规模”，得到居住区人口数；

(a21)将步骤(a20)得到的居住区人口数通过ArcGIS划分成30m*30m的格网，以得到城区居住区人口30m*30m分布格网。

优选地，多因素融合模型是通过以下步骤训练得到的：

(b1)将步骤(1)得到的统一坐标系数据划分为训练集和测试集，将统一坐标系数据对应的区域作为研究区，初步选取训练集的影响人口分布的主要因素，并进行显著性检验，以确定影响研究区人口密度分布的主导因素，如土地利用类型、夜间灯光强度、路网密度和GDP等；

(b2)以各街道统计单元的人口密度为因变量Y，步骤(b1)选取的主导因素为自变量X，将应变量Y与自变量X进行离散化处理；

(b3)将步骤(b2)离散化后的数据输入地理探测器中的因子探测器，以获取各主导因素对人口分布的解释力值f；

(b4)将步骤(b2)离散化后的数据输入生态探测器，以得到各个主导因素对人口密度分布的影响系数。

(b5)结合步骤(b3)、(b4)得到的结果删选主导因素及其影响程度，并运用多元线性回归模型获取多个格网。

(b6)根据街道行政边界范围对步骤(b5)得到的每个格网的人口进行重新划分，以获取各个街道的人口分布图；

(b7)使用bootstrap抽样法，从步骤(b6)的获取的街道的人口分布图随机选择20个街道，然后从中选择N个样本用于训练，并将选择的N个样本用来训练一个决策树，作为决策树根节点处的样本。其中N∈[1，20]；

(b8)对步骤(b7)的样本进行查看，如果每个样本有B个属性，在决策树的每个节点需要分裂时，随机从这B个属性中选取出b`∈[1,B]个属性，然后从这b`个属性中采用最大化信息增益策略来选择1个属性作为该节点的分裂属性，以得到决策树初步分裂的结构，其中B为自然数；

(b9)决策树形成过程中每个节点都按照步骤(b8)来分裂，以得到精度85％以上的决策树模型；

(b11)将步骤(b10)生成的随机森林模型应用到每个格网中，预测每个格网的人口密度，将得到的格网人口密度值与格网面积相乘，最后生成研究区非城区和城区非居住区人口分布的300*300m格网。

优选地，解释力值f等于：

上式中：k∈[1，K]，且表示因变量Y或自变量X的第k个分层(Strata)或分类，K表示分层总数；N_k和N分别为第k个分层和全部分层的单元数；σ和o²分别是第k个分层和全部分层的因变量Y值的方差。SW为每个分层k内的方差之和，ST为全部分层的总方差。f的值域为[0,1],如果分层是由自变量X生成的，则f值越大表示自变量X对应变量Y的解释力越强，反之则越弱；

影响系数E等于：

式中：N_X1及N_X2分别表示两个主导因素X1和X2的样本量；SW_X1和SW_X2分别表示由主导因素X1和X2形成的分层的层内方差之和；k表示主导因素X1和X2的第k个分层，K1和K2分别表示主导因素X1和X2的分层总数目。其中零假设H₀：SW_X1＝SW_X2。如果在α的显著性水平上拒绝H₀，这表明主导因素X₁和X₂对应变量Y的空间分布的影响存在着显著的差异。

优选地，步骤(1)的判断过程具体为。

(c1)使用决定系数R²和MAE对统计年鉴中市区(县)人口总数与模拟生成的相应范围人口总数进行精度检验：其中：

式中：O_i为第i个最小人口统计单元人口密度的实际统计值大小；P_i为第i个最小人口统计单元的人口密度随机拟合结果值；

为所有最小人口统计单元人口密度随机森林拟合值的平均值；

为所有最小人口统计单元人口密度的实际统计的平均值；I为研究区内最小人口统计单元的总数。

(c2)判断是否有步骤(c1)中R²>0.8且MAE<10％，如果是，则说明预测结果具有分析实际人口分布意义，该初步人口分布图校验通过，基于随机森林模型可进一步模拟较大范围的人口分布，否则说明该初步人口分布图校验不通过。

优选地，步骤(5)的判断过程具体为：

(d1)选取当年夜间24：00的百度人口热力图，在ArcGIS中新建研究区范围内30*30m的格网，根据百度热力图显示的颜色对新建的格网进行属性表赋值：

(d2)针对每一个格网而言，判断城区居住区人口分布中该格网中的人口分布模拟的数值是否位于赋值后的该格网中的人口数值范围内，若与该范围一致，则说明该初步人口分布图校验通过，否则说明该初步人口分布图校验不通过。

优选地，步骤(6)的判断过程具体为：

(e1)将步骤(a1)所划分的自然地物遥感影像范围进行提取；

(e2)选择初步人口分布图中与步骤(e1)的范围重合的区域，利用GIS将这些无建筑区域的人口数据赋值为零。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)由于本发明采用了步骤(1)，其对人口分布相关的数据分成两类，即表征城乡差异的宏观数据和城市内部分异的微观数据，然后对相应数据进行预处理，消除数据格式、尺度和坐标等差异，再将两类数据分别导入人口分布识别模型，从而能够减少由于输入数据的精度差异过大而对识别效果的影响；

(2)由于本发明采用了步骤(2)和(3)，其根据不同类型、不同尺度数据采用分区方法对人口分布进行特征识别，即宏观尺度(省域尺度)采用地理探测器和随机森林模型构建多因素融合的多元回归模型，即根据各种功能用地、地类类别与人口的关系影响强度来得到人口分布影响因素和系数，此模型可应用于非城区人口和城区中非居住区的300m*300m人口分布模拟；市区尺度的人口分布则通过提取居住区，再根据居住区建成环境参数(建筑面积、建筑层高等)获取其30m*30m人口分布图。由于考虑了不同地类下数据精度和所需精度的实际情况，突出关键影响部分，能减少数据挖掘的计算量；

(3)由于本发明采用了步骤(4)至(7)，其通过特征规则和分区检验对模型参数进行修正，增强了算法的适用性，最后获得多尺度的人口分布数据，从而不仅能根据所需要的尺度，保留细节信息，有效节省存贮空间，而且拥有计算效率高、可迁移能力强等优点，进一步提升人口分布模拟精度。

附图说明

图1是本发明基于多源大数据的人口分布识别方法的总体流程示意图；

图2是本发明方法的步骤(2)中使用的居住区人口识别模型示意图；

图3是本发明方法中使用的Relief F-PSO特征算法的流程示意图；

图4是本发明方法中使用的M³Net模型的结构示意图，其中上半部分是该M³Net的多视图分支，下半部分是该M³Net的多光谱分支；

图5是本发明方法的步骤(3)的过程示意图；

图6是本发明方法的步骤(4)-(7)模型修正和结果输出的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明提供了一种基于多源大数据的人口分布识别方法，包括以下步骤：

(1)获取某个城市的统计数据(包括经济发展水平数据、市区/县和街道的人口统计数据)、矢量数据(包括兴趣点数据，即Point of Interest简称POI、道路矢量数据、建筑轮廓数据)以及栅格数据(遥感影像数据、土地利用数据、百度热力图)，对这些数据进行预处理，以得到预处理后的统一坐标系数据。

具体而言，本步骤中是从城市的统计年鉴中获取该城市的经济发展水平数据(GDP)、市区/县和各街道人口统计数据；从地理空间数据云(https://www.gscloud.cn/)获取遥感影像数据；从OpenStreetMap网站(https://www.openhistoricalmap.org/)获取道路矢量数据、住宅POI数据和建筑轮廓数据；从Esri Land Cover网站(https:// www.arcgis.com/apps/instant/media/index.html？appid＝fc92d38533d440078f17678e bc20e8e2)获取30米分辨率的土地利用数据；从百度地图获取18级的百度热力图(100m分辨率)。

具体而言，针对包括遥感影像数据、土地利用数据、以及百度热力图的栅格数据而言，预处理过程是进行重采样，形成300*300m的统一尺度；针对包括各级行政区划、住宅POI数据、道路矢量数据、以及建筑轮廓数据的矢量数据而言，预处理过程是：对其中空间坐标不一致的数据使用GIS投影变换，形成统一坐标系的空间数据库；针对包括GDP数据、以及市区/县和街道的人口统计数据的统计数据而言，与相应的行政区划矢量数据进行表格链接，选取最小面积的“街道”或“镇”行政面积的10％(大约为300*300m)作为像元大小，通过插值方法转化为栅格数据。

本步骤中的预处理过程，市区尺度数据预处理主要为使用ArcGIS10.6软件(以下简称GIS)统一空间坐标系；省级数据首先对道路网密度、GDP进行格式转化，选取最小面积的“街道”或“镇”行政面积的10％(大约为300*300m)作为像元大小，通过插值方法转化为300*300m的栅格数据，并对空间坐标不一致的数据使用GIS进行空间配准，形成统一坐标系的空间数据库然后利用GIS对一部分宏观数据(夜间灯光、土地利用)进行重采样，形成300*300m的统一尺度。

(2)将步骤(1)得到的百度热力图、住宅POI数据、建筑轮廓数据、遥感影像数据输入训练好的居住区人口识别模型，以获取城区居住区人口分布，如图2所示；

本步骤中的居住区人口识别模型包括居住区范围提取模型、建筑高度识别模型、以及地理信息系统(Geographic information system，简称GIS)模型，其中建筑高度识别模型和GIS模型均与居住区范围提取模型相连。

具体而言，本发明中的居住区范围提取模型是先后采用Relief F算法和J48决策树来实现。

建筑高度识别模型采用M³Net模型和高分影像反演方法。

GIS模型采用GIS几何统计建筑面积。

由于遥感影像数据更新周期为每月一次，住宅POI和建筑轮廓数据更新周期为每年一次，因而以遥感影像数据为基础数据提取居住区建筑。因此，本发明中的居住区人口识别模型结合了三者数据，且是通过以下步骤训练得到的：

(a1)采用Relief F算法对遥感影像数据中自然地物(水体、植被、阴影等背景地物)和非自然地物(建筑、道路和裸地等)进行分类，以得到自然地物遥感影像和非自然地物遥感影像，如图3所示；

(a3)对于步骤(a2)得到的选择分类能力排名前10％的特征权重而言，运用PSO封装算法对这些特征权重进行特征重要性度量(用于消除冗余和不相关特征)，从而得到对分类有贡献力的多个特征权重；

(a4)对步骤(a3)得到的特征权重进行降序排列，利用排名和序列后向选择方法相结合的方式(每次从特征集合中删除重要性排序最后的特征，逐次迭代运算)，以得到多个分类特征(特征维度和分类精度的关系)；

(a5)根据(a4)得到的分类特征(光谱多样性特征，如光谱、形状、以及纹理特征)对步骤(a1)处理后的非自然地物遥感影像进行处理(即将建筑物、道路以及裸地进一步划分，划分中结合建筑物与阴影的邻近关系等特征)，以得到基于遥感影像数据的建筑物；

(a6)采用J48决策树算法根据对(a5)得到的建筑物进行区分，以初步提取居住建筑(具体是根据屋顶颜色、面积、样式等)；

具体而言，M³Net模型包括两个分支，其中一个分支用于学习多光谱图像(红/绿/蓝/近红外波段)，另一个分支用于学习多视图图像(最低点/前向/后向图像)，采用U-Net作为每个分支的基础，构成带跳跃连接的编-解码器网络；

具体而言，该U-Net网络中，编-解码器结构主要包括：

i)卷积层(Conv)，该层将输入图像与滤波核(如3×3)进行卷积，生成特征映射；

ii)最大池化层(Max pooling)，对小邻域进行Max操作，降低样本特征映射，提高局部平移不变性；

iii)批处理归一化层(Batch Normalization，简称BN)，对每个训练小批的特征映射进行归一化，以降低内部协变量移位；

iv)转置卷积层(Trans-conv，又称反卷积层)，利用滤波核进行转置卷积运算，扩大特征映射；

v)校正线性单元(Rectified linear unit，简称ReLU)激活函数，通过保持正值不变和将负值设置为零，使网络的非线性建模成为可能；

(a12)根据M³Net模型中的多视图分支(如图4(a)所示)，并使用两次Conv、BN和ReLU的组合，将输入的百度街景图像映射到特征图，然后在编码阶段使用2×2最大池化操作对特征图进行下采样，将该过程重复四次，从而得到同比例尺特征图；

具体而言，在每次最大池化操作后，将特征通道的数量增加一倍。在译码阶段，通过转置卷积操作，特征图的大小每次增加一倍；

(a13)通过跳跃式连接将步骤(a11)得到的特征图与步骤(a12)得到的同比例尺特征图连接起来，并应用Conv和ReLU组合两次生成新的特征图，重复此过程四次(其中每一次反卷积操作后特征通道的数量减半)，从而得到特征筛选过的新的特征图；

(a14)使用Conv1×1卷积对步骤(a13)得到的新的特征图进行处理，以得到建筑高度图，并将其输入多视图分支，以得到来自多视图分支的建筑高度(BH1)；

具体而言，自动编码建筑物在多视图图像中的辐射和结构特征(如材料和侧面)，以估计建筑物高度。

多光谱分支(图4(b))的组成与多视图分支相似。主要的区别在于输入图像的通道数量，即多光谱分支为4个通道(红/绿/蓝/近红外波段)，多视图分支为3个通道(最低点/前向/后向图像)；

(a15)将得到的建筑高度图输入多光谱分支(可重用多光谱图像中最深层特征图，即编码部分的最后一层，作为两个解码器的输入)，从而得到来自多光谱分支的建筑高度(BH2)和建筑足迹(BF)，将来自多视图分支的建筑高度(BH1)、以及来自多光谱分支的建筑高度(BH2)和建筑足迹(BF)连接起来，从而得到最终预测的建筑高度(FBH)；

(a16)针对步骤(a10)得到的居住区B而言，提取其中的GF-2卫星影像数据，通过正射校正以得到校正影像(即消除畸变的成像)；

具体而言，本步骤中的校正方法为多项式校正，即通过设置控制点和验证点进行近似拟合校正，多项式的阶数决定控制点数量的多少，控制点的数量表达公式如下：

式中，C和c分别为控制点的数量和平方数。

(a17)利用平行法确定步骤(a16)得到的校正影像中建筑物在太阳光方向下的阴影长度L，其包括两部分：

其中α表示太阳高度角，n和m分别表示校正影像在行和列方向上的像元数，l表示像元的边长(单位是米)，即空间分辨率；

具体而言，本步骤首先根据太阳方位角度，按照0.1m的宽度在整幅校正影像上生成入射平行线，然后使该入射平行线与阴影进行相交运算，提取出多条太阳光入射方向与阴影相交的平行线，并对这些平行线进行平均计算，从而得到阴影的平均长度；

具体而言，户规模是通过查看人口统计年鉴得到的。

(3)将步骤(1)得到的经济发展水平数据、市区/县和街道的人口统计数据、道路矢量数据、以及土地利用数据输入训练好的多因素融合模型(其包括顺次连接的地理探测器和随机森林模型)，以得到人口分布影响因素及其系数，并根据人口分布影响因素及其系数获取非城区人口分布、以及城区非居住区人口分布，如图5所示；

本发明中的多因素融合模型是通过以下步骤训练得到的：

(b3)将步骤(b2)离散化后的数据输入地理探测器中的“因子探测器”，以获取各主导因素对人口分布的解释力值f；

具体而言，解释力值f越高，则说明对应的主导因素对人口分布密度的影响越大；

(b4)将步骤(b2)离散化后的数据输入“生态探测器”，以得到各个主导因素对人口密度分布的影响系数。

具体而言，生态探测器通过比较主导因素之间的相对重要性，补充解释主导因素之间的差异性，其探测结果与主导因素解释力值综合分析可得到各主导因素的影响系数E：

(b5)结合步骤(b3)、(b4)删选主导因素及其影响程度，运用多元线性回归模型获取多个格网；

具体而言，每个格网的人口分布模型构建为：

式中，t为所选取的土地利用类型种类总数，P_i为研究区内第i个最小人口统计单元(即30m*30m的格网)的人口数，其中i∈[1,I]，I为研究区内最小人口统计单元的总数；a_j为第j类土地利用类型的人口分布初始系数；S_ij为第i个j类土地利用指数；t为所选取的土地利用类型种类总数，M_i、R_i、F_i分别为第i个格网夜间灯光强度值、道路网密度和GDP，b、c、d为相应的人口分布影响系数，d为常数项；

(b6)根据街道行政边界范围对步骤(b5)得到的每个格网的人口进行重新划分，以获取各个街道(除了居住区)的人口分布图；

(b7)使用bootstrap抽样法，从步骤(b6)的获取的街道的人口分布图随机选择20个街道，然后从中选择N个样本(格网)用于训练，并将选择的N个样本用来训练一个决策树，作为决策树根节点处的样本。其中N∈[1，20]；

(b8)对步骤(b7)的样本进行查看，如果每个样本有B个属性(其中B为自然数)，在决策树的每个节点需要分裂时，随机从这B个属性中选取出b`∈[1,B]个属性，然后从这b`个属性中采用最大化信息增益策略来选择1个属性作为该节点的分裂属性，以得到决策树初步分裂的结构；

具体而言，其流程为：在决策树分裂过程中，如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性，则该节点已经达到了叶子节点，无须继续分裂了，一直到不能够再分裂为止，重复以上过程1000-2000次；模型精度随子树数量增加而增加，模型精度趋于稳定；在统一较大子树数量的前提下，可通过训练确定模型中误差最小的子树最大变量个数。根据经验，当子树深度等于6时，模型精度达到85％。汇总每棵决策树的类标进行多数投票。

具体而言，本步骤的判断过程具体为。

(c1)使用决定系数R²和平均绝对误差(Mean absolute error，简称MAE)对统计年鉴中市区(县)人口总数与模拟生成的相应范围人口总数进行精度检验：其中：

R²值越大，MAE值越小，表示随机模型的预测精度越高，越能反映实际人口的分布情况；

具体而言，本步骤的判断过程具体为：

(d1)选取当年夜间24：00的百度人口热力图(这是由于夜晚的人口分布呈现与居住区具有高关联性)，在ArcGIS中新建研究区范围内30*30m的格网，根据百度热力图显示的颜色对新建的格网进行属性表赋值：

具体而言，红色代表非常拥挤，人口密度>60人/hm²；橙色代表拥挤，人口密度为40～60人/hm²，黄色代表一般，人口密度为20～40人/hm²；浅绿色代表人口密度为10～20人/hm²，深绿色代表人口密度≤10人/hm²；

(d2)将步骤(d1)赋值后的格网与步骤(2)得到的城区居住区人口分布中的格网进行叠置和对比(即针对每一个格网而言，判断城区居住区人口分布中该格网中的人口分布模拟的数值是否位于赋值后的该格网中的人口数值范围内)，若与该范围一致，则说明该初步人口分布图校验通过，否则说明该初步人口分布图校验不通过。

具体而言，本步骤的判断具体流程为：

(e1)将步骤(a1)所划分的自然地物遥感影像范围进行提取；

(7)通过分区验证的方式判断初步人口分布图是否验证通过，如果通过则将该初步人口分布图作为最终的人口分布图输出，过程结束，否则返回步骤(2)；

具体而言，本步骤的分区验证过程具体为：选取不同尺度下具有代表性的空间进行分区验证。其中省级尺度选取市区(县)/街道一级的人口作为检验单元进行复核；城区选取功能地块区作为人口检验单元进行复核；镇/乡尺度选取居民点作为人口检验单元进行复核。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多源大数据的人口分布识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多源大数据的人口分布识别方法，其特征在于，

步骤(1)是从城市的统计年鉴中获取该城市的经济发展水平数据GDP、市区/县和各街道人口统计数据；从地理空间数据云获取遥感影像数据；从OpenStreetMap网站获取道路矢量数据、住宅POI数据和建筑轮廓数据；从Esri Land Cover网站获取土地利用数据；从百度地图获取18级的百度热力图。

市区尺度数据预处理是使用GIS统一空间坐标系；

省级数据的预处理首先对道路网密度、GDP进行格式转化，选取最小面积的“街道”或“镇”行政面积的10％作为像元大小，通过插值方法转化为300*300m的栅格数据，并对空间坐标不一致的数据使用GIS进行空间配准，形成统一坐标系的空间数据库然后利用GIS对一部分宏观数据进行重采样，形成300*300m的统一尺度。

3.根据权利要求1或2所述的基于多源大数据的人口分布识别方法，其特征在于，

居住区人口识别模型包括居住区范围提取模型、建筑高度识别模型、以及GIS模型，其中建筑高度识别模型和GIS模型均与居住区范围提取模型相连；

居住区范围提取模型是先后采用ReliefF算法和J48决策树来实现；

建筑高度识别模型采用M³Net模型和高分影像反演方法。

GIS模型采用GIS几何统计建筑面积。

4.根据权利要求1至3中任意一项所述的基于多源大数据的人口分布识别方法，其特征在于，居住区人口识别模型是通过以下步骤训练得到的：

(a1)采用ReliefF算法对遥感影像数据中自然地物和非自然地物进行分类，以得到自然地物遥感影像和非自然地物遥感影像；