CN114881466A

CN114881466A - 一种基于多源数据的人口空间分区拟合方法

Info

Publication number: CN114881466A
Application number: CN202210491845.XA
Authority: CN
Inventors: 吴国德; 祝会忠
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2022-05-04
Filing date: 2022-05-04
Publication date: 2022-08-09

Abstract

本申请提供了一种基于多源数据的人口空间分区拟合方法，针对统计人口数据以街道、乡镇和村等行政单元作为划分边界空间分辨率较低且无法精细刻画出人口分布的空间分异性等问题，提出了一种基于多源数据的人口空间分区拟合方法。为了提高人口空间化的精度以及综合考虑空间的异质性，本发明选取了Esri10米土地覆盖、“类NPP/VIIRS”夜间灯光、高德POI和七普乡镇人口等多种高精度新型数据，统计各区县人口影响因子作为模型自变量，通过地理加权回归模型在1km格网上进行人口空间化，对结果进行精度评价；统计不满足精度要求的区县进行二次分区重新进行空间化。采取人口空间分区拟合方法，研究区域整体精度得到了明显提高，该发明可为人口空间化研究提供参考。

Description

一种基于多源数据的人口空间分区拟合方法

技术领域

本发明涉及人口空间化领域，特别是涉及一种基于多源数据的人口空间分区拟合方法。

背景技术

人类是现实社会发展中的操作者，精确的人口数量及人口类型统计对于各地区制定具体的发展政策包括医疗、工业、农业、交通等方面起到一定的参考作用。传统的人口数据主要来源于全国人口普查，获取的数据最为权威、准确和全面，而人口普查十年开展一次，周期较长，数据更新慢，无法连续动态调查，且成本很高，以行政区划分为统计单位的人口数据已无法满足公共服务高质量发展的要求。因此，一种统计精度较高且能够动态更新人口分布的人口空间化模型的建立，以获取精细的人口数据，从而完成对城市的空间规划和精细化管理，疫情的精准防控、基本公共服务资源的合理配置等任务，对于国家乃至世界实现经济高质量发展，均具有重要现实意义。

目前关于人口空间化方法，国内外学者开展了大量的研究。基于多源数据融合方法和统计模型法是目前人口空间化领域的主要方法，其中董春等对人口与地理要素进行单因子和类因子分析，获取公里格网人口分配权重系数。廖顺宝等利用海拔高度、土地利用、主要道路、河流水系等数据采用多源数据融合技术对西藏、青海人口空间分布进行空间化。柏中强等以土地利用数据、居民点信息、DEM、夜晚灯光数据等多源数据进行融合，通过多元回归方法建模得到100m格网延安市人口数据格网。Wright等提出了分区密度制图(Dasymetric Mapping)的人口空间化方法，具体步骤为对每个乡镇分为两个分区，基于整个乡镇人口总数不变的基础上用低密度区人口密度去推算高密度区人口密度。王珂靖等基于夜间灯光指数对城镇用地进行二次分区采用多元线性回归的方法对长江中游四省进行了建模，总体相对平均误差降低了12.32％，两类方法在一定程度上都可完成人口空间化任务，但是二者均存在一定的弊端，对于多源数据融合时的权重参数设置问题以及统计模型中如何进行准确分区均是目前两方法存在的问题，因此，为了将二者的优势联系到一起，更好的获取人口估计精度，本发明利用格网法对测试区域进行单元划分，然后基于多源数据包括人工地表数据、POI数据及夜间灯光等数据进行叠加获取各区县准确参考数据并结合GWR进行空间化人口拟合，同时，根据各区县乡镇人口真值对各区县格网数据进行改正，对不满足精度的区县进行二次分区拟合从而获取最终的人口空间化结果。

发明内容

有鉴于此，本发明目的在于提供一种基于多源数据的人口空间分区拟合方法，用以解决现有人口空间化中主要以街道、乡镇和村等行政单元作为划分边界导致空间分辨率较低而无法精细刻画出人口分布的空间分异性等问题，进而为人口空间化研究工作提供有效参考。为了实现上述目的，本发明采用如下技术方案：

一种基于多源数据的人口空间分区拟合方法，包括如下步骤：

步骤S1：获取调查区域全球10米分辨率的土地覆盖、“类NPP/VIIRS”夜间灯光、POI(Points of Interest，兴趣点)和第七次人口普查乡镇人口等多种高精度新型数据并进行数据预处理操作；

步骤S2：根据步骤S1中获取的不同高精度数据创建格网，即以1km为边长对栅格数据进行规则划分为格网处理单元，同时，对采集的夜间灯光、POI和土地覆盖影像进行叠加，以为后续各区县的人口空间化模型拟合提供基础数据；

步骤S3：根据步骤S2中各区县不同类型数据统计出各区县影响因子，结合地理加权回归(Geographic Weighted Regression，GWR)模型建立各区县人口空间化模型；

步骤S4：由于步骤S3得到的图块可能存在旋转、偏移等几何问题，为尽可能获取规则的图块对待定图块进行几何变换操作，为分类提供较规则数据；

步骤S5：依据各区县乡镇人口普查真实数据，统计各区县各乡镇内格网拟合数据，结合两者进行精度评定，统计各区县中空间化拟合精度小于20％的优质乡镇所占比例，筛选出优质乡镇占比小于40％的区县；

步骤S6：根据步骤S5中筛选出的低精度区县数据，重新进行GWR二次人口空间化模型拟合，重复步骤S2—步骤S5获取二次区县划分的优质人口提取；

步骤S7：根据步骤S6中多次GWR模型拟合优化，直到获取各区县乡镇中人口空间拟合结果均满足精度要求，获取最终人口空间化拟合模型，完成人口空间化研究；

进一步的，采集原始参考数据，所述数据预处理步骤如下：

步骤S101：在国家地理信息数据库中对第七次人口普查北京乡镇统计人口数据、北京乡镇行政区划数据、结合网络资源获取Esri 10米地表覆盖数据、“类NPP-VIIRS”夜间灯光数据、北京市2020年POI数据集及土地利用数据进行下载，并将其分为矢量数据和栅格数据。

步骤S102：由于获取的数据来源不统一，需要对影像数据进行坐标系统一。为减少网格变形所带来的误差，采用正轴等面积割圆锥投影对数据进行重投影，保证投影前后面积不变，为后续数据处理提供统一基准。

进一步的，所述步骤S2具体包括：

步骤S201：对本文所使用的地表覆盖数据、夜间灯光数据和POI数据进行网格化，将自变量因子以网格单元进行统计。通过ArcGIS渔网工具创建1km×km尺度的格网，再利用裁剪工具，根据北京市行政区划将其裁剪成北京范围格网，利用空间连接功能，使每个格网单位都具有街道名称属性；

步骤S202：利用ArcGIS中工具提取分析下面的按掩膜提取裁剪栅格，利用北京市乡镇级图层裁剪出北京范围乡镇级夜间灯光数据和土地利用数据栅格。对夜间灯光影像进行重采样、投影转换处理，采用双线性插值法将类“NPP/VIIRS”夜间灯光数据的空间分辨率重采样为1km，将其转换为Alberts等积圆锥投影，再将其转化为矢量点数据；

步骤S203：将土地利用数据、POI数据和夜间灯光数据等三种不同类型数据与北京范围格网叠加，并进行空间连接。利用分区汇总统计各区县的各类POI点数、人工地表面积、人工地表的灯光指数等模型自变量数据。

进一步的，所述步骤S3具体包括：

步骤S301：统计各区县中POI点数、人工地表面积和夜间灯光指数等数据，汇总形成区域整体已知自变量数据；

步骤S302：利用地理加权回归模型对步骤3.1中统计的已知数据进行空间化模型参数拟合，该模型将数据的空间位置嵌入到回归参数中，利用局部加权最小二乘方法进行逐点参数估计，其中权是回归点所在的地理空间位置到其他各观测点的地理空间位置之间的距离函数，其拟合公式如下：

其中，(u_i,v_i)是第i个采样点的地理坐标；β_k(u_i,v_i)是第i个位置上第k个回归参数的值，是地理位置的函数；ε_i是第i个区域的随机误差，满足零均值、同方差、相互独立等基本假定；x_ik为第i个位置上第k个变量；p为变量的总个数。

进一步的，所述步骤S4具体包括：

步骤S401：根据模型拟合系数及各区县格网中POI、夜光指数和人工地表面积等指标计算各区县中格网中人口数；

步骤S402：对不规则格网进行重采样，根据各区县的乡镇数据，对不规则格网内的乡镇进行统计，结合不规则格网内各乡镇的POI、夜光指数和人工地表面积等数据因变量重新计算不规则格网的人口拟合值，结合规则格网数据获取各区县拟合总人口数；

步骤S403：根据拟合出的各区县回归结果累计和及各区县人口数据真值，对空间化拟合模型回归结果进行改正，其中改正公式如下：

其中，Pop_ij′是第i个区县第j个格网上最终估计人口，Pop_ij是空间化之后的栅格单元的初始估计人口值；Pop_i为该栅格单元所在的区县级行政区单元的人口统计真值；k表示第i个区县的格网个数。

进一步的，所述步骤S5具体包括：

步骤S501：依据各区县各乡镇人口基础数据，分别对各乡镇中格网回归结果进行统计，将各乡镇拟合数据和乡镇街道人口统计数据进行精度评定，其评定公式如下：

其中，P_i代表第i个乡镇街道统计人口数；PE_i表示第i个乡镇街道估计人口的估计数；RE表示估计人口与统计人口的相对误差，可以反映估计人口的可信程度；

步骤S502：通过对各区县各乡镇RE统计，评定RE小于20％的乡镇为优质乡镇，然后对各区县中优质乡镇的比例进行统计，若优质乡镇占比小于40％，则将该区县进行标记，以作为二次分区拟合的基础数据。

进一步的，所述步骤S6具体包括：

结合步骤S5中中筛选出的精度不符合条件的区县，再次根据分区进行空间化模型拟合，以对各区县各乡镇的人口进行准确统计，直到各区县各乡镇人口空间化回归精度满足要求。

进一步的，所述步骤S7具体包括：

通过步骤S2—步骤S6空间化模型拟合精度不断调优，获取最终人口空间化拟合模型。

本发明的有益效果是：

1、由于现阶段对于人口空间化的方法主要集中传统人口空间化以街道、乡镇和村等行政单元作为划分边界导致空间分辨率较低而无法精细刻画出人口分布的空间分异性等问题，提出了一种基于多源数据的人口空间分区拟合方法，通过建立格网依托人工地表面积、POI和夜间灯光等数据结合GWR模型对各区县各乡镇的人口进行拟合，可实现动态更新估计，提高了人口空间化研究效率，为后续的人口空间化研究提供了有效参考。

2、构建了二次分区拟合模型，通过GWR首次格网拟合对各区县各乡镇首次拟合结果进行修正及精度评定，筛选出精度较差的区县进行二次分区拟合，建立最终的人口空间化拟合模型，提高了人口统计精度。

附图说明

图1为实施中一种基于多源数据的人口空间分区拟合方法的流程示意图；

图2为本发明采集的基础数据包括各区县乡镇准确数据人工地表和夜间灯光栅格图和POI矢量数据等；

图3为根据区域建立的格网单元图；

图4为GWR人口空间化初始拟合结果图；

图5为GWR人口空间化结果误差空间分布图；

图6为分区人口空间化结果图；

图7为分区人口空间化结果误差空间分布图。

具体实施方式

为了更好地理解本申请，将参考附图对本申请的各个方面做出更详细的说明。应理解，这些详细说明只是对本申请的示例性实施方式的描述，而非以任何方式限制本申请的范围。在说明书全文中，相同的附图标号指代相同的元件。表述“和/或”包括相关联的所列项目中的一个或多个的任何和全部组合。

在附图中，为了便于说明，已稍微调整了元素的大小、尺寸和形状。附图仅为示例而并非严格按比例绘制。如在本文中使用的，用语“大致”、“大约”以及类似的用语用作表近似的用语，而不用作表程度的用语，并且旨在说明将由本领域普通技术人员认识到的、测量值或计算值中的固有偏差。另外，在本申请中，各步骤处理描述的先后顺序并不必然表示这些处理在实际操作中出现的顺序，除非有明确其它限定或者能够从上下文推导出的除外。

还应理解的是，诸如“包括”、“包括有”、“具有”、“包含”和/或“包含有”等表述在本说明书中是开放性而非封闭性的表述，其表示存在所陈述的特征、元件和/或部件，但不排除一个或多个其它特征、元件、部件和/或它们的组合的存在。此外，当诸如“...中的至少一个”的表述出现在所列特征的列表之后时，其修饰整列特征，而非仅仅修饰列表中的单独元件。此外，当描述本申请的实施方式时，使用“可”表示“本申请的一个或多个实施方式”。并且，用语“示例性的”旨在指代示例或举例说明。

除非另外限定，否则本文中使用的所有措辞(包括工程术语和科技术语)均具有与本申请所属领域普通技术人员的通常理解相同的含义。还应理解的是，除非本申请中有明确的说明，否则在常用词典中定义的词语应被解释为具有与它们在相关技术的上下文中的含义一致的含义，而不应以理想化或过于形式化的意义解释。

需要说明的是，在不冲突的情况下，本申请中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本申请。

参考图1-图7，本实施例提供一种基于多源数据的人口空间分区拟合方法，针对传统人口空间化以街道、乡镇和村等行政单元作为划分边界导致空间分辨率较低而无法精细刻画出人口分布的空间分异性等问题，提出了一种基于多源数据的人口空间分区拟合方法。本发明利用格网法对测试区域进行单元划分，然后基于多源数据包括人工地表数据、POI数据及夜间灯光等数据进行叠加获取各区县准确参考数据并结合GWR进行空间化人口拟合，同时，根据各区县乡镇人口真值对各区县格网数据进行改正，对不满足精度的区县进行二次分区拟合从而获取最终的人口空间化结果。接下来进行具体的处理步骤：

图1是根据本申请的示例性实施方式的一种基于多源数据的人口空间分区拟合方法的流程图。

如图1所示，本申请提供了这样一种基于多源数据的人口空间分区拟合方法，可包括：步骤S1、获取地区区县乡镇人口分布图、人工地表面积、夜间灯光和POI等多组数据地图并进行坐标系转换等处理；步骤S2、基于乡镇规划基础数据进行格网单元划分，以1km为边长对整个区域进行规则划分，并将不同类型数据进行叠加；步骤S3、结合GWR模型根据区县格网统计结果进行空间化模型参数拟合，获取初步空间化拟合模型；步骤S4、根据初始空间化模型对各区县格网拟合人口进行统计，并参考各区县乡镇人口真值对格网拟合结果进行改正；步骤S5、根据改正后拟合结果及乡镇真实值对初始拟合结果进行精度评定；步骤S6、筛选出拟合精度可靠的优质乡镇比例较少的区县，将该区县重新进行分区拟合，直到所有区县统计结果均满足精度要求；步骤S7、根据分区结果确定最终人口空间化拟合模型。

图2是获取的北京市人工地表面积统计图、夜间灯光数据、POI数据及乡镇人口密度真值。

如图2所示，(a)为获取的北京市人工地表面积统计图，为保证GWR拟合模型中自变量系数的非负性，依据人口分布与人工地表存在必然联系，在地表覆盖数据只选择了人工地表作为影响因子，图中红色面积为人工地表面积统计，(b)和(c)分别为夜间灯光数据和POI数据，(d)为乡镇人口密度真值，为后期模型拟合精度评定提供参考。

图3为以1km为边长在基础数据上进行规则划分的格网单元图，其中红色矩形为选择的样本数据，左上角绿色矩形为样本区域放大展示。

由于传统人口数据是基于行政单元统计的人口数据，最小空间分辨率是街道、乡镇、村等行政区划单元，空间分辨率不高，人口数据在行政单元内是均匀分布的，基于行政区划得到的人口密度数据不能精细刻画出人口分布的空间分异性，且在行政边界处会出现突变，也无法体现城乡之间内部人口分布差异，实际应用价值低，因此本发明采用基于格网方式对人口分布进行统计，统计结果更加合理可靠且精度较高，本发明创建格网和叠加数据步骤为：

(1)通过ArcGIS渔网工具创建1km×1km这种尺度的格网，再利用裁剪工具，根据北京市行政区划将其裁剪成北京范围格网，利用空间连接功能，使每个格网单位都具有街道名称属性。

(2)利用ArcGIS中工具提取分析提取裁剪栅格，并利用乡镇级图层裁剪出乡镇级夜间灯光数据和土地利用数据栅格。对夜间灯光影像进行重采样、投影转换处理，采用双线性插值法将类“NPP/VIIRS”夜间灯光数据的空间分辨率重采样为1km，并将其转换为Alberts等积圆锥投影，再将其转化为矢量点数据。

(3)将POI数据及人工地表数据均按照格网进行裁剪连接，达到格网单元内人工地表面积、PoI和夜间灯光相互独立统计的整体基础数据图。

图4为GWR人口空间化初始拟合结果图。

综合考虑各区县乡镇人工地表、夜间灯光及POI等数据与人口分布的耦合性，利用GWR模型对格网数据进行人口拟合。拟合步骤为：

(1)其中GWR是地理加权回归模型，将数据的空间位置嵌入到回归参数中，利用局部加权最小二乘方法进行逐点参数估计，其中权是回归点所在的地理空间位置到其他各观测点的地理空间位置之间的距离函数。利用下式对格网数据进行拟合：

(2)根据格网内分布数据作为因变量，通过GWR模型拟合模型参数，并将拟合参数代入各格网中进行人口回归运算即可获取各区县整体人口分布拟合结果。

图5为GWR人口空间化结果误差空间分布图。

经过初始GWR人口空间化拟合后，由于地区存在差异会导致结果存在一定的误差，因此需要依靠各区县乡镇真实数据对初始拟合结果进行纠正及精度评定，拟合结果纠正及精度评定过程如下：

(1)参考乡镇人口分布真值，对各区县乡镇初始拟合结果进行纠正，其纠正公式如下：

(2)参考乡镇人口密度真值，对各乡镇格网的数据进行相对误差(RelativeError)精度评定，其精度评定公式如下：

图6和图7分别为分区人口空间化结果图和分区人口空间化结果误差空间分布图。

由于初始拟合后各区县会存在拟合误差，为了更精度的获取各区县乡镇的人口空间化结果，利用二次分区对人口空间化模型进一步拟合，主要步骤如下：

(1)对各区县中精度评定相对误差RE<20％的优质乡镇比例进行统计。

(2)统计各区县优质乡镇占比<40％的区县，重新构成空间化模拟拟合样本，对这些区县格网中人工地表面积、夜间灯光和POI数据进行统计，构成GWR二次拟合因变量，进行拟合获取空间化模型系数。

(3)近一步对二次拟合后的区县格网进行改正及精度评定，构建最终人口空间化模型，以获取最终可靠人口空间化结果。

根据本申请实施方式的一种基于多源数据的人口空间分区拟合方法，利用格网法对测试区域进行单元划分，然后基于多源数据包括人工地表数据、POI数据及夜间灯光等数据进行叠加获取各区县准确参考数据并结合GWR进行空间化人口拟合，同时，根据各区县乡镇人口真值对各区县格网数据进行改正，对不满足精度的区县进行二次分区拟合从而获取最终的人口空间化结果。研究成果可以为人口空间化研究提供参考。

如上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明。应理解的是，以上所述仅为本发明的具体实施方式，并不用于限制本发明。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等均应包含在本发明的保护范围之内。

Claims

1.一种基于多源数据的人口空间分区拟合方法，其特征在于，包括：

步骤S4：根据步骤S3中初步构建的空间化模型对各区县格网数据进行拟合获取区县总体拟合结果。并结合各区县乡镇人口普查真实数据对拟合的格网数据进行改正，以获取更加真实人口数据；

步骤S7：根据步骤S6中多次GWR模型拟合优化，直到获取各区县乡镇中人口空间拟合结果均满足精度要求，获取最终人口空间化拟合模型，完成人口空间化研究。

2.根据权利要求1所述的一种基于多源数据的人口空间分区拟合方法，其特征在于，所述预处理的步骤具体为：

步骤1.1：在国家地理信息数据库中对第七次人口普查北京乡镇统计人口数据、北京乡镇行政区划数据、结合网络资源获取Esri 10米地表覆盖数据、“类NPP-VIIRS”夜间灯光数据、北京市2020年POI数据集及土地利用数据进行下载，并将其分为矢量数据和栅格数据；

步骤1.2：由于获取的数据来源不统一，需要对影像数据进行坐标系统一。为减少网格变形所带来的误差，采用正轴等面积割圆锥投影对数据进行重投影，保证投影前后面积不变，为后续数据处理提供统一基准。

3.根据权利要求2所述的一种基于多源数据的人口空间分区拟合方法，其特征在于，所述步骤具体为：

步骤2.1：对本文所使用的地表覆盖数据、夜间灯光数据和POI数据进行网格化，将自变量因子以网格单元进行统计。通过ArcGIS渔网工具创建1km×km尺度的格网，再利用裁剪工具，根据北京市行政区划将其裁剪成北京范围格网，利用空间连接功能，使每个格网单位都具有街道名称属性；

步骤2.2：利用ArcGIS中工具提取分析下面的按掩膜提取裁剪栅格，利用北京市乡镇级图层裁剪出北京范围乡镇级夜间灯光数据和土地利用数据栅格。对夜间灯光影像进行重采样、投影转换处理，采用双线性插值法将类“NPP/VIIRS”夜间灯光数据的空间分辨率重采样为1km，将其转换为Alberts等积圆锥投影，再将其转化为矢量点数据；

步骤2.3：将土地利用数据、POI数据和夜间灯光数据等三种不同类型数据与北京范围格网叠加，并进行空间连接。利用分区汇总统计各区县的各类POI点数、人工地表面积、人工地表的灯光指数等模型自变量数据。

4.根据权利要求3所述的一种基于多源数据的人口空间分区拟合方法，其特征在于，所述步骤具体为：

步骤3.1：统计各区县中POI点数、人工地表面积和夜间灯光指数等数据，汇总形成区域整体已知自变量数据；

步骤3.2：利用地理加权回归模型对步骤3.1中统计的已知数据进行空间化模型参数拟合，该模型将数据的空间位置嵌入到回归参数中，利用局部加权最小二乘方法进行逐点参数估计，其中权是回归点所在的地理空间位置到其他各观测点的地理空间位置之间的距离函数，其拟合公式如下：

5.根据权利要求4所述的一种基于多源数据的人口空间分区拟合方法，其特征在于，所述步骤具体为：

步骤4.1：根据模型拟合系数及各区县格网中POI、夜光指数和人工地表面积等指标计算各区县中格网中人口数；

步骤4.2：对不规则格网进行重采样，根据各区县的乡镇数据，对不规则格网内的乡镇进行统计，结合不规则格网内各乡镇的POI、夜光指数和人工地表面积等数据因变量重新计算不规则格网的人口拟合值，结合规则格网数据获取各区县拟合总人口数；

步骤4.3：根据拟合出的各区县回归结果累计和及各区县人口数据真值，对空间化拟合模型回归结果进行改正，其中改正公式如下：

6.根据权利要求5所述的一种基于多源数据的人口空间分区拟合方法，其特征在于，所述步骤具体为：

步骤5.1：依据各区县各乡镇人口基础数据，分别对各乡镇中格网回归结果进行统计，将各乡镇拟合数据和乡镇街道人口统计数据进行精度评定，其评定公式如下：

步骤5.2：通过对各区县各乡镇RE统计，评定RE小于20％的乡镇为优质乡镇，然后对各区县中优质乡镇的比例进行统计，若优质乡镇占比小于40％，则将该区县进行标记，以作为二次分区拟合的基础数据。

7.根据权利要求6所述的一种基于多源数据的人口空间分区拟合方法，其特征在于，所述步骤具体为：

结合上述6中筛选出的精度不符合条件的区县，再次根据分区进行空间化模型拟合，以对各区县各乡镇的人口进行准确统计，直到各区县各乡镇人口空间化回归精度满足要求。

8.根据权利要求7所述的一种基于多源数据的人口空间分区拟合方法，其特征在于，所述步骤具体为：

根据上述7中统计结果，确定最终人口空间化拟合模型，并获取最终人口空间化结果。