CN110716998B

CN110716998B - 一种精细尺度人口数据空间化方法

Info

Publication number: CN110716998B
Application number: CN201910678328.1A
Authority: CN
Inventors: 王艳慧; 赵文吉; 张建辰; 齐文平
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2023-11-24
Anticipated expiration: 2039-07-25
Also published as: CN110716998A

Abstract

一种精细尺度人口数据空间化方法，包括如下步骤：一)从系统待处理区土地利用现状图层中调取土地利用数据；提取出待处理区的行政村边界图层；进行编行码匹配，建立地理信息空间数据库，计算该土地利用类型指数；采用双侧检验的皮尔逊(pearson)相关系数，分析各个村的土地利用类型指数与人口密度的相关关系；二)分别选取IDW方法、多元回归方法和BP神经网络方法对人口数据进行空间化，并选择精度最高的方法进行最终人口数据空间化；三)精度验证。

Description

一种精细尺度人口数据空间化方法

技术领域

本发明涉及利用电脑技术对指定的地域进行人口数据分析和模拟的技术领域，尤其涉及一种解决精细尺度人口数据空间化方法。

背景技术

在利用电脑技术对指定地域的人口分布及其相关研究中，常常会遇到小尺度上人口数据部分缺失问题。当前由于村级人口数据获取的成本和技术受限，很多情况下难以获取全员数据，存在村级人口数据的缺失问题。而村级人口空间化能更好的模拟人口在精细尺度上的分布状况。尽管大尺度人口空间化的研究虽有很多，但这些方法无法直接应用于村级精细尺度人口的拟合。关于人口尤其村级人口空间化的研究，现有文献还鲜有涉及。

人口空间化研究是人口空间化的前提。在人口分布及其相关研究中，针对待处理区域精细尺度上(如村级)人口数据部分缺失问题，需要利用已知区域的村级人口数据模拟待处理区未知的其它位置(行政村)的人口数据，使人口地图能较客观精细地反映出整个待处理区人口分布的相对稀密状态。国内外学者对人口空间化进行了大量的研究，但针对小尺度上人口空间化方法的研究还较少，具体表现在：人口分布问题涉及人口学、经济学、地理学、社会学等多个学科，传统的人口数据主要来源于人口普查，而且是以县级行政区划为基本单元的统计数据集，但在实际应用时存在数据空间分辨率低、不准确以及更新周期长等问题。由于人口的分布受各种复杂因素的影响,体现出极其随机的分布规律,给人口空间分布的研究造成了一定的难度。

通过计算机对人口进行空间分布模拟，是目前的研究方向。

发明内容

为解决传统方法的局限性，本发明提供了一种精细尺度人口数据空间化方法。

一种精细尺度人口数据空间化方法，包括如下步骤：

一)11)、从系统储存的待处理区土地利用现状图层中调取土地利用数据，按照第二次全国土地调查土地分类标准，把土地利用数据所指代土地分为8类： 01耕地、02园地、03林地、04草地、20城镇村及工矿用地、10交通运输用地、 11水域及水利设施用地、12其他用地，之后进入步骤12)；

12)、从系统储存的待处理区土地利用现状图层中提取出待处理区的行政村边界图层，图层包含的基本属性字段包括行政村名称、行政村区划代码，将行政村边界图层作为空间数据，将行政区划代码作为匹配标识关键字段，将行政村社会统计数据作为属性数据导入到行政村图层属性中，基于“行政区划代码”公共字段完成空间数据与属性数据的匹配，行政村社会统计数据集合包括行政区划代码字段；之后进入步骤13)；

13)、进行编行码匹配，建立地理信息空间数据库，地理信息空间数据库包含空间数据和属性数据，空间数据包括土地利用现状数据、行政村边界数据，属性数据包括行政村的社会统计数据；对土地利用现状图层与行政村边界图层进行叠加分析，提取并统计出各村各种土地类型的面积，用每种土地利用类型的面积除以行政村的面积，再乘以100％，即得到该土地利用类型指数；

采用双侧检验的皮尔逊(pearson)相关系数，分析各个村的土地利用类型指数与人口密度的相关关系，计算公式如下：

r_xy为皮尔逊(pearson)相关系数；X_i代表土地利用指数的值，i指的是第几种土地类型，土地类型的顺序可设，代表了土地利用指数值的平均值；

Yi代表的是人口密度的值，i指的是第几个行政村的人口密度值，各行政村的标号顺序可自设，代表人口密度值的平均值；

r_xy即土地利用指数样本的值X_i与人口密度样本的值Yi这两个要素的皮尔逊(pearson)相关系数，r_xy的值在[-1,1]之间：r_xy＞0表示两个要素存在正相关型；r_xy＜0 表示两个要素之间存在负相关性；r_xy的绝对值越接近1,则表示两要素之间的关系越密切，越密切代表两者直接的相关性越大；反之,若r_xy绝对值越接近0，则表示两者之间关系越不密切；

在0.01显著性水平下，通过检验的土地利用指数为耕地指数、林地指数、城镇村及工矿用地指数和交通用地指数，说明01耕地、03林地、20城镇村及工矿用地、10交通用地是影响人口分布的主要因素；

二)分别选取IDW方法、多元回归方法和BP神经网络方法对人口数据进行空间化，并选择精度最高的方法进行最终人口数据空间化；

在进行人口数据空间化操作之前，首先将待计算处理的地域划分为 500m×500m的格网，然后以格网作为基本空间单元进行人口数据空间化；

人口数据空间化的方法有三种，分别为IDW方法、多元回归方法和BP神经网络方法：

21)在IDW插值方法中，把未通过0.01显著性水平检验的土地利用类型的人口密度设为0，设置栅格图像的空间分辨率与格网单元大小保持一致；

22)在多元回归方法中，把土地利用类型通过划分到每个格网中，选取人口密度值为因变量，耕地指数、林地指数、城镇村及工矿用地指数、交通用地指数为自变量，根据多元线性回归方程计算出每个格网的人口数目，然后以行政村为单位汇总得到缺失的村人口数；

多元线性回归方程公式如下:y¹＝β₀+β₁X1¹+β₂X2¹+β₃X3¹+β₄X4¹+ε

其中,y¹为因变量，即人口密度值；β₀为回归常数，X1¹、X2¹、X3¹、X4¹为自变量，X1¹为耕地指数、X2¹为林地指数、X3¹为城镇村及工矿用地指数、X4¹为交通用地指数，β₁、β₂、β₃、β₄为4个自变量的回归系数；ε为随机误差；

23)在BP神经网络方法中，采用的BP神经网络具有3层：一个输入层，一个中间隐含层，一个输出层；输入层包含4个输入节点，分别输入耕地指数、林地指数、城镇村及工矿用地指数、交通用地指数；中间隐含层的激励函数采用Sigmoid函数；输出层的输出结点为人口密度；

三)精度验证；随机抽取30个村作为检验样本，跟这30个村的人口实测数据，采用3种不同方法的实验模拟结果进行比较分析，误差的计算方法如下：

其中EP为人口误差百分比，pop_o为步骤二)三种模型方法中每一种方法模拟出的人口数据值，pop_t为村实际调查统计人口数目；

最后选取误差值最小的那种方法得到的数据结果作为最终结果。

所述的精细尺度人口数据空间化方法，其中：

所述的IDW方法以插值点与样本点间的距离为权重进行加权平均，所述的样本点是指取一个村的中心点作为该村的位置，以计算距离，该样本点坐标为(X_s，Y_s)，s＝1,2,...,m，s表示序号，代表第s个控制点，控制点指的就是被用来计算的样本点，该样本点的属性值就是该村的人口估计数据值Z_s，离插值点越近的样本点赋予的权重越大：设平面上分布一系列离散的样本点，各样本点的横、纵坐标和人口数据值用(X_s，Y_s，Z_s)表示，根据插值点周围离散点的值，通过距离加权求样本点的人口数据Z₀，则

其中，Z₀为插值点0的估计人口值，即为模拟人口数据值pop_o；Z_s为控制点s的实际统计人口值；d_s为控制点s与插值点0间的距离；m为在上述估计中用到的控制点的数目；k为指定的幂，幂参数k可以控制所述的控制点s对插值点0的影响，幂参数k的值取0.5到3。

所述的精细尺度人口数据空间化方法，其中：

所述的多元回归方法具体如下：

设置人口模型为:y¹＝β₀+β₁X1¹+β₂X2¹+β₃X3¹+β₄X4¹+ε

其中,y¹为因变量，即人口值；β₀为回归常数，因考虑到“无土地则无人口”现实情况，建模时β₀设为0；X1¹、X2¹、X3¹、X4¹为自变量，X1¹为耕地面积、X2¹为林地面积、X3¹为城镇村及工矿用地面积、X4¹为交通用地面积，β₁、β₂、β₃、β₄为4个自变量的回归系数；ε为随机误差；

首先根据包含人口数据的格网数据构建多元线性回归模型，格网数据包括因变量y¹和自变量X1¹、X2¹、X3¹、X4¹，得到四个自变量的回归系数β₁、β₂、β₃、β₄，然后将包含人口数据的格网的自变量X1¹、X2¹、X3¹、X4¹，代入到模型中，计算得到格网的人口数据y¹，进而得到该行政村的模拟人口数据值pop_o。

所述的精细尺度人口数据空间化方法，其中：所述的BP网络神经计算处理步骤如下：

41)网络构建：将计算的耕地指数、森林指数、城镇村及工矿用地指数作为输入节点，将人口密度作为输出节点，构建包含4个输入结点、一个输出结点、一个中间隐含层的3层BP神经网络模型；

行政村一种土地利用类型的面积与该村的总面积的百分比值称为该种土地利用类型指数,该指数反映的是该村的土地利用状况；

42)神经网络训练：首先设定初始的学习速率为0.01，学习终止误差为10^-5，网络训练最大次数为5000，中间层的激励函数采用Sigmoid函数；以待处理区已知村的土地利用指数和统计人口数作为学习样本进行训练，为了消除量纲的影响，使得结果更精确，对所有的土地利用指数和统计人口数进行归一化处理；在训练中，信号由输入层经各隐含层向输出层完成前向传播，误差信号从输出层经各隐含层，最后回到输入层逐层修正各连接权，随着这种误差逆传播训练的不断修正，网络对输入模式响应的正确率也将不断提高；本技术方案对隐含层的结点分别选取5-12个节点数目，进行神经网络设计；

归一化处理的计算公式：

式中，V表示经归一化处理后的土地利用指数/统计人口数值，v^*表示处理前的土地利用指数/统计人口数，max和min表示土地利用指数/统计人口数的最大值和最小值；

43)确实人口数据计算：根据训练好的神经网络，把待处理区缺失村的数据作为测试数据进行人口模拟，得到模拟人口数据值pop_o。

本发明提供的精细尺度人口数据空间化方法，利用计算机技术解决了精细尺度人口数据缺失的村级人口空间化难题，分别选取IDW方法、多元回归方法和BP神经网络方法对人口数据进行空间化，并选择精度最高的方法进行最终人口数据空间化，从而大大提高最终人口数据空间化的精确度。

附图说明

图1为本发明技术方案所处理的黔江区概况图；

图2为本技术方案中三种方法人口模拟误差分布范围统计示意图；

图3为临界值与模型可靠度曲线示意图；

图4为抽样样本比例与模型可靠度曲线示意图；

图5为黔江区分布图；

图6为黔江区人口500*500m格网分布图。

具体实施方式

本发明精细尺度人口数据空间化方法，包括如下步骤：

一)11)、从待处理区土地利用现状图层中调取土地利用数据，按照第二次全国土地调查土地分类标准，把土地利用数据所指代土地分为8类：01耕地、 02园地、03林地、04草地、20城镇村及工矿用地、10交通运输用地、11水域及水利设施用地、12其他用地，之后进入步骤12)；

12)、提取出待处理区的行政村边界图层，图层包含的基本属性字段包括行政村名称、行政村区划代码，将行政村边界图层作为空间数据，将行政区划代码作为匹配标识关键字段，将行政村社会统计数据作为属性数据导入到行政村图层属性中，基于“行政区划代码”公共字段完成空间数据与属性数据的匹配，行政村社会统计数据集合包括行政区划代码字段；之后进入步骤13)；

r_xy为皮尔逊(pearson)相关系数；X_i代表土地利用指数的值，i指的是第几种土地类型，土地类型的顺序可自设，代表了土地利用指数值的平均值；

人口数据空间化的方法包括IDW方法、多元回归方法和BP神经网络方法：

三)精度验证；

随机抽取30个村作为检验样本，跟这30个村的人口实测数据，采用3种不同方法的实验模拟结果进行比较分析，误差的计算方法如下：

所述的多元回归方法具体如下：

设置人口模型为:y¹＝β₀+β₁X1¹+β₂X2¹+β₃X3¹+β₄X4¹+ε

首先根据包含人口数据的格网数据，格网数据包括因变量y¹和自变量X1¹、 X2¹、X3¹、X4¹，利用SPSS软件构建多元线性回归模型，得到四个自变量的回归系数β₁、β₂、β₃、β₄，然后将包含人口数据的格网的自变量X1¹、X2¹、X3¹、 X4¹，代入到模型中，计算得到格网的人口数据y¹，进而得到该行政村的模拟人口数据值pop_o。

所述的BP网络神经计算处理步骤如下：

42)神经网络训练：首先设定初始的学习速率为0.01，学习终止误差为10^-5，网络训练最大次数为5000，中间层的激励函数采用Sigmoid函数；以待处理区已知村的土地利用指数和统计人口数作为学习样本进行训练，为了消除量纲的影响，使得结果更精确，对所有的土地利用指数和统计人口数进行归一化处理；在训练中，信号由输入层经各隐含层向输出层完成前向传播，误差信号从输出层经各隐含层，最后回到输入层逐层修正各连接权，随着这种误差逆传播训练的不断修正，网络对输入模式响应的正确率也将不断提高；本技术方案对隐含层的结点分别选取5-12个节点数目，进行神经网络设计；归一化处理的计算公式：式中，V表示经归一化处理后的土地利用指数/统计人口数值， v*表示处理前的土地利用指数/统计人口数，max和min表示土地利用指数/统计人口数的最大值和最小值；

以下是本方案在研究阶段的研究实现过程和对具体地域的分析过程、结果：

如图1，重庆市黔江区是“新纲要”中武陵山片区“六中心四轴线”中六个城市之一，并且是重庆市主要的少数民族聚居地之一，研究其贫困村的空间分布与村级致贫因素具有重要意义。黔江区辖30个街道镇乡、218个村(社区)，总人口约54万人，其中以土家族、苗族为主的少数民族人口占73％。

本实施例所用的数据主要来源于两个方面：地理空间数据和社会统计数据。地理空间数据包括空间分辨率为90m的ASTER GDEM和2011年黔江区1:10 000土地利用数据，社会经济统计数据主要依据黔江区统计局2011年发布的村级建档立卡人口统计数据。样本空间单元为黔江区214个行政村，随机选取30个村作为模型精度检验样本。本技术方案对原始数据进行了地理配准、矢量化、数据查漏和剔除粗差等预处理。

首先使用土地利用数据，并根据第二次全国土地调查土地分类标准，把土地利用分为8类。利用ArcGIS9.3软件提取出待处理区的行政村边界，然后与社会统计数据进行编码匹配，建立数据库。分别统计各村各个土地类型的面积，用某种土地利用类型的面积除以行政村的面积，再乘以100％，即得到该土地利用类型指数。在SPSS软件中，采用双侧检验的皮尔逊(pearson)相关系数，分析各个村的土地利用指数与人口密度的相关关系。分析结果见表1。由表1可以看出，在0.01显著性水平下，通过检验的指数为耕地指数、林地指数、城镇村及工矿用地指数和交通用地指数，说明耕地，林地，城镇村及工矿用地，交通用地是影响人口分布的主要因素。

表1土地利用类型和人口密度的相关系数

**表示在0.01显著性水平下通过检验

本技术方案在兼顾模型效率的基础上，选取80％作为人口空间化模拟可靠度的最低值，即在黔江区建立500×500m的格网对人口进行空间化。采用随机抽样方式，抽取30个行政村作为样本点，其分布见图1。利用叠加分析和面积占优法对格网所属村进行赋值，获取验证村模拟的人口数据，并与实际统计人口进行比较分析。表6为不同方法模拟结果与实际人口的误差的统计结果。以误差百分比为10％为界线，可以得到OLS的可靠度为50％，GWR为60％，MGWR为72.3％，MGWR-SL为83.3％。

表6不同方法模拟结果与实际人口的误差

上述研究得出在10％临界值条件和抽样比例一定下，MWGR-SL模型的效果最好。接来下主要探讨不同的临界值和不同的抽样样本比例下，MWGR-SL模型的可靠度。通过MWGR-SL模型获得30个村的模拟结果，以不同的误差百分比作为临界值，可以得到相应的模型可靠度，采用六次多项式拟合，得到不同临界值的模型可靠度，如图3。从图3可以看出，模型可靠度在临界值0-10％之间增长较快，在10％以后增加变缓慢，说明人口的误差集中在10％以内。在以10％作为误差百分比为临界值时，通过随机选取验证村的方法，建立MGWR-SL模型，统计抽样样本比例与模型可靠度关系，采用四次拟合可以得到抽样样本比例与模型可靠度的关系，如图4。由图4可知，随着抽样比例的增高模型可靠度增加，当样本村的抽样比例为80％时，模型可靠度达到80％以上，模型拟合结果比较理想。

计算各行政村贫困发生率Moran′s I指数为0.49，Z值为11.91，此结果在0.01 的显著性水平下通过检验，说明黔江区的人口分布呈现集聚的空间正相关性，这为基于MGWR-SL模型结果的有效性提供了必要的保障。

通过MGWR-SL模型得出500×500m格网的经济状况分布图(图5)和人口分布图 (图6)。

针对小尺度上人口数据缺失的问题，本技术方案以土地利用作为人口空间分布的依据，在对比不同的人口空间化方法的基础上，从区域属性和人口属性对致贫因素进行选取，构建MGWR-SL方法，模拟黔江区村级人口的空间分布。结果如下：(1)与IDW、格网方法相比，BP神经网络的精度最高。格网尺度从 1000m降到50m时，BP模型的可靠度从75.3％增加到85.3％(2)以10％为临界值， MGWR-SL方法模拟可靠度为83.3％，人口模拟误差绝对值小于5％，整体上模型的误差绝对值小于3％。在进行小尺度人文数据空间化建模时，综合考虑变量之间的空间异质性和自相关性，可以有效提升模型的精度。(3)在今后的工作中，可以进一步实地统计格网内的人口对模型的可靠度进行检验。在进行小尺度回归统计建模时，可以考虑把更多的空间计量模型和地理加权模型结合起来，并对估计参数进行检验是该类模型以后研究的重点。

经实际检验，利用计算机技术，本技术方案提出的空间化方法可提高模拟人口数据的精度，解决了无法实地考察以及实地考察情况下各种原因造成人口数据不准确的难题。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种精细尺度人口数据空间化方法，其特征在于，包括如下步骤：

一)

11)、从系统储存的待处理区土地利用现状图层中调取土地利用数据，按照第二次全国土地调查土地分类标准，把土地利用数据所指代土地分为8类：01耕地、02园地、03林地、04草地、20城镇村及工矿用地、10交通运输用地、11水域及水利设施用地、12其他用地，之后进入步骤12)；

其中：r_xy为皮尔逊(pearson)相关系数；

X_i代表土地利用指数的值，i指的是第几种土地类型，土地类型的顺序可自设，代表了土地利用指数值的平均值；

r_xy即土地利用指数样本的值X_i与人口密度样本的值Yi这两个要素的皮尔逊(pearson)相关系数，r_xy的值在[-1,1]之间：r_xy＞0表示两个要素存在正相关型；r_xy＜0表示两个要素之间存在负相关性；r_xy的绝对值越接近1,则表示两要素之间的关系越密切，越密切代表两者直接的相关性越大；反之,若r_xy绝对值越接近0，则表示两者之间关系越不密切；

二)

分别选取IDW方法、多元回归方法和BP神经网络方法对人口数据进行空间化，并选择精度最高的方法进行最终人口数据空间化；

在进行人口数据空间化操作之前，首先将待计算处理的地域划分为500m×500m的格网，然后以格网作为基本空间单元进行人口数据空间化；

所述多元线性回归方程公式如下:

y¹＝β₀+β₁X1¹+β₂X2¹+β₃X3¹+β₄X4¹+ε

三)精度验证

最后选取误差值最小的那种方法得到的数据结果作为最终结果；

其中，Z₀为插值点0的估计人口值，即为模拟人口数据值pop_o；Z_s为控制点s的实际统计人口值；d_s为控制点s与插值点0间的距离；m为在上述估计中用到的控制点的数目；k为指定的幂，幂参数k可以控制所述的控制点s对插值点0的影响，幂参数k的值取0.5到3；

所述的多元回归方法具体如下：

设置人口模型为:

y¹＝β₀+β₁X1¹+β₂X2¹+β₃X3¹+β₄X4¹+ε

首先根据包含人口数据的格网数据，格网数据包括因变量y¹和自变量X1¹、X2¹、X3¹、X4¹，构建多元线性回归模型，得到四个自变量的回归系数β₁、β₂、β₃、β₄，然后将包含人口数据的格网的自变量X1¹、X2¹、X3¹、X4¹，代入到模型中，计算得到格网的人口数据y¹，进而得到该行政村的模拟人口数据值pop_o；

所述的BP神经网络计算处理步骤如下：

42)神经网络训练：首先设定初始的学习速率为0.01，学习终止误差为10^-5，网络训练最大次数为5000，中间层的激励函数采用Sigmoid函数；以待处理区已知村的土地利用指数和统计人口数作为学习样本进行训练，对所有的土地利用指数和统计人口数进行归一化处理；在训练中，信号由输入层经各隐含层向输出层完成前向传播，误差信号从输出层经各隐含层，最后回到输入层逐层修正各连接权；对隐含层的结点分别选取5-12个节点数目，进行神经网络设计；

归一化处理的计算公式：