CN112925784B

CN112925784B - 一种实有人口数据多尺度空间化方法

Info

Publication number: CN112925784B
Application number: CN202110333710.6A
Authority: CN
Inventors: 钟家晖; 黄玲; 何正国; 毛海亚; 黄铎; 程国荣
Original assignee: Guangzhou Planning And Natural Resources Automation Center Guangzhou Basic Geographic Information Center
Current assignee: Guangzhou Planning And Natural Resources Automation Center Guangzhou Basic Geographic Information Center
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2023-10-10
Anticipated expiration: 2041-03-29
Also published as: CN112925784A

Abstract

本发明公开了一种实有人口数据多尺度空间化方法，包括原始数据提取；通过原始数据中存在的问题制定数据质量标准，对数据质量进行评估，制定数据的清洗规则，对原始数据进行清洗；通过人房固有联系构建人口数据和房屋数据的关系链；按照关联链对人口数据进行以个体为尺度的空间化；然后通过聚合算法对个体人口空间化数据进行多尺度人口空间化数据的生成。本发明实现了对实有人口数据多尺度空间化，能够作为城市精细化管理的重要数据支持，提高了城市管理及规划的科学性。

Description

一种实有人口数据多尺度空间化方法

技术领域

本发明涉及城市规划的技术领域，尤其是指一种实有人口数据多尺度空间化方法。

背景技术

“实有人口”是当前以“实有”为概念的城市管理数据中最为重要的一环，包括了常住人口、流动人口、户籍人口、外籍人口。实现空间化和多尺度空间聚合的实体人口数据作为新型城市基础数据可以真实的刻画人口数据的空间分布，同时多尺度的人口空间化数据能够提供多层次的数据快速访问和可视化分析。对于了解居民对城市资源时空配置的差异化需求以及城市空间的精细化管理有着重要的意义(王德,任熙元.日常流动视角下的上海市实有人口分布与流动性构成[J].城市规划学刊)。

现有的实有人口的研究中，在人口数据空间化方面，人口数据采用基于行政单元(省、市、县、乡镇等)的人口统计数据，这种数据存在着无法在小尺度上体现人口空间分布特征、时间分辨率差、不便于可视化和空间分析操作等问题。后续在基于行政边界的人口统计数据的基础上提出了使用一定的算法对人口统计数据进行离散化处理，主要使用城市地理学中的人口密度模型、空间插值方法和基于遥感和GIS的空间化方法，这些方法从本质上来说都是对原始的统计数据通过常见要素(如地形地貌、土地利用、夜间灯光等)建模对人口统计数据进行离散化处理，该类方法虽然在一定程度上提高和改善人口数据空间化结果的精确度与详细程度，但是随着模型复杂化导致空间化结果难以得到有效验证，同时空间化的数据尺度难以满足不同数据尺度下对数据的应用需求，人口数据要实现城市的精细化管理的要求。当前需要一种更加有效同时能够实现基于个体的人口数据多尺度空间化方法。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种实有人口数据多尺度空间化方法，通过实现人口数据的空间化和对人口数据实现多尺度聚合为城市管理与规划提供快速有效的决策支持。

为实现上述目的，本发明所提供的技术方案为：一种实有人口数据多尺度空间化方法，包括以下步骤：

1)获取原始数据，包括“四实”数据和地址门牌数据；其中“四实”数据包括实有人口数据、实有房屋栋数据、实有房屋套数据和人房关系数据；

2)对原始数据进行质量评估，通过质量评估中存在的问题构建“四实”数据的清洗规则，对原始数据进行清洗；

3)构建人房关系的空间关系链；

4)使用构建的空间关系链对人口数据以个体为数据尺度进行空间化，得到个体人口空间化数据；

5)通过聚合算法对个体人口空间化数据进行多尺度空间化，生成多尺度人口空间化数据。

在步骤2)中，依据“四实”数据采集与处理过程中存在着标准不统一，数据录入缺乏审核导致数据质量存在问题；通过对原始数据的访问与分析，相关的质量问题包括数据重复、数据异常和数据含义不明；主要从数据完整性、一致性、准确性这三个方面构建“四实”数据质量和清洗标准，提高数据的可用性，为后续的人口数据空间化与聚合提供数据支撑，其具体情况如下：

a、数据质量评估主要从数据完整性、数据一致性、数据准确性这三个方面来对数据质量进行评估，具体如下：

a1、数据完整性

数据完整性是指数据信息是否存在缺失的状况，数据缺失有两种，一是整个数据记录缺失，二是数据中某个字段信息记录缺失；质量目标为最大限度保留数据的完整性，确保后续分析具有完整的数据信息及样本量；

a2、数据一致性

一致性检查是根据每个变量的合理取值范围和相互关系，检查数据是否合乎要求，发现超出正常范围、逻辑上不合理或者相互矛盾的数据；质量目标为基于数据逻辑与规则进行数据更新，确保数据的准确度、可信度；

a3、数据准确性

数据准确性是指数据记录的信息是否存在异常或错误；常见的数据准确性错误为乱码，其次异常的大或者小的数据也是不符合条件的数据；质量目标为识别错误值与异常，保证数据准确度；

b、依据“四实”数据质量评估所存在的问题，主要从数据去重，数据准确性检查，数据一致性检查，无效值、缺失值处理和隐私数据的统计处理方面构建“四实”数据的清洗原则，具体如下：

b1、数据去重

为了获取当前最新数据，对当前人口数据、房屋栋数据、房屋套数据和人房关系数据的原始数据进行去重处理，具体操作为：对人口数据按照人口ID分组，选出其中时间最新的一条，对房屋栋、房屋套数据分别按照房屋栋ID、房屋套ID来进行分组，选出时间最新的一条数据，在人房关系表中通过人口ID和房屋套ID来对数据进行分组，选出时间最新的一条数据，完成数据的去重工作；

b2、数据准确性检查

根据数据关联关系、常识性规则和属性约束方式检测数据值，进行纠正；

b3、数据一致性检查

数据一致性检查根据每个变量的合法取值范围和相互关系，检查数据是否合乎要求，处理超出正常范围、逻辑上不合理或者相互矛盾的数据；

b4、数据无效性、缺失值处理

由于调查、编码和录入误差造成无效值和缺失值存在，通过成对删除处理，保证样本量及变量的完整性；

b5、隐私数据的统计处理

由于原始的人口数据中的字段存在有个人敏感信息，为了防止个人隐私信息泄露，对原始人口数据中的敏感信息进行隐藏，将原始字段保存为字段的统计信息，包括各性别人数、各人口类型人数、各年龄阶段人数、劳动人口和育龄妇女人口。

在步骤3)中，使用经过去重的原始数据，构建以人房关系为核心的空间关系链，当前人口数据空间信息的来源是通过关联门牌地址中的地址代码来获取的，其中的房屋数据中采集有标志地址的地址代码字段，具体实现的过程如下：

首先，对人口信息表A与人房信息表B通过人口进行关联得到人口信息与人房关联表C，由于原始人房关系表登记时存在房屋栋为空的记录，对表C通过筛选选出栋ID不为空表C1，栋ID为空表C2，将表C2与去重过后的房屋套信息表D通过房屋套ID进行关联生成表E，将表E合并到表C1中获得人口ID与房屋栋ID对应的信息表F，将信息表F与去重过后的房屋栋表H通过房屋栋ID关联，生成包含地址代码的人口数据表I；

在步骤4)中，根据步骤3)生成的包含地址代码的人口数据表I，结合门牌地址进行空间化，具体情况如下：

门牌地址数据是通过地址代码编号作为唯一标识的空间数据，在包含地址代码信息的人口数据表I中通过地址代码进行筛选，筛选出地址代码为空与不为空的人口数据，将地址代码不为空的人口数据与门牌地址表通过地址代码进行关联，人口数据关联到门牌地址的空间坐标之上，人口数据获取到空间坐标；

将筛选出的地址代码为空的人口数据，为了实现地址代码为空的人口数据的落点，在上述表F的生成过程中，人口表关联到房屋栋、房屋套中的地址字段，该字段中记录着地名地址信息，能够通过百度或高德地名地址转换引擎将文字化的地址信息转换成为空间坐标，实现人口数据的空间落点；

合并获取到空间坐标的地址代码为空与地址代码不为空的人口数据，获取全部实现空间落点的人口数据，即个体人口空间化数据。

在步骤5)中，通过聚合算法对个体人口空间化数据进行多尺度空间化，生成多尺度人口空间化数据，包括以下步骤：

5.1)确定不同尺度下的聚合格网单元

按照人口数据可视化及数据查询时对数据访问的需求，确定用于数据聚合的不同尺度下所对应的人口数据聚合格网单元，通过将聚合格网单元中的原始点聚合为同一个点实现一个数据尺度下的人口数据聚合；同一数据尺度下的人口数据中，聚合格网单元由行列号作为唯一标识，聚合格网单元大小代表不同的数据尺度，通过聚合格网单元的行列号及其一个聚合格网单元的大小能够确定在一个数据尺度下的聚合格网单元，下式为每个聚合格网单元的右下角坐标：

x＝X₀+R·d (1)

y＝Y₀+C·d (2)

式中，x、y为聚合格网单元的右下角坐标，X₀、Y₀为人口数据图层范围右上角坐标，R、C为聚合格网单元的行列号，d为当前聚合格网单元的边长大小；

5.2)人口数据聚合

按照步骤5.1)中确定的不同尺度下的聚合格网单元，对每个数据尺度下的数据按照预设的聚合格网单元进行人口数据的聚合操作，将每个落在聚合格网单元中的原始数据点聚合为同一个点，形成当前聚合格网单元尺度下的人口聚合数据；

首先，需要判断位于当前聚合格网单元中的原始人口数据点，原始人口数据点的坐标需要满足以下两个条件：

x₀-d＜x_i＜x₀ (3)

y₀＜y_i＜y₀+d (4)

式中，x₀、y₀为聚合格网单元的右下角坐标，x_i、y_i为原始点坐标，通过上式判断找出落在原始聚合格网单元中的所有原始点；

然后将聚合格网单元中的原始人口数据点通过空间聚合的方式形成一个聚合点，将聚合格网单元中所有人口点的统计数据作为聚合点的属性字段，包括各性别人数、各人口类型人数、各年龄阶段人数、劳动人口和育龄妇女人口；在原始人口点通过聚合形成的一级聚合数据尺度的基础上，以该级的聚合点作为新的原始人口点重新划分聚合格网单元进行人口聚合，生成更大尺度下人口空间化数据，随着数据尺度的不断增大，在新生成的一级数据尺度人口空间化数据中重复聚合以上过程；

形成更大尺度下的人口空间化数据就是求解聚合格网单元中聚合点空间位置及属性信息的过程，在每个聚合格网单元中，聚合点的坐标的计算采用加权平均数的方式，权重为该点人口总数，聚合点的属性字段为聚合格网单元中所有点对应字段之和，计算公式如下：

式中，X、Y表示聚合点的坐标，x_n、y_n为一个聚合格网单元中第n个点的原始点坐标，m_n为聚合格网单元中第n个人口点人口总数，m_i为当前聚合格网单元中所有点总人数的算数平均数，f为聚合点中人口统计字段对应的值，f_i为聚合格网单元中第i个原始人口点对应的人口统计字段值，即聚合点的人口统计字段值为聚合格网单元中所有原始人口点对应人口统计字段之和；依据不同数据尺度将原始数据尺度下的人口逐级进行聚合形成更大数据尺度下的人口空间化数据，形成多尺度人口空间化数据。

本发明与现有技术相比，具有如下优点与有益效果：

1、相比于传统以人口数据的统计信息通过一定的算法对人口数据进行空间离散化的方式，基于实有人口数据空间化的方法从根本上解决了传统空间化方法中离散算法复杂、无法在小尺度上展现人口的分布特征的问题，能够实现以个体为数据尺度的空间落点，提高了人口数据在城市精细化管理中的科学性。

2、以实现个体空间落点的人口数据为基础，通过本发明方法中的处理手段，对原始人口数据进行聚合形成多尺度的人口空间数据，满足不同行业对不同数据尺度人口数据的需求，扩大了空间数据的应用范围。

3、多尺度的人口空间数据能够提升人口数据的可用性，可以作为人口数据可视化及人口数据空间分析的重要支撑。

附图说明

图1为本发明方法流程示意图。

图2为本发明方法中的数据清洗标准构建图。

图3为本发明方法中的人口数据关联构建及空间化。

图4为本发明方法中的人口数据的空间化结果图。

图5为本发明方法中的多尺度人口空间数据聚合示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例所提供的实有人口数据多尺度空间化方法，包括以下步骤：

步骤1、提取原始数据，包括“四实”数据、地址门牌数据。其中“四实”数据包括，实有人口数据、实有房屋栋数据、实有房屋套数据、人房关系数据。

步骤2、对原始数据进行质量评估，通过质量评估中存在的问题构建“四实”数据的清洗规则，对原始数据进行清洗；如图2所示的原始数据清洗标准构建图，包括：

a、对数据进行质量评估

数据质量评估主要从数据完整性、数据一致性、数据准确性这三个方面来对数据质量进行评估，具体如下：

a1、数据完整性

数据完整性是指数据信息是否存在缺失的状况，数据缺失一般为两种，一是整个数据记录缺失，二是数据中某个字段信息记录缺失。质量目标为最大限度保留数据的完整性，确保后续分析具有完整的数据信息及样本量。

a2、数据一致性

一致性检查是根据每个变量的合理取值范围和相互关系，检查数据是否合乎要求，发现超出正常范围、逻辑上不合理或者相互矛盾的数据。质量目标为基于数据逻辑与规则进行数据更新，确保数据的准确度、可信度。

a3、数据准确性

数据准确性是指数据记录的信息是否存在异常或错误。较为常见的数据准确性错误为乱码，其次异常的大或者小的数据也是不符合条件的数据，质量目标为识别错误值与异常，保证数据准确度。

b、对原始数据进行清洗

b1、数据去重

原始“四实”数据每隔一段时间就会进行更新，但数据库并没有将旧记录删除，因而出现大量重复数据。根据数据的重复特征对数据进行去重，具体过程如下：

b101、人口信息表去重

当人口信息表的id重复时，只保留时间最新一行。

b102、房屋栋信息表去重

当房屋栋信息表中房屋栋id重复时，保留时间最新且地址代码不为空的一条记录。

b103、房屋套信息表去重

当房屋套信息表中id重复时，只保留时间最新一行。

b104、人房关系表去重

当人房关系表中的人口id重复、套id重复同时栋id也重复时，只保留时间最新一行。

b2、数据准确检查

根据数据关联关系、常识性规则、属性约束等方法检测数据值，进行纠正。

比如将房屋套信息表、人口信息表及人房关系信息表关联起来，发现部分SJYT(房屋实际用途)和JZZT(居住状态)存在矛盾，故根据居住状态将“空置房”改为“居住”，如人口的年龄、性别用身份证号码进行验证对不合理的字段进行纠正。

b3、数据一致性检查

数据一致性检查根据每个变量的合法取值范围和相互关系，检查数据是否合乎要求，处理超出正常范围、逻辑上不合理或者相互矛盾的数据。

比如在房屋栋信息表中含有FLOOR(层数)，FLOOR_UP(地上层数)和FLOOR_DOWN(地下层数)。FLOOR(层数)据逻辑FLOOR＝FLOOR_UP+FLOOR_DOWN检查纠正；在人口数据中的年龄的取值范围为0-150,检测不符合逻辑的取值。

b4、隐私数据的统计处理

由于原始的人口数据中的字段存在有个人敏感信息，为了防止个人隐私信息泄露，对原始人口数据中的敏感信息进行隐藏，将原始字段保存为字段的统计信息，包括各性别人数、各人口类型人数、各年龄阶段人数、劳动人口、育龄妇女人口等。

步骤3、构建人房关系的空间关系链。

使用以上经过去重的原始数据，构建人房关系的空间关系链，当前人口数据空间信息的来源主要是通过关联门牌地址中的地址代码来获取的，其中的房屋数据中采集有标志地址的地址代码字段，具体实现的过程如下：

首先，对人口信息表A与人房信息表B通过人口进行关联得到人口信息与人房关联表C，因为原始人房关系表登记时存在房屋栋为空的记录，对表C通过筛选选出栋ID不为空表C1，栋ID为空表C2，将表C2与去重过后的房屋套信息表D通过房屋套ID进行关联生成表E，将表E合并到表C1中获得人口ID与房屋栋ID对应的信息表F，将信息表F与去重过后的房屋栋表H通过房屋栋ID关联，生成包含地址代码的人口数据表I，见图3所示。

步骤4、使用构建的空间关系链对人口数据以个体为数据尺度进行空间化。

门牌地址数据是通过地址代码编号作为唯一标识的空间数据，在包含地址代码信息的人口数据表中通过地址代码进行筛选，筛选出地址代码为空与不为空的人口数据，将地址代码为不为空的人口数据与门牌地址表通过地址代码进行关联，人口数据关联到门牌地址的空间坐标之上，人口数据获取到空间坐标。

将筛选出的地址代码为空的人口数据，为了实现地址代码为空的人口数据的落点，在上个步骤中表F的生成过程中，人口表关联到房屋栋、房屋套中的地址字段，该字段中记录着地名地址信息，可以通过百度、高德等地名地址转换引擎将文字化的地址信息转换成为空间坐标，实现人口数据的空间落点。合并获取到空间坐标的地址代码为空与地址代码不为空的人口数据，获取全部实现空间落点的人口数据，见图4所示。

步骤5、多尺度人口空间化数据生成。

5.1)确定不同尺度下的聚合格网单元

x＝X₀+R·d (1)

y＝Y₀+C·d (2)

式中，x、y为聚合格网单元的右下角坐标，X₀、Y₀为人口数据图层范围右上角坐标，R、C为聚合格网单元的行列号，d为当前聚合格网单元的边长大小；原始人口图层左上角坐标X₀、Y₀分别为33000，230000，取第一层级聚合格网单元大小为100m，及第一行，第一列的聚合格网单元的右下角坐标为:

x＝X₀+R·d＝33000+1×100＝33100

y＝Y₀+C·d＝230000+1×100＝230100

5.2)人口数据聚合

x₀-d＜x_i＜x₀ (3)

y₀＜y_i＜y₀+d (4)

上式中，x₀、y₀为聚合格网单元的右下角坐标，x_i、y_i为原始点坐标，通过上式判断找出落在原始聚合格网单元中的所有原始点。下表为判断原始点位于某一聚合格网中的判断表，其中2，4号点位于右下角坐标为33100，230100的格网中。

然后将聚合格网单元中的原始人口数据点通过空间聚合的方式形成一个聚合点，将聚合格网单元中所有人口点的统计数据作为聚合点的属性字段，包括各性别人数、各人口类型人数、各年龄阶段人数、劳动人口和育龄妇女人口；在原始人口点通过聚合形成的一级聚合数据尺度的基础上，以该级的聚合点作为新的原始人口点重新划分聚合格网单元进行人口聚合，生成更大尺度下人口空间化数据，随着数据尺度的不断增大，在新生成的一级数据尺度人口空间化数据中重复聚合以上过程。

式中，X、Y表示聚合点的坐标，x_n、y_n为一个聚合格网单元中第n个点的原始点坐标，m_n为聚合格网单元中第n个人口点人口总数，m_i为当前聚合格网单元中所有点总人数的算数平均数，f为聚合点中人口统计字段对应的值，f_i为聚合格网单元中第i个原始人口点对应的人口统计字段值，即聚合点的人口统计字段值为聚合格网单元中所有原始人口点对应人口统计字段之和。

以一个规则格网单元为例，下表为当前该格网单元中的原始点列表：

原始点序号	原始点x坐标(m)	原始点y坐标(m)	总人数
				1	33015.54	230124.23	18
2	33024.23	230111.32	4
				3	33056.43	230198.88	7
4	33023.23	230145.12	23
				5	33036.43	230143.23	15

以上述格网单元为例，新的集合点坐标为：

最终，完成不同等级比例尺下的聚合单元中聚合点的生成，见图5所示。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种实有人口数据多尺度空间化方法，其特征在于，包括以下步骤：

1)获取原始数据，包括四实数据和地址门牌数据；其中四实数据包括实有人口数据、实有房屋栋数据、实有房屋套数据和人房关系数据；

2)对原始数据进行质量评估，通过质量评估中存在的问题构建四实数据的清洗规则，对原始数据进行清洗；

3)构建人房关系的空间关系链；

使用经过去重的原始数据，构建以人房关系为核心的空间关系链，当前人口数据空间信息的来源是通过关联门牌地址中的地址代码来获取的，其中的房屋数据中采集有标志地址的地址代码字段，具体实现的过程如下：

4)使用构建的空间关系链对人口数据以个体为数据尺度进行空间化，得到个体人口空间化数据；其中，根据步骤3)生成的包含地址代码的人口数据表I，结合门牌地址进行空间化，具体情况如下：

将筛选出的地址代码为空的人口数据，为了实现地址代码为空的人口数据的落点，在所述信息表F的生成过程中，人口表关联到房屋栋、房屋套中的地址字段，该字段中记录着地名地址信息，能够通过百度或高德地名地址转换引擎将文字化的地址信息转换成为空间坐标，实现人口数据的空间落点；

合并获取到空间坐标的地址代码为空与地址代码不为空的人口数据，获取全部实现空间落点的人口数据，即个体人口空间化数据；

5)通过聚合算法对个体人口空间化数据进行多尺度空间化，生成多尺度人口空间化数据，包括以下步骤：

5.1)确定不同尺度下的聚合格网单元

x＝X₀+R·d (1)

y＝Y₀+C·d (2)

5.2)人口数据聚合

x₀-d＜x_i＜x₀(3)

y₀＜y_i＜y₀+d(4)式中，x₀、y₀为聚合格网单元的右下角坐标，x_i、y_i为原始点坐标，通过上式判断找出落在原始聚合格网单元中的所有原始点；

然后将聚合格网单元中的原始人口数据点通过空间聚合的方式形成一个聚合点，将聚合格网单元中所有人口点的统计数据作为聚合点的属性字段，包括各性别人数、各人口类型人数、各年龄阶段人数、劳动人口和育龄妇女人口；在原始人口点通过聚合形成的一级聚合数据尺度的基础上，以该级的聚合点作为新的原始人口点重新划分聚合格网单元进行人口聚合，生成更大尺度下人口空间化数据，随着数据尺度的不断增大，在新生成的一级数据尺度人口空间化数据中重复以上聚合过程；

2.根据权利要求1所述的一种实有人口数据多尺度空间化方法，其特征在于：在步骤2)中，依据四实数据采集与处理过程中存在着标准不统一，数据录入缺乏审核导致数据质量存在问题；通过对原始数据的访问与分析，相关的质量问题包括数据重复、数据异常和数据含义不明；从数据完整性、一致性、准确性这三个方面构建四实数据质量和清洗标准，提高数据的可用性，为后续的人口数据空间化与聚合提供数据支撑，其具体情况如下：

a、数据质量评估从数据完整性、数据一致性、数据准确性这三个方面来对数据质量进行评估，具体如下：

a1、数据完整性

a2、数据一致性

a3、数据准确性

b、依据四实数据质量评估所存在的问题，从数据去重，数据准确性检查，数据一致性检查，无效值、缺失值处理和隐私数据的统计处理方面构建四实数据的清洗原则，具体如下：

b1、数据去重

b2、数据准确性检查

b3、数据一致性检查

b4、数据无效性、缺失值处理

b5、隐私数据的统计处理