CN111461163A

CN111461163A - 城市内部pm2.5浓度模拟和人口暴露度评估方法和装置

Info

Publication number: CN111461163A
Application number: CN202010116723.3A
Authority: CN
Inventors: 王坤; 张丽君; 秦耀辰
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-07-28
Anticipated expiration: 2040-02-25
Also published as: CN111461163B

Abstract

本申请涉及一种城市内部PM2.5浓度模拟和人口暴露度评估方法和装置，先建立缓冲区，通过缓冲区以随机森林模型模拟预测居住区的PM2.5浓度，并将预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度，以保证PM2.5浓度预测的准确性，本申请的城市内部PM2.5浓度模拟和人口暴露度评估方法和装置具有预测结果准确，适用性高的优点。

Description

城市内部PM2.5浓度模拟和人口暴露度评估方法和装置

技术领域

本发明涉及地理信息技术和大数据分析领域，特别涉及一种基于土地利用随机森林(land use random forest，LURF)模型和地理空间大数据的城市内部PM2.5浓度模拟和人口暴露度评估方法和装置。

背景技术

目前，地面PM2.5监测站、遥感卫星影像、PM2.5地面监测站和遥感影像的混合模型、LUR模型广泛应用于地表PM2.5的浓度模拟。但是地面PM2.5监测站分布稀疏，并不能完全揭示PM2.5浓度的空间异质性，导致内城PM2.5模拟的精度相对较低。遥感影像的气溶胶数据分辨率较低，亦不能应用于微观尺度层面。PM2.5地面监测站和遥感影像的混合模型在一定程度上减少了粗糙度，但是不能体现出特定地区时间的连续性，两者存在同一时间上的空间不一致性。LUR模型广泛用于城市市域尺度，主要依赖于PM2.5浓度与其他自变量的高度重要性和逐步回归模型，而自变量也会产生不稳定的模型估计和方差膨胀，也不能解释所有变量对PM2.5的重要性，以及每个变量对 PM2.5的贡献度。居住区尺度的人口估算是污染物人口暴露的关键。现有技术对居住区尺度的人口测算主要采用人口经济普查和调查问卷等数据，这些普查数据时间周期较长，花费成本较高。近年来随着机器学习和大数据的发展和应用，为城市内部的PM2.5浓度模拟和人口暴露评估提供了条件。

发明内容

本发明的主要目的是提供一种基于随机森林模型和地理空间大数据的城市内部PM2.5浓度模拟和人口暴露评估方法，能从微观上较为准确的模拟城市内部的PM2.5和人口暴露评估。

本发明所采用的技术方案是：

一种城市内部PM2.5浓度模拟和人口暴露度评估方法，包括以下步骤：

S1：获得特定区域内PM2.5浓度监测数据，获取的数据包括特定区域所在城市、监测点的经度、监测点的纬度和监测点检测到的 PM2.5浓度值，以监测点为中心设定第一缓冲区域，将第一缓冲区域标定为监测点相同的PM2.5浓度值，获取第一缓冲区域内的建成环境数据，以PM2.5浓度值作为因变量，建成环境数据作为自变量作为训练数据输入到随机森林模型中进行训练；

S2：以特定区域中的居住区为中心设定步骤S1中第一缓冲区域大小相同的第二缓冲区域，获取第二缓冲区域内的建成环境数据，将第二缓冲区域内的建成环境数据输入到步骤S1中训练得到的随机森林模型中预测得到居住区的PM2.5浓度；

S3：将预测得到的居住区的PM2.5浓度与居住区中实际测得的 PM2.5的值进行比较确定预测的精度，当精度大于设定的阈值时则进入步骤S4，否则，则返回步骤S1中调整第一缓冲区域大小或者调整建成环境数据的种类；

S4：统计或者估算居住区中的人口数量M_Population；

S5：根据居住区内的人口数量和居住区的PM2.5浓度值进行人口暴露强度的计算，人口暴露强度为：

PE_j＝M_Population×N_PM2.5

其中，PE_j为j居住区的人口暴露强度；M_Population为居住区的人口数；N_PM2.5为居住区的PM2.5浓度值。

优选地，本发明的城市内部PM2.5浓度模拟和人口暴露度评估方法，

步骤S1中设定若干不同大小的第一缓冲区域和/或选取不同种类和数量的建成环境数据，以训练得到若干个不同的随机森林模型；

步骤S2中第二缓冲区域也被设定成与第一缓冲区域对应大小的若干个，建成环境数据的种类和数量也与步骤S1中的建成环境数据相同；

步骤S3中将所有随机森林模型预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度，筛选出精度最高的随机森林模型。

优选地，本发明的城市内部PM2.5浓度模拟和人口暴露度评估方法，建成环境数据包括土地利用混合度、居住区面积、人口平均密度、绿地面积、道路交叉口、水体面积和餐饮数量。

优选地，本发明的城市内部PM2.5浓度模拟和人口暴露度评估方法，土地利用混合度

其中，V_j为区域单元范围j中的土地利用混合度，M_ij为区域单元范围j中i类POI类型所占的比例，N_j为区域单元范围j中POI类型的数量。

优选地，本发明的城市内部PM2.5浓度模拟和人口暴露度评估方法，POI类型为居住用地、公共管理与公共服务用地、商业服务业设施用地、工业用地、物流仓储用地、道路与交通设施用地、公用设施用地或者绿地与广场用地。

优选地，本发明的城市内部PM2.5浓度模拟和人口暴露度评估方法，步骤S3中预测的精度采用十倍交叉验证和均方误差的值、均方根误差的值进行对比验证。

优选地，本发明的城市内部PM2.5浓度模拟和人口暴露度评估方法，经过步骤S3的检验后，还通过随机森林模型对不同种类的建成环境对PM2.5浓度的重要性进行检测和排序。

优选地，本发明的城市内部PM2.5浓度模拟和人口暴露度评估方法，S4步骤中根据人均住房建筑面积数据，结合居住区楼层高度和底面积对居住区中的人口数量估测：

其中，M_Population为居住区的人口数，F为楼层层数，S为建筑的底面积，H_area为人均住房建筑面积。

优选地，本发明的城市内部PM2.5浓度模拟和人口暴露度评估方法，还包括将步骤S5中得到人口暴露度值根据居住区位置标识到地图上以进行空间可视化的步骤。

本发明还包括一种城市内部PM2.5浓度模拟和人口暴露度评估装置，包括：

模型训练模块：用于获得特定区域内PM2.5浓度监测数据，获取的数据包括特定区域所在城市、监测点的经度、监测点的纬度和监测点检测到的PM2.5浓度值，以监测点为中心设定第一缓冲区域，将第一缓冲区域标定为监测点相同的PM2.5浓度值，获取第一缓冲区域内的建成环境数据，以PM2.5浓度值作为因变量，建成环境数据作为自变量作为训练数据输入到随机森林模型中进行训练；

数据预测模块：用于以特定区域中的居住区为中心设定模型训练模块中第一缓冲区域大小相同的第二缓冲区域，获取第二缓冲区域内的建成环境数据，将第二缓冲区域内的建成环境数据输入到模型训练模块中训练得到的随机森林模型中预测得到居住区的PM2.5浓度；

精度筛查模块：用于将预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度，当精度大于设定的阈值时则进入人口数量获取模块，否则，则返回模型训练模块中调整第一缓冲区域大小或者调整建成环境数据的种类；

人口数量获取模块：用于统计或者估算居住区中的人口数量 M_Population；

人口暴露强度计算模块：用于根据居住区内的人口数量和居住区的PM2.5浓度值进行人口暴露强度的计算，人口暴露强度为：

PE_j＝M_Population×N_PM2.5

本发明的有益效果是：

本申请的城市内部PM2.5浓度模拟和人口暴露度评估方法和装置，先建立缓冲区，通过缓冲区以随机森林模型模拟预测居住区的 PM2.5浓度，并将预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度，以保证PM2.5浓度预测的准确性，本申请的城市内部PM2.5浓度模拟和人口暴露度评估方法和装置具有预测结果准确，适用性高的优点。

附图说明

下面结合附图和实施例对本申请的技术方案进一步说明。

图1为本发明实施例中城市内部PM2.5浓度模拟和人口暴露度评估方法的流程图；

图2为本发明实施例中POI数据分布的类型和数量结果图；

图3为本发明实施例中社区尺度的人口数量估测结果图；

图4为本发明实施例中土地利用随机森林回归模型模拟城市内部PM2.5浓度结果图；

图5为本发明实施例中建成环境对PM2.5贡献度的重要性测度结果图；

图6为本发明实施例中土地利用随机森林模型预测的精度验证结果图；

图7为本发明实施例中居住区的人口暴露度可视化图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面将参考附图并结合实施例来详细说明本申请的技术方案。

实施例1

本实施例提供一种城市内部PM2.5浓度模拟和人口暴露度评估方法，如图1所示，包括以下步骤：

S1：获得特定区域内PM2.5浓度监测数据，获取的数据包括特定区域所在城市、监测点的经度、监测点的纬度和监测点检测到的 PM2.5浓度值，以监测点为中心设定第一缓冲区域，将第一缓冲区域标定为监测点相同的PM2.5浓度值，获取第一缓冲区域内的建成环境数据，以PM2.5浓度值作为因变量，建成环境数据作为自变量作为训练数据输入到随机森林模型中进行训练；每个特定区域(比如一座城市)会有很多监测点，每个监测点都会设定圆形的第一缓冲区域，使整座城市尽量被第一缓冲区域覆盖，但是，由于监测点毕竟有限，很多区域没有办法全面覆盖，通过下面的步骤就是为了将未覆盖区域也预测出其PM2.5的值，如果某个地点被两个以上的第一缓冲区域所覆盖，那该地点可以取多个监测点监测数据的平均值，但通过调整第一缓冲区域大小尽可能地避免第一缓冲区域重叠；第一缓冲区域可以设定为2000m、1000m、800m、500m、300m等等。

PM2.5浓度监测数据可以通过Python语言在全国空气质量监测数据网站上获得所在区域PM2.5浓度监测数据，获取的属性包括城市、监测点名称、监测点编码、经度、纬度和PM2.5浓度值。

S2：以特定区域中的居住区为中心设定S1步骤中第一缓冲区域大小相同的第二缓冲区域，获取第二缓冲区域内的建成环境数据，将第二缓冲区域内的建成环境数据输入到S1步骤中训练得到的随机森林模型中预测得到居住区的PM2.5浓度；

建成环境数据包括土地利用混合度、居住区面积、人口平均密度、绿地面积、道路交叉口、水体面积和餐饮数量。

土地利用混合度以熵值表示：

S为土地利用混合度熵值，n为土地利用类型数量，ρ_i为第i类土地面积所占的比例，

也可以直接定义土地利用混合度

土地利用类型/POI类型为居住用地、公共管理与公共服务用地、商业服务业设施用地、工业用地、物流仓储用地、道路与交通设施用地、公用设施用地或者绿地与广场用地(根据2012年起实施的《城市用地分类与规划建设用地标准》划分)。土地利用混合度数据中，可以基于网络地图开发平台，采用Python语言编写的程序，获取所在区域的POIs数据集，POI(Point of Interest)是在空间上显示各种设施的点，根据POIs数据集确定每类土地面积所占的比例。

在居住区数据中，同样，基于网络地图开发平台，采用Python 编写的程序，获取了所在区域的居住区围栏数据，并和所在区域的规划图进行对照增补，确定居住区范围和面积。

在人口平均密度数据中，根据人均住房建筑面积，结合获取的居住区楼层高度和底面积进行估算得到。

绿地面积数据，绿地使用遥感影像数据进行监督分类提取得到，通过ENVI5.3软件进行提取每个缓冲区的绿地面积。

道路交叉口数据，可以提取所在区域的道路矢量数据，包括国道、省道、行人道路、市区一级道路、市区二级道路、县道、乡道和其他道路，根据Arcgis10.3软件进行道路交叉口相交提取获得。

水体面积数据，水体面积的提取采用高精度卫星影像进行人工矢量化识别提取，通过ENVI5.3进行提取每个缓冲区的水体面积。

餐饮数据，可基于网络地图开发平台，采用Python编写的程序，获取了所在区域的餐饮点数据。

随机森林是一种机器学习算法，能够对相关分类或回归树进行统计预测，也能处理非线性关系和交互作用的效果。随机森林模型相比传统统计方法(如：一般线性回归模型和普通克里金插值等)，有较好的预测性能。随机森林模型能够捕捉预测因子与小样本训练数据之间复杂的非线性关系，因此，土地利用模型和随机森林回归模型的结合，能够提高土地利用模型的准确性和精密度，从而更好的模拟PM2.5 的浓度值。随机森林回归模型采用R语言编写的程序进行模拟，设定 ntree＝1000，mtry＝6。PM2.5模拟的空间数据分析用Arcgis10.3执行。

S3：将预测得到的居住区的PM2.5浓度与居住区中实际测得的 PM2.5的值进行比较确定预测的精度，当精度大于设定的阈值时则进入步骤S4，否则，则返回步骤S1步骤调整第一缓冲区域大小或者调整建成环境数据的种类；(居住区中实际测得的PM2.5的值是指被某个监测点为中心设定的第一缓冲区域所覆盖的居住区，以该监测点数据为该居住区中实际测得的PM2.5的值，本步骤中，进行精度验证，选取的居住区一定要被某个监测点为中心设定的第一缓冲区域所覆盖)

随机森林模型(LURF)预测的精度验证。采用十倍交叉验证和均方误差的值、均方根误差的值进行对比验证。对于十倍交叉验证，基于Weka开源机器学习平台或Python语言进行执行。

均方误差(MSE)值的大小，可以用来表示PM2.5浓度的预测值和 PM2.5实际监测数据的精度程度。MSE的值越小说明预测模型解释能力越好，反之越差。

其中，N是样本个数，P_n表示模型模拟后PM2.5的预测值，M_n表示PM2.5的实际监测值。

而均方根误差(RMSE)是均方误差的算术平方根，其表达式为：

S4：根据人均住房建筑面积数据，结合居住区楼层高度和底面积对居住区中的人口数量估测：

其中，M_Population为居住区的人口数，F为楼层层数，S为建筑的底面积，H_area为人均住房建筑面积；人口数量也可以根据统计数据直接得到；

S5：根据居住区内的人口数量，和居住区的PM2.5浓度值进行人口暴露强度的计算，人口暴露强度为：

PE_j＝M_Population×N_PM2.5

经过步骤S3的检验后，还通过随机森林模型对不同种类的建成环境对PM2.5浓度的重要性进行检测和排序。对不同种类的建成环境进行重要性排序可以明确是何种的建成环境更加影响PM2.5浓度。在随机森林模型中的相对重要性(I_m)是根据该变量用于分裂的次数和相关的平方误差减少来评估的，在对相对重要性值进行按比例划分。所有变量的重要性按照从上到下顺序排列，横轴代表重要性的大小。

其中，K为随机森林模型中树的总数，

是变量X_m对k树重要性的平方。

还包括将步骤S5中得到人口暴露度值根据居住区位置标识到地图上以进行空间可视化的步骤，生成各种可视化图形以便于更好地表示出人口暴露度值的分布。

本实施例还提供一种城市内部PM2.5浓度模拟和人口暴露度评估装置，包括：

PE_j＝M_Population×N_PM2.5

人口暴露强度是有PM2.5浓度值和人口密度共同作用产生的，人类活动的影响产生了PM2.5，同时，PM2.5又反作用于人类，对人类的健康生活产生威胁。

对于城市内城的人口暴露而言(如图7)，尤其是老城区，紧凑的城市形态结构布局，城市内部人口密度大，人类活动影响较为剧烈，道路车辆拥挤，更容易产生PM2.5，人口暴露存在较大风险，因此，要发展多中心的城市结构，平衡城市内部人口密度，疏解交通流，缓解机动车尾气排放对PM2.5的影响。

实施例2

本实施例提供一种城市内部PM2.5浓度模拟和人口暴露度评估方法，如图2所示，包括以下步骤：

S1：获得特定区域内PM2.5浓度监测数据，获取的数据包括特定区域所在城市、监测点的经度、监测点的纬度和监测点检测到的 PM2.5浓度值，以监测点为中心设定若干不同大小的第一缓冲区域，将第一缓冲区域标定为监测点相同的PM2.5浓度值，获取第一缓冲区域内的建成环境数据，以PM2.5浓度值作为因变量，建成环境数据作为自变量作为训练数据输入到若干个随机森林模型中进行训练；

S2：以特定区域中的居住区为中心设定S1步骤中第一缓冲区域大小对应的若干不同大小的第二缓冲区域，获取第二缓冲区域内的建成环境数据，将第二缓冲区域内的建成环境数据输入到S1步骤中对应的随机森林模型中预测得到居住区的PM2.5浓度；

S3：将预测得到的居住区的PM2.5浓度与居住区中实际测得的 PM2.5的值进行比较确定预测的精度，晒选出精度最大时的随机森林模型；

S1-S3步骤中，也可以调整建成环境数据种类和数量来训练得到不同的随机森林模型；

其中，M_Population为居住区的人口数，F为楼层层数，S为建筑的底面积，H_area为人均住房建筑面积；

S5：根据居住区内的人口数量，和居住区的PM2.5值进行人口暴露强度的计算，人口暴露强度为：

PE_j＝M_Population×N_PM2.5

其中，PE_j为j居住区的人口暴露强度；M_Population为居住区的人口数；N_PM2.5为精度最大的随机森林模型所预测的居住区的PM2.5 浓度值。

随机森林模型(LURF)预测的精度验证：

比较了春季两种模型的精度(如图6)，LUR模型和LURF模型预测的PM2.5浓度和实际观测值的R2分别为0.64和0.5071，而LUR模型和LURF模型预测的PM2.5浓度和实际观测值的MSE和RMSE也分别为164.75、132.07和12.83、11.49，尽管LUR模型的R2比LURF模型的R2高，而LURF模型的MSE和RMSE都要比LUR模型低很多。在样本量中，LURF模型有较好的精度，适用性也更广泛。

在十倍交叉验证春季PM2.5浓度准确性上，如表1所示，LUR模型十倍交叉验证和LURF模型十倍交叉验证的相关系数分别是0.9639 和0.956，而在平均绝对误差和均方根误差方面，LURF模型都比LUR 模型要低，也说明LURF模型在预测PM2.5浓度方面有较高精确性。

表1 LUR模型和LURF模型的十倍交叉验证比较

从上图可以使用随机森林模型本身的模型精度仅更准确，再通过步骤S3的阈值筛选，或者通过对比精度筛选出精度最高的模型的方式，可以进一步提高模型的准确性，使得

以上述依据本申请的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项申请技术思想的范围内，进行多样的变更以及修改。本项申请的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种城市内部PM2.5浓度模拟和人口暴露度评估方法，其特征在于，包括以下步骤：

S1：获得特定区域内PM2.5浓度监测数据，获取的数据包括特定区域所在城市、监测点的经度、监测点的纬度和监测点检测到的PM2.5浓度值，以监测点为中心设定第一缓冲区域，将第一缓冲区域标定为监测点相同的PM2.5浓度值，获取第一缓冲区域内的建成环境数据，以PM2.5浓度值作为因变量，建成环境数据作为自变量作为训练数据输入到随机森林模型中进行训练；

S3：将预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度，当精度大于设定的阈值时则进入步骤S4，否则，则返回步骤S1中调整第一缓冲区域大小或者调整建成环境数据的种类；

S4：统计或者估算居住区中的人口数量M_Population；

PE_j＝M_Population×N_PM2.5

2.根据权利要求1所述的城市内部PM2.5浓度模拟和人口暴露度评估方法，其特征在于，

3.根据权利要求1所述的城市内部PM2.5浓度模拟和人口暴露度评估方法，其特征在于，建成环境数据包括土地利用混合度、居住区面积、人口平均密度、绿地面积、道路交叉口、水体面积和餐饮数量。

4.根据权利要求3所述的城市内部PM2.5浓度模拟和人口暴露度评估方法，其特征在于，土地利用混合度

5.根据权利要求4所述的城市内部PM2.5浓度模拟和人口暴露度评估方法，其特征在于，

POI类型为居住用地、公共管理与公共服务用地、商业服务业设施用地、工业用地、物流仓储用地、道路与交通设施用地、公用设施用地或者绿地与广场用地。

6.根据权利要求1所述的城市内部PM2.5浓度模拟和人口暴露度评估方法，其特征在于，步骤S3中预测的精度采用十倍交叉验证和均方误差的值、均方根误差的值进行对比验证。

7.根据权利要求1所述的城市内部PM2.5浓度模拟和人口暴露度评估方法，其特征在于，经过步骤S3的检验后，还通过随机森林模型对不同种类的建成环境对PM2.5浓度的重要性进行检测和排序。

8.根据权利要求1所述的城市内部PM2.5浓度模拟和人口暴露度评估方法，其特征在于，S4步骤中根据人均住房建筑面积数据，结合居住区楼层高度和底面积对居住区中的人口数量估测：

9.根据权利要求1所述的城市内部PM2.5浓度模拟和人口暴露度评估方法，其特征在于，还包括将步骤S5中得到人口暴露度值根据居住区位置标识到地图上以进行空间可视化的步骤。

10.一种城市内部PM2.5浓度模拟和人口暴露度评估装置，其特征在于，包括：

人口数量获取模块：用于统计或者估算居住区中的人口数量M_Population；

PE_j＝M_Population×N_PM2.5