CN111461163A - 城市内部pm2.5浓度模拟和人口暴露度评估方法和装置 - Google Patents
城市内部pm2.5浓度模拟和人口暴露度评估方法和装置 Download PDFInfo
- Publication number
- CN111461163A CN111461163A CN202010116723.3A CN202010116723A CN111461163A CN 111461163 A CN111461163 A CN 111461163A CN 202010116723 A CN202010116723 A CN 202010116723A CN 111461163 A CN111461163 A CN 111461163A
- Authority
- CN
- China
- Prior art keywords
- area
- population
- concentration
- data
- residential
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004088 simulation Methods 0.000 title claims description 20
- 238000011156 evaluation Methods 0.000 title claims description 9
- 238000007637 random forest analysis Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012544 monitoring process Methods 0.000 claims description 59
- 238000012549 training Methods 0.000 claims description 37
- 230000001419 dependent effect Effects 0.000 claims description 7
- 230000007613 environmental effect Effects 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012800 visualization Methods 0.000 claims description 5
- 231100000727 exposure assessment Toxicity 0.000 claims 7
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000288113 Gallirallus australis Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000443 aerosol Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种城市内部PM2.5浓度模拟和人口暴露度评估方法和装置,先建立缓冲区,通过缓冲区以随机森林模型模拟预测居住区的PM2.5浓度,并将预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度,以保证PM2.5浓度预测的准确性,本申请的城市内部PM2.5浓度模拟和人口暴露度评估方法和装置具有预测结果准确,适用性高的优点。
Description
技术领域
本发明涉及地理信息技术和大数据分析领域,特别涉及一种基于 土地利用随机森林(land use random forest,LURF)模型和地理空间 大数据的城市内部PM2.5浓度模拟和人口暴露度评估方法和装置。
背景技术
目前,地面PM2.5监测站、遥感卫星影像、PM2.5地面监测站和 遥感影像的混合模型、LUR模型广泛应用于地表PM2.5的浓度模拟。 但是地面PM2.5监测站分布稀疏,并不能完全揭示PM2.5浓度的空 间异质性,导致内城PM2.5模拟的精度相对较低。遥感影像的气溶胶数据分辨率较低,亦不能应用于微观尺度层面。PM2.5地面监测站和 遥感影像的混合模型在一定程度上减少了粗糙度,但是不能体现出特 定地区时间的连续性,两者存在同一时间上的空间不一致性。LUR模 型广泛用于城市市域尺度,主要依赖于PM2.5浓度与其他自变量的高 度重要性和逐步回归模型,而自变量也会产生不稳定的模型估计和方 差膨胀,也不能解释所有变量对PM2.5的重要性,以及每个变量对 PM2.5的贡献度。居住区尺度的人口估算是污染物人口暴露的关键。 现有技术对居住区尺度的人口测算主要采用人口经济普查和调查问 卷等数据,这些普查数据时间周期较长,花费成本较高。近年来随着 机器学习和大数据的发展和应用,为城市内部的PM2.5浓度模拟和人 口暴露评估提供了条件。
发明内容
本发明的主要目的是提供一种基于随机森林模型和地理空间大 数据的城市内部PM2.5浓度模拟和人口暴露评估方法,能从微观上较 为准确的模拟城市内部的PM2.5和人口暴露评估。
本发明所采用的技术方案是:
一种城市内部PM2.5浓度模拟和人口暴露度评估方法,包括以下 步骤:
S1:获得特定区域内PM2.5浓度监测数据,获取的数据包括特定 区域所在城市、监测点的经度、监测点的纬度和监测点检测到的 PM2.5浓度值,以监测点为中心设定第一缓冲区域,将第一缓冲区域 标定为监测点相同的PM2.5浓度值,获取第一缓冲区域内的建成环境 数据,以PM2.5浓度值作为因变量,建成环境数据作为自变量作为训 练数据输入到随机森林模型中进行训练;
S2:以特定区域中的居住区为中心设定步骤S1中第一缓冲区域 大小相同的第二缓冲区域,获取第二缓冲区域内的建成环境数据,将 第二缓冲区域内的建成环境数据输入到步骤S1中训练得到的随机森 林模型中预测得到居住区的PM2.5浓度;
S3:将预测得到的居住区的PM2.5浓度与居住区中实际测得的 PM2.5的值进行比较确定预测的精度,当精度大于设定的阈值时则进 入步骤S4,否则,则返回步骤S1中调整第一缓冲区域大小或者调整 建成环境数据的种类;
S4:统计或者估算居住区中的人口数量MPopulation;
S5:根据居住区内的人口数量和居住区的PM2.5浓度值进行人口 暴露强度的计算,人口暴露强度为:
PEj=MPopulation×NPM2.5
其中,PEj为j居住区的人口暴露强度;MPopulation为居住区的人 口数;NPM2.5为居住区的PM2.5浓度值。
优选地,本发明的城市内部PM2.5浓度模拟和人口暴露度评估方 法,
步骤S1中设定若干不同大小的第一缓冲区域和/或选取不同种类 和数量的建成环境数据,以训练得到若干个不同的随机森林模型;
步骤S2中第二缓冲区域也被设定成与第一缓冲区域对应大小的 若干个,建成环境数据的种类和数量也与步骤S1中的建成环境数据 相同;
步骤S3中将所有随机森林模型预测得到的居住区的PM2.5浓度 与居住区中实际测得的PM2.5的值进行比较确定预测的精度,筛选出 精度最高的随机森林模型。
优选地,本发明的城市内部PM2.5浓度模拟和人口暴露度评估方 法,建成环境数据包括土地利用混合度、居住区面积、人口平均密度、 绿地面积、道路交叉口、水体面积和餐饮数量。
其中,Vj为区域单元范围j中的土地利用混合度,Mij为区域单元 范围j中i类POI类型所占的比例,Nj为区域单元范围j中POI类型的 数量。
优选地,本发明的城市内部PM2.5浓度模拟和人口暴露度评估方 法,POI类型为居住用地、公共管理与公共服务用地、商业服务业设 施用地、工业用地、物流仓储用地、道路与交通设施用地、公用设施 用地或者绿地与广场用地。
优选地,本发明的城市内部PM2.5浓度模拟和人口暴露度评估方 法,步骤S3中预测的精度采用十倍交叉验证和均方误差的值、均方 根误差的值进行对比验证。
优选地,本发明的城市内部PM2.5浓度模拟和人口暴露度评估方 法,经过步骤S3的检验后,还通过随机森林模型对不同种类的建成 环境对PM2.5浓度的重要性进行检测和排序。
优选地,本发明的城市内部PM2.5浓度模拟和人口暴露度评估方 法,S4步骤中根据人均住房建筑面积数据,结合居住区楼层高度和 底面积对居住区中的人口数量估测:
其中,MPopulation为居住区的人口数,F为楼层层数,S为建筑的 底面积,Harea为人均住房建筑面积。
优选地,本发明的城市内部PM2.5浓度模拟和人口暴露度评估方 法,还包括将步骤S5中得到人口暴露度值根据居住区位置标识到地 图上以进行空间可视化的步骤。
本发明还包括一种城市内部PM2.5浓度模拟和人口暴露度评估 装置,包括:
模型训练模块:用于获得特定区域内PM2.5浓度监测数据,获取 的数据包括特定区域所在城市、监测点的经度、监测点的纬度和监测 点检测到的PM2.5浓度值,以监测点为中心设定第一缓冲区域,将第 一缓冲区域标定为监测点相同的PM2.5浓度值,获取第一缓冲区域内 的建成环境数据,以PM2.5浓度值作为因变量,建成环境数据作为自 变量作为训练数据输入到随机森林模型中进行训练;
数据预测模块:用于以特定区域中的居住区为中心设定模型训练 模块中第一缓冲区域大小相同的第二缓冲区域,获取第二缓冲区域内 的建成环境数据,将第二缓冲区域内的建成环境数据输入到模型训练 模块中训练得到的随机森林模型中预测得到居住区的PM2.5浓度;
精度筛查模块:用于将预测得到的居住区的PM2.5浓度与居住区 中实际测得的PM2.5的值进行比较确定预测的精度,当精度大于设定 的阈值时则进入人口数量获取模块,否则,则返回模型训练模块中调 整第一缓冲区域大小或者调整建成环境数据的种类;
人口数量获取模块:用于统计或者估算居住区中的人口数量 MPopulation;
人口暴露强度计算模块:用于根据居住区内的人口数量和居住区 的PM2.5浓度值进行人口暴露强度的计算,人口暴露强度为:
PEj=MPopulation×NPM2.5
其中,PEj为j居住区的人口暴露强度;MPopulation为居住区的人 口数;NPM2.5为居住区的PM2.5浓度值。
本发明的有益效果是:
本申请的城市内部PM2.5浓度模拟和人口暴露度评估方法和装 置,先建立缓冲区,通过缓冲区以随机森林模型模拟预测居住区的 PM2.5浓度,并将预测得到的居住区的PM2.5浓度与居住区中实际测 得的PM2.5的值进行比较确定预测的精度,以保证PM2.5浓度预测 的准确性,本申请的城市内部PM2.5浓度模拟和人口暴露度评估方法 和装置具有预测结果准确,适用性高的优点。
附图说明
下面结合附图和实施例对本申请的技术方案进一步说明。
图1为本发明实施例中城市内部PM2.5浓度模拟和人口暴露度评 估方法的流程图;
图2为本发明实施例中POI数据分布的类型和数量结果图;
图3为本发明实施例中社区尺度的人口数量估测结果图;
图4为本发明实施例中土地利用随机森林回归模型模拟城市内 部PM2.5浓度结果图;
图5为本发明实施例中建成环境对PM2.5贡献度的重要性测度结 果图;
图6为本发明实施例中土地利用随机森林模型预测的精度验证 结果图;
图7为本发明实施例中居住区的人口暴露度可视化图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例 中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本申请的技术方案。
实施例1
本实施例提供一种城市内部PM2.5浓度模拟和人口暴露度评估 方法,如图1所示,包括以下步骤:
S1:获得特定区域内PM2.5浓度监测数据,获取的数据包括特定 区域所在城市、监测点的经度、监测点的纬度和监测点检测到的 PM2.5浓度值,以监测点为中心设定第一缓冲区域,将第一缓冲区域 标定为监测点相同的PM2.5浓度值,获取第一缓冲区域内的建成环境 数据,以PM2.5浓度值作为因变量,建成环境数据作为自变量作为训 练数据输入到随机森林模型中进行训练;每个特定区域(比如一座城 市)会有很多监测点,每个监测点都会设定圆形的第一缓冲区域,使 整座城市尽量被第一缓冲区域覆盖,但是,由于监测点毕竟有限,很 多区域没有办法全面覆盖,通过下面的步骤就是为了将未覆盖区域也 预测出其PM2.5的值,如果某个地点被两个以上的第一缓冲区域所覆 盖,那该地点可以取多个监测点监测数据的平均值,但通过调整第一 缓冲区域大小尽可能地避免第一缓冲区域重叠;第一缓冲区域可以设 定为2000m、1000m、800m、500m、300m等等。
PM2.5浓度监测数据可以通过Python语言在全国空气质量监测 数据网站上获得所在区域PM2.5浓度监测数据,获取的属性包括城市、 监测点名称、监测点编码、经度、纬度和PM2.5浓度值。
S2:以特定区域中的居住区为中心设定S1步骤中第一缓冲区域 大小相同的第二缓冲区域,获取第二缓冲区域内的建成环境数据,将 第二缓冲区域内的建成环境数据输入到S1步骤中训练得到的随机森 林模型中预测得到居住区的PM2.5浓度;
建成环境数据包括土地利用混合度、居住区面积、人口平均密度、 绿地面积、道路交叉口、水体面积和餐饮数量。
土地利用混合度以熵值表示:
其中,Vj为区域单元范围j中的土地利用混合度,Mij为区域单元 范围j中i类POI类型所占的比例,Nj为区域单元范围j中POI类型的 数量。
土地利用类型/POI类型为居住用地、公共管理与公共服务用地、 商业服务业设施用地、工业用地、物流仓储用地、道路与交通设施用 地、公用设施用地或者绿地与广场用地(根据2012年起实施的《城 市用地分类与规划建设用地标准》划分)。土地利用混合度数据中, 可以基于网络地图开发平台,采用Python语言编写的程序,获取所 在区域的POIs数据集,POI(Point of Interest)是在空间上显示各种设施 的点,根据POIs数据集确定每类土地面积所占的比例。
在居住区数据中,同样,基于网络地图开发平台,采用Python 编写的程序,获取了所在区域的居住区围栏数据,并和所在区域的规 划图进行对照增补,确定居住区范围和面积。
在人口平均密度数据中,根据人均住房建筑面积,结合获取的居 住区楼层高度和底面积进行估算得到。
绿地面积数据,绿地使用遥感影像数据进行监督分类提取得到, 通过ENVI5.3软件进行提取每个缓冲区的绿地面积。
道路交叉口数据,可以提取所在区域的道路矢量数据,包括国道、 省道、行人道路、市区一级道路、市区二级道路、县道、乡道和其他 道路,根据Arcgis10.3软件进行道路交叉口相交提取获得。
水体面积数据,水体面积的提取采用高精度卫星影像进行人工矢 量化识别提取,通过ENVI5.3进行提取每个缓冲区的水体面积。
餐饮数据,可基于网络地图开发平台,采用Python编写的程序, 获取了所在区域的餐饮点数据。
随机森林是一种机器学习算法,能够对相关分类或回归树进行统 计预测,也能处理非线性关系和交互作用的效果。随机森林模型相比 传统统计方法(如:一般线性回归模型和普通克里金插值等),有较好 的预测性能。随机森林模型能够捕捉预测因子与小样本训练数据之间 复杂的非线性关系,因此,土地利用模型和随机森林回归模型的结合, 能够提高土地利用模型的准确性和精密度,从而更好的模拟PM2.5 的浓度值。随机森林回归模型采用R语言编写的程序进行模拟,设定 ntree=1000,mtry=6。PM2.5模拟的空间数据分析用Arcgis10.3执行。
S3:将预测得到的居住区的PM2.5浓度与居住区中实际测得的 PM2.5的值进行比较确定预测的精度,当精度大于设定的阈值时则进 入步骤S4,否则,则返回步骤S1步骤调整第一缓冲区域大小或者调 整建成环境数据的种类;(居住区中实际测得的PM2.5的值是指被 某个监测点为中心设定的第一缓冲区域所覆盖的居住区,以该监测点 数据为该居住区中实际测得的PM2.5的值,本步骤中,进行精度验证, 选取的居住区一定要被某个监测点为中心设定的第一缓冲区域所覆 盖)
随机森林模型(LURF)预测的精度验证。采用十倍交叉验证和均 方误差的值、均方根误差的值进行对比验证。对于十倍交叉验证,基 于Weka开源机器学习平台或Python语言进行执行。
均方误差(MSE)值的大小,可以用来表示PM2.5浓度的预测值和 PM2.5实际监测数据的精度程度。MSE的值越小说明预测模型解释能 力越好,反之越差。
其中,N是样本个数,Pn表示模型模拟后PM2.5的预测值,Mn表 示PM2.5的实际监测值。
而均方根误差(RMSE)是均方误差的算术平方根,其表达式为:
S4:根据人均住房建筑面积数据,结合居住区楼层高度和底面积 对居住区中的人口数量估测:
其中,MPopulation为居住区的人口数,F为楼层层数,S为建筑的 底面积,Harea为人均住房建筑面积;人口数量也可以根据统计数据 直接得到;
S5:根据居住区内的人口数量,和居住区的PM2.5浓度值进行人 口暴露强度的计算,人口暴露强度为:
PEj=MPopulation×NPM2.5
其中,PEj为j居住区的人口暴露强度;MPopulation为居住区的 人口数;NPM2.5为居住区的PM2.5浓度值。
经过步骤S3的检验后,还通过随机森林模型对不同种类的建成 环境对PM2.5浓度的重要性进行检测和排序。对不同种类的建成环境 进行重要性排序可以明确是何种的建成环境更加影响PM2.5浓度。在 随机森林模型中的相对重要性(Im)是根据该变量用于分裂的次数和相 关的平方误差减少来评估的,在对相对重要性值进行按比例划分。所 有变量的重要性按照从上到下顺序排列,横轴代表重要性的大小。
还包括将步骤S5中得到人口暴露度值根据居住区位置标识到地 图上以进行空间可视化的步骤,生成各种可视化图形以便于更好地表 示出人口暴露度值的分布。
本实施例还提供一种城市内部PM2.5浓度模拟和人口暴露度评 估装置,包括:
模型训练模块:用于获得特定区域内PM2.5浓度监测数据,获取 的数据包括特定区域所在城市、监测点的经度、监测点的纬度和监测 点检测到的PM2.5浓度值,以监测点为中心设定第一缓冲区域,将第 一缓冲区域标定为监测点相同的PM2.5浓度值,获取第一缓冲区域内 的建成环境数据,以PM2.5浓度值作为因变量,建成环境数据作为自 变量作为训练数据输入到随机森林模型中进行训练;
数据预测模块:用于以特定区域中的居住区为中心设定模型训练 模块中第一缓冲区域大小相同的第二缓冲区域,获取第二缓冲区域内 的建成环境数据,将第二缓冲区域内的建成环境数据输入到模型训练 模块中训练得到的随机森林模型中预测得到居住区的PM2.5浓度;
精度筛查模块:用于将预测得到的居住区的PM2.5浓度与居住区 中实际测得的PM2.5的值进行比较确定预测的精度,当精度大于设定 的阈值时则进入人口数量获取模块,否则,则返回模型训练模块中调 整第一缓冲区域大小或者调整建成环境数据的种类;
人口数量获取模块:用于统计或者估算居住区中的人口数量 MPopulation;
人口暴露强度计算模块:用于根据居住区内的人口数量和居住区 的PM2.5浓度值进行人口暴露强度的计算,人口暴露强度为:
PEj=MPopulation×NPM2.5
其中,PEj为j居住区的人口暴露强度;MPopulation为居住区的 人口数;NPM2.5为居住区的PM2.5浓度值。
人口暴露强度是有PM2.5浓度值和人口密度共同作用产生的,人 类活动的影响产生了PM2.5,同时,PM2.5又反作用于人类,对人类 的健康生活产生威胁。
对于城市内城的人口暴露而言(如图7),尤其是老城区,紧凑的 城市形态结构布局,城市内部人口密度大,人类活动影响较为剧烈, 道路车辆拥挤,更容易产生PM2.5,人口暴露存在较大风险,因此, 要发展多中心的城市结构,平衡城市内部人口密度,疏解交通流,缓 解机动车尾气排放对PM2.5的影响。
实施例2
本实施例提供一种城市内部PM2.5浓度模拟和人口暴露度评估 方法,如图2所示,包括以下步骤:
S1:获得特定区域内PM2.5浓度监测数据,获取的数据包括特定 区域所在城市、监测点的经度、监测点的纬度和监测点检测到的 PM2.5浓度值,以监测点为中心设定若干不同大小的第一缓冲区域, 将第一缓冲区域标定为监测点相同的PM2.5浓度值,获取第一缓冲区 域内的建成环境数据,以PM2.5浓度值作为因变量,建成环境数据作 为自变量作为训练数据输入到若干个随机森林模型中进行训练;
S2:以特定区域中的居住区为中心设定S1步骤中第一缓冲区域 大小对应的若干不同大小的第二缓冲区域,获取第二缓冲区域内的建 成环境数据,将第二缓冲区域内的建成环境数据输入到S1步骤中对 应的随机森林模型中预测得到居住区的PM2.5浓度;
S3:将预测得到的居住区的PM2.5浓度与居住区中实际测得的 PM2.5的值进行比较确定预测的精度,晒选出精度最大时的随机森林 模型;
S1-S3步骤中,也可以调整建成环境数据种类和数量来训练得到 不同的随机森林模型;
S4:根据人均住房建筑面积数据,结合居住区楼层高度和底面积 对居住区中的人口数量估测:
其中,MPopulation为居住区的人口数,F为楼层层数,S为建筑的 底面积,Harea为人均住房建筑面积;
S5:根据居住区内的人口数量,和居住区的PM2.5值进行人口暴 露强度的计算,人口暴露强度为:
PEj=MPopulation×NPM2.5
其中,PEj为j居住区的人口暴露强度;MPopulation为居住区的 人口数;NPM2.5为精度最大的随机森林模型所预测的居住区的PM2.5 浓度值。
随机森林模型(LURF)预测的精度验证:
比较了春季两种模型的精度(如图6),LUR模型和LURF模型预测 的PM2.5浓度和实际观测值的R2分别为0.64和0.5071,而LUR模型 和LURF模型预测的PM2.5浓度和实际观测值的MSE和RMSE也分别 为164.75、132.07和12.83、11.49,尽管LUR模型的R2比LURF模型 的R2高,而LURF模型的MSE和RMSE都要比LUR模型低很多。在 样本量中,LURF模型有较好的精度,适用性也更广泛。
在十倍交叉验证春季PM2.5浓度准确性上,如表1所示,LUR模 型十倍交叉验证和LURF模型十倍交叉验证的相关系数分别是0.9639 和0.956,而在平均绝对误差和均方根误差方面,LURF模型都比LUR 模型要低,也说明LURF模型在预测PM2.5浓度方面有较高精确性。
表1 LUR模型和LURF模型的十倍交叉验证比较
从上图可以使用随机森林模型本身的模型精度仅更准确,再通过 步骤S3的阈值筛选,或者通过对比精度筛选出精度最高的模型的方 式,可以进一步提高模型的准确性,使得
以上述依据本申请的理想实施例为启示,通过上述的说明内容, 相关工作人员完全可以在不偏离本项申请技术思想的范围内,进行多 样的变更以及修改。本项申请的技术性范围并不局限于说明书上的内 容,必须要根据权利要求范围来确定其技术性范围。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系 统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全 软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请 可采用在一个或多个其中包含有计算机可用程序代码的计算机可用 存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上 实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算 机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序 指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图 和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指 令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理 设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处 理设备的处理器执行的指令产生用于实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数 据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计 算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实 现在流程图一个流程或多个流程和/或方框图一个方框或多个方框 中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理 设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产 生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令 提供用于实现在流程图一个流程或多个流程和/或方框图一个方框 或多个方框中指定的功能的步骤。
Claims (10)
1.一种城市内部PM2.5浓度模拟和人口暴露度评估方法,其特征在于,包括以下步骤:
S1:获得特定区域内PM2.5浓度监测数据,获取的数据包括特定区域所在城市、监测点的经度、监测点的纬度和监测点检测到的PM2.5浓度值,以监测点为中心设定第一缓冲区域,将第一缓冲区域标定为监测点相同的PM2.5浓度值,获取第一缓冲区域内的建成环境数据,以PM2.5浓度值作为因变量,建成环境数据作为自变量作为训练数据输入到随机森林模型中进行训练;
S2:以特定区域中的居住区为中心设定步骤S1中第一缓冲区域大小相同的第二缓冲区域,获取第二缓冲区域内的建成环境数据,将第二缓冲区域内的建成环境数据输入到步骤S1中训练得到的随机森林模型中预测得到居住区的PM2.5浓度;
S3:将预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度,当精度大于设定的阈值时则进入步骤S4,否则,则返回步骤S1中调整第一缓冲区域大小或者调整建成环境数据的种类;
S4:统计或者估算居住区中的人口数量MPopulation;
S5:根据居住区内的人口数量和居住区的PM2.5浓度值进行人口暴露强度的计算,人口暴露强度为:
PEj=MPopulation×NPM2.5
其中,PEj为j居住区的人口暴露强度;MPopulation为居住区的人口数;NPM2.5为居住区的PM2.5浓度值。
2.根据权利要求1所述的城市内部PM2.5浓度模拟和人口暴露度评估方法,其特征在于,
步骤S1中设定若干不同大小的第一缓冲区域和/或选取不同种类和数量的建成环境数据,以训练得到若干个不同的随机森林模型;
步骤S2中第二缓冲区域也被设定成与第一缓冲区域对应大小的若干个,建成环境数据的种类和数量也与步骤S1中的建成环境数据相同;
步骤S3中将所有随机森林模型预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度,筛选出精度最高的随机森林模型。
3.根据权利要求1所述的城市内部PM2.5浓度模拟和人口暴露度评估方法,其特征在于,建成环境数据包括土地利用混合度、居住区面积、人口平均密度、绿地面积、道路交叉口、水体面积和餐饮数量。
5.根据权利要求4所述的城市内部PM2.5浓度模拟和人口暴露度评估方法,其特征在于,
POI类型为居住用地、公共管理与公共服务用地、商业服务业设施用地、工业用地、物流仓储用地、道路与交通设施用地、公用设施用地或者绿地与广场用地。
6.根据权利要求1所述的城市内部PM2.5浓度模拟和人口暴露度评估方法,其特征在于,步骤S3中预测的精度采用十倍交叉验证和均方误差的值、均方根误差的值进行对比验证。
7.根据权利要求1所述的城市内部PM2.5浓度模拟和人口暴露度评估方法,其特征在于,经过步骤S3的检验后,还通过随机森林模型对不同种类的建成环境对PM2.5浓度的重要性进行检测和排序。
9.根据权利要求1所述的城市内部PM2.5浓度模拟和人口暴露度评估方法,其特征在于,还包括将步骤S5中得到人口暴露度值根据居住区位置标识到地图上以进行空间可视化的步骤。
10.一种城市内部PM2.5浓度模拟和人口暴露度评估装置,其特征在于,包括:
模型训练模块:用于获得特定区域内PM2.5浓度监测数据,获取的数据包括特定区域所在城市、监测点的经度、监测点的纬度和监测点检测到的PM2.5浓度值,以监测点为中心设定第一缓冲区域,将第一缓冲区域标定为监测点相同的PM2.5浓度值,获取第一缓冲区域内的建成环境数据,以PM2.5浓度值作为因变量,建成环境数据作为自变量作为训练数据输入到随机森林模型中进行训练;
数据预测模块:用于以特定区域中的居住区为中心设定模型训练模块中第一缓冲区域大小相同的第二缓冲区域,获取第二缓冲区域内的建成环境数据,将第二缓冲区域内的建成环境数据输入到模型训练模块中训练得到的随机森林模型中预测得到居住区的PM2.5浓度;
精度筛查模块:用于将预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度,当精度大于设定的阈值时则进入人口数量获取模块,否则,则返回模型训练模块中调整第一缓冲区域大小或者调整建成环境数据的种类;
人口数量获取模块:用于统计或者估算居住区中的人口数量MPopulation;
人口暴露强度计算模块:用于根据居住区内的人口数量和居住区的PM2.5浓度值进行人口暴露强度的计算,人口暴露强度为:
PEj=MPopulation×NPM2.5
其中,PEj为j居住区的人口暴露强度;MPopulation为居住区的人口数;NPM2.5为居住区的PM2.5浓度值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010116723.3A CN111461163B (zh) | 2020-02-25 | 2020-02-25 | 城市内部pm2.5浓度模拟和人口暴露度评估方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010116723.3A CN111461163B (zh) | 2020-02-25 | 2020-02-25 | 城市内部pm2.5浓度模拟和人口暴露度评估方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111461163A true CN111461163A (zh) | 2020-07-28 |
CN111461163B CN111461163B (zh) | 2023-03-24 |
Family
ID=71685059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010116723.3A Active CN111461163B (zh) | 2020-02-25 | 2020-02-25 | 城市内部pm2.5浓度模拟和人口暴露度评估方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111461163B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114166708A (zh) * | 2021-11-25 | 2022-03-11 | 泛测(北京)环境科技有限公司 | 颗粒物传输贡献分析方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100305913A1 (en) * | 2009-05-29 | 2010-12-02 | Johnson Daniel P | Method of modeling the socio-spatial dynamics of extreme urban heat events |
CN108871286A (zh) * | 2018-04-25 | 2018-11-23 | 中国科学院遥感与数字地球研究所 | 空间大数据协同的城市建成区人口密度估算方法和系统 |
WO2018214060A1 (zh) * | 2017-05-24 | 2018-11-29 | 北京质享科技有限公司 | 一种城市小尺度空气质量指数预测方法与系统 |
CN110766257A (zh) * | 2018-07-28 | 2020-02-07 | 华中科技大学 | 一种评估人群空气污染物短期暴露浓度的方法 |
-
2020
- 2020-02-25 CN CN202010116723.3A patent/CN111461163B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100305913A1 (en) * | 2009-05-29 | 2010-12-02 | Johnson Daniel P | Method of modeling the socio-spatial dynamics of extreme urban heat events |
WO2018214060A1 (zh) * | 2017-05-24 | 2018-11-29 | 北京质享科技有限公司 | 一种城市小尺度空气质量指数预测方法与系统 |
CN108871286A (zh) * | 2018-04-25 | 2018-11-23 | 中国科学院遥感与数字地球研究所 | 空间大数据协同的城市建成区人口密度估算方法和系统 |
CN110766257A (zh) * | 2018-07-28 | 2020-02-07 | 华中科技大学 | 一种评估人群空气污染物短期暴露浓度的方法 |
Non-Patent Citations (3)
Title |
---|
肖荣波等: "城市规划中人口空间分布模拟方法研究", 《中国人口.资源与环境》 * |
许刚等: "土地利用回归模型模拟京津冀PM_(2.5)浓度空间分布", 《干旱区资源与环境》 * |
钟佩等: "土地利用回归模型在大气NO_2浓度空间分布模拟中的应用", 《环境与健康杂志》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114166708A (zh) * | 2021-11-25 | 2022-03-11 | 泛测(北京)环境科技有限公司 | 颗粒物传输贡献分析方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111461163B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Aburas et al. | Land suitability analysis of urban growth in Seremban Malaysia, using GIS based analytical hierarchy process | |
Saxena et al. | Land suitability and urban growth modeling: Development of SLEUTH-Suitability | |
Elbir | A GIS based decision support system for estimation, visualization and analysis of air pollution for large Turkish cities | |
Nong et al. | Urban growth pattern modeling using logistic regression | |
Dias et al. | Modelling of human exposure to air pollution in the urban environment: a GPS-based approach | |
Saxena et al. | Capturing heterogeneous urban growth using SLEUTH model | |
Liu et al. | A generalized framework for measuring pedestrian accessibility around the world using open data | |
CN110428104A (zh) | 一种污染贡献率确定方法、装置、电子设备及存储介质 | |
Piersanti et al. | Spatial representativeness of air quality monitoring stations: a grid model based approach | |
CN110348746B (zh) | 基于单个污染源的空气质量影响评估方法和装置 | |
Tayyebi et al. | A spatial logistic regression model for simulating land use patterns: a case study of the Shiraz Metropolitan area of Iran | |
Ghassoun et al. | Land use regression models for total particle number concentrations using 2D, 3D and semantic parameters | |
González et al. | Drove: an algorithm for spatial and temporal disaggregation of on-road vehicle emission inventories | |
Mileu et al. | Development of a QGIS plugin to dasymetric mapping | |
Lange et al. | Machine-learning models to replicate large-eddy simulations of air pollutant concentrations along boulevard-type streets | |
CN112148821B (zh) | 一种城市混合职住空间计算方法和系统 | |
CN111461163B (zh) | 城市内部pm2.5浓度模拟和人口暴露度评估方法和装置 | |
Santos et al. | A proposed methodology for the assessment of arsenic, nickel, cadmium and lead levels in ambient air | |
Moral et al. | Mapping and hazard assessment of atmospheric pollution in a medium sized urban area using the Rasch model and geostatistics techniques | |
Borowska-Stefańska et al. | The Effect of COVID-19 Pandemic on Emitted PM2. 5 in Urban Road Networks: Using Loop Data and Kriging Method for Passenger Cars in the Central Part of the City of Lodz | |
Sartini et al. | From emissions to source allocation: Synergies and trade-offs between top-down and bottom-up information | |
Paegelow | Impact and integration of multiple training dates for Markov based land change modeling | |
CN115712978A (zh) | 基于数值模拟与人口数据的选址数据处理方法及系统 | |
Alçada-Almeida et al. | Interactive multicriteria decision support system for spatial planning analysis | |
Millar et al. | Evaluating human exposure to fine particulate matter part II: Modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |