CN113392585B - 一种污染地块周边敏感人群空间化方法 - Google Patents
一种污染地块周边敏感人群空间化方法 Download PDFInfo
- Publication number
- CN113392585B CN113392585B CN202110646086.5A CN202110646086A CN113392585B CN 113392585 B CN113392585 B CN 113392585B CN 202110646086 A CN202110646086 A CN 202110646086A CN 113392585 B CN113392585 B CN 113392585B
- Authority
- CN
- China
- Prior art keywords
- data
- population
- spatialization
- land
- grid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000007637 random forest analysis Methods 0.000 claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 238000006243 chemical reaction Methods 0.000 claims abstract description 12
- 238000010276 construction Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 14
- 238000012952 Resampling Methods 0.000 claims description 12
- 238000003066 decision tree Methods 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 4
- 238000009960 carding Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 16
- 238000011835 investigation Methods 0.000 abstract description 4
- 238000011160 research Methods 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000011161 development Methods 0.000 description 8
- 230000007613 environmental effect Effects 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004308 accommodation Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000002440 industrial waste Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Human Resources & Organizations (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Remote Sensing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种污染地块周边敏感人群空间化方法,包括以下步骤:首先收集夜间灯光数据、土地利用数据、DEM数据、POI数据、污染地块点位数据、统计人口数据、县级行政区划边界数据等;然后基于地理信息技术和遥感影像解译技术,对收集的数据进行预处理,包括格式转换、重分类、坐标转换等;其次,获得上述数据的衍生特征,输入随机森林模型,计算人口空间化结果,从而实现人口的空间化;最后基于空间化的人口数据,反算得到污染地块周边敏感人群数量。本发明完善了我国传统上结合人工调查完成的模式,极大节约了人口数据获取的成本;解决了行政单元边界与研究场景单元不同的问题,即“可变面状单元问题”;提高了传统空间分辨率低的问题。
Description
技术领域
本发明涉及一种空间化方法,尤其涉及一种污染地块周边敏感人群空间化方法。
背景技术
随着地理信息产业的成熟,地理信息技术发展迅速,为我国经济社会发展信息化建设提供了重要支撑。地理信息技术与互联网、大数据等的深度融合,释放出巨大的发展潜力。地理信息技术在在政府部门管理和决策系统、数字城市、智慧城市、智慧交通等领域发挥着越来越重要的基础作用。此外,遥感作为一门新兴的技术,目前也已深入应用到人类的工作和生活中,在农业、林业、地质、地理、海洋、水文、气象、测绘、环境保护和军事侦察等许多领域发挥越来越重要的作用,为人类认识国土、开发资源、监测环境、研究灾害以及环境保护提供了新途径,为解决人类面临的资源紧缺、环境恶化、人口剧增、灾害频发等一系列严峻挑战提供重要信息。遥感数据的空间分辨率已经从公里级发展到亚米级,重复观测频率从月周期发展到几小时,光谱分辨率从多波段发展到超光谱,遥感数据获取技术正走向实时化和精确化。总之,地理信息技术和遥感技术的突飞猛进,给人口数据空间化方法的提升也带来了新的发展机遇。
环境问题和人口问题都是经济和社会发展的重要关注点。随着我国城市工业废弃用地数量增多,废弃用地形成污染地块的概率显著增加,而城市人口规模增长对于用地数量的需求也日益增长,城市人口受潜在污染的影响并没有因工厂废弃而有所减少。并且同时,随着城市工业企业逐渐外迁至城郊,潜在的污染风险又转移给了城镇人口。因此,无论是城市人口还是城镇人口,所面临的环境问题和发展问题都并不轻松。也因此,聚焦于污染地块识别其周边敏感人群就十分重要且有意义。
目前,人口调查依然是我国实现人口信息统计和分析的主要渠道。并且,每年主要以各级行政单位为单元来公开发布人口数据。在我国城镇化进程的飞速发展的形势下,无论是人口增长对于生态环境造成的承载力降低问题,还是环境污染问题威胁压缩人口生存空间的问题,都不容忽视。也因此,对于城市和城镇人口的精细化管理也提出了更高要求。当前存在着严重依赖人口调查方法而导致的费时费力、更新缓慢等系列问题,尤其是,在大量的流动人口出现的情况下,如何准确刻画出污染地块周边敏感人群的空间特征,并且能够情景模拟出其变化情况,是目前所要解决的技术难点。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种污染地块周边敏感人群空间化方法。
为了解决以上技术问题,本发明采用的技术方案是:一种污染地块周边敏感人群空间化方法,包括以下步骤:
步骤S1、收集多源地理大数据;
步骤S2、数据预处理;
步骤S3、构建模型特征库;
步骤S4、模型构建;
步骤S5、精度验证;
步骤S6、污染地块周边敏感人群计算及结果验证。
优选的,步骤S1中收集的地理大数据包括夜间灯光数据、土地利用数据、DEM数据、POI数据、污染地块点位数据、统计人口数据、县级行政区划边界数据。
优选的,步骤S2中,夜间灯光数据预处理包括数据的异常值删除以及对年份的月数据求均值得到最终建模使用的夜光遥感数据,具体步骤如下:
首先要经过拼接与裁剪,重采样为30m*30m;
然后进行坐标系转换,转换为阿尔伯特坐标系;
最后对处理好的夜间灯光数据进行提取,并把提取的多维特征加入地理格网。
优选的,步骤S2中,土地利用数据预处理的具体步骤为:
首先利用ENVI进行数据的拼接、裁剪、投影;
然后通过计算机辅助解译和人工修改提取出统计地区的利用数据;
最后进行重采样和坐标转换,将空间分辨率转化为30m*30m尺度,同时把地理坐标转换为阿尔伯特坐标系。
优选的,步骤S2中,DEM数据预处理的具体步骤为:
首先从前述已收集的地理大数据中提取垂视和后视图像;
然后定义输出DEM的参数,参数是用来控制DEM的投影方式、分辨率以及控制的投影方式;
最后对数据进行重采样和坐标转换,获得30m*30m分度、阿尔伯特坐标系的DEM数据。
优选的,步骤S2中,POI数据预处理为对数据进行清洗来清除冗余、重复、错误和无用的数据,数据清洗包括数据的重构与修正、重复数据清除,通过json获得的文件含有大量冗余信息;
首先对文件统一梳理,提取文本信息,保留POI数据的空间属性:经度、纬度、名称以及分类,清除其他数据;
其次对重构的数据重新编辑代码设置筛选条件,补充缺失的数据;
最后根据空间位置信息和名称信息进行匹配删除重复数据,清洗后的数据进行重新分类和格式转换,得到POI shp文件。
优选的,步骤S3为获得步骤S2中数据的衍生特征,具体如下:
夜间灯光数据衍生特征:DN值、亮度值以及灯光数据二值化处理后的值;
土地利用数据衍生特征:水域和不可利用土地、林草地、耕地、道路和工矿用地、农村建设用地、城镇建设用地;
DEM数据衍生特征:海波高度、坡度、坡向、地势起伏度数据;
POI数据衍生特征:POI数据落入每个格网的数量、每个格网距离非内部POI点的最小距离、大尺度核密度分析、小尺度核密度、缓冲区。
优选的,步骤S4的具体过程为:基于R语言的Random Forest包实现利用随机森林模型进行30m网格的人口空间化,具体步骤如下:
首先输入样本,以人口密度作为因变量,数据衍生特征作为自变量;
然后对随机森林模型进行训练,训练时有两个重要的参数:ntree和mtry;
其中,ntree表示决策树的数量,mtry表示决策树分裂时候选变量的个数;
利用OOB无偏估计得到不同参数设置下随机森林模型的精度,进行参数设置:
首先确定参数mtry,在决策树的棵数较大即ntree=500的前提下,测试mtry不同取值时随机森林模型的精度;
采用上述设置好的参数,在30m网格进行随机森林模型的训练,然后将生成的随机森林应用到每个30m×30m的网格中,预测每个30m×30m网格的人口密度,初步实现30m×30m格网的人口空间化;然后基于OOB数据,采用平均基尼系数下降法对变量因子进行重要性度量。
优选的,步骤S5中,人口空间化结果利用每个格网内计算所得人口来反算大尺度地区总人口,从而验证人口数据估算的精度;人口统计数据空间化基于统计地区内各乡镇级尺度,将统计地区内各乡镇估算人口和统计人口比对,从而检验人口空间化结果的精度。
优选的,步骤S6,基于统计地区内污染地块点位以及每个格网内人口来反算获得污染地块周边一公里范围内敏感人群的数量,该数据和收集的污染地块周边敏感人群数量进行比对,从而验证结果。
本发明基于夜间灯光数据、土地利用数据、DEM数据、POI数据、污染地块点位数据、统计人口数据、乡镇级行政区划边界数据等特征,利用地理信息技术和遥感技术,采用随机森林模型,开展污染地块周边敏感人群空间化研究,目的在于准确刻画出污染地块周边敏感人群的空间特征,并且能够情景模拟出其变化情况,为提升我国污染场地治理与管理能力提供了技术支持。
与现有技术相比,本发明具有以下有益效果:
第一,完善了我国传统上结合人工调查完成的模式,极大节约了人口数据获取的成本;
第二,解决了行政单元边界与研究场景单元不同的问题,即“可变面状单元问题”;
第三,提高了传统空间分辨率低的问题。
具体实施方式
下面结合具体实施方式对本发明作进一步详细的说明。
一种污染地块周边敏感人群空间化方法,包括以下步骤:
步骤S1、收集多源地理大数据;
地理大数据包括夜间灯光数据、土地利用数据、DEM(Digital Elevation Model,数字高程模型)数据、POI(Point of Interest,兴趣点)数据、污染地块点位数据、统计人口数据、县级行政区划边界数据。
步骤S2、数据预处理;基于地理信息技术和遥感影像解译技术,对收集的数据进行预处理,包括格式转换、重分类、坐标转换等;
优选的,夜间灯光数据预处理包括数据的异常值删除以及对年份的月数据求均值得到最终建模使用的夜光遥感数据,具体步骤如下:
首先要经过拼接与裁剪,重采样为30m*30m;
然后进行坐标系转换,转换为阿尔伯特坐标系;
最后对处理好的夜间灯光数据进行提取,并把提取的多维特征加入地理格网。
优选的,土地利用数据预处理的具体步骤为:
首先利用ENVI(The Environment for Visualizing Images,完整的遥感图像处理平台)进行数据的拼接、裁剪、投影;
然后通过计算机辅助解译和人工修改提取出统计地区的利用数据;
最后进行重采样和坐标转换,将空间分辨率转化为30m*30m尺度,同时把地理坐标转换为阿尔伯特坐标系。
优选的,DEM数据预处理的具体步骤为:
首先从前述已收集的地理大数据中提取垂视和后视图像;
然后定义输出DEM的参数,参数是用来控制DEM的投影方式、分辨率以及控制的投影方式;
最后对数据进行重采样和坐标转换,获得30m*30m分度、阿尔伯特坐标系的DEM数据。
优选的,POI数据预处理为对数据进行清洗来清除冗余、重复、错误和无用的数据,数据清洗包括数据的重构与修正、重复数据清除,通过json(JavaScript ObjectNotation,JavaScript对象简谱)获得的文件含有大量冗余信息;
首先对文件统一梳理,提取文本信息,保留POI数据的空间属性:经度、纬度、名称以及分类,清除其他数据;
其次对重构的数据重新编辑代码设置筛选条件,补充缺失的数据;
最后根据空间位置信息和名称信息进行匹配删除重复数据,清洗后的数据进行重新分类和格式转换,得到POI shp文件。
步骤S3、构建模型特征库;
获得步骤S2中数据的衍生特征,具体如下:
夜间灯光数据衍生特征:DN值(Digital Number,遥感影像像元亮度值)、亮度值以及灯光数据二值化处理后的值;
土地利用数据衍生特征:水域和不可利用土地、林草地、耕地、道路和工矿用地、农村建设用地、城镇建设用地;
DEM数据衍生特征:海波高度、坡度、坡向、地势起伏度数据;
POI数据衍生特征:POI数据落入每个格网的数量、每个格网距离非内部POI点的最小距离、大尺度核密度分析、小尺度核密度、缓冲区。
步骤S4、模型构建;
具体过程为:基于R语言的Random Forest包实现利用随机森林模型进行30m网格的人口空间化,具体步骤如下:
首先输入样本,以人口密度作为因变量,数据衍生特征作为自变量;
然后对随机森林模型进行训练,训练时有两个重要的参数:ntree和mtry;
其中,ntree表示决策树的数量,mtry表示决策树分裂时候选变量的个数;
由于采样时使用的是bootstrap(Bootstrap,来自Twitter,是目前最受欢迎的前端框架。Bootstrap是基于HTML、CSS、JAVASCRIPT的框架,它简洁灵活,使得Web开发更加快捷。)有放回的采样方法,因此原始训练集中70%的样本被采集,剩余的30%样本组成袋外数据,对样本进行交叉验证,所以利用OOB(Out of Band,带外数据)无偏估计得到不同参数设置下随机森林模型的精度,进行参数设置:
首先确定参数mtry,在决策树的棵数较大即ntree=500的前提下,测试mtry不同取值时随机森林模型的精度;
采用上述设置好的参数,在30m网格进行随机森林模型的训练,然后将生成的随机森林应用到每个30m×30m的网格中,预测每个30m×30m网格的人口密度,初步实现30m×30m格网的人口空间化;然后基于OOB数据,采用平均基尼系数下降法对变量因子进行重要性度量。
步骤S5、精度验证;
人口空间化结果利用每个格网内计算所得人口来反算大尺度地区总人口,从而验证人口数据估算的精度;人口统计数据空间化基于统计地区内各乡镇级尺度,将统计地区内各乡镇估算人口和统计人口比对,从而检验人口空间化结果的精度。
步骤S6、污染地块周边敏感人群计算及结果验证。基于空间化的人口数据,反算得到污染地块周边敏感人群数量。
基于统计地区内污染地块点位以及每个格网内人口来反算获得污染地块周边一公里范围内敏感人群的数量,该数据和收集的污染地块周边敏感人群数量进行比对,从而验证结果。
下面结合具体实施例对本发明作进一步详细的说明。
以我国西南地区为案例区,基于多源时空大数据以及遥感大数据融合分析技术,建立污染地块周边敏感人群空间化模型,以实现污染地块周边敏感人群空间化技术的应用示范,为污染地块治理管理、环境保护、城乡发展、人民福祉等提供辅助决策依据。
1、多源地理大数据
1)数据收集
收集的地理大数据包括夜间灯光数据、土地利用数据、DEM数据、POI数据、污染地块点位数据、统计人口数据、县级行政区划边界数据。
夜间灯光数据选取了2019年全年月份合成的NPP/VIRS夜间灯光影像,数据分辨率为500m;
土地利用类型数据采用了2019年精细分辨率观测和监测全球土地覆盖数据,数据空间分辨率为30m;
DEM数据从地理空间数据云获得,数据空间分辨率为30m;
POI数据通过API爬取获得,包括餐饮、住宿、金融保险、教育文化、卫生社保、运动休闲、公共设施、科研及技术服务等类;
统计人口数据采用统计年鉴中记录的2019年云南省红河州各乡镇行政区级常住人口数据;
行政区划数据通过中国科学院资源环境科学数据中心获得,格式shp,属性包括行政区划代码和名称等信息。
2)数据预处理
夜间灯光数据预处理主要包括数据的异常值删除以及对年份的月数据求均值得到最终建模使用的夜光遥感数据;具体步骤如下:首先要经过拼接与裁剪,重采样为30m*30m,然后进行坐标系转换,转换为阿尔伯特坐标系,最后对处理好的夜间灯光数据进行提取,并把提取的多维特征加入格网。
土地利用数据预处理:利用ENVI进行数据的拼接、裁剪、投影,然后通过计算机辅助解译和人工修改提取出京津冀土地利用数据,最后进行重采样和坐标转换,将空间分辨率转化为30m*30m尺度,同时把地理坐标转换为阿尔伯特坐标系。
DEM数据从原始数据文件中提取垂视和后视图像,然后定义输出DEM的参数,参数是用来控制DEM的投影方式、分辨率以及控制的投影方式,得到最后对数据进行重采样和坐标转换,获得30m*30m分度,阿尔伯特坐标系的DEM数据。
POI数据预处理主要是对数据进行清洗来清除冗余、重复、错误和无用的数据。数据清洗主要包括数据的重构与修正、重复数据清除,通过json获得的文件含有大量冗余信息,首先对文件统一梳理,提取文本信息,保留POI数据的经度、纬度、名称、分类等空间属性,清除其他数据,其次对重构的数据重新编辑代码设置筛选条件,补充缺失的数据,最后根据空间位置信息和名称信息进行匹配删除重复数据;清洗后的数据进行重新分类和格式转换,得到POI shp文件。
2、人口空间化模型构建
1)构建模型特征库
POI数据衍生特征:POI数据落入每个格网的数量、每个格网距离非内部POI点的最小距离、大尺度核密度分析、小尺度核密度、缓冲区;
夜间灯光数据衍生特征:DN值、亮度值以及灯光数据二值化处理后的值;
土地利用数据衍生特征:水域和不可利用土地、林草地、耕地、道路和工矿用地、农村建设用地、城镇建设用地;
DEM数据衍生特征:海波高度、坡度、坡向、地势起伏度数据。
2)模型构建
基于R语言的Random Forest包实现利用随机森林模型进行云南省红河州30m网格的人口空间化。首先输入样本,以云南省红河州的人口密度作为因变量,数据衍生特征作为自变量。然后对随机森林模型进行训练,训练时有两个重要的参数:ntree和mtry。ntree表示决策树的数量,mtry表示决策树分裂时候选变量的个数。由于采样时使用的是bootstrap有放回的采样方法,因此原始训练集中70%的样本被采集,剩余的30%样本组成袋外数据,对样本进行交叉验证。所以利用OOB无偏估计得到不同参数设置下随机森林模型的精度,进行参数设置。首先确定参数mtry,在决策树的棵数较大的前提下(ntree=500),测试mtry不同取值时随机森林模型的精度。采用设置好的参数,在云南省红河州各乡镇进行随机森林模型的训练,然后将生成的随机森林应用到每个30m×30m的网格中,预测每个30m×30m网格的人口密度,初步实现云南省红河州各乡镇30m×30m格网的人口空间化。基于OOB数据,采用平均基尼系数下降法对变量因子进行重要性度量。
3、精度验证
人口空间化结果一般利用每个格网内计算所得人口来反算大尺度地区总人口,从而验证人口数据估算的精度。人口统计数据空间化基于云南省红河州各乡镇级尺度,将云南省红河州各乡镇估算人口和统计人口比对,从而检验人口空间化结果的精度。
4、污染地块周边敏感人群计算及结果验证
基于污染地块点位以及每个格网内人口来反算获得污染地块周边一公里范围内敏感人群的数量。该数据和收集的污染地块周边敏感人群数量进行比对,从而验证结果。
上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。
Claims (7)
1.一种污染地块周边敏感人群空间化方法,其特征在于:所述方法包括以下步骤:
步骤S1、收集多源地理大数据;
步骤S2、数据预处理;
步骤S3、构建模型特征库;
步骤S4、模型构建;
步骤S5、精度验证;
步骤S6、污染地块周边敏感人群计算及结果验证;
所述步骤S4的具体过程为:基于R语言的Random Forest包实现利用随机森林模型进行30m网格的人口空间化,具体步骤如下:
首先输入样本,以人口密度作为因变量,数据衍生特征作为自变量;
然后对随机森林模型进行训练,训练时有两个重要的参数:ntree和mtry;
其中,ntree表示决策树的数量,mtry表示决策树分裂时候选变量的个数;
利用OOB无偏估计得到不同参数设置下随机森林模型的精度,进行参数设置:
首先确定参数mtry,在决策树的棵数较大即ntree=500的前提下,测试mtry不同取值时随机森林模型的精度;
采用上述设置好的参数,在30m网格进行随机森林模型的训练,然后将生成的随机森林应用到每个30m×30m的网格中,预测每个30m×30m网格的人口密度,初步实现30m×30m格网的人口空间化;然后基于OOB数据,采用平均基尼系数下降法对变量因子进行重要性度量;
所述步骤S5中,人口空间化结果利用每个格网内计算所得人口来反算大尺度地区总人口,从而验证人口数据估算的精度;人口统计数据空间化基于统计地区内各乡镇级尺度,将统计地区内各乡镇估算人口和统计人口比对,从而检验人口空间化结果的精度;
所述步骤S6,基于统计地区内污染地块点位以及每个格网内人口来反算获得污染地块周边一公里范围内敏感人群的数量,该数据和收集的污染地块周边敏感人群数量进行比对,从而验证结果。
2.根据权利要求1所述的污染地块周边敏感人群空间化方法,其特征在于:所述步骤S1中收集的地理大数据包括夜间灯光数据、土地利用数据、DEM数据、POI数据、污染地块点位数据、统计人口数据、县级行政区划边界数据。
3.根据权利要求1所述的污染地块周边敏感人群空间化方法,其特征在于:所述步骤S2中,夜间灯光数据预处理包括数据的异常值删除以及对年份的月数据求均值得到最终建模使用的夜光遥感数据,具体步骤如下:
首先要经过拼接与裁剪,重采样为30m*30m;
然后进行坐标系转换,转换为阿尔伯特坐标系;
最后对处理好的夜间灯光数据进行提取,并把提取的多维特征加入地理格网。
4.根据权利要求3所述的污染地块周边敏感人群空间化方法,其特征在于:所述步骤S2中,土地利用数据预处理的具体步骤为:
首先利用ENVI进行数据的拼接、裁剪、投影;
然后通过计算机辅助解译和人工修改提取出统计地区的利用数据;
最后进行重采样和坐标转换,将空间分辨率转化为30m*30m尺度,同时把地理坐标转换为阿尔伯特坐标系。
5.根据权利要求3所述的污染地块周边敏感人群空间化方法,其特征在于:所述步骤S2中,DEM数据预处理的具体步骤为:
首先从前述已收集的地理大数据中提取垂视和后视图像;
然后定义输出DEM的参数,参数是用来控制DEM的投影方式、分辨率以及控制的投影方式;
最后对数据进行重采样和坐标转换,获得30m*30m分度、阿尔伯特坐标系的DEM数据。
6.根据权利要求3所述的污染地块周边敏感人群空间化方法,其特征在于:所述步骤S2中,POI数据预处理为对数据进行清洗来清除冗余、重复、错误和无用的数据,数据清洗包括数据的重构与修正、重复数据清除,通过json获得的文件含有大量冗余信息;
首先对文件统一梳理,提取文本信息,保留POI数据的空间属性:经度、纬度、名称以及分类,清除其他数据;
其次对重构的数据重新编辑代码设置筛选条件,补充缺失的数据;
最后根据空间位置信息和名称信息进行匹配删除重复数据,清洗后的数据进行重新分类和格式转换,得到POI shp文件。
7.根据权利要求1所述的污染地块周边敏感人群空间化方法,其特征在于:所述步骤S3为获得步骤S2中数据的衍生特征,具体如下:
夜间灯光数据衍生特征:DN值、亮度值以及灯光数据二值化处理后的值;
土地利用数据衍生特征:水域和不可利用土地、林草地、耕地、道路和工矿用地、农村建设用地、城镇建设用地;
DEM数据衍生特征:海波高度、坡度、坡向、地势起伏度数据;
POI数据衍生特征:POI数据落入每个格网的数量、每个格网距离非内部POI点的最小距离、大尺度核密度分析、小尺度核密度、缓冲区。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110646086.5A CN113392585B (zh) | 2021-06-10 | 2021-06-10 | 一种污染地块周边敏感人群空间化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110646086.5A CN113392585B (zh) | 2021-06-10 | 2021-06-10 | 一种污染地块周边敏感人群空间化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392585A CN113392585A (zh) | 2021-09-14 |
CN113392585B true CN113392585B (zh) | 2023-11-03 |
Family
ID=77620143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110646086.5A Active CN113392585B (zh) | 2021-06-10 | 2021-06-10 | 一种污染地块周边敏感人群空间化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392585B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020063461A1 (zh) * | 2018-09-30 | 2020-04-02 | 广州地理研究所 | 基于随机森林分类算法的城市范围提取方法、装置及电子设备 |
CN111241489A (zh) * | 2020-01-20 | 2020-06-05 | 南京大学 | 一种计算人口在不同微环境的活动模式概率密度函数的方法和系统 |
AU2020100709A4 (en) * | 2020-05-05 | 2020-06-11 | Bao, Yuhang Mr | A method of prediction model based on random forest algorithm |
CN111932036A (zh) * | 2020-09-23 | 2020-11-13 | 中国科学院地理科学与资源研究所 | 基于位置大数据的精细时空尺度动态人口预测方法及系统 |
CN112669976A (zh) * | 2021-03-18 | 2021-04-16 | 清华大学 | 基于生态环境变化的人群健康评估方法及系统 |
-
2021
- 2021-06-10 CN CN202110646086.5A patent/CN113392585B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020063461A1 (zh) * | 2018-09-30 | 2020-04-02 | 广州地理研究所 | 基于随机森林分类算法的城市范围提取方法、装置及电子设备 |
CN111241489A (zh) * | 2020-01-20 | 2020-06-05 | 南京大学 | 一种计算人口在不同微环境的活动模式概率密度函数的方法和系统 |
AU2020100709A4 (en) * | 2020-05-05 | 2020-06-11 | Bao, Yuhang Mr | A method of prediction model based on random forest algorithm |
CN111932036A (zh) * | 2020-09-23 | 2020-11-13 | 中国科学院地理科学与资源研究所 | 基于位置大数据的精细时空尺度动态人口预测方法及系统 |
CN112669976A (zh) * | 2021-03-18 | 2021-04-16 | 清华大学 | 基于生态环境变化的人群健康评估方法及系统 |
Non-Patent Citations (4)
Title |
---|
基于随机森林模型的珠江三角洲30 m格网人口空间化;谭敏;刘凯;柳林;朱远辉;王大山;;地理科学进展(第10期);122-130 * |
基于随机森林评价的兰州市主城区校园地表灰尘重金属污染;胡梦珺等;环境科学;第41卷(第4期);1838-1846 * |
江浙沪地区空气污染―健康效应的空间差异;凌迎兵;潘春延;;人口与社会(第05期);64-75 * |
融合多源空间数据的城镇人口分布估算;朱守杰;杜世宏;李军;商硕硕;杜守基;;地球信息科学学报(第08期);23-32 * |
Also Published As
Publication number | Publication date |
---|---|
CN113392585A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Urban morphology detection and computation for urban climate research | |
Zhu et al. | Flood disaster risk assessment based on random forest algorithm | |
CN109978249B (zh) | 基于分区建模的人口数据空间化方法、系统及介质 | |
Ren et al. | Developing a rapid method for 3-dimensional urban morphology extraction using open-source data | |
Chen et al. | A high-resolution monitoring approach of canopy urban heat island using a random forest model and multi-platform observations | |
Sun et al. | Global 10-m impervious surface area mapping: A big earth data based extraction and updating approach | |
CN111310898A (zh) | 一种基于rnn的滑坡灾害易发性预测方法 | |
CN115630567A (zh) | 一种海岸带土壤有机碳储量模拟及预测方法 | |
CN113220810B (zh) | 一种多源物种分布数据处理方法及装置 | |
Pan et al. | Spatiotemporal dynamics of electricity consumption in China | |
Lu et al. | Assessing the impact of land surface temperature on urban net primary productivity increment based on geographically weighted regression model | |
Jiang | GIS-based time series study of soil erosion risk using the Revised Universal Soil Loss Equation (RUSLE) model in a micro-catchment on Mount Elgon, Uganda | |
Mohamed et al. | Assessment of agricultural sustainability in some areas west of Nile Delta | |
CN113392585B (zh) | 一种污染地块周边敏感人群空间化方法 | |
Busho et al. | Quantifying spatial patterns of urbanization: growth types, rates, and changes in Addis Ababa City from 1990 to 2020 | |
Wu et al. | Construction and verification of a rainstorm death risk index based on grid data fusion: a case study of the Beijing rainstorm on July 21, 2012 | |
Liu et al. | Vegetation mapping for regional ecological research and management: a case of the Loess Plateau in China | |
Le Guenedal et al. | Cyclone generation Algorithm including a THERmodynamic module for Integrated National damage Assessment (CATHERINA 1.0) compatible with Coupled Model Intercomparison Project (CMIP) climate data | |
Riaz | Urban change detection of Lahore (Pakistan) using a time series of satellite images since 1972 | |
CN115018268A (zh) | 一种基于空间测算相对量的森林生态服务价值评估方法 | |
Olaniyi et al. | Characterization of drivers of agricultural land use change | |
Guo et al. | High-resolution satellite images reveal the prevalent positive indirect impact of urbanization on urban tree canopy coverage in South America | |
Ren et al. | Shift of potential natural vegetation against global climate change under historical, current and future scenarios | |
CN116776636B (zh) | 一种基于数字孪生的水旱灾害应急仿真方法和系统 | |
Olaniyi | Land use/land cover dynamics and its drivers in Okomu National Park, Nigeria: A geospatial analysis approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhou Rui Inventor after: Wang Caiyun Inventor after: Zhan Mingxu Inventor before: Zhou Rui Inventor before: Yang Dianhua Inventor before: Zhan Mingxu Inventor before: Wang Caiyun |
|
GR01 | Patent grant | ||
GR01 | Patent grant |