CN111932036B - 基于位置大数据的精细时空尺度动态人口预测方法及系统 - Google Patents
基于位置大数据的精细时空尺度动态人口预测方法及系统 Download PDFInfo
- Publication number
- CN111932036B CN111932036B CN202011005973.6A CN202011005973A CN111932036B CN 111932036 B CN111932036 B CN 111932036B CN 202011005973 A CN202011005973 A CN 202011005973A CN 111932036 B CN111932036 B CN 111932036B
- Authority
- CN
- China
- Prior art keywords
- scale
- population
- grid
- model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000000694 effects Effects 0.000 claims abstract description 38
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000007637 random forest analysis Methods 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 28
- 238000012937 correction Methods 0.000 claims description 17
- 230000008566 social perception Effects 0.000 claims description 14
- 238000010801 machine learning Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract description 5
- 238000009826 distribution Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 22
- 230000008447 perception Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012952 Resampling Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 239000009853 xinfeng Substances 0.000 description 1
- 238000013316 zoning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Computing Systems (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Remote Sensing (AREA)
- Educational Administration (AREA)
- Primary Health Care (AREA)
- Molecular Biology (AREA)
- Fuzzy Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于位置大数据的精细时空尺度动态人口预测方法及系统,包括对多源数据进行预处理,获得格网和区县尺度各空间协变量的统计量;识别人类活动格网,包括根据格网尺度指示人类活动存在迹象的相关变量,判断该区域是否存在人类活动;构建动态人口预测模型,包括在区县尺度上基于空间协变量和人口统计数据构建人口空间降尺度模型,利用自编码深度残差网络模型,对格网尺度动态人口密度初始预测值进行精细调整;优化超参数及评估模型精度,并在不同尺度上对动态人口预测精度进行评估。本发明首次为省级范围动态人口预测提供了全新技术方案,并提升了精细尺度动态人口预测精度,为台风等大尺度自然灾害的影响评估等领域提供了新的数据源。
Description
技术领域
本发明属于互联网检测领域,特别涉及一种基于位置大数据的精细时空尺度动态人口预测方法及系统。
背景技术
近年来,位置感知大数据的普及使得大范围感知精细尺度个体时空活动成为可能,这为动态人口预测奠定了坚实的数据基础。现有动态人口预测方法主要是利用手机数据或包含地理位置的社交媒体数据,通过构建与真实地面人口之间的加权模型或统计关系,实现城市范围内高时空精度动态人口预测,时间分辨率可达到天乃至小时尺度。从方法上看,可大致分为三类:加权插值法、统计建模法、人工智能建模法。加权插值法基于数据自身或辅助变量,构建简单加权模型来获取人口分布权重[1-4]。统计建模法采用对数线性模型等统计模型,对位置感知大数据与普查人口数据之间的稳健函数关系进行建模[5-8]。人工智能建模法基于机器学习或深度学习模型,对人口分布的时空模式或影响因素进行智能学习,并据此预测动态人口[9-10]。
但是,现有动态人口预测方法还存在如下问题:
(1)模型尺度下推的适用性问题。现有模型大多是通过在街道或县级尺度上,构建位置感知大数据与统计人口之间稳健的函数关系,推算精细格网尺度的人口分布,但是在格网尺度上两者的关系往往更为复杂多变,使得尺度下推时的预测结果会存在明显错误。
(2)缺乏省级乃至全国尺度的动态人口预测研究。受制于数据难以大范围获取的原因,现有研究范围主要局限于城市尺度,但是台风等自然灾害的影响范围往往覆盖多个省市,区域尺度动态人口分布数据的缺乏将导致无法大范围评估灾害过程对人口的同步影响。
(3)人类活动区域提取问题。人类活动往往只分布在少量适宜居住的地区,因而进行大范围人口预测时需要首先剔除不存在人类活动的区域,将模型变量的计算和人口预测的范围约束在人类活动区域,这样才能更为客观地反映人口和空间协变量的分布密度,从而提升模型变量的准确性。
(4)单一模型的学习能力问题。由于位置感知大数据在不同地区的代表性存在差异,且不同区域之间的人口分布特征及其影响因素可能非常大的差异,这对区域尺度动态人口预测模型的自适应性提出了新的挑战。而现有方法大多仅采用单一模型(如随机森林模型)进行建模,但是单一模型无法全面学习到不同区域的空间协变量与年末常住人口之间的复杂关系,这会导致人口预测误差出现明显的区域差异。
目前,动态人口密度预测的相关专利有:一种城市人口密度动态预测方法及系统(CN 107515842B,公告/公开日20171226),该专利主要利用手机数据根据当前实时感知的人口密度预测下一时间窗的人口密度,但仍然无法预测省级乃至全国尺度的动态人口,且城市尺度的预测结果降尺度到格网尺度上,模型预测能力往往会受到较大影响。
因此,在这样的技术背景下,本发明公开了一种基于社会感知大数据和多机器学习模型的区域精细时空尺度动态人口预测方法,实现了省级层面精细时空尺度的动态人口预测,并据此生成区域精细时空尺度动态人口数据集TLRpop。
相关文献:
[1]Kubíček P, Konečný M, Stachoň Z, et al. Population distributionmodelling at fine spatio-temporal scale based on mobile phone data [J].International Journal of Digital Earth, 2019, 12(11): 1319-1340.
[2]Järv O, Tenkanen H, Toivonen T. Enhancing spatial accuracy ofmobile phone data using multi-temporal dasymetric interpolation [J].International Journal of Geographical Information Science, 2017, 31(8): 1630-1651.
[3]Ma Y, Xu W, Zhao X, et al. Modeling the hourly distribution ofpopulation at a high spatiotemporal resolution using subway smart card data:A case study in the central area of Beijing [J]. ISPRS International Journalof Geo-Information, 2017, 6(5): 128.
[4]Kontokosta C E, Johnson N. Urban phenology: Toward a real-timecensus of the city using Wi-Fi data [J]. Computers, Environment and UrbanSystems, 2017, 64(144-153).
[5]Deville P, Linard C, Martin S, et al. Dynamic population mappingusing mobile phone data [J]. Proceedings of the National Academy of Sciences,2014, 111(45): 15888-15893.
[6]Feng J, Li Y, Xu F, et al. A Bimodal Model to Estimate DynamicMetropolitan Population by Mobile Phone Data [J]. Sensors, 2018, 18(10):3431.
[7]Khodabandelou G, Gauthier V, Fiore M, et al. Estimation of staticand dynamic urban populations with mobile network metadata [J]. IEEETransactions on Mobile Computing, 2018, 18(9): 2034-2047.
[8]Xu F, Zhang P, Li Y. Context-aware real-time population estimationfor metropolis; proceedings of the Proceedings of the 2016 ACM InternationalJoint Conference on Pervasive and Ubiquitous Computing, F, 2016 [C].
[9]Chen J, Pei T, Shaw S-L, et al. Fine-grained prediction of urbanpopulation using mobile phone location data [J]. International Journal ofGeographical Information Science, 2018c, 32(9): 1770-1786.
[10] Zong Z, Feng J, Liu K, et al. DeepDPM: Dynamic PopulationMapping via Deep Neural Network; proceedings of the Proceedings of the AAAIConference on Artificial Intelligence, F, 2019 [C]。
发明内容
本发明解决的技术问题:基于社会感知大数据和多机器学习模型,构建区县和格网尺度的多层级区域精细时空尺度动态人口预测模型,解决了目前动态人口预测领域的四大关键问题,包括模型尺度下推的适用性问题、缺乏省级乃至全国尺度的动态人口预测研究、人类活动区域提取问题和单一模型的学习能力问题,并实现了省级层面精细时空尺度的动态人口预测,据此生成区域精细时空尺度动态人口数据集TLRpop。
本发明技术方案提供一种基于位置大数据的精细时空尺度动态人口预测方法,包括以下步骤,
步骤1,对多源数据进行预处理,所述多源数据包括社会感知大数据、遥感影像和GIS数据,获得格网和区县尺度各空间协变量的统计量,所述空间协变量是来自社会感知大数据、GIS数据和遥感影像的空间位置信息相关变量,所述格网的大小采用预设的距离尺度;
步骤2,识别人类活动格网,包括根据格网尺度指示人类活动存在迹象的相关空间协变量,判断相应区域是否存在人类活动;
步骤3,构建动态人口密度预测模型,包括在区县尺度上,基于空间协变量和人口统计数据对随机森林和XGBoost两个基模型分别进行训练,然后利用地理加权模型,对随机森林和XGBoost的预测结果进行局部加权综合,从而构建25个人口空间降尺度模型,包括1个日尺度人口空间降尺度模型和24个小时尺度人口空间降尺度模型;利用自编码深度残差网络模型,训练得到动态人口密度预测模型,对省级范围内格网尺度动态人口密度初始预测值进行精校正,得到精校正后的省级范围格网尺度动态人口密度;
步骤4,优化超参数及评估模型精度,包括采用机器学习网格搜索技术和经验知识,实现地理加权回归模型和自编码深度残差网络模型的超参数优化,并在不同尺度上对动态人口密度预测精度进行评估。
而且,步骤1的实现包括以下子步骤,
步骤1.1,分别合成格网尺度地图服务定位请求量和夜光亮度的校正年度平均值;
步骤1.2,在全国范围内创建矢量渔网,将Albers等积圆锥投影和等距圆锥投影分别作为矢量渔网的投影系统,对各空间协变量根据统计量性质进行Albers等积圆锥投影或等距圆锥投影;
步骤1.3,分别对POI和土地利用数据的各子类,按照属性的相似程度进行初步合并;
步骤1.4,对各空间协变量中的路径距离有关变量生成预设空间分辨率的路径距离栅格;
步骤1.5,在格网尺度和区县尺度统计各变量对应的不同类型统计量,包括密度值、平均路径距离和区域平均值;
步骤1.6,采用随机森林算法,通过构建与年末常住人口密度之间的回归关系,分别对空间协变量中POI、土地利用、路网的密度或路径距离进行降维。
而且,步骤2的实现包括以下子步骤,
步骤2.1,采用各格网内的相关指标,包括根据步骤1所得格网尺度各空间协变量的统计量中地图服务定位请求量校正值的年中位数,夜光亮度值、微博平台POI签到次数、数字地图POI数量、路网密度、GUF面积、土地利用数据中的人工地表面积和人类居住区面积,分别判断各指标是否大于零,并据此对格网进行二元分类,大于零就为1,否则为0;
步骤2.2,提取所有值为1的格网并集,这些格网表明至少有一个数据源证明该区域存在人类活动,定义为人类活动格网。
而且,步骤3的实现包括以下子步骤,
步骤3.1,在区县尺度上,利用各空间协变量和年末常住人口数据,对随机森林和XGBoost两个基模型分别进行训练,然后利用地理加权回归模型,对随机森林和XGBoost的预测结果进行局部加权综合,得到人口空间降尺度模型;
步骤3.2,在格网尺度上,利用步骤3.1训练的人口空间降尺度模型,计算动态人口密度的初始预测值;
步骤3.3,在区县尺度上,利用地理加权回归模型,构建地图服务定位请求量校正年平均密度值与年末常住人口密度之间的稳健回归关系,并据此预测区县尺度动态人口总量;
步骤3.4,以步骤3.3获得的区县尺度动态人口总量作为约束条件,在省级范围格网尺度上,利用自编码深度残差网络模型,训练各空间协变量与步骤3.2获得的动态人口密度的初始预测值之间的函数关系;
步骤3.5,利用训练好的自编码深度残差网络模型,对省级范围格网尺度动态人口密度进行预测,生成区域精细时空尺度动态人口数据集TLRpop。
而且,步骤4的实现包括以下子步骤,
步骤4.1,基于机器学习网格搜索技术,分别对随机森林、XGBoost的超参数进行优化,根据经验知识,对地理加权回归和自编码深度残差网络模型进行参数优化;
步骤4.2,在区县尺度上,采用十折交叉验证法评估随机森林和XGBoost模型的精度,采用留一法交叉验证评估地理加权回归模型的精度;
步骤4.3,在格网尺度上,按空间分层抽样方法选择30%作为验证样本,剩余格网中选择70%作为训练样本,30%作为测试样本,据此对自编码深度残差网络模型精度进行评估;
步骤4.4,基于年末常住人口统计数据,在乡镇街道尺度上评估TLRpop、Wordpop和Landscan三种人口数据集的精度差异,并在格网尺度上,基于卫星遥感影像,评估三种人口数据集的预测差异。
本发明还提供一种基于位置大数据的精细时空尺度动态人口预测系统,用于实现如上所述的一种基于位置大数据的精细时空尺度动态人口预测方法。
而且,包括以下模块,
第一模块,用于对多源数据进行预处理,所述多源数据包括社会感知大数据、遥感影像和GIS数据,获得格网和区县尺度各空间协变量的统计量,所述空间协变量是来自社会感知大数据、GIS数据和遥感影像的空间位置信息相关变量,所述格网的大小采用预设的距离尺度;
第二模块,用于识别人类活动格网,包括根据格网尺度指示人类活动存在迹象的相关空间协变量,判断相应区域是否存在人类活动;
第三模块,用于构建动态人口密度预测模型,包括在区县尺度上,基于空间协变量和人口统计数据对随机森林和XGBoost两个基模型分别进行训练,然后利用地理加权模型,对随机森林和XGBoost的预测结果进行局部加权综合,从而构建25个人口空间降尺度模型,包括1个日尺度人口空间降尺度模型和24个小时尺度人口空间降尺度模型;利用自编码深度残差网络模型,训练得到动态人口密度预测模型,对省级范围内格网尺度动态人口密度初始预测值进行精校正,得到精校正后的省级范围格网尺度动态人口密度;
第四模块,优化超参数及评估模型精度,包括采用机器学习网格搜索技术和经验知识,实现地理加权回归模型和自编码深度残差网络模型的超参数优化,并在不同尺度上对动态人口密度预测精度进行评估。
本发明首次为省级范围动态人口预测提供了全新的自动化解决方案,解决了目前动态人口预测方法存在的多个关键问题,扩展了GIS领域对复杂地理要素的智能建模能力,并提升了精细尺度动态人口预测精度,为台风、地震等大尺度自然灾害和疫情防控等快速应急响应领域的影响评估与决策提供了新的数据源。
附图说明
图1为本发明实施例系统的结构框图;
图2为本发明实施例中全国人类活动格网识别结果示意图,其中(a)为全国人类活动格网分布示意图,(b) -(e)为区域1-4的人类活动格网空间分布示意图,(f) -(i)为区域1-4的卫星遥感影像示意图;
图3为本发明实施例中天尺度不同模型预测的格网人口密度示意图,其中(a)为随机森林预测的格网人口密度示意图,(b)为XGBoost(极端梯度提升)预测的格网人口密度示意图,(c)为 GWR预测的格网人口密度示意图,(d)为Resautonet预测的格网人口密度示意图;
图4为本发明实施例中街道尺度不同人口预测数据集的精度示意图,其中(a)为广东省不同人口预测数据集与年末常住人口密度之间的R2示意图,(b)为广东省不同人口预测数据集与年末常住人口密度之间的RMSE示意图,(c)为福建省不同人口预测数据集与年末常住人口密度之间的R2示意图,(d)为福建省不同人口预测数据集与年末常住人口密度之间的RMSE示意图;
图5为本发明实施例中省级范围内不同人口数据集的空间分布对比示意图,(a)为格网尺度TLRpop数据在广东省内的空间分布,(b)为格网尺度Worldpop数据在广东省内的空间分布,(c)为格网尺度Landscan数据在广东省内的空间分布,(d)为格网尺度TLRpop数据在福建省内的空间分布,(e)为格网尺度Worldpop数据在福建省内的空间分布,(f)为格网尺度Landscan数据在福建省内的空间分布;
图6为本发明实施例中结合遥感影像的不同人口数据集空间分布细节对比示意图,(a) -(d)分别为区域1中的TLRpop、Worldpop、Landscan和遥感影像数据,(e) -(h)分别为区域2中的TLRpop、Worldpop、Landscan和遥感影像数据,(i) -(l)分别为区域3中的TLRpop、Worldpop、Landscan和遥感影像数据,区域1-3的范围与图5中标记1-3处所示区域一致。
具体实施方式
为了更清楚地了解本发明,下面结合附图和实施例具体介绍本发明技术方案。
本实施例提供的一种基于位置大数据的精细时空尺度动态人口预测方法,以2018年中国东南沿海地区的广东省和福建省的精细时空尺度动态人口预测为例,依据本发明的技术实施方案,识别人类活动格网,构建区域动态人口密度预测模型,并进行模型精度评价。
参见图1,主要包括四大部分。首先,对数据进行预处理,包括投影、重采样、路径距离计算、降维和区域统计。其次,基于多源数据识别人类活动格网。然后,基于随机森林(Random forest,RF)、极端梯度提升(XGBoost)、地理加权回归模型(Geographicallyweighted regression, GWR)以及自编码深度残差网络模型(Autoencoder-basedResidual Deep Network,Resautonet),构建区域精细时空尺度动态人口密度预测模型,并预测公里格网动态人口密度,本发明将之称为TLRpop。最后,在乡镇街道尺度,利用年末常住人口统计数据(Census)、Worldpop和Landscan数据对动态人口密度预测精度进行评估。
图1中变量名对应全称请参见表1;区县尺度训练样本X and y中的X指区县尺度输入变量矩阵,y指2015年年末常住人口;格网尺度数据集:X,lng, lat, and y中X指格网尺度输入变量矩阵,lng指各格网经度,lat指各格网纬度,y指根据区县尺度动态人口密度预测值校正格网尺度初始动态人口密度预测值的结果,即区县尺度动态人口总量。
该实施例的区域精细时空尺度动态人口预测方法具体实施过程如下:
步骤1,多源数据预处理:对多源数据进行预处理,包括渔网生成、投影、重采样、路径距离计算、降维和区域统计等,获得格网和区县尺度各空间协变量的统计量。所述多源数据包括社会感知大数据、遥感影像和GIS数据,所述空间协变量是来自社会感知大数据、GIS数据和遥感影像的空间位置信息相关变量,所述格网的大小采用预设的距离尺度。
实施例中,步骤1具体实施步骤包括:
步骤1.1,分别合成格网尺度腾讯定位量和夜光亮度的校正年度平均值;
实施例中,对于腾讯定位请求数据(TLR),首先排除节假日数据和缺失数据,得到285天日常时段的有效数据。然后,分别在天和小时尺度上,根据各格网TLR量占全国TLR总量的比例,以及285天内全国TLR天尺度总量的平均值,两者相乘得到格网TLR校正值。对于夜光亮度(NTL),首先排除2018年春运时段的夜光亮度值,然后选择无人居住地区的夜光像素,计算NTL平均值(0.008)和标准差(0.432),将小于两者之和(0.44)的NTL亮度值作为系统波动进行排除,从而得到像素尺度NTL年平均值。
步骤1.2,在全国范围内创建矢量渔网,将Albers等积圆锥投影和等距圆锥投影分别作为矢量渔网的投影系统,对各空间协变量根据统计量性质进行Albers等积圆锥投影或等距圆锥投影;
实施例中,在全国范围内创建0.01°×0.01°的矢量渔网,矢量渔网即为由矩形格网组成的类似渔网的矢量图,渔网中每个格网具备唯一ID。
此处使用的空间协变量包括腾讯定位量(TLR)、高德POI(POI)、土地利用(LULC)、夜间灯光遥感(NTL)、全球城市足迹(GUF)、人类居住区(HS)、高程(DEM)、坡度(Slope)、河流(River)、路网(Road)等,具体统计量包括点、线、面要素的密度值,平均路径距离、变量平均值等。凡涉及距离和线段长度的统计量都采用等距圆锥投影后的变量进行统计,例如平均路径距离、道路长度、河流长度;涉及面积、点数的统计量都采用Albers等积圆锥投影后的变量进行统计。通过对渔网采用与各变量相应的投影系统,保持渔网和相应变量的空间一致。
具体实施时,空间协变量可根据具体情况选用,主要包括:
社会感知大数据,包括POI、TLR、微博等数据;
GIS数据,包括Road、行政区等数据;
遥感影像数据,包括LULC、NTL、GUF、HS、DEM/Slope、River等数据。
可以利用地图服务平台(例如腾讯)、微博平台(例如新浪微博)、数字地图(例如高德)提供的相关定位请求量数据和兴趣点数据。例如腾讯定位请求量数居中,包含微信、QQ、京东、滴滴出行等大流量软件,服务内容涵盖、社交、游戏、购物、出行、通信等诸多方面,能够提供有用的海量数据。
步骤1.3,分别对POI(兴趣点)和土地利用数据的各子类,按照属性的相似程度进行初步合并;
实施例中,分别对POI和土地利用数据中的各子类,按照属性的相似程度进行初步合并的结果为,将264个中类POI合并为36类,如将餐饮相关场所、中餐厅、外国餐厅、快餐厅初步合并为餐厅一类,将25个二级土地利用类型合并为10类,如将高覆盖草地、中覆盖草地、低覆盖草地初步合并为草地一类;
具体实施时,可以根据专家知识和行业习惯,将属性相似的小类合并为大类,也可以预先设定合并规则。
步骤1.4,对各空间协变量中的路径距离有关变量生成空间分辨率为~100m×100m的路径距离栅格;
实施例中,针对等距圆锥投影后的土地利用、POI、路网和河流数据中的各变量,分别生成空间分辨率为~100m×100m的路径距离栅格,以便后续步骤1.5中进行相应统计;
步骤1.5,在格网尺度和区县尺度统计各变量对应的不同类型统计量,主要包括三大类:密度值、平均路径距离、区域平均值;
实施例中,在0.01°×0.01°格网尺度(即1000m×1000m)和区县尺度统计各变量对应的统计量,点要素统计范围内的平均路径距离、平均密度(平均点个数),线要素统计范围内的平均路径距离、平均密度(长度,如道路长度),面要素统计范围内的平均路径距离、平均密度(平均面积),栅格数据需要统计范围内的区域平均值(如平均夜光亮度、平均腾讯定位量)。凡涉及距离和线段长度的统计量都采用等距圆锥投影后的变量进行统计,例如平均路径距离、道路长度、河流长度;涉及面积、点数的统计量都采用Albers等积圆锥投影后的变量进行统计。最终分别获取到格网尺度和区县尺度的输入变量110个。
后续步骤均根据0.01°×0.01°格网尺度和区县尺度的统计量进行。
步骤1.6,采用随机森林算法,通过构建与年末常住人口密度之间的回归关系,分别对POI、土地利用、路网的密度或路径距离进行降维。
实施例中,由于POI、土地利用、路网拥有多个属性维度,为了进一步防止格网尺度输入变量过于稀疏,同时提升模型的稳定性并降低计算复杂度,采用随机森林算法,在区县尺度分别构建年末常住人口密度与POI、土地利用、路网的密度或路径距离之间的回归模型。根据各变量的重要性(%IncMSE)计算组合变量的权重(表3-5),%IncMSE表示在随机森林模型中对特定变量进行置换后,预测值均方误差(mean squared error,MSE)的增加量,%IncMSE值越高就表明该变量在袋外交叉验证过程中越重要,即该变量重要性越大。然后,基于组合变量的权重,分别对POI、土地利用、路网的密度或路径距离进行降维,将同种类型的变量合并为一类,如将餐厅和休闲餐饮合并为一类餐饮。最终,将格网尺度和区县尺度的输入属性维度降至42个。数据集介绍见表1,最后的得到的输入属性变量见表2。
表1实施例使用的数据简介
注:“_den”代表密度值,对于面要素,密度值是特定区域内面要素总面积除以区域总面积;对于线要素,密度值是特定区域内线要素总长度除以区域总面积;对于点要素,密度值是特定区域内点要素总个数除以区域总面积。“_pdst”代表特定区域内的平均路径距离。“_mean”代表特定区域内变量的平均值。
表2 输入属性变量表
注:“_den”代表密度值,对于面要素,密度值是特定区域内面要素总面积除以区域总面积;对于线要素,密度值是特定区域内线要素总长度除以区域总面积;对于点要素,密度值是特定区域内点要素总个数除以区域总面积。“_pdst”代表特定区域内的平均路径距离。“_mean”代表特定区域内变量的平均值。
表3 POI数据重分类的类别和权重
表4 土地利用数据重分类的类别和权重
表5 路网数据重分类的类别和权重
步骤2,识别人类活动格网:根据格网尺度指示人类活动存在迹象的8个变量,判断该区域是否存在人类活动。
实施例中,步骤2具体实施步骤包括:
步骤2.1,采用各格网内的8个指标,包括腾讯定位量校正值的年中位数,夜光亮度值、新浪微博POI签到次数、高德POI数量、路网密度、GUF(全球城市足迹)面积、土地利数据中的人工地表面积、人类居住区面积,分别判断各指标是否大于零,并据此对格网进行二元分类;
实施例中,在0.01°×0.01°格网尺度,采用各格网内的8个指标,包括NLR校正值的年中位数,NLT亮度值、新浪微博POI签到次数(签到和照片)、高德POI数量、路网密度、城市足迹(GUF)面积、土地利用数据中的人工地表面积、人类居住区面积,分别判断各指标是否大于零,据此对格网进行二元分类,大于零就为1,否则为0。
步骤2.2,提取所有值为1的格网并集,这些格网表明至少有一个数据源证明该区域存在人类活动,将之定义为人类活动格网。
实施例中,提取8个指标中值为1的格网的并集。全国所有格网中28.93%(2,800,664个)被识别为人类活动格网,这些格网表明至少有一个数据源证明该区域存在人类活动。全国人类活动格网识别结果示意图如图2所示。图2中(a)为全国人类活动格网分布示意图,(b) -(e)为区域1、2、3、4的人类活动格网空间分布示意图,(f) -(i)为区域1、2、3、4的卫星遥感影像示意图;
步骤3,构建动态人口密度预测模型:在区县尺度上,基于空间协变量和人口统计数据对随机森林和XGBoost两个基模型分别进行训练,然后利用地理加权模型,对随机森林和XGBoost的预测结果进行局部加权综合,从而构建人口空间降尺度模型;利用自编码深度残差网络模型,训练得到动态人口密度预测模型,对省级范围内格网尺度动态人口密度初始预测值进行精校正,得到精校正后的省级范围格网尺度动态人口密度。
实施例中,步骤3具体实施步骤包括:
步骤3.1,在区县尺度上,利用各空间协变量和年末常住人口数据,对随机森林和XGBoost(极端梯度提升)两个基模型分别进行训练,然后利用地理加权模型,对随机森林和XGBoost的预测结果进行局部加权综合;
实施例中,以各区县42个属性作为输入变量(矩阵X),2015年年末常住人口密度作为输出变量(y),即因变量,对随机森林和XGBoost(极端梯度提升)这两个基模型进行训练。然后,以两个基模型预测的人口密度为自变量,2015年年末常住人口密度作为因变量,利用GWR(地理加权回归)模型对两个基模型的预测结果进行加权综合,得到25个针对不同时间(年平均的天尺度或小时尺度)的人口空间降尺度模型。
其中,随机森林和XGBoost、GWR模型实施时可参考现有技术,本发明提出优选并结合应用于得到人口空间降尺度模型,不予赘述。
步骤3.2,在格网尺度上,利用步骤3.1训练的人口空间降尺度模型,计算动态人口密度的初始预测值,即格网尺度初始动态人口密度预测值;
实施例中,以各格网42个属性作为输入变量,利用第一步训练好的模型,获得格网尺度动态人口密度的初始预测值,其中输入变量的NLR值为每天或每小时格网NLR校正密度值。
步骤3.3,在区县尺度(NLR)上,利用地理加权回归模型,构建腾讯定位量校正年平均密度值与年末常住人口密度之间的稳健回归关系,并据此预测区县尺度动态人口总量;
实施例中,以天或小时尺度TLR校正年平均密度值作为自变量,2015年年末常住人口密度作为因变量,采用GWR模型构建两者之间稳健的函数关系,得到25个针对不同时间的GWR模型。然后,以每天或每小时的TLR校正密度值作为输入,基于GWR模型预测区县尺度动态人口密度,并将之作为约束条件,对步骤3.2获得的格网尺度动态人口密度的初始预测值进行调整。
步骤3.4,以步骤3.3获得的区县尺度动态人口总量作为约束条件,在省级范围格网尺度上,利用自编码深度残差网络模型,训练各空间协变量与步骤3.2获得的动态人口密度的初始预测值之间的函数关系;
实施例中,以各格网中心经度(lng)和纬度(lat)以及42个属性作为输入变量,调整后的动态人口密度初始预测值作为输出变量,对Resautonet(基于自动编码器的剩余深度网络)模型进行训练。在Resautonet模型训练过程中,可以随机选择所有人类活动格网中的30%作为验证样本,剩余格网中选择70%作为训练样本。
步骤3.5,利用训练好的自编码深度残差网络模型,对格网尺度动态人口密度进行预测,得到精校正后的省级范围格网尺度动态人口密度。
实施例中,利用训练好的Resautonet模型对格网尺度动态人口密度进行预测,得到最终省级范围格网尺度动态人口密度预测。天尺度不同模型预测的格网人口密度如图3所示。
步骤4,超参数优化及模型精度评估:采用机器学习网格搜索技术和经验知识,实现模型的超参数优化,并在不同尺度上对动态人口密度预测精度进行评估。
实施例中,步骤4具体实施步骤包括:
步骤4.1,基于机器学习网格搜索技术,分别对随机森林、XGBoost的超参数进行优化,根据经验知识,对地理加权回归和自编码深度残差网络模型进行参数优化;
实施例中,采用机器学习网格搜索技术对随机森林和XGBoost模型进行优化。优选地,对于随机森林,网格由森林中树的个数(100-3000)、最大特征数(10-30)、树的最大深度(10-30)等组成,以实现最佳搜索。对于XGBoost,网格由梯度增强数的数量(100-2000)、最大树深度(3-10)、学习率(0.01-0.5)、每棵树随机采样的比例(0.5-1)等组成,以实现最佳搜索。GWR模型中核函数为自适应高斯核,最佳带宽选择采用修正的赤池信息准则(AkaikeInformation Criterion, AICc)。具体实施时,对于基于自动编码器的残差网络,可根据Lianfa Li(2019)中的经验知识构建网络和确定超参数,该网络包括44个输入节点和1个输出节点。
步骤4.2,在区县尺度上,采用十折交叉验证法评估随机森林和XGBoost模型的精度,采用留一法交叉验证评估地理加权回归模型的精度;
实施例中,在区县尺度上,分别采用十折交叉验证法对随机森林和XGBoost模型进行精度评估。首先,将全国2654个区县按空间分层抽样方法分为10份大小相等的子样本集;然后,利用其中9个子样本集训练模型,剩余的1个子样本集测试模型精度;交叉验证过程重复10次,直到每个子样本集都被依次用作测试数据为止;对于县级尺度GWR模型,考虑到其需要更多样本用于局部回归,采用留一法交叉验证评估GWR模型精度。
步骤4.3,在格网尺度上,按空间分层抽样方法选择30%作为验证样本,剩余格网中选择70%作为训练样本,30%作为测试样本,据此对自编码深度残差网络模型精度进行评估。
实施例中,对于格网尺度Resautonet精度评估,在同一区域的人类活动格网中,按空间分层抽样方法选择30%作为验证样本,剩余格网中选择70%作为训练样本,30%作为测试样本,然后计算模型精度。
步骤4.4,基于年末常住人口统计数据,在乡镇街道尺度上评估TLRpop、Wordpop和Landscan三种人口数据集的精度差异,并在格网尺度上,基于卫星遥感影像,评估三种人口数据集的预测差异。
实施例中,在动态人口密度预测精度评估方面,首先在乡镇街道尺度上,评估TLRpop、Wordpop和Landscan与年末常住人口统计数据之间的R2和RMSE。
TLRpop为本研究基于随机森、极端梯度提升、地理加权回归模型以及自编码深度残差网络模型构建的区域精细时空尺度动态人口密度预测模型预测出的公里格网动态人口密度数据。
Landscan人口分布数据,来源于美国国家能源部橡树岭国家实验室网站。该数据是基于土地覆被、道路坡度、夜间灯光、城市密度、村庄位置等指示人口分布的关键指标,结合对各地区社会经济和文化相关知识,采用本地自适应的智能插值方法生成格网尺度环境人口数据。
Worldpop人口分布数据,来源于英国南安普顿大学Worldpop项目网站。该数据是基于土地覆被、路网、高程坡度、夜间灯光、城市范围、海岸线等多源遥感和GIS数据,采用基于随机森林的半自动分区制图法将人口统计数据降尺度到格网而生成的人口数据。
通过与街道尺度年末常住人口密度对比可知,如图4所示,TLRpop的整体精度比Worldpop、Landscan更高。然后在格网尺度对比这三种人口数据预测值之间的区别,并结合卫星遥感影像分析这三种人口数据的异同点。省级范围内格网尺度不同数据集的人口密度空间分布对比图如图5所示,格网尺度不同数据集的人口密度空间分布显示TLRpop与地面真实人口分布之间更加吻合。通过结合遥感影像对比可知(图6),TLRpop人口密度空间分布与地面真实人口分布趋势之间的关系更加一致。
具体实施时,该方法可采用计算机软件技术实现自动运行流程,实施方法流程的相应系统装置也在本发明的保护范围内。
在一些可能的实施例中,提供一种基于位置大数据的精细时空尺度动态人口预测系统,包括以下模块,
第一模块,用于对多源数据进行预处理,所述多源数据包括社会感知大数据、遥感影像和GIS数据,获得格网和区县尺度各空间协变量的统计量,所述空间协变量是来自社会感知大数据、GIS数据和遥感影像的空间位置信息相关变量,所述格网的大小采用预设的距离尺度;
第二模块,用于识别人类活动格网,包括根据格网尺度指示人类活动存在迹象的相关空间协变量,判断相应区域是否存在人类活动;
第三模块,用于构建动态人口密度预测模型,包括在区县尺度上,基于空间协变量和人口统计数据对随机森林和XGBoost两个基模型分别进行训练,然后利用地理加权模型,对随机森林和XGBoost的预测结果进行局部加权综合,从而构建25个人口空间降尺度模型,包括1个日尺度人口空间降尺度模型和24个小时尺度人口空间降尺度模型;利用自编码深度残差网络模型,训练得到动态人口密度预测模型,对省级范围内格网尺度动态人口密度初始预测值进行精校正,得到精校正后的省级范围格网尺度动态人口密度;
第四模块,优化超参数及评估模型精度,包括采用机器学习网格搜索技术和经验知识,实现地理加权回归模型和自编码深度残差网络模型的超参数优化,并在不同尺度上对动态人口密度预测精度进行评估。
在一些可能的实施例中,提供一种基于位置大数据的精细时空尺度动态人口预测系统,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用处理器中的存储指令执行如上所述的一种基于位置大数据的精细时空尺度动态人口预测方法。
在一些可能的实施例中,提供一种基于位置大数据的精细时空尺度动态人口预测系统,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种基于位置大数据的精细时空尺度动态人口预测方法。
应当理解的是,上述针对实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (6)
1.一种基于位置大数据的精细时空尺度动态人口预测方法,其特征在于:包括以下步骤,
步骤1,对多源数据进行预处理,所述多源数据包括社会感知大数据、遥感影像和GIS数据,获得格网和区县尺度各空间协变量的统计量,所述空间协变量是来自社会感知大数据、GIS数据和遥感影像的空间位置信息相关变量,所述格网的大小采用预设的距离尺度;
步骤2,识别人类活动格网,包括根据格网尺度指示人类活动存在迹象的相关空间协变量,判断相应区域是否存在人类活动;
步骤3,构建动态人口密度预测模型,包括在区县尺度上,基于空间协变量和人口统计数据对随机森林和XGBoost两个基模型分别进行训练,然后利用地理加权模型,对随机森林和XGBoost的预测结果进行局部加权综合,从而构建25个人口空间降尺度模型,包括1个日尺度人口空间降尺度模型和24个小时尺度人口空间降尺度模型;利用自编码深度残差网络模型,训练得到动态人口密度预测模型,对省级范围内格网尺度动态人口密度初始预测值进行精校正,得到精校正后的省级范围格网尺度动态人口密度;
实现过程包括以下子步骤,
步骤3.1,在区县尺度上,利用各空间协变量和年末常住人口数据,对随机森林和XGBoost两个基模型分别进行训练,然后利用地理加权回归模型,对随机森林和XGBoost的预测结果进行局部加权综合,得到人口空间降尺度模型;
步骤3.2,在格网尺度上,利用步骤3.1训练的人口空间降尺度模型,计算动态人口密度的初始预测值;
步骤3.3,在区县尺度上,利用地理加权回归模型,构建地图服务定位请求量校正年平均密度值与年末常住人口密度之间的稳健回归关系,并据此预测区县尺度动态人口总量;
步骤3.4,以步骤3.3获得的区县尺度动态人口总量作为约束条件,在省级范围格网尺度上,利用自编码深度残差网络模型,训练各空间协变量与步骤3.2获得的动态人口密度的初始预测值之间的函数关系;
步骤3.5,利用训练好的自编码深度残差网络模型,对省级范围格网尺度动态人口密度进行预测,生成区域精细时空尺度动态人口数据集TLRpop;
步骤4,优化超参数及评估模型精度,包括采用机器学习网格搜索技术和经验知识,实现随机森林和XGBoost基模型、地理加权回归模型及自编码深度残差网络模型的超参数优化,并在不同尺度上对动态人口密度预测精度进行评估。
2.根据权利要求1所述基于位置大数据的精细时空尺度动态人口预测方法,其特征在于:步骤1的实现包括以下子步骤,
步骤1.1,分别合成格网尺度地图服务定位请求量和夜光亮度的校正年度平均值;
步骤1.2,在全国范围内创建矢量渔网,将Albers等积圆锥投影和等距圆锥投影分别作为矢量渔网的投影系统,对各空间协变量根据统计量性质进行Albers等积圆锥投影或等距圆锥投影;
步骤1.3,分别对POI和土地利用数据的各子类,按照属性的相似程度进行初步合并;
步骤1.4,对各空间协变量中的路径距离有关变量生成预设空间分辨率的路径距离栅格;
步骤1.5,在格网尺度和区县尺度统计各变量对应的不同类型统计量,包括密度值、平均路径距离和区域平均值;
步骤1.6,采用随机森林算法,通过构建与年末常住人口密度之间的回归关系,分别对空间协变量中POI、土地利用、路网的密度或路径距离进行降维。
3.根据权利要求2所述基于位置大数据的精细时空尺度动态人口预测方法,其特征在于:步骤2的实现包括以下子步骤,
步骤2.1,采用各格网内的相关指标,包括根据步骤1所得格网尺度各空间协变量的统计量中地图服务定位请求量校正值的年中位数,夜光亮度值、微博平台POI签到次数、数字地图POI数量、路网密度、GUF面积、土地利用数据中的人工地表面积和人类居住区面积,分别判断各指标是否大于零,并据此对格网进行二元分类,大于零就为1,否则为0;
步骤2.2,提取所有值为1的格网并集,这些格网表明至少有一个数据源证明该区域存在人类活动,定义为人类活动格网。
4.根据权利要求3所述基于位置大数据的精细时空尺度动态人口预测方法,其特征在于:步骤4的实现包括以下子步骤,
步骤4.1,基于机器学习网格搜索技术,分别对随机森林、XGBoost基模型的超参数进行优化,根据经验知识,对地理加权回归和自编码深度残差网络模型进行参数优化;
步骤4.2,在区县尺度上,采用十折交叉验证法评估随机森林和XGBoost模型的精度,采用留一法交叉验证评估地理加权回归模型的精度;
步骤4.3,在格网尺度上,按空间分层抽样方法选择30%作为验证样本,剩余格网中选择70%作为训练样本,30%作为测试样本,据此对自编码深度残差网络模型精度进行评估;
步骤4.4,基于年末常住人口统计数据,在乡镇街道尺度上评估TLRpop、Wordpop和Landscan三种人口数据集的精度差异,并在格网尺度上,基于卫星遥感影像,评估三种人口数据集的预测差异。
5.一种基于位置大数据的精细时空尺度动态人口预测系统,其特征在于:用于实现如权利要求1-4任一项所述的一种基于位置大数据的精细时空尺度动态人口预测方法。
6.根据权利要求5所述基于位置大数据的精细时空尺度动态人口预测系统,其特征在于:包括以下模块,
第一模块,用于对多源数据进行预处理,所述多源数据包括社会感知大数据、遥感影像和GIS数据,获得格网和区县尺度各空间协变量的统计量,所述空间协变量是来自社会感知大数据、GIS数据和遥感影像的空间位置信息相关变量,所述格网的大小采用预设的距离尺度;
第二模块,用于识别人类活动格网,包括根据格网尺度指示人类活动存在迹象的相关空间协变量,判断相应区域是否存在人类活动;
第三模块,用于构建动态人口密度预测模型,包括在区县尺度上,基于空间协变量和人口统计数据对随机森林和XGBoost两个基模型分别进行训练,然后利用地理加权模型,对随机森林和XGBoost的预测结果进行局部加权综合,从而构建25个人口空间降尺度模型,包括1个日尺度人口空间降尺度模型和24个小时尺度人口空间降尺度模型;利用自编码深度残差网络模型,训练得到动态人口密度预测模型,对省级范围内格网尺度动态人口密度初始预测值进行精校正,得到精校正后的省级范围格网尺度动态人口密度;
实现过程包括以下子步骤,
步骤3.1,在区县尺度上,利用各空间协变量和年末常住人口数据,对随机森林和XGBoost两个基模型分别进行训练,然后利用地理加权回归模型,对随机森林和XGBoost的预测结果进行局部加权综合,得到人口空间降尺度模型;
步骤3.2,在格网尺度上,利用步骤3.1训练的人口空间降尺度模型,计算动态人口密度的初始预测值;
步骤3.3,在区县尺度上,利用地理加权回归模型,构建地图服务定位请求量校正年平均密度值与年末常住人口密度之间的稳健回归关系,并据此预测区县尺度动态人口总量;
步骤3.4,以步骤3.3获得的区县尺度动态人口总量作为约束条件,在省级范围格网尺度上,利用自编码深度残差网络模型,训练各空间协变量与步骤3.2获得的动态人口密度的初始预测值之间的函数关系;
步骤3.5,利用训练好的自编码深度残差网络模型,对省级范围格网尺度动态人口密度进行预测,生成区域精细时空尺度动态人口数据集TLRpop;
第四模块,优化超参数及评估模型精度,包括采用机器学习网格搜索技术和经验知识,实现随机森林和XGBoost基模型、地理加权回归模型及自编码深度残差网络模型的超参数优化,并在不同尺度上对动态人口密度预测精度进行评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011005973.6A CN111932036B (zh) | 2020-09-23 | 2020-09-23 | 基于位置大数据的精细时空尺度动态人口预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011005973.6A CN111932036B (zh) | 2020-09-23 | 2020-09-23 | 基于位置大数据的精细时空尺度动态人口预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111932036A CN111932036A (zh) | 2020-11-13 |
CN111932036B true CN111932036B (zh) | 2021-01-08 |
Family
ID=73334031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011005973.6A Active CN111932036B (zh) | 2020-09-23 | 2020-09-23 | 基于位置大数据的精细时空尺度动态人口预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111932036B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418508B (zh) * | 2020-11-19 | 2021-10-08 | 中国科学院地理科学与资源研究所 | 基于物理空间与社交网络空间交互的人口分布预测方法 |
CN112381332A (zh) * | 2020-12-02 | 2021-02-19 | 中国科学院空天信息创新研究院 | 一种基于聚落对象的人口空间分布预测方法 |
CN112801377B (zh) * | 2021-01-29 | 2023-08-22 | 腾讯大地通途(北京)科技有限公司 | 一种对象估计方法、装置、设备及存储介质 |
CN112884215A (zh) * | 2021-02-02 | 2021-06-01 | 国网甘肃省电力公司信息通信公司 | 一种基于梯度增强树人口预测模型的参数优化方法 |
CN113191527A (zh) * | 2021-03-19 | 2021-07-30 | 特斯联科技集团有限公司 | 一种基于预测模型进行人口预测的预测方法及装置 |
CN112925784B (zh) * | 2021-03-29 | 2023-10-10 | 广州市规划和自然资源自动化中心(广州市基础地理信息中心) | 一种实有人口数据多尺度空间化方法 |
CN113392585B (zh) * | 2021-06-10 | 2023-11-03 | 京师天启(北京)科技有限公司 | 一种污染地块周边敏感人群空间化方法 |
CN113298439A (zh) * | 2021-06-22 | 2021-08-24 | 中国平安财产保险股份有限公司 | 基于人口分布的环境风险评估方法、装置及计算机设备 |
CN113722988B (zh) * | 2021-08-18 | 2024-01-26 | 扬州大学 | 定量构效关系模型预测有机物pdms膜-空气分配系数的方法 |
CN114090714B (zh) * | 2021-11-22 | 2022-04-29 | 中国矿业大学(北京) | 基于地理格网模型矿区生态演变大数据多尺度查询方法 |
CN115331425B (zh) * | 2022-06-30 | 2023-12-19 | 银江技术股份有限公司 | 一种交通预警方法、装置和系统 |
CN115525872B (zh) * | 2022-10-13 | 2023-09-15 | 北京城建交通设计研究院有限公司 | 一种融合位置数据的建筑体尺度人口两步贝叶斯估计方法 |
CN115758894B (zh) * | 2022-11-23 | 2023-07-14 | 天津市城市规划设计研究总院有限公司 | 基于迭代比例更新的人口微观数据逐年反演系统及方法 |
CN116150230B (zh) * | 2023-03-02 | 2023-08-29 | 重庆市规划和自然资源信息中心 | 基于多空间尺度进行动态住房人口登记监测方法 |
CN116721781A (zh) * | 2023-07-11 | 2023-09-08 | 中国科学院地理科学与资源研究所 | 虫媒传染病传播风险的预测方法、装置、电子设备及介质 |
CN117077037B (zh) * | 2023-08-23 | 2024-04-16 | 广东国地规划科技股份有限公司 | 一种建筑物尺度动态人口估算方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218517A (zh) * | 2013-03-22 | 2013-07-24 | 南京信息工程大学 | 基于gis的区域网格化人口密度空间化计算方法 |
CN109376969A (zh) * | 2018-12-14 | 2019-02-22 | 中南大学 | 基于深度学习的城市精细化人口分布动态预测方法及装置 |
CN110704565A (zh) * | 2019-09-27 | 2020-01-17 | 泉州师范学院 | 一种基于遥感与gis的人口统计数据网格化建模方法 |
WO2020101241A1 (ko) * | 2018-11-15 | 2020-05-22 | 한양대학교 산학협력단 | 원전사고시 비상대응 인구분석 및 오염도 추정 방법 |
-
2020
- 2020-09-23 CN CN202011005973.6A patent/CN111932036B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218517A (zh) * | 2013-03-22 | 2013-07-24 | 南京信息工程大学 | 基于gis的区域网格化人口密度空间化计算方法 |
WO2020101241A1 (ko) * | 2018-11-15 | 2020-05-22 | 한양대학교 산학협력단 | 원전사고시 비상대응 인구분석 및 오염도 추정 방법 |
CN109376969A (zh) * | 2018-12-14 | 2019-02-22 | 中南大学 | 基于深度学习的城市精细化人口分布动态预测方法及装置 |
CN110704565A (zh) * | 2019-09-27 | 2020-01-17 | 泉州师范学院 | 一种基于遥感与gis的人口统计数据网格化建模方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111932036A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111932036B (zh) | 基于位置大数据的精细时空尺度动态人口预测方法及系统 | |
Patel et al. | Improving large area population mapping using geotweet densities | |
CN108446293B (zh) | 一种基于城市多源异构数据构建城市画像的方法 | |
Zerger et al. | Beyond modelling: linking models with GIS for flood risk management | |
Tingzon et al. | Mapping poverty in the Philippines using machine learning, satellite imagery, and crowd-sourced geospatial information | |
Feng et al. | Modeling urban growth with GIS based cellular automata and least squares SVM rules: a case study in Qingpu–Songjiang area of Shanghai, China | |
Chen et al. | High‐resolution gridded population projections for China under the shared socioeconomic pathways | |
Malik et al. | Population bias in geotagged tweets | |
Gharbia et al. | Land use scenarios and projections simulation using an integrated GIS cellular automata algorithms | |
Pijanowski et al. | Modelling urbanization patterns in two diverse regions of the world | |
Feng et al. | Modelling coastal land use change by incorporating spatial autocorrelation into cellular automata models | |
CN109782373B (zh) | 一种基于改进的Naive Bayesian-CNN多目标分类算法的沙尘暴预测方法 | |
CN112200358B (zh) | 一种滑坡等级预测方法、装置、设备和存储介质 | |
Chen et al. | Downscaling census data for gridded population mapping with geographically weighted area-to-point regression kriging | |
Mast et al. | Mapping urban villages using fully convolutional neural networks | |
Yang et al. | A two-level random forest model for predicting the population distributions of urban functional zones: A case study in Changsha, China | |
Tu et al. | Quantitative analysis of urban polycentric interaction using nighttime light data: A case study of Shanghai, China | |
CN115129802A (zh) | 一种基于多源数据和集成学习的人口空间化方法 | |
Momeni et al. | Pattern‐based calibration of cellular automata by genetic algorithm and Shannon relative entropy | |
Tiancheng et al. | Application of Improved Naive Bayesian‐CNN Classification Algorithm in Sandstorm Prediction in Inner Mongolia | |
Wang et al. | Incorporation of intra-city human mobility into urban growth simulation: A case study in Beijing | |
Xia et al. | Research on the estimation of the real-time population in an earthquake area based on phone signals: A case study of the Jiuzhaigou earthquake | |
Chen et al. | Sustainable land use dynamic planning based on GIS and symmetric algorithm | |
Mubea et al. | Spatial effects of varying model coefficients in urban growth modeling in Nairobi, Kenya | |
CN115169718A (zh) | 基于元胞自动机的区域滑坡危险性动态预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |