CN117077037B - 一种建筑物尺度动态人口估算方法及系统 - Google Patents
一种建筑物尺度动态人口估算方法及系统 Download PDFInfo
- Publication number
- CN117077037B CN117077037B CN202311067158.6A CN202311067158A CN117077037B CN 117077037 B CN117077037 B CN 117077037B CN 202311067158 A CN202311067158 A CN 202311067158A CN 117077037 B CN117077037 B CN 117077037B
- Authority
- CN
- China
- Prior art keywords
- data
- building
- random forest
- forest model
- population
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 104
- 238000007637 random forest analysis Methods 0.000 claims abstract description 210
- 238000012549 training Methods 0.000 claims abstract description 80
- 238000012216 screening Methods 0.000 claims abstract description 77
- 230000008569 process Effects 0.000 claims abstract description 60
- 230000003068 static effect Effects 0.000 claims description 49
- 238000003066 decision tree Methods 0.000 claims description 40
- 238000012360 testing method Methods 0.000 claims description 40
- 238000011156 evaluation Methods 0.000 claims description 35
- 238000000605 extraction Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 14
- 230000029305 taxis Effects 0.000 claims description 12
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Tourism & Hospitality (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Remote Sensing (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Medical Informatics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种建筑物尺度动态人口估算方法及系统,所述方法包括:获取目标区域中包含预设第一特征的实时数据;将所述实时数据输入至预设的随机森林模型,以使所述随机森林模型根据所述实时数据,对目标区域进行建筑物尺度动态人口的估算;其中,所述随机森林模型是根据目标区域中包含预设第二特征的数据训练获得,所述第一特征是在所述随机森林模型训练过程中通过对所述第二特征进行特征筛选确定,所述第二特征包括目标区域的建筑、交通、人口数据。相比于现有技术,本发明基于随机森林模型,根据目标区域的实时数据动态地估算目标区域的建筑物尺度人口空间分布,提高了建筑物尺度人口估算的动态性和准确性。
Description
技术领域
本发明涉及地理信息科学和城市规划领域,具体来说,本发明涉及一种建筑物尺度动态人口估算方法及系统。
背景技术
精细尺度的人口空间分布数据是城市规划、设施配置、应急救灾等的重要基础支撑。目前,人口数据获取手段主要为人口普查,虽然人口普查数据具有准确性等优势,但存在更新周期长、空间分辨率低、耗时费力等不足。精细空间尺度规则单元人口数据主要有格网人口和建筑物人口两类,格网尺度人口虽然具有计算简便等优势,但往往会造成对自然地物的分割,且并不能代表人类真实聚居载体等缺点,在各类应用的适用性方面存在不足。建筑物是人类活动的基本单元和主要载体,以建筑物为基本单元描述人口的空间分布,具有真实性、高可用性等特点,建筑物尺度的动态人口数据具有广泛的应用前景。因此,建筑物尺度的人口空间分布估算可以弥补传统统计调查耗时费力、难以快速获取等不足,且相较格网人口数据等具有更高的可用性。
建筑尺度的人口空间估算,现有技术主要使用多智能体模型和基于机器学习的人口估算方法,多智能体模型的决策过程和决策结果依赖翔实的数据,由于相关精细尺度的输入数据较难获取,且有些数据对精细人口分布特征的刻画作用稍弱,所以存在一定困难。基于机器学习的人口估算方法,多考虑建筑物容量以及建筑物附着设施(POI等),未能系统地从建筑物本身容量、周边交通及区位状况、经济及社会活动情况等方面综合考虑,且人口估算局限于某个时间片段,无法根据经济活动、人口迁徙等的变化进行动态估算,估算的准确性和动态性有限。
发明内容
本发明提供了一种建筑物尺度动态人口估算方法及系统,解决建筑物尺度人口估算中动态性和准确性不高的问题。
为了解决上述技术问题,第一方面,本发明实施例提供了一种建筑物尺度动态人口估算方法,包括:
获取目标区域中包含预设第一特征的实时数据;
将所述实时数据输入至预设的随机森林模型,以使所述随机森林模型根据所述实时数据,对目标区域进行建筑物尺度动态人口的估算;
其中,所述随机森林模型是根据目标区域中包含预设第二特征的数据训练获得,所述第一特征是在所述随机森林模型训练过程中通过对所述第二特征进行特征筛选确定,所述第二特征包括目标区域的建筑、交通、人口数据,所述第二特征是根据所述目标区域中影响建筑尺度人口分布的静态数据和动态数据进行特征提取获得。
本发明实施例根据目标区域的建筑尺度相关数据训练随机森林模型,并在训练过程中对模型所需特征进行了筛选,在保持模型精确度的同时减少了模型所需的特征数量,对模型进行了简化,提升了模型的性能,也减少了后续使用模型过程中收集数据的工作量;训练后的随机森林模型可以根据目标区域的实时数据动态地估算目标区域的建筑物尺度人口空间分布,提高建筑物尺度人口估算的动态性和准确性。
在一种可能实现的方式中,所述第二特征是根据所述目标区域中影响建筑尺度人口分布的静态数据和动态数据进行特征提取获得,具体为:
获取目标区域中影响建筑尺度人口分布的静态数据和动态数据;
通过地理信息系统从所述静态数据中提取所述目标区域的建筑物基底面积、建筑物高度、建筑物体积、所述建筑物到最邻近道路的距离、所述建筑物周围的路网密度、所述建筑物到最邻近水系的距离、所述建筑物到最邻近建筑物的距离、所述建筑物周围的POI核密度值,作为静态特征;所述静态数据包括:所述目标区域中的建筑物以及建筑物周围的路网、水系数据;
将所述静态特征和从所述动态数据中提取的动态特征,作为所述第二特征;其中,所述动态数据包括:所述目标区域中的月度NPP/VIIRS夜间灯光数据、交通数据和LBS数据。
本发明实施例将模型所需的数据分为静态数据和动态数据,静态数据的更新周期为年度及以上,方便收集与处理,且不需要频繁更新;动态数据更新频率较快,是动态估算建筑物尺度人口的关键。在后续使用随机森林模型进行人口估算的过程中,相关技术人员可以更关注动态数据,主要收集动态数据,提高工作效率。对于静态特征可以直接使用地理信息系统对静态数据进行相应操作获得,减少了特征提取过程中的工作量。
进一步的,所述从所述动态数据中提取的动态特征,具体为:
将所述目标区域的建筑物该月所在位置的夜间灯光强度值减去所述目标区域的该月最小夜间灯光强度值后,除以所述目标区域的该月最大与最小夜间灯光强度值之差获得所述目标区域的标准化月度夜间灯光强度;
根据所述交通数据提取所述目标区域出租车每次行程的起讫点,构建出行特征向量并结合所述目标区域的建筑物分布状况,在所述地理信息系统中提取所述建筑物周围的出租车出行特征向量起讫点核密度值;
根据所述建筑物的面积占所在LBS网格中总建筑面积的比例分配该网格中的LBS人口值,提取所述建筑物的LBS人口值;
根据地图软件中的交通拥堵指数数据,提取路网的交通拥堵指数值;
将所述标准化月度夜间灯光强度、建筑物周围的出租车出行特征向量起讫点核密度值、建筑物的LBS人口值和路网的交通拥堵指数值,作为所述动态特征。
本发明实施例提供了一种从动态数据中提取动态特征的方法,选取标准化月度夜间灯光强度、建筑物周围的出租车出行特征向量起讫点核密度值、建筑物的LBS人口值和路网的交通拥堵指数值作为模型所需的动态特征,综合考虑了建筑物周边的交通情况、区位状况和人口活动情况等影响人口分布的要素,使建模过程更为合理,估算结果更为准确。
在一种可能实现的方式中,所述随机森林模型是根据目标区域中包含预设第二特征的数据训练获得,具体为:
模型初始化过程,以建筑尺度城市实有人口数据建立样本数据集,以所述第二特征作为模型的初始特征,以选取决策数个数、最大特征数、子数最大深度、叶子节点最小样本数、采样规则、子树划分评价规则、袋外估计作为模型的初始参数,构建初始随机森林模型;
模型训练过程,根据所述样本数据集对所述初始随机森林模型进行训练,并在训练过程中对所述初始随机森林模型进行特征筛选和超参数优化,获得所述随机森林模型。
本发明实施例通过所述第二特征以及7个主要参数构建初始随机森林模型,并通过特征筛选和超参数优化进一步训练模型,在简化模型的同时提高了模型的精确度。在数据集选取方面,使用建筑尺度城市实有人口数据建立样本数据集,使得数据集与人口估算模型的适配度很高且样本充足,以所述数据集训练出来的模型对于目标区域的人口估算具有更高的准确性。
进一步的,在模型训练过程中,对所述初始随机森林模型进行特征筛选,具体为:
所述特征筛选为多轮筛选过程,在每一轮筛选过程中,计算所有参与筛选的特征的重要性,将所述重要性小于预设阈值的特征从所述初始随机森林模型中删除,对剩余特征按所述重要性由小到大进行检索,每次检索到的特征记为待删除特征,将所述待删除特征暂时删除,利用剩下的特征重新构建初始随机森林模型,如果所述重新构建的初始随机森林模型的估算精度下降,则保留所述待删除特征,继续检索下一个特征;否则删除所述待删除特征,停止本轮筛选并进入下一轮筛选;当在一轮筛选中未删除任何特征,则结束特征筛选,所述初始随机森林模型中剩余的特征为所述第一特征;其中,所述特征的重要性的计算过程为:
将袋外数据输入所述初始随机森林模型中的所有决策树进行测试,得到初始袋外错误样本数,其中,所述袋外数据为在随机森林模型训练过程中,训练数据中未被采样的数据;
将所述袋外数据中的某个特征进行随机置换,将所述置换后的袋外数据输入所述初始随机森林模型中的所有决策树进行测试,得到置换后袋外错误样本数;计算置换前与置换后的袋外数据分类误差平均变化量,获得该特征的重要性。
本发明实施例提供了一种特征筛选的方法,根据特征的重要性以及该特征对模型的影响进行特征筛选。首先直接去除对重要性小于预设值的特征,这一步骤可以排除对模型影响非常小的特征,避免这些特征占用迭代次数,缩短了训练模型的时间。然后对剩余特征以重要性从小到大进行检索,通过比较筛除该特征前后该模型的估算精度的变化来决定是否筛除该特征,确保正确筛除无关特征。此外,本发明实施例还提供了一种计算特征重要性的方法,由于袋外数据是原始数据随机抽样后的剩余数据,所以使用袋外数据作为测试数据,可以有效利用原始数据,同时确保测试结果准确、可信;使用对测试数据中的特征进行随机置换的手段,以置换前后的分类误差平均变化量来表示特征重要性的方法,逻辑合理且易于操作和计算。
进一步的,对所述初始随机森林模型进行超参数优化,具体为:
在超参数的取值范围内,使用网格交叉搜索法对超参数不同取值进行排列组合,并利用五折交叉验证的方法验证超参数值改变后模型的性能,最终得到最优的模型超参数组合结果;其中,所述超参数包括:决策树的数量、不纯度的衡量指标、树的最大深度、拆分内部节点所需的最小样本数、叶子节点上所需的最小样本数、在寻找最佳分裂节点所考虑的最大特征数。
本发明实施例提供了一种超参数优化的方法并指定了随机森林模型需要优化的超参数,使用网格交叉搜索法对超参数的取值进行排列组合,可以遍历全部的取值组合,避免遗漏最优组合;使用五折交叉验证法验证模型的性能,可以有效利用数据,减少测试结果的偏差。
在一种可能实现的方式中,将所述实时数据输入至预设的随机森林模型,以使所述随机森林模型根据所述实时数据,对目标区域进行建筑物尺度动态人口的估算,具体为:以目标区域中的建筑物为单位,输入包含所述第一特征的建筑物数据至所述随机森林模型,所述随机森林模型中的各个决策树根据各个建筑物数据中的第一特征的值以及决策树内部的决策规则,输出对各个建筑物的人口估算结果;所述随机森林模型按照预设的规则整合所述各个决策树输出的结果,得到所述随机森林模型对各个建筑物的人口估算值。
本发明实施例基于训练好的随机森林模型,根据输入的实时建筑物数据在建筑物尺度上进行人口估算,经过决策森林中各个决策树的内部决策输出多个结果,以及决策森林对各个决策树的输出结果进行整合,最终输出各个建筑人口估算值,实现了基于随机森林模型动态估算目标区域的建筑物尺度人口。
在一种可能实现的方式中,当所述随机森林模型的训练完成后,对所述随机森林模型进行精度评价;当所述人口估算过程完成后,对所述随机森林模型的估算结果进行精度评价,具体为:
使用测试数据对所述随机森林模型进行测试,计算测试数据的真实值和估计值之间的决定系数、均方根误差和残差,根据所述决定系数、均方根误差和残差的值,对所述随机森林模型进行精度评价;
将所述随机森林模型的人口估算结果与所述目标区域的街道尺度人口普查数据、WorldPop数据集进行比较,以相对误差和平均相对误差作为评价指标,对所述人口估算结果进行精度评价。
本发明实施例提供了一种对随机森林模型精度以及估算结果的评价方法,当所述随机森林模型训练过程完成后,使用测试数据对所述随机森林模型进行精度评价;当所述人口估算过程完成后,使用街道尺度人口普查数据、WorldPop数据集对所述随机森林模型的估算结果进行精度评价,进一步保证了模型的稳定性与准确性。
第二方面,相应的,本发明实施例还提供了一种建筑物尺度动态人口估算系统,包括:获取模块、估算模块和训练模块;
其中,所述获取模块用于获取目标区域中包含预设第一特征的实时数据;
所述估算模块用于将所述实时数据输入至预设的随机森林模型,以使所述随机森林模型根据所述实时数据,对目标区域进行建筑物尺度动态人口的估算;
所述训练模块用于根据目标区域中包含预设第二特征的数据对初始随机森林模型进行训练,获得所述随机森林模型;
所述第一特征是在所述随机森林模型训练过程中通过对所述第二特征进行特征筛选确定,所述第二特征包括目标区域的建筑、交通、人口数据,所述第二特征是根据所述目标区域中影响建筑尺度人口分布的静态数据和动态数据进行特征提取获得。
在一种可能实现的方式中,所述训练模块包括特征提取单元、初始化单元和训练单元;其中,所述特征提取单元用于根据所述目标区域中影响建筑尺度人口分布的静态数据和动态数据进行特征提取,获得所述第二特征,具体为:
获取目标区域中影响建筑尺度人口分布的静态数据和动态数据;
通过地理信息系统从所述静态数据中提取所述目标区域的建筑物基底面积、建筑物高度、建筑物体积、所述建筑物到最邻近道路的距离、所述建筑物周围的路网密度、所述建筑物到最邻近水系的距离、所述建筑物到最邻近建筑物的距离、所述建筑物周围的POI核密度值,作为静态特征;所述静态数据包括:所述目标区域中的建筑物以及建筑物周围的路网、水系数据;
将所述静态特征和从所述动态数据中提取的动态特征,作为所述第二特征;其中,所述动态数据包括:所述目标区域中的月度NPP/VIIRS夜间灯光数据、交通数据和LBS数据。
进一步的,所述从所述动态数据中提取的动态特征,具体为:
将所述目标区域的建筑物该月所在位置的夜间灯光强度值减去所述目标区域的该月最小夜间灯光强度值后,除以所述目标区域的该月最大与最小夜间灯光强度值之差获得所述目标区域的标准化月度夜间灯光强度;
根据所述交通数据提取所述目标区域出租车每次行程的起讫点,构建出行特征向量并结合所述目标区域的建筑物分布状况,在所述地理信息系统中提取所述建筑物周围的出租车出行特征向量起讫点核密度值;
根据所述建筑物的面积占所在LBS网格中总建筑面积的比例分配该网格中的LBS人口值,提取所述建筑物的LBS人口值;
根据地图软件中的交通拥堵指数数据,提取路网的交通拥堵指数值;
将所述标准化月度夜间灯光强度、建筑物周围的出租车出行特征向量起讫点核密度值、建筑物的LBS人口值和路网的交通拥堵指数值,作为所述动态特征。
在一种可能实现的方式中,所述训练模块包括特征提取单元、初始化单元和训练单元:
其中,初始化单元用于初始化随机森林模型,具体为:以建筑尺度城市实有人口数据建立样本数据集,以所述第二特征作为模型的初始特征,以选取决策数个数、最大特征数、子数最大深度、叶子节点最小样本数、采样规则、子树划分评价规则、袋外估计作为模型的初始参数,构建初始随机森林模型;
训练单元用于根据所述样本数据集对所述初始随机森林模型进行训练,并在训练过程中对所述初始随机森林模型进行特征筛选和超参数优化,获得所述随机森林模型。
进一步的,在模型训练过程中,对所述初始随机森林模型进行特征筛选,具体为:
所述特征筛选为多轮筛选过程,在每一轮筛选过程中,计算所有参与筛选的特征的重要性,将所述重要性小于预设阈值的特征从所述初始随机森林模型中删除,对剩余特征按所述重要性由小到大进行检索,每次检索到的特征记为待删除特征,将所述待删除特征暂时删除,利用剩下的特征重新构建初始随机森林模型,如果所述重新构建的初始随机森林模型的估算精度下降,则保留所述待删除特征,继续检索下一个特征;否则删除所述待删除特征,停止本轮筛选并进入下一轮筛选;当在一轮筛选中未删除任何特征,则结束特征筛选,所述初始随机森林模型中剩余的特征为所述第一特征;其中,所述特征的重要性的计算过程为:
将袋外数据输入所述初始随机森林模型中的所有决策树进行测试,得到初始袋外错误样本数,其中,所述袋外数据为在随机森林模型训练过程中,训练数据中未被采样的数据;
将所述袋外数据中的某个特征进行随机置换,将所述置换后的袋外数据输入所述初始随机森林模型中的所有决策树进行测试,得到置换后袋外错误样本数;计算置换前与置换后的袋外数据分类误差平均变化量,获得该特征的重要性。
进一步的,对所述初始随机森林模型进行超参数优化,具体为:
在超参数的取值范围内,使用网格交叉搜索法对超参数不同取值进行排列组合,并利用五折交叉验证的方法验证超参数值改变后模型的性能,最终得到最优的模型超参数组合结果;其中,所述超参数包括:决策树的数量、不纯度的衡量指标、树的最大深度、拆分内部节点所需的最小样本数、叶子节点上所需的最小样本数、在寻找最佳分裂节点所考虑的最大特征数。
在一种可能实现的方式中,所述估算模块用于将所述实时数据输入至预设的随机森林模型,以使所述随机森林模型根据所述实时数据,对目标区域进行建筑物尺度动态人口的估算,具体为:以目标区域中的建筑物为单位,输入包含所述第一特征的建筑物数据至所述随机森林模型,所述随机森林模型中的各个决策树根据各个建筑物数据中的第一特征的值以及决策树内部的决策规则,输出对各个建筑物的人口估算结果;所述随机森林模型按照预设的规则整合所述各个决策树输出的结果,得到所述随机森林模型对各个建筑物的人口估算值。
在一种可能实现的方式中,所述建筑物尺度动态人口估算系统还包括精度评价模块;所述精度评价模块用于当所述随机森林模型的训练完成后,对所述随机森林模型进行精度评价;当所述人口估算过程完成后,对所述随机森林模型的估算结果进行精度评价,具体为:
使用测试数据对所述随机森林模型进行测试,计算测试数据的真实值和估计值之间的决定系数、均方根误差和残差,根据所述决定系数、均方根误差和残差的值,对所述随机森林模型进行精度评价;
将所述随机森林模型的人口估算结果与所述目标区域的街道尺度人口普查数据、WorldPop数据集进行比较,以相对误差和平均相对误差作为评价指标,对所述人口估算结果进行精度评价。
附图说明
图1:为本发明提供的一种建筑物尺度动态人口估算方法的一种实施例的流程示意图。
图2:为本发明具体实施例中的建模训练流程示意图。
图3:为本发明提供的一种建筑物尺度动态人口估算系统的一种实施例的结构示意图。
图4:为本发明提供的一种建筑物尺度动态人口估算系统的另一种实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,文中的步骤编号,仅为了方便具体实施例的解释,不作为限定步骤执行先后顺序的作用。
实施例一:
如图1所示,实施例一提供一种建筑物尺度动态人口估算方法,包括步骤S1和S2:
S1、获取目标区域中包含预设第一特征的实时数据;
S2、将所述实时数据输入至预设的随机森林模型,以使所述随机森林模型根据所述实时数据,对目标区域进行建筑物尺度动态人口的估算;
其中,所述随机森林模型是根据目标区域中包含预设第二特征的数据训练获得,所述第一特征是在所述随机森林模型训练过程中通过对所述第二特征进行特征筛选确定,所述第二特征包括目标区域的建筑、交通、人口数据,所述第二特征是根据所述目标区域中影响建筑尺度人口分布的静态数据和动态数据进行特征提取获得。
本发明实施例根据目标区域的建筑尺度相关数据训练随机森林模型,并在训练过程中对模型所需特征进行了筛选,在保持模型精确度的同时减少了模型所需的特征数量,对模型进行了简化,提升了模型的性能,也减少了后续使用模型过程中收集数据的工作量;训练后的随机森林模型可以根据目标区域的实时数据动态地估算目标区域的建筑物尺度人口空间分布,提高建筑物尺度人口估算的动态性和准确性。
如图2所示,在优选的实施例中,所述随机森林模型的训练过程包括S201~S208:
S201、获取目标区域中的建筑物以及建筑物周围的路网、水系数据等静态数据,NPP/VIRS夜间灯光、LBS人口数据、出租车GPS、交通拥堵指数等动态数据,建筑尺度城市实有人口数据;
S202、从静态数据和动态数据中提取静态特征和动态特征,作为第二特征;
S203、以建筑尺度城市实有人口数据建立样本数据集,以所述第二特征作为模型的初始特征,以选取决策数个数、最大特征数、子数最大深度、叶子节点最小样本数、采样规则、子树划分评价规则、袋外估计作为模型的初始参数,构建初始随机森林模型;
S204、对所述初始随机森林模型进行特征筛选,获得第一特征;
S205、对所述初始随机森林模型进行超参数优化,确定模型的最优参数;
S206、对训练完成后的随机森林模型进行精度评价;
S207、将目标区域包含第一特征的建筑物数据输入随机森林模型,获得目标区域的人口估算值;
S208、对基于随机森林模型的建筑尺度人口估算结果进行精度评价。
其中,在步骤S202中,所述静态特征的提取过程具体为:通过地理信息系统从所述静态数据中提取所述目标区域的建筑物基底面积、建筑物高度、建筑物体积、所述建筑物到最邻近道路的距离、所述建筑物周围的路网密度、所述建筑物到最邻近水系的距离、所述建筑物到最邻近建筑物的距离、所述建筑物周围的POI核密度值,作为所述静态特征。所述动态特征的提取过程具体为:
将所述目标区域的建筑物该月所在位置的夜间灯光强度值减去所述目标区域的该月最小夜间灯光强度值后,除以所述目标区域的该月最大与最小夜间灯光强度值之差获得所述目标区域的标准化月度夜间灯光强度;
根据所述交通数据提取所述目标区域出租车每次行程的起讫点,构建出行特征向量并结合所述目标区域的建筑物分布状况,在所述地理信息系统中提取所述建筑物周围的出租车出行特征向量起讫点核密度值;
根据所述建筑物的面积占所在LBS网格中总建筑面积的比例分配该网格中的LBS人口值,提取所述建筑物的LBS人口值;
根据地图软件中的交通拥堵指数数据,提取路网的交通拥堵指数值;
将所述标准化月度夜间灯光强度、建筑物周围的出租车出行特征向量起讫点核密度值、建筑物的LBS人口值和路网的交通拥堵指数值,作为所述动态特征。
本发明实施例将模型所需的数据分为静态数据和动态数据,静态数据的更新周期为年度及以上,方便收集与处理,且不需要频繁更新;动态数据更新频率较快,是动态估算建筑物尺度人口的关键。在后续使用随机森林模型进行人口估算的过程中,相关技术人员可以更关注动态数据,主要收集动态数据,提高工作效率。对于静态特征可以直接使用地理信息系统对静态数据进行相应操作获得,减少了特征提取过程中的工作量。此外,本发明实施例还提供了一种从动态数据中提取动态特征的方法,选取标准化月度夜间灯光强度、建筑物周围的出租车出行特征向量起讫点核密度值、建筑物的LBS人口值和路网的交通拥堵指数值作为模型所需的动态特征,综合考虑了建筑物周边的交通情况、区位状况和人口活动情况等影响人口分布的要素,使建模过程更为合理,估算结果更为准确。
在步骤S203中,本发明实施例通过所述第二特征以及7个主要参数构建初始随机森林模型,并通过特征筛选和超参数优化进一步训练模型,在简化模型的同时提高了模型的精确度。在数据集选取方面,使用建筑尺度城市实有人口数据建立样本数据集,使得数据集与人口估算模型的适配度很高且样本充足,以所述数据集训练出来的模型对于目标区域的人口估算具有更高的准确性。
在步骤S204中,对所述初始随机森林模型进行特征筛选,具体为:
所述特征筛选为多轮筛选过程,在每一轮筛选过程中,计算所有参与筛选的特征的重要性,将所述重要性小于预设阈值的特征从所述初始随机森林模型中删除,对剩余特征按所述重要性由小到大进行检索,每次检索到的特征记为待删除特征,将所述待删除特征暂时删除,利用剩下的特征重新构建初始随机森林模型,如果所述重新构建的初始随机森林模型的估算精度下降,则保留所述待删除特征,继续检索下一个特征;否则删除所述待删除特征,停止本轮筛选并进入下一轮筛选;当在一轮筛选中未删除任何特征,则结束特征筛选,所述初始随机森林模型中剩余的特征为所述第一特征;其中,所述特征的重要性的计算过程为:
将袋外数据输入所述初始随机森林模型中的所有决策树进行测试,得到初始袋外错误样本数,其中,所述袋外数据为在随机森林模型训练过程中,训练数据中未被采样的数据;
将所述袋外数据中的某个特征进行随机置换,将所述置换后的袋外数据输入所述初始随机森林模型中的所有决策树进行测试,得到置换后袋外错误样本数;计算置换前与置换后的袋外数据分类误差平均变化量,获得该特征的重要性。
本发明实施例提供了一种特征筛选的方法,根据特征的重要性以及该特征对模型的影响进行特征筛选。首先直接去除对重要性小于预设值的特征,这一步骤可以排除对模型影响非常小的特征,避免这些特征占用迭代次数,缩短了训练模型的时间。然后对剩余特征以重要性从小到大进行检索,通过比较筛除该特征前后该模型的估算精度的变化来决定是否筛除该特征,确保正确筛除无关特征。此外,本发明实施例还提供了一种计算特征重要性的方法,由于袋外数据是原始数据随机抽样后的剩余数据,所以使用袋外数据作为测试数据,可以有效利用原始数据,同时确保测试结果准确、可信;使用对测试数据中的特征进行随机置换的手段,以置换前后的分类误差平均变化量来表示特征重要性的方法,逻辑合理且易于操作和计算。
在步骤S205中,对所述初始随机森林模型进行超参数优化,具体为:在超参数的取值范围内,使用网格交叉搜索法对超参数不同取值进行排列组合,并利用五折交叉验证的方法验证超参数值改变后模型的性能,最终得到最优的模型超参数组合结果;其中,所述超参数包括:决策树的数量、不纯度的衡量指标、树的最大深度、拆分内部节点所需的最小样本数、叶子节点上所需的最小样本数、在寻找最佳分裂节点所考虑的最大特征数。
本发明实施例提供了一种超参数优化的方法并指定了随机森林模型需要优化的超参数,使用网格交叉搜索法对超参数的取值进行排列组合,可以遍历全部的取值组合,避免遗漏最优组合;使用五折交叉验证法验证模型的性能,可以有效利用数据,减少测试结果的偏差。
在步骤S206中,对训练完成后的随机森林模型进行精度评价,具体为:使用测试数据对所述随机森林模型进行测试,计算测试数据的真实值和估计值之间的决定系数、均方根误差和残差,根据所述决定系数、均方根误差和残差的值,对所述随机森林模型进行精度评价。
在步骤S207中,将目标区域包含第一特征的建筑物数据输入随机森林模型,获得目标区域的人口估算值,具体为:以目标区域中的建筑物为单位,输入包含所述第一特征的建筑物数据至所述随机森林模型,所述随机森林模型中的各个决策树根据各个建筑物数据中的第一特征的值以及决策树内部的决策规则,输出对各个建筑物的人口估算结果;所述随机森林模型按照预设的规则整合所述各个决策树输出的结果,得到所述随机森林模型对各个建筑物的人口估算值。
本发明实施例基于训练好的随机森林模型,根据输入的实时建筑物数据在建筑物尺度上进行人口估算,经过决策森林中各个决策树的内部决策输出多个结果,以及决策森林对各个决策树的输出结果进行整合,最终输出各个建筑人口估算值,实现了基于随机森林模型动态估算目标区域的建筑物尺度人口。
在S208中对基于随机森林模型的建筑尺度人口估算结果进行精度评价,具体为:将所述随机森林模型的人口估算结果与所述目标区域的街道尺度人口普查数据、WorldPop数据集进行比较,以相对误差和平均相对误差作为评价指标,对所述人口估算结果进行精度评价。
本发明实施例提供了一种对随机森林模型精度以及估算结果的评价方法,当所述随机森林模型训练过程完成后,使用测试数据对所述随机森林模型进行精度评价;当所述人口估算过程完成后,使用街道尺度人口普查数据、WorldPop数据集对所述随机森林模型的估算结果进行精度评价,进一步保证了模型的稳定性与准确性。
实施例二:
如图3所示,实施例二提供一种建筑物尺度动态人口估算系统,包括:获取模块10、训练模块20和估算模块30;
其中,所述获取模块10用于获取目标区域中包含预设第一特征的实时数据;
所述训练模块20用于根据目标区域中包含预设第二特征的数据对初始随机森林模型进行训练,获得随机森林模型;
所述估算模块30用于将所述实时数据输入至所述随机森林模型,以使所述随机森林模型根据所述实时数据,对目标区域进行建筑物尺度动态人口的估算;
所述第一特征是在所述随机森林模型训练过程中通过对所述第二特征进行特征筛选确定,所述第二特征包括目标区域的建筑、交通、人口数据,所述第二特征是根据所述目标区域中影响建筑尺度人口分布的静态数据和动态数据进行特征提取获得。
在一种可能实现的方式中,所述训练模块20包括特征提取单元201、初始化单元202和训练单元203;其中,所述特征提取单元201用于根据所述目标区域中影响建筑尺度人口分布的静态数据和动态数据进行特征提取,获得所述第二特征,具体为:
获取目标区域中影响建筑尺度人口分布的静态数据和动态数据;
通过地理信息系统从所述静态数据中提取所述目标区域的建筑物基底面积、建筑物高度、建筑物体积、所述建筑物到最邻近道路的距离、所述建筑物周围的路网密度、所述建筑物到最邻近水系的距离、所述建筑物到最邻近建筑物的距离、所述建筑物周围的POI核密度值,作为静态特征;所述静态数据包括:所述目标区域中的建筑物以及建筑物周围的路网、水系数据;
将所述静态特征和从所述动态数据中提取的动态特征,作为所述第二特征;其中,所述动态数据包括:所述目标区域中的月度NPP/VIIRS夜间灯光数据、交通数据和LBS数据。
进一步的,所述从所述动态数据中提取的动态特征,具体为:
将所述目标区域的建筑物该月所在位置的夜间灯光强度值减去所述目标区域的该月最小夜间灯光强度值后,除以所述目标区域的该月最大与最小夜间灯光强度值之差获得所述目标区域的标准化月度夜间灯光强度;
根据所述交通数据提取所述目标区域出租车每次行程的起讫点,构建出行特征向量并结合所述目标区域的建筑物分布状况,在所述地理信息系统中提取所述建筑物周围的出租车出行特征向量起讫点核密度值;
根据所述建筑物的面积占所在LBS网格中总建筑面积的比例分配该网格中的LBS人口值,提取所述建筑物的LBS人口值;
根据地图软件中的交通拥堵指数数据,提取路网的交通拥堵指数值;
将所述标准化月度夜间灯光强度、建筑物周围的出租车出行特征向量起讫点核密度值、建筑物的LBS人口值和路网的交通拥堵指数值,作为所述动态特征。
在一种可能实现的方式中,所述训练模块20包括特征提取单元201、初始化单元202和训练单元203:
其中,初始化单元202用于初始化随机森林模型,具体为:以建筑尺度城市实有人口数据建立样本数据集,以所述第二特征作为模型的初始特征,以选取决策数个数、最大特征数、子数最大深度、叶子节点最小样本数、采样规则、子树划分评价规则、袋外估计作为模型的初始参数,构建初始随机森林模型;
训练单元203用于根据所述样本数据集对所述初始随机森林模型进行训练,并在训练过程中对所述初始随机森林模型进行特征筛选和超参数优化,获得所述随机森林模型。
进一步的,在模型训练过程中,对所述初始随机森林模型进行特征筛选,具体为:
所述特征筛选为多轮筛选过程,在每一轮筛选过程中,计算所有参与筛选的特征的重要性,将所述重要性小于预设阈值的特征从所述初始随机森林模型中删除,对剩余特征按所述重要性由小到大进行检索,每次检索到的特征记为待删除特征,将所述待删除特征暂时删除,利用剩下的特征重新构建初始随机森林模型,如果所述重新构建的初始随机森林模型的估算精度下降,则保留所述待删除特征,继续检索下一个特征;否则删除所述待删除特征,停止本轮筛选并进入下一轮筛选;当在一轮筛选中未删除任何特征,则结束特征筛选,所述初始随机森林模型中剩余的特征为所述第一特征;其中,所述特征的重要性的计算过程为:
将袋外数据输入所述初始随机森林模型中的所有决策树进行测试,得到初始袋外错误样本数,其中,所述袋外数据为在随机森林模型训练过程中,训练数据中未被采样的数据;
将所述袋外数据中的某个特征进行随机置换,将所述置换后的袋外数据输入所述初始随机森林模型中的所有决策树进行测试,得到置换后袋外错误样本数;计算置换前与置换后的袋外数据分类误差平均变化量,获得该特征的重要性。
进一步的,对所述初始随机森林模型进行超参数优化,具体为:
在超参数的取值范围内,使用网格交叉搜索法对超参数不同取值进行排列组合,并利用五折交叉验证的方法验证超参数值改变后模型的性能,最终得到最优的模型超参数组合结果;其中,所述超参数包括:决策树的数量、不纯度的衡量指标、树的最大深度、拆分内部节点所需的最小样本数、叶子节点上所需的最小样本数、在寻找最佳分裂节点所考虑的最大特征数。
在一种可能实现的方式中,所述估算模块30用于将所述实时数据输入至预设的随机森林模型,以使所述随机森林模型根据所述实时数据,对目标区域进行建筑物尺度动态人口的估算,具体为:以目标区域中的建筑物为单位,输入包含所述第一特征的建筑物数据至所述随机森林模型,所述随机森林模型中的各个决策树根据各个建筑物数据中的第一特征的值以及决策树内部的决策规则,输出对各个建筑物的人口估算结果;所述随机森林模型按照预设的规则整合所述各个决策树输出的结果,得到所述随机森林模型对各个建筑物的人口估算值。
在一种可能实现的方式中,如图4所示,所述建筑物尺度动态人口估算系统还包括精度评价模块40,所述精度评价模块40用于当所述随机森林模型的训练完成后,对所述随机森林模型进行精度评价;当所述人口估算过程完成后,对所述随机森林模型的估算结果进行精度评价,具体为:
使用测试数据对所述随机森林模型进行测试,计算测试数据的真实值和估计值之间的决定系数、均方根误差和残差,根据所述决定系数、均方根误差和残差的值,对所述随机森林模型进行精度评价;
将所述随机森林模型的人口估算结果与所述目标区域的街道尺度人口普查数据、WorldPop数据集进行比较,以相对误差和平均相对误差作为评价指标,对所述人口估算结果进行精度评价。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种建筑物尺度动态人口估算方法,其特征在于,包括:
获取目标区域中包含预设第一特征的实时数据;
将所述实时数据输入至预设的随机森林模型,以使所述随机森林模型根据所述实时数据,对目标区域进行建筑物尺度动态人口的估算;
其中,所述随机森林模型是根据目标区域中包含预设第二特征的数据训练获得,所述第一特征是在所述随机森林模型训练过程中通过对所述第二特征进行特征筛选确定,所述第二特征包括目标区域的建筑、交通、人口数据,所述第二特征是根据所述目标区域中影响建筑尺度人口分布的静态数据和动态数据进行特征提取获得,具体为:
获取目标区域中影响建筑尺度人口分布的静态数据和动态数据;
通过地理信息系统从所述静态数据中提取所述目标区域的建筑物基底面积、建筑物高度、建筑物体积、所述建筑物到最邻近道路的距离、所述建筑物周围的路网密度、所述建筑物到最邻近水系的距离、所述建筑物到最邻近建筑物的距离、所述建筑物周围的POI核密度值,作为静态特征;所述静态数据包括:所述目标区域中的建筑物以及建筑物周围的路网、水系数据;
将所述静态特征和从所述动态数据中提取的动态特征,作为所述第二特征;其中,所述动态数据包括:所述目标区域中的月度NPP/VIIRS夜间灯光数据、交通数据和LBS数据;
其中,所述从所述动态数据中提取的动态特征,具体为:
将所述目标区域的建筑物目标月所在位置的夜间灯光强度值减去所述目标区域的目标月最小夜间灯光强度值后,除以所述目标区域的目标月最大与最小夜间灯光强度值之差获得所述目标区域的标准化月度夜间灯光强度;
根据所述交通数据提取所述目标区域出租车每次行程的起讫点,构建出行特征向量并结合所述目标区域的建筑物分布状况,在所述地理信息系统中提取所述建筑物周围的出租车出行特征向量起讫点核密度值;
根据所述建筑物的面积占所在LBS网格中总建筑面积的比例分配该网格中的LBS人口值,提取所述建筑物的LBS人口值;
根据地图软件中的交通拥堵指数数据,提取路网的交通拥堵指数值;
将所述标准化月度夜间灯光强度、建筑物周围的出租车出行特征向量起讫点核密度值、建筑物的LBS人口值和路网的交通拥堵指数值,作为所述动态特征。
2.如权利要求1所述的一种建筑物尺度动态人口估算方法,其特征在于,所述随机森林模型是根据目标区域中包含预设第二特征的数据训练获得,具体为:
模型初始化过程,以建筑尺度城市实有人口数据建立样本数据集,以所述第二特征作为模型的初始特征,以选取决策数个数、最大特征数、子数最大深度、叶子节点最小样本数、采样规则、子树划分评价规则、袋外估计作为模型的初始参数,构建初始随机森林模型;
模型训练过程,根据所述样本数据集对所述初始随机森林模型进行训练,并在训练过程中对所述初始随机森林模型进行特征筛选和超参数优化,获得所述随机森林模型。
3.如权利要求2所述的一种建筑物尺度动态人口估算方法,其特征在于,在模型训练过程中,对所述初始随机森林模型进行特征筛选,具体为:
所述特征筛选为多轮筛选过程,在每一轮筛选过程中,计算所有参与筛选的特征的重要性,将所述重要性小于预设阈值的特征从所述初始随机森林模型中删除,对剩余特征按所述重要性由小到大进行检索,每次检索到的特征记为待删除特征,将所述待删除特征暂时删除,利用剩下的特征重新构建初始随机森林模型,如果所述重新构建的初始随机森林模型的估算精度下降,则保留所述待删除特征,继续检索下一个特征;否则删除所述待删除特征,停止本轮筛选并进入下一轮筛选;当在一轮筛选中未删除任何特征,则结束特征筛选,所述初始随机森林模型中剩余的特征为所述第一特征;其中,所述特征的重要性的计算过程为:
将袋外数据输入所述初始随机森林模型中的所有决策树进行测试,得到初始袋外错误样本数,其中,所述袋外数据为在随机森林模型训练过程中,训练数据中未被采样的数据;
将所述袋外数据中的某个特征进行随机置换,将置换后的袋外数据输入所述初始随机森林模型中的所有决策树进行测试,得到置换后袋外错误样本数;计算置换前与置换后的袋外数据分类误差平均变化量,获得该特征的重要性。
4.如权利要求2所述的一种建筑物尺度动态人口估算方法,其特征在于,对所述初始随机森林模型进行超参数优化,具体为:
在超参数的取值范围内,使用网格交叉搜索法对超参数不同取值进行排列组合,并利用五折交叉验证的方法验证超参数值改变后模型的性能,最终得到最优的模型超参数组合结果;其中,所述超参数包括:决策树的数量、不纯度的衡量指标、树的最大深度、拆分内部节点所需的最小样本数、叶子节点上所需的最小样本数、在寻找最佳分裂节点所考虑的最大特征数。
5.如权利要求1所述的一种建筑物尺度动态人口估算方法,其特征在于,将所述实时数据输入至预设的随机森林模型,以使所述随机森林模型根据所述实时数据,对目标区域进行建筑物尺度动态人口的估算,具体为:以目标区域中的建筑物为单位,输入包含所述第一特征的建筑物数据至所述随机森林模型,所述随机森林模型中的各个决策树根据各个建筑物数据中的第一特征的值以及决策树内部的决策规则,输出对各个建筑物的人口估算结果;所述随机森林模型按照预设的规则整合所述各个决策树输出的结果,得到所述随机森林模型对各个建筑物的人口估算值。
6.如权利要求1所述的一种建筑物尺度动态人口估算方法,其特征在于,当所述随机森林模型的训练完成后,对所述随机森林模型进行精度评价;当所述人口估算过程完成后,对所述随机森林模型的估算结果进行精度评价,具体为:
使用测试数据对所述随机森林模型进行测试,计算测试数据的真实值和估计值之间的决定系数、均方根误差和残差,根据所述决定系数、均方根误差和残差的值,对所述随机森林模型进行精度评价;
将所述随机森林模型的人口估算结果与所述目标区域的街道尺度人口普查数据、WorldPop数据集进行比较,以相对误差和平均相对误差作为评价指标,对所述人口估算结果进行精度评价。
7.一种建筑物尺度动态人口估算系统,其特征在于,包括:获取模块、估算模块和训练模块;
其中,所述获取模块用于获取目标区域中包含预设第一特征的实时数据;
所述估算模块用于将所述实时数据输入至预设的随机森林模型,以使所述随机森林模型根据所述实时数据,对目标区域进行建筑物尺度动态人口的估算;
所述训练模块用于根据目标区域中包含预设第二特征的数据对初始随机森林模型进行训练,获得所述随机森林模型;
所述第一特征是在所述随机森林模型训练过程中通过对所述第二特征进行特征筛选确定,所述第二特征包括目标区域的建筑、交通、人口数据,所述第二特征是根据所述目标区域中影响建筑尺度人口分布的静态数据和动态数据进行特征提取获得;
所述训练模块包括特征提取单元、初始化单元和训练单元;其中,所述特征提取单元用于根据所述目标区域中影响建筑尺度人口分布的静态数据和动态数据进行特征提取,获得所述第二特征,具体为:
获取目标区域中影响建筑尺度人口分布的静态数据和动态数据;
通过地理信息系统从所述静态数据中提取所述目标区域的建筑物基底面积、建筑物高度、建筑物体积、所述建筑物到最邻近道路的距离、所述建筑物周围的路网密度、所述建筑物到最邻近水系的距离、所述建筑物到最邻近建筑物的距离、所述建筑物周围的POI核密度值,作为静态特征;所述静态数据包括:所述目标区域中的建筑物以及建筑物周围的路网、水系数据;
将所述静态特征和从所述动态数据中提取的动态特征,作为所述第二特征;其中,所述动态数据包括:所述目标区域中的月度NPP/VIIRS夜间灯光数据、交通数据和LBS数据;
其中,所述从所述动态数据中提取的动态特征,具体为:
将所述目标区域的建筑物目标月所在位置的夜间灯光强度值减去所述目标区域的目标月最小夜间灯光强度值后,除以所述目标区域的目标月最大与最小夜间灯光强度值之差获得所述目标区域的标准化月度夜间灯光强度;
根据所述交通数据提取所述目标区域出租车每次行程的起讫点,构建出行特征向量并结合所述目标区域的建筑物分布状况,在所述地理信息系统中提取所述建筑物周围的出租车出行特征向量起讫点核密度值;
根据所述建筑物的面积占所在LBS网格中总建筑面积的比例分配该网格中的LBS人口值,提取所述建筑物的LBS人口值;
根据地图软件中的交通拥堵指数数据,提取路网的交通拥堵指数值;
将所述标准化月度夜间灯光强度、建筑物周围的出租车出行特征向量起讫点核密度值、建筑物的LBS人口值和路网的交通拥堵指数值,作为所述动态特征。
8.如权利要求7所述的一种建筑物尺度动态人口估算系统,其特征在于,所述训练模块包括特征提取单元、初始化单元和训练单元:
其中,初始化单元用于初始化随机森林模型,具体为:以建筑尺度城市实有人口数据建立样本数据集,以所述第二特征作为模型的初始特征,以选取决策数个数、最大特征数、子数最大深度、叶子节点最小样本数、采样规则、子树划分评价规则、袋外估计作为模型的初始参数,构建初始随机森林模型;
训练单元用于根据所述样本数据集对所述初始随机森林模型进行训练,并在训练过程中对所述初始随机森林模型进行特征筛选和超参数优化,获得所述随机森林模型。
9.如权利要求8所述的一种建筑物尺度动态人口估算系统,其特征在于,在模型训练过程中,对所述初始随机森林模型进行特征筛选,具体为:
所述特征筛选为多轮筛选过程,在每一轮筛选过程中,计算所有参与筛选的特征的重要性,将所述重要性小于预设阈值的特征从所述初始随机森林模型中删除,对剩余特征按所述重要性由小到大进行检索,每次检索到的特征记为待删除特征,将所述待删除特征暂时删除,利用剩下的特征重新构建初始随机森林模型,如果所述重新构建的初始随机森林模型的估算精度下降,则保留所述待删除特征,继续检索下一个特征;否则删除所述待删除特征,停止本轮筛选并进入下一轮筛选;当在一轮筛选中未删除任何特征,则结束特征筛选,所述初始随机森林模型中剩余的特征为所述第一特征;其中,所述特征的重要性的计算过程为:
将袋外数据输入所述初始随机森林模型中的所有决策树进行测试,得到初始袋外错误样本数,其中,所述袋外数据为在随机森林模型训练过程中,训练数据中未被采样的数据;
将所述袋外数据中的某个特征进行随机置换,将置换后的袋外数据输入所述初始随机森林模型中的所有决策树进行测试,得到置换后袋外错误样本数;计算置换前与置换后的袋外数据分类误差平均变化量,获得该特征的重要性。
10.如权利要求8所述的一种建筑物尺度动态人口估算系统,其特征在于,对所述初始随机森林模型进行超参数优化,具体为:
在超参数的取值范围内,使用网格交叉搜索法对超参数不同取值进行排列组合,并利用五折交叉验证的方法验证超参数值改变后模型的性能,最终得到最优的模型超参数组合结果;其中,所述超参数包括:决策树的数量、不纯度的衡量指标、树的最大深度、拆分内部节点所需的最小样本数、叶子节点上所需的最小样本数、在寻找最佳分裂节点所考虑的最大特征数。
11.如权利要求7所述的一种建筑物尺度动态人口估算系统,其特征在于,所述估算模块用于将所述实时数据输入至预设的随机森林模型,以使所述随机森林模型根据所述实时数据,对目标区域进行建筑物尺度动态人口的估算,具体为:以目标区域中的建筑物为单位,输入包含所述第一特征的建筑物数据至所述随机森林模型,所述随机森林模型中的各个决策树根据各个建筑物数据中的第一特征的值以及决策树内部的决策规则,输出对各个建筑物的人口估算结果;所述随机森林模型按照预设的规则整合所述各个决策树输出的结果,得到所述随机森林模型对各个建筑物的人口估算值。
12.如权利要求7所述的一种建筑物尺度动态人口估算系统,其特征在于,所述建筑物尺度动态人口估算系统还包括精度评价模块;所述精度评价模块用于当所述随机森林模型的训练完成后,对所述随机森林模型进行精度评价;当所述人口估算过程完成后,对所述随机森林模型的估算结果进行精度评价,具体为:
使用测试数据对所述随机森林模型进行测试,计算测试数据的真实值和估计值之间的决定系数、均方根误差和残差,根据所述决定系数、均方根误差和残差的值,对所述随机森林模型进行精度评价;
将所述随机森林模型的人口估算结果与所述目标区域的街道尺度人口普查数据、WorldPop数据集进行比较,以相对误差和平均相对误差作为评价指标,对所述人口估算结果进行精度评价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311067158.6A CN117077037B (zh) | 2023-08-23 | 2023-08-23 | 一种建筑物尺度动态人口估算方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311067158.6A CN117077037B (zh) | 2023-08-23 | 2023-08-23 | 一种建筑物尺度动态人口估算方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117077037A CN117077037A (zh) | 2023-11-17 |
CN117077037B true CN117077037B (zh) | 2024-04-16 |
Family
ID=88703862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311067158.6A Active CN117077037B (zh) | 2023-08-23 | 2023-08-23 | 一种建筑物尺度动态人口估算方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117077037B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111932036A (zh) * | 2020-09-23 | 2020-11-13 | 中国科学院地理科学与资源研究所 | 基于位置大数据的精细时空尺度动态人口预测方法及系统 |
CN114331221A (zh) * | 2022-03-02 | 2022-04-12 | 中核华纬工程设计研究有限公司 | 一种基于机器学习的混凝土工程量指标估算方法 |
CN115130579A (zh) * | 2022-06-29 | 2022-09-30 | 四川省震灾风险防治中心 | 基于改进聚类算法优化随机森林的人口空间化方法及系统 |
-
2023
- 2023-08-23 CN CN202311067158.6A patent/CN117077037B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111932036A (zh) * | 2020-09-23 | 2020-11-13 | 中国科学院地理科学与资源研究所 | 基于位置大数据的精细时空尺度动态人口预测方法及系统 |
CN114331221A (zh) * | 2022-03-02 | 2022-04-12 | 中核华纬工程设计研究有限公司 | 一种基于机器学习的混凝土工程量指标估算方法 |
CN115130579A (zh) * | 2022-06-29 | 2022-09-30 | 四川省震灾风险防治中心 | 基于改进聚类算法优化随机森林的人口空间化方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117077037A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110264709B (zh) | 基于图卷积网络的道路的交通流量的预测方法 | |
CN108427965B (zh) | 一种基于路网聚类的热点区域挖掘方法 | |
CN109493119B (zh) | 一种基于poi数据的城市商业中心识别方法及系统 | |
CN111651545A (zh) | 一种基于多源数据融合的城市边缘区提取方法 | |
CN106845559B (zh) | 顾及poi数据空间异质性的地表覆盖验证方法及系统 | |
CN110020224B (zh) | 地图兴趣点数据的关联方法、装置、设备及介质 | |
CN107194525A (zh) | 一种基于手机信令的城市中心评估方法 | |
Noor et al. | Determination of spatial factors in measuring urban sprawl in Kuantan using remote sensing and GIS | |
CN113360587B (zh) | 一种基于gis技术的土地测绘设备及测绘方法 | |
Sreelekha et al. | Assessment of topological pattern of urban road transport system of Calicut city | |
CN110413855B (zh) | 一种基于出租车下客点的区域出入口动态提取方法 | |
CN113112068A (zh) | 一种村镇公共设施选址布局的方法及其系统 | |
CN116437291A (zh) | 一种基于手机信令的文化圈规划方法和系统 | |
CN115345069A (zh) | 一种基于最大水深记录和机器学习的湖泊水量估算方法 | |
Soe et al. | Haversine formula and RPA algorithm for navigation system | |
Dushku et al. | Spatial modeling of baselines for LULUCF carbon projects: the GEOMOD modeling approach | |
CN117077037B (zh) | 一种建筑物尺度动态人口估算方法及系统 | |
Guo-an et al. | Evaluation on the accuracy of digital elevation models | |
CN103246650B (zh) | 一种道路逻辑模型制作方法 | |
CN112508336A (zh) | 一种基于结构方程模型的空间与环境效能关联测度方法 | |
Martini et al. | Database-supported change analysis and quality evaluation of OpenStreetMap Data | |
CN113408867B (zh) | 基于手机用户和poi数据的城市入室盗窃犯罪风险评估方法 | |
CN114821304A (zh) | 建成区边界划定方法及系统 | |
CN111461163A (zh) | 城市内部pm2.5浓度模拟和人口暴露度评估方法和装置 | |
CN117128977B (zh) | 基于双影像融合的优质绿道路径规划方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |