CN109165779B - 一种基于多源大数据与长短期记忆神经网络模型的人口数量预测方法 - Google Patents
一种基于多源大数据与长短期记忆神经网络模型的人口数量预测方法 Download PDFInfo
- Publication number
- CN109165779B CN109165779B CN201810912508.7A CN201810912508A CN109165779B CN 109165779 B CN109165779 B CN 109165779B CN 201810912508 A CN201810912508 A CN 201810912508A CN 109165779 B CN109165779 B CN 109165779B
- Authority
- CN
- China
- Prior art keywords
- data
- mobile phone
- population
- time
- base station
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000003062 neural network model Methods 0.000 title description 4
- 230000011664 signaling Effects 0.000 claims abstract description 50
- 238000009826 distribution Methods 0.000 claims abstract description 11
- 230000008676 import Effects 0.000 claims abstract description 8
- 238000004140 cleaning Methods 0.000 claims abstract description 6
- 230000004927 fusion Effects 0.000 claims abstract description 4
- 238000001514 detection method Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000013480 data collection Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 238000013112 stability test Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 4
- 230000002547 anomalous effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 9
- 230000008859 change Effects 0.000 description 7
- 238000007726 management method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Educational Administration (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种人口数量预测方法,包括以下步骤:(1)获取预定空间单元内的预定时间段的与人口活动数量相关的数据,所述数据包括手机信令数据,气象数据等其他可获得的人口活动相关数据;(2)对步骤(1)中获取的手机信令数据进行清洗,获得精细数据;(3)对多源异构大数据进行空间匹配融合,将影响人口活动空间分布的其他影响因素数据与步骤(2)中清洗后的手机信令大数据进行空间单元匹配,统一数据口径;(4)利用数据导入模型进行人口预测;(5)输出人口数量与空间分布结果。
Description
技术领域
本发明涉及人口数据信息分析技术领域,尤其涉及一种活跃人口数量的预测方法。具体来讲涉及利用包括手机信令数据、气象数据、以及其他人口活动相关数据等的多源异构大数据进行建模,对特定统计单元出现的活跃人口数量进行模拟与预测的方法。
背景技术
本发明提出了一种基于多源大数据的活跃人口数量预测方案。实现对预定空间单元精确到天、小时甚至更细时间粒度的活跃人口数量的预测,为城市日常管理、交通拥堵、大规模人口集聚等现实情况提供预警。
随着城镇化进程的加快,人口活动的空间范围增大,人口流动的数量与速度均在迅速扩张,人口的迅速集聚、无序蔓延同时带来了交通拥堵、城市安全等一系列问题,为城市管理增加了难度。掌握区域活跃人口数据,动态监测人流分布能够实现问题区域的提前预警,同时为城市设施供给提供量化依据,有效的辅助城市精细化管理。
当前的人口预测模型均高度依赖统计调查数据,人工成本高,多采用抽样数据,数据覆盖率小,时间与空间粒度均较粗糙。现有大部分人口抽样调查时间尺度以年为单位,空间尺度仅到县级市,导致人口预测模型选取局限性极高,预测结果受数据时效性影响,所以与现实情况偏差较大,更无法掌握精确到日和小尺度空间人口的变化趋势,不仅无法对城市管理进行辅助,而且预测结果对各行业的应用性均较差。
随着大数据获取与处理技术的逐渐发展,通过移动互联网设备采集用户活动信息成为可能。手机作为普及率最高的移动设备,捕捉其信号出现的位置可以反映用户全出行链信息,信号收集的时间尺度可精确到秒级,而空间尺度则可精确到移动信号基站布设的百米级,为精确时空单元出现的活跃人口数量预测提供了全新的数据源与技术方法。
本发明提供了一种利用包括手机信令数据、气象数据等的多源异构大数据进行建模,对特定统计单元的出现的活跃人口数量进行模拟与预测的方法。通过该方法,能够实现百米级空间单元的人口数量预测,预测精度高。
发明内容
为实现本发明之目的,采用以下技术方案予以实现:
一种人口数量预测方法,包括以下步骤:
(1)获取预定空间单元内的预定时间段的与人口出现数量相关的数据,所述数据包括手机信令数据,气象数据;
(2)对步骤(1)中获取的手机信令数据进行清洗,获得精细数据;
(3)对多源异构大数据进行空间匹配融合,将影响人口数量与空间分布影响因素数据与步骤(2)中清洗后的手机信令数据进行空间单元匹配;
(4)利用数据导入模型进行人口预测;
(5)输出人口数量与空间分布结果。
所述的人口数量预测方法,其中:步骤(2)中对手机信令数据进行清洗包括:(2.1)总量稳定性检测和(2.2)空间稳定性检测。
所述的人口数量预测方法,其中:总量稳定性检测按如下方式进行:首先将某一连续时间段内的预定空间单元内某一基站的手机信令数据按需要预测的时间单元进行汇总统计;然后对每一时间单元内的各基站的手机信令数据进行总量异常检测,检测方式是将所述连续时间段内所有具有同样属性的手机信令数据所反映的用户数量求和后取平均值,将具有该属性的每一时间单元的用户数量与该平均值进行比较,如果与该平均值相差幅度等于或大于设定的阈值,则判定该时长内的手机信令数据为总量异常数据,将该数据剔除;否则认定该数据为正常数据保留,将该数据进行空间稳定性检测。
所述的人口数量预测方法,其中:总量稳定性检测公式如下:
其中,
x为预定空间范围内的手机信号基站;a为时间单元的类型属性变量;t为时间单元内基站进行数据收集的所有时刻;n为时间单元内基站进行数据收集到的所有时刻的数量;m为连续时间段内属性为a的时间单元数量;xsat为预定基站s在具有相同时间属性a的时刻为t的用户数量;xi为逐一基站;rat为根据需要设定的阈值比。
所述的人口数量预测方法,其中:空间稳定性检测按如下方式进行:首先将某一连续时间段内的预定空间单元内某一基站的手机信令数据按需要预测的时间单元进行汇总统计;然后对每一时间单元内的各基站手机信令数据进行空间异常检测,检测方式是将预定空间单元内的每一个基站的用户数量与预定空间单元内所有基站用户数量均值进行比较,如果与该均值相差幅度等于或大于设定的阈值,则判定该时长内的手机信令数据为异常数据,将该数据剔除;否则认定该数据为正常数据保留。
所述的人口数量预测方法,其中:空间稳定性检测公式如下:
其中,
x为预定空间范围内的手机信号基站;t为时间单元内基站进行数据收集的所有时刻;n为时间单元内进行数据收集到的所有时刻数量;r为预定空间范围内全部基站的数量;xst为预定空间单元内基站s在时刻t的用户数量;xi为预定空间范围内某基站;rat为根据需要设定的阈值比。
所述的人口数量预测方法,其中:重复步骤(2.1)-步骤(2.2),对预定空间单元内某一时间段的全部基站的手机信令数据进行异常检测,将异常数据剔除,获得精细数据。
所述的人口数量预测方法,其中:
步骤(3)中,对多源异构数据进行空间匹配按如下方式进行:
(3.1)对手机信号数据进行空间汇总:
判断需要统计的预定时间内、预定空间范围内的手机信号基站,将属于预定空间范围的手机信号基站收集的用户数量按如下公式进行汇总计算:
其中,Pi特定空间范围为预定空间范围内所有手机基站用户汇总的测算结果,Pi为每个基站记录的手机用户数量;δi 空间范围表示信号基站是否在需要统计的空间范围内;
对预定区域内所有空间单元进行测算,得到各空间单元的手机用户数量;
(3.2)对气象数据进行空间汇总:将手机信号基站替换为气象站的空间位置进行区域平均水平的测算:
其中,Pj特定空间范围为预定空间范围内所有气象站汇总的气象数据结果,Pj为每个气象站记录的情况;δj 空间范围表示气象站是否在需要统计的空间范围内,n是特定空间范围内气象站的数量。
所述的人口数量预测方法,其中:步骤
(4)中利用数据导入模型进行人口预测包括:
(4.1)将预定空间单元内的预定时间段的手机信令统计人口数据及影响人口数量变化的气象数据及当前时间段对应特征组合成当前时刻输入数据xt,通过以下公式计算在迭代计算过程中的遗忘门矩阵ft:
ft=σ(Wf·[ht-1,xt]+bf)
其中,ht-1表示模型上一时刻t-1的输出,Wf表示遗忘门权重矩阵,bf表示遗忘门偏置项,σ为激活函数;
(4.2)模型结构中输入门通过以下公式计算当前输入xt哪些信息保存到当前状态ct:
it=σ(Wi·[ht-1,xt]+bi)
Wc表示输入信息的权重矩阵,bc表示偏置项;it表示输入门矩阵,Wi表示输入门权重矩阵,bi表示输入门偏置项;Ct-1表示上一时刻t-1的信息,tanh为激活函数;
(4.3)模型结构中输出门通过以下公式计算当前信息输出:
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,ot表示输出门矩阵,Wo表示输出门权重矩阵,bo表示输出门偏置项,ht表示当前时刻t的输出,即当前时刻t的人数。
所述的人口数量预测方法,其中步骤(5)中将输出数据ht根据成果测算输出人口数量与空间分布结果。
一种人口数量超限报警方法,该方法使用如上之一所述的人口数量预测方法对预定时间、预定空间范围内的人口数量进行预测;进一步的,在预测出未来某一时间段内在某一空间范围内的人口数量后,如果该数量超出了设定阈值,则发出人口数量超限预警信号。
附图说明
图1为本发明的人口数量预测方法流程图;
图2为利用数据导入模型进行人口预测的计算过程示意图;
图3为预测值和真实值进行比较验证模型计算的准确度示意图。
具体实施方式
如图1所示,人口数量预测方法包括:
(1)获取预定空间单元内的预定时间段的与人口数量相关的数据,所述数据包括手机信令数据。优选的,还可包括其他可获得的与人口活动相关的数据,例如气象数据、由网约车平台获得的人口出行数据、共享单车投放数据、交通流量数据等;
(2)对步骤1中获取的手机信令数据进行清洗,获得精细数据;
(3)对多源大数据进行空间匹配融合,将影响人口数量与空间分布的其他影响因素数据与步骤(2)中清洗后的手机信令数据进行空间单元匹配,统一数据口径;
(4)利用数据导入模型进行人口预测;
(5)输出人口数量与空间分布结果。
步骤(1)中,手机信令数据可从移动运营商处获得;气象数据可从气象台获得,进一步的,根据实际需要可补充其他可获得的人口活动相关数据。
手机信令数据与基站信号强弱有关,当基站信号较弱或不稳定时时,基站可能无法与其正常工作时所覆盖范围内的全部手机进行信令交互,有可能导致移动运营商收集到的手机信令信号不全,会使得由移动运营商处获取的手机信令数据异常,因此有必要通过步骤(2)的方式对异常手机信令数据进行剔除,确保预测结果的准确性。
步骤(2)中,对手机信令数据进行清洗按如下方式进行:
2.1总量稳定性检测:首先将某一连续时间段内的预定空间单元内某一基站的手机信令数据按需要预测的时间单元(如一天或一小时)进行汇总统计,对每一时间单元内的各基站的手机信令数据进行总量异常检测。由于人口活动在不同类型日或24小时均具有规律的聚散差异,因此需将连续时间段内每天的数据赋予不同属性,如果需要预测的时长单元为天,则在每周的同一天则为同样属性,例如所有的周一;如果需要预测的时长单元为小时,则每天的同一小时为同样属性,例如所有的九点-十点;检测方式是将总时长内(即所述连续时间段内)所有具有同样属性(如周一或九点-十点)的手机信令数据所反映的用户数量求和后取平均值,将具有该属性的每一时间单元的用户数量与该平均值进行比较,如果与该平均值相差幅度等于或大于设定的阈值,如30%,则初步判定该时长内的手机信令数据为总量异常数据,将该数据剔除。否则认定该数据为正常数据保留。总量稳定性检测公式如下:
其中,
●x为预定空间范围内的手机信号基站;a为时间单元的类型属性变量;t为时间单元内基站进行数据收集的所有时刻;n为时间单元内基站进行数据收集到的所有时刻的数量;m为连续时间段内属性为a的时间单元数量;如共有30天的连续数据,需预测的时间单元为天,则a为天类型:例如当a的类型是周一、周二…周日之一时,则在该30天内的m=4;如共有30天的连续数据,需预测的时间单元为时,则a为时类型:0点-1点、1点-2点…23点-0点之一,则m=30,以此类推。
●xsat为预定基站s在具有相同时间属性a的时刻为t的用户数量;
xi为逐一基站。
●rat为根据需要设定的阈值比。
2.2空间稳定性检测:首先将某一连续时间段内的预定空间单元内某一基站的手机信令数据按需要预测的时间单元(如一天或一小时)进行汇总统计,对每一时间单元内的各基站手机信令数据进行空间异常检测。检测方式是将预定空间单元内的每一个基站的用户数量与预定空间单元内所有基站用户数量均值进行比较,如果与该均值相差幅度等于或大于设定的阈值,如30%,则初步判定该时长内的手机信令数据为异常数据,将该数据剔除。否则认定该数据为正常数据保留。空间稳定性检测公式如下:
其中,
●x为预定空间范围内的手机信号基站;t为时间单元内基站进行数据收集的所有时刻;n为时间单元内进行数据收集到的所有时刻数量;r为预定空间范围内全部基站的数量;
●xst为预定空间单元内基站s在时刻t的用户数量;xi为预定空间范围内某基站。
●rat为根据需要设定的阈值比。
重复步骤2.1-2.2,对预定空间单元内某一时间段的全部基站的手机信令数据进行异常检测,将异常数据剔除,获得精细数据。
步骤(3)中,对多源异构数据进行空间匹配按如下方式进行:
对手机信号数据进行空间汇总:判断需要统计的某时间内某空间范围内的手机信号基站,将属于特定空间范围的手机信号基站收集的用户数量进行汇总计算。
其中,Pi特定空间范围为特定空间范围内所有手机基站用户汇总的测算结果,Pi为每个基站记录的手机用户数量;δi 空间范围用以判断信号基站是否在需要统计的空间范围内。对研究区域内所有空间单元进行测算,得到各空间单元的手机用户数量,在进行累加时,根据手机用户的唯一ID如手机号码,对统计数据进行去重,即将预定时间预定空间范围内不同基站的相同ID的用户只统计一遍。
同时,气象数据的空间汇总则将手机信号基站替换为气象站的空间位置进行区域平均水平的测算:
其中,Pj特定空间范围为特定空间范围内所有气象站汇总的测算结果,包括温度、湿度、pm2.5等指标,Pj为每个气象站记录的情况;δj 空间范围用以判断气象站是否在需要统计的空间范围内。对研究区域内所有空间单元进行测算,得到各空间单元的气象情况。n是特定空间范围内气象站的数量。
步骤(4)中,利用数据导入模型进行人口预测,模型计算过程如下:
RNN(循环神经网络)是一种用来处理序列数据的神经网络模型,是包含循环的网络,允许信息持久化,可以将过去的信息连接到当前任务,利用过去的信息推测未来的信息,理论上只要数据足够多,就可以得到过去信息和未来信息之间的概率分布函数,从而基于时间序列对未来数据变化做出预测。LSTM(长短期记忆神经网络模型)是一种特殊类型的RNN(循环神经网络),是一种增加了记忆功能的RNN,在RNN的基础上增加了三层神经网络(输入门、输出门、遗忘门),以此控制多少先前网络内的信息被保留,多少新的信息进入,通过刻意的设计避免长期依赖问题,能够学习长期的依赖关系,记住长期的信息,从过去的时序数据的变化及其他影响因素中学习到变化趋势。如图3所示:
(1)将预定空间单元内的预定时间段的手机信令统计人口数据及影响人口数量变化的气象数据(优选的还可包括其他相关因子数据,例如共享单车投放数据等)及当前时间段对应特征(例如是否工作日、节假日等)组合成输入数据xt,预测模型结构中的遗忘门根据当前时刻输入数据xt对上一时刻信息ct-1通过以下公式计算在迭代计算过程中的遗忘门矩阵ft。
ft=σ(Wf·[ht-1,xt]+bf)
其中,ht-1表示模型上一时刻t-1的输出,Wf表示遗忘门权重矩阵,bf表示遗忘门偏置项,σ为激活函数。
上述Xt的输入数据样例如下示例所示出:
it=σ(Wi·[ht-1,xt]+bi)
其中,Wc表示输入信息的权重矩阵,bc表示偏置项;it表示输入门矩阵,Wi表示输入门权重矩阵,bi表示输入门偏置项;Ct-1表示上一时刻t-1的信息,tanh为激活函数。
(3)模型结构中输出门通过以下公式在迭代计算过程中计算当前有多少信息输出。
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,ot表示输出门矩阵,Wo表示输出门权重矩阵,bo表示输出门偏置项,ht表示当前时刻t的输出,即当前时刻t的人数。
模型通过以上计算过程不停的迭代计算,在保证模型预测值与真实值误差足够小的情况下保存计算参数,并使用一定时间段内的数据通过结果参数计算预测值,将预测值和真实值进行比较验证模型计算的准确度,如图3所示,实线曲线代表模型计算参数过程中使用的数据,虚线曲线代表模型预测的值,用于和同时间段蓝色曲线真实值的对比,红色曲线代表预测未来一段时间内数值的变化。该模型训练数据集的预测结果与实际结果误差率小于5%。
步骤(5),将输出数据ht根据成果测算,输出人口数量与空间分布结果。
进一步的,在预测出未来某一时间段内在某一空间范围内的人口数量后,如果该数量较高,超出了设定阈值,则向该空间范围内的管理者发出人口数量超限预警,管理者可据此提前作出人员疏散、导流等措施,避免出现人口数量过多而产生塞车、拥挤、踩踏等危险情况的发生。
Claims (2)
1.一种人口数量预测方法,其特征在于包括以下步骤:
(1)获取预定空间单元内的预定时间段的与人口出现数量相关的数据,所述数据包括手机信令数据,气象数据;
(2)对步骤(1)中获取的手机信令数据进行清洗,获得精细数据;
(3)对多源异构大数据进行空间匹配融合,将影响人口数量与空间分布影响因素数据与步骤(2)中清洗后的手机信令数据进行空间单元匹配;
(4)利用数据导入模型进行人口预测;
(5)输出人口数量与空间分布结果;步骤(2)中对手机信令数据进行清洗包括:(2.1)总量稳定性检测和(2.2)空间稳定性检测;
总量稳定性检测按如下方式进行:首先将某一连续时间段内的预定空间单元内某一基站的手机信令数据按需要预测的时间单元进行汇总统计;然后对每一时间单元内的各基站的手机信令数据进行总量异常检测,检测方式是将所述连续时间段内所有具有同样属性的手机信令数据所反映的用户数量求和后取平均值,将具有该属性的每一时间单元的用户数量与该平均值进行比较,如果与该平均值相差幅度等于或大于设定的阈值,则判定该时间单元内的手机信令数据为总量异常数据,将该数据剔除;否则认定该数据为正常数据保留,将该数据进行空间稳定性检测,其中:总量稳定性检测公式如下:
其中,
x为预定空间范围内的手机信号基站;a为时间单元的类型属性变量;t为时间单元内基站进行数据收集的所有时刻;n为时间单元内基站进行数据收集到的所有时刻的数量;m为连续时间段内属性为a的时间单元数量;xsat为预定基站s在具有相同时间属性a的时刻为t的用户数量;xi为逐一基站;rat为根据需要设定的阈值比;
空间稳定性检测按如下方式进行:首先将某一连续时间段内的预定空间单元内某一基站的手机信令数据按需要预测的时间单元进行汇总统计;然后对每一时间单元内的各基站手机信令数据进行空间异常检测,检测方式是将预定空间单元内的每一个基站的用户数量与预定空间单元内所有基站用户数量均值进行比较,如果与该均值相差幅度等于或大于设定的阈值,则判定该时间单元内的手机信令数据为异常数据,将该数据剔除;否则认定该数据为正常数据保留;
其中,空间稳定性检测公式如下:
其中,
x为预定空间范围内的手机信号基站;t为时间单元内基站进行数据收集的所有时刻;n为时间单元内进行数据收集到的所有时刻数量;r为预定空间范围内全部基站的数量;xst为预定空间单元内基站s在时刻t的用户数量;xi为预定空间范围内某基站;rat为根据需要设定的阈值比;
重复步骤(2.1)-步骤(2.2),对预定空间单元内某一时间段的全部基站的手机信令数据进行异常检测,将异常数据剔除,获得精细数据;
步骤(3)中,对多源异构数据进行空间匹配按如下方式进行:
(3.1)对手机信号数据进行空间汇总:
判断需要统计的预定时间内、预定空间范围内的手机信号基站,将属于预定空间范围的手机信号基站收集的用户数量按如下公式进行汇总计算:
其中,Pi特定空间范围为预定空间范围内所有手机基站用户汇总的测算结果,Pi为每个基站记录的手机用户数量;δi 空间范围表示信号基站是否在需要统计的空间范围内;
对预定区域内所有空间单元进行测算,得到各空间单元的手机用户数量;
(3.2)对气象数据进行空间汇总:将手机信号基站替换为气象站的空间位置进行区域平均水平的测算:
其中,Pj特定空间范围为预定空间范围内所有气象站汇总的气象数据结果,Pj为每个气象站记录的情况;δj 空间范围表示气象站是否在需要统计的空间范围内,n是特定空间范围内气象站的数量;
步骤(4)中利用数据导入模型进行人口预测包括:
(4.1)将预定空间单元内的预定时间段的手机信令统计人口数据及影响人口数量变化的气象数据及当前时间段对应特征组合成当前时刻输入数据xt,通过以下公式计算在迭代计算过程中的遗忘门矩阵ft:
ft=σ(Wf·[ht-1,xt]+bf)
其中,ht-1表示模型上一时刻t-1的输出,Wf表示遗忘门权重矩阵,bf表示遗忘门偏置项,σ为激活函数;
(4.2)模型结构中输入门通过以下公式计算当前输入xt哪些信息保存到当前状态ct:
it=σ(Wi·[ht-1,xt]+bi)
其中,代表当前的记忆,Ct代表当前的状态;WC表示输入信息的权重矩阵,bC表示偏置项;it表示输入门矩阵,Wi表示输入门权重矩阵,bi表示输入门偏置项;Ct-1表示上一时刻t-1的信息,tanh为激活函数;
(4.3)模型结构中输出门通过以下公式计算当前信息输出:
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,ot表示输出门矩阵,Wo表示输出门权重矩阵,bo表示输出门偏置项,ht表示当前时刻t的输出,即当前时刻t的人数。
2.一种人口数量超限报警方法,其特征在于:该方法使用权利要求1所述的人口数量预测方法对预定时间、预定空间范围内的人口数量进行预测;进一步的,在预测出未来某一时间段内在某一空间范围内的人口数量后,如果该数量超出了设定阈值,则发出人口数量超限预警信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810912508.7A CN109165779B (zh) | 2018-08-12 | 2018-08-12 | 一种基于多源大数据与长短期记忆神经网络模型的人口数量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810912508.7A CN109165779B (zh) | 2018-08-12 | 2018-08-12 | 一种基于多源大数据与长短期记忆神经网络模型的人口数量预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109165779A CN109165779A (zh) | 2019-01-08 |
CN109165779B true CN109165779B (zh) | 2022-04-08 |
Family
ID=64895612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810912508.7A Active CN109165779B (zh) | 2018-08-12 | 2018-08-12 | 一种基于多源大数据与长短期记忆神经网络模型的人口数量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109165779B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918459A (zh) * | 2019-01-28 | 2019-06-21 | 同济大学 | 一种基于手机信令的城市中观层面实有人口统计方法 |
CN110276947B (zh) * | 2019-06-05 | 2021-03-23 | 中国科学院深圳先进技术研究院 | 一种交通融合分析预测方法、系统及电子设备 |
CN110322064B (zh) * | 2019-06-27 | 2022-04-15 | 清华大学 | 城市出行需求预测方法 |
CN110992230B (zh) * | 2019-11-27 | 2021-06-25 | 智慧足迹数据科技有限公司 | 基于终端信令数据的全量人口统计方法、装置及服务器 |
CN110968639A (zh) * | 2019-11-29 | 2020-04-07 | 青岛理工大学 | 一种历史名城老城区人口变化监测可视化系统 |
CN111680830B (zh) * | 2020-05-25 | 2024-01-26 | 广州衡昊数据科技有限公司 | 一种基于聚集风险预警的疫情防范方法和装置 |
CN111785392B (zh) * | 2020-07-01 | 2024-02-09 | 医渡云(北京)技术有限公司 | 人口数量的预警方法、装置、电子设备及计算机可读介质 |
CN113723585A (zh) * | 2021-04-06 | 2021-11-30 | 京东城市(北京)数字科技有限公司 | 人口预测方法、装置、电子设备和存储介质 |
CN117151322B (zh) * | 2023-06-21 | 2024-06-04 | 中国联合网络通信有限公司深圳市分公司 | 城市属性的获取方法、装置及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488120A (zh) * | 2015-11-23 | 2016-04-13 | 上海川昱信息科技有限公司 | 基于手机大数据实时采集人口空间分布与大客流预警方法 |
CN107103758A (zh) * | 2017-06-08 | 2017-08-29 | 厦门大学 | 一种基于深度学习的城市区域交通流量预测方法 |
CN107145962A (zh) * | 2017-04-01 | 2017-09-08 | 上海诺悦智能科技有限公司 | 一种景点游客量预测系统 |
CN108198416A (zh) * | 2017-12-28 | 2018-06-22 | 金交恒通有限公司 | 一种手机信令与路网大数据的融合方法及其应用与系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5301310B2 (ja) * | 2009-02-17 | 2013-09-25 | 株式会社日立製作所 | 異常検知方法及び異常検知システム |
US20170178044A1 (en) * | 2015-12-21 | 2017-06-22 | Sap Se | Data analysis using traceable identification data for forecasting transportation information |
-
2018
- 2018-08-12 CN CN201810912508.7A patent/CN109165779B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488120A (zh) * | 2015-11-23 | 2016-04-13 | 上海川昱信息科技有限公司 | 基于手机大数据实时采集人口空间分布与大客流预警方法 |
CN107145962A (zh) * | 2017-04-01 | 2017-09-08 | 上海诺悦智能科技有限公司 | 一种景点游客量预测系统 |
CN107103758A (zh) * | 2017-06-08 | 2017-08-29 | 厦门大学 | 一种基于深度学习的城市区域交通流量预测方法 |
CN108198416A (zh) * | 2017-12-28 | 2018-06-22 | 金交恒通有限公司 | 一种手机信令与路网大数据的融合方法及其应用与系统 |
Non-Patent Citations (1)
Title |
---|
基于IC和GPS数据的公交客流分析及预测算法研究;涂一霜;《万方数据 知识服务平台》;20180727;正文第4、12-13、72页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109165779A (zh) | 2019-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165779B (zh) | 一种基于多源大数据与长短期记忆神经网络模型的人口数量预测方法 | |
Calabrese et al. | Estimating Origin-Destination flows using opportunistically collected mobile phone location data from one million users in Boston Metropolitan Area | |
CN109923595B (zh) | 一种基于浮动车数据的城市道路交通异常检测方法 | |
US20170286845A1 (en) | Automatic extraction of user mobility behaviors and interaction preferences using spatio-temporal data | |
Zheng et al. | Detecting collective anomalies from multiple spatio-temporal datasets across different domains | |
CN103632212B (zh) | 一种时变用户均衡动态网络演化客流预测系统和方法 | |
Cui et al. | Identifying mismatch between urban travel demand and transport network services using GPS data: A case study in the fast growing Chinese city of Harbin | |
CN107436277B (zh) | 基于相似距离判别的单指标数据质量控制方法 | |
Li et al. | Identifying important variables for predicting travel time of freeway with non-recurrent congestion with neural networks | |
Demissie et al. | Trip distribution modeling using mobile phone data: emphasis on intra-zonal trips | |
CN106792456A (zh) | 数据分析系统和方法 | |
CN101354837A (zh) | 交通信息系统 | |
CN109214863B (zh) | 一种基于快递数据预测城市房屋需求的方法 | |
CN111401743B (zh) | 一种城市道路施工期的动态交通影响评价方法 | |
CN108600965B (zh) | 一种基于客人位置信息的客流数据预测方法 | |
EP2875623A1 (en) | Method and system for traffic estimation | |
Rossi et al. | Fuzzy logic-based incident detection system using loop detectors data | |
CN112711840A (zh) | 一种基于云边协同的流域突发水污染溯源方法 | |
CN101872450A (zh) | 基于多元数据的交警执勤宏观指标分析方法 | |
CN111950798A (zh) | 一种基于小波神经网络的区域短期人流量趋势预测方法及其系统 | |
Wang et al. | Short-term travel time estimation and prediction for long freeway corridor using NN and regression | |
Liu et al. | Developments and applications of simulation-based online travel time prediction system: traveling to Ocean City, Maryland | |
He et al. | Analysis and real-time prediction of local incident impact on transportation networks | |
Treboux et al. | A predictive data-driven model for traffic-jams forecasting in smart santader city-scale testbed | |
CN109523788B (zh) | 一种路段运行效果评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |