CN107515842A

CN107515842A - 一种城市人口密度动态预测方法及系统

Info

Publication number: CN107515842A
Application number: CN201710591043.5A
Authority: CN
Inventors: 王璞; 黄智仁
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2017-12-26
Anticipated expiration: 2037-07-19
Also published as: CN107515842B

Abstract

本发明公开了一种城市人口密度动态预测方法及系统，基于每一人口小区在每一时间窗内的人口密度，通过挖掘历史数据，结合机器学习中的递归特征消除算法，得到每一人口小区的时空关联特征，并建立相应的回归预测模型；最后，利用当前实时感知的人口密度预测下一时间窗的人口密度。有效地解决人口分布动态变化难以捕捉的问题，并对未来的变化趋势进行预测。

Description

一种城市人口密度动态预测方法及系统

技术领域

本发明属于交通技术领域，具体涉及一种城市人口密度动态预测方法及系统。

背景技术

城市人口空间分布对于城市规划、交通管理与控制与突发应急响应等方面有着十分重要意义。从1990年至今，人口分布研究受到越来越多的关注，从人口普查到新兴技术，诸如卫星遥感影像分析、地理信息系统建模等，人口感知精度的不断提高。但是这些研究往往在时间粒度上较为宽泛，往往以年为单位进行统计，无法体现城市内部每天高强度的人口流动模式。而且实施难度较高，高精度的遥感影像较难获得，测量与统计技术相对复杂。不过随着“人手一机”时代的到来，手机数据以其处理速度快、采集成本低、覆盖面广等优点，为感知人口分布提供的新机会。因此一些研究提出了使用手机数据(如通讯详单数据或手机信令数据等)对人口分布进行感知，并将时间粒度进一步缩小，适合研究以天为单位的人口动态分布，为进一步对人口密度动态预测提供数据基础。

但是仅通过人口密度感知在面对人口密度激增时，不能提供充分的预警时间，例如一些城市大型活动中的大规模人群聚集，当人口密度到达一定程度时，经常会引发严重的交通拥堵，甚至交通瘫痪，在某些情况还可能引起人群踩踏事故。因此，建立人口密度动态预测系统非常必要。2004年密云彩虹桥踩踏事件之后，北京市劳动保护科学研究所开发的人群风险聚集预警系统，利用前端获取的视频数据实现了预警功能，并根据分析结果做出交通管控决策。系统自投入使用以来，被北京、上海、广州等多个城市广泛使用。但是，无法完成对突发人群聚集的快速预警。

但是，现有的方法存在如下问题：

1、目前通过视频数据进行人群风险聚集预警的系统已在一些城市得到推广使用，但是视频监控存在盲区，不能实现全方位的监控人群聚集态势；且视频监控通常在人群密度已经处于危险态势时才能发现异常，往往会错失最佳管控时机。

2、基于视频数据的预警系统，需要前期的设备建设，并且视频处理速度慢，计算消耗资源大，经费投入与维护费用较高。

由此可见，基于手机数据的城市人口密度动态预测方法，可以充分利用现有的手机通讯基础设施与计费系统，实现大规模人口密度预测，起到由点及面的精确监控并可以提供及时预警功能，为城市安全提供决策支持、为交通管控提供准备时间。

发明内容

本发明提供了一种城市人口密度动态预测方法及系统，其目的在于，利用手机数据感知的动态人口密度与城市内各区块间的时空关联关系来对未来的人口密度变化趋势进行预测。

一种城市人口密度动态预测方法，包括以下步骤：

步骤1：获取历史时间段内各人口小区的人口密度数据，并构建人口密度矩阵M(N,T,D)；

所述人口密度矩阵三个维度分别为人口小区总数N、时间窗总数T、训练集内的总天数D，时间窗总数T是由24小时除以时间窗长度确定，时间窗长度为Z，取值为1-2小时；

步骤2：构建时空关联的初始训练集；

所述时空关联的初始训练集包括从人口密度矩阵M(N,T,D)中提取每一天人口小区i在时间窗t之前的人口密度子矩阵以及人口小区i在时间窗t时的人口密度值；

Δ表示位于时间窗t之前的时间窗数量；

即要预测时间窗t时的人口密度，所需的前Δ个时间窗的历史人口密度数据；

的具体形式如：

表示小区N在第D天的时间窗t-Δ中的人口密度均值；

步骤3：提取所有一小区在每一时间窗t对应的时空关联集合

每个小区i在时间窗t的时空关联集的提取过程为：基于递归特征消除，从人口密度子矩阵中选取与预测目标小区i在时间窗t的人口密度均值最为相关的前p列元素作为p个特征，并以p个特征构建时空关联集合(j′,t′)表示小区j′在时间窗t′的人口密度均值集合的索引号，其中，t＝1,2,…,T，i＝1,2,…,N，p的取值范围为5-35；

步骤4：基于时空关联集合，采用回归算法对p个特征权重系数进行参数估计，得到每个小区人口密度动态预测模型

步骤5：将获得的Δ个时间窗内各小区的人口密度代入各小区人口密度动态预测模型获得人口小区i在时间窗t的人口密度。

随着时间的推移，步骤1中历史时间段内各人口小区的人口密度数据需要周期性的动态更新才能获得最新最准确的人口密度动态预测模型。

进一步地，所述每个小区在时间窗t的人口密度动态预测模型采用多元线性回归模型进行构建，具体过程如下：

首先，基于步骤3获得的时空关联集对应的p个特征，构建小区i在时间窗t的X矩阵，令p个特征权重系数矩阵为ω，小区在时间窗t的预测值矩阵为Y：Xω＝Y；

其中，和分别表示提取出的p列人口密度均值中的第1列和第p列；ω_p为第p个特征的权重系数；和分别表示提出的p列特征中第1和第p个特征向量中的第m个元素，m表示在第m天采集的数据；y₁和y_m分别表示小区i在第1天和第m天中的时间窗t中的人口密度均值；

然后，从步骤1获得的人口密度均值中，提取与X对应的Y值，对预测模型进行训练，得到ω值，获得每个小区人口密度动态预测模型

进一步地，所述基于递归特征消除，从人口密度子矩阵中选取与预测目标小区i在时间窗t的人口密度均值最为相关的前p列元素作为p个特征，具体过程如下：

步骤3.1：构建初始相关特征集合S，与无关特征序列集并获取初始相关特征集合对应的训练样本；

初始相关特征集合S包含从对应的人口密度子矩阵中提取的所有二元组，依次为{(1,t-1),(2,t-1),…,(N,t-1),…,(1,t-Δ),…,(N,t-Δ)}，共有|S|＝Δ×N个元素；

所述初始相关特征集合对应的训练样本是初始相关特征集合S中每个二元组对应的小区i在所有采集日期中对应时间窗下的人口密度均值；

每个二元组包括小区编号和对应时间窗编号，每个二元组对应人口密度子矩阵中的一列；

步骤3.2：判断S中元素数量|S|是否为p，如果大于p则进入步骤3.3，否则，则结束循环，以当前集合S中获得的p列元素作为p个特征；

|S|为p说明所有不相关的特征已全部被排序进入R，即完成了特征挑选，此时集合S中的特征便是需要的特征。

步骤3.3：利用回归算法对S中所有二元组对应的人口密度均值的进行拟合，得到每个二元组的权重系数；

利用集合S中所有二元组对应的所有人口密度均值，构建小区i在时间窗t的X₁矩阵，令所有二元组的权重系数矩阵为ω⁰，小区在时间窗t的预测值矩阵为Y：X₁ω⁰＝Y；

其中，和分别表示集合S中第1个二元组和第k个二元组对应在人口密度子矩阵中一列人口密度均值；ω_k为第k个特征的系数；和分别表示集合S中第1个二元组和第k个二元组对应在人口密度子矩阵中一列人口密度均值第m个元素，m表示在第m天采集的数据；y₁和y_m分别表示小区i在第1天和第m天中的时间窗t中的人口密度均值；

求解该公式：

令E_ω＝(y-Xω)^T(y-Xω)，对ω求偏导数可得：

令上式为零，可得ω＝(X^TX)^-1X^Ty，即为集合中k个特征对应系数的参数估计。

步骤3.4：对步骤3.3求解出的所有二元组的权重系数按照绝对值大小进行排序，将权重系数绝对值最小的s个二元组从集合S中删除，并放入无关特征集合R中，返回步骤3.2；

s表示消除步长，取值范围为1-10。

进一步地，采用最小二乘法计算权重系数。

进一步地，所述各人口小区的人口密度数据通过对手机通信数据进行统计获得。

一种城市人口密度动态预测系统，包括：

人口密度矩阵构建单元，通过获取历史时间段内各人口小区的人口密度数据，并构建人口密度矩阵M(N,T,D)；

时空关联的初始训练集获取单元，通过从人口密度矩阵M(N,T,D)中提取每一天人口小区i在时间窗t之前的人口密度子矩阵以及人口小区i在时间窗t时的人口密度值获得；

Δ表示位于时间窗t之前的时间窗数量；

时空关联集合提取单元，利用递归特征消除方法，从人口密度子矩阵中选取与预测目标小区i在时间窗t的人口密度均值最为相关的前p列元素作为p个特征，并以p个特征构建时空关联集合(j′,t′)表示小区j′在时间窗t′的人口密度均值集合的索引号，其中，t＝1,2,…,T，i＝1,2,…,N，p的取值范围为5-35；

小区人口密度动态预测模型构建单元，利用时空关联集合，采用回归算法对p个特征权重系数进行参数估计，得到每个小区人口密度动态预测模型

小区人口密度动态预测单元，将获得的Δ个时间窗内各小区的人口密度代入各小区人口密度动态预测模型预测人口小区i在时间窗t的人口密度。

进一步地，所述小区人口密度动态预测模型构建单元的构建过程如下：

s表示消除步长，取值范围为1-10。

本发明所述的预测方法使得城市管理者得以对各区域的人口密度进行精确把握，为城市规划、交通管控等提供决策支持，当发生类似高密度人群聚集可以及时采取措施。其中，城市内各人口小区的人口密度时空关联是指每一个待预测的目标小区都有其自身所对应的关联小区，通过这些关联小区当前的人口密度值可以预测目标小区的未来数个时间窗的人口密度。

有益效果

本发明提供了一种城市人口密度动态预测方法及系统，基于每一人口小区在每一时间窗内的人口密度，通过挖掘历史数据，结合机器学习中的递归特征消除算法，得到每一人口小区的时空关联特征，并建立相应的回归预测模型；最后，利用当前实时感知的人口密度预测下一时间窗的人口密度。有效地解决人口分布动态变化难以捕捉的问题，并对未来的变化趋势进行预测。

本系统可以用于城市人群聚集预警，当预测结果显示某地区未来的人口密度将超过警戒阈值时，可以提前采取行动，如限制人员进入高密度区域、增加该区域的管理人员以及保障疏散通道等。于此同时，人口密度动态预测对于交通管理，如信号控制、路径诱导、拥堵收费等提供重要的数据支持，使这些措施更加贴近实际情况。

附图说明

图1本发明所述基于手机数据的城市人群密度动态预测方法的流程图；

图2表示预测值与实际观测值的散点对比示意图；

图3表示本发明所述的城市人口密度动态预测系统的数据显示界面示意图。

具体实施方式

下面将结合附图和实施例对本发明做进一步的说明。

以波士顿手机数据为例对具体实施方式进行介绍。波士顿地区包含766个人口小区即N＝766；手机数据为3周的通讯详单数据，即D＝21；时间窗以1小时为基本单位，即T＝24。因此人口密度矩阵M(N,T,D)包含N×T×D＝386,064个人口密度元素。这三周的数据主要用于构建模型，因此将第1周与第2周作为训练集D_training＝14，第3周作为测试集D_test＝7。训练集的主要作用是确定时空关联特征以及回归模型的参数估计，而测试集用来判断模型的预测效果，并帮助分析相关参数q，Δ对模型的影响，从而选取较优的参数。

一种城市人群密度动态预测方法，具体流程如图1所示，获取各人口小区在一段时间内的人口密度，生成初始人口密度矩阵；对每个人口小区在某一时间窗的时空关联关系提取人口密度子矩阵利用特征消除算法计算该人口小区在这个时间窗所对应的时空关联特征集合；运用时空关联特征进行多元线性拟合，得到回归模型；将实时数据代入回归模型得到预测值。

一种城市人口密度动态预测方法，包括以下步骤：

步骤2：构建时空关联的初始训练集；

Δ表示位于时间窗t之前的时间窗数量；

的具体形式如：

表示小区N在第D天的时间窗t-Δ中的人口密度均值；

步骤3：提取所有一小区在每一时间窗t对应的时空关联集合

所述每个小区在时间窗t的人口密度动态预测模型采用多元线性回归模型进行构建，具体过程如下：

所述基于递归特征消除，从人口密度子矩阵中选取与预测目标小区i在时间窗t的人口密度均值最为相关的前p列元素作为p个特征，具体过程如下：

其中，和分别表示集合S中第1个二元组和第k个二元组对应在人口密度子矩阵中一列人口密度均值；ω_k为第k个特征的系数；和分别表示集合S中第1个二元组和第k个二元组对应在人口密度子矩阵中一列人口密度均值第m个元素，m表示在第m天采集的数据；y₁和y_m分别表示小区i在第1天和第m天中的时间窗t中的人口密度均值；；

求解该公式：

令E_ω＝(y-Xω)^T(y-Xω)，对ω求偏导数可得：

令上式为零，可得ω＝(X^TX)^-1X^Ty，即为集合中k个特征对应系数的参数估计。。

s表示消除步长，取值范围为1-10。

步骤4：基于时空关联集合，采用回归模型，利用最小二乘法对p个特征权重系数进行参数估计，得到每个小区人口密度动态预测模型

步骤5：将获得的Δ个时间窗内各小区的人口密度代入各小区人口密度动态预测模型获得人口小区Δ在时间窗t的人口密度。

所述各人口小区的人口密度数据通过对手机通信数据进行统计获得。

一种城市人口密度动态预测系统，包括：

Δ表示位于时间窗t之前的时间窗数量；

所述小区人口密度动态预测模型构建单元的构建过程如下：

s表示消除步长，取值范围为1-10。

递归特征消除算法遵循的是贪婪算法中的后向搜索的策略，主要思想是反复地构建模型，从而通过回归器赋予各个特征权重，在每一步选择最优结果，从而逐步剔除不相关特征，递归消除的目标是通过递归逐步缩小特征集。首先，对初始特征集进行回归，将权重分配给每个特征。然后，从当前设置的特征中剪除绝对权重最小的特征。不断重复该过程，直到最终达到要选择的要素数量为止。

模型测试阶段：在模型训练阶段需要提前进行标定的参数有提前的时间窗数Δ，时空关联的特征数p，特征消除的步长s以及回归模型F。这些参数的选取对于模型预测效果有着至关重要的影响。

对于提前的时间窗数Δ，时空关联的特征数p，特征消除的步长s这三个整数型参数的确定，采用网格式搜索：对于Δ，p，s三个参数确定相应的取值范围，如Δ＝{1,2,3,4}，p＝{5,15,25,35}，s＝{2,4,6,8}，对这些参数进行排列组合可得{(Δ,p,s)}＝{(1,5,2),…,(4,35,8)}，将这些系数组合代入模型训练阶段可以获得相应的预测值，通过计算预测值与真实值的误差(可以选用如均方根误差进行评估)可以确定那种参数组合对于预测性能最有帮助。回归模型F的选取原则也与参数选择类似。

利用本方法获得预测结果和实际值结果对比如图2所示，在2010年3月3日18:00时刻，每一个数据点代表一个人口小区，在该时刻通过手机数据感知人口密度值(实际值)与采用之前两个时间内(16:00与17:00)的各小区的人口密度值结合本文提出的预测模型所得到的预测值。两组数据的决定系数R²＝0.9754，表示预测值与实际值有很好的线性相关性，该方法对于该区域任一人口小区的人口密度均能较好的预测。

利用本发明所述的城市人口密度动态预测系统的数据显示界面如图3所示，该图主要显示的是575号人口小区的人口密度在2010年3月3日的变化情况：左部视图中，黄点表示575号人口小区所位于的地理位置，在波士顿市的中心区域，是人口活动较为密集的地区；右上角视图中，当前时间窗的预测值，并利用当前的预测值结合已感知到的实际值对下两个时间窗的人口密度做进一步预测；右下角视图中，可以对该小区的整体人口趋势进行查看，虚线表示历史均值，白色实线表示预测值，深色实线表示真实值。在13:00这个时刻，实际值为31904.7人每平方公里，预测值为30327.3人每平方公里，预测误差为4.06％。从该日的整体趋势上看，可以看出这天的人口密度要整体高于往常情况，而本方法的预测值仍能较好的与实际值的趋势相吻合，说明本方法对于一些异常人口密度增加的情况仍然适用。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种城市人口密度动态预测方法，其特征在于，包括以下步骤：

步骤2：构建时空关联的初始训练集；

Δ表示位于时间窗t之前的时间窗数量；

步骤3：提取所有一小区在每一时间窗t对应的时空关联集合

2.根据权利要求1所述的方法，其特征在于，所述每个小区在时间窗t的人口密度动态预测模型采用多元线性回归模型进行构建，具体过程如下：

3.根据权利要求2所述的方法，其特征在于，所述基于递归特征消除，从人口密度子矩阵中选取与预测目标小区i在时间窗t的人口密度均值最为相关的前p列元素作为p个特征，具体过程如下：

s表示消除步长，取值范围为1-10。

4.根据权利要求1-3所述的方法，其特征在于，采用最小二乘法计算权重系数。

5.根据权利要求4所述的方法，其特征在于，所述各人口小区的人口密度数据通过对手机通信数据进行统计获得。

6.一种城市人口密度动态预测系统，其特征在于，包括：

Δ表示位于时间窗t之前的时间窗数量；

7.根据权利要求6所述的系统，其特征在于，所述小区人口密度动态预测模型构建单元的构建过程如下：

8.根据权利要求7所述的系统，其特征在于，所述基于递归特征消除，从人口密度子矩阵中选取与预测目标小区i在时间窗t的人口密度均值最为相关的前p列元素作为p个特征，具体过程如下：

s表示消除步长，取值范围为1-10取值范围为1-10。

9.根据权利要求8所述的系统，其特征在于，所述各人口小区的人口密度数据通过对手机通信数据进行统计获得。