CN112200351A

CN112200351A - 一种基于手机信令数据的城市区域客流量预测方法

Info

Publication number: CN112200351A
Application number: CN202011014000.9A
Authority: CN
Inventors: 李彬亮; 朱宇; 何秋翘; 刘健欣; 蔡婷婷; 黄荔莉; 陈闻天; 方捷; 朱景瑜
Original assignee: Shanghai Yundi Information Technology Co ltd; Shenzhen Comprehensive Transportation Operation Command Center
Current assignee: Shanghai Yundi Information Technology Co ltd; Shenzhen Comprehensive Transportation Operation Command Center
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2021-01-08

Abstract

本发明公开了一种基于手机信令数据的城市区域客流量预测方法，包括以下步骤：S1.城市区域划分；S2.手机信令数据预处理；S3.根据基于手机信令数据的用户轨迹进行驻留数据处理：S4.基于融合M个历史监测时间段的图卷积神经网络和外部影响因素的城市客流预测模型的城市区域客流预测。本发明通过手机信令数据来获取用户的轨迹序列，从而根据用户的轨迹序列获取城市区域内客流量的变化，相对于现有技术中采用GPS数据来获取用户信息的方法来说，本发明能获取到更加完整有效的位置信息，为客流量的预测提供了较好的基础；其次，本发明采用图卷积神经网络提取网格区域的空间相关性，进一步提高了客流量预测的准确性和实用性。

Description

一种基于手机信令数据的城市区域客流量预测方法

技术领域

本发明涉及城市交通规划技术领域，更具体的说是涉及一种基于手机信令数据的城市区域客流量预测方法。

背景技术

近年来，随着我国经济的飞速发展，城市化、汽车化进程加快，机动车辆保有量迅猛增加，我国的交通状况发生较大的变化，交通拥挤以及能源、环境问题日益严重，特别是一些大城市，交通拥挤已成为制约城市经济发展的瓶颈。

为了提高交通网络使用效率，解决交通拥挤和交通安全问题，对城市区域的客流量进行监测和预估是十分高效的方法，现有技术中一般采用定位精确的GPS数据作为数据基础，通过回归模型和机器学习模型来进行人流量的预测，然而，在数据使用这一方面，GPS数据相较传统的位置获取方式，精确度，覆盖范围都大幅度提升，但其约束性较强，如在智能手机设备中，只有当用户使用需要GPS定位的应用程序(APP)才会启动定位，另外，在模型选取这一方面，传统的回归模型和机器学习模型难以提取城市区域客流复杂的时空相关系，不能起到精准预测的作用。

而手机信令数据具有样本量大，获取成本低，实时性，覆盖范围广和覆盖人群多等优点，能够有效解决GPS数据不能够全面反映人流情况的问题，深度学习模型具有学习能力强、覆盖范围广和适应力强的优点，更加适用于客流量的预测。

因此，如何提供一种基于手机信令数据的城市区域客流量预测方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于手机信令数据的城市区域客流量预测方法，其目的在于对城市区域在某个固定时间段内的客流量进行预测，从而对城市规划，交通管理提供帮助。

为了实现上述目的，本发明采用如下技术方案：

一种基于手机信令数据的城市区域客流量预测方法，包括以下步骤：

S1.城市区域划分：将待预测的城市范围划分为N个网格，获取每个网格的POI向量，通过余弦相似度计算各个网格与预设距离之内的其他网格之间的POI相似度，将相似度大于阈值α的网格合并为同一个城市区域；

S2.手机信令数据预处理；

S3.根据基于手机信令数据的用户轨迹进行驻留数据处理：获取所有网格内每个用户在一个监测周期内，每个预设时间间隔后的最新基站位置记录，针对每个用户生成用户轨迹序列，获取用户的驻留数据；

S4.基于融合M个历史监测时间段的图卷积神经网络和外部影响因素的城市客流预测模型的城市区域客流预测：

S41.构建包含近距离邻居和远距离邻居的邻接矩阵，并进行权重调整；

S42.设置M个历史监测时间段，分别获取目标预测时间段前的M个历史监测时间段内每个网格的出发流和到达流；

S43.将M个历史监测时间段内获取到的出发流和到达流数据分别输入至M个图卷积神经网络中，将M个图卷积神经网络进行融合，得到融合M个历史监测时间段的图卷积神经网络模型；

S44.通过外部因素特征提取模型，对目标预测时间段内影响出发流和到达流的外部因素进行编码，输入全连接层后，得到外部因素特征矩阵；

S45.将融合M个历史监测时间段的图卷积神经网络模型和外部因素特征提取模型进行融合，得到城市客流预测模型，并基于城市客流预测模型得到整个城市范围内各个网格在目标预测时间段内的出发流和到达流的预测值；

S46.通过均方误差函数计算预测值和真实值之间的误差，以均方误差函数最小化为目标来对城市客流预测模型进行训练，最终获得训练好的城市客流预测模型；

S47.利用训练好的城市客流预测模型进行城市客流预测得到整个城市范围内各个网格在目标预测时间段内的出发流和到达流的最终预测值。

优选的，S1的具体步骤包括：

S11.将城市范围划分为N个相同规格的网格；

S12.获取每个网格的POI向量，其中POI向量的维度等于POI类型的个数，POI向量的每个分量表示当前POI所在区域中当前POI的数量；

S13.遍历网格，通过余弦相似度计算目标网格与预设范围内其他网格的POI相似度，相似度大于阈值α的网格合并为同一个区域；

其中，余弦相似度的计算方法为：

优选的，S2的具体步骤包括：

S21.去除手机信令数据中与后续算法逻辑无关的字段特征，并将字段特征名标准化；

S22.去除信令数据、基站数据重复的记录；过滤缺失必要特征的记录；

S23.利用基站数据中的基站编码获取基站所在位置经纬度，关联手机信令数据，通过基站-网格的映射关系，获得手机用户所在区域。

优选的，S3的具体步骤包括：

S31.设置监测周期和监测周期内获取数据的预设时间间隔；

S32.在一个监测周期内，针对每个用户获取每个预设时间间隔后的最新基站位置记录；

S33.对同一用户，判断时间上相邻的两条记录之间的时间差，若时间差超出阈值t_exit，则：

1)若前后两条记录均处于夜间时段，两条记录之间的间隔时间大于t_exit，且在同一网格内，则认为出现了关机和开机的过程，则将这两条记录进行合并，则视用户驻留于同一位置；

2)若不属于开关机情况，则视用户在两条记录之间存在离开后又进入分析区域的行为，将第一条作为离开位置记录，第二条作为进入位置记录；

S34.对同一用户，若相邻记录的位置所属的网格相同，则进行合并，并累积驻留时长；

S35.选取驻留时长大于驻留时间阈值的位置作为驻留点，对同一用户的驻留点按时间顺序排序，并将驻留点轨迹数据映射到相应城市区域中。

优选的，S41的具体步骤包括：

1)构建仅考虑一阶邻居的邻接矩阵，其中一阶邻居为近距离邻居，统计目标网格与其他网格两两之间的OD流量大小，选取天数/流量的值小于阈值λ的网格作为目标网格的远距离邻居，构建包含远距离邻居和近距离邻居的邻接矩阵；

2)将包含远距离邻居和近距离邻居的邻接矩阵乘以距离权重和流量权重，得到最终的邻接矩阵；

其中，距离权重为：

式中，dist(p_i，p_j)为网格pi和pj之间的距离；θ₁为控制ω_ij的参数；

流量权重为：

式中，flow(p_i，p_j)为pi和pj之间的流量之和，θ₂为控制v_ij的参数；

最终的邻接矩阵为：

S＝A×ω×v

式中，S为最终的邻接矩阵，A为原始的邻接矩阵，ω为距离权重，ν为流量权重。

优选的，基于图拉普拉斯矩阵谱分解的图卷积神经网络为：

其中D为度矩阵，

其中，I_N为单位矩阵，X为输入的特征矩阵，维度为N×C，其中第一层图卷积神经网络的X的维度为N×2，W为可训练的参数；

图卷积神经网络模型为深层神经网络，同时结合残差学习的方法来辅助图卷积神经网络模型的训练，训练后的图卷积神经网络模型中的一个图卷积残差网络单元定义为：

其中，H^l为当前层的输入，H^l+1为当前层的输出，f为激活函数，Q为融合了远距离网格的度矩阵，

S为融合了距离、流量信息邻接矩阵，

W^l为l层可训练的参数。

优选的，S44的具体步骤为：

对外部因素通过one-hot编码方式进行编码，拼接成一个向量，输入一个全连接层，得到与输入的特征矩阵X维度相同的外部因素特征矩阵；

其中外部因素包括但不限于：目标预测时间段的节假日、天气情况和温度因素。

优选的，S45的具体步骤包括：

将融合M个历史监测时间段的图卷积神经网络模型的输出和外部因素特征矩阵加权融合，经过一个全连接层后，将维度转化为N×2，得到各个网格在目标预测时间段内出发流和到达流的预测值。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于手机信令数据的城市区域客流量预测方法，首先，本发明将城市划分为不同的城市区域，并通过手机信令数据来获取用户的轨迹序列，从而根据用户的轨迹序列获取城市区域内客流量的变化，相对于现有技术中采用GPS数据来获取用户信息的方法来说，本发明能获取到更加完整有效的位置信息，为客流量的预测提供了较好的基础；其次，本发明采用图卷积神经网络提取网格区域的空间相关性，解决了现有技术中的深度学习等模型不能有效提取空间相关性的缺陷，进一步提高了客流量预测的准确性和实用性，另外，现有技术中构建邻接矩阵时仅考虑一阶邻居，且邻居的权重均相同，本发明构建邻接矩阵时，除了考虑一阶邻居，也考虑了距离较远但相关性较大的区域，并基于距离和流量强度调整邻接矩阵的权重值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的城市划分网格图；

图2附图为本发明提供的图卷积神经网络模型图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于手机信令数据的城市区域客流量预测方法，包括以下步骤：

S1.城市区域划分：

1.1将深圳市地图划分为多个100m*100m的网格

1.2网格POI向量获取

获取每个网格的POI数据，生成每个网格的POI向量，其中向量的维度等于POI种类的个数，向量的每个分量表示这个区域该POI类型的数量。本实施例中POI数据主要涵盖13个大类，如表1所示：

表1

1.3合并功能相似的网格

遍历网格，通过余弦相似度计算目标网格与2km内其他网格POI向量的相似度，相似度大于阈值α的合并为一个区域，本实施例中α设置为0.7。

S2.手机信令数据预处理；

选取半年的手机信令数据，数据主要包括用户ID：UserID；时间戳：Time；基站位置区编号：Lac；基站小区编号:Ci；本实施例选取2018年3月19日移动网络数据。去除无关字段和重复数据后，部分数据如表2所示：

表2

Msid	Time	Lac	Ci
				…	…	…	…
4D5C1FB6C	20180903190359	4865	19329
				AF5879ABA	20180903190359	4289	23744
0355E642F	20180903190359	4273	19458
				B77F30095	20180903190359	4865	18081
7E239D1C1	20180903190359	4465	18209
				USA234S52	20180903190359	4755	15658
SF2H034NGF	20180903190359	4253	14983
				1EWUD8SI89	20180903190359	3897	12549
3SD265FSS4	20180903190359	4879	26548
				Q8SDTW9452	20180903190359	4316	12786
0SAF598F13	20180903190359	3865	19987
				…	…	…	…

最后将信令数据映射到网格中。

S3.根据基于手机信令数据的用户轨迹进行驻留数据处理：

S31.设置监测周期和监测周期内获取数据的预设时间间隔；

S33.对同一用户，判断时间上相邻的两条记录之间的时间差，若时间差超出阈值t_exit，则认为可能存在两种情况，本实例中t_exit设为60分钟：

1)如果前后两条记录均处于夜间时段(晚上8点至早上8点)；两条记录之间的间隔时间大于t_exit，且在同一网格内，则认为出现了关机、开机的过程，此时需要将这两条记录进行合并，认为该段时间驻留于同一位置。

2)如果不满足开关机条件，则认为用户在两条记录之间存在离开后又进入分析区域的行为，第一条记录认为是离开，后一条认为是进入。

在开关机与离开进入判断后，对同一用户，按照时间排序后，相邻记录之间若所属网格相同，则进行合并，驻留时长累积。用户4D5C1FB6C部分处理后的驻留轨迹数据如表3所示：

表3

Msid	Time	Gridid	Stay_time
				…	…	…	…
4D5C1FB6C	20180903182150	895	580
				4D5C1FB6C	20180903190730	890	2
4D5C1FB6C	20180903190732	899	1
				4D5C1FB6C	20180903190734	895	2
4D5C1FB6C	20180903190737	956	3
				4D5C1FB6C	20180903190740	892	3
…	…	…	…

3)选取驻留时长大于驻留时间阈值min_stay(如30、60、90、120分钟)的驻留点，本实例min_stay设为60分钟。并将驻留点轨迹数据映射到城市的相应区域中。处理后的数据如表4所示：

表4

S4.基于融合4个历史监测时间段的图卷积神经网络和外部影响因素的城市客流预测模型的城市区域客流预测：

1)基于驻留点数据，对一天中每个小时、每个网格的出发/到达次数进行统计。在一个时间窗内(1小时)遍历轨迹驻留数据，若用户某条轨迹记录的S_time/E_time位于该时间窗，则该记录对应网格的到达/出发次数加一。最终得出一天中每个小时、每个网格的出发/到达次数统计表，作为模型的输入数据，以2018年3月19日的部分网格为例，如表5所示：

表5

Timeindex	GridID	S_NUM	E_NUM
				…	…	…	…
2018031908	358	250	388
				2018031908	359	454	504
2018031908	360	743	586
				2018031908	361	691	857
2018031908	363	536	845
				2018031908	364	256	434
…	…	…	…

2)基于网格之间的距离构建邻接矩阵。邻接矩阵代表两个网格之间是否有边将它们连接起来，即两个网格之间是否存在关系。直观来看，目标网格与它的相邻网格关系较强。所以在邻接矩阵中将目标网格的相邻网格之间的权重设为1。除此之外，较远距离的网格可能会通过地铁、公交车、出租车等交通工具，将两个网格联系起来。故将目标网格与这些有关系的远距离区域的权重也设为1。这些远距离网格是基于交互关系的强度(即两个网格之间的流量大小)来选取的。本实施例选取城市一个月的手机信令驻留数据，统计各网格两两之间的OD流量大小，选取天数/流量的值小于阈值λ的网格作为目标网格的远距离邻居，本实例中λ取值为0.07。然后将包含近距离和远距离邻居关系的邻接矩阵，乘以距离权重和流量权重，得到最终的邻接矩阵。

其中，距离权重为：

流量权重为：

最终的邻接矩阵为：

S＝A×ω×

最终的邻接矩阵的某部分如表6所示：

表6

S42.设置4个历史监测时间段，分别获取目标预测时间段前的4个历史监测时间段内每个网格的出发流和到达流；

本实施例的目标是在给定每个网格历史时间的出发流和到达流{X_t|t＝1，2，…，T}的情况下，对每个网格在未来某一时刻的出发流和到达流X_t+1进行预测。

由于未来时刻网格的流量与历史时刻中的前l_hour个小时；前l_day天、前l_week周、前l_month月的同一时刻这几个关键时间步强烈相关，所以将目标时刻的这4个关键时间步每个网格的出发流和到达流拼接起来作为模型的输入。

在本实施例中，l_hour为3，l_day，l_week，l_month都为2。

S43.将4个历史监测时间段内获取到的出发流和到达流数据分别输入至4个图卷积神经网络中，将M个图卷积神经网络进行融合，得到融合M个历史监测时间段的图卷积神经网络模型；

基于邻接矩阵对图卷积神经网络模型进行训练；

基于图拉普拉斯矩阵谱分解的图卷积神经网络为：

其中D为度矩阵，

需要说明的是，I_N为单位矩阵，

＝代表加入自连接的度矩阵，

代表加入自连接的邻接矩阵。

S为融合了距离、流量信息邻接矩阵，

W^l为l层可训练的参数。

对外部因素通过one-hot编码方式进行编码，外部因素包括对目标时段的日期类型(周几)、是否为节假日、是否降雨、温度等因素；将这些数据拼接成一个向量，通过一个两层的全连接层。得到与输入特征矩阵X维度相同的外部因素特征矩阵。

例如，对周一(非节假日)编码的方法如表7所示：

表7

1

0

对周日(节假日)编码的方法如表8所示：

表8

0

1

向量的1-7个元素代表一周中的星期几，哪个元素为1就是星期几，其它元素皆为0；向量第8个元素代表是否为节假日，数值为1是节假日，为0是非节假日。

S45.将融合4个历史监测时间段的图卷积神经网络模型和外部因素特征提取模型进行融合，得到城市客流预测模型，并基于城市客流预测模型得到整个城市范围内各个网格在目标预测时间段内的出发流和到达流的预测值；

将融合4个历史监测时间段的GCN模型的输出和提取外部因素特征的输出加权融合，再经过一个全连接层后，将融合后的矩阵维度转化为N×2，得到最后的输出，即整个城市范围各个网格未来时间出发流和到达流的预测值。

S46.通过均方误差函数计算预测值和真实值之间的误差，对训练后的M个图卷积神经网络模型进行重复训练，将重复训练后的图卷积神经网络模型按照S45的步骤获取新的预测值，直至新的预测值和真实值之间的误差达到最小，获得训练好的最终图卷积神经网络模型；

S47.利用最终图卷积神经网络模型按照S45的步骤，得到整个城市范围内各个网格在目标预测时间段内的出发流和到达流的最终预测值。

本发明的有效性可以通过如下实验来进一步说明，实验选取半年的手机信令数据，每隔一个小时基于驻留数据统计该时段内每个网格的出发流和到达流。从半年的出发流和到达流数据中，选取20％作为测试集。再从剩下80％的数据中，随机选取80％作为训练集，20％作为验证集。

为了说明上述预测方法的效果，本实施例选取了现有的经典交通流预测模型作为对比：历史平均值法(HA)、差分整合移动平均自回归模型(ARIMA)、卷积神经网络(CNN)、长短期记忆人工神经网络(LSTM)、图卷积神经网络(GCN)并使用与相关文献一致的调参方法。交通流预测模型性能以均方根误差RMSE(root mean square error)为指标，来衡量交通流预测模型的泛化能力和精度。各预测模型与本实施例中的预测方法的对比结果如表9所示：

表9

Model	RMSE
		HA	59.58
ARIMA	25.15
		CNN	19.36
LSTM	20.23
		GCN	18.69
本实施例	15.23

根据表格可知，与现有技术中的几个经典交通流预测模型相比，使用本实施例的预测方法所得到的交通流均方根误差最低，说明该方法对交通流进行模拟预测是行之有效的。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。