CN112883133A

CN112883133A - 基于时序数据和功能演变数据的流量预测方法

Info

Publication number: CN112883133A
Application number: CN202110135788.7A
Authority: CN
Inventors: 顾晶晶; 闫瑾
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2021-06-01
Anticipated expiration: 2041-02-01
Also published as: CN112883133B

Abstract

本发明公开了一种基于时序数据和功能演变数据的流量预测方法，首先通过聚类的方法得到居民出行模式序列，之后，基于居民出行模式序列和POI变化模式序列，挖掘不同时间窗口下动态变化的不同类别POI的分布与居民出行模式之间的相关性，并学习二者的相互影响关系；之后基于相互影响关系矩阵，分别在时间维度和POI类别维度进行注意力操作，提取出POI对居民出行模式的影响信息；最后，将居民出行模式序列经过LSTM时序模型得到输出，并将该输出和POI对居民出行模式的影响信息结合，进行下一时间的出行流量预测。本发明方法能够有效揭示居民出行模式的变化和区域演变之间的隐式规律，为预测居民群体出行流量提供重要支撑。

Description

基于时序数据和功能演变数据的流量预测方法

技术领域

本发明属于模式预测领域，特别涉及一种基于时序数据和功能演变数据的流量预测方法。

背景技术

出行在居民的日常生活中扮演着重要的角色，对于城市管理、土地使用和公共安全等都起着重要的作用。未来城市最基本的问题之一便是建设高效的交通系统。解决这个问题，关键是要得到一个准确的居民出行需求预测模型。对于城市管理者来说，通过对居民出行进行准确预测，可以提前得知可能会发生拥堵的时间和地点，甚至是拥挤程度，从而提前采取措施来防止交通堵塞的发生；对于投资者来说，可以发现人群在不同情况下喜欢的聚集点，从而进行广告定向投放，进行商业选址等；对于市民来说，了解城市中不同区域在不同时间可能的流量可以帮助他们提前规划自己的行程时间和出行方式等。

出行流量预测问题主流的方法可以分为基于统计的方法、基于传统机器学习的方法、基于深度学习的方法等。基于统计的方法中，自回归移动平均线算法ARMA(Autoregressive Moving Average)在时间序列预测问题的研究中使用非常普遍，但其只能捕获数据中的时间依赖性而不能捕获数据的空间依赖性。出行流量预测问题的代表性浅层机器学习方法是K近邻算法KNN(K-Nearest Neighbors)和支持向量回归算法SVR(Support Vector Regression)。KNN和SVR算法可以获得很高的预测精度和计算效率，但预测结果的好坏很大程度上依赖于人为选择的特征。近年来随着数据量的不断增加，传统的基于机器学习的方法在大数据中挖掘深层次的、隐含的时空相关性受到了限制，而随着深度机器学习的发展，基于深度神经网络的流量预测已经取得了一些比较典型的研究成果，如GNN(Graph Neural Networks),GCN(Graph Convolutional Network)等方法可以同时建模区域的时间和空间信息，大大提高了预测的精度。

虽然目前已有很多结合城市功能区分布数据来辅助进行流量预测的工作，但这些工作都仅仅将POI作为区域相似度的静态指标，忽略了POI的变化对流量可能产生的动态影响，也忽略了流量的变化也会反过来影响POI的数量变化。

本发明将着重介绍如何学习居民出行模式和城市功能区发展的相互影响关系——即流量-POI相互影响关系，包括影响力大小、影响的顺序和持续时间等，并将二者的相互影响关系建模，来帮助更好的预测流量。

发明内容

本发明的目的在于针对上述现有技术存在的问题，提供一种基于时序数据和功能演变数据的流量预测方法。

实现本发明目的的技术解决方案为：一种基于时序数据和功能演变数据的流量预测方法，所述方法包括以下步骤：

步骤1，对采集到的地图查询数据和POI数据进行预处理，以获得需要的数据；

步骤2，划分研究区域，并将地图查询数据和POI数据按照研究区域进行分组；

步骤3，基于将地图查询数据进行分组后得到的居民出行流量序列，对所有区域每天的流量序列进行聚类；

步骤4，基于聚类结果，构建居民出行模式序列；

步骤5，基于POI数据，构建POI变化模式序列；

步骤6，基于居民出行模式序列和POI变化模式序列，生成互信息矩阵；

步骤7，基于互信息矩阵，提取POI对居民出行模式的影响信息；

步骤8，构建并训练流量预测模型，之后利用训练好的模型对待测数据的流量进行预测。

进一步地，步骤1所述对采集到的地图查询数据和POI数据进行预处理，具体过程包括：

步骤1-1，基于地图查询数据，使用箱型图对数据的分布进行可视化，之后过滤掉噪声数据；

步骤1-2，根据经纬度范围，筛选出目标城市的POI数据，并提取出每条数据的一级类别标签。

进一步地，步骤2中所述划分研究区域，具体包括：

步骤2-1，将目标城市按照行政区域划分，将行政区域第五级的编号作为区域编号；

步骤2-2，根据经纬度筛选出查询起点和终点均在目标城市的地图查询数据，并分别找到起点和终点所位于的五级区域编号，作为查询的起点和终点编号；

步骤2-3，统计预设时间间隔内每个五级区域的流量，过滤掉流量小于预设阈值的区域；

步骤2-4，为每个POI找到所在的五级区域编号，并统计每个五级区域内不同种类的POI数量，过滤掉POI数量小于预设阈值的区域。

进一步地，步骤3所述基于将地图查询数据进行分组后得到的居民出行流量序列，对所有区域每天的流量序列进行聚类，具体过程包括：

步骤3-1，输入流量序列x_i，i＝1,2,…,N，N为序列的总数，将所有流量序列随机分为K个类别，第j个类别的流量序列集合定义为C_j，j＝1，2，...,K，并为每个类别随机选取一个中心；

步骤3-2，对每个类别的流量序列数据求得矩阵M：

式中，I为单位矩阵；

步骤3-3，更新每个类别的中心：计算每个类别对应的矩阵M的特征向量，将最小特征值对应的特征向量作为该类别的中心；

步骤3-4，计算每个数据到每个类别中心的距离，将数据划分到距离最小的类别中；

步骤3-5，重复以上步骤，直到分类结果不再变化。

进一步地，步骤4所述基于聚类结果，构建居民出行模式序列，具体包括：

步骤4-1，由步骤3聚类的结果，得到每个区域每天的类别标签即流量模式标签，将这些标签定义为流量模式的日标签，用

表示，其中i为区域编号，i＝1,2,3,…,n，t为时间，n为区域的总数，每个区域的流量模式日标签集合为C；

步骤4-2，对流量模式的日标签按周进行分组，获得流量模式周标签，即每周得到7个流量模式日标签，进而获得每周的流量模式日标签的概率分布；

步骤4-3，定义流量模式变化程度来刻画流量模式周标签的变化，用

表示：

式中，

分别表示区域i在第T周的流量模式日标签的概率分布；

步骤4-4，对步骤4-3中每周的流量模式变化程度进行离散化，即将数值转换成标签，形成居民出行模式序列，遵循如下规则：

(1)若f-chang∈(0,0.2]，标签为几乎没有变化；

(2)若f-chang∈(0.2,0.4]，标签为变化程度小；

(3)若f-chang∈(0.4,0.6]，标签为变化程度不大；

(4)若f-chang∈(0.6,0.8]，标签为变化程度比较大；

(5)若f-chang∈(0.8,1]，标签为变化程度很大。

进一步地，步骤5所述基于POI数据，构建POI变化模式序列，具体包括：

步骤5-1，规定某个区域中某类POI的个数在某个时间time为

在下一个时间time+1为

针对不同类别的POI，定义POI数量变化程度

time为：

式中，time的单位为月；

步骤5-2，按照步骤4-4的方式将用数值表示的POI数量变化程度转换成标签，形成POI变化模式序列。

进一步地，步骤6所述基于居民出行模式序列和POI变化模式序列，生成互信息矩阵，具体包括：

步骤6-1，从最开始的周，取出一组居民出行模式序列[S¹,S²,...Sⁿ]，暂时固定该序列，并取出该序列对应的八个月的POI变化模式序列；

步骤6-2，从最开始的月份开始，取出长度为n的POI变化模式序列[L¹,L²,...Lⁿ]，与居民出行模式序列[S¹,S²,...Sⁿ]求出互信息值，作为这两条序列的相互影响力；

步骤6-3，居民出行模式序列不变，将POI变化模式序列的时间后移一位，即取出序列[L²,L³,...Lⁿ⁺¹]，与居民出行模式序列求互信息值，求完后继续后移，直至POI变化模式序列的最后一位为最后一个月的模式；

步骤6-4，POI变化模式序列不变，后移居民出行模式序列，取出[S²,S³,...Sⁿ⁺¹]，与POI变化模式序列求互信息值，求完后继续后移，直至居民出行模式序列的最后一位为最后一个周的模式；

由上述互信息值形成互信息矩阵，表示为

其中n代表区域，t代表时间片，p为POI变化模式序列的滑动次数，c为POI的类别个数。

进一步地，步骤7所述基于互信息矩阵，提取POI对居民出行模式的影响信息，具体包括：

步骤7-1，对于每个区域在每个时间片对应的互信息矩阵，分别按照POI时间维度和POI类别维度进行池化：

对

和

进行softmax操作：

使用α_n,t,1、α_n,t,2和原始的互信息矩阵进行加权求和：

x_n,t,1＝α_n,t,1m_n,t

式中，x_n,t,1和x_n,t,2即为POI对居民出行模式的影响信息。

进一步地，步骤8所述构建并训练流量预测模型，具体包括：

步骤8-1，将居民出行流量序列输入LSTM时间序列预测模型中，得到下一时间的输出x_n,t,0；

步骤8-2，拼接所述x_n,t,0，x_n,t,1和x_n,t,2：

h_n,t＝x_n,t,0+x_n,t,1+x_n,t,2：

步骤8-3，步骤8-2得到的结果h_n,t经过一个全连接层输出预测结果，判断预测结果是否满足预设精度或当前是否达到预设迭代次数，若是，则返回预测结果，否则优化LSTM时间序列预测模型参数，重新上述步骤直至满足条件。

本发明与现有技术相比，其显著优点为：1)刻画体现居民出行模式变化的模式序列，以达到与城市演变数据在观测尺度上对齐的目的，并挖掘在不同时间窗口下，动态变化的不同类别的POI的分布与出行流量模式之间的相关性；2)基于该相关性，学习居民出行模式的变化与其之间的相互影响关系，提出基于二者之间相互影响的流量模式预测模型；3)将上述技术进行融合，能够应对大规模原始轨迹数据的处理，并为有效揭示居民出行模式的变化和城市演变之间的相互影响关系提供探索和学习的方法。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明基于时序数据和功能演变数据的流量预测方法的流程图。

图2为一个实施例中居民出行与区域功能相互作用关系挖掘结构图。

图3为一个实施例中居民出行流量预测模型的实验结果图。

图4为一个实施例中基于流量数据和功能演变数据的流量预测系统界面图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施案例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，结合图1，提供了一种基于时序数据和功能演变数据的流量预测方法，所述方法包括以下步骤：

这里，所述地图查询数据包括匿名化的用户编号、查询起点经度、查询起点纬度、查询终点经度、查询终点纬度以及查询时间；

所述POI数据，包括POI编号、POI经度、POI纬度、POI类别标签；所述POI类别标签自定义设置，包括一级、二级、......、N级标签，其中一级类别标签等级最高。例如，美食为一级标签，中餐馆为二级标签等。

步骤4，基于聚类结果，构建居民出行模式序列；

步骤5，基于POI数据，构建POI变化模式序列；

进一步地，在其中一个实施例中，步骤1所述对采集到的地图查询数据和POI数据进行预处理，具体过程包括：

进一步地，在其中一个实施例中，步骤2中所述划分研究区域，具体包括：

步骤2-4，为每个POI找到所在的五级区域编号，并统计每个五级区域内不同种类的POI数量，过滤掉POI数量小于预设阈值的区域，保证区域的功能性研究价值。

进一步地，在其中一个实施例中，步骤3所述基于将地图查询数据进行分组后得到的居民出行流量序列，对所有区域每天的流量序列进行聚类，具体过程包括：

步骤3-1，输入流量序列x_i，i＝1,2,…,N，N为序列的总数，将所有流量序列随机分为K个类别，第j个类别的流量序列集合定义为C_j，j＝1，2，…,K，并为每个类别随机选取一个中心；

步骤3-2，对每个类别的流量序列数据求得矩阵M：

式中，I为单位矩阵；

步骤3-5，重复以上步骤，直到分类结果不再变化。

进一步地，在其中一个实施例中，步骤4所述基于聚类结果，构建居民出行模式序列，具体包括：

表示：

式中，

分别表示区域i在第T周的流量模式日标签的概率分布；

(1)若f-chang∈(0,0.2]，标签为几乎没有变化；

(2)若f-chang∈(0.2,0.4]，标签为变化程度小；

(3)若f-chang∈(0.4,0.6]，标签为变化程度不大；

(4)若f-chang∈(0.6,0.8]，标签为变化程度比较大；

(5)若f-chang∈(0.8,1]，标签为变化程度很大。

进一步地，在其中一个实施例中，步骤5所述基于POI数据，构建POI变化模式序列，具体包括：

步骤5-1，规定某个区域中某类POI的个数在某个时间time为

在下一个时间time+1为

针对不同类别的POI，定义POI数量变化程度

time为：

式中，time的单位为月；

由于不同类别的POI变化速度不同，如商店更新换代很快，但医院、学校等的数量可能一年都不会发生变化，所以我们需要根据POI类别的不同分别进行离散化。

示例性地，离散化规则如下表1所示。

表1不同POI类别的离散化示例

	减少的快	减少的慢	不变	增加的慢	增加的快
						美食类	(,-0.088]	(-0.088,0)	0	(0,0.09]	(0.09,)
教育类	(,-0.076]	(-0.076,0)	0	(0,0.068]	(0.068,)
						景区类	(,-0.056]	(-0.056,0)	0	(0,0.111]	(0.111,)

进一步地，在其中一个实施例中，结合图2，步骤6所述基于居民出行模式序列和POI变化模式序列，生成互信息矩阵，具体包括：

由上述互信息值形成互信息矩阵，表示为

其中n代表区域，t代表时间片(每个时间片为28天，即4个周)，p为POI变化模式序列的滑动次数，c为POI的类别个数。

这里，两个离散随机变量X和Y的互信息可以定义为：

其中，P(x,y)为X和Y的联合概率密度函数。而P(x)和P(y)分别为X和Y的边缘概率密度函数。

进一步地，在其中一个实施例中，步骤7所述基于互信息矩阵，提取POI对居民出行模式的影响信息，具体包括：

对

和

进行softmax操作：

使用α_n,t,1、α_n,t,2和原始的互信息矩阵进行加权求和：

x_n,t,1＝α_n,t,1m_n,t

式中，x_n,t,1和x_n,t,2即为POI对居民出行模式的影响信息。

进一步地，在其中一个实施例中，步骤8所述构建并训练流量预测模型，具体包括：

步骤8-2，拼接所述x_n,t,0，x_n,t,1和x_n,t,2：

h_n,t＝x_n,t,0+x_n,t,1+x_n,t,2：

在一个实施例中，提供了一种基于时序数据和功能演变数据的模式预测系统，所述系统包括：

采集与预处理模块，用于对采集到的地图查询数据和POI数据进行预处理，以获得需要的数据；

分组模块，用于划分研究区域，并将地图查询数据和POI数据按照研究区域进行分组；

聚类模块，用于基于将地图查询数据进行分组后得到的居民出行流量序列，对所有区域每天的流量序列进行聚类；

第一序列构建模块，用于基于聚类结果，构建居民出行模式序列；

第二序列构建模块，用于基于POI数据，构建POI变化模式序列；

矩阵生成模块，用于基于居民出行模式序列和POI变化模式序列，生成互信息矩阵；

信息提取模块，用于基于互信息矩阵，提取POI对居民出行模式的影响信息；

模型构建与训练模块，用于构建并训练流量预测模型，之后利用训练好的模型对待测数据的流量进行预测。

关于基于时序数据和功能演变数据的流量预测系统的具体限定可以参见上文中对于基于时序数据和功能演变数据的流量预测方法的限定，在此不再赘述。上述基于时序数据和功能演变数据的流量预测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种基于时序数据和功能演变数据的模式预测系统，界面如图4所示，界面左侧包含三个模块，分别是参数设置模块、流量可视化模块和POI构成模块。在参数设置模块中，用户可以设置想要预测的地区的区域行政代码、想要将流量序列聚类的个数和目标研究时间；在流量可视化模块中，系统会根据用户在参数设置模块中的输入，对目标地区在目标时间中发生的查询行为进行数据预处理，并默认选取前七天的流量曲线进行可视化；在POI构成模块中，系统会根据用户在参数设置模块中选中的地区和时间，对该地区内的平均POI数量构成进行可视化，让用户能方便的了解到所研究地区的用地性质组成。界面右侧包含两个模块，分别是聚类结果模块和预测结果模块。在聚类结果模块中，系统会对通过参数设置后筛选出的数据进行聚类，并可视化聚类结果；在预测结果模块中，系统会根据聚类的结果，自动放入模型中进行下一时间的出行模式预测，最后不仅会展示预测的流量模式的可视化图，并且会输出与该区域流量模式相互作用最大的前三类POI的名称和作用权重系数。

作为一种具体示例，在其中一个实施例中，对本发明进行进一步验证说明。

本实施例中用到的数据集是第三方位置服务供应商提供的地图查询数据，包括北京和武汉两个城市，同时从地图上爬取了这两个城市对应的POI数据。其中，地图查询数据主要包括匿名化的用户编号、查询时间、查询起点的经纬度、查询终点的经纬度等，POI数据主要包括POI编号、POI经度、POI纬度、POI类别标签等，其中类别标签包括一级标签和二级标签。

对比实验的结果如图3所示，横轴表示训练周期，纵轴表示评价指标(MAE)。可以看到：本发明提出的流量预测模型优于其他四种方法。其中，STGCN性能最差，因为STGCN是为了预测短期流量设计的，而本发明致力于对长期流量变化进行预测；AGCRN模型的表现不如本发明的模型，原因与STGCN类似，但由于其可以对每个区域灵活的捕捉邻居节点的影响，故而表现比STGCN好；DCRNN模型是为长期时空预测进行设计的，故而在长期预测中表现不错，但其未能捕捉到POI对流量变化产生的影响；本发明的模型在LSTM模型的基础上增加POI对流量的影响信息，故而表现比LSTM模型要好。

本发明方法可以对居民出行流量做出准确预测，基于预测的结果，可以有效的揭示居民出行模式的变化和城市演变之间的隐式规律，为预测城市居民群体出行流量提供了重要支撑。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。