CN112863182A

CN112863182A - 基于迁移学习的跨模态数据预测方法

Info

Publication number: CN112863182A
Application number: CN202110045177.3A
Authority: CN
Inventors: 顾晶晶; 孙明
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-05-28
Anticipated expiration: 2041-01-13
Also published as: CN112863182B

Abstract

本发明公开了一种基于迁移学习的跨模态数据预测方法，包括：获取源城市和目标城市数据并进行预处理；将城市划分成等大小的网格区域，并构建相应大小结构的城市数据张量；基于源城市数据预训练深度网络预测模型；通过计算源城市和目标城市的空间特征相关性进行不相似区域过滤；通过计算源城市和目标城市的流量特征的相关性进行相似区域匹配；通过优化目标函数进行共享知识迁移并训练最终的预测模型。本发明方法能够更加充分地从数据丰富的城市学习共享知识并进行迁移，对于移动出行数据稀缺的城市，仍具有良好的预测效果。

Description

基于迁移学习的跨模态数据预测方法

技术领域

本发明属于模式分析领域，特别是一种基于迁移学习的跨模态数据预测方法。

背景技术

测城市环境中的交通、移动流量一直以来对旅行者、当地居民以及城市规划者都是同样重要的。在传统方法中，人们往往通过收集某一地区的历史数据来预测移动流量，这些方法努力探索获取大量的具有时空特征的历史出行记录，并且只能用于预测特定移动流量的未来趋势模式。然而，不同地区之间的不平衡和差异发展以及不同的运输方式阻碍了上述方法在现实世界中的应用。

随着智能交通系统的发展，公共数据检索基础设施广泛部署在大都市地区。相反，大多数发展中城市区域的数据收集情况仍然遭受数据质量低、数据特征稀疏和数据信息不完整的困扰。更糟糕的是，一般情况下往往无法收集足够量的数据来预测许多欠发达地区的城市流量。为了解决数据短缺问题，目前已经有很多跨域预测方法通过探索从源域到目标域的可转移知识来预测流量。然而，即使采用现有的跨城市和跨模式的方法，跨城市流量预测问题仍然面临着这样的困境：数据收集系统的差异性和不平衡在空间和时间维度上导致数据不足。而且，也难以在不同的城市使用相同的方式收集运输数据。因此，有必要结合跨城市知识和跨域知识，以实现高精度和低成本的城市流量预测。

由于部分城市数据的收集问题以及质量问题，同时城市处于复杂且高度动态的环境，如何利用数据量丰富的城市数据来辅助目标城市的流量预测问题具有一定的难度且十分重要。对于发展中城市区域的城市居民、城市规划者以及旅行者来说，预测移动流量在缓解交通堵塞、降低能耗、提高市民生活质量等方面都是至关重要的。

发明内容

本发明的目的在于针对上述现有技术存在的问题，提供一种基于迁移学习的跨模态数据预测方法，利用迁移学习方法，结合神经网络技术，提出一种动态时空特征匹配方法来更充分地进行共享知识迁移，以做到更好地预测数据稀缺城市的移动出行流量。

实现本发明目的的技术解决方案为：一种基于迁移学习的跨模态数据预测方法，所述方法包括以下步骤：

步骤1，获取源城市S和目标城市T的数据，并对数据进行预处理以消除噪声数据；

步骤2，将城市D划分成等大小(H×W)的网格区域r_i，并构建相应大小结构的城市数据张量：出行流量张量

城市兴趣点数据矩阵

城市路网数据矩阵

天气环境数据张量

步骤3，利用源城市数据预训练预测模型θ，作为目标城市模型的预模型；

步骤4，利用空间特征过滤技术，根据源城市和目标城市的兴趣点特征以及路网结构特征，计算城市区域的空间特征相关性，将与目标城市区域不相似的源城市区域进行过滤；针对每个目标城市区域r，得到过滤后的区域集合set_r；

步骤5，利用动态时空特征匹配技术，计算源城市和目标城市的移动出行流量相关性，对于每个目标城市区域，在每个时段匹配其最相似的源城市区域，得到最终的匹配矩阵M_match；

步骤6，通过不断更新模型参数进行迁移学习，并训练目标城市模型的预测模型，对目标城市出行流量进行预测。

本发明与现有技术相比，其显著优点为：1)在城市数据稀缺背景下，结合了目前城市计算中流行的神经网络模型，并引入了迁移学习方法，通过计算城市间的兴趣点、路网结构以及交通流量的相似性来挖掘城市之间的相关性，充分地考虑了城市之间的空间相关性以及流量相关性，并设计独特的目标函数来更新预模型来训练目标城市的预测模型，对数据稀缺的城市能够进行准确的流量预测；2)在城市发展不平衡、数据源异构的背景下，通过动态、分时段地对流量特征进行分析，深度全面地挖掘了城市的潜在特征，计算了交通流量在不同时段的相关性来挖掘城市区域的细粒度相关性，减少了异构交通流量的差异性，并解决了不同出行方式导致的异构出行模式造成的区域匹配不准确问题，对于跨城市异构交通流量预测问题有很好的效果。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明基于迁移学习的跨模态数据预测方法流程图。

图2为本发明基于迁移学习的跨模态数据预测方法框架图。

图3为在源城市中进行预训练的预测模型框架图。

图4为使用不同对比模型的预测结果图。

图5为本发明方法与对比模型相比的预测效果提升百分比图，其中图(a)为本发明方法与Fine-tuned相比的预测效果提升百分比图，图(b)为本发明方法与RegionTrans比的预测效果提升百分比图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，结合图1和图2，本发明提供了一种基于城市区域多模态融合的人群流量预测方法，所述方法包括以下步骤：

这里，城市数据包括：

历史出行轨迹数据，包括出行轨迹的起止点的经纬度位置，以及对应的时间；

城市兴趣点数据，包括兴趣点名称、类别、位置；

路网结构数据，包括道路的等级和密度特征；

天气温度数据，包括每个时刻的天气及温度。

城市兴趣点数据矩阵

城市路网数据矩阵

天气环境数据张量

进一步地，在其中一个实施例中，步骤1中所述对数据进行预处理以消除噪声数据，具体过程包括：

步骤1-1，若某一条数据记录中的某一特征存在空值，将该条数据删除；

步骤1-2，对剩余的数据进行降维处理，删除其中的离群点数据；

步骤1-3，对剩余的数据进行归一化处理，并将天气温度数据处理成独热值数据。

进一步地，在其中一个实施例中，步骤2中所述出行流量张量

城市兴趣点数据矩阵

城市路网数据矩阵

天气环境数据张量

的计算公式分别为：

式中，

表示城市D的出行流量张量，x_r,t表示区域r在t时刻的流量；

表示城市D的兴趣点矩阵，poi_r表示区域r的兴趣点数据；

表示城市D的路网结构矩阵，road_r表示区域r的路网结构数据；

表示城市D的天气环境数据张量，wea_r,t表示区域r在t时刻的天气环境数据，R_D表示城市D的所有区域r的集合，

表示时间集合，W_D、H_D分别表示对城市D划分网格后长和宽方向上的网格数量，T_l表示交通流量数据和天气温度数据的时间跨度。

进一步地，在其中一个实施例中，步骤3所述利用源城市数据预训练预测模型θ，作为目标城市模型的预模型，具体包括：

步骤3-1，构建预测模型θ：

如图3所示，选择一种基于深度学习的流量预测模型StepDeep进行预训练，该模型同时考虑了时间依赖性和空间依赖性。通过将随时间变化的区域中的交通流量事件转换为事件视频，然后将交通性预测问题视为视频预测任务。该种表述可以自然地编码兴趣点和路网结构的空间特征，并与流量的时空特征相结合。该模型通过将时间滤波器，空间滤波器和时空滤波器合并到单个模块中来预测城市交通流量。

该模型包括依次连接的输入层、第一时空处理模块、第二时空处理模块、全连接层和输出层；

其中，每个时空处理模块中，包括依次连接的时间卷积层、空间卷积层、时空卷积层；所述时间卷积层采用M个1*1*3大小的滤波器对输入数据进行卷积操作，得到M通道的输出张量，空间卷积层采用M个3*3*1大小的滤波器对时间卷积层的输出张量进行卷积操作，得到M通道的输出张量；第一时空处理模块中的时空卷积层采用2M个3*3*3大小的滤波器对空间卷积层的输出张量进行卷积操作，得到2M通道的输出张量；第二时空处理模块中的时空卷积层采用M/2个3*3*3大小的滤波器对空间卷积层输出张量进行卷积，得到M/2通道的输出张量；

所述全连接层采用3*3*6大小的滤波器在时间维度上对第二时空处理模块的输出张量进行全连接操作，并通过输出层输出；

这里优选地，M取值为128；

步骤3-2，通过源城市数据构建预测模型θ的输入数据，公式如下：

式中，X_S为源城市的出行流量张量，POI_S为源城市中的兴趣点数据矩阵，Road_S为源城市中的路网数据矩阵，Wea_S为源城市中的天气环境数据张量，

为张量和矩阵的拼接操作，X_input为模型的输入数据；

步骤3-3，将输入数据X_input通过神经网络模型即所述预测模型θ进行前向传播，得到预测损失；

其中，由第i个滤波器生成的第j个通道上的卷积神经元张量的(x,y,z)元素

计算如下：

式中，

为滤波器与上一层神经网络的输出张量的m通道的(p,q,v)位置所连接的参数，P_i和Q_i为空间维度上的滤波器的尺寸，V_i为时间维度上的滤波器的尺寸，

为上一层神经网络的输出张量在(x+p,y+q,z+v)位置的元素值在第i-1层神经网络的m通道的元素值在i-1层m通道的元素值，b_ij为滤波器的i的偏置值；

损失函数如下：

式中，ε_t,r为t时刻区域r的流量真实值，

为t时刻区域r的流量预测值，N为数据样本数量；

步骤3-4，重复执行步骤3-1至步骤3-3，依据每次计算得到的损失函数值进行参数优化直至达到预设迭代次数或优化目标，得到训练后的预模型，作为目标城市模型的预模型。

在经过以上的参数学习后，可以学习到源城市中的预测模型θ。由于源城市中的城市数据是充足且数据质量较高的，该模型θ可以作为目标城市预测模型的先验模型，可以在后续工作中通过参数迁移的方法来学习目标城市的模型。

进一步地，在其中一个实施例中，步骤4所述利用空间特征过滤技术，根据源城市和目标城市的兴趣点特征以及路网结构特征，计算城市区域的空间特征相关性，将与目标城市区域不相似的源城市区域进行过滤；针对每个目标城市区域r，得到过滤后的区域集合set_r，计算公式为：

A_poi＝{corr(poi_r,poi_r′)∣r′∈R_S,r∈R_T}

A_road＝{corr(road_r,road_r′)∣r′∈R_S,r∈R_T}

式中，corr(poi_r,poi_r′)为目标城市区域r和源城市区域r′的兴趣点的Pearson相关性，corr(road_r,road_r′)为目标城市区域r和源城市区域r′的路网结构特征的Pearson相关性，

分别为基于兴趣点特征和路网结构特征的区域相关性矩阵，W_S、H_S分别表示对源城市S划分网格后长和宽方向上的网格数量，W_T、H_T分别表示对目标城市T划分网格后长和宽方向上的网格数量；set_r为源城市中具有与目标区域相似空间特征的区域集合；

和

分别为目标城市区域r与源城市区域r′的兴趣点和路网结构相关性；

和

分别为源城市中所有区域与目标城市区域r之间的兴趣点相关性和道路结构相关性，

和

分别为城市区域间兴趣点相关性和道路结构相关性的平均值，R_S和R_T分别为源城市和目标城市的所有区域的集合。

这样，基于城市时空特征得到了每个目标城市区域的匹配区域，匹配的区域对之间具有相似的时空特征，被认为是具有较大的城市间共享知识，并可以进行共享知识迁移。

进一步地，在其中一个实施例中，步骤5所述利用动态时空特征匹配技术，计算源城市和目标城市的移动出行流量相关性，对于每个目标城市区域，在每个时段匹配其最相似的源城市区域，得到最终的匹配矩阵M_match，具体包括：

步骤5-1，计算源城市和目标城市的移动出行流量相关性：

式中，corr(x_r,t,x_r′,t)表示目标城市区域r和源城市区域r′在时间集合

上的流量的Pearson相关性，A_flow为两城市区域间的流量相关性矩阵；

步骤5-2，利用动态时空特征匹配技术为每个目标城市进行区域匹配：

式中，

为源城市区域r^*和目标区域r的流量相关性，

为目标城市区域r与set_r中的源城市区域的最大流量相关性，M_match为最终的区域匹配矩阵。

进一步地，在其中一个实施例中，步骤6所述通过不断更新模型参数进行迁移学习，并训练目标城市模型的预模型，对目标城市出行流量进行预测，结合图2，第一步，通过利用源城市中的丰富的城市数据训练一个预测模型作为先验模型；第二步，通过计算路网结构数据和兴趣点数据的多重空间相关性，以过滤具有低空间特征相似性的区域；第三步，通过动态地计算城市区域在不同时段的流量相关性，为每个目标区域匹配多个相似源区域；最后，通过优化迁移学习以及流量预测的目标函数来更新预训练模型的参数，学习目标城市的预测模型。具体包括：

步骤6-1，利用预模型θ提取源城市和目标城市的区域潜在特征

利用预模型θ的前两层神经网络即时间卷积层、空间卷积层对源城市和目标城市的输入数据进行计算，提取城市区域的特征表示，描述城市的时间依赖性和空间依赖性；

步骤6-2，构建目标函数：

w*loss_trans+(1-w)*loss_pre

其中，

式中，ρ为目标城市区域r和它对应的匹配区域r′的流量相关性，y_r,t为目标城市区域r在t时刻的真实流量值，y'_r,t为目标城市区域r在t时刻的预测流量值；w为在最小化迁移损失和预测损失之间进行权衡的权重，θ_T为目标城市预测模型，loss_trans为进行共享知识迁移的损失函数，loss_pre为预测部分的损失函数；

通过反向传播减小预测值和真实值的误差更新预模型参数，获得训练后的目标城市预测模型θ_T；

步骤6-3，针对待预测移动出行流量的目标城市，执行步骤1至步骤2，将得到的结果输入到目标城市预测模型θ_T中，得到人群流量预测结果。

作为一种具体示例，在其中一个实施例中，对本发明进行进一步验证说明。

本实施例中选择15000m×15000m范围的上海和海口地区作为研究城市区域，同时收集了真实的上海自行车数据和海口滴滴出行数据来测试本发明的模型。上海自行车包含733,457,167个骑乘记录，从2017年2月至2018年3月在上海市共有314,812辆共享自行车。每条记录都包含一个自行车ID、出发位置，出发时间，到达位置和到达时间；海口滴滴出行数据包含983,457,167个出行记录，时间跨度从2017年2月至2018年3月。每条记录都包含一个出租车ID、出发位置，出发时间，到达位置和到达时间。

本实施例选择目前流行的不同流量预测方法作为对比方法来进行对比实验：

(1)历史平均值(HA)：通过计算区域的历史平均值作为下一时刻的预测值。

(2)差分整合移动平均自回归模型(ARIMA)：一种常用的时间序列预测分析方法。

(3)微调模型(Fine-tued)：通过在预模型基础上训练更新得到目标模型的方法。

(4)RegionTrans：一种区域级的跨城市流量预测方法。

表1展示了从上海单车进行迁移学习的海口市出租车流量预测结果：

表1 ACPHC的对比实验结果

对比方法	RMSE	MSE
			HA	23.57	18.62
ARIMA	20.15	16.27
			Fine-tuned	17.9	13.17
RegionTrans	17.3	12.8
			ACPHC(本发明)	16.7	12.1

由表1可以看出，本发明的方法在RMSE和MSE指标下均优于各种对比模型。其中，HA和ARIMA效果最差，这是因为选择的训练数据仅有5天(为了模拟数据稀缺的背景)。Fine-tuned是基于本发明的预模型进行微调得到的模型，可以视为是一种简单的迁移学习方法，RegionTrans和本发明方法相比，在区域匹配时没有融入城市空间特征(兴趣点、路网结构)，效果同样没有本发明方法理想。

不同对比模型在整个城市中300个小时内的预测结果图如图4所示，其中，实线为流量的真实值，带有圆点的线是ACPHC方法的预测结果，虚线是RegionTrans方法的预测结果，点虚线是Fine-tuned方法的预测结果。可以看出，本发明的方法在大多数时间点的预测值都是更为贴近真实值，且比其他方法要效果更好。

为了进一步观察区域级的预测效果，本实施例中展示了本发明方法与Fine-tuned和RegionTrans相比的预测效果提升图，预测结果如图5所示。子图(a)展示了本发明方法和Fine-tuned的对比，子图(b)展示了本发明方法和RegionTrans的对比。横坐标为区域的索引，纵坐标为预测效果的提升百分比(使用RMSE来计算，其中上半部分表示本发明方法提升的百分比，下半部分表示本发明的方法效果不如对比模型)。可以看出，对于大多数区域来说，本发明方法是优于对比模型的。

综上，本发明方法在城市数据稀缺背景下，可以准确地对城市移动流量进行预测；同时在城市发展不平衡、数据源异构的背景下，能够充分地进行迁移学习，最大程度地减小负迁移的产生。在城市时空数据计算中，具有更良好的预测效果，且通过与其他相关算法对比，进一步验证了本发明的方法可以更准确地对人数据稀缺的城市移动流量进行预测。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。