CN115691137B

CN115691137B - 一种基于因果马尔科夫模型的多模态数据预测方法

Info

Publication number: CN115691137B
Application number: CN202211357946.4A
Authority: CN
Inventors: 邓攀; 张琳; 贾晓丰; 刘岩; 赵宇; 刘俊廷; 汪慕澜
Original assignee: Beijing Big Data Center; Xicheng District Bureau Of Science Technology And Information Technology Of Beijing Municipality Beijing Xicheng District Big Data Management Bureau; Beihang University
Current assignee: Beijing Big Data Center; Xicheng District Bureau Of Science Technology And Information Technology Of Beijing Municipality Beijing Xicheng District Big Data Management Bureau; Beihang University
Priority date: 2022-11-01
Filing date: 2022-11-01
Publication date: 2024-04-30
Anticipated expiration: 2042-11-01
Also published as: CN115691137A; US20240143999A1

Abstract

本发明提供了一种基于因果马尔科夫模型的多模态数据预测方法，属于智能交通技术领域。本发明方法包括：采集研究区域的区域数据和多模态交通数据，将时间点、区域兴趣点和天气信息视为背景特征变量，将区域吸引力因子、自行车需求因子、出租车需求因子、公交车需求因子、交通速度因子视为物理概念变量，将自行车流量、出租车流量、公交车流量、区域速度视为多模态交通数据观测变量，利用因果马尔科夫过程描述多模态交通量的生成过程；利用神经网络求解因果马尔科夫过程，训练搭建的神经网络，用于多模态交通数据观测。本发明能够有效地预测多模态交通流，并提升了预测准确度，可进一步用于指导管理人员制定相关交通诱导策略。

Description

一种基于因果马尔科夫模型的多模态数据预测方法

技术领域

本发明属于智能交通技术领域，涉及城市交通时空数据的挖掘和预测，具体为一种基于因果马尔科夫模型的多模态数据预测方法。

背景技术

城市交通是由多个子系统相互关联聚合而成的多模态复杂系统。不同的模态代表不同的交通方式，例如自行车、出租车、公共汽车和私家车，其目的是满足不同的出行需求，并为居民提供多种出行选择。随着城市化水平的提高和居民消费水平的增长，道路车辆保有量持续增加，城市交通基础设施与管理手段不能与城市居民出行需求相适应，城市交通拥堵问题凸显。人群出行需求分布不均与道路资源不足的矛盾是交通拥堵主要成因，因此对人群出行需求进行全面的分析，是解决交通拥堵的关键所在。多模态的交通量能够准确反映人群出行需求，刻画交通系统的健康程度。城市交通管理者可以根据不同环境下的交通量，制定相应的交通治理策略，提升城市运行的通畅度。因此，多模态的交通预测是城市交通治理的重要一环，为交通管理策略制定，交通诱导等提供重要的数据支持。

多模态交通预测目的是通过输入多种交通工具的历史流量数据，同步预测这些交通工具的未来流量。目前大多数交通预测方法仅针对单一模态的交通工具流量进行预测，例如自行车流量或者道路速度等。这些工作只是交通系统的局部观测，并不能反映现实场景中的真实情况。这些方法虽然能够用于不同的交通预测，但每种模态都需要建立一个预测模型，这种方式需要消耗大量资源，没有形成端到端的统一框架。近年来，多模态交通联合预测逐渐受到研究者的关注，这些方法通常利用多模态交通量扩展输入特征的通道维度，或者在模型内部融合不同模态的流量特征，其目的均为隐式地提取多模态流量数据的时空相关性。然而，这些方法均缺少因果关系的描述，增加数据特征维度并不能提升模型的预测能力，反而会引入大量混杂因素，降低整体预测效果。

目前，多模态交通预测方法过分强调流量数据中的时空相关性，忽视了影响流量数据生成的物理概念以及这些概念之间的因果关系。在不同条件的影响下，时空相关性被认为是不稳定的并且可能存在虚假相关性。如图1(a)为北京某区域的街道划分图，该区域中某医院的交通流量如图1(b)所示，在正常条件下，出租车流量和自行车流量具有相似的流量趋势，此时两者具有较高的相关性。这是因为人群在高峰时段到达或离开某个区域的需求是一致的，因此表现出的流量趋势大体一致。然而，当下雨天气时，由于天气变化，人群对自行车的需求量减少，并对出租车的需求量增加，此时两者具有相反的流量趋势。这表明在天气的影响下，出租车流量和自行车流量存在虚假相关性。其次，区域属性与人群的出行需求具有较强的因果关系，如图1(b)和(c)所示，医院附近对于人群具有较高的吸引力，导致该地人群出行需求较高，因此不同模态的交通量展现出明显的早高峰和午高峰，同时该地区交通速度一直处于较低水平。金融街附近是主要的工作区，人群以通勤为主，因此不同模态的交通量展现出明显的早高峰和晚高峰。最后，出租车需求可能影响交通速度，如图1(c)所示，人群出租车需求量大会导致出租车流量提升，进而导致道路上的交通速度下降。

发明内容

导致多模态交通量变化的根本原因是影响流量数据生成的物理概念(区域吸引力因子、不同交通方式的需求因子、交通速度因子)以及这些概念之间的因果关系，过度关注相关关系将会导致不稳定的多模态交通流量预测结果。因此，本发明提出了一种基于因果马尔科夫模型的多模态数据预测方法，从多模态交通量的生成过程的角度出发，将影响流量数据生成的核心物理概念分为三组：1)区域在不同时间段对人群的吸引力因子；2)人群在不同条件下选择不同交通方式的需求因子；3)受道路车辆数量影响的交通速度因子。本发明方法从背景特征数据和多模态交通数据中学习这些物理概念的因果表示，并进一步探索这些物理概念之间的因果关系，进而更准确地预测多模态交通流量。

本发明提供的一种基于因果马尔科夫模型的多模态数据预测方法，用于预测多模态交通流量，以指导管理人员制定相关交通诱导策略。本发明方法包括如下步骤：

步骤1：采集研究区域的区域数据和交通数据，构建因果马尔科夫过程的因果图；

首先，获取研究区域的区域划分、区域兴趣点信息、天气信息和多模态交通数据；多模态交通数据包括共享单车订单数据、出租车订单数据、公交车订单数据和道路交通速度数据；

其次，将时间点信息、区域兴趣点信息和天气信息作为背景特征变量；将区域吸引力因子、自行车需求因子、出租车需求因子、公交车需求因子和交通速度因子作为物理概念变量；

然后，构建因果马尔科夫过程的因果图，将子区域的自行车流量、出租车流量、公交车流量、区域速度作为交通数据观测变量；由当前时间点的背景特征变量和前一时间点的物理概念变量生成当前时间点的物理概念变量，然后预测当前时间点的交通数据观测变量；将多模态交通数据观测变量的生成过程用物理概念变量与交通数据观测变量的联合分布描述，并将所述联合分布分解为物理概念变量的先验分布和交通数据观测变量的生成分布；用物理概念变量的后验分布描述从背景特征变量和多模态交通数据中提取物理概念变量的过程。

步骤2，利用神经网络搭建因果马尔科夫模型，求解所述的因果马尔科夫过程；

所述的因果马尔科夫模型包括先验网络、后验网络、因果效应传播模块和生成网络；先验网络利用输入的背景特征变量学习交通系统中物理概念变量的先验分布；后验网络利用输入的背景特征变量和多模态交通数据，学习物理概念变量的变分后验分布，近似获得物理概念变量的真实后验分布；先验网络和后验网络均包含图门控递归单元，并共享一个因果效应传播模块；因果效应传播模块输入物理概念变量的因果表示，利用预设的因果方程传播因果效应，输出传播了因果效应后的物理概念变量的因果表示；生成网络输入物理概念变量的因果表示，输出对应的多模态交通数据观测变量。

步骤3：采集研究场景中的历史数据对所述的因果马尔科夫模型进行训练，将训练好的模型部署在交通管理系统上，根据研究区域内各子区域历史自行车流量、出租车流量、公交车流量和区域速度，预测未来的自行车流量、出租车流量、公交车流量和区域速度，以用于预警道路拥堵，辅助管理员指定疏导方案。

相较于现有技术，本发明的优点与积极效果在于：

(1)不同于传统过于关注时空相关性的多模态交通预测方法，本发明方法从多模态交通量生成的角度出发，首先定义交通系统中存在的变量，然后构建不同的变量之间的因果关系图，利用因果马尔科夫过程描述多模态交通量的生成过程，并提出因果马尔科夫模型建模数据的生成过程。本发明方法能够有效从背景数据和多模态交通数据中推断影响多模态交通数据生成物理概念的因果表示，并从未来时刻的因果表示中生成未来时刻的多模态交通量，以此作为预测结果。本发明方法从因果角度重新思考多模态交通系统的运行过程，使得预测结果更加符合交通运行情况。

(2)本发明方法提出利用变分自编码器学习因果马尔科夫模型，其中先验分布从历史的背景特征数据建模交通系统中存在的自然物理规律；变分后验分布从历史的背景特征数据和多模态交通数据中提取物理概念的因果表示，并近似数据的真实后验分布；生成分布用于将物理概念的因果表示解码成多模态交通量。本发明基于因果关系图，定义多模态交通系统的联合分布，并使用深度神经网络拟合该联合分布，这可以进一步增强模型的可解释性，提升整体泛化能力。

(3)本发明方法重新推导了变分推断的变分下届，利用KL散度正则化先验分布和变分后验分布的距离，使变分后验分布和先验分布可以充分提取数据中的有效信息，提升模型建模与预测能力。

(4)在真实数据集上的实验结果表明，本发明方法具有良好的性能，相较于目前最新方法预测准确度提升约10％以上，且可以有效抵抗由外部因素产生的波动，有利于交通管理系统的发展。

附图说明

图1是北京市某区域的多模态交通量分布图；其中，(a)是该区域的街道划分图，(b)是该区域中某医院周边的多模态交通量分布图，(c)是该区域某金融街地区周边的多模态交通量分布图；

图2是本发明因果马尔科夫过程的因果图；

图3是本发明的基于因果马尔科夫模型进行多模态数据预测的示意图；

图4是本发明方法在北京市某城区交通数据集上的测试结果示意图；

图5是本发明在删除先验网络后和因果马尔科夫模型预测性能对比图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

由于在不同条件下数据间存在虚假相关性，过于关注数据内的时空相关性会导致不稳定的预测结果，因此本发明从多模态交通数据的生成原理出发，提出基于因果马尔科夫模型的多模态数据预测方法。如图2所示，本发明将多模态交通数据的生成过程看作是一个因果马尔科夫过程，将时间点信息、区域POI(Point of Interest，兴趣点)信息和天气信息视为背景特征变量；将区域吸引力因子、自行车需求因子、出租车需求因子、公交车需求因子、交通速度因子视为物理概念变量；将自行车流量、出租车流量、公交车流量、区域速度视为多模态交通数据观测变量。本发明构建了这些变量之间的因果关系图，并定义了变量之间的联合分布以及物理概念的后验分布。为了求解该因果马尔科夫过程的联合分布和后验分布，本发明提出了一种基于变分自编码器的网络模型，利用神经网络拟合数据的联合分布和变分后验分布，近似数据的真实分布。如图3所示，因果马尔科夫模型包括：(1)先验网络通过输入背景变量数据，建模交通系统中存在的自然物理规律，并学习物理概念的先验分布；(2)后验网络通过输入背景变量数据和多模态交通数据，并学习物理概念的变分后验分布，从数据中提取物理概念的因果表示；(3)因果效应传播模块通过输入物理概念的因果表示，利用结构因果方程传播因果效应，加强物理概念间的因果关系；(4)生成网络通过输入物理概念的因果表示，输出多模态交通量，作为重构和预测结果。

下面通过3个步骤来说明本发明的基于因果马尔科夫模型的多模态数据预测方法的实现步骤和本发明方法的效果验证。

步骤1：采集要研究区域的区域数据和多模态交通数据，将数据量化，构建变量间因果马尔科夫过程的因果关系图，定义联合分布以及物理概念的后验分布。

本发明实施例将北京市某区域作为研究区域，获取该区域的街道区划图，从中获得区域POI；从天气气象站获取该区域的天气数据；从交通系统中获取该区域的共享单车订单数据、出租车订单数据、公交车订单数据和道路交通速度数据。将订单数据分配到研究区域的各个子区域中，形成每个子区域的多模态交通流量数据。将子区域内所有道路的交通速度求均值，形成子区域速度数据。多模态交通流量数据和区域速度数据统称为多模态交通数据。本发明针对各子区域的

将时间点信息、区域POI信息和天气信息视为背景特征变量；将区域吸引力因子、自行车需求因子、出租车需求因子、公交车需求因子、交通速度因子视为物理概念变量；将自行车流量、出租车流量、公交车流量、区域速度视为多模态交通数据观测变量；本发明组建了这些变量之间的因果关系图，并定义了变量之间的联合分布以及物理概念变量的后验分布；其中变量之间的联合分布由先验分布和生成分布组成，用于描述多模态交通量的生成过程，物理概念变量的后验分布用于描述从背景特征数据和多模态交通数据中提取物理概念因果表示的过程。本步骤包括如下步骤1.1-1.3。

步骤1.1：构建因果马尔科夫过程的因果图。

如图2所示，在时间步t，由时间点信息TP_t、区域兴趣点信息POI和天气信息WX_t组成的背景特征变量C_t＝{TP_t,POI,WX_t}可以反映当前系统的外部状态。将区域吸引力因子自行车需求因子/>出租车需求因子/>公交车需求因子/>交通速度因子/>视为物理概念变量/>其被视为交通系统中潜在的不可观测的核心影响因子，控制着多模态交通量的生成方式。背景特征变量C_t结合前一步物理概念变量z_t-1，生成当前时刻的物理概念变量z_t。然后，从每个模态的物理概念变量/>生成当前时刻的交通观测变量/>进而生成多模态交通量。/>分别为当前时刻的共享单车需求量、出租车需求量、公交车需求量，/>为当前时刻的区域道路交通速度。

由研究区域的历史数据可以提取背景特征变量和物理概念变量。时间点信息记录所采样的时间段，区域兴趣点信息记录区域内各种兴趣点的数量等。物理概念变量从各子区域的多模态交通数据中提取获得。从子区域的共享单车订单数据中获取子区域的自行车需求因子，从子区域的出租车订单数据中获取子区域的出租车需求因子，从子区域的公交车订单数据中获取子区域的公交车需求因子，由子区域速度获取交通速度因子。区域吸引力因子主要根据区域内各种兴趣点的数量来设置。

步骤1.2：定义变量间的联合分布。因果马尔科夫过程的概率生成模型可以由一个联合分布表示。根据因果关系和马尔科夫特性，可以将联合分布分解为先验分布和生成分布。具体定义如下：

其中，p_θ表示概率分布，公式(1)θ为系统模型参数，T表示完整的时间序列长度。第一项p_θ(z_t|z_t-1,C_t)为物理概念变量的先验分布，表示交通系统中本身存在的自然物理规律，是不受当前观测变量影响的先验知识。第二项p_θ(x_t|z_t)为生成分布，表示受物理概念的影响下，观测变量生成观测数据的过程。生成分布可以进一步分解为不同交通模态的生成分布，定义如下：

步骤1.3：定义变量间的后验分布。后验分布用于描述在已知当前系统的外部环境和观测变量的条件下，推断影响观测数据生成的潜在因子，具体定义如下：

步骤2：利用神经网络搭建因果马尔科夫模型，求解步骤1中的因果马尔科夫过程，主要目的是从当前系统的外部环境和观测变量的条件下推断潜在核心物理概念的因果表示。本步骤包括如下步骤2.1-2.3。

由于真实的物理概念后验分布p_θ(z_t＜T|x_t＜T,C_t＜T)难以获得，因此本发明基于变分自编码器(Variational Auto-Encoder，VAE)框架，利用计算变分后验分布q_φ(z_t＜T|x_t＜T,C_t＜T)，以此近似真实的后验分布，其中φ是变分模型参数。

如图3所示，本发明的搭建的因果马尔科夫模型包括先验网络、后验网络、因果效应传播模块和生成网络。先验网络通过输入背景特征变量数据，建模交通系统中存在的自然物理规律，并学习物理概念变量的先验分布；后验网络通过输入背景特征变量数据和多模态交通数据，学习物理概念变量的变分后验分布，从数据中提取物理概念变量的因果表示；因果效应传播模块通过输入物理概念变量的因果表示，利用结构因果方程传播因果效应，加强物理概念间的因果关系；生成网络通过输入物理概念变量的因果表示，输出原始的多模态交通量，作为重构结果。所有概率分布函数均视为均值和方程为待估计参数的多元高斯分布，先验网络、后验网络均为求解均值和方差，本发明分别把物理概念的因果表示输入到全连接层，输出多元高斯分布的均值和方差，然后得到相应的概率分布函数。

如图3所示，先验网络和后验网络中均包含每个交通模态的图门控递归单元(GraphGRU)，并且先验网络和后验网络共享因果效应传播模块。物理概念变量中每个元素为一种交通模态，本发明方法共有5种交通模态。

步骤2.1：本发明利用背景特征数据和多模态交通数据建立后验网络，其目的是通过使用神经网络学习变分后验分布来近似物理概念变量的真实后验分布。如图3所示，单独来看，后验网络包含图门控递归单元(GraphGRU)和因果效应传播模块。

图门控递归单元：多模态交通量的生成过程满足马尔科夫性，并且物理概念变量的演化是多模态交通观测存在时空依赖的内在驱动力。因此本发明提出一种图门控递归单元来建模当前时刻和前一时刻系统状态的演化过程，将时空依赖性捕获到潜在的物理概念变量中。定义如下：

其中，i∈{poi,bike,taxi,bus,v}表示不同的交通模态，t表示第t时刻，即采集时间点t；表示第i个交通模态的输入特征，是将背景特征数据/>与第i个交通模态的交通数据/>拼接后输入一个全连接层FC得到；||表示特征拼接操作；N表示区域个数，c_c表示特征维，c_i表示第i个模态的交通数据维度；本发明实施例中区域吸引力因子这一交通模态对应的交通数据为子区域内的兴趣点总数；r_t ^po,i和/>分别表示第i个交通模态的图门控递归单元的重置门和更新门；σ表示sigmoid函数；★_G表示图卷积操作，W,b表示图卷积的可学习参数，下角标r和u分别标记为重置门和更新门，下角标h标记为计算候选特征的结构；/>表示第i个交通模态的后验物理概念变量，d表示特征维度；/>表示第i个交通模态的候选特征，tanh表示双曲正切函数，⊙表示逐元素乘法，上角标po表示后验网络。

图卷积操作被定义为：

W★_G(X)+b＝(I+D^-1/2GD^-1/2)XW+b (5)

其中，表示区域距离的邻接矩阵，D表示邻接矩阵的对角矩阵，D_ii＝∑_jG_ij。X表示输入数据，I表示单元矩阵。

因果效应传播模块：物理概念变量天然上是因果相关的，因此作为物理概念的语义表示也应存在因果关系。本发明提出一个因果效应传播模块，根据预定义的因果关系传播变量间的因果效应，定义如下：

其中，表示物理概念变量因果关系的邻接矩阵，其元素A_ij表示变量i对变量j的因果效应大小为A_ij，/>表示物理概念变量。上角标T表示转置。ε～N(0,I)表示随机高斯噪声，/>表示单位矩阵。f(·)表示任意可逆的变换函数，本发明使用带参数的仿射变换函数定义如下：

其中，x表示函数的输入向量，α,为可学习标量参数。如图3所示，两个变量之间存在连边则表示具有因果作用，本发明认为区域的吸引力因子对自行车需求因子、出租车需求因子、公交车需求因子具有因果作用，出租车需求因子对交通速度因子具有因果作用。

变分后验分布生成：本发明利用一个全连接层，从因果效应传播模块输出的物理概念因果表示中提取变分后验分布的均值和方差/>变分后验分布q_φ(z_t|z_t-1,x_t,C_t)的生成过程如下：

其中，FC_μ和FC_σ表示全连接层，表示以/>为均值，以/>为方差的高斯分布。从变分后验分布采样，可以获得后验物理概念的因果表示。

步骤2.2：已有的关于VAE的研究将先验分布看作是独立的标准高斯分布，由于缺乏归纳偏置，这种无监督的因果表示学习方法不能保证因果表示的可识别性。为了提升模型的因果可识别性，本发明利用背景特征数据建立先验网络，其目的是建模物理概念本身在系统中自然存在的物理规律，并使用可学习的分布来近似这种规律。本发明让先验网络和后验网络相互监督，这有助于先验网络更好地拟合物理概念本身的自然规律，同时有助于后验网络可识别地挖掘物理概念的因果表示。先验网络与后验网络结构类似，由图门控递归单元和因果效应传播模块组成。

图门控递归单元：先验网络只输入当前系统的背景特征数据，定义如下：

其中的字符含义同后验网络中相同，表示第t时刻，第i个交通模态的先验物理概念变量。上角标pr表示先验网络。

因果效应传播模块：先验网络和后验网络共享一个因果效应传播模块，本发明认为因果关系是一种稳定的自然现象，不随时间或空间变化而改变，因此全局共享一个因果图，利用公式(6)传播因果效应。

先验分布生成：从因果效应传播模块输出的先验物理概念因果表示中提取变分先验分布的均值和方差/>先验分布p_θ(z_t|z_t-1,C_t)的生成过程如下：

其中，FC_μ和FC_σ表示全连接层，表示以/>为均值，以/>为方差的高斯分布。从先验分布中采样，可以获得先验物理概念的因果表示。

步骤2.3：t时刻的生成分布如公式(2)所示，本发明使用两个全连接层模拟从物理概念变量中生成多模态交通观测的过程。根据物理概念变量的类型不同，生成网络生成相应模态的交通数据观测变量。

重构过程：如图3中所示，由于后验网络把当前时刻的多模态交通数据作为输入，因此当使用后验物理概念变量生成多模态交通数据时，输出是重构结果。

预测过程：先验网络只通过当前时刻的背景特征数据来拟合先验分布，不涉及当前时刻的多模态交通数据，因此当使用先验物理概念变量生成多模态交通数据时，输出是预测结果。

步骤3：给定数据集对本发明提出的因果马尔科夫模型进行学习，然后利用训练好的因果马尔科夫模型对研究区域内各子区域的多模态交通数据进行预测。

在因果表示推断阶段，首先，后验网络从历史的背景特征数据和多模态交通数据中学习物理概念的变分后验分布；利用先验网络从历史的背景特征数据对交通系统中存在的自然物理规律进行建模，学习物理概念变量的先验分布，其次，利用KL散度正则化变分后验分布和先验分布的距离，使变分后验分布和先验分布可以充分提取数据中的有效信息；然后，从变分后验分布中采样物理概念的因果表示；最后，利用生成网络重构输入的多模态交通数据，以变分自编码器的方式从数据中提取物理概念变量的因果表示。在多模态交通数据预测阶段，首先，利用先验网络从未来的背景特征数据中推断物理概念在未来时刻的因果表示；最后利用生成网络解码未来时刻的因果表示，生成未来时刻的多模态交通量，作为最后的预测结果。

在训练模型时，变分自编码器VAE目的是使变分后验分布和数据真实的后验分布的KL散度最小，推导过程如下：

其中，D_KL[A||B]表示计算A分布和B分布的KL散度，根据上述公式，可以进一步推导出变分自编码器的证据下界，则因果马尔科夫模型的学习过程可以转化为在数据集上，最大化变分下界，推导过程如下：

其中，公式(13)中即为因果马尔科夫模型的损失函数；

第一项是重构损失，用于表示后验网络提取物理概念因果表示的能力；第二项D_KL[q_φ(z_t|z_t-1,x_t,C_t)||p_θ(z_t|z_t-1,C_t)]是变分后验分布与先验分布的KL散度。让先验网络和后验网络相互监督，这有助于先验网络更好的拟合物理概念本身的自然规律，同时有助于后验网络可识别地挖掘因果表示。

实施例

(1)本发明实施例使用三个真实数据集，即北京市某城区交通流量数据集、该城区道路速度数据集以及该城区外部环境数据集。数据集字段细节如表1所示。

北京市某城区交通数据集：包含2021年6月1日至2021年12月31日该城区三种交通方式(自行车、公共汽车和出租车)的订单记录。数据集中包含以下信息：上车时间、下车时间、上车经度、上车纬度、下车经度、下车纬度。研究区域被划分为175个不重叠的子区域。统计了所有子区域每种交通方式的流入和流出量。

该城区速度数据集：包含2021年6月1日至2021年12月31日该城区主要道路的速度记录。本发明使用每个区域内路段的平均速度来表示每30分钟的区域速度。

该城区外部环境数据集：收集了相应的气象信息、时间位置和POI数据作为背景特征数据。本发明以30分钟的间隔分割该数据集，以获得11753个样本。本发明使用三小时的历史数据来预测未来30分钟的数据。80％的数据用于训练，10％用于验证，其余用于测试。

表1数据集字段细节

本发明使用Pytoch深度学习框架，在配有24G内存Nvidia GeForce RTX 3090GPU的工作站上进行了整个实验。因果马尔科夫模型的特征通道数设置为d＝64，批量大小设置为64。学习速率设置为0.001。使用Adam优化器和多步学习速率衰减策略。背景特征数据的通道c_c＝83，即时间位置特征维度为56，POI特征维度为5，天气特征维度为22。对时间位置和天气类型使用独热编码。时间位置包含星期几、一天中的时间点和是否为假期。除天气类型外，对天气特征应用Z分数标准化。对于POI特征，统计每个子区域中各种POI(包括学校、医院、餐厅、办公区和购物区)的总数。

本发明使用均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)方法来评估模型性能，定义如下：

其中，表示预测的结果，X_i表示数据真实结果，N表示区域个数。

为了一致性，本发明为所有模型部署了相同的环境、损失函数、流量数据和外部因素(即时间因素和天气信息)。本发明将因果马尔科夫模型与交通预测的先进方法进行了比较，最终平均结果如表2所示。

表2在北京某城区数据集上本发明方法与其他方法的定量分析结果

本发明评估了平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)方法的性能。为了公平起见，本发明将相同的条件信息、交通流和交通速度作为所有模型的输入。表2给出了三个独立实验的平均MAE、RMSE和MAPE的总体预测性能，各个模态预测结果如图4所示。基线模型侧重于动态生成图结构的自适应性，而本发明的模型更注重建模交通系统中潜在语义变量之间的因果关系。基于动态图的模型如DGCRN，性能优于基于自适应图的模型如AGCRN。此外，可以观察到，本发明的模型始终以压倒性优势优于基线模型。特别是在速度预测方面，本发明所提出的因果马尔科夫模型使所有指标的最佳结果提高了10％。

为了验证本发明使用的因果马尔科夫模型关键组件的有效性，本发明进行了消融实验，描述如下：

对于后验网络和先验网络，设计了四个变体：

1)w/o GRU：此变体用图卷积替换图门控递归单元。潜在变量的先验信息仅由条件信息生成，这意味着丢弃长期的时间依赖关系。

2)w/o GCN：此变体删除图门口递归单元中的GCN(图神经网络)，这意味着丢弃空间依赖关系。

3)w/o condition：此变体删除背景特征变量。移除背景特征变量相当于移除先验网络，并直接从后验网络中的多模态交通数据中生成物理概念的因果表示。

4)w/o prior：此变体删除先验网络，但保留背景特征变量。与变量3不同的是，物理概念变量的因果表示是由背景特征数据和多模态交通数据生成的。

5)w/o propagation：此变体删除因果效应传播模块，这意味着在图门控递归单元之后直接生成分布的均值和方差。

所有变体模型的性能总结在表3中。

表3所有变体模型的性能对比

可以观察到，由于缺乏空间和时间依赖性，变体1和2的表现最差。变量3的性能表明了背景特征的必要性。同时缺少背景特征数据的模型会退化为一个普通的序列变分自编码器。在变体4中删除了先验网络，其作用是获得物理概念的稳定原理，而后验网络的作用是从观测数据和背景特征中获得分离的因果表示。在先验监督的情况下，可能会发生模型塌陷，导致无法获得稳定有效的因果表示。证据如图5所示，变体4的重建损失通常低于因果马尔科夫模型，这表明模型没有将有效信息编码进因果表示中。缺少了因果效应传播模块会导致因果变量之间缺乏因果关系，进而降低预测性能。综上所述，本发明所有组件都经过精心设计，极大地影响了最终的性能。

Claims

1.一种基于因果马尔科夫模型的多模态数据预测方法，其特征在于，包括如下步骤：

然后，构建因果马尔科夫过程的因果图，将子区域的自行车流量、出租车流量、公交车流量、区域速度作为交通数据观测变量；由当前时间点的背景特征变量和前一时间点的物理概念变量生成当前时间点的物理概念变量，然后预测当前时间点的交通数据观测变量；

将多模态交通数据观测变量的生成过程用物理概念变量与交通数据观测变量的联合分布描述，并将所述联合分布分解为物理概念变量的先验分布和交通数据观测变量的生成分布；用物理概念变量的后验分布描述从背景特征变量和多模态交通数据中提取物理概念变量的过程；

所述的因果马尔科夫模型包括先验网络、后验网络、因果效应传播模块和生成网络；先验网络利用输入的背景特征变量学习交通系统中物理概念变量的先验分布；后验网络利用输入的背景特征变量和多模态交通数据，学习物理概念变量的变分后验分布，近似获得物理概念变量的真实后验分布；先验网络和后验网络均包含图门控递归单元，并共享一个因果效应传播模块；因果效应传播模块输入物理概念变量的因果表示，利用预设的因果方程传播因果效应，输出加强因果关系后的物理概念变量的因果表示；生成网络输入物理概念变量的因果表示，输出对应的多模态交通数据观测变量；

步骤3：采集研究场景中的历史数据对所述的因果马尔科夫模型进行训练，然后利用训练好的因果马尔科夫模型对研究区域内各子区域的多模态交通数据进行预测。

2.根据权利要求1所述的方法，其特征在于，所述步骤1中，研究区域进行子区域划分，将订单数据分配到各个子区域中，形成每个子区域的多模态交通流量数据；将子区域内所有道路的交通速度求均值，形成子区域速度数据；多模态交通流量数据和区域速度数据统称为多模态交通数据。

3.根据权利要求1所述的方法，其特征在于，所述步骤1中，所述的联合分布分解如下：

其中，T表示时间序列长度，t表示时间点t，C_t、z_t、x_t分别表示时间点t的背景特征变量、物理概念变量、交通数据观测变量，z_t-1表示时间点t-1的物理概念变量；p_θ(z_t|z_t-1,C_t)为物理概念变量的先验分布，表示交通系统中本身存在的自然物理规律；p_θ(x_t|z_t)为交通数据观测变量的生成分布，表示受物理概念变量影响下观测变量生成观测数据的过程；所述的生成分布进一步分解为不同交通模态的生成分布，如下：

其中，为自行车需求因子，/>出租车需求因子，/>为公交车需求因子，/>为交通速度因子，/>分别为共享单车流量、出租车流量、公交车流量，/>为区域道路交通速度。

4.根据权利要求1或3所述的方法，其特征在于，所述的步骤1中，物理概念变量的后验分布定义如下：

其中，T表示时间序列长度，t表示时间点t，C_t、z_t、x_t分别表示时间点t的背景特征变量、物理概念变量、交通数据观测变量，z_t-1表示时间点t-1的物理概念变量。

5.根据权利要求1所述的方法，其特征在于，所述的步骤2中，后验网络中对每种交通模态设置一个图门控递归单元，物理概念变量中每个元素为一种交通模态，第i个交通模态的图门控递归单元的建模如下：

其中，t表示时间点t；表示第i个交通模态的输入特征，是将背景特征数据C_t与第i个交通模态的交通数据/>拼接后输入一个全连接层FC得到；||表示特征拼接操作；/>和分别表示第i个交通模态的图门控递归单元的重置门和更新门；σ表示sigmoid函数，tanh表示双曲正切函数；★_G表示图卷积操作，W,b表示图卷积的可学习参数，下角标r和u分别代表重置门和更新门，下角标h代表计算候选特征的结构；/>表示第i个交通模态的候选特征；/>表示第i个交通模态的后验物理概念变量；上角标po表示后验网络。

6.根据权利要求5所述的方法，其特征在于，所述的步骤2中，先验网络中对每种交通模态设置一个图门控递归单元，第i个交通模态的图门控递归单元的建模如下：

其中，表示第i个交通模态的先验物理概念变量；上角标pr表示先验网络。

7.根据权利要求1或5所述的方法，其特征在于，所述的步骤2中，因果效应传播模块根据预定义的因果关系传播因果效应，如下：

f^-1(z_t)＝A^Tf^-1(z_t)+ε

z_t＝f[(I-A^T)^-1ε]

其中，A表示物理概念变量因果关系的邻接矩阵，上角标T表示转置，z_t表示时间点t的物理概念变量，ε～N(0,I)表示随机高斯噪声，I表示单位矩阵，f(·)表示任意可逆的变换函数；其中，区域吸引力因子对自行车需求因子、出租车需求因子和公交车需求因子具有因果作用，出租车需求因子对交通速度因子具有因果作用。

8.根据权利要求7所述的方法，其特征在于，所述的步骤2中，因果效应传播模块中设置的变换函数为带参数的仿射变换函数，如下：

f(x)＝αx+β

其中，x表示函数的输入向量，α,β为可学习标量参数。

9.根据权利要求1或5所述的方法，其特征在于，所述的步骤2中，后验网络从因果效应传播模块输出的物理概念变量的因果表示中提取变分后验分布的均值和方差/>得到变分后验分布/>

先验网络从因果效应传播模块输出的物理概念变量的因果表示中提取变分先验分布的均值和方差/>得到先验分布/>

10.根据权利要求1或5所述的方法，其特征在于，所述的步骤3中，由后验网络输出物理概念变量的变分后验分布，使所述变分后验分布和真实后验分布的KL散度最小，对因果马尔科夫模型进行训练。