CN116307293B

CN116307293B - 一种基于混杂感知与因果去偏的城市时空数据预测方法

Info

Publication number: CN116307293B
Application number: CN202310572084.5A
Authority: CN
Inventors: 邓攀; 刘俊廷; 裴赟昶; 赵宇; 汪慕澜
Original assignee: Xicheng District Bureau Of Science Technology And Information Technology Of Beijing Municipality Beijing Xicheng District Big Data Management Bureau; Beihang University
Current assignee: Xicheng District Bureau Of Science Technology And Information Technology Of Beijing Municipality Beijing Xicheng District Big Data Management Bureau; Beihang University
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-07-28
Anticipated expiration: 2043-05-22
Also published as: CN116307293A

Abstract

本发明属于智能城市技术领域，公开了一种基于混杂感知与因果去偏的城市时空数据预测方法。该方法构建了基于混杂感知与因果去偏的深度学习模型（CADN），将历史城市时空数据经过预处理转化为各区域分时段观测数据，输入深度学习模型，对各区域未来城市时空数据进行预测。本发明的深度学习模型将输入的历史观测数据经时域因果去偏模块提取无偏的时域因果特征，再经过空域因果传递模块提取无偏的时空因果特征，最后经融合预测器输出预测结果。本发明对于城市中的时空数据预测准确性高，具有鲁棒性。

Description

一种基于混杂感知与因果去偏的城市时空数据预测方法

技术领域

本发明属于智能城市技术领域，尤其涉及一种基于混杂感知与因果去偏的城市时空数据预测方法。

背景技术

智慧城市是利用物联网、云计算等技术，为城市规划、建设、管理提供一种新型的城市建设方式。城市中的时空数据包含了时间特征和空间特征，可以反映城市的变化状态，时间特征反映了对象随时间变化的状态，空间特征则反映了对象的地理位置、几何特征以及空间关系等。

预测城市时空数据并从中挖掘出有用的知识，是利用数据创造价值的重要途径。它可以帮助解决现代城市发展过程中面临的诸多问题，如交通拥堵、空气污染、能耗增加等等，从而提升城市运行效率，因此，城市时空数据的准确预测是现代城市通向智能化的重要一步。

在时空数据预测这个前沿领域，深度学习技术给时空数据建模预测提供了全新的研究方向。公开号为CN112785077A的中国发明专利公开了一种基于时空数据的出行需求预测方法，利用基于方向角的隐马尔科夫模型对车辆轨迹进行地图匹配，并提出基于门控扩散单元(GDU)的居民出行需求预测算法，能对未来多个时间片的出行需求做出准确预测。公告号为CN112801355B的中国发明专利公开了一种基于长短期时空数据多图融合时空注意力的数据预测方法，通过构建站点距离图、城市功能相似性图、站点邻接图进行多图融合卷积可捕获空间多重静态相关性，基于空间注意力机制获取空间动态相关性，能够推断未来时刻不同天气环境下各站点多步长客流。公开号为CN111626490A的中国发明专利公开了一种基于对抗学习的多任务城市时空预测方法，利用基于Seq2Seq生成对抗网络的多任务城市人流预测方法，将整个路网的城市人流数据建模成张量矩阵，加入对外部数据的考量，实现了对城市级别的多任务人流预测。

尽管现有的预测方法有效建模了历史城市时空数据中的时空相关性，其仍存在两个主要的局限性。一方面，在时域上，历史观测数据与未来预测间存在混杂因素。例如，在出租车需求预测任务中，区域的功能属性作为观测数据与未来预测的共因，在两者间建立虚假相关性。模型若在统一的参数空间下提取时域特征，则会生成偏向于表达频繁出现的需求量模式的时域表示，在数据稀疏区域上预测效果欠佳。另一方面，在空域上，现存方法缺乏对节点间潜在因果关系的挖掘。在图卷积的消息传递过程中，模型会在非因果关联节点间引入空域虚假相关性的影响，而为具有不同需求量模式的节点构建相似的空域特征，进而给出错误的预测。

发明内容

基于现有技术中的不足，本发明充分考虑了稳定的因果关系，提出了一种基于混杂感知与因果去偏的城市时空数据预测方法，从而有效减小了预测误差并提高了模型的鲁棒性。

本发明的技术方案具体如下：

一种基于混杂感知与因果去偏的城市时空数据预测方法，包括以下步骤：

S1：收集历史城市时空数据，并进行预处理，获得标准数据训练集；

S2：构建基于混杂感知与因果去偏的深度学习模型（CADN），所述深度学习模型包括多个串联的时空因果特征提取模块以及一个和融合预测模块，每个时空因果特征提取模块包含一个时域因果去偏模块和一个空域因果传递模块；

S3：采用S1得到的标准数据训练集对深度学习模型完成训练；

S4：利用训练好的深度学习模型对城市时空数据进行预测。

优选的，所述城市时空数据包括：出租车需求量、公交车负载量或地铁客流量。

优选的，所述S1中的预处理为：将待预测地域划分为N个区域，统计各区域内分时段的城市时空数据。

优选的，所述时域因果去偏模块包括潜在混杂估计器部分和因果干预部分；其中，潜在混杂估计器部分通过构建分层矩阵将标准数据分为具有不同混杂因素的聚簇；因果干预部分将各聚簇分别通过独立的门控递归单元，并通过后门调整公式生成无偏的时域特征。

优选的，所述时域因果去偏模块中历史城市时空数据X和预测城市时空数据Y的相关性模型如下：

其中，混杂因素C服从离散均匀分布，p表示混杂因素C共包含p类，即将N个区域分为p类，，/>表示输入第k类区域历史城市时空数据/>所对应的预测模型，其中，k=1,2,…p，/>表示第k类区域的时域提取模型，/>表示第k类区域的时域特征，/>表示第k类混杂因素，/>表示/>的共现概率。

优选的，所述时域因果去偏模块获得的时域因果特征如下：

=BatchNorm/>

其中，t表示第t个时段，BatchNorm 表示批归一化操作，/>表示第k类区域第t个时段提取的时域因果特征，/>代表在节点维度上的矩阵拼接操作；

其中，

其中，表示sigmoid激活函数，/>、/>、/>、/>、/>和/>均为可学习权重，表示第k类区域第t个时段的历史城市时空数据，/>表示tanh激活函数，/>表示矩阵的逐元素乘法，/>表示第k类区域第t-1个时段提取的时空因果特征，/>为初始化零矩阵。

优选的，所述空域因果传递模块包括基于因果传递矩阵构建的因果传递网络，将时域特征转化为符合因果关联的时空因果特征。

优选的，所述空域因果传递模块中的因果传递矩阵如下：

其中，为第t个时段内所有区域的原因嵌入矩阵，/>为第t个时段内所有区域的结果嵌入矩阵，/>为第t个时段内的区域嵌入向量维度；

第t个时段内的因果传递过程如下：

其中，为可学习的权重矩阵；

第t个时段内的时空因果特征提取如下：

其中，中u={1,2}，/>为基于先验知识构建的距离图所对应的邻接矩阵，表示各区域间的距离关系，其中第i行，第j列的元素为区域i与区域j的距离，/>为基于先验知识构建的交互图所对应的邻接矩阵，表示各区域间的交互关系，其中第i行，第j列的元素为区域i到区域j的城市时空数据与区域i内城市时空数据的比值，i={1,2,…N}，j={1,2,…N}，且/>，/>是图卷积网络权重。

优选的，所述融合预测模块以多个串联的时空因果特征提取模块的输出为输入，利用堆叠的全连接层和Relu激活函数生成城市时空数据预测结果。

相比于现有技术，本发明的有益效果在于：

（1）本发明提供了一种基于混杂感知与因果去偏的城市时空数据预测方法，该方法从城市时空数据的历史观测数据中估计了潜在的时域混杂因素，为消除时域虚假相关性提供了基础；

（2）本发明提供的基于混杂感知与因果去偏的城市时空数据预测方法，利用因果干预消除了时域上的混杂偏倚，能够获取无偏的时域因果特征，有效地提升了预测的准确性；

（3）本发明提供的基于混杂感知与因果去偏的城市时空数据预测方法，通过学习区域间的空间因果传递矩阵，并定义空间因果传递过程，消除了非因果关联节点间的空域虚假相关性，有效地提升了预测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，通过参考附图可以更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。

图1是本发明基于混杂感知与因果去偏的城市时空数据预测方法流程图。

图2是本发明中时域因果干预示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

本发明提供了一种基于混杂感知与因果去偏的历史城市时空数据预测方法，如图1所示，该方法将城市时空数据的历史观测数据输入到时域因果去偏模块中，设计混杂估计器，利用分层矩阵将来自不同区域的城市时空数据按照其具有的混杂因素分类，并在因果干预过程中利用后门调整提取无偏的时域因果特征；再通过可学习的因果嵌入向量构建区域间因果传递矩阵，并利用区域间距离和区域间交互量等先验知识，构建相应的图结构作为归纳偏置，进而利用因果传递过程，将时域因果特征转化为时空因果特征；最后通过融合预测器输出预测结果并进行端到端训练。

为了便于理解，本发明以城市中的出租车需求量为实例进行更详细的说明。

步骤1：通过出租车网约平台收集历史出租车订单信息，订单信息包括以下八种数据：订单编号、出发经度、出发纬度、到达经度、到达纬度、出发时间、到达时间、行程时间。接着对订单信息进行预处理，将待预测地域划分为N个区域，去除行程时间小于0的订单数据，统计各区域内等时长间隔内的出租车需求量，作为标准数据训练集。

第t个时段内全部区域的出租车需求量记为，将Q个时段，N个区域内的历史出租车需求量/>作为基于混杂感知与因果去偏的深度学习模型CADN的输入。

步骤2：构建基于混杂感知与因果去偏的深度学习模型（CADN），所述深度学习模型包括多个堆叠的时域因果去偏模块和空域因果传递模块，以及一个融合预测器。输入的各区域内等时长间隔内的出租车需求量在时域因果去偏模块中通过潜在混杂估计器部分分层为具有不同类型混杂因素的聚簇，并将各层数据通过时域编码器提取时域特征，利用后门调整构造无偏的时域因果特征。再输入空域因果传递模块，通过因果传递过程获取无偏的时空因果特征。最后输入到融合预测器中，映射到出租车需求量空间上，输出预测值。

（1）时域因果去偏模块

时域因果图如图2所示，共包含四个变量，历史出租车需求量X、混杂因素C、时域特征和预测出租车需求量Y。

混杂因素C通过后门路径在历史出租车需求量X与预测出租车需求量Y间建立虚假相关性，若将混杂因素C按照取值分层为可被分解为：

其中，表示输入X所对应的预测模型，k=1,2,…p，表示时域提取模型，/>表示第k类区域的时域特征，/>表示第k类混杂因素，表示历史出租车需求量X与/>的共现概率。在大多数情况下，由于数据集的不均衡性，历史出租车需求量X与混杂因素C不能以均等概率结合，导致所提取的时域特征倾向于表达频繁出现的一般性时序依赖，为了消除历史出租车需求量X与预测出租车需求量Y间的虚假相关性，本发明基于后门调整公式，切断X与C间的因果路径，令X与C独立，此时变为/>，进而切断/>的后门路径，消除混杂因素C带来的虚假相关性，可由下式分解：

其中，表示第k类区域历史城市时空数据，/>表示第k类区域的时域提取模型，/>表示/>的共现概率。为了使历史出租车需求量X与混杂因素C公平结合，设混杂因素C服从离散均匀分布，即/>。

由于混杂因素在数据集中不可见，本发明设计了潜在混杂估计器部分以将历史出租车需求量依据混杂因素分层，设可学习的分层矩阵，其中N为区域的总数量，本发明基于Gumbel Softmax方法对分层矩阵进行正则化操作，使分层矩阵每行仅有一个元素为1，其余元素均为0。正则化的分层矩阵/>将各区域的历史出租车需求量划分在具有不同混杂因素的聚簇中。此后，通过并行的时域编码器提取各个区域的时域因果特征，第t个时段内混杂因素/>取值为的第k个区域的时域因果特征/>表达式如下：

其中，表示sigmoid激活函数，/>、/>、/>、/> 、/>和/>均为可学习权重，表示第k类区域第t个时段的历史城市时空数据，/>表示tanh激活函数，/>表示矩阵的逐元素乘法，/>表示第k类区域第t-1个时段提取的时空因果特征，/>为初始化零矩阵。

最后，合并各区域提取的时域因果特征，得到第t个时段内时域因果特征如下式：

=BatchNorm/>

其中，t表示第t个时段，表示第k类区域第t个时段提取的时域因果特征，/>代表在节点维度上的矩阵拼接操作，BatchNorm/>表示批归一化操作，防止梯度消失，加快深度学习模型收敛。

（2）空域因果传递模块

为了提取无偏的时空因果特征，本发明在构建因果传递矩阵的基础上，提出因果传递网络建模区域间的因果传递过程。为了挖掘区域间潜在的因果结构，本发明在反向传播过程中端到端地生成因果传递矩阵，考虑到区域间因果关联的动态性，在不同时间步内，学习动态的矩阵。

在区域数量较多的情况下，直接通过梯度下降拟合潜在因果传递矩阵会导致深度学习模型的过参数化和较大的计算负载，因此将潜在因果传递矩阵分解，如下式：

其中，为第t个时段内所有区域的原因嵌入矩阵，/>为第t个时段内所有区域的结果嵌入矩阵，/>为第t个时段内的区域嵌入向量维度。

通过上述过程，可学习参数量由下降到/>，同时有效减低了计算负载，并通过降低参数量防止模型过拟合。

此外，由于因果图具有有向无环的性质，本发明对所学习的因果传递矩阵添加了有向无环限制如下：

其中I为单位矩阵，表示矩阵的迹。

本发明基于可学习的因果传递矩阵定义了因果传递网络，其遵循两个原则：（1）所有因果链接中的结果区域聚合所有原因区域的信息。（2）在因果传递过程中，不能引入非因果的虚假相关性。

第t个时段内的因果传递过程如下：

其中为因果传递矩阵的转置，/>为可学习的权重矩阵。

此外，基于先验知识构建距离邻接矩阵和交互邻接矩阵作为深度学习模型的归纳偏置，以加快深度学习模型的收敛速度。第t个时段内的时空因果特征提取过程如下：

（3）融合预测器。

本发明将提取的时空因果特征映射到出租车需求量空间上，生成预测结果。利用堆叠的全连接层和Relu激活函数生成预测结果，如下式：

其中，表示预测结果，/>为第Q个时段（即最后一个时段）内提取的时空因果特征，/>为可学习的参数矩阵。

本发明使用L2-norm作为预测损失，并设计了多目标损失函数对深度学习模型进行训练，如下式：

其中，为控制平衡的超参数，/>表示总损失函数。

步骤3：对步骤2建立的深度学习模型进行训练，将待预测城市时空数据输入训练好的深度学习模型中，输出各区域未来出租车需求量。

实施例1

本发明使用纽约出租车订单数据集和北京出租车订单数据集来训练深度学习模型。所用纽约出租车订单数据集截取2016年4月1日至2016年6月30日的订单数据，共划分90个子区域，北京出租车订单数据集截取2021年1月1日至2021年12月31日的订单数据，共划分263个子区域。

每条订单数据包括以下八种信息：订单编号、出发经度、出发纬度、到达经度到达纬度、出发时间、到达时间、行程时间。将数据集进行预处理并转化为区域出租车需求量数据集，划分时间段为30分钟。将数据集在时间维度上划分为训练集（60％），验证集（20％）和测试集（20％）。本实施例中使用历史3小时区域出租车需求量数据预测未来30分钟区域需求量。

对本发明的深度学习模型进行训练。对数据进行Z-score标准化，深度学习模型中所有参数进行随机初始化。

在Linux操作系统上使用Intel(R)Core(TM) i9-10980XE CPU 和 GeForce RTX3090 GPU进行训练，批处理参数设置为64，初始学习率设置为0.001。

借助Adam优化算法和指数衰减动态学习率策略，该深度学习模型在完整数据集上训练了200个周期。在每个训练周期使用损失函数对模型进行验证，然后根据损失函数值保存最优模型。在训练过程中使用Early Stopping策略，当损失函数值连续50个周期不下降时，提前终止训练。

将上述实施例的预测结果与现有技术进行比较，在同一数据集上进行区域出租车需求量预测，对比结果如表1和表2所示。使用平均绝对误差（MAE）和均方根误差（RMSE）以及平均百分比绝对误差（MAPE）评估预测结果，误差越低，表示预测效果越好。本发明对比了八种现有技术中的预测方法。

第一种和第二种是循环神经网络的两个主要变体GRU和LSTM，其通过循环结构捕捉时间依赖，但是忽略了区域之间的异质性固有影响以及空间关联。

第三种是STGCN，其通过结合时域上的一维CNN和空间上的GCN捕捉空间关联和时间依赖。

第四种是HGCN，其通过层次化的GCN同时捕捉了不同尺度的空间关联。

第五种是GraphWaveNet，其通过自适应图结构学习过程挖掘潜在的空间依赖。

第六种是AGCRN，其通过为不同区域分配独立的参数空间建模时序依赖，但是缺乏从因果视角下对各类区域所提取的特征进行权重调整的过程。

第七种是DGCRN，其使用动态图生成模块建模交通系统的动态性，但仍在共享空间下建模不同区域的时序依赖。

第八种是DMSTGCN，其为一天内的每个时间片分配一个单独的图结构以建模交通系统的动态性，并利用辅助信息提高预测精度。

由对比结果可以很明显的看出，本发明提出的基于混杂感知与因果去偏的出租车需求量预测方法的预测效果优于现有技术。

表1纽约数据集区域出租车需求量预测结果对比

表2北京数据集区域出租车需求量预测结果对比

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、 “上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本发明中，术语“第一”、“第二”、“第三”、“第四”仅用于描述目的，不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于混杂感知与因果去偏的城市时空数据预测方法，其特征在于，包括以下步骤：

S2：构建基于混杂感知与因果去偏的深度学习模型，所述深度学习模型包括多个串联的时空因果特征提取模块以及一个和融合预测模块，每个时空因果特征提取模块包含一个时域因果去偏模块和一个空域因果传递模块；

S3：采用S1得到的标准数据训练集对深度学习模型完成训练；

S4：利用训练好的深度学习模型对城市时空数据进行预测；

所述S1中的预处理为：将待预测地域划分为N个区域，统计各区域内分时段的城市时空数据；

所述时域因果去偏模块包括潜在混杂估计器部分和因果干预部分；其中，潜在混杂估计器部分通过构建分层矩阵将标准数据分为具有不同混杂因素的聚簇；因果干预部分将各聚簇分别通过独立的门控递归单元，并通过后门调整公式生成无偏的时域特征；

所述时域因果去偏模块中历史城市时空数据X和预测城市时空数据Y的相关性模型如下：

其中，混杂因素C服从离散均匀分布，p表示混杂因素C共包含p类，即将多个区域分为p类，，/>表示输入第k类区域历史城市时空数据/>所对应的预测模型，其中，k=1,2,…p，/>表示第k类区域的时域提取模型，表示第k类区域的时域特征，/>表示第k类混杂因素，/>表示/>的共现概率。

2.根据权利要求1所述的城市时空数据预测方法，其特征在于，所述城市时空数据包括：出租车需求量、公交车负载量或地铁客流量。

3. 根据权利要求1所述的城市时空数据预测方法，其特征在于，所述时域因果去偏模块获得的时域因果特征如下：

=BatchNorm/>

其中，

4.根据权利要求3所述的城市时空数据预测方法，其特征在于，所述空域因果传递模块包括基于因果传递矩阵构建的因果传递网络，将时域特征转化为符合因果关联的时空因果特征。

5.根据权利要求4所述的城市时空数据预测方法，其特征在于，所述空域因果传递模块中的因果传递矩阵如下：

第t个时段内的因果传递过程如下：

其中，为可学习的权重矩阵；

第t个时段内的时空因果特征提取如下：

其中，中u={1,2}，/>为基于先验知识构建的距离图所对应的邻接矩阵，表示各区域间的距离关系，其中第i行，第j列的元素为区域i与区域j的距离，/>为基于先验知识构建的交互图所对应的邻接矩阵，表示各区域间的交互关系，其中第i行，第j列的元素为区域i到区域j的城市时空数据与区域i内城市时空数据的比值，i={1,2,…N}，j={1,2,…N}，且，/>是图卷积网络权重。

6.根据权利要求5所述的城市时空数据预测方法，其特征在于，所述融合预测模块以多个串联的时空因果特征提取模块的输出为输入，利用堆叠的全连接层和Relu激活函数生成城市时空数据预测结果。