CN111754775A

CN111754775A - 一种基于特征重构误差的交通流量预测方法

Info

Publication number: CN111754775A
Application number: CN202010634989.7A
Authority: CN
Inventors: 余正旭; 蔡登�; 王鹏飞; 徐骏凯; 金仲明; 黄建强; 华先胜; 何晓飞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-10-09
Anticipated expiration: 2040-07-03
Also published as: CN111754775B

Abstract

本发明公开了一种基于特征重构误差的交通流量预测方法，属于机器学习技术领域，包括：(1)选择目标机器学习网络，初始化目标机器学习网络的参数；(2)构建交通流量的训练数据集，初始化特征校正权值矩阵的参数；(3)利用训练数据集对特征校正权值矩阵进行训练，训练过程使用随机梯度下降算法和特征重构误差损失函数；(4)固定特征校正权值矩阵参数，对目标机器学习网络进行训练，训练过程使用随机梯度下降算法；(5)重复步骤(3)和步骤(4)，直至损失函数收敛或达到最大训练步数；(6)训练结束，将待预测的交通流量数据输入训练好的网络模型，得到预测的交通流量。利用本发明，可以增强模型在进行交通流量预测的稳定性。

Description

一种基于特征重构误差的交通流量预测方法

技术领域

本发明属于机器学习技术领域，尤其是涉及一种基于特征重构误差的交通流量预测方法。

背景技术

基于神经网络的交通流量预测模型的训练过程要求数据样本遵循独立同分布假设(i.i.d假设)，即训练和测试数据集是从相同的数据分布中采样得到的。在i.i.d假设下，训练好的模型可以直接应用到测试数据集上，并能够获得与训练数据集上相当的效果。这种方法虽然在许多研究性公开数据集中被证明是非常成功的，但在实际应用中是存在缺陷的。其原因是在实际应用中普遍存在的数据选择偏差，即无法保证训练或测试样本是完全随机采样得到的。因此，在测试数据分布未知的工业应用中，无法保证训练数据和未知的测试数据具有相同的分布。而在存在数据选择偏差的训练数据集上训练得到的模型，为了获得更低的训练损失，会倾向于拟合训练数据中特征间的统计相关性。这直接导致了模型在不存在这种相关性的测试数据集上的性能不稳定。

解决上述数据选择偏差导致的模型不稳定问题有多条技术路径。其中一种比较直接的方式是利用测试数据分布的先验知识，如Minghao Chen 等人2020年发表在《TheThirty-Fourth AAAI Conference on Artificial Intelligence》(AAAI’20)上的《Adversarial-learned loss for domain adaptation》。该工作利用测试数据分布的先验知识，在模型训练时，修正训练数据的分布。由于交通流量预测任务中测试数据的分布信息是无法提前知晓的，使得这些需要数据分布先验的工作不可行。

另外一些工作尝试通过改变各训练样本在训练过程中的权重来解决上述问题，如Kun Kuang等人2020年发表在《The Thirty-Fourth AAAI Conference on ArtificialIntelligence》(AAAI’20)上的《Stable Prediction with Model Misspecification andAgnostic Distribution Shift》。该工作通过改变训练样本权重来修正数据选择偏差导致的出现频次少的特征模式被忽略的问题。这些通过改变训练样本权重的工作，需要维护一个与样本个数相同大小的权值矩阵，使得其在大规模工业应用中的计算、空间复杂度很大，因此这些工作在交通流量预测工业应用中的可行性较低。

发明内容

本发明提供了一种基于特征重构误差的交通流量预测方法，可以增强模型在进行交通流量预测的稳定性。

一种基于特征重构误差的交通流量预测方法，包括以下步骤：

(1)选择目标机器学习网络，初始化目标机器学习网络的参数；

(2)构建交通流量的训练数据集，初始化特征校正权值矩阵的参数，所述特征校正权值矩阵的大小为W∈R^p×p，p为输入神经网络的数据样本特征维度；

(3)利用训练数据集对特征校正权值矩阵进行训练，训练过程使用随机梯度下降算法和特征重构误差损失函数；

(4)固定特征校正权值矩阵参数，对目标机器学习网络进行训练，训练过程使用随机梯度下降算法；

(5)重复步骤(3)和步骤(4)，直至损失函数收敛或达到最大训练步数；

(6)训练结束，将待预测的交通流量数据输入训练好的网络模型，得到预测的交通流量。

本发明的方法，利用训练样本特征间的重构误差学习得到特征间的相关性系数。并利用该系数，在训练网络模型过程中抑制由数据选择偏差导致的特征间统计相关性对模型训练的影响，从而提高模型应用时，预测效果稳定性。

步骤(1)中，目标机器学习网络可以为大部分的深度神经网络模型如时空图网络(ST-GCN)，亦可以是线性机器学习网络如最小二乘网络(OLE)。

本发明以最小二乘网络为例，所述目标机器学习网络采用线性机器学习网络中的最小二乘网络，参数的初始化由高斯分布采样得到。

步骤(2)中，所述的训练数据集中，各样本特征由因果特征S和无关特征V两部分组成，其中，S表示与目标真值存在因果关系的特征，V 表示与目标真值不存在因果关系的特征。

特征校正权值矩阵的大小由输入样本特征维度决定，初始化的参数由高斯分布中采样得到。

步骤(3)中，对特征校正权值矩阵进行训练，通过训练样本特征间的重构关系，构建特征间的因果关系图。

所述的特征重构误差损失函数为：

式中，p表示特征维度、n表示训练样本总数、W∈R^p×p表示特征校正权值矩阵，其中X_i,-j表示第i个样本除去第j维特征剩余所有特征组成的矩阵，W_j,-j表示第j行除去第j列权值剩余所有权值组成的矩阵。

本发明提出的损失函数

通过特征间的重建，利用特征校正权值矩阵W学习特征间的相关性。并在步骤(4)中使用学习得到的特征校正权值矩阵，抑制特征间相关性对目标机器学习网络的影响。

步骤(4)中，若目标机器学习网络采用最小二乘网络，则训练的损失函数如下：

其中，Y_i表示样本i对应的真值，X_i表示样本i的特征表达，β表示最小二乘网络的参数，n表示训练样本总数，W_r表示步骤(3)中训练得到的特征校正权值矩阵；X_iβ是基础网络的原始输出，(X_iW_r)β是使用特征校正权值矩阵对输入特征修正后的网络输出。

与现有技术相比，本发明具有以下有益效果：

1、与需要数据分布先验知识的域适应和迁移学习为基础的方法相比，本发明能够用于测试数据不可知的交通流量预测，同时也可以应用于其它测试数据不可知的工业场景。

2、与基于训练样本权重的先前方法相比，本发明所需参数量与样本量无关，在大规模数据场景下计算、空间复杂度更小，模型预测更稳定。

附图说明

图1为本发明一种基于特征重构误差的交通流量预测方法的流程示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，一种基于特征重构误差的交通流量预测方法，包括：

S01，初始化目标机器学习网络参数。

目标机器学习网络可以是大部分常用的深度神经网络模型如时空图网络(ST-GCN)，亦可以是线性机器学习网络如最小二乘网络(OLE)。

本实施例以最小二乘网络(OLE)作为基础网络进行交通流量预测为例。同时，模型参数的初始化由高斯分布采样得到。

S02，初始化特征校正权值矩阵参数W，其中W∈R^p×p即矩阵的大小由输入样本特征维度决定。初始化参数由高斯分布中采样得到。

S03，利用训练数据集对特征校正权值矩阵进行训练，训练过程使用随机梯度下降算法和本发明中提出的如下特征重构误差损失函数：

该损失函数中p表示特征维度、n表示训练样本总数、W∈R^p×p表示特征校正权值矩阵。其中X_i,-j表示第i个样本的特征向量除去第j维特征剩余所有特征组成的矩阵，W_j,-j表示权值矩阵的第j行除第j列外所有权值组成的矩阵。

本发明提出的损失函数

的通过特征间的重建，利用W学习特征间的相关性。并在S04中使用学习得到的特征校正权值矩阵，抑制特征间相关性对目标机器学习网络的影响，从而可以提高模型预测的效果稳定性。

S04，固定特征校正权值矩阵参数，对目标机器学习网络进行训练，训练过程使用随机梯度下降算法，损失函数如下：

其中，Y_i表示样本i对应的真值，X_i表示样本i的特征表达，β表示OLE 网络的参数，n表示训练样本总数，W_r表示S03中得到的特征校正权值矩阵。

S05，重复步骤S03和S04，直至损失函数

和

收敛或达到最大训练步数。

S06训练结束，使用训练得到的模型进行交通流量预测应用。

为验证本发明方法的有效性，本发明在发表在《The Thirty-Fourth AAAIConference on Artificial Intelligence》(AAAI’20)上的《Stable prediction withmodel misspecification and agnostic distribution》的数据集D_DWR上与目前最前沿的稳定机器学习方法进行对比。同时，《Stable prediction with model misspecificationand agnostic distribution》中提出的方法(DWR)是目前最前沿的稳定机器学习方法。因此，在D_DWR中DWR方法比较保证了实验的公平性和合理性。数据集D_DWR中各样本特征由因果特征S和无关特征V两部分组成，其中S表示与目标真值存在因果关系的特征集，V表示与目标真值不存在因果关系的特征集。D_DWR根据因果特征和无关特征间的因果关系分为三个子数据集包括S⊥V、S→V、S←V三种，其中S⊥V表示S特征与V特征间无本质上的相关性，S→V表示V特征值部分或完全取决于S特征值，S←V表示S特征值部分或完全取决于V特征值。

同时，为了考察模型在不同非线性情况下的效果，各子数据集中包括了多项式函数和指数函数两种真值生成函数生成的样本。为了模拟实际应用中的数据生成偏差，D_DWR利用数据选择偏差参数r来改变具有某种特征的样本被选择到数据集的概率，模拟了模型学得的特征间因果关系受到数据选择偏差导致的统计相关性干扰的情况。D_DWR测试数据集由r∈[-3,-2,-1.7,-1.5,-1.3,1.3,1.5,1.7,2,3]的10个不同数据分布的子测试集构成，因此我们通过测试神经网络模型在10个子测试集中的平均稳定程度来评价方法的有效性。

在D_DWR数据集上本发明主要在三个指标上进行对比，包括目标机器学习网络对无关特征参数估计误差β_v_error，不同配置的测试子数据集上的平均预测误差AE和预测方差SE。其中AE、SE发表在《The Thirty-Fourth AAAI Conference on ArtificialIntelligence》(AAAI’20)上的《Stable prediction with model misspecification andagnostic distribution》。

本发明与三个不同的基准线模型进行了比较，包括常用的线性回归方法最小二乘网络(OLE)、最小绝对值收敛和选择算子(Lasso)、岭回归 (Ridge)。同时，与目前最前沿的稳定学习方法DWR(发表在《The Thirty-Fourth AAAI Conference on ArtificialIntelligence》(AAAI’20)上的《Stable prediction with model misspecification andagnostic distribution》) 进行了比较。本发明的方法与DWR均利用OLE模型作为基础网络模型搭建。

在D_DWR数据集中，非线性函数为多项式函数(Y＝Y_poly)的样本集上的评测结果如表1所示：

表1

其中，Y＝Y_poly表示真值由样本特征通过多项式函数算得。该数据集的训练样本量n＝2000，样本特征维度p＝20，训练数据集中样本特征间统计相关性系数r＝1.7。测试数据集由n＝2000，p＝20， r∈[-3,-2,-1.7,-1.5,-1.3,1.3,1.5,1.7,2,3]的10个不同配置的子测试集构成。各组实验分别重复了50次，每次实验中均重新生成了训练数据集，但使用相同的测试数据集。可以看出，在所有实验中，本发明方法在 β_v_error和SE上，均超过了其他方法。

在D_DWR数据集中，非线性函数为指数函数的样本上的评测结果如表2 所示：

表2

其中，Y＝Y_exp表示真值由样本特征通过指数函数算得。该数据集的训练样本量n＝2000，样本特征维度p＝20，训练数据集中样本特征间统计相关性系数r＝1.7。测试数据集由n＝2000，p＝20， r∈[-3,-2,-1.7,-1.5,-1.3,1.3,1.5,1.7,2,3]的10个不同配置的子测试集构成。各组实验分别重复了50次，每次实验中均重新生成了训练数据集，但使用相同的测试数据集。可以看出，在所有实验中，本发明方法在 β_v_error和SE上，均超过了其他方法。

另外，在D_DWR数据集上的S⊥V子集上进行了n、p、r变化的稳定性评测实验，该数据真值使用Y＝Y_exp生成，结果如表3所示：

表3

其中n表示训练数据集样本总数，p表示样本的特征维度，r表示训练数据集上的特征间统计相关性系数，系数越大表示统计相关性越强。各组实验中测试数据集的n和p值与训练数据集相同， r∈[-3,-2,-1.7,-1.5,-1.3,1.3,1.5,1.7,2,3]。各组实验分别重复了50次，每次实验中均重新生成了训练数据集，但使用相同的测试数据集。

表中，Scenario 1对比了本发明方法与其他方法在不同n值时的效果， Scenario2对比了本发明方法与其他方法在不同p值时的效果，Scenario 3 对比了本发明方法与其他方法在不同r值时的效果。可以看出，在所有实验中，本发明方法在β_v_error和SE上，均超过了其他方法。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于特征重构误差的交通流量预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于特征重构误差的交通流量预测方法，其特征在于，步骤(1)中，所述目标机器学习网络采用深度学习网络或线性机器学习网络。

3.根据权利要求1所述的基于特征重构误差的交通流量预测方法，其特征在于，步骤(1)中，所述目标机器学习网络采用线性机器学习网络中的最小二乘网络，参数的初始化由高斯分布采样得到。

4.根据权利要求1所述的基于特征重构误差的交通流量预测方法，其特征在于，步骤(2)中，所述的训练数据集中，各样本特征由因果特征S和无关特征V两部分组成，其中，S表示与目标真值存在因果关系的特征，V表示与目标真值不存在因果关系的特征。

5.根据权利要求1所述的基于特征重构误差的交通流量预测方法，其特征在于，步骤(2)中，特征校正权值矩阵的大小由输入样本特征维度决定，初始化的参数由高斯分布中采样得到。

6.根据权利要求1所述的基于特征重构误差的交通流量预测方法，其特征在于，步骤(3)中，对特征校正权值矩阵进行训练，通过训练样本特征间的重构关系，构建特征间的因果关系图。

7.根据权利要求1所述的基于特征重构误差的交通流量预测方法，其特征在于，步骤(3)中，所述的特征重构误差损失函数为：

8.根据权利要求1所述的基于特征重构误差的交通流量预测方法，其特征在于，步骤(4)中，若目标机器学习网络采用最小二乘网络，则训练的损失函数如下：