CN112651455B

CN112651455B - 一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法

Info

Publication number: CN112651455B
Application number: CN202011617854.6A
Authority: CN
Inventors: 陈茂玉; 朱锐; 李彤; 王基书; 王润方
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2022-11-01
Anticipated expiration: 2040-12-30
Also published as: CN112651455A

Abstract

本发明公开了一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法，其特征在于，包括以下步骤：步骤一：根据时间序列的特点，采用LBDTW算法计算时间序列的最优弯曲路径的距离值，得到最优弯曲路径的距离矩阵；步骤二：通过K‑means聚类算法分类最优弯曲路径的距离矩阵，提取聚类数值最小的一个簇，得到相似日时间序列矩阵；步骤三：根据相似日时间序列矩阵，用非负矩阵分解对缺失值填充；步骤四：对未填补的数据所在日时间序列进行以上三步操作，完成数据填补。本发明基于改进的LBDTW算法，结合K‑means聚类，充分的考虑了交通数据的时间性和空间性，用非负矩阵分解对缺失值填充，实现交通数据缺失值的精准填补。

Description

一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法

技术领域

本发明涉及数据缺失领域，尤其是一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法。

背景技术

智慧交通系统是缓解交通拥堵、提高交通运输效率的有效途径。数据是智慧交通系统中最重要的因素之一，通过收集和分析大量的交通数据，可以更好地进行管理和预测。例如：可以快速发现交通异常，方便交通管理，也可以在交通数据中发现内在规律和知识，从而提高交通管理的运行效率。因此，交通数据在智慧交通系统建设中发挥基础性作用。在交通数据不完整的情况下，仅仅准确表达交通信息是不够的。更重要的是，数据信息的不完整阻碍了很多经典的挖掘算法的应用。

数据缺失的问题严重阻碍了交通流数据的采集和后续分析、估计和预测。据报道，在PEMS流量数据库的数百个监测点中，有超过5％的数据丢失；德克萨斯州圣安东尼奥市发现有近四分之一的数据流失；澳大利亚墨尔本的大型密集路网中，有8％的检测器其数据缺失率达到了56％；在中国的首都北京，因为智能交通系统仍在发展中，每天的交通流量数据的缺失率通常在10％左右。缺失的交通数据可能会降低甚至危及建立在这些数据上的有效研究。交通数据的缺失对交通预测和建模的影响可以分为以下两类：

(1)某些时间段或某些位置的信息，或对研究目标可能有重要意义的时空信息丢失。例如，如果在高峰时段拥堵地区的交通量和速度缺失，车辆的总排放量将被低估；

(2)丢失了一些统计信息。由于缺失值，样本量变小，可能导致过拟合问题。

因此，在预测未来交通流状态、趋势和模式时，估计交通数据的不完全观测值是至关重要的。

为了解决缺失数据的问题，近十年来人们提出了许多估算方法，现有的估算方法主要是分为基于插值的归算方法、基于预测的归算方法和基于统计学习的归算方法。近年来，机器学习技术尤其是神经网络模型，在数据分析中得到了大量的科研关注，并被用来估算交通数据的缺失值，这些方法可以实现相当精确的插补，并且他们可以表示为基于向量或者基于矩阵的方法，因为输入方式是灵活的。然而，大多数都是基于监督学习的需要大量的数据来训练模型，并且在没有大量的历史数据的情况下也很难工作。

交通数据经常出现数据缺失的问题，是由于传感器故障和通信故障导致数据缺失。近期对于缺失数据填补的研究主要集中在用数据驱动或者模型驱动的模型来填补缺失值，而在大多数情况下，现有的缺失值填补方法没有充分利用时空相关性。非负矩阵分解(NMF)在许多应用中取得良好的性能，为了估计缺失值，当前的NMF的方法更强调数据的通用性而忽略了由于采样日期导致的细微但很重要的差异，没有充分考虑时间序列特征和数据空间特征，不能直接应用于缺少数据的矩阵。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种基于时间序列聚类的交通数据缺失值填补算法(DKNMF)；首先利用动态时间规整(DTW)的改进算法得到时间序列之间的距离矩阵，然后对距离矩阵通过K-means聚类算法进行聚类，搜索选择基于距离矩阵的最相似样本，充分利用交通数据的时间性和空间性，最后将NMF应用于相关性更强的样本，以获得缺失值的精确估计。

本发明采用的技术方案如下：

本发明一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法，包括以下步骤：

步骤一：根据时间序列的特点，采用LBDTW算法计算时间序列的最优弯曲路径的距离值，得到最优弯曲路径的距离矩阵；

步骤二：通过K-means聚类算法分类最优弯曲路径的距离矩阵，提取聚类数值最小的一个簇，得到相似日时间序列矩阵；

步骤三：根据相似日时间序列矩阵，用非负矩阵分解对缺失值填充；

步骤四：对未填补的数据所在日时间序列进行以上三步操作，完成数据填补。

作为优选，所述步骤一中，在LBDTW算法计算前，对数据进行归一化处理，将数值转化为[0,1]区间的值。

作为优选，所述步骤一中，LBDTW对于不同长度的时间序列进行对比，若两个时间序列对比有缺失值就跳过。

作为优选，所述步骤一包括：根据时间序列，计算

其中，

x_i序列的上界

x_i序列的下界

s.t：δ-r≤t≤δ+r，r是自定义的一段滑行窗口距离，x_i的{U，L}包络曲线中，U为上包络线，L为下包络线；根据衰减系数s计算出最优弯曲路径的距离W_t＝min{σLBDTW(x_i，x_j)}，其中，

seqLen表示途中最优路径节点个数comLen表示每段对角线直线的长度；基于最优弯曲路径的距离W_t得到最优弯曲路径的距离矩阵。

作为优选，所述K-means聚类算法：随机选择质心，获取每个数据，并计算其与质心的距离：

其中，C＝{C₁，C₂，...，C_k},簇C_i的数据平均值为c_i，即为簇类质心，k为簇的个数，x是簇C_i中的数据对象；将每个数据分配到其最近的质心并生成新的簇；

计算新的簇的聚类均值，不断迭代，直至聚类均值不变，输出簇划分。

作为优选，所述步骤二具体包括：将最优弯曲路径的距离矩阵中选出质心，并计算与质心的距离，不断迭代，从输出结果中提取聚类数值最小的一个簇，即为相似日时间序列矩阵。

作为优选，在聚类均值计算中，采用欧几里距离进行距离度量，欧几里的距离计算公式如下：

其中X_i、Y_i为时间序列。

作为优选，所述步骤三：设定相似日矩阵的掩码矩阵为M，M∈R^N×T，R是已有数据记录集合，相似日矩阵中的观测值表示为M×A，目标函数为：

其中λ(||q_t||²+||p_d||²)是为了防止过拟合的正则化项，正则化系数为λ，p_d表示每天属性d的特征向量，q_t表示时间间隔t的特征向量；||×||_F表示费罗贝尼乌斯范数；根据目标函数获得缺失数据的特征向量，进行缺失数据填充。

作为优选，在掩码矩阵中，原始矩阵元素是否缺失用

来判断，若未观察到值，

值为0，否则为1；

表达如下所示：

掩码矩阵中的1是未缺失的值，使用未缺失的值分解得到分解矩阵。只计算未缺失的损失值最小时，就是非负矩阵最优分解矩阵。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明对现有DTW进行改进，改进的LBDTW算法，可以用来计算含缺失数据的时间序列，得到交通数据的时间性和空间性。

2、本发明通过DTW的改进算法与K-means算法的结合，找到关系最近的时间序列评估缺失值，获得缺失值的精确估计。

3、本发明针对现有NMF填补方法的不足，提出了DKNMF算法，充分的考虑了交通数据的时间性和空间性，获得缺失值的精确估计。

4、本发明通过LBDTW算法结合K-means将大型矩阵划分成几个低秩矩阵，在用NMF算法将缺失值填充，由于降秩减少了时间复杂度。

5、本发明解决了对于交通数据样本基于NMF填补不能简单的当作一个整体来处理的问题，提出了时间序列聚类的思想，结合LBDTW和K-means聚类，充分考虑了交通数据的时间性和空间性，有更好的鲁棒性。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法的实施例流程图。

图2是LBDTW试验样本序列与其最相似和最不相似样本差异图。

图3是在PEMS数据集上，NMF和DKNMF方法，不同缺失率对应的MAE值的对比图。

图4是在PEMS数据集上，NMF和DKNMF方法，不同缺失率对应的RMSE值的对比图。

图5是在PEMS数据集上，NMF和DKNMF方法，不同缺失率对应的MAPE值的对比图。

图6是在某省数据集上，NMF和DKNMF方法，不同缺失率对应的MAE值的对比图。

图7是在某省数据集上，NMF和DKNMF方法，不同缺失率对应的RMSE值的对比图。

图8是在某省数据集上，NMF和DKNMF方法，不同缺失率对应的MAPE值的对比图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

如图1所示，为了提高含有缺失值的交通流时间序列的利用率，发明主要通过数据预处理、距离测量、聚类和缺失值填充四个方面对交通数据进行填补，具体步骤如下：

第一步：根据时间序列的特点，采用LBDTW算法对时间序列的距离计算，LBDTW可以对不同长度的时间序列进行对比，两个时间序列对比有缺失值就跳过；

例如：计算交通数据某两天的相似性，

若

则跳过

计算

与x_j的距离值；满足

时，找到两个序列的弯曲路径W＝[W₁，W₂，...，W₃₀；得到30天的弯曲路径距离矩阵W_i＝[w₁，w₂，...，w₃₀]。

第二步：通过K-means聚类算法分类弯曲路径距离矩阵，提取聚类数值较小的一个簇，得到相似时间序列形成相似日序列矩阵。例如：

第三步：根据相似日序列矩阵，用非负矩阵分解对缺失值填充。

设定相似日矩阵的掩码矩阵为M，M∈R^N×T，因此相似日矩阵中的观测值可表示为，M×A，目标函数定义为：

其中λ(||q_t||²+||p_d||²)为了防止过拟合的正则化项。||×||_F表示费罗贝尼乌斯范数(Frobeniusnorm)。在缺失值补全过程中，由于掩码矩阵M的作用，只有已有值被用来训练模型。

第四步：对未填补的数据所在天时间序列进行以上三步操作，完成数据填补。

在基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法LBDTW中：

定义1(缺失数据集)定义缺失数据集X＝(x₁,x₂,…,x_T)∈R^D×T其中t∈(1,2,…,T)为时间戳,x_t∈R^D×T表示各变量的第t个观察值。

表示第x_t的第d个变量值，

为“NAN”表示t属性中第d个属性值缺失。若

否则

定义2(相似时间序列)给定缺失数据集X＝(x₁,x₂,…,x_T)∈R^D×T中，对任意一组时间序列x_t，找到与x_t最相似的L组时间序列组成矩阵A_L×D:

序列

为相似序列，当

的第二范数值最小时，两个序列最相似，当

第L小时，即为x_j是x_i第L相似时间序列。

定义3(掩码矩阵)设定一个矩阵M，掩码矩阵与原始矩阵相对应，其值是由原始矩阵对应位置的元素值决定。在掩码矩阵中，原始矩阵元素是否缺失用

来判断，若未观察到值，

值为0，否则为1。

表达如下所示：

DTW动态时间规整算法

DTW算法优化了特征参数错位所产的影响，基本原理是寻找两个时间序列之间的最优弯曲路径，序列中的数据点根据坐标值去匹配另一条序列中最具有相同特点的点，数据点的距离和即为最优弯曲距离的累加和^[21]。

假设计算交通数据某两天的相似性，

根据两条时间序列的坐标构成一个L×D的距离矩阵A_L×D：

在距离矩阵中，元素a_ij是通过

和

坐标距离计算得到的，其计算过程为：

当ω＝2时为2-范数，即欧氏距离，

计算两个序列之间的DTW距离D(i，j)的公式如下：

在A_L×T中一组相邻矩阵元素称为弯曲路径，用W＝{w₁，w₂，...w_k}，k∈{max(L，T)，L+T-1)}，w_t＝(a_ij)_t。

DTW弯曲路径需要满足以下两个约束：

(1)边界条件：w₁＝a₁₁，w＝a_LT，必须从a₁₁开始，以a_LD结束。

(2)连续性和单调性：如果w_t-1＝a_i′j′，w_t＝a_ij，其中0≤i-i′≤1，0≤j-j′≤1，并保证两条轨迹的每个坐标都出现在W中，轨迹之间的点对应且不相交，每个点都是单调的。而两条时间序列的DTW距离是通过A_L×D寻找一条距离最小的弯曲路径计算如下

其中，设wt为两个数列中对应的点

和

之间的距离，k是较长数列的长度。

Lower Bounding DTW算法

由于搜索数据量较大时DTW算法每一条匹配都很耗时，所以本文使用已经处理掉大部分不可能是最优匹配序列的Lower Bounding DTW(LBDTW)算法。LBDTW的思想是首先划分搜索轨迹

在连续不重叠的线段中，尽可能的直。再旋转每一个片段，使其平行于X轴，即可定义x_i的{U，L}包络曲线，x_i序列的上下界定义如下：

s.t：δ-r≤t≤δ+r

其中r是自定义的一段滑行窗口距离。U为上包路线，L为下包路线。LBDTW的定义如下：

为了找到最优路径，本文增加了一个惩罚项，衰减系数为：

其中seqLen表示途中最优路径节点个数，comLen表示每段对角线直线的长度。衰减系数越小，两个时序列相似度越高。根据衰减系数计算出最优弯曲路径W_t＝min{σLBDTW(x_i，x_j)}。

K-means算法

K-means聚类算法在数据分类中被广泛应用。K-means将数据分为k个簇，首先定义k个点，每个点代表一个聚类，聚类的中心称为质心。K-means算法随机选择质心，获取每个数据，并计算其与质心的距离，K-means的公式如下：

其中C＝{C₁，C₂，...，C_k},其中簇C_i的数据平均值为c_i，即为簇类质心，k为簇的个数，x是簇C_i中的数据对象。K-means的目的是求得簇间数据相似性小，簇内数据相似性大，从而更好的获得聚类结果。

在非决定性集群成员的情况下，K-means继续重复以下步骤：

(1)将每个模式分配到其他其最近的聚类并生成新的分区；

(2)计算新的聚类均值K。

均值要求的另一个重要参数就是距离度量。通常K-means与欧几里距离度量一起使用，欧几里距离度量计算对象坐标之间的平方差的平方根。欧几里的距离计算公式如下：

非负矩阵分解算法

由于交通路段中的交通流量数据有很强的时间性和空间性，因此将时间序列向量拓展为矩阵。矩阵分解算法在推荐系统中得到广泛的应用。矩阵元素是非负的，但是也不能保证分解出来的小矩阵为非负，交通流量数据的值不能为负。

非负矩阵分解的核心思想是将矩阵A∈A_L×D分解成特征矩阵P∈A_L×n和Q∈A_D×n，且满足

R≈P×Q^T

s.t.P≥0

Q≥0(9)

在交通流数据中每天属性d的特征向量为p_d表示，时间间隔t的特征向量为q_t表示，那么使用非负矩阵分解算法计算得出第d天t时刻的交通流量数据可表示为

为了找到最优p_d和q_t，需要一个损失函数来规定非负矩阵分解的好坏，损失函数表示如下：

其中R是已有数据记录集合，

是真实值，正则化λ(||q_t||²+||p_d||²是防止过拟合，正则化系数为λ。损失函数是为了得到每个元素的与真实值误差最小。

NMF不能直接应用于含有缺失值的矩阵，所以本文用掩码矩阵结合NMF来分解含有缺失值矩阵中的未缺失的数据，设定一个掩码矩阵M_L×D与含缺失值的矩阵A_L×D同等大小，目标函数定义为：

实验分析

数据集

为了有效评估本文提出的方法的有效性，通过两个数据集进行实验，分别是用于交通流预测常用的数据集PEMS和云南省交通流量数据。

交通流预测应用最多的性能评估数据集是PEMS数据集，数据来源于加州高速路网PEMS交通流数据集，数据集是环路检测器统计的交通流量数据。交通数据5秒收集一次，我们选择其中一个环路检测器的交通流量时间序列，选取75％的交通数据作为训练集，其余的数据作为测试集。本文选取2014年1月1日到2014年1月31日的数据，样本点总数为288×31＝8928.测试了DKNMF数据填充的精度。

本文使用的交通数据流由于传输过程不稳定或者是机器故障导致数据缺失，实验采用中国某省交通2018年8月1日至2018年8月26日的环路检测器采集的26天交通流数据。聚合周期为5分钟，每天共采集288个样本点。样本点总数为288×26＝7488。如果有车辆经过则车流量数增加1，若没有车辆经过则流量数为0，缺失值记为NAN。在本文中训练数据和测试数据比例为3.0。

数据预处理

为了防止数据中出现取值范围差异大影响数据特征的现象，因此，本文先将数据归一化处理，将数值转化为[0,1]区间的值。公式如下：

其中max，min分别是数据中的最大值和最小值。

评估标准

本发明使用平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和均方误差(RMSE)评估标准来度量交通流量数据填充值的精度。

其中n表示测试集的个数，f_i表示时间序列的真实值f_i表示预测值。

实验结果

本发明实验使用一月的30天数据，首先对数据进行归一化，通过LBDTW计算得到距离矩阵，然后用K-means算法对距离矩阵聚类，在本文K-means聚类的聚类数目为k＝6。根据LBDTW试验样本序列与其最相似和最不相似样本如图2所示，最相似样本和最不相似样本的变化规律差异较大。根据K-means分类找出最小距离矩阵分类的距离所在天，相似时间序列矩阵使用矩阵分解将相似序列中缺失值填补。

本发明方法评估了PEMS和某省交通的数据集，表1列出了当缺失率为10％时数据填充方法的评估结果。NMF是矩阵填充，DKMC是本模型。

表1 当缺失率为10％时数据填充方法的评估结果

表2 当缺失率为20％时数据填充方法的评估结果

表3 当缺失率为30％时数据填充方法的评估结果

表4 当缺失率为40％时数据填充方法的评估结果

表5 当缺失率为50％时数据填充方法的评估结果

表6 当缺失率为60％时数据填充方法的评估结果

根据表1-6中分别显示了DKNMF与NMF、SVD、IterativeImputer、KNN算法在不同的数据集和不同的缺失率下的实验结果。从这些结果中我们可以得出：

(1)SVD、IterativeImputer、KNN的填补效果比其他两个方法要差，因为这三种方法没有考虑到时间相关性。此外，我们发现在某省数据数据集下的SVD、IterativeImputer、KNN算法与NMF和DKNMF算法的差距较小。其中SVD算法要优于IterativeImputer、KNN两种算法。

(2)NMF和DKNMF填补效果比SVD、IterativeImputer、KNN好得多，当缺失值为为50％时，DKNMF在PEMS数据集上填补值的准确率比NMF的方法要提高28％，当缺失值为为40％时，DKNMF在PEMS数据集上填补值的准确率比NMF的方法要提高4％,；当缺失值为10％和30％时，DKNMF在某省数据集上填补值的准确率比NMF的方法要提高25％，当缺失率为50时，DKNMF在某省数据集上的填补效果与NMF的效果差异不大，高于NMF方法的9％。根据表中的数据显示，在缺失率低于30％时，DKNMF算法在PEMS和某省数据集上的填补效果都比NMF方法填充效果分别提高23％和25％。当缺失率较高时，DKNMF的填补效果更好。

(3)无论是在PEMS数据集上还是某省数据集上，提出的DKNMF算法的填补效果要更优于NMF算法。这就说明数据的时间相关性对数据缺失值填补非常重要。

为了验证该方法的有效性，本文使用了PEMS公开数据及和中国某省交通流量数据集。为了更好的验证实验结果，我们使用MSE，RMSE和MAPE三个指标来衡量实验误差。我们从表1-6中可以发现，DKNMF方法的误差比现有的方法的误差明显要小，从而充分的验证了该方法的有效性。

不同的缺失率数据填补的准确性效果不一样。缺失率为10％、20％、30％、40％、50％和60％的NMF和DKNMF方法对比图如图3—8所示。

根据图3—8显示，在PEMS数据集上，根据MAE值显示，随着缺失率的提高，填补算法的鲁棒性在降低；在缺失率为40％时，DKNMF的填补效果跟NMF的填补效果接近，根据RSME的值显示；在缺失率低于50％时，DKNMF算法的鲁棒性较好；在缺失率为60％时，DKNMF的鲁棒性略高于NMF方法；

根据MAPE的值，在缺失率低于50％时，DKNMF误差小于NMF方法；当缺失率为60％时，DKNMF的误差大于NMF；在某省数据集上，根据MAE值显示，随着缺失率的提高，填补算法的鲁棒性在降低，在缺失率为20％时，DKNMF的填补效果跟NMF的填补效果提高的最明显；根据RSME的值显示，在缺失率低于30％时，DKNMF算法的鲁棒性较好，在缺失率为50％时，DKNMF的鲁棒性略高于NMF方法；根据MAPE的值，在缺失率低于50％时，DKNMF填补效果略高于NMF方法，当缺失率为30％时，DKNMF填补效果与NMF相比提高程度更明显。

综上所述，在真实的某省交通流数据和某省数据集上实验表明，基于时间序列聚类的NMF的交通数据缺失值填补算法与NMF相比提高了数据填补的准确性，本发明提出的方法最终填补值更加接近真实数据。本发明结合DTW和K-means聚类，充分考虑了交通数据的时间性和空间性，有更好的鲁棒性。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。