CN112651455B - 一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法 - Google Patents

一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法 Download PDF

Info

Publication number
CN112651455B
CN112651455B CN202011617854.6A CN202011617854A CN112651455B CN 112651455 B CN112651455 B CN 112651455B CN 202011617854 A CN202011617854 A CN 202011617854A CN 112651455 B CN112651455 B CN 112651455B
Authority
CN
China
Prior art keywords
matrix
data
value
distance
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011617854.6A
Other languages
English (en)
Other versions
CN112651455A (zh
Inventor
陈茂玉
朱锐
李彤
王基书
王润方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN202011617854.6A priority Critical patent/CN112651455B/zh
Publication of CN112651455A publication Critical patent/CN112651455A/zh
Application granted granted Critical
Publication of CN112651455B publication Critical patent/CN112651455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法,其特征在于,包括以下步骤:步骤一:根据时间序列的特点,采用LBDTW算法计算时间序列的最优弯曲路径的距离值,得到最优弯曲路径的距离矩阵;步骤二:通过K‑means聚类算法分类最优弯曲路径的距离矩阵,提取聚类数值最小的一个簇,得到相似日时间序列矩阵;步骤三:根据相似日时间序列矩阵,用非负矩阵分解对缺失值填充;步骤四:对未填补的数据所在日时间序列进行以上三步操作,完成数据填补。本发明基于改进的LBDTW算法,结合K‑means聚类,充分的考虑了交通数据的时间性和空间性,用非负矩阵分解对缺失值填充,实现交通数据缺失值的精准填补。

Description

一种基于非负矩阵分解与动态时间规整算法的交通流缺失值 填充方法
技术领域
本发明涉及数据缺失领域,尤其是一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法。
背景技术
智慧交通系统是缓解交通拥堵、提高交通运输效率的有效途径。数据是智慧交通系统中最重要的因素之一,通过收集和分析大量的交通数据,可以更好地进行管理和预测。例如:可以快速发现交通异常,方便交通管理,也可以在交通数据中发现内在规律和知识,从而提高交通管理的运行效率。因此,交通数据在智慧交通系统建设中发挥基础性作用。在交通数据不完整的情况下,仅仅准确表达交通信息是不够的。更重要的是,数据信息的不完整阻碍了很多经典的挖掘算法的应用。
数据缺失的问题严重阻碍了交通流数据的采集和后续分析、估计和预测。据报道,在PEMS流量数据库的数百个监测点中,有超过5%的数据丢失;德克萨斯州圣安东尼奥市发现有近四分之一的数据流失;澳大利亚墨尔本的大型密集路网中,有8%的检测器其数据缺失率达到了56%;在中国的首都北京,因为智能交通系统仍在发展中,每天的交通流量数据的缺失率通常在10%左右。缺失的交通数据可能会降低甚至危及建立在这些数据上的有效研究。交通数据的缺失对交通预测和建模的影响可以分为以下两类:
(1)某些时间段或某些位置的信息,或对研究目标可能有重要意义的时空信息丢失。例如,如果在高峰时段拥堵地区的交通量和速度缺失,车辆的总排放量将被低估;
(2)丢失了一些统计信息。由于缺失值,样本量变小,可能导致过拟合问题。
因此,在预测未来交通流状态、趋势和模式时,估计交通数据的不完全观测值是至关重要的。
为了解决缺失数据的问题,近十年来人们提出了许多估算方法,现有的估算方法主要是分为基于插值的归算方法、基于预测的归算方法和基于统计学习的归算方法。近年来,机器学习技术尤其是神经网络模型,在数据分析中得到了大量的科研关注,并被用来估算交通数据的缺失值,这些方法可以实现相当精确的插补,并且他们可以表示为基于向量或者基于矩阵的方法,因为输入方式是灵活的。然而,大多数都是基于监督学习的需要大量的数据来训练模型,并且在没有大量的历史数据的情况下也很难工作。
交通数据经常出现数据缺失的问题,是由于传感器故障和通信故障导致数据缺失。近期对于缺失数据填补的研究主要集中在用数据驱动或者模型驱动的模型来填补缺失值,而在大多数情况下,现有的缺失值填补方法没有充分利用时空相关性。非负矩阵分解(NMF)在许多应用中取得良好的性能,为了估计缺失值,当前的NMF的方法更强调数据的通用性而忽略了由于采样日期导致的细微但很重要的差异,没有充分考虑时间序列特征和数据空间特征,不能直接应用于缺少数据的矩阵。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种基于时间序列聚类的交通数据缺失值填补算法(DKNMF);首先利用动态时间规整(DTW)的改进算法得到时间序列之间的距离矩阵,然后对距离矩阵通过K-means聚类算法进行聚类,搜索选择基于距离矩阵的最相似样本,充分利用交通数据的时间性和空间性,最后将NMF应用于相关性更强的样本,以获得缺失值的精确估计。
本发明采用的技术方案如下:
本发明一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法,包括以下步骤:
步骤一:根据时间序列的特点,采用LBDTW算法计算时间序列的最优弯曲路径的距离值,得到最优弯曲路径的距离矩阵;
步骤二:通过K-means聚类算法分类最优弯曲路径的距离矩阵,提取聚类数值最小的一个簇,得到相似日时间序列矩阵;
步骤三:根据相似日时间序列矩阵,用非负矩阵分解对缺失值填充;
步骤四:对未填补的数据所在日时间序列进行以上三步操作,完成数据填补。
作为优选,所述步骤一中,在LBDTW算法计算前,对数据进行归一化处理,将数值转化为[0,1]区间的值。
作为优选,所述步骤一中,LBDTW对于不同长度的时间序列进行对比,若两个时间序列对比有缺失值就跳过。
作为优选,所述步骤一包括:根据时间序列,计算
Figure BDA0002871711170000021
其中,
Figure BDA0002871711170000022
xi序列的上界
Figure BDA0002871711170000023
xi序列的下界
Figure BDA0002871711170000024
s.t:δ-r≤t≤δ+r,r是自定义的一段滑行窗口距离,xi的{U,L}包络曲线中,U为上包络线,L为下包络线;根据衰减系数s计算出最优弯曲路径的距离Wt=min{σLBDTW(xi,xj)},其中,
Figure BDA0002871711170000031
seqLen表示途中最优路径节点个数comLen表示每段对角线直线的长度;基于最优弯曲路径的距离Wt得到最优弯曲路径的距离矩阵。
作为优选,所述K-means聚类算法:随机选择质心,获取每个数据,并计算其与质心的距离:
Figure BDA0002871711170000032
其中,C={C1,C2,...,Ck},簇Ci的数据平均值为ci,即为簇类质心,k为簇的个数,x是簇Ci中的数据对象;将每个数据分配到其最近的质心并生成新的簇;
计算新的簇的聚类均值,不断迭代,直至聚类均值不变,输出簇划分。
作为优选,所述步骤二具体包括:将最优弯曲路径的距离矩阵中选出质心,并计算与质心的距离,不断迭代,从输出结果中提取聚类数值最小的一个簇,即为相似日时间序列矩阵。
作为优选,在聚类均值计算中,采用欧几里距离进行距离度量,欧几里的距离计算公式如下:
Figure BDA0002871711170000033
其中Xi、Yi为时间序列。
作为优选,所述步骤三:设定相似日矩阵的掩码矩阵为M,M∈RN×T,R是已有数据记录集合,相似日矩阵中的观测值表示为M×A,目标函数为:
Figure BDA0002871711170000034
其中λ(||qt||2+||pd||2)是为了防止过拟合的正则化项,正则化系数为λ,pd表示每天属性d的特征向量,qt表示时间间隔t的特征向量;||×||F表示费罗贝尼乌斯范数;根据目标函数获得缺失数据的特征向量,进行缺失数据填充。
作为优选,在掩码矩阵中,原始矩阵元素是否缺失用
Figure BDA0002871711170000035
来判断,若未观察到值,
Figure BDA0002871711170000036
值为0,否则为1;
Figure BDA0002871711170000037
表达如下所示:
Figure BDA0002871711170000038
掩码矩阵中的1是未缺失的值,使用未缺失的值分解得到分解矩阵。只计算未缺失的损失值最小时,就是非负矩阵最优分解矩阵。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明对现有DTW进行改进,改进的LBDTW算法,可以用来计算含缺失数据的时间序列,得到交通数据的时间性和空间性。
2、本发明通过DTW的改进算法与K-means算法的结合,找到关系最近的时间序列评估缺失值,获得缺失值的精确估计。
3、本发明针对现有NMF填补方法的不足,提出了DKNMF算法,充分的考虑了交通数据的时间性和空间性,获得缺失值的精确估计。
4、本发明通过LBDTW算法结合K-means将大型矩阵划分成几个低秩矩阵,在用NMF算法将缺失值填充,由于降秩减少了时间复杂度。
5、本发明解决了对于交通数据样本基于NMF填补不能简单的当作一个整体来处理的问题,提出了时间序列聚类的思想,结合LBDTW和K-means聚类,充分考虑了交通数据的时间性和空间性,有更好的鲁棒性。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法的实施例流程图。
图2是LBDTW试验样本序列与其最相似和最不相似样本差异图。
图3是在PEMS数据集上,NMF和DKNMF方法,不同缺失率对应的MAE值的对比图。
图4是在PEMS数据集上,NMF和DKNMF方法,不同缺失率对应的RMSE值的对比图。
图5是在PEMS数据集上,NMF和DKNMF方法,不同缺失率对应的MAPE值的对比图。
图6是在某省数据集上,NMF和DKNMF方法,不同缺失率对应的MAE值的对比图。
图7是在某省数据集上,NMF和DKNMF方法,不同缺失率对应的RMSE值的对比图。
图8是在某省数据集上,NMF和DKNMF方法,不同缺失率对应的MAPE值的对比图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
如图1所示,为了提高含有缺失值的交通流时间序列的利用率,发明主要通过数据预处理、距离测量、聚类和缺失值填充四个方面对交通数据进行填补,具体步骤如下:
第一步:根据时间序列的特点,采用LBDTW算法对时间序列的距离计算,LBDTW可以对不同长度的时间序列进行对比,两个时间序列对比有缺失值就跳过;
例如:计算交通数据某两天的相似性,
Figure BDA0002871711170000041
Figure BDA0002871711170000042
则跳过
Figure BDA0002871711170000051
计算
Figure BDA0002871711170000052
与xj的距离值;满足
Figure BDA0002871711170000053
时,找到两个序列的弯曲路径W=[W1,W2,...,W30;得到30天的弯曲路径距离矩阵Wi=[w1,w2,...,w30]。
第二步:通过K-means聚类算法分类弯曲路径距离矩阵,提取聚类数值较小的一个簇,得到相似时间序列形成相似日序列矩阵。例如:
Figure BDA0002871711170000054
第三步:根据相似日序列矩阵,用非负矩阵分解对缺失值填充。
设定相似日矩阵的掩码矩阵为M,M∈RN×T,因此相似日矩阵中的观测值可表示为,M×A,目标函数定义为:
Figure BDA0002871711170000055
其中λ(||qt||2+||pd||2)为了防止过拟合的正则化项。||×||F表示费罗贝尼乌斯范数(Frobeniusnorm)。在缺失值补全过程中,由于掩码矩阵M的作用,只有已有值被用来训练模型。
第四步:对未填补的数据所在天时间序列进行以上三步操作,完成数据填补。
在基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法LBDTW中:
定义1(缺失数据集)定义缺失数据集X=(x1,x2,…,xT)∈RD×T其中t∈(1,2,…,T)为时间戳,xt∈RD×T表示各变量的第t个观察值。
Figure BDA0002871711170000056
表示第xt的第d个变量值,
Figure BDA0002871711170000057
为“NAN”表示t属性中第d个属性值缺失。若
Figure BDA0002871711170000058
否则
Figure BDA0002871711170000059
定义2(相似时间序列)给定缺失数据集X=(x1,x2,…,xT)∈RD×T中,对任意一组时间序列xt,找到与xt最相似的L组时间序列组成矩阵AL×D:
Figure BDA00028717111700000510
序列
Figure BDA00028717111700000511
为相似序列,当
Figure BDA00028717111700000512
的第二范数值最小时,两个序列最相似,当
Figure BDA00028717111700000513
第L小时,即为xj是xi第L相似时间序列。
定义3(掩码矩阵)设定一个矩阵M,掩码矩阵与原始矩阵相对应,其值是由原始矩阵对应位置的元素值决定。在掩码矩阵中,原始矩阵元素是否缺失用
Figure BDA0002871711170000061
来判断,若未观察到值,
Figure BDA0002871711170000062
值为0,否则为1。
Figure BDA0002871711170000063
表达如下所示:
Figure BDA0002871711170000064
DTW动态时间规整算法
DTW算法优化了特征参数错位所产的影响,基本原理是寻找两个时间序列之间的最优弯曲路径,序列中的数据点根据坐标值去匹配另一条序列中最具有相同特点的点,数据点的距离和即为最优弯曲距离的累加和[21]
假设计算交通数据某两天的相似性,
Figure BDA0002871711170000065
根据两条时间序列的坐标构成一个L×D的距离矩阵AL×D
Figure BDA0002871711170000066
在距离矩阵中,元素aij是通过
Figure BDA0002871711170000067
Figure BDA0002871711170000068
坐标距离计算得到的,其计算过程为:
Figure BDA0002871711170000069
当ω=2时为2-范数,即欧氏距离,
Figure BDA00028717111700000610
计算两个序列之间的DTW距离D(i,j)的公式如下:
Figure BDA00028717111700000611
在AL×T中一组相邻矩阵元素称为弯曲路径,用W={w1,w2,...wk},k∈{max(L,T),L+T-1)},wt=(aij)t
DTW弯曲路径需要满足以下两个约束:
(1)边界条件:w1=a11,w=aLT,必须从a11开始,以aLD结束。
(2)连续性和单调性:如果wt-1=ai′j′,wt=aij,其中0≤i-i′≤1,0≤j-j′≤1,并保证两条轨迹的每个坐标都出现在W中,轨迹之间的点对应且不相交,每个点都是单调的。而两条时间序列的DTW距离是通过AL×D寻找一条距离最小的弯曲路径计算如下
Figure BDA00028717111700000612
Figure BDA00028717111700000613
其中,设wt为两个数列中对应的点
Figure BDA00028717111700000614
Figure BDA00028717111700000615
之间的距离,k是较长数列的长度。
Lower Bounding DTW算法
由于搜索数据量较大时DTW算法每一条匹配都很耗时,所以本文使用已经处理掉大部分不可能是最优匹配序列的Lower Bounding DTW(LBDTW)算法。LBDTW的思想是首先划分搜索轨迹
Figure BDA0002871711170000071
在连续不重叠的线段中,尽可能的直。再旋转每一个片段,使其平行于X轴,即可定义xi的{U,L}包络曲线,xi序列的上下界定义如下:
Figure BDA0002871711170000072
Figure BDA0002871711170000073
s.t:δ-r≤t≤δ+r
其中r是自定义的一段滑行窗口距离。U为上包路线,L为下包路线。LBDTW的定义如下:
Figure BDA0002871711170000074
为了找到最优路径,本文增加了一个惩罚项,衰减系数为:
Figure BDA0002871711170000075
其中seqLen表示途中最优路径节点个数,comLen表示每段对角线直线的长度。衰减系数越小,两个时序列相似度越高。根据衰减系数计算出最优弯曲路径Wt=min{σLBDTW(xi,xj)}。
K-means算法
K-means聚类算法在数据分类中被广泛应用。K-means将数据分为k个簇,首先定义k个点,每个点代表一个聚类,聚类的中心称为质心。K-means算法随机选择质心,获取每个数据,并计算其与质心的距离,K-means的公式如下:
Figure BDA0002871711170000076
其中C={C1,C2,...,Ck},其中簇Ci的数据平均值为ci,即为簇类质心,k为簇的个数,x是簇Ci中的数据对象。K-means的目的是求得簇间数据相似性小,簇内数据相似性大,从而更好的获得聚类结果。
在非决定性集群成员的情况下,K-means继续重复以下步骤:
(1)将每个模式分配到其他其最近的聚类并生成新的分区;
(2)计算新的聚类均值K。
均值要求的另一个重要参数就是距离度量。通常K-means与欧几里距离度量一起使用,欧几里距离度量计算对象坐标之间的平方差的平方根。欧几里的距离计算公式如下:
Figure BDA0002871711170000081
非负矩阵分解算法
由于交通路段中的交通流量数据有很强的时间性和空间性,因此将时间序列向量拓展为矩阵。矩阵分解算法在推荐系统中得到广泛的应用。矩阵元素是非负的,但是也不能保证分解出来的小矩阵为非负,交通流量数据的值不能为负。
非负矩阵分解的核心思想是将矩阵A∈AL×D分解成特征矩阵P∈AL×n和Q∈AD×n,且满足
R≈P×QT
s.t.P≥0
Q≥0(9)
在交通流数据中每天属性d的特征向量为pd表示,时间间隔t的特征向量为qt表示,那么使用非负矩阵分解算法计算得出第d天t时刻的交通流量数据可表示为
Figure BDA0002871711170000082
为了找到最优pd和qt,需要一个损失函数来规定非负矩阵分解的好坏,损失函数表示如下:
Figure BDA0002871711170000083
其中R是已有数据记录集合,
Figure BDA0002871711170000084
是真实值,正则化λ(||qt||2+||pd||2是防止过拟合,正则化系数为λ。损失函数是为了得到每个元素的与真实值误差最小。
NMF不能直接应用于含有缺失值的矩阵,所以本文用掩码矩阵结合NMF来分解含有缺失值矩阵中的未缺失的数据,设定一个掩码矩阵ML×D与含缺失值的矩阵AL×D同等大小,目标函数定义为:
Figure BDA0002871711170000085
实验分析
数据集
为了有效评估本文提出的方法的有效性,通过两个数据集进行实验,分别是用于交通流预测常用的数据集PEMS和云南省交通流量数据。
交通流预测应用最多的性能评估数据集是PEMS数据集,数据来源于加州高速路网PEMS交通流数据集,数据集是环路检测器统计的交通流量数据。交通数据5秒收集一次,我们选择其中一个环路检测器的交通流量时间序列,选取75%的交通数据作为训练集,其余的数据作为测试集。本文选取2014年1月1日到2014年1月31日的数据,样本点总数为288×31=8928.测试了DKNMF数据填充的精度。
本文使用的交通数据流由于传输过程不稳定或者是机器故障导致数据缺失,实验采用中国某省交通2018年8月1日至2018年8月26日的环路检测器采集的26天交通流数据。聚合周期为5分钟,每天共采集288个样本点。样本点总数为288×26=7488。如果有车辆经过则车流量数增加1,若没有车辆经过则流量数为0,缺失值记为NAN。在本文中训练数据和测试数据比例为3.0。
数据预处理
为了防止数据中出现取值范围差异大影响数据特征的现象,因此,本文先将数据归一化处理,将数值转化为[0,1]区间的值。公式如下:
Figure BDA0002871711170000091
其中max,min分别是数据中的最大值和最小值。
评估标准
本发明使用平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和均方误差(RMSE)评估标准来度量交通流量数据填充值的精度。
Figure BDA0002871711170000092
Figure BDA0002871711170000093
Figure BDA0002871711170000094
其中n表示测试集的个数,fi表示时间序列的真实值fi表示预测值。
实验结果
本发明实验使用一月的30天数据,首先对数据进行归一化,通过LBDTW计算得到距离矩阵,然后用K-means算法对距离矩阵聚类,在本文K-means聚类的聚类数目为k=6。根据LBDTW试验样本序列与其最相似和最不相似样本如图2所示,最相似样本和最不相似样本的变化规律差异较大。根据K-means分类找出最小距离矩阵分类的距离所在天,相似时间序列矩阵使用矩阵分解将相似序列中缺失值填补。
本发明方法评估了PEMS和某省交通的数据集,表1列出了当缺失率为10%时数据填充方法的评估结果。NMF是矩阵填充,DKMC是本模型。
表1 当缺失率为10%时数据填充方法的评估结果
Figure BDA0002871711170000101
表2 当缺失率为20%时数据填充方法的评估结果
Figure BDA0002871711170000102
表3 当缺失率为30%时数据填充方法的评估结果
Figure BDA0002871711170000103
表4 当缺失率为40%时数据填充方法的评估结果
Figure BDA0002871711170000111
表5 当缺失率为50%时数据填充方法的评估结果
Figure BDA0002871711170000112
表6 当缺失率为60%时数据填充方法的评估结果
Figure BDA0002871711170000113
根据表1-6中分别显示了DKNMF与NMF、SVD、IterativeImputer、KNN算法在不同的数据集和不同的缺失率下的实验结果。从这些结果中我们可以得出:
(1)SVD、IterativeImputer、KNN的填补效果比其他两个方法要差,因为这三种方法没有考虑到时间相关性。此外,我们发现在某省数据数据集下的SVD、IterativeImputer、KNN算法与NMF和DKNMF算法的差距较小。其中SVD算法要优于IterativeImputer、KNN两种算法。
(2)NMF和DKNMF填补效果比SVD、IterativeImputer、KNN好得多,当缺失值为为50%时,DKNMF在PEMS数据集上填补值的准确率比NMF的方法要提高28%,当缺失值为为40%时,DKNMF在PEMS数据集上填补值的准确率比NMF的方法要提高4%,;当缺失值为10%和30%时,DKNMF在某省数据集上填补值的准确率比NMF的方法要提高25%,当缺失率为50时,DKNMF在某省数据集上的填补效果与NMF的效果差异不大,高于NMF方法的9%。根据表中的数据显示,在缺失率低于30%时,DKNMF算法在PEMS和某省数据集上的填补效果都比NMF方法填充效果分别提高23%和25%。当缺失率较高时,DKNMF的填补效果更好。
(3)无论是在PEMS数据集上还是某省数据集上,提出的DKNMF算法的填补效果要更优于NMF算法。这就说明数据的时间相关性对数据缺失值填补非常重要。
为了验证该方法的有效性,本文使用了PEMS公开数据及和中国某省交通流量数据集。为了更好的验证实验结果,我们使用MSE,RMSE和MAPE三个指标来衡量实验误差。我们从表1-6中可以发现,DKNMF方法的误差比现有的方法的误差明显要小,从而充分的验证了该方法的有效性。
不同的缺失率数据填补的准确性效果不一样。缺失率为10%、20%、30%、40%、50%和60%的NMF和DKNMF方法对比图如图3—8所示。
根据图3—8显示,在PEMS数据集上,根据MAE值显示,随着缺失率的提高,填补算法的鲁棒性在降低;在缺失率为40%时,DKNMF的填补效果跟NMF的填补效果接近,根据RSME的值显示;在缺失率低于50%时,DKNMF算法的鲁棒性较好;在缺失率为60%时,DKNMF的鲁棒性略高于NMF方法;
根据MAPE的值,在缺失率低于50%时,DKNMF误差小于NMF方法;当缺失率为60%时,DKNMF的误差大于NMF;在某省数据集上,根据MAE值显示,随着缺失率的提高,填补算法的鲁棒性在降低,在缺失率为20%时,DKNMF的填补效果跟NMF的填补效果提高的最明显;根据RSME的值显示,在缺失率低于30%时,DKNMF算法的鲁棒性较好,在缺失率为50%时,DKNMF的鲁棒性略高于NMF方法;根据MAPE的值,在缺失率低于50%时,DKNMF填补效果略高于NMF方法,当缺失率为30%时,DKNMF填补效果与NMF相比提高程度更明显。
综上所述,在真实的某省交通流数据和某省数据集上实验表明,基于时间序列聚类的NMF的交通数据缺失值填补算法与NMF相比提高了数据填补的准确性,本发明提出的方法最终填补值更加接近真实数据。本发明结合DTW和K-means聚类,充分考虑了交通数据的时间性和空间性,有更好的鲁棒性。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (6)

1.一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法,其特征在于,应用于交通数据填充中,包括以下步骤:采集未填补的交通数据;
步骤一:根据时间序列的特点,采用LBDTW算法计算时间序列的最优弯曲路径的距离值,得到最优弯曲路径的距离矩阵;
步骤二:通过K-means聚类算法分类最优弯曲路径的距离矩阵,提取聚类数值最小的一个簇,得到相似日时间序列矩阵;
步骤三:根据相似日时间序列矩阵,用非负矩阵分解对缺失值填充;
步骤四:对未填补的数据所在日时间序列进行以上三步操作,完成数据填补;
所述步骤一中,在LBDTW算法计算前,对数据进行归一化处理,将数值转化为[0,1]区间的值;所述步骤一中,LBDTW对于不同长度的时间序列进行对比,若两个时间序列对比有缺失值就跳过;所述步骤一包括:根据时间序列,计算
LBDTW
Figure 947081DEST_PATH_IMAGE001
其中,
Figure 394243DEST_PATH_IMAGE002
=(
Figure 849495DEST_PATH_IMAGE003
),
Figure 14897DEST_PATH_IMAGE002
序列的上界
Figure 597319DEST_PATH_IMAGE004
Figure 164567DEST_PATH_IMAGE005
序列的下界
Figure 790720DEST_PATH_IMAGE006
Figure 708998DEST_PATH_IMAGE007
Figure 344378DEST_PATH_IMAGE008
表示样本序列值位置,r是自定义的一段滑行窗口距离,
Figure 500553DEST_PATH_IMAGE009
表示样本序列与对比序列的路径和,
Figure 579499DEST_PATH_IMAGE005
在{U,L}包络曲线中,U 为上包路线,L为下包路线;根据衰减系数s计算出最优弯曲路径的距离
Figure 453914DEST_PATH_IMAGE010
=min{s*LBDTW
Figure 892985DEST_PATH_IMAGE011
},其中,衰减系数s=1-
Figure 903667DEST_PATH_IMAGE012
seqLen表示途中最优路径节点个数,comLen表 示每段对角线直线的长度;基于最优弯曲路径的距离
Figure 402781DEST_PATH_IMAGE010
得到最优弯曲路径的距离矩阵。
2.根据权利要求1所述的基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法,其特征在于,所述K-means聚类算法:随机选择质心,获取每个数据,并计算其与质心的距离:
Figure 764492DEST_PATH_IMAGE013
,其中,
C={
Figure 741676DEST_PATH_IMAGE014
},
Figure 872443DEST_PATH_IMAGE015
的数据平均值为
Figure 290261DEST_PATH_IMAGE016
,即为簇类质心,k为簇的个数,x是簇
Figure 139268DEST_PATH_IMAGE015
中的数据 对象;将每个数据分配到其最近的质心并生成新的簇;计算新的簇的聚类均值,不断迭代, 直至聚类均值不变,输出簇划分。
3.根据权利要求1或2所述的基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法,其特征在于,所述步骤二具体包括:在最优弯曲路径的距离矩阵中选出质心,并计算与质心的距离,不断迭代,从输出结果中提取聚类数值最小的一个簇,即为相似日时间序列矩阵。
4.根据权利要求2所述的基于非负矩阵分解与动态时间规整算法的交通流缺失值填充 方法,其特征在于,在聚类均值计算中,采用欧几里距离进行距离度量,欧几里的距离计算 公式如下:
Figure 654563DEST_PATH_IMAGE017
,其中
Figure 905416DEST_PATH_IMAGE018
Figure 480754DEST_PATH_IMAGE019
为时间序列。
5.根据权利要求1所述的基于非负矩阵分解与动态时间规整算法的交通流缺失值填充 方法,其特征在于,所述步骤三:设定相似日矩阵的掩码矩阵为
Figure 817057DEST_PATH_IMAGE020
R是已有数据 记录集合,相似日矩阵中的观测值表示为
Figure 136043DEST_PATH_IMAGE021
,目标函数为:
Figure 992135DEST_PATH_IMAGE022
其中,
Figure 738374DEST_PATH_IMAGE023
是为了防止过拟合的正则化项,正则化系数为
Figure 296394DEST_PATH_IMAGE024
Figure 684650DEST_PATH_IMAGE025
表示每天属 性d的特征向量,
Figure 644516DEST_PATH_IMAGE026
表示时间间隔t的特征向量;
Figure 561657DEST_PATH_IMAGE027
表示费罗贝尼乌斯范数;根据目标函数 获得缺失数据的特征向量,进行缺失数据填充。
6.根据权利要求5所述的基于非负矩阵分解与动态时间规整算法的交通流缺失值填充 方法,其特征在于,在掩码矩阵中,原始矩阵元素是否缺失用
Figure 872552DEST_PATH_IMAGE028
来判断,若未观察到值,
Figure 284073DEST_PATH_IMAGE028
值为0,否则为1;
Figure 364025DEST_PATH_IMAGE028
表达如下所示:
Figure 452066DEST_PATH_IMAGE029
CN202011617854.6A 2020-12-30 2020-12-30 一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法 Active CN112651455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011617854.6A CN112651455B (zh) 2020-12-30 2020-12-30 一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011617854.6A CN112651455B (zh) 2020-12-30 2020-12-30 一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法

Publications (2)

Publication Number Publication Date
CN112651455A CN112651455A (zh) 2021-04-13
CN112651455B true CN112651455B (zh) 2022-11-01

Family

ID=75364586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011617854.6A Active CN112651455B (zh) 2020-12-30 2020-12-30 一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法

Country Status (1)

Country Link
CN (1) CN112651455B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115206102B (zh) * 2022-07-15 2023-07-18 百度在线网络技术(北京)有限公司 确定交通路径的方法、装置、电子设备和介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492561B (zh) * 2018-04-04 2020-06-19 北京工业大学 一种基于矩阵分解的路网交通状态时空特征分析方法
JP7030072B2 (ja) * 2019-03-14 2022-03-04 株式会社日立製作所 時系列データ監視システム、および時系列データ監視方法
CN110188427B (zh) * 2019-05-19 2023-10-27 北京工业大学 一种基于非负低秩动态模式分解的交通数据填充方法
CN111401599B (zh) * 2019-08-01 2022-08-26 河海大学 一种基于相似性搜索和lstm神经网络的水位预测方法
CN111199016B (zh) * 2019-09-29 2023-11-07 国网湖南省电力有限公司 一种基于DTW的改进K-means的日负荷曲线聚类方法
CN111767941B (zh) * 2020-05-15 2022-11-18 上海大学 一种基于对称非负矩阵分解的改进谱聚类及并行化方法
CN111859275B (zh) * 2020-07-20 2022-08-12 厦门大学 一种基于非负矩阵分解的质谱数据缺失值填补方法及系统

Also Published As

Publication number Publication date
CN112651455A (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
CN111539454B (zh) 一种基于元学习的车辆轨迹聚类方法及系统
CN111785329B (zh) 基于对抗自动编码器的单细胞rna测序聚类方法
WO2015180101A1 (en) Compact face representation
CN111539444B (zh) 一种修正式模式识别及统计建模的高斯混合模型方法
CN108667684B (zh) 一种基于局部向量点积密度的数据流异常检测方法
CN112687349A (zh) 一种降低辛烷值损失模型的构建方法
CN115270965A (zh) 一种配电网线路故障预测方法和装置
CN112270355A (zh) 基于大数据技术与sae-gru的主动安全预测方法
CN111008726B (zh) 一种电力负荷预测中类图片转换方法
KR100252643B1 (ko) 시계열 신호예측장치
CN112330158B (zh) 基于自回归差分移动平均-卷积神经网络的识别交通指数时间序列的方法
CN112651455B (zh) 一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法
CN111882114A (zh) 一种短时交通流量预测模型构建方法及预测方法
CN114936694A (zh) 一种基于双集成模型的光伏功率预测方法
CN111275074A (zh) 基于栈式自编码网络模型的电力cps信息攻击辨识方法
CN114818850A (zh) 基于聚类压缩的网络流空间映射表征方法、装置和存储介质
CN112241475B (zh) 基于维度分析量化器哈希学习的数据检索方法
CN117036781A (zh) 一种基于树综合多样性深度森林的图像分类方法
CN114782761B (zh) 基于深度学习的智能仓储物料识别方法和系统
Hosahalli et al. A generic approach of filling missing values in NCDC weather stations data
CN115577295A (zh) 数据检测方法、装置、计算机设备和存储介质
CN113537240A (zh) 一种基于雷达序列图像的形变区智能提取方法及系统
CN113535527A (zh) 一种面向实时流数据预测性分析的降载方法及系统
CN113657533A (zh) 一种面向时空场景构建的多元时间序列分割聚类方法
CN111008656B (zh) 一种基于预测框误差多阶段回环处理的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant