CN109377760A

CN109377760A - 基于迭代张量算法的丢失交通数据检测和修复方法

Info

Publication number: CN109377760A
Application number: CN201811437755.2A
Authority: CN
Inventors: 陈鹏; 张涵; 刘向宏; 余贵珍
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-02-22

Abstract

本发明公开了一种利用迭代张量分解算法(Iterative tensor decomposition,ITD)检测和修复交通丢失数据的方法。方法包括：将包含丢失数据的交通数据构建为一个位置×日期×时间的三维张量；基于Tucker分解方法，利用截断奇异值分解(Truncated Singular Value Decomposition,TSVD)方法来确定核心矩阵的大小，并获得初始化的核心矩阵以及三个因子矩阵；以张量为输入，建立目标方程，以初始化的核心矩阵以及三个因子矩阵作为初始值，利用梯度下降(Gradient Descent)方法求解目标方程，更新核心矩阵以及三个因子矩阵，利用结合截断奇异值分解的张量分解(SVD‑combined Tensor Decomposition,STD)方法获得初次修复张量；最后，以初次修复张量作为输入，利用ITD算法来检测和修复交通数据中存在的丢失数据。

Description

基于迭代张量算法的丢失交通数据检测和修复方法

技术领域

本申请涉及智能交通领域，具体而言，涉及一种基于迭代张量算法的丢失交通数据检测和修复方法。

背景技术

由于不断增长的交通需求，交通拥堵成为世界性的难题，并且由于经济、环境等因素限制，不能通过简单的限行和扩建来解决。智能交通系统(intelligent transportationsystem,ITS)旨在通过优化提高既有交通系统的运行效率，成为一种更节约、高效地解决交通拥堵问题的选择。交通数据作为智能交通系统的关键输入，其质量直接影响智能交通系统的效率。目前交通数据有多种来源，如感应线圈检测器、GPS定位系统、高清摄像头和视频传感器等。

然而，目前绝大部分数据源受制于设备失效、通讯丢包等软硬件问题，存在严重的数据丢失问题。考虑到智能交通系统对其输入数据质量的敏感性，因此存在丢失数据问题的数据源难以直接应用于智能交通系统。如何利用交通数据存在的时空相关性，通过一定方法修复交通丢失数据问题成为目前智能交通领域技术研究的国际前沿科学问题。

张量分解方法由于其能充分利用多维数据间的相互关系，目前已经成功运用在其他领域的数据修复。2013年，北京理工大学的谭华春等人首次将张量分解方法应用于交通丢失数据修复，随后交通领域其他学者在此基础上做了很多拓展研究。总结目前的基于张量分解的交通数据修复方法，主要存在的问题为要求丢失数据发生的时间、地点已知，该假设与交通丢失数据发生的随机性矛盾，因此实际应用性不强。

针对上述问题，本申请提出一种基于迭代张量算法的丢失交通数据检测和修复方法。

发明内容

1.发明目的

本发明针对目前交通数据存在的数据丢失问题，以及目前基于张量分解方法要求预知数据丢失发生的局限，提供一种基于迭代张量算法的丢失交通数据检测和修复方法，该方法在极高的数据丢失率下依旧能够实现丢失数据的准确检测和修复。

2.本发明所采用的技术方案

本发明提出的基于迭代张量算法的丢失交通数据检测和修复方法可以通过以下步骤来实现：

(1)将包含丢失数据的交通数据按照地点、日期、时间三个维度构建为位置×日期×时间的三维张量χ；

(2)基于Tucker分解方法，将步骤(1)中的张量χ作为输入，利用TSVD方法获得初始化的核心矩阵和因子矩阵U^(T-SVD),W^(T-SVD),V^(T-SVD)；

(3)以步骤(2)中的初始化核心矩阵和因子矩阵 U^(T-SVD),W^(T-SVD),V^(T-SVD)为输入，利用STD算法获得初始恢复张量

(4)以步骤(3)中的初始恢复张量为输入，利用ITD方法获得数据恢复张量和检测结果张量

所述步骤(1)具体为：大范围交通数据通常由设备的位置、上传数据的日期和上传数据的时间构成，将这些信息整合构成一个交通数据的位置×日期×时间的三位张量χ，如其中n₁代表上传交通数据的设备的位置数，n₂代表交通数据采集的日期数，n₃代表一天中交通数据采集的时间片段数。由于交通数据存在丢失，因此张量χ中存在丢失数据，本方法目的是检测出丢失数据所发生的位置、日期和时间，并用估计值来代替丢失值，从而实现修复交通数据。

所述步骤(2)具体为：

Tucker分解方法是一种常用的张量分解模型，能够将给定的张量χ分解成一个核心矩阵和三个因子矩阵和

其中，×_n为模n乘积。由于核心矩阵的大小直接影响到张量分解的结果，因此使用T-SVD算法来确定核心矩阵的大小。首先，将三维矩阵展开为模n矩阵χ_(n),n＝1,2,3，分别对其进行奇异值分解后有如下公式：

其中，U,V和W为左奇异向量，为奇异值对角矩阵。

之后，核心矩阵的大小可以由如下方程决定：

其中，参数p为比率阈值，该参数直接决定了核心矩阵和因子矩阵的大小。在确定(r₁,r₂,r₃)后，初始化的核心矩阵和因子矩阵 U^(T-SVD),W^(T-SVD),V^(T-SVD)由如下公式获得：

所述步骤(3)具体为：

本方法使用的目标方程定义如下：

其中λ是正则化参数。等号右边的第一部分最小化平方差，第二部分是附加正则项，是默认的二进制张量，大小与χ相同且值全为1。

为了求解目标方程，采用梯度下降方法，分别对变量U,W,V求偏导，则有：

其中V×₃W)。之后用如下方程更新各变量：

其中α是梯度下降方法的学习率。

结合方程(5)-(7)，在步骤(2)得到初始化核心矩阵和因子矩阵 U^(T-SVD),W^(T-SVD),V^(T-SVD)后，STD方法的伪代码如下所示：

所述步骤(4)具体为：

首先计算包含丢失数据张量χ和初始恢复张量每个坐标所对应的值的相对百分误差(Mean Absolute Percentage Error,MAPE)，并根据计算结果得到一个空间Ω：

其中q是预设阈值。包含丢失数据张量χ中属于空间Ω的坐标被认为是丢失数据所在的坐标，反之则为正常数据。

同时，通过移除二进制张量中属于空间Ω的坐标对默认二进制张量进行更新：

之后，将更新后的二进制张量和包含丢失数据张量χ作为算法1的输入，得到新的恢复张量

对上述步骤进行迭代，直到相邻两步的丢失检测率(Missing-Detecting Rate,MDR)的误差小于阈值后停止迭代，丢失检测率的定义如下：

迭代张量算法的伪代码如下所示：

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为根据本公开具体实施方式所述的估计交叉口排队长度的方法的主要步骤图；

图2为根据本公开具体实施方式所述的卡口位置示意图；

图3为根据本公开具体实施方式所述的实施例的结果图。

图4为根据本公开具体实施方式所述方法的主要流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/ 或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

如图1所示，本发明步骤如下：

下面具体介绍每步骤的具体方法。

第(1)步：本案例选取济南市历下区的237个交通卡口作为数据集，数据集包括2017年12月1日至2017年12月31日共31天的交通流量数据，交通卡口的位置见附图2。对于每天的流量数据，提取6:00-22:00这个时间段的数据进行研究，并且按照每半小时进行划分，在此条件下，每个卡口每天会产生32个交通流量数据。将该数据集建立成包含丢失交通数据的张量χ，张量大小为(即237个不同位置的交通卡口、31天的交通流量数据、每天包含 32个交通流量数据)。

第(2)步：设置T-SVD的比率阈值p为0.7，将步骤(1)中的张量χ作为T-SVD 算法的输入，获得核心矩阵和因子矩阵

第(3)步：设定相关参数：最大迭代次数k_max＝10³，误差阈值ε＝10^-3，梯度下降法学习率α＝2e^-11，正则化参数λ＝1e^-1。构建默认二进制张量以默认二进制张量和包含丢失数据张量χ为输入，以和因子矩阵为初始值，利用STD算法获得初始恢复张量

第(4)步：设定MAPE的阈值q＝50％，误差检测率阈值β＝1e^-4。将包含丢失数据张量χ和初次恢复张量作为ITD算法输入，获得最终恢复张量和二进制张量其中丢失数据恢复结果储存在恢复张量中，丢失数据检测结果储存在二进制张量中。

图3是丢失数据恢复和检测结果示意图，实线是原始数据，虚线是恢复后数据，图底部是检测线，当线段较深时，对应时段的交通数据被检测为丢失数据，当线段较浅时，对应时段的交通数据被检测为正常数据。

本实施例中通过利用迭代张量分解方法，达到了检测和修复交通数据中丢失数据的目的，从而实现了大范围应用和准确性高的技术效果，进而解决了交通数据存在丢失数据而无法作为智能交通系统稳定数据输入源的问题。

Claims

1.一种检测和修复交通丢失数据的方法，其特征在于，包括：

方法包括：将包含丢失数据的交通数据构建为一个位置×日期×时间的三维张量；

基于Tucker分解方法，利用截断奇异值分解(Truncated Singular ValueDecomposition,TSVD)来确定核心矩阵的大小，并获得初始化的核心矩阵以及三个因子矩阵；

以张量为输入，建立目标方程，以初始化的核心矩阵以及三个因子矩阵作为初始值，利用梯度下降(Gradient Descent)方法求解目标方程，更新核心矩阵以及三个因子矩阵，利用结合截断奇异值分解的张量分解(SVD-combined Tensor Decomposition,STD)方法获得初次修复张量；以及

以初次修复张量作为输入，利用ITD算法来检测和修复交通数据中存在的丢失数据。

2.根据权利要求1所述的方法，其特征在于，利用交通数据，建立包含丢失数据的张量的操作包括：

在选取的数据集中，根据数据采集点位置数、数据采集的天数以及每天数据采集的时间片数，建立包含丢失数据的张量。

3.根据权利要求2所述的方法，其特征在于，所述方法利用截断奇异值分解方法确定核心矩阵大小，其中所述截断奇异值方法还包括：

利用Tucker分解将张量分解为核心张量和三个因子矩阵；

利用截断奇异值分解方法确定核心矩阵和三个因子矩阵的大小。

4.根据权利要求3所述的方法，其特征在于，所述方法构建目标方程，以包含丢失数据张量、核心矩阵和三个因子矩阵为参数的方程为：

其中λ是正则化参数。等号右边的第一部分最小化平方差，第二部分是附加正则项，是默认的二进制张量，大小与相同且值全为1。

5.根据权利要求4所述的方法，其特征在于，所述方法利用梯度下降法，求解目标方程的方法还包括：

为了求解目标方程，采用梯度下降方法，分别对变量U,W,V求偏导，之后用如下方程更新各变量：

其中α是梯度下降方法的学习率。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：利用结合截断奇异值分解的张量分解方法获得初次恢复张量。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

以初次修复张量作为输入，计算相对百分误差，并获得空间Ω，具体计算方法为：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括计算迭代丢失算法相邻两步间丢失检测率。

9.根据权利要求8所述的方法，其特征在于，所述方法以初次修复张量作为输入，利用ITD算法来检测和修复交通数据中存在的丢失数据。