CN110781266B

CN110781266B - 一种基于时空因果关系的城市感知数据处理方法

Info

Publication number: CN110781266B
Application number: CN201911031114.1A
Authority: CN
Inventors: 邓攀
Original assignee: Beihang University
Current assignee: Beijing Kunpeng Big Data Service Co.,Ltd.
Priority date: 2019-09-16
Filing date: 2019-10-28
Publication date: 2020-06-09
Anticipated expiration: 2039-10-28
Also published as: CN110781266A

Abstract

本发明提供了一种基于时空因果关系的城市传感数据处理方法，用于修复车辆时空轨迹行为数据。本发明通过跳转图模型学习轨迹采集设备的空间相关性，并输出设备分布式向量表示用于后续处理；将噪声数据检测问题作为一个序列标记问题，通过双向LSTM的序列标注模型，检测错误数据和潜在缺失数据，对车辆轨迹点进行标注，利用基于双向LSTM的序列预测器来预测缺失的轨迹点；最后结合预测的缺失数据来修正错误的轨迹点。本发明方法实现自动检测含噪数据，并从时空因果关系的角度对缺失数据进行修复，以避免生成不合理的车辆轨迹，提高了错误轨迹数据修复的正确率。

Description

一种基于时空因果关系的城市感知数据处理方法

技术领域

本发明属于车辆时空轨迹行为数据处理技术领域，具体涉及一种基于时空因果关系的城市感知数据的噪声处理方法。

背景技术

城市感知是城市计算的基础，通过在不同的地理空间位置部署不同类型的传感器，实现对城市区域的自然环境和人文环境进行连续、协同的监测。随着传感技术的兴起，地理空间传感器收集了各种类型的时空数据，例如由感应环路检测器和远程交通微波传感器收集的交通流量数据，由基站收集的通信数据。此外，多传感器应用于现实中产生时空数据还包括气象监测、电气设备监控、天气预报、环境状态监视、安防监控等领域。然而，越来越多的报告表明由于恶劣的工作环境或不可控制的因素影响，如极端天气、设备故障和不稳定的通信信号，导致传感器采集的原始数据可能会偏离实际值或存在缺失值。

电子警察和卡口系统是一种道路车辆智能监测和记录系统，电子交通卡口设备(ETBD)广泛部署在城市道路的交叉路口和高速公路路段，产生大量图像和文本格式的车辆轨迹数据，其中包括车牌号码、时间戳、车速和方向信息。虽然车牌自动识别(LPR)算法的精度越来越高，相机的像素也变得越来越高，但对来自九个不同设备厂商由早到晚收集的超过10万条数据进行人工标注发现，由于拍摄角度、光线、人为和车辆遮挡等原因，在实际场景中LPR的精度仍然不高于83％，这导致交通卡口设备收集的数据不是完全可靠的。

因为电子警察系统收集的车辆轨迹数据为快速纠正交通违规、检测交通事故逃逸、机动车盗窃、伪造车牌以及交通量预测和交通规划提供了重要的技术手段和依据，因此提高数据准确性具有重要意义。目前，交管局有团队负责人工数据检查和纠正，但特别低效和耗时。因此，需要一种面向大规模的车辆轨迹行为数据的噪声处理、数据挖掘技术，以能显著地促进各种交通管理场景。

现有的轨迹数据噪声滤波方法主要依赖于轨迹点之间的距离和行驶速度，其中大部分数据是由采样时间固定且采样时间较短的GPS传感器采集的，轨迹点由经纬度表示。电子警察采集是通过安装在指定位置的传感器来获取轨迹点，而且传感器的安装点分布不均匀，容易缺失数据。对于缺失数据，现有技术在时间序列中预测缺失数据，给出了数据丢失的位置，但与图像数据不同，轨迹数据有两个独特的属性：1)空间属性，由地理层次和距离组成；2)时间属性，由行驶时间和趋势组成；对于交通中车辆轨迹行为数据，轨迹数据缺失的时间仍不确定。

在传统噪声数据清理中，数据质量的两个中心指标是一致性和准确性。数据库中的不一致和错误数据通常会出现为违反完整性约束的情况。这需要设定完整性约束，以建模数据的基本语义，但目前的工作很少研究这个问题。目前对约束进行的工作主要是基于传统的依赖关系，例如功能依赖关系和完全依赖关系等，主要为方案设计开发，但通常不足以捕获数据的语义。此外，对数据清理和数据库约束的正式研究主要集中在传统的关系数据库上，随着时空数据的规模正在迅速扩展，需要分布式文件系统或非关系数据库来管理和处理数据。

目前关于空间轨迹噪声的滤波技术可分为三大类：1)均值(或中值)滤波：对于测量点ZI，估计的(未知)真值是ZI的均值(或中值)，以及它的n-1前辈。但当轨迹点采样率很低，即两个连续点之间的距离可能大于几百米时，均值滤波和中值滤波不再是很好的选择。2)卡尔曼滤波和粒子滤波：卡尔曼滤波估计的轨迹是测量和运动模型之间的权衡，除了给出服从物理规律的估计外，卡尔曼滤波器还通过假设线性模型加高斯噪声来获得效率。粒子滤波放宽了这些假设，得到了一种更一般但效率较低的方案。然而，两者都取决于初始位置的测量。如果轨迹点上的第一点存在噪声，那么这两个滤波器的有效性就会显著下降。3)基于启发式的离群点检测：该方法根据行驶速度或距离直接从轨迹中去除噪声点。通过计算轨迹中每个点的行程速度，根据时间间隔、点与后继点之间的距离，以一个大于阈值的速度切断两个相邻点之间的段。基于距离的方法可以发现一个点在距离阈值内的邻居数小于点的p比例。所有这些方法都是为了处理GPS传感器产生的轨迹，其中相邻两个点之间的时间间隔是相同的，因此距离的数值波动并不特别大。然而，电子警察产生的轨迹数据由不同的设备采集，并以不规则的时间间隔进行采样，因此很难估计出上述启发式阈值。

现有的因果关系数据挖掘技术主要集中在基于模式的方法上，其目的是应用模式挖掘技术从历史数据中提取频繁发生的现象。基于模式的方法可以快速地从历史数据中提取一组模式，例如频繁序列模式。频繁序列模式挖掘自提出以来，已成为一项重要的数据挖掘手段，它由在一组序列中频繁出现的子序列组成。针对序列模式挖掘，已提出了几种有效的算法，但这些频繁的模式只提供了对因果关系的浅薄理解，并且通常存在大量的频繁模式，这在很大程度上限制了模式集的可用性。

发明内容

针对目前智能交通系统中传感器存在分布不均匀、采样率低、故障率高等问题，使得所采集的大规模的车辆轨迹行为数据噪声大、可靠性差，靠人工纠错耗时耗力，本发明提供了一种基于时空因果关系的城市传感数据处理方法，实现自动检测含噪数据，并从时空因果关系的角度对缺失数据进行修复，以避免生成不合理的车辆轨迹。

本发明的基于时空因果关系的城市传感数据处理方法，获取智能交通系统中传感器采集的数据，并从数据中获取车辆轨迹，然后执行如下步骤：

利用skip-gram模型计算轨迹采集设备的空间相关性，得到轨迹采集设备的分布式向量表示；

利用基于双向LSTM的序列标注模型，检测错误数据和潜在缺失数据，对采集的车辆轨迹点进行标注；所述的基于双向LSTM的序列标注模型，包含：分布式表示层，用于将轨迹点转换为分布式向量；Bi-LSTM层，用于编码输入的轨迹，捕获了各轨迹点的时空信息；推理层，根据Bi-LSTM层对轨迹点的编码值，预测每个轨迹点的标签；

利用基于LSTM的序列预测模型计算缺失数据；

利用数据修复模块，结合错误数据和缺失数据，对时空错位数据进行修复。

所述的数据修复模块利用缺失的轨迹点来修复错误的轨迹点，包括：设第i个错误的轨迹点表示为tr_i ^error＝(e_i，t_i，loc_i)，其中，e_i、t_i、loc_i分别表示车辆的牌照号码、轨迹点发生时的时间戳、采集设备的识别码；设第j个候选的缺失轨迹点表示为tr_j ^mc＝(e_j，t_l，t_r，loc_j，c_j)，其中，e_j表示车辆的牌照号码，loc_j表示采集设备的识别码，t_l和t_r分别表示缺失的轨迹点的前后轨迹点的时间戳，c_j表示第j个候选的缺失轨迹点的置信度；利用缺失轨迹点tr_j ^mc来修复tr_i ^error，设得到一个修正的轨迹点tr_i ^ec＝(e_j，t_i，loc_i)，loc_i＝loc_j；并利用匹配函数M(tr_i ^error,tr_j ^mc)来计算用tr_j ^{m c}来修复tr_i ^error的置信度；

M(tr_i ^error,tr_j ^mc)＝ReLU(c_j(t_i-t_l)(t_r-t_i)D(e_i,e_j))

其中，ReLU(·)表示直角线性单元，表示为：ReLU(x)＝max(0,x)；D(e_i,e_j)表示e_i到e_j的编辑距离。

本发明根据时空因果关系对检测到的噪声数据进行修复，而不是在时间与空间上单独处理，通过将空间与时间信息相连接，并通过skip-gram模型估计空间相关性和通过长短时记忆循环神经网络来估计时间相关性。本发明与现有技术相比，具有以下优势和积极效果：1)基于时空因果关系的数据治理。本发明从时空角度对地理空间传感数据进行了研究，并采用Skip-gram模型和长短期记忆模型，分别提取了数据的空间相关性和时间相关性。2)联合纠正。本发明考虑到缺失数据和错误数据经常成对出现的现象，将缺失数据和错误数据结合起来考虑，利用缺失数据的信息来修复错误数据，并设计了一个评估函数，该函数结合时间信息、空间信息以及轨迹对象的信息来估计修复置信度。3)本发明基于真实数据集进行评估，广泛的实验显示了本发明对城市传感数据的修复优于所有基线方法，提高了轨迹数据的正确率修复。

附图说明

图1是本发明基于时空因果关系的城市传感数据处理方法的一个实现框架示意图；

图2是本发明使用的基于双向LSTM的序列标注模型的结构示意图；

图3是本发明设置轨迹点的标签的一个示例图；

图4是本发明采用端到端模型来预测丢失的数据的示例图；

图5是本发明中修改数据的代码示意图；

图6是本发明方法对不同错误率的原始数据进行修复的精度示意图；

图7是本发明方法对数据质量提升的性能比较图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图对本发明作进一步的详细和深入描述。

随着智能传感器和其他智能设备数量的迅速增加，智能交通系统每天都会产生大量的时空数据。同时，数据质量不容乐观，也不完全可靠，因此提高数据质量对提高数据的可信度具有重要意义。针对智能交通系统采集的数据，为了避免不合理的轨迹，本发明从大量的数据中学习轨迹模式，所要达到的技术目的包括：1)检测缺失的轨迹点；2)识别错误的轨迹点；3)预测缺失的轨迹点的值；4)用正确的值替换错误的轨迹点。下面分四个步骤对本发明方法进行说明。

本发明提供的基于时空因果关系的城市传感数据处理方法，整体的一个实现框架如图1所示，包括：1)利用skip-gram模型估计轨迹采集设备(传感器)的空间相关性，得到设备的分布式向量表示。2)基于双向LSTM的序列标注模型，检测错误数据和潜在缺失数据。3)基于LSTM的序列预测模型，预测缺失轨迹点的空间位置信息。4)联合修复模块，对时空错位轨迹数据进行校正。

为了降低计算复杂度并控制轨迹长度，本发明基于时间间隔将轨迹进行分段。例如，如果两个连续采样点之间的时间间隔大于给定阈值，则在两点处将轨迹划分成两个部分。

为了更好地描述本发明所要解决的问题，首先给出下面一些定义：

定义1，轨迹点：轨迹点是由一个3元组(entity，timestamp，location)表示，entity表示车辆的牌照号码，timestamp表示时间戳，由车辆经过交通卡口时间表示，location表示位置，由交通卡口唯一标识码表示；轨迹点的三元组可标记为tr(e、tt、loc)。

定义2，时间顺序：设tt₁，tt₂是两个时间戳，定义tt₁与tt₂的时间顺序为，如果tt₁在tt₂之前，则tt₁<^ttt₂。

定义3，轨迹：轨迹是一组轨迹点{tr₁(e₁，tt₁，loc₁)，tr₂(e₂，tt₂，loc₂)，…，tr_n(e_n，tt_n，loc_n)}表示，其中，e₁＝e₂＝……＝e_n，且tt₁<^ttt₂<^t……<^ttt_n，n表示轨迹点的个数。

定义4，缺失的轨迹点：车牌为e的车辆的一个轨迹tra^e＝{tr₁(e，tt₁，loc₁)，tr₂(e，tt₂，loc₂)，……，tr_n(e，tt_n，loc_n)}，如果在相邻的轨迹点tr_i(e，tt_i，loc_i)和tr_j(e，tt_j，loc_j)中存在轨迹点tr(e，tt，loc)，满足关系tt_i<^ttt<^ttt_j，且loc≠loc_i，loc_j，则轨迹点tr(e，tt，loc)是一个缺失的轨迹点，即一个缺失的轨迹点应该出现在车辆的原始轨迹中相邻的两个轨迹点之间。

定义5，错误的轨迹点：设轨迹tra^e＝{tr₁(e，tt₁，loc₁)，tr₂(e，tt₂，loc₂)，……，tr_n(e，tt_n，loc_n)}，其中的某个轨迹点为tr(e′，tt，loc)，实际e′≠e，则轨迹点tr(e′，tt，loc)是一个错误的轨迹点。一个错误的轨迹点不是车辆行驶中的真实轨迹点。

定义6，前驱轨迹点和后继轨迹点：设一个轨迹tra^e＝{tr₁(e，tt₁，loc₁)，tr₂(e，tt₂，loc₂)，……，tr_n(e，tt_n，loc_n)}，对于其中的两个轨迹点i和j，1≤i,j≤n，如果在轨迹tra^e中轨迹点j出现在轨迹点i之后，并且在轨迹tra^e中轨迹点i和轨迹点j之间不存在其他轨迹点，则轨迹点i是轨迹点j的前驱轨迹点，轨迹点j是轨迹点i的后继轨迹点。

步骤1，采用skip-gram模型估计轨迹采集设备的空间相关性，得到设备的分布式向量表示。

为了估计传感器之间的空间相关性，本发明将轨迹类比于句子，将轨迹点类比于句子中的单词，采用skip-gram模型来学习轨迹点位置的分布式向量表示。skip-gram模型中将当前轨迹点的位置作为神经网络的输入，并预测当前轨迹点前后一定范围内轨迹点的位置。所得到的轨迹点位置分布式向量表示表征了轨迹采集设备(即交通卡口)的空间关系，分布式向量越相似，设备之间的距离越近。轨迹点位置的分布式向量即相应的设备的分布式向量。设备的分布式向量由若干坐标组成的多维向量，例如维度为50，则是一个设备的分布式向量包含50组坐标。

步骤2，利用基于双向LSTM的序列标注模型，对缺失轨迹点和错误的轨迹点进行标注。

如图2所示，本发明的基于神经序列的标记模型包含一个分布式表示层、Bi-LSTM层和推理层；分布式表示层用于将轨迹信息转换为分布式向量，Bi-LSTM层用于编码输入的轨迹；推理层生成标注序列。

步骤201，设置轨迹点的标记。

如图3所示，是对轨迹点生成标注的一个示意图。p₂、p₉和p₁₁是潜在缺失的轨迹点；p₅和p₈是错误的轨迹点；为每个轨迹点标注一个标签。标签‘N’表示‘正常’，即相应的轨迹点是正常轨迹点。标签‘M-B’表示‘前丢失’，即缺失的轨迹点是相应轨迹点的前驱轨迹点；标记“M-A”表示“后丢失”，即缺失的轨迹点是相应轨迹点的后继轨迹点。标签‘E’代表‘错误’，即相应的轨迹点是一个错误的轨迹点。标签‘E-M’代表‘错误和缺失’，即相应的轨迹点是一个错误的轨迹点，并且在该轨迹点之前和之后的轨迹点之间有一个缺失的轨迹点。

步骤202，分布式表示层将采集的轨迹信息转换为分布式向量。

在分布式表示层，即轨迹点表示层(Track Representations)中，通过查找步骤1中设备分布式向量表，将每个输入轨迹点转换为相应设备的分布式向量表示。

步骤203，利用Bi-LSTM层编码输入的轨迹。

本发明采用了Bi-LSTM层对轨迹进行编码，捕获了各轨迹点的时空信息。轨迹点的分布式表示向量被输入到两个并行的LSTM层：前向LSTM层和后向LSTM层。前向LSTM从左到右捕获轨迹点的序列信息，而向后的LSTM从右到左捕获轨迹点的序列信息。Bi-LSTM网络的隐藏层将前向LSTM层和后向LSTM层的每个轨迹点的编码信息拼接形成整个轨迹点的全局信息。

LSTM单元由一组递归连接的子网组成，称为存储块。每个时间步都是一个LSTM存储块。利用Bi-LSTM编码层中的LSTM存储块，基于前一隐藏向量h_t-1、前一单元向量c_t-1和当前输入的轨迹点tr_t，此处tr_t为设备分布式向量表示，计算当前隐藏向量h_t。具体计算如下：

i_t＝σ(W_witr_t+W_hih_t-1+W_cic_t-1+b_i) (1)

f_t＝σ(W_ωftr_t+W_hfh_t-1+W_cfc_t-1+b_f) (2)

z_t＝tanh(W_ωctr_t+W_hch_t-1+b_c) (3)

c_t＝f_tc_t-1+i_tz_t (4)

o_t＝σ(W_ωotr_t+W_hoh_t-1+W_coc_t+b_o) (5)

h_t＝o_ttanh(c_t) (6)

其中，f_t和o_t分别对应t时刻的遗忘门和输出门，i_t和z_t共同构成输入门。b表示偏置项，b_i、b_f、b_o、b_c是相应偏置项，c_t是t时刻的细胞状态，h_t是t时刻的隐藏状态。W_(。)表示相应的权重矩阵。对于每个轨迹点tr_t，前向LSTM层通过轨迹点tr₁到tr_t-1的轨迹信息来编码tr_t，，由

表示；同理，后向LSTM层通过tr_n到tr_t+1的轨迹信息来编码tr_t，由

表示；最后，得到当前隐藏向量

表示轨迹点tr_t的编码信息。σ表示sigmoid激活函数。下角标t表示当前时刻。

步骤204，通过推理层生成轨迹点的标注序列。

推理层利用上述BiLSTM对轨迹点的编码值预测每个轨迹点的相应标签。此处的推理层采用条件随机场模型CRF来做标注，也可以采用其他模型来做标注，例如Softmax分类器。

推理层所用模型先用训练数据来训练，在训练好之后再应用。

步骤3，预测缺失轨迹点的真实位置值。

如图4所示，本发明采用端到端的序列预测模型来预测缺失的数据。对于给定的轨迹tra＝{p₁，p₂，…，p₉}，本发明根据轨迹中轨迹点前后的序列来预测轨迹点。例如，本发明根据轨迹点序列{p₁，p₂，p₃，p₄}和{p₆，p₇，p₈，p₉}预测轨迹点p₅。本发明基于LSTM的序列预测模型中，轨迹点的表示方式与步骤2相同。与步骤2标注模型不同的是，本步骤将预测轨迹点前的轨迹点信息反馈给前向LSTM层，将预测轨迹点后的轨迹点信息反馈给后向LSTM层。本发明只保留前向LSTM层和后向LSTM层的最后一个隐藏状态，并将它们串联成一个向量来表示预测轨迹点的信息。为了计算每个轨迹位置的置信度，将双向LSTM的输出向量

输入到softmax分类器中，n₁为LSTM隐藏层的维度。在实际推理过程中，本发明保留了每个缺失轨迹点的前5个预测值。

o＝Wf (7)

其中，

是变换矩阵，

是网络的最终输出，其中，n₂等于交通卡口系统中的设备数。然后，将每个输出作为相应轨迹点的置信度分数。通过对所有类别进行softmax运算，置信度分数作为条件概率p(i|x,θ)，如下：

上式中，x代表轨迹点，θ表示模型的所有参数，i代表当前类别，o_i代表softmax分类器输出向量的第i个分量。

本发明使用交叉熵定义目标函数，如下所示：

其中，N表示轨迹集中轨迹的数量，p(r_i|tra_i,θ)根据公式(8)计算，r_i代表类别。本发明采用随机梯度下降法(SGD)进行目标函数最小化，从训练装置随机选择一个个小批次进行迭代直到模型收敛。

步骤4，利用数据修复模块，对时空错位数据进行校正。

通过上面步骤，得到了疑似缺失轨迹点集和错误轨迹点集，并获得了可疑缺失轨迹点的候选值。疑似缺失轨迹点由一个3元组表示：tr^missing＝(e,t_l,t_r)，其中，e由对应的车辆的牌照号码表示，t_l和t_r是由丢失的轨迹点发生的时间段获得的其前后的轨迹点时间戳表示。每个缺失轨迹点有一个候选列表，并且缺失轨迹点的每个候选轨迹点由5元组表示：tr^mc＝(e，t_l，t_r，loc，c)，其中，loc为交通卡口的识别码ID，

由步骤3预测缺失的轨迹点过程中的softmax分数获得，表示对应的候选的置信度。错误数据由一个3元组表示：tr^error＝(e,t,loc)，其中e由对应车辆的牌照号码表示，t是当轨迹点发生时的时间戳，并且loc是相应的交通卡口的识别码。

数据修复的目的是用缺失的轨迹数据来修复错误数据，即设一个错误轨迹点tr_i ^error＝(e_i，t_i，loc_i)，本发明选择一个合适的候选缺失轨迹点tr_j ^mc＝(e_j，t_l，t_r，loc_j，c_j)来修复tr_i ^error，得到一个修正的轨迹点tr_i ^ec＝(e_j，t_i，loc_i)，loc_i＝loc_j。本发明提出了一个匹配函数来估计tr_j ^{m c}用来修复tr_i ^error的置信度，根据公式(11)得到：

M(tr_i ^error,tr_j ^mc)＝ReLU(c_j(t_i-t_l)(t_r-t_i)D(e_i,e_j)) (10)

其中，ReLU(·)表示直角线性单元，表示如下：

ReLU(x)＝max(0,x) (11)

其中，D(·)表示e_i到e_j的编辑距离。

如图5所示，是本发明提出的完整的修复过程算法的代码示意图。图5中，获得错误轨迹点集合E，缺失的轨迹点集合M，以及预测的缺失轨迹点集合MC，利用MC对E中轨迹点进行修正，然后输出修复的数据集合EC。本发明通过多次迭代来执行本发明的修复程序，在每次迭代过程中，本发明设置了置信度阈值τ。本发明遍历所有错误轨迹点，遍历剩余集合中缺失轨迹的候选轨迹。根据公式(11)计算匹配得分，保留匹配得分最高超过匹配度阈值θ的候选轨迹点，以替换当前错误数据，同时从缺失轨迹集中删除相应的缺失轨迹。一次迭代后，τ将减少5％，即设置图5中的参数α为5％，直到没有新的修复数据停止循环。

根据某城市的高清智能卡口系统所采集的数据，对本发明方法进行验证。高清智能卡口系统每天生成近2000万条记录，每条记录包括车牌号码、时间戳和ETBD识别码。首先对采集的10天内数据根据车牌号码和时间戳进行整理，形成车辆的行驶轨迹，然后进行实验验证。

(1)数据集与评价矩阵；

地面实况数据；将获得的数据分为两组，对于第一组数据，为期9天，由于夜间收集的数据的故障率相对较高，只提取白天收集的数据。在每条轨迹上执行了一次或两次操作：1、在两条相邻轨迹点之间随机插入一个轨迹点；2、随机选取一条轨迹点并将其车牌号与其时间戳相同的另一条轨迹点上的车牌号交换；3、随机删除一条轨迹点。然后，根据运算自动标注每个轨迹点，将自动标注的数据划分为9：1的训练集和测试集。对于第二组数据，24小时全天候覆盖，用ETBD手动检查带有相应图像标记的单个轨迹点，并选取错误数据，针对车牌号码识别所造成的错误，标记出正确的车牌号码。最后，根据本发明的标注模式，用相应的情况标记每个轨迹点。将上述标记数据分为三个部分，一个用于训练集，一个用于测试集，另一个用于验证集。

(2)评价矩阵；

采用标准精度(Prec)、召回率(Rec)和F1评分来评价本发明方法中每一步的结果。每个实验运行10次，然后报告平均结果及其标准差。对于缺失数据预测的任务，本发明计算了前N预测轨迹点的精度。

(3)参数设置；

在训练集上使用三重验证来调整本发明的模型。采用网格搜索方法，在SGD{0.1、0.0 1、0.001、0.0001}中选择了学习速率λ、选择轨迹嵌入尺寸n∈{50、100、150、200、200、200、300}和选择批量尺寸大小{64、128、256、512、1024}之间，确定最优参数，本发明显示了实验中使用的所有参数。

(4)基线方法；

为了评价本发明所提出的方法，选择了以下两种传统方法进行比较。通用报告格式CRF是利用邻接标签信息预测当前标签的一种传统方法。使用CRF的基线方法用于缺失和错误检测。频繁序列模式挖掘是一种传统的序列模式挖掘方法。为了探索神经网络方法在传统方法中的优势，使用ClaSP来获得轨迹中的闭合序列模式。然后使用一个滑动窗口集中在每个轨迹上，检查每个轨迹是否与闭合的顺序模式一致，通过一对一的比较，标记了可疑的缺失轨迹“位置”和“错误轨迹”。本发明使用了频繁的序列模式的基线方法用于缺失和错误检测、缺失预测。

(5)比较实验结果；

本发明对比了不同方法的结果，如表1所示，可以看出，本发明的方法在精度和F1评分方面优于其他所有方法。频繁序列模式方法在召回率方面表现最好，因为它遍历所有可能匹配的闭合频繁序列，并且给出较低置信度的疑似丢失或错误报告，从而导致了相对较差的精度。

表1不同方法的实验结果对比

为了研究各层的工作原理，本发明对各层进行了消融测试。结果表明，预训练嵌入输入轨迹点是有效的，双向LSTM的性能优于单向LSTM，因为它从轨迹点的前向和后向捕获轨迹点的信息。在推理层中，CRF的性能优于Softmax，因为Softmax是一种贪婪的预测方法，不能考虑标签的直接转换概率，而CRF考虑连续标签之间的传播概率。

缺失轨迹点预测。表2显示了在缺失预测任务中比较方法的P@N值。从表中可以看出，本发明提出的方法在所有设置中都取得了最佳的性能。验证了神经网络预测缺失数据的有效性。

表2缺失预测任务中的P@N值比较

P@N(％)	100	300	500	平均值
					频繁序列模式	88.5	75.2	55.8	73.1
本发明方法	90.6	88.5	84.6	87.9

数据修复；为了在不同级别的数据质量上评估本发明的算法性能，本发明选择了错误数据的百分比范围从11％到28％几个批次的数据。如图6所示，结果表明，本发明方法具有较高的数据质量，当错误数据的百分比超过18％时，精度明显下降。可以解释的是，当错误数据百分比增加时，缺失的轨迹点和错误轨迹点的数量都会变大，错误轨迹点可能有几个候选匹配的缺失轨迹点，决定确定最佳匹配缺失轨迹点就会产生混淆。

对本发明方法和基于序列模式挖掘(SFP)方法的提高数据精度方面进行比较，如图7所示。结果表明，本发明提出的方法明显优于基于序列模式挖掘的方法，在最佳情况下，数据的准确率达到98％，平均提高了95％，与原始数据相比提高了12.9％。图7中横坐标是时间段，纵坐标表示数据准确率，Origin为原始数据，FSP+R表示采用基于频率序列模式的检测器、基于频率序列模式的预测器和本发明的修复算法进行的数据治理流水线方法，Proposed是本发明提出的方法。

上述实验结果与人工标注和修复结果进行比较，也证明了本发明方法的有效性，与原始数据相比，提高了12.9％的数据精度，优于基线方法。本发明还测试了本方法是如何随着原始数据质量的下降和错误数据百分比的增加而中断的，当误差数据为20％时，本发明仍然有效。

Claims

1.一种基于时空因果关系的城市传感数据处理方法，获取智能交通系统中传感器采集的数据，并从数据中获取车辆轨迹，然后执行：

利用skip-gram模型计算轨迹采集设备的空间相关性，得到轨迹采集设备的分布式向量表示，为将轨迹点转化为对应的分布式向量提供数据基础；

利用基于双向LSTM的序列标注模型，检测错误数据和潜在缺失数据，对采集的车辆轨迹点进行标注；所述的基于双向LSTM的序列标注模型，包含：分布式表示层，用于将轨迹点转换为分布式向量；Bi-LSTM层，用于编码输入的轨迹，捕获了各轨迹点的时空信息；推理层，根据Bi-LSTM层对轨迹点的编码值预测每个轨迹点的标签；

利用基于LSTM的序列预测模型计算缺失的轨迹点位置；

利用数据修复模块，结合错误数据和缺失数据，对时空错位数据进行修复；

所述的数据修复模块利用缺失的轨迹点来修复错误的轨迹点，包括：设第i个错误的轨迹点表示为tr_i ^error＝(e_i，t_i，loc_i)，其中，e_i、t_i、loc_i分别表示第i个错误的轨迹点的车辆的牌照号码、轨迹点发生时的时间戳、采集设备的识别码；设第j个候选的缺失轨迹点表示为tr_j ^mc＝(e_j，t_l，t_r，loc_j，c_j)，其中，e_j表示第j个候选的缺失轨迹点的车辆的牌照号码，loc_j表示第j个候选的缺失轨迹点的采集设备的识别码，t_l和t_r分别表示缺失的轨迹点的前后轨迹点的时间戳，c_j表示第j个候选的缺失轨迹点的置信度；利用缺失轨迹点tr_j ^mc来修复tr_i ^error，设得到一个修正的轨迹点tr_i ^ec＝(e_j，t_i，loc_i)，loc_i＝loc_j；并利用匹配函数M(tr_i ^error,tr_j ^mc)来计算用tr_j ^mc来修复tr_i ^error的置信度；

M(tr_i ^error,tr_j ^mc)＝ReLU(c_j(t_i-t_l)(t_r-t_i)D(e_i,e_j))

2.根据权利要求1所述的方法，其特征在于，所述的利用skip-gram模型计算轨迹采集设备的空间相关性，是指：将轨迹类比于句子，将轨迹点类比于句子中的单词，将当前车辆轨迹点的位置作为skip-gram模型的输入，采用skip-gram模型来学习当前轨迹点前后一定范围内的轨迹点的位置，所得到的轨迹点位置的分布式向量表示表征了轨迹采集设备的空间关系。

3.根据权利要求1所述的方法，其特征在于，所述的基于双向LSTM的序列标注模型对轨迹点标注标签，设置：标签N代表正常轨迹点；标签M-B表示前丢失，即缺失的轨迹点是相应轨迹点的前驱轨迹点；标签M-A表示后丢失，即缺失的轨迹点是相应轨迹点的后继轨迹点；标签E代表错误的轨迹点；标签E-M代表错误和缺失，即相应的轨迹点是一个错误的轨迹点，并且在该轨迹点之前和之后的轨迹点之间有一个缺失的轨迹点。

4.根据权利要求1所述的方法，其特征在于，所述的基于LSTM的序列预测模型包括：分布式表示层，用于将轨迹转换为分布式向量；Bi-LSTM层，将缺失轨迹点前的轨迹点反馈给前向LSTM层，将缺失轨迹点后的轨迹点反馈给后向LSTM层，并只保留前向LSTM层和后向LSTM层的最后一个隐藏状态，并将它们串联成一个向量输出，代表预测轨迹点的信息；softmax分类器，对Bi-LSTM层的输出向量进行置信度计算。

5.根据权利要求1或3所述的方法，其特征在于，所述的推理层，采用条件随机场模型，或者Softmax分类器。