CN117711174A

CN117711174A - 一种车辆通行信息的数据处理方法及系统

Info

Publication number: CN117711174A
Application number: CN202311686433.2A
Authority: CN
Inventors: 马川义; 王旭; 栗剑; 于迪; 杨维浩
Original assignee: Shandong University; Shandong High Speed Group Co Ltd
Current assignee: Shandong University; Shandong High Speed Group Co Ltd
Priority date: 2023-12-07
Filing date: 2023-12-07
Publication date: 2024-03-15

Abstract

本发明提出了一种车辆通行信息的数据处理方法及系统，包括：对漏检区间内所有历史通过车辆的轨迹进行提取和清洗，获取完整经过漏检区间的历史车辆轨迹；将得到的完整经过漏检区间的历史车辆轨迹与漏检区间备选路径相匹配，通过匹配获取所有轨迹完整车辆的真实行驶轨迹，并将样本的轨迹标签添加到原始数据集中；按反应车辆相似性的特征提取方法进行计算，然后将所有特征进行归一化处理，得到所有样本的特征空间；结合匹配得到的实际行驶路径标签，构建出基于车辆相似性的样本集，作为基于KNN的轨迹判别模型的数据基础。

Description

一种车辆通行信息的数据处理方法及系统

技术领域

本发明属于信息数据处理技术领域，尤其涉及一种车辆通行信息的数据处理方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

由于高速公路上的ETC门架系统中的门架检测器的稳定性经常受天气、电磁干扰等其他不良因素的干扰，因此在数据识别过程中通常会伴随着一定比例的记录冗余、数据项缺失等情况，而数据异常情况的处理，对车辆行驶轨迹的准确获取至关重要。

另外，为提升ETC门架系统的可靠性，现阶段，ETC门架系统上的车道控制器、路侧单元、车牌图像识别设备等关键检测器设备通常采用冗余设置。多套传感器同时工作，互为备份，当其中一套门架发生故障或日常维护时，另一套检测器也能保证数据的正常记录。因此，车辆在通过某个收费门架时，可能存在多条数据记录，通过对车辆出行链的初步分析，存在冗余记录的车辆约占所有行驶车辆的10％，其数据格式如图1所示。

针对冗余数据记录情况，车辆在第i套ETC门架系统的通过时间点，通过公式(1)计算：

式中，t_i,j—车辆在第i套ETC门架系统上由第j套传感器记录的通过时刻；n—ETC门架系统上记录到车辆数据的传感器套数。

车辆轨迹的空间重构主要任务是解决车辆具体经过的门架编号，也就是识别车辆在轨迹漏检期间的具体行驶路径。在高速公路门架交易系统的实际运行中，漏检通常是由车辆轨迹上的个别传感器受其电气性能、环境干扰等情况而导致的偶发情形，漏检位置相对明显；但少部分情况下，一些车辆轨迹中仍然存在多个连续门架位置的漏检。

在目前普遍应用的多义路径识别方法中，大多通过在争议路径关键点安装摄像头、射频识别标签等传感器来对车辆的实际行驶路径进行标记，但在某些情况下(如设备故障、不良天气)识别率低或者数据丢失，导致一些时间段车辆的实际行驶路径难以识别。

发明内容

为克服上述现有技术的不足，本发明提供了一种车辆通行信息的数据处理方法及系统，通过对数据的识别，利用K近邻算法对车辆轨迹进行重构，得到车辆的每次行驶轨迹。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

第一方面，公开了一种车辆通行信息的数据处理方法，包括：

针对获取的车辆通行信息数据通过车辆的唯一通行标识进行数据融合，实现车辆在每个路段的轨迹提取，将提取后的轨迹根据完整性划分为两个数据集，分别是轨迹完整的历史完整轨迹数据集和轨迹存在缺失的漏检轨迹数据集；

针对漏检路径在空间上是否属于唯一可匹配路径，可将漏检轨迹数据集划分为两类，若漏检路径唯一，则将漏掉的轨迹进行补充，实现轨迹重构，得到完整轨迹路径，作为样本添加至历史完整轨迹数据集；

若漏检路径不唯一，则采用K近邻算法对多个可能路径进行特征提取，找到相似性最高、匹配度最高的路径进行轨迹重构，得到所有车辆完整时空轨迹。

作为进一步的技术方案，先确定多义路径型漏检区间范围；

对漏检区间内所有历史通过车辆的轨迹进行提取和清洗，获取完整经过漏检区间的历史车辆轨迹；

对于车辆的原始轨迹来说，完整通过漏检区间的车辆轨迹是原始轨迹中的一部分。

作为进一步的技术方案，将得到的完整通过漏检区间的历史车辆轨迹与漏检区间备选路径相匹配，包括：

设共提取出车辆完整轨迹的集合为G_car，车辆i的实际行驶轨迹对应的收费门架编号集合为其大小为n；

提取备选路径中所有门架编号集合G，其中G＝(G₁,G₂,...,G_m)，m为备选路径数量，G_j＝(g₁,g₂,...,g_l)，G_j为第j条备选路径上门架编号集合，不包括漏检区间端点门架；

匹配车辆i实际轨迹中收费门架编号集合与备选路径中门架编号G集合，将车辆i实际轨迹中的元素，与m条备选路径中元素进行比较，若与第j条备选路径比较时，至少有一处相同，则证明车辆i的实际行驶轨迹为路径j；

通过行驶轨迹匹配获取所有轨迹完整车辆的真实行驶轨迹，并将匹配得到的完整轨迹作为轨迹样本添加到原始历史数据集中。

作为进一步的技术方案，针对所有车辆完整时空轨迹，计算其特征空间，包括：漏检区间行程时间、漏检区间端点到达时间、车辆轨迹中平均速度。

作为进一步的技术方案，结合行驶轨迹匹配得到的实际行驶路径标签，构建出基于车辆相似性的样本集，即实际行驶路径的特征空间样本集。

作为进一步的技术方案，计算漏检轨迹与基于车辆相似性的样本集之间的距离，找到最小距离，根据最小距离确定相似性最高的完整轨迹。

作为进一步的技术方案，通过欧氏距离计算漏检轨迹与基于车辆相似性的样本集之间的距离。

作为进一步的技术方案，对漏检区间内所有历史通过车辆的轨迹进行提取和清洗，采用孤立点检测法进行数据清洗。

作为进一步的技术方案，车辆通行信息包括融合通信介质数据及路段物理结构数据，融合通信介质数据包括ETC门架交易数据，路段物理结构数据包括门架地理位置、道路车道数、车道宽度等。

第二方面，公开了一种车辆轨迹重构的数据处理系统，包括：

数据集构建模块，被配置为：针对获取的车辆通行信息数据通过车辆的唯一通行标识进行数据融合，实现车辆在每个路段的轨迹提取，将提取后的轨迹根据完整性划分为两个数据集，分别是轨迹完整的历史完整轨迹数据集和轨迹存在缺失的漏检轨迹数据集；

路径匹配模块，被配置为：针对漏检路径在空间上是否属于唯一可匹配路径，可将漏检轨迹数据集划分为两类，若漏检路径唯一，则将漏掉的轨迹进行补充，实现轨迹重构，得到完整轨迹路径，作为样本添加至历史完整轨迹数据集；

以上一个或多个技术方案存在以下有益效果：

本发明技术方案融合通信介质数据及路段物理结构数据，利用K近邻算法对车辆轨迹进行重构，得到车辆的每次行驶轨迹。

本发明技术方案选取漏检区间行程时间、漏检区间端点到达时间、车辆轨迹中平均速度，作为车辆空间轨迹重构的判别特征，能够获得相似性最高、匹配度最高的路径。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例现有的冗余记录的车辆约占所有行驶车辆的10％，其数据格式示意图；

图2为本发明实施例清洗前的平均速度示意图；

图3为本发明实施例清洗后的平均速度示意图；

图4为本发明实施例唯一路径型示意图；

图5为本发明实施例多义路径型示意图；

图6为本发明实施例KNN的k值选取示意图；

图7为本发明实施例KNN的k＝1时示意图；

图8为本发明实施例收费站入口-门架-收费站出口完整路径还原示意图；

图9为本发明实施例得到完整的时间段内车辆行驶轨迹数据示意图；

图10为本发明实施例平均速度和交通流量等研究高速公路交通出行量的时空特性分布示意图；

图11为本发明实施例方法的整体流程示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种车辆通行信息的数据处理方法，为基于通信介质信息的车辆轨迹重构，在本实施例子中，K近邻算法(KNN)被用来针对车辆的多义路径型漏检区间，完成空间层面的轨迹重构，算法的具体流程如图11所示，包括：

获取数据：包括ETC门架地理位置、道路路网地理位置、ETC门架的交易数据；

针对获取的数据通过车辆的唯一通行标识passid进行数据融合，passid为车辆进入高速的通行标识，实现车辆在每个路段的轨迹提取，将提取后的轨迹根据完整性划分为两个数据集，分别是轨迹完整的历史完整轨迹数据集和轨迹存在缺失的漏检轨迹数据集；

针对漏检路径在空间上是否属于唯一可匹配路径，可将漏检轨迹数据集划分为两类，实施不同的轨迹重构方法。

若漏检路径唯一，则将漏掉的轨迹进行补充，实现轨迹重构，得到完整轨迹路径，作为样本添加至历史完整轨迹数据集；

需要说明的是，此处重构的路径是使用KNN得到的匹配路径，是用算法优化的结果，不一定就是完全真实的，如果放入历史数据集作为训练集的话，准确性会降低，因此，不添加至历史完整轨迹数据集。

实现上述思想的具体步骤包括：

步骤一：构建历史完整轨迹数据集，作为空间轨迹重构训练集：

步骤1-1：首先，需确定多义路径型漏检区间范围，提取漏检区间内历史车辆完整轨迹；

其中，多义路径型漏检是指车辆的漏检区间内包含了两个或两个以上的枢纽通立交，漏检区间端点之间存在多条路径。

步骤1-2：然后，确定漏检区间内备选路径的数目，并完成历史车辆轨迹和漏检区间备选路径的匹配；

步骤1-3：最后，针对历史完整轨迹数据集，计算特征空间，用于后续步骤二距离计算；按照8：2的比例将历史完整轨迹数据集划分为训练集和测试集，完成训练集与测试集构建。

上述步骤1-1中，车辆轨迹提取：

对漏检区间内所有历史通过车辆的轨迹进行提取和清洗，获取完整经过漏检区间的历史车辆轨迹。对于车辆的原始轨迹来说，完整通过漏检区间的车辆轨迹是原始轨迹中的一部分。设共提取出车辆完整轨迹的集合为G_car,车辆i的实际行驶轨迹对应的收费门架编号集合为其大小为n。

步骤1-2中，行驶轨迹匹配：

由于高速公路网不同于城市道路网般复杂，当漏检区间范围确定时，其范围内的备选路径条数m也随之确定，为将步骤1-1得到的完整通过漏检区间的历史车辆轨迹与漏检区间备选路径相匹配，采用以下步骤：

步骤1-2-1：提取备选路径中所有门架编号集合G，其中G＝(G₁,G₂,...,G_m)，G_j＝(g₁,g₂,...,g_l)，G_j为第j条备选路径上门架编号集合，不包括漏检区间端点门架。

步骤1-2-2：匹配车辆i实际轨迹中收费门架编号集合与备选路径中门架编号G集合。将车辆i的实际轨迹与m条备选路径进行比较，若与第j条备选路径比较时，至少有一处相同，则证明车辆i的实际行驶轨迹为路径j。

通过行驶轨迹匹配获取所有轨迹完整车辆的真实行驶轨迹，并将匹配得到的多条完整轨迹作为轨迹样本添加到历史完整轨迹数据集中。

步骤1-3：特征空间计算

针对所有轨迹计算三个特征包括：漏检区间行程时间、漏检区间端点到达时间、车辆轨迹中平均速度。

按反应车辆相似性的特征提取方法进行计算，然后将三个特征按照公式(3-11)进行归一化处理，得到所有样本的特征空间。

i

式中，x——第i个特征值；

——第i个特征值的最大值；

——第i个特征值的最小值；

——第i个特征值经过归一化的值；

再结合上文行驶轨迹匹配得到的实际行驶路径，构建出基于车辆相似性的样本集就是缺失路段的所有可能的匹配路径集，即实际行驶路径的特征空间样本集。作为基于KNN的轨迹判别的数据基础，用于进行轨迹重构。

步骤二：距离计算

该步骤是计算漏检轨迹与基于车辆相似性的样本集之间的距离，找到最小距离来实现轨迹重构，距离最小即为选出的与漏检轨迹相似性最高的车辆相似性的样本集中的完整轨迹。

首先确定新值与样本在特征空间上距离的计算方式。在计算空间中两个样本点的相似性时，有多种计算方式，如欧式距离、曼哈顿距离、切比雪夫距离等。在KNN中通常使用欧氏距离进行相似性的度量。欧氏距离又称欧几里得距离，是一种简单、直观的综合评价方法，引入该方法来计算样本集与漏检轨迹之间的距离，最终根据距离的大小进行判断，得出轨迹匹配相似度。

式中x代表基于车辆相似性的样本集的特征空间，y代表漏检轨迹的特征空间，d(x，y)为计算得出的两者之间的欧氏距离。

通常情况下，KNN算法中计算出k个最相近邻居后，直接根据少数服从多数原理进行表决，确定邻居中大多数样本所在的类别作为新值的类别如公式(3-13)。为了提升模型的准确率，应当考虑距离新值较近的邻居将比距离较远的邻居具有更大的影响，对应着距离较近的邻居拥有更高的权重。因此，考虑将距离的倒数作为邻居权重，进行加权多数表决，如公式(3-14)。

w_i＝1/d_i (3-14)

式中，k——最近邻居个数；

d_i——新值到邻居i的距离；

δ(v,f(x_i)——类别为v的邻居个数；

f(x_q)——新值x_q到其类别的映射。

在这种情况下，距离新值较近的邻居将比距离较远的邻居具有更大的影响。

步骤三：k值选择

根据KNN的原理可知，在KNN算法中，k——最近邻居个数，k值的选取，对输入样本的分类结果有至关重要的影响，因此选择适合的值对分类模型的结果来说十分重要。如图7，当k＝1时，与新值最近的样本为三角形，因此新值将被自动划分为三角形类别；当k＝5时，与新值最近的5个样本中，有3个为正方形2个为三角形，由于新值的邻居样本中正方形居多，因此新值将被自动划分为正方形类别。

如果确定k值偏小，相当于进入最近邻区域的样本数量较少，因此较小的k值会使模型对近邻的样本点更加敏感，如果近邻样本点中存在噪声数据，较小的k值可能会将噪声数据的类别赋给新值，导致预测出错；如果确定值较大，则相当于进入最近邻区域的样本数量较多，即较大的值使得参与“表决”的临近样本增多，若临近样本中包含大部分错误类别样本，则可能导致对输入样本预测的不准确。在实际应用中，k一般取一个较小的数值。为了选择合适的k值，通常采用交叉验证法来进行合理k值的筛选，以便轨迹重构效果更符合实际情况，更合理。

交叉验证是用来评价一个训练完成的模型是否可以在另一个数据结构相同的数据集上推广的方法。在统计学中，它将数据样本划分成更小的子集。首先对一个子集进行训练，而其它子集用于验证。为了得到稳定的验证结果，需要对样本进行多次分割，然后基于划分结果进行多次交叉验证过程，将多次验证的平均值作为验证结果。

定义车辆的漏检区间为，漏检门架位置前最后一个正常记录门架至漏检门架位置后第一个正常记录门架位置处(漏检区间端点处数据记录正常，漏检门架不包括端点门架)。针对以上两种情况，车辆的漏检区间可分为两种类型：唯一路径型和多义路径型。

(1)唯一路径型

唯一路径型的含义是，车辆的漏检区间端点位于同一路段或两端点间只经过一个枢纽互通立交，漏检区间存在且只存在一条连接两端点的路径，如图4。

多义路径型的含义是指，车辆的漏检区间内包含了两个或两个以上的枢纽通立交，漏检区间端点之间存在多条路径，车辆经过漏检区间时并不总是选择最短路出行，受不同路径的交通状态、收费等情况的影响，经过漏检区间的车辆可能拥有不同的行驶轨迹，如图5。

对于唯一路径型漏检区间，车辆的具体行驶路径可以通过有数据检测的两个门架编号之间的最短路确定，然后确定所经过的门架编号：而对于多义路径型漏检区间，判别车辆的具体行程路径可能存在考虑多义路径问题。

针对以上情况，为解决漏检区间的多义路径问题，提出一种基于车辆轨迹相似性的路径判别方法。基于历史数据中所提取漏检区间内的完整轨迹信息，还原轨迹未知车辆的真实行驶轨迹，为时间轨迹重构提供依据。

特征选取：

在高速公路系统中，状态相近的车辆往往表现出相似的轨迹。例如多义路径型漏检区间内行程时间相近的车辆轨迹相同的可能性偏大。由于对时间成本的敏感程度，同种车型轨迹相同的可能性较大。同时因为漏检区间内交通状况随时间变化漏检区间到达时刻的相近的车辆，其轨迹选择行为也相似。因此，选取以下三个特征，作为车辆空间轨迹重构的判别特征，用于计算三个特征的空间距离。

(1)漏检区间行程时间

对于大部分情况，由于多义路径型漏检区间中备选路径的长度各不相同，车辆选择不同轨迹，必然会体现出不同的行程时间。因此，漏检车辆i在漏检区间的行程时间t是进行轨迹判别的一个重要特征，计算方法如公式(3-6)。

式中，—车辆i在漏检区间的起点j的到达时刻；/>—车辆i在漏检区间的终点j+1的到达时刻。

通常情况下，驾驶员会选择最短路作为车辆的行驶轨迹，因为最短路上的行驶时间对应着备选路径集的最短行程时间和最小通行费用。但当最短路发生交通拥堵时，其行程时间会大大增加，导致部分驾驶员转而选择次短路或其他交通状况良好的道路，因此不能单独依靠漏检区间行程时间来判别行驶轨迹。

(2)漏检区间端点到达时间

随着高速公路信息化的发展，在高速公路入口或枢纽互通立交位置通常架设有可变信息标志。可变信息标志是指通过控制或实时信息检测，显示前方道路行车环境动态变化的公路交通标志，交通状态的变化可由天气、自然灾害、交通事故等原因导致。主要功能是为驾驶员提供前方交通状态的预示和警告，便于驾驶员采取相应的行车措施。

通过交通广播、可变信息标识等方式，驾驶员通常在到达高速公路入口或枢纽互通立交前，在一定程度上获悉到达目的地各条路径上的拥挤状态及行驶时间。若在到达目的地的多条路径中，任意一条路径发生交通拥堵，都会降低驾驶员选择这条路径的意愿。

因此，需要提取车辆在多义路径型漏检区间端点的到达时间作为轨迹判别特征之一。为方便计算，提取特征时，将漏检区间端点到达时间与门架数据中第一条数据的记录时间作差，得到以秒为单位的相对到达时间。

(3)车辆轨迹中平均速度

在高速公路系统中，不同车型通常表现出对行程时间、通行费用等因素不同的敏感性。客车通常会选择行程时间最短路径:而货车通常会考虑装卸货、休息、通行费用等原因，表现出与客车不同的轨迹特征。出于隐私考虑，门架交易数据中没有直接给出车型特征。但由于运输目的的不同，客车通常注重时效性，并且其速度上限为120km/h，因此行驶速度相对较高，而货车通常注重货物的安全性，其速度上限为100km/h，因此行驶速度相对较低。

因此高速公路中行驶车辆的车型因素可以在其平均速度上有所体现。因此，本研究通过车辆轨迹在漏检区间之外的有记录轨迹来计算车辆此次轨迹的平均行驶速度，作为车型对轨迹特征的影响，计算公式如下。

式中，—车辆i从门架编号k到门架编号k+1的行程时间；l_k,k+1—门架编号k到门架编号k+1的距离。

由于门架之间的距离测算难度较大且通常相距较近，因此假设门架之间的直线距离为门架之间的真实距离。

门架之间的直线距离通过联立公式(3-8)、(3-9)进行计算。

θ＝l_k,k+1/r (3-8)

hav(θ)＝hav(φ_k+1-φ_k)+cos(φ_k+1)×hav(λ_k+1-λ_k) (3-9)

式中，l_k,k+1——相邻门架间的距离；

λ_k——门架k的经度；

——门架k的纬度；

通过变形转化，得到相邻门架间距离计算公式

基于K近邻的车辆轨迹判别：

K近邻(KNN)是一种常用的机器学习分类算法，由Cover和Hart于1968年提出，具体含义是每个样本都可以被它距离最近的k个邻居表示。由于其超参数少、思想简洁，容易实现，因此在众多领域应用广泛。

对于一个新值，在特征空间中计算各个样本与新值的距离，排序选择前k个与新值距离最近的样本，然后进行多数表决，若这些样本中的大多数属于同一个类别则该新值由这些样本表示，也同属于这个类别。这便是KNN的基本原理。如图6，当k＝5时，与新值最相近的5个邻居中有3个都是正方形，因此新值将被分类为正方形。

示例应用

根据以上方法融合多源数据可以重构复现京台高速泰枣路段2023.3.1-2023.3.31这一个月的高速公路车辆行驶轨迹，将收费站入口-门架-收费站出口完整路径还原，如图8所示。然后确定特征值，计算单车的行驶速度、旅程时间、行驶里程，行驶里程定义为门架之间距离(桩号)，旅程时间定义为交易时间之差，行驶速度＝行驶里程/旅程时间，利用K邻近方法补全缺失轨迹数据，得到完整的时间段内车辆行驶轨迹数据，如图9所示。然后提取交通状态参数：平均速度和交通流量等研究高速公路交通出行量的时空特性分布，如图10所示。

在本实施例子中，采用孤立点检测算法剔除原始数据内的异常值：

在重构车辆轨迹前，为去除收费和门架数据中字段缺失数据或噪声数据对聚类结果准确性的影响。首先要进行数据清洗，本文采用的清洗方法为孤立点检测法。

孤立点是指那些与大部分数据格式、数值等细节都不同的数据。在对大量数据进行处理分析时需把这些孤立点当做异常值，将其剔除出正常数据集并单独进行分析。这主要是由于孤立点会影响数据分析与处理的最终结果；尽管孤立点一般由检测或记载出现的问题所致，但也可能提供对分析有价值的异常信息。

通过计算当前点与其他点的距离来寻找和判断孤立点的算法在寻找孤立点方面得到了广泛的应用。这种方法由对象所处的位置与其他对象的距离判定该对象是否为孤立点，对于任意点X_i而言，全局孤立点很有可能存在于离它最远的n个点中。算法过程如下：

(1)原始数据集的归一化。由于收费数据中每项参数对应其自己的量纲，直接使用原始数据分析计算，会造成不同参数对结果的影响程度随其量纲的大小而直接变化。本文选择使用min-max原则对原始数据进行处理，使各项数据映射到[0,1]区间，其转换函数为

式中，x为数据值；x_min为最小值；x_max为最大值；x^*为转换后的数据值。

(2)计算任意点X_i与其他点Y_j的欧氏距离。X_i与Y_j为选自m维空间内的任意2点，它们的欧氏距离D_o的计算方法为

D_o(X_i-Y_j)＝[(X_i1-Y_j1)²+(X_i2-Y_j2)²+...+(X_im-Y_jm)²]^1/2 (3-3)

(3)将X_i与其他点之间的欧氏距离按照递增的方式进行排序，找出离X_i最近的r个点z₁，···,z_r，加到X_i的r^-邻域Ω_ir中，并找出X_i的r距离r-d(Xi)(即r^-邻域中各点与X_i的欧氏距离的最大值)，即

r-d(x_i)＝max d(x_i,z_r) z_r∈Ω_ir (3-4)

同样地,找出离X_i最远的n个点p₁,p₂,…,p_n加到X_i的n^-最远域Ω_in中,并给n^-最远域Ω_in中各点的得票数加1，即

T(P_n)＝T(P_n)+1 (3-4)

式中：T(P_n)为得票数，其阈值用T_max表示。

(4)定义T(P_n)值大于T_max的点是全局孤立点。对不同闯值下的试验结果进行分析可以得到以下结论：通过设定恰当的闯值可以较好地去除全局孤立点。

以15min区间里龙门架数据为例，挑选数据的路段是泰安西-泰山门架到泰山-满庄门架，然后对本段数据进行清洗，清洗前的平均速度如图2所示，在时间为2023-03-0111:09:18-2023-03-01 11:10:23处平均速度波动较大，最低速度达到70km/h，最高速度甚至超出150km/h，显然不符合在高速公路上的实际行驶情况，因此得到清洗后的平均速度如图3所示。

实施例二

本实施例的目的是提供一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

实施例四

本实施例的目的是提供一种车辆轨迹重构的数据处理系统，包括：

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种车辆通行信息的数据处理方法，其特征是，包括：

2.如权利要求1所述的一种车辆通行信息的数据处理方法，其特征是，先确定多义路径型漏检区间范围；

3.如权利要求2所述的一种车辆通行信息的数据处理方法，其特征是，将得到的完整通过漏检区间的历史车辆轨迹与漏检区间备选路径相匹配，包括：

提取备选路径中所有门架编号集合G，其中G＝(G₁,G₂,...,G_m)，m为备选路径数量，G_j＝(g₁,g₂,...,g_l)，G_j为第j条备选路径上门架编号集合，不包括漏检区间端点门架；g、l j取值范围1至m；

4.如权利要求1所述的一种车辆通行信息的数据处理方法，其特征是，针对所有车辆完整时空轨迹，计算其特征空间，包括：漏检区间行程时间、漏检区间端点到达时间、车辆轨迹中平均速度。

5.如权利要求1所述的一种车辆通行信息的数据处理方法，其特征是，结合行驶轨迹匹配得到的实际行驶路径，构建出基于车辆相似性的样本集，即实际行驶路径的特征空间样本集；

计算漏检轨迹与基于车辆相似性的样本集之间的距离，找到最小距离，根据最小距离确定相似性最高的完整轨迹。

6.如权利要求5所述的一种车辆通行信息的数据处理方法，其特征是，通过欧氏距离计算漏检轨迹与基于车辆相似性的样本集之间的距离。

7.如权利要求2所述的一种车辆通行信息的数据处理方法，其特征是，对漏检区间内所有历史通过车辆的轨迹进行提取和清洗，采用孤立点检测法进行数据清洗。

8.一种车辆轨迹重构的数据处理系统，其特征是，包括：

9.一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述权利要求1-7任一所述的方法的步骤。