CN115761920A

CN115761920A - 一种基于etc门架数据的车辆轨迹可信提取方法及系统

Info

Publication number: CN115761920A
Application number: CN202211172992.7A
Authority: CN
Inventors: 于水; 成诚; 陈佐豪; 齐玉亮; 刘怡美
Original assignee: BEIJING JIAOKE HIGHWAY SURVEYING DESIGN AND RESEARCH INSTITUTE; Xinchi Management Consulting Shanghai Co ltd; Hebei Expressway Jingxiong Management Center
Current assignee: BEIJING JIAOKE HIGHWAY SURVEYING DESIGN AND RESEARCH INSTITUTE; Xinchi Management Consulting Shanghai Co ltd; Hebei Expressway Jingxiong Management Center
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2023-03-07

Abstract

本发明涉及一种基于ETC门架数据的车辆轨迹可信提取方法及系统，属于高速公路ETC门架数据开发利用技术领域，先构建数据库，再分别计算待提取轨迹的目标车辆的目标车牌号与数据库中的其他车牌号的相似距离，以确定目标车牌号的相似车牌号，进一步构建第一数据集合和第二数据集合，然后对第一数据集合和每一相似车牌号对应的第二数据集合进行选择性融合，得到融合后数据集合，最后对融合后数据集合进行单次出行数据拆分，得到目标车辆在分析时段内的若干条单次出行轨迹，从而对车辆轨迹进行可信提取，精准识别车辆运行轨迹路径，为提高收费稽核精度、实现ETC数据开发利用提供数据处理技术基础。

Description

一种基于ETC门架数据的车辆轨迹可信提取方法及系统

技术领域

本发明涉及高速公路ETC门架数据开发利用技术领域，特别是涉及一种基于ETC门架数据的车辆轨迹可信提取方法及系统。

背景技术

随着新型收费技术的不断应用，除传统的收费站清分数据外，高速公路运营过程中也积累了大量ETC门架数据，用于实现高速公路车辆分段计费。ETC门架通过车牌识别和车载终端感知相融合的方式，获取通行车辆的车牌信息、车辆信息、所在位置、计费情况等信息，但因门架补光不足、环境反光、车牌识别精度不足、OBU设备屏蔽、门架感知能力受限等因素影响，门架车牌识别错误、门架数据缺失、门架数据重复采集、门架数据异常等情况常有发生，对精准辨识车辆轨迹，支持精准计费，推动ETC数据开发利用造成了较大的负面影响。

针对上述问题，迫切需要一种基于ETC门架数据的车辆轨迹可信提取技术。

发明内容

本发明的目的是提供一种基于ETC门架数据的车辆轨迹可信提取方法及系统，能够对车辆轨迹进行可信提取，精准识别车辆运行轨迹路径，为提高收费稽核精度、实现ETC数据开发利用提供数据处理技术基础。

为实现上述目的，本发明提供了如下方案：

一种基于ETC门架数据的车辆轨迹可信提取方法，所述车辆轨迹可信提取方法包括：

构建数据库；所述数据库包括分析时段内，高速公路布置的每一ETC门架采集的若干条车辆通行数据；所述车辆通行数据包括里程、车牌号、采集时间和行进方向；所述车牌号包括省简称、城市代码加序号码以及车牌颜色；所述行进方向包括出、入、上行和下行；

分别计算待提取轨迹的目标车辆的目标车牌号与所述数据库中的除所述目标车牌号之外的每一所述车牌号的相似距离，并选取所述相似距离小于相似阈值的所述车牌号作为所述目标车牌号的相似车牌号；

从所述数据库中选取所述车牌号为所述目标车牌号的车辆通行数据，组成第一数据集合；对于每一所述相似车牌号，从所述数据库中选取所述车牌号为所述相似车牌号的车辆通行数据，组成第二数据集合；对所述第一数据集合和每一所述相似车牌号对应的所述第二数据集合进行选择性融合，得到融合后数据集合；

对所述融合后数据集合进行单次出行数据拆分，得到所述目标车辆在所述分析时段内的若干条单次出行轨迹。

一种基于ETC门架数据的车辆轨迹可信提取系统，所述车辆轨迹可信提取系统包括：

构建模块，用于构建数据库；所述数据库包括分析时段内，高速公路布置的每一ETC门架采集的若干条车辆通行数据；所述车辆通行数据包括里程、车牌号、采集时间和行进方向；所述车牌号包括省简称、城市代码加序号码以及车牌颜色；所述行进方向包括出、入、上行和下行；

相似车牌号确定模块，用于分别计算待提取轨迹的目标车辆的目标车牌号与所述数据库中的除所述目标车牌号之外的每一所述车牌号的相似距离，并选取所述相似距离小于相似阈值的所述车牌号作为所述目标车牌号的相似车牌号；

数据融合模块，用于从所述数据库中选取所述车牌号为所述目标车牌号的车辆通行数据，组成第一数据集合；对于每一所述相似车牌号，从所述数据库中选取所述车牌号为所述相似车牌号的车辆通行数据，组成第二数据集合；对所述第一数据集合和每一所述相似车牌号对应的所述第二数据集合进行选择性融合，得到融合后数据集合；

拆分模块，用于对所述融合后数据集合进行单次出行数据拆分，得到所述目标车辆在所述分析时段内的若干条单次出行轨迹。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明用于提供一种基于ETC门架数据的车辆轨迹可信提取方法及系统，先构建包括分析时段内，高速公路布置的每一ETC门架采集的若干条车辆通行数据的数据库，再分别计算待提取轨迹的目标车辆的目标车牌号与数据库中的其他车牌号的相似距离，以确定目标车牌号的相似车牌号，进一步构建第一数据集合和第二数据集合，然后对第一数据集合和每一相似车牌号对应的第二数据集合进行选择性融合，得到融合后数据集合，最后对融合后数据集合进行单次出行数据拆分，得到目标车辆在分析时段内的若干条单次出行轨迹，从而对车辆轨迹进行可信提取，精准识别车辆运行轨迹路径，为提高收费稽核精度、实现ETC数据开发利用提供数据处理技术基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1所提供的车辆轨迹可信提取方法的方法流程图；

图2为本发明实施例1所提供的车辆轨迹可信提取方法的技术路线图；

图3为本发明实施例1所提供的初始数据的示意图；

图4为本发明实施例1所提供的相似车牌号的初始数据的示意图；

图5为本发明实施例1所提供的单次出行轨迹的示意图；

图6为本发明实施例2所提供的车辆轨迹可信提取系统的系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

本实施例用于提供一种基于ETC门架数据的车辆轨迹可信提取方法，如图1和图2所示，所述车辆轨迹可信提取方法包括：

S1：构建数据库；所述数据库包括分析时段内，高速公路布置的每一ETC门架采集的若干条车辆通行数据；所述车辆通行数据包括里程、车牌号、采集时间和行进方向；所述车牌号包括省简称、城市代码加序号码以及车牌颜色；所述行进方向包括出、入、上行和下行；

具体的，S1可以包括：

(1)获取分析时段内，高速公路布置的每一ETC门架采集的若干条初始数据；所述初始数据包括ETC门架桩号、初始车牌号、采集时间和ETC门架感知的车流流向；

本实施例的ETC门架可为高速公路布置的出入口收费站处ETC门架、路段ETC门架和分支匝道ETC门架。本实施例会先获取每一ETC门架的建设信息，包括ETC门架所在桩号和ETC门架数据采集方向(出入口收费站处ETC门架感知的车流流向为出或入，其他位置的ETC门架感知的车流流向为上行或下行)等信息，每一ETC门架还会采集经过ETC门架的车辆信息，建设信息和车辆信息共同组成ETC门架采集的一条初始数据，如图3所示，初始数据的内容包括但不限于：ETC门架收费点名称、ETC门架收费点编号、ETC门架桩号、初始车牌号、车型、车种、特情值、采集时间、车流流向(出入/上下行)、车辆载重等。

(2)对于每一条初始数据，将ETC门架桩号转换为里程；对初始车牌号进行数据标准化处理，得到车牌号；根据ETC门架感知的车流流向确定行进方向，得到车辆通行数据；所有车辆通行数据组成数据库。

具体的，初始数据经过数据预处理得到车辆通行数据，该数据预处理过程包括初始数据的里程位置计算、采集数据行进方向标注、车牌数据标准化、重复数据剔除、数据建库等。具体如下：

(2.1)里程换算：对ETC门架桩号数据进行标准化处置，由“KY+XXX”的数据格式换算成Y.XXX的里程的数据格式，以将ETC门架桩号转换为里程，便于后续数据处理。Y的单位是km，XXX的单位是m。

(2.2)车牌数据标准化。针对初始数据中车牌数据存储结构不同、车牌信息异常等情况进行数据标准化处理，对于车牌识别结果中所在省简称、所在市一级代码字幕、序号码、车牌颜色等完整信息的车牌，按照省简称、城市代码加序号码、车牌颜色的数据结构进行标准化处置，对于存在结构化数据缺失的车牌，通过视频及车牌图像查阅，予以补齐。

(2.3)行进方向标注。根据ETC门架感知的车流流向，为每一条初始数据标注行进方向(出、入、上行、下行)。

(2.4)采集数据建库。对于分析时段内所有初始数据标准化处置后，得到车辆通行数据，以构建数据库，车辆通行数据的结构包括但不限于数据编号、ETC门架收费点名称、ETC门架收费点编号、ETC门架桩号、里程、车牌号(省简称、城市代码加序号码、车牌颜色)、车型、车种、特情值、采集时间、行进方向、车辆载重等。

优选的，本实施例的数据预处理还包括：重复数据剔除。对于信息完全相同的多条车辆通行数据，仅保留1条，并对多余数据进行剔除。

S2：分别计算待提取轨迹的目标车辆的目标车牌号与所述数据库中的除所述目标车牌号之外的每一所述车牌号的相似距离，并选取所述相似距离小于相似阈值的所述车牌号作为所述目标车牌号的相似车牌号；

S2中，先提取数据库内所有车辆通行数据的车牌号信息，包括省简称、城市代码加序号码、车牌颜色，以确定数据库中的除目标车牌号之外的每一车牌号。在此基础上，分别计算待提取轨迹的目标车辆的目标车牌号与数据库中的除目标车牌号之外的每一车牌号的相似距离可以包括：对于数据库中的除目标车牌号之外的每一车牌号，利用编辑距离计算公式计算目标车牌号的省简称与车牌号的省简称的编辑距离，得到第一距离；利用编辑距离计算公式计算目标车牌号的城市代码加序号码与车牌号的城市代码加序号码的编辑距离，得到第二距离；计算目标车牌号的车牌颜色与车牌号的车牌颜色的第三距离；对第一距离、第二距离和第三距离进行加权求和，得到相似距离。

其中，计算车牌号各要素(要素包括省简称以及城市代码加序号码)的编辑距离：通过构建计算循环，计算目标车牌与数据库内其他车牌号的编辑距离，所用的编辑距离计算公式为：

其中，dis_a,b(i,j)为字符串a第i个字符和字符串b第j个字符的编辑距离；利用上式即可通过逐步迭代的方式计算出总的编辑距离，即第一距离和第二距离。

计算车牌颜色的编辑距离：判断目标车牌号的车牌颜色与数据库内的其他车牌号的车牌颜色是否相同；若相同，则第三距离为0；若不同，则第三距离为1。

本实施例可自行定义第一距离、第二距离和第三距离的权重，比如可设置第一距离、第二距离和第三距离的权重分别为2、1、1，令每一距离乘以自己的权重再进行求和，即可得到相似距离。

基于上述过程，本实施例可得到目标车牌号与数据库中的除目标车牌号之外的每一车牌号的相似距离，并选取相似距离小于相似阈值的车牌号作为目标车牌号的相似车牌号，所有的相似车牌号可构建得到相似车牌备选库，从而针对需进行轨迹可信提取的目标车辆，进行相似车牌辨识，得到该目标车牌号的相似车牌号。本实施例可设置相似阈值为2，即若目标车牌与数据库内一车牌号的相似距离不超过2，则将该车牌号视为目标车牌号的相似车牌号，存入相似车牌备选库。

S3：从所述数据库中选取所述车牌号为所述目标车牌号的车辆通行数据，组成第一数据集合；对于每一所述相似车牌号，从所述数据库中选取所述车牌号为所述相似车牌号的车辆通行数据，组成第二数据集合；对所述第一数据集合和每一所述相似车牌号对应的所述第二数据集合进行选择性融合，得到融合后数据集合；

优选的，在对第一数据集合和如图4所示的每一相似车牌号对应的第二数据集合进行选择性融合之前，本实施例的车辆轨迹可信提取方法还可以包括：对目标车牌号及相似车牌号的采集数据分别进行异常数据剔除处理，即分别对第一数据集合和每一相似车牌号对应的第二数据集合进行异常数据剔除处理，得到新的第一数据集合和新的第二数据集合，再去进行选择性融合。

其中，异常数据剔除处理可以包括：

(1)将数据集合内的车辆通行数据按照采集时间的顺序进行排序；数据集合为第一数据集合或任一相似车牌号对应的第二数据集合；

(2)循环对比两条连续的车辆通行数据，在出现以下情况时予以剔除：对于数据集合内的任意两条连续的车辆通行数据，若两条连续的车辆通行数据为同一出入口处的ETC门架的采集数据，时间间隔(即采集时间的差值)小于第一时间阈值t1，且行进方向分别为出和入，则视该车辆改变出行意愿，并未使用高速公路，剔除两条连续的车辆通行数据；若两条连续的车辆通行数据属于同一门架或者同一组门架不同方向的采集数据，时间间隔小于第二时间阈值(可为5分钟)，则视为重复采集，保留两条连续的车辆通行数据中采集时间在前的车辆通行数据。优选的，在视为重复采集时，可先判断两条连续的车辆通行数据中是否存在特情值为空的数据，若存在，则保留特情值为空的数据中采集时间在前的数据，若不存在，则保留采集时间在前的数据。

需要说明的是，同一组门架是指位于同一位置的采集不同方向的两个门架。

本实施例通过评估车牌相似车辆采集数据的相似性，对相似度高的车辆采集数据进行可信融合，则S3中，对第一数据集合和每一相似车牌号对应的第二数据集合进行选择性融合，得到融合后数据集合可以包括：

(1)选取任一相似车牌号对应的第二数据集合作为第三数据集合；

(2)对第一数据集合和第三数据集合的数据量大小进行比较，选取数据量大的数据集合作为参考数据集合，选取数据量小的数据集合作为评估数据集合；

本实施例的数据量是指数据集合内所包括的车辆通行数据的个数，比如说，第一数据集合包括5个车辆通行数据，第三数据集合包括3个车辆通行数据，则认为第三数据集合的数据量小，将其作为参考数据集合。

(3)对于评估数据集合中的每一条评估数据，根据采集时间确定参考数据集合中的与评估数据的时间间隔最小的参考数据，记录该时间间隔最小的参考数据的采集时间、里程、行进方向、与该评估数据的时间间隔，并以时间间隔最小的参考数据作为评估数据的相似数据；评估数据和参考数据均为车辆通行数据；

(4)对于每一条评估数据，计算评估数据与评估数据的相似数据的时间间隔，并判断时间间隔的最小值是否小于第三时间阈值(可为60分钟)，得到第一判断结果；

(5)若第一判断结果为是，则对于每一条评估数据，计算评估数据与该评估数据的相似数据的相似度；计算所有评估数据对应的相似度的平均值，并判断平均值是否超过平均值阈值(可为0.7)，得到第二判断结果；

(6)若第二判断结果为是，则认为参考数据集合和评估数据集合为相似数据，将评估数据集合的车牌号替换为参考数据集合的车牌号，得到更新后集合，并将参考数据集合和更新后集合进行融合，得到初步融合集合；判断所有第二数据集合是否均已被选取；若是，则以初步融合集合作为融合后数据集合；若否，则随机选取一未被选取的第二数据集合作为下一循环的第三数据集合，以初步融合集合作为下一循环的第一数据集合，返回“对第一数据集合和第三数据集合的数据量大小进行比较”的步骤；

其中，计算评估数据与该评估数据的相似数据的相似度可以包括：

(6.1)计算评估数据与评估数据的相似数据的采集点距离；

如果评估数据与该评估数据的相似数据是在同一个ETC门架采集的数据，或者是连续两个ETC门架在规定时间内采集的数据，那么这两个数据很可能来自同一辆车。则计算采集点距离的方式为：若评估数据和相似数据是在同一个ETC门架或同一组ETC门架采集的，则采集点距离为0；若评估数据和相似数据是在连续两个(组)ETC门架采集的，则采集点距离为1；否则，采集点距离为评估数据和相似数据两者所经过的ETC门架的数量与1的和，此时的采集点距离大于1。

(6.2)若采集点距离为0，则判断评估数据和该评估数据的相似数据的时间间隔是否小于第四时间阈值(可为10分钟)，若是，视为同次采集数据，相似度为1，否则，相似度为0；若采集点距离为1，则判断评估数据和该评估数据的相似数据的距离差(即里程的差值)与时间间隔之比是否大于第一预设比值s1，若是，视两条数据为车辆运行过程中被采集的连续轨迹，相似度为1，否则，相似度为0；若采集点距离大于1，则判断评估数据和该评估数据的相似数据的距离差与时间间隔之比是否大于第二预设比值s2，若是，视两条数据为车辆运行过程中被采集的轨迹，但中间存在轨迹缺失，相似度为1，否则，相似度为0。

(7)若第一判断结果为否，或者第二判断结果为否，则视为轨迹之间无相互干扰，认为参考数据集合和评估数据集合为不相关车辆数据，判断所有第二数据集合是否均已被选取；若是，则以本次循环的第一数据集合作为融合后数据集合；若否，则随机选取一未被选取的第二数据集合作为下一循环的第三数据集合，以本次循环的第一数据集合作为下一循环的第一数据集合，返回“对第一数据集合和第三数据集合的数据量大小进行比较”的步骤。

如果目标车牌号没有相似车牌号，则无需执行融合步骤，直接以第一数据集合作为融合后数据集合，执行S4即可。

S4：对所述融合后数据集合进行单次出行数据拆分，得到所述目标车辆在所述分析时段内的若干条单次出行轨迹。

对于完成采集数据可信融合的融合后数据集合，进行单次旅程数据拆分，S4可以包括：将融合后数据集合内的数据按照采集时间的顺序排序；数据为车辆通行数据；判断第i-1条数据的行进方向；若为出，则将本条单次出行轨迹的起点和第i-1条数据以内的所有数据组成一条单次出行轨迹，以第i条数据作为下一条单次出行轨迹的起点，并令第i条数据为下一循环的第i-1条数据，返回“判断第i-1条数据的行进方向”的步骤，直至所有数据都已遍历；i>1；若不为出，则依据第i条数据和第i-1条数据的行进方向、里程差和时间间隔判断第i-1条数据和第i条数据是否需要更新；若不需要更新，则记录第i条数据，并以第i条数据作为下一循环的第i-1条数据，返回“判断第i-1条数据的行进方向”的步骤；若需要对第i条数据进行更新，则对第i条数据进行更新，记录更新后的第i条数据，并以更新后的第i条数据作为下一循环的第i-1条数据，返回“判断第i-1条数据的行进方向”的步骤；若需要对第i-1条数据和第i条数据进行更新，则对第i-1条数据和第i条数据进行更新，记录更新后的第i-1条数据和更新后的第i条数据，并以更新后的第i条数据作为下一循环的第i-1条数据，返回“判断第i-1条数据的行进方向”的步骤；直至所有数据都已遍历。

更为具体的，S4可以包括：

步骤1：若该融合后数据集合的数据量小于2，则视为目标车辆缺乏前后轨迹，结束分析；否则，将融合后数据集合内的数据按照时间顺序排序，并记录第一条数据，令是否为结束点的变量为panduan并赋值为0，数据抽取指针编号i＝2；

步骤2：判断第i-1条数据的行进方向，若行进方向为出，或panduan＝1，则视为第i-1条数据为本次出行的终止点，将记录数据保存，作为单次出行轨迹数据，并将第i条数据作为新的一次出行起点予以记录，panduan＝0，i＝i+1，否则做如下判断：

(1)若第i-1条数据的行进方向为进：

若第i条数据的行进方向为上行，该数据所在里程大于第i-1条数据的里程，且从第i-1条数据所在里程驱车至第i条数据所在里程的车速或时间满足规定阈值要求s3、t2，则视第i条数据与第i-1条数据隶属于同次出行，记录第i条数据，i＝i+1；

若第i条数据的行进方向为下行，该数据所在里程大于第i-1条数据的里程，且从第i-1条数据所在里程驱车至第i条数据所在里程的车速或时间满足规定阈值要求s3、t2，则视第i条数据与第i-1条数据隶属于同次出行，将第i条数据的行进方向改为上行，将第i条数据的里程更新为最近门架所在点位的里程，记录第i条数据，i＝i+1；

若第i条数据的行进方向为下行，该数据所在里程小于第i-1条数据的里程，且从第i-1条数据所在里程驱车至第i条数据所在里程的车速或时间满足规定阈值要求s3、t2，则视第i条数据与第i-1条数据隶属于同次出行，记录第i条数据，i＝i+1；

若第i条数据的行进方向为上行，该数据所在里程小于第i-1条数据的里程，且从第i-1条数据所在里程驱车至第i条数据所在里程的车速或时间满足规定阈值要求s3、t2，则视第i条数据与第i-1条数据隶属于同次出行，将第i条数据的行进方向改为下行，将第i条数据的里程更新为最近门架所在点位的里程，记录第i条数据，i＝i+1；

若均不满足上述情况，视为出行结束点，panduan＝1，返回步骤2。

(2)若第i-1条数据的行进方向为上行：

若第i条数据的行进方向为下行，该数据所在里程小于第i-1条数据的里程，且从第i-1条数据所在里程驱车至第i条数据所在里程的车速或时间满足规定阈值要求s3、t2，则视第i条数据与第i-1条数据隶属于同次出行，将第i-1条数据的行进方向更新为下行，且第i条数据的里程更新为同行进方向距离最近的ETC门架的里程点，记录第i条数据，i＝i+1；

(3)若第i-1条数据的行进方向为下行：

若第i条数据的行进方向为上行，该数据所在里程大于第i-1条数据的里程，且从第i-1条数据所在里程驱车至第i条数据所在里程的车速或时间满足规定阈值要求s3、t2，则视第i条数据与第i-1条数据隶属于同次出行，将第i-1条数据的行进方向更新为上行，且第i条数据的里程更新为同行进方向距离最近的ETC门架的里程点，记录第i条数据，i＝i+1；

步骤3：若所有数据均被遍历，记录被识别为同次出行轨迹的车牌号、起点、终点、起点时间和终点时间，作为单次出行轨迹，如图5所示。

在得到目标车辆在分析时段内的若干条单次出行轨迹之后，本实施例的车辆轨迹可信提取方法还包括：对每一条单次出行轨迹进行缺失判断，并对有缺失的单次出行轨迹进行标注。

具体的，对于提取出来的隶属于同次出行的单次出行轨迹数据，判断单次出行的起终点采集数据是否位于收费站或行进方向起终的ETC门架，判断起终点是否存在数据缺失，判断相邻时间两条采集数据间是否缺乏途径ETC门架点，判断是否存在ETC门架感知数据遗漏，记录起终点及途径ETC门架数据缺失情况，为收费稽核、ETC运行状态研判、ETC数据进一步开发利用提供基础。

为了克服现有高速公路ETC门架数据问题频发，车辆轨迹辨识精度不足的问题，本实施例提供一种基于ETC门架数据的车辆轨迹可信提取方法，包括以下步骤：1)基础数据采集：获取某一高速公路的出入口收费站ETC门架、路段ETC门架、分支匝道ETC门架采集的初始数据。2)数据预处理：初始数据的所在里程位置计算、采集数据行进方向标注、车牌数据标准化、重复数据剔除、数据建库，得到数据库。3)相似车牌辨识：对选定的目标车牌，提取数据库内其他车辆通行数据的车牌号，通过加权编辑距离识别各车牌号与目标车牌的相似距离，选取相似距离低于相似阈值的车牌号作为相似车牌号，并提取相似车牌号的车辆通行数据作为潜在轨迹补充数据。4)异常数据剔除处理：剔除改变出行意愿、ETC门架重复采集、双向ETC门架采集等重复数据。5)相似数据可信融合：构建时空相似度评分方法，分析车牌相近的采集数据的时空相似度，对于达到相似度评价标准的采集数据进行融合。6)单次旅程数据拆分：通过辨识连续采集数据的时空特征变化情况，拆分感知数据，记录单次里程情况。7)缺失数据标注：通过起终点行进方向标注，连续两条数据间途径ETC门架点情况，判断数据缺失情况，并对缺失数据予以标注。通过数据修正、融合、拆分，实现某一车辆单次出行车辆轨迹的可信提取，为高速公路收费稽核、ETC数据进一步开发利用提供数据基础。

实施例2：

本实施例用于提供一种基于ETC门架数据的车辆轨迹可信提取系统，如图6所示，所述车辆轨迹可信提取系统包括：

构建模块M1，用于构建数据库；所述数据库包括分析时段内，高速公路布置的每一ETC门架采集的若干条车辆通行数据；所述车辆通行数据包括里程、车牌号、采集时间和行进方向；所述车牌号包括省简称、城市代码加序号码以及车牌颜色；所述行进方向包括出、入、上行和下行；

相似车牌号确定模块M2，用于分别计算待提取轨迹的目标车辆的目标车牌号与所述数据库中的除所述目标车牌号之外的每一所述车牌号的相似距离，并选取所述相似距离小于相似阈值的所述车牌号作为所述目标车牌号的相似车牌号；

数据融合模块M3，用于从所述数据库中选取所述车牌号为所述目标车牌号的车辆通行数据，组成第一数据集合；对于每一所述相似车牌号，从所述数据库中选取所述车牌号为所述相似车牌号的车辆通行数据，组成第二数据集合；对所述第一数据集合和每一所述相似车牌号对应的所述第二数据集合进行选择性融合，得到融合后数据集合；

拆分模块M4，用于对所述融合后数据集合进行单次出行数据拆分，得到所述目标车辆在所述分析时段内的若干条单次出行轨迹。

本说明书中每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于ETC门架数据的车辆轨迹可信提取方法，其特征在于，所述车辆轨迹可信提取方法包括：

2.根据权利要求1所述的车辆轨迹可信提取方法，其特征在于，所述构建数据库具体包括：

获取分析时段内，高速公路布置的每一ETC门架采集的若干条初始数据；所述初始数据包括ETC门架桩号、初始车牌号、采集时间和ETC门架感知的车流流向；

对于每一条所述初始数据，将所述ETC门架桩号转换为里程；对所述初始车牌号进行数据标准化处理，得到车牌号；根据所述ETC门架感知的车流流向确定行进方向，得到车辆通行数据；所有所述车辆通行数据组成数据库。

3.根据权利要求1所述的车辆轨迹可信提取方法，其特征在于，所述分别计算待提取轨迹的目标车辆的目标车牌号与所述数据库中的除所述目标车牌号之外的每一所述车牌号的相似距离具体包括：

对于所述数据库中的除所述目标车牌号之外的每一所述车牌号，利用编辑距离计算公式计算所述目标车牌号的省简称与所述车牌号的省简称的编辑距离，得到第一距离；利用所述编辑距离计算公式计算所述目标车牌号的城市代码加序号码与所述车牌号的城市代码加序号码的编辑距离，得到第二距离；计算所述目标车牌号的车牌颜色与所述车牌号的车牌颜色的第三距离；

对所述第一距离、所述第二距离和所述第三距离进行加权求和，得到相似距离。

4.根据权利要求3所述的车辆轨迹可信提取方法，其特征在于，所述计算所述目标车牌号的车牌颜色与所述车牌号的车牌颜色的第三距离具体包括：

判断所述目标车牌号的车牌颜色与所述车牌号的车牌颜色是否相同；

若相同，则第三距离为0；若不同，则第三距离为1。

5.根据权利要求1所述的车辆轨迹可信提取方法，其特征在于，在所述对所述第一数据集合和每一所述相似车牌号对应的所述第二数据集合进行选择性融合之前，所述车辆轨迹可信提取方法还包括：分别对所述第一数据集合和每一所述相似车牌号对应的所述第二数据集合进行异常数据剔除处理，得到新的第一数据集合和新的第二数据集合；

其中，所述异常数据剔除处理具体包括：

将数据集合内的车辆通行数据按照采集时间的顺序进行排序；所述数据集合为所述第一数据集合或任一所述相似车牌号对应的所述第二数据集合；

对于所述数据集合内的任意两条连续的车辆通行数据，若两条连续的车辆通行数据为同一出入口处的ETC门架的采集数据，时间间隔小于第一时间阈值，且行进方向分别为出和入，则剔除两条连续的车辆通行数据；若两条连续的车辆通行数据属于同一门架或者同一组门架不同方向的采集数据，时间间隔小于第二时间阈值，则保留两条连续的车辆通行数据中采集时间在前的车辆通行数据。

6.根据权利要求1所述的车辆轨迹可信提取方法，其特征在于，所述对所述第一数据集合和每一所述相似车牌号对应的所述第二数据集合进行选择性融合，得到融合后数据集合具体包括：

选取任一所述相似车牌号对应的所述第二数据集合作为第三数据集合；

对所述第一数据集合和所述第三数据集合的数据量大小进行比较，选取数据量大的数据集合作为参考数据集合，选取数据量小的数据集合作为评估数据集合；

对于所述评估数据集合中的每一条评估数据，根据采集时间确定所述参考数据集合中的与所述评估数据的时间间隔最小的参考数据，并以所述时间间隔最小的参考数据作为所述评估数据的相似数据；所述评估数据和所述参考数据均为所述车辆通行数据；

对于每一条所述评估数据，计算所述评估数据与所述评估数据的相似数据的时间间隔，并判断所述时间间隔的最小值是否小于第三时间阈值，得到第一判断结果；

若所述第一判断结果为是，则对于每一条所述评估数据，计算所述评估数据与所述评估数据的相似数据的相似度；计算所有所述评估数据对应的相似度的平均值，并判断所述平均值是否超过平均值阈值，得到第二判断结果；

若所述第二判断结果为是，则将所述评估数据集合的车牌号替换为所述参考数据集合的车牌号，得到更新后集合，并将所述参考数据集合和所述更新后集合进行融合，得到初步融合集合；判断所有所述第二数据集合是否均已被选取；若是，则以所述初步融合集合作为融合后数据集合；若否，则随机选取一未被选取的所述第二数据集合作为下一循环的第三数据集合，以所述初步融合集合作为下一循环的第一数据集合，返回“对所述第一数据集合和所述第三数据集合的数据量大小进行比较”的步骤；

若所述第一判断结果为否，或者所述第二判断结果为否，则判断所有所述第二数据集合是否均已被选取；若是，则以本次循环的第一数据集合作为融合后数据集合；若否，则随机选取一未被选取的所述第二数据集合作为下一循环的第三数据集合，以本次循环的第一数据集合作为下一循环的第一数据集合，返回“对所述第一数据集合和所述第三数据集合的数据量大小进行比较”的步骤。

7.根据权利要求6所述的车辆轨迹可信提取方法，其特征在于，所述计算所述评估数据与所述评估数据的相似数据的相似度具体包括：

计算所述评估数据与所述评估数据的相似数据的采集点距离；

若所述采集点距离为0，则判断所述评估数据和所述评估数据的相似数据的时间间隔是否小于第四时间阈值，若是，则相似度为1，否则，相似度为0；

若所述采集点距离为1，则判断所述评估数据和所述评估数据的相似数据的距离差与时间间隔之比是否大于第一预设比值，若是，相似度为1，否则，相似度为0；

若所述采集点距离大于1，则判断所述评估数据和所述评估数据的相似数据的距离差与时间间隔之比是否大于第二预设比值，若是，相似度为1，否则，相似度为0。

8.根据权利要求1所述的车辆轨迹可信提取方法，其特征在于，所述对所述融合后数据集合进行单次出行数据拆分，得到所述目标车辆在所述分析时段内的若干条单次出行轨迹具体包括：

将所述融合后数据集合内的数据按照采集时间的顺序排序；所述数据为所述车辆通行数据；

判断第i-1条数据的行进方向；

若为出，则将本条单次出行轨迹的起点和第i-1条数据以内的所有数据组成一条单次出行轨迹，以第i条数据作为下一条单次出行轨迹的起点，并令第i条数据为下一循环的第i-1条数据，返回“判断第i-1条数据的行进方向”的步骤，直至所有数据都已遍历；i>1；

若不为出，则依据第i条数据和第i-1条数据的行进方向、里程差和时间间隔判断第i-1条数据和第i条数据是否需要更新；若不需要更新，则记录第i条数据，并以第i条数据作为下一循环的第i-1条数据，返回“判断第i-1条数据的行进方向”的步骤；若需要对第i条数据进行更新，则对第i条数据进行更新，记录更新后的第i条数据，并以更新后的第i条数据作为下一循环的第i-1条数据，返回“判断第i-1条数据的行进方向”的步骤；若需要对第i-1条数据和第i条数据进行更新，则对第i-1条数据和第i条数据进行更新，记录更新后的第i-1条数据和更新后的第i条数据，并以更新后的第i条数据作为下一循环的第i-1条数据，返回“判断第i-1条数据的行进方向”的步骤；直至所有数据都已遍历。

9.根据权利要求1所述的车辆轨迹可信提取方法，其特征在于，在得到所述目标车辆在所述分析时段内的若干条单次出行轨迹之后，所述车辆轨迹可信提取方法还包括：对每一条所述单次出行轨迹进行缺失判断，并对有缺失的单次出行轨迹进行标注。

10.一种基于ETC门架数据的车辆轨迹可信提取系统，其特征在于，所述车辆轨迹可信提取系统包括：