CN111340415B

CN111340415B - 一种基于货运轨迹数据的车辆自发编队模式挖掘方法

Info

Publication number: CN111340415B
Application number: CN202010093583.2A
Authority: CN
Inventors: 马晓磊; 霍恩泽; 李宏海
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2024-01-09
Anticipated expiration: 2040-02-14
Also published as: CN111340415A

Abstract

本发明公开了一种基于货运轨迹数据的车辆自发编队模式挖掘方法，根据每日海量货车轨迹数据，完成基于数据挖掘方法的货车自发编队模式搜索；并创新性的提出了全流程处理框架，通过设置七个数据库，使用改进的运程估算方法、地图匹配方法、P‑OPTICS算法等完成估算每辆货车当日货运行程、货车行程定位点地图匹配及坐标修复、热点线路及其挖掘时段拟定、每时刻货车编队集合挖掘、指定线路及时间段下货车自发编队模式挖掘及其评价等任务，从而在海量货运轨迹数据中抽取运程等关键信息同时，完成指定道路段或时间段下货车自发编队模式挖掘任务，从而在分析编队模式特征的同时为日后自动驾驶背景下的货车编队行驶工作提供业务参考。

Description

一种基于货运轨迹数据的车辆自发编队模式挖掘方法

技术领域

本发明涉及海量货运轨迹定位数据特征挖掘技术领域，特别涉及一种基于货运轨迹数据的车辆自发编队模式挖掘方法。

背景技术

随着我国经济的飞速发展与公路修建里程的大幅增加，公路货运规模连年提升并稳居我国货运行业主导地位。公路货运的蓬勃发展背后也带来了环境污染、能源危机及交通安全等问题，受到了社会各界的广泛关注。随着智能交通系统及智能车路协同系统的加快建设，一种主张货运卡车以较短间距队列行驶的新型运输方式——货车编队行驶将从根本上缓解公路货运存在的诸多污染及安全问题。目前，货车编队行驶已被欧美等发达国家封闭实验并验证其有效性与安全性，但仍处在实验场地调试运行阶段，尚未商业化或大规模化落地运行，目前货车编队行驶涉及到的主要技术要求如表1所示，运行方式如图1所示：

表1货车编队行驶涉及到的主要技术要求

随着自动驾驶技术与5G互联通信技术的不断发展，在路测装置配合下，该技术的落地实施将在不远的未来实现。得益于较低的货车间距，编队行驶中领头车辆与跟随车辆最高可减少32％空气阻力因而大幅节省燃油消耗，降低车队运营成本的同时减少了二氧化碳、氮氢化合物等有毒有害气体的排放；同时，相关技术可在较近跟车间距下有效降低应急反应时间并减少人为失误，进而减少追尾事故及拥堵发生、压缩道路空间使用量，增强道路通行能力。

但是，该技术的实现离不开自动驾驶技术在货运车辆中的不断普及、车辆网通信技术的不断覆盖及重点道路相关基础设施的不断健全，其商业化与大规模实施仍需一定时间。当前我国已健全各省货运联网联控平台以监控重点货运车辆每日轨迹数据及其运输及车辆状态，每日均可积累海量轨迹数据。考虑到货运编组在后期推行中涉及到重点建设道路段挖掘、可行性及应用前景分析等诸多事宜，同时当前货运中已存在货运车辆群在短暂时段内体现自发编队行驶特征，开发一种框架及其挖掘技术以揭示分析省内货车自发编队行驶规模及特征对后期货运编队行驶技术落地应用具有较高指导意义。

因此，如何依靠海量货运轨迹定位数据进行货车自发编队模式挖掘及其框架构建是该领域技术人员亟需解决的问题。

发明内容

鉴于上述问题，本发明提供一种至少解决上述部分技术问题的基于货运轨迹数据的车辆自发编队模式挖掘方法，该方法在海量货运轨迹数据中抽取运程等关键信息同时，完成指定道路段或时间段下货车自发编队模式挖掘任务，从而在分析编队模式特征的同时为日后自动驾驶背景下的货车编队行驶工作提供业务参考。

本发明实施例提供一种基于货运轨迹数据的车辆自发编队模式挖掘方法，包括：

第一步：采集拟挖掘自发编队模式省份的当日货车定位数据并提取关键字段，准备路网地理数据文件：从货运车辆定位监控系统抽取单日收集到的小时数据，以车辆为单位依次抽取当日轨迹定位数据，提取识别信息、定位信息、驾驶信息并加入货运车辆轨迹数据库；从地图数据库抽取道路信息，划分高速公路、国道、省道、普通道路并附加对应行驶速度限速字段，形成路网地理数据文件；

第二步：轨迹数据清洗：抽取所述货运车辆轨迹数据库中每个轨迹数据，依次以单个货车轨迹数据为单位根据预设准则进行数据清洗；

第三步：切分货运行程：抽取经过数据清洗的货运车辆轨迹数据库中每个轨迹数据，筛选有效货运行程定位点并初步划分货运行程序号，结合该货车当日货运特征确定货运行程终止合理时间阈值以聚合初步货运行程序号，形成货运行程信息并加入运程数据库；

第四步：完成地图匹配及定位修复：抽取所述运程数据库中的每条运程数据，按照起、终点指示的索引号抽取对应车辆定位数据；根据轨迹定位点与候选道路间垂线距离、角度差异及速度差异，寻找每个所述定位数据对应的最佳道路段，将原始定位修复至最佳对应道路垂点并记录对应最佳道路段序号、名称、道路等级及道路宽度信息，并将添加信息后的定位数据以运程为单位添加入匹配数据库；

第五步：使用多源数据及地理信息软件验证货运行程切分效果：对于货运行程起、终点及全程定位均在分析省内的运程，采用货运调查数据起、终点均在对应分析省内的运距同切分货运行程运距分布特征进行比对，评价货运行程大体切分效果；

对于货运行程起、终点任意一点或全部处于分析省外的货运行程，采用地理信息软件分析其当日货运轨迹并与切分货运行程结果进行比对，评价货运行程大体切分效果；

第六步：分析道路使用情况并确定重点道路段及其挖掘时段：在给定道路等级的前提下，抽取所述路网地理数据文件中对应道路数据；以道路唯一识别号为连接字段汇总所述匹配数据库中对应出现在该路段的货车个数，确定挖掘道路段；统计并分析不同小时出现在所述道路段的货车个数，确定挖掘时段；

第七步：确定待分析轨迹库及其对应时间信息库与车辆信息库，修复异常定位时间：从所述匹配数据库和所述运程数据库中，抽取所述挖掘时段内通过目标挖掘道路段的运程信息及其对应定位数据，加入待分析轨迹库；

迭代所述待分析轨迹库内定位数据集的起、终点时间以确定自发编队搜索时间范围，按照货运定位装置更新时间及频率划分分析时间戳，结合时间戳唯一识别代码共同加入时间信息库；迭代所述待分析轨迹库内定位数据以修复异常时间值，同时将对应车辆唯一识别字段结合从0开始的车辆唯一识别代码共同加入车辆信息库；

第八步：确定每一时刻下的编队车辆集合，加入编队特征库：迭代所述时间信息库中时间戳信息，由所述待分析轨迹库抽取当前时间戳下存在定位信息的全部货车定位数据，逐时间戳按照编队车辆集合特征要求，使用P-OPTICS算法挖掘体现编队特征的全部车辆集合，并将涉及到的所述车辆唯一识别代码、时间戳唯一识别代码、车辆所属编队集合代号、车辆当前时间戳下经纬度信息加入编队特征库；

第九步：挖掘货车自发编队模式：抽取所述编队特征库中全部时间戳下的车辆自发编队信息，采用改进后的时、空二维闭频繁挖掘算法，综合使用Apriori剪枝、闭频繁挖掘算法，寻找体现自发编队特征时间最长的最大货车集合，以完成自发编队模式挖掘任务；

第十步：检验自发编队模式挖掘效果：评估目标挖掘道路在分析时段内货车自发编队行驶规模。

与现有技术相比，本发明公开提供了一种基于货运轨迹数据的车辆自发编队模式挖掘方法，具有如下优点：

(1)本发明结合当前货运车辆定位系统数据特点及人工调查数据及分析省内路网数据文件特征，针对挖掘货车自发编队行驶模式这一挖掘目的，开发出一套从定位系统原始数据抽取每日货车轨迹数据并开展运程切分与地图匹配，后经过重点分析路段及时间段筛选涉及货运定位数据，判断每时刻编队特征集合并最终跨时刻获得货车自发编队模式的系列流程，并构建出对应数据库及其包含数据内容框架，具有较强的实施效果及应用价值。

(2)本发明在达成最终自发编队模式挖掘之前，为保证挖掘质量及提高挖掘速度而进行的运程切分及其核验、定位点地图匹配及矫正过程针对货运行程特征及海量货运定位数据进行了适配。其中，运程切分及其核验在将货运行程划分为省内运输及跨省运输下，差异性制定划分阈值，提高运程划分针对性及有效性；定位点地图匹配及矫正过程综合运用距离、角度及速度标准，在保障较高计算速度的前提下，利用三种判断方法提高了匹配及其矫正效果；

(3)本发明提出并确定了货车自发编队模式的定义，并通过改进的P-OPTICS算法，在考虑同方向性、同道路性及可协调性三种有利于后期协调近距离车间距编队行驶的判断方法下，确定每一时刻存在编队特征的最大车辆集合，改善了目前学术及工程界使用固定搜索半径导致的编队特征车辆集合估算偏低、搜索连续性较差等问题；

(4)本发明在提出基础自发编队模式后，给出了一种挖掘体现自发编队特征时间最长的最大货车集合具体办法，通过综合使用剪枝方法、时空二维闭频繁判断方法等，压缩搜索任务的同时有效提高挖掘结果可读性；

(5)本发明对拟挖掘自发编队模式使用的货运轨迹数据字段要求较少，且具有在我国各省份评估货运自发编队模式应用潜力；同时，发明所述的数据库框架可真实搭建，从而在指定挖掘道路与时间段下实现全流程自动挖掘目标。

因此，综上所述，本发明提供的基于货运轨迹数据的车辆自发编队模式挖掘方法因其较广的适应性可在任意省份下完成货车自发编队模式挖掘任务，提出的具体处理框架还可在处理流程中获得该省份具体货运行程信息及其对应各道路使用情况，拓展了发明的使用纬度。得益于较强的可行性与实用性，该发明可通过揭示呈现自发编队特征车辆集合特点，为任意省份下阶段该业务落地实施涉及到的可行性研究及道路基础设施改造提供指导。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为货运车辆自发编队行驶概念及实施图；

图2为本发明实施例提供的基于货运轨迹数据的车辆自发编队模式挖掘方法的简要流程图；

图3为本发明实施例提供的基于货运轨迹数据的车辆自发编队模式挖掘方法的框架构建图；

图4为本发明实施例提供的基于货运轨迹数据的车辆自发编队模式挖掘方法的操作流程图；

图5为本发明实施例提供的待提取有效货运行程定位点及初步货运行程划分操作流程图；

图6为本发明实施例提供的聚合初步货运行程划分以得到货运行程信息操作流程图；

图7为本发明实施例提供的分析省省内运输货运行程切分结果与货运调查就运距的几个指标高斯拟合概率分布比较图；

图8为本发明实施例提供的分析省内高速公路不同路段不同小时货运车辆使用次数分布图；

图9为本发明实施例提供的使用P-OPTICS算法得到的每时刻编队集合划分结果图；

图10为本发明实施例提供的G1高速公路在分析日期自发编队模式内货运车辆数目分布图；

图11为本发明实施例提供的G1高速公路在分析日期自发编队模式内编队时长分布图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明中涉及的轨迹数据是时空环境下，通过对一个或多个移动对象运动过程的采样所获得的数据信息，包括采样点位置、采样时间、速度等，这些采样点数据信息根据采样先后顺序构成了轨迹数据。轨迹数据即包括一系列的定位数据，一系列的定位数据构成轨迹数据。

参见附图2、附图3和附图4，本发明实施例公开了基于货运轨迹数据的车辆自发编队模式挖掘方法，具体包括如下步骤：

第一步：采集拟挖掘自发编队模式省份的当日货车定位数据并提取关键字段，准备路网地理数据文件：从货运车辆定位监控系统抽取单日收集到的小时数据，以车辆为单位依次抽取当日轨迹定位数据，提取识别信息、定位信息、驾驶信息并加入货运车辆轨迹数据库；从比如OpenStreetMap等地理数据库抽取道路信息，划分高速公路、国道、省道、普通道路并附加对应行驶速度限速字段，形成路网地理数据文件；

其中，上述货运车辆轨迹数据库中每个货运轨迹数据需包含的核心字段如下表2所示，其中标注星号的字段为拓展后期研究分析的可选字段：

表2核心字段

上述的抽取货车当日轨迹定位数据，需考虑车辆定位装置传输问题、系统建构与技术细节等问题造成的货运车辆定位监控系统丢失当日多个小时数据情况，在保障监控系统在所选日期24个小时上报数据齐全前提下，从货运车辆定位监控系统抽取当日收集到的小时数据并汇总至同一文件，后以车辆为单位依次抽取该车当日轨迹定位数据。

上述的路网地理数据文件需包含的核心信息及文件格式要求如下表3所示，其中标注星号的字段为拓展后期研究分析的可选字段：

表3核心信息及文件格式要求

第二步：轨迹数据清洗：抽取货运车辆轨迹数据库中每个轨迹数据，依次以单个货车轨迹数据为单位进行数据清洗。比如：若当前轨迹数据中存在定位时间、经度及纬度字段丢失定位记录，则删除对应定位记录；若当前轨迹数据中存在同一定位时间下的多条定位记录，则删除对应的重复定位记录；若当前轨迹数据中存在任意两个GPS点间使用做定位时间及定位距离差异推算位移速度超过货车在高速公路行驶最高限速的50％(比如150公里/小时)的定位记录，则删除整个轨迹数据。

第三步，切分货运行程：抽取经过清洗的货运车辆轨迹数据库中每个轨迹数据，筛选有效货运行程定位点并初步划分货运行程序号，结合该货车当日货运特征确定货运行程终止合理时间阈值以聚合初步货运行程序号，后分别形成货运行程信息并加入运程数据库。

上述的筛选有效货运行程定位点并初步划分货运行程序号应按照以下流程实施：

S31：从轨迹数据第一条定位记录开始，设置当前货运行程序号为1，当出现速度为0的定位记录且从该记录开始后续序号连续的定位仪速度为0的定位记录持续时间超过预设分钟时，比如3分钟(假设满足上述条件的最后一个定位仪速度为0的定位记录序号为n)，则认为当前货运行程中断，轨迹数据中定位记录序号为1至定位记录序号为n的原始轨迹数据，其中速度为0的定位记录的停止标记为1，速度不为0的定位记录的停止标记为0；

S32：货运行程序号自增1，在未迭代至轨迹数据集最后一条数据时，从定位记录序号为n+1的定位记录处重复S31步骤操作；

S33：重复S32步骤迭代过程，直到迭代至轨迹数据最后一条定位记录时停止；

S34：删除轨迹数据集中停止标记为1的定位数据，剩余轨迹数据即为车辆有效货运行程定位点。

上述的结合该货运车辆当日货运特征确定货运行程终止合理时间阈值以聚合初步货运行程序号，其具体实施过程为：

S301：迭代抽取运程数据库中存在的货运车辆，抽取当前货运车辆的有效货运行程定位点，从货运行程序号1开始迭代抽取其货运行程信息及其对应的定位数据。当货车当日货运行程均为省内运输(运程起、终点均在省内且中途定位均在省内)时，货运行程终止合理时间阈值应设置为X分钟(比如5分钟)，即车辆有效货运行程定位点中前后两个货运行程序号结束与开始时间差低于X分钟时，应将两个货运行程予以聚合，并将两个原始货运行程序号对应定位记录的货运行程序号予以更新；当货车当日存在跨省运输(运程起、终点中任意一点或全部位于省外)时，货运行程终止合理时间阈值应设置为Y分钟(比如30分钟)，其聚合方式与上述当日货运行程均为省内运输的车辆有效货运行程定位点相同；

S302：将S301步骤中涉及到的货运行程信息用经S301步骤处理后的货运行程信息替代；

S303：重复S301、S302步骤直至聚合处理至当前货运车辆有效货运行程定位点最后一个货运行程序号及其对应的定位记录；

S304：重复S301、S302、S303步骤直至货运车辆轨迹数据库中全部货运车辆都已处理完毕。

上述的抽取货运行程信息并加入运程数据库，其具体实施过程为：

S3001：迭代抽取聚合后的车辆有效货运行程定位点中不同货运行程序号对应的定位记录，依据首末定位记录确定当前货运行程的起止时间、货运行程总时间及对应的原始轨迹数据定位记录序号，依据定位记录间坐标推算的距离之和作为总运距(并在数据包含车辆总里程字段的前提下进行核验)、结合货运行程总时间得到货运行程平均速度；

S3002：重复S3001步骤直至搜索至当前车辆有效货运行程定位点中最后一货运行程序号对应定位记录。

S3003：汇总上述货运行程特征数据，得到对应货车的当日货运行程，加入至运程数据库；

S3004：重复S3001、S3002、S3003步骤直至全部货运车辆对应的聚合后的车辆有效货运行程定位点数据均处理完毕。

第四步，完成地图匹配及定位修复：抽取运程数据库中的每条运程数据，按照起、终点指示的索引号抽取对应车辆定位数据，在综合考虑轨迹定位点与候选道路间垂线距离、角度差异及速度差异下，寻找每个定位数据对应的最佳道路段，对该定位记录增添在对应最佳匹配道路上的垂点坐标并记录对应最佳道路段序号、名称、道路等级及道路宽度等信息，并将添加信息后的定位数据以运程为单位添加入匹配数据库。

其中，轨迹定位点与候选道路间垂线距离、角度差异及速度差异，其具体要求为：

距离标准：定位点与其最佳对应道路间垂线距离在最佳对应道路为普通公路(国道、省道、普通道路)时不应高于50米、最佳对应道路为高速公路时不应高于75米；

角度标准：定位点与最佳对应道路间角度绝对值差异不应高于30度；

速度标准：定位点速度应高于最佳对应道路最低限速；

上述的寻找每个定位数据对应的最佳道路段，其具体判断过程为：

判断方法1：若定位点与候选道路同时满足距离标准、角度标准及速度标准，则该候选道路为定位点的最佳匹配道路；

判断方法2：若定位点与候选道路垂线距离及角度差异均满足标准，定位点及前后点中存在对应行驶速度为0点，则该候选道路为定位点的最佳匹配道路；

判断方法3：若定位点与候选道路仅满足角度差异要求，且定位点前后两个记录均为经过判断方法1断定的行驶在该候选道路上，则该候选道路为定位点的最佳匹配道路。

经过上述流程，对应定位数据中的每个定位记录，增添在对应最佳匹配道路上的垂点坐标并记录对应最佳道路段序号、名称、道路等级及道路宽度信息，后以运程为单位加入匹配数据库。

第五步，使用多源数据及地理信息软件验证货运行程切分效果：对于货运行程起、终点及全程定位均在分析省内的运程，采用货运调查等人工调查数据起、终点均在对应分析省内的运距同切分货运行程运距分布特征进行比对，评价货运行程大体切分效果；对于起、终点任意一点或全部处于分析省外的货运行程，采用地理信息软件分析其当日货运轨迹并与切分货运行程结果进行比对，评价货运行程大体切分效果。

上述的切分货运行程运距分布特征，需从运程数据库中抽取货运行程起、终点及全程定位数据均在分析省内的货运行程及其对应定位记录，按照定位记录是否包含位于高速公路定位点以判断其是否使用过高速公路，划分为经由高速公路货运行程(存在位于高速公路定位点)与全程使用普通公路(国道、省道及普通道路)货运行程(不存在位于高速公路定位点)并分别统计其货运距离，具体统计指标如下表4所示：

表4

运程特征	统计指标
		经由高速公路	货运总里程、高速里程、普通公路里程
全程使用普通公路	货运总里程

上述的货运调查数据分布特征，需从货运调查数据中抽取起点及终点均在分析省内的对应货运行程，按照每个货运行程记录中高速里程字段记录值，划分为经由高速公路货运行程(高速里程字段值不为0)与全程使用普通公路(国道、省道及普通道路)货运行程(高速里程字段值为0)并分别统计其货运距离，具体统计指标如下表5所示：

表5

上述的货运距分布特征比对，需将切分货运行程运距分布特征与货运调查数据分布特征中按照货运行程类别比对不同统计指标就平均值、分布趋势等方面差异程度，其中分布趋势可采用核密度估计绘制概率密度分布曲线以便于对比，具体对比项目如下表6所示：

表6

上述的使用货运调查数据评价货运行程大体切分效果，需根据切分货运行程运距和货运调查数据相似度进行判断：若上述4个对比项目均为平均值差异较小、分布趋势大体相同，则货运行程起、终点及全程定位均在分析省内的货运行程切分效果良好；若差异较大，则调整货运行程切分过程中当日货运行程为省内运输的货运行程终止合理时间阈值。

上述的采用地理信息软件分析货运轨迹并与切分货运行程结果进行比较，其具体实施过程为：

S51：抽取运程数据库中货运行程起、终点任意一点或全部处于分析省外的货运行程，并随机抽取一定比例货运行程；

S52：从货运轨迹数据库中抽取该货车当日全部定位数据，比如借助QGIS、ArcGIS等软件结合卫星地图，判断其运程划分是否正确；

S53：统计上述抽样货运行程划分正确所占百分比，比对评估货运行程切分效果；

S54：当比对效果较差时，改变第三步中针对当日存在跨省运输特征(货运行程起、终点中任意一点或全部位于省外)货车的货运行程终止合理时间阈值，比如改用20分钟、40分钟、60分钟等多个可选值，重复S51、S52、S53步骤以评估货运行程切分效果，选取准确度最高的时间阈值作为当前分析省的最佳跨省运输货运行程终止合理时间阈值，并将阈值下的货运行程信息替代运程数据库中对应货运记录。

第六步，分析道路使用情况并确定重点道路段及其挖掘时段：在给定道路等级如高速公路的前提下，抽取路网地理数据文件中对应道路数据，汇总运程数据库及其对应的匹配数据库中途径该等级道路的定位记录，以道路唯一识别号为连接字段汇总匹配数据库中对应出现在各个路段的货车个数，以辅助确定挖掘道路段；统计并分析不同小时出现在挖掘道路段的货车个数，进而确定具体挖掘时段。

第六步中需从重点道路段及其挖掘时段确定后续挖掘方向，其具体实施包括：

通过遍历运程数据库中每个货运行程，记录其对应匹配定位数据中位于指定道路等级如高速公路的定位点通过的道路唯一识别号(重复出现的道路唯一识别号仅统计依次)，迭代汇总分析省内指定道路等级各路段货运车辆出现次数，继而从空间上筛选挖掘自发编队行驶模式的重点道路段；

将上述重点道路段视作单一路段，统计不同小时定位记录出现在该路段的货运车辆数目，统计并分析其分布特点，进而从时间纬度上确定具体挖掘时段。

第七步，确定待分析轨迹库及其对应的时间信息库与车辆信息库，修复异常定位时间：从运程数据库中抽取对应匹配数据库中在指定挖掘时段内使用过挖掘道路的全部货运行程，并将运程信息及其对应定位数据加入待分析轨迹库；迭代待分析轨迹库中每个定位数据，汇总起、终点时间以确定自发编队搜索时间范围，参考货运车辆定位监控系统派发的定位装置定位更新频率及其标准更新时间，结合上述的起、终点时间划分分析时间戳，并为每一分析时间戳赋唯一识别代码，组成时间信息库；迭代待分析轨迹库内定位数据集，以最近邻时间为标准修复定位数据中定位时间未在标准更新时间上的异常时间值，并取得待分析轨迹库内涉及到的全部车辆牌照，结合车辆唯一识别代码，组成车辆信息库。

为保障后续挖掘工作顺利进行，第七步中需构建待分析轨迹库、时间信息库与车辆信息库，其具体构建过程为：

待分析轨迹库：迭代运程数据库中每个运程信息及其匹配数据库中的定位数据，若存在指定挖掘时段内位于待挖掘道路的定位记录，则将该运程信息及其定位数据加入待分析轨迹库内。

时间信息库：迭代待分析轨迹库中每个定位数据，汇总起、终点时间以确定自发编队搜索时间范围。参考货运车辆定位监控系统派发的定位装置定位更新频率及其标准更新时间，结合上述的起、终点时间划分分析时间戳，并为每一分析时间戳赋唯一识别代码，组成时间信息库。

车辆信息库：迭代待分析轨迹库内定位数据集，以最近邻时间为标准修复定位数据中定位时间未在标准更新时间上的异常时间值，并取得待分析轨迹库内涉及到的全部车辆牌照，结合车辆唯一识别代码，组成车辆信息库。

第八步，确定每一时刻下的编队车辆集合，加入编队特征库：迭代时间信息库中时间戳信息，由待分析轨迹库抽取当前时间戳下存在定位信息的全部货车定位数据，逐时间戳按照编队车辆集合特征要求，使用P-OPTICS算法挖掘体现编队特征的全部车辆集合，并将涉及到的车辆唯一识别代码、时间戳唯一识别代码、车辆所属编队集合代号、车辆当前时间戳下经纬度信息加入编队特征库。

上述的任意时间戳下的编队车辆集合特征，其具体要求为：

同方向性：某时间戳下处在同一编队内的货车，其定位数据对应的行驶方向差异值不应大于30度，即编队内货车应行驶方向相同。

同道路性：某时间戳下处在同一编队内的货车，需满足所在定位数据对应的道路段唯一识别号码相同，即编队内货车应处在同一道路。

可协调性：某时间戳下处在同一编队内的货车，需满足任意货车沿道路向前后搜索给定距离(如1公里)均可找到至少一辆位于该编队内其他货车，即编队内货车应具有微调以形成编队行驶条件。

其中，挖掘体现编队特征的全部车辆集合使用的P-OPTICS算法，其具体特性为：

对于给定时间戳下任意两货车定位点x₁、x₂之间距离函数distance(x₁,x₂)时考虑两定位点角度差异与所在道路差异，具体计算方法如下所示，其中dir₁、dir₂分别为两定位点货车行驶方向，road₁、road₂分别为两定位点货车所处道路唯一识别号码：

。

上述的挖掘体现编队特征的全部车辆集合使用的P-OPTICS算法，具体包括：

S81：选定P-OPTICS算法初始参数：车辆间最大协调距离∈和编队内部最小车辆数Μ，根据编队行驶目标及可协调性要求，车辆间最大协调距离v设置为1千米，编队内部最小车辆数Μ设置为2；

S82：计算当前时间戳下每个货车定位数据点在给定车辆间最大协调距离∈和编队内部最小车辆数Μ下的可达距离并按照搜索顺序绘制可达距离图；

S83：根据可达距离图中可达距离分布情况，判断当前时间戳下在相同道路同向行驶的货车间间距分布情况，选择最终车辆间最大协调距离∈′(∈′≤∈)；特别的，在编队行驶及其相关货车自动驾驶技术还未实际落地实施之前，比如该参数可维持在货车间可微调以编队行驶的1千米；

S84：根据车辆间最大协调距离∈′和编队内部最小车辆数Μ，对当前时间戳下货车定位数据集合进行划分并返回车辆唯一识别代码及其对应的所属编队集合代号(从0开始依次递增)。特别的，不属于任意车辆编队的货车应使用统一集合代号标记，如-1。

第九步，挖掘货车自发编队模式：抽取编队特征库中全部时间戳下的车辆自发编队信息，采用改进后的时、空二维闭频繁挖掘算法，综合使用Apriori剪枝、闭频繁挖掘等多种理念，寻找体现自发编队特征时间最长的最大货车集合。

上述的自发编队模式，其含义是体现出编队特征时间(可不连续)最长的最大货车集合。基础的，一个满足基础自发编队模式的货车集合具体需满足以下三大要求：

编队车辆数目要求：对于呈现自发编队模式的货车集合O而言，其包含的货车数目|O|应高于2辆，即|O|≥2；

编队同行时间要求：对于呈现自发编队模式的车辆集合O而言，其包含的货车属于P-OPTICS算法指示的同一个编队集合的时间戳(不要求连续)应超过2个。即，对于货车集合O内的n辆车而言，至少存在超过两个时间戳t_i与t_j，使得成立，其中表示车辆o_j在时间戳t_i下属于的P-OPTICS算法指示的编队集合代号；

编队车辆从属要求：对于呈现自发编队模式的车辆集合O而言，其包含的货车应在该模式对应的编队时间T下(不要求连续)中任一时间戳t_i(t_i∈T,i＝1,2,…,n)属于P-OPTICS算法指示的同一编队集合。

对于满足上述要求的全部车辆集合，称作满足基础自发编队模式，即n辆车组成的车辆集合O在不要求连续的时间戳集合T内自发形成编队行驶。

上述的货车自发编队模式应在已有的基础自发编队模式下进行提炼，其需满足的两大要求是：

编队同行时间不可增加性：对于在时间戳集合T内满足基础自发编队模式的车辆集合O而言，时间信息库中不应含有任意时间戳集合T′使车辆集合O满足基础自发编队模式要求且该时间戳集合T′是时间戳集合T的超集

编队车辆数目不可增加性：对于在时间戳集合T内满足基础自发编队模式的车辆集合O而言，车辆数据库中不应含有任意车辆集合O′在同样的时间戳集合T′下满足基础自发编队模式要求且该车辆集合O′是车辆集合O的超集

上述的改进后的时、空二维闭频繁挖掘算法，其算法核心理念是：给定某一时间戳集合，满足货车自发编队模式的最大货车集合无法被唯一确定；相反的，给定某一货车集合，满足货车自发编队模式的最大时间戳集合将被唯一确定。通过上述核心理念，寻找体现自发编队特征时间最长的最大货车集合这一挖掘目标，被转化为寻找符合货车自发编队行驶时间要求的货车集合及其对应的体现自发编队特征的最大时间戳集合，并保留其中相同时间戳集合下的最大车辆集合。

改进后的时、空二维闭频繁挖掘算法，其具体挖掘技术及原理为：

基于货车序号的深度优先挖掘顺序：对于车辆信息库的所有车辆，使用深度优先树的搜索办法，从不包含任意车辆的根节点出发，依次沿某一车辆及包含该车辆的可能车辆集合纵向搜索，迭代地从全部车辆向深度出发，直至搜索完所有可能货车集合；

时间集合递减性剪枝：假设对于挖掘中寻找的车辆集合O而言，其满足自发编队行驶的最大时间戳集合(即目标挖掘自发编队行驶模式)为T，则对于任意该车辆集合O的超集O′而言，其满足自发编队行驶的最大时间戳集合T′必然是集合T的子集，即T′∈T。显而易见的，若车辆集合O对应的最大时间戳集合T内时间戳个数|T|小于2，则该节点应给予剪枝处理，不再往纵向深处搜索；

回溯式判断剪枝：受自发编队模式挖掘中“编队车辆数目不可增加性”要求，对于呈现出编队特征(可不连续)时间戳高于2个的货车集合O及其对应的时间集合T，在先前搜索记录中不应存在任意车辆集合O′(O′＝O+o_i，其中i小于集合O中最大车辆唯一识别代码且与集合O中已有车辆唯一识别代码不同)对应编队特征时间戳集合也为T。于是，对于深度优先检索到的车辆集合O及其对应的含有时间戳超过2个的时间集合T而言，回溯式判断剪枝将查找先前是否存储在处理过的时间集合同为T的车辆集合O超集O′，若超集O′存在，则当前车辆集合O处应给予剪枝处理，不再往纵向深处搜索；

举例而言，将挖掘任务的车辆信息库O_set考虑为包含o₁至o₆共六辆货车，考虑到深度优先树的挖掘特征，在针对某一货车逐层先深度后广度挖掘时，{o₁,o₅}这一检索总会在{o₁,o₄,o₅}后出现，此时若{o₁,o₅}与{o₁,o₄,o₅}两个车辆集合均在时间集合T下属于同一编队集合，则{o₁,o₅}这一同样在时间集合T满足要求的叶子节点将被剪枝：乐观假设，即使{o₁,o₅}后的车辆集合{o₁,o₅,o₆}满足编队特征的时间集合T′＝T，但先前检索的{o₁,o₄,o₅}中指示的与o₁,o₅同时出现的o₄并未出现在该车辆集合内，且受深度优先树所搜特点影响，{o₁,o₄,o₅,o₆}早已被检索且在该假设条件下被证明为对应时间集合为T，故{o₁,o₅,o₆}不可能服从“体现出编队特征时间(可不连续)最长的最大货车集合”特征。需要指出的是，在算法检索{o₁,o₅}时，加入的车辆应为唯一识别代码在o₅前且不属于{o₁,o₅}车辆集合中任意车辆唯一识别代码，即剪枝原则中的“回溯式”概念。

扩展式输出判断：依据深度优先树搜索特征，对于车辆信息库O_set而言，其将在搜索完毕车辆o_i所有可能车辆集合后再搜索车辆o_j所有可能车辆集合(i<j)。扩展式输出判断与上述剪枝方法相异，其核心不为剪枝而是对经过“回溯式判断剪枝”、“时间集合递减性剪枝”剪枝后的剩余节点是否为“体现出编队特征时间(可不连续)最长的最大货车集合”进行判断，具体实施方法为：在深度优先树搜索完毕车辆o_i所有可能车辆集合后，反向寻找已生成的未被剪枝节点，并在判断节点(对应时间集合为T的车辆集合O)处加入序号大于O中最大车辆序号的货车若加入货车o_j的车辆集合O′对应时间集合T′＝T，则当前对应时间集合为T的车辆集合O不为“体现出编队特征时间(可不连续)最长的最大货车集合”，即不满足自发编队模式；若加入全部可能o_j的集合O′对应时间集合T′均为T的真子集或被“回溯式判断剪枝”、“时间集合递减性剪枝”剪枝，则当前对应时间集合为T的车辆集合O为“体现出编队特征时间(可不连续)最长的最大货车集合”，即满足自发编队模式。

第十步，检验自发编队模式挖掘效果：从体现货车自发编队行驶特征的道路段分布情况、体现货车自发编队行驶特征的货车集合共同行驶时间及其组内车辆数目分布情况、体现货车自发编队行驶特征的货车集合在协调编队行驶背景下燃油节省情况等方面评估目标挖掘道路在分析时段内货车自发编队行驶规模，为下阶段货运车辆实现自动驾驶背景下实施编队行驶技术提供业务参考。

本发明公开了一种基于货运轨迹数据的车辆自发编队模式挖掘方法，根据货运车辆定位监控系统每日海量货车轨迹数据，构建了基于数据挖掘方法的货车自发编队模式搜索方法；并创新性的提出了全流程处理框架，通过设置“货运车辆轨迹数据库”、“运程数据库”、“匹配数据库”、“待分析轨迹库”、“车辆信息库”、“时间信息库”、“编队特征库”共七个数据库，使用改进的运程估算方法、地图匹配方法、P-OPTICS算法等完成“由货运车辆定位监控系统抽取当日车辆级轨迹数据”、“估算每辆货车当日货运行程”、“货车行程定位点地图匹配及坐标修复”、“热点线路及其挖掘时段拟定”、“每时刻货车编队集合挖掘”、“指定线路及时间段下货车自发编队模式挖掘及其评价”等任务，从而在海量货运轨迹数据中抽取运程等关键信息同时，完成指定道路段或时间段下货车自发编队模式挖掘任务，从而在分析编队模式特征的同时为日后自动驾驶背景下的货车编队行驶工作提供业务参考。

下面结合具体实例来进一步说明本发明提供的基于货运轨迹数据的车辆自发编队模式挖掘方法。

在本实施例中，以辽宁省重点货运车辆2018年4月1日海量轨迹数据为例，通过切分货运行程并完成地图匹配及其定位修复，引入辽宁省同期人工调查数据佐证货运行程切分合理性，分析全省高速公路使用情况确定G1高速公路为挖掘道路段并确定挖掘时间段，逐时间戳寻找货车编队集合并使用时空二维闭频繁挖掘算法寻找自发编队模式，最终获得途径G1高速公路货车自发编队行驶情况。同时，为了方便本发明的参数理解及算法体现，对各个步骤中的具体基础数据进行具体说明。

待分析省货运车辆货运轨迹数据为重点货运车辆监控系统内辽宁省注册货车2018年4月1日当日上报定位数据，包括，每小时获得的全部车辆上报定位数据。辽宁省重点货运车辆使用的定位装置更新时间为30秒/次，标准更新时间为整分钟与半分钟。通用的轨迹定位数据集的数据结构请参见表7。

表7通用的轨迹定位数据集数据结构

路网地理数据文件示例为由OpenStreetMap导出的截止到2018年12月的辽宁省全路网数据。通用的路网数据文件结构请参见表8。

表8通用的路网数据结构表

字段描述	数据格式
		道路段序号	整数，例如“1”
道路段等级	字符串，例如“motorway”高速公路
		道路段名称	字符串，例如“京哈高速”
道路段简称	字符串，例如“G1”
		道路段单向标记	字符串，“T”单行道，“F”双行道
道路段最高限速	浮点数，例如120，单位千米/小时(km/h)
		道路段最低限速	浮点数，例如60，单位千米/小时(km/h)
道路段地理标记	地理数据格式，描述道路具体位置

货运调查数据为同时期的货运调查数据，通用的货运调查数据结构请参见表9。

表9通用的货运调查数据结构表

字段描述	数据格式
		车籍地省份	字符串，例如“21”辽宁
车牌号	字符串，例如“辽A11111”
		车牌颜色	字符串，可选“蓝色”、“黄色”等
车辆类型	字符串，可选“1”载货汽车等
		车型结构	字符串，可选“1”牵引车等
核定载质量	浮点数，比如9.72
		趟次序号	整数，比如1
起点行政区划	字符串，比如“116026”
		起点地点	字符串，比如“大连市面粉厂”
终点行政区划	字符串，比如“116026
		终点地点	字符串，比如“大连市大连港”
载货里程	浮点数，比如90.72
		高速里程	浮点数，比如60.62

数据处理主要包括以下几步:

1、采集拟挖掘自发编队模式省份的当日货车定位数据并提取关键字段，准备路网地理数据文件。

采集拟挖掘自发编队模式省份的当日货车定位数据是从重点货运车辆监控系统抽取2018年4月1日辽宁省全部货运车辆24小时上报数据。经核查，该日系统获得的上报数据小时齐全，可以进行自发编队模式挖掘分析。

由于发明涉及的货车定位数据取自于车载定位装置，采集字段较为统一，实践中均可提取以下字段作为货车定位数据：定位记录序号、车辆序号、终端定位时间、定位经度、定位纬度、定位仪速度、行驶方向。对于有条件的车载定位装置，可采集以下字段以拓展后期研究分析：车牌号码、车辆归属地、车辆运输行业、海拔高度、车辆总里程。

准备路网地理数据文件是从OpenStreetMap等地理数据平台抽取辽宁省的全路网信息。由于发明展示例采用2018年12月开源数据库地图，未使用信息数据更详细的地图例如省级自制地图，故本发明涉及的地图字段及其shp格式文件在实践中均可提取：道路唯一识别号码、道路等级、道路最低限速、道路最高限速。对于有条件的分析场景，可使用更详细的地图数据以拓展后期研究分析，其字段包含：路段宽度等。

对于迭代抽取的每辆货车对应轨迹定位数据，需加入货运车辆轨迹数据库。

2、轨迹数据清洗

得益于当前车辆定位装置在可选的数据上报时间外均会记录终端定位时间，保障了分析时轨迹定位顺序不出现混乱。但是，仍不能排除车辆定位装置异常带来的字段丢失、记录重复或定位大幅漂移等特殊情况。于是，需抽取货运车辆轨迹数据库内每辆货车的货运轨迹分别进行判断，使用的字段分别为“终端定位时间”、“定位经度”、“定位纬度”。

完整性准则可通过检查上述三个字段是否为空值判断；单一性准则可通过检查“终端定位时间”是否存在重复值判断；准确性准则可通过“定位经度”、“定位纬度”确定前后两个定位点地理距离，“终端定位时间”确定前后两个定位点时间差异，后通过推算的位移速度进行判断，将典型的不满足准确性准则的定位记录所在的轨迹数据应全部删除。经过核实，违反准确性准则的轨迹数据均全部或大部分体现定位漂移等异常状态，应在工程实践中予以删除。

经过处理后的货车轨迹数据应重新放回至货运车辆轨迹数据库，不满足准确性准则的轨迹数据应直接删除而不放回货运车辆轨迹数据库内。

3、切分货运行程

切分货运行程是在经过前两步骤处理后，获得货车每日货运行程信息的过程，主要分为两步，其中第一步的目的是剔除非货运终止性临时停车，得到的结果为有效货运行程定位点及初步货运行程划分；第二步的目的是在考虑不同货运行程中可能存在的不同非货运终止性业务停车而进行的货运行程聚合，得到的结果为货运行程信息并加入运程数据库。

对于第一步而言，由于货车执行货运行程间存在因交通信号控制、交通拥堵等带来的临时停车，故应迭代抽取货运车辆轨迹数据集中每辆货车定位记录，剔除这些临时停车带来的“定位仪速度”为0的定位记录，防止后续初步货运行程划分时出现错误。处理中具体过程如图5所示。

对于第二步而言，由于货车在执行省内运输(运程起、终点均在省内且中途定位均在省内)及跨省运输(运程起、终点中任意一点或全部位于省外)就车辆加油、车辆检验、强制休息等情况各不相同，故应根据货车当日是否执行跨省运输而确定货运行程终止合理时间阈值。比如，根据国内外论文汇总及工程实践经验，全天从事省内运输的货运车辆其货运行程终止合理时间阈值应为5分钟，全天存在跨省运输的货运车辆其货运行程终止合理时间阈值应为30分钟，处理中具体过程如图6所示。

经过初步货运行程划分及其后续货运行程聚合，2018年4月1日14344辆货车共产生货运行程26452个货运行程，其中78.37％的货车仅在辽宁省内进行货运运输，21.63％的货车存在跨省运输行为，上述流程得到的货运行程信息应加入运程数据库中。

4、完成地图匹配及定位修复

进行地图匹配及定位修复的关键是平衡处理效率与匹配修复准确性关系，得益于开源数据库PostgreSQL及其拓展模块PostGIS，其特有的空间R-Tree索引及数据结构可帮助快速寻找某一地理数据附近最近邻其他地理数据，为高速地图匹配及定位修复提供了可能。于是，结合上述本发明实施例所提出的确定最佳匹配道路段三大标准及三大判断方法，可在保障速度前提下最大限度完成地图匹配工作。

5、使用多源数据及地理信息软件验证货运行程切分效果

使用多源数据与地理信息软件等验证货运行程切分效果的目的是保障货运行程切分效果的大体正确：由于当前轨迹定位数据并不能直接显示货车每日货运行程信息，且未记录运输过程中发生的例如货车检验、停车加油等信息，仅存在表征速度、行驶角度及定位坐标等数据，故仅能寻找到一个对大多数货运行程有效切分的货运行程终止合理时间阈值。

在第五步省内运输货运行程切分效果验证方法的指示下，可将从事省内运输的货运行程划分为途径高速公路货运行程3062个，全程使用普通公路货运行程19965个。同时，可将货运调查数据中相同车辆类型货车从事省内运输的货运行程划分为途径高速公路货运行程761个，全程普通公路货运行程4593个。通过对统计不同道路货运里程统计汇总，其差异值如表10所示，拟合的核密度估计概率密度分布曲线如图7所示。

经分析，表10及图7显示的货运行程切分结果同调查数据在四个指标上体现出平均值差异较小、分布趋势大体相同特点，且考虑到货车轨迹定位数据揭示货车当日全部行驶状态如非营运行程，体现出的货运行程切分运距普遍较货运调查运距偏小符合现实因素。综上所述，省内运输货运行程切分效果较好，可继续实施后续自发编队模式挖掘任务，无需调整省内运输涉及的货运行程终止合理时间阈值。

表10货运行程切分结果与调查数据统计指标差异表(单位：千米)

在第五步跨省运输货运行程切分效果验证方法的指示下，可将从事跨省运输的货运行程划分为途径高速公路货运行程1638个，全程使用普通公路货运行程256个。通过随机抽取部分跨省运输货运行程信息及涉及货车对应当日轨迹定位数据，迭代将货车当日轨迹定位数据及其货运行程起终点标记在QGIS等图示化软件中，可发现货运行程切分效果良好。

6、分析道路使用情况并确定重点道路段及其挖掘时段

在货运行程切分较为合理下，可确定挖掘货车自发编队模式道路类型并汇总该道路类型全省各路段2018年4月1日货车个数以选定挖掘路段，后分析挖掘路段不同小时下使用车辆个数以确定挖掘时间段，从而将自发编队模式挖掘任务细化。

由于货运编队技术尚未落地实施，样例选用的道路为高速公路，且截至数据源所在2018年，辽宁省共建成高速公路里程4300公里，对应的高速公路名称及其代号如表11所示。

表11辽宁省2018年年末建成高速公路名称及其代号表

对于辽宁省已建成高速公路而言，迭代抽取运程数据库中对应匹配定位数据中包含高速公路定位点的货运行程，并以道路唯一识别号码为联系汇总不同道路段货车通过数量。通过对比不通高速公路货车通过数量差异，可发现G1高速公路、G15高速公路、G16高速公路在分析当日货车通过数量最高，故这三条高速公路被选定为待挖掘道路段。同时，将不同小时通过不通高速公路货车数量进行汇总并绘制如图8所示，其中全部高速公路都体现出早8点至晚18点间使用车辆数目较高，而其余时间使用车辆数目较低特征，于是挖掘时段确定为早8点至晚18点。作为代表，后续挖掘工作将在G1高速公路展开，挖掘时段为早8点至晚18点。

7、确定待分析轨迹库及其对应时间信息库与车辆信息库，修复异常定位时间

在确定挖掘路段及其挖掘时段后，需明确分析日满足上述条件的对应货车定位数据及运程信息，以保障后续自发编队模式挖掘工作顺利进行。于是，汇总早8点至晚18点通过G1高速公路的1626辆货车轨迹数据进入待分析轨迹库后，根据全部货车确定的最早及最晚时间，结合货车定位装置半分钟更新频率及标准更新时间，可汇总得到时间信息库及车辆信息库。

8、确定每一时刻下的编队车辆集合，加入编队特征库

在确定待分析轨迹库后，需迭代抽取每个时间戳下货车定位数据，结合编队特征中同方向性、同道路性、可协调性要求，并将P-OPTICS算法中车辆间最大协调距离∈参数设置为1公里、编队内部最小车辆数M为2，可挖掘不同时间戳下呈现编队特征的货车集合，具体如图9所示。从图9中可以看出，当前辽宁省途经G1高速公路车辆存在自发编队模式现象，同时最大协调距离∈参数可设置为更短距离以提高协调编队行驶可行性。

最后，需结合不同时间戳下不同车辆对应编队集合编号与经纬度定位坐标，汇总至编队特征库。

9.挖掘货车自发编队模式并检验自发编队模式挖掘效果

在确定编队特征库后，通过基于货车序号的深度优先树，结合“时间集合递减性剪枝”、“回溯式判断剪枝”与“扩展式输出判断”，可在基础自发编队模式的基础上获得体现自发编队特征时间最长的最大货车集合，从而揭示G1高速公路货车自发编队情况。

图10与图11展示了2018年4月1日途径G1高速公路的货车自发编队车辆数目与同行时间分布特征，可以看出众多货车体现自发编队模式时间较短且集中在2分钟，同时大多货车自发编队模式集合车辆数目不会超过6辆。同时，若车辆编队行驶业务正式实施后，可从货车体现出自发编队模式超过1分钟点处进行协调，从而最大程度提高编队行驶规模。

需要指出的是，样例使用的货车轨迹数据仅占通过G1高速公路货车的4％到8％，其分析得到的自发编队规模将低于道路实际自发编队规模。在我国高速推行ETC电子门架收费背景下，途经货车在高速公路上的行驶轨迹将能够得到反推，进而获得通过某一高速公路的全部货车定位记录，为发送提供更多的货车轨迹数据。在该发明提出的自发编队模式框架及其挖掘方法下，在ETC电子门架数据不断积累的背景下，该发明将有效指导自动驾驶背景下货车编队行驶业务落地前的货车自发编队行驶规模估算与分析。

本发明为基于货运轨迹数据的车辆自发编队模式挖掘方法，其具有适用范围大、操作性强、挖掘拓展性广及数据体系框架完备等特点。

本发明提出的货车自发编队行驶模式挖掘框架可适配当前我国重点货运车辆定位采集系统及附属的货运调查数据，同时可延展到任意车载定位系统采集到的的货运轨迹数据，通过完成运程切分与定位匹配及修复，在指定挖掘道路和挖掘时段前提下可完成货车自发编队模式挖掘，以便下一步分析自发编队规模、发生场景、持续时间、燃油节省效率等系列分析，具有较强的应用、迁移及拓展价值；同时，发明提出了P-OPTICS算法，一种改进的挖掘编队集合聚类算法，能够展示任意时刻车辆定位间距特征，从而在指定参数下为时空二维闭频繁挖掘货车编队模式提供原始数据；然后，发明提出的货车编队模式算法，能够在较大搜索空间内降低查询次数，且通过挖掘体现编队特征最长时间的最大车辆集合进而保障挖掘结果可读性与代表性，可提高后续分析处理效率；最后，发明提出的处理流程可获得任意货车轨迹数据的当日货运行程信息，为分析指定省份货运特征、开展后续货运研究提供有效支持。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于货运轨迹数据的车辆自发编队模式挖掘方法，其特征在于，包括：

第九步：挖掘货车自发编队模式：抽取所述编队特征库中全部时间戳下的车辆自发编队信息，采用改进后的时、空二维闭频繁挖掘算法，综合使用Apriori剪枝、闭频繁挖掘算法，寻找体现自发编队特征时间最长的最大车辆集合，以完成自发编队模式挖掘任务；

第十步：检验自发编队模式挖掘效果：评估目标挖掘道路在分析时段内货车自发编队行驶规模；

其中，所述第八步中需逐时间戳识别存在编队特征的车辆集合，涉及的编队特征要求为：

同方向性：某时间戳下处在同一编队内的货车，其定位数据对应的行驶方向差异值不大于30度，即编队内货车应行驶方向相同；

同道路性：某时间戳下处在同一编队内的货车，需满足所在定位数据对应的道路段唯一识别号码相同，即编队内货车应处在同一道路；

可协调性：某时间戳下处在同一编队内的货车，需满足任意货车沿道路向前后搜索给定距离均可找到至少一辆位于该编队内其他货车，即编队内货车应具有微调以形成编队行驶条件；

第八步中所述的P-OPTICS算法为标记满足编队特征车辆集合的基于OPTICS算法的改进，包括：

；

第八步中所述的P-OPTICS算法，具体包括：

S81：选定P-OPTICS算法初始参数：车辆间最大协调距离∈和编队内部最小车辆数Μ，根据编队行驶目标及可协调性要求，车辆间最大协调距离∈设置为1千米，编队内部最小车辆数Μ设置为2；

S83：根据可达距离图中可达距离分布情况，判断当前时间戳下在相同道路同向行驶的货车间间距分布情况，选择最终车辆间最大协调距离∈^′，其中∈^′≤∈；

S84：根据最终车辆间最大协调距离∈^′和编队内部最小车辆数Μ，对当前时间戳下货车定位数据集合进行划分并返回车辆唯一识别代码及其对应的所属编队集合代号，从0开始依次递增；

第九步中所述的自发编队模式，为体现出编队特征时间最长的最大车辆集合；

满足基础自发编队模式的车辆集合具体需满足以下三大要求：

编队车辆数目要求：对于呈现自发编队模式的车辆集合O而言，其包含的货车数目|O|≥2；

编队同行时间要求：对于呈现自发编队模式的车辆集合O而言，至少存在超过两个时间戳使得车辆集合O内的n辆车属于P-OPTICS算法指示的同一个编队集合；

编队车辆从属要求：对于呈现自发编队模式的车辆集合O而言，其包含的货车在该模式对应的编队时间T下中任一时间戳属于P-OPTICS算法指示的同一编队集合；

对于满足上述要求的全部车辆集合，称作满足基础自发编队模式，即n辆车组成的车辆集合O在不要求连续的时间戳集合T内自发形成编队行驶；

体现出编队特征时间最长的最大车辆集合，需满足的两大要求如下：

编队同行时间不可增加性：对于在时间戳集合T内满足基础自发编队模式的车辆集合O而言，时间信息库中不应含有任意时间戳集合T′使车辆集合O满足基础自发编队模式要求且该时间戳集合T′是时间戳集合T的超集，

编队车辆数目不可增加性：对于在时间戳集合T内满足基础自发编队模式的车辆集合O而言，车辆数据库中不应含有任意车辆集合O′在同样的时间戳集合T′下满足基础自发编队模式要求且该车辆集合O′是车辆集合O的超集，

第九步中所述的改进后的时、空二维闭频繁挖掘算法，包括：

基于货车序号的深度优先挖掘顺序：对于车辆信息库的所有车辆，使用深度优先树的搜索办法，从不包含任意车辆的根节点出发，依次沿某一车辆及包含该车辆的可能车辆集合纵向搜索，迭代地从全部车辆向深度出发，直至搜索完所有可能车辆集合；

时间集合递减性剪枝：假设对于挖掘中寻找的车辆集合O而言，其满足自发编队行驶的最大时间戳集合为T，则对于任意该车辆集合O的超集O′而言，其满足自发编队行驶的最大时间戳集合T′必然是集合T的子集，即T′∈T；若车辆集合O对应的最大时间戳集合T内时间戳个数|T|小于2，则该节点给予剪枝处理，不再往纵向深处搜索；

回溯式判断剪枝：受自发编队模式挖掘中编队车辆数目不可增加性要求，对于呈现出编队特征时间戳高于2个的车辆集合O及其对应的时间集合T，在先前搜索记录中不存在任意车辆集合O′；其中，O′＝O+o_i，i小于集合O中最大车辆唯一识别代码且与集合O中已有车辆唯一识别代码不同；对应编队特征时间戳集合也为T；对于深度优先检索到的车辆集合O及其对应的含有时间戳超过2个的时间集合T而言，回溯式判断剪枝将查找先前是否存储在处理过的时间集合同为T的车辆集合O超集O′，若超集O′存在，则当前车辆集合O处给予剪枝处理，不再往纵向深处搜索；

扩展式输出判断：依据深度优先树搜索特征，对于车辆信息库O_set，其将在搜索完毕车辆o_i所有可能车辆集合后再搜索车辆o_j所有可能车辆集合，i<j；扩展式输出判断与上述剪枝方法相异，对经过回溯式判断剪枝、时间集合递减性剪枝后的剩余节点是否为体现出编队特征时间最长的最大车辆集合进行判断，具体为：在深度优先树搜索完毕车辆o_i所有可能车辆集合后，反向寻找已生成的未被剪枝节点，并在判断节点处加入序号大于O中最大车辆序号的货车o_j，若加入货车o_j的车辆集合O′对应时间集合T′＝T，则当前对应时间集合为T的车辆集合O不满足自发编队模式；若加入全部可能o_j的集合O′对应时间集合T′均为T的真子集或被回溯式判断剪枝、时间集合递减性剪枝，则当前对应时间集合为T的车辆集合O满足自发编队模式。

2.如权利要求1所述的一种基于货运轨迹数据的车辆自发编队模式挖掘方法，其特征在于，所述第一步中：所述识别信息包括：定位记录序号和车辆序号；

所述定位信息包括：车辆终端定位时间、定位经度及定位纬度；

所述驾驶信息包括：定位仪速度和行驶方向。

3.如权利要求1所述的一种基于货运轨迹数据的车辆自发编队模式挖掘方法，其特征在于，所述第一步中：所述路网地理数据文件为shp格式的地理数据文件，包括：路段信息、分类信息和限速信息；

其中，所述路段信息包括：路段唯一识别号码和路段名称；

所述分类信息为对于每一道路段，标注其道路等级；

所述限速信息为对于每一道路段，标注其最低限速与最高限速。

4.如权利要求1所述的一种基于货运轨迹数据的车辆自发编队模式挖掘方法，其特征在于，所述第二步包括：根据预设准则剔除不满足完整性的定位记录，修复不满足单一性的定位记录，删除定位记录存在不满足准确性的对应货车整个轨迹数据；

所述预设准则为：

完整性：轨迹数据中的定位记录需完整包含定位时间、经度及纬度字段，未满足此要求时删除对应定位记录；

单一性：轨迹数据删除同一时间下的重复定位记录；

准确性：当轨迹数据中任意两个GPS点间使用定位坐标及时间差异的计算位移速度，超过预设阈值时，删除对应定位记录所在的整个轨迹数据。

5.如权利要求1所述的一种基于货运轨迹数据的车辆自发编队模式挖掘方法，其特征在于，所述第三步中，筛选有效货运行程定位点并初步划分货运行程序号，包括：

S31、从轨迹数据第一条定位记录开始，设置当前货运行程序号为1，当出现速度为0的定位记录且从该记录开始后续序号连续的定位仪速度为0的定位记录持续时间超过预设分钟时，假设满足上述条件的最后一个定位仪速度为0的定位记录序号为n，则认为当前货运行程中断，轨迹数据中定位记录序号为1至定位记录序号为n的原始轨迹数据，其中速度为0的定位记录的停止标记为1，速度不为0的定位记录的停止标记为0；

S32、货运行程序号自增1，在未迭代至轨迹数据集最后一条数据时，从定位记录序号为n+1的定位记录处重复S31步骤操作；

S33、重复S32步骤迭代过程，直到迭代至轨迹数据最后一条定位记录时停止；

S34、删除轨迹数据集中停止标记为1的定位数据，剩余轨迹数据即为车辆有效货运行程定位点。

6.如权利要求5所述的一种基于货运轨迹数据的车辆自发编队模式挖掘方法，其特征在于，所述第三步中，结合该货车当日货运特征确定货运行程终止合理时间阈值以聚合初步货运行程序号，包括：

若货车当日运程起、终点均在省内且中途定位均在省内时，货运行程终止合理时间阈值设置为X分钟，即车辆有效货运行程定位点中前后两个货运行程序号结束与开始时间差低于X分钟时，应将两个货运行程予以聚合，并将两个原始货运行程序号对应定位记录的货运行程序号予以更新；对于车辆有效货运行程定位点，应从货运行程序号1开始迭代判断，直到更新至最后一个货运行程序号对应的定位记录；

当货车当日存在运程起、终点中任意一点或全部位于省外时，货运行程终止合理时间阈值设置为Y分钟，其聚合方式与上述当日运程起、终点均在省内且中途定位均在省内时的车辆有效货运行程定位点相同。

7.如权利要求6所述的一种基于货运轨迹数据的车辆自发编队模式挖掘方法，其特征在于，所述第三步中，形成货运行程信息并加入运程数据库，包括：

将聚合后的车辆有效货运行程定位点，迭代抽取货运行程序号对应的定位记录，根据首末定位记录确定当前货运行程的起止时间、货运行程总时间及对应的原始轨迹数据定位记录序号，根据定位记录间坐标推算的距离之和作为总运距、结合货运行程总时间得到货运行程平均速度；

汇总货运行程特征数据，得到对应货车的当日货运行程，加入至运程数据库。

8.如权利要求1所述的一种基于货运轨迹数据的车辆自发编队模式挖掘方法，其特征在于，第四步所述的地图匹配及定位修复过程，需综合考虑轨迹定位点与候选道路间垂线距离、角度差异及速度差异，其具体要求为：

距离标准：定位点与其最佳对应道路间垂线距离在最佳对应道路为普通公路时不高于50米、最佳对应道路为高速公路时不高于75米；

角度标准：定位点与最佳对应道路间角度绝对值差异不高于30度；

速度标准：定位点速度高于最佳对应道路最低限速；

针对运程数据库中每个运程对应的定位数据，对于定位数据中每个定位记录，其判断过程为：

判断方法1：若定位点与候选道路同时满足上述三条标准，则该候选道路为定位点的最佳匹配道路；

判断方法2：若定位点与候选道路垂线距离及角度差异均满足距离标准和角度标准，定位点及前后点中存在对应行驶速度为0点，则该候选道路为定位点的最佳匹配道路；

判断方法3：若定位点与候选道路仅满足角度标准，且定位点前后两个记录均为经过判断方法1断定的行驶在该候选道路上，则该候选道路为定位点的最佳匹配道路；

经过上述判断过程流程，对应定位数据中的每个定位记录，增添在对应最佳匹配道路上的垂点坐标并记录对应最佳道路段序号、名称、道路等级及道路宽度信息，后以运程为单位加入匹配数据库。

9.如权利要求1所述的一种基于货运轨迹数据的车辆自发编队模式挖掘方法，其特征在于，所述第六步包括：

通过遍历运程数据库中每个货运行程，记录其对应匹配定位数据中位于指定道路等级的定位点通过的道路唯一识别号，迭代汇总分析省内指定道路等级各路段货运车辆出现次数，继而从空间上筛选挖掘自发编队行驶模式的重点道路段；

10.如权利要求1所述的一种基于货运轨迹数据的车辆自发编队模式挖掘方法，其特征在于，所述第七步中的待分析轨迹库、时间信息库与车辆信息库，其构建过程为：

待分析轨迹库：迭代运程数据库中每个运程信息及其匹配数据库中的定位数据，若存在指定挖掘时段内位于待挖掘道路的定位记录，则将该运程信息及其定位数据加入待分析轨迹库内；

时间信息库：迭代待分析轨迹库中每个定位数据，汇总起、终点时间以确定自发编队搜索时间范围；参考货运车辆定位监控系统派发的定位装置定位更新频率及其标准更新时间，结合上述的起、终点时间划分分析时间戳，并为每一分析时间戳赋唯一识别代码，组成时间信息库；