CN111930791B - 一种车辆轨迹的相似度计算方法、系统及存储介质 - Google Patents
一种车辆轨迹的相似度计算方法、系统及存储介质 Download PDFInfo
- Publication number
- CN111930791B CN111930791B CN202010470105.9A CN202010470105A CN111930791B CN 111930791 B CN111930791 B CN 111930791B CN 202010470105 A CN202010470105 A CN 202010470105A CN 111930791 B CN111930791 B CN 111930791B
- Authority
- CN
- China
- Prior art keywords
- editing
- vehicle
- track
- cost
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Train Traffic Observation, Control, And Security (AREA)
Abstract
本发明涉及数据挖掘分析技术领域,公开了一种车辆轨迹的相似度计算方法、系统及存储介质,该方法包括获取车辆的历史运行数据作为原始数据,根据原始数据得到车辆轨迹集;根据车辆轨迹集中的各车辆轨迹得到字符串,采用最小编辑距离方法判断任意两个字符串之间是否需要执行编辑操作,在需要进行编辑操作的情况下,计算编辑位置的连续轨迹编辑长度;根据连续轨迹编辑长度计算编辑位置的编辑代价;根据编辑位置的编辑代价计算总编辑代价,并根据总编辑代价得到两个字符串对应的车辆轨迹之间的相似度。克服了传统计算方法忽略轨迹点之间的距离、时间间隔、出现频次和产生的代价等因素的缺点,从而可以更高效、更准确地计算出两条车辆轨迹的相似性。
Description
技术领域
本发明涉及数据挖掘分析技术领域,尤其涉及一种车辆轨迹的相似度计算方法、系统及存储介质。
背景技术
城市交通中,每天产生数以万计的车辆通行记录,而交通系统的车流数据是所有政务系统数据中数量最大、增长最快、蕴含信息最丰富的一种被重点关注的数据。交管情报部门通过每天分析这些数据,对交通流导向、交通管制措施、交通稽查等提供数据支持,并希望可以进行更加深度的挖掘和分析,从中发现车辆行车的路径选择倾向、车辆出行目的、车辆停车区域、以及出行的时间规律等。
交通中的车辆轨迹数据的多样性和复杂性与日俱增,对车辆轨迹数据的挖掘和分析日趋重要。对交通中的车辆轨迹数据进行分析,不仅有助于交通物流、应急疏散管理、市场营销、模拟仿真和公安犯罪预测等多种领域的研究,还可以找出车辆热门路段或拥堵路段,并根据轨迹特征,判断车辆行驶是否存在异常情况。
因为车辆轨迹中的轨迹点在时间维度上分布不均匀,并且不同车辆的轨迹时间跨度不一样。目前,传统的轨迹相似性研究仅仅考虑到对象的轨迹坐标,而忽略了时间维度,并且有时候车辆会因为路径选择和设备问题,形成轨迹差异。传统的计算方法是计算两个字符串(代表两条车辆轨迹)之间的编辑操作次数,这忽略了车辆轨迹中轨迹点之间的距离、时间间隔、出现频次和产生的代价,使得计算结果存在一定的偏差。
发明内容
本发明目的在于提供一种车辆轨迹的相似度计算方法、系统及存储介质以解决上述背景技术中存在的问题。
为实现上述目的,本发明提供了一种车辆轨迹的相似度计算方法,包括以下步骤:
获取车辆的历史运行数据作为原始数据,根据所述原始数据得到车辆轨迹集;
根据所述车辆轨迹集中的各车辆轨迹得到字符串,其中,将车辆轨迹中的轨迹点视为字符串中的字符;
采用最小编辑距离方法判断任意两个字符串之间是否需要执行编辑操作,在需要进行编辑操作的情况下,计算编辑位置的连续轨迹编辑长度;
根据所述连续轨迹编辑长度计算编辑位置的编辑代价;
根据所述编辑位置的编辑代价计算总编辑代价,并根据所述总编辑代价得到所述两个字符串对应的车辆轨迹之间的相似度。
优选地,还包括以下步骤:
选取相似度超过相似度阈值的轨迹得到相似轨迹集,根据所述相似轨迹集挖掘热点路径。
优选地,所述根据所述原始数据得到车辆轨迹集之后还包括步骤:
并对所述原始数据进行分割形成至少三种不同语义的车辆轨迹集,分别为车辆行停轨迹集、车辆类别轨迹集和车辆时隙轨迹集;
在所述车辆行停轨迹集、所述车辆类别轨迹集和所述车辆时隙轨迹集三种语义方面分别计算各语义下的车辆轨迹的相似度,得到所述三种语义下的各车辆的所述轨迹相似度。
优选地,所述编辑操作包括增加、删除或者修改中的任意一种或者几种的组合。
优选地,所述车辆轨迹包括车辆的卡口编号,一个所述卡口编号表示一个所述轨迹点,所述卡口编号包括断面代码和方向编号。
优选地,所述采用最小编辑距离方法判断任意两个字符串之间是否需要执行编辑操作,在需要进行编辑操作的情况下,计算编辑位置的连续轨迹编辑长度包括:
选定任意两条车辆轨迹,分别视为第一字符串和第二字符串;
在所述第一字符串与第二字符串不一致的情况下,根据最小编辑距离方法执行编辑操作,并计算编辑位置的连续轨迹编辑长度,其中,所述连续轨迹编辑长度的动态规划计算公式如下:
式中,a和b分别为第一字符串和第二字符串的长度,i表示第一字符串的下标,j表示第二字符串的下标,ai为第一字符串的第i个字符,bj为第二字符串的第j个字符,D[i,j]表示第一字符串中前i个字符转为第二字符串中前j个字符的最小编辑距离,L[i,j]表示记录最小编辑距离D[i,j]每一个编辑操作对应位置的连续轨迹编辑长度,其中,将第一字符串转换为第二字符串的所有操作都以第二字符串为基准,在第一字符串上进行。
优选地,所述根据所述连续轨迹编辑长度计算编辑位置的编辑代价的计算公式如下:
式中,f(x)为计算编辑位置的编辑代价的ELU激励函数,x为连续轨迹编辑长度L[i,j]。
优选地,所述根据所述总编辑代价得到所述两个字符串对应的车辆轨迹之间的相似度,其中,总编辑代价越小,表示车辆间的轨迹相似度越高,其中,总编辑代价的计算公式如下:
式中,Cost[i,j]为第一字符串转换为第二字符串的总编辑代价。
作为一个总的发明构思,本发明还提供一种车辆轨迹的相似度计算系统,包括:
轨迹提取模块,用于获取车辆的历史运行数据作为原始数据,根据所述原始数据得到车辆轨迹集;
字符串生成模块,用于根据所述车辆轨迹集中的各车辆轨迹得到字符串,其中,将车辆轨迹中的轨迹点视为字符串中的字符;
连续轨迹编辑长度计算模块,用于采用最小编辑距离方法判断任意两个字符串之间是否需要执行编辑操作,在需要进行编辑操作的情况下,计算编辑位置的连续轨迹编辑长度;
编辑代价计算模块,用于根据所述连续轨迹编辑长度计算编辑位置的编辑代价;
相似度计算模块,用于根据所述编辑位置的编辑代价计算总编辑代价得到所述两个字符串对应的车辆轨迹之间的相似度。
作为一个总的发明构思,本发明还提供一种计算机存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明具有以下有益效果:
本发明提供的一种车辆轨迹的相似度计算方法、系统及存储介质,该方法通过根据车辆轨迹提取得到字符串,将车辆轨迹中的轨迹点即卡口编号视为字符串中的字符,通过采用最小编辑距离方法判断任意两个字符串之间是否需要执行编辑操作,在需要进行编辑操作的情况下,计算编辑位置的连续轨迹编辑长度;根据连续轨迹编辑长度计算编辑位置的编辑代价;根据编辑位置的编辑代价计算总编辑代价,并根据总编辑代价得到两个字符串对应的车辆轨迹之间的相似度。该方法克服了传统的计算方法忽略轨迹点之间的距离、时间间隔、出现频次和产生的代价等因素的缺点,从而可以更高效准确的计算出两条车辆轨迹的相似性。
下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的轨迹的相似度计算方法流程图;
图2是本发明优选实施例的卡口编号示意图;
图3是本发明优选实施例的卡口方向示意图;
图4是本发明优选实施例的以连续轨迹编辑长度为变量计算编辑代价的f(x)函数示意图;
图5是本发明优选实施例的根据连续轨迹编辑长度计算总编辑代价示意图;
图6是本发明优选实施例的轨迹的相似度计算方法结构示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
本发明提供的车辆轨迹的相似度计算方法、系统及存储介质,可以在智能交通领域中基于最小编辑距离方法求出编辑操作对应位置的连续轨迹编辑长度得到总编辑代价进而快速高效的判断车辆轨迹是否相似,从而用于交通物流运输优化、应急疏散管理及精准打击的实施,还可预测拥堵路段、找出逃逸车辆、预警异常行驶车辆。
实施例1
如图1所示,本实施例提供一种车辆轨迹的相似度计算方法,包括以下步骤:
获取车辆的历史运行数据作为原始数据,根据原始数据得到车辆轨迹集。
其中,原始数据包括车辆的号牌号码,号牌颜色,断面代码,卡口经过时间。首先,需要对原始数据进行清洗、融合,提取得到有效的数据结构,其中,本实施例中的有效是指有用清晰的原始数据。
另一方面,在实际中,该数据是ANPR格式,来自卡口摄像头,其拍照之后识别车牌号码,并记录车辆的车牌颜色和经过时间。ANPR是自动车牌识别的缩写,ANPR(自动车牌识别)可以用来存储摄像机拍摄的图像以及车牌上的文本,还有一些可配置的文件来存储司机的照片。系统通常使用红外线照明,允许相机在一天中的任何时间拍摄照片。
例如,车辆轨迹行停点判定:单条ANPR数据为一个三元组(P,C,T),P代表车牌号码,C代表经过卡口,T代表经过时间,那么一辆车的连续轨迹为(P,(C1,C2....Cn),(T1,T2....Tn)),但一辆车的行程是一段一段的,由一个地点移动到另一个地点,这段轨迹中无法体现起终点这个重要的行为特征,需要将其标注出来。
由于仅在路口记录车辆过车记录,在轨迹的当前路口与下一个路口间缺少过程记录,即采样点较少(与GPS数据相比较),进一步加上天气光线、车身结构、车身广告等原因,会产生一些误识别和未识别的数据,所以还要对原始数据进行预处理,提取该需要的数据。
作为本实施例优选的实施方式,本实施例中对原始数据进行分割形成至少三种不同语义的车辆轨迹集,分别为车辆行停轨迹集、车辆类别轨迹集和车辆时隙轨迹集。
进一步地,在车辆行停轨迹集、车辆类别轨迹集和车辆时隙轨迹集三种语义方面分别计算各语义下的车辆轨迹的相似度,得到三种语义下的各车辆的轨迹相似度。
需要说明的是,在采集数据时,由于天气或者拍照原因,在某些卡口(因为设备自身问题),或时段(网络问题)得到的用于轨迹划分的数据存在一定的不连续性,但基本每个卡口都有分布(因前后车遮挡问题),因此,根据原始数据获得的轨迹必然也是存在错漏的,即稀疏的。本实施例中的车辆轨迹还可以称作稀疏轨迹。
本实施例中,车辆行停轨迹集是根据经验推定,例如,当一辆车先后经过AB两卡口之间的时间超过30分钟,即认定该车辆在AB卡口间存在停车行为。此时将A卡口作为终点,即为上一段轨迹的终点,B卡口作为起点,即为下一段轨迹的起点。
车辆类别轨迹集主要包括公交车,私家车,出租车等,该三种车辆分别代表了轨迹的奇异性低中高,主要根据车牌来划分。例如,公交车车牌有指定规律,并且车类注定;例如,出租车的车牌特征是湘AT****,其余为私家车。
车辆时隙轨迹集主要分为早高峰,晚高峰,及其他,早高峰时间段为6-9点,晚高峰为5-8点,其余时间还可以进一步划分,但交管部门主要关注的是早高峰及晚高峰。
本实施例中,车辆行停轨迹集可以用于研判车辆的驻点,及行车轨迹。车辆类别集主要用于研判相应车辆集特征,挖掘相似车辆,例如非法营运的私家车,轨迹和出租车较为相似,又如非法营运危化品运输车辆,与合法运营危化品运营车辆行停点相似等。车辆时隙集主要用于研判车辆用途或定向挖掘,如在多次在早高峰存在驻点在某公司附近的车辆,可研判该车辆为公司人员所有车辆等。
在进行语义划分后,分别将车辆行停轨迹集中的轨迹互相比较,车辆类别轨迹集中的轨迹互相比较,车辆时隙轨迹集中的轨迹互相比较。
根据所述车辆轨迹集中的各车辆轨迹得到字符串,其中,将车辆轨迹中的轨迹点即卡口编号视为字符串中的字符。
因为车辆轨迹是稀疏的,例如对于一条稀疏轨迹TR=p1p2p3...pi...pn,其中pi(1≤i≤n)代表该稀疏轨迹中的轨迹点,具有经度坐标和纬度坐标。根据编辑距离思想,将这条稀疏轨迹转换为字符串P1P2P3...Pi...Pn。pi是一个具有多个参数的向量(断面代码、卡口方向、经纬度等),为了能够输入到后续的算法实验中,对其进行简单映射Pi≤pi,其中存在冗余剔除,若pi和pj的断面代码一致,那么将其认定为相同轨迹点。
可以说是把车辆轨迹视为字符串,虽然轨迹点有经纬坐标,但是实际上字符串只是一个简单的代号。本实施例中,车辆轨迹由车辆的卡口编号组成,轨迹点即为卡口编号,把车辆轨迹视为字符串,车辆轨迹中的轨迹点即卡口编号视为字符串中的字符。卡口编号由断面代码和方向编号组成,为了编辑距离好比较,将同卡口8个方向视作一个点,并去掉之后的方向代码,所以编辑距离比较的时候比较卡口编号。
例如,在同一时间段内随机抽取两个不同车辆的轨迹序列,因隐私问题,保留车主车牌号码,本实施例中,利用卡口编号即车辆经过卡口的断面代码和方向编号进行编辑距离分析。其中,如图2所示,L1(湘AC4K**)车辆的轨迹数据为基本数据(基准串),L2(湘AJT9**)车辆的轨迹数据为比较数据(比较串)。卡口编号由断面代码和方向编号组成,那么640161403050_3中,640161403050代表断面代码,3代表方向,一般分为8个方向(例如:卡口所在地的东、南、西、北、东南、东北、西南、西北),为每个卡口方向的直行和右转,如图3所示,虚线代表检测断面,4个断面的断面代码都一致,唯独方向代码不一样。因为系统更新该方案可能有变化,但断面代码主体不变。
本实施例中,将车辆轨迹视为字符串,根据最小编辑距离方法判断两个字符串之间是否需要增删改操作,然后编辑操作对应位置累加连续轨迹编辑长度。对于两条轨迹转换的字符串序列A(第一字符串)和序列B(第二字符串),其中,a和b分别为序列A和B的长度,i表示序列A的下标,j表示序列B的下标,ai为序列A的第i个字符,bj为序列B的第j个字符。D[i,j]表示序列A中前i个字符转为序列B中前j个字符的最小编辑距离。L[i,j]表示记录最小编辑距离D[i,j]每一个编辑操作对应位置的连续轨迹编辑长度。将序列A转换为序列B的所有操作都以序列B为基准,在序列A上进行,则连续轨迹编辑长度的动态规划计算公式如下:
其中,计算由字符串序列A转换为序列B的最小编辑距离D[i,j]及编辑操作对应位置的连续轨迹编辑长度L[i,j],当序列A和序列B的长度均不为0且ai≠bj时,用动态规划的方法计算序列A中前i-1个字符与序列B中前j个字符的编辑距离D[i-1,j]及对应位置的连续编辑长度L[i-1,j]、序列A中前i个字符与序列B中前j-1个字符的编辑距离D[i,j-1]及对应位置的连续编辑长度L[i,j-1]、序列A中前i-1个字符与序列B中前j-1个字符的编辑距离D[i-1,j-1]及对应位置的连续编辑长度L[i-1,j-1];当ai=bj时,表示序列A的第i个字符与序列B的第j个字符相同,无需进行编辑操作,则该次的编辑距离等于上一次的编辑距离,即D[i,j]=D[i-1,j-1],此时对应位置的连续轨迹编辑长度L[i,j]=0。
进一步地,以连续轨迹编辑长度为变量计算编辑操作对应位置的编辑代价。
车辆轨迹差异如果是个别卡口不一致,实际上轨迹差距不大,只有连续轨迹差异大时,轨迹差距才会变大。一般来说,当连续轨迹差异超过3时,说明车辆有绕路差异,即该辆车在同一卡口选择行驶方向,并且至少在2个卡口之后才回归同一轨迹。所以连续差异点越多,即连续轨迹编辑长度越大,编辑代价就越高。
本实施例中,编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑代价是指在分析过程中区分增(插入)、删、改(替换)这三种操作对原字符串所进行的操作步骤。需要说明的是,车辆有时候会因为路径选择和设备问题,形成轨迹差异。如果是设备问题,那么会形成轨迹缺失,就需要增或删操作;如果是路径选择,例如车辆绕路,那么会形成节点不一致,就需要修改或删除操作。所以,本实施例中考虑连续轨迹编辑长度作为计算编辑代价的依据,更加贴合实际情况。其中,连续轨迹差异点越少,即连续轨迹编辑长度越小,编辑代价的值就越小,表示车辆间的轨迹相似度越高。
在实际的字符串操作过程中,增删改并不是只需要一次操作就可以完成。实际上不同的数据结构对于增删改的操作代价都不一样,比如1维数组结构中,增、删得到查询代价为1,而修改代价需要考虑将增删点后续的字符进行平移操作,平均为其中,修改可以看做是删增操作。在本实施例中,是以连续轨迹编辑长度为变量计算编辑代价。
那么上述为字符串的增删改,考虑到轨迹的增删改,轨迹差异中的增删对应是轨迹点缺失,改对应轨迹点差异,其中还有细节需要考虑,例如,主轨迹为A=a1a2...an,对比轨迹为B=b1b2...bm,增操作的形式为{...aibjai+1...},{...bj-1bjbj+1...},该形式的代价为主轨迹缺失;若考虑ai到ai+1的时间间隔与bj-1到bj和bj到bj+1的时间间隔,差别大的话可以代表轨迹差异大,则修改代价高。此外,还比如记录aiai+1的出现频次,若相对较少,说明可能确实是因为设备故障产生的,若较多,则可认为轨迹确有少量差异。将多种代价因素结合起来一起考虑来计算最终的编辑代价即轨迹差异度。
因为ELU激励函数f(x),可以增强模型的拟合能力,它具有可微性、单调性、非饱和性,计算速度非常快,且该函数更具有鲁棒性。所以,根据ELU激励函数得出本实施例中需要的计算编辑代价的f(x)函数。
具体地,以两条轨迹为例说明所述以连续轨迹编辑长度为变量计算编辑代价的公式如下:
其中,f(x)为计算编辑操作对应位置的编辑代价的ELU激励函数,x为连续轨迹编辑长度L[i,j]。编辑代价f(x)函数的图像如图4所示:
因为编辑代价f(x)与连续轨迹差异长度L[i,j]相关,因此编辑代价公式f(x)需要满足,当0≤x≤3时,f(x)要在1附近,对应位置的编辑代价f(x)=0.05(ex-1);当x>3时,编辑代价要有快速的增长,对应位置的编辑代价f(x)=x-2。因为连续轨迹差异点x越多,即连续轨迹编辑长度越大,编辑代价f(x)就越高。当x=0时,表示没有差异点,所以编辑代价f(x)为0;当增删改操作后连续轨迹编辑长度超过3时,表示轨迹差异大。
进一步地,根据所述编辑位置的编辑代价计算总编辑代价,并根据所述总编辑代价得到所述两个字符串对应的车辆轨迹之间的相似度。总编辑代价越小,表示车辆间的轨迹相似度越高,其中,总编辑代价矩阵Cost[i,j]的计算公式如下:
总编辑代价矩阵Cost[i,j]为字符串序列A转换为序列B的最小编辑代价之和,从而判断两个字符串对应的车辆轨迹是否相似。当ai≠bj时,代价矩阵Cost[i,j]=min{Cost[i-1,j],Cost[i,j-1],Cost[i-1,j-1]}+f(L[i,j])-f(L[i,j]-1);当ai=bj时,代价矩阵Cost[i,j]=Cost[i-1,j-1],表示序列A的第i个字符与序列B的第j个字符相同,无需进行编辑操作,此时连续轨迹编辑长度L[i,j]=0,对应位置的编辑代价f(x)=0。具体操作过程如图5所示。
图5中,L[i,j]表示编辑操作对应位置的连续轨迹编辑长度,f(x)表示编辑操作对应位置的编辑代价,C[i,j]表示总编辑代价。当轨迹序列A转换为轨迹序列B时,先判断是否需要增删改编辑操作,然后对应位置累加连续轨迹编辑长度并计算编辑代价,最后累积编辑代价得到总编辑代价,从而判断轨迹序列A与轨迹序列B是否相似。
具体地,以两条车辆轨迹为例说明所述以连续轨迹编辑长度为变量计算编辑代价之和,从而判断两个字符串对应的车辆轨迹是否相似,如图2所示。
当L2车的轨迹序列转换为L1车的轨迹序列时,所用的最小编辑距离D[i,j]=4,对应位置的连续轨迹编辑长度L[i,j]分别为1、1、1、2,则对应位置的编辑代分别为f(1)、f(1)、f(1)、f(2)-f(1)。所以,总编辑代价Cost[i,j]=f(1)+f(1)+f(1)+(f(2)-f(1))≈0.49128。总编辑代价比较小说明L1车的轨迹与L2车的轨迹相似。
当两条稀疏轨迹间的总编辑代价Cost[i,j]越大时,说明需要更多的编辑操作实现编辑转换,轨迹相似性也就越小。当总编辑代价Cost[i,j]越小时,说明这两条轨迹的相似性越高。当总编辑代价Cost[i,j]等于0时,表示不需要编辑操作,说明这两条轨迹完全相似。所以,轨迹之间的相似度随着总编辑代价的递增而减小,随着总编辑代价的递减而增大。
上述的车辆轨迹的相似度计算方法,通过根据车辆轨迹提取得到字符串,将车辆轨迹中的轨迹点即卡口编号视为字符串中的字符,通过采用最小编辑距离方法判断任意两个字符串之间是否需要执行编辑操作,在需要进行编辑操作的情况下,计算编辑位置的连续轨迹编辑长度;根据连续轨迹编辑长度计算编辑位置的编辑代价;根据编辑位置的编辑代价计算总编辑代价,并根据总编辑代价得到两个字符串对应的车辆轨迹之间的相似度。该方法克服了传统的计算方法忽略轨迹点之间的距离、时间间隔、出现频次和产生的代价等因素的缺点,从而可以更高效准确的计算出两条车辆轨迹的相似性。
优选地,上述的车辆轨迹的相似度计算方法还包括以下步骤:
选取相似度超过相似度阈值的轨迹得到相似轨迹集,根据相似轨迹集挖掘热点路径。
进一步地,还可以按天、月、年等周期计算车辆的行驶轨迹,并根据轨迹间的相似度进行聚类,挖掘热点路径。
例如,将热点路径定义为聚类的相似轨迹越多,则该路段为车辆行驶热门路段或拥堵路段,该路段视为热点路径。根据热点路径,可以由导航系统向司机推荐其他畅通路线;此外,热点路径还有助于交通物流、应急疏散管理;还可以根据轨迹特征,判断车辆行驶是否存在异常情况。
此外,还可以实现定向信息投放、拥堵路段分流、精准打击、车辆关联分析等目的。定向信息投放指当系统预测获取了该车的目的地时,可以针对性的推送该区域的交通信息、实时生活信息等。拥堵路段分流指交管部门非常关注疏导交通的方法及依据,当系统预测了该车的目的地,并发现其常用行车轨迹因交通压力或突发原因处于拥堵状态,为缓解交通压力,可向其推荐更为通畅的路径选择。精准打击指通过分析重点违规车辆的历史轨迹倾向及常用停车位置,针对性的定时定点在相关路口部署警力,极大的提升重点违规车辆的查处率。车辆关联分析指当得到车辆轨迹预测模型后,可提取当中的轨迹特征,对比多辆具有相似的特征的车辆,对车辆进行关联分析并分类。特别是对于涉毒涉爆非法运营车辆的关联分析,以挖掘潜在的隐患车辆。
实施例2
如图6所示,与上述方法实施例1相对应地,本实施例还提供一种车辆轨迹的相似度计算系统,包括:
轨迹提取模块,用于获取车辆的历史运行数据作为原始数据,根据所述原始数据得到车辆轨迹集;
字符串生成模块,用于根据所述车辆轨迹集中的各车辆轨迹得到字符串,其中,将车辆轨迹中的轨迹点视为字符串中的字符;
连续轨迹编辑长度计算模块,用于采用最小编辑距离方法判断任意两个字符串之间是否需要执行编辑操作,在需要进行编辑操作的情况下,计算编辑位置的连续轨迹编辑长度;
编辑代价计算模块,用于根据所述连续轨迹编辑长度计算编辑位置的编辑代价;
相似度计算模块,用于根据所述编辑位置的编辑代价计算总编辑代价得到所述两个字符串对应的车辆轨迹之间的相似度。
优选地,还包括:
热点轨迹挖掘模块,用于选取相似度超过相似度阈值的轨迹得到相似轨迹集,根据所述相似轨迹集挖掘热点路径。
优选地,所述轨迹提取模块包括轨迹分割子模块,用于对所述原始数据进行分割形成至少三种不同语义的车辆轨迹集,分别为车辆行停轨迹集、车辆类别轨迹集和车辆时隙轨迹集。
优选地,所述字符串生成模块包括将车辆轨迹视为字符串,所述车辆轨迹包括车辆的卡口编号,所述卡口编号包括断面代码和方向编号。
优选地,所述连续轨迹编辑长度计算模块包括根据最小编辑距离方法D[i,j]判断两个字符串之间是否需要增删改操作,然后对应位置累加连续轨迹编辑长度L[i,j]。首先计算由字符串序列A转换为序列B的最小编辑距离D[i,j]及编辑操作对应位置的连续轨迹编辑长度L[i,j],当序列A和序列B的长度均不为0且ai≠bj时,连续轨迹编辑长度L[i,j]=min{L[i-1,j],L[i,j-1],L[i-1,j-1]}+1,即用动态规划的方法计算序列A中前i-1个字符与序列B中前j个字符的编辑距离D[i-1,j]及对应位置的连续编辑长度L[i-1,j]、序列A中前i个字符与序列B中前j-1个字符的编辑距离D[i,j-1]及对应位置的连续编辑长度L[i,j-1]、序列A中前i-1个字符与序列B中前j-1个字符的编辑距离D[i-1,j-1]及对应位置的连续编辑长度L[i-1,j-1];当ai=bj时,表示序列A的第i个字符与序列B的第j个字符相同,无需进行编辑操作,则该次的编辑距离等于上一次的编辑距离,即D[i,j]=D[i-1,j-1],此时对应位置的连续轨迹编辑长度L[i,j]=0。
优选地,所述编辑代价计算模块包括以连续轨迹编辑长度L[i,j]为变量计算编辑操作对应位置的编辑代价f(x)。f(x)为计算编辑代价的ELU激励函数,x为连续轨迹编辑长度L[i,j]。当0≤x≤3时,对应位置的编辑代价f(x)=0.05(ex-1);当x>3时,对应位置的编辑代价f(x)=x-2。因此连续轨迹差异点x越多,即连续轨迹编辑长度越大,编辑代价f(x)就越大。
优选地,所述相似度计算模块包括根据所述编辑位置的编辑代价f(x)计算总编辑代价Cost[i,j]得到所述两个字符串对应的车辆轨迹之间的相似度。总编辑代价矩阵Cost[i,j]为字符串序列A转换为序列B的最小编辑代价之和,即Cost[i,j]=min{Cost[i-1,j],Cost[i,j-1],Cost[i-1,j-1]}+f(L[i,j])-f(L[i,j]-1)。总编辑代价Cost[i,j]越大,车辆轨迹的相似度就越小。
本发明实施例提供的车辆轨迹的相似度计算系统可执行本发明任意实施例所提供的车辆轨迹的计算方法,具备执行车辆轨迹的相似度计算方法相应的功能模块和有益效果。
实施例3
本实施例还提供一种计算机存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
通过搭建大数据Hadoop环境平台来存储原始数据,并通过传统关系数据库对小量级的数据进行了可行性验证,确保了对ANPR数据轨迹分割算法的有效性,设计了在大数据环境下Hbase的具体表格式,满足交警在时间跨度上,对卡口间通行时间的查询要求。
需要说明的是,存储器作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的车辆轨迹的相似度计算方法对应的程序指令/模块。处理器通过运行存储在存储器中的软件程序、指令以及模块,从而执行计算机设备中的各种功能应用以及数据处理,即实现上述的车辆轨迹的相似度计算方法。
存储器主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
本实施例提出的计算车辆轨迹相似度的存储介质与上述实施例提出的车辆轨迹的相似度计算方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例具备执行车辆轨迹的相似度计算方法相同的有益效果。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种车辆轨迹的相似度计算方法,其特征在于,包括以下步骤:
获取车辆的历史运行数据作为原始数据,根据所述原始数据得到车辆轨迹集;
根据所述车辆轨迹集中的各车辆轨迹得到字符串,其中,将车辆轨迹中的轨迹点视为字符串中的字符;
采用最小编辑距离方法判断任意两个字符串之间是否需要执行编辑操作,在需要进行编辑操作的情况下,计算编辑位置的连续轨迹编辑长度;
根据所述连续轨迹编辑长度计算编辑位置的编辑代价;
根据所述编辑位置的编辑代价计算总编辑代价,并根据所述总编辑代价得到所述两个字符串对应的车辆轨迹之间的相似度;
所述采用最小编辑距离方法判断任意两个字符串之间是否需要执行编辑操作,在需要进行编辑操作的情况下,计算编辑位置的连续轨迹编辑长度包括:
选定任意两条车辆轨迹,分别视为第一字符串和第二字符串;
在所述第一字符串与第二字符串不一致的情况下,根据最小编辑距离方法执行编辑操作,并计算编辑位置的连续轨迹编辑长度,其中,所述连续轨迹编辑长度的动态规划计算公式如下:
式中,a和b分别为第一字符串和第二字符串的长度,i表示第一字符串的下标,j表示第二字符串的下标,ai为第一字符串的第i个字符,bj为第二字符串的第j个字符,D[i,j]表示第一字符串中前i个字符转为第二字符串中前j个字符的最小编辑距离,L[i,j]表示记录最小编辑距离D[i,j]每一个编辑操作对应位置的连续轨迹编辑长度,其中,将第一字符串转换为第二字符串的所有操作都以第二字符串为基准,在第一字符串上进行;
所述根据所述连续轨迹编辑长度计算编辑位置的编辑代价的计算公式如下:
式中,f(x)为计算编辑位置的编辑代价的ELU激励函数,x为连续轨迹编辑长度L[i,j];
所述根据所述总编辑代价得到所述两个字符串对应的车辆轨迹之间的相似度,其中,总编辑代价越小,表示车辆间的轨迹相似度越高,其中,总编辑代价的计算公式如下:
式中,Cost[i,j]为第一字符串转换为第二字符串的总编辑代价。
2.根据权利要求1所述的车辆轨迹的相似度计算方法,其特征在于,还包括以下步骤:
选取相似度超过相似度阈值的轨迹得到相似轨迹集,根据所述相似轨迹集挖掘热点路径。
3.根据权利要求1所述的车辆轨迹的相似度计算方法,其特征在于,所述根据所述原始数据得到车辆轨迹集之后还包括步骤:
并对所述原始数据进行分割形成至少三种不同语义的车辆轨迹集,分别为车辆行停轨迹集、车辆类别轨迹集和车辆时隙轨迹集;
在所述车辆行停轨迹集、所述车辆类别轨迹集和所述车辆时隙轨迹集三种语义方面分别计算各语义下的车辆轨迹的相似度,得到所述三种语义下的各车辆的所述轨迹相似度。
4.根据权利要求1所述的车辆轨迹的相似度计算方法,其特征在于,所述编辑操作包括增加、删除或者修改中的任意一种或者几种的组合。
5.根据权利要求1所述的车辆轨迹的相似度计算方法,其特征在于,所述车辆轨迹包括车辆的卡口编号,一个所述卡口编号表示一个所述轨迹点,所述卡口编号包括断面代码和方向编号。
6.一种车辆轨迹的相似度计算系统,其特征在于,包括:
轨迹提取模块,用于获取车辆的历史运行数据作为原始数据,根据所述原始数据得到车辆轨迹集;
字符串生成模块,用于根据所述车辆轨迹集中的各车辆轨迹得到字符串,其中,将车辆轨迹中的轨迹点视为字符串中的字符;
连续轨迹编辑长度计算模块,用于采用最小编辑距离方法判断任意两个字符串之间是否需要执行编辑操作,在需要进行编辑操作的情况下,计算编辑位置的连续轨迹编辑长度;
编辑代价计算模块,用于根据所述连续轨迹编辑长度计算编辑位置的编辑代价;
相似度计算模块,用于根据所述编辑位置的编辑代价计算总编辑代价得到所述两个字符串对应的车辆轨迹之间的相似度;
所述采用最小编辑距离方法判断任意两个字符串之间是否需要执行编辑操作,在需要进行编辑操作的情况下,计算编辑位置的连续轨迹编辑长度包括:
选定任意两条车辆轨迹,分别视为第一字符串和第二字符串;
在所述第一字符串与第二字符串不一致的情况下,根据最小编辑距离方法执行编辑操作,并计算编辑位置的连续轨迹编辑长度,其中,所述连续轨迹编辑长度的动态规划计算公式如下:
式中,a和b分别为第一字符串和第二字符串的长度,i表示第一字符串的下标,j表示第二字符串的下标,ai为第一字符串的第i个字符,bj为第二字符串的第j个字符,D[i,j]表示第一字符串中前i个字符转为第二字符串中前j个字符的最小编辑距离,L[i,j]表示记录最小编辑距离D[i,j]每一个编辑操作对应位置的连续轨迹编辑长度,其中,将第一字符串转换为第二字符串的所有操作都以第二字符串为基准,在第一字符串上进行;
所述根据所述连续轨迹编辑长度计算编辑位置的编辑代价的计算公式如下:
式中,f(x)为计算编辑位置的编辑代价的ELU激励函数,x为连续轨迹编辑长度L[i,j];
所述根据所述总编辑代价得到所述两个字符串对应的车辆轨迹之间的相似度,其中,总编辑代价越小,表示车辆间的轨迹相似度越高,其中,总编辑代价的计算公式如下:
式中,Cost[i,j]为第一字符串转换为第二字符串的总编辑代价。
7.一种计算机存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至5任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010470105.9A CN111930791B (zh) | 2020-05-28 | 2020-05-28 | 一种车辆轨迹的相似度计算方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010470105.9A CN111930791B (zh) | 2020-05-28 | 2020-05-28 | 一种车辆轨迹的相似度计算方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111930791A CN111930791A (zh) | 2020-11-13 |
CN111930791B true CN111930791B (zh) | 2022-07-15 |
Family
ID=73316427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010470105.9A Active CN111930791B (zh) | 2020-05-28 | 2020-05-28 | 一种车辆轨迹的相似度计算方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111930791B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112612825B (zh) * | 2020-12-18 | 2024-05-14 | 北京锐安科技有限公司 | 一种确定同行车辆的方法、装置、设备以及存储介质 |
CN112733890A (zh) * | 2020-12-28 | 2021-04-30 | 北京航空航天大学 | 一种考虑时空特征的网联车辆轨迹聚类方法 |
CN113158415B (zh) * | 2021-02-23 | 2023-09-08 | 电子科技大学长三角研究院(衢州) | 一种基于误差分析的车辆轨迹相似度评估方法 |
CN113255723B (zh) * | 2021-04-14 | 2021-10-26 | 南京森根安全技术有限公司 | 一种基于轨迹特征和人车关联的黑车识别方法 |
CN113379454A (zh) * | 2021-06-09 | 2021-09-10 | 北京房江湖科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN113780386B (zh) * | 2021-08-30 | 2023-07-18 | 浪潮软件科技有限公司 | 车辆轨迹特征的分析方法、装置及计算机可读介质 |
CN114218288B (zh) * | 2021-11-09 | 2022-09-23 | 北京中交兴路车联网科技有限公司 | 一种行车路线推荐方法、装置、存储介质及终端 |
CN114495514A (zh) * | 2022-02-16 | 2022-05-13 | 中南大学 | 一种多源数据协同的车辆违规掉头热点区域识别方法 |
CN114722312B (zh) * | 2022-04-25 | 2024-09-06 | 浙江大学 | 一种基于轨迹聚类技术的定制公交线路生成方法 |
CN115061987A (zh) * | 2022-06-08 | 2022-09-16 | 南威软件股份有限公司 | 一种车辆轨迹重构的数学模型与压缩方法以及系统 |
CN115083162B (zh) * | 2022-06-15 | 2023-11-17 | 北京三快在线科技有限公司 | 路况预测方法、装置、设备以及存储介质 |
CN116386339B (zh) * | 2023-06-06 | 2023-08-15 | 中路高科交通科技集团有限公司 | 一种省际客运未按线路行驶违法行为智能检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242024A (zh) * | 2018-09-13 | 2019-01-18 | 中南大学 | 一种基于卡口数据的车辆行为相似度计算方法 |
CN110555061A (zh) * | 2019-09-06 | 2019-12-10 | 北京百度网讯科技有限公司 | 轨迹相似度确定方法和装置 |
CN111125189A (zh) * | 2019-12-12 | 2020-05-08 | 四川大学 | 基于加权实数代价编辑距离的轨迹相似性度量方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9626594B2 (en) * | 2015-01-21 | 2017-04-18 | Xerox Corporation | Method and system to perform text-to-image queries with wildcards |
-
2020
- 2020-05-28 CN CN202010470105.9A patent/CN111930791B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242024A (zh) * | 2018-09-13 | 2019-01-18 | 中南大学 | 一种基于卡口数据的车辆行为相似度计算方法 |
CN110555061A (zh) * | 2019-09-06 | 2019-12-10 | 北京百度网讯科技有限公司 | 轨迹相似度确定方法和装置 |
CN111125189A (zh) * | 2019-12-12 | 2020-05-08 | 四川大学 | 基于加权实数代价编辑距离的轨迹相似性度量方法 |
Non-Patent Citations (1)
Title |
---|
一种基于LCSS的相似车辆轨迹查找方法;裴剑等;《小型微型计算机系统》;20160615(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111930791A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111930791B (zh) | 一种车辆轨迹的相似度计算方法、系统及存储介质 | |
Moosavi et al. | Accident risk prediction based on heterogeneous sparse data: New dataset and insights | |
US10573173B2 (en) | Vehicle type identification method and device based on mobile phone data | |
CN109145954B (zh) | 一种基于多源时空数据的网约车出行安全评价方法及系统 | |
CN103325245B (zh) | 一种黑名单车辆的时空行驶轨迹预测方法 | |
US7755509B2 (en) | Use of pattern matching to predict actual traffic conditions of a roadway segment | |
WO2020034903A1 (zh) | 一种基于拓扑图的智能导航的方法和系统 | |
CN107490384B (zh) | 一种基于城市路网的最优静态路径选择方法 | |
WO2017051411A1 (en) | Near real-time modeling of pollution dispersion | |
CN110084308B (zh) | 一种基于车辆轨迹分析构建通勤路径的方法 | |
JPWO2015098280A1 (ja) | 地図データ更新装置 | |
CN112749825A (zh) | 预测车辆的目的地的方法和装置 | |
CN109859505B (zh) | 高速站点的预警处理方法、装置、服务器和介质 | |
CN110021161B (zh) | 一种交通流向的预测方法及系统 | |
Garg et al. | Mining bus stops from raw GPS data of bus trajectories | |
US11430330B2 (en) | Method for predicting travel time using spatio-temporal model and apparatus thereof | |
WO2016163929A1 (en) | Device and method for classification of road segments based on their suitability for platooning | |
CN115862331A (zh) | 考虑卡口网络拓扑结构的车辆出行轨迹重构方法 | |
Jiang et al. | itv: Inferring traffic violation-prone locations with vehicle trajectories and road environment data | |
Qian | Real-time incident detection using social media data. | |
Szymański et al. | Spatio-temporal profiling of public transport delays based on large-scale vehicle positioning data from GPS in Wrocław | |
Ghosh et al. | A machine learning approach to find the optimal routes through analysis of gps traces of mobile city traffic | |
CN114116854A (zh) | 轨迹数据处理方法、装置、设备和存储介质 | |
Dunne et al. | A large scale method for extracting geographical features on bus routes from OpenStreetMap and assessment of their impact on bus speed and reliability | |
Karim et al. | A Model of Interactive Traffic Management System and Traffic Data Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |