CN107944475B - 基于公共分片子序列的轨迹离群点检测方法 - Google Patents

基于公共分片子序列的轨迹离群点检测方法 Download PDF

Info

Publication number
CN107944475B
CN107944475B CN201711099171.4A CN201711099171A CN107944475B CN 107944475 B CN107944475 B CN 107944475B CN 201711099171 A CN201711099171 A CN 201711099171A CN 107944475 B CN107944475 B CN 107944475B
Authority
CN
China
Prior art keywords
track
fragment
css
sequence
outlier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711099171.4A
Other languages
English (en)
Other versions
CN107944475A (zh
Inventor
俞庆英
罗永龙
陈传明
陈付龙
汪小寒
胡桂银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Normal University
Original Assignee
Anhui Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Normal University filed Critical Anhui Normal University
Priority to CN201711099171.4A priority Critical patent/CN107944475B/zh
Publication of CN107944475A publication Critical patent/CN107944475A/zh
Application granted granted Critical
Publication of CN107944475B publication Critical patent/CN107944475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machines For Laying And Maintaining Railways (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于公共分片子序列的轨迹离群点检测方法,根据轨迹的方向特征,构建轨迹方向码序列,获取轨迹的分段序列和分片序列;计算轨迹间的CSS距离,根据预设离群轨迹分片和轨迹离群点的度量方法,检测出离群轨迹分片和轨迹离群点。本发明的优点在于:本发明设计了轨迹的方向码序列、轨迹的分片特征序列以及轨迹间公共分片子序列的距离,实现了轨迹分片离群点检测和离群轨迹的检测。算法适用于具有时间属性和空间位置属性的时空轨迹数据集,理论分析与实验结果均表明,本发明是能够准确而有效的检测出轨迹离群点。

Description

基于公共分片子序列的轨迹离群点检测方法
技术领域
本发明涉及数据挖掘领域,具体地,涉及一种基于公共分片子序列的轨迹离群点检测方法。
背景技术
随着卫星、移动终端、各种定位技术(GPS、GSM、RFID等)和存储技术的应用与发展,大量移动对象的轨迹数据被搜集和存储,例如车辆运行轨迹、移动用户活动轨迹、飓风轨迹、动物迁徙轨迹数据等。轨迹数据中包含丰富的时空语义信息,共享和发布这些数据可以使分析人员获取有用信息,并应用于智能交通、用户行为分析、城市和道路规划、旅游推荐、天气预测、动物习性研究等多个领域,对这些轨迹数据进行挖掘分析已经成为一个有意义的课题。其中,轨迹离群点检测是最典型的轨迹数据分析手段之一。
轨迹离群点检测属于时空数据离群点检测的范畴,广泛应用于恶劣天气预测和智能交通领域。轨迹离群点(也称为离群轨迹)是指基于相似的评价机制,在一定的时间间隔内,空间位置偏离绝大多数轨迹的轨迹,是非常少见的模式,可能表明一个反常的事件,离群轨迹的检测结果可以起到预测和警示作用。同时,离群位置点或离群轨迹的检测和移除对于提高基于相似性聚类的轨迹隐私保护算法的效率很有意义。因此,轨迹离群点检测是本发明关注的研究问题。
目前,轨迹离群点检测已取得一些研究成果。从处理的基本单元看,可以分为轨迹分段后检测和轨迹整体检测两大类方法。从侧重的研究属性看,可以分为以空间位置属性为主要特征的轨迹离群点检测和以时间属性为主要特征的轨迹离群点检测。其中,轨迹分段后检测较轨迹整体检测的准确率更高。然而,现有离群轨迹检测方法存在很多不足,例如:以整条轨迹作为研究对象的方法,对于子轨迹异常的情形往往无法检测,离群子轨迹的特征可能在整条轨迹中被均化。目前以子轨迹为研究对象的轨迹分段后检测方法则主要强调空间位置特征的重要性,忽视了轨迹时间属性的重要性;另一方面,孤立地考虑轨迹的分段,忽视了轨迹分段之间的连续性特征。现有方法,一般是按照相同采样点的个数对轨迹进行划分,无法反映轨迹的真实特征信息。所以,现有检测算法的性能无法得到保证。
本发明基于公共分片子序列的模型构建,提出一种更为准确有效的轨迹离群点检测方法。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于公共分片子序列的轨迹离群点检测方法,既考虑到了轨迹的分片效果又突出了轨迹连续分片特征的重要性。具体来说,提出的该方法包含了两个功能,第一个是针对时空轨迹数据集进行建模,获取轨迹的分段和分片特征序列。另外,引入了一种新的基于公开分片子序列CSS的轨迹距离计算方法,用于检测离群的轨迹分片和离群轨迹。
为了实现上述目的,本发明采用的技术方案为:一种轨迹离群点检测方法,根据轨迹的方向特征,构建轨迹方向码序列,获取轨迹的分段序列和分片序列;
计算轨迹间的CSS距离,根据预设离群轨迹分片和轨迹离群点的度量方法,检测出离群轨迹分片和轨迹离群点。
具体包括如下步骤,
步骤1:轨迹的形式化表示
对轨迹数据集进行形式化预处理,生成如下轨迹数据集:
T={Tid,(t1,x1,y1),(t2,x2,y2),…,(tn,xn,yn)}
其中,Tid表示轨迹的序号,(ti,xi,yi)(1≤i<n)表示第i个位置点的时间和空间位置属性三元组,n是轨迹中位置点的个数;
步骤2:对轨迹进行分段,获取轨迹的分段序列
轨迹段是指轨迹中相邻位置点形成的线段,轨迹Ti中的轨迹段集合TSegsi可表示为:
Figure BDA0001462977160000031
Figure BDA0001462977160000032
因此可得,
Figure BDA0001462977160000033
包含n-1个轨迹段;
步骤3:计算轨迹特征序列
轨迹段的特征序列为
Figure BDA0001462977160000034
Figure BDA0001462977160000035
表示Ti中第q个轨迹段的某种特征,对轨迹段特征的分析,评价位置点序列走势,判定位置点的性质;
步骤4、获取轨迹分片序列
以轨迹走势的方向特征作为压缩轨迹基本处理单元的标准,通过设置合适的同向判定阈值,以压缩准确性和简洁性为目标,获取每条轨迹的分片序列;
将轨迹分片作为轨迹新的基本处理单元,每个分片的特征用其所含轨迹段的平均特征加以衡量,构成轨迹Ti的分片序列可表示为:
Figure BDA0001462977160000041
其中,1=p1<p2<…<pz<pz+1=n,
Figure BDA0001462977160000042
r=1,…,z,表示第i条轨迹Ti的第r个轨迹分片,因此可得,
Figure BDA0001462977160000043
步骤5、获取轨迹间的公共分片子序列CSS,进而计算轨迹间的CSS距离,得到CSS距离数据集
采用计算公式计算同方向码轨迹分片间的距离,计算公式为:
Slicedt=wloc*Slicedtloc+wplen*Slicedtplen
Figure BDA0001462977160000044
Slicedt表示两个同方向码
Figure BDA0001462977160000045
Figure BDA0001462977160000046
轨迹分片之间的距离;Slicedtloc和Slicedtplen分别表示它们之间的位置距离和路径距离,Slicedtloc是两个分片中心点之间的欧氏距离;
Figure BDA0001462977160000047
Figure BDA0001462977160000048
分别表示分片
Figure BDA0001462977160000049
Figure BDA00014629771600000410
的长度;wloc和wplen分别表示对应距离的权重;
Figure BDA00014629771600000411
Figure BDA00014629771600000412
分别表示
Figure BDA00014629771600000413
Figure BDA00014629771600000414
的持续时间间隔;
然后根据公式
Figure BDA00014629771600000415
计算每一对CSS之间的距离,CSSdt表示CSS之间距离;bi和ei分别表示CSS中第一个同向分片的序号和最后一个同向分片的序号;Slicedtk表示其中第k对同向分片之间的距离;对每条轨迹Ti,查找与其他轨迹Tj的所有公共分片子序列CSS,计算所有的CSS距离,得到CSS距离数据集;
步骤6:计算轨迹的CSS邻居
计算所有轨迹的CSS邻居以及相应邻居的数目,其中一条轨迹T的CSS邻居指的是TS中与T有公共分片子序列的轨迹;
步骤7:基于CSS距离数据集以及轨迹分片离群点和离群轨迹的判定条件,识别出轨迹分片离群点和离群轨迹。
判定轨迹分片离群点和离群轨迹的方法为:
若一个轨迹分片的邻居数目少于指定阈值α,就被识别为离群轨迹分片,其中,轨迹分片的邻居指的是和它距离小于指定阈值δ的所有轨迹分片;
若满足以下条件之一,则轨迹Ti被定义为离群轨迹或轨迹离群点:
i)Ti与TS中的任何其它轨迹Tj(j=1…n,j≠i)都没有公共分片子序列;
ii)CSS邻居的数目小于指定阈值β;
iii)超过CSS距离阈值γ的CSS邻居数目与|TS|的比值大于比例阈值η。
采用以方向作为特征的方法为以原点为中心,将平面直角坐标系平均划分成N个区域,每个区域夹角为2π/N,并对应一个唯一方向码,称为N码,根据轨迹段斜率,为每个轨迹段赋予一个N码,将轨迹转换成N码序列。
将轨迹分片作为轨迹新的基本处理单元,每个轨迹分片的方向码设置为该分片内所有轨迹段方向码的平均值。
本发明的优点在于:本发明设计了轨迹的方向码序列、轨迹的分片特征序列以及轨迹间公共分片子序列的距离,实现了轨迹分片离群点检测和离群轨迹的检测。算法适用于具有时间属性和空间位置属性的时空轨迹数据集,理论分析与实验结果均表明,本发明是能够准确而有效的检测出轨迹离群点。
附图说明
下面对本发明说明书各幅附图表达的内容及图中的标记作简要说明:
图1是本发明所述方法的执行模块流程图;
图2是本发明所述方法中,轨迹段和轨迹分片示意图;
图3是本发明所述方法中,16种方向码所代表的区域;
图4是本发明所述方法中,轨迹Ti和Tj之间的一对公共分片子序列;
图5是本发明所述方法中,具有相同方向代码的两个轨迹分片间的距离;
图6为本发明所述方法基于第一组数据集(Dataset1)的前10条轨迹的分片效果;
图7为本发明所述方法基于第二组数据集(Dataset2)的前10条轨迹的分片效果;
图8为本发明所述方法基于第一组数据集(Dataset1)的离群轨迹分片的检测结果;
图9为本发明所述方法基于第二组数据集(Dataset2)的离群轨迹分片的检测结果;
图10为本发明所述方法基于第一组数据集(Dataset1)的轨迹离群点的检测结果;
图11为本发明所述方法基于第二组数据集(Dataset2)的轨迹离群点的检测结果。
具体实施方式
下面对照附图,通过对最优实施例的描述,对本发明的具体实施方式作进一步详细的说明。
根据轨迹的方向特征,构建轨迹方向码序列,进而获取轨迹的分段序列和分片序列。再计算轨迹间的CSS距离,设计离群轨迹分片和轨迹离群点的度量方法,实现离群轨迹分片和轨迹离群点的识别。
该技术具体是指:
首先,对轨迹数据集进行形式化预处理,实验结果产生如式(1)所示的轨迹数据集。
其次,对轨迹进行分段,基于对轨迹段特征的分析,评价位置点序列走势,判定位置点的性质(如停留点或途经点)。采用以方向作为主要特征的方法,即:以原点为中心,将平面直角坐标系平均划分成N个区域,每个区域夹角为2π/N,并对应一个唯一方向码(称为N码),根据轨迹段斜率,为每个轨迹段赋予一个N码,将轨迹转换成N码序列。
通过设计合适的同向判定阈值,以压缩准确性和简洁性为目标,获取每条轨迹的分片序列。
将轨迹分片作为轨迹新的基本处理单元,每个轨迹分片的方向码设置为该分片内所有轨迹段方向码的平均值。
用公式(4)和(5)计算同方向码轨迹分片之间的距离,用公式(6)计算每一对CSS之间的距离。对每条轨迹Ti,查找与其他轨迹Tj(j≠i)的所有公共分片子序列(CSS),计算所有的CSS距离,得到CSS距离数据集。
计算所有轨迹的CSS邻居以及相应邻居数目。基于CSS距离数据集以及轨迹分片离群点和离群轨迹的判定条件,识别出轨迹分片离群点和离群轨迹。
具体包括:
步骤s1:轨迹的形式化表示
对轨迹数据集进行形式化预处理,实验结果产生如式(1)所示的轨迹数据集。
T={Tid,(t1,x1,y1),(t2,x2,y2),…,(tn,xn,yn)} (1)
其中,Tid表示轨迹的序号,(ti,xi,yi)(1≤i<n)表示第i个位置点的时间和空间位置属性三元组,n是轨迹中位置点的个数。
步骤s2:对轨迹进行分段,获取轨迹方向码序列。
轨迹段是指轨迹中相邻位置点形成的线段。轨迹Ti中的轨迹段集合TSegsi可表示为:
Figure BDA0001462977160000081
Figure BDA0001462977160000082
表示第i条轨迹Ti的第q个轨迹段,每个轨迹段的方向是轨迹分片的基础,因此可得,
Figure BDA0001462977160000083
Figure BDA0001462977160000091
q为轨迹段序号,包含n-1个轨迹段。如图2(a)所示,图中指出了轨迹段4为
Figure BDA0001462977160000092
即可以标识为
Figure BDA0001462977160000093
本发明采用轨迹段特征序列表示方法
Figure BDA0001462977160000094
(其中,
Figure BDA0001462977160000095
表示Ti中第q个轨迹段的方向特征)对轨迹进行深入分析。基于对轨迹段特征的分析,评价位置点序列走势,判定位置点的性质(如停留点或途经点)。即根据图3所示的2D平面划分及每个区域的代码分配,计算每个轨迹段的方向代码,进而获取每条轨迹的方向代码序列;采用以方向作为主要特征的方法,即:以原点为中心,将平面直角坐标系平均划分成N个区域,每个区域夹角为2π/N,并对应一个唯一方向码(称为N码),根据轨迹段斜率,为每个轨迹段赋予一个N码,将轨迹转换成N码序列。设N=16,N方向码所代表的区域如图3所示。
步骤s3:获取轨迹分片和分片特征序列。
对于采样位置点非常多的长轨迹来说,以轨迹段作为研究对象势必导致时间复杂度过高,因此,适当压缩基本处理单元的数量会大大提高算法的执行效率,同时,为了保证研究结果的正确性,必须设计合理的压缩规则。本发明采用轨迹走势的一个重要特征即方向来作为压缩轨迹基本处理单元的重要标准。通过设计合适的同向判定阈值,以压缩准确性和简洁性为目标,获取每条轨迹的分片序列。具体来说,根据轨迹的方向代码序列,获取方向突变的拐点,基于拐点集合,获取轨迹的分片序列。
将轨迹分片作为轨迹新的基本处理单元,每个分片的特征用其所含轨迹段的平均特征加以衡量。从形式上看,构成轨迹Ti的分片序列可表示为:
Figure BDA0001462977160000101
其中,1=p1<p2<…<pz<pz+1=n。设
Figure BDA0001462977160000102
Figure BDA00014629771600001011
表示第i条轨迹Ti的第r个轨迹分片,z表示轨迹片数。因此可得,
Figure BDA0001462977160000104
Figure BDA0001462977160000105
为第r个轨迹分片的起始点,
Figure BDA0001462977160000106
为第r个轨迹分片的终止点,如图2(b)所示,轨迹Ti含有5个轨迹分片,每个分片含有的位置点数目不一定相同。如图2(b)所示,
Figure BDA0001462977160000107
为轨迹Ti的拐点集合,基于此,将轨迹Ti划分为5个轨迹分片,例如,轨迹分片3可表示为:
Figure BDA0001462977160000108
每个轨迹分片的方向码设置为该分片内所有轨迹段方向码的平均值。
步骤s4:计算轨迹公共分片子序列(CSS)进而计算轨迹间的CSS距离,得到CSS距离数据集
如图4所示,Ti和Tj是轨迹集TS中的两条轨迹,
Figure BDA0001462977160000109
Figure BDA00014629771600001010
是Ti和Tj之间的一对公共分片子序列(CSS),它们的对应分片具有相同的方向码。计算每一条轨迹与其他所有轨迹的CSS。
用公式(4)和(5)计算同方向码轨迹分片之间的距离。
Slicedt=wloc*Slicedtloc+wplen*Slicedtplen(4)
Figure BDA0001462977160000111
其中,Slicedt表示两个同方向码(
Figure BDA0001462977160000112
Figure BDA0001462977160000113
)轨迹分片之间的距离;Slicedtloc和Slicedtplen分别表示它们之间的位置距离和路径距离,Slicedtloc是两个分片中心点之间的欧氏距离;
Figure BDA0001462977160000114
Figure BDA0001462977160000115
分别表示分片
Figure BDA0001462977160000116
Figure BDA0001462977160000117
的长度;wloc和wplen分别表示对应距离的权重;
Figure BDA0001462977160000118
Figure BDA0001462977160000119
分别表示
Figure BDA00014629771600001110
Figure BDA00014629771600001111
的持续时间间隔。以上公式中出现的各个组件如图5所示。
然后,用公式(6)计算每一对CSS之间的距离(简称CSS距离,记为CSSdt)。
Figure BDA00014629771600001112
对每条轨迹Ti,查找与其他轨迹Tj(j≠i)的所有公共分片子序列(CSS),计算所有的CSS距离,得到CSS距离数据集。bi和ei分别表示CSS中第一个同向分片的序号和最后一个同向分片的序号;Slicedtk表示其中第k对同向分片之间的距离。
步骤s5:计算轨迹间的CSS距离,获取CSS距离数据集。
对每条轨迹Ti,查找与其他轨迹Tj(j≠i)的所有公共分片子序列(CSS),用公式(4)、公式(5)和公式(6)计算所有的CSS距离,得到CSS距离数据集。
步骤s6:计算轨迹的CSS邻居。
根据定义:一条轨迹T的CSS邻居指的是TS中与T有公共分片子序列的轨迹,计算所有轨迹的CSS邻居以及相应邻居数目。TS为所有轨迹的集合。
步骤s7:设计分片离群点和离群轨迹的度量方法。
采用如下方法判定轨迹分片离群点和离群轨迹:
若一个轨迹分片的邻居数目少于指定阈值α,就被识别为离群轨迹分片(或轨迹分片离群点),其中,轨迹分片的邻居指的是和它距离小于指定阈值δ的所有轨迹分片。
若满足以下条件之一,则轨迹Ti被定义为离群轨迹(轨迹离群点):i)Ti与TS中的任何其它轨迹Tj(j=1…n,j≠i)都没有公共分片子序列。ii)CSS邻居的数目小于指定阈值β。iii)超过CSS距离阈值γ的CSS邻居数目与|TS|的比值大于比例阈值η。|TS|表示轨迹集中的轨迹条数,阈值是通过实验计算出来的。具体如下:β为0.05*|TS|,γ为CSS距离集合的90百分位数,η为异常比例集合中的98百分位数。
步骤s8:检测出轨迹分片离群点及离群轨迹。
基于CSS距离数据集以及上述判定条件,设置合适的参数值,识别出轨迹分片离群点和离群轨迹。
为了说明效果,可以采用图6-11来进一步说明采用本方法可以达到的效果,本发明的具体实施例,列举了在2个真实数据集上评价提出方法的有效性。数据来源是1851-2013年的大西洋飓风轨迹数据集,具体包括每6小时间隔(0000,0600,1200,1800UTC)的飓风位置(经度longitude和纬度latitude)、最大持续风速和中心气压。本发明的实验中抽取轨迹位置点的时间、纬度、经度三个属性,具体分为Dataset1数据集和Dataset2数据集。其中,Dataset1含有1851-2013年所有的轨迹数据,包含855条轨迹和20146个位置点;Dataset2含有1990-2013年所有的轨迹数据,包含152条估计和6557个位置点;Dataset2是Dataset1的真子集。
图6和图7分别给出了本发明所描述方法基于数据集Dataset1和Dataset2的分片效果,图6和图7中,粗细相间的线条,表明相邻分片,根据相邻分片的方向特征,可以看出本发明所述方法取得了良好的分片效果,,在轨迹分片的划分拐点处,轨迹的方向都出现了明显的变化,在每一个分片内部,方向码都高度相似。图8和图9分别给出了本发明所描述方法基于数据集Dataset1和Dataset2的离群轨迹分片检测效果,图8和图9中,粗线段标识的为离群轨迹分片,细的虚线标识的为所有轨迹;
图10和图11分别给出了本发明所描述方法基于数据集Dataset1和Dataset2的离群轨迹(也称为轨迹离群点)的检测结果,图10中“*”号标识的是由单个位置点构成的轨迹,图中实线标识的是由不止一个位置点构成的轨迹,图中虚线标识的是1996年9月袭击北卡罗莱纳恐怖角的飓风,这三种符号标识的都是本发明所述方法识别出的轨迹离群点。图11中,粗线段标识的为本发明所述方法识别出的轨迹离群点,灰色虚线标识的为所有轨迹。
图10中标记为黑色虚线的离群轨迹就是1996年9月袭击北卡罗莱纳恐怖角的飓风,是一次大型毁灭性的飓风。可视化的结果表明,本发明的方法对轨迹离群点的检测取得了良好的效果。
显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,均在本发明的保护范围之内。

Claims (4)

1.基于公共分片子序列的轨迹离群点检测方法,其特征在于:
根据轨迹的方向特征,构建轨迹方向码序列,获取轨迹的分段序列和分片序列;
计算轨迹间的CSS距离,根据预设离群轨迹分片和轨迹离群点的度量方法,检测出离群轨迹分片和轨迹离群点;
检测方法包括如下步骤:
步骤1:轨迹的形式化表示
对轨迹数据集进行形式化预处理,生成如下轨迹数据集:
T={Tid,(t1,x1,y1),(t2,x2,y2),…,(tn,xn,yn)}
其中,Tid表示轨迹的序号,(ti,xi,yi)表示第i个位置点的时间和空间位置属性三元组,其中1≤i<n,n是轨迹中位置点的个数;
步骤2:对轨迹进行分段,获取轨迹的分段序列
轨迹段是指轨迹中相邻位置点形成的线段,轨迹Ti中的轨迹段集合TSegsi可表示为:
Figure FDA0002885810380000011
Figure FDA0002885810380000012
表示第i条轨迹Ti的第q个轨迹段,因此可得,
Figure FDA0002885810380000013
包含n-1个轨迹段;
步骤3:计算轨迹特征序列
轨迹段的特征序列为
Figure FDA0002885810380000014
Figure FDA0002885810380000015
表示Ti中第q个轨迹段的方向特征,对轨迹段特征的分析,评价位置点序列走势,判定位置点的性质;
步骤4、获取轨迹分片序列
以轨迹走势的方向特征作为压缩轨迹基本处理单元的标准,通过设置合适的同向判定阈值,获取每条轨迹的分片序列;
将轨迹分片作为轨迹新的基本处理单元,每个分片的特征用其所含轨迹段的平均特征加以衡量,构成轨迹Ti的分片序列可表示为:
Figure FDA0002885810380000021
其中,1=p1<p2<…<pz<pz+1=n,
Figure FDA0002885810380000022
表示第i条轨迹Ti的第r个轨迹分片,因此可得,
Figure FDA0002885810380000023
步骤5、获取轨迹间的公共分片子序列CSS,进而计算轨迹间的CSS距离,得到CSS距离数据集
采用计算公式计算同方向码轨迹分片间的距离,计算公式为:
Slicedt=wloc*Slicedtloc+wplen*Slicedtplen
Figure FDA0002885810380000024
Slicedt表示两个同方向码
Figure FDA0002885810380000025
Figure FDA0002885810380000026
轨迹分片之间的距离;Slicedtloc和Slicedtplen分别表示它们之间的位置距离和路径距离,Slicedtloc是两个分片中心点之间的欧氏距离;
Figure FDA0002885810380000027
Figure FDA0002885810380000028
分别表示分片
Figure FDA0002885810380000029
Figure FDA00028858103800000210
的长度;wloc和wplen分别表示对应距离的权重;
Figure FDA00028858103800000211
Figure FDA00028858103800000212
分别表示
Figure FDA00028858103800000213
Figure FDA00028858103800000214
的持续时间间隔;
然后根据公式
Figure FDA00028858103800000215
计算每一对CSS之间的距离,CSSdt表示CSS之间距离;bi和ei分别表示CSS中第一个同向分片的序号和最后一个同向分片的序号;Slicedtk表示其中第k对同向分片之间的距离;对每条轨迹Ti,查找与其他轨迹Tj的所有公共分片子序列CSS,计算所有的CSS距离,得到CSS距离数据集;
步骤6:计算轨迹的CSS邻居
设TS是所有轨迹的集合,可表示为:TS={T1,T2,…,Tp},|TS|指的是TS中轨迹的条数,即|TS|=p,计算所有轨迹的CSS邻居以及相应邻居的数目,其中一条轨迹T的CSS邻居指的是TS中与T有公共分片子序列的轨迹;
步骤7:基于CSS距离数据集以及轨迹分片离群点和离群轨迹的判定条件,识别出轨迹分片离群点和离群轨迹。
2.如权利要求1所述的基于公共分片子序列的轨迹离群点检测方法,其特征在于:判定轨迹分片离群点和离群轨迹的方法为:
若一个轨迹分片的邻居数目少于指定阈值α,就被识别为离群轨迹分片,其中,轨迹分片的邻居指的是和它距离小于指定阈值δ的所有轨迹分片;
若满足以下条件之一,则轨迹Ti被定义为离群轨迹或轨迹离群点:
i)Ti与TS中的任何其它轨迹Tj都没有公共分片子序列,其中j=1…n,j≠i;
ii)CSS邻居的数目小于指定阈值β;
iii)超过CSS距离阈值γ的CSS邻居数目与|TS|的比值大于比例阈值η,|TS|表示轨迹集中的轨迹条数。
3.如权利要求1所述的基于公共分片子序列的轨迹离群点检测方法,其特征在于:步骤3中的特征序列为方向特征序列,采用以方向作为特征的方法为以原点为中心,将平面直角坐标系平均划分成N个区域,每个区域夹角为2π/N,并对应一个唯一方向码,称为N码,根据轨迹段斜率,为每个轨迹段赋予一个N码,将轨迹转换成N码序列。
4.如权利要求1所述的基于公共分片子序列的轨迹离群点检测方法,其特征在于:将轨迹分片作为轨迹新的基本处理单元,每个轨迹分片的方向码设置为该分片内所有轨迹段方向码的平均值。
CN201711099171.4A 2017-11-09 2017-11-09 基于公共分片子序列的轨迹离群点检测方法 Active CN107944475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711099171.4A CN107944475B (zh) 2017-11-09 2017-11-09 基于公共分片子序列的轨迹离群点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711099171.4A CN107944475B (zh) 2017-11-09 2017-11-09 基于公共分片子序列的轨迹离群点检测方法

Publications (2)

Publication Number Publication Date
CN107944475A CN107944475A (zh) 2018-04-20
CN107944475B true CN107944475B (zh) 2021-05-14

Family

ID=61933576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711099171.4A Active CN107944475B (zh) 2017-11-09 2017-11-09 基于公共分片子序列的轨迹离群点检测方法

Country Status (1)

Country Link
CN (1) CN107944475B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097074B (zh) * 2019-03-19 2021-06-22 中国科学院信息工程研究所 一种基于序列相似度的车辆轨迹压缩方法
CN112230253B (zh) * 2020-10-13 2021-07-09 电子科技大学 基于公共切片子序列的轨迹特征异常检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100208063A1 (en) * 2009-02-19 2010-08-19 Panasonic Corporation System and methods for improving accuracy and robustness of abnormal behavior detection
US9761008B2 (en) * 2014-05-08 2017-09-12 The Trustees Of The University Of Pennsylvania Methods, systems, and computer readable media for visual odometry using rigid structures identified by antipodal transform
CN104778355B (zh) * 2015-04-03 2017-06-13 东南大学 基于广域分布交通系统的异常轨迹检测方法
CN107277765A (zh) * 2017-05-12 2017-10-20 西南交通大学 一种基于聚类离群分析的手机信令轨迹预处理方法

Also Published As

Publication number Publication date
CN107944475A (zh) 2018-04-20

Similar Documents

Publication Publication Date Title
CN111539454B (zh) 一种基于元学习的车辆轨迹聚类方法及系统
CN107679558A (zh) 一种基于度量学习的用户轨迹相似性度量方法
CN107682319A (zh) 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN109634946B (zh) 一种基于大数据挖掘的轨迹智能匹配关联分析方法
CN108228832B (zh) 一种基于距离矩阵的时间序列数据补全方法
WO2019080881A1 (zh) 行人流量漏斗生成方法及装置、存储介质、电子设备
CN110781266B (zh) 一种基于时空因果关系的城市感知数据处理方法
CN106570465A (zh) 一种基于图像识别的人流量统计方法及装置
CN107944475B (zh) 基于公共分片子序列的轨迹离群点检测方法
CN108986143B (zh) 一种视频中目标检测跟踪方法
CN106326928B (zh) 一种目标识别方法及设备
Mao et al. Outlier detection over distributed trajectory streams
EP3270334A1 (en) Method of trip prediction by leveraging trip histories from neighboring users
CN110532297A (zh) 一种基于层次聚类的符号化水文时间序列异常模式检测方法
Makris et al. A comparison of trajectory compression algorithms over AIS data
CN115810178A (zh) 人群异常聚集预警方法、装置、电子设备及介质
Bamis et al. Lightweight extraction of frequent spatio-temporal activities from GPS traces
CN102722732B (zh) 一种基于数据二阶统计量建模的图像集合匹配方法
CN110716925A (zh) 一种基于轨迹分析的跨境行为识别方法
Qin et al. Estimation of urban arterial travel time distribution considering link correlations
CN114328785A (zh) 提取道路信息的方法和装置
CN115757987B (zh) 基于轨迹分析的伴随对象确定方法、装置、设备及介质
CN111125925B (zh) 一种飞行器航迹数据驱动的终端区空域时空相关分析方法
CN116796238A (zh) 一种基于四维航迹预测的无人机短时航迹偏离检测方法
CN115879051A (zh) 一种基于vae的轨迹大数据异常检测方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant