CN112633389B - 一种基于mdl和速度方向的飓风运动轨迹趋势计算方法 - Google Patents

一种基于mdl和速度方向的飓风运动轨迹趋势计算方法 Download PDF

Info

Publication number
CN112633389B
CN112633389B CN202011580673.0A CN202011580673A CN112633389B CN 112633389 B CN112633389 B CN 112633389B CN 202011580673 A CN202011580673 A CN 202011580673A CN 112633389 B CN112633389 B CN 112633389B
Authority
CN
China
Prior art keywords
track
vector
hurricane
distance
trajectory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011580673.0A
Other languages
English (en)
Other versions
CN112633389A (zh
Inventor
乔殿峰
梁彦
杨心语
马超雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202011580673.0A priority Critical patent/CN112633389B/zh
Publication of CN112633389A publication Critical patent/CN112633389A/zh
Application granted granted Critical
Publication of CN112633389B publication Critical patent/CN112633389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01WMETEOROLOGY
    • G01W1/00Meteorology
    • G01W1/10Devices for predicting weather conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Environmental & Geological Engineering (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Atmospheric Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Ecology (AREA)
  • Environmental Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于MDL和速度方向的飓风运动轨迹趋势计算方法,获取历史飓风轨迹线;基于每条历史飓风轨迹线的最小长度描述代价和转弯角度变化率,确定每条历史飓风轨迹线的分段点;根据分段点确定每条历史飓风轨迹线的轨迹矢量;计算任意两条轨迹矢量之间的度量距离;基于度量距离,将轨迹矢量插入到R树中的叶子节点中,构建基于轨迹矢量的R树;基于DBSCAN算法对R树中的轨迹矢量进行聚类,生成聚类簇;根据聚类簇生成飓风运动轨迹趋势;本发明方法可以提升飓风轨迹分段精确性以及聚类计算效率。

Description

一种基于MDL和速度方向的飓风运动轨迹趋势计算方法
技术领域
本发明属于飓风趋势预测技术领域,尤其涉及一种基于MDL和速度方向的飓风运动轨迹趋势计算方法。
背景技术
飓风严重威胁发生地区人们的生命安全,然而针对飓风等自然气象活动轨迹的研究很少。近年来,对飓风运动模式的探究逐渐成为学者们的研究热点。通过对飓风的运动轨迹进行聚类挖掘分析,可以用来辅助预测飓风的运动特征。正常的轨迹中往往存在大量噪声数据,使得轨迹的活动规律不易被发现,给飓风轨迹数据的分析与挖掘提出了严峻的挑战。
目前,对于飓风的聚类分析问题主要集中轨迹分段不精确和聚类效率低两个方面。在轨迹分段方面,常见方法有基于最小描述长度理论的轨迹分段算法、基于角点检测的算法、基于MOD(子)轨迹的轨迹分段和采样的方法。然而这些方法未考虑轨迹局部特征,造成分段点选取不精确的问题。将最小描述长度与速度方向角变化率相结合,防止关键信息缺失,提高了轨迹分段的准确性。在聚类方面,常用的空间距离度量方法有欧氏距离(Euclidean Distance)、豪斯多夫距离(Line Hausdorff Distance,LHD)。欧氏距离更加关注轨迹之间的全局相似性,对于较短子轨迹之间的局部相似性度量并没有考虑,线段-豪斯多夫距离对线段的匹配程度不仅包括点位置,还包括方向和速度,但不满足三角不等式原理,因此不满足度量距离标准。这也使得在后续的聚类过程中不能够直接使用经典空间索引的方法来提高聚类效率。
发明内容
本发明的目的是提供一种基于MDL和速度方向的飓风运动轨迹趋势计算方法,提升飓风轨迹分段精确性以及聚类计算效率。
本发明采用以下技术方案:一种基于MDL和速度方向的飓风运动轨迹趋势计算方法,包括以下步骤:
获取历史飓风轨迹线;
基于每条历史飓风轨迹线的最小长度描述代价和转弯角度变化率,确定每条历史飓风轨迹线的分段点;
根据分段点确定每条历史飓风轨迹线的轨迹矢量;
计算任意两条轨迹矢量之间的度量距离;
基于度量距离,将轨迹矢量插入到R树中的叶子节点中,构建基于轨迹矢量的R树;
基于DBSCAN算法对R树中的轨迹矢量进行聚类,生成聚类簇;
根据聚类簇生成飓风运动轨迹趋势。
进一步地,每条历史飓风轨迹线的分段点满足:
其中,pk为历史飓风轨迹线上的轨迹点,CPi为所有分段点的集合,MDLpar(pi,pk)表示当pk为分段点时的MDL代价,MDLnopar(pi,pk)表示当pk为非分段点时的MDL代价,Δθk为轨迹点Pk处的转弯角度变化率,θth转弯角度变化率阈值。
进一步地,根据分段点确定每条历史飓风轨迹线的轨迹矢量包括:
在每条历史飓风轨迹线中,将相邻的两个分段点按照历史飓风的移动顺序连接,形成轨迹矢量。
进一步地,计算任意两条轨迹矢量之间的度量距离包括:
通过计算两条轨迹矢量之间的相似性值;其中,dist(Li,Lj)为轨迹矢量Li和轨迹矢量Lj之间的相似性值,ω、ω||和ωα分别是垂直距离、平行距离与角度距离所对应的权重值,d(Li,Lj)为Li和Lj之间的垂直距离,dα(Li,Lj)为Li和Lj之间的角度距离,d||(Li,Lj)为Li和Lj之间的平行距离;
根据相似性值计算固定偏移量D0
根据相似性值和固定偏移量确定两条轨迹矢量之间的度量距离。
进一步地,基于DBSCAN算法对R树中的轨迹矢量进行聚类包括:
确定轨迹矢量Li的ε邻域Nε(Li),且其中,/>表示经过轨迹分段之后生成的全部轨迹矢量的集合,ε表示轨迹矢量的邻域距离的阈值;
确定核心轨迹矢量,当满足|Nε(Li)|≥MinLns时,Li为核心轨迹矢量;其中,MinLns为与轨迹矢量的距离为ε的邻域中所包含的轨迹矢量个数的阈值;
确定轨迹矢量的直接密度可达;当满足时,轨迹矢量Li关于ε和MinLns的直接密度可达于轨迹矢量Lj
确定轨迹矢量的密度可达;当存在一组轨迹矢量时,轨迹矢量Li关于ε和MinLns的密度可达于矢量Lj
确定轨迹矢量的密度连接;当且仅当存在一条轨迹矢量Lk,使得轨迹矢量Li和轨迹矢量Lj都关于ε和MinLns的密度可达于矢量Lk,则轨迹矢量Li关于ε和MinLns的密度连接于矢量Lj
确定轨迹矢量的密度连接集合;当且仅当C满足如下1)和2)条件时,非空的子集被称为关于ε和MinLns的密度连接集合:
1)Li关于ε和MinLns的密度连接于Lj
2)若Li∈C并且Lj是关于ε和MinLns的密度可达于Li,那么就有
进一步地,根据聚类簇生成飓风运动轨迹趋势具体采用sweep line方法。
本发明的有益效果是:本发明通过MDL代价和速度方向角变化率共同作为轨迹分段准则,增强了分段点选取的精确性,进而尽可能多的发现轨迹数据中隐含的有用信息,在计算轨迹片段相似性时,使用引入最小固定偏移量的矢量-豪斯多夫距离来计算轨迹段之间的相似性,进而改进了密度聚类算法的聚类效果,通过构建轨迹矢量的空间索引R树,在对轨迹线段进行聚类时,邻域查询的环节直接从已经建立的R树中进行快速搜索,提高了轨迹线段聚类的效率。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例中飓风轨迹上轨迹点与分段点的关系示意图;
图3为本发明实施例中速度方向角示意图;
图4为本发明实施例中矢量间距离函数的三个分量示意图;
图5为本发明实施例中采用MBR方法确定的二位R树示意图;
图6为本发明实施例中二位的R树结构示意图;
图7为本发明仿真实施例中TRACLUS分段方法后的聚类效果图;
图8为本发明仿真实施例中本发明方法分段后的聚类效果图;
图9为本发明仿真实施例中2000年飓风形成的实际运动路径图;
图10为本发明仿真实施例中传统DBSCAN方法与本发明方法聚类时间消耗对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明公开了一种基于MDL和速度方向的高精度快速飓风轨迹聚类方法,如图1所示,基于最小描述长度(MDL)代价和速度方向角变化率阈值相结合的判定方式进行轨迹分段,通过最小固定偏移量得出满足度量标准的距离,并采用R树空间索引的DBSCAN方法进行聚类。包括以下步骤:
获取历史飓风轨迹线;基于每条历史飓风轨迹线的最小长度描述代价和转弯角度变化率,确定每条历史飓风轨迹线的分段点;根据分段点确定每条历史飓风轨迹线的轨迹矢量;计算任意两条轨迹矢量之间的度量距离;基于度量距离,将轨迹矢量插入到R树中的叶子节点中,构建基于轨迹矢量的R树;基于DBSCAN算法对R树中的轨迹矢量进行聚类,生成聚类簇;根据聚类簇生成飓风运动轨迹趋势。
具体的,首先,将历史飓风数据作为输入数据,在本实施例中,该历史飓风数据为关于其的一个有向线条,表示了飓风的移动轨迹。如图2所示,在该条有向线条中,其方向为从p1向p10,表示了该条飓风是沿该轨迹进行运动的,在该条有向线条中,具有10个轨迹点,为了研究该条飓风,需要将其轨迹分为若干段。对轨迹进行分段的过程中,要谨慎选取分段点,轨迹上的每个点不能都被当作分段点,因为这样在数据处理过程中会极大地增加很多不必要的操作,导致后续的聚类过程中需要对每个轨迹点进行操作处理,使得聚类效率骤降。
另外,如果为了解决数据处理中的存储问题而只将轨迹的第一个点、轨迹的最后一个点或者几个特殊的轨迹点提取出来当作轨迹的分段点,这样会造成许多关键信息缺失,进而聚类结果跟实际的大相径庭。因此,选取最优的轨迹分段点在进行轨迹分段的时候是非常有必要的。显然,应该尽可能少的对轨迹进行分段,减少轨迹段的数目,从而提高算法的效率,同时要求分段后的轨迹与原轨迹之间的差异应尽可能的小,在轨迹发生变化的位置点才进行分段。
所以,在本实施例中,根据每条飓风的数据信息,在历史飓风数据的有向线条上找出一系列的分段点,将该有向线条分为若干段,某条历史飓风轨迹TRi的分段点集合可以表示为:其中,CPi为某条历史飓风的分段点的集合,都是该条飓风的分段点。
通过分析,轨迹分段准确性与简明性之间是NP难问题,充分权衡两者是度量轨迹分段效果的有效标准。所以分段点的选取显得尤为重要。由于MDL原理很好地平衡了假设复杂度和已知假设下的资料复杂度,提供了一种可以避免在选择模型时出现过适应现象的一种方法。在进行轨迹分段时,找出最优的分段可以等价于MDL原理中的找出最好的模型。
首先基于传统方法计算最小描述长度(MDL)代价。某条轨迹的所有轨迹矢量(轨迹矢量指的是连接两个分段点之间有向线段)的长度之和为:
L(H)为该条飓风轨迹分段后的所有轨迹矢量长度之和,为分段点/>和/>形成的轨迹矢量的长度,即两个分段点之间的欧几里得距离。进而,该条飓风的真实轨迹(即各个轨迹点形成的矢量之和)与该飓风轨迹的轨迹矢量集合之间的差异值之和为:
其中,L(D|H)为该条飓风的真实轨迹与该飓风轨迹的轨迹矢量集合之间的差异值之和,均为飓风轨迹的分段点,pk、pk+1均为飓风轨迹的轨迹点,并且,分段点出自于轨迹点。
对于闭合的两条矢量,其水平距离为零,所以公式(2)中不用平行距离,只采用垂直距离d和角度距离dα来度量每一个轨迹矢量与轨迹线段集中的其他矢量之间的差异值。
假设pi和pj(i<j)都是某条飓风轨迹的分段点,pi和pj两点组成的轨迹矢量的MDL代价表示为:
MDLpar(pi,pj)=L(H)+L(D|H)(i<j) (3)
局部最优解就是最长的轨迹矢量pij,对于在点pi和pj之间的轨迹上的任何点pk(i<k<j),应满足:
MDLpar(pi,pk)≤MDLnopar(pi,pk)(i<k≤j) (4)
即当pk点作为分段点时的MDL代价小于等于其不作为分段点时的MDL代价时,将pk点作为分段点。
如果仅仅只考虑MDL代价作为判别分段的方法时,可能会存在轨迹在某一轨迹点发生较大的变化,但是没有满足最小描述长度原理的情况,那么此时就不会将该轨迹点视为分段点,进而使得轨迹分段失去了准确性。在一条轨迹中,速度对该轨迹的运动方向变化是非常敏感的,能够及时的反应出轨迹的当前运动状态,为能够准时判断出某一轨迹点是否为分段点时,还可以考虑速度方向角变化率,如果结合这两个方法一起来进行判断,轨迹分段将会更加精确。
在一条轨迹中,速度对该轨迹的速度方向变化是非常敏感的,能够及时的反应出轨迹的当前运动状态。将速度方向角与MDL结合进行判断,轨迹分段将会更加精确。
目标的运动速度方向是沿轨迹的切线方向,速度方向角是指运动速度方向与水平方向的夹角,如图3所示。移动目标运动产生的某条轨迹上,在每个轨迹点处的运动速度,用其前一时刻和后一时刻的位置信息来计算位置Pk处的速度方向角/>即:
其中,为轨迹点Pk处的速度方向角,/>为轨迹点Pk+1处的纵坐标值,/>为轨迹点Pk-1处的纵坐标值,/>为轨迹点Pk+1处的横坐标值,/>为轨迹点Pk-1处的横坐标值,横纵坐标值都是在飓风轨迹所在的坐标系内值。
进而,位置Pk处的转弯角度变化率Δθk为:
如果当前轨迹点为分段点的MDL代价小于等于不选择其作为分段点时的MDL代价,或者如果在位置Pi处的转弯角度变化率Δθk超出了给定的阈值θth,轨迹点Pk就被判定为分段点。所以,定义CPi为所有分段点的集合,则结合位置信息和速度方向信息给出了分段点的定义为:
以上为计算飓风轨迹的分段点的方法,参照上述方法,将所有输入的历史飓风数据进行处理,进而得到每条飓风轨迹的分段点。下一步则需要将相邻的分段点进行连线,进而得到每条飓风的轨迹矢量。
得到了每一条轨迹矢量后,需要将这些轨迹矢量进行聚类,并根据聚类结果可以预测以后将要出现的飓风的运动轨迹。
根据上述分段得到的轨迹矢量距离再计算出距离矩阵和集中矩阵,进而计算得到最小固定偏移量,进而引入最小固定偏移量的矢量-豪斯多夫距离来计算轨迹段之间的相似性。
具体的,在计算两条轨迹矢量之间的差异值时,本实施例中选用两条轨迹矢量之间的距离来表示。两条轨迹矢量之间的垂直距离d、平行距离d//和角度距离dα如图4所示,假设矢量Li=siei和矢量Lj=sjej是两个多维的矢量,那么si,ei,sj,ej是相应维数的点。假设矢量Lj上的两端点sj,ej投影到矢量Li上相对应的两点记作ps,pe,所以可以得到这两条矢量间的垂直距离d,表示为:
其中,d(Li,Lj)为矢量Li和矢量Lj之间的垂直距离,l⊥1表示点sj与点ps之间的欧几里得距离,l⊥2表示点ej与点pe之间的欧几里得距离。
两矢量Li,Lj之间的平行距离d//,表示为:
d//(Li,Lj)=MIN(l//1,l//2) (9)
其中,d//(Li,Lj)为矢量Li和矢量Lj之间的平行距离,ps以及pe分别为轨迹点sj和ej投影到轨迹Li上的映射点,l//1是点ps到点si以及ei的最小欧式距离,同理,l//2是点pe到点si以及ei的最小欧式距离。
两矢量Li,Lj之间的角度距离dα,表示为:
其中,dα(Li,Lj)为矢量Li和矢量Lj之间的角度距离,||Lj||表示矢量Lj的长度,Lj即为投影的矢量,α是两矢量Li,Lj之间的相交角,在该实施例中矢量Lj的方向是由sj指向ej,矢量Li的方向是由si指向ei,进而,二者的相交角即为si和sj(或矢量的反向延长线)相交处的夹角。
两条轨迹矢量之间的相似性度量,描述为综合考虑两轨迹矢量之间的垂直距离、平行距离与角度距离,计算出三种距离的加权和来度量相似性,即:
其中,ω、ω//和ωα分别是垂直距离、平行距离与角度距离所对应的权重值,各权重值的大小由所应用的场景来具体决定,在默认情况下将三部分距离的权重值大小设置为1。
该距离函数满足对称性和非负性,但可能出现L1、L2和L3三条轨迹矢量使得:dist(L1,L2)+dist(L2,L3)<dist(L1,L3)。该距离函数不满足三角不等式原理,因此不满足度量距离标准的。这也使得在后续的聚类过程中不能够直接使用经典空间索引的方法来提高聚类效率。为此,令:
对于一个距离平方的矩阵D=(Dij)∈Rn×n,由于噪声的存在使得其不满足三角不等式条件,不满足距离度量标准的距离。需要找到最小的固定偏移量D0,构造满足三角不等式条件的距离度量,即:
通过使所有相似性都增加相等的一个固定量D0来转换成满足度量标准的度量距离,产生一组欧几里德距离,进而可以重新表述为欧几里德向量空间中的分组聚类问题。
假设P是一个(n×n)的任意矩阵,以及e的正交补的投影矩阵Q,即:
所以,定义集中矩阵Pc
Pc=QPQ (15)
进一步得出集中矩阵的元素为:
从而,可以容易得出集中矩阵的行和以及列和都等于零。
假设D是一个对称的零对角矩阵,即矢量数据之间的欧几里德距离平方:
那么,可以通过引入一个新的矩阵S来分解D,如下:
Dij=Sii+Sjj-2Sij (18)
所以,D上的固定非对角线偏移对应于S的对角线上的固定偏移。
很显然,S不是由D唯一决定的,因为总是可以任意改变S的对角元素,来恢复出相同的D,即:
让SD表示相同的D的所有S的等价类,所以集中矩阵Sc是由给定的矩阵D唯一定义。对于向量x1,…,xn∈Rn-1,集中矩阵Dc可表示如下:
其中,
所以按照矩阵的形式将公式(20)改写为:
其中,
由此可得出Sc是半正定矩阵,并且:
其中,
Dc=QDQ (25)
而一般情况下,Sc是不连续的,即不是半正定矩阵。可以通过移动它的对角元素,进而将其转换为半正定矩阵,即:
其中,λn(·)是Sc的最小特征值,所以此时一定是半正定的。为了将D转换为一个满足度量标准的距离,可以通过嵌入一个固定偏移量,即:
等价于:
其中,
D0=-2λn(Sc) (29)
此时,得到最小固定偏移量D0,接下来用满足度量标准的距离来衡量两条轨迹矢量的相似性,取值越小表明它们越相似,反之亦然。
接下来将上述得出的每一条轨迹矢量使用一个最小边界矩形(MBR)包裹起来作为R树叶子结点,然后通过结合度量距离,通过插入、搜索和删除的操作来构建出R树空间数据索引,把空间上相邻的轨迹矢量划分到同样的MBR中,构建出R树空间数据索引,采用DBSCAN方法进行飓风轨迹矢量的邻域查询聚类。
R树采用了一种称为最小边界矩形(Minimal Bounding Rectangle,MBR)的方法。通常情况下,只需取矩形的某个对角线上的左下数值和右上数值或者使用右下数值和左上数值这两个点就可以决定一个唯一的矩形。
R树的叶子结点存储的是数据的MBR索引,而他们的父亲结点为指向叶子结点的指针,以此类推,直到根结点。对于建立起来的R树进行查找时使用“缩小范围”的查找思想,从上往下一层一层地进行查找。
基于密度的空间数据聚类方法(Density-Based Spatial Clustering ofApplications with Noise,DBSCAN)不仅能适用于凸样本集合中,也可以在非凸样本集合中得到很好的应用。结合R树空间索引的DBSCAN,避免了对所有轨迹的遍历查询,极大的减少了计算负担,提高了聚类效率。
作为一种具体的实现方式,将每一条轨迹矢量使用一个最小的MBR包裹起来,即轨迹矢量的起始点和结束点当作矩形的对角线来决定唯一的矩形,并以此作为R树的叶子结点,通过度量距离的计算方法,利用转换之后满足度量标准的距离通过插入、搜索和删除的操作,来构建出R树空间数据索引,把空间上相邻的轨迹矢量划分到同样的MBR中。
如图5、图6所示,为了方便说明,本实施例用具体的对象来标识了R8,R9,R10区域中的数据,为对轨迹进行分段之后的轨迹矢量,其他的叶子结点只用MBR表示。从图5中可以看出一共得到12个最基本的MBR。然后这些矩形都将被存储在叶子结点中。R8,R9,R10三个区域距离最为靠近,因此,它们可以被R3所包含。同样道理,其他小的区域被大的区域所包含,按照这种思路不断地迭代,最后这些区域被最大区域所包含。下面就可以把这些大大小小的区域存入R树中去。根据图6所示,从下往上看,R树的叶子结点存储的是数据的MBR索引,而它们的父亲结点为指向叶子结点的指针,以此类推,直到根结点。根据此方法构建好R树。
下一步,使用DBSCAN算法的基本思想,对构建好的R树索引轨迹段进行聚类。假设表示经过轨迹分段之后生成的全部轨迹矢量的集合,使用参数ε(即某个样本(表示轨迹矢量)的邻域距离的阈值),MinLns(某个样本的距离为ε的邻域中所包含的样本个数的阈值)来描述邻域的轨迹矢量分布的紧密程度。
基于密度的轨迹矢量聚类所需要的定义为1~6:
定义1:某一条轨迹矢量Li的ε邻域表示为:
定义2:核心轨迹矢量,轨迹矢量被称为关于ε和MinLns的核心轨迹矢量当且仅当:
|Nε(Li)|≥MinLns (31)
定义3:轨迹矢量的直接密度可达,轨迹矢量关于ε和MinLns的直接密度可达于矢量/>当且仅当:
定义4:轨迹矢量的密度可达,轨迹矢量关于ε和MinLns的密度可达于矢量/>当且仅当存在一组矢量:
并且Lk是关于ε和MinLns的直接密度可达矢量于Lk+1
定义5:矢量的密度连接,轨迹矢量关于ε和MinLns的密度连接于矢量当且仅当存在一条矢量/>使得轨迹矢量/>和矢量/>都关于ε和MinLns的密度可达于矢量Lk
定义6:矢量的密度连接集合,一个非空的子集被称为关于ε和MinLns的密度连接集合当且仅当C满足如下条件:
1)Li关于ε和MinLns的密度连接于Lj
2)若Li∈C并且Lj是关于ε和MinLns的密度可达于Li,那么就有
对于轨迹矢量聚类时,与一般的DBSCAN算法存在有不同的地方在于,本实施例中并不会将所有的密度连接集合都作为聚类簇。通常提取出的轨迹的数量小于矢量的数量,比如,在极端情况下,密度连接集合中的所有矢量可能都是从一条轨迹中提取出来的。因此为了在聚类过程中能够解释足够数量的轨迹的行为,定义了轨迹基数,通过检查轨迹基数来阻止这种聚类情况的发生。参与构成某一聚类簇Ci的所有轨迹的集合被定义为:
其中,TR(Lj)表示为提取出矢量Lj的轨迹,|PTR(Ci)|称为聚类簇Ci的轨迹基数。每输入一条轨迹矢量,该算法就会对轨迹矢量进行是否为核心矢量的判断,最后算法输出聚类集合的结果。
在得到聚类簇后,本实施例中使用sweep line方法,根据飓风轨迹聚类簇生成飓风轨迹运动趋势。
在本发明中,采用最小固定偏移量作为衡量两条轨迹矢量相似性的标准,可以得出满足度量标准的距离。基于密度聚类的方法可以发现任意形状的簇并且消除噪声,但聚类之前需要对邻域遍历查询,导致轨迹效率低,计算量大,所以,采用R树空间数据索引是目前最有效的方法之一。
本发明在以MDL代价作为轨迹分段原则的基础上,引入一个关于飓风速度方向上的新的度量,同时考虑位置信息,增加了特征空间上的有用信息,避免了轨迹在某一轨迹点发生较大的变化,但因不满足MDL原理而未将该轨迹点视为分段点,从而导致分段点选取不精确问题。同时,引入R树进行空间索引的思想,空间索引可以描述在介质上存储的数据位置信息,系统根据信息可以提高数据获取效率。通过R树空间数据索引,使得在聚类的时候能够加快邻域查询,节省计算量,进而提高聚类效率。同时引入最小固定偏移量作为衡量两条轨迹线段相似性的标准,计算满足度量标准的距离从而满足R树空间索引的条件。
仿真实施例:
仿真实验中选用了真实的大西洋飓风轨迹数据:1851年至2017年的大西洋飓风移动数据,总共有1788条轨迹,50140个轨迹点。
为了对比分析说明本发明方法的有效性,进行如下两个实验:
实验一:分别使用本发明提出的分段算法与TRACLUS分段方法对轨迹进行分段并作为输入进行聚类,然后在参数值取最优的情况下比较两个聚类的效果。
通过多次实验调整得到方法最优参数值如表1所示:
表1最优参数值
表2和表3分别为仅采用经典的轨迹分段TRACLUS的分段方法和采用MDL与速度方向角一起分段进行聚类之后生成的轨迹簇和簇中对应的轨迹个数。
表2 TRACLUS分段方法聚类后生成的轨迹簇和轨迹个数
表3 MDL和速度方向一起分段聚类后生成的轨迹簇和轨迹个数
比较表2和表3所示的结果,可以发现在使用本发明方法,考虑了速度方向角对轨迹进行分段之后,轨迹簇的个数增加了三条,所以在对轨迹分段的时候分段点也相应的得以增加,有助于发现隐藏的聚类簇,进而聚类过程中可以得到更加精准的结果。
如图7、图8所示,给出了TRACLUS算法与本发明方法的聚类效果图。背景灰色细线条代表着历史的飓风运动轨迹,即输入信息,深灰色的粗线条代表着聚类提取出来的代表轨迹。以图9所示的飓风实际运动路径为标准,对比两个方法生成的轨迹,可以看出图9中区域B和区域C可以很明显的看出存在两种不同的类,在聚类过程中不能将其聚成一个聚类簇。观察图7和图8中对应的区域B和区域C,发现两种方法聚类出来的结果明显不一样,通过本发明所提方法聚类之后,在轨迹非常密集的区域B和区域C分别聚出了两类轨迹簇,将相差很大的轨迹聚类到不同的聚类簇中,聚类结果和飓风的实际运动路径基本一致。但是TRACLUS算法在区域B和区域C没有发现这样的差别,只是简单地把它们分别聚类成一个轨迹簇,与实际飓风运动路径不符。可看出,本发明是有效的,不仅可以划分更为精细的轨迹簇,而且使得聚类效果更好。
实验二:为了说明本发明聚类效率高,计算速度快,通过对预处理之后的数据进行相应的截取生成多个不同数量的轨迹数据集,然后在最优的参数值的情况下,对本发明的聚类算法和DBSCAN轨迹聚类算法在不同轨迹数目下的聚类所消耗的时间进行实验对比分析。
如图10所示,横轴表示的是进行预处理之后的飓风轨迹条目数,纵轴表示的是聚类所要消耗的时间,单位是秒。从图中所显示出来的结果可以知道,轨迹数目不断的增加,聚类算法的时间消耗也会随着一起发生变化,当飓风的轨迹条数目小于200时,所消耗的时间增长速度较为缓慢,而当飓风的轨迹条数目大于200后,时间会随着聚类轨迹条数目的增加而有较明显的增长。本发明提出的采用R树进行轨迹矢量邻域查询的聚类算法与原有的基于密度的DBSCAN轨迹聚类算法相比,在度量轨迹之间的距离时能够有效地避免不同区域轨迹之间的距离计算,进而减少时间消耗,提高了聚类效率。

Claims (4)

1.一种基于MDL和速度方向的飓风运动轨迹趋势计算方法,其特征在于,包括以下步骤:
获取历史飓风轨迹线;
基于每条所述历史飓风轨迹线的最小长度描述代价和转弯角度变化率,确定每条所述历史飓风轨迹线的分段点;
根据所述分段点确定每条所述历史飓风轨迹线的轨迹矢量;
计算任意两条所述轨迹矢量之间的度量距离;
基于所述度量距离,将所述轨迹矢量插入到R树中的叶子节点中,构建基于轨迹矢量的R树;
基于DBSCAN算法对所述R树中的轨迹矢量进行聚类,生成聚类簇;
根据所述聚类簇生成飓风运动轨迹趋势;
每条所述历史飓风轨迹线的分段点满足:
其中,pm为所述历史飓风轨迹线上的轨迹点,CP为所有分段点的集合,MDLpar(pq,pm)表示当pm为分段点时的MDL代价,MDLnopar(pq,pm)表示当pm为非分段点时的MDL代价,Δθm为轨迹点Pm处的转弯角度变化率,θth转弯角度变化率阈值;
计算任意两条所述轨迹矢量之间的度量距离包括:
迹矢量之间的相似性值;其中,dist(Li,Lj)为轨迹矢量Li和轨迹矢量Lj之间的相似性值,ω、ω||和ωα分别是垂直距离、平行距离与角度距离所对应的权重值,d(Li,Lj)为Li和Lj之间的垂直距离,dα(Li,Lj)为Li和Lj之间的角度距离,d||(Li,Lj)为Li和Lj之间的平行距离;
根据所述相似性值计算固定偏移量D0
根据所述相似性值和所述固定偏移量确定两条所述轨迹矢量之间的度量距离;
根据所述相似性值计算固定偏移量D0的方法为:
对于一个距离平方的矩阵D=Dij∈Rn×n,由于噪声的存在使得其不满足三角不等式条件,不满足距离度量标准的距离,需要找到最小的固定偏移量D0,构造满足三角不等式条件的距离度量,即:
通过使所有相似性平方和Dij都增加相等的一个固定量D0来转换成满足度量标准的度量距离,产生一组欧几里德距离,进而可以重新表述为欧几里德向量空间中的分组聚类问题;
假设P是一个n×n的任意矩阵,以及e的正交补的投影矩阵Q,即:
所以,定义集中矩阵Pc
进一步得出集中矩阵的元素为:
从而,可以容易得出集中矩阵的行和以及列和都等于零;
假设D是一个对称的零对角矩阵,即矢量数据之间的欧几里德距离平方:
那么,可以通过引入一个新的矩阵S来分解D,如下:
Dij=Sii+Sjj-2Sij
所以,D上的固定非对角线偏移对应于S的对角线上的固定偏移;
很显然,S不是由D唯一决定的,因为总是可以任意改变S的对角元素,来恢复出相同的D,即:
让SD表示相同的D的所有S的等价类,所以集中矩阵Sc是由给定的矩阵D唯一定义,对于向量x1,…,xn∈Rn-1,集中矩阵Dc可表示如下:
其中,
所以按照矩阵的形式将公式改写为:
其中,
由此可得出Sc是半正定矩阵,并且:
其中,
Dc=QDQ,
Sc是不连续的,即不是半正定矩阵,可以通过移动它的对角元素,进而将其转换为半正定矩阵,即:
其中,λn(·)是Sc的最小特征值,所以此时一定是半正定的,为了将D转换为一个满足度量标准的距离,可以通过嵌入一个固定偏移量,即:
等价于:
其中,
D0=-2λn(Sc)。
2.如权利要求1所述的一种基于MDL和速度方向的飓风运动轨迹趋势计算方法,其特征在于,根据所述分段点确定每条所述历史飓风轨迹线的轨迹矢量包括:
在每条所述历史飓风轨迹线中,将相邻的两个分段点按照历史飓风的移动顺序连接,形成轨迹矢量。
3.如权利要求2所述的一种基于MDL和速度方向的飓风运动轨迹趋势计算方法,其特征在于,基于DBSCAN算法对所述R树中的轨迹矢量进行聚类包括:
确定所述轨迹矢量Li的ε邻域Nε(Li),且其中,表示经过轨迹分段之后生成的全部轨迹矢量的集合,ε表示轨迹矢量的邻域距离的阈值;
确定核心轨迹矢量,当满足|Nε(Li)|≥MinLns时,Li为核心轨迹矢量;其中,MinLns为与轨迹矢量的距离为ε的邻域中所包含的轨迹矢量个数的阈值;
确定轨迹矢量的直接密度可达;当满足时,轨迹矢量Li关于ε和MinLns的直接密度可达于轨迹矢量Lj
确定轨迹矢量的密度可达;当存在一组轨迹矢量时,轨迹矢量Li关于ε和MinLns的密度可达于矢量Lj
确定轨迹矢量的密度连接;当且仅当存在一条轨迹矢量Lh,使得轨迹矢量Li和轨迹矢量Lj都关于ε和MinLns的密度可达于矢量Lk,则轨迹矢量Li关于ε和MinLns的密度连接于矢量Lj
确定轨迹矢量的密度连接集合;当且仅当C满足如下1)和2)条件时,非空的子集被称为关于ε和MinLns的密度连接集合:
1)Li关于ε和MinLns的密度连接于Lj
2)若Li∈C并且Lj是关于ε和MinLns的密度可达于Li,那么就有/>
4.如权利要求3所述的一种基于MDL和速度方向的飓风运动轨迹趋势计算方法,其特征在于,根据所述聚类簇生成飓风运动轨迹趋势具体采用sweep line方法。
CN202011580673.0A 2020-12-28 2020-12-28 一种基于mdl和速度方向的飓风运动轨迹趋势计算方法 Active CN112633389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011580673.0A CN112633389B (zh) 2020-12-28 2020-12-28 一种基于mdl和速度方向的飓风运动轨迹趋势计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011580673.0A CN112633389B (zh) 2020-12-28 2020-12-28 一种基于mdl和速度方向的飓风运动轨迹趋势计算方法

Publications (2)

Publication Number Publication Date
CN112633389A CN112633389A (zh) 2021-04-09
CN112633389B true CN112633389B (zh) 2024-01-23

Family

ID=75325679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011580673.0A Active CN112633389B (zh) 2020-12-28 2020-12-28 一种基于mdl和速度方向的飓风运动轨迹趋势计算方法

Country Status (1)

Country Link
CN (1) CN112633389B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114281915B (zh) * 2021-12-22 2022-10-14 广州小鹏自动驾驶科技有限公司 一种生成几何路网的方法、装置、设备及存储介质
CN115878694B (zh) * 2023-01-31 2023-05-23 小米汽车科技有限公司 轨迹的挖掘方法、装置及电子设备

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808754A (zh) * 2016-03-15 2016-07-27 苏州大学 一种从移动轨迹数据中快速发现聚集模式的方法
CN106250905A (zh) * 2016-07-08 2016-12-21 复旦大学 一种结合高校建筑结构特征的实时能耗异常检测方法
CN107133478A (zh) * 2017-05-10 2017-09-05 南京航空航天大学 一种高速增量式航空发动机异常检测方法
CN107764185A (zh) * 2017-11-29 2018-03-06 福州锐景达光电科技有限公司 非接触式点光源成像测量反射面位置的装置及方法
CN108510080A (zh) * 2018-03-21 2018-09-07 华南理工大学 一种基于dwh模型对多关系型数据的多角度度量学习方法
CN108829857A (zh) * 2018-06-21 2018-11-16 成都安恒信息技术有限公司 一种基于运维审计系统的自动运维方法
CN109063771A (zh) * 2018-08-02 2018-12-21 美利车(北京)网络技术有限公司 一种发现车辆可疑行为的方法、装置及设备
CN109740811A (zh) * 2018-12-28 2019-05-10 斑马网络技术有限公司 通行速度预测方法、装置和存储介质
CN109800231A (zh) * 2019-01-17 2019-05-24 浙江大学 一种基于Flink的实时轨迹co-movement运动模式检测方法
CN110033051A (zh) * 2019-04-18 2019-07-19 杭州电子科技大学 一种基于多步聚类的拖网渔船行为判别方法
CN110490507A (zh) * 2019-07-04 2019-11-22 丰图科技(深圳)有限公司 一种物流网络的新增线路检测方法、装置及设备
CN110738370A (zh) * 2019-10-15 2020-01-31 南京航空航天大学 一种新颖的移动对象目的地预测算法
CN110991475A (zh) * 2019-10-17 2020-04-10 中国科学院电子学研究所苏州研究院 一种基于多维距离度量的移动对象轨迹聚类方法
CN111046968A (zh) * 2019-12-20 2020-04-21 电子科技大学 一种基于改进dpc算法的道路网络轨迹聚类分析方法
CN111104241A (zh) * 2019-11-29 2020-05-05 苏州浪潮智能科技有限公司 基于自编码器的服务器内存异常检测方法、系统及设备
CN111461109A (zh) * 2020-02-27 2020-07-28 浙江工业大学 一种基于环境多种类词库识别单据的方法
CN111582380A (zh) * 2020-05-09 2020-08-25 中国人民解放军92493部队试验训练总体研究所 一种基于时空特征的船舶轨迹密度聚类方法及装置
US10848738B1 (en) * 2019-05-23 2020-11-24 Adobe Inc. Trajectory-based viewport prediction for 360-degree videos

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130286198A1 (en) * 2012-04-25 2013-10-31 Xerox Corporation Method and system for automatically detecting anomalies at a traffic intersection

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808754A (zh) * 2016-03-15 2016-07-27 苏州大学 一种从移动轨迹数据中快速发现聚集模式的方法
CN106250905A (zh) * 2016-07-08 2016-12-21 复旦大学 一种结合高校建筑结构特征的实时能耗异常检测方法
CN107133478A (zh) * 2017-05-10 2017-09-05 南京航空航天大学 一种高速增量式航空发动机异常检测方法
CN107764185A (zh) * 2017-11-29 2018-03-06 福州锐景达光电科技有限公司 非接触式点光源成像测量反射面位置的装置及方法
CN108510080A (zh) * 2018-03-21 2018-09-07 华南理工大学 一种基于dwh模型对多关系型数据的多角度度量学习方法
CN108829857A (zh) * 2018-06-21 2018-11-16 成都安恒信息技术有限公司 一种基于运维审计系统的自动运维方法
CN109063771A (zh) * 2018-08-02 2018-12-21 美利车(北京)网络技术有限公司 一种发现车辆可疑行为的方法、装置及设备
CN109740811A (zh) * 2018-12-28 2019-05-10 斑马网络技术有限公司 通行速度预测方法、装置和存储介质
CN109800231A (zh) * 2019-01-17 2019-05-24 浙江大学 一种基于Flink的实时轨迹co-movement运动模式检测方法
CN110033051A (zh) * 2019-04-18 2019-07-19 杭州电子科技大学 一种基于多步聚类的拖网渔船行为判别方法
US10848738B1 (en) * 2019-05-23 2020-11-24 Adobe Inc. Trajectory-based viewport prediction for 360-degree videos
CN110490507A (zh) * 2019-07-04 2019-11-22 丰图科技(深圳)有限公司 一种物流网络的新增线路检测方法、装置及设备
CN110738370A (zh) * 2019-10-15 2020-01-31 南京航空航天大学 一种新颖的移动对象目的地预测算法
CN110991475A (zh) * 2019-10-17 2020-04-10 中国科学院电子学研究所苏州研究院 一种基于多维距离度量的移动对象轨迹聚类方法
CN111104241A (zh) * 2019-11-29 2020-05-05 苏州浪潮智能科技有限公司 基于自编码器的服务器内存异常检测方法、系统及设备
CN111046968A (zh) * 2019-12-20 2020-04-21 电子科技大学 一种基于改进dpc算法的道路网络轨迹聚类分析方法
CN111461109A (zh) * 2020-02-27 2020-07-28 浙江工业大学 一种基于环境多种类词库识别单据的方法
CN111582380A (zh) * 2020-05-09 2020-08-25 中国人民解放军92493部队试验训练总体研究所 一种基于时空特征的船舶轨迹密度聚类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Analyzing Digital Evidence Using Parallel k-means with Triangle Inequality on Spark;A. S. Chitrakar;《2018 IEEE International Conference on Big Data (Big Data)》;20190124;第3049-3058页 *
基于轨迹数据的移动对象聚集模式挖掘方法研究;张峻铭;《中国博士学位论文全文数据库 信息科技辑》;20180215;第2018年卷(第2期);第3.3.1节 *
时间序列数据相似模式挖掘的研究与应用;李奕;《中国优秀博硕士学位论文全文数据库 (硕士) 信息科技辑》;20050915;第2005年卷(第5期);第4.1.1节 *

Also Published As

Publication number Publication date
CN112633389A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
Su et al. A survey of trajectory distance measures and performance evaluation
Abbasifard et al. A survey on nearest neighbor search methods
Pelekis et al. Clustering trajectories of moving objects in an uncertain world
CN110188093A (zh) 一种基于大数据平台针对ais信息源的数据挖掘系统
CN111475596B (zh) 一种基于多层级轨迹编码树的子段相似性匹配方法
CN112633389B (zh) 一种基于mdl和速度方向的飓风运动轨迹趋势计算方法
Yu et al. Smmr-explore: Submap-based multi-robot exploration system with multi-robot multi-target potential field exploration method
Li et al. Robust inferences of travel paths from GPS trajectories
Wang et al. Polygonal clustering analysis using multilevel graph‐partition
CN109000656B (zh) 基于空间聚类的水下地形匹配导航适配区选择方法
CN107832778A (zh) 一种基于空间综合相似度的相同目标识别方法
Devogele et al. Optimized discrete fréchet distance between trajectories
Lin et al. Noise filtering, trajectory compression and trajectory segmentation on GPS data
CN110647647B (zh) 一种基于时间序列复杂度差异性的封闭图形相似性搜索方法
CN110580252B (zh) 多目标优化下的空间对象索引与查询方法
Lu et al. Shape-based vessel trajectory similarity computing and clustering: A brief review
Yin et al. Pse-match: A viewpoint-free place recognition method with parallel semantic embedding
Liu et al. Adaptive density trajectory cluster based on time and space distance
CN109284409A (zh) 基于大规模街景数据的图片组地理定位方法
CN110909037B (zh) 一种频繁轨迹模式的挖掘方法及装置
CN111221819B (zh) 一种基于多维数据空间分割的相似台风快速匹配方法
Kong et al. Robust convnet landmark-based visual place recognition by optimizing landmark matching
Abdalla et al. $ DeepMotions $: A Deep Learning System for Path Prediction Using Similar Motions
CN116244391A (zh) 一种海量航迹目标典型阵位提取方法
CN107389071B (zh) 一种改进的室内定位knn方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant