CN112633389B

CN112633389B - 一种基于mdl和速度方向的飓风运动轨迹趋势计算方法

Info

Publication number: CN112633389B
Application number: CN202011580673.0A
Authority: CN
Inventors: 乔殿峰; 梁彦; 杨心语; 马超雄
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2024-01-23
Anticipated expiration: 2040-12-28
Also published as: CN112633389A

Abstract

本发明公开了一种基于MDL和速度方向的飓风运动轨迹趋势计算方法，获取历史飓风轨迹线；基于每条历史飓风轨迹线的最小长度描述代价和转弯角度变化率，确定每条历史飓风轨迹线的分段点；根据分段点确定每条历史飓风轨迹线的轨迹矢量；计算任意两条轨迹矢量之间的度量距离；基于度量距离，将轨迹矢量插入到R树中的叶子节点中，构建基于轨迹矢量的R树；基于DBSCAN算法对R树中的轨迹矢量进行聚类，生成聚类簇；根据聚类簇生成飓风运动轨迹趋势；本发明方法可以提升飓风轨迹分段精确性以及聚类计算效率。

Description

一种基于MDL和速度方向的飓风运动轨迹趋势计算方法

技术领域

本发明属于飓风趋势预测技术领域，尤其涉及一种基于MDL和速度方向的飓风运动轨迹趋势计算方法。

背景技术

飓风严重威胁发生地区人们的生命安全，然而针对飓风等自然气象活动轨迹的研究很少。近年来，对飓风运动模式的探究逐渐成为学者们的研究热点。通过对飓风的运动轨迹进行聚类挖掘分析，可以用来辅助预测飓风的运动特征。正常的轨迹中往往存在大量噪声数据，使得轨迹的活动规律不易被发现，给飓风轨迹数据的分析与挖掘提出了严峻的挑战。

目前，对于飓风的聚类分析问题主要集中轨迹分段不精确和聚类效率低两个方面。在轨迹分段方面，常见方法有基于最小描述长度理论的轨迹分段算法、基于角点检测的算法、基于MOD(子)轨迹的轨迹分段和采样的方法。然而这些方法未考虑轨迹局部特征，造成分段点选取不精确的问题。将最小描述长度与速度方向角变化率相结合，防止关键信息缺失，提高了轨迹分段的准确性。在聚类方面，常用的空间距离度量方法有欧氏距离(Euclidean Distance)、豪斯多夫距离(Line Hausdorff Distance,LHD)。欧氏距离更加关注轨迹之间的全局相似性，对于较短子轨迹之间的局部相似性度量并没有考虑，线段-豪斯多夫距离对线段的匹配程度不仅包括点位置，还包括方向和速度，但不满足三角不等式原理，因此不满足度量距离标准。这也使得在后续的聚类过程中不能够直接使用经典空间索引的方法来提高聚类效率。

发明内容

本发明的目的是提供一种基于MDL和速度方向的飓风运动轨迹趋势计算方法，提升飓风轨迹分段精确性以及聚类计算效率。

本发明采用以下技术方案：一种基于MDL和速度方向的飓风运动轨迹趋势计算方法，包括以下步骤：

获取历史飓风轨迹线；

基于每条历史飓风轨迹线的最小长度描述代价和转弯角度变化率，确定每条历史飓风轨迹线的分段点；

根据分段点确定每条历史飓风轨迹线的轨迹矢量；

计算任意两条轨迹矢量之间的度量距离；

基于度量距离，将轨迹矢量插入到R树中的叶子节点中，构建基于轨迹矢量的R树；

基于DBSCAN算法对R树中的轨迹矢量进行聚类，生成聚类簇；

根据聚类簇生成飓风运动轨迹趋势。

进一步地，每条历史飓风轨迹线的分段点满足：

其中，p_k为历史飓风轨迹线上的轨迹点，CP_i为所有分段点的集合，MDL_par(p_i,p_k)表示当p_k为分段点时的MDL代价，MDL_nopar(p_i,p_k)表示当p_k为非分段点时的MDL代价，Δθ_k为轨迹点P_k处的转弯角度变化率，θ_th转弯角度变化率阈值。

进一步地，根据分段点确定每条历史飓风轨迹线的轨迹矢量包括：

在每条历史飓风轨迹线中，将相邻的两个分段点按照历史飓风的移动顺序连接，形成轨迹矢量。

进一步地，计算任意两条轨迹矢量之间的度量距离包括：

通过计算两条轨迹矢量之间的相似性值；其中，dist(L_i,L_j)为轨迹矢量L_i和轨迹矢量L_j之间的相似性值，ω_⊥、ω_||和ω_α分别是垂直距离、平行距离与角度距离所对应的权重值，d_⊥(L_i,L_j)为L_i和L_j之间的垂直距离，d_α(L_i,L_j)为L_i和L_j之间的角度距离，d_||(L_i,L_j)为L_i和L_j之间的平行距离；

根据相似性值计算固定偏移量D₀；

根据相似性值和固定偏移量确定两条轨迹矢量之间的度量距离。

进一步地，基于DBSCAN算法对R树中的轨迹矢量进行聚类包括：

确定轨迹矢量L_i的ε邻域N_ε(L_i)，且其中，/>表示经过轨迹分段之后生成的全部轨迹矢量的集合，ε表示轨迹矢量的邻域距离的阈值；

确定核心轨迹矢量，当满足|N_ε(L_i)|≥MinLns时，L_i为核心轨迹矢量；其中，MinLns为与轨迹矢量的距离为ε的邻域中所包含的轨迹矢量个数的阈值；

确定轨迹矢量的直接密度可达；当满足时，轨迹矢量L_i关于ε和MinLns的直接密度可达于轨迹矢量L_j；

确定轨迹矢量的密度可达；当存在一组轨迹矢量时，轨迹矢量L_i关于ε和MinLns的密度可达于矢量L_j；

确定轨迹矢量的密度连接；当且仅当存在一条轨迹矢量L_k，使得轨迹矢量L_i和轨迹矢量L_j都关于ε和MinLns的密度可达于矢量L_k，则轨迹矢量L_i关于ε和MinLns的密度连接于矢量L_j；

确定轨迹矢量的密度连接集合；当且仅当C满足如下1)和2)条件时，非空的子集被称为关于ε和MinLns的密度连接集合：

1)L_i关于ε和MinLns的密度连接于L_j；

2)若L_i∈C并且L_j是关于ε和MinLns的密度可达于L_i，那么就有

进一步地，根据聚类簇生成飓风运动轨迹趋势具体采用sweep line方法。

本发明的有益效果是：本发明通过MDL代价和速度方向角变化率共同作为轨迹分段准则，增强了分段点选取的精确性，进而尽可能多的发现轨迹数据中隐含的有用信息，在计算轨迹片段相似性时，使用引入最小固定偏移量的矢量-豪斯多夫距离来计算轨迹段之间的相似性，进而改进了密度聚类算法的聚类效果，通过构建轨迹矢量的空间索引R树，在对轨迹线段进行聚类时，邻域查询的环节直接从已经建立的R树中进行快速搜索，提高了轨迹线段聚类的效率。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例中飓风轨迹上轨迹点与分段点的关系示意图；

图3为本发明实施例中速度方向角示意图；

图4为本发明实施例中矢量间距离函数的三个分量示意图；

图5为本发明实施例中采用MBR方法确定的二位R树示意图；

图6为本发明实施例中二位的R树结构示意图；

图7为本发明仿真实施例中TRACLUS分段方法后的聚类效果图；

图8为本发明仿真实施例中本发明方法分段后的聚类效果图；

图9为本发明仿真实施例中2000年飓风形成的实际运动路径图；

图10为本发明仿真实施例中传统DBSCAN方法与本发明方法聚类时间消耗对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明公开了一种基于MDL和速度方向的高精度快速飓风轨迹聚类方法，如图1所示，基于最小描述长度(MDL)代价和速度方向角变化率阈值相结合的判定方式进行轨迹分段，通过最小固定偏移量得出满足度量标准的距离，并采用R树空间索引的DBSCAN方法进行聚类。包括以下步骤：

获取历史飓风轨迹线；基于每条历史飓风轨迹线的最小长度描述代价和转弯角度变化率，确定每条历史飓风轨迹线的分段点；根据分段点确定每条历史飓风轨迹线的轨迹矢量；计算任意两条轨迹矢量之间的度量距离；基于度量距离，将轨迹矢量插入到R树中的叶子节点中，构建基于轨迹矢量的R树；基于DBSCAN算法对R树中的轨迹矢量进行聚类，生成聚类簇；根据聚类簇生成飓风运动轨迹趋势。

具体的，首先，将历史飓风数据作为输入数据，在本实施例中，该历史飓风数据为关于其的一个有向线条，表示了飓风的移动轨迹。如图2所示，在该条有向线条中，其方向为从p₁向p₁₀，表示了该条飓风是沿该轨迹进行运动的，在该条有向线条中，具有10个轨迹点，为了研究该条飓风，需要将其轨迹分为若干段。对轨迹进行分段的过程中，要谨慎选取分段点，轨迹上的每个点不能都被当作分段点，因为这样在数据处理过程中会极大地增加很多不必要的操作，导致后续的聚类过程中需要对每个轨迹点进行操作处理，使得聚类效率骤降。

另外，如果为了解决数据处理中的存储问题而只将轨迹的第一个点、轨迹的最后一个点或者几个特殊的轨迹点提取出来当作轨迹的分段点，这样会造成许多关键信息缺失，进而聚类结果跟实际的大相径庭。因此，选取最优的轨迹分段点在进行轨迹分段的时候是非常有必要的。显然，应该尽可能少的对轨迹进行分段，减少轨迹段的数目，从而提高算法的效率，同时要求分段后的轨迹与原轨迹之间的差异应尽可能的小，在轨迹发生变化的位置点才进行分段。

所以，在本实施例中，根据每条飓风的数据信息，在历史飓风数据的有向线条上找出一系列的分段点，将该有向线条分为若干段，某条历史飓风轨迹TRi的分段点集合可以表示为：其中，CP_i为某条历史飓风的分段点的集合，都是该条飓风的分段点。

通过分析，轨迹分段准确性与简明性之间是NP难问题，充分权衡两者是度量轨迹分段效果的有效标准。所以分段点的选取显得尤为重要。由于MDL原理很好地平衡了假设复杂度和已知假设下的资料复杂度，提供了一种可以避免在选择模型时出现过适应现象的一种方法。在进行轨迹分段时，找出最优的分段可以等价于MDL原理中的找出最好的模型。

首先基于传统方法计算最小描述长度(MDL)代价。某条轨迹的所有轨迹矢量(轨迹矢量指的是连接两个分段点之间有向线段)的长度之和为：

L(H)为该条飓风轨迹分段后的所有轨迹矢量长度之和，为分段点/>和/>形成的轨迹矢量的长度，即两个分段点之间的欧几里得距离。进而，该条飓风的真实轨迹(即各个轨迹点形成的矢量之和)与该飓风轨迹的轨迹矢量集合之间的差异值之和为：

其中，L(D|H)为该条飓风的真实轨迹与该飓风轨迹的轨迹矢量集合之间的差异值之和，均为飓风轨迹的分段点，p_k、p_k+1均为飓风轨迹的轨迹点，并且，分段点出自于轨迹点。

对于闭合的两条矢量，其水平距离为零，所以公式(2)中不用平行距离，只采用垂直距离d_⊥和角度距离d_α来度量每一个轨迹矢量与轨迹线段集中的其他矢量之间的差异值。

假设p_i和p_j(i＜j)都是某条飓风轨迹的分段点，p_i和p_j两点组成的轨迹矢量的MDL代价表示为：

MDL_par(p_i,p_j)＝L(H)+L(D|H)(i＜j) (3)

局部最优解就是最长的轨迹矢量p_ij，对于在点p_i和p_j之间的轨迹上的任何点p_k(i＜k＜j)，应满足：

MDL_par(p_i,p_k)≤MDL_nopar(p_i,p_k)(i＜k≤j) (4)

即当p_k点作为分段点时的MDL代价小于等于其不作为分段点时的MDL代价时，将p_k点作为分段点。

如果仅仅只考虑MDL代价作为判别分段的方法时，可能会存在轨迹在某一轨迹点发生较大的变化，但是没有满足最小描述长度原理的情况，那么此时就不会将该轨迹点视为分段点，进而使得轨迹分段失去了准确性。在一条轨迹中，速度对该轨迹的运动方向变化是非常敏感的，能够及时的反应出轨迹的当前运动状态，为能够准时判断出某一轨迹点是否为分段点时，还可以考虑速度方向角变化率，如果结合这两个方法一起来进行判断，轨迹分段将会更加精确。

在一条轨迹中，速度对该轨迹的速度方向变化是非常敏感的，能够及时的反应出轨迹的当前运动状态。将速度方向角与MDL结合进行判断，轨迹分段将会更加精确。

目标的运动速度方向是沿轨迹的切线方向，速度方向角是指运动速度方向与水平方向的夹角，如图3所示。移动目标运动产生的某条轨迹上，在每个轨迹点处的运动速度，用其前一时刻和后一时刻的位置信息来计算位置P_k处的速度方向角/>即：

其中，为轨迹点P_k处的速度方向角，/>为轨迹点P_k+1处的纵坐标值，/>为轨迹点P_k-1处的纵坐标值，/>为轨迹点P_k+1处的横坐标值，/>为轨迹点P_k-1处的横坐标值，横纵坐标值都是在飓风轨迹所在的坐标系内值。

进而，位置P_k处的转弯角度变化率Δθ_k为：

如果当前轨迹点为分段点的MDL代价小于等于不选择其作为分段点时的MDL代价，或者如果在位置P_i处的转弯角度变化率Δθ_k超出了给定的阈值θ_th，轨迹点P_k就被判定为分段点。所以，定义CP_i为所有分段点的集合，则结合位置信息和速度方向信息给出了分段点的定义为：

以上为计算飓风轨迹的分段点的方法，参照上述方法，将所有输入的历史飓风数据进行处理，进而得到每条飓风轨迹的分段点。下一步则需要将相邻的分段点进行连线，进而得到每条飓风的轨迹矢量。

得到了每一条轨迹矢量后，需要将这些轨迹矢量进行聚类，并根据聚类结果可以预测以后将要出现的飓风的运动轨迹。

根据上述分段得到的轨迹矢量距离再计算出距离矩阵和集中矩阵，进而计算得到最小固定偏移量，进而引入最小固定偏移量的矢量-豪斯多夫距离来计算轨迹段之间的相似性。

具体的，在计算两条轨迹矢量之间的差异值时，本实施例中选用两条轨迹矢量之间的距离来表示。两条轨迹矢量之间的垂直距离d_⊥、平行距离d_//和角度距离d_α如图4所示，假设矢量L_i＝s_ie_i和矢量L_j＝s_je_j是两个多维的矢量，那么s_i,e_i,s_j,e_j是相应维数的点。假设矢量L_j上的两端点s_j,e_j投影到矢量L_i上相对应的两点记作p_s,p_e，所以可以得到这两条矢量间的垂直距离d_⊥，表示为：

其中，d_⊥(L_i,L_j)为矢量L_i和矢量L_j之间的垂直距离，l_⊥1表示点s_j与点p_s之间的欧几里得距离，l_⊥2表示点e_j与点p_e之间的欧几里得距离。

两矢量L_i,L_j之间的平行距离d_//，表示为：

d_//(L_i,L_j)＝MIN(l_//1,l_//2) (9)

其中，d_//(L_i,L_j)为矢量L_i和矢量L_j之间的平行距离，p_s以及p_e分别为轨迹点s_j和e_j投影到轨迹L_i上的映射点，l_//1是点p_s到点s_i以及e_i的最小欧式距离，同理，l_//2是点p_e到点s_i以及e_i的最小欧式距离。

两矢量L_i,L_j之间的角度距离d_α，表示为：

其中，d_α(L_i,L_j)为矢量L_i和矢量L_j之间的角度距离，||L_j||表示矢量L_j的长度，L_j即为投影的矢量，α是两矢量L_i,L_j之间的相交角，在该实施例中矢量L_j的方向是由s_j指向e_j，矢量L_i的方向是由s_i指向e_i，进而，二者的相交角即为s_i和s_j(或矢量的反向延长线)相交处的夹角。

两条轨迹矢量之间的相似性度量，描述为综合考虑两轨迹矢量之间的垂直距离、平行距离与角度距离，计算出三种距离的加权和来度量相似性，即：

其中，ω_⊥、ω_//和ω_α分别是垂直距离、平行距离与角度距离所对应的权重值，各权重值的大小由所应用的场景来具体决定，在默认情况下将三部分距离的权重值大小设置为1。

该距离函数满足对称性和非负性，但可能出现L1、L2和L3三条轨迹矢量使得：dist(L₁,L₂)+dist(L₂,L₃)＜dist(L₁,L₃)。该距离函数不满足三角不等式原理，因此不满足度量距离标准的。这也使得在后续的聚类过程中不能够直接使用经典空间索引的方法来提高聚类效率。为此，令：

对于一个距离平方的矩阵D＝(D_ij)∈R^n×n，由于噪声的存在使得其不满足三角不等式条件，不满足距离度量标准的距离。需要找到最小的固定偏移量D₀，构造满足三角不等式条件的距离度量，即：

通过使所有相似性都增加相等的一个固定量D₀来转换成满足度量标准的度量距离，产生一组欧几里德距离，进而可以重新表述为欧几里德向量空间中的分组聚类问题。

假设P是一个(n×n)的任意矩阵，以及e的正交补的投影矩阵Q，即：

所以，定义集中矩阵P^c：

P^c＝QPQ (15)

进一步得出集中矩阵的元素为：

从而，可以容易得出集中矩阵的行和以及列和都等于零。

假设D是一个对称的零对角矩阵，即矢量数据之间的欧几里德距离平方：

那么，可以通过引入一个新的矩阵S来分解D，如下：

D_ij＝S_ii+S_jj-2S_ij (18)

所以，D上的固定非对角线偏移对应于S的对角线上的固定偏移。

很显然，S不是由D唯一决定的，因为总是可以任意改变S的对角元素，来恢复出相同的D，即：

让S_D表示相同的D的所有S的等价类，所以集中矩阵S^c是由给定的矩阵D唯一定义。对于向量x₁,…,x_n∈R^n-1，集中矩阵D^c可表示如下：

其中，

所以按照矩阵的形式将公式(20)改写为：

其中，

由此可得出S^c是半正定矩阵，并且：

其中，

D^c＝QDQ (25)

而一般情况下，S^c是不连续的，即不是半正定矩阵。可以通过移动它的对角元素，进而将其转换为半正定矩阵，即：

其中，λ_n(·)是S^c的最小特征值，所以此时一定是半正定的。为了将D转换为一个满足度量标准的距离，可以通过嵌入一个固定偏移量，即：

等价于：

其中，

D₀＝-2λ_n(S^c) (29)

此时，得到最小固定偏移量D₀，接下来用满足度量标准的距离来衡量两条轨迹矢量的相似性，取值越小表明它们越相似，反之亦然。

接下来将上述得出的每一条轨迹矢量使用一个最小边界矩形(MBR)包裹起来作为R树叶子结点，然后通过结合度量距离，通过插入、搜索和删除的操作来构建出R树空间数据索引，把空间上相邻的轨迹矢量划分到同样的MBR中，构建出R树空间数据索引，采用DBSCAN方法进行飓风轨迹矢量的邻域查询聚类。

R树采用了一种称为最小边界矩形(Minimal Bounding Rectangle，MBR)的方法。通常情况下，只需取矩形的某个对角线上的左下数值和右上数值或者使用右下数值和左上数值这两个点就可以决定一个唯一的矩形。

R树的叶子结点存储的是数据的MBR索引，而他们的父亲结点为指向叶子结点的指针，以此类推，直到根结点。对于建立起来的R树进行查找时使用“缩小范围”的查找思想，从上往下一层一层地进行查找。

基于密度的空间数据聚类方法(Density-Based Spatial Clustering ofApplications with Noise，DBSCAN)不仅能适用于凸样本集合中，也可以在非凸样本集合中得到很好的应用。结合R树空间索引的DBSCAN，避免了对所有轨迹的遍历查询，极大的减少了计算负担，提高了聚类效率。

作为一种具体的实现方式，将每一条轨迹矢量使用一个最小的MBR包裹起来，即轨迹矢量的起始点和结束点当作矩形的对角线来决定唯一的矩形，并以此作为R树的叶子结点，通过度量距离的计算方法，利用转换之后满足度量标准的距离通过插入、搜索和删除的操作，来构建出R树空间数据索引，把空间上相邻的轨迹矢量划分到同样的MBR中。

如图5、图6所示，为了方便说明，本实施例用具体的对象来标识了R8，R9，R10区域中的数据，为对轨迹进行分段之后的轨迹矢量，其他的叶子结点只用MBR表示。从图5中可以看出一共得到12个最基本的MBR。然后这些矩形都将被存储在叶子结点中。R8，R9，R10三个区域距离最为靠近，因此，它们可以被R3所包含。同样道理，其他小的区域被大的区域所包含，按照这种思路不断地迭代，最后这些区域被最大区域所包含。下面就可以把这些大大小小的区域存入R树中去。根据图6所示，从下往上看，R树的叶子结点存储的是数据的MBR索引，而它们的父亲结点为指向叶子结点的指针，以此类推，直到根结点。根据此方法构建好R树。

下一步，使用DBSCAN算法的基本思想，对构建好的R树索引轨迹段进行聚类。假设表示经过轨迹分段之后生成的全部轨迹矢量的集合，使用参数ε(即某个样本(表示轨迹矢量)的邻域距离的阈值)，MinLns(某个样本的距离为ε的邻域中所包含的样本个数的阈值)来描述邻域的轨迹矢量分布的紧密程度。

基于密度的轨迹矢量聚类所需要的定义为1～6：

定义1：某一条轨迹矢量L_i的ε邻域表示为：

定义2：核心轨迹矢量，轨迹矢量被称为关于ε和MinLns的核心轨迹矢量当且仅当：

|N_ε(L_i)|≥MinLns (31)

定义3：轨迹矢量的直接密度可达，轨迹矢量关于ε和MinLns的直接密度可达于矢量/>当且仅当：

定义4：轨迹矢量的密度可达，轨迹矢量关于ε和MinLns的密度可达于矢量/>当且仅当存在一组矢量：

并且L_k是关于ε和MinLns的直接密度可达矢量于L_k+1。

定义5：矢量的密度连接，轨迹矢量关于ε和MinLns的密度连接于矢量当且仅当存在一条矢量/>使得轨迹矢量/>和矢量/>都关于ε和MinLns的密度可达于矢量L_k。

定义6：矢量的密度连接集合，一个非空的子集被称为关于ε和MinLns的密度连接集合当且仅当C满足如下条件：

1)L_i关于ε和MinLns的密度连接于L_j；

2)若L_i∈C并且L_j是关于ε和MinLns的密度可达于L_i，那么就有

对于轨迹矢量聚类时，与一般的DBSCAN算法存在有不同的地方在于，本实施例中并不会将所有的密度连接集合都作为聚类簇。通常提取出的轨迹的数量小于矢量的数量，比如，在极端情况下，密度连接集合中的所有矢量可能都是从一条轨迹中提取出来的。因此为了在聚类过程中能够解释足够数量的轨迹的行为，定义了轨迹基数，通过检查轨迹基数来阻止这种聚类情况的发生。参与构成某一聚类簇C_i的所有轨迹的集合被定义为：

其中，TR(L_j)表示为提取出矢量L_j的轨迹，|PTR(C_i)|称为聚类簇C_i的轨迹基数。每输入一条轨迹矢量，该算法就会对轨迹矢量进行是否为核心矢量的判断，最后算法输出聚类集合的结果。

在得到聚类簇后，本实施例中使用sweep line方法，根据飓风轨迹聚类簇生成飓风轨迹运动趋势。

在本发明中，采用最小固定偏移量作为衡量两条轨迹矢量相似性的标准，可以得出满足度量标准的距离。基于密度聚类的方法可以发现任意形状的簇并且消除噪声，但聚类之前需要对邻域遍历查询，导致轨迹效率低，计算量大，所以，采用R树空间数据索引是目前最有效的方法之一。

本发明在以MDL代价作为轨迹分段原则的基础上，引入一个关于飓风速度方向上的新的度量，同时考虑位置信息，增加了特征空间上的有用信息，避免了轨迹在某一轨迹点发生较大的变化，但因不满足MDL原理而未将该轨迹点视为分段点，从而导致分段点选取不精确问题。同时，引入R树进行空间索引的思想，空间索引可以描述在介质上存储的数据位置信息，系统根据信息可以提高数据获取效率。通过R树空间数据索引，使得在聚类的时候能够加快邻域查询，节省计算量，进而提高聚类效率。同时引入最小固定偏移量作为衡量两条轨迹线段相似性的标准，计算满足度量标准的距离从而满足R树空间索引的条件。

仿真实施例：

仿真实验中选用了真实的大西洋飓风轨迹数据：1851年至2017年的大西洋飓风移动数据，总共有1788条轨迹，50140个轨迹点。

为了对比分析说明本发明方法的有效性，进行如下两个实验：

实验一：分别使用本发明提出的分段算法与TRACLUS分段方法对轨迹进行分段并作为输入进行聚类，然后在参数值取最优的情况下比较两个聚类的效果。

通过多次实验调整得到方法最优参数值如表1所示：

表1最优参数值

表2和表3分别为仅采用经典的轨迹分段TRACLUS的分段方法和采用MDL与速度方向角一起分段进行聚类之后生成的轨迹簇和簇中对应的轨迹个数。

表2 TRACLUS分段方法聚类后生成的轨迹簇和轨迹个数

表3 MDL和速度方向一起分段聚类后生成的轨迹簇和轨迹个数

比较表2和表3所示的结果，可以发现在使用本发明方法，考虑了速度方向角对轨迹进行分段之后，轨迹簇的个数增加了三条，所以在对轨迹分段的时候分段点也相应的得以增加，有助于发现隐藏的聚类簇，进而聚类过程中可以得到更加精准的结果。

如图7、图8所示，给出了TRACLUS算法与本发明方法的聚类效果图。背景灰色细线条代表着历史的飓风运动轨迹，即输入信息，深灰色的粗线条代表着聚类提取出来的代表轨迹。以图9所示的飓风实际运动路径为标准，对比两个方法生成的轨迹，可以看出图9中区域B和区域C可以很明显的看出存在两种不同的类，在聚类过程中不能将其聚成一个聚类簇。观察图7和图8中对应的区域B和区域C，发现两种方法聚类出来的结果明显不一样，通过本发明所提方法聚类之后，在轨迹非常密集的区域B和区域C分别聚出了两类轨迹簇，将相差很大的轨迹聚类到不同的聚类簇中，聚类结果和飓风的实际运动路径基本一致。但是TRACLUS算法在区域B和区域C没有发现这样的差别，只是简单地把它们分别聚类成一个轨迹簇，与实际飓风运动路径不符。可看出，本发明是有效的，不仅可以划分更为精细的轨迹簇，而且使得聚类效果更好。

实验二：为了说明本发明聚类效率高，计算速度快，通过对预处理之后的数据进行相应的截取生成多个不同数量的轨迹数据集，然后在最优的参数值的情况下，对本发明的聚类算法和DBSCAN轨迹聚类算法在不同轨迹数目下的聚类所消耗的时间进行实验对比分析。

如图10所示，横轴表示的是进行预处理之后的飓风轨迹条目数，纵轴表示的是聚类所要消耗的时间，单位是秒。从图中所显示出来的结果可以知道，轨迹数目不断的增加，聚类算法的时间消耗也会随着一起发生变化，当飓风的轨迹条数目小于200时，所消耗的时间增长速度较为缓慢，而当飓风的轨迹条数目大于200后，时间会随着聚类轨迹条数目的增加而有较明显的增长。本发明提出的采用R树进行轨迹矢量邻域查询的聚类算法与原有的基于密度的DBSCAN轨迹聚类算法相比，在度量轨迹之间的距离时能够有效地避免不同区域轨迹之间的距离计算，进而减少时间消耗，提高了聚类效率。

Claims

1.一种基于MDL和速度方向的飓风运动轨迹趋势计算方法，其特征在于，包括以下步骤：

获取历史飓风轨迹线；

基于每条所述历史飓风轨迹线的最小长度描述代价和转弯角度变化率，确定每条所述历史飓风轨迹线的分段点；

根据所述分段点确定每条所述历史飓风轨迹线的轨迹矢量；

计算任意两条所述轨迹矢量之间的度量距离；

基于所述度量距离，将所述轨迹矢量插入到R树中的叶子节点中，构建基于轨迹矢量的R树；

基于DBSCAN算法对所述R树中的轨迹矢量进行聚类，生成聚类簇；

根据所述聚类簇生成飓风运动轨迹趋势；

每条所述历史飓风轨迹线的分段点满足：

其中，p_m为所述历史飓风轨迹线上的轨迹点，CP为所有分段点的集合，MDL_par(p_q,p_m)表示当p_m为分段点时的MDL代价，MDL_nopar(p_q,p_m)表示当p_m为非分段点时的MDL代价，Δθ_m为轨迹点P_m处的转弯角度变化率，θ_th转弯角度变化率阈值；

计算任意两条所述轨迹矢量之间的度量距离包括：

迹矢量之间的相似性值；其中，dist(L_i,L_j)为轨迹矢量L_i和轨迹矢量L_j之间的相似性值，ω_⊥、ω_||和ω_α分别是垂直距离、平行距离与角度距离所对应的权重值，d_⊥(L_i,L_j)为L_i和L_j之间的垂直距离，d_α(L_i,L_j)为L_i和L_j之间的角度距离，d_||(L_i,L_j)为L_i和L_j之间的平行距离；

根据所述相似性值计算固定偏移量D₀；

根据所述相似性值和所述固定偏移量确定两条所述轨迹矢量之间的度量距离；

根据所述相似性值计算固定偏移量D₀的方法为：

令对于一个距离平方的矩阵D＝D_ij∈R^n×n，由于噪声的存在使得其不满足三角不等式条件，不满足距离度量标准的距离，需要找到最小的固定偏移量D₀，构造满足三角不等式条件的距离度量，即：

通过使所有相似性平方和D_ij都增加相等的一个固定量D₀来转换成满足度量标准的度量距离，产生一组欧几里德距离，进而可以重新表述为欧几里德向量空间中的分组聚类问题；

假设P是一个n×n的任意矩阵，以及e的正交补的投影矩阵Q，即：

所以，定义集中矩阵P^c：

进一步得出集中矩阵的元素为：

从而，可以容易得出集中矩阵的行和以及列和都等于零；

那么，可以通过引入一个新的矩阵S来分解D，如下：

D_ij＝S_ii+S_jj-2S_ij，

所以，D上的固定非对角线偏移对应于S的对角线上的固定偏移；

让S_D表示相同的D的所有S的等价类，所以集中矩阵S^c是由给定的矩阵D唯一定义，对于向量x₁,…,x_n∈R^n-1，集中矩阵D^c可表示如下：

其中，

所以按照矩阵的形式将公式改写为：

其中，

由此可得出S^c是半正定矩阵，并且：

其中，

D^c＝QDQ，

S^c是不连续的，即不是半正定矩阵，可以通过移动它的对角元素，进而将其转换为半正定矩阵，即：

其中，λ_n(·)是S^c的最小特征值，所以此时一定是半正定的，为了将D转换为一个满足度量标准的距离，可以通过嵌入一个固定偏移量，即：

等价于：

其中，

D₀＝-2λ_n(S^c)。

2.如权利要求1所述的一种基于MDL和速度方向的飓风运动轨迹趋势计算方法，其特征在于，根据所述分段点确定每条所述历史飓风轨迹线的轨迹矢量包括：

在每条所述历史飓风轨迹线中，将相邻的两个分段点按照历史飓风的移动顺序连接，形成轨迹矢量。

3.如权利要求2所述的一种基于MDL和速度方向的飓风运动轨迹趋势计算方法，其特征在于，基于DBSCAN算法对所述R树中的轨迹矢量进行聚类包括：

确定所述轨迹矢量L_i的ε邻域N_ε(L_i)，且其中，表示经过轨迹分段之后生成的全部轨迹矢量的集合，ε表示轨迹矢量的邻域距离的阈值；

确定轨迹矢量的密度连接；当且仅当存在一条轨迹矢量L_h，使得轨迹矢量L_i和轨迹矢量L_j都关于ε和MinLns的密度可达于矢量L_k，则轨迹矢量L_i关于ε和MinLns的密度连接于矢量L_j；

1)L_i关于ε和MinLns的密度连接于L_j；

2)若L_i∈C并且L_j是关于ε和MinLns的密度可达于L_i，那么就有/>

4.如权利要求3所述的一种基于MDL和速度方向的飓风运动轨迹趋势计算方法，其特征在于，根据所述聚类簇生成飓风运动轨迹趋势具体采用sweep line方法。