CN116881750A

CN116881750A - 一种轨迹聚类方法

Info

Publication number: CN116881750A
Application number: CN202310818802.2A
Authority: CN
Inventors: 刘畅; 吴永浩; 陈卓; 李培超
Original assignee: Guangdong Ocean University
Current assignee: Guangdong Ocean University
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-10-13
Anticipated expiration: 2043-07-05
Also published as: CN116881750B

Abstract

本发明公开了一种轨迹聚类方法，包括：S1、对样本轨迹进行聚类；S2、根据样本轨迹聚类结果，对海域进行网格划分，形成网格海域图；S3、在网格海域图中，对AIS数据集中各轨迹进行相似性度量，并根据相似性度量结果进行轨迹聚类。采用本发明聚类方法时，与传统聚类方法相比，不需要频繁地计算复杂的距离矩阵，也不需要经常更新之前的某个簇的网格标签样本，同时聚类时间可以大幅减少，当船舶的轨迹越长，且轨迹数量越多时，本发明聚类效果越好，效率越明显。

Description

一种轨迹聚类方法

技术领域

本发明属于轨迹数据处理方法，具体涉及一种轨迹聚类方法。

背景技术

船舶在海洋中航行时，由于没有规定明确路线，很少交通约束，航迹较为复杂。因此，聚类可以把规律性强的轨迹聚集在一起，从而提取出船舶航迹中最重要的特征信息，然而相对于传统聚类，轨迹聚类更具有挑战性。这主要是因为轨迹数据包含大量的关系和细节，这些关系和细节难以用简单的方式描述。同时，轨迹聚类还需要考虑时间和空间的因素，因此轨迹聚类需要更高级的算法和技术来处理这些数据，聚类算法通过比较轨迹之间的相似性，可以有效地对轨迹进行分类，从而获取不同轨迹集所代表的船舶航行模式。

聚类算法是一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中，在聚类算法中根据样本之间的相似性，将样本划分到不同的类别中，对于不同的相似度计算方法，会得到不同的聚类结果。

在聚类分析中，轨迹相似性对于移动对象分析来说是一个重要的指标，如何度量轨迹相似性，则是最中心的问题。现行比较常用的轨迹相似性度量指标有多种，而且分别有各自的优势，如何选择不同的轨迹相似性度量是进行轨迹聚类的关键。轨迹相似性通常用一个距离函数来计算，因此在轨迹聚类中，可以将每个轨迹表示为一个点(降维操作)，并使用轨迹之间的距离作为距离度量。具体来说，可以使用Hausdorff等距离来计算轨迹之间的距离，然后使用聚类算法将距离较近的轨迹分组在一起。

基于划分的聚类方法是一种将数据集划分为若干个不重叠的类别的方法。在聚类算法执行前需要指定最终划分的类别数量，然后随机地从数据集合中选取k个对象作为类簇的初始聚类中心，通过指定的规则不断迭代更新类簇中心，直到满足迭代停止条件时，停止聚类。该方法的优点是可以处理大量数据，且可以自动确定类别数量。但是该方法的缺点是对于噪声和离群值非常敏感，且对于起始中心点的选取十分敏感。因此，在使用该方法时，需要仔细考虑数据集的特点，并进行适当的预处理和参数调整，以获得最佳的聚类结果。但该方法的准确性和可靠性需要进一步的研究和改进。

基于网格的聚类算法是一种将数据集按照指定规则划分为若干个网格，并将网格内的数据信息转换为网格对象，通过对网格对象进行聚类分析，提高聚类的运行速度的算法。该算法的优点是处理速度相对较快，通常用于大数据集的聚类分析。同时，该算法实现较为简单，易于理解和实现。处理速度与网格划分的大小有关，网格划分尺寸越大，处理速度越快，反之则越慢。因此，在数据量较大时，可以采用基于网格的聚类算法来提高聚类速度。

基于密度的聚类算法是一种将数据对象指定邻域内的空间密度作为聚类依据的方法。通过判断相邻数据点之间的密度关系来合并数据对象，并不断地向其余数据对象扩展，最后自动得到一定数量的类簇。该类方法能够较好地处理噪声数据，并且不用指定类簇数量，还能够发现具有任意形状的类簇。但由于基于密度的聚类算法的复杂度较高，调整参数的工作也比较复杂，需要根据实际情况仔细选择和调整算法参数，才能获得最佳的聚类效果。

基于模型的聚类算法从数理统计和概率论的角度考虑数据对象，将每个类簇中的数据对象看作符合某种数学模型。这是一种将数据分组的机器学习方法，它假设数据是由一些潜在的模型生成的，并尝试通过拟合这些模型来对数据进行分类。常见的模型包括高斯混合模型(GMM)和自组织映射(SOM)等。在基于模型的聚类中，首先选择一个模型，并使用数据来拟合该模型的参数。然后，使用该模型对数据进行分类，将数据分为不同的群体或簇。与传统的基于距离的聚类方法相比，基于模型的聚类可以更好地处理非球形簇和噪声数据。然而，基于模型的聚类也存在一些限制。首先，需要选择一个合适的模型来拟合数据，这可能需要一些领域知识和经验。另外，模型的参数可能不易调整，因此可能需要进行多次实验才能找到最佳的参数。这些方法都采用深度学习模型进行船舶轨迹聚类，能够提高聚类效果和精度，但需要考虑模型的复杂性和计算资源的需求，实际应用时需要综合考虑算法的可行性和有效性。

基于层次的聚类算法，其基本思想是将给定的数据集按照合适的规则进行分解或凝聚，直到达到预定条件或者给定类簇个数时，聚类停止。该算法分为两大类，自顶向下的分解算法和自底向上的凝聚算法。自顶向下的分解算法从所有数据划分到同一个类簇开始，然后按照分解标准将大的类簇逐步分解为多个小的类簇，重复以上步骤，直到达到预定条件或者给定类簇个数时停止分解。自底向上的凝聚算法则是将每个数据看作单独的类簇，然后依据相似度衡量标准凝聚小的类簇得到较大的类簇，直到达到预定条件或者给定类簇数个时停止凝聚。层次聚类算法使用层次分解的理念，实现逐步细分或合并聚类簇的过程，具有处理大规模数据集的优势，同时分解和凝聚过程视觉效果直观、易于理解，因此被广泛应用于数据挖掘、图像处理等领域。不同的分解和凝聚策略和参数设置会导致不同的聚类结果，需要根据数据集的特性和目标需求选择合适的算法和参数，同时需要注意算法的效率和可行性。综上，该算法具有很好的可解释性且能够产生高质量的聚类，但需要考虑算法的时间复杂度和计算资源的需求，进而需要综合考虑算法的可行性和有效性。

发明内容

针对现有技术中的上述不足，本发明提供的轨迹聚类方法解决了现有的在轨迹聚类过程中，轨迹相似性度量复杂且难以定义的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种轨迹聚类方法，包括以下步骤：

S1、对样本轨迹进行聚类；

S2、根据样本轨迹聚类结果，对海域进行网格划分，形成网格海域图；

S3、在网格海域图中，对AIS数据集中各轨迹进行相似性度量，并根据相似性度量结果进行轨迹聚类。

进一步地，所述步骤S1具体为：

S11、初始化样本轨迹集合Q；

S12、对于轨迹集合Q中的每一条样本轨迹Q_i，计算其与轨迹集合Q中每个轨迹簇Q_j之间的相似度；

S13、根据计算的相似度，将各样本轨迹划分至对应的轨迹簇中，实现样本轨迹聚类。

进一步地，所述步骤S2具体为：

S21、采用随机网格大小将海域网格化；

S22、将样本轨迹转换为在海域网格上所占用的网格；

S23、将轨迹聚类时的轨迹相似度与海域网格之间重叠程度进行匹配，确定海域网格的聚类准确率；

S24、基于海域网格的聚类准确率，调整海域网格的大小，直到海域网格对样本轨迹的聚类结果与计算的相似度对应；

S25、按照最终海域网格大小对海域进行网格划分，形成网格海域图。

其中，所述网格海域图中的每个网格均有对应的网格区域编号。

进一步地，所述步骤S3具体为：

S31、根据AIS数据在AIS船舶自动识别系统中的存储位置，将AIS数据集划分若干AIS数据子集；

其中，每个AIS数据子集中包含若干轨迹单元，每个轨迹单元中包含若干轨迹；

S32、确定AIS数据子集T_i中轨迹在网格海域图中的网格轨迹序列，对其去重后存储在集合A中；

S33、确定AIS数据子集T_j中各轨迹单元中轨迹在网格海域图中的网格轨迹序列，对其相加合并形成网格轨迹序列列表并去重后，存储在集合B中；

S34、确定集合A中各网格轨迹序列与集合B中各网格轨迹序列列表的网格重复率，作为相似性度量结果；

S35、根据网格重复率，对集合A中的各网格轨迹序列进行聚类；

S36、重复步骤S32～S35，将集合B中的网格轨迹序列列表作为聚类簇，直到完成所有AIS数据子集中的轨迹聚类。

进一步地，确定轨迹在网格海域图中的网格轨迹序列的方法具体为：

将AIS数据子集中船舶轨迹在不同时刻的位置点，转换为其在网格海域图中所占用的网格点，形成对应的网格轨迹序列。

进一步地，当同一船舶在不同时刻的轨迹位置点所占用网格相同时，其对应的网格轨迹序列仅保留一个区域网格编号。

进一步地，所述步骤S35具体为：

S35-1、判断网格重复率是否大于等于80％；

若是，则进入步骤S35-2；

若否，则进入步骤S35-3；

S35-2、判定集合A中的网格轨迹序列与集合B中的对应网格轨迹序列列表相似，将其添加到对应网格重复率最高的网格轨迹序列列表中，并更新集合B，进入步骤S35-4；

S53-3、判定集合A中的网格轨迹序列与集合B中的网格轨迹序列列表不相似，将其对应的轨迹添加至AIS数据子集T_j中，同时将其作为新的网格轨迹序列列表添加至集合B中，进入步骤S35-4；

S35-4、重复步骤S35-1～S35-3，将集合A中的各网格轨迹序列划分至集合B中对应的网格轨迹序列列表中，完成网格轨迹序列聚类。

进一步地，所述步骤S35中，进行网格轨迹序列聚类时，还包括噪声数据删除，删除方法具体为：

判断网格轨迹序列是否同时满足与所在网格轨迹序列列表中80％以上的网格轨迹序列共享80％的网格；

若是，则将不是噪声数据，将划分至对应的网格轨迹序列列表中；

若否，则将其作为噪声数据删除。

本发明的有益效果为：

(1)本发明所提出的基于小样本聚类结合网格划分计算轨迹相似度的轨迹聚类方法在聚类时间开销上最有优势，基于豪斯多夫距离的K-means轨迹聚类算法和基于豪斯多夫距离的DBSCAN轨迹聚类算法都需要先进行大幅度的DP压缩，才能进行有效率的轨迹聚类，而本发明所提出的聚类方法根本不需要这一点。由于历史船舶航迹数据在海域内不会频繁改变，可以每隔一定周期完成一次聚类，因此采用本发明聚类方法时，不需要频繁地计算复杂的距离矩阵，也不需要经常更新之前的某个簇的网格标签样本。

(2)传统的基于豪斯多夫距离的K-means轨迹聚类算法和基于豪斯多夫距离的DBSCAN轨迹聚类算法都需要计算两两轨迹之间的距离矩阵，随着数据的增多，计算数据量将会变得非常庞大，其计算复杂度是幂指函数级别的。而本发明方法只需要做简单的网格加入划分和列表去重归类，其复杂度只仅仅是乘法与加法级别的，因此相比于K-means和DBSCAN，其聚类时间可以大幅减少，同时聚类效果也要稍好于两者。

(3)在利用本发明方法进行轨迹聚类时，对于一个港口来说，进出港的轨迹都比较短，因此相对其它聚类方法整体优势并不是非常明显，但当船舶的轨迹越长，例如从欧洲到中国，且轨迹数量越多时，本发明聚类效果越好，效率越明显。

附图说明

图1为本发明提供的轨迹聚类方法流程图。

图2为本发明提供的样本轨迹聚类结果示意图。

图3为本发明提供的样本聚类结果网格化示意图。

图4为本发明提供的轨迹网格颜色覆盖的方式表示聚类结果示意图。

图5为本发明提供的网格海域图中区域网格编号示意图。

图6为本发明提供的轨迹转换为网格轨迹序列示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1：

本发明实施例提供了一种轨迹聚类方法，如图1所示，包括以下步骤：

S1、对样本轨迹进行聚类；

在本发明实施例的步骤S1中，先利用DBSCAN或K-mean算法，对样本轨迹进行聚类，聚类成标签数据样本，以便后面的大规模数据聚类；在本实施例中，先用小样本(100条轨迹)用DBSCAN的方法聚类成标签的数据样本，再利用聚类形成的轨迹簇进行步骤S2中的海域网格划分。

具体地，本实施例的步骤S1中进行样本轨迹聚类的方法为：

S11、初始化样本轨迹集合Q；

本发明实施例的步骤S2具体为：

S21、采用随机网格大小将海域网格化；

S22、将样本轨迹转换为在海域网格上所占用的网格；

具体地，在本实施例中，基于图2中的样本轨迹聚类结果，将所有轨迹簇转换成在海域上所占用的网格，其对应的三个簇的网格划分区域如图3所示，如图4所示为用轨迹网格颜色覆盖的方式表示，前后之间是存在颜色覆盖的关系，使用灰度渐变色展示，灰度越深的区域代表该区域的数据点越多，颜色越浅的区域代表该区域的数据点越系数，而没有颜色的区域则代表该区域没有数据点。

在本实施例中，在进行海域网格化时，利用样本轨迹相似度在被不同海域网格大小聚类的准确率来评估海域网格设置的准确性，对于选取的200条样本轨迹，如果选取的100条相似的轨迹在海域网格中被判断为相似，而100条不相似的轨迹被判断为不相似，则准确率为100/200＝0.5。

在本实施例中，如表1所示，列出了不同网格大小算法下的准确率，在长和宽均为2公里的网格下，聚类算法的准确率达到了96％，是实验中取得最高准确率的情况。因此，对船舶航行轨迹进行聚类的时候，划分海域时将网格的大小设为长2公里，宽2公里。

表1：不同网格大小下的准确率

在本实施例中，在进行海域网格化时，形成的网格海域图中的每个网格均有对应的网格区域编号；具体地，在网格海域图中每一个网格都代表了一个独立不相同的海域子区域，为了方便对网格编号进行标识和区分，可以使用大小写字母和数字组合的形式进行表示和编码，得到类似于图5所示的网格海域图。

本发明实施例的步骤S3具体为：

在本发明实施例中，在将AIS数据子集中的轨迹序列转换为网格轨迹序列时，其方法具体为：

将AIS数据子集中船舶轨迹在不同时刻的位置点，转换为其在网格海域图中所占用的网格点，形成对应的网格轨迹序列；其中，当同一船舶在不同时刻的轨迹位置点所占用网格相同时，其对应的网格轨迹序列仅保留一个区域网格编号。

具体地，在本实施例中，轨迹点是船舶在海上不同时刻的位置点，而网格化方法是将海域划分成一系列的网格区域，并给每个网格区域赋予一个唯一的编号，确定轨迹点属于哪个网格区域后，将其转换成一网格编号为元素的序列，即表示船舶在不同时刻所经过的网格区域，这个序列称为“网格轨迹序列”，该序列中的每个元素表示一个不同的网格区域，对于同一船只不同时刻的轨迹点，在将其转换为网格编号后，如果它们所在的网格区域编号相同，则在其网格轨迹序列中只需要保留一个，避免重复出现，即去重，这种方式能够大幅简化与研所轨迹数据，便于有效分析和利用；图6中所示的轨迹，在确定其网格轨迹序列时，可以先定义一个空的列表，将该轨迹经纬度点转化成对应的网格，加入到空列表中，再对列表进行去重，进而得到其对应的网格轨迹序列[A1,B1,C2,C3,D4,E4]。

在本发明实施例步骤S35中，在利用网格海域图进行网格轨迹序列的聚类时，其聚类方法具体为：

S35-1、判断网格重复率是否大于等于80％；

若是，则进入步骤S35-2；

若否，则进入步骤S35-3；

具体地，在本实施例中，如果一个网格轨迹序列中两条轨迹一起通过的网格占比大于80％，则认为这两条轨迹相似，否则认为它们不相似。也就是说，将海域划分成了许多小网格，通过计算两条轨迹在这些网格中的共同出现频率，来确定两个轨迹之间的相似度，如果它们在较大比例的网格中同时出现，就认为它们相似度较高。

在本实施例的步骤S35中，进行网格轨迹序列聚类时，还包括噪声数据删除，删除方法具体为：

若否，则将其作为噪声数据删除。

具体地，如果一条网格轨迹序列遍历全部簇和轨迹都不满足上述标准，那么它就被认为时噪声数据，并被自动去除，这个标准可以帮助过滤掉那些与其他轨迹不相似的轨迹，从而提高聚类的准确性。

实施例2：

本发明实施例提供了实施例1中轨迹聚类方法的效果验证实验例：

本实施例中利用西雅图港的AIS数据集进行轨迹聚类实验，采用传统过的K-means、DBSCAN与本发明实施例中聚类方法进行对比，得到的聚类结果如表2和表3所示；

表2：不同聚类算法的聚类结果(进港)

表2：不同聚类算法的聚类结果(出港)

在本实施例中，为了方便对比，把每个算法聚类出来的轨迹簇都有意地设置为3个，也因此，每个算法的平均轮廓系数都是负数，如果把簇的数量设置为三个以上或更高的情况，那么平均轮廓系数便会高很多。在使用三种算法进行轨迹聚类后，当使用轮廓系数为评价标准时，本发明所提算法的得分高于其他两种算法，表明该算法的聚类效果更好。而同簇轨迹平均距离和同簇轨迹最大距离的结果，三种算法其实相差不大。同簇轨迹平均距离相差不大其原因是当数据量很大的时候，求平均值便不会相差太大。同簇轨迹最大距离相差不大，是因为都采用了豪斯多夫距离去计算轨迹之间的距离。本发明聚类算法的不同簇轨迹最小距离和不同簇轨迹平均距离比其他两种算法稍好，仍能够表示该算法同类簇内的轨迹紧密度较高，不同类簇间的轨迹分离度较大，验证了该方法的有效性。与对比的两种方法相比，本发明所提出的方法的聚类效果总体更为优秀。进一步分析发现，基于豪斯多夫距离的K-means轨迹聚类算法和基于豪斯多夫距离的DBSCAN轨迹聚类算法完全基于空间位置进行聚类，只有当船舶航迹的位置高度接近时才能够聚类到一起，因此对于大部分位置相差较大但形状和高度接近的船舶航迹无法完成聚类。这也是本发明所提出的基于小样本聚类结合网格划分计算轨迹相似度的聚类算法相对于其他两种算法的优势之一。

最值得注意的是，本发明所提出的基于小样本聚类结合网格划分计算轨迹相似度的聚类算法在聚类时间开销上最有优势。基于豪斯多夫距离的K-means轨迹聚类算法和基于豪斯多夫距离的DBSCAN轨迹聚类算法都需要先进行大幅度的DP压缩，才能进行有效率的轨迹聚类，而本发明所提出的算法根本不需要这一点。由于历史船舶航迹数据在海域内不会频繁改变，可以每隔一定周期完成一次聚类，因此采用本发明的聚类方法时，不需要频繁地计算复杂的距离矩阵，也不需要经常更新之前的某个簇的网格标签样本。另外，基于豪斯多夫距离的K-means轨迹聚类算法和基于豪斯多夫距离的DBSCAN轨迹聚类算法都需要计算两两轨迹之间的距离矩阵，随着数据的增多，计算数据量将会变得非常庞大，其计算复杂度是幂指函数级别的。具体来说，它们时间复杂度为O(k*n^2d)，其中k是聚类的数量，n是数据集的大小，d是数据集中每个点的维数。而本发明所提出的算法只需要做简单的网格加入划分和列表去重归类，其复杂度只仅仅是乘法与加法级别的，因此相比于K-means和DBSCAN，其聚类时间可以大幅减少，同时聚类效果也要稍好于两者。对于一个港口来说，进出港的轨迹都比较短，因此相对其它聚类方法整体优势并不是非常明显。但当船舶的轨迹越长，例如从欧洲到中国，且轨迹数量越多时，本算法的效果越好，效率越明显。综上所述，本发明所提出的算法在真实数据集上表现出优越性，相比传统方法具有明显的优势。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种轨迹聚类方法，其特征在于，包括以下步骤：

S1、对样本轨迹进行聚类；

2.根据权利要求1所述的轨迹聚类方法，其特征在于，所述步骤S1具体为：

S11、初始化样本轨迹集合Q；

3.根据权利要求2所述的轨迹聚类方法，其特征在于，所述步骤S2具体为：

S21、采用随机网格大小将海域网格化；

S22、将样本轨迹转换为在海域网格上所占用的网格；

4.根据权利要求3所述的轨迹聚类方法，其特征在于，所述步骤S3具体为：

5.根据权利要求4所述的轨迹聚类方法，其特征在于，确定轨迹在网格海域图中的网格轨迹序列的方法具体为：

6.根据权利要求5所述的轨迹聚类方法，其特征在于，当同一船舶在不同时刻的轨迹位置点所占用网格相同时，其对应的网格轨迹序列仅保留一个区域网格编号。

7.根据权利要求4所述的轨迹聚类方法，其特征在于，所述步骤S35具体为：

S35-1、判断网格重复率是否大于等于80％；

若是，则进入步骤S35-2；

若否，则进入步骤S35-3；

8.根据权利要求7所述轨迹聚类方法，其特征在于，所述步骤S35中，进行网格轨迹序列聚类时，还包括噪声数据删除，删除方法具体为：

若否，则将其作为噪声数据删除。