CN115374375B

CN115374375B - 基于深度学习的轨迹聚类方法、系统及存储介质

Info

Publication number: CN115374375B
Application number: CN202211299206.XA
Authority: CN
Inventors: 司俊俊; 秦韬; 羊晋; 涂波
Original assignee: Beijing Digital Specialty Technology Co ltd
Current assignee: Beijing Digital Specialty Technology Co ltd
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2022-12-20
Anticipated expiration: 2042-10-24
Also published as: CN115374375A

Abstract

本发明提供一种基于深度学习的轨迹聚类方法、系统及存储介质，包括：获取轨迹数据，对轨迹数据进行预处理；将预处理后的轨迹数据输入第一Transformer编码器模型，得到各轨迹数据的轨迹表征向量，基于多个轨迹表征向量确定各类别的初始聚类中心；构建轨迹关系图；将预处理后的各轨迹数据输入至第二Transformer编码器模型，得到第一表征向量，将轨迹关系图输入图网络模型，基于轨迹关系图以及第二Transformer编码器模型的各层自注意力网络输出的第一隐向量确定图网络模型的各层图卷积网络输出的第二隐向量，将图网络模型的最后一层的图卷积网络的输出作为各轨迹数据的第二表征向量；基于第二表征向量及初始聚类中心得到轨迹数据的最终聚类结果。该方法提高了轨迹聚类的准确度。

Description

基于深度学习的轨迹聚类方法、系统及存储介质

技术领域

本发明涉及大数据挖掘技术领域，尤其涉及一种基于深度学习的轨迹聚类方法、系统及存储介质。

背景技术

轨迹数据是城市中人、车、物移动过程中相关传感器设备（如手机）产生的具有时间、空间双重属性的数据。轨迹数据可以揭示人、车、物的移动规律，近年来被广泛应用于交通流量预测、实时人口统计分析、疫情密接人员挖掘等智慧城市的各个领域。轨迹聚类是轨迹模式挖掘的常用技术，可用于对不同的轨迹模式进行识别和区分，例如周期性轨迹模式识别、频繁轨迹模式识别等。早期的轨迹聚类技术主要是基于原始轨迹相似度度量，计算结果受噪声干扰较大。随着深度学习技术的应用，学者们利用深度学习模型对原始轨迹序列进行表征学习，得到相同长度的轨迹表示向量，再利用K-means等聚类算法实现轨迹聚类。例如，Fang等人提出了一种端到端的深度轨迹聚类技术，利用序列到序列模型学习轨迹表示向量，再基于K-means对轨迹表示向量进行聚类，并把聚类损失和序列到序列模型解码器利用轨迹表示向量重构原始轨迹序列的轨迹重构损失进行同步优化。然而，现有的深度轨迹聚类技术未考虑每个轨迹点的访问时间特征，无法解决精细轨迹模式挖掘问题，从而难以确保轨迹聚类的准确度；例如，未考虑轨迹访问时间特征的轨迹聚类方法无法区分涉疫人员的真实伴随轨迹和同空间、不同时间的相同路线轨迹。因此，如何提高轨迹聚类的准确度是亟待解决的技术问题。

发明内容

有鉴于此，本发明提供了一种基于深度学习的轨迹聚类方法、系统及存储介质，以解决现有技术中存在的一个或多个问题。

根据本发明的一个方面，本发明公开了一种基于深度学习的轨迹聚类方法，所述方法包括：

获取预设时间段内的多个轨迹数据，并对各轨迹数据进行预处理；其中，各所述轨迹数据包括多个轨迹点，各所述轨迹点包括时间信息和位置ID信息；

将预处理后的各轨迹数据输入至第一Transformer编码器模型，得到各所述轨迹数据的词嵌入表示及位置编码，基于各所述轨迹数据的词嵌入表示及位置编码确定各所述轨迹数据的轨迹表征向量，对多个所述轨迹表征向量进行预聚类分析，并基于预聚类结果确定各类别的初始聚类中心；

基于预处理后的各轨迹数据构建轨迹关系图，所述轨迹关系图的节点为各轨迹数据，所述轨迹关系图的各个边代表相邻两条轨迹之间的相关性；

将预处理后的各轨迹数据输入至第二Transformer编码器模型，得到各所述轨迹数据的第一表征向量，将所述轨迹关系图输入至图网络模型，基于所述轨迹关系图以及所述第二Transformer编码器模型的各层自注意力网络输出的第一隐向量确定所述图网络模型的各层图卷积网络输出的第二隐向量，并将所述图网络模型的最后一层的图卷积网络的输出作为各所述轨迹数据的第二表征向量；

基于所述第二表征向量及所述初始聚类中心得到所述轨迹数据的最终聚类结果。

在本发明的一些实施例中，所述第二隐向量的计算方式为：

；

其中，Z _l表示第l层图卷积网络输出的第二隐向量，ε表示阈值，Z _l-1表示第l-1层图卷积网络输出的第二隐向量, H _l表示Transformer编码器模型的第l层自注意力网络输出的第一隐向量。

在本发明的一些实施例中，基于所述第二表征向量及所述初始聚类中心得到所述轨迹数据的最终聚类结果，包括：

基于所述第二表征向量及各所述初始聚类中心得到所述轨迹数据的初始聚类结果；

基于所述初始聚类结果分别更新所述初始聚类中心和第二表征向量以得到更新后的聚类中心和更新后的第二表征向量；

基于所述更新后的第二表征向量和更新后的聚类中心得到所述轨迹数据的最终聚类结果。

在本发明的一些实施例中，对各轨迹数据进行预处理，包括：

将所述预设时间段平均划分为多个时间区间；

获取各时间区间内的各轨迹数据的各轨迹点，并将各轨迹数据在各时间区间内的出现频次最多的轨迹点作为保留轨迹点；

当所述轨迹数据在时间区间内的轨迹点数量为零时，在相应轨迹数据的相应时间区间内填充预设标识。

在本发明的一些实施例中，基于预处理后的各轨迹数据构建轨迹关系图，包括：

基于各轨迹数据的各保留轨迹点确定去重后的保留轨迹点的位置ID信息集合；

基于所述位置ID信息集合通过词袋模型方法确定各轨迹数据的特征向量，且所述特征向量中的元素代表对应位置ID信息在该轨迹数据中出现的次数；

基于各所述轨迹数据的特征向量确定邻接矩阵；

基于各所述轨迹数据的特征向量及邻接矩阵构建轨迹关系图。

在本发明的一些实施例中，基于各所述轨迹数据的特征向量确定邻接矩阵，包括：

基于各所述轨迹数据的特征向量统计任意两条轨迹包含的相同位置ID信息的总数量是否大于阈值；

在大于阈值的情况下，则将相应两条轨迹作为相关轨迹；

基于各轨迹数据之间的相关性确定邻接矩阵。

在本发明的一些实施例中，基于所述更新后的第二表征向量和更新后的聚类中心得到所述轨迹数据的最终聚类结果，包括：

计算各更新后的第二表征向量与更新后的聚类中心的距离，基于计算得到的距离数据确定各轨迹数据属于各类别的第二概率分布，将最大第二概率对应的类别作为对应轨迹数据所属类别；

且所述轨迹聚类方法还包括：

计算各第一表征向量与各所述聚类中心的相似度，基于计算得到的各相似度确定各轨迹数据属于各类别的第一概率分布；

基于确定的各第一概率计算目标类别概率分布；

计算所述目标类别概率分布与第一概率分布、第二概率分布之间的KL散度损失，计算所述Transformer编码器模型的重建损失，基于所述KL散度损失、重建损失计算自监督聚类损失；

基于计算得到的自监督聚类损失优化所述Transformer编码器模型和图网络模型的网络参数。

在本发明的一些实施例中，

目标类别概率分布的计算公式为：

；

其中，

表示轨迹i属于类别j的第二概率，

表示类别集合。

自监督聚类损失的计算方式为：

；其中，

为重建损失，

为目标类别概率分布与第一概率分布之间的KL散度损失，

为目标类别概率分布与第二概率分布之间的KL散度损失，

为0.1，

为0.001。

根据本发明的另一方面，还公开了一种基于深度学习的轨迹聚类系统，该系统包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。

根据本发明的再一方面，还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一实施例所述方法的步骤。

本发明实施例所公开的基于深度学习的轨迹聚类方法、系统及存储介质，首先基于预聚类分析方法确定各类别的聚类中心，进而通过图神经网络和Transformer编码器模型的融合实现轨迹时空模式特征和结构相关性的融合，以较准确的表示各轨迹数据，并进一步通过融合后的轨迹数据特征及迭代更新后的聚类中心得到轨迹数据的最终聚类结果，该方法可提高轨迹聚类的准确度。另外，本发明的轨迹数据中的各轨迹点包含时间信息，因而该聚类方法在轨迹表征和聚类中考虑到了轨迹的访问时间特征，满足了精细轨迹模式挖掘的需求，从而也进一步的提高了轨迹聚类的准确度。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。附图中的部件不是成比例绘制的，而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分，附图中对应部分可能被放大，即，相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中：

图1为本发明一实施例的基于深度学习的轨迹聚类方法的流程示意图。

图2为本发明另一实施例的基于深度学习的轨迹聚类方法的流程示意图。

图3为本发明一实施例的图神经网络和Transformer编码器模型融合的架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

在此，需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含/具有”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

图1为本发明一实施例的基于深度学习的轨迹聚类方法的流程示意图，如图1所示，该基于深度学习的轨迹聚类方法至少包括步骤S10至S50。

步骤S10：获取预设时间段内的多个轨迹数据，并对各轨迹数据进行预处理；其中，各所述轨迹数据包括多个轨迹点，各所述轨迹点包括时间信息和位置ID信息。

由于采样设备、采样环境等因素的影响，原始的轨迹数据通常是稀疏的、不均匀的。例如移动通信时空轨迹中，4G或5G用户一天可能产生数千条轨迹记录，而老年机用户一天可能只有几十条轨迹记录，各轨迹记录可看作为轨迹数据中的轨迹点，该轨迹点包含有时间信息和ID位置信息。而为了更好地提取轨迹的时间访问特征，该实施例将原始轨迹数据进行预处理，从而得到等长的均匀采样轨迹数据。

示例性的，对轨迹数据进行预处理的方法包括：将所述预设时间段平均划分为多个时间区间；获取各时间区间内的各轨迹数据的各轨迹点，并将各轨迹数据在各时间区间内的出现频次最多的轨迹点作为保留轨迹点；当所述轨迹数据在时间区间内的轨迹点数量为零时，在相应轨迹数据的相应时间区间内填充预设标识。在该实施例中，将预设时间段划分成等长的时间片段，每条轨迹在每个时间片段内只保留一个访问最频繁的轨迹点；而如果一条轨迹在某个时间片段内没有被记录的轨迹点，则可填充一个特殊符号“PAD”。

例如，获取到的原始轨迹数据为T=(p ₁ , p ₂ ,…, p _i ,…p _n )，其中p _i代表轨迹T的第i个轨迹点，而n代表该条轨迹的轨迹数据共有n个轨迹点，其中T中的各轨迹点通常包含有时间信息和轨迹点位置ID信息（位置信息）。p _i具体的用(t _i , loc _i )表示，t _i表示轨迹点i被记录的时间，loc _i表示轨迹点i对应的位置ID信息。具体的，该实施例中的预设时间段可为一天，则为了对稀疏的、不均匀的原始轨迹数据进行更好地处理，该实施例将一天24小时平均划分为多个时间区间，且每条轨迹在每个时间区间中只保留一个出现最频繁的轨迹点作为对应轨迹数据的保留轨迹点；可以理解的，在某个时间区间内出现最频繁的轨迹点也可理解为在该时间区间内的多个轨迹点中位置ID信息相同数量最多的轨迹点。另外，若一条轨迹在某个时间片段内没有记录的轨迹点，则填充一个预设符号“PAD”。通过上述方法对原始轨迹数据进行预处理后得到的轨迹数据可表示为T’=(loc ₁ , loc ₂ ,…, loc _i ,…loc _o ),其中o表示时间区间的总数量，在一实施例中，o的数值可为48，此时将一天24小时平均划分为48个时间区间；而loc _i表示第i个时间区间保留的轨迹点的位置ID信息或被填充的“PAD”标识。

步骤S20：将预处理后的各轨迹数据输入至第一Transformer编码器模型，得到各所述轨迹数据的词嵌入表示及位置编码，基于各所述轨迹数据的词嵌入表示及位置编码确定各所述轨迹数据的轨迹表征向量，对多个所述轨迹表征向量进行预聚类分析，并基于预聚类结果确定各类别的初始聚类中心。

在该步骤中，是利用双向Transformer编码器对预处理后的轨迹数据进行表征学习，即轨迹表征向量为利用第一Transformer编码器作为预训练模型获取到的轨迹表征向量H。其中，词嵌入表示是对预处理后的轨迹数据的位置ID信息进行嵌入编码，而位置编码是对预处理后的轨迹数据的各个轨迹点的时序关系进行编码。例如，首先利用Pytorch的Embedding接口对预处理后的轨迹数据中的位置ID信息进行嵌入编码得到E _l ，进而通过Transformer位置编码函数对每个位置ID信息的顺序进行编码得到E _p，则得到的基于时间步的词嵌入表示为E= E _l + E _p。

进一步的，第一Transformer编码器模型可共有L层自注意力网络，L的数值可取为3，此时第一Transformer编码器模型共有3层自注意力网络。则第i层的输出隐向量

；其中，TransformerEncoderlayer（H _i-1）表示Pytorch中标准的Transformer编码器层，而H _i-1表示上一步中得到的轨迹嵌入隐向量，H ₀即为E。第L层输出的隐向量

包含每个保留轨迹点的隐向量，对其进行平均池化可得到该条轨迹的隐向量，即：

，其中o代表时间区间的总数量，

表示该条轨迹的在时间区间j内的保留轨迹点的隐向量。

在一实施例中，对多个所述轨迹表征向量进行预聚类分析时可采用K-means聚类算法。K-means是一种迭代求解的聚类分析算法，其步骤是，预将多个轨迹数据分为K组，则随机选取K个对象作为聚类中心，然后计算每条轨迹与各个种子聚类中心之间的距离，把每条轨迹分配给距离它最近的聚类中心。聚类中心以及分配给它们的轨迹就代表一个聚类；每分配一个样本，聚类的聚类中心会根据聚类中现有的轨迹被重新计算；这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）轨迹被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差方差和局部最小等。当满足需求的预设条件时，则此时可得到各聚类的初始聚类中心。示例性的，K的数值可取为100；应当理解的是，该实施例中所列举的聚类算法仅是一种较优实施方式，在其他实施例中，还可以采用除K-means之外的其他聚类方法；并且聚类类别的数量取决于轨迹数据集，因而K-means算法中的K值可根据实际应用场景进行设定。

步骤S30：基于预处理后的各轨迹数据构建轨迹关系图，所述轨迹关系图的节点为各轨迹数据，所述轨迹关系图的各个边代表相邻两条轨迹之间的相关性。

示例性的，基于预处理后的各轨迹数据构建轨迹关系图，具体包括：基于各轨迹数据的各保留轨迹点确定去重后的保留轨迹点的位置ID信息集合；基于所述位置ID信息集合通过词袋模型方法确定各轨迹数据的特征向量，且所述特征向量中的元素代表对应位置ID信息在该轨迹数据中出现的次数；基于各所述轨迹数据的特征向量确定邻接矩阵；基于各所述轨迹数据的特征向量及邻接矩阵构建轨迹关系图。

其中，去重后的保留轨迹点的位置ID信息集合是指所有轨迹数据包含的所有保留轨迹点去重后的位置ID信息集合，例如，预处理后的第一轨迹数据包括a1个保留轨迹点，而预处理后的第二轨迹数据包括a2个保留轨迹点，假如a1个保留轨迹点与a2个保留轨迹点中具有a3个位置ID信息相同的保留轨迹点，则此时去重后的保留轨迹点的位置ID信息集合中的元素数量为a1+ a2- a3个。

进一步的，基于各所述轨迹数据的特征向量确定邻接矩阵，包括：基于各所述轨迹数据的特征向量统计任意两条轨迹包含的相同位置ID信息的总数量是否大于阈值；在大于阈值的情况下，则将相应两条轨迹作为相关轨迹；基于各轨迹数据之间的相关性确定邻接矩阵。

在该步骤中，轨迹关系图的节点可为各轨迹数据的特征向量，而轨迹关系图的边表示该边两端的两个节点的特征向量是相关的，而判断两条轨迹的特征向量是否相关时，可通过判断两条轨迹的预处理后的轨迹数据中所包含的相同位置ID信息的总数量是否大于阈值，也即是判断两个预处理后的轨迹数据中的相同位置ID信息的保留轨迹点的数量是否大于阈值，在大于阈值时，则判定为两条轨迹相关，则邻接矩阵中相应位置的元素可设为1；而当不大于阈值时，则判定为该两条轨迹不相关，则邻接矩阵中相应位置的元素可设为0。可以理解的是，该步骤中的阈值可根据实际应用需求进行设定，

在一具体实施例中，构建轨迹关系图时，首先基于预处理后的轨迹数据计算去重的位置ID信息集合，进而基于词袋模型获取多条轨迹的特征向量集合F，特征向量集合F由各条轨迹数据的特征向量组合而成。假设去重的位置ID信息集合大小为m，则每条轨迹的特征向量长度为m，其中特征向量中第i个维度的值表示位置ID信息集合中第i个位置ID信息在该条轨迹中出现的次数。进一步的，统计任意两条轨迹包含的相同位置ID信息的数量，如果两条轨迹包含的相同位置ID信息数量超过阈值

（本实施实例中取5），则说明这两条轨迹相关性较高，是相邻的，否则为不相邻的；因而基于上述方法可以得到轨迹之间的邻接矩阵M，进而根据轨迹特征向量集合F、邻接矩阵M则可以构造轨迹关系图G。

步骤S40：将预处理后的各轨迹数据输入至第二Transformer编码器模型，得到各所述轨迹数据的第一表征向量，将所述轨迹关系图输入至图网络模型，基于所述轨迹关系图以及所述第二Transformer编码器模型的各层自注意力网络输出的第一隐向量确定所述图网络模型的各层图卷积网络输出的第二隐向量，并将所述图网络模型的最后一层的图卷积网络的输出作为各所述轨迹数据的第二表征向量。

在该步骤中，基于第二Transformer编码器模型及图网络模型的融合实现轨迹时空模式特征和结构相关性的融合，即图网络模型的各层图卷积网络输出的第二隐向量与Transformer编码器模型的各层自注意力网络输出的第一隐向量有关。另外，该步骤的第二Transformer编码器模型为预训练模型，在训练时利用遮蔽语言模型对双向Transformer编码器进行训练，以学习第一表征向量。另外，该第二Transformer编码器模型中的各层网络模型的隐向量大小可设置为512。其中，该步骤中的第二Transformer编码器模型与步骤S20中的第一Transformer编码器模型可为同一模型，也可为统一架构且不同参数的模型，其可根据实际应用场景或应用需求进行设置。

如图3所示，第二Transformer编码器模型的层数与图网络模型的层数相同，且第二Transformer编码器模型的各层自注意力网络向图网络模型的对应层图卷积网络进行传递，则图网络模型的第l层图卷积网络输出的第二隐向量Z _l则融合了第二Transformer编码器模型的第l层自注意力网络输出的第一隐向量H _l；图网络模型的第l+1层图卷积网络输出的第二隐向量Z _l+1融合了第二Transformer编码器模型的第l+1层自注意力网络输出的第一隐向量H _l+1。

示例性的，第二隐向量的计算方式为：

；

其中，Z _l表示第l层图卷积网络输出的第二隐向量，ε表示阈值，Z _l-1表示第l-1层图卷积网络输出的第二隐向量, H _l表示第二Transformer编码器模型的第l层自注意力网络输出的第一隐向量。示例性的，ε可取0.5，而第二Transformer编码器模型以及图网络模型的各层自注意力网络输出的隐向量的大小可设为512。在该步骤中，基于第二Transformer编码器模型及图网络模型的融合实现轨迹时空模式特征和结构相关性的融合，则使得后续通过第二表征向量以及聚类中心对轨迹数据进行聚类时，提高了轨迹数据的聚类效果以及聚类的准确度。

步骤S50：基于所述第二表征向量及所述初始聚类中心得到所述轨迹数据的最终聚类结果。

在该步骤中，第二表征向量为基于图网络模型和第二Transformer编码器模型融合后得到的表示向量；而初始聚类中心为基于步骤S20中的轨迹表征向量进行预聚类分析得到的各类别的聚类中心。在一实施例中，每一次迭代，第二表征向量和聚类中心均会被更新，此时每一个类别新的聚类中心根据该类别内所有轨迹的表征向量的均值得到。

进一步的，基于所述第二表征向量及所述初始聚类中心得到所述轨迹数据的最终聚类结果，包括：基于所述第二表征向量及各所述初始聚类中心得到所述轨迹数据的初始聚类结果；基于所述初始聚类结果分别更新所述初始聚类中心和第二表征向量以得到更新后的聚类中心和更新后的第二表征向量；基于所述更新后的第二表征向量和更新后的聚类中心得到所述轨迹数据的最终聚类结果。在该实施例中，第二表征向量以及聚类中心均根据迭代过程进行更新。

在一实施例中，基于所述更新后的第二表征向量和更新后的聚类中心得到所述轨迹数据的最终聚类结果，包括：计算各更新后的第二表征向量与更新后的聚类中心的距离；基于计算得到的距离数据确定各轨迹数据属于各类别的第二概率分布；将最大第二概率对应的类别作为对应轨迹数据所属类别。其中，可利用学生氏分布模型计算每条轨迹的第二表征向量Z到各个聚类中心的距离，从而得到各轨迹数据属于任意类别的概率集合

，其中

表示轨迹i属于类别j的第二概率，则轨迹i的最终聚类结果则是其所属概率最大的类别。即：

，

表示轨迹i的最终聚类结果。在该步骤中，基于第二概率分布确定轨迹的最终聚类结果是因为第二表征向量为图网络模型在表示学习过程中融合了Transformer编码器模型学习到的信息，因而可确保聚类结果的准确性。

在本发明的一些实施例中，基于深度学习的轨迹聚类方法还包括以下步骤：计算各第一表征向量与各所述聚类中心的相似度，基于计算得到的各相似度确定各轨迹数据属于各类别的第一概率分布；基于确定的各第一概率计算目标类别概率分布；计算所述目标类别概率分布与第一概率分布、第二概率分布之间的KL散度损失，计算所述Transformer编码器模型的重建损失，基于所述KL散度损失、重建损失计算自监督聚类损失；基于计算得到的自监督聚类损失优化所述Transformer编码器模型和图网络模型的网络参数。

在该实施例中，在基于第二表征向量和初始聚类中心得到初始聚类结果后，进一步基于优化后的Transformer编码器模型和图网络模型得到更新后的第二表征向量，并同时迭代更新聚类中心，从而基于更新后的第二表征向量和更新后的聚类中心确定轨迹数据的最终聚类结果。

在该实施例中，基于K-means算法将轨迹表征向量H聚为k个类，计算得到每个类的聚类中心向量；其次，计算轨迹表征向量H到各个类别的学生氏分布概率Q（第一概率分布）；再次，根据学生氏分布概率Q计算得到目标概率分布P；最后，根据目标概率分布P，计算图卷积网络表征学习的KL散度（Kullback-Leibler Divergence）损失和双向Transformer表征学习的KL散度损失，再加上遮蔽语言模型计算得到的交叉熵损失进行反向传播，以优化图卷积网络和双向Transformer编码器网络模型。

示例性的，在计算第一概率分布时，可利用学生氏分布模型计算每条轨迹的第一表征向量和各个聚类中心的相似度，从而得到各轨迹属于任意类别的概率集合

，其中

表示轨迹i属于类别j的第一概率。

其中目标类别概率分布P的计算公式为：

；

其中，

表示轨迹i属于类别j的第一概率，

表示类别集合。在该实施例中，计算目标类别概率分布P是为了进一步提高样本类别分布置信度。

自监督聚类损失的计算方式为：

；其中，

为重建损失，

为目标类别概率分布与第一概率分布之间的KL散度损失，

为目标类别概率分布与第二概率分布之间的KL散度损失，

为0.1，

为0.001。其中，目标类别概率分布与第一概率分布之间的KL散度损失

，而目标类别概率分布与第二概率分布之间的KL散度损失

，P为目标类别概率分布，Q₁为第一概率分布，Q₂为第二概率分布。另外，由于双向Transformer编码器模型训练任务是遮蔽语言模型，因此还需计算被遮蔽位置ID信息的重建损失：

，其中CEL是标准的交叉熵损失，Truth是被遮蔽的位置ID信息的真实值，pred是被遮蔽位置ID信息的预测值。

当计算得到自监督聚类损失之后，则进一步的可利用Adam优化器对自监督聚类损失进行反向传播，更新优化图网络模型和双向Transformer编码器模型的模型参数。本实施实例中，优化器学习率设置为0.001，模型迭代训练次数设置为200。

相应的，本发明还提供了一种深度学习轨迹聚类系统，该系统包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。

通过上述实施例可以发现，本发明的基于深度学习的轨迹聚类方法及系统，首先基于预聚类分析方法确定各类别的聚类中心，进而通过图神经网络和Transformer编码器模型的融合实现轨迹时空模式特征和结构相关性的融合，以较准确的表示各轨迹数据，并进一步通过融合后的轨迹数据特征及迭代更新后的聚类中心得到轨迹数据的最终聚类结果，该方法可提高轨迹聚类的准确度。另外，本发明的轨迹数据中的各轨迹点包含时间信息，因而该聚类方法在轨迹表征和聚类中考虑到了轨迹的访问时间特征，满足了精细轨迹模式挖掘的需求，从而也进一步的提高了轨迹聚类的准确度。

另外，该发明还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一实施例所述方法的步骤。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路（ASIC）、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM（EROM）、软盘、CD-ROM、光盘、硬盘、光纤介质、射频（RF）链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。