CN110990678B

CN110990678B - 基于增强型循环神经网络的轨迹相似性计算方法

Info

Publication number: CN110990678B
Application number: CN201911034516.7A
Authority: CN
Inventors: 陈垣毅; 陈文望; 郑增威
Original assignee: Zhejiang University City College ZUCC
Current assignee: Zhejiang University City College ZUCC
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2022-05-10
Anticipated expiration: 2039-10-29
Also published as: CN110990678A

Abstract

本发明涉及一种基于增强型循环神经网络的轨迹相似性计算方法，包括：步骤1、将由经纬度点序列集成的车辆轨迹数据集作为总体数据集；步骤2、采用增强型循环神经网络对轨迹进行网格化处理；步骤3、采用带记忆模块的增强型RNN编码器对当前轨迹序列进行编码；步骤4、建立由种子池导引的网络度量排序学习模型学习轨迹的相似性；步骤5、引入相应的注意力机制计算相似轨迹列表的损失，进行反向传播；步骤6、基于车辆轨迹对引入注意力机制的排序学习模型进行实验。本发明的有益效果是：抛弃了传统的点匹配算法，采用深度学习方法，在传统的RNN模型基础上引入了记忆模块，并使用了注意力机制用以维护相似序列列表，开拓了一个新思路。

Description

基于增强型循环神经网络的轨迹相似性计算方法

技术领域

本发明涉及一种轨迹相似性计算方法。主要是一种引入了记忆模块的循环神经网络(RNN)作为模型编码器，对轨迹序列进行编码，并维护相似轨迹序列表的新思路，将其应用于轨迹相似性计算的方法。

背景技术

轨迹相似性计算由于其广泛的应用前景而得到了广泛的研究，迄今为止已经取得了许多研究成果，在车辆路线搜索，旅游路线查询，动物的迁徙路线定位甚至于股票走势等诸多领域有相当的应用前景。由于物联网的发展，全球定位系统嵌入式设备也随之大范围地应用，使得轨迹数据越发的易于收集，极大促进了轨迹相似性研究的发展。然而，由于大规模数据的采集，加之原有轨迹相似性计算方法的二次时间复杂度，在计算时间上是不可忍受的。

传统的轨迹相似性计算方法大部分基于点匹配的思路，可解释性强且易于操作，但在许多应用场景中准确率不高，且面对噪声，抵抗性较弱，且由于是动态计算轨迹相似度，导致了算法时间复杂度高。

因此，提出一种基于增强型循环神经网络的轨迹相似性计算方法，就显得尤为重要。

发明内容

本发明的目的在于克服传统的点匹配算法的低准确率和计算轨迹相似性的高时间消耗，提出了基于增强型循环神经网络的轨迹相似性计算方法，对轨迹序列进行编码，并定义相似矩阵，在相似矩阵的基础上，加入注意力机制用以维护相似轨迹序列列表，以注意力损失反向传播，训练深度网络，可以达到线性的时间复杂度。

这种基于增强型循环神经网络的轨迹相似性计算方法，具体包括如下步骤：

步骤1、将由经纬度点序列集成的车辆轨迹数据集作为总体数据集，在总体数据集中随机采样N条轨迹作为种子池，并使用动态规整方法计算出一个对称的N×N距离矩阵，对该距离矩阵做正则化处理，作为模型的训练导引；

步骤2、采用增强型循环神经网络对轨迹进行网格化处理，对输入轨迹进行编码；所述增强型循环神经网络是基于网格的记忆网络；

步骤2.1、将基于网格的记忆网络的空间分割成P×Q的网格胞：R^P×Q×d为记忆模块的维度；其中P和Q为设定常数，d为RNN中循环神经网络单元的数量；对于每一个轨迹输入

将其映射成一个网格序列

其中

和

代表第t个步长的输入分量；

步骤2.2、将任意一个输入的轨迹点序列规范化，形成模型的标准输入；

步骤3、采用带记忆模块的增强型RNN编码器，对当前轨迹序列进行编码：在步骤2的基础上引入记忆模块，记录处理过的轨迹信息，并将轨迹信息的编码输入记忆模块；记忆模块定义有：读操作，根据需求在记忆模块中读取相似信息；写操作，记录更新轨迹信息；

步骤4、建立由种子池导引的网络度量排序学习模型，通过种子池的轨迹信息学习轨迹的相似性；采用基于距离权重的采样策略，对每一条轨迹找到种子池距离矩阵对应的行向量，作为采样依据，并据此维护相似轨迹列表，进行排序学习；

步骤5、对于维护后的相似轨迹列表，引入相应的注意力机制计算相似轨迹列表的损失，对于引入注意力机制的排序学习模型进行反向传播；

步骤6、基于车辆轨迹对引入注意力机制的排序学习模型进行实验。

作为优选，步骤3所述的记忆模块存储空间中已网格化处理过的轨迹信息，支持对轨迹的编码，支持检索已处理存储在记忆模块中的轨迹，支持实时更新记忆模块中的信息记录。

作为优选，步骤3所述带记忆模块的增强型RNN编码器的核心是导入的记忆模块，记忆模块中的每一个存储单元(p,q,:),都存储着网格胞(p,q)编码好的轨迹向量；所有的轨迹向量在训练之前都初始化为0。

作为优选，步骤3所述记忆模块采用带记忆模块的增强型RNN编码器将当前轨迹序列与先前处理过的相似轨迹序列关联：在每一个时间步长t内，循环神经网络单元接收输入分量

和该单元从上层单元接收的隐藏状态h_t-1，并且得到该单元的隐藏状态h_t，传给下一个循环神经网络单元。

作为优选，步骤3所述的带记忆模块的增强型RNN编码器使用逻辑门机制控制调整网络参数，根据训练调整的网络参数来计算每一个循环神经网络单元的状态参数，带记忆模块的增强型RNN编码器的循环调参步骤遵循以下规则：

上式中，f_t为遗忘门，i_t为输入门，s_t为空间门，o_t为输出门，b_c为偏置参数，W_g∈R^4d ^×2,U_g∈R^4d×d,W_c∈R^d×2,U_c∈R^d×d,其中d为隐藏状态的数量，R^4d×2、R^4d×d、R^d×2和R^d×d都为二维实数空间，W_g、U_g、W_c和U_c均为权重参数；循环神经网络单元应用sigmoid函数对输入的轨迹坐标和已处理循环神经网络单元的隐藏状态h_t-1进行转换，获得隐藏状态h_t，并获得4个门状态的更新值，通过4个门状态，计算得到该循环神经网络单元的暂存状态

和

作为优选，步骤3所述对带记忆模块的增强型RNN编码器中的记忆模块进行：

读操作：检索记忆模块中已记录的轨迹信息：在每一个时间步长t内，读取网格胞输入

和增强型RNN网络单元暂存状态

作为两个输入；输出向量

用来查找已处理的轨迹中与当前轨迹相似的轨迹信息；

读取器首先查找网格胞中与当前轨迹步长相似的轨迹，并设定带宽w用类窗口查询方法将网格胞中的种子池转换向量存储到矩阵G_t，公式如下所示：

上式中mix为

的权重和，

为全连接层转化矩阵，W_his和b_his分别为对应的权重参数和偏置参数；定义了读取操作后，计算出当前增强型RNN网络单元的最后状态：

上式中M代表记忆模块；

写操作：在训练过程中，实时更新记忆模块M的网格胞轨迹信息；在每一个时间步长内，直接依靠空间门s_t更新写入：

M(X_g)_new＝σ(s_t)·c_t+(1-σ(s_t))·M(X_g)_old (9)

上式中M(X_g)_new为存储输入X_g的新状态；M(X_g)_old为存储输入X_g的旧状态，而σ(s_t)代表对空间门进行sigmoid转化；在写入操作

完成后，计算该网络单元的隐藏状态h_t

h_t＝o_t·tanh(c_t) (10)。

作为优选，步骤4具体包括如下步骤：

步骤4.1、在轨迹的总体数据集中随机采样若干条轨迹序列作为种子池，并计算任两条采样得到的轨迹序列的距离，得到距离矩阵D,并将其正则化为相似矩阵S,在接下来的模型训练过程中，将以S作为导引：

上式中α为调节相似度的参数，D_i,j为距离矩阵D中第i行，第j列的元素；相似矩阵S中的每一个元素S_i,j都由该公式得到；

步骤4.2、对于任意输入的两条轨迹T_i和T_j，增强型RNN编码器能够将其编码成两个d维向量E_i和E_j，模型的训练目标是得到函数g(·,·)使其能逼近真实相似函数f(·,·)：

其中K是具有标识度的轨迹对，w_k为第k对轨迹的权重；

步骤4.3、在选取每一对轨迹对时，引入注意力机制选取更具有标识度的轨迹对；对于每一个待比较轨迹T_a，从相似矩阵S中选取对应的行向量I_a，由于相似矩阵自身的定义，以I_a为序列选择权重，从种子池中采样n个不同的轨迹根据相似值，为T_a维护一个相似轨迹列表Γ_a＝{T₁,…,T_n}；对轨迹进行采样之后，在维护的相似轨迹列表上定义相似性：

其中g(T_i,T_j)＝exp(-Euclidean(E_i,E_j))，计算两个编码后的向量的相似值。

作为优选，步骤5具体包括如下步骤：

步骤5.1、加权采样后，引入注意力机制建立排序损失模型进行排序学习训练；在维护的相似轨迹列表上加入权重分量

权重分量以指数形式递减，表明了相似性越小的轨迹序列在排序损失中占比越小；在Γ_a上定义损失函数：

其中f(T_i,T_j)是轨迹对(T_i,T_j)的真实标签，r_l为权重分量r的第l个分量；定义整个训练轨迹种子池的总损失为：

步骤5.2、建立排序损失模型后，应用反向传播算法以及Adam优化器对模型参数进行调整。

本发明的有益效果是：本发明抛弃了传统的点匹配算法，采用深度学习方法，在传统的RNN模型基础上引入了记忆模块，并使用了注意力机制用以维护相似序列列表，开拓了一个新思路。本发明能实现线性时间复杂度的轨迹相似性查询，从而大幅度降低相似性计算时间，提高对噪声和不均匀采样率的鲁棒性。

附图说明

图1为本发明的总体框架流程图；

图2为本发明的轨迹编码算法流程图；

图3为本发明的记忆模块读写方法流程图；

图4为引入注意力机制的排序学习模型流程图；

图5为本发明方法与其他方法的准确率实验对比图；

图6为本发明方法与其他方法的运行时间对比图；

具体实施方式

下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出，对于本技术领域的普通人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

基于增强型循环神经网络的轨迹相似性计算方法，如图1所示，具体包括如下步骤：

步骤2、如图2所示，采用增强型循环神经网络对轨迹进行网格化处理，对输入轨迹进行编码；所述增强型循环神经网络是基于网格的记忆网络；

将其映射成一个网格序列

其中

和

代表第t个步长的输入分量；

带记忆模块的增强型RNN编码器使用逻辑门机制控制调整网络参数，根据训练调整的网络参数来计算每一个循环神经网络单元的状态参数，带记忆模块的增强型RNN编码器的循环调参步骤遵循以下规则：

和

对带记忆模块的增强型RNN编码器中的记忆模块进行：

和增强型RNN网络单元暂存状态

作为两个输入；输出向量

用来查找已处理的轨迹中与当前轨迹相似的轨迹信息；

上式中mix为

的权重和，

上式中M代表记忆模块；

M(X_g)_new＝σ(s_t)·c_t+(1-σ(s_t))·M(X_g)_old (9)

完成后，计算该网络单元的隐藏状态h_t

h_t＝o_t·tanh(c_t) (10)。

步骤4、如图4所示，建立由种子池导引的网络度量排序学习模型，通过种子池的轨迹信息学习轨迹的相似性；采用基于距离权重的采样策略，对每一条轨迹找到种子池距离矩阵对应的行向量，作为采样依据，并据此维护相似轨迹列表，进行排序学习；

上式中a为调节相似度的参数，D_i,j为距离矩阵D中第i行，第j列的元素；相似矩阵S中的每一个元素S_i,j都由该公式得到；

其中K是具有标识度的轨迹对，w_k为第k对轨迹的权重；

步骤5、如图4所示，对于维护后的相似轨迹列表，引入相应的注意力机制计算相似轨迹列表的损失，对于引入注意力机制的排序学习模型进行反向传播；

在以上步骤中：

步骤3所述带记忆模块的增强型RNN编码器的核心是导入的记忆模块，记忆模块中的每一个存储单元(p,q,:),都存储着网格胞(p,q)编码好的轨迹向量；所有的轨迹向量在训练之前都初始化为0。

步骤3所述记忆模块采用带记忆模块的增强型RNN编码器将当前轨迹序列与先前处理过的相似轨迹序列关联：在每一个时间步长t内，循环神经网络单元接收输入分量

实验结论：

本实验采用的实验数据集来自于葡萄牙的波尔图出租车轨迹集。其中每一条记录为一辆出租车的一趟行程，每个15秒收集一次该出租车的经纬度坐标。该数据集包含170万条轨迹记录。如图5所示，本方法在准确率度量上表现良好且具备抗干扰性；在时间复杂度方面，该模型包含两个部分：轨迹编码和相似性计算，在一个时间步长内，循环网络单元的时间复杂度为(m+1)*d²，其中m是逻辑门的数量，d为常量；在相似性计算方面，每一对轨迹的相似性计算是一个常量，故该模型具有线性的时间复杂度；如图6所示，本方法在时间复杂度上具有明显优势，计算时间要大大低于其他方法。可以证明本方法是一种健壮且高效的轨迹相似性计算方法。

Claims

1.一种基于增强型循环神经网络的轨迹相似性计算方法，其特征在于，具体包括如下步骤：

将其映射成一个网格序列

其中

和

代表第t个步长的输入分量；

步骤4.1、在轨迹的总体数据集中随机采样若干条轨迹序列作为种子池，并计算任两条采样得到的轨迹序列的距离，得到距离矩阵D，并将其正则化为相似矩阵S，在接下来的模型训练过程中，将以S作为导引：

上式中α为调节相似度的参数，D_i，j为距离矩阵D中第i行，第j列的元素；相似矩阵S中的每一个元素S_i，j都由该公式得到；

步骤4.2、对于任意输入的两条轨迹T_i和T_j，增强型RNN编码器能够将其编码成两个d维向量E_i和E_j，模型的训练目标是得到函数g(·，·)使其能逼近真实相似函数f(·，·)：

其中K是具有标识度的轨迹对，w_k为第k对轨迹的权重；

步骤4.3、在选取每一对轨迹对时，引入注意力机制选取更具有标识度的轨迹对；对于每一个待比较轨迹T_a，从相似矩阵S中选取对应的行向量I_a，由于相似矩阵自身的定义，以I_a为序列选择权重，从种子池中采样n个不同的轨迹根据相似值，为T_a维护一个相似轨迹列表Γ_a＝{T₁，...，T_n}；对轨迹进行采样之后，在维护的相似轨迹列表上定义相似性：

其中g(T_i，T_j)＝exp(-Euclidean(E_i，E_j))，计算两个编码后的向量的相似值；

2.根据权利要求1所述的基于增强型循环神经网络的轨迹相似性计算方法，其特征在于：步骤3所述的记忆模块存储空间中已网格化处理过的轨迹信息，支持对轨迹的编码，支持检索已处理存储在记忆模块中的轨迹，支持实时更新记忆模块中的信息记录。

3.根据权利要求1所述的基于增强型循环神经网络的轨迹相似性计算方法，其特征在于：步骤3所述带记忆模块的增强型RNN编码器的核心是导入的记忆模块，记忆模块中的每一个存储单元(p，q，：)，都存储着网格胞(p，q)编码好的轨迹向量；所有的轨迹向量在训练之前都初始化为0。

4.根据权利要求1所述的基于增强型循环神经网络的轨迹相似性计算方法，其特征在于：步骤3所述记忆模块采用带记忆模块的增强型RNN编码器将当前轨迹序列与先前处理过的相似轨迹序列关联：在每一个时间步长t内，循环神经网络单元接收输入分量

5.根据权利要求4所述的基于增强型循环神经网络的轨迹相似性计算方法，其特征在于：步骤3所述的带记忆模块的增强型RNN编码器使用逻辑门机制控制调整网络参数，根据训练调整的网络参数来计算每一个循环神经网络单元的状态参数，带记忆模块的增强型RNN编码器的循环调参步骤遵循以下规则：

上式中，f_t为遗忘门，i_t为输入门，s_t为空间门，o_t为输出门，b_c为偏置参数，W_g∈R^4d×2，U_g∈R^4d×d，W_c∈R^d×2，U_c∈R^d×d，其中d为隐藏状态的数量，R^4d×2、R^4d×2、R^d×2和R^d×d都为二维实数空间，W_g、U_g、W_c和U_c均为权重参数；循环神经网络单元应用sigmoid函数对输入的轨迹坐标和已处理循环神经网络单元的隐藏状态h_t-1进行转换，获得隐藏状态h_t，并获得4个门状态的更新值，通过4个门状态，计算得到该循环神经网络单元的暂存状态