CN112949628A

CN112949628A - 一种基于嵌入-混合的轨迹数据增强及轨迹识别方法

Info

Publication number: CN112949628A
Application number: CN202110168050.0A
Authority: CN
Inventors: 孙涛; 吴�琳; 徐勇军; 王飞
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-06-11
Anticipated expiration: 2041-02-07
Also published as: CN112949628B

Abstract

本发明提供了一种基于嵌入‑混合的轨迹数据增强及轨迹识别方法。所述轨迹数据增强方法包括：将轨迹数据中的每条轨迹转换成相应感兴趣点的集合；基于所有感兴趣点的总集计算包含每个感兴趣点编码的嵌入矩阵；基于所述嵌入矩阵确定每一条轨迹的轨迹编码向量；对任意两条或更多条轨迹的编码向量进行加权融合，获得新的编码向量；按照步骤S3的逆过程，对所获得的编码向量进行解码获得新的轨迹数据。本发明的轨迹数据增强方法可以有效地应用在轨迹数据上，可以同时针对轨迹数据的顺序性、空间性、语义性进行数据增强工作。既不会破坏轨迹数据的顺序性，又能考虑到轨迹数据的空间性和语义性。进而可以达到提升轨迹识别模型精度的效果。

Description

一种基于嵌入-混合的轨迹数据增强及轨迹识别方法

技术领域

本发明涉及信息技术领域，更具体涉及运动轨迹数据的处理和识别。

背景技术

数据增强技术是机器学习、数据挖掘领域中一项常见的数据处理手段，其核心思想是通过多重手段人工合成新的训练数据来增强算法模型效果。近年来，随着深度学习的迅猛发展，人们对可用于深度神经网络训练的数据需求也急剧增加。现有的机器学习的学习过程依据是经验风险最小化，利用经验(训练数据)去不断逼近参数空间的最优值(即当训练数据足够多的情况下，模型可以足够近似的逼近真实数据集的分布)。然而，由于受数据采集、专业领域知识限制，大规模的增加训练数据是高成本甚至是不可行的，这样也催生了人工合成训练数据，即数据增强方法需求的诞生。数据增强方法可以按照处理数据的类别不同划分为两大类基本手段，即图像数据增强以及序列数据增强；根据不同的实现方法，可以分为变换增强，噪声叠加增强，替换增强等。

在图像数据增强领域，现有的数据增强的方法主要分为三大类。第一类是以变换为基础的图片数据增强，常见的变换有旋转、翻折。第二类是以噪声叠加为基础的图片数据增强。第三类是以合成为基础的图片数据增强。

在文本数据增强领域，现有的方法主要分为两大类。第一类是以回译为基础的文本数据增强，回译的中心思想是引入第三方语言，例如对于中文语料库来书，可以引入英文为中间介质，将中文语料库翻译为英文，之后再回译为中文，通过此步骤，扩展了原始语料库数据集。第二类是以同义词替换的文本数据增强，由于文本语料是由独立的词句构成的，这些词语可以找到相应的同义词或者近义词，以一定比例或者策略进行同义词替换，可扩充语料集。

轨迹数据作为一种特殊的数据结构，由于其数据本身特殊的结构特性，现有的数据增强方法很难直接应用到轨迹数据处理领域。轨迹数据的特殊性体现在以下三个方面，第一是序列性，第二是时空性，第三是语义性。其中，序列性是指轨迹中包含点位是有顺序的，特定的顺序结构会反映出特定的行为信息，更进一步，同样的点位，不同排列顺序所体现出来的特性是不同的；时空性是指轨迹中的点位都是包含时间以及空间信息的，空间信息往往包含着该点位的语义信息；语义性是指具体到每个点位或者每条轨迹，都是包含一定潜在语义在内的，往往可以反映出该轨迹的意图，属性等等。现有的数据增强技术中，由于轨迹顺序性特点的存在，基于空间变换的数据增强方法不能使用，因为会打破原有的顺序信息，而造成现有数据的破坏；由于轨迹时空特性的存在，这点特性是轨迹数据独有的，其他数据中不包含时空信息，现有方法也无法处理时空特性；语义特性在轨迹数据增强中可以借鉴文本数据增强的方法，但同样面临的问题是文本数据包含大量标注，可以体现其语义性，而在轨迹数据中，标注很少。

因此，发明人在进行轨迹数据增强的相关研究时发现，现有的针对于图像数据增强技术以及文本数据增强技术都无法很好的应用在轨迹数据之上，即无法同时针对轨迹数据的顺序性、空间性、语义性进行数据增强工作。更具体来说，图像数据增强方法会破坏轨迹数据的顺序性，文本数据增强方法无法考虑轨迹数据的时空性。

现有的数据增强方法无法有效地对轨迹数据进行增强处理，而针对轨迹数据，目前也尚未见到其他有效数据增强方法的报道，因此，轨迹数据的增强异常困难。

发明内容

针对上述问题，本发明希望提供一种有效地方法来进行轨道数据的增强，而不会影响其中的时空信息。进而，提出了一种基于嵌入混合增强的轨迹数据增强及轨迹识别方法。

首先，对形式化的轨迹数据进行描述，并且给出相关符号表示。

轨迹是记录人类或其他目标(如动物、飓风和车辆)移动的地理点序列。一般的轨迹有三个关键元素：目标信息、时间信息以及空间信息。在某些情况下，例如雷达系统，目标的身份是未知的，这被称为匿名轨迹。在真实世界的数据集中，位置可以是经纬度的坐标，也可以是兴趣点，如公园、餐厅等。由兴趣点组成的轨迹也称为基于签到的轨迹。在本发明中，使用基于签到的轨迹数据集作为基本输入。

根据本发明的一方面，提供了一种基于嵌入-混合的轨迹数据增强方法，所述方法包括：

S1、将轨迹数据中的每条轨迹转换成相应感兴趣点的集合；

S2、基于所有感兴趣点的总集计算包含每个感兴趣点编码的嵌入矩阵，所述感兴趣点编码包含相应感兴趣点的上下文信息；

S3、基于所述嵌入矩阵确定每一条轨迹的轨迹编码向量；

S4、对任意两条或更多条轨迹的编码向量进行加权融合，获得新的编码向量；

S5、按照步骤S3的逆过程，对所获得的编码向量进行解码获得新的轨迹数据。

在一种优选实现方式中，所述步骤S1包括：

基于所有轨迹数据确定感兴趣点的总集；

对于任意一条轨迹，提取轨迹中的感兴趣点，将所述轨迹表示为感兴趣点的集合。

在另一种优选实现方式中，所述步骤S2包括：

对感兴趣点总集中的每个感兴趣点进行独热编码；

在轨迹数据中，对于每个感兴趣点提取其相邻感兴趣点的信息，并将相邻感兴趣点的信息与该感兴趣点的信息构成语料对；

构建用于感兴趣点信息编码的学习网络，将所述语料对作为所述学习网络的输入对该学习网络进行训练，将所述学习网络的输出层参数作为相应感兴趣点的向量编码；

将所有的感兴趣点对应的向量编码拼接为嵌入矩阵。

在另一种优选实现方式中，所述步骤S3包括：

确定每一条轨迹中的感兴趣点；

将所确定的感兴趣点映射到所述嵌入矩阵中，获得该条轨迹中各感兴趣点对应的编码向量。

在另一种优选实现方式中，所述步骤S3还包括：

将所获得的编码向量输入到长短时记忆网络，按该条轨迹中行经各感兴趣点的时间顺序，获得该条轨迹的输出向量以及隐藏向量；

对长短时记忆网络的输出进行随机擦除；

利用全连接层对前述步骤中的输出进行整合；

利用注意力层对全连接层输出的各个向量进行加权，获得轨迹编码向量。

在另一种优选实现方式中，利用长短时记忆网络按照下述递归公式计算输出向量和隐藏向量：

f_t＝σ_g(W_fv(p_t)+U_fh_t-1+b_f)

i_t＝σ_g(W_iv(p_t)+U_ih_t-1+b_i)

o_t＝σ_g(W_ov(p_t)+U_oh_t-1+b_o)

其中，在训练过程中，初始值为c₀＝0和h₀＝0，运算符

表示元素积，下标t索引时间步；v(p_t)是长短时记忆网络单元的输入向量；f_t是遗忘门的激活向量；i_t是更新门的激活向量；o_t是输出门的激活向量；h_t是隐藏状态向量；c_t是长短时记忆网络单元的状态向量；W、U和b是权重矩阵和偏差向量参数，需要在训练过程中学习；σ_g是一个sigmoid函数；σ_c是双曲正切函数；σ_h为双曲正切函数。

在另一种优选实现方式中，所述步骤S4包括：

生成随机数β∈(0,1)；

随机选择两个轨迹样本T_i＝{L_i,v(Tra_i)}，T_j＝{L_j,v(Tra_j)}，其中，L_i和L_j为样本的标签，v(Tra_i)和v(Tra_j)为样本的数据；

生成新样本的标签为：L_new＝β·L_i+(1-β)·L_j；

生成新样本的数据为：v(Tra_new)＝β·v(Tra_i)+(1-β)·v(Tra_j)，

进而获得新的轨迹数据T_new＝{L_new,v(Tra_new)}。

根据本发明的另一方面，提供了一种轨迹识别方法，所述轨迹识别方法包括：

采用上述方法对轨迹数据集进行数据增强；

利用增强后的轨迹数据集进行轨迹识别模型训练；

基于训练后的轨迹识别模型进行目标轨迹识别。

根据本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述的方法。

根据本发明的另一方面，提供了一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的方法。

技术效果

本发明的轨迹数据增强方法可以有效地应用在轨迹数据上，可以同时针对轨迹数据的顺序性、空间性、语义性进行数据增强工作。既不会破坏轨迹数据的顺序性，又能考虑到轨迹数据的空间性和语义性。

本发明提出了轨迹感兴趣点的提取方法；通过该方法，可将原有的以经纬度点位表示的轨迹数据转化为以关键兴趣点位(POI，Points of Interests)；再结合感兴趣点的嵌入表示，可将轨迹数据投影到向量空间中，并且对轨迹数据进行了混合增强；通过该方法，可实现轨迹数据的有效增强处理。本发明的基于嵌入混合增强的轨迹数据增强方法可以有效的增加训练轨迹数量，最终达到提升轨迹识别模型精度的效果。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1为本发明实施例中的基于嵌入-混合的轨迹数据增强方法的流程图。

图2为使用POI表示轨迹的数据转换方式示意图。

图3为本发明实施例中所采用的一种学习网络结构的示意图。

图4为对轨迹进行编码所采用的网络结构示意图。

图5为长短时记忆网络层结构示意图。

图6为利用长短时记忆网络对新轨迹数据进行解码的结构示意图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

下面首先结合附图对本发明的原理以及实施例进行详细说明。

本实施例中的基于嵌入-混合的轨迹数据增强方法的流程如图1所示，下面就结合该图具体执行步骤进行详细描述。

步骤1：轨迹数据读取及预处理

所读取的轨迹数据包括：1)轨迹经纬度、时间信息和2)轨迹标签两个部分。数据读取后，将所读取的轨迹数据存放至内存中。

设所读取的整个数据集为

，其中N表示所读取的数据中包含的轨迹的数量。单条轨迹使用T_i＝{L_i,Tra_i}表示，其中i是轨迹的下标，L_i是轨迹T_i对应的标签，Tra_i是轨迹T_i所包含的经纬度以及时间信息，Tra_i展开的形式是

其中三元组lat,lon,t 分别表示经纬度以及时间。

然后，对原始轨迹数据进行去噪、去重等预处理工作，本领域技术人员应该理解，这种预处理可以采用本领域的现有方式进行，因此这里不再详述。

步骤2：使用POI表示预处理后的轨迹

POI是Point of Interest的简称，在轨迹数据处理方面指具有实际含义的地理位置，例如公园、车站、小区等等，感兴趣点的总集可以事先定义。比如，预先给定整个POI总集，使用P＝(p₁,p₂,…,p_M)表示，其中M表示POI 的个数。

使用POI表示预处理后的轨迹是指将经纬度表示的轨迹转为由POI表示的轨迹，转化过程如图2所示。如图2所示，对于任意一条轨迹，提取轨迹中所涉及的感兴趣点，利用p_in来表示每个感兴趣点的经纬度坐标，t_in不变，将轨迹转换成感兴趣点的集合。

使用POI表示后，轨迹T_i＝{L_i,Tra_i}中的Tr_ia的展开形式是

步骤3：计算针对整个POI集合中所有POI的嵌入矩阵

轨迹点嵌入矩阵是轨迹点(即感兴趣点)与轨迹点嵌入向量对应的矩阵，使用符号E_P表示。

即E_P由实数构成并且包含M行L列。其中，每一行表示对应的POI的嵌入向量，L表示POI嵌入向量的维度。

POI的嵌入向量的计算方法如下：

3.1使用独热编码对所有POI进行编码。由于POI集合为 P＝(p₁,p₂,…,p_M)，则使用1×M维的向量对各个POI分别进行独热编码，下标为i的POI的独热编码为[0,0,…1,…0,0]，其中，“1”位于第i位，其余均为0，使用符号l(p_i)表示p_i的独热编码。

3.2，对于轨迹数据中的所有POI，提取POI的上下文信息，建立语料对。对于每个POI，选取其在原始轨迹中相邻近的前k个和后k个点与该 POI本身，构成语料对C(p_i,p)，其中p_i是选取的中心轨迹点， p＝(p_i-k,…p_i-1,p_i+1,…p_i+k)是与之相邻的POI集合。

3.3构建学习网络，学习每个POI的信息编码。例如，使用如图3所示结构的神经网络作为POI信息编码的学习网络，该网络包含三层网络结构：输入层，投影层和输出层，其中输入层包含语料对中的p，即，输入层输入语料对，投影层是将输入层的向量做累加并且做一次线性变换，即乘以参数W再加上偏置b，输出层是目标语料对中的p_i。该学习网络的输入与输出均使用POI的独热编码。对于每个POI,利用步骤3.2中所构建的各个语料对(带标签)对该神经网络进行训练，每个语料对作为一组训练数据，训练直到使得学习网络达到收敛,获得对于该POI的学习网络输出层参数。

3.4待神经网络训练完毕后，提取学习网络输出层参数作为相应POI 的信息编码，使用v(p_i)表示，该信息编码由于是向量形式也可称为嵌入向量。

3.5经过上述步骤后，将所有的POI对应的嵌入向量拼接为嵌入矩阵，如下所示：

步骤4：使用编码器对轨迹进行编码

基于嵌入矩阵，使用编码器对每条轨迹进行编码，编码前的轨迹使用Tra_i表示，编码后的轨迹使用v(Tra_i)表示。编码后轨迹所在的空间称为隐空间，编码后轨迹对应的向量称之为隐向量。编码的目的是利用嵌入矩阵中的向量，将每条轨迹表示成隐空间中的隐向量。编码的过程不仅限于下述具体实现过程，可以采用任何能够将每条轨迹的感兴趣点映射至嵌入矩阵的编码方式。

在一种优选实现方式中，编码器的结构如图4所示，其包含了嵌入层 (Embedding层)，长短时记忆网络层(LSTM层)，随机擦除层(Dropout层)，全连接层(Full Connect层)以及注意力层(Attention层)。

嵌入层用于将训练得到的嵌入矩阵中的轨迹点编码和目标轨迹中的轨迹点(感兴趣点)进行一一对应，即嵌入层完成了利用步骤3计算的嵌入矩阵对POI点进行映射的过程。经过嵌入层后，输入由(p₁,p₂,…p_n)变为 (v(p₁),v(p₂),…v(p_n))。

长短时记忆网络层是时间循环神经网络。长短时记忆网络层中采用的是 LSTM(Long-Short Time Memory)单元，由LSTM单元构成的长短时记忆网络层结构如图5所示。其中，单个的LSTM接收v(p_i)，i＝1,2,…,n作为输入， v(p_i)经过LSTM单元后，输出向量为h_t，隐藏向量为c_t，通过在时间线上不断叠加LSTM单元可以计算整条轨迹的输出向量以及隐藏向量，计算的递归公式如下所示。

f_t＝σ_g(W_fv(p_t)+U_fh_t-1+b_f)

i_t＝σ_g(W_iv(p_t)+U_ih_t-1+b_i)

o_t＝σ_g(W_ov(p_t)+U_oh_t-1+b_o)

在训练过程中，初始值为c₀＝0和h₀＝0，运算符

表示Hadamard积(元素积)。此外，上述公式中，下标t索引时间步；v(p_t)是LSTM单元的输入向量；f_t是遗忘门的激活向量；i_t是更新门的激活向量；o_t是输出门的激活向量；h_t是隐藏状态向量，也称为LSTM单元的输出向量；c_t是LSTM单元的状态向量；W、U和b是权重矩阵和偏差向量参数，需要在训练过程中学习； σ_g是一个sigmoid函数；σ_c是双曲正切函数；σ_h为双曲正切函数。

随机擦除层(Dropout层)是对输入进行随机的隐藏，Dropout层的输入为上层神经网络的输出，即LSTM层的输出。随机隐藏的概率设为 dropout_rate，则经过随机擦除后，输出可以由如下公式表示，其中 h_i,i＝1,2,…,n是随机擦除层的输入(即为LSTM层的输出)，x_i是随机擦除层的输出。

全连接层(Full Connect层)用于对上层输出(随机擦除层的输出)进行整合，全连接层的计算可以由如下公式表示，其中x是全连接层的输入，是由向量x_i拼接形成的矩阵，即x＝[x₁,x₂,…,x_i,…,x_n-1,x_n]，y是全连接层的输出， y＝[y₁,y₂,…,y_i,…,y_n-1,y_n]。w₀是n×n的参数矩阵，b₀是n×1的参数矩，则

y＝w₀x+b₀。

注意力层(Attention层)用于对全连接层进行调整。注意力层包含n个权重因子，使用a_i,i＝1,2,…n表示。a_i的计算分为两步，首先是计算注意力得分，使用如下计算公式：

其中y_i是全连接层输出的分量，作为注意力层的输入。

是全连接层的输出的平均值，即

计算权重因子的第二步是对注意力得分进行归一化，归一化后得到的就是所需的权重因子a_i,i＝1,2,…n，使用如下计算公式：

最后，再次经过一个全连接网络，利用上面获得的权重对轨迹编码进行加权，得到轨迹编码向量v(Tra)，使用如下公式计算：

步骤5：在隐空间中利用混合增强的方式合成新样本

利用步骤4获得的编码向量v(Tra)，利用如下公式生成新的数据，首先生成随机数β∈(0,1)，随机选择两个轨迹样本T_i＝{L_i,v(Tra_i)}，T_j＝{L_j,v(Tra_j)} 其次分别计算生成数据的标签以及数据。

生成样本的标签为：L_new＝β·L_i+(1-β)·L_j；

生成样本的数据为：v(Tra_new)＝β·v(Tra_i)+(1-β)·v(Tra_j)；

通过上述公式，可以得到新的轨迹数据T_new＝{L_new,v(Tra_new)}。

步骤6：将隐空间中合成的样本还原为原始空间

还原的过程基本是编码过程的逆过程，即利用嵌入矩阵将轨迹编码转换成轨迹点。

例如，如图6所示，使用一个单层的LSTM进行解码。首先将v(Tra_new)作为第一个LSTM单元的输入，经过LSTM单元解码后得到第一个POI点

同时第一个LSTM单元的信息向后传播，作为第二个LSTM单元的输入，并且生成第二个POI点

依次类推，生成全部POI点进行拼接得到新生成的轨迹。

本发明的基于嵌入-混合增强的轨迹数据增强方法可实现轨迹数据的增强处理。进而，可以有效提升轨迹识别的效果，使用三个指标评判采用本发明方法进行数据增强之后，再进行轨迹识别的效果。选取识别准确率作为指标，按照如下公式进行计算

利用召回率作为指标，按照如下公式计算

综合考虑F1，按照如下公式计算

使用Brightkite和Gowalla数据集作为测试数据集；

使用TULER-L，TULER-R,Bi-TULER作为对照算法，基于嵌入-混合增强的轨迹数据增强方法效果如下表所示。

表1基于嵌入-混合增强的轨迹数据增强方法效果(％)

注：上表中斜杠前方的表示没有使用基于嵌入-混合增强的轨迹数据增强方法的轨迹识别精度，斜杠后方的表示使用了基于嵌入-混合增强的轨迹数据增强方法使用了的轨迹识别精度。

从上表中可以明显看到采用本发明的基于嵌入-混合增强的轨迹数据增强方法进行数据增强后，再进行轨迹识别可以有效提升轨迹识别精度。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于嵌入-混合的轨迹数据增强方法，其特征在于，所述方法包括：

S1、将轨迹数据中的每条轨迹转换成相应感兴趣点的集合；

S3、基于所述嵌入矩阵确定每一条轨迹的轨迹编码向量；

2.根据权利要求1所述的轨迹数据增强方法，其特征在于，所述步骤S1包括：

基于所有轨迹数据确定感兴趣点的总集；

3.根据权利要求1所述的轨迹数据增强方法，其特征在于，所述步骤S2包括：

对感兴趣点总集中的每个感兴趣点进行独热编码；

将所有的感兴趣点对应的向量编码拼接为嵌入矩阵。

4.根据权利要求1所述的轨迹数据增强方法，其特征在于，所述步骤S3包括：

确定每一条轨迹中的感兴趣点；

5.根据权利要求4所述的轨迹数据增强方法，其特征在于，所述步骤S3还包括：

对长短时记忆网络的输出进行随机擦除；

利用全连接层对前述步骤中的输出进行整合；

6.根据权利要求5所述的轨迹数据增强方法，其特征在于，

利用长短时记忆网络按照下述递归公式计算输出向量和隐藏向量：

f_t＝σ_g(W_fv(p_t)+U_fh_t-1+b_f)

i_t＝σ_g(W_iv(p_t)+U_ih_t-1+b_i)

o_t＝σ_g(W_ov(p_t)+U_oh_t-1+b_o)

其中，在训练过程中，初始值为c₀＝0和h₀＝0，运算符

7.根据权利要求1所述的轨迹数据增强方法，其特征在于，所述步骤S4包括：

生成随机数β∈(0,1)；

随机选择两个轨迹样本T_i＝{L_i,v(Tra_i)}，T_j＝{L_j,v(Tra_j)}，

其中，L_i和L_j为样本的标签，v(Tra_i)和v(Tra_j)为样本的数据；

生成新样本的标签为：L_new＝β·L_i+(1-β)·L_j；

生成新样本的数据为：v(Tra_new)＝β·v(Tra_i)+(1-β)·v(Tra_j)，

进而获得新的轨迹数据T_new＝{L_new,v(Tra_new)}。

8.一种轨迹识别方法，其特征在于，所述轨迹识别方法包括：

采用权利要求1至7中任意一项所述的方法对轨迹数据集进行数据增强；

利用增强后的轨迹数据集进行轨迹识别模型训练；

基于训练后的轨迹识别模型进行目标轨迹识别。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至7中任一项所述的方法。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的方法。