CN111723305A

CN111723305A - 一种预测用户下一轨迹点的方法

Info

Publication number: CN111723305A
Application number: CN202010473847.7A
Authority: CN
Inventors: 陈恩红; 陶硕; 连德富; 蒋金刚; 承孝敏; 王永璋
Original assignee: Institute Of Smart City University Of Science And Technology Of China Wuhu
Current assignee: Institute Of Smart City University Of Science And Technology Of China Wuhu
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-29
Anticipated expiration: 2040-05-29
Also published as: CN111723305B

Abstract

本发明公开了一种预测用户下一轨迹点的方法，爬取一定量的数据：用户的ID，用户对应的一系列短期和长期历史轨迹点的位置信息，每个轨迹点的时间戳；基于爬取的信息构建特征交互自注意力网络模型，再结合每个用户的长期历史轨迹点的位置信息经过自注意力层的结果做注意力；利用交叉熵损失函数对参数进行最优化训练；对于一个新用户及其一系列的历史轨迹点，利用ID信息、用户对应的一系列历史轨迹点的位置信息，每个轨迹点的时间戳，来构建一系列的实例并以此输入至训练好的特征交互自注意力网络模型中，从而得到一系列的预测位置的排序得分。该方法解决了利用用户和其历史轨迹的丰富元数据来预测下一个轨迹点的难题，预测准确度大大提升。

Description

一种预测用户下一轨迹点的方法

技术领域

本发明涉及机器学习和轨迹预测领域，尤其涉及一种利用用户历史轨迹预测下一步轨迹点的方法。

背景技术

随着位置采集技术的发展和智能设备的普及，人类的日常事务更容易在社交网站中与朋友进行数字化和共享。在广泛的应用和服务中，移动性和预测至关重要，从城市规划、交通预测和流行病控制到基于位置的广告和建议。

移动性预测的关键是如何从历史轨迹中捕获有用的移动模式。以前关于移动性预测的工作主要基于马尔科夫模型或循环模型。马尔科夫模型主要是根据过去访问的位置出现的次数频率进行预测；而循环神经网络(RNN)在语言建模中的成功促使研究人员应用类似RNN的模型进行移动性预测。然而，在这些现有作品中，有两项重要挑战没有得到很好的解决。首先，时空要素通常包括位置ID和时间ID，并且不考虑要素之间显式高阶交互的影响。这可能有助于区分移动建模和顺序建议，并可能导致移动性预测的改进；其次，网络训练非常耗时，尤其是对于长序列上面。

因此，需要提供一种预测用户下一轨迹点的方法来解决上述技术难题。

发明内容

本发明的目的是提供一种预测用户下一轨迹点的方法，该方法解决了利用用户和其历史轨迹的丰富元数据来预测下一个轨迹点的难题，预测准确度大大提升。

为了实现上述目的，本发明提供了一种预测用户下一轨迹点的方法，包括：

从基于位置的用户服务网站上爬取用户数据，包括用户的ID、用户对应的一系列短期和长期历史轨迹点的位置信息和每个轨迹点的时间戳；

基于爬取的各用户的ID信息、用户对应的一系列短期历史轨迹点的位置信息构建特征交互自注意力网络模型，再结合每个用户的长期历史轨迹点的位置信息经过自注意力层的结果做注意力；利用交叉熵损失函数对参数进行最优化训练；

对于一个新用户及其一系列的历史轨迹点，利用新用户的ID信息、用户对应的一系列历史轨迹点的位置信息，每个轨迹点的时间戳，来构建一系列的实例并以此输入至训练好的特征交互自注意力网络模型中，从而得到一系列的预测位置的排序得分，根据排序得分的大小，以从前到后的方式对一系列位置进行排序，得到最终预测的结果。

优选地，构建特征交互自注意力神经网络模型之前还包括对爬取的数据进行预处理的步骤，该步骤包括：去除用户历史轨迹数据中出现次数小于设定数目的地点和存在时间段过少的用户，对经过上述步骤后剩余的用户和用户的历史轨迹信息进行处理，对于每个用户的数据变为：用户的ID信息、每个用户的长期历史和近期历史；其中将用户的轨迹数据分为两部分，一部分用于模型的训练，另一部分用于模型的好坏验证。

优选地，构建特征交互自注意力神经网络模型包括四个部分：输入层、特征交互层、自注意力层和预测层；其中，

输入层：对于一个用户，认为该用户由一系列历史轨迹构成，每个历史轨迹由多个签到记录组成；每一个签到记录认为由用户ID，地点，时间点构成，假设地点L由N个向量组成，记为L＝{l₁,l₂,l₃,…,l_N},l_i∈R^d,1≤i≤N；认为时间点T由48个时间组成，记为T＝{t₁,t_2,t₃,…,t₄₈},_i∈R^d,1≤i≤48；认为用户由M个向量组成，记为U＝{u₁,u₂,…,u_M},u_i∈R^d,1≤i≤M；上述中N,M都是非固定值，会随着输入实例的不同而变化；

特征交互层：对于用户的短期历史轨迹序列RT，将输入层对用户ID，地点，时间点的编码按行连接形成一个特征矩阵X₀，接着通过特征之间的交互计算，分别求得交互结果X₁和X₂；其中，X₁捕获三个嵌入向量的任意两个的二阶相互作用而X₂捕获三个嵌入向量的任意两个的三阶相互作用，以使得得到的特征集成位置和上下文更有用的特性；

自注意力层：利用自注意力机制可以获取用户历史轨迹序列之间的长距离的上下文关系，有效地捕获用户轨迹序列之间的深层次依赖关系；通过自注意力机制，将用户的长期历史轨迹序列LR变成SR，将短期的特征序列FT变成了SF；接着使用注意力机制将长期的历史轨迹序列和短期历史轨迹序列融合在一起，得到最终的向量序列R；

预测层：利用注意力机制，将用户的通过自注意力机制得到的长期历史结果和短期历史结果融合起来，再将该结果同短期历史轨迹向量拼接在一起，得到最终的结果。

优选地，对于用户的短期历史轨迹序列RT＝{q₁,q₂,…,q_n}，按行将用户ID，地点，时间点的编码堆叠成一个特征矩阵X₀，接着特征交互网络通过嵌入向量之间的相互作用计算，得到二阶交互结果X₁和三阶交互结果X₂，计算方式如下:

其中，

代表的是X₁的第h行，W^h,1,W^h,2∈R^3×3分别表示二阶和三阶交互的参数矩阵，°表示的是Hadamard乘积，因此，X₁捕获了用户，地点，时间点这三个嵌入特征向量任意两个的二阶交互关系，X₂捕获了三个中任意两个的三阶交互关系；{W^h,1,W^h,2}是模型中待优化的参数矩阵；

经过这一层，可以通过用户的短期历史轨迹序列RT得到其三个特征之间的高阶交互特性X₁和X₂，虽然矩阵的维度和输入保持不变，但是它们包含了特征之间的交互信息，使特征得到更有用的特性；得到了最终的结果FT。

优选地，利用自注意力机制处理用户的长期历史轨迹序列LR，使得序列间的向量可以获得上下文信息，其过程如下：

以长期为例，将用户的长期历史轨迹序列LR作为输入X，并且通过线性变换分别将其转化成query，key，value矩阵，接着把变化得到的结果放入scaled dot-productattention中，其计算公式如下所示：

Y＝SA(X)＝Attention(XW^Q,XW^K,XW^V)

其中，Attention的计算公式如下所示：

接着，将上一层的输出Y输入前馈神经网络中，根据加权进行非线性变换，其计算公式如下：

Z_j＝FFN(Y_j)＝ReLU(Y_iW⁽¹⁾+⁽¹⁾)W⁽²⁾+⁽²⁾

其中，W⁽¹⁾∈R^d×4d,W⁽²⁾∈R^4d×d,b⁽¹⁾∈R^4d,b⁽²⁾∈R^d，也就是说向量表示先被转换成4倍大，经过ReLU激活函数之后，再转换回来；

另外，使用多层自注意力模块会取得更好的效果；其中，使用两层自注意力模块，其计算公式如下：

f(x)＝LayerNorm(x+Dropout(Sublayer(x)))

其中Sublayer(x)就代表着自注意力层；

同样的，当处理用户的短期历史轨迹序列FT(经过了特征交互层)，为了避免信息的泄露，即自注意力层只能捕捉当前时间点之前的签到序列，当前时间点之后的被屏蔽掉，其他的操作与长期相同；

自注意力机制主要是对用户的长期历史轨迹序列LR和短期历史轨迹序列FT进行操作，分别捕捉出各自的重要信息，来为后面两者的结合做准备；

通过上述方法，可以最终得到，长短期历史轨迹序列各自互相捕捉依赖关系的向量结果，并且其维度大小与输入相同。

优选地，首先，结合长期历史和短期历史通过自注意力层得到的结果向量计算融合结果，公式如下：

其中，将近期的历史轨迹序列作为query向量，将长期的最后k个向量表征作为value向量，

表示近期历史签到序列中第j个向量表征，

表示长期历史签到序列中的第i个向量表征，<,y>代表向量x和y的点乘；再将上式得到的结果放进全连接层得到最后的预测结果。

优选地，使用交叉熵损失函数来最优化模型参数。

优选地，利用一个新用户，新用户对应的长期历史序列LT、短期历史序列RT，构建一系列的实例，将这些实例输入至训练好的自注意力机制特征交互神经网络模型中，从而得到一系列的对位置的排序得分，根据排序得分的大小，从前往后对所有地点进行排序；即，排序得分越高，则认为相应地点越有可能是用户下一个到达的地点。

根据上述技术方案，本发明用特征交互自注意力神经网络模型(MoveNet)来进行对用户轨迹信息的预测，相比于传统模型，使用了更多的历史信息，各个特征之间有了更深层次的交互。对于预测的结果，在多个评价指标上有一定的提高。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明提供的一种预测用户下一轨迹点的方法的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

参见图1，本发明提供一种预测用户下一轨迹点方法，包括：

步骤1、从基于位置的用户服务网站上爬取一定量的数据，对于一个用户爬取的数据包括：用户的ID，用户对应的一系列历史轨迹点的位置信息，每个轨迹点的时间戳。

步骤2、基于爬取的各用户的ID信息、用户对应的一系列短期历史轨迹点的位置信息构建特征交互自注意力神经网络模型，再结合每个用户的长期历史轨迹点的位置信息自注意力网络结果做注意力；利用交叉熵损失函数对参数进行最优化训练。

步骤3、对于一个新用户及其一系列的历史轨迹点，利用新用户的ID信息、用户对应的一系列历史轨迹点的位置信息，每个轨迹点的时间戳，来构建一系列的实例并以此输入至训练好的特征交互自注意力网络模型中，从而得到一系列的预测位置的排序得分，根据排序得分的大小，以从前到后的方式对一系列位置进行排序，得到最终预测的结果。

为了便于理解，下面针对上述过程做详细介绍。

1、数据的爬取。

本发明实施例中，从基于位置的用户服务网站上爬取一定量的数据，对于一个用户爬取的数据包括：用户的ID，用户对应的一系列历史轨迹点的位置信息，每个轨迹点的时间戳。

2、数据预处理。

在构建特征交互自注意力神经网络模型之前还需要对爬取的数据进行预处理，以保证模型的效果；预处理主要如下：

1)去除用户历史轨迹数据中出现次数小于设定数目的地点和存在时间段过少的用户

本发明实施例中，需要去除某些质量较低的用户和地点，将用户的所有历史数据按照时间间隔分成多个时间段数据，通常认为存在时间段数目过少的用户是质量较低的，同时认为出现次数较少的地点也是质量较低的；示例性的，此处的设定数量可以为5。

2)对经过上述步骤后剩余的用户和用户的历史轨迹信息进行处理，对于每个用户的数据变为：用户的ID信息、每个用户的长期历史和近期历史；其中将用户的轨迹数据分为两部分，一部分用于模型的训练，另一部分用于模型的好坏验证。

3、构建特征交互自注意力神经网络模型。

构建特征交互自注意力神经网络模型包括四个部分：输入层、特征交互层、自注意力层和预测层。

1)输入层：对于一个用户，认为该用户由一系列历史轨迹构成，每个历史轨迹由多个签到记录q组成；每一个签到记录认为由用户IDu，地点l，时间点t构成，假设地点L由N个向量组成，记为L＝{l₁,l₂,l₃,…,l_N},l_i∈R^d,1≤i≤N。认为时间点T由48个时间组成，记为T＝{t₁,t₂,t₃,…,t₄₈},t_i∈R^d,1≤i≤48；认为用户由M个向量组成，记为U＝{u₁,u₂,…,u_M},_i∈R^d,1≤i≤M。上述中N,M都是非固定值，会随着输入实例的不同而有所改变。

2)特征交互层：对于用户的短期历史轨迹序列RT，将输入层对用户ID，地点，时间点的编码按行连接起来成一个特征矩阵X₀，接着通过特征之间的交互计算，分别求得交互结果X₁和X₂。其中，X₁捕获三个嵌入向量的任意两个的二阶相互作用而X₂捕获三个嵌入向量的任意两个的三阶相互作用，这样可以让得到的特征集成位置和上下文更有用的特性。

本发明实施例中，对于用户的短期历史轨迹序列RT＝{q₁,q₂,…,q_n}，q_i表示签到记录，按行将用户ID，地点，时间点的编码堆叠成一个特征矩阵X₀，接着特征交互网络通过嵌入向量之间的相互作用计算，得到二阶交互结果X₁和三阶交互结果X₂，计算方式如下:

其中，

代表的是X₁的第h行，W^h,1,W^h,2∈R^3×3分别表示二阶和三阶交互的参数矩阵，°表示的是Hadamard乘积，因此，X₁捕获了用户，地点，时间点这三个嵌入特征向量任意两个的二阶交互关系，X₂捕获了三个中任意两个的三阶交互关系。{W^h,1,W^h,2}是模型中待优化的参数矩阵。

经过这一层，可以通过用户的短期历史轨迹序列RT得到其三个特征之间的高阶交互特性X₁和X₂，虽然矩阵的维度和输入保持不变，但是它们包含了特征之间的交互信息，使特征得到更有用的特性，最终的结果为FT。

3)自注意力层：利用自注意力机制可以获取用户历史轨迹序列之间的长距离的上下文关系，有效地捕获用户轨迹序列之间的深层次依赖关系。通过自注意力机制，将用户的长期历史轨迹序列LR变成SR，将短期的特征序列FT变成了SF。。

本发明实施例中，具体实现自注意力机制时在长期历史轨迹和短期历史轨迹时略微有所不同，分别处理长期历史轨迹LR和短期FT，最终得到相应的结果向量。

下面是针对自注意力机制做详细说明。

利用自注意力机制处理用户的长期历史轨迹序列LR，使得序列间的向量可以获得上下文信息，其过程如下：

Y＝SA(X)＝Attention(XW^Q,XW^K,XW^V)

其中，Attention的计算公式如下所示：

Z_j＝FFN(Y_j)＝ReLU(Y_iW⁽¹⁾+b⁽¹⁾)W⁽²⁾+b⁽²⁾

其中，W⁽¹⁾∈R^d×4d,W(2)∈R^4d×d,b⁽¹)∈R^4d,b⁽²⁾∈R^d，也就是说向量表示先被转换成4倍大，经过ReLU激活函数之后，再转换回来。

另外，使用多层自注意力模块会取得更好的效果，本发明实施例中，使用两层自注意力模块，其计算公式如下：

f(x)＝LayerNorm(x+Dropout(Sublayer(x)))

其中Sublayer(x)就代表着自注意力层。

类似的，当处理用户的短期历史轨迹序列FT(经过了特征交互层之后的结果)时，为了避免信息的泄露，即自注意力层只能捕捉当前时间点之前的签到序列，当前时间点之后的被屏蔽掉，其他的操作与长期相同。

本发明实施例中，自注意力机制主要是对用户的长期历史轨迹序列LR和短期历史轨迹序列FT进行操作，分别捕捉出各自的重要信息，来为后面两者的结合做准备

通过上述方法，可以最终得到，长短期历史轨迹序列各自互相捕捉依赖关系的向量结果SR和SF，并且其维度大小与输入相同。

4)预测层：利用注意力机制，将用户的通过自注意力机制得到的长期历史结果SR和短期历史结果SF融合起来，再将该结果同短期历史轨迹向量FT拼接在一起，得到最终的结果。

本发明实施例中，首先，结合长期历史和短期历史通过自注意力层得到的结果向量计算融合结果，公式如下：

其中，我们把短期的历史轨迹序列作为query向量，将长期的最后k个向量表征作为value向量，

表示近期历史签到序列中第j个向量表征，

表示长期历史签到序列中的第i个向量表征，<,y>代表向量x和y的点乘。再将上式得到的结果放进全连接层得到最后的预测结果。

4、模型参数的训练。

该步骤主要对上一步骤所建立的自注意力机制特征交互神经网络模型中的所有参数矩阵或向量进行训练，包括{W^h,1,W^h,2,W^Q,W^K,W^V,W⁽¹⁾,W⁽²⁾}、{b⁽¹⁾,b⁽²⁾}。

使用交叉熵损失函数来最优化模型参数。

另外，在训练过程中，可以将整个数据集按4:1的比例划分为训练集和测试集，训练集用于优化模型的参数，测试集用来衡量最终模型的好坏。

5、对用户的下一步轨迹做预测

该步骤主要针对用户的下一步轨迹地点进行预测，并按照预测价值(即排序得分)的高低进行排序。

本发明实施例中，利用一个新用户，新用户对应的长期历史序列LT、短期历史序列RT，构建一系列的实例，将这些实例输入至训练好的特征交互自注意力神经网络模型中，从而得到一系列的对位置的排序得分，根据排序得分的大小，从前往后对所有地点进行排序；即，排序得分越高，则认为相应地点越有可能是用户下一个到达的地点。

本发明实施例上述方案，通过利用多种元数据的融合，捕捉历史轨迹序列之间的深层规律，可以有效的找到周期规律和近期的活动特点，实现对下一个轨迹点的预测排序，帮助人们完成对用户轨迹的预测。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种预测用户下一轨迹点方法，其特征在于，包括：

2.根据权利要求1所述的预测用户下一轨迹点方法，其特征在于，构建特征交互自注意力神经网络模型之前还包括对爬取的数据进行预处理的步骤，该步骤包括：去除用户历史轨迹数据中出现次数小于设定数目的地点和存在时间段过少的用户，对经过上述步骤后剩余的用户和用户的历史轨迹信息进行处理，对于每个用户的数据变为：用户的ID信息、每个用户的长期历史和近期历史；其中将用户的轨迹数据分为两部分，一部分用于模型的训练，另一部分用于模型的好坏验证。

3.根据权利要求1或2所述的预测用户下一轨迹点方法，其特征在于，构建特征交互自注意力神经网络模型包括四个部分：输入层、特征交互层、自注意力层和预测层；其中，

输入层：对于一个用户，认为该用户由一系列历史轨迹构成，每个历史轨迹由多个签到记录组成；每一个签到记录认为由用户ID，地点，时间点构成，假设地点L由N个向量组成，记为L＝{l₁，l₂，l₃，...，l_N}，l_i∈R^d，1≤i≤N；认为时间点T由48个时间组成，记为T＝{t₁，t₂，t₃，...，t₄₈}，t_i∈R^d，1≤i≤48；认为用户由M个向量组成，记为U＝{u₁，u₂，...，u_M}，u_i∈R^d，1≤i≤M；上述中N，M都是非固定值，会随着输入实例的不同而变化；

4.根据权利要求3所述的预测用户下一轨迹点方法，其特征在于，

对于用户的短期历史轨迹序列RT＝{q₁，q₂，...，q_n}，按行将用户ID，地点，时间点的编码堆叠成一个特征矩阵X₀，接着特征交互网络通过嵌入向量之间的相互作用计算，得到二阶交互结果X₁和三阶交互结果X₂，计算方式如下：

其中，

代表的是X₁的第h行，W^h，1，W^h，2∈R^3×3分别表示二阶和三阶交互的参数矩阵，

表示的是Hadamard乘积，因此，X₁捕获了用户，地点，时间点这三个嵌入特征向量任意两个的二阶交互关系，X₂捕获了三个中任意两个的三阶交互关系；{W^h，1，W^h，2}是模型中待优化的参数矩阵；

5.根据权利要求3所述的预测用户下一轨迹点方法，其特征在于，

以长期为例，将用户的长期历史轨迹序列LR作为输入X，并且通过线性变换分别将其转化成query，key，value矩阵，接着把变化得到的结果放入scaled dot-product attention中，其计算公式如下所示：

Y＝SA(X)＝Attention(XW^Q，XW^K，XW^V)

其中，Attention的计算公式如下所示：

Z_j＝FFN(Y_j)＝ReLU(Y_iW⁽¹⁾+b⁽¹⁾)W⁽²⁾+b⁽²⁾

其中，W⁽¹⁾∈R^d×4d，W⁽²⁾∈R^4d×d，b⁽¹⁾∈R^4d，b⁽²⁾∈R^d，也就是说向量表示先被转换成4倍大，经过ReLU激活函数之后，再转换回来；

f(x)＝LayerNorm(x+Dropout(Sublayer(x)))

其中Sublayer(x)就代表着自注意力层；

6.根据权利要求3所述的预测用户下一轨迹点方法，其特征在于，

首先，结合长期历史和短期历史通过自注意力层得到的结果向量计算融合结果，公式如下：

表示近期历史签到序列中第j个向量表征，

表示长期历史签到序列中的第i个向量表征，＜x，y＞代表向量x和y的点乘；再将上式得到的结果放进全连接层得到最后的预测结果。

7.根据权利要求1、2、4、5或6所述的预测用户下一轨迹点方法，其特征在于，使用交叉熵损失函数来最优化模型参数。

8.根据权利要求1、2、4、5或6所述的预测用户下一轨迹点方法，其特征在于，利用一个新用户，新用户对应的长期历史序列LT、短期历史序列RT，构建一系列的实例，将这些实例输入至训练好的自注意力机制特征交互神经网络模型中，从而得到一系列的对位置的排序得分，根据排序得分的大小，从前往后对所有地点进行排序；即，排序得分越高，则认为相应地点越有可能是用户下一个到达的地点。