CN110070239A

CN110070239A - 一种基于a星搜索和深度学习的个性化路线推荐方法

Info

Publication number: CN110070239A
Application number: CN201910411440.9A
Authority: CN
Inventors: 吴宁; 王静远; 郭容辰; 彭凡彰
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-03-29
Filing date: 2019-05-16
Publication date: 2019-07-30
Anticipated expiration: 2039-05-16
Also published as: CN110070239B

Abstract

本发明公开了一种基于A星搜索和深度学习的个性化路线推荐方法，步骤一：历史轨迹数据集D，起点l_s，终点l_d，出发时间b和用户u作为输入，然后基于输入循环神经网络；步骤二：建模从出发点到当前n节点的费用函数ɡ(n)与当前n节点到终点的费用函数h(n)；步骤三：寻找最优路径的过程中，每次扩展一个节点，使用f(n)来评价这个节点的得分，推荐个性化的最优路径轨迹p^*。本发明提供了一种基于A星搜索和深度学习的个性化路线推荐方法通过循环神经网络来学习轨迹点之间的转移规律，利用基于历史数据的注意力机制来帮助学习A*算法中当前的成本，最后引入了图注意力神经网络来建模A*算法中未来的成本。

Description

一种基于A星搜索和深度学习的个性化路线推荐方法

技术领域

本发明涉及轨迹数据挖掘技术领域，更具体的说是涉及基于A星搜索和深度学习的个性化路线推荐方法。

背景技术

目前的路线推荐问题的解决方案相比于过去的路线推荐方案最大的区别就在于现有方案都是数据驱动的。通过从大量历史轨迹数据中进行挖掘，分析，就可以非常准确地建模用户的兴趣需求。

然而，目前的方案很难充分利用轨迹数据，很多方案还只是在对数据进行简单的统计，然后通过常用的启发式搜索算法搜索出所谓最流行或者用时最少的轨迹。但是这些方案都不能捕捉到用户的特征，无法满足用户的个性化需求。

另一方面，随着深度学习的兴起，尽管深度学习模型可以捕捉到数据内部复杂的规律，并且可以融合进多元的信息进行帮助，但是普通的以循环神经网络为基础的序列模型并不适用于路线推荐这种搜索问题。

因此，如何提供一个可以捕捉到轨迹数据深层信息的搜索算法是本领域技术人员亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于A星搜索和深度学习的个性化路线推荐方法通过循环神经网络来学习轨迹点之间的转移规律，利用基于历史数据的注意力机制来帮助学习A*算法中当前的成本，最后引入了图注意力神经网络来建模A*算法中未来的成本。本申请的模型相比于传统方案具有更强的建模能力，并且降低了个性化路径推荐的误差。

为了实现上述目的，本发明提供如下技术方案：

一种基于A星搜索和深度学习的个性化路线推荐方法，具体的步骤如下：

步骤一：历史轨迹数据集D，起点l_s，终点l_d，出发时间b和用户u作为输入，然后基于输入循环神经网络；

步骤二：建模从出发点到当前n节点的费用函数ɡ(n)与当前n节点到终点的费用函数h(n)；

步骤三：寻找最优路径的过程中，每次扩展一个节点n，使用f(n)来评价这个节点的得分：f(n)＝g(n)+h(n)，推荐个性化的最优路径轨迹p^*。

优选的，在上述的一种基于A星搜索和深度学习的个性化路线推荐方法中，所述步骤一中，将离散的用户信息嵌入到一个低维向量中，用v_u来表示；对于每一个位置，使用相似的方法将这个位置嵌入到一个低维向量中，用v_l来表示；又引入时间信息，用v_di(bi)来表示天的向量，来v_hi(bi)表示小时的向量；最后这四者拼接起来成为循环神经网络的输入:

v_xi＝v_u||v_li||v_hi(bi)||v_di(bi)。

优选的，在上述的一种基于A星搜索和深度学习的个性化路线推荐方法中，其特征在于，所述步骤二中，从出发点到当前n节点的费用函数ɡ(n)构建的具体步骤如下：

步骤211：采用GRU来建模轨迹：

是GRU在第i时刻的隐状态，包含了该用户当前的移动状态，v_xi是第i时刻的上下文向量；

步骤212：在引入了GRU之后，进一步引入了内部注意力机制来改进建模效果：

在这里是通过内部注意力机制改进了之后的状态向量；att(·)是注意力函数：

上式中W₁ ^T,W₁,W₂是需要学习的参数；

步骤213：在内部注意力机制的基础上，又进一步提出了外部注意力机制，将用户的历史轨迹数据也考虑了进来:

上式中是用户u的历史轨迹集合；

步骤214：在实现了两个注意力机制之后，以下式计算可观察的花费函数：

在上式的基础上用负对数和来计算ɡ函数；

步骤215：最后采用交叉熵来进行优化

优选的，在上述的一种基于A星搜索和深度学习的个性化路线推荐方法中，所述步骤二中，当前n节点到终点的费用函数h(n)构建具体步骤如下：

步骤221：使用图神经网络来建模；

N^(z+1)＝GNN(N^(z))；

上式中N^(z)是一个矩阵，这个矩阵每一行都是一个节点的表示，z是第z次迭代；

步骤222：在图神经网络的基础上，引入了图注意力神经网络，并在计算注意力机制的时候考虑了移动的状态信息h^(p)和位置之间的距离信息

注意力机制权重：

在这里W_(·)和W₂是可学习的参数；

将A个参数不同的注意力机制计算的结果拼接起来，W^(α)是不同的注意力机制的参数；

步骤223：使用：多层感知机MLP(·)来融合所有信息；

h^(p)是GRU输出的状态向量，是l_i的表示向量，是l_d的表示向量，是l_i和l_d之间距离的表示向量；

步骤224：采用时间差分的方法，对h(n)网络进行训练。

优选的，在上述的一种基于A星搜索和深度学习的个性化路线推荐方法中，所述步骤224中，对h(n)网络进行训练的具体步骤包括：

步骤2241：将用户运动的过程定义为一个马尔可夫决策过程，对于每一次位置的转移，都会得到一个奖励，：将奖励定义为如下形式：

r_i＝logPr(l_i|l_s→l_i-1，q，u)；

h(n)函数被未来奖励之和近似：

上式中，γ是折扣因子，T是到达终点时的时间步骤数，距离当前时间点越远，奖励就需要被打的折扣越多；

步骤2242：通过时间差分法，将时间差分学习的标签写成如下形式：

预测误差被写成如下形式：

步骤2243：对于所有用户，所有轨迹的损失函数定义成如下形式：

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于A星搜索和深度学习的个性化路线推荐方法，通过循环神经网络来学习轨迹点之间的转移规律，利用基于历史数据的注意力机制来帮助学习A*算法中当前的成本，最后引入了图注意力神经网络来建模A*算法中未来的成本；本申请的模型相比于传统方案具有更强的建模能力，并且降低了个性化路径推荐的误差。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明的模型结构示意图；

图2附图为本发明的图注意力机制示意图；

图3附图为本发明的搜索过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于A星搜索和深度学习的个性化路线推荐方法，通过循环神经网络来学习轨迹点之间的转移规律，利用基于历史数据的注意力机制来帮助学习A*算法中当前的成本，最后引入了图注意力神经网络来建模A*算法中未来的成本；本申请的模型相比于传统方案具有更强的建模能力，并且降低了个性化路径推荐的误差。

由于我们的任务是在路网上给定一条起始路链，一条终止路链，起始时间，以及用户信息来进行路径推荐，因此我们需要首先对历史数据进行路网匹配，将gps点都投映到对应的路链上，这样，我们就可以获得由路链id和到达时间组成的轨迹数据了。

在路径推荐任务中，本发明建立的模型接受历史轨迹数据集D，起点l_s，终点l_d，出发时间b和用户u，然后基于输入推荐个性化的轨迹p^*。形式化地来讲，需要找到一条条件概率最高的最优路径：

循环神经网络是一个好的选择用来建模上述条件概率分布。这里采用LSTM(长短时记忆模型)作为建模上述概率分布的基本单元。虽然基于LSTM的深度神经网络可以直接应用到轨迹推荐任务上来，但这并不是一个很完美的方法。因为路径推荐问题的基本形式就和循环神经网络常用来解决的问题不太一样。因此，选择将循环神经网络和常用于解决路径推荐的A*算法结合起来，非常好地适应了这个问题。

任务目标是最大化Pr(p|q，u，D)，等同于最小化负对数-log Pr(p|q，u，D)。给出一条可能的路径p：l_s→l₁→l₂→…→l_m→l_d；将路径的概率分解为各个项之和。

因此，对于一条路径l_s→l₁…→l_i-1，可以计算已知费用g(l_s→l_i)：

为了方便计算条件转移概率，在传统A*算法费用函数的计算中，一阶马尔可夫假设经常被使用，因此，有Pr(l_k+1|l_s→l_k，q，u)＝Pr(l_k+1|l_k，q，u)。然而在个性化路径推荐的任务中，这样简单的假设并不能很好地建模用户对于每个位置的选择，因此需要引入深度学习来建模用户和位置之间的复杂依赖关系。

步骤二：建模从出发点到当前n节点的费用函数g(n)与当前n节点到终点的费用函数h(n)；

为了进一步优化上述技术方案，所述步骤一中，将离散的用户信息嵌入到一个低维向量中，用v_u来表示；对于每一个位置，使用相似的方法将这个位置嵌入到一个低维向量中，用v_l来表示；又引入时间信息，用v_di(bi)来表示天的向量，来v_hi(bi)表示小时的向量；最后这四者拼接起来成为循环神经网络的输入：

v_xi＝v_u||v_li||vx_i(bi)||v_di(bi)。

为了进一步优化上述技术方案，所述步骤二中，从出发点到当前n节点的费用函数g(n)构建的具体步骤如下：

步骤211：采用GRU来建模轨迹：

上式中W₁ ^T，W₁，W₂是需要学习的参数；

步骤213：在内部注意力机制的基础上，又进一步提出了外部注意力机制，将用户的历史轨迹数据也考虑了进来：

上式中是用户u的历史轨迹集合；

在上式的基础上用负对数和来计算g函数；

步骤215：最后采用交叉熵来进行优化：

为了进一步优化上述技术方案，所述步骤二中，当前n节点到终点的费用函数h(n)构建具体步骤如下：

步骤221：使用图神经网络来建模；

N^(z+1)＝GNN(N^(z))；

注意力机制权重：

在这里W_(·)和W₂是可学习的参数；

步骤223：使用：多层感知机MLP(.)来融合所有信息；

步骤224：采用时间差分的方法，对h(n)网络进行训练。

为了进一步优化上述技术方案，所述步骤224中，对h(n)网络进行训练的具体步骤包括：

r_i＝logPr(l_i|l_s→l_i-1，q，u)；

h(n)函数被未来奖励之和近似：

预测误差被写成如下形式：

具体的训练算法和搜索算法如下：

训练算法：

输入：一个轨迹数据集D；

输出：模型参数Θ^(g)，Θ^(h)，和Θ⁽ⁱ⁾；

随机初始化Θ^(g)，Θ^(h)andΘ⁽ⁱ)；

通过最小化的Loss₁预训练Θ^(g)；

对于D中的每一条轨迹：

使用对Θ^(g)和Θ⁽ⁱ⁾执行梯度下降；

对于轨迹t中的从后往前的每一个点a_i+n：

从轨迹t中获取动作a_i+1，...，a_i+n；

执行a_i+1，...，a_i+n这n步动作；

通过r_i＝logPr(l_i|l_s→l_i-1，q，u)获得奖励c_i+1，...，c_i+n；

得到新的状态s_i+n；

计算

使用||h(s_i；Θ^(h))-y_li||²对Θ^(g)和Θ⁽ⁱ⁾执行梯度下降。

结束循环

返回Θ^(g)，Θ^(h)，和Θ⁽ⁱ⁾。

搜索算法：

输入：起点l_s，终点l_d，出发时间b，用户u；

输出：推荐路径l_s→l_d；

初始化C，O，F，G

如果O非空，循环

从O中弹出一个F值最低的位置，记为l^*

如果l^*＝l_d；

返回被推荐的路径

C中添加l^*；

对于l^*的每一个邻居l′

如果l′∈C

Continue

G′←G[l_c]+g(l_s→l′)；

如果l′<O；

O.add(l′)

如果G′≥G[l′]

Continue

G[l′]←G′

F[l′]←G[l′]+h(l′→l_d)。

如图1所示，通过循环神经网络来学习轨迹点之间的转移规律，利用基于历史数据的注意力机制来帮助学习A*算法中当前的成本，最后引入了图注意力神经网络来建模A*算法中未来的成本。我们的模型相比于传统方案具有更强的建模能力，并且降低了个性化路径推荐的误差。

如图2所示，图注意力机制的可视化，用以说明我们注意力机制的有效性以及路线的合理性。另外，使用颜色来代表每个位置的表示和起终点的表示的距离和，颜色越深(红)则距离越近。可以看出来，注意力机制会有选择地考虑路网上的部分节点。

如图3所示，(a)和(b)展示了通过h网络的修正之后搜索空间的变化，(c)展示了在某一步选择中本发明的方法选择了更为合理的下一步。本发明的方法选择了h更小的选择，因为这个选择会导致的未来花费更小，如果选择了另一个选择；那么用户就相当于是绕道了，而且绕的还是更窄的路。

(1)首先，本发明提出的模型在北京出租车，波尔图出租车以及北京自行车三个数据集和四个评价指标上都显著强于其它模型。实验结果显示了本发明的模型非常适合这个任务。

(2)其次，传统的基于搜索和启发式搜索的模型在我们的实验中表现的结果很不错，然而深度方法的效果也非常好。在推荐的路径比较短的情况下，深度方法会好于基于搜索的方法，然而在推荐的路径很长的时候，基于搜索的方法效果更好。本发明的方案结合了两类方法的优点，取长补短，取得了极好的效果。

(3)最后，提出的启发式搜索方案对于长路径推荐任务的优势更大，因为本发明的方法大大减小了搜索空间，不仅提高了搜索效率，也提高了推荐的准确率和召回率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于A星搜索和深度学习的个性化路线推荐方法，其特征在于，具体的步骤如下：

步骤一：历史轨迹数据集D，起点l_s，终点l_d，出发时间b和用户u作为输入，然后输入循环神经网络中；

步骤三：寻找最优路径的过程中，每次扩展一个节点，使用f(n)来评价这个节点的得分：f(n)＝g(n)+h(n)，推荐个性化的最优路径轨迹p^*。

2.根据权利要求1所述的一种基于A星搜索和深度学习的个性化路线推荐方法，其特征在于，所述步骤一中，将离散的用户信息嵌入到一个低维向量中，用v_u来表示；对于每一个位置，使用相似的方法将这个位置嵌入到一个低维向量中，用v_l来表示；又引入时间信息，用v_di(bi)来表示天的向量，来v_hi(bi)表示小时的向量；最后这四者拼接起来成为循环神经网络的输入:

v_xi＝v_u||v_li||v_hi(bi)||v_di(bi)。

3.根据权利要求1所述的一种基于A星搜索和深度学习的个性化路线推荐方法，其特征在于，所述步骤二中，从出发点到当前n节点的费用函数ɡ(n)构建的具体步骤如下：

步骤211：采用GRU来建模轨迹：

上式中W₁ ^T,W₁,W₂是需要学习的参数；

上式中是用户u的历史轨迹集合；

在上式的基础上用负对数和来计算ɡ函数；

步骤215：最后采用交叉熵来进行优化

4.根据权利要求1所述的一种基于A星搜索和深度学习的个性化路线推荐方法，其特征在于，所述步骤二中，当前n节点到终点的费用函数h(n)构建具体步骤如下：

步骤221：使用图神经网络来建模；

N^(z+1)＝GNN(N^(z))；

注意力机制权重：

在这里W_(·)和W₂是可学习的参数；

步骤223：使用:多层感知机MLP(·)来融合所有信息；

步骤224：采用时间差分的方法，对h(n)网络进行训练。

5.根据权利要求4所述的一种基于A星搜索和深度学习的个性化路线推荐方法，其特征在于，所述步骤224中，对h(n)网络进行训练的具体步骤包括：

步骤2241：将用户运动的过程定义为一个马尔可夫决策过程，对于每一次位置的转移，都会得到一个奖励，:将奖励定义为如下形式：

r_i＝logPr(l_i|l_s→l_i-1，q，u)；

h(n)函数被未来奖励之和近似:

预测误差被写成如下形式：