CN110070239B - 一种基于a星搜索和深度学习的个性化路线推荐方法 - Google Patents

一种基于a星搜索和深度学习的个性化路线推荐方法 Download PDF

Info

Publication number
CN110070239B
CN110070239B CN201910411440.9A CN201910411440A CN110070239B CN 110070239 B CN110070239 B CN 110070239B CN 201910411440 A CN201910411440 A CN 201910411440A CN 110070239 B CN110070239 B CN 110070239B
Authority
CN
China
Prior art keywords
node
vector
neural network
current
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910411440.9A
Other languages
English (en)
Other versions
CN110070239A (zh
Inventor
吴宁
王静远
郭容辰
彭凡彰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Publication of CN110070239A publication Critical patent/CN110070239A/zh
Application granted granted Critical
Publication of CN110070239B publication Critical patent/CN110070239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • G06Q30/0284Time or distance, e.g. usage of parking meters or taximeters
    • G06Q50/40

Abstract

本发明公开了一种基于A星搜索和深度学习的个性化路线推荐方法,步骤一:历史轨迹数据集D,起点ls,终点ld,出发时间b和用户u作为输入,然后基于输入循环神经网络;步骤二:建模从出发点到当前n节点的费用函数ɡ(n)与当前n节点到终点的费用函数h(n);步骤三:寻找最优路径的过程中,每次扩展一个节点,使用f(n)来评价这个节点的得分,推荐个性化的最优路径轨迹p*。本发明提供了一种基于A星搜索和深度学习的个性化路线推荐方法通过循环神经网络来学习轨迹点之间的转移规律,利用基于历史数据的注意力机制来帮助学习A*算法中当前的成本,最后引入了图注意力神经网络来建模A*算法中未来的成本。

Description

一种基于A星搜索和深度学习的个性化路线推荐方法
技术领域
本发明涉及轨迹数据挖掘技术领域,更具体的说是涉及基于A星搜索和深度学习的个性化路线推荐方法。
背景技术
目前的路线推荐问题的解决方案相比于过去的路线推荐方案最大的区别就在于现有方案都是数据驱动的。通过从大量历史轨迹数据中进行挖掘,分析,就可以非常准确地建模用户的兴趣需求。
然而,目前的方案很难充分利用轨迹数据,很多方案还只是在对数据进行简单的统计,然后通过常用的启发式搜索算法搜索出所谓最流行或者用时最少的轨迹。但是这些方案都不能捕捉到用户的特征,无法满足用户的个性化需求。
另一方面,随着深度学习的兴起,尽管深度学习模型可以捕捉到数据内部复杂的规律,并且可以融合进多元的信息进行帮助,但是普通的以循环神经网络为基础的序列模型并不适用于路线推荐这种搜索问题。
因此,如何提供一个可以捕捉到轨迹数据深层信息的搜索算法是本领域技术人员亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种基于A星搜索和深度学习的个性化路线推荐方法通过循环神经网络来学习轨迹点之间的转移规律,利用基于历史数据的注意力机制来帮助学习A*算法中当前的成本,最后引入了图注意力神经网络来建模A*算法中未来的成本。本申请的模型相比于传统方案具有更强的建模能力,并且降低了个性化路径推荐的误差。
为了实现上述目的,本发明提供如下技术方案:
一种基于A星搜索和深度学习的个性化路线推荐方法,具体的步骤如下:
步骤一:历史轨迹数据集D,起点ls,终点ld,出发时间b和用户u作为输入,然后基于输入循环神经网络;
步骤二:建模从出发点到当前n节点的费用函数ɡ(n)与当前n节点到终点的费用函数h(n);
步骤三:寻找最优路径的过程中,每次扩展一个节点n,使用f(n)来评价这个节点的得分:f(n)=g(n)+h(n),推荐个性化的最优路径轨迹p*
优选的,在上述的一种基于A星搜索和深度学习的个性化路线推荐方法中,所述步骤一中,将离散的用户信息嵌入到一个低维向量中,用vu来表示;对于每一个位置,使用相似的方法将这个位置嵌入到一个低维向量中,用vl来表示;又引入时间信息,用vdi(bi)来表示天的向量,来vhi(bi)表示小时的向量;最后这四者拼接起来成为循环神经网络的输入:
vxi=vu||vli||vhi(bi)||vdi(bi)
优选的,在上述的一种基于A星搜索和深度学习的个性化路线推荐方法中,其特征在于,所述步骤二中,从出发点到当前n节点的费用函数ɡ(n)构建的具体步骤如下:
步骤211:采用GRU来建模轨迹:
Figure BDA0002062929230000021
Figure BDA0002062929230000022
是GRU在第i时刻的隐状态,包含了该用户当前的移动状态,vxi是第i时刻的上下文向量;
步骤212:在引入了GRU之后,进一步引入了内部注意力机制来改进建模效果:
Figure BDA0002062929230000031
在这里
Figure BDA0002062929230000032
是通过内部注意力机制改进了之后的状态向量;att(·)是注意力函数:
Figure BDA0002062929230000033
Figure BDA0002062929230000034
上式中W1 T,W1,W2是需要学习的参数;
步骤213:在内部注意力机制的基础上,又进一步提出了外部注意力机制,将用户的历史轨迹数据也考虑了进来:
Figure BDA0002062929230000035
上式中
Figure BDA0002062929230000036
是用户u的历史轨迹集合;
步骤214:在实现了两个注意力机制之后,以下式计算可观察的花费函数:
Figure BDA0002062929230000037
Figure BDA0002062929230000038
在上式的基础上用负对数和来计算ɡ函数;
Figure BDA0002062929230000039
步骤215:最后采用交叉熵来进行优化
Figure BDA00020629292300000310
优选的,在上述的一种基于A星搜索和深度学习的个性化路线推荐方法中,所述步骤二中,当前n节点到终点的费用函数h(n)构建具体步骤如下:
步骤221:使用图神经网络来建模;
N(z+1)=GNN(N(z));
上式中N(z)是一个矩阵,这个矩阵每一行都是一个节点的表示,z是第z次迭代;
步骤222:在图神经网络的基础上,引入了图注意力神经网络,并在计算注意力机制的时候考虑了移动的状态信息h(p)和位置之间的距离信息
Figure BDA0002062929230000041
注意力机制权重:
Figure BDA0002062929230000042
在这里W(·)和W2是可学习的参数;
Figure BDA0002062929230000043
将A个参数不同的注意力机制计算的结果拼接起来,W(α)是不同的注意力机制的参数;
步骤223:使用:多层感知机MLP(·)来融合所有信息;
Figure BDA0002062929230000044
h(p)是GRU输出的状态向量,
Figure BDA0002062929230000045
是li的表示向量,
Figure BDA0002062929230000046
是ld的表示向量,
Figure BDA0002062929230000047
是li和ld之间距离的表示向量;
步骤224:采用时间差分的方法,对h(n)网络进行训练。
优选的,在上述的一种基于A星搜索和深度学习的个性化路线推荐方法中,所述步骤224中,对h(n)网络进行训练的具体步骤包括:
步骤2241:将用户运动的过程定义为一个马尔可夫决策过程,对于每一次位置的转移,都会得到一个奖励,:将奖励定义为如下形式:
ri=logPr(li|ls→li-1,q,u);
h(n)函数被未来奖励之和近似:
Figure BDA0002062929230000051
上式中,γ是折扣因子,T是到达终点时的时间步骤数,距离当前时间点越远,奖励就需要被打的折扣越多;
步骤2242:通过时间差分法,将时间差分学习的标签写成如下形式:
Figure BDA0002062929230000052
预测误差被写成如下形式:
Figure BDA0002062929230000053
步骤2243:对于所有用户,所有轨迹的损失函数定义成如下形式:
Figure BDA0002062929230000054
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于A星搜索和深度学习的个性化路线推荐方法,通过循环神经网络来学习轨迹点之间的转移规律,利用基于历史数据的注意力机制来帮助学习A*算法中当前的成本,最后引入了图注意力神经网络来建模A*算法中未来的成本;本申请的模型相比于传统方案具有更强的建模能力,并且降低了个性化路径推荐的误差。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明的模型结构示意图;
图2附图为本发明的图注意力机制示意图;
图3附图为本发明的搜索过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于A星搜索和深度学习的个性化路线推荐方法,通过循环神经网络来学习轨迹点之间的转移规律,利用基于历史数据的注意力机制来帮助学习A*算法中当前的成本,最后引入了图注意力神经网络来建模A*算法中未来的成本;本申请的模型相比于传统方案具有更强的建模能力,并且降低了个性化路径推荐的误差。
由于我们的任务是在路网上给定一条起始路链,一条终止路链,起始时间,以及用户信息来进行路径推荐,因此我们需要首先对历史数据进行路网匹配,将gps点都投映到对应的路链上,这样,我们就可以获得由路链id和到达时间组成的轨迹数据了。
在路径推荐任务中,本发明建立的模型接受历史轨迹数据集D,起点ls,终点ld,出发时间b和用户u,然后基于输入推荐个性化的轨迹p*。形式化地来讲,需要找到一条条件概率最高的最优路径:
Figure BDA0002062929230000071
循环神经网络是一个好的选择用来建模上述条件概率分布。这里采用LSTM(长短时记忆模型)作为建模上述概率分布的基本单元。虽然基于LSTM的深度神经网络可以直接应用到轨迹推荐任务上来,但这并不是一个很完美的方法。因为路径推荐问题的基本形式就和循环神经网络常用来解决的问题不太一样。因此,选择将循环神经网络和常用于解决路径推荐的A*算法结合起来,非常好地适应了这个问题。
任务目标是最大化Pr(p|q,u,D),等同于最小化负对数-log Pr(p|q,u,D)。给出一条可能的路径p:ls→l1→l2→…→lm→ld;将路径的概率分解为各个项之和。
Figure BDA0002062929230000072
因此,对于一条路径ls→l1…→li-1,可以计算已知费用g(ls→li):
Figure BDA0002062929230000073
为了方便计算条件转移概率,在传统A*算法费用函数的计算中,一阶马尔可夫假设经常被使用,因此,有Pr(lk+1|ls→lk,q,u)=Pr(lk+1|lk,q,u)。然而在个性化路径推荐的任务中,这样简单的假设并不能很好地建模用户对于每个位置的选择,因此需要引入深度学习来建模用户和位置之间的复杂依赖关系。
一种基于A星搜索和深度学习的个性化路线推荐方法,具体的步骤如下:
步骤一:历史轨迹数据集D,起点ls,终点ld,出发时间b和用户u作为输入,然后基于输入循环神经网络;
步骤二:建模从出发点到当前n节点的费用函数g(n)与当前n节点到终点的费用函数h(n);
步骤三:寻找最优路径的过程中,每次扩展一个节点n,使用f(n)来评价这个节点的得分:f(n)=g(n)+h(n),推荐个性化的最优路径轨迹p*
为了进一步优化上述技术方案,所述步骤一中,将离散的用户信息嵌入到一个低维向量中,用vu来表示;对于每一个位置,使用相似的方法将这个位置嵌入到一个低维向量中,用vl来表示;又引入时间信息,用vdi(bi)来表示天的向量,来vhi(bi)表示小时的向量;最后这四者拼接起来成为循环神经网络的输入:
vxi=vu||vli||vxi(bi)||vdi(bi)
为了进一步优化上述技术方案,所述步骤二中,从出发点到当前n节点的费用函数g(n)构建的具体步骤如下:
步骤211:采用GRU来建模轨迹:
Figure BDA0002062929230000081
Figure BDA0002062929230000082
是GRU在第i时刻的隐状态,包含了该用户当前的移动状态,vxi是第i时刻的上下文向量;
步骤212:在引入了GRU之后,进一步引入了内部注意力机制来改进建模效果:
Figure BDA0002062929230000083
在这里
Figure BDA0002062929230000084
是通过内部注意力机制改进了之后的状态向量;att(·)是注意力函数:
Figure BDA0002062929230000085
Figure BDA0002062929230000086
上式中W1 T,W1,W2是需要学习的参数;
步骤213:在内部注意力机制的基础上,又进一步提出了外部注意力机制,将用户的历史轨迹数据也考虑了进来:
Figure BDA0002062929230000091
上式中
Figure BDA0002062929230000092
是用户u的历史轨迹集合;
步骤214:在实现了两个注意力机制之后,以下式计算可观察的花费函数:
Figure BDA0002062929230000093
Figure BDA0002062929230000094
在上式的基础上用负对数和来计算g函数;
Figure BDA0002062929230000095
步骤215:最后采用交叉熵来进行优化:
Figure BDA0002062929230000096
为了进一步优化上述技术方案,所述步骤二中,当前n节点到终点的费用函数h(n)构建具体步骤如下:
步骤221:使用图神经网络来建模;
N(z+1)=GNN(N(z));
上式中N(z)是一个矩阵,这个矩阵每一行都是一个节点的表示,z是第z次迭代;
步骤222:在图神经网络的基础上,引入了图注意力神经网络,并在计算注意力机制的时候考虑了移动的状态信息h(p)和位置之间的距离信息
Figure BDA0002062929230000097
注意力机制权重:
Figure BDA0002062929230000101
在这里W(·)和W2是可学习的参数;
Figure BDA0002062929230000102
将A个参数不同的注意力机制计算的结果拼接起来,W(α)是不同的注意力机制的参数;
步骤223:使用:多层感知机MLP(.)来融合所有信息;
Figure BDA0002062929230000103
h(p)是GRU输出的状态向量,
Figure BDA0002062929230000104
是li的表示向量,
Figure BDA0002062929230000105
是ld的表示向量,
Figure BDA0002062929230000106
是li和ld之间距离的表示向量;
步骤224:采用时间差分的方法,对h(n)网络进行训练。
为了进一步优化上述技术方案,所述步骤224中,对h(n)网络进行训练的具体步骤包括:
步骤2241:将用户运动的过程定义为一个马尔可夫决策过程,对于每一次位置的转移,都会得到一个奖励,:将奖励定义为如下形式:
ri=logPr(li|ls→li-1,q,u);
h(n)函数被未来奖励之和近似:
Figure BDA0002062929230000107
上式中,γ是折扣因子,T是到达终点时的时间步骤数,距离当前时间点越远,奖励就需要被打的折扣越多;
步骤2242:通过时间差分法,将时间差分学习的标签写成如下形式:
Figure BDA0002062929230000111
预测误差被写成如下形式:
Figure BDA0002062929230000112
步骤2243:对于所有用户,所有轨迹的损失函数定义成如下形式:
Figure BDA0002062929230000113
具体的训练算法和搜索算法如下:
训练算法:
输入:一个轨迹数据集D;
输出:模型参数Θ(g),Θ(h),和Θ(i)
随机初始化Θ(g),Θ(h)andΘ(i);
通过最小化
Figure BDA0002062929230000114
的Loss1预训练Θ(g)
对于D中的每一条轨迹:
使用
Figure BDA0002062929230000115
对Θ(g)和Θ(i)执行梯度下降;
对于轨迹t中的从后往前的每一个点ai+n
从轨迹t中获取动作ai+1,...,ai+n
执行ai+1,...,ai+n这n步动作;
通过ri=logPr(li|ls→li-1,q,u)获得奖励ci+1,...,ci+n
得到新的状态si+n
计算
Figure BDA0002062929230000121
使用||h(si;Θ(h))-yli||2对Θ(g)和Θ(i)执行梯度下降。
结束循环
结束循环
返回Θ(g),Θ(h),和Θ(i)
搜索算法:
输入:起点ls,终点ld,出发时间b,用户u;
输出:推荐路径ls→ld
初始化C,O,F,G
如果O非空,循环
从O中弹出一个F值最低的位置,记为l*
如果l*=ld
返回被推荐的路径
C中添加l*
对于l*的每一个邻居l′
如果l′∈C
Continue
G′←G[lc]+g(ls→l′);
如果l′<O;
O.add(l′)
如果G′≥G[l′]
Continue
G[l′]←G′
F[l′]←G[l′]+h(l′→ld)。
如图1所示,通过循环神经网络来学习轨迹点之间的转移规律,利用基于历史数据的注意力机制来帮助学习A*算法中当前的成本,最后引入了图注意力神经网络来建模A*算法中未来的成本。我们的模型相比于传统方案具有更强的建模能力,并且降低了个性化路径推荐的误差。
如图2所示,图注意力机制的可视化,用以说明我们注意力机制的有效性以及路线的合理性。另外,使用颜色来代表每个位置的表示和起终点的表示的距离和,颜色越深(红)则距离越近。可以看出来,注意力机制会有选择地考虑路网上的部分节点。
如图3所示,(a)和(b)展示了通过h网络的修正之后搜索空间的变化,(c)展示了在某一步选择中本发明的方法选择了更为合理的下一步。本发明的方法选择了h更小的选择,因为这个选择会导致的未来花费更小,如果选择了另一个选择;那么用户就相当于是绕道了,而且绕的还是更窄的路。
(1)首先,本发明提出的模型在北京出租车,波尔图出租车以及北京自行车三个数据集和四个评价指标上都显著强于其它模型。实验结果显示了本发明的模型非常适合这个任务。
(2)其次,传统的基于搜索和启发式搜索的模型在我们的实验中表现的结果很不错,然而深度方法的效果也非常好。在推荐的路径比较短的情况下,深度方法会好于基于搜索的方法,然而在推荐的路径很长的时候,基于搜索的方法效果更好。本发明的方案结合了两类方法的优点,取长补短,取得了极好的效果。
(3)最后,提出的启发式搜索方案对于长路径推荐任务的优势更大,因为本发明的方法大大减小了搜索空间,不仅提高了搜索效率,也提高了推荐的准确率和召回率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (3)

1.一种基于A星搜索和深度学习的个性化路线推荐方法,其特征在于,具体的步骤如下:
步骤一:历史轨迹数据集D,起点ls,终点ld,出发时间b和用户u作为输入,然后输入循环神经网络中;
步骤二:建模从出发点到当前n节点的费用函数ɡ(n)与当前n节点到终点的费用函数h(n);
从出发点到当前n节点的费用函数ɡ(n)构建的具体步骤如下:
步骤211:采用GRU来建模轨迹:
Figure FDA0002994290100000011
Figure FDA0002994290100000012
是GRU在第i时刻的隐状态,包含了该用户当前的移动状态,vxi是第i时刻的上下文向量;
步骤212:在引入了GRU之后,进一步引入了内部注意力机制来改进建模效果:
Figure FDA0002994290100000013
在这里
Figure FDA0002994290100000014
是通过内部注意力机制改进了之后的状态向量;att(·)是注意力函数:
Figure FDA0002994290100000015
Figure FDA0002994290100000016
上式中
Figure FDA0002994290100000017
W1,W2是需要学习的参数;
步骤213:在内部注意力机制的基础上,又进一步提出了外部注意力机制,将用户的历史轨迹数据也考虑了进来:
Figure FDA0002994290100000018
上式中
Figure FDA0002994290100000019
是用户u的历史轨迹集合;
步骤214:在实现了两个注意力机制之后,以下式计算可观察的花费函数:
Figure FDA00029942901000000110
Figure FDA00029942901000000111
在上式的基础上用负对数和来计算ɡ函数;
Figure FDA0002994290100000021
步骤215:最后采用交叉熵来进行优化
Figure FDA0002994290100000022
当前n节点到终点的费用函数h(n)构建具体步骤如下:
步骤221:使用图神经网络来建模;
N(z+1)=GNN(N(z));
上式中N(z)是一个矩阵,这个矩阵每一行都是一个节点的表示,z是第z次迭代;
步骤222:在图神经网络的基础上,引入了图注意力神经网络,并在计算注意力机制的时候考虑了移动的状态信息h(p)和位置之间的距离信息
Figure FDA0002994290100000023
注意力机制权重:
Figure FDA0002994290100000024
在这里W(·)和W2是可学习的参数;
Figure FDA0002994290100000025
将A个参数不同的注意力机制计算的结果拼接起来,W(α)是不同的注意力机制的参数;
步骤223:使用多层感知机MLP(·)来融合所有信息;
Figure FDA0002994290100000026
h(p)是GRU输出的状态向量,
Figure FDA0002994290100000027
是li的表示向量,
Figure FDA0002994290100000028
是ld的表示向量,volj,ld是li和ld之间距离的表示向量;
步骤224:采用时间差分的方法,对h(n)网络进行训练;
步骤三:寻找最优路径的过程中,每次扩展一个节点,使用f(n)来评价这个节点的得分:f(n)=g(n)+h(n),推荐个性化的最优路径轨迹p*
2.根据权利要求1所述的一种基于A星搜索和深度学习的个性化路线推荐方法,其特征在于,所述步骤一中,将离散的用户信息嵌入到一个低维向量中,用vu来表示;对于每一个位置,使用相似的方法将这个位置嵌入到一个低维向量中,用vl来表示;又引入时间信息,用vdi(bi)来表示天的向量,来vhi(bi)表示小时的向量;最后这四者拼接起来成为循环神经网络的输入:
vxi=vu||vli||vhi(bi)||vdi(bi)
3.根据权利要求1所述的一种基于A星搜索和深度学习的个性化路线推荐方法,其特征在于,所述步骤224中,对h(n)网络进行训练的具体步骤包括:
步骤2241:将用户运动的过程定义为一个马尔可夫决策过程,对于每一次位置的转移,都会得到一个奖励,将奖励定义为如下形式:
ri=logPr(li|ls→li-1,q,u);
h(n)函数被未来奖励之和近似:
Figure FDA0002994290100000031
上式中,γ是折扣因子,T是到达终点时的时间步骤数,距离当前时间点越远,奖励就需要被打的折扣越多;
步骤2242:通过时间差分法,将时间差分学习的标签写成如下形式:
Figure FDA0002994290100000032
预测误差被写成如下形式:
Figure FDA0002994290100000033
步骤2243:对于所有用户,所有轨迹的损失函数定义成如下形式:
Figure FDA0002994290100000034
CN201910411440.9A 2019-03-29 2019-05-16 一种基于a星搜索和深度学习的个性化路线推荐方法 Active CN110070239B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910251817 2019-03-29
CN2019102518179 2019-03-29

Publications (2)

Publication Number Publication Date
CN110070239A CN110070239A (zh) 2019-07-30
CN110070239B true CN110070239B (zh) 2021-05-11

Family

ID=67370918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910411440.9A Active CN110070239B (zh) 2019-03-29 2019-05-16 一种基于a星搜索和深度学习的个性化路线推荐方法

Country Status (1)

Country Link
CN (1) CN110070239B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110794832B (zh) * 2019-10-21 2021-11-09 同济大学 一种基于强化学习的移动机器人路径规划方法
CN110928993B (zh) * 2019-11-26 2023-06-30 重庆邮电大学 基于深度循环神经网络的用户位置预测方法及系统
CN111159473A (zh) * 2019-12-25 2020-05-15 天津中科智能识别产业技术研究院有限公司 一种基于深度学习与马尔科夫链的连接的推荐方法
CN111667101B (zh) * 2020-05-22 2023-12-12 武汉大学 融合高分辨率遥感影像与地形的个性化电力野外作业路径规划方法及系统
CN111832814B (zh) * 2020-07-01 2023-06-23 北京工商大学 一种基于图注意力机制的空气污染物浓度预测方法
CN112883262B (zh) * 2021-02-04 2022-04-26 西南交通大学 一种基于深度强化学习的日程安排推荐方法
CN112905891B (zh) * 2021-03-05 2021-12-10 中国科学院计算机网络信息中心 基于图神经网络的科研知识图谱人才推荐方法及装置
CN113807578B (zh) * 2021-09-01 2023-12-08 南京航空航天大学 一种基于gcn与强化学习的智能路径推荐方法
CN115017399B (zh) * 2021-11-05 2023-04-07 荣耀终端有限公司 一种网约车车型自动推荐方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308555A (zh) * 2008-06-27 2008-11-19 北京工业大学 多模式公交出行路径寻优方法
CN101488158A (zh) * 2009-02-13 2009-07-22 同济大学 一种基于道路元素的路网建模方法
CN101833699A (zh) * 2009-03-12 2010-09-15 北京博懋易通科技有限公司 一种用于船舶航线设计的启发式航段寻径方法
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107702706A (zh) * 2017-09-20 2018-02-16 广东欧珀移动通信有限公司 路径确定方法、装置、存储介质及移动终端
CN109409499A (zh) * 2018-09-20 2019-03-01 北京航空航天大学 一种基于深度学习和卡尔曼滤波修正的轨迹恢复方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308555A (zh) * 2008-06-27 2008-11-19 北京工业大学 多模式公交出行路径寻优方法
CN101488158A (zh) * 2009-02-13 2009-07-22 同济大学 一种基于道路元素的路网建模方法
CN101833699A (zh) * 2009-03-12 2010-09-15 北京博懋易通科技有限公司 一种用于船舶航线设计的启发式航段寻径方法
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107702706A (zh) * 2017-09-20 2018-02-16 广东欧珀移动通信有限公司 路径确定方法、装置、存储介质及移动终端
CN109409499A (zh) * 2018-09-20 2019-03-01 北京航空航天大学 一种基于深度学习和卡尔曼滤波修正的轨迹恢复方法

Also Published As

Publication number Publication date
CN110070239A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN110070239B (zh) 一种基于a星搜索和深度学习的个性化路线推荐方法
CN110119467B (zh) 一种基于会话的项目推荐方法、装置、设备及存储介质
CN110490717B (zh) 基于用户会话及图卷积神经网络的商品推荐方法及系统
US10497122B2 (en) Image crop suggestion and evaluation using deep-learning
CN108268441B (zh) 句子相似度计算方法和装置及系统
CN109754317B (zh) 融合评论的可解释性服装推荐方法、系统、设备及介质
Zhang et al. Language-guided navigation via cross-modal grounding and alternate adversarial learning
KR102203252B1 (ko) 생성적 적대 신경망에 기반한 협업 필터링을 위한 방법 및 시스템
CN104199818A (zh) 一种基于分类的社会化推荐方法
CN108921657A (zh) 一种基于知识增强记忆网络的序列推荐方法
CN114139637B (zh) 多智能体信息融合方法、装置、电子设备及可读存储介质
Zhang et al. Human‐Like Interactive Behavior Generation for Autonomous Vehicles: A Bayesian Game‐Theoretic Approach with Turing Test
CN111737826B (zh) 一种基于增强学习的轨道交通自动仿真建模方法及装置
CN114519433A (zh) 多智能体强化学习、策略执行方法及计算机设备
CN117035074B (zh) 基于反馈强化的多模态知识生成方法及装置
Dieter et al. Integrating driver behavior into last-mile delivery routing: Combining machine learning and optimization in a hybrid decision support framework
Wang et al. Beyond exponentially discounted sum: Automatic learning of return function
Huang et al. Unified curiosity-driven learning with smoothed intrinsic reward estimation
CN116208399A (zh) 一种基于元图的网络恶意行为检测方法及设备
Sun et al. Tcsa-net: a temporal-context-based self-attention network for next location prediction
CN114528490A (zh) 一种基于用户长短期兴趣的自监督序列推荐方法
CN115146844A (zh) 一种基于多任务学习的多模式交通短时客流协同预测方法
Nikookar et al. Guided task planning under complex constraints
CN113901788A (zh) 语句中方面词对应的观点词抽取方法及电子设备
Xu et al. Shared dynamics learning for large-scale traveling salesman problem

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant