CN109977283B

CN109977283B - 一种基于知识图谱和用户足迹的旅游推荐方法和系统

Info

Publication number: CN109977283B
Application number: CN201910192705.0A
Authority: CN
Inventors: 石晓文; 蒋洪迅
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2021-03-05
Anticipated expiration: 2039-03-14
Also published as: CN109977283A

Abstract

本发明涉及一种基于知识图谱和用户足迹的旅游推荐方法和系统，其特征在于包括以下步骤：(1)从旅游网站上抓取旅游景点信息，并构建旅游景点的知识图谱；(2)从旅游网站中抓取用户评论和游记信息，并根据抓取的数据构建用户足迹数据；(3)使用基于知识图谱的深度兴趣进化网络对旅游景点进行推荐；(4)基于深度学习模型Pointer‑Network对得到的推荐旅游景点进行旅游路径规划，得到完整的推荐旅游推荐线路。本发明可以广泛应用于旅游应用领域。

Description

一种基于知识图谱和用户足迹的旅游推荐方法和系统

技术领域

本发明涉及旅游应用领域，特别是涉及一种基于知识图谱和用户足迹的旅游推荐方法和系统。

背景技术

随着国民经济的快速发展，人们生活水平提高，旅游作为放松心情、拓宽视野的极好途径，越来越受到人们的喜爱。同时，随着互联网的普及，各色各样的旅游网站不断涌现。用户对于旅游网站的青睐主要有两方面，一是旅游前通过网站提供的景点介绍以及用户上传的游记了解目的地的景点，并从中找到自己感兴趣的景点。二是旅游后撰写旅游游记和心得，与其他用户进行分享。但随着网站中注册用户的不断增正，“信息过载”也逐渐成为这些网站面临的问题。对用户来说，获得自己真正感兴趣的游记或者景点也越来越困难。因此从海量数据中，对用户的个人需求、兴趣偏好进行深度挖掘，预测出真正符合用户兴趣的旅游景点和线路，提供更加个性化服务，成为旅游网站进一步吸引和留住用户的关键。

一个完整的旅游推荐过程，首先要挖掘用户可能感兴趣的景点，随后需要根据用户的时间、金钱等约束，进行合理的线路规划。对于景点推荐，过往研究中主要的方法有协同过滤、基于内容的推荐方法和基于社交网络的推荐方法。这些方法其基本思想都是计算用户之间或者景点之间的相似度，随后根据相似用户或相似景点进行推荐。这些方法大都使用单一数据源，如用户的评分数据、社交网站数据，使用这些数据进行推荐时没有结合到景点本身的信息。同时难以对用户不断变化的兴趣进行刻画，因此推荐的效果存在一定的局限性。对于路径规划，一般将其视为旅行供货商问题，大都采用启发式算法如遗传算法、蚁群算法进行求解，虽然上述方法可以得到不错的规划结果，但是针对不同的景点组合，其都需要进行一次重新的进化和迭代，所需的计算时间和计算资源难以达到要求。

发明内容

针对上述问题，本发明的目的是提供一种基于知识图谱和用户足迹的旅游推荐方法和系统，该方法可以充分利用景点信息和用户过往游玩经历对挖掘用户的兴趣变化，并进行合理的景点推荐；同时，在保证路径规划准确性的同时，可以大大减小模型的响应时间和所需的计算资源。

为实现上述目的，本发明采取以下技术方案：一种基于知识图谱和用户足迹的旅游推荐方法，其包括以下步骤：(1)从旅游网站上抓取旅游景点信息，并构建旅游景点的知识图谱；(2)从旅游网站上抓取用户评论和游记信息，并根据抓取的数据构建用户历史足迹数据序列；(3)以用户的历史足迹数据序列为基础，使用基于知识图谱的深度兴趣进化网络为用户进行旅游景点推荐；(4)对得到的推荐旅游景点进行旅游路径规划，得到完整的旅游推荐线路。

进一步的，所述步骤(1)中，从旅游网站上抓取旅游景点信息，并构建旅游景点的知识图谱的方法，包括以下步骤：(1.1)从旅游网站景点抓取景点数据，所述景点数据包括景点的基本信息、位置信息和评论信息三类；(1.2)对抓取的景点数据进行整理，形成景点知识图谱；其中，所述景点的基本信息和评论信息采用(实体，属性，属性值)三元组形式描述，所述景点的位置信息采用(实体，关系，实体)三元组形式描述。

进一步的，所述步骤(2)中，从旅游网站上抓取用户评论和游记信息，并根据抓取的数据构建用户足迹数据的方法，包括以下步骤：(2.1)从旅游网站中抓取用户的评论和游记信息；(2.2)采用字符串匹配方式，从抓取的用户评论和游记信息中，提取景点数据；(2.3)按照时间和地点对从游记和评论信息中抽取出的景点进行排序，得到用户的历史足迹数据序列。

进一步的，所述步骤(3)中，以用户的历史足迹数据序列为基础，使用基于知识图谱的深度兴趣进化网络为用户进行旅游景点推荐的方法，包括以下步骤：(3.1)根据用户选择的旅游目的地，从构建的知识图谱中筛选得到目标景点候选集，进而得到各目标景点的向量表示；(3.2)对用户历史足迹数据序列进行处理，得到用户历史足迹数据序列中每个景点对应的单景点兴趣向量；(3.3)分别计算中各目标景点的向量表示与步骤(3.2)中用户历史足迹数据序列中各单景点兴趣向量的相似度；(3.4)将计算得出的相似度作为权重，对各单景点兴趣向量进行加权求和，得到用户的综合兴趣向量；(3.5)将目标景点向量和综合兴趣向量进行横向拼接，并经过全连接神经网络得到最终的预测分数；(3.6)根据计算得到的预测分数进行排序，得到前n个预测分数较高的目标景点作为推荐景点。

进一步的，所述步骤(3.3)中，分别计算步骤(3.1)中目标景点的向量表示与步骤(3.2)中对应表示各用户足迹的输出向量的相似度的方法为：首先，对单景点对应的兴趣向量和目标景点向量进行对位相减，得到差值向量；其次，将单景点对应的兴趣向量、目标景点向量和差值向量进行横向拼接，作为全连接神经网络的输入；最终，通过全连接神经网络得到目标景点与各单景点兴趣向量的相似度值。

进一步的，所述步骤(4)中，对得到的推荐旅游景点进行旅游路径规划，得到完整的推荐旅游推荐线路的方法，包括以下步骤：首先，使用Pointer-Network深度学习模型对推荐景点进行路径规划；其次，对于得到的线路，根据时间段进行拆分，从而得到完整的推荐线路。

本发明的另一个方面，是提供一种基于知识图谱和用户足迹的旅游推荐系统，其包括：知识图谱构建模块，用于从旅游网站上抓取旅游景点信息，并构建旅游景点的知识图谱；用户足迹构建模块，用于从旅游网站上抓取用户的游记和评论信息，并构建用户历史足迹数据；景点推荐模块，用于根据预先建立的深度兴趣进化网络以及用户历史足迹数据，从基于知识图谱的数据库中，推荐符合用户兴趣点的旅游景点；路径规划模块，用于基于深度学习模型Pointer-Network对得到的推荐旅游景点进行旅游路径规划，得到完整的推荐旅游推荐线路。

进一步的，所述深度兴趣进化网络包括嵌入层模块、循环神经网络模块、注意力机制模块、加权求和模块、横向拼接模块模块和全连接神经网络模块；所述嵌入层模块用于将用户历史足迹数据序列和用户选择的旅游目的地的目标景点转换为向量，得到目标景点向量；所述循环神经网络模块用于对各用户历史足迹数据序列向量进行计算，得到用户历史足迹序列中每个景点对应的单景点兴趣向量；所述注意力机制模块用于计算用户历史足迹序列中每个单景点兴趣向量与用户目标景点的向量表示的相似度；所述加权求和模块使用所述注意力机制模块得到的相似度作为权重，对所述循环神经网络模块得到的单景点兴趣向量进行加权求和，得到用户的综合兴趣向量；所述横向拼接模块用于将用户的综合兴趣向量、目标景点向量以及二者对位相减得到的向量进行拼接；所述全连接神经网络模块以所述横向拼接模块得到的向量作为输入，通过多层神经网络对向量进行线性变换，得到用户对于目标景点的预测分数。

本发明由于采取以上技术方案，其具有以下优点：1、本发明通过对景点信息和评论信息的收集和整理，构建了景点的知识图谱；将知识图谱应用于深度学习模型中，完善了模型对于景点和用户兴趣的刻画，提升了模型的表征能力。2、本发明结合用户的历史足迹以及构建的景点知识图谱，通过深度兴趣进化网络进行景点推荐，提升了推荐效果的准确性；3、本发明使用深度学习方法Pointer-Network进行多目标约束条件下的路径规划，提升了稳定性和计算效率。因此，本发明可以广泛应用于旅游应用领域。

附图说明

图1是本发明基于知识图谱和用户历史足迹的旅游推荐方法流程图；

图2是本发明对某一景点信息的知识图谱；

图3是本发明从旅游网站上抓取的游客游记信息示意图；

图4是本发明深度兴趣进化网络；

图5是本发明嵌入层模块的内部结构；

图6是本发明注意力机制模块的内部结构；

图7是Pointer-Network模型结构示意图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

为解决过往景点推荐方法数据源单一、动态兴趣无法刻画以及过往路径规划方法计算复杂等问题，本发明通过构建景点知识图谱来刻画景点信息、通过循环网络结构来刻画用户动态变化的兴趣，同时通过深度学习方法Pointer-Network模型来进行路径规划。下面结合实例对本发明进行详细的描述。

如图1所示，本发明提供的一种基于知识图谱和用户足迹的旅游推荐方法，其包括以下步骤：

(1)从旅游网站上抓取旅游景点信息，并构建旅游景点的知识图谱。

具体的，包括以下步骤：

(1.1)从旅游网站上抓取景点数据。

抓取的景点数据包括三类：一是景点的基本信息，包括景点的名称、介绍、类型、门票价格、开放时间、淡季旺季等；二是景点的位置信息，包含景点的坐标、相邻的景点的位置及距离等等；三是景点的评论信息，景点的评论信息是根据用户评论得到的景点评论标签。从旅游网站上抓取数据时，可以使用Python中的Scrapy和Selenium库进行抓取，抓取时首先对所需内容所在的网页元素进行定位，随后从网页元素中抽取相关信息。抓取方法为现有技术，本发明在此不再赘述。

(1.2)对抓取的景点数据进行整理，形成景点知识图谱。

本发明中形成的景点知识图谱中的三元组主要有两种形式，分别是(实体，关系，实体)和(实体，属性，属性值)。根据上述所获的景点信息，本发明采用(实体，属性，属性值)三元组形式来描述景点的基本信息和评论信息，如(故宫，游玩时间，3小时)，(故宫，开放时间，8:30)等等；采用(实体，关系，实体)三元组形式对景点的位置信息进行描述，如(故宫，附近景点，景山公园)等。

如图2所示，为从构建好的景点知识图谱，抽取出故宫这一景点的知识图谱信息，从图中可以看出，该知识图谱能够对故宫这一景点的信息进行充分刻画。

(2)从旅游网站上抓取用户的评论和游记信息，并根据抓取的数据构建用户历史足迹数据序列。具体的，包括以下步骤：

(2.1)从旅游网站上抓取用户的评论和游记信息。

(2.2)采用字符串匹配方式，从抓取的用户的评论和游记信息中，提取景点数据。

构建用户历史足迹主要通过两个方面，一是通过用户游记中抽取用户提到的景点，二是基于用户评论过的景点。从用户游记中提取景点，主要采用字符串匹配的方式.如图3所示的用户游记，通过字符串匹配的方式，可以从该游记中提取出相关景点。

(2.3)按照时间和地点对从用户评论和游记信息中抽取出的景点进行排序，得到用户的历史足迹数据序列。

(3)如图4所示，以用户的历史足迹数据序列为基础，使用基于知识图谱的深度兴趣进化网络(Knowledge Graph Based Deep Interest Evaluation Network,KG-DIEN)为用户进行旅游景点推荐。

基于用户选择的旅游目的地，首先从数据库中找到景点的候选集，对于景点候选集中的每个景点，会预测用户对于该景点的感兴趣程度，并依据感兴趣程度的高低进行排序，把用户最感兴趣的前n个景点推荐给他。具体的，包括以下步骤：

(3.1)根据用户选择的旅游目的地，从构建的景点知识图谱中筛选得到目标景点候选集，进而得到各目标景点的向量表示。

具体的，包括以下步骤：

(3.1.1)根据用户选择的旅游目的地，确定对知识图谱进行筛选的输入数据，得到目标景点候选集。

由于本发明中景点信息使用知识图谱来刻画，但并不是知识图谱中的所有信息都要作为输入，比如景点的开放时间、地理位置等可以不考虑。经过筛选，本发明选取知识图谱中景点名称、景点简介、门票价格、相邻景点、景点类别标签、景点评论标签作为输入信息。

(3.1.2)如图5所示，对目标景点候选集中的数据进行数值化和归一化处理，得到目标景点的向量表示。

首先，根据目标景点候选集中的数据的不同性质，将其分为两类：一是景点简介，二是景点名称、门票价格、相邻景点、景点类别标签和景点评论标签；

其次，采用LDA(文档主题模型)方法将景点简介转换为对应的向量；

然后，对景点名称、门票价格、相邻景点、景点类别标签和景点评论标签数据进行数值化和归一化，并将其转化为对应的向量；其中，景点门票价格已经是数值，只需要进行归一化处理即可；景点名称、相邻景点、景点类别标签和景点评论标签在转化为对应的id(标号)之后，再转化为向量。其中，将景点名称、相邻景点、景点类别标签和景点评论标签数据转换为id和向量为已有技术，本发明在此不再赘述。

最后，将景点简介对应的向量以及景点名称、门票价格、相邻景点、景点类别标签和景点评论标签对应的各向量进行横向拼接，得到目标景点候选集中各目标景点的向量表示。

(3.2)对步骤2)得到的用户历史足迹数据进行处理，得到用于表示用户兴趣的单景点对应的兴趣向量。

由于用户的历史足迹形成一个序列，是有先后顺序的，这个顺序也代表了用户兴趣的动态变化过程，因此本发明采用循环神经网络来对用户的足迹数据进行处理。将用户的足迹数据转换为单景点兴趣向量，即一个景点对应一个兴趣，用向量表示。

(3.3)分别计算步骤(3.1)中各目标景点的向量表示与步骤(3.2)中用户的各单景点兴趣向量的相似度。

决定一个目标景点用户是否选择的一个很关键的因素是该景点是否符合用户的兴趣，而用户对于景点的兴趣可能是多种多样的，可能同时喜欢多种类型的景点。也就是说，用户足迹中的景点会对用户是否选择目标景点产生不同程度的影响。这种不同程度的影响，我们使用注意力机制来处理，即计算目标景点与用户足迹中每个景点所代表兴趣的相关性。

如图6所示，计算相似度的具体过程为：首先，对单景点对应的兴趣向量和目标景点向量进行对位相减，得到差值向量；其次，将单景点对应的兴趣向量、目标景点向量和差值向量进行横向拼接，作为全连接神经网络的输入；最终，通过全连接神经网络得到目标景点与各单景点兴趣向量的相似度值。

(3.4)将计算得出的相似度作为权重，对各单景点兴趣向量进行加权求和，得到用户的综合兴趣向量。

(3.5)将目标景点向量和综合兴趣向量进行横向拼接，并经过全连接神经网络得到最终的预测分数，该预测分数代表用户喜欢该景点的概率。其中，全连接神经网络为已有模型，本发明在此不再赘述。

(3.6)根据计算得到的预测分数进行排序，得到前n个预测分数较高的目标景点作为推荐景点。

(4)基于深度学习模型Pointer-Network对得到的推荐旅游景点进行旅游路径规划，得到完整的旅游推荐线路。

对于步骤(3)中给出的推荐景点，为了节约用户在景点间行程花费时间最少，需要规划一条合理的路线。本发明将其视作旅行供货商问题进行求解。首先，为了使我们的推荐系统能够实现高并发及快速响应，使用Pointer-Network这一深度学习模型来进行路径规划。其次，对于得到的线路，根据时间段进行拆分，从而得到完整的推荐线路。根据时间段进行拆分时，主要根据景点的开放时间以及建议游玩时间进行拆分，例如假设当前时间是16点，下一个景点是圆明园，圆明园需要玩3个小时，但是17点就关门了，所以这个景点就被划作第二天玩的第一个景点。

如图7所示，为Pointer-Network模型的模型结构图，Pointer-Network模型是一种Seq2Seq模型，依次输入n个地点的坐标，该模型就可以给出最优的游玩顺序。如输入5个地点的坐标，模型给出的最优顺序是4-》5-》2-》1-》3。其中，Pointer-Network模型是已有的模型，本发明在此不再赘述。

本发明还提供一种基于知识图谱和用户足迹的旅游推荐系统，其包括：知识图谱构建模块，用户足迹构建模块，景点推荐模块和路径规划模块。其中，知识图谱构建模块用于从旅游网站上抓取旅游景点信息，并构建旅游景点的知识图谱；用户足迹构建模块用于从旅游网站上抓取用户的游记和评论信息，并构建用户历史足迹数据；景点推荐模块用于根据预先建立的深度兴趣进化网络以及用户历史足迹数据，从基于知识图谱的数据库中，推荐符合用户兴趣点的旅游景点；路径规划模块用于基于深度学习模型Pointer-Network对得到的推荐旅游景点进行旅游路径规划，得到完整的推荐旅游推荐线路。

如图4所示，深度兴趣进化网络包括嵌入层模块、循环神经网络模块(循环神经网络选择使用GRU单元)、注意力机制模块、加权求和模块、横向拼接模块模块和全连接神经网络模块。其中，嵌入层模块用于将用户历史足迹数据序列和用户选择的旅游目的地的目标景点转换为向量表示；循环神经网络模块用于对各用户历史足迹数据序列向量进行计算，得到用户历史足迹序列中每个景点对应的单景点兴趣向量；注意力机制模块用于计算用户历史足迹序列中每个单景点兴趣向量与用户目标景点的向量表示的相似度；加权求和模块使用注意力机制模块得到的相似度作为权重，对循环神经网络模块得到的单景点兴趣向量进行加权求和，得到用户的综合兴趣向量；横向拼接模块用于将用户的综合兴趣向量、目标景点向量以及二者对位相减得到的向量进行拼接；全连接神经网络模块以横向拼接模块得到的向量作为输入，通过多层神经网络对向量进行线性变换，得到用户对于目标景点的预测喜好程度。

上述各实施例仅用于说明本发明，其中各部件的结构、连接方式和制作工艺等都是可以有所变化的，凡是在本发明技术方案的基础上进行的等同变换和改进，均不应排除在本发明的保护范围之外。

Claims

1.一种基于知识图谱和用户足迹的旅游推荐方法，其特征在于包括以下步骤：

(1)从旅游网站上抓取旅游景点信息，并构建旅游景点的知识图谱；

(2)从旅游网站上抓取用户评论和游记信息，并根据抓取的数据构建用户历史足迹数据序列；

(3)以用户的历史足迹数据序列为基础，使用基于知识图谱的深度兴趣进化网络为用户进行旅游景点推荐；

所述步骤(3)中，以用户的历史足迹数据序列为基础，使用基于知识图谱的深度兴趣进化网络为用户进行旅游景点推荐的方法，包括以下步骤：

(3.1)根据用户选择的旅游目的地，从构建的知识图谱中筛选得到目标景点候选集，进而得到各目标景点的向量表示；

(3.2)对用户历史足迹数据序列进行处理，得到用户历史足迹数据序列中每个景点对应的单景点兴趣向量；

(3.3)分别计算中各目标景点的向量表示与步骤(3.2)中用户历史足迹数据序列中各单景点兴趣向量的相似度；

(3.4)将计算得出的相似度作为权重，对各单景点兴趣向量进行加权求和，得到用户的综合兴趣向量；

(3.5)将目标景点向量和综合兴趣向量进行横向拼接，并经过全连接神经网络得到最终的预测分数；

(3.6)根据计算得到的预测分数进行排序，得到前n个预测分数较高的目标景点作为推荐景点；

(4)对得到的推荐旅游景点进行旅游路径规划，得到完整的旅游推荐线路。

2.如权利要求1所述的一种基于知识图谱和用户足迹的旅游推荐方法，其特征在于：所述步骤(1)中，从旅游网站上抓取旅游景点信息，并构建旅游景点的知识图谱的方法，包括以下步骤：

(1.1)从旅游网站景点抓取景点数据，所述景点数据包括景点的基本信息、位置信息和评论信息三类；

(1.2)对抓取的景点数据进行整理，形成景点知识图谱；

其中，所述景点的基本信息和评论信息采用(实体，属性，属性值)三元组形式描述，所述景点的位置信息采用(实体，关系，实体)三元组形式描述。

3.如权利要求1所述的一种基于知识图谱和用户足迹的旅游推荐方法，其特征在于：所述步骤(2)中，从旅游网站上抓取用户评论和游记信息，并根据抓取的数据构建用户足迹数据的方法，包括以下步骤：

(2.1)从旅游网站中抓取用户的评论和游记信息；

(2.2)采用字符串匹配方式，从抓取的用户评论和游记信息中，提取景点数据；

(2.3)按照时间和地点对从游记和评论信息中抽取出的景点进行排序，得到用户的历史足迹数据序列。

4.如权利要求1所述的一种基于知识图谱和用户足迹的旅游推荐方法，其特征在于：所述步骤(3.3)中，分别计算步骤(3.1)中目标景点的向量表示与步骤(3.2)中对应表示各用户足迹的输出向量的相似度的方法为：

首先，对单景点对应的兴趣向量和目标景点向量进行对位相减，得到差值向量；

其次，将单景点对应的兴趣向量、目标景点向量和差值向量进行横向拼接，作为全连接神经网络的输入；

最终，通过全连接神经网络得到目标景点与各单景点兴趣向量的相似度值。

5.如权利要求1所述的一种基于知识图谱和用户足迹的旅游推荐方法，其特征在于：所述步骤(4)中，对得到的推荐旅游景点进行旅游路径规划，得到完整的推荐旅游推荐线路的方法，包括以下步骤：

首先，使用Pointer-Network深度学习模型对推荐景点进行路径规划；

其次，对于得到的线路，根据时间段进行拆分，从而得到完整的推荐线路。

6.一种适用于如权利要求1～5任一项所述方法的基于知识图谱和用户足迹的旅游推荐系统，其特征在于：其包括：

知识图谱构建模块，用于从旅游网站上抓取旅游景点信息，并构建旅游景点的知识图谱；

用户足迹构建模块，用于从旅游网站上抓取用户的游记和评论信息，并构建用户历史足迹数据；

景点推荐模块，用于根据预先建立的深度兴趣进化网络以及用户历史足迹数据，从基于知识图谱的数据库中，推荐符合用户兴趣点的旅游景点；

路径规划模块，用于基于深度学习模型Pointer-Network对得到的推荐旅游景点进行旅游路径规划，得到完整的推荐旅游推荐线路。

7.如权利要求6所述的一种基于知识图谱和用户足迹的旅游推荐系统，其特征在于：所述深度兴趣进化网络包括嵌入层模块、循环神经网络模块、注意力机制模块、加权求和模块、横向拼接模块模块和全连接神经网络模块；

所述嵌入层模块用于将用户历史足迹数据序列和用户选择的旅游目的地的目标景点转换为向量，得到目标景点向量；

所述循环神经网络模块用于对各用户历史足迹数据序列向量进行计算，得到用户历史足迹序列中每个景点对应的单景点兴趣向量；

所述注意力机制模块用于计算用户历史足迹序列中每个单景点兴趣向量与用户目标景点的向量表示的相似度；

所述加权求和模块使用所述注意力机制模块得到的相似度作为权重，对所述循环神经网络模块得到的单景点兴趣向量进行加权求和，得到用户的综合兴趣向量；

所述横向拼接模块用于将用户的综合兴趣向量、目标景点向量以及二者对位相减得到的向量进行拼接；

所述全连接神经网络模块以所述横向拼接模块得到的向量作为输入，通过多层神经网络对向量进行线性变换，得到用户对于目标景点的预测分数。