CN112182398A

CN112182398A - 考虑用户的长期偏好与短期偏好的景点推荐方法和系统

Info

Publication number: CN112182398A
Application number: CN202011087437.5A
Authority: CN
Inventors: 孙玉; 叶凡; 陈崇成
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-01-05
Anticipated expiration: 2040-10-13
Also published as: CN112182398B

Abstract

本发明提出一种考虑用户的长期偏好与短期偏好的景点推荐方法和系统，利用注意力机制关注整个序列行为中的重要信息，得到长期偏好；BiLSTM学习短期序列中的顺序信息，得到短期偏好；同时考虑长短期偏好为游客动态推荐下一个景点，提高推荐结果的准确度。其避免了数据稀疏和独立假设问题，同时进一步解决目前景点推荐方法中推荐精度不高和推荐结果个性化程度低等问题。该方法考虑了景点之间的关联性，且同时考虑游客长短期偏好，可有效为游客偏好建模，使得推荐性能得以提升。

Description

考虑用户的长期偏好与短期偏好的景点推荐方法和系统

技术领域

本发明属于信息学、数据处理与推送领域，尤其涉及一种考虑用户的长期偏好与短期偏好的景点推荐方法和系统。

背景技术

近年来，随着移动设备和基于位置的社交网络(LBSN)服务的快速增长，照片分享网站(如：Instagram、Flickr等)用户量日益增加，已共享的照片数据集达到PB级，其中约40％的照片带有地理位置信息。这些地理标记照片隐式地记录了游客的位置信息，可重建游客旅游轨迹，挖掘游客行为偏好，为游客提供高时效性、高个性化的旅游景点推荐服务创造了可行性条件。

目前，旅游景点推荐方法通常是基于协同过滤或基于内容的方法，推荐系统在建立用户-景点矩阵会出现数据稀疏问题；基于马尔科夫模型的方法通过观察用户的行为数据生成状态转移矩阵，可根据该矩阵预测用户下一行为，可有效利用用户的短期偏好信息，但此类方法具有很强的假设性，无法为用户复杂的序列行为进行有效建模。此外，用户的旅行偏好可能会随着时间发生变化，而现有的方法推荐方法大多未同时考虑用户的长期偏好与短期偏好，或仅将用户的最近一次访问作为用户的短期偏好，会降低推荐的准确度。如何构建一个充分考虑用户偏好动态变化的个性化景点推荐方法满足用户需求是目前旅游推荐服务中亟需解决的问题。

此外，景点的特征信息是反映用户旅行偏好和景点之间相似性的重要信息，在推荐过程中没有考虑景点特征信息会导致推荐准确度和推荐结果个性化程度不高的问题。

发明内容

为了填补现有技术的空白，本发明提出一种考虑用户的长期偏好与短期偏好的景点推荐方法和系统，或者说基于主题模型和用户偏好的个性化景点推荐方案。本发明首先利用Flickr API等工具获取旅游城市范围内的地理标记照片数据集；使用主题模型挖掘景点的主题特征信息，获得游客的兴趣分布；将每个游客的历史游览景点序列进行编码转换得到游客和景点序列信息的低维稠密向量；将长期序列作为注意力层的输入进行训练，学习每个景点对不同游客的重要程度，将短期序列作为BiLSTM层的输入进行训练，学习景点的序列信息，获得游客的长期偏好和短期偏好，结合长短期偏好为游客推荐合适的旅游景点。避免了数据稀疏和独立假设问题，同时进一步解决目前景点推荐方法中推荐精度不高和推荐结果个性化程度低等问题。该方法考虑了景点之间的关联性，且同时考虑游客长短期偏好，可有效为游客偏好建模，使得推荐性能得以提升。

本发明具体采用以下技术方案：

一种考虑用户的长期偏好与短期偏好的景点推荐方法，其特征在于，包括以下步骤：

步骤S21：将游客历史游览景点序列作为长期序列，最近m个景点序列作为短期序列；

步骤S22：将景点序列及景点的主题特征信息输入嵌入层进行编码转换为低维稠密向量；

步骤S23：将长期序列对应的低维稠密向量输入注意力层，学习每个景点对不同游客的权重，将权重与景点序列及景点的主题特征信息构成的向量相乘后累加得到游客的长期偏好；

步骤S24：将短期序列对应的低维稠密向量输入BiLSTM网络训练获得游客的短期偏好；

步骤S25：将游客的长期偏好和短期偏好进行加权融合得到游客的最终偏好，计算并输出每个景点游客下一次访问的概率，按概率由高到低生成推荐列表。

优选地，所述景点序列和景点的主题特征信息通过以下步骤获得：

步骤S11：获取地理标记照片数据集，包括：照片的ID、用户名、经纬度、拍摄时间及标签文本；

步骤S12：对所述地理标记照片数据集进行预处理；

步骤S13：利用基于游客密度的聚类算法识别旅游热点区域得到景点集合V；

步骤S14：将旅游热点区域以内的数据按时间排序重建游客旅游轨迹，获取游客的游览景点序列。

步骤S15：利用LDA主题模型根据景点区域内的照片标签文本提取景点的主题特征信息，得到景点的主题数据集T。

优选地，步骤S12：对所述地理标记照片数据集进行预处理具体包括：

步骤S121：用户名、经纬度以及拍摄时间都相同的数据仅保留一条；

步骤S122：利用基于熵的流动性方法滤除非游客数据：

步骤S123：删除用户名和拍摄时间相同但经纬度不同的数据；

在步骤S14之后，对景点序列进行滤除，具体步骤如下：

步骤S141：过滤景点序列长度为1的数据；s

步骤S142：同一游客的景点序列中景点之间时间间隔若超过七天，将其视为两次旅游数据。

优选地，在步骤S11中，所述地理标记照片数据集通过Flickr网站提供的API爬取获得；

在步骤S13中，所述聚类算法为P-DBSCAN；

在步骤S15中，采用Gibbs采样算法实现LDA，并通过计算主题的一致性确定最优的主题数量。

优选地，步骤S122：利用基于熵的流动性方法滤除非游客数据具体包括：

步骤S122A：对所述地理标记照片数据集进行标注，区分旅游数据与非旅游数据；

步骤S122B：按照片拍摄时间的统计每个用户不同月份的照片数量，第i个月的照片数量表示为D_i(u),用户u在旅游城市中拍摄照片的月份数量表示为Mon(u)，根据信息熵的原理计算熵值E_(u)，计算公式如下：

步骤S122C：采用阈值E_threshold区分居民和游客,如果E_(u)＞E_threshold，则将用户u视为居民；反之，将用户u视为游客；假设用户一年的照片分布在n个月，根据公式计算不同n时的E_(u)，选择准确率最高的阈值作为区分游客和居民的条件，并对整个数据集进行分类，删除非旅游数据；

在步骤S15中，通过计算主题的一致性确定最优的主题数量具体包括：

其中，C_t表示主题的一致性，|K|表示景点主题的数量，m表示景点主题c中频率最高单词的数量，D(c，w_i)表示包含词w_i的文档数量，D(c，w_i，w_j)表示同时包含词w_i和词w_j的文档数量；

将Ct取最大值时作为最佳阈值，并建立景点的主题数据集T。

优选地，步骤S22的计算过程为：

其中，W_a，W_t是权重矩阵，b表示偏置向量；

是景点v_i的向量表示，

是主题t_i的向量表示，φ是ReLU激活函数；

步骤S23的计算过程为：

其中，u^T是用户的隐藏向量，o_i表示第i个景点的权重。p_l表示游客u的长期偏好；

步骤S24中所述BiLSTM层包括正向LSTM和反向LSTM，其中，正向LSTM的计算过程为：

i＝σ(W_ix_t+U_ih_t-1)

f＝σ(W_fx_t+U_fh_t-1)

o＝σ(W_ox_t+U_oh_t-1)

g＝tanh(W_gx_t+U_gh_t-1)

s_t＝f⊙s_t-1+i⊙g

h_t＝o⊙tanh(s_t)

其中，i用于控制是否更新当前输入的信息，f用于控制是否遗忘记忆中的信息，o用于控制是否将记忆中的信息给输出，σ表示sigmoid函数，tanh表示双曲正切函数，W_i、U_i表示输入门权重矩阵，W_f、U_f表示遗忘门权重矩阵，W_o、U_o表示输出门权重矩阵，W_g、U_g表示更新门权重矩阵，x_t表示输入的序列，g表示新的候选值向量，h_t-1表示上一时刻的输出，s_t-1表示上一时刻的状态，s_t表示当前时刻的状态，h_t表示当前时刻的输出，⊙表示哈达玛积；

反向LSTM的计算过程与前向的类似，区别在于输入的景点序列是反向的。将正向LSTM的输出h_t与反向LSTM的输出h_b进行拼接，获得游客短期偏好p_s:

其中，

表示连接操作；

在步骤S25中，将经过注意力层和BiLSTM层训练后的数据输入融合层进行合并：

其中，W是控制游客长期偏好和短期偏好的权重，p_h表示游客的最终偏好；

对于候选景点的评分函数，将游客的最终偏好向量与候选景点向量进行点积操作，再利用softmax函数进行归一化，计算每个景点下一次访问的概率计算如下：

其中，v_i表示候选景点向量，

表示游客的最终偏好，

表示候选景点的评分向量。

最后，按概率从高到低对景点进行排序，将前K个景点推荐给用户。

以及，一种考虑用户的长期偏好与短期偏好的景点推荐系统，其特征在于，包括：

处理模块，用于获取游客的历史游览景点序列和景点对应的主题特征信息，将景点序列处理为长期景点序列和短期景点序列；

计算模块，用于利用嵌入层将景点序列及景点对应的主题特征信息转化为低维稠密向量，再将游客的长期序列输入注意力层、游客的短期序列输入BiLSTM网络，将经过注意力层和BiLSTM层训练后的数据输入全连接层进行合并，得到游客当前的旅游偏好；

推荐模块，用于计算每个景点下一次访问的概率，按概率从高到低对景点进行排序，将前K个景点生成最终的推荐列表推荐给用户。

优选地，所述处理模块将游客历史游览景点序列作为长期序列，最近m个景点序列作为短期序列。

优选地，所述处理模块通过Flickr网站提供的API爬取获得地理标记照片数据集，利用基于游客密度的聚类算法识别旅游热点区域得到景点集合，将旅游热点区域以内的数据按时间排序重建游客旅游轨迹，获取游客的游览景点序列，利用LDA主题模型根据景点区域内的照片标签文本提取景点的主题特征信息，得到景点的主题数据集。

与现有技术相比，本发明及其优选方案有如下有益效果：

(1)目前的景点推荐方法仅对游客的序列信息建模，忽略了景点之间的相关性，本发明利用主题模型挖掘景点的特征信息，能进一步为游客旅行偏好建模；

(2)在基于深度学习的推荐方法中大多只考虑用户的长期偏好，或考虑长短期偏好但仅将用户的最近一次序列行为作为短期偏好。本发明利用注意力机制关注整个序列行为中的重要信息，得到长期偏好；BiLSTM学习短期序列中的顺序信息，得到短期偏好；最后同时考虑长短期偏好为游客动态推荐下一个景点，提高推荐结果的准确度。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

图1为本发明实施例获取数据集信息的流程示意图；

图2为本发明实施例基于主题模型和用户偏好的个性化景点推荐方法框架示意图；

图3为本发明实施例推荐装置系统结构示意图；

图4为本发明实施例整体流程示意图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，作详细说明如下：

本实施例方案整体流程如图4所示，下面结合具体实例将本发明的内容作进一步阐述，该实例仅说明本发明的原理，其保护范围并不仅限于此。具体实施例如下：

步骤1，数据采集与处理，如图1所示：

1.1)利用Flickr网站提供的API爬取旅游城市的地理标记照片数据集，包括照片的ID、用户名、经纬度、拍摄时间及标签文本；

1.2)利用以下3步对数据集进行预处理，具体步骤如下：

1.2.1)用户名、经纬度以及拍摄时间都相同的数据仅保留一条；

1.2.2)利用基于熵的流动性方法滤除非游客数据：

(A)结合照片内容与经验对照片数据集进行标注，区分旅游数据与非旅游数据；

(B)按照片拍摄时间的统计每个用户不同月份的照片数量，第i个月的照片数量表示为D_i(u),用户u在旅游城市中拍摄照片的月份数量表示为Mon(u)，根据信息熵的原理计算熵值E_(u)，计算公式如下：

(C)当E_(u)的值较高时，用户更有可能成为居民。使用阈值E_threshold来区分居民和游客,如果E_(u)＞E_threshold，则将用户u视为居民；反之，将用户u视为游客。假设用户一年的照片分布在n个月，根据公式计算不同n时的E_(u)，选择准确率最高的阈值作为区分游客和居民的条件，并对整个数据集进行分类，删除非旅游数据。

1.2.3)由于存在拍照设备定位错误的情况，删除用户名和拍摄时间相同但经纬度不同的数据。

1.3)利用基于游客密度的聚类算法(P-DBSCAN)识别旅游热点区域得到景点集合V；

1.4)将旅游热点区域以内的数据按时间排序重建游客旅游轨迹，获取游客的游览景点序列，并对景点序列进行滤除，具体步骤如下：

1.4.1)过滤景点序列长度为1的数据；

1.4.2)同一游客的景点序列中景点与景点之间时间间隔若超过七天，将其分割为两次旅游数据。

1.5)利用LDA主题模型根据景点区域范围内的照片标签文本挖掘景点的主题特征信息，得到景点的主题数据集T；

为了降低LDA的时间复杂度，在本实施例中使用Gibbs采样算法来实现LDA，并通过计算主题的一致性来确定最优的主题数量：

将Ct取最大值时作为最佳阈值，并建立景点的主题数据集T。

步骤2，个性化景点推荐，如图2所示：

2.1)将游客的整个历史游览景点序列视为长期序列，最近m个景点序列视为短期序列；

2.2)将游客的景点序列及景点的主题特征信息输入Embedding层进行编码转换为低维稠密向量，其计算公式为：

其中，W_a，W_t是权重矩阵，b表示偏置向量；

是景点v_i的向量表示，

是主题t_i的向量表示，φ是ReLU激活函数。

2.3)将游客的长期序列输入注意力层，学习每个景点对不同游客的重要程度(权重)，将权重与景点向量相乘累加得到游客的长期偏好p_l：

2.4)将游客短期序列输入BiLSTM层训练数据，BiLSTM层包括正向LSTM和反向LSTM，其中，正向LSTM的计算过程为：

i＝σ(W_ix_t+U_ih_t-1)

f＝σ(W_fx_t+U_fh_t-1)

o＝σ(W_ox_t+U_oh_t-1)

g＝tanh(W_gx_t+U_gh_t-1)

s_t＝f⊙s_t-1+i⊙g

h_t＝o⊙tanh(s_t)

其中，

表示连接操作；

2.5)将经过注意力层和BiLSTM层训练后的数据输入融合层进行合并：

对于候选景点的评分函数，将游客的最终偏好向量与候选景点向量进行点积操作：

2.6)利用softmax函数进行归一化，计算每个景点下一次访问的概率：

2.7)最后，按概率从高到低对景点进行排序，将前K个景点推荐给用户。

本实施例相对于最大改进之处在于：现有的推荐方法大多未同时考虑用户的长期偏好与短期偏好，或仅将用户的最近一次访问作为用户的短期偏好，而本发明利用注意力机制关注整个序列行为中的重要信息，得到长期偏好；BiLSTM学习短期序列中的顺序信息，得到短期偏好；同时考虑长短期偏好为游客动态推荐下一个景点，提高推荐结果的准确度。

此外，本发明利用LDA主题模型对用户照片元数据中的文本信息进行聚类，挖掘景点的特征信息，获得景点之间的隐藏关联，通过将特征信息融入用户景点序列中进一步提高推荐准确度和推荐结果个性化程度。

图3为根据本发明一个实施例的基于主题模型和用户偏好的个性化景点推荐装置系统结构示意图，包括：

计算模块，利用嵌入层将景点序列及景点对应的主题特征信息转化为低维稠密向量，再将游客的长期序列输入注意力层、游客的短期序列输入BiLSTM网络，将经过注意力层和BiLSTM层训练后的数据输入全连接层进行合并，得到游客当前的旅游偏好；

推荐模块，计算每个景点下一次访问的概率，按概率从高到低对景点进行排序，将前K个景点生成最终的推荐列表推荐给用户。

本实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。本领域相关技术人员在实践中可以使用微处理器或者数字信号处理器等来实现根据本发明实施例的个性化景点推荐装置中的部分或者全部功能。本发明还可以实现用于执行上述方法的部分或者全部的装置程序，包括计算机程序代码(如源代码形式、可执行文件或其他形式)和计算机程序产品(如存储卡、软盘和硬盘之类的计算机程序载体)。

本实施例还提供一种电子设备，该电子设备包括存储器和处理器。存储器可以是随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、闪存、光盘、软盘或机械硬盘等，用于存储数据和计算机程序；处理器可以是中央处理器(Center Processing Unit，CPU)、微处理器或数字信号处理器等，用于执行实现上述方法的计算机程序。本领域相关技术人员可以理解到，本发明所述的装置及电子设备还可以通过其他方式实现，此处不再赘述。

在本实施例中，对模块进行了具体划分，本领域的技术人员在实践中可以将本说明书中描述的模块进行不同的组合或修改来完成上文所述的方法和装置/电子设备。例如，上述实施例的模块的划分仅仅是示意性的，仅为逻辑功能的一种划分，在实际应用过程中，可以有其他的划分方式。在不互相影响的前提下可以对实施例的电子设备的模块进行组合或改变，可以设置在一个或多个电子硬件设备中。例如多个单元或组件可以结合或者可以集成到另一个系统，或忽略某些特征，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储器中。另外，需要说明的是，实现上述的部分功能或全部功能不受特定编程语言的限制。

本专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的考虑用户的长期偏好与短期偏好的景点推荐方法和系统，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种考虑用户的长期偏好与短期偏好的景点推荐方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的考虑用户的长期偏好与短期偏好的景点推荐方法，其特征在于：所述景点序列和景点的主题特征信息通过以下步骤获得：

步骤S12：对所述地理标记照片数据集进行预处理；

3.根据权利要求2所述的考虑用户的长期偏好与短期偏好的景点推荐方法，其特征在于：

步骤S12：对所述地理标记照片数据集进行预处理具体包括：

步骤S122：利用基于熵的流动性方法滤除非游客数据：

步骤S123：删除用户名和拍摄时间相同但经纬度不同的数据；

在步骤S14之后，对景点序列进行滤除，具体步骤如下：

步骤S141：过滤景点序列长度为1的数据；

4.根据权利要求3所述的考虑用户的长期偏好与短期偏好的景点推荐方法，其特征在于：在步骤S11中，所述地理标记照片数据集通过Flickr网站提供的API爬取获得；

在步骤S13中，所述聚类算法为P-DBSCAN；

5.根据权利要求4所述的考虑用户的长期偏好与短期偏好的景点推荐方法，其特征在于：步骤S122：利用基于熵的流动性方法滤除非游客数据具体包括：

步骤S122B：按照片拍摄时间的统计每个用户不同月份的照片数量，第i个月的照片数量表示为D_i(u)，用户u在旅游城市中拍摄照片的月份数量表示为Mon(u)，根据信息熵的原理计算熵值E_(u)，计算公式如下：

步骤S122C：采用阈值E_threshold区分居民和游客，如果E_(u)＞E_threshold，则将用户u视为居民；反之，将用户u视为游客；假设用户一年的照片分布在n个月，根据公式计算不同n时的E_(u)，选择准确率最高的阈值作为区分游客和居民的条件，并对整个数据集进行分类，删除非旅游数据；

将Ct取最大值时作为最佳阈值，并建立景点的主题数据集T。

6.根据权利要求1所述的考虑用户的长期偏好与短期偏好的景点推荐方法，其特征在于：

步骤S22的计算过程为：

其中，W_a，W_t是权重矩阵，b表示偏置向量；

是景点v_i的向量表示，

是主题t_i的向量表示，φ是ReLU激活函数；

步骤S23的计算过程为：

i＝σ(W_ix_t+U_ih_t-1)

f＝σ(W_fx_t+U_fh_t-1)

o＝σ(W_ox_t+U_oh_t-1)

g＝tanh(W_gx_t+U_gh_t-1)

s_t＝f⊙s_t-1+i⊙g

h_t＝o⊙tanh(s_t)

反向LSTM的计算过程与正向LSTM的区别在于输入的景点序列是反向的；

将正向LSTM的输出h_t与反向LSTM的输出h_b进行拼接，获得游客短期偏好p_s：

其中，

表示连接操作；

其中，W是控制游客长期偏好和短期偏好的权重，p_h表示游客的当前偏好；

对于候选景点的评分函数，将游客的当前偏好向量与候选景点向量进行点积操作，再利用softmax函数进行归一化，计算每个景点下一次访问的概率计算如下：

其中，v_i表示候选景点向量，

表示游客的最终偏好，

表示候选景点的评分向量。

7.一种考虑用户的长期偏好与短期偏好的景点推荐系统，其特征在于，包括：

8.根据权利要求7所述的考虑用户的长期偏好与短期偏好的景点推荐系统，其特征在于：所述处理模块将游客历史游览景点序列作为长期序列，最近m个景点序列作为短期序列。

9.根据权利要求7所述的考虑用户的长期偏好与短期偏好的景点推荐系统，其特征在于：所述处理模块通过Flickr网站提供的API爬取获得地理标记照片数据集，利用基于游客密度的聚类算法识别旅游热点区域得到景点集合，将旅游热点区域以内的数据按时间排序重建游客旅游轨迹，获取游客的游览景点序列，利用LDA主题模型根据景点区域内的照片标签文本提取景点的主题特征信息，得到景点的主题数据集。