CN114065024A

CN114065024A - 基于用户个性化生活模式的poi推荐方法

Info

Publication number: CN114065024A
Application number: CN202111303987.0A
Authority: CN
Inventors: 孔祥杰; 黄志强; 沈国江; 刘志
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-18

Abstract

一种基于用户个性化生活模式的POI推荐方法，包括：首先对用户签到数据进行预处理，通过挖掘分析用户签到数据建模用户个性化生活模式，根据用户个性化生活模式对全部POI进行过滤，并加入符合用户个性化生活模式的但用户未曾访问过的POI得到POI候选集，然后根据用户个性化生活模式对POI候选集进行重新排序，最终得到用户最感兴趣的Top‑k个POI。本发明根据用户个性化生活模式对POI集合进行过滤，有利于缓解LBSNs中数据稀疏性的问题。本发明充分挖掘用户签到序列中的用户个性化生活模式，能够提高POI推荐的准确性，同时利用用户个性化偏好模式中用户对POI类型的偏好和用户个性化行为模式进行推荐，能帮助用户发现新的POI，有利于提高POI推荐的多样性。

Description

基于用户个性化生活模式的POI推荐方法

技术领域

本发明涉及推荐系统中的POI推荐方法，POI推荐不仅可以向用户推荐下一次最有可能去的Top-k个POI，方便用户生活，还可以用于向广告商提供广告投放建议，为企业带来潜在的商业价值，同时还可以向城市交通规划提供建议等。

背景技术

随着信息技术和智能设备的快速发展，基于位置的社交网络(Location-basedSocial Networking Services，LBSNs)如Foursquare，Facebook，Gowalla，Yelp等越来越受人们的欢迎。在LBSNs上，用户可以登录打卡他们的位置并分享与他们的位置相关的内容，由于LBSNs用户数量的迅速增加，近年来从这些平台收集的用户签到数据量迅速增加，由此催生了一个新的推荐系统子领域，即兴趣点推荐(Point-of-interest Recommendation)。POI推荐是LBSNs的重要应用，一方面，可以给用户推荐可能感兴趣的兴趣点，帮助用户解决其“选择困难症”，另一方面，帮助企业寻找目标客户，给企业带来了潜在的商业价值，同时还可以向城市交通规划提供建议等。

近年来已经有非常多的POI推荐算法来根据用户偏好推荐POI，包括传统的机器学习方法和深度学习方法。这些方法大多根据用户历史签到数据学习用户偏好，结合地理影响、社会影响等来进一步完善模型，提高推荐性能。由于基于协同过滤的方法在其他领域的推荐系统中取得了成功，基于协同过滤的方法也被用于POI推荐，但是这些方法只能模拟用户的静态偏好。在实际场景中，POI本身的受欢迎程度会随着时间的变化而变化，同时用户会在特定的时间采取特定的行动，比如午餐时间去餐馆，晚上休息时间去酒吧。另一方面，用户签到行为之间存在相互影响，导致特定的POI签到顺序，如很多用户会选择晚饭后去公园，但是在公园散步后，有的用户会去商场购物，有的用户会去健身房，这也反映了不同用户的个性化偏好，所以需要更多地关注于对用户的动态偏好建模。除此之外，还有一些方法利用用户的社交关系进行POI推荐，如果两个用户是朋友关系，则这两个用户往往会有相似的POI偏好，可以向用户的朋友推荐该用户感兴趣的POI，但是这种方法受限于用户之间的信任程度，有的朋友之间也可能不会有相似的POI偏好。

目前，现有的POI推荐方法存在以下主要问题：1)现有的方法受到数据稀疏性问题的影响，与整个城市的POI数量相比，用户所去过的POI数量非常少，POI推荐的准确率不高。2)大多数现有的POI推荐方法没有充分挖掘用户签到数据，因此用户行为的规律性难以发现和利用。3)许多方法仅能推荐用户曾经去过的POI，而无法推荐符合用户个性化生活模式但用户没有去过的POI，即无法帮助用户发现新的POI。

发明内容

本发明要克服上述POI推荐方法的不足之处，提出一种基于用户个性化生活模式的POI推荐方法。

用户个性化生活模式，包括用户个性化偏好模式和用户个性化行为模式，其中用户个性化偏好模式包括用户对POI类型的偏好和用户对POI的偏好，用户对POI的偏好又包括用户对POI的长期和短期偏好以及用户签到子序列对POI偏好的影响，用户个性化行为模式指不同时间段中用户的最大转移距离。本发明对用户签到数据进行多角度挖掘分析，根据用户历史签到数据中用户对POI类型的偏好和用户下一次访问POI时间段内的个性化行为模式对POI进行过滤，得到POI候选集。建模用户对于POI长期和短期的偏好，以及用户签到子序列对用户当前POI偏好的影响，根据用户下一个访问时间，结合用户个性化偏好模式和用户个性化行为模式对POI候选集进行重新排序，最终向用户推荐Top-k个POI。本发明充分考虑了用户签到数据集的特征，通过对原始POI集合进行过滤得到POI候选集，缓解了POI推荐中的数据稀疏性问题。同时，根据用户对于POI类型偏好及用户在下一次访问POI时间段内的用户个性化生活模式，向用户推荐POI，所推荐的POI中即包括用户访问过的POI又包括符合用户偏好和用户个性化生活模式但用户未访问过的POI，提高了POI推荐的多样性。

本发明是通过以下技术方案达到上述目的：即基于用户个性化生活模式的POI推荐方法，具体的实施步骤如下：

(1)对原始数据进行预处理。对用户签到数据进行清洗，以及用户签到数据的规范化处理。

(2)对步骤(1)中所述数据进行时间划分。将用户签到数据按时间进行排序，然后按天进行划分得到用户历史签到子序列和最近签到子序列。

(3)对步骤(2)中所述数据进行用户个性化生活模式建模。首先提取用户和用户签到序列中POI类型之间的潜在信息，计算公式如下：

其中，U_u表示用户u的嵌入向量，

表示用户u访问的POI类型j的嵌入向量，

和

是两个权重矩阵，分别用于提取用户和POI类型潜在信息。

利用长短期记忆神经网络模型建模用户关于POI类型的偏好，计算公式如下所示：

其中，

和

分别代表单个长短期记忆神经网络模型单元的输出结果和单元状态，

为用户和POI类型之间的潜在信息，模型最终输出

表示用户对于POI类型的偏好。

提取用户和用户历史签到序列中POI的潜在信息，计算公式如下：

其中，

表示用户u历史签到序列中第j个POI的嵌入向量，

和

是两个权重矩阵，分别用于提取用户和用户历史签到序列中POI的潜在信息。

利用长短期记忆神经网络模型建模用户历史签到序列中的POI偏好，计算公式如下：

其中，

为用户和用户历史签到序列中POI的潜在信息，

和

表示用户历史签到序列中对于POI的偏好，即用户的长期偏好，同时所有用户历史签到子序列中的

转化为

|S_h|为单个历史签到子序列的长度。

提取用户和用户最近签到序列中POI的潜在信息，计算公式如下：

其中，

为用户最近签到序列中第j个POI的嵌入向量表示，

和

是两个权重矩阵，分别用于提取用户和用户最近签到序列中POI的潜在信息。

利用长短期记忆神经网络模型建模用户最近签到序列中的POI偏好，计算公式如下：

其中，

为用户和用户最近签到序列中POI的潜在信息，

和

表示用户最近签到序列中对于POI的偏好，即用户的短期偏好，同时所有用户最近签到序列中的

转化为

|S_n|为用户最近签到序列的长度。

将一周时间划分为48个时间段，其中包括工作日24个时间段，周末24个时间段，将所有用户签到序列中的具体时间对应到这48个时间段。

对于每个时间段，构造每个时间段的POI集合

POI集合中的每个POI是在该时间段至少有一个用户访问过的POI，那么对于每一段用户历史签到子序列S_h可以得到一个长度为|S_h|的签到时间段序列

可以计算不同时间段POI集合的相似度，计算公式如下：

其中，H_i和H_j分别表示时间段i和时间段j中的POI集合，τ_i,j表示时间段i和时间段j中POI集合的相似度。

计算带有时间权重信息的用户历史签到子序列表示s_h，计算公式如下：

其中，

表示当前时间段c与用户历史签到子序列S_h中第j个时间段的相似度，V_t ^e,2为用户历史签到子序列S_h中第t个POI的LSTM单元状态，则n-1段用户历史签到序列S_h∈{S₁,S₂,...,S_n-1}可以表示为{s₁,s₂,...,s_n-1}，用户最近签到用平均池化来得到，计算公式如下：

计算每一段历史签到子序列s_h∈{s₁,s₂,...,s_n-1}对于最近签到序列s_n的影响，计算公式如下：

其中，C(S)为归一化因子，函数g(s_h)＝W_hs_h用于生成s_h的表示，W_h为可训练的权重矩阵，函数

计算最近签到序列S_n与历史签到序列S_h的相关度，则

为序列级别的用户偏好，即用户历史签到子序列对用户当前偏好的影响。

对每个用户历史签到子序列，计算用户相邻两次签到的转移距离，计算公式如下：

其中，D_i表示用户历史签到子序列中第i+1个POI到第i个POI的转移距离，

表示第i个POI的经度，

表示第i个POI的纬度，R为地球半径；

对每个时间段的用户个性化行为模式建模，计算每个时间段内，所有用户签到子序列的最大转移距离，计算公式如下：

D_t＝max(D_i) (13)

其中，D_t表示第t个时间段内用户历史签到子序列中用户的最大转移距离。

(4)根据步骤(3)中所获用户个性化偏好模式和用户个性化行为模式，对POI集合进行过滤，得到POI候选集。

计算用户最喜欢的Top-k个POI类型，计算公式如下：

Y_i ^s＝σ(W^s·Input+b^s)；i＝1,2,...,P (15)

其中，σ表示softmax函数，

分别为权重矩阵，C_i表示第i个POI类型的嵌入向量，U_u表示用户的嵌入向量，

表示用户对POI类型的偏好；

根据用户最喜欢的Top-k个类型对每个用户的POI候选集进行过滤，计算公式如下：

其中，V_u表示用户原始的POI候选集，

表示经过第一层过滤后的POI候选集。

根据用户下一次访问POI时间，结合用户在该时间段内的用户个性化行为模式，从POI候选集

中过滤出与用户上一次签到位置的距离在该时间段用户最大转移距离内的POI，并加入该范围内属于用户偏好Top-k个类型的但用户未去过的POI，得到最终的POI候选集，计算公式如下：

其中，

表示经过第一层过滤后的POI候选集，

表示经过第二层过滤后的POI候选集，即最终的POI候选集。

(5)对POI候选集重新排序，得到用户最喜欢的Top-k个POI。计算POI候选集中与用户上一个访问位置的距离，计算公式如下：

其中，

和

分别表示用户上一个访问位置的经度和纬度，

和

分别表示POI候选集中第j个POI的经度和纬度。

计算用户对于POI候选集中POI类型之间的偏好，用户历史签到序列和用户最近签到序列中用户对于POI候选集中POI的偏好，计算公式如下：

其中，U_u表示用户的嵌入向量，C_c表示POI候选集中POI类型的嵌入向量，V_v表示POI候选集中POI的嵌入向量。

计算用户历史签到子序列对于POI候选集中POI的偏好影响，计算公式如下：

其中，其中W_p∈R^|L|×2d表示POI候选集中POI的投影矩阵，|L|表示POI候选集中POI的个数。

对上述指标分别进行归一化处理，对POI候选集中的POI进行重新排序得到最终用户最有可能访问的Top-K个POI，计算公式如下：

其中，f_D，f_v，f_s分别表示归一化函数，W_D，W_v，W_s分别表示距离，用户偏好和历史签到序列对POI偏好影响的权重矩阵。

进一步，步骤(1)所述的对用户签到数据进行清洗，包括清除缺失值、噪声数据、删除签到记录过少的数据。

本发明的优点是：根据用户个性化生活模式对POI集合进行过滤，有利于缓解LBSNs中数据稀疏性的问题。本发明充分挖掘用户签到序列中的用户个性化生活模式，能够提高POI推荐的准确性；同时利用用户个性化偏好模式中用户对POI类型的偏好和用户个性化行为模式进行推荐，能帮助用户发现新的POI，有利于提高POI推荐的多样性。

附图说明

图1是本发明方法的总体流程图。

图2是用户个性化生活模式说明图。

图3是用户个性化签到序列例图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将对本发明的具体实施方式作进一步的详细描述。

本发明实施例提供了一种基于用户个性化生活模式的POI推荐方法，总体流程如图1所示，该方法包括：

(1)对原始用户签到数据进行预处理。对用户签到数据进行清洗，如清除缺失值、噪声数据、删除签到记录过少的数据等，以及用户签到数据的规范化处理。

(3)对步骤(2)中所述数据进行用户个性化生活模式建模。如图二所示，用户个性化生活模式包括用户个性化偏好模式和用户个性化行为模式。其中用户个性化偏好模式包括用户对于POI的偏好以及用户对于POI类型的偏好，用户对于POI的偏好又包括用户对POI短期偏好、用户对POI长期偏好和用户签到子序列对POI偏好的影响。

首先提取用户和用户签到序列中POI类型之间的潜在信息，计算公式如下：

其中，U_u表示用户u的嵌入向量，

表示用户u访问的POI类型j的嵌入向量，

和

是两个权重矩阵，分别用于提取用户和POI类型潜在信息。

其中，

和

为用户和POI类型之间的潜在信息，模型最终输出

表示用户对于POI类型的偏好。

其中，

表示用户u历史签到序列中第j个POI的嵌入向量，

和

其中，

为用户和用户历史签到序列中POI的潜在信息，

和

转化为

|S_h|为单个历史签到子序列的长度。

其中，

为用户最近签到序列中第j个POI的嵌入向量表示，

和

其中，

为用户和用户最近签到序列中POI的潜在信息，

和

转化为

|S_n|为用户最近签到序列的长度。

将一周时间划分为48个时间段，其中包括工作日24个时间段，周末24个时间段，将用户签到序列中的具体时间对应到这48个时间段。

对于每个时间段，构造每个时间段的POI集合

POI集合中的每个POI是在该时间段至少有一个用户访问过的POI，那么对于每一段用户历史签到子序列Sh可以得到一个长度为|S_h|的签到时间段序列

可以计算不同时间段POI集合的相似度，计算公式如下：

其中，

计算最近签到序列S_n与历史签到序列S_h的相关度，则

表示第i个POI的经度，

表示第i个POI的纬度，R为地球半径；

D_t＝max(D_i) (13)

具体案例中，1082号用户在5月17日共有15条签到记录。其中在10点到11点中分别在40.63063339,-73.97712596，40.64510634,-73.9791548，40.68444569,-73.97785664有三条签到记录，在5月21日10点到11点分别在40.63072779,-73.97716999和40.64510634,-73.9791548，40.67838332,-73.94846453有三条签到记录。根据上述公式则该用户在5月17日中10点到11点转移距离分别约为1618米和4375米，该用户在5月21日中10点到11点转移距离分别约为1607米和4515米，则该用户在5月17日和5月21日10点到11点这个时间段中最大转移距离为4515米。

(4)根据步骤(3)中所获用户偏好和用户个性化生活模式，对POI集合进行过滤，得到POI候选集。

计算用户最喜欢的Top-k个POI类型，计算公式如下：

Y_i ^s＝σ(W^s·Input+b^s)；i＝1,2,...,P (15)

其中，σ表示softmax函数，

表示用户对POI类型的偏好；

其中，V_u表示用户原始的POI候选集，

表示经过第一层过滤后的POI候选集。

其中，

表示经过第一层过滤后的POI候选集，

表示经过第二层过滤后的POI候选集，即最终的POI候选集。

具体案例中，在过滤出与用户上一次签到位置的距离在该时间段用户最大转移距离内的POI后，在城市POI数据集中，找出在与用户上一次签到位置的距离在该时间段用户最大转移距离内的并且属于用户最喜欢的Top-k个类型的POI，加入POI候选集，得到最终的POI候选集。

其中，

和

分别表示用户上一个访问位置的经度和纬度，

和

分别表示POI候选集中第j个POI的经度和纬度。

具体案例中，1082号用户上一次访问位置的经度为-73.80885946，纬度为40.69967673，POI候选集中的一个POI的经度为-73.80793463，纬度为40.70114391，则该POI与用户上一个访问位置的距离利用上述公式可计算得到约为180米。

如附图1，本发明方法首先根据用户签到数据，对用户签到数据进行预处理后，建模用户个性化生活模式。根据用户个性化生活模式，对POI集合进行过滤，得到POI候选集，对POI候选集进行重新排序，最终得到用户最喜欢的Top-k个POI。

如附图2，用户个性化生活模式，包括用户个性化偏好模式和用户个性化行为模式，其中用户个性化偏好模式包括用户对POI类型的偏好和用户对POI的偏好，用户对POI的偏好又包括用户对POI的长期和短期偏好以及用户签到子序列对POI偏好的影响，用户个性化行为模式指不同时间段中用户的最大转移距离。

如附图3，用户序列模式举例。用户行为的序列模式通常有两种含义。一方面，用户会在特定的时间采取特定的行动，比如晚餐时间去餐馆，休闲时间去电影院等。另一方面。用户行为之间存在一定的时间顺序，所以会出现特定的POI访问序列，这也反映了不同用户的个性化偏好。比如，图中三位用户都会在下班后吃晚餐，但是三位用户去不同的餐馆吃不同类型晚餐，反应了用户的个性化偏好。用户一在吃完晚餐后选择去电影院看电影然后再回家；用户二在吃完晚餐后选择去商场购物然后再回家；用户三在吃完晚餐后选择去球场做运动再回家。这三种不同的访问序列也反应了用户的个性化偏好。

实施应用案例表明，本发明所提出的基于用户个性化生活模式的POI推荐方法是有效的，相对于其他设计方法，本发明方法将用户签到的绝对时间变换为时间段，并对POI集合进行两次过滤，缓解了POI推荐中的数据稀疏性问题，从多个角度挖掘用户个性化偏好模式，同时结合用户在下一次访问时间段内的用户个性化行为模式，向用户推荐POI，其中包含用户访问过的POI以及符合用户个性化偏好模式和用户个性化行为模式的用户未访问过的POI，即能够帮助用户发现新的POI，设计方案不仅能提高POI推荐的准确性，同时还能提高POI推荐的多样性。

以上的所述乃是本发明的具体实施应用案例及所运用的技术原理，本发明的保护范围不应当被视为仅限于实施应用案例所陈述的具体形式，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。