CN109460520A

CN109460520A - 基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法

Info

Publication number: CN109460520A
Application number: CN201910053468.XA
Authority: CN
Inventors: 崔琳; 汪材印; 张志伟; 潘正高; 吴孝银; 刘永清
Original assignee: Suzhou University
Current assignee: Anhui Shicalifornium Information Technology Co ltd
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2019-03-12
Anticipated expiration: 2039-01-21
Also published as: CN109460520B

Abstract

本发明公开了基于地理‑社会关系与深隐式兴趣挖掘的兴趣点推荐方法，涉及互联网技术领域，在用户当前可达区域下，基于用户链接关系、用户共同签到行为和用户隐式兴趣主题相似度建立了深层潜在地理‑社会关系兴趣点推荐模型DDR‑PR，在用户可达区域下，用户链接关系和用户共同签到行为关系被聚合为双地理‑社会关系，并使用所提出的RTU‑TCP方法挖掘出用户深隐式兴趣主题相似关系。把用户之间的双地理‑社会关系和深层隐式兴趣主题相似关系作为DDR‑PR模型的正则化项来提升兴趣点推荐方法的性能，从对比实验结果可以看出，DDR‑PR模型在两个真实数据集上优于其它基准推荐方法。

Description

基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法

技术领域

本发明涉及互联网技术领域，特别是涉及基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法。

背景技术

随着移动设备、定位采集与无线通信技术的广泛应用和Web 2.0技术的迅速发展，基于位置的社交网络平台Foursquare、Gowalla、Yelp和Facebook Places等已经吸引了数以亿计的用户，兴趣点推荐(POI Recommendation)已成为一个热门的研究领域。兴趣点推荐不仅能够满足用户访问新场所的个性化偏好，而且能够帮助LBSNs公司为用户提供更加准确的位置服务提高营业额，开启了一种结合空间维度和社会维度的新范式研究。

当前，在兴趣点推荐方面有许多研究工作，Ye等人提出一种使用分类标签文本标注位置的兴趣点推荐。Ferrari等人在Twitter数据集上使用LDA主题模型抽取城市模式，实现兴趣点推荐。Gao等人和Zhao等人使用兴趣点内容信息和用户的情绪信息进行兴趣点推荐。Liu等人提出一种基于主题和位置感知的兴趣点推荐模型TL-PMF。Scizov等人主要关注用户所发表的日志，提出主题模型来分析地理主题。Yin等人提出了一种称为潜在地理主题分析的联合模型LGTA，对地理主题信息进行分析，并对不同位置的主题进行有效比较，找到用户感兴趣的区域。Hu等人提出一种基于空间主题模型ST(Spatio Topic)的位置推荐技术，此空间主题模型主要捕获用户运动之间的相关性、用户兴趣和位置功能之间的相关性，对用户日志的空间信息和文本特征执行主题建模，预测用户未来的位置。Hu等人还提出一种基于时空主题模型SIT(Spatio-Temporal Topic)的位置推荐技术，为用户在正确的时间推荐正确的用户，SIT模型不仅捕获了用户签到行为的时空方面的信息，而且对用户进行了细致地画像。

用户的签到行为明显受到用户偏好、社会关系和地理位置的影响。有关用户偏好、社会关系和地理位置对兴趣点推荐的影响研究已有许多。然而，目前还没有研究同时考虑到目标用户可达的区域下的双重地理-社会关系和深隐式兴趣主题相似度对兴趣点推荐的影响，致使目前的兴趣点推荐算法准确率不能让人很满意。

发明内容

本发明实施例提供了基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法，可以解决现有技术中存在的问题。

本发明提供了基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法，包括以下步骤：

步骤1，计算用户访问新位置的概率；

步骤2，计算用户的链接关系相似度；

步骤3，基于用户共同签到行为计算用户之间的社会关系相似度；

步骤4，将步骤2和步骤3中计算得到的相似度结合在一起，得到基于深层潜在的用户之间的地理-社会关系相似度；

步骤5，计算用户之间的隐式兴趣主题相似度

包括如下几个子步骤：

子步骤5.1，聚合用户u_c的所有评论形成用户文档D_u；

子步骤5.2，根据用户文档D_u生成用户兴趣主题；

子步骤5.3，参照用户兴趣主题，采用Collapse Gibbs采样估计参数θ、和φ，以将用户文档的特征词向量被转换为用户的主题概率分布；

子步骤5.4，获得用户兴趣主题矩阵；

子步骤5.5，利用用户兴趣主题矩阵计算用户的隐式兴趣主题相似度；

步骤6，根据步骤1得到的概率和步骤5得到的相似度，计算得到用户深隐式兴趣主题相似度；

步骤7，将步骤4和步骤6得到的相似度作为正则化项嵌入到矩阵分解中，构造目标函数；

步骤8，对于步骤7中的目标函数进行随机梯度下降优化；

步骤9，根据更新后的用户集合和兴趣点集合计算推荐评分，将推荐评分最高的Top-N个兴趣点推荐给用户。

相对于现有技术，本发明的优点在于：

1、本发明中的兴趣点推荐模型DDR-PR同时考虑双地理-社会关系和深隐式兴趣主题相似度对兴趣点推荐的影响；

2、本发明中的深隐式兴趣主题相似关系挖掘算法RTU-TCP(all publishedReviews and all Tags from a User-all Tags Corresponding to the reviewedPOIs)，针对用户评论非常稀疏的情况，RTU-TCP同时考虑某一地理区域下用户的评论、用户自身的标签和相应的兴趣点标签，扩展了仅仅考虑用户标签和兴趣点标签的特征。在用户可达的区域下，对基于用户的标签、用户针对兴趣点的评论和评论的兴趣点对应的标签进行主题建模分析；

本发明的方法在两个真实数据集Foursquare和Yelp上进行了实验分析，与已有的四种基准方法相比较，验证了DDR-PR的性能，实验结果显示DDR-PR方法在P@N、R@N、MAP@N和NDCG@N指标上优于已有的四种基准推荐方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法的流程图；

图2为线性调节参数λ的影响效果图；

图3为潜在因子K的维度影响效果图；

图4为Foursquare数据集上评价指标随μ和γ值的变化情况图；

图5为Yelp数据集上评价指标随μ和γ值的变化情况图；

图6为Foursquare数据集上的Top-N推荐性能比较图；

图7为Yelp数据集上的Top-N推荐性能比较图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在介绍本发明的详细技术方案之前，首先提出以下几个定义：

定义1：兴趣点推荐。在基于位置的社会网络下，兴趣点被定义为具有唯一标识的特定事件或场所。规定一个兴趣点具有三个属性：标识符、位置和兴趣点的内容。使用p来标识一个兴趣点，使用l表示它在经度和纬度坐标上的相应位置属性。兴趣点推荐是指将用户u最希望访问的兴趣点提供给用户u，并且，所推荐的这些兴趣点不在p_u中。

定义2：签到活动。用户的签到活动由四元组(u,p,l_v,w_v)表示，表示用户在位置l访问兴趣点p，位置l的经纬度坐标分别为l_v和w_v。

定义3：签到矩阵。给定用户的历史签到数据，建立签到矩阵R_|u|×|l|，其中，每个项目R_u×l代表用户u∈U在位置l∈L的签到频率。U和L分别是LBSN中的用户集合和兴趣点集合。因为用户只访问了LBSN中非常少的POI，签到矩阵R非常稀疏，大多数条目都是零。

定义4：社交关系矩阵。基于LBSN用户之间的社交链接关系，构造一个社交关系矩阵S_|U|×|U|。如果两个不同的用户u_i和u_j存在社交链接关系，否则u_j∈F_i。

定义5：基于相同签到行为的社会关系。给定被用户u_i签到的兴趣点与用户u_i有着共同签到行为的用户集合被定义为即其中，U_j表示也在兴趣点签到的用户集合。

定义6：主题分布。给定一个单词集合W，主题被定义为在单词集合W上的一个多项式分布。即，用户u对兴趣点评论的主题分布z_u,r＝{z_u,r,w,w∈W}，其中，每个元素z_u,r,w表示用户u对兴趣点评论的主题生成单词w的分布。用户u自身标签的主题分布z_u,t＝{z_u,t,w,w∈W}，其中，每个元素z_u,t,w表示用户u自身标签的主题生成单词w的分布。用户u的评论对应的兴趣点标签的主题分布z_r,t＝{z_r,t,w,w∈W}，其中，每个元素z_r,t,w表示用户u的评论对应的兴趣点标签的主题生成单词w的分布。

参照图1，本发明提供了基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法，包括以下步骤：

步骤1，计算用户访问新位置的概率

位置的个性化地理影响在用户的个人签到行为中扮演着一个非常重要的角色。具体地，首先使用核密度估计建模被用户访问的位置之间距离的个性化分布，因为，地理学第一定律和日常生活中用户访问的轨迹反映用户倾向于访问就近的兴趣点，用户访问一个位置的意愿随着距离当前用户访问位置距离的增加而减弱。为了在兴趣点推荐中引入空间影响，使用核密度估计建模用户从一个地方移动至另外一个地方的意愿。首先计算位置之间的距离如下：

其中，d_xo表示新位置l_x和已知位置l_o之间的距离，l_o属于目标用户访问的兴趣点集合L_i。d_xo被用于推导基于公式(2)的概率，如下所示：

其中，D是从某个分布中抽取的特定用户的距离样本，密度为f，d′是目标用户u_i的平均核距离，K(·)是核函数，h是路径距离衰减阈值，称为带宽。本发明使用流行的归一化内核：

带宽h最优值表示如下：

其中，是D中样本的标准偏差，n是距目标用户位置的路径距离小于或等于h的兴趣点的数量。找到基于核密度估计的距离分布之后，本发明提出了一个基于公式(2)，用户u_i在给出访问位置L_i的情况下访问新位置l_x的概率。随后，u_i访问新位置l_x的概率通过取如下平均概率获得：

步骤2，计算用户的链接关系相似度

已有研究表明，在线社会网络下，挖掘与目标用户之间存在链接关系用户签到的兴趣点信息，能够为目标用户推荐新的兴趣点提供一定的帮助。因为，与目标用户之间具有显式链接关系和隐式链接关系的用户可能与目标用户之间具有相似的兴趣偏好。本发明采用SimRank相似度计算用户的链接关系相似度，公式表示如下：

其中，当用户u_i＝u_t时，用户之间的链接关系相似度sim(u_i,u_t)_link＝1，表示用户与其自身的相似度；当用户u_i和用户u_t是不同的用户时，用户u_i和用户u_t之间的链接关系相似度被定义为参数C是一个阻尼系数，在本发明中，被设为0.8，表示用户之间链接关系间隔的用户数越多，相似性衰减越大。I(u_i)和I(u_t)分别表示用户u_i和用户u_t的直接链接邻居集合，sim(I(u_i),I(u_t))表示集合I(u_i)和I(u_t)之间的SimRank相似度。

步骤3，基于用户共同签到行为计算用户之间的社会关系相似度

如果用户u_i和用户u_t都签到了兴趣点p₁，那么假设用户u_i和用户u_t共享相似的兴趣，采用sim_cc(u_i,u_t)来表示用户之间基于共同签到行为的用户之间的相似度。由于每个用户的兴趣能够通过他们签到的兴趣点反映出来，使用余弦相似度估计用户u_i和用户u_t之间基于共同签到行为的相似度，被定义如下：

其中，表示用户u_i签到的兴趣点集合，表示用户u_t签到的兴趣点集合，P表示集合中兴趣点的数量。

步骤4，将步骤2和步骤3中计算得到的相似度结合在一起，得到基于深层潜在的用户之间的地理-社会关系相似度

考虑以上提及的基于链接关系的用户关系相似度和基于用户共同签到行为的用户之间的相似度，以线性的方式把其组合在一起，得到一个综合的相似度，如下公式所示：

sim(u_i,u_t)_LinkCC＝λ·sim(u_i,u_t)_link+(1-λ)·sim(u_i,u_t)_cc (8)

其中，λ为调节参数。用户之间的潜在关系是一种隐式的社会关系，本发明采用用户之间的潜在关系来改善兴趣点推荐的性能。用户之间的潜在社会关系为用户推荐新的兴趣点时非常有用，可以为用户与没有链接关系用户之间的联系提供一个渠道。已知用户所在当前位置，把使用核密度估计的用户当前活动范围和公式(8)所得到的用户之间的相似度结合在一起，得到第一种基于深层潜在的用户之间的地理-社会关系相似度，如公式(9)所示：

sim(u_i,u_t)_GLinkCC＝P(l_x|L_i)·sim(u_i,u_t)_LinkCC (9)

公式(9)表示融合基于地理位置的因素和用户之间两种社会关系相似性，推出目标用户u_i签到兴趣点x的概率。用户之间的相似度在基于位置的社会网络下，不仅受用户之间的社会关系影响，而且还受所在的地理位置影响。

步骤5，计算用户之间的隐式兴趣主题相似度

包括如下几个子步骤：

子步骤5.1，聚合用户u_c的所有评论形成用户文档D_u

设Dir(·)是Dirichlet分布，Mult(·)是多项式分布，每个用户发布的所有评论和拥有的标签都与多项式分布相关联，用θ_u表示。每个主题都与多项式分布相关，表示为每个可观察词w_u,r、w_u,t和w_r,t都是从特定主题z的多项式分布φ_k生成。多项式分布θ、和φ具有超参数α、σ和β之前的对称Dirichlet。从θ_u中统一抽样一个用户，主题z_u,r服从多项式分布θ_u，单词w_u,r和与主题z相关联的多项主题分布相对应。这些采样过程分别重复N_u、N_u,r或N_r,t次以形成文档D_u。

子步骤5.2，根据用户文档D_u生成用户兴趣主题

对于每个主题z∈{1,…,K}，推出对于每个在用户文档D_u中的用户u，推出θ_u～Dir(α)；对于由用户u发布的评论r的每个标签t，推出φ_t～Dir(σ)；对每个用户文档D_u执行如下操作：对于在用户文档D_u中的每个单词w_u,r，推出一个主题z_u,r～Mult(θ_u)和一个单词对于在用户文档D_u中的每个用户标签w_u,t，推出一个主题z_u,t～Mult(θ_u)和一个单词对于由用户u发布的评论r相对应的每个标签t，推出一个主题z_r,t～Mult(z_u,r)；对于用户文档D_u中的每个单词w_r,t，推出一个主题z_r,t～Mult(φ_t)和一个单词最后，将单词子集w_r,t、w_u,r和w_u,t组合成一个单词集w_u，即用户兴趣主题。

子步骤5.3，参照用户兴趣主题，采用Collapse Gibbs采样估计参数θ、和φ，以将用户文档的特征词向量被转换为用户的主题概率分布

所提出的RTU-TCP方法包含一些未知参数集，有用户主题分布θ、评论标签分布和主题词分布φ以及潜在主题z_u,r、z_u,t和z_r,t。使用Collapse Gibbs采样评估z_u,r、z_u,t和z_r,t的后验分布。将潜在主题z的条件分布表示为：

其中，表示单词i从相应的文档或主题中排除。利用抽样结果，通过以下等式估计θ、和φ：

其中，V是词库中单词的数量，K是主题数目，α、σ和β是三个对称先验参数。是分配给主题k的词的频率，是文档的主题观察计数。向量θ_ik表示用户u_i对主题k感兴趣的概率，向量和表示主题k在词V上的概率分布，得到矩阵θ_Nu×K(用户-主题)和(主题-兴趣点)，N_u是用户数。

子步骤5.4，获得用户兴趣主题矩阵

通过上述操作，用户文档的特征词向量被转换为用户的主题概率分布。为了反映每个用户对潜在主题的偏好，将不同主题的每个用户的兴趣分布表示为主题向量其中，k表示每个兴趣主题，k＝{1,2,…,K}。向量k的每个元素是每个主题的用户u的引用主题值分布。将所有用户的主题向量并入兴趣主题矩阵，如下所示：

子步骤5.5，利用用户兴趣主题矩阵计算用户的隐式兴趣主题相似度

获得兴趣主题矩阵后，可以计算用户兴趣主题与匹配分数之间的相似度。任何两个用户之间的兴趣主题相似性是对称的，也就是说，对于任何用户兴趣主题向量和和之间的相似度与和之间的相似度相同。因此利用用户u_i和用户u_j之间的对称Jensen-Shannon散度来计算主题概率中用户之间的距离，其计算方法为：

其中，KL(·||·)是Kullback-Leibler距离，分别表示用户u_i和用户u_j的兴趣主题k∈K中的概率分布。令规定定义用户u_i和u_j之间的隐式兴趣主题相似度如下：

sim(u_i,u_j)_topic＝1-D_JS(u_i,u_j) (20)

步骤6，根据步骤1得到的概率和步骤5得到的相似度，计算得到用户深隐式兴趣主题相似度

在已知用户所在当前位置的情况下，把使用核密度估计的用户当前活动范围和公式(20)所得到的用户之间的相似度结合在一起，得到基于深层用户兴趣主题相似度的地理-社会关系挖掘，如公式(21)所示：

sim(u_i,u_t)_GTopic＝P(l_x|L_i)·sim(u_i,u_t)_topic (21)

公式(21)表示融合基于地理位置的因素和用户之间潜在兴趣主题相似度，推出目标用户u_i签到兴趣点l_x的概率。这样，用户之间的相似度在基于位置的社会网络下，不仅受用户兴趣主题相似度的影响，而且还受所在的地理位置影响。

步骤7，将步骤4和步骤6得到的相似度作为正则化项嵌入到矩阵分解中，构造目标函数：

其中，P_j表示用户U_i签到的兴趣点集合，S表示基于双地理-社会关系的用户集合，SC表示基于深隐式兴趣主题相似度的用户集合。sim(u_i,u_t)_GLinkCC表示基于双地理-社会关系下用户u_i和用户u_t之间的相似度，sim(u_i,u_c)_GTopic表示目标用户u_i和用户u_c在某一地理区域下基于用户签到评论、兴趣点Tag和用户自身Tag的兴趣主题相似度。

步骤8，对于步骤7中的目标函数进行随机梯度下降优化，随机梯度下降方法是对基于矩阵分解的推荐模型进行优化时经常采用的一种方法，因此，本发明也采用随机梯度下降方法对目标函数进行优化。随机梯度下降方法随机扫描所有的训练数据，对于每一个用户-兴趣点签到元素，沿着目标函数梯度下降的方向更新对应参数，计算梯度是随机梯度下降方法中最为重要的一步，每一步的更新采用如下公式执行：

其中，ξ是学习率，Λ表示所有涉及的模型参数，对应于公式(22)所示的目标函数。相对于U_i的梯度使用公式(24)进行计算。

因此，U_i被更新为：

关于的P_j的梯度如下：

P_j被更新为：

步骤9，根据更新后的U_i和P_j计算推荐评分，将推荐评分最高的Top-N个兴趣点推荐给用户。

算法复杂度分析

下面分析本发明中DDR-PR模型的时间复杂度。整体复杂度通过计算矩阵分解模型和执行两个子算法GLinkCC-PR和GTopic-PR来确定。由于子算法GLinkCC-PR计算用户之间的双地理-社会关系和子算法GTopic-PR计算用户之间的深隐式主题相似性都是执行的离线计算，因此，不考虑两个子算法GLinkCC-PR和GTopic-PR的复杂度和计算开销。DDR-PR模型的时间复杂度主要通过在线计算矩阵分解模型的成本体现出来。设评分矩阵R中，每个用户平均可观测到的评分数量为n₁，每个兴趣点平均可观测的被签到数量为n₂，在随机梯度下降方法的迭代中，对于所有用户而言，计算的复杂度为O(Mn₁K)，对于所有兴趣点而言，计算的复杂度为K为潜在因子的维度数。因此，只考虑在线计算情况下的时间复杂度，DDR-PR的在线时间复杂度为由于用户-兴趣点签到矩阵非常稀疏，所以，DDR-PR模型的在线计算时间复杂度与用户数目和兴趣点数量近乎呈线性关系。

实验结果与分析

为了评价DDR-PR模型的有效性，在两个真实数据集上进行实验。通过实验回答以下两个问题：(1)如何确定潜在因子K的值、如何确定双地理-社会关系中基于社会链接关系和用户共同签到行为关系之间的调节参数λ，以及正则化参数μ和γ是如何影响DDR-PR模型性能的？(2)与所选择的几种基准方法相比较，DDR-PR模型的性能如何？

首先介绍实验数据集和实验设置，然后简单介绍所选择的比较方法。其次，将DDR-PR模型与所选的几种基准推荐方法在P@N、R@N、MAP@N和NDCG@N上进行比较与分析。

实验数据集

在本发明的研究工作中，分别使用从Foursquare和Yelp上爬取的两个真实数据集。Foursquare数据集是通过Twitter从Foursquare上收集2011年1月到2011年7月期间的数据。Yelp是美国最大的点评网站，也是2009年创建的LBSN网站，通过移动设备的位置来提醒用户签到。本章使用的Yelp数据集来自Cheng等，通过公共API收集了2009年2月至2011年9月期间的Yelp数据集。这两个数据集中的详细记录包括用户ID、用户签到位置、用户的社会关系以及经度和纬度坐标等位置细节，数据的统计信息如表1所示。

表1 Foursquare和Yelp两个真实数据集的统计信息

实验设置

在本发明中，有多个参数影响所提出的DDR-PR模型结果。首先，使用标准自然语言处理工具预处理Foursquare数据集和Yelp数据集中的所有评论，删除无意义停用词、小写转换、符号化和简写(数字和标点符号)后，从每个评论中提取一组代表性的单词。所有预处理的评论被集成到一个文档中，使用RTU-TCP方法提取每个用户的兴趣主题，主题建模的超参数设置为α＝50/K、σ＝50/K、β＝0.01。依据数据集的特征，Foursquare数据集中用户兴趣主题K设置为40，Yelp数据集中用户兴趣主题K设置为60。

其次，使用随机梯度下降方法学习潜在因子时，初始学习率ξ设置为0.001，参数α设置为0.001。矩阵因子U和P的维数K从{10,20,30,40,50,60,70,80}进行选择，经过实验验证，K＝40是最佳值。另外，从{0,0.01,0.05,0.1,1}中选择正则化参数μ和γ，经过实验验证，当μ＝0.05、γ＝0.05时，模型性能最优。本章随机将每个数据集分为训练集和测试集，其中，80％的数据作为训练集，剩余20％的数据作为测试集。在实验中，训练集用于训练推荐模型，然后利用学习到的推荐模型预测测试数据。除了事先假定的一些参数外，前文已经详细讨论了线性调节参数λ、潜在因子K的维度、正则化参数μ和γ的变化是如何影响DDR-PR模型的性能。

对比方法

为了评估DDR-PR模型的个性化排名性能，将其与以下五种兴趣点推荐方法进行比较。

(a)BasicMF：首先，本发明使用BasicMF模型作为基准方法，此模型仅考虑用户偏好，而不考虑其他辅助信息(例如地理或社会信息)。由于BasicMF没有考虑社会和地理影响，所以BasicMF的推荐精确率非常低。

(b)基于社会正则化的概率矩阵分解模型PMFSR：PMFSR模型是在社会网络下融入社会正则化项的概率矩阵分解模型的扩展。融入社会正则化项，从一定程度减轻了传统概率矩阵分解模型的过拟合问题。另外，引入社会关系至模型中，与传统概率矩阵分解模型相比较，考虑了与目标用户存在社会关系的用户对兴趣点推荐的影响，提高了兴趣点推荐的准确率。

(c)GeoCF。GeoCF模型通过假定幂律分布和与基于用户的协同过滤算法相结合来考虑地理影响，将用户偏好与地理影响因素线性组合，提出统一的兴趣点推荐框架。

(d)Algorithm 1(GLinkCC-PR)：此种方法是本章所提出的DDR-PR模型一个特例，即在兴趣点推荐中，只考虑基于用户链接关系和基于用户共同签到行为关系对兴趣点推荐的影响，把基于用户链接关系和基于用户共同签到行为关系融合在一起，作为矩阵分解的正则化项，执行基于用户链接关系和基于用户共同签到行为关系的兴趣点推荐。

(e)Algorithm 2(GTopic-PR)：此种方法也是本章所提出的DDR-PR模型一个特例，即在兴趣点推荐中，只考虑用户隐式兴趣主题相似度对兴趣点推荐的影响，把用户隐式兴趣主题关系作为矩阵分解的正则化项，执行基于用户隐式兴趣主题相似度的兴趣点推荐。

线性调节参数λ的影响分析

下面分析控制双地理-社会关系中基于用户之间链接关系相似度和基于用户共同签到行为相似度所占比例的线性调节参数λ的取值。对数据集执行十倍交叉验证，分析λ对P@10、R@10、MAP@10和NDCG@10的影响。在实验中，从[0,1]范围中选择λ的值，值之间的间隔为0.1。P@10、R@10、MAP@10和NDCG@10的变化分别如图2所示。图2中，(a)为P@10随λ值的变化情况，(b)为R@10随λ值的变化情况，(c)为MAP@10随λ值的变化情况，(d)为NDCG@10随λ值的变化情况。

图2中的曲线清晰地反映了λ的变化是如何影响Foursquare数据集和Yelp数据集的结果。当λ值小于0.6时，所有指标的值随着λ的快速增加而增加，增长速度快。当λ大于0.6时，评价指标P@10、R@10、MAP@10和NDCG@10表现出相似的趋势，它们开始下降。因此，为了在性能和计算成本之间考虑均衡，本章为Foursquare数据集和Yelp数据集设置了线性调节参数λ＝0.6，以获得四个评价指标的可接受结果。

潜在因子K的维度分析

下面简要讨论潜在因子K的维度如何影响实验结果。分别在Foursquare数据集和Yelp数据集上对P@N、R@N、MAP@N和NDCG@N进行实验。矩阵因子K的维度在一定程度上影响相似矩阵的秩逼近和分解。K分别从{10,20,30,40,50,60,70,80,90,100}中进行取值。实验结果如图3所示。图3中，(a)为P@10随K值的变化情况，(b)为R@10随K值的变化情况，(c)为MAP@10随K值的变化情况，(d)为NDCG@10随K值的变化情况。

图3中的曲线清晰地反映了K的变化如何影响Foursquare数据集和Yelp数据集的结果。当K值小于30时，所有指标的值随着K的快速增加而增加，增长速度快。当K大于30时，评价指标P@10、R@10、MAP@10和NDCG@10表现出相似的趋势，它们开始收敛并在K＝30后保持非常稳定。本章提出的算法的时间复杂度主要受K影响。为了在性能和计算成本考虑均衡，为Foursquare数据集和Yelp数据集设置了维数K＝30。

正则化参数μ和γ的影响分析

下面分析参数μ和γ的变化如何影响最终的兴趣点推荐精度。对数据集进行十倍交叉验证，根据经验设置正则化参数μ和γ，并分析μ和γ对P@10、R@10、MAP@10和NDCG@10的影响。在实验中，分别从{0,0.01,0.05,0.1,0.5,1}中选择μ和γ以获得不同的组合。P@10、R@10、MAP@10和NDCG@10的变化在Foursquare数据集和在Yelp数据集上分别如图4和图5所示。图4中，(a)为P@10随μ和γ值的变化情况，(b)为R@10随μ和γ值的变化情况，(c)为MAP@10随μ和γ值的变化情况，(d)为NDCG@10随μ和γ值的变化情况。图5中，(a)为P@10随μ和γ值的变化情况，(b)为R@10随μ和γ值的变化情况，(c)为MAP@10随μ和γ值的变化情况，(d)为NDCG@10随μ和γ值的变化情况。

从图4和图5可以看出，随着μ和γ的增加，P@10、R@10、MAP@10和NDCG@10的值先增加，然后逐渐减小。当μ和γ都比较小时，即每个图的左下角，实验结果改善不明显。随着μ和γ的增加，实验结果变化明显，这是因为μ和γ比较小的时候，未被观察到的实体的社会正规化约束不能提供足够的辅助信息(即目标函数的两个正则化项贡献很少)，低秩矩阵起着最重要的作用。随着μ和γ的增大，为推荐任务提供有用的信息，P@10、R@10、MAP@10和NDCG@10的值开始增加。随着μ和γ的继续增加，社会正则化对未观察实体的约束作用越来越大，对用户兴趣点矩阵的低秩结构产生负影响，P@10、R@10、MAP@10和NDCG@10的值又开始减少。在Foursquare数据集和Yelp数据集上，可以观察到当μ＝0.05，γ＝0.05时，P@10、R@10、MAP@10和NDCG@10具有最优性能。所以在本发明的实验中，为Foursquare数据集和Yelp数据集设置为μ＝0.05和γ＝0.05。

Top-N排序性能比较与分析

下面采用评价指标P@N、R@N、MAP@N和NDCG@N衡量兴趣点推荐方法的排名结果，首先研究P@N、R@N、MAP@N和NDCG@N如何根据推荐列表的大小，即N的值而变化。N的值分别设定为5、10、15、20、25和30。DDR-PR模型的Top-N性能与其它方法对比，在Foursquare数据集的比较结果如图6和表2所示，在Yelp数据集上的比较结果如图7和表3所示。图6中，(a)为P@N随N值的变化情况，(b)为R@N随N值的变化情况，(c)为MAP@N随N值的变化情况，(d)为NDCG@N随N值的变化情况。图7中，(a)为P@N随N值的变化情况，(b)为R@N随N值的变化情况，(c)为MAP@N随N值的变化情况，(d)为NDCG@N随N值的变化情况。

从图6中发现DDR-PR模型始终优于几种基准方法。具体地，可观察到PMFSR优于BasicMF，GeoCF模型的性能优于GTopic-PR和PMFSR，DDR-PR又优于GLinkCC-PR和GeoCF。为了更好地验证DDR-PR模型的性能，表2显示了当N＝10时，与基准方法Geo-CF相比，DDR-PR模型显著优于Geo-CF模型。对于P@10、R@10、MAP@10和NDCG@10，可以观察到P@10有28.21％的提高，R@10的提高为23.53％，MAP@10的提高为23.26％，NDCG@10的提高为31.43％。研究结果表明，当考虑用户可达地理区域下的深层潜在地理-社会关系时，DDR-PR的性能优于所选择的基准方法。

表2 Foursquare数据集上DDR-PR相对于GeoCF的性能改善

图7和表3给出了与Yelp数据集类似的比较结果。比较结果与Foursquare数据集中的图6和表2相似，DDR-PR模型在P@N、R@N、MAP@N和NDCG@N方面仍然获得最佳性能。总而言之，DDR-PR模型的性能优于所选择的基准方法，证明了DDR-PR模型的优越性。

表3 Yelp数据集上DDR-PR相对于GeoCF的性能改善

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法，其特征在于，包括以下步骤：

步骤1，计算用户访问新位置的概率；

步骤2，计算用户的链接关系相似度；

步骤5，计算用户之间的隐式兴趣主题相似度

包括如下几个子步骤：

子步骤5.1，聚合用户u_c的所有评论形成用户文档D_u；

子步骤5.2，根据用户文档D_u生成用户兴趣主题；

子步骤5.4，获得用户兴趣主题矩阵；

步骤8，对于步骤7中的目标函数进行随机梯度下降优化；

2.如权利要求1所述的基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法，其特征在于，步骤1具体包括：

首先计算位置之间的距离如下：

其中，d_xo表示新位置l_x和已知位置l_o之间的距离，l_o属于目标用户访问的兴趣点集合L_i，d_xo用于推导基于公式(2)的概率，如下所示：

其中，D是特定用户的距离样本，密度为f，d′是目标用户u_i的平均核距离，K(·)是核函数，h是路径距离衰减阈值，称为带宽，随后，u_i访问新位置l_x的概率通过取如下平均概率获得：

3.如权利要求1所述的基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法，其特征在于，步骤2具体包括：采用SimRank相似度计算用户的链接关系相似度，公式表示如下：

其中，当用户u_i＝u_t时，用户之间的链接关系相似度sim(u_i,u_t)_link＝1，表示用户与其自身的相似度；当用户u_i和用户u_t是不同的用户时，用户u_i和用户u_t之间的链接关系相似度被定义为参数C是阻尼系数，表示用户之间链接关系间隔的用户数越多，相似性衰减越大，I(u_i)和I(u_t)分别表示用户u_i和用户u_t的直接链接邻居集合，sim(I(u_i),I(u_t))表示集合I(u_i)和I(u_t)之间的SimRank相似度。

4.如权利要求1所述的基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法，其特征在于，步骤3具体包括：使用余弦相似度估计用户u_i和用户u_t之间基于共同签到行为的相似度，被定义如下：

其中，表示用户u_i签到的兴趣点集合，表示用户u_t签到的兴趣点集合，|P|表示集合中兴趣点的数量。

5.如权利要求4所述的基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法，其特征在于，步骤4具体包括：以线性的方式把用户的链接关系相似度和基于用户共同签到行为的用户之间的社会关系相似度组合在一起，得到综合相似度，如下公式所示：

sim(u_i,u_t)_LinkCC＝λ·sim(u_i,u_t)_link+(1-λ)·sim(u_i,u_t)_cc (8)

其中，λ为调节参数，已知用户所在当前位置，把使用核密度估计的用户当前活动范围和公式(8)所得到的用户之间的相似度结合在一起，得到基于深层潜在的用户之间的地理-社会关系相似度，如公式(9)所示：

sim(u_i,u_t)_GLinkCC＝P(l_x|L_i)·sim(u_i,u_t)_LinkCC (9)。

6.如权利要求1所述的基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法，其特征在于，步骤6具体包括：在已知用户所在当前位置的情况下，把使用核密度估计的用户当前活动范围和用户u_i和u_t之间的隐式兴趣主题相似度结合在一起，得到基于深层用户兴趣主题相似度的地理-社会关系相似度，如公式(10)所示：

sim(u_i,u_t)_GTopic＝P(l_x|L_i)·sim(u_i,u_t)_topic (10)

其中，sim(u_i,u_t)_topic为用户u_i和u_t之间的隐式兴趣主题相似度。

7.如权利要求1所述的基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法，其特征在于，步骤7中构造的目标函数为：

其中，P_j表示用户U_i签到的兴趣点集合，S表示基于双地理-社会关系的用户集合，SC表示基于深隐式兴趣主题相似度的用户集合，sim(u_i,u_t)_GLinkCC表示基于深层潜在的用户u_i和用户u_t之间的地理-社会关系相似度，sim(u_i,u_c)_GTopic表示目标用户u_i和用户u_c在某一地理区域下基于用户签到评论、兴趣点Tag和用户自身Tag的兴趣主题相似度。