CN108804551A

CN108804551A - 一种兼顾多样性与个性化的空间兴趣点推荐方法

Info

Publication number: CN108804551A
Application number: CN201810489720.7A
Authority: CN
Inventors: 孟祥福; 唐延欢; 张霄雁; 王伟; 毛月; 赵泽祺; 李盼
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2018-11-13
Anticipated expiration: 2038-05-21
Also published as: CN108804551B

Abstract

本发明提供一种兼顾多样性与个性化的空间兴趣点推荐方法，涉及空间兴趣点推荐技术领域。包括：构建地理‑社会关系模型；计算模型中地点对在位置和社会联系上的相关度；构建相关度矩阵W；划分模型中构建的用户社会关系网络图G；计算在划分时的损失函数；选取令损失函数最小的特征向量并对图G中的顶点进行划分，得到k个具有多样性的兴趣点集合；从k个兴趣点集合中各选取一个最能拟合用户偏好的兴趣点组成一个融合多样性与个性化的兴趣点推荐列表。本发明提供的一种兼顾多样性与个性化的空间兴趣点推荐方法，融合兴趣点的地理‑社会关系模型、谱聚类算法、矩阵分解算法，使得为用户推荐的兴趣点具备较高准确率的同时还兼顾了多样性。

Description

一种兼顾多样性与个性化的空间兴趣点推荐方法

技术领域

本发明涉及空间兴趣点推荐技术领域，具体涉及一种兼顾多样性与个性化的空间兴趣点推荐方法。

背景技术

随着移动互联网的发展和智能移动设备的普及应用，兴趣点(即用户感兴趣的地点，如餐馆、电影院、景点等)数据越来越丰富，同时也吸引了大量数据挖掘研究者的关注。一个良好的兴趣点推荐方法不仅可以为用户发现新的感兴趣的地点，扩宽用户视野，还应该有助于商家展开各种基于位置的服务，提高盈利收入。当前，大多数兴趣点推荐算法主要从三个方面展开研究，分别是兴趣点的地理特征、用户访问兴趣点的时间特征、访问兴趣点的用户的社会特征。Learning geographical preferences for point-of-interestrecommendation.Proceedings of the 19th ACM SIGKDD International Conference onKnowledge Discovery and Data Mining(KDD),2013,1043-1051.Liu等人通过综合计算用户对地点的兴趣、距离及兴趣点本身的受欢迎程度，获取用户对兴趣点的偏好程度；Aspatial-temporal probabilistic matrix factorization model for point-of-interest recommendation.Proceedings of the 2016Siam International Conferenceon Data Mining(SIAM),2016,117-125.Li等人结合地理因素和时间因素构建了用户的兴趣动态变化模型，以求获得更准确的兴趣点推荐效果；现有技术中还包括利用用户之间的社会联系对兴趣点推荐算法进行改进，使得兴趣点的推荐综合考虑了兴趣点的位置关系和访问兴趣点的用户之间的社会关系。然而，上述兴趣点推荐算法大都注重推荐结果的准确性，而忽略了推荐结果的多样性，导致推荐结果之间通常比较相似，从而不能有效扩展用户视野。

发明内容

针对现有技术存在的问题，本发明提供一种兼顾多样性与个性化的空间兴趣点推荐方法，融合兴趣点的地理-社会关系模型、谱聚类算法、矩阵分解算法，使得为用户推荐的兴趣点具备较高准确率的同时还兼顾了多样性。

为了实现上述目的，一种基于三层动态粒子群算法的多分类器模型构建方法，包括以下步骤：

步骤1：根据移动社交网络应用软件提供的数据，构建地理-社会关系模型，具体步骤如下：

步骤1.1：根据移动社交网络应用软件中查询到的用户访问地点的纬度值lat和经度值lon，建立用户访问地点集合P，令P＝{p₁,...,p_i,...,p_n}，其中，p_i＝(lat_i,lon_i)，且i＝1,2,…,n；

步骤1.2：构建用户社会关系网络图G，令G＝(U,E)，其中，U为所有用户的集合，u_a∈U，u_b∈U，边(u_a,u_b)∈E为用户u_a和u_b具有朋友关系；所述用户u_a和u_b具有朋友关系是指用户双方互为登记在对方社交软件的好友列表里，或者他们是亲属、同事等关系；

步骤1.3：建立所有用户的签到记录集合CK，令CK＝{＜u_a,p_k,t_r＞|u_a∈U,p_i∈P}，那么，访问过地点p_k的用户集合U_Pk＝{u_a|＜u_a,p_k,*＞∈CK}，其中*表示任意时间；

步骤2：根据所构建的地理-社会关系模型中地点对之间的地理-社会距离，计算模型中地点对在位置和社会联系上的相关度；

步骤3：根据地理-社会关系模型的地点集合P中任意一对地点之间的相关度，构建n×n阶的相关度矩阵W，其中，w_ij为相关度矩阵中的元素，表示地点p_i和p_j之间的相关度；

步骤4：将构建的用户社会关系网络图G通过谱聚类算法中的规范割集准则划分成2个最优子图G₁和G₂，以N维向量q＝[q₁,q₂,...,q_N]记录用户社会关系网络图的划分方法；

步骤5：计算在划分最优子图时所截断的用户社会关系网络图G中边(u_a,u_b)的权重之和的函数，即损失函数Ncut(G₁,G₂)，损失函数为最小值时划分方案为最佳方案；所述损失函数的计算公式如下：

其中，L＝D-W，D为相关度矩阵W的对角矩阵，且有q^T为向量q的转置，d₁和d₂分别为用户社会关系网络子图G₁和G₂的权值之和，c₁和c₂均为常数，用于标记用户社会关系网络图G中的顶点o的聚类归属；

由于损失函数Ncut(G₁,G₂)经推导可化为广义瑞利熵的形式，根据瑞利熵性质可知，特征向量q为最小值时损失函数Ncut(G₁,G₂)也为最小值；

步骤6：根据瑞利熵性质，取前M个令损失函数Ncut(G₁,G₂)为最小值的特征向量q，组成N×M矩阵R，其中第o个行向量代表顶点o，利用k-means聚类对用户社会关系网络图G中的顶点进行划分，最终得到k个聚类，即k个具有多样性的兴趣点集合；

步骤7：根据用户个数以及k个兴趣点集合中兴趣点的个数，构建k个用户-兴趣点访问次数矩阵，采用矩阵分解算法分别对k个用户-兴趣点访问次数矩阵进行拟合，从k个兴趣点集合中各选取一个最能拟合用户偏好的兴趣点，最终得到一个融合多样性与个性化的兴趣点推荐列表。

进一步地，所述步骤2中计算模型中地点对在位置和社会联系上的相关度的公式如下：

S(p_i,p_j)＝1-D_gs(p_i,p_j)；

其中，S(p_i,p_j)为地点对(p_i,p_j)在位置和社会联系上的相关度，D_gs(p_i,p_j)为地点对(p_i,p_j)之间的地理-社会距离；所述地点对(p_i,p_j)之间的地理-社会距离D_gs(p_i,p_j)的计算公式如下：

D_gs(p_i,p_j)＝ω·D_P(p_i,p_j)+(1-ω)·D_S(p_i,p_j)；

其中，D_P(p_i,p_j)为地点对(p_i,p_j)之间的地理距离，D_S(p_i,p_j)为地点对(p_i,p_j)之间的社会距离，ω为区间[0,1]内调节地点对(p_i,p_j)之间地理距离和社会距离在计算兴趣点的地理-社会距离时所占比重的参数；所述地点对(p_i,p_j)之间地理距离D_P(p_i,p_j)和社会距离D_S(p_i,p_j)的计算公式如下：

其中，E(p_i,p_j)为地点对(p_i,p_j)之间的欧氏距离，maxD为地点集合P中任意两点之间的最大距离，CU_ij为同时访问过地点p_i和地点p_j的用户集合，U_pi为访问过地点p_i的用户集合，U_pj为访问过地点p_j的用户集合；所述地点对(p_i,p_j)之间的欧氏距离E(p_i,p_j)的计算公式如下：

其中，lat_i、lon_i分别为地点p_i的纬度值和经度值，lat_j、lon_j分别为地点p_j的纬度值和经度值。

本发明的有益效果：

本发明提出一种兼顾多样性与个性化的空间兴趣点推荐方法，融合兴趣点的地理-社会关系模型、谱聚类算法，令推荐的兴趣点具有较高的多样性，再结合矩阵分解算法对兴趣点进行拟合，使得最终为用户推荐的兴趣点具备较高准确率的同时还兼顾了多样性。

附图说明

图1为本发明实施例中兼顾多样性与个性化的空间兴趣点推荐方法的流程图；

图2为本发明实施例中谱聚类算法示意图；

图3为本发明实施例中训练数据集大小对DPFM和PFM算法结果的影响图；

其中，(a)为训练数据集大小对DPFM和PFM算法结果的多样性指标影响图；(b)为训练数据集大小对DPFM和PFM算法结果的准确率指标影响图；(c)为训练数据集大小对DPFM和PFM算法结果的召回率指标影响图。

具体实施方式

为了使本发明的目的、技术方案及优势更加清晰,下面结合附图和具体实施例对本发明做进一步详细说明。此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

一种兼顾多样性与个性化的空间兴趣点推荐方法，流程如图1所示，具体方法如下所述：

步骤1.1：根据移动社交网络应用软件中查询到的用户访问地点的纬度值lat和经度值lon，建立用户访问地点集合P，令P＝{p₁,...,p_i,...,p_n}，其中，p_i＝(lat_i,lon_i)，且i＝1,2,…,n。

步骤1.2：构建用户社会关系网络图G，令G＝(U,E)，其中，U为所有用户的集合，u_a∈U，u_b∈U，边(u_a,u_b)∈E为用户u_a和u_b具有朋友关系；所述用户u_a和u_b具有朋友关系是指用户双方互为登记在对方社交软件的好友列表里，或者他们是亲属、同事等关系。

步骤1.3：建立所有用户的签到记录集合CK，令CK＝{＜u_a,p_k,t_r＞|u_a∈U,p_i∈P}，那么，访问过地点p_k的用户集合U_Pk＝{u_a|＜u_a,p_k,*＞∈CK}，其中*表示任意时间。

本实例中，采用Gowalla的2009年2月到2010年10月的用户签到数据作为分析数据(可从Stanford Large Network Dataset Collection取得)。该数据主要由用户社交关系网络图和用户签到记录的时空数据组成。其中，社会关系网络图中的节点代表用户，边代表用户之间的关系，该数据集涵盖了196591个节点以及950327条边；签到记录涵盖了从2009年2月份到2010年10月份共计6442890条记录，主要由用户id、签到时间、签到地点的经度、纬度以及签到地点的id组成。实验截取其中位于美国芝加哥市的经度在-88.04到-87.50之间，纬度在41.68到41.98之间的地区的数据作为实验分析数据，再删除其中签到次数少于5次的用户数据以及被访问次数少于5次的兴趣点数据，最终的数据包括41742条签到记录、1078个兴趣点和739名用户。

步骤2：根据所构建的地理-社会关系模型中地点对之间的地理-社会距离，计算模型中地点对在位置和社会联系上的相关度。

所述计算模型中地点对在位置和社会联系上的相关度的公式如公式(1)所示：

S(p_i,p_j)＝1-D_gs(p_i,p_j) (1)

其中，S(p_i,p_j)为地点对(p_i,p_j)在位置和社会联系上的相关度，D_gs(p_i,p_j)为地点对(p_i,p_j)之间的地理-社会距离；所述地点对(p_i,p_j)之间的地理-社会距离D_gs(p_i,p_j)的计算公式如公式(2)所示：

D_gs(p_i,p_j)＝ω·D_P(p_i,p_j)+(1-ω)·D_S(p_i,p_j) (2)

其中，D_P(p_i,p_j)为地点对(p_i,p_j)之间的地理距离，D_S(p_i,p_j)为地点对(p_i,p_j)之间的社会距离，ω为区间[0,1]内调节地点对(p_i,p_j)之间地理距离和社会距离在计算兴趣点的地理-社会距离时所占比重的参数；所述地点对(p_i,p_j)之间地理距离D_P(p_i,p_j)和社会距离D_S(p_i,p_j)的计算公式如公式(3)和公式(4)所示：

其中，E(p_i,p_j)为地点对(p_i,p_j)之间的欧氏距离，maxD为地点集合P中任意两点之间的最大距离，CU_ij为同时访问过地点p_i和地点p_j的用户集合，U_pi为访问过地点p_i的用户集合，U_pj为访问过地点p_j的用户集合；所述地点对(p_i,p_j)之间的欧氏距离E(p_i,p_j)的计算公式如公式(5)所示：

步骤3：根据地理-社会关系模型的地点集合P中任意一对地点之间的相关度，构建n×n阶的相关度矩阵W，其中，w_ij为相关度矩阵中的元素，表示地点p_i和p_j之间的相关度。

步骤4：将构建的用户社会关系网络图G通过谱聚类算法中的规范割集准则划分成2个最优子图G₁和G₂，以N维向量q＝[q₁,q₂,...,q_N]记录用户社会关系网络图的划分方法。

本实施例中，谱聚类算法示意图如图2所示，若用户社会关系网络图G中的顶点o属于最优子图G₁，则令q_o＝c₁，若用户社会关系网络图G中的顶点o属于最优子图G₂，则令q_o＝c₂，以此类推，其中，o＝1,…,N，c_k为常数，用于标记顶点o的聚类归属，N＝7。

步骤5：计算在划分最优子图时所截断的用户社会关系网络图G中边(u_a,u_b)的权重之和的函数，即损失函数Ncut(G₁,G₂)，损失函数为最小值时划分方案为最佳方案；所述损失函数的计算公式如公式(6)所示：

其中，L＝D-W，D为相关度矩阵W的对角矩阵，且有q^T为向量q的转置，d₁和d₂分别为用户社会关系网络子图G₁和G₂的权值之和，c₁和c₂均为常数，用于标记用户社会关系网络图G中的顶点o的聚类归属。

由于损失函数Ncut(G₁,G₂)经推导可化为广义瑞利熵的形式，根据瑞利熵性质可知，特征向量q为最小值时损失函数Ncut(G₁,G₂)也为最小值。

本实施例中，若使损失函数Ncut(G₁,G₂)为最小值，需满足q^TLq为最小值，而损失函数可化为广义瑞利熵的形式，即因此，只要使特征向量q为最小值，损失函数Ncut(G₁,G₂)也为最小值。

本实施例中，划分方案的划分准则如公式(7)所示：

其中，q_o为N维向量q中的元素，d为用户社会关系网络图G的权值之和。

步骤6：根据瑞利熵性质，取前M个令损失函数Ncut(G₁,G₂)为最小值的特征向量q，组成N×M矩阵R，其中第o个行向量代表顶点o，利用k-means聚类对用户社会关系网络图G中的顶点进行划分，最终得到k个聚类，即k个具有多样性的兴趣点集合。

根据瑞利熵性质，当q为L的最小特征值、次小特征值、……、最大特征值对应的特征向量时，分别取到R(L,q)的最小值、次小值、……、最大值，结合公式(6)可知，当q为L的最小特征值、次小特征值、……、最大特征值对应的特征向量时，q^TLq分别取得了最小值、次小值、……、最大值，由此可得到满足min(q^TLq)的最佳划分方案，即满足损失函数Ncut(G₁,G₂)为最小值的最佳划分方案。

本实施例中，k取10，要将带权无向图G划分为10个子图，则可取前2个最小特征值对应的特征向量，组成一个7×2矩阵R，第o个行向量代表顶点o，然后利用k-means聚类划分顶点，最终得到10个聚类。

本实施例中，根据用户个数S以及10个兴趣点集合中兴趣点的个数T，构建10个S×T维的用户-兴趣点访问次数矩阵F，用来记录用户访问兴趣点的次数，其中，矩阵中的元素f_st表示用户s访问兴趣点t的次数，而f_st满足以y_st为均值的泊松分布，则y_st可以组成一个与矩阵F具有相同行列数的S×T矩阵Y，并且矩阵Y可被分解为一个s×h维的矩阵U和一个t×h维的矩阵V，其中U中的元素u_sl(l＝1,…,h)表示用户s对兴趣点潜在属性l的偏好程度，V中的元素v_tl(l＝1,…,h)表示兴趣点t对潜在属性l的贴近程度。

令u_sl、v_tl服从Gamma先验分布，则参数为α和β条件下取得的矩阵U的概率p(U|α,β)和矩阵U的概率p(V|α,β)可采用公式(8)和公式(9)表示：

其中，α＝{α₁,α₂,…,α_h}为Gamma分布的形状参数，且α_l>0，β＝{β₁,β₂,…,β_h}为Gamma分布的尺度参数，且β_l>0，u_sl>0，v_tl>0，Г(·)为Gamma函数。

基于公式(8)和公式(9)，矩阵F满足矩阵Y的泊松概率分布p(F|Y)可采用公式(10)表示：

其中，

由于Y＝UV^T，故在给定条件为F时，U、V的后验概率p(U,V|F,α,β)可采用公式(11)表示：

p(U,V|F,α,β)∝p(F|Y)p(U|α,β)p(V|α,β) (11)

求取公式(11)的最大值，即可得到最能拟合F的矩阵U和矩阵V。

为求取公式(11)的最大值，取公式(11)的对数作为函数L(U,V|F)，如公式(12)所示：

根据公式(12)，分别求函数L(U,V|F)对参数u_sl、v_tl的偏导，得到公式(13)和公式(14)：

采用随机梯度下降法对公式(12)中的参数u_sl、v_tl进行求解，分别以公式(13)和公式(14)最为斜率，以为步长，得到迭代公式如公式(15)和公式(16)所示：

利用公式(15)和公式(16)分别对参数u_sl和v_tl进行迭代，最终得到拟合度较高的Y＝UV^T，用来预测用户访问兴趣点的次数。

本实施例中，分别采用矩阵分解算法中概率因子模型(PFM)和以地理-社会关系为基础的概率因子模型(DPFM)实现了兴趣点的多样性与个性化推荐，并对这两种算法的推荐效果进行对比，分别采用多样性、准确率和召回率三个指标对算法的效果和性能进行评价。

所述多样性、准确率和召回率三个指标的度量方法如公式(17)-公式(19)所示：

其中，Div_Lrec为多样性指标，precision@k为准确率指标，recall@k为召回率指标，L_rec表示推荐兴趣点的列表，L_test为测试兴趣点列表，由测试集中选出的前k个用户访问次数最多的兴趣点组成，且有k＝|L_test|＝|L_rec|，Div_Lrec的高低反映了推荐结果多样性的程度，其值越大，推荐列表L_rec的多样性程度越高，precision@k和recall@k的高低反映了推荐结果个性化的程度，其值越大，推荐列表L_rec的个性化程度越高。

本实施例中，令本方法的参数ω＝0.9，M＝2，k＝10，而PFM中的参数则根据文献MaH,LiuC,King I,et al.Probabilistic factor models for web site recommendation[C].//Proc of the 34th International ACM SIGIR Conference on Research andDevelopment in Information Retrieval.Beijing:ACM,2011:265-274.中的最优参数设定，α_k＝20、β_k＝0.2，分别以10％、20％、……90％的数据集作为两种算法的训练集，剩下的90％、80％、……10％的数据做为测试集，为了克服k-means聚类结果的随机性，针对每个用户的推荐结果的评估重复10次取平均值，再取整体用户的平均值作为推荐系统的整体评估值，对DPFM、PFM进行对比，对比结果如图3所示。

由图3(a)可知，我们提出的DPFM算法的多样性普遍高于不进行多样性分析的PFM算法；而图3(b)显示有三分之二的结果表明DPFM算法的准确率高于PFM，图3(c)显示DPFM算法的召回率高于PFM。综上所述，DPFM算法推荐的兴趣点列表在多样性和准确性方面都同时优于PFM方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；因而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种兼顾多样性与个性化的空间兴趣点推荐方法，其特征在于，包括以下步骤：

步骤1.1：根据移动社交网络应用软件中查询到的用户访问地点的纬度值lat和经度值lon，建立用户访问地点集合P，令P＝{p₁，...，p_i，...，p_n}，其中，p_i＝(lat_i，lon_i)，且i＝1，2，...，n；

步骤1.2：构建用户社会关系网络图G，令G＝(U，E)，其中，U为所有用户的集合，u_a∈U，u_b∈U，边(u_a，u_b)∈E为用户u_a和u_b具有朋友关系；所述用户u_a和u_b具有朋友关系是指用户双方互为登记在对方社交软件的好友列表里，或者他们是亲属、同事等关系；

步骤1.3：建立所有用户的签到记录集合CK，令CK＝{＜u_a，p_k，t_r＞|u_a∈U，p_i∈P}，那么，访问过地点p_k的用户集合U_Pk＝{u_a|＜u_a，p_k，*＞∈CK}，其中*表示任意时间；

步骤4：将构建的用户社会关系网络图G通过谱聚类算法中的规范割集准则划分成2个最优子图G₁和G₂，以N维向量q＝[q₁，q₂，...，q_N]记录用户社会关系网络图的划分方法；

步骤5：计算在划分最优子图时所截断的用户社会关系网络图G中边(u_a，u_b)的权重之和的函数，即损失函数Ncut(G₁，G₂)，损失函数为最小值时划分方案为最佳方案；所述损失函数的计算公式如下：

由于损失函数Ncut(G₁，G₂)经推导可化为广义瑞利熵的形式，根据瑞利熵性质可知，特征向量q为最小值时损失函数Ncut(G₁，G₂)也为最小值；

步骤6：根据瑞利熵性质，取前M个令损失函数Ncut(G₁，G₂)为最小值的特征向量q，组成N×M矩阵R，其中第o个行向量代表顶点o，利用k-means聚类对用户社会关系网络图G中的顶点进行划分，最终得到k个聚类，即k个具有多样性的兴趣点集合；

2.根据权利要求1所述的兼顾多样性与个性化的空间兴趣点推荐方法，其特征在于，所述步骤2中计算模型中地点对在位置和社会联系上的相关度的公式如下：

S(p_i，p_j)＝1-D_gs(p_i，p_j)；

其中，S(p_i，p_j)为地点对(p_i，p_j)在位置和社会联系上的相关度，D_gs(p_i，p_j)为地点对(p_i，p_j)之间的地理-社会距离；所述地点对(p_i，p_j)之间的地理-社会距离D_gs(p_i，p_j)的计算公式如下：

D_gs(p_i，p_j)＝ω·D_P(p_i，p_j)+(1-ω)·D_s(p_i，p_j)；

其中，D_P(p_i，p_j)为地点对(p_i，p_j)之间的地理距离，D_s(p_i，p_j)为地点对(p_i，p_j)之间的社会距离，ω为区间[0，1]内调节地点对(p_i，p_j)之间地理距离和社会距离在计算兴趣点的地理-社会距离时所占比重的参数；所述地点对(p_i，p_j)之间地理距离D_P(p_i，p_j)和社会距离D_S(p_i，p_j)的计算公式如下：

其中，E(p_i，p_j)为地点对(p_i，p_j)之间的欧氏距离，max D为地点集合P中任意两点之间的最大距离，CU_ij为同时访问过地点p_i和地点p_j的用户集合，U_pi为访问过地点p_i的用户集合，U_pj为访问过地点p_j的用户集合；所述地点对(p_i，p_j)之间的欧氏距离E(p_i，p_j)的计算公式如下：