CN108897750B

CN108897750B - 融合多元上下文信息的个性化地点推荐方法及设备

Info

Publication number: CN108897750B
Application number: CN201810401431.7A
Authority: CN
Inventors: 方芳; 余列冰; 刘袁缘; 郭明强; 余亚芳
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2021-10-29
Anticipated expiration: 2038-04-28
Also published as: CN108897750A

Abstract

本发明提供了融合多元上下文信息的个性化地点推荐方法及设备，包括：1、获取地理标签照片数据；2、地理标签照片多元上下文信息挖掘，通过对地点流行度、地点流行度波动、空间距离、基于用户的协同过滤以及基于用户评论的文本相似度等上下文信息的评估，分别计算出其对应的分数；3、基于排序学习的个性化地点推荐模型，在对个性化地点推荐问题进行转化的基础上，构建“用户‑地点”相关性特征向量，并采用排序学习方法建立地点推荐模型；4、根据3中模型，选取预测值排名前n个性化地点进行推荐，生成推荐结果并对推荐结果进行评价。本发明可以有效提高个性化地点推荐的准确率和召回率。

Description

融合多元上下文信息的个性化地点推荐方法及设备

技术领域

本发明涉及用户推荐系统技术领域，具体的涉及融合多元上下文信息的个性化地点推荐方法。

背景技术

个性化地点推荐可以为人们提供很好的基于地理位置的服务，现有的方法在地点推荐方面取得了一定的推荐效果，但还存在着一定的不足：首先，协同算法仅利用用户的签到地点进行推荐，但由于用户签到地点的稀疏性，使得相邻用户的搜索不够准确，推荐精度较差；其次，现有理论中计算空间距离影响下用户访问候选地点概率时，无差别地利用了所有用户的所有签到地点信息，未考虑不同用户出行距离差异这一个性化因素；最后，基于线性模型的方法通过人工调参确定参数，然而随着影响因素的增长，依靠人工的经验去拟合出一个合理的排序模型将变得不现实。

发明内容

本发明要解决的技术问题在于，针对上述目前现有个性化地点推荐方法存在精度较差以及未考虑用户差异的不足，提供融合多元上下文信息的个性化地点推荐方法及设备解决上述技术缺陷。

融合多元上下文信息的个性化地点推荐方法，结合两类VGI数据，实现城市功能区自动识别，包括以下四个步骤：

步骤1、从Flickr网站获取地理标签照片数据，并对地理标签照片数据进行预处理；

步骤2、对步骤1中进行预处理后的地理标签照片数据进行地理标签照片多元上下文信息挖掘，挖掘的信息包括地点流行度、地点流行度波动、用户空间距离、协同过滤以及文本相似度上下文信息；

步骤3、利用排序学习算法框架，融合步骤2中挖掘出的多元上下文信息构建个性化地点推荐模型；

步骤4、根据步骤3中得到的模型生成推荐结果及结果评价。

进一步的，步骤1中具体包括以下步骤：

S1、从Flickr网站下载研究区地理标签照片数据；

S2、采用均值漂移聚类算法对地理标签照片数据进行聚类；

S3、采用以下准则对数据用户进行过滤：该用户至少去过6个地点；用户在每个地点拍摄的照片平均数量不少于2张；照片文本评论中至少含有3个文本标签。

进一步的，步骤2中具体包括以下步骤：

S1、地点流行度评估

采用如下公式计算地点流行度：

式中，SP(j)为地点j的流行度，U_j为访问过地点j的用户集合，

为用户u在地点j拍摄的照片数量，使用log(x+1)对每个用户的照片数量进行加权；

S2、地点流行度波动评估

计算方法如下：首先将时间按照月份进行划分，统计该地点在各个月份的照片数量组成向量，地点j的流行度波动向量表示为：

式中，SPF(j)为地点j的流行度波动向量，

为地点j在月份t的照片数量，最后，对向量SPF(j)进行归一化，得到：

地点j在月份t的流行度值SPF(j,t)用

表示；

S3、空间距离评估

空间距离评估研究出行距离对用户地点选择的影响，对全体用户出行距离进行幂律分布建模的基础上再一次对单个用户的历史访问地点建模；

首先，利用幂律分布对全体用户相邻签到地点的距离进行建模，如以下公式所示，P(dis)表示用户访问dis千米之外的地点的可能性，α、k为幂律分布函数的两个参数；

P(dis)＝α·dis^k

对上述公式两边同取对数操作，可得到如下线性方程：

log(P(dis))＝log(α)+klog(dis)

以上线性方程采用最小二乘准则进行回归拟合，最终拟合后得到上述公式中的α、k参数；

将P(dis)作为先验概率，在此基础上再对单个用户进行建模，对于当前位于地点i的用户，以及给定距离为dis(i,j)的地点j，将用户访问地点j的意愿建模为用户访问该地点的可能性，计算公式如下：

其中，S为当前用户访问过的历史地点；

S4、基于用户的协同过滤评估

(1)用户相似度计算

采用如下公式计算用户相似度：

式中，S_uv为用户u、v共同签到过的地点集，N_uj、N_vj分别表示用户u、v在地点j拍摄过的照片数量，

分别表示用户u、v每次出行时在同一个地点拍摄过的最多照片数量，C_uj、C_vj分别表示用户u、v去过地点j的次数，C_j表示用户u或v去过地点j的次数，

表示全体用户访问地点j的平均次数；

(2)协同过滤计算

在计算出用户间相似度的基础上，对于给定的用户u，选取top-N个相似的用户组成用户集合U，用户u与地点j的协同过滤评分即用如下公式表示：

其中，

表示用户u在出行地点中拍摄的最多照片数量，

可以体现用户u对地点j的感兴趣程度；

S5、文本相似度评估

(1)对于每个地点，将在该地点拍摄照片相关的文本标签与评论组合成一个文档，并利用向量空间模型进行分析，对于给定数据集中的M个文本标签和N个地点，由向量空间模型产生一个词频逆文档频率矩阵T_M×N，矩阵中的每个T_ij值代表文本标签i在地点j的tfidf值，定义为词频与逆文档频率的乘积：

T_ij＝tf_ij·idf_ij

式中，tf_ij为原始词频，即文本标签i在地点j出现的次数；idf_ij为逆文档频率，通过如下公式计算：

其中df_ij为包含文本标签i的地点数量，根据tfidf矩阵，将每个地点的文本标签按tfidf值从大到小排列，选出前K个文本标签作为该地点的代表性文本标签：

(2)文本相似度计算

根据用户u的照片序列，将照片序列中的所有相关文本作为一个文档，并用向量空间模型进行分析，得到用户文档向量：

对于地点j用其代表性文本标签t_j的tfidf值组成地点文档向量：

用户u与地点j之间的文本相似度利用余弦距离进行计算：

进一步的，步骤3中具体包括以下步骤：

S1、个性化地点推荐问题转化

通过上下文信息的挖掘得到不同因素对地点推荐的评估值可组成“用户-地点”偏好向量，向量中的每一维都代表用户对相应地点的偏好信息，在月份t，给定当前位于地点i的用户u，则用户u对候选地点j的偏好向量表示为：

在地点推荐系统中，用户集合U＝{u₁,u₂,...,u_n}，与地点集合S＝{s₁,s₂,...,s_m}，个性化地点推荐问题描述为：对于任何一个用户u_i∈U，从地点集合S中找出一个用户u_i偏好的地点子集，并将其按偏好程度大小排序后推荐给用户，利用排序函数

u∈U,s∈S，将个性化地点推荐问题转化为排序学习问题；

S2、“用户-地点”偏好评估

采用如下公式计算用户对地点的偏好程度：

式中，C(i,j)为用户i对地点j的偏好程度，U_j表示去过地点j的用户集合，N_i为用户i一共拍摄过的照片数量，|U_j|为去过地点j的用户数量；

S3、基于RankSVM的地点推荐

通过上下文信息的挖掘得到“用户-地点”偏好向量集合

根据用户对地点的偏好程度，将

作为正样本，

作为负样本，最后，用SVM算法对正负样本进行分类，得到的模型用于“用户-地点”偏好的排序；

RankSVM的优化问题描述为：

ξ_i≥0,i＝1,...,m

式中，w为待学习的权重向量，ξ为松弛因子，yi为类别信息，即表征了

与

的相关性大小，该优化问题与SVM的优化问题完全一致，直接用SVM进行求解；在学习到权重向量w后，将

的大小作为用户u对地点S_i偏好程度的评判依据，最终完成对地点的排序。

进一步的，步骤5中具体包括以下步骤：

S1、根据步骤3中模型，选取预测值排名前n个性化地点进行推荐，生成推荐结果；

S2、采用留一法(Leave-One-Out，LOO)作为评估方法：抽取实验用户的最后一次出行地点作为测试数据，其余数据作为训练数据，当最终模型给出的相关性最高的地点与用户访问的最后一个地点相同时则认为针对当前用户模型给出的推荐结果是正确的，否则即为错误的，推荐结果的评价指标为平均准确率均值和召回率。

一种存储设备，所述存储设备存储指令及数据用于实现融合多元上下文信息的个性化地点推荐方法。

一种融合多元上下文信息的个性化地点推荐设备，包括：处理器及所述存储设备；所述处理器加载并执行所述存储设备中的指令及数据用于实现融合多元上下文信息的个性化地点推荐方法。

为了克服现有推荐技术推荐精度不足以及未充分考虑用户个性化特性等不足，本发明有效融合地理标签照片中丰富的上下文信息，综合考虑地点流行度、地点流行度波动、空间距离、相似用户以及用户与地点文本相似度等多元因素对地点推荐的影响，同时，考虑到基于排序学习的推荐算法能更有效地反映用户的不同偏好，提高推荐的准确性。本发明将地点推荐问题建模为排序学习问题，构建基于排序学习的个性化地点推荐模型，自动优化权重参数。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明融合多元上下文信息的个性化地点推荐方法流程图；

图2为本发明地点推荐问题与排序学习问题的映射关系图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

参照附图1，本发明的实施例提供了融合多元上下文信息的个性化地点推荐方法，包括以下步骤：

步骤1、数据获取与预处理；

S1、从Flickr网站(www.flickr.com)下载研究区地理标签照片数据；

S2、采用均值漂移(Mean Shift)聚类算法对地理标签照片数据进行聚类；

步骤2、地理标签照片多元上下文信息挖掘

S1、地点流行度评估

为防止单个用户在同一个地点上传过多的照片以致影响地点流行度的正确计算，本发明采用如下公式计算地点流行度：

式中，SP(j)为地点j的流行度，U_j为访问过地点j的用户集合，

为用户u在地点j拍摄的照片数量。使用log(x+1)对每个用户的照片数量进行加权，可以更加准确地体现出全体用户对该地点的访问情况。

S2、地点流行度波动评估

考虑到时间因素对用户地点选择的影响，不同地点在不同季节的流行度波动可能较大，本发明通过计算地点每月的流行度值，作为对地点流行度的补充。计算方法如下：首先将时间按照月份进行划分，统计该地点在各个月份的照片数量组成向量，地点j的流行度波动向量可表示为：

式中，SPF(j)为地点j的流行度波动向量，

为地点j在月份t的照片数量。最后，对向量SPF(j)进行归一化，得到：

由此，地点j在月份t的流行度值SPF(j,t)可用

表示。

S3、空间距离评估

空间距离评估研究出行距离对用户地点选择的影响。考虑到不同用户的出行距离存在较大差异这一个性化因素，本发明在对全体用户出行距离进行幂律分布建模的基础上再一次对单个用户的历史地点建模。

首先，利用幂律分布对全体用户相邻签到地点的距离进行建模，如下公式所示，P(dis)表示用户访问dis千米之外的地点的可能性，α、k为幂律分布函数的两个参数。

P(dis)＝α·dis^k

一般地，对公式两边同取对数操作，可得到如下线性方程：

log(P(dis))＝log(α)+klog(dis)

以上线性方程可以简单地采用最小二乘准则进行回归拟合。最终拟合后即可得到公式中的α、k参数。

考虑到不同用户日常活动范围的不同，本发明将P(dis)作为先验概率，在此基础上再对单个用户进行建模。对于当前位于地点i的用户，以及给定距离为dis(i,j)的地点j，将用户访问地点j的意愿建模为用户访问该地点的可能性。计算公式如下：

其中，S为当前用户访问过的历史地点。

S4、基于用户的协同过滤评估

(1)用户相似度计算

综合考虑用户的共同签到地点集和未共同签到地点集，以及用户对共同签到地点集的隐式的评分差异，采用如下公式计算用户相似度：

式中，S_uv为用户u、v共同签到过的地点集；N_uj、N_vj分别表示用户u、v在地点j拍摄过的照片数量；

分别表示用户u、v每次出行时在同一个地点拍摄过的最多照片数量；C_uj、C_vj分别表示用户u、v去过地点j的次数；C_j表示用户u或v去过地点j的次数；

表示全体用户访问地点j的平均次数。

(2)协同过滤计算

在计算出用户间相似度的基础上，对于给定的用户u，即可选取top-N个相似的用户组成用户集合U。用户u与地点j的协同过滤评分即可用如下公式表示：

其中，

表示用户u在出行地点中拍摄的最多照片数量。

可以体现用户u对地点j的感兴趣程度。

S5、文本相似度评估

(1)对于每个地点，将在该地点拍摄照片相关的文本标签与评论组合成一个文档，并利用向量空间模型(Vector Space Model)进行分析。对于给定数据集中的M个文本标签和N个地点，由向量空间模型产生一个词频逆文档频率(Term Frequency-Inversedocument frequency，tfidf)矩阵T_M×N。矩阵中的每个T_ij值代表文本标签i在地点j的tfidf值，可定义为词频与逆文档频率的乘积：

T_ij＝tf_ij·idf_ij

式中，tf_ij为原始词频(Raw term frequency)，即文本标签i在地点j出现的次数；idf_ij为逆文档频率，可通过如下公式计算：

其中df_ij为包含文本标签i的地点数量。

根据tfidf矩阵，将每个地点的文本标签按tfidf值从大到小排列，即可选出前K个文本标签作为该地点的代表性文本标签，记为：

(2)文本相似度计算

对于地点j可用其代表性文本标签t_j的tfidf值组成地点文档向量：

用户u与地点j之间的文本相似度则利用余弦距离进行计算：

步骤3、基于排序学习的个性化地点推荐模型

S1、个性化地点推荐问题转化

通过上下文信息的挖掘得到不同因素对地点推荐的评估值可组成“用户-地点”偏好向量，向量中的每一维都代表了用户对相应地点的偏好信息。例如，在月份t，给定当前位于地点i的用户u，则用户u对候选地点j的偏好向量可表示为：

在地点推荐系统中，假设用户集合U＝{u₁,u₂,...,u_n}，与地点集合S＝{s₁,s₂,...,s_m}。那么，个性化地点推荐问题可以描述为：对于任何一个用户u_i∈U，从地点集合S中找出一个用户u_i偏好的地点子集，并将其按偏好程度大小排序后推荐给用户。在解决个性化地点推荐问题时，需要得到一个能够有效地融合多元上下文信息并评估用户对相应地点的偏好程度的排序函数

u∈U,s∈S，将个性化地点推荐问题转化为排序学习问题。

S2、“用户-地点”偏好评估

参考图2，在基于位置的照片分享网站中，用户对地点的偏好程度体现在多个方面，用户在某一地点拍摄的照片数量多少在一定程度上体现了用户对该地点的偏好。同时，由于用户与地点之间的物理交互性，用户访问该地点的次数以及该地点被全体用户访问的情况也反应了目标用户对该地点的偏好程度，即用户在该地点拍摄的照片数量和访问该地点的次数越多，且地点被其他用户访问的次数越少，则用户对该地点的偏好程度越高。基于上述考虑，采用如下公式计算用户对地点的偏好程度：

式中，C(i,j)为用户i对地点j的偏好程度；U_j表示去过地点j的用户集合；N_i为用户i一共拍摄过的照片数量；|U_j|为去过地点j的用户数量。

S3、基于RankSVM的地点推荐

通过上下文信息的挖掘得到“用户-地点”偏好向量集合

根据用户对地点的偏好程度，即可将

作为正样本，

作为负样本。最后，用SVM算法对正负样本进行分类，得到的模型即可用于“用户-地点”偏好的排序。

RankSVM的优化问题可描述为：

ξ_i≥0,i＝1,...,m

式中，w为待学习的权重向量；ξ为松弛因子；y_i为类别信息，即表征了

与

的相关性大小。该优化问题与SVM的优化问题完全一致，可直接用SVM进行求解。在学习到权重向量w后，即可将

步骤4、生成推荐结果及结果评价

S2、采用留一法(Leave-One-Out，LOO)作为评估方法。抽取实验用户的最后一次出行地点作为测试数据，其余数据作为训练数据。当最终模型给出的相关性最高的地点与用户访问的最后一个地点相同时则认为针对当前用户模型给出的推荐结果是正确的，否则即为错误的。推荐结果的评价指标为平均准确率均值(Mean Average Precision，MAP)和召回率(Recall)。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。