CN112784177A

CN112784177A - 一种空间距离自适应的下一个兴趣点推荐方法

Info

Publication number: CN112784177A
Application number: CN202110062234.9A
Authority: CN
Inventors: 俞东进; 沈熠; 俞婷; 王东京
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-05-11
Anticipated expiration: 2041-01-18
Also published as: CN112784177B

Abstract

本发明公开了一种空间距离自适应的下一个兴趣点推荐方法。该方法结合马尔科夫链并且能够自适应用户个人偏好进行兴趣点推荐。使用马尔科夫链捕获用户签到序列的时序关系，并且为每个用户生成个性化的转移矩阵用于捕获用户个人偏好。引入张量分解模型解决数据集签到数据稀疏的问题，使每个转移矩阵都受到相似用户、相似兴趣点、用户潜在偏好的影响，生成更完善和高质量的用户转移矩阵，通过这个转移矩阵捕获完善的用户个人偏好和兴趣点之间的转移关系。通过用户签到序列学习用户的个性化潜在行为模式，从而捕获到有效的用户潜在个人偏好。通过融合空间距离的方法对用户长期潜在个人偏信息作出取舍，根据兴趣点间的距离自适应用户个人偏好。

Description

一种空间距离自适应的下一个兴趣点推荐方法

技术领域

本发明属于推荐系统领域，具体涉及一种根据空间距离自适应用户兴趣和兴趣点转移关系的下一个兴趣点推荐方法。

背景技术

近年来，随着网络技术的不断发展，人们在网上能够获取到的信息日益增加，从海量的数据中精确推荐用户所感兴趣的信息成了一个巨大的挑战。针对信息过载的问题，研究学者们提出了各式各样的推荐系统用于音乐、电影、广告、商品等领域。例如，在网易云音乐中会通过用户经常听的音乐推荐相似的音乐，在京东和淘宝上则会通过用户历史购买的商品以及用户曾经搜索过或者点击过的商品进行推荐商品。

兴趣点推荐和上面提到电商、音乐、广告有所不同。兴趣点推荐的用户签到数据非常稀疏，一个用户通常只会访问兴趣点集合的很小一部分。除此之外，用户访问兴趣点会受到空间和时间上的限制，相比其他领域，兴趣点推荐中的上下文信息会更加重要。例如用户在工作日早上会前往工作地点，中午的时候会选择距离工作地点比较近的餐厅用餐；而在周末的时候，他们会选择娱乐场所或者旅游景点进行签到。

目前推荐系统中常用的协同过滤可以通过签到数据预测用户对兴趣点的偏好，其中有一些是通过计算用户-用户、兴趣点-兴趣点之间的相似度来进行推荐，但是由于存在数据稀疏的问题而使得推荐精度较低。有一些则选择通过用户历史访问的兴趣点建立模型，从而推荐用户最可能访问的K个兴趣点，但其往往忽略了用户签到之间的连续关系，而这在兴趣点推荐上非常重要，因为用户的运动通常是连续，有效兴趣点推荐系统应该结合用户的签到序列、用户个人偏好以及空间上的距离。

发明内容

针对现有技术的不足，本发明提出了一种空间距离自适应的下一个兴趣点推荐方法，结合用户签到序列、上下文信息和兴趣点之间的空间关系，采用马尔科夫链和矩阵分解方法解决签到兴趣点签到数据稀疏的问题，最后通过贝叶斯排序的方式对用户的预测结果进行排序，向用户推荐下一个兴趣点。

一种空间距离自适应的下一个兴趣点推荐方法，具体包括以下步骤：

步骤一、数据获取与预处理

获取用户一系列历史签到记录，每条签到记录包含签到时间、用户名称、兴趣点，提取出所有用户和所有兴趣点，删除其中出现次数少于a次的个别兴趣点和个别用户，得到用户集合和兴趣点集合。

作为优选，a的取值为10。

步骤二、构建签到序列

将步骤一预处理后的每个用户的历史签到记录按照签到时间的先后顺序分别排序，得到每个用户按照时间顺序的签到序列。

步骤三、构建转移矩阵

根据步骤二得到的用户签到序列，采用马尔科夫链对每个用户u构建一个转移矩阵A^u，其中元素

表示签到序列中是否存在用户u从兴趣点i出发到兴趣点l的记录，存在则为1，否则为0；合并所有用户的转移矩阵A^u得到一个转移张量A；

步骤四、估计用户签到概率

使用Tucker Decomposition线性分解模型对步骤三中得到转移张量A进行估计，得到估计张量

其中C为核心张量，U为用户特征矩阵，行表示用户，列表示用户的潜在特征因子；I为当前所在兴趣点i的特征矩阵，行表示当前所在兴趣点，列表示当前所在兴趣点的潜在特征因子；L为下一个兴趣点l的特征矩阵，行表示下一个兴趣点，列表示下一个兴趣点的潜在特征因子；然后根据张量模型成对之间的相互作用估计用户对兴趣点的签到概率，即估计张量

中每个元素的估计值。

步骤五、计算用户标准化签到概率

定义用户u从当前所在兴趣点i出发到下一个兴趣点l的签到概率p_u(i，l)为：

根据签到概率p_u(i，l)计算用户的标准化签到概率

其中ρ和k为待估计参数，使用最小二乘回归法学习；

表示用户u当前所在兴趣点i和下一个兴趣点l之间的距离；Max(p_u)表示用户u历史签到序列中当前所在兴趣点和下一个兴趣点之间最大的转移概率。

步骤六、计算用户转移概率

将步骤五得到的用户标准化签到概率输入到sigmoid激活函数中，得到权重参数ξ：

其中σ表示sigmoid激活函数，

e表示自然常数；

表示对

进行E(x)＝wx+b的线性变换操作，w、b为常数；

然后根据权重参数ξ，得到位于兴趣点i的用户u对下一个兴趣点l的转移概率：

估计张量

中的元素，u_U，L表示用户U与下一个兴趣点L的关系矩阵分解后得到的用户u的潜在因子向量；l_L，U表示下一个兴趣点L与用户U的关系矩阵分解后得到的下一个兴趣点l的潜在因子向量；l_L，I表示当前兴趣点I和下一个兴趣点L的关系矩阵分解后得到的下一个兴趣点l的潜在因子向量；i_I，L表示当前兴趣点I和下一个兴趣点L的关系矩阵分解后得到的当前所在兴趣点i的潜在因子向量；

步骤七、学习签到概率

对步骤六的结果进行排序，定义兴趣点m和n之间的排名关系为：

其中m＞u，i n表示用户u从兴趣点i移动到兴趣点m的概率

大于移动到兴趣点n的概率

因此：

P(Θ|＞_u，i)∝P(＞_u，i|Θ)P(Θ) (7)

其中Θ表示模型参数的集合，当每个用户的签到历史为独立的，且模型参数的先验概率服从正态分布

则通过最大化后验概率学习模型参数Θ，得到优化公式：

然后根据优化公式，采用随机梯度下降法对参数Θ进行优化：

其中ω表示梯度步长，对每个用户的签到序列进行采样，然后采用随机梯度下降法沿着负梯度方向更新参数Θ，迭代至收敛或迭代结束，学习每个用户下一个兴趣点的签到概率

作为优选，排序方法使用贝叶斯个性化排序的方式。

步骤八、兴趣点推荐

根据步骤七学习得到的用户下一个兴趣点的签到概率，计算用户签到序列中的最后一个兴趣点对其他所有兴趣点的签到概率，将其中签到概率最大的K个兴趣点作为下一个兴趣点推荐给该用户。

本发明具有以下有益效果：

1、通过用户历史签到记录，学习用户的个性化潜在行为模式，从而捕获到有效的用户潜在的个人偏好和兴趣点之间的转移关系。通过对真实数据集的分析，当访问空间距离上接近的兴趣点的时候，相较于用户个人偏好，兴趣点之间的转移关系会对用户产生更加大的影响；而访问空间距离上相距较远的兴趣点的时候，用户个人偏好会对用户产生更大的影响。所以融合了空间距离的方法对自适应用户对不同距离的兴趣点的潜在偏好权重，实现为每个用户推荐更加准确的兴趣点。

2、使用马尔科夫链捕获用户签到序列的时序关系，并且为每个用户生成个性化的转移矩阵用于捕获用户的个人偏好和兴趣点之间的转移关系。引入张量分解模型解决数据集签到数据稀疏的问题，使每个个性化转移矩阵都受到相似用户、相似兴趣点、用户潜在偏好的影响，生成更加完善和高质量的用户转移矩阵，通过这个转移矩阵捕获完善的用户个人偏好和兴趣点转移关系。

附图说明

图1为一种空间距离自适应的下一个兴趣点推荐方法流程图

具体实施方式

以下结合附图对本发明作进一步的解释说明；

如图1所示，本方法具体包括以下步骤：

步骤一、数据获取与预处理

采用Foursquare等位置社交服务网站采集到的真实数据集，数据集中包含一系列历史签到记录，每条签到记录包含签到时间、用户、兴趣点。从数据集中提取出所有用户和所有兴趣点，因为出现次数过少的个别用户和兴趣点会对实验结果产生较大偏差，所以删除其中出现次数少于10次的个别兴趣点和个别用户，最终得到用户集合和兴趣点集合。

步骤二、构建签到序列

步骤三、构建转移矩阵

为捕捉用户在不同兴趣点之间的转移关系，根据步骤二得到的用户签到序列，采用马尔科夫链对每个用户u构建一个转移矩阵A^u，其中元素

步骤四、估计用户签到概率

其中C为核心张量，U为用户特征矩阵，行表示用户，列表示用户的潜在特征因子；I为当前所在兴趣点i的特征矩阵，行表示当前所在兴趣点，列表示当前所在兴趣点的潜在特征因子；L为下一个兴趣点l的特征矩阵，行表示下一个兴趣点，列表示下一个兴趣点的潜在特征因子；

然后根据三个张量模型成对之间的相互作用估计用户对兴趣点的签到概率

即估计张量

中每个元素的估计值：

u_U，L表示用户U与下一个兴趣点L的关系矩阵分解后得到的用户u的潜在因子向量；l_L，U表示下一个兴趣点L与用户U的关系矩阵分解后得到的下一个兴趣点l的潜在因子向量；l_L，I表示当前兴趣点I和下一个兴趣点L的关系矩阵分解后得到的下一个兴趣点l的潜在因子向量；i_I，L表示当前兴趣点I和下一个兴趣点L的关系矩阵分解后得到的当前所在兴趣点i的潜在因子向量；u_U，L、l_L，I、u_U，I这三个关系矩阵包含在转移张量A中。

由于组合u_U，I·i_I，U不依赖于L并且对排名没有影响，因此可以忽略，所以

可以表示为：

步骤五、计算用户标准化签到概率

根据签到概率p_u(i，l)计算用户的标准化签到概率

其中ρ和k为待估计参数，使用最小二乘回归法学习；

步骤六、计算用户转移概率

其中σ表示sigmoid激活函数，

e表示自然常数；

表示对

进行E(x)＝wx+b的线性变换操作，w、b为常数；

步骤七、学习签到概率

在进行下一兴趣点推荐时，将给出K个概率不同的推荐点，这些推荐点按照用户当前位置之后可能访问的可能性进行排名，此时兴趣点之间的排名顺序比其准确概率值更具有关联性，因此采用贝叶斯个性化排序的方式对步骤六的结果进行排序，定义兴趣点m和n之间的排名关系为：

其中m＞_u，i n表示用户u从兴趣点i移动到兴趣点m的概率

大于移动到兴趣点n的概率

因此：

P(Θ|＞_u，i)∝P(＞_u，i|Θ)P(Θ) (9)

其中Θ表示模型参数的集合，当每个用户的签到历史为独立的，通过最大化后验概率学习模型参数Θ：

定义两个兴趣点之间的排名关系：

将排名关系输入到sigmoid激活函数中进行排序：

假设模型参数的先验概率服从正态分布

通过最大化后验概率来学习模型参数Θ，得到最终的优化公式：

由于该优化公式可微，所以采用随机梯度下降法对参数Θ进行优化：

步骤八、兴趣点推荐

Claims

1.一种空间距离自适应的下一个兴趣点推荐方法，其特征在于：该方法具体包括以下步骤：

步骤一、数据获取与预处理

获取用户一系列历史签到记录，每条签到记录包含签到时间、用户名称、兴趣点，提取出所有用户和所有兴趣点，删除其中出现次数少于a次的个别兴趣点和个别用户，得到用户集合和兴趣点集合；

步骤二、构建签到序列

将步骤一预处理后的每个用户的历史签到记录按照签到时间的先后顺序分别排序，得到每个用户按照时间顺序的签到序列；

步骤三、构建转移矩阵

步骤四、估计用户签到概率

中每个元素的估计值；

步骤五、计算用户标准化签到概率

定义用户u从当前所在兴趣点i出发到下一个兴趣点l的签到概率p_u(i,l)为：

根据签到概率p_u(i,l)计算用户的标准化签到概率

其中ρ和k为待估计参数，使用最小二乘回归法学习；

表示用户u当前所在兴趣点i和下一个兴趣点l之间的距离；Max(p_u)表示用户u历史签到序列中当前所在兴趣点和下一个兴趣点之间最大的转移概率；

步骤六、计算用户转移概率

其中σ表示sigmoid激活函数，

e表示自然常数；

表示对

进行E(x)＝wx+b的线性变换操作，w、b为常数；

估计张量

中的元素，y_U,L表示用户U与下一个兴趣点L的关系矩阵分解后得到的用户u的潜在因子向量；l_L,U表示下一个兴趣点L与用户U的关系矩阵分解后得到的下一个兴趣点l的潜在因子向量；l_L,I表示当前兴趣点I和下一个兴趣点L的关系矩阵分解后得到的下一个兴趣点l的潜在因子向量；i_I,L表示当前兴趣点I和下一个兴趣点L的关系矩阵分解后得到的当前所在兴趣点i的潜在因子向量；

步骤七、学习签到概率

其中m>_u,in表示用户u从兴趣点i移动到兴趣点m的概率

大于移动到兴趣点n的概率

因此：

P(Θ|>_u,i)∝P(>_u,i|Θ)P(Θ) (7)

则通过最大化后验概率学习模型参数Θ，得到优化公式：

步骤八、兴趣点推荐

2.如权利要求1所述一种空间距离自适应的下一个兴趣点推荐方法，其特征在于：步骤一中a的取值为10。

3.如权利要求1所述一种空间距离自适应的下一个兴趣点推荐方法，其特征在于：步骤七中使用的排序方法为贝叶斯个性化排序。