CN109918576B

CN109918576B - 一种基于联合概率矩阵分解的微博关注推荐方法

Info

Publication number: CN109918576B
Application number: CN201910018970.7A
Authority: CN
Inventors: 张明新; 熊孝全
Original assignee: Changshu Institute of Technology
Current assignee: Changshu Institute of Technology
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2021-01-05
Anticipated expiration: 2039-01-09
Also published as: CN109918576A

Abstract

本发明公开了一种基于联合概率矩阵分解的微博关注推荐方法，包括步骤1、读取用户关系信息和用户交互行为信息；步骤2、由所述用户关系信息构建用户关系矩阵；步骤3、由所述用户交互行为信息构建长期影响力矩阵，将长期影响力矩阵作为用户影响力矩阵；步骤4、对用户关系矩阵和用户影响力矩阵进行联合概率矩阵分解，得到用户潜在特征矩阵和影响力潜在特征矩阵，对用户潜在特征矩阵和影响力潜在特征矩阵內积得到用户关系强度矩阵，根据用户关系强度矩阵提取用户关系强度列表，根据用户关系强度列表进行推荐。本发明考虑交互行为的时效性，能得到个性化的推荐结果，在一定程度上缓解了数据稀疏性问题，能够提供更好的推荐结果。

Description

一种基于联合概率矩阵分解的微博关注推荐方法

技术领域

本发明涉及一种微博关注推荐方法，特别是涉及一种基于联合概率矩阵分解的微博关注推荐方法。

背景技术

社交网络庞大的用户基数以及极快的增长速度，产生了海量的社交网络数据。截至2017年，新浪微博月活跃人数已接近3亿，每天产生超过一亿条微博，月增长用户超过2000万。如何有效利用这些数据为用户推荐好友，缓解信息过载，成为一个亟需解决的难题。

现有技术已有将传统的推荐技术应用于社交网络推荐中。例如，从关联关系出发，假设存在关联关系的对象更容易受到同一用户关注，利用对象间的关联关系进行推荐。又如，将在线社交网络中存在着不同于直接连接的弱依赖关系，以及社交网络具有异质性，两者结合起来应用于社交网络关注推荐。也有技术方案通过挖掘社交关系，建立局部信任和全局信任，并利用信任的传播性质对信任关系进行建模，最后综合考虑相似关系和信任关系筛选邻居节点进行推荐。还有的方案考虑了用户之间的交互行为，通过用户间的关注关系强度、交互频率、个体兴趣计算用户之间的关联兴趣，并基于此产生推荐列表。但是上述方法仅考虑了用户之间的静态的关注关系和交互频率，并不能准确衡量用户之间的关系强度，导致推荐结果被接受概率低。

发明内容

针对上述现有技术的缺陷，本发明提供了一种基于联合概率矩阵分解的微博关注推荐方法，以缓解数据稀疏性问题，能够提供更好的推荐结果。

本发明技术方案如下：一种基于联合概率矩阵分解的微博关注推荐方法，包括以下步骤：

步骤1、读取用户关系信息和用户交互行为信息；

步骤2、由所述用户关系信息构建用户关系矩阵；

步骤3、由所述用户交互行为信息构建长期影响力矩阵，将长期影响力矩阵作为用户影响力矩阵；

步骤4、对用户关系矩阵和用户影响力矩阵进行联合概率矩阵分解，得到用户潜在特征矩阵和影响力潜在特征矩阵，对用户潜在特征矩阵和影响力潜在特征矩阵內积得到用户关系强度矩阵，根据用户关系强度矩阵提取用户关系强度列表，根据用户关系强度列表进行推荐；

所述用户关系矩阵为S(v)＝{(u₁,w₁),(u₂,w₂),...,(u_n,w_n)}，其中v,u_i,i＝1,2,...,n为用户，n为数据中与用户v相似的用户数目；w_i,i＝1,2,...,n为用户u_i与v的关系相似度在v所有相似用户中的权重，

其中Sim(u_i,v)为用户u_i与v的双向关系相似度的线性加权相似度，所述双向关系相似度为粉丝关系相似度和关注关系相似度；

所述长期影响力矩阵基于公式

更新，其中I_n1表示更新后的长期影响力矩阵；I_ol是更新前的长期影响力矩阵；I_n是基于最新的交互行为构建的影响力矩阵；N是矩阵中总的交互行为数目，所述I_nl,I_ol,I_n基于

构建，T_L表示矩阵构建时间点，

t是当前的时间；t₀是矩阵建立时的时间，hl₀是半衰期的初始值，d_acc表示模型建立后到当前所经历的时间，常量d_w表示d_acc对遗忘速度的影响程度，

Action(u,v,s,i)＝α₁Like(u,v,s,i)+α₂Retweet(u,v,s,i)+α₃Comment(u,v,s,i)，

m为用户u所发微博的总数，t是矩阵建立时的时间，s是数据的获取的时间长度，α₁,α₂,α₃为权重系数，Like(u,v,s,i)是用户v对u的第i条微博点赞，Retweet(u,v,s,i)是用户v对u的第i条微博转发，Comment(u,v,s,i)用户v对u的第i条微博评论。

进一步的，所述步骤2中由所述用户关系信息构建用户关系矩阵后，判断用户v是否在线，如果用户在线进入步骤3’，如果用户不在线进入所述步骤3，

所述步骤3’为由所述用户交互行为信息构建短期影响力矩阵，将短期影响力矩阵作为用户影响力矩阵，进入步骤4，

所述短期影响力矩阵为

T_S表示矩阵构建时间点，

m为用户u在时间S内所发微博的总数,t是矩阵建立时的时间,α₁,α₂,α₃为权重系数，Like(u,v,s,i)是用户v对u的第i条微博点赞，Retweet(u,v,s,i)是用户v对u的第i条微博转发，Comment(u,v,s,i)用户v对u的第i条微博评论，t₀是矩阵建立的初始时间；hl是影响力的半衰期。

进一步的，所述时间S由以下公式确定

MinDays，MaxDays，MinActionNums，MaxActionNums为常量，RAN是近期交互行为数目。

进一步的，所述Sim(u,v)＝λSim_I(u,v)+(1-λ)Sim_O(u,v)，

其中Sim_I(u,v)是用户u与v的粉丝关系相似度；Sim_O(u,v)是用户u与v的关注关系相似度；N_I(u)和N_I(v)分别表示用户u与v的粉丝用户的集合；N_O(u)和N_O(v)分别表示用户u与v的关注用户的集合，λ是粉丝相似度的权值。

进一步的，所述根据用户关系强度列表进行推荐是将用户关系强度列表中用户关系强度数值最大的前N个用户u_i推荐给用户v。

本发明所提供的技术方案的优点在于：引入遗忘函数来差异性地对待不同时间的交互行为，考虑交互行为的时效性建立了用户影响力模型，结合静态关注关系，并引入联合概率矩阵分解方法，从而得到个性化的推荐结果，在一定程度上缓解了数据稀疏性问题，能够提供更好的推荐结果。

附图说明

图1为本发明基于联合概率矩阵分解的微博关注推荐方法流程示意图。

图2为UPMFF模型示意图。

具体实施方式

下面结合实施例对本发明作进一步说明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等同形式的修改均落于本申请所附权利要求所限定的范围内。

请结合图1所示，实施例所涉及的基于联合概率矩阵分解的微博关注推荐方法是这样的：

步骤1：读取用户关系信息和用户交互行为信息；

步骤2：由所述用户关系信息构建用户关系矩阵，考虑节点共同邻居的数目，节点相似度正比于共同邻居数目。综合考虑节点出度相似度和入度相似度，对两种相似度的计算如下:

其中Sim_I(u,v)是用户u与v的粉丝关系相似度；Sim_O(u,v)是用户u与v的关注关系相似度；N_I(u)和N_I(v)分别表示用户u与v的粉丝用户的集合；N_O(u)和N_O(v)分别表示用户u与v的关注用户的集合。

使用双向关系线性加权来计算最终的关系相似度

Sim(u,v)＝λSim_I(u,v)+(1-λ)Sim_O(u,v)

λ是粉丝相似度的权值，在此基础上，引入用户相似度权重，

其中Sim(u_i,v)为用户u_i与v的双向关系相似度的线性加权相似度，双向关系相似度为粉丝关系相似度和关注关系相似度，n为数据中与用户v相似的用户数目，最终用户v的用户关系矩阵为S(v)＝{(u₁,w₁),(u₂,w₂),...,(u_n,w_n)}。

判断用户v是否在线，如果用户在线，进入步骤3’，如果用户不在线，进入步骤3。

步骤3’引入遗忘函数来差异性地对待不同时间的交互行为。定义遗忘函数如下：

t是矩阵建立时的时间，t₀是矩阵建立的初始时间，hl是影响力的半衰期，是影响力衰退到初始值一半时所用的时间。当t＝t₀时，F(t)＝1；当t-t₀＝hl时，F(t)＝1/2。

短期影响力模型指定了一个大小为S的时间窗口，覆盖了用于建模的用户交互行为。为了确定时间窗口的大小，定义了四个常量：MinDays，MaxDays，MinActionNums，MaxActionNums，并采用如下策略计算S：

RAN是近期交互行为数目。基于三种交互行为建立的短期影响力如下所示：

Action(u,v,s,i)＝α₁Like(u,v,s,i)+α₂Retweet(u,v,s,i)+α₃Comment(u,v,s,i)

其中，m为用户u在时间S内所发微博的总数，t是矩阵建立时的时间，α₁,α₂,α₃为三种交互行为的权重系数，Like(u,v,s,i)是用户v对u的第i条微博点赞，Retweet(u,v,s,i)是用户v对u的第i条微博转发，Comment(u,v,s,i)用户v对u的第i条微博评论；Action(u,v,s,i)是用户v对u的第i条微博的交互行为。用户u对v的影响力权重如下

u_i表示对v产生影响的用户；n是数据集中对v产生影响的用户数目。

短期影响力矩阵如下：

将短期影响力矩阵作为用户影响力矩阵，进入步骤4。

步骤3，为了模拟影响力的变化过程，当有新的交互行为发生时，系统会为这些交互行为生成新的影响力模型向量。长期影响力矩阵基于公式

更新，其中I_nl表示更新后的长期影响力矩阵；I_ol是更新前的长期影响力矩阵；I_n是基于最新的交互行为构建的影响力矩阵；N是矩阵中总的交互行为数目，I_nl,I_ol,I_n基于

构建，T_L表示矩阵构建时间点。

不同于短期影响力模型，长期影响力模型中遗忘函数半衰期不再是一个常量。长期影响力的衰减速度会随着时间的流逝而逐渐变慢，也就是半衰期会随着时间增长而变长，构造了新的遗忘函数如下

t是当前的时间；t₀是矩阵建立时的时间，hl₀是半衰期的初始值，d_acc表示模型建立后到当前所经历的时间，常量d_w表示d_acc对遗忘速度的影响程度，通过控制d_acc和d_w来控制长期影响力模型的衰落速度，

m为用户u所发微博的总数，t是矩阵建立时的时间，s是数据的获取的时间长度，α₁,α₂,α₃为权重系数，Like(u,v,s,i)是用户v对u的第i条微博点赞，Retweet(u,v,s,i)是用户v对u的第i条微博转发，Comment(u,v,s,i)用户v对u的第i条微博评论。将长期影响力矩阵作为用户影响力矩阵，进入步骤4。

步骤4：基于联合概率矩阵分解的微博关注推荐模型，请结合图2所示，

假设U_i、V_j和F_k的先验概率均服从高斯分布且相互独立，即：

其中，N(x|μ,σ²)表示均值为μ，方差为σ²的正态分布的概率密度函数，E为单位矩阵。

在给定用户u_i和v_j的潜在特征向量U_i和V_j后，用户u_i对v_j的影响力I_ij满足均值为g(U_i ^TV_j)、方差为

的正态分布且相互独立。影响力矩阵I的条件概率分布如下所示：

其中,

是指示函数：若用户u_i对用户v_j的行为产生影响，则

否则

是逻辑斯蒂函数，用于将

的值映射到[0,1]。

同理，在确定U_i和F_k后，关系相似度矩阵S的条件概率如下式所示：

推荐被接受的概率与静态的关注关系以及交互强度相关，所以UPMFF模型将基于交互行为的用户影响力矩阵和基于用户关系的用户关系矩阵进行联合分解，得到用户潜在特征矩阵和影响力潜在特征矩阵，对用户潜在特征矩阵和影响力潜在特征矩阵內积得到用户关系强度矩阵，根据用户关系强度矩阵提取用户关系强度列表，将用户关系强度列表中用户关系强度数值最大的前N个用户u_i推荐给用户v。

使用scrapy爬虫从新浪微博爬取了五个月(2018.1～2018.5)的微博数据。对这些数据进行简单处理：去除了一些交互次数小于10次或者关系数小于10的用户。采用F1-Measure作为算法评估标准，F1-Measure综合了信息检索领域中查准率和查全率两种评估指标，F1-Measure值越大表明推荐准确率越高。实验结果表明，本实施例算法推荐准确率高于SoRec、PMF和NMF算法。

Claims

1.一种基于联合概率矩阵分解的微博关注推荐方法，其特征在于，包括以下步骤：

步骤1：读取用户关系信息和用户交互行为信息；

步骤2：由所述用户关系信息构建用户关系矩阵；

所述长期影响力矩阵基于公式

更新，其中I_nl表示更新后的长期影响力矩阵；I_ol是更新前的长期影响力矩阵；I_n是基于最新的交互行为构建的影响力矩阵；N是矩阵中总的交互行为数目，所述I_nl,I_ol,I_n基于

构建，T_L表示矩阵构建时间点，

2.根据权利要求1所述的基于联合概率矩阵分解的微博关注推荐方法，其特征在于，所述步骤2中由所述用户关系信息构建用户关系矩阵后，判断用户v是否在线，如果用户在线进入步骤3’，如果用户不在线进入所述步骤3，

所述短期影响力矩阵为

T_s表示矩阵构建时间点，

m为用户u在时间S内所发微博的总数，t是矩阵建立时的时间，α₁,α₂,α₃为权重系数，Like(u,v,s,i)是用户v对u的第i条微博点赞，Retweet(u,v,s,i)是用户v对u的第i条微博转发，Comment(u,v,s,i)用户v对u的第i条微博评论。

3.根据权利要求2所述的基于联合概率矩阵分解的微博关注推荐方法，其特征在于，所述时间S由以下公式确定

4.根据权利要求1所述的基于联合概率矩阵分解的微博关注推荐方法，其特征在于，所述Sim(u,v)＝λSim_I(u,v)+(1-λ)Sim_O(u,v)，

5.根据权利要求1所述的基于联合概率矩阵分解的微博关注推荐方法，其特征在于，所述根据用户关系强度列表进行推荐是将用户关系强度列表中用户关系强度数值最大的前N个用户u_i推荐给用户v。