CN111241415B

CN111241415B - 一种融合多因素社交活动的推荐方法

Info

Publication number: CN111241415B
Application number: CN201911384143.6A
Authority: CN
Inventors: 陈艺
Original assignee: SICHUAN UNIVERSITY OF ARTS AND SCIENCE
Current assignee: SICHUAN UNIVERSITY OF ARTS AND SCIENCE
Priority date: 2019-12-28
Filing date: 2019-12-28
Publication date: 2023-07-21
Anticipated expiration: 2039-12-28
Also published as: CN111241415A

Abstract

本发明提供了一种融合多因素社交活动的推荐方法，包括以下步骤：S1、构建用户对活动兴趣度的概率模型；利用LDA文件主题模型求取用户u _i与其参加过的所有社交活动的主题分布，并用用户u _i的主题分布表征其兴趣度，S2、构建用户对召集者影响力概率模型；S3、构建用户因地理位置偏好的概率模型；S4、将S1、S2和S3中建立概率模型采用不同权值配比综合形成最终的社交活动个性推荐模型，解决了现有的社交活动推荐方法缺少有效的将用户对活动兴趣度、活动召集者影响力以及活动举办地点偏好的三方面因素进行综合而形成个性化推荐方法的问题。

Description

一种融合多因素社交活动的推荐方法

技术领域

本发明属于社交活动推荐方法技术领域，具体涉及一种融合多因素社交活动的推荐方法。

背景技术

随着互联网技术的飞速发展，社交媒体和电子商务等迅速发展，互联网数据呈指数级增长。人们不仅是数据的制造者也是数据的消费者，如何从庞大的数据中筛选用户感兴趣的信息成为学者们亟需解决的问题。对于用户而言，感兴趣信息的获取可通过搜索获得，也可借助推荐算法推荐得到。与搜索引擎相比，推荐算法不需要用户主动提供所需信息，而是根据少量信息构建用户兴趣模型，进而利用数据挖掘获得数据背后的信息。2006年DVD在线租赁商Netflix通过悬赏奖金的形式鼓励学者们完善个性化推荐算法，期间大量针对传统协同过滤推荐的改进算法被提出来。而协同过滤推荐过度依赖于“用户-项目”评分数据，当将其引入到社交兴趣推荐中后难以获得满意的推荐效果。

但是针对社交平台日益庞大的数据以及用户个性的多样化，缺少有效的将用户对活动兴趣度、活动召集者影响力以及活动举办地点偏好的三方面因素进行综合而形成个性化推荐方法，单一的社交活动属性的个性化推荐算法难以有效获得高精度推荐结果，客户满意度较差。

发明内容

本发明所要解决的技术问题在于针对上述现有技术的不足，提供一种融合多因素社交活动的推荐方法，以解决上述背景技术中提出的现有的社交活动推荐方法缺少有效的将用户对活动兴趣度、活动召集者影响力以及活动举办地点偏好的三方面因素进行综合而形成个性化推荐方法，单一的社交活动属性的个性化推荐算法难以有效获得高精度推荐结果，客户满意度较差的问题。

为解决上述技术问题，本发明采用的技术方案是：一种融合多因素社交活动的推荐方法，包括以下步骤：

S1、构建用户对活动兴趣度的概率模型；利用LDA文件主题模型求取用户u_i与其参加过的所有社交活动的主题分布，并用用户u_i的主题分布表征其兴趣度，在LDA中，设Ψ_s表示隐含主题s在单词集合上的多项式分布，doc_ui表示用户u_i∈U所有参加过的社交活动内容形成的文件，其中doc_ui经过LDA文件主题模型求取其中所有隐含主题的多项式分布，而用户对社交活动的兴趣度表示成文件doc_ui的主题概率分布；

S2、构建用户对召集者影响力概率模型；设用户u_i参加某活动召集者c_i组织的社交活动次数为cu_ij，cu_ij值越大说明召集者c_i组织的活动对用户u_i的影响力越大；

S3、构建用户因地理位置偏好的概率模型；将社交活动举办地与用户常住距离的概率定义为：

式中：Dis表示活动举办地与用户常住地之间的距离；

ν、为幂律分布函数的参数；

S4、将S1、S2和S3中建立概率模型采用不同权值配比综合形成最终的社交活动个性推荐模型，则用户u_i参加新建社交活动a_j的最终概率P_i，j ^u为下式：

式中：P^h _i，j表示基于用户对活动a_j的兴趣度影响，

P^l _i，j表示基于活动举办地点影响，

P^e _i，j表示基于召集者影响力，ɑ,β为权重因子。

作为优选的，在S1中，设在某社交活动内容的文件中含有N_k个隐含主题，则LDA对隐含主题的多项式分布求取过程为：

首先利用LDA分布函数Dirichlet(δ)对文件中的每个隐含主题s∈{1,2,3,...,N_k}生成隐含主题与单词的概率分布ρ_s，再利用LDA分布函数Dirichlet(γ)对文件中的每个文件生成文件与单词的概率分布/>利用LDA多项式分布函数对文件/>中的第m单词生成主题分配/>利用LDA多项式分布函数对文件/>中的第m单词生成/>

则用户文件的似然函数为：

式中：δ、γ为LDA分布函数的参数，

Γ分别表示文件/>中所有单词、单词的数量、单词的主题分配、单词对应的主题-单词概率分布；

设在LDA文件主题模型中文档间是相互独立的，则M个文件的完全似然函数如下：

式中：W,S,Φ分别表示文件中所有单词、主题的分布以及所有文件-主题词概率分布；

然后再采用吉布斯采样将隐含主题词s从联合的概率分布中采样出来：

式中：为计数，表示从文件或主题词中剔除第i项后的数量，

表示文件/>中第N_k个主题词的统计数量，

表示z个单词分配给主题s的次数；

经过训练集的多次训练后根据新建的社交活动a_j的文件采用吉布斯采样来估计社交活动a_j主题分布/>为：

同时，设用户u_i的文件为社交活动a_j的文件为/>两者所对应的主题分布为/>和/>为了求取用户与社交社交活动的主题的相似度，引入库尔贝克-莱布勒散度和延森-香农散度来计算两者之间的相似度，延森-香农散度定义为：

式中：KL(·)表示库尔贝克-莱布勒散度，其定义为：

其中，JS(u_i||a_j)会随着和/>两者主题分布的差别而增大，定义用户u_i对社交活动a_j的兴趣度为I_i,j，则

I_i,j＝1-JS(u_i||a_j)

然后再利用最大最小值归一化法对兴趣度I_i,j进行归一化，则得到用户u_i基于用户对活动兴趣度参加新建社交活动a_j的预测概率为

作为优选的，在S2中，具体过程为先构建一个用户与召集者间的影响力矩阵C，通过一个已经结束的社交活动a_i得到两个数据：一是参加此次社交活动的人数二是感兴趣的用户数/>同时，设社交活动本身的影响力为/>

式中：λ(0≤λ≤1)为权重因子，

EA表示所有结束的社交活动集合，

表示召集者c_i曾经组织的社交活动集合，

将召集者c_i所有曾经组织的社交活动平均影响力来表示召集者c_i的影响力：

则影响力矩阵C条件分布满足如下：

式中：Ν(x|μ,σ²)表示均值μ方差σ²的高斯分布，当用户u_i参加召集者c_i组织的任何一场活动时V_i,j＝1，否则为0，

D,Q,Num_u,Num_c分别表示所有用户和所有召集者的隐式特征矩阵以及用户数量和召集者数量；

针对用户和召集者的隐式特征矩阵，利用均值μ＝0的高斯先验分布求解：

对上进行取对数，后验分布可得：

式中：B表示隐式特征矩阵维度，Z为常量；

将上式最大化得到一个等价目标函数，该函数由二次正则化项平方误差和范数平方组成：

式中：表示弗罗贝尼乌斯范数的平方；

利用梯度下降法求解目标函数F，对D_i、Q_j求偏导数：

再对用户与召集者间的影响力矩阵C中的缺失值可由下式进行估值：

最后可得基于用户u_i对召集者c_i影响力的影响参加社交活动a_j的概率为：

作为优选的，在S3中，具体过程为将活动举办地与用户常住距离的概率定义：

式中：Dis表示活动举办地与用户常住地之间的距离，

ν、为幂律分布函数的参数。

然后通过取对数来估算参数ν、的值：

由于logν和为线性系数，利用最小二乘法拟合方法来估计系数logν和/>

设用户u_i参加过的所有社交活动的地理位置集合为对地理位置集合/>中的任意元素g_i，用户u_i在其位置参加社交活动的次数为/>给定的社交活动a_j，其地理位置为/>那么用户u_i参加社交活动a_j的概率为：

式中：表示地理位置/>间的距离，

然后得到用户u_i基于地理位置参加社交活动a_j的概率为：

本发明与现有技术相比具有以下优点：

本文发明用户对活动兴趣度、活动召集者影响力以及活动举办地点偏好等三方面因素，采用不同权值配比综合形成最终的社交活动个性推荐模型，经过对比实验表明，本发明中的个性化社交活动推荐方法不论与三个单模块个性推荐模型还是与其他两个同类网络社交活动的推荐模型相比，其准确率和召回率都有提高，便于提高用户的满意度。

附图说明

图1为本发明中基于北京数据集测试LDA在不同的N_k下Precision@5；

图2为本发明中基于北京数据集测试LDA在不同的N_k下Recall@5；

图3为本发明中基于上海数据集测试LDA在不同的N_k下Precision@5；

图4为本发明中基于上海数据集测试LDA在不同的N_k下Recall@5；

图5为本发明中基于北京数据集测试在不同的维度B值下Precision@5；

图6为本发明中基于北京数据集测试在不同的维度B值下Recall@5；

图7为本发明中基于上海数据集测试在不同的维度B值下Precision@5；

图8为本发明中基于上海数据集测试在不同的维度B值下Recall@5。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种技术方案：一种融合多因素社交活动的推荐方法，包括以下步骤：

具体过程为设在某社交活动内容的文件中含有N_k个隐含主题，则LDA对隐含主题的多项式分布求取过程为：

首先利用LDA分布函数Dirichlet(δ)对文件中的每个隐含主题s∈{1,2,3,...,N_k}生成隐含主题与单词的概率分布ρ_s，再利用LDA分布函数Dirichlet(γ)对文件中的每个文件生成文件与单词的概率分布/>利用LDA多项式分布函数/>对文件/>中的第m单词生成主题分配/>利用LDA多项式分布函数/>对文件/>中的第m单词生成/>

则用户文件的似然函数为：

式中：δ、γ为LDA分布函数的参数，

式中：为计数，表示从文件或主题词中剔除第i项后的数量，

表示文件/>中第N_k个主题词的统计数量，

表示z个单词分配给主题s的次数；

式中：KL(·)表示库尔贝克-莱布勒散度，其定义为：

I_i,j＝1-JS(u_i||a_j)

在S2中，具体过程为先构建一个用户与召集者间的影响力矩阵C，通过一个已经结束的社交活动a_i得到两个数据：一是参加此次社交活动的人数二是感兴趣的用户数/>同时，设社交活动本身的影响力为/>

式中：λ(0≤λ≤1)为权重因子，

EA表示所有结束的社交活动集合，

表示召集者c_i曾经组织的社交活动集合，

则影响力矩阵C条件分布满足如下：

对上进行取对数，后验分布可得：

式中：B表示隐式特征矩阵维度，Z为常量；

式中：表示弗罗贝尼乌斯范数的平方；

利用梯度下降法求解目标函数F，对D_i、Q_j求偏导数：

式中：Dis表示活动举办地与用户常住地之间的距离；

ν、为幂律分布函数的参数；

在S3中，具体过程为将活动举办地与用户常住距离的概率定义：

式中：Dis表示活动举办地与用户常住地之间的距离，

ν、为幂律分布函数的参数。

然后通过取对数来估算参数ν、的值：

式中：表示地理位置/>间的距离，

然后得到用户u_i基于地理位置参加社交活动a_j的概率为：

式中：P^h _i，j表示基于用户对活动a_j的兴趣度影响，

P^l _i，j表示基于活动举办地点影响，

P^e _i，j表示基于召集者影响力，ɑ,β为权重因子。

实验数据及结果对比：选取一线城市北京和上海作为社交活动举办地，社交数据采集豆瓣同城在2017年1月1日-2018年12月31日期间举办的所有社交活动，主要采集的信息为：用户信息(用户名、用户ID、用户的兴趣、用户参加过的所有社交活动、用户所在的位置等)，社交活动信息(社交活动类别、社交活动的内容，社交活动召集者、社交活动举办地、社交活动ID等)。数据统计如下：

仿真实验将Top-N推荐算法推荐结果，采用Precision@N和Recall@N两个评价指标评估各算法推荐的性能：

式中：U表示用户集合，分别表示利用各算法按照Top-N推荐给用户u_i的社交活动以及用户u_i在测试集中所参与的活动集合，|*|为计算集合大小，这里设置N＝1,3,5,7,10，本文默认N＝5。

在LDA文件主题模型、召集者影响力概率矩阵分解模型中需要对参数进行优化设置各模块参数设置如下：

实验采用自然语言处理框架Gensim实现LDA文件主题模型，在模型中设LDA分布函数参数γ＝50/N_k，δ＝0.01，为了获得隐含主题s的最佳个数N_k，利用豆瓣同城北京和上海数据集测试LDA在不同的N_k下Precision@5和Recall@5，具体如图1-4所示，可知在豆瓣同城北京数据集上，Precision@5和Recall@5随着隐含主题个数的增大而增大，在N_k≤70阶段，推荐准确度增加幅度较大，在70＜N_k≤100阶段，推荐准确度增加幅度缓慢，当N_k＝100时，Precision@5和Recall@5取得最高值；在豆瓣同城上海数据集上，在N_k≤70阶段，推荐准确度增加幅度波动增加，在70＜N_k≤100阶段，推荐准确度反而缓慢降低。综合以上，在后续实验对比中，将豆瓣同城北京数据集的隐含主题个数设置为N_k＝100，而将豆瓣同城上海数据集的隐含主题个数设置为N_k＝70。

在基于影响力的概率矩阵分解模型中设λ＝0.5,为了确定隐式特征矩阵维度B，利用豆瓣同城北京和上海数据集测试在不同的维度B值下Precision@5和Recall@5，结果如图5-8所示，可知，在基于影响力的概率矩阵分解模型中，随着隐式特征矩阵维度B值的增大，Top-5推荐评价指标Precision@5和Recall@5波动变化。在豆瓣同城北京数据集上，随着维度B值的增大，推荐评价指标Precision@5和Recall@5值在振荡减小；在豆瓣同城上海数据集上，在10≤B≤80阶段，随着维度B值的增大，推荐评价指标Precision@5和Recall@5值在振荡增大，在80＜B≤100阶段，随着维度B值的增大，推荐评价指标Precision@5和Recall@5值在逐渐减小，所有在维度B＝80时，推荐评价指标Precision@5和Recall@5取最大值。综合以上，在后续实验对比中，将豆瓣同城北京数据集的隐式特征矩阵维度设置为B＝10，而将豆瓣同城上海数据集隐式特征矩阵维度设置为B＝80。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种融合多因素社交活动的推荐方法，其特征在于，包括以下步骤：

式中：Dis表示活动举办地与用户常住地之间的距离；

ν、为幂律分布函数的参数；

S4、将S1、S2和S3中建立概率模型采用不同权值配比综合形成最终的社交活动个性推荐模型，则用户u_i参加新建社交活动a_j的最终概率为下式：

式中：表示基于用户对新建社交活动a_j的兴趣度影响的概率，

表示基于地理位置参加新建社交活动a_j的概率，

表示基于召集者影响力参加新建社交活动a_j的概率，ɑ,β为权重因子；

在S1中，设在某社交活动内容的文件中含有N_k个隐含主题，则LDA对隐含主题的多项式分布求取过程为：

首先利用LDA分布函数Dirichlet(δ)对文件中的每个隐含主题s∈{1,2,3,...,N_k}生成隐含主题与单词的概率分布ρ_s，再利用LDA分布函数Dirichlet(γ)对文件/>中的每个文件生成文件与单词的概率分布/>利用LDA多项式分布函数/>对文件中的第m单词生成主题分配/>利用LDA多项式分布函数/>对文件中的第m单词生成/>

则用户文件的似然函数为：

式中：δ、γ为LDA分布函数的参数，

式中：为计数，表示从文件或主题词中剔除第i项后的数量，

表示文件/>中第N_k个主题词的统计数量，

表示z个单词分配给主题s的次数；

同时，设用户u_i的文件为社交活动a_j的文件为/>两者所对应的主题分布为和/>为了求取用户与社交活动的主题的相似度，引入库尔贝克-莱布勒散度和延森-香农散度来计算两者之间的相似度，延森-香农散度定义为：

式中：KL(·)表示库尔贝克-莱布勒散度，其定义为：

I_i,j＝1-JS(u_i||a_j)

在S2中，具体过程为先构建一个用户与召集者间的影响力矩阵C，通过一个已经结束的社交活动a_i得到两个数据：一是参加此次社交活动的人数二是感兴趣的用户数同时，设社交活动本身的影响力为/>

式中：λ为权重因子，0≤λ≤1；

EA表示所有结束的社交活动集合，

表示召集者c_i曾经组织的社交活动集合，

则影响力矩阵C条件分布满足如下：

式中：N(x|μ,σ²)表示均值μ方差σ²的高斯分布，当用户u_i参加召集者c_i组织的任何一场活动时V_i,j＝1，否则为0，

对上式进行取对数，后验分布得到：

式中：B表示隐式特征矩阵维度，Z为常量；

利用豆瓣同城数据集测试在不同的隐式特征矩阵维度B值下Precision@5和Recall@5的值的方法，确定所述隐式特征矩阵维度B的值；

式中：Dis表示活动举办地与用户常住地之间的距离，

ν、为幂律分布函数的参数，

然后通过取对数来估算参数ν、的值：

设用户u_i参加过的所有社交活动的地理位置集合为对地理位置集合/>中的任意元素g_i，用户u_i在其位置参加社交活动的次数为/>给定的社交活动a_j，其地理位置为那么用户u_i参加社交活动a_j的概率为：

式中：表示地理位置g_i,/>间的距离，

然后得到用户u_i基于地理位置参加新建社交活动a_j的概率为：

2.根据权利要求1所述的一种融合多因素社交活动的推荐方法，其特征在于，将所述后验分布得到的公式进行最大化得到一个等价目标函数，该函数由二次正则化项平方误差和范数平方组成：

式中：表示弗罗贝尼乌斯范数的平方；

利用梯度下降法求解目标函数F，对D_i、Q_j求偏导数：

再对用户与召集者间的影响力矩阵C中的缺失值由下式进行估值：

最后得基于用户u_i对召集者c_i影响力的影响参加社交活动a_j的概率为：