CN108446350A

CN108446350A - 一种基于主题模型分析与用户长短兴趣的推荐方法

Info

Publication number: CN108446350A
Application number: CN201810190979.1A
Authority: CN
Inventors: 王邦; 高泽锋; 徐明华
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2018-08-24
Anticipated expiration: 2038-03-09
Also published as: CN108446350B

Abstract

本发明公开了一种基于主题模型分析与用户长短兴趣的推荐方法，包括：对活动文本集进行隐藏主题训练得到训练好的模型，计算得到所有类别的类特征主题分布；将用户长期、近期的活动文本输入训练好的模型，得到用户长期、近期活动主题特征向量，结合行为权重和时间衰减函数得到用户的长、短兴趣向量；根据用户的长兴趣向量和所有类别的类特征主题分布，得到长兴趣的余弦相似值，选取长兴趣的余弦相似值最高的TopM的类别，根据用户的短兴趣向量和TopM的类别中的活动，得到短兴趣的余弦相似值，根据短兴趣的余弦相似值，得到活动平台对用户的推荐活动。本发明在选取待推荐活动的时缩小了筛选范围，从而缩短了推荐计算的时间同时也能提高推荐的准确率。

Description

一种基于主题模型分析与用户长短兴趣的推荐方法

技术领域

本发明属于推荐系统中的推荐算法领域，更具体地，涉及一种基于主题模型分析与用户长短兴趣的推荐方法。

背景技术

近年来，基于活动的社交网络(EBSNs)，例如meetup和豆瓣同城，得到了广泛的发展。这些网站不仅为传播各种各样的社交活动提供了一个方便的平台，也在用户之间构建了一个庞大的社交网络。由此，不管是学术界还是工业界，如何高效地为用户推荐个性化的活动成了一个热门的领域。活动推荐与其他产品的推荐不一样，因为产品推荐通常并没有被嵌入到社交网络中，没有考虑各种复杂的社交关系。所以，社交网络中的活动推荐面临很多新的挑战。

在使用基于内容的推荐方法时，传统的做法是将用户所有的历史记录数据进行处理分析，并对用户兴趣爱好进行建模，然而这种方法并没有考虑用户的长短兴趣随时间的变化可能有所改变。虽有少量研究考虑了用户的长短兴趣变化，但没有区分用户行为记录中的不同行为类别，亦未加入行为权重因素进行加权考虑。

由此可见，现有技术没有考虑用户的长短兴趣随时间的变化可能有所改变、没有区分用户行为记录中的不同行为类别、亦未加入行为权重因素进行加权考虑，进而导致推荐结果不准确。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于主题模型分析与用户长短兴趣的推荐方法，由此解决现有技术没有考虑用户的长短兴趣随时间的变化可能有所改变、没有区分用户行为记录中的不同行为类别、亦未加入行为权重因素进行加权考虑，进而导致推荐结果不准确的技术问题。

为实现上述目的，本发明提供了一种基于主题模型分析与用户长短兴趣的推荐方法，包括：

(1)使用LDA模型对活动平台的活动文本集进行隐藏主题训练，得到训练好的模型，将活动文本集中的每个活动文本输入训练好的模型得到每个活动文本的特征向量；

(2)根据活动平台的活动类别将活动文本集分类，得到每个类别的活动文本，对每个类别的活动文本的特征向量进行矢量相加，然后进行归一化处理，得到每个类别的类特征主题分布，进而得到所有类别的类特征主题分布；

(3)将活动平台中用户长期的活动文本输入训练好的模型，得到用户长期活动主题特征向量，结合行为权重和时间衰减函数得到用户的长兴趣向量；将活动平台中用户近期的活动文本输入训练好的模型，得到用户近期活动主题特征向量，结合行为权重与时间衰减函数得到用户的短兴趣向量；

(4)根据用户的长兴趣向量和所有类别的类特征主题分布，得到长兴趣的余弦相似值，选取长兴趣的余弦相似值最高的TopM的类别，根据用户的短兴趣向量和TopM的类别中的活动，得到短兴趣的余弦相似值，根据短兴趣的余弦相似值，得到活动平台对用户的推荐活动；

所述长期大于等于六个月，所述近期为时间衰减函数中一个衰减周期。

进一步地，步骤(1)的具体实现方式为：

将活动平台的活动文本集中的活动文本去除停用词后，使用LDA模型进行隐藏主题训练，得到训练好的模型，将活动文本集中的每个活动文本输入训练好的模型得到每个活动文本的特征向量：

其中，k表示训练主题数目，k取80至100，l_e中的每一维都表示一个隐含的主题，b表示l_e中的维数变量，e表示一个活动文本，t_k表示第k个主题，p_k表示第k个主题的概率。

进一步地，停用词包括啊、了和么。

进一步地，步骤(2)的具体实现方式为：

根据活动平台的活动类别将活动文本集分类，得到每个类别的活动文本E＝{E₁，E₂，…，E_C}，E为活动文本集，c表示活动的类别，E_c为第c类活动的活动文本，对E中的每个类别E_α，1≤a≤c，对每个类别的活动文本的特征向量进行矢量相加，m表示第α类活动中活动的个数：

然后进行归一化处理：

得到每个类别的类特征主题分布进而得到所有类别的类特征主题分布和分别表示归一化前后所有类别的类特征主题分布第j维的概率，1≤j≤k。

进一步地，步骤(3)包括：

(3-1)将活动平台中用户长期的活动文本E_U＝{e₁，e₂…，e_n}输入训练好的模型，得到用户长期活动主题特征向量其中n为活动记录个数1≤i≤n；

(3-2)对每个活动e_i，若用户参与了该活动，则取权重α₁，若用户只是对该活动感兴趣，则取权重α₂，其中α₁＞α₂，0≤α₁≤1，0≤α₂≤1；然后计算活动e_i体现的无衰减的用户兴趣向量

(3-3)结合时间衰减函数计算用户衰减的兴趣向量，表示成计算公式如下：

其中，t表示距离当前推荐活动的时间点用户参与该活动的月数，λ是衰减因子；

(3-4)将E_U中的每个活动e_i的用户衰减的兴趣向量依次进行矢量相加和归一化处理之后得到用户长兴趣向量L_U，其中，表示的用户长兴趣向量第j维的概率，1≤j≤k；

(3-5)将活动平台中用户近期的活动文本E′_U＝{e′₁，e′₂，…，e′_q}，输入训练好的模型，得到用户近期活动主题特征向量，q为用户近期的活动文本个数；

(3-6)对每个活动e′_i，计算该活动体现的无衰减的用户短期兴趣向量，结合时间衰减函数计算出该活动的用户短期衰减的兴趣向量；

(3-7)将E′_U中的每个活动e′_i体现的用户短期衰减的兴趣向量依次进行矢量相加和归一化处理后得到用户的短兴趣向量S_U，其中，表示的用户短兴趣向量第j维的概率，1≤j≤k。

进一步地，衰减因子的范围是0.8-1。

进一步地，步骤(4)包括：

(4-1)对用户U，计算用户的长兴趣向量L_U与中每个类别的活动文本的特征向量的余弦相似值，得到长兴趣的余弦相似值：

进而得到H＝{H₁，H₂，…，H_c}，c表示活动类别的个数，对H进行重排序，取长兴趣的余弦相似值最高的TopM的类别组成

(4-2)遍历W，对W中某个类别，取该类别中对应的所有待推荐的活动，计算每个待推荐的活动与用户的短兴趣向量S_U的余弦相似值，得到短兴趣的余弦相似值

得到对S_w重排序之后取短兴趣的余弦相似值最高的K个活动组成S′_w，最终组成共MK个活动，

(4-3)遍历S，将这MK个活动根据余弦相似值高低进行重排序，取余弦相似值最高的K个活动加入到R中，得到R＝{e₁，e₂，…，e_K}作为活动平台对用户的推荐活动。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明将活动平台中用户长期的活动文本输入训练好的模型，得到用户长期活动主题特征向量，结合行为权重和时间衰减函数得到用户的长兴趣向量；将活动平台中用户近期的活动文本输入训练好的模型，得到用户近期活动主题特征向量，结合行为权重与时间衰减函数得到用户的短兴趣向量；充分考虑了用户的长短兴趣随时间的变化可能有所改变，同时结合用户的行为权重和时间衰减函数来构建用户的长短兴趣向量来解决新活动的冷启动问题，更准确地描述了用户的兴趣爱好及其可能的变化趋势；对比于根据用户长兴趣与每个活动类别的相似程度来选取该类别推荐活动个数的均衡占比法以及简单地使用用户的长兴趣匹配所有待推荐活动的方法，本发明提高了推荐准确率。

(2)本发明根据用户的长兴趣向量和所有类别的类特征主题分布，得到长兴趣的余弦相似值，选取长兴趣的余弦相似值最高的TopM的类别，根据用户的短兴趣向量和TopM的类别中的活动，得到短兴趣的余弦相似值，根据短兴趣的余弦相似值，得到活动平台对用户的推荐活动；由此区分用户行为记录中的不同行为类别，先选取长兴趣的余弦相似值最高的TopM的类别，然后根据短兴趣的余弦相似值，得到活动平台对用户的推荐活动，在选取待推荐活动的时缩小了筛选范围，从而缩短了推荐计算的时间同时也能提高推荐的准确率。

(3)本发明在训练之前，将将活动平台的活动文本集中的活动文本去除停用词，可以提高训练效率和训练的准确性，用户有两种行为，要么是参与了该活动，要么只是对该活动感兴趣，为了区别两种行为，本发明增加了对这两种行为取不同的权重。由于用户参与活动分布在不同的时间段，并且本发明考虑用户的兴趣点会随着时间的推移而发生一定的转移，因此本发明加入了时间函数，用来区分用户参与活动的时间的远近。

(4)本发明中λ是衰减因子，如果定义T表示的是用户兴趣值衰减一半的时间周期，则表示的是兴趣值衰减到一半的快慢。该值过大则用户的兴趣衰减速度很慢，对用户兴趣点岁时间推移而转移的特点表现不够明显；该值过小则用户的兴趣衰减速度过快，考虑到实际场景中，由于社交网络上，用户参与活动的频次一般是一个月参加一到两次左右，衰减过快则距离当前时间较远的活动记录对用户的长兴趣模型的计算贡献几乎为零。因此衰减因子取0.8-1。

附图说明

图1是本发明实施例提供的总流程图；

图2是本发明实施例提供的当α₁不变，不同的α₂取值，各指标的变化图；

图3是本发明实施例提供的当α₂不变，不同的α₁取值，各指标的变化图；

图4是本发明实施例提供的不同的λ对应的各指标的变化图；

图5是本发明实施例提供的三种推荐算法的准确率对比图；

图6是本发明实施例提供的三种推荐算法的召回率对比图；

图7是本发明实施例提供的三种推荐算法的运行时间对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种基于主题模型分析与用户长短兴趣的推荐方法，包括：

(1)将活动平台的活动文本集中的活动文本去除停用词：啊、了和么后，使用LDA模型进行隐藏主题训练，得到训练好的模型，将活动文本集中的每个活动文本输入训练好的模型得到每个活动文本的特征向量：

(2)根据活动平台的活动类别将活动文本集分类，得到每个类别的活动文本E＝{E₁，E₂，…，E_c}，E为活动文本集，c表示活动的类别，E_c为第c类活动的活动文本，对E中的每个类别E_α，1≤a≤c，对每个类别的活动文本的特征向量进行矢量相加，m表示第α类活动中活动的个数：

然后进行归一化处理：

进一步地，步骤(3)包括：

(3-1)将活动平台中用户长期的活动文本E_U＝{e₁，e₂，…_，e_n}输入训练好的模型，得到用户长期活动主题特征向量其中n为活动记录个数1≤i≤n；

(3-2)对每个活动e_i，用户有两种行为，要么是参与了该活动，要么只是对该活动感兴趣，为了区别两种行为，我们增加了对这两种行为取不同的权重。对每个活动e_i，若用户参与了该活动，则取权重α₁，若用户只是对该活动感兴趣，则取权重α₂。从图2可以看出：当α₁固定为1时，α₂从0.1变化到1，算法的各项指标均是先有上升趋势，到α₂＝0.3时，各项指标达到最大值，α₂＞0.3之后，各项指标趋于平缓后有下降趋势。所以取α₂为0.3。从图3可以看出：当α₂固定为0.3时，α₁从0.5变化到1，算法的各项指标先有上升趋势，当α₁＝0.9时，各指标达到最大值，之后基本保持平稳。所以取α₁为0.9。然后计算活动e_i体现的无衰减的用户兴趣向量

其中，t表示距离当前推荐活动的时间点用户参与该活动的月数，λ是衰减因子；比如当前时间为5月1日，用户历史记录中参与活动e_x时间为3月1日，则t取值为2。如果我们定义T表示的是用户兴趣值衰减一半的时间周期，则表示的是兴趣值衰减到一半的快慢。该值过大则用户的兴趣衰减速度很慢，对用户兴趣点岁时间推移而转移的特点表现不够明显；该值过小则用户的兴趣衰减速度过快，考虑到实际场景中，由于社交网络上，用户参与活动的频次一般是一个月参加一到两次左右，衰减过快则距离当前时间较远的活动记录对用户的长兴趣模型的计算贡献几乎为零。这里我们这是该值取1。图4画出了不同的λ对应的各指标的变化图，可以看到λ的取值从0.3变化到1时，算法的各项指标均呈现缓慢上升趋势；当λ从1变化到1.5时，算法各项指标变化趋于平缓后略有下降趋势。但对性能指标的影响并不是十分明显，因此以下算法中选取λ＝1。

(3-4)将E_U中的每个活动e_i的用户衰减的兴趣向量依次进行矢量相加和归一化处理之后得到用户长兴趣向量L_U，其中，表示的用户长兴趣向量第j维的概率，1≤j≤k；可以看到用户长兴趣向量中的每一维代表的主题都与活动的特征向量相对应，所以他们之间计算相似度是完全合理的。

(3-6)对每个活动e＇_i，计算该活动体现的无衰减的用户短期兴趣向量，结合时间衰减函数计算出该活动的用户短期衰减的兴趣向量；虽然这些活动记录E′_U在一个衰减周期T内，但是不排除在这个衰减周期内，有部分用户还是参与或者感兴趣很多活动，为了将最近的兴趣向量凸显得更加明显，结合时间函数能起到一定的帮助。对于那些一个衰减周期T内并没有参与很多的用户，结合了时间函数对其短兴趣向量的影响并不会很大。

(3-7)将E＇_U中的每个活动e′_i体现的用户短期衰减的兴趣向量依次进行矢量相加和归一化处理后得到用户的短兴趣向量S_U，其中，表示的用户短兴趣向量第j维的概率，1≤j≤k。

进一步地，步骤(4)包括：

(4-2)遍历W，对W中某个类别，取该类别中对应的所有待推荐的活动，计算每个待推荐的活动与用户的短兴趣向量S_U的余弦相似值，得到短兴趣的余弦相似值得到对S_w重排序之后取短兴趣的余弦相似值最高的K个活动组成S′_w，最终组成共MK个活动，

具体地，在所有待推荐的活动列表中根据推荐算法筛选出与每个用户兴趣最为相似的前20个活动作为推荐结果，现实每个用户的个性化推荐。对用户U，计算用户的长兴趣向量L_U与中每个活动类别的主题向量的余弦相似值：

得到H＝{H₁，H₂，…，H₁₃}。对H进行重排序，取相似值最高的Top3的类别组成

(5-2)遍历W，对W中某个类别，取该类别中对应的所有待推荐的活动，计算每个活动与用户短兴趣向量S_U的余弦相似值，得到对S_w重排序之后取相似值最高的20个活动组成S′_w，最终组成共60个活动。

(5-3)遍历S，将这60个活动根据相似度高低进行重排序，取相似值最高的20个活动加入到列表R中，得到R＝{e₁，e₂，…，e₂₀}作为最后的推荐结果。

图5是三种不同推荐算法的准确率指标的对比图，可以看到推荐活动top3、top5、top10的准确率都是本发明的最优，说明本发明在推荐准确率上确实有所提升。图6是三种不同推荐算法的召回率指标的对比图，可以看到本发明的召回率相比其他的两种算法在不同的top值统计中都是最好的，说明本发明在推荐的召回率上也有所提升。图7是三种不同推荐算法的运行时间对比图，可以看到本发明的运行时间是最短的，说明本发明在提升了准确率和召回率的同时，减少了算法运行时间。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于主题模型分析与用户长短兴趣的推荐方法，其特征在于，包括：

2.如权利要求1所述的一种基于主题模型分析与用户长短兴趣的推荐方法，其特征在于，所述步骤(1)的具体实现方式为：

l_e＝{t₁：p₁，t₂：p₂，…，t_k：p_k}；

3.如权利要求2所述的一种基于主题模型分析与用户长短兴趣的推荐方法，其特征在于，所述停用词包括啊、了和么。

4.如权利要求2所述的一种基于主题模型分析与用户长短兴趣的推荐方法，其特征在于，所述步骤(2)的具体实现方式为：

根据活动平台的活动类别将活动文本集分类，得到每个类别的活动文本E＝{E₁，E₂，…，E_c}，E为活动文本集，c表示活动的类别，E_c为第c类活动的活动文本，对E中的每个类别E_a，1≤a≤c，对每个类别的活动文本的特征向量进行矢量相加，m表示第a类活动中活动的个数：

然后进行归一化处理：

得到每个类别的类特征主题分布进而得到所有类别的类特征主题分布

和分别表示归一化前后所有类别的类特征主题分布第j维的概率，1≤j≤k。

5.如权利要求2所述的一种基于主题模型分析与用户长短兴趣的推荐方法，其特征在于，所述步骤(3)包括：

(3-5)将活动平台中用户近期的活动文本E′_U＝{e′₁，e′₂，…_，e′_q}，输入训练好的模型，得到用户近期活动主题特征向量，q为用户近期的活动文本个数；

6.如权利要求5所述的一种基于主题模型分析与用户长短兴趣的推荐方法，其特征在于，所述衰减因子的范围是0.8-1。

7.如权利要求2所述的一种基于主题模型分析与用户长短兴趣的推荐方法，其特征在于，所述步骤(4)包括：

得到对S_ω重排序之后取短兴趣的余弦相似值最高的K个活动组成S′_ω，最终组成共MK个活动，