CN105824911B

CN105824911B - 基于lda用户主题模型的视频推荐方法

Info

Publication number: CN105824911B
Application number: CN201610147676.2A
Authority: CN
Inventors: 李玉军; 张洁; 陈默
Original assignee: Tai Ping (beijing) Technology Bonte Co Ltd; Shandong University
Current assignee: Shandong University
Priority date: 2016-03-15
Filing date: 2016-03-15
Publication date: 2016-11-30
Anticipated expiration: 2036-03-15
Also published as: CN105824911A

Abstract

公开了一种基于LDA用户主题模型的视频推荐方法，从历史数据库中提取所有视频，根据每个主题下的视频分布建立K个主题下的主题视频概率分布；根据用户的操作行为将历史数据库中的视频分为至少两个文档集，根据每个文档集的用户兴趣概率分布的权重对所有文档集的用户兴趣概率分布进行加权求和，得到所有用户在K个主题的用户主题概率分布；依据主题视频概率分布和用户主题概率分布生成视频推荐列表。通过分别对每个文档集的用户特征进行分析，能够更全面和准确地建立基于LDA的用户主题模型，提升视频推荐的准确率，并解决用户冷启动问题。

Description

基于LDA用户主题模型的视频推荐方法

技术领域

本发明涉及计算机数据挖掘技术领域，尤其涉及一种基于LDA用户主题模型的视频推荐方法。

背景技术

以下对本发明的相关技术背景进行说明，但这些说明并不一定构成本发明的现有技术。

随着互联网技术的迅猛发展，在大数据时代，人们可以获得和接触的视频资源越来越多，但找到自己喜欢的视频所花费的时间也越来越多。推荐系统自1995年提出以来，从无到有取得了很大的发展。已经存在许多比较优秀的算法，比如基于内容的推荐和基于协同过滤的推荐。基于内容推荐方法的原理是，根据用户以往喜欢的物品，选择其他类似的物品作为推荐结果。通常使用用户模型的向量特征来描述用户的兴趣爱好，同样的对于每个物品进行特征提取，作为物品模型的特征内容，然后计算用户模型的向量特征和候选物品模型的向量特征两者之间的匹配度，匹配度高的物品就作为推送结果推荐给用户。对于新用户存在冷启动问题，比如对于一个新用户(即没有任何观影记录的用户)系统无法根据其观看过的影片与其它影片的内容和标签相匹配，故无法给该用户推荐影片从而降低了用户对推荐系统的信任和满意度。协同过滤技术是目前个性化推荐系统中应用最为成功和广泛的技术。许多著名的网站如amazon、豆瓣都采用了这种算法。基于用户的协同过滤算法将用户聚类成簇，计算相似用户，假设相似用户喜欢的物品目标用户也喜欢，并将这个物品推荐给目标用户；基于物品的协同过滤算法给用户推荐和他们之前喜欢的相似的物品，同样存在冷启动问题。

发明内容

本发明的目的在于提出一种能够基于LDA用户主题模型的视频推荐方法，能够利用用户-视频的不同交互方式进行更加全面的用户理解和用户建模，使得用户兴趣向量更加准确，提升视频推荐的准确率，提高用户的满意度。

根据本发明的基于LDA用户主题模型的视频推荐方法，包括：

S1、从历史数据库中提取所有视频，根据每个主题下的视频分布建立K个主题下的主题视频概率分布；

S2、根据用户的操作行为将历史数据库中的视频分为至少两个文档集；针对每个文档集，根据单个用户的主题分布建立该文档集的用户兴趣概率分布；根据每个文档集的用户兴趣概率分布的权重对所有文档集的用户兴趣概率分布进行加权求和，得到所有用户在K个主题的用户主题概率分布；

S3、依据所述主题视频概率分布和所述用户主题概率分布得到用户视频概率分布；基于所述用户视频概率分布生成视频推荐列表，基于所述视频推荐列表进行视频推荐；

其中，K为主题数量，且K为整数。

优选地，用户的操作行为包括：播放视频、收藏视频和点击视频；所述至少两个文档集包括：播放文档集、收藏文档集和点击文档集。

优选地，根据每个主题下的视频分布建立主题下的主题视频概率分布包括：

针对历史数据库中的所有视频，生成主题k下的词分布

建立K个主题下的主题视频概率分布

式中，为K×V矩阵，k为整数，且1≤k≤K；V为历史数据库中的视频数量，且V为整数。

优选地，播放文档集中用户兴趣概率分布的生成过程为：对于第m篇文档，即对于第m个用户：

生成播放文档集中第m个用户在不同主题的概率分布

对于文档中第i个词：确定该词的主题确定词

其中，m、i、k为整数，且1≤m≤M、1≤k≤K；M为用户数量，K为主题数量，为用户播放的视频数量。

优选地，收藏文档集中用户兴趣概率分布的生成过程为：对于第m篇文档，即对于第m个用户：

生成收藏文档集中第m个用户在不同主题的概率分布

对于文档中第i个词：确定该词的主题确定词

优选地，点击文档集中用户兴趣概率分布的生成过程为：对于第m篇文档，即对于第m个用户：

生成点击文档集中第m个用户在不同主题的概率分布

对于文档中第i个词：确定该词的主题确定词

优选地，采用逻辑回归法获取每个文档集中所述兴趣概率分布所占的权重。

优选地，用户视频概率分布为：

式中，为用户视频概率分布；为用户主题概率分布，为主题视频概率分布；为M×V矩阵；为M×K矩阵，为K×V矩阵；K为主题数量，M为用户数量，V为视频数量。

优选地，视频t在主题k下的概率值为：

式中，为播放文档集中不包含第i个词的视频t在主题k下出现的次数，为收藏文档集中视频t在主题k中出现的次数，为点击文档集中视频t在主题k中出现的次数，β_t为视频t对应的狄里克雷超参数；k为整数，且1≤k≤K，K为主题数量；t为词袋中视频的编号；i为与每个用户对应的词的编号，i为正整数；V为视频数量。

优选地，播放文档集中主题k在文档m中出现的概率值为：

{\hat{θ}}_{m k}^{(P)} = \frac{n_{m, k, - i}^{(P)} + α_{k}^{(P)}}{Σ_{k = 1}^{K} (n_{m, k, - i}^{(P)} + α_{k}^{(P)})}

收藏文档集中主题k在文档m中出现的概率值为：

{\hat{θ}}_{m k}^{(C C)} = \frac{n_{m, k, - i}^{(C C)} + α_{k}^{(C C)}}{Σ_{k = 1}^{K} (n_{m, k, - i}^{(C C)} + α_{k}^{(C C)})}

点击文档集中主题k在文档m中出现的概率值为：

{\hat{θ}}_{m k}^{(C)} = \frac{n_{m, k, - i}^{(C)} + α_{k}^{(C)}}{Σ_{k = 1}^{K} (n_{m, k, - i}^{(C)} + α_{k}^{(C)})}

式中，为收藏文档集中不包含第i个词的视频t在主题k下出现的次数；为点击文档集中不包含i的视频t在主题k下出现的次数；为播放文档集中所有用户的兴趣概率分布的狄里克雷超参数，为收藏文档集中所有用户的兴趣概率分布的狄里克雷超参数，为点击文档集中所有用户的兴趣概率分布的狄里克雷超参数。

根据本发明的基于LDA用户主题模型的视频推荐方法，从历史数据库中提取所有视频以及描述视频的所有主题；根据每个主题下的视频分布建立K个主题下的主题视频概率分布；根据用户的操作行为将历史数据库中的视频分为至少两个文档集，根据每个文档集的用户兴趣概率分布的权重对所有文档集的用户兴趣概率分布进行加权求和，得到所有用户在K个主题的用户主题概率分布；依据主题视频概率分布和用户主题概率分布生成视频推荐列表。通过分别对每个文档集的用户特征进行分析，能够更全面和准确地建立基于LDA的用户主题模型，提升视频推荐的准确率，并解决用户冷启动问题。

附图说明

通过以下参照附图而提供的具体实施方式部分，本发明的特征和优点将变得更加容易理解，在附图中：

图1是根据本发明的视频推荐方法的示意图；

图2是根据本发明的基于LDA的用户主题模型的示意图。

具体实施方式

下面参照附图对本发明的示例性实施方式进行详细描述。对示例性实施方式的描述仅仅是出于示范目的，而绝不是对本发明及其应用或用法的限制。

推荐系统的输入为各种各样的数据，其中最常用最方便的是高质量的用户显式反馈，这些显式反馈通常是用户根据自己对产品的兴趣以及满意程度等对它进行评价等。例如，Netflix利用用五星评价系统让用户对视频进行打分。然而，并不是所有的网站都有显示反馈系统，很多情况下我们只能够得到一些用户的历史行为数据，比如他的播放记录、点击记录、收藏记录等。用户的行为不是随机的，而是蕴含着一定的特征与规律，为了深入了解每个用户、使推荐结果符合用户的口味，有必要从这些历史行为数据中发掘用户的隐性特性。

协同过滤算法是现有技术中常用的视频推荐方法，但是这种算法没有考虑到视频自身的特征对推荐结果的影响。传统的LDA主题模型虽然考虑了视频特征对推荐结果的影响，但是这种推荐方法是对用户-视频的一种单一的行为交互(比如播放)进行特征文本建模，并没有考虑到用户的其他行为方式，在提取用户的特征向量和视频的特征向量方面不够全面，于是得到的用户的个性化视频准确度和召回率都普遍较低。

基于此，本发明提出了基于隐含狄利克雷分布LDA用户主题模型的视频推荐方法。本发明中的LDA是指隐含狄利克雷分布(LDA，Latent Dirichlet Allocation)。根据本发明的视频推荐方法包括：

S1、从历史数据库中提取所有视频以及，根据每个主题下的视频分布建立K个主题下的主题视频概率分布；

S3、依据主题视频概率分布和用户主题概率分布生成视频推荐列表；基于所述视频推荐列表进行视频推荐；

其中，K为主题数量，且K为整数。

主题的数量可以根据历史数据库中所有描述视频的主题个数确定，也可以根据经验或反复试验确定。随着网络文化的不断发展，各种新兴主题不断出现。为了更准确地了解用户的兴趣爱好，可以根据实际情况不断增加新兴主题，并更新主题的数量。

用户对视频的操作行为往往不止一种，比如播放视频、收藏视频、点击视频等。用户的操作行为不是随机的，而是蕴含着一定的特征与规律。在进行视频推荐时，若仅考虑用户的单一行为特征，很难全面地了解用户的兴趣和口味。本发明根据用户的操作行为将历史数据库中的视频分为N个文档集，通过从视频、用户和主题等方面分析用户特征，拟合生成基于LDA的用户主题模型，并依据该模型进行视频推荐，能够全面地了解用户的兴趣，使推荐结果与用户口味相符，提高视频推荐的准确率和用户的满意度。

操作行为的划分方式可以根据推荐内容以及推荐系统应用环境的不同进行选择，比如，可以将操作行为分为播放视频、收藏视频和点击视频，也可以根据播放次数、点击次数等将操作行为分为高频操作、中频操作、低频操作等。根据本发明的优选实施例，用户的操作行为包括：播放视频、收藏视频和点击视频。本发明旨在根据用户的操作行为将历史数据库中的视频分为多个文档集，并通过对每个文档集的分析研究用户不同操作行为对推荐结果的影响。只要操作行为的种类能够满足分析需求即可，本发明对操作行为的划分方式不作具体限定。

文档集的数量可以与操作行为的种类相同，即每个文档集与一种操作行为一一对应，例如，根据播放视频、收藏视频和点击视频三种操作行为，将历史数据库中的视频分为播放文档集、收藏文档集和点击文档集。文档集的数量可以与操作行为的种类不同，比如当某两种或多种操作行为对推荐结果的影响较小时，可以将该两种或多种操作行为对应的视频划分至一个文档集中。只要文档集的划分方式能够满足分析需求即可，本发明对操作行为的具体划分方式不作限定。

本发明根据历史数据库中的数据建立基于LDA的用户主题模型。为了考察视频特征对推荐结果的影响，在训练生成模型的过程中，本发明对主题-视频间的概率分布进行研究。根据本发明的优选实施例，根据每个主题下的视频分布建立主题下的主题视频概率分布包括：

针对历史数据库中的所有视频，生成主题k下的词分布

建立K个主题下的主题视频概率分布

针对每个文档集，可以按照如下方式生成每个文档集中的用户兴趣概率分布。比如，播放文档集中用户兴趣概率分布的生成过程为：对于第m篇文档，即对于第m个用户：

生成播放文档集中第m个用户在不同主题的概率分布

对于文档中第i个词：确定该词的主题确定词

其中，m、i、k为整数，且1≤m≤M、1≤k≤K；M为用户数量，K为主题数量，为用户播放的视频数量；

可以按照如下方式生成收藏文档集中的用户兴趣概率分布：对于第m篇文档，即对于第m个用户：

生成收藏文档集中第m个用户在不同主题的概率分布

对于文档中第i个词：确定该词的主题确定词

可以按照如下方式生成点击文档集中的用户兴趣概率：对于第m篇文档，即对于第m个用户：

生成点击文档集中第m个用户在不同主题的概率分布

对于文档中第i个词：确定该词的主题确定词

不同的推导方法在时间、空间和精度方面的差别比较大，本发明以吉布斯Gibbs采样算法为例进行说明。

分别是播放文档集、收藏文档集和点击文档集中所有用户的兴趣概率分布的狄里克雷超参数；分别是播放文档集、收藏文档集和点击文档集中单个用户的兴趣概率分布，且均为K维向量；θ^(P),θ^(CC),θ^(C)分别是播放文档集、收藏文档集和点击文档集中所有用户的兴趣概率分布，且均为M×K维向量；分别是用户播放、收藏和点击过的视频；分别是对应于的主题。是给定的先验参数，是可观察到的已知变量，其他变量是未知的隐变量，需要根据观察到的变量来学习估计。给定的先验参数下参数的联合概率分布表示为：

对于播放记录的文集，其选主题与选词是两个统计独立的过程，因此：

频；是对应于的主题，是对应于的主题；是播放文档集中所有用户的兴趣概率分布，是主题下的视频分布；N^(P)为用户播放的视频数量。

考虑到超参数决定了用户主题概率分布从而决定主题而决定了主题视频概率分布因此上式等价于

P ({\overset{&RightArrow;}{ω}}^{(P)}, {\overset{&RightArrow;}{z}}^{(P)} | {\overset{&RightArrow;}{α}}^{(P)}, \overset{&RightArrow;}{β}) = P ({\overset{&RightArrow;}{ω}}^{(P)} | {\overset{&RightArrow;}{z}}^{(P)}, \overset{&RightArrow;}{β}) P ({\overset{&RightArrow;}{z}}^{(P)} | {\overset{&RightArrow;}{α}}^{(P)})

其中，

式中，为播放文档集中视频t在主题k中出现的次数，为收藏文档集中视频t在主题k中出现的次数，为点击文档集中视频t在主题k中出现的次数，βt为视频t对应的狄里克雷超参数，为播放文档集中主题k下所有视频的数目，为收藏文档集中主题k下所有视频的数目，为点击文档集中主题k下所有视频的数目；为播放文档集中主题k在文档m中出现的次数。

则，

P ({\overset{&RightArrow;}{ω}}^{(P)}, {\overset{&RightArrow;}{z}}^{(P)} | {\overset{&RightArrow;}{α}}^{(P)}, \overset{&RightArrow;}{β}) = Π_{k = 1}^{K} \frac{Δ ({\overset{&RightArrow;}{n}}_{k}^{(P)} + {\overset{&RightArrow;}{n}}_{k}^{(C C)} + {\overset{&RightArrow;}{n}}_{k}^{(C)} + \overset{&RightArrow;}{β})}{Δ (\overset{&RightArrow;}{β})} \cdot Π_{m = 1}^{M} \frac{Δ ({\overset{&RightArrow;}{n}}_{m}^{(P)} + {\overset{&RightArrow;}{α}}^{(P)})}{Δ ({\overset{&RightArrow;}{α}}^{(P)})}

可以根据Dirichlet参数估计，得到视频t在主题k下的概率值为：

式中，为播放文档集中不包含第i个词的视频t在主题k下出现的次数，为收藏文档集中视频t在主题k中出现的次数，为点击文档集中视频t在主题k中出现的次数，β_t为视频t的狄里克雷超参数；k为整数，且1≤k≤K，K为主题数量；t为词袋中视频的编号；i为与每个用户对应的词的编号，i为正整数；V为视频数量。

可以根据Dirichlet参数估计，得到播放文档集中主题k在文档m中出现的概率值为：

{\hat{θ}}_{m k}^{(P)} = \frac{n_{m, k, - i}^{(P)} + α_{k}^{(P)}}{Σ_{k = 1}^{K} (n_{m, k, - i}^{(P)} + α_{k}^{(P)})}

收藏文档集中主题k在文档m中出现的概率值为：

{\hat{θ}}_{m k}^{(C C)} = \frac{n_{m, k, - i}^{(C C)} + α_{k}^{(C C)}}{Σ_{k = 1}^{K} (n_{m, k, - i}^{(C C)} + α_{k}^{(C C)})}

点击文档集中主题k在文档m中出现的概率值为：

{\hat{θ}}_{m k}^{(C)} = \frac{n_{m, k, - i}^{(C)} + α_{k}^{(C)}}{Σ_{k = 1}^{K} (n_{m, k, - i}^{(C)} + α_{k}^{(C)})}

式中，为收藏文档集中不包含第i个词的视频t在主题k下出现的次数；为点击文档集中不包含i的视频t在主题k下出现的次数；为播放文档中所有用户的兴趣概率分布的狄里克雷超参数，为收藏文档中所有用户的兴趣概率分布的狄里克雷超参数，为点击文档中所有用户的兴趣概率分布的狄里克雷超参数。

图2示出了根据本发明的基于LDA的用户主题模型的示意图，图中，N^(P),N^(CC),N^(C)分别为用户播放、收藏和点击的视频的数量。

为了总和考虑每个操作行为对推荐结果的影响，本发明依据每个文档集的用户兴趣概率分布的权重对N个文档集的用户兴趣概率分布进行加权求和，得到所有用户在K个主题的用户主题概率分布即其中，θ^(P),θ^(CC),θ^(C)分别为播放文档集、收藏文档集和点击文档集的用户兴趣概率分布，w₁,w₂,w₃分别为θ^(P),θ^(CC),θ^(C)的权重。优选地，可以采用逻辑回归法获取每个文档集的用户兴趣概率分布的权重。

基于主题视频概率分布和用户主题概率分布得到用户视频概率分布。用户视频概率分布中包含了每个用户对每个视频有兴趣的概率，这个概率值可以视为用户对视频的评分，概率值越大，表明用户对视频的兴趣越高。根据本发明的优选实施例，用户视频概率分布为：

基于主题视频概率分布和用户主题概率分布得到用户视频概率分布之后，依据用户对每个视频有兴趣的概率将所有视频按照降序排列生成视频推荐列表，然后根据视频推荐列表进行视频推荐。当推荐列表中的视频数量较多时，可以根据预设的推荐视频数量阈值N进行topN推荐，即从推荐列表中选择评分较高的N个视频推荐给用户。图1示出了根据本发明的视频推荐方法的示意图。

根据本发明的视频推荐方法既可以对单个用户进行视频推荐，也可以对多个用户进行视频推荐。以主体数量K＝5、视频数量V＝4、用户数量M＝4为例，表1示出了根据本发明优选实施例得到的所有主题下的视频概率分布表2示出了根据本发明优选实施例得到的所有用户的用户主题概率分布表3示出了根据本发明优选实施例得到的用户视频概率分布

表1所有主题下的视频概率分布

表2所有用户的用户主题概率分布

表3所有用户的用户视频概率分布

若用户m的主题概率分布为用户m对所有视频的评分列表RS_m＝[0.28,0.19,0.16,0.33]，用户m对视频4的偏好值最大。若取top2进行推荐，则为用户m生成的视频推荐列表为[视频4，视频1]。

根据本发明的视频推荐方法，通过历史数据库总所有用户的播放、收藏和点击等操作行为的数据建立基于LDA的用户主题模型，因此能够避免现有技术中由于新用户没有观影记录而无法为新用户推荐视频的现象，解决了用户冷启动问题。当推荐系统输入的用户为新用户时，基于LDA用户主题模型中的主题视频概率分布和用户主题概率分布得到每个用户对所有视频的评分列表之后，可以根据评分列表中每个视频的评分，按照评分由高到低的顺序为新用户推荐视频。

虽然参照示例性实施方式对本发明进行了描述，但是应当理解，本发明并不局限于文中详细描述和示出的具体实施方式，在不偏离权利要求书所限定的范围的情况下，本领域技术人员可以对所述示例性实施方式做出各种改变。

Claims

1.一种基于LDA用户主题模型的视频推荐方法，其特征在于包括：

其中，K为主题数量，且K为整数；用户的操作行为包括：播放视频、收藏视频和点击视频；所述至少两个文档集包括：播放文档集、收藏文档集和点击文档集；视频t在主题k下的概率值为：

2.如权利要求1所述的视频推荐方法，其特征在于，根据每个主题下的视频分布建立主题下的主题视频概率分布包括：

针对历史数据库中的所有视频，生成主题k下的词分布

建立K个主题下的主题视频概率分布

3.如权利要求2所述的视频推荐方法，其特征在于，播放文档集中用户兴趣概率分布的生成过程为：对于第m篇文档，即对于第m个用户：

生成播放文档集中第m个用户在不同主题的概率分布

对于文档中第i个词：确定该词的主题确定词

4.如权利要求3所述的视频推荐方法，其特征在于，收藏文档集中用户兴趣概率分布的生成过程为：对于第m篇文档，即对于第m个用户：

生成收藏文档集中第m个用户在不同主题的概率分布

对于文档中第i个词：确定该词的主题确定词

5.如权利要求4所述的视频推荐方法，其特征在于，点击文档集中用户兴趣概率分布的生成过程为：对于第m篇文档，即对于第m个用户：

生成点击文档集中第m个用户在不同主题的概率分布

对于文档中第i个词：确定该词的主题确定词

6.如权利要求1所述的视频推荐方法，其特征在于，采用逻辑回归法获取每个文档集中所述用户兴趣概率分布所占的权重。

7.如权利要求1所述的视频推荐方法，其特征在于，用户视频概率分布为：

8.如权利要求7所述的视频推荐方法，其特征在于，播放文档集中主题k在文档m中出现的概率值为：

{\hat{θ}}_{m k}^{(P)} = \frac{n_{m, k, - i}^{(P)} + α_{k}^{(P)}}{Σ_{k = 1}^{K} (n_{m, k, - i}^{(P)} + α_{k}^{(P)})}

收藏文档集中主题k在文档m中出现的概率值为：

{\hat{θ}}_{m k}^{(C C)} = \frac{n_{m, k, - i}^{(C C)} + α_{k}^{(C C)}}{Σ_{k = 1}^{K} (n_{m, k, - i}^{(C C)} + α_{k}^{(C C)})}

点击文档集中主题k在文档m中出现的概率值为：

{\hat{θ}}_{m k}^{(C)} \frac{n_{m, k, - i}^{(C)} + α_{k}^{(C)}}{Σ_{k = 1}^{K} (n_{m, k, - i}^{(C)} + α_{k}^{(C)})}