CN108763362A

CN108763362A - 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法

Info

Publication number: CN108763362A
Application number: CN201810471640.9A
Authority: CN
Inventors: 汤颖; 孙康高
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2018-11-06
Anticipated expiration: 2038-05-17
Also published as: CN108763362B

Abstract

基于随机锚点对选择的局部模型加权融合Top‑N电影推荐方法，利用电影文本数据通过LDA主题模型和GBDT梯度提升决策树得到用户和电影在语义层次的特征向量，然后基于该特征向量分别计算用户和电影的高斯核相似度，接着在原始数据集中随机选择多个<用户，电影>锚点对，并结合用户和电影的高斯核相似度为每个锚点对重新构造局部训练矩阵，再利用SLIM稀疏线性模型作为基本推荐模型为每个局部训练矩阵训练得到对应的局部推荐模型，最后通过局部推荐模型之间的加权融合生成最终的融合推荐模型。该推荐方法在数据稀疏的场景下也保持了模型的稳定性，能有效解决传统单一推荐模型在数据稀疏场景的极易发生过拟合的问题。

Description

基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法

技术领域

本发明涉及一种互联网上的电影推荐方法。

背景技术

随着互联网技术和社会经济文化产业的发展，诸如电子商品、数字新闻、在线电影、网络视频等越来越多的数字信息出现在互联网中，用户与网络交互产生的隐式和显式反馈数据也呈现指数式暴涨，用户想从海量数据中寻找和发现自己感兴趣的信息变得非常困难。推荐系统可以根据用户的历史行为信息，准确预测用户喜好，帮助用户在海量数据中快速找到他们感兴趣的信息，极大提升信息传播的效率。

推荐算法可分为基于内容的推荐以及协同过滤推荐。现代化的推荐系统主要有两个任务，一个是评分预测，另一个是在现实商业场景中应用最多的Top-N推荐。Top-N推荐算法通过生成一个经过排名且大小为N的物品列表并把该列表推荐给用户，让用户选择自己感兴趣的物品。Top-N推荐模型主要分为两种类型，分别是基于邻域的协同过滤和基于模型的协同过滤。前者又可细分为基于用户的邻域模型(UserKNN)和基于物品的邻域模型(ItemKNN)，后者则以隐因子模型为代表。

推荐系统需要根据用户历史的行为和兴趣来预测用户未来的行为和兴趣，当推荐场景没有给推荐系统提供充足的历史行为数据时，模型就无法准确预测用户未来的行为和兴趣，因为此时一般的推荐算法模型都会产生过拟合现象，这就是推荐系统的冷启动问题。冷启动问题一般可分为用户冷启动、物品冷启动和系统冷启动。用户冷启动主要解决新用户的个性化推荐问题，物品冷启动主要解决如何把新物品推荐给可能对它感兴趣的用户的问题，系统冷启动解决怎样为一个新开发的网站设计推荐系统。所以，如何解决冷启动问题是所有推荐系统设计者均要面临的问题。电影推荐系统一般都会遇到用户冷启动问题，即当系统中存在很多评分行为很少的新用户或不活跃用户的时候，整个系统的交互式反馈数据就会很稀疏，而推荐系统是高度依赖用户行为的，这时训练出来的推荐模型很容易产生过拟合现象，导致模型的稳定性降低，整个系统中新用户的比例越高，系统的整体表现就会越差。

发明内容

为了解决现有技术的单一模型推荐算法在数据稀疏场景下发生过拟合的问题，本发明借鉴集成学习通过训练多个弱分类器融合得到强分类器的思想，提供一种基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法。

本发明利用电影文本数据通过LDA主题模型和GBDT梯度提升决策树得到用户和电影在语义层次的特征向量，然后基于该特征向量分别计算用户和电影的高斯核相似度，接着在原始数据集中随机选择多个<用户，电影>锚点对，并结合用户和电影的高斯核相似度为每个锚点对重新构造局部训练矩阵，再利用SLIM稀疏线性模型作为基本推荐模型为每个局部训练矩阵训练得到对应的局部推荐模型，最后通过局部推荐模型之间的加权融合生成最终的融合推荐模型。该推荐方法在数据稀疏的场景下也保持了模型的稳定性，能有效解决传统单一推荐模型在数据稀疏场景的极易发生过拟合的问题。

基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法，总体流程如图1所示，具体包括如下步骤：

步骤1：数据预处理阶段。对一些不活跃用户以及流行度很小的电影进行数据清洗；构造用户电影标签文档；把显式的评分信息转换成隐式反馈信息，构造用户-电影隐式反馈矩阵A；

1.1对原始数据集进行数据清洗工作，剔除观影数小于20部电影的用户，同时剔除被评分次数小于20次的电影，得到新的训练数据集；

1.2统计新数据集里所有用户给电影打的标签生成一个标签字典，把用户看过的所有电影的标签组成的文档来表示当前用户，所有用户的文档组成一个语料库，计算文档中每个词在语料库中的TF-IDF值。TF(词频)，IDF(逆文档频)以及TF-IDF(词频-逆文档频)的计算公式如公式(1)(2)(3)所示；

TFIDF_i,j＝TF_i,j×IDF_i (3)

其中TF_i,j表示词语t_i在文档d_j中的词频，n_i,j表示词语t_i在文档d_j中出现的次数，∑_kn_k,j表示文档d_j中所有词语的出现次数之和。IDF_i表示词t_i的逆文档频，|D|表示语料库中文档的总数，|{j:t_i∈d_j}|表示包含词语t_i的文档数目。TFIDF_i,j表示文档d_j中词语t_i的词频逆文档频；

1.3把显式的评分信息如1—5分，转换成用0—1表示的隐式反馈信息，若当前用户对当前电影打过分则记为1，没打过分的电影即待推荐的电影记为0，得到一个n×m的用户—电影隐式反馈训练矩阵，用户数为n，电影数为m；

步骤2：用户特征向量训练阶段。利用电影标签信息，通过LDA主题模型训练得到用户特征向量；

LDA主题模型是一个文档-主题-单词的三层贝叶斯网络，给定一个语料库，该模型可以分析该语料库中每篇文档的主题分布，以及每个主题的词分布。它的联合概率如公式(4)所示；

θ表示一篇文档的主题分布，z表示一个主题，w表示一篇文档，α表示每篇文档下主题的多项分布的Dirichlet先验参数，β表示每个主题下词的多项分布的Dirichlet先验参数，N表示语料库中的文档数，z_n表示一篇文档中第n个词的主题，w_n表示一篇文档的第n个单词；

每部电影都有多个用户给它赋予的标签，把一个电影标签映射成一个单词w_n，把一个用户看过的所有电影的标签组成的集合映射成一篇文档w，把用户所偏好的一类特定的电影类型映射成一个主题z。若数据集里共有n个用户，则可生成一个含有n篇文档的语料库以及一个字典，语料库中的每篇文档用字典长度的向量表示，向量中的每个值是对应字典中标签在该用户文档及语料库中的TF-IDF值；

为了能区分出更加独特的用户群体，不同主题之间的差异性越大越好。为了确定最佳主题个数，通过设置多个主题数训练多个LDA模型，计算每个LDA模型训练得到的主题向量之间的平均相似度，取主题向量平均相似度最小的模型对应的主题数作为模型最佳主题个数。通过LDA模型训练，得到每一篇文档的主题分布θ，用它来表示每一个用户的特征向量；

步骤3：电影特征向量训练阶段。利用电影文本信息以及电影的大众评分信息，通过GBDT梯度提升决策树模型对电影原始特征进行特征重组得到表达能力更强的交叉特征，形成新的电影特征向量；

3.1首先把每部电影根据它对应的导演、演员、电影类型和电影标签进行One-HotEncoding独热编码，得到初始的电影特征向量；

3.2利用以上初始电影特征向量，结合这些电影样本对应的大众评分(1-10分)，迭代训练得到稳定的GBDT梯度提升决策树模型，通过该模型得到新的电影特征向量；

GBDT梯度提升决策树模型是一种基函数为决策树的提升模型，其提升方法实际采用加法模型(即弱预测器的线性组合)与向前分布算法，如公式(5)所示。其中，F_m(x)表示加入当前基模型后的新模型，F_m-1(x)表示当前模型，h_m(x)表示当前基模型(也就是CART，分类与回归树)，γ_m表示当前基模型在总模型中的权重系数，也叫做迭代步长；

F_m(x)＝F_m-1(x)+γ_mh_m(x) (5)

每一步，通过最小化损失函数L拟合模型F_m-1(x)和真实值y之间的残差得到当前基模型决策树h_m(x)，如公式(6)所示。其中y_i表示样本i的真实值，即电影i的真实大众评分；

利用损失函数负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值，如公式(7)所示；

迭代步长γ_m可通过线性搜索的方法计算得到，如公式(8)所示；

当一部需要预测评分的电影进入到GBDT梯度提升决策树模型中时，该电影在每一棵决策树的其中一片叶子节点上会得到一个反馈值，把所有这些反馈值加权累加就会得到模型对当前电影的预测评分。为了得到特征组合之后的电影特征向量，本发明初始化一个长度为提升模型中叶子节点数的零向量作为电影初始特征向量，向量的每一维度对应提升模型中的每一片叶子。当电影进入提升模型时，把该电影特征向量中在模型里取得反馈值的叶子节点处对应的维度值设为1，得到一个新的经过特征组合的特征向量η来表示当前的电影；

步骤4：局部训练矩阵构建阶段。利用以上两步得到的用户特征向量和电影特征向量，计算用户和电影的高斯核相似度，再通过随机锚点对选择的方法构造推荐模型的局部训练矩阵；

4.1首先计算基于高斯核函数的用户相似度和电影相似度。基于高斯核函数的用户相似度计算公式如公式(9)所示。其中k_u(u_i,u_j)表示用户u_i和用户u_j之间的相似度，θ_i和θ_j分别表示用户u_i和用户u_j的特征向量，γ＝σ^-2，σ表示方差。基于高斯核函数的电影相似度如公式(10)所示。其中k_v(v_i,v_j)表示电影v_i和电影v_j的相似度，η_i和η_j分别表示电影v_i和电影v_j的特征向量，γ＝σ^-2，σ表示方差；

k_u(u_i,u_j)＝exp(-γ||θ_i-θ_j||²) (9)

k_v(v_i,v_j)＝exp(-γ||η_i-η_j||²) (10)

4.2利用以上相似度，通过随机锚点对选择的方法构建多个局部训练矩阵(即n×m用户—电影隐式反馈训练矩阵)。构造过程如下：

(1)在训练样本中，随机选择K组用户电影对(u^*,v^*)，得到K组目标锚点对；

(2)根据每个锚点对，利用公式(11)、公式(12)构造局部训练矩阵。其中K_u(u',u^*)和K_v(v',v^*)为上一步中计算得到的用户相似度和电影相似度，A(u',v')表示原始训练矩阵A中用户u'关于电影v'的隐式反馈值，表示基于锚点对(u^*,v^*)重新构造之后的用户u'关于电影v'的隐式反馈值；

K_uv((u',v'),(u^*,v^*))＝K_u(u',u^*)×K_v(v',v^*) (12)

根据以上过程，对于每个随机选择的<用户，电影>锚点对，共构造获得K个局部隐式反馈训练矩阵；

步骤5：局部推荐模型训练阶段。本发明采用稀疏线性模型SLIM作为融合推荐模型的基本推荐模型，该模型的损失函数如公式(13)所示；

其中，A表示原始的用户—电影隐式反馈矩阵，α和ρ控制L1和L2范数的权重，通过最小化该损失函数可以获得一个大小为m×m的电影相似度稀疏矩阵W。该模型中L1范数控制W稀疏程度，L2范数控制模型的复杂度，防止模型过拟合。该模型通过随机梯度下降法，并行训练W矩阵的每一列w_j来得到最终的W矩阵，如公式(14)所示；

其中，a_j表示矩阵A中的第j列。用户i关于电影j的预测推荐度计算公式如公式(15)所示；

使用稀疏线性模型SLIM作为基本推荐模型，K个局部隐式反馈训练矩阵可以训练得到K个局部推荐模型；

步骤6：局部模型加权融合推荐阶段。利用公式(16)对K个局部推荐模型进行加权融合，得到最终的融合推荐模型。其中表示电影v关于用户u的融合推荐度，表示第k个局部推荐模型对于电影v关于用户u的局部推荐度(对应于公式(15)中的)；

根据公式(16)，为每位用户计算每一部电影关于他的预测推荐度，然后按预测推荐度的大小进行降序排序，并除去已经与当前用户发生过评分交互的电影，最终取排在前N部的电影推荐给当前用户，完成Top-N个性化推荐；

步骤7：模型验证阶段。该推荐方法可通过留一法交叉验证来证明模型的有效性。可以从每个用户的电影评分集合中随机抽取一部电影放入测试集中，其他电影用来作为模型的训练集。然后用训练好的模型为每个用户推荐一个Top-N的电影列表，观察测试集里该用户的对应那一部电影是否出现在推荐列表中以及其出现在列表中的具体位置p_i。最后，可以用命中率(HR)和平均排名命中率(ARHR)两个指标来衡量模型的推荐质量，其中#hits表示推荐命中数，#users表示用户总数，它们的定义如公式(17)、(18)所示；

此外，为了验证此推荐方法在数据稀疏场景下的推荐效果，可对原始训练集按一定采样率进行随机降采样，再结合以上两个评价指标进行推荐实验来对推荐方法进行验证；

推荐方法流程步骤至此结束。

本发明综合上述技术提出了基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法。为了解决传统单一推荐模型在数据稀疏场景下容易发生过拟合、模型不稳定从而导致推荐效果下降的问题，提出使用SLIM稀疏线性模型训练多个基于随机锚点对选择的局部推荐模型，再通过模型之间的加权融合得到最终的融合推荐模型来实现电影的Top-N个性化推荐。另外，为了充分使用电影推荐场景中的数据，从多个维度提升推荐的质量，本发明利用电影标签信息，通过LDA主题模型来实现对用户在语义层次的特征向量的计算；利用电影的导演、演员和类型信息，通过GBDT梯度提升决策树来实现对电影在语义层次的特征向量的重新构造。

本发明的优点是：(1)算法思路新颖。通过在原始样本集中进行随机锚点对选择，使用SLIM稀疏线性模型作为基本推荐模型构造多个局部推荐模型，再把这些局部推荐模型加权融合得到最终的融合推荐模型，这一思路能够增加最终推荐模型的鲁棒性和稳定性，有效克服传统单一推荐模型在数据稀疏场景下容易发生过拟合导致推荐效果下降的问题。(2)多维度提升推荐质量。除了使用传统的评分数据来训练推荐模型，本发明通过引入电影标签、导演、演员以及电影类型等文本数据，分别利用LDA主题模型和GBDT梯度提升决策树分析人群和电影在语义层次上的特征属性，得到用户特征向量和电影特征向量，并基于该特征向量实现基于高斯核函数的用户相似度和电影相似度的计算，该相似度用于局部模型的构建和融合权重的确定，进一步提升了推荐的质量。(3)算法实现简单快速。在局部推荐模型训练阶段，由于各局部推荐模型之间互相独立，各局部推荐模型生成的局部相似度矩阵的每一列之间也相互独立，故可采用并行训练的方法训练各局部模型，从而能够快速完成融合推荐模型构建，极大降低了融合模型的训练时间，提升了模型训练的效率。

附图说明

图1技术方案的总流程图；

具体实施方式

参照图1技术方案总流程图，本发明共有七个阶段，分别是：数据预处理阶段、用户特征向量计算阶段、电影特征向量计算阶段、局部训练矩阵构造阶段、局部推荐模型训练阶段、局部推荐模型加权融合阶段以及模型验证阶段。数据预处理阶段是对数据集进行清洗，剔除掉一些不活跃用户和冷门电影，构造用于LDA主题模型训练的语料库和用于稀疏线性模型训练的用户电影隐式反馈训练矩阵；用户特征向量计算阶段通过使用LDA主题模型实现用户在语义层次特征向量的计算；电影特征向量计算阶段通过使用GBDT梯度提升决策树实现电影在语义层次特征向量的重新构造；局部训练矩阵构造阶段通过使用用户和电影特征向量计算得到的高斯核相似度完成基于随机锚点对选择的局部训练矩阵的构造；局部推荐模型训练阶段使用SLIM稀疏线性模型作为基本推荐模型训练多个局部推荐模型；局部模型加权融合阶段通过把所有的局部推荐模型进行加权融合得到最终的融合推荐模型；模型验证阶段通过相关评价指标设计实验对最终推荐模型的推荐效果进行实验验证。

本发明的输入为电影的导演、演员、电影类型、电影标签等文本数据以及用户对电影的评分数据，输出为针对每个用户的Top-N个性化电影推荐列表。

具体步骤如下：

TFIDF_i,j＝TF_i,j×IDF_i (3)

其中TF_i,j表示词语t_i在文档d_j中的词频，n_i,j表示词语t_i在文档d_j中出现的次数，∑_kn_k,j表示文档d_j中所有词语的出现次数之和。IDF_i表示词t_i的逆文档频，|D|表示语料库中文档的总数，|tj:t_i∈d_j}|表示包含词语t_i的文档数目。TFIDF_i,j表示文档d_j中词语t_i的词频逆文档频；

F_m(x)＝F_m-1(x)+γ_mh_m(x) (5)

k_u(u_i,u_j)＝exp(-γ||θ_i-θ_j||²) (9)

k_v(v_i,v_j)＝exp(-γ||η_i-η_j||²) (10)

K_uv((u',v'),(u^*,v^*))＝K_u(u',u^*)×K_v(v',v^*) (12)

推荐方法流程步骤至此结束。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法，包括如下步骤：

1.1 对原始数据集进行数据清洗工作，剔除观影数小于20部电影的用户，同时剔除被评分次数小于20次的电影，得到新的训练数据集；

1.2 统计新数据集里所有用户给电影打的标签生成一个标签字典，把用户看过的所有电影的标签组成的文档来表示当前用户，所有用户的文档组成一个语料库，计算文档中每个词在语料库中的TF-IDF值。TF(词频)，IDF(逆文档频)以及TF-IDF(词频-逆文档频)的计算公式如公式(1)(2)(3)所示；

TFIDF_i,j＝TF_i,j×IDF_i (3)

1.3 把显式的评分信息如1—5分，转换成用0—1表示的隐式反馈信息，若当前用户对当前电影打过分则记为1，没打过分的电影即待推荐的电影记为0，得到一个n×m的用户—电影隐式反馈训练矩阵，用户数为n，电影数为m；

3.1 首先把每部电影根据它对应的导演、演员、电影类型和电影标签进行One-HotEncoding独热编码，得到初始的电影特征向量；

3.2 利用以上初始电影特征向量，结合这些电影样本对应的大众评分(1-10分)，迭代训练得到稳定的GBDT梯度提升决策树模型，通过该模型得到新的电影特征向量；

F_m(x)＝F_m-1(x)+γ_mh_m(x) (5)

4.1 首先计算基于高斯核函数的用户相似度和电影相似度。基于高斯核函数的用户相似度计算公式如公式(9)所示。其中k_u(u_i,u_j)表示用户u_i和用户u_j之间的相似度，θ_i和θ_j分别表示用户u_i和用户u_j的特征向量，γ＝σ^-2，σ表示方差。基于高斯核函数的电影相似度如公式(10)所示。其中k_v(v_i,v_j)表示电影v_i和电影v_j的相似度，η_i和η_j分别表示电影v_i和电影v_j的特征向量，γ＝σ^-2，σ表示方差；

k_u(u_i,u_j)＝exp(-γ||θ_i-θ_j||²) (9)

k_v(v_i,v_j)＝exp(-γ||η_i-η_j||²) (10)

4.2 利用以上相似度，通过随机锚点对选择的方法构建多个局部训练矩阵(即n×m用户—电影隐式反馈训练矩阵)。构造过程如下：

K_uv((u',v'),(u^*,v^*))＝K_u(u',u^*)×K_v(v',v^*) (12)

推荐方法流程步骤至此结束。