CN111930926A

CN111930926A - 结合评论文本挖掘的个性化推荐算法

Info

Publication number: CN111930926A
Application number: CN202010779129.2A
Authority: CN
Inventors: 陆建波; 刘春霞
Original assignee: Nanning Normal University
Current assignee: Nanning Normal University
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2020-11-13
Anticipated expiration: 2040-08-05
Also published as: CN111930926B

Abstract

本发明公开了一种结合评论文本挖掘的个性化推荐算法，包括：利用传统的隐语义模型获取用户特征P_u；利用堆栈降噪自动编码器获取项目特征Qi；将用户特征P_u和项目特征Qi输入多层感知器来预测评分

本发明利用评论文本进行个性化推荐算法的设计，在提高推荐准确度的原则上，不用复杂的生成过程来建模评论文本，而是结合已有的较为成熟的栈式降噪自动编码器(SDAE)架构来获取项目特征，将评论文本数据用于推荐。本发明针对现存算法具有推荐精度高、推荐模型简单等特点。

Description

结合评论文本挖掘的个性化推荐算法

技术领域

本发明属于商品个性化推荐领域。更具体地说，本发明涉及一种结合评论文本挖掘的个性化推荐算法。

背景技术

推荐系统以其解决“信息过载”，提供个性化服务的特点，受到各个应用领域的高度关注。推荐系统的核心是推荐算法，现存的推荐算法主要可分为基于内容的推荐、协同过滤和混合推荐三大类，其中最为常用的是协同过滤算法。然而，由于数据的稀疏，传统的协同过滤算法的推荐的效果不尽如人意。因此研究者通常利用用户与项目的属性、标签等元数据进行辅助推荐,以此缓解数据稀疏的问题。

如今，大多数网络平台都提倡“以用户为中心”的理念，用户既可针对项目的真实体验发表自己看法，也可通过浏览评论了解项目的真实特征，明确大众的舆论倾向。以淘宝购物为例，由于评论文本具有一定的真实性、可靠性与参考性，多数用户在购买商品之前，会参考已购买者对于产品的评论。

数据的稀疏，导致传统的协同过滤算法的推荐的效果不尽如人意。为此大多数研究者通常利用用户与项目的属性、标签等元数据进行辅助推荐,以此缓解数据稀疏的问题。如巫可等将用户属性加入隐语义模型中,结合目标用户的评分信息得到推荐结果。于洪等利用用户、标签、属性和时间等信息，进行个性化推荐研究。如今，大多数网络平台都提倡“以用户为中心”的理念，用户既可针对项目的真实体验发表自己看法，也可通过浏览评论了解项目的真实特征，明确大众的舆论倾向。可见评论对推荐算法具有一定的促进作用。Mcauley等提出的HFT模型融合评论信息和评分信息，可以仅用少数用户评论即可获得用户偏好信息，较好地缓解了冷启动问题；将主题模型和矩阵分解模型结合，按维度进行了对齐和解释，使解释结果也具有较强的可靠性。王成良等提出了USerCF-RR算法，针对评论文本利用了LDA模型获取用户偏好，结合用户评分计算用户的信任度，根据用户相似度，进行推荐。叶海智等获取用户评论中的产品特征和意见，通过计算每个特征意见对的极性,得到特征矩阵,结合用户意见质量形成的用户评分矩阵，求出用户评分的相似度.最后结合特征矩阵和用户评分相似度得出目标用户的综合相似度度，进行推荐。此外，由于深度学习能够有效利用多元异构数据，将不同的数据映射到一个相同的隐空间，获得数据的统一表征。因此学者逐渐将深度学应用到推荐领域,产生了许多优秀的模型，譬如深度协同模型CDL、ConvMF等。Almahairi等提出了将长短期记忆神经网络LSTM与协同过滤相结合的LMLF模型。将商品向量作为LSTM网络的参数，得到该商品下的评论集合的“预测下一个词词频”的模型。这个模型的结果比传统推荐算法有很大程度的提高。

上述算法在一定程度上提高了推荐的准确度，对于数据稀疏和冷启动问题也做了相应改善。其中利用深度学习技术的推荐算法更胜一筹，但是结构相对复杂，效果不明显。

发明内容

本发明的一个目的是解决至少上述问题和/或缺陷，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种结合评论文本挖掘的个性化推荐算法，其利用评论文本进行个性化推荐算法的设计，在提高推荐准确度的原则上，不用复杂的生成过程来建模评论文本，而是结合已有的较为成熟的栈式降噪自动编码器(SDAE)架构来获取项目特征，将评论文本数据用于推荐。

为了实现本发明的这些目的和其它优点，提供了一种结合评论文本挖掘的个性化推荐算法，包括：

利用传统的隐语义模型获取用户特征P_u；

利用堆栈降噪自动编码器获取项目特征Qi；

将用户特征P_u和项目特征Qi输入多层感知器来预测评分

优选的是，将原始评分矩阵分解后获取用户特征，并用于算法后期的评分预测，原始的评分矩阵R分解为两个低秩矩阵相乘R＝PQ；

其中P∈R^m×F，Q∈R^F×n，

对于每个用户u,令P_u＝(P_u1，P_u2，…，P_uF)表示用户与隐因子的关联程度；

对于每个项目i，令Q_i＝(Q_i1，Q_i2，…，Q_iF)表示项目与因子的关联程度；

用户对项目的总体兴趣度定义为：

为了学习模型中的P_wQ_i，通过最小化损失函数来近似估计，具体表示为

式中：λ是正则化项参数，用来防止过拟合；y_u,i代表真实评分。

优选的是，基于堆栈降噪自动编码器的项目特征的提取包括以下步骤：

步骤一、将每个商品的评论整合为一个文档，经过TF-IDE处理后，采用词袋模型表示为项目的内容向量，作为SDAE的输入数据；

步骤二、采用逐层贪心算法对DAE进行预训练，得到SDAE网络权重，预训练完成后，将DAE展开得到SDAE的网络结构；

步骤三、使用BP算法优化网络,采用梯度下降算法进行微调。

优选的是，基于堆栈降噪自动编码器的项目特征的提取具体过程为：

对输出层n_l的每一个神经元i，误差公式为：

对于隐藏层l＝n_l-1,n_l-2,n_l-3,…2,其损失表达为：

式中：f′(z_i ^(l))＝a_i ^(l)(1-a_i ^(l))，i，j分别代表隐含层l的第i个节点和隐含层l+1的第j个节点，1<j≤S_l；

对损失函数求偏导：

式中M(W,b；x,y)为输入输出的均方误差函数；

参数更新：

式中：α为学习率，在本算法中使用4层DAE堆叠展开形成SDAE，每层的输出维度分别为1000、200、40和8，每层的降噪参数均为0.95，训练时的学习率为0.01。

优选的是，采用了多层感知器学习用户与项目的非线性关系，进行评分预测，具体为：将用户特征P_u与项目特征Qi连接，作为多层感知器的输入X_u,i，定义为：

x_u，i＝concatation(P_u，Q_i)

对多层感知器网络进行逐层训练，则网络的输出表示为

式中：W、b、f分别表示权重矩阵、偏置、激活函数，选取了relu函数作为训练的激活函数，采用Adma算法进行优化，使用排名目标来学习算法的参数，根据贝叶斯个性化排序算法,目标函数表示为：

式中：λ_Δ是正则化参数以防止过度拟合，Ψ表示训练实例，通过最小化BPR损失，正确预测交互之间的相对顺序，而不是优化评分。

本发明至少包括以下有益效果：

一、本发明提出了一种结合评论文本挖掘的个性化推荐算法，在利用评论文本进行个性化推荐算法的设计，在提高推荐准确度的原则上，不用复杂的生成过程来建模评论文本，而是结合已有的较为成熟的栈式降噪自动编码器架构来获取项目特征，将评论文本数据用于推荐。

二、本发明针对现存算法存在的推荐精度低、推荐模型复杂等问题，构造堆栈降噪编码器用以提取项目的特征，同时利用了评论文本与评分数据，结合多层感知机进行评分预测。实验结果表明，本发明所提出结合评论文本挖掘的个性化推荐算法在归一化均方根误差RMSE、召回率Recall、归一化折损增益NDCG指标上，优于LFM(传统的隐语义模型，不采用任何的辅助数据)、MF-BPR(使用BPR算法优化了标准的矩阵分解模型)、HFT(同时利用了评分与评论数据，将LDA模型与矩阵分解模型相结合)、LMLF(利用LSTM对评论数据进行处理，将深度学习与协同过滤相结合)四种算法。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明算法总体框架图；

图2不同迭代次数下推荐性能变化图；

图3不同隐藏层数下推荐性能变化图；

图4不同算法下的RMSE性能比较图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

一种结合评论文本挖掘的个性化推荐算法，包括：

利用传统的隐语义模型获取用户特征P_u；

利用堆栈降噪自动编码器获取项目特征Qi；

将用户特征P_u和项目特征Qi输入多层感知器来预测评分

隐语义模型(Latent Factor Model，LFM)是一种有效的隐语义分析技术，属于基于模型的协同过滤算法，常用作为推荐算法比较的基准模型。其核心思想是通过潜在特征联系用户和物品，把用户-项目信息映射到一个维度为F的联合隐语义空间中。本发明所提的结合评论文本挖掘的个性化推荐算法将原始评分矩阵分解后获取的用户特征作为算法后期评分预测所需用户特征。原始的评分矩阵R分解为两个低秩矩阵相乘R＝PQ；

其中P∈R^m×F，Q∈R^F×n，

用户对项目的总体兴趣度定义为：

基本的自编码器是由编码器与解码器组成，可视为一个简单的三层神经网络结构，包括输入层、隐藏层和输出层。从输入层到隐藏层是一个学习(编码)的过程，从隐藏层到输出层是一个知识重构(解码)的过程。输入数据x与特征空间y满足下式：

式中：

为神经网络的激活函数，常用的激活函数有sigmoid，tanh，relu等。θ＝{W,b},W表示编码权重矩阵，b为偏置向量。将编码特征y解码重构x为z。具体表示为：

式中：θ′＝{w^T，b′}，w^T为解码权重矩阵，b′为偏置向量。AE的优化目标是需要不断修正权重与偏置，最小化重构误差，使得y最大程度地获得x的特征。具体表示为：L(x，z)＝min||x-z||²。

自动编码器提出以来，出现了许多变种，如降噪自动编码器(DenoiseAutoEncoder，DAE)和栈式降噪自动编码器(Stack denoising auto encoder，SDAE)等。其中DAE与传统AE结构基本相同，为了使隐藏层发现更鲁棒的特征，减少无效特征的干扰，DAE在AE的基础上，在原始输入数据中加入噪声，得到噪声数据

通过f_θ将

映射到隐藏层得到特征向量y，再利用g_θ′对x进行重构得到z，最后计算原始数据与重构后数据的误差，形成损失函数。而SDAE是由多个DAE组合而成的深度学习架构，比DAE的处理能力更强。

自编码器尤其是栈式降噪自编码器，在推荐系统中主要被应用于学习用户和项目的隐层特征表示。由于SDAE只能处理定长的数据，因此，将每个商品的评论整合为一个文档，经过TF-IDE处理后，采用词袋模型表示为项目的内容向量，作为SDAE的输入数据；采用逐层贪心算法对DAE进行预训练，得到SDAE网络权重，预训练完成后，将DAE展开得到SDAE的网络结构；使用BP算法优化网络,采用梯度下降算法进行微调。具体过程为：对输出层n_l的每一个神经元i，误差公式为：

对于隐藏层l＝n_l-1,n_l-2,n_l-3,…2,其损失表达为：

对损失函数求偏导：

式中M(W,b；x,y)为输入输出的均方误差函数；

参数更新：

式中：α为学习率。

SDAE网络的构造，决定了其压缩数据获取项目特征的能力，在本发明算法中使用4层DAE堆叠展开形成SDAE，每层的输出维度分别为1000、200、40和8，每层的降噪参数均为0.95，训练时的学习率为0.01。

现存算法在获取到用户与项目特征后，使用内积来表示用户与项目之间的交互关系，但是这种简单的线性组合实际上难以表示用户与项目交互的复杂结构。多层感知机(Muti-Layer Perceptron，MLP)是一个前馈神经网络，在输入与输出层之间存在多个隐藏层，它已被证明可以以任意精度逼近一个可测函数(measurable function)，因此相较于传统矩阵相乘的形式具有更强的表示能力，本发明采用了多层感知器(MLP)学习用户与项目的非线性关系，进行评分预测，将用户特征P_u与项目特征Qi连接，作为多层感知器的输入X_u,i，定义为：

x_u，i＝concatation(P_u，Q_i)；

对多层感知器网络进行逐层训练，则网络的输出表示为

式中：W、b、f分别表示权重矩阵、偏置、激活函数，综合考虑各种激活函数的与缺点，本发明选取了relu函数作为训练的激活函数，采用Adma算法进行优化。推荐的常见形式是推荐列表，即推荐是一种个性化的排名任务。为此，本发明考虑使用排名目标来学习算法的参数，根据Rendle等人提出的贝叶斯个性化排序算法,目标函数表示为：

<实验>

2.1实验数据集与评估指标

为了验证评分与评论数据对算法性能的影响，本发明在Amazon数据集上进行实验和对比分析，该数据集涵盖了亚马逊图书、电子产品、电影电视等24类产品的评分、评论文本和元数据。本发明仅选取Amazon instant video子类下的数据进行实验。它包含312930个用户、22204个项目以及717651条评论。包括了reviewerID、asin、reviewName、helpful、reviewText、overall、summary、unixReviewTime、reviewTime9个字段。

本发明采用10折交叉方法进行验证，将数据按8:2的比例划分为训练集与测试集。编程环境为Python3.5，深度学习计算框架为TensorFlow 1.4，在具有32G RAM的i76800KCPU服务器上进行模拟实验。为评估SDLFMLP算法，本发明基于归一化均方根误差RMSE、召回率Recall、归一化折损增益NDCG三种评估指标验证算法的性能，分别定义为:

式中：U为用户集合，test_u为测试集合，#tp表示用户喜欢且系统成功推荐的物品的数量，#fn表示用户喜欢但未被推荐的物品数量，DCG^*是理想的DCG(平均折损增益)。

2.2实验结果与分析

2.2.1不同参数下的实验对比

考虑到训练模型时，算法性能会受到迭代次数的影响。因此，实验分别设置Epoch为20、40、60、100、120，以观察性能的变化。由图2可知，随着迭代次数的增加，SDLFMLP算法的RMSE呈下降趋势，即推荐质量随着迭代增加有所改善。当迭代达到100至120时，下降的趋势逐渐趋于平稳。

除了迭代次数对算法性能有影响外，MLP的构造也对实验效果产生一定的影响，因此为MLP设置不同隐藏层数，以观察实验效果的变化。观察图3可知适当增加隐层数可以提高模型的性能，但是当设置2个以上的隐藏层时，模型的性能几乎不再提高。这是由于随着网络的深度不断加深，模型复杂度增加，参数增多，需要更多的数据才能更好地学习模型。因此，与其他算法对比时，设置的隐藏层数为2。

2.2.2不同算法性能对比

为了验证本发明所提结合评论文本挖掘的个性化推荐算法的有效性，将其与以下算法进行比较。

◆LFM：传统的隐语义模型，不采用任何的辅助数据。

◆MF-BPR：使用BPR算法优化了标准的矩阵分解模型。

◆HFT：同时利用了评分与评论数据，将LDA模型与矩阵分解模型相结合。

◆LMLF：利用LSTM对评论数据进行处理，将深度学习与协同过滤相结合。

为了使实验具有可比性，关于上述算法的相关参数，根据原文献给出的值进行设置，并统一设置迭代次数为120。

图4展示了在Amazon instant video数据集下各对比算法的RMSE值。显而易见的是与仅使用评分数据的LFM、MF-BPR相比，HTF、LMLF、SDLFMLP这三种使用了评论数据的算法RMSE存在明显下降。其中SDLFMLP算法比LFM的误差下降超过了13％，与MF-BPR相比，误差也下降了约6％。说明使用了评论数据进行辅助的算法明显优于仅使用评分数据的算法。此外，实验结果显示，LMLF的结果略好于HTF，而SDLFMLP算法与采用了深度学习的LMLF相比，误差也下降了约2％。

本发明提出的SDLFMLP算法除了在RMSE上的效果优于其他算法外，在Top-k推荐上也具有良好的表现。实验设置k分别取10,20,30。由表1与表2可知，在Amazon instantvideo数据集上，随着推荐长度增加，所有算法recall与NDCG都呈上升上趋势。且无论是Recall@k还是NDCG@k的表现，SDLFMLP都在一定程度上优于其他算法。

表1不同算法的Recall性能比较

表2不同算法的NDCG性能比较

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明的领域。对于熟悉本领域的人员而言，可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。