CN109408702B

CN109408702B - 一种基于稀疏边缘降噪自动编码的混合推荐方法

Info

Publication number: CN109408702B
Application number: CN201810992432.3A
Authority: CN
Inventors: 汪海涛; 欧高亮
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2021-07-16
Anticipated expiration: 2038-08-29
Also published as: CN109408702A

Abstract

本发明涉及一种基于稀疏边缘降噪自动编码的混合推荐方法，属于个性化推荐领域。本发明包括步骤：本发明首先把每个商品评论合并为评论文档，用TF‑IDF处理每个商品的评论文本，选出TF‑IDF值最高的词构建商品内容向量作为商品的特征表示。其次，用商品内容向量训练稀疏边缘降噪自动编码模型，用训练好的模型从商品内容向量中进一步提取出商品特征，用余弦相似度计算商品特征向量的相似度，得到近邻商品的影响力。最后近邻商品影响力结合用户‑评分矩阵分解得到预测评分。本发明有效提高了算法效率与推荐精确度。

Description

一种基于稀疏边缘降噪自动编码的混合推荐方法

技术领域

本发明涉及一种基于稀疏边缘降噪自动编码的混合推荐方法，属于个性化推荐领域。

背景技术

随着大数据时代的到来，各大互联网公司对数据越来越重视，尤其是各大国内外的电商网站的实际需求是推进推荐算法研究的动力。国内外的电商网站上和社交网络上，最常见的推荐算法则是根据用户的历史行为数据来推荐用户可能会购买的或者感兴趣的商品或者话题。在现实的推荐系统中，影响推荐准确度的两个主要因素：数据稀疏性、冷启动，数据稀疏性是指在实际的电商网站上，沉默用户占大多数，只有少部分用户评论，其真实有效的评论数一般低于总资源的1％，并且还有部分评论是无效、垃圾评论。冷启动问题的含义是，当新用户进入系统时，没有任何历史行为数据，推荐系统推荐的准确度极低，然而我们也可以认为导致冷启动的主要原因就是数据的稀疏性。在沉默用户占大多数的情况下，依赖用户历史行为数据的协同过滤算法的预测性能必然不够理想。

协同过滤推荐模型可以分为：早期提出的基于记忆的推荐；发展较为成熟的基于模型的推荐；前瞻性较好的混合型推荐。基于模型的推荐中矩阵分解方法是其最具代表性的一个方法。隐语义矩阵分解模型(LFM)算法则是矩阵分解算法中较为常用的。LFM算法通过降维来获得隐含特征，进一步预测用户对商品的潜在打分，然则其推荐精度有待提高。近年来，深度学习(Deep Learning)理论发展使得利用神经网络从大规模无标注数据中提取特征成为可能。Oord(<Journal of Chinese Computer Systems>,2009)和X.Xang<35thHawaii International Conference on System Sciences>,2002)提出直接用卷及神经网络CNN和深度信念网DBN从内容信息中学习特征表示用于音乐推荐。为了综合利用评论文本和评论信息来提高推荐系统的效果，Hao Wang<35th Hawaii International Conferenceon System Sciences>,2012)等人提出了深度协同模型CDL，CDL解决了CTR模型在数据稀疏时，学习隐藏特征不充分的缺陷，其没有考虑沉默用户问题。当前国内研究人员，张敏(<清华大学学报(自然科学版)>,2015,30(3))等提出了隐因子模型(SELFM)来加强语义，利用深度模型SDAE提取商品评论文本特征，将用户评论与评分联合，以此提高评分预测的准确性，但是SDAE的学习能力和分类精度不如SmDAE。

发明内容

本发明要解决的技术问题是提供一种基于稀疏边缘降噪自动编码的混合推荐方法，是一种改进SmDAE与近邻商品影响力的矩阵分解模型相结合的混合推荐模型(Sm-LFM)，在特征提取的部分，通过SmDAE算法从经过选词模型的评论文本中提取商品特征向量。并且将实际评分和预测评分参与SmDAE网络微调，将评分作为特征提取有效性反馈。在协同过滤部分，在数据过于稀疏会导致LFM模型不能很好的显示商品的真实的特征，我们通过商品特征向量来计算近邻商品的影响力，将近邻商品影响力加入矩阵分解模型中以加强商品特征表征性，来提高算法效率与推荐精确度。

本发明采用的技术方案是：一种基于稀疏边缘降噪自动编码的混合推荐方法，包括如下步骤:

Step1：把每个商品评论合并为评论文档，用TF-IDF处理每个商品的评论文本，选出TF-IDF值最高的词构建商品内容向量作为商品的特征表示；

Step2：用商品内容向量训练稀疏边缘降噪自动编码模型，用训练好的模型从商品内容向量中进一步提取出商品特征，用余弦相似度计算商品特征向量的相似度，得到近邻商品的影响力；

Step3：近邻商品影响力结合用户-评分矩阵分解得到预测评分。

具体地，所述Step1的具体步骤如下：

Step1.1:将每个商品下的所有评论合并成整个文档，利用基于TF-IDF的关键词抽取方法构建商品内容向量作为商品的特征表示；

Step1.2：基于TF-IDF的关键词抽取方法：

计算词频：词频指的是某一个给定的词语在该文件中出现的频率；这个数字是对词数的归一化，以防止它偏向长的文件，对于在某一特定文件里的词语来说，其计算词频可表示为：

以上公式中，分子n_i,j是该词t_i在文件d_j中出现的次数，而分母则是在文件中所有字词的出现次数之和。

计算逆向文件频率：逆向文件频率IDF是一个词语普遍重要性的度量，某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到：

其中，|D|表示语料库中的文件总数，|{j:t_i∈d_j}|表示包含词语t_i的文件数目，如果该词语不在语料库中，就会导致分母为0，因此使用1+|{j:t_i∈d_j}|作为分母；

最后计算TF_ij与IDF_i的乘积：

TF-IDF＝TF_ij×IDF_i (3)

计算得出文档中每个词的TF-IDF值，将N个最高TF-IDF值的词作为商品内容向量L_i,其中i表示商品的序号。

具体地，所述Step2的具体步骤如下：

Step2.1：利用Step1.2得到的每个商品的商品内容向量L_i来训练稀疏边缘降噪自动编码模型，简称SmDAE网络模型，进一步从L_i来提取商品特征，训练集为W,训练网络来优化损失函数J_mDAE(θ)，单层SmDAE网络最后输出商品特征向量L_si；

其中L(x,y)为重构误差函数，f_θ为编码函数，KL为KL-divergence的方法，β为控制稀疏性惩罚项的权重系数，μ_x为x的期望值，ρ为稀疏性参数，

为神经元的激活度，

是输入数据x的低d维的干扰项的方差，

为相对于z系数h维的偏导，

为输入数据x的d维的偏导，

是矩阵L相对于z系数的Hessian矩阵；

Step2.2：形成多层SmDAE网络,把首层的输出作为第二层的输入，其他部分与2.1相同，按上一步的思路直到训练好所有层的网络参数，多层SmDAE网络最后输出商品特征向量L_di；

Step2.3：采用余弦相似度来计算商品的相似度，余弦值越接近1则越相似，假设L_d1[A1,A2,…,An],L_d2[B1,B2,…,Bn]为两个n维特征向量，相似度计算公式如下：

将近邻商品对目标商品的影响力融入到矩阵分解模型中，假设影响力为X,则N个近邻商品对目标商品的影响力为：

其中X表示商品产生的影响力，T表示近邻商品的集合，w_f表示每个近邻商品产生的影响力隐式反馈。

具体地，所述Step3的具体步骤如下：

Step3.1：用户行为数据集R_U×I矩阵是用户-商品评分矩阵，使用隐语义矩阵分解模型(LFM)对其降维，矩阵值R_UI表示的是用户U对商品I的评分，LFM将评分矩阵R_U×I分解为两个低维度矩阵P_U×n与Q_n×I，用户U对商品I的预测评分模型为：

Step3.2：将2.3中近邻商品影响力X加入到评分模型中，得到新的预测评分模型。

Step3.3：设所有的评论集合为K，最优化损失函数C来估计参数，损失函数如下所示：

其中R_UI表示的是用户U对商品I的评分，λ为参数，λ₁||P_U×n||²+λ₂|Q_n×I||²+λ₃||X||²分别为基于P_U×n，Q_n×I，X的正则项。

本发明的有益效果是：

1、基于SmDAE算法从评论文本中提取商品特征向量

传统的协同过滤算法都是基于评分信息，很少充分利用了用户评论的信息，导致了推荐系统的推荐精确度较低且冷启动问题较严重。SmDAE处理文本的能力得以挖掘和应用，尤其是对文本的特征提取和分类方面恰好能用于商品评论，以解决推荐系统冷启动、新物品等难题。

2、近邻商品影响力加入矩阵分解模型提高预测评分准确度

本发明通过近邻商品影响力加入矩阵分解模型，在数据过于稀疏会导致LFM模型不能很好的显示商品的真实的特征，我们通过商品特征向量来计算近邻商品的影响力，将近邻商品影响力加入矩阵分解模型中以加强商品特征表征性，来提高算法效率与推荐精确度。

总之，合考虑评论文本与评分而提出改进的稀疏边缘降噪自动编码(SmDAE)与近邻商品影响力的隐语义矩阵分解模型(LFM)相结合的混合推荐方法(Sm-LFM)，为用户提供更精准的推荐。通过SmDAE算法从经过选词模型的评论文本中提取商品特征向量。并且将实际评分和预测评分参与SmDAE网络微调，将评分作为特征提取有效性反馈。在协同过滤部分，在数据过于稀疏会导致LFM模型不能很好的显示商品的真实的特征，我们通过商品特征向量来计算近邻商品的影响力，将近邻商品影响力加入矩阵分解模型中以加强商品特征表征性，来提高算法效率与推荐精确度。

附图说明

图1为本发明的整体流程图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步的说明。

实施例1：如图1所示，一种基于稀疏边缘降噪自动编码的混合推荐方法，包括如下步骤:

作为本发明的优选方案，所述步骤Step1的具体步骤为：

实验数据集采用Amazon product data，实验数据集随机按照1:9分成测试集H和训练集W，如表一所示。选择每个商品的评论文本中通常包含了的商品的描述信息和其评分的详细理由，在使用同一商品时，由于个人的因素，即使对同一商品都给五分的评价，其给分的理由也极有可能互异、矛盾的，而且从单条评论信息我们也获取不到商品的特征信息，所以我们这里将所有评论合并成一个文档，使得文档中的主流观点得以体现，我们把每个商品都用一个商品内容向量来表示。

表1亚马逊数据集

Step1.2：基于TF-IDF的关键词抽取方法：

TF-IDF的含义是词频逆文档频率，其假设是，高频率词应该具有较高的权重，除非它也是高文档频率，如果某个词比较少见，但是它在某篇文档中多次出现，那么它很有可能就反映了这篇文章的特性，正是所需要的关键词，也就是特征词向量；

最后计算TF_ij与IDF_i的乘积：

TF-IDF＝TF_ij×IDF_i (3)

作为本发明的优选方案，所述步骤Step2的具体步骤为：

为神经元的激活度，

是输入数据x的低d维的干扰项的方差，

为相对于z系数h维的偏导，

为输入数据x的d维的偏导，

是矩阵L相对于z系数的Hessian矩阵；

Step2.2：因为单层SmDAE网络的特征提取能力不足，也不能充分体现网络的优势，本发明采用的方法则是堆叠，形成多层SmDAE网络,把首层的输出作为第二层的输入，其他部分与2.1相同，按上一步的思路直到训练好所有层的网络参数，多层SmDAE网络最后输出商品特征向量L_di；

Step2.3：比较商品相似性时我们只需要计算每个商品特征向量的相似性即可，采用余弦相似度来计算商品的相似度，余弦值越接近1则越相似，假设L_d1[A1,A2,…,An],L_d2[B1,B2,…,Bn]为两个n维特征向量，相似度计算公式如下：

为了反映近邻商品对目标商品的影响，本发明将近邻商品对目标商品的影响力融入到矩阵分解模型中，假设影响力为X,则N个近邻商品对目标商品的影响力为：

作为本发明的优选方案，所述步骤Step3的具体步骤为：

其中R_UI表示的是用户U对商品I的评分，λ为参数，λ₁||P_U×n||²+λ₂Q_n×I||²+λ₃||X||²分别为基于P_U×n，Q_n×I，X的正则项。

协同过滤算法容易过拟合的主要原因就是评分矩阵过于稀疏，我们在损失函数中加入了正则项λ₁||P_U||²+λ₂||Q_I||²防止过拟合，采用随机梯度下降法来最小化损失函数，该算法是最优化理论里最基础的优化算法，首先通过求参数的偏导数找到最速下降方向，然后通过迭代法不断地优化参数，系数λ则需要反复实验得到。式(9)中的C则是隐语义矩阵分解模型(LFM)模型的最小化的目标，从而得到最优预测评分。

本发明采取均方根误差MSE来评价模型性能。假设测试集为W，其中R_UI是用户U对商品I的实际评分，

是模型预测出来的用户U对商品I的评分。则MSE定义为：

选择CDL模型和SDELM作为本文的对比模型。CDL模型将概率化LFM模型与贝叶斯SDAE模型相联合，CDL模型通过从商品的内容和标签来提取特征，从而得到用户对商品评分的数学期望。用Theano来实现CDL模型，CDL中LFM模型与本文模型的部分参数、细节尽可能相同。对于本文Sm-LFM模型，通过评论处理模型选择出2000。SDELM是将极限学习机和SDAE相结合推荐模型，使用逐层自编码的思想将极限学习机与降噪自编码器堆叠，计算的堆栈降噪自编码器的深度学习模型，最后通过用模型提取的特征应用于最近邻算法预测打分。对于SDELM中SDAE，与本文模型的网络层数、部分参数、细节尽可能相同。

对于本发明Sm-LFM模型，通过评论处理模型选择出2000个TF-IDF值最高的词，作为文本编码模型的输入，文本编码模型中选择3层SmDAE网络，隐含特征空间的维数取n＝300，系数取λ₁＝λ₂＝λ₃＝0.1。此中SmDAE网络的第一、二、三层的输出维度取值依次取800、80和5，降噪参数每层都相同：0.94，近邻数目取10个。文本编码模型和矩阵分解模型都用较为常见的方法训练，前者采用Adam方法，后者采用随机梯度下降方法。用来确保本文模型和对比模型的对比性，衡量模型预测评分准确度的指标我们采用MSE，即预测评分与测试集真实的评分的均方根误差。

从表2可以看出，Sm-LFM模型的性能在5个子数据集上均有提升，相比CDL和SDELM模型都有较大的提升。提升效果最好的和最差的分别是鞋类和办公用品，前者提升了将近8.4％，后者提升将近1％。

在同样使用深度学习网络提取特征的情况下，Sm-LFM比SDELM模型性能提升了约5.43％，SDELM没有引入额外的特征加强信息，且其评分预测使用极限学习机和最近邻算法严重依赖特征质量，且学习能力弱于Sm-LFM使用的SmDAE。Sm-LFM比CDL模型性能最高提升了8.370％,CDL模型通过从商品的内容和标签来提取特征的能力不如通过SmDAE从评论文本提取特征的能力。

表2性能对比

本发明首先用TF-IDF处理每个商品的评论文本，选出TF-IDF值最高一组构成一个词向量。其次，训练深度学习模型并从词向量中提取出商品特征，并计算商品特征向量的相似度，得到近邻商品的影响力。最后近邻商品影响力结合用户-评分矩阵分解得到预测评分。

本发明以结合深度学习和协同过滤的方法，在特征提取的部分，SmDAE算法从经过选词模型的评论文本中提取商品特征向量，更为效的提取了商品特征向量，抑制了数据稀疏对商品的真实的特征的影响。同时通过商品特征向量来计算近邻商品的影响力，将近邻商品影响力加入矩阵分解模型中以加强商品特征表征性，在提升模型性能的同时提高了推荐精度，为个性化推荐系统提供了一种新的技术方法。

以上所述近视本发明的实施方法，但是本发明并不限于以上所述的实施方法，在本领域具有相关技术的人员，均可以基于本发明且不脱离宗旨的前提下做出各种变化，这种变化也应视为本发明的保护范围。