CN110717103B

CN110717103B - 基于堆栈降噪编码器改进的协同过滤方法

Info

Publication number: CN110717103B
Application number: CN201910953239.3A
Authority: CN
Inventors: 高天寒; 蒋蕾
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2021-08-31
Anticipated expiration: 2039-10-09
Also published as: CN110717103A

Abstract

本发明提供一种基于堆栈降噪编码器改进的协同过滤方法，涉及推荐系统技术领域，本发明从用户相似性和项目相似性两个维度来做评分预测，使用加权因子的变化控制两种评分预测的比重来得到综合的评分预测，根据综合评分预测对项目进行降序排序,将集合的top‑n推荐给用户，提高了推荐系统的有效性和推荐质量。此外本发明将深度学习中的神经网络模型降噪自动编码器融入到协同过滤中，利用神经网络可以学习到用户和项目的深层次特征，这些特征相比于原数据能够更有效地表达用户和项目的特征，更好地计算用户之间的相似性和项目之间的相似性，从而缓解传统协同过滤中存在的数据稀疏性和冷启动等问题，提高推荐质量。

Description

基于堆栈降噪编码器改进的协同过滤方法

技术领域

本发明涉及推荐系统技术领域，具体涉及一种基于堆栈降噪编码器改进的协同过滤方法。

背景技术

近年来，随着云计算、大数据、物联网等技术的迅猛发展，互联网空间中各类应用的层出不穷引发了数据规模的爆炸式增长。大数据中蕴含着丰富的价值与巨大的潜力，将给人类社会带来变革性的发展，但同时也带来了严重“信息过载”问题，如何快速有效地从纷繁复杂的数据中获取有价值的信息成为了当前大数据发展的关键难题.推荐系统作为解决“信息过载”问题的有效方法,已经成为学术界和工业界的关注热点并得到了广泛应用，形成了众多相关研究成果。

在推荐系统中最重要的就是推荐算法，最经典的推荐算法就是协同过滤。但是传统的协同过滤存在数据稀疏性和新用户，新物品的冷启动等问题，这就会使推荐质量不高，用户体验差。深度学习是机器学习的一个新领域，它能够将复杂的低层特征形成抽象的、精简的高层表示，其强大的学习方式和数据处理能力解决了很多识别方面的难题。在推荐系统领域中，可以利用深度学习对用户或者项目内容进行特征提取，再应用于协同过滤中。堆栈降噪自编码器是深度学习中一种常用的神经网络模型，能够提取复杂高维的特征，其隐层的输出可以看作是用户或者项目的特征表示，再基于这种隐层的特征表示计算用户或者项目之间的相似度，利用用户或者项目之间的相似度给用户做推荐，可以有效地缓解数据的稀疏和冷启动问题。

发明内容

针对现有技术存在的问题，本发明提供一种基于堆栈降噪编码器改进的协同过滤方法。

基于堆栈降噪编码器改进的协同过滤方法，具体步骤如下：

步骤1：从实例数据集中提取用户的属性信息、项目的属性信息以及用户对项目的评分数据，通过用户的评分数据，建立评分矩阵，即用户评分矩阵；

所述用户的属性信息包括用户的性别，年龄和职业；

所述项目的属性信息包括项目的类型；

步骤2：将所述评分矩阵分为用户交互矩阵和项目得分矩阵，将用户交互矩阵和用户属性信息矩阵拼接后得到用户信息矩阵，将项目得分矩阵和项目属性信息矩阵拼接后得到项目信息矩阵；

所述用户信息矩阵，是对用户的年龄做离散化处理后，得到包括用户年龄，性别，职业的用户属性信息矩阵，再和用户交互矩阵拼接，得到用户的信息矩阵；

所述项目信息矩阵，具体统计每个项目的包含的类型，项目具有该属性则记为1,项目没有该属性则记为0，得到项目属性矩阵，再和项目的得分矩阵拼接，得到项目的信息矩阵；

步骤3：将得到的用户信息矩阵和项目信息矩阵分别输入到两个堆栈降噪自动编码器中，进行特征提取后分别得到用户和项目的隐表示，即用户和项目的低维度特征向量；

所述用户的低维度特征向量，是把用户的信息矩阵输入到堆栈降噪自动编码器中，对其逐层训练，调整参数，利用得到的参数计算第二个隐藏层的输出，即用户的低维度特征向量；

所述项目的低维度特征向量，是把项目的信息矩阵输入到堆栈降噪自动编码器中，对其逐层训练，调整参数，利用得到的参数计算第二个隐藏层的输出，即项目的低维度特征向量；

步骤4：利用用户和项目的低维度特征向量分别计算用户之间的相似度和项目之间的相似度，根据得到的相似度分别对用户相似度和项目相似度做评分预测；

步骤5：使用加权因子的变化控制用户和项目两种评分预测的比重来得到综合的评分预测，根据综合评分预测对项目进行降序排序,将排序后的项目集合中的前n个项目，即top-n推荐给用户。

所述步骤4中：

所述利用用户的低维度特征向量计算用户之间的相似度，通过如下相似度计算公式进行计算：

式中，sim(u,v)为用户u和用户v的相似度；

和

表示用户u和用户v经过栈式降噪自编码器压缩成的s维特征向量；

所述利用项目的低维度特征向量计算项目之间的相似度，通过如下相似度计算公式进行计算：

式中，sim₁(i,j)为项目i和项目j的相似度；

和

表示项目i和项目j经过栈式降噪自编码器压缩成的t维特征向量；

所述根据得到的用户相似度做评分预测，通过如下的评分预测公式计算：

式中，Q_u为用户u对与项目i的基于用户的评分预测，S(u,K)是和用户u兴趣最相似的K个用户的集合，N(i)是对项目i评分过的用户集合,sim(u,v)是用户u和用户v之间的相似度,

是用户u对他评过分的所有项目评分的平均值,r_vi用户v对项目i的评分，

是用户v对他评过分的所有项目评分的平均值；

所述根据得到的项目相似度做评分预测，通过如下的评分预测公式计算

式中，Q_I为用户u对与项目i的基于项目的评分预测，S(i,K)是和项目i最相似的项目集合，N(u)是用户u评分过的项目集合,sim(i,j)是项目间的相似度，

是项目i的平均分，

是项目j的平均分,r_uj用户u对项目j的评分；

所述步骤5中：

所述使用加权因子的变化控制两种评分预测的比重来得到综合的评分预测通过如下的公式来计算：

Q＝βQ_u+(1-β)Q_I

式中，Q为用户对项目的综合的评分预测，β∈[0,1]为控制两者预测评分的权重。

本发明的有益效果：

本发明不仅使用了用户的评分数据，更考虑到了用户属性和项目属性，解决了新用户没有历史行为数据，不能计算用户相似性，从而造成无法准确的预测新用户的喜好，推荐质量不高等问题。同时，解决了新项目没有评分不能计算相似性的隐式推荐问题，很好的缓解了新用户和新项目的冷启动问题。本发明从用户相似性和项目相似性两个维度来做评分预测，提高了推荐系统的有效性和推荐质量。另外，本发明将深度学习中的神经网络模型降噪自动编码器融入到协同过滤中，利用神经网络可以学习到用户和项目的深层次特征，这些特征相比于原数据能够更有效地表达用户和项目的特征，更好地计算用户之间的相似性和项目之间的相似性，从而缓解传统协同过滤中存在的数据稀疏性和冷启动等问题，提高推荐质量。

附图说明

图1为本发明具体实施方式的方法总体流程图。

具体实施方式

为了使本发明的目的、技术方案及优势更加清晰，下面结合附图和具体实施例对本发明做进一步详细说明。此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

基于堆栈降噪编码器改进的协同过滤方法，流程如图1所示，包括如下步骤：

所述用户的属性信息包括用户的性别，年龄和职业；

所述项目的属性信息包括项目的类型；

确定堆栈降噪自动编码器的网络结构，为一个输入层，两个隐藏层和一个输出层；

步骤3.1：将用户信息矩阵输入到堆栈降噪自动编码器计算用户的低维度特征向量，包括以下步骤：

步骤3.1.1：训练堆栈降噪自动编码器第一层的神经网络，经过编码函数

计算后得到第一个隐藏层的激活向量

其中W₁∈R^k×l是权值矩阵，b₁∈R^m ^×1是偏置向量；

步骤3.1.2：将步骤3.1.1中得到的第一个隐藏层的激活向量

作为堆栈降噪自动编码器第二个隐藏层的输入，通过编码函数

计算后得到第二个隐藏层的激活向量

其中W₁'∈R^j×k是权值矩阵，b'₁∈R^m×1是偏置向量；

步骤3.1.3：将步骤3.1.2中得到的第二个隐藏层的输出

作为堆栈降噪自动编码器最后一个输出层的输入，通过解码函数

计算后得到网络的输出

其中W₁”∈R^l×j是权值矩阵，b₁”∈R^m×1是偏置向量；

步骤3.1.4：将步骤3.1.3得到的网络的输出

和原始的用户的信息矩阵通过如下公式获得目标函数：

其中，λ是正则化参数，用来防止过拟合，U是用户信息矩阵，

是堆栈降噪自动编码器的输出，W₁，W₁'，W₁”是权值矩阵，b₁，b'₁，b₁”是偏置向量；

步骤3.1.5：训练整个堆栈降噪自动编码器网络，不停更新参数，最小化目标函数，直到算法收敛；

本实施例使用的一种有效的训练自动编码器的方法是随机梯度下降法(Stochastic Gradient Descent,SGD)，对参数W₁，W₁'，W₁”，b₁，b₁'，b₁”进行随机初始化；重复迭代T轮，在每轮迭代中，以随机顺序遍历每个训练样本，计算随机梯度

沿随机梯度方向，更新参数：

其中T为最大迭代次数,α为梯度下降的步长，即学习率；对于每次输入的数据，算法中的随机梯度

可用反向传播(Back Propagation,BP)算法计算，其中前向传播，通过步骤3.1.1，3.1.2和3.1.3得到

反向传播则通过公式

计算输出层的误差

通过公式

以及

计算隐藏层误差

和

其中

运算符表示向量对应维度上的元素相乘；再通过公式

对随机梯度进行计算；

步骤3.1.5：利用步骤3.1.4训练结束后得到的参数W₁，W₁'，W₁”，b₁，b'₁，b₁”和

和

计算得到用户的隐表示，即用户的低维度特征向量，用户的深层次表示。

步骤3.2：将项目信息矩阵输入到另外一个堆栈降噪自动编码器计算项目的低维度特征向量，包括以下步骤：

步骤3.2.1：训练堆栈降噪自动编码器第一层的神经网络，经过编码函数

计算后得到第一个隐藏层的激活向量

其中W₂∈R^s×p是权值矩阵，b₂∈Rⁿ ^×1是偏置向量；

步骤3.2.2：将步骤3.2.1得到的第一个隐藏层的激活向量

计算后得到第二个隐藏层的激活向量

其中W'₂∈R^t×s是权值矩阵，b'₂∈R^n×1是偏置向量；

步骤3.2.3：将步骤3.2.2得到的第二个隐藏层的输出

计算后得到网络的输出

其中W″₂∈R^p×t是权值矩阵，b″₂∈R^n×1是偏置向量；

步骤3.2.4：将步骤3.2.3得到的网络的输出

和原始的项目的信息矩阵通过如下公式获得目标函数

其中，λ是正则化参数，用来防止过拟合，I是用户信息矩阵，

是堆栈降噪自动编码器的输出，W₂，W′₂，W″₂是权值矩阵，b₂，b'₂，b'₂'是偏置向量；

步骤3.2.5：训练整个堆栈降噪自动编码器网络，不停更新参数，最小化目标函数，直到算法收敛；本实施例中使用的一种有效的训练自动编码器的方法是随机梯度下降法(Stochastic Gradient Descent,SGD)，对参数W₂，W′₂，W″₂，b₂，b'₂，b″₂进行随机初始化，重复迭代T轮，在每轮迭代中，以随机顺序遍历每个训练样本，计算随机梯度

沿随机梯度方向，更新参数：

其中T为最大迭代次数,α为梯度下降的步长，即学习率，对于每次输入的数据，算法中的随机梯度

可用反向传播(Back Propagation,BP)算法计算，其中前向传播，根据步骤3.2.1，3.2.2和3.2.3得到