CN109783738B

CN109783738B - 一种基于多相似度的双极限学习机混合协同过滤推荐方法

Info

Publication number: CN109783738B
Application number: CN201910058902.3A
Authority: CN
Inventors: 罗成; 陈亮
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2023-02-28
Anticipated expiration: 2039-01-22
Also published as: CN109783738A

Abstract

本发明涉及一种基于多相似度的双极限学习机混合协同过滤推荐方法，包括以下步骤：利用评分矩阵从物品和用户两方面计算相似度，并将相似度作为权重加入到近邻评分向量中得到用户贡献向量和物品贡献向量；对双极限学习机网络进行训练，训练时以用户贡献向量和物品贡献向量作为双极限学习机的输入；采用训练好的双极限学习机网络预测用户u对物品i的评分，并根据评分情况判断是否向用户u推荐物品i。本发明能够降低评分预测的误差，提高了推荐的精度。

Description

一种基于多相似度的双极限学习机混合协同过滤推荐方法

技术领域

本发明涉及互联网技术中的兴趣点推荐技术领域，特别是涉及一种基于多相似度的双极限学习机混合协同过滤推荐方法。

背景技术

随着互联网的高速发展，推荐系统在电子商务，新闻推荐，视频推送等领域崭露头角，取得不错的效果。目前，大多数互联网公司都使用着各种推荐系统作为一种新的方式来提升服务质量和客户粘性。对于广大的消费者来说，推荐系统在一定程度上省去了海量信息检索的过程，可以轻易获取想要的信息。

在推荐系统中，协同过滤(Collaborative Filtering，CF)算法作为一种最重要的信息过滤的手段，受到了人们的广泛关注，并取得了很大的成功，协同过滤推荐源于现实生活中口碑相传的过程，利用相似用户之间具有相似兴趣偏好的方法，来发现用户对物品的潜在偏好。严格意义上来说，协同过滤推荐算法主要包括三类：基于内存的协同过滤(Memory based CF)算法，基于模型的协同过滤(model based CF)推荐算法，混合协同过滤(hybrid CF)推荐算法。基于内存的协同过滤算法是在稀疏评分矩阵的基础上通过计算用户或物品间的相似度，来预测评分或进行TopN推荐，比如基于用户的协同过滤(User-basedCF)，基于物品的协同过滤(Item-based CF)。基于模型的协同过滤是建立一个基于评分数据集的模型，然后从数据集中提取一些信息，并将其作为“模型”来进行推荐，这种方法有着快速和可伸缩性的优点，如矩阵分解，概率潜在语义分析，贝叶斯网络。混合协同过滤将基于内存的协同过滤与基于模型的协同过滤相结合，克服数据稀疏的不足，提高了预测性能，大多数的商业运用都是混合协同推荐算法。

虽然传统的协同过滤因其简单有效而被广泛使用，但也存在以下不足：

a)传统的协同过滤算法都是聚焦于单一的相似度，或用户间相似度，或物品间相似度。对于这两者的使用场景主要是取决于推荐系统的用户规模和物品规模，但并不是表明使用效果差的不能提供有效的信息，这是不符合认知规律的，人类对陌生对象的认知是取决于自己属性和对象属性的共同作用。

b)评分预测公式过于简单。传统的基于用户和基于物品的协同过滤的推荐算法的评分预测公式只是近邻评分做了加权求和的过程。而事实上，评分过程可能是一个包含非线性的复杂的决策过程，不能很好的表征这一过程。

发明内容

本发明所要解决的技术问题是提供一种基于多相似度的双极限学习机混合协同过滤推荐方法，能够降低评分预测的误差，提高了推荐的精度。

本发明解决其技术问题所采用的技术方案是：提供一种基于多相似度的双极限学习机混合协同过滤推荐方法，包括以下步骤：

(1)利用评分矩阵从物品和用户两方面计算相似度，并将相似度作为权重加入到近邻评分向量中得到用户贡献向量和物品贡献向量；

(2)对双极限学习机网络进行训练，训练时以用户贡献向量和物品贡献向量作为双极限学习机的输入；

(3)采用训练好的双极限学习机网络预测用户u对物品i的评分，并根据评分情况判断是否向用户u推荐物品i。

所述步骤(1)包括以下子步骤：

(11)清洗数据样本，去除重复数据，对用户和商品进行连续编号；

(12)构建评分矩阵，矩阵的同一列为不同用户对同一商品的评分，同一行为同一用户对不同商品的评分，以零来填充缺失的项；

(13)从用户维度和物品维度计算用户间相似度和物品间相似度，以行向量为特征向量构建用户相似度矩阵S_userN′N，以列向量为特征向量构建物品相似度矩阵S_itemM×M；

(14)对用户间相似度和物品间相似度分别进行排序，根据预设的近邻数，确定目标用户和目标物品的近邻群体；

(15)将用户间相似度和物品间相似度分别与评分记录相乘，来度量近邻分数对评分的贡献，得到用户贡献矩阵和物品贡献矩阵。

所述步骤(13)中用户间相似度和物品间相似度均采用余弦相似度计算方法进行计算，其中，用户间相似度

物品间相似度

r_ak和r_bk表示用户a与用户b对物品k的评分，r_ka和r_kb表示用户k对物品a和物品b的评分。

所述步骤(2)包括以下子步骤：

(21)随机初始化双极限学习机的隐层参数，包括w¹为第一隐层权重，b¹为第一隐层偏置，w²为第二隐层权重，b²为第二隐层偏置；

(22)计算第一隐层输出和第二隐层输出，其中，第一隐层输出

第二隐层输出

h(·)是激活函数，x¹为第一隐层输入，x²为第二隐层输入；

(23)计算输出层输出，其中，输出层输出O＝H¹β¹+H²β²，β¹和β²为输出权重；

(24)计算损失函数，损失函数

Y表示实际评分值；

(25)更新输出权重，完成训练。

所述步骤(22)中激活函数采用RELU激活函数

所述步骤(25)中采用梯度下降的方式来更新输出权重，具体计算方式如下：

其中，η表示梯度下降法的更新步长。

所述步骤(25)中令输出权重

(H¹+H²)为H¹+H²的Moore-Penrose广义逆矩阵。

所述步骤(3)具体包括以下步骤：

(31)计算用户u与其他用户的相似度，确定用户u的近邻群；

(32)查询出这些近邻对物品i的评分，并与对应的相似度进行加权得到用户贡献向量V¹；

(33)计算物品i与其他物品的相似度，确定物品i的近邻群；

(34)查询出这些近邻被用户u的评分，并与对应的相似度进行加权得到物品贡献向量V²；

(35)将用户贡献向量V¹和物品贡献向量V²作为输入，根据训练好的双极限学习机网络计算预测的评分；

(36)当评分超过阈值时向用户u推荐物品i。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明将目标用户和目标物品的加权后的近邻分数分别作为输入，利用用户维度的信息和物品的维度的信息综合预测评分，与传统的协同过滤算法相比，本方法明显降低了评分预测的误差，提高了推荐的精度。

附图说明

图1是本发明的流程图；

图2是本发明中双极限学习机评分预测模型示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种基于多相似度的双极限学习机混合协同过滤推荐方法，如图1所示，包括以下步骤：

(1)清洗评分记录数据样本，去除重复数据，对用户和商品进行编号(假设有N个用户，M件商品)，并使编号连续；

(2)建立评分矩阵R。假设某平台有N个活跃用户，M件产品，L条评分记录，每条评分记录有用户ID，物品的ID和用户对此商品的打分构成。那可以构建如下的矩阵：

	i<sub>1</sub>	…	i<sub>j</sub>	…	i<sub>M</sub>
						u<sub>1</sub>	r<sub>11</sub>	…	r<sub>1j</sub>	…	r<sub>1M</sub>
…	…		…
						u<sub>i</sub>	r<sub>j1</sub>	…	r<sub>ij</sub>		r<sub>iM</sub>
…	…		…	…
						u<sub>N</sub>	r<sub>N1</sub>	…	r<sub>Nj</sub>		r<sub>NM</sub>

其中，r_ij表示第i个用户对第j件产品的偏好，由于每个用户不可能使用所有产品，所以矩阵R有数据缺失，是一个稀疏矩阵，缺失的部分可以用0来填补。用户对产品的偏好可以是评分，也可以是赞成与反对。

(3)计算用户间相似度和物品间相似度。在构建评分矩阵后，根据

和

从用户维度和物品维度计算相似度，以行向量为特征向量构建用户相似度矩阵S_userN×N，以列向量为特征向量构建物品相似度矩阵S_itemM×M。

(4)确定近邻，构建贡献矩阵。相似度进行排序，根据预设的近邻数K，目标用户和目标物品的近邻群体就可以确定。另外，相似度也可以看作对评分记录对预测评分的贡献度，可以这么认为，相似度越大，那么该数据就对目标用户来说更加的可靠，用户更加倾向于信任和自己相似的用户，对于物品来说也是如此，所以将相似度与评分记录相乘，来度量近邻分数对评分的贡献，由此可以针对目标用户，目标物品构建用户贡献向量V_user1×K，构建物品贡献向量V_item1×K，结合用户标签和实际评分，得到如下的贡献矩阵：

C_userL×(K+3)＝{userid,itemid,truerating,V_user1×K}

C_itemL×(K+3)＝{userid,itemid,truerating,V_item1×K}

(5)双极限学习机的输出预测的评分。如图2所示，基于ELM进行了改进，将原来的单输入层网络设计成了双输入层，以达到用户信息与物品信息融合的目的。

随机初始化隐层参数，w¹为隐层一权重，b¹为隐层一偏置，w²为隐层二权重，b²为隐层二偏置。

由极限学习机的理论基础，可以得到隐层一输出H¹和隐层二H²的可以表示为：

这里，h(·)是激活函数，本实施方式中由于实际的评分不可能是负数，因此采用RELU激活函数

输出层输出计算。完成对输出层的输出计算O＝H¹β¹+H²β²。

其中，β¹，β²为输出权重。

损失函数E计算，

其中，Y表示实际评分值。

对输出权值进行更新。由于隐层的权重和偏置是随机取值的，明显损失函数E为凸函数。因此提出了两种输出权值的计算方式：

A)用梯度下降来求解输出权重β¹，β²，梯度更新公式为：

其中，η表示梯度下降法的更新步长。将更新的权值迭代入输出层输出，直到达到迭代次数或误差要求，完成训练。

B)假设β¹＝β²＝β，则可以根据

计算输出权重，其中，(H¹+H²)为H¹+H²的Moore-Penrose广义逆矩阵。

完成网络的训练后，开始进行评分预测，假设要预测用户u对物品i的评分，算法的评分预测步骤如下：

计算用户u与其他用户的相似度，确定用户u的近邻群；

查询出这些近邻对物品i的评分，并与对应的相似度进行加权得到用户贡献向量V¹；

计算物品i与其他物品的相似度，确定物品i的近邻群；

查询出这些近邻被用户u的评分，并与对应的相似度进行加权得到物品贡献向量V²；

将用户贡献向量V¹和物品贡献向量V²作为输入，根据训练好的双极限学习机网络计算预测的评分；

当评分超过阈值时向用户u推荐物品i。

在实际的应用中，对于相似度计算，近邻群的选取可以采用离线计算的方式，而对于预测可以在线计算，这样有利于提高计算的效率，节省计算资源。不难发现，相比于传统的协同过滤算法，本发明融合了用户的相似信息和物品的相似信息，是有用信息的挖掘更加的充分，评分预测的准确率会更加高。