CN114117251A

CN114117251A - 一种智慧文博下融合多因素的矩阵分解个性化推荐方法

Info

Publication number: CN114117251A
Application number: CN202111386479.3A
Authority: CN
Inventors: 朱容波; 金焕章; 王俊
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-03-01
Anticipated expiration: 2041-11-22
Also published as: CN114117251B

Abstract

本发明公开了一种智慧文博下融合多因素的矩阵分解个性化推荐方法，该方法包括：对用户历史数据集进行初始化并分析处理，运用F‑PEARSON计算出用户与其他用户的相似性得分；根据基于机器学习的BERT模型训练用户历史数据集，预测出每个用户对不同年代不同类型电影的评分；根据用户的特征矩阵和项目的特征矩阵，并结合用户相似性得分、预测评分，构建融合多因素的预测评分公式和目标函数；输入待预测的用户数据，运用随机梯度下降法进行求解，使得目标函数下降最快，得到预测评分。本发明可以有效解决传统推荐算法在稀疏数据、冷启动、特征关系提取等问题上处理能力的不足等问题，降低了预测评分误差和提高推荐的精确度。

Description

一种智慧文博下融合多因素的矩阵分解个性化推荐方法

技术领域

本发明涉及大数据推荐方法领域，尤其涉及一种智慧文博下融合多因素的矩阵分解个性化推荐方法。

背景技术

随着近年来物联网技术飞速发展、人们生活水平不断提高、互联网用户规模快速增加、用户需求多样性，人们在海量数据中获取感兴趣的内容变得更加困难，如何准确捕捉用户感兴趣的内容是当前亟需解决的问题。

现在，人们生活离不开手机，网络信息呈现多样性和海量性，如果没有很好的依据给用户进行推送，那么很可能推送的大部分内容是用户不想看到的，大大降低了用户的体验感，因此研究精确的推荐算法非常有必要。推荐算法主要分为个性化推荐和大众化推荐。大众化推荐是基于相似信息的推荐，不能很好的表现出当前用户的特征，而个性化推荐能够更好的反映出用户的特征喜好，能提高推荐的准确度，存在着巨大的商业价值。融合多因素的矩阵分解个性化推荐算法可以帮助电子商务等行业进行更精准的商品推荐，减少用户浏览到重复或厌恶的信息带来的不利影响。

为了提高推荐的精确度，现有工作主要集中在解决稀疏数据情况、冷启动和对属性潜在关联的提取问题上。传统推荐算法在处理这些问题上效果不佳，比如：协同过滤推荐算法就存在冷启动、可扩展性不好、数据稀疏问题，因为训练期间未出现的项目，则无法将其嵌入到其他项目中进行预测。基于内容的推荐算法推荐结果比较直观，解释性强，也存在数据稀疏问题和不好对复杂属性进行处理，因为其要求内容容易抽取成有意义的特征，并且具有交换的结构性。基于规则的推荐虽然能发现用户的新兴趣点，但是对规则的抽取难、耗时、个性化程度低，因为商品名称的同义性会对关联规则的抽取产生很大的干扰。基于知识的推荐是静态的并且知识较难获得，因为它是基于一种推理，而不是建立在用户的偏好上，用户所用功能的知识也有差别。基于各种推荐算法的优缺点，融合多因素能够更好的挖掘用户的潜在关联特征，矩阵分解在解决数据稀疏性和冷启动上有很好的效果，个性化能更好的表现出用户的特征偏好。

考虑到目前推荐算法在海量数据中提取信息难、单一因素推荐效果不佳、数据稀疏、冷启动等问题。本发明提出基于多因素的矩阵分解个性化推荐算法，能够根据复杂多样的历史行为数据去提取用户与用户、用户与物品之间的潜在关联特征，能较好的处理数据稀疏和冷启动带来的影响，从而构建高准度的个性化推荐。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种智慧文博下融合多因素的矩阵分解个性化推荐方法。

本发明解决其技术问题所采用的技术方案是：

本发明提供智慧文博下融合多因素的矩阵分解个性化推荐方法，该方法包括以下步骤：

步骤一、对用户历史数据集进行初始化并分析处理，得到用户-项目的评分矩阵R，并构建改进后的皮尔森相关系数F-PEARSON，运用F-PEARSON计算出用户与其他用户的相似性得分；

步骤二、根据基于机器学习的BERT模型训练用户历史数据集，预测出每个用户对项目的评分；

步骤三、构建F-SVD算法：根据用户-项目的评分矩阵R和输入的特征维度D转为用户的特征矩阵U和项目的特征矩阵V，并结合步骤一得到的用户相似性得分、步骤二得到的预测评分，构建得到融合多因素的预测评分公式和目标函数；

步骤四、输入待预测的用户数据，将其代入F-SVD算法的融合多因素的预测评分公式和目标函数中，运用随机梯度下降法进行求解，使得目标函数下降最快，得到预测评分。

进一步地，本发明的所述步骤一中F-PEARSON的具体方法为：

考虑到两个用户对电影评分的平均值，若用户评分的平均值越接近那么认为用户越相似，表示为：

式中a_(u1,u2)表示用户u1和用户u2关于平均评分的相似度，

代表用户u1对所有电影评分的平均值，

代表用户u2对所有电影评分的平均值，χ是调整超参数；

还考虑到两个用户共同评分的电影，其中包括共同评分电影的数量，共同评分电影的评分值，两个用户共同评分的电影越多代表两个用户的兴趣更接近；

式中c_(u1,u2)表示用户u1和用户u2在共同评分电影的相似度，r_(u1,i)代表用户u1对电影i的评分，r_(u2,i)代表用户u2对电影i的评分，

代表用户u1的平均评分，

代表用户u2的平均评分；

统计用户多长时间评价一部电影，考虑到两个用户评分电影的频率，评分频率越接近认为他们更相似，对取到的用户频繁频率进行归一化处理：

式中f_(u1,u2)表示两个用户关于评分频率的相似度，

代表用户u1最近一次评分电影的时间戳，

代表用户u1最早一次评价电影的时间戳,

代表用户u2最近一次评分电影的时间戳，

代表用户u2最早一次评价电影的时间戳，γ是调整超参数；

综合以上因素，最终用户的相似度计算公式为：

式中Su表示F-PEARSON相似度。

进一步地，本发明的所述用户历史数据集中包括：电影id，movieId；用户id，userId；评分，rating；电影类型，genres；时间戳，timestamp；标签，tags。

进一步地，本发明的所述步骤二中BERT模型训练方法为：

根据权利要求1所述的融合多因素的矩阵分解个性化推荐方法，其特征在于，所述步骤二中BERT模型训练的方法为：

加入BERT模型对历史数据进行训练，输入为提取的信息，包括：itemId，项目id；userId，用户id；rating，评分；genres，类别；输出为用户对电影的预测评分，最后取前k个用户的预测评分均值，计算公式表示为

为用户对某个年代某种类型项目的评分。

进一步地，本发明的所述步骤三中构建得到融合多因素的预测评分公式和目标函数的具体方法为：

相似度排序：将计算的用户相似度得分进行排序，排序后的数据为json格式：{"key":[[userId,S_u],…[userId,S_u]],…}，key为当前用户ID，userId为其他用户ID，S_u为其他用户与当前用户的相似度得分；

电影分类：将电影分成多种分类，分别用分类对应的数字进行标识；

用户在分类电影中的均分：获取数据集里面的movieId和rating，根据movieId判断当前电影的类型，遍历用户所有评分的电影，统计每类电影的总评分和对应的电影数量，从而求出用户在不同类型电影中的平均评分；

根据用户使用标签t₁的次数，考虑每个用户喜欢电影的类型不一样，会对应的打出不同的标签，计算用户使用标签t₁的次数和用户使用过的标签总数，计算用户在打此标签上对应电影的评分和当前用户所有电影评分的差值；若对当前电影评分比总平均评分要高则在预测的时候加上该差值，反之减去该差值；定义如下：

式中

表示标签对用户评分的影响，

表示用户u使用过的标签t₁所占的权重，t1∈r_(u,t)表示用户u使用过的t₁标签，r_(u,i)表示用户u对项目i的评分；

考虑用户对不同类型的电影会打出不同的评分，计算出用户在此类型电影上的评分比上用户对所有电影评分的均值作为用户对不同类型电影评分的偏差；定义如下：

式中w_(u,g)表示在用户u中类型为g的电影所占的比重，

代表用户对类型为g的电影的平均评分；

考虑用户对不同类型电影评分频率的影响，如果用户喜欢某种类型的电影那么评分的频率会更高，计算用户最近两次评分同种类型的时间差，差值越小代表用户越喜欢此类电影；由于用户两次评分的时间戳差值比较大，进行了归一化处理，定义如下：

式中t_(u,t)表示时间t对用户u的影响，f_(u,i)代表当前类型电影对用户评分电影总数的占比，β代表指数函数调整参数；

最终融合多因素的预测评分公式定义如下：

式中k代表与用户最相似的前k个用户，u_r表示用户的平均评分的偏差，b_u表示用户的评分偏差，b_i表示项目的评分偏差。U_u和V_i表示潜在因子矩阵U的第u行和矩阵V的第i行；

最终的目标函数如公式定义如下：

其中

为预测的评分，r_(i,i)为真实评分,‖U‖,‖V‖分别表示用户特征和项目特征的正则项，λ为正则化参数，通过网格搜索确定，b_u表示用户的评分偏差，b_i表示项目的评分偏差。

进一步地，本发明的所述步骤四中进行随机梯度求解的方法为：

为了获得的局部最优解，分别对u_r、b_u、b_i、U_u、V_i求偏导，运用随机梯度下降法进行求解，使得目标函数下降最快；每一次循环后计算预测值和真实值的误差，并更新矩阵里面的值，如果达到最大迭代次数或者误差小于给定的阀值则跳出循环。

本发明产生的有益效果是：本发明的融合多因素的矩阵分解个性化推荐方法：

(1)能够在数据稀疏、冷启动、数据复杂多样的情况下也能降低评分预测误差和提高预测的精确度。

(2)可以更好的挖掘用户、项目之间的潜在关联。

本发明验证并提出了一种F-SVD算法(一种融合多因素的矩阵分解个性化推荐方法)，运用F-PEARSON(改进后的皮尔森相关系数)计算用户之间的相似度，然后引入最相似的k个用户以丰富单数据源不足，运用基于机器学习的BERT模型进行用户历史数据的训练，得到用户对不同年代不同类型项目的评分，结合用户给不同电影打标签的偏好和用户评分的特点以及时间因素对用户兴趣偏好的影响，构建评分预测公式以提高推荐的精确度。实验结果表明，在公开数据集MovieLens上，融合多因素的矩阵分解个性化推荐算法在RMSE和MAE上的误差分别为0.7908、0.6067，预测的精确度达到了83.73％，召回率为76.95％。结果表明，本发明算法在不同评价指标上相比其他算法有较好的表现，表明本发明算法能在保证较低的预测评分误差情况下同时具备不错的预测精确度和召回率。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例提出的智慧文博下融合多因素的矩阵分解个性化推荐方法系统模型图；

图2是本发明实施例的智慧文博下融合多因素的矩阵分解个性化推荐方法流程图；

图3是本发明实施例的智慧文博下融合多因素的矩阵分解个性化推荐方法的合流程图；

图4是本发明实施例的RMSE误差曲线对比图；

图5是本发明实施例的MAE误差曲线对比图；

图6是本发明实施例的PRECISION曲线对比图；

图7是本发明实施例的RECALL曲线对比图；

图8是本发明实施例结合BERT模型的RMSE误差曲线对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1-图3所示，本发明实施例的智慧文博下融合多因素的矩阵分解个性化推荐方法，该方法包括以下步骤：

步骤一、构建F-PEARSON，在传统的皮尔森相关系数基础上考虑到两个用户对电影评分的平均值，在其他条件相同情况下，若用户评分的平均值越接近那么认为用户越相似，定义如下：

式中a_(u1,u2)表示用户u1和用户u2关于平均评分的相似度，

代表用户u1对所有电影评分的平均值，

代表用户u2对所有电影评分的平均值，χ是调整超参数。

还考虑到两个用户共同评分的电影，其中包括共同评分电影的数量，共同评分电影的评分值，两个用户共同评分的电影越多代表两个用户的兴趣更接近。

式中c_(u1，u2)表示用户u1和用户u2在共同评分电影的相似度，r_(u1,i)代表用户u1对电影i的评分，r_(u2,i)代表用户u2对电影i的评分，

代表用户u1的平均评分，

代表用户u2的平均评分。

统计用户多长时间评价一部电影，考虑到两个用户评分电影的频率，评分频率越接近认为他们更相似，对取到的用户频繁频率进行归一化处理。

式中f_(u1,u2)表示两个用户关于评分频率的相似度，

代表用户u1最近一次评分电影的时间戳，

代表用户u1最早一次评价电影的时间戳,

代表用户u2最近一次评分电影的时间戳，

代表用户u2最早一次评价电影的时间戳，γ是调整超参数。

综合以上因素，最终用户的相似度计算公式为：

步骤二、运用BERT模型在大规模数据中进行无监督训练，为了解决海量数据中提取潜在信息难等问题，我们加入了BERT模型对历史数据进行训练，输入为提取的itemId(项目id)，userId(用户id)，rating(评分),genres(类别)组成的信息，输出为用户对电影的预测评分，最后我们取前k个用户的预测评分均值，计算公式表示为

根据用户对项目的评分数据集转为用户对项目的评分矩阵R。根据用户-项目的评分矩阵R和输入的特征维度D转为用户的特征矩阵U和项目的特征矩阵V。

构建预测评分公式融合了相似性排序、电影分类、用户在不同类型电影上的平均评分和用户在分类电影的评分等因素，具体步骤如下：

相似度排序：将公式(5)计算的用户相似度得分进行排序，排序后的数据为json格式：{"key":[[userId,S_u],…[userId,S_u]],…}，key为当前用户ID，userId为其他用户ID，S_u为其他用户与当前用户的相似度得分。

电影分类：用户对不同类型电影的喜好程度是不一样的，将电影进行分类是很有必要的，基于这种情况将电影分成犯罪、战争、爱情、科幻等19类，分别用1-19标识。

用户在分类电影中的均分：获取数据集里面的movieId和rating，根据movieId判断当前电影的类型，遍历用户所有评分的电影，统计每类电影的总评分和对应的电影数量，从而求出用户在不同类型电影中的平均评分。

根据用户使用标签t₁的次数，考虑每个用户喜欢电影的类型不一样，会对应的打出不同的标签，计算用户使用标签t₁的次数和用户使用过的标签总数，计算用户在打此标签上对应电影的评分和当前用户所有电影评分的差值。若对当前电影评分比总平均评分要高则在预测的时候加上该差值，反之减去该差值。定义如下：

式中

表示标签对用户评分的影响，

表示用户u使用过的标签t₁所占的权重，t1∈r_(u，t)表示用户u使用过的t₁标签，r_(u,i)表示用户u对项目i的评分。

考虑用户对不同类型的电影会打出不同的评分，计算出用户在此类型电影上的评分比上用户对所有电影评分的均值作为用户对不同类型电影评分的偏差。定义如下：

式中w_(u,g)表示在用户u中类型为g的电影所占的比重，

代表用户对类型为g的电影的平均评分。

考虑用户对不同类型电影评分频率的影响，如果用户喜欢某种类型的电影那么评分的频率会更高，计算用户最近两次评分同种类型的时间差，差值越小代表用户越喜欢此类电影。由于用户两次评分的时间戳差值比较大，进行了归一化处理，定义如下：

式中t_(u,t)表示时间t对用户u的影响，f_(u,i)代表当前类型电影对用户评分电影总数的占比，β代表指数函数调整参数。

最终融合多因素的预测评分公式定义如下：

最终的目标函数如公式定义如下：

其中

为预测的评分，r_(u,i)为真实评分,‖U‖,‖V‖分别表示用户特征和项目特征的正则项，λ为正则化参数，通过网格搜索确定，b_u表示用户的评分偏差，b_i表示项目的评分偏差。

基于矩阵分解运用随机梯度下降算法进行评分预测，由于评分在0到5之间，所以当模型预测的评分大于5时，会将预测评分设置为5，当模型预测的评分小于0时，将预测评分设置为0，最后得出预测评分。

实验分析：

为了验证本发明算法的优越性，选用了MovieLens官网提供的数据集，选取80％的数据作为训练集，10％的作为测试集，10％作为验证集。还给出了操作系统、内存、处理器、语言、工具等信息。实验环境如表1所示：

表1实验环境

以下实验是基于latest-small小数据集的。不同算法在不同维度下的误差是不同的，图4、图5、图6、图7为EnhancedCF、RSVD、Co-SVD、和本发明算法在不同特征维度上的RMSE、MAE、PRECISION、RECALL对比图。

在4个维度上验证在RMSE和MAE上的误差。从图4、图5中可以看出，随着维度的增加，各算法的误差大体呈降低趋势，但RSVD算法则在20到30维度误差出现提升情况。在RMSE误差上，EnhancedCF算法之外的3种算法误差比较接近。在MAE误差上，EnhancedCF在不同特征维度下误差要明显高于另外三个算法，在40维度上除了EnhancedCF之外的3种算法误差比较接近，综合对比3个不同的维度可以发现本发明的算法在四个特征维度上都要优于其他算法，可以体现出本发明所提算法在RMSE和MAE误差方面的优越性。随着维度的增加，用户和项目的特征被考虑的越多，对预测的普遍精确度有一定的提升。

图6为不同算法在不同特征维度上的预测评分精确度对比图，4个算法在不同特征维度上精确度走势大体相近，随着维度的增加各算法的精确度也随之上升，可以看出本发明算法在不同特征维度情况下的精确度相比于其他算法处于持平或者更高的趋势。在10维度的时，EnhancedCF的精确度要高于本发明算法，在20维度时，本发明算法有更高的精确度。随着维度的增加，用户特征和项目特征学习的越多，为本发明算法提供了更准确的预测。

图7为不同算法在不同特征维度上的召回率实验对比图，不同算法随着维度的增加召回率也随之上升。在维度为10的时候，本发明算法的召回率为0.7764略低于Co-SVD算法，要高于另外EnhancedCF和RSVD算法，随着维度的增加本发明算法召回率上升的速度比Co-SVD算法要快，在维度为20的时候召回率已经较其他算法优势明显。

当加入基于机器学习的BERT模型训练用户的历史数据后，预测出用户对某个年代某种类型电影的评分作为本发明算法的输入之一。对Word2Vec和自编码器AutoEncoder采用同样的方法进行计算。

图8是在latest-small小数据集上的RMSE值随epochs的变化趋势。结果表明，训练的前8次，3种模型的RMSE值不断降低，到达最低点后，后面趋于平稳状态。本发明算法在第8次的时候RMSE达到最低值为0.8793，Word2Vec在第10次的时候达到最低值为0.8797，AutoEncoder在第9次的时候达到最低值为0.8796。

综上，本发明所提的算法相比于其他算法，在latest-small小数据集情况下，本发明算法在RMSE、MAE上比其他算法总体上都要低，由此得出可以有效的减小预测误差，表现最好。在预测精确度PRECISION上，随着维度的增加本发明算法要高于其他算法，可以得出本发明算法能够作出更精确的推荐。即本发明算法能保持较低的预测误差，又能保证较好的预测精确度。

本发明运用F-PEARSON计算用户之间的相似度。用户相似性除了和共同评分的电影之外，还和对电影评分的平均值、评分的频率有关，定义用户电影评分的均值越接近越相似，评分频率越接近越相似，在计算频率的时候相差可能比较大，运用对数函数归一化处理，融合多因素计算出最终的用户相似性得分并排序。

本发明构建了一种F-SVD算法。首先为了解决单源数据问题，根据前面相似度排序进行选取，然后取k个用户的均值作为基准，避免使用单个用户评分数据的缺陷。运用基于机器学习的BERT模型对用户的历史数据进行训练，预测出用户对某个年代某种类型电影的评分。还作了如下考虑：1、考虑到每个用户喜欢电影的类型不一样，就会打不同的标签，考虑用户使用标签t的次数和计算用户使用过的标签总数，计算出每种标签所占的比例，计算出当前用户在打此标签上电影的评分情况与当前用户所有电影评分的差值。2、用户对每种类型电影喜欢程度是不一样的，在不同类型电影上的评分会存在差异，将电影分成19类，计算的时候考虑同种类型电影的评分情况。3、用户如果喜欢某种类型的电影可能观看的更频繁，考虑用户最近两次评分同种类型电影的时间差，差值越小代表用户越喜欢该类电影。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。