CN113239277A

CN113239277A - 一种基于用户评论的概率矩阵分解推荐方法

Info

Publication number: CN113239277A
Application number: CN202110631828.7A
Authority: CN
Inventors: 张松林; 胡胜利
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-08-10

Abstract

本发明提供了一种基于用户评论的概率矩阵分解推荐方法，该方法具体涉及了数据挖掘领域。本发明通过用户评论文本增强概率矩阵分解，解决推荐算法中的数据稀疏和冷启动问题。首先选取可以表示项目语义的用户评论作为辅助信息，并利用开源工具对评论文本进行Word2vec词向量训练和预处理，获取到项目标签。然后用深度学习中的堆栈式降噪自编码器提取标签中的项目特征，堆栈式降噪自编码器将稀疏高维的数据转化为低维的数据，增强了推荐算法鲁棒性。最后将用户评分矩阵和提取到的项目矩阵进行概率矩阵分解，从用户评论文本中提取到的项目特征矩阵增强了概率矩阵分解，极大的提升了推荐的效果。

Description

一种基于用户评论的概率矩阵分解推荐方法

技术领域

本发明是一种基于用户评论的概率矩阵分解推荐方法，具体涉及到深度学习技术与概率矩阵分解的方法，属于数据挖掘领域。

背景技术

在当今这个时代，海量数据充斥在互联网中造成了数据的冗余现象。随着计算机技术的快速发展，大量数据被利用，并应用于人工智能的各个领域来解决人们日常生活的各种需求。伴随着社会生活水平的提高，人们渐渐趋向于在互联网上查询资料和分享自己的知识与生活，因此推荐算法就应运而生，为用户查询和推荐所需要的信息或者服务。

现在基于深度学习的推荐算法已成为国内外研究的热点。现有的深度学习技术主要分为两类，一类为深度学习直接被应用于预测推荐。一类为混合方法，利用其从辅助信息中提取特征，再结合其他算法完成推荐过程。最常用的就是深度学习结合矩阵分解算法完成推荐过程。其中，用深度学习技术虽然可以挖掘用户和项目的潜在特征，但没有充足的辅助信息，还是无法准确的挖掘用户偏好和充分利用提取的特征。目前的辅助信息中有用户和项目的基本信息、社交网络、知识图谱、信任度、用户评论、标签等。基于用户和项目的基本信息由于信息较少，存在一定的数据稀疏性。基于社交网络和信任度的推荐算法，这两种辅助信息虽然解决了用户的冷启动问题，但对于物品的冷启动仍没有帮助。基于知识图谱的推荐算法对知识图谱库具有一定的依赖性。而基于用户评论的推荐算法既能表达用户偏好和项目信息，可以作为辅助信息解决用户和物品冷启动的问题。

发明内容

本发明的目的是：通过用户评论增强概率矩阵分解算法，解决推荐算法中的冷启动问题。用深度学习中的堆栈式降噪自编码器来提取用户评论中的项目特征，一方面可以将高维稀疏的信息转化为低维的特征信息，在提高了推荐算法鲁棒性的同时，降低了信息的不确定性；另一方面将用户评论作为辅助信息，深度融合用户评分矩阵，解决了冷启动和数据稀疏性问题。

本发明的具体内容如下：

一种基于用户评论的概率矩阵分解推荐方法，先用Word2vec词向量对用户评论文本进行训练；然后使用开源工具处理训练好的语料；再用堆栈式降噪自编码器模型(SDAE)对处理好的数据进行逐层特征提取的任务，获取到提取的项目特征；最后将用户和项目特征进行概率矩阵分解，完成预测推荐。

本发明的具体步骤如下：

(1)获取用户评论数据，收集语料；

(2)对获取的数据进行预处理，再进行Word2vec词向量训练；

(3)对语料进行依存句法分析，并制定抽取规则获取候选标签；

(4)将候选标签和项目评分数据输入到堆栈式降噪自编码器中，并对堆栈式降噪自编码器进行逐层训练，提取特征；

(5)将提取的特征矩阵和用户特征矩阵进行概率矩阵分解；

(6)多次训练概率矩阵模型，衡量推荐效果；

具体的，步骤(1)中通过Python技术获取豆瓣网站中用户评论数据，作为语料。

具体的，步骤(2)中对数据进行预处理，是使用斯坦福的分词工具进行分词处理并去掉停用词。并将数据分为数据集和测试集分别进行Word2vec词向量的训练。

具体的，步骤(3)中使用斯坦福NLP工具包和中文Model文件进行句法分析。并根据分析的结果选择抽取规则，最后再用SIMHASH算法对候选标签集合去重。

具体的，步骤(4)中的候选标签信息和项目评分数据输入到3层的堆栈式降噪自编码器中。经过逐层贪婪训练，从L/2层中提取标签和项目特征矩阵。

具体的，步骤(5)中，假设提取到的用户评分和项目特征矩阵以及评分数据R和预测值

之差都满足均值为0，方差为σ的高斯先验分布。先通过贝叶斯公式得到潜在特征矩阵U和V的后验概率分布，然后最大化后验概率完成概率矩阵分解。

具体的，步骤(6)中采用梯度下降法优化目标函数，经过多次迭代训练，选用RMSE作为测量算法的精度和推荐效果的评价指标。

附图说明

图1是本发明的流程框架图；

图2是本发明的模型示意图；

图3是本发明的堆栈式降噪自编码器结构图；

具体实施方式

下面将结合附图，对本发明的步骤和过程进行清楚、完整的描述。

图1是本发明的总体流程图，一种基于用户评论的概率矩阵分解推荐方法。图2是本发明的模型示意图，用提取到的用户评论文本特征W⁺代替原本的项目特征和用户特征进行概率矩阵分解，用户评论文本既解决了数据的稀疏和冷启动问题又增强了增强概率矩阵分解，表明本发明的原理。图3是用于提取处理好的评论文本数据的堆栈式降噪自编码器的结构图。

图1的总体流程图包括以下步骤：

(1)语料收集，利用爬虫技术获取豆瓣网站中用户评论数据。

(2)斯坦福的分词工具对数据进行分词处理和去掉停用词。再将数据分为数据集和测试集分别输入到Word2vec词向量中进行训练。

(3)使用斯坦福NLP工具包和中文Model文件对训练好的语料进行依存句法分析，并根据分析的结果选择抽取规则，再用SIMHASH算法对候选标签集合去重后获取到标签W⁺。

(4)再将标签和项目评分拼接，构成输入矩阵

输入到以图3为结构类型的堆栈式降噪自编码器中。

(5)使用贪婪算法对堆栈式降噪自编码器进行逐层训练。

(6)将从堆栈式降噪自编码器的X_L/2中提取的融合了用户评论的项目特征矩阵V_j和用户评分特征矩阵U_i进行概率矩阵分解。

概率矩阵分解的具体过程如下：

图2中的项目特征矩阵V_j和用户评分特征矩阵U_i是概率矩阵分解中的用户特征矩阵U和项目特征矩阵V

1、假设提取到的用户U和项目V特征矩阵以及评分数据R和预测值

之差都满足均值为0，方差为σ的高斯先验分布。即用户U和项目V和评分R满足以下公式。

2、根据贝叶斯公式得到的潜在特征矩阵U和V的后验概率分布公式为：

3、最大化后验概率等价于最小化二次正则化项平方误差之和函数，即目标函数公式为：

λ_u和λ_v是正则化系数

(7)通过梯度下降法多次训练概率矩阵模型，并不断的优化概率矩阵分解中的目标函数，最后通过评价指标

(T表示测试集的全部评分个数)衡量推荐效果。