CN108573411A

CN108573411A - 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法

Info

Publication number: CN108573411A
Application number: CN201810342484.6A
Authority: CN
Inventors: 张宜浩; 朱小飞; 徐传运; 董世都
Original assignee: Chongqing University of Technology
Current assignee: Xiangsheng (Zhejiang) Data Management Co., Ltd.
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2018-09-25
Anticipated expiration: 2038-04-17
Also published as: CN108573411B

Abstract

本发明提出了一种基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法，包括如下步骤：S1，通过挖掘用户评论的情感倾向，实现基于用户综合评分的协同过滤推荐模型；S2，利用词向量和卷积神经网络实现对物品内容信息进行相似度计算；S3，利用协同训练的策略实现对多源推荐视图的融合，构建混合推荐模型。为利用用户评论等短文本信息挖掘情感倾向，解决用户评分的真实性问题提供解决方案；为解决对物品内容短文本描述的理解，多个视图的推荐模型的融合提供理论基础和技术手段。

Description

基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法

技术领域

本发明涉及计算机领域，尤其涉及一种基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法。

背景技术

在电子商务、社交网络以及共享经济高速发展的今天，发现用户的需求、了解用户的行为、并为用户筛选出最相关的信息和物品是互联网服务的一个核心环节。个性化推荐作为一种帮助用户快速搜寻有用信息的工具，越来越受到人们的青睐。

传统的推荐算法通过根据用户对物品的评分进行协同过滤推荐。然而这种推荐方式受用户评分真实性的制约，依据用户评分产生推荐结果并不能准确地体现用户的偏好。通过比较用户评分和评论文本的情感倾向，指出用户评分并不能真实反映用户评论的情感倾向。现有技术对用户评分进行统计分析，发现用户对物品的评分比较随意、且评分等级分布极度不均衡；基于用户评论的个性化推荐被很多研究工作提及，但受文本挖掘和情感分析等技术的困扰，研究并不深入。

物品内容的描述文本通常较短，无足够的信息量供机器进行统计推断。传统的自然言语处理技术(如词袋模型)将文本表示成一个W维的独热向量，但这种独热表示假设所有对象都是相互独立的，容易受到数据稀疏问题的影响。

另一方面，由于评分(rating)相对于物品(item)的稀疏性，因此，基于模型的推荐通常缺乏足够的有标签数据。这就亟需本领域技术人员解决相应的技术问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法。

为了实现本发明的上述目的，本发明提供了一种基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法，包括如下步骤：

S1，通过挖掘用户评论的情感倾向，实现基于用户综合评分的推荐模型；

S2，利用词向量和卷积神经网络实现对物品内容信息进行相似度计算；

S3，利用协同训练策略实现对多源推荐视图的融合，构建混合推荐模型。

所述的基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法，优选的，所述S1包括：

S1-1，用户评论信息的呈现形式通常是关键词和短文本，利用Word2Vec对用户评论短文本进行分布式表征；

S1-2，利用用户评论文本的词向量信息组建段落向量，从而实现基于段落向量的情感计算；

S1-3，通过基于词向量(Word2Vec)和长短期记忆网络(LSTM)的情感计算，对用户评论的文本信息进行情感分析建模。

所述的基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法，优选的，所述S1-1包括：

A，从外部收集大规模的用户评论文本，利用word2vec中的Skip-Gram模型或CBOW模型训练词向量模型，将每个词表示成K维向量实数值；

B，对于用户评论的短文本，在分词的基础上利用TF-IDF(词频-逆文档频率)算法抽取Top-N(前N个高频词)个词表示文本的情感，然后从词向量模型中查找得到每一个关键词的K维向量表示。

所述的基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法，优选的，所述S1-2包括：

在段落向量训练过程中，段落编码向量和词向量累加或者连接起来，作为输出层softmax的输入，利用梯度下降法训练新文档，直至收敛，从而得到文档的低维向量表示。在获得评论文本的段落向量(Paragraph Vector)后，将利用SK-Learn中的SGDClassifier构建分类器模型，实现对情感评分等级的预测；在此基础上，结合用户对物品的原始评分Score_o，将二者进行加权求和，就可得到用户对该物品的情感倾向的综合评分Score_c＝αScore_r+(1-α)Score_o，其中α是权重因子。

所述的基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法，优选的，所述S1-3包括：

在用户评论的文本信息处理中，通常用的方法是循环神经网络(RNN)；鉴于RNN在处理序过长序列时会导致优化时出现梯度消散的问题，本发明研究基于长短期记忆网络(LSTM)对用户评论的文本信息进行建模；本发明拟采用Word2Vec和LSTM对用户评论文本构建情感分类模型，实现对评论文本的评分等级的预测。

所述的基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法，优选的，所述S2包括：

S2-1，假设两个给定物品的短文本描述为第一短文本Paragraph_A和第二短文本Paragraph_B，其段落长度分别为m和n；

S2-2，将Paragraph_A和Paragraph_B切割成3-Gram表达形式，于是短文本Paragraph_A和Paragraph_B就分别被切为；

Set_A＝{w₁w₂w₃,w₂w₃w₄,...,w_m-2w_m-1w_m}，

Set_B＝{w₁w₂w₃,w₂w₃w₄,...,w_n-2w_n-1w_n}；

S2-3，将Set_A和Set_B中的每一个字w用词向量vec进行表示，然后加权平均作为该语言片段的向量，则Set_A和Set_B就能够表示为语言片段向量Set2Vec_A＝{vec₁,vec₂,...,vec_m}和Set2Vec_B＝{vec₁,vec₂,...,vec_n}；

S2-4，将Set2Vec_A的元素和Set2Vec_B的元素分别作为矩阵的行和列，组成一个m×n的矩阵，其中矩阵的每一个单元格用横纵坐标对应向量的相似度来填充，得到用户评论文本的相似度矩阵；

在获得大量的基于词向量的用户评论相似度矩阵后，就能够利用卷积神经网络构建基于物品内容的相似度计算模型；将来自于相似物品集的物品文本描述构建的矩阵作为训练数据集的正例，将来自非相似物品集的物品文本描述构建的矩阵作为训练数据集的负例，组成整个神经网络模型的训练数据集。

所述的基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法，优选的，所述S3包括：

S3-1，在构建基于协同训练的混合推荐模型时，利用基于置信度估计与聚类分析的数据选择算法对数据进行过滤，然后利用贡献度计算方法选择对分类器结果贡献度大的样本加入迭代训练；

S3-2，用平均绝对误差(MAE)对用户评分模型的性能进行评估，假定测试集中的用户u和物品i，r_ui是用户u对物品i的实际评分，而是预测评分，则MAE是定义为：

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明的实施，为利用用户评论等短文本信息挖掘情感倾向，解决用户评分的真实性问题提供解决方案；为解决对物品内容短文本描述的理解，多个视图的推荐模型的融合提供理论基础和技术手段。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明总体设计流程图；

图2是本发明用户评论的词向量分布式表征；

图3是本发明基于Word2Vec和LSTM的情感分析模型；

图4是基于词向量的用户评论相似度矩阵构建流程；

图5是本发明基于协同训练的混合推荐预测模型。

具体实施方式

下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

通过挖掘用户评论的情感倾向，实现基于用户综合评分的协同过滤推荐模型；利用词向量和神经网络实现对物品的内容信息建模；然后利用协同训练的策略实现对两种推荐模型的融合，构建混合推荐模型。总体设计路线如图1所示：

基于用户评论情感分析的综合评分度量

在推荐系统中，用户评论信息的呈现形式通常是关键词和短文本，这些短文本通常不遵循语法规则，且长度短、没有足够的信息量来进行统计推断，传统的自然语言处理技术(如词性标注、句法分析等)难以直接应用于短文本分析。因此本发明拟采用基于词向量的关键词表示方法，解决传统稀疏表示方式的维数灾难，且无法表示语义信息的问题，同时也挖掘了词之间的关联属性，从而提高了关键词语义的准确度。

(1)用户评论短文本的词向量(Word2Vec)分布式表征

本发明利用Word2vec自动从大规模无标注用户评论中学习到句法和语义信息，是一种能够进行高效率词嵌套学习的预测模型，其能够实现对用户评论中关键词的表征。用户评论的词向量分布式表征如图2所示：

在图2中，利用Word2vec对用户评论的短文本信息进行向量表示，主要分为以下两个步骤：

1)从外部收集大规模的用户评论文本，利用word2vec中的Skip-Gram模型或CBOW模型训练词向量模型，将每个词表示成K维向量实数值。

2)对于用户评论的短文本，在分词的基础上利用TF-IDF等算法抽取Top-N个词表示文本的情感，然后从词向量模型中查找得到每一个关键词的K维向量表示。

在得到每个关键词的K维实数向量表示后，一种可行的方案是将关键词的向量进行加权平均作为用户评论文本的向量表示，从而实现评论文本信息的情感分析。

(2)基于段落向量(Paragraph Vector)的情感计算

段落向量表示是它将短文本向量当作“语境”用于辅助推理，在极大似然估计中，文本向量亦被作为模型参数进行更新。在模型训练过程中新增了段落编码，即训练语料中每个句子都有一个唯一的编码。段落编码和普通的词一样，也是先映射成一个向量。在段落向量计算中，段落编码向量和词向量累加或者连接起来，作为输出层softmax的输入，利用梯度下降法训练新文档，直至收敛，从而得到文档的低维向量表示。

在获得评论文本的Paragraph Vector后，将利用SK-Learn中的SGDClassifier构建分类器模型，实现对情感评分等级的预测。在此基础上，结合用户对物品的原始评分Score_o，将二者进行加权求和，就可得到用户对该物品的情感倾向的综合评分Score_c＝αScore_r+(1-α)Score_o，其中α是权重因子。Score_r表示模型的预测评分等级。

(3)基于词向量(Word2Vec)和长短期记忆网络(LSTM)的情感计算

在用户评论的文本信息处理中，通常用的方法是循环神经网络(RNN)。鉴于RNN在处理序过长序列时会导致优化时出现梯度消散的问题，本发明研究基于长短期记忆网络(LSTM)对用户评论的文本信息进行建模。本发明拟采用Word2Vec和LSTM对用户评论文本构建情感分类模型，实现对评论文本的评分等级的预测，如图3所示。

基于多视图融合的混合推荐预测模型

本发明通过对物品内容的短文本进行相似度计算，构建基于物品内容的推荐模型；利用用户的综合评分构建基于物品的协同过滤推荐模型；然后利用协同训练策略对两个推荐模型进行融合。主要涉及以下三个关键步骤：

(1)基于词向量和卷积神经网络的物品内容相似度计算

基于词向量和卷积神经网络的物品相似度计算如图4所示，其步骤如下：

1)假设两个给定物品的短文本描述为第一短文本Paragraph_A和第二短文本Paragraph_B，其段落长度分别为m和n；

2)将Paragraph_A和Paragraph_B切割成3-Gram表达形式，于是短文本Paragraph_A和Paragraph_B就分别被切为；

Set_A＝{w₁w₂w₃,w₂w₃w₄,...,w_m-2w_m-1w_m}，

Set_B＝{w₁w₂w₃,w₂w₃w₄,...,w_n-2w_n-1w_n}；

3)将Set_A和Set_B中的每一个字w用词向量vec进行表示，然后加权平均作为该语言片段的向量，则Set_A和Set_B就能够表示为语言片段向量Set2Vec_A＝{vec₁,vec₂,...,vec_m}和Set2Vec_B＝{vec₁,vec₂,...,vec_n}；

4)将Set2Vec_A的元素和Set2Vec_B的元素分别作为矩阵的行和列，组成一个m×n的矩阵，其中矩阵的每一个单元格用横纵坐标对应向量的相似度来填充，得到用户评论文本的相似度矩阵；

在获得大量的基于词向量的用户评论相似度矩阵后，就能够利用卷积神经网络构建基于物品内容的相似度计算模型。将来自于相似物品集的物品文本描述构建的矩阵作为训练数据集的正例，将来自非相似物品集的物品文本描述构建的矩阵作为训练数据集的负例，组成整个神经网络模型的训练数据集。

(2)基于协同训练的混合推荐预测模型

在构建混合推荐方法时，本发明拟利用用户综合评分“视图”，构建基于物品的协同过滤推荐模型；利用物品内容的文本信息“视图”，构建基于物品内容的推荐模型；最后协同训练的方法对两个推荐模型进行融合。在协同训练的数据选择方面，利用基于置信度估计与聚类分析的数据选择算法对数据进行过滤，然后基于贡献度计算方法选择预测样本加入新的迭代。基于协同训练的混合推荐预测模型的框架如图5所示：针对在电商网站上收集的数据集，分别利用词袋(Bag-of-Words)、2-Gram词袋(Bag-of-bigrams)、平均词向量(Vector Averaging)、段落向量表示(Paragraph Vector)4种文本表示方法对用户评论的短文本进行表示，利用LibSVM训练情感分类模型，得到的分类准确率，从图中数据来看，利用段落向量表示的方法达到了较高的分类准确率。

同时，也考虑用平均绝对误差(MAE)对用户评分模型的性能进行评估。假定测试集中的用户u和物品i，r_ui是用户u对物品i的实际评分，而是预测评分，则MAE是定义为：其中T为用户u对物品i的评分个数。

本发明从用户评论的情感倾向挖掘入手，分别利用基于段落向量和基于Word2Vec+LSTM建模的方法对评论文本进行情感分析，对用户评分进行综合度量，进而实现基于物品的协同过滤推荐；然后研究基于词向量和卷积神经网络的物品相似度计算方法，实现基于物品内容的推荐，并利用协同训练策略实现上述两种推荐模型的融合，从而构建混合推荐模型。

基于用户评论情感分析的综合评分度量，用户评分作为一种显式的用户行为反馈，是计算推荐列表的重要依据。鉴于用户评分与用户真实兴趣偏好存在较大的偏差、及评分等级分布的不均衡，利用用户评论信息对用户评分进行重新度量是研究的热点。然而用户评论的文本通常较短，传统的自然语言处理技术难以直接对其进行分析。因此，本发明拟利用文本的分布式表征方法挖掘用户评论的情感倾向信息，同时结合用户的原始评分，实现对用户评分的综合度量。具体研究：

(1)用户评论短文本的词向量(Word2Vec)分布式表征。研究基于CBOW和Skip-gram模型的词向量表示方法，实现对用户评论文本中的关键词的向量表示。

(2)基于段落向量(Paragraph Vector)的情感计算。词向量表示只是基于词的维度进行“语义分析”，而并不具有上下文的“语义分析”能力。本发明研究基于分布式记忆模型的段落向量表示方法，进而实现基于段落向量表示的情感计算，将评论文本转化为用户的综合评分。

(3)基于词向量(Word2Vec)和长短期记忆网络(LSTM)的情感计算。鉴于循环神经网络(RNN)在处理序过长序列时会导致优化时出现梯度消散的问题，本发明研究基于Word2Vec+LSTM的情感计算方法，进而将评论文本转化为用户的综合评分。

基于多视图融合的混合推荐预测模型

在推荐方法中，利用多个推荐模型构建混合推荐方法是提升系统性能的重要途径。针对训练推荐模型时有标签数据不足的问题，本发明拟利用协同训练的方法对多个视图的推荐因素进行融合。具体研究：

(1)基于词向量和卷积神经网络的物品相似度计算。研究物品内容的短文本的关键词提取方法，及关键词的向量表示方法；在此基础上，研究基于向量表示的N-Gram短语的相似度计算、及基于卷积神经网络的物品内容的相似度计算。

(2)基于协同训练的多视图融合的推荐模型。研究基于综合用户评分的物品协同过滤推荐模型和基于物品内容的推荐模型；在此基础上，研究基于协同训练的多个视图的推荐模型的融合，进而构建混合推荐方法。

本发明有益效果为：

(1)针对用户评分与真实兴趣偏好存在偏差、且评分等级不均衡问题，研究基于用户评论的短文本情感计算方法，实现对用户评分的综合度量。

(2)针对传统的自然语言处理技术难以对物品内容的短文本进行有效分析的问题，研究基于词向量和神经网络的建模方法，实现对物品内容的相似度计算。

(3)针对机器学习方法缺乏足够的有标签数据建模的问题，研究基于协同训练的多视图融合方法，实现多种推荐因素的混合建模。

Claims

1.一种基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法，其特征在于，所述S1包括：

3.根据权利要求2所述的基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法，其特征在于，所述S1-1包括：

4.根据权利要求2所述的基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法，其特征在于，所述S1-2包括：

5.根据权利要求2所述的基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法，其特征在于，所述S1-3包括：

6.根据权利要求1所述的基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法，其特征在于，所述S2包括：

Set_A＝{w₁w₂w₃,w₂w₃w₄,...,w_m-2w_m-1w_m}，

Set_B＝{w₁w₂w₃,w₂w₃w₄,...,w_n-2w_n-1w_n}；

7.根据权利要求1所述的基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法，其特征在于，所述S3包括：