CN105701229A

CN105701229A - 基于评论情感分析和协同过滤的评分预测方法

Info

Publication number: CN105701229A
Application number: CN201610033974.9A
Authority: CN
Inventors: 俞东进; 穆云磊; 黄彬彬
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2016-01-19
Filing date: 2016-01-19
Publication date: 2016-06-22
Anticipated expiration: 2036-01-19
Also published as: CN105701229B

Abstract

本发明公开了一种基于评论情感分析和协同过滤的评分预测方法。本发明将项目的平均评分映射为评论中的情感分布，并将项目的潜在因子向量转换为评论中不同情感下的方面分布，通过最优化和采样交替进行的优化算法获得评分预测参数。在数据稀疏的情况下，与传统的仅使用评分作为数据源的协同过滤方法以及未考虑评论情感的结合评分与评论评分预测方法相比，采用本发明所述方法可显著提高评分预测的精度。

Description

基于评论情感分析和协同过滤的评分预测方法

技术领域

本发明属于推荐系统技术领域，具体涉及到一种基于评论情感分析和协同过滤的评分预测方法。

背景技术

随着互联网的快速发展，人们获取信息和服务的方式发生了翻天覆地的变化。层出不穷的各种网络应用随处可见。它们中有电子商务网站，如Amazon、淘宝等；新闻门户网站，如Yahoo、新浪等；评论网站，如IMDb、豆瓣等；社交网站，如Facebook、新浪微博等。面对这些网站提供的海量的产品、新闻、电影、音乐和社交信息，用户很难找到符合自己感兴趣的部分。换句话说，信息的增长反而导致了其利用率的降低，这种现象被称为信息过载问题。个性化推荐系统是一种为用户提供个性化建议的软件工具和技术，其有效地缓解了信息过载问题，例如，帮助用户决策购买哪些商品、阅读哪些新闻、听哪些音乐以及关注哪些其他用户。

研究如何预测用户对特定项目的偏好不仅能够帮助服务提供者获得用户对不同信息、产品或服务的喜好，还能够帮助用户做出决策。例如，当一个用户在电商网站购物时，电商网站需要通过该用户的历史行为数据预测他对未评价过的商品的偏好，并将偏好较高的商品推荐给他。在大多数网络应用中，用户偏好被量化为评分。协同过滤技术利用“集体智慧”的思想能够较为准确地预测用户的评分，从而为其产生高精度的、个性化的推荐。

然而，传统的协同过滤技术常常仅以用户历史评分数据作为单一数据源，其在数据稀疏时的评分预测效果较差。值得注意的是，在常见的网络应用中，用户不仅对项目打分还会对项目写下一段文本评论。在这段评论中用户不仅会讨论这个产品的各个方面，还蕴含着他们对这些方面的情感。例如，当用户评论笔记本电脑时，他会对某款笔记本电脑的“外形”和“性能”等方面表达正面的情感，而对它的“续航”和“散热”等方面表达负面的情感。虽然在最新的评分预测方法中，它们同时使用评分和评论作为数据源，提高了数据稀疏时方法的评分预测精度，但它们没有考虑评论中潜在情感以及不同情感下不同的方面对评分的影响。

发明内容

本发明针对现有技术的不足，提供了一种基于评论情感分析和协同过滤的评分预测方法。

本发明方法的具体步骤是：

步骤(1)对训练集中的每一条评论进行文本预处理，首先，使用Punkt语句分割器将文本分句，再将每个句子分词，然后移除所有停用词和长度超过50的句子，最后使用Porter词干提取算法提取所有单词的词干；

步骤(2)将训练数据读入计算机内存，包括用户ID、项目ID、评分、预处理后的评论文本、评分时间；

步骤(3)初始化参数，包括全局偏置μ、用户偏置b_u、项目偏置b_v、用户潜在因子向量p_u、项目潜在因子向量q_v、方面单词向量ψ、潜在因子到方面分布转换峰度系数评分到情感分布的转换平滑系数ω，并随机分配句子的方面和情感标签e,z；

步骤(4)使用L-BFGS最优化算法最小化损失函数得到新的参数集合Θ,ψ,ω，并通过项目潜在因子到方面分布的转换、评分到情感分布的转换和方面单词向量到方面单词分布的转换将项目潜在因子向量q_v、项目平均评分和方面单词向量ψ转换为方面分布θ、情感分布π和方面单词分布

步骤(5)使用步骤(4)中转换后的方面分布θ、情感分布π和方面单词分布计算评论文本语料库中每个评论中每个语句属于不同方面和情感的概率并通过该概率采样语句新的方面标签z和情感标签e；

步骤(6)重复步骤(4)和步骤(5)直至损失函数不再降低，得到最终的预测参数，包括全局偏置μ、用户偏置b_u、项目偏置b_v、用户潜在因子向量p_u和项目潜在因子向量q_v；

步骤(7)使用参数全局偏置μ、用户偏置b_u、项目偏置b_v、用户潜在因子向量p_u和项目潜在因子向量q_v预测用户对项目的评分；

本发明所提供的基于评论情感分析和协同过滤的评分预测方法由一组功能模块组成，它们包括：评论文本预处理模块、评分和评论数据读入模块、训练模块和评分预测模块。

评论文本预处理模块对评论文本进行预处理工作，包括评论分句、语句分词、停用词删除、过长语句删除和词干提取。

评分和评论数据读入模块将评分和评论数据读入内存，包括用户ID、项目ID、评分、评分时间、预处理之后的评论文本。

训练模块训练数据集以获得评分预测器，其包括参数初始化、L-BFGS优化、语句方面和情感标签重采样三个部分，参数初始化部分分配所有参数的内存并赋值，L-BFGS部分使用多线程并行方式优化损失函数，语句方面和情感标签重采样部分重新采样每个语句的方面和情感标签。

评分预测模块预测数据集中每对用户和项目的评分。

本发明提出的方法通过对评论文本的情感分析，将项目的平均评分映射为评论中的情感分布，并将项目的潜在因子向量转换为评论中不同情感下的方面分布，通过最优化和采样交替进行的优化算法获得评分预测参数。在数据稀疏的情况下，与传统的仅使用评分作为数据源的协同过滤方法以及未考虑评论情感的结合评分与评论评分预测方法相比，采用本发明所述方法可显著提高评分预测的精度。

附图说明

图1方法框架图；

图2评论文本预处理流程图；

图3训练流程图。

具体实施方式

本发明所提供的基于评论情感分析和协同过滤的评分预测方法的具体实施方式主要分3步(如图1所示)：

(1)评论文本预处理阶段，包括评论分句、语句分词、停用词删除、过长语句删除和词干提取；(2)训练阶段，首先进行参数初始化，将所有参数赋予初值，然后训练参数，使用L-BFGS优化损失函数，再通过一系列参数转换计算评论语料的似然重新采样每个语句的方面和情感标签，两者交替进行直至收敛；(3)预测阶段，利用训练获得的评分预测参数为每组用户项目预测评分。

为叙述方便，定义相关符号如下：

N：用户数。

M：项目数。

T：评分范围。

用户u对项目v的预测评分。

μ：全局偏置。

b_u：用户u偏置。

b_v：项目v偏置。

p_u：用户u的潜在因子向量。

q_v：项目v的潜在因子向量。

D：文档数。

G：语句数。

W：单词数。

K：方面数、潜在因子数。

π：情感多项分布。

θ：方面多项分布。

单词多项分布。

ψ：方面单词向量。

β^s：的狄利克雷先验参数(对于情感s)。

w_d,i,j：文档d第i个句子的第j个单词。

e_d,i：文档d第i个句子的情感标签。

z_d,i：文档d第i个句子的方面分配。

(1)评论文本预处理

依次对训练集中的每一条评论进行文本预处理(如图2所示)，首先，使用Punkt语句分割器将文本分句，再将每个句子分词，然后移除所有停用词和长度超过50的句子，最后使用Porter词干提取算法提取所有单词的词干。

(2)参数训练

对原始数据进行预处理之后，进行参数的训练(如图3所示)。首先初始化所有参数，包括全局偏置μ、用户偏置b_u、项目偏置b_v、用户潜在因子向量p_u、项目潜在因子向量q_v、方面单词向量ψ、潜在因子到方面分布转换峰度系数评分到情感分布的转换平滑系数ω，并随机分配句子的方面和情感标签e,z。

然后使用L-BFGS最优化算法最小化损失函数，损失函数定义为：

Θ＝{μ,b_u,b_v,p_u,q_v}为潜在因子模型参数集，为方面情感统一模型参数集，为控制转换的峰度系数，ω为控制转换的平滑系数，e和z分别为语句的情感和方面标签。等式右边的为训练集中所有预测评分与真实评分的均方误差，为评论语料的对数似然，λ为平衡两个部分的超参数。评论语料的对数似然定义为：

经过优化后得到新的参数集合Θ,ψ,ω，并通过转换将项目潜在因子向量q_v转换为不同情感下的方面分布其定义为：

θ_{v, k}^{+} = \frac{\exp (κ^{+} q_{v, k})}{Σ_{k^{'}} \exp (κ^{+} q_{v, k^{'}})}

θ_{v, k}^{-} = \frac{\exp (- κ^{-} q_{v, k})}{Σ_{k^{'}} \exp (- κ^{-} q_{v, k^{'}})}

e∈{+,-}，+表示正面情感，-表示负面情感。

以及通过转换将项目平均评分映射为正面情感概率其定义为：

π_{v}^{+} = \frac{1}{1 + \exp (- ω (\overset{&OverBar;}{r_{v}} - (T + 1) / 2))}

负面情感概率计算为

以及通过转换将方面单词向量ψ转换为方面单词分布其定义为：

在得到方面情感统一模型的参数集之后，重新采样所有语句的情感标签e和方面标签z。采样的概率由下式计算：

采样完所有语句的情感标签e和方面标签z之后，再使用L-BFGS算法重新优化损失函数，如此反复直至损失函数值不在下降。

(3)评分预测

得到优化后的参数全局偏置μ、用户偏置b_u、项目偏置b_v、用户潜在因子向量p_u和项目潜在因子向量q_v，使用下式预测用户u对项目v的评分：

\hat{r} (u, v) = μ + b_{u} + b_{v} + p_{u} \cdot q_{v}

本发明可用于电子商务网站的稀疏环境推荐系统中，以产生较为精确的个性化推荐。

Claims

1.基于评论情感分析和协同过滤的评分预测方法，其特征在于该方法的具体步骤是：

步骤(1).对训练集中的每一条评论进行文本预处理，首先，使用Punkt语句分割器将文本分句，再将每个句子分词，然后移除所有停用词和长度超过50的句子，最后使用Porter词干提取算法提取所有单词的词干；

步骤(2).将训练数据读入计算机内存，包括用户ID、项目ID、评分、预处理后的评论文本、评分时间；

步骤(3).初始化参数，包括全局偏置μ、用户偏置b_u、项目偏置b_v、用户潜在因子向量p_u、项目潜在因子向量q_v、方面单词向量ψ、潜在因子到方面分布转换峰度系数κ、评分到情感分布的转换平滑系数ω，并随机分配句子的方面和情感标签e,z；

步骤(4).使用L-BFGS最优化算法最小化损失函数f(Γ|Θ,Φ,κ,ω,e,z)，得到新的参数集合Θ,ψ,K,ω，并通过项目潜在因子到方面分布的转换、评分到情感分布的转换和方面单词向量到方面单词分布的转换将项目潜在因子向量q_v、项目平均评分和方面单词向量ψ转换为方面分布θ、情感分布π和方面单词分布

步骤(5).使用步骤(4)中转换后的方面分布θ、情感分布π和方面单词分布计算评论文本语料库中每个评论中每个语句属于不同方面和情感的概率并通过该概率采样语句新的方面标签z和情感标签e；

步骤(6).重复步骤(4)和步骤(5)直至损失函数不再降低，得到最终的预测参数，包括全局偏置μ、用户偏置b_u、项目偏置b_v、用户潜在因子向量p_u和项目潜在因子向量q_v；

步骤(7).使用训练后的参数全局偏置μ、用户偏置b_u、项目偏置b_v、用户潜在因子向量p_u和项目潜在因子向量q_v预测用户对项目的评分。