CN105701229A - 基于评论情感分析和协同过滤的评分预测方法 - Google Patents
基于评论情感分析和协同过滤的评分预测方法 Download PDFInfo
- Publication number
- CN105701229A CN105701229A CN201610033974.9A CN201610033974A CN105701229A CN 105701229 A CN105701229 A CN 105701229A CN 201610033974 A CN201610033974 A CN 201610033974A CN 105701229 A CN105701229 A CN 105701229A
- Authority
- CN
- China
- Prior art keywords
- project
- comment
- user
- distribution
- latent factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于评论情感分析和协同过滤的评分预测方法。本发明将项目的平均评分映射为评论中的情感分布,并将项目的潜在因子向量转换为评论中不同情感下的方面分布,通过最优化和采样交替进行的优化算法获得评分预测参数。在数据稀疏的情况下,与传统的仅使用评分作为数据源的协同过滤方法以及未考虑评论情感的结合评分与评论评分预测方法相比,采用本发明所述方法可显著提高评分预测的精度。
Description
技术领域
本发明属于推荐系统技术领域,具体涉及到一种基于评论情感分析和协同过滤的评分预测方法。
背景技术
随着互联网的快速发展,人们获取信息和服务的方式发生了翻天覆地的变化。层出不穷的各种网络应用随处可见。它们中有电子商务网站,如Amazon、淘宝等;新闻门户网站,如Yahoo、新浪等;评论网站,如IMDb、豆瓣等;社交网站,如Facebook、新浪微博等。面对这些网站提供的海量的产品、新闻、电影、音乐和社交信息,用户很难找到符合自己感兴趣的部分。换句话说,信息的增长反而导致了其利用率的降低,这种现象被称为信息过载问题。个性化推荐系统是一种为用户提供个性化建议的软件工具和技术,其有效地缓解了信息过载问题,例如,帮助用户决策购买哪些商品、阅读哪些新闻、听哪些音乐以及关注哪些其他用户。
研究如何预测用户对特定项目的偏好不仅能够帮助服务提供者获得用户对不同信息、产品或服务的喜好,还能够帮助用户做出决策。例如,当一个用户在电商网站购物时,电商网站需要通过该用户的历史行为数据预测他对未评价过的商品的偏好,并将偏好较高的商品推荐给他。在大多数网络应用中,用户偏好被量化为评分。协同过滤技术利用“集体智慧”的思想能够较为准确地预测用户的评分,从而为其产生高精度的、个性化的推荐。
然而,传统的协同过滤技术常常仅以用户历史评分数据作为单一数据源,其在数据稀疏时的评分预测效果较差。值得注意的是,在常见的网络应用中,用户不仅对项目打分还会对项目写下一段文本评论。在这段评论中用户不仅会讨论这个产品的各个方面,还蕴含着他们对这些方面的情感。例如,当用户评论笔记本电脑时,他会对某款笔记本电脑的“外形”和“性能”等方面表达正面的情感,而对它的“续航”和“散热”等方面表达负面的情感。虽然在最新的评分预测方法中,它们同时使用评分和评论作为数据源,提高了数据稀疏时方法的评分预测精度,但它们没有考虑评论中潜在情感以及不同情感下不同的方面对评分的影响。
发明内容
本发明针对现有技术的不足,提供了一种基于评论情感分析和协同过滤的评分预测方法。
本发明方法的具体步骤是:
步骤(1)对训练集中的每一条评论进行文本预处理,首先,使用Punkt语句分割器将文本分句,再将每个句子分词,然后移除所有停用词和长度超过50的句子,最后使用Porter词干提取算法提取所有单词的词干;
步骤(2)将训练数据读入计算机内存,包括用户ID、项目ID、评分、预处理后的评论文本、评分时间;
步骤(3)初始化参数,包括全局偏置μ、用户偏置bu、项目偏置bv、用户潜在因子向量pu、项目潜在因子向量qv、方面单词向量ψ、潜在因子到方面分布转换峰度系数评分到情感分布的转换平滑系数ω,并随机分配句子的方面和情感标签e,z;
步骤(4)使用L-BFGS最优化算法最小化损失函数得到新的参数集合Θ,ψ,ω,并通过项目潜在因子到方面分布的转换、评分到情感分布的转换和方面单词向量到方面单词分布的转换将项目潜在因子向量qv、项目平均评分和方面单词向量ψ转换为方面分布θ、情感分布π和方面单词分布
步骤(5)使用步骤(4)中转换后的方面分布θ、情感分布π和方面单词分布计算评论文本语料库中每个评论中每个语句属于不同方面和情感的概率并通过该概率采样语句新的方面标签z和情感标签e;
步骤(6)重复步骤(4)和步骤(5)直至损失函数不再降低,得到最终的预测参数,包括全局偏置μ、用户偏置bu、项目偏置bv、用户潜在因子向量pu和项目潜在因子向量qv;
步骤(7)使用参数全局偏置μ、用户偏置bu、项目偏置bv、用户潜在因子向量pu和项目潜在因子向量qv预测用户对项目的评分;
本发明所提供的基于评论情感分析和协同过滤的评分预测方法由一组功能模块组成,它们包括:评论文本预处理模块、评分和评论数据读入模块、训练模块和评分预测模块。
评论文本预处理模块对评论文本进行预处理工作,包括评论分句、语句分词、停用词删除、过长语句删除和词干提取。
评分和评论数据读入模块将评分和评论数据读入内存,包括用户ID、项目ID、评分、评分时间、预处理之后的评论文本。
训练模块训练数据集以获得评分预测器,其包括参数初始化、L-BFGS优化、语句方面和情感标签重采样三个部分,参数初始化部分分配所有参数的内存并赋值,L-BFGS部分使用多线程并行方式优化损失函数,语句方面和情感标签重采样部分重新采样每个语句的方面和情感标签。
评分预测模块预测数据集中每对用户和项目的评分。
本发明提出的方法通过对评论文本的情感分析,将项目的平均评分映射为评论中的情感分布,并将项目的潜在因子向量转换为评论中不同情感下的方面分布,通过最优化和采样交替进行的优化算法获得评分预测参数。在数据稀疏的情况下,与传统的仅使用评分作为数据源的协同过滤方法以及未考虑评论情感的结合评分与评论评分预测方法相比,采用本发明所述方法可显著提高评分预测的精度。
附图说明
图1方法框架图;
图2评论文本预处理流程图;
图3训练流程图。
具体实施方式
本发明所提供的基于评论情感分析和协同过滤的评分预测方法的具体实施方式主要分3步(如图1所示):
(1)评论文本预处理阶段,包括评论分句、语句分词、停用词删除、过长语句删除和词干提取;(2)训练阶段,首先进行参数初始化,将所有参数赋予初值,然后训练参数,使用L-BFGS优化损失函数,再通过一系列参数转换计算评论语料的似然重新采样每个语句的方面和情感标签,两者交替进行直至收敛;(3)预测阶段,利用训练获得的评分预测参数为每组用户项目预测评分。
为叙述方便,定义相关符号如下:
N:用户数。
M:项目数。
T:评分范围。
用户u对项目v的预测评分。
μ:全局偏置。
bu:用户u偏置。
bv:项目v偏置。
pu:用户u的潜在因子向量。
qv:项目v的潜在因子向量。
D:文档数。
G:语句数。
W:单词数。
K:方面数、潜在因子数。
π:情感多项分布。
θ:方面多项分布。
单词多项分布。
ψ:方面单词向量。
βs:的狄利克雷先验参数(对于情感s)。
wd,i,j:文档d第i个句子的第j个单词。
ed,i:文档d第i个句子的情感标签。
zd,i:文档d第i个句子的方面分配。
(1)评论文本预处理
依次对训练集中的每一条评论进行文本预处理(如图2所示),首先,使用Punkt语句分割器将文本分句,再将每个句子分词,然后移除所有停用词和长度超过50的句子,最后使用Porter词干提取算法提取所有单词的词干。
(2)参数训练
对原始数据进行预处理之后,进行参数的训练(如图3所示)。首先初始化所有参数,包括全局偏置μ、用户偏置bu、项目偏置bv、用户潜在因子向量pu、项目潜在因子向量qv、方面单词向量ψ、潜在因子到方面分布转换峰度系数评分到情感分布的转换平滑系数ω,并随机分配句子的方面和情感标签e,z。
然后使用L-BFGS最优化算法最小化损失函数,损失函数定义为:
Θ={μ,bu,bv,pu,qv}为潜在因子模型参数集,为方面情感统一模型参数集,为控制转换的峰度系数,ω为控制转换的平滑系数,e和z分别为语句的情感和方面标签。等式右边的为训练集中所有预测评分与真实评分的均方误差,为评论语料的对数似然,λ为平衡两个部分的超参数。评论语料的对数似然定义为:
经过优化后得到新的参数集合Θ,ψ,ω,并通过转换将项目潜在因子向量qv转换为不同情感下的方面分布其定义为:
e∈{+,-},+表示正面情感,-表示负面情感。
以及通过转换将项目平均评分映射为正面情感概率其定义为:
负面情感概率计算为
以及通过转换将方面单词向量ψ转换为方面单词分布其定义为:
在得到方面情感统一模型的参数集之后,重新采样所有语句的情感标签e和方面标签z。采样的概率由下式计算:
采样完所有语句的情感标签e和方面标签z之后,再使用L-BFGS算法重新优化损失函数,如此反复直至损失函数值不在下降。
(3)评分预测
得到优化后的参数全局偏置μ、用户偏置bu、项目偏置bv、用户潜在因子向量pu和项目潜在因子向量qv,使用下式预测用户u对项目v的评分:
本发明可用于电子商务网站的稀疏环境推荐系统中,以产生较为精确的个性化推荐。
Claims (1)
1.基于评论情感分析和协同过滤的评分预测方法,其特征在于该方法的具体步骤是:
步骤(1).对训练集中的每一条评论进行文本预处理,首先,使用Punkt语句分割器将文本分句,再将每个句子分词,然后移除所有停用词和长度超过50的句子,最后使用Porter词干提取算法提取所有单词的词干;
步骤(2).将训练数据读入计算机内存,包括用户ID、项目ID、评分、预处理后的评论文本、评分时间;
步骤(3).初始化参数,包括全局偏置μ、用户偏置bu、项目偏置bv、用户潜在因子向量pu、项目潜在因子向量qv、方面单词向量ψ、潜在因子到方面分布转换峰度系数κ、评分到情感分布的转换平滑系数ω,并随机分配句子的方面和情感标签e,z;
步骤(4).使用L-BFGS最优化算法最小化损失函数f(Γ|Θ,Φ,κ,ω,e,z),得到新的参数集合Θ,ψ,K,ω,并通过项目潜在因子到方面分布的转换、评分到情感分布的转换和方面单词向量到方面单词分布的转换将项目潜在因子向量qv、项目平均评分和方面单词向量ψ转换为方面分布θ、情感分布π和方面单词分布
步骤(5).使用步骤(4)中转换后的方面分布θ、情感分布π和方面单词分布计算评论文本语料库中每个评论中每个语句属于不同方面和情感的概率并通过该概率采样语句新的方面标签z和情感标签e;
步骤(6).重复步骤(4)和步骤(5)直至损失函数不再降低,得到最终的预测参数,包括全局偏置μ、用户偏置bu、项目偏置bv、用户潜在因子向量pu和项目潜在因子向量qv;
步骤(7).使用训练后的参数全局偏置μ、用户偏置bu、项目偏置bv、用户潜在因子向量pu和项目潜在因子向量qv预测用户对项目的评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610033974.9A CN105701229B (zh) | 2016-01-19 | 2016-01-19 | 基于评论情感分析和协同过滤的评分预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610033974.9A CN105701229B (zh) | 2016-01-19 | 2016-01-19 | 基于评论情感分析和协同过滤的评分预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105701229A true CN105701229A (zh) | 2016-06-22 |
CN105701229B CN105701229B (zh) | 2019-03-08 |
Family
ID=56226446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610033974.9A Active CN105701229B (zh) | 2016-01-19 | 2016-01-19 | 基于评论情感分析和协同过滤的评分预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105701229B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156004A (zh) * | 2016-07-04 | 2016-11-23 | 中国传媒大学 | 基于词向量的针对电影评论信息的情感分析系统及方法 |
CN108460010A (zh) * | 2018-01-17 | 2018-08-28 | 南京邮电大学 | 一种基于情感分析的综合评分模型实现方法 |
CN108874832A (zh) * | 2017-05-15 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 目标评论确定方法及装置 |
CN108932637A (zh) * | 2018-07-10 | 2018-12-04 | 北京邮电大学 | 一种方面挖掘模型的训练方法、装置及电子设备 |
CN110163716A (zh) * | 2019-04-12 | 2019-08-23 | 淮阴工学院 | 一种基于卷积神经网络的红酒推荐方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064971A (zh) * | 2013-01-05 | 2013-04-24 | 南京邮电大学 | 一种基于评分和中文情感分析的垃圾评论检测方法 |
CN104462487A (zh) * | 2014-12-19 | 2015-03-25 | 南开大学 | 一种融合多信息源的个性化在线新闻评论情绪预测方法 |
CN105069072A (zh) * | 2015-07-30 | 2015-11-18 | 天津大学 | 基于情感分析的混合用户评分信息推荐方法及其推荐装置 |
US20150356407A1 (en) * | 2014-06-09 | 2015-12-10 | Cognitive Scale, Inc. | Cognitive Personas |
-
2016
- 2016-01-19 CN CN201610033974.9A patent/CN105701229B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064971A (zh) * | 2013-01-05 | 2013-04-24 | 南京邮电大学 | 一种基于评分和中文情感分析的垃圾评论检测方法 |
US20150356407A1 (en) * | 2014-06-09 | 2015-12-10 | Cognitive Scale, Inc. | Cognitive Personas |
CN104462487A (zh) * | 2014-12-19 | 2015-03-25 | 南开大学 | 一种融合多信息源的个性化在线新闻评论情绪预测方法 |
CN105069072A (zh) * | 2015-07-30 | 2015-11-18 | 天津大学 | 基于情感分析的混合用户评分信息推荐方法及其推荐装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156004A (zh) * | 2016-07-04 | 2016-11-23 | 中国传媒大学 | 基于词向量的针对电影评论信息的情感分析系统及方法 |
CN106156004B (zh) * | 2016-07-04 | 2019-03-26 | 中国传媒大学 | 基于词向量的针对电影评论信息的情感分析系统及方法 |
CN108874832A (zh) * | 2017-05-15 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 目标评论确定方法及装置 |
CN108874832B (zh) * | 2017-05-15 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 目标评论确定方法及装置 |
CN108460010A (zh) * | 2018-01-17 | 2018-08-28 | 南京邮电大学 | 一种基于情感分析的综合评分模型实现方法 |
CN108932637A (zh) * | 2018-07-10 | 2018-12-04 | 北京邮电大学 | 一种方面挖掘模型的训练方法、装置及电子设备 |
CN108932637B (zh) * | 2018-07-10 | 2020-09-25 | 北京邮电大学 | 一种方面挖掘模型的训练方法、装置及电子设备 |
CN110163716A (zh) * | 2019-04-12 | 2019-08-23 | 淮阴工学院 | 一种基于卷积神经网络的红酒推荐方法 |
CN110163716B (zh) * | 2019-04-12 | 2022-03-11 | 淮阴工学院 | 一种基于卷积神经网络的红酒推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105701229B (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sahayak et al. | Sentiment analysis on twitter data | |
Singh et al. | A machine learning approach to product review disambiguation based on function, form and behavior classification | |
Jin et al. | Forecasting natural gas prices using wavelets, time series, and artificial neural networks | |
CN105701229A (zh) | 基于评论情感分析和协同过滤的评分预测方法 | |
CN103745000B (zh) | 一种中文微博客的热点话题检测方法 | |
CN104572797A (zh) | 基于主题模型的个性化服务推荐系统和方法 | |
Li et al. | Multi-label maximum entropy model for social emotion classification over short text | |
US20150278200A1 (en) | Convolutional Latent Semantic Models and their Applications | |
Bhonde et al. | Sentiment analysis based on dictionary approach | |
CN103605658B (zh) | 一种基于文本情感分析的搜索引擎系统 | |
Han et al. | Eliciting attribute-level user needs from online reviews with deep language models and information extraction | |
CN103778214A (zh) | 一种基于用户评论的商品属性聚类方法 | |
CN103268348A (zh) | 一种用户查询意图识别方法 | |
Wankhede et al. | Design approach for accuracy in movies reviews using sentiment analysis | |
Alkalbani et al. | Sentiment analysis and classification for software as a service reviews | |
Arif et al. | A machine learning based approach for opinion mining on social network data | |
Menaria et al. | Tweet sentiment classification by semantic and frequency base features using hybrid classifier | |
CN103177126B (zh) | 用于搜索引擎的色情用户查询识别方法及设备 | |
Balaguer et al. | CatSent: a Catalan sentiment analysis website | |
Yang et al. | Social Media Analysis on Evaluating Organisational Performance a Railway Service Management Context | |
CN105787072A (zh) | 一种面向流程的领域知识抽取与推送方法 | |
Ramanujam et al. | Sentiment analysis using big data | |
Rakhimova et al. | The Task of Generating Text Based on a Semantic Approach for a Low-Resource Kazakh Language | |
Zhuo | Consumer demand behavior mining and product recommendation based on online product review mining and fuzzy sets | |
Devaraj et al. | Lexicon ensemble and lexicon pooling for sentiment polarity detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |