CN110427616B - 一种基于深度学习的文本情感分析方法 - Google Patents

一种基于深度学习的文本情感分析方法 Download PDF

Info

Publication number
CN110427616B
CN110427616B CN201910655814.1A CN201910655814A CN110427616B CN 110427616 B CN110427616 B CN 110427616B CN 201910655814 A CN201910655814 A CN 201910655814A CN 110427616 B CN110427616 B CN 110427616B
Authority
CN
China
Prior art keywords
model
word
emotion
data set
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910655814.1A
Other languages
English (en)
Other versions
CN110427616A (zh
Inventor
徐建国
刘泳慧
刘梦凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN201910655814.1A priority Critical patent/CN110427616B/zh
Publication of CN110427616A publication Critical patent/CN110427616A/zh
Application granted granted Critical
Publication of CN110427616B publication Critical patent/CN110427616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的文本情感分析方法,准备电影评论数据集,准备停用词词典;对数据集进行预处理,使用结巴分词对数据集进行分词,将句子拆分为词语集合;模型的输入需要为数据元组,用融合情感信息的Word2Vec‑PS模型训练词向量,构建循环神经网络模型,将训练好的词向量按不同时刻输入到循环神经网络模型中,提高电影评论文本情感分类的准确性;用数据集训练得到融合情感信息的词向量,将词向量输入到构建的循环神经网络模型进行模型训练,训练好模型后用测试集对模型进行验证,模型的输出结果设置为好。本发明的有益效果是能较为客观的进行影评文本情感分析,分析较为准确。

Description

一种基于深度学习的文本情感分析方法
技术领域
本发明属于深度学习技术领域,涉及利用深度学习算法进行影评文本情感分析的方法。
背景技术
在当今时代,互联网上存在着大量可作为情感语料数据原型的评论。如何高效精确地获取基于这些语料的情感信息,并依次进行相关研究成为当前信息科学与技术领域面临的重大挑战。情感分析,又称意见挖掘(opinion mining),是用于分析人对特定对象及其相关属性的观点、态度以及其他主观感情的技术。文本情感分析是指分析文本的情感极性。在互联网时代,大量带有情感倾向的文本数据对人们的决策具有重要的作用。例如,消费者在观看电影之前,希望根据电影已有的评论来选择。电影院也可以通过消费者对电影的评论信息,对电影的排片或相关服务进行改进。
发明内容
本发明的目的在于提供一种基于深度学习的文本情感分析方法,本发明的有益效果是能较为客观的进行影评文本情感分析,分析较为准确。
本发明所采用的技术方案是按照以下步骤进行:
Step1.数据准备。准备电影评论数据集,这里使用IMDB的大型电影评论数据集,IMDB数据集包含了50000条从IMDB标注获得的二分类评论,这些评论在训练过程中将会被1:1分成训练集和测试集。准备停用词词典,这里使用中科院计算所中文自然语言处理开放平台发布的包含1208个停用词的中文停用词典;
Step2.数据预处理,对数据集进行预处理,使用结巴分词对数据集进行分词,即将句子拆分为词语集合,例如,这样/的/电影/很/好看。遍历数据集中的所有语句,删除其中的停用词,上述例子删除停用词后结果为:电影/很/好看。
模型的输入需要为数据元组,因此需要将词语组合转化为一个数值向量——词向量。用融合情感信息的Word2Vec-PS模型训练词向量,将词语组合转化为数值向量,同时降低维度得到词向量语义信息;
用融合情感信息的Word2Vec-PS模型训练词向量方法如下:
选用Word2Vec中的CBOW模型进行改进,提出融合情感信息的词向量模型,CBOW模型包括输入层、投影层和输出层三部分,在已知当前词wt-2、wt-1、wt+1、wt+2的前提下预测wt,神经网络的语言模型的目标函数L通常取如下对数似然函数:
Figure GDA0004212803180000021
其中:context(w)由词w前后各c个词组成,c为自然数,D为数据集,w∈D。融合事先收集数据中的能反应情感的标点符号组合及标点符号连用信息来得到Word2Vec-PS模型,模型目标函数如下:
Figure GDA0004212803180000022
其中:context(w)由词w前后各c个词组成,puncs(w)为事先收集的数据中的标点符号组合及标点符号连用信息。
输入层中context(w)中2c个词的词向量
V(context(w)1),V(context(w)2),…,V(context(w)2c)∈Rm,投影层将输入层的2c个向量作求和累加基础上融合情感信息的向量如下:
Figure GDA0004212803180000023
其中:xw为融合情感信息的向量,v(puns(w))为puncs(w)的向量表示。
在模型输出层中,语料库不仅包含了所有句子中出现的词,并且将句子中出现的能反应情感的标点符号组合及连用信息作为频繁词向量化,这样融合情感信息的概率模型如下:
Figure GDA0004212803180000024
其中:模型的输出层对应一个以数据集中出现过的词及能反应情感的标点符号组合及连用信息当做叶子结点,以对应词在数据中出现的次数当权值构造的Huffman树。在Huffman树中为每一个非叶子结点的左右孩子指定了一个类别,约定将Huffman编码为1的节点定义为正类,编码为0的节点定义为负类。这样对于数据D中的任意词w,Huffman树中必然存在且唯一存在一条从根节点到词w的路径pw。路径pw上存在lw-1个分支,每个分支对应的二分类就产生了一个概率,将这个概率连乘就是所需的p(w|context(w)+puncs(w))。xw为融合情感信息的向量,pw为从根节点出发到达w对应叶子结点的路径,lw为路径pw中包含结点的个数,
Figure GDA0004212803180000031
表示路径pw中第j个结点对应的编码(跟结点不对应编码),/>
Figure GDA0004212803180000032
表示路径pw中第j-1个非叶子结点对应的向量。
Step3.构建循环神经网络模型,将训练好的词向量按不同时刻输入到循环神经网络模型中,提高电影评论文本情感分类的准确性;
构建循环神经网络模型方法如下:
定义初始激活量a<0>为零向量开始计算,公式如下:
a<t>=g1(Waaa<t-1>+Waxx<t>+ba)
Wax下标的含义:x表示Wax要乘以一个x类型的量,a表示Wax是用来计算某个a类型的量。ba是偏置值。通常选择tanh(双曲正切函数)作为激活函数,有时候也会使用ReLu(修正线性单元)作为激活函数。然后计算输出
Figure GDA0004212803180000033
公式如下:
Figure GDA0004212803180000034
输出y的激活函数由输出的类型决定:(1)如果输出y是一个二分问题,通常选用sigmoid作为激活函数;(2)如果是k类别分类问题,可以选用softmax作为激活函数。对于情感文本分析来说,这里的g2可以是sigmoid激活函数。通过反向传播计算,使用梯度下降方法来更新RNN的参数,本发明中使用标准logistics回归损失函数(交叉熵损失函数)。关于某个时间步t上预测值的损失函数如下:
Figure GDA0004212803180000035
y<t>表示样本的输出,
Figure GDA0004212803180000036
表示样本输出的概率。整个序列的损失函数如下:
Figure GDA0004212803180000041
反向传播算法按照前向传播相反的方向进行导数计算,来对参数进行更新,最终训练出准确度较高的模型。
Step4.进行电影评论文本情感分析。用数据集训练得到融合情感信息的词向量,将词向量输入到构建的循环神经网络模型进行模型训练,训练好模型后用测试集对模型进行验证,模型的输出结果设置为好,差2个类别,验证结果准确度可观。
附图说明
图1为本发明文本情感分析的流程图;
图2为CBOW模型;
图3为改进后融合情感信息的Word2Vec-PS模型;
图4为本发明的循环神经网络简略模型图。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
本发明如图1所示将影评文本情感分析分为数据准备、数据预处理、构建模型、情感分析4个模块。在进行数据准备时,需要准备语料库、停用词表以及验证集。语料库这里使用康奈尔大学提供的影评数据集,停用词这里使用的是中科院计算所中文自然语言处理开放平台发布的包含1208个停用词的中文停用词表,验证集使用爬虫技术爬取豆瓣电影网影评进行验证。
图2为CBOW模型,在进行数据预处理时,首先要进行分词,这里采用Jieba进行分词。去除停用词,要遍历所有语料中的所有词语,删除其中的停用词,便于后续训练词向量。然后用融合情感信息的Word2Vec-PS模型训练词向量(如图3所示),将词语组合转化为数值向量,同时降低维度得到词向量语义信息。在电影评论中,经常会出现标点符号组合使用或标点符号连用的情况。这种用法虽然不符合语法规则,但在影评中却往往被用来表达一些单个符号难以表达的情感。例如“~”在文本中往往表达一种感情的起伏和延伸。如“真的特别好看啊~~~!”。为了在电影评论文本处理中能够反映出表达者的语气和强度,将标点符号组合及连用信息作为频繁词向量化,得到融合情感信息的Word2Vec-PS模型。
图4为本发明的循环神经网络简略模型图,将训练好的词向量按不同时刻输入到循环神经网络模型中。
在进行情感分析时,用数据集训练构建的循环神经网络模型,并用测试集对模型进行验证,模型的输出结果为好,差2个类别,验证结果准确度可观,能较为客观的进行影评文本情感分析。
以上所述仅是对本发明的较佳实施方式而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施方式所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (3)

1.一种基于深度学习的文本情感分析方法,其特征在于按照以下步骤进行:
Step1.准备电影评论数据集,准备停用词词典;
Step2.对数据集进行预处理,使用结巴分词对数据集进行分词,将句子拆分为词语集合;模型的输入需要为数据元组,因此需要将词语组合转化为词向量,用融合情感信息的Word2Vec-PS模型训练词向量,将词语组合转化为数值向量,同时降低维度得到词向量语义信息;
Step3.构建循环神经网络模型,将训练好的词向量按不同时刻输入到循环神经网络模型中,提高电影评论文本情感分类的准确性;
Step4.用数据集训练得到融合情感信息的词向量,将词向量输入到构建的循环神经网络模型进行模型训练,训练好模型后用测试集对模型进行验证,模型的输出结果设置为好,差2个类别,验证结果准确度可观;
所述步骤2中用融合情感信息的Word2Vec-PS模型训练词向量方法如下:
选用Word2Vec中的CBOW模型进行改进,提出融合情感信息的词向量模型,CBOW模型包括输入层、投影层和输出层三部分,在已知当前词wt-2、wt-1、wt+1、wt+2的前提下预测wt,神经网络的语言模型的目标函数L取如下对数似然函数:
Figure FDA0004212803170000011
其中:context(w)由词w前后各c个词组成,c为自然数,D为数据集,w∈D;融合事先收集数据中的能反应情感的标点符号组合及标点符号连用信息来得到Word2Vec-PS模型,模型目标函数如下:
Figure FDA0004212803170000012
其中:context(w)由词w前后各c个词组成,puncs(w)为事先收集的数据中的标点符号组合及标点符号连用信息;
输入层中context(w)中2c个词的词向量
V(context(w)1),V(context(w)2),…,V(context(w)2c)∈Rm,投影层将输入层的2c个向量作求和累加基础上融合情感信息的向量如下:
Figure FDA0004212803170000013
其中:xw为融合情感信息的向量,v(puns(w))为puncs(w)的向量表示;
在模型输出层中,语料库不仅包含了所有句子中出现的词,并且将句子中出现的能反应情感的标点符号组合及连用信息作为频繁词向量化,这样融合情感信息的概率模型如下:
Figure FDA0004212803170000021
其中:模型的输出层对应一个以数据集中出现过的词及能反应情感的标点符号组合及连用信息当做叶子结点,以对应词在数据中出现的次数当权值构造的Huffman树,在Huffman树中为每一个非叶子结点的左右孩子指定了一个类别,约定将Huffman编码为1的节点定义为正类,编码为0的节点定义为负类,这样对于数据D中的任意词w,Huffman树中必然存在且唯一存在一条从根节点到词w的路径pw;路径pw上存在lw-1个分支,每个分支对应的二分类就产生了一个概率,将这个概率连乘就是所需的p(w|context(w)+puncs(w)),xw为融合情感信息的向量,pw为从根节点出发到达w对应叶子结点的路径,lw为路径pw中包含结点的个数,
Figure FDA0004212803170000022
表示路径pw中第j个结点对应的编码,/>
Figure FDA0004212803170000023
表示路径pw中第j-1个非叶子结点对应的向量。
2.按照权利要求1所述一种基于深度学习的文本情感分析方法,其特征在于:所述步骤1中电影评论数据集使用IMDB的大型电影评论数据集,IMDB数据集包含了50000条从IMDB标注获得的二分类评论,这些评论在训练过程中将会被1:1分成训练集和测试集;停用词词典使用中科院计算所中文自然语言处理开放平台发布的包含1208个停用词的中文停用词典。
3.按照权利要求1所述一种基于深度学习的文本情感分析方法,其特征在于:所述步骤3中构建循环神经网络模型方法如下:
定义初始激活量a<0>为零向量开始计算,公式如下:
a<t>=g1(Waaa<t-1>+Waxx<t>+ba)
其中,Waa为决定激活值即水平联系的权重矩阵,Wax下标的含义:x表示Wax要乘以一个x类型的量,a表示Wax是用来计算某个a类型的量,ba是偏置值,然后计算输出
Figure FDA0004212803170000031
公式如下:
Figure FDA0004212803170000032
其中,Wya为计算输出结果的权重矩阵,by为偏置值,输出y的激活函数由输出的类型决定:(1)如果输出y是一个二分问题,选用sigmoid作为激活函数;(2)如果是k类别分类问题,选用softmax作为激活函数,对于情感文本分析来说,这里的g2是sigmoid激活函数,关于某个时间步t上预测值的损失函数如下:
Figure FDA0004212803170000033
y<t>表示样本的输出,
Figure FDA0004212803170000034
表示样本输出的概率,整个序列的损失函数如下:
Figure FDA0004212803170000035
其中,Ty为输出序列长度,反向传播算法按照前向传播相反的方向进行导数计算,来对参数进行更新,最终训练出准确度较高的模型。
CN201910655814.1A 2019-07-19 2019-07-19 一种基于深度学习的文本情感分析方法 Active CN110427616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910655814.1A CN110427616B (zh) 2019-07-19 2019-07-19 一种基于深度学习的文本情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910655814.1A CN110427616B (zh) 2019-07-19 2019-07-19 一种基于深度学习的文本情感分析方法

Publications (2)

Publication Number Publication Date
CN110427616A CN110427616A (zh) 2019-11-08
CN110427616B true CN110427616B (zh) 2023-06-09

Family

ID=68411222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910655814.1A Active CN110427616B (zh) 2019-07-19 2019-07-19 一种基于深度学习的文本情感分析方法

Country Status (1)

Country Link
CN (1) CN110427616B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111221950A (zh) * 2019-12-30 2020-06-02 航天信息股份有限公司 一种用户弱感情的分析方法及装置
CN111540470B (zh) * 2020-04-20 2023-08-25 北京世相科技文化有限公司 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法
CN112232079B (zh) * 2020-10-15 2022-12-02 燕山大学 一种微博评论数据分类方法及系统
CN112329449B (zh) * 2020-11-16 2023-03-21 电子科技大学 基于情感词典和Transformer的情感分析方法
CN113408852B (zh) * 2021-05-18 2022-04-19 江西师范大学 基于在线学习行为和深度神经网络的元认知能力评估模型
CN113705201B (zh) * 2021-10-28 2022-01-11 湖南华菱电子商务有限公司 基于文本的事件概率预测评估算法、电子设备及存储介质
CN115662435B (zh) 2022-10-24 2023-04-28 福建网龙计算机网络信息技术有限公司 一种虚拟教师拟真化语音的生成方法及终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153642A (zh) * 2017-05-16 2017-09-12 华北电力大学 一种基于神经网络识别文本评论情感倾向的分析方法
CN108427670A (zh) * 2018-04-08 2018-08-21 重庆邮电大学 一种基于语境词向量和深度学习的情感分析方法
CN109840328A (zh) * 2019-02-28 2019-06-04 上海理工大学 深度学习商品评论文本情感倾向分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180260860A1 (en) * 2015-09-23 2018-09-13 Giridhari Devanathan A computer-implemented method and system for analyzing and evaluating user reviews

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153642A (zh) * 2017-05-16 2017-09-12 华北电力大学 一种基于神经网络识别文本评论情感倾向的分析方法
CN108427670A (zh) * 2018-04-08 2018-08-21 重庆邮电大学 一种基于语境词向量和深度学习的情感分析方法
CN109840328A (zh) * 2019-02-28 2019-06-04 上海理工大学 深度学习商品评论文本情感倾向分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于双重注意力模型的微博情感分析方法;张仰森等;《清华大学学报(自然科学版)》;20180215(第02期);全文 *

Also Published As

Publication number Publication date
CN110427616A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN110427616B (zh) 一种基于深度学习的文本情感分析方法
CN110134757B (zh) 一种基于多头注意力机制的事件论元角色抽取方法
CN112001185B (zh) 一种结合中文句法和图卷积神经网络的情感分类方法
CN109344391B (zh) 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN107291693B (zh) 一种改进词向量模型的语义计算方法
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN110222178B (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN113435211B (zh) 一种结合外部知识的文本隐式情感分析方法
CN111078866A (zh) 一种基于序列到序列模型的中文文本摘要生成方法
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
CN112328797A (zh) 一种基于神经网络和注意力机制的情感分类方法及系统
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及系统
CN114722835A (zh) 基于lda和bert融合改进模型的文本情感识别方法
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN116029305A (zh) 一种基于多任务学习的中文属性级情感分析方法、系统、设备及介质
CN116579347A (zh) 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质
CN115525744A (zh) 一种基于提示学习方法的对话推荐系统
Nikolaus et al. Large-scale study of speech acts' development using automatic labelling
CN114443846A (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant