CN113326374A - 基于特征增强的短文本情感分类方法及系统 - Google Patents
基于特征增强的短文本情感分类方法及系统 Download PDFInfo
- Publication number
- CN113326374A CN113326374A CN202110570246.2A CN202110570246A CN113326374A CN 113326374 A CN113326374 A CN 113326374A CN 202110570246 A CN202110570246 A CN 202110570246A CN 113326374 A CN113326374 A CN 113326374A
- Authority
- CN
- China
- Prior art keywords
- emotion
- word
- vector
- matrix
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于特征增强的短文本情感分类方法及系统,包括以下步骤:基于TextRank对短文本数据进行情感词提取得到情感词典;获取实验短文本数据集,基于Word2vec模型对所述实验短文本数据集进行训练得到训练文本词向量;对所述情感词典进行加权矩阵运算,得到情感词加权矩阵;基于所述情感词加权矩阵和训练文本词向量进行矩阵乘法获得基于情感词加权的Word2vec词向量矩阵;对所述Word2vec词向量矩阵进行分类。该方法提高了神经网络的情感特征提取能力,最终达到提高了短文本的分类效果。
Description
技术领域
本发明涉及自然语言处理技术领域,具体的说,涉及一种基于特征增强的短文本情感分类方法及系统。
背景技术
文本情感分析是指利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本进行分析、处理和抽取的过程。互联网的迅速发展催生了大量的短文本信息,如用户的见解、情感、评论等,而这些文本信息对研究人类的情感,商品的喜爱度和国内舆论的导向都有极大的价值。对于文本情感分析的研究是有巨大潜在价值的,如国家可以通过短文本情感分析技术分析网络中网民对国内外热点事件和新的国家政策的情绪分布情况,以便及时引导网民情绪向着健康的方向发展,为广大网民创造一个健康、友好、积极向上的网络环境;而企业可以通过情感分析技术对用户的商品评论信息进行情感分析,可以清楚的了解用户的喜恶情况,可以根据用户的喜好情况制定更为人性化的服务项目。
近几年来,随着自然语言处理在人们日常生活中的运用越来越多,文本情感分析技术也从中得到了很好的发展,在众多学者的研究下,长文本情感分类的准确率已经能到达一个较好的预估值;但当前互联网中大量存在的则是短文本,它所具有的特征稀疏和文本信息少的特点,使得对其做情感特征的提取显得十分困难,同时,在大多数评论信息中,由于用户文本描述的信息量不大,导致很难挖掘出用户对于当前事件的情感倾向。因此,如何从这些海量的短文本数据中及时的挖掘出有用的情感信息是一个巨大的挑战。
发明内容
本发明针对现有技术存在的不足,提供了一种基于特征增强的短文本情感分类方法,该方法提高了对短文本数据进行词向量训练时的情感特征的表征强度,提高了短文本数据的情感分类效果。
本发明的具体技术方案如下:
一种基于特征增强的短文本情感分类方法,包括以下步骤:
基于TextRank对短文本数据进行情感词提取得到情感词典;
获取实验短文本数据集,基于Word2vec模型对所述实验短文本数据集进行训练得到训练文本词向量;
对所述情感词典进行加权矩阵运算,得到情感词加权矩阵;
基于所述情感词加权矩阵和训练文本词向量进行矩阵乘法获得基于情感词加权的Word2vec词向量矩阵;
对所述Word2vec词向量矩阵进行分类。
进一步地,所述对所述情感词典进行加权矩阵运算,得到情感词加权矩阵的步骤具体包括:
将所述情感词典中的情感词进行TextRank模型训练,得到每个情感词在整个短文本数据中相应的权重,并将权重信息存在第一字典中;
查找所述训练文本词向量的词中是否包含第一字典中的词,如果有,则构建与所述训练文本词向量维度相同的权重向量;否则,构建与所述训练文本词向量维度相同的单位向量;
将权重向量与所述训练文本词向量整合形成含有情感词权重信息的文本词向量。
进一步地,基于TextRank对短文本数据进行情感词提取包括以下步骤:
对短文本数据分词处理;
对分词后的短文本数据进行数据预处理,然后挑选候选关键词构建候选情感词集合;
基于TextRank算法计算候选情感词集的候选关键词的权重;
基于词图构建分值公式,迭代运算可得到词图各个节点的权重,直到分值公式收敛完成情感词提取。
进一步地,通过基于注意力机制的混合神经网络情感分类模型对所述Word2vec词向量矩阵进行分类,其具体步骤为:
输入短文本数据的所述Word2vec词向量矩阵;
采用单层卷积对所述Word2vec词向量矩阵进行局部特征提取;
采用了双向长短时记忆网络对所述短文本数据进行全局情感特征提取;
将提取得到的单层卷积局部特征与全局情感特征进行拼接得到拼接向量;
基于注意力机制给所述拼接向量分配不同的情感权重,对分配不同的情感权重后的所述拼接向量进行情感分类。
进一步地,所述权重向量为对角矩阵。
此外还提出了一种基于特征增强的短文本情感分类系统,该系统可提高情感分类时的特征提取,优化分类效果,该系统包括:
情感词提取模块,用于接收短文本数据,并通过TextRank对所述短文本数据进行情感词提取得到情感词典;
Word2vec词向量模块,用于接收实验短文本数据集,基于Word2vec模型对所述实验短文本数据集进行训练得到训练文本词向量;
加权模块,与所述情感词提取模块、所述Word2vec词向量模块相连,用于对所述情感词典进行加权矩阵运算,得到情感词加权矩阵;
加权Word2vec词向量模块,与所述加权模块、所述Word2vec词向量模块相连,用于根据所述情感词加权矩阵和训练文本词向量进行矩阵乘法获得基于情感词加权的Word2vec词向量矩阵;
分类模块,与所述加权Word2vec词向量模块相连,用于对所述Word2vec词向量矩阵进行分类。
进一步地,所述加权模块还包括权重信息获取单元、权重向量单元,其中,
所述权重信息获取单元用于将所述情感词提取模块中情感词典的情感词进行TextRank模型训练,得到每个情感词在整个短文本数据中相应的权重,并将权重信息存在第一字典中;
所述权重向量单元与所述权重信息单元、Word2vec词向量模块相连,用于当所述训练文本词向量的词中是否包含第一字典中的词时,则构建与所述训练文本词向量维度相同的权重向量;否则,构建与所述训练文本词向量维度相同的单位向量;然后将权重向量与单位向量整合形成含有情感词权重信息的文本词向量。
进一步地,所述权重向量为对角矩阵。
进一步地,所述分类模块还包括神经网络单元,用于构建基于注意力机制的混合神经网络情感分类模型,所述基于注意力机制的混合神经网络情感分类模型包括输入层、一维卷积层、Bi-Lstm层、向量拼接层、注意力层、情感分类输出层。
进一步地,所述输入层用于获取短文本数据得到向量表示矩阵;
所述一维卷积层与所述输入层相连,用于对所述向量表示矩阵进行局部特征提取;
所述Bi-Lstm层与所述输入层相连,用于对所述短文本数据进行全局情感特征提取;
所述向量拼接层与所述Bi-Lstm、所述一维卷积层相连,用于将单层卷积局部特征与全局情感特征进行拼接得到拼接向量;
所述注意力层与所述向量拼接层相连,用于给所述拼接向量分配不同的情感权重;;
所述情感分类输出层对注意力层得到的分配不同的情感权重后的所述拼接向量进行情感分类。
有益效果在于:
本发明提供一种基于特征增强的短文本情感分类方法及系统,考虑到短文本信息量少、特征稀疏等特点,在基于Word2vec的词向量基础上引入情感词典,结合设计的加权通过情感词典来对训练词向量中的情感词进行加权,提高了Word2vec训练词向量的情感特征的表征强度;进一步地,还提供一种基于注意力机制的神经网络对短文本数据进行情感词提取的方法,有别于其他单个神经网络对文本特征信息提取能力有限,本发明中引入混合神经网络来加强特征提取能力,混合神经网络结构为BERT+CNN+BiLSTM+Attention,其首先用BERT训练的词向量作为输入,然后通过注意力机制对情感特征进行权重加成,提高了神经网络的情感特征提取能力,最终达到提高了短文本的分类效果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1是基于TextRank进行情感词提取流程图。
图2是注意力机制原理图。
图3为基于注意力机制的混合神经网络情感分类模型结构图。
图4为基于注意力机制的混合神经网络情感分类模型的卷积层结构图。
图5为对Word2vec训练的词向量进行加权过程图。
图6为情感词加权矩阵和训练文本词向量进行矩阵乘法原理图。
图7为对Word2vec训练的词向量输入不同类模型准确率对比图的准确率对比图。
图8为本发明中提出的对Word2vec训练的词向量进行加权后得到的词向量输入不同分类模型准确率对比图。
图9为基于BERT模型的词向量下,输入不同分类模型准确率对比图。
图10为BERT模型和对Word2vec训练的词向量进行加权所训练词向量输入基于注意力机制的混合神经网络情感分类模型进行情感分类准确率对比图。
图11为BERT模型和对Word2vec训练的词向量进行加权所训练词向量输入基于注意力机制的混合神经网络情感分类模型进行情感分类收敛图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
现在结合说明书附图对本发明做进一步的说明。
实施例1
本实施例中提供一种基于特征增强的短文本情感分类系统,包括:
情感词提取模块,用于接收短文本数据,并通过TextRank对短文本数据进行情感词提取得到情感词典;
分类模块还包括神经网络单元,用于基于注意力机制的混合神经网络情感分类模型,其包括输入层、一维卷积层、Bi-Lstm层、向量拼接层、注意力层、情感分类输出层。
输入层用于获取短文本数据得到向量表示矩阵;
一维卷积层与输入层相连,用于对向量表示矩阵进行局部特征提取;
Bi-Lstm层与输入层相连,用于对短文本数据进行全局情感特征提取;
向量拼接层与Bi-Lstm、一维卷积层相连,用于将单层卷积局部特征与全局情感特征进行拼接得到拼接向量;
注意力层与向量拼接层相连,用于给拼接向量分配不同的情感权重;
情感分类输出层对注意力层得到的分配不同的情感权重后的所述拼接向量进行情感分类。
Word2vec词向量模块,用于接收实验短文本数据集,基于Word2vec模型对实验短文本数据集进行训练得到训练文本词向量;
加权模块,与情感词提取模块、Word2vec词向量模块相连,用于对情感词典进行加权矩阵运算,得到情感词加权矩阵;
本实施例中,加权模块还包括权重信息获取单元、权重向量单元,其中,
权重信息获取单元用于将情感词提取模块中情感词典的情感词进行TextRank模型训练,得到每个情感词在整个短文本数据中相应的权重,并将权重信息存在第一字典中;
权重向量单元与权重信息单元、Word2vec词向量模块相连,用于当训练文本词向量的词中是否包含第一字典中的词时,则构建与训练文本词向量维度相同的权重向量,权重向量为对角矩阵;否则,构建与训练文本词向量维度相同的单位向量;然后将权重向量与单位向量整合形成含有情感词权重信息的文本词向量。
加权Word2vec词向量模块,与加权模块、Word2vec词向量模块相连,用于根据情感词加权矩阵和训练文本词向量进行矩阵乘法获得基于情感词加权的Word2vec词向量矩阵;
分类模块,与加权Word2vec词向量模块相连,用于对Word2vec词向量矩阵进行分类。
实施例2
基于实施例1的系统,本实施例中提供一种基于特征增强的短文本情感分类方法,包括以下步骤:
S1:基于TextRank对短文本数据进行情感词提取得到情感词典;
本步骤中,可以基于TextRank或基于注意力机制的神经网络对短文本数据进行情感词提取得到情感词典;具体地,当基于TextRank进行情感词提取时;
其主要采用jieba分词软件封装的TextRank方法实现情感词提取,具体地,
在另一实施例中,通过基于注意力机制的神经网络对短文本数据进行情感词提取,具体地,因为TextRank算法是建立在图算法的基础之上的关键词提取算法,所以在提取关键词之前,需要构建关键词词图,其流程参考图1,主要步骤如下:
步骤1:对单个文本数据D分词处理,形成D=[w1,w2,w3,…,wn];
步骤2:对分词后的D进行数据预处理(与数理可以包括去停用词、词性标注等),然后挑选特征词(如情感名词、动词、副词、形容词)用于构建候选情感词集合,最终得到集合D’=[w1,w2,w3,…,wm];
步骤3:将TextRank算法应用于D’,计算D’里的候选关键词的权重。
步骤4:构建分值公式,公式建立在词图W=(V,E)的基础之上,在词图公式中V为候选关键词的节点集合,由步骤2中的D’=[w1,w2,w3,…,wm]表示;在词图W中,设有任意一节点Vi,则有In(Vi)表示该节点的入度,Out(Vi)表示该节点的初度,通过此图W构建的分值公式如下:
其中,d使用的是默认值0.85,wji表示节点Vi和节点Vj共有边的权重,d为阻尼系数,WS(Vi)为为词权重值,wjk为节点Vj和节点Vk共有边的权重,Vk为节点集合中的任意一个节点,节点的初始值为1,根据上式的迭代运算可得到各个节点的权重,当迭代误差小于等于0.01%时,算法收敛。
S2:获取实验短文本数据集,基于Word2vec模型对所述实验短文本数据集进行训练得到训练文本词向量;
S3:对所述情感词典进行加权矩阵运算,得到情感词加权矩阵;
本步骤中,需要将情感词典中的词加权到Word2vec训练的词向量,具体地,其过程可参考图5:步骤1:对实验数据进行分词,然后使用Word2vec模型中默认的Skip-gram模型训练数据集得到文本词向量。
步骤2:对构建的情感词典中的情感词进行TextRank模型训练,得到每个情感词在整个数据中相应的权重。并将权重信息存在字典D中。
步骤3:构建加权规则,首先在步骤2的基础上得到每个词的词权重,然后查找Word2vec构建的词向量的词中是否包含字典D中的词,如果有则构建与训练词向量维度相同的权重向量(对角矩阵),如果词没有包含在词典中则构建与训练词向量维度相同的单位向量。
步骤4:将加权后的向量整合形成含有情感词权重信息的文本词向量。
在构建情感加权算法时,为了减少矩阵的转换运算,在构建上述算法步骤3中的权重向量时(对角矩阵),需构建与Wrod2Vec训练的词向量矩阵同阶的权重矩阵,因此在Word2vec训练的词向量之前需要对原始文本句子长度进行统一。
S4:基于所述情感词加权矩阵和训练文本词向量进行矩阵乘法获得基于情感词加权的Word2vec词向量矩阵;
本步骤中,为了使Word2vec训练的词向量蕴含情感信息,在步骤S3加权过程中会运用大量的矩阵运算,为了将情感词加权到Word2vec训练词向量中,还需要对训练的词向量进行矩阵转置处理,其过程图可参考图6。
S5:对所述Word2vec词向量矩阵进行分类。
本实施例中,可采用SVM、Text-CNN、LSTM+Attenion等模型对Word2vec词向量矩阵进行分类;
优选地,本实施例中由于短文具有文本信息量少、特征稀疏、文本不规范等特点,所以导致短文情感特征提取显得十分困难。为了提高短文本情感特征的提取能力,需要针对短文设计更为丰富的情感特征提取手段。考虑到传统单个神经网络对短文本信息特征提取能力有限,本实施例中采用的基于注意力机制的混合神经网络情感分类模型,即引入混合神经网络加强特征提取能力,并针对传统的神经网络在局部特征能力提取不足的情况下引入注意力机制,进一步提高神经网络的特征提取能力。本专利使用混合神经网络模型(CNN+BiLSTM+Attention)进行短文本特征提取;具体地步骤为:
首先,注意力机制原理图可参考图2,在情感分析问题中,输入文本序列中只有某些区域可能与整个文本的情感倾向更相关。在进行文本特征提取时,注意力机制允许模型动态地将注意力集中在文本中情感信息丰富的某些部分,而忽略其他不重要的因素,通过注意力模型计算文本中各个词语的注意力值的计算公式如下:
其中,hi为模型输出文本特征向量,Wi为初始化的参数矩阵,bi为偏置矩阵,ui t为通过线性变换后得到的文本向量。将得到的文本向量通过softmax函数进行计算后可以得到单词的权重矩阵at i,然后将得到的权重向量与原始文本向量进行矩阵相乘就得到了包含词语重要度信息的文本向量。
优选地,本实施例中使用基于注意力机制的神经网络模型可参考图3,其主要分为六层:输入层、一维卷积层、Bi-Lstm层、向量拼接层、注意力层、情感分类输出层。
输入层:输入层是整个混合神经网络模型的始端,主要输入的是文本数据的向量表示矩阵。这里假设文本D={X1,X2,X3,…,Xn},其中Xi表示的是文本集合D中的任意一个句子;句子又可以看作词语集合组成的一个有序的序列信息,文本句子可表示为S={W1,W2,W3,…,Wn},其中Wi为组成句子集合中的任何一个词语;利用词向量训练工具将句子Wi训练成词向量V(Wi)的形式,且设置词向量的维度为m,经过词向量工具训练后可以将输入的文本以n*m的向量矩阵进行表示,本专利训练词向量的工具主要以Word2vec模型、BERT模型和基于加权的Word2vec模型为主。
卷积层:该模型采用单层CNN进行局部特征提取,结构图如图4所示,其中输入层为训练的词向量。首先将词向量送入1维卷积层(Conv1d)进行局部特征提取,然后通过池化层(Max_pooling)找到最重要的局部特征,接着通过一个全连接层整合所有的局部特征。卷积层的运算公式如下所示:
ci=f(W·Vi:i+h-1+b)
其中,W为卷积核的权重矩阵,b为偏置向量,f为激活函数,ci为卷积后得到的特征值集合。
本文通过不同窗口大小的卷积核对文本向量进行了卷积操作,对输入文本句子经过卷积运算后,可以得到一个特征值集合C,其表达形式如下式所示:
C=[c1,c2,…,cn-h+1]
其中,n代表文本句子的词序列长度。
Bi-Lstm层:由于单向的LSTM模型在处理时序序列上往往忽略了未来的上下文信息,在实际场景中,预测可能需要使用到整个输入序列的信息。为了让模型输出的序列包含更为丰富的文本特征信息,所提模型采用了双向长短时记忆网络(Bidirectional LongShort Term Memory,BLSTM)进行短文本情感特征抽取。双向长短时记忆网络在LSTM的基础上,结合了输入序列在前向和后向两个方向上的信息。在对输入序列进行情感特征提取时,前后两个方向的LSTM之间并不会共用状态,前向LSTM层的状态传递仅沿着正序方向传递,后向LSTM层也仅沿逆序方向传递。最后需要在同一时刻,将两个LSTM层输出的向量结果进行拼接,拼接的方法有很多,考虑到短文本的特点本文主要采用求横向连接的方式进行向量拼接。引入Bi-Lstm层对短文本进行情感特征提取,不仅考虑了短文本的上文语义信息,而且还考虑了下文的语义信息。
向量拼接层:向量拼接层主要由卷积神经网络的特征输出和双向长短时记忆网络的特征输出融合形成。首先通过卷积操作提取短文本句子的部分特征然后对布局特征进行最大池化操作,得到提取句子的关键特征,舍弃冗余特征,最后生成固定维度的特征向量,作为融合模型向量拼接层输入特征的一部分。然后通过Bi-Lstm模型提取含有词语上下文语义信息的全局情感特征,将得到的全局情感特征也作为融合模型向量拼接层输入特征的一部分。最后将分别提取的特征进行拼接,拼接代码主要使用keras框架中的concatenate()方法对CNN和BiLstm输出的特征进行拼接。拼接代码如下:
output=keras.concatenate([a,b],axis=1)
其中,a为卷积神经网络提取的文本特征,b为双向长短时记忆网络提取的全局文本特征,最后,将拼接后的特征保存在output中,作为向量拼接层的输出。
注意力机制层:在混合模型中,注意力机制层是添加在向量拼接层和输出分类层之间的一个关键层,主要用来为向量拼接层输出的拼接向量里的单词分配不同的情感权重。注意力机制会根据短文本句子中每个词语对该句子的重要程度为每个单词分配相应的权重,使得那些情感信息丰富的单词获得模型更多的关注。引入注意力机制,有利于情感特征的提取,在情感分类任务中,情感词有时直接影响着一句话的主观情感,注意力机制可以给予这些情感词更多的注意力权重,使文本的情感特征更加明显。注意力机制层输出的向量综合考虑了文本的上下文语义信息以及重点情感词特征。其具体计算公式如下
ut=tanh(Wihi+bi)
其中,ht是向量拼接层输出的每个单词的特征表示,ut为ht的隐层表示,at是使用softmax函数对ut进行数学计算得到的情感权重矩阵,权重矩阵主要通过计算相识度来衡量单词t对于情感表达的重要程度而得到的值。
进一步地,本实施例中基于注意力机制的神经网络模型还可以设置情感分类输出层:直接对注意力机制层得到的特征进行情感分类,其使用Sigmoid函数来对文本句子进行情感分类,注意力层将向量拼接层输出的特征分配完权重后,将其结果输入到Softmax分类器中。为了防止分类模型在训练过程中出现过拟合,在注意力层与全连接层之间引入dropout机制,使用dropout机制可以在模型训练过程中随机的挑选部分参数进行丢弃,使得模型的参数更新不依赖于某些固有特征。情感分类层计算某一样本的类别公式如下所示:
其中,S为待分类的样本数据,j为总的类别数,pi为样本属于第i个类别的概率。
实施例3
本实施例中基于实施例2中提出的方法,对其效果进行验证,为了对Word2vec训练的词向量进行加权的有效性,分别对比了本发明中的对Word2vec训练的词向量进行加权(其为本发明中提出的情感词典进行加权得到的Word2vec词向量矩阵)、TFIDF、均值Word2vec、Word2vec+Tfidf来训练词向量,并统一使用BiLSTM+Attention文本分类模型来验证所训练词向量的效果。实验所得效果如表1所示。
表格1对比结果表
从实验结果可以看出,本发明中提出的对Word2vec训练的词向量进行加权结合BiLSTM+Attention文本分类模型取得了较好的分类效果。基于传统的TFIDF模型由于在构建词向量没有考虑词与词之间的语义信息,所以分类效果最差。Word2vec模型在训练词向量时,模型能联系文本上下文内容,使得训练的词向量含有更多地语义信息;但由于其在训练词向量时无法给单词分配不同的权重,所以其训练的词向量仍有缺陷。基于Word2vec+Tfidf模型在构建词向量时虽然考虑了词权重问题,但是在情感分类任务中,我们只需要关注文本中含有情感特征的词语,其他词语对情感分类的影响并不大。通过以上对比实验结果可以看出,本发明所提基于情感词加权的Word2vec模型所训练的词向量与Tfidf、Word2vec模型、Word2vec+Tfidf训练的词向量相比,在短文本情感分类任务中表现得效果更好。
本实施例中还验证实施例2中提出的基于注意力机制的混合神经网络情感分类模型对短文本情感分类的效果,如表2与图7所示:
表格2基于Word2vec模型的词向量输入不同分类模型准确率对比
可以看出,在基于Word2vec模型训练的词向量下,所提的基于注意力机制的混合神经网络情感分类模型在分类准确率上均高于其他情感分类模型。在同等条件下,该模型的分类准确率比BiLSTM+Attenion模型的分类准确率高出3.77%,比LSTM+Attenion模型的分类准确率高出4.54%,比Text-CNN模型的分类准确率高出4.76%,比SVM模型高出6.77%。
本实施例中还采用对Word2vec训练的词向量进行加权后得到的词向量(其为本发明中提出的情感词典进行加权得到的Word2vec词向量矩阵)作为SVM、Text-CNN、LSTM+Attenion、BiLSTM+Attenion、基于注意力机制的混合神经网络情感分类模型(模型1)后得到的情感分类准确率,结果参考图8与表3:
表格3对Word2vec训练的词向量进行加权后得到的词向量输入不同分类模型准确率对比
可以看出,在基于情感词加权的Word2vec模型训练的词向量下,本模型模型的分类准确率最高。在同等条件下,所提模型的分类准确率比BiLSTM+Attenion模型的分类准确率高出2.17%,比LSTM+Attenion模型的分类准确率高出3.8%,比Text-CNN模型的分类准确率高出5.96%,比SVM模型高出7.42%。从表2和表3的对比结果可以看出,本文所提的基于情感词加权的Wrod2vec模型在词向量的训练效果方面优于传统的Word2vec模型。
本实施例中还提出,在基于BERT模型的词向量下,CNN、LSTM+Attenion、BiLSTM+Attenion、基于注意力机制的混合神经网络情感分类模型(模型1)后得到的情感分类准确率,结果参考图9与表4:
表格4基于BERT模型的词向量下,输入不同分类模型准确率对比
可以看出,在基于BERT模型训练词向量下,模型1在分类准确率上均高于其他3中情感分类模型。在同等条件下,模型1的分类准确率比BiLSTM+Attenion模型的分类准确率高出3.02%,比LSTM+Attenion模型的分类准确率高出4.24%,比CNN模型的分类准确率高出4.97%。
为了更为直观的比较BERT模型和对Word2vec训练的词向量进行加权所训练词向量的效果,用模型1分别对两种词向量进行情感分类实验验证。两者的准确率对比图和模型收敛图如图10和11所示。
由图10可以看出,BERT+本文模型在测试数据集上的精确度在模型迭代的各个阶段都高于加权向量+本文模型。从图11可得,经过10轮迭代后两模型的loss值都降到了一个相对稳定的值。
综合以上实验可以看出,利用BERT和混合神经网络模型提取的融合特征比单模型所提取的文本特征和基于Word2vec的融合模型所提取的文本特征有更好的文本表征效果。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种基于特征增强的短文本情感分类方法,其特征在于,包括以下步骤:
基于TextRank对短文本数据进行情感词提取得到情感词典;
获取实验短文本数据集,基于Word2vec模型对所述实验短文本数据集进行训练得到训练文本词向量;
对所述情感词典进行加权矩阵运算,得到情感词加权矩阵;
基于所述情感词加权矩阵和训练文本词向量进行矩阵乘法获得基于情感词加权的Word2vec词向量矩阵;
对所述Word2vec词向量矩阵进行分类。
2.基于权利要求1所述的方法,其特征在于,所述对所述情感词典进行加权矩阵运算,得到情感词加权矩阵的步骤具体包括:
将所述情感词典中的情感词进行TextRank模型训练,得到每个情感词在整个短文本数据中相应的权重,并将权重信息存在第一字典中;
查找所述训练文本词向量的词中是否包含第一字典中的词,如果有,则构建与所述训练文本词向量维度相同的权重向量;否则,构建与所述训练文本词向量维度相同的单位向量;
将权重向量与所述训练文本词向量整合形成含有情感词权重信息的文本词向量。
3.根据权利要求1所述的方法,其特征在于,基于TextRank算法对短文本数据进行情感词提取包括以下步骤:
对短文本数据分词处理;
对分词后的短文本数据进行数据预处理,然后挑选候选关键词构建候选情感词集合;
基于TextRank算法计算候选情感词集的候选关键词的权重;
基于词图构建分值公式,迭代运算可得到词图各个节点的权重,直到分值公式收敛完成情感词提取。
4.根据权利要求1所述的方法,其特征在于,通过基于注意力机制的混合神经网络情感分类模型对所述Word2vec词向量矩阵进行分类,其具体步骤为:
输入短文本数据的所述Word2vec词向量矩阵;
采用单层卷积对所述Word2vec词向量矩阵进行局部特征提取;
采用了双向长短时记忆网络对所述短文本数据进行全局情感特征提取;
将提取得到的单层卷积局部特征与全局情感特征进行拼接得到拼接向量;
基于注意力机制给所述拼接向量分配不同的情感权重,对分配不同的情感权重后的所述拼接向量进行情感分类。
5.根据权利要求2所述的方法,其特征在于,所述权重向量为对角矩阵。
6.一种基于特征增强的短文本情感分类系统,其特征在于,包括:
情感词提取模块,用于接收短文本数据,并通过TextRank对所述短文本数据进行情感词提取得到情感词典;
Word2vec词向量模块,用于接收实验短文本数据集,基于Word2vec模型对所述实验短文本数据集进行训练得到训练文本词向量;
加权模块,与所述情感词提取模块、所述Word2vec词向量模块相连,用于对所述情感词典进行加权矩阵运算,得到情感词加权矩阵;
加权Word2vec词向量模块,与所述加权模块、所述Word2vec词向量模块相连,用于根据所述情感词加权矩阵和训练文本词向量进行矩阵乘法获得基于情感词加权的Word2vec词向量矩阵;
分类模块,与所述加权Word2vec词向量模块相连,用于对所述Word2vec词向量矩阵进行分类。
7.根据权利要求6所述的系统,其特征在于,所述加权模块还包括权重信息获取单元、权重向量单元,其中,
所述权重信息获取单元用于将所述情感词提取模块中情感词典的情感词进行TextRank模型训练,得到每个情感词在整个短文本数据中相应的权重,并将权重信息存在第一字典中;
所述权重向量单元与所述权重信息单元、Word2vec词向量模块相连,用于当所述训练文本词向量的词中是否包含第一字典中的词时,则构建与所述训练文本词向量维度相同的权重向量;否则,构建与所述训练文本词向量维度相同的单位向量;然后将权重向量与单位向量整合形成含有情感词权重信息的文本词向量。
8.根据权利要求7所述的系统,其特征在于,所述权重向量为对角矩阵。
9.根据权利要求6所述的系统,其特征在于,所述分类模块还包括神经网络单元,用于构建基于注意力机制的混合神经网络情感分类模型,所述基于注意力机制的混合神经网络情感分类模型包括输入层、一维卷积层、Bi-Lstm层、向量拼接层、注意力层、情感分类输出层。
10.根据权利要求9所述的系统,其特征在于,所述输入层用于获取短文本数据得到向量表示矩阵;
所述一维卷积层与所述输入层相连,用于对所述向量表示矩阵进行局部特征提取;
所述Bi-Lstm层与所述输入层相连,用于对所述短文本数据进行全局情感特征提取;
所述向量拼接层与所述Bi-Lstm、所述一维卷积层相连,用于将单层卷积局部特征与全局情感特征进行拼接得到拼接向量;
所述注意力层与所述向量拼接层相连,用于给所述拼接向量分配不同的情感权重;
所述情感分类输出层对注意力层得到的分配不同的情感权重后的所述拼接向量进行情感分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110570246.2A CN113326374B (zh) | 2021-05-25 | 2021-05-25 | 基于特征增强的短文本情感分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110570246.2A CN113326374B (zh) | 2021-05-25 | 2021-05-25 | 基于特征增强的短文本情感分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326374A true CN113326374A (zh) | 2021-08-31 |
CN113326374B CN113326374B (zh) | 2022-12-20 |
Family
ID=77416669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110570246.2A Active CN113326374B (zh) | 2021-05-25 | 2021-05-25 | 基于特征增强的短文本情感分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326374B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114298019A (zh) * | 2021-12-29 | 2022-04-08 | 中国建设银行股份有限公司 | 情绪识别方法、装置、设备、存储介质、程序产品 |
CN116955628A (zh) * | 2023-08-08 | 2023-10-27 | 武汉市万睿数字运营有限公司 | 一种投诉事件分类方法、装置、计算机设备及存储介质 |
CN117688944A (zh) * | 2024-01-31 | 2024-03-12 | 山东省计算中心(国家超级计算济南中心) | 基于多粒度卷积特征融合的中文情感分析方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357889A (zh) * | 2017-07-11 | 2017-11-17 | 北京工业大学 | 一种基于内容或情感相似性的跨社交平台图片推荐算法 |
CN108509629A (zh) * | 2018-04-09 | 2018-09-07 | 南京大学 | 一种基于情感词典和支持向量机的文本情感分析方法 |
CN108647219A (zh) * | 2018-03-15 | 2018-10-12 | 中山大学 | 一种结合情感词典的卷积神经网络文本情感分析方法 |
CN108763348A (zh) * | 2018-05-15 | 2018-11-06 | 南京邮电大学 | 一种扩展短文本词特征向量的分类改进方法 |
CN109299268A (zh) * | 2018-10-24 | 2019-02-01 | 河南理工大学 | 一种基于双通道模型的文本情感分析方法 |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
CN110717334A (zh) * | 2019-09-10 | 2020-01-21 | 上海理工大学 | 基于bert模型和双通道注意力的文本情感分析方法 |
CN111259138A (zh) * | 2018-11-15 | 2020-06-09 | 航天信息股份有限公司 | 一种税务领域短文本的情感分类方法及装置 |
CN111651593A (zh) * | 2020-05-08 | 2020-09-11 | 河南理工大学 | 基于词向量和字向量混合模型的文本情感分析方法 |
US20200356724A1 (en) * | 2019-05-06 | 2020-11-12 | University Of Electronic Science And Technology Of China | Multi-hop attention and depth model, method, storage medium and terminal for classification of target sentiments |
CN111984793A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 文本情感分类模型训练方法、装置、计算机设备及介质 |
CN111985214A (zh) * | 2020-08-19 | 2020-11-24 | 四川长虹电器股份有限公司 | 基于bilstm及attention的人机交互负面情感分析方法 |
-
2021
- 2021-05-25 CN CN202110570246.2A patent/CN113326374B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357889A (zh) * | 2017-07-11 | 2017-11-17 | 北京工业大学 | 一种基于内容或情感相似性的跨社交平台图片推荐算法 |
CN108647219A (zh) * | 2018-03-15 | 2018-10-12 | 中山大学 | 一种结合情感词典的卷积神经网络文本情感分析方法 |
CN108509629A (zh) * | 2018-04-09 | 2018-09-07 | 南京大学 | 一种基于情感词典和支持向量机的文本情感分析方法 |
CN108763348A (zh) * | 2018-05-15 | 2018-11-06 | 南京邮电大学 | 一种扩展短文本词特征向量的分类改进方法 |
CN109299268A (zh) * | 2018-10-24 | 2019-02-01 | 河南理工大学 | 一种基于双通道模型的文本情感分析方法 |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
CN111259138A (zh) * | 2018-11-15 | 2020-06-09 | 航天信息股份有限公司 | 一种税务领域短文本的情感分类方法及装置 |
US20200356724A1 (en) * | 2019-05-06 | 2020-11-12 | University Of Electronic Science And Technology Of China | Multi-hop attention and depth model, method, storage medium and terminal for classification of target sentiments |
CN110717334A (zh) * | 2019-09-10 | 2020-01-21 | 上海理工大学 | 基于bert模型和双通道注意力的文本情感分析方法 |
CN111651593A (zh) * | 2020-05-08 | 2020-09-11 | 河南理工大学 | 基于词向量和字向量混合模型的文本情感分析方法 |
CN111985214A (zh) * | 2020-08-19 | 2020-11-24 | 四川长虹电器股份有限公司 | 基于bilstm及attention的人机交互负面情感分析方法 |
CN111984793A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 文本情感分类模型训练方法、装置、计算机设备及介质 |
Non-Patent Citations (10)
Title |
---|
DEXIN ZHAO: "Keyword extraction for social media short text", 《2017 14TH WEB INFORMATION SYSTEMS AND APPLICATIONS CONFERENCE》 * |
YUJUN WEN: "Research on Keyword Extraction Based on Word2Vec Weighted TextRank", 《2016 2ND IEEE INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS》 * |
冯冲等: "基于词汇语义和句法依存的情感关键句识别", 《电子学报》 * |
安俊秀 等: "基于特征融合的微博短文本情感分类研究", 《数据与计算发展前沿》 * |
杨奎河等: "基于BERT-BiLSTM的短文本情感分析", 《信息通信》 * |
王立荣: "Word2vec-CNN-Bilstm短文本情感分类", 《福建电脑》 * |
蒙晓燕等: "基于word2vec的中文歌词关键词提取算法", 《内蒙古师范大学学报(自然科学汉文版)》 * |
蔡庆平等: "基于Word2Vec和CNN的产品评论细粒度情感分析模型", 《图书情报工作》 * |
詹飞等: "基于BERT和TextRank关键词提取的实体链接方法", 《湖南工业大学学报》 * |
郭豪: "基于微博旅游信息的中文关键词提取与分析研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(月刊)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114298019A (zh) * | 2021-12-29 | 2022-04-08 | 中国建设银行股份有限公司 | 情绪识别方法、装置、设备、存储介质、程序产品 |
CN116955628A (zh) * | 2023-08-08 | 2023-10-27 | 武汉市万睿数字运营有限公司 | 一种投诉事件分类方法、装置、计算机设备及存储介质 |
CN116955628B (zh) * | 2023-08-08 | 2024-05-03 | 武汉市万睿数字运营有限公司 | 一种投诉事件分类方法、装置、计算机设备及存储介质 |
CN117688944A (zh) * | 2024-01-31 | 2024-03-12 | 山东省计算中心(国家超级计算济南中心) | 基于多粒度卷积特征融合的中文情感分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113326374B (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN108052583B (zh) | 电商本体构建方法 | |
CN106919646B (zh) | 中文文本摘要生成系统及方法 | |
Li et al. | Context-aware emotion cause analysis with multi-attention-based neural network | |
CN113326374B (zh) | 基于特征增强的短文本情感分类方法及系统 | |
CN110609897A (zh) | 一种融合全局和局部特征的多类别中文文本分类方法 | |
CN109977413A (zh) | 一种基于改进cnn-lda的情感分析方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
Wen et al. | Dynamic interactive multiview memory network for emotion recognition in conversation | |
CN111078833B (zh) | 一种基于神经网络的文本分类方法 | |
CN110457718B (zh) | 一种文本生成方法、装置、计算机设备及存储介质 | |
CN111368088A (zh) | 一种基于深度学习的文本情感分类方法 | |
CN110879938A (zh) | 文本情感分类方法、装置、设备和存储介质 | |
CN113435211A (zh) | 一种结合外部知识的文本隐式情感分析方法 | |
CN114428850A (zh) | 一种文本检索匹配方法和系统 | |
CN114387537A (zh) | 一种基于描述文本的视频问答方法 | |
CN112131345A (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
Chaudhuri | Visual and text sentiment analysis through hierarchical deep learning networks | |
CN113065350A (zh) | 一种基于注意力神经网络的生物医学文本词义消岐方法 | |
CN111414755A (zh) | 一种基于细粒度情感字典的网络情绪分析方法 | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
CN116108840A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
CN112199503B (zh) | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 | |
US20230121404A1 (en) | Searching for normalization-activation layer architectures | |
KR102418260B1 (ko) | 고객 상담 기록 분석 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |