CN113204624B - 一种多特征融合的文本情感分析模型及装置 - Google Patents
一种多特征融合的文本情感分析模型及装置 Download PDFInfo
- Publication number
- CN113204624B CN113204624B CN202110630740.3A CN202110630740A CN113204624B CN 113204624 B CN113204624 B CN 113204624B CN 202110630740 A CN202110630740 A CN 202110630740A CN 113204624 B CN113204624 B CN 113204624B
- Authority
- CN
- China
- Prior art keywords
- text
- emotion
- words
- dictionary
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 143
- 238000004458 analytical method Methods 0.000 title claims abstract description 32
- 230000004927 fusion Effects 0.000 title claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 230000007935 neutral effect Effects 0.000 claims abstract description 10
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 58
- 230000014509 gene expression Effects 0.000 claims description 56
- 239000011159 matrix material Substances 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 20
- 230000002996 emotional effect Effects 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 14
- 239000003607 modifier Substances 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000013136 deep learning model Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 239000000969 carrier Substances 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 238000005315 distribution function Methods 0.000 claims description 2
- 239000013589 supplement Substances 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明属于智能文本情感分析技术领域,具体为一种多特征融合的文本情感分析模型及装置,包括包括登录模块、单输入预测模块和批量预测模块,其中登录模块,用户需要登录系统;单输入预测模块,该模块可以预测一条文本的情感极性,由用户手动输入预测内容,点击提交则显示预测标签结果,预测标签共分为三种:积极、消极和中性;批量预测模块,该模块可以对批量文本进行预测,先由数据上传模块上传待分析的文本集,遍历其中每条文本进行预测,其结构合理,结合文本卷积神经网络与双向长短期记忆神经网络,并引入自注意力机制来增加文本中重要词语所占权重,提高了文本情感分析的准确率。
Description
技术领域
本发明涉及智能智能文本情感分析技术领域,具体为一种多特征融合的文本情感分析模型及装置。
背景技术
将深度学习应用于文本情感分析任务的过程中,首先需要对文本进行词向量化,然后输入到神经网络中提取情感特征。但由于微博文本内容丰富、形式多样的特点,仅仅由文本词向量构成的语义特征不能全面表达微博文本的情感信息,所以本发明提出一种基于多特征融合的文本情感分析方法。针对微博文本自身特点构建了多种特征,如基于词典的情感值特征、表情特征以及改进的语义特征。融合多特征形成文本情感分类模型,该模型可以从多特征向量矩阵中学习到文本更多维度的情感信息,在自建数据集上与传统CNN模型及其他单一特征模型进行对比,实验结果显示其情感分类能力得到有效提升。
随着社交媒体的迅速发展,微博成为热门网络社交平台之一,越来越多的用户在微博上发表评论去表达自己的观点态度,微博短文本也成为新兴的文本形式。挖掘微博文本背后隐藏的情感倾向,对舆情分析等有重要价值。相比于传统文本,微博文本具有内容较短、表情符号多、形式多样化等特点,因此,仅在文本词向量上提取语义特征不足以涵盖微博文本所有的情感信息,这类方法没有考虑到文本中丰富的表情符号,以及不同词语对文本的重要程度不同。
以表情符号为例,微博上表情符号越来越受欢迎,很多用户在发表评论时,会在文字中加入符合情绪的表情符号,相关研究表明,表情符号可以增强用户的情感表达。微博作为日常网络交流的平台,提供了许多默认的表情符号,便于用户更生动直观的表达自己的感受。可见,表情符号在微博文本情感分析中意义重大。然而现有方法大多只关注了文本的研究,忽略了表情符号等数据,这可能导致情感表达的缺失,从而影响后续情感倾向性判断。
为了解决上述问题以及挖掘微博文本中更全面的情感信息,本发明提出一种基于多特征融合的文本情感分析方法,在文本词向量的语义特征基础上,增加了三种情感特征:基于词典的情感值特征、表情特征、改进的语义特征。根据情感词典计算整条文本的情感值作为基于词典的情感值特征。因为表情符号可以更直观的体现情感,提取出文本中表情符号的相关信息作为单独的表情特征。提出TF-IDF算法加权的Word2vec模型,称为改进的Word2vec模型,用于文本向量化,作为改进的语义特征。将多种特征融合形成多特征向量矩阵,从更多角度学习文本中包含的情感特征。
发明内容
本部分的目的在于概述本发明的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于现有文本情感分析模型中存在的问题,提出了本发明。
因此,本发明的目的是提供一种多特征融合的文本情感分析模型及装置,能够实现在使用的过程中,结合文本卷积神经网络与双向长短期记忆神经网络,并引入自注意力机制来增加文本中重要词语所占权重,提高了文本情感分析的准确率。
为解决上述技术问题,根据本发明的一个方面,本发明提供了如下技术方案:
一种多特征融合的文本情感分析装置,其特征在于:包括登录模块、单输入预测模块和批量预测模块:
其中,
登录模块,用户需要登录系统;
单输入预测模块,该模块可以预测一条文本的情感极性,由用户手动输入预测内容,点击提交则显示预测标签结果,预测标签共分为三种:积极、消极和中性;
批量预测模块,该模块可以对批量文本进行预测,先由数据上传模块上传待分析的文本集,遍历其中每条文本进行预测,结果可以以柱状图显示数据占比,统计三种情感文本各有多少条,并提供下载功能;
该文本情感分析装置可以实现如下情感分析方法:包括如下步骤:
步骤一:首先,对微博文本进行分割,将文字部分和表情部分进行存储,对存储的文字部分进行文本预处理,结合情感词典、修饰词词典计算文本的情感值特征,对存储的文字部分通过改进的Word2vec模型训练得到文本词向量,构成改进的语义特征,对存储的表情部分结合表情符号情感极值表计算表情的情感极值,再加上表情的出现次数以及语义信息,共同构成表情特征,将三种特征进行融合,进行文本情感分析;
步骤二:建立TextCNN深度学习模型,在CNN基础上做出调整,使得TextCNN模型更适用于提取文本的特征,在情感分析中常被使用,本步骤将它作为核心模型,提出了基于多特征融合的情感分类模型MFCNN,将不同特征转化为对应向量,采用拼接方式进行特征融合,构建多特征向量矩阵,输入到文本卷积神经网络中,最终得到分类结果
(1)基于词典的情感值特征
1.1构建词典
本步骤构建的词典包括:基础情感词典,否定词词典和程度副词词典,采用了波森自然语言处理公司推出的BosonNLP情感词典作为基础情感词典,该词典由大量社交网站标注的文本构建,相较于传统的情感词典,BosonNLP情感词典包含了许多流行网络用语,更适用于对微博这种社交媒体的非正式文本进行情感分析;
本步骤的修饰词词典包括两种,分别是否定词词典和程度副词词典,若情感词前出现否定词,那么其情感倾向很可能相反,本步骤以汉语词典中的否定词为基础,结合微博文本中常用否定词进一步扩展,整理得到71个否定词构成否定词词典,否定词权重设为-1;程度副词词典参考知网提供的词典以及微博文本中部分程度副词作为补充,共筛选出219个程度副词组成的程度副词词典,并为每个程度副词赋予了权值,权值大于1表示情感加强,权值小于1表示情感弱化;
1.2构建情感值特征
基于词典的情感值特征是指依据情感词典及修饰词词典,构建特定的规则,匹配文本中包含的情感词和修饰词后进行加权计算,得到情感值特征作为文本情感的表示形式;
输入微博文本,输出文本基于词典的情感值特征,首先,读取微博文本并进行预处理,匹配情感词典与文本中的词语,若词语为积极词得1分,为消极词得-1分,两种情况都不是为0分,情感词前如果有修饰词,记录其数量及权值,计算文本的情感值,公式如下:
其中,m为文本中包含的情感词总数,n为某个情感词的修饰词个数,base为基础得分,weight为程度副词或否定词权值;
(2)表情特征
情感词与表情符号都是常见的含有情感线索的载体,虽然情感词也具有情感信息,但仅仅通过制定规则来计算几个词语的情感得分是远远不够的,与情感词相比,表情符号使用图形表示,具有更丰富且直观的情感信息,同时它所表达的情感往往更强烈,当表情符号出现在文本中时,其更可能主导文本信息的情感,本步骤基于表情符号的多维信息构建表情特征,包括表情符号的情感极值、出现次数及语义信息;
首先是表情符号的情感极值,本步骤根据自建数据集中常用的微博表情符号,选择了85个表情构建了表情符号情感极值表;将表情分为积极、中性、消极3种类型,其中,积极情感表情符号37个,消极情感表情符号43个,对于有歧义或者没有明显情绪表达的表情符号,设为中立情感,共5个,不同表情符号表达的情感不同,按照表达情感的正负及强弱给与-2到2的分值,表达积极情感的表情由弱到强取值范围为0至2,表达消极情感的表情由弱到强取值范围为0至-2,表达中性情感的表情赋值0;
提取文本中的表情符号,计算文本情感极值公式如下:
其中m,n为文本中积极表情符号与消极表情符号的数量,e为表情符号,pos,neg为积极与消极表情符号极值表,函数F的作用是取出极值表中相应表情符号的分值;
其次是表情符号出现的次数,便于直观了解微博文本中表情出现次数和文本情感倾向性的联系,引入累积分布函数CDF(Cumulative Distribution Function,CDF),定义公式如下:
F_X(x)=P(X≤x)
最后是表情符号的语义信息,在构建数据集时,表情符号转化为“[表情词]”形式,将表情词经过Word2vec模型进行词向量化,将该词向量作为对于表情符号的语义信息,计入表情特征;
表情符号可以直接体现用户在微博文本中想表达的情感,所以将表情符号加入到情感分析的对象中,增加了可参考的依据,能够有效提高情感分类的准确率;
(3)改进的语义特征
将文本词向量作为文本的语义特征,因为其含有词语的语义信息,所以将其作为文本的语义特征,通过Word2vec模型将文本转化为词向量,缓解了矩阵稀疏、维数过大的问题,保留了文本中词语的序列信息,不过遗漏了不同词语对文本重要性不同,而TF-IDF算法恰好解决了这个问题,所以将TF-IDF与Word2vec结合,由该模型训练得到的文本词向量,称为文本改进的语义特征;它结合了两者优点,既保留了文本中词语的序列信息,又赋予了文本中不同词语不同的权值;
假设一条文本d_i,分词后词语个数为M,词向量维度为N,该条文本表示为:
d_i=<w_1,w_2,…,w_M>
通过Word2vec模型生成词向量,文本中包含多个词语,每个词语都有其对应的词向量,将他们进行拼接,得到该条文本M×N维的向量矩阵G(d_i),再与其权值矩阵相乘就是改进后的Word2vec得到的向量矩阵W_G(d_i),表示公式如下所示
G(d_i)={W2v(w_1),W2v(w_2),…,W2v(w_M)}
W_G(d_i)={"weight"(w_1)W2v(w_1),…,"weight"(w_M)W2v(w_M)}
其中,G(d_i)表示向量矩阵中每个向量,W2v(w_i),就是文本中词语w_i的词向量,通过Word2vec模型训练而得;W_G(d_i)表示向量矩阵中每个向量,"weight"(w_i)W2v(w_i),其中,"weight"(w_i)是词语w_i由TF-TDF算法算出的权重值;将"weight"(w_i)与W2v(w_i)相乘就是改进后Word2vec的词向量,将文本中各词语词向量组成的文本向量矩阵W_G(d_i),作为本步骤改进后的语义特征;
步骤三:构建KCNN-BiLSTM-ATT模型,该模型利用了TextCNN提取文本的局部语义信息以及双向LSTM从前后两个方向学习序列特征的优势,将两种神经网络结合,提取文本特征更为丰富,此外,该模型在TextCNN卷积层中使用多规模卷积核替代单规模卷积核,提取多维度局部特征;在TextCNN池化层选用k-max pooling代替最大池化,因为最大池化对每条文本仅保留一个最强特征信息,而在自然语言处理中,特征的频次和位置同样重要,所以池化层选用k-max pooling,在一定程度上保留了特征的频率和部分位置信息
(1)卷积层
在本步骤构建的模型中,卷积层的目的是利用卷积核获取文本的局部特征,词向量矩阵作为输入,卷积层进行卷积操作,获得整个文本的最终特征图(feature map)作为下一层的输入;
(2)池化层
池化层的作用是保留显著特征以及降低特征维度,对卷积层输出的特征图进行池化操作,提取出某些局部最优特征,舍弃卷积层冗余的特征,对特征进行压缩从而降低了模型的复杂度以及后续计算量,避免产生过拟合;
(3)双向LSTM层
该模型采用的BiLSTM是长短期记忆神经网络的变体之一,与LSTM相比,BiLSTM不仅可以访问前向上下文信息,还可以访问后向上下文信息。
与现有技术相比,本发明的有益效果是:本发明在自建数据集上,较其他情感分类对比模型的准确率高出0.15%至3.32%,说明本发明提出的模型可以从融合了多特征的向量矩阵中学习到文本更多维度的情感信息,证明了该方法的可行性与有效性。此外,融合多特征的模型相比于CNN模型在精确率和F1值上分别有了近5%和4%的提升,在召回率上提升了2%。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将结合附图和详细实施方式对本发明进行详细说明,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明步骤流程结构示意图;
图2为本发明KCNN-BiLSTM-ATT模型结构示意图;
图3为本发明MFCNN模型整体架构结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施方式的限制。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。
实施例1
首先启动系统进行初始化,加载模型。接着进入循环等待,如果顺利到达则获取初始文本,利用jieba分词对初始文本进行预处理,将其划分为一个个词语,使分词后文本中所有词语有序整齐的排列,构建相应的语料词典,每个词语在词典中都有对应的序号,建立词语到序号的映射,将文本转化为一段序号数据。输入到Embedding层得到相应情感词向量,再由模型进行预测,把结果封装成JSON格式,返回给客户端。若将服务关闭,系统停止运行,否则跳转至第二步,持续等待请求到达。
对于搭建完成的文本情感分析的接口服务,将基于HTML、CSS和JavaScript等技术实现该服务的可视化展示。JavaScript是比较流行的开发Web页面的脚本语言,通过其实现发送请求和处理响应等。
情感分析系统功能模块
登录模块,用户需要登录系统
单输入预测模块,该模块可以预测一条文本的情感极性,由用户手动输入预测内容,如“今天天气不错”,点击提交则显示预测标签结果,预测标签共分为三种:积极、消极和中性。
批量预测模块,该模块可以对批量文本进行预测,先由数据上传模块上传待分析的文本集,遍历其中每条文本进行预测,结果可以以柱状图显示数据占比,统计三种情感文本各有多少条,并提供下载功能。
虽然在上文中已经参考实施方式对本发明进行了描述,然而在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本发明所披露的实施方式中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本发明并不局限于文中公开的特定实施方式,而是包括落入权利要求的范围内的所有技术方案。
Claims (1)
1.一种多特征融合的文本情感分析装置,其特征在于:包括登录模块、单输入预测模块和批量预测模块:
其中,
登录模块,用户需要登录系统;
单输入预测模块,该模块可以预测一条文本的情感极性,由用户手动输入预测内容,点击提交则显示预测标签结果,预测标签共分为三种:积极、消极和中性;
批量预测模块,该模块可以对批量文本进行预测,先由数据上传模块上传待分析的文本集,遍历其中每条文本进行预测,结果可以以柱状图显示数据占比,统计三种情感文本各有多少条,并提供下载功能;
该文本情感分析装置可以实现如下情感分析方法:包括如下步骤:
步骤一:首先,对微博文本进行分割,将文字部分和表情部分进行存储,对存储的文字部分进行文本预处理,结合情感词典、修饰词词典计算文本的情感值特征,对存储的文字部分通过改进的Word2vec模型训练得到文本词向量,构成改进的语义特征,对存储的表情部分结合表情符号情感极值表计算表情的情感极值,再加上表情的出现次数以及语义信息,共同构成表情特征,将三种特征进行融合,进行文本情感分析;
步骤二:建立TextCNN深度学习模型,在CNN基础上做出调整,使得TextCNN模型更适用于提取文本的特征,在情感分析中常被使用,本步骤将它作为核心模型,提出了基于多特征融合的情感分类模型MFCNN,将不同特征转化为对应向量,采用拼接方式进行特征融合,构建多特征向量矩阵,输入到文本卷积神经网络中,最终得到分类结果
(1)基于词典的情感值特征
1.1构建词典
本步骤构建的词典包括:基础情感词典,否定词词典和程度副词词典,采用了波森自然语言处理公司推出的BosonNLP情感词典作为基础情感词典,该词典由大量社交网站标注的文本构建,相较于传统的情感词典,BosonNLP情感词典包含了许多流行网络用语,更适用于对微博这种社交媒体的非正式文本进行情感分析;
本步骤的修饰词词典包括两种,分别是否定词词典和程度副词词典,若情感词前出现否定词,那么其情感倾向很可能相反,本步骤以汉语词典中的否定词为基础,结合微博文本中常用否定词进一步扩展,整理得到71个否定词构成否定词词典,否定词权重设为-1;程度副词词典参考知网提供的词典以及微博文本中部分程度副词作为补充,共筛选出219个程度副词组成的程度副词词典,并为每个程度副词赋予了权值,权值大于1表示情感加强,权值小于1表示情感弱化;
1.2构建情感值特征
基于词典的情感值特征是指依据情感词典及修饰词词典,构建特定的规则,匹配文本中包含的情感词和修饰词后进行加权计算,得到情感值特征作为文本情感的表示形式;
输入微博文本,输出文本基于词典的情感值特征,首先,读取微博文本并进行预处理,匹配情感词典与文本中的词语,若词语为积极词得1分,为消极词得-1分,两种情况都不是为0分,情感词前如果有修饰词,记录其数量及权值,计算文本的情感值,公式如下:
其中,m为文本中包含的情感词总数,n为某个情感词的修饰词个数,base为基础得分,weight为程度副词或否定词权值;
(2)表情特征
情感词与表情符号都是常见的含有情感线索的载体,虽然情感词也具有情感信息,但仅仅通过制定规则来计算几个词语的情感得分是远远不够的,与情感词相比,表情符号使用图形表示,具有更丰富且直观的情感信息,同时它所表达的情感往往更强烈,当表情符号出现在文本中时,其更可能主导文本信息的情感,本步骤基于表情符号的多维信息构建表情特征,包括表情符号的情感极值、出现次数及语义信息;
首先是表情符号的情感极值,本步骤根据自建数据集中常用的微博表情符号,选择了85个表情构建了表情符号情感极值表;将表情分为积极、中性、消极3种类型,其中,积极情感表情符号37个,消极情感表情符号43个,对于有歧义或者没有明显情绪表达的表情符号,设为中立情感,共5个,不同表情符号表达的情感不同,按照表达情感的正负及强弱给与-2到2的分值,表达积极情感的表情由弱到强取值范围为0至2,表达消极情感的表情由弱到强取值范围为0至-2,表达中性情感的表情赋值0;
提取文本中的表情符号,计算文本情感极值公式如下:
其中m,n为文本中积极表情符号与消极表情符号的数量,e为表情符号,pos,neg为积极与消极表情符号极值表,函数F的作用是取出极值表中相应表情符号的分值;
其次是表情符号出现的次数,便于直观了解微博文本中表情出现次数和文本情感倾向性的联系,引入累积分布函数CDF(Cumulative Distribution Function,CDF),定义公式如下:
F_X(x)=P(X≤x)
最后是表情符号的语义信息,在构建数据集时,表情符号转化为“[表情词]”形式,将表情词经过Word2vec模型进行词向量化,将该词向量作为对于表情符号的语义信息,计入表情特征;
表情符号可以直接体现用户在微博文本中想表达的情感,所以将表情符号加入到情感分析的对象中,增加了可参考的依据,能够有效提高情感分类的准确率;
(3)改进的语义特征
将文本词向量作为文本的语义特征,因为其含有词语的语义信息,所以将其作为文本的语义特征,通过Word2vec模型将文本转化为词向量,缓解了矩阵稀疏、维数过大的问题,保留了文本中词语的序列信息,不过遗漏了不同词语对文本重要性不同,而TF-IDF算法恰好解决了这个问题,所以将TF-IDF与Word2vec结合,由该模型训练得到的文本词向量,称为文本改进的语义特征;它结合了两者优点,既保留了文本中词语的序列信息,又赋予了文本中不同词语不同的权值;
假设一条文本d_i,分词后词语个数为M,词向量维度为N,该条文本表示为:
d_i=<w_1,w_2,…,w_M>
通过Word2vec模型生成词向量,文本中包含多个词语,每个词语都有其对应的词向量,将他们进行拼接,得到该条文本M×N维的向量矩阵G(d_i),再与其权值矩阵相乘就是改进后的Word2vec得到的向量矩阵W_G(d_i),表示公式如下所示
G(d_i)={W2v(w_1),W2v(w_2),…,W2v(w_M)}
W_G(d_i)={"weight"(w_1)W2v(w_1),…,"weight"(w_M)W2v(w_M)}
其中,G(d_i)表示向量矩阵中每个向量,W2v(w_i),就是文本中词语w_i的词向量,通过Word2vec模型训练而得;W_G(d_i)表示向量矩阵中每个向量,"weight"(w_i)W2v(w_i),其中,"weight"(w_i)是词语w_i由TF-TDF算法算出的权重值;将"weight"(w_i)与W2v(w_i)相乘就是改进后Word2vec的词向量,将文本中各词语词向量组成的文本向量矩阵W_G(d_i),作为本步骤改进后的语义特征;
步骤三:构建KCNN-BiLSTM-ATT模型,该模型利用了TextCNN提取文本的局部语义信息以及双向LSTM从前后两个方向学习序列特征的优势,将两种神经网络结合,提取文本特征更为丰富,此外,该模型在TextCNN卷积层中使用多规模卷积核替代单规模卷积核,提取多维度局部特征;在TextCNN池化层选用k-max pooling代替最大池化,因为最大池化对每条文本仅保留一个最强特征信息,而在自然语言处理中,特征的频次和位置同样重要,所以池化层选用k-max pooling,在一定程度上保留了特征的频率和部分位置信息
(1)卷积层
在本步骤构建的模型中,卷积层的目的是利用卷积核获取文本的局部特征,词向量矩阵作为输入,卷积层进行卷积操作,获得整个文本的最终特征图(feature map)作为下一层的输入;
(2)池化层
池化层的作用是保留显著特征以及降低特征维度,对卷积层输出的特征图进行池化操作,提取出某些局部最优特征,舍弃卷积层冗余的特征,对特征进行压缩从而降低了模型的复杂度以及后续计算量,避免产生过拟合;
(3)双向LSTM层
该模型采用的BiLSTM是长短期记忆神经网络的变体之一,与LSTM相比,BiLSTM不仅可以访问前向上下文信息,还可以访问后向上下文信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110630740.3A CN113204624B (zh) | 2021-06-07 | 2021-06-07 | 一种多特征融合的文本情感分析模型及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110630740.3A CN113204624B (zh) | 2021-06-07 | 2021-06-07 | 一种多特征融合的文本情感分析模型及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113204624A CN113204624A (zh) | 2021-08-03 |
CN113204624B true CN113204624B (zh) | 2022-06-14 |
Family
ID=77024237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110630740.3A Expired - Fee Related CN113204624B (zh) | 2021-06-07 | 2021-06-07 | 一种多特征融合的文本情感分析模型及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113204624B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114021631A (zh) * | 2021-10-28 | 2022-02-08 | 中国银行股份有限公司 | 银行客户分类方法及装置 |
CN114298025A (zh) * | 2021-12-01 | 2022-04-08 | 国家电网有限公司华东分部 | 基于人工智能的情感分析的方法 |
CN116108859A (zh) * | 2023-03-17 | 2023-05-12 | 美云智数科技有限公司 | 情感倾向确定、样本构建、模型训练方法、装置及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096597A (zh) * | 2019-03-22 | 2019-08-06 | 同济大学 | 一种结合情感强度的文本tf-idf特征重构法 |
CN111414476A (zh) * | 2020-03-06 | 2020-07-14 | 哈尔滨工业大学 | 一种基于多任务学习的属性级情感分析方法 |
CN111767741A (zh) * | 2020-06-30 | 2020-10-13 | 福建农林大学 | 一种基于深度学习和tfidf算法的文本情感分析方法 |
CN112200674A (zh) * | 2020-10-14 | 2021-01-08 | 上海谦璞投资管理有限公司 | 一种证券市场情绪指数智能计算信息系统 |
CN112348640A (zh) * | 2020-11-12 | 2021-02-09 | 北京科技大学 | 一种基于面部情感状态分析的在线购物系统及方法 |
CN112711693A (zh) * | 2019-10-24 | 2021-04-27 | 富驰律法(北京)科技有限公司 | 一种基于多特征融合的诉讼线索挖掘方法及系统 |
CN112862569A (zh) * | 2021-03-04 | 2021-05-28 | 上海交通大学 | 基于图像和文本多模态数据的产品外观风格评价方法和系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778240B (zh) * | 2015-04-08 | 2019-10-18 | 重庆理工大学 | 基于多特征融合的微博文本数据分类方法 |
US10394959B2 (en) * | 2017-12-21 | 2019-08-27 | International Business Machines Corporation | Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources |
CN108614875B (zh) * | 2018-04-26 | 2022-06-07 | 北京邮电大学 | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 |
CN109933664B (zh) * | 2019-03-12 | 2021-09-07 | 中南大学 | 一种基于情感词嵌入的细粒度情绪分析改进方法 |
CN112307200A (zh) * | 2019-07-25 | 2021-02-02 | 顺丰科技有限公司 | 情感属性获取方法、装置、设备、及存储介质 |
CN111191438B (zh) * | 2019-12-30 | 2023-03-21 | 北京百分点科技集团股份有限公司 | 一种情感分析方法、装置和电子设备 |
CN111626050B (zh) * | 2020-05-25 | 2023-12-12 | 安徽理工大学 | 基于表情词典与情感常识的微博情感分析方法 |
CN111832314A (zh) * | 2020-06-15 | 2020-10-27 | 广州数说故事信息科技有限公司 | 一种具有分析对象指向性的文本情感判别方法 |
CN111914096B (zh) * | 2020-07-06 | 2024-02-02 | 同济大学 | 基于舆情知识图谱的公共交通乘客满意度评价方法及系统 |
CN112861541B (zh) * | 2020-12-15 | 2022-06-17 | 哈尔滨工程大学 | 一种基于多特征融合的商品评论情感分析方法 |
-
2021
- 2021-06-07 CN CN202110630740.3A patent/CN113204624B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096597A (zh) * | 2019-03-22 | 2019-08-06 | 同济大学 | 一种结合情感强度的文本tf-idf特征重构法 |
CN112711693A (zh) * | 2019-10-24 | 2021-04-27 | 富驰律法(北京)科技有限公司 | 一种基于多特征融合的诉讼线索挖掘方法及系统 |
CN111414476A (zh) * | 2020-03-06 | 2020-07-14 | 哈尔滨工业大学 | 一种基于多任务学习的属性级情感分析方法 |
CN111767741A (zh) * | 2020-06-30 | 2020-10-13 | 福建农林大学 | 一种基于深度学习和tfidf算法的文本情感分析方法 |
CN112200674A (zh) * | 2020-10-14 | 2021-01-08 | 上海谦璞投资管理有限公司 | 一种证券市场情绪指数智能计算信息系统 |
CN112348640A (zh) * | 2020-11-12 | 2021-02-09 | 北京科技大学 | 一种基于面部情感状态分析的在线购物系统及方法 |
CN112862569A (zh) * | 2021-03-04 | 2021-05-28 | 上海交通大学 | 基于图像和文本多模态数据的产品外观风格评价方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113204624A (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767741B (zh) | 一种基于深度学习和tfidf算法的文本情感分析方法 | |
CN110717017B (zh) | 一种处理语料的方法 | |
CN113204624B (zh) | 一种多特征融合的文本情感分析模型及装置 | |
CN107133224B (zh) | 一种基于主题词的语言生成方法 | |
CN111488931B (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN101420313B (zh) | 一种针对客户端用户群进行聚类的方法和系统 | |
CN111797898B (zh) | 一种基于深度语义匹配的在线评论自动回复方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN110765260A (zh) | 一种基于卷积神经网络与联合注意力机制的信息推荐方法 | |
Peng et al. | Human–machine dialogue modelling with the fusion of word-and sentence-level emotions | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN109101490B (zh) | 一种基于融合特征表示的事实型隐式情感识别方法和系统 | |
CN111444725B (zh) | 语句的生成方法、装置、存储介质和电子装置 | |
CN111199151A (zh) | 数据处理方法、及数据处理装置 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
Tang et al. | Evaluation of Chinese sentiment analysis APIs based on online reviews | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN111274791B (zh) | 一种线上家装场景下用户流失预警模型的建模方法 | |
CN117332088A (zh) | 基于全局结构特征融合的篇章级文本分类方法及系统 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
CN111414755A (zh) | 一种基于细粒度情感字典的网络情绪分析方法 | |
CN113254590B (zh) | 一种基于多核双层卷积神经网络的中文文本情绪分类方法 | |
CN115659990A (zh) | 烟草情感分析方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220614 |