CN109815485B - 一种微博短文本情感极性识别的方法、装置及存储介质 - Google Patents

一种微博短文本情感极性识别的方法、装置及存储介质 Download PDF

Info

Publication number
CN109815485B
CN109815485B CN201811583268.7A CN201811583268A CN109815485B CN 109815485 B CN109815485 B CN 109815485B CN 201811583268 A CN201811583268 A CN 201811583268A CN 109815485 B CN109815485 B CN 109815485B
Authority
CN
China
Prior art keywords
microblog
vector
word
text
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811583268.7A
Other languages
English (en)
Other versions
CN109815485A (zh
Inventor
赵建强
黄剑
张辉极
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201811583268.7A priority Critical patent/CN109815485B/zh
Publication of CN109815485A publication Critical patent/CN109815485A/zh
Application granted granted Critical
Publication of CN109815485B publication Critical patent/CN109815485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种微博短文本情感极性识别的方法、装置及存储介质。该方法包括:抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征tc;计算每一条微博T的先验极性特征值SenScore(t);使用深度卷积神经网络生成微博T的固定长度向量y′;基于所述微博上下文情感特征tc、先验极性特征值SenScore(t)和固定长度向量y′确定微博短文本的情感极性。本发明解决了微博向量表示维数爆炸和数据稀疏的问题,组合了不同层次的情感特征向量表示,能够更加全面和多样的描述微博文本的情感语义特征,从而提高微博短文情感极性识别的性能。

Description

一种微博短文本情感极性识别的方法、装置及存储介质
技术领域
本发明涉及自然语言处理技术领域,特别是一种微博短文本情感极性识别的方法、装置及存储介质。
背景技术
以微博为代表的新兴社交媒体已经成为广大网络用户获取新闻资讯、社会交往、自我表达、分享观点、传播信息和社会参与的重要媒介,成为社会公共舆论、企业品牌和产品推广以及传统媒体传播的主要平台。数以亿计的活跃用户来自不同的社会文化背景,遍布全球,每时每刻都在生成大量包含用户主观意见、情感的信息。这些文本信息包含着网民各种情绪、情感色彩和观点倾向。潜在用户通过阅读这些具有主观色彩的信息来了解大众舆论对于某一事件或产品的看法。针对特定应用需求,识别、分析和挖掘微博中所包含的有价值的用户情感、态度和意见信息,是当前互联网智能信息处理、数据挖掘、计算语言学等领域的一个热点研究问题。
微博文本短小、语法结构不完整、而且表述随意和充斥噪声,使得微博文本情感极性识别面临更大的挑战。已有分类研究主要采用人工方式构建分类特征,分类特征多使用词袋模型,难以刻画词序信息并面临维数灾难和数据稀疏的问题,使得微博文本情感倾向判断速度慢,不适合对微博情况的快速分析。另外,微博文本经常出现“明褒暗贬”或隐式的表述方式,而人工构建特征的方式难以发现和描述这类隐含的语义关系。
发明内容
本发明针对上述现有技术中的缺陷,提出了如下技术方案。
一种微博短文本情感极性识别的方法,包括以下步骤:
抽取步骤,抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征tc
计算步骤,计算每一条微博T的先验极性特征值SenScore(t);
固定长度向量生成步骤,使用深度卷积神经网络生成微博T的固定长度向量y′;
识别步骤,基于所述微博上下文情感特征tc、先验极性特征值SenScore(t)和固定长度向量y′确定微博短文本的情感极性。
更进一步地,对所述微博文本进行抽取之前还进行获取用户发表的微博文本,清洗所述微博文本,删除微博中非文本字符、超链接、数字、一般标点符号和特殊符号,并对中文微博进行分词处理。
更进一步地,所述先验极性特征值
Figure GDA0003922743640000021
Figure GDA0003922743640000022
其中wi是微博中的词或单词项,n是微博T的长度,PMI(wi,pos)是词或单词项wi与正向情感分类的点互信息PMI,PMI(wi,neg)是词或单词项wi与负向情感分类的点互信息PMI,单词wi的情感值由情感字典获得。
更进一步地,固定长度向量生成步骤包括:
映射子步骤,使用GloVe模型,训练微博文本语料,获得词或单词的词向量表,计算获得每条微博T的分布式词向量表示t=[w1,w2,...,wn],其中微博中的每个词或单词w都被映射为一个向量;
特征向量生成子步骤,将分布式词向量表示t输入到深度卷积神经网络的卷积层,卷积层使用多个可变窗口大小h的卷积核,分别计算生成微博文本局部特征向量xi=f(W·ti:i+h-1+b),连接多个文本局部特征向量,组成微博文本上下文情感信息特征向量
Figure GDA0003922743640000031
其中f(W·ti:i+h-1+b)为一个阶跃函数,W为计算的网络权重,b是对应的偏执参数;
向量再生子步骤,将分布式词向量表示t分别输入到前向GRU网络和后向GRU网络中,分别计算获得前向GRU输出序列
Figure GDA0003922743640000032
和后向GRU输出序列
Figure GDA0003922743640000033
连接
Figure GDA0003922743640000034
Figure GDA0003922743640000035
生成新向量
Figure GDA0003922743640000036
全局特征生成子步骤,将微博上下文情感信息特征向量ct输入深度卷积神经网络的池化层,使用Top-K池化策略,生成固定长度向量,将局部语句特征整合为全局特征t′=kmax{ct};
高级特征向量生成子步骤,新向量hn输入注意力机制神经网络ANN的注意力机制层,计算微博文本中各词的上下文权重值,输出带权重表示更高抽象层次的特征向量表示v;
连接子步骤,连接向量t′和v,生成多层次文本语义向量
Figure GDA0003922743640000037
固定长度向量生成子步骤,将特征向量ot输入深度卷积神经网络的池化层,使用最大池化策略,生成固定长度向量y′=max{v,t′};
组成子步骤,将向量y′经过Flat转换为一阶向量y′d,连接微博先验极性特征向量SenScore(t)和上下文情感特征tc组成
Figure GDA0003922743640000038
更进一步地,情感识别是对输出向量y使用softmax函数计算微博T属于主观情感正面或负面类别的概率值,概率值最大的类别作为微博T的情感极性类别。
本发明还提出了一种微博短文本情感极性识别的装置,该装置包括:
抽取单元,用于抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征tc
计算单元,用于计算每一条微博T的先验极性特征值SenScore(t);
固定长度向量生成单元,用于使用深度卷积神经网络生成微博T的固定长度向量y′;
识别单元,基用于于所述微博上下文情感特征tc、先验极性特征值SenScore(t)和固定长度向量y′确定微博短文本的情感极性。
更进一步地,对所述微博文本进行抽取之前还进行获取用户发表的微博文本,清洗所述微博文本,删除微博中非文本字符、超链接、数字、一般标点符号和特殊符号,并对中文微博进行分词处理。
更进一步地,所述先验极性特征值
Figure GDA0003922743640000041
Figure GDA0003922743640000042
其中wi是微博中的词或单词项,n是微博T的长度,PMI(wi,pos)是词或单词项wi与正向情感分类的点互信息PMI,PMI(wi,neg)是词或单词项wi与负向情感分类的点互信息PMI,单词wi的情感值由情感字典获得。
更进一步地,固定长度向量生成单元包括:
映射子单元,使用GloVe模型,训练微博文本语料,获得词或单词的词向量表,计算获得每条微博T的分布式词向量表示t=[w1,w2,...,wn],其中微博中的每个词或单词w都被映射为一个向量;
特征向量生成子单元,将分布式词向量表示t输入到深度卷积神经网络的卷积层,卷积层使用多个可变窗口大小h的卷积核,分别计算生成微博文本局部特征向量xi=f(W·ti:i+h-1+b),连接多个文本局部特征向量,组成微博文本上下文情感信息特征向量
Figure GDA0003922743640000051
其中f(W·ti:i+h-1+b)为一个阶跃函数,W为计算的网络权重,b是对应的偏执参数;
向量再生子单元,将分布式词向量表示t分别输入到前向GRU网络和后向GRU网络中,分别计算获得前向GRU输出序列
Figure GDA0003922743640000052
和后向GRU输出序列
Figure GDA0003922743640000053
连接
Figure GDA0003922743640000054
Figure GDA0003922743640000055
生成新向量
Figure GDA0003922743640000056
全局特征生成子单元,将微博上下文情感信息特征向量ct输入深度卷积神经网络的池化层,使用Top-K池化策略,生成固定长度向量,将局部语句特征整合为全局特征t′=kmax{ct};
高级特征向量生成子单元,新向量hn输入注意力机制神经网络ANN的注意力机制层,计算微博文本中各词的上下文权重值,输出带权重表示更高抽象层次的特征向量表示v;
连接子单元,连接向量t′和v,生成多层次文本语义向量
Figure GDA0003922743640000057
固定长度向量生成子单元,将特征向量ot输入深度卷积神经网络的池化层,使用最大池化策略,生成固定长度向量y′=max{v,t′};
组成子单元,将向量y′经过Flat转换为一阶向量y′d,连接微博先验极性特征向量SenScore(t)和上下文情感特征tc组成
Figure GDA0003922743640000058
更进一步地,情感识别是对输出向量y使用softmax函数计算微博T属于主观情感正面或负面类别的概率值,概率值最大的类别作为微博T的情感极性类别。
本发明还提出了一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果为:本发明所述的微博短文本情感极性识别方法在自动分析和挖掘微博文本的观点倾向时,先获取用户微博文本,再抽取计算微博文本上下文情感特征值和先验极性情感特征值,使用GloVe模型训练生成微博词向量表示,解决了微博向量表示维数爆炸和数据稀疏的问题,利用多窗口卷积操作,获取不同粒度的微博文本语义关系,使用门限循环网络,有效捕获和记忆微博上下文语义信息,多层卷积和池化组合从不同层次抽象微博文本语义表示,使用注意力机制网络,筛选出关注的重点语义信息,弥补循环神经网络语义表示偏向于最后或最前单词的问题,最后组合不同层次的情感特征向量表示,能够更加全面和多样的描述微博文本的情感语义特征,从而提高微博短文情感极性识别的性能。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种微博短文本情感极性识别的方法的流程图。
图2是根据本发明的所使用的分类网络结构示意图。
图3是根据本发明的实施例的固定长度向量生成方法的流程图。
图4是根据本发明的实施例的一种微博短文本情感极性识别的装置的结构图。
图5是根据本发明的实施例的固定长度向量生成单元的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了一种微博短文本情感极性识别的方法,包括以下步骤:
抽取步骤S101,抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征tc
在对微博文本进行抽取操作之前,可以使用编写好的用于获取微博文本的程序,通过官方提供的API接口获取真实的微博文本内容;然后清洗微博文本内容,一般包括删除微博中非文本字符信息、超链接、数字、一般标点符号和特殊符号等内容;这是因为微博内容由于表达形式多样,包含大量特殊符号、超链接和非文本字符以及不包含情感特征的内容,再进一步对文本进行处理前,删除这些信息,降低文本处理的词汇表空间,减少数据噪声信息。对中文微博进行分词操作。
微博中的表情符号是一种显式的情感表达形式,利用表情符号表,转换表情符号为对应的情感值。英文微博文本中大写方式的单词是一种突出强调的表现,统计微博中大写单词数量作为情感特征的一项。微博中标点符号的重复是一种情绪或态度的突出强调,抽取这种重复标点符号的出现作为情感特征项。
计算步骤S102,计算每一条微博T的先验极性特征值SenScore(t)。
在计算步骤S102中,所述先验极性特征值
Figure GDA0003922743640000081
Figure GDA0003922743640000082
其中wi是微博中的词或单词项,n是微博T的长度,PMI(wi,pos)是词或单词项wi与正向情感分类的点互信息PMI,PMI(wi,neg)是词或单词项wi与负向情感分类的点互信息PMI,单词wi的情感值由情感字典获得。
微博观点倾向的表达体现在显式的微博词语的情感倾向和隐含在词语之间的语义关系中。计算微博词语所具有的情感特征值,作为显式情感倾向表达的特征。即本发明的方法中先计算一个先验极性特征值SenScore(t),后续进行情感识别时考虑该因子,这是本发明的重要发明点之一。
固定长度向量生成步骤S103,使用深度卷积神经网络生成微博T的固定长度向量y′。
识别步骤S104,基于所述微博上下文情感特征tc、先验极性特征值SenScore(t)和固定长度向量y′确定微博短文本的情感极性。
为了解决微博文本情况识别中面临维数灾难和数据稀疏的问题,使得微博文本情感倾向判断速度慢的技术问题,本发明采用固定长度向量以提高计算速度,本发明采用的分类网络的结构如图2所示,下面的介绍请结合图2及图3进行,所述固定长度向量生成步骤S103包括:
映射子步骤S301,使用GloVe模型,训练微博文本语料,获得词或单词的词向量表,计算获得每条微博T的分布式词向量表示t=[w1,w2,...,wn],其中微博中的每个词或单词w都被映射为一个向量。
使用GloVe模型,训练微博文本语料,获得微博单词的词向量表L∈Rk×|V|(k是词向量的维度,V是语料库的规模)。计算获得每条微博t的分布式词向量表示t=[w1,w2,...,wn],其中每个单词w都被映射为一个向量wi∈Rk。GloVe模型在“Pennington J,Socher R,Manning CD.GloVe:Global Vectors for Word Representation.”给出了定义和计算方法。
特征向量生成子步骤S302,将分布式词向量表示t输入到深度卷积神经网络的卷积层,卷积层使用多个可变窗口大小h的卷积核,分别计算生成微博文本局部特征向量xi=f(W·ti:i+h-1+b),连接多个文本局部特征向量,组成微博文本上下文情感信息特征向量
Figure GDA0003922743640000091
其中f(W·ti:i+h-1+b)为一个阶跃函数,W为计算的网络权重,b是对应的偏执参数。
向量再生子步骤S303,将分布式词向量表示t分别输入到前向GRU网络和后向GRU网络中,分别计算获得前向GRU输出序列
Figure GDA0003922743640000092
和后向GRU输出序列
Figure GDA0003922743640000093
连接
Figure GDA0003922743640000094
Figure GDA0003922743640000095
生成新向量
Figure GDA0003922743640000096
GRU(Long Gated Recurrent Unit,门限循环单元网络)网络在“Kyunghyun ChoBvM,Dzmitry Bahdanau,Yoshua Bengio.On the Properties of Neural MachineTranslation:Encoder-DecoderApproaches[J].arXiv:14091259”中提出并给出了网络结构定义。
全局特征生成子步骤S304,将微博上下文情感信息特征向量ct输入深度卷积神经网络的池化层,使用Top-K池化策略,生成固定长度向量,将局部语句特征整合为全局特征t′=k max{ct}。
高级特征向量生成子步骤S305,新向量hn输入注意力机制神经网络ANN的注意力机制层,计算微博文本中各词的上下文权重值,输出带权重表示更高抽象层次的特征向量表示v。
ANN(Attention in Neural Networks)网络在“Itti L,Koch C,Niebur E.Amodel of saliency-based visual attention for rapid scene analysis.IEEETransactions on Pattern Analysis&Machine Intelligence,11:1254-1259”提出。
连接子步骤S306,连接向量t′和v,生成多层次文本语义向量
Figure GDA0003922743640000101
固定长度向量生成子步骤S307,将特征向量ot输入深度卷积神经网络的池化层,使用最大池化策略,生成固定长度向量y′=max{v,t′};
组成子步骤S308,将向量y′经过Flat转换为一阶向量y′d,连接微博先验极性特征向量SenScore(t)和上下文情感特征tc组成
Figure GDA0003922743640000102
在固定长度向量生成步骤S103中,使用GloVe模型训练生成微博词向量表示,解决了微博向量表示维数爆炸和数据稀疏的问题,利用多窗口卷积操作,获取不同粒度的微博文本语义关系,使用门限循环网络,有效捕获和记忆微博上下文语义信息,多层卷积和池化组合从不同层次抽象微博文本语义表示,使用注意力机制网络,筛选出关注的重点语义信息,弥补循环神经网络语义表示偏向于最后或最前单词的问题,最后组合不同层次的情感特征向量表示,能够更加全面和多样的描述微博文本的情感语义特征,从而提高微博短文情感极性识别的性能。这是发明的重要发明点之另一。
情感识别是对输出向量y使用softmax函数计算微博T属于主观情感正面或负面类别的概率值,概率值最大的类别作为微博T的情感极性类别。计算微博属于主观正面或负面情感分类概率值:
Figure GDA0003922743640000111
进一步参考图4,作为对上述图1所示装置的实现,本申请提供了一种微博短文本情感极性识别的装置的一个实施例,该装置实施例与图1所示的装置实施例相对应,该装置具体可以包含于各种电子设备中。
图4示出了本发明的一种微博短文本情感极性识别的装置,包括:
抽取单元401,抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征tc
在对微博文本进行抽取操作之前,可以使用编写好的用于获取微博文本的程序,通过官方提供的API接口获取真实的微博文本内容;然后清洗微博文本内容,一般包括删除微博中非文本字符信息、超链接、数字、一般标点符号和特殊符号等内容;这是因为微博内容由于表达形式多样,包含大量特殊符号、超链接和非文本字符以及不包含情感特征的内容,再进一步对文本进行处理前,删除这些信息,降低文本处理的词汇表空间,减少数据噪声信息。对中文微博进行分词操作。
微博中的表情符号是一种显式的情感表达形式,利用表情符号表,转换表情符号为对应的情感值。英文微博文本中大写方式的单词是一种突出强调的表现,统计微博中大写单词数量作为情感特征的一项。微博中标点符号的重复是一种情绪或态度的突出强调,抽取这种重复标点符号的出现作为情感特征项。
计算单元402,计算每一条微博T的先验极性特征值SenScore(t)。
在计算单元402中,所述先验极性特征值
Figure GDA0003922743640000121
Figure GDA0003922743640000122
其中wi是微博中的词或单词项,n是微博T的长度,PMI(wi,pos)是词或单词项wi与正向情感分类的点互信息PMI,PMI(wi,neg)是词或单词项wi与负向情感分类的点互信息PMI,单词wi的情感值由情感字典获得。
微博观点倾向的表达体现在显式的微博词语的情感倾向和隐含在词语之间的语义关系中。计算微博词语所具有的情感特征值,作为显式情感倾向表达的特征。即本发明的方法中先计算一个先验极性特征值SenScore(t),后续进行情感识别时考虑该因子,这是本发明的重要发明点之一。
固定长度向量生成单元403,使用深度卷积神经网络生成微博T的固定长度向量y′。
识别单元404,基于所述微博上下文情感特征tc、先验极性特征值SenScore(t)和固定长度向量y′确定微博短文本的情感极性。
为了解决微博文本情况识别中面临维数灾难和数据稀疏的问题,使得微博文本情感倾向判断速度慢的技术问题,本发明采用固定长度向量以提高计算速度,本发明采用的分类网络的结构如图2所示,下面的介绍请结合图2及图5进行,所述固定长度向量生成单元403包括:
映射子单元501,使用GloVe模型,训练微博文本语料,获得词或单词的词向量表,计算获得每条微博T的分布式词向量表示t=[w1,w2,...,wn],其中微博中的每个词或单词w都被映射为一个向量。
使用GloVe模型,训练微博文本语料,获得微博单词的词向量表L∈Rk×|V|(k是词向量的维度,V是语料库的规模)。计算获得每条微博t的分布式词向量表示t=[w1,w2,...,wn],其中每个单词w都被映射为一个向量wi∈Rk。GloVe模型在“Pennington J,Socher R,Manning CD.GloVe:Global Vectors for Word Representation.”给出了定义和计算方法。
特征向量生成子单元502,将分布式词向量表示t输入到深度卷积神经网络的卷积层,卷积层使用多个可变窗口大小h的卷积核,分别计算生成微博文本局部特征向量xi=f(W·ti:i+h-1+b),连接多个文本局部特征向量,组成微博文本上下文情感信息特征向量
Figure GDA0003922743640000131
其中f(W·ti:i+h-1+b)为一个阶跃函数,W为计算的网络权重,b是对应的偏执参数。
向量再生子单元503,将分布式词向量表示t分别输入到前向GRU网络和后向GRU网络中,分别计算获得前向GRU输出序列
Figure GDA0003922743640000132
和后向GRU输出序列
Figure GDA0003922743640000133
连接
Figure GDA0003922743640000134
Figure GDA0003922743640000135
生成新向量
Figure GDA0003922743640000136
GRU(Long Gated Recurrent Unit,门限循环单元网络)网络在“Kyunghyun ChoBvM,Dzmitry Bahdanau,Yoshua Bengio.On the Properties of Neural MachineTranslation:Encoder-DecoderApproaches[J].arXiv:14091259”中提出并给出了网络结构定义。
全局特征生成子单元504,将微博上下文情感信息特征向量ct输入深度卷积神经网络的池化层,使用Top-K池化策略,生成固定长度向量,将局部语句特征整合为全局特征t′=k max{ct}。
高级特征向量生成子单元505,新向量hn输入注意力机制神经网络ANN的注意力机制层,计算微博文本中各词的上下文权重值,输出带权重表示更高抽象层次的特征向量表示v。
ANN(AttentioninNeuralNetworks)网络在“Itti L,Koch C,NieburE.Amodel ofsaliency-based visual attention for rapid scene analysis.IEEE Transactions onPatternAnalysis&Machine Intelligence,11:1254-1259”提出。
连接子单元506,连接向量t′和v,生成多层次文本语义向量
Figure GDA0003922743640000141
固定长度向量生成子单元507,将特征向量ot输入深度卷积神经网络的池化层,使用最大池化策略,生成固定长度向量y′=max{v,t′};
组成子单元508,将向量y′经过Flat转换为一阶向量y′d,连接微博先验极性特征向量SenScore(t)和上下文情感特征tc组成
Figure GDA0003922743640000142
在固定长度向量生成单元403中,使用GloVe模型训练生成微博词向量表示,解决了微博向量表示维数爆炸和数据稀疏的问题,利用多窗口卷积操作,获取不同粒度的微博文本语义关系,使用门限循环网络,有效捕获和记忆微博上下文语义信息,多层卷积和池化组合从不同层次抽象微博文本语义表示,使用注意力机制网络,筛选出关注的重点语义信息,弥补循环神经网络语义表示偏向于最后或最前单词的问题,最后组合不同层次的情感特征向量表示,能够更加全面和多样的描述微博文本的情感语义特征,从而提高微博短文情感极性识别的性能。这是发明的重要发明点之另一。
情感识别是对输出向量y使用softmax函数计算微博T属于主观情感正面或负面类别的概率值,概率值最大的类别作为微博T的情感极性类别。计算微博属于主观正面或负面情感分类概率值:
Figure GDA0003922743640000151
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种微博短文本情感极性识别的方法,其特征在于,包括以下步骤:
抽取步骤,抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征tc
计算步骤,计算每一条微博T的先验极性特征值SenScore(t);
固定长度向量生成步骤,使用深度卷积神经网络生成微博T的固定长度向量y';固定长度向量生成步骤包括:
映射子步骤,使用GloVe模型,训练微博文本语料,获得词或单词的词向量表,计算获得每条微博T的分布式词向量表示t=[w1,w2,...,wn],其中微博中的每个词或单词w都被映射为一个向量;
特征向量生成子步骤,将分布式词向量表示t输入到深度卷积神经网络的卷积层,卷积层使用多个可变窗口大小h的卷积核,分别计算生成微博文本局部特征向量xi=f(W·ti:i+h-1+b),连接多个文本局部特征向量,组成微博文本上下文情感信息特征向量
Figure FDA0003922743630000011
其中f(W·ti:i+h-1+b)为一个阶跃函数,W为计算的网络权重,b是对应的偏执参数;
向量再生子步骤,将分布式词向量表示t分别输入到前向GRU网络和后向GRU网络中,分别计算获得前向GRU输出序列
Figure FDA0003922743630000012
和后向GRU输出序列
Figure FDA0003922743630000013
连接
Figure FDA0003922743630000014
Figure FDA0003922743630000015
生成新向量
Figure FDA0003922743630000016
全局特征生成子步骤,将微博上下文情感信息特征向量ct输入深度卷积神经网络的池化层,使用Top-K池化策略,生成固定长度向量,将局部语句特征整合为全局特征t′=kmax{ct};
高级特征向量生成子步骤,新向量hn输入注意力机制神经网络ANN的注意力机制层,计算微博文本中各词的上下文权重值,输出带权重表示更高抽象层次的特征向量表示v;
连接子步骤,连接向量t′和v,生成多层次文本语义向量
Figure FDA0003922743630000021
固定长度向量生成子步骤,将特征向量ot输入深度卷积神经网络的池化层,使用最大池化策略,生成固定长度向量y′=max{v,t′};
组成子步骤,将向量y′经过Flat转换为一阶向量y′d,连接微博先验极性特征向量SenScore(t)和上下文情感特征tc组成
Figure FDA0003922743630000022
识别步骤,基于所述微博上下文情感特征tc、先验极性特征值SenScore(t)和固定长度向量y′确定微博短文本的情感极性。
2.根据权利要求1所述的方法,其特征在于,对所述微博文本进行抽取之前还进行获取用户发表的微博文本,清洗所述微博文本,删除微博中非文本字符、超链接、数字、一般标点符号和特殊符号,并对中文微博进行分词处理。
3.根据权利要求1所述的方法,其特征在于,所述先验极性特征值
Figure FDA0003922743630000023
其中wi是微博中的词或单词项,n是微博T的长度,PMI(wi,pos)是词或单词项wi与正向情感分类的点互信息PMI,PMI(wi,neg)是词或单词项wi与负向情感分类的点互信息PMI,单词wi的情感值由情感字典获得。
4.根据权利要求1所述的方法,其特征在于,情感识别是对输出向量y使用softmax函数计算微博T属于主观情感正面或负面类别的概率值,概率值最大的类别作为微博T的情感极性类别。
5.一种微博短文本情感极性识别的装置,其特征在于,该装置包括:
抽取单元,用于抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征tc
计算单元,用于计算每一条微博T的先验极性特征值SenScore(t);
固定长度向量生成单元,用于使用深度卷积神经网络生成微博T的固定长度向量y′;固定长度向量生成单元包括:
映射子单元,使用GloVe模型,训练微博文本语料,获得词或单词的词向量表,计算获得每条微博T的分布式词向量表示t=[w1,w2,...,wn],其中微博中的每个词或单词w都被映射为一个向量;
特征向量生成子单元,将分布式词向量表示t输入到深度卷积神经网络的卷积层,卷积层使用多个可变窗口大小h的卷积核,分别计算生成微博文本局部特征向量xi=f(W·ti:i+h-1+b),连接多个文本局部特征向量,组成微博文本上下文情感信息特征向量
Figure FDA0003922743630000031
其中f(W·ti:i+h-1+b)为一个阶跃函数,W为计算的网络权重,b是对应的偏执参数;
向量再生子单元,将分布式词向量表示t分别输入到前向GRU网络和后向GRU网络中,分别计算获得前向GRU输出序列
Figure FDA0003922743630000032
和后向GRU输出序列
Figure FDA0003922743630000033
连接
Figure FDA0003922743630000034
Figure FDA0003922743630000041
生成新向量
Figure FDA0003922743630000042
全局特征生成子单元,将微博上下文情感信息特征向量ct输入深度卷积神经网络的池化层,使用Top-K池化策略,生成固定长度向量,将局部语句特征整合为全局特征t′=kmax{ct};
高级特征向量生成子单元,新向量hn输入注意力机制神经网络ANN的注意力机制层,计算微博文本中各词的上下文权重值,输出带权重表示更高抽象层次的特征向量表示v;
连接子单元,连接向量t′和v,生成多层次文本语义向量
Figure FDA0003922743630000043
固定长度向量生成子单元,将特征向量ot输入深度卷积神经网络的池化层,使用最大池化策略,生成固定长度向量y′=max{v,t′};
组成子单元,将向量y′经过Flat转换为一阶向量y′d,连接微博先验极性特征向量SenScore(t)和上下文情感特征tc组成
Figure FDA0003922743630000044
识别单元,基用于所述微博上下文情感特征tc、先验极性特征值SenScore(t)和固定长度向量y′确定微博短文本的情感极性。
6.根据权利要求5所述的装置,其特征在于,对所述微博文本进行抽取之前还进行获取用户发表的微博文本,清洗所述微博文本,删除微博中非文本字符、超链接、数字、一般标点符号和特殊符号,并对中文微博进行分词处理。
7.根据权利要求5所述的装置,其特征在于,所述先验极性特征值
Figure FDA0003922743630000045
其中wi是微博中的词或单词项,n是微博T的长度,PMI(wi,pos)是词或单词项wi与正向情感分类的点互信息PMI,PMI(wi,neg)是词或单词项wi与负向情感分类的点互信息PMI,单词wi的情感值由情感字典获得。
8.根据权利要求5所述的装置,其特征在于,情感识别是对输出向量y使用softmax函数计算微博T属于主观情感正面或负面类别的概率值,概率值最大的类别作为微博T的情感极性类别。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行权利要求1-4之任一所述的方法。
CN201811583268.7A 2018-12-24 2018-12-24 一种微博短文本情感极性识别的方法、装置及存储介质 Active CN109815485B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811583268.7A CN109815485B (zh) 2018-12-24 2018-12-24 一种微博短文本情感极性识别的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811583268.7A CN109815485B (zh) 2018-12-24 2018-12-24 一种微博短文本情感极性识别的方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN109815485A CN109815485A (zh) 2019-05-28
CN109815485B true CN109815485B (zh) 2023-01-24

Family

ID=66602300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811583268.7A Active CN109815485B (zh) 2018-12-24 2018-12-24 一种微博短文本情感极性识别的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109815485B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377740B (zh) * 2019-07-22 2022-05-20 腾讯科技(深圳)有限公司 情感极性分析方法、装置、电子设备及存储介质
CN111008274B (zh) * 2019-12-10 2021-04-06 昆明理工大学 特征扩展卷积神经网络的案件微博观点句识别构建方法
CN111324734B (zh) * 2020-02-17 2021-03-02 昆明理工大学 融合情绪知识的案件微博评论情绪分类方法
CN112037818A (zh) * 2020-08-30 2020-12-04 北京嘀嘀无限科技发展有限公司 异常情况确定方法和正向匹配式生成方法
CN112214601B (zh) * 2020-10-21 2022-06-10 厦门市美亚柏科信息股份有限公司 一种社交短文本情感分类方法、装置及存储介质
CN112214600B (zh) * 2020-10-21 2022-06-10 厦门市美亚柏科信息股份有限公司 一种聊天文本特征分类方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649730A (zh) * 2016-12-23 2017-05-10 中山大学 一种基于社交网络短文本流的用户聚类和短文本聚类方法
CN108519976A (zh) * 2018-04-04 2018-09-11 郑州大学 基于神经网络生成大规模情感词典的方法
CN108595440A (zh) * 2018-05-11 2018-09-28 厦门市美亚柏科信息股份有限公司 短文本内容分类方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083817A1 (en) * 2015-09-23 2017-03-23 Isentium, Llc Topic detection in a social media sentiment extraction system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649730A (zh) * 2016-12-23 2017-05-10 中山大学 一种基于社交网络短文本流的用户聚类和短文本聚类方法
CN108519976A (zh) * 2018-04-04 2018-09-11 郑州大学 基于神经网络生成大规模情感词典的方法
CN108595440A (zh) * 2018-05-11 2018-09-28 厦门市美亚柏科信息股份有限公司 短文本内容分类方法和系统

Also Published As

Publication number Publication date
CN109815485A (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
CN109815485B (zh) 一种微博短文本情感极性识别的方法、装置及存储介质
Kumar et al. Sentiment analysis of multimodal twitter data
CN111144131B (zh) 一种基于预训练语言模型的网络谣言检测方法
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN110019812B (zh) 一种用户自生产内容检测方法和系统
CN111079444A (zh) 一种基于多模态关系的网络谣言检测方法
WO2019000326A1 (en) GENERATION OF ANSWERS IN AN AUTOMATED ONLINE CONVERSATION SERVICE
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN108595440B (zh) 短文本内容分类方法和系统
CN111160452A (zh) 一种基于预训练语言模型的多模态网络谣言检测方法
CN112214601B (zh) 一种社交短文本情感分类方法、装置及存储介质
CN110033008A (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN112883153B (zh) 基于信息增强bert的关系分类方法及装置
Li et al. A Novel Machine Learning-based Sentiment Analysis Method for Chinese Social Media Considering Chinese Slang Lexicon and Emoticons.
US20230073602A1 (en) System of and method for automatically detecting sarcasm of a batch of text
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
CN112287240A (zh) 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
CN113761377B (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
CN111460146A (zh) 一种基于多特征融合的短文本分类方法及系统
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
Vitman et al. Sarcasm detection framework using context, emotion and sentiment features
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant