CN109815485B

CN109815485B - 一种微博短文本情感极性识别的方法、装置及存储介质

Info

Publication number: CN109815485B
Application number: CN201811583268.7A
Authority: CN
Inventors: 赵建强; 黄剑; 张辉极
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2023-01-24
Anticipated expiration: 2038-12-24
Also published as: CN109815485A

Abstract

本发明提供了一种微博短文本情感极性识别的方法、装置及存储介质。该方法包括：抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征t_c；计算每一条微博T的先验极性特征值SenScore(t)；使用深度卷积神经网络生成微博T的固定长度向量y′；基于所述微博上下文情感特征t_c、先验极性特征值SenScore(t)和固定长度向量y′确定微博短文本的情感极性。本发明解决了微博向量表示维数爆炸和数据稀疏的问题，组合了不同层次的情感特征向量表示，能够更加全面和多样的描述微博文本的情感语义特征，从而提高微博短文情感极性识别的性能。

Description

一种微博短文本情感极性识别的方法、装置及存储介质

技术领域

本发明涉及自然语言处理技术领域，特别是一种微博短文本情感极性识别的方法、装置及存储介质。

背景技术

以微博为代表的新兴社交媒体已经成为广大网络用户获取新闻资讯、社会交往、自我表达、分享观点、传播信息和社会参与的重要媒介，成为社会公共舆论、企业品牌和产品推广以及传统媒体传播的主要平台。数以亿计的活跃用户来自不同的社会文化背景，遍布全球，每时每刻都在生成大量包含用户主观意见、情感的信息。这些文本信息包含着网民各种情绪、情感色彩和观点倾向。潜在用户通过阅读这些具有主观色彩的信息来了解大众舆论对于某一事件或产品的看法。针对特定应用需求，识别、分析和挖掘微博中所包含的有价值的用户情感、态度和意见信息，是当前互联网智能信息处理、数据挖掘、计算语言学等领域的一个热点研究问题。

微博文本短小、语法结构不完整、而且表述随意和充斥噪声，使得微博文本情感极性识别面临更大的挑战。已有分类研究主要采用人工方式构建分类特征，分类特征多使用词袋模型，难以刻画词序信息并面临维数灾难和数据稀疏的问题，使得微博文本情感倾向判断速度慢，不适合对微博情况的快速分析。另外，微博文本经常出现“明褒暗贬”或隐式的表述方式，而人工构建特征的方式难以发现和描述这类隐含的语义关系。

发明内容

本发明针对上述现有技术中的缺陷，提出了如下技术方案。

一种微博短文本情感极性识别的方法，包括以下步骤：

抽取步骤，抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征t_c；

计算步骤，计算每一条微博T的先验极性特征值SenScore(t)；

固定长度向量生成步骤，使用深度卷积神经网络生成微博T的固定长度向量y′；

识别步骤，基于所述微博上下文情感特征t_c、先验极性特征值SenScore(t)和固定长度向量y′确定微博短文本的情感极性。

更进一步地，对所述微博文本进行抽取之前还进行获取用户发表的微博文本，清洗所述微博文本，删除微博中非文本字符、超链接、数字、一般标点符号和特殊符号，并对中文微博进行分词处理。

更进一步地，所述先验极性特征值

其中w_i是微博中的词或单词项，n是微博T的长度，PMI(w_i，pos)是词或单词项w_i与正向情感分类的点互信息PMI，PMI(w_i，neg)是词或单词项w_i与负向情感分类的点互信息PMI，单词w_i的情感值由情感字典获得。

更进一步地，固定长度向量生成步骤包括：

映射子步骤，使用GloVe模型，训练微博文本语料，获得词或单词的词向量表，计算获得每条微博T的分布式词向量表示t＝[w₁，w₂，...，w_n]，其中微博中的每个词或单词w都被映射为一个向量；

特征向量生成子步骤，将分布式词向量表示t输入到深度卷积神经网络的卷积层，卷积层使用多个可变窗口大小h的卷积核，分别计算生成微博文本局部特征向量x_i＝f(W·t_i：i+h-1+b)，连接多个文本局部特征向量，组成微博文本上下文情感信息特征向量

其中f(W·t_i：i+h-1+b)为一个阶跃函数，W为计算的网络权重，b是对应的偏执参数；

向量再生子步骤，将分布式词向量表示t分别输入到前向GRU网络和后向GRU网络中，分别计算获得前向GRU输出序列

和后向GRU输出序列

连接

和

生成新向量

全局特征生成子步骤，将微博上下文情感信息特征向量c_t输入深度卷积神经网络的池化层，使用Top-K池化策略，生成固定长度向量，将局部语句特征整合为全局特征t′＝kmax{c_t}；

高级特征向量生成子步骤，新向量h_n输入注意力机制神经网络ANN的注意力机制层，计算微博文本中各词的上下文权重值，输出带权重表示更高抽象层次的特征向量表示v；

连接子步骤，连接向量t′和v，生成多层次文本语义向量

固定长度向量生成子步骤，将特征向量o_t输入深度卷积神经网络的池化层，使用最大池化策略，生成固定长度向量y′＝max{v，t′}；

组成子步骤，将向量y′经过Flat转换为一阶向量y′_d，连接微博先验极性特征向量SenScore(t)和上下文情感特征t_c组成

更进一步地，情感识别是对输出向量y使用softmax函数计算微博T属于主观情感正面或负面类别的概率值，概率值最大的类别作为微博T的情感极性类别。

本发明还提出了一种微博短文本情感极性识别的装置，该装置包括：

抽取单元，用于抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征t_c；

计算单元，用于计算每一条微博T的先验极性特征值SenScore(t)；

固定长度向量生成单元，用于使用深度卷积神经网络生成微博T的固定长度向量y′；

识别单元，基用于于所述微博上下文情感特征t_c、先验极性特征值SenScore(t)和固定长度向量y′确定微博短文本的情感极性。

更进一步地，所述先验极性特征值

更进一步地，固定长度向量生成单元包括：

映射子单元，使用GloVe模型，训练微博文本语料，获得词或单词的词向量表，计算获得每条微博T的分布式词向量表示t＝[w₁，w₂，...，w_n]，其中微博中的每个词或单词w都被映射为一个向量；

特征向量生成子单元，将分布式词向量表示t输入到深度卷积神经网络的卷积层，卷积层使用多个可变窗口大小h的卷积核，分别计算生成微博文本局部特征向量x_i＝f(W·t_i：i+h-1+b)，连接多个文本局部特征向量，组成微博文本上下文情感信息特征向量

向量再生子单元，将分布式词向量表示t分别输入到前向GRU网络和后向GRU网络中，分别计算获得前向GRU输出序列

和后向GRU输出序列

连接

和

生成新向量

全局特征生成子单元，将微博上下文情感信息特征向量c_t输入深度卷积神经网络的池化层，使用Top-K池化策略，生成固定长度向量，将局部语句特征整合为全局特征t′＝kmax{c_t}；

高级特征向量生成子单元，新向量h_n输入注意力机制神经网络ANN的注意力机制层，计算微博文本中各词的上下文权重值，输出带权重表示更高抽象层次的特征向量表示v；

连接子单元，连接向量t′和v，生成多层次文本语义向量

固定长度向量生成子单元，将特征向量o_t输入深度卷积神经网络的池化层，使用最大池化策略，生成固定长度向量y′＝max{v，t′}；

组成子单元，将向量y′经过Flat转换为一阶向量y′_d，连接微博先验极性特征向量SenScore(t)和上下文情感特征t_c组成

本发明还提出了一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果为：本发明所述的微博短文本情感极性识别方法在自动分析和挖掘微博文本的观点倾向时，先获取用户微博文本，再抽取计算微博文本上下文情感特征值和先验极性情感特征值，使用GloVe模型训练生成微博词向量表示，解决了微博向量表示维数爆炸和数据稀疏的问题，利用多窗口卷积操作，获取不同粒度的微博文本语义关系，使用门限循环网络，有效捕获和记忆微博上下文语义信息，多层卷积和池化组合从不同层次抽象微博文本语义表示，使用注意力机制网络，筛选出关注的重点语义信息，弥补循环神经网络语义表示偏向于最后或最前单词的问题，最后组合不同层次的情感特征向量表示，能够更加全面和多样的描述微博文本的情感语义特征，从而提高微博短文情感极性识别的性能。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种微博短文本情感极性识别的方法的流程图。

图2是根据本发明的所使用的分类网络结构示意图。

图3是根据本发明的实施例的固定长度向量生成方法的流程图。

图4是根据本发明的实施例的一种微博短文本情感极性识别的装置的结构图。

图5是根据本发明的实施例的固定长度向量生成单元的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了一种微博短文本情感极性识别的方法，包括以下步骤：

抽取步骤S101，抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征t_c。

在对微博文本进行抽取操作之前，可以使用编写好的用于获取微博文本的程序，通过官方提供的API接口获取真实的微博文本内容；然后清洗微博文本内容，一般包括删除微博中非文本字符信息、超链接、数字、一般标点符号和特殊符号等内容；这是因为微博内容由于表达形式多样，包含大量特殊符号、超链接和非文本字符以及不包含情感特征的内容，再进一步对文本进行处理前，删除这些信息，降低文本处理的词汇表空间，减少数据噪声信息。对中文微博进行分词操作。

微博中的表情符号是一种显式的情感表达形式，利用表情符号表，转换表情符号为对应的情感值。英文微博文本中大写方式的单词是一种突出强调的表现，统计微博中大写单词数量作为情感特征的一项。微博中标点符号的重复是一种情绪或态度的突出强调，抽取这种重复标点符号的出现作为情感特征项。

计算步骤S102，计算每一条微博T的先验极性特征值SenScore(t)。

在计算步骤S102中，所述先验极性特征值

微博观点倾向的表达体现在显式的微博词语的情感倾向和隐含在词语之间的语义关系中。计算微博词语所具有的情感特征值，作为显式情感倾向表达的特征。即本发明的方法中先计算一个先验极性特征值SenScore(t)，后续进行情感识别时考虑该因子，这是本发明的重要发明点之一。

固定长度向量生成步骤S103，使用深度卷积神经网络生成微博T的固定长度向量y′。

识别步骤S104，基于所述微博上下文情感特征t_c、先验极性特征值SenScore(t)和固定长度向量y′确定微博短文本的情感极性。

为了解决微博文本情况识别中面临维数灾难和数据稀疏的问题，使得微博文本情感倾向判断速度慢的技术问题，本发明采用固定长度向量以提高计算速度，本发明采用的分类网络的结构如图2所示，下面的介绍请结合图2及图3进行，所述固定长度向量生成步骤S103包括：

映射子步骤S301，使用GloVe模型，训练微博文本语料，获得词或单词的词向量表，计算获得每条微博T的分布式词向量表示t＝[w₁，w₂，...，w_n]，其中微博中的每个词或单词w都被映射为一个向量。

使用GloVe模型，训练微博文本语料，获得微博单词的词向量表L∈R^k×|V|(k是词向量的维度，V是语料库的规模)。计算获得每条微博t的分布式词向量表示t＝[w₁，w₂，...，w_n]，其中每个单词w都被映射为一个向量w_i∈R^k。GloVe模型在“Pennington J，Socher R，Manning CD.GloVe：Global Vectors for Word Representation.”给出了定义和计算方法。

特征向量生成子步骤S302，将分布式词向量表示t输入到深度卷积神经网络的卷积层，卷积层使用多个可变窗口大小h的卷积核，分别计算生成微博文本局部特征向量x_i＝f(W·t_i：i+h-1+b)，连接多个文本局部特征向量，组成微博文本上下文情感信息特征向量

其中f(W·t_i：i+h-1+b)为一个阶跃函数，W为计算的网络权重，b是对应的偏执参数。

向量再生子步骤S303，将分布式词向量表示t分别输入到前向GRU网络和后向GRU网络中，分别计算获得前向GRU输出序列

和后向GRU输出序列

连接

和

生成新向量

GRU(Long Gated Recurrent Unit，门限循环单元网络)网络在“Kyunghyun ChoBvM，Dzmitry Bahdanau，Yoshua Bengio.On the Properties of Neural MachineTranslation：Encoder-DecoderApproaches[J].arXiv：14091259”中提出并给出了网络结构定义。

全局特征生成子步骤S304，将微博上下文情感信息特征向量c_t输入深度卷积神经网络的池化层，使用Top-K池化策略，生成固定长度向量，将局部语句特征整合为全局特征t′＝k max{c_t}。

高级特征向量生成子步骤S305，新向量h_n输入注意力机制神经网络ANN的注意力机制层，计算微博文本中各词的上下文权重值，输出带权重表示更高抽象层次的特征向量表示v。

ANN(Attention in Neural Networks)网络在“Itti L，Koch C，Niebur E.Amodel of saliency-based visual attention for rapid scene analysis.IEEETransactions on Pattern Analysis&Machine Intelligence，11：1254-1259”提出。

连接子步骤S306，连接向量t′和v，生成多层次文本语义向量

固定长度向量生成子步骤S307，将特征向量o_t输入深度卷积神经网络的池化层，使用最大池化策略，生成固定长度向量y′＝max{v，t′}；

组成子步骤S308，将向量y′经过Flat转换为一阶向量y′_d，连接微博先验极性特征向量SenScore(t)和上下文情感特征tc组成

在固定长度向量生成步骤S103中，使用GloVe模型训练生成微博词向量表示，解决了微博向量表示维数爆炸和数据稀疏的问题，利用多窗口卷积操作，获取不同粒度的微博文本语义关系，使用门限循环网络，有效捕获和记忆微博上下文语义信息，多层卷积和池化组合从不同层次抽象微博文本语义表示，使用注意力机制网络，筛选出关注的重点语义信息，弥补循环神经网络语义表示偏向于最后或最前单词的问题，最后组合不同层次的情感特征向量表示，能够更加全面和多样的描述微博文本的情感语义特征，从而提高微博短文情感极性识别的性能。这是发明的重要发明点之另一。

情感识别是对输出向量y使用softmax函数计算微博T属于主观情感正面或负面类别的概率值，概率值最大的类别作为微博T的情感极性类别。计算微博属于主观正面或负面情感分类概率值：

进一步参考图4，作为对上述图1所示装置的实现，本申请提供了一种微博短文本情感极性识别的装置的一个实施例，该装置实施例与图1所示的装置实施例相对应，该装置具体可以包含于各种电子设备中。

图4示出了本发明的一种微博短文本情感极性识别的装置，包括：

抽取单元401，抽取微博文本中的表情符号、重复标点符号和英文大写单词数量作为微博上下文情感特征t_c。

计算单元402，计算每一条微博T的先验极性特征值SenScore(t)。

在计算单元402中，所述先验极性特征值

固定长度向量生成单元403，使用深度卷积神经网络生成微博T的固定长度向量y′。

识别单元404，基于所述微博上下文情感特征t_c、先验极性特征值SenScore(t)和固定长度向量y′确定微博短文本的情感极性。

为了解决微博文本情况识别中面临维数灾难和数据稀疏的问题，使得微博文本情感倾向判断速度慢的技术问题，本发明采用固定长度向量以提高计算速度，本发明采用的分类网络的结构如图2所示，下面的介绍请结合图2及图5进行，所述固定长度向量生成单元403包括：

映射子单元501，使用GloVe模型，训练微博文本语料，获得词或单词的词向量表，计算获得每条微博T的分布式词向量表示t＝[w₁，w₂，...，w_n]，其中微博中的每个词或单词w都被映射为一个向量。

特征向量生成子单元502，将分布式词向量表示t输入到深度卷积神经网络的卷积层，卷积层使用多个可变窗口大小h的卷积核，分别计算生成微博文本局部特征向量x_i＝f(W·t_i：i+h-1+b)，连接多个文本局部特征向量，组成微博文本上下文情感信息特征向量

向量再生子单元503，将分布式词向量表示t分别输入到前向GRU网络和后向GRU网络中，分别计算获得前向GRU输出序列

和后向GRU输出序列

连接

和

生成新向量

全局特征生成子单元504，将微博上下文情感信息特征向量c_t输入深度卷积神经网络的池化层，使用Top-K池化策略，生成固定长度向量，将局部语句特征整合为全局特征t′＝k max{c_t}。

高级特征向量生成子单元505，新向量h_n输入注意力机制神经网络ANN的注意力机制层，计算微博文本中各词的上下文权重值，输出带权重表示更高抽象层次的特征向量表示v。

ANN(AttentioninNeuralNetworks)网络在“Itti L，Koch C，NieburE.Amodel ofsaliency-based visual attention for rapid scene analysis.IEEE Transactions onPatternAnalysis&Machine Intelligence，11:1254-1259”提出。

连接子单元506，连接向量t′和v，生成多层次文本语义向量

固定长度向量生成子单元507，将特征向量o_t输入深度卷积神经网络的池化层，使用最大池化策略，生成固定长度向量y′＝max{v，t′}；

组成子单元508，将向量y′经过Flat转换为一阶向量y′_d，连接微博先验极性特征向量SenScore(t)和上下文情感特征t_c组成

在固定长度向量生成单元403中，使用GloVe模型训练生成微博词向量表示，解决了微博向量表示维数爆炸和数据稀疏的问题，利用多窗口卷积操作，获取不同粒度的微博文本语义关系，使用门限循环网络，有效捕获和记忆微博上下文语义信息，多层卷积和池化组合从不同层次抽象微博文本语义表示，使用注意力机制网络，筛选出关注的重点语义信息，弥补循环神经网络语义表示偏向于最后或最前单词的问题，最后组合不同层次的情感特征向量表示，能够更加全面和多样的描述微博文本的情感语义特征，从而提高微博短文情感极性识别的性能。这是发明的重要发明点之另一。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。