CN113987120A

CN113987120A - 一种基于深度学习的舆情情感分类方法

Info

Publication number: CN113987120A
Application number: CN202111234291.7A
Authority: CN
Inventors: 陈济炉; 韩立新
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2022-01-28

Abstract

本发明公开了一种基于深度学习的舆情情感分类方法，运用XLNet+BiLSTM+Attention模型来进行情感分类，该方法主要包含以下步骤：数据预处理，对微博热点事件评论数据进行预处理；数据预训练，将数据放入XLNet模型，提取XLNet词向量表示；特征提取，将词向量输入BiLSTM模型中，获取文本上下文信息特征；Attention操作，运行Attention机制通过权重值提取更深层次特征向量；情感分类，运用softmax函数进行归一化，预测出该言论的情感倾向，本发明提出的模型，主要针对BERT模型训练和测试时数据有差异，微调不准确的问题，以及现在情感分类主要分为两类：积极和消极，情感判断较粗糙，XLNet+BiLSTM+Attention模型中训练和测试数据无差异，结果可以对文本分析富含的多种情感，并且有效提高情感预测的准确度。

Description

一种基于深度学习的舆情情感分类方法

技术领域

本发明涉及自然语言处理的情感分类领域和深度学习领域，具体来说是涉及一种基于深度学习的舆情情感分类方法。

背景技术

自然语言处理领域中情感分类问题，人们的研究方法由基于情感词典的舆情情感分析到基于机器学习的舆情情感分析。现在最为流行的是基于深度学习的舆情情感分析方法。深度学习方法节约了大量的人工时间，无须一个个进行特征提取操作。神经网络可以通过自动学习来主动提取特征向量。CNN、RNN、LSTM等神经网络算法是情感分类问题中常用的算法。但是这些神经网络方法在运用到获取情感分类方面的准确性还是不够高。有些在进行情感分类的同时，并不能够很好的考虑上下文之间的联系，以及权重的偏差。并且大部分的情感分类只是简单的判断情感倾向是积极或是消极，比较单一，没有考虑到文本中可能包含着多种情感色彩。因此有必要设计一种基于深度学习的情感分类方法，能够在这些方面取得很好的效果。

高质量的词向量表示是深度学习模型在情感分类领域取得突破的重要因素之一。2018年Google提出BERT模型后，在NLP领域刷新了许多任务的记录。BERT模型内部采用了双向Transformer架构，完全基于注意力机制，能够训练得出上下文相关的动态词向量，为后续的神经网络训练提供更加准确的词向量，提高模型的分类准确性。人们便大量研究将BERT模型运用到实验中，并且也获得较为理想的结果。但BERT模型中运用[MASK]掩盖词，该词可能存在特殊意义；其次训练时存在MASK符号，而测试时并没有MASK，导致微调会存在一些差异。于是，2019年Google提出了一种新型模型XLNet模型，很好的弥补了BERT模型的缺陷。XLNet模型利用随机打乱语句中词语次序，然后掩盖最后的词，再利用上下文进行预测，弥补了训练和测试时MASK差异的问题。

在词向量建模句子级别的语义特征时，句子和文档存在着序列结构。因此序列模型RNN被经常运用在分析情感分类问题上。但是RNN算法在反向传播时会出现梯度消失或者爆炸的问题。BiLSTM是RNN模型转化而来，很好的解决了这个问题。并且BiLSTM神经网络能够学习句子的长期依赖性，保留重要历史特征信息。能够有效的解决了RNN算法存在的长期依赖问题和上下文深层语义挖掘不充分的问题。将Attention机制与BiLSTM模型相结合，弥补BiLSTM均值化无差别的缺陷。

本发明提出的XLNet+BiLSTM+Attention模型能够很好的弥补BERT模型训练和测试时数据有差异的问题，并且其中的BiLSTM分析多种情感种类以弥补现在情感分类较为单一的问题。这种模型较好地提高了情感分析的全面性以及准确性。

发明内容

本发明的目的是为了提高情感分析的准确性，以及提高情感分析的全面性，提出了一种基于深度学习的情感分类方法。其中运用XLNet+BiLSTM+Attention模型来进行情感分类，有效的提高情感分类的准确性，并且分析多种情感种类，全面分析语句中包含的多种感情。

技术方案：一种基于深度学习的舆情情感分类方法，包括：

数据预处理，对爬虫到的微博热点评论数据进行预处理。对评论数据进行清理，去除其中的符号、URL以及数字，使用微博表情库中对应的表情中文代替表情符号；使用SentencePiece技术对中文评论数据进行分词，XLNet模型与Word2Vec模型不同，所需要的输入也不一样。一般使用Word2Vec模型的均使用jieba工具进行分词，得到中文词语序列，作为Word2Vec模型的输入。但XLNet模型使用的是SentencePiece技术来进行分词。SentencePiece技术不依赖以前的词语积累，仅仅通过当前训练集进行训练学习，并且不会因为语言不同而有不一样的结果，它将所有词语都看成unicode字符来处理；参照哈工大停用词表过滤停用词，删除常见且无意义的词语。

数据预训练，使用微博领域的数据集训练XLNet模型，预训练其参数；将预处理过的数据作为输入，加载进模型中提取词向量，获得词序列x₁,x₂,x₃......x_n。

特征提取，将词序列作为输入，通过BiLSTM神经网络获取特征表达式；BiLSTM模型保存了文本前后信息，增强了特征向量的前后关联性。该BiLSTM层中使用6个BiLSTM情感分类器，计算每种感情的特征向量。通过双向LSTM单元获得隐向量

和

和

的公式：

然后将两个隐向量进行拼接，形成特征向量h_t。

Attention操作，将运用BiLSTM模型得到的隐藏层向量进行Attetion操作，对句子中的不同特征分配权重，获取与用户情感倾向更加相关的信息。W_W,b_W是注意力模型的权重和偏置，h_t是BiLSTM层的输出，u_w也是权重，计算结果

表示文本中每个词的重要程度，V是经过注意力模型计算后得到的输出向量。具体计算公式是：

u_t＝tanh(W_wh_t+b_w) (2)

情感分类，利用加权后的特征进行舆情情感分类的训练，最终生成情感分类器，可以对未分类的舆情言论进行情感倾向判断。

本发明的有益效果具体表述如下：

(1)使用的分词技术SentencePiece，主要通过给定的数据集来进行学习，根据数据集中的规律对句子进行分词。其不依赖于以前的训练，有助于更高效的对文本进行分词，可以在一定程度上减少分词后的词量。并且对于不同语言不会有不一样的结果，可适用性很强。

(2)使用的XLNet模型，解决了BERT模型存在的训练-微调数据有差异的问题，更好的提高预训练的效果。

(3)使用的BiLSTM+Attention模型，更好的考虑了上下文之间的关系，以及对于情感相关的特征进行权重加持，增强了特征的有效性，提高情感分类的准确性。

(4)在BiLSTM层中使用了6个BiLSTM情感分类器，这样可以更加全面的训练出每个句子中包含的多样情感，使得情感更加全面。

附图说明

图1为本发明基于深度学习的舆情情感分类法流程图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

参见图1，该图中给出了本发明实施例的算法流程，包括以下步骤：

101、数据预处理：将在微博上爬虫得来的数据进行清洗，去除数据中的符号、URL标识符、数字等无关信息；使用SentencePiece技术对文本数据进行分词；参照哈工大停用词表去除数据中无实际意义的词语。并且依据6种情感(like，happiness，surprise，disgust，fear，sadness)构建数据集。

102、数据预训练：使用哈工大讯飞联合实验室发布的XLNet预训练模型，将数据预处理后的分词输入到模型中，得到句子的每个词向量。得到的结果词序列为x₁,x₂,x₃......x_n。

103、特征提取：将得到的词序列输入BiLSTM模型中。数据集中情感分类为6种，所以构建6个BiLSTM情感分类器，分别对应每一种情感。每个BiLSTM情感分类其中都存在两个不同方向的LSTM单元，通过LSTM单元获得隐向量

和

和

的公式：

然后将两个隐向量进行拼接，形成特征向量h_t。

104、Attention操作：将BiLSTM层中每个BiLSTM情感分类器得到的特征向量h_t均输入Attention层。Attention模型分别对每个进行权重计算。然后得出6个情感的权重特征向量W_W,b_W是注意力模型的权重和偏置，h_t是BiLSTM层的输出，u_w也是权重，计算结果

u_t＝tanh(W_wh_t+b_w) (2)

105、情感分类：将Attention层得到的特征向量V_i作为softmax层的输入，计算每种情感类别的概率。其中，V_i是Attention层的输出，C是总类别个数，S_i是当前元素与所有元素的比值。具体计算公式是：

Claims

1.一种基于深度学习的舆情情感分类方法，其特征在于，运用XLNet+BiLSTM+Attention模型来进行情感分类，所述XLNet+BiLSTM+Attention模型包括：词嵌入层、BiLSTM层、Attention层、softmax分类层；词嵌入层是使用XLNet实现将文本数据转化低频词向量；BiLSTM层是使用6个BiLSTM单元，对词向量进行结合上下文的情感特征提取，分别提取6种情感的特征；Attention层是使用Attention机制分别对六种情感进行权重特征向量，强化更加重要的信息；softmax分类层是将情感分类结果归一化，准确明了得出文本语句中包含的六种情感的概率；

所述方法包含以下步骤：

步骤1：数据预处理，对爬虫爬取的微博热点言论文本进行清理，使用SentencePiece技术对中文数据进行分词；参考哈工大停用词表过滤停用词，删除常见的、无意义的词语；

步骤2：数据预训练，将分词输入XLNet模型中，使用XLNet模型作为词嵌入层，获取词序列x₁,x₂,x₃......x_n；

步骤3：特征提取，对步骤2训练得到的词序列作为BiLSTM模型的输入，根据双向LSTM单元获取隐向量

和

和

的公式：

然后将两个隐向量进行拼接，形成特征向量h_t；

步骤4：Attention操作，对步骤3提取的特征向量h_t，进行Attention权重加值，提取更加有实际意义的特征向量，W_W,b_W是注意力模型的权重和偏置，h_t是BiLSTM层的输出，u_w也是权重，计算结果

表示文本中每个词的重要程度，V是经过注意力模型计算后得到的输出向量，具体计算公式是：

u_t＝tanh(W_wh_t+b_w) (2)

步骤5：情感分类，利用步骤4加权后的特征向量进行情感分类，将向量输入到softmax函数中，进行最终言论的情感分类预测。

2.根据权利要求1所述的一种基于深度学习的舆情情感分类方法法，其特征在于，所述步骤2中的预训练模型，主要利用BERT模型对数据进行预训练，提取词向量。

3.根据权利要求1所述的一种基于深度学习的舆情情感分类方法，其特征在于，所述步骤3中的特征提取方式，对预训练得到的词向量使用BiLSTM神经网络提取上下文信息，获取特征向量，该BiLSTM层中使用6个BiLSTM情感分类器，计算每种感情的特征向量，使得句子的情感更加全面。

4.根据权利要求1所述的一种基于深度学习的舆情情感分类方法，其特征在于，所述步骤4中的Attention操作方法，采用Attention机制对特征向量进行权重加值，提高与情感分类相关的特征的权重，获取更加有实际意义的特征向量。