CN111368086A

CN111368086A - 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法

Info

Publication number: CN111368086A
Application number: CN202010184896.9A
Authority: CN
Inventors: 黄彪; 李涛
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-03

Abstract

本发明公开了一种基于CNN‑BiLSTM+attention模型的涉案新闻观点句情感分类方法，所述模型包括：词嵌入层、卷积层、池化层、BiLSTM层、Attention注意力层、Softmax分类层；所述方法包括以下步骤：步骤1：对案件相关新闻的观点句进行预处理，然后将所有词通过词嵌入层编码为词向量；步骤2：将步骤1得到的词向量输入到卷积层，进行卷积操作；步骤3：将卷积后得到的特征向量输入到池化层进行最大池化操作；步骤4：将最大池化后得到的特征向量输入到BiLSTM层；步骤5：将BiLSTM层得到的每个隐藏状态向量进行Attention操作；步骤6：将Attention操作得到的输出通过softmax分类层进行分类，得到目标情感类别概率。本发明可以有效的解决复杂的特征工程和多余手工工作，可以在很大程度上减少工作量和复杂度。

Description

一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法

技术领域

本发明涉及自然语言处理和深度学习技术领域，特别涉及一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法。

背景技术

涉案新闻观点句的情感分类任务可以看作是句子级的情感分类，而情感分类的方法在以前主要有基于词典和基于机器学习。基于词典的方法一般有个情感词典，将词典中有情感倾向的词通过与句子中的词进行匹配，然后设计规则对整个句子进行情感倾向分析；基于机器学习的方法通常使用分类模型对句子进行情感分类，先从数据集中抽取文本特征，再通过这些特征和标注信息训练一个机器学习分类器，最后将训练好的分类器对句子的情感倾向进行判断。随着深度学习的发展，越来越多的人用神经网络模型去解决问题。

深度学习现在越来越多的应用到自然语言处理NLP任务中，并且取得很好的效果；基于神经网络进行涉案新闻观点句的情感分类时，不用人工做大量的特征提取，也不用加入额外的特征，神经网络可以自动化的提取重要特征；在情感分类方面的研究可以分为，一、基于单模型+特征，比如基于卷积神经网络来对评论进行情感倾向性分析,基于递归神经网络的,基于长短期记忆网络；二、现在的研究很多是基于混合模型+特征，比如将CNN和LSMT结合，即C-LSTM模型，基于双通道长短期记忆网络、卷进神经网络和依存树的BiLSTM+CNN+SPTree。

发明内容

本发明的目的是提供一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法，以解决基于规则和统计机器学习方法复杂的特征工程和人工工程的问题。

本发明的上述技术目的是通过以下技术方案得以实现的：

一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法，其特征在于：

所述CNN-BiLSTM+attention模型包括：词嵌入层、卷积层、池化层、BiLSTM层、Attention注意力层、Softmax分类层；

所述词嵌入层是用来将句子的词转成低维词向量，所述卷积层是用来自动化抽取词特征，所述池化层是用来降低特征向量维度，所述BiLSTM层是用来记忆长时依赖的序列化信息，所述Attention注意力层是用来权重矩阵强化重要的信息，所述Softmax分类层是用来分类得到概率最大的情感类别；

所述方法包括以下步骤：

步骤1：对案件相关新闻的观点句进行预处理，然后将所有词通过词嵌入层编码为词向量；

步骤2：将步骤1得到的词向量输入到卷积层，进行卷积操作，通过不同大小的卷积核来提取多种粒度的特征；

步骤3：将卷积后得到的特征向量输入到池化层进行最大池化操作，即进行特征向量降维，提取重要的特征；

步骤4：将最大池化后得到的特征向量输入到BiLSTM层，通过两个方向的LSTM单元获取句子中的语义信息；

步骤5：将BiLSTM层得到的每个隐藏状态向量进行Attention操作，“去伪存真”，专注于找到输入数据中显著的与当前输出相关的有用信息；

步骤6：将Attention操作得到的输出通过softmax分类层进行分类，得到目标情感类别概率，即观点句是积极情感或消极情感的概率。

其中，词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称，具体地，词嵌入工具可以使用bert模型，bert是由Google提出来的一种预训练模型，能够用于自然领域内的多种任务：文本分类、生成摘要、机器翻译等，同时也能用来生成词向量；bert模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏向量。

具体地，步骤3所述池化操作分为最大池化maxpooling和平均池化averagepooling，本发明选择的是maxpooing；其中，池化公式：mp_i＝max(s_i)，对于卷积后的特征，选取最大的特征作为池化输出。

进一步地，步骤1中所述预处理是指：将构建好的涉案新闻观点句数据集后通过jieba进行分词，通过numpy、pandas等工具去除无用符号、更改数据格式；通过谷歌提供的bert预训练模型得到每个词的词向量，建立词向量映射表。

进一步地，步骤2中，卷积层对词向量进行卷积，抽取高维特征，通过多个卷积核来抽取特征；所述卷积核为：f＝[f₁+f₂…f_n],则在卷积之后的特征为s＝[s₁+s₂+…s_l]；其中，

s_i＝g(∑f^T _k+1x^T _k+1+b)

g表示非线性激活函数，b是表示偏置项，使用不同的卷积核可以抽取到不同的特征。

进一步地，步骤3中所述最大池化操作就是将通过卷积得到的高维特征向量进行降维，提取重要特征。

进一步地，步骤4中所述BiLSTM层采用双向LSTM网络，对每个时间节点的隐藏状态输出作为注意力机制层的输入；

将池化后的特征经过一个非线性激活函数处理，将其处理后的特征表示为p＝[p₁,p₂…,p_j]，其中，j为卷积核的数量；

接下来，将p送入序列BiLSTM层，学习句子的长期依赖性，保留重要历史特征信息；BiLSTM由两个方向的LSTM组成，其中LSTM由三个门控单元和记忆单元组成，门可以实现选择性地让信息通过，主要是通过一个sigmoid的神经层和一个逐点相乘的操作来实现的；sigmoid层输出(是一个向量)的每个元素都是一个在0和1之间的实数，表示让对应信息通过的权重(或者占比)。比如，0表示“不让任何信息通过”1表示“让所有信息通过”；这三个门分别输入门、遗忘门和输出门。

其中，LSTM是为了解决长期以来问题而专门设计出来的，其关键在于LSTM细胞的状态，和穿过细胞的那条水平线，细胞状态类似于传送带，直接在整个链上运行，只有一些少量的线性交互，信息在上面流传保持不变会很容易；

若只有所述水平线是没办法实现添加或者删除信息的，而是通过一种叫做门(gates)的结构来实现的，门可以实现选择性地让信息通过，主要是通过一个sigmoid的神经层和一个逐点相乘的操作来实现的；遗忘门，在LSTM中的第一步是决定从细胞状态中丢弃什么信息；这个决定通过一个称为忘记门层完成，其中h_t-1表示的是上一个cell的输出，x_t表示的是当前细胞的输入，σ表示sigm od函数,公式如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

输入门，下一步是决定让多少新的信息加入到cell状态中来，实现这个需要包括两个步骤：首先，一个叫做“input gate layer”的sigmoid层决定哪些信息需要更新；一个tanh层生成一个向量，也就是备选的用来更新的内容，

在下一步，我们把这两部分联合起来，对cell的状态进行一个更新，公式如下：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

现在是更新旧细胞状态的时间了,C_t-1更新为C_t，公式如下：

输出门，最终，确定输出什么值，这个输出将会基于细胞状态，但是也是一个过滤后的版本；首先，运行一个sigmoid层来确定细胞状态的哪个部分将输出出去；接着，把细胞状态通过tanh进行处理(得到一个在-1到1之间的值)并将它和sigmoid门的输出相乘，最终仅仅会输出确定输出的那部分，公式如下：

o_t＝σ(Wo·[h_t-1,x_t]+bo)

h_t＝o_t*tanh(C_t)。

进一步地，步骤5的具体步骤包括：注意力机制减小处理高维输入数据的计算负担，通过结构化的选取输入的子集，降低数据维度；“去伪存真”，让任务处理系统更专注于找到输入数据中显著的与当前输出相关的有用信息，从而提高输出的质量；

矩阵H是由BiLSTM层输出的向量[h₁,h₂....h_t]组成：

M＝tanh(H)

α＝softmax(w^TM)

r＝Hα^T。

进一步地，步骤6中所述Softmax分类层最后求的是概率值；

具体地，假设有一个数组v，v_i表示V中的第i个元素，那么这个元素的Softmax值就是：

也就是说，是该元素的指数，与所有元素指数和的比值。

本发明具有以下有益效果：

其一、本发明采用了基于神经网络的系统，可以有效的解决复杂的特征工程和多余手工工作，可以在很大程度上减少工作量和复杂度；而且本发明还采用了混合模型和注意力机制来捕获句子最重要的语义信息，这个系统不会采用任何来源于词典资源或者NLP系统的特征；注意力机制可以在不用额外的知识库和NLP工具，自动地关注可以用来分类的词语，捕获重要的语义信息。

其二、本发明的CNN可以自动地抽取特征，BiLSTM可以考虑句中长时依赖关系；最后本发明在混合模型中加入了Attenion机制，突出重要特征，提高了分类效果。

附图说明

图1是本发明的方法流程图；

图2是本发明的CNN-BiLSTM+attention模型的示意图。

具体实施方式

下面将结合附图对本发明进行说明。

实施例：如图1-图2所示，一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法；

所述方法包括以下步骤：

假设一个句子S包含n个词，可以表示为，其中表示第i个词，n为最初设置好的句子截取长度；每个词通过查找词向量表D，得到对应的词向量表示，即D[]＝；本实施例中使用开源词向量工具(谷歌bert),而且使用的是谷歌预训练好的bert模型；

s_i＝g(∑f^T _k+1x^T _k+1+b)

接下来，将p送入序列BiLSTM层，学习句子的长期依赖性，保留重要历史特征信息；BiLSTM由两个方向的LSTM组成，其中LSTM由三个门控单元和记忆单元组成，门可以实现选择性地让信息通过，主要是通过一个sigmoid的神经层和一个逐点相乘的操作来实现的；sigmoid层输出(是一个向量)的每个元素都是一个在0和1之间的实数，表示让对应信息通过的权重(或者占比)。比如，0表示“不让任何信息通过”1表示“让所有信息通过”；这三个门分别输入门、遗忘门和输出门；LSTM执行操作的公式如下：

o_t＝σ(Wo·[h_t-1,x_t]+bo)

g_t＝tanh(W_g·x_t+U_g·h_t-1+b_g)

h_t＝o_t*tanh(C_t)

最后得到向量：[h₁,h₂....h_t]。

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

现在是更新旧细胞状态的时间了,C_t-1更新为C_t，公式如下：

o_t＝σ(Wo·[h_t-1,x_t]+bo)

h_t＝o_t*tanh(C_t)。

矩阵H是由BiLSTM层输出的向量[h₁,h₂....h_t]组成：

M＝tanh(H)

α＝softmax(w^TM)

r＝Hα^T。

进一步地，步骤6中所述Softmax分类层最后求的是概率值；将Attention层的输出r经过一个非线性激活函数得到向量V，然后将V送入Softmax分类层，得到目标分类输出；

假设有一个数组v，v_i表示V中的第i个元素，那么这个元素的Softmax值就是：

最后得到概率值最高的那一类情感。

上述实施例仅仅只是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

Claims

1.一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法，其特征在于：

所述方法包括以下步骤：

2.根据权利要求1所述的基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法，其特征在于：步骤1中所述预处理是指：将构建好的涉案新闻观点句数据集后通过jieba进行分词，通过numpy、pandas等工具去除无用符号、更改数据格式；通过谷歌提供的bert预训练模型得到每个词的词向量，建立词向量映射表。

3.根据权利要求1所述的基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法，其特征在于：步骤2中，卷积层对词向量进行卷积，抽取高维特征，通过多个卷积核来抽取特征；所述卷积核为：f＝[f₁+f₂…f_n],则在卷积之后的特征为s＝[s₁+s₂+…s_l]；其中，

s_i＝g(∑f^T _k+1x^T _k+1+b)

4.根据权利要求1所述的基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法，其特征在于：步骤3中所述最大池化操作就是将通过卷积得到的高维特征向量进行降维，提取重要特征。

5.根据权利要求1所述的基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法，其特征在于：步骤4中所述BiLSTM层采用双向LSTM网络，对每个时间节点的隐藏状态输出作为注意力机制层的输入；

若只有所述水平线是没办法实现添加或者删除信息的，而是通过一种叫做门(gates)的结构来实现的，门可以实现选择性地让信息通过，主要是通过一个sigmoid的神经层和一个逐点相乘的操作来实现的；遗忘门，在LSTM中的第一步是决定从细胞状态中丢弃什么信息；这个决定通过一个称为忘记门层完成，其中h_t-1表示的是上一个cell的输出，x_t表示的是当前细胞的输入，σ表示sigmod函数,公式如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

现在是更新旧细胞状态的时间了,C_t-1更新为C_t，公式如下：

o_t＝σ(Wo·[h_t-1,x_t]+bo)

h_t＝o_t*tanh(C_t)。

6.根据权利要求1所述的基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法，其特征在于，步骤5的具体步骤包括：注意力机制减小处理高维输入数据的计算负担，通过结构化的选取输入的子集，降低数据维度；“去伪存真”，让任务处理系统更专注于找到输入数据中显著的与当前输出相关的有用信息，从而提高输出的质量；

矩阵H是由BiLSTM层输出的向量[h₁,h₂....h_t]组成：

M＝tanh(H)

α＝softmax(w^TM)

r＝Hα^T。

7.根据权利要求1所述的基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法，其特征在于，步骤6中所述Softmax分类层最后求的是概率值；

也就是说，是该元素的指数，与所有元素指数和的比值。