CN111522956A

CN111522956A - 基于双通道和层次化注意力网络的文本情感分类方法

Info

Publication number: CN111522956A
Application number: CN202010379544.9A
Authority: CN
Inventors: 李辉; 黄钰杰; 袁莉莉; 叶小涛; 周巧喜; 王飞翔
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2020-08-11

Abstract

本发明针对单一的神经网络模型结构简单，传统的注意力模型无法有效提取层次化的文本特征的问题，本文提出了基于双通道和层次化注意力网络的文本情感分类方法，首先，在一个通道上使用双向门限循环神经网络（Bidirectional Gated Recurrent Unit，BIGRU）提取序列化信息，并引入层次化注意力网络（Hierarchical Attention Network，HAN）学习序列层次化文本信息，其次，在另一通道中借助分解卷积神经网络（Convolutional Neural Network，CNN）获取局部文本特征，结合HAN学习深层次特征信息，最后，将两个通道进行融合，丰富特征向量，优化文本情感分类效果，提高模型的准确率，本发明所提方法在中文数据集上具有显著性和优越性。

Description

基于双通道和层次化注意力网络的文本情感分类方法

技术领域

本发明提出基于双通道和层次化注意力网络的文本情感分类方法，涉及文本情感分析领域。

背景技术

数量庞大的非结构化数据是互联网技术的崛起引发的产物，自然语言处理是利用互联网技术对这些数量庞大的非结构化数据进行分析和处理，并实现计算机和人类间无障碍的沟通，其主要处理领域包含情感分析、机器翻译、语音识别与智能问答等各个方面，而其中文本情感分析技术是分析并处理带有主观情感的文本数据，并挖掘其潜在的数据信息，从而得出文本的情感极性。

目前文本情感分析的方法主要包括情感词典算法和机器学习算法两种，其中，基于情感字典的方法是通过构建情感字典对词语或短语的情感倾向进行处理，并将不同的情感词根据情感强度的不同给定不同的权重值，通过组合计算文本判断其的情感极性，但是随着新兴词汇的大量出现，该方法的处理效果就不够理想，而常见的传统机器学习的方法是使用特定的方法将文本表示为特征向量的形式，通过调整参数进行模型训练，对文本情感倾向完成分析和预测，在完成情感分析任务时需要大量的数据特征，基于传统机器学习算法需要人工对这些种类繁多数量庞大的数据进行设计处理，当文本数据特征选择的不同时文本情感分析的结果也会有所不同，而且传统机器学习算法在处理的文本数据集种类增加时，会出现可移植性困难的情况。

为了克服传统机器学习和基于情感字典的方法算法的缺陷快速发展的不需要人工进行数据特征选择和设计的深度学习技术受到了众多研究者的喜爱，其主要想法是源于人工神经网络，该算法通过构造具有多个隐藏层的深度神经网络提取数据特征，然后将特征进行一定方式的组合，最终完成不同的任务需求，目前深度学习在机器翻译、视觉跟踪和文本情感分析等多个领域都取得了十分出色的成果。

本发明提出基于双通道和层次化注意力网络的文本情感分类方法，构建了一种基于层次化注意力(Hierarchical Attention Network，HAN)的双向门限循环神经网络(Bidirectional Gated Recurrent Unit，BIGRU)模型和分解卷积神经网络(Convolutional Neural Network，CNN)混合神经网络模型学习层次化文本信息，首先，对中文语料进行数据去噪、构建停用词表、利用jieba分词和过滤停用词等预处理处理，并使用Word2vec工具将词语转化为词序列，作为输入向量；然后，将经过Word2vec工具将词语转化的词向量作为输入数据，分别送入BIGRU-HAN模型特征提取通道和分解CNN-HAN模型特征提取通道中进行文本层次化特征提取；最后将两个通道进行融合，丰富特征向量，优化文本情感分类效果，提高模型的准确率，使用分类层对输出进行分类，该方法相较于一般证明提出模型比单一通道模型表现更出色，使用层次化注意力网络比传统的注意力网络效果更好，在数据集上进行实验对比其正确率达到92.08％。

发明内容

有鉴于此，本发明的主要目的在于将BIGRU模型和分解CNN模型的优势融合构建BIGRU和分解CNN复合模型，在加快模型训练速度的同时能够提高卷积神经网络的提取文本特征的能力，能较好地保留文本最初的语义和语序特征，并将HAN模型分别与BIGRU 和分解CNN进行结合，不同于传统的注意力机制，全面的考虑句子层面和词语层面的层次化特征信息，提取文本深层次特征向量，提高文本情感分析的正确率。

为了达到上述目的，本发明提出的技术方案为：

基于双通道和层次化注意力网络的文本情感分类方法，所述方法包括如下步骤：

步骤1、对中文预料进行预处理操作，使用Word2vec工具将词语转化为词序列，并将其作为输入向量；

步骤2、借助BIGRU-HAN模型特征提取通道分别对词向量层面和句子层面的层次化信息进行特征学习，得到多层次的特征向量M；

步骤3、利用分解CNN-HAN模型特征提取通道分别对词向量层面和句子层面的层次化信息进行特征学习，得到多层次的特征向量W；

步骤4、将BIGRU-HAN模型特征提取通道得到多层次的特征向量M和分解CNN-HAN模型特征提取通道得到多层次的特征向量W进行融合得到融合后的特征向量D，在分类层使用softmax函数对融合后的特征向量D进行文本分类。

综上所述，本发明基于双通道和层次化注意力网络的文本情感分类方法，将BIGRU模型和分解CNN模型的优势融合构建BIGRU和分解CNN复合模型，并将HAN模型分别与BIGRU和分解CNN进行结合，不同于传统的注意力机制，全面的考虑句子层面和词语层面的层次化特征信息，提取文本深层次特征向量，提高文本情感分析的正确率。

附图说明：

图1为本发明所述的基于双通道和层次化注意力网络的文本情感分类方法的总体流程示意图；

图2为使用Word2Vec模型训练词向量的流程示意图；

图3为使用BIGRU-HAN模型特征提取通道提取特征流程示意图；

图4为使用分解CNN-HAN模型特征提取通道提取特征流程示意图；

图5为使用Softmax分类层将融合后的特征进行分类并计算文本分类正确率的流程示意图；

图6为使用数据集所得到的准确率折线图结果。

具体实施方式：

下面将结合本发明的附图，对本发明的技术方案进行清楚、完整地描述，显然，所举实例用于解释说明，并非限定本发明的实施方式，本发明也可以通过其它不同的具体实施方式实施。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明所述的基于双通道和层次化注意力网络的文本情感分类方法的总体流程示意图，如图1所示，基于双通道和层次化注意力网络的文本情感分类方法，所述方法包括如下步骤:

图2为使用Word2Vec模型训练词向量的流程示意图，如图2所示，在步骤1中，对中文语料进行预处理，利使用Word2vec工具将词语转化为词序列，并将其作为输入向量，包括如下步骤：

步骤11、由于所用的文本数据杂乱，需要先对文本集进行去停用词和分词处理的预处理操作，提升词向量的质量，使用哈工大停用词表对文本进行去停用词操作，在预处理阶段将这些不具有特殊意义的词语过滤掉，减少了无关信息的干扰，使用Jieba分词的精确分词模式，依据特定的词典将中文文本按照阅读习惯进行准确的分词操作；

步骤12、借助Google公司开源的Word2vec工具中的Skip-gram词向量模型将词语转化为词序列，通过人工控制将文本转换为维度是128的矩阵向量，并对这些矩阵向量在向量空间的相似度进行运算，使得词语的语义信息得到了极大程度的反映，词向量矩阵的表示为：E＝[e₁,e₂,e₃,e₄...e_l]^T

步骤13、将经过Skip-gram词向量模型训练好的词向量E作为双通道的输入向量。

图3为使用BIGRU-HAN模型特征提取通道提取特征流程示意图，如图3所示，步骤2中，借助BIGRU-HAN模型特征提取通道分别对词向量层面和句子层面的层次化信息进行特征学习，得到多层次的特征向量，包括如下步骤：

步骤21、将转换过的词向量矩阵E输入到BIGRU-HAN模型特征提取通道进行特诊训练，利用第一层的GRU模型进行向量化的特征提取，获得文本的序列特征，提高网络的收敛性，得到第一层的GRU模型的输出特征向量h_t：

z_t＝σ(W_z·[h_t-1,E])

r_t＝σ(W_r·[h_t-1,E])

其中，E表示的是输入数据，h_t表示的是最终的输出，z_t表示的是更新门，r_t表示的是重置门，σ表示的是激活函数sigmoid，函数在[0,1]区间取值，tanh表示的是双曲正切函数，w_r、w_z和w分别表示的是隐藏层、重置门和更新门的权重矩阵，t表示的是当前时刻，t-1 表示的是前一时刻，h_t-1表示的是前一时刻的细胞隐藏状态；

步骤22、在步骤21的第一层的GRU模型后结合一个词语级别的层次化注意力层，目的就是获取文本中重要的词语和字，并得到词语级别的输出特征向量S_i：

u_ik＝tanh(W_wh_t+b_w)

其中，u_ik表示的是使用tanh函数将第一层GRU得到的特征向量h_t进行非线性变换；a_ik表示的是衡量句子i中第k个字或词重要性的注意力权重因子；W_w和b_w表示的是权重矩阵和偏置向量，u_w表示的是一个随机初始化的上下文向量；

步骤23、将步骤22中得到的S_i输入到第二层的GRU模型进行深度特征提取，得到一个句子隐层向量g_i：

z_t＝σ(W_z·[h_t-1,S_i])

r_t＝σ(W_r·[h_t-1,S_i])

其中，S_i表示的是输入数据，g_i表示的是最终的输出，z_t表示的是更新门，r_t表示的是重置门，σ表示的是激活函数sigmoid，函数在[0,1]区间取值，tanh表示的是双曲正切函数，w_r、w_z和w分别表示的是隐藏层、重置门和更新门的权重矩阵，t表示的是当前时刻，t-1 表示的是前一时刻，h_t-1表示的是前一时刻的细胞隐藏状态；

步骤24、在步骤23的第二层的GRU模型后结合一个句子级别层次化注意力层，目的就是获取文本中重要的句子特征，并得到最终的输出特征向量M：

u_ik＝tanh(W_wh_t+b_w)

其中，u_ik表示的是使用tanh函数将第二层GRU得到的特征向量g_i进行非线性变换；a_ik表示的是衡量句子i中第k个字或词重要性的注意力权重因子；W_w和b_w表示的是权重矩阵和偏置向量，u_w表示的是一个随机初始化的上下文向量。

图4为使用分解CNN-HAN模型特征提取通道提取特征流程示意图，如图4所示，步骤3中，利用分解CNN-HAN模型特征提取通道分别对词向量层面和句子层面的层次化信息进行特征学习，得到多层次的特征向量，包括如下步骤：

步骤31、将转换过的词向量矩阵E输入到分解CNN-HAN模型特征提取通道进行特诊训练，利用第一层的分解CNN模型进行全局化的特征提取，获得文本的特征信息，得到第一层的分解CNN模型的输出特征向量C_1i：

C_1i＝f(W·E+b)

其中，b∈R表示的是偏置向量，W为表示的是高度为h＝3，4，5，宽度为d＝128的卷积核，f表示的是非线性激活函数，采用ReLu函数作为激活函数；

步骤32、在步骤31的第一层的分解CNN模型后结合一个词语级别的层次化注意力层，目的是获取文本中重要的词语和字，并得到词语级别的输出特征向量k_i：

u_ik＝tanh(W_wC_1i+b_w)

其中，u_ik表示的是使用tanh函数将第一层分解CNN得到的特征向量C_i进行非线性变换；a_ik表示的是衡量句子i中第k个字或词重要性的注意力权重因子；W_w和b_w表示的是权重矩阵和偏置向量，u_w表示一个随机初始化的上下文向量；

步骤33、将步骤32中得到的k_i输入到第二层的分解CNN模型进行深度特征提取，得到一个句子隐层向量C_2i：

C_2i＝f(W·E+b)

步骤34、在步骤33的第二层的分解CNN模型后结合一个句子级别层次化注意力层，获取文本中重要的句子特征，并得到最终的输出特征向量W：

u_ik＝tanh(W_wC_1i+b_w)

其中，u_ik表示的是使用tanh函数将第二层分解CNN得到的特征向量C_2i进行非线性变换； a_ik表示的是衡量句子i中第k个字或词重要性的注意力权重因子；W_w和b_w表示的是权重矩阵和偏置向量，u_w表示的是随机初始化的上下文向量。

图5为使用Softmax分类层将融合后的特征进行分类并计算文本分类正确率的流程示意图，步骤4中，将BIGRU-HAN模型特征提取通道得到多层次的特征向量M和分解 CNN-HAN模型特征提取通道得到多层次的特征向量W进行融合，得到融合后的特征向量D，在分类层使用softmax函数对融合后的特征向量D进行文本分类，包括如下步骤：

步骤41、将BIGRU-HAN模型特征提取通道得到多层次的特征向量M和分解CNN-HAN模型特征提取通道得到多层次的特征向量W进行融合，得到融合后的特征向量D，输入到全连接层，得到输出特征：

D＝[W·M]

步骤42、采用Dropout策略，其主要思想是在模型训练时，随机地选择一部分将其从网络中暂时的丢弃，即这些神经单元暂时失活，不再参与参数的更新运算，设定Dropout率为0.5，每次迭代有一半的神经元不参与计算；

步骤43、将步骤41得到的特征D作为分类层的输入，使用softmax函数来计算每个文本分属不同类别的概率大小P，可以描述为以下公式：

其中，文本分为k＝2个类别，w_k和b_k是该层的权重和偏置；

步骤44、进行文本类别判断，判为概率值p所属较大的类别，积极为1，消极为0，并与文本标签进行对比计算，得到文本正确率。

实施例：

本实例采用从互联网采集的真实中文评论(京东商品评论)，使用基于双通道和层次化注意力网络的文本情感分类方法对文本情感进行分析，具体步骤如下所示：

1.对文本数据集进行数据预处理操作，使用结巴分词对词语进行精准的分词处理，使用哈工大停用词表对文本中的不具有特殊意义的词语过滤掉，完成去停用词操作，并将文本赋予标签，积极为1，消极为0；

2.将文本表示为特征向量化形式，使用Word2vec工具将词语转化为词序列，将词向量维度都设置为128，将句子定长为60，得到60×128的词向量矩阵；

3.借助BIGRU-HAN模型特征提取通道分别对词向量层面和句子层面的层次化信息进行特征学习，得到多层次的特征向量，其中，BiGRU网络的隐层神经元个数设置为128；

4.利用分解CNN-HAN模型特征提取通道分别对词向量层面和句子层面的层次化信息进行特征学习，得到多层次的特征向量，其中，分解CNN的卷积核大小设置为3，4，5，个数设置到128，Dropout率设定为0.5，防止过拟合情况出现；

5.将两个通道所得到的特征接入全连接层进行合并，最终输入到分类层进行分类，得到如图6所示的正确率结果，其中横轴代表实验迭代次数，纵轴代表正确率，其中标记为加号的代表GA-BGA模型，标记为五角星的代表HAN-BIGRU模型，标记为正三角形的代表ATT-BIGRU-CNN模型，标记为圆圈的代表分解CNN-HAN模型，标记六边形代表的是本本发明的方法所构建的模型，其正确率在数据集上最高达到92.8％。

Claims

1.基于双通道和层次化注意力网络的文本情感分类方法，其特征在于，所述文本情感分析方法包括以下步骤:

2.根据权利要求1所述的基于双通道和层次化注意力网络的文本情感分类方法，其特征在于，步骤1中，对中文数据集进行预处理，利使用Word2vec工具将词语转化为词序列，并将其作为输入向量，包括如下步骤：

步骤12、借助Google公司开源的Word2vec工具中的Skip-gram词向量模型将词语转化为词序列，通过人工控制将文本转换为维度是128的矩阵向量，并对这些矩阵向量在向量空间的相似度进行运算，使得词语的语义信息得到了极大程度的反映，词向量矩阵的表示为：

E＝[e₁,e₂,e₃,e₄...e_l]^T

3.根据权利要求1所述的基于双通道和层次化注意力网络的文本情感分类方法，其特征在于，步骤2中，借助BIGRU-HAN模型特征提取通道分别对词向量层面和句子层面的层次化信息进行特征学习，得到多层次的特征向量，包括如下步骤：

z_t＝σ(W_z·[h_t-1,E])

r_t＝σ(W_r·[h_t-1,E])

其中，E表示的是输入数据，h_t表示的是最终的输出，z_t表示的是更新门，r_t表示的是重置门，σ表示的是激活函数sigmoid，函数在[0,1]区间取值，tanh表示的是双曲正切函数，w_r、w_z和w分别表示的是隐藏层、重置门和更新门的权重矩阵，t表示的是当前时刻，t-1表示的是前一时刻，h_t-1表示的是前一时刻的细胞隐藏状态；

步骤22、在步骤21的第一层的GRU模型后结合一个词语级别的层次化注意力层，目的就是获取文本中重要的词语和字，得到词语级别的输出特征向量S_i：

u_ik＝tanh(W_wh_t+b_w)

z_t＝σ(W_z·[h_t-1,S_i])

r_t＝σ(W_r·[h_t-1,S_i])

其中，S_i表示的是输入数据，g_i表示的是最终的输出，z_t表示的是更新门，r_t表示的是重置门，σ表示的是激活函数sigmoid，函数在[0,1]区间取值，tanh表示的是双曲正切函数，w_r、w_z和w分别表示的是隐藏层、重置门和更新门的权重矩阵，t表示的是当前时刻，t-1表示的是前一时刻，h_t-1表示的是前一时刻的细胞隐藏状态；

u_ik＝tanh(W_wh_t+b_w)

其中，u_ik表示的是使用tanh函数将第二层GRU得到的特征向量gi进行非线性变换；a_ik表示的是衡量句子i中第k个字或词重要性的注意力权重因子；W_w和b_w表示的是权重矩阵和偏置向量，u_w表示的是一个随机初始化的上下文向量。

4.根据权利要求1所述的基于双通道和层次化注意力网络的文本情感分类方法，其特征在于，步骤3中，利用分解CNN-HAN模型特征提取通道分别对词向量层面和句子层面的层次化信息进行特征学习，得到多层次的特征向量，包括如下步骤：

C_1i＝f(W·E+b)

步骤32、在步骤31的第一层的分解CNN模型后结合一个词语级别的层次化注意力层，目的就是获取文本中重要的词语和字，并得到词语级别的输出特征向量k_i：

u_ik＝tanh(W_wC_1i+b_w)

C_2i＝f(W·E+b)

u_ik＝tanh(W_wC_1i+b_w)

其中，u_ik表示的是使用tanh函数将第二层分解CNN得到的特征向量C_2i进行非线性变换；

a_ik表示的是衡量句子i中第k个字或词重要性的注意力权重因子；W_w和b_w表示的是权重矩阵和偏置向量，u_w表示的是一个随机初始化的上下文向量。

5.根据权利要求1所述的基于双通道和层次化注意力网络的文本情感分类方法，其特征在于，步骤4中，将BIGRU-HAN模型特征提取通道得到多层次的特征向量M和分解CNN-HAN模型特征提取通道得到多层次的特征向量W进行融合，得到融合后的特征向量D，在分类层使用softmax函数对融合后的特征向量D进行文本分类，包括如下步骤：

D＝[W·M]

步骤42、采用Dropout策略，其主要思想是在模型训练时，随机地选择一部分将其从网络中暂时的丢弃，即这些神经单元暂时失活，不再参与参数的更新运算，设定Dropout率为0.5；

其中，文本分为k＝2个类别，w_k和b_k是该层的权重和偏置；