CN113312483A

CN113312483A - 一种基于自注意力机制和BiGRU的文本分类方法

Info

Publication number: CN113312483A
Application number: CN202110613933.8A
Authority: CN
Inventors: 石磊; 王明宇; 高宇飞; 陶永才; 卫琳
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-08-27

Abstract

本发明适用于文本分类技术领域，提供了一种基于自注意力机制和BiGRU的文本分类方法，包括如下步骤：步骤S1：使用自注意力机制生成新的字嵌入作为文本表示；步骤S2：使用CNN提取文本局部特征；步骤S3：利用BiGRU获取文本上下文语义信息和长距离依赖关系；步骤S4：对CNN和BiGRU的输出进行融合；步骤S5：使用全连接层，结合Softmax函数获得文本分类结果；利用自注意力机制关注对分类贡献较大的文本部分，使用含有不同尺寸卷积核的多通道CNN提取不同粒度的文本局部特征，同时通过含有跳层连接结构的堆叠BiGRU网络提取文本间上下文语义信息和长距离依赖关系，最后将CNN和BiGRU的输出进行特征融合，训练分类器对不同类型的文本信息进行分类。

Description

一种基于自注意力机制和BiGRU的文本分类方法

技术领域

本发明属于文本分类技术领域，尤其涉及一种基于自注意力机制和BiGRU的文本分类方法。

背景技术

文本分类技术是对文本集按照一定的分类体系或标准进行自动分类标注的技术，20世纪90年代，在计算机研究领域各种基于数学表达的机器学习方法不断涌现，一些经典的机器学习方法，如支持向量机、朴素贝叶斯、决策树、最近邻方法等被广泛应用于文本分类研究，PANGB等人使用词袋模型，结合贝叶斯、最大熵、支持向量机等机器学习方法对IMDB影评数据集进行情感分类，取得了较好的效果，基于机器学习方法的文本分类模型虽然拥有较为简单的函数表达，但其通常需要繁杂的人工特征工程，生成的文本特征表示均为高维度的稀疏向量，忽略了词义、词序等信息，其特征表达能力也相对较弱，在分类任务中无法很好地保留上下文信息；Bengio等人提出神经网络语言模型，将深度学习方法引入自然语言处理研究领域，神经网络语言模型将单词映射到低维稠密空间，并采用词向量度量单词之间的语义相关性，此后Golve和word2vec等词向量模型的提出，实现了词向量的高效运算，使得深度学习方法在自然语言处理研究领域的应用更为成熟，随后，各种基于深度神经网络的文本分类方法相继出现，这些方法首先使用数学向量对词汇进行语义表示，然后通过组合的方式获得句子和文档级别的语义表示。

在文本分类任务中，双向门控循环单元被广泛使用，其不仅能提取文本上下文语义信息和长距离依赖关系，还可以避免出现传统RNN中存在的梯度弥散或爆炸问题，然而，BiGRU无法较好地捕获文本的局部特征。

发明内容

本发明提供一种基于自注意力机制和BiGRU的文本分类方法，旨在解决BiGRU无法较好地捕获文本的局部特征问题。

本发明是这样实现的，一种基于自注意力机制和BiGRU的文本分类方法，包括如下步骤：

步骤S1：使用自注意力机制生成新的字嵌入作为文本表示；

步骤S2：使用CNN提取文本局部特征；

步骤S3：利用BiGRU获取文本上下文语义信息和长距离依赖关系；

步骤S4：对CNN和BiGRU的输出进行融合；

步骤S5：使用全连接层，结合Softmax函数获得文本分类结果。

优选的，所述步骤S1中，中文文本分类采用基于字粒度的处理方式，将每一个文本实例看作是由字符构成的序列，并通过前述计算步骤将其转换成字嵌入序列。

优选的，GRU引入门对原始RNN中隐藏状态的计算方法进行修改，该门包括重置门、更新门、候选隐藏状态和隐藏状态。

优选的，所述BiGRU每个时间步隐藏状态的输出由当前时间步前向隐藏状态和后向隐藏状态拼接而成。

优选的，包括SBUTC模型，SBUTC模型由多个通道组成，其主体部分是4个CNN模型通道和1个BiGRU模型通道。

优选的，4个CNN模型通道分别使用4种不同尺寸的卷积核，其大小分别为2×768、3×768、4×768和5×768，每种尺寸的卷积核数目均为300个，卷积步长设置为1。

优选的，所述BiGRU模型通道由2个堆叠的BiGRU构成，隐藏层的维度均设置为300维。

优选的，所述CNN和BiGRU的输出通过拼接操作进行融合，进而作为全连接层的输入，全连接层使用ReLU作为激活函数，并且加入dropout机制。

与现有技术相比，本发明的有益效果是：本发明的一种基于自注意力机制和BiGRU的文本分类方法，利用自注意力机制关注对分类贡献较大的文本部分，使用含有不同尺寸卷积核的多通道CNN提取不同粒度的文本局部特征，同时通过含有跳层连接结构的堆叠BiGRU网络提取文本间上下文语义信息和长距离依赖关系，最后将CNN和BiGRU的输出进行特征融合，训练分类器对不同类型的文本信息进行分类。

附图说明

图1为本发明的方法步骤示意图；

图2为本发明中的GRU结构示意图；

图3为本发明中的BiGRU结构示意图；

图4为本发明中的SBUTC模型整体结构示意图；

图5为本发明中的卷积过程示意图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1-5，本发明提供一种技术方案：一种基于自注意力机制和BiGRU的文本分类方法，包括如下步骤：

步骤S1：使用自注意力机制生成新的字嵌入作为文本表示；

在本实施方式中，通过对预训练语言模型ERNIE进行微调的方式生成字嵌入表示，其间使用自注意力机制计算每一个字的self-attention值，该值决定了输入的文本中某一位置上的字与该文本内部其他部分的相互关注程度，self-attention计算过程分如式(1)～(3)所示：

其中，q_i为一个句子中位置i上的字(词)w_i的向量Query，k_j、v_j分别表示同一句子中位置j上的字(词)w_j的向量Key和Value；d_k表示k_j的维度大小；i,j＝0，1，2，…，N-1，N表示句子包含的字(词)的数量；s_i,j为q_i与k_j作向量点积运算和除法运算后得到的结果；

是s_i,j的Softmax分值；z_i即为w_i经self-attention计算后得到的输出结果，最后，将z_i和w_i进行拼接，作为CNN和BIGRU的输入；

在中文文本分类任务中，一般需要对文本进行分词和去停用词等基于词粒度的处理，本文中的中文文本分类实验则采用基于字粒度的处理方式，将每一个文本实例看作是由字符构成的序列，并通过前述计算步骤将其转换成字嵌入序列，根据ZipF定律，大部分中文词汇出现次数很少，若使用基于词粒度的处理方式，会导致模型对应的词汇索引表规模过大，影响模型的训练效率和性能，并且在进行微调的时候，Out-of-Vocabulary问题会比较严重，而基于字粒度的处理方式能很好地避免这些问题，不再需要分词和去停用词等繁琐步骤，而且，在中文中单个汉字也有其特定意义，包含丰富的语义信息，此外，基于字嵌入的文本表示能够在一定程度上解决短文本特征词过少的问题，并有效避免对文本中出现的不规则特征词的错误划分。

步骤S2：使用CNN提取文本局部特征；

在本实施方式中，GRU引入了门的概念，对原始RNN中隐藏状态的计算方法进行了修改，其单元结构如图2所示，包括重置门、更新门、候选隐藏状态和隐藏状态等部分；

相关参数的计算和更新过程如式(4)～(7)所示：

R_t＝σ(I_tW_ir+H_t-1W_hr+b_r) (4)

Z_t＝σ(I_tW_iz+H_t-1W_hz+b_z) (5)

其中，假设隐藏单元个数为h，时间步t的输入为It∈R^1×d(1×d表示输入向量维度)，上一时间步t-1的隐藏状态为Ht-1∈R^1×h，W_ir，W_iz，W_ih∈R^d×h和W_hr，W_hz，W_hh∈R^h×h表示权重参数矩阵，b_r，b_z，b_h∈R^1×h是偏差参数，σ表示sigmoid激活函数，⊙表示做按元素乘法，R_t，Z_t，

H_t∈R^1×h分别表示重置门、更新门、候选隐藏状态和隐藏状态的输出，重置门控制上一时间步的隐藏状态如何流入当前时间步的候选隐藏状态，有助于捕捉文本序列中的短期依赖系，更新门控制隐藏状态应该如何被包含有当前时间步信息的候选隐藏状态所更新，有助于捕捉文本序列中的短期依赖关系；

GRU中隐藏状态信息按照时间步顺序从前至后单向传递，只关注了文本中上文对下文的影响，无法体现出下文对上文乃至整体状态的影响，为了充分利用文本中的上下文关系，本文使用GRU的变体BiGRU，BiGRU每个时间步隐藏状态的输出由当前时间步前向隐藏状态和后向隐藏状态拼接而成，因此其受到前后两个方向信息传递的共同影响，包含的信息更丰富，BiGRU的模型结构如图3所示。

在本实施方式中，如图4，SBUTC模型由多个通道组成，其主体部分是4个CNN模型通道和1个BiGRU模型通道，将通过自注意力机制生成的字嵌入作为每个通道的输入，每个字嵌入的维度是768维；

4个CNN模型通道分别使用4种不同尺寸的卷积核，其大小分别为2×768、3×768、4×768和5×768，每种尺寸的卷积核数目均为300个，卷积步长(stride)设置为1，不进行补零操作，如图5所示，经过卷积操作之后得到文本的局部特征被送入池化层，池化层使用时序最大池化策略对这些特征进行筛选和过滤，经过4个CNN通道生成的特征向量会被拼接在一起作为全连接层输入的一部分，这些拼接在一起的向量会为文本分类提供丰富的局部特征信息；

BiGRU模型通道由2个堆叠的BiGRU构成，隐藏层的维度均设置为300维，将文本序列从前后两个方向输入第一个BiGRU中，对其隐藏层中每一个时间步前后两个方向的隐藏状态输出进行拼接操作，作为第二个BiGRU每个时间步的输入，第二个BiGRU也将其隐藏层中每一个时间步前后两个方向的隐藏状态进行拼接并输出,堆叠两个BiGRU，一方面增加网络的深度，有助于提升训练效率和模型性能，另一方面有助于提取更深层次的文本上下文语义信息和依赖关系，此外使用跳层连接结构，将堆叠的BiGRU最后的输出与输入文本序列按照时间步顺序一一对应并进行拼接，这样做避免了训练过程中梯度弥散或爆炸现象的出现，同时使向量中包含的语义信息更为丰富，在一定程度上避免重要信息的丢失，拼接得到的向量需进行线性变换运算，过程如式(8)所示：

y_i＝tanh(Wx_i+b) (8)

其中x_i表示时间步i上经过拼接后的向量表示，y_i是线性变换输出，其可以看作是一个潜在的语义向量，所有时间步上的y会被送入池化层，通过最大池化操作，最终获得文本全局特征的定长表示。

步骤S4：对CNN和BiGRU的输出进行融合；

在本实施方式中，CNN和BiGRU的输出通过拼接操作进行融合，进而作为全连接层的输入，为更快计算，全连接层使用ReLU作为激活函数，并且加入dropout机制。

步骤S5：使用全连接层，结合Softmax函数获得文本分类结果。

在本实施方式中，在训练过程中，对于神经网络单元按照一定的概率将其暂时从网络中丢弃，使其不工作，这样做的目的是为了防止训练出的模型过拟合，提高模型的泛化能力，最后通过Softmax分类器获得分类结果，即在各分类标签上的概率分布，Softmax分类器将x分类为类别j的概率如式(9)所示：

其中，θ表示训练过程中的所有参数，k表示类别数。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自注意力机制和BiGRU的文本分类方法，其特征在于：包括如下步骤：

步骤S1：使用自注意力机制生成新的字嵌入作为文本表示；

步骤S2：使用CNN提取文本局部特征；

步骤S4：对CNN和BiGRU的输出进行融合；

步骤S5：使用全连接层，结合Softmax函数获得文本分类结果。

2.如权利要求1所述的一种基于自注意力机制和BiGRU的文本分类方法，其特征在于：所述步骤S1中，中文文本分类采用基于字粒度的处理方式，将每一个文本实例看作是由字符构成的序列，并通过前述计算步骤将其转换成字嵌入序列。

3.如权利要求1所述的一种基于自注意力机制和BiGRU的文本分类方法，其特征在于：GRU引入门对原始RNN中隐藏状态的计算方法进行修改，该门包括重置门、更新门、候选隐藏状态和隐藏状态。

4.如权利要求1所述的一种基于自注意力机制和BiGRU的文本分类方法，其特征在于：所述BiGRU每个时间步隐藏状态的输出由当前时间步前向隐藏状态和后向隐藏状态拼接而成。

5.如权利要求1所述的一种基于自注意力机制和BiGRU的文本分类方法，其特征在于：包括SBUTC模型，SBUTC模型由多个通道组成，其主体部分是4个CNN模型通道和1个BiGRU模型通道。

6.如权利要求5所述的一种基于自注意力机制和BiGRU的文本分类方法，其特征在于：4个CNN模型通道分别使用4种不同尺寸的卷积核，其大小分别为2×768、3×768、4×768和5×768，每种尺寸的卷积核数目均为300个，卷积步长设置为1。

7.如权利要求5所述的一种基于自注意力机制和BiGRU的文本分类方法，其特征在于：所述BiGRU模型通道由2个堆叠的BiGRU构成，隐藏层的维度均设置为300维。

8.如权利要求1所述的一种基于自注意力机制和BiGRU的文本分类方法，其特征在于：所述CNN和BiGRU的输出通过拼接操作进行融合，进而作为全连接层的输入，全连接层使用ReLU作为激活函数，并且加入dropout机制。