CN111581383A

CN111581383A - 一种基于ERNIE-BiGRU的中文文本分类方法

Info

Publication number: CN111581383A
Application number: CN202010364840.1A
Authority: CN
Inventors: 钱叶; 唐小岚
Original assignee: Shanghai Electric Power University
Current assignee: Shanghai University of Electric Power; Shanghai Electric Power University; University of Shanghai for Science and Technology
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-08-25

Abstract

本发明涉及一种基于ERNIE‑BiGRU的中文文本分类方法，该方法包括以下步骤：步骤1：对待中文文本分类的数据集进行预处理，得到经过预处理的数据集；步骤2：建立ERNIE‑BiGRU整体模型，将经过预处理的数据集输入其中的ERNIE预训练模型，得到句子级的词向量表示；步骤3：将句子级的词向量表示输入ERNIE‑BiGRU整体模型中的BiGRU层进一步提取句子中每个词的上下文信息；步骤4：将句子级的词向量表示和句子中每个词的上下文信息输入ERNIE‑BiGRU整体模型中的softmax层，得到最终中文文本分类结果。与现有技术相比，本发明具有模型的泛化能力强，对文本特征的提取能力强等优点。

Description

一种基于ERNIE-BiGRU的中文文本分类方法

技术领域

本发明涉及一种新型文本分类方法，尤其是涉及一种基于ERNIE-BiGRU的中文文本分类方法。

背景技术

文本分类是自然语言处理领域重要的一部分，其研究内容主要包括新闻文本的类别划分以及情感分析。得益于网络媒体的迅速发展，使得该领域的研究具备海量文本数据的支持，这些数据蕴含着丰富的信息，如何管理这些数据并从这些数据中准确高效地获取有价值的信息，这是现在很多研究者正在研究的问题。

近年来，对于文本分类的研究已经取得了不错的进展，Pang等利用词袋模型，结合贝叶斯、最大熵、支持向量机等分类器对电影评论数据进行情感分类，并取得了不错的结果。但随着技术的更新，浅层的分类模型在分类任务中无法很好的保留文本上下文信息的问题逐渐暴露出来，因此研究者开始将目光转向对深度学习模型的研究。

深度学习模型比起传统的浅层模型，强调模型结构的深度和对特征的学习，因而广泛应用于图像领域的研究。LeCun等人将卷积神经网络(Convolutional NeuralNetwork，CNN)应用于文本分类任务中，显著地提升了文本分类的准确率。Mikolov等人提出将循环神经网络(Recurrent Neural Network，RNN)应用于文本分类任务中，相较于CNN利用卷积层提取特征，RNN由于当前时间的输出是根据上一时间的输出和当前时间的输入共同决定，所以能更好的学习该词上下文的信息。但是RNN模型随着时间序列的增长，模型容易出现梯度消失和梯度爆炸的问题，导致网络无法从训练数据中得到很好的学习。为了解决RNN结构上的缺陷，基于RNN的各种变体孕育而生，如长短期记忆神经网络(Long Short-Term Memory，LSTM)、门限循环单元(Gated Recurrent Unit，GRU)等，并在自然语言任务中取得了不错的结果。

这些模型的共性是对分词后的文本利用词嵌入模型(word2vec)将每个单词映射成一个向量，将文本细化成句，词级别，然后将结果传入下游模型进行特征提取和分类处理。因此，文本信息的特征表示好坏与否对下游模型的准确率影响重大，而文本本身存在特征稀疏的情况。分词后的文本特征已经有相当程度的丢失，词嵌入模型的输出结果并不能完整的表示原始文本的语义。另一方面，由于应用场景的不同，使得每一次任务都需要对当前场景下的语料进行训练，这对于模型的灵活性和泛化性都是较大的挑战。因此，为了最大限度的保留句子本身的含义，人们开始将研究重点转向以句子为单位的特征表示方法。

目前，基于大语料库的预训练模型已经逐步成为了自然语言处理技术的研究趋势。由于这些预训练模型是以庞大的语料库作为基础训练出来的，因此相较于特定场景的语料库训练出的模型更能适应不同场景下的文本任务。为了更好地解决预训练模型中句子级的文本分类问题，尽可能的保留句子中词与词之间的内在联系，Peters等人对预训练模型进行了改进，提出语言模型嵌入(Embeddings from Language Models，ELMO)算法。ELMO是一种新型深度语境化词表征，利用深度双向语言模型(Bi-directional Long Short-Term Memory，BiLSTM)内部状态的函数在大语料上训练出对应的语言模型，以此来获取句子中的句法特点以及词在不同语境中的语义特征。在此基础上，Google提出了使用Transformer解码器的思想，利用注意力机制的模型结构，计算的时间复杂度相较于传统的深度神经网络有很大的提升，同时可以捕捉长距离的依赖关系。但是ELMO严格来说是属于单向训练的语言模型，其双向的结构存在着时间先后的关系，不是真正意义上同步进行的，因此google提出了真正意义上使用双向的预训练语言模型BERT。BERT利用attention机制，使得模型的上下层直接全部互相连接，真正实现了模型中所有层都是双向连接的。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于ERNIE-BiGRU的中文文本分类方法。

本发明的目的可以通过以下技术方案来实现：

一种基于ERNIE-BiGRU的中文文本分类方法，该方法包括以下步骤：

步骤1：对待中文文本分类的数据集进行预处理，得到经过预处理的数据集，并建立ERNIE-BiGRU整体模型；

步骤2：将经过预处理的数据集输入ERNIE-BiGRU整体模型中的ERNIE预训练模型，得到句子级的词向量表示；

步骤3：将句子级的词向量表示输入ERNIE-BiGRU整体模型中的BiGRU层进一步提取句子中每个词的上下文信息；

步骤4：将句子级的词向量表示和句子中每个词的上下文信息输入ERNIE-BiGRU整体模型中的softmax层，得到最终中文文本分类结果。

进一步地，所述的步骤1中的预处理包括针对数字、英文和特殊符号的数据清洗处理。

进一步地，所述的步骤2中的ERNIE预训练模型由Transformer编码器和知识整合组成。

进一步地，所述的步骤2包括以下分步骤：

步骤201：设置ERNIE-BiGRU整体模型中的ERNIE预训练模型的参数，并将经过预处理的数据集输入ERNIE-BiGRU整体模型中的ERNIE预训练模型；

步骤202：利用ERNIE预训练模型中的Transformer编码器对文本信息进行编码，得到经过预处理的数据集对应的词向量表示；

步骤203：利用ERNIE预训练模型中的知识整合的基本遮掩在字的层面上对文本进行遮蔽，得到字的层次的知识整合信息；

步骤204：利用ERNIE预训练模型中的知识整合的短语级遮蔽将句子中的短语成分进行遮蔽，得到短语的层次的知识整合信息；

步骤205：利用ERNIE预训练模型中的知识整合的实体级遮蔽将句子中的实体信息进行遮蔽，得到实体的层次的知识整合信息；

步骤206：将字、短语和实体的层次的知识整合信息整合到经过预处理的数据集对应的词向量表示中，得到句子级的词向量表示。

进一步地，所述的步骤202中的Transformer编码器采用全attention机制的结构。

进一步地，所述的步骤202中的Transformer编码器的self-attention机制的描述公式为：

式中，Q、K、V均为输入字向量矩阵，d_k为输入向量维度，T表示转置。

进一步地，所述的步骤3中的BiGRU层的基本单元有前向传播的GRU单元和后向传播GRU单元组成。

进一步地，所述的步骤3中的BiGRU层，其对应的计算处理公式为：

z_t＝σ(ω_z·[h_t-1,x_t])

r_t＝σ(ω_r·[h_t-1,x_t])

式中，ω_r、ω_z和ω为权值矩阵，x_t为t时刻的输入，r_t为重置门，z_t为更新门，h_t-1为前一时刻的隐藏层状态，h_t为t时刻的隐藏层状态，σ为sigmoid非线性激活函数。

与现有技术相比，本发明具有以下优点：

(1)为解决传统文本分类任务中词向量的表示无法很好的保留字在句子中的信息和其多义性的问题，本发明方案提出的ERNIE模型，根据上下文计算出字的向量表示，在保留该字上下文信息的同时也能根据字的多义性进行调整，增强了字的语义表示；

(2)为解决传统文本分类模型在不同应用场景内的泛化能力低下的问题，本发明方案提出的ERNIE模型是基于大语料库的预训练模型，是以庞大的语料库作为基础训练出来的，因此相较于特定场景的语料库训练出的模型更能适应不同场景下的文本任务；

(3)为解决传统深度学习模型结构复杂且运算的时间成本和设备成本过高的问题，本发明方案提出的BiGRU模型，可以大幅减少模型训练的时间成本，同时也解决了循环神经网络普遍存在的梯度消失问题。

附图说明

图1为本发明一种基于ERNIE-BiGRU的中文文本分类方法的整体模型结构图；

图2为本发明一种基于ERNIE-BiGRU的中文文本分类方法整体模型中的ERNIE预训练模型结构图；

图3为本发明一种基于ERNIE-BiGRU的中文文本分类方法整体模型中的Transformer编码器结构图；

图4为本发明一种基于ERNIE-BiGRU的中文文本分类方法整体模型中的BiGRU模型结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

本发明提到的ERNIE模型是在BERT模型思想的基础上，对BERT预训练时的逻辑进行了改进，同时预训练的数据大量采用了中文数据集，因此更加符合中文文本任务的使用需求。

本发明的目的是为了解决文本在上游模型转换过程中上下文信息丢失的问题，同时为了寻求一个更适合中文文本分类的预训练模型，本发明提供了一种高效、准确，同时可以有效保留文本上下文信息的ERNIE-BiGRU模型。

本发明提出了一种新的基于ERNIE-BiGRU的中文文本分类方法。首先改进现有的文本分类方法并与预训练模型相结合，具备以下创新点：1)将预训练模型引入文本分类任务中，在有效保留文本上下文信息的同时增强了模型的泛化能力；2)在ERNIE模型后加入了BiGRU层，进一步提升模型对文本特征的提取能力。

具体实施例

本发明一种基于ERNIE-BiGRU的中文文本分类方法，主要包括4个部分：ERNIE预训练模型、Transformer编码器、知识整合和BiGRU层。

ERNIE预训练模型：ERNIE是一种基于知识遮蔽策略的增强型模型。

Transformer编码器：Transformer模型用的是全attention的结构，attention机制类似于人类理解句子的原理，根据句子中的关键点去理解句子的整体意思。

知识整合：通过对实体概念知识的学习来进一步增强句子中完整概念的语义表示。

BiGRU层：BiGRU是BiLSTM的一种变体，它在BiLSTM的基础上进行了简化，将LSTM中的输入门和遗忘门合并成了单一的更新门，同时也将细胞状态和隐藏层状态混合在了一起。

如图1所示，本发明一种基于ERNIE-BiGRU的中文文本分类方法的整个模型由三个部分组成，首先将经过预处理以后的数据集经过使用ERNIE预训练模型得到句子级的词向量表示，将模型输出作为BiGRU层的输入，进一步提取句子中每个词的上下文信息，最后使用softmax层进行文本分类。

其中的ERNIE预训练模型结构如图2所示，ERNIE是一种基于知识遮蔽策略的、增强型模型。通过对词、实体等语义单元的掩码，使得模型学习完整概念的语义表示。ERNIE在结构上主要分为两个部分，Transformer编码和知识整合，前者使用Transformer作为模型的基本编码器，生成对应的词向量表示，以此保留词在文本中的上下文信息。后者则是通过多阶段的知识遮蔽策略，将短语和实体层次的知识整合到语言表示中。

Transformer编码器的结构如图3所示，在attention机制的影响下，各种结合attention机制的混合神经网络模型不断被涌现出来，但是这些混合神经网络模型由于其复杂的神经网络结构导致计算复杂度和时间成本很高，不符合一些自然语言任务对于实时性的要求。基于这样的理念，Transformer模型被提出，该模型在满足高度并行化的同时，也大幅减少了模型的训练时间。在一般任务的Encoder-Decoder框架中，输入Source和输出Target内容是不一样的，比如对于英-中机器翻译来说，Source是英文句子，Target是对应的翻译出的中文句子。而在Source和Target相同的情况，这种attention机制称为self-attention，Transformer模型在解决中文文本分类问题中用的就是全self-attention的结构。

Transformer中的self-attention原理如下所示：

Self-attention相较于传统的LSTM、GRU等模型在捕捉远距离的相互依赖特征时，随着时间的增长，会出现有效捕捉效果下降的问题，self-attention在计算过程中会直接将句子中任意两个单词的联系通过一个计算步骤直接联系起来，最后将所有单词的表示进行加权求和，而权重是通过该词的表示与被编码词表示的点积并通过softmax得到的。使用self-attention会使远距离依赖特征之间的距离被极大缩短，特征的有效利用率得到大幅提高。因此，self-attention结构可以更好地建模用户的行为序列。

BiGRU层的结构如图4所示，GRU(门控循环单元神经网络)是LSTM的一种变体，它在LSTM的基础上进行了简化，将LSTM中的输入门和遗忘门合并成了单一的更新门，同时也将细胞状态和隐藏层状态混合在了一起，更新门根据数据对先前的数据进行筛选，重置门将先前的信息经过处理后作为新的输入。GRU在结构上比LSTM要简单许多，所需参数也更少，在降低计算复杂度，提高模型训练速度的同时也降低了过拟合的可能性。其具体的计算公式如下所示：

z_t＝σ(ω_z·[h_t-1,x_t])

r_t＝σ(ω_r·[h_t-1,x_t])

然而单向的GRU只能学习当前时刻之前的信息，无法对当前时刻之后的信息进行学习，对于一个词语义的理解是需要将一个词放在上下文的语境中进行学习的，因此本文采用BiGRU(双向门控循环单元神经网络)来代替传统的GRU，利用双向保留信息的方式来得到一个词在前后文中的联系。BiGRU的基本单元由一个前向传播的GRU单元和一个后向传播的GRU单元组成，当前单元的输出由这两个单向的GRU共同决定，它可以利用过去和未来的信息来得到输入和输出信息之间的映射关系。在文本分类场景下，利用BiGRU可以通过上下文的信息得到一个词在文本中的语义特征，这样做的好处是尽可能的保留了一个词在上下文中的信息，提高了分类的准确率。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于ERNIE-BiGRU的中文文本分类方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于ERNIE-BiGRU的中文文本分类方法，其特征在于，所述的步骤1中的预处理包括针对数字、英文和特殊符号的数据清洗处理。

3.根据权利要求1所述的一种基于ERNIE-BiGRU的中文文本分类方法，其特征在于，所述的步骤2中的ERNIE预训练模型由Transformer编码器和知识整合组成。

4.根据权利要求1所述的一种基于ERNIE-BiGRU的中文文本分类方法，其特征在于，所述的步骤2包括以下分步骤：

5.根据权利要求4所述的一种基于ERNIE-BiGRU的中文文本分类方法，其特征在于，所述的步骤202中的Transformer编码器采用全attention机制的结构。

6.根据权利要求4所述的一种基于ERNIE-BiGRU的中文文本分类方法，其特征在于，所述的步骤202中的Transformer编码器的self-attention机制的描述公式为：

7.根据权利要求1所述的一种基于ERNIE-BiGRU的中文文本分类方法，其特征在于，所述的步骤3中的BiGRU层的基本单元有前向传播的GRU单元和后向传播GRU单元组成。

8.根据权利要求1所述的一种基于ERNIE-BiGRU的中文文本分类方法，其特征在于，所述的步骤3中的BiGRU层，其对应的计算处理公式为：

z_t＝σ(ω_z·[h_t-1,x_t])

r_t＝σ(ω_r·[h_t-1,x_t])