CN112269876A

CN112269876A - 一种基于深度学习的文本分类方法

Info

Publication number: CN112269876A
Application number: CN202011153557.0A
Authority: CN
Inventors: 周末; 宋玉蓉; 宋波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-01-26

Abstract

本发明公开了一种基于深度学习的文本分类方法，通过限制信息流长度将位置不变性引入双向门控循环单元，弥补了循环神经网络在处理文本分类任务中对长序列文本建模的压力过大且可能忽略局部重要特征以及卷积神经网络不能捕获远距离上下文依赖关系的缺陷，从而可以得到有效的文本表示向量，并通过自注意力机制加大对重要特征的权重分配进一步优化文本表示。本发明能够有效提高各类分类任务的准确度。

Description

一种基于深度学习的文本分类方法

技术领域

本发明涉及一种基于深度学习的文本分类模型的提出和实现，属于自然语言处理和人工智能领域。

背景技术

文本分类是一项传统的NLP子任务，有效前期的分类问题主要集中在基于传统机器学习算法的研究及人工特征的提取，随着数据的增长和特征的增加，依赖传统算法已经不能满足需求。近年来，深度学习算法在各大计算机领域都取得长足进步，特别在图像处理、语音识别及自然语言处理等问题做出巨大贡献。当今大多数网络模型都是基于CNN或RNN建立的。下面，我们列出了一些在文本分类领域具有代表性的网络模型。

循环神经网络是一种常用于处理序列数据的网络结构，适用于自然语言、语音等领域。因此很多基于RNN的模型都被用于处理文本问题有学者利用LSTM建模句子之间的关系。也有人等利用BGRU建模文本处理情感分析任务。卷积神经网络模型特有的局部相关和位置不变性使其适用于自然语言处理任务。之后，有人首次将1D CNN用于词性、命名实体识别和语义角色标注等任务中。有人提出通过用带有多种卷积过滤器来编码句子以进行句子分类任务。为了捕捉词语间的关系提出了一种含动态k-max池化的新型CNN模型。浅层CNN不能很好的编码长段信息。因此，在文本分类任务中运用深层CNN以达到更好的性能表现。

以上方法的CNN和RNN神经网络的模型都可以捕获上下文依赖关系，但未曾考虑对文本中关键信息对文本分类准确率的影响。2014年，谷歌团队首次提出采用内容注意力机制做图像分类，有效提高了图像识别精度。随后，有学者将注意力机制应用到自然语言处理(natural language processing，NLP)领域，使用注意力机制将源语言端每个词学到的表达和预测翻译的词联系起来，提高了翻译的准确率。2017年，谷歌提出自注意力机制并用于机器翻译取得了更好的翻译效果。自注意力机制依赖更少的参数，仅需关联单个序列的不同位置以计算序列的表示，更容易获取文本内部依赖关系，使模型能够更好地学习文本特征。之后，学者提出一系列RNN和注意力机制结合方法，对连续语义进行捕获。也有学者提出结合CNN和自注意力机制提出一种单词级别的文本分类模型，使用CNN捕捉文档的局部特征，利用自注意力机制捕捉长距离依赖。以上方法都是在传统CNN或RNN的基础上与注意力机制加以融合，但各自忽略了RNN未能很好地捕获局部关键信息和CNN不能很好的捕获文档上下文长距离依赖的缺陷。故想到在融合CNN与RNN各自的优势特征后再利用自注意力机制构造一种新型的模型。

发明内容

发明目的：针对循环神经网络(RNN)在处理文本分类任务中对长序列文本建模的压力过大且可能忽略局部重要特征以及卷积神经网络(CNN)不能捕获远距离上下文依赖关系的问题，本发明提出一种基于深度学习的文本分类方法，得到一种新型网络结构D-BGRU，在D-BGRU的基础上融合注意力机制得到D-BGRU-SA模型。该模型减少了对整个长序列文本建模的压力同时结合了RNN擅于捕获长距离依赖和CNN能够提取具有位置不变性的局部关键特征的优点，兼顾了上下文对预测结果的影响，并通过自注意力机制进一步学习文本关键特征的权重分配，进一步优化文本表示，最后通过多分类器输出文本类别的预测结果。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于深度学习的文本分类方法，包括以下步骤：

步骤1，用Bert预训练模型将文本处理成向量形式。

步骤2，构建D-BGRU模型：

RNN是一种利用时间步长对序列进行建模的神经网络，其结构特征决定了每一时刻的隐藏层与之前所有的输入都有关，采用限制循环神经单元中的信息流长度为k的DRNN模型，通过指定一个固定大小的数值k使得循环神经单元每一时段的表示只与前k-1个输入和当前输入有关从而限制循环单元的信息流动性，通过这种方式既可以降低计算整个文档的庞大负担也可以对关键信息进行捕获。

采用双向门控循环单元BGRU作为循环处理单元，得到D-BGRU模型。

步骤3，通过D-BGRU模型提取文本上下文语义特征信息：

h_t＝D-BGRU(x_t,x_t-1,x_t-2,…,x_t-k+1)

其中，h_t表示每一时刻的隐藏状态，D-BGRU表示本文提出的D-BGRU模型，x_t是词向量，t＝1,2,…,n。在t时刻：BGRU的输出由两个相反方向的GRU共同组合决定，具体的计算公式如下：

其中，

和

分别表示GRU向前传播的输出和向后传播的输出。y表示BGRU的输出。W表示权重矩阵。b表示偏置向量。σ表示SoftMax函数。

步骤4，通过注意力机制对重要信息进行加大权重分配，进一步优化文本表示，计算公式如下：

其中，Attention(Q,K,V)表示注意力机制，d_k表示K向量的维度，h_t表示每一时刻的隐藏状态，

表示上一层的输出状态，Q、K、V∈Rⁿ是BGRU的n维输出向量。

步骤5，将特征向量输入到多层感知机中，进一步提取隐藏状态，

其中，h_t表示每一时刻的隐藏状态，

表示上一层的输出状态，MLP表示多层感知机。

步骤6，最大池化层保留重要特征，输入到SoftMax层中得到最终的分类结果：

其中，h_t表示每一时刻的隐藏状态，

表示上一层的输出状态，Max-pooling表示最大池化层操作。

步骤7，SoftMax分类器对分类结果进行预测：使用的化器Adam，在每个网络层后都加入了Dropout函数，通过在每一次的迭代中随机丢弃部分训练参数来提高模型的泛化能力。

优选的：步骤4中注意力机制本质是一个query(Q)到一系列key(K)—value(V)键值对的映射，首先将query和每个key通过点积、拼接或感知器的相似度函数计算得到权重。其次通过SoftMax函数对计算得出的权重进行归一化处理。最后将权重和与之相对应的value加权求和得出最后的attention，其中，query(Q)表示，Q表示，key(K)表示，K表示，value(V)表示，V表示，attention表示，当K＝Q＝V时，即称为自注意力机制，处理文本时会直接将一个句子中任意两个单词通过一个计算步骤直接联系起来，获取句子内部的词语依赖关系、句子的内部结构以及同一个句子中单词之间的一些句法特征或者语义特征，更有利于获取远距离相互依赖的特征。

优选的：步骤7中SoftMax分类器：

其中，p表示目标预测的概率，Y＝j表示目标预测为j类，X表示目标的输入向量，θ表示模型训练学到的参数。

优选的：数值k＝3。

本发明相比现有技术，具有以下有益效果：

本发明基于深度学习，首先提出D-BGRU结构，该结构减少了对整个长序列文本建模的压力同时结合了RNN擅于捕获长距离依赖和CNN能够提取具有位置不变性的局部关键特征的优点，同时兼顾了上下文对预测结果的影响。在D-BGRU基础上融入了自注意力机制进一步学习文本关键特征的权重分配，优化文本表示。在多个大型公开数据集上的各项分类任务进行实验，模型分类准确率较现有的基线模型均有提升，证明本发明在各类任务中具有提高分类性能的作用。

附图说明

图1是本发明的流程图。

图2是DRNN结构图。

图3是D-BGRU结构图。

图4是不同模型在Yah.A.数据集上的准确率对比图。

图5是不同模型在Yelp F.数据集上的准确率对比图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于深度学习的文本分类模型方法，通过限制信息流长度将位置不变性引入双向门控循环单元，弥补了循环神经网络在处理文本分类任务中对长序列文本建模的压力过大且可能忽略局部重要特征以及卷积神经网络不能捕获远距离上下文依赖关系的缺陷，从而可以得到有效的文本表示向量，并通过自注意力机制加大对重要特征的权重分配进一步优化文本表示。如图1所示，具体包括以下步骤：

步骤1，用Bert预训练模型将文本处理成向量形式。

步骤2，构建D-BGRU模型

RNN是一种利用时间步长对序列进行建模的神经网络，其结构特征决定了每一时刻的隐藏层与之前所有的输入都有关。为了减小对整个序列建模的负担，有人提出了限制循环神经单元中的信息流长度为k的DRNN模型，具体说来就是通过指定一个固定大小的数值k使得循环神经单元每一时段的表示只与前k-1个输入和当前输入有关从而限制循环单元的信息流动性，通过这种方式既可以降低计算整个文档的庞大负担也可以对关键信息进行捕获。(本发明以k＝3为例给出示意图，DRNN结构图如图2所示。)

DRNN虽然在一定程度上弥补了RNN的输出状态依赖当前所有输入的问题和CNN不能很好的关注上下文远距离依赖关系的缺陷，减小了为整个文本序列建模的压力，但忽略了标准的循环神经网络在处理文本时，只能向前传播获取当前文本的上文信息而忽略了下文信息对当前预测结果的影响。本发明采用双向门控循环单元(BGRU)作为循环处理单元，得到D-BGRU模型。(本发明以k＝3为例给出示意图，D-BGRU结构图如图3所示。)

步骤3，通过D-BGRU提取文本上下文语义特征信息：

h_t＝D-BGRU(x_t,x_t-1,x_t-2,…,x_t-k+1)

其中，双向门控循环单元BGRU是双向循环神经网络的一个变种。是为了解决标准的循环神经网络在处理文本时，只能向前传播获取当前文本的上文信息而忽略了下文信息对当前预测结果的缺陷而提出的。h_t表示每一时刻D-BGRU的隐藏状态，D-BGRU表示本文提出的D-BGRU模型，x_t是词向量，t＝1,2,…,n。在t时刻：BGRU的输出由两个相反方向的GRU共同组合决定，具体的计算公式如下

给定一个n维输入(x₁,x₂,…,x_n)，其中x_t(t＝1,2,…,n)是词向量。在t时刻：BGRU的输出由两个相反方向的GRU共同组合决定。具体的计算公式如下：

其中

和

步骤4，通过注意力机制对重要信息进行加大权重分配，进一步优化文本表示，

注意力机制最初只应用于CV中的图片识别任务中，人类视觉在感知东西时，通常不会注意到场景中的所有内容，往往是根据需求观察注意特定的一部分。当人们发现一个场景经常在某部分出现，人们会在将来再出现类似场景时进行学习，把注意力放到该部分上。2017年，google机器翻译团队提出注意力机制在NLP领域的必要性，使用了自注意力(self-attention)机制来学习文本表示。注意力机制可以得到稀疏数据中的重要特征，其本质是一个query(Q)到一系列key(K)—value(V)键值对的映射，首先将query和每个key通过点积、拼接或感知器等相似度函数计算得到权重。其次通过SoftMax函数对计算得出的权重进行归一化处理。最后将权重和与之相对应的value加权求和得出最后的attention。当K＝Q＝V时，即称为自注意力机制，处理文本时会直接将一个句子中任意两个单词通过一个计算步骤直接联系起来，获取句子内部的词语依赖关系、句子的内部结构以及同一个句子中单词之间的一些句法特征或者语义特征，更有利于获取远距离相互依赖的特征。计算公式如下：

表示上一层的输出状态。

其中，h_t表示每一时刻的隐藏状态，

表示上一层的输出状态，MLP表示多层感知机。

其中，h_t表示每一时刻的隐藏状态，

表示上一层的输出状态，Max-pooling表示最大池化层操作。

步骤7，SoftMax分类器对分类结果进行预测：

训练模型中的参数包括D-BGRU和自注意力机制中的全部参数。模型使用的优化器是Adam,为了防止训练过程中的过拟合现象，在每个网络层后都加入了Dropout函数，通过在每一次的迭代中随机丢弃部分训练参数来提高模型的泛化能力。本次实验使用SoftMax分类器进行分类：

本发明在研究模型有效性时，将以模型在数据集上的准确率作为指标，通过在该指标上与其他模型的对比来验证发明的有效性。衡量指标为模型预测结果与真实数据集的差异。

通常采用模型在数据集上分类的精确度来衡量模型的有效性：

为了验证本发明的有效性，在AG、DBP、Yelp P.、Yelp R.、Yah.A.等5个大型公开数据集上的各项分类任务进行实验。我们首先使用D-BGRU模型对数据集进行实验。结果显示D-BGRU模型的表现力已经优于其他深度模型。之后又在D-BGRU模型中引入自注意力机制得到D-BGRU-SA，它相比于D-BGRU可以为重要信息分配更大的权重使得分类结果更准确。进一步在数据集上进行验证，实验结果表明，D-BGRU-SA进一步提升了单词级别的浅层CNN和RNN模型的效果。

本发明考虑了将位置不变性引入双向门控循环单元中，可弥补已有环神经网络(RNN)在处理文本分类任务中对长序列文本建模的压力过大且可能忽略局部重要特征以及卷积神经网络(CNN)不能捕获远距离上下文依赖关系的不足。通过仿真，验证了本发明的优越性。通过本发明将有利于节约电网建设成本并获得鲁棒性的提升。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度学习的文本分类方法，其特征在于，包括以下步骤：

步骤1，用Bert预训练模型将文本处理成向量形式；

步骤2，构建D-BGRU模型：

RNN是一种利用时间步长对序列进行建模的神经网络，其结构特征决定了每一时刻的隐藏层与之前所有的输入都有关，采用限制循环神经单元中的信息流长度为k的DRNN模型，通过指定一个固定大小的数值k使得循环神经单元每一时段的表示只与前k-1个输入和当前输入有关从而限制循环单元的信息流动性，通过这种方式既可以降低计算整个文档的庞大负担也可以对关键信息进行捕获；

采用双向门控循环单元BGRU作为循环处理单元，得到D-BGRU模型；

步骤3，通过D-BGRU模型提取文本上下文语义特征信息：

h_t＝D-BGRU(x_t,x_t-1,x_t-2,…,x_t-k+1)

其中，h_t表示每一时刻的隐藏状态，D-BGRU表示本文提出的D-BGRU模型，给定一个n维输入(x₁,x₂,…,x_n)，其中，x_t是词向量，t＝1,2,…,n；在t时刻：BGRU的输出由两个相反方向的GRU共同组合决定，具体的计算公式如下：

其中，

和

分别表示GRU向前传播的输出和向后传播的输出；y表示BGRU的输出；W表示权重矩阵；b表示偏置向量；σ表示SoftMax函数；

表示上一层的输出状态，Q、K、V∈Rⁿ是BGRU的n维输出向量；

其中，h_t表示每一时刻的隐藏状态，

表示上一层的输出状态，MLP表示多层感知机；

其中，h_t表示每一时刻的隐藏状态，

表示上一层的输出状态，Max-pooling表示最大池化层操作；

2.根据权利要求1所述基于深度学习的文本分类方法，其特征在于：步骤4中注意力机制本质是一个query(Q)到一系列key(K)—value(V)键值对的映射，首先将query和每个key通过点积、拼接或感知器的相似度函数计算得到权重；其次通过SoftMax函数对计算得出的权重进行归一化处理；最后将权重和与之相对应的value加权求和得出最后的attention，其中，计算自注意力的第一步是从每个编码器的输入向量上创建3个向量；对于每个单词，创建一个query(Q)向量，一个key(K)向量和一个value(V)向量；attention表示注意力层，当K＝Q＝V时，即称为自注意力机制，处理文本时会直接将一个句子中任意两个单词通过一个计算步骤直接联系起来，获取句子内部的词语依赖关系、句子的内部结构以及同一个句子中单词之间的一些句法特征或者语义特征，更有利于获取远距离相互依赖的特征。

3.根据权利要求2所述基于深度学习的文本分类方法，其特征在于：步骤7中SoftMax分类器：

4.根据权利要求3所述基于深度学习的文本分类方法，其特征在于：数值k＝3。