CN112199503B

CN112199503B - 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法

Info

Publication number: CN112199503B
Application number: CN202011169632.2A
Authority: CN
Inventors: 宦海; 严嘉宇; 陈逸飞; 李鹏程; 朱蓉蓉; 刘源
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2023-04-28
Anticipated expiration: 2040-10-28
Also published as: CN112199503A

Abstract

本发明公开了一种基于特征增强的非平衡Bi‑LSTM的中文文本分类方法，首先，预先获取若干条中文文本；使用BERT预训练模型将获取的文本矢量化处理；其次，利用非平衡Bi‑LSTM网络提取文本的深层特征；然后，利用多层注意力机制从词、句两个层级对深层特征信息加以权重；最后，使用Softmax函数对文本进行分类。本发明简化了步骤，将预处理过程写入系统中，不需要人工对文本做初步处理；与传统的Bi‑LSTM网络相比，提高了对双向文本特征的获取能力，相比于现有技术能够更好地提高分类精度。

Description

一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法。

背景技术

随着网络技术的快速发展，海量的信息资源以文本的形式存在。如何对这些文本进行有效的分类，从海量的文本中快速、准确、全面的挖掘有效信息，已经成为了自然语言处理研究领域的热点之一。文本分类是指按照预先定义的主题类别，为文档集合中的每个文档确定一个类别。文本分类技术在日常生活中具有广泛的应用，例如，对垃圾短信和邮件的过滤，对新闻的分组查阅等等。

近些年来，文本分类研究多注重分类模型的构建和优化。传统机器学习模型，如支持向量机、朴素贝叶斯、最大熵模型等，以及深度学习方法，如卷积神经网络(Convolutional Neural Networks,CNN)、长短时记忆网络(Long Short Term MemoryNetworks，LSTM)等都被广泛研究和运用。随着深度学习在计算机视觉和语音识别中取得的巨大成功，越来越多的研究尝试将深度学习应用到中文文本分类中。与传统的文本分类方法不同的是，深度学习方法通过深度神经网络模型来学习文本的词特征，进而构建文本特征以实现文本分类。基于深度神经网络模型的方法在中文文本分类任务中取得了比传统的机器学习模型更好的分类效果。

深度神经网络中的注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐,从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务，特别是机器翻译。而自注意力机制是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。

在此之前很多基于深度学习的模型都是使用更高层面的单元对文本或者语言进行建模，比如单词(word2vec)，短语(phrases)，句子(sentence)层面，或者对语义和语法结构进行分析。这些单词，语句，句子的知识往往是高维的，很难应用于神经网络中。

当前的文本分类方法认为文本中每一个特征对于分类的重要性相同，简单的用文本中所有的特征来表示文本特征，导致分类过程中存在较多的噪音特征。

现有的文本分类中，有的以词作为最小单元对语言进行建模，由于数据量大，文本长度长，导致单词层面的维度较高，神经网络的训练慢，付出的代价较高；有的易导致提取的文本特征单一，也难以涵盖文本所有的语义信息，并且没有重点关注对分类有明显贡献的特征，导致出现了分类过程中存在较多的冗余特征的问题。

发明内容

发明目的：本发明的目的提供一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法，不需要人工对文本做初步处理，且更好地提高分类精度。

技术方案：本发明所述的一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法，具体包括以下步骤：

(1)预先获取若干条中文文本；

(2)使用BERT预训练模型将获取的文本矢量化处理；

(3)利用非平衡Bi-LSTM网络提取文本的深层特征；

(4)利用多层注意力机制从词、句两个层级对深层特征信息加以权重；

(5)使用Softmax函数对文本进行分类。

进一步地，所述步骤(2)的实现过程如下：

(21)对输入文本进行编码将之矢量化，实际的输入值包含三个部分：词向量、句向量、位置向量；

(22)利用BERT预训练模型作为语言特征提取和表示方法，BERT模型采用层次架构的Transformer语言模型；BERT的预训练过程采用无监督方式，通过特殊的随机遮掩词和下一句预测机制实现对中文语料语义的理解；

(23)根据上下文对语义的理解对遮掩词进行预测，通过随机遮掩词与下一句预测的联合训练，以下一句预测的结果为方向引导，作为对随机遮掩词预测的修正，在削弱噪声影响的同时增强对文本语义的学习。

进一步地，所述步骤(3)的实现过程如下：

在非平衡Bi-LSTM网络的前后向两层的每个基础LSTM单元进行循环，提取语义特征，之后通过一组特定权重β整合前后向特征，形成下一层输入：

H＝β·h_forward+(1-β)·h_backward (8)

其中，h_forward为前向输出信号，h_backward为后向输出信号，β为前后向权重系数。

进一步地，所述步骤(4)的实现过程如下：

(41)将网络层输入的经过特征提取的文本向量，从单词一级对每个词向量各加以权重，突出蕴含能够显示文本类别的关键词：

u_i,t＝tanh(W_wordh_i,t+b_word) (7)

其中，u_i,t为h_i,t的隐层表示，a_i,t是经过归一化的权重系数，W_word和b_word是随机初始化的系数矩阵和偏移量，之后会作为模型的参数参与训练，s_i是第i个句子的向量表示；

(43)从句子层级对文本中的每一句话加以权重，突出关键句：

u_i＝tanh(W_senh_i+b_sen) (10)

其中，u_i为h_i的隐层表示，a_i是经过归一化的权重系数，W_sen和b_ben是随机初始化的系数矩阵和偏移量，之后会作为模型的参数参与训练，v就是整个文本的向量表示；

(43)形成输出到最后的分类层。

进一步地，所述步骤(5)采用全连接层输出每条网络文本在不同类别标签上的概率。

有益效果：与现有技术相比，本发明的有益效果：

1、本发明通过使用BERT预训练模型将获取的网络文本矢量化，与传统的文本预处理方式相比，简化了步骤，将预处理过程写入系统中，不需要人工对文本做初步处理；

2、本发明通过多模型叠加，大大增强了对文本特征的获取能力，通过自行设计的非平衡Bi-LSTM网络，与传统的Bi-LSTM网络相比，提高了对双向文本特征的获取能力，从这两点出发大大提高了文本分类的精度，经过试验与单一BERT模型相比该方法将分类精度提高约8％；

3、本发明使用多层注意力机制，而非传统方法的单层注意力机制，相比于现有技术能够更好地提高分类精度。

附图说明

图1为本发明的流程图；

图2为BERT模型的输入；

图3为BERT模型示意图；

图4为非平衡Bi-LSTM网络示意图；

图5为为多层注意力机制示意图；

图6为本发明的原理示意图。

具体实施方式

下面结合附图对本发明进行详细说明。

文本分类是自然语言处理的重要组成部分，在网络新闻文本分类中，针对其文本类别多、分类复杂的问题，且蕴含重要信息的特征分布不均匀的问题，本发明提出了一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法，该方法实际工作流程如附图1所示，完整模型如附图6所示，具体包含以下步骤：

本发明提供一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法，首先利用BERT模型将原始中文语料矢量化并提取初步的语义特征，随后利用非平衡Bi-LSTM网络增加蕴含重要语义的文本信息权重，进一步提高关键特征对中文文本识别的效果，同时利用多层注意力机制拉大关键文本信息与非关键信息的差距，最后使用Softmax函数进行分类。通过与多种模型进行分类效果比对，结果表明该模型能显著提高中文文本分类的准确性，具有很强的中文文本特征识别能力，且能够显著提高文本的分类精度。如图1所示，具体包括以下步骤：

步骤1：预先获取若干条中文文本。

从网络获取若干条文本；数据为网络中的新闻文本，并标定输入神经元长度为m，超过m的部分舍弃，不足m的部分用空格补足。

步骤2：使用BERT预训练模型将预先获取的文本矢量化处理。

首先对输入文本进行编码将之矢量化，实际的输入值包含三个部分：词向量(Token Embeddings)、句向量(Segment Embeddings)、位置向量(Position Embeddings)，该方法的实际输入如附图2所示。

利用BERT预训练模型作为语言特征提取和表示方法，既能获取新闻文本的丰富的语法、语义特征，又能解决传统基于神经网络结构的语言特征表示方法忽略词语多义性的问题。BERT模型采用而是采用层次架构的Transformer语言模型，其结构如附图3所示。

BERT的预训练过程采用无监督方式，通过特殊的随机遮掩词(Masked LanguageModel)和下一句预测(Next Sentence Prediction)机制实现对中文语料语义的理解。

随机遮掩词的过程可以理解为完形填空，通过随机遮掩每一个句子中15％的词，例如：

My dog is hairy→My dog is[MASK]

然后根据上下文对语义的理解对遮掩词进行预测。为了防止在微调阶段某些单词从未出现，从而影响对全文语义的理解，并未在训练的全过程使用遮掩词机制，而是采用以下机制：

·80％的时间使用随机遮掩，My dog is hairy→My dog is[MASK]

·10％的时间随机取词代替被mask的词，My dog is hairy→My dog is Apple

·10％的时间不使用随机遮掩，My dog is hairy→My dog is hairy

在一定的时间采用随机词的原因是，给一定的干扰选项，防止在训练中Transformer模块记住[MASK]部分就是“hairy”，使用随机词会产生的误差影响，可忽略不计。

所谓下一句预测即在训练的过程中，BERT模型会在训练语料中随机选择一些句子对，设为A与B，在挑选的特定语料中，有50％的数据中句子B是A的下一句，剩余的数据中A与B没有直接联系。通过训练寻找关联语句的潜在联系，获取更深层的语义特征。

随机遮掩词和下一句预测在BERT模型对词向量的训练过程中是并行进行的。BERT首先使用随机遮掩提高感受野内的信息获取量，但是在随机遮掩的过程中加入了一部分的噪声，这在一定程度导致学习能力的下降。通过随机遮掩词与下一句预测的联合训练，以下一句预测的结果为方向引导，作为对随机遮掩词预测的修正，在削弱噪声影响的同时增强对文本语义的学习。

步骤3：利用非平衡Bi-LSTM网络提取文本的深层特征。

非平衡Bi-LSTM网络为本发明的最大创新之处，全称为非平衡长短时记忆网络(Nonequilibrium Bi-LSTM，NEBi-LSTM，NEBi-LSTM)其工作原理如附图4所示。通过在非平衡Bi-LSTM网络的前后向两层的每个基础LSTM单元进行循环，提取语义特征，之后通过一组特定权重β整合前后向特征，形成下一层输入。

传统的Bi-LSTM网络对于前后向所提取的特征进行同权叠加，由于文本特征分布是不均衡的，且受到文本语言、文本类型等各方因素的影响，不同文本间的差异性很大。例如，新闻文本代表其类型的关键词句往往在文本开篇就可体现，但是科技论文等专业性的文章的关键词句需要通读全文以理解。忽视文本间的差异性，对所有文本均采用前后向同权处理显然极不合理，且没有充分利用Bi-LSTM网络提取的语义特征。为此我们提出了一种前后向不同权的NEBi-LSTM网络，通过设置不同的前后向权重比，以达到最大限度的利用Bi-LSTM网络捕获的文本特征。

本发明所提出的NEBi-LSTM网络，在保留之前网络优点的同时，通过在网络前后向组合之间加以权重值β，该值代表网络的前后向比重，对于不同类型的文本取不同β值，用以更好地提取新闻文本的语义特征。

每个LSTM网络的基本单元的门结构可分为四层：输入门、遗忘门、当前时刻细胞状态、输出门。四个部分组合控制该单元处理前一时刻输入与当前时刻输出。

输入门的更新如公式(1)所示：

其中，δ为sigmoid激活函数，h^t-1为上一时刻的隐藏状态，x^t为当前时刻的信号输入，W_input和B_input为输入门计算的系数矩阵和偏移量。

遗忘门的更新如公式(2)所示：

其中，W_forget和B_forget为遗忘门计算的系数矩阵和偏移量。

当前细胞状态的更新如公式(3)(4)所示：

其中，tanh为激活函数，W_cell和B_cell为当前时刻细胞状态计算的系数矩阵和偏移量，

为当前时刻的临时细胞状态。

输出门的更新如公式(5)所示：

W_output和B_output为输出门计算的系数矩阵和偏移量。

当前时刻隐藏层状态的更新如公式(6)所示：

隐藏层状态将作为下一个单元的输入继续循环。

完成上述多个LSTM基本单元的循环训练后，得到前向输出信号h_forward和后向输出信号h_backward，传统的Bi-LSTM网络不考虑前后向权重问题，其信号输出如公式(7)所示：

H＝h_forward+h_backward (7)

本文通过增加前后向权重系数β用以区分以及更好的利用前后向信息，改进后的信号输出如公式(8)所示：

H＝β·h_forward+(1-β)·h_backward (8)

其中，β值通过自适应学习得到，将前后向LSTM最后一个时间步的输出各加上一个1×1的卷积，相当于为前后向加上不同权重值，然后通过训练找到适用于该文本的最佳前后向权重比，其比值就是β。

步骤4：利用多层注意力机制从词、句两个层级对深层特征信息加以权重。

将网络层输入的经过特征提取的文本向量，首先从单词一级对每个词向量各加以权重，突出蕴含能够显示文本类别的关键词，之后从句子层级对文本中的每一句话加以权重，突出关键句，最后形成输出到最后的分类层。

在本实施例中，采用多层注意力机制(HAN)。该机制从单词和文本两个层级概括语义信息，首先在单词层面上找出每句话的关键词，然后句子层级上为每句话加以权值，从两个层级获取语义信息。多层注意力机制的结构如付图5所示。

多层注意力机制的结构主要分为四个部分:(1)对词序列编码，(2)基于单词级的注意力层，(3)对句子序列编码，(4)基于句子级的注意力层。

单词级的注意力层的权重计算如公式(7)(8)(9)所示：

u_i,t＝tanh(W_wordh_i,t+b_word) (7)

其中u_i,t为h_i,t的隐层表示，a_i,t是经过归一化的权重系数，W_word和b_word是随机初始化的系数矩阵和偏移量，之后会作为模型的参数参与训练，s_i是第i个句子的向量表示。

句子级的注意力层的权重计算如公式(10)(11)(12)所示：

u_i＝tanh(W_senh_i+b_sen) (10)

其中u_i为h_i的隐层表示，a_i是经过归一化的权重系数，W_sen和b_ben是随机初始化的系数矩阵和偏移量，之后会作为模型的参数参与训练，v就是整个文本的向量表示。

步骤5：使用Softmax函数对文本进行分类。

在本实施例中，采用全连接层输出每条网络文本在不同类别标签上的概率。在本实施例中，采用清华大学自然语言处理与社会人文计算实验室的THCNews中文文本数据集，该文本共包括60000条新闻文本，包含10类标签，分别为“体育”、“娱乐”、“家居”、“房产”、“教育”、“时尚”、“时政”、“游戏”、“科技”、“财经”等。本发明的方法可以给出每条评论在这10类标签上的概率，实现新闻文本分类。

综上所述，本发明提供了一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法，该方法首先利用BERT模型将原始中文语料矢量化并提取初步的语义特征，随后利用非平衡Bi-LSTM网络增加蕴含重要语义的文本信息权重，进一步提高关键特征对中文文本识别的效果，同时利用多层注意力机制拉大关键文本信息与非关键信息的差距，最后使用Softmax函数进行分类。通过与多种模型进行分类效果比对，结果表明该模型能显著提高中文文本分类的准确性，具有很强的中文文本特征识别能力。相比现有的技术，该方法能够显著提高文本的分类精度，可广泛应用于各种文本的分类。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。