CN111813939A

CN111813939A - 一种基于表征增强与融合的文本分类方法

Info

Publication number: CN111813939A
Application number: CN202010668999.2A
Authority: CN
Inventors: 刘峰; 陈一飞
Original assignee: Nanjing Rui Hui Data Technology Co ltd
Current assignee: Nanjing Rui Hui Data Technology Co ltd
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2020-10-23

Abstract

本发明涉及一种基于表征增强与融合的文本分类方法，包括构建基于表征增强与融合的文本分类模型，输入文本在基于表征增强与融合的文本分类模型内的处理步骤为：在数据表征层将输入文本的离散文字转换为连续特征向量，得到多重的表征向量；在表征增强层将扰动加入表征向量中，得到表征增强向量；在表征抽象层对表征增强向量进一步提取和抽象，得到抽象表征向量；在分类层对抽象表征向量进行分类，得到输出文本标签；在融合层综合各个输出文本标签，得到最终的文本标签。本发明能有效解决现有文本多类分类中存在的样本数据在类别间分布不平衡、少数类别中样本数量缺乏时正确分类困难的问题。

Description

一种基于表征增强与融合的文本分类方法

技术领域

本发明涉及文本分类技术领域，具体涉及一种基于表征增强与融合的文本分类方法。

背景技术

随着大数据时代的到来，电子文本数量急剧积累，面对如此庞大的文本数据，对其维护、管理和利用都具有极大的挑战性。利用文本分类技术，能自动的对大量复杂的文本这种非结构化数据进行分类，可以使用户更便捷、高效的对资料进行分类归档。

文本分类是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程。是自然语言处理中多年来一直研究的课题，也是经典的机器学习技术，其在句法分析、语义分析、信息抽取和web搜索等领域有着重要的应用。在自然语言处理中，文本分类的核心任务是如何表示文本特征，即如何得到文本的表征。在传统的文本分类中，常用词袋模型等构建文本向量模型(VSM)进行文本特征表示。为了提取更加有用和独特的特征，许多其他方法也进展起来，如LDA、PLSA和MI等。尽管许多研究者已经开发了一些更复杂的特征(如树核等)以提取更多的上下文信息和准确的词序，但仍然存在数据稀疏、维度灾难等问题，这些问题对分类精度有很大影响。为了更好的进行文本特征的表示，随着神经网络及深度学习技术的发展，词的分布表征在许多自然语言处理任务中得到了广泛的应用。通过对词分布的表征学习，把文本中出现的最小语义单位——词(或者字)通过一系列变换转化为计算机可识别可计算的稠密向量，因此表征学习的模型也称为词向量模型。Word2vec、GloVe、ELMo、BERT等一些列的词向量模型应运而生，其中通过注意力机制和多头机制获取了上下文信息的BERT模型更是使自然语言处理的多项任务性能显著提高。

然而，由于文本数据的复杂性在实际的文本分类应用中仍然存在很多挑战，使即使利于基于BERT等模型的文本表征，也不能得到理想的文本分类性能。例如：最常见的问题之一是，大量文本分类任务中，数据在类别间分布的不平衡的问题。某一些类别由于存在较多的标注数据，成为多数类别；而另一些类别由于数据难以获取或难以人工标注，只有较少或极少的标注数据，成为少数类别。这样使数据同时具有不平衡和缺乏的问题。从不平衡数据中学习分类是一项具有挑战性的任务。由于每个类的数据数量不均衡，它会对分类器的性能造成严重的不利影响。用不平衡数据训练的分类器倾向于预测属于大多数的类。因此，它忽略了少数类别的影响，将其与多数类别混为一谈。

为了解决分类时的数据分布不平衡的问题，有面向数据和面向算法的解决方式。在算法层面，成本敏感的技术主要通过调整各种类的成本来抵消类的不平衡。成本敏感的技术在没有改变原始数据数量的情况下，修改原有样本实例的成本，这样做计算代价非常昂贵，因此在面对实际问题时，并不切实可行。另外，数据变换是面向数据的一种常用方法，直接对数据进行修改，包括了欠采样方法、过采样方法和混合抽样方法，用于平衡类分布，是一种有效的处理非平衡分类方法。但是，这个简单的修改并不能解决一个潜在的关键问题：并不能真正学习到给定的不平衡数据的分布。幸运的是，深度学习为学习数据分布的隐式表达式提供了一种有效和健壮的方法。尤其是利用对抗学习，可以学习到数据近似真实的分布。

尽管基于对抗学习的方法可以用生成的数据来补充少数类，从而提高分类的性能，但是它们主要关注于图像数据的增强，如对图像增加噪声的低分辨率合成。但是这并不适用于文本数据的增强，因为文本是离散型数据，且加入一个较小的噪声就会影响整个句子的语义信息，故文本数据增强存在一定的难度。因此，亟需设计一种新的技术方案，以综合解决现有技术中存在的问题。

发明内容

本发明的目的是提供一种基于表征增强与融合的文本分类方法，能有效解决现有文本多类分类中存在的样本数据在类别间分布不平衡、少数类别中样本数量缺乏时正确分类困难的问题。

为解决上述技术问题，本发明采用了以下技术方案：

一种基于表征增强与融合的文本分类方法，包括构建基于表征增强与融合的文本分类模型，该模型包括对数据表征层、表征增强层、表征抽象层，分类层和融合层的处理步骤：

A.在数据表征层采用至少两种词向量表征方法将输入文本的离散文字转换为连续特征向量，得到至少两种表征向量，形成至少两个独立的文本分类子模型；

B.在表征增强层将扰动加入各表征向量中，得到各表征增强向量；

C.在表征抽象层对各表征增强向量进一步提取和抽象，得到各抽象表征向量；

D.在分类层对各抽象表征向量进行分类，得到各输出文本标签；

E.在融合层综合各个输出文本标签，得到最终的文本标签。

其中，输入文本在数据表征层的处理步骤为，采用三种词向量表征方法为输入文本生成三种表征向量：

1)使用预训练的词嵌入表征模型一，将输入文本中的每个离散文字映射到一个嵌入词向量，得到第一种表征向量，并形成第一个文本分类子模型；

2)使用预训练的词嵌入表征模型二，将输入文本中的每个离散文字映射到一个嵌入词向量，得到第二种表征向量，并形成第二个文本分类子模型；

3)使用预训练的词嵌入表征模型三，将输入文本中的每个离散文字映射到一个嵌入词向量，得到第三种表征向量，并形成第三个文本分类子模型。

表征向量在表征增强层的处理步骤为，利用表征增强器FA-FGM将扰动加到表征向量中；

其中，扰动为

式中，j为文本分类子模型种类，θ^j表示文本分类子模型的所有可训练参数，E(d)^j表示输入文本在文本分类子模型中相应的词嵌入表征向量，y是输入文本的类别标注，J(θ^j,E(d)^j,y)是训练该文本分类子模型神经网络的代价函数，J为代价函数，sign是一个符号函数，∈是模型的超级参数；

表征向量混合扰动ΔE^j后，产生表征增强向量X(d)^j，其中，X(d)^j＝E(d)^j+ΔE^j。

表征增强向量在表征抽象层通过BiLSTM-CNN网络获得表征的进一步提取和抽象，得到全连接层的输入，其中BiLSTM-CNN网络包括BiLSTM网络和CNN神经网络。

全连接层的输入在分类层的处理步骤为使用SoftMax函数进行分类，得到最终的网络输出标签

每个独立文本分类子模型均是单独训练的，其步骤为：

1)将每个独立文本分类子模型的目标代价函数J在

中定义；其中，s是总样本数，y为文本对应的类型标签，y_(q)是样本q的期望输出，

是文本标签，θ^j表示文本分类子模型的所有可训练参数：

2)之后将所有可训练参数θ^j使用Adam优化方法反向传播更新，其中需要更新的网络参数为

其中

为每个BiLSTM网络参数，

为每个CNN网络参数，

为每个全连接网络参数；

3)重复上述优化迭代直到目标域收敛。

最后，每个独立文本分类子模型的网络输出标签

在融合层采用投票方式，在少数服从多数的原则下，产生最终的文本标签。

上述技术方案中提供的基于表征增强与融合的文本分类方法，基于表征增强与融合的文本分类模型，通过对抗学习与集成学习，构建文本分类深度学习网络模型，对文本的表征进行增强和融合，改善特征空间分布，增强后特征不仅保留了大部分原有数据的分布，逼近特征空间的真实分布，而且融合了其多样性，因而有效提高了文本分类的性能，实现文本多类分类。

输入的文本在数据表征层，通过不同的词嵌入表征模型转换为多重的表征向量，同时基于产生表征向量的机制与方法的不同，形成不同的文本分类模型TC-1，TC-2和TC-3；在随后的表征增强层，利用FA-FGM表征增强器加入扰动，模拟数据特征的真实分布；增强后的特征通过BiLSTM-CNN网络提取更高级的抽象特性；并通过SoftMax得到相应本分类模型TC-1，TC-2和TC-3分类标签；最后，将分类模型TC-1，TC-2和TC-3得到的分类标签在融合层中，利用投票的方式，融合并输出最终的文本标签。

本发明针对现有中文文本分类中数据不平衡、数据缺乏的问题，提出了一种基于表征增强与融合的文本分类模型，该模型的创新主要体现在以下3个方面：

一、利用对抗学习，提出FA-FGM表征增强器，通过添加扰动，对文本的表征进行增强，改善特征空间分布，增强后特征不仅保留了大部分原有数据的分布，逼近特征空间的真实分布，因而能有效提高文本分类的性能。

二、利用提出的BiLSTM-CNN网络，对增强后的表征进一步抽象，上下文语义特征提取和抽象，提高表征的表达能力。

三、利用集成学习，在目前性能较好的几个预训练词向量表征模型的基础上，融合多重文本表征，从另一方面解决数据不平衡以及缺乏的问题，有效提高文本的分类性能。

本发明构建了一个通用高性能的中文文本分类模型，该模型具有较高的泛化能力，可以应用于不同的多类中文文本分类场景，特别当数据不平衡、数据缺乏时，有较好的鲁棒性。

附图说明

图1为本发明表征增强与融合的文本分类模型结构框图；

图2为本发明BiLSTM-CNN网络结构图；

图3为本发明实施例中文文本分类的流程图。

具体实施方式

为了使本发明的目的及优点更加清楚明白，以下结合实施例对本发明进行具体说明。应当理解，以下文字仅仅用以描述本发明的一种或几种具体的实施方式，并不对本发明具体请求的保护范围进行严格限定。

一种基于表征增强与融合的文本分类方法，包括构建基于表征增强与融合的文本分类模型(参考图1)，基于表征增强与融合的文本分类模型包括数据表征层、表征增强层、表征抽象层，分类层和融合层，输入文本在基于表征增强与融合的文本分类模型的处理步骤为：

首先对于给定的输入文本d＝(w₁，w₂，…w_n)，文本分类的输出是获得一个类别标签y，其中w_i是输入文本d中的一个文字(或标记)，y表示文本对应的类型标签，文本的长度为n。

1.数据表征层：为了表示输入文本d的线性上下文语义信息，数据表征层通过不同的词嵌入表征模型，将输入的离散文字w_i转换为连续特征向量。考虑到数据表征的全面性和多样性，本模型分别为每个文本生成了以下3个表征向量：

(1)E_CBert：使用预训练的中文词嵌入表征模型ChineseBERTWWM-EXT，将输入文本d中的每个离散文字w_i映射到一个嵌入词向量E_CBert_i，并连接形成第一个表征向量E_CBert。

(2)E_CRoBert：使用预训练的中文词嵌入表征模型ChineseRoBERTWWM-EXT，将输入文本d中的每个离散文字w_i映射到一个嵌入词向量E_CRoBert_i，并连接形成第二个表征向量E_CRoBert。

(3)E_ERNIE：使用预训练的中文词嵌入表征模型ERNIE，将输入文本d中的每个离散文字w_i映射到一个嵌入词向量E_ERNIE_i，并连接形成第三个表征向量E_ERNIE。

基于三种不同的产生表征向量的机制与方法，该模型形成了三个不同的独立文本分类子模型TC-1，TC-2和TC-3，即独立文本分类子模型TC-j，j＝1,2,3。

2.表征增强层：本发明使用基于表征增强器FA-FGM的方式添加扰动，为了适应文本的特点，本发明将扰动加到数据的表征中，也就是词嵌入表征向量E_CBert、E_CRoBert和E_ERNIE中，实现对表征的增强，而不仅是数据样本本身的增强。这里将词嵌入表征向量统一表示为E(d)^j，因此有E(d)¹＝E_CBert、E(d)²＝E_CRoBert和E(d)³＝E_ERNIE，其中d为输入文本，j表示不同的独立文本分类子模型，j＝1,2,3。

则为词嵌入表征向量产生如下扰动：

其中，θ^j表示文本分类子模型TC-j的所有可训练参数，在公式(11)中完整定义，E(d)^j表示输入文本d在子模型TC-j中相应的词嵌入表征向量，y是文本d的类别标注，J(θ^j,E(d)^j,y)是训练该文本分类子模型神经网络的代价函数，在公式(10)中定义。

公式(1)利用网络训练时，代价函数J的反向传播，计算所需的梯度，产生扰动ΔE^j，这种方法称为产生对抗性表征的“快速梯度法”。这里的sign是一个符号函数，为了防止梯度过大而做的标准化处理，∈是一个模型的超级参数，对扰动的大小幅度进行调节。

词嵌入表征向量混合扰动ΔE^j后，产生增强表征向量X(d)^j：

X(d)^j＝E(d)^j+ΔE^j(2)

因此，词嵌入表征向量E_CBert、E_CRoBert和E_ERNIE作为输入，通过表征增强层后，分别输出的表征增强向量分别为X(d)¹＝FA_CBert、X(d)²＝FA_CRoBert和X(d)³＝FA_ERNIE。

3.表征抽象层：表征增强向量FA_CBert、FA_CRoBert和FA_ERNIE作为本层输入，通过BiLSTM-CNN网络获得表征的进一步提取和抽象。BiLSTM-CNN网络主要由双向长短记忆(BiLSTM)和卷积(CNN)神经网络两部分组成(参考图2)。和上文一样，将增强后的表征统一表示为X(d)^j，因此有X(d)¹＝FA_CBert、X(d)²＝FA_CRoBert和X(d)³＝FA_ERNIE。

(1)BiLSTM网络：循环神经网络(RNN)由于能够利用序列中以前的依赖信息来处理当前输入，因此是文本处理任务的有力工具。LSTM是RNN在自然语言处理应用程序中的一种实用变体，它设计了一个存储单元，该存储单元收集输入序列的先前信息，然后以特定的顺序学习长距离依赖关系。将LSTM网络的输入X(d)^j，j＝1,2,3简化表示为X，它是一个序列长度t的向量x₁，x₂，…，x_t，它通过应用训练期间学习的非线性变换(公式3)得到长度相同的输出序列h₁，h₂，…，h_t；

在每个LSTM状态时间步骤t中，i_t是输入门，f_t是遗忘门，o_t是输出门，c_t是记忆单元，

是候补记忆单元，h_t是隐含状态。σ(·)和tanh(·)表示sigmoid函数和双曲正切激活函数，⊙表示内积。当输入向量序列X是前向的，则得到线性前向LSTM网络输出h^F；当输入向量序列X是后向的，则得到线性后向LSTM网络输出h^B；将前向和后向的两个LSTM网络的输出级联，可以得到最终的BiLSTM层输出h＝[h^F；h^B]。这里所有的W_L和b_L都是BiLSTM的可训练参数，统称为θ_L。

(2)CNN网络：经典卷积神经元网络(CNN)由交替堆叠的卷积层和池化层组成。

卷积层先通过线性卷积滤波器，随后通过非线性激活函数来抽取特征。通过BiLSTM网络后，一个长度为n的文本d可以表示为：

其中h_i为离散文字w_i通过BiLSTM层的输出，⊕是连接运算符。这里，假设用h_i:i+j来表示对词w_i,w_i+1,…w_i+j的表征h_i,h_i+1,…h_i+j的连接。CNN网络的卷积运算通过定义卷积滤波器W_C实现，它被应用到一个大小为k的文本窗口中以抽象出新的特征。例如：从大小为k的文本窗口x_i:i+k-1一个特征c_i：

c_i＝f(W_C·x_i:i+k-1+b_C) (5)

其中b_C是一个偏置项，f是一个非线性激活函数。此滤波器应用于句子中每个可能的单词表征窗口{h_1:k,h_2:k+1,…h_n-k+1:n}来产生更抽象的特征映射：

c＝[c₁,c₂,…,c_n-k+1] (6)

然后，采用最大池化操作max-pooling，为从每个滑动窗口产生的映射向量中筛选出一个最大的特征：

其思想是捕捉最重要的特征，即每个特征映射值最高的特征。

选取m个不同的卷积滤波器(比如可以使用3,4,5个词数分别作为卷积核的大小，即文本窗口的大小)，这样多个卷积滤波器就能学习到多个不同的表征映射c₁,c₂,…,c_m。所有滤波器的可训练参数集合为CNN网络的参数

c₁,c₂,…,c_m分别通过最大池化层后，能产生m个抽象表征的输出，

因此在其后的全连接层的输入为

同时，在全连接层上使用剔除(dropout)操作，防止网络过拟合：

o＝W_F·(zοr)+b_F (8)

其中，o为全连接层的输出，ο是元素乘法运算符，“掩码”向量r是基于概率为p的伯努利随机变量，其屏蔽单元为剔除(dropout)的单元。全连接网络的参数θ_F＝{W_F,b_F}。

4.分类层：本发明在分类层中采用了SoftMax函数进行分类。将全连接层的输出送入到softmax当中，得到最终的网络输出标签

公式(9)实际上表示了每个独立子分类模型TC-j的输出

独立分类子模型TC-j的最终目标代价函数定义为：

其中，s是总样本数，y_(q)是样本q的期望输出，

是样本在独立分类子模型TC-j中的输出结果。θ^j表示文本分类子模型TC-j的所有可训练参数：

5.融合层

在融合层，采用传统的投票方式综合每个TC-j模型的输出

在少数服从多数的原则下，产生最终的文本标签。

模型训练

本发明中，每个独立子模型TC-j(j＝1,2,3)都是单独训练的，步骤如下：

(1)每个独立子模型TC-j的目标代价函数在公式(10)中定义；

(2)TC-j参数使用Adam优化方法反向传播更新，需要更新的网络参数为：

包括每个BiLSTM网络参数

每个CNN网络参数

和每个全连接网络参数

(3)重复上述优化迭代直到目标域收敛。

每个模型的超级参数采用5折叠交叉验证的方法训练，超级参数包括：扰动参数∈、学习速率η、剔除概率dropout。

本实施例中文文本分类的具体过程如下(参考图3)：

(1)对训练集T_r进行文本预处理(包括分句、去停词、去标点)。

(2)对测试集Te采用同样的处理方法。

(3)在训练过程中，用预处理过的训练数据分别构建表征增强与融合的文本分类模型中的独立子分类模型TC-j：包括数据表征层、表征增强层、表征抽象层、分类层。每个独立子模型都是单独训练的，所有参数使用Adam优化方法反向传播更新，需要更新的网络参数为：

包括每个BiLSTM网络参数

每个CNN网络参数

和每个全连接网络参数

重复上述优化迭代直到目标域收敛。每个模型的超级参数采用5折叠交叉验证的方法训练，超级参数包括：扰动参数∈、学习速率η、剔除概率dropout。

(4)在测试中，将测试数据输入已训练的独立子分类模型TC-j后，在表征增强与融合的文本分类模的融合层，通过投票的方式得到输入文本的最佳类别标注。

本实施例将本发明所提供技术方案应用到实际的中文文本分类中。

实验数据

使用语料DataRT19-20，它来自真实的铁路车务安监数据，按照业务的需要一共分为77类。其中训练数据集为2019年全年数据，测试集为2020年1-4月份数据。训练数据一共27092条，测试数据2712条。表1给出了DataRT19-20中训练数据集和验证数据集的详细统计。从表格的训练数据中可以看出，77类中多数类别有上千条数据，而少数类别只有几条数据，数据极度的不平衡，同时少数类别数据也极度缺乏。

所有实验都是使用Keras实现模型网络的构建及参数的训练，并通过5折叠交叉验证对超参数进行调整，然后将最终模型训练在最佳组合集上。

表1 DataRT19-20中的类型和数量列表

实验结果

(1)表征增强与融合的文本分类模型效果比较

首先，基于相同数据集DataRT19-20，比较的表征增强与融合的文本分类模型与其他现有常用文本分类模型的性能。表2列出了系统和其他常用模型基于分类精度accuracy的比较。

表2文本分类模型性能比较

其中Text-CNN是现有最普遍使用的文本分类模型，该模型的构建基于卷积神经网络；Bert-base是基于Google提出的Bert网络构建的文本分类模型；Roberta-base是基于Facebook提出的Roberta网络构建的文本分类模型；Ernie是基于百度提出的Ernie网络构建的文本分类模型；Electra-base是基于斯坦福SAIL实验室提出的Electra网络构建的文本分类模型；Our system是本发明提出的表征增强与融合的文本分类模型。

表2的结果表明，本发明中提出的表征增强与融合的文本分类模型能达到最好的总体性能，并且与其他系统相比有着显著的差异。

(2)表征增强的性能分析

下面比较表征增强器FA-FGM性能。在表2的Bert-base、Roberta-base、Ernie和Electra-base模型上都分别添加表征增强器，对文本的表征进行增强，形成Bert-base+FA-FGM、Roberta-base+FA-FGM、Ernie+FA-FGM和Electra-base+FA-FGM模型。性能比较如表3所示。

表3表征增强的性能比较

从表3的结果可以看出，使用表征增强器FA-FGM后模型的性能均高于原有的模型，说明该方法能有效改善特征空间分布，增强后特征不仅保留了大部分原有数据的分布，逼近特征空间的真实分布。

(3)表征融合的性能分析

下面比较使用基于集成学习的表征融合方法的性能。比较3个独立子文本分类模型TC-1(Bert-base)、TC-2(Roberta-base)和TC-3(Ernie)，以及将他们的表征分类结果通过多数投票融合后的模型Our system的性能。

表4表征融合的性能比较

从表4的结果可以看出，使用表征融合后，集成模型的性能比3个独立子文本分类模型的性能均有提高，说明该方法能融合多重文本表征的多样性，从而提高了文本分类的性能。

上面结合实施例对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，对于本技术领域的普通技术人员来说，在获知本发明中记载内容后，在不脱离本发明原理的前提下，还可以对其作出若干同等变换和替代，这些同等变换和替代也应视为属于本发明的保护范围。