CN113076424A

CN113076424A - 一种面向不平衡文本分类数据的数据增强方法及系统

Info

Publication number: CN113076424A
Application number: CN202110441775.2A
Authority: CN
Inventors: 线岩团; 陈文仲; 相艳; 张亚飞; 王红斌
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-06

Abstract

本发明提供面向不平衡文本分类数据的数据增强方法及系统，包括数据清洗；文本预处理；先验信息统计；向量化；融入上下文信息；结构化自注意力机制；隐空间数据增强；训练模型；本发明采用融合类别先验信息的Mixup数据增强技术，能在隐状态空间合成样本，有效扩增用于文本分类的不平衡数据集中少样本类别的数据量，明显改善模型的泛化性能，显著提高模型在该类数据集上的正确率、精确率、召回率和F1值等评价指标；加入改进后的Mixup数据增强技术的模型进行训练，模型分类器能增强对数据集中少样本类别的分类准确率；适用于缓解用于文本分类的数据集中存在的数据不平衡问题，也适用于提高该类数据集中少样本类别的分类准确率的情形。

Description

一种面向不平衡文本分类数据的数据增强方法及系统

技术领域

本发明涉及一种面向不平衡文本分类数据的数据增强方法及系统，属于自然语言处理技术领域。

背景技术

随着互联网的快速发展以及各类智能终端的普及，网络上每天都会产生大量的文本数据，已经出现了“信息爆炸”的现象。此外，政府机构、各种社会组织团体的信息化建设日趋完善，一定层度上也丰富了网络世界的信息种类。网络中存在着来自社交媒体网站、电商平台、政府门户网站等的新闻、舆情、购物评论、法律文书等等形式多样的文本。在大数据时代如何利用网络世界纷繁复杂的信息，“沙里淘金”挖掘出潜在价值的信息，对于更好的服务于社会生产生活至关重要。

文本分类是自然语言处理领域的一个重要研究课题，相关研究最早可以追溯到利用专家规则进行分类。它的应用非常广泛，例如：垃圾邮件分类、新闻分类、词性标注、评论情感分类、自动问答等。如上所述，目前网络世界信息多样，研究人员在采用人工智能技术并利用从网络世界获取到的数据构建的数据集进行模型训练时，往往面临着很多问题。例如，目前很多领域构建的和文本有关的数据集就存在着严重的数据不平衡现象。在自然界中，长尾分布是比正态分布更为广泛存在的一种随机变量的分布。将数据集中的样本按照类别数量降序排列，可以从绘制出的样本类别分布图中直观的看到这种“长尾分布”现象。这种具有长尾分布的数据集存在着严重的数据不平衡问题。在传统的分类和识别任务中，训练数据的分布往往都会进行人工均衡，即不同类别的样本数量无显著差异。但“长尾分布”的趋势在从自然科学到社会科学的各个领域都是存在的，直接用长尾数据训练模型，往往会造成分类器对头部数据过拟合，在预测时往往忽略尾部类别的问题。

目前有很多研究人员关注到了数据集存在的数据不平衡问题。例如，在图像处理领域，Zhang等人提出了Mixup数据增强的方法从训练集中随机抽取图像样本并通过线性混合操作来合成新的图像样本，有效地改进了小样本图像分类的性能。而在文本分类领域，Hu等人就罪名预测任务中的数据集存在的数据不平衡问题，构建了联合罪名预测和法律属性预测的多任分类模型来提高低频罪名的预测性能。

在文本分类领域，本方法及系统关注到相关数据集中也存在着严重的数据不平衡问题。为了提高现有各种模型对少样本类别数据预测性能，本方法及系统采用了融合类别先验信息的Mixup数据增强方法来缓解“长尾分布”带来的不利影响。

发明内容

本发明提供了一种面向不平衡文本分类数据的数据增强方法及系统，以用于如何解决文本分类任务中现有模型对数据集中少样本类别的预测性能不佳以及数据不平衡问题，以便于扩增具有长尾分布的数据集中少样本类别的数据，改善模型的泛化性能，提高模型的各类评价指标的预测性能。

本发明的技术方案是：第一方面，本发明提供一种面向不平衡文本分类数据的数据增强方法，所述方法依次对待处理的存在数据不平衡问题的数据集经过如下处理：数据清洗、文本预处理、先验信息统计、向量化、融入上下文信息、结构化自注意力机制和隐空间数据增强。

作为本发明的进一步方案，所述方法包括以下步骤：

Step1、数据清洗：首先将待处理的存在数据不平衡问题的数据集中的数据以一种固定的格式存储；其次，进行去重、去噪处理，清洗后仍以一种固定的格式存储；

Step2、文本预处理：对数据清洗后样本的文本表示进行分词和词性标注；然后依据具体的文本分类任务具有的特性，对文本中的标点符号、数字、时间、地址、专有名词有选择的进行预处理；

Step3、先验信息统计：筛选出数据集中包含的所有类别的标签，对各类标签进行数字化编号；统计数据集中各类别样本的频率，计算每类样本的占比作为类别先验信息；

Step4、向量化：在批次训练过程中，将一个批次样本的文本表示输入嵌入层获取词嵌入；

Step5、融入上下文信息：在将样本的文本表示向量化后采用编码器将其中每个词都融入上下文信息；

Step6、结构化自注意力机制：得到了具有上下文语义的词序列的隐状态表示后，再采用结构化自注意力机制来计算文本的多个侧面的向量表示；

Step7、隐空间数据增强：经过以上的Step1-Step6处理后，在批次训练过程中随机抽取批次内的两对样本，利用它们所属类别样本的先验信息先后计算类别混合因子和标签混合因子，在此之后，再计算隐空间中的合成样本。

作为本发明的进一步方案，所述数据清洗包括将数据集中数据包括样本及其标签存储为格式化数据；数据清洗中的去重具体是指去除数据集中存在的重复冗余数据；数据清洗中的去噪具体是指去除数据集中的噪声数据，噪声数据包括空数据、残缺数据、无用数据、低信息量数据。

作为本发明的进一步方案，所述文本预处理包括对每个样本的文本表示进行分词和词性标注；文本中的数字包括金额、重量、年龄、含量、手机号、车牌号、银行账号；专有名词包括品牌名、人名地名组织机构名。

作为本发明的进一步方案，所述先验信息统计包括对数据集中每类样本的占比计算，将每类样本的占比作为先验信息在批次训练过程中计算类别混合因子和标签混合因子，进而指导隐空间中少样本类别的数据增强过程。

作为本发明的进一步方案，所述向量化包括一个批次内各样本经过嵌入层获取各个词语的向量化表示过程，这里的嵌入层使用预训练词向量，包括word2vec、glove。

作为本发明的进一步方案，所述结构化自注意力机制包括从多个侧面捕捉分类细节的向量表示。

作为本发明的进一步方案，所述隐空间数据增强中，按公式(1)来计算隐空间中的合成样本；

其中，f(*)为将文本编码为向量的神经网络，λ∈[0,1]为样本的混合因子，由Beta(α,α)分布采样得到，α为超参数，λ_y∈[0,1]为标签的混合因子，(x_i,y_i)和(x_j,y_j)是从一个批次中随机抽取的样本对；

公式(1)中标签的混合因子λ_y需要在计算类别的混合因子λ_p后再结合样本的混合因子λ进行计算，计算方法如公式(2)所示：

而类别的混合因子λ_p的计算参照公式(3)，其中2对样本的先验信息p(x_i)、p(x_j)的计算在先验信息统计中已经完成；

第二方面，本发明还提供一种面向不平衡文本分类数据的数据增强系统，该系统包括用于执行上述第一方面的方法的模块。

本发明的有益效果是：

与已有的从多任务联合学习和融入外部知识的方法不同，本发明从数据增强的角度来改进模型对数据不平衡的泛化性能。本发明没有引入辅助任务，也无需额外的人工标注，且编码阶段并不依赖具体的编码器，但能简单有效地实现数据增强，提高模型对少样本类别的分类准确率。

附图说明

图1是本发明实施例一中面向不平衡文本分类数据的数据增强方法及系统的流程示意图；

图2是本发明实施例一中构建的面向不平衡文本分类数据的数据增强系统的模型架构图。

具体实施方式

实施例1：如图1-2所示，第一方面，本发明提供的一种面向不平衡文本分类数据的数据增强方法，所述方法包括以下步骤：

Step2、文本预处理：对数据清洗后样本的文本表示进行分词和词性标注；然后依据具体的文本分类任务具有的特性，对文本中的标点符号、数字、时间、地址、专有名词等有选择的进行预处理；

Step4、向量化：在小批次训练过程中，将一个批次样本的文本表示输入嵌入层(Embedding Layer)获取词嵌入(Word Embedding)；

作为本发明的进一步方案，本发明还可以包括如下步骤：

Step8、训练模型：构建面向不平衡文本分类数据的数据增强模型，并将增强后的合成样本加入模型进行训练；

基于以上Step1～Step7的步骤即可实现在隐空间中利用先验信息引导的Mixup技术对少样本类别数据进行数据增强，进而缓解在文本分类时存在的数据不平衡问题。该方法不依赖特定的编码器，将步骤Step7处理后的数据输入线性层和Softmax激活函数即可实现文本分类。

作为本发明的进一步方案，所述数据清洗包括将数据集中数据包括样本及其标签存储为格式化数据(注：这里的数据集不限于公共数据集，存储格式也不限于.json、.txt)；去重具体是指去除数据集中存在的重复冗余数据；去噪具体是指去除数据集中的噪声数据，噪声数据包括但不限于空数据、残缺数据、无用数据、低信息量数据。

作为本发明的进一步方案，所述文本预处理包括对每个样本的文本表示进行分词和词性标注(注：这里的分词和词性标注工具包括但不限于Jieba、THULAC、LTP)；文本中的数字包括金额、重量、年龄、含量、手机号、车牌号、银行账号等；专有名词包括品牌名、人名地名组织机构名等。

作为本发明的进一步方案，所述先验信息统计包括对数据集中每类样本的占比计算，这里假设数据集的数据量足够大，每类样本的占比已经可以近似代替它们出现的概率。将每类样本的占比作为先验信息在小批次训练过程中计算类别混合因子和标签混合因子，进而指导隐空间中少样本类别的数据增强过程。

作为本发明的进一步方案，所述向量化包括一个批次内各样本经过嵌入层获取各个词语的向量化表示过程，这里的嵌入层使用预训练词向量，包括但不限于word2vec、glove。

作为本发明的进一步方案，融入上下文信息包括的编码过程用到的编码器包括但不限于LSTM、GRU；

作为本发明的进一步方案，结构化自注意力机制包括从多个侧面捕捉分类细节的向量表示。样本的文本表示中各个句子中不同词语的重要性不同，它们所携带的信息对分类器的贡献大小不同，通过注意力机制从不同侧面捕捉到的细节向量表示对提高模型的分类性能有重要作用；

为了能在训练过程中通过Mixup扩增少样本类别的数据，本方法通过融合各类别样本的先验信息来指导Mixup数据增强为少样本类别赋予更大的合成因子，使得合成样本的标签更偏向于少样本类别。为了得到公式中(1)中标签的混合因子λ_y需要在计算类别的混合因子λ_p后再结合样本的混合因子λ进行计算，计算方法如公式(2)所示：

而类别的混合因子λ_p的计算参照公式(3)，其中2对样本的先验信息p(x_i)、p(x_j)的计算在先验信息统计的计算中已经完成；

作为本发明的进一步方案，在所述Step8中，面向不平衡文本分类数据的数据增强系统的具体结构可以包括如下：

第一层为嵌入层。将文本的词序列输入到嵌入层得到词序列的向量表示；

第二层为编码层。编码层采用双向长短时记忆网络(Bi-LSTM)实现，以词序列的向量表示为输入计算词语在上下文中的向量表示；

第三层为自注意力层。将融入上下文语义信息的隐状态表示作为注意力层的输入，利用两层感知机计算得到该层的注意力权重矩阵A，计算过程如公式(4)所示，接下来将词序列的隐状态表示H和注意力权重矩阵A相乘得到文本的矩阵表示Z，如公式(5)所示，然后将矩阵Z中的r个向量拼接得到文本的向量表示z；

A＝softmax(W_s2tanh(W_s1H^Τ)) (4)

Z＝AH (5)

第四层为隐空间数据增强层。在模型训练过程中，从一个批次内随机抽取2对样本，按照公式(1)来得到隐状态空间中的合成样本。公式中的f(*)为前三层的将文本编码为向量的神经网络，λ为样本的混合因子，由Beta(α,α)分布采样得到，而标签的混合因子的计算参见公式(2)和公式(3)。

第五层为分类层。该层以第三层和第四层产生的输出作为输入，经由线性层和softmax激活函数预测各罪名的概率，如公式(6)所示。

作为本发明的进一步方案，分类层的输出单元数为数据集中样本标签数。

作为本发明的进一步方案，在所述步骤Step8中，训练模型还可以具体包括具体设置：

Step8.1、预处理

样本的词序列最大词序列长度设为500；

词频低于5的词被视为未知词；

Step8.2、嵌入层

词嵌入的维度设为100；

Step8.3、编码层

嵌入层和Bi-LSTM层的dropout分别设为0.3和0.1；

Step8.4、注意力层

注意力层机制的数目设为24；

注意力层的维度设为64；

Step8.5、隐空间数据增强层

样本的混合因子λ由参数α＝150的Beta(α,α)分布采样得到；

Step8.6、小批次梯度训练

模型采用Adam梯度下降算法，初始学习率设为0.001，β₁＝0.9，β₂＝0.999，ε＝e-8最大训练轮次设为50，批次大小设为256；

第二方面，下面为本发明系统实施例，本发明实施例还提供一种面向不平衡文本分类数据的数据增强系统，该系统包括用于执行上述第一方面的方法的模块。

数据清洗模块，用于将待处理的存在数据不平衡问题的数据集中的数据以一种固定的格式存储；其次，进行去重、去噪处理，清洗后仍以一种固定的格式存储；

文本预处理模块，用于对数据清洗后样本的文本表示进行分词和词性标注；然后依据具体的文本分类任务具有的特性，对文本中的标点符号、数字、时间、地址、专有名词有选择的进行预处理；

先验信息统计模块，用于筛选出数据集中包含的所有类别的标签，对各类标签进行数字化编号；统计数据集中各类别样本的频率，计算每类样本的占比作为类别先验信息；

向量化模块，用于在批次训练过程中，将一个批次样本的文本表示输入嵌入层获取词嵌入；

融入上下文信息模块，用于在将样本的文本表示向量化后采用编码器将其中每个词都融入上下文信息；

结构化自注意力机制模块，用于在得到了具有上下文语义的词序列的隐状态表示后，采用结构化自注意力机制来计算文本的多个侧面的向量表示；

还用于利用结合融入了上下文信息的隐状态得到每个样本的整个文本的向量表示；

隐空间数据增强模块，用于在小批次训练过程中随机抽取批次内的两对样本，利用它们所属类别样本的先验信息先后计算类别混合因子和标签混合因子，在此之后，再按公式(1)来计算隐空间中的合成样本；

在一种可行的实施方式中，本实施例的系统还包括：

训练模型模块，用于构建面向不平衡文本分类数据的数据增强模型，并将增强后的合成样本加入模型进行训练；

在一种可行的实施方式中，本实施例的系统还包括：中央处理模块，用于和其他模块进行通讯，协调完成相关动作；

所述数据清洗模块、文本预处理模块、先验信息计算模块、向量化模块、融合上下文信息模块、结构化自注意力机制模块、隐空间数据增强模块和训练模型模块均与中央处理模块连接。

在一种可行的实施方式中，所述数据清洗模块，具体用于：

将数据集中数据包括样本及其标签存储为格式化数据；数据清洗中的去重具体是指去除数据集中存在的重复冗余数据；数据清洗中的去噪具体是指去除数据集中的噪声数据，噪声数据包括空数据、残缺数据、无用数据、低信息量数据。

在一种可行的实施方式中，所述文本预处理模块，具体用于：

对每个样本的文本表示进行分词和词性标注；文本中的数字包括金额、重量、年龄、含量、手机号、车牌号、银行账号；专有名词包括品牌名、人名地名组织机构名。

在一种可行的实施方式中，所述先验信息统计模块，具体用于：

对数据集中每类样本的占比计算，将每类样本的占比作为先验信息在批次训练过程中计算类别混合因子和标签混合因子，进而指导隐空间中少样本类别的数据增强过程。

在一种可行的实施方式中，所述向量化模块，具体用于：

将一个批次内各样本经过嵌入层获取各个词语的向量化表示，这里的嵌入层使用预训练词向量，包括word2vec、glove。

在一种可行的实施方式中，所述结构化自注意力机制模块，具体用于：

从多个侧面捕捉分类细节的向量表示。

在一种可行的实施方式中，所述隐空间数据增强模块，具体用于：

按公式(1)来计算隐空间中的合成样本；

综上所述，上述实施例的一种面向不平衡文本分类数据的数据增强方法及系统，采用融合类别先验信息的Mixup数据增强技术，它能在隐状态空间中合成样本，有效地扩增用于文本分类的不平衡数据集中少样本类别的数据量，明显地改善模型的泛化性能，也显著地提高模型在该类数据集上的正确率、精确率、召回率和F1值等评价指标；采用加入改进后的Mixup数据增强技术的模型进行训练，模型分类器能增强对数据集中少样本类别的分类准确率；适用于缓解用于文本分类的数据集中存在的数据不平衡问题，也适用于提高该类数据集中少样本类别的分类准确率的情形。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种面向不平衡文本分类数据的数据增强方法，其特征在于：所述方法依次对待处理的存在数据不平衡问题的数据集经过如下处理：数据清洗、文本预处理、先验信息统计、向量化、融入上下文信息、结构化自注意力机制和隐空间数据增强。

2.根据权利要求1所述的一种面向不平衡文本分类数据的数据增强方法，其特征在于：所述方法包括以下步骤：

3.根据权利要求1所述的一种面向不平衡文本分类数据的数据增强方法，其特征在于：所述数据清洗包括将数据集中数据包括样本及其标签存储为格式化数据；数据清洗中的去重具体是指去除数据集中存在的重复冗余数据；数据清洗中的去噪具体是指去除数据集中的噪声数据，噪声数据包括空数据、残缺数据、无用数据、低信息量数据。

4.根据权利要求1所述的一种面向不平衡文本分类数据的数据增强方法，其特征在于：所述文本预处理包括对每个样本的文本表示进行分词和词性标注；文本中的数字包括金额、重量、年龄、含量、手机号、车牌号、银行账号；专有名词包括品牌名、人名地名组织机构名。

5.根据权利要求1所述的一种面向不平衡文本分类数据的数据增强方法，其特征在于：所述先验信息统计包括对数据集中每类样本的占比计算，将每类样本的占比作为先验信息在批次训练过程中计算类别混合因子和标签混合因子，进而指导隐空间中少样本类别的数据增强过程。

6.根据权利要求1所述的一种面向不平衡文本分类数据的数据增强方法，其特征在于：所述向量化包括一个批次内各样本经过嵌入层获取各个词语的向量化表示过程，这里的嵌入层使用预训练词向量，包括word2vec、glove。

7.根据权利要求1所述的一种面向不平衡文本分类数据的数据增强方法，其特征在于：所述结构化自注意力机制包括从多个侧面捕捉分类细节的向量表示。

8.根据权利要求1所述的一种面向不平衡文本分类数据的数据增强方法，其特征在于：所述隐空间数据增强中，按公式(1)来计算隐空间中的合成样本；

9.一种面向不平衡文本分类数据的数据增强系统，其特征在于，包括用于执行如权利要求1-8任一项权利要求所述的方法的模块。