CN113779959B

CN113779959B - 小样本文本数据混合增强方法

Info

Publication number: CN113779959B
Application number: CN202111011031.3A
Authority: CN
Inventors: 代翔; 廖泓舟; 潘磊
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2023-06-06
Anticipated expiration: 2041-08-31
Also published as: CN113779959A

Abstract

本发明公开的一种小样本文本数据混合增强方法，简洁、完备、自适应强。本发明通过下述技术方案实现：基于文本数据增强目标，将原始文本分为长文本数据和短文本数据，自动分开区分处理，对长文本数据进行同义词替换、随机插入、随机交换和随机删除，对不同长度的文本自动适配，对短文本数据进行回译增强，统计分析文本数据样本长度分布，将数据样本分布细分为更细粒度的组并进行掩码预测或预训练；将每个文本数据样本归类到不同的组，对不同组的文本数据样本，按组设置不同的掩码概率，通过降噪自编码过程进行掩码预测，实现文本数据二次增强；根据小样本数量生成批量增强文本，实现小样本文本数据混合增强。提高文本增强数量，同时保证增强质量。

Description

小样本文本数据混合增强方法

技术领域

本发明是关于人工智能、自然语言处理等诸多信息处理领域，主要用于文本分类的数据增强技术，特别是涉及文本数据综合增强技术。

背景技术

数据增强，即通过转换为机器学习人工创建训练数据，是跨机器学习学科广泛研究的研究领域。它不仅对于提高模型的泛化能力很有用，也可以解决许多其他挑战和问题，从克服有限数量的训练数据到规范目标到限制用于保护隐私的数据量。数据增强指借助辅助数据或辅助信息,对原有的小样本数据集进行数据扩充或特征增强.数据扩充是向原有数据集添加新的数据,可以是无标签数据或者合成的带标签数据；特征增强是在原样本的特征空间中添加便于分类的特征,增加特征多样性。训练数据的增加并不总是导致学习问题的解决方案。尽管如此，数据对于监督分类器的质量仍然是决定性的。计算机视觉领域中就存在着许多不同的方法来人工创建此类数据，称为数据增强。数据增强有助于实现许多目标，包括正则化、最小化标签工作、降低敏感领域中真实世界数据的使用、平衡不平衡的数据集以及提高对抗对抗性攻击的鲁棒性。在高层次上，数据增强方法分为应用于特征空间和数据空间的方法。然后将这些方法细分为更细粒度的组，从噪声诱导到全新实例的生成。文本数据增强有许多对比形式，相比之下，自然语言处理(NLP)中的数据增强研究难以为文本数据的转换建立通用的可以在保持标签质量的同时自动执行规则。由于迁移学习的兴起，这些方法面临着另一个挑战。例如，许多数据增强方法在使用大型预训练语言模型时无法获得收益，因为它们本身已经对各种变换保持不变。随着迁移学习方法的使用越来越多，一些数据增强方法已经过时，因为它们遵循类似的目标。此外，就像Shorten和Khoshgoftaar描述的那样，数据增强无法涵盖所有转换可能性并消除原始数据中的所有类型的偏差。各种各样的技术和一些非常复杂的方法也带来了另一层需要理解的复杂性。此外，数据增强可能需要大量时间，因此并非所有方法都适用于时间关键的机器学习开发领域，例如，在危机信息学的某些领域。随着数据增强，也需要更多资源，尤其是在训练生成模型的背景下。当前的有监督的深度学习模型，如果想获得高性能，需要依赖于大量的标注训练数据。然后，在实际上项目中，往往存在训练样本少、标注数据成本高等情况。在这种情况下，我们就需要用到文本数据增强技术。

随着近些年来深度学习的发展，基于深度神经网络的分类器在有充足标签样本为训练数据的前提下可以达到很高的准确度。深度神经网络的分类器往往在一些场景下，有标签的数据难以收集或者获取这些数据成本高昂，费时费力。当数据不足时，神经网络很难稳定训练并且泛化能力较弱。由于深度学习模型框架的结构越来越复杂，网络越来越深。参数量的增加意味着训练模型需要更多的数据。然而人工标注数据的成本是高昂的，且受客观原因所限，实际应用时可能难以获得特定领域的数据，数据不足问题非常常见。如何在小规模数据集上有效的训练神经网络成为当下的一个研究热点，其中数据增强是解决小样本数据训练的重要途径。比如从句子中随机选择一个非停用词，然后随机选择该词的一个同义词。将该同义词插入到句子中的随机位置。此过程重复n次。句子中的每个词，以概率p进行随机删除。长句子相对于短句子，存在一个特性：长句比短句有更多的词，因此在保持原有的类别标签的情况下，长句能吸收更多的噪声。为了利用这个特性，EDA的作者提出一个方法：基于句子长度来调整需要改变的词数。具体实现：对同义词替换、随机插入和随机交换，遵循公式：n＝α*ln＝\alpha*ln＝α*l，其中，l表示句子长度，α\alphaα表示一个句子中需要改变的词数的比例。对随机删除，遵循公式：p＝αp＝\alphap＝α。另外，每个原始句子，生成n augn_{aug}naug个增强的句子。在之前对yolov3的学习中，有时候发现小样本数据集容易出现过拟合或者泛化能力不强的问题。由于EDA在进行数据增强操作的过程中，有可能会改变句子原来的意思，但是仍然保留原始的类别标签，从而产生了标签错误的句子。所以EDA存在降低模型性能的可能。

图像数据增强是数据增强技术一个很成熟的技术领域，通过对图像的翻转、旋转、镜像、高斯白噪声等技巧实现数据增强。对图像数据的增强不仅方法多种多样，各种各样的方法被提出，比如简单的旋转、翻折以及对抗神经网络等等。文本数据增强不同于图像领域的数据增强,因为文本是离散的,而图像是属于连续空间的。文本数据相比图像数据，语义信息更为丰富，图像本身具有特征平移不变形，而文本数据是上下文紧密联系的时序数据，数据增强需要考虑上下文关系，因此文本数据增强更为复杂，实际应用上缺乏完整的增强方法。相较于图像数据增强，文本数据分析能够有效帮助我们理解数据语料,快速检查出语料可能存在的问题,并指导之后模型训练过程中一些超参数的选择。但是文本数据增强现在还是有很多问题的。由于文本类别比较多，并且有部分类别数据量比较少，这将会影响算法的拟合。往更严格的角度看，文本数据增强更像是同义句生成，但又不完全是，它是一个更大范围的概念。很多时候，需要文本数据增强，一个是常常遇到的数据不足，另一个就是数据不均衡。现有小样本学习模型都是单一使用数据增强或迁移学习的方法,很多方法大多是利用辅助数据来增强样本空间，除此之外还可通过增强样本特征空间来提高样本多样性，因为小样本学习的一个关键是如何得到一个泛化性好的特征提取器。现有的数据生成方法的不足之处在于：1.没有捕捉到复杂的数据分布。2.不能泛化到小样本类别。3.生成的特征不具有可解释性。

发明内容

为进一步提高小样本文本数据的数量和质量，本发明针对现有应用中文本增强方法不完整的问题，提供一种简洁、完备、自适应强，比较稳定且有效的小样本文本数据混合增强方法，有利于后续文本分类等下游任务。

为达到上述的目的，本发明提供一种小样本文本数据混合增强方法，其特征在于包括如下步骤：基于文本数据增强目标，首先，将原始文本数据分为长文本数据和短文本数据，自动分开区分处理，对长文本数据进行同义词替换、随机插入、随机交换和随机删除增强，对不同长度的文本自动适配，同时对短文本数据进行回译增强；统计分析文本数据样本长度分布，将数据样本分布细分为更细粒度的组并进行掩码预测或预训练；将每个文本数据样本归类到不同的组，对不同组的文本数据样本，按组设置不同的掩码概率，通过降噪自编码过程进行掩码预测，实现文本数据二次增强文本数据，根据小样本数量生成批量增强文本，实现小样本文本数据混合增强。

本发明相比于现有技术具有如下显著优点：简洁性，本发明本发明针对长文本和短文本由于文本长度不同，同一增强方法往往在两种文本上的效果差异比较大的问题，基于文本数据增强目标，首先，将原始文本数据分为长文本数据和短文本数据，自动分开区分处理，提高了自适应性。然后，针对长文本数据进行同义词替换、随机插入、随机交换、随机删除增强，针对短文本数据进行回译增强；然后分析数据样本分布，细分为更细粒度的组并进行掩码预测或预训练，实现原理简单，易于工程实现，文本增强相关技术稳定可控，效果满足一般工程应用需求；比较稳定且有效。本发明为每个文本数据样本归类到不同的组，按组设置掩码概率，这样做的好处是长短文本都能更大程度学会上下文语义关系，减少训练过程与预测过程的偏移，比较稳定且有效。

完备性，本发明通过回译、掩码预测等多种方法综合增强，可以建立一套完整的文本数据增强流程，既提高小样本数量，又保证增强的质量，便于神经网络模型得到更充分的训练，提高文本分类等下游任务的性能。能通过多种增强方法进行混合增强，提高文本增强数量，同时保证增强质量。相比单一增强方法更为完备，增强质量更好。

本发明针对长短文本分别采取不同的方式增强文本数据，再通过掩码预测的方法进行二次增强，实现文本数据二次增强，生成批量增强文本，提高鲁棒性，实现了小样本文本数据混合增强，将直接提高后续文本分类等下游任务的性能，具有强大的性能，可达到Mask R-CNN同等的准确性，且在准确性方面优于最近的singleshot实例分割算法。

附图说明

为了更清楚地理解本发明，以下结合附图及实施例，对本发明进行进一步详细说明，同时参照附图，来描述本发明，其中：

图1是本发明小样本文本数据混合增强方法原理流程图。

图2是图1同义词替换实现原理示意图；

图3是图1长文本数据增强随机插入原理示意图；

图4是图1长文本数据增强随机交换原理示意图；

图5是图1长文本数据增强随机删除原理示意图；

图6是图1短文本数据增强原理示意图；

图7是图1掩码预测原理示意图。

具体实施方式

参阅图1。根据本发明，基于文本数据增强目标，首先，将原始文本数据分为长文本数据和短文本数据，自动分开区分处理，对长文本数据进行同义词替换、随机插入、随机交换和随机删除增强，对不同长度的文本自动适配，同时对短文本数据进行回译增强；统计分析文本数据样本长度分布，将数据样本分布细分为更细粒度的组并进行掩码预测或预训练；将每个文本数据样本归类到不同的组，对不同组的文本数据样本，按组设置不同的掩码概率，通过降噪自编码过程进行掩码预测，实现文本数据二次增强文本数据，根据小样本数量生成批量增强文本，实现小样本文本数据混合增强。

在以下可选的实施例中：

参阅图2。在分为长文本和短文本两类的原始文本数据中，选择待增强文本，对长文本数据进行同义词替换，设置替换比例，采用Jieba分词工具包进行Jieba分词，基于哈工大停用词表进行词图扫描，过滤停用词操作，过滤掉相同的词，打乱文本词的顺序，选择一个词，基于Synonym同义词库工具包进行同义词查找，对查找到的同义词进行随机选择，任

选一个同义词替换当前被选中的词，判断当前替换比例是否满足要求，如果满足则同义词替换完成，如果不满足，则重新选择一个新的词进行同义词查找并进行替换，直到满足替换比例要求。

参阅图3。选择待增强文本，设置插入比例，通过Jieba分词工具包进行Jieba分词，随机选择一个文本词，使用Synonym同义词库进行同义词查找并从结果中随机选择一个同义词，然后在原文本中随机选择一个插入点，将选择的同义词进行插入。判断当前插入比例是否满足要求，如果满足则随机插入完成，如果不满足，则重新选择一个文本词，进行同义词查找，随机选择同义词，随机选择插入点进行同义词插入，直到满足插入比例要求。

参阅图4。选择待增强文本，设置交换比例，通过Jieba分词工具包进行Jieba分词，然后随机选择词1和词2，判断词2是否被选择超过3次，如果词2被选择超过3次，则此次不进行随机交换，如果词2被选择不超过3次，则继续判断词1和词2是否相同，如果相同则重新选择词2，如果不相同，则将词1和词2进行位置交换。判断当前交换比例是否满足要求，如果不满足，则重新随机选择词1和词2进行随机交换，直到满足随机交换比例要求。

参阅图5。选择待增强文本，设置删除比例，通过Jieba分词工具包进行Jieba分词，然后随机选择一个词，同时随机产生一个0到1之间的随机数，判断随机数是否大于设定的删除比例，如果是则将选中的词进行删除，否则不进行删除，随机删除完成。

参阅图6。选择原始中文文本，设置回译次数，基于机器翻译语言模型将中文语言翻译为其它种类的语言，从其它种类的语言翻译转为中文，达到一次回译效果，然后判断当前回译次数是否满足设定的次数，如果满足，则直接输出增强后的中文文本，如果不满足设定的次数，则进行中文到多语言，然后多语言到中文的回译过程，直至回译次数达到要求后输出增强后的中文文本。

参阅图7。选择原始文本数据，使用自然语言处理工具包(LTP)先后进行文本分句、文本分词、词性标注、命名实体识别操作，获取文本人名、地名、组织名等实体，设置掩码预测比例和文本增强倍数；然后，选择一个文本句，选择句中任意一个命名实体，基于XLM-Roberta预训练模型对选中的命名实体进行掩码操作并进行实体预测，使用预测值进行实体替换，替换掩码的实体后，判断掩码预测比例是否满足要求，如果预测比例满足要求，则输出增强文本，然后判断文本增强倍数是否满足要求，如果满足增强倍数要求，则完成文本批量增强；如果预测比例不满足要求，则重新任意选择命名实体并重复以上掩码预测替换操作；如果增强倍数不满足要求，则重新选择文本句并重复以上掩码预测替换操作，直至满足增强倍数要求，完成文本批量增强。

以上所述为本发明较佳实施例，应该注意的是上述实施例对本发明进行说明，然而本发明并不局限于此，并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种小样本文本数据混合增强方法，其特征在于包括如下步骤：基于文本数据增强目标，首先，将原始文本数据分为长文本数据和短文本数据，自动分开区分处理，对长文本数据进行同义词替换、随机插入、随机交换和随机删除，对不同长度的文本自动适配，同时对短文本数据进行回译增强；统计分析文本数据样本长度分布，将数据样本分布细分为更细粒度的组并进行掩码预测或预训练；将每个文本数据样本归类到不同的组，对不同组的文本数据样本，按组设置不同的掩码概率，通过降噪自编码过程进行掩码预测，二次增强文本数据，根据小样本数量生成批量增强文本，实现小样本文本数据混合增强。

2.如权利要求1所述的小样本文本数据混合增强方法，其特征在于：在分为长文本和短文本两类的原始文本数据中，选择待增强文本，对长文本数据进行同义词替换，设置替换比例，采用Jieba分词工具包进行Jieba分词，基于哈工大停用词表进行词图扫描，过滤停用词操作，过滤掉相同的词。

3.如权利要求2所述的小样本文本数据混合增强方法，其特征在于：打乱文本词的顺序，选择一个词，基于Synonym同义词库工具包进行同义词查找，对查找到的同义词进行随机选择，任选一个同义词替换当前被选中的词，判断当前替换比例是否满足要求，如果满足则同义词替换完成，如果不满足，则重新选择一个新的词进行同义词查找并进行替换，直到满足替换比例要求。

4.如权利要求1所述的小样本文本数据混合增强方法，其特征在于：选择待增强文本，设置插入比例，通过Jieba分词工具包进行Jieba分词，随机选择一个文本词，使用Synonym同义词库进行同义词查找并从结果中随机选择一个同义词，然后在原文本中随机选择一个插入点，将选择的同义词进行插入；判断当前插入比例是否满足要求，如果满足则随机插入完成，如果不满足，则重新选择一个文本词，进行同义词查找，随机选择同义词，随机选择插入点进行同义词插入，直到满足插入比例要求。

5.如权利要求1所述的小样本文本数据混合增强方法，其特征在于：选择待增强文本，设置交换比例，通过Jieba分词工具包进行Jieba分词，然后随机选择词1和词2，判断词2是否被选择超过3次，如果词2被选择超过3次，则此次不进行随机交换，如果词2被选择不超过3次，则继续判断词1和词2是否相同，如果相同则重新选择词2，如果不相同，则将词1和词2进行位置交换。

6.如权利要求5所述的小样本文本数据混合增强方法，其特征在于：判断当前交换比例是否满足要求，如果不满足，则重新随机选择词1和词2进行随机交换，直到满足随机交换比例要求。

7.如权利要求1所述的小样本文本数据混合增强方法，其特征在于：选择待增强文本，设置删除比例，通过Jieba分词工具包进行Jieba分词，然后随机选择一个词，同时随机产生一个0到1之间的随机数，判断随机数是否大于设定的删除比例，如果是则将选中的词进行删除，否则不进行删除，随机删除完成。

8.如权利要求1所述的小样本文本数据混合增强方法，其特征在于：选择原始中文文本，设置回译次数，基于机器翻译语言模型将中文语言翻译为其它种类的语言，从其它种类的语言翻译转为中文，达到一次回译效果，然后判断当前回译次数是否满足设定的次数，如果满足，则直接输出增强后的中文文本，如果不满足设定的次数，则进行中文到多语言，然后多语言到中文的回译过程，直至回译次数达到要求后输出增强后的中文文本。

9.如权利要求1所述的小样本文本数据混合增强方法，其特征在于：选择原始文本数据，使用自然语言处理工具包LTP先后进行文本分句、文本分词、词性标注、命名实体识别操作，获取文本人名、地名、组织名等实体，设置掩码预测比例和文本增强倍数；然后，选择一个文本句，选择句中任意一个命名实体，基于XLM-Roberta预训练模型对选中的命名实体进行掩码操作并进行实体预测，使用预测值进行实体替换。

10.如权利要求9所述的小样本文本数据混合增强方法，其特征在于：替换掩码的实体后，判断掩码预测比例是否满足要求，如果预测比例满足要求，则输出增强文本，然后判断文本增强倍数是否满足要求，如果满足增强倍数要求，则完成文本批量增强；如果预测比例不满足要求，则重新任意选择命名实体并重复以上掩码预测替换操作；如果增强倍数不满足要求，则重新选择文本句并重复以上掩码预测替换操作，直至满足增强倍数要求，完成文本批量增强。