CN116579301A

CN116579301A - 文本数据增强方法及装置

Info

Publication number: CN116579301A
Application number: CN202310864231.6A
Authority: CN
Inventors: 徐琳; 王芳; 暴宇健
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-08-11

Abstract

本公开涉及计算机技术领域，提供了一种文本数据增强方法及装置。该方法包括：根据待处理文本的文本长度选取第一数值作为对待处理文本进行插入处理的第一插入符号的数量；将数量为第一数值的第一插入符号随机插入到待处理文本中，生成增强文本。本公开的技术方案可以获得较多的标注数据。

Description

文本数据增强方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种文本数据增强方法及装置。

背景技术

在使用机器学习模型进行文本分类任务训练时，一直受到标注数据不足问题的困扰。尤其在深度学习时代，对标注数据数量的需求更加迫切。而在传统行业中获取大量的标注数据的过程对人力和物力都有很高的要求。

不能获得足够的标注数据进行训练，将很大程度影响到文本分类任务的训练效果，进而影响到文本分类任务的分类效果。

发明内容

有鉴于此，本公开实施例提供了一种文本数据增强方法、装置、电子设备及计算机可读存储介质，以解决现有技术中不能获得足够的标注数据进行训练的技术问题。

本公开实施例的第一方面，提供了一种文本数据增强方法，该方法包括：根据待处理文本的文本长度选取第一数值作为对待处理文本进行插入处理的第一插入符号的数量；将数量为第一数值的第一插入符号随机插入到待处理文本中，生成增强文本。

本公开实施例的第二方面，提供了一种文本数据增强装置，该装置包括：选取模块，用于根据待处理文本的文本长度选取第一数值作为对待处理文本进行插入处理的第一插入符号的数量；插入模块，用于将数量为第一数值的第一插入符号随机插入到待处理文本中，生成增强文本。

本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在的有益效果是：本公开实施例的技术方案通过选取数量为第一数值的第一插入符号随机插入到待处理文本中，在不改变待处理文本的语序的情况下增加噪声，进行数据增强，从而可以获得足够的标注数据进行训练，优化文本分类任务的训练效果以及文本分类任务的分类效果。

进一步地，本公开实施例的技术方案提出一种通过使用标点符号、掩码符号和词表预留符号等插入符号来增加文本数据噪声的数据增强技术，通过在原始文本中随机或者按照一定概率规则插入一些插入符号，对原始文本进行噪声添加，从而形成新的增强数据文本。通过实验验证，本公开实施例技术方案中的文本数据增强方案在大部分公开数据集上的实施效果优于传统文本增强方法。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例提供的一种文本数据增强方法的流程示意图；

图2是本公开实施例提供的另一种文本数据增强方法的流程示意图；

图3是本公开实施例提供的一种文本数据增强装置的结构示意图；

图4是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

相关技术中，采用文本数据增强技术对训练标注数据进行扩充，可以增大标注数据的数量从而提高到文本分类任务的训练效果以及文本分类任务的分类效果。

数据增强指的是利用已有数据，采用某些方式，构造出和已有数据尽可能相似的同一类型的人造数据，这些人造数据尽可能和原有数据相似，又不能完全相同，这样在使用这些数据进行训练时，才能够模型训练产生正向效果，提升模型精度，减少模型过拟合。

当前使用的一种EDA（Easy Data Augmentation，简单数据扩充）技术是一种用于提高文本分类任务性能的简单数据增强技术。EDA由四个简单但功能强大的操作组成：同义词替换、随机交换、随机插入和随机删除。其中，同义词替换是指通过同义词表将句子中的词语进行同义词替换，随机交换是指随机交换句子的两个词语，改变语序，随机插入是指在原始句子中随机插入，句子中某一个词的同义词，随机删除是指随机删除句子中的词语。

进一步地，当前使用的纯规则的文本数据增强方法，可以随机以一定规则替换原文的部分词语，或者随机增加、删除一部分词语。这些方式都是对原文基于某些规则进行直接修改，这种修改往往造成增强得到的新句子语义不通顺，或已经偏离原句语义很多，从而影响增强的效果。

另外，进行文本数据增强时，还可以对句子进行回译，比如将中文原句经过机器翻译模型翻译成英文，再由另一个机器翻译模型从英文翻译回中文，这句新的中文就被作为增强语句使用。这种方法相对前述方法更加复杂，且耗时更多。这是因为性能较差的机器翻译模型会造成回译出来的句子质量较差，而提高机器翻译模型性能可能造成更多的模型成本提高，从而降低文本数据增强的经济性能。

并且，无论上述的哪种数据增强方式，都将改变原始文本的序列信息，从而将影响优化文本分类任务的训练效果以及文本分类任务的分类效果。

为解决以上问题，本公开实施例提供一种文本数据增强方案，以获得足够的标注数据进行训练，优化文本分类任务的训练效果以及文本分类任务的分类效果。

下面将结合附图详细说明根据本公开实施例的文本数据增强方法和装置。

图1是本公开实施例提供的一种文本数据增强方法的流程示意图。本公开实施例提供的方法可以由任意具备计算机处理能力的电子设备执行，例如终端或服务器。如图1所示，该文本数据增强方法包括：

步骤S101，根据待处理文本的文本长度选取第一数值作为对待处理文本进行插入处理的第一插入符号的数量。

具体地，在将第一插入符号插入到待处理文本之前，需要确定插入到当前待处理文本的第一插入符号的数量以及第一插入符号插入到待处理文本中的位置。在本公开实施例中，插入到当前待处理文本的第一插入符号的数量根据待处理文本的文本长度选取。其中，待处理文本即为原始文本。

步骤S102，将数量为第一数值的第一插入符号随机插入到待处理文本中，生成增强文本。

具体地，第一插入符号插入到待处理文本中的位置可以为随机选取，以增加数据增强文本的随机性，从而优化文本分类任务的训练效果以及文本分类任务的分类效果。

在本公开实施例中，第一插入符号可以为标点符号，且并不局限于此。

本公开实施例的技术方案不同于目前主流的基于纯规则的文本数据增强方案，通过在原始文本中随机插入一些标点符号等插入符号，在不改变原始文本的语序的前提下，保证了原始文本数据的序列信息，从而可以在模型训练过程中最大限度地学习到原始数据的信息，提升模型的学习准确度。此外，采用本公开实施例的技术方案提供的增强文本数据进行模型训练，不需要额外的系统，实施成本相对较低，且计算复杂度低。

进一步地，在本公开实施例的技术方案中，标点符号可以为“.”、“；”、“？”、“：”、“！”、“，”这六种，且并不局限于此，日常文本中常见的标点符合，在不影响原始文本语义的前提下，都可以作为第一插入符号使用。

本公开实施例的以上技术方案适用于现阶段主流的文本分类任务，且仅适用于文本分类任务。进一步地，本公开实施例的以上技术方案适用于BERT（BidirectionalEncoderRepresentations from Transformers，来自转换器的双向编码器表示）、roBERTa（A Robustly Optimized BERT，强力优化的BERT）以及ALBERT（轻量级BERT）等Transformers系列模型，也适合RNN（Recurrent Neural Network，循环神经网络），CNN（Convolutional NeuralNetworks，卷积神经网络）等传统轻量级神经网络模型。其中，Transformer（转换器）模型是一种基于自注意力机制的深度神经网络模型，广泛应用于自然语言处理领域的各种任务，如文本分类、机器翻译和问答系统等。

在步骤S101中，可以根据待处理文本的文本长度获取第二数值，并在1至第二数值之间随机选取第一数值。具体地，可以获取待处理文本的文本长度的三分之一作为第二数值。例如，在待处理文本的文本长度为30时，待处理文本的文本长度的三分之一为10，则可以取1至10中的任一个数值作为第一数值。在第一数值取值为8时，则将8个第一插入符号随机插入到待处理文本中。在第一数值取值为2时，则将2个第一插入符号随机插入到待处理文本中。在本公开实施例中，也可以获取四分之一至二分之一中的任一个比例的待处理文本的文本长度的作为第二数值。

从1到三分之一文本长度中随机选择一个数，作为插入标点符号的数量，可以兼顾到每个文本中有标点符号插入，增加句子的复杂性；又不会加入太多标点符号，过于干扰句子的语义信息，也可以避免太多噪声对模型的负面影响。

本公开实施例中的以上技术方案中的文本数据增强方法针对RNN模型，CNN模型和Transformers系列模型都适用，如图2所示的以下技术方案中的文本数据增强方法仅供transformer系列的预训练模型使用。

如图2所示，本公开实施例提供的一种文本数据增强方法包括以下步骤：

步骤S201，将数量为第三数值的第二插入符号按照设定的概率规则插入到增强文本中，其中，第二插入符号包括掩码符号和/或预留符号，设定的概率规则包括：以第四数值的概率将部分第二插入符号插入到增强文本的文首，以第五数值的概率将部分第二插入符号插入到增强文本的文首之外的其它部位。

在步骤S201之前，可以根据增强文本的文本长度选取第六数值作为第三数值。具体地，可以选取小于等于增强文本的文本长度的十分之一的数值作为第三数值。

具体地，第二插入符号可以为掩码符号，也可以为预留符号。掩码符号可以为代表该符号被遮掩掉的[MASK]。预留符号可以为没被使用的符号[unused1]、[unused2]、…。相比较第一插入符号插入待处理文本中的数量，第二插入符号插入对应增强文本中的数量较少，其数量不超过该增强文本的文本长度的10%。

例如，在待处理文本的文本长度为30，将8个第一插入符号随机插入到待处理文本中后得到的增强文本的文本长度为38，第二插入符号的数量不超过该增强文本的文本长度的10%，即第二插入符号的数量不超过3.8。此时，第二插入符号的数量可以取值为3，即可以将3个第二插入符号插入到增强文本中。在本公开实施例中，也可以选取小于等于十二分之一至八分之一中的任一个比例的增强文本的文本长度的数值作为第三数值。

在本公开实施例中，可以根据设定的概率规则确定将第二插入符号插入到增强文本中的插入位置。具体地，可以将第二插入符号以三分之一概率插在文本的开头，其余情况下均匀插入文本的其他位置。

在本公开一种实施例中，一个原始文本为：“[CLS]上海自来水来自海上”，其中，[CLS]为预训练模型的分类标识符。对该原始文本按照步骤S101和步骤S102进行文本数据增强，可以得到增强文本：“[CLS]上海.自来水来自海，上”。进一步地，按照步骤S201对该增强文本进行文本数据增强，可以得到新文本：“[MASK][CLS]上[unused1]海.自来水来自海，上”。该增强文本和新文本均与原始句子为同一分类，从而可以在没有改变原始文本的语序和语义的情况下实现数据增强。

本公开实施例的技术方案提出一种通过使用标点符号、掩码符号和词表预留符号等插入符号来增加文本数据噪声的数据增强技术，通过在原始文本中随机或者按照一定概率规则插入一些插入符号，对原始文本进行噪声添加，从而形成新的增强数据文本。通过实验验证，本公开实施例技术方案中的文本数据增强方案在大部分公开数据集上的实施效果优于EDA技术和纯规则的传统文本增强方法。

根据本公开实施例的文本数据增强方法，通过选取数量为第一数值的第一插入符号随机插入到待处理文本中，在不改变待处理文本的语序的情况下增加噪声，进行数据增强，从而可以获得足够的标注数据进行训练，优化文本分类任务的训练效果以及文本分类任务的分类效果。

下述为本公开装置实施例，可以用于执行本公开方法实施例。下文描述的文本数据增强装置与上文描述的文本数据增强方法可相互对应参照。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

选取模块301，用于根据待处理文本的文本长度选取第一数值作为对待处理文本进行插入处理的第一插入符号的数量。

插入模块302，用于将数量为第一数值的第一插入符号随机插入到待处理文本中，生成增强文本。

本公开实施例的以上技术方案适用于现阶段主流的文本分类任务，且仅适用于文本分类任务。进一步地，本公开实施例的以上技术方案适用于BERT、roBERTa以及ALBERT等Transformers系列模型，也适合RNN和CNN等传统轻量级神经网络模型。

选取模块301可以根据待处理文本的文本长度获取第二数值，并在1至第二数值之间随机选取第一数值。具体地，可以获取待处理文本的文本长度的三分之一作为第二数值。例如，在待处理文本的文本长度为30时，待处理文本的文本长度的三分之一为10，则可以取1至10中的任一个数值作为第一数值。在第一数值取值为8时，则将8个第一插入符号随机插入到待处理文本中。在第一数值取值为2时，则将2个第一插入符号随机插入到待处理文本中。在本公开实施例中，也可以获取四分之一至二分之一中的任一个比例的待处理文本的文本长度的作为第二数值。

本公开实施例中的以上技术方案中的文本数据增强方法针对RNN模型，CNN模型和Transformers系列模型都适用，以下技术方案中的文本数据增强方法仅供transformer系列的预训练模型使用。

在本公开实施例提供的另一种文本数据增强方案中，插入模块302还可以将数量为第三数值的第二插入符号按照设定的概率规则插入到增强文本中，其中，第二插入符号包括掩码符号和/或预留符号，设定的概率规则包括：以第四数值的概率将部分第二插入符号插入到增强文本的文首，以第五数值的概率将部分第二插入符号插入到增强文本的文首之外的其它部位。

选取模块301还可以根据增强文本的文本长度选取第六数值作为第三数值。具体地，可以选取小于等于增强文本的文本长度的十分之一的数值作为第三数值。

由于本公开的示例实施例的文本数据增强装置的各个功能模块与上述文本数据增强方法的示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的文本数据增强方法的实施例。

根据本公开实施例的文本数据增强装置，通过选取数量为第一数值的第一插入符号随机插入到待处理文本中，在不改变待处理文本的语序的情况下增加噪声，进行数据增强，从而可以获得足够的标注数据进行训练，优化文本分类任务的训练效果以及文本分类任务的分类效果。

图4是本公开实施例提供的电子设备4的示意图。如图4所示，该实施例的电子设备4包括：处理器401、存储器402以及存储在该存储器402中并且可在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者，处理器401执行计算机程序403时实现上述各装置实施例中各模块的功能。

电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解，图4仅仅是电子设备4的示例，并不构成对电子设备4的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器401可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application SpecificIntegrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器402可以是电子设备4的内部存储单元，例如，电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备，例如，电子设备4上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种文本数据增强方法，其特征在于，所述方法包括：

根据待处理文本的文本长度选取第一数值作为对所述待处理文本进行插入处理的第一插入符号的数量；

将数量为第一数值的所述第一插入符号随机插入到所述待处理文本中，生成增强文本。

2.根据权利要求1所述的方法，其特征在于，根据所述待处理文本的文本长度选取第一数值，包括：

根据所述待处理文本的文本长度获取第二数值；

在1至所述第二数值之间随机选取所述第一数值。

3.根据权利要求1所述的方法，其特征在于，所述第一插入符号包括标点符号。

4.根据权利要求1所述的方法，其特征在于，生成增强文本之后，所述方法还包括：

将数量为第三数值的第二插入符号按照设定的概率规则插入到所述增强文本中，其中，所述第二插入符号包括掩码符号和/或预留符号，所述设定的概率规则包括：以第四数值的概率将部分所述第二插入符号插入到所述增强文本的文首，以第五数值的概率将部分所述第二插入符号插入到所述增强文本的文首之外的其它部位。

5.根据权利要求4所述的方法，其特征在于，将数量为第三数值的第二插入符号按照设定的概率规则插入到所述增强文本中之前，所述方法还包括：

根据所述增强文本的文本长度选取第六数值作为所述第三数值。

6.根据权利要求5所述的方法，其特征在于，根据所述增强文本的文本长度选取第六数值作为所述第三数值，包括：

选取小于等于所述增强文本的文本长度的十分之一的数值作为所述第三数值。

7.根据权利要求2所述的方法，其特征在于，根据所述待处理文本的文本长度获取第二数值，包括：

获取所述待处理文本的文本长度的三分之一作为所述第二数值。

8.一种文本数据增强装置，其特征在于，所述装置包括：

选取模块，用于根据待处理文本的文本长度选取第一数值作为对所述待处理文本进行插入处理的第一插入符号的数量；

插入模块，用于将数量为第一数值的所述第一插入符号随机插入到所述待处理文本中，生成增强文本。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。