CN110222707A

CN110222707A - 一种文本数据增强方法及装置、电子设备

Info

Publication number: CN110222707A
Application number: CN201910350209.3A
Authority: CN
Inventors: 于凤英; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2019-09-10
Also published as: WO2020220636A1

Abstract

本发明涉及机器学习技术领域，揭示了一种文本数据增强方法及装置、电子设备，所述方法包括：获取原始文本；对原始文本进行分词处理，以获得若干候选词；针对目标候选词，基于目标候选词的上下文信息，利用双向长短期记忆网络模型从预设词典中获取N个替换词；其中，目标候选词为上述若干候选词中任一候选词，上述N个替换词中的每一个替换词对应的语义标签与原始文本对应的语义标签相匹配，N为正整数；根据上述N个替换词和原始文本，生成N个第一扩充文本。实施本发明实施例，能够提高文本数据增强的语义准确性。

Description

一种文本数据增强方法及装置、电子设备

技术领域

本发明涉及机器学习技术领域，特别涉及一种文本数据增强方法及装置、电子设备。

背景技术

在机器学习技术领域，数据增强技术是扩充训练集的重要手段，常用于产生更多的新数据去训练模型，以使得模型更加精准，且更具泛化能力。数据增强的核心点在于：既要利用新数据去替换原有数据，又要保证新数据和原有数据属于同一个类别。对于应用于图像的数据增强技术，这一点非常容易实现，比如，通过对原图像进行水平翻转、随机剪裁或者调整RGB通道等操作后获得新图像，那么新图像所包含的内容仍属于原图像。然而，对于应用于文本的数据增强技术，由于文本的上下文之间存在前后关联，如果盲目地对原始文本进行反转、截取或者替换等操作，将改变原始文本的语义，使得文本数据增强的语义准确性不高。

发明内容

为了解决相关技术中存在的文本数据增强的语义准确性不高的问题，本发明提供了一种文本数据增强方法及装置、电子设备。

本发明实施例第一方面公开了一种文本数据增强方法，所述方法包括：

获取原始文本；

对所述原始文本进行分词处理，以获得若干候选词；

针对目标候选词，基于所述目标候选词的上下文信息，利用双向长短期记忆网络模型从预设词典中获取N个替换词；其中，所述目标候选词为所述若干候选词中任一候选词，所述N个替换词中的每一个替换词对应的语义标签与所述原始文本对应的语义标签相匹配，所述N为正整数；

根据所述N个替换词和所述原始文本，生成N个第一扩充文本。

作为一种可选的实施方式，在本发明实施例第一方面中，所述针对目标候选词，基于所述目标候选词的上下文信息，利用双向长短期记忆网络模型从预设词典中获取N个替换词，包括：

针对目标候选词，基于所述原始文本的语序信息，对所述目标候选词的上下文信息从左至右进行前向编码，获得前向编码信息；

对所述目标候选词的上下文信息从右至左进行后向编码，获得后向编码信息；

基于所述前向编码信息和所述后向编码信息，利用双向长短期记忆网络模型从预设词典中获取N个替换词。

作为一种可选的实施方式，在本发明实施例第一方面中，所述基于所述前向编码信息和所述后向编码信息，利用双向长短期记忆网络模型从预设词典中获取N个替换词，包括：

基于所述前向编码信息和所述后向编码信息，利用双向长短期记忆网络模型预测出预设词典中每一个替换词的预测概率，其中，替换词为所述预设词典中对应的语义标签与所述原始文本对应的语义标签相匹配的词语；

根据所述预设词典中每一个替换词对应的预测概率，对所述预设词典中所有替换词从大到小进行排序，并获取排位为前N位的N个替换词。

作为一种可选的实施方式，在本发明实施例第一方面中，在所述根据所述N个替换词和所述原始文本，生成N个第一扩充文本之后，所述方法还包括：

识别出所述N个第一扩充文本对应的第一语种；

将所述N个第一扩充文本从所述第一语种翻译为不同于所述第一语种的其他语种，获得N个第一译文；

将所述N个第一译文从所述其他语种翻译为所述第一语种，获得N个第二扩充文本。

作为一种可选的实施方式，在本发明实施例第一方面中，在所述获得N个第二扩充文本之后，所述方法还包括：

生成随机噪声；

针对目标扩充文本，通过生成器和判别器对所述随机噪声进行训练，直至所述判别器无法区分经训练所述随机噪声后获得的语句样本和所述目标扩充文本；其中，所述目标扩充文本为所述N个第二扩充文本中的任一第二扩充文本，所述生成器为用于模拟所述目标扩充文本的真实数据分布的长短期记忆网络模型；所述判别器为卷积神经网络模型；

将所述语句样本作为第三扩充文本。

作为一种可选的实施方式，在本发明实施例第一方面中，所述针对目标扩充文本，通过生成器和判别器对所述随机噪声进行训练，直至所述判别器无法区分经训练所述随机噪声后获得的语句样本和所述目标扩充文本，包括：

针对目标扩充文本，将所述随机噪声输入生成器，生成经训练所述随机噪声后获得的语句样本；

将所述语句样本和所述目标扩充文本输入判别器，以使得所述判别器对所述语句样本和所述目标扩充文本进行卷积操作和池化操作，提取出所述语句样本的语句样本特征信息和所述目标扩充文本的真实文本特征信息，以及，结合所述语句样本特征信息和所述真实文本特征信息，判断能否区分所述语句样本和所述目标扩充文本；

获取所述判别器输出的判别结果；

若所述判别结果指示所述判别器能够区分所述语句样本和所述目标扩充文本，获取所述判别器的损失函数，并将所述损失函数输入所述生成器，生成新的语句样本，执行所述将所述语句样本和所述目标扩充文本输入判别器的步骤；否则，判定出所述判别器无法区分所述语句样本和所述目标扩充文本。

作为一种可选的实施方式，在本发明实施例第一方面中，所述根据所述N个替换词和所述原始文本，生成N个第一扩充文本，包括：

基于所述目标候选词在所述原始文本中的位置信息，利用所述N个替换词中的每一个替换词在所述原始文本中替换所述目标候选词，以生成N个第一扩充文本。

本发明实施例第二方面公开了一种文本数据增强装置，所述装置包括：

文本获取单元，用于获取原始文本；

分词单元，用于对所述原始文本进行分词处理，以获得若干候选词；

替换词获取单元，用于针对目标候选词，基于所述目标候选词的上下文信息，利用双向长短期记忆网络模型从预设词典中获取N个替换词；其中，所述目标候选词为所述若干候选词中任一候选词，所述N个替换词中的每一个替换词对应的语义标签与所述原始文本对应的语义标签相匹配，所述N为正整数；

文本生成单元，用于根据所述N个替换词和所述原始文本，生成N个第一扩充文本。

本发明实施例第三方面公开了一种电子设备，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现本发明实施例第一方面公开的文本数据增强方法。

本发明实施例第四方面公开了一种计算机可读存储介质，其存储计算机程序，所述计算机程序使得计算机执行本发明实施例第一方面公开的文本数据增强方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明所提供的文本数据增强方法包括如下步骤：获取原始文本；对原始文本进行分词处理，以获得若干候选词；针对目标候选词，基于目标候选词的上下文信息，利用双向长短期记忆网络模型从预设词典中获取N个替换词；其中，目标候选词为上述若干候选词中任一候选词，每一个替换词对应的语义标签与原始文本对应的语义标签相匹配，N为正整数；根据N个替换词和原始文本，生成N个扩充文本。

此方法下，通过将原始文本分为若干候选词，可以基于任一候选词的上下文信息以及原始文本的语义类型，从预设词典中获取替换词，并且利用替换词替换相应的候选词，生成扩充文本，能够保证扩充文本的语义类型和原始文本的语义类型一致，提高了文本数据增强的语义准确性；并且，由于每一候选词都可以被多个新词替换，因此大大丰富了词语替换和组合方式，能够生成大量的扩充文本，从而在保证准确性的同时，提高了文本数据增强的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是本发明实施例公开的一种装置的结构示意图；

图2是本发明实施例公开的一种文本数据增强方法的流程图；

图3是本发明实施例公开的另一种文本数据增强方法的流程图；

图4是本发明实施例公开的又一种文本数据增强方法的流程图；

图5是本发明实施例公开的一种文本数据增强装置的结构示意图；

图6是本发明实施例公开的另一种文本数据增强装置的结构示意图；

图7是本发明实施例公开的又一种文本数据增强装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

实施例一

本发明的实施环境可以是电子设备，例如智能手机、平板电脑、台式电脑。

图1是本发明实施例公开的一种装置的结构示意图。装置100可以是上述电子设备。如图1所示，装置100可以包括以下一个或多个组件：处理组件102，存储器104，电源组件106，多媒体组件108，音频组件110，传感器组件114以及通信组件116。

处理组件102通常控制装置100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作以及记录操作相关联的操作等。处理组件102可以包括一个或多个处理器118来执行指令，以完成下述的方法的全部或部分步骤。此外，处理组件102可以包括一个或多个模块，用于便于处理组件102和其他组件之间的交互。例如，处理组件102可以包括多媒体模块，用于以方便多媒体组件108和处理组件102之间的交互。

存储器104被配置为存储各种类型的数据以支持在装置100的操作。这些数据的示例包括用于在装置100上操作的任何应用程序或方法的指令。存储器104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static RandomAccess Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器104中还存储有一个或多个模块，用于该一个或多个模块被配置成由该一个或多个处理器118执行，以完成如下所示方法中的全部或者部分步骤。

电源组件106为装置100的各种组件提供电力。电源组件106可以包括电源管理系统，一个或多个电源，及其他与为装置100生成、管理和分配电力相关联的组件。

多媒体组件108包括在装置100和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(Liquid Crystal Display，简称LCD)和触摸面板。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display，简称OLED)。

音频组件110被配置为输出和/或输入音频信号。例如，音频组件110包括一个麦克风(Microphone，简称MIC)，当装置100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器104或经由通信组件116发送。在一些实施例中，音频组件110还包括一个扬声器，用于输出音频信号。

传感器组件114包括一个或多个传感器，用于为装置100提供各个方面的状态评估。例如，传感器组件114可以检测到装置100的打开/关闭状态，组件的相对定位，传感器组件114还可以检测装置100或装置100一个组件的位置改变以及装置100的温度变化。在一些实施例中，该传感器组件114还可以包括磁传感器，压力传感器或温度传感器。

通信组件116被配置为便于装置100和其他设备之间有线或无线方式的通信。装置100可以接入基于通信标准的无线网络，如WiFi(Wireless-Fidelity，无线保真)。在本发明实施例中，通信组件116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在本发明实施例中，通信组件116还包括近场通信(Near Field Communication，简称NFC)模块，用于以促进短程通信。例如，在NFC模块可基于射频识别(Radio FrequencyIdentification，简称RFID)技术，红外数据协会(Infrared Data Association，简称IrDA)技术，超宽带(Ultra Wideband，简称UWB)技术，蓝牙技术和其他技术来实现。

在示例性实施例中，装置100可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit，简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法。

实施例二

请参阅图2，图2是本发明实施例公开的一种文本数据增强方法的流程示意图。如图2所示，该文本数据增强方法可以包括以下步骤：

201、获取原始文本。

202、对原始文本进行分词处理，以获得若干候选词。

203、针对目标候选词，基于目标候选词的上下文信息，利用双向长短期记忆网络模型从预设词典中获取N个替换词。

本发明实施例中，目标候选词为上述若干候选词中任一候选词，N个替换词中的每一个替换词对应的语义标签与原始文本对应的语义标签相匹配；N为正整数，且N的取值可自行配置，对此不作具体限定。

举例来说，假设原始文本为“The actors are fantastic”，对该原始文本进行分词处理之后，可以获得“the”、“actors”、“are”以及”fantastic”四个候选词。可以理解，原始文本中任意一个候选词所在位置对应的替换词应该与原始文本中所有候选词的排列顺序、词性以及词义有关。以候选词“actors”为例，候选词“actors”的上下文信息包括“the”、“are”以及“fantastic”三个候选词。根据原始文本的语序，候选词“the”、“actors”、“are”以及”fantastic”可以组成按照时间顺序排好的输入序列。利用双向长短期记忆网络模型，可以根据在候选词“actors”之前的前向输入候选词“the”，以及在候选词“actors”之后的后向输入候选词“are”和候选词“fantastic”，从预设词典中获取“performances”、“films”、“movies”和“stories”等多个替换词，用以替换输入序列中的候选词“actors”。同时，为了保证语义的一致性，设原始文本属于积极的语义类型，且原始文本的语义标签为“positive”，则从预设词典中获取到的每个替换词对应的语义标签都应为“positive”，以使得利用替换词替换原始文本中相应的候选词后生成的扩充文本也属于积极的语义类型。

同理，上述方法同样适用于“the”、“are”以及“fantastic”中任一候选词，此处不再赘述。

204、根据上述N个替换词和原始文本，生成N个第一扩充文本。

本发明实施例中，举例来说，若针对原始文本“The actors are fantastic”中的候选词“actors”，获得“performances”、“films”以及“movies”三个替换词，那么相应地，可以生成“The performances are fantastic”、“The films are fantastic”以及“Themovies are fantastic”三条扩充文本。

可见，实施图2所描述的方法，通过将原始文本分为若干候选词，可以基于任一候选词的上下文信息以及原始文本的语义类型，从预设词典中获取替换词，并且利用替换词替换相应的候选词，生成扩充文本，能够保证扩充文本的语义类型和原始文本的语义类型一致，提高了文本数据增强的语义准确性；并且，由于每一候选词都可以被多个新词替换，因此大大丰富了词语替换和组合方式，能够生成大量的扩充文本，从而在保证准确性的同时，提高了文本数据增强的效率。

实施例三

请参阅图3，图3是本发明实施例公开的另一种文本数据增强方法的流程示意图。如图3所示，该文本数据增强方法可以包括以下步骤：

301、获取原始文本。

302、对原始文本进行分词处理，以获得若干候选词。

303、针对目标候选词，基于原始文本的语序信息，对目标候选词的上下文信息从左至右进行前向编码，获得前向编码信息。

304、对目标候选词的上下文信息从右至左进行后向编码，获得后向编码信息。

本发明实施例中，对目标候选词的上下文信息进行前向编码的方式主要为：对目标候选词的上下文信息中包括的候选词从左至右进行前向编号；根据上述每一个候选词的前向编号信息，生成前向词向量；利用预训练的词向量参数将前向词向量映射为前向词向量映射矩阵，以作为前向编码信息。

类似的，对目标候选词的上下文信息进行后向编码的方式为：对目标候选词的上下文信息中包括的候选词从右至左进行后向编号；根据上述每一个候选词的后向编号信息，生成后向词向量；利用预训练的词向量参数将后向词向量映射为后向词向量映射矩阵，以作为后向编码信息。

305、基于前向编码信息和后向编码信息，利用双向长短期记忆网络模型从预设词典中获取N个替换词。

可见，实施上述步骤303～步骤305，通过对目标候选词的上下文信息分别进行前向编码和后向编码，以将前向编码信息和后向编码信息输入双向长短期记忆网络模型，能够在利用双向长短期记忆网络模型预测目标候选词所在位置对应的替换词时，充分考虑到目标候选词的上下文信息，提高获取替换词的语义准确性。

作为一种可选的实施方式，步骤305具体可以包括：

基于前向编码信息和后向编码信息，利用双向长短期记忆网络模型预测出预设词典中每一个替换词的预测概率，其中，替换词为预设词典中对应的语义标签与原始文本对应的语义标签相匹配的词语；

根据预设词典中每一个替换词对应的预测概率，对预设词典中所有替换词从大到小进行排序，并获取排位为前N位的N个替换词。

可见，实施可选的实施方式，通过双向长短期记忆网络模型可以预测出预设词典中所有替换词出现在目标候选词所在位置的预测概率，并且，基于预测概率的大小，通过从所有替换词中筛选出排位为前N位的N个替换词，能够进一步地提高获取替换词的语义准确性，保证生成扩充文本的质量。

本发明实施例中，假设对一个文本进行分词处理后所获得的i+1(i为正整数)个词语可以组成一个输入序列(x₀，x₁，x₂，...，x_i)，可以将输入序列输入双向长短期记忆网络模型。双向长短期记忆网络模型中，针对输入序列中任一词语x_t(t∈[0，i])，在对词语x_t的上下文信息从左至右进行前向编码后，基于前向编码信息和词语x_t，可以利用公式s_t＝f(Ux_t+Ws_t-1)求得前向计算结果s_t；在对词语x_t的上下文信息从右至左进行后向编码后，基于后向编码信息和候选词x_t，可以利用公式s_t'＝f(U'x_t+W's'_t+1)求得后向计算结果s_t'；最终，将参数s_t和s_t'代入公式y_t＝g(Vs_t+V's_t')中，即可求得词语x_t的预测概率，其中，U、W、U'、W'、V以及V'均为双向长短期记忆网络模型参数。

因此，对原始文本进行分词处理，获得若干候选词后，可以将上述若干候选词组成一个输入候选词序列。通过利用预设词典中的替换词替换输入候选词序列中的特定候选词，再将替换后的输入候选词序列输入上述双向长短期记忆网络模型，便可以求得该替换词的预测概率，进而根据预设词典中每一个替换词对应的预设概率，从预设词典中的所有替换词中筛选出N个替换词。

306、基于目标候选词在原始文本中的位置信息，利用上述N个替换词中的每一个替换词在原始文本中替换目标候选词，以生成N个第一扩充文本。

可见，实施图3所描述的方法，通过将原始文本分为若干候选词，可以基于任一候选词的上下文信息以及原始文本的语义类型，从预设词典中获取替换词，并且利用替换词替换相应的候选词，生成扩充文本，能够保证扩充文本的语义类型和原始文本的语义类型一致，提高了文本数据增强的语义准确性；并且，基于每一个替换词对应的预测概率大小，通过从所有替换词中筛选出排位为前N位的N个替换词，还能够保证生成扩充文本的质量；此外，由于每一候选词都可以被多个新词替换，因此大大丰富了词语替换和组合方式，能够生成大量的扩充文本，从而在保证准确性的同时，提高了文本数据增强的效率。

实施例四

请参阅图4，图4是本发明实施例公开的又一种文本数据增强方法的流程示意图。如图4所示，该文本数据增强方法可以包括以下步骤：

步骤401～步骤406；其中，针对步骤401～步骤406的描述，请参照实施例三中针对步骤301～步骤306的详细描述，本发明实施例不再赘述。

407、识别出上述N个第一扩充文本对应的第一语种。

408、将上述N个第一扩充文本从第一语种翻译为不同于第一语种的其他语种，获得N个第一译文。

409、将上述N个第一译文从其他语种翻译为第一语种，获得N个第二扩充文本。

本发明实施例中，针对步骤407～步骤409，举例来说，对于文本“你把资料发给我吧”，可以识别出该文本的语种为中文；将该文本从中文翻译为英文，获得译文“Send methe imformation”；再将译文从英文翻译回中文，便可以获得新的扩充文本“把信息发给我”。可见，实施上述步骤407～步骤409，通过利用翻译工具对第一扩充文本进行文本数据增强，以获得第二扩充文本，既可以保证的第二扩充文本与第一扩充扩充文本在语义上的一致性，又可以基于多种语种类型，拓宽扩充文本的生成途径。

410、生成随机噪声。

411、针对目标扩充文本，通过生成器和判别器对随机噪声进行训练，直至判别器无法区分经训练随机噪声后获得的语句样本和目标扩充文本。

本发明实施例中，目标扩充文本为上述N个第二扩充文本中的任一第二扩充文本。

412、将语句样本作为第三扩充文本。

可见，实施上述步骤410～步骤412，通过利用基于长短期记忆网络模型和卷积神经网络模型的生成对抗网络(Generative Adversarial Networks，GAN)模拟第二扩充文本的数据分布，生成接近第二扩充文本的数据分布的第三扩充文本，能够不限于人类思维的限制，在已有扩充文本的基础上，再进一步扩充出种类丰富的新文本。

作为一种可选的实施方式，步骤411具体可以包括：

针对目标扩充文本，将随机噪声输入生成器，生成经训练随机噪声后获得的语句样本；

将语句样本和目标扩充文本输入判别器，以使得判别器对语句样本和目标扩充文本进行卷积操作和池化操作，提取出语句样本的语句样本特征信息和目标扩充文本的真实文本特征信息，以及，结合语句样本特征信息和真实文本特征信息，判断能否区分语句样本和目标扩充文本；

获取判别器输出的判别结果；

若判别结果指示判别器能够区分语句样本和目标扩充文本，获取判别器的损失函数，并将损失函数输入生成器，生成新的语句样本，执行将语句样本和目标扩充文本输入判别器的步骤；否则，判定出判别器无法区分语句样本和目标扩充文本。

其中，生成器为用于模拟目标扩充文本的真实数据分布的长短期记忆网络模型；判别器为卷积神经网络模型。以目标扩充文本为例，输入判别器的目标扩充文本可以表示为一个矩阵X∈R^k×T，其中，T为目标扩充文本的长度，矩阵X的每一列由目标扩充文本中单词的词向量组成，k为词向量的维度。可选的，判别器的卷积核为1D卷积，且卷积核的宽度h与目标扩充文本中单词的词向量宽度相匹配。判别器在卷积层利用卷积核对目标扩充文本中的连续单词进行卷积操作后，再接入一个用于提取文本重要特征的最大池化层，便可以获得目标扩充文本的真实文本特征信息。

可见，实施可选的实施方式，通过不断地对生成器和判别器进行训练，使得语句样本的数据分布接近目标扩充文本的数据分布，并将最优化的语句样本作为第三扩充文本进行输出，也能够提高扩充文本的语义准确性。

可见，实施图4所描述的方法，通过将原始文本分为若干候选词，可以基于任一候选词的上下文信息以及原始文本的语义类型，从预设词典中获取替换词，并且利用替换词替换相应的候选词，生成扩充文本，能够保证扩充文本的语义类型和原始文本的语义类型一致，提高了文本数据增强的语义准确性；并且，由于每一候选词都可以被多个新词替换，因此大大丰富了词语替换和组合方式，能够生成大量的扩充文本，从而在保证准确性的同时，提高了文本数据增强的效率；此外，通过利用翻译工具对第一扩充文本进行文本数据增强，以获得第二扩充文本，既可以保证的第二扩充文本与第一扩充扩充文本在语义上的一致性，又可以基于多种语种类型，拓宽扩充文本的生成途径；进一步地，通过利用基于长短期记忆网络模型和卷积神经网络模型的生成对抗网络模拟第二扩充文本的数据分布，生成接近第二扩充文本的数据分布的第三扩充文本，能够不限于人类思维的限制，在已有扩充文本的基础上，再进一步扩充出种类丰富的新文本。

实施例五

请参阅图5，图5是本发明实施例公开的一种文本数据增强装置的结构示意图。如图5所示，该文本数据增强装置可以包括：文本获取单元501、分词单元502、替换词获取单元503以及文本生成单元504，其中，

文本获取单元501，用于获取原始文本。

分词单元502，用于对原始文本进行分词处理，以获得若干候选词。

替换词获取单元503，用于针对目标候选词，基于目标候选词的上下文信息，利用双向长短期记忆网络模型从预设词典中获取N个替换词；其中，目标候选词为上述若干候选词中任一候选词，上述N个替换词中的每一个替换词对应的语义标签与原始文本对应的语义标签相匹配，N为正整数。

文本生成单元504，用于根据上述N个替换词和原始文本，生成N个第一扩充文本。

可见，实施图5所描述的装置，通过将原始文本分为若干候选词，可以基于任一候选词的上下文信息以及原始文本的语义类型，从预设词典中获取替换词，并且利用替换词替换相应的候选词，生成扩充文本，能够保证扩充文本的语义类型和原始文本的语义类型一致，提高了文本数据增强的语义准确性；并且，由于每一候选词都可以被多个新词替换，因此大大丰富了词语替换和组合方式，能够生成大量的扩充文本，从而在保证准确性的同时，提高了文本数据增强的效率。

实施例六

请参阅图6，图6是本发明实施例公开的另一种文本数据增强装置的结构示意图。图6所示的文本数据增强装置是由图5所示的文本数据增强装置进行优化得到的。与图5所示的文本数据增强装置相比较，在图6所示的文本数据增强装置中：

替换词获取单元503，包括：

前向编码子单元5031，用于针对目标候选词，基于原始文本的语序信息，对目标候选词的上下文信息从左至右进行前向编码，获得前向编码信息；

后向编码子单元5032，用于对目标候选词的上下文信息从右至左进行后向编码，获得后向编码信息；

替换词获取子单元5033，用于基于前向编码信息和后向编码信息，利用双向长短期记忆网络模型从预设词典中获取N个替换词。

作为一种可选的实施方式，替换词获取子单元5033，包括：

预测单元50331，用于基于前向编码信息和后向编码信息，利用双向长短期记忆网络模型预测出预设词典中每一个替换词的预测概率，其中，替换词为预设词典中对应的语义标签与原始文本对应的语义标签相匹配的词语；

获取单元50332，用于根据预设词典中每一个替换词对应的预测概率，对预设词典中所有替换词从大到小进行排序，并获取排位为前N位的N个替换词。

文本生成单元504，具体用于基于目标候选词在原始文本中的位置信息，利用上述N个替换词中的每一个替换词在原始文本中替换目标候选词，以生成N个第一扩充文本。

可见，实施图6所描述的装置，通过将原始文本分为若干候选词，可以基于任一候选词的上下文信息以及原始文本的语义类型，从预设词典中获取替换词，并且利用替换词替换相应的候选词，生成扩充文本，能够保证扩充文本的语义类型和原始文本的语义类型一致，提高了文本数据增强的语义准确性；并且，基于每一个替换词对应的预测概率大小，通过从所有替换词中筛选出排位为前N位的N个替换词，还能够保证生成扩充文本的质量；此外，由于每一候选词都可以被多个新词替换，因此大大丰富了词语替换和组合方式，能够生成大量的扩充文本，从而在保证准确性的同时，提高了文本数据增强的效率。

实施例七

请参阅图7，图7是本发明实施例公开的又一种文本数据增强装置的结构示意图。图7所示的文本数据增强装置是由图6所示的文本数据增强装置进行优化得到的。与图6所示的文本数据增强装置相比较，图7所示的文本数据增强装置还可以包括：识别单元505、第一翻译单元506、第二翻译单元507、噪声生成单元508以及训练单元509，其中，

识别单元505，用于识别出上述N个第一扩充文本对应的第一语种。

第一翻译单元506，用于将上述N个第一扩充文本从第一语种翻译为不同于第一语种的其他语种，获得N个第一译文。

第二翻译单元507，用于将上述N个第一译文从其他语种翻译为第一语种，获得N个第二扩充文本。

噪声生成单元508，用于生成随机噪声。

训练单元509，用于针对目标扩充文本，通过生成器和判别器对随机噪声进行训练，直至判别器无法区分经训练随机噪声后获得的语句样本和目标扩充文本；其中，目标扩充文本为上述N个第二扩充文本中的任一第二扩充文本，生成器为用于模拟目标扩充文本的真实数据分布的长短期记忆网络模型；判别器为卷积神经网络模型；以及，将语句样本作为第三扩充文本。

作为一种可选的实施方式，训练单元509，包括：

样本生成子单元5091，用于针对目标扩充文本，将随机噪声输入生成器，生成经训练随机噪声后获得的语句样本；

判别子单元5092，用于将语句样本和目标扩充文本输入判别器，以使得判别器对语句样本和目标扩充文本进行卷积操作和池化操作，提取出语句样本的语句样本特征信息和目标扩充文本的真实文本特征信息，以及，结合语句样本特征信息和真实文本特征信息，判断能否区分语句样本和目标扩充文本；

获取子单元5093，用于获取判别器输出的判别结果；

训练子单元5094，用于在判别结果指示判别器能够区分语句样本和目标扩充文本时，获取判别器的损失函数，并将损失函数输入生成器，生成新的语句样本，以触发判别子单元5092执行将语句样本和目标扩充文本输入判别器的步骤；否则，判定出判别器无法区分语句样本和目标扩充文本，将语句样本作为第三扩充文本。

本发明实施例中，以目标扩充文本为例，输入判别器的目标扩充文本可以表示为一个矩阵X∈R^k×T，其中，T为目标扩充文本的长度，矩阵X的每一列由目标扩充文本中单词的词向量组成，k为词向量的维度。可选的，判别器的卷积核为1D卷积，且卷积核的宽度h与目标扩充文本中单词的词向量宽度相匹配。判别器在卷积层利用卷积核对目标扩充文本中的连续单词进行卷积操作后，再接入一个用于提取文本重要特征的最大池化层，便可以获得目标扩充文本的真实文本特征信息。

可见，实施图7所描述的装置，通过将原始文本分为若干候选词，可以基于任一候选词的上下文信息以及原始文本的语义类型，从预设词典中获取替换词，并且利用替换词替换相应的候选词，生成扩充文本，能够保证扩充文本的语义类型和原始文本的语义类型一致，提高了文本数据增强的语义准确性；并且，由于每一候选词都可以被多个新词替换，因此大大丰富了词语替换和组合方式，能够生成大量的扩充文本，从而在保证准确性的同时，提高了文本数据增强的效率；此外，通过利用翻译工具对第一扩充文本进行文本数据增强，以获得第二扩充文本，既可以保证的第二扩充文本与第一扩充扩充文本在语义上的一致性，又可以基于多种语种类型，拓宽扩充文本的生成途径；进一步地，通过利用基于长短期记忆网络模型和卷积神经网络模型的生成对抗网络模拟第二扩充文本的数据分布，生成接近第二扩充文本的数据分布的第三扩充文本，能够不限于人类思维的限制，在已有扩充文本的基础上，再进一步扩充出种类丰富的新文本。

本发明还提供一种电子设备，该电子设备包括：

处理器；

存储器，该存储器上存储有计算机可读指令，该计算机可读指令被处理器执行时，实现如前所示的文本数据增强方法。

该电子设备可以是图1所示装置100。

在一示例性实施例中，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如前所示的文本数据增强方法。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种文本数据增强方法，其特征在于，所述方法包括：

获取原始文本；

对所述原始文本进行分词处理，以获得若干候选词；

2.根据权利要求1所述的方法，其特征在于，所述针对目标候选词，基于所述目标候选词的上下文信息，利用双向长短期记忆网络模型从预设词典中获取N个替换词，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述前向编码信息和所述后向编码信息，利用双向长短期记忆网络模型从预设词典中获取N个替换词，包括：

4.根据权利要求1所述的方法，其特征在于，在所述根据所述N个替换词和所述原始文本，生成N个第一扩充文本之后，所述方法还包括：

识别出所述N个第一扩充文本对应的第一语种；

5.根据权利要求4所述的方法，其特征在于，在所述获得N个第二扩充文本之后，所述方法还包括：

生成随机噪声；

将所述语句样本作为第三扩充文本。

6.根据权利要求5所述的方法，其特征在于，所述针对目标扩充文本，通过生成器和判别器对所述随机噪声进行训练，直至所述判别器无法区分经训练所述随机噪声后获得的语句样本和所述目标扩充文本，包括：

获取所述判别器输出的判别结果；

7.根据权利要求1～6任一项所述的方法，其特征在于，所述根据所述N个替换词和所述原始文本，生成N个第一扩充文本，包括：

8.一种文本数据增强装置，其特征在于，所述装置包括：

文本获取单元，用于获取原始文本；

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，其存储计算机程序，所述计算机程序使得计算机执行权利要求1～7任一项所述的文本数据增强方法。