CN110516233A

CN110516233A - 数据处理的方法、装置、终端设备以及存储介质

Info

Publication number: CN110516233A
Application number: CN201910721273.8A
Authority: CN
Inventors: 周阳
Original assignee: Shenzhen Heertai Home Furnishing Online Network Technology Co Ltd
Current assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-11-29
Anticipated expiration: 2039-08-06
Also published as: CN110516233B

Abstract

本申请实施例公开了一种数据处理的方法、装置、终端设备以及存储介质，该方法包括：获取实体词表，实体词表中包括多种实体类型的实体，每种实体类型的实体至少有一个；基于实体词表中的实体，替换训练数据集内各训练数据中的实体，以得到各训练数据各自对应的第一训练数据，其中，用于替换第一实体的第二实体所属的实体类型与第一实体所属的实体类型相同，第二实体不同于第一实体，第一实体为训练数据集内的任一训练数据中的任一实体；将各训练数据对应的第一训练数据添加至训练数据集以得到第一训练数据集。采用本申请实施例，可实现数据的快速扩增，使训练数据更加多样化，适用性高。

Description

数据处理的方法、装置、终端设备以及存储介质

技术领域

本申请涉及自然语言处理领域，尤其涉及一种数据处理的方法、装置、终端设备以及存储介质。

背景技术

随着第二次人工智能浪潮的推动，自然语言处理技术得到了快速发展。其中深度学习相比传统的机器学习一定幅度地提高了自然语言处理的准确度和置信度，从而给机器阅读，文本分类，实体命名识别等技术带来大量实际应用的机会。在深度学习中，为了避免出现过拟合，所需训练数据的数据量往往是非常大的，一般在万级以上。这些训练数据大部分由人工标注得到，需要耗费大量的人力物力。因此，如何更加快速地得到更多的训练数据，成为当前亟待解决的问题。

发明内容

本申请实施例提供一种数据处理的方法、装置、终端设备以及存储介质，可实现数据的快速扩增，使训练数据更加多样化，灵活性强，适用性高。

第一方面，本申请实施例提供了一种数据处理的方法，该方法包括：

获取实体词表，上述实体词表中包括多种实体类型的实体，每种实体类型的实体至少有一个；

基于上述实体词表中的实体，替换训练数据集内各训练数据中的实体，以得到上述各训练数据各自对应的第一训练数据，其中，用于替换第一实体的第二实体所属的实体类型与上述第一实体所属的实体类型相同，上述第二实体不同于上述第一实体，上述第一实体为上述训练数据集内的任一训练数据中的任一实体；

将上述各训练数据对应的第一训练数据添加至上述训练数据集以得到第一训练数据集。

本申请实施例基于获取的实体词表中包括的实体替换训练数据中包括的实体，可实现训练数据的快速扩增，提高训练数据的多样性，灵活性强，同时，实体作为训练数据的重要组成部分，通过替换训练数据中包括的实体，可提高新生成的训练数据的有效性，适用性高。

结合第一方面，在一种可能的实施方式中，上述获取实体词表，包括：

提取上述训练数据集内各训练数据中的实体；

根据提取得到的实体生成上述实体词表。

本申请实施例基于训练数据中包括的实体生成实体词表，可操作性强，适用性高。

结合第一方面，在一种可能的实施方式中，上述基于上述实体词表中的实体，替换训练数据集内各训练数据中的实体，包括：

确定目标实体所属的目标实体类型，上述目标实体为上述训练数据集内任一训练数据中的实体；

从上述实体词表中随机选取属于上述目标实体类型的且不同于上述目标实体的实体，替换上述目标实体。

本申请实施例通过从实体词表中获取相同类型的实体用于替换训练数据中同类型的实体，易于理解且操作简便，适用性强。

结合第一方面，在一种可能的实施方式中，上述将上述各训练数据对应的第一训练数据添加至上述训练数据集以得到第一训练数据集之后，上述方法还包括：

获取停用词表，上述停用词表中包括多个停用词；

对上述第一训练数据集中的第一目标训练数据进行分词处理以得到组成上述第一目标训练数据的多个词，上述第一目标训练数据为上述第一训练数据集中的任一训练数据；

从组成上述第一目标训练数据的多个词中确定出不属于上述停用词表且不属于上述实体词表的词作为待预测词；

获取上述待预测词的同义词，基于上述同义词替换上述第一目标训练数据中的上述待预测词，以生成上述第一目标训练数据对应的第二训练数据；

将上述第一训练数据集中各训练数据各自对应的第二训练数据添加至上述第一训练数据集以得到第二训练数据集。

本申请实施例通过替换训练数据中既不属于实体词表同时不属于停用词表的待预测词，可进一步扩大训练数据集，灵活性高，适用性强。

结合第一方面，在一种可能的实施方式中，上述获取上述待预测词的同义词，包括：

将上述第一目标训练数据中的上述待预测词替换为标识符以生成待预测数据；

将上述待预测数据输入预训练语言模型，基于上述预训练语言模型输出上述标识符对应的预测词；

将上述预测词确定为上述待预测词对应的同义词。

本申请实施例基于预训练语言模型获取待预测词对应的同义词，更加符合训练数据的上下文语义，可减少数据增强的噪声，提高新生成数据的有效性。

结合第一方面，在一种可能的实施方式中，上述将上述第一训练数据集中各训练数据各自对应的第二训练数据添加至上述第一训练数据集以得到第二训练数据集之后，上述方法还包括：

获取组成上述第二目标训练数据的多个词，上述第二目标训练数据为上述第二训练数据集中的任一训练数据；

从组成上述第二目标训练数据的多个词中确定出任意两个词，并交换上述任意两个词在上述第二目标训练数据中的位置，以生成上述第二目标训练数据对应的第三训练数据；

将上述第二训练数据集中各训练数据各自对应的第三训练数据添加至上述第二训练数据集以得到第三训练数据集。

本申请实施例通过随机交换训练数据中包括的任意两个词的位置以得到新的训练数据，可操作性强，灵活性高。

结合第一方面，在一种可能的实施方式中，上述将上述第二训练数据集中各训练数据各自对应的第三训练数据添加至上述第二训练数据集以得到第三训练数据集之后，上述方法还包括：

获取组成上述第三目标训练数据的多个词，上述第三目标训练数据为上述第三训练数据集中的任一训练数据；

从组成上述第三目标训练数据的多个词中随机选取任一词，并删除上述第三目标训练数据中的上述任一词，以生成上述第三目标训练数据对应的第四训练数据；

将上述第三训练数据集中各训练数据各自对应的第四训练数据添加至上述第三训练数据集以得到第四训练数据集。

本申请实施例通过随机选取训练数据中包括的任一词并删除，可快速获得新的训练数据，灵活性高。

第二方面，本申请实施例提供了一种数据处理的装置，该装置包括：

实体词表获取模块，用于获取实体词表，上述实体词表中包括多种实体类型的实体，每种实体类型的实体至少有一个；

实体替换模块，用于基于上述实体词表中的实体，替换训练数据集内各训练数据中的实体，以得到上述各训练数据各自对应的第一训练数据，其中，用于替换第一实体的第二实体所属的实体类型与上述第一实体所属的实体类型相同，上述第二实体不同于上述第一实体，上述第一实体为上述训练数据集内的任一训练数据中的任一实体；

训练数据集更新模块，用于将上述各训练数据对应的第一训练数据添加至上述训练数据集以得到第一训练数据集。

结合第二方面，在一种可能的实施方式中，上述实体词表获取模块具体用于：

提取上述训练数据集内各训练数据中的实体；

根据提取得到的实体生成上述实体词表。

结合第二方面，在一种可能的实施方式中，上述训练数据集更新模块具体用于：

结合第二方面，在一种可能的实施方式中，上述数据处理装置还包括同义词替换模块，上述同义词替换模块包括：

停用词表获取单元，用于获取停用词表，上述停用词表中包括多个停用词；

训练数据分词单元，用于对上述第一训练数据集中的第一目标训练数据进行分词处理以得到组成上述第一目标训练数据的多个词，上述第一目标训练数据为上述第一训练数据集中的任一训练数据；

待预测词确定单元，用于从组成上述第一目标训练数据的多个词中确定出不属于上述停用词表且不属于上述实体词表的词作为待预测词；

第二训练数据生成单元，用于获取上述待预测词的同义词，基于上述同义词替换上述第一目标训练数据中的上述待预测词，以生成上述第一目标训练数据对应的第二训练数据；

第一训练数据集更新单元，用于将上述第一训练数据集中各训练数据各自对应的第二训练数据添加至上述第一训练数据集以得到第二训练数据集。

结合第二方面，在一种可能的实施方式中，上述第二训练数据生成单元具体用于：

将上述第一目标训练数据中的待预测词替换为标识符以生成待预测数据；

将上述预测词确定为上述待预测词对应的同义词。

结合第二方面，在一种可能的实施方式中，上述数据处理装置还包括随机交换模块，上述随机交换模块包括：

结合第二方面，在一种可能的实施方式中，上述数据处理装置还包括随机删除模块，上述随机删除模块包括：

第三方面，本申请实施例提供了一种终端设备，该终端设备包括处理器和存储器，该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序，该计算机程序包括程序指令，该处理器被配置用于调用上述程序指令，执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

本申请实施例通过获取实体词表，基于实体词表中包括的实体替换训练数据中包括的实体，可生成多条新的训练数据，通过将新生成的训练数据添加至训练数据集可实现数据的快速扩增，提高了训练数据的多样性，灵活性高。与此同时，由于实体是训练数据中具备实际含义的组成部分，因此通过替换训练数据中包括的实体，可提高新生成的训练数据的有效性，适用性高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的数据处理方法的一流程示意图；

图2是本申请实施例提供的数据处理方法的另一流程示意图；

图2a是本申请实施例提供的获取待预测词的同义词的一应用场景示意图；

图2b是本申请实施例提供的获取待预测词的同义词的另一应用场景示意图；

图3是本申请实施例提供的数据处理方法的另一流程示意图；

图4是本申请实施例提供的数据处理方法的另一流程示意图；

图5是本申请实施例提供的数据处理装置的结构示意图；

图6是本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在自然语言处理领域，主要包括了文本分类、实体命名识别、信息抽取、阅读理解和文本摘要等任务类型，这些任务类型在训练模型时都需要大量的训练数据。本申请实施例提供的数据处理的方法，可广泛适用于对各种任务类型对应的训练数据进行数据处理或数据增强的终端。其中，终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)等，在此不做限制。本申请实施例通过获取实体词表，基于实体词表中包括的实体替换训练数据集中各训练数据所包括的实体以得到各训练数据对应的第一训练数据，并基于各训练数据对应的第一训练数据更新训练数据集，可实现数据的快速扩增，提高训练数据的多样性，灵活性高。

下面将结合图1至图6分别对本申请实施例提供的方法及相关装置分别进行详细说明。本申请实施例提供的方法中可包括用于获取实体词表、基于实体词表替换训练数据集中各训练数据所包括的实体以生成第一训练数据、以及将第一训练数据添加至训练数据集等数据处理阶段。其中，上述各个数据处理阶段的实现方式可参见如下图1至图4所示的实现方式。

参见图1，图1为本申请实施例提供的数据处理方法的一流程示意图。本申请实施例提供的方法可以包括如下步骤101至103：

101、获取实体词表。

在一些可行的实施方式中，通过获取训练数据集中包括的训练数据，可从训练数据集中包括的各训练数据中提取各训练数据所包括的实体，其中训练数据集中一训练数据中包括至少一个实体，根据提取出的各训练数据中所包括的实体可生成实体词表。这里，训练数据为文本数据，例如训练数据可以是一句话、一段话或一篇文章等，在此不做限制。训练数据中包括的实体可以是人名、地名、机构名、概念、专有名词等，在此不做限制。实体词表中包括了各种实体类型的实体，其中实体类型包括人名实体、地名实体、机构名实体等，在此不做限制。在本申请实施例中，训练数据集中所包括的各训练数据可以是已经标注好的训练数据，也就是说，训练数据中包括的每一个元素都已经做一个标记或打上了标签。其中训练数据包括的各个元素为组成训练数据的各个字和/或各个词，一般来说，训练数据的标注方式包括BIO标注或BIOES标注等，在此不做限制，其中BIO标注是将每个元素标注为“B-X”、“I-X”或者“O”。其中，“B-X”表示此元素属于X实体类型并且此元素在实体开头，“I-X”表示此元素属于X实体类型并且此元素在实体中间位置，“O”表示该元素不属于任何实体类型，即是非实体。例如假设有训练数据“小红来自重庆，小明来自北京，但他们都在深圳工作。”对这句话进行BIO标注后可表示为“小(B-PER)红(I-PER)来(O)自(O)重(B-LOC)庆(I-LOC)，小(B-PER)明(I-PER)来(O)自(O)北(B-LOC)京(I-LOC)，但(O)他(O)们(O)都(O)在(O)深(B-LOC)圳(I-LOC)工(O)作(O)。”其中，B-PER、I-PER代表人名首字、人名非首字，B-LOC、I-LOC代表地名首字、地名非首字，O代表非实体。因此根据标注好的训练数据，可识别出该训练数据中包括了两个人名实体分别为“小红”和“小明”，以及三个地点实体分别为“重庆”、“北京”和“深圳”。根据提取出的各训练数据中所包括各种实体类型的各个实体，可生成实体词表。

102、基于实体词表中实体，替换训练数据集内各训练数据中的实体，以得到各训练数据各自对应的第一训练数据。

在一些可行的实施方式中，基于实体词表中包括的实体替换训练数据集中各训练数据所包括的实体，可得到各训练数据对应的第一训练数据，其中每条训练数据可对应一条或多条第一训练数据，任一训练数据中被替换的任一实体对应的实体类型与实体词表中包括的用于替换任一实体的实体对应的实体类型相同。为方便描述，本申请实施例以训练数据集中的一条训练数据为例说明对训练数据中的实体替换。可以理解的是，基于实体词表中包括的实体替换训练数据中所包括的实体可以是替换该训练数据中包括的所有实体，也可以是替换该训练数据中包括的部分实体，在此不做限制。以下本申请实施例以替换训练数据中包括的所有实体为例进行说明，具体地，针对训练数据集中的任一训练数据，通过识别任一训练数据中所包括的各个实体，可根据实体标注信息中包括的实体类型确定出各个实体所属的实体类型，即目标实体类型。若实体词表中包括目标实体类型对应的实体，则可从实体词表包括的多种实体类型对应的多个实体中确定出目标实体类型对应的至少一个实体，然后从目标实体类型对应的至少一个实体中，随机选取与任一训练数据包括的实体不同的实体用于替换任一训练数据中包括的实体以得到任一训练数据对应的第一训练数据。也就是说，针对训练数据中包括的各个待替换的实体，可从实体词表中相应实体类型对应的多个实体中，随机选取任一个与待替换的实体不同的实体用于替换训练数据中待替换的实体。

举例来说，针对训练数据集中的训练数据“小红来自重庆，小明来自北京，但他们都在深圳工作。”进行实体替换，首先通过识别训练数据中包括的实体，可得到两个人名实体分别为“小红”和“小明”，以及三个地点实体分别为“重庆”、“北京”和“深圳”。若实体词表中包括实体类型为人名实体以及地点实体对应的多个实体，则针对训练数据中包括的人名实体“小红”和“小明”，可从实体词表包括的人名实体对应的多个实体中，随机选取一个与人名实体“小红”不同的人名实体用于替换训练数据中包括的人名实体“小红”，同时随机选取一个与人名实体“小明”不同的人名实体用于替换训练数据中包括的人名实体“小明”，以此类推，针对训练数据中包括的地点实体“重庆”、“北京”和“深圳”，可从实体词表包括的地名实体对应的多个实体中，随机选取与待替换的实体不同的实体用于替换训练数据集中包括的待替换的实体。例如，基于实体词表中包括的各个实体对训练数据“小红来自重庆，小明来自北京，但他们都在深圳工作。”中包括的各个实体进行实体替换后可得到该训练数据对应的第一训练数据“小白来自上海，小红来自西安，但他们都在重庆工作。”

103、将各训练数据对应的第一训练数据添加至训练数据集以得到第一训练数据集。

在一些可行的实施方式中，通过对训练数据集中的各训练数据进行实体替换后，可得到各训练数据对应的第一训练数据。可以理解的是，由于针对训练数据集中的任一训练数据所包括的各个实体的替换都是从实体词表中随机选取对应实体类型的实体用于替换训练数据中待替换的实体，因此，针对同一训练数据，可设置对该训练数据进行N次实体替换以得到N条该训练数据对应的第一训练数据。不难理解的是，由于从实体词表中选取的用于替换训练数据中实体的实体是随机的，因此，可能出现对同一训练数据进行N次实体替换后，所得到的N条第一训练数据存在相同的情况，因此，可对各第一训练数据进行去重后，将去重后得到的各第一训练数据添加至训练数据集中可得到第一训练数据集。不难理解的是，第一训练数据集中既包括了进行实体替换前的训练数据，同时也包括了进行实体替换后得到的第一训练数据，为方便描述，以下将第一训练数据集中包括的所有训练数据都称作第一目标训练数据进行说明。

在本申请实施例中，通过获取实体词表，基于实体词表中包括的实体替换训练数据集中各训练数据所包括的实体，可得到各训练数据对应的第一训练数据，将各训练数据对应的第一训练数据添加至训练数据集，可得到第一训练数据集。采用本申请实施例，可实现数据的快速扩增，提高训练数据的多样性，灵活性高。

不难理解的是，除了对训练数据中包括的实体进行实体替换后可生成更多的训练数据，还可以对训练数据中包括的除实体之外的其他字或词进行替换以得到更多的训练数据。参见图2，图2是本申请实施例提供的数据处理方法的另一流程示意图。本申请实施例提供的数据处理方法可通过如下步骤201至204提供的实现方式进行说明：

201、获取实体词表。

202、基于实体词表中实体，替换训练数据集内各训练数据中的实体，以得到各训练数据各自对应的第一训练数据。

203、将各训练数据对应的第一训练数据添加至训练数据集以得到第一训练数据集。

在一些可行的实施方式中，上述步骤201-203所提供的实现方式可参见上述步骤101-103所提供的实现方式，在此不再赘述。

204、获取第一目标训练数据中待预测词的同义词，基于待预测词的同义词替换各第一目标训练数据中的待预测词以生成第二训练数据，并将各第二训练数据添加至第一训练数据集以得到第二训练数据集。

在一些可行的实施方式中，通过获取第一训练数据集中各第一目标训练数据所包括的待预测词，可基于待预测词对应的同义词替换各第一目标训练数据中的待预测词以生成第二训练数据，并将各第二训练数据添加至第一训练数据集以得到第二训练数据集，其中第一目标训练数据为第一训练数据集中的任一训练数据。具体地，通过获取预设的停用词表，可得到停用词表中包括多个停用词，其中停用词表中包括的停用词可以是语气助词、副词、介词、连词等，在此不做限制。可以理解的是，针对特定任务类型，也可以按具体需要，整理对训练任务无帮助或无意义的词作为停用词。然后基于分词工具对第一训练数据集包括的各第一目标训练数据进行分词处理，可得到组成各第一目标训练数据的多个词，其中所用到的分词工具包括但不限于jieba、StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、IKAnalyzer、paoding和imdict等，在此不做限制。为方便描述，本申请实施例以对第一训练数据集中的一条第一目标训练数据进行同义词替换为例进行说明。从得到的组成第一目标训练数据的多个词中确定出不属于停用词表且不属于实体词表的词作为待预测词，通过获取待预测词的同义词，可基于该同义词替换第一目标训练数据中的待预测词以生成第一目标训练数据对应的第二训练数据，通过将第一训练数据集中各第一目标训练数据对应的第二训练数据添加至第一训练数据集，可得到第二训练数据集。也就是说，第二训练数据集中既包括了进行同义词替换前的第一目标训练数据，同时也包括了进行同义词替换后得到的第二训练数据，为方便描述，以下将第二训练数据集中包括的所有训练数据都称作第二目标训练数据进行说明。其中，在获取待预测词的同义词时，可使用训练好的语言模型来确定待预测词的同义词，其中所选取的语言模型可以是Bert预训练语言模型、GPT-2模型，XLnet模型和Word2vec模型等，在此不做限制。为方便描述，本申请实施例以Bert预训练语言模型为例进行说明。通过将每个第一目标训练数据中的待预测词替换为标识符，可生成该第一目标训练数据对应的待预测数据，然后将待预测数据输入Bert预训练语言模型，可基于Bert预训练语言模型输出各标识符对应的预测词，并将得到的预测词确定为待预测词对应的同义词。其中，当待预测词为一个字时，可将训练数据中的这个字用标识符[mask]代替以生成待预测数据，然后将待预测数据输入Bert预训练语言模型，可基于Bert预训练语言模型输出标识符对应的预测词。一般而言，基于Bert预训练语言模型可预测出标识符对应的多个预测词，于是可从多个预测词中随机选择一个预测词作为待预测词对应的同义词，并替换掉第一目标训练数据中的待预测词以生成一条新的训练数据，即第二训练数据。可选的，当待预测词为多个字组成的词时，可将训练数据中该待预测词对应的每个字都用标识符[mask]代替以生成待预测数据，然后将待预测数据输入Bert预训练语言模型，可基于Bert预训练语言模型输出多个标识符中第一个标识符对应的预测字。通过将待预测数据中的第一个标识符替换为基于模型预测得到的预测字，然后再对这个待预测词的第二个标识符执行同样流程的操作，直到待预测数据中包括的所有标识符全部被替换，即可生成一条新的训练数据，即第二训练数据。可选的，在一些可行的实施方式中，在获取待预测词对应的同义词时，还可以通过获取预设的同义词表，然后从同义词表中确定出待预测词对应的同义词。

举例来说，参见图2a，图2a是本申请实施例提供的获取待预测词的同义词的一应用场景示意图。假设第一目标训练数据为“我是深圳人”，通过对该第一目标训练数据进行分词处理，可得到“我”“是”“深圳”“人”。假设从组成该第一目标训练数据的多个词中确定出待预测词为“人”，这里待预测词为一个字。通过将第一目标训练数据中的待预测词“人”替换为标识符mask，可得到待预测数据为“我是深圳mask”，然后将待预测数据输入Bert预训练语言模型，可基于Bert预训练语言模型输出标识符mask对应的预测字为“的”，因此可得到第二训练数据“我是深圳的”。又例如，参见图2b，图2b是本申请实施例提供的获取待预测词的同义词的另一应用场景示意图。针对第一训练数据集中的另一第一目标训练数据“这是一个漂亮的花瓶”，通过对该第一目标训练数据进行分词处理，可得到“这”“是”“一个”“漂亮”“的”“花瓶”。假设从组成该第一目标训练数据的多个词中确定出待预测词为“漂亮”，这里待预测词为2个字组成的词。因此可将第一目标训练数据中的待预测词“漂亮”中的每个字都替换为标识符mask，可得到待预测数据为“这是一个maskmask的花瓶”，然后将待预测数据输入Bert预训练语言模型，可基于Bert预训练语言模型输出第一个标识符mask对应的预测字为“美”，然后再将待预测数据“这是一个美mask的花瓶”输入Bert预训练语言模型，可基于Bert预训练语言模型输出第二个标识符mask对应的预测字为“丽”，因此可得到第二训练数据为“这是一个美丽的花瓶”。

在本申请实施例中，通过获取实体词表，基于实体词表中包括的实体替换训练数据集中各训练数据所包括的实体，可得到各训练数据对应的第一训练数据，将各训练数据对应的第一训练数据更新至训练数据集可得到第一训练数据集，然后针对第一训练数据集中的各第一目标训练数据，通过获取第一目标训练数据中的待预测词以及待预测词的同义词，可将第一目标训练数据中的待预测词替换为该待预测词的替换出以生成第二训练数据，通过将各第一目标训练数据对应的第二训练数据添加至第一训练数据集可得到第二训练数据集。采用本申请实施例，可实现数据的快速扩增，提高训练数据的多样性，灵活性高。

进一步地，为扩大训练数据的数量，以及模拟不同人的说话习惯或语言逻辑，还可以对训练数据中包括的字/或词进行随机交换，以使得训练数据更加多样化。参见图3，图3是本申请实施例提供的数据处理方法的另一流程示意图。本申请实施例提供的数据处理方法可通过如下步骤301至305提供的实现方式进行说明：

301、获取实体词表。

302、基于实体词表中实体，替换训练数据集内各训练数据中的实体，以得到各训练数据各自对应的第一训练数据。

303、将各训练数据对应的第一训练数据添加至训练数据集以得到第一训练数据集。

304、获取第一目标训练数据中待预测词的同义词，基于待预测词的同义词替换各第一目标训练数据中的待预测词以生成第二训练数据，并将各第二训练数据添加至第一训练数据集以得到第二训练数据集。

在一些可行的实施方式中，上述步骤301-303所提供的实现方式可参见上述步骤101-103所提供的实现方式，在此不再赘述。上述步骤304所提供的实现方式可参见上述步骤204所提供的实现方式，在此不再赘述。

305、获取组成第二目标训练数据的多个词，从组成第二目标训练数据的多个词中确定出任意两个词，并交换任意两个词在第二目标训练数据中的位置以生成第三训练数据，将第二训练数据集中各训练数据各自对应的第三训练数据添加至第二训练数据集以得到第三训练数据集。

在一些可行的实施方式中，通过对第二训练数据集包括的任一第二目标训练数据进行分词处理，可得到组成该任一第二目标训练数据的多个词，从组成任一第二目标训练数据的多个词中确定出任意两个词，并交换任意两个词在任一第二训练数据中的位置后，可生成一条新的训练数据，即第三训练数据，其中第二目标训练数据为第二训练数据集中的任一训练数据。通过将生成的第三训练数据添加至第二训练数据集中，可得到第三训练数据集。也就是说，第三训练数据集中既包括了第二训练数据集中所有的第二目标训练数据，同时也包括了新生成的第三训练数据，为方便描述，可将第三训练数据集中包括的所有训练数据都称作第三目标训练数据进行说明。

在本申请实施例中，通过获取实体词表，基于实体词表中包括的实体替换训练数据集中各训练数据所包括的实体，可得到各训练数据对应的第一训练数据，将各训练数据对应的第一训练数据更新至训练数据集可得到第一训练数据集。然后针对第一训练数据集中的各第一目标训练数据，通过获取第一目标训练数据中的待预测词以及待预测词的同义词，可将第一目标训练数据中的待预测词替换为该待预测词的替换出以生成第二训练数据，通过将各第一训练数据对应的第二训练数据添加至第一训练数据集可得到第二训练数据集。可选的，针对第二训练数据集中的各第二目标训练数据，从组成第二目标训练数据的多个词中确定出任意两个词，并交换任意两个词在该第二目标训练数据中的位置可生成第三训练数据，将各第二训练数据对应的第三训练数据添加至第二训练数据集可得到第三训练数据集。采用本申请实施例，可实现数据的快速扩增，提高训练数据的多样性，灵活性高。

在实际应用场景中，当一句话缺少某些字或词时，依然不会影响人们对这句话的理解，因此，为了使训练数据能够更贴近人的语言习惯，可随机删除训练数据中的字或词使得训练数据更加丰富多样。参见图4，图4是本申请实施例提供的数据处理方法的另一流程示意图。本申请实施例提供的数据处理方法可通过如下步骤401至406提供的实现方式进行说明：

401、获取实体词表。

402、基于实体词表中实体，替换训练数据集内各训练数据中的实体，以得到各训练数据各自对应的第一训练数据。

403、将各训练数据对应的第一训练数据添加至训练数据集以得到第一训练数据集。

404、获取第一目标训练数据中待预测词的同义词，基于待预测词的同义词替换各第一目标训练数据中的待预测词以生成第二训练数据，并将各第二训练数据添加至第一训练数据集以得到第二训练数据集。

405、获取组成第二目标训练数据的多个词，从组成第二目标训练数据的多个词中确定出任意两个词，并交换任意两个词在第二目标训练数据中的位置以生成第三训练数据，将第二训练数据集中各训练数据各自对应的第三训练数据添加至第二训练数据集以得到第三训练数据集。

在一些可行的实施方式中，上述步骤401-403所提供的实现方式可参见上述步骤101-103所提供的实现方式，在此不再赘述。上述步骤404所提供的实现方式可参见上述步骤204所提供的实现方式，在此不再赘述。上述步骤405所提供的实现方式可参见上述步骤305所提供的实现方式，在此不再赘述。

406、获取组成第三目标训练数据的多个词，从组成第三目标训练数据的多个词中随机选取任一词，并删除第三目标训练数据中包括的任一词以生成第四训练数据，将第三训练数据集中各训练数据各自对应的第四训练数据添加至第三训练数据集以得到第四训练数据集。

在一些可行的实施方式中，通过对第三训练数据集包括的任一第三目标训练数据进行分词处理，可得到组成该任一第三目标训练数据的多个词，从组成任一第三目标训练数据的多个词中确定出任一词或任意多个词，并删除第三目标训练数据中包括的任一词或任意多个词，可生成新的训练数据，即第四训练数据，其中第三目标训练数据为第三训练数据集中的任一训练数据。通过将生成的第四训练数据添加至第三训练数据集中，可得到第四训练数据集。也就是说，第四训练数据集中既包括了第三训练数据集中所有的第三目标训练数据，同时也包括了新生成的第四训练数据。

在本申请实施例中，通过获取实体词表，基于实体词表中包括的实体替换训练数据集中各训练数据所包括的实体，可得到各训练数据对应的第一训练数据，将各训练数据对应的第一训练数据更新至训练数据集可得到第一训练数据集。然后针对第一训练数据集中的各第一目标训练数据，通过获取第一目标训练数据中的待预测词以及待预测词的同义词，可将第一目标训练数据中的待预测词替换为该待预测词的替换出以生成第二训练数据，通过将各第一目标训练数据对应的第二训练数据添加至第一训练数据集可得到第二训练数据集。可选的，针对第二训练数据集中的各第二目标训练数据，从组成第二目标训练数据的多个词中确定出任意两个词，并交换任意两个词在该第二目标训练数据中的位置可生成第三训练数据，将各第二目标训练数据对应的第三训练数据添加至第二训练数据集可得到第三训练数据集。可选的，针对第三训练数据集中的各第三目标训练数据，通过从组成第三目标训练数据的多个词中随机选取任一词并删除可生成第四训练数据，将各第三目标训练数据对应的第四训练数据添加至第三训练数据集可得到第四训练数据集。采用本申请实施例，可实现数据的快速扩增，提高训练数据的多样性，灵活性高。

参见图5，图5是本申请实施例提供的数据处理装置的结构示意图。本申请实施例提供的数据处理的装置包括：

实体词表获取模块51，用于获取实体词表，上述实体词表中包括多种实体类型的实体，每种实体类型的实体至少有一个；

实体替换模块52，用于基于上述实体词表中的实体，替换训练数据集内各训练数据中的实体，以得到上述各训练数据各自对应的第一训练数据，其中，用于替换第一实体的第二实体所属的实体类型与上述第一实体所属的实体类型相同，上述第二实体不同于上述第一实体，上述第一实体为上述训练数据集内的任一训练数据中的任一实体；

训练数据集更新模块53，用于将上述各训练数据对应的第一训练数据添加至上述训练数据集以得到第一训练数据集。

在一些可行的实施方式中，上述实体词表获取模块51具体用于：

提取上述训练数据集内各训练数据中的实体；

根据提取得到的实体生成上述实体词表。

在一些可行的实施方式中，上述训练数据集更新模块53具体用于：

在一些可行的实施方式中，上述数据处理装置还包括同义词替换模块54，上述同义词替换模块54包括：

停用词表获取单元541，用于获取停用词表，上述停用词表中包括多个停用词；

训练数据分词单元542，用于对上述第一训练数据集中的第一目标训练数据进行分词处理以得到组成上述第一目标训练数据的多个词，上述第一目标训练数据为上述第一训练数据集中的任一训练数据；

待预测词确定单元543，用于从组成上述第一目标训练数据的多个词中确定出不属于上述停用词表且不属于上述实体词表的词作为待预测词；

第二训练数据生成单元544，用于获取上述待预测词的同义词，基于上述同义词替换上述第一目标训练数据中的上述待预测词，以生成上述第一目标训练数据对应的第二训练数据；

第一训练数据集更新单元545，用于将上述第一训练数据集中各训练数据各自对应的第二训练数据添加至上述第一训练数据集以得到第二训练数据集。

在一些可行的实施方式中，上述第二训练数据生成单元544具体用于：

将上述预测词确定为上述待预测词对应的同义词。

在一些可行的实施方式中，上述数据处理装置还包括随机交换模块55，上述随机交换模块55包括：

在一些可行的实施方式中，上述数据处理装置还包括随机删除模块56，上述随机删除模块56包括：

具体实现中，上述数据处理的装置可通过其内置的各个功能模块执行如上述图1至图4中各个步骤所提供的实现方式。例如，上述实体词表获取模块51可用于执行上述各个步骤中提取各训练数据中包括的实体，以及根据提取的实体生成实体词表等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述实体替换模块52可用于执行上述各个步骤中基于实体词表中的实体替换各训练数据中包括的实体等相关步骤所描述的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述训练数据集更新模块53可用于执行上述各个步骤中将进行实体替换后生成的第一训练数据添加至训练数据集中以生成第一训练数据集等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述同义词替换模块54可用于执行上述各个步骤中确定待预测词、获取待预测词的同义词以及基于同义词替换第一训练数据中包括的待预测词以得到第二训练数据等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述随机交换模块55可用于执行上述各个步骤中交换第二训练数据中包括的任意两个词在该第二训练数据中的位置以得到第三训练数据等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述随机删除模块56可用于执行上述各个步骤中删除第三训练数据中任一词以得到第四训练数据等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

在本申请实施例中，数据处理的装置可基于实体词表中包括的实体替换训练数据集中各训练数据所包括的实体，以得到各训练数据对应的第一训练数据，将各训练数据对应的第一训练数据更新至训练数据集可得到第一训练数据集。然后针对第一训练数据集中的各第一目标训练数据，通过获取第一目标训练数据中的待预测词以及待预测词的同义词，可将第一目标训练数据中的待预测词替换为该待预测词的替换出以生成第二训练数据，通过将各第一训练数据对应的第二训练数据添加至第一训练数据集可得到第二训练数据集。可选的，针对第二训练数据集中的各第二目标训练数据，从组成第二目标训练数据的多个词中确定出任意两个词，并交换任意两个词在该第二目标训练数据中的位置可生成第三训练数据，将各第二目标训练数据对应的第三训练数据添加至第二训练数据集可得到第三训练数据集。可选的，针对第三训练数据集中的各第三目标训练数据，通过从组成第三目标训练数据的多个词中随机选取任一词并删除可生成第四训练数据，将各第三目标训练数据对应的第四训练数据添加至第三训练数据集可得到第四训练数据集。采用本申请实施例，可实现数据的快速扩增，提高训练数据的多样性，灵活性高，适用范围广。

参见图6，图6是本申请实施例提供的终端设备的结构示意图。如图6所示，本实施例中的终端设备可以包括：一个或多个处理器601和存储器602。上述处理器601和存储器602通过总线603连接。存储器602用于存储计算机程序，该计算机程序包括程序指令，处理器601用于执行存储器602存储的程序指令，执行如下操作：

在一些可行的实施方式中，上述处理器601用于：

提取上述训练数据集内各训练数据中的实体；

根据提取得到的实体生成上述实体词表。

在一些可行的实施方式中，上述处理器601用于：

获取停用词表，上述停用词表中包括多个停用词；

在一些可行的实施方式中，上述处理器601用于：

将上述预测词确定为上述待预测词对应的同义词。

在一些可行的实施方式中，上述处理器601用于：

应当理解，在一些可行的实施方式中，上述处理器601可以是中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integratedcircuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器602可以包括只读存储器和随机存取存储器，并向处理器601提供指令和数据。存储器602的一部分还可以包括非易失性随机存取存储器。例如，存储器602还可以存储设备类型的信息。

具体实现中，上述终端设备可通过其内置的各个功能模块执行如上述图1至图4中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

在本申请实施例中，终端设备可基于实体词表中包括的实体替换训练数据集中各训练数据所包括的实体，以得到各训练数据对应的第一训练数据，将各训练数据对应的第一训练数据更新至训练数据集可得到第一训练数据集。然后针对第一训练数据集中的各第一训练数据，通过获取第一目标训练数据中的待预测词以及待预测词的同义词，可将第一目标训练数据中的待预测词替换为该待预测词的替换出以生成第二训练数据，通过将各第一目标训练数据对应的第二训练数据添加至第一训练数据集可得到第二训练数据集。可选的，针对第二训练数据集中的各第二目标训练数据，从组成第二目标训练数据的多个词中确定出任意两个词，并交换任意两个词在该第二目标训练数据中的位置可生成第三训练数据，将各第二目标训练数据对应的第三训练数据添加至第二训练数据集可得到第三训练数据集。可选的，针对第三训练数据集中的各第三目标训练数据，通过从组成第三目标训练数据的多个词中随机选取任一词并删除可生成第四训练数据，将各第三目标训练数据对应的第四训练数据添加至第三训练数据集可得到第四训练数据集。采用本申请实施例，可实现数据的快速扩增，提高训练数据的多样性，灵活性高，适用范围广。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图1至图4中各个步骤所提供的数据处理的方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的数据处理的装置或者上述终端设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smartmedia card,SMC)，安全数字(secure digital,SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

Claims

1.一种数据处理的方法，其特征在于，所述方法包括：

获取实体词表，所述实体词表中包括多种实体类型的实体，每种实体类型的实体至少有一个；

基于所述实体词表中的实体，替换训练数据集内各训练数据中的实体，以得到所述各训练数据各自对应的第一训练数据，其中，用于替换第一实体的第二实体所属的实体类型与所述第一实体所属的实体类型相同，所述第二实体不同于所述第一实体，所述第一实体为所述训练数据集内的任一训练数据中的任一实体；

将所述各训练数据对应的第一训练数据添加至所述训练数据集以得到第一训练数据集。

2.根据权利要求1所述方法，其特征在于，所述获取实体词表，包括：

提取所述训练数据集内各训练数据中的实体；

根据提取得到的实体生成所述实体词表。

3.根据权利要求1所述方法，其特征在于，所述基于所述实体词表中的实体，替换训练数据集内各训练数据中的实体，包括：

确定目标实体所属的目标实体类型，所述目标实体为所述训练数据集内任一训练数据中的实体；

从所述实体词表中随机选取属于所述目标实体类型的且不同于所述目标实体的实体，替换所述目标实体。

4.根据权利要求1-3任一项所述方法，其特征在于，所述将所述各训练数据对应的第一训练数据添加至所述训练数据集以得到第一训练数据集之后，所述方法还包括：

获取停用词表，所述停用词表中包括多个停用词；

对所述第一训练数据集中的第一目标训练数据进行分词处理以得到组成所述第一目标训练数据的多个词，所述第一目标训练数据为所述第一训练数据集中的任一训练数据；

从组成所述第一目标训练数据的多个词中确定出不属于所述停用词表且不属于所述实体词表的词作为待预测词；

获取所述待预测词的同义词，基于所述同义词替换所述第一目标训练数据中的所述待预测词，以生成所述第一目标训练数据对应的第二训练数据；

将所述第一训练数据集中各训练数据各自对应的第二训练数据添加至所述第一训练数据集以得到第二训练数据集。

5.根据权利要求4所述方法，其特征在于，所述获取所述待预测词的同义词，包括：

将所述第一目标训练数据中的待预测词替换为标识符以生成待预测数据；

将所述待预测数据输入预训练语言模型，基于所述预训练语言模型输出所述标识符对应的预测词；

将所述预测词确定为所述待预测词对应的同义词。

6.根据权利要求4所述方法，其特征在于，所述将所述第一训练数据集中各训练数据各自对应的第二训练数据添加至所述第一训练数据集以得到第二训练数据集之后，所述方法还包括：

获取组成所述第二目标训练数据的多个词，所述第二目标训练数据为所述第二训练数据集中的任一训练数据；

从组成所述第二目标训练数据的多个词中确定出任意两个词，并交换所述任意两个词在所述第二目标训练数据中的位置，以生成所述第二目标训练数据对应的第三训练数据；

将所述第二训练数据集中各训练数据各自对应的第三训练数据添加至所述第二训练数据集以得到第三训练数据集。

7.根据权利要求4所述方法，其特征在于，所述将所述第二训练数据集中各训练数据各自对应的第三训练数据添加至所述第二训练数据集以得到第三训练数据集之后，所述方法还包括：

获取组成所述第三目标训练数据的多个词，所述第三目标训练数据为所述第三训练数据集中的任一训练数据；

从组成所述第三目标训练数据的多个词中随机选取任一词，并删除所述第三目标训练数据中的所述任一词，以生成所述第三目标训练数据对应的第四训练数据；

将所述第三训练数据集中各训练数据各自对应的第四训练数据添加至所述第三训练数据集以得到第四训练数据集。

8.一种数据处理的装置，其特征在于，所述装置包括：

实体词表获取模块，用于获取实体词表，所述实体词表中包括多种实体类型的实体，每种实体类型的实体至少有一个；

实体替换模块，用于基于所述实体词表中的实体，替换训练数据集内各训练数据中的实体，以得到所述各训练数据各自对应的第一训练数据，其中，用于替换第一实体的第二实体所属的实体类型与所述第一实体所属的实体类型相同，所述第二实体不同于所述第一实体，所述第一实体为所述训练数据集内的任一训练数据中的任一实体；

训练数据集更新模块，用于将所述各训练数据对应的第一训练数据添加至所述训练数据集以得到第一训练数据集。

9.一种终端设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接；

所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。