CN111859987A

CN111859987A - 文本处理方法、目标任务模型的训练方法和装置

Info

Publication number: CN111859987A
Application number: CN202010741423.4A
Authority: CN
Inventors: 浦嘉澍; 席亚东; 毛晓曦; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-10-30
Anticipated expiration: 2040-07-28

Abstract

本发明提供了一种文本处理方法、目标任务模型的训练方法和装置，其中，该文本处理方法包括：响应于接收到指定领域下的待处理语义信息，将待处理语义信息输入至语言模型中，输出与待处理语义信息相关联的增强文本数据；基于增强文本数据，对指定领域下的文本集合进行文本增强；其中，语言模型基于预设的第一样本集合训练得到；第一样本集合中的训练样本包括：指定领域下的样本语义信息，以及与样本语义信息相匹配的样本文本数据。该方式可以实现在指定领域下的文本增强，可以得到在各个专业领域下的文本增强数据，应用范围较广。

Description

文本处理方法、目标任务模型的训练方法和装置

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种文本处理方法、目标任务模型的训练方法和装置。

背景技术

文本增强属于数据增强的一种，文本增强技术可以增加文本样本量，从而提高语言相关的任务模型的训练效果。相关技术中，可以采用EDA(Easy Data Augmentation，简单数据增强)、回译、模型生成等方式实现文本增强。其中的模型生成方式中，模型输出的文本往往与模型的训练数据紧密相关，在大多情况下，模型采用通用语料集中的文本进行训练，模型能够在训练过程中学习到通用语料中文本的通用性和通顺性，但是难以学习到一些专业领域的措辞，导致难以应用至专业领域中的文本增强，应用范围受限。

发明内容

有鉴于此，本发明的目的在于提供一种文本处理方法、目标任务模型的训练方法、装置和电子设备，以实现在指定领域下的文本增强，得到在各个专业领域下的文本增强数据。

第一方面，本发明实施例提供了一种文本处理方法，方法包括：响应于接收到指定领域下的待处理语义信息，将待处理语义信息输入至语言模型中，输出与待处理语义信息相关联的增强文本数据；基于增强文本数据，对指定领域下的文本集合进行文本增强；其中，语言模型基于预设的第一样本集合训练得到；第一样本集合中的训练样本包括：指定领域下的样本语义信息，以及与样本语义信息相匹配的样本文本数据。

上述待处理语义信息包括：意图名信息、意图问题信息、意图回答信息或话术信息中的一种或多种。

上述样本语义信息包括：意图名信息、意图问题信息、意图回答信息或话术信息中的一种或多种；样本文本数据包括话术信息。

上述语言模型具体通过下述方式训练得到：基于第一样本集合确定目标训练样本；其中，目标训练样本包括：指定领域下的目标样本语义信息，以及与目标样本语义信息相匹配的目标样本文本数据；将目标样本语义信息输入至初始模型中，得到输出结果；基于输出结果和目标样本文本数据，确定损失值；基于损失值训练初始模型，直至初始模型收敛，得到语言模型。

上述将目标样本语义信息输入至初始模型中，得到输出结果的步骤之前，方法还包括：基于预设的第二训练集合，对初始模型进行预训练，得到预训练后的初始模型；其中，第二训练集合中的训练样本包括：与指定领域相关的多轮对话数据。

上述指定领域下的文本集合包括第一样本集合中的样本文本数据；上述基于增强文本数据，对指定领域下的文本集合进行文本增强的步骤，包括：将增强文本数据增加至指定领域下的文本集合中。

上述将增强文本数据增加至第一样本集合中的样本文本数据中的步骤，包括：确定目标数据；其中，目标数据包括待处理语义信息，或者与待处理语义相匹配的文本数据；计算增强文本数据与目标数据的相似度，如果相似度达到预设的相似度阈值，将增强文本数据更新至第一样本集合的样本文本数据中。

第二方面，本发明实施例提供了一种目标任务模型的训练方法，方法包括：响应于接收到目标任务所属领域下的待处理语义信息，将待处理语义信息输入至语言模型中，输出与待处理语义信息相关联的增强文本数据；其中，语言模型基于预设的第一样本集合训练得到；第一样本集合中的训练样本包括：目标任务所属领域下的样本语义信息，以及样本语义信息相匹配的样本文本数据；基于增强文本数据，对目标任务所属领域下的文本集合进行文本增强；基于增强后的文本集合，训练目标任务的任务模型，得到训练后的任务模型。

第三方面，本发明实施例提供了一种文本处理装置，装置包括：第一输出模块，用于响应于接收到指定领域下的待处理语义信息，将待处理语义信息输入至语言模型中，输出与待处理语义信息相关联的增强文本数据；第一增强模块，用于基于增强文本数据，对指定领域下的文本集合进行文本增强；其中，语言模型基于预设的第一样本集合训练得到；第一样本集合中的训练样本包括：指定领域下的样本语义信息，以及与样本语义信息相匹配的样本文本数据。

第四方面，本发明实施例提供了一种目标任务模型的训练装置，装置包括：第二输出模块，用于响应于接收到目标任务所属领域下的待处理语义信息，将待处理语义信息输入至语言模型中，输出与待处理语义信息相关联的增强文本数据；其中，语言模型基于预设的第一样本集合训练得到；第一样本集合中的训练样本包括：目标任务所属领域下的样本语义信息，以及样本语义信息相匹配的样本文本数据；第二增强模块，用于基于增强文本数据，对目标任务所属领域下的文本集合进行文本增强；模型训练模块，用于基于增强后的文本集合，训练目标任务的任务模型，得到训练后的任务模型。

第五方面，本发明实施例提供了一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述文本处理方法，或者上述目标任务模型的训练方法。

第六方面，本发明实施例提供了一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述文本处理方法，或者上述目标任务模型的训练方法。

本发明实施例带来了以下有益效果：

上述文本处理方法、目标任务模型的训练方法、装置和电子设备，训练语言模型的训练样本中包括指定领域下的样本语义信息，以及与样本语义信息相匹配的样本文本数据；这种语义匹配对形式的训练样本，可以在训练语言模型的过程中，使语言模型学习到该知道领域下的语言文本的语义关联关系；当接收到该指定领域下的待处理语义信息时，可以输出与该待处理语义信息相关联的增强文本数据，从而实现在指定领域下的文本增强。通过该方式，可以得到在各个专业领域下的文本增强数据，应用范围较广。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文本处理方法的流程图；

图2为本发明实施例提供的一种语言模型的训练方式的流程图；

图3为本发明实施例提供的一种目标任务模型的训练方法的流程图；

图4为本发明实施例提供的增强文本训练意图分类任务模型的训练效果曲线图；

图5为本发明实施例提供的一种文本处理装置的结构示意图；

图6为本发明实施例提供的一种目标任务模型的训练装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

文本增强广泛运用于各种自然语言处理任务中，有很强的现实意义；比如在文本分类任务中，文本增强技术可以对同义词进行扩展，提高文本分类模型的识别率；在实体识别时，文本增强技术可对部分常用实体进行随机替换，比如识别运动员名字时，可以根据运动员名录进行自动的扩充。随着神经网络及算力的日益提升，通过改写进行文本增强的方法也逐渐出现，不同于简单的做同义词替换，改写的方式更多的是对句法的变化，有很强的多样性。

现有的文本增强的技术方案包括有EDA、回译(back translation)，基于模型生成的文本增强等等。

其中，EDA方法指的就是对文本进行三种操作，包括增、删、改、交换；增就是指随机增加一个词，这个词可以从原来的句子中选；删就是指从原来的句子中随机删除一个词，而改则是将原来的词用新词替换，比如可以将“天气真好”中的“真好”替换为“真不错”。交换指的是将任意两个词的位置进行交换。

EDA方法在英文数据集上有很好的表现，但是这种方法具有很强的局限性，首先这种方法不适用于大数据量，主要原因是生成的文本不自然，并不是一个规范的文本，比如“我去上学了”可能被改写成“我学去上了”，意思相近但是句法不通。其次，EDA的文本替换等四种操作并没有考虑到上下文和语境，有可能会替换的同义词在某个上下文语境中并不合适，比如将“这一步棋下的还真漂亮”中的漂亮替换为“美丽”显然是不合适的。

上述回译方法就是将一种语言的文本翻译成另外一种语言，然后再重新翻译回来，这种方法依赖于翻译模型的好坏，并且对于双向的翻译质量都有很高的要求。比如句子“城里的人想出去，城外的人想进来”翻译成英文是“People in the city want to goout，people in the city want to come in”，再重新翻译回中文就变成了“城市中的人们想要外出，城市中的人们想要进来”一些细微的差异，但是意思基本没有变。

上述回译的方法有效的原因是不同语种之间的翻译模型有差异，而这种差异正好能带来改写的效果，基于模型的方法都会极其依赖于数据，而翻译的数据又很可能会存在不平衡的情况，比如有很多中翻英的配对句子，但是不一定有同样多的英翻中的句子，与训练数据相似的文本可能有很好的回译效果，反之则会效果不佳，特别是当翻译一些网络用语，新词或者古文等与训练语料分布相差较大的语料时。比如当翻译网络新词“我是一个柠檬精”成英文时，就变成了“I am a lemon extract”，再翻译回来就变成了“我是一个柠檬提取物”，意思完全变了。

上述基于模型生成的方法大体可以分为两类，第一类是基于VAE(VariationalAutoEncoders，变分自动编码器)结构，VAE结构的最大特点是可以在一个连续分布上进行采样，比如高斯分布，由采样得到的向量来产生一定的随机性，从而进行文本增强；另一类方法是基于语言模型进行文本增强，依托于大量的训练文本，语言模型在采样时有很大的灵活性，可以在通顺的基础上生成多种多样的文本。

上述基于模型生成的方法，一般是基于序列生成的方法，比如说传统的RNN(Recurrent Neural Network，循环神经网络)、LSTM((Long Short-Term Memory，长短期记忆网络)等等，类似的模型有一个共有的缺点，就是曝光误差(exposure bias)，也就是说在生成一个序列时往往只能生成一些与训练语料相似的句子，因为在训练时常常会用到强制教学(teach forcing)的方法，模型是一个个字生成的，前一个时间生成的字会用作下一个字的输入。

另外，基于VAE的方法通常不去学习如何利用隐含变量，每个字的输入模型会仅仅用到前一个输出的字，而忽略了隐含变量。随着语言模型兴起，相对于传统模型，序列与序列生成有了明显的进步，但是大模型依赖于大数据，虽然生成的句子很通顺，但是生成的句子一般与训练数据紧密相关，无法直接用于所有的下游文本生成任务，比如在通用语料集上的训练的语言模型，无法直接用于医学语料的文本生成。

基于上述，本发明实施例提供一种文本处理方法、目标任务模型的训练方法、装置和电子设备；该技术可以应用于各个专业领域的文本增强。为便于对本实施例进行理解，首先对本发明实施例所公开的一种文本处理方法进行详细介绍。

如图1所示，该文本处理方法包括如下步骤：

步骤S102，响应于接收到指定领域下的待处理语义信息，将待处理语义信息输入至语言模型中，输出与待处理语义信息相关联的增强文本数据；

本实施例的目的是为了实现在特定领域下的文本增强，因而输出增强文本数据的语言模型需要在训练过程中，学习到特定领域中的专业措辞，以及该领域中不同语义直接的关联。为了实现该目的，上述语言模型需要采用特定的样本集合训练得到。基于此，本实施例中的语言模型基于预设的第一样本集合训练得到；该第一样本集合中的训练样本包括：指定领域下的样本语义信息，以及与样本语义信息相匹配的样本文本数据。

通常，需要进行某一指定领域下的文本增强，就在该指定领域中搜集语料并整理得到上述第一样本集合。该指定领域通常为专业性较强的领域，例如，医学领域、建筑学领域、美术领域等等。第一样本集合中的每个训练样本，通常包括一个样本语义信息，以及一个与该样本语义信息相匹配的样本文本数据；因而每个训练样本也可以称为一个语义匹配对。

上述待处理语义信息包括：意图名信息、意图问题信息、意图回答信息或话术信息中的一种或多种，同样地，样本语义信息可以包括意图名信息、意图问题信息、意图回答信息或话术信息中的一种或多种；不论是待处理语义信息，还是样本语义信息，其中的意图名信息用于表征文本的意图，例如“聊天气”“订火车票”等；意图问题信息可以理解为一个具体问题，例如“今天天气怎么样”“强直性脊柱炎的早期症状是什么”等；意图回答信息中通常包括意图信息以及对该意图信息的回答，例如“聊天气，今天天气真好”；话术信息通常为陈述式的文本，例如“今天天气好”。

与该样本语义信息相匹配的样本文本数据，通常与样本语义信息相关联，在大多情况下，样本文本数据为话术信息。例如，当样本语义信息为意图名信息时，与之匹配的样本文本数据可以为与该意图名信息表达的对话意图对应的文本；作为示例，意图名信息为“聊天气”，则相匹配的样本文本数据为“今天下雨了”。其他实现方式中，样本语义信息也可以为话术信息，与之匹配的样本文本数据可以为与该话术信息相关的其他话术信息，例如，样本语义信息为“天气真好啊”，与之匹配的样本文本数据可以为“天气确实好，万里无云”。或者，样本语义信息也可以为意图问题信息，与之匹配的样本文本数据可以为意图回答信息，例如，样本语义信息为“今天天气怎么样”，与之匹配的样本文本数据可以为“今天天气好，万里无云”。

通过这种指定领域下的语义匹配对形式的训练样本，可以使语言模型学习到该指定领域下语义之间的关联关系。该语言模型训练完成后，当输入该指定领域下的待处理语义信息时，即可输出与该待处理语义信息相关联的增强文本数据，由于语言模型学习到了该指定领域中语义的关联关系，因而语义模型基于该待处理语义信息输出的增强文本数据，与该待处理语义信息相关，可以体现该指定领域下的专业性，因而实现了在该指定领域下的文本增强。

步骤S104，基于增强文本数据，对指定领域下的文本集合进行文本增强。

该指定领域下的文本集合，可以为人工收集的该指定领域中的文本；将该增强文本数据添加至该文本集合中，可以丰富该指定领域下的文本数据，实现了该指定领域下的文本增强。另外，上述第一训练样本集合，也可以基于该指定领域下的文本集合建立。

上述文本处理方法中，训练语言模型的训练样本中包括指定领域下的样本语义信息，以及与样本语义信息相匹配的样本文本数据；这种语义匹配对形式的训练样本，可以在训练语言模型的过程中，使语言模型学习到该知道领域下的语言文本的语义关联关系；当接收到该指定领域下的待处理语义信息时，可以输出与该待处理语义信息相关联的增强文本数据，从而实现在指定领域下的文本增强。通过该方式，可以得到在各个专业领域下的文本增强数据，应用范围较广。

下面具体说明语言模型的训练方式。如图2所示，语言模型的训练方式包括下述步骤：

步骤S202，基于第一样本集合确定目标训练样本；其中，该目标训练样本包括：指定领域下的目标样本语义信息，以及与目标样本语义信息相匹配的目标样本文本数据；

步骤S204，将目标样本语义信息输入至初始模型中，得到输出结果；

步骤S206，基于输出结果和目标样本文本数据，确定损失值；基于损失值训练初始模型，直至初始模型收敛，得到语言模型。

在上述目标训练样本中，目标样本语义信息与目标样本文本数据相匹配，初始模型基于目标样本语义信息得到输出结果后，基于该输出结果与和目标样本文本数据，通过预设的损失函数确定损失值，然后再基于该损失函数调整初始模型中的参数，达到训练初始模型的目的。通过多次执行上述步骤S202-S206，可以使初始模型的输出结果与目标样本文本数据越来越接近，损失值越来越小，直至损失值收敛，得到训练完成的语言模型。

一种具体的实现方式中，上述初始模型在训练时，采用Adam优化器做梯度下降，进而更新模型参数。几个最重要的训练参数如下：学习率设定为5e05，batch_size设定为256，epoch需要根据第一样本集合大小灵活设定。其中，batch_size指一次训练所选取的样本数；在一个epoch中，第一样本集合中所有训练样本在初始模型中都进行了一次正向传播和一次反向传播。语言模型训练完成后，还需要验证集合验证模型的训练效果，可以根据在验证集合上的最小损失来挑选最好的模型进行保存。

为了进一步提高语言模型的训练效果，在基于上述第一训练集合训练初始模型之前，需要对该初始模型进行预训练；预训练的主要目的是为了使提高语言模型输出的增强文件数据的通用性和通顺性。

在预训练过程中，基于预设的第二训练集合，对初始模型进行预训练，得到预训练后的初始模型；其中，第二训练集合中的训练样本包括：与指定领域相关的多轮对话数据。第二训练集合中的训练样本可以包括该指定领域下的文本数据，也可以包含与指定领域相关的文本数据，例如，指定领域为儿科，与指定领域相关的文本数据可以涵盖医学范畴内各个科目领域的文本数据；当然，第二训练集合也可以包含部分通用领域下的文本数据。由于初始模型的模型参数规模通常很大，通过选取与指定领域相关的数据对初始模型进行预训练，可以在预训练过程中就让初始模型学习与指定领域相关的语言，或者让第二训练集合中的文本与使用增强文本训练的目标任务的文本接近，提高模型输出的增强文本的专业性。

同时，第二训练集合所涉及的领域范围通常大于第一训练集合，还可能包括通用领域下的相关文本，因而可以使训练后的模型输出的文本数据具有较强的专业性的同时，更加通顺和通用。

初始模型的模型结构，可以采用序列到序列(sequence-to-sequence)的语言模型，即Transformer模型。Transformer模型的输入是一条文本，输出也是一条文本。输入的文本会经过很多个神经网络块(block)进行特征变化，由编码器(encoder)输出文本特征，文本输出由解码器(decoder)来控制，解码器每个时间步输出一个字，并且会每一次都与编码器的输出通过注意力机制来进行交互。Transformer模型广泛运用于多种任务中，比如词性识别、对话生成等等，其中词性识别任务的输入输出的数据长度是一样的，对话生成任务的输入输出的数据长度可以相同也可以不同。文本增强可以被认为是一种不定长的序列输出问题，并且训练语料可以是一对多的形式。

由于Transformer模型结构的对称性，此模型的编码器和解码器可以共享权值，编码器的结构与BERT(Bidirectional Encoder Representations from Transformers，源自于转换器的双向编码器描述模型)语言模型一致，解码器的结构与GPT(Generative Pre-Training，生成式的预训练)-2结构一致，可以利用BERT模型或者GPT-2模型的预训练方式来初始化transformer模型的参数。采用GPT-2模型的预训练方式时，上述初始模型的第二训练集合中的训练语料用了多轮的对话数据，初始模型的输入是一句话的前N个词，输出是后一个词。

在通过上述第一样本集合和上述第二样本集合训练初始模型时，初始模型输出的文本数据通常都是不定长的，输出数据的长度可以与输入数据的长度相同，也可以不同。

一种具体的实现方式中，进行文本增强的指定领域下的文本集合包括第一样本集合中的样本文本数据。在初始状态下，该指定领域下的文本集合可以为人工搜集得到的文本，也可以理解为原始文本；通过对该文本集合中的每个文本匹配语义信息，可以得到第一样本集合中的训练样本；即该文本集合中的每个文本，均为第一样本集合中的一个样本文本数据，每个样本文本数据，可以通过人工的方式匹配一个样本语义信息。

通过第一样本集合训练得到语言模型后，将待处理语义信息输入至该语言模型中，输出增强文本数据；该待处理语义信息可以为前述第一样本集合中的样本语义信息中的一种，因而输出的增强文本数据与第一样本集合中的一种样本语义信息相匹配，此时将增强文本数据增加至指定领域下的文本集合中，从而实现对该指定领域下的文本进行语料扩充。

作为示例，输入至语言模型的待处理语义信息可以为意图名信息、意图回答信息和话术信息中的一种，输出的增强文本数据是与待处理语义信息语义相似的句子。假如第一样本集合中包括多个训练样本，其中的10个训练样本的样本语义信息均为相同的意图名信息；语言模型训练完成后，将该意图名信息作为待处理语义信息输入至语言模型中，也可以生成10个与该意图名信息相匹配的增强文本数据；这10个增强文本数据可以将该意图名信息一次输入至语言模型后生成，也可以将该意图名信息多次输入至语言模型中后生成。

需要说明的是，当该语言模型为前述Trasnformer模型时，该Trasnformer模型在解码时可以控制一定的采样灵活性，采用灵活性越高，语言模型输出的增强文本数据的多样性就越好，但是增强文本数据的通顺性以及与待处理语义信息的相关性就会越差。在实际实现时，在解码时通常会用到束搜索beam search方法，束宽度beam width的参数值设置的越大，采样的多样性和通顺性就越高，但是输出速度也越慢。

上述语言模型输出增强文本数据后，可以将该增强文本数据直接增加至指定领域的文本集合中，由于输出的增强文本数据质量难以衡量，所以可能会降低指定领域的文本集合中文本的质量，不利于后续任务模型的训练，基于此，需要对增强文本数据进行筛选。在实际实现时，需要先确定目标数据；其中，该目标数据包括待处理语义信息，或者与待处理语义相匹配的文本数据；计算增强文本数据与目标数据的相似度，如果相似度达到预设的相似度阈值，将增强文本数据更新至第一样本集合的样本文本数据中。

作为示例，如果上述待处理语义信息为意图名信息，可以将目标数据确定为与该意图名信息相匹配的话术信息。当该待处理语义信息为第一训练集合中的一种样本语义信息时，该意图名信息相匹配的话术信息为该样本语义信息相匹配的样本文本数据。在判断增强文本数据与目标数据的相似度时，可以通过模型进行判断，例如，上述BERT模型可以用于判断增强文本数据与目标数据之间的相似度；首先，通过模型将增强文本数据与目标数据均转换成特征向量，再计算两个特征向量之间的相似度，例如计算两个特征向量之间的余弦相似度；预先设置一个相似度阈值，如果两个特征向量之间的相似度高于该相似度阈值，则将该文本增强数据添加至指定领域的文本集合中；如果两个特征向量之间的相似度高于该相似度阈值，则舍弃该增强文本数据。

例如，输入至语言模型的待处理语义信息为“杭州的西湖真美”，语言模型基于这句话生成了三个增强文本数据，分别为增强文本数据1“临安的西湖真漂亮”、增强文本数据2“杭州的西湖真可爱”、增强文本数据3“杭的州的湖不美”。将这三个增强文本数据和待处理语义信息均转换为特征向量，将三个增强文本数据的特征向量分别与待处理语义信息的特征向量进行余弦相似度计算，得到结果：0.95，0.9、0.82；预设的相似度阈值为0.88，此时，增强文本数据3对应的相似度低于相似度阈值，则增强文本数据3被舍弃，增强文本数据1和增强文本数据2增加值指定领域的文本集合中。

上述文本处理方法中，输出的增强文本数据能够考虑到上下文的语义语境，也能根据特殊任务定制生成特定的语料，并且最大限度地利用语言模型的优势。这种文本的增强方式利用多维度的语义信息，比如意图数据集，意图名、意图问题、回答等包含语义信息的文本，将多种语义信息进行交互，让语言模型尽可能多地去吸收不同语义之间的关联，从而提升了文本增强的效果。

基于文本增强后的指定领域的文本集合，可以对目标任务模型进行训练，文本增强后的文本集合中即包括原始文本，也包括基于原始文本得到的增强文本。如图3所示，该目标任务模型的训练方法，包括如下步骤：

步骤S302，响应于接收到目标任务所属领域下的待处理语义信息，将待处理语义信息输入至语言模型中，输出与待处理语义信息相关联的增强文本数据；其中，语言模型基于预设的第一样本集合训练得到；第一样本集合中的训练样本包括：目标任务所属领域下的样本语义信息，以及样本语义信息相匹配的样本文本数据；

步骤S304，基于增强文本数据，对目标任务所属领域下的文本集合进行文本增强；

步骤S306，基于增强后的文本集合，训练目标任务的任务模型，得到训练后的任务模型。

其中的目标任务所属领域通常基于目标任务确定；例如，当目标任务为儿科分诊系统时，目标任务所属领域为儿科领域或医学领域。上述步骤S302和S304的具体实现方式，可以参考前述实施例中的文本处理方法。基于增强后的文本集合，可以生成目标任务的任务模型的训练样本，通过该训练样本训练目标任务的任务模型，可以得到训练后的任务模型。

通过上述方式实现的文本增强，可以根据特定场景进行语义扩充，包括但不限于考虑上下文的同义词替换，后缀，前缀补充，能有效地提升意图分类任务的效果。上述方式可以在特定领域做细化的文本增强，增强的文本具有通顺性和特定领域的代表性。比如在医疗领域的文本分类中，语言模型输出的增强文本具有很高的可读性，同时也能兼顾一定的医疗专业性，兼顾这两个特性的增强文本，可以显著提升目标任务模型的训练效果。

为了进一步描述本实施例的文本增强方法的效果，下述表1所示为通过各种样本语义信息训练得到的语言模型，所输出的增强文本数据的实验结果。其中，bleu值用于评估增强文本的相关性，self-bleu值用于评估增强文本的多样性；方法名词也可以理解为样本语义信息的种类，其中intent-name代表意图名信息，answer代表意图回答信息，cluster代表随机的意图话术信息，intent_answer代表意图名信息+回答信息，intent_name_noise代表带噪音的意图名信息，random_label指的是随机标签。

表1

另外，图4所示为各种样本语义信息训练得到的语言模型后，输出的增强文本训练意图分类任务模型的训练效果；观察图4可知，当第一训练集合中的样本语义信息为意图名信息，样本文本数据为话术信息时，意图分类任务的训练效果最好。

对应于上述方法实施例，参见图5所示的一种文本处理装置的结构示意图，该装置包括：

第一输出模块50，用于响应于接收到指定领域下的待处理语义信息，将待处理语义信息输入至语言模型中，输出与待处理语义信息相关联的增强文本数据；

第一增强模块52，用于基于增强文本数据，对指定领域下的文本集合进行文本增强；

其中，语言模型基于预设的第一样本集合训练得到；第一样本集合中的训练样本包括：指定领域下的样本语义信息，以及与样本语义信息相匹配的样本文本数据。

上述文本处理装置中，训练语言模型的训练样本中包括指定领域下的样本语义信息，以及与样本语义信息相匹配的样本文本数据；这种语义匹配对形式的训练样本，可以在训练语言模型的过程中，使语言模型学习到该知道领域下的语言文本的语义关联关系；当接收到该指定领域下的待处理语义信息时，可以输出与该待处理语义信息相关联的增强文本数据，从而实现在指定领域下的文本增强。通过该方式，可以得到在各个专业领域下的文本增强数据，应用范围较广。

上述装置还包括模型训练模块，用于具体通过下述方式训练得到语言模型：基于第一样本集合确定目标训练样本；其中，目标训练样本包括：指定领域下的目标样本语义信息，以及与目标样本语义信息相匹配的目标样本文本数据；将目标样本语义信息输入至初始模型中，得到输出结果；基于输出结果和目标样本文本数据，确定损失值；基于损失值训练初始模型，直至初始模型收敛，得到语言模型。

上述训练模块还用于：基于预设的第二训练集合，对初始模型进行预训练，得到预训练后的初始模型；其中，第二训练集合中的训练样本包括：与指定领域相关的多轮对话数据。

上述指定领域下的文本集合包括第一样本集合中的样本文本数据；上述第一增强模块还用于：基于增强文本数据，对指定领域下的文本集合进行文本增强的步骤，包括：将增强文本数据增加至指定领域下的文本集合中。

上述第一增强模块还用于：确定目标数据；其中，目标数据包括待处理语义信息，或者与待处理语义相匹配的文本数据；计算增强文本数据与目标数据的相似度，如果相似度达到预设的相似度阈值，将增强文本数据更新至第一样本集合的样本文本数据中。

参见图6所示的一种目标任务模型的训练装置的结构示意图，该装置包括：

第二输出模块60，用于响应于接收到目标任务所属领域下的待处理语义信息，将待处理语义信息输入至语言模型中，输出与待处理语义信息相关联的增强文本数据；其中，语言模型基于预设的第一样本集合训练得到；第一样本集合中的训练样本包括：目标任务所属领域下的样本语义信息，以及样本语义信息相匹配的样本文本数据；

第二增强模块62，用于基于增强文本数据，对目标任务所属领域下的文本集合进行文本增强；

模型训练模块64，用于基于增强后的文本集合，训练目标任务的任务模型，得到训练后的任务模型。

本实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述文本处理方法，或者上述目标任务模型的训练方法。

参见图7所示，该电子设备包括处理器100和存储器101，该存储器101存储有能够被处理器100执行的机器可执行指令，该处理器100执行机器可执行指令以实现上述文本处理方法，或者上述目标任务模型的训练方法。

进一步地，图7所示的电子设备还包括总线102和通信接口103，处理器100、通信接口103和存储器101通过总线102连接。

其中，存储器101可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器100可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101，处理器100读取存储器101中的信息，结合其硬件完成前述实施例的方法的步骤。

本实施例还提供一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述文本处理方法，或者上述目标任务模型的训练方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本处理方法，其特征在于，所述方法包括：

将指定领域下的待处理语义信息输入至语言模型中，输出与所述待处理语义信息相关联的增强文本数据；

基于所述增强文本数据，对所述指定领域下的文本集合进行文本增强；

其中，所述语言模型基于预设的第一样本集合训练得到；所述第一样本集合中的训练样本包括：所述指定领域下的样本语义信息，以及与所述样本语义信息相匹配的样本文本数据。

2.根据权利要求1所述的方法，其特征在于，所述待处理语义信息包括：意图名信息、意图问题信息、意图回答信息或话术信息中的一种或多种。

3.根据权利要求1所述的方法，其特征在于，所述样本语义信息包括：意图名信息、意图问题信息、意图回答信息或话术信息中的一种或多种；所述样本文本数据包括话术信息。

4.根据权利要求1所述的方法，其特征在于，所述语言模型具体通过下述方式训练得到：

基于所述第一样本集合确定目标训练样本；其中，所述目标训练样本包括：所述指定领域下的目标样本语义信息，以及与所述目标样本语义信息相匹配的目标样本文本数据；

将所述目标样本语义信息输入至初始模型中，得到输出结果；

基于所述输出结果和所述目标样本文本数据，确定损失值；基于所述损失值训练所述初始模型，直至所述初始模型收敛，得到语言模型。

5.根据权利要求4所述的方法，其特征在于，将所述目标样本语义信息输入至初始模型中，得到输出结果的步骤之前，所述方法还包括：

基于预设的第二训练集合，对所述初始模型进行预训练，得到预训练后的所述初始模型；其中，所述第二训练集合中的训练样本包括：与所述指定领域相关的多轮对话数据。

6.根据权利要求1所述的方法，其特征在于，所述指定领域下的文本集合包括所述第一样本集合中的样本文本数据；

所述基于所述增强文本数据，对所述指定领域下的文本集合进行文本增强的步骤，包括：将所述增强文本数据增加至所述指定领域下的文本集合中。

7.根据权利要求6所述的方法，其特征在于，将所述增强文本数据增加至所述第一样本集合中的样本文本数据中的步骤，包括：

确定目标数据；其中，所述目标数据包括所述待处理语义信息，或者与所述待处理语义相匹配的文本数据；

计算所述增强文本数据与所述目标数据的相似度，如果所述相似度达到预设的相似度阈值，将所述增强文本数据更新至所述第一样本集合的样本文本数据中。

8.一种目标任务模型的训练方法，其特征在于，所述方法包括：

响应于接收到目标任务所属领域下的待处理语义信息，将所述待处理语义信息输入至语言模型中，输出与所述待处理语义信息相关联的增强文本数据；其中，所述语言模型基于预设的第一样本集合训练得到；所述第一样本集合中的训练样本包括：所述目标任务所属领域下的样本语义信息，以及所述样本语义信息相匹配的样本文本数据；

基于所述增强文本数据，对所述目标任务所属领域下的文本集合进行文本增强；

基于增强后的所述文本集合，训练所述目标任务的任务模型，得到训练后的所述任务模型。

9.一种文本处理装置，其特征在于，所述装置包括：

第一输出模块，用于响应于接收到指定领域下的待处理语义信息，将所述待处理语义信息输入至语言模型中，输出与所述待处理语义信息相关联的增强文本数据；

第一增强模块，用于基于所述增强文本数据，对所述指定领域下的文本集合进行文本增强；

10.一种目标任务模型的训练装置，其特征在于，所述装置包括：

第二输出模块，用于响应于接收到目标任务所属领域下的待处理语义信息，将所述待处理语义信息输入至语言模型中，输出与所述待处理语义信息相关联的增强文本数据；其中，所述语言模型基于预设的第一样本集合训练得到；所述第一样本集合中的训练样本包括：所述目标任务所属领域下的样本语义信息，以及所述样本语义信息相匹配的样本文本数据；

第二增强模块，用于基于所述增强文本数据，对所述目标任务所属领域下的文本集合进行文本增强；

模型训练模块，用于基于增强后的所述文本集合，训练所述目标任务的任务模型，得到训练后的所述任务模型。

11.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-7任一项所述的文本处理方法，或者权利要求8所述的目标任务模型的训练方法。

12.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1-7任一项所述的文本处理方法，或者权利要求8所述的目标任务模型的训练方法。