CN115081428A

CN115081428A - 一种处理自然语言的方法、自然语言处理模型、设备

Info

Publication number: CN115081428A
Application number: CN202210860799.6A
Authority: CN
Inventors: 杨平; 张家兴; 甘如饴
Original assignee: International Digital Economy Academy IDEA
Current assignee: International Digital Economy Academy IDEA
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-09-20
Anticipated expiration: 2042-07-22
Also published as: CN115081428B

Abstract

本发明涉及自然语言理解技术领域，具体是涉及一种处理自然语言的方法、自然语言处理模型、设备。本发明首先将待理解文本、问题、各个选项拼接成文本，以此将对待理解文本的理解转换成多项式选择任务。只要自然语言处理模型根据问题、待理解文本预测各个选项所对应的“是”的概率，就可以从各个选项中挑选出针对问题的目标选项，就可以知道用户通过待理解文本想要表达的意图，从而实现了对自然语言的理解。由于本发明将多种任务类型都转化成为多项式选择的形式，因此本发明可以一个模型同时完成多个自然语言理解任务。此外，本发明使用的是双向的transformer结构，推理过程只需要一次前向，从而降低了计算量，最终提高了模型的推理速度。

Description

一种处理自然语言的方法、自然语言处理模型、设备

技术领域

本发明涉及自然语言理解技术领域，具体是涉及一种处理自然语言的方法、自然语言处理模型、设备。

背景技术

自然语言理解就是用户向机器输入一段语言文字，机器需要理解用户通过这段语言文字想表达什么含义，比如用户向机器输入一段文字：这部电影太好看了，机器需要理解用户通过这段文字想表达的对这部电影的评论情感是什么，机器通过对这段文字的分析，可以知道用户对这部电影是好评。

现有技术通常在机器中植入已训练的模型，通过模型理解自然语言。而随着模型预训练技术的发展，在NLU（Nerual Language Understand）任务（自然语言理解任务）中，pre-training+finetune成为了一种标准的范式。其通常是先用大量无标注的数据进行对transformer结构的模型进行预训练，然后在特定任务上使用大量有标注的数据集进行微调。这种pre-training+finetune的范式在微调阶段依然需要大量含标注的数据集。且针对不同的任务需要进行不同的微调，不能使用一个模型针对多个任务。此外，由于在微调时需要添加特定的任务层参数，所以这种范式不具备Zero-Shot的能力，即不具备在不更新参数的情况下可以直接进行预测推理的能力。针对这个问题，目前许多工作将 NLU 任务当作生成任务（所谓的生成任务就是直接根据一段语言文字，生成用户想表达的意图，比如上述“这部电影太好看了”，需要机器直接根据这段文字生成用户的评价情感）来解决。从上述分析可知，pre-training+finetune的范式无法统一多个自然语言理解任务。而生成模型虽然可以做到统一，但其参数量都比较大，其训练和推理过程都需要消耗大量的算力。且生成模型是以自回归的方式进行生成，推理的时候需要进行多次前向计算，这也使得推理时间进一步增加。此外，生成模型需要把选项生成出来，在同时学习多个任务时，容易造成不同任务之间相互干扰。

综上所述，现有技术无法有效的统一多个自然语言理解任务。

因此，现有技术还有待改进和提高。

发明内容

为解决上述技术问题，本发明提供了一种处理自然语言的方法、自然语言处理模型、装置、设备，解决了现有技术无法有效的统一多个自然语言理解任务的问题。

为实现上述目的，本发明采用了以下技术方案：

第一方面，本发明提供一种处理自然语言的方法，其中，包括：

获取待处理自然语言文本，包括多个选项、问题、待理解文本，多个所述选项、问题、待理解文本进行拼接，得到拼接文本；

将所述拼接文本输入已训练的自然语言处理模型，通过已训练的所述自然语言处理模型预测各个所述选项为“是”的概率和/或为“非”的概率，所述“是”用于表征所述选项为所述待理解文本针对所述问题的符合选项，所述“非”用于表征所述选项为所述待理解文本针对所述问题的不符合选项；

比较多个所述选项为“是”的概率大小，输出对应的选项为目标选项。

在一种实现方式中，所述多个所述选项、问题、待理解文本进行拼接，得到拼接文本，包括：

将不同分割标识插入到所述选项、所述问题、所述待理解文本的分割处，所述分割标识用于区分所述选项、所述问题、所述待理解文本；

在每个所述选项之前添加掩码标识，所述掩码标识用于预测出所述“是”和/或所述“非”，用于标识所述选项是否为所述待理解文本针对所述问题的符合选项；

将所述掩码标识、多个所述选项、所述分割标识、所述问题、所述待理解文本进行拼接，得到拼接文本。

在一种实现方式中，所述将所述拼接文本输入已训练的自然语言处理模型，包括：

将所述拼接文本输入到所述已训练的自然语言处理模型中，所述已训练的自然语言处理模型将所述拼接文本分别生成文本嵌入向量、位置嵌入向量、切分嵌入向量，所述文本嵌入向量、所述位置嵌入向量、所述切分嵌入向量的维度相同；

将所述文本嵌入向量、所述位置嵌入向量、所述切分嵌入向量逐点相加，得到拼接文本嵌入向量。

在一种实现方式中，所述文本嵌入向量、所述位置嵌入向量、所述切分嵌入向量均为二维向量，所述二维向量中的第一维表示句子长度，所述二维向量中的第二维表示嵌入向量长度。

在一种实现方式中，各个所述选项处的位置嵌入向量的值相同，所述拼接文本中各个所述选项对应的切分嵌入向量的值与所述问题、所述待理解文本对应的切分嵌入向量的值不同。

在一种实现方式中，将所述拼接文本输入已训练的自然语言处理模型，通过已训练的所述自然语言处理模型预测各个所述选项为“是”的概率和/或为“非”的概率，包括：

将选项注意力掩码矩阵输入已训练的自然语言处理模型；所述选项注意力掩码矩阵中，将各个选项之间的注意力掩码设为0以阻止多个选项之间的注意力连接。

在一种实现方式中，所述比较多个所述选项为“是”的概率大小，输出对应的选项为目标选项，包括：

通过已训练的所述自然语言处理模型比较各个所述选项所对应的所述“是”的概率；

将已训练的所述自然语言处理模型依据最大所述“是”的概率输出的所述选项作为目标选项；

或者，通过已训练的所述自然语言处理模型比较各个所述选项所对应的所述“非”的概率；

将已训练的所述自然语言处理模型依据最小所述“非”的概率输出的所述选项作为目标选项；

或者，通过已训练的所述自然语言处理模型比较各个所述选项所对应的所述“是”的概率和/或为“非”的概率；

将已训练的所述自然语言处理模型依据所述“是”的概率大于 “非”的概率输出的所述选项作为目标选项。

在一种实现方式中，已训练的所述自然语言处理模型的训练方式包括：

获取拼接样本文本，所述拼接样本文本涵盖样本问题、各个样本选项、样本自然语言文字、各个所述样本选项所对应的“是”的样本概率和/或各个所述样本选项所对应的“非”的样本概率，将与所述样本问题对应的标准答案选项所对应的掩码标识mask“是”的概率设置为“1”；

将所述拼接样本文本输入到待训练的所述自然语言处理模型中，对待训练的所述自然语言处理模型进行训练，得到已训练的所述自然语言处理模型。

在一种实现方式中，所述将所述拼接样本文本输入到待训练的所述自然语言处理模型中，对待训练的所述自然语言处理模型进行训练，得到已训练的所述自然语言处理模型，包括：

将所述拼接样本文本输入到待训练的所述自然语言处理模型中，输出预测向量；

计算所述预测向量和所述拼接样本文本所对应的样本向量之间的损失向量；

依据所述损失向量更新所述自然语言处理模型的参数值，得到已训练的所述自然语言处理模型。

在一种实现方式中，在所述拼接样本文本中的所述样本选项之前设置样本掩码标识，所述依据所述损失向量更新所述自然语言处理模型的参数值，得到已训练的所述自然语言处理模型，包括；

依据所述损失向量，得到所述损失向量在所述样本掩码标识位置处的掩码损失值；

依据所述掩码损失值更新所述自然语言处理模型的参数值，得到已训练的所述自然语言处理模型。

在一种实现方式中，各个所述样本选项只有一个样本选项为与所述样本问题相符合的选项，记为样本目标选项，所述依据所述掩码损失值更新所述自然语言处理模型的参数值，得到已训练的所述自然语言处理模型，包括：

依据所述掩码损失值，得到所述样本目标选项处的样本掩码标识所对应的掩码损失值；

依据所述样本目标选项处的样本掩码标识所对应的掩码损失值更新所述自然语言处理模型的参数值，得到已训练的所述自然语言处理模型。

第二方面，本发明实施例还提供一种用于处理自然语言的自然语言处理模型，其中，所述自然语言处理模型包括如下组成部分：

文本嵌入模块，用于嵌入拼接文本，形成文本嵌入向量；

位置嵌入模块，用于将所述拼接文本生成位置嵌入向量，所述位置嵌入向量用于表征所述拼接文本所涵盖的问题、各个选项、待理解文本在所述拼接文本中的位置；

切分嵌入模块，用于将各个所述选项与所述问题、所述待理解文本切分开，得到切分嵌入向量；

拼接模块，输入端分别与所述文本嵌入模块的输出端、所述位置嵌入模块的输出端、所述切分嵌入模块的输出端连接，用于累加所述文本嵌入向量、所述位置嵌入向量、所述切分嵌入向量，得到拼接文本嵌入向量；

预测模块，输入端与所述拼接模块的输出端相连接，用于预测所述拼接文本嵌入向量中的各个选项所对应的“是”的概率和/或“非”的概率；

编码器，输入端与所述拼接模块的输出端连接，输出端与所述预测模块的输入端连接，用于掩盖所述选项；

判别模块，输入端与所述预测模块的输出端连接，用于依据各个选项所对应的“是”的概率和/或“非”的概率从各个选项中判别出目标选项。

在一种实现方式中，所述预测模块包括：

解码层，用于预测拼接文本嵌入向量中各个选项为“是”的概率和/或“非”的概率。

第三方面，本发明实施例还提供一种终端设备，其中，所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的处理自然语言的程序，所述处理器执行所述处理自然语言的程序时，实现上述所述的处理自然语言的方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有处理自然语言的程序，所述处理自然语言的程序被处理器执行时，实现上述所述的处理自然语言的方法的步骤。

有益效果：本发明首先将待理解文本、问题、各个选项拼接成文本，选项用于表征对待理解文本的各种可能性理解，问题是针对待理解文本提出的问题，这样就可以将对待理解文本的理解转换成对各个选项的选择了，从而将对自然语言理解的任务转变成多项式（各个选项构成了多项式）选择任务，进而有效的统一多个自然语言理解任务。另外只要自然语言处理模型根据问题、待理解文本计算各个选项所对应的正确错误的概率，就可以从各个选项中挑选出针对问题的目标选项，就可以知道用户通过待理解文本想要表达的意图，从而实现了对自然语言的理解。从上述分析可知，本发明通过自然语言处理模型理解自然语言时只涉及到待理解文本、问题、各个选项这三种数据，并没有过多的数据参与，从而降低了计算量，最终提高了对自然语言的理解速度。

附图说明

图1为本发明的模型框架图；

图2为本发明的选项注意力掩码示意图；

图3为本发明实施例中的模型训练流程图；

图4为本发明实施例中的使用训练之后的模型理解自然语言的流程图；

图5为本发明实施例提供的终端设备的内部结构原理框图。

具体实施方式

以下结合实施例和说明书附图，对本发明中的技术方案进行清楚、完整地描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

经研究发现，自然语言理解就是用户向机器输入一段语言文字，机器需要理解用户通过这段语言文字想表达什么含义，比如用户向机器输入一段文字：这部电影太好看了，机器需要理解用户通过这段文字想表达的对这部电影的评论情感是什么，机器通过对这段文字的分析，可以知道用户对这部电影是好评。现有技术通常在机器中植入已训练的模型，通过模型理解自然语言。而随着模型预训练技术的发展，在NLU（Nerual LanguageUnderstand）任务（自然语言理解任务）中，pre-training+finetune成为了一种标准的范式。其通常是先用大量无标注的数据进行对transformer结构的模型进行预训练，然后在特定任务上使用大量有标注的数据集进行微调。这种pre-training+finetune的范式在微调阶段依然需要大量含标注的数据集。且针对不同的任务需要进行不同的微调，不能使用一个模型针对多个任务。此外，由于在微调时需要添加特定的任务层参数，所以这种范式不具备Zero-Shot的能力，即不具备在不更新参数的情况下可以直接进行预测推理的能力。针对这个问题，目前许多工作将 NLU 任务当作生成任务（所谓的生成任务就是直接根据一段语言文字，生成用户想表达的意图，比如上述“这部电影太好看了”，需要机器直接根据这段文字生成用户的评价情感）来解决。然而生成模型参数量都比较大，其训练和推理过程都需要消耗大量的算力。且生成模型是以自回归的方式进行生成，推理的时候需要进行多次前向计算，这也使得推理时间进一步增加。此外，生成模型需要把选项生成出来，在同时学习多个任务时，容易造成不同任务之间相互干扰。从上述分析可知，现有技术无法有效的统一多个自然语言理解任务。

为解决上述技术问题，本发明提供了一种处理自然语言的方法、自然语言处理模型、设备，解决了现有技术对自然语言的理解速度较慢的问题。具体实施时，首先将问题、各个选项、待理解文本进行拼接，得到拼接文本；然后通过已训练的所述自然语言处理模型计算各个所述选项所对应的类别为“是”的概率或为“非”的概率；最后将已训练的所述自然语言处理模型依据所述“是”的概率或所述“非”的概率输出的结果作为目标选项。

举例说明，问题为“请问新闻是什么类型”，选项为“A体育、B军事、C财经、D娱乐”，待理解文本“如何解读蚂蚁金服首季亏损”。将问题、选项、待理解文本输入到自然语言处理模型，自然语言处理模型对三者进行拼接，得到拼接文本：体育军事财经娱乐请问新闻是什么类型如何解读蚂蚁金服首季亏损，自然语言处理模型结合文本计算出“体育”这个选项“是”的概率为a、“军事”这个选项“是”的概率为b、“财经”这个选项“是”的概率为c、“娱乐”这个选项“是”的概率为d，a、b、c、d这四者中c的值最大，自然语言处理模型就会输出“财经”这个选项，即“财经”就是“请问新闻是什么类型”这个问题针对“如何解读蚂蚁金服首季亏损”这个待理解文本的正确选项。

示例性方法

本实施例提供一种如图1所示的自然语言处理模型（即多项式选择任务模型框架），包括：文本嵌入模块、位置嵌入模块、切分嵌入模块、拼接模块、编码器、预测模块、判别模块，下面分别对上述各个模块进行说明：

文本嵌入模块（token embedding），用于嵌入拼接文本，形成文本嵌入向量。

在一个实施例中，将各个选项、问题、待理解文本输入到文本嵌入模块中，将待理解文本转换成向量，且将转换得到的文本嵌入向量拼接在一起，形成文本嵌入向量。

以不同标识插入到选项、问题、待理解文本的分割处，用于区分选项、问题、待理解文本；在每个选项之前添加掩码标识，所述掩码标识[mask]用来预测出“是”或者“非”，表示该选项是否被选择。

举例说明，如图1所示，A.好评、B.差评（A和B是选项），评论的情感是（问题），电影好看（待理解文本，即待理解自然语言文字），首先将上述文字拼接成如下文本：[cls][mask]好评[mask]差评[sep]评论的情感是[sep]电影好看[sep]。

token embedding将上述文本转换成文本嵌入向量，即将上述文本转换成了二维向量[seq_length,hidden_size]，第一维表示句子的长度，第二维表示句子的嵌入向量长度。

位置嵌入模块（Position embedding），用于对所述拼接文本生成对应的位置嵌入向量，所述位置嵌入向量用于表征所述拼接文本所涵盖的问题、各个选项、待理解文本在拼接文本中的位置，其中各个选项对应的位置嵌入向量的值相同。

比如图1中的拼接文本的位置编号为:

[0,1,2,3,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16]

其中第一个“1”代表第一个“mask”在所有选项中的位置为第一，而且是从选项的位置开始编号，比如第一个“1,2,3”代表“[mask]好评”，第二个“1,2,3”就代表[mask]差评，这样是为了便于机器通过识别出“1”识别出选项所在的位置，考虑到每个选项应该是同等的被选择，因此每个选项的位置编号相同。

切分嵌入模块（segment embedding），用于将各个所述选项与所述问题、所述待理解文本切分开，得到切分嵌入向量。拼接文本中各选项对应的切分嵌入向量的值与问题、待理解文本对应的切分嵌入向量的值不同。

如图1所示，将“[mask]好评[mask]差评[sep]”设置成“111111”，而将“[sep]评论的情感是[sep]电影好看[sep]”设置成“0000000000000”，以此便于模型将选项与问题、待理解文本区分开。便于后续机器只计算选项的概率值。

拼接模块，所述文本嵌入向量、所述位置嵌入向量、所述切分嵌入向量进行逐点相加得到拼接文本嵌入向量，所述拼接文本嵌入向量是形状为[seq_length,hidden_size]的二维向量，第一维表示拼接文本句子长度，第二维表示嵌入向量的长度。编码器（encoder），对所述拼接文本嵌入向量进行编码得到与拼接向量文本相同形状的编码向量。

在一个实施例中，encoder是双向transformer模型，例如bert，roberta等。拼接文本嵌入向量经过encoder之后得到一个形状为[seq_length, hidden_size]的编码向量。

在transformer结构中，每层都会有一个self-attention层，其作用是每个字都会去关注句子中的其他字，并通过attention记录字与字之间的关联程度以便能更好地理解句子的语义。由于每个选项是独立的，选项之间不应该含有干扰。因此，选项不应该去关注到其他选项。所以本发明在self-attention层通过注意力掩码 Attention Mask 的方式来实现选项之间的attention屏蔽，如图2所示。在self-attention层“好评”这两个不会去关注到“差评”这两个字。“差评”同样不会关注到“好评”。

预测模块（解码层即predict head层），用于预测拼接文本嵌入向量中各个选项为“是”的概率和/或“非”的概率。将编码向量输入预测模块后输出二维预测向量，形状为[seq_length, vocab_size]，第一维向量代表选项的个数，第二维向量中的每个数字都表示选项对应的预测概率值，用于预测各个选项所对应的“是”的概率和/或“非”的概率。

判别模块，用于依据各个选项所对应的“是”的概率和/或“非”的概率判别出待理解文本的目标选项。

将编码器输出的[seq_length, hidden_size]编码向量输入到解码层，解码层通过一个predict head实现，得到形状为[seq_length, vocab_size]的二维预测向量，vocab_size表示字典的大小，第二维向量中的每个数字都表示字典中每个字的预测概率值。由于图1所示的例子只有两个选项，所以只有两个[mask]，把这两个mask 取出来，得到形状为[2, vocab_size]的输出。

当选择任务为单选时，在第二维中只取“是”这个字的概率值。得到形状为[2, 1]的输出。然后比较第一维哪个选项的概率值最大得到答案。当选择任务为多选时，在第二维中取“是”和“非”这两个字的概率值。得到形状为[2, 2]的输出。对于第一维的每个选项。比较第二维“是”和“非”哪个字的概率比较大，从而得到该选项是否被选择。上述文字的意思是将predict head层输出的概率值送入到Softmax（单一向选择）中，哪个选项“是”的概率大就输出哪个选项。

在一种实现方式中，所述预测模块包括：

在一个实施例中，当需要从所有选项中选择出合适的选项时，而不局限从多个选项选一个选项时，就可以不设置Softmax，而是哪几个选项“是”的概率大于“非”的概率就输出哪几个选项。

本实施例还提供一种自然语言处理模型的训练方法，如图3所示，所述训练方法包括如下步骤S100、S200、S300、S400：

S100，获取拼接样本文本，所述拼接样本文本包括样本问题、各个样本选项、样本自然语言文字、各个所述样本选项。

收集包括但不限于如表1所示的多种类型且含有选项答案的任务数据，并处理成为统一的多项式选择形式，即包含问题、选项和文章（样本自然语言文字）的形式。

将每条样本（表1中的每一行就是一条样本）的所有选项与问题和文章进行拼接。得到如“[cls][mask]A选项[mask]B选项[mask]C选项…[sep]问题[sep]文章[sep]”的形式，记为x。同时根据标准答案选项构造对应的选项[mask]为“是”对应的概率是1，其他选项对应[mask]为“非”的概率是0。位置正确输出的文本，记为y_mask（即如表2所示，针对“评价的情感是”这一问题所对应的标准答案选项是“A”）,此外记输出为“是”的[mask] 的位置为1，记为y_cls_。例如通过拼接得到：[cls][mask] 好评[mask] 差评[sep] 评论的情感是[sep] 这部电影太好看了[sep]。对应的y_mask和y_cls如表2所示：

表1

表2

x

[cls]

[mask]

好

评

[mask]

差

评

[sep]

评

论

的

…

Y_mask

是

非

Y_cls

1

0

S200，将所述拼接样本文本输入到待训练的所述自然语言处理模型中。

在一个实施例中，步骤S200包括如下的步骤S201、S202、S203：

S201，依据所述拼接样本文本，得到各种类型的所述拼接样本文本，所述类型用于表征所述自然语言处理任务所涉及的类型。

如表1所示，各种类型包括情感分类、新闻分类、文本相似度、自然语言推理、机器阅读理解、指代消解六种类型。

样本库中每种类型有10000个拼接样本文本，共计60000个拼接样本。

S202，将各种类型的所述拼接样本文本随机打乱到不同的batch中。

比如将60000个拼接样本文本随机打乱，打乱之后再将60000个拼接样本文本划分成100个batch，随机打乱的目的是为了让每一个batch随机涵盖步骤S201中的六种类型。

S203，将每个batch中的所述拼接样本文本依次输入到待训练的所述自然语言处理模型中进行训练。

比如一次将一个batch的100个拼接样本文本输入到待训练的所述自然语言处理模型，由于一个batch的100个拼接样本文本基本上涵盖了所有的类型，因此自然语言处理模型一次就可以对所有类型的拼接文本进行学习。训练的目的是根据给定的样本让模型能够学习其中的知识。

S300，待训练的所述自然语言处理模型预测各个所述拼接样本文本对应不同选项“是”的训练概率和/或“非”的训练概率。

步骤S300的核心是所述自然语言处理模型中的如图1所示的predict head层为每一个选项预测“是”的训练概率值。在一个实施例中也可以通过predict head层为每一个选项预测“非”的训练概率值。本实施例中使用predict()函数,可以预测在当前样本内容语义环境下每一个选项符合“是”“非”的概率值。

S400，依据各个所述样本选项所对应的“是”的训练概率和/或各个所述样本选项所对应的“非”的训练概率、各个所述样本选项所对应的“是”的样本概率和/或各个所述样本选项所对应的“非”的样本概率，每一个对应样本选项的“是”的训练概率值与其他选项的“是”的训练概率值进行比较，选择概率大的选项输出为目标选项。

步骤S400的核心就是利用图1中的CrossEntropy Loss（交叉熵损失函数）计算输出的目标选项与标准答案选项之间的损失，根据损失来调整自然语言处理模型的训练参数，不断训练所述自然语言处理模型，得到已训练的所述自然语言处理模型。

将目标选项与样本对应的标准答案选项进行比较，当两者相差较大时，调整自然语言处理模型的参数值（即调整图1所示的模型框架所涉及到的参数值），直至所有样本均训练完毕，完成对自然语言处理模型的训练。步骤S400包括如下的步骤S401和S402：

S401，将所述拼接样本文本输入到待训练的所述自然语言处理模型中，输出预测的目标选项。

自然语言处理模型将拼接样本文本以向量的形式输出，即将文本转换成机器可以识别的向量。

S402，计算所述预测向量和所述拼接样本文本所对应的标准答案选项之间的损失。

S403，依据所述损失更新所述自然语言处理模型的参数值，得到已训练的所述自然语言处理模型。

在一个实施例中，当有多个样本选项是正确选项时，就计算各个目标选项的向量值与样本所对应的多个标准答案选项的向量值之间的损失值，根据该损失值更新模型的参数值，以完成对模型的训练。

在一个实施例中，当只有一个样本选项是正确选项时，就计算唯一的目标选项的向量值与样本所对应的一个标准答案选项的向量值之间的损失值，根据该损失值更新模型的参数值，以完成对模型的训练。

步骤S400是基于如下原理完成自然语言处理模型的训练的：

(一)把步骤S100的 x 经过步骤200处理后输入到图1所示的模型。首先把字变成文本嵌入向量，记为 token_embedding。为了让模型知道每个字所在的位置，以及选项是哪些字，模型的输入分别添加了位置嵌入向量position_emmbedding和切分嵌入向量segment_embedding。

这3个嵌入向量embedding的形状为[seq_length,hidden_size]，第一维表示句子的长度，第二维表示句子的嵌入向量长度。

考虑到每个选项在训练时应该是同等的被选择，因此每个选项的位置编码一致。各个所述选项处的位置嵌入向量的值相同，所述拼接文本中各个所述选项对应的切分嵌入向量的值与所述问题、所述待理解文本对应的切分嵌入向量的值不同。

（二）token_embedding、position_emmbedding和segment_embedding进行相加。

因这3个嵌入向量embedding的形状为[seq_length,hidden_size]，将这3个嵌入向量逐点相加，以对3个信息进行融合。

（三）对步骤（二）相加得到的结果输入到图1所示的模型encoder，经过encoder和predict head之后。模型输出一个形状为[seq_length,vocab_size]的输出，记为y_hat，第二维表示字典的大小，第二维中的每个数字都表示第一维中的每个字经过模型之后可能对应于字典中每个字的概率。由于只需要计算 [mask]对应于哪个字，因此，第二维中的每个数字这里可以理解为[mask] 可能对应于字典中每个字的概率。概率越大表示[mask]越有可能是这个字。

（四）通过交叉熵计算y_mask和y_hat的损失，这里只计算[mask]的位置的损失。非[mask]的位置的损失不进行计算。

（五）如果任务形式是多选题形式，即同时含有多个答案，则跳过该步骤。如任务形式是单选题的形式，则从形状为[seq_length,vocab_size]的y_hat取出每个[mask]输出“是”的概率值，得到形状为[seq_length,1]的y_hat_cls。然后通过交叉熵计算Y_cls和y_hat_cls的损失。同样不是[mask]的位置都会被忽略掉,不计算损失。

（六）通过损失计算梯度，并进行反向传播，然后更新模型权重值。

重复步骤S400，直到所有数据全部被取到且送入模型进行训练。当模型学习完所有的数据，则停止训练，并保存训练好的模型权重。

本实施例还提供一种处理自然语言的方法，如图4所示，所述方法包括如下步骤S500、S600、S700：

S500，获取待处理自然语言文本，包括多个选项、问题、待理解文本，多个所述选项、问题、待理解文本进行拼接，得到拼接文本。

本实施例之所以将待理解文本与问题、各个选项进行拼接，是为了将对待理解文本的理解任务转换成从多个选项中做出选择的多项式选择任务，多项式选择任务比直接针对待理解文本理解任务涉及更少的计算量，从而提高了解决待理解文本这一任务的速度。步骤S500包括如下的步骤S501、S502、S503：

S501，给各个所述选项添加各个掩码标识[mask]，所述掩码标识用于标识各个选项。

S502，将所述问题、添加各个所述掩码标识的各个所述选项、针对所述问题获取的待理解文本进行拼接，得到拼接文本。

在一个实施例中，将不同分割标识插入到所述选项、所述问题、所述待理解文本的分割处，所述分割标识用于区分所述选项、所述问题、所述待理解文本；在每个所述选项之前添加掩码标识，所述掩码标识用于预测出所述“是”和/或所述“非”，用于标识所述选项是否为所述待理解文本针对所述问题的符合选项，得到拼接文本。

本实施例是先添加掩码，再将添加了掩码的各个选项与问题、待理解文本进行拼接。在一个实施例中，也可以先按照选项、问题、待理解文本这样的排列顺序将三者拼接在一起，然后再在各个选型对应的位置处添加掩码。

之所以在每个选型的前面添加一个特殊的token [mask]。是为了后续用这个特殊token预测出“是”或者“非”，表示该选项是否被选择。考虑到每个选项应该是同等的被选择，因此每个选项的位置编码一致。

S503，在所述拼接文本位于所述选项与所述问题之间的位置处插入分割符和/或所述问题与所述待理解文本之间的位置处插入分割符，得到插入分割符之后的所述拼接文本。

本实施例在选项与问题之间以及问题与待理解文本之间均插入分隔符[sep]，之所以插入分隔符是为了机器识别出哪些是问题、哪些是选型、哪些又是待理解文本。最终形成的拼接文本如下所示：

[cls][mask]体育[mask]军事[mask]财经[mask]娱乐[sep]请问新闻是什么类型[sep]如何解读蚂蚁金服首季亏损[sep]

S600，将所述拼接文本输入已训练的自然语言处理模型，通过已训练的所述自然语言处理模型预测各个所述选项为“是”的概率和/或为“非”的概率，所述“是”用于表征所述选项为所述待理解文本针对所述问题的符合选项，所述“非”用于表征所述选项为所述待理解文本针对所述问题的不符合选项。

在一个实施例中，拼接文本输入到自然语言处理模型之后，自然语言处理模型将拼接文本分别生成文本嵌入向量、位置嵌入向量、切分嵌入向量，再将这三个向量进行逐点相加，就得到了拼接文本向量，以此将机器不能识别的文字内容转换成机器可以识别的向量，以便于后续根据问题找到相应的选项。

在一个实施例中，步骤S600先从各个选型中判断出“是”的选型（预选选型），然后计算预选选型“是”的概率。在该实施例中，步骤S600包括如下的步骤S601和S602：

S601，对所述拼接文本应用已训练的自然语言处理模型，已训练的所述自然语言处理模型从各个所述选项中依据各个所述选项与所述待理解文本的匹配程度挑选出预选选项。

比如拼接文本：[cls][mask]体育[mask]军事[mask]财经[mask]娱乐[sep]请问新闻是什么类型[sep]如何解读蚂蚁金服首季亏损，它的亏损对各个行业是否有影响呢，比如是否对娱乐行业行影响[sep]。

针对上述拼接文本，从“体育、军事、财经、娱乐”这四个选项中挑选出“财经”、“娱乐”这两个预选选项。

S602，已训练的所述自然语言处理模型计算各个所述预选选项所对应的“是”的概率和/或“非”的概率。

在一个实施例中，将选项注意力掩码矩阵输入已训练的自然语言处理模型；所述选项注意力掩码矩阵中，将各个选项之间的注意力掩码设为0以阻止多个选项之间的注意力连接，如图2所示防止选项之间的注意力干扰。

比如计算步骤S601中的“财经”这个预选选项“是”和/或“非”的概率时，并不会去关注 “娱乐”这个选项的概率，同样计算“娱乐”这个选项的概率时也不会去关注“财经”这个预选选项的概率。

本实施例中Encoder是一个双向的transformer结构，在transformer结构中，每层都会有一个self-attention层，其作用是在网络传输到下一层时，每个字都会去关注句子中的那些字。由于每个选项时独立的，选项之间不应该含有干扰。因此，计算每一个选项“是”和/或“非”的概率时不应该去关注到其他选项。所以本实施例通过如图2所示的选项注意力掩码矩阵来实现。

在另一个实施例中，步骤S600直接计算拼接文本中各个选项“是”的概率，以此防止将错误的选项作为目标选项输出。

S700，将已训练的所述自然语言处理模型依据所述是的概率和/或所述非的概率输出的结果作为目标选项。

当目标选项只有一个时，已训练的所述自然语言处理模型比较各个所述选项所对应的所述是的概率，将最大所述是的概率所对应的所述选项作为目标选项，已训练的所述自然语言处理模型输出所述目标选项。

由于只需要选择出一个正确的答案作为输出，本实施例在模型的输出添加额外的训练目标，即判断哪一个选项是最优的答案，即判断哪一个选项前面的[mask]预测出“是”的概率最大。具体实现是取每个选项前面的[mask]预测出“是”的 logit 送入到 softmax交叉熵损失函数。

在一个实施例中，当目标选项只有一个时，已训练的所述自然语言处理模型比较各个所述选项所对应的所述“非”的概率；将最小所述“非”的概率所对应的所述选项作为目标选项；已训练的所述自然语言处理模型输出所述目标选项。

在一个实施例中，当目标选项的数量不止一个时，已训练的所述自然语言处理模型比较各个所述选项所对应的所述“是”的概率和所述“非”的概率；将所述“是”的概率大于所述“非”的概率所对应的所述选项作为目标选项；已训练的所述自然语言处理模型输出所述目标选项。

本实施例的训练之后的自然语言处理模型除了可以应用在步骤S200中的已经被学习训练的六种类型（情感分类、新闻分类、文本相似度、自然语言推理、机器阅读理解、指代消解）上，训练之后的自然语言处理模型也可以应用在没有被学习训练的其它类型上。

举例说明，例如意图识别。假设现在有3个意图（选项），分别是 “打开音乐”、“导航”、“关闭空调”，然后给定句子为“我想听平凡之路”。同样可以将意图（选项）识别转化为多项式选择的形式。文章（待理解文本）为：“我想听平凡之路”；问题为：“用户想干什么”；选项：“打开音乐”、“导航”、“关闭空调”。构造格式：[cls][mask] 打开音乐[mask] 导航[mask] 关闭空调[sep] 用户想干什么[sep] 我想听平凡之路[sep]，然后输入到图1所示的模型中，最后通过判断哪个选项的[mask]输出“是”的概率最大来得到答案。得到的答案为：“打开音乐”。

综上，本发明首先将待理解文本、问题、各个选项拼接成文本，选项用于表征对待理解文本的各种可能性理解，问题是针对待理解文本提出的问题，这样就可以将对待理解文本的理解转换成对各个选项的选择了，从而将对自然语言理解的任务转变成多项式（各个选项构成了多项式）选择了。只要自然语言处理模型根据问题、待理解文本计算各个选项所对应的正确错误的概率，就可以从各个选项中挑选出针对问题的目标选项，就可以知道用户通过待理解文本想要表达的意图，从而实现了对自然语言的理解。从上述分析可知，本发明通过自然语言处理模型理解自然语言时只涉及到待理解文本、问题、各个选项这三种数据，并没有过多的数据参与，从而降低了计算量，最终提高了对自然语言的理解速度。

另外，本发明使用的是非生成模型（自然语言处理模型），在小参数量的模型中也能拥有Zero-Shot能力。本发明使用的是非生成模型，不需要自回归生成答案，速度更快。本发明不需要生成标签词，只需要给定选项，然后选择出答案即可。本发明使用标签描述信息[mask]当作是选项，有效利用了任务的标签描述信息。

基于上述实施例，本发明还提供了一种终端设备，其原理框图可以如图5所示。该终端设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏。其中，该终端设备的处理器用于提供计算和控制能力。该终端设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种处理自然语言的方法。

本领域技术人员可以理解，图5中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端设备的限定，具体的终端设备以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种终端设备，终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行的处理自然语言程序，处理器执行理解自然语言程序时，实现如下操作指令：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种处理自然语言的方法，其特征在于，包括：

2.如权利要求1所述的处理自然语言的方法，其特征在于，所述多个所述选项、问题、待理解文本进行拼接，得到拼接文本，包括：

3.如权利要求1所述的处理自然语言的方法，其特征在于，所述将所述拼接文本输入已训练的自然语言处理模型，包括：

将所述拼接文本输入到已训练的所述自然语言处理模型中，已训练的所述自然语言处理模型将所述拼接文本分别生成文本嵌入向量、位置嵌入向量、切分嵌入向量，所述文本嵌入向量、所述位置嵌入向量、所述切分嵌入向量的维度相同；

4.如权利要求3所述的处理自然语言的方法，其特征在于，所述文本嵌入向量、所述位置嵌入向量、所述切分嵌入向量均为二维向量，所述二维向量中的第一维表示句子长度，所述二维向量中的第二维表示嵌入向量长度。

5.如权利要求3所述的处理自然语言的方法，其特征在于，各个所述选项处的位置嵌入向量的值相同，所述拼接文本中各个所述选项对应的切分嵌入向量的值与所述问题、所述待理解文本对应的切分嵌入向量的值不同。

6.如权利要求1所述的处理自然语言的方法，其特征在于，将所述拼接文本输入已训练的自然语言处理模型，通过已训练的所述自然语言处理模型预测各个所述选项为“是”的概率和/或为“非”的概率，包括：

7.如权利要求1所述的处理自然语言的方法，其特征在于，所述比较多个所述选项为“是”的概率大小，输出对应的选项为目标选项，包括：

8.如权利要求7所述的处理自然语言的方法，其特征在于，已训练的所述自然语言处理模型的训练方式包括：

获取拼接样本文本，所述拼接样本文本涵盖样本问题、各个样本选项、样本自然语言文字、各个所述样本选项所对应的“是”的样本概率和/或各个所述样本选项所对应的“非”的样本概率，将与所述样本问题相符合的所述样本选项所对应的“是”的样本概率设置为“1”；

9.如权利要求8所述的处理自然语言的方法，其特征在于，所述将所述拼接样本文本输入到待训练的所述自然语言处理模型中，对待训练的所述自然语言处理模型进行训练，得到已训练的所述自然语言处理模型，包括：

10.如权利要求9所述的处理自然语言的方法，其特征在于，在所述拼接样本文本中的所述样本选项之前设置样本掩码标识，所述依据所述损失向量更新所述自然语言处理模型的参数值，得到已训练的所述自然语言处理模型，包括；

11.如权利要求10所述的处理自然语言的方法，其特征在于，各个所述样本选项只有一个样本选项为与所述样本问题相符合的选项，记为样本目标选项，所述依据所述掩码损失值更新所述自然语言处理模型的参数值，得到已训练的所述自然语言处理模型，包括：

12.一种用于处理自然语言的自然语言处理模型，其特征在于，所述自然语言处理模型包括如下组成部分：

文本嵌入模块，用于嵌入拼接文本，形成文本嵌入向量；

13.如权利要求12所述的用于处理自然语言的自然语言处理模型，其特征在于，所述预测模块包括：

14.一种终端设备，其特征在于，所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的处理自然语言的程序，所述处理器执行所述处理自然语言的程序时，实现如权利要求1-11任一项所述的处理自然语言的方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有处理自然语言的程序，所述处理自然语言的程序被处理器执行时，实现如权利要求1-11任一项所述的处理自然语言的方法的步骤。