CN114626529A

CN114626529A - 一种自然语言推理微调方法、系统、装置及存储介质

Info

Publication number: CN114626529A
Application number: CN202210179894.XA
Authority: CN
Inventors: 苏锦钿; 张明锋
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-06-14
Anticipated expiration: 2042-02-25
Also published as: CN114626529B

Abstract

本发明公开了一种自然语言推理微调方法、系统、装置及存储介质，其中方法包括：获取前提文本与假设文本，对前提文本与假设文本进行分词，获得文本的离散编码；将离散编码输入预训练模型中进行句向量建模，获得隐藏向量；将隐藏向量拆分为前提隐藏向量和假设隐藏向量；将前提隐藏向量的句首向量输入到推理模块进行推理任务，并获取第一损失；将前提隐藏向量输入到文本生成模块进行生成任务，并获取第二损失；将第一损失和第二损失进行相加，根据相加获得的损失优化预训练模型、推理模块以及文本生成模块。本发明能够充分学习句子间的语义相关性，在原本的推理任务中取得更好的效果。本发明可广泛应用于自然语言推理技术领域。

Description

一种自然语言推理微调方法、系统、装置及存储介质

技术领域

本发明涉及自然语言推理技术领域，尤其涉及一种自然语言推理微调方法、系统、装置及存储介质。

背景技术

自然语言推理是自然语言理解任务之一，是评估模型语言理解能力的重要任务，该项任务对于模型的语义理解能力，语义结构建模能力等要求较高，自然语言推理任务也可以称为文本蕴含任务，该任务将前提和假设的语义关系分为蕴含、矛盾和中立三类或者蕴含和非蕴含两类，是句子对分类任务。一个蕴含关系的例子如下，给定前提“一个骑马的人跳过了一架坏掉的飞机。”，任务目标是判断是否可以通过该前提推理出给定的假设“一个人在户外，骑在马上。”。现存的自然语言推理语料库包括斯坦福自然语言推理语料(SNLI)，来自科学问答的文本蕴涵数据集(SciTail)和多种类自然语言推理语料库(MultiNLI)等。现有的预训练-微调方法在自然语言推理任务中取得了一定的效果，但还存在以下缺点：1)预训练模型在训练集较少的推理任务中无法充分发挥模型的性能，对于语义的提取不够充分；2)现存的多任务学习则需要在多个不同的任务上联合学习，数据量大，训练时间长，损失函数设计复杂，适用性不强。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种自然语言推理微调方法、系统、装置及存储介质。

本发明所采用的技术方案是：

一种自然语言推理微调方法，包括：

获取前提文本与假设文本，对前提文本与假设文本进行分词，获得文本的离散编码；

将离散编码输入预训练模型中进行句向量建模，获得隐藏向量；

将隐藏向量拆分为前提隐藏向量和假设隐藏向量；

将前提隐藏向量的句首向量输入到推理模块进行推理任务，并获取第一损失；

将前提隐藏向量输入到文本生成模块进行生成任务，并获取第二损失；

将第一损失和第二损失进行相加，根据相加获得的损失优化预训练模型、推理模块以及文本生成模块。

进一步地，所述对前提文本与假设文本进行分词，获得文本的离散编码，包括：

将前提文本表示为

其中m为前提文本的长度；

将假设文本表示为

其中n为假设文本的长度；

将前提文本与假设文本连接起来作为联合文本，联合文本表示为

其中，句首的CLS作为句向量表示词，句中SEP作为句子对的分割词，以及文本的结尾；

将联合文本输入到分词器得到文本的离散编码。

进一步地，所述将离散编码输入预训练模型中进行句向量建模，获得隐藏向量，包括：

将文本的离散编码输入到预训练模型BERT中，经过编码后获得隐藏向量，隐藏向量表示为

进一步地，所述将隐藏向量拆分为前提隐藏向量和假设隐藏向量，包括：

将隐藏向量进行拆分得到前提隐藏向量和假设隐藏向量如下：

前提隐藏向量：

假设隐藏向量：

进一步地，所述将前提隐藏向量的句首向量输入到推理模块进行推理任务，并获取第一损失，包括：

将前提隐藏向量

中的句首向量h_CLS，输入到推理模块的MLP网络中，并根据分类器获取样本预测类的概率分布，获取最大的概率作为预测类别；

将预测类别和预设的标签进行交叉熵损失计算，得到推理任务的第一损失。

进一步地，所述将前提隐藏向量输入到文本生成模块进行生成任务，并获取第二损失，包括：

将前提隐藏向量

以及样本的标签嵌入输入到BiLSTM网络中，其中，前提隐藏向量

中的每个向量作为BiLSTM网络每一个时间步的输入；

获取每一个时间步生成的单词的概率分布，选取最高概率的单词作为输出单词，生成句子；

将生成的句子和原本样例的假设文本进行交叉熵损失计算，得到生成任务的第二损失。

进一步地，所述生成任务中采用到的标签根据推理任务是三分类还是二分类进行自适应地选择；

标签信息通过标签嵌入矩阵得到标签嵌入向量，作为文本生成模块中BiLSTM网络的起始输入向量，表明当前生成的假设文本和前提文本之间的蕴含关系，从而指导BiLSTM网络进行生成；

利用Softmax函数计算每一步生成的单词概率分布，选择最高的概率的单词作为最终生成的单词。

本发明所采用的另一技术方案是：

一种自然语言推理微调系统，包括：

文本分词模块，用于获取前提文本与假设文本，对前提文本与假设文本进行分词，获得文本的离散编码；

句子建模模块，用于将离散编码输入预训练模型中进行句向量建模，获得隐藏向量；

向量拆分模块，用于将隐藏向量拆分为前提隐藏向量和假设隐藏向量；

文本推理模块，用于将前提隐藏向量的句首向量输入到推理模块进行推理任务，并获取第一损失；

文本生成模块，用于将前提隐藏向量输入到文本生成模块进行生成任务，并获取第二损失；

网络优化模块，用于将第一损失和第二损失进行相加，根据相加获得的损失优化预训练模型、推理模块以及文本生成模块。

本发明所采用的另一技术方案是：

一种自然语言推理微调装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明能够充分学习句子间的语义相关性，在原本的推理任务中取得更好的效果；对于所有的局间关系推理任务都可采用此种形式进行训练，具有优良的普适性。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种自然语言推理微调方法的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

针对现有技术的不足，本实施例提供了一种自然语言推理微调方法，该方法基于现有的推理任务设计一个辅助生成任务，与原本的推理任务联合起来进行多任务学习，在没有引入专家知识与外部数据集的基础上能更有效的学习文本语义关系，具有广泛的实用价值。如图1所示，该方法包括以下步骤：

S1、获取前提文本与假设文本，对前提文本与假设文本进行分词，获得文本的离散编码。

本发明实施例中，由于采用了预训练模型作为共享的编码模块，故所采用的分词方法与预训练模型的BERT一致，如图1所示，在本步骤中将前提表示为

其中m为前提文本的长度，将假设表示为

其中n为假设文本的长度。本步骤的目的是将文本表示成适用于预训练模型BERT的输入，因此要将前提与假设文本连接起来，表示为

其中句首的CLS作为句向量表示词，句中SEP作为句子对的分割词，以及文本的结尾，最后得到的文本输入到分词器得到文本的离散编码。

S2、将离散编码输入预训练模型中进行句向量建模，获得隐藏向量。

如图1所示，将步骤S1分词获取的文本离散编码，输入到预训练模型BERT中，经过编码后获得连接起来的前提与假设文本的隐藏向量表示为：

S3、将隐藏向量拆分为前提隐藏向量和假设隐藏向量。

如图1所示，在将前提与假设输入到编码层后，最终会得到该文本的隐藏向量表示，本步骤将隐藏向量进行拆分得到前提和假设的隐藏向量如下：

前提向量：

假设向量：

S4、获取样本标签的嵌入表示。

如图1所示，将样本的标签首先表示为类如0，1，2的离散编码，然后该向量通过标签嵌入矩阵映射为标签嵌入向量。

S5、将前提隐藏向量的句首向量输入到推理模块进行推理任务，并获取第一损失。

将前提向量

中的起始词CLS的隐藏向量作为句子向量表示，输入到推理模块的MLP网络以及Softmax函数中获取该样本预测类的概率分布，同时取最大的概率作为预测类别。将预测类别和原本的标签进行交叉熵损失计算，得到推理任务的交叉熵损失。

S6、将前提隐藏向量输入到文本生成模块进行生成任务，并获取第二损失。

如图1所示，首先将拆分得到的前提隐藏向量

以及该样本的标签嵌入输入到BiLSTM中，然后对于每一步的输出通过MLP网络以及Softmax函数计算的得到该步的输出的单词概率分布，取最高概率的词作为该步的输出单词。将生成的句子和原本样例的假设文本进行交叉熵损失计算，得到辅助生成任务的损失。

S7、将第一损失和第二损失进行相加，根据相加获得的损失优化预训练模型、推理模块以及文本生成模块。

本实施例所采用的神经网络模型主要是由共享的文本编码模块(即预训练模型)，推理任务模块以及生成任务模块三个部分组成；本步骤中只需要将生成任务的损失以及推理任务的损失相加，并在训练过程中不断优化降低该损失即可。

综上所述，本发明实施例利用给定的自然语言推理数据集，设计出另一个标签指导的文本生成方法，通过联合原本的推理任务和该生成任务的损失函数进行多任务学习，从而进一步提取模型的语义提取能力，提升模型预测的质量。

本发明相对于现有技术，具有如下优点及有益效果：

(1)本发明提供的基于多任务学习的自然语言推理微调方法，实现简单，同时并未引入其他数据集，具备很强的迁移能力。

(2)本发明设计的生成任务和推理任务是相辅相成的任务，互相都具备一定的促进作用，能对句间语义关系有更深层次的理解，同时生成的样本良好的情况下，可以作为推理任务的数据增强方法进行二次训练。

(3)本发明利用给定的自然语言推理数据集，设计出另一个标签指导的文本生成方法，通过联合原本的推理任务和该生成任务的损失函数进行多任务学习，从而进一步提取模型的语义提取能力，提升模型预测的质量。

本实施例还提供一种自然语言推理微调系统，包括：

本实施例的一种自然语言推理微调系统，可执行本发明方法实施例所提供的一种自然语言推理微调方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供一种自然语言推理微调装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

本实施例的一种自然语言推理微调装置，可执行本发明方法实施例所提供的一种自然语言推理微调方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种自然语言推理微调方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。