CN116861242A

CN116861242A - 基于语言判别提示的语言感知多语言预训练与微调方法

Info

Publication number: CN116861242A
Application number: CN202310853925.XA
Authority: CN
Inventors: 郑海涛; 吕传承; 蔡沛东; 丁宁; 刘文强; 吴蓓; 黄东晓
Original assignee: Linkstar Technology Shenzhen Co ltd; Shenzhen International Graduate School of Tsinghua University
Current assignee: Linkstar Technology Shenzhen Co ltd; Shenzhen International Graduate School of Tsinghua University
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-10-10

Abstract

一种基于语言判别提示的语言感知多语言预训练与微调方法，包括：多语言感知的预训练阶段，使用包含有不同语种提示和不同语种上下文的输入内容对模型进行预训练，以使模型在预训练过程中学习到以语言提示作为语言判别信号或语言感知元信息来识别或感知语种的多语言感知功能；多语言感知的微调阶段，使用包含有不同语种提示和基于下游任务的不同语种上下文的输入内容对模型进行微调，模型利用语言提示，感知和识别当前输入内容的语言语种，并基于语言感知，完成针对下游任务的模型微调过程。本发明引入多语言显式区分的语种信息到多语言与训练模型的预训练与微调阶段，提高了多语言模型对于不同语言的感知能力，提升了下游任务的效果。

Description

基于语言判别提示的语言感知多语言预训练与微调方法

技术领域

本发明涉及深度学习技术，特别是涉及一种基于语言判别提示的语言感知多语言预训练与微调方法。

背景技术

近年来，大规模预训练语言模型如GPT-3和T5在许多自然语言处理(NLP)任务中取得了良好的性能，在多语言(语种)领域同样获得了显著的效果，成为了解决下游任务(情感分类任务、文本摘要任务等)的最主流的实现方案。多语言模型通常在大量多语言语料库上进行预训练，并直接适应特定语言的下游任务。现有的基于transformer架构的具有数百万甚至数十亿个参数的语言模型，直接在统一的语义空间中表示不同的语言，并在没有显式信号的情况下对模型进行微调。现有的研究也表明，在多语言训练中，不同的语言可以在语义、语言学和句法方面相互受益，从而产生显著的可移植性。

与本发明最相似的现有实现方案是以mT5(Massively Multilingual Pre-trained Text-to-text Transformer)预训练语言模型为基础，在输入对应下游任务的输入数据以及对应任务的提示后，使用语言模型来提取句子的语义特征以及对应任务的特征，通过基于Transformer的多层语言模型，最后输出期望的对应任务的句子作为结果。该方法在多种任务上取得了超过先前主流方法的效果。

然而，现有的实现方案仍然具有以下问题：多语言模型仍然只是隐式地学习训练语料库的语言信息，在下游任务的预训练和微调阶段，模型并没有得到明确的语言提示。这导致了现有的语言模型对输入文本的语种信息并没有感知，因而没法使用对应的语言的模型能力，在处理某单一语种的下游任务上效果仍有提升的空间。

需要说明的是，在上述背景技术部分公开的信息仅用于对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的主要目的在于克服上述背景技术的缺陷，提供一种基于语言判别提示的语言感知多语言预训练与微调方法。

为实现上述目的，本发明采用以下技术方案：

一种基于语言判别提示的语言感知多语言预训练与微调方法，包括如下步骤：

多语言感知的预训练阶段，使用包含有不同语种提示和不同语种上下文的输入内容对模型进行预训练，以使模型在预训练过程中学习到以所述语言提示作为语言判别信号或语言感知元信息来识别或感知语种的多语言感知功能；

多语言感知的微调阶段，使用包含有不同语种提示和基于下游任务的不同语种上下文的输入内容对模型进行微调，模型利用语言提示，感知和识别当前输入内容的语言语种，并基于语言感知，完成针对下游任务的模型微调过程。

进一步地：

在所述多语言感知的预训练阶段，将输入内容格式化为键值对，其中，使用分隔符区分语种提示和上下文，并将语种提示和上下文进行拼接，得到用于模型预训练的输入内容。

在所述语言感知的微调阶段，为每个目标任务设计相应的提示模板，将经过预训练阶段训练好的语言提示添加到采用对应语言的上下文前，并格式化为键值对，得到用于模型微调的输入内容。

所述分隔符包括语言指示符和文本指示符，所述语言指示符和所述文本指示符作为原本词表中所没有的token，模型在训练过程中将其分别作为表示语言提示开头的符号和表示文本开头的符号。

所述模型为编码器-解码器模型，以文本到文本的方式使用语言提示嵌入来进行训练。

所述模型为mT5模型，使用交叉熵损失函数训练语言感知的mT5模型。

在基于mT5模型的预训练检查点t1的基础上进一步预训练。

在多语言感知的预训练阶段，使用多语言语料库mC4，在多语言输入内容前添加可训练和可存储的语言提示，其中使用随机初始化连续嵌入作为语言提示来表示每种语言。

在所述多语言感知的预训练阶段，采用掩码语言建模“span-corruption”目标作为预训练目标，将语言提示与模型参数联合训练。

所述下游任务包括自然语言推理任务、文本任务、情感分类任务和问答任务中的一种或多种。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序由处理器执行时，实现所述的基于语言判别提示的语言感知多语言预训练与微调方法。

本发明具有如下有益效果：

本发明引入多语言显式区分的语种信息到多语言与训练模型的预训练与微调阶段，提高了多语言模型对于不同语言的感知能力，使之可以在多种下游任务上取得进一步的效果提升。

本发明增强了多语言预训练语言模型感知训练数据语言信息的能力，在推理效率不降低的前提下，本发明提出的方案在多种下游自然语言处理任务上的效果超过了现有的各种方法，在下游任务中发挥了促进作用。

本发明实施例中的其他有益效果将在下文中进一步述及。

附图说明

图1为本发明一种实施例的基于语言判别提示的语言感知多语言预训练与微调方法的原理图。

具体实施方式

以下对本发明的实施方式做详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

本发明提出了一种基于语言判别提示的语言感知多语言预训练与微调方法，提出了语言感知的多语言预训练和微调框架，在预训练和微调阶段为模型提供语言信息来优化模型的训练与微调过程。在多语言预训练阶段，将语言信息作为元信息引入来增强预训练语言的多语言能力。本发明通过引入多语言语言信息作为元信息，在多种下游任务中使用统一语言感知的多语言预训练和微调框架，提升了多语言模型的下游任务效果。

参阅图1，本发明实施例提供一种基于语言判别提示的语言感知多语言预训练与微调方法，包括多语言感知的预训练和多语言感知的微调两个阶段。

在多语言感知的预训练阶段，使用包含有不同语种提示和不同语种上下文的输入内容对模型进行预训练，以使模型在预训练过程中学习到以所述语言提示作为语言判别信号或语言感知元信息来识别或感知语种的多语言感知功能。

在多语言感知的微调阶段，使用包含有不同语种提示和基于下游任务的不同语种上下文的输入内容对模型进行微调，模型利用语言提示，感知和识别当前输入内容的语言语种，并基于语言感知，完成针对下游任务的模型微调过程。

在一些实施例中，在所述多语言感知的预训练阶段，将输入内容格式化为键值对，其中，使用分隔符区分语种提示和上下文，并将语种提示和上下文进行拼接，得到用于模型预训练的输入内容。

在一些实施例中，在所述语言感知的微调阶段，为每个目标任务设计相应的提示模板，将经过预训练阶段训练好的语言提示添加到采用对应语言的上下文前，并格式化为键值对，得到用于模型微调的输入内容。

所述分隔符可以包括语言指示符和文本指示符，所述语言指示符和所述文本指示符作为原本词表中所没有的token，模型在训练过程中将其分别作为表示语言提示开头的符号和表示文本开头的符号。

在一些实施例中，所述模型为编码器-解码器模型，以文本到文本的方式使用语言提示嵌入来进行训练。

在一些实施例中，所述模型为mT5模型，使用交叉熵损失函数训练语言感知的mT5模型。优选实施例中，在基于mT5模型的预训练检查点t1的基础上进一步预训练。

在一些实施例中，在多语言感知的预训练阶段，使用多语言语料库mC4，在多语言输入内容前添加可训练和可存储的语言提示，其中使用随机初始化连续嵌入作为语言提示来表示每种语言。

在一些实施例中，在所述多语言感知的预训练阶段，采用掩码语言建模“span-corruption”目标作为预训练目标，将语言提示与模型参数联合训练。

在不同的实施例中，所述下游任务包括自然语言推理任务、文本任务、情感分类任务和问答任务中的一种或多种。

本发明实施例还提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序由处理器执行时，实现所述的基于语言判别提示的语言感知多语言预训练与微调方法。

以下进一步描述本发明具体实施例、其原理及测试效果。

图1展示了本发明实施例的基于语言判别提示的语言感知多语言预训练与微调方法的原理。本发明实施例使用多语言的提示(Prompt)作为显式信号来“提示”模型在预训练和微调阶段正在处理的数据属于哪种语言。本发明实施例首先在多语言语料库mC4(Multilingual Colossal,Cleaned version of Common Crawl's Web Crawl Corpus)的子集上进一步预训练一个提示增强(Prompt-enhanced)的mT5模型，其中本发明实施例在多语言输入前添加可训练和可存储的软提示(Soft-prompt)，并与模型一起训练它们。这些针对不同语言的预训练的鉴别软提示包含语言感知元信息，并继续用于后续任务的后续改编。换句话说，模型是由每个数据实例的语言信息显式提示的。

如图1所示，本发明实施例提出的框架由两个互补阶段组成：语言感知的预训练和语言感知的微调。在这两个阶段中，模型的输入由两部分组成：语言提示符和上下文，并与设定的标记相连接。语言提示符是在模型预训练时学习的语言感知信息，以在微调阶段作为语言判别信号，从而帮助模型更好地识别当前输入的语言，激发相应语言的知识和能力。上下文包含原始输入文本的语义信息，例如，要进行摘要或分类的文本，问题，选项等。

具体而言，本发明实施例的实施过程分为模型预训练和模型微调两部分。下游的任务测试由四个任务组成：自然语言推理任务、文本任务、情感分类任务和问答任务。

语言感知的模型预训练

语言感知预训练采用掩码语言建模“span-corruption”目标作为预训练目标，以尽可能与mT5预训练阶段保持一致，并将语言提示与模型参数联合训练。更详细地说，掩码语言建模“span-corruption”目标的具体操作为：对于每个预训练数据实例，本发明实施例随机采样并删除约15％的token，并将其替换为特殊的token，即掩码token，来作为待预测的目标。与正常的token相比，掩码token本身并没有语义表征，模型需要通过上下文来预测本处的语义；未经替换的剩下的85％的token与掩码token连接，然后用作模型的待解码目标。在预训练阶段，需要模型对上下文的语义进行感知并预测删除的token的语义信息。接下来，本发明实施例使用大量可学习和可插拔的随机初始化连续嵌入作为软提示来表示每种语言，因此在预训练阶段，同一语言的不同输入可以共享相同的语言信息。为了更好地区分模型输入的上述两部分，本发明实施例将输入格式化为键值对。具体而言，本发明使用特殊的标记，即语言指示符和文本指示符，分别作为分隔符区分软提示和上下文。实施例中的语言指示符和文本指示符和掩码token类似，作为原本词表中并没有的token。模型在训练过程中，将其分别作为表示语言开头的符号和表示文本开头的符号。最后，将两部分进行拼接，得到待编码的输入。

输入将被送到mT5模型，该模型将与语言软提示嵌入一起训练。输入和目标准备好后，本发明实施例用交叉熵损失函数训练语言感知的mT5模型。由于在所有语言上进行实验是不切实际的，在考虑mT5语言模型支持的语言和所有基准数据集后，具体实施例选择了英语、汉语、西班牙语、法语、阿拉伯语和印地语六种具有代表性的语言进行预训练和下游微调。这六种语言之间有不同的语言距离。例如，英语在语言距离上比阿拉伯语更接近法语。由于从头开始预训练需要极大的时间和算力成本，同时验证本方法的有效性并不需要从0开始训练模型，因此为了减少成本，本发明实施例选择在原来公开的基于mt5的预训练检查点t1的基础上进一步预训练，而不是从头开始预训练。本发明实施例准备了六种语言的mC4数据集的一个子集(不同语言的数据实例数量保持不变)，预训练语料库的总大小为204G。

语言感知的模型微调

通过以上语言感知预训练，可以得到目标语言的语言软嵌入，并用于下游的微调。对于像mT5这样的编码器-解码器模型，为了更好地理解输入和任务之间的相关性，提示工程显然是一个巨大的促进。因此，本发明实施例为每个目标任务手动设计相应的提示模板，以获得更好的性能。像本发明实施例在预训练阶段所做的那样，在将输入格式化为键值对后，将预先训练好的语言提示符添加到上下文前面，本发明实施例得到了最终要编码的输入。输入将被输入到预训练的语言感知mT5模型中，以文本到文本的方式使用语言提示嵌入来训练模型。在推理阶段，输入也将像上面一样被处理，以便模型生成所需的输出。

实际训练样例

下面以预训练阶段的一条实际的数据样例来举例。一条初始的中文文本如下：

初始文本：敦煌莫高窟是中国历史悠久的名胜古迹。

首先我们将其中15％的token替换为掩码token，得到输入和输出：

输入文本：敦煌<s1>是中国<s2>的名胜古迹。

输出文本：<s1>莫高窟<s2>历史悠久<s3>

然后我们将文本指示符、语言指示符以及可学习的语言prompt(此处为中文prompt)拼接到文本开头，得到最终的训练输入和输出：

输入文本：<zh_lang>[zh_prompt]<text>敦煌<s1>是中国<s2>的名胜古迹。

输出文本：<s1>莫高窟<s2>历史悠久<s3>

在对模型微调的下游任务阶段，使用与预训练阶段相同的处理方式，尽可能提高模型的生成效果。在此不做更多样例赘述。

下游任务测试

为了充分评估本发明实施例提出的方法，本发明实施例在数据集上进行了广泛的实验，涵盖了四个不同的任务，包括两个分类任务：自然语言推理、情感分类和两个生成任务：文本摘要、问题回答。数据集如下。

一、XNLI是一个多语言自然语言推理数据集。它是MNLI的一个子集，已经被翻译成14种语言。任务是推理两个句子之间的语义关系是蕴涵、矛盾还是中性，本发明实施例将其视为一个三标签分类任务。

二、多语言亚马逊评论语料库(MARC)是一个多语言情感分类数据集，包含6种语言的亚马逊产品评论。每个数据实例都包括评论标题、评论内容和星级等信息。为了增强提示工程的效果，本发明实施例将原来的五标签分类任务改为三标签分类任务，即将原来得分为“4”和“5”的标签合并为“正面”标签，将原来得分为“3”的标签合并为“中性”标签，将原来得分为“1”和“2”的标签合并为“负面”标签。

三、XLSUM是一个使用设计的启发式从BBC新闻文章中提取的多语言摘要数据集。数据集涵盖44种语言，从高资源到低资源，并配有专业注释。

四、XQuAD是一个多语言问答数据集。它的英语数据集是SQuAD v1.1的一个子集，其他语言集是从英语数据集翻译过来的。所以数据集是完全平行的。更详细的信息，包括为实验中使用的每个数据集手动设计的提示。一些数据集不包含所有六种预训练的语言，本发明实施例对其余语言进行了实验。为了降低计算成本，并确保不同语言的训练数据量相同，本发明实施例从每个数据集的原始训练/验证集中，每种语言随机抽取3000/600个实例。本发明实施例在整个测试集上评估模型。

对于分类任务，本发明实施例在标签之间平衡数据集，因此每个标签上的数据实例数量完全相同。

本发明实施例提出的方法在所有任务上的平均性能都优于所有基线。在XNLI、MARC和XLSUM上，本发明实施例的方法在所有语言上都获得了更好的性能，在XQuAD上，本发明实施例的方法获得了最好的或相当的结果，这证明了本发明实施例的语言感知多语言预训练和微调框架在这些下游任务中发挥了促进作用。

综上所述，本发明增强了多语言预训练语言模型感知训练数据语言信息的能力，在推理效率不降低的前提下，本发明提出的方案在多种下游自然语言处理任务上的效果超过了现有的各种方法，在下游任务中发挥了促进作用。

本发明克服了以往难以使用对应语言解决不同语种任务的问题，提升多语言模型的性能。例如，本发明可帮助解决多语言问答的问题，可应用至商业用问答机器人，回答各种母语客户的个性化复杂问题，提高回答的准确性。

本发明实施例还提供一种存储介质，用于存储计算机程序，该计算机程序被执行时至少执行如上所述的方法。

本发明实施例还提供一种控制装置，包括处理器和用于存储计算机程序的存储介质；其中，处理器用于执行所述计算机程序时至少执行如上所述的方法。

本发明实施例还提供一种处理器，所述处理器执行计算机程序，至少执行如上所述的方法。

所述存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，FerromagneticRandom Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM，DynamicRandom AccessMemory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic RandomAccessMemory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double DataRateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本发明所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本发明所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本发明所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种基于语言判别提示的语言感知多语言预训练与微调方法，其特征在于，包括如下步骤：

多语言感知的预训练阶段，使用包含有不同语言提示和不同语言上下文的输入内容对模型进行预训练，以使模型在预训练过程中学习到以所述语言提示作为语言判别信号或语言感知元信息来识别或感知语种的多语言感知功能；

多语言感知的微调阶段，使用包含有不同语言提示和基于下游任务的不同语言上下文的输入内容对模型进行微调，模型利用语言提示，感知和识别当前输入内容的语言语种，并基于语言感知，完成针对下游任务的模型微调过程。

2.如权利要求1所述的方法，其特征在于，在所述多语言感知的预训练阶段，将输入内容格式化为键值对，其中，使用分隔符区分语言提示和上下文，并将语言提示和上下文进行拼接，得到用于模型预训练的输入内容。

3.如权利要求1所述的方法，其特征在于，在所述语言感知的微调阶段，为每个目标任务设计相应的提示模板，将经过预训练阶段训练好的语言提示添加到采用对应语言的上下文前，并格式化为键值对，得到用于模型微调的输入内容。

4.如权利要求2或3所述的方法，其特征在于，所述分隔符包括语言指示符和文本指示符，所述语言指示符和所述文本指示符作为原本词表中所没有的token，模型在训练过程中将其分别作为表示语言提示开头的符号和表示文本开头的符号。

5.如权利要求1至4任一项所述的方法，其特征在于，所述模型为编码器-解码器模型，以文本到文本的方式使用语言提示嵌入来进行训练。

6.如权利要求5所述的方法，其特征在于，所述模型为mT5模型，使用交叉熵损失函数训练语言感知的mT5模型，优选地，在基于mT5模型的预训练检查点t1的基础上进一步预训练。

7.如权利要求1至6任一项所述的方法，其特征在于，在多语言感知的预训练阶段，使用多语言语料库mC4，在多语言输入内容前添加可训练和可存储的语言提示，其中使用随机初始化连续嵌入作为语言提示来表示每种语言。

8.如权利要求1至7任一项所述的方法，其特征在于，在所述多语言感知的预训练阶段，采用掩码语言建模“span-corruption”目标作为预训练目标，将语言提示与模型参数联合训练。

9.如权利要求1至8任一项所述的方法，其特征在于，所述下游任务包括自然语言推理任务、文本任务、情感分类任务和问答任务中的一种或多种。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序由处理器执行时，实现如权利要求1至9任一项所述的方法。