CN114610878A

CN114610878A - 模型训练方法、计算机设备及计算机可读存储介质

Info

Publication number: CN114610878A
Application number: CN202210179812.1A
Authority: CN
Inventors: 汪诚愚; 邱明辉; 黄�俊
Original assignee: Alibaba Cloud Computing Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-06-10

Abstract

本说明书一个或多个实施例提供一种模型训练方法、计算机设备及计算机可读存储介质，所述模型训练方法包括：获取待训练模型；获取第一数据集；利用所述第一数据集对所述待训练模型进行训练；其中，所述第一数据集中第一数据为文本，所述第一数据中提供有掩蔽标记以及至少两个候选项，所述至少两个候选项的其中一个候选项用于提示所述掩蔽标记对应的单词，以使所述待训练模型在所述至少两个候选项的提示下，在预测所述掩蔽标记对应的单词时从所述至少两个候选项中进行选择。

Description

模型训练方法、计算机设备及计算机可读存储介质

技术领域

本说明书实施例涉及机器学习技术领域，尤其涉及模型训练方法、计算机设备及计算机可读存储介质。

背景技术

机器学习平台能向用户提供机器学习服务，例如提供从数据上传、数据预处理、特征工程、模型训练、模型评估到模型发布的机器学习全流程服务等等。由于不同用户具有不同的任务需求，为了给用户提供较好的服务，一些解决方案是部署预训练模型，基于不同下游任务的目标，对预训练模型进行微调。然而，传统的预训练模型是基于大规模无标签数据训练的，模型面临较大的学习难度，学习过程较长，且在用于具体下游任务时精度表现也较差。

发明内容

为克服相关技术中存在的问题，本说明书实施例提供了模型训练方法、计算机设备及计算机可读存储介质。

根据本说明书实施例的第一方面，提供一种模型训练方法，所述方法包括：

获取预训练模型；

获取第一数据集；

利用所述第一数据集对所述预训练模型进行训练；其中，所述第一数据集中第一数据为文本，所述第一数据中提供有掩蔽标记以及至少两个候选项，所述至少两个候选项的其中一个候选项用于提示所述掩蔽标记对应的单词，以使所述预训练模型在所述至少两个候选项的提示下，在预测所述掩蔽标记对应的单词时从所述至少两个候选项中进行选择；

存储训练好的模型，所述训练好的模型应用于下游任务。

根据本说明书实施例的第二方面，提供一种模型训练方法，包括：

获取待训练模型；

获取第一数据集；

利用所述第一数据集对所述待训练模型进行训练；其中，所述第一数据集中第一数据为文本，所述第一数据中提供有掩蔽标记以及至少两个候选项，所述至少两个候选项的其中一个候选项用于提示所述掩蔽标记对应的单词，以使所述待训练模型在所述至少两个候选项的提示下，在预测所述掩蔽标记对应的单词时从所述至少两个候选项中进行选择。

根据本说明书实施例的第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现第一方面或第二方面所述的模型训练方法。

根据本说明书实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有若干计算机指令，所述计算机指令被执行时实现第一方面或第二方面所述的模型训练方法。

本说明书的实施例提供的技术方案可以包括以下有益效果：

本说明书实施例中，针对第一数据集，设计了第一数据集提供有掩蔽标记以及至少两个候选项，其中一个候选项用于提示所述掩蔽标记对应的单词，因此，模型利用第一数据进行训练时，第一数据可以向模型进行提示，使模型在预测掩蔽位置的单词时，能够从候选项中进行选择，因此为模型在预测单词时提供了可选范围，减少了模型的预测难度，为模型提供了更多的语义信息，提升了模型的预测效率和准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本说明书根据一示例性实施例示出的一种模型训练方法的流程图。

图2A是本说明书根据一示例性实施例示出的一种模型训练方法的应用场景图。

图2B是本说明书根据一示例性实施例示出的另一种模型训练方法的应用场景图。

图3是本说明书根据一示例性实施例示出的一种计算机设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

预训练模型是利用大型的通用数据集预先训练好的、与具体任务无关的模型，该预训练模型的作用之一是可以基于不同下游任务的目标，对预训练模型进行微调(Fine-tuning)，使其适用于多种不同的下游任务，也使得下游任务所需的模型能快速完成训练。

预训练模型在自然语言处理(NLP，Natural Language Processing)领域中得到了广泛应用。预训练语言模型是一类自然语言处理的模型的总称，用来学习文本的低维度实值向量表征。例如OpenAI团队推出的GPT模型和Google推出的BERT(BidirectionalEncoder Representations from Transformer，双向编码Transformer)模型等。早期的预训练语言模型旨在利用浅层的神经网络学习词嵌入表示，这些词嵌入表示可用于自然语言处理的各种下游任务；而目前最新的预训练语言模型，能学习基于上下文的词嵌入表示，并且学习的预训练语言模型可用于在下游任务的微调。通常，预训练语言模型的通用范式是：基于大规模数据集，预训练得出通用的语言表示模型；然后，通过对预训练语言微调的方式，将模型学习到的知识传递到不同的下游任务中。预训练模型的训练数据可以包括文本、文本-图像对或文本-视频对等。预训练模型的训练方法可使用自监督学习技术(如自回归的语言模型和自编码技术)等，其中，自监督学习是机器学习的一种学习任务，使得模型直接从无标签数据中自行学习，无需标注数据。通过训练可以得到单语言、多语言或多模态等模型。此类模型可经过微调之后，用于支持分类、序列标记、结构预测和序列生成等各项技术，并构建文摘、机器翻译、图片检索、视频注释等应用。

小样本学习(Few-shot Learning)：小样本学习是机器学习的一种范式，目的是在极小训练样本的情况下，仅仅对预训练模型进行少量调优，得到精度较高的模型。由于小样本学习仅需求较少的样本，因此业内对小样本学习的需求越来越大。然而，较少的样本则面临模型精度的挑战。

例如，对预训练模型的微调方法，一种传统方式可以是在预训练模型中加入少量的任务相关的神经网络层，针对特定任务进行再次训练。例如对于匹配问题，以BERT模型为底座加入分类器并根据任务语料进行训练。此种微调方法较常用于下游任务拥有较多标签样本数据的情况，由于需要重新初始化大量额外参数，在小样本学习的场景下因为数据不足而结果较差。

另一种微调方法可以是Pattern Exploiting Training(PET)，即针对小样本任务的特殊性质，对下游任务重构为“完形填空问题”，即将下游任务的预测问题转化为MLM(masked language model)问题。例如，对于文本匹配问题，若需要预测“你晚上吃了什么”和“你晚上吃啥了”的相似度。PET算法可以将任务改写为：““你晚上吃了什么”和“你晚上吃啥了”的意思[MASK]同”。这里[MASK]即掩蔽的意思，被[MASK]的字符对应预训练模型MLMhead的预测输出映射到实际的类别标签。若预测“相”(同)的概率较高，则对应“positive”类别，若预测“不”(同)的概率较高，则对应“negative"类别。PET算法的优势在于能够利用到了预训练模型的MLM层，并且没有引入新的参数，并且能够利用人工选择的模版和标签词对模型预测进行提示，因此在小样本情境下的模型表现较好。但是其主要缺点在于模型表现对选定的模版和标签较为敏感，并且模版和标签词选定较为依赖人工经验，其标签词非常有限。因此，对于机器学习平台厂商来说，在产品层面上需要用户选定模板和标签，对用户不友好。

另一些微调方法可以是P-Tuning算法，P-tuning算法放弃了模板必须是自然语言的假设，认为通过训练连续的文本表征作为辅助输入同样能起到提示预训练模型的效果。P-tuning算法通过构建一个小型的LSTM(长短期记忆网络，Long Short-Term Memory)模型学习这些用于“提示”的连续表征，发现对于GPT类预训练模型的小样本学习任务有重大提升，对于BERT类的模型也同样适用。这一方法虽然解决了PET算法中提示模版需要人工选择的问题，但是需要人工选择标签词且对于模型结果影响较大；并且其他实验也表明P-tuning算法运用于BERT类的模型表现不如PET。

另一些解决方案是Google使用GPT-3在大量自然语言处理的下游任务进行微调，用这一模型在先前未见过的NLP任务上进行预测。这一算法效果较好，但是依赖非常大的预训练语言模型，对于机器学习平台厂商来说，无法直接提供给用户使用，无法产品化和上线。

另一些解决方案是基于提示(prompt)的微调方法prompt-tuning，一些传统的微调方法依赖于大量的标注数据，然而当训练数据非常少的时候极易发生过拟合问题，且下游任务与预训练任务之间可能存在大量差距，使得先验知识探索(knowledge probing)利用率很低。prompt的提出旨在拉近预训练(pre-train)与微调之间的差距，通过设计prompt和verbalizer将下游的分类任务转化为MLM任务，因为避免了引入大量新的参数，使得在小样本场景下提升明显。

传统的基于prompt的微调方法，其采用PVP(Prompt Verbalizer Pair)设计，PVP中包括了模板(template或pattern)以及标签词映射关系(verbalizer)。其中，模板至少包括一个[MASK]；标签词映射关系是指[MASK]位置预测输出的词汇集合与真实标签构成的映射关系。

作为一个例子：

模板可以是：It was[MASK]；该模板用于拼接至训练文本数据中；

标签词映射关系可以是：标签positive对应单词great(或者good等)，negative标签对应单词terrible(或者bad等)。

因此，下游任务的每个训练文本可以与模板拼接起来，通过MLM模型，模型会给出[MASK]部分的预测词；实际应用中，模型的输出是在整个词表上获得概率分布，根据Verbalizer，获取“great”和“terrible”两个词的概率分布即可，再取最大的作为预测结果，如果预测的是great，则说明该训练文本是positive的。

然而，上述微调方法的训练得到的模型的准确度有限，由于模型需要预测[MASK]部分的预测词，而词表中的词语通常较多，模型在面对文本中的[MASK]部分时，可能难以快速准确地理解文本的语义，导致训练时间较长，由于无法准确地理解任务的目标，从而难以准确地预测出该[MASK]位置的词语。

基于此，本实施例提供了一种模型训练方法，利用该实施例可以快速训练得到准确度较高的模型。如图1所示，是本说明书根据一示例性实施例示出的模型训练方法的流程图，包括如下步骤：

在步骤102中，获取待训练模型；

在步骤104中，获取第一数据集；

在步骤106中，利用所述第一数据集对所述待训练模型进行训练；其中，所述第一数据集中第一数据为文本，所述第一数据中提供有掩蔽标记以及至少两个候选项，所述至少两个候选项的其中一个候选项用于提示所述掩蔽标记对应的单词，以使所述待训练模型在所述至少两个候选项的提示下，在预测所述掩蔽标记对应的单词时从所述至少两个候选项中进行选择。

本实施例中针对第一数据集，设计了第一数据集提供有掩蔽(mask)标记以及至少两个候选项，其中一个候选项用于所述掩蔽标记对应的单词，因此，模型利用第一数据进行训练时，第一数据可以向模型进行提示，使模型在预测掩蔽位置的单词时，能够从候选项中进行选择，因此为模型在预测单词时提供了可选范围，减少了模型的预测难度，为模型提供了更多的语义信息，提升了模型的预测效率和准确度。

本实施例的至少两个候选项中与被掩蔽的单词对应的候选项，从而使候选项中包括有正确的选项；除了该与被掩蔽的单词对应的候选项，实际应用中，所述候选项的数量至少有两个，使得模型能够学习如何区分正确的选项和非正确的选项。其中，非正确的选项根据需要可以灵活设置，作为例子，该候选项可以用于指示与被掩蔽的单词不同语义的词语，例如，可以是与所述被掩蔽的单词的反义词对应的候选项，例如所述至少两个候选项的数量是两个，即指示被掩蔽的单词的候选项以及指示被掩蔽的单词的反义词的候选项，通过一正一反的语义，使模型更快速地理解预测任务以及更快速地输出正确的预测结果。当然，在其他例子中，还可以有更多数量的候选项，本实施例对此不进行限定。

实际应用中，第一数据如何提供所述至少两个候选项，可以根据需要灵活设置；在一些例子中，可以根据实际的模型预测任务以及文本的语种等灵活设置，使得其中一个候选项可指示被掩蔽的单词即可。作为一个例子，可以根据需要预先设置表示所述至少两个候选项的文本，并且该文本还用于对模型在预测单词时进行提示；对于该指示被掩蔽的单词的候选项，预先设置的文本可以包括该单词或者是与该被掩蔽的单词具有相同的语义。传统的数据集中并未如本实施例设计有第一数据采用至少两个候选项对模型进行提示，本实施例可以在传统数据集的训练文本的基础上，通过掩蔽其中的单词并拼接本实施例设计的表示所述至少两个候选项的文本后成为所述第一数据。

作为一个例子，一条传统的训练文本为“今天天气很好，我去爬山了。我很[mask]”，该被掩蔽的单词为开心，该单词对应的标签为好；而本实施例设计的第一数据为“今天天气很好，我去爬山了，我很[mask]。这是开心还是失落？”，其中的“这是开心还是失落？”即所述至少两个候选项。

本实施例中，第一数据采用至少两个候选项对模型进行提示，在实现提示时，根据需要可以采用陈述句或疑问句等进行设计。作为一个例子，所述预设文本采用提问的形式提供有至少两个候选项，以使所述待训练模型基于所述预设文本的提问，在预测所述被掩蔽的单词时从所述至少两个候选项中进行选择，本实施例采用基于提问的形式，可以帮助模型更快速地理解到其所需要执行的任务，并且可以提示模型该被掩蔽的单词可以从至少两个候选项中进行选择，因此训练效率较高。

实际应用中，模型的训练还涉及到标签的构建，如前所述，可以根据候选项所指示的单词(label word)，构建各个单词与标签的映射关机，即标签词映射关系verbalizer，具体的标签可以根据实际需要灵活设置，本实施例对此不进行限定。

由上述实施例可见，与传统的采用PVP的基于prompt的微调方法相比，本实施例的方案可以理解为POV的形式，其中：

P(Prompt)：表示任务相关的prompt，至少包含一个[MASK]token，即掩蔽标记；

O(Option)：通过提问等形式列出候选项，每个候选项对应一个单词(labelword)；

V(Verbalizer)：标签词映射关系，即自定义的候选项中的label word与标签的映射关系。

本实施例的模型训练方法可以应用于任意的自然语言处理场景中；所述待训练模型可以包括任意的机器学习模型，作为一个例子，所述待训练模型可以是未经训练的模型，即设置了初始参数、还未利用数据集进行训练的模型，利用本实施例方案，第一数据集可以输入至该模型中，对该模型进行训练，本实施例可以适用于任意的模型训练场景，例如机器学习平台利用该实施例训练得到一个预训练模型，该预训练模型可以存储以用于下游任务；或者，也可以是用户针对其特定任务，利用本实施例方案训练得到能解决该特定任务所需的模型。在另一些例子中，所述待训练模型可以包括已利用数据集训练过的模型，即任意已训练过的模型均可以使用本实施例的方案进一步对模型进行训练，以使得模型的准确度得到进一步的提升。

在其他例子中，所述待训练模型还可以包括预训练模型，如前述所言，预训练模型是利用大型的通用数据集预先训练好的、与具体任务无关的模型，本实施例的模型训练方法可作为已有的预训练模型的辅助任务，在已有的预训练模型上再次训练，训练得到的模型再用于下游任务。其中，本实施例的预训练模型是指利用通用数据集预先训练得到，即大规模无标签数据集预先训练得到，该预训练模型可以利用多种方式获取到，例如已开源的预训练模型或者是预先训练等等。传统方案中是基于下游任务对预训练模型进行微调后使用，而本说明书实施例中，可以利用该模型训练方法实施例对预训练模型再次进行训练，即本实施例的训练可以是预训练模型的辅助任务。

并且，由于该模型训练实施例的预测效率和准确度得到显著提升，因此在训练时第一数据集可以不局限于一个领域的数据集，还可以准备多个相关领域的数据集对其进行训练，使得模型可以学习到多个相关领域的知识，可以利用到多个相关领域中训练文本的共有信息，因此提升了模型的泛化能力，训练得到的模型可以同时适用于多个相关领域的下游任务。另外，由于本实施例的模型训练方法能够训练得到准确度较高的模型，因此可以使用小规模的预训练模型，从而可以减少存储空间，提高预测效率；并且，得到的高准确度的模型能够支持小样本学习的实现，使得下游任务无需提供较多的数据集。

实际应用中，本实施例的模型训练方法可以适用于监督任务或自监督任务，或者是两者的融合。

以监督任务为例，作为例子：

以评论分类任务为例，输入至预训练模型的第一数据可以是：

“[X].Is great or bad？It was[MASK].”

其中，“[X]”为待分类的评论；

“It was[MASK]”即prompt，其提供了掩蔽标记；

“Is great or bad”即Option，通过提问的形式列出两个候选项“great”和“bad”；

以文本匹配预测任务为例，输入至预训练模型的第一数据可以是：

“[X1].Is this paragraph the same as the next:[X2]？It was[MASK].”

其中，“[X1]”和“[X2]”两个需要进行连贯性预测的句子；

“It was[MASK]”即prompt，其提供了掩蔽标记；

“Is this paragraph the same as the next”即Option，通过提问的形式列出两个候选项“is”和“not”。

自监督任务主要是利用辅助任务从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征，其核心在于如何自动为数据产生标签。传统的MLM是给定一个句子，随机挑选一个或多个位置并替换为[MASK]，并让模型通过MLM head预测每个[MASK]位置的word(或sub word)。例如：

给定一个句子：

“Disney movies are so wonderful that I insist on watching two everyweek.”，随机mask一个word：

“Disney movies are so[MASK]that I insist on watching two everyweek.”，然后让模型预测该位置可能的词。

如前述所述，上述自监督任务给模型的预测能力的训练带来较大难度。而本实施例对于第一数据的设计，可以高效地实现自监督任务。作为例子，可以利用无标签数据自动构建数据集用于模型训练。该实施例中，所述第一数据通过如下方式获得：

获取无标签文本，将所述无标签文本进行分词处理得到多个单词，从所述多个单词中识别出形容词，对其中一个形容词替换为掩蔽标记后获得。

本实施例采用形容词进行掩蔽，是由于形容词用于修饰名词，与训练文本中的其他词语强关联，因此便于模型理解训练文本中其他词语的语义以对掩蔽的单词进行预测；并且，基于该形容词也便于自动构建所述至少两个候选项，例如前述基于形容词和该形容词的反义词，可以快速自动构建所述至少两个候选项，减少自监督任务中自动构建标签的难度。

作为例子，本实施例可以应用于PromptMLM，例如给定一个无标签文本，可以通过如下方式构建自监督任务：

挑选mask位置：可以采用spacy分词工具等对该无标签文本进行分词以及获取各个单词的词性，进一步的可以确定该文本中的所有形容词及各个形容词所在的位置，从而可以统计该文本所有的形容词；

基于该文本构建输入至模型的输入数据，例如：

给定一个句子X＝

“Disney movies are so wonderful that I insist on watching two everyweek.”，

挑选wonderful形容词所在位置，并将该形容词进行mask，即将mask标记替换该形容词，新的句子X＝

“Disney movies are so[MASK]that I insist on watching two every week.”

构建自监督任务，即在新的句子中提供至少两个候选项，输入至模型的句子可为：

“Disney movies are so[MASK]that I insist on watching two everyweek.Is it wonderful or bad？”

其中，“Is it wonderful or bad”即该条文本中提供的两个候选项，其中提供了指示单词“wonderful”的候选项以及单词“bad”的候选项。

利用本说明书的模型训练实施例得到的模型，在用于下游任务时可以支持小样本学习，从而在用户层面能够给用户带来较好的体验，用户无需提供较多的训练数据。作为例子，本实施例方案可应用于机器学习平台，如图2A所示，是本说明书根据一示例性实施例示出的一种模型训练的应用场景示意图，本实施例中的机器学习平台用于向用户提供机器学习服务，例如提供从数据上传、数据预处理、特征工程、模型训练、模型评估到模型发布的机器学习全流程服务等等。该机器学习平台可以部署有一个或多个服务器，通过服务器实现上述服务。其中，该平台可以预先获取一个或多个预训练模型，并利用前述的模型训练实施例对一个或多个预训练模型进行训练，训练得到的预训练模型可以存储并提供给一个或多个用户使用。可选的，机器学习平台可以采用小规模的预训练模型，从而可以减少存储空间，提高模型的预测效率，让用户可以提供更少的数据，通过更少的训练步骤快速体验到模型在特定场景下的能力。

如图2B所示，是本说明书根据一示例性实施例示出的另一模型训练方法的示意图，包括如下步骤：

在步骤202中，获取预训练模型；

在步骤204中，获取第一数据集；

在步骤206中，利用所述第一数据集对所述预训练模型进行训练；其中，所述第一数据集中第一数据为文本，所述第一数据中提供有掩蔽标记以及至少两个候选项，所述至少两个候选项的其中一个候选项用于提示所述掩蔽标记对应的单词，以使所述预训练模型在所述至少两个候选项的提示下，在预测所述掩蔽标记对应的单词时从所述至少两个候选项中进行选择；

在步骤208中，存储训练好的模型，所述训练好的模型应用于下游任务。

本实施例方法可应用于前述的机器学习平台，可以利用已有的预训练模型，对该预训练模型再次进行训练，训练好的模型再应用于下游任务。其中，第一数据集中第一数据集的实施例，可参考前述实施例的描述。相对于已有的预训练模型直接进行下游任务的方式，本实施例可以理解为对预训练模型的辅助任务，训练好的模型的预测效率和准确度得到显著提升。在训练时第一数据集可以不局限于一个领域的数据集，还可以准备多个相关领域的数据集对其进行训练，使得模型可以学习到多个相关领域的知识，可以利用到多个相关领域中训练文本的共有信息，因此提升了模型的泛化能力，训练得到的模型可以同时适用于多个相关领域的下游任务。另外，由于本实施例的模型训练方法能够训练得到准确度较高的模型，因此可以使用小规模的预训练模型，从而可以减少存储空间，提高预测效率。

可选的，得到的高准确度的模型能够支持小样本学习的实现，即训练好的模型可以用于下游任务的小样本学习场景，使得下游任务无需提供较多的数据集。

可选的，对预训练模型再次训练时可以采用多个相关领域的数据集；例如，对于情感分析类任务，来自于新闻评论领域的数据集、电影影评领域的数据集和商品使用评价领域的数据集，显然各个数据集的数据中用户情感会有一定差异，传统技术中由于模型的预测难度较大且预测效率较低，因此通常针对不同领域设计不同的模型，并分别训练，需要存储各个领域的模型；但本实施例方案由于对候选项的设计显著地降低了模型学习的难度，因此，本实施例的预训练模型再次训练所使用的第一数据集可以来自于多个相关的领域，因此模型可以提供多个相关领域的数据学习到多个相关领域的知识，使得一个模型即可适用于多个不同领域，模型具有更强的泛化能力。

如前述所言，本实施例方案可应用于机器学习平台，机器学习平台可以利用本实施例存储多个已训练好的模型，以供不同用户的不同下游任务所使用。基于此，本实施例中，所述方法还可包括：接收用户发起的模型训练请求，所述模型训练请求包括用户提供的第二数据集；所述第二数据集的数据数量小于预设阈值；从存储的模型中选取模型；利用所述第二数据集，对选取的模型进行训练后提供给所述用户。其中，所述预设阈值可以根据实际需要而灵活设置，该预设阈值表示用户可以提供较少的数据集，使得用户可以体验到小样本学习的能力。例如，对于机器学习平台，不同用户有不同的下游任务需求，机器学习平台可向用户提供模型训练服务，用户可以通过该模型训练服务发起模型训练请求，用户可以提供第二数据集，机器学习平台可以根据用户的需求从存储的一个或多个模型中选取一个模型；利用用户提供的第二数据集进行训练，训练好的模型可以提供给用户使用。

由于本实施例的模型训练方法能够训练得到准确度较高的模型，因此可以使用小规模的预训练模型，从而可以减少存储空间，提高预测效率；并且，得到的高准确度的模型能够支持小样本学习的实现，使得下游任务无需提供较多的数据集，例如，本实施例的第二数据集可以较少，该数据数量可以小于预设阈值，让用户可以提供更少的数据快速体验到模型在特定场景下的能力。作为一个例子，机器学习平台可以根据已有的下游任务的特点，预先训练得到不同类别的模型，例如情感分析类模型、文本匹配类模型或安全风控类模型等等，各类不同模型可以供同类下游任务所使用，在下游任务使用时，可以实现小样本微调，得到更好的下游任务的模型。

实际应用中，基于下游任务对模型再次训练时，输入至模型中的数据可以采用传统的方式，也可以采用本实施例的模型训练方法，即机器学习平台所选取的模型可作为前述步骤102中的待训练模型，输入至模型的第一数据采用前述的设计，其提供有掩蔽标记以及至少两个候选项；其中，输入至模型的第一数据可以是由用户提供，即用户提供的第二数据集等同于第一数据集。

可选的，为了便于用户理解其所需提供的第二数据集的特点，本实施例中，所述方法还包括：展示数据提示信息，所述数据提示信息用于提示用户：第二数据集中第二数据提供掩蔽标记以及至少两个候选项，所述至少两个候选项的其中一个候选项用于提示所述掩蔽标记对应的单词；作为例子，机器学习平台的用户界面中可以展示有该提示信息，该提示信息可以采用文本、图像或视频等多种方式对用户进行提示，还可以提供如前述的一个或多个数据的例子供用户理解，使得用户可以根据提示，提供准确的第二数据集。

在其他例子中，可以是机器学习平台基于用户提供的第二数据集进行处理后得到第一数据集，即用户提供的第一数据集可以是传统的数据，该数据可以是带有标签的文本也可以是无标签文本。对于带有标签的文本，若已带有掩蔽标记，机器学习平台可以基于标签和掩蔽标记生成带有掩蔽标记和至少两个候选项的数据，若未带有掩蔽标记，机器学习平台可以基于用户的下游任务的需求，基于标签生成带有掩蔽标记和至少两个候选项的数据。对于无标签文本，如前述实施例所述，机器学习平台可以将该无标签文本进行分词处理得到多个单词，从所述多个单词中识别出形容词，对其中一个形容词替换为掩蔽标记，并基于被掩蔽的形容词生成至少两个候选项，从而获得带有掩蔽标记和至少两个候选项的数据。

与前述模型训练方法的实施例相对应，本说明书还提供了模型训练装置及其所应用的计算机设备的实施例。

本说明书模型训练装置可以包括一个或多个用于实现前述步骤102、104和106的模块，或者包括一个或多个用于实现前述步骤202、204、206和208的模块。本模型训练装置实施例可以应用在计算机设备上，例如服务器或终端设备。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

本实施例提供有一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现前述步骤102、104和106，或者实现前述步骤202、204和206。从硬件层面而言，如图3所示，为本说明书根据一示例性实施例示出的一种计算机设备的结构图，该计算机设备可以包括处理器310和存储器320；除此之外，通常根据该计算机设备的实际功能，还可以包括其他硬件，对此不再赘述。

作为例子，本实施例中所述处理器执行所述程序时可实现如下步骤：

获取预训练模型；

获取第一数据集；

存储训练好的模型，所述训练好的模型应用于下游任务。

在一些例子中，所述训练好的模型应用于下游任务的小样本学习场景。

在一些例子中，所述处理器还可执行：

接收用户发起的模型训练请求，所述模型训练请求包括用户提供的第二数据集，所述第二数据集的数据数量小于预设阈值；

从存储的模型中选取模型；

利用用户提供的第二数据集，对选取的模型进行训练后提供给所述用户。

在一些例子中，所述处理器还可执行：

展示数据提示信息，所述数据提示信息用于提示用户：第二数据集中第二数据提供掩蔽标记以及至少两个候选项，所述至少两个候选项的其中一个候选项用于提示所述掩蔽标记对应的单词。

在一些例子中，所述至少两个候选项以提问的形式提供，以使模型基于所述提问，在预测所述掩蔽标记对应的单词时从所述至少两个候选项中进行选择。

在一些例子中，所述至少两个候选项中其中一个候选项用于提示：所述掩蔽标记对应的单词的反义词。

在一些例子中，所述第一数据和/或第二数据通过如下方式获得：

获取无标签文本，将所述无标签文本进行分词处理得到多个单词，从所述多个单词中识别出形容词，对其中一个形容词替换为掩蔽标记后获得的。

或者，该处理器执行所述程序时还可实现如下步骤：

获取待训练模型；

获取第一数据集；

在一些例子中，所述第一数据采用提问的形式提供有所述至少两个候选项，以使所述待训练模型基于所述提问，在预测所述掩蔽标记对应的单词时从所述至少两个候选项中进行选择。

在一些例子中，所述第一数据通过如下方式获得：

在一些例子中，所述至少两个候选项通过如下方式确定：

获取所述被掩蔽的形容词的反义词，基于所述被掩蔽的形容词和反义词确定所述至少两个候选项。

上述计算机设备的实现过程具体详见上述模型训练方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种模型训练方法，所述方法包括：

获取预训练模型；

获取第一数据集；

存储训练好的模型，所述训练好的模型应用于下游任务。

2.根据权利要求1所述的方法，所述训练好的模型应用于下游任务的小样本学习场景。

3.根据权利要求1所述的方法，所述方法还包括：

从存储的模型中选取模型；

4.根据权利要求3所述的方法，所述方法还包括：

5.根据权利要求1或3所述的方法，所述至少两个候选项以提问的形式提供，以使模型基于所述提问，在预测所述掩蔽标记对应的单词时从所述至少两个候选项中进行选择。

6.根据权利要求1或3所述的方法，所述至少两个候选项中其中一个候选项用于提示：所述掩蔽标记对应的单词的反义词。

7.根据权利要求1或3所述的方法，所述第一数据和/或第二数据通过如下方式获得：

8.一种模型训练方法，包括：

获取待训练模型；

获取第一数据集；

9.根据权利要求8所述的方法，所述第一数据采用提问的形式提供有所述至少两个候选项，以使所述待训练模型基于所述提问，在预测所述掩蔽标记对应的单词时从所述至少两个候选项中进行选择；和/或，

所述第一数据通过如下方式获得：获取无标签文本，将所述无标签文本进行分词处理得到多个单词，从所述多个单词中识别出形容词，对其中一个形容词替换为掩蔽标记后获得的；和/或，

所述至少两个候选项中其中一个候选项用于提示：所述掩蔽标记对应的单词的反义词。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现权利要求1至9任一所述的方法。

11.一种计算机可读存储介质，所述计算机可读存储介质上存储有若干计算机指令，所述计算机指令被执行时实现权利要求1至9任一项所述方法的步骤。