CN111898379A

CN111898379A - 槽填充模型训练方法和自然语言理解模型

Info

Publication number: CN111898379A
Application number: CN202010820531.0A
Authority: CN
Inventors: 俞凯; 曹瑞升; 朱苏
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-11-06
Anticipated expiration: 2040-08-14
Also published as: CN111898379B

Abstract

本发明公开一种槽填充模型训练方法，包括：对所述槽填充模型进行多轮次训练，每轮次训练包括以下步骤：从预设训练集中选择一个领域作为目标训练领域；为所述目标训练领域中的多个标签分别配置多个标注样本，以构成支撑集；从所述目标训练领域的其它标注样本中选择多个标注样本构成元测试数据，用于当前轮次训练的测试；将训练目标设置为最大化所述元测试数据的真实标注预测概率。本发明通过对槽填充模型进行多轮次训练，并且每轮次训练中都从预设训练集中的选择一个领域作为目标训练领域，同时在目标训练领域下配置支撑集和元测试数据进行训练，实现了采用少样本即可实现对槽填充模型的训练。

Description

槽填充模型训练方法和自然语言理解模型

技术领域

本发明涉及人工智能技术领域，尤其涉及一种槽填充模型训练方法和自然语言理解模型。

背景技术

槽填充任务(slot tagging)是自然语言理解(Natural LanguageUnderstanding,NLU)模块中一个典型的序列标注任务。当迁移至新的领域时往往面临数据稀缺的问题。为此，研究人员提出了针对少样本学习(few-shot learning)的槽填充任务，目前主流趋势是采用元学习(meta-learning)中基于度量(metric-based)的方法。具体而言，这些方法从现有领域的训练数据中学习一个领域无关的编码器，用来为问句中每个单词编码，同时为不同任务的输出标签类别学习一个类别的表示(label embedding)，通过某种距离度量函数，依次为每一个单词赋予最相近的标签。根据句子或类别编码方式的不同，常见的模型包括Matching Network,Prototypical Network,TapNet以及L-TapNet+CDT。

发明人在实现本发明的过程中发现，以上常见的模型把关注的重点都放在了学习有效的编码器上，即如何学习待查询对象以及输出类别的特征表示，忽略了距离度量函数对于分类效果的影响。一个有效的距离度量函数能够极大地缓解特征学习的压力，而不合适的度量方法很有可能导致大量无效的特征学习。

发明内容

本发明实施例提供一种槽填充模型训练方法和自然语言理解模型，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种槽填充模型训练方法，包括：对所述槽填充模型进行多轮次训练，每轮次训练包括以下步骤：

从预设训练集中选择一个领域作为目标训练领域；

为所述目标训练领域中的多个标签分别配置多个标注样本，以构成支撑集；

从所述目标训练领域的其它标注样本中选择多个标注样本构成元测试数据，用于当前轮次训练的测试；

将训练目标设置为最大化所述元测试数据的真实标注预测概率。

第二方面，本发明实施例提供一种自然语言理解模型，包括采用本发明任一实施例的槽填充模型训练方法所训练得到的槽填充模型。

第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项槽填充模型训练方法。

第四方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项槽填充模型训练方法。

第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项槽填充模型训练方法。

本发明实施例的有益效果在于：通过对槽填充模型进行多轮次训练，并且每轮次训练中都从预设训练集中的选择一个领域作为目标训练领域，同时在目标训练领域下配置支撑集和元测试数据进行训练，实现了采用少样本即可实现对槽填充模型的训练。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的槽填充模型训练方法的一实施例的流程图；

图2为本发明中计算发射分数的一实施例的示意图；

图3为本发明的槽填充模型训练方法的一实施例的示意图；

图4为本发明中在GetWeather领域中的进行槽填充的示意图；

图5为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

目前普遍采用的距离度量函数是向量余弦相似度以及欧氏距离。研究人员往往将更多精力放在了学习一个更有效的编码器上，忽略了度量函数在最终打分过程中起到的作用。

本发明在得到每一个单词上下文相关的特征向量和类别特征向量之后，将单词特征表示投射到类别向量上，从而避免不同类别的特征向量的范数大小对打分结果的影响，在此基础之上，再减去一个类别相关的截距值作为阈值，结果作为最终的分数。

如图1所示，本发明的实施例提供一种槽填充模型训练方法，包括：对所述槽填充模型进行多轮次训练，每轮次训练包括以下步骤：

S10、从预设训练集中选择一个领域作为目标训练领域。

示例性地，预设训练集包含一系列标注样本对：

其中，x＝(x₁,x₂,…,x_|x|)表示输入句子序列，y＝(y₁,y₂,…,y_|x|)表示输出序列标注，所述预设训练集中包含M个领域{D₁,D₂,…,D_M}，每个领域配置有一套标签集合，为方便讨论，假设每个领域都包含N个标签(N-way)。

S20、为目标训练领域中的多个标签分别配置多个标注样本，以构成支撑集。

示例性地，首先从训练集D中挑选一个领域D_m，从该领域中为每一个标签挑选K个样本(K-shot)，这些标注数据形成该领域的一个支撑集合(support set)

S30、从目标训练领域的其它标注样本中选择多个标注样本构成元测试数据，用于当前轮次训练的测试。

示例性地，接着从该领域(目标训练领域)剩余的样本中挑选出若干标注样本作为元学习测试(meta-test)的数据(与传统测试数据不同，这部分数据用于每一个轮次的训练而非最终模型的测试)。

S40、将训练目标设置为最大化所述元测试数据的真实标注预测概率。

示例性地，训练目标在于给定元测试数据和支撑集的情形下，最大化这些元测试数据的真实标注预测概率。下一个轮次重复以上步骤，重新挑选一个领域。在整个数据集上的训练目标，用数学形式的描述为：

示例性地，将训练目标设置为最大化所述元测试数据的真实标注预测概率通过以下公式实现：

其中，θ表示所述槽填充模型的参数，所述目标训练领域表示为D_t，所述支撑集为

(x，y)对来自目标训练领域。

其中，p_θ(y|x，S)的定义分为两个部分，每个单词x_i的发射分数(emission score)之和

以及整句话的类别序列的转移分数(transition score)

f_T(y_i-1，y_i)是第i步的转移分数，f_E(y_i，x，S)是第i步的发射分数；

SIM为单词-标签相似性函数，E表示上下文词嵌入函数，c_yi是从所述支撑集S中提取的y_i的标签嵌入。

转移分数的定义与L-TapNet+CDT类似，借助一个参数矩阵，不再赘述。为了获取句子中每个单词x_i与类别y_i的单词-类别(word-label)分数f_E(y_i，x，S)，综合考虑整个上下文x，数学形式描述为

其中E(x)_i是一个句子级编码器输出序列的第i个单词的特征表示，句子级编码器可以选用BLSTM，transformer，我们采用预训练模型Bert。

为类别y_i的特征表示，可以从支撑集中获取，以Prototypical Network为例，每一个类别表示是支撑集中所有类别为y_i的单词的上下文相关特征表示的平均。标签嵌入由以下公式确定：

其中，

是所述支撑集S中标有y_i的单词的数量。关于向量之间距离/相似度度量函数SIM(·,·)的选取。我们采用词向量x_i在类别向量c_k上的投影，缓解了不同类别向量的范数对打分结果的影响。为了减少假正例的错误：

单词-标签相似性函数实现为：

单词向量的范数相比于类别向量而言包含重要的语义信息，因此采用单词向量在类别向量进行投影的方式，提升了槽填充模型的性能。

我们额外添加了一个类别相关的偏置值：

单词-标签相似性函数实现为：

其中，x_i表示单词嵌入，c_k表示归一化标签向量，

为偏置项。

对于我们提出的向量投影相似度计算网络，可以将之解释为一个带有偏置的规范化的线性模型。相比于传统的余弦相似度计算、欧氏距离以及向量点积，该方法更有效。

如图2所示为本发明中计算发射分数的一实施例的示意图。该实施例中以“列出明天北京到上海的火车票”为例。

如图3所示，为本发明的槽填充模型训练方法的一实施例的示意图。该实施例中槽填充模型实现为一种少样本模型，该模型中包括发射分数和转移分数两部分。在训练中配置了训练集和测试集。其中，训练集中包括了音乐领域和餐厅领域，每个领域又进一步配置有元测试数据和支撑集。测试集中包括天气领域，并且同样配置有元测试数据和支撑集。

本发明相比于向量点积、欧氏距离、类别投射、余弦相似度等诸多相似度/距离度量方法，将单词向量投射到类别向量之上更加有效。

此外，添加一个类别相关的偏置项对最终分类结果起到了减少假正例的作用。并且将少样本学习的主要研究角度从学习一个强力的编码器部分转移到了采取一个更加合理有效的度量方法之上，鼓励更多对于向量相似度/距离计算的深度探讨。

本发明实施例还提供一种自然语言理解模型，该模型包括采用本发明任一实施例的槽填充模型训练方法所训练得到的槽填充模型。

为更加清楚的介绍本发明的技术方案，也为更直接地证明本发明的可实施性以及相对于现有技术的有益性，以下将对本发明的发明历程以及技术背景、技术方案、所进行的实验等进行更为详细的介绍。

摘要

受会话式对话系统巨大发展的影响，少样本槽填充任务在快速领域迁移或领域自适应方向变得很有吸引力。本发明中，我们为槽填充任务提出一个向量投射网络。它利用上下文相关的单词特征表示在类别向量上的投射作为单词-类别的相似度。本质上，该方法等价于一个结合自适应偏置项的规范化的线性模型。对比性的实验证明了我们提出的基于向量投射网络的相似度度量方法能够显著地超越其他的变体。具体而言，在数据集SNIPS和NER的5-样本学习的配置下，我们的方法击败了之前最有效的少样本学习基准。考虑指标F₁-score，SNIPS数据集上我们超越了6.13个百分点，NER超越了13.79个百分点。

1、介绍

自然语言理解(NLU)是口语对话系统的关键组成部分，可以将用户的语音转换为某些狭窄域(例如，预订酒店，搜索航班)的相应语义表示。作为NLU的核心任务，通常将槽填充表达为序列标记问题。

最近，受Amazon Alexa，Apple Siri，Google Assistant和Microsoft Cortana之类的商业应用程序的激励，人们对仅使用少量样本的领域快速转移和自适应产生了浓厚的兴趣。在这种情况下，少样本学习方法变得很有吸引力，可以从现有领域中学习通用模型并将其快速转移到新领域，而只需少量样本(例如，一次学习，每个新类只有一个样本)。

在分类问题上已经广泛地分析了基于相似性的少样本学习方法，它们根据项目与每个类的表示的相似性对项目进行分类。这些方法学习了一个领域通用编码器，以提取现有域中项目的特征向量，并利用相同的编码器从很少的带标签样本(支撑集)中获得每个新类别的表示。通过同时考虑单词标签的相似性和目标标签的时间依赖性，这种情况已成功地用于时隙标记任务中。尽管如此，为泛化能力设计适当的词标签相似性度量仍然是一个挑战。

在这项工作中，提出了一个向量投射网络来解决NLU中的少样本槽填充任务。为了消除无关标签但具有较大范数的向量的影响，我们将上下文单词嵌入在每个归一化标签向量上的投射作为单词-标签相似度。此外，每个标记向量的一半范数被用作阈值，这可以帮助减少假正例的错误。

槽填充和命名实体识别(NER)任务的1-shot和5-shot实验表明，我们的方法可以胜过各种少样本学习基准，增强了TapNet和原型网络等现有的高级方法，并取得了最先进的性能。

我们的贡献总结如下：

1)、我们提出了一个针对少样本槽填充任务的矢量投射网络，该网络利用上下文单词嵌入在每个归一化标签矢量上的投射作为单词-标签相似度。

2)、我们进行了广泛的实验，以将我们的方法与不同的相似性指标(例如，点积，余弦相似性，欧氏距离)进行比较。实验结果表明，我们的方法可以明显优于其他方法。

2、相关工作

一种在图像分类领域中的少样本学习的杰出方法主要集中在度量学习上。基于度量学习的方法旨在学习有效的距离度量。它可以比其他元学习算法更简单、更高效。

对于自然语言处理社区中的少样本学习，研究人员更加关注分类任务，例如，文本分类。近来，用于槽填充任务的少样本学习变得流行和吸引人。现有技术用原型网络探索了少样本NER。现有技术还利用TapNet和标签依赖项传输来实现槽填充和NER任务。与这些方法相比，我们的模型可以通过将向量投射用作单词-标签相似性来在新领域中实现更好的性能。

3、问题表述

我们将每个句子x＝(x₁，…，x_|x|)表示为单词序列，并将其标签序列定义为y＝(y₁，…，y_|x|)。

如图4所示为本发明中在GetWeather领域中的进行槽填充的示意图。对于每个域D，它都包含一个(x，y)对集合，即

在少样本情况下，槽填充模型在几个源域{D₁，D₂…D_M}上进行训练，然后直接在看不见的目标域D_t上进行评估，该目标域D_t仅包含少量标记的样本(支撑集)。支撑集

通常N个标签(N-way)中每个标签包含k个样本(K-shot)。因此，在给定目标域D_t及其对应的支撑集S中的输入查询x的情况下，少样本槽填充任务就是找到最佳标签序列y*，

其中，θ表示槽填充模型的参数，(x，y)对和支撑集来自目标域，即(x，y)～D_t和S～D_t。

在源域上训练少样本槽填充模型，以在支撑集上最小化预测标签的错误，

4、向量投射网络

在本节中，我们将介绍用于少样本槽填充任务的模型。

4.1、少样本CRF框架

线性条件随机场(CRF)考虑了邻域中标签之间的相关性，并根据给定的输入句子共同解码了最可能的标签序列。标签序列y的后验概率通过以下方式计算：

其中，f_T(y_i-1，y_i)是第i步的转移分数，f_E(y_i，x，S)是第i步的发射分数。转移分数在连续的时间步长中捕获标签的时间依赖性，这是每个标签对可学习的标量。为了共享不同域之间转换的潜在因素，我们采用了崩溃依赖转移(CDT)机制。

发射评分器针对每个标签y_i独立地为每个单词分配分数，这被定义为单词-标签相似度函数：

其中，E是上下文词嵌入函数，例如，BLSTM，Transformer，c_yi是从支撑集S中提取的y_i的标签嵌入。在本文中，我们采用预先训练的BERT模型作为E。

提出了各种模型来从S中提取标签嵌入c_yi，例如，匹配网络，原型网络和TapNet。以原型网络为例，将每个原型(标签嵌入)定义为属于它的嵌入式支撑点的平均向量：

其中，

是支撑集中标有y_i的单词的数量。

4.2、向量投射相似度

对于单词-标签相似性函数，我们采用单词嵌入x_i的向量在归一化标签向量c_k的投射(即，采用词向量在类别向量上的投影)：

可以帮助消除c_k的范数的影响，从而避免c_k的范数足够大以支配相似性度量的情况。为了减少误报错误，每个标签向量的一半范数用作自适应偏置项：

4.3、解释为归一化线性模型

上述向量投射网络的一种简单解释是为每个标签学习一个独特的线性分类器。我们可以将以上公式重写为线性模型：

其中，

和

权重被标准化为||w_k||＝1，以提高少样本模型的泛化能力。实验结果表明，与点积，余弦相似度，欧氏距离等相比，向量投射是一种有效的选择。

5、实验

我们在SNIPS和NER数据集上评估提出的方法。它位于片段数据集中，其中每个片段都包含一个支撑集(1-shot或5-shot)和一批标记的样本。对于槽填充，SNIPS数据集由具有不同标签集的7个域组成：天气(Weather-We)，音乐(Music-Mu)，播放列表(PlayList-Pl)，图书(Book-Bo)，搜索屏幕(Search Screen-Se)，餐厅(Restaurant-Re)和创意作品(Creative Work-Cr)。对于NER，利用4个不同的数据集充当不同的域：CoNLL-2003(News)，GUM(Wiki)，WNUT-2017(Social)和OntoNotes(Mixed)。有关数据拆分的更多详细信息，请参见附录A。

对于每个数据集，我们选择一个目标域进行评估，选择一个域进行验证，并将其余域用作训练的源域。我们还报告了片段集级别的平均F₁分数。对于每个实验，我们使用不同的随机种子运行十次。训练细节在附录B中说明。

5.1、基准

SimBERT：对于每个单词x_i，SimBERT会根据固定BERT的单词嵌入的余弦相似度，在支撑集中找到最相似的单词x′_k，并将x′_k的标签分配给x_i。

TransferBERT：可训练的线性分类器应用于共享的BERT，以预测每个域的标签。在评估之前，会在目标域的支撑集上对其进行微调。

L-WPZ+CDT+PWE：WPZ是少样本序列标记模型，将序列标记视为每个单词的分类。通过BERT，崩溃依赖转移(CDT)和明智配对嵌入(PWE)机制对其进行了增强。

L-TapNet+CDT+PWE：以前的最先进的少样本槽填充方法结合了BERT，CDT和PWE。

5.2、主要结果

表1和表2分别显示了SNIPS和NER数据集的1-shot和5-shot槽填充的结果。我们的方法可以大大超越包括先前最新模型在内的所有基准。此外，先前的最新模型在很大程度上依赖于PWE，该模型将输入语句与支撑集中的每个样本连接起来，然后将其输入BERT以成对嵌入。通过将“LTapNet+CDT+PWE”与“L-TapNet+CDT+VP”进行比较，我们发现我们提出的向量投射(VP)可以实现更好的性能和更高的效率。如果我们将每个标签向量的负半模作为偏差(VPB)并入，则5-shot槽填充上的F₁得分将大大提高。我们推测5-shot槽填充涉及每个标签的多个支持点，因此，如果在预测每个标签时没有阈值，则误报错误的发生频率可能更高。

表1：在SNIPS的少样本槽填充上的F₁得分。带有标准差的结果显示在附录C.2中。

表2：在NER的少样本槽填充上的F₁得分。带有标准差的结果显示在附录C.2中。

表3：不同相似性函数之间的比较。结果是所有域的平均F₁分数。

5.3、分析

对于单词-标签相似度函数SIM(x，c)，我们还在拟议的向量投射与其他变体(包括点积(x^Tc)，标签矢量在单词嵌入上的投射

余弦相似度

欧氏距离(-1/2||x-c||²)，甚至是可训练的缩放因子(λx^Tc))之间进行了对比实验。表3中的结果表明，我们的方法可以大大优于这些替代指标。我们还注意到，欧氏距离可以在5-shot设置中获得竞争性结果。数学上：

其中，-(1/2)x^Tx对于每个标签是恒定的，因此省略。它进一步巩固了我们的假设，即(1/2)c^Tc可以用作缓解误报错误的偏置项。

除了针对模型转移而不是微调的少数快照标记外，我们还分析了如何在附录C.1的支撑集上对模型进行微调。

6、结论

在本文中，我们提出了用于少样本槽填充任务的向量投射网络，该网络可以解释为具有自适应偏差的归一化线性模型。实验结果表明，在SNIPS和NER数据集上，无论是1-shot还是5-shot设置，我们的方法都能明显胜过最强的少样本学习基准。此外，我们提出的基于向量投射的相似性度量可以显着超过其他变体。

附录A、数据集细节

现有技术提供的数据拆分方法应用于SNIPS和NER数据集。表4提供了原始数据集的统计分析，其中标签(“#Labels”)的数量以内部/外部/开头(IOB)模式进行计数。

表4：原始数据集的统计信息。

在片段数据设置中侯等人(2020年)为少样本槽填充和NER重新组织了数据集，其中每个片段包含一个支撑集(1-shot或5-shot)和一批带标签的样本。1-shot和5-shot场景意味着域的每个标签分别出现大约1次和5次。表5和表6分别显示了在SNIPS和NER上分割的少量数据概述。对于SNIPS，每个域包含100个片段。对于NER，每个域在1-shot场景中包含200个片段，在5-shot场景中包含100个片段。

表5：SNIPS的少样本槽填充数据概述。“Avg.|S|”是指每个域的平均支撑集大小，“Sample”表示所有情节的批次中标记的样本数。

表6：NER实验的少样本数据概述。

附录B、训练细节

在所有实验中，我们使用无大小写的BERT-Base作为E来提取上下文词嵌入。使用ADAM以1e-5的学习率对模型进行训练，并在每次发作后进行更新。我们通过逐层学习速率衰减(速率为0.9)微调BERT，即，第l层的参数获得自适应学习速率1e-5*9^(L-l)，其中L是BERT中的总层数。对于CRF过渡参数，将它们初始化为零，并应用较大的学习率1e-3。

对于每个数据集，我们遵循侯等人(2020年)选择一个目标域进行评估，选择一个域进行验证，并将其余域用作训练的源域。对模型进行了五次迭代训练，我们将具有最佳F₁分数的参数保存在验证域中。我们使用情节级别的平均F₁分数，并使用CoNLL评估脚本计算F₁得分。对于每个实验，我们使用示例(https://www.random.org)生成的不同随机种子运行十次。

我们在GeForce GTX 2080Ti图形卡上运行模型，表7中提供了每个时期的平均训练时间和每个模型中的参数数量。

表7：我们的方法的运行时间和模式大小。

附录C、其他分析和结果

附录C.1、支撑集的微调

几乎所有少样本槽填充方法都选择不对支撑集进行微调以提高效率。在这里，我们想知道如果在支撑集上微调我们的方法，性能将如何变化。具体而言，可以在一个情节的支撑集上微调预训练的模型，然后根据该情节的数据批次进行评估。由于不同的情节是独立的，因此模型将重新初始化为经过预训练的模型，为下一个情节做准备。我们使用与训练相同的超参数将“ProtoNet+CDT+VP”模型微调1～10个步骤。如表8所示，我们可以发现对支撑集的微调可以极大地改进。

表8：结果是所有域的平均F₁得分。骨干方法是“ProtoNet+CDT+VP”。

附录C.2、标准差结果

表9、10、11和12给出了在SNIPS和NER具有标准偏差的完整的结果。

表9：SNIPS数据集的1-shot槽填充上的F₁分数，*表示从Hou等人(2020)借用的结果。

表10：SNIPS数据集的5-shot槽填充上的F₁分数，*表示从Hou等人(2020)借用的结果。

表11：在NER数据集的1-shot槽填充上的F₁得分，*表示从Hou等人(2020)借用的结果。

表12：在NER数据集的5-shot槽填充上的F₁分数，*表示从Hou等人(2020)借用的结果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项槽填充模型训练方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项槽填充模型训练方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行槽填充模型训练方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现槽填充模型训练方法。

图5是本申请另一实施例提供的执行槽填充模型训练方法的电子设备的硬件结构示意图，如图5所示，该设备包括：

一个或多个处理器510以及存储器520，图5中以一个处理器510为例。

执行槽填充模型训练方法的设备还可以包括：输入装置530和输出装置540。

处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器520作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的槽填充模型训练方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例槽填充模型训练方法。

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据槽填充模型训练装置的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至槽填充模型训练装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可接收输入的数字或字符信息，以及产生与槽填充模型训练装置的用户设置以及功能控制有关的信号。输出装置540可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器520中，当被所述一个或者多个处理器510执行时，执行上述任意方法实施例中的槽填充模型训练方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。