CN114036306B

CN114036306B - 模型训练方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN114036306B
Application number: CN202210011963.6A
Authority: CN
Inventors: 周刚; 刘高硕; 琚生根
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2022-03-29
Anticipated expiration: 2042-01-07
Also published as: CN114036306A

Abstract

本申请实施例公开了一种模型训练方法、装置、计算机设备及计算机可读存储介质。所述方法应用于融入标签感知迁移学习的跨领域槽填充模型，包括：将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层，得到每个分词的隐藏信息；基于第一预设公式，计算具有相同所述真实BIO标签的第一域样本和第二域样本的隐藏信息之间的最大平均差异值；将各个真实BIO标签对应的最大平均差异值相加，得到最大平均差异总值；以最小化最大平均差异总值为目标，训练跨领域槽填充模型，直到满足预设条件后终止训练。本申请提供的模型训练方法，利用目标域数据提高跨域槽填充模型的泛化能力。

Description

模型训练方法、装置、计算机设备及计算机可读存储介质

技术领域

本申请涉及智能语音技术领域，尤其涉及一种模型训练方法、装置、计算机设备及计算机可读存储介质。

背景技术

口语理解是自然语言理解的重要组成部分，包括领域分类、意图检测和槽填充。其中，槽填充任务是从大规模的语料库中抽取给定实体的被明确定义的属性的值，即槽填充任务用于识别特定领域的用户话语中与任务相关的槽位类型。

目前的跨域槽填充模型都是通过足够的源域数据实现跨领域槽填充，并没有很好地利用少了标记的目标域数据，跨域槽填充模型的泛化能力弱。因此，如何利用目标域数据提高跨域槽填充模型的泛化能力是现在亟需解决的技术问题。

发明内容

本申请的目的之一在于提供一种模型训练方法、装置、计算机设备及计算机可读存储介质，以解决如何利用目标域数据提高跨域槽填充模型的泛化能力的问题。

第一方面，本申请实施例提供一种模型训练方法，应用于融入标签感知迁移学习的跨领域槽填充模型，包括：

将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层，得到每个分词的隐藏信息，其中，所述训练样本包括第一域样本和第二域样本，每个训练样本均包括真实BIO标签；

基于第一预设公式，计算具有相同所述真实BIO标签的所述第一域样本和所述第二域样本的隐藏信息之间的最大平均差异值；

将各个所述真实BIO标签对应的所述最大平均差异值相加，得到最大平均差异总值；

以最小化所述最大平均差异总值为目标，训练所述跨领域槽填充模型，直到满足预设条件后终止训练。

在一种可选的实施方式中，用于融入标签感知迁移学习的跨领域槽填充模型，包括：

在一种可选的实施方式中，所述第一预设公式为：

其中，

表示所述最大平均差异值，

表示再生核函数；

表示第i个所述第一域样本的隐藏信息，

表示第j个所述第一域样本的隐藏信息；

表示第i个所述第二域样本的隐藏信息，

表示第j个所述第二域样本的隐藏信息；

表示所述第一域样本的隐藏信息的集合，

表示所述第二域样本的隐藏信息的集合；

表示所述第一域样本的数量，

表示所述第二域样本的数量。

在一种可选的实施方式中，所述得到最大平均差异总值后，还包括：

基于第二预设公式，计算分类损失函数值；

所述以最小化所述最大平均差异总值为目标，训练所述跨领域槽填充模型，包括：

以同时最小化所述最大平均差异总值和所述分类损失函数值为目标，训练所述跨领域槽填充模型。

在一种可选的实施方式中，所述第二预设公式为：

其中，

表示所述分类损失函数值；

表示所述训练样本的总数；

表示所述训练样本的真实BIO标签的数量；

表示所述训练样本的真实BIO标签类别；

表示符号函数，如果训练样本i的预测BIO标签与所述训练样本的真实BIO标签类别c一致，

取1，否则

取0；

表示训练样本i属于真实BIO标签c的预测概率。

在一种可选的实施方式中，所述计算分类损失函数值后，还包括：

基于第三预设公式，计算正则化损失函数值；

所述以所述最大平均差异总值和所述分类损失函数值同时最小化为目标，训练所述跨领域槽填充模型，包括：

以同时最小化所述最大平均差异总值、所述分类损失函数值和所述正则化损失函数值为目标，训练所述跨领域槽填充模型。

在一种可选的实施方式中，所述第三预设公式为：

其中，

表示所述正则化损失值；

表示Bi-LSTM的参数。

第二方面，本申请实施例提供一种模型训练装置，应用于融入标签感知迁移学习的跨领域槽填充模型，包括：

得到模块，用于将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层，得到每个分词的隐藏信息，其中，所述训练样本包括第一域样本和第二域样本，每个训练样本均包括真实BIO标签；

计算模块，用于基于第一预设公式，计算具有相同所述真实BIO标签的所述第一域样本和所述第二域样本的隐藏信息之间的最大平均差异值；

所述计算模块，还用于将各个所述真实BIO标签对应的所述最大平均差异值相加，得到最大平均差异总值；

训练模块，用于以最小化所述最大平均差异总值为目标，训练所述跨领域槽填充模型，直到满足预设条件后终止训练。

第三方面，提供一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器执行时，实现第一方面所述的模型训练方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如第一方面所述的模型训练方法。

本申请实施例提供了一种模型训练方法、装置、计算机设备及计算机可读存储介质。所述方法应用于融入标签感知迁移学习的跨领域槽填充模型，包括：将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层，得到每个分词的隐藏信息，其中，训练样本包括第一域样本和第二域样本，每个训练样本均包括真实BIO标签；基于第一预设公式，计算具有相同所述真实BIO标签的第一域样本和第二域样本的隐藏信息之间的最大平均差异值；将各个真实BIO标签对应的最大平均差异值相加，得到最大平均差异总值；以最小化最大平均差异总值为目标，训练跨领域槽填充模型。如此，实现利用目标域数据提高跨域槽填充模型的泛化能力的功能。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对本申请保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1示出了本申请实施例提供的一种模型训练方法的步骤流程示意框图；

图2示出了本申请实施例提供的一种模型训练装置的结构示意框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在下文中，可在本申请的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本申请的各种实施例中被清楚地限定。

实施例1

请参照图1，图1示出了本申请实施例提供的一种模型训练方法的步骤流程示意框图。

如图1所示，本申请实施例提供的第一种模型训练方法，可以应用于融入标签感知迁移学习的跨领域槽填充模型（Label-aware Transfer learning for Cross-domainSlot Filling，LTCS），包括S110至S140。

S110：将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层，得到每个分词的隐藏信息，其中，所述训练样本包括第一域样本和第二域样本，每个训练样本均包括真实BIO标签。

在本实施例中，BIO标签为将每个元素标注为“B-X”、“I-X”或者“O”。其中，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。示例性地，以训练样本为Can you put this tune onto latin dance cardio为例，训练样本的真实BIO标签为：【O】Can【O】【O】you【O】put【O】this【B】tune【O】onto【B】latin【I】dance【I】cardio。

进一步地，第一域样本为源域样本，第二域样本为目标域样本。源域样本和目标域样本均为包括真实BIO标签且由一系列字符组成的样本。隐藏信息为隐藏状态。预设数量可以根据实际需求设定，在此不做限定。

具体地，将预设数量的训练样本输入所述跨领域槽填充模型的嵌入层，得到训练样本对应的词嵌入w=[w₁，w₂，...，w_n]。然后，将所述词嵌入w=[w1，w2，...，wn]输入跨领域槽填充模型的编码层，在所述编码层中，通过Bi-LSTM（Bi-directional Long Short-TermMemory，双向长短期记忆）神经网络，得到每个分词的隐藏状态[h₁，h₂，...，h_n]，其中，

，

表示句子中每个分词的嵌入（embedding），Bi-LSTM神经网络可以将输入序列从前向和后向分开处理，能够更好地考虑上下文信息。

可以理解的是，在本实施例中，所述跨领域槽填充模型包括两阶段，第一阶段为：首先，将包括真实BIO标签的训练样本输入嵌入层，得到所述训练样本对应的词嵌入；其次，将所述词嵌入输入第一Bi-LSTM神经网络，得到所述词嵌入对应的第一隐藏状态；第三，将所述第一隐藏状态输入条件随机层（ConditionalRandom Field algorithm，CRF），生成预测BIO标签序列。第二阶段为：首先，将第一阶段得到的词嵌入输入第二Bi-LSTM神经网络，得到所述词嵌入对应的第二隐藏状态；其次，将所述第二隐藏状态输入平均池化层（AvgPooling），生成表示信息；最后，将所述表示信息与槽描述向量进行相似度对比，确定相似度最高的槽描述向量对应的槽位为目标槽位。其中，所述槽描述向量是描述某一槽位的向量，通过n个某一槽位的自然语言单词的词嵌入相加得到，n为正整数。

S120：基于第一预设公式，计算具有相同所述真实BIO标签的所述第一域样本和所述第二域样本的隐藏信息之间的最大平均差异值。

在本实施例中，将包括真实BIO标签的源域样本和目标域样本输入所述跨领域槽填充模型的嵌入编码层后，得到的源域样本的隐藏状态和目标域样本的隐藏状态也具有相应的真实BIO标签。例如，输入包括B标签的源域样本至所述跨领域槽填充模型的嵌入编码层后，得到的源域样本的隐藏状态也具有B标签；输入包括O标签的目标域样本至所述跨领域槽填充模型的嵌入编码层后，得到的目标域样本的隐藏状态也具有O标签。

在一种可选的实施方式中，所述第一预设公式为：

其中，

表示所述最大平均差异值，

表示再生核函数；

表示第i个所述第一域样本的隐藏信息，

表示第j个所述第一域样本的隐藏信息；

表示第i个所述第二域样本的隐藏信息，

表示第j个所述第二域样本的隐藏信息；

表示所述第一域样本的隐藏信息的集合，

表示所述第二域样本的隐藏信息的集合；

表示所述第一域样本的数量，

表示所述第二域样本的数量，

表示真实BIO标签的类别。

S130：将各个所述真实BIO标签对应的所述最大平均差异值相加，得到最大平均差异总值。

在本实施例中，可以使用最大平均差异总值计算公式计算最大平均差异总值，所述最大平均差异总值计算公式为：

其中，

表示最大平均差异总值，

表示源域和目标域中匹配真实BIO标签的集合。

可以理解的是，将最大平均差异总值应用于Bi-LSTM学习时，具有相同真实BIO标签的实例在源域和目标域中的分布会更加紧密，从而使跨领域槽填充模型能够更好地从源域迁移到目标域。最小化所述最大平均差异总值，实现减小源域与目标域之间的分布差异，提升跨领域槽填充模型的泛化能力。

S140：以最小化所述最大平均差异总值为目标，训练所述跨领域槽填充模型，直到满足预设条件后终止训练。

在本实施例中，预设条件包括最大预设次数、训练时长等。

可以理解的是，当所述最大平均差异总值应用于所述跨领域槽填充模型训练时，让源域与目标域的带有相同真实BIO标签的隐藏状态最大平均差异变小，从而实现减小源域与目标域之间的分布差异，提升跨领域槽填充模型的泛化能力。

可选地，所述得到最大平均差异总值后，还包括：

基于第二预设公式，计算分类损失函数值；

在一种可选的实施方式中，所述第二预设公式为：

其中，

表示所述分类损失函数值；

表示所述训练样本的总数；

表示所述训练样本的真实BIO标签的数量；

表示所述训练样本的真实BIO标签类别；

取1，否则

取0；

表示训练样本i属于真实BIO标签c的预测概率。

可以理解的是，最小化分类损失函数值，能够提高条件随机层输出的预测BIO标签序列与真实BIO标签序列的一致性，从而提高跨领域槽填充模型对槽位信息识别的准确性。

进一步地，所述计算分类损失函数值后，还包括：

基于第三预设公式，计算正则化损失函数值；

在一种可选的实施方式中，所述第三预设公式为：

其中，

表示所述正则化损失值；

表示Bi-LSTM的参数。

可以理解的是，最小化正则化损失函数值，跨领域槽填充模型会降低Bi-LSTM的参数中较大的权重参数，从而使跨领域槽填充模型对源域数据的拟合不那么剧烈，可有效降低跨领域槽填充中，对源域数据的过拟合问题。

本申请实施例提供了一种模型训练方法，所述方法应用于融入标签感知迁移学习的跨领域槽填充模型，包括：将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层，得到每个分词的隐藏信息，其中，训练样本包括第一域样本和第二域样本，每个训练样本均包括真实BIO标签；基于第一预设公式，计算具有相同所述真实BIO标签的第一域样本和第二域样本的隐藏信息之间的最大平均差异值；将各个真实BIO标签对应的最大平均差异值相加，得到最大平均差异总值；以最小化最大平均差异总值为目标，训练跨领域槽填充模型。如此，实现利用目标域数据提高跨域槽填充模型的泛化能力的功能。

实施例2

请参照图2，图2示出了本申请实施例提供的一种模型训练装置的结构示意框图。所述模型训练装置500包括得到模块510、计算模块520、训练模块530。

其中，所述得到模块510，用于将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层，得到每个分词的隐藏信息，其中，所述训练样本包括第一域样本和第二域样本，每个训练样本均包括真实BIO标签；

所述计算模块520，用于基于第一预设公式，计算具有相同所述真实BIO标签的所述第一域样本和所述第二域样本的隐藏信息之间的最大平均差异值；

所述计算模块520，还用于将各个所述真实BIO标签对应的所述最大平均差异值相加，得到最大平均差异总值；

所述训练模块530，用于以最小化所述最大平均差异总值为目标，训练所述跨领域槽填充模型，直到满足预设条件后终止训练。

可选地，所述第一预设公式为：

其中，

表示所述最大平均差异值，

表示再生核函数；

表示第i个所述第一域样本的隐藏信息，

表示第j个所述第一域样本的隐藏信息；

表示第i个所述第二域样本的隐藏信息，

表示第j个所述第二域样本的隐藏信息；

表示所述第一域样本的隐藏信息的集合，

表示所述第二域样本的隐藏信息的集合；

表示所述第一域样本的数量，

表示所述第二域样本的数量。

可选地，所述计算模块520，还用于基于第二预设公式，计算分类损失函数值；

所述训练模块530，还用于以同时最小化所述最大平均差异总值和所述分类损失函数值为目标，训练所述跨领域槽填充模型。

可选地，所述第二预设公式为：

其中，

表示所述分类损失函数值；

表示所述训练样本的总数；

表示所述训练样本的真实BIO标签的数量；

表示所述训练样本的真实BIO标签类别；

取1，否则

取0；

表示训练样本i属于真实BIO标签c的预测概率。

可选地，所述计算模块520，还用于基于第三预设公式，计算正则化损失函数值；

所述训练模块530，还用于以同时最小化所述最大平均差异总值、所述分类损失函数值和所述正则化损失函数值为目标，训练所述跨领域槽填充模型。

可选地，所述第三预设公式为：

其中，

表示所述正则化损失值；

表示Bi-LSTM的参数。

上述装置用于执行实施例1提供的方法，其实现原理和技术效果类似，在此不再赘述。

本申请实施例还公开了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器执行时，实现如实施例1所述的模型训练方法。

本申请实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如实施例1所述的模型训练方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是智能手机、个人计算机、服务器、或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种模型训练方法，其特征在于，应用于融入标签感知迁移学习的跨领域槽填充模型，所述跨领域槽填充模型用于将包括真实BIO标签的训练样本输入嵌入层得到所述训练样本对应的词嵌入，将所述词嵌入输入第一双向长短期记忆神经网络，得到所述词嵌入对应的第一隐藏状态，将所述第一隐藏状态输入条件随机层，生成预测BIO标签序列，将所述词嵌入输入第二双向长短期记忆神经网络，得到所述词嵌入对应的第二隐藏状态，将所述第二隐藏状态输入平均池化层，生成表示信息，将所述表示信息与槽描述向量进行相似度对比，确定相似度最高的槽描述向量对应的槽位为目标槽位，所述真实BIO标签用于表示所述训练样本的每个元素的类型与位置，所述槽描述向量是描述槽位的向量，由n个所述槽位的自然语言单词的词嵌入相加得到，所述方法包括：

将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层，得到每个分词的隐藏信息，其中，所述训练样本包括第一域样本和第二域样本，每个训练样本均包括真实BIO标签且均由字符构成；

基于第二预设公式，计算分类损失函数值；

以最小化所述最大平均差异总值为目标，训练所述跨领域槽填充模型，直到满足预设条件后终止训练；

以同时最小化所述最大平均差异总值和所述分类损失函数值为目标，训练所述跨领域槽填充模型；

所述第二预设公式为：

其中，

表示所述分类损失函数值；

表示所述训练样本的总数；

表示所述训练样本的真实BIO标签的数量；

表示所述训练样本的真实BIO标签类别；

取1，否则

取0；

表示训练样本i属于真实BIO标签c的预测概率。

2.根据权利要求1所述的模型训练方法，其特征在于，所述第一预设公式为：

其中，

表示所述最大平均差异值，

表示再生核函数；

表示第i个所述第一域样本的隐藏信息，

表示第j个所述第一域样本的隐藏信息；

表示第i个所述第二域样本的隐藏信息，

表示第j个所述第二域样本的隐藏信息；

表示所述第一域样本的隐藏信息的集合，

表示所述第二域样本的隐藏信息的集合；

表示所述第一域样本的数量，

表示所述第二域样本的数量。

3.根据权利要求1所述的模型训练方法，其特征在于，所述计算分类损失函数值后，还包括：

基于第三预设公式，计算正则化损失函数值；

所述以同时最小化所述最大平均差异总值和所述分类损失函数值为目标，训练所述跨领域槽填充模型，包括：

4.根据权利要求3所述的模型训练方法，其特征在于，所述第三预设公式为：

其中，

表示所述正则化损失值；

表示Bi-LSTM的参数。

5.一种模型训练装置，其特征在于，应用于融入标签感知迁移学习的跨领域槽填充模型，所述跨领域槽填充模型用于将包括真实BIO标签的训练样本输入嵌入层得到所述训练样本对应的词嵌入，将所述词嵌入输入第一双向长短期记忆神经网络，得到所述词嵌入对应的第一隐藏状态，将所述第一隐藏状态输入条件随机层，生成预测BIO标签序列，将所述词嵌入输入第二双向长短期记忆神经网络，得到所述词嵌入对应的第二隐藏状态，将所述第二隐藏状态输入平均池化层，生成表示信息，将所述表示信息与槽描述向量进行相似度对比，确定相似度最高的槽描述向量对应的槽位为目标槽位，所述真实BIO标签用于表示所述训练样本的每个元素的类型与位置，所述槽描述向量是描述槽位的向量，由n个所述槽位的自然语言单词的词嵌入相加得到，所述装置包括：

得到模块，用于将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层，得到每个分词的隐藏信息，其中，所述训练样本包括第一域样本和第二域样本，每个训练样本均包括真实BIO标签且均由字符构成；

所述计算模块，还用于基于第二预设公式，计算分类损失函数值；

训练模块，用于以最小化所述最大平均差异总值为目标，训练所述跨领域槽填充模型，直到满足预设条件后终止训练；

所述训练模块，还用于以同时最小化所述最大平均差异总值和所述分类损失函数值为目标，训练所述跨领域槽填充模型；

所述第二预设公式为：