CN113806501B

CN113806501B - 意图识别模型的训练方法、意图识别方法和设备

Info

Publication number: CN113806501B
Application number: CN202110369270.XA
Authority: CN
Inventors: 巨鑫; 唐樾
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2023-11-03
Anticipated expiration: 2041-04-06
Also published as: CN113806501A

Abstract

本申请提出一种意图识别模型的训练方法、意图识别方法和设备，其中，该方法包括：将训练数据中的样本数据输入至多任务学习框架中的多个子任务层，得到多个子任务对应的预测结果，将多个子任务层针对样本数据输出的隐向量输入至多任务学习框架中的意图分类层，以得到意图识别任务的预测结果，根据多个子任务的预测结果和第二标签，以及意图识别任务的预测结果和第一标签，对多任务学习框架进行训练，从而得到训练后的意图识别模型。由此，通过将与意图识别任务对应的多个子任务以及意图识别任务放进同一个多任务学习框架中进行联合训练，在训练、模型部署方面的开销都会小，降低模型训练的成本的同时，可提高所训练的意图识别模型的准确性。

Description

意图识别模型的训练方法、意图识别方法和设备

技术领域

本申请涉及计算机技术领域，尤其涉及意图识别模型的训练方法、意图识别方法、装置、电子设备和存储介质。

背景技术

随着计算机算力、数据量、数据维度的不断增长，深度学习已深入现代生活的方方面面，并且成为各类互联网服务的重要支撑：在搜索、推荐、智能客服等日常场景中，正是由于各类深度学习算法的不断发展和迭代，才能给用户越来越好的使用体验。

智能客服是在大规模知识处理基础上发展起来的一项面向行业应用的，它是(大规模知识处理技术、自然语言理解技术、知识管理技术、自动问答系统、推理技术等等)，具有行业通用性，不仅为企业提供了细粒度知识管理技术，还为企业与海量用户之间的沟通建立了一种基于自然语言的快捷有效的技术手段；同时还能够为企业提供精细化管理所需的统计分析信息。而用户意图的识别是智能客服的工作流程中的基础，只有正确识别用户的意图才能保证对话流程走向正常的方向从而为客户提供满意的服务。

在对智能客服场景，与意图识别任务有关的多个任务的处理结果，通常也会对意图识别任务的意图识别结果产生一定影响。相关技术中，通过对与意图识别任务的多个任务分别训练，然后基于分别训练得到各个任务各自对应的模型，然后再结合各个任务的训练后的模型，再对意图识别任务的模型进行训练。然而，这种训练意图识别模型的方式，训练、模型部署方面的开销是非常大的，并且，各个模型的训练彼此是孤立的，从而可能导致最后得到的意图识别模型，对用户的意图识别出现偏差。

发明内容

本申请提出一种意图识别模型的训练方法、意图识别方法、装置、电子设备和存储介质。

本申请一方面实施例提出了一种意图识别模型的训练方法，包括：获取待训练意图识别模型对应的多任务学习框架以及对应的训练数据，其中，所述多任务学习框架包括：意图识别任务对应的意图分类层、与多个子任务分别对应的多个子任务层，其中，所述多个子任务层均与所述意图分类层连接，所述训练数据包括样本数据以及对应的标签数据，其中，所述标签数据包括：所述意图识别任务对应的第一标签、以及所述多个子任务分别对应的第二标签；将所述样本数据输入至所述多个子任务层，得到所述多个子任务对应的预测结果；将所述多个子任务层针对所述样本数据输出的隐向量输入至意图分类层，以得到所述意图识别任务的预测结果；根据所述多个子任务的预测结果和所述第二标签，以及所述意图识别任务的预测结果和所述第一标签，对所述多任务学习框架进行训练，以得到训练后的意图识别模型。

在本申请的一个实施例中，所述根据所述多个子任务的预测结果和所述第二标签，以及所述意图识别任务的预测结果和所述第一标签，对所述多任务学习框架进行训练，以得到训练后的意图识别模型包括：根据所述多个子任务的预测结果以及所述第二标签，确定所述多个子任务各自对应的第一损失函数值；根据所述意图识别任务的预测结果以及所述第一标签，确定所述意图识别任务的第二损失函数值；根据所述第一损失函数值以及所述第二损失函数值，确定所述多任务学习框架的总损失函数值；根据所述总损失函数值，调整所述多任务学习框架的模型参数，以得到训练后的意图识别模型。

在本申请的一个实施例中，所述根据所述第一损失函数值以及所述第二损失函数值，确定所述多任务学习框架的总损失函数值，包括：针对每个子任务，确定出所述子任务的预测结果和第二标签之间的方差；根据所述多个子任务层对应的方差，分别确定所述多个子任务对应的观测噪声；根据所述多个子任务对应的第一损失函数值和观测噪声，分别确定出所述多个子任务对应的第一中间损失函数值；根据所述第二损失函数值和所述第一中间损失函数值，确定所述多任务学习框架的总损失函数值。

在本申请的一个实施例中，所述多任务学习框架还包括：与所述多个子任务层均连接的词向量层、位于每两个相邻子任务层中间的共享层，所述将所述样本数据输入至所述多个子任务层，包括：将所述样本数据输入至所述词向量层，以得到所述样本数据的词向量；将所述词向量输入至所述共享层，以通过所述共享层抽取对应相邻两个子任务之间的共同特征向量；针对每个子任务层，将所述词向量以及与所述子任务层对应的共享层的共同特征向量输入到所述子任务层中。

在本申请的一个实施例中，在所述将所述多个子任务层针对所述样本数据输出的隐向量输入至意图分类层之前，所述方法还包括：获取与所述多个子任务各自对应的权重；针对每个子任务层，将所述子任务层针对所述样本数据输出的隐向量，与对应子任务的权重进行相乘，以得到所述子任务层对应的新的隐向量；所述将所述多个子任务层针对所述样本数据输出的隐向量输入至意图分类层，包括：将所述多个子任务对应的新的隐向量输入到所述意图分类层。

本申请实施例的意图识别模型的训练方法，将训练数据中的样本数据输入至多任务学习框架中的多个子任务层，得到多个子任务对应的预测结果，将多个子任务层针对样本数据输出的隐向量输入至多任务学习框架中的意图分类层，以得到意图识别任务的预测结果，根据多个子任务的预测结果和第二标签，以及意图识别任务的预测结果和第一标签，对多任务学习框架进行训练，从而得到训练后的意图识别模型。由此，通过将与意图识别任务对应的多个子任务以及意图识别任务放进同一个多任务学习框架中进行联合训练，从而提高了训练效率，在训练、模型部署方面的开销都会小，降低了模型训练的成本的同时，可提高所训练的意图识别模型的准确性。

本申请另一方面实施例提出了一种基于上述实施例训练得到的意图识别模型所进行的意图识别方法，所述方法包括：获取待处理数据；将所述待处理数据输入到训练后的意图识别模型，以得到所述待处理数据的意图识别结果。

本申请实施的意图识别方法，将待处理数据输入基于多学习任务框架而得到的意图识别模型，通过意图识别模型可以准确确定出意图识别任务对应的意图类别，进而可根据确定出的意图类型进行后续处理。

本申请另一方面实施例提出了一种意图识别模型的训练装置，第一获取模块，用于获取待训练意图识别模型对应的多任务学习框架以及对应的训练数据，其中，所述多任务学习框架包括：意图识别任务对应的意图分类层、与多个子任务分别对应的多个子任务层，其中，所述多个子任务层均与所述意图分类层连接，所述训练数据包括样本数据以及对应的标签数据，其中，所述标签数据包括：所述意图识别任务对应的第一标签、以及所述多个子任务分别对应的第二标签；子任务模块，用于将所述样本数据输入至所述多个子任务层，得到所述多个子任务对应的预测结果；意图分类模块，用于将所述多个子任务层针对所述样本数据输出的隐向量输入至意图分类层，以得到所述意图识别任务的预测结果；模型训练模块，用于根据所述多个子任务的预测结果和所述第二标签，以及所述意图识别任务的预测结果和所述第一标签，对所述多任务学习框架进行训练，以得到训练后的意图识别模型。

在本申请的一个实施例中，所述模型训练模块，包括：第一确定子模块，用于根据所述多个子任务的预测结果以及所述第二标签，确定所述多个子任务各自对应的第一损失函数值；第二确定子模块，用于根据所述意图识别任务的预测结果以及所述第一标签，确定所述意图识别任务的第二损失函数值；第三确定子模块，用于根据所述第一损失函数值以及所述第二损失函数值，确定所述多任务学习框架的总损失函数值；模型参数调整子模块，用于根据所述总损失函数值，调整所述多任务学习框架的模型参数，以得到训练后的意图识别模型。

在本申请的一个实施例中，所述第三确定子模块，具体用于：针对每个子任务，确定出所述子任务的预测结果和第二标签之间的方差；根据所述多个子任务层对应的方差，分别确定所述多个子任务对应的观测噪声；根据所述多个子任务对应的第一损失函数值和观测噪声，分别确定出所述多个子任务对应的第一中间损失函数值；根据所述第二损失函数值和所述第一中间损失函数值，确定所述多任务学习框架的总损失函数值。

在本申请的一个实施例中，所述多任务学习框架还包括：与所述多个子任务层均连接的词向量层、位于每两个相邻子任务层中间的共享层，所述子任务模块，具体用于：将所述样本数据输入至所述词向量层，以得到所述样本数据的词向量；将所述词向量输入至所述共享层，以通过所述共享层抽取对应相邻两个子任务之间的共同特征向量；针对每个子任务层，将所述词向量以及与所述子任务层对应的共享层的共同特征向量输入到所述子任务层中。

在本申请的一个实施例中，所述装置还包括：第二获取模块，用于获取与所述多个子任务各自对应的权重；处理模块，用于针对每个子任务层，将所述子任务层针对所述样本数据输出的隐向量，与对应子任务的权重进行相乘，以得到所述子任务层对应的新的隐向量；所述意图分类模块，具体用于：将所述多个子任务对应的新的隐向量输入到所述意图分类层。

本申请实施例的意图识别模型的训练装置，将训练数据中的样本数据输入至多任务学习框架中的多个子任务层，得到多个子任务对应的预测结果，将多个子任务层针对样本数据输出的隐向量输入至多任务学习框架中的意图分类层，以得到意图识别任务的预测结果，根据多个子任务的预测结果和第二标签，以及意图识别任务的预测结果和第一标签，对多任务学习框架进行训练，从而得到训练后的意图识别模型。由此，通过将与意图识别任务对应的多个子任务以及意图识别任务放进同一个多任务学习框架中进行联合训练，从而提高了训练效率，在训练、模型部署方面的开销都会小，降低了模型训练的成本的同时，可提高所训练的意图识别模型的准确性。

本申请另一方面实施例提出了一种意图识别装置，其特征在于，所述装置包括：获取模块，用于获取待处理数据；意图识别模块，用于将所述待处理数据输入到训练后的意图识别模型，以得到所述待处理数据的意图识别结果。

本申请实施例的意图识别装置，将待处理数据输入基于多学习任务框架而得到的意图识别模型，通过意图识别模型可以准确确定出意图识别任务对应的意图类别，进而可根据确定出的意图类型进行后续处理。。

本申请另一方面实施例提出了一种电子设备，包括：存储器，处理器；所述存储器中存储有计算机指令，当所述计算机指令被所述处理器执行时，实现本申请实施例的意图识别模型的训练方法，或者，实现本申请实施例的意图识别方法。

本申请另一方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请实施例公开的意图识别模型的训练方法，或者，实现本申请实施例的意图识别方法。

本申请另一方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时实现本申请实施例中的意图识别模型的训练方法，或者，实现本申请实施例的意图识别方法。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一个实施例的意图识别模型的训练方法的流程示意图。

图2是步骤104的细化流程示意图。

图3是多任务学习框架的网络结构的示意图。

图4是根据本申请另一个实施例的意图识别模型的训练方法的流程示意图。

图5是多任务学习框架的网络结构的示例图。

图6是根据本申请一个实施例的意图识别方法的流程示意图。

图7是根据本申请一个实施例的意图识别模型的训练装置的结构示意图。

图8是根据本申请另一个实施例的意图识别模型的训练装置的结构示意图。

图9是根据本申请一个实施例的意图识别装置的结构示意图。

图10是根据本申请一个实施例的电子设备的框图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的意图识别模型的训练方法、意图识别方法、装置、电子设备和存储介质。

如图1所示，该意图识别模型的训练方法可以包括：

步骤101，获取待训练意图识别模型对应的多任务学习框架以及对应的训练数据。

其中，需要说明的是，本实施例中的多任务学习框架包括：意图识别任务对应的意图分类层、与多个子任务分别对应的多个子任务层。

本实施例中的多个子任务层均连接的意图分类层。

其中，需要说明的是，上述与意图识别任务对应的多个任务，可以是根据对话场景中的业务类型而确定出的。

在一些实施例中，上述意图识别任务是与多个子任务中的每个子任务相关的，上述多个子任务也是相关的，在一些实施例中，两个任务用来预测的场景在语义上是近似的，或者是围绕同一相关的主题，或者两个任务用来预测的数据特征是相同的，但是具有不同的标签，例如，同一条文本“给你说了我不认识这个人你们能不能不要再给我打电话了”，从意图分类的角度来看该用户是不认识联系人，而从情感分析的角度来看，该用户的情感是消极的。

其中，训练数据包括样本数据以及对应的标签数据，其中，标签数据包括：意图识别任务对应的第一标签、以及多个子任务分别对应的第二标签。

可以理解的是，在实际的对话场景中，说话者的身份、所处环境、个人经历等一些身份信息也会对说话者的意图产生潜在的影响，为了可以对用户的意图进行准确识别，进而方便后续在智能客服中实现有针对性的定制化服务，本实施例中可将人群画像识别(客群识别)子任务作为一个与意图识别任务有关的子任务。

例如，对话场景的业务类型为催收业务类型，此时，意图识别任务对应的多个子任务可以包括主题抽取子任务、情感分析子任务以及人群画像识别(客群识别)子任务。

其中，需要说明的是，本实施例提供的意图识别模型的训练方法的执行主体为意图识别模型的训练装置，该意图识别模型的训练装置可以由软件和/或硬件的方式实现，该实施例中意图识别模型的训练装置可以配置在电子设备中，本实施例中的电子设备可以包括终端设备和服务器等设备，该实施例对电子设备不作具体限定。

步骤102，将样本数据输入至多个子任务层，得到多个子任务对应的预测结果。

在一些实施例中，上述每个子任务层可以是由双向的长短时记忆(Long Short-Term Memory，LSTM)网络。其中，该网络中包括多个双向的LSTM单元组成。

步骤103，将多个子任务层针对样本数据输出的隐向量输入至意图分类层，以得到意图识别任务的预测结果。

步骤104，根据多个子任务的预测结果和第二标签，以及意图识别任务的预测结果和第一标签，对多任务学习框架进行训练，以得到意图识别模型。

可以理解的是，在不同应用场景中，上述步骤104，根据多个子任务的预测结果和第二标签，以及意图识别任务的预测结果和第一标签，对多任务学习框架进行训练，以得到训练后的意图识别模型的实现方式不同，如图2所示，上述步骤104的一种可能实现方式，可以包括：

步骤201，根据多个子任务的预测结果以及第二标签，确定多个子任务各自对应的第一损失函数值。

步骤202，根据意图识别任务的预测结果以及第一标签，确定意图识别任务的第二损失函数值。

步骤203，根据第一损失函数值以及第二损失函数值，确定多任务学习框架的总损失函数值。

在本申请的一个实施例中，为了提高所训练出的模型的准确性，根据第一损失函数值以及第二损失函数值，确定多任务学习框架的总损失函数值的一种可能实现方式为：针对每个子任务，确定出子任务的预测结果和第二标签之间的方差；根据多个子任务层对应的方差，分别确定多个子任务对应的观测噪声；根据多个子任务对应的第一损失函数值和观测噪声，分别确定出多个子任务对应的第一中间损失函数值；根据第二损失函数值和第一中间损失函数值，确定多任务学习框架的总损失函数值。

在获取根据第二损失函数值和第一中间损失函数值后，可对多个子任务对应的第一中间损失函数值进行求和，以得到第二中间损失函数值；对第二中间损失函数值和第二损失函数值进行求和，作为总损失函数值。

例如，每个子任务输出的预测结果f_i ^w(x)，可以根据每个子任务的第二标签(即真实标签)yi计算得到损失函数值Li(w)。最终意图分类层的预测结果f^w(x)，客户意图的第一标签(真实标签)为y，可以计算得到意图识别任务对应的损失函数值Ls(w)。然后，可以基于最大高斯似然估计得到多任务学习框架的总损失函数值L(w,σ₁,σ₂,...,σ_i)，其中σ_i是第i个子任务对应的观测噪声，σ_i与输入向量在通过第i个子任务对应的子任务层后输出的方差有关。针对总损失函数值进行反向传播，更新多任务学习框架各层网络参数。

L_i(w)＝-logsoftmax(y_i,f_i ^w(x))

L_s(w)＝-logsoftmax(y,f^w(x))

其中，上述公式中的L_i(w)，表示第i个子任务对应的损失函数值，L_s(w)表示意图识别任务对应的损失函数值。

步骤204，根据总损失函数值，调整多任务学习框架的模型参数，以得到训练后的意图识别模型。

其中，上述模型参数可以包括意图分类层的参数，以及子任务层的参数等。

作为一种示例性的实施方式，可根据总损失函数值，调整多任务学习框架中各层的参数，并基于对调整后的多任务学习框架进行训练，直至训练后的多任务学习框架中的总损失函数值满足预设条件(例如，总损失函数值达到最小值，或者，总损失函数值收敛，)，以得到训练后的意图识别模型。

在本实施例中，结合多个子任务各自对应的第一损失函数值，以及多个子任务的预测结果以及第二标签，确定多个子任务各自对应的第一损失函数值，确定出多任务学习框架的总损失函数值。由此，结合子任务和意图识别任务的误差，来对多任务学习框架的模型参数进行调整，可以将从所有任务中学习的知识融合在网络中，提高了模型的准确性。

在本申请的一个实施例中，上述步骤104的另一种可能的实现方式为：可将多个子任务的预测结果和第二标签，以及意图识别任务的预测结果和第一标签，输入到用于计算多个任务学习模型的总损失函数值的计算公式，以通过该计算公式得到多任务学习框架的总损失函数值，根据总损失函数值，对多任务学习框架的模型参数进行调整，以得到训练后的意图识别模型。

基于上述任意一个实施例的基础上，为了在训练中引入其他任务的信息，阻止了模型对有限的数据进行过拟合，从而增强了整个模型的泛化能力，提升学习速率。本实施例中的多任务学习框架还可以包括：与多个子任务层均连接的词向量层、位于每两个相邻子任务层中间的共享层，将样本数据输入至多个子任务层。其中，多任务学习框架的网络结构的示意图，如图3所示。

为了使得本领域的技术人员清楚地了解本申请，下面结合图3以及图4对该实施例的意图识别模型的训练方法进行进一步描述。

如图4所示，意图识别模型的训练方法可以包括：

步骤401，获取待训练意图识别模型对应的多任务学习框架以及对应的训练数据。

其中，所述多任务学习框架包括：意图识别任务对应的意图分类层、与多个子任务分别对应的多个子任务层，其中，所述多个子任务层均与所述意图分类层连接，所述训练数据包括样本数据以及对应的标签数据，其中，所述标签数据包括：所述意图识别任务对应的第一标签、以及所述多个子任务分别对应的第二标签。

步骤402，将样本数据输入至词向量层，以得到样本数据的词向量。

步骤403，将词向量输入至共享层，以通过共享层抽取对应相邻两个子任务之间的共同特征向量。

在一些实施例中，上述共享层可以是由LSTM网络构成的，共享层用于抽取任务件的共同的特征向量。

步骤404，针对每个子任务层，将词向量以及与子任务层对应的共享层的共同特征向量输入到子任务层中，以得到子任务对应的预测结果。

步骤405，将多个子任务层针对样本数据输出的隐向量输入至意图分类层，以得到意图识别任务的预测结果。

在本申请的一个实施例中，可以理解的是，为了适应意图分类层的不同意图类别，本实施例中每个子任务拥有不用的权重，在将多个子任务层针对样本数据输出的隐向量输入至意图分类层之前，该方法还可以包括：获取与多个子任务各自对应的权重；针对每个子任务层，将子任务层针对样本数据输出的隐向量，与对应子任务的权重进行相乘，以得到子任务层对应的新的隐向量。对应地，将多个子任务对应的新的隐向量输入到意图分类层。

在本实施例中，为了使得意图分类层可以准确确定出的用户意图，上述意图分类层可以包括基于注意力机制的长短时记忆(Long Short-Term Memory Long Short-TermMemory，LSTM)网络以及softmax层。

在一些实施例中，在将每个子任务的输出将经过一个注意力机制加持的LSTM网络，每个子任务拥有不同的权重α以适应不同的类别，输出经过softmax层后可转化成每个意图类别的预测概率，并根据每个意图类别的预测概率，确定出预测的目标意图类别。

步骤406，根据多个子任务的预测结果和第二标签，以及意图识别任务的预测结果和第一标签，对多任务学习框架进行训练，以得到训练后的意图识别模型。

其中，关于步骤406的具体实现方式，可参见上述实施例中的相关描述，此处不再赘述。

在本实施例中，在子任务层之间加入了共享层，在预测子任务标签的时候也使用到了共享层的输出。由此，在训练中引入其他任务的信息，相当于向数据中添加了合理的“噪音”，正是这些噪音阻止了模型对有限的数据进行过拟合，从而增强了整个模型的泛化能力，提升了学习速率。

为了使得本领域技术人员可以清楚了解本申请，下面结合一个具体的场景对本实施例的意图识别模型的训练方法进行进一步阐述。在本实施例中，以催收机器人的对话场景为例，并且，与意图识别任务对应的多个子任务为三个，分别为主题抽取子任务、情感分析子任务以及人群画像识别(客群识别)子任务，为例进行描述。其中，多任务学习框架的网络结构的示例图，如图5所示。其中，网络结构的用户和催收机器人交互时说的每一句话，输出是该句话对应的意图类别。

对多任务学习框架的网络结构的各部分的说明如下：

1)整个网络最上面的子任务为主题抽取子任务，中间部分为情感分析子任务，最下面的部分为客群识别子任务，三个部分都是通过不同的任务类型来学习任务特定的表征。这三类任务都和意图识别有一定的相关性，在选取相关任务的时候，要注意两个任务用来预测的场景在语义上是近似的，或者是围绕同一相关的主题，就可以认为任务是相关的；或者两个任务用来预测的数据特征是相同的，但是具有不同的标签，比如同一条文本“给你说了我不认识这个人你们能不能不要再给我打电话了”，从意图分类的角度来看该用户是不认识联系人，而从情感分析的角度来看，该用户的情感是消极的。

2)这三个子任务的输入都是用户语句经过分词之后每个词的one-hot表示，通过一个初始共享的embedding层之后句子里的每个词都转化成一个向量表示(x1,x2…xn)，之后会作为双向LSTM网络输入的一部分最后得到每个子任务的输出hSn，hRn，hTn。每个子任务的真实标签可以通过先验知识和辅助任务得到，比如情感分析可以由情感词典打分来得到标签，主题抽取的标签可以将客户的意图进行分类标注后得到。

3)每两个子任务中间的共享层由LSTM网络构成，用于抽取任务间共同的表征。共享层的输出也将作为双向LSTM网络的一部分输入来预测每个子任务的类别。我们选取最后一个时间步长timestep的隐藏层状态hidden state作为该句文本的向量表示(xt作为每个timestep的输入，ht作为第t步的输出)。

4)每个子任务的输出将经过一个注意力机制加持的LSTM网络，每个子任务拥有不同的权重α以适应不同的类别，输出经过softmax层后可转化成每个意图类别的预测概率。每个子任务输出的预测结果f_i ^w(x)，可以根据每个子任务的真实标签yi计算得到损失函数Li(w)。最终线性层的预测结果f^w(x)，客户意图的真实标签为y，可以计算得到损失函数Ls(w)。然后可以基于最大高斯似然估计得到多任务损失函数L(w,σ₁,σ₂,...,σ_i)，其中σ_i是第i个子任务对应的观测噪声，σ_i与输入向量在通过第i个子任务对应的子任务层后输出的方差有关。针对总损失函数值进行反向传播，更新多任务学习框架各层网络参数。

L_i(w)＝-logsoftmax(y_i,f_i ^w(x))

L_s(w)＝-logsoftmax(y,f^w(x))

确定训练后的多任务学习框架收敛或者的准确率满足预设条件，则将当前的多任务学习框架作为训练后的意图识别模型。

本实施例还提出了一种基于上述训练方法而得到意图识别模型所进行的意图识别方法。

图6是根据本申请一个实施例的意图识别方法的流程示意图。

如图6所示，该意图识别方法可以包括：

步骤601，获取待处理数据。

在本实施例中，上述待处理数据可以为对话场景中的对话信息。

步骤602，将待处理数据输入到训练后的意图识别模型，以得到待处理数据的意图识别结果。

其中，可以理解的是，本实施例中训练后的多任务学习框架的模型结构与上述训练过程中的多任务学习框架的模型结构相同，本实施例对此不再赘述。

本申请实施例的意图识别方法，将待处理数据输入到训练后的多任务学习框架，通过多任务学习框架可以准确确定出意图识别任务对应的意图类别以及各个子任务对应的标签结果。由此，通过一个多任务学习框架即可得到多个任务的处理结果，可以减少计算量，节省计算资源。

与上述几种实施例提供的意图识别模型的训练方法相对应，本申请的一种实施例还提供一种意图识别模型的训练装置，由于本申请实施例提供的意图识别模型的训练装置与上述几种实施例提供的意图识别模型的训练方法相对应，因此在意图识别模型的训练方法的实施方式也适用于本实施例提供的意图识别模型的训练装置，在本实施例中不再详细描述。

如图7所示，该意图识别模型的训练装置700可以包括：

第一获取模块701，用于获取待训练意图识别模型对应的多任务学习框架以及对应的训练数据，其中，所述多任务学习框架包括：意图识别任务对应的意图分类层、与多个子任务分别对应的多个子任务层，其中，所述多个子任务层均与所述意图分类层连接，所述训练数据包括样本数据以及对应的标签数据，其中，所述标签数据包括：所述意图识别任务对应的第一标签、以及所述多个子任务分别对应的第二标签。

子任务模块702，用于将样本数据输入至多个子任务层，得到多个子任务对应的预测结果。

意图分类模块703，用于将多个子任务层针对样本数据输出的隐向量输入至意图分类层，以得到意图识别任务的预测结果。

模型训练模块704，用于根据多个子任务的预测结果和第二标签，以及意图识别任务的预测结果和第一标签，对多任务学习框架进行训练，以得到训练后的意图识别模型。

在本申请的一个实施例中，在上述图7所示的基础上，如图8所示，上述模型训练模块704，包括：

第一确定子模块7041，用于根据多个子任务的预测结果以及第二标签，确定多个子任务各自对应的第一损失函数值。

第二确定子模块7042，用于根据意图识别任务的预测结果以及第一标签，确定意图识别任务的第二损失函数值。

第三确定子模块7043，用于根据第一损失函数值以及第二损失函数值，确定多任务学习框架的总损失函数值。

模型参数调整子模块7044，用于根据总损失函数值，调整多任务学习框架的模型参数，以得到训练后的意图识别模型。

在本申请的一个实施例中，第三确定子模块7043，具体用于：针对每个子任务，确定出子任务的预测结果和第二标签之间的方差；根据多个子任务层对应的方差，分别确定多个子任务对应的观测噪声；根据多个子任务对应的第一损失函数值和观测噪声，分别确定出多个子任务对应的第一中间损失函数值；根据第二损失函数值和第一中间损失函数值，确定多任务学习框架的总损失函数值。

在本申请的一个实施例中，多任务学习框架还包括：与多个子任务层均连接的词向量层、位于每两个相邻子任务层中间的共享层。本实施例的子任务模块702，具体用于：将样本数据输入至词向量层，以得到样本数据的词向量；将词向量输入至共享层，以通过共享层抽取对应相邻两个子任务之间的共同特征向量；针对每个子任务层，将词向量以及与子任务层对应的共享层的共同特征向量输入到子任务层中。

在本申请的一个实施例中，如图8所示，该装置还可以包括：

第二获取模块705，用于获取与多个子任务各自对应的权重。

处理模块706，用于针对每个子任务层，将子任务层针对样本数据输出的隐向量，与对应子任务的权重进行相乘，以得到子任务层对应的新的隐向量。

上述意图分类模块703，具体用于：将多个子任务对应的新的隐向量输入到意图分类层。

图9是根据本申请一个实施例的意图识别装置的结构示意图。

如图9所示，该意图识别装置900可以包括：

获取模块901，用于获取待处理数据；

意图识别模块902，用于将所述待处理数据输入到训练后的意图识别模型，以得到所述待处理数据的意图识别结果。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图10所示，是根据本申请一个实施例的电子设备的框图。

如图10所示，该电子设备该电子设备包括：

存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机指令。

处理器1002执行指令时实现上述实施例中提供的意图识别模型的训练方法，或者，意图识别方法。

进一步地，电子设备还包括：

通信接口1003，用于存储器1001和处理器1002之间的通信。

存储器1001，用于存放可在处理器1002上运行的计算机指令。

存储器1001可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器1002，用于执行程序时实现上述实施例的意图识别模型的训练方法，或者，意图识别方法。

如果存储器1001、处理器1002和通信接口1003独立实现，则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1001、处理器1002及通信接口1003，集成在一块芯片上实现，则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。

处理器1002可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请还提出一种计算机程序产品，当计算机程序产品中的处理器执行时实现本申请实施例的意图识别模型的训练方法，或者，实现本申请实施例的意图识别方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种意图识别模型的训练方法，其特征在于，所述方法包括：

获取待训练意图识别模型对应的多任务学习框架以及对应的训练数据，其中，所述多任务学习框架包括：意图识别任务对应的意图分类层、与多个子任务分别对应的多个子任务层，其中，所述多个子任务层均与所述意图分类层连接，所述训练数据包括样本数据以及对应的标签数据，其中，所述标签数据包括：所述意图识别任务对应的第一标签、以及所述多个子任务分别对应的第二标签；

将所述样本数据输入至所述多个子任务层，得到所述多个子任务对应的预测结果；

将所述多个子任务层针对所述样本数据输出的隐向量输入至意图分类层，以得到所述意图识别任务的预测结果；

根据所述多个子任务的预测结果以及所述第二标签，确定所述多个子任务各自对应的第一损失函数值；

根据所述意图识别任务的预测结果以及所述第一标签，确定所述意图识别任务的第二损失函数值；

根据所述第一损失函数值以及所述第二损失函数值，确定所述多任务学习框架的总损失函数值；

根据所述总损失函数值，调整所述多任务学习框架的模型参数，以得到训练后的意图识别模型。

2.如权利要求1所述的方法，其特征在于，所述根据所述第一损失函数值以及所述第二损失函数值，确定所述多任务学习框架的总损失函数值，包括：

针对每个子任务，确定出所述子任务的预测结果和第二标签之间的方差；

根据所述多个子任务层对应的方差，分别确定所述多个子任务对应的观测噪声；

根据所述多个子任务对应的第一损失函数值和观测噪声，分别确定出所述多个子任务对应的第一中间损失函数值；

根据所述第二损失函数值和所述第一中间损失函数值，确定所述多任务学习框架的总损失函数值。

3.如权利要求1所述的方法，其特征在于，所述多任务学习框架还包括：与所述多个子任务层均连接的词向量层、位于每两个相邻子任务层中间的共享层，所述将所述样本数据输入至所述多个子任务层，包括：

将所述样本数据输入至所述词向量层，以得到所述样本数据的词向量；

将所述词向量输入至所述共享层，以通过所述共享层抽取对应相邻两个子任务之间的共同特征向量；

针对每个子任务层，将所述词向量以及与所述子任务层对应的共享层的共同特征向量输入到所述子任务层中。

4.如权利要求1所述的方法，其特征在于，在所述将所述多个子任务层针对所述样本数据输出的隐向量输入至意图分类层之前，所述方法还包括：

获取与所述多个子任务各自对应的权重；

针对每个子任务层，将所述子任务层针对所述样本数据输出的隐向量，与对应子任务的权重进行相乘，以得到所述子任务层对应的新的隐向量；

所述将所述多个子任务层针对所述样本数据输出的隐向量输入至意图分类层，包括：

将所述多个子任务对应的新的隐向量输入到所述意图分类层。

5.一种基于如权利要求1-4任一项所述的方法训练得到的意图识别模型所进行的意图识别方法，其特征在于，所述方法包括：

获取待处理数据；

将所述待处理数据输入到训练后的意图识别模型，以得到所述待处理数据的意图识别结果。

6.一种意图识别模型的训练装置，其特征在于，所述装置包括：

第一获取模块，用于获取待训练意图识别模型对应的多任务学习框架以及对应的训练数据，其中，所述多任务学习框架包括：意图识别任务对应的意图分类层、与多个子任务分别对应的多个子任务层，其中，所述多个子任务层均与所述意图分类层连接，所述训练数据包括样本数据以及对应的标签数据，其中，所述标签数据包括：所述意图识别任务对应的第一标签、以及所述多个子任务分别对应的第二标签；

子任务模块，用于将所述样本数据输入至所述多个子任务层，得到所述多个子任务对应的预测结果；

意图分类模块，用于将所述多个子任务层针对所述样本数据输出的隐向量输入至意图分类层，以得到所述意图识别任务的预测结果；

模型训练模块，用于根据所述多个子任务的预测结果和所述第二标签，以及所述意图识别任务的预测结果和所述第一标签，对所述多任务学习框架进行训练，以得到训练后的意图识别模型；

其中，所述模型训练模块，包括：

第一确定子模块，用于根据所述多个子任务的预测结果以及所述第二标签，确定所述多个子任务各自对应的第一损失函数值；

第二确定子模块，用于根据所述意图识别任务的预测结果以及所述第一标签，确定所述意图识别任务的第二损失函数值；

第三确定子模块，用于根据所述第一损失函数值以及所述第二损失函数值，确定所述多任务学习框架的总损失函数值；

模型参数调整子模块，用于根据所述总损失函数值，调整所述多任务学习框架的模型参数，以得到训练后的意图识别模型。

7.如权利要求6所述的装置，其特征在于，所述第三确定子模块，具体用于：

8.如权利要求6所述的装置，其特征在于，所述多任务学习框架还包括：与所述多个子任务层均连接的词向量层、位于每两个相邻子任务层中间的共享层，所述子任务模块，具体用于：

9.如权利要求6所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取与所述多个子任务各自对应的权重；

处理模块，用于针对每个子任务层，将所述子任务层针对所述样本数据输出的隐向量，与对应子任务的权重进行相乘，以得到所述子任务层对应的新的隐向量；

所述意图分类模块，具体用于：

10.一种基于如权利要求1-4任一项所述的方法训练得到的多任务学习框架所进行的意图识别装置，其特征在于，所述装置包括：

获取模块，用于获取待处理数据；

意图识别模块，用于将所述待处理数据输入到训练后的意图识别模型，以得到所述待处理数据的意图识别结果。

11.一种电子设备，包括：存储器，处理器；所述存储器中存储有计算机指令，当所述计算机指令被所述处理器执行时，实现如权利要求1-4中任一项所述的意图识别模型的训练方法，或者，如权利要求5所述的意图识别方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的意图识别模型的训练方法，或者，如权利要求5所述的意图识别方法。