CN111144124A

CN111144124A - 机器学习模型的训练方法、意图识别方法及相关装置、设备

Info

Publication number: CN111144124A
Application number: CN201811303694.0A
Authority: CN
Inventors: 晏小辉
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2020-05-12
Anticipated expiration: 2038-11-02
Also published as: CN111144124B

Abstract

本申请实施例公开了人工智能领域中的一种机器模型训练方法、意图识别方法及相关装置，该方法包括：根据训练样本对胶囊网络模型进行训练，训练过程包括：根据第一激活向量与第一预测向量的相似度迭代调整第一预测向量所对应的当前权重系数；其中，第一激活向量为多个预测向量加权相加，表示训练文本的意图预测为第一真实意图的概率；第一预测向量表示第一语义特征对第一真实意图的贡献。进而，使得与第一激活向量相似度大的预测向量所对应的权重系数变大，进而筛选出与第一激活向量相似度大的预测向量对应的语义特征，过滤与第一激活向量相似度小的预测向量对应的语义特征，实现筛选出关联度高的语义特征构成意图，提高模型的意图识别的准确性。

Description

机器学习模型的训练方法、意图识别方法及相关装置、设备

技术领域

本申请涉及机器学习技术领域，尤其涉及一种用于识别意图的胶囊网络模型的训练方法、用于识别意图的组合机器学习模型的训练方法、意图识别方法及相关装置、设备。

背景技术

随着人工智能技术的发展，对话系统已经应用在越来越多的电子设备中，如手机、智能助手、智能音箱、智能车载设备、智能机器人等。对话系统为用户提供了一种通过语音直接和机器进行对话的交互方式，比传统的点击或触摸方式更具便利性和灵活性。在与机器的通过对话进行交互的过程中，准确识别用户话语背后的意图是对话流程正确执行的关键。如果意图识别有误，机器会出现答非所问或者执行错误的指令。

现有的意图识别方法可以包括两类：基于检索的方案和基于分类的方案。

基于检索的意图识别方法的基本原理是：针对每个意图，人工枚举其可能的说法，构造一个意图说法数据库；当介绍到用户输入待识别话语时，从意图说法数据库中检索出与待识别话语最相似的说法；确定该最相似的说法对应的意图即为用户的意图。然而，由于意图表达的多样性，人工很难以枚举各个意图的所有可能说法。短文本检索以及短文本相似度计算准确度较低，进而导致意图识别准确性低。

基于分类器的意图识别方法的基本原理是：构造一些训练样本，即对于每个意图，构造一些示例说法；用训练样本来训练训练分类器，得到训练后的分类器；进而，通过训练后的分类器对待识别话语进行意图预测。该方法通过应用机器学习模型，泛化能力能更好，不需要枚举所有可能的说法，可直接预测意图分类类别，但其意图识别的准确性差。

发明内容

本申请实施例提供一种用于识别意图的胶囊网络模型的训练方法、用于识别意图的组合机器学习模型的训练方法、意图识别方法及相关装置、设备，可提高意图识别的准确性。

第一方面，本申请实施例提供了一种用于识别意图的胶囊网络模型的训练方法，所述方法包括：

计算设备接收训练样本，所述训练样本包括训练文本和所述训练文本的真实意图，其中，多个所述训练样本中的真实意图组成真实意图集合；

从所述训练文本中提取多个语义特征；

根据胶囊网络模型的当前模型参数对所述多个语义特征进行处理，得到所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率；

所述处理包括：根据多个预测向量的加权和得到第一激活向量；根据所述第一激活向量与第一预测向量的相似度调整所述第一预测向量所对应的当前权重系数；其中，所述多个预测向量中的任意一个预测向量用于表示所述多个语义特征中的一个语义特征对所述第一真实意图的贡献，所述第一预测向量表示第一语义特征对所述第一真实意图的贡献，所述第一语义特征为所述多个语义特征中的任意一个语义特征；所述第一激活向量表示所述训练文本的意图预测为所述第一真实意图的概率；所述第一真实意图为所述真实意图集合中的任意一个真实意图；

将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型，调节所述胶囊网络模型的当前模型参数。

可见，执行上述方法，在模型训练的过程中，根据第一激活向量与第一预测向量的相似度迭代调整第一预测向量所对应的当前权重系数，使得与第一激活向量相似度大的预测向量所对应的权重系数变大，进而筛选出该与第一激活向量相似度大的预测向量对应的语义特征，以及，使得与第一激活向量相似度小的预测向量所对应的权重系数变小，进而过滤掉与第一激活向量相似度小的预测向量对应的语义特征，实现筛选出关联度高的语义特征构成意图，提高模型的意图识别的准确性。

在本申请实施例一种可能的实现中，所述将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型，调节所述胶囊网络模型的当前模型参数，包括：

根据第一误差和第二误差确定损失函数；其中，所述第一误差为正类间隔与所述训练文本的意图预测为所述训练样本的真实意图的概率之间的误差，所述第二误差包括负类间隔分别与所述训练文本的意图预测不为所述训练样本的真实意图的概率之间的误差；

根据所述损失函数所确定的梯度反向传播到所述胶囊网络模型，调节所述胶囊网络模型的当前模型参数。

可选地，所述损失函数为：

其中，L为所述损失函数，m⁺-||v_k||为所述第一误差，||v_k||-m^-为所述第二误差，y为所述训练文本的真实意图，k为所述真实意图集合中真实意图的索引，y_k为所述真实意图集合中的真实意图k；当y＝y_k时，[[y＝y_k]]＝1；当y≠y_k时，[[y＝y_k]]＝0；当y≠y_k时，[[y≠y_k]]＝1；当 y＝y_k时，[[y≠y_k]]＝0；m⁺为正类间隔，m^-为负类间隔，||v_k||为所述训练文本的意图预测为所述真实意图k的概率。

在本申请实施例一种可能的实现中，所述根据多个预测向量的加权和得到第一激活向量之前，所述处理还包括：所述根据胶囊网络模型的当前模型参数和所述多个语义特征得到所述多个预测向量；

所述根据多个预测向量的加权和得到第一激活向量，具体包括：对所述多个预测向量依次进行加权求和以及挤压(squash)操作得到所述第一激活向量。

在本申请实施例一种可能的实现中，所述方法还包括：

计算所述真实意图集合中每一个真实意图和零样本意图集合中每一个零样本意图的相似度，得到意图相似度矩阵；

其中，所述零样本意图集合与所述真实意图集合的交集为空集；所述意图相似度矩阵包括第一相似度集合；所述第一相似度集合包括所述真实意图集合中每一个真实意图分别与第一零样本意图的相似度，用于计算所述多个语义特征分别对所述第一零样本意图的贡献；所述第一语义特征对所述第一零样本意图的贡献为根据所述第一语义特征分别对所述真实意图集合中每一个真实意图的贡献和所述第一相似度集合得到。

第二方面，本申请实施例提供了一种用于识别意图的组合机器学习模型的训练方法，所述组合机器学习模型包括语义特征提取模型和胶囊网络模型，所述方法包括：

接收训练样本，所述训练样本包括训练文本和所述训练文本的真实意图，其中，多个所述训练样本中的真实意图组成真实意图集合；

根据所述语义特征提取模型的当前模型参数对所述训练文本进行特征提取，得到多个语义特征；

根据所述胶囊网络模型的当前模型参数对所述多个语义特征进行处理，得到所述训练文本的意图预测为真实意图集合中每一个真实意图的概率；

所述处理包括：根据多个预测向量的加权和得到第一激活向量；根据所述第一激活向量与第一预测向量的相似度调整所述第一预测向量所对应的当前权重系数；其中，所述多个预测向量中的任意一个预测向量用于表示所述多个语义特征中的一个语义特征对所述第一真实意图的贡献，所述第一预测向量表示第一语义特征对所述第一真实意图的贡献，所述第一语义特征为所述多个语义特征中的任意一个语义特征；所述第一激活向量表示所述训练文本的意图预测为第一真实意图的概率；所述第一真实意图为所述真实意图集合中的任意一个真实意图；

将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型和语义特征提取模型，调节所述意图网络模型的当前模型参数和所述语义特征提取模型的当前模型参数。

通过执行上述方法，根据第一激活向量与第一预测向量的相似度迭代调整第一预测向量所对应的当前权重系数，使得与第一激活向量相似度大的预测向量所对应的权重系数变大，进而筛选出该与第一激活向量相似度大的预测向量对应的语义特征，以及，使得与第一激活向量相似度小的预测向量所对应的权重系数变小，进而过滤掉与第一激活向量相似度小的预测向量对应的语义特征，实现筛选出关联度高的语义特征构成意图，提高模型的意图识别的准确性。

可选地，所述语义特征提取模型为自注意机制神经网络模型，所述根据所述语义特征提取模型的当前模型参数，通过所述语义特征提取模型对所述训练文本进行处理，得到多个语义特征，具体包括：

M＝A·H；

A＝soft max(W_s2tanh(W_s1H^T))

其中，M为所述多个语义特征的向量组成的矩阵，H为所述训练文本中所有的文字的向量组成的矩阵，A为权重矩阵，W_s1、W_s2为所述语义特征提取模型的当前模型参数

根据第一误差和第二误差确定损失函数；其中，所述第一误差为正类间隔与所述训练文本的意图预测为所述训练样本的真实意图的概率的误差，所述第二误差包括负类间隔分别与所述训练文本的意图预测不为所述训练样本的真实意图的概率的误差；

根据所述损失函数所确定的梯度反向传播到所述胶囊网络模型和语义特征提取模型，调节所述意图网络模型的当前模型参数和所述语义特征提取模型的当前模型参数。

可选地，所述损失函数：

在本申请实施例一种可能的实现中，所述组合机器学习模型还包括意图关联层，所述方法还包括：

第三方面，本申请实施例还提供了一种意图识别方法，包括：

从待识别文本中提取多个语义特征；

通过胶囊网络模型对所述多个语义特征进行处理，得到所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率；

所述处理过程包括：根据第一预测向量集合中的每一个预测向量的加权和得到第一激活向量；根据所述第一激活向量与第一预测向量的相似度调整所述第一预测向量所对应的当前权重系数；其中，所述第一预测向量集合中的任意一个预测向量用于表示所述多个语义特征中的一个语义特征对所述第一真实意图的贡献，所述第一预测向量表示第一语义特征对所述第一真实意图的贡献，所述第一语义特征为所述多个语义特征中的任意一个语义特征；所述第一激活向量表示所述待识别文本的意图预测为所述第一真实意图的概率；所述第一真实意图为所述真实意图集合中的任意一个真实意图；所述真实意图集合为所有训练样本中的真实意图的集合，所述训练样本用于训练所述胶囊网络模型；

根据所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率确定所述待识别文本的意图识别结果。

可见，本申请时实施例在意图识别的过程中，根据第一激活向量与第一预测向量的相似度迭代调整第一预测向量所对应的当前权重系数，使得与第一激活向量相似度大的预测向量所对应的权重系数变大，进而筛选出该与第一激活向量相似度大的预测向量对应的语义特征，以及，使得与第一激活向量相似度小的预测向量所对应的权重系数变小，进而过滤掉与第一激活向量相似度小的预测向量对应的语义特征，实现筛选出关联度高的语义特征构成意图，提高模型的意图识别的准确性。

在本申请实施例一种可能的实现中，所述根据第一预测向量集合中的每一个预测向量加权和得到第一激活向量之前，所述处理还包括：所述根据所述胶囊网络模型的模型参数和所述多个语义特征得到所述第一预测向量集合；

所述根据第一预测向量集合中的预测向量的加权和得到第一激活向量，具体包括：对所述第一预测向量集合中的预测向量进行依次加权和以及挤压(squash)操作得到所述第一激活向量。

在本申请实施例一种可能的实现中，所述根据所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率确定所述待识别文本的意图识别结果，包括：

确定概率最大值对应的真实意图为所述待识别文本的意图识别结果。

在本申请实施例一种可能的实现中，所述方法还包括：

计算所述待识别文本的意图预测为零样本意图集合中的每一个零样本意图的概率，所述零样本意图集合与所述真实意图集合的交集为空集；

所述根据所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率确定所述待识别文本的意图识别结果，包括：确定所述真实意图集合和所述零样本意图集合中概率最大值对应的的意图为所述待识别文本的意图识别结果。

在第一概率集合中的概率最大值大于第一阈值时，确定所述概率最大值对应的真实意图为所述待识别文本的意图识别结果，其中，所述第一概率集合为所述待识别文本的意图预测为所述真实意图集合中的每一个真实意图的概率组成的集合。

可选地，所述根据所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率确定所述待识别文本的意图识别结果，还包括：

在所述第一概率集合中的概率最大值不大于第一阈值时，计算所述待识别文本的意图预测为零样本意图集合中的每一个零样本意图的概率，其中，所述零样本意图集合与所述真实意图集合的交集为空集；

在第二概率集合中的概率最大值大于第二阈值时，确定所述概率最大值对应的零样本意图为所述待识别文本的意图识别结果，其中，所述第二概率集合为所述待识别文本的意图预测为所述零样本意图集合中的每一个零样本意图的概率组成的集合。

在本申请实施例一种可能的实现中，所述计算所述待识别文本的意图预测为零样本意图集合中的每一个零样本意图的概率包括：

根据第二预测向量集合中的每一个预测向量的加权和得到第二激活向量，所述第二激活向量与第二预测向量的相似度调整所述第二预测向量对应的当前权重系数；其中，所述第二预测向量集合中的任意一个预测向量用于表示所述多个语义特征中的一个语义特征对所述第一零样本意图的贡献，所述第二预测向量表示所述第一语义特征对第一零样本意图的贡献，所述第二激活向量表示所述待识别文本的意图预测为所述第一零样本意图的概率；所述第一零样本意图为所述零样本意图集合中的任意一个零样本意图。

在本申请实施例一种可能的实现中，根据第二预测向量集合中的预测向量的加权和得到第二激活向量之前，所述方法还包括：根据第三预测向量集合中的每一个预测向量，所述第三预测向量集合中每一个预测向量对应权重系数和所述真实意图集合中每一个真实意图与所述第一零样本意图的相似度计算所述第二预测向量；其中，所述第三预测向量集合中的任意一个预测向量表示所述第一语义特征对所述真实意图集合中的一个真实意图的贡献；

所述根据第二预测向量集合中的预测向量的加权和得到第二激活向量，具体包括：对所述第二预测向量集合中的预测向量依次进行加权求和和挤压(squash)操作得到所述第二激活向量。

通过执行上述方法，根据意图相似度矩阵，将语义特征对真实意图集合中的每一个真实意图的贡献路由得到语义特征对无样本意图集合中每一个无样本意图的贡献，进而实现对无样本意图集合中的无样本意图的识别。

第四方面，本申请实施例提供了一种模型训练装置，所述模型训练装置包括：

接收单元，用于接收训练样本，所述训练样本包括训练文本和所述训练文本的真实意图，其中，多个所述训练样本中的真实意图组成真实意图集合；

提取单元，用于：从所述训练文本中提取多个语义特征；

预测单元，用于根据胶囊网络模型的当前模型参数对所述多个语义特征进行处理，得到所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率；

训练单元，用于将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型，调节所述胶囊网络模型的当前模型参数；

其中，所述处理包括：根据多个预测向量的加权和得到第一激活向量；根据所述第一激活向量与第一预测向量的相似度调整所述第一预测向量所对应的当前权重系数；其中，所述多个预测向量中的任意一个预测向量用于表示所述多个语义特征中的一个语义特征对所述第一真实意图的贡献，所述第一预测向量表示第一语义特征对所述第一真实意图的贡献，所述第一语义特征为所述多个语义特征中的任意一个语义特征；所述第一激活向量表示所述训练文本的意图预测为所述第一真实意图的概率；所述第一真实意图为所述真实意图集合中的任意一个真实意图。

在本申请实施例一种可能的实现中，所述训练单元具体用于：

在本申请实施例一种可能的实现中，所述损失函数为：

在本申请实施例一种可能的实现中，所述预测单元还用于：在所述根据多个预测向量的加权和得到第一激活向量之前，所述根据胶囊网络模型的当前模型参数和所述多个语义特征得到所述多个预测向量；

所述预测单元执行所述根据多个预测向量的加权和得到第一激活向量，具体用于：对所述多个预测向量依次进行加权求和以及挤压(squash)操作得到所述第一激活向量。

在本申请实施例一种可能的实现中，所述装置还包括：

意图关联单元，用于计算所述真实意图集合中每一个真实意图和零样本意图集合中每一个零样本意图的相似度，得到意图相似度矩阵；

第五方面，本申请实施例还提供了一种模型训练装置，所述装置用于训练组合机器学习模型，所述组合机器学习模型包括语义特征提取模型和胶囊网络模型，所述装置包括：

接收单元，用于：接收训练样本，所述训练样本包括训练文本和所述训练文本的真实意图，其中，多个所述训练样本中的真实意图组成真实意图集合；

特征提取单元，用于：根据所述语义特征提取模型的当前模型参数对所述训练文本进行特征提取，得到多个语义特征；

预测单元，用于根据所述胶囊网络模型的当前模型参数对所述多个语义特征进行处理，得到所述训练文本的意图预测为真实意图集合中每一个真实意图的概率；

训练单元，用于：将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型和语义特征提取模型，调节所述意图网络模型的当前模型参数和所述语义特征提取模型的当前模型参数。

在本申请实施例一种可能的实现中，

所述语义特征提取模型为自注意机制神经网络模型，所述特征提取单元，具体用于：

M＝A·H；

A＝soft max(W_s2tanh(W_s1H^T))

其中，M为所述多个语义特征的向量组成的矩阵，H为所述训练文本中所有的文字的向量组成的矩阵，A为权重矩阵，W_s1、W_s2为所述语义特征提取模型的当前模型参数。

在本申请实施例一种可能的实现中，所述损失函数：

在本申请实施例一种可能的实现中，所述预测单元还用于：在根据多个预测向量的加权和得到第一激活向量之前所述根据胶囊网络模型的当前模型参数和所述多个语义特征得到所述多个预测向量；

所述预测单元执行所述根据多个预测向量的加权和得到第一激活向量，具体包括执行：对所述多个预测向量依次进行加权求和以及挤压(squash)操作得到所述第一激活向量。

在本申请实施例一种可能的实现中，所述组合机器学习模型还包括意图关联层，所述装置还包括：

第六方面，本申请实施例还提供了一种意图识别装置，其特征在于，包括：

特征提取单元，用于从待识别文本中提取多个语义特征；

第一预测单元，用于通过胶囊网络模型对所述多个语义特征进行处理，得到所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率；

结果确定单元，用于根据所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率确定所述待识别文本的意图识别结果。

在本申请实施例一种可能的实现中，所述第一预测单元还用于：在所述根据第一预测向量集合中的每一个预测向量加权和得到第一激活向量之前，根据所述胶囊网络模型的模型参数和所述多个语义特征得到所述第一预测向量集合；

所述第一预测单元执行所述根据第一预测向量集合中的预测向量的加权和得到第一激活向量，具体包括执行：对所述第一预测向量集合中的预测向量进行依次加权和以及挤压 (squash)操作得到所述第一激活向量。

在本申请实施例一种可能的实现中，所述结果确定单元具体用于：

在本申请实施例一种可能的实现中，所述装置还包括：

第二预测单元，用于计算所述待识别文本的意图预测为零样本意图集合中的每一个零样本意图的概率，所述零样本意图集合与所述真实意图集合的交集为空集；

所述结果确定单元具体用于：确定所述真实意图集合和所述零样本意图集合中概率最大值对应的的意图为所述待识别文本的意图识别结果。

在本申请实施例一种可能的实现中，所述装置还包括：

第二预测单元，用于在所述第一概率集合中的概率最大值不大于第一阈值时，计算所述待识别文本的意图预测为零样本意图集合中的每一个零样本意图的概率，其中，所述零样本意图集合与所述真实意图集合的交集为空集；

所述结果确定单元还用于：在第二概率集合中的概率最大值大于第二阈值时，确定所述概率最大值对应的零样本意图为所述待识别文本的意图识别结果，其中，所述第二概率集合为所述待识别文本的意图预测为所述零样本意图集合中的每一个零样本意图的概率组成的集合。

在本申请实施例一种可能的实现中，所述第二预测单元具体用于：

在本申请实施例一种可能的实现中，所述第二预测单元还用于：在所述根据第二预测向量集合中的预测向量的加权和得到第二激活向量之前，根据第三预测向量集合中的每一个预测向量，所述第三预测向量集合中每一个预测向量对应权重系数和所述真实意图集合中每一个真实意图与所述第一零样本意图的相似度计算所述第二预测向量；其中，所述第三预测向量集合中的任意一个预测向量表示所述第一语义特征对所述真实意图集合中的一个真实意图的贡献；

所述第二预测单元执行所述述根据第二预测向量集合中的预测向量的加权和得到第二激活向量，具体执行：对所述第二预测向量集合中的预测向量依次进行加权求和和挤压(squash) 操作得到所述第二激活向量。

第七方面，本申请实施例还提供了一种计算设备，所述计算设备包括处理器和耦合所述处理器的存储器，所述存储器用于数据和程序代码，所述处理器用于调用所述存储器存储的程序代码执行第一方面所述的用于识别意图的胶囊网络模型的训练方法。

第八方面，本申请实施例还提供了一种计算设备，其特征在于，所述计算设备包括处理器和耦合所述处理器的存储器，所述存储器用于数据和程序代码，所述处理器用于调用所述存储器存储的程序代码执行如第二方面所述的用于识别意图的组合机器学习模型的训练方法。

第九方面，本申请实施例还提供了一种计算设备，其特征在于，所述计算设备包括处理器和耦合所述处理器的存储器，所述存储器用于数据和程序代码，所述处理器用于调用所述存储器存储的程序代码执行如第三方面所述的意图识别方法。

第十方面，本申请实施例还提供了一种计算机存储介质，其特征在于，所述计算机存储介质用于计算机软件指令，所述计算机软件指令当被计算机执行时使所述计算机执行如第一方面所述的用于识别意图的胶囊网络模型的训练方法。

第十一方面，本申请实施例还提供了一种计算机存储介质，其特征在于，所述计算机存储介质用于计算机软件指令，所述计算机软件指令当被计算机执行时使所述计算机执行如第二方面所述的用于识别意图的组合机器学习模型的训练方法。

第十二方面，本申请实施例还提供了一种计算机存储介质，其特征在于，所述计算机存储介质用于计算机软件指令，所述计算机软件指令当被计算机执行时使所述计算机执行如第三方面所述的意图识别方法。

第十三方面，本申请实施例还提供了一种计算机程序，所述计算机程序包括计算机软件指令，所述计算机软件指令当被计算机执行时使所述计算机执行如第一方面所述的用于识别意图的胶囊网络模型的训练方法。

第十四方面，本申请实施例还提供了一种计算机程序，所述计算机程序包括计算机软件指令，所述计算机软件指令当被计算机执行时使所述计算机执行如第二方面所述的用于识别意图的组合机器学习模型的训练方法。

第十五方面，本申请实施例还提供了一种计算机程序，所述计算机程序包括计算机软件指令，所述计算机软件指令当被计算机执行时使所述计算机执行如第三方面所述的意图识别方法。

第十六方面，本申请实施例还提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行第一方面、第二方面或第三方面中的方面所述的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行执行第一方面、第二方面或第三方面中的方面所述的方法。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1为本申请实施例中一种意图识别系统的框架示意图；

图2为本申请实施例中一种意图识别系统的应用场景的架构图；

图3为本申请实施例中一种用于意图识别的组合机器学习模型的训练方法；

图4为本申请实施例中一种组合机器学习模型的训练方法的示意性说明图；

图5为本申请实施例中一种胶囊网络模型的训练方法的流程图；

图6A为本申请实施例中一种意图识别方法的示意说明图；

图6B为本申请实施例中一种意图识别的方法的流程示意图；

图7A为本申请实施例中另一种意图识别的方法的流程示意图；

图7B为本申请实施例中另一种意图识别方法的示意说明图；

图8为本申请实施例中一种服务器的示意性框图；

图9为本申请实施例中另一种服务器的示意性框图；

图10为本申请实施例中一种终端的示意性框图；

图11为本申请实施例中一种意图识别系统的框架示意图。

具体实施方式

下面介绍本申请中涉及的术语。

训练样本集是用于训练机器学习模型使用的所有的样本的集合。一次训练过程(即模型参数的一次更新过程)可以采用的一个或多个训练样本。每个训练样本包括训练文本和该训练文本的真实意图，即，训练样本被标注了真实意图。训练样本池中所有的真实意图组成本文中的“真实意图集合”，也就是说，真实意图集合中每一个真实意图都是有训练样本的。本文中“零样本意图集合”指没有对应的训练样本的意图的集合。真实意图集合和零样本意图集合的交集为空集。

本文中“训练文本”、“待识别文本”等文本，是书面语言的表现形式，可以一个句子或多个句子(Sentence)的组合。其中，一个句子可以包括一个或多个文字。本文中“文字”可以是英文单词、汉字等，例如，英文单词可以通过文本中的空格来区分各个文字。语义特征(semantic feature)通过机器学习模型从文本中提取出的可以一个或多个文字的组合。

本文中对用于表示数值和向量的字母进行区分，其中，加粗的字母表示向量或矩阵，非加粗的字母表示数值或变量。

本文中word2vec(Word to vector)算法用于实现将文字转换为多维空间的向量，word2vec 算法可以是CBOW(continuous bag of words)算法、Skip-Gram算法或负采样算法(negative sampling)等，对此，本申请实施例不作限定。

本文中“机器学习模型”例如，“语义特征提取模型”或“胶囊网络模型”可以接收输入数据，并根据接收的输入数据和当前的模型参数生成预测输出，具体可参见下述方法实施例中的相关描述。

下面介绍本申请设计的意图识别系统，该意图识别系统可以包括离线训练装置10和在线预测装置，其中：

如图1所示的意图识别系统的框架示意图，离线训练装置1和在线预测装置2都包括语义特征提取模型、胶囊网络模型，且离线训练模块1和在线预测模块2之间可有共享模型参数。离线训练装置1用于实现通过训练样本集中的训练样本对胶囊网络模型或语义特征提取模型和胶囊网络模型形成的组合机器学习模型的训练。

在线预测装置2用于实现通过训练后的胶囊网络模型或语义特征提取模型和胶囊网络模型形成的组合机器学习模型对待识别文本的意图识别。

结合图1介绍本申请中离线训练装置1的架构。该离线训练模块1中模可以包括：嵌入模块11、语义特征提取模块2、意图预测模块13以及训练控制模块14，其中：

嵌入模块11用于通过词嵌入将训练文本中的每一个文字转换为多维度空间中的一个向量。例如，本发明实施例中可以通过word2vec算法、递归神经网络(RecurrentNeural Network， RNN)，例如长短期记忆(英语：Long Short-Term Memory，LSTM)或其他算法或模型等将包括T个文字的训练文本(文字1，文字2，…，文字T)中每一个文字被表示为D_W维度空间中的一个向量，D_W为正整数，进而，得到T个向量组成的矩阵，训练文本可表示为矩阵 H＝(h₁，h₂，…，h_T)。

语义特征提取模块2用于基于语义特征提取模型的当前模型参数，通过语义特征提取模型对输入的训练文本的矩阵进行处理，从训练文本中提取多个语义特征的向量。语义特征提取模型可以是自注意机制神经网络。

例如，语义特征提取模型从输入的训练文本的矩阵H＝(h₁，h₂，…，h_T)中提取出R个语义特征，R为正整数，R个语义特征可以表示R个语义特征的向量组成的矩阵M＝(m₁，m₂，…，m_R)，其中，每一个语义特征向量指示一个语义特征。应理解，此时得到的语义特征可以认为是文本中的文字或词，例如，动词、命名实体等关键词，此时，得到的语义特征为低阶的语义特征。

意图预测模块13用于基于胶囊网络模型的当前模型参数，通过胶囊网络模型对输入的R 个语义特征的向量进行处理，得到训练文本的意图预测为真实意图集合中每一个真实意图的激活向量，进而得到训练文本的意图预测为真实意图集合中每一个真实意图的概率。应理解，意图为高阶语义特征。

需要说明的是，在本申请实施例的一种实现中，语义特征提取模型可以是训练好的模型，可实现从输入的训练文本中提取出多个语义特征，此时，训练控制模块14用于将训练样本集中的所有训练文本的真实意图与预测意图的误差之和所确定的梯度反向传播到胶囊网络模型，调节所述胶囊网络模型的当前模型参数。在本申请实施例的另一种实现中，语义特征提取模型需要与胶囊网络模型一起进行训练。此时，训练控制模块14用于将训练样本集中的所有训练文本的真实意图与预测意图的误差之和所确定的梯度反向传播到胶囊网络模型和语义特征提取模型，调节所述胶囊网络模型的当前模型参数和语义特征提取模型的当前模型参数。

可选地，离线训练装置1还可以包括意图关联模块15，用于计算真实意图集合中每一个真实意图和零样本意图集合中每一个零样本意图的相似度，得到意图相似度矩阵，以实现将语义特征对真实意图集合中的每一个真实意图的贡献路由得到语义特征对无样本意图集合中每一个无样本意图的贡献，进而实现对无样本意图集合中的无样本意图的识别。

应理解，离线训练装置1还可以将意图相似度矩阵发送至在线预测装置2。意图关联模块15不是离线训练装置1必须的部分，在线预测装置2可以计算得到意图相似度矩阵。

需要说明的是，离线训练装置1中各个模块的具体实现可以参见下述组合机器学习模型的训练方法或胶囊网络模型的训练方法的实施例中相关描述，本申请实施例不再赘述。

结合图1介绍本申请中设于在线预测装置2中的架构。在线预测装置2可以包括：嵌入模块21、语义特征提取模块22、第一意图预测模块23和输出模块24。

嵌入模块21用于将待识别文本中的每一个文字转换为多维度空间中的一个向量。

语义特征提取模块22，用于基于语义特征提取模型的模型参数，通过语义特征提取模型从待识别文本中提取得到多个语义特征。

第一意图预测模块23，用于基于胶囊网络模型的模型参数，对从待识别文本中提取得到的多个语义特征的向量进行处理，得到待识别文本的意图预测为真实意图集合中每一个真实意图的激活向量，进而得到待识别文本的意图预测为真实意图集合中每一个真实意图的概率。

其中，语义特征提取模型、胶囊网络模型均为训练后的模型。

输出模块24用于根据待识别文本的意图预测为真实意图集合中每一个真实意图的概率确定该待识别文本的意图识别结果。

可选地，该在线预测装置2还可以包括意图关联模块25，用于计算真实意图集合中每一个真实意图和零样本意图集合中每一个零样本意图的相似度，得到意图相似度矩阵。

应理解，意图关联模块25不是在线预测装置2必须的部分，在线预测装置2可以接收离线训练模块发送的意图相似度矩阵。

进一步地，该在线预测装置2还可以包括第二意图预测模块26，用于基于第一意图预测模块得到的待识别文本中提取得到的多个语义特征分别对真实意图集合中每一个真实意图的预测向量和意图相似度矩阵，得到待识别文本中提取得到的多个语义特征分别对零样本意图集合中每一个零样本意图的预测向量，进而计算待识别文本的意图预测为零样本意图集合中每一个零样本意图的激活向量，进而得到待识别文本的意图预测为零样本意图集合中每一个零样本意图的概率。

输出模块24还可以用于根据待识别文本的意图预测为真实意图集合中每一个真实意图的概率和根据待识别文本的意图预测为零样本意图集合中每一个零样本意图的概率输出该待识别文本的意图识别结果。

需要说明的是，在线预测装置2中各个模块的具体实现可以参见下述意图识别方法的实施例中相关描述，本申请实施例不再赘述。

还需要说明的是，虽然将离线训练装置1和在线预测装置2分开来描述，离线训练装置 1可以在线预测装置2设置同一计算设备或不同计算设备中。离线训练装置1中的各个模块以及在线预测装置2中的各个模块可以设置于同一计算设备中或分别设置于不同的计算设备中，例如，各个模块设置于分布式计算机系统的各个计算设备(计算节点)中。

可以理解，计算设备可以是终端设备(比如台式计算机、笔记本电脑、手机、平板电脑、智能音箱、智能机器人等)、服务器或其他的可实现数据计算的设备。

如下为本申请实施例提供的几种应用场景。

请参阅图2所示的一种意图识别系统的应用场景的架构图。该意图识别系统可以包括服务器21、智能音箱22以及终端23(比如手机、平板电脑、车载单元(On board Unit，OBU) 等)。通常，胶囊网络模型的训练过程的计算量庞大，可以将用于训练胶囊网络模型或组合机器学习模型的的离线训练装置设置于服务器21侧。服务器21可以向设置在线识别装置1 的智能音箱22或终端23发送胶囊网络模型的模型参数或组合机器学习模型的模型参数。

其中，意图识别的实现过程可以包括但不限于如下四种实现方式：

①、智能音箱22可以通过设置于智能音箱22上的语音输入装置(比如麦克风)接收用户语音信息，将该语音信息转换为待识别文本；并通过设于智能音箱22上的在线识别装置1 对待识别文本进行意图识别；进而将对待识别文本的意图识别结果转化为语音并输出该语音。

②、智能音箱22可以通过设置于智能音箱22上的语音输入装置(比如麦克风)接收用户语音信息，将该语音信息转换为待识别文本；智能音箱22向服务器21发送待识别文本；通过设于服务器21上的在线识别装置1对待识别文本进行意图识别，进而服务器21将对待识别文本的意图识别结果发送至智能音箱22，智能音箱22将意图识别结果转化为语音并输出该语音。

③、智能音箱22可以通过设置于智能音箱22上的语音输入装置(比如麦克风)接收用户语音信息，该语音信息转换为待识别文本；智能音箱22向终端23发送待识别文本；通过设置于终端23上的在线识别装置1对待识别文本进行意图识别，终端23将对待识别文本的意图识别结果发送至智能音箱22，智能音箱22将意图识别结果转化为语音并输出该语音。

④、同实现②，区别在于，智能音箱22不具备与服务器21直接通信的能力，需要通过终端23与服务器21进行信息交互。

应理解，智能音箱22还可以替换为其他的包括语音输入/输出装置的终端，意图识别的实现过程也可以包括智能音箱22，而通过设置于终端23上的语音输入/输出装置实现待识别文本的获取和意图识别结果的输出，对此，本申请实施例不作限定。

下面结合图3介绍本申请中涉及的用于意图识别的组合机器学习模型的训练方法，其中，图3为用于意图识别的组合机器学习模型的训练方法的流程示意图，图4为组合机器学习模型的训练方法的示意性说明图，该用于意图识别的组合机器学习模型的训练方法可以由配置相应机器学习模型的计算设备(例如服务器)执行，本文中以统一用计算设备为执行主体来描述，应理解，执行各个步骤的计算设备可以不相同，例如，由分布式计算机系统中的一个或多个计算设备分别执行如下步骤，该组合机器学习模型的训练方法可以包括但不限于如下部分或全部步骤：

S32：接收训练样本，该训练样本包括训练文本和训练文本的真实意图，其中，多个所述训练样本中的真实意图组成真实意图集合。

应理解，组合机器学习模型的一次训练过程可以采用一个训练样本，也可以采用多个训练样本，还可以采用所有的训练样本，本申请实施例不作限定。本申请实施例以采用一个训练样本为例来说明。还应理解，采用多个训练样本进行训练的过程可以参照一个训练样本的训练过程，本申请实施例不再赘述。

其中，训练文本包括一个或多个文字，计算设备可以通过word2vec算法或递归神经网络 (Recurrent Neural Network，RNN)，例如长短期记忆(英语：Long Short-TermMemory，LSTM) 等将训练文本表示为多个文字的向量组成的矩阵，一个文字对应一个向量。

其中，word2vec算法用于将文字表示为D_W维度空间中的一个向量。word2vec算法可以是CBOW(continuous bag of words)算法、Skip-Gram算法或负采样算法(negativesampling) 等，对此，本申请实施例不作限定。

真实意图集合包括用于训练组合机器学习模型的所有的训练样本中的真实意图。

本发明实施例中，假设训练样本中文字的个数为T，例如，训练文本为(文字1，文字2，…，文字T)，通过word2vec算法转换的T个文字向量组成的矩阵，该T个文字与该T个文字向量一一对应，T为正整数，此时，训练文本可以表示为H＝(h₁，h₂，…，h_T)，其中，文字t 转换生成的向量为h_t，t为训练文本中文字的索引，t为不大于T的正整数。应理解，训练样本集中不同的训练样本可以包括不同的文字个数，本申请实施例不做限定。

S34：根据语义特征提取模型的当前模型参数对训练文本进行处理，得到多个语义特征。

本申请实施例中，语义特征提取模型为需要训练的机器学习模型，该语义特征提取模型可以是自注意机制神经网络(multi-head self-attention framework)，例如多头自注意机制神经网络，每一个自注意头(self-attention head)用于关注训练文本(例如句子)中的特定的语义特征 (例如句子中的关键词)，举例来说，对于训练样本“查找纽约的天气”，一个自注意头可以关注动作“查找”，另一个自注意head可以关注城市名称“纽约”。自注意机制能使语义特征抽取机制更聚焦在文本中关键词(如动词、命名实体等)特征，忽视非关键语义特征。

语义特征提取模型的输入为训练文本的矩阵，通过权重矩阵进行变换，输出多个(比如 R个)语义特征的向量，R为正整数。即：

M＝A·H；

A＝soft max(D_s2tanh(D_s1H^T))

其中，M为多个语义特征向量组成的矩阵，H为训练文本中所有的文字的文字向量组成的矩阵，A为R×T阶的权重矩阵，D_s1、D_s2为语义特征提取模型的当前模型参数。

例如，语义特征提取模型输出R个语义特征向量，R个语义特征组成的矩阵M可以表示为M＝(m₁，m₂，…，m_R)。一个语义特征向量m_r表示一个语义特征，r为多个语义特征的索引，r为不大于R的正整数。

应理解，通过语义特征提取模型提取得到的多个语义特征为低阶的语义特征，该多个语义特征通过不同的组合模式可以得到不同的高阶语义特征(例如，意图)。本申请实施例通过胶囊网络模型从低阶的语义特征(多个语义特征)中得到高阶的语义特征(意图)。

S36：根据胶囊网络模型的当前模型参数对多个语义特征进行处理，得到训练文本的意图预测为真实意图集合中每一个真实意图的概率。

本申请实施例中，胶囊网络模型输出为训练文本的意图预测为真实意图集合中每一个真实意图的概率，其中，概率可以表示为概率值或者激活向量，其中，激活向量的2范数即为概率值。

具体的，可以根据胶囊网络模型的当前模型参数和多个语义特征得到训练文本的意图预测为真实意图集合中的每一个真实意图的概率，其中，真实意图集合为训练样本集中的所有训练样本的真实意图的集合。

请一并参阅图3所示的胶囊网络模型的计算流程的示意说明图，胶囊网络模型的输入为从训练文本中提取到的多个语义特征，输出为该训练文本的意图预测为真实意图集合中任意一个意图的激活向量(也可以为该激活向量确定的概率值)。本申请实施例以第一真实意图 (例如，真实意图k)为例来说明，第一真实意图为真实意图集合中的任意一个意图。步骤 S36具体的实现过程可以包括但不限于如下步骤：

S362：根据意图胶囊网络模型的当前模型参数和多个语义特征计算多个语义特征分别对第一真实意图的预测向量，第一真实意图为真实意图集合中的任意一个真实意图。

应理解，一个真实意图对应一组胶囊网络模型的当前模型参数，例如，真实意图k对应当前模型参数W_k，其中，语义特征m_r为训练文本提取得到的多个(比如R个)语义特征中的任意一个。以语义特征m_r为例，语义特征m_r对真实意图k的预测向量p_k|r可以表示为：

p_k|r＝m_rW_k

其中，p_k|r表示语义特征m_r对真实意图k的贡献，k为真实意图集合中真实意图的索引， k为正整数，k不大于真实意图集合中真实意图的总数K。

同理，可以得到多个预测向量(p_k|1，p_k|2，…，p_k|R)，该多个预测向量中的任意一个预测向量用于表示所述多个语义特征中的一个语义特征对第一真实意图(真实意图k)的贡献。

S364：对多个预测向量依次进行加权求和、挤压操作得到第一激活向量，该多个预测向量中任意一个预测向量用于表示多个语义特征中的一个语义特征对第一真实意图的贡献。

其中，训练文本提取得到的多个语义特征对第一真实意图(真实意图k)的总预测向量 s_k可以表示为多个预测向量(p_k|1，p_k|2，…，p_k|R)的加权相加，即：

其中，c_k,r为预测向量p_k|r所对应的当前权重系数，

其中，第一激活向量表示训练文本的意图预测为第一真实意图(真实意图k)的概率，第一激活向量v_k可以表示为:

其中，||s_k||为s_k的l₂范数。第一激活向量v_k的l₂范数(即||v_k||)指示训练文本的意图预测为真实意图k的概率。

同理，可以得到训练文本提取得到的多个语义特征分别对真实意图集合中每一个真实意图的激活向量。

S366：更新多个预测向量分别对应的当前权重系数，其中，第一预测向量与第一激活向量的相似度用于更新第一预测向量所对应的当前权重系数。例如，语义特征m_r对真实意图k 的预测向量p_k|r所对应的当前权重系数c_k,r的更新过程可表示为：

b_k,r←b_k,r+p_k|r·v_k

c_k,r←soft max(b_k,r)

其中，b_k,r为中间变量，用于计算权重系数c_k,r。

与传统的神经网络对语义特征的线性加权不同，本申请实施例通过迭代计算低阶语义特征(从训练文本中提取到的多个语义特征)与上层高阶语义特征(真实意图集合中的每一个) 的权重系数，可以过滤与意图不相关的语义特征，从而筛选出关联度高的语义特征构成意图。

S368：迭代执行S362-S366，根据第Z1次迭代得到的第一激活向量计算训练文本的意图预测为第一真实意图的概率，Z1为正整数。

其中，Z1为预设值，可以是3次、4次、5次，10次或其他数值，本申请实施例不做限定。

其中，最后一次迭代得到的第一意图的激活向量的2范数即为该训练文本的意图预测为第一意图的概率。

应理解，通过改变k的取值，可以得到训练文本的意图预测为真实意图集合中每一个真实意图的概率。

S38：将根据训练文本的真实意图与训练文本的意图预测为真实意图集合中每一个真实意图的概率所确定的梯度反向传播到胶囊网络模型和语义特征提取模型，调节胶囊网络模型的当前模型参数和语义特征提取模型的当前模型参数。

S38的一种实现方式可以是：计算设备可以根据第一误差和第二误差确定损失函数，其中，第一误差为正类间隔与训练文本的意图预测为训练样本的真实意图的概率的误差，第二误差包括负类间隔分别与训练文本的意图预测不为所述训练样本的真实意图的概率的误差；进而，根据损失函数所确定的梯度反向传播到胶囊网络模型，调节所述胶囊网络模型的当前模型参数。

其中，误差可以为平均绝对误差(mean absolute error，MAE)、均方误差(meansquared error，MSE)或均方根误差(root mean squared error，RMSE)等。针对一个训练样本来说，损失函数可以表示为：

可选地，正类间隔m⁺可以为1、0.98、0.90或其他数值，负类间隔m^-可以为0、0.02、0.05、 0.1或其他数值，本申请实施例不做限定。

可选地，损失函数还可以包括防止过拟合的正则化项。其中，正则化项可以表示为：

其中，α为常数，I为单位矩阵(主对角线上的元素都为1，其余元素全为0的矩阵)，||||_F表示Frobenius范数，也称F-范数。

应理解，可以通过批量梯度下降法(batch gradient descent)、随机梯度下降法(stochasticgradient descent)或小批量梯度下降法(mini-batch gradient descent)等优化方法最小化损失函数，更新意图识别胶囊网络模型的当前模型参数和语义特征提取模型的当前模型参数。

应理解，对于小批量梯度下降法来说，损失函数可以表示为：

其中，n为一次训练过程中采用的训练样本集中的训练样本的索引，L_n训练样本n对于的损失函数，N为该训练样本集中训练样本的个数。

在本申请实施例的另一种实现中，该组合机器学习模型还可以包括意图关联层，该意图关联层用于实现意图相似度矩阵计算。

该方法还可以包括：计算真实意图集合中每一个真实意图和零样本意图集合中每一个零样本意图的相似度，得到意图相似度矩阵。其中，零样本意图集合与真实意图集合的交集为空集。意图相似度矩阵包括第一相似度集合；第一相似度集合包括真实意图集合中每一个真实意图分别与第一零样本意图的相似度，用于计算所述多个语义特征分别对第一零样本意图的贡献；第一语义特征对第一零样本意图的贡献为根据第一语义特征分别对真实意图集合中每一个真实意图的贡献和所述第一相似度集合得到。具体可参见下述意图识别方法实施例中相关描述，本申请实施例不再赘述。

意图相似度矩阵的一种具体的实现可以是：通过word2vec算法分别将真实意图集合中的每一个真实意图转换为意图向量，以及通过word2vec算法分别将零样本意图集合中的每一个零样本意图转换为意图向量，计算两个向量的余弦相似度。

在本申请的另一种实现中，语义特征提取模型不需要训练，在意图识别胶囊网络模型进行训练之前已经训练完成或者已被配置好模型参数，可以实现从训练文本中准确提取出的多个语义特征。如图5所示，图5是本申请实施例提供的一种胶囊网络模型的训练方法的流程图，该胶囊网络模型的训练方法可以包括但不限于如下部分或全部步骤：

S52：接收训练样本，该训练样本包括训练文本和训练文本的真实意图，其中，多个训练样本中的真实意图组成真实意图集合。

关于训练样本可以参见上述图3所示的组合机器学习模型的训练方法中步骤S32中相关描述，本申请实施例不再赘述。

S54：从训练文本中提取多个语义特征。

本发明实施例中，假设训练样本中文字的个数为T，例如，训练文本为(文字1，文字2，…，文字T)，通过word2vec算法转换的T个文字向量组成的矩阵，该T个文字与T个文字向量一一对应，T为正整数，此时，训练文本可以表示为H＝(h₁，h₂，…，h_T)，其中，文字t转换生成的向量为h_t，t为训练文本中文字的索引，t为不大于T的正整数。应理解，训练样本集中不同的训练样本可以包括不同的文字个数，本申请实施例不做限定。

通过训练后的语义特征提取模型对T个文字向量进行处理，得到多个语义特征向量，其中，多个语义特征向量中任意一个语义特征向量用于表示一个语义特征。

S56：根据胶囊网络模型的当前模型参数对多个语义特征进行处理，得到训练文本的意图预测为真实意图集合中每一个真实意图的概率。

应理解，S56的实现可以参见上述图3所示的组合机器学习模型的训练方法中步骤S36 中相关描述，本申请实施例不再赘述。

S58：将根据训练文本的真实意图与训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到胶囊网络模型，调节胶囊网络模型的当前模型参数。

S58的一种实现方式可以是：计算设备可以根据第一误差和第二误差确定损失函数；其中，第一误差为正类间隔与训练文本的意图预测为训练样本的真实意图的概率之间的误差，第二误差包括负类间隔分别与训练文本的意图预测不为训练样本的真实意图的概率之间的误差；进而，根据损失函数所确定的梯度反向传播到胶囊网络模型，调节胶囊网络模型的当前模型参数。

应理解，关于第一误差、第二误差、损失函数、优化方法等的描述可以参见上述组合机器可以参见上述图3所示的组合机器学习模型的训练方法中步骤S38中相关描述，本申请实施例不再赘述。

与组合机器学习模型的训练方法不同的是，此时损失函数所确定的梯度仅需要反向传播到胶囊网络模型，对胶囊网络模型的模型参数进行更新。

可见，本申请时实施例在模型的训练过程中，根据第一激活向量与第一预测向量的相似度迭代调整第一预测向量所对应的当前权重系数，使得与第一激活向量相似度大的预测向量所对应的权重系数变大，进而筛选出该与第一激活向量相似度大的预测向量对应的语义特征，以及，使得与第一激活向量相似度小的预测向量所对应的权重系数变小，进而过滤掉与第一激活向量相似度小的预测向量对应的语义特征，实现筛选出关联度高的语义特征构成意图，提高模型的意图识别的准确性。

下面介绍应用训练后的胶囊网络模型进行意图的识别。该意图识别方法可以由终端或服务器等计算设备执行，本申请实施例以计算设备为例来说明。如图6A所示的意图识别方法的示意说明图以及图6B所示的意图识别的方法的流程示意图，该意图识别方法可以包括但不限于如下部分或全部步骤：

S62：从待识别文本中提取多个语义特征。

其中，待识别文本包括一个或多个文字，可以是终端根据用户输入的语音信息生成。例如，智能音箱可以通过设置在该智能音箱上的麦克风接收用户输入的语音信息。智能音箱可以将接收到语音转换为待识别文本，进而执行本申请实施例的意图识别方法的流程。在本申请的另一种实现中，智能音箱也可以将该待识别文本或用户输入的语音信息发送给其他终端或服务器等，并由该语音信息或待识别文本的接收方执行申请实施例的意图识别方法的流程。例如，智能音箱也可以将该待识别文本或用户输入的语音信息发送给智能手机，由智能手机来执行本申请实施例的意图识别方法的流程。可参见图2描述的场景实施例中相关描述，本申请不再赘述。

可选地，终端从待识别文本中提取多个语义特征的一种实现方式可以包括如下步骤：

计算设备可以通过word2vec算法或递归神经网络(Recurrent Neural Network，RNN)，例如长短期记忆(英语：Long Short-Term Memory，LSTM)等将待识别文本表示为多个文字向量组成的矩阵，一个文字对应一个文字向量。

进而，通过训练后的语义特征提取模型对多个文字向量进行处理，以从待识别文本中提取出多个语义特征的向量。关于语义特征提取模型了参阅上述组合机器学习模型的训练方法中的相关描述，本申请实施例不在赘述。

计算设备将待识别文本的多个文字向量组成的矩阵输入到语义特征提取模型，可得到R 个语义特征的向量，R个语义特征组成的矩阵可以表示为M＝(m₁，m₂，…，m_R)，R为正整数。一个语义特征向量m_r表示一个语义特征，r为多个语义特征的索引，r为不大于R的正整数。

应理解，通过语义特征提取模型提取得到的R个语义特征为低阶的语义特征，该R个语义特征通过不同的组合模式可以得到不同的高阶语义特征(例如，意图)。本申请实施例通过胶囊网络模型从低阶的语义特征(多个语义特征)得到高阶的语义特征(意图)。

S64：通过胶囊网络模型对多个语义特征进行处理，得到待识别文本的意图预测为真实意图集合中的每一个真实意图的概率。其中，真实意图集合为所有训练样本中的真实意图的集合，该训练样本用于训练所述胶囊网络模型。

第一真实意图(如图6A中的真实意图k)为真实意图集合中的任意一个意图，k为真实意图集合中意图的索引，真实意图集合中包括K个意图，k≤K，k，K为正整数。计算设备可以根据胶囊网络模型的模型参数，通过胶囊网络模型对多个语义特征(R个语义特征)进行处理，得到待识别文本的意图预测为第一真实意图的概率。下面以第一真实意图为例来描述步骤S64的具体实现过程：

S642：根据胶囊网络模型的模型参数和多个语义特征计算多个语义特征分别对第一真实意图的预测向量。语义特征m_r为多个语义特征中任意一个，以语义特征m_r为例，语义特征 m_r对第一真实意图(真实意图k)的预测向量p_k|r可以表示为：

p_k|r＝m_rW_k

其中，模型参数W_k为通过上述图3或图5所示的训练方法得到胶囊网络模型的模型参数。

应理解，本文中“第一预测向量集合”为多个语义特征分别对第一真实意图的预测向量的集合，第一预测向量集合中的任意一个预测向量用于表示多个语义特征中的一个语义特征对第一真实意图的贡献，可以表示为(p_k|1，p_k|2，…，p_k|R)。

S644：根据多个语义特征分别对第一真实意图的预测向量和多个语义特征分别对第一真实意图的预测向量所对应的当前权重系数计算多个语义特征对第一真实意图的总预测向量。

其中，待识别文本提取得到的多个语义特征对第一真实意图(真实意图k)的总预测向量s_k可以表示为多个语义特征分别对第一真实意图的预测向量的加权相加，即：

其中，c_k,r为第一语义特征(语义特征m_r)对第一真实意图(真实意图k)的预测向量p_k|r所对应的权重系数，

第一语义特征为待识别文本提取得到的多个语义特征中的任意一个语义特征。

S646：将多个语义特征对第一真实意图的总预测向量进行挤压(squash)操作得到第一激活向量。

其中，第一激活向量v_k可以表示为:

其中，||s_k||为s_k的2范数。第一激活向量v_k的2范数(即||v_k||)指示训练文本的意图预测为第一真实意图的概率。

S648：更新多个语义特征分别对第一真实意图的预测向量所对应的当前权重系数，其中，第一预测向量与第一激活向量的相似度用于更新第一预测向量所对应的当前权重系数。

例如，语义特征m_r对真实意图k的预测向量所对应的当前权重系数c_k,r的更新过程可表示为：

b_k,r←b_k,r+p_k|r·v_k

c_k,r←soft max(b_k,r)

其中，b_k,r为中间变量，用于计算权重系数c_k,r。

与传统的神经网络对语义特征的线性加权不同，本申请实施例通过迭代计算低阶语义特征(从待识别文本中提取到的多个语义特征)与上层高阶语义特征(真实意图集合中的每一个)的权重系数，可以过滤与意图不相关的语义特征，从而筛选出关联度高的语义特征构成意图。

S650：迭代执行S642-S648，根据第Z3次迭代得到的第一激活向量计算待识别文本的意图预测为第一真实意图的概率。Z3为正整数。

其中，Z3为预设值，可以是3次、4次、5次，10次或其他数值，本申请实施例不做限定。最后一次迭代得到的第一意图的激活向量的2范数即为该待识别文本的意图预测为第一意图的概率。

应理解，通过改变k的取值，可以得到待识别文本的意图预测为真实意图集合中每一个真实意图的概率。

S66：根据待识别文本的意图预测为真实意图集合中的每一个真实意图的概率确定待识别文本的意图识别结果。

其中，步骤S66包括但不限于如下三种实现方式：

第一实现方式：

计算设备根据待识别文本的意图预测为真实意图集合中的每一个真实意图的概率，确定真实意图集合中概率最大的意图为待识别文本的意图识别结果。

第二实现方式：

计算设备还可以计算待识别文本的意图预测为零样本意图集合中的每一个零样本意图的概率；进而，确定真实意图集合和零样本意图集合中概率最大的意图为待识别文本的意图识别结果。

第三实现方式：

请一并参阅7A所示的意图识别的方法的流程图以及图7B所示的意图识别方法的示意说明图。该S66的实现方式可以包括：

S662：在第一概率集合中的概率最大值大于第一阈值时，计算设备可以确定真实意图集合中概率最大值对应的真实意图为待识别文本的意图识别结果，其中，第一概率集合为待识别文本的意图预测为真实意图集合中的每一个真实意图的概率组成的集合。

S664：在第一概率集合中的概率最大值不大于第一阈值时，计算设备可以计算待识别文本的意图预测为零样本意图集合中的每一个零样本意图的概率，其中，零样本意图集合与真实意图集合的交集为空集。

S666：在第二概率集合中的概率最大值大于第二阈值时，计算设备可以确定零样本意图集合中概率最大值对应的的真实意图为待识别文本的意图识别结果，其中，第二概率集合为待识别文本的意图预测为零样本意图集合中的每一个零样本意图的概率组成的集合。

S668：在第二概率集合中的概率最大值不大于第二阈值时，计算设备可以输出用于指示待识别文本识别失败的指示信息。

本申请实施例中以计算待识别文本的意图预测为第一零样本意图的概率为例，来说明计算待识别文本的意图预测为零样本意图集合中的每一个零样本意图的概率，其中，计算设备计算待识别文本的意图预测为第一零样本意图的概率的一种实现方式可以包括：

S1：根据多个语义特征分别对真实意图集合中的每一个真实意图的预测向量、多个语义特征分别对真实意图集合中的每一个真实意图的预测向量所对应的权重系数、真实意图集合中的每一个真实意图和第一零样本意图的相似度，计算多个语义特征分别对第一零样本意图的预测向量。以计算第一语义特征对第一零样本意图的预测向量为例来说明多个语义特征分别对第一零样本意图的计算方法，其中，第一语义特征对第一零样本意图的预测向量的具体实现如下：

其中，第一零样本意图(意图j)为零样本意图集合中的任意一个意图。语义特征m_r为多个语义特征中的任意一个语义特征，其中，语义特征m_r对第一零样本意图(意图j)的预测向量u_j|r可以表示为：

其中，q_jk为第一真实意图(真实意图k)和第一零样本意图的相似度；c_k,r为最终得到的(即上述步骤S648经过Z3次更新得到的预测向量p_k|r对应的权重系数)语义特征m_r对真实意图k的预测向量所对应的权重系数；p_k|r为语义特征m_r对真实意图k的预测向量。j为零样本意图集合中意图的索引，j为正整数。

应理解，本文中“第二预测向量集合”为多个语义特征分别对第一零样本意图的预测向量的集合，可以表示为(u_j|1，u_j|2，…，u_j|R)，第二预测向量集合中的任意一个预测向量用于表示多个语义特征中的一个语义特征对第一零样本意图的贡献。

可以理解，真实意图集合中每一个真实意图与零样本意图集合中每一个零样本意图的相似度可以形成意图相似度矩阵。计算设备还可以计算意图相似度矩阵，计算方法可以参见上述组合机器学习模型的训练方法的方法实施例中相关描述，本申请实施例不再赘述。

S2：根据多个语义特征分别对第一零样本意图的预测向量和多个语义特征分别对第一零样本意图的预测向量所对应的当前权重系数，计算多个语义特征对第一零样本意图的总预测向量。其中，语义特征m_r对第一零样本意图(意图j)的总预测向量s′_j可以表示为：

其中，c′_j,r为语义特征m_r对意图j的预测向量u_j|r所对应的当前权重系数。

S3：将多个语义特征对第一零样本意图的总预测向量进行挤压操作得到第二的激活向量。

其中，零样本意图j的激活向量v′_j可以表示为:

其中，||s′_j||为s′_j的2范数。零样本意图j的激活向量v′_j的2范数(即||v′_j||)指示待识别文本的意图预测为零样本意图j的概率。

S4：更新多个语义特征分别对第一零样本意图的预测向量所对应的当前权重系数，其中，第一语义特征对第一零样本意图的预测向量(本文中也称为第二预测向量)与第二激活向量的相似度用于更新第二预测向量所对应的当前权重系数。

例如，语义特征m_r对零样本意图j的预测向量u_j|r所对应的当前权重系数c′_j,r的更新过程可表示为：

b′_j,r←b′_j,r+u_j|r·v′_j

c′_j,r←soft max(b′_j,r)

S5：迭代执行S1-S5，根据第Z4次迭代计算得到的第二激活向量计算待识别文本的意图预测为第一零样本意图的概率。

同理，可以得到待识别文本的意图预测为零样本意图集合中每一个零样本意图的概率。

而且，根据意图相似度矩阵，将语义特征对真实意图集合中的每一个真实意图的贡献路由得到语义特征对无样本意图集合中每一个无样本意图的贡献，进而实现对无样本意图集合中的无样本意图的识别。

下面介绍本申请实施例涉及的装置。

用于实现胶囊网络模型的训练方法的计算设备或分布式计算系统，可以包括一个或多个服务器等计算设备，本申请以一个服务器为例来说明。

请参阅图8，图8是本申请实施例提供的一种服务器的结构示意图，该服务器80可以是可以包括但不限于处理器801和存储器802，处理器通过总线803连接到存储器802。

存储器802可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)或其他存储器。本申请实施例中，存储器802用于存储数据以及各种软件程序，例如本申请中用于实现胶囊网络模型的训练方法的程序等。

可选地，计算设备80还可以包括至少一个通信接口804，该通信接口804用于实现计算设备80与终端、服务器或其他计算设备等之间的数据交换。

处理器801可以是中央处理单元(Central Processing Unit，CPU)，该处理器801还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

处理器801用于调用存储器存储的数据和程序代码执行：

通过通信接口804接收训练样本，所述训练样本包括训练文本和所述训练文本的真实意图，其中，多个所述训练样本中的真实意图组成真实意图集合；

从所述训练文本中提取多个语义特征；

在本申请的一种实现中，所述处理器801执行所述将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型，调节所述胶囊网络模型的当前模型参数，具体包括执行：

可选地，所述损失函数为：

其中，L为所述损失函数，m⁺-||v_k||为所述第一误差，||v_k||-m^-为所述第二误差，y为所述训练文本的真实意图，k为所述真实意图集合中真实意图的索引，y_k为所述真实意图集合中的真实意图k；当y＝y_k时，[[y＝y_k]]＝1；当y≠y_k时，[[y＝y_k]＝0；当y≠y_k时，[[y≠y_k]]＝1；当 y＝y_k时，[[y≠y_k]]＝0；m⁺为正类间隔，m^-为负类间隔，||v_k||为所述训练文本的意图预测为所述真实意图k的概率。

在本申请的一种实现中，所述处理器801执行所述根据多个预测向量的加权和得到第一激活向量之前，所述处理器还用于执行：所述根据胶囊网络模型的当前模型参数和所述多个语义特征得到所述多个预测向量；

所述处理器执行所述根据多个预测向量的加权和得到第一激活向量，具体包括执行：对所述多个预测向量依次进行加权求和以及挤压(squash)操作得到所述第一激活向量。

在本申请的一种实现中，所述处理器801还用于执行：

应理解，各个器件的实现还可以对应参照上述图5所述的方法实施例中的相应描述，本申请实施例不再赘述。

用于实现组合机器学习模型的训练方法的计算设备或分布式计算系统，可以包括一个或多个服务器等计算设备，本申请以一个服务器为例来说明。

请参阅图9所示的计算设备，该服务器90可以包括但不限于处理器901和存储器902，处理器通过总线903连接到存储器902。

存储器902可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)或其他存储器。本申请实施例中，存储器902用于存储数据以及各种软件程序，例如本申请中用用于识别意图的组合机器学习模型的训练方法的程序等，该组合机器学习模型包括语义特征提取模型和胶囊网络模型。

可选地，计算设备90还可以包括至少一个通信接口904，该通信接口904用于实现计算设备80与终端、服务器或其他计算设备等之间的数据交换。

处理器901可以是中央处理单元(Central Processing Unit，CPU)，该处理器901还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

处理器901用于调用存储器存储的数据和程序代码执行：

通过通信接口904接收训练样本，所述训练样本包括训练文本和所述训练文本的真实意图，其中，多个所述训练样本中的真实意图组成真实意图集合；

所述组合机器学习模型包括语义特征提取模型和胶囊网络模型，

在本申请的一种实现中，所述语义特征提取模型为自注意机制神经网络模型，所述处理器901执行所述根据所述语义特征提取模型的当前模型参数，通过所述语义特征提取模型对所述训练文本进行处理，得到多个语义特征，具体包括执行：

M＝A·H；

A＝sof tmax(W_s2tanh(W_s1H^T))

在本申请的一种实现中，所述处理器执行所述将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型，调节所述胶囊网络模型的当前模型参数，具体包括执行：

可选地，所述损失函数：

其中，L为所述损失函数，m⁺-||v_k‖为所述第一误差，||v_k‖-m^-为所述第二误差，y为所述训练文本的真实意图，k为所述真实意图集合中真实意图的索引，y_k为所述真实意图集合中的真实意图k；当y＝y_k时，[[y＝y_k]]＝1；当y≠y_k时，[[y＝y_k]]＝0；当y≠y_k时，[[y≠y_k]]＝1；当 y＝y_k时，[[y≠y_k]]＝0；m⁺为正类间隔，m^-为负类间隔，||v_k||为所述训练文本的意图预测为所述真实意图k的概率。

在本申请的一种实现中，所述处理器901执行所述根据多个预测向量的加权和得到第一激活向量之前，所述处理器901还用于执行：根据胶囊网络模型的当前模型参数和所述多个语义特征得到所述多个预测向量；

在本申请的一种实现中，所述组合机器学习模型还包括意图关联层，所述处理器901还用于执行：

应理解，各个器件的实现还可以对应参照上述图3所述的方法实施例中的相应描述，本申请实施例不再赘述。

用于实现意图识别方法的计算设备可以是终端，比如智能手机、智能音箱、智能机器人、个人数字助理、平板电脑、车载设备等终端，也可以是服务器，本申请不作限定。本申请以终端为例还说明。

请参阅图10所示的终端，该终端100可以包括但不限于一个或多个处理器1001和存储器1002，通信接口1003、接收器1005、发射器1006，以及用户接口1010，用户接口1010可以连接音频输出模块1007、音频输入模块1008以及显示器1009等。需要注意的是，接收器1005、发射器1006、音频输出模块1007、音频输入模块1008以及显示器1009也可以不是终端100的组成部分。这些部件可通过总线1004或者其他方式连接，图10以通过总线连接为例。其中：

存储器1002可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)或其他存储器。本申请实施例中，存储器1002用于存储数据以及各种软件程序，例如本申请中用用于识别意图的组合机器学习模型的训练方法的程序等，该组合机器学习模型包括语义特征提取模型和胶囊网络模型。

该通信接口1004用于实现计算设备80与终端、服务器或其他计算设备等之间的数据交换。

发射器1006可用于对设备处理器1001输出的信号进行发射处理，例如信号调制。接收器1005可用于对接收的信号进行接收处理，例如信号解调。在本申请的一些实施例中，发射器1006和接收器1005可看作一个无线调制解调器。

除了图10所示的发射器1006和接收器1005，终端100还可包括其他通信部件，例如GPS模块、蓝牙(Bluetooth)模块、Wi-Fi模块等。不限于无线通信，反馈信号采集设备100 还可以配置有有线网络接口(如LAN接口)来支持有线通信。

所述用户接口1010可用于实现终端100和用户/外部环境之间的交互，例如可以连接输入输出模块，比如音频输出模块1007、音频输入模块1008、按键输入模块1009以及显示器 1010。具体的，所述输入输出模块还可包括：触摸屏以及传感器等等。其中，所述输入输出模块均通过用户接口1011与设备处理器1001进行通信。

处理器1001可以是中央处理单元(Central Processing Unit，CPU)，该处理器1001还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

终端100还可以包括输入装置和输出装置。

处理器1001用于调用存储器1002存储的数据和程序代码执行：

从待识别文本中提取多个语义特征；

在本申请的一种实现中，所述处理器1001根据第一预测向量集合中的每一个预测向量加权和得到第一激活向量之前，所述处理器1001还用于执行：根据所述胶囊网络模型的模型参数和所述多个语义特征得到所述第一预测向量集合；

所述处理器1001执行所述根据第一预测向量集合中的预测向量的加权和得到第一激活向量，具体包括执行：对所述第一预测向量集合中的预测向量进行依次加权和以及挤压 (squash)操作得到所述第一激活向量。

在本申请的一种实现中，所述处理器1001执行所述根据所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率确定所述待识别文本的意图识别结果，具体包括执行：

在本申请的一种实现中，所述处理器1001还用于执行：

在本申请的一种实现中，所述处理器1001执行根据所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率确定所述待识别文本的意图识别结果，具体包括执行：

可选地，所述处理器1001还用于执行：

在本申请的一种实现中，所述处理器1001执行所述计算所述待识别文本的意图预测为零样本意图集合中的每一个零样本意图的概率，具体包括执行：

在本申请的一种实现中，所述处理器1001执行所述根据第二预测向量集合中的预测向量的加权和得到第二激活向量之前，所述处理器1001还用于执行：根据第三预测向量集合中的每一个预测向量，所述第三预测向量集合中每一个预测向量对应权重系数和所述真实意图集合中每一个真实意图与所述第一零样本意图的相似度计算所述第二预测向量；其中，所述第三预测向量集合中的任意一个预测向量表示所述第一语义特征对所述真实意图集合中的一个真实意图的贡献；

所述处理器1001执行所述根据第二预测向量集合中的预测向量的加权和得到第二激活向量，具体包括执行：对所述第二预测向量集合中的预测向量依次进行加权求和和挤压 (squash)操作得到所述第二激活向量。

请参阅图11所示的意图识别系统，该意图识别系统110包括模型训练装置111和意图识别装置112，其中：

所述模型训练装置111包括：接收单元1111、特征提取单元1112、预测单元1113以及训练单元1114，其中：

在本申请第一种实现中，模型训练装置111用于实现胶囊网络模型的训练，各个单元的具体功能如下：

接收单元1111，用于接收训练样本，所述训练样本包括训练文本和所述训练文本的真实意图，其中，多个所述训练样本中的真实意图组成真实意图集合；

提取单元1112，用于：从所述训练文本中提取多个语义特征；

预测单元1113，用于根据胶囊网络模型的当前模型参数对所述多个语义特征进行处理，得到所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率；

训练单元1114，用于将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型，调节所述胶囊网络模型的当前模型参数；

本申请第二种实现中，模型训练装置111用于实现组合机器学习模型的训练，所述组合机器学习模型包括语义特征提取模型和胶囊网络模型，各个单元的具体功能如下：

接收单元1111，用于：接收训练样本，所述训练样本包括训练文本和所述训练文本的真实意图，其中，多个所述训练样本中的真实意图组成真实意图集合；

特征提取单元1112，用于：根据所述语义特征提取模型的当前模型参数对所述训练文本进行特征提取，得到多个语义特征；

预测单元1113，用于根据所述胶囊网络模型的当前模型参数对所述多个语义特征进行处理，得到所述训练文本的意图预测为真实意图集合中每一个真实意图的概率；

训练单元1114，用于：将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型和语义特征提取模型，调节所述意图网络模型的当前模型参数和所述语义特征提取模型的当前模型参数。

意图识别装置112包括：特征提取单元1121、第一预测单元1122以及结果确定单元1123，其中：

特征提取单元1121，用于从待识别文本中提取多个语义特征；

第一预测单元1122，用于通过胶囊网络模型对所述多个语义特征进行处理，得到所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率；

结果确定单元1123，用于根据所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率确定所述待识别文本的意图识别结果。

应理解，上述意图识别系统中的各个装置还可以包括其他单元，各个装置、单元具体的实现还可以对应参照上述图3-图7B所述的方法实施例中的相应描述，本申请实施例不再赘述。

本领域技术人员能够领会，结合本文公开描述的各种说明性逻辑框、模块和算法步骤所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件来实施，那么各种说明性逻辑框、模块、和步骤描述的功能可作为一或多个指令或代码在计算机可读媒体上存储或传输，且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体，其对应于有形媒体，例如数据存储媒体，或包括任何促进将计算机程序从一处传送到另一处的媒体 (例如，根据通信协议)的通信媒体。以此方式，计算机可读媒体大体上可对应于(1)非暂时性的有形计算机可读存储媒体，或(2)通信媒体，例如信号或载波。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本申请中描述的技术的指令、代码和/ 或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

作为实例而非限制，此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM 或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储指令或数据结构的形式的所要程序代码并且可由计算机存取的任何其它媒体。并且，任何连接被恰当地称作计算机可读媒体。举例来说，如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令，那么同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。但是，应理解，所述计算机可读存储媒体和数据存储媒体并不包括连接、载波、信号或其它暂时媒体，而是实际上针对于非暂时性有形存储媒体。如本文中所使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。

可通过例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此，如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外，在一些方面中，本文中所描述的各种说明性逻辑框、模块、和步骤所描述的功能可以提供于经配置以用于编码和解码的专用硬件和/或软件模块内，或者并入在组合编解码器中。而且，所述技术可完全实施于一或多个电路或逻辑元件中。

本申请的技术可在各种各样的装置或设备中实施，包含无线手持机、集成电路(IC)或一组IC(例如，芯片组)。本申请中描述各种组件、模块或单元是为了强调用于执行所揭示的技术的装置的功能方面，但未必需要由不同硬件单元实现。实际上，如上文所描述，各种单元可结合合适的软件和/或固件组合在编码解码器硬件单元中，或者通过互操作硬件单元(包含如上文所描述的一或多个处理器)来提供。

以上所述，仅为本申请示例性的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种用于识别意图的胶囊网络模型的训练方法，其特征在于，所述方法包括：

从所述训练文本中提取多个语义特征；

2.根据权利要求1所述的方法，其特征在于，所述将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型，调节所述胶囊网络模型的当前模型参数，包括：

3.根据权利要求2所述的方法，其特征在于，所述损失函数为：

其中，L为所述损失函数，m⁺-||v_k||为所述第一误差，||v_k||-m^-为所述第二误差，y为所述训练文本的真实意图，k为所述真实意图集合中真实意图的索引，y_k为所述真实意图集合中的真实意图k；当y＝y_k时，[[y＝y_k]]＝1；当y≠y_k时，[[y＝y_k]]＝0；当y≠y_k时，[[y≠y_k]]＝1；当y＝y_k时，[[y≠y_k]]＝0；m⁺为正类间隔，m-为负类间隔，||v_k||为所述训练文本的意图预测为所述真实意图k的概率。

4.根据权利要1-3任一项所述的方法，其特征在于，所述根据多个预测向量的加权和得到第一激活向量之前，所述处理还包括：所述根据胶囊网络模型的当前模型参数和所述多个语义特征得到所述多个预测向量；

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

6.一种用于识别意图的组合机器学习模型的训练方法，其特征在于，所述组合机器学习模型包括语义特征提取模型和胶囊网络模型，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述语义特征提取模型为自注意机制神经网络模型，所述根据所述语义特征提取模型的当前模型参数，通过所述语义特征提取模型对所述训练文本进行处理，得到多个语义特征，具体包括：

M＝A·H；

A＝soft max(W_s2tanh(W_s1H^T))

8.根据权利要求6或7所述的方法，其特征在于，所述将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型，调节所述胶囊网络模型的当前模型参数，包括：

9.根据权利要求8所述的方法，其特征在于，所述损失函数：

其中，L为所述损失函数，m⁺-||v_k||为所述第一误差，||v_k||-m^-为所述第二误差，y为所述训练文本的真实意图，k为所述真实意图集合中真实意图的索引，y_k为所述真实意图集合中的真实意图k；当y＝y_k时，[[y＝y_k]]＝1；当y≠y_k时，[[y＝y_k]]＝0；当y≠y_k时，[[y≠y_k]]＝1；当y＝y_k时，[[y≠y_k]]＝0；m⁺为正类间隔，m^-为负类间隔，||v_k||为所述训练文本的意图预测为所述真实意图k的概率。

10.根据权利要求6-9任一项所述的方法，其特征在于，所述根据多个预测向量的加权和得到第一激活向量之前，所述处理还包括：所述根据胶囊网络模型的当前模型参数和所述多个语义特征得到所述多个预测向量；

11.根据权利要求6-10任一项所述的方法，其特征在于，所述组合机器学习模型还包括意图关联层，所述方法还包括：

12.一种意图识别方法，其特征在于，包括：

从待识别文本中提取多个语义特征；

13.根据权利要求12所述的方法，其特征在于，所述根据第一预测向量集合中的每一个预测向量加权和得到第一激活向量之前，所述处理还包括：所述根据所述胶囊网络模型的模型参数和所述多个语义特征得到所述第一预测向量集合；

14.根据权利要求12或13所述的方法，其特征在于，所述根据所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率确定所述待识别文本的意图识别结果，包括：

15.根据权利要求12或13所述的方法，其特征在于，所述方法还包括：

16.根据权利要求12或13所述的方法，其特征在于，所述根据所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率确定所述待识别文本的意图识别结果，包括：

17.根据权利要求16所述的方法，其特征在于，所述根据所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率确定所述待识别文本的意图识别结果，还包括：

18.根据权利要求14或17所述的方法，其特征在于，所述计算所述待识别文本的意图预测为零样本意图集合中的每一个零样本意图的概率包括：

19.根据权利要求18所述的方法，其特征在于，根据第二预测向量集合中的预测向量的加权和得到第二激活向量之前，所述方法还包括：根据第三预测向量集合中的每一个预测向量，所述第三预测向量集合中每一个预测向量对应权重系数和所述真实意图集合中每一个真实意图与所述第一零样本意图的相似度计算所述第二预测向量；其中，所述第三预测向量集合中的任意一个预测向量表示所述第一语义特征对所述真实意图集合中的一个真实意图的贡献；

20.一种模型训练装置，其特征在于，所述模型训练装置包括：

提取单元，用于：从所述训练文本中提取多个语义特征；

21.根据权利要求20所述的装置，其特征在于，所述训练单元具体用于：

22.根据权利要求21所述的装置，其特征在于，所述损失函数为：

23.根据权利要20-22任一项所述的装置，其特征在于，所述预测单元还用于：在所述根据多个预测向量的加权和得到第一激活向量之前，所述根据胶囊网络模型的当前模型参数和所述多个语义特征得到所述多个预测向量；

24.根据权利要求20-23任一项所述的装置，其特征在于，所述装置还包括：

25.一种模型训练装置，其特征在于，所述装置用于训练组合机器学习模型，所述组合机器学习模型包括语义特征提取模型和胶囊网络模型，所述装置包括：

26.根据权利要求25所述的装置，其特征在于，所述语义特征提取模型为自注意机制神经网络模型，所述特征提取单元，具体用于：

M＝A·H；

A＝sof tmax(W_s2tanh(W_s1H^T))

27.根据权利要求25或26所述的装置，其特征在于，所述训练单元具体用于：

28.根据权利要求27所述的装置，其特征在于，所述损失函数：

29.根据权利要求25-28任一项所述的装置，其特征在于，所述预测单元还用于：在根据多个预测向量的加权和得到第一激活向量之前所述根据胶囊网络模型的当前模型参数和所述多个语义特征得到所述多个预测向量；

30.根据权利要求25-29任一项所述的装置，其特征在于，所述组合机器学习模型还包括意图关联层，所述装置还包括：

31.一种意图识别装置，其特征在于，包括：

特征提取单元，用于从待识别文本中提取多个语义特征；

32.根据权利要求31所述的装置，其特征在于，所述第一预测单元还用于：在所述根据第一预测向量集合中的每一个预测向量加权和得到第一激活向量之前，根据所述胶囊网络模型的模型参数和所述多个语义特征得到所述第一预测向量集合；

所述第一预测单元执行所述根据第一预测向量集合中的预测向量的加权和得到第一激活向量，具体包括执行：对所述第一预测向量集合中的预测向量进行依次加权和以及挤压(squash)操作得到所述第一激活向量。

33.根据权利要求31或32所述的装置，其特征在于，所述结果确定单元具体用于：

34.根据权利要求31或32所述的装置，其特征在于，所述装置还包括：

35.根据权利要求31或32所述的装置，其特征在于，所述结果确定单元具体用于：

36.根据权利要求35所述的装置，其特征在于，所述装置还包括：

37.根据权利要求33或36所述的装置，其特征在于，所述第二预测单元具体用于：

38.根据权利要求37所述的装置，其特征在于，所述第二预测单元还用于：在所述根据第二预测向量集合中的预测向量的加权和得到第二激活向量之前，根据第三预测向量集合中的每一个预测向量，所述第三预测向量集合中每一个预测向量对应权重系数和所述真实意图集合中每一个真实意图与所述第一零样本意图的相似度计算所述第二预测向量；其中，所述第三预测向量集合中的任意一个预测向量表示所述第一语义特征对所述真实意图集合中的一个真实意图的贡献；

所述第二预测单元执行所述根据第二预测向量集合中的预测向量的加权和得到第二激活向量，具体执行：对所述第二预测向量集合中的预测向量依次进行加权求和和挤压(squash)操作得到所述第二激活向量。

39.一种计算设备，其特征在于，所述计算设备包括处理器和耦合所述处理器的存储器，所述存储器用于数据和程序代码，所述处理器用于调用所述存储器存储的程序代码执行如权利要求1-5任意一项权利要求所述的用于识别意图的胶囊网络模型的训练方法。

40.一种计算设备，其特征在于，所述计算设备包括处理器和耦合所述处理器的存储器，所述存储器用于数据和程序代码，所述处理器用于调用所述存储器存储的程序代码执行如权利要求6-11任意一项权利要求所述的用于识别意图的组合机器学习模型的训练方法。

41.一种计算设备，其特征在于，所述计算设备包括处理器和耦合所述处理器的存储器，所述存储器用于数据和程序代码，所述处理器用于调用所述存储器存储的程序代码执行如权利要求12-19任意一项权利要求所述的意图识别方法。

42.一种计算机存储介质，其特征在于，所述计算机存储介质用于计算机软件指令，所述计算机软件指令当被计算机执行时使所述计算机执行如权利要求1-5中任一权利要求所述的用于识别意图的胶囊网络模型的训练方法。

43.一种计算机存储介质，其特征在于，所述计算机存储介质用于计算机软件指令，所述计算机软件指令当被计算机执行时使所述计算机执行如权利要求6-11任意一项权利要求所述的用于识别意图的组合机器学习模型的训练方法。

44.一种计算机存储介质，其特征在于，所述计算机存储介质用于计算机软件指令，所述计算机软件指令当被计算机执行时使所述计算机执行如权利要求12-19任意一项权利要求所述的意图识别方法。