CN114997174A

CN114997174A - 意图识别模型训练及语音意图识别方法、装置和相关设备

Info

Publication number: CN114997174A
Application number: CN202210517517.2A
Authority: CN
Inventors: 张旭龙; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-09-02
Anticipated expiration: 2042-05-13
Also published as: CN114997174B

Abstract

本申请涉及人工智能技术，提出一种意图识别模型训练及语音意图识别方法、装置和相关设备，该方法包括：获取标注有用户意图标签的样本语音作为数据集；将对样本语音进行语音识别得到的样本文本特征和从样本语音提取的样本语音特征输入至待训练的意图识别模型得到至少两个意图隐变量，对所有意图隐变量进行融合得到融合意图特征表示，根据融合意图特征表示进行意图预测，得到预测意图标签；计算损失函数用以更新模型参数，直至模型收敛，得到已训练的意图识别模型。本申请通过从语音中以多维度获取意图相关信息进行融合识别到更完整和准确的用户意图。

Description

意图识别模型训练及语音意图识别方法、装置和相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种意图识别模型训练及语音意图识别方法、装置和相关设备。

背景技术

不论是语音还是文字都蕴含着用户通过自然语言表达出的各种意图或需求。准确的挖掘用户意图能够为后续服务提供有效支撑。现有技术往往是通过对语音进行语音识别提取出文本内容，然后根据文本内容来挖掘用户意图，这种方式提取的信息单一不够全面，导致语音中的重要信息例如用户语气和停顿、韵律、节奏、音调等语音能额外表达出来的信息丢失或被过滤，进而不能准确地识别出用户意图。如何通过提供的语音或口语化的形式表达准确地挖掘用户的语义意图是亟需解决的问题。

发明内容

为了解决现有技术中从语音中提取的信息不全面且单一导致不能准确挖掘出用户意图的的技术问题。本申请提供了一种意图识别模型训练及语音意图识别方法、装置和相关设备，其主要目的在从语音中以多维度获取信息进行融合得到完整的用户意图。

为实现上述目的，本申请提供了一种意图识别模型的训练方法，该方法包括：

获取数据集，其中，数据集所包含的每条样本语音标注有对应的用户意图标签；

对样本语音进行语音识别，得到样本语音的样本识别文本对应的样本文本特征；

提取样本语音对应的样本语音特征；

将样本文本特征和样本语音特征输入至待训练的意图识别模型，通过待训练的意图识别模型得到至少两个意图隐变量，对所有意图隐变量进行融合得到融合意图特征表示，根据融合意图特征表示进行意图预测，得到预测意图标签；

计算整体损失函数，根据整体损失函数计算得到的梯度更新模型参数，直至模型收敛，得到已训练的意图识别模型，其中，整体损失函数包括分类损失函数，分类损失函数是根据预测意图标签和对应的用户意图标签计算得到的。

此外，为实现上述目的，本申请还提供了一种语音意图识别方法，该方法包括：

对目标语音进行语音识别，得到目标语音对应的目标文本特征；

提取目标语音对应的目标语音特征；

将目标文本特征和目标语音特征输入至已训练的语音意图识别模型，通过已训练的语音意图识别模型得到至少两个目标意图隐变量，对所有目标意图隐变量进行融合得到目标融合意图特征表示，对目标融合意图特征表示进行意图识别，得到目标意图识别结果，其中，已训练的语音意图识别模型是根据前面任一项的意图识别模型的训练方法得到的。

此外，为实现上述目的，本申请还提供了一种意图识别模型的训练装置，该装置包括：

第一数据获取模块，用于获取数据集，其中，数据集所包含的每条样本语音标注有对应的用户意图标签；

第一语音识别模块，用于对样本语音进行语音识别，得到样本语音的样本识别文本对应的样本文本特征；

第一音频特征提取模块，用于提取样本语音对应的样本语音特征；

模型训练模块，用于将样本文本特征和样本语音特征输入至待训练的意图识别模型，通过待训练的意图识别模型得到至少两个意图隐变量，对所有意图隐变量进行融合得到融合意图特征表示，根据融合意图特征表示进行意图预测，得到预测意图标签；

参数更新模块，用于计算整体损失函数，根据整体损失函数计算得到的梯度更新模型参数，直至模型收敛，得到已训练的意图识别模型，其中，整体损失函数包括分类损失函数，分类损失函数是根据预测意图标签和对应的用户意图标签计算得到的。

为实现上述目的，本申请还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时执行如前面任一项的意图识别模型的训练方法的步骤，和/或，处理器执行计算机可读指令时执行如前面任一项的语音意图识别方法的步骤。

为实现上述目的，本申请还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行如前面任一项的意图识别模型的训练方法的步骤，和/或，使得处理器执行如前面任一项的语音意图识别方法的步骤。

本申请提出的意图识别模型训练及语音意图识别方法、装置和相关设备，通过文本特征和语音特征获取意图隐变量并对意图隐变量进行融合，以获取多个维度的意图相关信息，进而获得准确度更高的意图识别模型，提高了模型精度，且从语音中以多维度获取信息进行融合得到完整的用户意图，提高了用户意图识别的准确度，降低了由于提取信息单一导致语音中额外信息丢失而造成的意图识别不准确的风险。

附图说明

图1为本申请一实施例中意图识别模型的训练方法的流程示意图；

图2为本申请一实施例中语音意图识别模型的结构框图；

图3为本申请一实施例中意图识别模型的训练装置的结构框图；

图4为本申请一实施例中计算机设备的内部结构框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为本申请一实施例中意图识别模型的训练方法的流程示意图。参考图1，该意图识别模型的训练方法包括以下步骤S100-S500。

S100：获取数据集，其中，数据集所包含的每条样本语音标注有对应的用户意图标签。

具体地，数据集包括多条样本语音。样本语音是经过清洗去噪处理后得到的，对样本语音进行用户意图标签标注即得到一条样本。可以将数据集划分为训练集和测试集。通过训练集对待训练的意图识别模型进行训练，通过测试集对已训练的意图识别模型进行性能测试。

另外，应用于不同领域的意图识别可以采用对应领域的样本语音和标签，这样得到的语音识别模型能够更精准的识别该领域的语音中的用户意图。

S200：对样本语音进行语音识别，得到样本语音的样本识别文本对应的样本文本特征。

具体地，语音识别具体是将语音转换为文本。具体可以使用已训练的语音识别模型对样本语音进行语音识别，得到样本语音对应的识别文本的样本文本特征。样本文本特征具体是一种样本识别文本对应的一种向量表示。

S300：提取样本语音对应的样本语音特征。

具体地，语音特征具体是一种声学特征。例如，可以为语音(音频)对应的线性频谱特征、mel频谱特征(梅尔频谱特征)、MFCC特征、FBANK特征中的一种。

S400：将样本文本特征和样本语音特征输入至待训练的意图识别模型，通过待训练的意图识别模型得到至少两个意图隐变量，对所有意图隐变量进行融合得到融合意图特征表示，根据融合意图特征表示进行意图预测，得到预测意图标签。

具体地，样本文本特征和样本语音特征输入至待训练的意图识别模型后，待训练的意图识别模型会对样本文本特征和样本语音特征进行编码以得到至少两个意图隐变量，或者，待训练的意图识别模型会对样本文本特征和样本语音特征进行编码得到中间隐变量，对中间隐变量进行重构后解码再编码得到至少两个意图隐变量。待训练的意图识别模型再对所有意图隐变量进行融合得到意图特征表示，对融合意图特征表示进行意图预测分类，得到预测意图标签。

S500：计算整体损失函数，根据整体损失函数计算得到的梯度更新模型参数，直至模型收敛，得到已训练的意图识别模型，其中，整体损失函数包括分类损失函数，分类损失函数是根据预测意图标签和对应的用户意图标签计算得到的。

具体地，计算预测意图标签和该样本语音对应的用户意图标签之间的差异得到分类损失函数。

如果待训练的意图识别模型还未收敛，则根据损失函数计算梯度，根据梯度对待训练的意图识别模型的模型参数进行更新得到更新的意图识别模型。循环执行上述步骤S100-S500对更新的意图识别模型进行训练，直至最终得到的已训练的意图识别模型满足收敛条件。其中，收敛条件可以为损失函数减小到收敛阈值，或者，训练次数达到最低次数阈值。

本实施例通过文本特征和语音特征获取意图隐变量并对意图隐变量进行融合，以获取多个维度的意图相关信息，进而获得准确度更高的意图识别模型，提高了模型精度。本实施例能够同时保留文本和语音中的文本内容、韵律、节奏和音调等语音信息，进而使得获取到的意图识别模型能够从语音中以多维度获取信息进行融合得到完整的用户意图，提高了用户意图识别的准确度，降低了由于提取信息单一导致语音中额外信息丢失而造成的意图识别不准确的风险。

在一个实施例中，步骤S400具体包括：

通过待训练意图识别模型对输入的样本文本特征和样本语音特征进行编码得到内容隐变量和意图隐变量，对内容隐变量和意图隐变量进行重构得到重构文本特征和重构语音特征，对从重构文本特征和重构语音特征中提取的意图隐变量进行融合得到第一融合意图特征表示，根据第一融合意图特征表示进行意图预测，得到预测意图标签。

具体地，不论是文本特征还是语音特征中都包含有内容信息和意图信息。文本特征中的意图信息包含在文本语义中。语音特征中的意图信息包含在语音特征中的韵律、节奏和音调等信息中。

本实施例会通过对根据文本特征和语音特征得到的内容隐变量和意图隐变量进行重构来得到重构文本特征和重构语音特征。然后从重构文本特征和重构语音特征中分别提取的意图隐变量进行融合得到第一融合意图特征表示。

重构文本特征和重构语音特征兼具样本文本特征和样本语音特征中的隐变量，即都是根据样本文本特征和样本语音特征中的隐变量重构得到的，因此，通过重构可以增强编码器学习到的意图信息及内容信息尽可能相通一致完整且是想要的信息，达到还原目的。另外，通过重构损失可以提高模型精度，降低人工训练成本。

在一个实施例中，通过待训练意图识别模型对输入的样本文本特征和样本语音特征进行编码得到内容隐变量和意图隐变量，对内容隐变量和意图隐变量进行重构得到重构文本特征和重构语音特征，对从重构文本特征和重构语音特征中提取的意图隐变量进行融合得到第一融合意图特征表示，根据第一融合意图特征表示进行意图预测，得到预测意图标签，包括：

通过待训练意图识别模型的第一内容编码器对样本文本特征进行编码，得到表征样本识别文本内容的第一内容隐变量；

通过待训练意图识别模型的第一意图编码器对样本文本特征进行编码，得到表征样本识别文本意图的第一意图隐变量；

通过待训练意图识别模型的第二内容编码器对样本语音特征进行编码，得到表征样本语音内容的第二内容隐变量；

通过待训练意图识别模型的第二意图编码器对样本语音特征进行编码，得到表征样本语音意图的第二意图隐变量；

将第一内容隐变量和第二意图隐变量输入至待训练意图识别模型的第一生成器，通过第一生成器生成重构文本特征；

将第二内容隐变量和第一意图隐变量输入至待训练意图识别模型的第二生成器，通过第二生成器生成重构语音特征；

通过待训练意图识别模型的第三意图编码器对重构文本特征进行编码，得到表征重构文本意图的第三意图隐变量；

通过待训练意图识别模型的第四意图编码器对重构语音特征进行编码，得到表征重构语音意图的第四意图隐变量；

通过待训练意图识别模型的融合层对第三意图隐变量和第四意图隐变量进行融合得到第一融合意图特征表示；

将第一融合意图特征表示输入至待训练意图识别模型的预测层，通过预测层进行意图预测，得到预测意图标签。

具体地，图2为本申请一实施例中语音意图识别模型的结构框图；参考图2，第一内容编码器用于编码样本文本特征得到样本文本特征的内容信息相关的第一内容隐变量。

第一意图编码器用于编码样本文本特征得到样本文本特征的意图信息相关的第一意图隐变量。

第二内容编码器用于编码样本语音特征得到样本语音特征的内容信息相关的第二内容隐变量。

第二意图编码器用于编码样本语音特征得到样本语音特征的意图信息相关的第二意图隐变量。其中，隐变量都是对应信息的一种向量表示。

第三意图编码器用于编码重构文本特征得到重构文本特征的意图信息相关的第三意图隐变量。

第四意图编码器用于编码重构语音特征得到重构语音特征的意图信息相关的第四意图隐变量。

第一内容编码器即文本内容编码器，第一意图编码器和第三意图编码器均为文本意图编码器。第一内容编码器和第一意图编码器所采用的网络结构均为两层LSTM。

第二意图编码器和第四意图编码器均为语音意图编码器，第二内容编码器即语音内容编码器，第二内容编码器和第二意图编码器的网络结构均采用4层2D卷积层实现。

第一生成器即文本生成器，是一个全连接层。第二生成器即语音生成器，是一个2D的转置卷积层实现。生成器是一种解码器。

第一内容编码器、第二内容编码器、第一意图编码器、第二意图编码器、第一生成器、第二生成器、融合层、预测层构成了一个大的网络，训练时联合训练，输入是语音特征以及对应的文本特征，输出是意图类别标签。

第一内容编码器和第一意图编码器均属于文本编码器，其输入均为一维的向量数据。第二内容编码器和第二意图编码器均属于语音编码器，其输入均为二维的向量数据。经过编码器后所有编码器的输出都是一维的向量数据。在一维上可以使用concat进行拼接得到仍然是一维的向量即隐变量，然后第一生成器接收一维隐变量执行解码器的作用生成一维的重构文本特征。第二生成器接收一维隐变量执行解码器的作用生成二维的重构语音特征。

另外，第一意图编码器和第三意图编码器可以采用参数共享机制，共享相同参数。同理，第二意图编码器和第四意图编码器也可以采用参数共享机制，共享相同参数。这样可以压缩整个模型的参数量，使得模型训练快速收敛。

当然，在另外一个具体实施例中，也可以采用不同的参数，这样编码器会针对不同阶段的输入进行更加细化的区分，得到的模型更精确。

经过重构然后分类进行预测结果，再不断地反向传递损失，调整编码器参数达到模型训练的目的。另外，通过重构损失可以提高模型精度，降低人工训练成本。

本实施例通过交叉解码来重构文本特征和重构语音特征，通过文本重构损失和语音重构损失来保障重构内容的尽可能完整性。而为了完成重构任务，中间的神经网络就需要学习文本特征中的意图和语音特征中的意图使得他们尽可能相通，才能达到还原的目的。这也保障了第一内容编码器和第二内容编码器要尽可能的学习内容才能和交叉后的意图结合完成最终的重构任务。且能够保证学习到的意图隐变量是想要的意图信息。

在一个实施例中，步骤S400具体包括：

通过待训练意图识别模型的融合层对第一意图隐变量和第二意图隐变量进行融合得到第二融合意图特征表示；

将第二融合意图特征表示输入至待训练意图识别模型的预测层，通过预测层进行意图预测，得到预测意图标签。

具体地，本实施例直接对样本文本特征编码得到样本文本对应的第一意图隐变量，直接对样本语音特征编码得到样本语音对应的第二意图隐变量。然后将两个意图隐变量融合得到第二融合意图特征表示。本实施例不需要进行文本和语音的重构，减少了模型训练和计算开销。而且本实施例从文本和语音中提取意图特征表示进行融合得到融合后的意图，能够从多维度兼顾文本和语音中隐含的意图信息，使得最终识别到的意图更加准确。

在一个实施例中，整体损失函数还包括第一重构损失函数、第二重构损失函数和分布损失函数中的至少一种；

其中，第一重构损失函数是根据样本文本特征与重构文本特征计算得到的；

第二重构损失函数是根据样本语音特征与重构语音特征计算得到的；

分布损失函数是根据第五隐变量和第六隐变量计算得到的。

具体地，模型的整体损失函数具体可以是其所包含的各个子损失函数之间的加权求和。例如，整体损失函数包括的子损失函数包括分类损失函数、第一重构损失函数、第二重构损失函数和分布损失函数。则整体损失函数为分类损失函数、第一重构损失函数、第二重构损失函数和分布损失函数的加权求和。如果整体损失函数包括的子损失函数包括分类损失函数、第一重构损失函数和第二重构损失函数。则整体损失函数为分类损失函数、第一重构损失函数和第二重构损失函数的加权求和，等等，本申请不局限于此。

其中，分布损失函数L_ce是通过KL散度得到的。为了进一步增强学习到的意图内容是相似的，使用分布损失函数进行了KL散度约束，使得第三意图编码器编码后的隐向量和第四意图编码器编码后的隐向量尽可能一致同分布。KL散度是用来度量两个数据分布的相似性，具体计算如公式(1)所示：

其中，p(x)和q(x)为两个数据分布。在本实施例中，p(x)和q(x)分别为第三隐变量和第四隐变量的数据分布。

融合意图后通过预测层即softmax层输出类别的后验概率，对应概率最大的标签即为预测意图标签，预测意图标签和真实意图标签之间计算误差得到交叉熵损失(CE损失)即为分类损失函数。

文本到文本的第一重构损失函数L_rec(T)为MSE损失，以及语音特征到语音特征的第二重构损失函数L_rec(M)为MSE损失。

通过特征提取对音频中包含的意图信息进行特征表示，通过意图重构的编码方式来保障提取的文本中的意图信息和音频特征中的意图信息具有相似的特征表示及可以保障文本和音频内容意图的一致性。使得语音意图识别模型能够获取想要的意图信息，提高了模型对意图识别的准确性。

在一个实施例中，样本语音特征和重构语音特征为同一类语音特征，且为梅尔频谱特征、MFCC特征、FBANK特征中的一种。

具体地，样本语音输入前经过降噪和序列提取处理，序列提取处理提取的语音特征序列为MFCC特征序列或FBANK特征序列。

提取的语音特征不同，对应的第二内容编码器、第二意图编码器、第二生成器、第四意图编码器根据语音特征进行相应的设计和构建。

在一个实施例中，本申请还提供了一种语音意图识别方法，该方法包括：

提取目标语音对应的目标语音特征；

具体地，意图识别可以看做是一个分类问题，定义不同的意图类别。对于用户输入的问题或口述的语音，根据统计分类模型计算每一个意图的概率，最终给出用户意图。

在一个具体实施例中通过已训练的意图识别模型的第一内容编码器对目标文本特征进行编码，得到表征目标识别文本内容的第一目标内容隐变量；

通过已训练的意图识别模型的第一意图编码器对目标文本特征进行编码，得到表征目标识别文本意图的第一目标意图隐变量；

通过已训练的意图识别模型的第二内容编码器对目标语音特征进行编码，得到表征目标语音内容的第二目标内容隐变量；

通过已训练的意图识别模型的第二意图编码器对目标语音特征进行编码，得到表征目标语音意图的第二目标意图隐变量；

将第一目标内容隐变量和第二目标意图隐变量输入至已训练的意图识别模型的第一生成器，通过第一生成器生成目标重构文本特征；

将第二目标内容隐变量和第一目标意图隐变量输入至已训练的意图识别模型的第二生成器，通过第二生成器生成目标重构语音特征；

通过已训练的意图识别模型的第三意图编码器对目标重构文本特征进行编码，得到表征目标重构文本意图的第三目标意图隐变量；

通过已训练的意图识别模型的第四意图编码器对目标重构语音特征进行编码，得到表征目标重构语音意图的第四目标意图隐变量；

通过已训练的意图识别模型的融合层对第三目标意图隐变量和第四目标意图隐变量进行融合得到第一目标融合意图特征表示；

将第一目标融合意图特征表示输入至已训练的意图识别模型的预测层，通过预测层进行意图预测，得到目标预测意图标签作为目标意图识别结果。

在另一个具体实施例中，通过已训练的意图识别模型的第一意图编码器对目标文本特征进行编码，得到表征目标识别文本意图的第一目标意图隐变量；

通过已训练的意图识别模型的融合层对第一目标意图隐变量和第二目标意图隐变量进行融合得到第二目标融合意图特征表示；

将第二目标融合意图特征表示输入至已训练的意图识别模型的预测层，通过预测层进行意图预测，得到目标预测意图标签作为目标意图识别结果，其中，目标预测意图标签表征了意图内容。

本实施例通过前面模型训练方法得到的意图识别模型来进行语音意图识别，通过意图重构的编码方式或意图融合的方式来保证提取出文本意图和语音意图最终得到的意图更加准确。

本申请的意图识别模型的训练方法和语音意图识别方法可以应用于各种不同领域。例如，在医疗领域，尽管有虚拟病人进行谈话可以加快医学生对闻诊技术的练习，但是同样是要耗费大量人力以及时间去进行学习，而且对数据的收集和整理也是一项需要较高专业知识的依赖。本申请可以辅助医生进行病症检测，提供可能的病症预测。通过特定问诊环境下与病人围绕发病情况以及症状进行交流获取录音音频文件，通过本申请提出的方法将录音音频作为训练样本，从录音音频中进行文本特征和语音特征提取进行语音意图识别模型的训练，并根据已训练的语音意图识别模型进行医学病症分类判断。本申请与现有方法不同在于，除了对音频进行语音识别获取文本内容进行判断意外，另外保留了原始音频内容，对原始音频进行音频特征提取，在音频特征和文本特征结合的层面进行分析判断，能够更加准确的诊断病人的疾病。

本申请还可以用到图像生成领域，图像生成指定参考图片风格的目标图像，保持原图像内容不变只改变风格。应用到不同领域需要设计对应的训练数据和输入层的网络结构以及最终输出层对应的分类或者生成结果。

本申请实施例可以基于人工智能技术进行模型训练和意图识别。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

图3为本申请一实施例中意图识别模型的训练装置的结构框图。参考图3，该意图识别模型的训练装置包括：

第一数据获取模块100，用于获取数据集，其中，数据集所包含的每条样本语音标注有对应的用户意图标签；

第一语音识别模块200，用于对样本语音进行语音识别，得到样本语音的样本识别文本对应的样本文本特征；

第一音频特征提取模块300，用于提取样本语音对应的样本语音特征；

模型训练模块400，用于将样本文本特征和样本语音特征输入至待训练的意图识别模型，通过待训练的意图识别模型得到至少两个意图隐变量，对所有意图隐变量进行融合得到融合意图特征表示，根据融合意图特征表示进行意图预测，得到预测意图标签；

参数更新模块500，用于计算整体损失函数，根据整体损失函数计算得到的梯度更新模型参数，直至模型收敛，得到已训练的意图识别模型，其中，整体损失函数包括分类损失函数，分类损失函数是根据预测意图标签和对应的用户意图标签计算得到的。

在一个实施例中，模型训练模块400，具体用于：

在一个实施例中，模型训练模块400具体包括：

第一内容编码模块，用于通过待训练意图识别模型的第一内容编码器对样本文本特征进行编码，得到表征样本识别文本内容的第一内容隐变量；

第一意图编码模块，用于通过待训练意图识别模型的第一意图编码器对样本文本特征进行编码，得到表征样本识别文本意图的第一意图隐变量；

第二内容编码模块，用于通过待训练意图识别模型的第二内容编码器对样本语音特征进行编码，得到表征样本语音内容的第二内容隐变量；

第二意图编码模块，用于通过待训练意图识别模型的第二意图编码器对样本语音特征进行编码，得到表征样本语音意图的第二意图隐变量；

第一生成模块，用于将第一内容隐变量和第二意图隐变量输入至待训练意图识别模型的第一生成器，通过第一生成器生成重构文本特征；

第二生成模块，用于将第二内容隐变量和第一意图隐变量输入至待训练意图识别模型的第二生成器，通过第二生成器生成重构语音特征；

第三意图编码模块，用于通过待训练意图识别模型的第三意图编码器对重构文本特征进行编码，得到表征重构文本意图的第三意图隐变量；

第四意图编码模块，用于通过待训练意图识别模型的第四意图编码器对重构语音特征进行编码，得到表征重构语音意图的第四意图隐变量；

融合模块，用于通过待训练意图识别模型的融合层对第三意图隐变量和第四意图隐变量进行融合得到第一融合意图特征表示；

预测模块，用于将第一融合意图特征表示输入至待训练意图识别模型的预测层，通过预测层进行意图预测，得到预测意图标签。

在一个实施例中，模型训练模块400具体包括：

融合模块，用于通过待训练意图识别模型的融合层对第一意图隐变量和第二意图隐变量进行融合得到第二融合意图特征表示；

预测模块，用于将第二融合意图特征表示输入至待训练意图识别模型的预测层，通过预测层进行意图预测，得到预测意图标签。

分布损失函数是根据第五隐变量和第六隐变量计算得到的。

本申请还提供了一种语音意图识别装置，该装置包括：

第二语音识别模块，用于对目标语音进行语音识别，得到目标语音对应的目标文本特征；

第二音频特征提取模块，用于提取目标语音对应的目标语音特征；

语音意图识别模块，用于将目标文本特征和目标语音特征输入至已训练的语音意图识别模型，通过已训练的语音意图识别模型得到至少两个目标意图隐变量，对所有目标意图隐变量进行融合得到目标融合意图特征表示，对目标融合意图特征表示进行意图识别，得到目标意图识别结果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。

关于意图识别模型的训练装置的具体限定可以参见上文中对于意图识别模型的训练方法的限定，在此不再赘述。关于语音意图识别装置的具体限定可以参见上文中对于语音意图识别法的限定，在此不再赘述。上述意图识别模型的训练装置和语音意图识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图4为本申请一实施例中计算机设备的内部结构框图。如图4所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，该计算机设备的处理器用于提供计算和控制能力。存储器包括存储介质和内存储器。存储介质可以是非易失性存储介质，也可以是易失性存储介质。存储介质存储有操作系统，还可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器实现意图识别模型的训练方法或语音意图识别方法。该内存储器为存储介质中的操作系统和计算机可读指令的运行提供环境。该内存储器中也可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行意图识别模型的训练方法或语音意图识别方法。该计算机设备的网络接口用于与外部服务器通过网络连接通信。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令(例如计算机程序)，处理器执行计算机可读指令时实现上述实施例中意图识别模型的训练方法的步骤(例如图1所示的步骤S100至步骤S500及该方法的其它扩展和相关步骤的延伸)，或，处理器执行计算机可读指令时实现上述实施例中语音意图识别方法的步骤。或者，处理器执行计算机可读指令时实现上述实施例中意图识别模型的训练装置的各模块/单元的功能(例如图3所示模块100至模块500的功能)，或，处理器执行计算机可读指令时实现上述实施例中意图识别装置的各模块/单元的功能。为避免重复，这里不再赘述。

处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

存储器可用于存储计算机可读指令和/或模块，处理器通过运行或执行存储在存储器内的计算机可读指令和/或模块，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。

存储器可以集成在处理器中，也可以与处理器分开设置。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机可读指令，计算机可读指令被处理器执行时实现上述实施例中意图识别模型的训练方法的步骤(例如图1所示的步骤S100至步骤S500及该方法的其它扩展和相关步骤的延伸)，或，计算机可读指令被处理器执行时实现上述实施例中语音意图识别方法的步骤。或者，计算机可读指令被处理器执行时实现上述实施例中意图识别模型的训练装置的各模块/单元的功能(例如图3所示模块100至模块500的功能)，或，计算机可读指令被处理器执行时实现上述实施例中语音意图识别装置的各模块/单元的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指示相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍速率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种意图识别模型的训练方法，其特征在于，所述方法包括：

获取数据集，其中，所述数据集所包含的每条样本语音标注有对应的用户意图标签；

对所述样本语音进行语音识别，得到所述样本语音的样本识别文本对应的样本文本特征；

提取所述样本语音对应的样本语音特征；

将所述样本文本特征和样本语音特征输入至待训练的意图识别模型，通过所述待训练的意图识别模型得到至少两个意图隐变量，对所有意图隐变量进行融合得到融合意图特征表示，根据所述融合意图特征表示进行意图预测，得到预测意图标签；

计算整体损失函数，根据所述整体损失函数计算得到的梯度更新模型参数，直至模型收敛，得到已训练的意图识别模型，其中，所述整体损失函数包括分类损失函数，所述分类损失函数是根据所述预测意图标签和对应的用户意图标签计算得到的。

2.根据权利要求1所述的方法，其特征在于，所述将所述样本文本特征和样本语音特征输入至待训练的意图识别模型，通过所述待训练的意图识别模型得到至少两个意图隐变量，对所有意图隐变量进行融合得到融合意图特征表示，根据所述融合意图特征表示进行意图预测，得到预测意图标签，包括：

通过待训练意图识别模型对输入的所述样本文本特征和样本语音特征进行编码得到内容隐变量和意图隐变量，对所述内容隐变量和意图隐变量进行重构得到重构文本特征和重构语音特征，对从所述重构文本特征和重构语音特征中提取的意图隐变量进行融合得到第一融合意图特征表示，根据所述第一融合意图特征表示进行意图预测，得到预测意图标签。

3.根据权利要求2所述的方法，其特征在于，所述通过待训练意图识别模型对输入的所述样本文本特征和样本语音特征进行编码得到内容隐变量和意图隐变量，对所述内容隐变量和意图隐变量进行重构得到重构文本特征和重构语音特征，对从所述重构文本特征和重构语音特征中提取的意图隐变量进行融合得到第一融合意图特征表示，根据所述第一融合意图特征表示进行意图预测，得到预测意图标签，包括：

通过待训练意图识别模型的第一内容编码器对所述样本文本特征进行编码，得到表征样本识别文本内容的第一内容隐变量；

通过所述待训练意图识别模型的第一意图编码器对所述样本文本特征进行编码，得到表征样本识别文本意图的第一意图隐变量；

通过所述待训练意图识别模型的第二内容编码器对所述样本语音特征进行编码，得到表征样本语音内容的第二内容隐变量；

通过所述待训练意图识别模型的第二意图编码器对所述样本语音特征进行编码，得到表征样本语音意图的第二意图隐变量；

将所述第一内容隐变量和第二意图隐变量输入至所述待训练意图识别模型的第一生成器，通过所述第一生成器生成重构文本特征；

将所述第二内容隐变量和第一意图隐变量输入至所述待训练意图识别模型的第二生成器，通过所述第二生成器生成重构语音特征；

通过所述待训练意图识别模型的第三意图编码器对所述重构文本特征进行编码，得到表征重构文本意图的第三意图隐变量；

通过所述待训练意图识别模型的第四意图编码器对所述重构语音特征进行编码，得到表征重构语音意图的第四意图隐变量；

通过所述待训练意图识别模型的融合层对所述第三意图隐变量和第四意图隐变量进行融合得到第一融合意图特征表示；

将所述第一融合意图特征表示输入至所述待训练意图识别模型的预测层，通过所述预测层进行意图预测，得到预测意图标签。

4.根据权利要求3所述的方法，其特征在于，所述整体损失函数还包括第一重构损失函数、第二重构损失函数和分布损失函数中的至少一种；

其中，所述第一重构损失函数是根据所述样本文本特征与重构文本特征计算得到的；

所述第二重构损失函数是根据所述样本语音特征与重构语音特征计算得到的；

所述分布损失函数是根据所述第五隐变量和第六隐变量计算得到的。

5.根据权利要求1所述的方法，其特征在于，所述将所述样本文本特征和样本语音特征输入至待训练的意图识别模型，通过所述待训练的意图识别模型得到至少两个意图隐变量，对所有意图隐变量进行融合得到融合意图特征表示，根据所述融合意图特征表示进行意图预测，得到预测意图标签，包括：

通过待训练意图识别模型的第一意图编码器对所述样本文本特征进行编码，得到表征样本识别文本意图的第一意图隐变量；

通过所述待训练意图识别模型的融合层对所述第一意图隐变量和第二意图隐变量进行融合得到第二融合意图特征表示；

将所述第二融合意图特征表示输入至所述待训练意图识别模型的预测层，通过所述预测层进行意图预测，得到预测意图标签。

6.根据权利要求2-4任一项所述的方法，其特征在于，

所述样本语音特征和重构语音特征为同一类语音特征，且为梅尔频谱特征、MFCC特征、FBANK特征中的一种。

7.一种语音意图识别方法，其特征在于，所述方法包括：

对目标语音进行语音识别，得到所述目标语音对应的目标文本特征；

提取所述目标语音对应的目标语音特征；

将所述目标文本特征和目标语音特征输入至已训练的语音意图识别模型，通过所述已训练的语音意图识别模型得到至少两个目标意图隐变量，对所有目标意图隐变量进行融合得到目标融合意图特征表示，对所述目标融合意图特征表示进行意图识别，得到目标意图识别结果，其中，所述已训练的语音意图识别模型是根据权利要求1-6任一项所述的意图识别模型的训练方法得到的。

8.一种意图识别模型的训练装置，其特征在于，所述装置包括：

第一数据获取模块，用于获取数据集，其中，所述数据集所包含的每条样本语音标注有对应的用户意图标签；

第一语音识别模块，用于对所述样本语音进行语音识别，得到所述样本语音的样本识别文本对应的样本文本特征；

第一音频特征提取模块，用于提取所述样本语音对应的样本语音特征；

模型训练模块，用于将所述样本文本特征和样本语音特征输入至待训练的意图识别模型，通过所述待训练的意图识别模型得到至少两个意图隐变量，对所有意图隐变量进行融合得到融合意图特征表示，根据所述融合意图特征表示进行意图预测，得到预测意图标签；

参数更新模块，用于计算整体损失函数，根据所述整体损失函数计算得到的梯度更新模型参数，直至模型收敛，得到已训练的意图识别模型，其中，所述整体损失函数包括分类损失函数，所述分类损失函数是根据所述预测意图标签和对应的用户意图标签计算得到的。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时执行如权利要求1-6任一项所述的意图识别模型的训练方法的步骤，和/或，所述处理器执行所述计算机可读指令时执行如权利要求7所述的语音意图识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时，使得所述处理器执行如权利要求1-6任一项所述的意图识别模型的训练方法的步骤，和/或，使得所述处理器执行如权利要求7所述的语音意图识别方法的步骤。