CN112669821B

CN112669821B - 一种语音意图识别方法、装置、设备及存储介质

Info

Publication number: CN112669821B
Application number: CN202011496997.6A
Authority: CN
Inventors: 王庆然; 高万军; 万根顺; 高建清; 陈志刚; 刘聪; 王智国; 胡国平
Original assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2024-04-30
Anticipated expiration: 2040-12-17
Also published as: CN112669821A

Abstract

本申请提供了一种语音意图识别方法、装置、设备及存储介质，其中，方法包括：首先获取目标说话人的语音数据，作为目标语音数据，然后获取目标语音数据对应的语音特征，并对目标语音数据进行语音识别，获取目标语音数据的识别文本对应的文本特征，最后根据目标语音数据对应的语音特征以及目标语音数据的识别文本对应的文本特征，确定目标说话人的意图。本申请提供的语音意图识别方法通过将目标语音数据的识别文本信息与语音信息相结合，对目标语音数据进行意图识别，可以有效弥补单纯利用识别文本进行意图识别可能造成的识别错误，进而可以提高目标语音数据的意图识别结果的准确度。

Description

一种语音意图识别方法、装置、设备及存储介质

技术领域

本申请涉及意图识别技术领域，尤其涉及一种语音意图识别方法、装置、设备及存储介质。

背景技术

随着人工智能技术在学术界的快速发展以及在生活中的广泛使用，语音交互成为人与机器之间沟通交流的重要桥梁。机器人系统要与用户对话并完成特定任务，其中一个关键技术是语音意图识别。语音意图识别指的是，基于说话人的语音识别出说话人的意图，从而为后端特定的服务目标提供有效的支撑。

目前的语音意图识别方案大多为基于语音识别文本的意图识别方案，即，先对目标说话人的语音进行语音识别，以得到识别文本，然后根据识别文本确定目标说话人的意图。然而，在对目标说话人的语音进行语音识别时，可能出现识别错误，若出现识别错误，尤其是与意图识别强相关的关键词出现识别错误，将导致获得错误的意图识别结果。

发明内容

有鉴于此，本申请提供了一种语音意图识别方法、装置、设备及存储介质，用以提高语音意图识别的准确性，其技术方案如下：

一种语音意图识别方法，包括：

获取目标说话人的语音数据，作为目标语音数据；

获取所述目标语音数据对应的语音特征；

对所述目标语音数据进行语音识别，并获取所述目标语音数据的识别文本对应的文本特征；

根据所述目标语音数据对应的语音特征以及所述目标语音数据的识别文本对应的文本特征，确定所述目标说话人的意图。

可选的，所述目标语音数据对应的语音特征为无信道干扰且能够表征所述目标语音数据中的语速、停顿和音色信息的向量。

可选的，所述所述获取所述目标语音数据对应的语音特征，包括：

获取所述目标语音数据的声学特征；

将所述目标语音数据的声学特征输入预先建立的声学模型，获得所述声学模型的隐层输出向量，作为所述目标语音数据对应的语音特征。

可选的，所述对所述目标语音数据进行语音识别，包括：

对所述目标语音数据逐段进行语音识别；

所述获取所述目标语音数据的识别文本对应的文本特征，包括：

在每获得一段语音数据的识别文本后，获取该段语音数据的识别文本对应的文本特征。

可选的，所述对所述目标语音数据逐段进行语音识别，包括：

利用预先建立的基于滑窗的语音识别模型，对所述目标语音数据逐段进行语音识别；其中，所述语音识别模型采用标注有识别文本的训练语音数据训练得到，利用所述语音识别模型识别的每段语音数据的长度由所述滑窗决定。

可选的，所述目标语音数据对应的语音特征由所述目标语音数据中各帧语音分别对应的语音特征组成；

所述根据所述目标语音数据对应的语音特征以及所述目标语音数据的识别文本对应的文本特征，确定所述目标说话人的意图，包括：

将所述目标语音数据对应的语音特征与所述目标语音数据的识别文本对应的文本特征逐帧对齐拼接，拼接后得到的帧级别特征作为目标特征；

根据所述目标特征，确定所述目标说话人的意图。

可选的，所述根据所述目标特征，确定所述目标说话人的意图，包括：

在每获得所述目标语音数据中一目标语音帧对应的拼接特征后，将所述目标语音帧对应的拼接特征输入预先建立的意图预测模型进行意图预测，得到所述目标语音帧对应的意图预测结果，其中，所述意图预测模型采用标注有意图的训练特征训练得到，所述训练特征通过将训练语音数据对应的语音特征与所述训练语音数据的识别文本对应的文本特征逐帧对齐拼接得到；

根据所述目标语音帧对应的意图预测结果确定所述目标语音帧对应的意图，根据截至当前已确定出的意图，确定所述目标说话人的意图。

可选的，所述根据截至当前已确定出的意图，确定所述目标说话人的意图，包括：

统计截至当前确定出的每种意图对应的语音帧的帧数；

若帧数最多的意图与帧数第二多的意图的帧数差大于预设的第一帧数阈值，则将所述帧数最多的意图确定为所述目标说话人的意图。

统计截至当前对应的意图为目标意图的连续语音帧的帧数，其中，所述目标意图为当前确定出的意图；

若所述对应的意图为所述目标意图的连续语音帧的数量达到预设的第二帧数阈值，则将所述目标意图确定为所述目标说话人的意图。

可选的，所述所述根据所述目标特征，确定所述目标说话人的意图，包括：

将所述目标特征输入预先建立的意图预测模型进行意图预测，其中，所述意图预测模型采用标注有意图的训练特征训练得到，所述训练特征通过将训练语音数据对应的语音特征与所述训练语音数据的识别文本对应的文本特征逐帧对齐拼接得到；

在获得所述目标语音数据中所有语音帧分别对应的意图预测结果后，根据所述目标语音数据中所有语音帧分别对应的意图预测结果，确定所述目标说话人的意图。

可选的，所述根据所述目标语音数据中所有语音帧分别对应的意图预测结果，确定所述目标说话人的意图，包括：

根据所述目标语音数据中所有语音帧分别对应的意图预测结果，确定所述目标语音数据中所有语音帧分别对应的意图；

统计确定出的每种意图对应的语音帧的帧数；

将帧数最多的意图确定为所述目标说话人的意图。

可选的，所述目标语音数据对应的语音特征由所述目标语音数据中对应于所述识别文本中每个文本单元的语音段对应的语音特征组成；

将所述目标语音数据对应的语音特征与所述目标语音数据的识别文本对应的文本特征，按所述目标语音数据的识别文本中的文本单元进行拼接，拼接后得到的特征作为目标特征；

根据所述目标特征，确定所述目标说话人的意图。

在每获得所述目标语音数据中一目标语音段对应的拼接特征后，将所述目标语音段对应的拼接特征输入预先建立的意图预测模型进行意图预测，得到所述目标语音段对应的意图预测结果，其中，所述意图预测模型采用标注有意图的训练特征训练得到，所述训练特征通过将训练语音数据对应的语音特征与所述训练语音数据的识别文本对应的文本特征，按所述训练文本中的文本单元拼接得到；

根据所述目标语音段对应的意图预测结果确定所述目标语音段对应的意图，根据截至当前已确定出的意图，确定所述目标说话人的意图。

一种语音意图识别装置，包括：语音数据获取模块、语音特征获取模块、语音识别模块、文本特征获取模块和说话人意图确定模块；

所述语音数据获取模块，用于获取目标说话人的语音数据，作为目标语音数据；

所述语音特征获取模块，用于获取所述目标语音数据对应的语音特征；

所述语音识别模块，用于对所述目标语音数据进行语音识别，得到所述目标语音数据的识别文本；

所述文本特征获取模块，用于获取所述目标语音数据的识别文本对应的文本特征；

所述说话人意图确定模块，用于根据所述目标语音数据对应的语音特征以及所述目标语音数据的识别文本对应的文本特征，确定所述目标说话人的意图。

可选的，所述说话人意图确定模块包括：特征拼接子模块和意图确定子模块；

所述特征拼接子模块，用于将所述目标语音数据对应的语音特征与所述目标语音数据的识别文本对应的文本特征逐帧对齐拼接，拼接后得到的帧级别特征作为目标特征；

所述意图确定子模块，用于根据所述目标特征，确定所述目标说话人的意图。

所述说话人意图确定模块包括：第一特征拼接子模块和第一意图确定子模块；

所述第一特征拼接子模块，用于将所述目标语音数据对应的语音特征与所述目标语音数据的识别文本对应的文本特征逐帧对齐拼接，拼接后得到的帧级别特征作为目标特征；

所述第一意图确定子模块，用于根据所述目标特征，确定所述目标说话人的意图。

所述说话人意图确定模块包括：第二特征拼接子模块和第二意图确定子模块；

所述第二特征拼接子模块，用于将所述目标语音数据对应的语音特征与所述目标语音数据的识别文本对应的文本特征，按所述目标语音数据的识别文本中的文本单元进行拼接，拼接后得到的特征作为目标特征；

所述第二意图确定子模块，用于根据所述目标特征，确定所述目标说话人的意图。

一种语音意图识别设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的语音意图识别方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现上述任一项所述的语音意图识别方法的各个步骤。

经由上述方案可知，本申请提供的语音意图识别方法、装置、设备及存储介质，首先获取目标说话人的目标语音数据，在获得目标语音数据后，一方面，获取目标语音数据对应的语音特征，另一方面，对目标语音数据进行语音识别，并获取目标语音数据的识别文本对应的文本特征，最后根据目标语音数据对应的语音特征以及目标语音数据的识别文本对应的文本特征确定目标说话人的意图。本申请提供的语音意图识别方法通过将目标语音数据的识别文本信息与语音信息相结合，对目标语音数据进行意图识别，可以有效弥补单纯利用识别文本进行意图识别可能造成的识别错误，进而可以提高目标语音数据的意图识别结果的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的语音意图识别方法的流程示意图；

图2为本申请实施例提供的根据目标语音数据对应的语音特征以及目标语音数据的识别文本对应的文本特征确定目标说话人的意图的一流程示意图；

图3为本申请实施例提供的根据目标特征确定目标说话人的意图的一种实现方式的流程示意图；

图4为本申请实施例提供的根据目标特征确定目标说话人的意图的另一种实现方式的流程示意图；

图5为本申请实施例提供的根据目标语音数据对应的语音特征以及目标语音数据的识别文本对应的文本特征确定目标说话人的意图的另一流程示意图；

图6为本申请实施例提供的语音意图识别装置的结构示意图；

图7为本申请实施例提供的语音意图识别设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本案发明人在实现本案的过程中发现：基于语音识别文本的意图识别方案需要等到对待识别语音数据识别结束以得到识别文本后才能进行，然而，这种方式会导致意图识别的高延时，为了降低意图识别的时延，现有技术中采用的策略是，使用较小的语音识别模型对待识别语音数据进行语音识别，然而，较小的语音识别模型的识别效果较差，即对待识别语音数据进行语音识别得到的识别文本容易出错，而识别文本出错势必影响后续的意图识别。

为了解决现有技术中基于语音识别文本的意图识别方案识别准确度不高的问题，本案发明人进行了研究，起初的思路是：彻底摒弃基于语音识别文本的意图识别方案，沿着这个思路，本案发明人想到，可以先从待识别的语音数据中提取发音分类信息，然后根据发音分类信息进行意图识别。然而，本案发明人通过研究发现，针对同一待识别语音数据，基于上述的意图识别方案可能会得到两个不同的意图识别结果，即上述的意图识别方案稳定性较差。

基于上述基于语音信息的意图识别方案存在的问题，本案发明人继续进行研究，在研究过程中，本案发明人想到，在基于语音信息进行意图识别时，若辅以文本信息，或许能够获得不错的意图识别效果，沿着这个思路，本案发明人继续进行研究，最终提出了一种效果较好的意图识别方法，该意图识别方法可应用于任何需要进行意图识别的应用场景，该意图识别方法的基本构思是：获取待进行意图识别的目标语音数据对应的语音特征，并获取目标语音数据的语音识别文本对应的文本特征，根据获取的语音特征和获取的文本特征确定意图。

本申请提供的意图识别方法可应用于具有数据处理能力的电子设备，电子设备可以为网络侧设置的服务器，也可以为用户侧使用的终端设备，如手机、PC(个人计算机)、PAD、车载设备、智能家居设备、智能穿戴设备、智能音箱等，电子设备可获取待进行意图识别的目标语音数据，采用本申请提供的语音意图识别方法对目标语音数据进行意图识别。

接下来通过下述实施例对本申请提供的意图识别方法进行介绍。

第一实施例

请参阅图1，示出了本申请实施例提供的语音意图识别方法的流程示意图，该方法可以包括：

步骤S101：获取目标说话人的语音数据，作为目标语音数据。

具体的，获取语音采集设备采集的语音数据，从语音采集设备采集的语音数据中获取目标说话人(即主说话人)的语音数据。

需要说明的是，语音采集设备采集的语音数据一般不只包含目标说话人的语音数据，比如，可能包含其他说话人的语音数据，另外，自然场景下，语音很可能存在背景及杂音，步骤S101的目的在于，从语音采集设备采集的语音数据中获取目标说话人的语音数据，以避免非目标说话人的语音数据对目标语音数据的意图识别的影响。

从语音采集设备采集的语音数据中获取目标说话人的语音数据的实现方式有多种：在一种可能的实现方式中，可直接从语音采集设备采集的语音数据中分离出目标说话人的语音数据；在另一种可能的实现方式，可结合说话人的图像数据，从语音采集设备采集的语音数据中分离出目标说话人的语音数据，其中，说话人的图像数据为语音采集设备进行语音采集同时，图像采集设备针对说话人采集的图像数据，结合说话人的图像数据，能够更加准确地从语音采集设备采集的语音数据中分离出目标说话人的语音数据。

步骤S102a：获取目标语音数据对应的语音特征。

其中，目标语音数据对应的语音特征为无信道干扰且包含目标说话人的语速、停顿、音色等信息的向量。

获取目标语音数据对应的语音特征的实现方式有多种，本实施例提供如下两种可选的实现方式：

第一种实现方式：

获取目标语音数据对应的语音特征的过程包括：利用预先建立的声学模型获取目标语音数据对应的语音特征。

更为具体的，获取目标语音数据的声学特征，将目标语音数据的声学特征输入预先建立的声学模型，得到声学模型隐层输出的无信道干扰且包含目标说话人的语速、停顿、音色等信息的语音特征。需要说明的是，声学模型所做的是，将声学特征转成音素序列，音素序列类似文字序列，其不包含信道信息，因此，声学模型隐层输出的是无信道干扰的特征向量。

优选的，声学模型可以为基于BottleNet结构的、基于交叉熵CE准则的神经网络模型，比如，可以为基于BottleNet结构的卷积神经网络CNN，也可以为基于BottleNet结构的循环神经网络RNN。目标语音数据经基于BottleNet结构的神经网络模型进行充分抽象之后，得到包含的目标说话人的语速、停顿、音色等信息的语音特征。

需要说明的是，基于BottleNet结构的神经网络模型包含输入层、输出层和二者之间的隐层，本实施例中目标语音数据对应的语音特征为目标语音数据输入基于BottleNet结构的神经网络模型后，基于BottleNet结构的神经网络模型中隐层输出的向量，比如，最后一个隐层输出的向量。基于BottleNet结构的神经网络模型可将目标语音数据压缩成低维的中间隐层向量，该向量能够较好地模拟目标语音数据本身的信息。

经由上述实现获得的语音特征由目标语音数据中各语音帧分别对应的语音特征组成。

第二种实现方式：

获取目标语音数据对应的语音特征的过程包括：利用基于encoder(编码器)-decoder(解码器)架构的语音识别模型中的encoder获取目标语音数据对应的语音特征。

具体的，获取目标语音数据的声学特征，将目标语音数据的声学特征输入基于encoder-decoder架构的语音识别模型中的encoder，得到目标语音数据对应的语音特征。经由encoder获得的语音特征由目标语音数据中对应于目标语音数据的识别文本中每个文本单元的语音段对应的语音特征组成。

步骤S102b：对目标语音数据进行语音识别，并获取目标语音数据的识别文本对应的文本特征。

对目标语音数据进行语音识别的方式有多种，本实施例提供如下可选的两种实现方式：

第一种实现方式：对目标语音数据进行整段识别，即对整段目标语音数据识别完之后，才会得到识别文本。

然而，上述语音识别方式的延时比较高，语音识别的高延时会导致意图识别的高延时，这意味着，用户在说完一句话之后，很长时间才能得到意图识别结果，因此，用户体验较差。

鉴于上述实现方式存在的问题，本实施例提供了第二种较为优选的实现方式：对目标语音数据逐段进行语音识别，即每识别一段语音数据，即获得一识别文本，最终根据各段语音数据的识别文本得到目标语音数据的识别文本。

可选的，可利用预先建立的基于滑窗的语音识别模型，对目标语音数据逐段进行语音识别。其中，语音识别模型采用标注有识别文本的训练语音数据训练得到，利用语音识别模型识别的每段语音数据的长度由滑窗决定。

本实施例中基于滑窗的语音识别模型为轻量级的语音识别模型，需要说明的是，轻量级的语音识别模型为参数量小于预设参数量阈值的语音识别模型，由于语音识别模型的参数量较少，因此，其具有较高的识别效率。

在利用预先建立的基于滑窗的语音识别模型，对目标语音数据逐段进行语音识别时，将目标语音数据输入基于滑窗的语音识别模型，基于滑窗的语音识别模型基于滑窗获取待识别的语音数据段，对待识别的语音数据段进行识别。

由此可见，采用基于滑窗的语音识别模型，对目标语音数据逐段进行语音识别，不必等到对目标语音数据识别完后才能得到识别文本，而是在每识别完一段语音数据后便可得到识别文本，获得的识别文本可进行后续处理。

在获得识别文本后，可将识别文本处理成能够表征识别文本的特定维数的向量，可选的，可利用文本抽象模型(比如RNN、Transformer)将识别文本抽象成特定维数的文本表征向量，比如，N维的文本表征向量，可选的，文本抽象模型可以但不限定为基于RNN的模型、基于Transformer的模型。

步骤S103：根据目标语音数据对应的语音特征以及目标语音数据的识别文本对应的文本特征，确定目标说话人的意图。

目标语音数据对应的语音特征包含了目标说话人的语速、停顿、音色等信息，这些信息是目标语音数据的识别文本对应的文本特征所没有的，当进行意图识别时，在目标语音数据的识别文本对应的文本特征的基础上，结合目标语音数据对应的语音特征，可获得比较准确的意图识别结果。

本申请实施例提供的语音意图识别方法，首先获取目标说话人的目标语音数据，在获得目标语音数据后，一方面，获取目标语音数据对应的语音特征，另一方面，对目标语音数据进行语音识别，并获取目标语音数据的识别文本对应的文本特征，最后根据目标语音数据对应的语音特征以及目标语音数据的识别文本对应的文本特征确定目标说话人的意图。本申请提供的语音意图识别方法通过将目标语音数据的识别文本信息与语音信息相结合，对目标语音数据进行意图识别，可以有效弥补单纯利用识别文本进行意图识别可能造成的识别错误，进而可以提高目标语音数据的意图识别结果的准确度。

第二实施例

本实施例对上述实施例中的“根据目标语音数据对应的语音特征以及目标语音数据的识别文本对应的文本特征，确定目标说话人的意图”的具体实现过程进行介绍。

上述实施例提到，目标语音数据对应的语音特征可以由目标语音数据中各语音帧分别对应的语音特征组成，在这种情况下，如图2所示，根据目标语音数据对应的语音特征以及目标语音数据的识别文本对应的文本特征，确定目标说话人的意图的过程可以包括：

步骤S201：将目标语音数据对应的语音特征与目标语音数据的识别文本对应的文本特征逐帧对齐拼接，拼接后得到的帧级别特征作为目标特征。

假设目标语音数据包含N帧，目标语音数据对应的语音特征为T帧N维的向量，目标语音数据的识别文本对应的文本特征为T帧M维的向量，则将T帧N维的向量与T帧M维的向量按照时间帧的维度对齐，然后拼接，得到T帧M+N维的向量，T帧M+N维的向量作为用于意图识别的目标特征。

步骤S202：根据目标特征，确定目标说话人的意图。

具体的，根据目标特征，确定目标说话人的意图的实现方式有多种，本实施例提供如下两种可选的实现方式：

第一种实现方式为非实时的意图确定方式：

请参阅图3，示出了第一种实现方式的流程示意图，可以包括：

步骤S301：将目标特征输入预先建立的意图预测模型进行意图预测。

其中，意图预测模型采用标注有意图的训练特征训练得到，训练特征通过将训练语音数据对应的语音特征与训练语音数据的识别文本对应的文本特征逐帧对齐拼接得到。可选的，意图预测模型可以为基于单向RNN的模型。

需要说明的是，获取训练语音数据对应的语音特征的实现过程与上述获取目标语音数据对应的语音特征的第一种实现方式的实现过程类似，获取训练语音数据的识别文本对应的文本特征的实现过程与获取目标语音数据的识别文本对应的文本特征的实现过程类似，本实施例在此不做赘述。

本实施例中，可在每获得目标语音数据中一语音帧对应的拼接特征后，将其输入意图预测模型进行意图预测，也可在获得目标语音数据中所有语音帧分别对应的拼接特征后，将目标语音数据中所有语音帧分别对应的拼接特征一并输入意图预测模型进行意图预测，不管是哪种方式，意图预测模型针对目标语音数据中的每一语音帧，都会输出对应的意图预测结果。

需要说明的是，一语音帧对应的意图预测结果为该语音帧对应的意图分别为设定的各意图的概率。示例性的，意图识别的场景为车载人车交互场景，则设定的意图可以包括两类，第一类为“人与人之间的语音交流”，第二类为“人与车之间的语音交互”，其中，第二类意图可进一步包括“音乐”、“导航”、“广播”、“车控”、“电话”和“其它”，也就是说，设定的意图总共包括7种，即“人与人之间的语音交流”、“音乐”、“导航”、“广播”、“车控”、“电话”和“其他”，一个语音帧对应的意图预测概率包括该语音帧对应的意图为“人与人之间的语音交流”、“音乐”、“导航”、“广播”、“车控”、“电话”和“其他”这7种意图的概率，即P_人与人、P_音乐、P_导航、P_广播、P_车控、P_电话、P_其他。

步骤S302：在获得目标语音数据中所有语音帧分别对应的意图预测结果后，根据目标语音数据中所有语音帧分别对应的意图预测结果，确定目标说话人的意图。

具体的，根据目标语音数据中所有语音帧分别对应的意图预测结果，确定目标说话人的意图的过程可以包括：

步骤S3021、根据目标语音数据中所有语音帧分别对应的意图预测结果，确定目标语音数据中所有语音帧分别对应的意图。

其中，根据一语音帧对应的意图预测结果确定该语音帧对应的意图的过程包括：将该语音帧对应的意图预测结果中最大概率对应的意图，确定为目标语音帧对应的意图。

步骤S3022、统计确定出的每种意图对应的语音帧的帧数。

步骤S3023、将帧数最多的意图确定为目标说话人的意图。

示例性的，意图识别的场景为上述提及的车载人车交互场景，假设目标用户说了一句话“帮我打电话给张三”，针对内容为“帮我打电话给张三”的目标语音数据的每个语音帧，都会获得对应的意图，假设目标语音数据总共包括230个语音帧，其中，180个语音帧对应的意图为“电话”，20个语音帧对应的意图为“音乐”，10个语音帧对应的意图为“导航”，…，由于帧数最多的意图为“电话”，因此，确定目标说话人的意图为“电话”。

第二种实现方式为实时的意图确定方式：

请参阅图4，示出了第二种实现方式的流程示意图，可以包括：

步骤S401：在每获得目标语音数据中一目标语音帧对应的拼接特征后，将目标语音帧对应的拼接特征输入预先建立的意图预测模型进行意图预测，得到目标语音帧对应的意图预测结果。

步骤S402：根据目标语音帧对应的意图预测结果确定目标语音帧对应的意图，根据截至当前已确定出的意图，确定目标说话人的意图。

步骤S402中“根据截至当前已确定出的意图，确定目标说话人的意图”的实现方式有多种，本实施例提供如下两种可选的实现方式：

第一种实现方式：

步骤S402-a1、统计截至当前确定出的每种意图对应的语音帧的帧数。

步骤S402-a2：判断帧数最多的意图与帧数第二多的意图的帧数差是否大于或等于预设的第一帧数阈值。

若帧数最多的意图与帧数第二多的意图的帧数差大于或等于预设的第一帧数阈值，则执行步骤S402-a3；若帧数最多的意图与帧数第二多的意图的帧数差小于预设的第一帧数阈值，则在获得下一语音帧对应的意图预测概率时进行意图判断。

步骤S402-a3：将帧数最多的意图确定为目标说话人的意图。

示例性的，意图识别的场景为上述提及的车载人车交互场景，假设目标用户说了一句话“帮我打电话给张三”，针对内容为“帮我打电话给张三”的目标语音数据的每个语音帧，均会获得7个概率，根据每个语音帧对应的7个概率，可确定出每个语音帧对应的意图，假设目标语音帧为第200个语音帧，截至第200个语音帧，有140个语音帧对应的意图为“电话”，有20个语音帧对应的意图为“音乐”，有10个语音帧对应的意图为“导航”，…，帧数最多的意图为“电话”，帧数第二多的意图为“音乐”，意图“电话”与意图“导航”的帧数差为120，假设第一帧数阈值为110，由于帧数最多的意图与帧数第二多的意图的帧数差120大于第一帧数阈值为110，因此，可确定目标说话人的意图为“电话”。

第二种实现方式：

步骤S402-b1、统计截至当前，对应的意图为目标意图的连续语音帧的帧数，其中，目标意图为当前确定出的意图。

步骤S402-b2：判断对应的意图为目标意图的连续语音帧的数量是否达到预设的第二帧数阈值。

若对应的意图为目标意图的连续语音帧的数量达到预设的第二帧数阈值，则执行步骤S402-b3；若对应的意图为目标意图的连续语音帧的数量未达到预设的第二帧数阈值，则在确定出下一语音帧对应的意图后，再次进行意图判断。

步骤S402-b3：将目标意图确定为目标说话人的意图。

示例性的，意图识别的场景为上述提及的车载人车交互场景，假设目标用户说了一句话“帮我打电话给张三”，针对内容为“帮我打电话给张三”的目标语音数据的每个语音帧，都会获得对应的意图，假设目标语音帧为第200个语音帧，第200个语音帧对应的意图为“电话”，第200个语音帧之前的连续99个语音帧对应的意图均为“电话”，即第101～第200个语音帧对应的意图均为电话，也就是说，有连续100个语音帧对应的意图均为电话，假设第二帧数阈值为100，由于意图为“电话”的连续语音帧的数量达到第二帧数阈值100，因此，确定目标说话人的意图为“电话”。

经由上述第一实施例和第二实施例提供的语音意图识别方法，在进行意图识别时，由于同时结合了文本信息和语音信息，因此，能够获得比较准确的识别结果。

第三实施例

上述第二实施例提供了目标语音数据对应的语音特征由目标语音数据中各语音帧分别对应的语音特征组成时，根据目标语音数据对应的语音特征以及目标语音数据的识别文本对应的文本特征，确定目标说话人的意图的实现方式，第一实施例中提到，目标语音数据对应的语音特征还可以由目标语音数据中对应于目标语音数据的识别文本中每个文本单元的语音段对应的语音特征组成，本实施例对该情况下，根据目标语音数据对应的语音特征以及目标语音数据的识别文本对应的文本特征，确定目标说话人的意图的实现过程进行介绍。

请参阅图5，示出了目标语音数据对应的语音特征由目标语音数据中对应于目标语音数据的识别文本中每个文本单元的语音段对应的语音特征组成时，根据目标语音数据对应的语音特征以及目标语音数据的识别文本对应的文本特征，确定目标说话人的意图的流程示意图，可以包括：

步骤S501：将目标语音数据对应的语音特征与目标语音数据的识别文本对应的文本特征，按目标语音数据的识别文本中的文本单元进行拼接，拼接后得到的特征作为目标特征。

假设目标语音数据的识别文本中包括文本单元1～文本单元N，则目标语音数据对应的语音特征由目标语音数据中对应于文本单元1的语音段1对应的语音特征、对应于文本单元2的语音段2对应的语音特征、…、对应于文本单元N的语音段N对应的语音特征组成，在进行特征拼接时，将语音段1对应的语音特征与文本单元1对应的文本特征拼接、将语音段2对应的语音特征与文本单元2对应的文本特征拼接，…，将语音段N对应的语音特征与文本单元N对应的文本特征拼接。

步骤S502：根据目标特征，确定目标说话人的意图。

根据目标特征，确定目标说话人的意图的实现方式有多种，本实施例提供如下两种可选的实现方式：

第一种实现方式：

步骤S502-a1、在每获得目标语音数据中一目标语音段对应的拼接特征后，将目标语音段对应的拼接特征输入预先建立的意图预测模型进行意图预测，得到目标语音段对应的意图预测结果。

其中，意图预测模型采用标注有意图的训练特征训练得到，训练特征通过将训练语音数据对应的语音特征与训练语音数据的识别文本对应的文本特征，按训练文本中的文本单元拼接得到。

步骤S502-a2、根据目标语音段对应的意图预测结果确定目标语音段对应的意图，并根据截至当前已确定出的意图，确定目标说话人的意图。

在一种可能的实现方式中，可统计截至当前确定出的每种意图对应的语音段的数量，若语音段数量最多的意图与语音段数量第二多的意图的语音段数差大于或等于预设的第三数量阈值，将语音段数最多的意图确定为目标说话人的意图，否则在获得下一语音段对应的意图时继续进行意图判断；在另一种可能的实现方式中，可统计截至当前，对应的意图为目标意图的连续语音段的数量，其中，目标意图为当前确定出的意图，若对应的意图为目标意图的连续语音段的数量达到预设的第四数量阈值，则将目标意图确定为目标说话人的意图，否则在确定出下一语音段对应的意图时继续进行意图判断。

第二种实现方式：

步骤S502-b1、将目标特征输入预先建立的意图预测模型进行意图预测。

本实施例中，可在每获得目标语音数据中一语音段对应的拼接特征后，将其输入意图预测模型进行意图预测，也可在获得目标语音数据中所有语音段分别对应的拼接特征后，将目标语音数据中所有语音段分别对应的拼接特征一并输入意图预测模型进行意图预测，不管是哪种方式，意图预测模型针对目标语音数据中的每一语音段，都会输出对应的意图预测结果。需要说明的是，一语音段对应的意图预测结果包括该语音段对应的意图为设定的各意图的概率。

步骤S502-b2、在获得目标语音数据中所有语音段分别对应的意图预测结果后，根据目标语音数据中所有语音段分别对应的意图预测结果，确定目标说话人的意图。

具体的，首先根据目标语音数据中所有语音段分别对应的意图预测结果，确定目标语音数据中所有语音段分别对应的意图，然后统计确定出的每种意图对应的语音段的数量，将语音段数量最多的意图确定为目标说话人的意图。

其中，根据一语音段对应的意图预测结果确定该语音段对应的意图的过程包括：将该语音段对应的意图预测结果中最大概率对应的意图，确定为目标语音段对应的意图。

第四实施例

本申请实施例还提供了一种语音意图识别装置，下面对本申请实施例提供的语音意图识别装置进行描述，下文描述的语音意图识别装置与上文描述的语音意图识别装置可相互对应参照。

请参阅图6，示出了本申请实施例提供的语音意图识别装置的结构示意图，可以包括：语音数据获取模块601、语音特征获取模块602a、语音识别模块602b-1、文本特征获取模块602b-2和说话人意图确定模块603。其中：

语音数据获取模块601，用于获取目标说话人的语音数据，作为目标语音数据。

语音特征获取模块602a，用于获取所述目标语音数据对应的语音特征。

语音识别模块602b-1，用于对所述目标语音数据进行语音识别，得到所述目标语音数据的识别文本。

文本特征获取模块602b-2，用于获取所述目标语音数据的识别文本对应的文本特征。

说话人意图确定模块603，用于根据所述目标语音数据对应的语音特征以及所述目标语音数据的识别文本对应的文本特征，确定所述目标说话人的意图。

可选的，语音特征获取模块602a获取的语音特征为无信道干扰且能够表征所述目标语音数据中的语速、停顿和音色信息的向量。

可选的，语音特征获取模块602a可以包括：声学特征获取子模块和语音特征获取子模块。

所述声学特征获取子模块，用于获取所述目标语音数据的声学特征。

所述语音特征获取子模块，用于将所述目标语音数据的声学特征输入预先建立的声学模型，获得所述声学模型的隐层输出向量，作为所述目标语音数据对应的语音特征。

可选的，语音识别模块602b-1，具体用于对所述目标语音数据逐段进行语音识别。

相应的，文本特征获取模块602b-2，具体用于在每获得一段语音数据的识别文本后，获取该段语音数据的识别文本对应的文本特征。

可选的，语音识别模块602b-1在对所述目标语音数据逐段进行语音识别时，具体用于利用预先建立的基于滑窗的语音识别模型，对所述目标语音数据逐段进行语音识别。

其中，所述语音识别模型采用标注有识别文本的训练语音数据训练得到，利用所述语音识别模型识别的每段语音数据的长度由所述滑窗决定。

可选的，所述第一意图确定子模块，具体用于将所述目标特征逐帧输入预先建立的意图预测模型进行意图预测，在每获得所述目标语音数据中一目标语音帧对应的意图预测结果后，根据所述目标语音帧对应的意图预测结果确定所述目标语音帧对应的意图，根据截至当前已确定出的意图，确定所述目标说话人的意图。其中，所述意图预测模型采用标注有意图的训练特征训练得到，所述训练特征通过将训练语音数据对应的语音特征与所述训练语音数据的识别文本对应的文本特征逐帧对齐拼接得到。

可选的，所述第一意图确定子模块，在根据截至当前已确定出的意图，确定所述目标说话人的意图时，具体用于统计截至当前确定出的每种意图对应的语音帧的帧数；若帧数最多的意图与帧数第二多的意图的帧数差大于预设的第一帧数阈值，则将所述帧数最多的意图确定为所述目标说话人的意图。

可选的，所述第一意图确定子模块，在根据截至当前已确定出的意图，确定所述目标说话人的意图时，具体用于统计截至当前对应的意图为目标意图的连续语音帧的帧数，其中，所述目标意图为当前确定出的意图；若所述对应的意图为所述目标意图的连续语音帧的数量达到预设的第二帧数阈值，则将所述目标意图确定为所述目标说话人的意图。

可选的，所述第一意图确定子模块，具体用于将所述目标特征逐帧输入预先建立的意图预测模型进行意图预测，其中，所述意图预测模型采用标注有意图的训练特征训练得到，所述训练特征通过将训练语音数据对应的语音特征与所述训练语音数据的识别文本对应的文本特征逐帧对齐拼接得到；在获得所述目标语音数据中所有语音帧分别对应的意图预测结果后，根据所述目标语音数据中所有语音帧分别对应的意图预测结果，确定所述目标说话人的意图。

可选的，所述第一意图确定子模块在根据所述目标语音数据中所有语音帧分别对应的意图预测结果，确定所述目标说话人的意图时，具体用于根据所述目标语音数据中所有语音帧分别对应的意图预测结果，确定所述目标语音数据中所有语音帧分别对应的意图；统计确定出的每种意图对应的语音帧的帧数；将帧数最多的意图确定为所述目标说话人的意图。

可选的，第二意图确定子模块，具体用于在每获得所述目标语音数据中一目标语音段对应的拼接特征后，将所述目标语音段对应的拼接特征输入预先建立的意图预测模型进行意图预测，得到所述目标语音段对应的意图预测结果，根据所述目标语音段对应的意图预测结果确定所述目标语音段对应的意图，根据截至当前已确定出的意图，确定所述目标说话人的意图。其中，所述意图预测模型采用标注有意图的训练特征训练得到，所述训练特征通过将训练语音数据对应的语音特征与所述训练语音数据的识别文本对应的文本特征，按所述训练文本中的文本单元拼接得到。

本申请提供的语音意图识别装置，首先获取目标说话人的目标语音数据，在获得目标语音数据后，一方面，获取目标语音数据对应的语音特征，另一方面，对目标语音数据进行语音识别，并获取目标语音数据的识别文本对应的文本特征，最后根据目标语音数据对应的语音特征以及目标语音数据的识别文本对应的文本特征确定目标说话人的意图。本申请提供的语音意图识别装置通过将目标语音数据的识别文本信息与语音信息相结合，对目标语音数据进行意图识别，可以有效弥补单纯利用识别文本进行意图识别可能造成的识别错误，进而可以提高目标语音数据的意图识别结果的准确度。

第五实施例

本申请实施例还提供了一种语音意图识别设备，请参阅图7，示出了该语音意图识别设备的结构示意图，该语音意图识别设备可以包括：至少一个处理器701，至少一个通信接口702，至少一个存储器703和至少一个通信总线704；

在本申请实施例中，处理器701、通信接口702、存储器703、通信总线704的数量为至少一个，且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信；

处理器701可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器703可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取目标说话人的语音数据，作为目标语音数据；

获取所述目标语音数据对应的语音特征；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第六实施例

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取目标说话人的语音数据，作为目标语音数据；

获取所述目标语音数据对应的语音特征；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音意图识别方法，其特征在于，包括：

获取目标说话人的语音数据，作为目标语音数据；

获取所述目标语音数据对应的语音特征；

根据所述目标语音数据对应的语音特征以及所述目标语音数据的识别文本对应的文本特征，确定所述目标说话人的意图；

其中，所述目标语音数据对应的语音特征由所述目标语音数据中各语音帧分别对应的语音特征组成，所述根据所述目标语音数据对应的语音特征以及所述目标语音数据的识别文本对应的文本特征，确定所述目标说话人的意图，包括：

根据所述目标特征，确定所述目标说话人的意图；

所述根据所述目标特征，确定所述目标说话人的意图，包括：

根据所述目标语音帧对应的意图预测结果确定所述目标语音帧对应的意图，统计截至当前确定出的每种意图对应的语音帧的帧数；若帧数最多的意图与帧数第二多的意图的帧数差大于预设的第一帧数阈值，则将所述帧数最多的意图确定为所述目标说话人的意图；

或者，

统计截至当前对应的意图为目标意图的连续语音帧的帧数，其中，所述目标意图为当前确定出的意图；若所述对应的意图为所述目标意图的连续语音帧的数量达到预设的第二帧数阈值，则将所述目标意图确定为所述目标说话人的意图。

2.根据权利要求1所述的语音意图识别方法，其特征在于，所述目标语音数据对应的语音特征为无信道干扰且能够表征所述目标语音数据中的语速、停顿和音色信息的向量。

3.根据权利要求2所述语音意图识别方法，其特征在于，获取所述目标语音数据对应的语音特征，包括：

获取所述目标语音数据的声学特征；

4.根据权利要求1所述的语音意图识别方法，其特征在于，所述对所述目标语音数据进行语音识别，包括：

对所述目标语音数据逐段进行语音识别；

5.根据权利要求4所述的语音意图识别方法，其特征在于，所述对所述目标语音数据逐段进行语音识别，包括：

利用预先建立的基于滑窗的语音识别模型，对所述目标语音数据逐段进行语音识别；

6.根据权利要求1所述的语音意图识别方法，其特征在于，所述根据所述目标特征，确定所述目标说话人的意图，包括：

7.根据权利要求6所述的语音意图识别方法，其特征在于，所述根据所述目标语音数据中所有语音帧分别对应的意图预测结果，确定所述目标说话人的意图，包括：

统计确定出的每种意图对应的语音帧的帧数；

将帧数最多的意图确定为所述目标说话人的意图。

8.一种语音意图识别方法，其特征在于，包括：

获取目标说话人的语音数据，作为目标语音数据；

获取所述目标语音数据对应的语音特征；

其中，所述目标语音数据对应的语音特征由所述目标语音数据中对应于所述识别文本中每个文本单元的语音段对应的语音特征组成；

在每获得所述目标语音数据中一目标语音段对应的拼接特征后，将所述目标语音段对应的拼接特征输入预先建立的意图预测模型进行意图预测，得到所述目标语音段对应的意图预测结果，其中，所述意图预测模型采用标注有意图的训练特征训练得到，所述训练特征通过将训练语音数据对应的语音特征与所述训练语音数据的识别文本对应的文本特征，按训练文本中的文本单元拼接得到；

根据所述目标语音段对应的意图预测结果确定所述目标语音段对应的意图，根据截至当前已确定出的意图，确定所述目标说话人的意图；

统计截至当前确定出的每种意图对应的语音段的段数；若段数最多的意图与段数第二多的意图的段数差大于预设的第一段数阈值，则将所述段数最多的意图确定为所述目标说话人的意图；

或者，

统计截至当前对应的意图为目标意图的连续语音段的段数，其中，所述目标意图为当前确定出的意图；若所述对应的意图为所述目标意图的连续语音段的数量达到预设的第二段数阈值，则将所述目标意图确定为所述目标说话人的意图。

9.一种语音意图识别装置，其特征在于，包括：语音数据获取模块、语音特征获取模块、语音识别模块、文本特征获取模块和说话人意图确定模块；

所述说话人意图确定模块，用于根据所述目标语音数据对应的语音特征以及所述目标语音数据的识别文本对应的文本特征，确定所述目标说话人的意图；

所述目标语音数据对应的语音特征由所述目标语音数据中各帧语音分别对应的语音特征组成；

所述第一意图确定子模块，用于根据所述目标特征，确定所述目标说话人的意图；

所述第一意图确定子模块根据所述目标特征，确定所述目标说话人的意图，包括：

或者，

10.一种语音意图识别设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～8中任一项所述的语音意图识别方法的各个步骤。

11.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～8中任一项所述的语音意图识别方法的各个步骤。