CN110570853A

CN110570853A - 基于语音数据的意图识别方法和装置

Info

Publication number: CN110570853A
Application number: CN201910738953.0A
Authority: CN
Inventors: 王雅芳; 龙翀; 张晓彤
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2019-12-13

Abstract

本说明书实施例提供一种基于语音数据的意图识别方法和装置。方法包括：获取用户与机器人客服交互的语音数据，以及语音数据经过转换后的文本数据；至少对语音数据进行时频转换处理，得到语音数据对应的频谱数据；将频谱数据输入第一特征提取层，通过第一特征提取层输出第一特征表示；将文本数据输入第二特征提取层，通过第二特征提取层输出第二特征表示；对第一特征表示和第二特征表示，采取注意力机制进行整合得到综合特征表示；将综合特征表示输入第三特征提取层，通过第三特征提取层输出语音数据的意图类别，意图类别用于指示语音数据所表示的用户意图。能够提高基于语音数据的意图识别的准确性。

Description

基于语音数据的意图识别方法和装置

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及基于语音数据的意图识别方法和装置。

背景技术

在机器人客服回答用户问题时，常常会涉及到针对用户问句的分类。例如，确定用户问句对应的标准问句，以便由机器人客服提供该标准问句对应的答案。其中，标准问句也称为标准问题，是根据业务整理的一些用户可能问的问题。每个问题有一个问题标识。通常地，可以通过用户的语音数据获取上述用户问句。用户的语音数据可能具有不同的意图，例如，在多轮对话场景下，用户的语音数据用于对上一轮输入的信息继续补充信息；或者，用户的语音数据用于确认机器人客服提供的标准问题。意图识别是根据用户的语音数据，来判断用户的交互动作意图。机器人客服依靠意图识别的结果来执行下一步的处理。

现有技术中，基于语音数据的意图识别方法得到的意图识别的结果都不够准确，导致后续的处理不符合用户述求，用户体验不佳。

因此，希望能有改进的方案，能够提高基于语音数据的意图识别的准确性。

发明内容

本说明书一个或多个实施例描述了一种基于语音数据的意图识别方法和装置，能够提高基于语音数据的意图识别的准确性。

第一方面，提供了一种基于语音数据的意图识别方法，方法包括：

获取用户与机器人客服交互的语音数据，以及所述语音数据经过转换后的文本数据；

至少对所述语音数据进行时频转换处理，得到所述语音数据对应的频谱数据；

将所述频谱数据输入第一特征提取层，通过所述第一特征提取层输出第一特征表示；

将所述文本数据输入第二特征提取层，通过所述第二特征提取层输出第二特征表示；

对所述第一特征表示和所述第二特征表示，采取注意力机制进行整合得到综合特征表示；

将所述综合特征表示输入第三特征提取层，通过所述第三特征提取层输出所述语音数据的意图类别，所述意图类别用于指示所述语音数据所表示的用户意图。

在一种可能的实施方式中，所述至少对所述语音数据进行时频转换处理，得到所述语音数据对应的频谱数据，包括：

对所述语音数据进行语音边界检测，以从所述语音数据里识别和消除静音片段，得到所述语音数据的各有效片段；

对所述各有效片段进行时频转换处理，得到所述语音数据对应的频谱数据。

进一步地，所述对所述各有效片段进行时频转换处理，得到所述语音数据对应的频谱数据，包括：

将所述各有效片段进行分帧处理，得到多个帧；

将所述多个帧中各帧对应的时域信号分别转换为各帧对应的频域信号；

基于人的听觉特征提取所述各帧对应的频域信号的特征参数集合，所述特征参数集合作为所述语音数据对应的频谱数据。

进一步地，所述基于人的听觉特征提取所述各帧对应的频域信号的特征参数集合，所述特征参数集合作为所述语音数据对应的频谱数据，包括：

针对所述各帧对应的频域信号中目标频域信号，计算预先配置的三角形滤波器组中各个三角形滤波器对所述目标频域信号滤波后的输出信号；

分别确定各所述三角形滤波器的输出信号分别对应的对数能量；

对所述各对数能量分别进行离散余弦变换，得到所述目标频域信号的特征参数集合，所述各帧对应的频域信号的特征参数集合作为所述语音数据对应的频谱数据。

进一步地，所述频谱数据为所述各帧对应的特征参数集合组成的矩阵；所述第一特征提取层包括卷积神经网络(convolutional neural networks，CNN)。

在一种可能的实施方式中，所述将所述文本数据输入第二特征提取层，通过所述第二特征提取层输出第二特征表示，包括：

获取所述文本数据中的各个字符对应的字符嵌入向量；

至少将各个字符对应的字符嵌入向量输入所述第二特征提取层，通过所述第二特征提取层输出第二特征表示。

进一步地，所述至少将各个字符对应的字符嵌入向量输入所述第二特征提取层，包括：

获取所述各个字符的位置嵌入向量，和/或获取所述各个字符所在词的词性嵌入向量；

对所述字符嵌入向量与所述位置嵌入向量和/或所述词性嵌入向量进行综合处理后输入所述第二特征提取层。

至少对各个字符对应的所述字符嵌入向量进行拼接处理，得到嵌入矩阵；

将所述嵌入矩阵输入所述第二特征提取层。

进一步地，所述第二特征提取层包括卷积神经网络CNN。

在一种可能的实施方式中，所述第三特征提取层包括卷积神经网络CNN。

在一种可能的实施方式中，所述意图类别用于指示所述语音数据所表示的用户意图为用户提供信息；

所述方法还包括：

确定所述语音数据对应的标准问题。

在一种可能的实施方式中，所述意图类别用于指示所述语音数据所表示的用户意图为用户确认机器人客服提供的标准问题。

在一种可能的实施方式中，所述意图类别用于指示所述语音数据所表示的用户意图为用户否认机器人客服提供的标准问题；

所述方法还包括：

获取用户与机器人客服进行交互的轮数；

当所述轮数小于预设阈值时，确定所述语音数据对应的标准问题。

进一步地，所述方法还包括：

当所述轮数大于或等于所述预设阈值时，确定所述语音数据对应的人工客服技能组类别。

第二方面，提供了一种基于语音数据的意图识别装置，装置包括：

获取单元，用于获取用户与机器人客服交互的语音数据，以及所述语音数据经过转换后的文本数据；

转换单元，用于至少对所述获取单元获取的语音数据进行时频转换处理，得到所述语音数据对应的频谱数据；

第一特征提取单元，用于将所述转换单元得到的频谱数据输入第一特征提取层，通过所述第一特征提取层输出第一特征表示；

第二特征提取单元，用于将所述获取单元获取的文本数据输入第二特征提取层，通过所述第二特征提取层输出第二特征表示；

整合单元，用于对所述第一特征提取单元输出的所述第一特征表示和所述第二特征提取单元输出的所述第二特征表示，采取注意力机制进行整合得到综合特征表示；

第三特征提取单元，用于将所述整合单元得到的所述综合特征表示输入第三特征提取层，通过所述第三特征提取层输出所述语音数据的意图类别，所述意图类别用于指示所述语音数据所表示的用户意图。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，首先获取用户与机器人客服交互的语音数据，以及所述语音数据经过转换后的文本数据；然后至少对所述语音数据进行时频转换处理，得到所述语音数据对应的频谱数据；接着将所述频谱数据输入第一特征提取层，通过所述第一特征提取层输出第一特征表示；再将所述文本数据输入第二特征提取层，通过所述第二特征提取层输出第二特征表示；再然后对所述第一特征表示和所述第二特征表示，采取注意力机制进行整合得到综合特征表示；最后将所述综合特征表示输入第三特征提取层，通过所述第三特征提取层输出所述语音数据的意图类别，所述意图类别用于指示所述语音数据所表示的用户意图。由上可见，本说明书实施例，采用了语音数据和转换后的文本数据相结合进行意图识别，由于语音数据转换为文本数据的过程中会引入一定的识别噪音，单纯采用文本数据意图识别的结果不准确，语音数据不包含语义信息，单纯采用语义数据意图识别的结果也不准确，将二者相结合能够提高基于语音数据的意图识别的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的机器人客服与用户的交互过程示意图；

图3示出根据一个实施例的基于语音数据的意图识别方法流程图；

图4示出根据一个实施例的意图识别模型的结构示意图；

图5示出根据一个实施例的基于语音数据的意图识别装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及基于语音数据的意图识别。可以理解的是，当接收到用户输入的语音数据后，可以先识别该语音数据对应的意图类别，然后根据意图识别的结果来执行下一步的处理。

本说明书实施例中，可以预先设定如下的多个意图类别：

GREETING：打招呼，比如说“喂，您好”等

HANG_UP：对应的文本是沉默(silence)

MANUAL:寻求人工服务

MANUAL_OTHER：寻求人工服务并提供额外信息(一般是描述自己的问题或在哪方面遇到了错误等)

NO：用户否定系统的猜问

NO_MANUAL:用户否定系统的猜问并寻求人工服务

NO_OTHER:用户否定系统的猜问并提供额外信息(一般是进一步描述自己的问题)

OTHER：用户提供信息(一般是描述自己的问题或在哪方面遇到了错误等)

SILENCE：用户沉默

UNKNOWN:未识别用户的意图

YES:用户肯定系统的猜问

YES_MANUAL:用户肯定系统的猜问并寻求人工服务

YES_OTHER:用户肯定系统的猜问并提供额外信息(一般是重述或进一步描述自己的问题)

空值：用户动作存在空值，需要分析，待补充。

可以理解的是，上述多个意图类别的划分仅为举例说明，实际应用中可以划分为更少的类别，例如，将后续机器人客服会执行同一交互行为的多个意图类别归为一个意图类别；或者，当出现新增的机器人客服执行的交互行为时，对应增加相应的意图类别。

参照图1，在用户与机器人客服的多轮对话中，根据用户首次输入的语音数据，确定的意图类别为前述OTHER，也就是说，用户提供信息，根据意图识别的结果，可以进一步确定该语音数据对应的标准问题；根据用户第二轮输入的语音数据，确定的意图类别为前述NO_OTHER，也就是说，用户否定系统的猜问并提供额外信息，根据意图识别的结果，可以进一步确定该语音数据对应的标准问题；根据用户第三轮输入的语音数据，确定的意图类别为前述YES，也就是说，用户肯定系统的猜问，根据意图识别的结果，可以将第二轮对话中猜测的标准问题展示给用户，也就是说，将标准问句2及相应的答案展示给用户。

可以理解的是，通过提高意图识别的准确性，有助于客服系统与用户的交互更为顺畅，提升用户体验。

图2示出根据一个实施例的机器人客服与用户的交互过程示意图。本说明书实施例，用户输入语音数据，机器人客服确定该语音数据的意图类别，并根据该意图类别确定下一步的交互。参照图2，该交互过程包括：

步骤21，引导描述。也就是说，在用户拨通电话之后，机器人客服引导用户描述问题。

例如，在图1所示的应用场景中，机器人客服可以输出“请简单描述一下您的问题”类似的引导描述。

步骤22，用户描述。可以理解的是，用户描述可以体现不同的意图，例如，打招呼，或者，用户提供信息等。

例如，在图1所示的应用场景中，用户可以通过语音输出用户问句1。

本说明书实施例，根据用户描述，识别出用户的意图为用户提供信息，则执行步骤23。其中，可以采用意图识别模型来识别出用户的意图。

步骤23，猜问题。也就是说，根据用户描述猜测用户问题。

其中，可以采用猜问题模型猜测用户问题。

可以理解的是，用户对系统给出的问题，会给出肯定或否定，或者其他反馈。

步骤24，用户确认描述。

本说明书实施例，根据用户描述，识别出用户的意图为用户确认描述，也就是说，用户肯定了问题，则结束交互。

步骤25，用户否认描述。

本说明书实施例，根据用户描述，识别出用户的意图为用户否认描述，也就是说，用户否定了问题，则继续根据用户描述猜问题。

其中，可以预先设定机器人客服与用户之间的交互轮数的阈值，例如，设定该阈值为4，4轮交互之后结束交互.

可以理解的是，上述交互过程中，步骤21和步骤23为机器人客服的描述，步骤22、步骤24和步骤25为用户描述，并且，步骤22、步骤24和步骤25中用户描述分属不同的意图类别。

需要说明的是，上述交互过程涉及多轮交互场景，针对每轮用户描述，均需要进行意图识别，各轮意图识别的结果可能相同，也可能不同。其中，用户描述具体为语音数据。

图3示出根据一个实施例的基于语音数据的意图识别方法流程图，该方法可以基于图1所示的应用场景。如图3所示，该实施例中基于语音数据的意图识别方法包括以下步骤：步骤31，获取用户与机器人客服交互的语音数据，以及所述语音数据经过转换后的文本数据；步骤32，至少对所述语音数据进行时频转换处理，得到所述语音数据对应的频谱数据；步骤33，将所述频谱数据输入第一特征提取层，通过所述第一特征提取层输出第一特征表示；步骤34，将所述文本数据输入第二特征提取层，通过所述第二特征提取层输出第二特征表示；步骤35，对所述第一特征表示和所述第二特征表示，采取注意力机制进行整合得到综合特征表示；步骤36，将所述综合特征表示输入第三特征提取层，通过所述第三特征提取层输出所述语音数据的意图类别，所述意图类别用于指示所述语音数据所表示的用户意图。下面描述以上各个步骤的具体执行方式。

首先在步骤31，获取用户与机器人客服交互的语音数据，以及所述语音数据经过转换后的文本数据。可以理解的是，用户与机器人客服交互时，通过语音的方式输出用户描述，因此可以获取用户的语音数据。此外，还可以利用语音识别技术，获取所述语音数据经过转换后的文本数据。

然后在步骤32，至少对所述语音数据进行时频转换处理，得到所述语音数据对应的频谱数据。可以理解的是，通过获取语音数据对应的频谱数据，能够更易于提取语音数据的特征。

本说明书实施例，上述频谱数据具体可以为频谱图，或者，频域信号的特征参数集合。

在一个示例中，对所述语音数据进行语音边界检测，以从所述语音数据里识别和消除静音片段，得到所述语音数据的各有效片段；对所述各有效片段进行时频转换处理，得到所述语音数据对应的频谱数据。

可以理解的是，因为语音数据是一种信号，具体可以将其称为音频信号。原始的音频信号通常由于人类发声器官或者语音采集设备所带来的静音片段、混叠、噪声、高次谐波失真等因素，一定程度上会对语音信号质量产生影响。所以需要对音频信号进行预处理。最初始的预处理工作就是静音切除，也叫语音激活检测(voice activity detection,VAD)或者语音边界检测。目的是从音频信号里识别和消除长时间的静音片段，在截取出来的有效片段上进行后续处理会很大程度上降低静音片段带来的干扰。此外，还可以采用其他的音频预处理技术。

进一步地，将所述各有效片段进行分帧处理，得到多个帧；将所述多个帧中各帧对应的时域信号分别转换为各帧对应的频域信号；基于人的听觉特征提取所述各帧对应的频域信号的特征参数集合，所述特征参数集合作为所述语音数据对应的频谱数据。

进一步地，针对所述各帧对应的频域信号中目标频域信号，计算预先配置的三角形滤波器组中各个三角形滤波器对所述目标频域信号滤波后的输出信号；分别确定各所述三角形滤波器的输出信号分别对应的对数能量；对所述各对数能量分别进行离散余弦变换，得到所述目标频域信号的特征参数集合，所述各帧对应的频域信号的特征参数集合作为所述语音数据对应的频谱数据。

可以理解的是，音频信号中通常包含着非常丰富的特征参数，不同的特征向量表征着不同的声学意义，从音频信号中选择有效的音频表征的过程就是语音特征提取。在一个示例中，可以提取梅尔频率倒谱系数(mel-scalefrequency cepstral coefficients，MFCC)作为语音特征，其中MFCC特征是基于人的听觉特征提取出来的特征参数，是对人耳听觉的特征表征。MFCC主要由预加重、分帧、加窗、快速傅里叶变换(fast Fouriertransform,FFT)、梅尔滤波器组、离散余弦变换几部分组成，其中FFT与梅尔滤波器组是MFCC中重要的部分。

接着在步骤33，将所述频谱数据输入第一特征提取层，通过所述第一特征提取层输出第一特征表示。可以理解的是，所述频谱数据的具体形式可以为矩阵或向量，所述第一特征提取层可以包括卷积神经网络(convolutional neural networks，CNN)或其他类型的神经网络。

在一个示例中，所述频谱数据为所述各帧对应的特征参数集合组成的矩阵；所述第一特征提取层包括卷积神经网络CNN。

再在步骤34，将所述文本数据输入第二特征提取层，通过所述第二特征提取层输出第二特征表示。可以理解的是，所述文本数据的具体形式可以为矩阵或向量，所述第二特征提取层可以包括CNN或其他类型的神经网络。

在一个示例中，获取所述文本数据中的各个字符对应的字符嵌入向量；至少将各个字符对应的字符嵌入向量输入所述第二特征提取层，通过所述第二特征提取层输出第二特征表示。

进一步地，获取所述各个字符的位置嵌入向量，和/或获取所述各个字符所在词的词性嵌入向量；对所述字符嵌入向量与所述位置嵌入向量和/或所述词性嵌入向量进行综合处理后输入所述第二特征提取层。

进一步地，至少对各个字符对应的所述字符嵌入向量进行拼接处理，得到嵌入矩阵；将所述嵌入矩阵输入所述第二特征提取层。

进一步地，所述第二特征提取层包括卷积神经网络CNN。

可以理解的是，本说明书实施例中，在获取语音数据转换后的文本数据后，可以先对文本数据进行文本预处理，然后再将经过文本预处理后的文本数据输入第二特征提取层。在一个示例中，上述文本预处理过程，先针对一段用户说的话的每个字符转化成字符嵌入向量(charembedding)，该字符嵌入向量可以是Bert或XLNet等预训练模型训练的嵌入向量(embedding)。之后再将字符嵌入向量经过CNN或循环神经网络(recurrent neuralnetworks，RNN)或Bert等模型得到文本嵌入向量。CNN或Bert模型是将字符嵌入向量拼成矩阵作为模型的输入。RNN模型是将各字符嵌入向量分别作为每个单元的输入。同时还可以获取各字符的位置嵌入向量(positional embedding)、或字所在词的词性嵌入向量，将字符嵌入向量、位置嵌入向量和词性嵌入向量进行拼接或相加后，作为模型的输入，得到文本嵌入向量。

其中，上述位置嵌入向量可以使用transformer模型的位置嵌入向量的公式，在此不做赘述。

再然后在步骤35，对所述第一特征表示和所述第二特征表示，采取注意力机制进行整合得到综合特征表示。

本说明书实施例，注意力机制具体可以采取多种运算方式，比如可以是点积、乘法或加法等。

最后在步骤36，将所述综合特征表示输入第三特征提取层，通过所述第三特征提取层输出所述语音数据的意图类别，所述意图类别用于指示所述语音数据所表示的用户意图。可以理解的是，所述综合特征表示的具体形式可以为矩阵或向量，所述第三特征提取层可以包括CNN或其他类型的神经网络。

在一个示例中，所述第三特征提取层包括卷积神经网络CNN。

参照图1对应的场景描述，可以预先设定多个意图类别，步骤36中会从多个意图类别中确定出所述语音数据的意图类别。

在一个示例中，步骤36确定的所述意图类别用于指示所述语音数据所表示的用户意图为用户提供信息；所述方法还包括：确定所述语音数据对应的标准问题。

在另一个示例中，步骤36确定的所述意图类别用于指示所述语音数据所表示的用户意图为用户确认机器人客服提供的标准问题；所述方法还包括：确定结束交互。

在另一个示例中，步骤36确定的所述意图类别用于指示所述语音数据所表示的用户意图为用户否认机器人客服提供的标准问题；所述方法还包括：获取用户与机器人客服进行交互的轮数；当所述轮数小于预设阈值时，确定所述语音数据对应的标准问题；或者，当所述轮数大于或等于所述预设阈值时，确定所述语音数据对应的人工客服技能组类别。

通过本说明书实施例提供的方法，首先获取用户与机器人客服交互的语音数据，以及所述语音数据经过转换后的文本数据；然后至少对所述语音数据进行时频转换处理，得到所述语音数据对应的频谱数据；接着将所述频谱数据输入第一特征提取层，通过所述第一特征提取层输出第一特征表示；再将所述文本数据输入第二特征提取层，通过所述第二特征提取层输出第二特征表示；再然后对所述第一特征表示和所述第二特征表示，采取注意力机制进行整合得到综合特征表示；最后将所述综合特征表示输入第三特征提取层，通过所述第三特征提取层输出所述语音数据的意图类别，所述意图类别用于指示所述语音数据所表示的用户意图。由上可见，本说明书实施例，采用了语音数据和转换后的文本数据相结合进行意图识别，由于语音数据转换为文本数据的过程中会引入一定的识别噪音，单纯采用文本数据意图识别的结果不准确，语音数据不包含语义信息，单纯采用语义数据意图识别的结果也不准确，将二者相结合能够提高基于语音数据的意图识别的准确性。

图4示出根据一个实施例的意图识别模型的结构示意图。该意图识别模型用于将用户的语音数据和语音数据转换后的文本数据作为输入，输出该语音数据的意图类别。参照图4，将语音数据做预处理之后跟文本数据的嵌入向量，分别通过若干层CNN，再经过一个注意力(attention)层，再经过若干层CNN，最后再输出softmax分类的结构。其中，上述若干层具体可以为多层。文本数据除了经过CNN，也可以经过RNN、长短期记忆网络(long short-term memory，LSTM)、门控循环单元(gated recurrent unit，GRU)、双向LSTM或双向GRU等。注意力层具体可以采取多种运算方式，比如可以包括点积、乘法或加法等。

根据另一方面的实施例，还提供一种基于语音数据的意图识别装置，该装置用于执行本说明书实施例提供的基于语音数据的意图识别方法。图5示出根据一个实施例的基于语音数据的意图识别装置的示意性框图。如图5所示，该装置500包括：

获取单元51，用于获取用户与机器人客服交互的语音数据，以及所述语音数据经过转换后的文本数据；

转换单元52，用于至少对所述获取单元51获取的语音数据进行时频转换处理，得到所述语音数据对应的频谱数据；

第一特征提取单元53，用于将所述转换单元52得到的频谱数据输入第一特征提取层，通过所述第一特征提取层输出第一特征表示；

第二特征提取单元54，用于将所述获取单元51获取的文本数据输入第二特征提取层，通过所述第二特征提取层输出第二特征表示；

整合单元55，用于对所述第一特征提取单元53输出的所述第一特征表示和所述第二特征提取单元54输出的所述第二特征表示，采取注意力机制进行整合得到综合特征表示；

第三特征提取单元56，用于将所述整合单元55得到的所述综合特征表示输入第三特征提取层，通过所述第三特征提取层输出所述语音数据的意图类别，所述意图类别用于指示所述语音数据所表示的用户意图。

可选地，作为一个实施例，所述转换单元52，包括：

预处理子单元，用于对所述获取单元51获取的语音数据进行语音边界检测，以从所述语音数据里识别和消除静音片段，得到所述语音数据的各有效片段；

第一特征提取子单元，用于对所述预处理子单元得到的各有效片段进行时频转换处理，得到所述语音数据对应的频谱数据。

进一步地，所述第一特征提取子单元，包括：

分帧模块，用于将所述各有效片段进行分帧处理，得到多个帧；

转换模块，用于将所述分帧模块得到的多个帧中各帧对应的时域信号分别转换为各帧对应的频域信号；

特征提取模块，用于基于人的听觉特征提取所述转换模块得到的各帧对应的频域信号的特征参数集合，所述特征参数集合作为所述语音数据对应的频谱数据。

进一步地，所述特征提取模块，具体用于：

进一步地，所述频谱数据为所述各帧对应的特征参数集合组成的矩阵；所述第一特征提取层包括卷积神经网络CNN。

可选地，作为一个实施例，所述第二特征提取单元54，包括：

获取子单元，用于获取所述文本数据中的各个字符对应的字符嵌入向量；

第二特征提取子单元，用于至少将所述获取子单元获取的各个字符对应的字符嵌入向量输入所述第二特征提取层，通过所述第二特征提取层输出第二特征表示。

进一步地，所述第二特征提取子单元，具体用于：

将所述嵌入矩阵输入所述第二特征提取层。

进一步地，所述第二特征提取层包括卷积神经网络CNN。

可选地，作为一个实施例，所述第三特征提取层包括卷积神经网络CNN。

可选地，作为一个实施例，所述第三特征提取单元56输出的意图类别用于指示所述语音数据所表示的用户意图为用户提供信息；

所述装置还包括：

第一确定单元，用于确定所述语音数据对应的标准问题。

可选地，作为一个实施例，所述第三特征提取单元56输出的意图类别用于指示所述语音数据所表示的用户意图为用户确认机器人客服提供的标准问题；

所述装置还包括：

第二确定单元，用于确定结束交互。

可选地，作为一个实施例，所述第三特征提取单元56输出的意图类别用于指示所述语音数据所表示的用户意图为用户否认机器人客服提供的标准问题；

所述获取单元51，还用于获取用户与机器人客服进行交互的轮数；

所述装置还包括：

第三确定单元，用于当所述获取单元51获取的轮数小于预设阈值时，确定所述语音数据对应的标准问题。

进一步地，所述装置还包括：

第四确定单元，用于当所述获取单元51获取的轮数大于或等于所述预设阈值时，确定所述语音数据对应的人工客服技能组类别。

通过本说明书实施例提供的装置，首先获取单元51获取用户与机器人客服交互的语音数据，以及所述语音数据经过转换后的文本数据；然后转换单元52至少对所述语音数据进行时频转换处理，得到所述语音数据对应的频谱数据；接着第一特征提取单元53将所述频谱数据输入第一特征提取层，通过所述第一特征提取层输出第一特征表示；再由第二特征提取单元54将所述文本数据输入第二特征提取层，通过所述第二特征提取层输出第二特征表示；再然后由整合单元55对所述第一特征表示和所述第二特征表示，采取注意力机制进行整合得到综合特征表示；最后第三特征提取单元56将所述综合特征表示输入第三特征提取层，通过所述第三特征提取层输出所述语音数据的意图类别，所述意图类别用于指示所述语音数据所表示的用户意图。由上可见，本说明书实施例，采用了语音数据和转换后的文本数据相结合进行意图识别，由于语音数据转换为文本数据的过程中会引入一定的识别噪音，单纯采用文本数据意图识别的结果不准确，语音数据不包含语义信息，单纯采用语义数据意图识别的结果也不准确，将二者相结合能够提高基于语音数据的意图识别的准确性。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图3所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图3所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于语音数据的意图识别方法，所述方法包括：

2.如权利要求1所述的方法，其中，所述至少对所述语音数据进行时频转换处理，得到所述语音数据对应的频谱数据，包括：

3.如权利要求2所述的方法，其中，所述对所述各有效片段进行时频转换处理，得到所述语音数据对应的频谱数据，包括：

将所述各有效片段进行分帧处理，得到多个帧；

4.如权利要求3所述的方法，其中，所述基于人的听觉特征提取所述各帧对应的频域信号的特征参数集合，所述特征参数集合作为所述语音数据对应的频谱数据，包括：

5.如权利要求4所述的方法，其中，所述频谱数据为所述各帧对应的特征参数集合组成的矩阵；所述第一特征提取层包括卷积神经网络CNN。

6.如权利要求1所述的方法，其中，所述将所述文本数据输入第二特征提取层，通过所述第二特征提取层输出第二特征表示，包括：

获取所述文本数据中的各个字符对应的字符嵌入向量；

7.如权利要求6所述的方法，其中，所述至少将各个字符对应的字符嵌入向量输入所述第二特征提取层，包括：

8.如权利要求6所述的方法，其中，所述至少将各个字符对应的字符嵌入向量输入所述第二特征提取层，包括：

将所述嵌入矩阵输入所述第二特征提取层。

9.如权利要求8所述的方法，其中，所述第二特征提取层包括卷积神经网络CNN。

10.如权利要求1或9所述的方法，其中，所述第三特征提取层包括卷积神经网络CNN。

11.如权利要求1所述的方法，其中，所述意图类别用于指示所述语音数据所表示的用户意图为用户提供信息；

所述方法还包括：

确定所述语音数据对应的标准问题。

12.如权利要求1所述的方法，其中，所述意图类别用于指示所述语音数据所表示的用户意图为用户确认机器人客服提供的标准问题；

所述方法还包括：

确定结束交互。

13.如权利要求1所述的方法，其中，所述意图类别用于指示所述语音数据所表示的用户意图为用户否认机器人客服提供的标准问题；

所述方法还包括：

获取用户与机器人客服进行交互的轮数；

14.如权利要求13所述的方法，其中，所述方法还包括：

15.一种基于语音数据的意图识别装置，所述装置包括：

16.如权利要求15所述的装置，其中，所述转换单元，包括：

预处理子单元，用于对所述获取单元获取的语音数据进行语音边界检测，以从所述语音数据里识别和消除静音片段，得到所述语音数据的各有效片段；

17.如权利要求16所述的装置，其中，所述第一特征提取子单元，包括：

18.如权利要求17所述的装置，其中，所述特征提取模块，具体用于：

19.如权利要求18所述的装置，其中，所述频谱数据为所述各帧对应的特征参数集合组成的矩阵；所述第一特征提取层包括卷积神经网络CNN。

20.如权利要求15所述的装置，其中，所述第二特征提取单元，包括：

21.如权利要求20所述的装置，其中，所述第二特征提取子单元，具体用于：

22.如权利要求20所述的装置，其中，所述第二特征提取子单元，具体用于：

将所述嵌入矩阵输入所述第二特征提取层。

23.如权利要求22所述的装置，其中，所述第二特征提取层包括卷积神经网络CNN。

24.如权利要求15或23所述的装置，其中，所述第三特征提取层包括卷积神经网络CNN。

25.如权利要求15所述的装置，其中，所述第三特征提取单元输出的意图类别用于指示所述语音数据所表示的用户意图为用户提供信息；

所述装置还包括：

第一确定单元，用于确定所述语音数据对应的标准问题。

26.如权利要求15所述的装置，其中，所述第三特征提取单元输出的意图类别用于指示所述语音数据所表示的用户意图为用户确认机器人客服提供的标准问题；

所述装置还包括：

第二确定单元，用于确定结束交互。

27.如权利要求15所述的装置，其中，所述第三特征提取单元输出的意图类别用于指示所述语音数据所表示的用户意图为用户否认机器人客服提供的标准问题；

所述获取单元，还用于获取用户与机器人客服进行交互的轮数；

所述装置还包括：

第三确定单元，用于当所述获取单元获取的轮数小于预设阈值时，确定所述语音数据对应的标准问题。

28.如权利要求27所述的装置，其中，所述装置还包括：

第四确定单元，用于当所述获取单元获取的轮数大于或等于所述预设阈值时，确定所述语音数据对应的人工客服技能组类别。

29.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-14中任一项的所述的方法。

30.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-14中任一项的所述的方法。