CN117238277A

CN117238277A - 意图识别方法、装置、存储介质及计算机设备

Info

Publication number: CN117238277A
Application number: CN202311481664.XA
Authority: CN
Inventors: 沈鹏; 郭立钊; 王福钋; 黄明星; 周晓波
Original assignee: Beijing Shuidi Technology Group Co ltd
Current assignee: Beijing Shuidi Technology Group Co ltd
Priority date: 2023-11-09
Filing date: 2023-11-09
Publication date: 2023-12-15
Anticipated expiration: 2043-11-09
Also published as: CN117238277B

Abstract

本发明公开了一种意图识别方法、装置、存储介质及计算机设备，涉及信息技术领域，主要在于能够提高意图的识别准确度和识别效率。其中方法包括：获取用户的待识别音频；确定所述待识别音频对应的多帧音频特征向量；将所述多帧音频特征向量输入至预设意图识别模型中进行意图识别，得到所述多帧音频特征向量对应的多种输出序列，其中，所述输出序列中包括空白字符和非空白字符；基于所述多种输出序列，确定所述待识别音频对应的目标意图。本发明适用于对用户的意图进行识别。

Description

意图识别方法、装置、存储介质及计算机设备

技术领域

本发明涉及信息技术领域，尤其是涉及一种意图识别方法、装置、存储介质及计算机设备。

背景技术

随着社会的不断发展，人们对人工智能的需求越来越多，其中，应用最为广泛的就是人机对话场景，为了提高人机对话的准确度，准确地识别说话人的意图变得尤为重要。

目前，在意图识别过程中，通常先识别客户的说话内容，将说话内容转写为对应文本，然后识别转写文本的说话人意图。然而，这种意图识别方式，说话人意图识别的好坏直接受语音转文本精度的影响，例如，若受背景噪音或者说话人口音影响会出现文本转换的精度较低，从而导致意图识别的准确率也会降低，与此同时，文本转换需要一定时间，会导致意图识别的效率较低。

发明内容

本发明提供了一种意图识别方法、装置、存储介质及计算机设备，主要在于能够提高意图的识别准确度和识别效率。

根据本发明的第一个方面，提供一种意图识别方法，包括：

获取用户的待识别音频；

确定所述待识别音频对应的多帧音频特征向量；

将所述多帧音频特征向量输入至预设意图识别模型中进行意图识别，得到所述多帧音频特征向量对应的多种输出序列，其中，所述输出序列中包括空白字符和非空白字符；

基于所述多种输出序列，确定所述待识别音频对应的目标意图。

可选地，在所述获取用户的待识别音频之前，所述方法还包括：

构建预设初始意图识别模型，并获取样本音频，以及所述样本音频对应的实际输出序列；

确定所述样本音频对应的多帧样本音频特征向量；

将所述多帧样本音频特征向量输入至预设初始意图识别模型中进行意图识别，得到所述多帧样本音频特征向量对应的预测输出序列；

基于所述预测输出序列和所述实际输出序列，构建所述预设初始意图识别模型对应的损失函数；

基于所述损失函数，构建所述预设意图识别模型。

可选地，所述确定所述待识别音频对应的多帧音频特征向量，包括：

以预设长度阈值为单位，对所述待识别音频进行切割处理，得到多个短时帧音频；

利用预设汉明窗函数对所述多个短时帧音频进行加窗处理，得到所述多个短时帧音频分别对应的加窗后的音频；

对多个加窗后的音频进行一阶高通滤波，得到多个高频短时帧音频；

利用预设傅里叶变换函数对所述多个高频短时帧音频分别进行变换处理，得到多个处理后的高频短时帧音频；

确定所述多个处理后的高频短时帧音频分别对应的功率谱；

将多个功率谱与预设三角滤波函数组进行卷积操作，得到所述预设三角滤波函数组中各个三角滤波函数滤波后的结果；

将所述各个三角滤波函数滤波后的结果取对数，得到多个短时帧音频分别对应的高维度音频特征；

对所述多个短时帧音频分别对应的高维度音频特征进行离散余弦变换，得到所述待识别音频对应的多帧音频特征向量。

可选地，所述将所述多帧音频特征向量输入至预设意图识别模型中进行意图识别，得到所述多帧音频特征向量对应的多种输出序列，包括：

将所述多帧音频特征向量输入至预设意图识别模型中进行意图识别，得到所述多帧音频特征向量分别对应的各种输出字符；

将所述多帧音频特征向量分别对应的任意一种输出字符依次进行拼接，得到所述多帧音频特征向量对应的其中一种输出序列。

可选地，所述基于所述多种输出序列，确定所述待识别音频对应的目标意图，包括：

分别计算所述多种输出序列对应的概率值；

在所述概率值中确定最大概率值，并基于所述最大概率值对应的输出序列，确定所述待识别音频对应的目标意图。

可选地，所述分别计算所述多种输出序列对应的概率值，包括：

将所述多种输出序列中任意输出序列的空白字符剔除，得到处理后的输出序列；

将所述处理后的输出序列中的重复非空白字符合并，得到精简后的输出序列；

对所述精简后的输出序列进行分词处理，得到所述任意输出序列对应的各个分词；

确定所述各个分词在所述任意输出序列中的分词频率；

将所述各个分词对应的分词频率相乘，得到所述任意输出序列对应的概率值；

所述基于所述最大概率值对应的输出序列，确定所述待识别音频对应的目标意图，包括：

将所述最大概率值对应的输出序列的各个分词按顺序进行拼接，得到所述待识别音频对应的目标意图。

可选地，所述确定所述各个分词在所述任意输出序列中的分词频率，包括：

确定所述任意输出序列对应的各个字符的字符总数量，其中，所述各个字符包括空白字符和非空白字符；

在所述各个字符中确定与所述各个分词中任意分词前向顺序相邻的各个空白字符对应的空白字符数量，以及在所述各个字符中确定与所述任意分词相同的重复字符数量；

将所述空白字符数量与所述字符总数量相除，得到所述任意分词对应的空白分词频率；

将所述重复字符数量和1相加的结果与所述字符总数量相除，得到所述任意分词对应的重复分词频率；

将所述空白分词频率与所述重复分词频率相乘，得到所述任意分词在所述任意输出序列中的分词频率。

根据本发明的第二个方面，提供一种意图识别装置，包括：

获取单元，用于获取用户的待识别音频；

第一确定单元，用于确定所述待识别音频对应的多帧音频特征向量；

识别单元，用于将所述多帧音频特征向量输入至预设意图识别模型中进行意图识别，得到所述多帧音频特征向量对应的多种输出序列，其中，所述输出序列中包括空白字符和非空白字符；

第二确定单元，用于基于所述多种输出序列，确定所述待识别音频对应的目标意图。

根据本发明的第三个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以上意图识别方法。

根据本发明的第四个方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上意图识别方法。

根据本发明提供的一种意图识别方法、装置、存储介质及计算机设备，与目前通常先识别客户的说话内容，将说话内容转写为对应文本，然后识别转写文本的说话人意图的方式相比，本发明通过获取用户的待识别音频；并确定所述待识别音频对应的多帧音频特征向量；之后将所述多帧音频特征向量输入至预设意图识别模型中进行意图识别，得到所述多帧音频特征向量对应的多种输出序列，其中，所述输出序列中包括空白字符和非空白字符；最终基于所述多种输出序列，确定所述待识别音频对应的目标意图，由此通过直接提取待识别音频的音频特征，并将音频特征直接输入至模型中进行意图识别，得到最终的意图识别结果，通过直接利用模型来对音频特征进行识别，能够避免将音频转化为文本导致的转化错误和转化所浪费的时间，从而本发明能够提高意图的识别准确度和识别效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明实施例提供的一种意图识别方法流程图；

图2示出了本发明实施例提供的另一种意图识别方法流程图；

图3示出了本发明实施例提供的一种意图识别装置的结构示意图；

图4示出了本发明实施例提供的另一种意图识别装置的结构示意图；

图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

目前，先识别客户的说话内容，将说话内容转写为对应文本，然后识别转写文本的说话人意图的方式，若受背景噪音或者说话人口音影响会出现文本转换的精度较低，从而导致意图识别的准确率也会降低，与此同时，文本转换需要一定时间，会导致意图识别的效率较低。

为了解决上述问题，本发明实施例提供了一种意图识别方法，如图1所示，所述方法包括：

101、获取用户的待识别音频。

其中，待识别音频可以为与智能客服通话的音频。对于本发明实施例，在用户与智能客服进行通话的过程中，可以实时获取用户的音频，之后对用户的音频进行意图分析，得到用户的意图，最终根据用户的意图，回复给用户满意的答复，从而能够提高给用户的答复效率和答复准确度，提升用户体验感。

102、确定待识别音频对应的多帧音频特征向量。

具体地，为了提高意图识别的准确度，在获取到用户的待识别音频后，还需要确定待识别音频对应的音频特征向量，该音频特征向量是一帧一帧的特征，例如，若2s的音频，帧移为10ms的话，则一共有20帧，即一共有20帧音频特征向量，之后直接将多帧音频特征向量输入至模型中进行意图预测，最终得到待识别音频对应的目标意图，从而通过直接确定用户语音的特征，并根据利用模型来对语音特征进行分析，能够提高意图的识别效率和识别准确度。

103、将多帧音频特征向量输入至预设意图识别模型中进行意图识别，得到多帧音频特征向量对应的多种输出序列，其中，输出序列中包括空白字符和非空白字符。

其中，预设意图识别模型具体可以为预先训练好的神经网络模型。对于本发明实施例，在获取待识别音频的多帧音频特征向量后，直接将多帧音频特征向量输入至预设意图识别模型中进行意图识别，其中，多帧音频特征向量是按照顺序输入至预设意图识别模型中进行意图识别的，每帧音频输入到预设意图识别模型中均有其对应的多种输出结果，例如，一共有三帧音频特征向量，将第一帧音频特征向量输入到预设意图识别模型中进行意图识别，通过预设意图识别模型能够输出第一帧音频特征向量对应的多种输出结果，将第二帧音频特征向量输入到预设意图识别模型中进行意图识别，通过预设意图识别模型能够输出第二帧音频特征向量对应的多种输出结果（若为两种结果），将第三帧音频特征向量输入到预设意图识别模型中进行意图识别，通过预设意图识别模型能够输出第三帧音频特征向量对应的多种输出结果，其中，每一帧音频特征向量对应的输出结果中可能会包括空白结果，此时可以用空白字符“-”代替，之后将三帧音频特征向量对应的多种输出结果中的任意一种输出结果依次进行拼接，得到拼接后的多种输出序列，例如，若第一帧音频特征向量对应的某一种输出结果为“-”，第二帧音频特征向量对应的某一种输出结果为“学”，第三帧音频特征向量对应的某一种输出结果为“生”，则最终拼接后的输出序列为：“-学生”，因为每一帧音频特征向量对应多种输出结果，因此最终会得到多种输出序列，最终根据多种输出序列，确定待识别音频对应的目标意图，由此能够提高意图的识别效率和识别准确度。

104、基于多种输出序列，确定待识别音频对应的目标意图。

对于本发明实施例，在通过预设意图识别模型输出多种输出序列后，首先需要在多种输出序列中确定最优输出序列，最终根据最优输出序列来确定待识别音频对应的目标意图，由此通过直接提取待识别音频的音频特征，并将音频特征直接输入至模型中进行意图识别，得到最终的意图识别结果，通过直接利用模型来对音频特征进行识别，能够避免将音频转化为文本导致的转化错误和转化所浪费的时间，从而本发明能够提高意图的识别准确度和识别效率。

根据本发明提供的一种意图识别方法，与目前通常先识别客户的说话内容，将说话内容转写为对应文本，然后识别转写文本的说话人意图的方式相比，本发明通过获取用户的待识别音频；并确定所述待识别音频对应的多帧音频特征向量；之后将所述多帧音频特征向量输入至预设意图识别模型中进行意图识别，得到所述多帧音频特征向量对应的多种输出序列，其中，所述输出序列中包括空白字符和非空白字符；最终基于所述多种输出序列，确定所述待识别音频对应的目标意图，由此通过直接提取待识别音频的音频特征，并将音频特征直接输入至模型中进行意图识别，得到最终的意图识别结果，通过直接利用模型来对音频特征进行识别，能够避免将音频转化为文本导致的转化错误和转化所浪费的时间，从而本发明能够提高意图的识别准确度和识别效率。

进一步的，为了更好的说明上述对意图进行识别的过程，作为对上述实施例的细化和扩展，本发明实施例提供了另一种意图识别方法，如图2所示，所述方法包括：

201、获取用户的待识别音频。

具体地，用户在与智能客服进行通话的过程中，实时获取用户的音频，即待识别音频，之后确定待识别音频对应的音频特征向量，并利用预设意图识别模型来对音频特征向量进行分析来确定意图，基于此，为了提高预设意图识别模型的识别精度，首先需要训练并构建预设意图识别模型，基于此，所述方法包括：构建预设初始意图识别模型，并获取样本音频，以及所述样本音频对应的实际输出序列；确定所述样本音频对应的多帧样本音频特征向量；将所述多帧样本音频特征向量输入至预设初始意图识别模型中进行意图识别，得到所述多帧样本音频特征向量对应的预测输出序列；基于所述预测输出序列和所述实际输出序列，构建所述预设初始意图识别模型对应的损失函数；基于所述损失函数，构建所述预设意图识别模型。

具体地，首先构建多个预设初始意图识别模型，该多个预设初始意图识别模型的模型结构可以相同，也可以不同，之后获取样本音频（该样本音频可以在历史用户与智能客服的通话过程中获取的），并确定样本音频对应的实际输出序列，之后确定样本音频对应的多帧样本音频特征向量，并将样本音频与实际输出序列之间建立映射关系，得到样本集合，之后将样本集合分为训练集和测试集，并将训练集再分为多个子训练集，不同子训练集对应不同预设初始意图识别模型，之后利用不同子训练集训练对应预设初始意图识别模型，具体训练过程为，首先将子训练集中的样本音频对应的多帧样本音频特征向量输入至预设相应预设初始意图识别模型中进行意图识别，得到预测输出序列，之后将预测输出序列和实际输出序列进行比较，根据比较结果构建该预设初始意图识别模型对应的损失函数，最终根据损失函数来训练该预设初始意图识别模型，由此能够训练各个预设初始意图识别模型，训练完成后，利用测试集分别对各个训练完成的预设初始意图识别模型进行测试，以确定各个预设初始意图识别模型对应的预测准确度，最终选择预测准确度最高的预设初始意图识别模型作为本发明实施例中的预设意图识别模型。由此通过对训练并构建预设意图识别模型，能够提高意图识别的准确度。

202、确定所述待识别音频对应的多帧音频特征向量。

对于本发明实施例，为了进一步提高预设意图识别模型的识别精度，首先需要确定待识别音频对应的多帧音频特征向量，基于此，步骤202具体包括：以预设长度阈值为单位，对所述待识别音频进行切割处理，得到多个短时帧音频；利用预设汉明窗函数对所述多个短时帧音频进行加窗处理，得到所述多个短时帧音频分别对应的加窗后的音频；对多个加窗后的音频进行一阶高通滤波，得到多个高频短时帧音频；利用预设傅里叶变换函数对所述多个高频短时帧音频分别进行变换处理，得到多个处理后的高频短时帧音频；确定所述多个处理后的高频短时帧音频分别对应的功率谱；将多个功率谱与预设三角滤波函数组进行卷积操作，得到所述预设三角滤波函数组中各个三角滤波函数滤波后的结果；将所述各个三角滤波函数滤波后的结果取对数，得到多个短时帧音频分别对应的高维度音频特征；对所述多个短时帧音频分别对应的高维度音频特征进行离散余弦变换，得到所述待识别音频对应的多帧音频特征向量。

其中，预设长度阈值是根据实际需求设置的。具体地，在进行音频特征提取之前，首先需要对待识别音频进行预处理，预处理的目的是去除噪声、归一化信号强度等。常见的预处理方法包括语音信号分帧、加窗和预加重等。待识别音频的语音信号通常是连续的，为了方便后续处理，需要将待识别音频分成帧，分帧的目的是将连续的语音信号切割成多个短时帧，得到多个短时帧音频，例如，每帧的长度可以为20-40ms，分帧可以使用固定大小的窗口进行滑动，相邻帧之间通常有重叠。进一步地，为了避免帧边界处的突变，需要预设汉明窗函数对多个短时帧音频进行加窗处理，得到多个短时帧音频分别对应的加窗后的音频，加窗后，每帧音频在时间上是平滑的。进一步地，由于音频在传输过程中，高频成分往往会衰减得比较严重，基于此，为了弥补高频衰减带来的影响，需要对多个加窗后的音频进行预加重处理，预加重的目的是通过对多个加窗后的音频进行一阶高通滤波，增强高频成分，得到多个高频短时帧音频。进一步地，在分帧、加窗和预加重之后，多个短时帧音频转化为时域上的离散信号，接下来需要将其转化为频域上的信号，基于此，需要利用预设傅里叶变换函数对多个高频短时帧音频分别进行变换处理，得到多个处理后的高频短时帧音频，通过预设傅里叶变换函数将时域信号转化为频域信号。进一步地，计算多个处理后的高频短时帧音频分别对应的功率谱，计算功率谱可以反映每个频率成分的强度。进一步地，将多个功率谱与预设三角滤波函数组进行卷积操作，得到预设三角滤波函数组中各个三角滤波函数滤波后的结果，并将各个三角滤波函数滤波后的结果取对数，得到多个短时帧音频分别对应的高维度音频特征，最终对多个短时帧音频分别对应的高维度音频特征进行离散余弦变换，得到待识别音频对应的多帧音频特征向量。

203、将多帧音频特征向量输入至预设意图识别模型中进行意图识别，得到多帧音频特征向量对应的多种输出序列，其中，输出序列中包括空白字符和非空白字符。

对于本发明实施例，在确定待识别音频对应的多帧音频特征向量后，为了确定待识别音频对应的意图，还需要将多帧音频特征向量输入至预设意图识别模型中进行意图识别，基于此，步骤203具体包括：将所述多帧音频特征向量输入至预设意图识别模型中进行意图识别，得到所述多帧音频特征向量分别对应的各种输出字符；将所述多帧音频特征向量分别对应的任意一种输出字符依次进行拼接，得到所述多帧音频特征向量对应的其中一种输出序列。

具体地，每帧音频特征向量输入到预设意图识别模型中均有其对应的多种输出结果，若未输出，则利用预设字符“-”代表输出结果，例如，一共有四帧音频特征向量，将第一帧音频特征向量输入到预设意图识别模型中进行意图识别，通过预设意图识别模型能够输出第一帧音频特征向量对应的其中一种输出结果为“-”，将第二帧音频特征向量输入到预设意图识别模型中进行意图识别，通过预设意图识别模型能够输出第二帧音频特征向量对应的其中一种输出结果为“学”，将第三帧音频特征向量输入到预设意图识别模型中进行意图识别，通过预设意图识别模型能够输出第三帧音频特征向量对应的其中一种输出结果为“学”，将第四帧音频特征向量输入到预设意图识别模型中进行意图识别，通过预设意图识别模型能够输出第四帧音频特征向量对应的其中一种输出结果为“生”，之后将三帧音频特征向量对应的输出结果进行依次进行拼接，得到拼接后的输出序列为“-学学生”，其中，“-”代表空白字符，“学”和“生”代表非空白字符。由于每帧音频特征向量对应多种输出结果，则最终会得到多种输出序列。例如，若有20帧音频特征向量，则最终对应的输出序列可以为：“----我我我-是是-中---学--生-”和“----我我我-是-中--学--生---”。

204、分别计算多种输出序列对应的概率值。

对于本发明实施例，在确定多种输出序列后，为了在多种输出序列中确定最优输出序列，需要计算多种输出序列对应的概率值，基于此，步骤204具体包括：将所述多种输出序列中任意输出序列的空白字符剔除，得到处理后的输出序列；将所述处理后的输出序列中的重复非空白字符合并，得到精简后的输出序列；对所述精简后的输出序列进行分词处理，得到所述任意输出序列对应的各个分词；确定所述各个分词在所述任意输出序列中的分词频率；将所述各个分词对应的分词频率相乘，得到所述任意输出序列对应的概率值；其中，所述确定所述各个分词在所述任意输出序列中的分词频率，包括：确定所述任意输出序列对应的各个字符的字符总数量，其中，所述各个字符包括空白字符和非空白字符；在所述各个字符中确定与所述各个分词中任意分词前向顺序相邻的各个空白字符对应的空白字符数量，以及在所述各个字符中确定与所述任意分词相同的重复字符数量；将所述空白字符数量与所述字符总数量相除，得到所述任意分词对应的空白分词频率；将所述重复字符数量和1相加的结果与所述字符总数量相除，得到所述任意分词对应的重复分词频率；将所述空白分词频率与所述重复分词频率相乘，得到所述任意分词在所述任意输出序列中的分词频率。

具体地，例如，若任意输出序列为“----我我我-是是-中---学--生-”，通过连续相同字符合并和去掉空白字符的策略得到“我是中学生”的精简后的输出序列，之后对此精简后的输出序列进行分词，得到该任意输出序列对应的各个分词为：“我是中学生”，最终计算该任意输出序列的概率值的公式为：P（i）=P(我) * P(是) * P(中学生)，其中，P（i）表示任意输出序列的概率值，P（我）表示分词“我”在该任意输出序列中的分词频率，P（是）表示分词“是”在该任意输出序列中的分词频率，P（中学生）表示分词“中学生”在该任意输出序列中的分词频率，i取值范围为1到所有序列的最大值N，N表示输出序列的总数量，其中，例如，P(我)概率的计算方式为：首先在输出序列中找到分词“我”对应的部分序列为：“----我我我”，此时将空白字符“-”的数量4与该输出序列的字符总数量20相除，得到0.2即为分词“我”对应的空白分词频率，与此同时，该部分序列中与分词“我”相同的重读字符数量为2，将2与1相加的结果3，并将3与该输出序列的字符总数量20相除，得到0.15即为分词“我”对应的重复分词频率，最终将空白分词频率与重复分词频率相乘，得到分词“我”在所述该任意输出序列中的分词频率，同理，P(是)概率为“-是是”概率的乘积，由此能够计算得到各个分词对应的分词频率，之后将各个分词对应的分词频率相乘，即可得任意输出序列对应的概率值。

205、在概率值中确定最大概率值，并基于最大概率值对应的输出序列，确定待识别音频对应的目标意图。

对于本发明实施例，在确定多种输出序列分别对应的概率值后，在各个概率值中确定最大概率值，之后需要基于最大概率值对应的输出序列，确定待识别音频对应的目标意图，基于此，步骤205具体包括：将所述最大概率值对应的输出序列的各个分词按顺序进行拼接，得到所述待识别音频对应的目标意图。

具体地，若最大概率值对应的输出序列为：“我我我-是-中--学--生----”，由上述步骤204可知，该任意输出序列对应的各个分词为“我是中学生”，将上述各个分词按顺序进行拼接，得到待识别音频对应的最终目标意图为“我是中学生”。

根据本发明提供的另一种意图识别方法，与目前通常先识别客户的说话内容，将说话内容转写为对应文本，然后识别转写文本的说话人意图的方式相比，本发明通过获取用户的待识别音频；并确定所述待识别音频对应的多帧音频特征向量；之后将所述多帧音频特征向量输入至预设意图识别模型中进行意图识别，得到所述多帧音频特征向量对应的多种输出序列，其中，所述输出序列中包括空白字符和非空白字符；最终基于所述多种输出序列，确定所述待识别音频对应的目标意图，由此通过直接提取待识别音频的音频特征，并将音频特征直接输入至模型中进行意图识别，得到最终的意图识别结果，通过直接利用模型来对音频特征进行识别，能够避免将音频转化为文本导致的转化错误和转化所浪费的时间，从而本发明能够提高意图的识别准确度和识别效率。

进一步地，作为图1的具体实现，本发明实施例提供了一种意图识别装置，如图3所示，所述装置包括：获取单元31、第一确定单元32、识别单元33和第二确定单元34。

所述获取单元31，可以用于获取用户的待识别音频。

所述第一确定单元32，可以用于确定所述待识别音频对应的多帧音频特征向量。

所述识别单元33，可以用于将所述多帧音频特征向量输入至预设意图识别模型中进行意图识别，得到所述多帧音频特征向量对应的多种输出序列，其中，所述输出序列中包括空白字符和非空白字符。

所述第二确定单元34，可以用于基于所述多种输出序列，确定所述待识别音频对应的目标意图。

在具体应用场景中，为了构建预设意图识别模型，如图4所示，所述装置还包括：构建单元35。

所述构建单元35，可以用于构建预设初始意图识别模型，并获取样本音频，以及所述样本音频对应的实际输出序列。

所述第一确定单元32，还可以用于确定所述样本音频对应的多帧样本音频特征向量。

所述识别单元33，还可以用于将所述多帧样本音频特征向量输入至预设初始意图识别模型中进行意图识别，得到所述多帧样本音频特征向量对应的预测输出序列。

所述构建单元35，具体可以用于基于所述预测输出序列和所述实际输出序列，构建所述预设初始意图识别模型对应的损失函数。

所述构建单元35，具体可以用于基于所述损失函数，构建所述预设意图识别模型。

在具体应用场景中，为了确定待识别音频对应的多帧音频特征向量，所述第一确定单元32，包括切割模块321、加窗模块322、滤波模块323、变换模块324、第一确定模块325、卷积模块326、对数处理模块327、离散变换模块328。

所述切割模块321，可以用于以预设长度阈值为单位，对所述待识别音频进行切割处理，得到多个短时帧音频。

所述加窗模块322，可以用于利用预设汉明窗函数对所述多个短时帧音频进行加窗处理，得到所述多个短时帧音频分别对应的加窗后的音频。

所述滤波模块323，可以用于对多个加窗后的音频进行一阶高通滤波，得到多个高频短时帧音频。

所述变换模块324，可以用于利用预设傅里叶变换函数对所述多个高频短时帧音频分别进行变换处理，得到多个处理后的高频短时帧音频。

所述第一确定模块325，可以用于确定所述多个处理后的高频短时帧音频分别对应的功率谱。

所述卷积模块326，可以用于将多个功率谱与预设三角滤波函数组进行卷积操作，得到所述预设三角滤波函数组中各个三角滤波函数滤波后的结果。

所述对数处理模块327，可以用于将所述各个三角滤波函数滤波后的结果取对数，得到多个短时帧音频分别对应的高维度音频特征。

所述离散变换模块328，可以用于对所述多个短时帧音频分别对应的高维度音频特征进行离散余弦变换，得到所述待识别音频对应的多帧音频特征向量。

在具体应用场景中，为了确定多帧音频特征向量对应的多种输出序列，所述识别单元33，包括识别模块331、拼接模块332。

所述识别模块331，可以用于将所述多帧音频特征向量输入至预设意图识别模型中进行意图识别，得到所述多帧音频特征向量分别对应的各种输出字符。

所述拼接模块332，可以用于将所述多帧音频特征向量分别对应的任意一种输出字符依次进行拼接，得到所述多帧音频特征向量对应的其中一种输出序列。

在具体应用场景中，为了确定待识别音频对应的目标意图，所述第二确定单元34，包括计算模块341和第二确定模块342。

所述计算模块341，可以用于分别计算所述多种输出序列对应的概率值。

所述第二确定模块342，可以用于在所述概率值中确定最大概率值，并基于所述最大概率值对应的输出序列，确定所述待识别音频对应的目标意图。

在具体应用场景中，为了计算多种输出序列对应的概率值，所述计算模块341，具体可以用于将所述多种输出序列中任意输出序列的空白字符剔除，得到处理后的输出序列；将所述处理后的输出序列中的重复非空白字符合并，得到精简后的输出序列；对所述精简后的输出序列进行分词处理，得到所述任意输出序列对应的各个分词；确定所述各个分词在所述任意输出序列中的分词频率；将所述各个分词对应的分词频率相乘，得到所述任意输出序列对应的概率值。

在具体应用场景中，为了确定待识别音频对应的目标意图，所述第二确定模块342，具体可以用于将所述最大概率值对应的输出序列的各个分词按顺序进行拼接，得到所述待识别音频对应的目标意图。

在具体应用场景中，为了确定各个分词在所述任意输出序列中的分词频率，所述计算模块341，具体可以用于确定所述任意输出序列对应的各个字符的字符总数量，其中，所述各个字符包括空白字符和非空白字符；在所述各个字符中确定与所述各个分词中任意分词前向顺序相邻的各个空白字符对应的空白字符数量，以及在所述各个字符中确定与所述任意分词相同的重复字符数量；将所述空白字符数量与所述字符总数量相除，得到所述任意分词对应的空白分词频率；将所述重复字符数量和1相加的结果与所述字符总数量相除，得到所述任意分词对应的重复分词频率；将所述空白分词频率与所述重复分词频率相乘，得到所述任意分词在所述任意输出序列中的分词频率。

需要说明的是，本发明实施例提供的一种意图识别装置所涉及各功能模块的其他相应描述，可以参考图1所示方法的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：获取用户的待识别音频；确定所述待识别音频对应的多帧音频特征向量；将所述多帧音频特征向量输入至预设意图识别模型中进行意图识别，得到所述多帧音频特征向量对应的多种输出序列，其中，所述输出序列中包括空白字符和非空白字符；基于所述多种输出序列，确定所述待识别音频对应的目标意图。

基于上述如图1所示方法和如图3所示装置的实施例，本发明实施例还提供了一种计算机设备的实体结构图，如图5所示，该计算机设备包括：处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序，其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤：获取用户的待识别音频；确定所述待识别音频对应的多帧音频特征向量；将所述多帧音频特征向量输入至预设意图识别模型中进行意图识别，得到所述多帧音频特征向量对应的多种输出序列，其中，所述输出序列中包括空白字符和非空白字符；基于所述多种输出序列，确定所述待识别音频对应的目标意图。

通过本发明的技术方案，本发明通过获取用户的待识别音频；并确定所述待识别音频对应的多帧音频特征向量；之后将所述多帧音频特征向量输入至预设意图识别模型中进行意图识别，得到所述多帧音频特征向量对应的多种输出序列，其中，所述输出序列中包括空白字符和非空白字符；最终基于所述多种输出序列，确定所述待识别音频对应的目标意图，由此通过直接提取待识别音频的音频特征，并将音频特征直接输入至模型中进行意图识别，得到最终的意图识别结果，通过直接利用模型来对音频特征进行识别，能够避免将音频转化为文本导致的转化错误和转化所浪费的时间，从而本发明能够提高意图的识别准确度和识别效率。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种意图识别方法，其特征在于，包括：

获取用户的待识别音频；

确定所述待识别音频对应的多帧音频特征向量；

2.根据权利要求1所述的方法，其特征在于，在所述获取用户的待识别音频之前，所述方法还包括：

确定所述样本音频对应的多帧样本音频特征向量；

基于所述损失函数，构建所述预设意图识别模型。

3.根据权利要求1所述的方法，其特征在于，所述确定所述待识别音频对应的多帧音频特征向量，包括：

确定所述多个处理后的高频短时帧音频分别对应的功率谱；

4.根据权利要求1所述的方法，其特征在于，所述将所述多帧音频特征向量输入至预设意图识别模型中进行意图识别，得到所述多帧音频特征向量对应的多种输出序列，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述多种输出序列，确定所述待识别音频对应的目标意图，包括：

分别计算所述多种输出序列对应的概率值；

6.根据权利要求5所述的方法，其特征在于，所述分别计算所述多种输出序列对应的概率值，包括：

确定所述各个分词在所述任意输出序列中的分词频率；

7.根据权利要求6所述的方法，其特征在于，所述确定所述各个分词在所述任意输出序列中的分词频率，包括：

8.一种意图识别装置，其特征在于，包括：

获取单元，用于获取用户的待识别音频；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。