CN111276133A

CN111276133A - 音频识别方法、系统、移动终端及存储介质

Info

Publication number: CN111276133A
Application number: CN202010065691.9A
Authority: CN
Inventors: 曾志先; 肖龙源; 李稀敏; 蔡振华; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-12
Anticipated expiration: 2040-01-20
Also published as: CN111276133B

Abstract

本发明提供了一种音频识别方法、系统、移动终端及存储介质，该方法包括：获取音频数据将音频文件转换为音频特征；对音频特征进行标签标注得到标签数组；构建LSTM神经网络模型，在LSTM神经网络模型上封装Attention网络，在LSTM神经网络模型中构建全连接层；对音频特征进行数值标准化处理，将标准化处理后的音频特征输入LSTM神经网络模型，以得到音频概率结果；根据标签数组对音频概率结果进行损失计算，以得到损失值，根据损失值对LSTM神经网络模型的模型参数进行迭代训练；将待检测音频输入LSTM神经网络模型进行音频识别，以得到音频识别结果。本发明采用基于深度学习的方式进行音频数据的识别,减少了错误识别的概率,提高了音频识别的准确率。

Description

音频识别方法、系统、移动终端及存储介质

技术领域

本发明属于音频识别技术领域，尤其涉及一种音频识别方法、系统、移动终端及存储介质。

背景技术

随着音频识别技术的不断发展,该技术被应用于越来越多的场景中,例如家庭智能音箱,手机导航,无人购物超市等场景,通过音频识别技术,智能设备可以完成与人的交互,并且根据人们的命令来做出相应的操作以及相应的回应。

现有的音频识别技术使用的方法是持续监听用户的命令,并且当用户不再发出语音命令时,音频识别系统不再监听,并将监听到的音频进行上传到服务器,经过处理后做出相应的回应,通常音频识别过程中会通过音频的能量的进行有效音的判断,先计算整段音频的平均能量,然后将音频中高于平均能量的音频部分进行保留,而低于平均能量的音频部分舍弃,这样可以减少音频的无效片段,减少传输数据量,减低识别错误率,但是该判断方式由于判断标准单一,仅通过平均值作为阈值判断,有可能导致噪声被保留,或者用户较低音量的命令被删除,进而降低了音频识别的准确率。

发明内容

本发明实施例的目的在于提供一种音频识别方法、系统、移动终端及存储介质，旨在解决现有的音频识别方法过程中识别准确率低下的问题。

本发明实施例是这样实现的，一种音频识别方法，所述方法包括：

获取音频数据，并将所述音频数据中的音频文件转换为音频特征；

对所述音频特征进行标签标注，并将标注结果进行存储，以得到标签数组；

构建LSTM神经网络模型，在所述LSTM神经网络模型上封装Attention网络，并在所述LSTM神经网络模型中构建全连接层；

对所述音频特征进行数值标准化处理，并将标准化处理后的所述音频特征输入所述LSTM神经网络模型，以得到音频概率结果；

根据所述标签数组对所述音频概率结果进行损失计算，以得到损失值，并根据所述损失值对所述LSTM神经网络模型的模型参数进行迭代训练；

将待检测音频输入所述LSTM神经网络模型进行音频识别，以得到音频识别结果。

更进一步的，所述将所述音频数据中的音频文件转换为音频特征的步骤包括：

将所述音频文件转换为40维度的MFCC特征，以使将所述音频文件从时域转换为频域，且每帧所述MFCC特征的长度为0.025秒。

更进一步的，所述对所述音频特征进行标签标注的步骤包括：

分别对每帧所述音频特征进行分类，以得到有效帧和无效帧；

对所述有效帧进行第一标识标记，对所述无效帧进行第二标识标记，以得到所述标签数组，且每个音频对应一个所述标签数组。

更进一步的，所述对所述音频特征进行数值标准化处理的步骤包括：

计算所述音频特征的平均值和标准差，并根据所述平均值和所述标准差依序对每个所述音频特征进行标准化处理。

更进一步的，所述标准化处理所述采用的计算公式为：

(A-B)/C；

其中，A为对应所述音频特征中的原数值，B为所述平均值，C为所述标准差。

更进一步的，所述将标准化处理后的所述音频特征输入所述LSTM神经网络模型的步骤包括：

控制所述LSTM神经网络模型和所述Attention网络对所述音频特征进行分析，以得到音频矩阵；

将所述音频矩阵输入所述全连接层，以使将所述音频矩阵转换为针对音频帧数的识别结果；

通过SoftMax算法将所述全连接层输出的识别结果转换为概率值，以得到所述音频概率结果，所述音频概率结果中存储有两个所述概率值，两个所述概率值分别为对应音频帧为有效音和无效音的概率。

更进一步的，所述根据所述标签数组对所述音频概率结果进行损失计算的步骤包括：

通过采用cross entropy交叉熵函数在所述LSTM神经网络模型中预测结果与所述标签数组之间进行损失计算，以得到所述损失值。

本发明实施例的另一目的在于提供一种音频识别系统，所述系统包括：

特征转换模块，用于获取音频数据，并将所述音频数据中的音频文件转换为音频特征；

标签标注模块，用于对所述音频特征进行标签标注，并将标注结果进行存储，以得到标签数组；

模型构建模块，用于构建LSTM神经网络模型，在所述LSTM神经网络模型上封装Attention网络，并在所述LSTM神经网络模型中构建全连接层；

特征处理模块，用于对所述音频特征进行数值标准化处理，并将标准化处理后的所述音频特征输入所述LSTM神经网络模型，以得到音频概率结果；

损失计算模块，用于根据所述标签数组对所述音频概率结果进行损失计算，以得到损失值，并根据所述损失值对所述LSTM神经网络模型的模型参数进行迭代训练；

音频识别模块，用于将待检测音频输入所述LSTM神经网络模型进行音频识别，以得到音频识别结果。

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的音频识别方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的音频识别方法的步骤。

本发明实施例，通过采用LSTM神经网络模型、Attention网络和全连接层的设计，以采用基于深度学习的方式进行音频数据的识别,进而减少了错误识别的概率,提高了音频识别的准确率,通过根据标签数组对音频概率结果进行损失计算的设计，有效的提高了LSTM神经网络模型中模型参数迭代的准确性，提高了LSTM神经网络模型识别的准确性。

附图说明

图1是本发明第一实施例提供的音频识别方法的流程图；

图2是本发明第二实施例提供的音频识别方法的流程图；

图3是本发明第三实施例提供的音频识别系统的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的音频识别方法的流程图，包括步骤：

步骤S10，获取音频数据，并将所述音频数据中的音频文件转换为音频特征；

其中，通过收集真实场景中的音频数据,例如智能音箱的接收数据,以及手机语音识别的数据等,这些真实的音频数据将会包含用户的命令以及整段音频录制过程中外界的噪声和无关声音,以使收集1万条10秒的录音数据,收集方式可以通过手机录音来模拟不同场景下的语音识别录制音频,每条音频10s,录制量在1万条左右；

步骤S20，对所述音频特征进行标签标注，并将标注结果进行存储，以得到标签数组；

其中，通过对该音频特征进行标签标注的设计，以使将音频中的有效音部分标识出来,并且与无效音部分进行区分，优选的，该步骤中，每个音频均对应一个所述标签数组；

具体的，该步骤中，可以采用数字、字母或文字的方式该音频上标签的标注，此外，本实施例中还可以通过采用分类器的方式进行该音频特征的标签标注操作；

步骤S30，构建LSTM神经网络模型，在所述LSTM神经网络模型上封装Attention网络，并在所述LSTM神经网络模型中构建全连接层；

其中，该步骤使用Tensorflow框架创建出LSTM神经网络模型,模型结构为3层,每层300个神经元,并使用Attention_Wrap函数,在LSTM网络结构上封装一层Attention网络；

该步骤中，Attention网络在训练过程中将动态更新各个LSTM神经元上的注意力概率,概率值的范围为0-1之间,当概率为0的时候,该神经元的结果将不参与计算；

步骤S40，对所述音频特征进行数值标准化处理，并将标准化处理后的所述音频特征输入所述LSTM神经网络模型，以得到音频概率结果；

其中，当音频特征输入到LSTM神经网络模型之后,网络输出的结果为音频帧数*300的矩阵结果，此时，通过全连接层的设置，能有效的将矩阵转为音频帧数*2的结果,全连接层的网络结构为300*2；

具体的，该步骤中，所述音频概率结果中存储有两个概率值，两个所述概率值分别为对应音频帧为有效音和无效音的概率；

步骤S50，根据所述标签数组对所述音频概率结果进行损失计算，以得到损失值，并根据所述损失值对所述LSTM神经网络模型的模型参数进行迭代训练；

其中，通过根据所述损失值对所述LSTM神经网络模型的模型参数进行迭代训练的设计，能有效的对该LSTM神经网络模型中的模型参数进行更新，以提高LSTM神经网络模型的音频识别的准确性；

具体的，该步骤中，直至该LSTM神经网络模型收敛时，停止该LSTM神经网络模型的迭代，且该步骤中，LSTM神经网络模型训练将预计迭代2000个批次,每个批次传入64个音频文件；

步骤S60，将待检测音频输入所述LSTM神经网络模型进行音频识别，以得到音频识别结果；

其中，当LSTM神经网络模型模型接收到待识别音频时，通过将该待识别音频转换为音频特征，并针对该音频特征进行识别，以得到音频概率结果，并根据该音频概率结果将该待检测音频中的无效音频帧进行删除，以完成针对该待检测音频的识别检测；

本实施例，通过采用LSTM神经网络模型、Attention网络和全连接层的设计，以采用基于深度学习的方式进行音频数据的识别,进而减少了错误识别的概率,提高了音频识别的准确率,通过根据标签数组对音频概率结果进行损失计算的设计，有效的提高了LSTM神经网络模型中模型参数迭代的准确性，提高了LSTM神经网络模型识别的准确性。

实施例二

请参阅图2，是本发明第二实施例提供的音频识别方法的流程图，包括步骤：

步骤S11，获取音频数据，并将所述音频文件转换为40维度的MFCC特征，以使将所述音频文件从时域转换为频域；

其中，通过收集真实场景中的音频数据,例如智能音频的接收数据,以及手机语音识别的数据等,这些真实的音频数据将会包含用户的命令以及整段音频录制过程中外界的噪声和无关声音,以使收集1万条10秒的录音数据,收集方式可以通过手机录音来模拟不同场景下的语音识别录制音频,每条音频10s,录制量在1万条左右；

具体的，由于MFCC特征更加符合人耳听取声音的特征，因此，该步骤中，通过将该音频文件转换为40维度的MFCC特征的设计，有效的提高了后续模型针对音频文件识别的准确性，且该步骤中每帧所述MFCC特征的长度为0.025秒；

步骤S21，分别对每帧所述音频特征进行分类，以得到有效帧和无效帧，并对所述有效帧进行第一标识标记，对所述无效帧进行第二标识标记，以得到所述标签数组；

其中，第一标识标记与第二标识标记不相同，该识别标记可以采用数字、编号、字母或文件的方式进行标识，通过对该有效帧和无效帧进行不同的标识设置，以使达到有效帧和无效帧的区别效果，优选的，该步骤中，每个音频对应一个所述标签数组，并将标注结果进行存储，以得到标签数组；

步骤S31，构建LSTM神经网络模型，在所述LSTM神经网络模型上封装Attention网络，并在所述LSTM神经网络模型中构建全连接层；

步骤S41，计算所述音频特征的平均值和标准差，并根据所述平均值和所述标准差依序对每个所述音频特征进行标准化处理；

具体的，所述标准化处理所述采用的计算公式为：

(A-B)/C；

其中，A为对应所述音频特征中的原数值，B为所述平均值，C为所述标准差；

步骤S51，控制所述LSTM神经网络模型和所述Attention网络对所述音频特征进行分析，以得到音频矩阵，并将所述音频矩阵输入所述全连接层，以使将所述音频矩阵转换为针对音频帧数的识别结果；

其中，当音频特征输入到LSTM神经网络模型之后,网络输出的结果为音频帧数*300的矩阵结果，此时，通过全连接层的设置，能有效的将矩阵转为音频帧数*2的结果,全连接层的网络结构为300*2，该步骤中，所述音频概率结果中存储有两个概率值，两个所述概率值分别为对应音频帧为有效音和无效音的概率；

步骤S61，通过SoftMax算法将所述全连接层输出的识别结果转换为概率值，以得到所述音频概率结果；

其中，所述音频概率结果中存储有两个所述概率值，两个所述概率值分别为对应音频帧为有效音和无效音的概率；

步骤S71，通过采用cross entropy交叉熵函数在所述LSTM神经网络模型中预测结果与所述标签数组之间进行损失计算，以得到所述损失值；

步骤S81，根据所述损失值对所述LSTM神经网络模型的模型参数进行迭代训练，并将待检测音频输入所述LSTM神经网络模型进行音频识别，以得到音频识别结果；

其中，通过根据所述损失值对所述LSTM神经网络模型的模型参数进行迭代训练的设计，能有效的减少预测结果与标签之间的损失值，以提高LSTM神经网络模型的音频识别的准确性；

该步骤中，直至该LSTM神经网络模型收敛时，停止该LSTM神经网络模型的迭代，且该步骤中，LSTM神经网络模型训练将预计迭代2000个批次,每个批次传入64个音频文件；

具体的，该步骤中，根据该音频识别结果以判定该待识别音频中的有效音部分和无效音部分，当本实施例中，对该有效帧进行数字1的标记、对该无效帧进行数字0的标记时，则该待识别音频中有效音部分的判断结果将会为1,无效音部分的判断结果将会为0,此时，通过将判断为0的音频帧部分进行删除,以使将待识别音频中的有效音单独提取出来；

此外，该步骤中，当该音频识别方法应用于语音唤醒系统时，针对待识别音频数据中如果输出的400个结果中,有效音的概率值大于50％的数量超过100个,此外判断当前出现了唤醒词,以使唤醒设备；

本实施例中，通过采用LSTM神经网络模型、Attention网络和全连接层的设计，以采用基于深度学习的方式进行音频数据的识别,进而减少了错误识别的概率,提高了音频识别的准确率,通过根据标签数组对音频概率结果进行损失计算的设计，有效的提高了LSTM神经网络模型中模型参数迭代的准确性，提高了LSTM神经网络模型识别的准确性，且通过基于Attention机制的有效音检测系统实现端到端的网络结构,输入原始的语音识别录制音频,输出的即为判断音频的有效音部分位置。

实施例三

请参阅图3，是本发明第三实施例提供的音频识别系统100的结构示意图，包括：特征转换模块10、标签标注模块11、模型构建模块12、特征处理模块13、损失计算模块14和音频识别模块15，其中：

特征转换模块10，用于获取音频数据，并将所述音频数据中的音频文件转换为音频特征。

其中，所述特征转换模块10还用于：将所述音频文件转换为40维度的MFCC特征，以使将所述音频文件从时域转换为频域，且每帧所述MFCC特征的长度为0.025秒。

标签标注模块11，用于对所述音频特征进行标签标注，并将标注结果进行存储，以得到标签数组。

其中，所述标签标注模块11还用于：分别对每帧所述音频特征进行分类，以得到有效帧和无效帧；对所述有效帧进行第一标识标记，对所述无效帧进行第二标识标记，以得到所述标签数组，且每个音频对应一个所述标签数组。

模型构建模块12，用于构建LSTM神经网络模型，在所述LSTM神经网络模型上封装Attention网络，并在所述LSTM神经网络模型中构建全连接层。

特征处理模块13，用于对所述音频特征进行数值标准化处理，并将标准化处理后的所述音频特征输入所述LSTM神经网络模型，以得到音频概率结果。

其中，所述特征处理模块13还用于：计算所述音频特征的平均值和标准差，并根据所述平均值和所述标准差依序对每个所述音频特征进行标准化处理。

具体的，所述标准化处理所述采用的计算公式为：

(A-B)/C；

优选的，所述特征处理模块13还用于：控制所述LSTM神经网络模型和所述Attention网络对所述音频特征进行分析，以得到音频矩阵；

损失计算模块14，用于根据所述标签数组对所述音频概率结果进行损失计算，以得到损失值，并根据所述损失值对所述LSTM神经网络模型的模型参数进行迭代训练。

其中，所述损失计算模块14还用于：通过采用cross entropy交叉熵函数在所述LSTM神经网络模型中预测结果与所述标签数组之间进行损失计算，以得到所述损失值。

音频识别模块15，用于将待检测音频输入所述LSTM神经网络模型进行音频识别，以得到音频识别结果。

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的音频识别方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

将待检测音频输入所述LSTM神经网络模型进行音频识别，以得到音频识别结果。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的音频识别系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-2中的音频识别方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标音频识别系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标音频识别系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的音频识别方法，其特征在于，所述将所述音频数据中的音频文件转换为音频特征的步骤包括：

3.如权利要求1所述的音频识别方法，其特征在于，所述对所述音频特征进行标签标注的步骤包括：

4.如权利要求1所述的音频识别方法，其特征在于，所述对所述音频特征进行数值标准化处理的步骤包括：

5.如权利要求4所述的音频识别方法，其特征在于，所述标准化处理所述采用的计算公式为：

(A-B)/C；

6.如权利要求1所述的音频识别方法，其特征在于，所述将标准化处理后的所述音频特征输入所述LSTM神经网络模型的步骤包括：

7.如权利要求1所述的音频识别方法，其特征在于，所述根据所述标签数组对所述音频概率结果进行损失计算的步骤包括：

8.一种音频识别系统，其特征在于，所述系统包括：

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至7任一项所述的音频识别方法。

10.一种存储介质，其特征在于，其存储有权利要求9所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至7任一项所述的音频识别方法的步骤。