CN111261192A

CN111261192A - 一种基于lstm网络的音频检测方法、电子设备及存储介质

Info

Publication number: CN111261192A
Application number: CN202010040841.0A
Authority: CN
Inventors: 白坤; 肖龙源; 李稀敏; 蔡振华; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-09

Abstract

本发明公开了一种基于LSTM网络的音频检测方法、电子设备及存储介质，所述方法包括一种基于LSTM网络的音频检测方法，其特征在于，所述方法包括如下：采集一定数量条的音频数据，对每条音频数据进行分类标记；构建一二分类的分类模型；利用LSTM网络对所述分类模型进行训练；将一段待测音频数据进行截取成多段子音频数据；将待测音频数据的多段子音频数据分别输入到训练好的分类模型进行分类判断；将保留的有效的子音频数据拼接形成有效音频。本发明对音频段按照时间维度来进行自动的检测，当检测到是无效的音频，自动去除,具备更加人性化的设置，验证准确高，应用便捷高效等特点。

Description

一种基于LSTM网络的音频检测方法、电子设备及存储介质

技术领域

本发明涉及餐饮领域，涉及一种基于LSTM网络的音频检测方法，以及相关的电子设备及存储介质。

背景技术

在语音识别和声纹识别等等的语音相关的技术中，一直存在无效音频的干扰。例如音频中可能存在的过大的噪音，汽车的滴滴声，电话的铃声以及空白的音频段等等。这些无效的音频段的出现，大大的影响了我们整体的语音识别或者声纹识别的效果。因此，检测并且除去它们是十分有必要的。

发明内容

本发明的目的在于解决现有技术问题，提出能够对音频段按照时间维度来进行自动的检测。

本发明提供了一种基于LSTM网络的音频检测方法，包括如下步骤：

步骤一，采集一定数量条的音频数据，对每条音频数据进行分类标记，每条音频数据标记为有效音频或无效音频；所述一定数量条的音频数据包括第一数量的无效音频数据和第二数量的有效音频数据，

所述无效音频包含以下噪音、电话铃声、汽车声的一种或多种；

步骤二，构建一二分类的分类模型；

所述分类模型可依据无效音频特征和有效音频特征之间的特征差异对音频数据进行分类；

步骤三，利用LSTM网络对所述分类模型进行训练；

步骤四，将一段待测音频数据进行截取成多段子音频数据，每条子音频数据的音频长度为T秒；

步骤五，将待测音频数据的多段子音频数据分别输入到训练好的分类模型进行分类判断；

若某段子音频数据识别为无效，则删除该段无效的子音频数据，若某段子音频数据识别为有效，则保留该段有效的子音频数据。

进一步的，上述方法中，所述利用LSTM网络对所述分类模型进行训练，具体包括：

将所述一定数量条的音频数据进行划分，一部分音频数据划分为训练集，剩余部分音频数据划分为测试集；其中训练集的音频数据数量大于测试集的音频数据数量；

提取所述训练集的音频数据的声学特征，并提取组合特征；

将组合特征输入到LSTM网络中进行分类模型训练；

采用Adam算法进行LSTM网络参数的更新，通过若干次迭代得到训练好的分类模型。

进一步的，所述测试集的无效音频的数量与所述测试集的有效音频的数量比为0.8～1.2，在本发明实施例中，优选的，所述测试集的无效音频的数量与所述测试集的有效音频的数量比为1；

进一步的，所述训练集的无效音频的数量与所述训练集的有效音频的数量比为0.8～1.2，在本发明实施例中，优选的，所述训练集的无效音频的数量与所述训练集的有效音频的数量比1；

每条音频长度为T秒，0.1≤T≤1；在本发明实施例中，优选的，每条音频长度为0.5秒。

进一步的，在本发明实施例中，所述LSTM网络包含三层结构的LSTM网络、一全连接层和输出分类层；所述LSTM网络采用的损失函数为交叉熵损失函数。

进一步的，在本发明实施例中，所述分类模型为softmax二分类器。

进一步的，所述分类模型中加入dropout操作。

进一步的，在本发明实施例中，所述组合特征包括39维特征，具体为13维的MFCC特征、13维的MFCC特征一阶导数，13维MFCC特征二阶导数，共计39维特征。

进一步的，上述所述音频检测方法，所述步骤五中还包括，将保留的有效的子音频数据拼接形成有效音频。

与上述的基于LSTM网络的音频检测方法，相应的，本发明提供了一种电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述基于LSTM网络的音频检测方法。

与上述的基于LSTM网络的音频检测方法，相应的，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于LSTM网络的音频检测方法步骤。

与本发明基于LSTM网络的音频检测方法、电子设备、介质，本发明对音频段按照时间维度来进行自动的检测，当检测到是无效的音频，自动去除,具备更加人性化的设置，验证准确高，应用便捷高效等特点。

附图说明

此处所说明的附图用来提供对发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例1的一种基于LSTM网络的音频检测方法的流程步骤图；

图2为本发明实施例1的提取组合特征的流程步骤图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明提供了一种基于LSTM网络的音频检测方法，所述方法包括如下步骤，如附图1所示，包括如下步骤：

步骤S1，采集一定数量条的音频数据，对每条音频数据进行分类标记，

将无效音频数据标记为A，在本发明实施例中，优选的，A为1，将有效音频数据标记为B，在本发明实施例中，优选的，B为0；所述一定数量条的音频数据包括第一数量的无效音频数据和第二数量的有效音频数据，

每条音频长度为T秒；其中，0.1≤T≤1，在本发明实施例中，优选为0.5s。

步骤二，构建一二分类的分类模型；

步骤三，利用LSTM网络对所述分类模型进行训练；

若某段子音频数据识别为无效，则删除该段无效的子音频数据，若某段子音频数据识别为有效，则保留该段有效的子音频数据；

步骤五，将保留的有效的子音频数据拼接形成有效音频。

进一步的，所述利用LSTM网络对所述分类模型进行训练，具体包括：

将所述一定数量条的音频数据进行划分，一部分音频数据划分为训练集，剩余部分音频数据划分为测试集；其中训练集的音频数据数量大于测试集的音频数据数量，本发明实施例，优选的，所述训练集的音频数量为80％的一定数量条的音频数据，所述测试集的音频数量为20％的一定数量条的音频数据；

提取所述训练集的音频数据的声学特征，并提取组合特征；

将组合特征输入到LSTM网络中进行分类模型训练；通过相应的方法提取训练集的声学特征，由于有效和无效之间的声音的特征会有些许不同，比如在某一个频率段声音的能量，基频等，所以，可以采用不用声音特征的组合作为LSMT网络的输入，并训练出分类模型，进一步的，所述组合特征包括39维特征，具体为13维的MFCC特征、13维的MFCC特征一阶导数，13维MFCC特征二阶导数，共计39维特征。

梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，简称MFCC)是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性。

进一步的，所述测试集的无效音频的数量与所述测试集的有效音频的数量比为0.8～1.2，所述测试集的无效音频的数量与所述测试集的有效音频的数量比大约为1:1，最为较佳实施例，本发明所述测试集的无效音频的数量与所述测试集的有效音频的数量比为1:1；

进一步的，所述训练集的无效音频的数量与所述训练集的有效音频的数量比为0.8～1.2，在本发明实施例中，优选的，所述训练集的无效音频的数量与所述训练集的有效音频的数量比大约为1:1。最为较佳实施例，本发明所述训练集的无效音频的数量与所述训练集的有效音频的数量比1。

进一步的，所述LSTM网络包含三层结构的LSTM网络、一全连接层和输出分类层；所述LSTM网络采用的损失函数为交叉熵损失函数。

进一步的，所述分类模型为softmax分类器。

进一步的，防止分类模型过拟合，所述分类模型中加入dropout操作，。

进一步的，提取组合特征的流程步骤图如附图2所示，具体包括如下步骤：

音频数据获取步骤，具体包括通过预滤波，CODEC前端带宽为300-3400Hz的抗混叠滤波器，并经过A/D变换，本发明实施例中，具体采用8kHz的采样频率，12bit的线性量化精度。

预加重步骤，具体而言通过一个一阶有限激励响应高通滤波器，使信号的频谱变得平坦，不易受到有限字长效应的影响。

分帧步骤，根据语音的短时平稳特性，语音可以以帧为单位进行处理，实验中选取的语音帧长为32ms，帧叠为16ms。

加窗步骤，采用哈明窗对一帧语音加窗，以减小吉布斯效应的影响。

快速傅立叶变换步骤，快速傅立叶变换(Fast Fourier Transformation,FFT)：将时域信号变换成为信号的功率谱。

三角窗滤波步骤，用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器)，对信号的功率谱滤波，每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽，以此来模拟人耳的掩蔽效应。

求对数步骤，三角窗滤波器组的输出求取对数，可以得到近似于同态变换的结果。

离散余弦变换步骤，离散余弦变换(Discrete Cosine Transformation,DCT)，去除各维信号之间的相关性，将信号映射到低维空间。

谱加权步骤，由于倒谱的低阶参数易受说话人特性、信道特性等的影响，而高阶参数的分辨能力比较低，所以需要进行谱加权，抑制其低阶和高阶参数。

倒谱均值减步骤，倒谱均值减(Cepstrum Mean Subtraction,CMS)，CMS可以有效地减小语音输入信道对特征参数的影响。

差分参数步骤，差分参数，大量实验表明，在语音特征中加入表征语音动态特性的差分参数，能够提高系统的识别性能。在本发明用到了MFCC参数的一阶差分参数和二阶差分参数。

短时能量步骤，语音的短时能量也是重要的特征参数，本系统中我们采用了语音的短时归一化对数能量及其一阶差分、二阶差分参数。

测试时输入一段音频进行测试，提取该音频的组合特征，将特征输入训练好的网络，最后通过softmax层输出预测有效还是无效结果的概率值p。根据softmax输出结果的到预测的结果属于有效还是无效。

实施例2

本发明实施例中提供了一种电子设备，所述电子设备包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行基于LSTM网络的音频检测方法步骤。本实施例的所述基于LSTM网络的音频检测方法步骤与实施例1的相同，在本实施例，不再赘述。

实施例3

本发明实施例中提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现基于LSTM网络的音频检测方法步骤。本实施例的所述基于LSTM网络的音频检测方法步骤与实施例1的相同，在本实施例，不再赘述。

需要说明的是，本发明提供了一种基于LSTM网络的音频检测方法如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备(可以是个人计算机、云电子设备、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。所述计算机可读存储介质包括但不限于U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。本发明实施例不限制于任何特定的硬件和软件结合。

以上各实施例仅用以说明本发明的技术方案，但应当理解本发明并非局限于上述实施例，通过本发明的启示，本领域技术人员结合公知或现有技术、知识所进行的修改，或者对其中部分或者全部技术特征进行等同替换也应视为在本发明的保护范围内。

Claims

1.一种基于LSTM网络的音频检测方法，其特征在于，所述方法包括如下步骤：

步骤二，构建一二分类的分类模型；

步骤三，利用LSTM网络对所述分类模型进行训练；

2.根据权利要求1所述的基于LSTM网络的音频检测方法，其特征在于，

所述利用LSTM网络对所述分类模型进行训练，具体包括：

提取所述训练集的音频数据的声学特征，并提取组合特征；

将组合特征输入到LSTM网络中进行分类模型训练；

3.根据权利要求2所述的基于LSTM网络的音频检测方法，其特征在于，

所述测试集的无效音频的数量与所述测试集的有效音频的数量比为0.8～1.2，

所述训练集的无效音频的数量与所述训练集的有效音频的数量比为0.8～1.2，

每条音频长度为T秒，0.1≤T≤1；

所述LSTM网络包含三层结构的LSTM网络、一全连接层和输出分类层；

所述LSTM网络采用的损失函数为交叉熵损失函数。

4.根据权利要求2所述的基于LSTM网络的音频检测方法，其特征在于，

所述音频检测方法，所述步骤五中还包括，将保留的有效的子音频数据拼接形成有效音频。

5.根据权利要求2所述的基于LSTM网络的音频检测方法，其特征在于，

所述分类模型为softmax二分类器。

6.根据权利要求5所述的基于LSTM网络的音频检测方法，其特征在于，

所述分类模型中加入dropout操作。

7.根据权利要求2所述的基于LSTM网络的音频检测方法，其特征在于，

所述组合特征包括39维特征，具体为13维的MFCC特征、13维的MFCC特征一阶导数，13维MFCC特征二阶导数，共计39维特征。

8.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1至8任一项所述基于LSTM网络的音频检测方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，

所述计算机程序被处理器执行时实现如权利要求1至8任一项所述基于LSTM网络的音频检测方法步骤。