CN110942766A

CN110942766A - 音频事件检测方法、系统、移动终端及存储介质

Info

Publication number: CN110942766A
Application number: CN201911207416.XA
Authority: CN
Inventors: 陈剑超; 肖龙源; 李稀敏; 蔡振华; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-03-31

Abstract

本发明适用于语音识别技术领域，提供了一种音频事件检测方法、系统、移动终端及存储介质，该方法包括：获取原始音频信号，对原始音频信号进行特征提取，以得到音频特征；将音频特征输入神经网络模型中进行瓶颈特征提取和合并，以得到深层变换特征；对深层变换特征进行降维处理，以得到特征矢量，并将特征矢量作为当前帧的信息输入神经网络模型；获取训练集数据和待检测数据，根据训练集数据对神经网络模型进行训练，并将待检测数据输入至训练后的神经网络模型进行事件分析，以得到音频事件检测结果。本发明通过基于音频特征和深层变换特征的提取，提高了神经网络模型音频事件检测的准确性。

Description

音频事件检测方法、系统、移动终端及存储介质

技术领域

本发明属于语音识别技术领域，尤其涉及一种音频事件检测方法、系统、移动终端及存储介质。

背景技术

音频事件检测是指对连续音频信号流中具有明确语义的片段进行检测与标定的过程。它是机器对环境声音场景进行识别和语义理解的重要基础，并将在未来机器人声音环境的语义理解、无人车行车周边环境的声音感知等方面发挥重要的作用。

音频事件检测与语音识别类似，都属于模式识别问题。目前音频事件检测所采用的音频特征大多来自于语音识别领域，但由于各类音频事件与语音信号的产生机理不同，且各类音频事件的时频特性更多复杂多变，进而使得现有的音频事件的检测准确率低下。

发明内容

本发明实施例的目的在于提供一种音频事件检测方法、系统、移动终端及存储介质，旨在解决现有的音频事件检测方法中，其音频事件的检测准确率低下的问题。

本发明实施例是这样实现的，一种音频事件检测方法，所述方法包括：

获取原始音频信号，对所述原始音频信号进行特征提取，以得到音频特征；

将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并，以得到深层变换特征，所述神经网络模型中至少设有一层深度神经网络；

对所述深层变换特征进行降维处理，以得到特征矢量，并将所述特征矢量作为当前帧的信息输入所述神经网络模型；

获取训练集数据和待检测数据，根据所述训练集数据对所述神经网络模型进行训练，并将所述待检测数据输入至训练后的所述神经网络模型进行事件分析，以得到音频事件检测结果。

更进一步的，所述将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并的步骤包括：

将所述音频特征输入当前层深度神经网络进行所述瓶颈特征的提取和合并，以得到音频矢量；

将所述音频矢量作为下一层深度神经网络的输入，并控制所述下一层深度神经网络依序对所述音频矢量进行所述瓶颈特征的提取和合并；

将最后层深度神经网络提取出的所述瓶颈特征设置为所述深层变换特征。

更进一步的，所述对所述深层变换特征进行降维处理的步骤包括：

采用离散余弦变换去除所述深层变换特征中的冗余信息。

更进一步的，所述对所述原始音频信号进行特征提取的步骤包括：

对所述原始音频信号进行预加重处理，并对预加重处理后的所述原始音频信号进行分帧处理；

对分帧处理的后的所述原始音频信号进行加窗处理，并将加窗处理后的所述原始音频信号进行滤波；

对滤波后的所述原始音频信号进行对数运算，并对对数运算后的所述原始音频信号进行离散余弦变换，以得到所述音频特征。

更进一步的，所述将加窗处理后的所述原始音频信号进行滤波的步骤之前，所述方法还包括：

对加窗处理后的所述原始音频信号进行傅里叶变换，以得到所述原始音频信号对应的功率谱。

更进一步的，所述方法还包括：

获取所述音频事件检测结果中存储的结果特征；

当所述结果特征为数字特征值，且判断到所述数字特征值在预设值范围内时，判定所述待检测数据中有音频事件的发生；

当所述结果特征为文字特征，且判断到所述文字特征中存储有预设文字时，判定所述待检测数据中有音频事件的发生；

当所述结果特征为图像特征，且判断到所述图像特征中存储有预设图像时，判定所述待检测数据中有音频事件的发生。

本发明实施例的另一目的在于提供一种音频事件检测系统，所述系统包括：

音频特征提取模块，用于获取原始音频信号，对所述原始音频信号进行特征提取，以得到音频特征；

特征合并模块，用于将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并，以得到深层变换特征，所述神经网络模型中至少设有一层深度神经网络；

降维模块，用于对所述深层变换特征进行降维处理，以得到特征矢量，并将所述特征矢量作为当前帧的信息输入所述神经网络模型；

事件检测模块，用于获取训练集数据和待检测数据，根据所述训练集数据对所述神经网络模型进行训练，并将所述待检测数据输入至训练后的所述神经网络模型进行事件分析，以得到音频事件检测结果。

更进一步的，所述特征合并模块还用于：

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的音频事件检测方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的音频事件检测方法的步骤。

本发明实施例，通过基于所述音频特征和所述深层变换特征的提取，有效的提高了所述神经网络模型音频事件检测的准确性，且通过在所述神经网络模型中进行瓶颈特征提取和合并的设计，以提高音频事件的特性差异，进而进一步提高了所述神经网络模型音频事件检测的准确性。

附图说明

图1是本发明第一实施例提供的音频事件检测方法的流程图；

图2是本发明第二实施例提供的音频事件检测方法的流程图；

图3是本发明第三实施例提供的音频事件检测系统的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的音频事件检测方法的流程图，包括步骤：

步骤S10，获取原始音频信号，对所述原始音频信号进行特征提取，以得到音频特征；

其中，该音频特征为梅尔倒谱系数(Mel-scaleFrequency CepstralCoefficients，简称MFCC)，MFCC是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，它与频率的关系可用下式近似表示：

式中f为频率，单位为Hz；

步骤S20，将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并，以得到深层变换特征；

其中，所述神经网络模型中至少设有一层深度神经网络，该步骤中，通过将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并的设计，以使将不同类型特征可以从不同的侧面刻画复杂音频事件的特性差异，使得具有信息互补性，进而提高了所述音频事件检测方法的准确性；

步骤S30，对所述深层变换特征进行降维处理，以得到特征矢量，并将所述特征矢量作为当前帧的信息输入所述神经网络模型；

其中，通过对所述深层变换特征进行降维处理的设计，以使将特征信息转换为矢量信息，方便了信息的处理和叠加，提高了所述音频事件检测方法的工作效率

步骤S40，获取训练集数据和待检测数据，根据所述训练集数据对所述神经网络模型进行训练；

其中，可以通过采用交叉熵损失函数和Adam算法分别对所述神经网络模型进行网络参数的计算和更新，并通过预设次数迭代，以完成模型的训练；

优选的，本实施例中，还可以在所述神经网络模型中进行dropout处理，以防止所述神经网络模型的过拟合；

步骤S50，将所述待检测数据输入至训练后的所述神经网络模型进行事件分析，以得到音频事件检测结果；

本实施例，通过基于所述音频特征和所述深层变换特征的提取，有效的提高了所述神经网络模型音频事件检测的准确性，且通过在所述神经网络模型中进行瓶颈特征提取和合并的设计，以提高音频事件的特性差异，进而进一步提高了所述神经网络模型音频事件检测的准确性。

实施例二

请参阅图2，是本发明第二实施例提供的音频事件检测方法的流程图，包括步骤：

步骤S11，获取原始音频信号，对所述原始音频信号进行预加重处理，并对预加重处理后的所述原始音频信号进行分帧处理；

其中，是通过将该原始音频信号通过一高通滤波器，以实现预加重处理的操作，预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰；

优选的，该步骤中，先将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20～30ms左右。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度为256个采样点，则对应的时间长度是256/8000 1000＝32ms；

步骤S21，对分帧处理的后的所述原始音频信号进行加窗处理，对加窗处理后的所述原始音频信号进行傅里叶变换，以得到所述原始音频信号对应的功率谱；

该步骤中，将每一帧乘以汉明窗，以增加帧左端和右端的连续性。假设分帧后的信号为S(n)，n＝0，1，…，N-1，N为帧的大小，那么乘上汉明窗后，W(n)形式如下：

不同的a值会产生不同的汉明窗，一般情况下a取0.46；

优选的，由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的DFT为：

式中x(n)为输入的语音信号，N表示傅里叶变换的点数；

步骤S31，将功率谱进行滤波，对滤波后的所述功率谱进行对数运算，并对对数运算后的所述功率谱进行离散余弦变换，以得到所述音频特征；

其中，可以采用滤波器的方式以达到对所述功率谱的滤波效果，即通过将能量谱通过一组Mel尺度的三角形滤波器组，定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，采用的滤波器为三角滤波器，中心频率为。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽；

具体的，三角带通滤波器有两个主要目的：

对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。(因此一段语音的音调或音高，是不会呈现在MFCC参数内，以MFCC为特征的语音辨识系统，并不会受到输入语音的音调不同而有所影响)此外，还可以降低运算量；

三角滤波器的频率响应定义为：

式中

且该步骤中，计算每个滤波器组输出的对数能量为：

则，经离散余弦变换(DCT)得到MFCC系数为：

将上述的对数能量带入离散余弦变换，求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数，通常取12-16，该M是三角滤波器个数；

此外，一帧的音量(即能量)，也是语音的重要特征，而且非常容易计算。因此，通常再加上一帧的对数能量(定义：一帧内信号的平方和，再取10为底的对数值，再乘以10)使得每一帧基本的语音特征就多了一维，包括一个对数能量和剩下的倒频谱参数；

步骤S41，将所述音频特征输入当前层深度神经网络进行所述瓶颈特征的提取和合并，以得到音频矢量；

其中，该步骤中，通过将该音频特征输入神经网络模型中以进行瓶颈特征的提取和合并，优选的，所述神经网络模型中至少设有一层深度神经网络；

步骤S51，将所述音频矢量作为下一层深度神经网络的输入，并控制所述下一层深度神经网络依序对所述音频矢量进行所述瓶颈特征的提取和合并；

具体的，本实施例中，首先，将多流的音频特征输入第一层深度神经网络分别提取瓶颈特征。然后将上一层深度神经网络的瓶颈特征进行合并，作为下一层网络的输入；如果有多层深度神经网络，则一次这样传递下去。由于不同类型特征可以从不同的侧面刻画复杂音频事件的特性差异，具有信息互补性；

步骤S61，将最后层深度神经网络提取出的所述瓶颈特征设置为所述深层变换特征；

其中，深度神经网络有多个隐含层，多隐层的深度神经网络具有优异的特征学习能力，学习得到的特征对于数据有着更本质的刻画，有利于分类。利用多流多层深度神经网络的深层变换特征提取方法，并以两流两层为例将浅层音频特征作为输入，提取的深层变换特征比传统的浅层特征分类效果要好，除此之外，利用深度神经网络构建的深度模型对数据的建模能力比一般的分类器，如GMM，HMM和SVM要强。因此，在音频事件检测中，将DNN的声学特征提取能力与对复杂数据的建模能力结合起来，将进一步提升检测性能；

优选的，通过组合多流神经网络的瓶颈特征作为下一层深度神经网络的输入，则能进一步区分信息的挖掘，最后将最后一层深度神经网络提取出来的瓶颈特征就是复杂音频事件的深层变换特征；

步骤S71，采用离散余弦变换去除所述深层变换特征中的冗余信息，以得到特征矢量，并将所述特征矢量作为当前帧的信息输入所述神经网络模型；

其中，通过采用离散余弦变换去除所述深层变换特征中的冗余信息的设计，以使将特征信息转换为矢量信息，方便了信息的处理和叠加，提高了所述音频事件检测方法的工作效率；

步骤S81，获取训练集数据和待检测数据，根据所述训练集数据对所述神经网络模型进行训练；

其中，该训练集数据可以根据需求进行数量和类别的调整，该待检测数据可以采用麦克风或者拾音器的方式进行音频数据获取；

步骤S91，将所述待检测数据输入至训练后的所述神经网络模型进行事件分析，以得到音频事件检测结果，并获取所述音频事件检测结果中存储的结果特征；

步骤S101，当所述结果特征为数字特征值，且判断到所述数字特征值在预设值范围内时，判定所述待检测数据中有音频事件的发生；

其中，该预设范围可以根据需求进行设置，该步骤中的预设范围为0-1；

步骤S111，当所述结果特征为文字特征，且判断到所述文字特征中存储有预设文字时，判定所述待检测数据中有音频事件的发生；

其中，该预设文字可以根据需求进行设置，例如该预设文字为“检测到存在音频事件”等；

步骤S121，当所述结果特征为图像特征，且判断到所述图像特征中存储有预设图像时，判定所述待检测数据中有音频事件的发生；

其中，该预设图像可以根据需求进行设置，例如该步骤中的预设图像可以为“√”；

实施例三

请参阅图3，是本发明第三实施例提供的音频事件检测系统100的结构示意图，包括：音频特征提取模块10、特征合并模块11、降维模块12和事件检测模块13，其中：

音频特征提取模块10，用于获取原始音频信号，对所述原始音频信号进行特征提取，以得到音频特征。

其中，所述音频特征提取模块10还用于：

优选的，所述音频特征提取模块10还用于：

特征合并模块11，用于将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并，以得到深层变换特征，所述神经网络模型中至少设有一层深度神经网络。

其中，所述特征合并模块11还用于：

降维模块12，用于对所述深层变换特征进行降维处理，以得到特征矢量，并将所述特征矢量作为当前帧的信息输入所述神经网络模型。

其中，所述降维模块12还用于：采用离散余弦变换去除所述深层变换特征中的冗余信息。

事件检测模块13，用于获取训练集数据和待检测数据，根据所述训练集数据对所述神经网络模型进行训练，并将所述待检测数据输入至训练后的所述神经网络模型进行事件分析，以得到音频事件检测结果。

进一步地，所述事件检测模块13还用于：

获取所述音频事件检测结果中存储的结果特征；

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的音频事件检测方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

获取训练集数据和待检测数据，根据所述训练集数据对所述神经网络模型进行训练，并将所述待检测数据输入至训练后的所述神经网络模型进行事件分析，以得到音频事件检测结果。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的音频事件检测系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-2中的音频事件检测方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标音频事件检测系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标音频事件检测系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频事件检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的音频事件检测方法，其特征在于，所述将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并的步骤包括：

3.如权利要求1所述的音频事件检测方法，其特征在于，所述对所述深层变换特征进行降维处理的步骤包括：

采用离散余弦变换去除所述深层变换特征中的冗余信息。

4.如权利要求1所述的音频事件检测方法，其特征在于，所述对所述原始音频信号进行特征提取的步骤包括：

5.如权利要求4所述的音频事件检测方法，其特征在于，所述将加窗处理后的所述原始音频信号进行滤波的步骤之前，所述方法还包括：

6.如权利要求1所述的音频事件检测方法，其特征在于，所述方法还包括：

获取所述音频事件检测结果中存储的结果特征；

7.一种音频事件检测系统，其特征在于，所述系统包括：

8.如权利要求7所述的音频事件检测系统，其特征在于，所述特征合并模块还用于：

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至6任一项所述的音频事件检测方法。

10.一种存储介质，其特征在于，其存储有权利要求10所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至6任一项所述的音频事件检测方法的步骤。