CN111968673A

CN111968673A - 一种音频事件检测方法及系统

Info

Publication number: CN111968673A
Application number: CN202010746291.4A
Authority: CN
Inventors: 陈剑超; 肖龙源; 李稀敏; 刘晓葳; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2020-11-20

Abstract

本发明公开了一种音频事件检测方法及系统，该方法使用基于模糊聚类的GMM模型，GMM模型的构建方法为：GMM模型的高斯混合数为M(M为正整数)，对于训练数据

进行模糊聚类，得到码本集合X＝{x₁,x₂,…,x_i},i＝1,2,…,M，其中，第i个高斯原子X_i的样本空间大小为d_i；令第i个高斯原子X_i的均值向量，作为GMM模型的第i个高斯分量的初始值μ_i，第i个高斯原子X_i的方差向量，作为第i个高斯分量的初始方差σ_i，对模型参数进行迭代优化，直至GMM模型训练完成。本发明可以减少用于检测音频事件的神经网络模型的训练用时，并提高识别效果。

Description

一种音频事件检测方法及系统

技术领域

本发明涉及音频识别技术领域，特别是一种音频事件检测方法及系统。

背景技术

音频事件是指具有某种特定语义或内容的一个音频片段，从音频事件处理的方式上分为分类和检测。音频事件的检测包括音频事件的定位和音频事件的识别，通常先利用分段算法定位音频事件的位置，再通过神经网络模型识别出音频事件的类型。传统的用于检测音频事件的神经网络模型的训练用时长，识别效果差。

发明内容

本发明为解决上述问题，提供了一种音频事件检测方法及系统，减少用于检测音频事件的神经网络模型的训练用时，并提高识别效果。

为实现上述目的，本发明采用的技术方案为：

一种音频事件检测方法，使用基于模糊聚类的GMM模型，所述GMM模型的构建方法为：所述GMM模型的高斯混合数为M(M为正整数)，对于训练数据

进行模糊聚类，得到码本集合X＝{x₁,x₂,…,x_i},i＝1,2,…,M，其中，第i个高斯原子X_i的样本空间大小为d_i；令第i个高斯原子X_i的均值向量，作为所述GMM模型的第i个高斯分量的初始值μ_i，第i个高斯原子X_i的方差向量，作为第i个高斯分量的初始方差σ_i，对模型参数进行迭代优化，直至所述GMM模型训练完成。

优选的，所述模型参数的重估公式包括：

加权系数重估公式：

均值向量重估公式：

方差向量重估公式：

优选的，所述GMM模型的训练方法，包括以下步骤：

训练音频分帧，得训练分帧音频；

提取所述训练分帧音频的MFCC特征，得训练MFCC特征；

将所述训练MFCC特征输入待训练的所述GMM模型，所述GMM模型输出预测结果；

多次迭代训练，优化损失值至趋于稳定后完成训练。

优选的，所述音频事件检测方法包括以下步骤：

待识别音频自适应分段，得待识别分段音频；

提取所述待识别分段音频的MFCC特征，得待识别MFCC特征；

将所述待识别MFCC特征输入训练好的所述GMM模型，识别音频事件的类型。

优选的，MFCC特征为低频MFCC特征。

优选的，所述待识别音频自适应分段包括以下步骤：

所述待识别音频预处理，分帧；

从所述待识别音频的第一帧开始，向后寻找的短时能量超过上门限的连续5帧音频，如果找到，则判定此段音频的附近包括所述音频事件，否则结束自适应分段；

从所述音频向前寻找短时能量低于下门限的连续10帧音频，如果找到，则标记此段音频为音频事件的开始位置；向后寻找短时能量低于下门限的连续10帧音频，如果找到，则标记此段音频为音频事件的结束位置；

检查整段所述待识别音频是否寻找结束，如果未结束，重复上面的两个步骤。

优选的，从所述音频事件的开始位置向前寻找短时过零率低于过零率门限的帧，将此帧修正为音频事件的开始位置；从所述音频事件的结束位置向后寻找短时过零率低于过零率门限的帧，将此帧修正为音频事件的结束位置。

基于同样的发明构思，本发明还提供了一种音频事件检测系统，包括：

音频采集终端，用于采集所述待识别音频；

识别模块，基于上述的方法对所述待识别音频进行识别，并输出识别结果。

本发明的有益效果是：

(1)使用基于模糊聚类的GMM模型进行MFCC特征的运算，实现音频事件的检测，可以排除其他特征的干扰，提高识别率；

(2)使用低频MFCC特征，避免计算精度的下降；

(3)通过语音激活检测VAD进行待识别音频的自适应分段，标记音频事件的起止位置。

附图说明

图1为基于GMM模型的音频检测流程图；

图2为语音观察矢量的提取流程图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合具体实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一

使用GMM模型进行音频事件的检测，实际上做的是有监督的音频事件识别。

如图1所示，首先进行训练，使用已经分类好的训练数据，依次训练GMM模型。比如将铃声类型的音频事件段(切割好的音频段，保证音频内容均为铃声，这样训练出来的GMM模型才是对铃声特征空间的描述)，按流程进行分帧和MFCC特征提取，然后使用MFCC特征进行模型运算。将得到的GMM模型标记为铃声模型。

通过使用不同类型的音频事件段对GMM模型进行训练，得到可以识别出多种类型的音频事件的模型。

传统的GMM模型训练，常使用EM算法，算法容易陷入局部最优解，因此模型的训练用时较长，并且识别效果较差。

本实施例改进传统的GMM模型，改善算法，使用模糊聚类结果，作为GMM模型初始值，对模型进行训练。

GMM模型的构建方法为：GMM模型的高斯混合数为M(M为正整数)，对于训练数据

进行模糊聚类，得到码本集合X＝{x₁,x₂,…,x_i},i＝1,2,…,M，其中，第i个高斯原子X_i的样本空间大小为d_i；令第i个高斯原子X_i的均值向量，作为GMM模型的第i个高斯分量的初始值μ_i，第i个高斯原子X_i的方差向量，作为第i个高斯分量的初始方差σ_i，则第i个高斯分量的初始加权系数为

之后，类似于EM算法的迭代优化过程，基于初始的模型参数，对模型参数进行迭代优化，直至GMM模型训练完成，最终得到基于模糊聚类的GMM模型。

模型参数的重估公式如下：

加权系数重估公式：

均值向量重估公式：

方差向量重估公式：

本实施例使用基于模糊聚类的GMM模型，可以提高对MFCC特征的识别精度，排除其他特征的干扰，识别效果好。

本实施例的GMM模型的训练方法，包括以下步骤：

训练音频分帧，得训练分帧音频；

提取训练分帧音频的MFCC特征，得训练MFCC特征；

将训练MFCC特征输入待训练的GMM模型，GMM模型输出预测结果；

多次迭代训练，优化损失值至趋于稳定后完成训练。

音频事件检测方法包括以下步骤：

待识别音频自适应分段，得待识别分段音频。

通过语音激活检测VAD进行自适应分段。

首先，对于待分析的音频段，即待识别音频进行预处理和分帧，计算短时能量和短时过零率。

其中，预处理包括预加重和加窗分帧。

音频信号，如碰撞声、音乐声等的功率谱随着频率的上升而下降，大部分能量集中于低频率范围，尤其是人声，更是由于受到口鼻辐射和声门激励的影响，在高频段严重衰减。所以提取音频信号的高频频谱就十分困难。预加重技术就是提升频谱的高频域部分，从而使得频谱的高低频段变得平整，以便后续的频谱分析，通常采用H(z)＝1-μz^-1，一阶有限激励响应高通滤波器来实现预加重处理。

音频信号是一个随机、时变的、非平稳的过程。但是音频信号具有短时平稳性，即在一个短时范围内，音频信号的特征变化较为缓慢，可以视为不变。基于短时平稳性，可以对量化采样后的音频数据进行分帧处理，帧长为10～30ms。分帧一般采用交叠分段的方法，以保持音频信号的连续性。使用窗函数进行加权来实现分帧，常用的窗函数有：矩形窗和汉明窗，本实施例使用汉明窗，帧长为16ms。

通过观测音频信号，人工可以直观地判断音频事件所在的位置，也就是音频信号“突起”的位置，信号起伏越剧烈的地方，音频事件越明显。

本实施例使用短时能量来作为检测音频事件的指标。

短时能量是度量音频信号幅值变化的函数。假设已经分帧好的音频段，第N帧音频信号为X_n(m)，则短时能量E_n为：

过零，即时域波形穿过时间横轴。短时过零率，表示横轴被一帧音频信号所穿过的次数。通过短时过零率可以从背景噪声中找出语音或铃声等有规律的音频事件。

然后，计算整段待识别音频的平均能量，并据此计算出音频信号分段的上、下门限。

接着，从待识别音频的第一帧开始，向后寻找的短时能量超过上门限的连续5帧音频，如果找到，则判定此段音频的附近包括音频事件，继续下一步骤，否则结束VAD，分段结束。

其次，从音频向前寻找短时能量低于下门限的连续10帧音频，如果找到，则标记此段音频的第1帧为音频事件的开始位置；向后寻找短时能量低于下门限的连续10帧音频，如果找到，则标记此段音频的最后1帧为音频事件的结束位置。如果同时找到了音频事件的起止位置，继续下一步骤，否则返回上一步骤。

再次，利用短时过零率，修正音频事件的起止位置。即从音频事件的开始位置向前寻找短时过零率低于过零率门限的帧，将此帧修正为音频事件的开始位置；从音频事件的结束位置向后寻找短时过零率低于过零率门限的帧，将此帧修正为音频事件的结束位置。

最后，检查整段待识别音频是否寻找结束，如果未结束，从上一音频事件的结束位置向后继续寻找音频事件。

提取待识别分段音频的MFCC特征，得待识别MFCC特征。

MFCC特征已经广泛应用在音频识别领域。梅尔频率是基于人耳的这种听觉特性提出来的，它与频率成非线性的对应关系，因此，随着频率的提高，计算精度会随之下降，因此，在应用中常常使用低频MFCC特征。

MFCC特征的提取，即从一段语音中提取语音观察矢量的流程参照图2所示。

将待识别MFCC特征输入训练好的GMM模型，识别待识别音频中包含的音频事件的类型。

本发明使用基于模糊聚类的GMM模型进行MFCC特征的运算，实现音频事件的检测，可以排除其他特征的干扰，提高识别率。

本领域技术人员可以理解，实现上述音频数据识别方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例二

本实施例提供一种音频事件检测系统，包括：

音频采集终端，用于实时采集用户的语音流，并将音频数据发送至识别模块。识别模块接收后，基于上述方法，对音频数据进行识别。如果当前语音流中出现了音频事件，则分别识别出各个音频事件的类型，并通过语音等方式通知用户，为用户辨识一段音频的内容提供途径。

由于本实施例的实现网络结构为端到端，直接输出识别结果，识别速度快，适用于低功耗的智能设备。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。