CN112820318A

CN112820318A - 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统

Info

Publication number: CN112820318A
Application number: CN202011624452.9A
Authority: CN
Inventors: 刘芳; 向阳; 黄绍锋; 王向辉
Original assignee: Xi'an Hepu Accoustic Technology Co ltd
Current assignee: Xi'an Hepu Accoustic Technology Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-18

Abstract

本发明属于音频信号的获取与处理领域，公开了一种基于GMM‑UBM的冲击声模型建立、冲击声检测方法及系统。模型建立方法包括：获取麦克风拾取的音频信号；音频信号的MFCC计算；样本数据的GMM‑UBM数据训练；冲击声检测方法包括测试音频的冲击声判决。本发明对冲击声有较好的检测效果。本发明具有检测结果对环境噪声鲁棒、对信噪比鲁棒、方法运算复杂度低、易于实现等优点。

Description

一种基于GMM-UBM的冲击声模型建立、冲击声检测方法及系统

技术领域

本发明属于音频信号的获取与处理领域，具体涉及一种基于GMM-UBM的冲击声模型建立、冲击声检测方法及系统。

背景技术

随着信息化和网络化技术的发展，安全监控在国防和社会安全中所起的作用越来越突出，声音信号在日常生活中无处不在，包含的信息量大，而公共场合的声音可以有效的表征现场的安全性。冲击声特指环境中出现的一些突兀的声音，例如枪声、急促的刹车声、爆炸声、尖叫声等。由于声音是全向传播的，不受光线影响，所以检测冲击声音理论上是可以的。但是冲击声音的种类繁多，姑且不说有尖叫声、枪声等不同异常声音，即使是枪声这一种异常声音也有手枪、步枪等，同时现实生活中的外界干扰也很多，所以准确判断出冲击声还是很困难。

然而，传统的冲击声检测方法一般都是对某一种冲击声进行检测，并且冲击声通常持续时间短，频率分辨率不高，因此使用传统的检测的方法对冲击声的检测有一定的局限性。

发明内容

本发明的目的在于提供一种基于GMM-UBM的冲击声模型建立、冲击声检测方法及系统，用以解决现有技术中的嘈杂环境下的冲击声难以检测的问题。

为了实现上述任务，本发明采用以下技术方案：

一种基于GMM-UBM的冲击声模型建立方法，包括如下步骤：

步骤1：获取非冲击声信号样本数据集，计算每个非冲击声信号的MFCC参数，获得非冲击声信号的MFCC特征向量；

步骤2：根据非冲击声信号的MFCC特征向量建立UBM模型，利用最大期望算法训练UBM模型，获得训练好的UBM模型和训练好的模型参数，将训练好的UBM模型作为背景声模型；

步骤3：获取冲击声信号样本数据集，计算每个冲击声信号的MFCC参数，获得冲击声信号的MFCC特征向量；

步骤4：根据冲击声信号的MFCC特征向量建立GMM模型，将步骤2训练好的模型参数通过最大后验估计方法传递给GMM模型，获得参数更新后的GMM模型，将参数更新后的作为冲击声模型。

进一步的，所述非冲击声信号的MFCC特征参数和冲击声信号的MFCC特征参数的维数均为42维。

一种基于GMM-UBM的冲击声检测方法，包括如下步骤：

步骤a：通过麦克风拾取时域音频信号；

步骤b：计算时域音频信号的MFCC参数，得到时域音频信号的MFCC特征向量X；

步骤c：通过式Ⅰ计算时域音频信号的对数似然比Λ(X)，当Λ(X)>0时，判定时域音频信号是冲击声信号，否则判定时域音频信号为非冲击声信号；

Λ(X)＝log(p(X|GMM))-log(p(X|UBM)) 式Ⅰ

其中，GMM为冲击声模型，UBM为背景声模型，log(p(·))是log域的似然函数。

进一步的，所述时域音频信号的MFCC特征向量的维数为42维。

一种基于GMM-UBM的冲击声模型建立系统，包括样本采集模块、模型建立模块、训练模块和参数传递模块；

所述的样本采集模块用于获取非冲击声信号样本数据集和冲击声信号样本数据集；

所述的模型建立模块用于计算每个非冲击声信号的MFCC参数，获得非冲击声信号的MFCC特征向量，还用于计算每个冲击声信号的MFCC参数，获得冲击声信号的MFCC特征向量；根据非冲击声信号的MFCC特征向量建立UBM模型，根据冲击声信号的MFCC特征向量建立GMM模型；

所述的训练模块根据用于利用最大期望算法训练UBM模型，获得训练好的UBM模型和训练好的模型参数，将训练好的UBM模型作为背景声模型；

所述的参数传递模块用于将训练模块训练好的模型参数通过最大后验估计方法传递给GMM模型，获得参数更新后的GMM模型，将参数更新后的作为冲击声模型。

进一步的，所述非冲击声信号的MFCC特征向量和冲击声信号的MFCC特征向量的维数均为42维。

一种基于GMM-UBM的冲击声检测系统，包括信号采集模块、MFCC参数计算模块和判断模块；

所述信号采集模块用于通过麦克风拾取时域音频信号；

所述MFCC参数计算模块用于计算时域音频信号的MFCC参数，得到时域音频信号的MFCC特征向量X；

所述判断模块用于通过式Ⅰ计算时域音频信号的对数似然比Λ(X)，当Λ(X)>0时，判定时域音频信号是冲击声信号，否则判定时域音频信号为非冲击声信号；

Λ(X)＝log(p(X|GMM))-log(p(X|UBM)) 式Ⅰ

进一步的，所述时域音频信号的MFCC特征参数的维数为42维。

本发明与现有技术相比具有以下技术特点：

(1)使用GMM-UBM检测冲击声的优势在于，因为现实生活中冲击声发生的概率小，且冲击声的种类多种多样，所以冲击声的检测是很困难的。GMM-UBM算法中UBM是由大量非冲击声音的数据训练而成，单独训练每一种声音模型时只需要少量数据进行修正即可，这样既避免了训练的重复，又减弱了对冲击声的敏感性。

(2)使用GMM-UBM检测可以减少使用过程中的数据量和参数量，便于在移动终端快速训练收敛和解码计算。

(3)由于语音和冲击声的频率范围不同，所以对MFCC特性的计算进行了改进，使其更能体现出冲击声的特性，以便更容易检测到，减少误判。

(4)本发明具有检测结果对环境噪声鲁棒、对信噪比鲁棒、方法运算复杂度低、易于实现等优点。

附图说明

图1为本发明的方法流程图；

图2为MFCC计算的流程图；

图3为UBM和GMM训练过程；

图4为Score评分过程；

图5为测试音频时域图；

图6为测试音频判定结果示意图。

具体实施方式

首先对本发明中出现的技术词汇进行解释：

梅尔频率倒谱参数(MFCC)：MFCC是音频的一种特性，冲击声的特征与其它音频的特征有明显的区别。MFCC得益于考虑了人的听觉原理和倒谱特性而具有分类性能优良与易于计算等卓越特点，因此常被用来作为描述声音个性的特征参数，并结合MFCC差分系数以更好地描述帧与帧之间的联系。每种声音都有独特的MFCC特征，这种特征可以作为判别不同声音的依据。常用的MFCC是代表一帧的声音的24维特征系数，本发明为了更准确的表征冲击声的特征，使用42维的特征系数。

高斯混合模型-通用背景模型(GMM-UBM)：GMM-UBM是一种机器学习类的算法，GMM-UBM通常用于语音识别。GMM就是由多个单高斯分布混合而成的一个模型，UBM相当于一个大的混合高斯分布模型。在本发明中，为了解决冲击声样本太少的问题，用大量非冲击声的数据训练出一个拟合通用特征的大型GMM。

高斯混合模型(Gausian Mixture Model)是一个状态的连续隐马尔科夫模型,该模型用多个高斯分布的概率密度函数的组合来描述特征矢量在概率空间的分布情况。在音频识别系统中用高斯混合模型的参数来描述某种音频信号特征矢量的概率分布。

高斯混合模型-通用背景模型(Gausian Mixture Model-Universal BackgroundModel，缩写GMM-UBM)：GMM-UBM是GMM的改进，由于目标音频有限、噪声干扰等影响，难以训练处高效的GMM模型，并且其鲁棒性欠佳。DA Reynolds团队提出了通用背景模型(UBM，Universal Background Model)-先采集大量与目标音频无关的语音，训练一个UBM，然后使用少量目标音频数据，通过自适应算法调整UBM的参数，得到目标音频GMM模型参数。GMM-UBM是一种机器学习类的算法，GMM-UBM通常用于语音识别。

最大期望算法算法(Expectation Maximization Algorithm，缩写EM)：是一种迭代优化策略，由于它的计算方法中每一次迭代都分两步，其中一个为期望步(E步)，另一个为极大步(M步)，所以算法被称为EM算法。其基本思想是：最大期望算法经过两个步骤交替迭代进行计算，第一步是计算期望(E)，利用对隐藏变量的现有估计值，计算其最大似然估计值；第二步是最大化(M)，最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中，这个过程不断迭代进行，直至最后收敛，迭代结束。

实施例1

在本实施例中公开了一种基于GMM-UBM的冲击声模型建立方法，包括如下步骤：

步骤4：根据冲击声信号的MFCC特征向量建立GMM模型，将步骤2训练好的模型参数通过最大后验估计方法传递给GMM模型，获得参数更新后的GMM模型，将参数更新后的GMM模型作为冲击声模型。

具体的，所述非冲击声信号包括语音，环境音，音乐声，喇叭声等一般认为安全的声音。

具体的，所述冲击声信号包括爆炸声、枪声、尖叫声等一般认为不安全的声音。

具体的，所述非冲击声信号的MFCC特征参数和冲击声信号的MFCC特征参数的维数均为42维。常用的MFCC是代表一帧的声音的13维特征系数，本发明为了更准确的表征冲击声的特征，使用42维的MFCC特征系数。

具体的，MFCC的完整计算过程如图2所示，包括如下子步骤：

1)对音频信号预加重，该步骤目的是为了对音频的高频成分进行加重，增加音频的高频分辨率；

2)对音频信号加窗处理，本实施例使用汉明窗对信号进行加窗处理，该步骤根据采样频率确定帧的长度对每一帧进行加窗，目的是平滑信号；

3)计算第j帧功率谱；

4)获取Mel滤波器，将第j帧功率谱通过Mel滤波器，得到更紧凑的功率谱；

5)对更紧凑的功率谱进行离散余弦变换DCT；

6)对DCT变换后的功率谱进行差分计算，由于语音信号是时域连续的，分帧提取的特征信息只反应了本帧音频的特性，为了使特征更能体现时域连续性，可以在特征维度前后采用一阶差分和二阶差分增加帧信息的维度，得到42阶Mel频率倒谱系数MFCC。

具体的，所述模型参数是指混合模型的权重、均值和方差。

具体的，步骤2中所述的UBM模型是一种高斯混合模型，而高斯混合模型的概率密度函数是M个子分量密度的带权重加和，步骤2中所述的UBM模型的概率密度函数如式(1)所示：

其中，y是d维的高斯分量等于步骤1得到的非冲击声信号的MFCC特征向量y＝{y₁,y₂,...,y_t,...,y_T}，该特征向量为d维，d＝42，λ是UBM模型的参数集合{λ₁,...,λ₁,...,λ_M}，λ_i是第i个高斯分量的模型参数，λ_i＝(ω_i,μ_i,σ_i),i∈[1,....,M]，本实施例中M＝512，i表示第i个高斯分量的序号，ω_i是第i个d维高斯分量的混合权重分量，μ_i,σ_i分别是第i个高斯分量的均值和方差；

第i个d维高斯分量的概率密度函数为

统计理论表明，用多个高斯概率密度函数的线性组合可以逼近任意分布，因此，高斯混合模型可以对任意的音频特征分布进行精确的描述。

具体的，由于UBM模型中包含隐变量，因此适合使用期望最大(EM)算法进行参数学习，利用最大期望(EM)算法进行UBM训练的训练流程如图3所示，包括如下子步骤：

1)E-step计算第i个高斯分量对非冲击声的MFCC特征向量t时刻的观测数y_t和t时刻的响应度ρ_it，t∈[1,...,T]，T为最大观测时刻，如式(2)所示：

其中，ω_t是t时刻的混合权重分量，μ_t和σ_t分别是t时刻的均值和方差；

2)M-step进行新一轮迭代计算UBM模型中三个模型参数(权重、均值和方差)，其中i＝1,2,...,M：

其中，

为由EM算法迭代收敛计算得到权重、

由EM算法迭代收敛计算得到的均值、

为由EM算法迭代收敛计算得到的方差，迭代结束后获得背景声模型的模型参数。

具体的，步骤4包括如下子步骤：

步骤4.1：获取背景声模型的模型参数和冲击声的MFCC特征向量z＝{z₁,z₂,...,z_t,...,z_T}；

步骤4.2：利用式(2)计算背景声模型的i个高斯分量对冲击声的MFCC特征向量p时刻的观测数z_t的响应度Pry(i|z_t,λ_i)；

步骤4.3：根据Pr(i|z_t,λ_i)计算充分统计量N_i、E_i(z)和E_i(z²)，其中

表示冲击声的MFCC特征向量来自背景声模型的i个高斯分量的各概率之和，

表示冲击声的MFCC特征向量自背景声模型的i个高斯分量的均值期望，

表示冲击声的MFCC特征向量自背景声模型的i个高斯分量的方差期望；

步骤4.4：使用充分统计量更新GMM模型中混合分量的模型参数，得到更新后的模型参数

和

如下所示：

其中，

均为i个高斯分量的混合参数，

r是相关因子，r的取值范围为8～20，优选的r＝16，且自适应过程只更新均值效果最佳，实际系统中

而γ是为了保证更新后的权重参数之和为1的归一化因子。

本实施例中还公开了一种基于GMM-UBM的冲击声检测方法，包括如下步骤：

步骤a：通过麦克风拾取时域音频信号；

步骤c：通过式Ⅰ计算时域音频信号的对数似然比Λ(X)，Λ(X)>0时，我们认为时域音频信号是冲击声信号，否则认为为非冲击声信号，在GMM-UBM框架下，测试音频的匹配度计算是测试音频与冲击声音模型GMM和背景声模型UBM匹配输出似然度的比值，在评分取对数的情况下，表现为两者的差值；

Λ(X)＝log(p(X|GMM))-log(p(X|UBM)) 式Ⅰ

其中，GMM为按照权利要求1或2的方法获得的冲击声模型，UBM为按照权利要求1或2的方法获得的背景声模型，log(p(·))是log域的似然函数。

其中X是测试音频的一帧的特征参数，即步骤1得到的42阶Mel频率倒谱系数MFCC，GMM和UBM分别是冲击声模型和背景声模型。由式14可知，在匹配度计算时，由于两者相减，使原本声音模型中与背景声模型相似的部分、背景噪音和通道的影响被消除，更加凸显声音个性的同时，也增强了系统的鲁棒性。

具体的，所述时域音频信号的MFCC特征参数的维数为42维。

实施例2

本实施例中公开了一种基于GMM-UBM的冲击声模型建立系统，包括样本采集模块、模型建立模块、训练模块和参数传递模块；

所述的参数传递模块用于将训练模块训练好的模型参数通过最大后验估计方法传递给GMM模型，获得参数更新后的GMM模型，将参数更新后的GMM模型作为冲击声模型。

具体的，所述非冲击声信号的MFCC特征参数和冲击声信号的MFCC特征参数的维数均为42维。

本实施例中还公开了一种基于GMM-UBM的冲击声检测系统，包括信号采集模块、MFCC参数计算模块和判断模块；

所述信号采集模块用于通过麦克风拾取时域音频信号；

Λ(X)＝log(p(X|GMM))-log(p(X|UBM)) 式Ⅰ

其中，GMM为按照权利要求5或6的系统获得的冲击声模型，UBM为为按照权利要求5或6的系统获得的背景模型，log(p(·))是log域的似然函数。

具体的，所述时域音频信号的MFCC特征参数的维数为42维。

实施例3

如图1所示，本实施例提供一种冲击声模型建立方法，包括：

步骤110：获取麦克风拾取的音频信号样本；把样本分成两类，一类为非冲击声的音频样本信号，一类为冲击声的音频样本信号；

步骤120：UBM样本训练，把非冲击声的音频样本信号作为UBM训练的样本，如图3所示；

对UBM训练的所有音频样本进行特征提取,如图2所示，特征提取包括：预加重，分帧加窗，傅里叶变换得到频谱图，之后再进行mel滤波使频谱图更紧凑，最后进行倒谱分析(取对数和离散余弦变换)和差分(提供一种动态特征)得到42维的MFCC特征向量；

计算高斯混合模型的参数集合{λ₁,...,λ₁,...,λ_M}，λ_i＝(ω_i,μ_i,σ_i),i∈[1,....,M]，ω_i是混合权重分量

μ_i,σ_i分别是其均值和方差，本发明中取M＝512。得到的高斯混合模型的参数即为训练得到的UBM模型参数——权值，均值和方差；。

步骤130：把非冲击声和冲击声所有的样本信号作为GMM训练的样本进行GMM样本训练，如图3所示；

对GMM训练的所有音频样本进行特征提取，如图2所示，特征提取包括：预加重，分帧加窗，傅里叶变换得到频谱图，之后再进行Mel滤波使频谱图更紧凑，最后进行倒谱分析(取对数和离散余弦变换)和差分(提供一种动态特征)得到42阶MFCC特征向量；

获取GMM模型参数-权值、均值和方差。

如图4所示，本实施例还提供了一种在GMM-UBM框架下的冲击声检测方法，测试音频的匹配度计算是测试音频与冲击声模型GMM和背景模型UBM匹配输出似然度的比值，在评分取对数的情况下，表现为两者的差值，给定音频片段，判定该片段是否是冲击声。如图5和图6所示，图5为测试音频音频。图6为测试信号的音频分类结果，图中的深色线为分类结果(2表示该段音频判定为冲击声，1表示该段音频判定为为非冲击声)。

Claims

1.一种基于GMM-UBM的冲击声模型建立方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于GMM-UBM的冲击声模型建立方法，其特征在于，所述非冲击声信号的MFCC特征参数和冲击声信号的MFCC特征参数的维数均为42维。

3.一种基于GMM-UBM的冲击声检测方法，其特征在于，包括如下步骤：

步骤a：通过麦克风拾取时域音频信号；

Λ(X)＝log(p(X|GMM))-log(p(X|UBM)) 式Ⅰ

4.如权利要求3所述的基于GMM-UBM的冲击声检测方法，其特征在于，其特征在于，所述时域音频信号的MFCC特征向量的维数为42维。

5.一种基于GMM-UBM的冲击声模型建立系统，其特征在于，包括样本采集模块、模型建立模块、训练模块和参数传递模块；

6.如权利要求5所述的基于GMM-UBM的冲击声模型建立系统，其特征在于，所述非冲击声信号的MFCC特征向量和冲击声信号的MFCC特征向量的维数均为42维。

7.一种基于GMM-UBM的冲击声检测系统，其特征在于，包括信号采集模块、MFCC参数计算模块和判断模块；

所述信号采集模块用于通过麦克风拾取时域音频信号；

Λ(X)＝log(p(X|GMM))-log(p(X|UBM)) 式Ⅰ

其中，GMM为按照权利要求5或6的系统获得的冲击声模型，UBM为按照权利要求5或6的系统获得的背景声模型，log(p(·))是log域的似然函数。

8.如权利要求7所述的基于GMM-UBM的冲击声检测系统，其特征在于，其特征在于，所述时域音频信号的MFCC特征参数的维数为42维。