CN112820318A - 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统 - Google Patents

一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统 Download PDF

Info

Publication number
CN112820318A
CN112820318A CN202011624452.9A CN202011624452A CN112820318A CN 112820318 A CN112820318 A CN 112820318A CN 202011624452 A CN202011624452 A CN 202011624452A CN 112820318 A CN112820318 A CN 112820318A
Authority
CN
China
Prior art keywords
model
impact sound
ubm
gmm
mfcc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011624452.9A
Other languages
English (en)
Inventor
刘芳
向阳
黄绍锋
王向辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Hepu Accoustic Technology Co ltd
Original Assignee
Xi'an Hepu Accoustic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Hepu Accoustic Technology Co ltd filed Critical Xi'an Hepu Accoustic Technology Co ltd
Priority to CN202011624452.9A priority Critical patent/CN112820318A/zh
Publication of CN112820318A publication Critical patent/CN112820318A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明属于音频信号的获取与处理领域,公开了一种基于GMM‑UBM的冲击声模型建立、冲击声检测方法及系统。模型建立方法包括:获取麦克风拾取的音频信号;音频信号的MFCC计算;样本数据的GMM‑UBM数据训练;冲击声检测方法包括测试音频的冲击声判决。本发明对冲击声有较好的检测效果。本发明具有检测结果对环境噪声鲁棒、对信噪比鲁棒、方法运算复杂度低、易于实现等优点。

Description

一种基于GMM-UBM的冲击声模型建立、冲击声检测方法及系统
技术领域
本发明属于音频信号的获取与处理领域,具体涉及一种基于GMM-UBM的冲击声模型建立、冲击声检测方法及系统。
背景技术
随着信息化和网络化技术的发展,安全监控在国防和社会安全中所起的作用越来越突出,声音信号在日常生活中无处不在,包含的信息量大,而公共场合的声音可以有效的表征现场的安全性。冲击声特指环境中出现的一些突兀的声音,例如枪声、急促的刹车声、爆炸声、尖叫声等。由于声音是全向传播的,不受光线影响,所以检测冲击声音理论上是可以的。但是冲击声音的种类繁多,姑且不说有尖叫声、枪声等不同异常声音,即使是枪声这一种异常声音也有手枪、步枪等,同时现实生活中的外界干扰也很多,所以准确判断出冲击声还是很困难。
然而,传统的冲击声检测方法一般都是对某一种冲击声进行检测,并且冲击声通常持续时间短,频率分辨率不高,因此使用传统的检测的方法对冲击声的检测有一定的局限性。
发明内容
本发明的目的在于提供一种基于GMM-UBM的冲击声模型建立、冲击声检测方法及系统,用以解决现有技术中的嘈杂环境下的冲击声难以检测的问题。
为了实现上述任务,本发明采用以下技术方案:
一种基于GMM-UBM的冲击声模型建立方法,包括如下步骤:
步骤1:获取非冲击声信号样本数据集,计算每个非冲击声信号的MFCC参数,获得非冲击声信号的MFCC特征向量;
步骤2:根据非冲击声信号的MFCC特征向量建立UBM模型,利用最大期望算法训练UBM模型,获得训练好的UBM模型和训练好的模型参数,将训练好的UBM模型作为背景声模型;
步骤3:获取冲击声信号样本数据集,计算每个冲击声信号的MFCC参数,获得冲击声信号的MFCC特征向量;
步骤4:根据冲击声信号的MFCC特征向量建立GMM模型,将步骤2训练好的模型参数通过最大后验估计方法传递给GMM模型,获得参数更新后的GMM模型,将参数更新后的作为冲击声模型。
进一步的,所述非冲击声信号的MFCC特征参数和冲击声信号的MFCC特征参数的维数均为42维。
一种基于GMM-UBM的冲击声检测方法,包括如下步骤:
步骤a:通过麦克风拾取时域音频信号;
步骤b:计算时域音频信号的MFCC参数,得到时域音频信号的MFCC特征向量X;
步骤c:通过式Ⅰ计算时域音频信号的对数似然比Λ(X),当Λ(X)>0时,判定时域音频信号是冲击声信号,否则判定时域音频信号为非冲击声信号;
Λ(X)=log(p(X|GMM))-log(p(X|UBM)) 式Ⅰ
其中,GMM为冲击声模型,UBM为背景声模型,log(p(·))是log域的似然函数。
进一步的,所述时域音频信号的MFCC特征向量的维数为42维。
一种基于GMM-UBM的冲击声模型建立系统,包括样本采集模块、模型建立模块、训练模块和参数传递模块;
所述的样本采集模块用于获取非冲击声信号样本数据集和冲击声信号样本数据集;
所述的模型建立模块用于计算每个非冲击声信号的MFCC参数,获得非冲击声信号的MFCC特征向量,还用于计算每个冲击声信号的MFCC参数,获得冲击声信号的MFCC特征向量;根据非冲击声信号的MFCC特征向量建立UBM模型,根据冲击声信号的MFCC特征向量建立GMM模型;
所述的训练模块根据用于利用最大期望算法训练UBM模型,获得训练好的UBM模型和训练好的模型参数,将训练好的UBM模型作为背景声模型;
所述的参数传递模块用于将训练模块训练好的模型参数通过最大后验估计方法传递给GMM模型,获得参数更新后的GMM模型,将参数更新后的作为冲击声模型。
进一步的,所述非冲击声信号的MFCC特征向量和冲击声信号的MFCC特征向量的维数均为42维。
一种基于GMM-UBM的冲击声检测系统,包括信号采集模块、MFCC参数计算模块和判断模块;
所述信号采集模块用于通过麦克风拾取时域音频信号;
所述MFCC参数计算模块用于计算时域音频信号的MFCC参数,得到时域音频信号的MFCC特征向量X;
所述判断模块用于通过式Ⅰ计算时域音频信号的对数似然比Λ(X),当Λ(X)>0时,判定时域音频信号是冲击声信号,否则判定时域音频信号为非冲击声信号;
Λ(X)=log(p(X|GMM))-log(p(X|UBM)) 式Ⅰ
其中,GMM为冲击声模型,UBM为背景声模型,log(p(·))是log域的似然函数。
进一步的,所述时域音频信号的MFCC特征参数的维数为42维。
本发明与现有技术相比具有以下技术特点:
(1)使用GMM-UBM检测冲击声的优势在于,因为现实生活中冲击声发生的概率小,且冲击声的种类多种多样,所以冲击声的检测是很困难的。GMM-UBM算法中UBM是由大量非冲击声音的数据训练而成,单独训练每一种声音模型时只需要少量数据进行修正即可,这样既避免了训练的重复,又减弱了对冲击声的敏感性。
(2)使用GMM-UBM检测可以减少使用过程中的数据量和参数量,便于在移动终端快速训练收敛和解码计算。
(3)由于语音和冲击声的频率范围不同,所以对MFCC特性的计算进行了改进,使其更能体现出冲击声的特性,以便更容易检测到,减少误判。
(4)本发明具有检测结果对环境噪声鲁棒、对信噪比鲁棒、方法运算复杂度低、易于实现等优点。
附图说明
图1为本发明的方法流程图;
图2为MFCC计算的流程图;
图3为UBM和GMM训练过程;
图4为Score评分过程;
图5为测试音频时域图;
图6为测试音频判定结果示意图。
具体实施方式
首先对本发明中出现的技术词汇进行解释:
梅尔频率倒谱参数(MFCC):MFCC是音频的一种特性,冲击声的特征与其它音频的特征有明显的区别。MFCC得益于考虑了人的听觉原理和倒谱特性而具有分类性能优良与易于计算等卓越特点,因此常被用来作为描述声音个性的特征参数,并结合MFCC差分系数以更好地描述帧与帧之间的联系。每种声音都有独特的MFCC特征,这种特征可以作为判别不同声音的依据。常用的MFCC是代表一帧的声音的24维特征系数,本发明为了更准确的表征冲击声的特征,使用42维的特征系数。
高斯混合模型-通用背景模型(GMM-UBM):GMM-UBM是一种机器学习类的算法,GMM-UBM通常用于语音识别。GMM就是由多个单高斯分布混合而成的一个模型,UBM相当于一个大的混合高斯分布模型。在本发明中,为了解决冲击声样本太少的问题,用大量非冲击声的数据训练出一个拟合通用特征的大型GMM。
高斯混合模型(Gausian Mixture Model)是一个状态的连续隐马尔科夫模型,该模型用多个高斯分布的概率密度函数的组合来描述特征矢量在概率空间的分布情况。在音频识别系统中用高斯混合模型的参数来描述某种音频信号特征矢量的概率分布。
高斯混合模型-通用背景模型(Gausian Mixture Model-Universal BackgroundModel,缩写GMM-UBM):GMM-UBM是GMM的改进,由于目标音频有限、噪声干扰等影响,难以训练处高效的GMM模型,并且其鲁棒性欠佳。DA Reynolds团队提出了通用背景模型(UBM,Universal Background Model)-先采集大量与目标音频无关的语音,训练一个UBM,然后使用少量目标音频数据,通过自适应算法调整UBM的参数,得到目标音频GMM模型参数。GMM-UBM是一种机器学习类的算法,GMM-UBM通常用于语音识别。
最大期望算法算法(Expectation Maximization Algorithm,缩写EM):是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,其中一个为期望步(E步),另一个为极大步(M步),所以算法被称为EM算法。其基本思想是:最大期望算法经过两个步骤交替迭代进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断迭代进行,直至最后收敛,迭代结束。
实施例1
在本实施例中公开了一种基于GMM-UBM的冲击声模型建立方法,包括如下步骤:
步骤1:获取非冲击声信号样本数据集,计算每个非冲击声信号的MFCC参数,获得非冲击声信号的MFCC特征向量;
步骤2:根据非冲击声信号的MFCC特征向量建立UBM模型,利用最大期望算法训练UBM模型,获得训练好的UBM模型和训练好的模型参数,将训练好的UBM模型作为背景声模型;
步骤3:获取冲击声信号样本数据集,计算每个冲击声信号的MFCC参数,获得冲击声信号的MFCC特征向量;
步骤4:根据冲击声信号的MFCC特征向量建立GMM模型,将步骤2训练好的模型参数通过最大后验估计方法传递给GMM模型,获得参数更新后的GMM模型,将参数更新后的GMM模型作为冲击声模型。
具体的,所述非冲击声信号包括语音,环境音,音乐声,喇叭声等一般认为安全的声音。
具体的,所述冲击声信号包括爆炸声、枪声、尖叫声等一般认为不安全的声音。
具体的,所述非冲击声信号的MFCC特征参数和冲击声信号的MFCC特征参数的维数均为42维。常用的MFCC是代表一帧的声音的13维特征系数,本发明为了更准确的表征冲击声的特征,使用42维的MFCC特征系数。
具体的,MFCC的完整计算过程如图2所示,包括如下子步骤:
1)对音频信号预加重,该步骤目的是为了对音频的高频成分进行加重,增加音频的高频分辨率;
2)对音频信号加窗处理,本实施例使用汉明窗对信号进行加窗处理,该步骤根据采样频率确定帧的长度对每一帧进行加窗,目的是平滑信号;
3)计算第j帧功率谱;
4)获取Mel滤波器,将第j帧功率谱通过Mel滤波器,得到更紧凑的功率谱;
5)对更紧凑的功率谱进行离散余弦变换DCT;
6)对DCT变换后的功率谱进行差分计算,由于语音信号是时域连续的,分帧提取的特征信息只反应了本帧音频的特性,为了使特征更能体现时域连续性,可以在特征维度前后采用一阶差分和二阶差分增加帧信息的维度,得到42阶Mel频率倒谱系数MFCC。
具体的,所述模型参数是指混合模型的权重、均值和方差。
具体的,步骤2中所述的UBM模型是一种高斯混合模型,而高斯混合模型的概率密度函数是M个子分量密度的带权重加和,步骤2中所述的UBM模型的概率密度函数如式(1)所示:
Figure BDA0002878969870000081
其中,y是d维的高斯分量等于步骤1得到的非冲击声信号的MFCC特征向量y={y1,y2,...,yt,...,yT},该特征向量为d维,d=42,λ是UBM模型的参数集合{λ1,...,λ1,...,λM},λi是第i个高斯分量的模型参数,λi=(ωiii),i∈[1,....,M],本实施例中M=512,i表示第i个高斯分量的序号,ωi是第i个d维高斯分量的混合权重分量,μii分别是第i个高斯分量的均值和方差;
第i个d维高斯分量的概率密度函数为
Figure BDA0002878969870000082
统计理论表明,用多个高斯概率密度函数的线性组合可以逼近任意分布,因此,高斯混合模型可以对任意的音频特征分布进行精确的描述。
具体的,由于UBM模型中包含隐变量,因此适合使用期望最大(EM)算法进行参数学习,利用最大期望(EM)算法进行UBM训练的训练流程如图3所示,包括如下子步骤:
1)E-step计算第i个高斯分量对非冲击声的MFCC特征向量t时刻的观测数yt和t时刻的响应度ρit,t∈[1,...,T],T为最大观测时刻,如式(2)所示:
Figure BDA0002878969870000083
其中,ωt是t时刻的混合权重分量,μt和σt分别是t时刻的均值和方差;
2)M-step进行新一轮迭代计算UBM模型中三个模型参数(权重、均值和方差),其中i=1,2,...,M:
Figure BDA0002878969870000084
其中,
Figure BDA0002878969870000091
为由EM算法迭代收敛计算得到权重、
Figure BDA0002878969870000092
由EM算法迭代收敛计算得到的均值、
Figure BDA0002878969870000093
为由EM算法迭代收敛计算得到的方差,迭代结束后获得背景声模型的模型参数。
具体的,步骤4包括如下子步骤:
步骤4.1:获取背景声模型的模型参数和冲击声的MFCC特征向量z={z1,z2,...,zt,...,zT};
步骤4.2:利用式(2)计算背景声模型的i个高斯分量对冲击声的MFCC特征向量p时刻的观测数zt的响应度Pry(i|zti);
步骤4.3:根据Pr(i|zti)计算充分统计量Ni、Ei(z)和Ei(z2),其中
Figure BDA0002878969870000094
表示冲击声的MFCC特征向量来自背景声模型的i个高斯分量的各概率之和,
Figure BDA0002878969870000095
表示冲击声的MFCC特征向量自背景声模型的i个高斯分量的均值期望,
Figure BDA0002878969870000096
表示冲击声的MFCC特征向量自背景声模型的i个高斯分量的方差期望;
步骤4.4:使用充分统计量更新GMM模型中混合分量的模型参数,得到更新后的模型参数
Figure BDA0002878969870000097
Figure BDA0002878969870000098
如下所示:
Figure BDA0002878969870000099
Figure BDA00028789698700000910
Figure BDA00028789698700000911
其中,
Figure BDA00028789698700000912
均为i个高斯分量的混合参数,
Figure BDA00028789698700000913
Figure BDA00028789698700000914
r是相关因子,r的取值范围为8~20,优选的r=16,且自适应过程只更新均值效果最佳,实际系统中
Figure BDA00028789698700000915
而γ是为了保证更新后的权重参数之和为1的归一化因子。
本实施例中还公开了一种基于GMM-UBM的冲击声检测方法,包括如下步骤:
步骤a:通过麦克风拾取时域音频信号;
步骤b:计算时域音频信号的MFCC参数,得到时域音频信号的MFCC特征向量X;
步骤c:通过式Ⅰ计算时域音频信号的对数似然比Λ(X),Λ(X)>0时,我们认为时域音频信号是冲击声信号,否则认为为非冲击声信号,在GMM-UBM框架下,测试音频的匹配度计算是测试音频与冲击声音模型GMM和背景声模型UBM匹配输出似然度的比值,在评分取对数的情况下,表现为两者的差值;
Λ(X)=log(p(X|GMM))-log(p(X|UBM)) 式Ⅰ
其中,GMM为按照权利要求1或2的方法获得的冲击声模型,UBM为按照权利要求1或2的方法获得的背景声模型,log(p(·))是log域的似然函数。
其中X是测试音频的一帧的特征参数,即步骤1得到的42阶Mel频率倒谱系数MFCC,GMM和UBM分别是冲击声模型和背景声模型。由式14可知,在匹配度计算时,由于两者相减,使原本声音模型中与背景声模型相似的部分、背景噪音和通道的影响被消除,更加凸显声音个性的同时,也增强了系统的鲁棒性。
具体的,所述时域音频信号的MFCC特征参数的维数为42维。
实施例2
本实施例中公开了一种基于GMM-UBM的冲击声模型建立系统,包括样本采集模块、模型建立模块、训练模块和参数传递模块;
所述的样本采集模块用于获取非冲击声信号样本数据集和冲击声信号样本数据集;
所述的模型建立模块用于计算每个非冲击声信号的MFCC参数,获得非冲击声信号的MFCC特征向量,还用于计算每个冲击声信号的MFCC参数,获得冲击声信号的MFCC特征向量;根据非冲击声信号的MFCC特征向量建立UBM模型,根据冲击声信号的MFCC特征向量建立GMM模型;
所述的训练模块根据用于利用最大期望算法训练UBM模型,获得训练好的UBM模型和训练好的模型参数,将训练好的UBM模型作为背景声模型;
所述的参数传递模块用于将训练模块训练好的模型参数通过最大后验估计方法传递给GMM模型,获得参数更新后的GMM模型,将参数更新后的GMM模型作为冲击声模型。
具体的,所述非冲击声信号的MFCC特征参数和冲击声信号的MFCC特征参数的维数均为42维。
本实施例中还公开了一种基于GMM-UBM的冲击声检测系统,包括信号采集模块、MFCC参数计算模块和判断模块;
所述信号采集模块用于通过麦克风拾取时域音频信号;
所述MFCC参数计算模块用于计算时域音频信号的MFCC参数,得到时域音频信号的MFCC特征向量X;
所述判断模块用于通过式Ⅰ计算时域音频信号的对数似然比Λ(X),当Λ(X)>0时,判定时域音频信号是冲击声信号,否则判定时域音频信号为非冲击声信号;
Λ(X)=log(p(X|GMM))-log(p(X|UBM)) 式Ⅰ
其中,GMM为按照权利要求5或6的系统获得的冲击声模型,UBM为为按照权利要求5或6的系统获得的背景模型,log(p(·))是log域的似然函数。
具体的,所述时域音频信号的MFCC特征参数的维数为42维。
实施例3
如图1所示,本实施例提供一种冲击声模型建立方法,包括:
步骤110:获取麦克风拾取的音频信号样本;把样本分成两类,一类为非冲击声的音频样本信号,一类为冲击声的音频样本信号;
步骤120:UBM样本训练,把非冲击声的音频样本信号作为UBM训练的样本,如图3所示;
对UBM训练的所有音频样本进行特征提取,如图2所示,特征提取包括:预加重,分帧加窗,傅里叶变换得到频谱图,之后再进行mel滤波使频谱图更紧凑,最后进行倒谱分析(取对数和离散余弦变换)和差分(提供一种动态特征)得到42维的MFCC特征向量;
计算高斯混合模型的参数集合{λ1,...,λ1,...,λM},λi=(ωiii),i∈[1,....,M],ωi是混合权重分量
Figure BDA0002878969870000121
μii分别是其均值和方差,本发明中取M=512。得到的高斯混合模型的参数即为训练得到的UBM模型参数——权值,均值和方差;。
步骤130:把非冲击声和冲击声所有的样本信号作为GMM训练的样本进行GMM样本训练,如图3所示;
对GMM训练的所有音频样本进行特征提取,如图2所示,特征提取包括:预加重,分帧加窗,傅里叶变换得到频谱图,之后再进行Mel滤波使频谱图更紧凑,最后进行倒谱分析(取对数和离散余弦变换)和差分(提供一种动态特征)得到42阶MFCC特征向量;
获取GMM模型参数-权值、均值和方差。
如图4所示,本实施例还提供了一种在GMM-UBM框架下的冲击声检测方法,测试音频的匹配度计算是测试音频与冲击声模型GMM和背景模型UBM匹配输出似然度的比值,在评分取对数的情况下,表现为两者的差值,给定音频片段,判定该片段是否是冲击声。如图5和图6所示,图5为测试音频音频。图6为测试信号的音频分类结果,图中的深色线为分类结果(2表示该段音频判定为冲击声,1表示该段音频判定为为非冲击声)。

Claims (8)

1.一种基于GMM-UBM的冲击声模型建立方法,其特征在于,包括如下步骤:
步骤1:获取非冲击声信号样本数据集,计算每个非冲击声信号的MFCC参数,获得非冲击声信号的MFCC特征向量;
步骤2:根据非冲击声信号的MFCC特征向量建立UBM模型,利用最大期望算法训练UBM模型,获得训练好的UBM模型和训练好的模型参数,将训练好的UBM模型作为背景声模型;
步骤3:获取冲击声信号样本数据集,计算每个冲击声信号的MFCC参数,获得冲击声信号的MFCC特征向量;
步骤4:根据冲击声信号的MFCC特征向量建立GMM模型,将步骤2训练好的模型参数通过最大后验估计方法传递给GMM模型,获得参数更新后的GMM模型,将参数更新后的GMM模型作为冲击声模型。
2.如权利要求1所述的基于GMM-UBM的冲击声模型建立方法,其特征在于,所述非冲击声信号的MFCC特征参数和冲击声信号的MFCC特征参数的维数均为42维。
3.一种基于GMM-UBM的冲击声检测方法,其特征在于,包括如下步骤:
步骤a:通过麦克风拾取时域音频信号;
步骤b:计算时域音频信号的MFCC参数,得到时域音频信号的MFCC特征向量X;
步骤c:通过式Ⅰ计算时域音频信号的对数似然比Λ(X),当Λ(X)>0时,判定时域音频信号是冲击声信号,否则判定时域音频信号为非冲击声信号;
Λ(X)=log(p(X|GMM))-log(p(X|UBM)) 式Ⅰ
其中,GMM为按照权利要求1或2的方法获得的冲击声模型,UBM为按照权利要求1或2的方法获得的背景声模型,log(p(·))是log域的似然函数。
4.如权利要求3所述的基于GMM-UBM的冲击声检测方法,其特征在于,其特征在于,所述时域音频信号的MFCC特征向量的维数为42维。
5.一种基于GMM-UBM的冲击声模型建立系统,其特征在于,包括样本采集模块、模型建立模块、训练模块和参数传递模块;
所述的样本采集模块用于获取非冲击声信号样本数据集和冲击声信号样本数据集;
所述的模型建立模块用于计算每个非冲击声信号的MFCC参数,获得非冲击声信号的MFCC特征向量,还用于计算每个冲击声信号的MFCC参数,获得冲击声信号的MFCC特征向量;根据非冲击声信号的MFCC特征向量建立UBM模型,根据冲击声信号的MFCC特征向量建立GMM模型;
所述的训练模块根据用于利用最大期望算法训练UBM模型,获得训练好的UBM模型和训练好的模型参数,将训练好的UBM模型作为背景声模型;
所述的参数传递模块用于将训练模块训练好的模型参数通过最大后验估计方法传递给GMM模型,获得参数更新后的GMM模型,将参数更新后的GMM模型作为冲击声模型。
6.如权利要求5所述的基于GMM-UBM的冲击声模型建立系统,其特征在于,所述非冲击声信号的MFCC特征向量和冲击声信号的MFCC特征向量的维数均为42维。
7.一种基于GMM-UBM的冲击声检测系统,其特征在于,包括信号采集模块、MFCC参数计算模块和判断模块;
所述信号采集模块用于通过麦克风拾取时域音频信号;
所述MFCC参数计算模块用于计算时域音频信号的MFCC参数,得到时域音频信号的MFCC特征向量X;
所述判断模块用于通过式Ⅰ计算时域音频信号的对数似然比Λ(X),当Λ(X)>0时,判定时域音频信号是冲击声信号,否则判定时域音频信号为非冲击声信号;
Λ(X)=log(p(X|GMM))-log(p(X|UBM)) 式Ⅰ
其中,GMM为按照权利要求5或6的系统获得的冲击声模型,UBM为按照权利要求5或6的系统获得的背景声模型,log(p(·))是log域的似然函数。
8.如权利要求7所述的基于GMM-UBM的冲击声检测系统,其特征在于,其特征在于,所述时域音频信号的MFCC特征参数的维数为42维。
CN202011624452.9A 2020-12-31 2020-12-31 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统 Pending CN112820318A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011624452.9A CN112820318A (zh) 2020-12-31 2020-12-31 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011624452.9A CN112820318A (zh) 2020-12-31 2020-12-31 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统

Publications (1)

Publication Number Publication Date
CN112820318A true CN112820318A (zh) 2021-05-18

Family

ID=75854735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011624452.9A Pending CN112820318A (zh) 2020-12-31 2020-12-31 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统

Country Status (1)

Country Link
CN (1) CN112820318A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114922971A (zh) * 2022-04-22 2022-08-19 一汽奔腾轿车有限公司 一种低温下dct换挡冲击的优化方法及装置

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814159A (zh) * 2009-02-24 2010-08-25 余华 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法
CN103310789A (zh) * 2013-05-08 2013-09-18 北京大学深圳研究生院 一种基于改进的并行模型组合的声音事件识别方法
CN103440863A (zh) * 2013-08-28 2013-12-11 华南理工大学 一种基于流形的语音情感识别方法
CN104464738A (zh) * 2014-10-31 2015-03-25 北京航空航天大学 一种面向智能移动设备的声纹识别方法
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
KR20150093059A (ko) * 2014-02-06 2015-08-17 주식회사 에스원 화자 검증 장치 및 방법
CN106941007A (zh) * 2017-05-12 2017-07-11 北京理工大学 一种音频事件模型合成信道自适应方法
CN106952643A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN107123432A (zh) * 2017-05-12 2017-09-01 北京理工大学 一种自匹配Top‑N音频事件识别信道自适应方法
CN107369440A (zh) * 2017-08-02 2017-11-21 北京灵伴未来科技有限公司 一种针对短语音的说话人识别模型的训练方法及装置
WO2018036610A1 (en) * 2016-08-22 2018-03-01 Telefonaktiebolaget Lm Ericsson (Publ) Systems, apparatuses, and methods for speaker verification using artificial neural networks
CN107862279A (zh) * 2017-11-03 2018-03-30 中国电子科技集团公司第三研究所 一种脉冲声信号识别分类方法
US20190043525A1 (en) * 2018-01-12 2019-02-07 Intel Corporation Audio events triggering video analytics
CN109378014A (zh) * 2018-10-22 2019-02-22 华中师范大学 一种基于卷积神经网络的移动设备源识别方法及系统
CN109448755A (zh) * 2018-10-30 2019-03-08 上海力声特医学科技有限公司 人工耳蜗听觉场景识别方法
CN109949823A (zh) * 2019-01-22 2019-06-28 江苏大学 一种基于dwpt-mfcc与gmm的车内异响识别方法
CN110120230A (zh) * 2019-01-08 2019-08-13 国家计算机网络与信息安全管理中心 一种声学事件检测方法及装置
WO2019237519A1 (zh) * 2018-06-11 2019-12-19 平安科技(深圳)有限公司 通用向量训练方法、语音聚类方法、装置、设备及介质
US20200152206A1 (en) * 2017-12-26 2020-05-14 Robert Bosch Gmbh Speaker Identification with Ultra-Short Speech Segments for Far and Near Field Voice Assistance Applications

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814159A (zh) * 2009-02-24 2010-08-25 余华 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法
CN103310789A (zh) * 2013-05-08 2013-09-18 北京大学深圳研究生院 一种基于改进的并行模型组合的声音事件识别方法
CN103440863A (zh) * 2013-08-28 2013-12-11 华南理工大学 一种基于流形的语音情感识别方法
KR20150093059A (ko) * 2014-02-06 2015-08-17 주식회사 에스원 화자 검증 장치 및 방법
CN104464738A (zh) * 2014-10-31 2015-03-25 北京航空航天大学 一种面向智能移动设备的声纹识别方法
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
WO2018036610A1 (en) * 2016-08-22 2018-03-01 Telefonaktiebolaget Lm Ericsson (Publ) Systems, apparatuses, and methods for speaker verification using artificial neural networks
CN106952643A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN107123432A (zh) * 2017-05-12 2017-09-01 北京理工大学 一种自匹配Top‑N音频事件识别信道自适应方法
CN106941007A (zh) * 2017-05-12 2017-07-11 北京理工大学 一种音频事件模型合成信道自适应方法
CN107369440A (zh) * 2017-08-02 2017-11-21 北京灵伴未来科技有限公司 一种针对短语音的说话人识别模型的训练方法及装置
CN107862279A (zh) * 2017-11-03 2018-03-30 中国电子科技集团公司第三研究所 一种脉冲声信号识别分类方法
US20200152206A1 (en) * 2017-12-26 2020-05-14 Robert Bosch Gmbh Speaker Identification with Ultra-Short Speech Segments for Far and Near Field Voice Assistance Applications
US20190043525A1 (en) * 2018-01-12 2019-02-07 Intel Corporation Audio events triggering video analytics
WO2019237519A1 (zh) * 2018-06-11 2019-12-19 平安科技(深圳)有限公司 通用向量训练方法、语音聚类方法、装置、设备及介质
CN109378014A (zh) * 2018-10-22 2019-02-22 华中师范大学 一种基于卷积神经网络的移动设备源识别方法及系统
CN109448755A (zh) * 2018-10-30 2019-03-08 上海力声特医学科技有限公司 人工耳蜗听觉场景识别方法
CN110120230A (zh) * 2019-01-08 2019-08-13 国家计算机网络与信息安全管理中心 一种声学事件检测方法及装置
CN109949823A (zh) * 2019-01-22 2019-06-28 江苏大学 一种基于dwpt-mfcc与gmm的车内异响识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114922971A (zh) * 2022-04-22 2022-08-19 一汽奔腾轿车有限公司 一种低温下dct换挡冲击的优化方法及装置
CN114922971B (zh) * 2022-04-22 2024-05-14 一汽奔腾轿车有限公司 一种低温下dct换挡冲击的优化方法及装置

Similar Documents

Publication Publication Date Title
CN108597505B (zh) 语音识别方法、装置及终端设备
CN105513605B (zh) 手机麦克风的语音增强系统和语音增强方法
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
CN112116920B (zh) 一种说话人数未知的多通道语音分离方法
CN111653289B (zh) 一种回放语音检测方法
CN111292762A (zh) 一种基于深度学习的单通道语音分离方法
CN109243429B (zh) 一种语音建模方法及装置
CN109949823A (zh) 一种基于dwpt-mfcc与gmm的车内异响识别方法
CN110120230B (zh) 一种声学事件检测方法及装置
CN111986679A (zh) 一种应对复杂声学环境的说话人确认方法、系统及存储介质
CN112382301B (zh) 基于轻量级神经网络的含噪语音性别识别方法及系统
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
CN110189746A (zh) 一种应用于地空通信的话音识别方法
CN108831506A (zh) 基于gmm-bic的数字音频篡改点检测方法及系统
CN105448302A (zh) 一种环境自适应的语音混响消除方法和系统
CN104732972A (zh) 一种基于分组统计的hmm声纹识别签到方法及系统
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN111883181A (zh) 音频检测方法、装置、存储介质及电子装置
CN111899750A (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
Yoo et al. Automatic sound recognition for the hearing impaired
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
CN112820318A (zh) 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统
Chen et al. InQSS: a speech intelligibility assessment model using a multi-task learning network
CN111524520A (zh) 一种基于误差逆向传播神经网络的声纹识别方法
Kamble et al. Teager energy subband filtered features for near and far-field automatic speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination