CN103544953B - 一种基于背景噪声最小统计量特征的声音环境识别方法 - Google Patents

一种基于背景噪声最小统计量特征的声音环境识别方法 Download PDF

Info

Publication number
CN103544953B
CN103544953B CN201310507384.1A CN201310507384A CN103544953B CN 103544953 B CN103544953 B CN 103544953B CN 201310507384 A CN201310507384 A CN 201310507384A CN 103544953 B CN103544953 B CN 103544953B
Authority
CN
China
Prior art keywords
minimum statistics
feature
acoustic environment
carried out
base vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310507384.1A
Other languages
English (en)
Other versions
CN103544953A (zh
Inventor
邓世文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Normal University
Original Assignee
Harbin Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Normal University filed Critical Harbin Normal University
Priority to CN201310507384.1A priority Critical patent/CN103544953B/zh
Publication of CN103544953A publication Critical patent/CN103544953A/zh
Application granted granted Critical
Publication of CN103544953B publication Critical patent/CN103544953B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

一种基于背景噪声最小统计量特征的声音环境识别方法,涉及声音场景的分类识别技术,为了解决在声音环境识别中由于声音环境结构复杂、易混淆、声学特征不确定和维度高所造成的提取有效特征、建立统计模型困难,导致识别性能差的问题。本发明提出了噪声最小统计量特征的提取、建模以及识别方法:在特征提取与建模阶段,分别对声音信号的能量谱进行频域平滑和时域平滑并追踪其最小统计量,将最小统计量转换到对数域进行标准化和降维处理,从而提取出声音环境的噪声最小统计量特征,并采用高斯混合模型对噪声最小统计量建模;在识别阶段,对输入声音进行特征提取,计算所提取出的最小统计量特征在每个模型下的似然值,并依据此似然值进行类别决策。

Description

一种基于背景噪声最小统计量特征的声音环境识别方法
技术领域
本发明涉及声音场景的分类识别技术,属于智能信息处理领域,具体是一种基于声音环境的背景噪声特点来对不同的声音环境进行建模与识别的方法。
背景技术
随着计算技术、通讯技术及网络技术的迅猛发展,各种各样的智能化设备不断涌现,研究智能人机交互在现实生活中变得越来越重要。声音是人们能够获取的最重要的信息之一,开展声音感知技术的研究无疑可以帮助用户有效地利用声音信息并提供相关服务。因此,近年来声音感知技术的研究受到学术界的广泛重视。声音感知的目标是使计算机能够感知人类听觉系统所能够关注和理解的那些声音,其研究对象是非语音的声音。与人类的语音相似,非语音的声音也能传递有用信息。在特定环境中人的活动通常伴随产生种类丰富的声音事件,这些声学事件可能由人们的身体直接产生也可能由人们所操纵的器物产生,即这些声音事件在一定程度上反映了人们的活动情况以及周围的环境状况。因此,研究特定环境下的声音事件有助于掌握人们的行为活动和环境状态,以提供相关的智能服务或安全预警,从而使声音信息能够更有效地为智能信息系统提供决策辅助或直接用于智能决策。
然而,我们所处的声音环境具有极其丰富的声音事件,试图为每种声学事件建模并识别是不现实的,也是计算上不可行的。因此,获取声音环境的先验知识对声音事件的检测与识别就显得格外重要了。每种声音环境下都含有较为特定的一些声音事件,如办公室的声音环境下较为可能出的声音事件是键盘声、脚步声、椅子声、人的说话声、掌声等,而不太可能出现汽车鸣笛声、动物叫声、欢呼声等。可见,声音环境的先验知识有助于缩小声学事件的数量、提高检测精度、减少计算代价。此外,为实现对与日俱增的数字音频数据的智能检索,也需要对数字音频文件按照其声音环境识别的结果进行有效地自动分割。
声音环境识别就是仅依赖特定环境中的声音信息对环境进行识别的一种技术。例如:依赖采集到的声音信号来识别当前环境是街道、办公室、高速公路还是餐馆等。声音环境识别存在着如下困难:1)声音环境存在着较强的结构复杂性,多种声音相互交织混叠在一起;2)声音环境存在着较强的混淆性,相同的声音可以出现在不同的声音环境中;3)声音环境中的声音存在着较大的不确定性,很难确定某个声音环境就必然出现某种声音或何时出时,难于描述其稳定的声学性质;4)声学特征通常具有较高的维度,使得难于利用这些特征进行建模。这些困难使得声音环境难于进行特征提取与建模,并直接导致其识别精度较差。显然,缺少能够标识声音环境的鲁棒特征是导致这一问题的主要原因。因此,如果所提取的声学特征能够克服声音环境的结构复杂、易混淆、声学特征不确定和维度高等问题的影响,则有助于是提高声音环境的识别性能。
本发明针对声音的环境识别问题,提出了一种基于背景噪声最小统计量特征的声音环境识别方法,可以实现对复杂声音环境的鲁棒识别。
发明内容
要解决的技术问题
本发明为了解决在声音环境识别中由于声音环境结构复杂、易混淆、声学特征不确定和维度高所造成的提取有效特征、建立统计模型困难、特征鲁棒性差,从而导致识别性能差的问题。
本发明为解决上述技术问题采取的技术方案是:
一种基于背景噪声最小统计量特征的声音环境识别方法,它由以下步骤实现:
步骤一、将采集的声音信号进行短时傅里叶变换得到信号的能量谱,而后对能量谱系数分别进行频域平滑和时域平滑,对平滑后的结果进行最小统计量追踪,提取出最小统计量并将其映射到对数域后进行标准化;
步骤二、将在训练数据上使用步骤一所得到的标准化后的最小统计量进行特征值分解,提取前K个重要基向量UK;将标准化后的最小统计量投影到K个重要基向量UK上得到降维后的特征,完成特征提取过程;将重要基向量UK进行存储以用于声音环境识别步骤四中;
步骤三、依据步骤二中所得到的训练数据降维后的最小统计量特征,采用高斯混合模型分别对每类环境声音进行建模,得到高斯混合模型(GMM)并将其进行存储以用于声音环境识别步骤四中;
步骤四、利用步骤一对所采集的声音信号提取标准化后的最小噪声统计量特征,利用步骤二所得到的重要基向量UK对其进行降维,完成对采集声音信号的特征提取;再利用步骤三所得到的高斯混合模型(GMM)进行声音环境识别。
步骤一中提取声音信号最小统计量的方法为:
步骤一(1)、对采集的声音信号进行短时傅里叶变换:
Y ( l , m ) = Σ n = 0 N - 1 y ( n + lH ) w ( n ) exp ( - j 2 π N nm )
其中:y为采集的声音信号,w为分析窗,N为窗长,l为帧索引,m为频带索引,H为窗口移动步长;
步骤一(2)、将得到的傅里叶变换系数进行频域平滑:
P f ( l , m ) Σ i = - B B b ( i ) | Y ( l , m - i ) | 2
其中:b(i)为标准化窗口,其长度为2B+1且满足
步骤一(3)、将频域平滑后的结果进行时域平滑:
P(l,m)=αsP(l-1,m)+(1-αs)Pf(l,m)
其中:αs为平滑因子;
步骤一(4)、按追踪下式进行追踪最小统计量:
X ( l , m ) = &gamma;X ( l - 1 , m ) + 1 - &gamma; 1 - &beta; ( P ( l , m ) - &beta;P ( l - 1 , m ) ) , X ( l - 1 , m ) < P ( l , m ) P ( l . m ) , otherwise
其中:γ和β为实验决定的常量。
步骤一中最小统计量在对数域的标准化方法为:
将每帧信号的最小统计量视为列向量:并将其转换为对数域: x ^ l = 10 log 10 ( x &OverBar; l ) , 并将其进行标准化: x l = x ^ l | | x ^ l | | .
在步骤二中提取前K个重要基向量的方法为:
将标准化后最小统计量数据组织成矩阵的形式:X=[x1,…,xL]T,此矩阵的自相关矩阵为:C=XTX。对自相关矩阵C进行特征值分解:
C=UΛUT
其中:U为基向量(特征向量)矩阵,Λ为一对角阵,即Λ=diag(λ1,…,λM),其中λi为第i个特征值且满足λ1≥λ2≥…≥λM≥0。提取前K个基向量作为UK,并将标准化的最小统计量投向此子空间,以获得降维特征:
z = U K T x
在本方法中,重要基向量的个数6≤K≤10。
在步骤三中为每类环境声音的建模方法为:
将每类训练数据降维后的最小统计量特征分别采用高斯混合模型进行建模:
p ( z | Z k ) = &Sigma; j = 1 m k p k ( z | j ) P ( j )
其中:z是待识别声音的特征,Zk是第k类环境声音训练数据的特征集,pk(z|j)是第j个成分的概率分布密度(这里皆为高斯分布),P(j)是第j个成分的权重(分布概率)。每类模型需要存储的数据为模型参数和基向量。
步骤四的具体实现过程为:
步骤四(1)、对输入声音信号进行适时傅里叶变换、时频平滑提取在对数域上标准化后的最小统计量;
步骤四(2)、将最小统计量投影到已存储的基向量上UK,获得降维后的特征;
步骤四(3)、将所得到的特征输入到每类的高斯混合模型中,并计算其似然值;
步骤四(4)、依据每个模型的输出似然值,选取具有最大似然值的类别作为最终识别结果。
本发明具有以下有益效果:
针对声音环境建模困难、特征鲁棒性差等问题,本发明提出基于环境背景噪声信息进行特征提取并建立统计模型的识别方案。通常在模式识别问题中,背景噪声不利于提高识别精度,相反还是影响识别精度的一个重要因素,因而在众多模式识别或信号检测问题中都需要进行信号增强或噪声抑制等处理,以消除噪声的影响。然而,在声音环境识别问题中却并非如此。不同的声音环境有着不同特点的背景噪声,而且这些背景噪声的性质相对稳定,非常适合用来提取能够刻画声音环境的声学特征。
为从声音环境的背景噪声中提取声学特征,需要获得声音环境的噪声信息,为此采用追踪噪声最小统计量的方法来获取声音环境中的背景噪声。首先,采用短时傅里叶变换将声音信号变换到频域,分别在频域和时域上对信号的能量谱进行平滑处理,以提高特征的鲁棒性。然后,采用最小噪声统计量追踪方法寻找同一频带内有限时长内的最小能量值,并将其取出作为噪声最小统计量。噪声最小统计量主要反映背景噪声的能谱特点,它不依赖声音环境中的典型声音,从而具有较强的鲁棒性,解决了声音环境特征的易混淆和稳定性差的问题。
从能量谱中提取出的最小统计量依然具有较为复杂的结构而且维度较高,不易于进行统计建模,因而还需要对其进行标准化和降维处理。首先,将最小统计量转换到对数域并进行标准化处理。然后构建训练数据标准化后的最小统计量的自相关矩阵,并对其进行特征值分解以提取出重要的子空间基向量,并重新将标准化后的最小统计量特征投影到此子空间,以获取降维后的特征表示,即噪声最小统计量特征。通过标准化和降维处理解决了声音环境特征的结构复杂与高维度问题。
基于上述的特征提取方法,采用高斯混合模型(GMM)对声音环境的建模与识别。对每类声音环境模型需要保存高斯混合模型参数和重要基向量以用于识别。在识别阶段,首先对输入的声音信号进行特征提取,然后通过计算其在每类模型下的似然值进行分类。
本发明提出了噪声最小统计量特征的提取、建模以及识别方法:在特征提取与建模阶段,分别对声音信号的能量谱进行频域平滑和时域平滑并追踪其最小统计量,将最小统计量转换到对数域进行标准化和降维处理,从而提取出声音环境的噪声最小统计量特征,并采用高斯混合模型对噪声最小统计量建模;在识别阶段,对输入声音进行特征提取,计算所提取出的最小统计量特征在每个模型下的似然值,并依据此似然值进行类别决策。本发明解决了声音环境识别存在的结构复杂度、易混淆、声学特征稳定性差以及维度高,声音环境建模困难、特征鲁棒性差的问题;本发明提出鲁棒的声音环境特征提取、建模与识别,从而提高声音环境的识别性能。
本发明的优点表现在以下几个方面:1)所提取的特征结构简单,易于建模;2)具有较强的抗混淆能力;3)不依赖典型声音,具有稳定的识别结果;4)可靠性较好,具有较高的识别结果。
附图说明
图1是本发明声音环境识别方法的特征提取与建立模型的示意图,图2是本发明声音环境识别方法的声音环境识别的示意图(本发明进行声音环境分类的示意图)。图3是本发明所提出的基于最小噪声统计量特征(MSPC)识别方法与基于传统声学特征美尔倒谱系数(MFCC)、线性预测系数(LPC)和线性预测倒谱系数(LPCC)的识别方法在17种声音环境下的识别结果比较图,实验结果表明本发明所提出的识别方法具有更好的识别性能。
具体实施方式
具体实施方式一:结合图1~2说明本发明的基于背景噪声最小统计量特征的声音环境识别方法,步骤一至三表示噪声最小统计量特征的提取与建模过程,步骤四表示声音环境识别过程;
步骤一、噪声最小统计量追踪:
首先采用短时傅里叶变换将声音信号变换到频域:
Y ( l , m ) = &Sigma; n = 0 N - 1 y ( n + lH ) w ( n ) exp ( - j 2 &pi; N nm ) - - - ( 1 )
其中:y为输入信号,w为分析窗,N为窗长,l为帧索引,m为频带索引,H为窗口移动步长。将得到的傅里叶变换系数进行频域平滑:
P f ( l , m ) &Sigma; i = - B B b ( i ) | Y ( l , m - i ) | 2 - - - ( 2 )
其中:b(i)为标准化窗口,其长度为2B+1且满足将频域平滑后的结果进行时域平滑:
P(l,m)=αsP(l-1,m)+(1-αs)Pf(l,m)(3)
其中:αs为平滑因子。然后按追踪下式进行追踪最小统计量:
X ( l , m ) = &gamma;X ( l - 1 , m ) + 1 - &gamma; 1 - &beta; ( P ( l , m ) - &beta;P ( l - 1 , m ) ) , X ( l - 1 , m ) < P ( l , m ) P ( l . m ) , otherwise - - - ( 4 )
其中:γ和β为实验决定的常量。
通过式(4)所得到的噪声最小统计量主要包含了声音环境的背景噪声信息,但其结构依然较为复杂而且维数较高,因此还需要对其进行标准化和降维处理。
步骤二、对数域标准化与降维:
首先,将每帧信号的最小统计量视为列向量:并将其转换为对数域: x ^ l = 10 log 10 ( x &OverBar; l ) , 将其进行标准化: x l = x ^ l | | x ^ l | | .
将标准化后最小统计量数据组织成矩阵的形式:X=[x1,…,xL]T,此矩阵的自相关矩阵为:C=XTX。对自相关矩阵C进行特征值分解:
C=UΛUT(5)
其中:U为基向量(特征向量)矩阵,Λ为一对角阵,即Λ=diag(λ1,…,λM),其中λi为第i个特征值且满足λ1≥λ2≥…≥λM≥0。提取前K个基向量作为UK,并将标准化的最小统计量投向此子空间,以获得降维特征:
z = U K T x - - - ( 6 )
在本方法中,重要基向量的个数6≤K≤10。
步骤三、高斯混合模型建模:
对每类训练数据降维后的最小统计量特征分别采用高斯混合模型进行建模:
p ( z i | &theta; ) = &Sigma; c = 1 C &pi; c N ( z i | &mu; c , &Sigma; c ) - - - ( 7 )
其中:θ=[μ1,…,μC1,…,ΣC]为模型参数。每类模型需要存储的数据为模型参数和基向量。
步骤四、声音环境识别过程:
在识别过程中,需要提前进行读取每类声音环境的模型参数和相应的基向量。在进行环境声音识别时,输入声音信号首先进行分帧处理并以帧为单位提取噪声最小统计量特征,然后计算噪声最小统计量特征在每一模型下的似然值并依据此似然值进行分类。具体步骤如下:
步骤一、对输入声音信号进行适时傅里叶变换、时频平滑提取在对数域上标准化后的最小统计量;
步骤二、将最小统计量投影到已存储的基向量上UK,获得降维后的特征;
步骤三、计算噪声最小统计量特征在每类声音环境模型中的似然值;
步骤四、依据每个模型输出的似然值,选取具有最大似然值的声音环境类作为识别结果。
实验结果(参见图3):
为验证本发明所提出方法的有效性并对其性能进行评估,实验选取了来自17种声学环境下的声音数据来进行识别性能评测,这些声学环境具体包括:机场、篮球赛、海滨、公交车内、欢庆节日、课堂、乡村、足球赛、高速公路、厨房、市场、办公室、社交聚会、
抗议游行、餐馆、街道、火车内。这些声学环境大部分包含数量众多、结构复杂且变化的声源。声音文件总数为8408个,时长约4.6个小时,其中3∕5用做训练数据,2∕5用做测试数据。本发明所提出的基于最小噪声统计量特征(MSPC)识别方法与基于传统声学特征美尔倒谱系数(MFCC)、线性预测系数(LPC)和线性预测倒谱系数(LPCC)的识别方法在17种声学环境下的识别结果及平均识别结果如图3所示。实验结果表明:1)本发明所提出的基于MSPC特征的识别方法在平均识别率上超出基于传统的MFCC特征的识别方法17.6%,其中前者的平均识别率为87.1%,后者为69.5%;2)本发明所提出的方法在办公室、社交聚会、抗议流行、街道、欢庆节日等复杂的声学环境识别上相比于基于MFCC为特征的方法具有更为突出的性能表现;3)在相对较为简单的声学环境下(声源较少,声音交叠也较少),如公交车内、乡村、高速公路、火车内等,本发明所提出的方法也优于或略优于基于MFCC为特征的方法;4)实验还表明基于单声源信道模型的LPC和LPCC特征并不适合用于复杂声学环境的识别问题。

Claims (9)

1.一种基于背景噪声最小统计量特征的声音环境识别方法,其特征在于它由以下步骤实现:
步骤一、将采集的声音信号进行短时傅里叶变换得到信号的能量谱,而后对能量谱系数分别进行频域平滑和时域平滑,对平滑后的结果进行最小统计量追踪,提取出最小统计量并将其映射到对数域后进行标准化;
步骤二、将在训练数据上使用步骤一所得到的标准化后的最小统计量进行特征值分解,提取前K个重要基向量UK;将标准化后的最小统计量投影到K个重要基向量UK上得到降维后的特征,完成特征提取过程;将重要基向量UK进行存储以用于声音环境识别步骤四中;
步骤三、依据步骤二中所得到的训练数据降维后的最小统计量特征,采用高斯混合模型分别对每类环境声音进行建模,得到高斯混合模型(GMM)并将其进行存储以用于声音环境识别步骤四中;
步骤四、利用步骤一对所采集的声音信号提取标准化后的最小噪声统计量特征,利用步骤二所得到的重要基向量UK对其进行降维,完成对采集声音信号的特征提取;再利用步骤三所得到的高斯混合模型(GMM)进行声音环境识别。
2.根据权利要求1所述的一种基于背景噪声最小统计量特征的声音环境识别方法,其特征在于,步骤一中提取声音信号最小统计量的方法为:
步骤一(1)、对采集的声音信号进行短时傅里叶变换:
Y ( l , m ) = &Sigma; n = 0 N - 1 y ( n + l H ) w ( n ) exp ( - j 2 &pi; N n m )
其中:y为采集的声音信号,w为分析窗,N为窗长,l为帧索引,m为频带索引,H为窗口移动步长;
步骤一(2)、将得到的傅里叶变换系数进行频域平滑:
P f ( l , m ) = &Sigma; i = - B B b ( i ) | Y ( l , m - i ) | 2
其中:b(i)为标准化窗口,其长度为2B+1且满足
步骤一(3)、将频域平滑后的结果进行时域平滑:
P(l,m)=αsP(l-1,m)+(1-αs)Pf(l,m)
其中:αs为平滑因子;
步骤一(4)、按追踪下式进行追踪最小统计量:
X ( l , m ) = &gamma; X ( l - 1 , m ) + 1 - &gamma; 1 - &beta; ( P ( l , m ) - &beta; P ( l - 1 , m ) ) , X ( l - 1 , m ) < P ( l , m ) P ( l , m ) , o t h e r w i s e
其中:γ和β为实验决定的常量。
3.根据权利要求1所述的一种基于背景噪声最小统计量特征的声音环境识别方法,其特征在于,步骤一中最小统计量在对数域的标准化方法为:
将每帧信号的最小统计量视为列向量:其中l为帧索引,M为最大频带数,并将其转换为对数域:并将其进行标准化:
4.根据权利要求1、2或3所述的一种基于背景噪声最小统计量特征的声音环境识别方法,其特征在于,步骤二中提取前K个重要基向量的方法为:
将标准化后最小统计量数据组织成矩阵的形式:X=[x1,…,xL]T,其中L为最大帧数,此矩阵的自相关矩阵为:C=XTX;对自相关矩阵C进行特征值分解:
C=UΛUT
其中:U为基向量矩阵,Λ为一对角阵,即Λ=diag(λ1,…,λM),其中λi为第i个特征值且满足λ1≥λ2≥…≥λM≥0,其中M为非0特征值的个数;提取前K个基向量作为UK,并将标准化的最小统计量投向此子空间,以获得降维特征:
z = U K T x
在本方法中,重要基向量的个数6≤K≤10。
5.根据权利要求1、2或3所述的一种基于背景噪声最小统计量特征的声音环境识别方法,其特征在于,步骤三中为每类环境声音的建模方法为:
将每类训练数据降维后的最小统计量特征分别采用高斯混合模型进行建模:
p ( z | Z k ) = &Sigma; j = 1 m k p k ( z | j ) P ( j )
其中:mk是混合模型中高斯分量的个数,z是待识别声音的特征,Zk是第k类环境声音训练数据的特征集,pk(z|j)是第j个成分的概率分布密度,P(j)是第j个成分的权重;每类模型需要存储的数据为模型参数和基向量。
6.根据权利要求4所述的一种基于背景噪声最小统计量特征的声音环境识别方法,其特征在于,步骤三中为每类环境声音的建模方法为:
将每类训练数据降维后的最小统计量特征分别采用高斯混合模型进行建模:
p ( z | Z k ) = &Sigma; j = 1 m k p k ( z | j ) P ( j )
其中:mk是混合模型中高斯分量的个数,z是待识别声音的特征,Zk是第k类环境声音训练数据的特征集,pk(z|j)是第j个成分的概率分布密度,P(j)是第j个成分的权重;每类模型需要存储的数据为模型参数和基向量。
7.根据权利要求1、2、3或6所述的一种基于背景噪声最小统计量特征的声音环境识别方法,其特征在于,步骤四的具体实现过程为:
步骤四(1)、对输入声音信号进行适时傅里叶变换、时频平滑提取在对数域上标准化后的最小统计量;
步骤四(2)、将最小统计量投影到已存储的基向量上UK,获得降维后的特征;
步骤四(3)、将所得到的特征输入到每类的高斯混合模型中,并计算其似然值;
步骤四(4)、依据每个模型的输出似然值,选取具有最大似然值的类别作为最终识别结果。
8.根据权利要求4所述的一种基于背景噪声最小统计量特征的声音环境识别方法,其特征在于,步骤四的具体实现过程为:
步骤四(1)、对输入声音信号进行适时傅里叶变换、时频平滑提取在对数域上标准化后的最小统计量;
步骤四(2)、将最小统计量投影到已存储的基向量上UK,获得降维后的特征;
步骤四(3)、将所得到的特征输入到每类的高斯混合模型中,并计算其似然值;
步骤四(4)、依据每个模型的输出似然值,选取具有最大似然值的类别作为最终识别结果。
9.根据权利要求5所述的一种基于背景噪声最小统计量特征的声音环境识别方法,其特征在于,步骤四的具体实现过程为:
步骤四(1)、对输入声音信号进行适时傅里叶变换、时频平滑提取在对数域上标准化后的最小统计量;
步骤四(2)、将最小统计量投影到已存储的基向量上UK,获得降维后的特征;
步骤四(3)、将所得到的特征输入到每类的高斯混合模型中,并计算其似然值;
步骤四(4)、依据每个模型的输出似然值,选取具有最大似然值的类别作为最终识别结果。
CN201310507384.1A 2013-10-24 2013-10-24 一种基于背景噪声最小统计量特征的声音环境识别方法 Expired - Fee Related CN103544953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310507384.1A CN103544953B (zh) 2013-10-24 2013-10-24 一种基于背景噪声最小统计量特征的声音环境识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310507384.1A CN103544953B (zh) 2013-10-24 2013-10-24 一种基于背景噪声最小统计量特征的声音环境识别方法

Publications (2)

Publication Number Publication Date
CN103544953A CN103544953A (zh) 2014-01-29
CN103544953B true CN103544953B (zh) 2016-01-20

Family

ID=49968349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310507384.1A Expired - Fee Related CN103544953B (zh) 2013-10-24 2013-10-24 一种基于背景噪声最小统计量特征的声音环境识别方法

Country Status (1)

Country Link
CN (1) CN103544953B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105609100B (zh) * 2014-10-31 2019-08-20 中国科学院声学研究所 声学模型训练构造方法、及声学模型和语音识别系统
CN108304857A (zh) * 2017-12-15 2018-07-20 浙江大学 一种基于多模感知的身份识别方法
CN112152667A (zh) * 2019-06-11 2020-12-29 华为技术有限公司 一种识别电器的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1296607A (zh) * 1998-02-04 2001-05-23 夸尔柯姆股份有限公司 用于经噪声补偿的话音识别的系统和方法
US6418411B1 (en) * 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment
CN1637740A (zh) * 2003-11-20 2005-07-13 阿鲁策株式会社 对话控制设备和对话控制方法
CN101331538A (zh) * 2005-12-14 2008-12-24 三菱电机株式会社 声音识别装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1296607A (zh) * 1998-02-04 2001-05-23 夸尔柯姆股份有限公司 用于经噪声补偿的话音识别的系统和方法
US6418411B1 (en) * 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment
CN1637740A (zh) * 2003-11-20 2005-07-13 阿鲁策株式会社 对话控制设备和对话控制方法
CN101331538A (zh) * 2005-12-14 2008-12-24 三菱电机株式会社 声音识别装置

Also Published As

Publication number Publication date
CN103544953A (zh) 2014-01-29

Similar Documents

Publication Publication Date Title
CN109065030B (zh) 基于卷积神经网络的环境声音识别方法及系统
Kong et al. DCASE 2018 challenge surrey cross-task convolutional neural network baseline
CN103310789B (zh) 一种基于改进的并行模型组合的声音事件识别方法
CN104916289A (zh) 行车噪声环境下快速声学事件的检测方法
Salman et al. Machine learning inspired efficient audio drone detection using acoustic features
CN109949823A (zh) 一种基于dwpt-mfcc与gmm的车内异响识别方法
CN106791579A (zh) 一种视频会议质量的处理方法及系统
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
CN104978507A (zh) 一种基于声纹识别的智能测井评价专家系统身份认证方法
KR102314824B1 (ko) 딥러닝 기반 감지상황에서의 음향 사건 탐지 방법
CN108198561A (zh) 一种基于卷积神经网络的翻录语音检测方法
CN110120223A (zh) 一种基于时延神经网络tdnn的声纹识别方法
CN102789779A (zh) 一种语音识别系统及其识别方法
Gontier et al. Polyphonic training set synthesis improves self-supervised urban sound classification
CN108615532A (zh) 一种应用于声场景的分类方法及装置
CN103544953B (zh) 一种基于背景噪声最小统计量特征的声音环境识别方法
CN105118516A (zh) 基于声音线性预测倒谱系数的工程机械的识别方法
CN102509548B (zh) 一种基于多距离声传感器的音频索引方法
CN110610722B (zh) 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法
CN103559289A (zh) 语种无关的关键词检索方法及系统
CN110808067A (zh) 基于二值多频带能量分布的低信噪比声音事件检测方法
CN110333484A (zh) 基于环境背景声感知与分析的室内区域级定位方法
CN103994820A (zh) 一种基于微孔径麦克风阵列的运动目标识别方法
Czúni et al. Time domain audio features for chainsaw noise detection using WSNs
Li et al. Research on environmental sound classification algorithm based on multi-feature fusion

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160120

Termination date: 20171024

CF01 Termination of patent right due to non-payment of annual fee