CN106448661A - 基于纯净语音与背景噪声两极建模的音频类型检测方法 - Google Patents
基于纯净语音与背景噪声两极建模的音频类型检测方法 Download PDFInfo
- Publication number
- CN106448661A CN106448661A CN201610847518.8A CN201610847518A CN106448661A CN 106448661 A CN106448661 A CN 106448661A CN 201610847518 A CN201610847518 A CN 201610847518A CN 106448661 A CN106448661 A CN 106448661A
- Authority
- CN
- China
- Prior art keywords
- model
- gauss
- unit
- ambient noise
- clean speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 16
- 239000000203 mixture Substances 0.000 claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 22
- 238000013179 statistical model Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 241001269238 Data Species 0.000 claims description 2
- 239000000470 constituent Substances 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Noise Elimination (AREA)
Abstract
本发明提供一种基于纯净语音与背景噪声两极建模的音频类型检测方法,包括步骤:S1、构建纯净语音GMM模型以及纯粹背景噪声GMM模型;S2、计算纯净语音模型自身各高斯混元间的距离,判断高斯混元是否位于特征重叠空间;S3、剔除位于特征重叠空间中的高斯混元,重新构建纯净语音统计模型、纯粹背景噪声统计模型;S4、计算新的纯净语音统计模型、纯粹背景噪声统计模型的概率,以及估算音频样本信噪比;S5、根据计算得到的概率以及估算信噪比,构建特征矢量且利用SVM模型进行判决,将样本判别为纯净语音、背景噪声或含噪声语音。本发明在降低GMM‑SVM运算量的同时,能有效地区分纯净语音、纯净背景噪声和含噪声语音。
Description
技术领域
本发明涉及语音信号处理技术领域,具体涉及一种基于纯净语音与背景噪声两极建模的音频类型检测方法。
背景技术
音频类型检测技术是指利用不同类型音频特征来辨别它们的类型。目前使用得比较多的技术是GMM(Gaussian Mixture Model)模型、HMM(hidden Markov model)模型。而近年出现GMM-SVM的组合方法,利用GMM模型构建超矢量作为特征,使用SVM模型进行软分类,得到不错的效果。GMM-SVM的运算量由GMM的高斯混合度、使用的超矢量维数以及SVM核函数所决定,超矢量的维数一般是GMM所使用的特征维数或高斯混合度,使用后者居多。因此GMM-SVM的运算量很大,对于需要实时处理的应用,对设备有一定的性能要求。背景噪声、带噪语音和纯净语音的分类,一般应用在实时的音频监控中,不同类型的音频有不同的处理策略,例如背景噪声可用于噪声估计建模,而带噪语音需要进行降噪或语音增强等操作,然后再进行下一步处理,在通信质量监控、异常音频事件监控等应用中,分类处理可有效地提高处理质量并降低计算复杂度,比如语音通信质量监控应用中,只有带噪语音需要进行复杂的质量评估。
发明内容
为了克服现有技术存在的缺点与不足,本发明提供一种基于纯净语音与背景噪声两极建模的音频类型检测方法,在能够降低GMM-SVM运算量的同时,还能够有效地区分纯净语音、纯净背景噪声和含噪声语音。
为解决上述技术问题,本发明提供如下技术方案:一种基于纯净语音与背景噪声两极建模的音频类型检测方法,包括以下步骤:
S1、构建纯净语音模型以及纯粹背景噪声模型:基于足够的合适训练数据,训练一个N高斯混元的纯净语音模型和一个M高斯混元的背景噪声模型;
S2、计算纯净语音模型自身各高斯混元间的距离,得到N*N的语音模型自距离矩阵;计算纯粹背景噪声模型的自身各高斯混元间的距离,得到M*M的背景噪声模型自距离矩阵;计算纯净语音模型与纯粹背景噪声模型对应各高斯混元间的距离,得到N*M的互距离矩阵;根据上述矩阵以及高斯混元的邻域成分分析,判断高斯混元是否位于特征重叠空间;
S3、剔除位于特征重叠空间中的高斯混元,利用非重叠空间的高斯成分重新构建纯净语音统计模型、纯粹背景噪声统计模型;
S4、计算新的纯净语音统计模型、纯粹背景噪声统计模型的概率,以及估算音频样本信噪比;
S5、根据计算得到的概率以及估算信噪比,构建特征矢量且利用SVM模型进行判决,将样本判别为纯净语音、背景噪声或含噪声语音。
进一步地,所述步骤S2中判断高斯混元是否位于特征重叠空间具体为:对模型内每一高斯混元A统计其σ邻域内的成分构成,即邻域内两种模型各自的高斯混元数量,以此判断高斯混元A是否处于特征重叠空间。
进一步地,所述步骤S3中剔除在特征重叠空间中的高斯混元具体为:
S31、根据纯净语音模型自距离矩阵和互距离矩阵,统计纯净语音模型中高斯混元A与纯净语音模型中其他高斯混元的距离小于阈值的高斯混元数量a1,以及该高斯混元A与背景噪声模型中高斯混元的距离小于阈值的高斯混元数量b1,若数量b1大于数量a1,则剔除纯净语音模型中的高斯混元A,其中,所述阈值即为σ邻域;
S32、根据背景噪声模型自距离矩阵和互距离矩阵,统计背景噪声模型中高斯混元B与背景噪声模型中其他高斯混元间的距离小于阈值的高斯混元数量a2以及该高斯混元B与纯净语音模型中高斯混元间的距离小于阈值的高斯混元数量b2,若数量b2大于数量a2,则剔除背景噪声模型中的高斯混元B。
进一步地,所述高斯混元间的距离定义为:
其中,n代表纯净语音模型的第n个高斯混元,m代表背景噪声模型中的第m个高斯混元,i代表高斯混元的第i维,σn(i)代表纯净语音模型的第n个高斯混元的第i维的标准差,σm(i)代表背景噪声模型的第m个高斯混元的第i维的标准差,μn(i)代表纯净语音模型的第n个高斯混元的第i维的均值,μm(i)代表背景噪声模型的第m个高斯混元的第i维的均值。
进一步地,所述σ邻域定义如下:
σ=kdmin
其中,k为经验常数,dmin为该高斯混元到该模型内的其他高斯混元间的最小距离。
进一步地,所述步骤S5,使用纯净语音统计模型的概率p1、纯粹背景噪声统计模型的概率p2以及估算信噪比SNR作为SVM模型的输入特征,即有特征矢量ξ:
ξ={p1,p2,SNR}
利用特征矢量ξ训练背景噪声、带噪语音与纯净语音SVM三分模型,其中,所述估算信噪比定义如下:
其中,ref表示降噪后的语音采样点序列,deg表示原始语音采样点序列,var(ref)代表降噪后的语音采样点序列的方差,var(ref-deg)代表降噪后的语音采样点序列与原始语音采样点序列的差之方差。
采用上述技术方案后,本发明至少具有如下有益效果:
1、本发明利用纯净语音与背景非语音信号的显著感觉差异特征,在传统GMM模型的基础上构建纯净语音统计模型和纯净背景噪声统计模型,然后利用该极端模型对音频样本的评估信息和估算信噪比构建分类器,将音频段分为纯净语音、纯净背景噪声和含噪声语音三类。
2、本发明考虑到,根据统计学原理中的中心极限定理,单一类型音频的特征应近似符合正态分布,单一类型音频在特征空间上应该符合这样一个规律:在该类型的特征区域中,越靠近中心,特征密度越大,换言之越靠近区域边界,特征密度越小。对于两种单一类型音频A和B,假设两者的特征空间有所重叠,在重叠区域中,如果向A的中心移动,则A的特征密度会增大,B的特征密度会减少,如果向B的中心移动,则B的特征密度会增大,A的特征密度会减少。GMM统计模型利用高斯混元描述音频类型特征,因此高斯混元应当符合上述规律。由此,本发明提出高斯混元的邻域概念,通过研究高斯混元的邻域成分构成以得到高斯混元的邻域中背景噪声和纯净语音两种音频的特征密度,确定高斯混元是否位于特征重叠空间。
3、本发明考虑到音频类型检测技术利用不同音频类型的特征差异性进行分类,而不同音频类型的特征共性对音频类型检测起着负面作用。两个模型的特征重叠空间描述的是两类音频的共性,而特征非重叠空间描述的是两类音频的差异性。本发明通过上述邻域的概念,确定特征重叠空间,通过剔除特征重叠空间中的高斯混元,减少了两个模型的共性,保留了两个模型的差异性,构建出两个新的GMM统计模型,因此新的统计模型区分性更强。而由于高斯混元的减少,运算量也相应得到降低。
4、本发明使用的SVM分类器特征矢量,不仅利用了具备频域特性的GMM统计概率,而且结合具备时域特性的估算信噪比,使特征矢量的信息更加完备,特征区分性强,而且特征维度低,运算量少。
附图说明
图1是本发明中背景噪声与纯净语音两极模型的生成以及分类器训练流程图;
图2是本发明中基于纯净语音与背景噪声两极模型评价的音频类型检测方法的识别流程图;
图3是本发明中纯净语音与背景噪声的特征重叠空间示意图。
图4是本发明中纯净语音、背景噪声与含噪语音的若干样本以纯净语音模型概率对数为X轴、以背景噪声模型概率对数为Y轴、以估算信噪比为Z轴的分类器特征矢量空间分布图;
图5是本发明中纯净语音、背景噪声与含噪语音的若干样本以背景噪声模型概率对数为X轴、以纯净语音模型概率对数为Y轴、以估算信噪比为Z轴的分类器特征矢量空间分布图;
图6是本发明中纯净语音、背景噪声与含噪语音的若干样本以估算信噪比为X轴、以背景噪声模型概率对数为Y轴、以纯净语音模型概率对数为Z轴的分类器特征矢量空间分布图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本申请作进一步详细说明。
实施例
图1是本发明中背景噪声与纯净语音两极模型的生成以及分类器训练流程图。所述的方法包括一下步骤:
(1)纯净语音和纯粹背景噪声模型构建:基于足够的合适训练数据训练一个N个高斯混元的纯净语音模型GMMs和一个M个高斯混元的背景噪声模型GMMn。
在本实施例中,纯净语音模型的高斯混合数使用256,利用尽量多的说话人、语言内容不同的纯净语音构建一个GMM模型;说话人数不少于20人,男性:女性的比列尽量保持均衡。语言内容也应多样化。从完备性来讲,语言内容应该包含所有基本语音单元。
背景噪声模型的高斯混合数使用512,利用尽可能多的背景噪声样本(类型尽量多)训练一个GMM模型;模型的高斯数根据数据量来定,每一个高斯的平均数据量不少于200(帧)。
(2)纯净语音与背景噪声的特征重叠空间的甄别:通过计算纯净语音与背景噪声两个GMM模型自身各高斯混元的距离和两个模型各高斯混元的距离,得到一个256*256的语音模型自距离矩阵、一个512*512的背景噪声模型自距离矩阵和一个256*512的互距离矩阵,根据三个矩阵以及高斯混元的邻域成分构成,确定高斯混元是否位于特征重叠空间。
高斯混元间的距离定义为:
其中,n代表纯净语音模型的第n个高斯混元,m代表背景噪声模型中的第m个高斯混元,i代表高斯混元的第i维,σn(i)代表纯净语音模型的第n个高斯混元的第i维的标准差,σm(i)代表背景噪声模型的第m个高斯混元的第i维的标准差,μn(i)代表纯净语音模型的第n个高斯混元的第i维的均值,μm(i)代表背景噪声模型的第m个高斯混元的第i维的均值。
不同的音频类型具有特征重叠的空间,为了甄别纯净语音与背景噪声的特征重叠空间,对模型内每一高斯混元A统计在其邻域σ内的成分构成,即邻域内两种模型各自的高斯混元数量,以此判断高斯混元A是否处于特征重叠空间。
某模型内的某一个高斯混元的邻域σ定义如下:
σ=kdmin
其中,k为经验常数,dmin为该高斯混元到该模型内的其他高斯混元的最小距离。在本实例中,经实验调试,选择k为5。
图3是本发明中纯净语音与背景噪声的特征重叠空间示意图。圆和三角形分别代表纯净语音的高斯混元、背景噪声的高斯混元,两者存在重叠的区域,在此重叠区域中的某个高斯混元的邻域σ内,同时存在纯净语音与背景噪声的高斯混元,而在非重叠区域中的某个高斯混元的邻域σ内,只存在该高斯混元所属的模型中的高斯混元。对于任一类而言,该类的高斯混元密度从该类特征区域的边界向区域中心递增,而另一类的高斯混元密度则递减。因此根据高斯混元的邻域成分构成,能够确定高斯混元是否位于特征重叠空间。
(3)纯净语音与背景噪声区分统计模型构建:通过剔除特征重叠空间中的高斯混元,重新计算GMM模型参数,构建纯净语音与背景噪声区分统计模型。根据纯净语音模型自距离矩阵和互距离矩阵,统计纯净语音模型中高斯混元A与纯净语音模型中其他高斯混元的距离小于阈值(即邻域σ)的高斯混元数量a1以及该高斯混元A与背景噪声模型中高斯混元的距离小于阈值的高斯混元数量b1,若数量b1大于数量a1,则剔除纯净语音模型中的高斯混元A;根据背景噪声模型自距离矩阵和互距离矩阵,统计背景噪声模型中高斯混元B与背景噪声模型中其他高斯混元的距离小于阈值(即邻域σ)的高斯混元数量a2以及该高斯混元B与纯净语音模型中高斯混元的距离小于阈值的高斯混元数量b2,若数量b2大于数量a2,则剔除背景噪声模型中的高斯混元B。
根据剔除后剩余的高斯混元,重新计算GMM模型的权重,设纯净语音模型与背景噪声模型保留的高斯混元原权重为{a1,a2,...ak}和{b1,b2,...bL},按下述规律调整各高斯混元的权重:
(4)音频样本信噪比估计:利用语音增强算法得到降噪后的音频,对信噪比进行估计,估算信噪比定义如下:
其中,ref表示降噪后的语音采样点序列,deg表示原始语音采样点序列,var(ref)代表降噪后的语音采样点序列的方差,var(ref-deg)代表降噪后的语音采样点序列与原始语音采样点序列的差之方差。
(5)音频分类器训练:对背景噪声、带噪语音以及纯净语音三类音频计算两个GMM统计模型的概率,并估算样本信噪比,利用两个概率以及信噪比构建特征矢量:
ξ={p1,p2,SNR}
利用特征矢量ξ训练背景噪声、带噪语音与纯净语音SVM三分模型训练三分SVM模型;
(6)音频样本分类阶段:对待测试音频计算两个统计模型的概率以及估算信噪比,构建特征矢量,利用SVM模型进行判决,将样本判别为纯净语音、背景噪声或含噪声语音。
图4至图6是本发明中在实例中分类器特征矢量空间分布图的不同角度。由几个不同的角度,可以明显看出,背景噪声、带噪语音以及纯净语音三类音频在特征空间中具有自己的独占区域,通过分类器可以有效区分。
图2是本发明中基于背景噪声与纯净语音两极模型的识别流程图。利用训练过程中得到的背景噪声、纯净语音GMM统计模型和SVM三分模型,首先对输入音频计算两个GMM重构模型的概率,并且估算输入音频的信噪比,利用两个概率和信噪比作为特征矢量,利用SVM三分模型对输入音频进行判决。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解的是,在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。
Claims (6)
1.一种基于纯净语音与背景噪声两极建模的音频类型检测方法,其特征在于,包括如下步骤:
S1、构建纯净语音模型以及纯粹背景噪声模型:基于足够的合适训练数据,训练一个N高斯混元的纯净语音模型和一个M高斯混元的背景噪声模型;
S2、计算纯净语音模型自身各高斯混元间的距离,得到N*N的语音模型自距离矩阵;计算纯粹背景噪声模型的自身各高斯混元间的距离,得到M*M的背景噪声模型自距离矩阵;计算纯净语音模型与纯粹背景噪声模型对应各高斯混元间的距离,得到N*M的互距离矩阵;根据上述矩阵以及高斯混元的邻域成分分析,判断高斯混元是否位于特征重叠空间;
S3、剔除位于特征重叠空间中的高斯混元,利用非重叠空间的高斯成分重新构建纯净语音统计模型、纯粹背景噪声统计模型;
S4、计算新的纯净语音统计模型、纯粹背景噪声统计模型的概率,以及估算音频样本信噪比;
S5、根据计算得到的概率以及估算信噪比,构建特征矢量且利用SVM模型进行判决,将样本判别为纯净语音、背景噪声或含噪声语音。
2.如权利要求1所述的基于纯净语音与背景噪声两极建模的音频类型检测方法,其特征在于,所述步骤S2中判断高斯混元是否位于特征重叠空间具体为:对模型内每一高斯混元A统计其σ邻域内的成分构成,即邻域内两种模型各自的高斯混元数量,以此判断高斯混元A是否处于特征重叠空间。
3.如权利要求1所述的基于纯净语音与背景噪声两极建模的音频类型检测方法,其特征在于,所述步骤S3中剔除在特征重叠空间中的高斯混元具体为:
S31、根据纯净语音模型自距离矩阵和互距离矩阵,统计纯净语音模型中高斯混元A与纯净语音模型中其他高斯混元的距离小于阈值的高斯混元数量a1,以及该高斯混元A与背景噪声模型中高斯混元的距离小于阈值的高斯混元数量b1,若数量b1大于数量a1,则剔除纯净语音模型中的高斯混元A,其中,所述阈值即为σ邻域;
S32、根据背景噪声模型自距离矩阵和互距离矩阵,统计背景噪声模型中高斯混元B与背景噪声模型中其他高斯混元间的距离小于阈值的高斯混元数量a2以及该高斯混元B与纯净语音模型中高斯混元间的距离小于阈值的高斯混元数量b2,若数量b2大于数量a2,则剔除背景噪声模型中的高斯混元B。
4.如权利要求1或3所述的基于纯净语音与背景噪声两极建模的音频类型检测方法,其特征在于,所述高斯混元间的距离定义为:
其中,n代表纯净语音模型的第n个高斯混元,m代表背景噪声模型中的第m个高斯混元,i代表高斯混元的第i维,σn(i)代表纯净语音模型的第n个高斯混元的第i维的标准差,σm(i)代表背景噪声模型的第m个高斯混元的第i维的标准差,μn(i)代表纯净语音模型的第n个高斯混元的第i维的均值,μm(i)代表背景噪声模型的第m个高斯混元的第i维的均值。
5.如权利要求2或3所述的基于纯净语音与背景噪声两极建模的音频类型检测方法,其特征在于,所述σ邻域定义如下:
σ=kdmin
其中,k为经验常数,dmin为该高斯混元到该模型内的其他高斯混元间的最小距离。
6.如权利要求1所述的基于纯净语音与背景噪声两极建模的音频类型检测方法,其特征在于,所述步骤S5,使用纯净语音统计模型的概率p1、纯粹背景噪声统计模型的概率p2以及估算信噪比SNR作为SVM模型的输入特征,即有特征矢量ξ:
ξ={p1,p2,SNR}
利用特征矢量ξ训练背景噪声、带噪语音与纯净语音SVM三分模型,其中,所述估算信噪比定义如下:
其中,ref表示降噪后的语音采样点序列,deg表示原始语音采样点序列,var(ref)代表降噪后的语音采样点序列的方差,var(ref-deg)代表降噪后的语音采样点序列与原始语音采样点序列的差之方差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610847518.8A CN106448661B (zh) | 2016-09-23 | 基于纯净语音与背景噪声两极建模的音频类型检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610847518.8A CN106448661B (zh) | 2016-09-23 | 基于纯净语音与背景噪声两极建模的音频类型检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106448661A true CN106448661A (zh) | 2017-02-22 |
CN106448661B CN106448661B (zh) | 2019-07-16 |
Family
ID=
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107592169A (zh) * | 2017-10-25 | 2018-01-16 | 成都西井科技有限公司 | 适用于长距离的通信故障分析系统 |
CN108492820A (zh) * | 2018-03-20 | 2018-09-04 | 华南理工大学 | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 |
CN109473123A (zh) * | 2018-12-05 | 2019-03-15 | 百度在线网络技术(北京)有限公司 | 语音活动检测方法及装置 |
CN109584895A (zh) * | 2018-12-24 | 2019-04-05 | 龙马智芯(珠海横琴)科技有限公司 | 语音降噪方法及装置 |
CN110120230A (zh) * | 2019-01-08 | 2019-08-13 | 国家计算机网络与信息安全管理中心 | 一种声学事件检测方法及装置 |
WO2020238681A1 (zh) * | 2019-05-31 | 2020-12-03 | 京东数字科技控股有限公司 | 音频处理方法、装置和人机交互系统 |
CN113345399A (zh) * | 2021-04-30 | 2021-09-03 | 桂林理工大学 | 一种强噪声环境下的机器设备声音监测方法 |
CN114790991A (zh) * | 2022-04-14 | 2022-07-26 | 国家电投集团电站运营技术(北京)有限公司 | 给水泵汽蚀检测系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100869387B1 (ko) * | 2007-02-21 | 2008-11-19 | 인하대학교 산학협력단 | 서포트 벡터머신을 이용한 음성신호에 기초한 성별 인식방법 |
CN101548313A (zh) * | 2006-11-16 | 2009-09-30 | 国际商业机器公司 | 话音活动检测系统和方法 |
CN103714818A (zh) * | 2013-12-12 | 2014-04-09 | 清华大学 | 基于噪声屏蔽核的说话人识别方法 |
CN104269180A (zh) * | 2014-09-29 | 2015-01-07 | 华南理工大学 | 一种用于语音质量客观评价的准干净语音构造方法 |
CN105654944A (zh) * | 2015-12-30 | 2016-06-08 | 中国科学院自动化研究所 | 一种融合了短时与长时特征建模的环境声识别方法及装置 |
CN105957520A (zh) * | 2016-07-04 | 2016-09-21 | 北京邮电大学 | 一种适用于回声消除系统的语音状态检测方法 |
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101548313A (zh) * | 2006-11-16 | 2009-09-30 | 国际商业机器公司 | 话音活动检测系统和方法 |
KR100869387B1 (ko) * | 2007-02-21 | 2008-11-19 | 인하대학교 산학협력단 | 서포트 벡터머신을 이용한 음성신호에 기초한 성별 인식방법 |
CN103714818A (zh) * | 2013-12-12 | 2014-04-09 | 清华大学 | 基于噪声屏蔽核的说话人识别方法 |
CN104269180A (zh) * | 2014-09-29 | 2015-01-07 | 华南理工大学 | 一种用于语音质量客观评价的准干净语音构造方法 |
CN105654944A (zh) * | 2015-12-30 | 2016-06-08 | 中国科学院自动化研究所 | 一种融合了短时与长时特征建模的环境声识别方法及装置 |
CN105957520A (zh) * | 2016-07-04 | 2016-09-21 | 北京邮电大学 | 一种适用于回声消除系统的语音状态检测方法 |
Non-Patent Citations (4)
Title |
---|
ZHENYU XIONG ETC.: "Combining selection tree with observation reordering pruning for efficient speaker identification using GMM-UBM", 《PROCEEDINGS.(ICASSP’05).IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》 * |
侯雪梅: "一种SVM多类分类算法用于抗噪语音识别", 《西安邮电学院学报》 * |
张彩红 等: "基于GMM-UBM的说话人确认系统的研究", 《心智与计算》 * |
霍春宝 等: "基于GMM-UBM的说话人确认系统的研究", 《辽宁工业大学学报(自然科学版)》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107592169A (zh) * | 2017-10-25 | 2018-01-16 | 成都西井科技有限公司 | 适用于长距离的通信故障分析系统 |
CN108492820A (zh) * | 2018-03-20 | 2018-09-04 | 华南理工大学 | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 |
CN108492820B (zh) * | 2018-03-20 | 2021-08-10 | 华南理工大学 | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 |
CN109473123A (zh) * | 2018-12-05 | 2019-03-15 | 百度在线网络技术(北京)有限公司 | 语音活动检测方法及装置 |
US11127416B2 (en) | 2018-12-05 | 2021-09-21 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for voice activity detection |
CN109584895A (zh) * | 2018-12-24 | 2019-04-05 | 龙马智芯(珠海横琴)科技有限公司 | 语音降噪方法及装置 |
CN109584895B (zh) * | 2018-12-24 | 2019-10-25 | 龙马智芯(珠海横琴)科技有限公司 | 语音降噪方法及装置 |
CN110120230A (zh) * | 2019-01-08 | 2019-08-13 | 国家计算机网络与信息安全管理中心 | 一种声学事件检测方法及装置 |
CN110120230B (zh) * | 2019-01-08 | 2021-06-01 | 国家计算机网络与信息安全管理中心 | 一种声学事件检测方法及装置 |
WO2020238681A1 (zh) * | 2019-05-31 | 2020-12-03 | 京东数字科技控股有限公司 | 音频处理方法、装置和人机交互系统 |
CN113345399A (zh) * | 2021-04-30 | 2021-09-03 | 桂林理工大学 | 一种强噪声环境下的机器设备声音监测方法 |
CN114790991A (zh) * | 2022-04-14 | 2022-07-26 | 国家电投集团电站运营技术(北京)有限公司 | 给水泵汽蚀检测系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104732978B (zh) | 基于联合深度学习的文本相关的说话人识别方法 | |
Ittichaichareon et al. | Speech recognition using MFCC | |
Zhao et al. | CASA-based robust speaker identification | |
Zhang et al. | Boosting contextual information for deep neural network based voice activity detection | |
Koizumi et al. | DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements | |
CN110017991A (zh) | 基于谱峭度和神经网络的滚动轴承故障分类方法及系统 | |
US8301578B2 (en) | System and method for tagging signals of interest in time variant data | |
US20220208198A1 (en) | Combined learning method and apparatus using deepening neural network based feature enhancement and modified loss function for speaker recognition robust to noisy environments | |
CN103221996A (zh) | 用于验证说话人的口令建模的设备和方法、以及说话人验证系统 | |
CN102024455A (zh) | 说话人识别系统及其方法 | |
CN102201237B (zh) | 基于模糊支持向量机的可靠性检测的情感说话人识别方法 | |
Daza-Santacoloma et al. | Dynamic feature extraction: an application to voice pathology detection | |
CN103985381A (zh) | 一种基于参数融合优化决策的音频索引方法 | |
CN109300479A (zh) | 一种回放语音的声纹识别方法、装置及存储介质 | |
CN105843931A (zh) | 一种进行分类的方法和装置 | |
Sharma et al. | Analysis of the Hilbert spectrum for text-dependent speaker verification | |
Sharma et al. | A modified MFCC feature extraction technique for robust speaker recognition | |
Dash et al. | Investigation on the effect of the input features in the noise level classification of noisy speech | |
Bashiri et al. | Infant crying classification by using genetic algorithm and artificial neural network | |
Khadem-hosseini et al. | Error correction in pitch detection using a deep learning based classification | |
Lee | A two-stage approach using Gaussian mixture models and higher-order statistics for a classification of normal and pathological voices | |
Pitsikalis et al. | Nonlinear analysis of speech signals: generalized dimensions and lyapunov exponents. | |
CN106448661A (zh) | 基于纯净语音与背景噪声两极建模的音频类型检测方法 | |
JP2020126227A (ja) | 信号処理方法及び情報処理装置 | |
Matoušek et al. | A comparison of convolutional neural networks for glottal closure instant detection from raw speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |