CN103839544A - 语音激活检测方法和装置 - Google Patents

语音激活检测方法和装置 Download PDF

Info

Publication number
CN103839544A
CN103839544A CN201210488703.4A CN201210488703A CN103839544A CN 103839544 A CN103839544 A CN 103839544A CN 201210488703 A CN201210488703 A CN 201210488703A CN 103839544 A CN103839544 A CN 103839544A
Authority
CN
China
Prior art keywords
unharmonic
thr
dull
frequency
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210488703.4A
Other languages
English (en)
Other versions
CN103839544B (zh
Inventor
吴晟
林福辉
徐晶明
蒋斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN201210488703.4A priority Critical patent/CN103839544B/zh
Publication of CN103839544A publication Critical patent/CN103839544A/zh
Application granted granted Critical
Publication of CN103839544B publication Critical patent/CN103839544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明公开一种语音激活检测方法和装置。其中在语音激活检测方法中,检测音频信号中的单调分量,并将单调分量放置在单调分量集合中;计算单调分量集合中连续谐波片段的和谐性判据;将最大的和谐性判据作为检测判据,若检测判据大于判别阈值,则判断所述音频信号为语音信号。通过检测音频信号中的连续谐音片段,并估计各个连续谐音片段的和谐性,利用和谐性的判据判断是否存在语音信号,从而提高了语音激活检测在非平稳噪声环境下的准确率和鲁棒性。

Description

语音激活检测方法和装置
技术领域
本发明涉及通信领域,特别是涉及一种语音激活检测方法和装置。
背景技术
语音激活检测(Voice Active Detection,简称:VAD)是数字语音处理技术的基础,它提供对一段音频信号中是否有语音信号存在的判断。语音激活检测广泛应用于语音编码,语音增强和去噪,语音识别等领域中,例如,在语音编码中,可以对有语音的片段进行有效的语音编码,对无语音的片段进行静音编码或舒适性噪声编码,从而提高编码的效率;对于语音增强和去噪,语音激活检测使得语音间隙的噪声估计和语音片段的信噪比估计成为可能;良好的语音激活检测则能极大提高语音识别的准确率。
尽管语音激活检测如此基础和重要,其实现算法也多种多样,但其准确率,鲁棒性和实时性,依旧是极难解决的问题。语音激活检测的准确率,极度依赖于信号中噪声的强度和类型,当信噪比较低,噪声非平稳时,判断准确率不可避免地降低。如果增加提供给语音激活检测算法的信息,即延长判断的时间间隔,可以一定程度提高准确率和鲁棒性,但是这又降低了判断的时间分辨率,增加了判断延迟,进一步降低了算法实时性,这将阻碍语音激活检测在一些在线的或实时的语音处理应用中发挥作用。
现有语音激活检测的实现算法,包括基于能量/信噪比阈值的算法和基于频域特征的算法。基于能量/信噪比阈值的算法,有时域短时能量/信噪比判别和子带域短时能量/信噪比判别,这类算法通过设置能量/信噪比的单门限或双门限进行激活判断。基于频域特征的算法检测频谱的不平滑特征,典型的有信号熵检测和利用Mel倒谱系数的模式分类。上述算法都未能充分利用语音信号的特征,其在噪声环境下的鲁棒性并不足够高。
发明内容
本发明要解决的技术问题是提供一种语音激活检测方法和装置。通过音频信号的单调分量集合中连续谐波片段的和谐性判据来判断音频信号是否为语音信号,能够提高语音激活检测在非平稳噪声环境下的准确性和鲁棒性。
根据本发明的一个方面,提供一种语音激活检测方法,包括:
检测音频信号中的单调分量,并将单调分量放置在单调分量集合中;
计算单调分量集合中连续谐波片段的和谐性判据;
将最大的和谐性判据作为检测判据,若检测判据大于判别阈值,则判断所述音频信号为语音信号。
优选的,检测音频信号中的单调分量,并将单调分量放置在单调分量集合中的步骤包括:
针对音频信号中的每一个频谱幅值XA[k],若XA[k]同时大于XA[k-1]和XA[k+1],则将XA[k]作为单调分量,其中k为频谱序号索引;
将单调分量放置在单调分量集合中。
优选的,若XA[k]同时大于XA[k-1]和XA[k+1],进一步判断XA[k]是否大于幅度阈值;
若XA[k]大于幅度阈值,则执行将XA[k]作为单调分量的步骤。
优选的,与XA[k]相对应的幅度阈值为本底幅度曲线值XS[k],其中
X S [ k ] = log { Σ l = 0 l = 2 L h X A [ k - L h + l ] h ( l ) } ,
或者,
X S [ k ] = Σ l = 0 l = 2 L h X LA [ k - L h + l ] h ( l ) , X LA [ k ] = log ( X A [ k ] ) ,
其中h是包括2Lh+1个加权平滑因子的集合,在k<0及k>N/2时XS[k]=0,N为用于进行频谱分析获得音频信号频谱的窗函数长度;
或者,
XS[0]=XA[0]
X S [ k ] = &lambda; 1 X S [ k - 1 ] + ( 1 - &lambda; 1 ) X A [ k ] , X S [ k - 1 ] > X A [ k ] &lambda; 2 X S [ k - 1 ] + ( 1 - &lambda; 2 ) X A [ k ] , X S [ k - 1 ] &le; X A [ k ] , k = 1,2,3 , . . . , N / 2 ,
或者,
XS[N/2]=XA[N/2]
X S [ k ] = &lambda; 1 X S [ k + 1 ] + ( 1 - &lambda; 1 ) X A [ k ] , X S [ k + 1 ] > X A [ k ] &lambda; 2 X S [ k + 1 ] + ( 1 - &lambda; 2 ) X A [ k ] , X S [ k + 1 ] &le; X A [ k ] , k = N / 2 - 1 , N / 2 - 2 , . . . , 0 ,
其中0<λ12<1。
优选的,频谱序号索引k的取值范围为大于索引下限int[flowN/fs],小于索引上限int[fhighN/fs],其中函数int[]表示向下舍入取整函数,N为用于进行频谱分析获得音频信号频谱的窗函数长度,fs为音频信号的采样频率,flow为频率下限,fhigh为频率上限。
优选的,计算单调分量集合中连续谐波片段的和谐性判据的步骤包括:
对于单调分量集合中的包括L个单调分量的子集合{XA[ci]},i=1,2,…,L,c1<c2<…<cL,XA[ci]对应的频率为Tf[ci],其中Tf[c1]<Tf[c2]<…<Tf[cL],若满足
Tf[c1]=m(f0+Δfc1)
Tf[c2]=(m+1)(f0+Δfc2),
·
·
·
Tf[cL]=(m+L-1)(f0+ΔfcL)
其中m≥0,同时非和谐因子Funharmonic满足
F unharmonic = max ( | &Delta; f c 1 | f 0 , | &Delta; f c 2 | f 0 , . . . , | &Delta; f cL | f 0 ) < F unharmonic _ Thr ,
则判断所述子集合为连续谐波片段,其中f0为候选基频,Funharmonic_Thr为非和谐因子阈值,Δfc1,Δfc2,…,ΔfcL为子集合中各单调分量的频率偏差;
计算所述连续谐波片段的和谐性判据Fweight,Fweight
F weight = T w [ c 1 ] + T w [ c 2 ] + . . . + T w [ c L ] L ,
其中Tw[ci]是XA[ci]的判决权重。
优选的,在计算所述连续谐波片段的和谐性判据Fweight之后,还包括:
对和谐性判据Fweight进行加权处理,以得到更新后的和谐性判据Fweight_new
Fweight_new=FweightHunharmonic[Funharmonic]hL
其中hL是固定的权重,Hunharmonic[x]是映射函数,如果x=Funharmonic_Thr,则Hunharmonic[x]=Hthr;如果x=0,则Hunharmonic[x]=H0,则Hunharmonic[x]在0≤x≤Funharmonic_Thr的范围内连续变动。
优选的,
H unharmonic [ x ] = ( F unharmonic _ Thr - x F unharmonic _ Thr ) 2 ( H 0 - H thr ) + H thr .
优选的,候选基频f0的选择范围为[f0_min,f0_max],
f0_min=min(fd,fd_c1,fd_c2,…,fd_cL)
f0_max=max(fd,fd_c1,fd_c2,…,fd_cL)
f d = T f [ c L ] - T f [ c 1 ] L - 1 , f d _ cl = T f [ c l ] int [ T f [ c l ] / f d + 0.5 ] , l = 1,2 , . . . , L .
优选的,在[f0_min,f0_max]中,选择候选基频f0使得max(|Δfc1|,|Δfc2|,…,|ΔfcL|)最小。
优选的,XA[ci]的判决权重Tw[ci]为对数频谱幅值XLA[ci],其中XLA[ci]=log(XA[ci])。
优选的,XA[ci]的判决权重Tw[ci]为单调分量XA[ci]对应的完整峰体范围内对数频谱幅值曲线XLA高于当前音频信号本底幅度曲线XS部分的和;
其中,所述完整峰体范围对应的索引边界为:
从ci逐一递减,将满足XLA[ks-1]<XLA[ks]且XLA[ks]>XLA[ks+1]或XLA[ks]<XS[ks]的第一个索引ks作为所述完整峰体范围的索引下边界;
从ci逐一递增,将满足XLA[ke-1]<XLA[ke]且XLA[ke]>XLA[ke+1]或XLA[ke]<XS[ke]的第一个索引ke作为所述完整峰体范围的索引上边界。
优选的,单调分量XA[k]对应的频率Tf[k]为kfs/N,其中N为用于进行频谱分析获得音频信号频谱的窗函数长度,fs为音频信号的采样频率。
优选的,单调分量XA[k]对应的频率Tf[k]为kffs/N,其中,
k f = k + X A [ k - 1 ] - X A [ k + 1 ] X A [ k - 1 ] + X A [ k + 1 ] - 2 X A [ k ] ,
其中N为用于进行频谱分析获得音频信号频谱的窗函数长度,fs为音频信号的采样频率。
优选的,单调分量XA[k]对应的频率Tf[k]为kffs/N,其中,
若XA[k-1]<XA[k+1],则
k f = k + 1 2 - 1 2 X A [ k ] - X A [ k + 1 ] X A [ k ] - X A [ k - 1 ] ,
若XA[k-1]>XA[k+1],则
k f = k - 1 2 + 1 2 X A [ k ] - X A [ k - 1 ] X A [ k ] - X A [ k + 1 ] ,
其中N为用于进行频谱分析获得音频信号频谱的窗函数长度,fs为音频信号的采样频率。
优选的,判别阈值Jvad_thr
Jvad_thr=αJvad_speech
其中α为判决参数,Jvad_speech为针对无噪声语音信号逐帧计算出的和谐性判据的平均值。
根据本发明的另一方面,提供一种语音激活检测装置,包括:
单调分量检测单元,用于检测音频信号中的单调分量,并将单调分量放置在单调分量集合中;
和谐性判据计算单元,用于计算单调分量集合中连续谐波片段的和谐性判据;
语音信号检测单元,用于将最大的和谐性判据作为检测判据,若检测判据大于判别阈值,则判断所述音频信号为语音信号。
优选的,单调分量检测单元具体针对音频信号中的每一个频谱幅值XA[k],若XA[k]同时大于XA[k-1]和XA[k+1],则将XA[k]作为单调分量,其中k为频谱序号索引;并将单调分量放置在单调分量集合中。
优选的,单调分量检测单元还用于在XA[k]同时大于XA[k-1]和XA[k+1]时,进一步判断XA[k]是否大于幅度阈值,若XA[k]大于幅度阈值,则执行将XA[k]作为单调分量的操作。
优选的,频谱序号索引k的取值范围为大于索引下限int[flowN/fs],小于索引上限int[fhighN/fs],其中函数int[]表示向下舍入取整函数,N为用于进行频谱分析获得音频信号频谱的窗函数长度,fs为音频信号的采样频率,flow为频率下限,fhigh为频率上限。
优选的,和谐性判据计算单元包括识别模块和判据计算模块,其中:
识别模块,用于对于单调分量集合中的包括L个单调分量的子集合{XA[ci]},i=1,2,…,L,c1<c2<…<cL,XA[ci]对应的频率为Tf[ci],其中Tf[c1]<Tf[c2]<…<Tf[cL],若满足
Tf[c1]=m(f0+Δfc1)
Tf[c2]=(m+1)(f0+Δfc2),
·
·
·
Tf[cL]=(m+L-1)(f0+ΔfcL)
其中m≥0,同时非和谐因子Funharmonic满足
F unharmonic = max ( | &Delta; f c 1 | f 0 , | &Delta; f c 2 | f 0 , . . . , | &Delta; f cL | f 0 ) < F unharmonic _ Thr ,
则判断所述子集合为连续谐波片段,其中f0为候选基频,Funharmonic_Thr为非和谐因子阈值,Δfc1,Δfc2,…,ΔfcL为子集合中各单调分量的频率偏差;
判据计算模块,用于计算所述连续谐波片段的和谐性判据Fweight,Fweight
F weight = T w [ c 1 ] + T w [ c 2 ] + . . . + T w [ c L ] L ,
其中Tw[ci]是XA[ci]的判决权重。
优选的,和谐性判据计算单元还包括加权模块,用于在判据计算模块计算所述连续谐波片段的和谐性判据Fweight之后,对和谐性判据Fweight进行加权处理,以得到更新后的和谐性判据Fweight_new
Fweight_new=FweightHunharmonic[Funharmonic]hL
其中hL是固定的权重,Hunharmonic[x]是映射函数,如果x=Funharmonic_Thr,则Hunharmonic[x]=Hthr;如果x=0,则Hunharmonic[x]=H0,则Hunharmonic[x]在0≤x≤Funharmonic_Thr的范围内连续变动。
优选的,
H unharmonic [ x ] = ( F unharmonic _ Thr - x F unharmonic _ Thr ) 2 ( H 0 - H thr ) + H thr .
优选的,候选基频f0的选择范围为[f0_min,f0_max],
f0_min=min(fd,fd_c1,fd_c2,…,fd_cL)
f0_max=max(fd,fd_c1,fd_c2,…,fd_cL)
f d = T f [ c L ] - T f [ c 1 ] L - 1 , f d _ cl = T f [ c l ] int [ T f [ c l ] / f d + 0.5 ] , l = 1,2 , . . . , L .
优选的,XA[ci]的判决权重Tw[ci]为对数频谱幅值XLA[ci],其中XLA[ci]=log(XA[ci])。
优选的,XA[ci]的判决权重Tw[ci]为单调分量XA[ci]对应的完整峰体范围内对数频谱幅值曲线XLA高于当前音频信号本底幅度曲线XS部分的和;
其中,所述完整峰体范围对应的索引边界为:
从ci逐一递减,将满足XLA[ks-1]<XLA[ks]且XLA[ks]>XLA[ks+1]或XLA[ks]<XS[ks]的第一个索引ks作为所述完整峰体范围的索引下边界;
从ci逐一递增,将满足XLA[ke-1]<XLA[ke]且XLA[ke]>XLA[ke+1]或XLA[ke]<XS[ke]的第一个索引ke作为所述完整峰体范围的索引上边界。
优选的,判别阈值Jvad_thr
Jvad_thr=αJvad_speech
其中α为判决参数,Jad_speech为针对无噪声语音信号逐帧计算出的和谐性判据的平均值。
从语音的频域分析可以得知,语音由基音和一系列频率接近基音整数倍的谐音组成,语音信号的能量在数个连续谐音处达到最大。如果一段音频信号里发现有谐波特征,且谐波的基频频率在语音基频范围内,那么这段信号为语音信号的几率将非常大。这里的谐波特征可以是包括基频,一次谐波,二次谐波等在内的完整谐波系列,也可以是仅包含2次谐波和3次谐波这样的谐波系列片段。通过谐波特征判断语音信号的出现与否,对输入信号的质量要求较低,具备了一定抗各类噪声的能力,它的判断准确率要高于传统的语音激活判别算法。
本发明通过检测音频信号中的连续谐音片段,并估计各个连续谐音片段的和谐性,利用和谐性的判据判断是否存在语音信号,这种方法提高了语音激活检测在非平稳噪声环境下的准确率和鲁棒性。
附图说明
图1为本发明语音激活检测方法一个实施例的示意图。
图2为本发明计算和谐性判据一个实施例的示意图。
图3为本发明计算和谐性判据另一实施例的示意图。
图4为本发明等腰三角形匹配一个实施例的示意图。
图5a-图5c为本发明对纯净语音进行检测的结果示意图。
图6a-图6c为本发明对含机械噪声的语音进行检测的结果示意图。
图7为本发明语音激活检测装置一个实施例的示意图。
图8为本发明和谐性判据计算单元一个实施例的示意图。
图9为本发明和谐性判据计算单元另一实施例的示意图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。
图1为本发明语音激活检测方法一个实施例的示意图。如图1所示,本实施例的语音激活检测方法步骤如下:
步骤101,检测音频信号中的单调分量,并将单调分量放置在单调分量集合中。
步骤102,计算单调分量集合中连续谐波片段的和谐性判据。
步骤103,将最大的和谐性判据作为检测判据,若检测判据大于判别阈值,则判断所述音频信号为语音信号。
基于本发明上述实施例提供的语音激活检测方法,通过检测音频信号中的连续谐音片段,并估计各个连续谐音片段的和谐性,利用和谐性的判据判断是否存在语音信号,从而提高了语音激活检测在非平稳噪声环境下的准确率和鲁棒性。
优选的,在上述步骤101中,具体采用以下方式检测音频信号的单调分量。
针对音频信号中的每一个频谱幅值XA[k],若XA[k]同时大于XA[k-1]和XA[k+1],则将XA[k]作为单调分量,其中k为频谱序号索引。然后将单调分量放置在单调分量集合中。
优选的,若XA[k]同时大于XA[k-1]和XA[k+1],还需要进一步判断XA[k]是否大于幅度阈值。若XA[k]大于幅度阈值,则将XA[k]作为单调分量;否则,不将XA[k]作为单调分量。
这是由于,仅仅检测频谱幅度XA中的峰值,会带来大量的伪单调分量,这些伪单调分量实际相对频谱本底能量并没有特别突出,或本身就是频谱的一些波动,它们的存在不但会极大增加后续谐波检测的计算量,而且还会降低检测的准确率。通过设置单调分量的幅度阈值可以有效排除这些伪单调分量。
优选的,可通过计算当前音频信号本底幅度曲线,将本底幅度曲线XS以上的峰值作为更加可靠的单调分量。
其中,与XA[k]相对应的幅度阈值为本底幅度曲线值XS[k],
X S [ k ] = log { &Sigma; l = 0 l = 2 L h X A [ k - L h + l ] h ( l ) } ,
或者,
X S [ k ] = &Sigma; l = 0 l = 2 L h X LA [ k - L h + l ] h ( l ) , X LA [ k ] = log ( X A [ k ] ) ,
其中h是包括2Lh+1个加权平滑因子的集合,一般选择使用2Lh+1点的低通FIR(Finite Impulse Response,有限冲击响应)滤波器,对数计算log的底数应当统一,例如统一为log2或loge,在k<0及k>N/2时XS[k]=0,N为用于进行频谱分析获得音频信号频谱的窗函数长度;
或者,本底幅度曲线值XS[k]还可以表示为:
XS[0]=XA[0]
X S [ k ] = &lambda; 1 X S [ k - 1 ] + ( 1 - &lambda; 1 ) X A [ k ] , X S [ k - 1 ] > X A [ k ] &lambda; 2 X S [ k - 1 ] + ( 1 - &lambda; 2 ) X A [ k ] , X S [ k - 1 ] &le; X A [ k ] , k = 1,2,3 , . . . , N / 2 ,
或者,
XS[N/2]=XA[N/2]
X S [ k ] = &lambda; 1 X S [ k + 1 ] + ( 1 - &lambda; 1 ) X A [ k ] , X S [ k + 1 ] > X A [ k ] &lambda; 2 X S [ k + 1 ] + ( 1 - &lambda; 2 ) X A [ k ] , X S [ k + 1 ] &le; X A [ k ] , k = N / 2 - 1 , N / 2 - 2 , . . . , 0 ,
其中0<λ12<1。
优选的,λ1=0.5,λ2=0.95。
单调分量的检测可以对全部频带进行,优选地检测集中语音主要能量的频率范围。因此,可以将频谱序号索引k的取值范围设定为大于索引下限int[flowN/fs],同时小于索引上限int[fhighN/fs],其中函数int[]表示向下舍入取整函数,N为用于进行频谱分析获得音频信号频谱的窗函数长度,fs为语音信号的采样频率,flow为频率下限,fhigh为频率上限。
优选的,频率下限flow的取值范围是40-90Hz,频率上限fhigh的取值范围是1200-2000Hz。作为一种优选实施例,频率下限flow的取值是45Hz,频率上限fhigh的取值是1800Hz。
图2为本发明计算和谐性判据一个实施例的示意图。如图2所示,上述步骤102可具体包括以下步骤:
步骤201,识别单调分量集合中的连续谐波片段。
对于单调分量集合中的包括L个单调分量的子集合{XA[ci]},i=1,2,…,L,c1<c2<…<cL,XA[ci]对应的频率为Tf[ci],其中Tf[c1]<Tf[c2]<…<Tf[cL],若满足
Tf[c1]=m(f0+Δfc1)
Tf[c2]=(m+1)(f0+Δfc2),
·
·
·
Tf[cL]=(m+L-1)(f0+ΔfcL)
其中m≥0,同时非和谐因子Funharmonic满足
F unharmonic = max ( | &Delta; f c 1 | f 0 , | &Delta; f c 2 | f 0 , . . . , | &Delta; f cL | f 0 ) < F unharmonic _ Thr ,
则判断所述子集合为连续谐波片段,其中f0为候选基频,Funharmonic_Thr为非和谐因子阈值,Δfc1,Δfc2,…,ΔfcL为子集合中各单调分量的频率偏差。
非和谐因子阈值Funharmonic_Thr的取值范围可以为[0.02,0.2],优选值为0.1。
步骤202,计算所述连续谐波片段的和谐性判据Fweight,Fweight
F weight = T w [ c 1 ] + T w [ c 2 ] + . . . + T w [ c L ] L ,
其中Tw[ci]是XA[ci]的判决权重。
图3为本发明计算和谐性判据另一实施例的示意图。与图2所示实施例相比,在图3所示实施例中,进一步对和谐性判据进行加权处理。
步骤301,识别单调分量集合中的连续谐波片段。
步骤302,计算所述连续谐波片段的和谐性判据Fweight
步骤303,对和谐性判据Fweight进行加权处理,以得到更新后的和谐性判据Fweight_new
Fweight_new=FweightHunharmonic[Funharmonic]hL
其中hL是固定的权重,L=2,3,…,考虑到更多次的连续谐波片段代表更强的语音特征,要求hL<hL+1,可以令h2=1,hL+1=rLhL,1<rL<3,rL的典型值一般设为略大于L/(L-1)的值。
Hunharmonic[x]是映射函数,考虑到非和谐因子越大,语音特征越弱,因此需要利用非和谐因子来调整判决权重。映射函数Hunharmonic[x]的原则是,如果x=Funharmonic_Thr,即刚好满足阈值,则Hunharmonic[x]=Hthr;如果x=0,即完全和谐,则Hunharmonic[x]=H0,H0>Hthr。优选的,H0为1,Hthr为0.1。
Hunharmonic[x]在0≤x≤Funharmonic_Thr的范围内连续变动,优选的,
H unharmonic [ x ] = ( F unharmonic _ Thr - x F unharmonic _ Thr ) 2 ( H 0 - H thr ) + H thr .
优选的,候选基频f0的选择范围为[f0_min,f0_max],
f0_min=min(fd,fd_c1,fd_c2,…,fd_cL)
f0_max=max(fd,fd_c1,fd_c2,…,fd_cL)
f d = T f [ c L ] - T f [ c 1 ] L - 1 , f d _ cl = T f [ c l ] int [ T f [ c l ] / f d + 0.5 ] , l = 1,2 , . . . , L .
优选的,在[f0_min,f0_max]中,选择候选基频f0使得max(|Δfc1|,|Δfc2|,…,|ΔfcL|)最小。
优选地,可以仅考虑候选基频频率在人类语音的最常见基音频率范围内的连续谐波片段,fspeech_low和fspeech_high对应着人类语音的最常见基音频率范围,50Hz<fspeech_low<100Hz,400Hz<fspeech_high<800Hz,典型值为fspeech_low=70Hz和fspeech_high=500Hz。
优选的,XA[ci]的判决权重Tw[ci]为对数频谱幅值XLA[ci],其中XLA[ci]=log(XA[ci])。
优选的,XA[ci]的判决权重Tw[ci]为单调分量XA[ci]对应的完整峰体范围内对数频谱幅值曲线XLA高于当前音频信号本底幅度曲线XS部分的和,即近似为该范围内对数频谱幅度曲线XLA高于当前音频信号本底幅度曲线XS部分的面积。
其中,所述完整峰体范围对应的索引边界为:
从ci逐一递减,将满足XLA[ks-1]<XLA[ks]且XLA[ks]>XLA[ks+1]或XLA[ks]<XS[ks]的第一个索引ks作为所述完整峰体范围的索引下边界,两个条件以先到为准。
从ci逐一递增,将满足XLA[ke-1]<XLA[ke]且XLA[ke]>XLA[ke+1]或XLA[ke]<XS[ke]的第一个索引ke作为所述完整峰体范围的索引上边界,两个条件以先到为准。
在上述各实施例中,可通过各种方式计算单调分量XA[k]对应的频率Tf[k],下面给出几个具体实施例。需要说明的是,这几个实施例仅是示例性的,并不用于限定本发明。
实施例一:单调分量XA[k]对应的频率Tf[k]为kfs/N,其中N为用于进行频谱分析获得音频信号频谱的窗函数长度,fs为音频信号的采样频率。这是一种近似表示。
实施例二:单调分量XA[k]对应的频率Tf[k]为kffs/N。这里,kf对应于XA[k-1]、XA[k]和XA[k+1]做二阶多项式拟合求得其最高点。二阶多项式拟合是令二阶多项式曲线ax2+bx+c=y通过三个点{k-1,XA[k-1]},{k,XA[k]},{k+1,XA[k+1]},曲线的最大值将出现在
k f = x = - b 2 a = k + X A [ k - 1 ] - X A [ k + 1 ] X A [ k - 1 ] + X A [ k + 1 ] - 2 X A [ k ] ,
其中N为用于进行频谱分析获得音频信号频谱的窗函数长度,fs为音频信号的采样频率。
可选地,用于二阶多项式拟合的幅度值XA[k-1]、XA[k]和XA[k+1]可以用它们的对数域值log{XA[k-1]}、log{XA[k]}和log{XA[k+1]}代替。
实施例三:单调分量XA[k]对应的频率Tf[k]为kffs/N。这里,kf对应于利用XA[k-1]、XA[k]和XA[k+1]做等腰三角形匹配求得的最高点。
等腰三角形匹配是令三个点{k-1,XA[k-1]}、{k,XA[k]}、{k+1,XA[k+1]}在等腰三角形对称的两条腰上,等腰三角形的底平行于索引对应的轴。可选地,用于等腰三角形匹配的幅度值XA[k-1]、XA[k]和XA[k+1]可以用它们的对数域值代替。图4为本发明等腰三角形匹配一个实施例的示意图,其中XA[k-1]<XA[k+1]。
若XA[k-1]<XA[k+1],则等腰三角形的顶点出现在
k f = k + 1 2 - 1 2 X A [ k ] - X A [ k + 1 ] X A [ k ] - X A [ k - 1 ] ,
同时,若XA[k-1]>XA[k+1],则等腰三角形的顶点出现在
k f = k - 1 2 + 1 2 X A [ k ] - X A [ k - 1 ] X A [ k ] - X A [ k + 1 ] ,
其中N为用于进行频谱分析获得音频信号频谱的窗函数长度,fs为音频信号的采样频率。
优选的,在步骤103中,将当前音频信号频谱中所有系列谐波片段中最大的和谐性的判据,作为语音激活检测的判据Jvad。如果当前音频信号频谱中没有找到单调分量,或者单调分量中没有找到有效的有谐波系列片段,那么语音激活检测的判据Jvad=0。当判据语音激活检测的判据Jvad大于语音激活检测的判别阈值Jvad_thr时,认为当前音频信号为语音信号,否则为非语音信号。
语音激活检测的判据Jvad,即系列谐波片段的中最大的和谐性的判据,是经过多次对数计算和加权处理的,由于基准设置的自由性,判别阈值需要通过语音训练来获得。
将预先标记出语音时段或语音帧的无噪声语音信号逐帧计算出语音激活检测的判据Jvad,纯语音帧对应的语音激活检测的判据的均值为Jvad_speech,判决阈值Jvad_thr为Jvad_thr=αJvad_speech,0<α<1,α的优选值为1/3。
纯语音帧对应的语音激活检测的判据的均值Jvad_speech,可以通过对纯语音帧对应的语音激活检测的判据求算数均值取得,也可以通过求几何均值取得,也通过求对数域均值取得,优选取对数域均值。
图5a-图5c为本发明对纯净语音进行检测的结果示意图。其中音频信号采样频率为8000Hz,16位采样,频谱分析的块长为256,信号块50%交迭,频谱分析窗函数为汉宁(hanning)窗。图5a是音频信号的波形和Jvad曲线,图5b是VAD判决结果,图5c是音频信号的光谱图。统计出的纯语音帧Jvad的对数域均值约为5.1(对数计算取log2),便设置对数域的阈值为log2(Jvad_thr)=2.6。
图6a-图6c为本发明对含机械噪声的语音进行检测的结果示意图。其中音频信号采样频率为8000Hz,16位采样,频谱分析的块长256,信号块50%交迭,频谱分析窗函数为汉宁(hanning)窗,其分段信噪比segSNR约为+3dB(即有语音段的平均信噪比)。图6a是音频信号的波形和Jvad曲线,图6b是VAD判决结果,图6c是音频信号的光谱图。根据设置的对数域阈值log2(Jvad_thr)=2.6,本发明能很好的将其中的语音段判别出来。
图7为本发明语音激活检测装置一个实施例的示意图。如图7所示,语音激活检测装置包括单调分量检测单元701、和谐性判据计算单元702和语音信号检测单元703。其中:
单调分量检测单元701,用于检测音频信号中的单调分量,并将单调分量放置在单调分量集合中。
和谐性判据计算单元702,用于计算单调分量集合中连续谐波片段的和谐性判据。
语音信号检测单元703,用于将最大的和谐性判据作为检测判据,若检测判据大于判别阈值,则判断所述音频信号为语音信号。
基于本发明上述实施例提供的语音激活检测装置,通过检测音频信号中的连续谐音片段,并估计各个连续谐音片段的和谐性,利用和谐性的判据判断是否存在语音信号,从而提高了语音激活检测在非平稳噪声环境下的准确率和鲁棒性。
优选的,单调分量检测单元701具体针对音频信号中的每一个频谱幅值XA[k],若XA[k]同时大于XA[k-1]和XA[k+1],则将XA[k]作为单调分量,其中k为频谱序号索引;并将单调分量放置在单调分量集合中。
优选的,单调分量检测单元701还用于在XA[k]同时大于XA[k-1]和XA[k+1]时,进一步判断XA[k]是否大于幅度阈值,若XA[k]大于幅度阈值,则执行将XA[k]作为单调分量的操作。
优选的,频谱序号索引k的取值范围为大于索引下限int[flowN/fs],小于索引上限int[fhighN/fs],其中函数int[]表示向下舍入取整函数,N为用于进行频谱分析获得音频信号频谱的窗函数长度,fs为音频信号的采样频率,flow为频率下限,fhigh为频率上限。
优选的,频率下限flow的取值范围是40-90Hz,频率上限fhigh的取值范围是1200-2000Hz。作为一种优选实施例,频率下限flow的取值是45Hz,频率上限fhigh的取值是1800Hz。
图8为本发明和谐性判据计算单元一个实施例的示意图。如图8所示,和谐性判据计算单元702包括识别模块801和判据计算模块802。其中:
识别模块801,用于对于单调分量集合中的包括L个单调分量的子集合{XA[ci]},i=1,2,…,L,c1<c2<…<cL,XA[ci]对应的频率为Tf[ci],其中Tf[c1]<Tf[c2]<…<Tf[cL],若满足
Tf[c1]=m(f0+Δfc1)
Tf[c2]=(m+1)(f0+Δfc2),
·
·
·
Tf[cL]=(m+L-1)(f0+ΔfcL)
其中m≥0,同时非和谐因子Funharmonic满足
F unharmonic = max ( | &Delta; f c 1 | f 0 , | &Delta; f c 2 | f 0 , . . . , | &Delta; f cL | f 0 ) < F unharmonic _ Thr ,
则判断所述子集合为连续谐波片段,其中f0为候选基频,Funharmonic_Thr为非和谐因子阈值,Δfc1,Δfc2,…,ΔfcL为子集合中各单调分量的频率偏差。
非和谐因子阈值Funharmonic_Thr的取值范围可以为[0.02,0.2],优选值为0.1。
判据计算模块802,用于计算所述连续谐波片段的和谐性判据Fweight,Fweight
F weight = T w [ c 1 ] + T w [ c 2 ] + . . . + T w [ c L ] L ,
其中Tw[ci]是XA[ci]的判决权重。
图9为本发明和谐性判据计算单元另一实施例的示意图。与图8所示实施例相比,在图9所示实施例中,和谐性判据计算单元还包括加权模块901,用于在判据计算模块计算所述连续谐波片段的和谐性判据Fweight之后,对和谐性判据Fweight进行加权处理,以得到更新后的和谐性判据Fweight_new
Fweight_new=FweightHunharmonic[Funharmonic]hL
其中hL是固定的权重,Hunharmonic[x]是映射函数,如果x=Funharmonic_Thr,则Hunharmonic[x]=Hthr;如果x=0,则Hunharmonic[x]=H0,则Hunharmonic[x]在0≤x≤Funharmonic_Thr的范围内连续变动。H0>Hthr,优选的,H0为1,Hthr为0.1。
优选的,
H unharmonic [ x ] = ( F unharmonic _ Thr - x F unharmonic _ Thr ) 2 ( H 0 - H thr ) + H thr .
优选的,候选基频f0的选择范围为[f0_min,f0_max],
f0_min=min(fd,fd_c1,fd_c2,…,fd_cL)
f0_max=max(fd,fd_c1,fd_c2,…,fd_cL)
f d = T f [ c L ] - T f [ c 1 ] L - 1 , f d _ cl = T f [ c l ] int [ T f [ c l ] / f d + 0.5 ] , l = 1,2 , . . . , L .
优选的,XA[ci]的判决权重Tw[ci]为对数频谱幅值XLA[ci],其中XLA[ci]=log(XA[ci])。
优选的,XA[ci]的判决权重Tw[ci]为单调分量XA[ci]对应的完整峰体范围内对数频谱幅值曲线XLA高于当前音频信号本底幅度曲线XS部分的和。
其中,所述完整峰体范围对应的索引边界为:
从ci逐一递减,将满足XLA[ks-1]<XLA[ks]且XLA[ks]>XLA[ks+1]或XLA[ks]<XS[ks]的第一个索引ks作为所述完整峰体范围的索引下边界;
从ci逐一递增,将满足XLA[ke-1]<XLA[ke]且XLA[ke]>XLA[ke+1]或XLA[ke]<XS[ke]的第一个索引ke作为所述完整峰体范围的索引上边界。
优选的,判别阈值Jvad_thr
Jvad_thr=αJvad_speech
其中α为判决参数,Jvad_speech为针对无噪声语音信号逐帧计算出的和谐性判据的平均值。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (27)

1.一种语音激活检测方法,其特征在于,包括:
检测音频信号中的单调分量,并将单调分量放置在单调分量集合中;
计算单调分量集合中连续谐波片段的和谐性判据;
将最大的和谐性判据作为检测判据,若检测判据大于判别阈值,则判断所述音频信号为语音信号。
2.根据权利要求1所述的方法,其特征在于:
检测音频信号中的单调分量,并将单调分量放置在单调分量集合中的步骤包括:
针对音频信号中的每一个频谱幅值XA[k],若XA[k]同时大于XA[k-1]和XA[k+1],则将XA[k]作为单调分量,其中k为频谱序号索引;
将单调分量放置在单调分量集合中。
3.根据权利要求2所述的方法,其特征在于:
若XA[k]同时大于XA[k-1]和XA[k+1],进一步判断XA[k]是否大于幅度阈值;
若XA[k]大于幅度阈值,则执行将XA[k]作为单调分量的步骤。
4.根据权利要求3所述的方法,其特征在于:
与XA[k]相对应的幅度阈值为本底幅度曲线值XS[k],其中
X S [ k ] = log { &Sigma; l = 0 l = 2 L h X A [ k - L h + l ] h ( l ) } ,
或者,
X S [ k ] = &Sigma; l = 0 l = 2 L h X LA [ k - L h + l ] h ( l ) , X LA [ k ] = log ( X A [ k ] ) ,
其中h是包括2Lh+1个加权平滑因子的集合,在k<0及k>N/2时XS[k]=0,N为用于进行频谱分析获得音频信号频谱的窗函数长度;
或者,
XS[0]=XA[0]
X S [ k ] = &lambda; 1 X S [ k - 1 ] + ( 1 - &lambda; 1 ) X A [ k ] , X S [ k - 1 ] > X A [ k ] &lambda; 2 X S [ k - 1 ] + ( 1 - &lambda; 2 ) X A [ k ] , X S [ k - 1 ] &le; X A [ k ] , k = 1,2,3 , . . . , N / 2 ,
或者,
XS[N/2]=XA[N/2]
X S [ k ] = &lambda; 1 X S [ k + 1 ] + ( 1 - &lambda; 1 ) X A [ k ] , X S [ k + 1 ] > X A [ k ] &lambda; 2 X S [ k + 1 ] + ( 1 - &lambda; 2 ) X A [ k ] , X S [ k + 1 ] &le; X A [ k ] , k = N / 2 - 1 , N / 2 - 2 , . . . , 0 ,
其中0<λ12<1。
5.根据权利要求2-4中任一项所述的方法,其特征在于:
频谱序号索引k的取值范围为大于索引下限int[flowN/fs],小于索引上限int[fhighN/fs],其中函数int[]表示向下舍入取整函数,N为用于进行频谱分析获得音频信号频谱的窗函数长度,fs为音频信号的采样频率,flow为频率下限,fhigh为频率上限。
6.根据权利要求1所述的方法,其特征在于:
计算单调分量集合中连续谐波片段的和谐性判据的步骤包括:
对于单调分量集合中的包括L个单调分量的子集合{XA[ci]},i=1,2,…,L,c1<c2<…<cL,XA[ci]对应的频率为Tf[ci],其中Tf[c1]<Tf[c2]<…<Tf[cL],若满足
Tf[c1]=m(f0+Δfc1)
Tf[c2]=(m+1)(f0+Δfc2),
·
·
·
Tf[cL]=(m+L-1)(f0+ΔfcL)
其中m≥0,同时非和谐因子Funharmonic满足
F unharmonic = max ( | &Delta; f c 1 | f 0 , | &Delta; f c 2 | f 0 , . . . , | &Delta; f cL | f 0 ) < F unharmonic _ Thr ,
则判断所述子集合为连续谐波片段,其中f0为候选基频,Funharmonic_Thr为非和谐因子阈值,Δfc1,Δfc2,…,ΔfcL为子集合中各单调分量的频率偏差;
计算所述连续谐波片段的和谐性判据Fweight,Fweight
F weight = T w [ c 1 ] + T w [ c 2 ] + . . . + T w [ c L ] L ,
其中Tw[ci]是XA[ci]的判决权重。
7.根据权利要求6所述的方法,其特征在于:
在计算所述连续谐波片段的和谐性判据Fweight之后,还包括:
对和谐性判据Fweight进行加权处理,以得到更新后的和谐性判据Fweight_new
Fweight_new=FweightHunharmonic[Funharmonic]hL
其中hL是固定的权重,Hunharmonic[x]是映射函数,如果x=Funharmonic_Thr,则Hunharmonic[x]=Hthr;如果x=0,则Hunharmonic[x]=H0,则Hunharmonic[x]在0≤x≤Funharmonic_Thr的范围内连续变动。
8.根据权利要求7所述的方法,其特征在于:
H unharmonic [ x ] = ( F unharmonic _ Thr - x F unharmonic _ Thr ) 2 ( H 0 - H thr ) + H thr .
9.根据权利要求6-8中任一项所述的方法,其特征在于:
候选基频f0的选择范围为[f0_min,f0_max],
f0_min=min(fd,fd_c1,fd_c2,…,fd_cL)
f0_max=max(fd,fd_c1,fd_c2,…,fd_cL)
f d = T f [ c L ] - T f [ c 1 ] L - 1 , f d _ cl = T f [ c l ] int [ T f [ c l ] / f d + 0.5 ] , l = 1,2 , . . . , L .
10.根据权利要求9所述的方法,其特征在于:
在[f0_min,f0_max]中,选择候选基频f0使得max(|Δfc1|,|Δfc2|,…,|ΔfcL|)最小。
11.根据权利要求6-8中任一项所述的方法,其特征在于:
XA[ci]的判决权重Tw[ci]为对数频谱幅值XLA[ci],其中XLA[ci]=log(XA[ci])。
12.根据权利要求6-8中任一项所述的方法,其特征在于:
XA[ci]的判决权重Tw[ci]为单调分量XA[ci]对应的完整峰体范围内对数频谱幅值曲线XLA高于当前音频信号本底幅度曲线XS部分的和;
其中,所述完整峰体范围对应的索引边界为:
从ci逐一递减,将满足XLA[ks-1]<XLA[ks]且XLA[ks]>XLA[ks+1]或XLA[ks]<XS[ks]的第一个索引ks作为所述完整峰体范围的索引下边界;
从ci逐一递增,将满足XLA[ke-1]<XLA[ke]且XLA[ke]>XLA[ke+1]或XLA[ke]<XS[ke]的第一个索引ke作为所述完整峰体范围的索引上边界。
13.根据权利要求6-8中任一项所述的方法,其特征在于:
单调分量XA[k]对应的频率Tf[k]为kfs/N,其中N为用于进行频谱分析获得音频信号频谱的窗函数长度,fs为音频信号的采样频率。
14.根据权利要求6-8中任一项所述的方法,其特征在于:
单调分量XA[k]对应的频率Tf[k]为kffs/N,其中,
k f = k + X A [ k - 1 ] - X A [ k + 1 ] X A [ k - 1 ] + X A [ k + 1 ] - 2 X A [ k ] ,
其中N为用于进行频谱分析获得音频信号频谱的窗函数长度,fs为音频信号的采样频率。
15.根据权利要求6-8中任一项所述的方法,其特征在于:
单调分量XA[k]对应的频率Tf[k]为kffs/N,其中,
若XA[k-1]<XA[k+1],则
k f = k + 1 2 - 1 2 X A [ k ] - X A [ k + 1 ] X A [ k ] - X A [ k - 1 ] ,
若XA[k-1]>XA[k+1],则
k f = k - 1 2 + 1 2 X A [ k ] - X A [ k - 1 ] X A [ k ] - X A [ k + 1 ] ,
其中N为用于进行频谱分析获得音频信号频谱的窗函数长度,fs为音频信号的采样频率。
16.根据权利要求1所述的方法,其特征在于:
判别阈值Jvad_thr
Jvad_thr=αJvad_speech
其中α为判决参数,Jvad_speech为针对无噪声语音信号逐帧计算出的和谐性判据的平均值。
17.一种语音激活检测装置,其特征在于,包括:
单调分量检测单元,用于检测音频信号中的单调分量,并将单调分量放置在单调分量集合中;
和谐性判据计算单元,用于计算单调分量集合中连续谐波片段的和谐性判据;
语音信号检测单元,用于将最大的和谐性判据作为检测判据,若检测判据大于判别阈值,则判断所述音频信号为语音信号。
18.根据权利要求17所述的装置,其特征在于:
单调分量检测单元具体针对音频信号中的每一个频谱幅值XA[k],若XA[k]同时大于XA[k-1]和XA[k+1],则将XA[k]作为单调分量,其中k为频谱序号索引;并将单调分量放置在单调分量集合中。
19.根据权利要求18所述的装置,其特征在于:
单调分量检测单元还用于在XA[k]同时大于XA[k-1]和XA[k+1]时,进一步判断XA[k]是否大于幅度阈值,若XA[k]大于幅度阈值,则执行将XA[k]作为单调分量的操作。
20.根据权利要求18或19所述的装置,其特征在于:
频谱序号索引k的取值范围为大于索引下限int[flowN/fs],小于索引上限int[fhighN/fs],其中函数int[]表示向下舍入取整函数,N为用于进行频谱分析获得音频信号频谱的窗函数长度,fs为音频信号的采样频率,flow为频率下限,fhigh为频率上限。
21.根据权利要求17所述的装置,其特征在于:和谐性判据计算单元包括识别模块和判据计算模块,其中:
识别模块,用于对于单调分量集合中的包括L个单调分量的子集合{XA[ci]},i=1,2,…,L,c1<c2<…<cL,XA[ci]对应的频率为Tf[ci],其中Tf[c1]<Tf[c2]<…<Tf[cL],若满足
Tf[c1]=m(f0+Δfc1)
Tf[c2]=(m+1)(f0+Δfc2),
·
·
·
Tf[cL]=(m+L-1)(f0+ΔfcL)
其中m≥0,同时非和谐因子Funharmonic满足
F unharmonic = max ( | &Delta; f c 1 | f 0 , | &Delta; f c 2 | f 0 , . . . , | &Delta; f cL | f 0 ) < F unharmonic _ Thr ,
则判断所述子集合为连续谐波片段,其中f0为候选基频,Funharmonic_Thr为非和谐因子阈值,Δfc1,Δfc2,…,ΔfcL为子集合中各单调分量的频率偏差;
判据计算模块,用于计算所述连续谐波片段的和谐性判据Fweight,Fweight
F weight = T w [ c 1 ] + T w [ c 2 ] + . . . + T w [ c L ] L ,
其中Tw[ci]是XA[ci]的判决权重。
22.根据权利要求21所述的装置,其特征在于:和谐性判据计算单元还包括加权模块,用于在判据计算模块计算所述连续谐波片段的和谐性判据Fweight之后,对和谐性判据Fweight进行加权处理,以得到更新后的和谐性判据Fweight_new
Fweight_new=FweightHunharmonic[Funharmonic]hL
其中hL是固定的权重,Hunharmonic[x]是映射函数,如果x=Funharmonic_Thr,则Hunharmonic[x]=Hthr;如果x=0,则Hunharmonic[x]=H0,则Hunharmonic[x]在0≤x≤Funharmonic_Thr的范围内连续变动。
23.根据权利要求22所述的装置,其特征在于:
H unharmonic [ x ] = ( F unharmonic _ Thr - x F unharmonic _ Thr ) 2 ( H 0 - H thr ) + H thr .
24.根据权利要求21-23中任一项所述的装置,其特征在于:
候选基频f0的选择范围为[f0_min,f0_max],
f0_min=min(fd,fd_c1,fd_c2,…,fd_cL)
f0_max=max(fd,fd_c1,fd_c2,…,fd_cL)
f d = T f [ c L ] - T f [ c 1 ] L - 1 , f d _ cl = T f [ c l ] int [ T f [ c l ] / f d + 0.5 ] , l = 1,2 , . . . , L .
25.根据权利要求21-23中任一项所述的装置,其特征在于:
XA[ci]的判决权重Tw[ci]为对数频谱幅值XLA[ci],其中XLA[ci]=log(XA[ci])。
26.根据权利要求21-23中任一项所述的装置,其特征在于:
XA[ci]的判决权重Tw[ci]为单调分量XA[ci]对应的完整峰体范围内对数频谱幅值曲线XLA高于当前音频信号本底幅度曲线XS部分的和;
其中,所述完整峰体范围对应的索引边界为:
从ci逐一递减,将满足XLA[ks-1]<XLA[ks]且XLA[ks]>XLA[ks+1]或XLA[ks]<XS[ks]的第一个索引ks作为所述完整峰体范围的索引下边界;
从ci逐一递增,将满足XLA[ke-1]<XLA[ke]且XLA[ke]>XLA[ke+1]或XLA[ke]<XS[ke]的第一个索引ke作为所述完整峰体范围的索引上边界。
27.根据权利要求17所述的装置,其特征在于:
判别阈值Jvad_thr
Jvad_thr=αJvad_speech
其中α为判决参数,Jvad_speech为针对无噪声语音信号逐帧计算出的和谐性判据的平均值。
CN201210488703.4A 2012-11-27 2012-11-27 语音激活检测方法和装置 Active CN103839544B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210488703.4A CN103839544B (zh) 2012-11-27 2012-11-27 语音激活检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210488703.4A CN103839544B (zh) 2012-11-27 2012-11-27 语音激活检测方法和装置

Publications (2)

Publication Number Publication Date
CN103839544A true CN103839544A (zh) 2014-06-04
CN103839544B CN103839544B (zh) 2016-09-07

Family

ID=50802978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210488703.4A Active CN103839544B (zh) 2012-11-27 2012-11-27 语音激活检测方法和装置

Country Status (1)

Country Link
CN (1) CN103839544B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106571150A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 定位音乐人声区的方法和系统
TWI659412B (zh) * 2016-10-11 2019-05-11 中國商芋頭科技(杭州)有限公司 一種語音激活檢測方法及裝置
CN111554315A (zh) * 2020-05-29 2020-08-18 展讯通信(天津)有限公司 单通道语音增强方法及装置、存储介质、终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
CN1242553A (zh) * 1998-03-24 2000-01-26 松下电器产业株式会社 用于噪声环境的语音检测系统
US20020188445A1 (en) * 2001-06-01 2002-12-12 Dunling Li Background noise estimation method for an improved G.729 annex B compliant voice activity detection circuit
JP2010529494A (ja) * 2007-06-07 2010-08-26 華為技術有限公司 音声活動を検出するための装置および方法
CN101853661A (zh) * 2010-05-14 2010-10-06 中国科学院声学研究所 基于非监督学习的噪声谱估计与语音活动度检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
CN1242553A (zh) * 1998-03-24 2000-01-26 松下电器产业株式会社 用于噪声环境的语音检测系统
US20020188445A1 (en) * 2001-06-01 2002-12-12 Dunling Li Background noise estimation method for an improved G.729 annex B compliant voice activity detection circuit
JP2010529494A (ja) * 2007-06-07 2010-08-26 華為技術有限公司 音声活動を検出するための装置および方法
CN101853661A (zh) * 2010-05-14 2010-10-06 中国科学院声学研究所 基于非监督学习的噪声谱估计与语音活动度检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106571150A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 定位音乐人声区的方法和系统
TWI659412B (zh) * 2016-10-11 2019-05-11 中國商芋頭科技(杭州)有限公司 一種語音激活檢測方法及裝置
CN111554315A (zh) * 2020-05-29 2020-08-18 展讯通信(天津)有限公司 单通道语音增强方法及装置、存储介质、终端
CN111554315B (zh) * 2020-05-29 2022-07-15 展讯通信(天津)有限公司 单通道语音增强方法及装置、存储介质、终端

Also Published As

Publication number Publication date
CN103839544B (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
CN103646649B (zh) 一种高效的语音检测方法
Gonzalez et al. PEFAC-A pitch estimation algorithm robust to high levels of noise
CN108896878B (zh) 一种基于超声波的局部放电检测方法
US7499686B2 (en) Method and apparatus for multi-sensory speech enhancement on a mobile device
CN103594094B (zh) 自适应谱减法实时语音增强
Evangelopoulos et al. Multiband modulation energy tracking for noisy speech detection
CN107316653B (zh) 一种基于改进的经验小波变换的基频检测方法
Krishnamoorthy et al. Enhancement of noisy speech by temporal and spectral processing
US9454976B2 (en) Efficient discrimination of voiced and unvoiced sounds
CN109378013B (zh) 一种语音降噪方法
CN101968957A (zh) 一种噪声条件下的语音检测方法
CN101320566A (zh) 基于多带谱减法的非空气传导语音增强方法
Khoa Noise robust voice activity detection
CN105575405A (zh) 一种双麦克风语音激活检测方法及语音采集设备
CN103996399A (zh) 语音检测方法和系统
CN103839544A (zh) 语音激活检测方法和装置
Sarkar et al. Automatic speech segmentation using average level crossing rate information
Meduri et al. A survey and evaluation of voice activity detection algorithms
CN102789780B (zh) 基于谱时幅度分级向量辨识环境声音事件的方法
Jin et al. An improved speech endpoint detection based on spectral subtraction and adaptive sub-band spectral entropy
Jamaludin et al. An improved time domain pitch detection algorithm for pathological voice
Dov et al. Voice activity detection in presence of transients using the scattering transform
Patil et al. Classification of normal and pathological voices using TEO phase and Mel cepstral features
Sanam et al. Teager energy operation on wavelet packet coefficients for enhancing noisy speech using a hard thresholding function
Képesi et al. High-resolution noise-robust spectral-based pitch estimation.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20170204

Address after: Room 32, building 3205F, No. 707, Zhang Yang Road, free trade zone,, China (Shanghai)

Patentee after: Xin Xin Finance Leasing Co.,Ltd.

Address before: 201203 Shanghai city Zuchongzhi road Pudong New Area Zhangjiang hi tech park, Spreadtrum Center Building 1, Lane 2288

Patentee before: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20170707

Address after: Room 2062, Wenstin administration apartment, No. 9 Financial Street B, Beijing, Xicheng District

Patentee after: Xin Xin finance leasing (Beijing) Co.,Ltd.

Address before: Room 32, building 707, Zhang Yang Road, China (Shanghai) free trade zone, 3205F

Patentee before: Xin Xin Finance Leasing Co.,Ltd.

EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140604

Assignee: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Assignor: Xin Xin finance leasing (Beijing) Co.,Ltd.

Contract record no.: 2018990000163

Denomination of invention: Voice activity detection method and apparatus

Granted publication date: 20160907

License type: Exclusive License

Record date: 20180626

EE01 Entry into force of recordation of patent licensing contract
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200306

Address after: 201203 Zuchongzhi Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 2288

Patentee after: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Address before: 100033 room 2062, Wenstin administrative apartments, 9 Financial Street B, Xicheng District, Beijing.

Patentee before: Xin Xin finance leasing (Beijing) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200529

Address after: 361012 unit 05, 8 / F, building D, Xiamen international shipping center, No.97 Xiangyu Road, Xiamen area, China (Fujian) free trade zone, Xiamen City, Fujian Province

Patentee after: Xinxin Finance Leasing (Xiamen) Co.,Ltd.

Address before: 201203 Zuchongzhi Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 2288

Patentee before: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Assignor: Xin Xin finance leasing (Beijing) Co.,Ltd.

Contract record no.: 2018990000163

Date of cancellation: 20210301

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140604

Assignee: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Assignor: Xinxin Finance Leasing (Xiamen) Co.,Ltd.

Contract record no.: X2021110000010

Denomination of invention: Voice activation detection method and device

Granted publication date: 20160907

License type: Exclusive License

Record date: 20210317

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230724

Address after: 201203 Shanghai city Zuchongzhi road Pudong New Area Zhangjiang hi tech park, Spreadtrum Center Building 1, Lane 2288

Patentee after: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Address before: 361012 unit 05, 8 / F, building D, Xiamen international shipping center, 97 Xiangyu Road, Xiamen area, China (Fujian) pilot Free Trade Zone, Xiamen City, Fujian Province

Patentee before: Xinxin Finance Leasing (Xiamen) Co.,Ltd.