CN101149921A - 一种静音检测方法和装置 - Google Patents

一种静音检测方法和装置 Download PDF

Info

Publication number
CN101149921A
CN101149921A CNA2006101163158A CN200610116315A CN101149921A CN 101149921 A CN101149921 A CN 101149921A CN A2006101163158 A CNA2006101163158 A CN A2006101163158A CN 200610116315 A CN200610116315 A CN 200610116315A CN 101149921 A CN101149921 A CN 101149921A
Authority
CN
China
Prior art keywords
frame
linear prediction
audio
energy
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101163158A
Other languages
English (en)
Other versions
CN101149921B (zh
Inventor
黄鹤云
李昙
林福辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN2006101163158A priority Critical patent/CN101149921B/zh
Priority to US11/858,664 priority patent/US7921008B2/en
Publication of CN101149921A publication Critical patent/CN101149921A/zh
Application granted granted Critical
Publication of CN101149921B publication Critical patent/CN101149921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种静音检测方法和装置,它避免了对仅含噪声的音频帧做多余的线性预测分析,具有较好检测率和低复杂性。其技术方案为:检测方法包括:(1)对第一帧音频进行预处理;(2)接收下一帧音频作为当前的音频帧;(3)根据N阶线性预测系数计算线性预测加权能量,其中N为自然数;(4)根据线性预测加权能量判断是否存在语音信号,若存在则说明当前帧是语音且继续下一步,否则识别出当前帧是噪声并转入步骤(6);(5)将当前帧进行线性预测分析得出该帧自身的N阶线性预测系数,以替换原来步骤(3)中的N阶线性预测系数;(6)判断当前帧是否是帧序列中的最后一帧,若是则结束,否则转入步骤(2)。本发明应用于语音检测领域。

Description

一种静音检测方法和装置
技术领域
本发明涉及一种信号检测方法,尤其涉及一种从音频帧的时间序列中检测识别语音和噪声的方法。
背景技术
音频信号的传输基本以图1的形式进行。如图1所示,首先必须对音频信号进行静音检测,其目的就是从音频的时间序列中检测或识别出语音和噪声。之所以需要利用静音检测对语音和噪声作区分,是因为一般的音频时间序列中含有大量的噪声,有时候甚至达到50%,若对噪声和语音用同一个编解码方式则显得很浪费也不合理。区分出语音和噪声后分别对其进行不同的编解码,既节省比特数也节省了一定的运算量。
静音检测方法一般包括两个阶段,如图2所示,分为信号特征提取阶段11和语音/噪声决策阶段12。静音检测首先接收一个输入的音频,在信号特征提取阶段11将音频信号的相关特征提取出来,然后在语音/噪声决策阶段12对这些相关特征进行分析,识别出是否存在语音,最后将识别结果作为输出。很多语音编解码标准例如G.729和AMR-WB中都规定了静音检测的算法。G.729标准里规定的静音检测算法包括了过零率提取、低频能量提取、总能量提取和谱距离提取。AMR-WB标准里则采用信号在不同频带里的能量和开环基音特征进行提取。在特征提取以后,它们都是采用多边界决策和hangover平滑进行最终的决策。它们有一个共同的缺点:在静音检测之前,必须对每一帧音频信号进行一次线性预测(LinearPrediction,LP)分析,而一次线性预测所需要的时间是O(N2),其中N是LP分析的阶数。尽管对于含有语音的帧,本来就是要在语音编码阶段做LP分析,所以在静音检测的时候做LP分析并不是时间上的浪费。但是对于仅含噪声的帧来说,并不需要做LP分析,因此在静音检测时做一次LP分析则是没有必要的,是一种浪费。
发明内容
本发明的目的在于解决上述问题,提供了一种静音检测方法和装置,它避免了对仅含噪声的音频帧做多余的线性预测分析,具有较好的检测率和低复杂性。
本发明的技术方案为:本发明提供了一种静音检测方法,用于对一个音频帧序列进行检测,识别出存在语音信号的音频帧和只含有噪声的音频帧,所述检测方法包括:
(1)第一帧音频进行预处理;
(2)接收下一帧音频作为当前的音频帧;
(3)根据N阶线性预测系数计算线性预测加权能量,其中N为自然数;
(4)根据线性预测加权能量判断是否存在语音信号,若存在则说明当前帧是语音且继续下一步,否则识别出当前帧是噪声并转入步骤(6);
(5)将当前帧进行线性预测分析得出该帧自身的N阶线性预测系数,以替换原来步骤(3)中的N阶线性预测系数;
(6)判断当前帧是否是帧序列中的最后一帧,若是则结束,否则转入步骤(2)。
上述的静音检测方法,其中,步骤(1)进一步包括:(a)第一帧音频进行线性预测分析,得出N阶线性预测系数;(b)根据N阶线性预测系数计算第一帧的线性预测加权能量;(c)根据线性预测加权能量判断是否存在语音信号。
上述的静音检测方法,其特征在于,音频帧的线性预测加权能量的计算过程包括:
根据N阶线性预测系数a1~aN建立n×n维的矩阵A,其中n为当前帧的采样点个数,矩阵A为:A=[Kij],其中1≤i,j≤n且i,j为自然数,当i-j=0时Kij=1,当i-j<0或i-j>N时Kij=0,当0<i-j≤N时Kij=ai-j
求矩阵A的逆矩阵A-1=[Kij -1],其中1≤i,j≤n且i,j为自然数;
根据逆矩阵A-1求出中间系数b1~bN:bi=K1,i+1 -1,i是1~N之间的自然数;
计算中间值序列z(i),i是0~N-1之间的整数,当i=0时, z(0)=s(0),当1≤i<N时, z ( i ) = Σ j = 1 N b i * s ( i - j ) + s ( i ) , 其中s(i)是音频帧的采样点信号;
根据中间值序列z(0)~z(N-1)求出线性预测加权能量LPE: LPE = Σ j = 0 N - 1 z 2 ( j ) .
上述的静音检测方法,其中,步骤(4)中,设定一门限值,当该线性预测加权能量大于该门限值时该帧存在语音信号,当该线性预测加权能量小于该门限值时该帧仅存在噪声。
上述的静音检测方法,其中,该门限值是从第一帧开始起前数帧的线性预测加权能量的平均值,或者是根据噪声能量来设置的。
上述的静音检测方法,其中,步骤(5)中的线性预测分析是在语音编码时进行的。
上述的静音检测方法,其中,该方法还包括过零率提取决策过程:计算每一帧音频的采样点信号的过零率ZCR: ZCR = Σ i = 0 n - 2 sgn ( s ( i + 1 ) * s ( i ) ) , 其中n为当前帧采样点个数,s(0)~s(n-1)为当前帧的各个采样点信号;
根据每一帧音频的采样点信号的过零率ZCR判断该帧是否存在语音信号。
上述的静音检测方法,其中,该方法还包括低频能量提取决策过程:
计算每一帧音频的采样点信号的低频能量LFE:LFE=h(i)s(i),其中h(i)是低通滤波器,s(i)为当前帧的各个采样点信号;
根据每一帧音频的采样点信号的低频能量LFE判断该帧是否存在语音信号。
上述的静音检测方法,其中,该方法还包括总能量提取决策过程:
计算每一帧音频的采样点信号的总能量TE: TE = Σ i = 0 n - 1 S 2 ( i ) , 其中s(i)为当前帧的各个采样点信号;
根据每一帧音频的采样点信号的总能量TE判断该帧是否存在语音信号。
本发明还提供了一种静音检测装置,用于对一个音频帧序列进行检测,识别出存在语音信号的音频帧和只含有噪声的音频帧,所述静音检测装置包括:
线性预测系数变量存储单元,存储音频帧的N阶线性预测系数变量;
线性预测分析单元,一方面对第一帧音频进行线性预测分析,得到第一帧的N阶线性预测系数并作为该N阶线性预测系数变量的初始值,其中N为自然数,另一方面对后续的语音帧进行线性预测分析,将得到的N阶线性预测系数更新至N阶线性预测系数变量;
线性预测加权能量计算单元,根据N阶线性预测系数变量的值计算每一帧音频的线性预测加权能量,该计算单元进一步包括:
矩阵建立单元,根据N阶线性预测系数a1~aN建立n×n维的矩阵A,其中n为当前帧的采样点个数,矩阵A为:A=[Kij],其中1≤i,j≤n且i,j为自然数,当i-j=0时Kij=1,当i-j<0或i-j>N时Kij=0,当0<i-j≤N时Kij=ai-j
矩阵求逆单元,求出矩阵A的逆矩阵A-1=[Kij -1],其中1≤i,j≤n且i,j为自然数;
系数转换单元,根据逆矩阵A-1求出中间系数b1~bN:bi=K1,i+1 -1,i是1~N之间的自然数;
线性预测加权能量求解单元,首先计算中间值序列z(i),i是0~N-1之间的整数,当i=0时,z(0)=s(0),当1≤i<N时, z ( i ) = Σ j = 1 N b i * s ( i - j ) + s ( i ) , 其中s(i)是音频帧的采样点信号,然后根据中间值序列z(0)~z(N-1)求出线性预测加权能量LPE: LPE = Σ j = 0 N - 1 z 2 ( j ) ;
语音信号判断单元,根据该线性预测加权能量计算单元得出的线性预测加权能量判断是否存在语音信号,识别音频帧是语音还是噪声,当判断为语音时将该音频帧传送至该线性预测分析单元。
本发明对比现有技术有如下的有益效果:本发明不在信号特征提取阶段作LP分析,而以第一帧音频的线性预测系数作为线性预测系数变量的初始值,后续音频帧以线性预测系数变量值为根据计算线性预测加权能量,若当前的音频帧被判定为存在语音信号后,在对该语音信号进行编码的时候进行LP分析,分析而得的线性预测系数更新至线性预测系数变量中。本发明在保证具有较好的检测率的同时降低了运算的复杂度。
附图说明
图1是现有的对音频信号的检测、编解码的示意图。
图2是通常的静音检测方法的阶段示意图。
图3是采用本发明静音检测方法的对音频信号检测、编解码的示意图。
图4是本发明静音检测方法的一个较佳实施例的流程图。
图5是本发明静音检测装置的一个较佳实施例的框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图3示出了采用本发明静音检测方法后对音频信号进行检测和编解码的过程。请参见图3,音频信号首先进行静音检测,识别出噪声和语音,对噪声进行噪声参数提取,对语音进行编码,在语音编码过程中还包括对语音信号的LP分析,分析而得的LP参数回传至静音检测过程。噪声参数和语音编码打包后送入比特流。在对信号进行还原的时候,根据噪声参数生成舒适噪声,对语音信号进行解码,再根据舒适噪声和解码后的语音信号进行信号的重建过程。对比图1,图3的过程中省略了静音检测之前的线性预测分析,而只是在后续的语音编码过程中对语音信号进行线性预测分析。
图4示出了本发明静音检测方法一个较佳实施例的流程图。该方法用于对一个音频帧序列进行检测,识别出存在语音信号的音频帧和只含有噪声的音频帧。下面是对该流程中各步骤的详细描述。
步骤S1:对第一帧音频进行线性预测分析,得出N阶线性预测系数,将此值存入N阶线性预测系数变量中作为变量初始值。
步骤S2:根据步骤S1的N阶线性预测系数计算第一帧的线性预测加权能量。
计算某一帧的线性预测加权能量的具体步骤如下:
第一步:根据N阶线性预测系数a1~aN建立n×n维的矩阵A,其中n为当前帧的采样点个数,矩阵A为:A=[Kij],其中1≤i,j≤n且i,j为自然数,当i-j=0时Kij=1,当i-j<0或i-j>N时Kij=0,当0<i-j≤N时Kij=ai-j
第二步:求矩阵A的逆矩阵A-1=[Kij -1],其中1≤i,j≤n且i,j为自然数。
第三步:根据逆矩阵A-1求出中间系数b1~bN:bi=K1,i+1 -1,i是1~N之间的自然数。
第四步:计算中间值序列z(i),i是0~N-1之间的整数,当i=0时,z(0)=s(0),当1≤i<N时, z ( i ) = Σ j = 1 N b i * s ( i - j ) + s ( i ) , 其中s(i)是该音频帧的采样点信号。
第五步:根据中间值序列z(0)~z(N-1)求出线性预测加权能量LPE:
LPE = Σ j = 0 N - 1 z 2 ( j ) .
下面以4阶线性预测系数a1、a2、a3、a4为例说明上述计算步骤:
首先,利用上述第一步到第三步的矩阵计算方法,求出中间系数b1、b2、b3、b4
b 4 = - a 4 + 2 a 3 a 1 + a 2 2 - 3 a 2 a 1 2 + a 1 4
b 3 = - a 3 + 2 a 2 a 1 - a 1 3
b 2 = - a 2 + a 1 2
b1=-a1
然后,利用上述的第四步求出中间值序列z(i),i是0~N-1之间的整数:i=1,2,......,N-1时: z ( i ) = Σ j = 1 4 b i * s ( i - j ) + s ( i ) ;
i=0时:z(0)=s(0)
最后,利用上述的第五步求出线性预测加权能量LPE:
LPE = Σ j = 0 N - 1 z 2 ( j ) .
步骤S3:根据步骤S2计算得到的第一帧的线性预测加权能量识别其是否存在语音信号。
设定线性预测加权能量的门限值,将计算得到的线性预测加权能量预该门限值作比较,若大于门限值则将该帧识别为存在语音信号,否则识别为仅存在噪声。其中,门限值可以根据噪声能量来设置。
步骤S4:接收下一帧作为当前处理的音频帧。
步骤S5:根据N阶线性预测系数变量计算当前帧的线性预测加权能量。具体的计算方式与步骤S2相同,在此不再赘述。
步骤S6:根据当前帧的线性预测加权能量判断是否存在语音信号,若存在则说明当前帧存在语音且继续下一步,否则识别出当前帧仅存在噪声并转入步骤S8。
判断识别的具体过程与步骤S3类似,在此不再赘述。门限值除了根据噪声能量设置,也可以是自第一帧开始的m个音频帧(m是一个预设值)的线性预测加权能量的平均值。
步骤S7:将当前帧进行线性预测分析得出该帧自身的N阶线性预测系数,更新至N阶线性预测系数变量。这一步的线性预测分析是在语音编码中进行的。该处理方式表明,循环过程中每次处理的N阶线性预测系数是最近一个语音信号的N阶线性预测系数。
步骤S8:判断当前帧是否是音频帧序列中的最后一帧,若是则结束整个流程,否则转入步骤S4。
对于上述实施例,还可以在对每一帧音频的处理过程中添加信号过零率、低频能量、总能量的任意组合的提取。
信号过零率是指在一个时间段内采样信号值由正到负和由负到正的次数,每一帧的信号过零率表示为: ZCR = Σ j = 0 n - 2 sgn ( s ( i + 1 ) * s ( i ) ) , 其中n为当前帧采样点个数,s(0)~s(n-1)为当前帧的各个采样点。
低频能量的计算公式为:LFE=h(i)s(i),其中h(i)是10阶低通滤波器,截止频率为500k,s(i)为当前帧的各个采样点信号,表示卷积。
总能量的计算公式为: TE = Σ i = 0 n - 1 S 2 ( i ) , 其中s(i)为当前帧的各个采样点信号。
在决策阶段,分别比较计算得到的过零率、低频能量和/或总能量与门限值,若大于门限值则识别为存在语音信号,否则识别为仅存在噪声。过零率、低频能量、总能量的门限值和加权能量的门限值类同,可以是前m帧的平均值。
另一方面,本发明还公开了一种静音检测装置。请参见图5,静音检测装置50内设有线性预测加权能量计算单元51、语音信号判断单元52、线性预测分析单元53和线性预测系数变量存储单元54。其中线性预测加权能量计算单元51又设有矩阵建立单元511、矩阵求逆单元512、系数转换单元513和线性预测加权能量求解单元514。
线性预测分析单元53先对第一帧音频进行线性预测分析,得到第一帧的N阶线性预测系数,存储至线性预测系数变量存储单元54作为N阶线性预测系数变量的初始值。矩阵建立单元511根据N阶线性预测系数a1~aN建立n×n维的矩阵A,其中n为当前帧的采样点个数,矩阵A为:A=[Kij],其中1≤i,j≤n且i,j为自然数,当i-j=0时Kij=1,当i-j<0或i-j>N时Kij=0,当0<i-j≤N时Kij=ai-j。矩阵求逆单元512求出矩阵A的逆矩阵A-1=[Kij -1],其中1≤i,j≤n且i,j为自然数。系数转换单元513根据逆矩阵A-1求出中间系数b1~bN:bi=K1,i+1 -1,i是1~N之间的自然数。线性预测加权能量求解单元514首先计算中间值序列z(i),i是0~N-1之间的整数,当i=0时,z(0)=s(0),当1≤i<N时, z ( i ) = Σ j = 1 N b i * s ( i - j ) + s ( i ) , 其中s(i)是音频帧的采样点信号,然后根据中间值序列z(0)~z(N-1)求出线性预测加权能量LPE: LPE = Σ j = 0 N - 1 z 2 ( j ) .
上述的线性预测加权能量LPE传送给语音信号判断单元52,根据LPE判断该音频帧是否存在语音信号,识别是语音还是噪声。具体的判断方式可以在判断单元52内设置一门限值,当线性预测加权能量LPE大于该门限值时确定该帧存在语音信号,当线性预测加权能量LPE小于该门限值时确定该帧仅存在噪声。门限值的设定可以是从第一帧开始起的前数帧的线性预测加权能量的平均值,也可根据噪声能量来设置。
当语音信号判断单元52确定音频帧存在语音后,将该帧送入线性预测分析单元53,线性预测分析单元53对该帧进行线性预测分析,将得到的N阶线性预测系数更新至N阶线性预测系数变量。这一操作是在语音编码中完成了,同时保证了N阶线性预测系数变量保存的值始终是最近一个语音信号的线性预测系数值。
静音检测装置50还可以包括过零率提取决策单元(未图示),该单元计算每一帧音频的采样点信号的过零率ZCR: ZCR = Σ i = 0 n - 2 sgn ( s ( i + 1 ) * s ( i ) ) , 其中n为当前帧采样点个数,s(0)~s(n-1)为当前帧的各个采样点信号,然后根据每一帧音频的采样点信号的过零率ZCR判断该帧是否存在语音信号。
静音检测装置50还可以包括低频能量提取决策单元(未图示),该单元计算每一帧音频的采样点信号的低频能量LFE:LFE=h(i)s(i),其中h(i)是低通滤波器,s(i)为当前帧的各个采样点信号,然后根据每一帧音频的采样点信号的低频能量LFE判断该帧是否存在语音信号。
静音检测装置50还可以包括总能量提取决策单元(未图示),该单元计算每一帧音频的采样点信号的总能量TE: TE = Σ i = 0 n - 1 S 2 ( i ) , 其中s(i)为当前帧的各个采样点信号,然后根据每一帧音频的采样点信号的总能量TE判断该帧是否存在语音信号。
应理解,本发明的发明点在于利用线性预测系数进行LP加权能量计算,只在语音信号进行编码时对语音信号进行LP分析,而无需在静音检测的时候对每个音频帧都进行线性预测分析。且,LP加权能量的计算方式也是本发明的发明点。而决策方法(本实施例中是比较门限值)可以采用神经网络方法等,并不限制本发明。
从复杂度和性能上分析本发明方法的优越性:过零率提取几乎不用到乘法,10阶低频滤波需要用到10N次乘法,总能量需要用N次乘法,LP系数加权能量需要用到4N次乘法,因此,总共用到15N次乘法。而通常的静音检测需要用到LP分析,任何阶数的LP分析至少要用到
Figure A20061011631500131
次乘法。忽略静音检测其他部分的运算量,对于一个256点的帧来说,假设语音和噪声各占一半的出现时间,所节省的乘法至少是: N 2 2 × 50 % - 15 N N 2 2 × 50 % = 76.56 % 可以看到,节省的乘法数相当之多。本方法可以达到的检测率较接近于传统的AMR-WB的静音检测方法。
应理解,上述实施例是提供给本领域普通技术人员来实现或使用本发明的,本领域普通技术人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书提到的创新性特征的最大范围。

Claims (10)

1.一种静音检测方法,用于对一个音频帧序列进行检测,识别出存在语音信号的音频帧和只含有噪声的音频帧,所述检测方法包括:
(1)对第一帧音频进行预处理;
(2)接收下一帧音频作为当前的音频帧;
(3)根据N阶线性预测系数计算线性预测加权能量,其中N为自然数;
(4)根据线性预测加权能量判断是否存在语音信号,若存在则说明当前帧是语音且继续下一步,否则识别出当前帧是噪声并转入步骤(6);
(5)将当前帧进行线性预测分析得出该帧自身的N阶线性预测系数,以替换原来步骤(3)中的N阶线性预测系数;
(6)判断当前帧是否是帧序列中的最后一帧,若是则结束,否则转入步骤(2)。
2.根据权利要求1所述的静音检测方法,其特征在于,步骤(1)进一步包括:
(a)对第一帧音频进行线性预测分析,得出N阶线性预测系数;
(b)根据N阶线性预测系数计算第一帧的线性预测加权能量;
(c)根据线性预测加权能量判断是否存在语音信号。
3.根据权利要求1或2所述的静音检测方法,其特征在于,音频帧的线性预测加权能量的计算过程包括:
根据N阶线性预测系数a1~aN建立n×n维的矩阵A,其中n为当前帧的采样点个数,矩阵A为:A=[Kij],其中1≤i,j≤n且i,j为自然数,当i-j=0时Kij=1,当i-j<0或i-j>N时Kij=0,当0<i-j≤N时Kij=ai-j
求矩阵A的逆矩阵A-1=[Kij -1],其中1≤i,j≤n且i,j为自然数;
根据逆矩阵A-1求出中间系数b1~bN:bi=K1,i+1 -1,i是1~N之间的自然数;
计算中间值序列z(i),i是0~N-1之间的整数,当i=0时,z(0)=s(0),当1≤i<N时, z ( i ) = Σ j = 1 N b i * s ( i - j ) + s ( i ) , 其中s(i)是音频帧的采样点信号;
根据中间值序列z(0)~z(N-1)求出线性预测加权能量LPE: LPE = Σ j = 0 N - 1 z 2 ( j ) .
4.根据权利要求1所述的静音检测方法,其特征在于,步骤(4)中,设定一门限值,当该线性预测加权能量大于该门限值时该帧存在语音信号,当该线性预测加权能量小于该门限值时该帧仅存在噪声。
5.根据权利要求4所述的静音检测方法,其特征在于,该门限值是从第一帧开始起前数帧的线性预测加权能量的平均值,或者是根据噪声能量来设置的。
6.根据权利要求1所述的静音检测方法,其特征在于,步骤(5)中的线性预测分析是在语音编码时进行的。
7.根据权利要求1所述的静音检测方法,其特征在于,该方法还包括过零率提取决策过程:
计算每一帧音频的采样点信号的过零率ZCR: ZCR = Σ i = 0 n - 2 sgn ( s ( i + 1 ) * s ( i ) ) , 其中n为当前帧采样点个数,s(0)~s(n-1)为当前帧的各个采样点信号;
根据每一帧音频的采样点信号的过零率ZCR判断该帧是否存在语音信号。
8.根据权利要求1所述的静音检测方法,其特征在于,该方法还包括低频能量提取决策过程:
计算每一帧音频的采样点信号的低频能量LFE:LFE=h(i)s(i),其中h(i)是低通滤波器,s(i)为当前帧的各个采样点信号;
根据每一帧音频的采样点信号的低频能量LFE判断该帧是否存在语音信号。
9.根据权利要求1所述的静音检测方法,其特征在于,该方法还包括总能量提取决策过程:
计算每一帧音频的采样点信号的总能量TE: TE = Σ i = 0 n - 1 s 2 ( i ) , 其中s(i)为当前帧的各个采样点信号;
根据每一帧音频的采样点信号的总能量TE判断该帧是否存在语音信号。
10.一种静音检测装置,用于对一个音频帧序列进行检测,识别出存在语音信号的音频帧和只含有噪声的音频帧,所述静音检测装置包括:
线性预测系数变量存储单元,存储音频帧的N阶线性预测系数变量;
线性预测分析单元,一方面对第一帧音频进行线性预测分析,得到第一帧的N阶线性预测系数并作为该N阶线性预测系数变量的初始值,其中N为自然数,另一方面对后续的语音帧进行线性预测分析,将得到的N阶线性预测系数更新至N阶线性预测系数变量;
线性预测加权能量计算单元,根据N阶线性预测系数变量的值计算每一帧音频的线性预测加权能量,该计算单元进一步包括:
矩阵建立单元,根据N阶线性预测系数a1~aN建立n×n维的矩阵A,其中n为当前帧的采样点个数,矩阵A为:A=[Kij],其中1≤i,j≤n且i,j为自然数,当i-j=0时Kij=1,当i-j<0或i-j>N时Kij=0,当0<i-j≤N时Kij=ai-j
矩阵求逆单元,求出矩阵A的逆矩阵A-1=[Kij -1],其中1≤i,j≤n且i,j为自然数;
系数转换单元,根据逆矩阵A-1求出中间系数b1~bN:bi=K1,i+1 -1,i是1~N之间的自然数;
线性预测加权能量求解单元,首先计算中间值序列z(i),i是0~N-1之间的整数,当i=0时,z(0)=s(0),当1≤i<N时, z ( i ) = Σ j = 1 N b i * s ( i - j ) + s ( i ) , 其中s(i)是音频帧的采样点信号,然后根据中间值序列z(0)~z(N-1)求出线性预测加权能量LPE: LPE = Σ j = 0 N - 1 z 2 ( j ) ;
语音信号判断单元,根据该线性预测加权能量计算单元得出的线性预测加权能量判断是否存在语音信号,识别音频帧是语音还是噪声,当判断为语音时将该音频帧传送至该线性预测分析单元。
CN2006101163158A 2006-09-21 2006-09-21 一种静音检测方法和装置 Active CN101149921B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2006101163158A CN101149921B (zh) 2006-09-21 2006-09-21 一种静音检测方法和装置
US11/858,664 US7921008B2 (en) 2006-09-21 2007-09-20 Methods and apparatus for voice activity detection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006101163158A CN101149921B (zh) 2006-09-21 2006-09-21 一种静音检测方法和装置

Publications (2)

Publication Number Publication Date
CN101149921A true CN101149921A (zh) 2008-03-26
CN101149921B CN101149921B (zh) 2011-08-10

Family

ID=39250412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101163158A Active CN101149921B (zh) 2006-09-21 2006-09-21 一种静音检测方法和装置

Country Status (2)

Country Link
US (1) US7921008B2 (zh)
CN (1) CN101149921B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102100003A (zh) * 2008-07-24 2011-06-15 高通股份有限公司 用于减少音频人为噪声的方法和设备
CN101625858B (zh) * 2008-07-10 2012-07-18 新奥特(北京)视频技术有限公司 语音端点检测中短时能频值的提取方法
CN101572090B (zh) * 2008-04-30 2013-03-20 向为 一种自适应多速率窄带编码方法及编码器
CN103325388A (zh) * 2013-05-24 2013-09-25 广州海格通信集团股份有限公司 基于最小能量小波框架的静音检测方法
CN103839551A (zh) * 2012-11-22 2014-06-04 鸿富锦精密工业(深圳)有限公司 音频处理系统与音频处理方法
CN104112446A (zh) * 2013-04-19 2014-10-22 华为技术有限公司 呼吸声检测方法及装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308655B (zh) * 2007-05-16 2011-07-06 展讯通信(上海)有限公司 一种音频编解码方法与装置
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
CN101533940B (zh) * 2009-03-25 2013-04-24 中国航天科技集团公司第五研究院第五〇四研究所 公共腔体输入多工器
BR112015014217B1 (pt) * 2012-12-21 2021-11-03 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V Adição de ruído de conforto para modelagem do ruído de fundo em baixas taxas de bits
GB201617016D0 (en) * 2016-09-09 2016-11-23 Continental automotive systems inc Robust noise estimation for speech enhancement in variable noise conditions
CN111964938A (zh) * 2020-09-01 2020-11-20 苏州拓朴声学科技有限公司 一种静音测试系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4587620A (en) * 1981-05-09 1986-05-06 Nippon Gakki Seizo Kabushiki Kaisha Noise elimination device
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
IN184794B (zh) * 1993-09-14 2000-09-30 British Telecomm
US5689615A (en) * 1996-01-22 1997-11-18 Rockwell International Corporation Usage of voice activity detection for efficient coding of speech
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6188981B1 (en) * 1998-09-18 2001-02-13 Conexant Systems, Inc. Method and apparatus for detecting voice activity in a speech signal
US6633841B1 (en) * 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
KR100546758B1 (ko) * 2003-06-30 2006-01-26 한국전자통신연구원 음성의 상호부호화시 전송률 결정 장치 및 방법
CN100399419C (zh) * 2004-12-07 2008-07-02 腾讯科技(深圳)有限公司 一种检测静音帧的方法
CN1271593C (zh) * 2004-12-24 2006-08-23 北京中星微电子有限公司 一种语音信号检测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101572090B (zh) * 2008-04-30 2013-03-20 向为 一种自适应多速率窄带编码方法及编码器
CN101625858B (zh) * 2008-07-10 2012-07-18 新奥特(北京)视频技术有限公司 语音端点检测中短时能频值的提取方法
CN102100003A (zh) * 2008-07-24 2011-06-15 高通股份有限公司 用于减少音频人为噪声的方法和设备
CN103839551A (zh) * 2012-11-22 2014-06-04 鸿富锦精密工业(深圳)有限公司 音频处理系统与音频处理方法
CN104112446A (zh) * 2013-04-19 2014-10-22 华为技术有限公司 呼吸声检测方法及装置
CN104112446B (zh) * 2013-04-19 2018-03-09 华为技术有限公司 呼吸声检测方法及装置
CN103325388A (zh) * 2013-05-24 2013-09-25 广州海格通信集团股份有限公司 基于最小能量小波框架的静音检测方法
CN103325388B (zh) * 2013-05-24 2016-05-25 广州海格通信集团股份有限公司 基于最小能量小波框架的静音检测方法

Also Published As

Publication number Publication date
CN101149921B (zh) 2011-08-10
US7921008B2 (en) 2011-04-05
US20080133226A1 (en) 2008-06-05

Similar Documents

Publication Publication Date Title
CN101149921A (zh) 一种静音检测方法和装置
EP2096629B1 (en) Method and apparatus for classifying sound signals
RU2417456C2 (ru) Системы, способы и устройства для обнаружения изменения сигналов
EP1738355B1 (en) Signal encoding
US8275609B2 (en) Voice activity detection
EP1719119B1 (en) Classification of audio signals
JP3840684B2 (ja) ピッチ抽出装置及びピッチ抽出方法
EP0677202B1 (en) Discriminating between stationary and non-stationary signals
CN104966517B (zh) 一种音频信号增强方法和装置
EP2702585B1 (en) Frame based audio signal classification
CN104505097B (zh) 检索激励的固定贡献的量化增益的设备和方法
WO1996034382A1 (en) Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
CN104485118A (zh) 用于语音活动检测的检测器和方法
RU2127912C1 (ru) Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков и устройство для кодирования и/или декодирования стационарных фоновых звуков
WO2000046796A1 (en) Method and apparatus for eighth-rate random number generation for speech coders
CN101208741A (zh) 一种适用于数字信号短时相关性模型之间的互用性的方法
Chandra et al. Usable speech detection using the modified spectral autocorrelation peak to valley ratio using the LPC residual
US20020010576A1 (en) A method and device for estimating the pitch of a speech signal using a binary signal
JP3849116B2 (ja) 音声検出装置及び音声検出プログラム
JPH0844395A (ja) 音声ピッチ検出装置
EP3966818A1 (en) Methods and devices for detecting an attack in a sound signal to be coded and for coding the detected attack
CN115346549A (zh) 一种基于深度学习的音频带宽扩展方法、系统及编码方法
Giacobello et al. Voice activity detection based on the adaptive multi-rate speech codec parameters
EP1143412A1 (en) Estimating the pitch of a speech signal using an intermediate binary signal
WO2001026094A1 (fr) Dispositif de codage vocal et procede de codage vocal

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190312

Address after: 101399 Building 8-07, Ronghui Garden 6, Shunyi Airport Economic Core Area, Beijing

Patentee after: Xin Xin finance leasing (Beijing) Co.,Ltd.

Address before: 201203 3-5 Floor, 696 Songtao Road, Pudong New Area, Shanghai

Patentee before: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

TR01 Transfer of patent right
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20080326

Assignee: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Assignor: Xin Xin finance leasing (Beijing) Co.,Ltd.

Contract record no.: X2021110000008

Denomination of invention: A mute detection method and device

Granted publication date: 20110810

License type: Exclusive License

Record date: 20210317

EE01 Entry into force of recordation of patent licensing contract
TR01 Transfer of patent right

Effective date of registration: 20221017

Address after: 201203 Shanghai city Zuchongzhi road Pudong New Area Zhangjiang hi tech park, Spreadtrum Center Building 1, Lane 2288

Patentee after: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Address before: 101399 Building 8-07, Ronghui Garden 6, Shunyi Airport Economic Core Area, Beijing

Patentee before: Xin Xin finance leasing (Beijing) Co.,Ltd.

TR01 Transfer of patent right