CN104021796A - 语音增强处理方法和装置 - Google Patents

语音增强处理方法和装置 Download PDF

Info

Publication number
CN104021796A
CN104021796A CN201310066421.XA CN201310066421A CN104021796A CN 104021796 A CN104021796 A CN 104021796A CN 201310066421 A CN201310066421 A CN 201310066421A CN 104021796 A CN104021796 A CN 104021796A
Authority
CN
China
Prior art keywords
algebraic
gain
parameter
codebook
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310066421.XA
Other languages
English (en)
Other versions
CN104021796B (zh
Inventor
鲍长春
夏丙寅
杨闳博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310066421.XA priority Critical patent/CN104021796B/zh
Publication of CN104021796A publication Critical patent/CN104021796A/zh
Application granted granted Critical
Publication of CN104021796B publication Critical patent/CN104021796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明实施例提供一种语音增强处理方法和装置,该方法,包括:解码比特流,获取当前待处理语音子帧的编码参数,编码参数包括第一代数码书增益和第一自适应码书增益;调整第一代数码书增益,得到第二代数码书增益;根据第一自适应码书增益和第二代数码书增益,确定第二自适应码书增益;采用第二代数码书增益和第二自适应码书增益的量化索引替换比特流中第一代数码书增益和第一自适应码书增益对应的比特。本发明的技术方案,可以有效改善消除噪音的效果,提高语音通话质量。

Description

语音增强处理方法和装置
技术领域
本发明实施例涉及通信技术,尤其涉及一种语音增强处理方法和装置。
背景技术
语音增强的目的是从带噪语音信号中压缩背景噪音,提取纯净语音,改进通话质量。一般情况下,语音增强算法通常位于移动通信网络的终端设备中,其位置在语音编码之前或者语音解码器之后,但由于功耗、存储空间和成本的限制,终端设备中的语音增强算法通常不能达到很好的增强效果,算法性能无法满足日益提高的需求,因此,越来越多的研究者和通信运营商认为工作于网络设备中的语音增强算法是一种可行的解决方案。在移动网络中使用线性域语音增强技术,但由此引入的附加延时、计算复杂度和语音质量的降低往往是实际应用所不能接受的,所以基于编码参数调整的参数域语音增强方法是在移动通信网络的网络端较为适用的一种语音增强的解决方案。
现有技术中的一种参数域语音增强方法首先对输入含噪码流进行解码,得到解码语音序列,而后使用线性域语音增强方法进行处理,将所得结果与处理前的含噪序列进行比较,得到编码器自适应码书增益和代数码书增益两个参数的调整因子,对其进行调整并重新量化,替换码流中的相应比特,从而达到在编码域消除噪声的目的。
在实现本发明实施例的过程中,发明人发现上述现有技术中的语音增强方法对噪声的消除效果较差,语音通话质量较差。
发明内容
本发明实施例提供一种语音增强处理方法和装置,用于改善消除噪音的效果,提高语音通话质量。
本发明第一方面,提供一种语音增强处理方法,所述方法包括:
解码比特流,获取当前待处理语音子帧的编码参数,所述编码参数包括第一代数码书增益和第一自适应码书增益;
调整所述第一代数码书增益,得到第二代数码书增益;
根据所述第一自适应码书增益和所述第二代数码书增益,确定第二自适应码书增益;
采用所述第二代数码书增益和所述第二自适应码书增益的量化索引替换所述比特流中所述第一代数码书增益和所述第一自适应码书增益对应的比特。
在第一方面的第一种可能的实现方式中,所述编码参数还包括第一代数码书矢量,所述调整所述第一代数码书增益,得到第二代数码书增益,包括:
根据所述第一代数码书增益确定噪声的代数码书增益;
根据所述噪声的代数码书增益和所述第一代数码书矢量确定噪声激励能量估计值;
根据所述第一代数码书增益和所述第一代数码书矢量确定第一代数码书激励能量;
根据所述噪声激励能量估计值和所述第一代数码书激励能量,确定所述当前待处理语音子帧的第一后验信噪比估计值;
根据所述当前待处理语音子帧的能量和所述当前待处理语音子帧的能量的最小值,确定所述当前待处理语音子帧的第二后验信噪比估计值;
根据所述第一后验信噪比估计值和所述第二后验信噪比估计值确定所述当前待处理语音子帧的先验信噪比估计值;
采用所述先验信噪比估计值确定所述当前待处理语音子帧的第一调整因子;
根据所述第一调整因子调整所述第一代数码书增益,确定所述第二代数码书增益。
结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述编码参数中还包括浊音度参数,在所述调整所述第一代数码书增益,得到第二代数码书增益之前,所述方法还包括:
对所述浊音度参数进行平滑处理,得到平滑处理后的浊音度参数;
若所述平滑处理后的浊音度参数大于第一阈值,则确定所述当前待处理语音子帧为第一类子帧;若所述平滑处理后的浊音度参数小于第一阈值,则确定所述当前待处理语音子帧为第二类子帧,其中,所述第一类子帧为浊音帧,所述第二类子帧为清音或噪音帧。
根据第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述对所述浊音度参数进行平滑处理,得到平滑处理后的浊音度参数,包括:
应用以下公式对浊音度参数rv(m)在时间上进行一阶递归平滑生成平滑后的浊音度参数
r ‾ v ( m ) = α v r ‾ v ( m - 1 ) + ( 1 - α v ) r v ( m ) ;
其中,αv为平滑因子,m为当前待处理语音子帧的序号,为前一个语音子帧平滑处理后的浊音度参数。
结合第一方面的第二种或第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述编码参数中还包括第一自适应码书矢量,所述根据所述第一自适应码书增益和所述第二代数码书增益,确定第二自适应码书增益,包括:
若确定当前待处理语音子帧为所述第一类子帧,则获取所述当前待处理语音子帧的第二代数码书矢量以及第二自适应码书矢量;
根据所述第一自适应码书增益、所述第一自适应码书矢量、所述第一代数码书增益以及所述第一代数码书矢量,确定第一总激励能量;
根据所述第一总激励能量和能量调整因子,确定第二总激励能量;
根据所述第二总激励能量、所述第二代数码书增益、所述第二代数码书矢量以及所述第二自适应码书矢量,确定所述第二自适应码书增益。
结合第一方面的第一种至第四种可能的实现方式中任意一种,在第一方面的第五种可能的实现方式中,所述编码参数中还包括第一阻抗频率参数,在所述调整所述第一代数码书增益,得到第二代数码书增益之前,所述方法还包括:
根据所述第一阻抗频率参数确定谱包络低频能量比参数;
若所述谱包络低频能量比参数的平均值大于第二阈值,则确定噪声类型为低频分布噪声;若所述谱包络低频能量比参数的平均值小于所述第二阈值,则确定噪声类型为全带分布噪声。
根据第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,所述根据所述第一阻抗频率参数确定谱包络低频能量比参数,包括:
应用以下公式确定谱包络低频能量比参数Ren_low
R en _ low = Σ i = 0 N low E lpc Σ i = 0 N FFT / 2 E lpc ;
其中,NFFT为LPC谱包络计算中使用的FFT长度,Nlow为低频子带的上限频率,Elpc为使用所述第一阻抗频率参数计算得到的LPC谱包络。
结合第一方面的第五种或第六种可能的实现方式,在第一方面的第七种可能的实现方式中,所述根据所述噪声激励能量估计值和第一代数码书激励能量,确定所述当前待处理语音子帧的第一后验信噪比估计值,包括:
应用以下公式定义第一后验信噪比估计值γexc(m):
γ exc ( m ) = E fcb _ before ( m ) E ~ n ( m ) ;
其中,Efcb_before(m)为第一代数码书激励的能量,为噪声激励能量估计值,m为当前待处理语音子帧的序号;
所述根据当前语音子帧能量和当前语音子帧能量的最小值,确定所述当前待处理语音子帧的第二后验信噪比估计值,包括:
应用以下公式定义第二后验信噪比估计值γsubframe(m):
γ subframe ( m ) = E subframe ( m ) E subframe _ min ;
其中,Esubframe(m)为第m子帧的语音能量,Esubframe_min为子帧能量的最小值,m为当前待处理语音子帧的序号;
所述根据所述第一后验信噪比估计值和所述第二后验信噪比估计值确定先验信噪比估计值,包括:
若确定噪声类型为低频分布噪声,则应用以下公式确定先验信噪比估计值ξ(m):
其中,为第m子帧的平滑浊音度参数,β1为信噪比估计的平滑因子,ξ(m)min为先验信噪比估计的最小值,m为当前待处理语音子帧的序号;
若确定噪声类型为全带分布噪声,则应用以下公式确定先验信噪比估计值ξ(m):
ξ(m)=max(β1ξ(m-1)+(1-β1)max(γexc(m)-1,0),ξ(m)min);
其中,β1为信噪比估计的平滑因子,ξ(m)min为先验信噪比估计的最小值,m为当前待处理语音子帧的序号。
结合第一方面的第一种至第七种可能的实现方式中任意一种,在第一方面的第八种可能的实现方式中,所述采用所述先验信噪比估计值确定第一调整因子,包括:
应用以下公式确定所述当前待处理语音子帧的第一调整因子γgc(m):
γ gc ( m ) = ξ ( m ) 1 + ξ ( m ) ; 或者,
γ gc ( m ) = ξ ( m ) β 2 + ξ ( m ) ; 其中,ξ(m)为先验信噪比估计值,β2为控制噪声衰减量的因子;
结合第一方面的第一种至第八种可能的实现方式中任意一种,在第一方面的第九种可能的实现方式中,所述根据所述第一调整因子调整所述第一代数码书增益,确定第二代数码书增益,包括:
应用以下公式确定第二代数码书增益
g ^ s ( m ) = γ gc ( m ) g y ( m ) ;
其中,gy(m)为第一代数码书增益,γgc(m)为第一调整因子,m为当前待处理语音子帧的序号。
结合第一方面的第四种至第九种可能的实现方式中任意一种,在第一方面的第十种可能的实现方式中,所述根据所述第一自适应码书增益、所述第一自适应码书矢量、所述第一代数码书增益以及所述第一代数码书矢量,确定第一总激励能量,包括:
应用以下公式确定第一总激励能量Ebefore(m):
Ebefore(m)=∑n(gp(m)d(n)+gy(m)c(n))2
其中,gy(m)为第一代数码书增益,gp(m)为第一自适应码书增益,c(n)和d(n)分别为第一代数码书矢量和第一自适应码书矢量,n为采样点的序号;
所述根据所述第一总激励能量和能量调整因子,确定第二总激励能量,包括:
应用以下公式确定第二总激励能量Eafter(m):
Eafter(m)=αeEbefore(m);
其中,Ebefore(m)为第一总激励能量,αe为当前待处理语音子帧的的能量调整因子。
所述根据所述第二总激励能量、所述第二代数码书增益、所述第二代数码书矢量以及所述第二自适应码书矢量,确定所述第二自适应码书增益,包括:
应用以下方程确定第二自适应码书增益
Σn ( g ^ p ( m ) d ′ ( n ) + g ^ s ( m ) c ′ ( n ) ) 2 = E after ( m ) ;
其中,为第二代数码书增益,c′(n)和d′(n)分别为第二代数码书矢量以及第二自适应码书矢量,Eafter(m)为第二总激励能量,n为采样点的序号。
结合第一方面的第五种至第十种可能的实现方式中任意一种,在第一方面的第十一种可能的实现方式中,在所述采用所述第二代数码书增益和所述第二自适应码书增益的量化索引替换所述比特流中所述第一代数码书增益和所述第一自适应码书增益对应的比特之前,所述方法还包括:
若确定噪声类型为低频分布噪声,则根据所述当前待处理语音子帧的先验信噪比估计值和所述平滑处理后的浊音度参数,确定滤波器参数;
根据所述第二代数码书增益、所述第二自适应码书增益、所述第二代数码书矢量以及第二自适应码书矢量,确定总激励信号;
根据所述滤波器参数,对所述总激励信号进行梳状滤波处理。
结合第一方面的第五种至第十一种可能的实现方式中任意一种,在第一方面的第十二种可能的实现方式中,在所述采用所述第二代数码书增益和所述第二自适应码书增益的量化索引替换所述比特流中所述第一代数码书增益和所述第一自适应码书增益对应的比特之前,所述方法还包括:
若确定噪声类型为低频分布噪声,则采用语音信号均方误差最小的增益量化准则对所述第二代数码书增益和所述第二自适应码书增益进行量化;
若确定噪声类型为全带分布噪声,则采用激励信号均方误差最小的增益量化准则对所述第二代数码书增益和所述第二自适应码书增益进行量化。
根据第一方面的第十二种可能的实现方式,在第一方面的第十三种可能的实现方式中,若确定噪声类型为低频分布噪声,所述采用语音信号均方误差最小的增益量化准则对所述第二代数码书增益和所述第二自适应码书增益进行量化,包括:
应用以下公式对所述第二代数码书增益和所述第二自适应码书增益进行量化,具体为:
E = Σn [ x ( n ) - ( g ^ p _ q k y ( n ) + g ^ c _ q k z ( n ) ) ] 2 ;
其中,x(n)为码书搜索的目标矢量,y(n)和z(n)分别为滤波后的自适应和代数码书矢量,分别为增益量化码书中第k个码字对应的自适应码书增益和代数码书增益,E为量化误差,n为采样点的序号;
若确定噪声类型为全带分布噪声,所述采用激励信号均方误差最小的增益量化准则对所述第二代数码书增益和所述第二自适应码书增益进行量化,具体为:
应用以下公式对所述第二代数码书增益和所述第二自适应码书增益进行量化,具体为:
E = Σn [ x e ( n ) - ( g ^ p _ q k d ′ ( n ) + g ^ z _ q k c ′ ( n ) ) ] 2 ;
其中,xe(n)为激励域的目标矢量,c′(n)和d′(n)分别为第二代数码书矢量以及第二自适应码书矢量,分别为增益量化码书中第k个码字对应的自适应码书增益和代数码书增益,E为量化误差,n为采样点的序号。
结合第一方面的第五种至第十三种可能的实现方式中任意一种,在第一方面的第十四种可能的实现方式中,在所述解码比特流,获取当前待处理语音子帧的编码参数之后,所述方法还包括:
若确定当前待处理帧为浊音帧,则根据所述第一阻抗频率参数,确定含噪语音的线性预测系数;
估计确定噪声的线性预测系数、噪声的自相关系数以及纯净语音的自相关系数;
根据所述含噪语音的线性预测系数、所述噪声的线性预测系数、噪声的自相关系数以及纯净语音的自相关系数,确定纯净语音的线性预测系数;
对所述纯净语音的线性预测系数进行变换,得到第二阻抗频率参数;
对所述第二阻抗频率参数进行限定处理;
若所述当前待处理帧的信噪比大于第三阈值,则在连续至少三个语音帧之后,对限定处理后的第二阻抗频率参数进行平滑处理,所述平滑处理为根据所述第一阻抗频率和当前帧之前的至少一帧的调整后的阻抗频率参数计算加权平均值,确定第三阻抗频率参数;
采用所述第三阻抗频率参数的量化索引替换比特流中所述第一阻抗频率参数对应的比特。
根据第一方面的第十四种可能的实现方式,在第一方面的第十五种可能的实现方式中,所述估计确定噪声的线性预测系数、噪声的自相关系数以及纯净语音的自相关系数,包括:
应用以下公式确定噪声线性预测系数
A ^ p = 1 N init Σ m = 0 N init - 1 A y ( l ) ;
其中,Ninit为初始段帧数,Ay(l)为含噪语音第l帧的线性预测系数,l为当前待处理帧的序号;
应用以下公式确定噪声自相关系数的估计值
R ^ p = ILD ( A ^ p , E ^ p ) ;
其中,为噪声的残差能量,ILD表示逆Levinson-Durbin算法,为噪声线性预测系数;
应用以下公式确定纯净语音自相关系数的估计值
R ^ s = R y - β 3 R ^ p ;
其中,Ry为含噪语音的自相关系数,β3为权重因子;
权重因子β3和先验信噪比ξ(l)的关系可以由下式表示:
&beta; 3 = &beta; 3 max &xi; ( l ) < &xi; ( l ) min &beta; 3 max - &beta; 3 max - &beta; 3 min &xi; ( l ) max - &xi; ( l ) min ( &xi; ( l ) - &xi; ( l ) min ) &xi; ( l ) min < &xi; ( l ) < &xi; ( l ) max &beta; 3 min &xi; ( l ) > &xi; ( l ) max
其中,β3max与β3min分别为权重因子的最大值和最小值,ξ(l)max和ξ(l)min分别为帧先验信噪比的最大值和最小值;
应用以下公式确定先验信噪比ξ(l):
&xi; ( l ) = 0.8 &times; &xi; ( l - 1 ) + 0.2 &times; max ( E frame E frame _ min - 1,0 )
其中,Eframe和Eframe_min分别为语音帧能量及语音帧能量的最小值,ξ(l-1)为前一帧的先验信噪比。
本发明第二方面,提供一种语音增强处理方法,包括:
确定不连续传输模式开启,若当前待处理子帧为沉默指示帧,则解码比特流,获取所述沉默指示帧的加权平均阻抗频率参数矢量和平均对数帧能量参数;
对所述平均对数帧能量参数进行衰减调整;
采用调整后的平均对数帧能量参数的量化索引替换所述比特流中平均对数帧能量参数对应的比特。
在第二方面的第一种可能的实现方式中,所述对所述平均对数帧能量参数进行衰减调整,包括:
应用以下公式确定平均对数帧能量参数的增益因子GDTX
G DTX = G min = &xi; min 1 + &xi; min = 0.0306 ;
其中,Gmin为正常语音帧中的最小增益因子,ξmin=-15dB=0.0316,为先验信噪比估计的最小值;
采用所述增益因子对所述平均对数帧能量参数进行衰减调整。
本发明第三方面,提供一种语音增强处理方法,包括:
若确定出现错误帧,则解码比特流,获取对所述错误帧进行恢复得到的当前待处理子帧的编码参数,所述恢复得到的当前待处理子帧的编码参数包括语言活动侦测标志、第四阻抗频率参数、基音参数、第三自适应码书增益;
调整所述第四阻抗频率参数,得到第五阻抗频率参数;
根据编码速率生成随机脉冲位置的第三代数码书矢量;
对所述编码参数中的第三代数码书增益进行调整,得到第四代数码书增益;
对所述语言活动侦测标志、第五阻抗频率参数、所述基音参数、所述随机脉冲位置的第三代数码书索引进行量化,并采用语音信号均方误差最小的增益量化准则对所述第三自适应码书增益和所述第四代数码书增益进行量化;
采用所述第四代数码书增益和所述第三自适应码书增益的联合量化索引、所述第五阻抗频率参数的量化索引以及所述基音参数替换所述比特流中各编码参数对应的比特。
在第三方面的第一种可能的实现方式中,所述对所述编码参数中的第三代数码书增益进行调整,得到第四代数码书增益,包括:
获取前一个正常子帧的代数码书增益的第二调整因子past_scale_gc
应用以下公式确定第四代数码书增益gc_mod
gc_mod=gc×0.9delay×past_scale_gc;
delay为从帧错误发生开始累计的错误的子帧数目,gc为第三代数码书增益。
本发明第四方面,提供一种语音增强处理装置,所述装置包括:
第一获取模块,用于解码比特流,获取当前待处理语音子帧的编码参数,所述编码参数包括第一代数码书增益和第一自适应码书增益;
第一调整模块,用于调整所述第一代数码书增益,得到第二代数码书增益;
第一确定模块,用于根据所述第一自适应码书增益和所述第二代数码书增益,确定第二自适应码书增益;
第一处理模块,用于采用所述第二代数码书增益和所述第二自适应码书增益的量化索引替换所述比特流中所述第一代数码书增益和所述第一自适应码书增益对应的比特。
在第四方面的第一种可能的实现方式中,所述第一调整模块,包括:
信噪比确定单元,用于根据所述第一代数码书增益确定噪声的代数码书增益;根据所述噪声的代数码书增益和所述第一代数码书矢量确定噪声激励能量估计值;根据所述第一代数码书增益和所述第一代数码书矢量确定第一代数码书激励能量;根据所述噪声激励能量估计值和所述第一代数码书激励能量,确定所述当前待处理语音子帧的第一后验信噪比估计值;根据所述当前待处理语音子帧的能量和所述当前待处理语音子帧的能量的最小值,确定所述当前待处理语音子帧的第二后验信噪比估计值;根据所述第一后验信噪比估计值和所述第二后验信噪比估计值确定所述当前待处理语音子帧的先验信噪比估计值;
调整因子确定单元,用于采用所述先验信噪比估计值确定所述当前待处理语音子帧的第一调整因子;
增益参数调整单元,用于根据所述第一调整因子调整所述第一代数码书增益,确定所述第二代数码书增益。
结合第四方面或第四方面的第一种可能的实现方式,在第四方面的第二种可能的实现方式中,所述编码参数中还包括浊音度参数,所述装置还包括判定模块,所述判定模块,包括:
平滑处理单元,用于在所述调整所述第一代数码书增益,得到第二代数码书增益之前,对所述浊音度参数进行平滑处理,得到平滑处理后的浊音度参数;
子帧类型判定单元,用于若所述平滑处理后的浊音度参数大于第一阈值,则确定所述当前待处理语音子帧为第一类子帧;若所述平滑处理后的浊音度参数小于第一阈值,则确定所述当前待处理语音子帧为第二类子帧,其中,所述第一类子帧为浊音帧,所述第二类子帧为清音或噪音帧。
根据第四方面的第二种可能的实现方式,在第四方面的第三种可能的实现方式中,所述平滑处理单元,具体用于:
应用以下公式对浊音度参数rv(m)在时间上进行一阶递归平滑生成平滑后的浊音度参数
r &OverBar; v ( m ) = &alpha; v r &OverBar; v ( m - 1 ) + ( 1 - &alpha; v ) r v ( m ) ;
其中,αv为平滑因子,m为当前待处理语音子帧的序号,为前一个语音子帧平滑处理后的浊音度参数。
结合第四方面的第二种或第三种可能的实现方式,在第四方面的第四种可能的实现方式中,所述编码参数中还包括第一自适应码书矢量,所述第一确定模块,包括:
码书矢量获取单元,用于若所述子帧类型判定单元确定当前待处理语音子帧为所述第一类子帧,则获取所述当前待处理语音子帧的第二代数码书矢量以及第二自适应码书矢量;
总激励能量确定单元,用于根据所述第一自适应码书增益、所述第一自适应码书矢量、所述第一代数码书增益以及所述第一代数码书矢量,确定第一总激励能量;根据所述第一总激励能量和能量调整因子,确定第二总激励能量;
增益参数确定单元,用于根据所述第二总激励能量、所述第二代数码书增益、所述第二代数码书矢量以及所述第二自适应码书矢量,确定所述第二自适应码书增益。
结合第四方面的第一种至第四种可能的实现方式中任意一种,在第四方面的第五种可能的实现方式中,所述编码参数中还包括第一阻抗频率参数,所述判定模块,还包括:
谱包络低频能量比参数确定单元,用于在所述调整所述第一代数码书增益,得到第二代数码书增益之前,根据所述第一阻抗频率参数确定谱包络低频能量比参数;
噪音类型判定单元,用于若所述谱包络低频能量比参数的平均值大于第二阈值,则确定噪声类型为低频分布噪声;若所述谱包络低频能量比参数的平均值小于所述第二阈值,则确定噪声类型为全带分布噪声。
根据第四方面的第五种可能的实现方式,在第四方面的第六种可能的实现方式中,所述谱包络低频能量比参数确定单元,具体用于:
应用以下公式确定谱包络低频能量比参数Ren_low
R en _ low = &Sigma; i = 0 N low E lpc &Sigma; i = 0 N FFT / 2 E lpc ;
其中,NFFT为LPC谱包络计算中使用的FFT长度,Nlow为低频子带的上限频率,Elpc为使用所述第一阻抗频率参数计算得到的LPC谱包络。
结合第四方面的第五种或第六种可能的实现方式,在第四方面的第七种可能的实现方式中,所述信噪比确定单元,具体用于:
应用以下公式定义第一后验信噪比估计值γexc(m):
&gamma; exc ( m ) = E fcb _ before ( m ) E ~ n ( m ) ;
其中,Efcb_before(m)为第一代数码书激励的能量,为噪声激励能量估计值,m为当前待处理语音子帧的序号;
应用以下公式定义第二后验信噪比估计值γsubframe(m):
&gamma; subframe ( m ) = E subframe ( m ) E subframe _ min ;
其中,Esubframe(m)为第m子帧的语音能量,Esubframe_min为子帧能量的最小值,m为当前待处理语音子帧的序号;
若所述噪音类型判定单元确定噪声类型为低频分布噪声,则应用以下公式确定先验信噪比估计值ξ(m):
其中,为第m子帧的平滑浊音度参数,β1为信噪比估计的平滑因子,ξ(m)min为先验信噪比估计的最小值,m为当前待处理语音子帧的序号;
若所述噪音类型判定单元确定噪声类型为全带分布噪声,则应用以下公式确定先验信噪比估计值ξ(m):
ξ(m)=max(β1ξ(m-1)+(1-β1)max(γexc(m)-1,0),ξ(m)min);
其中,β1为信噪比估计的平滑因子,ξ(m)min为先验信噪比估计的最小值,m为当前待处理语音子帧的序号。
结合第四方面的第一种至第七种可能的实现方式中任意一种,在第四方面的第八种可能的实现方式中,所述调整因子确定单元,具体用于:
应用以下公式确定所述当前待处理语音子帧的第一调整因子γgc(m):
&gamma; gc ( m ) = &xi; ( m ) 1 + &xi; ( m ) ; 或者,
其中,ξ(m)为先验信噪比估计值,β2为控制噪声衰减量的因子;
结合第四方面的第一种至第八种可能的实现方式中任意一种,在第四方面的第九种可能的实现方式中,所述码书增益调整单元,具体用于:
应用以下公式确定第二代数码书增益
g ^ s ( m ) = &gamma; gc ( m ) g y ( m ) ;
其中,gy(m)为第一代数码书增益,γgc(m)为第一调整因子,m为当前待处理语音子帧的序号。
结合第四方面的第四种至第九种可能的实现方式中任意一种,在第四方面的第十种可能的实现方式中,所述总激励能量确定单元,具体用于:
应用以下公式确定第一总激励能量Ebefore(m):
Ebefore(m)=∑n(gp(m)d(n)+gy(m)c(n))2
其中,gy(m)为第一代数码书增益,gp(m)为第一自适应码书增益,c(n)和d(n)分别为第一代数码书矢量和第一自适应码书矢量,n为采样点的序号;
应用以下公式确定第二总激励能量Eafter(m):
Eafter(m)=αeEbefore(m);
其中,Ebefore(m)为第一总激励能量,αe为当前待处理语音子帧的的能量调整因子。
所述增益参数确定单元,具体用于:
应用以下方程确定第二自适应码书增益
&Sigma;n ( g ^ p ( m ) d &prime; ( n ) + g ^ s ( m ) c &prime; ( n ) ) 2 = E after ( m ) ;
其中,为第二代数码书增益,c′(n)和d′(n)分别为第二代数码书矢量以及第二自适应码书矢量,Eafter(m)为第二总激励能量,n为采样点的序号。
结合第四方面的第五种至第十种可能的实现方式中任意一种,在第四方面的第十一种可能的实现方式中,所述第一处理模块,还用于:在所述采用所述第二代数码书增益和所述第二自适应码书增益的量化索引替换所述比特流中所述第一代数码书增益和所述第一自适应码书增益对应的比特之前,若确定噪声类型为低频分布噪声,则根据所述当前待处理语音子帧的先验信噪比估计值和所述平滑处理后的浊音度参数,确定滤波器参数;
根据所述第二代数码书增益、所述第二自适应码书增益、所述第二代数码书矢量以及第二自适应码书矢量,确定总激励信号;
根据所述滤波器参数,对所述总激励信号进行梳状滤波处理。
结合第四方面的第五种至第十一种可能的实现方式中任意一种,在第四方面的第十二种可能的实现方式中,所述装置还包括:
第一量化模块,用于在所述采用所述第二代数码书增益和所述第二自适应码书增益的量化索引替换所述比特流中所述第一代数码书增益和所述第一自适应码书增益对应的比特之前,若所述判定模块确定噪声类型为低频分布噪声,则采用语音信号均方误差最小的增益量化准则对所述第二代数码书增益和所述第二自适应码书增益进行量化;
若所述判定模块确定噪声类型为全带分布噪声,则采用激励信号均方误差最小的增益量化准则对所述第二代数码书增益和所述第二自适应码书增益进行量化。
根据第四方面的第十二种可能的实现方式,在第四方面的第十三种可能的实现方式中,若所述判定模块确定噪声类型为低频分布噪声,所述第一量化模块,具体用于:
应用以下公式对所述第二代数码书增益和所述第二自适应码书增益进行量化,具体为:
E = &Sigma;n [ x ( n ) - ( g ^ p _ q k y ( n ) + g ^ c _ q k z ( n ) ) ] 2 ;
其中,x(n)为码书搜索的目标矢量,y(n)和z(n)分别为滤波后的自适应和代数码书矢量,分别为增益量化码书中第k个码字对应的自适应码书增益和代数码书增益,E为量化误差,n为采样点的序号;
若所述判定模块确定噪声类型为全带分布噪声,所述第一量化模块,具体用于:
应用以下公式对所述第二代数码书增益和所述第二自适应码书增益进行量化,具体为:
E = &Sigma;n [ x e ( n ) - ( g ^ p _ q k d &prime; ( n ) + g ^ z _ q k c &prime; ( n ) ) ] 2 ;
其中,xe(n)为激励域的目标矢量,c′(n)和d′(n)分别为第二代数码书矢量以及第二自适应码书矢量,分别为增益量化码书中第k个码字对应的自适应码书增益和代数码书增益,E为量化误差,n为采样点的序号。
结合第四方面的第五种至第十三种可能的实现方式中任意一种,在第四方面的第十四种可能的实现方式中,所述装置还包括第二调整模块,所述第二调整模块,包括:
第一确定单元,用于在所述解码比特流,获取当前待处理语音子帧的编码参数之后,若确定当前待处理帧为浊音帧,则根据所述第一阻抗频率参数,确定含噪语音的线性预测系数;
第二确定单元,用于估计确定噪声的线性预测系数、噪声的自相关系数以及纯净语音的自相关系数;
第三确定单元,用于根据所述含噪语音的线性预测系数、所述噪声的线性预测系数、噪声的自相关系数以及纯净语音的自相关系数,确定纯净语音的线性预测系数;
所述第一处理模块,还用于:对所述纯净语音的线性预测系数进行变换,得到第二阻抗频率参数;
对所述第二阻抗频率参数进行限定处理;
若所述当前待处理帧的信噪比大于第三阈值,则在连续至少三个语音帧之后,对限定处理后的第二阻抗频率参数进行平滑处理,所述平滑处理为根据所述第一阻抗频率和当前帧之前的至少一帧的调整后的阻抗频率参数计算加权平均值,确定第三阻抗频率参数;
所述第一量化模块,还用于采用所述第三阻抗频率参数的量化索引替换比特流中所述第一阻抗频率参数对应的比特。
根据第四方面的第十四种可能的实现方式,在第四方面的第十五种可能的实现方式中,所述第二确定单元,具体用于:
应用以下公式确定噪声线性预测系数
A ^ p = 1 N init &Sigma; m = 0 N init - 1 A y ( l ) ;
其中,Ninit为初始段帧数,Ay(l)为含噪语音第l帧的线性预测系数,l为当前待处理帧的序号;
应用以下公式确定噪声自相关系数的估计值
R ^ p = ILD ( A ^ p , E ^ p ) ;
其中,为噪声的残差能量,ILD表示逆Levinson-Durbin算法,为噪声线性预测系数;
应用以下公式确定纯净语音自相关系数的估计值
R ^ s = R y - &beta; 3 R ^ p ;
其中,Ry为含噪语音的自相关系数,β3为权重因子;
权重因子β3和先验信噪比ξ(l)的关系可以由下式表示:
&beta; 3 = &beta; 3 max &xi; ( l ) < &xi; ( l ) min &beta; 3 max - &beta; 3 max - &beta; 3 min &xi; ( l ) max - &xi; ( l ) min ( &xi; ( l ) - &xi; ( l ) min ) &xi; ( l ) min < &xi; ( l ) < &xi; ( l ) max &beta; 3 min &xi; ( l ) > &xi; ( l ) max
其中,β3max与β3min分别为权重因子的最大值和最小值,ξ(l)max和ξ(l)min分别为帧先验信噪比的最大值和最小值;
应用以下公式确定先验信噪比ξ(l):
&xi; ( l ) = 0.8 &times; &xi; ( l - 1 ) + 0.2 &times; max ( E frame E frame _ min - 1,0 )
其中,Eframe和Eframe_min分别为语音帧能量及语音帧能量的最小值,ξ(l-1)为前一帧的先验信噪比。
本发明第五方面,提供一种语音增强处理装置,包括:
第二获取模块,用于确定不连续传输模式开启,若当前待处理子帧为沉默指示帧,则解码比特流,获取所述沉默指示帧的加权平均阻抗频率参数矢量和平均对数帧能量参数;
第三调整模块,用于对所述平均对数帧能量参数进行衰减调整;
第二处理模块,用于采用调整后的平均对数帧能量参数的量化索引替换所述比特流中平均对数帧能量参数对应的比特。
在第五方面的第一种可能的实现方式中,所述第三调整模块,具体用于:
应用以下公式确定平均对数帧能量参数的增益因子GDTX
G DTX = G min = &xi; min 1 + &xi; min = 0.0306 ;
其中,Gmin为正常语音帧中的最小增益因子,ξmin=-15dB=0.0316,为先验信噪比估计的最小值;
采用所述增益因子对所述平均对数帧能量参数进行衰减调整。
本发明第六方面,提供一种语音增强处理装置,包括:
第三获取模块,用于若确定出现错误帧,则解码比特流,获取对所述错误帧进行恢复得到的当前待处理子帧的编码参数,所述恢复得到的当前待处理子帧的编码参数包括语言活动侦测标志、第四阻抗频率参数、基音参数、第三自适应码书增益;
第四调整模块,用于调整所述第四阻抗频率参数,得到第五阻抗频率参数;
第二确定模块,用于根据编码速率生成随机脉冲位置的第三代数码书矢量;
所述第四调整模块,还用于对所述编码参数中的第三代数码书增益进行调整,得到第四代数码书增益;
第二量化模块,用于对所述语言活动侦测标志、第五阻抗频率参数、所述基音参数、所述随机脉冲位置的第三代数码书索引进行量化,并采用语音信号均方误差最小的增益量化准则对所述第三自适应码书增益和所述第四代数码书增益进行量化;
第三处理模块,用于采用所述第四代数码书增益和所述第三自适应码书增益的联合量化索引、所述第五阻抗频率参数的量化索引以及所述基音参数替换所述比特流中各编码参数对应的比特。
在第六方面的第一种可能的实现方式中,所述第四调整模块,具体用于:
获取前一个正常子帧的代数码书增益的第二调整因子past_scale_gc
应用以下公式确定第四代数码书增益gc_mod
gc_mod=gc×0.9delay×past_scale_gc;
delay为从帧错误发生开始累计的错误的子帧数目,gc为第三代数码书增益。
本发明实施例提供一种语音增强处理方法和装置,通过首先解码比特流,获取当前待处理语音子帧的编码参数,再调整编码参数中的第一代数码书增益,得到第二代数码书增益,根据第一自适应码书增益和第二代数码书增益,确定第二自适应码书增益,最后采用第二代数码书增益和第二自适应码书增益的量化索引替换比特流中第一代数码书增益和第一自适应码书增益对应的比特,可以有效改善消除噪音的效果,提高语音通话质量。
应用于语音增强处理装置处理方法的存储器中存储有一组代码,处理器调用存储器中存储的代码,以用于:
解码比特流,获取当前待处理语音子帧的编码参数,所述编码参数包括第一代数码书增益和第一自适应码书增益;
调整所述第一代数码书增益,得到第二代数码书增益;
根据所述第一自适应码书增益和所述第二代数码书增益,确定第二自适应码书增益;
采用所述第二代数码书增益和所述第二自适应码书增益的量化索引替换所述比特流中所述第一代数码书增益和所述第一自适应码书增益对应的比特。
处理器调用存储器中存储的代码还可以用于执行发明提供的语音增强处理方法,实现本发明提供的语音增强处理装置的功能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的语音增强处理方法实施例一的示意图;
图2为本发明提供的语音增强处理方法实施例二的示意图;
图3为本发明提供的语音增强处理方法实施例三的示意图;
图4为语音相关系数估计中权重因子与帧先验信噪比的关系;
图5为阻抗频率参数的平滑原理;
图6为本发明提供的语音增强处理方法实施例四的流程图;
图7为本发明提供的语音增强处理方法实施例五的流程图;
图8为脉冲位置的随机化原理示意图;
图9为本发明提供的语音增强处理装置实施例一的结构示意图;
图10为本发明提供的语音增强处理装置实施例二的结构示意图;
图11为本发明提供的语音增强处理装置实施例三的结构示意图;
图12为本发明提供的语音增强处理装置实施例四的工作原理示意图;
图13为本发明提供的语音增强处理装置实施例五的结构示意图;
图14为本发明提供的语音增强处理装置实施例六的结构示意图;
图15为本发明提供的语音增强处理装置实施例七的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的语音增强处理方法实施例一的示意图,如图1所示,本实施例的执行主体可以是语音增强处理装置,本实施例的语音增强处理方法,包括:
S101、解码比特流,获取当前待处理语音子帧的编码参数,编码参数包括第一代数码书增益和第一自适应码书增益。
具体来说,用户设备中的语音编码器对语音进行编码后发送至网络设备中,网络设备中的语音增强处理装置中的第一部分解码器对接收到的比特流进行部分解码,可以是对编码参数对应的比特进行解码,以获取含噪语音的编码参数。
本实施例的语音增强处理方法可以是在国际电信联盟远程通信标准化组织(ITU Telecommunication Standardization Sector,以下简称ITU-T)G.722.2,即第三代合作伙伴计划,(The3rd Generation Partnership Project,以下简称3Gpp)自适应多速率宽带编码器(Adaptive Multi-Rate Wideband,以下简称AMR-WB)编码标准基础上实现的,ITU-T G.722.2宽带语音编解码器是一种应用于移动通信的语音编码标准,共有9种编码速率,即23.5、23.05、19.85、18.25、15.85、14.25、12.65、8.85和6.6kbps,G.722.2编码器是一种基于ACELP模型的语音编码标准,可以为12.65kbps及以上的编码模式提供高质量的宽带语音,8.85和6.6kbps两种速率一般应用于环境非常恶劣的无线信道环境或者网络拥塞的场合。
G.722.2编码器输入语音的采样率为16kHz,帧长为20ms,每一帧可以划分为4个子帧。编码时将语音分为两个子带,即50-6400Hz的中低频带和6400-7000Hz的高频带。其编码方法是相对独立的,这样的处理可以降低计算复杂度,并保证最重要的频率范围可以用较多的比特进行编码。50-6400Hz的中低频带使用代数码激励线性预测(Algebraic Code-Excited LinearPrediction,以下简称ACELP)模型进行编码,可以用较低的速率获得较高的编码质量。编码器每帧进行一次线性预测分析,每5ms进行一次自适应码书和代数码数激励的最优化。整个编码工作过程以12.8kHz的采样频率进行,高频部分使用解码器中重建的随机激励,并根据低频线性预测滤波器产生高频谱包络。
G.722.2语音编码器的基本编码参数包括:阻抗频率(Immittance SpectralFrequency,以下简称ISF)、基音(pitch)、代数码书索引以及自适应码书和代数码书增益,其中,ISF参数主要描述语音的谱包络特征,对应码激励线性预测(Code-Excited Linear Prediction,以下简称CELP)模型中的线性预测系数(LinearPrediction Coefficient,以下简称LPC)合成滤波器;基音参数表征语音信号的周期性特征;代数码书索引表示语音信号中的随机成分;自适应码书增益gp(m)和代数码书增益gy(m)参数表征激励信号的能量信息。
可以理解的是,本发明的技术方案不仅适用于ITU-T G.722.2编解码标准,还可以移植到所有基于CELP模型的语音编解码系统中,例如应用于网络语音通信的ITU-T G.729标准,同样可以应用于移动通信网络的自适应多速率窄带编码器(Adaptive Multi-Rate Narrowband,以下简称AMR-NB)、增强型可变速率宽带编解码器(Enhanced Variable Rate Wideband,以下简称EVRC-WB)等编解码标准,以及G.718等以CELP为核心层的语音及音频编解码器中。
根据不同应用场景的需要,本领域技术人员可以对本发明技术方案中的相应参数进行调整。
由于本实施例中每子帧进行一次码书增益的调整,所以本实施例的编码参数可以包括当前待处理语音子帧的第一代数码书增益和第一自适应码书增益,本实施例对比特流的解码以获取编码参数,可以仅对比特流进行部分解码,以达到减少语音增强处理过程中的计算量,而现有技术需要依赖线性域增强算法对增益参数进行调整,所以需要对含噪语音比特流进行全解码,计算量较大。
S102、调整第一代数码书增益,得到第二代数码书增益。
具体来说,第一代数码书增益为对比特流进行部分解码得到的编码参数中的代数码书增益,第二代数码书增益为调整后的代数码书增益。
可选地,本实施例对第一代数码书增益的调整方法可以包括以下五个步骤:
第一步:根据第一代数码书增益确定噪声的代数码书增益。
举例来说,ITU-T G.722.2编码器中的编码参数可以包括阻抗频率对(Immittance Spectral Pair,简称ISP)、基音延迟、代数码书索引、自适应和代数码书增益等。而在这些参数中,码书增益参数反映的是激励信号的能量信息,因此在噪声场景下,噪声造成的语音幅度的变化会直接反映在这两个参数上。
从实验数据分析来看,加入噪声前后,自适应码书增益的取值有减小的趋势,而代数码书增益的分布向取值增大的方向发生了偏移,根据分析,此偏移量与噪声的强度有关,噪声强度越大,偏移量越大。
从上面的分析可以知道,在加入噪声后,代数码书增益的变化规律与噪声强度有关,因此可以通过搜索代数码书能量的最小值来获得噪声强度的大致估计。
噪声代数码书增益的估计方法描述如下:
应用公式(1)对含噪语音的代数码书增益gy(m)进行平滑处理:
P ( m ) = &alpha; ( m ) P ( m - 1 ) + ( 1 - &alpha; ( m ) ) g y 2 ( m ) - - - ( 1 )
其中,α(m)为根据子帧自适应的平滑因子,α(m)=0.95。
应用公式(2)在长度为D子帧的窗内进行最小值搜索:
Pmin(m)=min(P(m),...,P(m-D))    (2)
应用公式(2)在长度为D子帧的窗内进行最小值搜索的方法会引入最小值估计的偏差,这种偏差可以由过估因子Over进行补偿,则噪声的代数码书增益可以应用公式(3)进行估计如下:
g ^ y 2 ( m ) = over &CenterDot; P min ( m ) - - - ( 3 )
第二步:根据噪声的代数码书增益和第一代数码书矢量确定噪声激励能量估计值。
利用第一步得到的噪声的代数码书增益可以应用公式(4)得到噪声激励能量估计值
E ^ n ( m ) = g ^ y 2 ( m ) &Sigma;n c m 2 ( n ) - - - ( 4 )
在ITU-T G.722.2编码器中,代数码书矢量中的脉冲位置可能发生相互重叠的情况,因此不带增益的代数码书能量不是一个定值,从而造成在帧间过快的变化。
为解决这一问题需要再进行一次最小值搜索,搜索的对象是所得结果即最终的噪声激励能量估计结果。
第三步:根据第一代数码书增益和第一代数码书矢量确定第一代数码书激励能量。
具体来说,第一代数码书激励能量可以是根据增益参数调整前的代数码书增益和代数码书矢量计算得到的代数码书激励能量。
第四步:根据噪声激励能量估计值和第一代数码书激励能量,确定当前待处理语音子帧的第一后验信噪比估计值。
具体来说,信噪比估计算法利用噪声激励能量的估计计算后验信噪比和先验信噪比,用以计算码书增益的调整因子,为得到较好的增强效果,信噪比估计应相对平稳并有较好的噪声适应性。
应用公式(5)定义第一后验信噪比估计值γexc(m):
&gamma; exc ( m ) = E fcb _ before ( m ) E ~ n ( m ) - - - ( 5 )
其中,Efcb_before(m)为第一代数码书激励的能量,为噪声激励能量估计值,m为当前待处理语音子帧的序号。
第五步:根据当前待处理语音子帧的能量和当前待处理语音子帧的能量的最小值,确定当前待处理语音子帧的第二后验信噪比估计值
应用公式(6)定义第二后验信噪比估计值γsubframe(m):
&gamma; subframe ( m ) = E subframe ( m ) E subframe _ min - - - ( 6 )
其中,Esubframe(m)为第m子帧的语音能量,Esubframe_min为子帧能量的最小值,m为当前待处理语音子帧的序号,Esubframe_min的最小值搜索区间长度为180子帧。
第一后验信噪比估计值和第二后验信噪比估计值具有不同的特点,基于第一代数码书激励的能量的γexc(m)在清音段估计较为准确,在白噪声等全带分布噪声下估计性能较好,而在低频分布噪声下容易在浊音段产生信噪比欠估现象;而另一方面,基于语音子帧能量的γsubframe(m)噪声适应性较好,且在清音和浊音段均可获得较可靠的估计结果,但由于存在估计值偏高的问题,直接使用γsubframe(m)计算先验信噪比容易导致较多的残留噪声。
故本实施例提出了一种根据噪声类型自适应的信噪比估计方法,将两种形式的后验信噪比估计结合起来,对全带分布噪声和低频分布噪声采用不同的估计准则,描述如下:
第六步:根据第一后验信噪比估计值和第二后验信噪比估计值确定当前待处理语音子帧的先验信噪比估计值。
具体可以包括:
若确定噪声类型为低频分布噪声,则应用公式(7)确定先验信噪比ξ(m):
(7)
其中,为第m子帧的平滑浊音度参数,β1为信噪比估计的平滑因子,ξ(m)min为先验信噪比估计的最小值,m为当前待处理语音子帧的序号。
这种估计方法的优势在于:在浊音度较大的语音帧中,将γexc(m)和γsubframe(m)以加权求和方式结合起来,在弱语音段中能够在一定程度上避免先验信噪比欠估的问题;而在浊音度较小时,直接使用γexc(m)进行估计可以保证较强的噪声抑制能力。
在全带分布噪声情况下,本实施例提出一种后验信噪比控制的递归平均(Posteriori SNR Controlled Recursive Averaging,PCRA)估计方法,利用后验信噪比判断当前待处理子帧的语音存在性,估计语音存在概率并控制先验信噪比的更新速度。具体方法描述如下:
首先应用公式(8)对基于语音子帧能量的第一后验信噪比γsubframe(m)估计值进行平滑处理:
&gamma; &OverBar; subframe ( m ) = &alpha; &gamma; &gamma; &OverBar; subframe ( m - 1 ) + ( 1 - &alpha; &gamma; ) &gamma; subframe ( m ) - - - ( 8 )
其中,αγ=0.8为后验信噪比的平滑因子。
与阈值进行比较,若大于阈值则判定语音存在,令语音存在标志I(m)=1,否则设定I(m)=0;
而后应用公式(9)计算语音存在概率:
p(m)=αpp(m-1)+(1-αp)I(m)    (9)
其中,平滑因子αp=0.8。
进而应用公式(10)根据语音存在概率确定先验信噪比的平滑因子β1:
β1=β1min+(0.9-β1min)(1-p(m))    (10)
其中,β1min=0.8为平滑因子的最小值。最后应用公式(11)计算先验信噪比估计值,表示如下:
ξ(m)=max(β1ξ(m-1)+(1-β1)max(γexc(m)-1,0),ξmin)    (11)
在全带分布噪声情况下,基于第一代数码书激励的能量的第二后验信噪比估计值γexc在噪声段存在较多的波动情况,而使用上面的方法,利用基于语音子帧能量的第一后验信噪比估计值γsubframe控制先验信噪比的更新速度,则可以得到较平稳的估计结果,噪声段波动明显减少。
可以理解的是,在语音增强处理之后,可以根据Decision-Directed方法,对先验信噪比估计值进行更新,用于下一子帧的信噪比估计,应用公式(12)进行更新如下:
&xi; ( m ) = E fcb _ after ( m ) E ~ n ( m ) - - - ( 12 )
其中,Efcb_after(m)为增强处理后代数码书激励的能量。
第七步:采用先验信噪比估计值确定当前待处理语音子帧的第一调整因子。
应用公式(13)或者(14)确定第一调整因子γgc(m):
&gamma; gc ( m ) = &xi; ( m ) 1 + &xi; ( m ) - - - ( 13 )
或者,
&gamma; gc ( m ) = &xi; ( m ) &beta; 2 + &xi; ( m ) - - - ( 14 )
其中,ξ(m)为先验信噪比估计值,β2为控制噪声衰减量的因子,其中γgc(m)为一个具有维纳滤波形式的调整因子,β2可以选择固定值,也可以按信噪比进行自适应调整;
第八步:根据第一调整因子调整第一代数码书增益,确定第二代数码书增益。
应用公式(15)确定第二代数码书增益
g ^ s ( m ) = &gamma; gc ( m ) g y ( m ) - - - ( 15 )
其中,gy(m)为第一代数码书增益,γgc(m)为第一调整因子,m为当前待处理语音子帧的序号。
本实施例根据噪音类型,选择不同的确定先验信噪比估计值的方法,使得先验信噪比估计值的准确度更高,从而可以使得对代数码书增益的调整因子的估计更加准确,进而使得对代数码书增益的调整更加准确,获得更好的去除噪音的效果。
S103、根据第一自适应码书增益和第二代数码书增益,确定第二自适应码书增益。
具体来说,可以根据第二代数码书增益、第二代数码书矢量、第二自适应码书矢量以及编码参数中的第一自适应码书增益、第一自适应码书矢量、第一代数码书矢量,采用能量守恒准则确定第二自适应码书增益。
S104、采用第二代数码书增益和第二自适应码书增益的量化索引替换比特流中第一代数码书增益和第一自适应码书增益对应的比特。
具体来说,可以采用第二代数码书增益和第二自适应码书增益的量化索引替换比特流中第一代数码书增益和第一自适应码书增益对应的比特,从而实现对当前语音帧的语音增强。
本实施例的语音增强处理方法,通过首先解码比特流,获取当前待处理语音子帧的编码参数,再调整编码参数中的第一代数码书增益,得到第二代数码书增益,根据第一自适应码书增益和第二代数码书增益,确定第二自适应码书增益,最后采用第二代数码书增益和第二自适应码书增益的量化索引替换比特流中第一代数码书增益和第一自适应码书增益对应的比特,可以有效改善消除噪音的效果,提高语音通话质量。
图2为本发明提供的语音增强处理方法实施例二的示意图,如图2所示,本实施例的执行主体可以是语音增强处理装置,本实施例的语音增强处理方法,在图1所示实施例的基础上,对语音子帧和噪音进行分类,并根据语音子帧和噪音的类型进行不同的处理,包括:
S201、解码比特流,获取当前待处理语音子帧的编码参数,编码参数包括第一代数码书增益、第一自适应码书增益、浊音度参数以及第一阻抗频率参数。
S202、对浊音度参数进行平滑处理,得到平滑处理后的浊音度参数。
本实施例利用了解码比特流后获取到的编码参数中的浊音度参数,浊音度参数用于辅助后续编码参数调整的过程,可以将其作为区分浊音段和清音及噪声段的辅助参数。
浊音度参数rv(m)(m为当前待处理语音子帧序号)由解码器的自适应码书和代数码书能量定义,其取值在-1到1之间,-1对应完全的清音信号,1对应完全的浊音信号。可以通过将平滑处理后的浊音度参数与第一阈值比较来判断当前待处理子帧是浊音帧还是清音及噪声帧。
可选地,S202具体可以是:
应用公式(16)对浊音度参数rv(m)在时间上进行一阶递归平滑生成平滑后的浊音度参数
r &OverBar; v ( m ) = &alpha; v r &OverBar; v ( m - 1 ) + ( 1 - &alpha; v ) r v ( m ) - - - ( 16 )
其中,αv为平滑因子,αv的取值为0.9。
S203、若平滑处理后的浊音度参数大于第一阈值,则确定当前待处理语音子帧为第一类子帧;若平滑处理后的浊音度参数小于第一阈值,则确定当前待处理语音子帧为第二类子帧,其中,第一类子帧为浊音帧,第二类子帧为清音或噪音帧。
具体来说,可以将与第一阈值浊音度阈值Tv进行比较,第一阈值可以是浊音度阈值Tv,若大于Tv,则当前待处理语音子帧为浊音帧,否则为清音或背景噪声帧,浊音度阈值Tv根据噪声背景的不同进行自适应,对全带分布噪声阈值设定为-0.7,对低频分布噪声,阈值设定为-0.56。
S204、根据第一阻抗频率参数确定谱包络低频能量比参数。
由于CELP编码模型中的编码参数在不同噪声下有不同的变化规律,要得到较好的语音增强效果,需要根据噪声的类别使用不同的调整方法。
本实施例中使用噪声段LPC谱包络中低频部分的能量比区分噪声类型,将其分为白噪声等能量分布均匀的噪声,以及车内噪声等能量集中于低频的噪声。
可选地,S204具体可以是应用公式(17)确定谱包络低频能量比参数Ren_low
R en _ low = &Sigma; i = 0 N low E lpc &Sigma; i = 0 N FFT / 2 E lpc - - - ( 17 )
其中,NFFT为LPC谱包络计算中使用的FFT长度,Nlow为低频子带的上限频率,Elpc为使用含噪ISF参数计算得到的LPC谱包络。
S205、若谱包络低频能量比参数的平均值大于第二阈值,则确定噪声类型为低频分布噪声;若谱包络低频能量比参数的平均值小于第二阈值,则确定噪声类型为全带分布噪声。
举例来说,计算初始段中低频能量比参数的平均值,并将其与阈值0.3进行比较,若大于阈值,则判定为低频分布噪声,否则判定为全带分布噪声类别。
S206、调整第一代数码书增益,得到第二代数码书增益。
S207、若确定当前待处理语音子帧为第一类子帧,则获取当前待处理语音子帧的第二代数码书矢量以及第二自适应码书矢量。
现有技术中仅调整代数码书增益的方法虽然能够很好的抑制噪声成分,但对语音成分存在严重的能量损失情况。这是由于CELP模型中,代数码书和自适应码书激励是相互关联的,单纯降低代数码书增益虽然可以减小其中包含的噪声,同时也会造成激励能量的降低,这种影响会通过长时预测器的作用反馈带自适应码书中。如果不同时对自适应码书增益进行调整,将必然造成语音信号能量的损失。
语音成分的能量损失情况一般发生在浊音语音段,因此需要首先将输入帧分为浊音和清音、背景音两大类。
如果输入帧判定为第二类子帧,即清音或背景音,则保持自适应码书增益不变,否则按照下面的方法对自适应码书增益进行调整。
对于第一类子帧,即浊音帧的能量损失问题,在能量守恒的准则下提出了一种自适应码书增益的调整方法,其基本原理是保证增益调整后的总激励信号能量等于按一定比例衰减的含噪激励信号能量。
S208、根据第一自适应码书增益、第一自适应码书矢量、第一代数码书增益以及第一代数码书矢量,确定第一总激励能量。
可选地,可以应用公式(18)确定第一总激励能量Ebefore(m):
Ebefore(m)=∑n(gp(m)d(n)+gy(m)c(n))2    (18)
其中,gy(m)为第一代数码书增益,gp(m)为第一自适应码书增益,c(n)和d(n)分别为第一代数码书矢量和第一自适应码书矢量,n为采样点的序号;
S209、根据第一总激励能量和能量调整因子,确定第二总激励能量。
可选地,可以应用公式(19)确定第二总激励能量Eafter(m):
Eafter(m)=αeEbefore(m)    (19)
其中,Ebefore(m)为第一总激励能量,αe为当前待处理语音子帧的的能量调整因子。
S210、根据第二总激励能量、第二代数码书增益、第二代数码书矢量以及第二自适应码书矢量,确定第二自适应码书增益。
可选地,可以应用公式(20)确定第二自适应码书增益
&Sigma;n ( g ^ p ( m ) d &prime; ( n ) + g ^ s ( m ) c &prime; ( n ) ) 2 = E after ( m ) - - - ( 20 )
其中,为第二代数码书增益,c′(n)和d′(n)分别为第二代数码书矢量以及第二自适应码书矢量,Eafter(m)为第二总激励能量,n为采样点的序号。
具体来说,第一总激励能量为增益参数调整前的总激励能量,第二总激励能量为增益参数调整后的总激励能量。
本实施例中,αe(m)的取值等于代数码书增益的调整因子γgc(m),这样,αe(m)Ebefore(m)可以看作纯净激励信号能量的一个近似估计。
将公式(19)用自适应码书、代数码书及其增益参数的形式表示为公式(21):
&Sigma;n ( g ^ p ( m ) d &prime; ( n ) + g ^ s ( m ) c &prime; ( n ) ) 2 = &alpha; e ( g p ( m ) d ( n ) + g y ( m ) c ( n ) ) 2 - - - ( 21 )
化简可得公式(22):
E a g ^ p 2 + 2 g ^ s E c g ^ p + g ^ s 2 E u - &alpha; e E before = 0 - - - ( 22 )
其中,Ea、Eu和Ec可分别采用公式(23)、(24)、(25)表示:
Ea=∑n(d′(n))2    (23)
Eu=∑n(c′(n))2    (24)
Ec=∑nd′(n)c′(n)    (25)
Ea、Eu和Ec分别为增益参数调整后的比特流经过部分解码器得到的自适应码书和代数码书矢量的能量,以及代数码书和自适应码书矢量的互相关函数。
求解公式(21),选取其中较大的正根并将其取值限定在gp(m)的最大量化值以下,表示为公式(26):
g ^ p ( m ) = min ( root , g p _ qua _ max ) - - - ( 26 )
S211、若确定噪声类型为低频分布噪声,则根据当前待处理语音子帧的先验信噪比估计值和平滑处理后的浊音度参数,确定滤波器参数。
S212、根据第二代数码书增益、第二自适应码书增益、第二代数码书矢量以及第二自适应码书矢量,确定总激励信号。
S213、根据滤波器参数,对总激励信号进行梳状滤波处理。
具体来说,梳状滤波对有色噪声下的质量提高十分重要,有利于去除极低频率处的噪声,消除谐波间噪声并重建部分谐波结构,而在白噪声下对语音质量的影响比较大。
因此需要根据噪声类型判别的结果选择是否使用梳状滤波,若判定为White等全带分布噪声,则不使用,若判定为Street、Volvo等低频分布噪声,则应当使用梳状滤波。
本实施例中使用的自适应梳状滤波器可以表示公式(27):
H ( z ) = 1 + az - T 1 - bz - T - - - ( 27 )
其中,H(z)为自适应梳状滤波器的传递函数,a和b为滤波器参数,T为当前子帧的整数基音周期。
一般情况下,梳状滤波算法的系数a和b是固定不变的,本实施例根据输入信号的特征选择适当的系数组合。
系数的选择规律分为以下三种情况:
(1)信噪比和浊音度均较小:对应噪声段,不应进行滤波,避免产生附加的谐波成分;
(2)信噪比较高,浊音度较小:对应清音和较弱的浊音成分,滤波强度应当较小;
(3)信噪比和浊音度均较大:对应较强的浊音成分,滤波程度应当较大。
以增强语音质量为指标,对滤波器系数组合进行优化,可以得到如下的最优系数组合:
表1梳状滤波器系数选择表
条件 系数a 系数b
浊音度>-0.53&&ξ>180 0.31 0.0
浊音度>-0.53&&ξ<180 0.30 0.0
浊音度<=-0.53 ---- ----
S214、若确定噪声类型为低频分布噪声,则采用语音信号均方误差最小的增益量化准则对第二代数码书增益和第二自适应码书增益进行量化。
使用线性域的语音增强处理方法,类似梳状滤波等算法对激励信号进行处理后,最终需要将其影响体现在编码参数上,本方案中使用增益参数的联合量化器以达到这一目的。
可选地,S214具体可以是应用公式(28)对第二代数码书增益和第二自适应码书增益进行量化,具体为:
E = &Sigma;n [ x ( n ) - ( g ^ p _ q k y ( n ) + g ^ c _ q k z ( n ) ) ] 2 - - - ( 28 )
其中,x(n)为码书搜索的目标矢量,y(n)和z(n)分别为滤波后的自适应和代数码书矢量,分别为增益量化码书中第k个码字对应的自适应码书增益和代数码书增益,E为量化误差,n为采样点的序号。
可选地,若确定噪声类型为全带分布噪声,采用激励信号均方误差最小的增益量化准则对第二代数码书增益和第二自适应码书增益进行量化。
采用激励信号均方误差最小的增益量化准则对第二代数码书增益和第二自适应码书增益进行量化,具体为:
应用公式(29)对调整后的码书增益进行量化,具体为:
E = &Sigma;n [ x e ( n ) - ( g ^ p _ q k d &prime; ( n ) + g ^ c _ q k c &prime; ( n ) ) ] 2 - - - ( 29 )
其中,xe(n)为激励域的目标矢量,c′(n)和d′(n)分别为第二代数码书矢量以及第二自适应码书矢量,分别为增益量化码书中第k个码字对应的自适应码书增益和代数码书增益,E为量化误差,n为采样点的序号。
可以理解的是,上述增益参数的量化方法是根据噪声类型的不同选择适当的量化准则,这样的方法在噪声类别切换时需要进行量化历史的处理,且利用语音信号均方误差最小的准则进行量化,计算复杂度比较高。
也可以对不同噪音类型的语音帧均使用激励信号均方误差最小的准则进行量化,计算复杂度会得到进一步的降低。
可以理解的是,在对总激励信号进行梳状滤波处理后,更新第二代数码书增益、第二自适应码书增益、第二代数码书矢量、第二自适应码书矢量以及调整后的总激励信号,可以保证激励历史的正常更新。
在本实施例的语音增强处理方法中,只有保证部分解码器的激励历史与目标端解码器的历史完全一致,才能够将语音增强的效果完整的体现在解码端。
为此,需要将修正以后的码流在部分解码器中进行解码,以获得调整后的激励参数。等效的,本实施例在程序中,将调整后的编码器参数,包括代数码书增益、自适应码书增益、代数码书矢量以及总激励信号更新到部分解码器中,保证激励历史的正常更新。
S215、采用第二代数码书增益和第二自适应码书增益的量化索引替换比特流中第一代数码书增益和第一自适应码书增益对应的比特。
本实施例的语音增强处理方法,通过首先调整第一代数码书增益,得到第二代数码书增益,根据第一自适应码书增益和第二代数码书增益,确定第二自适应码书增益,再对调整后的总激励信号进行滤波后处理、对第二代数码书增益和第二自适应码书增益进行量化、最后采用第二代数码书增益和第二自适应码书增益的量化索引替换比特流中第一代数码书增益和第一自适应码书增益对应的比特,可以较大程度改善消除噪音的效果,提高语音通话质量。
图3为本发明提供的语音增强处理方法实施例三的示意图,如图3所示,本实施例的执行主体可以是语音增强处理装置,本实施例的语音增强处理方法,在图2所示实施例的基础上,对谱包络参数进行调整,包括:
S301、解码比特流,获取当前待处理语音子帧的编码参数,编码参数包括第一代数码书增益、第一自适应码书增益以及第一阻抗频率参数。
S302、若确定当前待处理帧为浊音帧,则根据第一阻抗频率参数,确定含噪语音的线性预测系数。
具体来说,若确定当前待处理帧为清音或噪音帧时,本实施例考虑到实际通信中应当保持通话环境的特性,即背景噪声特性不变,因此不需要对阻抗频率参数进行调整。
若确定当前待处理帧为浊音帧,则需要对阻抗频率参数进行调整。
按照公式(30)估计纯净语音的LPC系数:
As=Ay+(Γs)-1Γp(Ay-Ap)    (30)
其中,As为纯净语音的LPC系数,Γs为纯净语音的自相关矩阵,Γp为噪声的自相关矩阵,Ay为含噪语音的LPC系数,Ap为噪声的LPC系数。
公式(30)中除含噪信号的LPC系数Ay已知外,其余参数,包括噪声信号的LPC系数Ap、噪声的自相关系数以及纯净语音的自相关系数均需要进行估计,Γs可由纯净语音的自相关系数构造得到,Γp可由噪声的自相关系数构造得到。
S303、估计确定噪声的线性预测系数、噪声的自相关系数以及纯净语音的自相关系数。
可选地,本实施例中,噪声LPC参数的估计方法为初始段平均法,设定初始段长度为10帧,假设初始段全部由噪声构成,因此初始段中含噪信号的LPC系数Ay直接作为噪声的LPC系数Ap,对初始段中各帧的LPC系数做平均,作为噪声LPC系数的估计结果,应用公式(31)确定噪声线性预测系数
A ^ p = 1 N init &Sigma; m = 0 N init - 1 A y ( l ) - - - ( 31 )
其中,Ninit为初始段帧数,Ay(l)为含噪语音第l帧的线性预测系数,l为当前待处理帧的序号;
进一步地,使用初始化段LPC系数的平均值作为噪声LPC的估计值不能适应处理过程中噪声变化的情况,可以使用如下的自适应方法替代:
当前待处理帧为清音或噪音帧时,可以采用递归平均的方法对噪声线性预测系数进行更新;
根据子帧类型的判断结果,在判断为噪声的信号段中可以持续对噪声LPC系数进行更新,可使用递归平均方法来实现,而在语音段中应当停止更新,保持之前的估计结果不变,避免语音成分的泄漏,该自适应估计方法可以在不同参数上进行,例如:LPC系数、ISF系数或者LPC谱包络参数等,基于不同参数的平均过程在性能上会略有差别。
噪声的自相关系数可以使用噪声LPC系数Ap的估计值,以及对应的预测残差能量进行重建,使用的基本方法是逆Levinson-Durbin算法。
噪声对应的预测残差能量的估计方法同样是初始段平均法。
首先应用公式(32)计算含噪语音的激励信号能量Eexc
E exc = &Sigma; n = 0 L _ FRAME ( g p d ( n ) + g c c ( n ) ) 2 - - - ( 32 )
应用公式(33)对初始段各帧残差能量做平均,得到噪声对应的残差能量
E ^ p = 1 N init &Sigma; m = 0 N init - 1 E exc ( m ) - - - ( 33 )
应用公式(34)确定噪声自相关系数的估计值
R ^ p = ILD ( A ^ p , E ^ p ) - - - ( 34 )
其中,为噪声的残差能量,ILD表示逆Levinson-Durbin算法。
进一步地,上述使用初始段平均法估计噪声的自相关系数的方法对噪声强度变化的情况不能很好的适应,可用如下的两种自适应方法替代:
(1)根据子帧类型选择估计方法,确定为噪音或清音帧时,可以用一阶递归平均方法连续估计噪声的自相关系数,确定为浊音帧时,保持噪声激励能量的估计值不变。
(2)利用最小统计量方法,在时间上对含噪信号激励能量进行类似最小统计量方法的处理,得到的能量最小值经过调整后可以作为噪声自相关系数的估计值。
纯净语音自相关系数估计的不准确是造成调整后LPC合成滤波器不稳定的主要原因之一,基于这一原因,同时出于控制残留噪声强度的目的,本实施例使用如下的估计方法:
应用公式(35)确定纯净语音自相关系数的估计值
R ^ s = R y - &beta; 3 R ^ p (35)
其中,Ry为含噪语音的自相关系数,β3为权重因子;
本实施例使用的估计方法是一种类似谱减法中过减算法的方法,权重因子β3的选择对噪声抑制能力和增强语音质量的影响很大。固定的参数取值不能满足不同情况的需要,因此本方案使用一种根据当前帧信噪比自适应的权重取值方法。
权重因子β3应当满足如下的取值规律:在当前帧信噪比较高时,β3的取值应较小,从而产生较小的噪声衰减,控制语音谱的失真情况,相反的,若当前帧信噪比较低,则β3的取值应较大,从而增大噪声衰减量。本方案使用的权重因子取值如图4所示,图4为语音相关系数估计中权重因子与帧先验信噪比的关系。
权重因子β3和先验信噪比ξ(l)的关系可以由公式(36)表示:
&beta; 3 = &beta; 3 max &xi; ( l ) < &xi; ( l ) min &beta; 3 max - &beta; 3 max - &beta; 3 min &xi; ( l ) max - &xi; ( l ) min ( &xi; ( l ) - &xi; ( l ) min ) &xi; ( l ) min < &xi; ( l ) < &xi; ( l ) max &beta; 3 min &xi; ( l ) > &xi; ( l ) max - - - ( 36 )
其中,β3max与β3min分别为权重因子的最大值和最小值,ξ(l)max和ξ(l)min分别为帧先验信噪比的最大值和最小值;
应用公式(37)确定先验信噪比ξ:
&xi; ( l ) = 0.8 &times; &xi; ( l - 1 ) + 0.2 &times; max ( E frame E frame _ min - 1,0 ) - - - ( 37 )
其中,Eframe和Eframe_min分别为语音帧能量及语音帧能量的最小值,ξ(l-1)为前一帧的先验信噪比。
S304、根据含噪语音的线性预测系数、噪声的线性预测系数、噪声的自相关系数以及纯净语音的自相关系数,确定纯净语音的线性预测系数。
S305、对纯净语音的线性预测系数进行变换,得到第二阻抗频率参数。
具体来说,第二阻抗频率参数可以是调整后的阻抗频率参数。
S306、对第二阻抗频率参数进行限定处理。
具体来说,由于噪声自相关系数估计的不准确性,本实施例的第二阻抗频率参数会出现一些极端的情况,例如出现一些附加的LPC谱峰等,需要对第二阻抗频率参数进行后处理。
根据附加谱峰出现位置的不同,可以分为以下三种情况,对应的处理方法如下:
(1)相邻阻抗频率参数距离过近时容易出现尖锐的谱峰。为解决此问题,可以限定相邻阻抗频率参数的最小距离为0.015。
(2)中频段两个阻抗频率参数距离过大时会导致高频处阻抗频率参数分布过于密集,从而出现高频处的附加谱峰。为解决此问题,可将高频处所有阻抗频率参数均匀分布,并限定最大阻抗频率参数的值,避免过于接近截止频率。
(3)当最低维阻抗频率参数过小时,会造成低频处的附加谱峰。为解决此问题,可以限定阻抗频率参数的最小可能取值为0.015。
S307、若当前待处理帧的信噪比大于第三阈值,则在连续至少三个语音帧之后,对限定处理后的第二阻抗频率参数进行平滑处理,平滑处理为根据第一阻抗频率和当前帧之前的至少一帧的调整后的阻抗频率参数计算加权平均值,确定第三阻抗频率参数。
具体来说,为提高调整后谱包络在时域上的平稳性,本实施例对调整后的阻抗频率参数进行了平滑处理,平滑处理过程如图5所示,图5为阻抗频率参数的平滑原理。
如图5所示,l为当前帧待处理帧的序号,本实施例中使用一种加权求和的方法,权重因子的设定如图5所示,距离当前帧越近的帧阻抗频率参数的权重越大。
图5所示的阻抗频率参数平滑处理方法在语音起始处需要进行调整。为避免将噪声的谱包络泄漏到调整后的语音谱中,本实施例将平滑处理操作限定在连续三个语音帧之后,且只在信噪比大于第三阈值时进行。
S308、采用第三阻抗频率参数的量化索引替换比特流中第一阻抗频率参数对应的比特。
S309、调整第一代数码书增益,得到第二代数码书增益;
S310、根据第一自适应码书增益和第二代数码书增益,确定第二自适应码书增益;
S311、采用第二代数码书增益和第二自适应码书增益的量化索引替换比特流中第一代数码书增益和第一自适应码书增益对应的比特。
可以理解的是,本实施例中S302~S308为若确定当前待处理帧为浊音帧,后,对阻抗频率参数的调整过程,S309~S311为联合调整码书增益的过程,本发明并不限定两个过程的发生时序,其可以是先后发生,也可以是同时发生。
需要说明的是,阻抗频率参数只是谱包络参数中的一种,本实施例的技术方案不仅适用于ITU-T G.722.2编解码标准,还可以移植到所有基于CELP模型的语音编解码系统中,例如谱包络参数调整部分,在某些编码器中,谱包络参数可能以对数面积比、LSP参数等形式表示,在方案移植时只需将这些参数转换到LPC形式,其余技术细节不需要太多的变化。
本实施例的语音增强处理方法,对待处理的浊音帧的阻抗频率参数进行调整,可以获得更好的噪音去除效果,进而较大程度提高语音通话质量。
图6为本发明提供的语音增强处理方法实施例四的流程图,如图6所示,本实施例的语音增强处理方法,对不连续传输(Discontinuous Transmission,简称DTX)模式的语音增强算法进行说明,包括:
S601、确定不连续传输模式开启,若当前待处理子帧为沉默指示帧,则解码比特流,获取沉默指示帧的加权平均阻抗频率参数矢量和平均对数帧能量参数。
具体来说,DTX模式中涉及的几种帧模式可以包括:语音帧(SPEECH)、第一个沉默指示帧(Silence Insertion Descriptor,简称SID)帧(SID_FIRST)、SID更新帧(SID_UPDATE)、无数据帧(NO_DATA),对于语音帧,可以使用上述语音增强处理方法实施例一至三的语音增强算法进行处理,对于其它帧模式,可以采用本实施例的语音增强处理方法。
举例来说,AMR-WB的DTX模式的输入参数是未量化的阻抗频率参数,算法中计算、量化和传输,用来辅助舒适噪声产生(Comfort Noise Generation,简称CNG)模块的参数包括:
(1)加权平均阻抗频率参数矢量fmean:最近8帧的平均阻抗频率参数,代表噪声的谱形状。
(2)平均对数帧能量参数enlog mean:最近8帧的平均对数帧能量,代表噪声的强度。
在编码端,DTX的三种帧模式(SID_FIRST、SID_UPDATE和NO_DATA)下都进行上述参数的量化和传输,而在解码端,仅在SID_UPDATE帧中读取码流中的CNG信息,其余两种帧类型下使用平滑的参数重构舒适噪声,因此,DTX模式下的参数域语音增强算法只需要在SID_UPDATE帧中进行。
可以理解的是,为保证噪声谱特性的稳定,也可以不对加权平均阻抗频率参数进行调整。
在DTX模式下,SID帧的编码参数中包含噪声段的加权平均阻抗频率参数,可以将其稍作调整作为噪声谱包络的估计值,利用于随后语音段的处理中,可以提高谱包络调整的精度。
S602、对平均对数帧能量参数进行衰减调整。
可选地,S602具体可以是应用公式(38)确定平均对数帧能量参数的增益因子GDTX
G DTX = G min = &xi; min 1 + &xi; min = 0.0306 - - - ( 38 )
其中,Gmin为正常语音帧中的最小增益因子,ξmin=-15dB=0.0316,为先验信噪比估计的最小值;
采用增益因子对平均对数帧能量参数进行衰减调整。
为得到稳定的背景噪声残留,本实施例设定DTX模式中对数帧能量的增益与正常帧中的最小增益相同。
S603、采用调整后的平均对数帧能量参数的量化索引替换比特流中平均对数帧能量参数对应的比特。
具体来说,调整后的平均对数帧能量参数使用编码器中的量化方法做量化并写入码流。
写入码流时需要注意,编码器的编码模式需要根据输入信号的帧类型做调整。当帧类型为RX_SID_FIRST(接收第一个SID帧)、RX_SID_UPDATE(接收SID信息更新帧)或者NO_DATA时,编码模式设定为DTX模式,否则保持正常的速率模式,这样可以保证输入输出码流的对应关系。
本实施例的语音增强处理方法,通过在确定不连续传输模式开启,若当前待处理子帧为沉默指示帧,则解码比特流,获取沉默指示帧的加权平均阻抗频率参数矢量和平均对数帧能量参数,再对平均对数帧能量参数进行衰减调整,最后采用调整后的平均对数帧能量参数的量化索引替换比特流中平均对数帧能量参数对应的比特,可以实现本发明的语音增强处理方法对DTX模式的兼容性。
图7为本发明提供的语音增强处理方法实施例五的流程图,如图7所示,本实施例的语音增强处理方法,对帧错误掩蔽(Error Concealment,简称FEC)模式的语音增强处理方法进行说明,包括:
S701、若确定出现错误帧,则解码比特流,获取对错误帧进行恢复得到的当前待处理子帧的编码参数,恢复得到的当前待处理子帧的编码参数包括语言活动侦测标志、第四阻抗频率参数、基音参数、第三自适应码书增益。
具体来说,FEC模式下,可以利用解码器恢复得到的编码参数,按照正常语音帧的方式进行处理,重新量化编码并写入码流,从而得到不包含帧错误的输出码流,FEC模式的输入是含错误的码流,输出是正常码流。
码流中各参数的处理方法如下:
根据解码器中的处理方式,在FEC情况下设定VAD标志为零。
S702、调整第四阻抗频率参数,得到第五阻抗频率参数。
具体来说,首先从解码器中提取FEC模块恢复的第四阻抗频率参数,再按照正常帧调整阻抗频率参数的方法对恢复的第四阻抗频率参数进行调整,得到第五阻抗频率参数,最后使用编码器中的函数对第五阻抗频率参数重新量化编码。
S703、根据编码速率生成随机脉冲位置的第三代数码书矢量。
具体来说,代数码书矢量调整的原因是:在SPEECH_LOST模式下,解码器恢复的code是64个[-1,1]之间的随机数,而真正的code最多只包含24个非零脉冲,因此需要重新替换并编码。
代数码书矢量,即脉冲位置调整的基本思路可以是:使用脉冲位置随机的代数码书矢量替换FEC恢复得到的代数码书矢量,而后进行量化编码。
代数码书矢量调整的原理包括:首先产生指定轨道数目,指定脉冲数目的随机脉冲位置;再对脉冲位置编码,用于重新写码流;解码得到调整后的代数码书矢量,用于后续处理和在部分解码器中的更新。
图8为脉冲位置的随机化原理示意图,如图8所示,以23.05kbps和23.85kbps两种码率下使用的24个脉冲的代数码书为例,24个脉冲的代数码书结构是:共分为4个轨道,每个轨道6个脉冲,在脉冲位置矢量中按照轨道顺序存储其位置,随机化过程中,对每个轨道生成一个长度为16的随机数矢量,其中包含0-15的16个整数,且不会发生重复,替换时从其中选取前6个作为当前轨道的脉冲位置。每个轨道的随机数序列需要单独产生,以保证不重复,为保证代数码书能量的平稳性,随机产生的脉冲位置不允许重叠。
S704、对编码参数中的第三代数码书增益进行调整,得到第四代数码书增益。
可选地,S704具体可以包括:
获取前一个正常子帧的代数码书增益的第二调整因子past_scale_gc
gc调整时需要从之前的正常帧中获取两个参数,包括:前四个子帧代数码书的平均值,前一个正常子帧的代数码书调整因子past_scale_gc
应用公式(39)确定第四代数码书增益gc_mod
gc_mod=gc×0.9delay×past_scale_gc    (39)
delay为从帧错误发生开始累计的错误的子帧数目,gc为第三代数码书增益。
具体来说,当前帧gc的调整因子与前一个好帧的调整因子有关,且随着帧错误长度的增加而增大衰减量。
S705、对语言活动侦测标志、第五阻抗频率参数、基音参数、随机脉冲位置的第三代数码书索引进行量化,并采用语音信号均方误差最小的增益量化准则对第三自适应码书增益和第四代数码书增益进行量化;
S706、采用第四代数码书增益和第三自适应码书增益的联合量化索引、第五阻抗频率参数的量化索引以及基音参数替换比特流中各编码参数对应的比特。
FEC模式下的语音增强处理方法是在SPEECH_LOST模式下进行的,在这种模式下,语音编码码流中的全部信息都已经丢失,因此需要对FEC算法恢复出来的所有参数进行重新编码并写入码流,可以使用编码器中的量化函数完成这一操作,并根据不同速率情况进行自适应。
本实施例的语音增强处理方法,通过若确定出现错误帧,则解码比特流,获取对错误帧进行恢复得到的当前待处理子帧的编码参数,恢复得到的当前待处理子帧的编码参数包括语言活动侦测标志、第四阻抗频率参数、基音参数、第三自适应码书增益,调整第四阻抗频率参数,得到第五阻抗频率参数,根据编码速率生成随机脉冲位置的代数码书矢量,对对编码参数中的第三代数码书增益进行调整,得到第四代数码书增益,再采用第四代数码书增益和第三自适应码书增益的联合量化索引、第五阻抗频率参数的量化索引以及基音参数替换比特流中各编码参数对应的比特,可以实现本发明的语音增强处理方法对FEC模式的兼容性。
图9为本发明提供的语音增强处理装置实施例一的结构示意图,如图9所示,本实施例的语音增强处理装置,包括第一获取模块91、第一调整模块92、第一确定模块93以及第一处理模块94,其中,第一获取模块91用于解码比特流,获取当前待处理语音子帧的编码参数,编码参数包括第一代数码书增益和第一自适应码书增益;第一调整模块92用于调整第一代数码书增益,得到第二代数码书增益;第一确定模块93用于根据第一自适应码书增益和第二代数码书增益,确定第二自适应码书增益;第一处理模块94用于采用第二代数码书增益和第二自适应码书增益的量化索引替换比特流中第一代数码书增益和第一自适应码书增益对应的比特。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图10为本发明提供的语音增强处理装置实施例二的结构示意图,如图10所示,本实施例的语音增强处理装置,在图9所示实施例的基础上,还包括:判定模块95,判定模块95包括:平滑处理单元951和子帧类型判定单元952,其中,平滑处理单元951用于在调整第一代数码书增益,得到第二代数码书增益之前,对浊音度参数进行平滑处理,得到平滑处理后的浊音度参数;子帧类型判定单元952用于若平滑处理后的浊音度参数大于第一阈值,则确定当前待处理语音子帧为第一类子帧;若平滑处理后的浊音度参数小于第一阈值,则确定当前待处理语音子帧为第二类子帧,其中,第一类子帧为浊音帧,第二类子帧为清音或噪音帧。
可选地,平滑处理单元951,具体用于:
应用以下公式对浊音度参数rv(m)在时间上进行一阶递归平滑生成平滑后的浊音度参数
r &OverBar; v ( m ) = &alpha; v r &OverBar; v ( m - 1 ) + ( 1 - &alpha; v ) r v ( m ) ;
其中,αv为平滑因子,m为当前待处理语音子帧的序号,为前一个语音子帧平滑处理后的浊音度参数。
判定模块95还包括:谱包络低频能量比参数确定单元953和噪音类型判定单元954,其中,谱包络低频能量比参数确定单元953用于在调整第一代数码书增益,得到第二代数码书增益之前,根据第一阻抗频率参数确定谱包络低频能量比参数;噪音类型判定单元954用于若谱包络低频能量比参数的平均值大于第二阈值,则确定噪声类型为低频分布噪声;若谱包络低频能量比参数的平均值小于第二阈值,则确定噪声类型为全带分布噪声。
可选地,谱包络低频能量比参数确定单元953,具体用于:
应用以下公式确定谱包络低频能量比参数Ren_low
R en _ low = &Sigma; i = 0 N low E lpc &Sigma; i = 0 N FFT / 2 E lpc ;
其中,NFFT为LPC谱包络计算中使用的FFT长度,Nlow为低频子带的上限频率,Elpc为使用第一阻抗频率参数计算得到的LPC谱包络。
第一调整模块92,包括信噪比确定单元921、调整因子确定单元922以及增益参数调整单元923,其中,信噪比确定单元921用于根据第一代数码书增益确定噪声的代数码书增益;根据噪声的代数码书增益和第一代数码书矢量确定噪声激励能量估计值;根据第一代数码书增益和第一代数码书矢量确定第一代数码书激励能量;根据噪声激励能量估计值和第一代数码书激励能量,确定当前待处理语音子帧的第一后验信噪比估计值;根据当前待处理语音子帧的能量和当前待处理语音子帧的能量的最小值,确定当前待处理语音子帧的第二后验信噪比估计值;根据第一后验信噪比估计值和第二后验信噪比估计值确定当前待处理语音子帧的先验信噪比估计值;调整因子确定单元922用于采用先验信噪比估计值确定当前待处理语音子帧的第一调整因子;增益参数调整单元923用于根据第一调整因子调整第一代数码书增益,确定第二代数码书增益。
可选地,信噪比确定单元921具体用于:
应用以下公式定义第一后验信噪比估计值γexc(m):
&gamma; exc ( m ) = E fcb _ before ( m ) E ~ n ( m ) ;
其中,Efcb_before(m)为第一代数码书激励的能量,为噪声激励能量估计值,m为当前待处理语音子帧的序号;
应用以下公式定义第二后验信噪比估计值γsubframe(m):
&gamma; subframe ( m ) = E subframe ( m ) E subframe _ min ;
其中,Esubframe(m)为第m子帧的语音能量,Esubframe_min为子帧能量的最小值,m为当前待处理语音子帧的序号;
若噪音类型判定单元954确定噪声类型为低频分布噪声,则应用以下公式确定先验信噪比估计值ξ(m):
其中,为第m子帧的平滑浊音度参数,β1为信噪比估计的平滑因子,ξ(m)min为先验信噪比估计的最小值,m为当前待处理语音子帧的序号;
若噪音类型判定单元954确定噪声类型为全带分布噪声,则应用以下公式确定先验信噪比估计值ξ(m):
ξ(m)=max(β1ξ(m-1)+(1-β1)max(γexc(m)-1,0),ξ(m)min);
其中,β1为信噪比估计的平滑因子,ξ(m)min为先验信噪比估计的最小值,m为当前待处理语音子帧的序号。
可选地,调整因子确定单元922具体用于:
应用以下公式确定当前待处理语音子帧的第一调整因子γgc(m):
&gamma; gc ( m ) = &xi; ( m ) 1 + &xi; ( m ) ; 或者,
其中,ξ(m)为先验信噪比估计值,β2为控制噪声衰减量的因子;
可选地,码书增益调整单元923具体用于:
应用以下公式确定第二代数码书增益
g ^ s ( m ) = &gamma; gc ( m ) g y ( m ) ;
其中,gy(m)为第一代数码书增益,γgc(m)为第一调整因子,m为当前待处理语音子帧的序号。
第一确定模块93,包括码书矢量获取单元931、总激励能量确定单元932以及增益参数确定单元933,其中,码书矢量获取单元931用于若子帧类型判定单元952确定当前待处理语音子帧为第一类子帧,则获取当前待处理语音子帧的第二代数码书矢量以及第二自适应码书矢量;总激励能量确定单元932用于根据第一自适应码书增益、第一自适应码书矢量、第一代数码书增益以及第一代数码书矢量,确定第一总激励能量;根据第一总激励能量和能量调整因子,确定第二总激励能量;增益参数确定单元933用于根据第二总激励能量、第二代数码书增益、第二代数码书矢量以及第二自适应码书矢量,确定第二自适应码书增益。
可选地,总激励能量确定单元932具体用于:
应用以下公式确定第一总激励能量Ebefore(m):
Ebefore(m)=∑n(gp(m)d(n)+gy(m)c(n))2
其中,gy(m)为第一代数码书增益,gp(m)为第一自适应码书增益,c(n)和d(n)分别为第一代数码书矢量和第一自适应码书矢量,n为采样点的序号;
应用以下公式确定第二总激励能量Eafter(m):
Eafter(m)=αeEbefore(m);
其中,Ebefore(m)为第一总激励能量,αe为当前待处理语音子帧的的能量调整因子。
增益参数确定单元933具体用于:
应用以下方程确定第二自适应码书增益
&Sigma;n ( g ^ p ( m ) d &prime; ( n ) + g ^ s ( m ) c &prime; ( n ) ) 2 = E after ( m ) ;
其中,为第二代数码书增益,c′(n)和d′(n)分别为第二代数码书矢量以及第二自适应码书矢量,Eafter(m)为第二总激励能量,n为采样点的序号。
可选地,第一处理模块94还用于在采用第二代数码书增益和第二自适应码书增益的量化索引替换比特流中第一代数码书增益和第一自适应码书增益对应的比特之前,若确定噪声类型为低频分布噪声,则根据当前待处理语音子帧的先验信噪比估计值和平滑处理后的浊音度参数,确定滤波器参数;
根据第二代数码书增益、第二自适应码书增益、第二代数码书矢量以及第二自适应码书矢量,确定总激励信号;
根据滤波器参数,对总激励信号进行梳状滤波处理。
本实施例的语音增强处理装置,还包括第一量化模块96,第一量化模块96用于在采用第二代数码书增益和第二自适应码书增益的量化索引替换比特流中第一代数码书增益和第一自适应码书增益对应的比特之前,若判定模块95确定噪声类型为低频分布噪声,则采用语音信号均方误差最小的增益量化准则对第二代数码书增益和第二自适应码书增益进行量化;
若判定模块95确定噪声类型为全带分布噪声,则采用激励信号均方误差最小的增益量化准则对第二代数码书增益和第二自适应码书增益进行量化。
可选地,若判定模块95确定噪声类型为低频分布噪声,第一量化模块96具体用于:
应用以下公式对第二代数码书增益和第二自适应码书增益进行量化,具体为:
E = &Sigma;n [ x ( n ) - ( g ^ p _ q k y ( n ) + g ^ c _ q k z ( n ) ) ] 2 ;
其中,x(n)为码书搜索的目标矢量,y(n)和z(n)分别为滤波后的自适应和代数码书矢量,分别为增益量化码书中第k个码字对应的自适应码书增益和代数码书增益,E为量化误差,n为采样点的序号;
若判定模块95确定噪声类型为全带分布噪声,第一量化模块96具体用于:
应用以下公式对第二代数码书增益和第二自适应码书增益进行量化,具体为:
E = &Sigma;n [ x e ( n ) - ( g ^ p _ q k d &prime; ( n ) + g ^ z _ q k c &prime; ( n ) ) ] 2 ;
其中,xe(n)为激励域的目标矢量,c′(n)和d′(n)分别为第二代数码书矢量以及第二自适应码书矢量,分别为增益量化码书中第k个码字对应的自适应码书增益和代数码书增益,E为量化误差,n为采样点的序号。
本实施例的装置,可以用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图11为本发明提供的语音增强处理装置实施例三的结构示意图,如图11所示,本实施例的语音增强处理装置,在图10所示实施例的基础上,还可以包括:第二调整模块97,第二调整模块97可以包括:第一确定单元971、第二确定单元972以及第三确定单元973,其中,第一确定单元971用于在解码比特流,获取当前待处理语音子帧的编码参数之后,若确定当前待处理帧为浊音帧,则根据第一阻抗频率参数,确定含噪语音的线性预测系数;第二确定单元972用于估计确定噪声的线性预测系数、噪声的自相关系数以及纯净语音的自相关系数;第三确定单元973用于根据含噪语音的线性预测系数、噪声的线性预测系数、噪声的自相关系数以及纯净语音的自相关系数,确定纯净语音的线性预测系数;
第一处理模块94还用于:对纯净语音的线性预测系数进行变换,得到第二阻抗频率参数;
对第二阻抗频率参数进行限定处理;
若当前待处理帧的信噪比大于第三阈值,则在连续至少三个语音帧之后,对限定处理后的第二阻抗频率参数进行平滑处理,平滑处理为根据第一阻抗频率和当前帧之前的至少一帧的调整后的阻抗频率参数计算加权平均值,确定第三阻抗频率参数;
第一量化模块96还用于采用第三阻抗频率参数的量化索引替换比特流中第一阻抗频率参数对应的比特。
可选地,第二确定单元972具体用于:
应用以下公式确定噪声线性预测系数
A ^ p = 1 N init &Sigma; m = 0 N init - 1 A y ( l ) ;
其中,Ninit为初始段帧数,Ay(l)为含噪语音第l帧的线性预测系数,l为当前待处理帧的序号;
应用以下公式确定噪声自相关系数的估计值
R ^ p = ILD ( A ^ p , E ^ p ) ;
其中,为噪声的残差能量,ILD表示逆Levinson-Durbin算法,为噪声线性预测系数;
应用以下公式确定纯净语音自相关系数的估计值
R ^ s = R y - &beta; 3 R ^ p ;
其中,Ry为含噪语音的自相关系数,β3为权重因子;
权重因子β3和先验信噪比ξ(l)的关系可以由下式表示:
&beta; 3 = &beta; 3 max &xi; ( l ) < &xi; ( l ) min &beta; 3 max - &beta; 3 max - &beta; 3 min &xi; ( l ) max - &xi; ( l ) min ( &xi; ( l ) - &xi; ( l ) min ) &xi; ( l ) min < &xi; ( l ) < &xi; ( l ) max &beta; 3 min &xi; ( l ) > &xi; ( l ) max
其中,β3max与β3min分别为权重因子的最大值和最小值,ξ(l)max和ξ(l)min分别为帧先验信噪比的最大值和最小值;
应用以下公式确定先验信噪比ξ(l):
&xi; ( l ) = 0.8 &times; &xi; ( l - 1 ) + 0.2 &times; max ( E frame E frame _ min - 1,0 )
其中,Eframe和Eframe_min分别为语音帧能量及语音帧能量的最小值,ξ(l-1)为前一帧的先验信噪比。
本实施例的装置,可以用于执行图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
以下对本发明实施例提供的语音增强处理装置的一种具体实施例进行说明,图12为本发明提供的语音增强处理装置实施例四的工作原理示意图,如图12所示,本实施例的语音增强处理装置,包括:第一部分解码单元120、子帧类型及噪音类型确定单元121、码书增益联合调整单元122、第二部分解码单元123、激励后处理单元124、增益量化单元125、增益解量化单元126、谱包络调整单元127、ISF重新量化单元128以及码流调整单元129,图12还示出了本实施例的语音增强处理装置中各单元之间数据传输的关系,其中,第一部分解码单元120用于解码比特流,获取当前待处理语音子帧的编码参数,,编码参数可以包括ISF、rv(m)、gy(m)、gp(m)、c(n)以及d(n);子帧类型及噪音类型确定单元121用于根据平滑处理后的浊音度参数与第一阈值的比值将子帧分为第一类子帧和第二类子帧,第一类子帧为浊音帧,第二类子帧为清音或噪音帧,以及将谱包络低频能量比参数的平均值与第二阈值进行比较,若谱包络低频能量比参数Ren_low的平均值大于第二阈值,则确定噪声类型为低频分布噪声;若谱包络低频能量比参数的平均值小于第二阈值,则确定噪声类型为全带分布噪声;码书增益联合调整单元122用于调整编码参数中的gy(m),得到以及根据gy(m)、gp(m)、c(n)、d(n)、c′(n)以及d′(n),确定第二部分解码单元123用于为码书增益联合调整单元122提供c′(n)和d′(n);激励后处理单元124用于根据滤波器参数,对调整后的总激励信号,进行梳状滤波处理;增益量化单元125用于对调整后的增益参数进行量化,并采用语音信号均方误差最小或激励信号均方误差最小的增益量化准则对调整后的码书增益进行量化;增益解量化单元126用于对增益量化后的编码参数进行增益解量化处理;谱包络调整单元127若确定当前待处理帧为浊音帧,对含噪语音的ISF进行调整得到ISF’;ISF重新量化单元128用于对ISF’进行重新量化;码流调整单元129用于采用的量化索引替换比特流中gy(m)和gp(m)对应的比特,以及采用ISF’的量化索引替换比特流中ISF对应的比特。
本实施例的装置,可以用于执行图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图13为本发明提供的语音增强处理装置实施例五的结构示意图,如图13所示,本实施的语音增强处理装置包括:至少一个总线131、与总线相连的至少一个处理器132以及与总线相连的至少一个存储器133,其中,处理器132通过总线131,调用存储器133中存储的代码,以用于:
解码比特流,获取当前待处理语音子帧的编码参数,编码参数包括第一代数码书增益和第一自适应码书增益;
调整第一代数码书增益,得到第二代数码书增益;
根据第一自适应码书增益和第二代数码书增益,确定第二自适应码书增益;
采用第二代数码书增益和第二自适应码书增益的量化索引替换所述比特流中所述第一代数码书增益和所述第一自适应码书增益对应的比特。
图14为本发明提供的语音增强处理装置实施例六的结构示意图,如图14所示,本实施例的语音增强处理装置,包括:第二获取模块141、第三调整模块142以及第二处理模块143,其中,第二获取模块141用于确定不连续传输模式开启,若当前待处理子帧为沉默指示帧,则解码比特流,获取沉默指示帧的加权平均阻抗频率参数矢量和平均对数帧能量参数;第三调整模块142用于对平均对数帧能量参数进行衰减调整;第二处理模块143用于采用调整后的平均对数帧能量参数的量化索引替换比特流中平均对数帧能量参数对应的比特。
可选地,第三调整模块142具体可以用于:
应用以下公式确定平均对数帧能量参数的增益因子GDTX
G DTX = G min = &xi; min 1 + &xi; min = 0.0306 ;
其中,Gmin为正常语音帧中的最小增益因子,ξmin=-15dB=0.0316,为先验信噪比估计的最小值;
采用增益因子对平均对数帧能量参数进行衰减调整。
本实施例的装置,可以用于执行图6所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图15为本发明提供的语音增强处理装置实施例七的结构示意图,如图15所示,本实施例的语音增强处理装置,包括:第三获取模块151、第四调整模块152、第二确定模块153、第二量化模块154以及第三处理模块155,其中,第三获取模块151用于若确定出现错误帧,则解码比特流,获取对错误帧进行恢复得到的当前待处理子帧的编码参数,恢复得到的当前待处理子帧的编码参数包括语言活动侦测标志、第四阻抗频率参数、基音参数、第三自适应码书增益;第四调整模块152用于调整第四阻抗频率参数,得到第五阻抗频率参数;第二确定模块153用于根据编码速率生成随机脉冲位置的第三代数码书矢量;第四调整模块152还用于对编码参数中的第三代数码书增益进行调整,得到第四代数码书增益;第二量化模块154用于对语言活动侦测标志、第五阻抗频率参数、基音参数、随机脉冲位置的第三代数码书索引进行量化,并采用语音信号均方误差最小的增益量化准则对第三自适应码书增益和第四代数码书增益进行量化;
第三处理模块155用于采用第四代数码书增益和第三自适应码书增益的联合量化索引、第五阻抗频率参数的量化索引以及基音参数替换比特流中各编码参数对应的比特15。
可选地,第四调整模块152具体用于:
获取前一个正常子帧的代数码书增益的第二调整因子past_scale_gc
应用以下公式确定第四代数码书增益gc_mod
gc_mod=gc×0.9delay×past_scale_gc;
delay为从帧错误发生开始累计的错误的子帧数目,gc为第三代数码书增益。
本实施例的装置,可以用于执行图7所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (40)

1.一种语音增强处理方法,其特征在于,所述方法包括: 
解码比特流,获取当前待处理语音子帧的编码参数,所述编码参数包括第一代数码书增益和第一自适应码书增益; 
调整所述第一代数码书增益,得到第二代数码书增益; 
根据所述第一自适应码书增益和所述第二代数码书增益,确定第二自适应码书增益; 
采用所述第二代数码书增益和所述第二自适应码书增益的量化索引替换所述比特流中所述第一代数码书增益和所述第一自适应码书增益对应的比特。 
2.根据权利要求1所述的方法,其特征在于,所述编码参数还包括第一代数码书矢量,所述调整所述第一代数码书增益,得到第二代数码书增益,包括: 
根据所述第一代数码书增益确定噪声的代数码书增益; 
根据所述噪声的代数码书增益和所述第一代数码书矢量确定噪声激励能量估计值; 
根据所述第一代数码书增益和所述第一代数码书矢量确定第一代数码书激励能量; 
根据所述噪声激励能量估计值和所述第一代数码书激励能量,确定所述当前待处理语音子帧的第一后验信噪比估计值; 
根据所述当前待处理语音子帧的能量和所述当前待处理语音子帧的能量的最小值,确定所述当前待处理语音子帧的第二后验信噪比估计值; 
根据所述第一后验信噪比估计值和所述第二后验信噪比估计值确定所述当前待处理语音子帧的先验信噪比估计值; 
采用所述先验信噪比估计值确定所述当前待处理语音子帧的第一调整因子; 
根据所述第一调整因子调整所述第一代数码书增益,确定所述第二代数码书增益。 
3.根据权利要求1或2所述的方法,其特征在于,所述编码参数中还包括浊音度参数,在所述调整所述第一代数码书增益,得到第二代数码书增益 之前,所述方法还包括: 
对所述浊音度参数进行平滑处理,得到平滑处理后的浊音度参数; 
若所述平滑处理后的浊音度参数大于第一阈值,则确定所述当前待处理语音子帧为第一类子帧;若所述平滑处理后的浊音度参数小于第一阈值,则确定所述当前待处理语音子帧为第二类子帧,其中,所述第一类子帧为浊音帧,所述第二类子帧为清音或噪音帧。 
4.根据权利要求3所述的方法,其特征在于,所述对所述浊音度参数进行平滑处理,得到平滑处理后的浊音度参数,包括: 
应用以下公式对浊音度参数rv(m)在时间上进行一阶递归平滑生成平滑后的浊音度参数
其中,αv为平滑因子,m为当前待处理语音子帧的序号,为前一个语音子帧平滑处理后的浊音度参数。 
5.根据权利要求3或4所述的方法,其特征在于,所述编码参数中还包括第一自适应码书矢量,所述根据所述第一自适应码书增益和所述第二代数码书增益,确定第二自适应码书增益,包括: 
若确定当前待处理语音子帧为所述第一类子帧,则获取所述当前待处理语音子帧的第二代数码书矢量以及第二自适应码书矢量; 
根据所述第一自适应码书增益、所述第一自适应码书矢量、所述第一代数码书增益以及所述第一代数码书矢量,确定第一总激励能量; 
根据所述第一总激励能量和能量调整因子,确定第二总激励能量; 
根据所述第二总激励能量、所述第二代数码书增益、所述第二代数码书矢量以及所述第二自适应码书矢量,确定所述第二自适应码书增益。 
6.根据权利要求2~5任一项所述的方法,其特征在于,所述编码参数中还包括第一阻抗频率参数,在所述调整所述第一代数码书增益,得到第二代数码书增益之前,所述方法还包括: 
根据所述第一阻抗频率参数确定谱包络低频能量比参数; 
若所述谱包络低频能量比参数的平均值大于第二阈值,则确定噪声类型为低频分布噪声;若所述谱包络低频能量比参数的平均值小于所述第二阈值,则确定噪声类型为全带分布噪声。 
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一阻抗频率参数确定谱包络低频能量比参数,包括: 
应用以下公式确定谱包络低频能量比参数Ren_low: 
其中,NFFT为LPC谱包络计算中使用的FFT长度,Nlow为低频子带的上限频率,Elpc为使用所述第一阻抗频率参数计算得到的LPC谱包络。 
8.根据权利要求6或7所述的方法,其特征在于,所述根据所述噪声激励能量估计值和第一代数码书激励能量,确定所述当前待处理语音子帧的第一后验信噪比估计值,包括: 
应用以下公式定义第一后验信噪比估计值γexc(m): 
其中,Efcb_before(m)为第一代数码书激励的能量,为噪声激励能量估计值,m为当前待处理语音子帧的序号; 
所述根据当前语音子帧能量和当前语音子帧能量的最小值,确定所述当前待处理语音子帧的第二后验信噪比估计值,包括: 
应用以下公式定义第二后验信噪比估计值γsubframe(m): 
其中,Esubframe(m)为第m子帧的语音能量,Esubframe_min为子帧能量的最小值,m为当前待处理语音子帧的序号; 
所述根据所述第一后验信噪比估计值和所述第二后验信噪比估计值确定先验信噪比估计值,包括: 
若确定噪声类型为低频分布噪声,则应用以下公式确定先验信噪比估计 值ξ(m): 
其中,为第m子帧的平滑浊音度参数,β1为信噪比估计的平滑因子,ξ(m)min为先验信噪比估计的最小值,m为当前待处理语音子帧的序号; 
若确定噪声类型为全带分布噪声,则应用以下公式确定先验信噪比估计值ξ(m): 
ξ(m)=max(β1ξ(m-1)+(1-β1)max(γexc(m)-1,0),ξ(m)min); 
其中,β1为信噪比估计的平滑因子,ξ(m)min为先验信噪比估计的最小值,m为当前待处理语音子帧的序号。 
9.根据权利要求2~8任一项所述的方法,其特征在于,所述采用所述先验信噪比估计值确定第一调整因子,包括: 
应用以下公式确定所述当前待处理语音子帧的第一调整因子γgc(m): 
或者, 
其中,ξ(m)为先验信噪比估计值,β2为控制噪声衰减量的因子。 
10.根据权利要求2~9任一项所述的方法,其特征在于,所述根据所述第一调整因子调整所述第一代数码书增益,确定第二代数码书增益,包括: 
应用以下公式确定第二代数码书增益
其中,gy(m)为第一代数码书增益,γgc(m)为第一调整因子,m为当前待处理语音子帧的序号。 
11.根据权利要求5~10任一项所述的方法,其特征在于,所述根据所述第一自适应码书增益、所述第一自适应码书矢量、所述第一代数码书增益以 及所述第一代数码书矢量,确定第一总激励能量,包括: 
应用以下公式确定第一总激励能量Ebefore(m): 
Ebefore(m)=∑n(gp(m)d(n)+gy(m)c(n))2; 
其中,gy(m)为第一代数码书增益,gp(m)为第一自适应码书增益,c(n)和d(n)分别为第一代数码书矢量和第一自适应码书矢量,n为采样点的序号; 
所述根据所述第一总激励能量和能量调整因子,确定第二总激励能量,包括: 
应用以下公式确定第二总激励能量Eafter(m): 
Eafter(m)=αeEbefore(m); 
其中,Ebefore(m)为第一总激励能量,αe为当前待处理语音子帧的的能量调整因子。 
所述根据所述第二总激励能量、所述第二代数码书增益、所述第二代数码书矢量以及所述第二自适应码书矢量,确定所述第二自适应码书增益,包括: 
应用以下方程确定第二自适应码书增益
其中,为第二代数码书增益,c′(n)和d′(n)分别为第二代数码书矢量以及第二自适应码书矢量,Eafter(m)为第二总激励能量,n为采样点的序号。 
12.根据权利要求6~11任一项所述的方法,其特征在于,在所述采用所述第二代数码书增益和所述第二自适应码书增益的量化索引替换所述比特流中所述第一代数码书增益和所述第一自适应码书增益对应的比特之前,所述方法还包括: 
若确定噪声类型为低频分布噪声,则根据所述当前待处理语音子帧的先验信噪比估计值和所述平滑处理后的浊音度参数,确定滤波器参数; 
根据所述第二代数码书增益、所述第二自适应码书增益、所述第二代数码书矢量以及第二自适应码书矢量,确定总激励信号; 
根据所述滤波器参数,对所述总激励信号进行梳状滤波处理。 
13.根据权利要求6~12任一项所述的方法,其特征在于,在所述采用所述第二代数码书增益和所述第二自适应码书增益的量化索引替换所述比特流中所述第一代数码书增益和所述第一自适应码书增益对应的比特之前,所述方法还包括: 
若确定噪声类型为低频分布噪声,则采用语音信号均方误差最小的增益量化准则对所述第二代数码书增益和所述第二自适应码书增益进行量化; 
若确定噪声类型为全带分布噪声,则采用激励信号均方误差最小的增益量化准则对所述第二代数码书增益和所述第二自适应码书增益进行量化。 
14.根据权利要求13所述的方法,其特征在于,若确定噪声类型为低频分布噪声,所述采用语音信号均方误差最小的增益量化准则对所述第二代数码书增益和所述第二自适应码书增益进行量化,包括: 
应用以下公式对所述第二代数码书增益和所述第二自适应码书增益进行量化,具体为: 
其中,x(n)为码书搜索的目标矢量,y(n)和z(n)分别为滤波后的自适应和代数码书矢量,分别为增益量化码书中第k个码字对应的自适应码书增益和代数码书增益,E为量化误差,n为采样点的序号; 
若确定噪声类型为全带分布噪声,所述采用激励信号均方误差最小的增益量化准则对所述第二代数码书增益和所述第二自适应码书增益进行量化,具体为: 
应用以下公式对所述第二代数码书增益和所述第二自适应码书增益进行量化,具体为: 
其中,xe(n)为激励域的目标矢量,c′(n)和d′(n)分别为第二代数码书矢量 以及第二自适应码书矢量,分别为增益量化码书中第k个码字对应的自适应码书增益和代数码书增益,E为量化误差,n为采样点的序号。 
15.根据权利要求6~14任一项所述的方法,其特征在于,在所述解码比特流,获取当前待处理语音子帧的编码参数之后,所述方法还包括: 
若确定当前待处理帧为浊音帧,则根据所述第一阻抗频率参数,确定含噪语音的线性预测系数; 
估计确定噪声的线性预测系数、噪声的自相关系数以及纯净语音的自相关系数; 
根据所述含噪语音的线性预测系数、所述噪声的线性预测系数、噪声的自相关系数以及纯净语音的自相关系数,确定纯净语音的线性预测系数; 
对所述纯净语音的线性预测系数进行变换,得到第二阻抗频率参数; 
对所述第二阻抗频率参数进行限定处理; 
若所述当前待处理帧的信噪比大于第三阈值,则在连续至少三个语音帧之后,对限定处理后的第二阻抗频率参数进行平滑处理,所述平滑处理为根据所述第一阻抗频率和当前帧之前的至少一帧的调整后的阻抗频率参数计算加权平均值,确定第三阻抗频率参数; 
采用所述第三阻抗频率参数的量化索引替换比特流中所述第一阻抗频率参数对应的比特。 
16.根据权利要求15所述的方法,其特征在于,所述估计确定噪声的线性预测系数、噪声的自相关系数以及纯净语音的自相关系数,包括: 
应用以下公式确定噪声线性预测系数
其中,Ninit为初始段帧数,Ay(l)为含噪语音第l帧的线性预测系数,l为当前待处理帧的序号; 
应用以下公式确定噪声自相关系数的估计值
其中,为噪声的残差能量,ILD表示逆Levinson-Durbin算法,为 噪声线性预测系数; 
应用以下公式确定纯净语音自相关系数的估计值
其中,Ry为含噪语音的自相关系数,β3为权重因子; 
权重因子β3和先验信噪比ξ(l)的关系可以由下式表示: 
其中,β3max与β3min分别为权重因子的最大值和最小值,ξ(l)max和ξ(l)min分别为帧先验信噪比的最大值和最小值; 
应用以下公式确定先验信噪比ξ(l): 
其中,Eframe和Eframe_min分别为语音帧能量及语音帧能量的最小值,ξ(l-1)为前一帧的先验信噪比。 
17.一种语音增强处理方法,其特征在于,包括: 
确定不连续传输模式开启,若当前待处理子帧为沉默指示帧,则解码比特流,获取所述沉默指示帧的加权平均阻抗频率参数矢量和平均对数帧能量参数; 
对所述平均对数帧能量参数进行衰减调整; 
采用调整后的平均对数帧能量参数的量化索引替换所述比特流中平均对数帧能量参数对应的比特。 
18.根据权利要求17所述的方法,其特征在于,所述对所述平均对数帧能量参数进行衰减调整,包括: 
应用以下公式确定平均对数帧能量参数的增益因子GDTX: 
其中,Gmin为正常语音帧中的最小增益因子,ξmin=-15dB=0.0316,为先验信噪比估计的最小值; 
采用所述增益因子对所述平均对数帧能量参数进行衰减调整。 
19.一种语音增强处理方法,其特征在于,包括: 
若确定出现错误帧,则解码比特流,获取对所述错误帧进行恢复得到的当前待处理子帧的编码参数,所述恢复得到的当前待处理子帧的编码参数包括语言活动侦测标志、第四阻抗频率参数、基音参数、第三自适应码书增益; 
调整所述第四阻抗频率参数,得到第五阻抗频率参数; 
根据编码速率生成随机脉冲位置的第三代数码书矢量; 
对所述编码参数中的第三代数码书增益进行调整,得到第四代数码书增益; 
对所述语言活动侦测标志、第五阻抗频率参数、所述基音参数、所述随机脉冲位置的第三代数码书索引进行量化,并采用语音信号均方误差最小的增益量化准则对所述第三自适应码书增益和所述第四代数码书增益进行量化; 
采用所述第四代数码书增益和所述第三自适应码书增益的联合量化索引、所述第五阻抗频率参数的量化索引以及所述基音参数替换所述比特流中各编码参数对应的比特。 
20.根据权利要求19所述的方法,其特征在于,所述对所述编码参数中的第三代数码书增益进行调整,得到第四代数码书增益,包括: 
获取前一个正常子帧的代数码书增益的第二调整因子past_scale_gc; 
应用以下公式确定第四代数码书增益gc_mod: 
gc_mod=gc×0.9delay×past_scale_gc; 
delay为从帧错误发生开始累计的错误的子帧数目,gc为第三代数码书增益。 
21.一种语音增强处理装置,其特征在于,所述装置包括: 
第一获取模块,用于解码比特流,获取当前待处理语音子帧的编码参数,所述编码参数包括第一代数码书增益和第一自适应码书增益; 
第一调整模块,用于调整所述第一代数码书增益,得到第二代数码书增益; 
第一确定模块,用于根据所述第一自适应码书增益和所述第二代数码书增益,确定第二自适应码书增益; 
第一处理模块,用于采用所述第二代数码书增益和所述第二自适应码书增益的量化索引替换所述比特流中所述第一代数码书增益和所述第一自适应码书增益对应的比特。 
22.根据权利要求21所述的装置,其特征在于,所述第一调整模块,包括: 
信噪比确定单元,用于根据所述第一代数码书增益确定噪声的代数码书增益;根据所述噪声的代数码书增益和所述第一代数码书矢量确定噪声激励能量估计值;根据所述第一代数码书增益和所述第一代数码书矢量确定第一代数码书激励能量;根据所述噪声激励能量估计值和所述第一代数码书激励能量,确定所述当前待处理语音子帧的第一后验信噪比估计值;根据所述当前待处理语音子帧的能量和所述当前待处理语音子帧的能量的最小值,确定所述当前待处理语音子帧的第二后验信噪比估计值;根据所述第一后验信噪比估计值和所述第二后验信噪比估计值确定所述当前待处理语音子帧的先验信噪比估计值; 
调整因子确定单元,用于采用所述先验信噪比估计值确定所述当前待处理语音子帧的第一调整因子; 
增益参数调整单元,用于根据所述第一调整因子调整所述第一代数码书增益,确定所述第二代数码书增益。 
23.根据权利要求21或22所述的装置,其特征在于,所述编码参数中还包括浊音度参数,所述装置还包括判定模块,所述判定模块,包括: 
平滑处理单元,用于在所述调整所述第一代数码书增益,得到第二代数码书增益之前,对所述浊音度参数进行平滑处理,得到平滑处理后的浊音度参数; 
子帧类型判定单元,用于若所述平滑处理后的浊音度参数大于第一阈值,则确定所述当前待处理语音子帧为第一类子帧;若所述平滑处理后的浊音度参数小于第一阈值,则确定所述当前待处理语音子帧为第二类子帧,其中, 所述第一类子帧为浊音帧,所述第二类子帧为清音或噪音帧。 
24.根据权利要求23所述的装置,其特征在于,所述平滑处理单元,具体用于: 
应用以下公式对浊音度参数rv(m)在时间上进行一阶递归平滑生成平滑后的浊音度参数
其中,αv为平滑因子,m为当前待处理语音子帧的序号,为前一个语音子帧平滑处理后的浊音度参数。 
25.根据权利要求23或24所述的装置,其特征在于,所述编码参数中还包括第一自适应码书矢量,所述第一确定模块,包括: 
码书矢量获取单元,用于若所述子帧类型判定单元确定当前待处理语音子帧为所述第一类子帧,则获取所述当前待处理语音子帧的第二代数码书矢量以及第二自适应码书矢量; 
总激励能量确定单元,用于根据所述第一自适应码书增益、所述第一自适应码书矢量、所述第一代数码书增益以及所述第一代数码书矢量,确定第一总激励能量;根据所述第一总激励能量和能量调整因子,确定第二总激励能量; 
增益参数确定单元,用于根据所述第二总激励能量、所述第二代数码书增益、所述第二代数码书矢量以及所述第二自适应码书矢量,确定所述第二自适应码书增益。 
26.根据权利要求22~25任一项所述的装置,其特征在于,所述编码参数中还包括第一阻抗频率参数,所述判定模块,还包括: 
谱包络低频能量比参数确定单元,用于在所述调整所述第一代数码书增益,得到第二代数码书增益之前,根据所述第一阻抗频率参数确定谱包络低频能量比参数; 
噪音类型判定单元,用于若所述谱包络低频能量比参数的平均值大于第二阈值,则确定噪声类型为低频分布噪声;若所述谱包络低频能量比参数的平均值小于所述第二阈值,则确定噪声类型为全带分布噪声。 
27.根据权利要求26所述的装置,其特征在于,所述谱包络低频能量比参数确定单元,具体用于: 
应用以下公式确定谱包络低频能量比参数Ren_low: 
其中,NFFT为LPC谱包络计算中使用的FFT长度,Nlow为低频子带的上限频率,Elpc为使用所述第一阻抗频率参数计算得到的LPC谱包络。 
28.根据权利要求26或27所述的装置,其特征在于,所述信噪比确定单元,具体用于: 
应用以下公式定义第一后验信噪比估计值γexc(m): 
其中,Efcb_before(m)为第一代数码书激励的能量,为噪声激励能量估计值,m为当前待处理语音子帧的序号; 
应用以下公式定义第二后验信噪比估计值γsubframe(m): 
其中,Esubframe(m)为第m子帧的语音能量,Esubframe_min为子帧能量的最小值,m为当前待处理语音子帧的序号; 
若所述噪音类型判定单元确定噪声类型为低频分布噪声,则应用以下公式确定先验信噪比估计值ξ(m): 
其中,为第m子帧的平滑浊音度参数,β1为信噪比估计的平滑因子, ξ(m)min为先验信噪比估计的最小值,m为当前待处理语音子帧的序号; 
若所述噪音类型判定单元确定噪声类型为全带分布噪声,则应用以下公式确定先验信噪比估计值ξ(m): 
ξ(m)=max(β1ξ(m-1)+(1-β1)max(γexc(m)-1,0),ξ(m)min); 
其中,β1为信噪比估计的平滑因子,ξ(m)min为先验信噪比估计的最小值,m为当前待处理语音子帧的序号。 
29.根据权利要求22~28任一项所述的装置,其特征在于,所述调整因子确定单元,具体用于: 
应用以下公式确定所述当前待处理语音子帧的第一调整因子γgc(m): 
或者, 
其中,ξ(m)为先验信噪比估计值,β2为控制噪声衰减量的因子。 
30.根据权利要求22~29任一项所述的装置,其特征在于,所述码书增益调整单元,具体用于: 
应用以下公式确定第二代数码书增益
其中,gy(m)为第一代数码书增益,γgc(m)为第一调整因子,m为当前待处理语音子帧的序号。 
31.根据权利要求25~30任一项所述的装置,其特征在于,所述总激励能量确定单元,具体用于: 
应用以下公式确定第一总激励能量Ebefore(m): 
Ebefore(m)=∑n(gp(m)d(n)+gy(m)c(n))2; 
其中,gy(m)为第一代数码书增益,gp(m)为第一自适应码书增益,c(n) 和d(n)分别为第一代数码书矢量和第一自适应码书矢量,n为采样点的序号; 
应用以下公式确定第二总激励能量Eafter(m): 
Eafter(m)=αeEbefore(m); 
其中,Ebefore(m)为第一总激励能量,αe为当前待处理语音子帧的的能量调整因子。 
所述增益参数确定单元,具体用于: 
应用以下方程确定第二自适应码书增益
其中,为第二代数码书增益,c′(n)和d′(n)分别为第二代数码书矢量以及第二自适应码书矢量,Eafter(m)为第二总激励能量,n为采样点的序号。 
32.根据权利要求26~31任一项所述的装置,其特征在于,所述第一处理模块,还用于:在所述采用所述第二代数码书增益和所述第二自适应码书增益的量化索引替换所述比特流中所述第一代数码书增益和所述第一自适应码书增益对应的比特之前,若确定噪声类型为低频分布噪声,则根据所述当前待处理语音子帧的先验信噪比估计值和所述平滑处理后的浊音度参数,确定滤波器参数; 
根据所述第二代数码书增益、所述第二自适应码书增益、所述第二代数码书矢量以及第二自适应码书矢量,确定总激励信号; 
根据所述滤波器参数,对所述总激励信号进行梳状滤波处理。 
33.根据权利要求26~32任一项所述的装置,其特征在于,所述装置还包括: 
第一量化模块,用于在所述采用所述第二代数码书增益和所述第二自适应码书增益的量化索引替换所述比特流中所述第一代数码书增益和所述第一自适应码书增益对应的比特之前,若所述判定模块确定噪声类型为低频分布噪声,则采用语音信号均方误差最小的增益量化准则对所述第二代数码书增 益和所述第二自适应码书增益进行量化; 
若所述判定模块确定噪声类型为全带分布噪声,则采用激励信号均方误差最小的增益量化准则对所述第二代数码书增益和所述第二自适应码书增益进行量化。 
34.根据权利要求33所述的装置,其特征在于,若所述判定模块确定噪声类型为低频分布噪声,所述第一量化模块,具体用于: 
应用以下公式对所述第二代数码书增益和所述第二自适应码书增益进行量化,具体为: 
其中,x(n)为码书搜索的目标矢量,y(n)和z(n)分别为滤波后的自适应和代数码书矢量,分别为增益量化码书中第k个码字对应的自适应码书增益和代数码书增益,E为量化误差,n为采样点的序号; 
若所述判定模块确定噪声类型为全带分布噪声,所述第一量化模块,具体用于: 
应用以下公式对所述第二代数码书增益和所述第二自适应码书增益进行量化,具体为: 
其中,xe(n)为激励域的目标矢量,c′(n)和d′(n)分别为第二代数码书矢量以及第二自适应码书矢量,分别为增益量化码书中第k个码字对应的自适应码书增益和代数码书增益,E为量化误差,n为采样点的序号。 
35.根据权利要求26~34任一项所述的装置,其特征在于,所述装置还包括第二调整模块,所述第二调整模块,包括: 
第一确定单元,用于在所述解码比特流,获取当前待处理语音子帧的编码参数之后,若确定当前待处理帧为浊音帧,则根据所述第一阻抗频率参数,确定含噪语音的线性预测系数; 
第二确定单元,用于估计确定噪声的线性预测系数、噪声的自相关系数 以及纯净语音的自相关系数; 
第三确定单元,用于根据所述含噪语音的线性预测系数、所述噪声的线性预测系数、噪声的自相关系数以及纯净语音的自相关系数,确定纯净语音的线性预测系数; 
所述第一处理模块,还用于:对所述纯净语音的线性预测系数进行变换,得到第二阻抗频率参数; 
对所述第二阻抗频率参数进行限定处理; 
若所述当前待处理帧的信噪比大于第三阈值,则在连续至少三个语音帧之后,对限定处理后的第二阻抗频率参数进行平滑处理,所述平滑处理为根据所述第一阻抗频率和当前帧之前的至少一帧的调整后的阻抗频率参数计算加权平均值,确定第三阻抗频率参数; 
所述第一量化模块,还用于采用所述第三阻抗频率参数的量化索引替换比特流中所述第一阻抗频率参数对应的比特。 
36.根据权利要求35所述的装置,其特征在于,所述第二确定单元,具体用于: 
应用以下公式确定噪声线性预测系数
其中,Ninit为初始段帧数,Ay(l)为含噪语音第l帧的线性预测系数,l为当前待处理帧的序号; 
应用以下公式确定噪声自相关系数的估计值
其中,为噪声的残差能量,ILD表示逆Levinson-Durbin算法,为噪声线性预测系数; 
应用以下公式确定纯净语音自相关系数的估计值
其中,Ry为含噪语音的自相关系数,β3为权重因子; 
权重因子β3和先验信噪比ξ(l)的关系可以由下式表示: 
其中,β3max与β3min分别为权重因子的最大值和最小值,ξ(l)max和ξ(l)min分别为帧先验信噪比的最大值和最小值; 
应用以下公式确定先验信噪比ξ(l): 
其中,Eframe和Eframe_min分别为语音帧能量及语音帧能量的最小值,ξ(l-1)为前一帧的先验信噪比。 
37.一种语音增强处理装置,其特征在于,包括: 
第二获取模块,用于确定不连续传输模式开启,若当前待处理子帧为沉默指示帧,则解码比特流,获取所述沉默指示帧的加权平均阻抗频率参数矢量和平均对数帧能量参数; 
第三调整模块,用于对所述平均对数帧能量参数进行衰减调整; 
第二处理模块,用于采用调整后的平均对数帧能量参数的量化索引替换所述比特流中平均对数帧能量参数对应的比特。 
38.根据权利要求37所述的装置,其特征在于,所述第三调整模块,具体用于: 
应用以下公式确定平均对数帧能量参数的增益因子GDTX: 
其中,Gmin为正常语音帧中的最小增益因子,ξmin=-15dB=0.0316,为先验信噪比估计的最小值; 
采用所述增益因子对所述平均对数帧能量参数进行衰减调整。 
39.一种语音增强处理装置,其特征在于,包括: 
第三获取模块,用于若确定出现错误帧,则解码比特流,获取对所述错 误帧进行恢复得到的当前待处理子帧的编码参数,所述恢复得到的当前待处理子帧的编码参数包括语言活动侦测标志、第四阻抗频率参数、基音参数、第三自适应码书增益; 
第四调整模块,用于调整所述第四阻抗频率参数,得到第五阻抗频率参数; 
第二确定模块,用于根据编码速率生成随机脉冲位置的第三代数码书矢量; 
所述第四调整模块,还用于对所述编码参数中的第三代数码书增益进行调整,得到第四代数码书增益; 
第二量化模块,用于对所述语言活动侦测标志、第五阻抗频率参数、所述基音参数、所述随机脉冲位置的第三代数码书索引进行量化,并采用语音信号均方误差最小的增益量化准则对所述第三自适应码书增益和所述第四代数码书增益进行量化; 
第三处理模块,用于采用所述第四代数码书增益和所述第三自适应码书增益的联合量化索引、所述第五阻抗频率参数的量化索引以及所述基音参数替换所述比特流中各编码参数对应的比特。 
40.根据权利要求39所述的装置,其特征在于,所述第四调整模块,具体用于: 
获取前一个正常子帧的代数码书增益的第二调整因子past_scale_gc; 
应用以下公式确定第四代数码书增益gc_mod: 
gc_mod=gc×0.9delay×past_scale_gc; 
delay为从帧错误发生开始累计的错误的子帧数目,gc为第三代数码书增益。 
CN201310066421.XA 2013-02-28 2013-02-28 语音增强处理方法和装置 Active CN104021796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310066421.XA CN104021796B (zh) 2013-02-28 2013-02-28 语音增强处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310066421.XA CN104021796B (zh) 2013-02-28 2013-02-28 语音增强处理方法和装置

Publications (2)

Publication Number Publication Date
CN104021796A true CN104021796A (zh) 2014-09-03
CN104021796B CN104021796B (zh) 2017-06-20

Family

ID=51438517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310066421.XA Active CN104021796B (zh) 2013-02-28 2013-02-28 语音增强处理方法和装置

Country Status (1)

Country Link
CN (1) CN104021796B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966517A (zh) * 2015-06-02 2015-10-07 华为技术有限公司 一种音频信号增强方法和装置
CN105427859A (zh) * 2016-01-07 2016-03-23 深圳市音加密科技有限公司 一种用于对说话人识别的前端语音增强方法
CN105469806A (zh) * 2014-09-12 2016-04-06 联想(北京)有限公司 一种声音处理方法、装置及系统
CN108899052A (zh) * 2018-07-10 2018-11-27 南京邮电大学 一种基于多带谱减法的帕金森语音增强方法
CN109040116A (zh) * 2018-09-06 2018-12-18 深圳市益鑫智能科技有限公司 一种基于云端服务器的视频会议系统
CN110556125A (zh) * 2019-10-15 2019-12-10 出门问问信息科技有限公司 基于语音信号的特征提取方法、设备及计算机存储介质
CN110970050A (zh) * 2019-12-20 2020-04-07 北京声智科技有限公司 语音降噪方法、装置、设备及介质
CN111429927A (zh) * 2020-03-11 2020-07-17 云知声智能科技股份有限公司 提升个性化合成语音质量的方法
CN111460117A (zh) * 2020-03-20 2020-07-28 平安科技(深圳)有限公司 对话机器人意图语料生成方法、装置、介质及电子设备
CN112102818A (zh) * 2020-11-19 2020-12-18 成都启英泰伦科技有限公司 结合语音活性检测和滑动窗噪声估计的信噪比计算方法
WO2021143694A1 (zh) * 2020-01-13 2021-07-22 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN113473316A (zh) * 2021-06-30 2021-10-01 苏州科达科技股份有限公司 音频信号处理方法、装置及存储介质
CN113470691A (zh) * 2021-07-08 2021-10-01 浙江大华技术股份有限公司 一种语音信号的自动增益控制方法及其相关装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020107686A1 (en) * 2000-11-15 2002-08-08 Takahiro Unno Layered celp system and method
CN1437184A (zh) * 2002-02-08 2003-08-20 株式会社Ntt都科摩 解码装置及编码装置与解码方法及编码方法
CN1470050A (zh) * 2000-10-20 2004-01-21 ����ɭ�绰�ɷ����޹�˾ 可感知地改善的编码声信号的增强
US20040024594A1 (en) * 2001-09-13 2004-02-05 Industrial Technololgy Research Institute Fine granularity scalability speech coding for multi-pulses celp-based algorithm
CN1504042A (zh) * 2000-12-29 2004-06-09 ��˹��ŵ�� 数字网络中的音频信号质量增强
US20060215683A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for voice quality enhancement
CN101000768A (zh) * 2006-06-21 2007-07-18 北京工业大学 嵌入式语音编解码的方法及编解码器
CN101174413A (zh) * 1997-10-22 2008-05-07 松下电器产业株式会社 话音信号编码器和话音信号解码器
CN101256770A (zh) * 2007-02-28 2008-09-03 北京工业大学 语音编解码中的自适应码书更新方法、系统及装置
CN101256774A (zh) * 2007-03-02 2008-09-03 北京工业大学 用于嵌入式语音编码的帧擦除隐藏方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174413A (zh) * 1997-10-22 2008-05-07 松下电器产业株式会社 话音信号编码器和话音信号解码器
CN1470050A (zh) * 2000-10-20 2004-01-21 ����ɭ�绰�ɷ����޹�˾ 可感知地改善的编码声信号的增强
US20020107686A1 (en) * 2000-11-15 2002-08-08 Takahiro Unno Layered celp system and method
CN1504042A (zh) * 2000-12-29 2004-06-09 ��˹��ŵ�� 数字网络中的音频信号质量增强
US20040024594A1 (en) * 2001-09-13 2004-02-05 Industrial Technololgy Research Institute Fine granularity scalability speech coding for multi-pulses celp-based algorithm
CN1437184A (zh) * 2002-02-08 2003-08-20 株式会社Ntt都科摩 解码装置及编码装置与解码方法及编码方法
US20060215683A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for voice quality enhancement
CN101000768A (zh) * 2006-06-21 2007-07-18 北京工业大学 嵌入式语音编解码的方法及编解码器
CN101256770A (zh) * 2007-02-28 2008-09-03 北京工业大学 语音编解码中的自适应码书更新方法、系统及装置
CN101256774A (zh) * 2007-03-02 2008-09-03 北京工业大学 用于嵌入式语音编码的帧擦除隐藏方法及系统

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469806A (zh) * 2014-09-12 2016-04-06 联想(北京)有限公司 一种声音处理方法、装置及系统
WO2016192410A1 (zh) * 2015-06-02 2016-12-08 华为技术有限公司 一种音频信号增强方法和装置
CN104966517B (zh) * 2015-06-02 2019-02-01 华为技术有限公司 一种音频信号增强方法和装置
CN104966517A (zh) * 2015-06-02 2015-10-07 华为技术有限公司 一种音频信号增强方法和装置
CN105427859A (zh) * 2016-01-07 2016-03-23 深圳市音加密科技有限公司 一种用于对说话人识别的前端语音增强方法
CN108899052B (zh) * 2018-07-10 2020-12-01 南京邮电大学 一种基于多带谱减法的帕金森语音增强方法
CN108899052A (zh) * 2018-07-10 2018-11-27 南京邮电大学 一种基于多带谱减法的帕金森语音增强方法
CN109040116A (zh) * 2018-09-06 2018-12-18 深圳市益鑫智能科技有限公司 一种基于云端服务器的视频会议系统
CN110556125A (zh) * 2019-10-15 2019-12-10 出门问问信息科技有限公司 基于语音信号的特征提取方法、设备及计算机存储介质
CN110970050A (zh) * 2019-12-20 2020-04-07 北京声智科技有限公司 语音降噪方法、装置、设备及介质
WO2021143694A1 (zh) * 2020-01-13 2021-07-22 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN111429927A (zh) * 2020-03-11 2020-07-17 云知声智能科技股份有限公司 提升个性化合成语音质量的方法
CN111460117A (zh) * 2020-03-20 2020-07-28 平安科技(深圳)有限公司 对话机器人意图语料生成方法、装置、介质及电子设备
CN111460117B (zh) * 2020-03-20 2024-03-08 平安科技(深圳)有限公司 对话机器人意图语料生成方法、装置、介质及电子设备
CN112102818A (zh) * 2020-11-19 2020-12-18 成都启英泰伦科技有限公司 结合语音活性检测和滑动窗噪声估计的信噪比计算方法
CN113473316A (zh) * 2021-06-30 2021-10-01 苏州科达科技股份有限公司 音频信号处理方法、装置及存储介质
CN113473316B (zh) * 2021-06-30 2023-01-31 苏州科达科技股份有限公司 音频信号处理方法、装置及存储介质
CN113470691A (zh) * 2021-07-08 2021-10-01 浙江大华技术股份有限公司 一种语音信号的自动增益控制方法及其相关装置

Also Published As

Publication number Publication date
CN104021796B (zh) 2017-06-20

Similar Documents

Publication Publication Date Title
CN104021796A (zh) 语音增强处理方法和装置
US8401843B2 (en) Method and device for coding transition frames in speech signals
JP2971266B2 (ja) 低遅延celp符号化方法
EP1899962B1 (en) Audio codec post-filter
CN100369112C (zh) 可变速率语音编码
EP2026330B1 (en) Device and method for lost frame concealment
ES2812598T3 (es) Dispositivo y método para cuantificar las ganancias de las contribuciones adaptativas y fijas de la excitación en un códec celp
CN107293311B (zh) 非常短的基音周期检测和编码
KR20020052191A (ko) 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법
US6564182B1 (en) Look-ahead pitch determination
US10672411B2 (en) Method for adaptively encoding an audio signal in dependence on noise information for higher encoding accuracy
KR100463559B1 (ko) 대수 코드북을 이용하는 켈프 보코더의 코드북 검색방법
Kuo et al. Speech classification embedded in adaptive codebook search for low bit-rate CELP coding
US20080154586A1 (en) Dual-Pulse Excited Linear Prediction For Speech Coding
WO2002023536A2 (en) Formant emphasis in celp speech coding
Carmona et al. MMSE-based packet loss concealment for CELP-coded speech recognition
Xia et al. Compressed domain speech enhancement method based on ITU-T G. 722.2
Byun et al. Real-time implementation of AMR and AMR-WB using the fixed-point DSP for WCDMA systems
Hiwasaki et al. Design of a robust LSP quantizer for a high-quality 4-kbit/s CELP speech coder
Ekudden et al. ITU-t g. 729 extension at 6.4 kbps.
CN102968997A (zh) 用于宽带语音解码中噪声增强后处理的方法及装置
CN113826161A (zh) 用于检测待编解码的声音信号中的起音以及对检测到的起音进行编解码的方法和设备
Zhang et al. A robust 6 kb/s low delay speech coder for mobile communication
Xia et al. Compressed domain speech enhancement based on the joint modification of codebook gains
Laaksonen et al. Exploiting time warping in AMR-NB and AMR-WB speech coders.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220207

Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province

Patentee after: Huawei Cloud Computing Technologies Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right