CN101572090A - 一种自适应多速率窄带编码方法及编码器 - Google Patents
一种自适应多速率窄带编码方法及编码器 Download PDFInfo
- Publication number
- CN101572090A CN101572090A CNA2008100368342A CN200810036834A CN101572090A CN 101572090 A CN101572090 A CN 101572090A CN A2008100368342 A CNA2008100368342 A CN A2008100368342A CN 200810036834 A CN200810036834 A CN 200810036834A CN 101572090 A CN101572090 A CN 101572090A
- Authority
- CN
- China
- Prior art keywords
- frame
- speech
- input signal
- signal frame
- amr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提出一种采用新的自适应多速率编码器和编码方法,其话音激活检测较针对编码帧对应的合成数字话音,并且根据话音激活检测结果和不连续发送的发送类型确定编码速率从而压缩了语音传送速率,所述的改变重新对自适应多速率编码器和编码方法作了总体上的更新,即,编码器根据发送帧的类型确定其激励信号使译码器合成的声音信号能准确地反映原始声音的听觉效果。本发明可直接应用于第三代移动通信系统——通用移动通信系统的话音编码技术中。
Description
技术领域
本发明涉及自适应多速率窄带编码器及其编码方法,具体涉及到自适应多速率窄带编码器的话音激活检测和对连续声音信号帧进行AMR-NB编码的技术。
背景技术
码激励线性预测编码器自1985年被提出以来得到了广泛的应用。在码分多址(CDMA)和通用移动通信系统(UMTS)的声码器中都使用了码激励线性预测编码器的技术。
码激励线性预测包括了线性预测和量化、自适应码书搜索和固定码书搜索。因为语音本身有静默期,可以通过降低这些静默期间的数据速率有效压缩语音数据的传输速率,高通公司的申请号为92104618.9的可变速率声码器的专利就是关于上述方法的一个方案。
在UMTS中使用了自适应多速率(AMR)语音编码,自适应多速率(AMR)语音编码是3GPP(第三代移动通信伙伴计划)制定的应用于第三代移动通信中的语音压缩编码,自适应多速率(AMR)语音编码又分为自适应多速率窄带(AMR-NB)语音编码、自适应多速率宽带(AMR-WB)语音编码和自适应多速率宽带改进型(AMR-WB+)语音编码,这些编码方法都基于码书激励线性线性预测技术。自适应多速率(AMR)编解码方式中采用的码书激励线性预测编码器将一个话音信号帧分成若干个子帧,进行线性预测和量化、自适应码书搜索和量化以及固定码书搜索和量化。AMR-NB(自适应多速率窄带)语音编码支持八种速率的语音模式的编码速率:12.2、10.2、7.95、7.40、6.70、5.90、5.15、4.75kb/s(千比特/秒),以及低速率(1.80kb/s)的背景噪声模式的编码速率,3GPP的TS26.071-500的章节5的表格1(Table 1)给出了对应上述这些自适应多速率窄带编码速率的编码器模式:AMR_12.20、AMR_10.20、AMR_7.95、AMR_7.40、AMR_6.70、AMR_5.90、AMR_5.15、AMR_4.75以及AMR_SID。
线性预测和量化包括了:将采样得到的话音信号帧或经过预处理的话音信号帧组成一个序列,用一个窗函数乘该序列中的声音样本,以提供一个加窗的声音数据帧;由所述加窗的声音数据帧计算一组自相关系数;用莱文逊一杜宾(Levinson-Durbin)算法由所述自相关系数组计算一组线性预测系数:将所述线性预测系数组转换到另一个频谱域;根据编码指令中的速率量化所述转换到另一个频谱域上的系数组,例如,10阶的一组线频谱对(LSP)的值,或16阶的一组声抗纳频谱对(ISP)的值,关于线频谱对(LSP),最早在发表于国际语言语音和信号处理会议(ICASSP)′84中的文章“线频谱对(LSP)和语音数据压缩”中有说明,高通公司的申请号为92104618.9的可变速率声码器的专利中也有说明,在3GPP的TS(技术规范)26090和3GPP2的C.S0014-A中也都有说明。
在码激励线性预测编码过程中,自适应码书搜索和固定码书搜索得到的最佳码书矢量信号乘以各自的最佳增益后相加,其和为激励信号。激励信号是编码过程中一定要使用的,码激励线性预测编码是搜索与原始语音之间误差最小的基于激励信号的合成语音。
3GPP的TS26.090对自适应多速率窄带的自适应码书搜索作了说明,例如,TS26.090-310版本的5.6节。自适应码书搜索包含了基于以前激励信号的闭环基音(pitch)搜索和此后的按选定的整数和分数基音延迟进行的内插以前激励信号得到自适应码书的计算。自适应码书搜索得到的自适应码书参数是激励信号、整数和分数基音延迟、自适应码书增益和量化的自适应码书增益。
闭环基音搜索是通过原始语音和重构语音之间的均方加权误差的最小化来完成的,所述最小化需要从搜索范围内的每个延时值所对应的均方加权误差中找出最小的均方加权误差,每个延时值所对应的均方加权误差由自适应码书搜索目标信号(target signal)和加权合成滤波器(weighted synthesis filter)对以前激励信号的响应所确定。对自适应多速率窄带来说,3GPP的TS26.090-310版本中的5.6节对此做了说明,就是先求解由下面的式(1)表示的特征项R(k)最大时的整数延时值k得到最佳整数延迟,
x(n)是自适应码书搜索的目标信号,yk是在整数延时k处的过去激励信号的经过滤波的值,在最佳整数延迟附近的分数延时值是通过内插归一化的特征项R(k)得到的,搜索最大的分数延时值可得到最佳分数延迟,存放激励信号值的是激励缓冲器excitation buffer(u(n),n=-(143+11),…,39,),其中搜索阶段的值(u(n),n=0,1,…,39,)是线性残差(LPresidual),每个子帧的激励信号是当前本子帧的自适应码书信号按量化的自适应码书增益值放大后的得到信号,同固定码书信号按量化的固定码书增益值放大后的得到信号进行叠加所得到的信号,关于这一点,可以参见3GPP的TS26.090-310版本的5.9节,其中式(64)是激励信号值的数学表示。
关于AMR-NB的固定码书搜索在3GPP的TS26090-500的5.7节中有详细描述,AMR-NB的固定码书采用了代数码书Algebraic codebook,固定码书搜索得到固定码书参数有固定码书矢量、固定码书增益及量化的固定码书增益。
自适应多速率窄带(AMR-NB)语音解码过程中,对每一帧都进行LP(线性预测)滤波器参数解码,从而形成用于重构每一子帧的语音信号的每个子帧的LP滤波器系数;每个子帧的激励信号的构造方法是:将自适应码书信号按自适应码书增益值放大后得到的信号,同固定码书信号按固定码书增益值放大后得到的信号进行叠加,这里的自适应码书增益值和固定码书信号是按照解码得到的自适应码书增益索引和固定码书索引从量化表找到的量化值;AMR-NB的自适应码书信号是基于上一个子帧的激励信号的合成信号,即,解码自适应码书索引得到的的整数和分数基音延迟,按所述整数和分数基音延迟对上一个子帧的激励信号进行内插得到自适应码书信号。
自适应多速率窄带(AMR-NB)的固定码书增益量化包括:基于以前子帧的量化能量预测误差(quantified prediction error)得到的固定码书预测增益,以及固定码书增益和所述的固定码书预测增益之间的修正因子的量化。
子帧的量化能量预测误差(quantified prediction error)由编解码双方约定一个相同的值,例如可以是上一个被编码的信号帧的帧能量的对数平均值,也可以是上述的上一个编码帧的修正因子的对数按固定比例放大后的值,或者是编解码双方都使用各自上一帧的量化能量预测误差。
3GPP的TS26.090对自适应多速率窄带的固定码书增益量化作了说明,例如,TS26.090-310版本的5.8节中的式(54)和(56),也就是下面的式(3)和(4)说明量化能量预测误差如何影响固定码书预测增益的,
式(3)是第n个子帧预测能量(predicted energy)的定义,取值为[0.68 0.58 0.340.19]的[b1 b2 b3 b4]是移动平均(MA)预测系数,就是第k个子帧的量化能量预测误差;式(4)是固定码书预测增益(predicted fixed-codebook gain)g′c的定义,E是更新能量(innovation energy)的平均值并且根据模式的不同取不同的常数值,例如12.2kb/s时为36分贝(dB),EI是平均更新能量(mean innovation energy)。固定码书增益和固定码书预测增益之间的修正因子为前者与后者的比值;而TS26.090-310版本的5.8节中的式(58)说明能量预测误差R(n)就是20乘上述修正因子的对数,量化能量预测误差则是20乘量化修正因子的对数。
在3GPP的TS26.092-500的5.2节帧能量计算(Frame energy caculation)中给出了根据以前的帧的帧能量计算帧能量对数平均值的如下说明:
s(n)是输入声音信号帧i经过高通滤波预处理后的信号帧,enlog(i)是当前的第i的帧能量对数值。
enlog mean(i)是当前的第i帧的帧能量对数平均值,帧能量对数平均值被量化成6比特的能量索引放在SID帧。
采样数字话音帧经预处理后形成的数字话音帧经过线性预测和量化、自适应码书搜索和固定码书搜索后所形成的合成数字话音帧的共振峰主要由线性预测所使用的线性预测分析(LPC)所决定,更确切一点,对AMR-NB来说,就是线频谱对(LSP)转换为预测(LP)系数后,一个10阶线性预测合成滤波器(linear prediction synthesis filter)就可以按式(7)确定,其中的 是量化了的预测(LP)系数。
对于AMR-NB和AMR-WB来说,将激励信号通过线性预测合成滤波器滤波后的输出就是合成数字话音帧,所以,线性预测合成滤波器的极点对应了合成数字话音帧的共振峰的频率和带宽,这些共振峰反映在时域上的波形的强度上,对听觉影响很大。
根据发表在Proc.IEEE(进展.电气电子工程师协会).1975,63(4):561-580的文献“线性预测:入门性的回顾(Linear Prediction:A Tutorial Review)”可以知道,采用线性预测的方法得到的谱包络的峰值比较接近谐波峰值而常常偏离真正的共振峰的位置,也就是说,根据线性预测合成滤波器得到的合成数字话音帧的谱包络和原来的数字话音信号帧的谱包络并不是一致的。
在电子工业出版社2004年出版的作者是美国的夸特尔瑞的<<离散时间语音信号处理:原理与应用(Discrete-Time Speech Signal Processing:Principle and Practice)>>的5.3.4节——Levinson(莱文逊)递归及其相关特性中指出:线性预测所使用的全极点模型和自相关方法会使(7)式的所有极点落在单位圆内是最小相位系统;序列的自相关法的解的傅立叶变换的相位函数是失真的;线性预测的自相关引起声门最大相位极点向最小相位极点的转变;建立合成语音波形时,自相关变换造成的相位函数失真可能对语音感知有影响,即,合成数字话音信号的波形和原来数字话音信号的波形的偏离。在该书的5.6节——基于全极点模型的语音综合中指出:基于线性预测自相关法的合成信号看起来像语音,但同时由于其最小相位特性而失去了绝对相位结构;书中的图5.18中的例子所示,重建语音信号的尖峰比原始信号更为突出,并且,假定为最小相位的理想声门波是时间翻转的,并具有比实际声门波更陡的上升沿。
目前自适应多速率声码器的话音激活检测(VAD)方法是先计算预处理后的输入信号的电平和背景噪声估计值之间的差值,再计算出VAD判决阈值,VAD初始判决是通过比较所述差值和判决阈值来实现的,当前者大于后者时初始判决为有话音帧,当前者小于等于后者时初始判决为无话音帧,VAD的最终判决是将初始判决和预处理后的数字话音信号音调等其它检测的结果综合后的判决。
AMR-NB和AMR-WB的VAD还要和不连续发送DTX相结合,DTX是通过多个输入信号帧的VAD结果检测到一段语音结束后才开始进行不连续的静音描述帧SID的发送,3GPP的TS26.093介绍了一种DTX的执行方案。
DTX要求,当一段语音结束时,将需要多个(例如8个)连续帧去产生一个SID帧,即在将连续多个(例如7个)VAD结果为无话音的输入信号帧以语音模式编码速率编码之后将之后的帧(例如第8帧)编码为SID_FIRST以标明一段语音的结束,一旦SID_FIRST帧被发送,只要连续无语音就周期性地(例如每8帧)发送SID_UPDATE帧,第一个SID_UPDATE帧需要在SID_FIRST帧后的特定时刻(例如第3帧)发送出;一种例外情况是当有语音的输入信号帧后的一个输入信号帧的VAD结果是无话音并且距离上一段语音结束少于一定时间(例如24帧)将该帧编码为SID_FIRST帧。
发明内容
要解决的技术问题
根据采用码激励线性预测技术的AMR编码所产生的编码帧所生成的合成数字话音帧和原数字话音信号帧的语音特征并不一致,关于这一点已经在背景技术中有所指出,即:以线性预测分析方法来估计共振峰常常发生所得到的谱包络的峰值位置偏离真正的共振峰;线性预测所使用的全极点模型和自相关方法会使模型的所有极点落在单位圆内,从而造成合成数字话音信号的傅立叶变换的相位函数失真,这会使合成数字话音信号的波形形状和原来数字话音信号的波形形状的偏离。
现有技术采用的VAD所针对的对象是采样话音输入后形成的数字话音信号帧或采样后数字话音信号帧再经预处理后形成的预处理后的数字话音信号帧,以线性预测分析和码书激励的方式编码产生的连续的编码帧经译码后产生的合成数字话音信号的波形上的峰值位置常常会偏离原来的用于VAD的数字信号(或原来的预处理后的数字话音信号)的波形上的峰值位置,本文通过3GPP的AMR-NB声音编码器对具体的声音编码给出实例,3GPP的TS26.074-500.zip(zip是文件的后缀名)文件中的TS_AMR_500_DTX.zip文件的DTX_400.zip中DTX4.INP(INP-文件的后缀名)文件所对应的语音信号的波形中的7.83秒和7.84秒之间的最大峰值位置同以DTX4.INP文件为输入以12.2kb/s为编码速率进行编码解码后形成的合成数字话音信号的波形上的对应峰值位置所属的帧不是相互对应的,下面就是关于这一点的说明:
如图7所示,DTX4.INP所指定的话音信号预处理后的数字话音信号的392帧(图中7.84秒之前)的波形中出现的最大峰值对应了DTX4.INP文件所对应的语音信号的波形中的7.83秒和7.84秒之间的最大峰值,对于译码后的合成数字语音信号而言,如图8所示,对应的波形的峰值出现在以12.2kb/s速率编码的编码帧经译码后产生的合成数字话音信号393帧(7.84秒之后)中,合成数字话音信号帧393是比对应的392帧晚了一帧,如果VAD采用短时能量检测的方法可以检测到预处理后的数字话音信号的392帧的波形峰值,这样尽管预处理后的数字话音信号以12.2kb/s速率方式编码,但该数字话音信号的以12.2kb/s速率编码的编码帧被译码后产生的合成数字话音信号的392帧中却没有原信号的392帧中的明显影响听觉的对应波形峰值。发生上述情况的原因是因为按照3GPP的TS26.073-530所构造的AMR-NB编码器的VAD和语音模式编码针对的数字话音信号并不完全相同,VAD所针对的数字话音信号要比语音模式编码所针对的要在时间上更靠后一点,即VAD对还未编码的数字话音信号进行了话音激活检测。VAD和编码针对不完全一致的数字话音信号还引起将帧的编码速率从12.2kb/s这样的速率降低时需要多个帧的VAD结果,因为如果要覆盖用于编码的数字声音信号帧的信号至少需要该帧对应的用于VAD的数字话音帧及与之相邻的前一个用于VAD的数字话音帧,在3GPP标准中,编码速率降低到背景噪声编码速率一般需要8个VAD为无话音的帧。
所以,预处理后的数字话音帧和其对应的合成数字话音信号帧不一定具有完全一致的声音特征。被用作VAD的预处理后的数字话音帧(或采样数字话音帧)的VAD结果也并不意味着其对应的合成数字话音信号帧有与之相同的VAD结果,特别是在当一个被用作VAD的数字话音输入帧上的可被检测出的共振峰经编码操作被映射到其相邻的后一个被用作VAD的数字话音输入帧所对应的合成数字话音帧上的情况下。
本发明要解决编码前后的输入信号帧和编码帧解码后的合成数字信号帧的语音特性不一致对VAD带来的不良影响;以及两者间波形特征不一致所带来的不良影响,例如,上述DTX4.INP所指定的话音信号预处理后的数字话音信号的392帧的VAD结果是有话音但393帧是无话音会导致392帧被按语音模式编码速率编码而393帧按背景噪声编码速率编码情况,这样392帧的波形峰值就不会反映到变速率编码的合成数字信号帧上了。
如果话音激活检测要针对合成数字话音帧进行,那么产生该合成数字话音信号帧的线性预测和码书搜索操作所得到的激励信号、滤波器记忆、滤波器误差等参数是否能及如何用于下一帧的编码,也是本发明要解决的问题。
技术方案
AMR-NB编码帧经译码后所得到的数字话音帧是否有话音,这个判断还可以通过对该数字话音帧进行话音激活检测来作出,所以本发明采用直接对AMR编码帧的合成数字话音信号帧进行VAD检测的方法。
对本发明的生成语音模式编码速率合成数字话音帧并将其作为VAD的对象的方法来说,一方面,生成合成数字话音帧涉及到不间断地执行AMR-NB语音模式编码操作中的线性预测、码书搜索等操作;另一方面,当VAD结果是无话音会导致编码器输出较低编码速率AMR-NB帧甚至背景噪声编码帧。不间断(例如恒速率)的语音模式编码的声音效果要好于语音模式和背景噪声模式混合方式的变速率编码的声音效果,所以在低速率或背景噪声模式的编码后再执行语音模式的高速率的编码时使用语音模式高速率编码(或生成合成数字话音帧)所产生的参数有利于提高语音质量。
所以,本发明提出另一种方法,在涉及到语音模式(非背景噪声编码速率)和语音模式的另一较低编码速率(或背景噪声编码速率)对同一话音输入帧进行了两次码书搜索且只有一种编码速率的编码帧被选择为AMR-NB发送帧向译码器发送的情况下,有选择地使用语音模式编码所产生的参数用于下一帧的编码,本发明给出这种选择的的方案。
本发明的选择的方案使得,在编码器在完成当前输入信号帧的AMR-NB帧的编码后以及译码器在完成该AMR-NB帧的译码后,双方保持一致的激励信号。达到这样的效果带来的好处是,在双方保持一致激励信号的前提下,只要语音模式的AMR-NB帧中的涉及构造线性预测合成滤波器的线性谱频率LSF参数传送无误,对于编译码双方来说,由线性预测合成滤波器响应激励信号所输出的合成数字话音帧就可以取得一致了。
在使编译码双方保持一致激励信号的本发明的技术方案中,编码器需要根据其输出的AMR-NB帧确定激励信号,当输出帧是背景噪声模式的AMR-NB帧时,编码器将激励信号复位到一个编码器和译码器双方约定的固定值;当输出帧是语音模式的AMR-NB编码帧时,编码器按该语音模式编码帧的整数和分数基音延迟对上一个子帧及之前的激励信号进行内插最后得到自适应码书信号,该自适应码书信号再按量化的自适应码书增益值放大后的得到信号,同固定码书信号按量化的固定码书增益值放大后的得到信号进行叠加,将所得到的信号作为激励信号。
语音模式AMR-NB编码帧包含整数和分数基音延迟、自适应码书的量化增益和固定码书信号,但并不直接包含固定码书增益参数,而是包含固定码书增益和固定码书预测增益g′c之间的修正因子的量化编码参数,因为AMR-NB编码器和译码器双方约定了一致的固定码书预测增益g′c,所以双方就可以在激励信号上取得一致。
AMR-NB编码器是通过和其AMR-NB译码器约定一致的量化能量预测误差来约定一致的固定码书预测增益g′c的,由前面式(4)所示的固定码书预测增益g′c的计算式中可知:只有子帧的预测能量(predicted energy)由量化能量预测误差确定,更新能量的平均值E的取值只和编码器发送的AMR-NB编码帧的编码速率有关,平均更新能量EI仅和固定码书信号有关,关于这一点,在TS26.090-310版本的5.8节中的式(55)给出了说明,所以自适应多速率窄带译码器通过获得AMR-NB编码帧的编码速率和固定码书参数,可以和AMR-NB编码器在更新能量的平均值E和平均更新能量EI上取得完全一致,如果使用同样的四个子帧的量化能量预测误差来计算子帧的预测能量,编码器和译码器双方的固定码书预测增益g′c也完全一致。
现有的3GPP标准给出了AMR-NB编码器和译码器之间约定一致的量化能量预测误差的一种方法,即,当AMR-NB编码器的发送帧是语音模式的AMR-NB编码帧时,按TS26.090-310版本的5.8节中的式(58)说明,能量预测误差R(n)就设定为20乘该AMR-NB帧中修正因子的对数,量化能量预测误差则是20乘该量化修正因子的对数;当编码帧是背景噪声编码速率帧时,编译码器双方的子帧的量化能量预测误差是根据该背景噪声编码速率的AMR-NB编码帧中给出的量化的帧能量的对数平均值(averaged logarithmic energy)进行设定,在3GPP的TS26.092-500的5.2节帧能量计算(Frame energy caculation)中给出了根据以前的帧的帧能量计算帧能量对数平均值的说明。
上述这种在AMR-NB编码器和译码器之间约定一致量化能量预测误差的方案并不是唯一的,例如,在3GPP的AMR-WB方案中,就是编译码器双方都按语音模式编码发送帧中的修正因子来设置量化能量预测误差进而取得一致;实际上对于本发明的这种为每一个输入信号帧都生成合成数字话音帧的方法,可以为每一个输入信号帧都生成修正因子,并且在发送帧是静音描述帧的时候将该帧的四个子帧的修正因子一同向译码器发送,这样,编译码器双方就维持了量化能量预测误差参数的一致性,也就不需要采用3GPP这样的发送SID_UPDATE帧将双方的量化能量预测误差统一到量化的帧能量的对数平均值的方式,虽然比原来只发送静音描述帧的做法增加了发送的少量的比特数。
对于自适应多速率窄带编码来说,上一帧的激励信号的所有160个样本点上的数据不是全部都要使用,因为3GPP规范规定基音延时的搜索范围在143个样本点之内,所以规范中规定的激励信号缓冲器也只有154个样本点的大小,如果只要求兼容现有的3GPP规范的要求只使用160个样本点中的154个样本点就可以了。
下面的文字就是根据合成数字声音信号执行话音激活检测的技术方案:
一种对一输入信号帧序列中的一输入信号帧进行自适应码书搜索、固定码书搜索及自适应多速率窄带AMR-NB编码和对与该输入信号帧相邻的后一输入信号帧进行非背景噪声的语音模式编码速率AMR-NB编码的方法,其特征在于,
对所述的一输入信号帧进行线性预测,并根据所得到的线性预测参数确定线性预测合成滤波器,按一个语音模式编码速率对所述一输入信号帧自适应码书搜索、固定码书搜索,并根据所得到的自适应码书参数和固定码书参数生成激励信号,用该线性预测合成滤波器对该激励信号滤波生成合成数字声音信号帧;
根据所述合成数字声音信号帧进行话音激活检测,根据该话音激活检测结果确定不连续发送的发送类型信号;
若所述的话音激活检测结果是有话音,根据所述的一个语音模式编码速率为所述一输入信号帧的编码AMR-NB编码帧,并根据该编码帧中所使用的自适应码书参数和固定码书参数,生成所述的一输入信号帧的激励信号;若所述的话音激活检测结果是无话音且所述的发送类型信号是正常话音SPEECH_GOOD,按速率较低的另一语音模式编码速率对所述一输入信号帧编码所生成的AMR-NB编码帧,并根据该帧中的自适应码书参数和固定码书参数,生成所述的一输入信号帧的激励信号;若发送类型信号是静音描述更新SID_UPDATE则生成所述输入信号帧的按背景噪声编码速率编码的AMR-NB的SID_UPDATE帧;若发送类型信号是静音描述开始SID_FIRST则生成所述输入信号帧的AMR-NB的SID_FIRST帧;若所述的发送类型信号不是SPEECH_GOOD,将所述的一输入信号帧的的激励信号复位;
根据所述的一输入信号帧的的激励信号对相邻的后一输入信号帧进行非背景噪声的语音模模式编码速率的编码操作。
在上述方法中不连续发送的控制DTX和操作模块仍然为输入信号帧序列中的每一帧产生一个发送类型信号TX_TYPE,但这个发送类型信号的确定要根据对合成数字声音信号帧所作的话音激活检测的结果,这不同于现有技术的不考虑编码帧的合成数字声音信号帧的做法。
对于上述方法来说,基于AMR-NB编解码器要维持一致的量化能量预测误差的前提,它做到了使双方有一致的激励信号。至于维持一致的量化能量预测误差的方法有多种下面一一列出:
第一种,编码器仅在发送语音模式的AMR-NB帧时,根据编码帧中的修正因子将量化能量预测误差更新,其余时候维持不变;译码器在收到语音模式的AMR-NB帧时,根据编码帧中的修正因子将量化能量预测误差更新,其余时候维持量化能量预测误差不变,即,将与所述的一输入信号帧相邻的前一输入信号帧的子帧的量化能量预测误差作为所述的一输入信号帧的子帧的量化能量预测误差;
第二种,编码器仅在发送AMR-NB帧时,根据编码帧中的修正因子将量化能量预测误差更新,其余时候维持不变,同时在发送SID帧时同时发送搜索固定码书时得到的修正因子的编码给译码器;译码器在收到语音模式的AMR-NB帧时,根据编码帧中的修正因子将量化能量预测误差更新,在接收SID帧的同时接收修正因子并根据修正因子将量化能量预测误差更新,其余时候维持量化能量预测误差不变。
第三种就是现有AMR-NB译码器仍然按照3GPP规定的窄带译码的方法进行译码,对于编码一方来说,若所述话音激活检测结果是有话音,根据所述一输入信号帧的所述一个语音模式编码速率的AMR-NB帧中的修正因子correction factor生成量化能量预测误差;若TX_TYPE是SPEECH_GOOD且所述话音激活检测结果是无话音,根据所述一输入信号帧的所述速率较低的另一个语音模式编码速率的AMR-NB帧中的修正因子correction factor生成量化能量预测误差;若所述发送类型信号是静音描述开始SID_FIRST或静音描述更新SID_UPDATE则将所述输入信号帧的量化能量预测误差设置成该输入信号帧的量化的帧能量对数平均值;若所述的发送类型信号是无数据NO_DATA,将与所述的一输入信号帧相邻的前一输入信号帧的子帧的量化能量预测误差作为所述的一输入信号帧的子帧的量化能量预测误差。
由于编码背景噪声模式的AMR-NB帧不需要上一帧的激励信号和量化能量预测误差,在上述编码器中,所述的输入信号帧的的激励信号和量化能量预测误差仅被用于对相邻的后一输入信号帧进行语音模式的非背景噪声编码速率的编码操作。
以下是直接对合成数字声音信号进行VAD的AMR-NB编码器的技术方案的说明,即,
一种可不连续发送的自适应多速率窄带AMR-NB编码器,在所述AMR-NB编码器中,对输入信号帧进行线性预测,按照话音激活检测结果确定发送类型TX_TYPE,按照所述话音激活检测结果和所述TX_TYPE确定AMR-NB编码帧的编码速率,根据该编码速率为所述输入信号帧编码AMR-NB编码帧,输出类型为TX_TYPE的AMR-NB发送帧,并生成用于编码下一个输入信号帧的所述输入信号帧的激励信号,其特征在于,
由对输入信号帧进行线性预测得到的线性预测参数确定线性预测合成滤波器;
根据一个语音模式编码速率对输入信号帧自适应码书搜索、固定码书搜索所得到的自适应码书参数和固定码书参数生成激励信号,用所述线性预测合成滤波器对该激励信号滤波生成合成数字声音信号帧;
根据对所述合成数字声音信号帧执行的话音激活检测得到所述的话音激活检测结果;
若所述的话音激活检测结果是有话音,根据按所述的一个语音模式编码速率对输入信号帧进行自适应码书搜索、固定码书搜索所得到的自适应码书参数和固定码书参数为所述输入信号帧编码AMR-NB发送帧,并根据该编码帧中所使用的自适应码书参数和固定码书参数,生成所述输入信号帧的激励信号;
若所述的话音激活检测结果是无话音且所述TX_TYPE是正常话音SPEECH_GOOD,按另一个速率较低的语音模式编码速率为所述输入信号帧编码AMR-NB发送帧,并根据该帧中的自适应码书参数和固定码书参数,生成所述的输入信号帧的激励信号;
若所述TX_TYPE是静音描述开始SID_FIRST或静音描述更新SID_UPDATE,按背景噪声编码速率为输入信号帧编码AMR-NB发送帧,并将所述的输入信号帧的激励信号复位;
若所述TX_TYPE是无数据NO_DATA,将所述的输入信号帧的激励信号复位。
上述的AMR-NB编码器由于先进行话音激活检测VAD,再确定TX_TYPE,由于AMR-NB编译码器根据双方之间的AMR-NB编码帧来使彼此之间的量化能量预测误差达到一致,所以上述编码器的确定量化能量预测误差的方案就较为简单,例如,在TX_TYPE是SPEECH_GOOD时根据修正因子设置量化能量预测误差,在TX_TYPE是SID时按输入信号帧的帧能量来设置(AMR-NB的方法)或维持不变(前面提及的AMR-WB的方法)。
采用按输入信号帧的帧能量来设置(AMR-NB的方法)的技术方案能使得本发明的编码器能和按照3GPP的AMR-NB标准的译码器兼容,该编码器包括确定编码与所述输入信号帧相邻的后一输入信号帧的语音模式AMR-NB帧所需要的输入信号帧的四个子帧的量化能量预测误差的装置,其特征在于,该装置根据所述的话音激活检测结果和发送类型信号TX_TYPE确定所述输入信号帧的四个子帧的量化能量预测误差,即,
在所述话音激活检测结果是有话音时,该装置根据所述输入信号帧的所述一个语音模式编码速率的AMR-NB编码帧中所给出的修正因子生成所述输入信号帧的四个子帧的量化能量预测误差;
在所述话音激活检测结果是无话音且所述发送类型信号是正常话音SPEECH_GOOD时,该装置根据所述输入信号帧的所述的另一个速率较低的语音模式编码速率的AMR-NB编码帧中所给出的修正因子生成所述输入信号帧的四个子帧的量化能量预测误差;
在所述TX_TYPE是静音描述开始SID_FIRST或静音描述更新SID_UPDATE时,该装置将所述输入信号帧的四个子帧的量化能量预测误差设置为所述输入信号帧的量化的帧能量对数平均值;
若所述的发送类型信号是无数据NO_DATA时,该装置将与所述输入信号帧相邻的前一输入信号帧的子帧的量化能量预测误差作为所述输入信号帧的子帧的量化能量预测误差。
本发明的编码器及编码方法与现有技术不同的最明显之处就是将VAD的对象扩展到了合成数字话音信号,因而可以利用共振峰在合成数字话音信号波形上的特征检出话音。
由于合成数字话音信号在预测合成滤波器极点对应的谐振峰处有较高的能量,在对合成数字话音信号帧进行话音激活检测时可以检测其波峰的振幅,如果其波峰的上升沿和下降沿的幅度都超过或其中之一超过阈值就将该帧判决为有话音,这样,一旦所述的极点所对应的谐振峰反映在波形上的振荡的波峰的幅度超过阈值,合成数字话音信号帧就不会在VAD检测时被漏掉。当出现背景技术中指出的合成数字话音信号的波峰的尖峰比原始信号更为突出的现象时那些突出的尖峰可以较容易地用与阈值比较的方法被检出,同样,当出现背景技术中指出的合成数字话音信号的波峰的上升沿更陡的情况时,那些突出的尖峰就可以较容易地用上升沿与阈值比较的方法被检出。用来与波峰的上升沿比较的阈值的设定方法不是唯一的,该阈值的确定可以用固定值,也可以和波峰所在的合成数字话音信号帧有关,比如,可以参考合成数字话音信号帧的平均幅度——帧内样本点上的信号值的绝对值的和,也可以参考合成数字话音信号帧的特定的子带的电平,3GPP26094-500的3.3.1节滤波器组与子带电平计算(Filter bank and computation of sub-band levels)给出了一种求子带的电平的方法。对于本发明的上述编码器及再之前的从语音模式编码帧中获取参数来生成激励信号的编码方法来说,就有下面的VAD的波形检测的方法,
根据被检测的合成数字声音信号帧确定阈值,若所述的合成数字声音信号帧中的波形中的波峰的上升沿的幅度超过该阈值,就将所述话音激活检测的结果确定为有话音。
根据被检测的合成数字声音信号帧确定幅度阈值和范围,若所述的合成数字声音信号帧中的波形中的上升沿幅度超过该幅度阈值的波峰的个数在所述范围之内,就将所述话音激活检测的结果确定为有话音。
现有技术中的话音激活检测方法对合成数字话音信号仍然适用,对于波形中波峰数目很多但上升沿和下降沿幅度相差不大的情形来说,现有技术中的将信号能量同背景噪声能量比较的方法是能够检出信号来的。但对于波形中波峰数目较少的情形来说,本发明在上面给出的方法检出有话音的信号的能力更强:
本发明的技术方案也并不排斥对数字话音采样信号(或它的预处理后的数字信号)进行信噪比等项目的检测并根据检测的结果决定TX_TYPE,虽然本发明的实施例中的输入到VAD装置进行检测的是合成数字声音信号而非经过预处理的声音信号(或数字采样声音信号)。有益效果
由于采用了先执行线性预测和码书搜索再执行VAD的方法,这样,根据码书搜索和线性预测所生成的激励信号的出现就先于VAD操作,针对激励信号通过线性预测合成滤波器的输出进行VAD,这样,如果原始数字声音帧经过线性预测、自适应码书搜索和固定码书搜索处理后的形成的合成声音信号的特征是有话音的,在VAD的结果就是有话音的,译码方收到的非背景噪声编码速率的AMR编码帧经译码后产生的数字语音信号帧的语音特征与编码方的该编码速率的用于检测的合成数字语音信号的语音特征相似;编码方在无法检测到具有活动话音的合成数字语音信号的情况下才有可能产生SID编码类型的AMR编码帧。
本发明将VAD的对象直接定位在非背景噪声编码速率的AMR编码帧所对应的合成数字话音信号帧上,因编码速率降低会造成该编码速率的合成数字话音信号帧的VAD结果趋向于无活动话音,即,对于具有一定数量的帧的声音信号来说,使用本发明的方法,编码速率降低会使根据输入信号电平和背景噪声估计值间差值所作的VAD判决的结果为无话音的帧的个数增加。因此,本发明还可以提高AMR编码技术的声音压缩率,使同样的无线资源能容纳更多的声音信号。
由于采用了先执行线性预测和码书搜索再执行VAD的方法,这样,按非背景噪声编码速率生成的激励信号的出现就先于VAD操作,按非背景噪声编码速率的码书搜索的操作在执行的次序上先于VAD操作,当VAD的无话音结果使DTX控制和操作模块产生的发送类型指示不是正常语音(SPEECH_GOOD)时按非背景噪声编码速率生成合成数字话音信号时产生的激励信号的参数就不能再用于下一帧的非背景噪声编码速率的编码了,本发明的在此情况下有选择地弃用语音模式下进行线性预测、自适应码书搜索和固定码书搜索所得到的参数,即,除了使用编码背景噪声编码速率编码帧所产生的激励信号和量化能量预测误差参数以外,为下一帧输入声音信号生成合成数字声音信号时就可以利用从语音模式下执行线性预测、自适应码书搜索和固定码书搜索操作所得到的参数,而不必再象现有技术那样编码SID帧后放弃按非背景噪声编码速率执行线性预测和码书搜索产生的其它参数,由于有了这一方案,为下一输入声音信号帧生成的用于话音激活检测的合成数字声音信号含有更多的输入声音信号的特征,因为现有技术中,一旦遇到一次背景噪声速率编码帧,会将AMR-NB编码器中的包括激励信号和量化能量预测误差的状态变量都复位,此刻编码器丢失了过去的输入声音信号的特征。
当VAD的结果是无话音且DTX控制和操作模块产生的发送类型指示是正常语音(SPEECH_GOOD)时,因为话音激活检测VAD的对象直接针对输入声音信号帧的合成数字声音信号,这样可以仅在在合成数字声音信号中没有话音时降低语音模式的编码速率。
在收到语音模式的AMR-NB编码帧后,接收方的译码器与编码器中的语音模式编码模块分别参照一致的包括上一帧子帧样本点的过去样本点上的激励信号和四个子帧的量化能量预测误差,一方使用信道上的收到的编码帧中的参数,另一方使用自己编码到该编码帧中去的参数,分别生成各自子帧的激励信号和合成语音,所以接收方译码器合成的的激励信号与所述语音编码模块合成的激励信号完全一致,译码器使用和编码器一致的激励信号使译码产生的合成语音的听觉质量有保证。
本发明的将合成数字话音信号的波峰的幅度同阈值比较的VAD方法可以在预测合成滤波器极点对应的谐振峰反映在波形上的波峰的幅度高于阈值时检出该波峰所在的合成数字话音信号帧。当背景技术中提到的合成数字话音信号的尖峰比原始信号更为突出这一现象体现在对应原始信号共振峰的合成数字话音信号的波形中的尖峰的上升沿或下降沿比原始信号的更大时,上述的将合成数字话音信号的波峰的幅度同阈值比较的方法可以检测出无法通过检测原始信号波形的尖峰而检出的帧。同样,当前面提到的合成数字话音信号的上升沿比原始信号更为陡这一现象体现在对应原始信号共振峰的合成数字话音信号的波形中的尖峰的上升沿比原始信号的更大时,本发明的将合成数字话音信号的波峰的上升沿同阈值比较的方法可以检测出原来无法检出的帧。同样,当前面提到的合成数字话音信号的上升沿比原始信号更为陡这一现象体现在对应原始信号共振峰的合成数字话音信号的波形中的尖峰的上升沿的斜率比原始信号更大时,将合成数字话音信号的波峰的上升沿的斜率同阈值比较的方法可以检测出原来无法检出的帧。
附图说明
图1是支持恒定速率语音模式编码的可变速率的自适应多速率窄带(AMR-NB)编码器的原理框图。
图2是图1中语音编码模块的简化框图。
图3是图1中低速率语音编码模块的简化框图。
图4是由DTX控制和发送装置控制AMR-NB编码帧输出的AMR-NB编码器。
图5是图4中的语音编码模块的简化框图。
图6是图4中的低速率语音编码模块的简化框图。
图7是作为输入信号的3GPP的TS26074-500中的DTX4.INP经过预处理后的数字话音信号的第392帧,图上的7.84是指7.84秒的时刻。
图8是以3GPP的TS26074-500中的DTX4.INP为输入信号以12.2kb/s为编码速率的编码译码后的合成数字话音信号的第393帧,图上的7.84是指7.84秒的时刻。
具体实施方式
实施例1,一个可以在恒定编码速率语音模式和不连续发送DTX模式间切换的自适应多速率窄带(AMR-NB)编码器,如图1所示,话音采样率为8kHz的13比特均匀脉冲调制(PCM)信号帧1同时向语音编码模块、低速率语音编码模块和背景噪声编码模块输出,语音编码模块将信号帧1的非背景噪声编码速率的自适应多速率窄带(AMR-NB)编码帧11向编码帧输出选择模块输出,低速率语音编码模块将信号帧1的较低速率的语音模式的自适应多速率窄带(AMR-NB)编码帧14向编码帧输出选择模块输出,背景噪声编码模块将信号帧1的背景噪声编码速率的自适应多速率窄带(AMR-NB)静音描述编码帧12向编码帧输出选择模块输出,语音编码模块还将编码信号帧1时产生的合成数字话音信号帧17向话音激活检测模块输出,合成数字话音信号帧17的生成按照3GPP的26090-500的5.9节中给出的生成本地合成语音(local synthesized speech)的方法产生,话音激活检测模块对合成数字话音信号帧17进行话音激活检测,并将检测的结果——VAD标志18向不连续发送(DTX)控制和操作模块和后处理模块输出,DTX控制和操作模块输出发送类型信号19到编码帧输出选择模块和后处理模块。
编码帧输出选择模块将收到的发送类型信号19向3G(第三代移动通信)无线接入网(AN)输出。发送类型信号19是正常话音(SPEECH_GOOD)、静音描述开始(SID_FIRST)、静音描述更新(SID_UPDATE)、无数据(NO_DATA)四种之一,当发送类型信号19是正常话音(SPEECH_GOOD)时,编码帧输出选择模块输出的信息比特2是按非背景噪声编码速率(语音模式)编码的自适应多速率窄带(AMR-NB)编码帧11或AMR-NB编码帧14,当VAD标志18为有话音则信息比特2的内容是AMR-NB帧11,当VAD标志18为无话音则信息比特2的内容是AMR-NB帧14;当发送类型信号19是静音描述更新(SID_UPDATE)时,编码帧输出选择模块输出的信息比特2是按背景噪声编码速率编码的自适应多速率窄带静音描述(AMR-NB_SID)帧12;当发送类型信号19是静音描述开始(SID_FIRST)时,编码帧输出选择模块输出的信息比特2也是背景噪声编码模块输出的AMR-NB_SID帧12而不是按照3GPP技术规范TS26093形成的SID_FIRST帧(所有舒适噪声比特全为0的帧);当发送类型信号19是无数据(NO_DATA)时,信息比特2对于3G的AN无效,所以当发送类型信号19不是正常话音(SPEECH_GOOD)时,编码帧输出选择模块将背景噪声编码模块输出的AMR-NB_SID帧12放到信息比特2里。
不连续发送控制和操作模块还接收编码方式信号5,编码方式信号5指示恒定编码速率语音模式或不连续发送DTX模式,当编码方式信号5是不连续发送DTX模式时不连续发送控制和操作模块发送的发送类型信号19可以是正常话音(SPEECH_GOOD)、静音描述开始(SID_FIRST)、静音描述更新(SID_UPDATE)、无数据(NO_DATA)四种之中的任意一种,此时发送类型信号19的内容仅由DTX控制和操作模块根据VAD标志18的运行结果决定,当编码方式信号5是恒定编码速率语音模式时发送类型信号19内容为正常话音(SPEECH_GOOD),即,VAD标志18输出到了不连续发送控制和操作模块,但不连续发送控制和操作模块收到该信号(不管其内容是有话音还是无话音)后就输出内容是正常话音(SPEECH_GOOD)的发送类型信号19,不连续发送控制和操作模块将其状态变量复位到初始状态,这样,只有语音编码模块编码的AMR-NB帧11才会被发送到3G的AN。
若不连续发送(DTX)控制和操作模块根据输入的VAD标志18将发送类型信号19设定为正常话音(SPEECH_GOOD)的发送类型指示,不连续发送(DTX)控制和操作模块也向后处理模块发送类型指示——正常话音(SPEECH_GOOD)。
除了接收语音模式信号5、VAD标志18和发送类型信号19,后处理模块还接收语音编码模块编码AMR-NB帧11所产生的激励信号31和量化能量预测信号32,以及低速率语音编码模块编码AMR-NB帧14所产生的激励信号33和量化能量预测信号34,和背景噪声编码模块编码AMR_SID帧12所产生的激励信号30(154个样本点都被复位成0的值)和量化能量预测信号36。后处理模块向语音编码模块和低速率语音编码模块输出激励信号35和量化能量预测误差37,产生激励信号35和量化能量预测误差37的方法如下:
如果编码方式信号5是恒定编码速率语音模式,激励信号35和量化能量预测误差37的取值分别是激励信号31和量化能量预测误差32;如果发送类型信号19是SPEECH_GOOD且VAD标志18是有话音,激励信号35和量化能量预测误差37的取值分别是激励信号31和量化能量预测误差32;如果发送类型信号19是SPEECH_GOOD且不VAD标志18是无话音,激励信号35和量化能量预测误差37的取值分别是激励信号33和量化能量预测误差34;若发送类型信号19为静音描述开始(SID_FIRST)、静音描述更新(SID_UPDATE)和无数据(NO_DATA)三个之中的任一个,激励信号35和量化能量预测误差37的取值分别是激励信号30和量化能量预测误差36。
译码器收到编码器发送的AMR_SID帧后,从中获得帧能量对数的索引,根据帧能量对数的索引获取帧能量对数平均值,将其四个子帧的量化能量预测都设置为该帧能量对数平均值,由于本实施例中SID_UPDATE和SID_FIRST帧都包含了帧能量对数的索引,译码器在收到AMR_SID帧时都能和编码器采用一样的量化能量预测误差,由于译码器收到语音模式AMR-NB帧时根据其中的修正因子设置量化能量预测误差,译码器在编码器暂停发送的DTX期间保持量化能量预测误差不变,所以编码器和译码器能保持一致的量化能量预测误差。
图1和3GPP的TS26.071的图1中发送方(TRANSMIT SIDE)的右边的编码部分的框图相似,不同之处在于话音激活检测(Voice Activity Detector)模块从语音编码模块那里接收到的信号不同,3GPP的的TS26.071的图1中的是语音采样经语音编码(Speech Encoder)模块预处理后的信号,本文图1中的是语音编码模块对输入的语音数字信号帧进行线性预测及量化、自适应码书搜索以及固定码书搜索后所生成的合成数字语音信号帧。本文的图1中,在发送类型信号19是正常话音(SPEECH_GOOD)或是静音描述更新(SID_UPDATE)时编码帧输出选择模块要从语音编码模块生成的AMR-NB编码帧、低速率语音编码模块生成的AMR-NB编码帧和背景噪声编码模块生成的自适应多速率窄带静音描述(AMR-NB_SID)编码帧中选择一个作为信息比特(info bits);与本发明不同,在3GPP的的TS26.071的图1中的语音编码帧(speech frame)4和静音描述帧(SID frame)5不会同时出现,不存在从两者之中作选择的这个操作。
图2所示的是图1中语音编码模块的简化框图,它给出了信号的处理流程,该图和3GPP的TS26.090-500中的图3(AMR编码器的简化框图)基本相同,图2中的A(z)是未量化系数的逆向滤波器(The inverse filter with quantized coefficients),x(n)是自适应码书搜索的目标信号,x2(n)固定码书搜索的目标信号,在TS26.090-500中各章节的描述覆盖了其图3的内容,所以也覆盖了本文的图2所涉及的与其图3相同的内容。
图1中的AMR-NB编码帧11中的参数就来自于图2中的LSP索引、自适应码书索引、自适应码书增益索引、固定码书索引和固定码书增益索引;图1中的AMR-NB编码帧14中的参数就来自于图3中的LSP索引、自适应码书索引、自适应码书增益索引、固定码书索引和固定码书增益索引。
本文的图2中的与TS26.090-500中的图3的不同的地方为:图2中所示的语音编码模块利用量化系数的逆向滤波器(The inverse filter with quantized coefficients)获得线性预测合成滤波器,用该合成滤波器对激励信号滤波产生合成数字声音信号帧17。
图2中还给出了语音编码模块用激励信号35作为当前帧的激励信号,以及用量化能量预测误差37作为当前帧中的四个子帧的量化能量预测误差的表示;
图3所示的是图1中低速率语音编码模块的简化框图,它给出了信号的处理流程,除了不产生合成数字声音信号帧之外,它和图2相同。
下面是AMR-NB编码器以3GPP的TS26.074-500中的DTX4.INP所表示的信号为输入信号进行编码的过程的一段时间上的详细说明,其中语音编码模块工作在12.2kb/s的编码速率上,低速率语音编码模块工作在5.90kb/s的编码速率上,DTX4.INP的总长度是1188个帧,每帧20毫秒,即总长23.76秒,DTX4.INP的每个样本点的值被表示为16比特,AMR-NB编码器将其3个最低有效位(比特2-比特0)置0从而形成13比特的数字话音信号(该数字话音信号的精度为8)。编码器的语音编码模块对输入信号帧进行3GPP的TS26.090的5.1章节所规定的预处理后以12.2kb/s进行非背景噪声编码速率语音模式编码,这包括了线性预测及量化、自适应码书搜索、固定码书搜索的AMR-NB编码和生成合成数字话音信号的一系列操作。编码方式信号5在7.7秒前为恒定编码速率语音模式,编码器对7.7秒之前的输入信号帧一直以12.2kb/s的恒速率的编码输出,即为DTX4.INP的第1帧(0秒至0.02秒)到第385帧中的每一帧选择信息比特19时都采用语音编码模块产生的12.2kb/s的速率编码帧;从7.7秒开始到8.10秒为止编码方式信号5为DTX模式,即,第386帧到第405帧中的每一帧的编码速率是由VAD模块和DTX控制和发送模块确定的12.2kb/s、5.90kb/s和背景噪声编码速率(1.80kb/s)中的一个,现在对DTX方式工作期间的编码过程进行考察。
对于本实施例的合成数字话音帧的第386到第405帧的VAD结果除了第393帧(7.84秒到7.86秒)是有话音以外其它的帧的VAD结果都是无话音的。
表格1给出了在仅有393帧被检出有话音的情况下时第386帧到第405帧的编码速率的选择以及语音编码模块和低速率语音编码模块编码所使用的激励信号和量化能量预测误差的来源。
帧序号 | 合成数字话音信号帧17的VAD标志18 | 发送类型信号19 | 输出AMR-NB帧的编码速率 | 编码当前帧的AMR-NB帧所使用的上一帧的激励信号和量化能量预测误差 |
386 | 无话音 | SPEECH_GOOD | 5.90kb/s | 来自语音模式编码模块 |
387 | 无话音 | SPEECH_GOOD | 5.90kb/s | 来自低速率语音模式编码模块 |
388 | 无话音 | SPEECH_GOOD | 5.90kb/s | 来自低速率语音模式编码模块 |
389 | 无话音 | SPEECH_GOOD | 5.90kb/s | 来自低速率语音模式编码模块 |
390 | 无话音 | SPEECH_GOOD | 5.90kb/s | 来自低速率语音模式编码模块 |
391 | 无话音 | SPEECH_GOOD | 5.90kb/s | 来自低速率语音模式编码模块 |
392 | 无话音 | SPEECH_GOOD | 5.90kb/s | 来自低速率语音模式编码模块 |
393 | 有话音 | SPEECH_GOOD | 12.2kb/s | 来自低速率语音模式编码模块 |
394 | 无话音 | SPEECH_GOOD | 5.90kb/s | 来自语音模式编码模块本身 |
395 | 无话音 | SPEECH_GOOD | 5.90kb/s | 来自低速率语音模式编码模块 |
396 | 无话音 | SPEECH_GOOD | 5.90kb/s | 来自低速率语音模式编码模块 |
397 | 无话音 | SPEECH_GOOD | 5.90kb/s | 来自低速率语音模式编码模块 |
398 | 无话音 | SPEECH_GOOD | 5.90kb/s | 来自低速率语音模式编码模块 |
399 | 无话音 | SPEECH_GOOD | 5.90kb/s | 来自低速率语音模式编码模块 |
400 | 无话音 | SPEECH_GOOD | 5.90kb/s | 来自低速率语音模式编码模块 |
401 | 无话音 | SID_FIRST | 1.80kb/s | 来自低速率语音模式编码模块 |
402 | 无话音 | NO_DATA | 1.80kb/s | 来自背景噪声编码模块 |
403 | 无话音 | NO_DATA | 1.80kb/s | 来自背景噪声编码模块 |
404 | 无话音 | SID_UPDATE | 1.80kb/s | 来自背景噪声编码模块 |
405 | 无话音 | NO_DATA | 1.80kb/s | 来自背景噪声编码模块 |
表格1
DTX控制和操作装置在收到有话音的VAD标志43后将TX_TYPE设为SPEECH_GOOD,连续收到8个内容是无话音的VAD标志43后将TX_TYPE设置为SID_FIRST,如果再收到3个无话音的VAD标志43就将TX_TYPE设置为SID_UPDATE(SID_UPDATE和SID_FIRST之间的2个TX_TYPE是NO_DATA),此后每收到连续8个无话音的VAD标志43就将TX_TYPE设置为SID_UPDATE(该SID_UPDATE之前的TX_TYPE都是NO_DATA)。
实施例2,如图4所示一个对一个输入话音信号帧编码的AMR-NB编码器,语音编码模块工作在较高编码速率,低速率语音编码模块工作在较低编码速率,42是13比特均匀PCM帧,43是VAD标志,语音编码模块生成AMR-NB编码语音帧44,低速率语音编码模块生成AMR-NB编码语音帧41,背景噪声编码模块生成AMR-NB静音描述(SID)帧45,46是发送类型的指示,47是传给3G接入网的信息比特,语音编码模块对13比特均匀PCM帧进行线性预测和码书搜索得到的合成数字话音信号帧48,49是对13比特均匀PCM帧进行预处理后得到的预处理后的话音信号帧,背景噪声编码模块编码背景噪声编码速率的编码帧-静音描述(SID)帧时生成子帧的量化能量预测误差60——量化的帧能量对数平均值,是帧能量的对数平均值(averagedlogarithmic energy)经过量化处理后的值,四个子帧的量化能量预测误差都用该数值,在3GPP的TS26.092-500的5.2节帧能量计算(Frame energy caculation)中给出了帧能量的对数平均值和量化的帧能量对数平均值定义。
图4中的话音激活检测模块对合成数字话音信号进行检测,语音编码模块接收13比特均匀PCM帧42,向话音激活检测模块发送其对预处理后的话音数字信号进行线性预测、自适应码书搜索和固定码书搜索后得到的合成数字话音信号帧,即:用自适应码书按自适应码书增益放大后与固定码书按固定码书增益放大后相加得到激励信号,再用激励信号通过由线性预测得到的预测(LP)参数-所确定的线性预测合成滤波器得到合成数字话音信号帧48(用于合成数字话音帧的线性预测合成滤波器也可以由线性预测参数A(z)所确定),话音激活检测模块根据对合成数字话音信号帧48的检测所得到VAD结果——VAD标志43向DTX控制和操作模块输出;3GPP的技术规范给出的方法是对预处理后的数字话音信号进行检测。
背景噪声编码模块把向语音编码模块提供其编码SID帧时产生的量化能量预测误差60——量化的帧能量对数平均值在图4中有了明确的表示,背景噪声编码模块接收VAD标志43,每当背景噪声编码模块接收到连续8个以上(包括8个)内容为无话音的VAD标志43时就对帧能量对数平均值60的更新。
图4的语音编码模块的简化框图如图5所示,图4的低速率语音编码模块的简化框图如图6所示。
在这里DTX控制和操作模块根据VAD标志43生成发送类型TX_TYPE信号46中内容的方法同3GPP中规定的一样,具体参见TS26.093-520的5.1节;本实施例中DTX控制和操作模块还根据VAD标志43和TX_TYPE信号46确定信息比特47中的内容,以及语音编码模块和低速率语音编码模块编码AMR-NB帧时用到的上一帧的激励信号和量化能量预测误差(激励信号51和量化能量预测误差50),具体方法如下:
当当前帧的发送类型46不是SPEECH_GOOD时,使用已知的激励信号的复位值(154个样本点全0的值)作为激励信号51,使用来自背景噪声编码模块的量化的帧能量对数平均值60作为量化能量预测误差50;当当前帧的VAD标志43是有话音时(会导致发送类型46为正常语音SPEECH_GOOD),使用语音编码模块输出的当前帧的激励信号53作为作为激励信号51,使用来自语音编码模块的当前帧的量化能量预测误差52(当前帧的四个子帧的量化能量预测误差)作为量化能量预测误差50;当当前帧的发送类型46是SPEECH_GOOD且VAD标志43是无话音时,使用低速率语音编码模块输出的当前帧的激励信号55作为作为激励信号51,使用来自语音编码模块的当前帧的量化能量预测误差54(当前帧的四个子帧的量化能量预测误差)作为量化能量预测误差50。当前帧的激励信号至少是包含最后一个子帧的154个样本点上的信号值。
DTX控制和操作模块在VAD标志43是有话音时(会导致发送类型46为正常语音SPEECH_GOOD)在信息比特47里放AMR-NB编码语音帧44向3G接入网(AN)发送,TX控制和操作模块在发送类型46是正常语音(SPEECH_GOOD)且VAD标志43是无话音时在信息比特47里放AMR-NB编码语音帧41向3G接入网(AN)发送,DTX控制和操作模块在发送类型指示46是静音描述更新(SID_UPDATE)时在信息比特47里放自适应多速率静音描述(AMR_SID)帧45向3G接入网(AN)发送,DTX控制和操作模块在发送类型指示46是静音描述开始(SID_FIRST)时在信息比特47里放按照3GPP技术规范TS26093形成的SID_FIRST帧向3G接入网(AN)发送,TX控制和操作模块在发送类型指示46是无数据(NO_DATA)时指示3G接入网不进行话音帧的发送,所以在信息比特里无论放什么都可以。
接收到语音编码模块向背景噪声编码模块发送预处理后的话音数字信号帧49后,背景噪声编码模块产生AMR-NB静音描述(SID)帧45,图4中的背景噪声编码模块的内容和3GPP的TS26.092-500的描述完全一致,所以只要参照该技术规范就能实现背景噪声编码速率AMR-NB帧的编码。
图5中的LSP索引、自适应码书索引、自适应码书增益索引、固定码书索引和固定码书增益索引会被编入AMR-NB语音模式编码语音帧44中;图6中的LSP索引、自适应码书索引、自适应码书增益索引、固定码书索引和固定码书增益索引会被编入AMR-NB语音模式编码语音帧41中。编码语音帧41或44的帧的形式可以和3GPP的TS26.101中给出的帧的格式不同,但信息比特47里的AMR-NB编码帧符合3GPP的TS26.101中给出的帧的格式。
在实施例2中的不连续发送DTX控制和操作装置接收VAD结果来自于对合成数字话音的检测,其操作按照3GPP的TS26.093的规定。
如技术方案中所述的,在传送背景噪声模式编码帧的情况下,双方将激励信号复位到一致的激励信号,译码器根据SID_UPDATE帧中的帧能量对数平均值索引设置量化能量预测误差使之与编码器的相一致,译码器根据在SID_FIRST帧之前收到的多个语音模式帧的帧能量的对数平均值设置量化能量预测误差使之与编码器的相一致;在传送语音模式编码帧的情况下,译码器使用收到的编码帧中的参数,编码器使用自己编码到该编码帧中去的参数,基于一致的激励信号和量化能量预测误差生成一致的子帧的激励信号和合成语音。所以对应于上述编码器的译码器可以和编码器保持一致的激励信号和量化能量预测误差。
Claims (8)
1.一种可不连续发送的自适应多速率窄带AMR-NB编码器,在所述AMR-NB编码器中,对输入信号帧进行线性预测,按照话音激活检测结果确定发送类型TX_TYPE,按照所述话音激活检测结果和所述TX_TYPE确定AMR-NB编码帧的编码速率,根据该编码速率为所述输入信号帧编码AMR-NB编码帧,输出类型为TX_TYPE的AMR-NB发送帧,并生成用于编码下一个输入信号帧的所述输入信号帧的激励信号,其特征在于,
由对输入信号帧进行线性预测得到的线性预测参数确定线性预测合成滤波器;
根据一个语音模式编码速率对输入信号帧自适应码书搜索、固定码书搜索所得到的自适应码书参数和固定码书参数生成激励信号,用所述线性预测合成滤波器对该激励信号滤波生成合成数字声音信号帧;
根据对所述合成数字声音信号帧执行的话音激活检测得到所述的话音激活检测结果;
若所述的话音激活检测结果是有话音,根据按所述的一个语音模式编码速率对输入信号帧进行自适应码书搜索、固定码书搜索所得到的自适应码书参数和固定码书参数为所述输入信号帧编码AMR-NB发送帧,并根据该编码帧中所使用的自适应码书参数和固定码书参数,生成所述输入信号帧的激励信号;
若所述的话音激活检测结果是无话音且所述TX_TYPE是正常话音SPEECH_GOOD,按另一个速率较低的语音模式编码速率为所述输入信号帧编码AMR-NB发送帧,并根据该帧中的自适应码书参数和固定码书参数,生成所述的输入信号帧的激励信号;
若所述TX_TYPE是静音描述开始SID_FIRST或静音描述更新SID_UPDATE,按背景噪声编码速率为输入信号帧编码AMR-NB发送帧,并将所述的输入信号帧的激励信号复位;
若所述TX_TYPE是无数据NO_DATA,将所述的输入信号帧的激励信号复位。
2.根据权利要求1的编码器,还包括确定编码与所述输入信号帧相邻的后一输入信号帧的语音模式AMR-NB帧所需要的输入信号帧的四个子帧的量化能量预测误差的装置,其特征在于,该装置根据所述的话音激活检测结果和发送类型信号TX_TYPE确定所述输入信号帧的四个子帧的量化能量预测误差,即,
在所述话音激活检测结果是有话音时,该装置根据所述输入信号帧的所述一个语音模式编码速率的AMR-NB编码帧中所给出的修正因子生成所述输入信号帧的四个子帧的量化能量预测误差;
在所述话音激活检测结果是无话音且所述发送类型信号是正常话音SPEECH_GOOD时,该装置根据所述输入信号帧的所述的另一个速率较低的语音模式编码速率的AMR-NB编码帧中所给出的修正因子生成所述输入信号帧的四个子帧的量化能量预测误差;
在所述TX_TYPE是静音描述开始SID_FIRST或静音描述更新SID_UPDATE时,该装置将所述输入信号帧的四个子帧的量化能量预测误差设置为所述输入信号帧的量化的帧能量对数平均值;
若所述的发送类型信号是无数据NO_DATA时,该装置将与所述输入信号帧相邻的前一输入信号帧的子帧的量化能量预测误差作为所述输入信号帧的子帧的量化能量预测误差。
3.根据权利要求1或2的编码器,
其中执行的话音激活检测包括根据所述合成数字声音信号帧的信噪比确定是否有声音的检测。
4.根据权利要求1或2的编码器,其中执行的话音激活检测包括:
根据所述的合成数字声音信号帧确定幅度阈值和范围,若所述的合成数字声音信号帧中的波形中的上升沿幅度超过该幅度阈值的波峰的个数在所述范围之内,就将所述话音激活检测的结果确定为有话音。根据所述合成数字声音信号帧的信噪比确定是否有声音的检测。
5.一种对一输入信号帧序列中的一输入信号帧进行自适应码书搜索、固定码书搜索及自适应多速率窄带AMR-NB编码和对与该输入信号帧相邻的后一输入信号帧进行非背景噪声的语音模式编码速率AMR-NB编码的方法,其特征在于,
对所述的一输入信号帧进行线性预测,并根据所得到的线性预测参数确定线性预测合成滤波器,按一个语音模式编码速率对所述一输入信号帧自适应码书搜索、固定码书搜索,并根据所得到的自适应码书参数和固定码书参数生成激励信号,用该线性预测合成滤波器对该激励信号滤波生成合成数字声音信号帧;
根据所述合成数字声音信号帧进行话音激活检测,根据该话音激活检测结果确定不连续发送的发送类型信号;
若所述的话音激活检测结果是有话音,根据所述的一个语音模式编码速率为所述一输入信号帧的编码AMR-NB编码帧,并根据该编码帧中所使用的自适应码书参数和固定码书参数,生成所述的一输入信号帧的激励信号;若所述的话音激活检测结果是无话音且所述的发送类型信号是正常话音SPEECH_GOOD,按速率较低的另一语音模式编码速率对所述一输入信号帧编码所生成的AMR-NB编码帧,并根据该帧中的自适应码书参数和固定码书参数,生成所述的一输入信号帧的激励信号;若发送类型信号是静音描述更新SID_UPDATE则生成所述输入信号帧的按背景噪声编码速率编码的AMR-NB的SID_UPDATE帧;若发送类型信号是静音描述开始SID_FIRST则生成所述输入信号帧的AMR-NB的SID_FIRST帧;若所述的发送类型信号不是SPEECH_GOOD,将所述的一输入信号帧的的激励信号复位;
根据所述的一输入信号帧的的激励信号对相邻的后一输入信号帧进行非背景噪声的语音模模式编码速率的编码操作。
6.根据权利要求5的方法,其特征在于,
若所述话音激活检测结果是有话音,根据所述一输入信号帧的所述一个语音模式编码速率的AMR-NB帧中的修正因子correction factor生成量化能量预测误差;
若所述话音激活检测结果是无话音且所述发送类型信号是正常话音SPEECH_GOOD,根据所述一输入信号帧的所述速率较低的另一个语音模式编码速率的AMR-NB帧中的修正因子correction factor生成量化能量预测误差;
若所述发送类型信号是静音描述开始SID_FIRST或静音描述更新SID_UPDATE则将所述输入信号帧的量化能量预测误差设置成该输入信号帧的量化的帧能量对数平均值;若所述的发送类型信号是无数据NO_DATA,将与所述的一输入信号帧相邻的前一输入信号帧的子帧的量化能量预测误差作为所述的一输入信号帧的子帧的量化能量预测误差。
7.根据权利要求5或6的方法,
其中根据所述合成数字声音信号帧进行话音激活检测包括根据所述合成数字声音信号帧的信噪比确定是否有声音的检测。
8.根据权利要求5或6的方法,其中根据所述合成数字声音信号帧进行话音激活检测包括:
根据所述的合成数字声音信号帧确定幅度阈值和范围,若所述的合成数字声音信号帧中的波形中的上升沿幅度超过该幅度阈值的波峰的个数在所述范围之内,就将所述话音激活检测的结果确定为有话音。根据所述合成数字声音信号帧的信噪比确定是否有声音的检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100368342A CN101572090B (zh) | 2008-04-30 | 2008-04-30 | 一种自适应多速率窄带编码方法及编码器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100368342A CN101572090B (zh) | 2008-04-30 | 2008-04-30 | 一种自适应多速率窄带编码方法及编码器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101572090A true CN101572090A (zh) | 2009-11-04 |
CN101572090B CN101572090B (zh) | 2013-03-20 |
Family
ID=41231423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008100368342A Expired - Fee Related CN101572090B (zh) | 2008-04-30 | 2008-04-30 | 一种自适应多速率窄带编码方法及编码器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101572090B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102104448A (zh) * | 2011-03-23 | 2011-06-22 | 华为技术有限公司 | 检测语音帧的编码速率的方法和设备 |
CN104700830A (zh) * | 2013-12-06 | 2015-06-10 | 中国移动通信集团公司 | 一种语音端点检测方法及装置 |
CN107112011A (zh) * | 2014-12-22 | 2017-08-29 | 英特尔公司 | 用于音频特征提取的倒谱方差归一化 |
CN110912646A (zh) * | 2019-12-02 | 2020-03-24 | 深圳震有科技股份有限公司 | 一种自动适配pcm链路速率方法、智能终端及储存介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IN184794B (zh) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
JP3182032B2 (ja) * | 1993-12-10 | 2001-07-03 | 株式会社日立国際電気 | 音声符号化通信方式及びその装置 |
CA2334195A1 (en) * | 1998-06-08 | 1999-12-16 | Telefonaktiebolaget Lm Ericsson | System for elimination of audible effects of handover |
US7013269B1 (en) * | 2001-02-13 | 2006-03-14 | Hughes Electronics Corporation | Voicing measure for a speech CODEC system |
CN101149921B (zh) * | 2006-09-21 | 2011-08-10 | 展讯通信(上海)有限公司 | 一种静音检测方法和装置 |
-
2008
- 2008-04-30 CN CN2008100368342A patent/CN101572090B/zh not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102104448A (zh) * | 2011-03-23 | 2011-06-22 | 华为技术有限公司 | 检测语音帧的编码速率的方法和设备 |
CN104700830A (zh) * | 2013-12-06 | 2015-06-10 | 中国移动通信集团公司 | 一种语音端点检测方法及装置 |
CN104700830B (zh) * | 2013-12-06 | 2018-07-24 | 中国移动通信集团公司 | 一种语音端点检测方法及装置 |
CN107112011A (zh) * | 2014-12-22 | 2017-08-29 | 英特尔公司 | 用于音频特征提取的倒谱方差归一化 |
CN110912646A (zh) * | 2019-12-02 | 2020-03-24 | 深圳震有科技股份有限公司 | 一种自动适配pcm链路速率方法、智能终端及储存介质 |
CN110912646B (zh) * | 2019-12-02 | 2022-06-10 | 深圳震有科技股份有限公司 | 一种自动适配pcm链路速率方法、智能终端及储存介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101572090B (zh) | 2013-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101359474A (zh) | 一种自适应多速率宽带编码方法及编码器 | |
CN103325377B (zh) | 音频编码方法 | |
KR101871644B1 (ko) | 적응적 대역폭 확장 및 그것을 위한 장치 | |
CN1244907C (zh) | 宽带语音编解码器中的高频增强层编码方法和装置 | |
CN102341852B (zh) | 滤波语音信号的方法和滤波器 | |
RU2636685C2 (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
CN1295677C (zh) | 用于估算语音调制解调器中的模拟高频段信号的方法和系统 | |
CN105431903A (zh) | 使用tcx ltp利用损毁或未接收到的帧的重建的音频解码 | |
CN102985968B (zh) | 处理音频信号的方法和装置 | |
JP6262337B2 (ja) | ハイバンド時間的特性の改善された追跡のための利得形状推定 | |
US20060025991A1 (en) | Voice coding apparatus and method using PLP in mobile communications terminal | |
CN105723456A (zh) | 使用确定性及类噪声信息编码音频信号及解码音频信号的概念 | |
CN101572090B (zh) | 一种自适应多速率窄带编码方法及编码器 | |
CN101388214B (zh) | 一种变速率的声码器及其编码方法 | |
CN1964244B (zh) | 一种用声码器收发数字信号的方法 | |
CN101609682B (zh) | 自适应多速率宽带不连续发送的一种编码器和方法 | |
EP1619665B1 (en) | Voice coding apparatus and method using PLP in mobile communications terminal | |
CN101609683B (zh) | 自适应多速率窄带不连续发送的一种编码器和方法 | |
Srivastava et al. | Performance evaluation of Speex audio codec for wireless communication networks | |
CN101572091A (zh) | 一种自适应多速率宽带编码方法及编码器 | |
Sun et al. | Speech compression | |
CN101373595A (zh) | 一种定速率自适应多速率编码器及编码方法 | |
Deyuan | An 8 kb/s low complexity ACELP speech codec | |
JP2002304200A (ja) | 音声符号化装置、音声復号化装置、音声符号化方法及び音声復号化方法 | |
KR20080034817A (ko) | 부호화/복호화 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
DD01 | Delivery of document by public notice |
Addressee: Xiang Wei Document name: Notification of Termination of Patent Right |
|
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130320 Termination date: 20140430 |
|
EXPY | Termination of patent right or utility model |