CN101359474A

CN101359474A - 一种自适应多速率宽带编码方法及编码器

Info

Publication number: CN101359474A
Application number: CNA2008100882656A
Authority: CN
Inventors: 向为
Original assignee: Individual
Current assignee: Individual
Priority date: 2007-07-30
Filing date: 2008-04-29
Publication date: 2009-02-04
Also published as: CN101359978B; CN101359978A; CN101399043A

Abstract

本发明提出一种采用新的自适应多速率编码器和编码方法，其话音激活检测较现有技术有较大的改变，将话音激活检测的对象针对编码帧对应的合成数字话音，并且根据所述的改变重新对自适应多速率编码器和编码方法作了总体架构上的更新，从而使译码器合成的声音信号能准确地反映原始声音的听觉效果。本发明可直接应用于第三代移动通信系统——通用移动通信系统的话音编码技术中。

Description

一种自适应多速率宽带编码方法及编码器

技术领域

本发明涉及自适应多速率宽带编码器及其编码方法，具体涉及到自适应多速率宽带编码器的话音激活检测和对连续声音信号帧进行AMR-WB编码的技术。

背景技术

码激励线性预测编码器自1985年被提出以来得到了广泛的应用。在码分多址(CDMA)和通用移动通信系统(UMTS)的声码器中都使用了码激励线性预测编码器的技术。

码激励线性预测包括了线性预测和量化、自适应码书搜索和固定码书搜索。因为语音本身有静默期，可以通过降低这些静默期间的数据速率有效压缩语音数据的传输速率，高通公司的申请号为92104618.9的可变速率声码器的专利就是关于上述方法的一个方案。

在UMTS中使用了自适应多速率(AMR)语音编码，自适应多速率(AMR)语音编码是3GPP(第三代移动通信伙伴计划)制定的应用于第三代移动通信中的语音压缩编码，自适应多速率(AMR)语音编码又分为自适应多速率窄带(AMR-NB)语音编码、自适应多速率宽带(AMR-WB)语音编码和自适应多速率宽带改进型(AMR-WB+)语音编码，这些编码方法都基于码书激励线性线性预测技术。自适应多速率(AMR)编解码方式中采用的码书激励线性预测编码器将一个话音信号帧分成若干个子帧，进行线性预测和量化、自适应码书搜索和量化以及固定码书搜索和量化。AMR-WB(自适应多速率宽带)语音编码支持八种速率的语音模式的编码速率：12.2、10.2、7.95、7.40、6.70、5.90、5.15、4.75kb/s(千比特/秒)，以及低速率(1.80kb/s)的背景噪声模式的编码速率，3GPP的TS26.071-500的章节5的表格1(Table 1)给出了对应上述这些自适应多速率宽带编码速率的编码器模式：23.85、23.05、19.85、18.25、15.85、14.25、12.65、8.85、6.6kb/s，以及低速率(1.75kb/s)的背景噪声编码速率，3GPP的TS26.171-500的章节5的表格1(Table 1)给出了对应上述这些自适应多速率宽带编码速率的编码器模式：AMR-WB_23.85、AMR-WB_23.05、AMR-WB_19.85、AMR-WB_18.25、AMR-WB_15.85、AMR-WB_14.25、AMR-WB_12.65、AMR-WB_8.85、AMR-WB_6.60以及AMR-WB_SID。

线性预测和量化包括了：将采样得到的话音信号帧或经过预处理的话音信号帧组成一个序列，用一个窗函数乘该序列中的声音样本，以提供一个加窗的声音数据帧；由所述加窗的声音数据帧计算一组自相关系数；用莱文逊—杜宾(Levinson-Durbin)算法由所述自相关系数组计算一组线性预测系数：将所述线性预测系数组转换到另一个频谱域；根据编码指令中的速率量化所述转换到另一个频谱域上的系数组，例如，10阶的一组线频谱对(LSP)的值，或16阶的一组声抗纳频谱对(ISP)的值，关于线频谱对(LSP)，最早在发表于国际语言语音和信号处理会议(ICASSP)′84中的文章“线频谱对(LSP)和语音数据压缩”中有说明，关于声抗纳频谱对(ISP)，可以在3GPP的TS26190的5.2.3章节-线性预测系数到声抗纳频谱对转换(LP to ISP Conversion)中找到说明。

在码激励线性预测编码过程中，自适应码书搜索和固定码书搜索得到的最佳码书矢量信号乘以各自的最佳增益后相加，其和为激励信号。激励信号是编码过程中一定要使用的，码激励线性预测编码是搜索与原始语音之间误差最小的基于激励信号的合成语音。

3GPP的TS26.190对自适应多速率宽带的自适应码书搜索作了说明，例如，TS26.190-310版本的5.7节。自适应码书搜索包含了基于以前激励信号的闭环基音(pitch)搜索和此后的按选定的整数和分数基音延迟进行的内插以前激励信号得到自适应码书的计算。自适应码书搜索得到的自适应码书参数是激励信号、整数和分数基音延迟、自适应码书增益和量化的自适应码书增益。

闭环基音搜索是通过原始语音和重构语音之间的均方加权误差的最小化来完成的，所述最小化需要从搜索范围内的每个延时值所对应的均方加权误差中找出最小的均方加权误差，每个延时值所对应的均方加权误差由自适应码书搜索目标信号(target signal)和加权合成滤波器(weighted synthesis filter)对以前激励信号的响应所确定。对自适应多速率宽带来说，3GPP的TS26.190-510版本中的5.7节对此做了说明，就是先求解由下面的式(1)表示的特征项T_k最大时的整数延时值k得到最佳整数延迟，

T_{k} = \frac{Σ_{n = 0}^{63} x (n) y_{k} (n)}{\sqrt{Σ_{n = 0}^{63} y_{k} (n) y_{k} (n)}}, - - - (1)

在最佳整数延迟附近的分数延时值也是通过内插归一化的特征项T_k得到的，搜索最大的分数延时值可得到最佳分数延迟，存放激励信号值的是激励缓冲器(u(n)，n＝-(231+17)，…，63，)，同样搜索阶段的值(u(n)，n＝0，1，…，63，)也是线性残差(LPresidual)。激励缓冲器(excitation buffer)中的搜索阶段之前的激励信号值(u(n)，n＜0)是以前的子帧的激励信号值。每个子帧的激励信号是当前本子帧的自适应码书信号按量化的自适应码书增益值放大后的得到信号，同固定码书信号按量化的固定码书增益值放大后的得到信号进行叠加所得到的信号，关于这一点，也可以参见TS26.190-510版本的5.10节，其中式(56)是激励信号值的数学表示。

自适应多速率宽带(AMR-WB)语音编码包括了固定码书增益量化的过程，固定码书增益量化包括：基于以前子帧的量化能量预测误差(quantified prediction error)得到的预测增益，以及固定码书增益和所述的预测增益之间的修正因子的量化。子帧的量化能量预测误差(quantified prediction error)就是所述修正因子的对数按固定比例放大后的值。

TS26.190对自适应多速率宽带的固定码书增益量化作了说明，例如，TS26.0190-510版本的5.9节。中的式(50)和(52)，也就是下面的式(2)和(3)说明量化能量预测误差如何影响预测增益的，

\tilde{E} (n) = Σ_{i = 1}^{4} b_{i} \hat{R} (n - i) - - - (2)

g_{c}^{'} = 10^{0.05 (\tilde{E} (n) + \tilde{E} - E_{i})} . - - - (3)

式(2)是第n个子帧预测能量(predicted energy)

的定义，取值为[0.5 0.4 0.3 0.2]的[b1 b2 b3 b4]是移动平均(MA)预测系数，就是第k个子帧的量化能量预测误差；式(3)是预测增益(predicted gain)g′_c的定义，

是取值为30分贝(dB)的更新能量(innovation energy)的平均值，E_i是平均更新能量(mean innovation energy)。固定码书增益和预测增益之间的修正因子为前者与后者的比值；而TS26.0190-510版本的5.9节中的式(53)说明能量预测误差R(n)就是20乘上述修正因子的对数，量化能量预测误差则是20乘量化修正因子的对数。

采样数字话音帧经预处理后形成的数字话音帧经过线性预测和量化、自适应码书搜索和固定码书搜索后所形成的合成数字话音帧的共振峰主要由线性预测所使用的线性预测分析(LPC)所决定，更确切一点，对AMR-WB来说，就是ISP转换为预测(LP)系数后，一个16阶线性预测合成滤波器也可以按式(4)确定，其中的

(i＝1，…，m，m＝16)是量化了的预测(LP)系数。

H (z) = \frac{1}{\hat{A} (z)} = \frac{1}{1 + Σ_{i = 1}^{m} {\hat{a}}_{i} z^{- i}}, - - - (4)

对于AMR-WB来说，将激励信号通过线性预测合成滤波器滤波后的输出就是合成数字话音帧，所以，线性预测合成滤波器的极点对应了合成数字话音帧的共振峰的频率和带宽，这些共振峰反映在时域上的波形的强度上，对听觉影响很大。

自适应多速率宽带(AMR-WB)语音解码过程中，对每一帧都进行LP(线性预测)滤波器参数解码，从而形成用于重构每一子帧的语音信号的每个子帧的LP滤波器系数；每个子帧的激励信号的构造方法是：将自适应码书信号按自适应码书增益值放大后得到的信号，同固定码书信号按固定码书增益值放大后得到的信号进行叠加，这里的自适应码书增益值和固定码书信号是按照解码得到的自适应码书增益索引和固定码书索引从量化表找到的量化值。AMR-WB的自适应码书信号是基于上一个子帧的激励信号的合成信号，即，解码自适应码书索引得到的的整数和分数基音延迟，按所述整数和分数基音延迟对上一个子帧的激励信号进行内插得到基音码矢量信号v′(n)(与3GPP的TS26.190-510中的5.7节的表示相同)，再根据编码帧中信号路径参数(两条路径中的一条)来线性内插基音码矢量信号得到自适应码书信号，该信号路径是编码方计算得到并写入AMR-WB编码帧的(除6.60kb/s模式之外，在6.60kb/s模式中该信号路径固定为第二条路径)。关于自适应码书信号的构成方法在3GPP的TS26.190-510中的5.7节中有详细的描述。

根据发表在Proc.IEEE(进展.电气电子工程师协会).1975，63(4)：561-580的文献“线性预测：入门性的回顾(Linear Prediction：A Tutorial Review)”可以知道，采用线性预测的方法得到的谱包络的峰值比较接近谐波峰值而常常偏离真正的共振峰的位置，也就是说，根据线性预测合成滤波器得到的合成数字话音帧的谱包络和原来的数字话音信号帧的谱包络并不是一致的。

在电子工业出版社2004年出版的作者是美国的夸特尔瑞的《离散时间语音信号处理：原理与应用(Discrete-Time Speech Signal Processing：Principle and Practice)》的5.3.4节——Levinson(莱文逊)递归及其相关特性中指出：线性预测所使用的全极点模型和自相关方法会使(7)式的所有极点落在单位圆内是最小相位系统；序列的自相关法的解的傅立叶变换的相位函数是失真的；线性预测的自相关引起声门最大相位极点向最小相位极点的转变；建立合成语音波形时，自相关变换造成的相位函数失真可能对语音感知有影响，即，合成数字话音信号的波形和原来数字话音信号的波形的偏离。在该书的5.6节——基于全极点模型的语音综合中指出：基于线性预测自相关法的合成信号看起来像语音，但同时由于其最小相位特性而失去了绝对相位结构；书中的图5.18中的例子所示，重建语音信号的尖峰比原始信号更为突出，并且，假定为最小相位的理想声门波是时间翻转的，并具有比实际声门波更陡的上升沿。

目前自适应多速率声码器的话音激活检测(VAD)方法是先计算预处理后的输入信号的电平和背景噪声估计值之间的差值，再计算出VAD判决阈值，VAD初始判决是通过比较所述差值和判决阈值来实现的，当前者大于后者时初始判决为有话音帧，当前者小于等于后者时初始判决为无话音帧，VAD的最终判决是将初始判决和预处理后的数字话音信号音调等其它检测的结果综合后的判决。

AMR-WB的VAD还要和不连续发送DTX相结合，DTX是通过多个输入信号帧的VAD结果检测到一段语音结束后才开始进行不连续的静音描述帧SID的发送，3GPP的TS26.193介绍了一种DTX的执行方案。

DTX要求，当一段语音结束时，将需要多个(例如8个)连续帧去产生一个SID帧，即在将连续多个(例如7个)VAD结果为无话音的输入信号帧以语音模式编码速率编码之后将之后的帧(例如第8帧)编码为SID_FIRST以标明一段语音的结束，一旦SID_FIRST帧被发送，只要连续无语音就周期性地(例如每8帧)发送SID_UPDATE帧，第一个SID_UPDATE帧需要在SID_FIRST帧后的特定时刻(例如第3帧)发送出；一种例外情况是当有语音的输入信号帧后的一个输入信号帧的VAD结果是无话音并且距离上一段语音结束少于一定时间(例如24帧)将该帧编码为SID_FIRST帧。

目前的自适应多速率声码器都基本上是可变速率单模式编码，声码器根据编码命令的速率指令和它对话音信号帧的检测决定是采用编码命令的速率还是采用编码背景噪声的速率来编码，对于歌曲这类音乐信号几乎不存在静默期，编码器也就不需要静默期检测这个功能。因为静音描述(SID)帧的频繁使用固然会带来无线资源的利用率的提高，但也会带来语音质量的下降。目前的可变速率自适应多速率编码器都有静音描述帧自动生成的功能。

发明内容

要解决的技术问题

根据采用码激励线性预测技术的AMR编码所产生的编码帧所生成的合成数字话音帧和原数字话音信号帧的语音特征并不一致，关于这一点已经在背景技术中有所指出，即：以线性预测分析方法来估计共振峰常常发生所得到的谱包络的峰值位置偏离真正的共振峰；线性预测所使用的全极点模型和自相关方法会使模型的所有极点落在单位圆内，从而造成合成数字话音信号的傅立叶变换的相位函数失真，这会使合成数字话音信号的波形形状和原来数字话音信号的波形形状的偏离。

现有技术采用的VAD所针对的对象是采样话音输入后形成的数字话音信号帧或采样后数字话音信号帧再经预处理后形成的预处理后的数字话音信号帧，以线性预测分析和码书激励的方式编码产生的连续的编码帧经译码后产生的合成数字话音信号的波形上的峰值位置常常会偏离其对应的用于VAD数字采样话音信号(或原来的预处理后的数字采样话音信号)的波形上的峰值位置，本文通过3GPP的AMR-NB以及AMR-WB的声音编码器对具体声音的编码给出具体的实例，

3GPP的TS26.174-540.zip(zip是文件的后缀名)文件中的T.zip文件的T_inp目录里的T22.inp(inp-文件的后缀名)文件所对应的语音信号的波形中的1.157秒和1.160秒之间的最大峰值位置同以T22.inp文件为输入以23.05kb/s为编码速率进行编码解码后形成的合成数字话音信号的波形上的对应峰值位置所属的帧不是相互对应的，下面就是关于这一点的说明：

如图5所示，T22.inp所指定的数字话音信号的58帧(图中1.16秒之前)的波形的最后部分有一个最大峰值，对译码后的合成数字语音信号而言，如图6所示，对应波形的峰值出现在以23.05kb/s速率编码的编码帧经译码后产生的合成数字话音信号59帧(1.16秒之后)中，合成数字话音信号帧59是比对应的帧58晚了一帧，所以以23.05kb/s速率编码的编码帧被译码后产生的合成数字话音信号的59帧中却有了原信号的59帧中的没有的波形峰值。这是因为用于VAD的第59帧数字话音信号和用于AMR-WB编码的59帧数字话音信号并不完全相同，用于VAD的59帧数字话音信号中的部分信号将用于60帧的AMR-WB帧的编码。

所以，数字话音帧和其对应的合成数字话音信号帧不一定具有一致的时域和频域的声音特征。用于VAD的采样数字话音帧(或预处理后的数字话音帧)的VAD结果也并不意味着其对应的合成数字话音信号帧具有与之相同的VAD结果，特别是在当一个用于VAD的数字话音输入帧上的可被检测出的共振峰经编码操作被映射到其相邻的后一个用于VAD的数字话音输入帧所对应的合成数字话音帧上的情况下。

正如背景技术所述，现有的VAD技术中不检测预处理后的数字话音帧(或采样数字话音帧)中共振峰，目前的技术中的分成多个频率子带分别检测信号电平、音调检测、基音检测、复杂信号检测这些技术都不直接涉及共振峰的检测，而AMR编码以LPC所得到的LP系数的预测合成滤波器的极点对应共振峰以形成对听觉有很大影响的谐振峰，这样共振峰的频率位置就被编码操作映射到这些谐振峰上去了。

在语音信号非常微弱时，语音信号的共振峰的幅度和能量很小几乎被背景噪声淹没，即，原始采样数字话音信号或预处理后的数字话音信号中背景噪声的电平或能量同微弱的共振峰的电平或能量接近使得VAD结果为无话音，多子带电平检测、音调检测、基音检测也无法检测，由于现有技术中VAD被安排在基音延迟参数和更新码书(innovative codebook)计算之前进行，现有的AMR技术中的LPC没有被用来检测出对应共振峰的那些极点的频率和带宽，更没有去检测在对应于预测合成滤波器极点处的波形峰值处的波形的振幅和能量，尽管这些波形峰值处的波形的振幅和能量的大小对语音感知影响很大。

本发明要解决编码前后的输入信号帧和编码帧解码后的合成数字信号帧的语音特性不一致对VAD带来的不良影响，特别是两者间波形特征不一致所带来的不良影响，例如，如果上述T22.inp所指定的话音信号的58帧的VAD结果是有话音但其59帧是无话音，并且，这一情况导致不连续发送DTX给出的58帧的发送类型(TX_TYPE)是正常话音SPEECH_GOOD，和导致59帧的发送类型(TX_TYPE)是正常话音SID_FIRST，这样就出现本应该按语音模式编码速率编码的59帧却被按背景噪声编码速率编码的情况，这样58帧的一个波形峰值就不会反映到变速率编码的合成数字信号帧上了。

如果话音激活检测要针对合成数字话音帧进行，那么产生该合成数字话音信号帧的线性预测和码书搜索操作所得到的激励信号、滤波器记忆、滤波器误差等参数是否能及如何用于下一帧的编码，也是本发明要解决的问题。

技术方案

AMR-WB编码帧经译码后所得到的数字话音帧是否有话音，这个判断还可以通过对该过合成数字话音帧进行话音激活检测来作出，所以本发明采用对AMR编码帧的合成数字话音信号帧直接进行话音激活检测VAD的方法。

为了使对听觉影响大的对应于原来数字话音信号的共振峰的合成数字话音信号的谐振峰不在VAD过程中被遗漏，本发明还将检测定位在向线性预测合成滤波器输入激励信号所产生的输出信号的中的振幅或能量上，这样，虽然不能直接检测到对应于线性预测合成滤波器极点的原来输入信号波形峰值处的波形的振幅或能量，但只要合成数字信号频谱中的谐振峰反映到时域波形上的振幅或短时能量或平均幅度超过规定的检测阈值就不会漏检合成数字信号频谱中的谐振峰。

本发明提出的一种VAD方法就是检测合成数字话音信号的波形中的振幅是否超过阈值，如果超过则将合成数字话音信号判决为有话音。这样，对于对应于那些原输入数字话音信号共振峰的波形来说，一旦其振幅超过阈值就不会被遗漏而会被检测出来，就不会将其所在的合成数字话音信号帧用背景噪声编码帧来代替并向译码方发送了。另一种检测方法是检测合成数字话音信号波形的短时平均能量或短时平均幅度的峰值是否超过阈值，如果超过则将合成数字话音信号判决为有话音，这样那些对应于原输入数字话音信号共振峰的波形的短时平均能量或短时平均幅度的峰值一旦超过阈值就不是会遗漏而是会被检测出来。

要解决的问题中还提到——合成数字话音信号帧或以非背景噪声编码速率编码AMR帧的过程中所得到的激励信号等参数是否以及如何在下一帧编码时使用的问题，解决这个问题的一个方法是沿用3GPP标准给出的方法——仅保留编码发送给接收方AMR-WB帧的过程所产生的那些参数，即：当VAD的结果是有话音则以非背景噪声编码速率编码AMR帧的过程中所得到的激励信号、滤波器记忆信号、滤波误差信号和量化能量预测误差等参数将在下一帧编码时使用；当VAD的结果是无话音并最终导致当前帧的发送类型被定为静音描述开始SID_FIRST、静音描述更新SID_UPDATE或无数据NO_DATA，则以非背景噪声编码速率编码AMR帧的过程中所得到的所有参数将被丢弃，而编码背景噪声编码速率帧所产生的复位后的激励信号等参数将在下一帧编码时被使用，这也是3GPP所给出的从背景噪声模式的背景噪声编码速率切换到语音模式的非背景噪声编码速率时的做法。

对本发明的生成语音模式编码速率合成数字话音帧并将其作为VAD的对象的方法来说，一方面，生成合成数字话音帧涉及到不间断地执行AMR-WB语音模式编码操作中的线性预测、码书搜索等操作；另一方面，当VAD结果是无话音且最后导致编码器输出背景噪声编码帧时就还要涉及到背景噪声编码速率的AMR-WB帧的编码。不间断(例如恒速率)的语音模式编码的声音效果要好于语音模式和背景噪声模式混合方式的变速率编码的声音效果，所以在背景噪声模式的编码后再执行语音模式的编码时使用语音模式编码(或生成合成数字话音帧)所产生的参数有利于提高语音质量。

所以，本发明提出另一种方法，在涉及到语音模式(非背景噪声编码速率)和非语音模式(背景噪声编码速率)对同一话音输入帧进行了双模式的编码且只有背景噪声编码速率编码帧被选择为AMR-WB发送帧向译码器发送的情况下，有选择地使用语音模式编码所产生的参数用于下一帧的编码，本发明给出上述选择的的方案。

本发明的选择的方案使得，在编码器在完成当前输入信号帧的AMR-WB帧的编码后以及译码器在完成该AMR-WB帧的译码后，双方保持一致的激励信号。达到这样的效果带来的好处是，在双方保持一致激励信号的前提下，只要语音模式的AMR-WB帧中的涉及构造线性预测合成滤波器的线性谱频率LSF参数传送无误，对于编译码双方来说，由线性预测合成滤波器响应激励信号所输出的合成数字话音帧就可以取得一致了。

在使编译码双方保持一致激励信号的本发明的技术方案中，编码器需要根据其输出的AMR-WB帧确定激励信号，当输出帧是背景噪声模式的AMR-WB帧时，编码器将激励信号复位到一个编码器和译码器双方约定的固定值；当输出帧是语音模式的AMR-WB编码帧时，编码器按整数和分数基音延迟和LTP-filtering-flag长期预测-滤波-标志对上一个子帧及之前的激励信号进行内插最后得到自适应码书信号，该自适应码书信号再按量化的自适应码书增益值放大后的得到信号，同固定码书信号按量化的固定码书增益值放大后的得到信号进行叠加，将所得到的信号作为激励信号。

语音模式AMR-WB编码帧包含整数和分数基音延迟、自适应码书的量化增益和固定码书信号，但并不直接包含固定码书增益参数，而是包含固定码书增益和预测增益g′_c之间的修正因子的量化编码参数，因为AMR-WB编码器和译码器双方约定了一致的预测增益g′_c，所以双方就可以在激励信号上取得一致。

AMR-WB编码器是通过和其AMR-WB译码器约定一致的量化能量预测误差来约定一致的固定码书预测增益g′_c的，由前面式(3)所示的预测增益g′_c的计算式中可知：只有子帧的预测能量(predicted energy)

由量化能量预测误差确定，更新能量的平均值

的取值不变，平均更新能量E_I仅和固定码书信号有关，关于这一点，3GPP的TS26.190-510版本的5.9节中的式(51)给出了说明，所以自适应多速率宽带译码器通过获得AMR-WB编码帧的编码速率和固定码书参数，可以和AMR-WB编码器在更新能量的平均值

和平均更新能量E_I上取得完全一致，如果使用同样的四个子帧的量化能量预测误差来计算子帧的预测能量

编码器和译码器双方的预测增益g′_c也完全一致。

现有的3GPP标准给出了AMR-WB编码器和译码器之间约定一致的量化能量预测误差的一种方法，即，当AMR-WB编码器的发送帧是语音模式的AMR-WB编码帧时，按TS26.0190-510版本的5.9节中的式(53)说明能量预测误差R(n)就是20乘上述修正因子的对数，量化能量预测误差则是20乘量化修正因子的对数；当编码帧是背景噪声编码速率帧时，编译码器双方的子帧的量化能量预测误差维持不变。

上述这种在AMR-WB编码器和译码器之间约定一致量化能量预测误差的方案并不是唯一的，例如，在3GPP的AMR-NB方案中，就是根据该背景噪声编码速率的AMR-WB编码帧中给出的量化的帧能量的对数平均值(averaged logarithmic energy)进行设定，在3GPP的TS26.092-500的5.2节帧能量计算(Frame energy caculation)中给出了根据以前的帧的帧能量计算帧能量对数平均值的说明；实际上对于本发明的这种为每一个输入信号帧都生成合成数字话音帧的方法，可以为每一个输入信号帧都生成修正因子，并且在发送帧是静音描述帧的时候也将该帧的四个子帧的修正因子一同向译码器发送，这样，编译码器双方就维持了量化能量预测误差参数的一致性，虽然比原来只发送静音描述帧的做法增加了发送的少量的比特数。

对于自适应多速率宽带编码来说，上一帧的激励信号的所有256个样本点上的数据不是全部都要使用，由于3GPP的26.190规定自适应码书搜索范围的上限是231，所以如果把搜索的范围限制在3GPP的26.190的规定范围内，对于后一帧的编码来说最多需要当前帧的最近248个样本点上的激励信号。

下面就是根据合成数字声音信号执行话音激活检测的技术方案：

一种按照背景噪声编码速率和一个语音模式编码速率对输入信号帧序列中的一输入信号帧进行自适应多速率宽带AMR-WB编码和对与该输入信号帧相邻的后一输入信号帧进行AMR-WB编码的方法，其特征在于，

根据按所述语音模式编码速率对所述的一输入信号帧编码所得到的自适应码书参数、固定码书参数和长期预测-滤波-标志LTP-filtering-flag生成激励信号，根据按所述语音模式编码速率对所述的一输入信号帧编码所得到的线性预测参数确定线性预测合成滤波器，用该线性预测合成滤波器对该激励信号滤波生成合成数字声音信号帧；

根据所述合成数字声音信号帧进行话音激活检测，根据所述话音激活检测的结果确定不连续发送的发送类型信号；

若所述的发送类型信号是SPEECH_GOOD，根据所述一输入信号帧的所述语音模式编码速率的AMR-WB编码帧中所使用的自适应码书参数、固定码书参数和LTP-filtering-flag，生成所述的一输入信号帧的激励信号，并根据所述话音激活检测的结果设置所述语音模式编码速率的AMR-WB编码帧中的话音激活检测标志VAD_flag；若所述的发送类型信号不是SPEECH_GOOD，将所述的一输入信号帧的的激励信号复位；根据所述的一输入信号帧的的激励信号对相邻的后一输入信号帧进行非背景噪声编码速率的编码操作。

在上述方法中不连续发送的控制DTX和操作模块仍然为输入信号帧序列中的每一帧产生一个发送类型信号TX_TYPE，但这个发送类型信号的确定要根据对合成数字声音信号帧所作的话音激活检测的结果，这不同于现有技术的不考虑编码帧的合成数字声音信号帧的做法。

对于上述方法来说，基于AMR-WB编解码器要维持一致的量化能量预测误差的前提，它做到了使双方有一致的激励信号。至于维持一致的量化能量预测误差的方法有多种下面一一列出：

第一种，编码器仅在发送语音模式的AMR-WB帧时，根据编码帧中的修正因子将量化能量预测误差更新，其余时候维持不变，即，若所述的发送类型信号是SPEECH_GOOD，根据所述一输入信号帧的所述非背景噪声编码速率的AMR-WB编码帧中所使用的修正因子correctionfactor，生成所述的一输入信号帧的量化能量预测误差；若所述的发送类型信号不是SPEECH_GOOD，将所述的一输入信号帧的子帧的量化能量预测误差设置为与其相邻的前一输入信号帧的子帧的量化能量预测误差。

第二种，编码器在发送AMR-WB帧时，根据编码帧中的修正因子将量化能量预测误差更新，其余时候维持不变，同时在发送SID帧时同时发送修正因子的编码给译码器；译码器在收到语音模式的AMR-WB帧时，根据编码帧中的修正因子将量化能量预测误差更新，在接收SID帧的同时接收修正因子并根据修正因子将量化能量预测误差更新，其余时候维持量化能量预测误差不变。

第三种，编码一方在所述的发送类型信号是SPEECH_GOOD时，根据所述一输入信号帧的所述非背景噪声编码速率的AMR-WB编码帧中所使用的修正因子correction factor，生成所述的一输入信号帧的子帧的量化能量预测误差；在所述的发送类型信号是静音描述开始SID_FIRST或静音描述更新SID_UPDATE时，和译码方约定一个同样的量化能量预测误差值，这个值有多种定义方法，例如，取固定值；在所述的发送类型信号是无数据NO_DATA时，将与所述的一输入信号帧相邻的前一输入信号帧的子帧的量化能量预测误差作为所述的一输入信号帧的子帧的量化能量预测误差。

由于编码背景噪声模式的AMR-WB帧不需要上一帧的激励信号和量化能量预测误差，在本发明的上述双模式的方法中，所述的输入信号帧的的激励信号和量化能量预测误差仅被用于对相邻的后一输入信号帧进行非背景噪声编码速率的编码操作。

在上述技术方案中生成激励信号的自适应码书参数和固定码书参数来自于输入信号帧编码的非背景噪声编码速率的AMR-WB编码帧，构造线性预测合成滤波器的线性预测参数同样来自于非背景噪声编码速率的AMR-WB编码帧。但上述这些参数可以在生成AMR-WB编码帧前取得，也就是说在线性预测后获取线性预测参数，在自适应码书搜索后获取自适应码书的参数，以及在固定码书搜索后获得固定码书参数。于是就有下面的AMR-WB编码器，即，

一种带有不连续发送控制和操作装置的自适应多速率宽带AMR-WB编码器，所述不连续发送控制和操作装置按照话音激活检测结果确定发送类型TX_TYPE和确定AMR-WB编码帧的编码速率，在所述AMR-WB编码器中，对输入声音信号帧进行线性预测，根据所述编码速率为所述输入声音信号帧编码并输出类型为TX_TYPE的AMR-WB发送帧，并生成用于编码下一个声音输入信号帧的所述输入声音信号帧的激励信号，其特征在于，

由对所述输入声音信号帧进行线性预测得到的线性预测参数确定线性预测合成滤波器；

根据语音模式的编码速率对所述声音输入声音信号帧自适应码书搜索、固定码书搜索所得到的自适应码书参数和固定码书参数生成语音模式的激励信号；

用所述线性预测合成滤波器对所述语音模式的激励信号滤波生成合成数字声音信号帧；

根据对所述合成数字声音信号帧执行的话音激活检测得到所述话音激活检测结果；

若所述TX_TYPE是正常话音SPEECH_GOOD，根据所述对输入声音信号帧的自适应码书搜索、固定码书搜索所得到的自适应码书参数和固定码书参数为输入声音信号帧编码AMR-WB发送帧，根据所述话音激活检测结果设置所述语音模式编码速率的AMR-WB编码帧中的话音激活检测标志VAD_flag，并根据所述输入声音信号帧的AMR-WB发送帧中所给出的基音延迟、自适应码书的量化增益、固定码书信号、固定码书增益和信号路径参数LTP-filtering-flag，生成所述输入声音信号帧的激励信号；

若所述TX_TYPE是静音描述开始SID_FIRST或静音描述更新SID_UPDATE，按背景噪声编码速率为输入信号帧编码AMR-WB发送帧，并将所述的输入声音信号帧的激励信号复位；

若所述TX_TYPE是无数据NO_DATA，将所述的输入声音信号帧的激励信号复位。

上述的AMR-WB编码器由于先进行话音激活检测VAD，再确定TX_TYPE，所以按照TX_TYPE决定编码速率可以达到为每个输入信号帧只编码一个AMR-WB帧(包括不用TX_TYPE为NO_DATA的不需要发送的帧)的效果，由于AMR-WB编译码器根据双方之间的AMR-WB编码帧来使彼此之间的量化能量预测误差达到一致，所以上述编码器的确定量化能量预测误差的方案就较为简单，例如，在TX_TYPE是SPEECH_GOOD时根据修正因子设置量化能量预测误差，并且在TX_TYPE是SID时按输入信号帧的帧能量来设置或维持不变。

只在传送语音模式AMR-WB帧时更新量化能量预测误差方法来设置(前面的第一种方法)的技术方案能使得本发明的编码器能和按照3GPP的AMR-WB标准的译码器兼容，即，包括确定编码与所述输入信号帧相邻的后一输入信号帧的语音模式AMR-WB帧所需要的所述输入声音信号帧的四个子帧的量化能量预测误差的装置，其特征在于，根据所述输入声音信号帧的发送类型指示TX_TYPE确定所述输入声音信号帧的四个子帧的量化能量预测误差：在所述发送类型指示是正常话音SPEECH_GOOD时该装置根据所述输入声音信号帧的非背景噪声编码速率的AMR-WB编码帧中所给出的修正因子生成所述输入声音信号帧的四个子帧的量化能量预测误差；在所述发送类型指示不是SPEECH_GOOD时该装置将当前输入信号帧的四个子帧的量化能量预测误差设置为原来的与当前输入信号帧相邻的前一个输入信号帧的四个子帧的量化能量预测误差。

本发明的编码器中所使用的编码方法比现有技术的编码方法的最明显之处就是将VAD的对象扩展到了合成数字话音信号，因而可以利用共振峰在合成数字话音信号波形上的特征检出话音，所以本发明的编码器的对合成数字话音信号的VAD包括了对合成数字声音信号帧的波形的检测。

由于合成数字话音信号在预测合成滤波器极点对应的谐振峰处有较高的能量，在对合成数字话音信号帧进行话音激活检测时可以检测其波峰的振幅，如果其波峰的上升沿和下降沿的幅度都超过或其中之一超过阈值就将该帧判决为有话音，这样，一旦所述的极点所对应的谐振峰反映在波形上的振荡的波峰的幅度超过阈值，合成数字话音信号帧就不会在VAD检测时被漏掉。当出现背景技术中指出的合成数字话音信号尖峰比原始信号更为突出的现象时那些突出的尖峰可以较容易地用与阈值比较的方法被检出。用来与波峰的上升沿或下降沿比较的阈值的设定方法不是唯一的，该阈值的确定可以用固定值，也可以和波峰所在的合成数字话音信号帧有关，比如，可以参考合成数字话音信号帧的平均幅度——帧内样本点上的信号值的绝对值的和，也可以参考合成数字话音信号帧的特定的子带的电平，3GPP26194-500的3.3.1节滤波器组与子带电平计算(Filter bank and computation of sub-band levels)给出了一种求子带的电平的方法。对于本发明的上述编码器及再之前的从语音模式编码帧中获取参数来生成激励信号的编码方法来说，有下面的VAD的波形检测的方法，

根据被检测的合成数字声音信号帧确定阈值，若所述的合成数字声音信号帧中的波形中的波峰的上升沿的幅度超过该阈值，就将所述话音激活检测的结果确定为有话音。

根据被检测的合成数字声音信号帧设定上升沿阈值和下降沿阈值，将所述的合成数字声音信号帧的波形中的波峰的上升沿的幅度和下降沿幅度分别同设定的上升沿阈值和下降沿阈值比较；若波形中的波峰的上升沿的幅度和下降沿幅度分别超过了所述的上升沿阈值和下降沿阈值，就将所述话音激活检测的结果设定为有话音。

现有技术中的话音激活检测方法对合成数字话音信号仍然适用，对于波形中波峰数目很多但上升沿和下降沿幅度相差不大的情形来说，现有技术中的将信号能量同背景噪声能量比较的方法是能够检出信号来的。但对于波形中波峰数目较少的情形来说，本发明在下面给出的方法检出信号的能力更强：

根据被检测的合成数字声音信号帧确定幅度阈值和范围，若所述的合成数字声音信号帧中的波形中的上升沿幅度超过该幅度阈值的波峰的个数在所述范围之内，就将所述话音激活检测的结果确定为有话音。

根据被检测的合成数字声音信号帧设定上升沿阈值、下降沿阈值和范围，将所述的合成数字声音信号帧的波形中的波峰的上升沿的幅度和下降沿幅度分别同设定的上升沿阈值和下降沿阈值比较；若波形中的上升沿幅度和下降沿幅度分别超过了所述的上升沿阈值和下降沿阈值波峰的个数在所述范围之内，就将所述话音激活检测的结果设定为有话音。

本发明的AMR-WB编码器中的使用的非背景噪声速率AMR-WB帧的编码方法同样落在本发明的保护范围之内，这种对一输入信号帧序列中的一输入信号帧进行自适应码书搜索、固定码书搜索及自适应多速率宽带AMR-WB编码和对与该输入信号帧相邻的后一输入信号帧进行非背景噪声的语音模式编码速率AMR-WB编码的方法，其特征在于，

对所述的一输入信号帧进行线性预测，根据所得到的线性预测参数确定线性预测合成滤波器，按语音模式编码速率所述的对所述一输入信号帧自适应码书搜索、固定码书搜索，并根据所得到的自适应码书参数和固定码书参数生成激励信号，用该线性预测合成滤波器对该激励信号滤波生成合成数字声音信号帧；

对所述合成数字声音信号帧进行话音激活检测，根据所述话音激活检测的结果确定不连续发送的发送类型信号；

若所述的发送类型信号是正常话音SPEECH_GOOD，根据所述的语音模式编码速率为所述一输入信号帧的编码AMR-WB编码帧，并根据该AMR-WB编码帧中所给出的基音延迟、自适应码书的量化增益、固定码书信号、固定码书增益和信号路径参数LTP-filtering-flag生成所述一输入信号帧的激励信号；若发送类型指示是静音描述更新SIP_UPDATE则生成所述输入信号帧的按背景噪声编码速率编码的自适应多速率宽带静音描述AMR-WB_SID帧；若发送类型信号是静音描述开始SID_FIRST则生成所述输入信号帧的不携带信息的AMR-WB_SID帧；若所述的发送类型信号不是SPEECH_GOOD，将所述的一输入信号帧的的激励信号复位；

根据所述的一输入信号帧的的激励信号对相邻的后一输入信号帧进行语音模式编码速率的编码操作。

对于上述编码方法来说编码方同样有多种和译码方保持量化能量预测误差一致的方法，只在编码方向译码方发送语音模式AMR-WB帧时双方根据编码帧中的修正因子调整各自的量化能量预测误差的方法能够和3GPP的技术规范中对AMR-WB的译码器的要求一致：

若所述发送类型信号是正常话音SPEECH_GOOD则生成所述一输入信号帧的语音模式编码速率的AMR-WB帧，并根据该AMR-WB帧中的修正因子correction factor生成量化能量预测误差；若所述发送类型信号是静音描述开始SID_FIRST或静音描述更新SID_UPDATE或无数据NO_DATA，将与所述的一输入信号帧相邻的前一输入信号帧的子帧的量化能量预测误差作为所述的一输入信号帧的子帧的量化能量预测误差。

在上述编码方法中的VAD方法也可以采用波形检测的方法，即，

采用固定的阈值或根据被检测的合成数字声音信号帧确定阈值，若所述的合成数字声音信号帧中的波形中的波峰的上升沿的幅度超过该阈值，就将所述话音激活检测的结果确定为有话音。

采用固定的上升沿阈值和下降沿阈值，或根据被检测的合成数字声音信号帧设定上升沿阈值和下降沿阈值，将所述的合成数字声音信号帧的波形中的波峰的上升沿的幅度和下降沿幅度分别同设定的上升沿阈值和下降沿阈值比较；若波形中的波峰的上升沿的幅度和下降沿幅度分别超过了所述的上升沿阈值和下降沿阈值，就将所述话音激活检测的结果设定为有话音。

本发明的技术方案也并不排斥对话音采样数字信号(或它的预处理后的数字信号)进行信号电平和背景噪声电平的计算和比较并根据比较的结果决定发送类型TX_TYPE，虽然本发明的实施例中的输入到VAD装置的是合成数字声音信号而非经过预处理的声音信号(或声音信号)。

有益效果

由于采用了先执行线性预测和码书搜索再执行VAD的方法，这样，根据码书搜索和线性预测所生成的激励信号的出现就先于VAD操作，针对激励信号通过线性预测合成滤波器的输出进行VAD，这样，如果原始数字声音帧经过线性预测、自适应码书搜索和固定码书搜索处理后的形成的合成语音的语音特征是有话音的，在VAD的结果就是有话音的，译码方收到的非背景噪声编码速率的AMR编码帧经译码后产生的数字语音信号帧的语音特征与编码方的该编码速率的用于检测的合成数字语音信号的语音特征相似；编码方在无法检测到具有活动话音的合成数字语音信号的情况下才有可能产生SID编码类型的AMR编码帧。

本发明将VAD的对象直接定位在非背景噪声编码速率的AMR编码帧所对应的合成数字话音信号帧上，因编码速率降低会造成该编码速率的合成数字话音信号帧的VAD结果趋向于无活动话音，即，对于具有一定数量的帧的声音信号来说，使用本发明的方法，编码速率降低会使根据输入信号帧信噪比作判决的话音激活检测VAD产生更多的VAD结果是无话音的帧。因此，本发明还可以提高AMR编码技术的声音压缩率，使同样的无线资源能容纳更多的声音信号。

由于采用了先执行线性预测和码书搜索再执行VAD的方法，这样，按非背景噪声编码速率生成的激励信号的出现就先于VAD操作，按非背景噪声编码速率的码书搜索的操作在执行的次序上先于VAD操作，当VAD的结果使DTX控制和操作模块产生的发送类型指示不是正常语音(SPEECH_GOOD)时按非背景噪声编码速率生成合成数字话音信号时产生的激励信号的参数就不能再用于下一帧的非背景噪声编码速率的编码了，本发明的在此情况下有选择地弃用语音模式下进行线性预测、自适应码书搜索和固定码书搜索所得到的参数，即，除了使用编码背景噪声编码速率编码帧所产生的激励信号以外，为下一帧输入声音信号生成合成数字声音信号时就可以利用从语音模式下执行线性预测、自适应码书搜索和固定码书搜索操作所得到的参数，而不必再象现有技术那样编码SID帧后放弃按非背景噪声编码速率执行线性预测和码书搜索产生的其它参数，由于有了这一方案，为下一输入声音信号帧生成的用于话音激活检测的合成数字声音信号含有更多的输入声音信号的特征，因为现有技术中，一旦遇到一次背景噪声速率编码帧，会将AMR-WB编码器中的包括激励信号和量化能量预测误差的状态变量都复位，此刻编码器丢失了过去的输入声音信号的特征。

在收到语音模式的AMR-WB编码帧后，接收方的译码器与编码器中的语音模式编码模块分别参照一致的包括上一帧子帧样本点的过去样本点上的激励信号和四个子帧的量化能量预测误差，一方使用信道上的收到的编码帧中的参数，另一方使用自己编码到该编码帧中去的参数，分别生成各自子帧的激励信号和合成语音，所以接收方译码器合成的的激励信号与所述语音编码模块合成的激励信号完全一致，译码器使用和编码器一致的激励信号使译码产生的合成语音的听觉质量有保证。

本发明的将合成数字话音信号的波峰的幅度同阈值比较的VAD方法可以在预测合成滤波器极点对应的谐振峰反映在波形上的波峰的幅度高于阈值时检出该波峰所在的合成数字话音信号帧。当背景技术中提到的合成数字话音信号的尖峰比原始信号更为突出这一现象体现在对应原始信号共振峰的合成数字话音信号的波形中的尖峰的上升沿或下降沿比原始信号的更大时，上述的将合成数字话音信号的波峰的幅度同阈值比较的方法可以检测出无法通过检测原始信号波形的尖峰而检出的帧。同样，当前面提到的合成数字话音信号的上升沿比原始信号更为陡这一现象体现在对应原始信号共振峰的合成数字话音信号的波形中的尖峰的上升沿比原始信号的更大时，本发明的将合成数字话音信号的波峰的上升沿同阈值比较的方法可以检测出原来无法检出的帧。同样，当前面提到的合成数字话音信号的上升沿比原始信号更为陡这一现象体现在对应原始信号共振峰的合成数字话音信号的波形中的尖峰的上升沿的斜率比原始信号更大时，将合成数字话音信号的波峰的上升沿的斜率同阈值比较的方法可以检测出原来无法检出的帧。

附图说明

图1是支持恒定语音模式编码的可变速率的自适应多速率宽带(AMR-WB)编码器的原理框图。

图2是图1中语音编码模块的简化框图。

图3是为每一个输入信号帧生成一个AMR-WB编码帧的AMR-WB编码器。

图4是图3中语音编码模块的简化框图。

图5是作为输入信号的3GPP的TS26.174-540中的T22.inp所对应的数字话音信号的第59帧，图上的1.16是指1.16秒的时刻。

图6是以3GPP的TS26.174-540中的T22.inp为输入信号以23.05kb/s为编码速率的编码译码后的合成数字话音信号的第59帧，图上的1.16是指1.16秒的时刻。

具体实施方式

实施例1，一个可以不连续发送DTX的自适应多速率宽带(AMR-WB)编码器，如图1所示，话音采样率为16kHz的14比特均匀脉冲调制(PCM)输入声音信号帧1同时向非背景噪声编码速率的语音编码模块和背景噪声编码模块输出，语音编码模块将信号帧1的非背景噪声编码速率的自适应多速率宽带(AMR-WB)编码帧11向编码帧输出选择模块输出，背景噪声编码模块将信号帧1的背景噪声编码速率的自适应多速率宽带(AMR-WB)静音描述编码帧12向编码帧输出选择模块输出，语音编码模块还将编码信号帧1时产生的合成数字话音信号帧17向话音激活检测模块输出，合成数字话音信号帧17的生成按照3GPP的26.190-500的5.10节中给出的生成本地合成语音(local synthesized speech)的方法产生，话音激活检测模块对合成数字话音信号帧17进行话音激活检测，并将检测的结果——VAD标志18向不连续发送(DTX)控制和操作模块输出，DTX控制和操作模块输出发送类型信号19到编码帧输出选择模块，编码帧输出选择模块将收到的发送类型信号19向3G(第三代移动通信)无线接入网(AN)输出。发送类型信号19是正常话音(SPEECH_GOOD)、静音描述开始(SID_FIRST)、静音描述更新(SID_UPDATE)、无数据(NO_DATA)四种之一，当发送类型信号19是正常话音(SPEECH_GOOD)时，编码帧输出选择模块输出的信息比特2是按非背景噪声编码速率(语音模式)编码的自适应多速率宽带(AMR-WB)编码帧11；当发送类型信号19是静音描述更新(SID_UPDATE)时，编码帧输出选择模块输出的信息比特2是按背景噪声编码速率编码的自适应多速率宽带静音描述(AMR-WB_SID)帧12；当发送类型信号19是静音描述开始(SID_FIRST)时，编码帧输出选择模块输出的信息比特2是按照3GPP技术规范TS26.193-500的5.1.1节形成的SID_FIRST帧；当发送类型信号19是无数据(NO_DATA)时，信息比特2对于3G的AN无效。发送类型信号19的内容由DTX控制和操作模块根据VAD标志18的运行结果确定。

若不连续发送(DTX)控制和操作模块根据输入的VAD标志18将发送类型信号19设定为正常话音(SPEECH_GOOD)的发送类型指示，不连续发送(DTX)控制和操作模块也向语音编码模块发送当前16kHz的14比特均匀PCM信号帧1的AMR-WB编码帧的发送类型指示——正常话音(SPEECH_GOOD)，收到该发送类型信号19后语音编码模块为当前16kHz的14比特均匀PCM信号帧的相邻的后一帧编码AMR-WB帧时仍使用模块本身的激励信号缓冲器中的激励信号，即，仍然按照3GPP的TS26.190所描述的方法来使用其激励缓冲器中的激励信号；若不连续发送(DTX)控制和操作模块根据输入的VAD标志18将发送类型信号19设定为静音描述开始(SID_FIRST)、静音描述更新(SID_UPDATE)和无数据(NO_DATA)三个之中的任一个，不连续发送(DTX)控制和操作模块也把该信号19向语音编码模块发送，收到这些类型之一的发送类型信号19后，语音编码模块就要用背景噪声编码模块完成对当前的PCM信号帧1编码后产生的激励信号35去代替其自身激励信号缓冲器中的激励信号供编码与当前8kHz的13比特均匀PCM信号帧的相邻的后一帧的AMR-WB帧时使用，并且不去更新量化能量预测误差使之保持不变——保持编码当前帧之前所使用的量化能量预测误差值。

图1和3GPP的TS26.171的图1中发送方(TRANSMIT SIDE)的右边的编码部分的框图相似，不同之处在于话音激活检测(Voice Activity Detector)模块从语音编码模块那里接收到的信号不同，3GPP的的TS26.171的图1中的是语音采样经语音编码(Speech Encoder)模块预处理后的信号，本文图1中的是语音编码模块对输入的语音数字信号帧进行线性预测及量化、自适应码书搜索以及固定码书搜索后所生成的合成数字语音信号帧。本文的图1中，在发送类型信号19是正常话音(SPEECH_GOOD)或是静音描述更新(SID_UPDATE)时编码帧输出选择模块要从语音编码模块生成的AMR-WB编码帧和背景噪声编码模块生成的自适应多速率宽带静音描述(AMR-WB_SID)编码帧中选择一个作为信息比特(info bits)；与本发明不同，在3GPP的的TS26.171的图1中的语音编码帧(speech frame)4和静音描述帧(SIDframe)5不会同时出现，不存在从两者之中作选择的这个操作。

图2所示的是图1中语音编码模块的简化框图，它给出了信号的处理流程，该图和3GPP的TS26.190-500中的图2(ACELP编码器的详细框图)基本相同，图2中的A(z)是未量化系数的逆向滤波器(The inverse filter with quantized coefficients)，

是量化系数的逆向滤波器(The inverse filter with quantized coefficients)，s(n)是预加重的信号，T0是最佳开环时延，h(n)是加权合成滤波器(weighted synthesis filter)的冲激响应，x(n)是自适应码书搜索的目标信号，x₂(n)是更新(innovation)搜索的目标信号，在TS26.190中各章节的描述覆盖了其图2的内容，所以也覆盖了本文的图2所涉及的与其图2相同的内容。

本文的图2中的与TS26.190-500中的图2的不同的地方为以下几处：

本文图2中所示的语音编码模块利用线性预测及量化获得的参数构造线性预测合成滤波器，用该合成滤波器对激励信号滤波产生合成数字声音信号帧17；图2中还示出了后处理流程，该后处理就是先对发送类型19的内容进行检测，若不是SPEECH_GOOD，就用激励信号35代替当前帧的激励信号；图1中的AMR-WB编码帧11中的参数来自于图2中的ISF索引、基音索引、码书索引、增益矢量索引和滤波器索引。

实施例1中执行编码所按照的2个编码速率是一个是背景噪声编码速率另一个是非背景噪声编码速率，这样，发送类型19指定了编码后一帧时应该使用的激励信号，即，若发送类型信号19内容是SPEECH_GOOD则以23.05kb/s编码所产生的激励信号将被它在编码下一帧时使用，并且根据修正因子更新量化预测误差；若发送类型信号19内容不是SPEECH_GOOD，语音编码模块编码下一帧时使用背景噪声编码模块复位后的激励信号并且量化预测误差保持不变。

实施例2，如图3所示，一个对一个输入话音信号帧只有一个编码模块为其产生AMR-WB编码帧的AMR-WB编码器，输入声音信号帧42是14比特均匀PCM帧，43是VAD标志，44是AMR-WB编码语音帧(非背景噪声编码速率自适应宽带编码帧)，45是AMR-WB静音描述(SID)帧，46是发送类型的指示，47是传给3G接入网的信息比特，语音编码模块对14比特均匀PCM帧进行线性预测和码书搜索得到的合成数字话音信号帧48，49是对14比特均匀PCM帧进行预处理后得到的预处理后的话音信号帧。

图3和3GPP26.071-400图1中描述的发送部分(Transmit side)的右边一个框图类似，不同的地方在于：本发明的图4中的话音激活检测模块对合成数字话音信号进行检测，3GPP的方法是对预处理后的数字话音信号进行检测。

图3的语音编码模块的简化框图如图4所示，图4中的后处理流程中，当当前帧的发送类型46不是SPEECH_GOOD时，使用已知的激励信号的固定复位值来设置其激励缓冲器中存放的当前帧的激励信号，该激励缓冲器中的激励信号至少是包含最后一个子帧的248个样本点上的信号值，并将当前帧的四个子帧的量化能量预测误差设置为前一帧的四个子帧的量化能量预测误差。

图4中的背景噪声编码模块的内容和3GPP的TS26.192的描述完全一致，所以只要参照该技术规范就能实现背景噪声编码速率AMR-WB帧的编码。

在本实施例中，语音编码模块接收14比特均匀PCM帧42，向话音激活检测模块发送其对预处理后的话音数字信号进行线性预测、自适应码书搜索和更新码书搜索后得到的合成数字话音信号帧，即：用自适应码书按自适应码书增益放大后与更新码书按更新码书增益放大后相加得到激励信号，再用激励信号通过由线性预测得到的线性预测(LP)参数-

所确定的线性预测合成滤波器得到合成数字话音信号帧48(用于合成数字话音帧的线性预测合成滤波器也可以由线性预测参数A(z)所确定)；话音激活检测模块根据对合成数字话音信号帧48的检测所得到VAD结果——VAD标志43向DTX控制和操作模块输出，DTX控制和操作模块的功能可以同3GPP中规定的一样(具体参见TS26.193)。图3示出的语音编码模块在收到发送类型指示46是正常语音(SPEECH_GOOD)时产生AMR-WB语音模式编码帧(非背景噪声编码速率编码帧)，图4中的ISF索引、码书索引、基音索引、滤波器索引和增益矢量索引会被编入该AMR-WB语音模式编码帧中；当语音编码模块在收到发送类型指示46不是正常语音(SPEECH_GOOD)时向背景噪声编码模块发送预处理后的声音信号帧49，背景噪声编码模块产生AMR-WB静音描述(SID)帧45。DTX控制和操作模块在发送类型指示46是正常语音(SPEECH_GOOD)时在信息比特47里放AMR-WB编码语音帧44和VAD标志43向3G接入网(AN)发送，DTX控制和操作模块在发送类型指示46是静音描述更新(SID_UPDATE)时在信息比特47里放自适应多速率静音描述(AMR_SID)帧45向3G接入网(AN)发送，DTX控制和操作模块在发送类型指示46是静音描述开始(SID_FIRST)时在信息比特47里放按照3GPP技术规范TS26193形成的SID_FIRST帧向3G接入网(AN)发送，TX控制和操作模块在发送类型指示46是无数据(NO_DATA)时指示3G接入网不进行话音帧的发送，所以在信息比特里无论放什么都可以。

下面是工作在23.05kb/s的AMR-WB编码器以3GPP的TS26.174-540中的T22.inp所表示的信号为输入信号进行23.05kb/s编码的过程的一段时间上的详细说明，T22.inp的每个样本点的值被表示为16比特，AMR-WB编码器将其2个最低有效位(比特1-比特0)置0从而形成14比特的数字话音信号(该数字话音信号的精度为4)。

下面给出在第66帧(1.30秒到1.32秒)检测出了有话音的语音特征的3种VAD方法。合成数字话音信号帧66的帧的样本点上的信号值按先后顺序在下面花括号内：{745，2329，2584，730，325，-312，-996，-2312，-2243，-1917，-862，217，-166，911，2082，1817，1563，1362，1728，690，-661，-1138，-2046，-2120，-1188，-645，403，1429，524，299，685，452，-38，612，520，-178，-452，-659，-436，816，1177，862，921，535，-291，43，256，168，965，802，-641，-720，-252，-336，-834，1267，916，130，-491，-641，-368，-209，-61，632，2444，1780，-82，-1021，-685，-803，-1887，-1766，-948，436，699，168，1078，1750，985，826，1113，901，-312，-495，-775，-938，-1677，-2929，-1819，-462，-56，239，916，1823，1131，178，-138，-775，-903，-716，-1108，-855，-440，114，768，1423，1793，1329，-272，-562，-1156，-1486，-1343，-852，-47，326，662，1863，2843，1931，1546，616，-1172，-2047，-1584，-1440，-1007，-38，616，28，347，-288，-119，280，130，-10，-132，283，-108，-273，-21，178，1237，466，-418，-322，128，-133，-270，-379，447，460，971，721，69，676，210，169，-10，-76，-1073，-1517，-1017，-564，10，464，691，721，530，-8，-272，-165，-221，-405，-384，-743，-628，-360，-102，246，951，843，-13，-169，-325，-574，-621，-467，-253，-67，27，574，830，965，811，925，358，-419，-1408，-1442，-1127，-729，-156，383，350，93，211，96，-1103，-1561，-1737，-842，193，360，701，989，781，-294，-525，-309，-187，-179，-116，7，105，67，-149，-30，827，711，313，697，315，437，110，398，973，163，437，181，-66，457，301，884，840，492，1304，173，-286，-253，-350，-276，-175，19，652，672}

可以从上述波形中找到其中的3个较大的波峰，第一个是(-2312，-2243，-1917，-862，217，-166，911，2082，1817，1563，1362，1728，690，-661，-1138，-2046，)，第二个是(-2929，-1819，-462，-56，239，916，1823，1131，178，-138，-775，-903，-716，-1108)，第三个是(-1486，-1343，-852，-47，326，662，1863，2843，1931，1546，616，-1172，-2047)，第一个波峰的上升沿和下降沿分别是4394和4128，第二个波峰的上升沿和下降沿分别是4752和2931，第三个波峰的上升沿和下降沿分别是4329和4890，

可以计算出该帧的帧的平均幅度是(帧内每个样本点上的信号值的绝对值之和)是179267。在VAD中可以使用下面的3种波形检测方法，

第一种波形检测是在上升沿和下降沿幅度都大于阈值时将VAD结果设定为有话音，阈值设为4302，它是加权系数0.024和帧的平均幅度179267的乘积和4096之间的较大值；

第二种波形检测是在上升沿幅度大于4302的阈值的次数有3到4次时将VAD结果设为有话音，阈值4302是加权系数0.024和帧的平均幅度179267的乘积和4096之间的较大值；

第三种波形检测是在上升沿和下降沿幅度分别大于各自的阈值的次数有2到3次时将VAD结果设为有话音，上升沿幅度的阈值是4302(加权系数0.024和帧的平均幅度179267的乘积和4096之间的较大值)，下降沿幅度的阈值是4123(加权系数0.023和帧的平均幅度179267的乘积和4096之间的较大值)。

按这3种VAD检测方法都能将66帧判决为有话音，本实施例的VAD除了采用对合成数字话音信号进行基于信号电平和背景噪声能量比较的方法之外，还可以采用上述三种波形检测的VAD方法。

Claims

1.一种按照背景噪声编码速率和一个语音模式编码速率对输入信号帧序列中的一输入信号帧进行自适应多速率宽带AMR-WB编码和对与该输入信号帧相邻的后一输入信号帧进行AMR-WB编码的方法，其特征在于，

若所述的发送类型信号是SPEECH_GOOD，根据所述一输入信号帧的所述语音模式编码速率的AMR-WB编码帧中所使用的自适应码书参数、固定码书参数和LTP-filtering-flag，生成所述的一输入信号帧的激励信号，并根据所述话音激活检测的结果设置所述语音模式编码速率的AMR-WB编码帧中的话音激活检测标志VAD_flag；若所述的发送类型信号不是SPEECH_GOOD，将所述的一输入信号帧的的激励信号复位；

根据所述的一输入信号帧的的激励信号对相邻的后一输入信号帧进行非背景噪声编码速率的编码操作。

2.根据权利要求1的方法，其特征在于，若所述的发送类型信号是SPEECH_GOOD，根据所述一输入信号帧的所述非背景噪声编码速率的AMR-WB编码帧中所使用的修正因子correction factor，生成所述的一输入信号帧的量化能量预测误差；若所述的发送类型信号不是SPEECH_GOOD，将所述的一输入信号帧的子帧的量化能量预测误差设置为与其相邻的前一输入信号帧的子帧的量化能量预测误差；

根据所述的一输入信号帧的子帧的量化能量预测误差对相邻的后一输入信号帧进行非背景噪声编码速率的编码操作。

3.根据权利要求1或2的方法，其特征在于：

其中进行的话音激活检测包括对合成数字声音信号帧的波形检测。

4.根据权利要求3的方法，其特征在于，所述的对所述合成数字声音信号帧的波形检测包括：

为所述合成数字声音信号帧确定幅度阈值和范围，若所述的合成数字声音信号帧中的波形中上升沿幅度超过幅度阈值的波峰的个数在所述范围内，就将所述话音激活检测的结果确定为有话音。

5.根据权利要求3的方法，其特征在于，所述的对所述合成数字声音信号帧的波形检测包括：

为所述合成数字声音信号帧确定多个幅度阈值并为其中每个幅度阈值设定范围，在所述的合成数字声音信号帧中的波形中，若上升沿幅度超过每个幅度阈值的波峰的个数在该幅度阈值所对应的范围之内，就将所述话音激活检测的结果确定为有话音。

6.根据权利要求3的方法，其特征在于，所述的对所述合成数字声音信号帧的波形的检测包括：

为该合成数字声音信号帧设定上升沿幅度阈值和下降沿幅度幅度阈值，在所述的合成数字声音信号帧中的波形中，若波峰的上升沿幅度和下降沿幅度分别超过所述的上升沿幅度阈值和下降沿幅度，就将所述话音激活检测的结果确定为有话音。

7.根据权利要求4的方法，其特征在于，

根据所述的合成数字声音信号帧确定所述的幅度阈值和范围。

8.根据权利要求5的方法，其特征在于，

根据所述的合成数字声音信号帧确定所述的多个幅度阈值和其中每个幅度阈值的范围。

9.根据权利要求6的方法，其特征在于，

根据所述的合成数字声音信号帧确定所述的上升沿幅度阈值和下降沿幅度。

10.一种带有不连续发送控制和操作装置的自适应多速率宽带AMR-WB编码器，所述不连续发送控制和操作装置按照话音激活检测结果确定发送类型TX_TYPE和确定AMR-WB编码帧的编码速率，在所述AMR-WB编码器中，对输入声音信号帧进行线性预测，根据所述编码速率为所述输入声音信号帧编码并输出类型为TX_TYPE的AMR-WB发送帧，并生成用于编码下一个声音输入信号帧的所述输入声音信号帧的激励信号，其特征在于，

11.根据权利要求10的编码器，还包括确定编码与所述输入信号帧相邻的后一输入信号帧的语音模式AMR-WB帧所需要的所述输入声音信号帧的四个子帧的量化能量预测误差的装置，其特征在于，根据所述输入声音信号帧的发送类型指示TX_TYPE确定所述输入声音信号帧的四个子帧的量化能量预测误差，即，

在所述发送类型指示是正常话音SPEECH_GOOD时该装置根据所述输入声音信号帧的非背景噪声编码速率的AMR-WB编码帧中所给出的修正因子生成所述输入声音信号帧的四个子帧的量化能量预测误差；在所述发送类型指示不是SPEECH_GOOD时该装置将当前输入信号帧的四个子帧的量化能量预测误差设置为原来的与当前输入信号帧相邻的前一个输入信号帧的四个子帧的量化能量预测误差。

12.根据权利要求10或11的编码器，

其中执行的话音激活检测包括对合成数字声音信号帧的波形的检测。

13.根据权利要求12的编码器，其特征在于，

所述对合成数字声音信号帧的波形的检测包括：将所述合成数字声音信号帧中的波形的波峰的上升沿的幅度同一个阈值比较，当所述波形的波峰的上升沿的幅度大于该阈值就将所述的话音激活检测的结果确定为有话音。

14.根据权利要求13的编码器，其特征在于，

根据所述合成数字声音信号帧确定所述阈值。

15.根据权利要求12的编码器，其特征在于，

所述对合成数字声音信号帧的波形的检测包括：为该合成数字声音信号帧设定上升沿幅度阈值、下降沿幅度阈值和范围，在所述的合成数字声音信号帧中的波形中，若上升沿幅度和下降沿幅度分别超过上升沿幅度阈值和下降沿幅度阈值的波峰的个数在所述范围内，就将所述话音激活检测的结果确定为有话音。

16.根据权利要求15的编码器，其特征在于，

根据所述的合成数字声音信号帧确定所述的上升沿幅度阈值、下降沿幅度阈值和范围。

17.根据权利要求12的编码器，其特征在于，

所述对合成数字声音信号帧的波形的检测包括：为该合成数字声音信号帧设定多个幅度阈值并为其中每个幅度阈值确定范围，在所述的合成数字声音信号帧中的波形中，若上升沿幅度超过每个幅度阈值的波峰的个数都该幅度阈值所对应的范围内，就将所述话音激活检测的结果确定为有话音。

18.根据权利要求17的编码器，其特征在于，

19.一种对一输入信号帧序列中的一输入信号帧进行自适应码书搜索、固定码书搜索及自适应多速率宽带AMR-WB编码和对与该输入信号帧相邻的后一输入信号帧进行非背景噪声的语音模式编码速率AMR-WB编码的方法，其特征在于，

若所述的发送类型信号是正常话音SPEECH_GOOD，根据所述的语音模式编码速率为所述一输入信号帧的编码AMR-WB编码帧，并根据该AMR-WB编码帧中所给出的基音延迟、自适应码书的量化增益、固定码书信号、固定码书增益和信号路径参数LTP-filtering-flag生成所述一输入信号帧的激励信号；若发送类型指示是静音描述更新SID_UPDATE则生成所述输入信号帧的按背景噪声编码速率编码的自适应多速率宽带静音描述更新SID_UPDATE帧；若发送类型信号是静音描述开始SID_FIRST则生成所述输入信号帧的静音描述开始SID_FIRST帧；若所述的发送类型信号不是SPEECH_GOOD，将所述的一输入信号帧的的激励信号复位；

20.根据权利要求19的方法，其特征在于，

若所述发送类型信号是正常话音SPEECH_GOOD则生成所述一输入信号帧的语音模式编码速率的AMR-WB帧，并根据该AMR-WB帧中的修正因子correction factor生成量化能量预测误差；

若所述发送类型信号是静音描述开始SID_FIRST或静音描述更新SID_UPDATE或无数据NO_DATA，将与所述的一输入信号帧相邻的前一输入信号帧的子帧的量化能量预测误差作为所述的一输入信号帧的子帧的量化能量预测误差。

21.根据权利要求19或20的方法，其特征在于：

其中进行的话音激活检测包括对合成数字声音信号帧的波形的检测。

22.根据权利要求21的方法，其特征在于，

所述对合成数字声音信号帧的波形的检测在所述合成数字话音信号帧中的波形的波峰的上升沿的幅度超过阈值时将所述话音激活检测的结果设定为有话音。

23.根据权利要求22的方法，其特征在于，

根据所述的合成数字声音信号帧确定所述的阈值。

24.根据权利要求21的方法，其特征在于，

所述对合成数字声音信号帧的波形的检测包括：为该合成数字声音信号帧确定幅度阈值和范围，若所述的合成数字声音信号帧中的波形中上升沿幅度超过幅度阈值的波峰的个数在所述范围内，就将所述话音激活检测的结果确定为有话音。

25.根据权利要求24的方法，其特征在于，

26.根据权利要求21的方法，其特征在于，

所述的对所述合成数字声音信号帧的波形的检测包括：为该合成数字声音信号帧设定多个幅度阈值并为其中每个幅度阈值设定范围，在所述的合成数字声音信号帧中的波形中，若上升沿幅度超过每个幅度阈值的波峰的个数都在该幅度阈值所对应的范围内，就将所述话音激活检测的结果确定为有话音。

27.根据权利要求26的方法，其特征在于，