CN1667703A - 编码域中的音频增强 - Google Patents

编码域中的音频增强 Download PDF

Info

Publication number
CN1667703A
CN1667703A CNA2004100821122A CN200410082112A CN1667703A CN 1667703 A CN1667703 A CN 1667703A CN A2004100821122 A CNA2004100821122 A CN A2004100821122A CN 200410082112 A CN200410082112 A CN 200410082112A CN 1667703 A CN1667703 A CN 1667703A
Authority
CN
China
Prior art keywords
parameter
parameter value
new
exponential quantity
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004100821122A
Other languages
English (en)
Other versions
CN100369108C (zh
Inventor
帕维·瓦尔夫
安迪·祖·帕桑宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/803,103 external-priority patent/US7613607B2/en
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN1667703A publication Critical patent/CN1667703A/zh
Application granted granted Critical
Publication of CN100369108C publication Critical patent/CN100369108C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了用于增强编码音频信号的方法和设备,所述编码音频信号包括代表音频信号参数的指数,所述音频信号参数至少包括代表音频信号的第一特性的第一参数。从与第一参数对应的指数确定当前第一参数值。调整当前第一参数值,以便获得增强的第一特性,从而得到增强的第一参数值。从进一步与第二参数对应的所述指数确定当前第二参数值。从使指数值与第一参数值相关和使指数值与第二参数值相关的表确定新的指数值,从而与新的指数值对应的新的第一参数值和与新的指数值对应的新的第二参数值实质上与增强的第一参数值和当前第二参数值匹配。

Description

编码域中的音频增强
技术领域
本发明涉及话音增强,尤其涉及用于增强编码音频信号的方法和设备。
背景技术
目前,一般利用话音处理DSP(数字信号处理)算法所形成的改善话音质量来区分网络提供商。到分组网或者到具有扩展汇接自由操作(TFO:tandem free operation)或代码转换器自由操作(TrFO:transcoder free operation)的网络的传送会减小这种利用传统话音处理算法来区分网络的能力。因此,通常负责维护其客户的语音质量的运营商同样还要求为编码语音执行话音处理算法。
TFO是配置在GSM(全球移动通信系统)和GSM演化的3G(第三代)网络中的话音标准。它旨在避免移动-移动呼叫配置中的传统双语音编码/译码技术。汇接配置的主要不便之处在于双代码转换所带来的语音质量降质。根据ETSI收听试验,当语音编译码器低速操作时,这种降质通常更明显。此外,较高的背景噪声级别会加大这种降质。
当始发端和终接端连接使用相同的语音编译码器时,可以将从始发端MS(移动台)接收到的语音帧透明地传送到终接端MS,而无需启动始发端和终接端网络中的代码转换功能。
汇接自由操作(TFO)的主要优点在于语音质量的改善,因为它避免了网络中的双代码转换,还可能节省了载送与16kbit/s或8kbit/s的子多路复用方案兼容的压缩语音的PLMN(公共陆地移动网)间的传输链路(包括分组交换传输),还可能节省了网络设备中的处理功率(因为代码转换器单元中的代码转换被旁路),以及可能缩短了端到端传输延迟。
在TFO呼叫配置中,代码转换器装置物理上处在信号通路中,但代码转换功能被旁路。代码转换装置可以执行控制和协议变换功能。另一方面,在代码转换器自由操作(TrFO)中,物理上没有代码转换器装置,因此不启动控制或者变换或与其有关的其他功能。
语音电平是影响语音的可感质量的重要因素。通常在网络端采用一些自动电平控制算法,这些算法通过提高微弱语音的电平和稍微降低一点很大声话音的电平将语音电平调整到某一所期望的目标电平。
在未来的语音以编码格式从发送装置到接收装置进行端到端传播的分组网中,这些方法就不能这样使用。
目前,编码语音在网络中被译码,并且使用传统语音增强方法用线性PCM抽样来执行语音增强。此后,语音再一次被编码并传送到接收方。
然而,例如,对AMR语音编译码器来说,在这些较低模式中电平控制更为困难,这是因为:固定码簿增益(fixed codebook gain)不再被标量量化,而是与自适应码簿增益(adaptive codebookgain)一起被矢量量化。
发明内容
本发明的目的在于,提供一种用于增强编码音频信号的方法和设备,利用这种方法和设备可以克服上述问题并可以改善编码音频信号的增强。
根据本发明的第一方面,通过一种用于增强编码音频信号的设备和方法来达到这一目的,所述编码音频信号包括代表音频信号参数的指数,所述音频信号参数至少包括代表音频信号的第一特性的第一参数和第二参数,包括:
从与第一参数对应的指数确定当前第一参数值;
调整当前第一参数值,以便获得增强的第一特性,从而得到增强的第一参数值;
从进一步与第二参数对应的所述指数确定当前第二参数值;和
从使指数值与第一参数值相关和使指数值与第二参数值相关的表确定新的指数值,从而与新的指数值对应的新的第一参数值和与新的指数值对应的新的第二参数值实质上与增强的第一参数值和当前第二参数值匹配。
根据本发明的第二方面,通过一种用于增强编码音频信号的设备和方法来达到这一目的,所述编码音频信号包括代表音频信号参数的指数,所述音频信号参数至少包括代表音频信号的第一特性的第一参数和背景噪声参数,包括:
从与至少第一参数对应的指数确定当前第一参数值;
调整当前第一参数值,以便获得增强的第一特性,从而得到增强的第一参数值;
从使指数值与至少第一参数值相关的表确定新的指数值,从而与新的指数值对应的新的第一参数值实质上与增强的第一参数值匹配;
检测当前背景噪声参数指数值;和
确定与增强的第一特性对应的新的背景噪声参数指数值。
根据本发明的第三方面,通过一种用于增强编码音频信号的设备和方法来达到这一目的,所述编码音频信号包括代表音频信号参数的指数,包括:
检测音频信号的特性;
检测当前背景噪声参数指数值;和
确定与所检测的音频信号的特性对应的新的背景噪声参数指数值。
本发明还可以体现为计算机程序产品,该产品包括当产品在计算机上运行时用于实现步骤的部分。
根据本发明的一种实施方式,通过处理AMR(自适应多速率)语音编译码器的编码语音和/或噪声参数来增强编码域中的含有语音和/或噪声的编码音频信号。结果,如TFO、TrFO以及未来分组网中那样,即使不将语音变换成线性PCM抽样,也能在网络中实现自适应电平控制、回声控制和噪声抑制。
具体地说,根据本发明的一种实施方式,描述了一种用于控制所有AMR编译码器模式12.2kbit/s、10.2kbit/s、7.95kbit/s、7.40kbit/s、6.70kbit/s、5.90kbit/s、5.15kbit/s和4.75kbit/s的AMR编码语音的电平。在模式12.2kbit/s和7.95kbit/s中,通过改变编码语音参数之一(即固定码簿增益因子的量化指数)来调整编码语音的电平。在其余模式中,固定码簿增益与自适应码簿增益被联合矢量量化,因此,调整编码语音的电平要求既改变固定码簿增益因子又改变自适应码簿增益(联合指数(joint index))。
根据本发明,找出一个新的增益指数,以便使所期望的增益与所实现的有效增益之间的误差最小。所提出的电平控制不会带来可听人为噪声。
因此,根据本发明,在较低的AMR比特率(不仅仅是12.2kbit/s和7.95kbit/s)也能进行电平控制。可以通过考虑所需的对应电平控制来改善AMR模式12.2kbit/s中的电平控制,以得到舒适的噪声电平。
附图说明
图1示出了AMR中语音合成的简化模型。
图2利用嘈杂儿童语音抽样说明了对增益处理算法进行DTX操作的结果。
图3示出了说明自适应码簿对阶跃函数的响应的图解。
图4示出了在模式12.2kbit/s和7.95kbit/s中的固定码簿增益因子的非线性32级量化表。
图5示出了说明图4的量化表中的相邻量化电平之间的差的图解。
图6示出了在模式10.2、7.4和6.7kbit/s中的自适应码簿增益和固定码簿增益的矢量量化表。
图7示出了在模式5.90和5.15bit/s中的自适应码簿增益和固定码簿增益因子的矢量量化表。
图8示出了说明当固定码簿增益因子变化了1个量化步长时固定码簿增益的变化的图解。
图9和10示出了说明固定码簿增益因子的再量化电平的图解。
图11利用男性语音抽样说明了项 的值。
图12利用儿童语音抽样说明了项
Figure A20041008211200124
的值。
图13示出了说明一种根据本发明用于增强编码音频信号的方法的流程图。
图14示出了说明一种根据本发明用于增强编码音频信号的设备的示意框图。
图15示出了说明固定增益的用法的框图。
图16示出了说明本发明在一种媒体网关中的高级实现方式的图解。
具体实施方式
下面,将结合含有语音和/或噪声的AMR编码音频信号来描述本发明的一种实施方式。然而,本发明并不局限于AMR编码,而可以适用于使用与音频信号参数对应的指数的任何音频信号编码技术。例如,这些音频信号参数可以控制合成语音的电平。换言之,本发明可以适用于这样一种音频信号编码技术,在这种技术中,将指示控制音频信号的第一特性的音频信号参数的值的指数作为编码音频信号来发送,其中该指数还可以指示控制另一音频信号特性(如合成语音的音调)的音频信号参数的值。
介绍自适应多速率语音编译码器(AMR),以便方便说明这些优选实施方式。参考文献3GPP TS 26.090 V4.0.0(2001-03),“3rdGeneration Partnership Project;Technical Specification GroupServices and System Aspects;Mandatory Speech Codec speechprocessing functions;AMR speech codec;Transcodingfunctions(Release 4)”,和Kondoz A.M.University of Surrey,UK,“Digital speech coding for low bit rate communicationssystems,”chapter 6:‘Analysis-by-synthesis coding of speech,’pages174-214,John Wiley & Sons,Chichester,1994含有更多的信息。自适应多速率(AMR)语音编译码器基于代码激励的线性预测(CELP)编码模型。它包括8个源编译码器或操作模式,比特率为12.2、10.2、7.95、7.40、6.70、5.90、5.15和4.75kbit/s。AMR编译码器的基本编码和译码原则如下所简述。此外,与参数域增益控制有关的内容将作更详细的讨论。
AMR编码过程包括三个主要步骤:
LPC(线性预测编码)分析:
语音抽样(构形成分(formant))之间的短期相关性用10阶滤波器来模拟和消除。在AMR编译码器中,利用自动相关方法来计算LP系数。再将这些LP系数变换成线谱对(LSP),以便利用相邻子帧之间具有强相关性的LSP的特性进行量化和内插。
音调分析(长期预测):
语音抽样(话音周期(voice periodicity))之间的长期相关性用音调滤波器来模拟和消除。首先利用计算上较廉价的开环方法,根据感知加权输入语音信号估算出音调迟延。然后,围绕开环音调迟延估算,利用闭环分析估算出更精确的音调迟延和音调增益gp,同时允许一小部分的音调迟延。AMR中的音调合成滤波器利用自适应码簿方法来实现,如图1中所示。即,对于给定的整数延时k和相位(部分(fraction))t,通过内插过去的激励信号u(n)计算出自适应码簿矢量v(n):
v ( n ) = Σ i = 0 9 u ( n - k - i ) b 60 ( t + i · 6 ) + Σ i = 0 9 u ( n - k + 1 + i ) b 60 ( 6 - t + i · 6 ) , - - - ( 1.1 )
n=0,....,39,t=0,...5,k=[18,143]
其中b60是基于汉明窗口sin(x)/x函数的内插滤波器。
最佳激励确定(革新激励搜索):
如图1中所示,在译码器中,通过将适当定标的(scaled)自适应和固定码簿矢量加在一起并将其馈入到短期合成滤波器来合成语音。一旦查明LP合成滤波器和音调合成滤波器的参数,就在编码器方利用一种合成分析搜索(analysis-by-synthesis search)过程来选择码簿中的最佳激励序列,在该过程中,根据感知加权失真测量方法使原始与合成语音之间的误差最小。这些革新激励序列由10至2个(随模式而定)振幅为±1的非零脉冲组成。这一搜索过程确定了这些脉冲在40个抽样的子帧中的位置,以及适当的固定码簿增益gp
将CELP模型参数LP滤波器系数、音调参数(即音调滤波器的延时和增益)以及固定码簿矢量和固定码簿增益编码,以便分别传送给LSP指数、自适应码簿指数(音调指数)和自适应码簿(音调)增益指数以及固定码簿指数和固定码簿增益因子指数。
下面,将说明固定码簿增益的量化。
为了使其有效,固定码簿增益量化利用具有固定系数的移动平均(MA)预测来实现。MA预测根据以下革新能量(innovationenergy)来进行。设E(n)为子帧n的去除均值的(mean-removed)革新能量(以dB为单位),它由下式给出:
E ( n ) = 10 log ( 1 N g c 2 Σ i = 0 N - 1 c 2 ( i ) ) - E ‾ , - - - ( 1.2 )
其中N=40为子帧长度,c(i)为固定码簿激励,而E(以dB为单位)为革新能量的均值(与模式相关的常量)。预测能量由下式给出:
E ~ ( n ) = Σ i = 1 4 b i R ^ ( n - i ) , - - - ( 1.3 )
其中[b1 b2 b3 b4]=[0.68 0.58 0.34 0.19]为MA预测系数,而 为子帧k的量化预测误差:
R ^ ( k ) = E ( k ) - E ~ ( k ) . - - - ( 1.4 )
下面,利用公式(1.2)中所示的预测能量(用 代替E(n),并用gc’代替gc)来计算预测固定码簿增益。首先,由下式得到平均革新能量EI
E i = 10 log ( 1 N Σ j = 0 N - 1 c 2 ( j ) ) - - - ( 1.5 )
然后,由下式得到预测增益gc’:
g c ′ = 10 0.05 ( E ~ ( n ) + E ‾ - E I ) . - - - ( 1.6 )
增益gc与估算增益gc’之间的修正因子由下式给出:
γgc=gc/gc′.                     (1.7)
预测误差与修正因子有如下关系:
R ( n ) = E ( n ) - E ~ ( n ) = 20 log ( γ gc ) . - - - ( 1.8 )
在译码器中,将传送的语音参数译码,并合成语音。
固定码簿增益的译码:
如果是标量量化(在模式12.2kbit/s和7.95kbit/s中),译码器接收指向量化表的指数,其给出了量化固定码簿增益修正因子
如果是矢量量化(在所有其他模式中),指数既给出了量化自适应码簿增益
Figure A20041008211200157
又给出了固定码簿增益修正因子
固定码簿增益修正因子以如上所述同样的方法给出固定码簿增益。首先,由下式得到预测能量:
E ~ ( n ) = Σ i = 1 4 b i R ^ ( n - i ) - - - ( 1.9 )
然后,由下式得到平均革新能量:
E I = 10 log ( 1 N Σ j = 0 N - 1 c 2 ( j ) ) . - - - ( 1.10 )
由下式得到预测增益:
g c ′ = 10 0.05 ( E ~ ( n ) + E ‾ - E I ) . - - - ( 1.11 )
最后,由下式得到量化固定码簿增益:
g ^ c = γ ^ gc g c ′ . - - - ( 1.12 )
AMR模式之间存在一些与参数域增益控制有关的差异,列举如下:
在12.2kbit/s模式中,固定码簿增益修正因子γgc用5比特进行标量量化(32个量化电平)。修正因子γgc利用平均能量值 E=36dB来计算。
在10.2kbit/s模式中,固定码簿增益修正因子γgc和自适应码簿增益gp用7比特进行联合矢量量化。修正因子γgc利用平均能量值E=33dB来计算。此外,这种模式还包括固定码簿增益的平滑。译码器中合成所用的固定码簿增益用前5个子帧的固定码簿增益的平滑值来代替。这种平滑基于LSP(线谱对)域中短期谱的平稳性的测量。进行这种平滑是为了避免能量等值线中的非自然波动。
在7.95kbit/s模式中,如模式12.2kbit/s中那样,固定码簿增益修正因子γgc用5比特进行标量量化。修正因子γgc利用平均能量值E=36dB来计算。这种模式包括防稀疏处理。对固定码簿矢量c(n)施加一种自适应防稀疏后处理过程,以便减小由于每个冲激响应只有几个非零抽样的代数固定码簿矢量的稀疏所引起的可感人为噪声。防稀疏处理包括固定码簿矢量与三个预先存储的冲激响应之一的循环卷积。冲激响应的选择可自适应地根据自适应和固定码簿增益来完成。
在7.40kbit/s模式中,如模式10.2kbit/s中那样,固定码簿增益修正因子γgc和自适应码簿增益gp用7比特进行联合矢量量化。修正因子γgc利用平均能量值 E=30dB来计算。
在6.70kbit/s模式中,如模式10.2kbit/s中那样,固定码簿增益修正因子γgc和自适应码簿增益gp用7比特进行联合矢量量化。修正因子γgc利用平均能量值 E=28.75dB来计算。这种模式包括固定码簿增益的平滑和防稀疏处理。
在5.90和5.15kbit/s模式中,固定码簿增益修正因子γgc和自适应码簿增益gp用6比特进行联合矢量量化。修正因子γgc利用平均能量值E=33dB来计算。这些模式包括固定码簿增益的平滑和防稀疏处理。
在4.75kbit/s模式中,固定码簿增益修正因子γgc和自适应码簿增益gp仅每10ms利用一种独特方法进行联合矢量量化,这种独特方法如3GPP TS 26.090 V4.0.0(2001-03),“3rd Generation PartnershipProject;Technical Specification Group Services and System Aspects;Mandatory Speech Codec speech processing functions;AMR speechcodec;Transcoding functions(Release 4)”中所述。这种模式包括固定码簿增益的平滑和防稀疏处理。
断续传输(DTX):
在断续传输(DTX)期间,当不存在语音时,只将平均背景噪声信息以规则间隔发送到译码器,如3GPP TS 26.092 V4.0.0(2001-03),“3rd Generation Partnership Project;Technical SpecificationGroup Services and System Aspects;Mandatory Speech Codecspeech processing functions;AMR speech codec;Comfort noiseaspects(Release 4)”所述。在远端,译码器根据所发送的噪声参数重建背景噪声,从而避免合成语音中背景噪声的非常讨厌的不连续性。
舒适噪声参数、关于背景噪声的电平和谱的信息被编码成一种称为静默描述符(SID)帧的特殊帧,以便传送到接收方。
为了进行参数域增益控制,所关心的是关于背景噪声的电平的信息。如果只在语音帧期间调整增益电平,那么背景噪声电平在只有噪声突发的起点和终点突然变化,如图2中所示。背景噪声的电平变化感觉上使人很讨厌,参见例如Kondoz A.M.,University ofSurrey,UK,“Digital speech coding for low bit rate communicationssystems,”page 336,John Wiley & Sons,Chichester,1994。放大或衰减量越大越令人讨厌。如果调整语音的电平,那么背景噪声的电平也必须作相应调整,以免背景噪声电平的波动。
在发送方,根据下式计算每个标有(话音活动检测)VAD=0的帧的帧能量:
en log ( i ) = 1 2 log 2 ( 1 N Σ n = 0 N - 1 s 2 ( n ) ) , - - - ( 1.13 )
其中s(n)为当前帧i的高通滤波输入语音信号。
由下式计算出平均对数能量:
en log nenn ( i ) = 1 8 Σ n = 0 7 en log ( i - n ) . - - - ( 1.14 )
平均对数帧能量通过6比特算法量化器进行量化。这些用于能量指数的6比特在SID帧中进行发送。
下面,描述参数域中的增益控制。
固定码簿增益gc调整AMR语音编译码器中的合成语音的电平,通过研究公式(1.1)和图1中所示的语音合成模型可以看到这一点。
自适应码簿增益gp控制合成语音的周期性(音调),并限于[0,1.2]之间。如图1中所示,自适应反馈环还将固定码簿增益的结果传送到合成模型的自适应码簿分支中,从而还调整合成语音的有声部分。
固定码簿增益的变化被传送到自适应码簿分支的速度取决于音调延时T和音调增益gp,如图3中所示。音调延时越长且音调增益越高,自适应码簿矢量v(n)达到稳定(达到其对应电平)所用的时间就越长。
对于实际语音信号而言,音调增益和延时是变化的。然而,利用固定音调延时和音调增益进行模拟,在固定码簿增益变化后,会尝试给出关于对自适应码簿的稳定时间的限制的粗略估算。在AMR中,音调延时限定在[18,143]抽样之间,本例中,这也分别对应于高音儿童和低音男性的音调。然而,音调增益的值可能介于[0,1.2]之间。对于零音调增益,自然根本不会有延时。另一方面,音调增益只有在很短的瞬间接收大于等于1的值,以便自适应码簿不会变得不稳定。因此,估算的最大延时为几千个抽样左右,约半秒。
图3示出了作为音调延时T(公式(1.1)中的整数迟延k)和音调增益gp的函数的自适应码簿对阶跃函数(gc的突然变化)的响应。定标固定码簿的输出(gc*c(n))在瞬间0抽样时从0变为0.3。对于本例中的音调延时T和音调增益gp,自适应码簿的输出(因此还有激励信号u(n))在108-5430抽样后达到其对应电平。
在最高比特率模式12.2kbit/s中,固定码簿增益修正因子γgc用5比特进行标量量化,得到32个量化电平,如图4中所示。这种量化是非线性的。量化步长如图5中所示。量化步长介于1.2dB到2.3dB之间。
在模式7.95kbit/s中,使用了同样的量化表。在其他所有模式中,固定码簿增益因子与自适应码簿增益进行联合矢量量化。这些量化表如图6和7中所示。
最低模式4.75kbit/s以一种独特方法来使用矢量量化。在模式4.75kbit/s中,自适应码簿增益gp和修正因子 每10ms用6比特进行联合矢量量化,即两帧的两个码簿增益以及两个修正因子被联合矢量量化。
图5示出了模式12.2kbit/s和7.95kbit/s中的固定码簿增益因子γgc的量化表中的相邻量化电平之间的差。该量化表在指数5与28之间近似于线性。这个范围内的量化步长约为1.2dB。
图6示出了在模式10.2、7.4和6.7kbit/s中的自适应码簿增益和固定码簿增益因子的矢量量化表。绘制该表,以便一个指数值既给出固定码簿增益因子又给出对应的(联合量化的)自适应码簿增益。从图6中可以看出,对于固定码簿增益,约有16个电平可供挑选,而自适应码簿增益则仍然相当固定。
图7示出了在模式5.90和5.15bit/s中的自适应码簿增益和固定码簿增益因子的矢量量化表。同样,绘制该表,以便一个指数值既给出固定码簿增益因子又给出对应的(联合量化的)自适应码簿增益。
如上所述,参数域中的语音电平控制必须通过调整固定码簿增益来实现。具体地说,调整作为发送到远端的语音参数之一的量化固定码簿增益修正因子
下面,将说明固定码簿增益修正因子的放大与固定码簿增益的放大之间的关系。正如前面公式(1.11)和(1.12)中所示,固定码簿增益定义为:
g ^ c ( n ) = γ ^ gc ( n ) · 10 0.05 [ Σ i = 1 4 b i 20 lo g 10 ( γ ^ gc ( n - i ) ) + E ‾ - E I ] - - - ( 2.1 )
如果在子帧n中固定码簿增益修正因子 放大了β倍并且至少在随后4个子帧保持不变,那么,新的量化固定码簿增益为:
g ^ c new ( n ) = β γ ^ gc ( n ) · 10 0.05 [ Σ i = 1 4 b i 20 log 10 ( γ ^ gc ( n - i ) ) + E ‾ - E I ] = β g ^ c old ( n ) . - - - ( 2.2 )
在下一子帧n+1中,新的固定码簿增益为:
g ^ c new ( n + 1 ) = β γ ^ gc ( n + 1 ) · 10 0.05 [ b 1 20 log 10 ( β γ ^ gc ( ( n + 1 ) - 1 ) ) + Σ i = 2 4 b i 20 log 10 ( γ ^ gc ( ( n + 1 ) - i ) ) + E ‾ - E I ] - - - ( 2.3 )
g ^ c new ( n + 1 ) = β γ ^ gc ( n + 1 ) · 10 0.05 [ b 1 20 log 10 ( β ) + Σ i = 1 4 b i 20 log 10 ( γ ^ gc ( ( n + 1 ) - i ) ) + E ‾ - E I ] - - - ( 2.4 )
g ^ c new ( n + 1 ) = β γ ^ gc ( n + 1 ) · 10 0.05 [ b 1 20 log 10 ( β ) ] · 10 0.05 [ Σ i = 1 4 b i 20 log 10 ( γ ^ gc ( ( n + 1 ) - i ) ) + E ‾ - E I ] - - - ( 2.5 )
g ^ c new ( n + 1 ) = β γ ^ gc ( n + 1 ) · β b 1 10 0.05 [ Σ i = 1 4 b i 20 log 10 ( γ ^ gc ( ( n + 1 ) - i ) ) + E ‾ - E I ] - - - ( 2.6 )
g ^ c new ( n + 1 ) = β · β b 1 g ^ c old ( n + 1 ) . - - - ( 2.7 )
以同样的方法,在随后的子帧n+2,...,n+4中,放大的固定码簿增益为:
g ^ c new ( n + 2 ) = β · β b 1 · β b 2 g ^ c old ( n + 2 ) - - - ( 2.8 )
...
g ^ c new ( n + 4 ) = β ( 1 + b 1 + b 2 + b 3 + b 4 ) · g ^ c old ( n + 4 ) . - - - ( 2.9 )
由于预测系数为[b1 b2 b3 b4]=[0.68 0.58 0.34 0.19],因此,5个子帧之后,固定码簿增益将稳定成下列值:
g ^ c new ( n + 4 ) = β 2.79 · g ^ c old ( n + 4 ) . - - - ( 2 . 10 )
换言之,固定码簿增益因子放大β倍将使固定码簿增益(因此还有合成语音)与β2.79倍相乘(假定,β至少在其后4个子帧期间保持不变)。
因此,例如在AMR模式12.2kbit/s和7.95kbit/s中,固定码簿增益因子的最小变化(最小量化步长)±1.2dB将导致在固定码簿增益中并因此在合成语音信号中有±3.4dB的变化,如下所示。
20log10β=1.2dBβ=1.15
                                 (2.11)
20log102.79)=3.4dB
合成语音电平的这一±3.4dB的变化是逐渐形成的,如图8中所示。
图8示出了当固定码簿增益因子(在线性量化范围内)变化了1个量化步长时固定码簿增益(AMR 12.2kbit/s)的变化,先在子帧6上升然后在子帧16下降。固定码簿增益因子的1.2dB放大(或衰减)在5帧期间(200个抽样)逐渐地将固定码簿增益放大(或衰减)3.4dB。
因此,编码语音的参数电平增益控制可以通过改变固定码簿增益因子的指数值来实现。也就是说,比特流中的指数值用一个给出了所期望的放大/衰减的新值来代替。与AMR模式12.2kbit/s的指数变化对应的增益值如下表所列。
表I:AMR 12.2kbit/s的参数电平增益值
[00010]固定码簿增益因子指数值的变化   [00011]得到的语音信号的放大/衰减
    [00012]       [00013]   
    [00014]  +4     [00015]   13.6dB
    [00016]  +3     [00017]   10.2dB
    [00018]  +2     [00019]   6.8dB
    [00020]  +1     [00021]   3.4dB
    [00022]   0     [00023]   0dB
    [00024]  -1     [00025]  -3.4dB
    [00026]  -2     [00027]  -6.8dB
    [00028]  -3     [00029]  -10.2dB
    [00030]  -4     [00031]  -13.6dB
    [00032]       [00033]   
[00034]
然后,通过考虑固定码簿增益因子量化的非线性特性,描述所期望的总增益的变化的正确指数的搜索。
通过使下列误差最小化,得到与所期望的语音信号的放大/衰减对应的新的固定码簿增益因子量化指数:
| β · γ ^ gc old - γ ^ gc new | , - - - ( 2.12 )
其中 是老的和新的固定码簿增益修正因子,而β是所期望的乘数:
β=Δj,j=[...-4,-3,...0...+3,+4,...],Δ=最小量化步长(在AMR12.2kbit/s中为1.15)。注意,语音信号按β2.79进行放大/衰减。
图9示出了在利用上述误差最小化过程所达到的+3.4,+6.8,+10.2,+13.6和+17.0dB信号放大情况下的再量化电平。图10还示出了信号衰减情况下的量化电平。这两个图都是针对AMR模式12.2kbit/s所示出的量化电平。
图9中,最低的那条曲线表示固定码簿增益因子的原始量化电平。次最低的那条曲线表示在+3.4dB信号电平放大情况下固定码簿增益因子的再量化电平,而随后的曲线分别表示在+6.8,+10.2,+13.6和+17dB信号电平放大情况下固定码簿增益因子的再量化电平。
图10示出了在-17,-13.6,...,-3.4,0,+3.4,...,+13.6,+17dB信号放大情况下固定码簿增益因子的再量化电平。中间的那条曲线表示固定码簿增益因子的原始量化电平。
在AMR模式10.2kbit/s、7.40kbit/s、6.70kbit/s、5.90kbit/s、5.15kbit/s和4.75kbit/s中,公式2.12用下式代替:
| β · γ ^ gc old - γ ^ gc new | + weight · | g p _ new - g p _ old | , - - - ( 2.13 )
其中weight≥1,而gp_new和gp_old分别是新的和老的自适应码簿增益。
换言之,在模式12.2kbit/s和7.95kbit/s中,按照使公式(2.12)中给出的误差最小化的指数得到新的固定码簿增益因子指数。在模式10.2kbit/s、7.40kbit/s、6.70kbit/s、5.90kbit/s、5.15kbit/s和4.75kbit/s中,按照使公式(2.13)中给出的误差最小化的指数得到矢量量化固定码簿增益因子和自适应增益的新的联合指数。公式(2.13)的基本原理是使得能够改变固定码簿增益因子,而不会在自适应码簿增益中引进可听误差。图6示出了不同指数值时的矢量量化固定码簿增益因子和自适应码簿增益。从图6中可以看出,存在着改变固定码簿增益因子,而不必过分改变自适应码簿增益的可能性。
如上所述,在模式4.75kbit/s中,自适应码簿增益gp和修正因子每10ms用6比特进行联合矢量量化,即两个子帧的两个码簿增益以及两个修正因子被联合矢量量化。码簿搜索通过使两个子帧中每个的误差判据的加权和最小化来完成。加权因子的缺省值为1。如果第二子帧的能量大于第一子帧的能量的两倍,那么,第一子帧的权重设置为2。如果第一子帧的能量大于第二子帧的能量的四倍,那么,每二子帧的权重设置为2。不论这些差别如何,模式4.75kbit/s都能用上述矢量量化方式来处理。
因此,根据上述实施方式,可以根据各种模式的量化表来确定按照公式(2.12)或(2.13)使所期望的增益 (增强的第一参数值)与所实现的有效增益 (新的第一参数值)之间的误差最小的新的增益指数(新的指数值)。新的固定码簿增益修正因子(以及在除了12.2kbit/s和7.95kbit/s之外的模式的情况下的新的自适应码簿增益)与所确定的新的增益指数对应。然后,用新的增益指数来代替表示老的固定码簿增益修正因子 (当前第一参数值)(以及在除了12.2kbit/s和7.95kbit/s之外的模式的情况下的老的自适应码簿增益gp_old(当前第二参数值))的老的增益指数(当前指数值)。
下面,将描述用于提供改进型增益精度的其他一些方法。首先,说明如果增益在5个连续子帧期间没有保持不变的话如何表达所期望的总增益。
如上所述,在AMR编译码器中,利用固定码簿增益因子γgc对固定码簿增益进行编码。利用增益修正因子对预测固定码簿增益gc’进行定标,以获得固定码簿增益gc,即
g c = γ gc g c ′ ⇒ γ gc = g c g c ′ .
固定码簿增益预测如下:
g c ′ ( n ) = 10 0.05 [ Σ i = 1 4 b i 20 log 10 ( γ ^ gc ( n - i ) ) + E ‾ - E I ] - - - ( 3.1 )
其中 E是与模式相关的能量值(以dB为单位),而EI是固定码簿激励能量(以dB为单位)。
为了获得所期望的总信号增益α,必须将量化固定码簿修正因子乘以修正因子增益β。所实现的修正因子增益表示为
Figure A20041008211200246
i>0。通过在子帧n中将固定码簿修正因子
Figure A20041008211200247
放大β(n)倍,新的量化固定码簿增益为:(注意,预测gc’取决于修正增益的历史,如公式2.14中所示)
g ^ c new ( n ) = β ( n ) γ ^ gc ( n ) g c ′ new ( n )
g ^ c new ( n ) = β ( n ) γ ^ gc ( n ) · 10 0.05 [ Σ i = 1 4 b i 20 log 10 ( β · ( n - i ) γ · gc ( n - i ) ) + E ‾ - E I ]
g ^ c new ( n ) = β ( n ) γ ^ gc ( n ) · 10 Σ i = 1 4 b i log 10 ( β · ( n - i ) γ · gc ( n - i ) ) + 0.05 E ‾ - 0.05 E I
g ^ c new ( n ) = β ( n ) γ ^ gc ( n ) · 10 Σ i = 1 4 b i ( log 10 ( β · ( n - i ) ) + log 10 ( γ · gc ( n - i ) ) ) + 0.05 E ‾ - 0.05 E I
g ^ c new ( n ) = β ( n ) γ ^ gc ( n ) · 10 Σ i = 1 4 b i log 10 ( β · ( n - i ) ) 10 Σ i = 1 4 b i log 10 ( γ · gc ( n - i ) ) + 0.05 E ‾ - 0.05 E I
g ^ c new ( n ) = β ( n ) · 10 Σ i = 1 4 b i log 10 ( β · ( n - i ) ) · γ ^ gc ( n ) · 10 0.05 [ Σ i = 1 4 b i 20 log 10 ( γ · gc ( n - i ) ) + E ‾ - E I ]
g ^ c new ( n ) = β ( n ) · 10 Σ i = 1 4 b i log 10 ( β · ( n - i ) ) · γ ^ gc ( n ) g c ′ ( n )
因此,利用所实现的因子增益
Figure A20041008211200258
所得到的新预测可以写成: g c ′ new = 10 Σ i = 1 4 b i log 10 ( β · ( n - i ) ) g c ′ .
此外:
g ^ c new ( n ) = β ^ ( n ) · 10 Σ i = 1 4 b i log 10 ( β · ( n - i ) ) · γ ^ gc ( n ) g c ′ ( n )
g ^ c new ( n ) = 10 log 10 β · ( n ) · 10 Σ i = 1 4 b i log 10 ( β · ( n - i ) ) · γ ^ gc ( n ) g c ′ ( n )
g ^ c new ( n ) = 10 Σ i = 0 4 b i log 10 ( β · ( n - i ) ) · γ ^ gc ( n ) g c ′ ( n ) , b o = 1
g ^ c new ( n ) = αg c ( n ) .
即,当前子帧的目标修正因子增益可以写成:
α = 10 Σ i = 0 4 b i log 10 ( β · ( n - i ) ) ⇔ β ^ ( n ) = α 10 Σ i = 1 4 b i log 10 ( β · ( n - i ) ) .
如果β(n)保持不变,那么总增益在5个子帧之后稳定成下列值:
α = 10 Σ i = 0 4 b i log 10 ( β · ) = 10 log 10 ( β · ) Σ i = 0 4 b i = β ^ Σ i = 0 4 b i = β ^ 2.79 ⇔ β ^ = α 1 0.79 = a ,
这是因为,预测系数为b=[1,0.68,0.58,0.34,0.19]。
下面将描述上述增益处理的第一备选方案,该第一备选方案称为合成误差最小化(合成方法)。
根据该合成方法的算法尽可能多地遵循如下针对标量量化给出的原始误差判据:
E SQ = ( g c - g ^ c ) 2 = ( g c - γ ^ gc g c ′ ) 2 ,
其中ESQ是固定码簿量化误差,而gc是目标固定码簿增益。如前面所述,目的是要用所期望的总增益 g c new = α g ^ c 对固定码簿增益进行定标(scale)。因此,为了进行CDALC(编码域自动电平控制),必须用所期望的增益对这一目标进行定标,即:
E SQ = ( α g ^ c - γ ^ gc new g c ′ new ) 2 . - - - ( 3.2 )
在矢量量化中,音调增益gp和固定码簿修正因子
Figure A20041008211200264
被联合量化。在AMR编码器中,通过使下式所定义的量化误差EVQ最小化来得到矢量量化指数:
E VQ = | | x - g ^ p y - g ^ c z | | ,
其中x、y和z分别是目标矢量、加权LP滤波的自适应码簿矢量和加权LP滤波的固定码簿矢量。误差判据实际上是目标与合成语音之间的感知加权误差的范数。在标量量化过程之后,用定标形式来代替目标矢量,即:
E VQ = | | ( g ^ p y new + α g ^ c z ) - g ^ p new y new - g ^ c new z | | . - - - ( 3.3 )
下面,将描述标量量化的合成方法。
从AMR编码器中所用的公式3.2开始可以得到最小化判据,并由下式给出:
E SQ = ( αg c - γ ^ gc new g c ′ new ) 2 .
不幸的是不能直接得到gc,不过,可以用 g c ≈ γ ^ gc g c ′ 来近似,因此,标量量化的第一CDALC误差判据可以写成:
E SQ = ( α γ ^ gc g c ′ - γ ^ gc new g c ′ new ) 2
E SQ = ( α γ ^ gc g c ′ - γ ^ gc new 10 Σ i = 1 4 b i log 10 ( β · ( n - i ) ) g c ′ ) 2
E SQ = g c ′ 2 ( α γ ^ gc - 10 Σ i = 1 4 b i log 10 ( β · ( n - i ) ) γ ^ gc new ) 2 ⇔ - - - ( 3.4 )
E SQ ′ = | α γ ^ gc - 10 Σ i = 1 4 b i log 10 ( β · ( n - i ) ) γ ^ gc new |
其中 是所实现的子帧(n-i)的修正因子增益,即
β ^ ( n - i ) = γ ^ gc new ( n - i ) γ ^ gc ( n - i ) .
这一误差判据便于评估,并且只须对固定码簿修正因子进行译码。此外,需要将4个先前实现的修正因子增益保存在存储器中。
下面,将描述矢量量化的合成方法。
对于矢量量化情况,AMR编码器中所用的误差判据更为复杂,这是因为使用了合成滤波器。鉴于不能直接得到目标x,因此用来近似。于是,CDALC的误差最小化成为:
E VQ = | | x new - g ^ p new y new - g ^ c new z | |
E VQ = | | ( g ^ p αy + α g ^ c z ) - g ^ p new αy - g ^ c new z | |
E VQ = | | ( g ^ p - g ^ p new ) αy + ( α g ^ c - g ^ c new ) z | | - - - ( 3.5 )
E FQ = | | ( g ^ p - g ^ p new ) αy + ( α γ ^ gc g c ′ - γ ^ gc new g c ′ new ) z | |
E VQ = | | ( g ^ p - g ^ p new ) αy + g c ′ ( α γ ^ gc - γ ^ gc new 10 Σ i = 1 4 b i log 10 ( β · ( n - i ) ) ) z | | .
除了对这些增益进行译码外,还必须对两个码簿矢量进行译码并用LP合成滤波器滤波。因此,必须对LP合成滤波器参数进行译码。这意味着,基本上必须对所有参数都进行译码。在AMR编码器中,还要用特定的加权滤波器对这些码簿矢量进行加权,但这不能针对CDALC误差判据来完成。
下面,将描述增益处理的第二备选方案,该第二备选方案称为利用存储器进行量化误差最小化(存储器方法)。
这一判据使量化误差最小化,同时考虑以前的判据因子的历史。在标量量化情况下,误差判据与第一备选方案中的情况相同,即所要最小化的误差函数与公式3.4中的情况一样。但对于矢量量化情况,误差函数不太容易评估。
矢量量化:
从第一备选方案所得出的并由公式3.5中给出的误差函数开始,要使两个组成部分的和的误差最小化,需要对y和x矢量进行译码。实际上,这意味着,必须对整个信号进行译码。代替使误差矢量的范数最小化的方法,该误差可以用两个误差组成部分(即音调增益误差和固定码簿增益误差)的和来近似(如果两个矢量y和x相互并行的话就是这种情况)。利用欧几里德范数组合这些组成部分,新的误差判据可写成:
E V Q ′ = | | ( g ^ p - g ^ p new ) αy | | 2 + | | g c ′ ( α γ ^ gc - g ^ gc new 10 Σ i = 1 4 b i log 10 ( β · ( n - i ) ) ) z | | 2
E V Q ′ = | g ^ p - g ^ p new | 2 | | αy | | 2 + | α γ ^ gc - γ ^ gc new 10 Σ i = 1 4 b i log 10 ( β · ( n - i ) ) | 2 g c ′ 2 | | z | | 2 ⇒ - - - - - - ( 3.6 )
E V Q ′ ′ = | g ^ p - g ^ p new | 2 ( α | | y | | g c ′ | | z | | ) 2 + | α γ ^ gc - γ ^ gc new 10 Σ i = 1 4 b i log 10 ( β · ( n - i ) ) | . 2
前面的公式(公式3.5)中的和可以分为两个组成部分。然而,合成码簿矢量仍存在于音调增益误差定标项
Figure A20041008211200284
中。鉴于这一合成,音调增益误差定标项计算起来变得复杂。如果对它进行计算,那么,利用第一备选方案中所述的合成误差最小化判据将更为有效。为了免除合成过程,用常量音调增益误差权重wgp来代替项
Figure A20041008211200285
音调增益误差权重必须谨慎选择。如果权重选择过大,那么信号电平将根本不变,因为通过选择gp new=gp可以得到最低的误差。另一方面,小权重将保证所期望的码簿增益α,但无法保证gp,即:
Figure A20041008211200291
Figure A20041008211200292
这种利用固定音调增益权重的算法要求对音调增益和修正因子
Figure A20041008211200293
这两者进行译码(根据接收到的量化指数求出一个值),还要求重建固定码簿增益预测gc′。为了能建立这一预测,必须对固定码簿矢量进行译码。此外,需要整数音调迟延,以达到固定码簿激励的音调锐化。预测时需要固定码簿激励的能量(参见公式3.1)。必要的话,预测可以包含在固定权重中,即 W p g = | | y | | g c ′ | | z | | . 此后,不必对固定码簿矢量进行译码。也许,这可能对性能影响不大。另一方面,还可以估算固定码簿激励的能量,因为该能量是相当稳定的。这使得无需对固定码簿矢量进行译码就能建立预测。
根据采用AMR模式12.2kbit/s的男性和儿童语音抽样,项 的范围如图11和12中所示。其值主要取决于信号的能量。因此,最好使音调增益误差权重Wpg自适应,而不使用常量值。例如,可以用短时信号能量来确定该值。
图13示出了一种用来总体说明根据本发明增强编码音频信号(包括编码语音和/或编码噪声)的方法的流程图。编码音频信号包括表示语音参数和/或噪声参数的指数,这些参数包括用于调整音频信号的第一特性的至少第一参数,比如合成语音的/或噪声的电平。
在图13的步骤S1中,根据与至少第一参数(例如固定码簿增益修正因子 )对应的指数确定当前第一参数值。在步骤S2中,调整当前第一参数值,例如乘以a,以便获得增强的第一特性,从而得到增强的第一参数值 最后,在步骤S3中,根据使指数值与至少第一参数值关联的表(例如量化表)确定新的指数值,这样,与新的指数值对应的新的第一参数值实质上与增强的第一参数值匹配。
根据上述实施方式,搜索
Figure A20041008211200301
的新的指数值,从而使式子 | a · γ ^ gc old - γ ^ gc new | 最小化,
Figure A20041008211200303
是与所搜索的新的指数值对应的新的第一参数值。
此外,根据本发明,可以根据进一步与第二参数(比如控制语音的第二特性的自适应码簿增益)对应的该指数确定当前第二参数值。在这种情况下,可根据进一步使指数值与第二参数值关联的表(例如矢量量化表)确定新的指数值,这样,与新的指数值对应的新的第二参数值实质上与当前第二参数值匹配。
根据上述实施方式,搜索 和gp_old的新的指数值,从而使式子 · γ ^ gc old - γ ^ gc new | + weight · | g p _ new - g p _ old | 最小化。gp_new是与新的指数值对应的新的第二参数值。
“weight”可以大于等于1,这样,可以根据表确定新的指数值,使得实质上与当前第二参数值匹配优先。
图14示出了说明一种根据本发明用于增强编码音频信号的设备100的示意框图。该设备接收含有表示语音和/或编码噪声参数的指数的编码音频信号,这些参数包括用于调整音频信号的第一特性的至少第一参数。该设备包括:参数值确定块11,用于根据与至少第一参数对应的指数确定当前第一参数值;调整块12,用于调整当前第一参数值,以便获得增强的第一特性,从而得到增强的第一参数值;和指数值确定块13,用于根据使指数值与至少第一参数值关联的表确定新的指数值,这样,与新的指数值对应的新的第一参数值实质上与增强的第一参数值匹配
参数值确定块11还可以根据进一步与第二参数对应的指数确定当前第二参数值,此时指数值确定块13可以根据进一步使指数值与第二参数值关联的表确定新的指数值,这样,与新的指数值对应的新的第二参数值实质上与当前第二参数值匹配。因此,可以同时为这两个第一和第二参数优化指数值。
指数值确定块13可以根据表确定新的指数值,使得实质上与当前第二参数值匹配优先。
设备100还可以包括用所确定的新的指数值代替与至少第一参数对应的指数的当前值的代替装置,并输出含有新的指数值的增强的编码语音。
参照图13和14,第一参数值可以是背景噪声电平参数值,它可以被确定和调整,并且可以为它确定新的指数值以便调整背景噪声电平。
或者,第二参数值可以是背景噪声电平参数,它的指数值可以根据所调整的语音电平来确定。
如先前所讨论,语音电平处理还要求处理DTX中的语音暂停期间的背景噪声电平参数。
根据AMR编译码器,背景噪声电平参数(平均对数帧能量)用6比特进行量化。通过改变能量指数值可以调整舒适噪声电平。该电平可以按1.5dB来调整,因此,可以得到合适的与语音电平的变化对应的舒适噪声电平。
所评估的舒适噪声参数(平均LSF(线谱频率)参数矢量fmean和平均对数帧能量enlog mean)被编码成一种称为静默描述符(SID)帧的特殊帧,以便传送到接收方。这些参数给出了关于背景噪声的电平(enlog mean)和谱(fmean)的信息。具体细节参见3GPP TS26.093 V4.0.0(2001-03),“3rd Generation Partnership Project;Technical Specification Group Services and System Aspects;Mandatory Speech Codec speech processing functions;AMR speechcodec;Source controlled rate operation(Release 6)”。
根据下式计算每个标有话音活动检测VAD=0的帧的帧能量:
en log ( i ) = 1 2 log 2 ( 1 N Σ n = 0 N - 1 x 2 ( n ) ) ,
其中x为当前帧i的HP滤波输入语音信号。由下式计算出将要发送的平均对数能量:
en log menn ( i ) = 1 8 Σ m = 0 7 en log ( i - m ) .
平均对数帧能量通过6比特算法量化器进行量化。利用3GPP TS26.104 V4.1.0 2001-06,“AMR Floating-point Speech Codec C-source”中所定义的量化函数执行量化。
Figure A20041008211200321
其中指数的值被限定在范围[0...63]内,即在6比特的范围内。该指数可以利用以10为底的对数计算如下:
Figure A20041008211200323
Figure A20041008211200324
其中10log10enmean(i)是以分贝为单位的能量。因此,表明1个量化步长约相当于1.5dB。
下面,描述舒适噪声参数的增益调整。
由于发送了能量参数,因此,通过改变能量参数可以直接处理信号能量。如上所述,1个量化步长等于1.5dB。假定SID更新间隔的所有8帧用α来定标,那么可用下式得到新的指数:
Figure A20041008211200325
由于老的指数为:
因此,新的指数用下式来近似:
再参照图13和14,所要调整的参数值可以是舒适噪声参数值。对应地,按如上所述来确定新的指数值indexnew。换言之,可以检测当前背景噪声参数指数值index,然后可以将当前背景噪声参数指数值index加上
Figure A20041008211200328
确定新的背景噪声参数指数值indexnew,其中α对应于第一语音参数所表示的第一特性的增强。
合成语音信号的电平可以通过处理前面所述的固定码簿增益因子指数来调整。虽然作为预测误差的量度,但固定码簿增益因子指数并不发现语音信号的电平。因此,为了控制增益处理,即为了判断是否应改变电平,必须首先估算出语音信号电平。
在TFO中,PCM语音抽样(未压缩)的6或7个MSB不变地被发送到远端,以有利于无缝TFO中断。这6或7个MSB可以用来估算语音电平。
如果这些PCM语音抽样不能利用,那么必须对编码语音信号进行至少部分译码(未必进行后滤波),以估算语音电平。
或者,可以利用固定增益,从而避免完全译码。图15示出了说明可以利用上述增益处理中的固定增益的方案的框图。在这种情况下,不需要从编译码器信号中译码PCM信号,以在增益估算(即语音电平估算)中使用PCM信号。语音可以利用例如AMR、AMR-WB(AMR宽带)、GSM FR、GSM FFR、GSM HR语音编译码器来编码。
图16示出了本发明在3G网络体系结构的MGW(媒体网关)中的高级实施例。例如,本发明可以在MGW的DSP(数字信号处理器)中实现。然而,应当注意,本发明的实现方式并不局限于MGW。
如图16中所示,编码语音输入到MGW。该编码语音包括至少一个与调整合成语音的电平的语音参数的值对应的指数。这一指数还可以指示受调整合成语音的电平的语音参数影响的另一语音参数的值。例如,该另一语音参数调整合成语音的周期性或音调。
在图16中所示的VED(话音增强设备)中,指数可以受控,以便将语音的电平调整到所期望的电平。通过使所期望的电平与所实现的有效电平之间的误差最小化,可以确定指示影响语音的电平的语音参数(比如,固定码簿增益因子和自适应码簿增益)的值的新指数值。结果,得到指示实现所期望的语音的电平的语音参数的值的新指数。原始指数用新指数来代替,并输出增强的编码语音。
应当注意,图16中所示的语音的部分译码涉及到用于确定语音的当前电平,以判断是否应当调整该电平的控制装置。
本发明的上述实施方式不仅可以用于电平控制本身,而且还可以用于编码域中的噪声抑制和回声控制(非线性处理)。噪声抑制可以通过例如调整语音暂停期间的舒适噪声电平来使用上述技术。回声控制可以通过例如衰减回声突发期间的语音信号来使用上述技术。
本发明并不只局限于TFO和TrFO话音通信和通过分组交换网的话音通信,而是总体上包括增强编码音频信号。本发明还可以应用于增强例如与音频/语音/多媒体流式应用有关以及与MMS(多媒体消息接发业务)应用有关的编码音频信号。
应当注意,以上所述举例说明了本发明,而不能解释为限制本发明。对熟练技术人员而言,在不背离附属权利要求书所规定的本发明的范围的前提下,还可以有各种修改和应用。

Claims (22)

1.一种用于增强编码音频信号的方法,所述编码音频信号包括代表音频信号参数的指数,所述音频信号参数至少包括代表音频信号的第一特性的第一参数和第二参数,该方法包括下列步骤:
从与第一参数对应的指数确定当前第一参数值;
调整当前第一参数值,以便获得增强的第一特性,从而得到增强的第一参数值;
从进一步与第二参数对应的所述指数确定当前第二参数值;和
从使指数值与第一参数值相关和使指数值与第二参数值相关的表确定新的指数值,从而与新的指数值对应的新的第一参数值和与新的指数值对应的新的第二参数值基本上与增强的第一参数值和当前第二参数值匹配。
2.一种用于增强编码音频信号的方法,所述编码音频信号包括代表音频信号参数的指数,所述音频信号参数至少包括代表音频信号的第一特性的第一参数和背景噪声参数,该方法包括下列步骤:
从与至少第一参数对应的指数确定当前第一参数值;
调整当前第一参数值,以便获得增强的第一特性,从而得到增强的第一参数值;
从使指数值与至少第一参数值相关的表确定新的指数值,从而与新的指数值对应的新的第一参数值基本上与增强的第一参数值匹配;
检测当前背景噪声参数指数值;和
确定与增强的第一特性对应的新的背景噪声参数指数值。
3.如权利要求1所述的方法,还包括下列步骤:
用所确定的新的指数值代替与至少第一参数对应的指数的当前值。
4.如权利要求1所述的方法,还包括下列步骤:
检测当前背景噪声参数指数值;和
确定与第一增强的特性对应的新的背景噪声参数指数值。
5.如权利要求1所述的方法,还包括下列步骤:从所述表确定新的指数值,使得当前第二参数值的基本匹配优先。
6.如权利要求2所述的方法,还包括下列步骤:
用所确定的新的指数值代替与第一参数对应的指数的当前值。
7.一种用于增强编码音频信号的设备,所述编码音频信号包括代表音频信号参数的指数,所述音频信号参数至少包括代表音频信号的第一特性的第一参数和第二参数,该设备包括:
参数值确定装置,用于从与第一参数对应的指数确定当前第一参数值,并用于从进一步与第二参数对应的所述指数确定当前第二参数值;
调整装置,用于调整当前第一参数值,以便获得增强的第一特性,从而得到增强的第一参数值;和
指数值确定装置,用于从使指数值与第一参数值相关和使指数值与第二参数值相关的表确定新的指数值,其中与新的指数值对应的新的第一参数值和与新的指数值对应的新的第二参数值基本上与增强的第一参数值和当前第二参数值匹配。
8.一种用于增强编码音频信号的设备,所述编码音频信号包括代表音频信号参数的指数,所述音频信号参数至少包括代表音频信号的第一特性的第一参数和背景噪声参数,该设备包括:
参数值确定装置,用于从与至少第一参数对应的指数确定当前第一参数值;
调整装置,用于调整当前第一参数值,以便获得增强的第一特性,从而得到增强的第一参数值;
指数值确定装置,用于从使指数值与至少第一参数值相关的表确定新的指数值,从而与新的指数值对应的新的第一参数值基本上与增强的第一参数值匹配;
检测装置,用于检测当前背景噪声参数指数值;和
确定装置,用于确定与增强的第一特性对应的新的背景噪声参数指数值。
9.如权利要求7所述的设备,还包括:
代替装置,用于用所确定的新的指数值代替与至少第一参数对应的指数的当前值。
10.如权利要求7所述的设备,还包括:
检测装置,用于检测当前背景噪声参数指数值;和
确定装置,用于确定与增强的第一特性对应的新的背景噪声参数指数值。
11.如权利要求7所述的设备,其中指数值确定装置被配置为从所述表确定新的指数值,使得基本上匹配当前第二参数值优先。
12.如权利要求8所述的设备,还包括:
代替装置,用于用所确定的新的指数值代替与第一参数对应的指数的当前值。
13.一种用于增强编码音频信号的方法,所述编码音频信号包括代表音频信号参数的指数,该方法包括下列步骤:
检测音频信号的特性;
检测当前背景噪声参数指数值;和
确定与所检测的音频信号的特性对应的新的背景噪声参数指数值。
14.一种用于增强编码音频信号的设备,所述编码音频信号包括代表音频信号参数的指数,该设备包括:
检测装置,用于检测音频信号的特性;
检测装置,用于检测当前背景噪声参数指数值;和
确定装置,用于确定与所检测的音频信号的特性对应的新的背景噪声参数指数值。
15.一种用于增强编码音频信号的方法,所述编码音频信号包括代表音频信号参数的指数,所述音频信号参数至少包括代表音频信号的第一特性的第一参数、第二参数和背景噪声参数,该方法包括下列步骤:
从与第一参数对应的指数确定当前第一参数值;
调整当前第一参数值,以便获得增强的第一特性,从而得到增强的第一参数值;
从进一步与第二参数对应的所述指数确定当前第二参数值;和
从使指数值与第一参数值相关和使指数值与第二参数值相关的表确定新的指数值,从而与新的指数值对应的新的第一参数值和与新的指数值对应的新的第二参数值基本上与增强的第一参数值和当前第二参数值匹配;
检测当前背景噪声参数指数值;和
确定与增强的第一特性对应的新的背景噪声参数指数值。
16.一种用于增强编码音频信号的设备,所述编码音频信号包括代表音频信号参数的指数,所述音频信号参数至少包括代表音频信号的第一特性的第一参数、第二参数和背景噪声参数,该设备包括:
参数值确定装置,用于从与第一参数对应的指数确定当前第一参数值,并用于从进一步与第二参数对应的所述指数确定当前第二参数值;
调整装置,用于调整当前第一参数值,以便获得增强的第一特性,从而得到增强的第一参数值;和
指数值确定装置,用于从使指数值与第一参数值相关和使指数值与第二参数值相关的表确定新的指数值,使得与新的指数值对应的新的第一参数值和与新的指数值对应的新的第二参数值基本上与增强的第一参数值和当前第二参数值匹配;
检测装置,用于检测当前背景噪声参数指数值;和
确定装置,用于确定与增强的第一特性对应的新的背景噪声参数指数值。
17.一种计算机程序产品,包括当产品在计算机上运行时用于执行用于增强编码音频信号的步骤的部分,所述编码音频信号包括代表音频信号参数的指数,所述音频信号参数至少包括代表音频信号的第一特性的第一参数和第二参数,所述步骤包括:
从与第一参数对应的指数确定当前第一参数值;
调整当前第一参数值,以便获得增强的第一特性,从而得到增强的第一参数值;
从进一步与第二参数对应的所述指数确定当前第二参数值;和
从使指数值与第一参数值相关和使指数值与第二参数值相关的表确定新的指数值,从而与新的指数值对应的新的第一参数值和与新的指数值对应的新的第二参数值基本上与增强的第一参数值和当前第二参数值匹配。
18.如权利要求17所述的计算机程序产品,其中所述计算机程序产品包括保存有所述软件代码部分的计算机可读媒体。
19.如权利要求17所述的计算机程序产品,其中所述计算机程序产品可直接装载到计算机的内部存储器中。
20.一种计算机程序产品,包括当该产品在计算机上运行时用于执行用于增强编码语音信号的步骤的软件代码部分,所述编码音频信号包括代表音频信号参数的指数,所述音频信号参数至少包括代表音频信号的第一特性的第一参数和背景噪声参数,所述步骤该包括:
从与至少第一参数对应的指数确定当前第一参数值;
调整当前第一参数值,以便获得增强的第一特性,从而得到增强的第一参数值;
从使指数值与至少第一参数值相关的表确定新的指数值,从而与新的指数值对应的新的第一参数值基本上与增强的第一参数值匹配;
检测当前背景噪声参数指数值;和
确定与增强的第一特性对应的新的背景噪声参数指数值。
21.一种计算机程序产品,包括当该产品在计算机上运行时用于执行增强编码音频信号的步骤的软件代码部分,所述编码音频信号包括代表音频信号参数的指数,所述步骤包括:
检测音频信号的特性;
检测当前背景噪声参数指数值;和
确定与所检测的音频信号的特性对应的新的背景噪声参数指数值。
22.一种计算机程序产品,包括当该产品在计算机上运行时用于执行增强编码语音信号的步骤的软件代码部分,所述编码音频信号包括代表音频信号参数的指数,所述音频信号参数至少包括代表音频信号的第一特性的第一参数、第二参数和背景噪声参数,所述步骤包括:
从与第一参数对应的指数确定当前第一参数值;
调整当前第一参数值,以便获得增强的第一特性,从而得到增强的第一参数值;
从进一步与第二参数对应的所述指数确定当前第二参数值;和
从使指数值与第一参数值相关和使指数值与第二参数值相关的表确定新的指数值,从而与新的指数值对应的新的第一参数值和与新的指数值对应的新的第二参数值基本上与增强的第一参数值和当前第二参数值匹配;
检测当前背景噪声参数指数值;和
确定与增强的第一特性对应的新的背景噪声参数指数值。
CNB2004100821122A 2003-12-18 2004-12-15 编码域中的音频增强的方法和设备 Expired - Fee Related CN100369108C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP03029182 2003-12-18
EP03029182.7 2003-12-18
US10/803,103 2004-03-18
US10/803,103 US7613607B2 (en) 2003-12-18 2004-03-18 Audio enhancement in coded domain

Publications (2)

Publication Number Publication Date
CN1667703A true CN1667703A (zh) 2005-09-14
CN100369108C CN100369108C (zh) 2008-02-13

Family

ID=35038754

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100821122A Expired - Fee Related CN100369108C (zh) 2003-12-18 2004-12-15 编码域中的音频增强的方法和设备

Country Status (1)

Country Link
CN (1) CN100369108C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1815552B (zh) * 2006-02-28 2010-05-12 安徽中科大讯飞信息科技有限公司 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10247098A (ja) * 1997-03-04 1998-09-14 Mitsubishi Electric Corp 可変レート音声符号化方法、可変レート音声復号化方法
FI116642B (fi) * 1998-02-09 2006-01-13 Nokia Corp Puheparametrien käsittelymenetelmä, puhekoodauksen käsittely-yksikkö ja verkkoelementti
JP4639441B2 (ja) * 1999-09-01 2011-02-23 ソニー株式会社 ディジタル信号処理装置および処理方法、並びにディジタル信号記録装置および記録方法
AU2003217859A1 (en) * 2002-05-13 2003-12-02 Conexant Systems, Inc. Transcoding of speech in a packet network environment

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1815552B (zh) * 2006-02-28 2010-05-12 安徽中科大讯飞信息科技有限公司 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法

Also Published As

Publication number Publication date
CN100369108C (zh) 2008-02-13

Similar Documents

Publication Publication Date Title
CN1165892C (zh) 对宽带信号进行解码时的周期性增强的方法和设备
CN1229775C (zh) 宽带语音和音频信号解码器中的增益平滑
CN100338648C (zh) 在基于线性预测的语音编码解码器中有效帧删除隐藏的方法和器件
CN1240049C (zh) 语音编码系统
CN1192358C (zh) 声音信号加工方法和声音信号加工装置
CN1154976C (zh) 再现语音信号的方法和装置以及传输该信号的方法
CN1296888C (zh) 音频编码装置以及音频编码方法
CN1252681C (zh) 一种码激励线性预测语音编码器的增益量化
CN1303585C (zh) 噪声抑制
CN1245706C (zh) 多模式语音编码器
CN1248195C (zh) 语音编码转换方法和装置
CN1703736A (zh) 用于源控制可变比特率宽带语音编码的方法和装置
CN1160703C (zh) 语音编码方法和装置以及声音信号编码方法和装置
CN1922660A (zh) 通信装置和信号编码/解码方法
CN1156872A (zh) 语音编码的方法和装置
CN1156303A (zh) 语音编码方法和装置以及语音解码方法和装置
CN101048649A (zh) 可扩展解码装置及可扩展编码装置
CN1071036A (zh) 可变速率声码器
CN1240978A (zh) 音频信号编码装置、解码装置及音频信号编码、解码装置
CN1748443A (zh) 多声道音频扩展支持
CN1957399A (zh) 语音/音频解码装置以及语音/音频解码方法
CN1871501A (zh) 频谱编码装置、频谱解码装置、音响信号发送装置、音响信号接收装置及其使用方法
CN101059957A (zh) 一种语音编码选择性加密方法
CN101061534A (zh) 音频信号编码装置及方法
CN1947173A (zh) 分层编码装置及分层编码方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080213

Termination date: 20131215