CN101395661A - 音频编码和解码的方法和设备 - Google Patents
音频编码和解码的方法和设备 Download PDFInfo
- Publication number
- CN101395661A CN101395661A CNA2007800077800A CN200780007780A CN101395661A CN 101395661 A CN101395661 A CN 101395661A CN A2007800077800 A CNA2007800077800 A CN A2007800077800A CN 200780007780 A CN200780007780 A CN 200780007780A CN 101395661 A CN101395661 A CN 101395661A
- Authority
- CN
- China
- Prior art keywords
- causal
- audio signal
- prediction
- sample
- main
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000005236 sound signal Effects 0.000 claims abstract description 260
- 230000001364 causal effect Effects 0.000 claims abstract description 206
- 230000003044 adaptive effect Effects 0.000 claims description 38
- 230000002708 enhancing effect Effects 0.000 claims description 35
- 230000000694 effects Effects 0.000 claims description 17
- 238000013139 quantization Methods 0.000 claims description 15
- 230000006872 improvement Effects 0.000 claims description 2
- 238000005728 strengthening Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 11
- 230000005284 excitation Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 239000002131 composite material Substances 0.000 description 6
- 238000005086 pumping Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种用于音频编码和解码的方法包括将当前音频信号样本主编码(12)成编码表示(T(n))和将第一先前音频信号样本非因果编码(13)成编码增强表示(ET(n-N+))。该方法还包括向最终用户提供编码表示。在最终用户处,该方法包括将编码表示(T*(n))主解码(52)成当前已接收音频信号样本和将编码增强表示(ET*(n-N+))非因果解码(53)成增强的第一先前已接收音频信号样本。该方法还包括基于增强的第一先前已接收音频信号样本,改进对应于第一先前音频信号样本的第一先前已接收音频信号样本。还介绍了用于音频编码和解码的装置和系统。
Description
技术领域
本发明一般涉及音频信号样本的编码和解码。
背景技术
在音频信号、且具体而言在语音信号中,在相邻样本之间存在高度相关。为了执行语音信号的高效量化和编码,可在编码前去除此类冗余。
可通过两个缓慢时变线性预测滤波器来高效地对语音信号建模,这两个缓慢时变线性预测滤波器分别对频谱包络和频谱精细结构建模。声道的形状主要确定短时间频谱包络,而频谱精细结构主要归因于声带的周期振动。
在现有技术中,经常使用线性模型对音频信号中的冗余建模。一种去除冗余的公知技术是通过使用预测,具体而言使用线性预测。从先前音频信号样本来预测原始当前音频信号样本,先前音频信号样本可以是原始样本或预测样本。残差定义为原始音频信号样本与预测音频信号样本之间的差。量化器搜索残差的最佳表示,例如,指向内部码本的索引。残差表示和线性预测滤波器的参数作为原始当前音频信号样本的表示提供。在解码器中,表示随后可用于重建当前音频信号样本的已接收版本。
线性预测通常用于短期相关。理论上,可在任何阶使用LP滤波器。但是,由于莱文森-德宾算法的数值稳定性问题及在存储空间和算术运算方面所导致许多的复杂性原因,使用大阶线性预测是极不可取的。另外,将LP系数编码所需的比特率禁止此类使用。在实践中使用的LP预测器的阶数一般不超过20个系数。例如,宽带语音编码AMR-WB的标准具有16阶的LPC滤波器。
为在保持质量的同时进一步降低所需的比特率量,需要正确地利用在有声语音段中的语音信号的周期性。为此,且由于线性预测一般将利用在不到一个基音周期中包含的相关,经常在线性预测残差上使用基音预测器。因此可利用音频信号中的长期相关性。
虽然当前标准化的语音编解码器以极低比特率提供可接受的质量,但相信通过极少额外比特的代价,质量可得到进一步增强。现有技术的语音和音频编码算法的一个次要问题是,用于语音或音频信号的现有技术的模型虽然很有效率,但未将音频信号中存在的所有可能冗余考虑在内。在一般的音频编码中,且具体而言在语音编码中,始终存在在给定质量下降低所需比特率或在给定比特率下得到更好质量的需要。
此外,现在经常要求使用嵌入式或分层方法以便适应质量与比特率之间的关系。但是,在给定比特率,并且对于给定编码结构,与非分层编码器相比,嵌入式或分层语音编码器经常显得存在质量损失。为了通过相同的编码结构体验相同的质量,经常要求增大比特率。
发明内容
本发明的一个目的是进一步利用音频信号中存在的冗余。本发明的又一目的是提供一种易于在嵌入式或分层方法中应用的编码-解码方案。本发明还有的又一目的是提供另外的冗余利用而不会造成太大的延迟。
上述目的通过根据随附权利要求的方法和装置而得以实现。通常,在第一方面,用于音频编码和解码的方法包括将当前音频信号样本主编码成当前音频信号样本的编码表示和将第一先前音频信号样本非因果编码成第一先前音频信号样本的编码增强表示。该方法还包括将当前音频信号样本的编码表示和第一先前音频信号样本的编码增强表示提供到最终用户。在最终用户处,该方法包括将当前音频信号样本的编码表示主解码成当前已接收音频信号样本和将第一先前音频信号样本的编码增强表示非因果解码成增强的第一先前已接收音频信号样本。该方法还包括基于第一先前已接收音频信号样本和增强的第一先前已接收音频信号样本,改进对应于第一先前音频信号样本的第一先前已接收音频信号样本。
在第二方面,用于音频编码的方法包括将当前音频信号样本主编码成当前音频信号样本的编码表示和将第一先前音频信号样本非因果编码成第一先前音频信号样本的编码增强表示。该方法还包括提供当前音频信号样本的编码表示和第一先前音频信号样本的编码增强表示。
在第三方面,用于音频解码的方法包括在最终用户处获得当前音频信号样本的编码表示和第一先前音频信号样本的编码增强表示。该方法还包括将当前音频信号样本的编码表示主解码成当前已接收音频信号样本和将第一先前音频信号样本的编码增强表示非因果解码成增强的第一先前已接收音频信号样本。该方法还包括基于第一先前已接收音频信号样本和增强的第一先前已接收音频信号样本,改进对应于第一先前音频信号样本的第一先前已接收音频信号样本。
在第四方面,用于音频信号样本的编码器包括:接收音频信号样本的输入;主编码器部分,连接到输入并设置用于将当前音频信号样本编码成当前音频信号样本的编码表示;以及非因果编码器部分,连接到输入并设置用于将第一先前音频信号样本编码成第一先前音频信号样本的编码增强表示。编码器还包括输出,该输出连接到主编码器部分和非因果编码器部分并设置用于提供当前音频信号样本的编码表示和第一先前音频信号样本的编码增强表示。
在第五方面,用于音频信号样本的解码器包括输入,该输入设置用于接收通过主编码器编码的当前音频信号样本的编码表示和由非因果编码器编码的第一先前音频信号样本的编码增强表示。该解码器还包括:主解码器部分,连接到输入并设置用于将当前音频信号样本的编码表示主解码成当前已接收音频信号样本;以及非因果解码器部分,连接到输入并设置用于将第一先前音频信号样本的编码增强表示非因果解码成增强的第一先前已接收音频信号样本。该解码器还包括信号调节器,该调节器连接到主解码器部分和非因果解码器部分并设置用于基于第一先前已接收音频信号样本和增强的第一先前已接收音频信号样本之间的比较来改进对应于第一先前音频信号样本的第一先前已接收音频信号样本。
在第六方面,音频调解(mediating)系统的终端包括根据第四方面的编码器和根据第五方面的解码器的至少之一。
在第七方面,音频系统包括具有根据第四方面的编码器的至少一个终端和具有根据第五方面的解码器的至少一个终端。
本发明允许有效率地使用预测原理,以便降低在语音信号中和一般在音频信号中存在的冗余。这会导致编码效率和质量的提高而不存在不可接受的延迟。通过使用通用化的预测,本发明还允许嵌入式编码。
附图说明
通过结合附图,参照以下说明,可最好地理解本发明及其其它目的和优点,其中:
图1A是因果编码的示意图;
图1B是使用过去和将来信号样本编码的示意图;
图1C是根据本发明的因果和非因果编码的示意图;
图2A是示出开环预测编码的方框图;
图2B是示出闭环预测编码的方框图;
图3是示出自适应码本编码的方框图;
图4是根据本发明的编码器和解码器设备实施例的方框图;
图5是根据本发明的预测编码器和预测解码器的设备实施例的方框图;
图6是通过使用残差参数的最优滤波和量化来增强主编码器的示意图;
图7是利用非因果自适应码本范例的实施例的方框图;
图8是在单个帧内使用非因果关系的示意图;
图9是根据本发明的方法实施例的步骤的流程图;以及
图10是估计的恶化质量的曲线图。
具体实施方式
在本公开内容中论述了音频信号。然后,假定音频信号是在与某个时间相关联的连续信号样本中提供的。
在使用预测模型对音频信号样本编码时,利用连续信号样本之间的关系去除冗余信息。图1A中示出了一个简单的草图,其示出一组信号样本10,每个样本与某个时间相关联。当前信号样本s(n)的编码是基于当前信号样本s(n)及多个先前信号样本s(n-N)、...s(n-1)(原始信号样本或信号样本的表示)而产生。此类编码称为因果编码CE,这是因为它涉及在要将当前信号样本s(n)编码的时间瞬间(timeinstance)之前可用的信息。描述信号样本s(n)的因果编码CE的参数T随后被传送以便存储和/或实现最终用途。
在当前信号样本与将来信号样本之间也存在关系。此类关系也可用于去除冗余。在图1B中,一个简单的草图示出了这些相关性。一般情况下,基于当前信号样本s(n)、与时间n之前的时间相关联的信号样本s(n-1)、...、s(n-N-)或其表示及与时间n之后的时间相关联的信号样本s(n+1)、...、s(n+N+)或其表示,来进行时间n处的信号样本s(n)的编码。涉及仅在要将信号样本编码的时间瞬间之后可用的信息的编码称为非因果编码NCE。在其它说明中,如果应用预测编码,则也可使用术语逆测(postdiction)和溯测(retrodiction)。
由于利用了不同信号样本之间的更多关系,因此图1B中在时间n处进行的信号样本编码一般更可能优于图1A中提供的编码。但是,如图1B所示系统的主要缺点是,该编码只在对应于N+个信号样本的某个时间延迟D后才可用,以便将以后信号样本中的信息也结合进去。此外,在将使用非因果编码的信号样本解码时,由于在此处也要收集“将来”的信号样本,因此,造成了附加的延迟。通常,由于为了将一个信号样本解码而需要过去和将来的已解码信号样本可用,因此,此方法不可能实现。
根据本发明,介绍了在图1C中以示意图方式示出的另一非因果方法。此处,先提供基本上根据现有技术的因果编码CE,以得到编码信号样本s(n)的参数P并最终得到与其相关的解码信号。同时,为先前信号样本(n-N+)提供附加的非因果编码NCE,以产生参数NT。如果时间和信令资源允许,可利用此附加的非因果编码NCE来升级或增强先前解码信号。如果此类延迟不可接受,则可忽略附加的非因果编码NCE。如果进行已解码信号样本的升级,则确实会引入延迟。除此方法可实现外,也注意到,相对于图1B的编码方案,延迟减少了一半,这是因为在非因果编码到达时,在解码器处确实有全部必需的信号样本可用。将在此处下面的多个实施例中进一步描述和论述此基本设想。
结合本设想使用的因果及非因果编码方案可以是利用连续信号样本之间的冗余的几乎任何种类方案。非排他性的示例有变换编码和CELP编码。因果和非因果编码的编码方案可能不一定是相同的类型,但在一些情况下,如果根据类似的方案进行这两种编码,则可能产生另外的优点。但是,在下面的实施例中,使用预测编码方案作为编码方案的模型示例。目前,预测编码方案也被视为是在本发明中使用的优选方案。
为此,在陈述本发明的细节之前,先对现有技术的因果预测编码进行了一定深度的描述以提供科学基础。
可区分用于去除冗余的两种类型的因果预测模型。第一种类型是所谓的开环因果预测,它基于原始音频信号样本。第二种类型是闭环因果预测,并且基于预测和重构的音频信号样本,即,原始音频信号样本的表示。
基于利用开环因果预测的冗余去除过程的语音编解码器可如图2A所示大致视为基于典型预测的编码器和解码器的方框图。有关感觉加权的考虑在当前陈述中被忽略以便简化基本理解,并且因此未示出。
作为开环预测的通用设置,通过使用以下关系,在预测器20中从先前的原始音频信号样本s(n-1)、s(n-2)、...、s(n-N)预测提供到编码器11的因果预测编码器部分16的输入14的原始当前音频信号样本s(n):
此处为量化器30的编码部件将搜索的最佳表示R。通常,此类表示R的索引指向内部码本。表征预测器20的表示R和参数F提供到发射器(TX)40,并编码成当前音频信号样本s(n)的编码表示T。编码表示T经存储以供将来使用,或者传送到最终用户。
当前音频信号样本s(n)的编码表示T*的已接收版本由输入54接收到解码器51的因果预测解码器部分56的接收器(RX)41中。在接收器41中,编码表示T*解码成已接收残差信号的已接收表示R*,并解码成用于解码器预测器21的已接收参数F*。理想情况下,编码表示T*、已接收残差e*(n)信号的已接收表示R*和已接收参数F*等于编码器中对应的量值。但是,可能存在传输误码,从而造成在已接收数据中的微小误码。因果预测解码器部分56的解码部件(此处为反量化器31)提供已接收开环残差e*(n)。通常,接收内部码本索引并使用对应的码本条目。解码器预测器21由参数F*启动,以便基于先前已接收音频信号样本s*(n-1),s*(n-2),...,s*(n-N)来提供预测
随后,当前已接收音频信号样本s*(n)在此处为加法器23的计算部件中计算为:
当前已接收音频信号样本s*(n)提供到解码器预测器21以供将来使用,并用作解码器51的输出55的输出信号。
类似地,基于利用闭环因果预测的冗余去除过程的语音编解码器可如图2B所示大致视为基于典型预测的编码器和解码器的方框图。闭环残差信号可定义为在预测使用此处表示为s(n-1),s(n-2),...,s(n-N)的重构音频信号样本、而不是原始音频信号样本时获得的信号。闭环预测在此情况下将书写为:
并且闭环残差将书写为:
从e(n)的表示R,再次得到解码残差e(n),该残差在加法器24中与闭环预测相加,以便为预测器20提供重构音频信号样本s(n)以供将来预测中使用。重构音频信号样本s(n)因此是原始音频信号样本s(n)的表示。
在接收器侧,解码过程与图2A所示相同。
等式(1)、(3)和(5)使用通用预测器,该预测器在一般情况下可以是非线性的。现有技术的线性预测,即使用线性预测器的估计经常用作语音和音频编解码器中去除冗余的部件。对于此类情况,预测器P(.)书写为其变元的线性函数。等式(5)随后变为:
系数α1、α2、...、αL称为线性预测(LP)系数。大多数现代语音或音频编解码器使用时变LP系数以便适应音频信号的时变性质。LP系数容易通过在自相关序列上应用例如莱文森-德宾算法估计得出,而序列是逐帧估计得出的。
线性预测经常用于短期相关,LP预测器的阶数一般不超过20个系数。例如,宽带语音编码AMR-WB的标准具有16阶的LPC滤波器。
理论上,可在任何阶使用LP滤波器。但是,由于莱文森-德宾算法的数值稳定性及在存储空间和算术运算方面所导致许多的复杂性原因,此使用是极不可取的。另外,将LP系数编码所需的比特率禁止此类使用。
为在保持质量的同时进一步降低所需的比特率量,需要正确地利用在有声语音段中的语音信号的周期性。为此,且由于线性预测一般将利用在不到一个基音周期中包含的相关,通常在线性预测残差上使用基音预测器。公知有两种不同的方法并且经常被使用以便利用语音信号中的长期相关性。
第一种方法是基于自适应码本范例。自适应码本包含LP激励信号的最近过去的重叠段。使用此方法,线性预测合成分析编码器通常将使用自适应码本贡献和固定码本贡献两者来对激励信号编码。
就通过闭环长期预测从激励信号去除周期性和随后使用固定码本对提示信号编码而言,第二种方法更直接。
两种方法实际上在概念上和实现方面均很类似。图3示出了例如由量化器30(图2A&B)使用自适应33和固定32码本贡献提供的激励生成。在自适应码本方法中,在加法器36中作为两个分量的加权和来得到激励信号:
变量gLTP 34和gFCB 35分别表示自适应码本和固定码本增益。索引j表示固定码本32条目。索引i表示自适应码本33索引。此自适应码本33由作为最近合成的激励信号的先前段的条目组成:
延迟函数d(i)指定自适应码本向量的开始。由于复杂性原因,增益和索引的确定通常以顺序的方式执行。首先,找到自适应码本贡献,即,对应的索引及增益。随后,视特定实现而定,在从目标激励信号或加权语音减除后,找到固定码本的贡献。
自适应码本范例也具有滤波器解释,其中使用了基音预测器滤波器,并且通常书写为:
也存在相同概念的几种变化,如在延迟函数不限于整数基音延迟(pitch delay),而是也可包含分数延迟时。另外的变化是多抽头基音预测,它很类似于分数基音延迟,这是因为这两种方法都使用多抽头滤波器。另外,这两种方法产生极其类似的结果。通常,阶数为2q+1的基音预测器由如下表达式给出:
几种最新标准化的编解码器使用上述结构进行语音编码。众所周知的示例包括3GPP AMR-NB和3GPP AMR-WB编解码器。另外,AMR-WB+混合结构的ACELP部分也使用此类结构来对语音和音频进行高效编码。
通常,在开环中估计整数基音延迟,以使得原始信号与其预测值之间的平方误差降到最低。原始信号此处在广义方面理解,因此,也可使用加权。在允许的基音范围(2到20ms)中使用穷举搜索。
本发明的一个重要概念是使用非因果编码,并且在优选实施例中,使用非因果预测编码作为用于去除冗余的部件和用于编码的部件。非因果预测也可称为反向时间预测。非因果预测可以为线性和非线性的。使用线性预测时,非因果预测包括例如非因果基音预测,但也可由非因果短期线性预测表示。更简单地说,将来的信号用于形成当前信号的预测。但是,由于将来通常在编码时是不可用的,因此,经常使用延迟以便访问信号的将来样本。非因果预测随后变成基于当前信号和/或在要预测的信号后出现的其它先前信号来预测先前信号。
在用于非因果预测的通用设置中,通过使用以下等式,从将来的信号样本s(n+1)、s(n+2)、...、s(n+N+)来预测原始语音信号样本s(n)或一般为音频信号样本或者甚至任何信号样本:
因果和非因果预测器表示为P+(.)和P-(.),并且预测器阶数分别表示为N+和N-。
同样地,开环残差可定义为:
也可类似地定义闭环残差。对于因果预测的情况,此类定义与更上面给出的定义完全相同。但是,对于非因果预测,由于编码器实质上是因果过程,所以尽管有某个延迟,但此类定义不可能使用通过相同非因果预测、甚至通过使用另外延迟引起的预测。实际上,编码器使用非因果预测以便将样本编码,这将取决于将来的编码。因此可观察到,除非我们翻转时间之箭,否则非因果预测无法直接用作用于编码或去除冗余的部件,但在该情况下,它将成为具有反向时间语音的因果预测。
但是,可以在闭环中以间接方式有效率地使用非因果预测。一个此类实施例是主要通过因果预测器P-(.)对信号进行编码,之后基于由因果预测器P-(.)预测的信号,以后向闭环方式使用非因果预测器P+(.)。
在图4中,示出了应用到语音或音频编码的非因果编码的一个实施例。主编码器和非因果预测的组合用作用于编码和去除冗余的部件。在本实施例中,利用了非因果预测编码,并且利用了因果预测编码为主编码。编码器11在输入14处接收信号样本10。主编码部分,此处为因果编码部分12,具体而言在此实施例中为因果预测编码部分16,接收当前信号样本10,并产生当前音频信号样本s(n)的编码表示T,该表示在输出15处提供。当前信号样本10也提供到非因果编码部分13,在此实施例中是非因果预测编码部分17。非因果预测编码部分17在输出15处提供先前音频信号样本s(n-N+)的编码增强表示ET。非因果预测编码部分17可将其运算也基于从因果预测编码部分16提供的信息18。
在解码器51中,在输入54处接收当前音频信号样本s(n)的编码表示T*及先前音频信号样本s(n-N+)的编码增强表示ET*。已接收编码表示T*提供到主因果解码部分,此处为因果解码部分52,并且具体而言在此实施例中为因果预测解码部分56。因果预测解码部分56提供当前已接收音频信号样本s-(n)55-。编码增强表示ET*提供到非因果解码部分53,在此实施例中为非因果预测解码部分57。非因果预测解码部分57提供增强的先前已接收音频信号样本。基于增强的先前已接收信号样本,先前已接收音频信号样本s*(n-N+)在信号调节器59中增强,该调节器可以是非因果预测解码部分57的一部分或单独的部分。增强的先前已接收音频信号样本在解码器51的输出55+处提供。
在图5中,示出了应用到音频编码的非因果闭环预测的又一详细实施例。因果预测器部分易于从图2B识别。但在图5中,示出了非因果预测器120如何使用主编码语音信号18的将来样本。对应的样本58在用于非因果预测器121的解码器51中也可用。当然,要施加延迟才能访问这些样本。
组合器125也引入了一个另外的“组合”函数。组合器125的函数由基于闭环因果预测将主编码信号(即,s-(n-N+))和取决于s-(n)的以后样本的非因果预测器的输出组合而组成,即:
此组合可以是线性或非线性的。此模块的输出可书写为
误差最小化在此处象通常一样是就某个预定的保真度标准而言的广义理解,如均方误差(MSE)或加权均方误差(wMSE)等。此结果误差残差在此处为量化器130的编码部件中进行量化,以便提供音频信号样本s(n-N+)的编码增强表示ET。
结果误差也可以量化,以使得结果语音信号
就所述预定保真度标准而言尽可能接近原始语音信号。
最后,应注意,预测器P-(.)20和P+(.)120及组合函数C(.)125可以是随时间变化的并选择为符合原始语音信号的时变特征和/或针对保真度标准为最优的。因此,控制这些函数的时变参数也要编码并由发射器140传送。在解码器中接收到时,使用这些参数来使得能够解码。
在解码器侧,非因果预测解码部分57在接收器141中接收编码增强表示ET*,并且通过此处为量化器131的解码部件将它解码成残差样本信号。编码增强表示ET*的其它参数用于非因果解码器预测器121以便产生预测增强信号样本。此预测增强信号样本在组合器126中与主预测信号样本组合,并在此处为加法器123的计算部件中与残差信号相加。组合器126和加法器123此处一起构成了信号调节器59。
与一般非线性预测相比,线性预测具有更低的复杂性,并且使用更简单。另外,一个常识是,作为用于语音信号产生的模型,线性预测是绰绰有余的。
在前面部分中,假定预测器P-(.)和P+(.)及组合函数C(.)是通用的。实际上,简单的线性模型经常用于这些函数。预测器成为线性滤波器,类似于等式(7),而组合函数成为加权和。
理论上,如果信号稳定,并且两个预测器使用相同的阶数,则在开环中使用相同窗口估计时的因果和非因果预测器将产生一组相同的系数。原因是,线性预测滤波器是线性相位,因此前向和后向预测误差具有相同的能量。这实际上由低延迟语音编解码器用于从过去解码语音信号得到LPC滤波器系数,例如,LD-CELP。
与后向线性预测相反,非因果线性预测在一般情况下将重新估计要在一组相同的解码语音样本上应用的新“后向预测”滤波器,由此将在第一“主”编码期间发生的频谱变化考虑在内。另外,信号的非稳定性在第二遍时在增强编码器中被正确考虑在内。
本发明很适用于分层的语音编码。首先,简短概述现有技术的分层编码。
语音编码中的可伸缩性通过与通用音频编码相同的轴实现:带宽、信噪比和空间(信道数量)。但是,由于语音压缩主要用于多信道操作仍不是很常见的会话型通信目的,因此关于语音编码可伸缩性的最大关注集中在SNR和音频带宽可伸缩性上。SNR可伸缩性始终是在总是互连到固定带宽8 kHz PSTN的传统交换网络中的主要关注点。该SNR可伸缩性在处理临时拥塞情况中,例如在部署成本高和相对低带宽的大西洋通信电缆中体现其应用。近年来随着可用高端终端的出现,支持更高采样率、带宽可伸缩性已成为现实可能。
今天使用最多的可伸缩语音压缩算法是64 kbps G.711 A/U-law对数PCM编解码器。8kHz采样的G.711编解码器将12位或13位线性PCM样本转换为8位对数样本。对数样本的有序位表示允许在G.711位流中窃取最低有效位(LSB),以使得G.711编码器实践中在48、56和64kbps之间实施SNR可伸缩。G.711编解码器的此可伸缩性在电路交换通信网络中用于实现带内控制信令的目的。使用此G.711伸缩性的最近示例是3GPP-TFO协议,该协议使得能够通过传统64kbpsPCM链路进行宽带语音建立和传输。原64kbps G.711流的8kbps最初用于允许宽带语音服务的呼叫建立,而对窄带服务质量没有大的影响。在呼叫建立后,宽带语音将使用64kbps G.711流的16kbps。支持开环可伸缩性的其它更早的语音编码标准是G.727(嵌入式ADPCM)和在某个程度上的G.722(子带ADPCM)。
可伸缩语音编码技术中较新的发展是MPEG-4标准,该标准在SNR域和带宽域中均为MPEG4-CELP提供了可伸缩性扩展。MPE基层可通过传输附加的滤波器参数信息或另外的创新参数信息而得以增强。在MPEG4-CELP概念中,“BRSEL”类型的增强层是用于选定基层的SNR增加层,“BWSEL”层是带宽增强层,它们使得提供16kHz输出成为可能。结果是非常灵活的编码方案,比特率范围在不连续的阶段从3.85到23.8kbps。但是,MPEG-4语音编码器验证测试确实显示,与固定多模式(不可伸缩)运算相比,可伸缩性所允许的额外灵活性要付出成本。
国际电信联盟标准化部门ITU-T最近结束了一个名为G.729.EV的新的可伸缩编解码器的认证期。这种将来的可伸缩语音编解码器的比特率范围将从8kbps到32kbps。该编解码器将提供8-12kbps的窄带SNR可伸缩性、12-14kbps的带宽可伸缩性及以2kbps为步长从14kbps到最高32kbps的SNR可伸缩性。此编解码器的主要使用情况是允许在家庭或办公室网关中有效率地共享有限的带宽资源,例如,在几个VoIP呼叫之间共享的xDSL 64/128kbps上行链路。另外,8kbps核将可与现有G.729VoIP终端互操作。
图10示出了基于即将出现的标准的初始认证结果的估计恶化质量曲线。它示出了估计的G.729.EV性能(8(NB)/16(WB)kHz Mono)。
除G.729.EV开发外,ITU-T在研究组16问题9中正计划开发具有8kbps宽带核的新的可伸缩编解码器,并且也在问题23中讨论一个新的工作项,即,在保持一些可伸缩性特性的同时开发完全听觉带宽编解码器。
如果将因果、非因果和组合函数重新表示为一个运算,则可将输出表示为:
因此可看到,使用最优因果和非因果预测器类似于将双面滤波器应用到主编码信号。双面滤波器已应用到在不同环境中的音频信号。例如,在美国专利6738739中介绍了一种使用平滑处理的预处理步骤,该平滑处理利用了前向和后向基音扩展。但是,整个滤波器全部在一个相同的时刻应用,这意味着会引入时间延迟。此外,滤波器在编码器中用于平滑处理的目的,并且不涉及实际的预测过程。
在欧洲专利申请EP 0 532 225中,公开了一种处理信号的方法。该方法涉及输入信号样本的优选不超过5毫秒的编码帧,优选以小于每秒16Kb采样,编码延迟优选不超过10毫秒。具有相应索引信号的每个码本向量通过增益系数调整,优选通过后向自适应调整,并且应用到级联的长期和短期滤波器以生成合成候选信号。对应于最佳地逼近相关联帧的候选信号的索引和所得到的长期滤波器(例如基音)参数可供用于随后将帧解码。短期滤波器参数随后可通过后向自适应而得到。同样,在此处,整个滤波器在一个完整的过程中应用,并且应用到已经解码的信号,即,在预测编码或解码过程中不应用它。
与此相反,在本发明中,等式(19)描述的运算首先在时间上划分,在该方面,第一个最初结果由主编码器在一个时间实现,并且改进或增强随后由非因果预测编码器提供。这是使该运算适用于分层音频编码的属性。此外,该运算是预测编码过程的一部分,并且因此在“发射”侧和“接收器”侧、或更一般地说在编码和解码侧均执行。虽然EP 0 532 225初看起来可能与本发明有一些相似,但本文涉及完全不同的方面。
图6示出了使用本发明原理的嵌入式编码结构。该图示出通过使用最优滤波的主编码器增强,由此将残差量化(TX)参数传送到解码器。此结构所基于的是基于主编码器的“本地合成”的输出来预测原始语音或音频信号s(n)。这表示为
在通过k索引的每个级或增强层,得到滤波器Wk_1(z),并将它应用到一个先前的层信号的“本地合成”,由此产生预测信号滤波器一般可以为因果、非因果的或双面的、HR或FIR。因此,此基本实施例对滤波器类型无限制。
滤波器的得到使得预测误差:
就某个预定的保真度标准而言降到最低。还通过可以是与层相关的量化器Qk_1将预测的残差量化和编码。这产生了量化预测误差:
ek-1(n)=Qk-1(ek-1(n)). (21)
该量化预测误差用于形成当前层的本地合成,该本地合成将用于下一层。
表示预测滤波器W0(z),W1(z),...,Wkmax(z)和量化器Q0,Q1,...,Qkmax输出索引的参数会被编码和传送,以便在解码器侧,使用这些参数来将信号解码。
此处应注意的是,通过剥离上部层,解码仍可进行,但是其质量低于在将所有层解码时获得的质量。
通过每个附加层,本地合成将越来越接近原始语音信号。预测滤波器将接近于一致,而预测误差将趋向于零。
滤波器与预测误差之间的这种关系可有效率地用于为预测滤波器和量化器两者统一地量化和分配位。来自主编码语音的预测用于估计原始语音。此预测的残差也可编码。此过程可重复进行,并因此提供语音信号的分层编码。
本发明利用了此基本实施例。根据本发明,第一层包括用于提供第一近似信号的因果滤波器。此外,附加层至少之一包括非因果滤波器,它对已解码信号质量的增强给予贡献。此增强可能性由于非因果的原因而在后面的阶段才提供,并结合以后信号样本的以后因果滤波器编码来提供。根据本发明的此实施例,非因果预测用作用于嵌入式编码或分层编码的部件。因此,其中,附加层包含用于形成非因果预测的参数。
上面进一步描述了现有技术的合成分析语音编解码器。此外,图3示出了在当前最新技术语音编解码器中使用的自适应码本范例背后的现有技术设想。此处下文介绍了如何通过使用称为非因果自适应码本范例的备选实现来在类似的编解码器中实施本发明。
图7示出用于非因果自适应码本的当前优选实施例。此码本基于先前得到的主码本激励eij(n)。索引i和j涉及每个码本的条目。
提供利用因果自适应码本方法的主激励码本39作为因果预测编码部分16的量化器30。不同的部分等同于前面结合图3所述内容。但是,不同的参数此处提供有“-”号以强调它们在因果预测中使用。
提供利用非因果自适应码本方法的次要激励码本139作为非因果预测编码部分17的量化器130。次要激励码本139的主要部分类似于主激励码本39。自适应码本133和固定码本132分别提供具有自适应码本增益g+ LTP 34和固定码本增益g+ FCB 35的贡献。在加法器136中得到组成的激励信号。
此外,如连接37所示,非因果自适应码本133还基于主激励码本39。它使用自适应码本的将来样本作为条目,并且此非因果自适应码本133的输出可书写为:
映射函数d+(.)将对应的正数延迟指定到对应于后向或非因果基音预测的每个索引。该运算产生非因果LTP预测。
最终的激励等于主激励和非因果自适应码本贡献及可能的次要固定码本贡献的加权线性组合。
虽然只描述了码本的构成,但应注意的是,非因果基音延迟可以是分数的,由此从增大的分辨率受益并因而产生更佳的性能。情况明显与因果基音预测的情况相同。此处,也可使用多抽头基音预测器。
非因果预测此处在闭环中使用,因此基于原始语音信号的主编码。由于信号的主编码包括因果预测,因此可重复使用诸如基音延迟等的一些作为语音信号特征的参数,而无需额外的比特率成本,以形成非因果预测。
具体而言,结合自适应码本范例,应注意的是,情况经常是不需要重新估计基音,而是直接重复使用为因果预测估计的相同基音延迟。这在图7中由虚线38示出。这节省了比特率,而对质量无太大的影响。
对此过程的一个细化由只重复使用整数基音延迟、然后重新优化基音的分数部分组成。
通常,即使重新估计基音延迟,但如果考虑到非因果基音极接近因果基音,则复杂性及将此变量编码所需的位数量也会大大降低。因此,可有效率地应用诸如差分编码等技术。在复杂性方面,应明白的是,不必搜索所有基音范围。可只搜索因果基音周围的几个预定区域。总之,因此可以使映射函数d+(.)自适应地与主基音变量d-(i)相关。
仅在有某个量的延迟时,才可应用非因果自适应码本的原理。实际上,需要将来编码激励的样本以便形成增强激励。
在逐帧基础上操作语音编解码器时,有某个提前量可用。帧通常划分成子帧。例如,在主编码信号帧之后,在第一子帧的增强编码器可访问整个帧的激励样本而无附加的延迟。如果非因果基音延迟相对较小,则通过增强编码器来完成第一子帧编码不会有额外的延迟。这也适用于如图8中所示的第二、第三帧,其中图8示出在逐帧基础上执行非因果基音预测。在此示例中,在第四子帧处,可能需要下一帧的样本,并且这将需要附加的延迟。
如果不允许延迟,则仍可使用非因果自适应码本,但它将只对一些子帧而并非所有子帧有效。因此,自适应码本使用的位数量将是可变的。活动和非活动状态的信令可以是隐含的,这是因为在收到基音延迟变量时,解码器会自动检测是否需要将来的信号样本。
可考虑对上述实施例进行几个细化,如平滑处理预测滤波器参数的内插,使用加权误差测量和心理声学误差测量。这些细化和其它细化是本领域技术人员公知的原理,在此将不详细描述。
图9示出根据本发明的方法实施例的步骤的流程图。用于音频编码和解码的方法从步骤200开始。在步骤210中,将当前音频信号样本因果编码成当前音频信号样本的编码表示。在步骤211中,将第一先前音频信号样本非因果编码成该第一先前音频信号样本的编码增强表示。在步骤220中,将当前音频信号样本的编码表示和第一先前音频信号样本的编码增强表示提供到最终用户。此步骤可视为由以下步骤组成:通过编码器提供当前音频信号样本的编码表示和第一先前音频信号样本的编码增强表示;和在最终用户处通过解码器获得当前音频信号样本的编码表示和第一先前音频信号样本的编码增强表示。在步骤230中,当前音频信号样本的编码增强表示被因果解码成当前接收的音频信号样本。在步骤231中,第一先前音频信号样本的编码增强表示被非因果解码成增强的第一先前已接收(received)音频信号样本。最后,在步骤240中,基于第一先前已接收音频信号样本和增强的第一先前已接收音频信号样本,改进对应于第一先前音频信号样本的第一先前已接收音频信号样本。此过程在步骤299中结束。如虚线箭头250所示,此过程基本上在音频信号的整个持续时间内重复进行。
本公开内容介绍了一种自适应码本,其特征在于使用非因果基音贡献来形成非因果自适应码本。此外,介绍了增强激励,该激励是主编码激励和至少一个非因果自适应码本激励的组合。还示出了嵌入式语音编解码器,其特征在于,每层包含用于形成预测信号的至少一个预测滤波器、用于量化预测残差信号的量化器或编码器及用于形成本地合成增强信号的部件。对于解码器也提供了类似的部件和功能。此外,还描述了具有隐含信令的可变速率非因果自适应码本形成。
上述实施例应理解为是本发明的少数几个说明性示例。本领域的技术人员将理解,在不脱离本发明范围的情况下,可对实施例进行不同的修改、组合和更改。具体地说,不同实施例中的不同部分解决方案可在技术上可行的情况下在其它配置中组合在一起。然而,本发明的范围由随附权利要求定义。
参考文献
[1]美国专利6738739。
[2]欧洲专利申请EP 0 532 225。
Claims (46)
1.一种用于音频编码和解码的方法,包括以下步骤:
将当前音频信号样本主编码成所述当前音频信号样本的编码表示;
将第一先前音频信号样本非因果编码成所述第一先前音频信号样本的编码增强表示;
将所述当前音频信号样本的所述编码表示和所述第一先前音频信号样本的所述编码增强表示提供到最终用户;
将所述当前音频信号样本的所述编码表示主解码成当前已接收音频信号样本;
将所述第一先前音频信号样本的所述编码增强表示非因果解码成增强的第一先前已接收音频信号样本;以及
基于所述第一先前已接收音频信号样本和所述增强的第一先前已接收音频信号样本,改进对应于所述第一先前音频信号样本的第一先前已接收音频信号样本。
2.如权利要求1所述的方法,其中所述非因果编码是基于与第一时间瞬间后出现的时间瞬间相关联的信号样本或信号样本的表示,对与所述第一时间瞬间相关联的信号样本的编码。
3.如权利要求1或2所述的方法,其中所述非因果编码是非因果预测编码,并且所述非因果解码是非因果预测解码。
4.如权利要求3所述的方法,其中非因果预测编码的所述步骤又包括:
在开环中从第一组音频信号样本得到所述第一先前音频信号样本的第一非因果预测;
所述第一组音频信号样本包括以下样本的至少其中之一:
在所述第一先前音频信号样本后出现的至少一个先前音频信号样本;以及
所述当前音频信号样本;
计算所述第一先前音频信号样本与所述第一非因果预测之间的差作为第一差;以及
将至少所述第一差和所述第一非因果预测的参数编码成所述第一先前音频信号样本的所述编码增强表示;以及
其中,非因果预测解码的所述步骤又包括:
将所述第一先前音频信号样本的所述编码增强表示解码成所述第一差和所述第一非因果预测的参数;
基于所述第一非因果预测的所述参数,从对应于所述第一组的第二组已接收音频信号样本得到所述增强的第一先前已接收音频信号样本的第二非因果预测;
计算所述第二非因果预测和所述第一差之和作为所述增强的第一先前已接收音频信号样本。
5.如权利要求3所述的方法,其中非因果预测编码的所述步骤又包括:
在闭环中从第一组音频信号样本的表示得到所述第一先前音频信号样本的第一非因果预测;
所述第一组音频信号样本的表示包括以下项的至少其中之一:
与在所述第一先前音频信号样本后出现的时间相关联的先前音频信号样本的至少一个表示;以及
所述当前音频信号样本的表示;
计算所述第一先前音频信号样本或所述第一先前音频信号样本的表示与所述第一非因果预测之间的差作为第一差;以及
将至少所述第一差和所述第一非因果预测的参数编码成所述第一先前音频信号样本的所述编码增强表示;以及
其中,非因果预测解码的所述步骤又包括:
将所述第一先前音频信号样本的所述编码增强表示解码成所述第一差和所述第一非因果预测的参数;
基于所述第一非因果预测的所述参数,从对应于所述第一组的第二组已接收音频信号样本得到所述增强的第一先前已接收音频信号样本的第二非因果预测;
计算所述第二非因果预测和所述第一差之和作为所述增强的第一先前已接收音频信号样本。
6.如权利要求4或5所述的方法,其中所述第一非因果预测和所述第二非因果预测是线性非因果预测,由此,所述第一非因果预测的所述参数是滤波器系数。
7.如权利要求1到6中任一项所述的方法,其中所述主编码是因果编码。
8.如权利要求1到7中任一项所述的方法,其中所述主编码是主预测编码,并且所述主解码是主预测解码。
9.如权利要求8所述的方法,其中主预测编码的所述步骤又包括:
在开环中从第三组先前音频信号样本得到所述当前音频信号样本的第一主预测;
计算所述当前音频信号样本与所述第一主预测之间的差作为第二差;以及
将至少所述第二差和所述第一主预测的参数编码成所述当前音频信号样本的所述编码表示;以及
其中,主预测解码的所述步骤又包括:
将所述当前音频信号样本的所述编码表示解码成所述第二差和所述第一主预测的所述参数;
基于所述第一主预测的所述参数,从对应于所述第三组的第四组已接收音频信号样本得到所述当前已接收音频信号样本的第二主预测;
计算所述第二主预测和所述第二差之和作为所述当前已接收音频信号样本。
10.如权利要求8所述的方法,其中主预测编码的所述步骤又包括:
在闭环中从第三组先前音频信号样本的表示得到所述当前音频信号样本的第一主预测;
计算所述当前音频信号样本与所述第一主预测之间的差作为第二差;以及
将至少所述第二差和所述第一主预测的参数编码成所述当前音频信号样本的所述编码增强表示;以及其中,主预测解码的所述步骤又包括:
将所述当前音频信号样本的所述编码表示解码成所述第二差和所述第一主预测的所述参数;
基于所述第一主预测的所述参数,从对应于所述第三组的第四组已接收音频信号样本得到所述当前已接收音频信号样本的第二主预测;
计算所述第二主预测和所述第二差之和作为所述当前已接收音频信号样本。
11.如权利要求9或10所述的方法,其中所述第一主预测和所述第二主预测是线性主预测,由此,所述第一主预测的所述参数是滤波器系数。
12.如权利要求11所述的方法,其中所述第一主预测、所述第二主预测、所述第一非因果预测和所述第二非因果预测基于自适应码本范例,由此所述当前音频信号样本的所述编码表示和所述第一先前音频信号样本的所述编码增强表示包括固定和自适应码本的量化索引。
13.如权利要求12所述的方法,其中用于所述第一非因果预测和所述第二非因果预测的至少一个量化索引取近似值为等于用于对应音频信号样本的所述第一主预测和所述第二主预测的量化索引。
14.如权利要求13所述的方法,其中将在所述第一非因果预测、所述第二非因果预测、所述第一主预测和所述第二主预测之间相等的所述量化索引与基音延迟相关联。
15.如权利要求1到14中任一项所述的方法,其中提供所述当前音频信号样本的所述编码表示的所述步骤和提供所述第一先前音频信号样本的所述编码增强表示的所述步骤作为分层的编码来执行,其中,附加层包括所述非因果预测表示。
16.一种用于音频编码的方法,包括以下步骤:
将当前音频信号样本主编码成所述当前音频信号样本的编码表示;
将第一先前音频信号样本非因果编码成所述第一先前音频信号样本的编码增强表示;以及
提供所述当前音频信号样本的所述编码表示和所述第一先前音频信号样本的所述编码增强表示。
17.一种用于音频解码的方法,包括以下步骤:
在最终用户处获得当前音频信号样本的编码表示和第一先前音频信号样本的编码增强表示;
将所述当前音频信号样本的所述编码表示主解码成当前已接收音频信号样本;
将所述第一先前音频信号样本的所述编码增强表示非因果解码成增强的第一先前已接收音频信号样本;以及
基于所述第一先前已接收音频信号样本和所述增强的第一先前已接收音频信号样本,改进对应于所述第一先前音频信号样本的第一先前已接收音频信号样本。
18.一种用于音频信号样本的编码器,包括:
用于接收音频信号样本的输入;
主编码器部分,连接到所述输入并设置用于将当前音频信号样本编码成所述当前音频信号样本的编码表示;
非因果编码器部分,连接到所述输入并设置用于将第一先前音频信号样本编码成所述第一先前音频信号样本的编码增强表示;
输出,连接到所述主编码器部分和所述非因果编码器部分并设置用于提供所述当前音频信号样本的所述编码表示和所述第一先前音频信号样本的所述编码增强表示。
19.如权利要求18所述的编码器,其中所述非因果编码是基于与第一时间瞬间后出现的时间瞬间相关联的信号样本或信号样本的表示,对与所述第一时间瞬间相关联的信号样本的编码。
20.如权利要求18或19所述的编码器,其中所述非因果编码器部分是非因果预测编码器部分。
21.如权利要求20所述的编码器,其中所述非因果预测器编码器部分又包括:
非因果预测器,设置用于在开环中从第一组音频信号样本得到所述第一先前音频信号样本的非因果预测;
所述第一组音频信号样本包括以下样本的至少其中之一:
在所述第一先前音频信号样本后出现的至少一个先前音频信号样本;以及
所述当前音频信号样本;
计算部件,设置用于获得作为所述第一先前音频信号样本与所述非因果预测之间的差的第一差;以及
编码部件,设置用于将至少所述第一差和所述非因果预测的参数编码成所述第一先前音频信号样本的所述编码增强表示。
22.如权利要求20所述的编码器,其中所述非因果预测器编码器部分又包括:
非因果预测器,设置用于在闭环中从第一组音频信号样本的表示得到所述第一先前音频信号样本的非因果预测;
所述第一组音频信号样本的表示包括以下的至少其中之一:
与在所述第一先前音频信号样本后出现的时间相关联的先前音频信号样本的至少一个表示;以及
所述当前音频信号样本的表示;
计算部件,设置用于获得作为所述第一先前音频信号样本与所述非因果预测之间的差的第一差;以及
编码部件,设置用于将至少所述第一差和所述非因果预测的参数编码成所述第一先前音频信号样本的所述编码增强表示。
23.如权利要求21或22所述的编码器,其中所述非因果预测是线性非因果预测,由此,所述第一非因果预测的所述参数是滤波器系数。
24.如权利要求18到23中任一项所述的编码器,其中所述主编码器部分是因果编码器部分。
25.如权利要求18或24中任一项所述的编码器,其中所述主编码器部分是主预测编码器部分。
26.如权利要求25所述的编码器,其中所述主预测器编码器部分又包括:
主预测器,设置用于在开环中从第二组先前音频信号样本得到所述当前音频信号样本的主预测;
计算部件,设置用于获得作为所述当前音频信号样本与所述主预测之间的差的第二差;以及
编码部件,设置用于将至少所述第二差和所述主预测的参数编码成所述当前音频信号样本的所述编码表示。
27.如权利要求25所述的编码器,其中所述主预测器编码器部分又包括:
主预测器,设置用于在闭环中从第二组先前音频信号样本的表示得到所述当前音频信号样本的主预测;
计算部件,设置用于获得作为所述当前音频信号样本与所述主预测之间的差的第二差;以及
编码部件,设置用于将至少所述第二差和所述主预测的参数编码成所述当前音频信号样本的所述编码表示。
28.如权利要求26或27所述的编码器,其中所述主预测是线性主预测,由此,所述第一主预测的所述参数是滤波器系数。
29.如权利要求28所述的编码器,其中所述主预测器和所述非因果预测器基于自适应码本范例,由此所述当前音频信号样本的所述编码表示和所述第一先前音频信号样本的所述编码增强表示包括固定和自适应码本的量化索引。
30.如权利要求29所述的编码器,其中所述非因果预测器连接到所述主预测器,由此用于所述非因果预测的至少一个量化索引取近似值为等于用于对应音频信号样本的所述主预测的量化索引。
31.如权利要求30所述的编码器,其中将在所述第一非因果预测、所述第二非因果预测、所述第一主预测和所述第二主预测之间相等的所述量化索引与基音延迟相关联。
32.如权利要求18到31中任一项所述的编码器,其中所述主预测器编码器部分的所述编码部件和所述非因果预测器编码器部分的所述编码部件连接在一起,并设置为在所述输出处将所述当前音频信号样本的所述编码表示和所述第一先前音频信号样本的所述编码增强表示作为分层的编码信息来提供,其中,附加层包括所述非因果预测表示。
33.一种用于音频信号样本的解码器,包括:
输入,设置用于接收由主编码器编码的当前音频信号样本的编码表示和由非因果编码器编码的第一先前音频信号样本的编码增强表示;
主解码器部分,连接到所述输入并设置用于将所述当前音频信号样本的所述编码表示主解码成当前已接收音频信号样本;
非因果解码器部分,连接到所述输入并设置用于将所述第一先前音频信号样本的所述编码增强表示非因果解码成增强的第一先前已接收音频信号样本;以及
信号调节器,连接到所述主解码器部分和所述非因果解码器部分并设置用于基于所述第一先前已接收音频信号样本和所述增强的第一先前已接收音频信号样本之间的比较,改进对应于所述第一先前音频信号样本的第一先前已接收音频信号样本。
34.如权利要求33所述的解码器,其中所述非因果解码是基于与第一时间瞬间后出现的时间瞬间相关联的信号样本或信号样本的表示,对与所述第一时间瞬间相关联的信号样本的解码。
35.如权利要求33或34所述的解码器,其中所述非因果解码器部分是非因果预测器解码器部分。
36.如权利要求35所述的解码器,其中所述非因果预测器解码器部分又包括:
解码部件,设置用于将所述第一先前音频信号样本的所述编码增强表示解码成第一差和非因果预测的参数;
非因果预测器,设置用于基于所述非因果预测的所述滤波器参数,从第一组已接收音频信号样本得到所述增强的第一先前已接收音频信号样本的非因果预测;
所述第一组已接收音频信号样本包括以下样本的至少其中之一:
在所述第一先前已接收音频信号样本后出现的至少一个先前
已接收音频信号样本;以及
当前已接收音频信号样本;
计算部件,设置用于获得作为所述非因果预测和所述第一差之和的所述增强的第一先前已接收音频信号样本。
37.如权利要求36所述的解码器,其中所述非因果预测是线性非因果预测,由此,所述第一非因果预测的所述参数是滤波器系数。
38.如权利要求33到37中任一项所述的解码器,其中所述主解码器部分是因果解码器部分。
39.如权利要求33到38中任一项所述的解码器,其中所述主解码器部分是主预测解码器部分。
40.如权利要求39所述的解码器,其中所述主预测器解码器部分又包括:
解码部件,设置用于将所述当前音频信号样本的所述编码表示解码成第二差和主预测的参数;
主预测器,设置用于基于所述主预测的所述参数,从第二组先前已接收音频信号样本得到所述当前已接收音频信号样本的主预测;
计算部件,设置用于获得作为所述主预测和所述第二差之和的所述当前已接收音频信号样本。
41.如权利要求40所述的解码器,其中所述主预测是线性主预测,由此,所述第一主预测的所述参数是滤波器系数。
42.如权利要求41所述的解码器,其中所述主预测器和所述非因果预测器基于自适应码本范例,由此所述当前音频信号样本的所述编码表示和所述第一先前音频信号样本的所述编码增强表示包括固定和自适应码本的量化索引。
43.如权利要求42所述的解码器,其中所述非因果预测器连接到所述主预测器,由此,用于所述非因果预测的至少一个量化索引取近似值为等于用于对应音频信号所述主预测的量化索引。
44.如权利要求43所述的解码器,其中将在所述第一非因果预测、所述第二非因果预测、所述第一主预测和所述第二主预测之间相等的所述量化索引与基音延迟相关联。
45.一种音频调解系统的终端,包括至少以下之一:如权利要求18到32中任一项所述的编码器和如权利要求33到44中任一项所述的解码器。
46.一种音频调解系统,包括具有如权利要求18到32中任一项所述的编码器的至少一个终端和如权利要求33到44中任一项所述的解码器的至少一个终端。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US74342106P | 2006-03-07 | 2006-03-07 | |
US60/743,421 | 2006-03-07 | ||
PCT/SE2007/050132 WO2007102782A2 (en) | 2006-03-07 | 2007-03-07 | Methods and arrangements for audio coding and decoding |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101395661A true CN101395661A (zh) | 2009-03-25 |
CN101395661B CN101395661B (zh) | 2013-02-06 |
Family
ID=38475280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007800077800A Expired - Fee Related CN101395661B (zh) | 2006-03-07 | 2007-03-07 | 音频编码和解码的方法和设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8781842B2 (zh) |
EP (1) | EP1991986B1 (zh) |
CN (1) | CN101395661B (zh) |
WO (1) | WO2007102782A2 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103620675A (zh) * | 2011-04-21 | 2014-03-05 | 三星电子株式会社 | 对线性预测编码系数进行量化的设备、声音编码设备、对线性预测编码系数进行反量化的设备、声音解码设备及其电子装置 |
CN104025191A (zh) * | 2011-10-18 | 2014-09-03 | 爱立信(中国)通信有限公司 | 用于自适应多速率编解码器的改进方法和设备 |
WO2016011961A1 (zh) * | 2014-07-24 | 2016-01-28 | 陈仕东 | 非因果预测的信号编码方法、解码方法 |
CN106030704A (zh) * | 2013-12-16 | 2016-10-12 | 三星电子株式会社 | 用于对音频信号进行编码/解码的方法和设备 |
CN106471576A (zh) * | 2014-05-16 | 2017-03-01 | 高通股份有限公司 | 较高阶立体混响系数的闭环量化 |
US9626980B2 (en) | 2011-04-21 | 2017-04-18 | Samsung Electronics Co., Ltd. | Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium and electronic device therefor |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2007043643A1 (ja) * | 2005-10-14 | 2009-04-16 | パナソニック株式会社 | 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法 |
KR100912826B1 (ko) * | 2007-08-16 | 2009-08-18 | 한국전자통신연구원 | G.711 코덱의 음질 향상을 위한 향상 계층 부호화 및복호화 장치와 그 방법 |
FR2938688A1 (fr) * | 2008-11-18 | 2010-05-21 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
US20110035273A1 (en) * | 2009-08-05 | 2011-02-10 | Yahoo! Inc. | Profile recommendations for advertisement campaign performance improvement |
EP2863389B1 (en) | 2011-02-16 | 2019-04-17 | Dolby Laboratories Licensing Corporation | Decoder with configurable filters |
EP3079151A1 (en) * | 2015-04-09 | 2016-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and method for encoding an audio signal |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
US11610597B2 (en) * | 2020-05-29 | 2023-03-21 | Shure Acquisition Holdings, Inc. | Anti-causal filter for audio signal processing |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5261027A (en) * | 1989-06-28 | 1993-11-09 | Fujitsu Limited | Code excited linear prediction speech coding system |
US5233660A (en) | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
SE504010C2 (sv) * | 1995-02-08 | 1996-10-14 | Ericsson Telefon Ab L M | Förfarande och anordning för prediktiv kodning av tal- och datasignaler |
KR100261254B1 (ko) * | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치 |
FR2762464B1 (fr) * | 1997-04-16 | 1999-06-25 | France Telecom | Procede et dispositif de codage d'un signal audiofrequence par analyse lpc "avant" et "arriere" |
KR100335609B1 (ko) * | 1997-11-20 | 2002-10-04 | 삼성전자 주식회사 | 비트율조절이가능한오디오부호화/복호화방법및장치 |
JP3343082B2 (ja) * | 1998-10-27 | 2002-11-11 | 松下電器産業株式会社 | Celp型音声符号化装置 |
US6446037B1 (en) * | 1999-08-09 | 2002-09-03 | Dolby Laboratories Licensing Corporation | Scalable coding method for high quality audio |
US7606703B2 (en) * | 2000-11-15 | 2009-10-20 | Texas Instruments Incorporated | Layered celp system and method with varying perceptual filter or short-term postfilter strengths |
US6738739B2 (en) | 2001-02-15 | 2004-05-18 | Mindspeed Technologies, Inc. | Voiced speech preprocessing employing waveform interpolation or a harmonic model |
US7272555B2 (en) * | 2001-09-13 | 2007-09-18 | Industrial Technology Research Institute | Fine granularity scalability speech coding for multi-pulses CELP-based algorithm |
JP3881943B2 (ja) * | 2002-09-06 | 2007-02-14 | 松下電器産業株式会社 | 音響符号化装置及び音響符号化方法 |
KR100908117B1 (ko) * | 2002-12-16 | 2009-07-16 | 삼성전자주식회사 | 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치 |
EP1619664B1 (en) * | 2003-04-30 | 2012-01-25 | Panasonic Corporation | Speech coding apparatus, speech decoding apparatus and methods thereof |
DE602004004950T2 (de) * | 2003-07-09 | 2007-10-31 | Samsung Electronics Co., Ltd., Suwon | Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren |
CN1981531B (zh) * | 2004-05-04 | 2012-07-04 | 高通股份有限公司 | 构建用于时间可分级的双向预测帧的方法和装置 |
JP4771674B2 (ja) * | 2004-09-02 | 2011-09-14 | パナソニック株式会社 | 音声符号化装置、音声復号化装置及びこれらの方法 |
US7835904B2 (en) * | 2006-03-03 | 2010-11-16 | Microsoft Corp. | Perceptual, scalable audio compression |
-
2007
- 2007-03-07 US US12/281,953 patent/US8781842B2/en active Active
- 2007-03-07 EP EP07716105.7A patent/EP1991986B1/en active Active
- 2007-03-07 WO PCT/SE2007/050132 patent/WO2007102782A2/en active Application Filing
- 2007-03-07 CN CN2007800077800A patent/CN101395661B/zh not_active Expired - Fee Related
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10229692B2 (en) | 2011-04-21 | 2019-03-12 | Samsung Electronics Co., Ltd. | Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium and electronic device therefor |
CN103620675B (zh) * | 2011-04-21 | 2015-12-23 | 三星电子株式会社 | 对线性预测编码系数进行量化的设备、声音编码设备、对线性预测编码系数进行反量化的设备、声音解码设备及其电子装置 |
CN103620675A (zh) * | 2011-04-21 | 2014-03-05 | 三星电子株式会社 | 对线性预测编码系数进行量化的设备、声音编码设备、对线性预测编码系数进行反量化的设备、声音解码设备及其电子装置 |
CN105336337A (zh) * | 2011-04-21 | 2016-02-17 | 三星电子株式会社 | 针对语音信号或音频信号的量化方法以及解码方法和设备 |
US9626980B2 (en) | 2011-04-21 | 2017-04-18 | Samsung Electronics Co., Ltd. | Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium and electronic device therefor |
US9626979B2 (en) | 2011-04-21 | 2017-04-18 | Samsung Electronics Co., Ltd. | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore |
CN105336337B (zh) * | 2011-04-21 | 2019-06-25 | 三星电子株式会社 | 针对语音信号或音频信号的量化方法以及解码方法和设备 |
US10224051B2 (en) | 2011-04-21 | 2019-03-05 | Samsung Electronics Co., Ltd. | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore |
CN104025191A (zh) * | 2011-10-18 | 2014-09-03 | 爱立信(中国)通信有限公司 | 用于自适应多速率编解码器的改进方法和设备 |
CN106030704A (zh) * | 2013-12-16 | 2016-10-12 | 三星电子株式会社 | 用于对音频信号进行编码/解码的方法和设备 |
CN106471576A (zh) * | 2014-05-16 | 2017-03-01 | 高通股份有限公司 | 较高阶立体混响系数的闭环量化 |
WO2016011961A1 (zh) * | 2014-07-24 | 2016-01-28 | 陈仕东 | 非因果预测的信号编码方法、解码方法 |
CN106688235A (zh) * | 2014-07-24 | 2017-05-17 | 陈仕东 | 非因果预测的信号编码方法、解码方法 |
CN106688235B (zh) * | 2014-07-24 | 2019-08-16 | 陈仕东 | 非因果预测的信号编码方法、解码方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1991986A2 (en) | 2008-11-19 |
US8781842B2 (en) | 2014-07-15 |
EP1991986B1 (en) | 2019-07-31 |
WO2007102782A3 (en) | 2007-11-08 |
WO2007102782A2 (en) | 2007-09-13 |
EP1991986A4 (en) | 2011-08-03 |
US20090076830A1 (en) | 2009-03-19 |
CN101395661B (zh) | 2013-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101395661B (zh) | 音频编码和解码的方法和设备 | |
USRE49363E1 (en) | Variable bit rate LPC filter quantizing and inverse quantizing device and method | |
US6980951B2 (en) | Noise feedback coding method and system for performing general searching of vector quantization codevectors used for coding a speech signal | |
CN101488345B (zh) | 有效编码语音信号的信号修改方法 | |
KR100415356B1 (ko) | 다중 채널 신호 인코딩 및 디코딩 방법 및 장치 | |
KR100732659B1 (ko) | 가변 비트 레이트 광대역 스피치 음성 코딩시의 이득양자화를 위한 방법 및 장치 | |
CN104025189B (zh) | 编码语音信号的方法、解码语音信号的方法,及使用其的装置 | |
US20090076829A1 (en) | Device for Perceptual Weighting in Audio Encoding/Decoding | |
JPH08263099A (ja) | 符号化装置 | |
CN105793924A (zh) | 用于使用修改时域激励信号的错误隐藏提供经解码的音频信息的音频解码器及方法 | |
CN101622666B (zh) | 非因果后置滤波器 | |
WO2001061687A1 (en) | Wideband speech codec using different sampling rates | |
JPH10187196A (ja) | 低ビットレートピッチ遅れコーダ | |
CN103384900A (zh) | 在预测编码与变换编码之间交替的低延迟声音编码 | |
KR20060131782A (ko) | 최적의 다중 부호화 방법 | |
US7634402B2 (en) | Apparatus for coding of variable bitrate wideband speech and audio signals, and a method thereof | |
KR101610765B1 (ko) | 음성 신호의 부호화/복호화 방법 및 장치 | |
Jelinek et al. | G. 718: A new embedded speech and audio coding standard with high resilience to error-prone transmission channels | |
US8265929B2 (en) | Embedded code-excited linear prediction speech coding and decoding apparatus and method | |
CN101609681B (zh) | 编码方法、编码器、解码方法及解码器 | |
Miki et al. | Pitch synchronous innovation code excited linear prediction (PSI‐CELP) | |
JPH09269798A (ja) | 音声符号化方法および音声復号化方法 | |
EP1334486A2 (en) | System for vector quantization search for noise feedback based coding of speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130206 Termination date: 20200307 |
|
CF01 | Termination of patent right due to non-payment of annual fee |