CN1965352B - 音频编码 - Google Patents
音频编码 Download PDFInfo
- Publication number
- CN1965352B CN1965352B CN2005800189351A CN200580018935A CN1965352B CN 1965352 B CN1965352 B CN 1965352B CN 2005800189351 A CN2005800189351 A CN 2005800189351A CN 200580018935 A CN200580018935 A CN 200580018935A CN 1965352 B CN1965352 B CN 1965352B
- Authority
- CN
- China
- Prior art keywords
- signal
- pumping
- residual
- pumping signal
- residual signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000005086 pumping Methods 0.000 claims description 89
- 238000009499 grossing Methods 0.000 claims description 53
- 230000003595 spectral effect Effects 0.000 claims description 50
- 230000005236 sound signal Effects 0.000 claims description 36
- 239000012634 fragment Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 6
- 238000002156 mixing Methods 0.000 abstract description 9
- 230000005284 excitation Effects 0.000 abstract description 8
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 230000002123 temporal effect Effects 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 11
- 230000001052 transient effect Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 239000004576 sand Substances 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 239000002131 composite material Substances 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000002045 lasting effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 102000001690 Factor VIII Human genes 0.000 description 1
- 108010054218 Factor VIII Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Cereal-Derived Products (AREA)
Abstract
近来已经提出了一种用于构建可缩放音频编码器的混合正弦/脉冲激励编码器。由正弦编码器提供的数据构成的基本层保留了以低比特率达到媒体的高质量音频的主要特性。可以通过增加与降低抽取相关的激励信号层来进一步增强质量,该抽取渐增模拟原始信号的越来越多精细方面。本发明提供了一种混合不同激励信号使得无需折中编码信号的质量就可以实现缩放性的全部概念。当构建一个新的较高层时,通过一个质量参数来控制所述混合,该质量参数加权先前层的有效性。
Description
技术领域
本发明涉及广播信号,尤其是音频信号的编码和解码。本发明还涉及一种编码器和解码器,以及一种根据本发明编码的音频流和其上存储了该音频流的数据存储媒体。
背景技术
当传输广播信号时,例如诸如语音之类的音频信号,使用压缩或者编码技术来降低信号的比特率。降低比特率相当于降低了传输所需的带宽。
图1示出了一种已知的参数编码器的示意图,尤其是一种在WO01/69593中描述的,并且在本发明中使用的正弦编码器。在该编码器中,一个输入音频信号x(t)被分割为(很可能是重叠)多个时间片段或者帧,每一个的持续时间典型地是20ms。每一个片段被分解为瞬时,正弦和噪声分量,并且分别产生描述这些信号分量的参数CT、CS和CN。还可能产生例如谐波混合的输入音频信号的其他分量,尽管他们与本发明的目的不相关。
编码器的第一级包括瞬时编码器11,其包括瞬时检测器(TD)110、瞬时分析器(TA)111和瞬时合成器(TS)112。该检测器110估计是否具有一个瞬时信号分量及其位置。这一信息被提供给瞬时分析器111。如果瞬时信号分量的位置被确定,则该瞬时分析器11试图提取瞬时信号分量或者其最重要部分。并且更适宜地在一个估计的开始位置起将一个形状函数与一个信号片段匹配,并且通过使用例如(很少)一些正弦分量来确定在形状函数下的内容。这一信息包含在瞬时代码CT中。
瞬时代码CT被提供给瞬时合成器112。在减法器16中从输入信号x(t)中减去合成的瞬时信号分量从而产生一个信号xA。一个增益控制机构GC(12)被用于从xA产生xB。信号xB被提供给正弦编码器13,在其中,该信号在一个用于确定正弦分量(即,确定性分量)的正弦分析器(SA)130中被分析。正弦编码的最终结果是一个正弦代码CS并且在国际专利申请公开号WO00/79519中提供了一个更为详细地示出了示例性正弦代码CS的例子。
根据由正弦编码器产生的正弦代码CS,正弦信号分量被一个正弦合成器(SS)131重建。在减法器17中从输入信号XB中减去正弦编码器13的这一信号从而产生一个缺少(大)瞬时信号分量和(主要)确定性正弦分量的残留信号xC。
如在WO01/89086A1中所述的,假设残留信号xC主要包括噪声并且噪声分析器14产生表示这一噪声的噪声代码CN。
图2(a)和(b)示出了适合于被用作图1中的噪声分析器14的编码器(NA)和相应解码器(ND)的通常形式。对应于图1中的残留xC的第一音频信号r1输入到包括第一线性预测(SE)级的噪声编码器,该第一线性预测(SE)级用于频谱平滑信号并且产生一个预定顺序的预测系数(Ps)。更具体地,一个Laguerre滤波器可以被用于提供取决于信号平滑的频率,如在E.G.P.Schuijers,A.W.J.Oomen,A.C.den Brinker和A.J.Gerrits,“Advances in parametric coding for high-qualityaudio”,Proc.1 st IEEE Benelux Workshop on Model based Processingand Coding of Audio(MPCA-2002),Leuven,Belgium,152002年11月15日,pp.73-79所述的。残留r2输入到时间包络估计器(TE),该时间包络估计器产生一组参数Pt以及可能地产生时间平滑的残留r3。参数Pt可以是一组描述时间包络的增益。替代的,它们可以是从频域的线性预测中获得的描述正常化的时间包络的参数,如线性频谱对(LSP)或者线性频谱频率(LSF),其随后每一帧被增加一个增益参数。
在参数噪声解码器(ND)中,产生一个合成的白噪声序列(在WNG中)并且产生一个具有时间和频谱平坦包络的信号r3`。时间包络产生器(TEG)基于接收到的、量化的参数Pt`增加时间包络从而产生r2`,并且频谱包络产生器(SEG,时变滤波器)基于接收到的,量化的参数Ps`增加频谱从而产生一个噪声信号r1`。
在多路复用器15中,构成了一个包括代码CT、CS和CN的音频流AS。
正弦编码器13和噪声分析器14被用于所有或者大部分片段并且等于比特率预算的最大部分。
众所周知,参数音频编码器可以以相对较低的比特率给出相应较好的质量,例如20kbit/s。但是,在较高的比特率质量增加了,由于增加比特率的函数还是很低。因此,就需要一个额外的比特率来获得完美的或者透明的质量。因此,利用参数编码以可比于例如波形编码器的比特率的比特率来实现透明是很困难的。这意味着构造具有完美或者透明质量的参数音频编码器而不使用额外比特预算是很困难的。
在参数编码难以达到透明的基本原因存在于定义的目标中。参数编码器在编码音调分量(正弦)和噪声分量(噪声编码器)中很有效。但是,在真实音频中,很多信号分量落入到一个灰色区域中:它们即不能被噪声精确地模拟,也不能被模拟为(很少数量的)正弦波。因此,在参数音频编码器中目标的真实定义是达到完美或者透明质量等级的瓶颈,尽管得益于一个用于媒体质量等级的观看的比特率点。
同时,传统的音频编码器(子带和转换)以一定的比特率提供了完美的或者透明的编码质量,典型地大约以80-130kbit/s用于以44.1kHz抽样的立体声信号。转换和参数编码器的组合(所谓的混合编码器)已经被建议,例如在2002年5月24日提交的欧洲专利申请号02077032.7中公开的。在此,音频信号的频谱-时间间隔,(其另外将会被子带编码)被选择性地利用噪声参数编码以试图在保持音频质量的同时降低比特率。
替代的,转换或者子带编码器可以与图1所示种类的参数编码器级联。但是,对于这种布置的期望编码增益最小,其中参数编码器在转换或者子带编码器之前。这是由于音频信号的可感知的最重要区域是由正弦编码器捕捉到,而只留下了在转换/子带编码器中编码增益的可能性很少。
利用频谱平滑和每一采样使用很少数量比特的残留信号模拟的音频编码器被公开于:A.Harma和U.K.Laine,“Warped lowdelay CELP forwide-band audio coding”,Proc.AES 17th Int.Cof.:High Quality AudioCoding,pages207-215,Florence,Italy,2-5Sep,1999;S.Singhal,“Highquality audio coding using multi-pulse LPC”,Proc.1990Int.Conf.Acoustic Speech Signal Process.(ICASSP90),1101-1104页,Atlanta GA,1990,IEEE Piscataway,NJ;和X.Lin,“High qualityaudio coding using analysis-by synthesis technique”,Proc.1991Int.Conf.Acoustic Speech Signal Process.(ICASSP91),3617-3620页,Atlanta OA,1991,JEEE Piscataway,NJ。在很多论文中,已经示出了这一编码策略实现了以对应于用于单声道信号的2比特/抽样(用于44.1kHz音频的88.2kbit/s)的比特率的完美或者透明的质量。在此方面,它们没有超过子带或者转换编码器的性能。
缩放比特流的可能性看起来在许多应用中很有吸引力,其中在这些应用中音频素材应当提供以不同信号质量或者比特率访问的可能性,这如同在音乐分配的情况下。比特流的可缩放性允许内容提供者仅仅存储编码素材的一个版本。另外一种有趣的应用是使用编码信号的第一(基本)层从而提供音频“缩略图”,其中对文件的全部版本的后续访问无需基本层素材的重发。基于RPE的用于建立分层比特流的编码器在S.Zhang和G.Lockhart,“Embedded RPE based on multistage coding”,IEETransactions on Speech and Audio Processing,Vol.5(4),367-371,1997中公开。
发明内容
发明者已经意识到,用于建立分层比特流的已知技术由于缩放性丢失而导致质量上受到妨碍。本发明的目的是在建立分层比特流的同时降低质量的丢失。
因此,本发明涉及一种编码数字音频信号的方法,其中对于信号的每一个时间片段执行以下步骤:
-编码音频信号以提供表示该音频信号的代码,
-从该音频信号中减去对应于该代码的信号以获得第一残留信号,
-频谱平滑该第一残留信号以获得一个频谱平滑的残留信号(r)和频谱平滑参数,
-利用一个脉冲串编码器,根据频谱平滑的残留信号来计算第一激励信号,
-确定该第一激励信号的质量,如其与频谱平滑的残留信号相似的等级,
-从频谱平滑的残留信号中减去第一激励信号的一部分从而获得第二残留信号,其中该部分依赖于确定的第一激励信号的质量,
-利用一个脉冲串编码器,根据第二残留信号计算第二激励信号,以及
-产生一个音频流,包括:
-第一激励信号,
-第二激励信号,和
-表示第一激励信号的质量的参数。
本发明还涉及一种使用上述方法的音频编码器并且因此其适应于编码数字音频信号的相应时间片段,该编码器包括:
-编码器,用于编码数字音频信号以提供表示该信号的代码,
-减法器,用于从该音频信号中减去对应于该代码的信号以获得第
一残留信号,
-频谱平滑单元,用于频谱平滑该第一残留信号以获得频谱平滑的残留信号和频谱平滑参数,
-脉冲串编码器,用于根据频谱平滑残留信号计算第一激励信号,
-用于确定第一激励信号的质量,如其与频谱平滑残留信号类似的等级的装置,
-减法器,用于从频谱平滑残留信号中减去第一激励信号的一部分,从而获得第二残留信号,其中该部分依赖于第一激励信号的确定的质量,
-脉冲串编码器,用于根据第二残留信号计算第二激励信号,和
-比特流产生器,用于产生一个音频流,该音频流包括:
-第一激励信号,
-第二激励信号,和
-表示第一激励信号的质量的参数。
此外,本发明涉及一种用于解码接收到的音频流的方法,例如利用上述方法或编码器编码的音频流,其中该音频流对于音频信号的多个片段中的每一个包括:
-第一激励信号,
-第二激励信号,和
-表示第一激励信号的质量的参数,
该方法包括
-依赖于质量参数,组合第一和第二激励信号以获得一个组合的激励信号,和
-利用一个线性预测合成滤波器根据组合的激励信号合成第一残留信号。
相应地,本发明涉及一种用于接收和解码音频流的音频播放器,其中音频流对于音频信号中的多个片段的每一个包括:
-第一激励信号,
-第二激励信号,和
-表示第一激励信号的质量的参数,
该音频播放器包括
-依赖于质量参数,组合第一和第二激励信号以获得一个组合的激励信号的装置,和
-利用线性预测根据组合的激励信号合成第一残留信号的装置。
最后,本发明涉及一种音频流,对于该音频信号的多个片段中的每一个包括:
-第一激励信号,其由频谱平滑残留信号的脉冲串编码而产生,该残留信号通过从音频信号中减去编码音频信号而产生,
-第二激励信号,其由第二残留信号的脉冲串编码而产生,所述信号通过从频谱平滑的残留信号中减去第一激励信号的一部分而产生,其中该部分依赖于第一激励信号的确定的质量,和
-表示第一激励信号的确定的质量的参数;
并且涉及一种具有存储在其上的这种音频流的存储媒体。
附图说明
下面将参照附图,通过示例详细描述本发明的实施例,其中:
图1示出了传统的参数编码器;
图2a和2b分别示出了传统的参数噪声编码器(NA)和相应的噪声解码器(ND);
图3示出了编码器的视图;
图4示出了与图3的编码器相容的第一解码器的视图;
图5示出了与附图3的编码器相容的第二解码器的视图;
图6示出了根据本发明的编码器的示意图;和
图7示出了根据本发明的解码器的示意图。
具体实施方式
图1-5和相应的描述反映了未预公开的欧洲专利申请号03104472.0,于2003年12月1日提交的专利申请的公开内容(申请人的内部参考号为PHNL031414EPP)。
在图1中,示出了一个在WO 01/69593中所述类型的正弦编码器,并且其被用于本发明的一个优选实施例中。现有技术的编码器及其相应解码器的操作已经被详细描述并且在此仅仅描述了与本发明有关的描述。
音频编码器1接收以一定的抽样频率抽样的数字音频信号x(t)。随后该编码器1将抽样的输入信号分离为三个分量:瞬时信号分量、持续确定性分量、和持续随机性分量。该音频编码器1包括瞬时编码器11、正弦编码器13和噪声编码器14。
该瞬时编码器11包括瞬时检测器(TD)110,瞬时分析器(TA)111和瞬时合成器(TS)112。首先,信号x(t)输入到瞬时检测器110。这一检测器110估计是否具有一个瞬时信号分量及其位置。这一信息被提供给瞬时分析器111。如果瞬时信号分量的位置被确定,则该瞬时分析器111试图提取瞬时信号分量(的主要部分)。优选在一个估计的开始位置起将形状函数与信号片段匹配,并且通过使用例如(很少)一些正弦分量来确定在形状函数下的内容。这一信息包含在瞬时代码CT中,并且在WO01/69593中提供了关于产生瞬时代码CT的更详细信息。
瞬时代码CT被提供给瞬时合成器112。在减法器16中从输入信号x(t)中减去合成的瞬时信号分量从而导致产生一个信号xA。增益控制机构GC(12)被用于从xA产生xB。
信号xB被提供给正弦编码器(SA)13,其中在确定(确定性)正弦分量的正弦分析器(SA)130中分析该信号xB。因此可以看出,尽管期望瞬时分析器存在,但是它是不必要的并且本发明无需该分析器也可以实现。可替代的,如上所述,本发明可以采用例如谐波混合分析器来实现。简单地说,正弦编码器编码输入信号xB,如同从一帧片段链接到下一帧片段的正弦分量的轨迹。
如图3中所示的编码器补充了在P.Kroon,E.F.Deprettere和R.J.Sluijter,“Regular Pulse Excitation-A novel approach to effectiveand efficient multipulse coding of speech”,IEEE Trans.Acoust.Speech,Signal Process,34,1986中描述类型的脉冲串编码器。但是,虽然实施例按照规则脉冲激励(RPE)编码器描述,其可以等效于采用如在美国专利号4,932,061中描述的多脉冲激励(MPE)技术或者在K.Jarvinen,J.Vainio,P.Kapanen,T.Honkanen,P.Haavisto,R.Salami,C.Laflamme,J-P.Adoul,“GSM enhanced full rate speech codec”,Proc.ICASSP-97,Munich(Germany),21-24April 1997,Volume2,pp.771-774中描述的ACELP编码器实现,其中每一个包括第一基于LP的频谱平滑级。
在图3所示的编码器中,根据编码器所需的质量确定的全部比特率预算被分割为由参数编码器可用的比特率B和RPE编码预算,从其中可以获得一个RPE抽取因数D。
在图3中,输入音频信号x首先在对应于图1中的参数编码器的块11和13的块TSA(瞬时和正弦分析)中被处理。因此,这一块产生了用于瞬时和噪声的相关参数,如在图1中所示。给定比特率B,一个块BRC(比特率控制)优选地限制正弦的数量并且优选地保存瞬时使得用于正弦和瞬时的全部比特率最多等于B,典型地设置在20kbit/s附近。
对应于图1中的块112和131的块TSS(瞬时和正弦合成器)利用由块TSA产生并且由块BRC修改的瞬时和正弦参数(CT和CS)产生一个波形。从输入信号x中减去这一信号从而得到对应于图1中的残留xC的信号r1。通常,信号r1不包括真实的正弦和瞬时分量。
根据信号r1,在块(SE)中利用线性预测滤波器,例如基于抽头延时线或者如在图2(a)的现有技术中的Laguerre滤波器来估计和移动频谱包络。所选择的滤波器的预测系数Ps被写入到比特流AS中用于传输给解码器,作为传统类型噪声代码CN的一部分。随后在块(TE)中将时间包络移动以便一起产生例如线性频谱对(LSP)或者线性频谱频率(LSF)系数与一个增益,正如在现有技术附图2(a)中所述的。在任何情况下,来自时间平滑的最终系数Pt被写入到比特流AS以便传输给解码器,作为传统类型噪声代码CN的一部分。典型的,系数Ps和Pt需要4-5kbit/s的比特率预算。
因为脉冲串编码器使用了第一频谱平滑级,所以RPE编码器可以根据比特率预算是否已经被分配给RPE编码器来被选择性地应用于由块SE产生的频谱平滑信号r2。在由一个虚线表示的一个替代实施例中,RPE编码器被应用于由块TE产生的频谱和时间平滑信号r3。
如参考背景技术的文件已知的,RPE编码器以分析接合成的方式对残留信号r2/r3执行一个搜索。给定一个抽取因数D,RPE搜索过程导致产生一个偏移(在0到D1之间的数值,其中D1依赖于D),RPE脉冲的幅度(例如,数值为-1,0,1的三重脉冲)和增益参数。当使用RPE编码时,这一信息被存储在音频流AS中所包括的层L0中,用于通过多路复用器(MUX)传输给解码器。
该RPE编码器可以以不同比特率操作并且提供相应不同质量的等级。通过抽取因数D和量化格,该比特率是有效可调的,并且通过正确地设置这些参数,一个单调增加的质量在增加的比特率获得,使得其在比特率的相当大范围上相比于现有编码器具有竞争性。
试验已经示出了,当使用高抽取因数(例如,D=8)时,RPE编码器有时导致重建信号的亮度损失。将某一低等级噪声增加给RPE序列从而减缓这一问题。为了确定噪声的等级,基于例如在从编码的RPE序列中产生的信号和残留信号r2/r3之间的能量/功率差来计算增益(g)。这一增益同样被作为层L0信息的一部分传输到解码器。
在图4中示出了一个与图3中的编码器相容的解码器。解多路复用器(DeM)如同现有技术一样读取输入音频流AS`并且将正弦、瞬时和噪声代码(CS,CT和CN(Ps和Pt))提供给相应的合成器SiS,TrS和TEG/SEG。如现有技术中,白噪声产生器(WNG)给时间包络产生器TEG提供一个输入信号。在该实施例中,其中该信息是可利用的,脉冲串产生器(PTG)产生来自层L0的脉冲串并且在块Mx中将其与TEG输出的噪声信号相混合以提供一个激励信号r2`。从该编码器可以看出,由于噪声代码CN(Ps,Pt)和层L0都是独立于同一个残留r2产生,它们产生的信号需要被增益修改以提供正确的能量等级用于合成的激励信号r2`。在该实施例中,在混合器(Mx)中,由块TEG和PTG产生的信号被组合。
随后激励信号r2`被提供给频谱包络产生器(SEG),其根据代码Ps产生合成的噪声信号r1`。这一信号被加给由传统的瞬时和正弦合成器产生的合成信号从而产生输出信号x。
在一个替代实施例中,由脉冲串产生器PTG产生的参数被用于(由虚线表示)与噪声代码Pt组合从而使由WNG输出的信号的时间包络成形以便于建立时间上成形的噪声信号。
在图5中示出了与图3的实施例相对应的解码器的第二实施例,其中RPE块处理残留信号r3。在此,基于编码器确定的增益(g)和CN由白噪声产生器(WNG)产生的并且被块We处理的信号和由脉冲串产生器(PTG)产生的脉冲串被相加以构建一个激励信号r3`。当然,其中的层L0信息是不可用的,白噪声不受块We的影响并且作为一个激励信号r3`被提供给一个时间包络产生器块(TEG)。
时间包络系数(Pt)随后被块TEG施加到激励信号r3`以提供如前处理的合成信号r2`。如上所述,这是有利的,因为脉冲串激励典型的引起了亮度丢失,这可以由适当加权的附加噪声序列来抵消。加权可以包括每一个基于增益因子g和CN的简单幅度或者频谱成形。
如前,该信号被例如在块SEG(频谱包络产生器)中的线性预测合成滤波器滤波,该滤波器给该信号增加一个频谱包络。随后,最终产生的信号如前一样被加给合成的正弦和瞬时信号。
可以看出在图4或者图5中,如果不使用PTG,则解码方案类似于传统的仅仅使用噪声编码器的正弦编码器。如果使用了PTG,则增加了一个RPE序列,其增强了重建的信号,即提供了一个较高的音频质量。
应当注意,在图5的实施例中,和标准脉冲编码器(RPE或者MPE)相反,其中在标准脉冲编码器使用了对于完整的帧是固定的增益,时间包络被合并到信号r2`中。通过使用该时间包络,可以获得较好的声音质量,因为与每帧固定的增益相比较在增益的分布上有较高的灵活性。
上述混合方法可以在一个较宽的比特率范围内操作,并且在每一个比特率,其提供与现有编码器相当的质量。在该方法中,由参数(正弦)编码器提供的数据构成的基本层包括输入信号的主要或者基本特征,并且该方法媒介至高质量音频信号可以在很低的比特率上获得。
但是,优选的,建立的比特流是可以缩放的使得层可以被提取。假设具有有序层。因此,就期望编码器能够建设性地增加信息以对于给定比特率获得最佳的质量。比特流的分层通常意味着由可缩放比特流的要求引起的质量的降低(所谓的缩放性丢失)。本发明试图避免这一问题。由于此原因,编码器、解码器和比特流都被适配。
下面,将会给出根据本发明的一种方法的描述,其中在解码器中执行混合不同的激励信号层使得无需损害编码信号的质量就可以实现缩放性的全部概念。通过由编码器确定并且存储在比特流中的一个或者多个参数来控制所述混合。当构造一个新的较高层时,这些参数反映了先前层的重要性。
图6示出了根据本发明的完全可缩放的组合参数(正弦)和波形(脉冲)编码器。注意到,本发明可以使用除了在此描述的编码器之外的任何其他编码器。在参数编码器中接收输入信号,其在示出的实施例中是如图1中的正弦SSC编码器1。来自于SSC编码器的残留rssc首先被频谱平滑,优选使用LPC分析,借此其动态范围减小了,其进而又降低了在量化步骤中的误差。随后,频谱平滑的残留信号r被提供给第一波形编码器,在此是具有抽取因数8的RPE-8级,其根据频谱平滑的残留信号r产生第一激励信号x8。
通过组合残留信号r和已经计算的激励信号x8来建立一个新的残留信号x8。具体的,根据下式,x8被定义为在原始残留信号r和加权激励信号x8之间的差
r8=r-ρx8
参数ρ被优化以便被组合的层实现最好质量。
我们注意到,将ρ设置为0,意味着建立了独立层,其中不重用信息是可能的。将ρ设置为等于1对于在一个可缩放比特流中建立不独立层是已知的技术但是妨碍了达到最好质量。
将残留信号r8提供给第二波形编码器,在此是具有抽取因数2的RPE-2级。该RPE-2级建立一个激励信号x2。
理想地,在RPE-8编码器中计算的激励x8应当被用于一个解码器中,只要其提供一个相当好的残留r的近似值,否则,对于RPE-2来说更好的是丢弃它并且直接操作于r而不是r8。这建议应当具有一个机制,其评估质量如x8相对于r的类似之处或者适合度,即r被x8模拟地如何,并且因此考虑到将其与x2组合将其处理。在它的最简单形式中,这个机制仅仅由一个简单的增益构成。下面讲解是增益ρ,也被称作混合系数,是如何被使用和计算来评估和处理x8。
最后,参数代码(SSC代码),第一激励信号x8,第二激励信号x2,混合系数ρ和优选还有频谱平滑参数被组合以形成编码的音频流AS。典型的,比特流则由三层构成:基本参数层,包括第一激励信号的第一精细层,和包括第二激励信号和表示在参数ρ中的第一层的可重用性的第二层。
在一个音频流中无需包括频谱平滑参数。如果不具有频谱平滑参数的音频流在音频播放器中被接收到,则在音频播放器中的解码器可以通过逆向适配来确定频谱平滑参数。
图7示出了根据本发明的解码器。该编码的音频流AS被接收到,并且其分量,即参数代码(SSC代码),第一激励信号x8,第二激励信号x2,混合系数ρ和频谱平滑参数被如下识别和处理。
参数代码被提供给参数解码器(SSC解码器)以解码正弦和瞬时分量。频谱成形滤波器,在此是LPC合成滤波器,接收第一激励信号x8,或者组合的激励信号(x2+ρx8)。利用接收到的频谱平滑参数,该LPC合成滤波器再产生估计的具有原始形状频谱的SSC残留r`ssc并且估计的SSC残留r`ssc被增加给解码的正弦和瞬时分量以形成解码的信号。此外,参数噪声的一部分被插入到激励信号,类似于在图4和5中使用的策略。
一种用于在下一个RPE级中确定x8有用性的可能标准是它与输入残留r的相似性。因此,很自然地,增益ρ以某种方式涉及到这两种信号的相关性。设置移除在信号r和x8之间相似性的目标(图4),可以通过下面计算最优化值ρ:
其中的x8和r是在图6中这么识别的信号,而N表示在其上ρ被最优化的窗口长度。这一增益优选一帧接一帧地计算,即N是帧长度。从等式(1)得出,最佳增益正好是x8和在x8的功率上正归化的r的相关。具有与等式1相类似的特性的其他增益可以被定义(例如,等式1的表达式在均方差标准意义上是最优的,其它标准也可以被使用)。
注意到如果由x8提供的r的模型是完美的(例如r=x8),则混合系数变为1并且r8变为0,因为不需要额外的模型。另一方面,当x8不是r的好模型时,混合系数将取小的值并且第二RPE级主要作用于r而不是x8,换句话说,抽取2层仅仅有限地使用由抽取8层提供的信息。
所述的技术可以适用在全部带宽的信号或者特定频带上。质量参数ρ意味着完全滤波以产生r8意味着一个而不是多个参数的可能性。在此描述的方法可以扩展到包括多于两个激励信号的分层的比特流。
Claims (10)
1.一种编码数字音频信号的方法,其中对于信号的每一个时间片段执行以下步骤:
-编码音频信号以提供表示该音频信号的参数代码(SSC),
-从该音频信号中减去该参数代码以获得第一残留信号(rssc),
-频谱平滑该第一残留信号(rssc)以获得频谱平滑的残留信号(r)和频谱平滑参数,
-利用一个脉冲串编码器,从频谱平滑的残留信号(r)计算第一激励信号,
-将该第一激励信号(x8)的质量确定为其与频谱平滑的残留信号(r)的相似度,
-从频谱平滑的残留信号(r)中减去第一激励信号(x8)的一部分从而获得第二残留信号(r8),其中该部分依赖于确定的第一激励信号(x8)的质量,
-利用脉冲串编码器,从第二残留信号(r8)计算第二激励信号(x2),以及
-产生一个音频流,包括:
-参数代码(SSC),
-第一激励信号(x8),
-第二激励信号(x2),和
-指示第一激励信号(x8)的质量的参数(ρ)。
2.根据权利要求1的方法,其中所述参数代码包括音频信号的正弦和噪声分量。
3.根据权利要求1的方法,其中利用线性预测编码(LPC)执行频谱平滑。
4.根据权利要求1的方法,其中第一激励信号(x8)的质量基于第一激励信号(x8)和频谱平滑残留信号(r)之间的相关性。
5.一种音频编码器,其适于编码数字音频信号的时间片段,该编码器包括:
-编码器,用于编码数字音频信号以提供表示该信号的参数代码(SSC),
-减法器,用于从该音频信号中减去对应于该参数代码的信号以获得第一残留信号(rssc),
-频谱平滑单元,用于频谱平滑该第一残留信号(rssc)以获得频谱平滑的残留信号(r)和频谱平滑参数,
-第一脉冲串编码器,用于计算频谱平滑残留信号(r)的第一激励信号,
-用于将第一激励信号(x8)的质量确定为其与频谱平滑残留信号(r)的相似度的装置,
-减法器,用于从频谱平滑残留信号(r)中减去第一激励信号(x8)的一部分,从而获得第二残留信号(r8),其中该部分依赖于所确定的第一激励信号(x8)的质量,
-第二脉冲串编码器,用于计算第二残留信号(r8)的第二激励信号(x2),和
-比特流产生器(15),用于产生一个音频流(AS),该音频流(AS)包括:
-参数代码(SSC),
-第一激励信号(x8),
-第二激励信号(x2),和
-指示第一激励信号(x8)的质量的参数(ρ)。
6.根据权利要求5的音频编码器,其中所述参数代码包括音频信号的正弦和噪声分量。
7.根据权利要求5的音频编码器,包括适合执行频谱平滑的线性预测编码器(LPC)。
8.根据权利要求5的音频编码器,其中指示第一激励信号(x8)的质量的参数(ρ)是基于第一激励信号(x8)和频谱平滑残留信号(r)之间的相关。
9.一种用于解码接收到的音频流(AS)的方法,其中该音频流对于一个音频信号的多个片段中的每一个包括:
-参数代码(SSC),
-第一激励信号(x8),由频谱平滑残留信号(r)的脉冲串编码而获得,该残留信号(r)通过从音频信号中减去一个编码音频信号而获得,
-第二激励信号(x2),由第二残留信号的脉冲串编码而获得,所述第二残留信号通过从频谱平滑的残留信号(r)中减去第一激励信号(x8)的一部分而产生,其中该部分依赖于确定的第一激励信号(x8)的质量,以及
-指示第一激励信号(x8)的质量的参数(ρ),
该方法包括
-根据质量参数(ρ),组合第一和第二激励信号(x8,x2)以获得一个组合的激励信号,
-利用线性预测从组合的激励信号合成第一残留信号(r`ssc),以及
-从所述参数代码(SSC)和第一残留信号(r`ssc)进行解码。
10.一种用于接收和解码音频流(AS)的音频播放器,其中音频流对于音频信号中的多个片段的每一个包括:
-参数代码(SSC),
-第一激励信号(x8),由频谱平滑残留信号(r)的脉冲串编码而获得,该残留信号(r)通过从音频信号中减去一个编码音频信号而获得,
-第二激励信号(x2),由第二残留信号的脉冲串编码而获得,所述第二残留信号通过从频谱平滑的残留信号(r)中减去第一激励信号(x8)的一部分而产生,其中该部分依赖于确定的第一激励信号(x8)的质量,以及
-指示第一激励信号(x8)的质量的参数(ρ),
该音频播放器包括
-根据质量参数(ρ)组合第一和第二激励信号(x8,x2)以获得一个组合的激励信号的装置,
-利用线性预测从组合的激励信号合成第一残留信号(r`ssc)的装置,以及
-从所述参数代码(SSC)和第一残留信号(r`ssc)进行解码的装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04102576 | 2004-06-08 | ||
EP04102576.8 | 2004-06-08 | ||
PCT/IB2005/051821 WO2005122146A1 (en) | 2004-06-08 | 2005-06-03 | Audio encoding |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1965352A CN1965352A (zh) | 2007-05-16 |
CN1965352B true CN1965352B (zh) | 2011-05-25 |
Family
ID=34969304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005800189351A Expired - Fee Related CN1965352B (zh) | 2004-06-08 | 2005-06-03 | 音频编码 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20080312915A1 (zh) |
EP (1) | EP1756807B1 (zh) |
JP (1) | JP2008502022A (zh) |
CN (1) | CN1965352B (zh) |
AT (1) | ATE378676T1 (zh) |
DE (1) | DE602005003358T2 (zh) |
WO (1) | WO2005122146A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1905008A2 (en) * | 2005-07-06 | 2008-04-02 | Koninklijke Philips Electronics N.V. | Parametric multi-channel decoding |
US7991611B2 (en) * | 2005-10-14 | 2011-08-02 | Panasonic Corporation | Speech encoding apparatus and speech encoding method that encode speech signals in a scalable manner, and speech decoding apparatus and speech decoding method that decode scalable encoded signals |
JP4707623B2 (ja) * | 2006-07-21 | 2011-06-22 | 富士通東芝モバイルコミュニケーションズ株式会社 | 情報処理装置 |
KR20080073925A (ko) * | 2007-02-07 | 2008-08-12 | 삼성전자주식회사 | 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치 |
KR101413967B1 (ko) | 2008-01-29 | 2014-07-01 | 삼성전자주식회사 | 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치 |
KR101441897B1 (ko) * | 2008-01-31 | 2014-09-23 | 삼성전자주식회사 | 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치 |
US8190440B2 (en) * | 2008-02-29 | 2012-05-29 | Broadcom Corporation | Sub-band codec with native voice activity detection |
CN102460574A (zh) * | 2009-05-19 | 2012-05-16 | 韩国电子通信研究院 | 用于使用层级正弦脉冲编码对音频信号进行编码和解码的方法和设备 |
JP5695074B2 (ja) * | 2010-10-18 | 2015-04-01 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 音声符号化装置および音声復号化装置 |
WO2018109143A1 (en) * | 2016-12-16 | 2018-06-21 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods, encoder and decoder for handling envelope representation coefficients |
EP3671741A1 (en) * | 2018-12-21 | 2020-06-24 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Audio processor and method for generating a frequency-enhanced audio signal using pulse processing |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1364290A (zh) * | 2000-03-15 | 2002-08-14 | 皇家菲利浦电子有限公司 | 用于声频编码的拉盖尔函数 |
CN1369092A (zh) * | 1999-08-09 | 2002-09-11 | 多尔拜实验特许公司 | 高质量音频的可缩放编码方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8500843A (nl) * | 1985-03-22 | 1986-10-16 | Koninkl Philips Electronics Nv | Multipuls-excitatie lineair-predictieve spraakcoder. |
JPH05265492A (ja) * | 1991-03-27 | 1993-10-15 | Oki Electric Ind Co Ltd | コード励振線形予測符号化器及び復号化器 |
JP3348759B2 (ja) * | 1995-09-26 | 2002-11-20 | 日本電信電話株式会社 | 変換符号化方法および変換復号化方法 |
JPH1020888A (ja) * | 1996-07-02 | 1998-01-23 | Matsushita Electric Ind Co Ltd | 音声符号化・復号化装置 |
JP3464371B2 (ja) * | 1996-11-15 | 2003-11-10 | ノキア モービル フォーンズ リミテッド | 不連続伝送中に快適雑音を発生させる改善された方法 |
US6016111A (en) * | 1997-07-31 | 2000-01-18 | Samsung Electronics Co., Ltd. | Digital data coding/decoding method and apparatus |
US6996522B2 (en) * | 2001-03-13 | 2006-02-07 | Industrial Technology Research Institute | Celp-Based speech coding for fine grain scalability by altering sub-frame pitch-pulse |
KR100908114B1 (ko) * | 2002-03-09 | 2009-07-16 | 삼성전자주식회사 | 스케일러블 무손실 오디오 부호화/복호화 장치 및 그 방법 |
-
2005
- 2005-06-03 DE DE602005003358T patent/DE602005003358T2/de active Active
- 2005-06-03 US US11/569,779 patent/US20080312915A1/en not_active Abandoned
- 2005-06-03 EP EP05744005A patent/EP1756807B1/en not_active Not-in-force
- 2005-06-03 WO PCT/IB2005/051821 patent/WO2005122146A1/en active Application Filing
- 2005-06-03 AT AT05744005T patent/ATE378676T1/de not_active IP Right Cessation
- 2005-06-03 CN CN2005800189351A patent/CN1965352B/zh not_active Expired - Fee Related
- 2005-06-03 JP JP2007526640A patent/JP2008502022A/ja not_active Ceased
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1369092A (zh) * | 1999-08-09 | 2002-09-11 | 多尔拜实验特许公司 | 高质量音频的可缩放编码方法 |
CN1364290A (zh) * | 2000-03-15 | 2002-08-14 | 皇家菲利浦电子有限公司 | 用于声频编码的拉盖尔函数 |
Non-Patent Citations (2)
Title |
---|
Kroon P.Regular-Pulse Excitation-A Novel Approach to Effective andEfficient Multipulse Coding of Speech.IEEE transactions on Acoustics, Speech and Signal ProcessingVol. 34 no. 5.1986,Vol. 34(no. 5),1054-1063. |
Kroon P.Regular-Pulse Excitation-A Novel Approach to Effective andEfficient Multipulse Coding of Speech.IEEE transactions on Acoustics, Speech and Signal ProcessingVol. 34 no. 5.1986,Vol. 34(no. 5),1054-1063. * |
Also Published As
Publication number | Publication date |
---|---|
WO2005122146A1 (en) | 2005-12-22 |
EP1756807A1 (en) | 2007-02-28 |
CN1965352A (zh) | 2007-05-16 |
DE602005003358D1 (de) | 2007-12-27 |
EP1756807B1 (en) | 2007-11-14 |
ATE378676T1 (de) | 2007-11-15 |
US20080312915A1 (en) | 2008-12-18 |
DE602005003358T2 (de) | 2008-09-11 |
JP2008502022A (ja) | 2008-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1965352B (zh) | 音频编码 | |
US11705137B2 (en) | Apparatus for encoding and decoding of integrated speech and audio | |
CN101925950B (zh) | 音频编码器和解码器 | |
CN101577605B (zh) | 基于滤波器相似度的语音lpc隐藏和提取算法 | |
CN104025189B (zh) | 编码语音信号的方法、解码语音信号的方法,及使用其的装置 | |
CN101371296B (zh) | 用于编码和解码信号的设备和方法 | |
CN101189662A (zh) | 带多级码本和冗余编码的子带话音编解码器 | |
CN102177426A (zh) | 多分辨率切换音频编码/解码方案 | |
CN105706166A (zh) | 通过在频域插入时间预整形噪声进行音频带宽扩展 | |
CN1890713B (zh) | 用于数字信号压缩编码的多脉冲字典的索引间的编码转换的方法及系统 | |
CN101099199A (zh) | 音频编码和解码 | |
US6768978B2 (en) | Speech coding/decoding method and apparatus | |
CN101171626A (zh) | 通过修改残余对声码器内的帧进行时间扭曲 | |
US20070106505A1 (en) | Audio coding | |
KR20070030816A (ko) | 오디오 인코딩 | |
KR100255297B1 (ko) | 음성 데이터 부호화/복호화장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110525 Termination date: 20130603 |