CN105723457B - 从变换编码/解码过渡到预测编码/解码 - Google Patents
从变换编码/解码过渡到预测编码/解码 Download PDFInfo
- Publication number
- CN105723457B CN105723457B CN201480062220.5A CN201480062220A CN105723457B CN 105723457 B CN105723457 B CN 105723457B CN 201480062220 A CN201480062220 A CN 201480062220A CN 105723457 B CN105723457 B CN 105723457B
- Authority
- CN
- China
- Prior art keywords
- frame
- coding
- decoding
- filter
- decoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007704 transition Effects 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 claims abstract description 61
- 230000009466 transformation Effects 0.000 claims abstract description 45
- 230000015572 biosynthetic process Effects 0.000 claims description 25
- 238000003786 synthesis reaction Methods 0.000 claims description 25
- 238000012952 Resampling Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 12
- 238000013139 quantization Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000007774 longterm Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 5
- 239000002131 composite material Substances 0.000 claims description 4
- 239000011692 calcium ascorbate Substances 0.000 claims description 3
- 239000000541 tocopherol-rich extract Substances 0.000 claims description 3
- 239000002478 γ-tocopherol Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 15
- 230000005284 excitation Effects 0.000 description 12
- 238000005070 sampling Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000006073 displacement reaction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 239000004261 Ascorbyl stearate Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 1
- 239000004099 Chlortetracycline Substances 0.000 description 1
- 239000004104 Oleandomycin Substances 0.000 description 1
- 239000004100 Oxytetracycline Substances 0.000 description 1
- 239000004105 Penicillin G potassium Substances 0.000 description 1
- 239000004098 Tetracycline Substances 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000728 ammonium alginate Substances 0.000 description 1
- 235000010407 ammonium alginate Nutrition 0.000 description 1
- 239000000648 calcium alginate Substances 0.000 description 1
- 235000010410 calcium alginate Nutrition 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000542 fatty acid esters of ascorbic acid Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001453 impedance spectrum Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000000737 potassium alginate Substances 0.000 description 1
- 235000010408 potassium alginate Nutrition 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 239000000770 propane-1,2-diol alginate Substances 0.000 description 1
- 235000010409 propane-1,2-diol alginate Nutrition 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000000661 sodium alginate Substances 0.000 description 1
- 235000010413 sodium alginate Nutrition 0.000 description 1
- PPASLZSBLFJQEF-RKJRWTFHSA-M sodium ascorbate Substances [Na+].OC[C@@H](O)[C@H]1OC(=O)C(O)=C1[O-] PPASLZSBLFJQEF-RKJRWTFHSA-M 0.000 description 1
- 239000002076 α-tocopherol Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种对数字音频信号进行解码的方法,该方法包括以下步骤:根据该数字信号的前一个样本帧的逆变换解码进行解码(E602),该帧是根据变换编码接收并编码的;根据该数字信号的当前样本帧的预测解码进行解码(E608),该帧是根据预测编码接收并编码的。该当前帧的该预测解码是过渡预测解码,该过渡预测解码不使用该前一个帧所产生的任何自适应字典,并且该方法另外包括:将该预测解码的至少一个状态重新初始化成预定的默认值的步骤(E606)、将通过该当前帧的预测解码合成的信号区段与对应于该前一个帧的该解码的存储区段的通过逆变换解码合成的信号区段进行组合的相加重叠步骤(E609)。本发明相关地涉及一种编码方法,该编码方法包括将该预测编码的至少一个状态重新初始化成预定的默认值。本发明涉及一种实现这些对应的方法的编码器和解码器。
Description
技术领域
本发明涉及数字信号编码领域。
根据本发明的编码具体被适配成用于传输和/或存储如音频信号(语音、音乐或其他)的数字音频信号。
背景技术
本发明借助于交替至少两种编码模式并且其算法延迟被适配成用于会话应用(通常≤40ms)的多模技术有利地适用于语音、音乐和混合内容信号的统一编码。
为了有效地对语音声音进行编码,主张CELP(“码激励线性预测”)类型或其变体ACELP(“代数码激励线性预测”)技术,最近也更多地提出了 CELP编码的替代方案,如BV16、BV32、iLBC或SILK编码器。另一方面,主张变换编码技术以有效地对音乐声音进行编码。
线性预测编码器并且更具体地CELP类型的编码器是预测编码器。它们的目标是基于以下元素中的至少某部分对语音产生进行建模:用于对声道进行建模的短期线性预测、用于在有声期中对声带的振动进行建模的长期预测、以及来源于一般被称为固定字典的向量量化字典的用于表示不可能通过预测对其进行建模的“新事物”的激励(白噪声、代数激励)。
使用最多的变换编码器(例如MPEG AAC或ITU-T G.722.1 Annex C编码器)使用MDCT(“经修改的离散变换”)类型的临界采样变换以便在变换域中压缩信号。“临界采样变换”指针对其在变换域中的系数的数量等于所分析的时间样本的数量的变换。
用于有效地对包含这两种类型的内容的信号进行编码的解决方案在于随着时间过去(一帧一帧地)选择最佳技术。这种解决方案已经具体地由 3GPP(“第三代合作伙伴计划”)标准主体通过被称为AMR WB+(或增强型 AMR-WB)的技术并且最近更多地通过MPEG-HUSAC(“统一语音音频编码”)编解码器而主张。在对算数延迟没有严苛限制的情况下,由AMR-WB+ 和USAC设想的这些应用不是会话式的,但是对应于广播和存储服务。
USAC标准是在ISO/IEC文件23003-3:2012,信息技术--MPEG音频技术--部分3:统一语音和音频编码中公布的。
举例说明,在M.诺伊恩多夫(Neuendorf)等人的文章《针对低比特率统一语音和音频编码的新方案-MPEG RM0》,2009年5月7-10日,第126 届AES会议中描述了被称为RM0(参考模型0)的USAC编解码器的初始版本。此编解码器在至少两种编码模式之间交替:
·针对语音类型的信号:使用ACELP技术的LPD(“线性预测域”)模式;
·针对音乐类型的信号:使用MDCT(“经修改的离散变换”)技术的 FD(“频域”)模式。
在下文回忆ACELP和MDCT编码的原理。
一方面,CELP编码(包括其ACELP变体)是基于源滤波器模型的预测编码。通常,滤波器对应于具有通过线性预测(LPC,线性预测编码)获得的传递函数1/A(z)的全极点滤波器。实际上,合成使用滤波器1/A(z)的量化版本源(也就是说,预测线性滤波器的激励)通常是通过对声带振动进行建模的长期预测获得的预测与以噪声字典等的代数编码 (ACELP)的形式描述的随机激励(或创新)的组合。通过在由滤波器用传递函数W(z)加权的信号域中的平方误差标准的最小化执行对“最优”激励的搜索,A(z)该传递函数通常源自具有形式W(z)=A(z/γ1)/A(z/γ2) 的线性预测滤波器。将注意的是,已经提出了CELP模型的许多变体并且在此将保留UIT-T G.718标准的CELP编码的示例,其中,两个LPC滤波器每一帧被量化并且LPC激励是根据分类被编码的,其中,模式是针对有声的、无声的、瞬态的声音等适配的。此外,CELP编码的替代方案也已经被提出,包括仍然基于线性预测的BV16、BV32、iLBC或SILK编码器。通常,预测编码(包括CELP编码)出于历史的和其他的原因(宽频带线性预测限制、针对高频的算法复杂性等)以受限制的采样频率(≤16kHz)进行操作;因此,为了以典型的16至48kHz的频率进行操作,还使用重采样操作(通过 FIR滤波器、滤波器组或IIR滤波器)以及可选地针对可以是参数频带扩展的高频带的单独编码-在此不再回顾这些重采样和高频带编码操作。
另一方面,MDCT变换编码于编码器处在三个步骤之间被划分:
1.在对应于2个块的长度之上通过在此被称为“MDCT窗”的窗对信号进行加权;
2.时间混叠(或“时域混叠”)以形成缩减的块(其长度除以2) ;
3.对缩减的块进行DCT-IV(“离散余弦变换”)变换。
将注意的是,TDAC变换类型的计算变体可以使用例如傅里叶变换 (FFT)而不是DCT变换。
MDCT窗通常被划分为具有相等长度的被称为“夸特(quarter)”的4 个相邻的部分。
信号乘以分析窗并且然后执行混叠:第一夸特(被加窗的)在第二夸特上混叠(也就是说,时间翻转并且重叠)而第四夸特在第三夸特上混叠。
更确切地,一个夸特在另一个夸特上的混叠是通过以下方式执行的:第一夸特的第一个样本与第二夸特的最后一个样本相加(或相减),第一夸特的第二个样本与第二夸特的倒数第二个样本相加(或相减),并且如此这般直到第一夸特的最后一个样本与第二夸特的第一个样本相加(或相减)。
因此,从4个夸特获得2个混叠的夸特,其中,每个样本是有待编码的信号的2个样本的线性组合的结果。此线性组合被称为时间混叠。将注意的是,时间混叠对应于混合两个时间区段并且两个时间区段在每个“混叠的夸特”中的相对水平取决于分析窗/合成窗。
这2个混叠的夸特此后在DCT变换之后被共同地编码。针对后面的帧存在半个窗的移位(即,50%重叠),前一个帧的第三和第四夸特变成当前帧的第一和第二夸特。在混叠之后,与在前一帧中相同的样本对的第二线性组合被派遣,但是具有不同的权重。
在解码器处,在逆DCT变换之后,因此获得这些混叠信号的经解码的版本。两个连续的帧包含相同的2个夸特的2种不同的混叠结果,也就是说,针对每个样本对我们具有拥有不同的但已知的权重的2种线性组合结果:方程组因此被求解以获得输入信号的经解码的版本,通过使用2个连续的经解码的帧可以因此免去时间混叠。
所提及的方程组通常是通过去混叠、乘以合理选择的合成窗并且然后重叠相加公共部分而求解的。此重叠相加同时确保2个连续的经解码的帧之间的平缓过渡(没有由于量化误差引起的中断),实际上这个操作表现得像淡入淡出。当第一夸特或第四夸特的窗针对每个样本为零时,值得一提的是在窗的这个部分中没有时间混叠的MDCT变换。在这种情况中,平缓过渡不是由MDCT变换确保的,其必须通过其他手段完成,如,例如,外部淡入淡出。
如由在包括G.722.1编码的G.722.1的附件C中的组合实现方式所展示的,变换编码(包括MDCT类型的编码)理论上可以轻易地适配成用于各种输入和输出采样频率;然而,还有可能使用具有与重采样一起的预/后处理操作的变换编码(通过FIR滤波器、滤波器组或IIR滤波器),其中可选地,可以是参数频带扩展的高频带的单独编码-在此不再回顾这些重采样和高频带编码操作,但是3GPP e-AAC+编码器给出了这种组合的示例性实施例 (重采样、低频带变换编码和频带扩展)。
应当注意,通过各种模式(基于线性预测的时间LPD、基于变换的频率 FD)编码的声频带可以根据所选模式和比特率变化。此外,可以针对每个帧在开放回路中或者如在AMR-WB+编码中在闭合回路中执行模式决定,也就是说,先验地根据数据并且根据可用的观察值做出决定。
在使用至少两种编码模式的编解码器中,LPD与FD模式之间的过渡在确保没有切换缺陷的充分的质量中是重要的,已知FD和LPD模式是不同的种类-一个依赖于在信号的频域中的变换编码,而另一个使用具有滤波器记忆的(时间)预测线性编码,该滤波器记忆在每个帧处进行更新。管理对应于USAC RM0编解码器的内部模式切换的示例在J.勒孔特(Lecomte)等人的文章“针对基于LPC与基于非LPC的音频编码之间的过渡的高效淡入淡出窗(Efficient cross-fade windows for transitions between LPC-based and non-LPCbased audio coding)”,2009年5月7-10日,第126届AES会议中被详细说明。如在此文章中解释的,主要困难在于LPD到FD模式(并且反之亦然)之间的过渡。
为了处理在FD类型的核与LPD类型的核之间的过渡问题,在编号 WO2013/016262下公布的专利申请(图1中所展示)提出通过使用对帧m 进行编码的FD类型(140)的编码器与解码器的合成来更新对帧m+1进行编码的LPD类型(130)的编解码器的滤波器的记忆,所述记忆更新仅在对 FD类型的帧进行编码的过程中是必需的。这项技术因此使得有可能在110 处选择编码模式并且(在150处)触发从FD到LPD类型的编码的过程中来这样操作而没有过渡缺陷(伪像),因为当用LPD技术对帧进行编码时,CELP (LPD)编码器的记忆(或状态)已经由发生器160基于帧m的重构信号进行了更新。在两个核(FD和LDP)不以相同的采样频率操作的情况中,在专利申请WO2013/016262中描述的技术提出对FD类型的编码器的记忆进行重采样的步骤。
这项技术的缺点一方面是其使得需要在编码器处访问经解码的信号并且因此在编码器中强制本地合成。另一方面,其使得需要在FD类型的编码和解码过程中执行对滤波器的记忆进行更新的操作(可能包括重采样步骤),以及总共用于在FD类型的前一帧中执行CELP类型的分析/编码的一组操作。这些操作可能是复杂的并且在LPD类型的过渡帧中与常规编码/解码操作叠加,由此导致“多模”编码复杂性尖峰。
因此存在需要以获得变换编码或解码与预测编码或解码之间的有效过渡,这不要求增加编码器或解码器的复杂性,该编码器或解码器是针对展现语音和音乐的交替的音频编码的会话式应用提供的。
发明内容
本发明改善了这种状况。
本发明针对这个目的提出了一种用于对数字音频信号进行解码的方法,该方法包括以下步骤:
-根据数字信号的根据变换编码接收并编码的前一个样本帧的逆变换解码进行解码;
-根据数字信号的根据预测编码接收并编码的当前样本帧的预测解码进行解码。该方法使得当前帧的预测解码是过渡预测解码,该过渡预测解码不使用前一个帧所产生的任何自适应字典,并且使得该方法另外包括:
-将预测解码的至少一个状态重新初始化成预定的默认值的步骤;
-重叠相加步骤,该重叠相加步骤将通过当前帧的预测解码合成的信号区段与对应于前一个帧的解码的存储区段的通过逆变换解码合成的信号区段进行组合。
因此,在对前一帧的经解码的信号没有任何需要的情况下执行状态的重新初始化,其是以非常简单的方式通过预定值或零常数值执行的。解码器的复杂性因此关于用于对要求分析或其他计算的状态记忆进行更新的技术被降低了。然后通过实现重叠相加步骤避免过渡伪像,该重叠相加步骤使得有可能与前一帧联系。
利用过渡预测解码,不必针对这个当前帧重新初始化自适应字典的记忆,因为其未被使用。这进一步简化了过渡的实现。
在具体实施例中,逆变换解码具有比预测解码的处理延迟更小的处理延迟并且由预测解码所解码的当前帧的第一区段被前一个帧的解码所产生的对应于在前一个帧的解码过程中的存储器中的延迟移位和放置的区段替换。
这使得有可能有利地使用这个延迟移位来提高过渡的质量。
在具体实施例中,在重叠相加步骤之前通过施加补偿之前施加于该区段的加窗的逆窗口来校正通过逆变换解码合成的信号区段。
因此,经解码的当前帧具有接近原始信号的能量的能量。
在变体实施例中,以对应于当前帧的经解码的信号区段的采样频率预先对通过逆变换解码合成的信号区段进行重采样。
这使得有可能在变换解码的采样频率不同于预测解码的采样频率的情况下执行无缺陷过渡。
在本发明的一个实施例中,预测编码的状态在以下状态的列表中:
-用于以预测解码的内部频率进行重采样的滤波器的状态记忆;
-预加重/去加重滤波器的状态记忆;
-线性预测滤波器的系数;
-合成滤波器的状态记忆(在预强调的域中);
-自适应字典的记忆(过去的激励);
-低频后置滤波器(LPF)的状态记忆;
-固定字典增益的量化记忆。
这些状态用于实现预测解码。这些状态中的大多数被重新初始化成零值或预定的常数值,由此进一步简化了这个步骤的实现。然而这个列表不是详尽的并且其他状态可以非常明显地被考虑到这个重新初始化步骤中。
在本发明的具体实施例中,针对当前帧对线性预测滤波器的系数进行计算是通过对独特的滤波器的系数进行解码并且通过将完全相同的系数分配给结束帧、中间帧和开始帧线性预测滤波器执行的。
实际上,当线性预测滤波器的系数已经被重新初始化时,开始帧系数是未知的。经解码的值然后用于获得针对完整帧的线性预测滤波器的系数。这因此是以简单的方式执行的而没有提供经解码的音频信号的显著降级。
在变体实施例中,针对当前帧对线性预测滤波器的系数进行计算包括以下步骤:
-通过使用结束帧滤波器的系数的经解码的值以及开始帧滤波器的系数的预定的重新初始化值来确定中间帧滤波器的系数的经解码的值;
-用中间帧滤波器的系数的经解码的值替换开始帧滤波器的系数的经解码的值;
-通过使用结束帧、中间帧和开始帧滤波器的系数的因此解码的值来针对当前帧确定线性预测滤波器的系数。
因此,对应于中间帧滤波器的系数是以较低的误差解码的。
在另一个变体实施例中,开始帧线性预测滤波器的系数被重新初始化成对应于长期预测滤波器系数的平均值的预定值并且针对当前帧的线性预测系数是通过使用因此预定的值以及结束帧滤波器的系数的经解码的值确定的。
因此,开始帧系数被认为是用预定的值已知的。这使得有可能以更准确的方式检索完整帧的系数并且更迅速地稳定预测解码。
在可能的实施例中,预定的默认值取决于有待解码的帧的类型。
因此该解码很好地适配于有待解码的信号。
本发明还涉及一种用于对数字音频信号进行编码的方法,该方法包括以下步骤:
-根据变换编码对数字信号的前一个样本帧进行编码;
-接收数字信号的有待根据预测编码进行编码的当前样本帧。该方法使得当前帧的预测编码是过渡预测编码,该过渡预测编码不使用前一个帧所产生的任何自适应字典,并且使得该方法另外包括:
-将预测编码的至少一个状态重新初始化成预定的默认值的步骤。
因此,状态的重新初始化是在对前一帧的信号的重构没有任何需要的情况下执行的并且因此用于本地解码。该重新初始化是以非常简单的方式通过预定的值或零常数值执行的。编码的复杂性因此关于用于对要求分析或其他计算的状态记忆进行更新的技术被降低了。
利用过渡预测编码,不必针对这个当前帧重新初始化自适应字典的记忆,因为其未被使用。这进一步简化了过渡的实现。
在具体实施例中,线性预测滤波器的系数形成该预测编码的至少一个状态的一部分并且针对当前帧对线性预测滤波器的系数进行计算是通过确定或者中间帧的或者结束帧的单个预测滤波器的系数的经编码的值并且将完全相同的经编码的值分配给开始帧和结束帧或中间帧预测滤波器的系数执行的。
实际上,当线性预测滤波器的系数已经被重新初始化时,开始帧系数是未知的。经编码的值然后用于获得针对完整帧的线性预测滤波器的系数。这因此是以简单的方式执行的而没有提供经编码的音频信号的显著降级。
因此,有利地,预测编码的至少一个状态是以直接方式编码的。
实际上,通常被保留用于对中间帧或开始帧滤波器的系数集进行编码的比特例如被用来以直接的方式对预测编码的至少一个状态(例如,去加重滤波器的记忆)进行编码。
在变体实施例中,线性预测滤波器的系数形成预测编码的至少一个状态的一部分并且针对当前帧对线性预测滤波器的系数进行计算包括以下步骤:
-通过使用结束帧滤波器的系数的经编码的值以及开始帧滤波器的系数的预定的重新初始化值来确定中间帧滤波器的系数的经编码的值;
-用中间帧滤波器的系数的经编码的值替换开始帧滤波器的系数的经编码的值;
-通过使用结束帧、中间帧和开始帧滤波器的系数的因此编码的值来针对当前帧确定线性预测滤波器的系数。
因此,对应于中间帧滤波器的系数是以较小百分比误差编码的。
在变体实施例中,线性预测滤波器的系数形成预测编码的至少一个状态的一部分,开始帧线性预测滤波器的系数被重新初始化成对应于长期预测滤波器系数的平均值的预定值并且针对当前帧的线性预测系数是通过使用因此预定的值以及结束帧滤波器的系数的经编码的值确定的。
因此,开始帧系数被认为是用预定的值已知的。这使得有可能在没有附加分析的情况下获得前一帧的预测系数的良好估计以计算完整帧的预测系数。
在可能的实施例中,预定的默认值取决于有待编码的帧的类型。
本发明还涉及一种数字音频信号解码器,该数字音频信号解码器包括:
-逆变换解码实体,该逆变换解码实体能够对数字信号的根据变换编码接收并编码的前一个样本帧进行解码;
-预测解码实体,该预测解码实体能够对数字信号的根据预测编码接收并编码的当前样本帧进行解码。该解码器使得当前帧的预测解码是过渡预测解码,该过渡预测解码不使用前一个帧所产生的任何自适应字典,并且使得该解码器另外包括:
-重新初始化模块,该重新初始化模块能够将预测解码的至少一个状态重新初始化成预定的默认值;
-处理模块,该处理模块能够执行重叠相加,该重叠相加将通过当前帧的预测解码合成的信号区段与对应于前一个帧的解码的存储区段的通过逆变换解码合成的信号区段进行组合。
同样地,本发明涉及一种数字音频信号编码器,该数字音频信号编码器包括:
-变换编码实体,该变换编码实体能够对数字信号的前一个样本帧进行编码;
-预测编码实体,该预测编码实体能够对数字信号的当前样本帧进行编码。该编码器使得当前帧的预测编码是过渡预测编码,该过渡预测编码不使用前一个帧所产生的任何自适应字典,并且使得该编码器另外包括:
-重新初始化模块,该重新初始化模块能够将预测编码的至少一个状态重新初始化成预定的默认值。
解码器和编码器提供了与它们分别实现的解码方法和编码方法相同的优点。
最后,本发明涉及一种计算机程序,该计算机程序包括多条代码指令,当这些指令由处理器执行时用于实现如之前描述的解码方法的和/或如之前描述的编码方法的步骤。
本发明还涉及一种存储装置,该存储装置可由处理器读取、可能集成于解码器中或集成于编码器中(可选地可移除的)、存储实现如之前描述的解码方法和/或编码方法的计算机程序。
附图说明
当检查以下详细说明的描述以及附图时,本发明的其他特性和优点将变得明显,在附图中:
-图1展示了现有技术的并且之前描述的在变换编码与预测编码之间的过渡过程;
-图2展示了根据本发明的实现方式在编码器处在根据变换编码所编码的帧与根据预测编码所编码的帧之间的过渡;
-图3展示了根据本发明的编码方法和编码器的实施例;
-图4以流程图的形式展示了在具体实施例中实现的用于在当前帧的预测编码过程中确定线性预测滤波器的系数的这些步骤,前一帧已经根据变换编码被编码;
-图5展示了根据本发明的实现方式在解码器处在根据逆变换解码所解码的帧与根据预测解码所解码的帧之间的过渡;
-图6展示了根据本发明的解码方法和解码器的实施例;
-图7以流程图的形式展示了在本发明的实施例中实现的用于在当前帧的预测解码过程中确定线性预测滤波器的系数的这些步骤,前一帧已经根据逆变换解码被解码;
-图8展示了在根据本发明的实施例的解码过程中实现的重叠相加步骤;
-图9展示了当其具有不同延迟时实现变换解码与预测解码之间的过渡的特定模式;并且
-图10展示了根据本发明的编码器或解码器的硬件实施例。
具体实施方式
图2以示意性的方式展示了根据本发明在变化编码与预测编码之间的过渡过程中的编码的原理。
在此考虑的是有待或者用例如MDCT类型的变换编码器(FD)或者用例如ACELP类型的预测编码器(LPD)进行编码的音频帧的顺序性;将注意,在不影响本发明的情况下,附加的编码模式是有可能的。在这个示例中,变换编码器(FD)使用“图基(Turkey)”类型的小延迟窗(本发明不依赖所使用的窗的类型)并且其总长度等于如在图中所表示的两个帧(包含零值)。
在编码过程中,FD编码器的窗以使得窗的最后的非零部分(在右边) 与输入信号的新帧的结束对应的这种方式被同步化。注意,分裂成图2中所展示的多个帧包括“先行”(或未来信号)并且如关于图5进一步解释的实际上被编码的帧因此通常被时移(延迟)。当不存在过渡时,编码器执行如在现有技术(MDCT)中描述的混叠和DCT变换过程。当必须由LPD类型的编码器编码的帧到达时,窗未被施加,对应于LPD编码器的滤波器的状态或记忆被重新初始化成预定的值。
在此考虑的是,LPD编码器源自UIT-T G.718编码器,该UIT-T G.718 编码器的CELP编码是以12.8kHz的内部频率操作的。根据本发明的LPD 编码器可以根据比特率以两种内部频率(12.8kHz或16kHz)操作。
根据预测编码(LPD)的状态,至少暗示以下状态:
·针对输入频率fs在CELP编码的内部频率(12.8或16kHz)处的重采样滤波器的状态记忆。在此考虑的是,重采样可以由FIR滤波器、滤波器组或IIR滤波器根据输入频率和内部频率执行,已知FIR类型的实施例简化了对应于过去输入信号的状态记忆的使用。
·预加重滤波器(1-αz-1,其中,典型地α=0.68)和去加重滤波器(1/ (1-αz-1))的状态记忆。
·线性预测滤波器在前一帧的结束处的系数或它们在如LSF(“线谱频率”)或ISF(“导抗谱频率”)域的这些域中的等效版本。
·通常阶数为16(在预强调的域中)的LPC合成滤波器的状态记忆。
·自适应字典的记忆(过去的CELP激励)。
·如在标准UIT-G.718(参见标准UIT-T G.718的条款7.14.1.1)中定义的低频后置滤波器(LPF)的状态记忆。
·固定字典增益的量化记忆(当此量化是用记忆执行时)。
图3展示了根据本发明的编码器和编码方法的实施例。
具体的实施例在于使用MDCT的FD变换编解码器与ACELP类型的预测编解码器之间的过渡的框架中。
在由模块301放置于帧中的第一常规步骤(E301)之后,决定模块(决定)确定有待处理的帧是否应当由ACELP预测编码或者由FD变换编码进行编码。
在变换编码的情况中,MDCT变换的完整步骤是由变换编码实体302执行的(E302)。这个步骤尤其包括用如在图2中所展示的对齐的低滞后窗进行加窗、混叠步骤以及在DCT域中变换的步骤。帧FD此后在步骤(E303) 中被量化模块303量化并且然后因此编码的数据在E305处被比特流构建模块305写入比特流中。
从预测编码过渡到变换编码的情况在这个示例中不予处理,因为其不形成本发明的主题。
如果决定步骤(决定)选择ACELP预测编码,那么:
·要么前一帧(上一个ACELP)也已经被ACELP编码实体304编码,然后在对预测编码的记忆或状态进行更新时继续ACELP编码(E304)。我们在此不处理CELP编码的内部采样频率的切换问题(从12.8kHz到16kHz,并且反之亦然)。在步骤E305中,将编码的和量化的信息写入比特流中。
·要么前一帧(上一个MDCT)已经在E302处被变换编码实体302编码,在这种情况中,ACELP预测编码的记忆或状态在步骤(E306)中被重新初始化成提前预定的默认值(不一定是零)。这个重新初始化步骤是由重新初始化模块306针对预测编码的至少一个状态实现的。
针对当前帧的预测编码步骤然后在E308处由预测编码实体308实现。
在步骤E305中,将编码的和量化的信息写入比特流中。
在具体实施例中,这个预测编码E308可以是如由标准UIT-T G.718中的名称‘TC模式’定义的过渡编码,其中,激励的编码是直接的并且不使用前一帧所产生的任何自适应字典。然后执行激励的不依赖于前一帧的编码。这个实施例允许LPD类型的预测编码器稳定得更加迅速(关于将使用将被设置为零的自适应字典的常规CELP编码)。这进一步简化了根据本发明的过渡的实现。
在本发明的变体中,将有可能使得激励的编码不在过渡模式中而使得其以类似于G.718的方式使用CELP编码并且可能使用自适应字典(没有强制或限制分类)或者具有自适应和固定字典的常规CELP编码。然而,因为自适应字典还未被重新计算并且已经被设置为零,编码将是次优的,所以这个变体较不利。
在另一变体中,由TC模式在过渡帧中完成的CELP编码将能够由不依赖于前一帧的任何其他类型的编码(例如,通过使用iLBC类型的编码模型) 替换。
在具体实施例中,针对当前帧计算线性预测滤波器的系数的步骤E307 由计算模块307执行。
针对当前帧计算线性预测滤波器的系数的若干模式是有可能的。在此考虑的是,如在标准G.718中一样,预测编码(块304)每个帧执行两次线性预测分析,其中,对在结束帧(新)处获得的ISF(或等效方式的LSF)形式的LPC系数进行编码并且以非常降低的比特率对在中间帧(中间)处获得的LPC系数进行编码,其中,由子帧在前一帧的结束的LPC系数(旧)与当前帧(中间和新)的那些系数之间进行内插。
在第一实施例中,在FD类型的前一帧中的预测系数(旧)是未知的,因为没有LPC系数在FD编码器中被编码。然后选择对线性预测滤波器的单系数集进行编码,该线性预测滤波器要么对应于中间帧(中间)要么对应于结束帧(新)。这个选择可以例如是根据有待编码的信号的分类做出的。针对稳定的信号,将有可能选择中间帧滤波器。也可以做出任意的选择;在该选择涉及在帧的中间的LPC系数的情况中,在变体中,LPC系数(在ISP (“导抗谱对”)域或LSP(“线谱对”)域中)的内插将能够在跟随过渡LPD 帧的第二LPD帧中被修改。
基于所获得的这些编码值,根据已经做出的选择将完全相同的编码值分配给开始帧和结束帧或中间帧的预测滤波器系数(旧)。实际上,前一帧的 LPC系数(旧)是未知的,不可能如在G.718中一样对中间帧(中间)LPC 系数进行编码。将注意的是,在这个变体中,LPC系数(旧)的重新初始化不是绝对必需的,因为这些系数未被使用。在这种情况中,在每个子帧中使用的系数以与在帧中编码的值完全相同的方式固定住。
有利地,可以被保留用于对中间帧(中间)或开始帧LPC系数集进行编码的比特例如被用来以直接的方式对预测编码的至少一个状态(例如,去加重滤波器的记忆)进行编码。
在第二可能实施例中,实现图4中所展示的步骤。第一步骤E401是根据图3的步骤E306的实现对预测滤波器系数以及等效的ISF或LSF表示进行初始化,也就是说,初始化成预定值,例如,根据在LSP系数的先验学习基础之上的长期平均值。步骤E402对结束帧滤波器的系数(LSP新)进行编码并且所获得的编码值(LEP新Q)以及开始帧滤波器的系数(LSP旧) 的预定的初始化值在E403中被使用以对中间帧预测滤波器的系数(LSP中间)进行编码。执行用中间帧系数的编码值(LSP中间Q)替换开始帧系数的值(LSP旧)的步骤E404。步骤E405使得有可能基于这些因此编码的值 (LSP旧、LSP中间Q、LSP新Q)针对当前帧确定线性预测滤波器的系数。
在第三可能实施例中,线性预测滤波器针对前一帧的系数(LSP旧)被初始化成在使用LPC类型的频谱包络的FD编码器变体中已经可“免费”获得的值。在这种情况中,将有可能使用如在G.718中使用的“正常”编码,基于子帧的线性预测系数被计算作为预测滤波器的值旧、中间和新之间的插值,这个操作因此允许LPD编码器在没有附加的分析的情况下获得前一帧中的LPC系数的较好的估计。
在本发明的其他变体中,编码LPD将能够按照默认仅对LPC系数集(新) 进行编码,之前的变体实施例仅被适配成用于考虑在中间帧(中间)中没有可用的系数集。
在本发明的变体实施例中,可以在默认值被提前预定的情况下执行预测编码的状态的初始化,默认值可以例如对应于有待编码的帧的各种类型(例如,如果帧包括有声或无声类型的信号则这些初始化值可以不同)。
图5以示意性的方式展示了根据本发明在变化解码与预测解码之间的过渡过程中的解码的原理。
在此考虑的是有待或者用例如MDCT类型的变换解码器(FD)或者用例如ACELP类型的预测解码器(LPD)进行解码的音频帧的顺序性。在这个示例中,变换解码器(FD)使用“图基”类型的小延迟合成窗(本发明不依赖所使用的窗的类型)并且其总长度等于如在图中所表示的两个帧(包含零值)。
在本发明的含义内,在用FD编码器编码的帧的解码之后,对经解码的帧应用逆DCT变换。对后者进行去混叠并且然后将合成窗施加于去混叠的信号上。FD编码器的合成窗以使得窗的非零部分(在左边)与新帧相对应的这种方式被同步化。因此,帧可以被解码直到点A,因为信号在这个点之前没有任何时间混叠。
在LPD帧到达的时刻,如在编码器处,预测解码的状态或记忆被重新初始化成预定的值。
根据预测解码(LPD)的状态,至少暗示以下状态:
·在输出频率fs处针对CELP解码的内部频率(12.8kHz或16kHz) 的重采样滤波器的状态记忆。在此考虑的是,重采样可以由FIR滤波器、滤波器组或IIR滤波器根据输入频率和内部频率执行,已知FIR类型的实施例简化了对应于过去输入信号的状态记忆的使用。
·去加重滤波器(1/(1-αz-1))的状态记忆。
·线性预测滤波器在前一帧的结束处的系数或它们在如LSF(线谱频率)或ISF(导抗谱频率)域的这些域中的等效版本。
·通常阶数为16(在预强调的域中)的LPC合成滤波器的状态记忆。
·自适应字典的记忆(过去的激励)。
·如在标准UIT-G.718(参见标准UIT-T G.718的条款7.14.1.1)中定义的低频后置滤波器(LPF)的状态记忆。
·固定字典增益的量化记忆(当此量化是用记忆执行时)。
图6展示了根据本发明的解码器和解码方法的实施例。
具体的实施例在于使用MDCT的FD变换编解码器与ACELP类型的预测编解码器之间的过渡的框架中。
在由模块601在二进制列中进行读取的第一常规步骤(E601)之后,决定模块(决定)确定有待处理的帧是否应当由ACELP预测解码或者由FD 变换解码进行解码。
在MDCT变换解码的情况中,由变换解码实体602完成的解码步骤E602 使得有可能在变换域中获得帧。该步骤还可以包含以ACELP解码器的采样频率进行重采样的步骤。如随后参照图8描述的,这个步骤之后是逆MDCT 变换E603,该逆MDCT变换包括逆DCT变换、时间去混叠以及合成窗和与前一帧重叠相加步骤的应用。
针对其时间混叠已经被消除的部分在步骤E605中被帧放置模块605放置于帧中。包括时间混叠的部分被保存在存储器(MDCT存储器)中以在 E609处由处理模块609执行与由FD核解码的下一帧(如果有的话)的重叠相加步骤。在变体中,用于重叠相加步骤的MDCT解码的存储部分例如在 MDCT解码与CELP解码之间存在非常重要的时移的情况中不包括任何时间混叠。
在图8中展示了这个步骤。在这个图中看到,在FD所产生的解码与LPD 所产生的解码之间存在时间间断性。步骤E609使用如上文所描述的变换编码器的存储器(MDCT存储器),也就是说,在点A之后解码但是包括混叠的信号(在所展示的情况中)。
优先地,信号被使用直到点B,该点B是变换的混叠点。在具体实施例中,通过逆转之前施加于区段AB之上的窗来预先补偿此信号。因此,在重叠相加步骤之前通过施加补偿之前施加于区段上的加窗的逆窗来校正区段 AB。该区段因此不再被“加窗”并且其能量接近原始信号的能量。
变换解码所产生的以及预测解码所产生的两个区段AB此后被加权并被求和以便获得最终的信号AB。加权函数优先地具有等于1的和(例如二次正弦或线性类型)。因此,重叠相加步骤将通过当前帧的预测解码合成的信号区段与对应于前一个帧的解码的存储区段的通过逆变换解码合成的信号区段进行组合。
在另一个具体实施例中,在重采样还未被执行的情况中(例如,在E602),由FD类型的逆变换解码合成的信号区段以对应于LPD类型的当前帧的经解码的信号区段的采样频率被预先重采样。MDCT存储器的这个重采样将能够借助FIR类型的滤波器、滤波器组、IIR滤波器或实际上通过使用“样条”用常规技术有或无延迟地完成。
在相反的情况中,如果FD和LPD编码模式以不同的内部采样频率操作,那么将可能在替代方案中重采样CELP编码的合成(可选地特别地用估计的或编码的高频带的添加进行后处理)并应用本发明。LPD编码器的合成的这个重采样将能够借助FIR类型的滤波器、滤波器组、IIR滤波器或实际上通过使用“样条”用常规技术有或无延迟地完成。
这使得有可能在变换解码的采样频率不同于预测解码的采样频率的情况下执行无缺陷过渡。
在具体实施例中,有可能应用中间延迟步骤(E604)以便如果FD解码器具有比CELP(LPD)解码器更少的滞后则在时间上对准这两个解码器。其大小对应于两个解码器之间的滞后的信号部分然后被存储在存储器(存储器延迟)中。
图9描绘了这个说明性情况。本实施例在此提出有利地利用滞后D中的这个差异以便用从FD变换解码中产生的区段替换从LPD预测解码中产生的第一区段D并且然后在区段AB上采取如之前描述的重叠相加步骤(E609)。因此,当逆变换解码具有比预测解码的处理延迟更小的处理延迟时,由预测解码所解码的当前帧的第一区段被前一个帧的解码所产生的对应于在前一个帧的解码过程中的存储器中的延迟移位和放置的区段替换。
在图6中,如果决定(决定)指示需要进行ACELP预测解码,那么:
·要么上一个经解码的帧、前一个帧(上一个ACELP)也根据ACELP 预测解码由ACELP解码实体603解码,预测解码然后在步骤(E603)中继续,音频帧因此在E605处产生。
·要么前一个帧(上一个MDCT)已经在E602处由变换解码实体602 解码,在这种情况中,应用ACELP预测解码的状态的重新初始化的步骤 (E606)。这个重新初始化步骤是由重新初始化模块606针对预测解码的至少一个状态实现的。重新初始化值是提前预定的默认值(不一定是零)。
LPD解码的状态的初始化可以用提前预定的默认值完成,这些默认值可以例如对应于有待根据在编码过程中所完成的步骤对其进行解码的各种类型的帧。
在之前描述的重叠相加步骤(E609)之前,然后在E608处由预测解码实体608实现针对当前帧的预测解码的步骤。该步骤还可以包含以MDCT 解码器的采样频率进行重采样的步骤。
在具体实施例中,此预测编码E608可以是过渡预测解码(如果这个解决方案已经在编码器处被选择的话),其中,激励的解码是直接的并且不使用任何自适应字典。在这种情况中,自适应字典的记忆不必被重新初始化。
然后执行激励的非预测解码。这个实施例允许LPD类型的预测解码器稳定得更加迅速,因为在这种情况中,其不使用自适应字典的之前已经被重新初始化了的记忆。这进一步简化了根据本发明的过渡的实现。当对当前帧进行解码时,长期激励的预测解码被激励的非预测解码替换。
在具体实施例中,针对当前帧计算线性预测滤波器的系数的步骤E607 由计算模块607执行。
针对当前帧计算线性预测滤波器的系数的若干模式是有可能的。
在第一实施例中,在FD类型的前一帧中的预测系数(旧)是未知的,因为没有LPC系数在FD编码器中被编码并且这些值已经被重新初始化为零。然后选择来对独特的线性预测滤波器的系数(即,对应于结束帧预测滤波器(新)的系数、或对应于中间帧预测滤波器(中间)的系数)进行解码。完全相同的系数此后被分配给结束帧、中间帧和开始帧线性预测滤波器。
在第二可能实施例中,实现图7中所展示的步骤。第一步骤E701是根据实现图6的步骤E606来初始化预测滤波器的系数(LSP旧)。步骤E702 对结束帧滤波器的系数(LSP新)进行解码并且所获得的解码值(LEP新) 以及开始帧滤波器的系数(LSP旧)的预定的初始化值在E703中被联合使用以对中间帧预测滤波器的系数(LSP中间)进行解码。执行用中间帧系数的解码值(LSP中间)替换开始帧系数的值(LSP旧)的步骤E704。步骤 E705使得有可能基于这些因此编码的值(LSP旧、LSP中间、LSP新)针对当前帧确定线性预测滤波器的系数。
在第三可能实施例中,线性预测滤波器针对前一帧的系数(LSP旧)被初始化成预定的值,例如,根据LSP系数的长期平均值。在这种情况中,将有可能使用如在G.718中使用的“正常”解码,基于子帧的线性预测系数被计算作为预测滤波器的值旧、中间和新之间的插值。这个操作因此允许LPD 编码器稳定得更迅速。
参照图10,描述了被适配成用于体现根据本发明的实施例的编码器或解码器的硬件装置。
这个编码器或解码器可以被集成于通信终端、通信网关或如机顶盒类型解码器或音频流阅读器的任何类型的设备中。
这个装置DISP包括用于接收数字信号的输入端,该数字信号在编码器的情况中是输入信号x(n)并且在解码器的情况中是二进制列bst。
该装置还包括数字信号处理器PROC,该数字信号处理器被适配成用于具体地在源自输入端E的信号上执行编码/解码操作。
这个处理器被联接至一个或多个存储器单元MEM,这些存储器单元被适配成用于存储关于编码/解码驱动装置所需要的信息。例如,这些存储器单元包括用于实现以上所描述的解码方法并且具体地用于实现以下步骤的指令:根据数字信号的依据变换编码接收并编码的前一个样本帧的逆变换解码进行解码、根据数字信号的依据预测编码接收并编码的当前样本帧的预测解码进行解码、将预测解码的至少一个状态重新初始化成预定的默认值的步骤以及将通过当前帧的预测解码合成的信号区段与对应于前一个帧的解码的存储区段的通过逆变换解码合成的信号区段进行组合的重叠相加步骤。
当装置是编码器类型时,这些存储器单元包括多条指令,这些指令用于实现以上所描述的编码方法并且具体地用于实现以下步骤:根据变换编码对数字信号的前一个样本帧进行编码、接收数字信号的有待根据预测编码进行编码的当前样本帧、将预测编码的至少一个状态重新初始化成预定的默认值的步骤。
这些存储器单元还可以包括计算参数或其他信息。
更一般地,可由处理器读取的、可能集成于解码器中或集成于编码器中 (可选地可移除的)的存储装置存储实现根据本发明的解码方法和/或编码方法的计算机程序。图3和图6可以例如展示这种计算机程序的算法。
处理器还被适配成用于将结果存储在这些存储器单元中。最后,该装置包括联接于处理器的输出端S以便提供输出信号,该输出信号在编码器的情况中是二进制列bst形式的信号而在解码器的情况中是输出信号
Claims (16)
1.一种用于对数字音频信号进行解码的方法,该方法包括以下步骤:
-根据该数字信号的根据变换编码接收并编码的前一个样本帧的逆变换解码进行解码(E602);
-根据该数字信号的根据预测编码接收并编码的当前样本帧的预测解码进行解码(E608),
该方法的特征在于,该当前帧的该预测解码是过渡预测解码,该过渡预测解码不使用该前一个帧所产生的任何自适应字典,并且特征在于,该方法另外包括:
-将该预测解码的至少一个状态重新初始化成预定的默认值的步骤(E606);
-重叠相加步骤(E609),该重叠相加步骤将通过该当前帧的预测解码合成的信号区段与对应于该前一个帧的该解码的存储区段的通过逆变换解码合成的信号区段进行组合。
2.如权利要求1所述的解码方法,其特征在于,该逆变换解码具有比该预测解码的处理延迟更小的处理延迟,并且其特征在于,由预测解码所解码的当前帧的第一区段被该前一个帧的该解码所产生的对应于在该前一个帧的该解码过程中的存储器中的延迟移位和放置的区段替换。
3.如以上权利要求之一所述的解码方法,其特征在于,在该重叠相加步骤之前通过施加补偿之前施加于该区段的加窗的逆窗口来校正通过逆变换解码合成的该信号区段。
4.如权利要求1所述的解码方法,其特征在于,以对应于通过该当前帧的预测解码合成的信号区段的采样频率预先对通过逆变换解码合成的该信号区段进行重采样。
5.如权利要求1所述的解码方法,其特征在于,该预测解码的状态在以下状态的列表中:
-用于以该预测解码的内部频率进行重采样的滤波器的状态记忆;
-预加重/去加重滤波器的状态记忆;
-线性预测滤波器的系数;
-合成滤波器的状态记忆;
-自适应字典的记忆;
-低频后置滤波器的状态记忆;
-固定字典增益的量化记忆。
6.如权利要求5所述的解码方法,其特征在于,针对该当前帧对该线性预测滤波器的这些系数进行计算是通过对独特的滤波器的这些系数进行解码并且通过将完全相同的系数分配给结束帧、中间帧和开始帧线性预测滤波器执行的。
7.如权利要求6所述的解码方法,其特征在于,所述针对该当前帧对该线性预测滤波器的这些系数进行计算包括以下步骤:
-通过使用该结束帧线性预测滤波器的这些系数的这些经解码的值以及该开始帧线性预测滤波器的这些系数的预定的重新初始化值来确定该中间帧线性预测滤波器的这些系数的这些经解码的值;
-用该中间帧线性预测滤波器的这些系数的这些经解码的值替换该开始帧线性预测滤波器的这些系数的这些经解码的值;
-通过使用该结束帧、中间帧和开始帧线性预测滤波器的这些系数的这些因此解码的值来针对该当前帧确定该线性预测滤波器的这些系数。
8.如权利要求6所述的解码方法,其特征在于,该开始帧线性预测滤波器的这些系数被重新初始化成对应于长期预测滤波器系数的平均值的预定值,并且其特征在于,针对该当前帧的这些线性预测系数是通过使用这些因此预定的值以及该结束帧线性预测滤波器的这些系数的这些经解码的值确定的。
9.一种用于对数字音频信号进行编码的方法,该方法包括以下步骤:
-根据变换编码对该数字信号的前一个样本帧进行编码(E302);
-接收该数字信号的有待根据预测编码进行编码的当前样本帧(E308);
该方法的特征在于,该当前帧的该预测编码是过渡预测编码,该过渡预测编码不使用该前一个帧所产生的任何自适应字典,并且特征在于,该方法另外包括:
-将该预测编码的至少一个状态重新初始化成预定的默认值的步骤(E306)。
10.如权利要求9所述的编码方法,其特征在于,线性预测滤波器的系数形成该预测编码的至少一个状态的一部分,并且其特征在于,针对该当前帧对该线性预测滤波器的这些系数进行计算是通过确定或者中间帧的或者结束帧的单个线性预测滤波器的系数的经编码的值并且将完全相同的经编码的值分配给开始帧和该结束帧或该中间帧线性预测滤波器的这些系数执行的。
11.如权利要求10所述的编码方法,其特征在于,该预测编码的至少一个状态是以直接方式编码的。
12.如权利要求10所述的编码方法,其特征在于,该线性预测滤波器的这些系数形成该预测编码的至少一个状态的一部分,并且其特征在于,针对该当前帧对该线性预测滤波器的这些系数进行计算包括以下步骤:
-通过使用该结束帧线性预测滤波器的这些系数的这些经编码的值以及该开始帧线性预测滤波器的这些系数的预定的重新初始化值来确定该中间帧线性预测滤波器的这些系数的这些经编码的值;
-用该中间帧线性预测滤波器的这些系数的这些经编码的值替换该开始帧线性预测滤波器的这些系数的这些经编码的值;
-通过使用该结束帧、中间帧和开始帧线性预测滤波器的这些系数的这些因此编码的值来针对该当前帧确定该线性预测滤波器的这些系数。
13.如权利要求10所述的编码方法,其特征在于,该线性预测滤波器的这些系数形成该预测编码的至少一个状态的一部分,其特征在于该开始帧线性预测滤波器的这些系数被重新初始化成对应于长期预测滤波器系数的平均值的预定值,并且其特征在于,针对该当前帧的这些线性预测系数是通过使用这些因此预定的值以及该结束帧线性预测滤波器的这些系数的这些经编码的值确定的。
14.一种数字音频信号解码器,包括:
-逆变换解码实体(602),该逆变换解码实体能够对该数字信号的根据变换编码接收并编码的前一个样本帧进行解码;
-预测解码实体(608),该预测解码实体能够对该数字信号的根据预测编码接收并编码的当前样本帧进行解码;
该解码器的特征在于,该当前帧的该预测解码是过渡预测解码,该过渡预测解码不使用该前一个帧所产生的任何自适应字典,并且特征在于,该解码器另外包括:
-重新初始化模块(606),该重新初始化模块能够将该预测解码的至少一个状态重新初始化成预定的默认值;
-处理模块(609),该处理模块能够执行重叠相加,该重叠相加将通过该当前帧的预测解码合成的信号区段与对应于该前一个帧的该解码的存储区段的通过逆变换解码合成的信号区段进行组合。
15.一种数字音频信号编码器,包括:
-变换编码实体(302),该变换编码实体能够对该数字信号的前一个样本帧进行编码;
-预测编码实体(308),该预测编码实体能够对该数字信号的当前样本帧进行编码,
该编码器的特征在于,该当前帧的该预测编码是过渡预测编码,该过渡预测编码不使用该前一个帧所产生的任何自适应字典,并且特征在于,该编码器另外包括:
-重新初始化模块(306),该重新初始化模块能够将该预测编码的至少一个状态重新初始化成预定的默认值。
16.一种由处理器可读的存储装置,该存储装置存储了包括多条指令的计算机程序,这些指令用于执行如权利要求1至8之一所述的解码方法的和/或如权利要求9至13之一所述的编码方法的这些步骤。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1361243A FR3013496A1 (fr) | 2013-11-15 | 2013-11-15 | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
FR1361243 | 2013-11-15 | ||
PCT/FR2014/052923 WO2015071613A2 (fr) | 2013-11-15 | 2014-11-14 | Transition d'un codage/décodage par transformée vers un codage/décodage prédictif |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105723457A CN105723457A (zh) | 2016-06-29 |
CN105723457B true CN105723457B (zh) | 2019-05-28 |
Family
ID=50179701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480062220.5A Active CN105723457B (zh) | 2013-11-15 | 2014-11-14 | 从变换编码/解码过渡到预测编码/解码 |
Country Status (11)
Country | Link |
---|---|
US (1) | US9984696B2 (zh) |
EP (1) | EP3069340B1 (zh) |
JP (1) | JP6568850B2 (zh) |
KR (2) | KR102289004B1 (zh) |
CN (1) | CN105723457B (zh) |
BR (1) | BR112016010522B1 (zh) |
ES (1) | ES2651988T3 (zh) |
FR (1) | FR3013496A1 (zh) |
MX (1) | MX353104B (zh) |
RU (1) | RU2675216C1 (zh) |
WO (1) | WO2015071613A2 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
PL3139382T3 (pl) | 2014-05-01 | 2019-11-29 | Nippon Telegraph & Telephone | Urządzenie kodujące sygnał dźwiękowy, sposób kodowania sygnału dźwiękowego, program i nośnik rejestrujący |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980797A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
PL3163571T3 (pl) * | 2014-07-28 | 2020-05-18 | Nippon Telegraph And Telephone Corporation | Kodowanie sygnału dźwiękowego |
EP2988300A1 (en) * | 2014-08-18 | 2016-02-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Switching of sampling rates at audio processing devices |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101925950A (zh) * | 2008-01-04 | 2010-12-22 | 杜比国际公司 | 音频编码器和解码器 |
CN103258541A (zh) * | 2005-11-08 | 2013-08-21 | 三星电子株式会社 | 音频解码方法 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5327520A (en) * | 1992-06-04 | 1994-07-05 | At&T Bell Laboratories | Method of use of voice message coder/decoder |
JPH07210199A (ja) * | 1994-01-20 | 1995-08-11 | Hitachi Ltd | 音声符号化方法および音声符号化装置 |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
US6169970B1 (en) * | 1998-01-08 | 2001-01-02 | Lucent Technologies Inc. | Generalized analysis-by-synthesis speech coding method and apparatus |
US6311154B1 (en) * | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
US6640209B1 (en) * | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
US6959274B1 (en) * | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
JP4857467B2 (ja) * | 2001-01-25 | 2012-01-18 | ソニー株式会社 | データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体 |
DE10124420C1 (de) * | 2001-05-18 | 2002-11-28 | Siemens Ag | Verfahren zur Codierung und zur Übertragung von Sprachsignalen |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
US7103538B1 (en) * | 2002-06-10 | 2006-09-05 | Mindspeed Technologies, Inc. | Fixed code book with embedded adaptive code book |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US7386445B2 (en) * | 2005-01-18 | 2008-06-10 | Nokia Corporation | Compensation of transient effects in transform coding |
US7831421B2 (en) | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
KR100803212B1 (ko) * | 2006-01-11 | 2008-02-14 | 삼성전자주식회사 | 스케일러블 채널 복호화 방법 및 장치 |
MX2009007412A (es) * | 2007-01-10 | 2009-07-17 | Koninkl Philips Electronics Nv | Decodificador de audio. |
WO2008108081A1 (ja) * | 2007-03-02 | 2008-09-12 | Panasonic Corporation | 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法 |
US8515767B2 (en) * | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
CN100578619C (zh) * | 2007-11-05 | 2010-01-06 | 华为技术有限公司 | 编码方法和编码器 |
CN100578620C (zh) * | 2007-11-12 | 2010-01-06 | 华为技术有限公司 | 固定码书搜索方法及搜索器 |
CA2730355C (en) * | 2008-07-11 | 2016-03-22 | Guillaume Fuchs | Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme |
BRPI0910784B1 (pt) * | 2008-07-11 | 2022-02-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | Codificador e decodificador de áudio para estruturas de codificação de sinais de áudio amostrados |
EP2304723B1 (en) * | 2008-07-11 | 2012-10-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus and a method for decoding an encoded audio signal |
EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
EP2144171B1 (en) * | 2008-07-11 | 2018-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding and decoding frames of a sampled audio signal |
KR101315617B1 (ko) * | 2008-11-26 | 2013-10-08 | 광운대학교 산학협력단 | 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기 |
US8457975B2 (en) * | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
JP4977157B2 (ja) * | 2009-03-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
US8725503B2 (en) * | 2009-06-23 | 2014-05-13 | Voiceage Corporation | Forward time-domain aliasing cancellation with application in weighted or original signal domain |
WO2011042464A1 (en) * | 2009-10-08 | 2011-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping |
KR101137652B1 (ko) * | 2009-10-14 | 2012-04-23 | 광운대학교 산학협력단 | 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법 |
JP5882895B2 (ja) * | 2010-06-14 | 2016-03-09 | パナソニック株式会社 | 復号装置 |
FR2969805A1 (fr) * | 2010-12-23 | 2012-06-29 | France Telecom | Codage bas retard alternant codage predictif et codage par transformee |
US9037456B2 (en) * | 2011-07-26 | 2015-05-19 | Google Technology Holdings LLC | Method and apparatus for audio coding and decoding |
US9043201B2 (en) * | 2012-01-03 | 2015-05-26 | Google Technology Holdings LLC | Method and apparatus for processing audio frames to transition between different codecs |
-
2013
- 2013-11-15 FR FR1361243A patent/FR3013496A1/fr not_active Withdrawn
-
2014
- 2014-11-14 KR KR1020167014550A patent/KR102289004B1/ko active IP Right Grant
- 2014-11-14 EP EP14821711.0A patent/EP3069340B1/fr active Active
- 2014-11-14 JP JP2016529922A patent/JP6568850B2/ja active Active
- 2014-11-14 MX MX2016006253A patent/MX353104B/es active IP Right Grant
- 2014-11-14 RU RU2016123462A patent/RU2675216C1/ru active
- 2014-11-14 BR BR112016010522-2A patent/BR112016010522B1/pt active IP Right Grant
- 2014-11-14 CN CN201480062220.5A patent/CN105723457B/zh active Active
- 2014-11-14 KR KR1020217018976A patent/KR102388687B1/ko active IP Right Grant
- 2014-11-14 US US15/036,984 patent/US9984696B2/en active Active
- 2014-11-14 ES ES14821711.0T patent/ES2651988T3/es active Active
- 2014-11-14 WO PCT/FR2014/052923 patent/WO2015071613A2/fr active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258541A (zh) * | 2005-11-08 | 2013-08-21 | 三星电子株式会社 | 音频解码方法 |
CN101925950A (zh) * | 2008-01-04 | 2010-12-22 | 杜比国际公司 | 音频编码器和解码器 |
Also Published As
Publication number | Publication date |
---|---|
WO2015071613A3 (fr) | 2015-07-09 |
EP3069340B1 (fr) | 2017-09-20 |
BR112016010522A2 (zh) | 2017-08-08 |
FR3013496A1 (fr) | 2015-05-22 |
BR112016010522B1 (pt) | 2022-09-06 |
KR102388687B1 (ko) | 2022-04-19 |
MX2016006253A (es) | 2016-09-07 |
MX353104B (es) | 2017-12-19 |
US20160293173A1 (en) | 2016-10-06 |
ES2651988T3 (es) | 2018-01-30 |
EP3069340A2 (fr) | 2016-09-21 |
CN105723457A (zh) | 2016-06-29 |
KR102289004B1 (ko) | 2021-08-10 |
WO2015071613A2 (fr) | 2015-05-21 |
JP2017501432A (ja) | 2017-01-12 |
JP6568850B2 (ja) | 2019-08-28 |
RU2016123462A (ru) | 2017-12-18 |
RU2675216C1 (ru) | 2018-12-17 |
US9984696B2 (en) | 2018-05-29 |
KR20210077807A (ko) | 2021-06-25 |
KR20160083890A (ko) | 2016-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI459379B (zh) | 用以把音訊樣本編碼和解碼之音訊編碼器與解碼器 | |
US9218817B2 (en) | Low-delay sound-encoding alternating between predictive encoding and transform encoding | |
CN105723457B (zh) | 从变换编码/解码过渡到预测编码/解码 | |
JP5722040B2 (ja) | スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術 | |
KR101227729B1 (ko) | 샘플 오디오 신호의 프레임을 인코딩하기 위한 오디오 인코더 및 디코더 | |
JP5551693B2 (ja) | エイリアシングスイッチスキームを用いてオーディオ信号を符号化/復号化するための装置および方法 | |
TWI479478B (zh) | 用以使用對齊的預看部分將音訊信號解碼的裝置與方法 | |
KR101456639B1 (ko) | 포워드 앨리어싱 취소를 이용한 코더 | |
JP2013178539A (ja) | Mdctスペクトルの組み合せエンコーディングを使用する、スケーラブルなスピーチおよびオーディオエンコーディング | |
US11475901B2 (en) | Frame loss management in an FD/LPD transition context | |
KR20110043592A (ko) | 샘플링된 오디오 신호의 프레임들을 인코딩 및 디코딩하기 위한 오디오 인코더 및 디코더 | |
US11158332B2 (en) | Determining a budget for LPD/FD transition frame encoding | |
EP4154249B1 (en) | Methods and apparatus for unified speech and audio decoding improvements | |
RU2574849C2 (ru) | Устройство и способ для кодирования и декодирования аудиосигнала с использованием выровненной части опережающего просмотра |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |