CN103384900B - 在预测编码与变换编码之间交替的低延迟声音编码 - Google Patents
在预测编码与变换编码之间交替的低延迟声音编码 Download PDFInfo
- Publication number
- CN103384900B CN103384900B CN201180068351.0A CN201180068351A CN103384900B CN 103384900 B CN103384900 B CN 103384900B CN 201180068351 A CN201180068351 A CN 201180068351A CN 103384900 B CN103384900 B CN 103384900B
- Authority
- CN
- China
- Prior art keywords
- frame
- coding
- mdct
- encoding
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 67
- 230000007704 transition Effects 0.000 claims description 58
- 230000009466 transformation Effects 0.000 claims description 45
- 238000006243 chemical reaction Methods 0.000 claims description 21
- 230000005236 sound signal Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 abstract description 4
- 230000004048 modification Effects 0.000 description 30
- 238000012986 modification Methods 0.000 description 30
- 230000005284 excitation Effects 0.000 description 25
- 230000015572 biosynthetic process Effects 0.000 description 23
- 238000003786 synthesis reaction Methods 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 19
- 238000001228 spectrum Methods 0.000 description 16
- 230000000630 rising effect Effects 0.000 description 10
- 238000005070 sampling Methods 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000013139 quantization Methods 0.000 description 7
- 238000011002 quantification Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 239000002131 composite material Substances 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 3
- 230000002301 combined effect Effects 0.000 description 3
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000005243 fluidization Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种用于对数字信号进行编码的方法,包括以下步骤:根据预测编码处理对数字信号的样本的前一帧进行编码(E601),以及根据变换编码处理对数字信号的样本的当前帧进行编码(E603)。该方法实现为使得还通过相对于前一帧的预测编码受限的预测编码,通过重用前一帧的预测编码的至少一个参数并且通过仅对当前帧的第一部分的未重用参数进行编码,对当前帧的所述第一部分进行编码(E602)。本发明还涉及一种对应于描述的编码方法的解码方法。本发明进一步涉及分别实现描述的编码和解码方法的编码器和解码器。
Description
技术领域
本发明涉及对数字信号进行编码的领域。
有利地,本发明应用于具有交替的语音和音乐的声音的编码。
背景技术
为了有效地对语音声音进行编码,推荐CELP(代码激励线性预测)类型的技术。为了有效地对音乐声音进行编码,优先推荐变换编码技术。
CELP类型的编码器是预测编码器。它们的目的是基于各种元素对语音的产生进行建模:对声道进行建模的短期线性预测,对发音阶段的声带震动进行建模的长期预测,以及为了表示尚不能被建模的“创新”而源自固定字典的激励(白噪声,代数激励)。
最广泛使用的变换编码器(例如MPEG AAC或ITU-T G.722.1 Annex C编码器)使用临界采样变换,以便简化(compact)变换域中的信号。“临界采样变换”是其中变换域中的系数数量等于分析的时间样本数量的变换。
对包含这两种类型的内容的信号进行有效编码的一种方案在于随时间选择最好的技术。该方案已被3GPP(第三代合作伙伴计划)标准化组织特别推荐,并且已经提出了称为AMR WB+的技术。
该技术基于AMR-WB类型、更具体地ACELP(“代数码激励线性预测”)类型的CELP技术,以及基于TCX(“变换编码激励”)类型的模型中的重叠傅里叶变换的变换编码。
ACELP编码和TCX编码都是预测线性类型的技术。应该注意,已开发了AMR-WB+编解码器用于3GPP PSS(“分组交换流化”)、MBMS(“多媒体广播/多播服务”)和MMS(“多媒体消息服务”)服务,换句话说,用于对算术延迟没有强烈限制的广播和存储服务。
该方案忍受音乐的质量不足。该不足特别来自于变换编码。特别地,重叠傅里叶变换不是临界采样变换,因此是次优的。
此外,在此编码器中使用的窗口对于能量集中不是最优的:这些几乎矩形窗口的频率形状是次优的。
ISO/MPEG仍在开发的MPEG USAC(“统一语音音频编码”)编解码器给出了与MPEG AAC(“高级音频编码”)编码的原理结合的AMR-WB+编码的改进。MPEG USAC瞄准的应用不是会话的,而是对应于对算法延迟没有强烈限制的广播和存储服务。
M.Neuendorf等的文章A Novel Scheme for Low Bitrate Unified Speechand Audio Coding-MPEG RM0,7-10 May 2009,126th AES Convention描述了USAC编解码器的初始版本,称为RM0(参考模型0)。该RM0编解码器在若干编码模式之间交替:
·对于语音类型的信号:LPD(“线性预测域”)模式包括源自AMR-WB+编码的两种不同的模式:
-ACELP模式
-使用MDCT类型的变换的TCX模式,称为wLPT(“加权线性预测变换”)(不同于AMR-WB+编解码器)。
·对于音乐类型的信号:对1024个样本使用MPEG AAC(“高级音频编码”)类型的MDCT(“改进型离散余弦变换”)变换编码的FD(“频域”)模式。
与AMR-WB+编解码器相比,USAC RM0编码对于单声道部分提供的各种主要不同是使用用于变换编码的MDCT类型的临界抽取变换,以及通过利用算术编码的标量量化的MDCT谱的量化。应该注意,通过各种模式(LPD、FD)编码的声波带取决于选择的模式,这并不是其中ACELP和TCX模式以同一内部采样频率操作的AMR-WB+编解码器中的情况。此外,对于1024个样本的每帧,在开环中执行USAC RM0编解码器中的关于模式的判决。注意:通过并行执行各种编码模式,并且通过根据预定义的标准按照后验选择给出最好结果的模式,来进行闭环判决。在开环判决的情况下,判决采取根据数据和可用观察的先验,但是不测试该判决是否最优。
在USAC编解码器中,已知每一模式(ACELP、TCX、FD)具有专用“签名”(根据瑕疵(artifacts)),并且FD和LPD模式是不同种类–在利用要正确管理的滤波器存储器感觉加权的领域中,FD模式基于信号域中的变换编码,而LPD模式使用预测线性编码,LPD与FD模式之间的转变对于在切换不失败的情况下确保足够质量是至关重要的。J.Lecomte等的文章“Efficient cross-fade windows for transitions between LPC-based and non-LPCbased audio coding”,7-10May2009,126th AES Convention中详细说明了USAC RM0编解码器中的模式间切换的管理。如这篇文章中说明的,主要困难在于LPD到FD模式以及FD到LPD模式之间的转变。这里保留的仅是从ACELP到FD的转变的情况。
为了充分理解操作,这里通过典型的示例性实施方式重述MDCT变换编码的原理。
在编码器处,在三个步骤之间划分MDCT变换:
·通过具有长度2M、在此情况下称为“MDCT窗口”的窗口对信号进行加权
·为了形成长度M的块的时域混叠
·长度M的DCT(“离散余弦变换”)变换。
MDCT窗口分为相等长度M/2的4个相邻部分,称为“quarts(四分之一)”。
信号乘以分析窗口,并然后执行混叠:第一个quart(窗口化的)混叠(即,在时间上反转并且重叠)在第二个quart上,第四个quart混叠在第三个quart上。
更精确地,按照以下方式执行一个quart在另一个上的混叠:第一个quart的第一个样本添加到第二个quart的最后一个样本(或从第二个quart的最后一个样本减去),第一个quart的第二个样本添加到第二个quart的倒数第二个样本(或从第二个quart的倒数第二个样本减去),如此类推,第一个quart的最后一个样本添加到第二个quart的第一个样本(或从第二个quart的第一个样本减去)。
因此,基于4个quart,给出了2个混叠的quart,其中每个样本都是要编码信号的2个样本的线性组合结果。此线性组合称为时域混叠。
这些2个混叠的quart然后在DCT变换之后联合编码。对于后一帧,存在窗口的半偏移(50%的重叠),于是前一帧的第三个quart和第四个quart变为当前帧的第一个quart和第二个quart。在混叠之后,如前一帧中一样(但是以不同的权重)发送同样的样本对的第二线性组合。
在解码器处,在逆DCT变换之后,于是获得这些混叠信号的解码版本。两个连续帧包含同样的quart的2个不同混叠的结果,即,对于每对样本,存在具有不同但是已知的权重的2个线性组合的结果:因此分解等式系统,以便获得输入信号的解码版本;因此可以利用2个连续解码帧去除时域混叠。
提到的等式系统的分解通常通过抗混叠、仔细选择的合成窗口的相乘、以及然后公共部分的相加重叠来执行。该相加重叠同时提供了2个连续解码帧之间的柔和转变(由于量化误差而没有不连续性);具体地,该操作很像交叉淡化(cross-fade)。当对于每个样本而言针对第一个quart或第四个quart的窗口在零处时,称为在窗口的该部分中不具有时域混叠的MDCT变换。在这种情况下,MDCT变换不确保柔和转变;必须通过诸如外部交叉淡化的其他方式执行。
应该注意,MDCT变换的变型实施方式特别在于DCT变换的定义、如何时域混叠要变换的块(例如,可能反转应用于左右混叠的quart的符号,或者分别在第一个qurat和第四个quart上混叠第二个quart和第三个quart)等。这些变型不改变MDCT合成-分析的原理,通过窗口化、时域混叠然后变换、最后窗口化、混叠和相加重叠减少了样本块。
在Lecomte等的文章描述的USAC RM0编码器的情况下,通过ACELP编码所编码的帧与通过FD编码所编码的帧之间的转变按照以下方式发生:
如图1中例示的,利用128个样本左侧的重叠来使用对于FD模式的转变窗口。通过在重构的ACELP帧的右侧引入“人为的”时域混叠来抵消对此重叠区域的时域混叠。用于转变的MDCT窗口具有2304个样本的大小,并且DCT变换对1152个样本操作,而正常地,FD模式的帧利用具有2048个样本的大小的窗口和1024个样本的DCT变换来编码。因此正常FD模式的MDCT变换不能直接用于转变窗口;编码器必须还并入此变换的修改版本,这使得FD模式的转变的实现复杂化。
现有技术中的这些编码技术(AMR-WB+或USAC)具有100ms至200ms的级别的算法延迟。这些延迟与其中编码延迟对于用于移动应用的语音编码器(例如:GSM EFR、3GPP AMR、和AMR-WB)通常为20-25ms级别并且对于用于视频会议的常规变换编码器(例如:ITU-T G.722.1Annex C和G.719)通常为40ms级别的对话应用不兼容。
因此需要一种对于对具有交替的语音和音乐的声音进行编码的应用交替预测和变换编码技术的编码,其对语音和音乐同时具有好的编码质量,并且算法延迟与对话应用兼容,对于20ms的帧一般为20-40ms级别。
发明内容
本发明改进了该情况。
相应地,本发明提出了一种用于对数字声音信号进行编码的方法,包括以下步骤:
-根据预测编码对数字信号的样本的前一帧进行编码;
-根据变换编码对数字信号的样本的当前帧进行编码。
该方法使得通过相对于前一帧的预测编码受限的预测编码,通过重用前一帧的预测编码的至少一个参数并且通过仅对当前帧的第一部分的未重用参数进行编码,对当前帧的该第一部分进行编码。
因此,对于预测类型编码和变换编码交替的编码,在根据预测编码进行编码的帧和根据变换编码进行编码的帧通过期间,因此提供了转变帧。当前帧的第一部分也通过预测编码进行编码的事实使得可能恢复仅通过变换编码不可能恢复的混叠项,因为用于此转变帧的变换编码的存储器不可用,前一帧还没有被变换编码。
此外,使用受限预测编码的事实使得能够限制对此部分的编码比特率的影响。具体地,针对通过受限预测编码进行编码的当前帧的一部分,仅对前一帧的未重用的参数进行编码。
此外,该帧部分的编码不产生任何附加延迟,因为此第一部分位于转变帧的开始处。
最后,该类型的编码使得能够针对是用于转变帧的编码还是用于其他变换编码帧的编码的变换编码,保留相同长度的加权窗口大小。从而降低了编码方法的复杂度。
下面提到的各种特定实施方式可以独立地添加到以上限定的方法的步骤或者与以上限定的方法的步骤彼此组合。
在一个特定实施方式中,受限预测编码使用从预测编码的前一帧复制的预测滤波器。
当编码段几乎静止时,通常选择变换编码的使用。因此,在帧的一部分(例如,子帧)的持续期间,可以从一帧到另一帧重用信号的谱包络参数,而不会对编码质量造成显著影响。因此用于前一帧的预测滤波器的使用不影响编码质量,并且使得能够利用用于传输其参数的附加比特进行分发。
在变型实施方式中,受限预测编码还使用预测编码的前一帧的音调(pitch)和/或其相关联的增益的解码值。
从一帧到另一帧,这些参数变化不大。从一帧到另一帧的这些相同参数的使用将几乎不会对编码质量造成影响,并且将更简化子帧的预测编码。
在另一变型实施方式中,用于受限预测编码的预测编码的特定参数按照相对于预测编码的前一帧的解码参数不同的模式量化。
因此,这使得能够进一步简化转变子帧的预测编码。
根据一个特定实施方式,该方法包括以下步骤:获得源自当前帧的第一子帧的预测和变换本地编码和解码的重构信号,以及通过交叉淡化这些重构信号来进行组合。
因此,当前帧中的编码转变柔和,并且不会导致棘手的瑕疵。
根据一个特定实施方式,根据变换编码的加权窗口的形状,对当前帧的第一部分的一部分执行重构信号的所述交叉淡化。
这造成变换编码的更好适应。
根据一个特定实施方式,对当前帧的第一部分的一部分执行重构信号的所述交叉淡化,所述部分不包含时域混叠。
在源自当前帧的第一部分的变换编码的重构信号不包括任何时域混叠的情况下,这使得能够执行不存在量化误差的完美信号重构。
在一个特定实施方式中,对于具有低延迟的编码,变换编码使用加权窗口,包括窗口的末尾和开始处的零值的选择数量的连续加权系数。
在另一个特定实施方式中,为了改进低延迟编码,变换编码使用非对称加权窗口,包括窗口的至少一个端部处的零值的选择数量的连续加权系数。
本发明还涉及一种用于对数字声音信号进行解码的方法,包括以下步骤:
-对接收的根据预测编码进行编码的数字信号的样本的前一帧进行预测解码;
-对接收的根据变换编码进行编码的数字信号的样本的当前帧进行逆变换解码;
该方法使得还包括以下步骤:通过相对于当前帧的第一部分的前一帧的预测解码受限的预测解码进行解码。
解码方法是编码方法的相对物,并提供了与针对编码方法描述的优点相同的优点。
因此,在一个特定实施方式中,解码方法包括以下步骤:通过重用前一帧的预测解码的至少一个参数并且通过仅对接收的针对接收的根据受限预测编码进行编码的当前帧的第一部分的参数进行解码,通过针对当前帧的该第一部分的至少一部分交叉淡化通过逆变换和通过受限预测解码解码的信号,来进行组合。
根据优选实施方式,受限预测解码使用由前一帧的预测解码解码并使用的预测滤波器。
在变型实施方式中,受限预测解码还使用前一帧的预测解码的音调和/或其相关联的增益的解码值。
本发明还涉及一种数字声音信号编码器,包括:
-预测编码模块,用于对数字信号的样本的前一帧进行编码;
-变换编码模块,用于对数字信号的样本的当前帧进行编码。编码器还包括预测编码模块,相对于前一帧的预测编码受限,以便通过重用前一帧的预测编码的至少一个参数并且通过仅对当前帧的第一部分的未重用参数进行编码,而对当前帧的该第一部分进行编码。
类似地,本发明涉及一种数字声音信号解码器,包括:
-预测解码模块,用于对接收的根据预测编码进行编码的数字信号的样本的前一帧进行解码;
-逆变换解码模块,用于对接收的根据变换编码进行编码的数字信号的样本的当前帧进行解码。解码器还包括预测解码模块,相对于前一帧的预测解码受限,以便通过重用前一帧的预测解码的至少一个参数并且通过仅对接收的针对接收的根据受限预测编码进行编码的当前帧的第一部分的参数进行解码,对当前帧的该第一部分进行解码。
最后,本发明涉及一种包括代码指令的计算机程序,当这些指令被处理器运行时,用于实现如上所述的编码方法和/或如上所述的解码方法的步骤。
本发明还涉及一种能被处理器读取的存储装置,可或可不并入编码器或解码器,可选地可移除,存储实现如上描述的编码方法和/或解码方法的计算机程序。
附图说明
阅读了以下详细描述和附图之后,本发明的其他特征和优点将变得明显,附图中:
-图1例示如上所述的现有技术中用于MPEG USAC编解码器的CELP编码与FD编码之间的转变的转变窗口的示例;
-图2以框图形式例示根据本发明的一个实施方式的编码器和编码方法;
-图3a例示用于本发明的变换编码的加权窗口的示例;
-图3b例示本发明使用的重叠变换编码模式;
-图4a例示根据本发明的方法的一个实施方式的利用预测编码进行编码的帧与变换编码帧之间的转变;
-图4b、4c、4d例示根据本发明的方法的两个变型实施方式的利用预测编码进行编码的帧与变换编码帧之间的转变;
-图4e例示对于MDCT变换使用非对称窗口的情况、根据本发明的方法的变型实施方式之一的利用预测编码进行编码的帧与变换编码帧之间的转变;
-图5例示根据本发明的一个实施方式的解码器和解码方法;
-图6a、6b分别以流程图的形式例示根据本发明的编码方法和解码方法的主要步骤;和
-图7例示根据本发明的编码器和解码器的一个可能的硬件实施方式。
具体实施方式
图2表示应用根据本发明的编码方法的多模CELP/MDCT编码器。
该图表示针对每个信号帧执行的编码步骤。以16kHz对标记为x(n′)的输入信号采样,帧长度是20ms。本发明广泛应用于使用其他采样频率的情况,例如用于以32kHz采样的超宽带信号,可选地划分为两个子频带,以便在低频带中应用本发明。在这种情况下,帧长度被选择为对应于诸如3GPPAMR和AMR-WB的移动编码器的帧长度,但是其他长度也是可能的(例如:10ms)。
按照惯例,当前帧的样本对应于x(n′),n′=0,...,319。此输入信号首先被高通滤波器(框200)滤波,以便将频率衰减到50Hz以下并且消除连续分量,然后以12.8kHz的内部频率进行子采样(框201),以便获得256个样本的信号s(n)的帧。认为抽取滤波器(框201)通过有限脉冲响应滤波器(一般为60级)以低延迟产生。
在CELP编码模式下,根据本发明的优选实施方式,以3GPP标准TS26.190或等效物ITU-T G.722.2中描述的12.8kHz通过由多速率ACELP编码(从6.6到23.05kbit/s)激发的CELP编码器对256个样本的当前帧s(n)进行编码–此算法称为AMR-WB(“自适应多速率–宽带”)。
信号s(n)首先通过1-αz-1被预加重(框210),其中α=0.68,然后通过(如3GPP标准TS 26.190的第5章描述的)ACELP算法来编码(框211)。
20ms的连续帧包含12.8kHz的256个时间样本。CELP编码使用存储器(或缓冲器)buf(n),n=-64,...,319,具有30ms信号:5ms的回望信号,20ms的当前帧,和5ms的前瞻信号。
s(n)预加重后获得的信号在位置n=64,...,319被复制到该缓冲器,使得对应于位置n=0,...,255的当前帧包括5ms的回望信号(n=0,...,63)和15ms的要编码的“新”信号(n=64,...,255)–在缓冲器的定义中,这里应用的CELP编码不同于AMR-WB标准的ACELP编码,因为“前瞻”在这种情况下是精确的5ms,而不补偿子采样滤波器延迟(框201)。
基于此缓冲器,CELP编码(框211)包括以与AMR-WB标准的ACELP编码类似的方式应用的若干步骤;这里给出主要步骤作为示例性实施方式:
a)LPC分析:30ms的非对称窗口对缓冲器buf(n)加权,然后计算自相关。然后经由Levinson-Durbin算法计算线性预测系数(对于级数16)。这给出了LPC线性预测滤波器A(z)。
执行LPC系数到ISP(“导抗谱对”)谱系数的转换,并且量化(给出量化的滤波器)。
最后,通过当前帧的滤波器与前一帧的滤波器之间的每子帧的插值,来计算针对每子帧的LPC滤波器。在此插值步骤中,这里假设回望帧已通过CELP模式编码;在相反情况下,假设已更新了CELP编码器的状态。
b)信号的感觉加权:预加重的信号然后通过由W(z)=A(z/γ)/(1-αz-1)定义的滤波器加权,其中α=0.68,γ=0.92。
c)通过寻找加权信号的自相关函数的最大值,在开环中计算音调(可选地,进行子采样以降低复杂度)。
d)在针对当前帧的每个子帧在开环中获得的音调附近的值之中通过分析和合成在闭环中寻找“自适应激励”。也可或可不执行自适应激励的低通滤波。因此产生一比特,指示是否要应用滤波器。该寻找给出了标记为v(n)的分量。音调和与音调滤波器相关联的比特在比特流中编码。
e)同样通过分析和合成在闭环中寻找标记为c(n)的固定激励或创新。此激励由零和符号脉冲组成;这些脉冲的位置和符号在比特流中编码。
f)分别为自适应激励和代数激励的增益gp,gc在比特流中联合编码。
在此示例性实施方式中,CELP编码器将每个20ms的帧划分为4个5ms的子帧,量化的LPC滤波器对应于最后的(第四个)子帧。
通过重构激励u(n)=gpv(n)+gcc(n)(可选地后处理u(n))并且通过量化的合成滤波器(如3GPP标准TS 26.190的section 5.10中描述的)滤波,通过框211中包括的本地解码器获得重构信号最后通过传递函数滤波器1/(1-αz-1)对信号进行去加重(框212),以获得CELP解码的信号
当然,在不影响本发明的本质的情况下,可以使用与以上描述的实施方式不同的CELP编码的其他变型。
在一种变型中,框211对应于根据四种可能的CELP编码模式中的一种以ITU-T标准G.718中描述的8kbit/s的CELP编码:非调声(voicing)模式(UC)、调声模式(VC)、转变模式(TC)或普通模式(GC)。在另一种变型中,选择CELP编码的另一实施方式,例如能与ITU-T标准G.718的AMR-WB编码互相配合的模式中的ACELP编码。LPC系数的ISF形式的表示可以由谱线(LSF)对或其他等效表示来代替。
在选择CELP模式的情况下,框211传送编码的CELP索引ICELP以在比特流中多路复用。
在图2的MDCT编码模式下,根据优选实施方式,首先变换(框220)当前帧s(n),n=0,...,255,以便获得以下变换系数:
其中M=256是帧长度,Mz=96是窗口w(n)中左右侧的零的数量。在优选实施方式中,选择窗口w(n)作为如下形式的对称“低延迟”窗口:
针对M=256和Lov=64的该低延迟窗口wshift(m)(m=0,...,511)通过取w(n)=wshift(n+96)而应用于对应于索引n=0,...,255的当前帧,其中假设64个样本(5ms)的重叠。
图3a中例示了该窗口。注意该窗口具有2(M-Mz)=320个非零样本,或者12.8kHz的25ms。图3b例示窗口w(n)如何通过取w(n)=wshift(n+96)而应用于20ms的每个时间帧。
该窗口应用于20ms的当前帧和5ms的前瞻信号。注意:借助MDCT窗口的左侧和中部“平面”上的重叠,MDCT编码因此与CELP编码同步,在此意义上能通过相加重叠整个当前帧而重构MDCT解码器,并且在5ms的前瞻帧上也具有重叠。这里注意,对于该窗口,当前MDCT帧导致在出现重叠的帧的第一部分上(实际上在第一个5ms上)的时域混叠。
重要的是注意:由CELP和MDCT编码器/解码器重构的帧具有一致的时间支持。重构的此时域同步使编码模型的切换变得容易。
在本发明的变型中,除了w(n)以外的其他MDCT窗口也是可能的。这里没有详细给出框220的实现。ITU-T标准G.718(条款6.11.2和7.10.6)中给出了示例。
系数S(k)(k=0,...,255)通过在优选实施方式中由ITU-T标准G.729.1的“TDAC”(“时域混叠抵消”)编码激发的框221进行编码。这里Btot标记在每帧中分配给MDCT编码的总比特预算。离散谱S(k)划分为子带,于是每子带对应于r.m.s(“均方根”,即能量的均方根)的谱包络按照3dB的步长在对数域中量化,并且通过熵编码进行编码。此包络编码使用的比特预算这里标记为Benv;由于熵编码,所以它是变量。
与G.729.1标准的“TDAC”编码不同,标记为Binj(预算Btot的函数)的预定数量的比特保留用于噪声注入级别的编码,以便用噪声“填充”以零值编码的系数并且掩蔽“音乐噪声”的瑕疵,否则就会被听到。然后,利用剩余的Btot-Benv-Binj比特的预算通过球形矢量量化对谱S(k)的子带编码。没有详细给出此量化,就像每子带的比特自适应分配一样,因为这些细节超出了本发明的上下文。在选择MDCT模式或转变模式的情况下,框221传送编码的MDCT索引IMDCT以在比特流中多路复用。
框222对框221产生的比特流进行解码,以便重构解码的谱k=0,...,255。最后,框223重构当前帧,以便找到信号n=0,...,255。
因为MDCT变换编码的本质(帧之间的重叠),所以在当前帧的MDCT编码中要预见两种情况:
-第一种情况:前一帧已通过MDCT模式编码。在这种情况下,本地(和远程)解码器中的MDCT合成所必需的存储器(或状态)是可用的,并且MDCT使用的抵消时域混叠的相加/重叠操作是可能的。MDCT帧在整个帧上被正确解码。这涉及MDCT编码/解码的“正常”操作。
-第二种情况:前一帧已通过CELP模式编码。在这种情况下,(本地和远程)解码器处的帧的重构不完整。如以上说明的,MDCT针对重构使用当前帧与前一帧(状态存储在存储器中)之间的相加/重叠操作,以便去除要解码的帧的时域混叠,也防止块效应,并利用长于帧的窗口增加频率分解。利用最广泛使用的MDCT窗口(正弦类型),由于时域混叠引起的信号失真在窗口端部较大,在窗口中部几乎为零。在此精确情况下,如果前一帧是CELP类型,则MDCT存储器不可用,因为最后的帧还没有被MDCT变换编码。
帧开始处的混叠区域对应于MDCT帧中、由于MDCT变换中固有的时域混叠而中断的信号区域。
因此,在当前帧通过MDCT模式编码(框220到223)并且前一帧已通过CELP模式编码(框210到212)时,从CELP转变到MDCT的特定处理是必要的。
在这种情况下,如图4a中指出的,第一帧通过CELP模式编码,并且能通过(本地或远程)CELP解码器完全重构。另一方面,第二帧通过MDCT模式编码;认为该第二帧是当前帧。MDCT窗口左侧的重叠区域造成了问题,因为此窗口的互补部分(具有时域混叠)由于前一帧还没有通过MDCT进行编码而不可用。因此不能去除MDCT窗口的该左边部分中的混叠。
对于此转变,根据本发明的编码方法包括以下步骤:通过预测转变编码器或受限预测编码对长度短于或等于帧长度的样本的块进行编码,例如在当前变换编码(MDCT)中选择作为5ms的附加子帧,表示当前帧左侧的混叠区域。应该注意,MDCT转变帧之前的帧中的编码类型可以是不同于CELP编码的编码类型,例如MICDA编码或TCX编码。本发明应用于其中前一帧已通过不更新信号域中的MDCT存储器的编码进行编码的一般情况,并且本发明包括使用前一帧的编码信息通过转变编码对对应于当前帧的一部分的样本的块进行编码。
相对于前一帧的预测编码,预测转变编码受限;它包括使用通过预测编码进行编码的前一帧的稳定参数,并且仅对用于当前转变帧中的附加子帧的一些最小参数进行编码。
因此,此受限预测编码重用前一帧的预测编码的至少一个参数,并因此仅对未重用的参数编码。在这种意义上,能够称其为受限编码(通过限制编码参数)。
图4a到4e中例示的实施方式假设第一MDCT窗口左侧的重叠小于或等于子帧的长度(5ms)。在相反情况下,还必须对一个或多个附加CELP子帧编码,必须使用自适应激励字典和/或具有适于重叠长度的大小的固定字典。
在图4a到4e中,混合线(具有交替的点和破折线的线)对应于MDCT编码混叠线和MDCT解码抗混叠线。在这些图的顶部,粗线在编码器的入口处分离帧;能够在如此限定的帧完全可用时开始新帧的编码。重要的是注意:编码器处的这些粗线不对应于当前帧,而是对应于到达每一帧的新样本的块;当前帧实际延迟了5ms。在底部,粗线在解码器的输出处分离解码的帧。
转变的特定处理对应于图2的框230到232和框240。当标记为modepre的之前模式(即,对前一帧进行编码的类型(CELP或MDCT))是CELP类型时,执行此处理。
CELP与MDCT编码之间的当前转变帧(图4a到4e中的第二帧)的编码基于通过框231实现的若干步骤:
-帧的MDCT编码:在图4a的顶部例示的示例性实施方式中,为此编码选择的窗口是以上定义的窗口w(n),具有25ms的有效长度。图4b、4c、4d和4e中例示了MDCT转变帧(CELP帧后面的第一个MDCT帧)中代替w(n)的其他形式的窗口,具有可能不同于25ms的同一个有效长度。对于图4a的情况,20ms的当前帧置于窗口非零部分的开始处,而其余5ms是前瞻帧的第一个5毫秒。在(通过混叠和离散余弦变换(DCT))计算MDCT之后,因此获得MDCT谱的256个样本。在这种情况下,通过谱包络的传输和针对包络的每个标准化子带的球形矢量量化执行这些系数的量化。与之前“正常的”MDCT编码的描述的区别在于,分配给转变帧中的矢量量化的预算不再是Btot-Benv-Binj而是Btot-Benv-Binj-Btrans,Btrans表示传输丢失信息以在转变编码器中生成滤波器的输入激励所必需的比特数量。该比特数量Btrans是作为编码器的总比特率的函数的变量。
-量化谱的解码(图4a到4e中的底部):在重构量化谱和部分逆MDCT变换操作(通过抗混叠和乘以合成窗口,但是没有相加–重叠,因为从前一帧不能获得MDCT存储器)之后,获得时域信号,其中第一个5毫秒(第一子帧)包含时域混叠,然后是15ms的重构信号,如果下一帧是MDCT类型,最后的5毫秒最终用于馈送下一帧重构所必需的MDCT存储器;如果下一帧是CELP类型,则该存储器通常没用。
-通过包括受限预测编码的转变编码的第一子帧的编码(图4a到4e中标记为“TR”的灰色区域)。
该受限预测编码包括以下步骤。
第一子帧的滤波器例如通过复制前一帧的第四子帧的滤波器获得。这节省了必须计算该滤波器,并且节省了与其在比特流中的编码相关联的比特数量。
此选择是合理的,因为在CELP与MDCT之间交替的编解码器中,在其中频域中的编码比时域中的编码更高效的几乎静止的段中通常选择MDCT模式。在ACELP与MDCT模式之间切换的时刻,该稳态通常已建立;能够假设诸如谱包络的特定参数在帧与帧之间变化得非常少。因此可以有效地重用在前一帧期间传输的表示信号的谱包络的量化的合成滤波器
对于此第一转变子帧,在闭环中计算音调(使得能够利用回望激励来重构自适应激励)。此第一转变子帧在比特流中编码,可选地,以相对于最后的CELP子帧的音调不同的方式。从中推导出自适应激励v(n)(n=0,…,63)。在变型中,也可重用最后的CELP帧的音调值而不传输它。
分配一个比特,以指示自适应激励v(n)是否已通过系数(0.18,0.64,0.18)的低通滤波器而滤波。然而,可以从最后的前一CELP帧取得该比特的值。
仅针对此转变子帧在闭环中执行寻找子帧的代数激励,并且激励脉冲的位置和符号的编码在比特流中编码,这里同样利用取决于编码器的比特率的比特数量。
分别与自适应激励和代数激励相关联的增益gp,gc在比特流中编码。分配给该编码的比特数取决于编码器的比特率。
作为示例,对于12.65kbit/s的总比特率,9比特保留用于子帧的音调的绝对编码,6比特保留用于增益的编码,52比特保留用于固定激励的编码,而1比特指示自适应激励是否已被滤波。因此Btr=68比特(3.4kbit/s)保留用于此转变子帧的编码;所以剩余9.25kbit/s用于转变帧中的MDCT编码。
一旦已获得了所有参数并且进行了编码,就能够通过利用获得的激励激励滤波器来生成丢失的子帧。框231还提供要在比特流中多路复用的受限预测编码的参数ITR。重要的是注意:框231使用在转变帧之前的帧中执行的编码(框211)的信息(在图中标记为Mem.)。例如,该信息包括LPC和最后的子帧的音调参数。
然后通过滤波器1/(1-αz-1)对获得的信号进行去加重(框232),以便获得当前CELP到MDCT转变帧的第一子帧中的重构信号n=0,...,63。
最后,剩余的任务是组合重构信号(n=0,...,63)和(n=0,...,255)。为此,执行两个信号之间的线性渐进混合(交叉淡化)并且给出随后的输出信号(框240)。例如,在第一实施方式中,如图4a中例示的按照如下方式对第一个5ms执行该交叉淡化:
应该注意,在这种情况下,两个信号之间的交叉淡化是5ms,但是可以更小。在CELP编码器和MDCT编码器具有完美或几乎完美的重构的假设下,甚至利用交叉淡化进行分发也是可能的;具体地,帧的第一个5毫秒被完美编码(通过受限CELP),并且随后的15ms也被完美编码(通过MDCT编码器)。理论上不再需要通过交叉淡化减少瑕疵。在这种情况下,信号更简单地写为:
n=64,…,255
在图4b的变型中,窗口被与分析和合成相同的左侧没有混叠的矩形窗口代替
这里对于n<0和n>255没有规定。对于n<0,w(n)的值是零,而对于n>255,通过用于“正常的”MDCT编码的MDCT分析和合成窗口来确定窗口。
图4b中的交叉淡化按照以下方式执行:
在图4c的变型中,用与分析和合成相同的窗口来代替窗口,该窗口具有如下形式:包括1.25ms的零值的第一部分,然后是2.5ms的正弦上升沿,以及1.25ms的平的单一值:
这里对于n<0和n>255没有规定。对于n<0,w(n)的值是零,而对于n>255,通过用于“正常的”MDCT编码的MDCT分析和合成窗口来确定窗口。
图4c中的交叉淡化按照以下方式执行:
这表明其中执行交叉淡化的区域免除了时域混叠。
在图4d和4e的变型中,假设当前转变帧(n=0,…,255)中的分析和合成MDCT加权窗口如下给出:
这里注意,对于n<0和n>255没有规定。对于n<0,w(n)的值是零,而对于n>255,通过用于“正常的”MDCT编码的MDCT分析和合成窗口来确定窗口。
交叉淡化按照以下方式执行,假设:
注意:图4b到4d的交叉淡化也可以用在图4a的配置中。以这种方式继续的优点是对由于混叠导致的误差最小显著的MDCT解码部分执行交叉淡化。图4a中表示的结构更接近完美重构。
在示例性实施方式中,认为编码器在闭环中利用模式判决操作。
基于12.8kHz的原始信号s(n)(n=0,...,255)和通过两种模式(CELP和MDCT)中的每一种重构的信号s和(n=0,...,255),通过计算(框250,252)编码误差和、然后通过利用滤波器W(z)=A(z/γ)/(1-αz-1)对64个样本(5ms)的子帧应用感觉加权(γ=0.92,系数取自CELP编码的状态)(框211)、最后通过利用分段(利用5ms的时域统一性)计算信噪比标准,来进行对于当前帧的模式判决(框254)。不进一步详细描述闭环中的判决操作(框254)。框554的判决被编码(ISEL)并多路复用在比特流中。
多路复用器260根据模块254的判决,将判决编码的ISEL和来自编码模块的各比特组合在比特流bst中。对于CELP帧,发送比特ICELP,对于纯MDCT帧,发送比特IMDCT,而对于CELP-MDCT转变帧,发送比特ITR和IMDCT。
应该注意,在不改变本发明的本质的情况下,模式判决也可以在开环中执行或以编码器外部的方式规定。
图5中例示了根据本发明的一个实施方式的解码器。解多路复用器(框511)接收比特流bst并且首先提取模式索引ISEL。该索引控制解码模块和开关509的操作。如果索引ISEL指示CELP帧,则启用CELP解码器501,对CELP索引ICELP进行解码。通过具有传递函数1/(1-αz-1)的滤波器对由CELP解码器501通过重构激励u(n)=gpv(n)+gcc(n)(可选地,后处理u(n)、并且滤波量化的合成滤波器)重构的信号去加重(框502),以便获得CELP解码信号开关509选择此信号作为12.8kHz处的输出信号s(n)=sCELP(n)。如果索引ISEL指示“纯”MDCT帧或转变帧,则启用MDCT解码器503;MDCT解码器503对MDCT索引IMDCT进行解码。基于传送的索引IMDCT,框503重构解码的谱k=0,...,255,然后框504重构当前帧,以找到信号n=0,...,255。在转变帧中,索引ITR也被模块505解码。重要的是注意:框505使用在转变帧之前的帧中执行的解码(框501)的信息(在图中标记为Mem.)。例如,该信息包括LPC和最后的子帧的音调参数。
因此,解码器重用前一帧的预测解码的至少一个参数,以对转变帧的第一部分进行解码。还仅使用对应于未重用参数的针对此第一部分接收的参数。
框505的输出通过具有传递函数1/(1-αz-1)的滤波器去加重(框506),以获得通过受限预测编码重构的信号当标记为modepre的之前模式(即,对前一帧进行解码的类型(CELP或MDCT))是CELP类型时,执行此处理(框505到507)。
在转变帧中,信号和通过框507组合;典型地,在帧的第一部分中执行如上所述针对利用本发明的编码器的交叉淡化操作,以获得信号在“纯”MDCT帧的情况下,即,如果当前帧和前一帧通过MDCT编码,则开关509选择此信号作为12.8kHz处的输出信号s(n)=sMDCT(n)。然后通过从12.8kHz到16kHz的过采样获得16kHz的重构信号(框510)。认为在多相的有限脉冲响应滤波器(级数60)的帮助下执行该速率变化。
因此,根据本发明的编码方法,与通过变换编码进行编码的当前帧的第一子帧对应的样本通过不利于变换编码可用的比特的受限预测编码器(恒定比特率的情况)或者通过增加传输的比特率(可变比特率的情况)进行编码。
在图4a中例示的本发明的实施方式中,混叠区域仅用于执行提供在CELP重构与MDCT重构之间不具备不连续性的柔和转变的交叉淡化。
注意:在变型中,可以对混叠效应不那么显著的混叠区域的第二部分执行该交叉淡化。在图4a中例示的通过增加比特率的该变型中,对完美重构不存在收敛,因为用于交叉淡化的信号的一部分由于时域混叠而中断。
即使该低比特率中断完全可接受并且相对于低比特率编码的固有劣化通常几乎听不见,该变型也不能是透明的。
在另一变型中,在紧接在CELP帧(转变帧)之后的MDCT帧中(图4b中例示的情况),能够使用左侧不具有混叠的MDCT变换,其具有混叠线上子帧中部开始的矩形窗口。
在该图的加框灰色部分中,可以看到交叉淡化中的CELP和MDCT分量的权重变化。在转变帧的第一个2.5ms期间,输出与受限预测编码的解码信号相同,然后通过根据MDCT窗口的精确定义逐步降低CELP分量的权重并且增加MDCT分量的权重,而在随后的第二个2.5ms期间进行转变。因此利用不具有混叠的解码的MDCT信号进行转变。因此能够通过增加比特率获得透明编码。然而,矩形窗口化可在存在MDCT编码噪声情况下导致块效应。
图4c例示另一变型,其中窗口左侧的上升部分(具有时域混叠)缩短(例如至2.5ms),因此通过MDCT模式重构的信号的第一个5毫秒包含5ms的此第一子帧中右侧不具有混叠的部分(1.25ms)。因此与图4a的配置相比,MDCT窗口的“平面”(即,恒定值1,不具备混叠)延伸到通过受限预测编码进行编码的子帧的左侧。
再次,在图4c的加框灰色部分中,能够看到对于此变型的交叉淡化中的CELP和MDCT分量的权重变化。根据给出的示例,在第一个3.75毫秒期间,输出与通过受限预测解码重构的信号相同。对于此区域,MDCT分量不能被解码,因为其未被使用。结果,加权窗口的形状对于该区域不重要。在最后的1.25ms期间,通过逐步降低CELP分量的权重并且增加MDCT分量的权重来进行转变。通过以此方式继续,确保高比特率的完美重构–因此不存在量化误差–因为在交叉淡化中不会出现通过混叠中断的区域。对其中源自当前帧的第一部分的变换编码的重构信号不包括时域混叠的窗口部分执行这些重构信号的交叉淡化。该变型相对于图4b中例示的优点是使用的窗口的更好的谱属性以及块效应的减少,而没有矩形部分。
应该注意,图4b的变型是图4c的变型的极端情况,其中窗口左侧的上升部分(具有时域混叠)缩短至0。在本发明的另一变型中,窗口左侧的上升部分(具有时域混叠)的长度取决于比特率:例如随着比特率增加而缩短。在这种情况下使用的交叉淡化的权重可以适应选择的窗口。
在图4a、4b和4c中,已示出了低延迟MDCT窗口;这些窗口包括窗口结尾和开始处的零值的选择数量的连续加权系数。本发明还应用于使用常规(正弦)MDCT加权窗口的情况。
已在以上给出的具有线性权重的示例中示出了交叉淡化。很明显,也可以使用权重的变型的其他函数,例如正弦函数的上升沿。通常,其他分量的权重总是选择为使得2个权重的总和总是等于1。
还要注意:通过将MDCT合成加权窗口乘以交叉淡化权重,MDCT分量的交叉淡化的权重能针对示出的所有变型并入转变帧的MDCT合成加权窗口,因此降低了计算复杂度。
在这种情况下,受限预测编码分量与变换编码分量之间的转变通过首先将乘以交叉淡化权重的预测编码分量并其次将因此获得的变换编码分量相加来进行,而不存在权重的附加加权。此外,在图4b中示出的变型的情况下,可以在分析加权窗口中执行交叉淡化权重的积分。有利地,能够在图4b的变型中这样做,因为交叉淡化区域完全在不具有帧混叠的部分中,并且原始分析加权窗口对于混叠区域之前的样本具有零值。
如果使用正弦交叉淡化的权重,则该方法更有价值,因为以此方式,相对于图4b的矩形窗口(左侧)或者相对于具有线性权重的三角形窗口,充分提高了分析加权窗口的谱属性。更有利地,同一窗口能用作MDCT分析和合成窗口,这降低了存储。图4d中例示了该变型。
这里可以看到,转变分析/合成加权窗口的上升部分位于不具有混叠的区域中(混叠线后)。在这种情况下,该上升部分定义为正弦圆的四分之一,使得分析/合成窗口的组合效应隐含地给出平方正弦形式的交叉淡化权重。该上升部分用于MDCT窗口化和交叉淡化两者。对于受限预测编码分量的交叉淡化的权重与组合分析/合成加权窗口的上升部分互补,使得在执行交叉淡化的区域中这两个权重的总和总是为1。对于具有定义为正弦圆的四分之一的上升部分的MDCT分析/合成窗口的示例,用于受限预测编码分量的交叉淡化的权重因此为平方余弦(1减去平方正弦)形式。因此,交叉淡化的权重并入转变帧的分析和合成加权窗口两者中。图4d中例示的变型使得能够实现完美高比特率重构,因为在不具有时域混叠的区域中执行交叉淡化。
本发明还应用于其中MDCT窗口非对称的情况以及其中MDCT分析和合成窗口与ITU-T标准G.718中的不相同的情况。图4e中给出了这种示例。在此示例中,MDCT转变窗口的左侧(图中的粗线)和交叉淡化的权重与图4d的相同。很明显,与已经说明的其他实施方式对应的窗口和交叉淡化(例如图4a到4c的那些)可以等同地用在转变窗口的左边部分中。
在图4e中可以看到,对于非对称MDCT窗口,在编码器处,转变分析窗口的右边部分与正常使用的MDCT分析窗口的右边部分相同,并且在解码器处,转变MDCT合成窗口的右边部分与正常使用的MDCT合成窗口的右边部分相同。对于转变MDCT加权窗口的左边部分,使用图4a到4d中已经示出的MDCT转变窗口之一的左边部分(在图4e的示例中,使用图4d的MDCT转变窗口的左边部分)。
根据使用的窗口选择交叉淡化的权重,如以上描述的本发明的变型实施方式中说明的(例如图4a到4d中)。
概括来说,根据本发明,对于转变帧中的MDCT分量,选择使用的MDCT分析加权窗口的左半部分,使得对应于该半个窗口的区域的右边部分不包括时域混叠(例如根据图4a到4e的示例中的一个),并且选择对应的MDCT合成加权窗口的左半部分,使得在分析和合成窗口的组合效应之后,不具有混叠的此区域至少在右侧具有权重1(不具有衰减)。图4a到4e示出验证这些标准的分析和合成窗口对的示例。根据这些示例,转变MDCT加权窗口的左半部分与分析和合成相同,但是并非在本发明的所有实施方式中一定是这种情况。应该注意,例如,交叉淡化中MDCT分量的权重是零的区域中的合成窗口的形状并不重要,因为将不使用这些样本;甚至都不需要计算。另一方面,分析和合成窗口在交叉淡化的权重中的贡献也可以按照在转变MDCT加权窗口的左半部分将给出不同分析和合成窗口的不均匀方式分布。对于转变分析和合成窗口的右半部分,其与仅通过变换编码进行编码的区域中正常使用的MDCT加权窗口的右半部分相同。为了确保不存在量化误差(以超高比特率)的完美重构,通过受限预测解码器重构的信号与通过变换解码器重构的信号之间的交叉淡化必须在不具有时域混叠的区域中执行。分析和合成窗口的组合效应能隐含地对通过变换解码器重构的分量的交叉淡化的权重进行积分。
为了限制对分配给MDCT编码的比特率的影响,在确保良好质量的同时针对此受限预测编码使用最少可能比特是有价值的。在交替CELP和MDCT的编解码器中,在其中频域中的编码比时域中的编码更有效的几乎静止段中通常选择MDCT模式。然而,也能够考虑其中模式判决在开环中进行或者在编码器外部管理、而不保证验证静止性假设的情况。
在ACELP与MDCT模式之间的切换时,该静止通常已建立;可以假设诸如谱包络的特定参数在帧与帧之间变化得非常少。因此可以重用在前一帧期间传输的表示信号的谱包络的量化的合成滤波器1/A(z),以便节省用于MDCT编码的比特。传输的最后的合成滤波器用作CELP模式(最接近要编码的信号)中。
用于对转变帧中的信号编码的信息是:音调(与长期激励相关联)、激励(或创新)矢量、以及与激励相关联的(多个)增益。
在本发明的另一实施方式中,音调的解码值和/或其与最后的子帧关联的增益也能被重用,因为这些参数在静止区域中也慢慢变化。这进一步减少了从CELP到MDCT的转变期间要传送的信息量。
在变型实施方式中,还能够量化这些参数,作为相对于在前一CELP帧的最后的子帧中解码的参数的一些比特的微分。在这种情况下,因此仅对表示这些参数的缓慢变化的修正进行编码。
从CELP到MDCT的转变的期望属性之一是在高渐进比特率处,当CELP和MDCT编码器具有几乎完美的重构时,在转变帧(CELP帧后面的MDCT帧)中执行的编码自身必须具有几乎完美的重构。图4b和4c中例示的变型以超高比特率提供几乎完美的重构。
为了质量均匀性的目的,分配给受限预测编码的这些参数的比特数可以是变量,并且与总比特率成比例。
为了限制从一种类型的编码到另一种类型的编码的转变的效果,执行通过预测编码进行编码的信号部分与变换编码的帧的剩余部分之间的渐进转变(交叉淡化,对于变换分量淡入,对于预测分量淡出)。为了实现透明质量,必须对不具有混叠的MDCT解码信号执行该交叉淡化。
除了图4b和4c的变型之外,在附加变型中,为了确保高比特率处的可能透明度,修改MDCT编码的原理,使得在转变帧的MDCT窗口中不使用左侧的时域混叠。由于仅对右侧执行时域混叠(减少块大小),所以此变型包括在MDCT变换的中心使用DCT变换的修改版本,因为混叠信号的长度不同。
应该注意,图4a到4d中针对在通过MDCT模式编码的每一帧(除了转变帧)中相同的MDCT分析和合成窗口的简化情况描述了本发明。在本发明的变型中,MDCT窗口可以是非对称的,如图4e中例示的。此外,MDCT编码能使用至少一个“长”窗口(通常20-40ms)与一系列短窗口(通常5-10ms)之间的窗口的切换(窗口切换)。
此外,在其中CELP/MDCT模式的选择不是最优的、转变帧中的信号静止性的假设未被验证、并且最后的CELP帧的参数(LPC,音调)的重用能导致可听见的劣化的情况中,等同地定义其他变型。对于这些情况,本发明提供了传输至少一个比特,指示与以上描述的方法不同的转变模式,以便保持要在从CELP到MDCT的转变帧中编码的更多的CELP参数和/或CELP子帧。例如,第一比特可以用信号通知在剩余比特流中,LPC滤波器是否被编码或者在解码器处是否能使用接收的最后版本,另一个比特可以对于音调的值用信号通知相同的事情。在参数编码视为必要的情况下,可以这样做,作为相对于在最后的帧中传输的值的微分。
因此,通常,与上述实施方式一致,能如图6a所示以流程图的形式例示根据本发明的编码方法。
对于要编码的信号s(n),在步骤E601,验证处于当前帧要根据变换编码进行编码并且前一帧已根据预测类型的编码进行编码的情况。因此,当前帧是预测编码与变换编码之间的转变帧。
在步骤E602,受限预测编码应用于当前帧的第一部分。该预测编码相对于用于前一帧的预测编码受限。
在此受限预测编码步骤之后,获得信号
在步骤E603,对于所有当前帧,并行执行当前帧的MDCT编码。
在此变换编码步骤之后,获得信号
根据针对本发明描述的实施方式,该方法包括以下步骤:在信号重构之后,在步骤E604通过交叉淡化进行组合,使得能够在转变帧中执行预测编码与变换编码之间的柔和转变。在此步骤,获得重构的信号
类似地,通常,参照图6b例示根据本发明的解码方法。
在解码期间,当已根据预测类型的解码方法对前一帧进行了解码并且当要根据变换类型的解码方法对当前帧进行解码时(E605中的验证),解码方法包括以下步骤:在E606,通过当前帧的第一部分的受限预测解码进行解码。还包括E607中当前帧的变换解码步骤。
根据上述实施方式,然后执行步骤E608,以在当前帧的全部或部分上通过交叉淡化执行获得的解码信号(分别为和)的组合,并因此获得当前帧的解码信号
最后,已经在从CELP转变到MDCT的特定情况下呈现了本发明。很明显,本发明等同地应用于其中用另一种类型的编码(例如MICDA,TCX)代替CELP编码、并且利用来自转变MDCT帧之前的帧的编码的信息在转变帧的一部分上执行转变编码的情况。
图7描述适于产生根据本发明的一个实施方式的编码器或解码器的硬件设备。
此设备DISP包括用于接收数字信号SIG的输入,在编码器的情况下,数字信号SIG是输入信号x(n’),在解码器的情况下,数字信号SIG是比特流bst。
该设备还包括适于特别是对源自输入E的信号执行编码/解码操作的数字信号处理器PROC。
该处理器连接到适于存储驱动用于编码/解码的设备所必需的信息的一个或多个存储器单元MEM。例如,当设备是编码器类型时,这些存储器单元包括如下指令:用于以上描述的编码方法的应用,尤其用于应用根据预测编码对数字信号的样本的前一帧进行编码、根据变换编码对数字信号的样本的当前帧进行编码的步骤,使得通过相对于前一帧的预测编码受限的预测编码对当前帧的第一部分进行编码。
当设备是解码器类型时,这些存储器单元包括如下指令:用于以上描述的解码方法的应用,尤其用于应用对接收的根据预测编码进行编码的数字信号的样本的前一帧进行预测解码、对接收的根据变换编码进行编码的数字信号的样本的当前帧进行逆变换解码的步骤,另外还有通过相对于当前帧的第一部分的前一帧的预测解码受限的预测解码进行解码的步骤。
这些存储器单元也可包括计算参数或其他信息。
更一般地,能由可或可不集成到编码器或解码器的处理器(可选地,可移除)读取的存储装置存储应用根据本发明的编码方法和/或解码方法的计算机程序。图6a和6b例如能例示诸如计算机程序的算法。
处理器还适于在这些存储器单元中存储结果。最后,该设备包括连接到处理器以便提供输出信号SIG*的输出S,在编码器的情况下,输出信号SIG*是比特流bst形式的信号,在解码器的情况下,输出信号SIG*是输出信号。
Claims (15)
1.一种用于对数字声音信号进行编码的方法,包括以下步骤:
-根据预测编码对数字信号的样本的前一帧进行编码(E601);
-根据变换编码对数字信号的样本的当前帧进行编码(E603)
该方法的特征在于,通过相对于前一帧的预测编码受限的预测编码,通过重用前一帧的预测编码的至少一个参数并且通过仅对当前帧的第一部分的未重用参数进行编码,对当前帧的该第一部分进行编码(E602)。
2.根据权利要求1所述的方法,其特征在于,该受限预测编码使用从预测编码的前一帧复制的预测滤波器。
3.根据权利要求2所述的方法,其特征在于,该受限预测编码还使用预测编码的前一帧的音调和/或其相关联的增益的解码值。
4.根据权利要求1所述的方法,其特征在于,用于受限预测编码的预测编码的特定参数作为相对于预测编码的前一帧的解码参数的一些比特的微分来量化。
5.根据权利要求1所述的方法,其特征在于,该方法包括以下步骤:获得源自当前帧的第一部分的预测和变换本地编码和解码的重构信号,并通过交叉淡化这些重构信号进行组合(E604)。
6.根据权利要求5所述的方法,其特征在于,根据变换编码的窗口形状,对当前帧的第一部分的一部分执行重构信号的所述交叉淡化。
7.根据权利要求5所述的方法,其特征在于,对当前帧的第一部分的一部分执行重构信号的所述交叉淡化,所述部分不包含时域混叠。
8.根据权利要求1所述的方法,其特征在于,该变换编码使用加权窗口,该加权窗口包括窗口的端部和开始处的零值的选择数量的连续加权系数。
9.根据权利要求1所述的方法,其特征在于,该变换编码使用非对称加权窗口,该非对称加权窗口包括窗口的至少一个端部处的零值的选择数量的连续加权系数。
10.一种用于对数字声音信号进行解码的方法,包括以下步骤:
-对接收的根据预测编码进行编码的数字信号的样本的前一帧进行预测解码(E605);
-对接收的根据变换编码进行编码的数字信号的样本的当前帧进行逆变换解码(E607);
该方法的特征在于,还包括以下步骤:通过相对于接收的根据受限预测编码进行编码的当前帧的第一部分的前一帧的预测解码受限的预测解码,通过重用前一帧的预测解码的至少一个参数并且通过仅对针对当前帧的该第一部分的接收的参数进行解码,来进行解码(E606)。
11.根据权利要求10所述的方法,其特征在于,包括以下步骤:通过针对当前帧的第一部分的至少一部分交叉淡化通过逆变换和通过受限预测解码所解码的信号,来进行组合(E608)。
12.根据权利要求10所述的方法,其特征在于,该受限预测解码使用由前一帧的预测解码解码并使用的预测滤波器。
13.根据权利要求12所述的方法,其特征在于,该受限预测解码还使用前一帧的预测解码的音调和/或其相关联的增益的解码值。
14.一种数字声音信号编码器,包括:
-预测编码模块(211),用于对数字信号的样本的前一帧进行编码;
-变换编码模块(221),用于对数字信号的样本的当前帧进行编码,
其特征在于,还包括预测编码模块(231),相对于前一帧的预测编码受限,以便通过重用前一帧的预测编码的至少一个参数并且通过仅对当前帧的第一部分的未重用参数进行编码,对当前帧的该第一部分进行编码。
15.一种数字声音信号解码器,包括:
-预测解码模块(501),用于对接收的根据预测编码进行编码的数字信号的样本的前一帧进行解码;
-逆变换解码模块(503),用于对接收的根据变换编码进行编码的数字信号的样本的当前帧进行解码;
其特征在于,还包括预测解码模块(505),相对于前一帧的预测解码受限,以便通过重用前一帧的预测解码的至少一个参数并且通过仅对针对接收的根据受限预测编码所编码的当前帧的第一部分接收的参数进行解码,对当前帧的该第一部分进行解码。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1061203A FR2969805A1 (fr) | 2010-12-23 | 2010-12-23 | Codage bas retard alternant codage predictif et codage par transformee |
FR1061203 | 2010-12-23 | ||
PCT/FR2011/053097 WO2012085451A1 (fr) | 2010-12-23 | 2011-12-20 | Codage de son à bas retard alternant codage prédictif et codage par transformée |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103384900A CN103384900A (zh) | 2013-11-06 |
CN103384900B true CN103384900B (zh) | 2015-06-10 |
Family
ID=44059261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180068351.0A Active CN103384900B (zh) | 2010-12-23 | 2011-12-20 | 在预测编码与变换编码之间交替的低延迟声音编码 |
Country Status (10)
Country | Link |
---|---|
US (1) | US9218817B2 (zh) |
EP (1) | EP2656343B1 (zh) |
JP (1) | JP5978227B2 (zh) |
KR (1) | KR101869395B1 (zh) |
CN (1) | CN103384900B (zh) |
BR (1) | BR112013016267B1 (zh) |
ES (1) | ES2529221T3 (zh) |
FR (1) | FR2969805A1 (zh) |
RU (1) | RU2584463C2 (zh) |
WO (1) | WO2012085451A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4977157B2 (ja) | 2009-03-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
KR102053900B1 (ko) | 2011-05-13 | 2019-12-09 | 삼성전자주식회사 | 노이즈 필링방법, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기 |
CN103548080B (zh) * | 2012-05-11 | 2017-03-08 | 松下电器产业株式会社 | 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法 |
KR101498113B1 (ko) * | 2013-10-23 | 2015-03-04 | 광주과학기술원 | 사운드 신호의 대역폭 확장 장치 및 방법 |
FR3013496A1 (fr) * | 2013-11-15 | 2015-05-22 | Orange | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
US9489955B2 (en) * | 2014-01-30 | 2016-11-08 | Qualcomm Incorporated | Indicating frame parameter reusability for coding vectors |
US10134403B2 (en) * | 2014-05-16 | 2018-11-20 | Qualcomm Incorporated | Crossfading between higher order ambisonic signals |
FR3023036A1 (fr) * | 2014-06-27 | 2016-01-01 | Orange | Re-echantillonnage par interpolation d'un signal audio pour un codage / decodage a bas retard |
EP2980795A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980796A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for processing an audio signal, audio decoder, and audio encoder |
EP2980797A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
FR3024582A1 (fr) | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
FR3024581A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Determination d'un budget de codage d'une trame de transition lpd/fd |
WO2016142002A1 (en) * | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
CN114898761A (zh) * | 2017-08-10 | 2022-08-12 | 华为技术有限公司 | 立体声信号编解码方法及装置 |
CN110556118B (zh) * | 2018-05-31 | 2022-05-10 | 华为技术有限公司 | 立体声信号的编码方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308656A (zh) * | 2007-05-17 | 2008-11-19 | 展讯通信(上海)有限公司 | 音频暂态信号的编解码方法 |
CN101425294A (zh) * | 2002-09-06 | 2009-05-06 | 松下电器产业株式会社 | 声音编解码与发送接收设备及编码方法、通信终端和基站 |
FR2936898A1 (fr) * | 2008-10-08 | 2010-04-09 | France Telecom | Codage a echantillonnage critique avec codeur predictif |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5787387A (en) * | 1994-07-11 | 1998-07-28 | Voxware, Inc. | Harmonic adaptive speech coding method and system |
JP3317470B2 (ja) * | 1995-03-28 | 2002-08-26 | 日本電信電話株式会社 | 音響信号符号化方法、音響信号復号化方法 |
JP3653826B2 (ja) * | 1995-10-26 | 2005-06-02 | ソニー株式会社 | 音声復号化方法及び装置 |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
DE69926821T2 (de) * | 1998-01-22 | 2007-12-06 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen |
US6959274B1 (en) * | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
US7171355B1 (en) * | 2000-10-25 | 2007-01-30 | Broadcom Corporation | Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
US7596486B2 (en) * | 2004-05-19 | 2009-09-29 | Nokia Corporation | Encoding an audio signal using different audio coder modes |
PL2311034T3 (pl) * | 2008-07-11 | 2016-04-29 | Fraunhofer Ges Forschung | Koder i dekoder audio do kodowania ramek próbkowanego sygnału audio |
RU2393548C1 (ru) * | 2008-11-28 | 2010-06-27 | Общество с ограниченной ответственностью "Конвент Люкс" | Устройство для изменения входящего голосового сигнала в выходящий голосовой сигнал в соответствии с целевым голосовым сигналом |
JP4977157B2 (ja) * | 2009-03-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
-
2010
- 2010-12-23 FR FR1061203A patent/FR2969805A1/fr not_active Withdrawn
-
2011
- 2011-12-20 BR BR112013016267-8A patent/BR112013016267B1/pt active IP Right Grant
- 2011-12-20 JP JP2013545471A patent/JP5978227B2/ja active Active
- 2011-12-20 RU RU2013134227/08A patent/RU2584463C2/ru active
- 2011-12-20 ES ES11815474.9T patent/ES2529221T3/es active Active
- 2011-12-20 WO PCT/FR2011/053097 patent/WO2012085451A1/fr active Application Filing
- 2011-12-20 CN CN201180068351.0A patent/CN103384900B/zh active Active
- 2011-12-20 KR KR1020137019387A patent/KR101869395B1/ko active IP Right Grant
- 2011-12-20 US US13/997,446 patent/US9218817B2/en active Active
- 2011-12-20 EP EP11815474.9A patent/EP2656343B1/fr active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101425294A (zh) * | 2002-09-06 | 2009-05-06 | 松下电器产业株式会社 | 声音编解码与发送接收设备及编码方法、通信终端和基站 |
CN101308656A (zh) * | 2007-05-17 | 2008-11-19 | 展讯通信(上海)有限公司 | 音频暂态信号的编解码方法 |
FR2936898A1 (fr) * | 2008-10-08 | 2010-04-09 | France Telecom | Codage a echantillonnage critique avec codeur predictif |
Also Published As
Publication number | Publication date |
---|---|
US9218817B2 (en) | 2015-12-22 |
BR112013016267B1 (pt) | 2021-02-02 |
JP5978227B2 (ja) | 2016-08-24 |
RU2584463C2 (ru) | 2016-05-20 |
CN103384900A (zh) | 2013-11-06 |
RU2013134227A (ru) | 2015-01-27 |
US20130289981A1 (en) | 2013-10-31 |
BR112013016267A2 (pt) | 2018-07-03 |
EP2656343B1 (fr) | 2014-11-19 |
ES2529221T3 (es) | 2015-02-18 |
KR20130133816A (ko) | 2013-12-09 |
JP2014505272A (ja) | 2014-02-27 |
KR101869395B1 (ko) | 2018-06-20 |
WO2012085451A1 (fr) | 2012-06-28 |
FR2969805A1 (fr) | 2012-06-29 |
EP2656343A1 (fr) | 2013-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103384900B (zh) | 在预测编码与变换编码之间交替的低延迟声音编码 | |
US6732070B1 (en) | Wideband speech codec using a higher sampling rate in analysis and synthesis filtering than in excitation searching | |
EP3301674B1 (en) | Adaptive bandwidth extension and apparatus for the same | |
US11282530B2 (en) | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates | |
JP5112309B2 (ja) | 階層符号化/復号化装置 | |
AU2007305960B2 (en) | Pitch lag estimation | |
EP2519945B1 (en) | Embedded speech and audio coding using a switchable model core | |
KR101407120B1 (ko) | 오디오 신호를 처리하고 결합된 통합형 음성 및 오디오 코덱(usac)을 위한 보다 높은 시간적 입도를 제공하기 위한 장치 및 방법 | |
EP2849180B1 (en) | Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal | |
JP2015043096A (ja) | マルチモードオーディオコーデックおよびそれに適応されるcelp符号化 | |
JP2007525707A (ja) | Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス | |
EP2772914A1 (en) | Hybrid sound-signal decoder, hybrid sound-signal encoder, sound-signal decoding method, and sound-signal encoding method | |
US9984696B2 (en) | Transition from a transform coding/decoding to a predictive coding/decoding | |
CN112133315B (zh) | 确定用于编码lpd/fd过渡帧的预算 | |
CN101847414A (zh) | 用于语音编码的方法和设备 | |
Gournay et al. | A 1200 bits/s HSX speech coder for very-low-bit-rate communications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |