CN102859589B - 多模式音频编译码器及其适用的码簿激励线性预测编码 - Google Patents
多模式音频编译码器及其适用的码簿激励线性预测编码 Download PDFInfo
- Publication number
- CN102859589B CN102859589B CN201080058349.0A CN201080058349A CN102859589B CN 102859589 B CN102859589 B CN 102859589B CN 201080058349 A CN201080058349 A CN 201080058349A CN 102859589 B CN102859589 B CN 102859589B
- Authority
- CN
- China
- Prior art keywords
- subset
- frames
- frame
- excitation
- bitstream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005284 excitation Effects 0.000 claims abstract description 265
- 230000008859 change Effects 0.000 claims abstract description 15
- 230000003044 adaptive effect Effects 0.000 claims description 66
- 230000003595 spectral effect Effects 0.000 claims description 64
- 238000000034 method Methods 0.000 claims description 59
- 230000015572 biosynthetic process Effects 0.000 claims description 38
- 238000003786 synthesis reaction Methods 0.000 claims description 37
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000013139 quantization Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 238000012937 correction Methods 0.000 description 7
- 238000000695 excitation spectrum Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011045 prefiltration Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
根据本发明的第一方面,子帧的比特流元素与全域增益值不同地编码,使得帧的全域增益值改变,结果导致该音频内容的译码表示型态的输出电压调整。同时,该不同的编码节省位,否则位的节省将出现在当将新的语法元素导入编码比特流时。此外,通过允许设定全域增益值的时间分辨率低于前述比特流元素差异编码至该全域增益值而调整各子帧的增益的时间分辨率,该不同的编码允许全域地调整编码比特流的增益的负荷减轻。根据另一方面,通过共同句柄簿激励线性预测(CELP)编译码器的码簿激励的增益,连同控制该变换编码帧的变换或反变换电压,可实现跨CELP编码帧及变换编码帧的全域增益控制。根据又另一方面,通过执行在激励信号的加权域的CELP编码中的增益值确定,当改变个别增益值时,可更良好适应于变换编码电压调整的表现而呈现CELP编码比特流的响度变化。
Description
技术领域
本发明涉及多模式音频编码,诸如统一语音及音频编译码器,或适用于一般音频信号诸如音乐、语音、混合及其它信号的编译码器,及其适用的一种CELP编码方案。
背景技术
混合不同编码模式来编码表示不同类型音频信号诸如语音、音乐等的混合的一般音频信号是有利的个别编码模式可适用于特定的音频类型,因此,多模式音频编码器可利用随着时间与音频内容类型的改变相对应地改变编码模式的优势换言之,多模式音频编码器例如可判定使用特别专用于编码语音的编码模式来编码该音频信号的语音内容部分,使用另一编码模式来编码该音频内容的表示非语音内容诸如音乐的部分。线性预测编码模式倾向于较为适合用以编码语音内容,而只要有关音乐的编码,则频域编码模式倾向于表现效能优于线性预测编码模式。
但使用不同的编码模式,使得其难以全域地调整已编码的比特流内增益,或更准确地说,已编码的比特流的音频内容的译码表示型态的增益,无需实际上将该已编码的比特流译码然后再度重新编码增益已调整的译码表示型态,迂回绕道必然减低已调整增益的比特流的质量,原因在于再量化在重新编码已译码且已调整增益的表示型态进行。
举例来说,在AAC中,通过改变8-位字段「全域增益」的值,在比特流层面可实现输出电压的调整。此比特流元素可简单地被通过、编辑,而无需完整译码及重编码。如此,此处理并未引入任何质量下降,并且可毫无损耗地取消。有些应用用途实际上使用了此选项。举例来说,一种免费软件称作「AAC增益」,[AAC增益]恰应用了前述方法。此种软件为免费软件「MP3增益」的衍生,其应用与MPEC1/2层3相同的技术。
在刚萌芽的USAC编译码器中,FD编码模式从AAC继承8-位全域增益。因此,若USAC只以FD模式执行,例如用于较高比特率,则与AAC比较,全然保留电压调整功能。但一旦允许模式转换,则此项可能性不复存在。举例来说,在TCX模式中,也有一个具相同功能的比特流元素也称作「全域增益」,其具有7-位长度。换言之,编码个别模式的个别增益元素的比特数主要适应于各自的编码模式,来实现一方面耗用较少比特于增益控制,另一方面避免质量因增益调整的量化太过粗糙而降低间的最佳折衷。显然此折衷在比较TCX模式与FD模式时导致不同的比特数。在目前萌生的USAC标准的ACELP模式中,电压可通过具有2-位长度的比特流元素「平均能量」控制。再次,显然过多比特用于平均能量与过少比特用于平均能量间的折衷,结果导致与其它编码模式(即,TCX和FD编码模式)相比不同的比特数。
如此,到目前为止,全域地调整通过多模式编码所编码的已编码比特流的译码表示型态的增益烦琐且易于造成质量的降低。执行译码接着执行增益调整及重新编码,或单独通过调整影响比特流的不同编码模式部分的增益的不同模式的个别比特流元素,试探性地执行响度电压的调整。但后一可能性极其可能将假像(artifacts)引入已增益调整的已译码的表示型态。
因此,本发明的目的是提供一种多模式音频编码器,其允许全域增益调整,而无译码及重新编码的绕道,就质量及压缩率而言只有中等降低,及提供一种适用于嵌入多模式音频编码而达成类似性质的CELP编译码器。
该目的可通过所附的独立权利要求的主题实现。
发明内容
根据本发明的第一方面,本申请发明人了解当尝试跨不同编码模式使得全域增益调整协调时所遭遇的问题,系植基于实际上不同编码模式具有不同帧尺寸且以不同方式分解成子帧。根据本发明的第一方面,此困难可通过将子帧的比特流元素不同地编码成全域增益值,使得帧的全域增益值的改变导致该音频内容的译码表示型态的输出电压的调整。同时,不同的编码可节省位,否则当将新语法元素导入编码比特流时将出现位。另外,不同的编码通过允许设定全域增益值的时间分辨率比前述比特流元素不同地编码成全域增益值来调整各子帧的增益时的时间分辨率更低,而允许全域调整编码的比特流的增益时的负担减轻。
因此,根据本申请的第一方面,一种用以基于编码比特流而提供音频内容的译码表示型态的多模式音频译码器,该多模式音频译码器被配置为译码该编码比特流的每个帧的全域增益值,其中帧的第一子集以第一编码模式编码,及帧的第二子集以第二编码模式编码,而该第二子集的各个帧由多于一个子帧组成;对帧的该第二子集的子帧的至少一个子集的每个子帧,与各帧的全域增益值不同地译码相对应的比特流元素;在译码帧的第二子集的子帧的至少一个子集的子帧时使用所述全域增益值及相对应的比特流元素,及译码帧的第一子集时使用该全域增益值,完成所述比特流的译码,其中该多模式音频译码器被配置为使得编码比特流内的帧的全域增益值变化导致该译码音频内容表示型态的输出电压的调整。根据本第一方面,一种多模式音频编码器被配置为将音频内容编码成编码的比特流而帧的第一子集以第一编码模式编码及帧的第二子集以第二编码模式编码,此时帧的第二子集由一个或多个子帧组成,此时该多模式音频编码器被配置为确定和编码每帧的全域增益值,及对第二子集的子帧的至少一个子集的每个子帧与各帧的全域增益值不同地编码和确定相对应的比特流元素,其中执行多模式音频编码方法,使得编码比特流内的帧的全域增益值的改变导致音频内容的译码表示型态在译码端的输出电位的调整。
根据本申请的第二方面,本申请发明人发现若CELP编译码器的码簿激励的增益连同变换编码帧的变换或反变换电压一起控制,则跨经CELP编码帧及变换编码帧的通用增益控制可经由维持前文概述的优点实现。
据此,根据第二方面,一种用以基于编码比特流而提供音频内容的译码表示型态的多模式音频译码器,其帧的第一子集以CELP编码,及其帧的第二子集以变换编码,该多模式音频译码器包括CELP译码器,其被配置为解码该第一子集的目前帧,该CELP译码器包括激励发生器,其被配置为通过基于该编码比特流内的该第一子集的目前帧的码簿指标及过去激励而组成码簿激励,以及基于该编码比特流内部之全域增益值而设定该码簿激励之增益,来产生该第一子集的前帧的目前激励;以及线性预测合成滤波器,其被配置为基于该编码比特流内的第一子集的目前帧的线性预测滤波系数而滤波目前激励;变换译码器被配置为通过如下方式解码该第二子集的目前帧:由编码比特流构造第二子集的目前帧的频谱信息,及对该频谱信息进行频域至时域变换来获得时域信号,使得时域信号的电压取决于全域增益值。
同理,根据第二方面,一种多模式音频编码器,用于通过CELP编码音频内容的帧的第一子集及通过变换编码的第二帧子集而将该音频内容编码成编码比特流,该多模式音频编码器包括:CELP编码器,被配置为编码第一子集的目前帧,该CELP编码器包括:线性预测分析器,其被配置为对该第一子集的目前帧产生线性预测滤波系数,并将其编码成该编码比特流;及激励发生器,被配置为判定该第一子集的目前帧的目前激励,当通过线性预测合成滤波器基于编码比特流内的线性预测滤波系数滤波时,其恢复由该第一子集的目前帧的码簿指标及过去激励所限定的第一子集的目前帧,及将该码簿指标编码成该编码比特流;及变换编码器,其被配置为通过对该第二子集的目前帧的时域信号执行时域至频域变换成而编码第二子集的目前帧来获得频谱信息,及将该频谱信息编码成该编码比特流,其中该多模式音频编码器被配置为将全域增益值编码成编码比特流,该全域增益值取决于第一子集的目前帧的音频内容根据线性预测系数而使用该线性预测分析滤波器来滤波的版本的能量,或取决于该时域信号的能量。
根据本申请的第三方面,发明人发现若CELP编码的全域增益值经运算且施加于激励信号的加权域,而非直接使用普通激励信号,则当改变各全域增益值时,CELP编码比特流的响度变化更加适应配合变换编码电压调整的表现。此外,当考虑CELP编码模式排它地作为CELP的其它增益诸如码增益及LTP增益在加权域运算时,在激励信号的加权域运算与施加全域增益值也有其优势。
如此,根据第三方面,一种CELP译码器,包括激励发生器,其被配置为产生比特流的目前帧的目前激励,概产生通过:基于该比特流内的目前帧的自适应码簿指标及过去激励,构造自适应码簿激励;基于该比特流内的目前帧的创新码簿指标,构造创新码簿激励;计算由该比特流内的线性预测滤波系数所组成的加权线性预测合成滤波器而频谱式加权的该创新码簿激励的能量的估值;基于该比特流内的全域增益值与估算的能量间的比,设定该创新码簿激励的增益;及组合该自适应码簿激励与该创新码簿激励来获得该目前激励;及线性预测合成滤波器,其被配置为基于该等线性预测滤波系数而滤波该目前激励。
同理,根据第三方面,一种CELP编码器,包括线性预测分析器,其被配置生成对音频内容的目前帧的线性预测滤波系数,以及将线性预测滤波系数编码成比特流;激励发生器,被配置为将目前帧的目前激励确定为自适应码簿激励与创新码簿激励的组合,而当基于线性预测滤波系数通过线性预测合成滤波器滤波时,恢复所述目前帧,通过:造由目前帧的自适应码簿指标及过去激励所限定的所述自适应码簿激励,以及将自适应码簿指标编码成比特流;及构造由该目前帧的创新码簿指标限定的创新码簿激励,及将该创新码簿指标编码成该比特流;及能量测定器,其被配置为确定加权滤波器滤波的该目前帧的音频内容的版本的能量,以获得全域增益值,以及将该全域增益值编码成该比特流,该加权滤波器由该线性预测滤波系数解释。
附图说明
本申请的优选实施例为本申请所附的从属权利要求的主旨。此外,本申请的优选实施例在后文参考附图进行说明,附图中:
图1示出根据实施方式的多模式音频编码器的方块图;
图2示出根据第一替代例的图1的编码器的能量计算部分的方块图;
图3示出根据第二替代例的图1的编码器的能量计算部分的方块图;
图4示出根据实施方式且适用于译码由第1图的编码器编码的比特流的多模式音频译码器;
图5a及图5b示出根据本发明又一实施方式的多模式音频编码器及多模式音频译码器;
图6a及6b示出根据本发明又一实施方式的多模式音频编码器及多模式音频译码器;以及
图7a及图7b示出根据本发明又一实施方式的CELP编码器及CELP译码器。
具体实施方式
图1示出根据本申请实施方式的一种多模式音频编码器的实施方式。图1的多模式音频编码器适用于编码混合型音频信号,诸如语音与音乐的混合信号。为了获得最适当的速率/失真折衷,该多模式音频编码器被配置为在数种编码模式间切换而调整编码性质适应要编码的音频内容的目前需求。更明确地,根据图1的实施方式,多模式音频编码器通常使用三种不同的编码模式,即FD(频域)编码及LP(线性预测)编码,其又再划分成TCX(变换编码激励)及CELP(码簿激励线性预测)编码。在FD编码模式中,要编码的音频内容经开窗、频谱分解,且该频谱分解经根据心理声学而量化及定标来隐藏在掩蔽临界值下方的量化噪声。在TCX及CELP编码模式中,音频内容接受线性预测分析来获得线性预测系数,及这些线性预测系数在比特流内连同激励信号一起传输,其当使用比特流内的线性预测系数,以相对应的线性预测合成滤波器滤波时,获得音频内容的译码表示型态。在TCX的情况下,激励信号经变换编码,而在CELP的情况下,激励信号通过码簿内的检索登录项目编码,或以合成方式组成所滤波样本的码簿向量。根据本实施方式使用的ACELP(代数码簿激励线性预测),激励由自适应码簿激励及创新码簿激励所组成。容后详述,在TCX中,线性预测系数可在译码器端使用,也通过推导定标因子而在频域直接采用来成形噪声量化。在此种情况下,TCX被设定来变换原先信号,及将LPC结果只应用在频域。
尽管编码模式不同,但图1的编码器产生比特流,使得通过例如等量增或减全域增益值,例如,相等数量的比特数(其等于以对数底乘以位数的因子(或除数)缩放),与该已编码比特流的全部帧相关联的某个语法元素(具体实例是与帧个别地或帧组群相关联)允许跨全部编码模式的全域增益适应。
具体地,根据图1的多模式音频编码器10支持的各种编码模式,其包含FD编码器12及LPC(线性预测编码)编码器14。LPC编码器14又由TCX编码部16、CELP编码部18及编码模式切换器20所组成。编码器10所包含的又一编码模式切换器相当概略地显示为模式分配器22。模式分配器被配置为分析要编码的音频内容24以便将其连续的时间部分与不同编码模式相关联。具体地,在图1的情况下,模式分配器22将音频内容24的不同的连续时间部分分配至FD编码模式及LPC编码模式中的任一者。在图1的说明例中,举例来说,模式分配器22已将音频内容24的部分26分配至FD编码模式,而紧随后部分28分配至LPC编码模式。根据模式分配器22分配的编码模式,音频内容24可再细分成不同的连续帧。举例来说,在图1的实施方式中,部分26内的音频内容24被编码成等长帧30,而彼此有例如50%重迭。换言之,FD编码器12被配置为以这些单元30编码音频内容24的FD部分26。根据图1的实施方式,LPC编码器14也被配置以帧单位32编码音频内容24的相关联部分28,但这些帧并非必需与帧30大小相等。以图1为例,帧32的大小小于帧30的大小。具体地,根据特定实施方式,帧30的长度为音频内容24的2048个样本,而帧32的长度为1024个样本。可能在LPC编码模式与FD编码模式间的边界,最末帧与第一帧重迭。但在图1的实施方式中,及如图1示例性所示,在从FD编码模式转换至LPC编码模式的情况下并无帧重迭,反之亦然。
如第1图所示,FD编码器12接收帧30,并通过频域变换编码将其编码成已编码比特流36的个别帧34。为了实现该目的,FD编码器12包括一开窗器38、变换器40、量化及定标模块42、无损耗编码器44,以及心理声学控制器46。原则上,FD编码器12可根据AAC标准实施,只要下文描述并未教示FD编码器12的不同表现即可。具体地,开窗器38、变换器40、量化及定标模块42、及无损耗编码器44系串接在FD编码器12的输入端48与输出端50之间,及心理声学控制器46具有输入端连接至输入端48,及输出端连接至量化及定标模块42的另一输入端。须注意FD编码器12还可包括额外的模块用于其它编码选项,但在此处并不关键。
开窗器38可使用不同窗用来开窗进入输入端48的目前帧。该开窗帧在变换器40诸如使用MDCT等接受时域至频域的变换。变换器40可使用不同变换长度来变换开窗帧。
具体地,开窗器38可支持长度与帧30的长度一致的窗,变换器40使用相同的变换长度以便获得例如在MDCT的情况下与帧30的半数样本相对应的多个变换系数。但开窗器38也可被配置为支持编码选项,根据这些编码选项,时间上彼此相对偏移的诸如帧30的半长度的8窗的若干较短窗被施加至目前帧,变换器40使用符合开窗的变换长度变换目前帧的这些开窗版本,从而获得该帧期间的不同时间,藉取样该音频内容而对该帧获得8频谱。由开窗器38所使用的窗可为对称或非对称的,且可具有零前端及/或零后端。在施加若干短窗至目前帧的情况下,这些短窗的非零部分相对于彼此位移,但彼此重迭。当然,根据其它实施方式也可使用开窗器38及变换器40的窗及变换长度的其它编码选项。
由变换器40输出的变换系数在模块42量化及定标。特别,心理声学控制器46分析输入端48的输入信号以确定掩蔽临界值48,据此,由量化及定标所导入的量化噪声形成为低于该掩蔽临界值。具体地,定标模块42可在定标因子带运算,共同覆盖频谱域所再细分的变换器40的频谱域。据此,成组连续的变换系数被分配至不同的定标因子带。模块42判定每个定标因子带的定标因子,该定标因子当乘以分配给各定标因子频带的各变换系数值时,获得变换器40所输出的变换系数的重建版本。此外,模块42设定频谱上一致地定标该频谱的增益值。如此,重建变换系数等于该变换系数值乘以相关联的定标因子乘以各帧i的增益值gi。变换系数值、定标因子、及增益值在无损耗编码器44接受无损耗编码,诸如利用熵编码,诸如算术编码或霍夫曼编码,连同其它语法元素,例如有关前述窗及变换长度决策的语法元素,及允许其它编码选项的额外语法元素。有关此方面的进一步细节,请参考AAC标准有关其它编码选项。
为了略为更加精确,量化及定标模块42可被配置为传输每频谱列k的量化变换系数值,当重新定标时,其获得个别频谱列k的重建变换系数,即x_rescal,当乘以
增益=20.25.(sf-sf_offset)
其中,sf为个别量化变换系数所属的个别定标因子带的定标因子,sf_offset为常数,例如可设定为100。
如此,定标因子在对数域内定义。定标因子可在比特流36内连同频谱存取彼此差异编码,亦即只有频谱邻近定标因子sf间的差异可在比特流内传输。相对于前述全域增益值(global_gain value)被差异编码的第一定标因子sf可在比特流内传输。下文说明将关注此语法元素global_gain。
global_gain值可在对数域在比特流内传输。换言之,模块42可被配置为取目前频谱的第一定标因子sf作为global_gain。然后,此sf值可与零差异地传输,及随后的sf值与个别前趋值差异传输。
显然,当一致地在全部帧30上进行时,改变global_gain,将改变重建变换的能量,而如此转译成FD编码部分26的响度变化。
具体地,FD帧的global_gain在比特流内传输,使得global_gain对数式地取决于重建的音频时域样本的移动平均,或反之亦然,重建的音频时域样本的移动平均指数式地取决于global_gain。
类似于帧30,全部分配给LPC编码模式的帧亦即帧32进入LPC编码器14。在LPC编码器14内,切换器20将各个帧32再划分成一个或多个子帧52。各个子帧52可被分配给TCX编码模式或CELP编码模式。被分配给TCX编码模式的子帧52传递至TCX编码器16的输入端54,而被分配给CELP编码模式的子帧通过切换器20被传递至CELP编码器18的输入端56。
须注意图1示出的切换器20配置在LPC编码器14的输入端58与TCX编码器16及CELP编码器18个子的输入端54及56仅为了说明的目的,实际上,有关帧32再划分成子帧52并且将TCX及CELP中的各编码模式与个别子帧关联的编码决策,可在TCX编码器16与CELP编码器18的内部元素间以互动方式进行,以便最大化某个权值/失真测量值。
总而言之,TCX编码器16包含激励发生器60、LP分析器62、及能量测定器64,其中,该LP分析器62及该能量测定器64由CELP编码器18共同使用(共同拥有),CELP编码器18进一步包括其本身的激励发生器66。激励发生器60、LP分析器62及能量测定器64的各自的输入端连接至TCX编码器16的输入端54。同理,LP分析器62、能量测定器64及激励发生器66各自的输入端连接至CELP编码器18的输入端56。LP分析器62被配置为分析目前帧即TCX帧或CELP帧内音频内容来确定线性预测系数,且连接至激励发生器60、能量测定器64及激励发生器66各自的系数输入端来传递线性预测系数至这些组件。容后详述,LP分析器可在原先音频内容的预强调版本上运算,及各预强调滤波器可为LP分析器的各输入部分的一部分,或可连接至其输入端的前方。同理适用于能量测定器64,容后详述。但至于激励发生器60,其可直接对原先信号操作。激励发生器60、LP分析器62、能量测定器64及激励发生器66各自的输出端以及输出端50连接至编码器10的多路复用器68的各个输入端,该多路复用器被配置为在输出端70将所接收的语法元素多任务化成比特流36。
如前文已述,LPC分析器62被配置为确定输入的LPC帧32的线性预测系数。有关LP分析器62可能的功能的进一步细节请参考ACELP标准。一般而言,LP分析器62可使用自我相关法或协方差法来确定LPC系数。举例来说,使用自我相关法,LP分析器62可使用李杜(Levinson-Durban)演绎法则,解出LPC系数来产生自我相关矩阵。如本领域已知的,LPC系数限定一种合成滤波器,其粗略地仿真人类声道模型,而当通过激励信号驱动时,大致上仿真气流通过声带的模型。这种合成滤波器通过LP分析器62使用线性预测模型化。声道形状改变速率受限制,据此,LP分析器62可使用适应于该限制的更新速率且与帧32的帧率不同的更新速率,来更新线性预测系数。LP分析器62执行LP分析对组件60、64及66等某些滤波器提供信息,诸如:
线性预测合成滤波器H(z);
其反滤波器,亦即线性预测分析滤波器或白化滤波器A(z),其中
听觉加权滤波器诸如W(z)=A(z/λ),其中λ为加权因子
LP分析器62将LPC系数上的信息传输至多路复用器68用以插入比特流36。此信息72可表示在适当域诸如频谱对域等的量化线性预测系数。甚至线性预测系数的量化可在此域进行。又,LP分析器62可以实际上以比解码端重建LPC系数的速率更高的速率传输LPC系数或其上信息72。后述更新速率例如通过LPC传输时间间的内插而实现。显然,译码器只须存取量化LPC系数,据此,由相对应重建线性预测所定义的前述滤波器由及标示。
如前文摘述,LP分析器62分别定义LP合成滤波器H(z)及其当施加至各个激励时,除了若干后处理外,恢复或重建原先音频内容,但为了便于说明,其在此处不予考虑。
激励发生器60及66用来定义此激励,并分别通过多路复用器68及比特流36而传输其上各信息至译码端。至于TCX编码器16的激励发生器60,其通过允许例如通过某个最优化方案所找出的适当激励,接受时域至频域变换来获得该激励的频谱版本而编码目前激励,其中此频谱信息74的频谱版本被传递至多路复用器68用以插入比特流36,而该频谱信息例如类似于FD编码器12模块42运算的频谱,被量化及定标。
换言之,定义目前子帧52的TCX编码器16的激励的频谱信息74可具有相关联的量化变换系数,其根据单一定标因子而定标,而又相对于LPC帧语法元素(后文也称global_gain)传输。如同于FD编码器12的global_gain的情况,LPC编码器14的global_gain也可在对数域定义。此数值的增加直接翻译成各TCX子帧的音频内容的译码表示型态的响度增高,原因在于译码表示型态通过保持增益调整的线性运算,通过处理信息74内的定标变换系数而实现。这些线性运算为时-频反变换,及最终LP合成滤波。但容后详述,激励发生器60被配置为以高于LPC帧单位的时间分辨率编码前述频谱信息74的增益。具体地,激励发生器60使用称作delta_global_gain的语法元素来与比特流元素global_gain不同地编码,用来设定激励频谱的增益的实际增益。delta_global_gain也可在对数域内定义。可执行差异编码使得delta_global_gain可定义为乘法修正global_gain亦即线性域内的增益。
与激励发生器60相比,CELP编码器18的激励发生器66被配置为经由使用码簿指标编码目前子帧的目前激励。具体地,激励发生器66被配置为通过自适应码簿激励与创新码簿激励的组合确定目前激励。激励发生器66被配置为对目前帧组成自适应码簿激励,以便通过过去激励(即用于先前编码CELP子帧的激励)和目前帧的自适应码簿指标而定义。激励发生器66通过传递至多路复用器68而将自适应码簿指标76编码成比特流。另外,激励发生器66组成通过目前帧的创新码簿指标所定义的创新码簿激励,及通过传递至多路复用器68用以插入比特流36而将创新码簿指标78编码成比特流。实际上,两个指标可整合成一个共享语法元素。两个指标一起仍然允许译码器恢复如此藉激励发生器所确定的码簿激励。为了保证编码器与译码器的内部状态同步,激励发生器66不仅确定用以允许译码器恢复目前码簿激励的语法元素,该位也通过实际上产生来使用目前码簿激励作为编码下一CELP帧的起点,亦即过去激励,而实际上也更新其状态。
激励发生器66可被被配置为在组成自适应码簿激励及创新码簿激励时,相对于目前子帧的音频内容而最小化听觉加权失真测量值,考虑所得激励在解码端接受LP合成滤波用以重建。实际上,指标76及78检索某些在编码器10及在译码端可取得的表,来检索或以其它方式确定用作为LP合成滤波器的激励信号的向量。与自适应码簿激励相反,创新码簿激励与过去激励不相干地确定。实际上,激励发生器66可被配置为使用先前编码的CELP子帧的过去激励及重建激励而对目前帧确定自适应码簿激励,该确定方式通过使用某个延迟与增益值及预定(内插)滤波而修正后者,使得所得目前帧的自适应码簿激励来当通过合成滤波器滤波时最小化与自适应码簿激励恢复原先音频内容的某个目标值的差异。前述延迟、增益及滤波通过自适应码簿指标指示。其余的不一致性通过创新码簿激励补偿。再度,激励发生器66适合设定码簿指标来找出最佳创新码簿激励,其当组合(诸如加至)自适应码簿激励时,可获得目前帧的目前激励(当组成随后CELP子帧的自适应码簿激励时,则作为过去激励)。换言之,自适应码簿搜寻可基于子帧基础执行,且包含执行死循环音高搜寻,然后通过内插过去激励在选定的分量音高延迟而运算自适应码向量。实际上,激励信号u(n)被激励发生器66定义为自适应码簿向量v(n)及创新码簿向量c(n)的加权和:
通过能量测定器64设定前述LPC帧global_gain语法元素的第一方法(或替代的)将在后文参考图2进行描述。根据下述两个替代例,对各个LPC帧32确定语法元素global_gain。然后此语法元素用作属于各帧32的TCX子帧的前述delta_global_gain语法元素,以及前述创新码簿增益的参考,创新码簿增益通过global_gain确定,容后详述。
如图2所示,能量测定器64可被配置为确定语法元素global_gain 80,且可包括通过LP分析器62控制的线性预测分析滤波器82、能量运算器84、量化及编码级86,以及用以再量化的译码级88。如第2所示,前置强调器或前置强调滤波器90可在原音频内容24在能量测定器64内进一步处理之前,预强调原音频内容24,容后详述。虽然未在图1中示出,但前置强调滤波器也可呈现在图1的方块图中直接位在LP分析器62及能量测定器64二者的输入端前方。换言之,前置强调滤波器可由二者共同拥有或共同使用。前置强调滤波器90可如下给定
Hemph(z)=1-αz-1。
因此,前置强调滤波器可为高通滤波器。此处,其为第一排序高通滤波器,但通常为第n排序高通滤波器。本例属第一排序高通滤波器的实例,α设定为0.68。
图2的能量测定器64的输入端连接至前置强调滤波器90的输出端。在能量测定器64的输入端与输出端80之间,LP分析滤波器82、能量运算器84、及量化及编码级86以所述顺序串接。译码阶段88具有其输入端被连接至量化及编码级86的输出端,及输出由译码器可获得的量化增益。
具体地,线性预测分析滤波器82A(z)施加至经前置强调的音频内容,结果产生激励信号92。如此,该激励92等于由LPC分析滤波器A(z)滤波的原音频内容24的前置强调版本,亦即原音频内容24以下式滤波
Hemph(z).A(z)。
基于此激励信号92,目前帧32的全域增益值通过对目前帧32内部的此激励信号92的每1024样本运算能量而推定。
具体地,能量运算器84通过下式求对数域中每节段64样本的信号92的能量平均:
然后通过下式,基于平均能量nrg对对数域6位由量化及编码级86而量化增益gindex:
然后,此指标在比特流内作为语法元素80亦即作为全域增益传输。此指标在对数域内定义。换言之,量化阶的大小指数地增加。量化增益通过运算下式经由解码级88获得:
此处使用的量化具有与FD模式的全域增益相等的粒度,据此,gindex定标LPC帧32的响度以FD帧30的global_gain语法元素的定标的相同方式定标,从而实现多模式编码比特流36的增益控制的一种容易的方式,而无需执行译码与重新编码的迂回绕道而仍然保持质量。
如后文就译码器的进一步细节摘述,为了维持前述编码器与译码器间的同步(激励nupdate),在最优化码簿或已经最优化码簿后,激励发生器66可包括,
a)基于global_gain,运算预测增益g′c,及
b)预测增益g′c乘以创新码簿修正因子而获得实际创新码簿增益
容后详述,TCX增益通过传输对5位编码的元素delta_global_gain编码:
解码如下:
则
根据参照图2所描述的第一替代例,至于CELP子帧及TCX子帧,为了达成由语法元素gindex所提供的增益控制间的协调一致,因此,全域增益gindex基于每帧或每超帧32以6位编码。这导致与FD模式的全域增益编码具有相等增益粒度的结果。在此种情况下,超帧全域增益gindex只对6位编码,但FD模式的全域增益对8位发送。因此,LPD(线性预测域)模式与FD模式的全域增益元素不同。但因增益粒度相似,因此可容易应用统一的增益控制。具体地,用于以FD及LPD模式编码global_gain的对数域可优异地以相同对数底2执行。
为了完全协调全域元素,甚至LPD帧也可直接延伸于8位编码。至于CELP子帧,语法元素gindex完全假设增益控制工作。与自超帧全域增益不同地,前述TCX子帧的delta_global_gain元素可在5位上被编码。与前述多模式编码方案可由普通AAC、ACELP及TCX实施的情况作比较,前述根据图2替代例的构想用于只由TCX 20及/或ACELP子帧所组成的超帧32情况的编码,将导致减少2位,而在包含TCX 40及TCX 80子帧的各超帧的情况下将分别耗用每一超帧2或4额外位。
就信号处理而言,超帧全域增益gindex表示对超帧32求平均且在对数标度上量化的LPC残差能量。在(A)CELP中,用来替代通常用于ACELP估算创新码簿增益的「平均能量」元素。根据图2的第一替代例,新颖估值具有比ACELP标准更高的幅度分辨率,但较小时间分辨率,原因在于gindex仅每一超帧而非每一子帧传输。但发现残差能量为不良估算器,而用作为增益范围的起因指示器。结果,时间分辨率可能更为重要。为了避免于传输期间的任何问题,激励发生器66可被配置为系统性地低估创新码簿增益,及允许增益调整恢复间隙。此策略可抵消时间分辨率的缺失。
另外,超帧全域增益也用于TCX作为如前述确定scaling_gain的「全域增益」元素的估算。因超帧全域增益gindex表示LPC残差能量,而TCX全域增益表示约加权信号的能量,经由使用delta_global_gain的差异增益编码包括暗示若干LP增益。虽然如此,差异增益仍然显示比普通「全域增益」更低的幅度。
对12kbps及24kbps单声道,执行若干收听测试,主要聚焦在清晰的语音质量。发现该质量极为接近目前USAC的质量,而与其中使用AAC及ACELP/TCX标准的普通增益控制的前述实施例质量不同。但对某些语音项目,质量倾向于略差。
在已经根据图2的替代例描述图1的实施例后,就图1及图3描述第二替代例。根据LPD模式的第二方法,解决第一替代例的若干缺点:
ACELP创新增益的预测对高幅动能帧的某些子帧不合格。主要是由于几何平均的能量运算。虽然平均SNR优于原ACELP,但增益调整码簿经常更饱和。假设此乃某些语音项目的听觉略微下降的主要原因。
此外,ACELP创新的增益预测并非最佳的。确实,加权域的增益为最佳的,而增益预测在LPC残差域运算。下述替代例的构想在加权域执行预测。
个别TCX全域增益的预测并非最佳,原因在于传输能量对LPC残差运算,而TCX在加权域运算其增益。
与前一方案的主要差异在于全域增益现在表示加权信号能而非激励能。
就比特流而言,相比于第一方法的修正如下:
使用FD模式的相同量化器对8位作全域增益编码。现在,LPD及FD两个模式共享相同比特流元素。结果在AAC的全域增益有合理的理由使用此量化器对8位编码。8位对LPD模式全域增益确实过多,LPD模式全域增益只能对6位编码。但为求统一须付出代价。
使用下列不同的编码方法来编码TCX的各自的全域增益:
1位用于TCX 1024,固定长度码
平均4位用于TCX 256及TCX 512,可变长度码(霍夫曼)
就位耗用而言,第二方法与第一方法的差异在于:
对于ACELP:位耗用同前
对于TCX1024:+2位
对于TCX512:平均+2位
对于TCX256:平均位耗用同前
就质量而言,第二方法与第一方法的差异在于:
因整体量化粒度维持不变,故TCX音频部分应相同。
ACELP音频部分可预期略为改善,原因在于预测提升。收集的统计结果显示在增益调整中比在目前ACELP中有较少的异常值。
例如参考图3。图3示出激励发生器66包括加权滤波器W(z)100,接着为能量运算器102及量化及编码级104,以及译码级106。实际上,这些组件与图2的组件82至88相对于彼此地排列。
加权滤波器定义为
W(z)=A(z/γ),
其中λ为听觉加权因子,其可设定为0.92。
因此,根据第二方法,TCX及CELP子帧52的共享全域增益由对加权信号的每2024个样本,亦即以LPC帧32为单位执行的能量计算推导出。在滤波器100内经由通过LP分析器62输出的LPC系数推导的加权滤波器W(z),滤波原信号24而在编码器算出加权信号。顺带提及,前述前置强调并非W(z)的一部分。只用在LPC系数的运算前,亦即用在LP分析器62内部或前方,及用在ACELP之前,亦即用在激励发生器66内部或前方。在某种程度上,前置强调已经反映在A(z)系数上。
然后,能量运算器102确定能量为:
然后,量化及编码级104由下式,基于平均能nrg,对对数域的8位量化增益global_gain:
然后,由下式,通过解码级106获得量化全域增益:
将就译码器以进一步细节摘述如下,由于前述编码器与译码器间维持同步(激励nupdate),最佳化中或最佳化码簿指标后,激励发生器66可
a)估算创新码簿激励,使用LP合成滤波器来滤波各创新码簿向量,由包含在临时候选者或最终传输的创新码簿指标内的第一信息,亦即前述创新码簿向量脉冲的数目、位置及符号确定;但以加权滤波器W(z)及解强调滤波器,亦即强调滤波器的反相(滤波器H2(z),参考后文)加权,及确定结果的能量,
d)经由组合自适应码簿激励和创新码簿激励来实际上产生码簿激励,其中,以实际创新码簿增益加权创新码簿激励。
具体地,如此达成的量化具有与FD模式的全域增益量化相等的粒度。再次,可采用激励发生器66,且在最佳化创新码簿激励中处理量化全域增益时视为常数。具体地,通过找出最佳创新码簿指标,使得获得最佳量化固定码簿增益,激励发生器66可设定创新码簿修正因子换言之根据:
遵守:
其中cw根据下式,由卷积而自n=0至63获得的加权域中的创新向量c[n]:
cw[n]=c[n]*h2[n],
其中h2为加权合成滤波器的脉冲响应
例如γ=0.92及α=0.68。
TCX增益通过传输以可变长度码所编码的元素delta_global_gain而编码。
若TCX具有1024的大小,则只有1位用于delta_global_gain元素,同时global_gain重新计算及再量化:
It is decoded as follows:
解码如下:
否则对TCX的其它大小,delta_global_gain被编码如下:
然后TCX增益被解码如下:
delta_global_gain可直接对7位编码或通过使用霍夫曼码编码,其平均产生4位。
最后,在两种情况下推定最终增益:
后文中,就图2及图3所述的两个替代例所述图1实施方式相对应的多模式音频译码器参照第4图描述。
第4图的多模式音频译码器大体上以参考标号120标示,且包括解多路复用器122、FD译码器124,由TCX译码器128和CELP译码器130所组成的LPC译码器126,及重迭/转换处理器132。
解多路复用器包括输入端134同时形成该多模式音频译码器120的输入端。图1的比特流36输入输入端134。解多路复用器122包括连接至译码器124、128及130的若干输出端,及分配包含于比特流134的语法元素至各译码机器。实际上,多路复用器分别向各译码器124、128及130分配比特流36的帧34及35。
各译码器124、128及130分别包括连接至重迭-转换处理器132的各输入端的时域输出端。重迭-转换处理器132负责在连续帧间的转换处执行个别重迭/转换处理。举例来说,重迭/转换处理器132可执行有关FD帧的连续窗的重迭/加法程序。对TCX子帧也适用。虽然没有参照图1详细说明,例如即使激励发生器60使用开窗接着进行时域至频域变换来获得表示激励的变换系数,但窗可能彼此重迭。当至/自CELP子帧转换时,重迭/转换处理器132可执行特别措施来避免混迭。为了实现此目的,重迭/转换处理器132可由通过比特流36传输的个别语法元素控制。但因这些传输手段超出了本发明的关心的主要问题,故就此方面而言的解决方法实例参考例如ACELP W+标准。
FD译码器124包括无损耗译码器134、去量化及复定标模块136、及重新变换器138,其以此顺序串接在解多路复用器122与重迭/转换处理器132之间。无损耗译码器134由例如差异编码的比特流恢复例如定标因子。去量化及复定标模块136例如以这些变换系数值所属的定标因子带的相对应定标因子来定标各频谱列的变换系数值而恢复变换系数。重新变换器138对如此所得变换系数执行频域至时域的变换,诸如反MDCT来获得欲传递至重迭/转换处理器132的时域信号。去量化及复定标模块136或重新变换器138使用对各个FD帧在比特流内传输的global_gain语法元素,使得自变换所得的时域信号由该语法元素定标(亦即以其某个指数函数线性定标)。实际上,定标可在频域至时域变换之前或之后执行。
TCX译码器128包括激励发生器140、频谱形成器142及LP系数变换器144。激励发生器140及频谱形成器142串接在解多路复用器122与重迭/转换处理器132的另一输入端之间,LP系数变换器144对频谱形成器142的另一输入端通过通过该比特流而自LPC系数获得的频谱加权值。具体地,TCX译码器128在对多个子帧52间的TCX子帧运算。激励发生器140以类似于FD译码器124的组件134及136的方式处理输入的频谱信息。换言之,激励发生器140去量化与复定标在比特流内传输的变换系数值以便表示频域的激励。如此获得的变换系数由激励发生器140以一数值定标,该值与对目前TCX子帧52传输的语法元素delta_global_gain与对目前TCX子帧52所属的目前帧32传输的语法元素global_gain的和相对应。如此,激励发生器140对根据delta_global_gain和global_gain而定标的目前子帧输出该激励的频谱表示型态。LPC变换器134将在比特流内传输的LPC系数通过例如内插及差异编码等而变换成频谱加权值,即由激励发生器140输出的激励频谱的每一变换系数的频谱加权值。具体地,LP系数变换器144确定这些频谱加权值,使得其类似线性预测合成滤波器移转函数。换言之,其类似LP合成滤波器的移转函数频谱形成器142通过LP系数变换器144所获得的频谱加权对由激励发生器140输入的变换系数加权,来获得频谱加权的变换系数,然后频谱加权的变换系数在重新变换器146接受频域至时域的变换,使得重新变换器146输出目前TCX子帧的音频内容24的重建版本或译码表示型态。但须注意如前文已述的,在将时域信号传递至重迭/转换处理器132前,可对重新变换器146的输出信号执行后处理。总而言之,重新变换器146所输出的时域信号的电压再次受个别LPC帧32的global_gain语法元素所控制。
图4的CELP译码器130包括创新码簿构造器148、自适应码簿构造器150、增益调适器152、组合器154、及LP合成滤波器156。创新码簿构造器148、增益调适器152、组合器154及LP合成滤波器156串接在解多路复用器122与重迭/转换处理器132之间。自适应码簿构造器150有一输入端连接至解多路复用器122,一输出端连接至组合器154的另一输入端,而组合器154具体实施成图4指示的加法器。自适应码簿构造器150的另一输入端连接至加法器154的输出端,以从其获得过去激励。增益调适器152及LP合成滤波器156具有LPC连接至解多路复用器122的某个输出端的输入端。
已经描述TCX译码器及CELP译码器的结构后,其功能容后详述。描述从TCX译码器128的功能开始,及然后进行CELP译码器130的功能的描述。如前文已述,LPC帧32被再划分成一个或多个子帧52。通常CELP子帧52限于具有256音频样本长度。TCX子帧52具有不同长度。TCX 20或TCX 256子帧52例如具有256样本长度。同理,TCX 40(TCX512)子帧52具有512音频样本长度,及TCX 80(TCX 1024)子帧属于1024样本长度,即属于整个LPC帧32。TCX 40子帧可单纯地位于目前LPC帧32的两个前四分之一,或其两个后四分之一。因此,LPC帧32可再划分成26个不同子帧类型的不同组合。
如此,恰如前述,TCX子帧52具有不同长度。考虑恰如前述的样本长度,亦即256、512及1024,可能认为这些TCX子帧52并未彼此重迭。但测量样本的窗长度及变换长度,及其用来执行激励的频谱变换时如此不正确。开窗器38所使用的变换长度延伸例如超过各个目前TCX子帧的前端及后端,及用于开窗的相对应窗,激励适于方便地延伸入超出各目前TCX子帧的前端及后端,因而包括重迭目前子帧的前一子帧及后一子帧的非零部分,来例如如同FD编码所已知,允许混迭抵消。因此,激励发生器140从比特流接收已量化频谱系数,并由此重建激励频谱。此频谱根据目前TCX子帧之delta_global_gain和目前子帧所属的目前帧32的global_gain的组合而定标。具体地,该组合可能涉及线性域中两个值间的乘法(对应于对数域的和),二增益语法元素在线性域中定义。据此,激励频谱根据语法元素global_gain定标。频谱形成器142然后执行基于LPC的频域噪声成形为所得频谱系数,然后由重新变换器146执行反MDCT变换以获得时域合成信号。重迭/转换处理器132可执行连续TCX子帧间的重迭加法处理。
CELP译码器130作用在前述CELP子帧上,如前述,其具有各256音频样本长度。如前文已述,CELP译码器130被配置为组成目前激励作为已定标自适应码簿向量和创新码簿向量的组合或加法。自适应码簿构造器150使用通过解多路复用器122而从该比特流取得的自适应码簿指标来找出音高延迟的整数及分数部分。然后自适应码簿构造器150使用FIR内插滤波器,经由内插过去激励u(n)位在音高延迟及相位,亦即分量,而找出初始自适应码簿激励向量v’(n)。自适应码簿激励对64样本大小运算。根据取自比特流的称作自适应滤波指标的语法元素,该自适应码簿构造器可判定已滤波的自适应码簿是否为
v(n)=v’(n)或
v(n)=0.18v’(n)+0.64v’(n-1)+0.18v’(n-2)
创新码簿构造器148使用取自该比特流的创新码簿指标来提取代数码向量亦即创新码向量c(n)内的激励脉冲的位置及幅度,亦即符号。换言之,
其中mi及si为脉冲位置及符号,及M为脉冲数。一旦代数码向量c(n)被译码,则执行音高锐化程序。首先,c(n)由如下定义的前置强调滤波器滤波:
Femph(z)=1-0.3z-1
前置强调滤波器具有以低频减低激励能量的作用。当然,前置强调滤波器可以以其它方式定义。其次,可由创新码簿构造器148执行周期性。此种周期性的加强可利用具有如下定义的移转函数的自适应前置滤波器执行:
其中,n为以紧邻连续成组64音频样本为单位的实际位置,及此处T为下式表示的音高延迟的整数部分T0及分数部分T0,frac的舍入版本:
自适应前置滤波器Fp(z)通过抑制声音信号的情况下对人耳构成困扰的谐波间频率而润饰(color)频谱。
根据前述第一替代例,增益调适器152执行下列步骤:
然后,由增益调适器152通过下式导算出线性域的预测增益:
然后,由增益调适器152通过下式计算已量化的固定码簿增益:
根据前文概述供选择的方案中的第二替代例,估算得的固定码簿增益gc由增益调适器152如下形成:
首先,找出平均创新能量。平均创新能量Ei表示加权域中的创新能量。由以下所示加权合成滤波器的脉冲响应h2卷积创新码而求出:
然后,通过卷积自n=0至63获得加权域的创新:
cw[n]=c[n]*h2[n]
然后该能量为:
然后,由下式得知估算的增益G′c,以分贝表示
其中,再次,通过所传输的global_gain而传输,且表示加权域中每个超帧32的平均创新激励能量。因此,超帧32中的平均能量系通过global_gain而以每一超帧8位编码,及由下式而通过其量化版本由global_gain导出:
然后,由增益调适器152通过下式导出线性域的预测增益:
然后,由增益调适器152通过下式导出已量化固定码簿增益
至于根据前文概述的两个替代例的激励频谱的TCX的确定,前文并未详细说明。频谱由此而定标的TCX增益如前文概述,根据下式,通过在编码端传输基于5位编码的元素delta_global_gain而编码:
例如由激励发生器140如下解码:
然后,激励发生器140通过将各个变换系数乘以g而定标激励频谱,g具有:
根据上文提供的第二方法,TCX增益通过传输以可变长度码(举例)编码的元素delta_global_gain而编码。若目前考虑的TCX子帧具有1024大小,则只有1位可用在delta_global_gain元素,而global_gain可在编码端根据下式重新计算与再量化:
然后,激励发生器140利用下式导出TCX增益
然后运算
否则,对其它TCX大小,delta_global_gain可通过激励发生器140运算如下:
然后,由激励发生器140解码TCX增益如下:
然后运算
为了获得增益,激励发生器140由此增益定标各个变换系数。
举例来说,delta_global_gain可直接对7-位编码,或通过使用平均产生4-位的霍夫曼码编码。因此,根据上述实施方式,可使用多重模式编码音频内容。在上述实施方式中,已经使用三种编码模式,即FD、TCX及ACELP。尽管使用三种不同的模式,但易于调整编码成比特流36的音频内容的各译码表示型态的响度。具体地,根据前述两种方法,仅需相等地递增/递减帧30及32各自所包含的global_gain语法元素。举例来说,全部这些global_gain语法元素可以2增长来均匀地增加所有不同编码模式部分的响度,或可以2减少来均匀地减低所有不同编码模式部分的响度。
在已经描述了本申请实施方式后,后文中,将描述其它实施方式,其更为普遍性且个别关注在前述多模式音频编码器及译码器的个别优异方面。换言之,前述实施方式表示随后概述的三个实施方式各自可能的实施。前述实施方式结合后文概述实施方式个别参考的全部优异方面。后文说明的实施方式各自聚焦在前文解说的多模式音频编译码器的一个方面,该方面优于前一实施方式所使用的特定实施,亦即可与前文不同地实施。后文摘述实施例所属的方面可个别地实现,而非如前文概述实施方式举例说明般地同时实现。
据此,当描述下列实施方式时,各编码器及译码器实施方式的组件由使用的新的参考标号指示。但在这些参考标号后,图1至图4的组件的参考标号呈现在括号内,后述组件符号表示在后述各图中个别组件可能的实作。换言之,下述各图中之组件可个别地或就个别图式之全部组件,就下述各图内部组件之个别组件符号后方括号指示的组件而如前文说明实施。
图5a及图5b示出多模式音频编码器和根据第一实施方式的多模式音频编码器。图5a的多模式音频编码器概略标示以300,被配置为以第一编码模式308编码帧的第一子集306,及以第二编码模式312编码帧的第二子集310来将音频内容302编码成编码比特流304,其中帧的该第二子集310分别由一个或多个子帧314组成,其中该多模式音频编码器300被配置为确定和编码每帧的全域增益值(global_gain),及第二子集的子帧的至少一个子集316的每个子帧与各帧的全域增益值318不同地确定和编码成相对应比特流元素(delta_global_gain),其中该多模式音频编码器300被配置为使得编码比特流304内的帧的全域增益值(global_gain)的改变导致在译码端该音频内容的译码表示型态的输出电压的调整。
图5b示出相对应的多模式音频译码器320。译码器320被配置为基于编码比特流304而提供音频内容302的译码表示型态322。为了实现此目的,多模式音频译码器320译码该已编码比特流304的每一帧324及326的全域增益值(global_gain),这些帧的第一子集324以第一编码模式编码,及这些帧的第二子集326以第二编码模式编码,而第二子集326的各个帧由多于一个子帧328所组成;及对帧的第二子集326的子帧328的至少一个子集的每个子帧328,与各帧的全域增益值不同地译码相对应的比特流元素(delta_global_gain);及使用全域增益值(global_gain)及相对应的比特流元素(delta_global_gain)完全编码比特流,及在译码帧的第一子集中解码帧的该第二子集326的子帧的该至少一个子集的子帧及全域增益值(global_gain),其中该多模式音频译码器320被配置为使得在已编码比特流304内的帧324及326的全域增益值(global_gain)的改变导致该音频内容的已译码表示型态322的输出电压332的调整330。
如同图1至图4的实施方式的情况,第一编码模式可为频域编码模式,而第二编码模式可为线性预测编码模式。但图5a及图5b的实施方式并不限于此种情况。然而有关全域增益控制,线性预测编码模式倾向于要求较为更细的时间粒度,据此,对帧326使用线性预测编码模式及对帧324使用频域编码模式优于相反情况,根据后述情况,频域编码模式用于帧326,而线性预测编码模式用于帧324。
此外,图5a及图5b的实施方式并不限于存在TCX模式及ACELP模式用以编码子帧314的情况。反而,若遗漏ACELP编码模式,则图1至图4的实施方式也可依据图5a及图5b的实施方式实施。在此种情况下,两元素即global_gain和delta_global_gain的不同编码允许考虑TCX编码模式对变化及增益设定值有较高敏感度但避免放弃全域增益控制所提供的优点而无需译码与重编码的迂回,也不会不当地增加旁信息的需要。
虽然如此,多模式音频译码器320可被配置为在完成已编码比特流304的译码时,通过使用变换编码激励线性预测译码而译码帧的第二子集326的子帧的至少一个子集的子帧(亦即图5b左帧326的该四个子帧);及使用CELP译码帧的第二子集326的不相毗连的子帧子集。就此方面而言,多模式音频译码器220可被配置为对帧的第二子集的每一帧,译码又一比特流元素,显示个别帧分解成一个或多个子帧。在前述实施方式中,例如,各个LPC帧可有一语法元素含于其中,其识别前述将目前LPC帧分解成TCX帧及ACELP帧的26种可能性中的一种。但再次,图5a及图5b的实施方式并不限于ACELP及前文根据语法元素global_gain就平均能量设定值所述的两个特定替代例。
类似前述图1至图4的实施方式,帧326可对应于帧310,具有帧326或可有1024样本的样本长度;及传输比特流元素delta_global_gain的帧的第二子集的子帧的至少一个子集可具有选自于由256、512及1024样本所组成的组群中的样本长度;及不相毗连的子帧的子集可具有各256样本的样本长度。第一子集的帧324可具有彼此相等的样本长度。如前文说明。多模式音频译码器320可被配置为对8-位译码全域增益值,及基于可变位数目来译码比特流元素,该数目取决于各子帧的样本长度。同理,多模式音频译码器可被配置为对6-位译码全域增益值,及对5-位译码比特流元素。须注意对于不同地编码元素delta_global_gain有不同的机率。
由于此乃前述图1至图4的实施方式的情况,global_gain元素可在对数域内定义,换言之,以音频样本强度线性定义。同样适用于delta_global_gain。为了编码delta_global_gain,多模式音频编码器300可让各子帧316的线性增益元素诸如前述gain_TCX(诸如第一不同编码定标因子)对相对应帧310的量化global_gain亦即global_gain的线性化(适用于指数函数)版本之比转为对数,诸如以2为底的对数,来获得对数域的语法元素delta_global_gain。如本领域已知的,通过在对数域执行减法可得相同结果。据此,多模式音频译码器320可被配置为首先,由指数函数重新转换语法元素delta_global_gain及global_gain至线性域,将结果在线性域相乘来获得增益,多模式音频译码器通过该增益来定标目前子帧,诸如其经TCX激励且频谱变换系数,如上所述。如本领域已知,转换至线性域前,通过将于对数域的两个语法元素相加可得到相同的结果。
此外,如上所述,图5a及图5b的多模式音频编译码器可被配置为使得全域增益值对固定数目例如8位编码,而比特流元素对可变数目位编码,该数目取决于各子帧的样本长度。另外,全域增益值可对固定数目例如6-位编码,而比特流元素例如对5-位编码。
因此,图5a及图5b的实施方式关注不同地编码子帧的增益语法元素的优点,来考虑有关增益控制的时间及位粒度的不同编码模式的不同需求,另一方面,避免不期望的质量缺陷,及虽然如此,实现涉及全域增益控制的优点,换言之,避免需要译码与重编码来执行响度的定标。
接下来,参考图6a及图6b,描述多模式音频编译码器及相对应的编码器及译码器的另一个实施方式。图6a示出多模式音频编码器400,其被配置为将音频内容402编码成编码比特流404,通过CELP编码由图6a中406标示的该音频内容402的帧的第一子集,及通过变换编码图6a中408标示的帧的第二子集。多模式音频编码器400包括CELP编码器410及变换编码器412。CELP编码器410又包括LP分析器414及激励发生器416。CELP编码器410被配置为编码第一子集的目前帧。为了实现该目的,LP分析器414对目前帧产生LPC滤波系数418,且将其编码成编码的比特流404。激励发生器416确定第一子集的目前帧的目前激励,当由线性预测合成滤波器基于编码的比特流404内的线性预测滤波系数418滤波时,该目前激励恢复第一子集的目前帧,由过去激励420及码簿指标对该第一子集的目前帧限定;及将该码簿指标422编码成编码的比特流404。变换编码器412被配置为经由对第二子集408的目前帧的时域信号执行时域至频域变换而编码第二子集408的该目前帧,及将频谱信息424编码成编码的比特流404。多模式音频编码器400被配置为将全域增益值426编码成该编码的比特流404,该全域增益值426取决于使用线性预测分析滤波器根据线性预测系数滤波的该第一子集406的目前帧的该音频内容的版本的能量,或取决于时域信号能量。以前述图1至图4图的实施方式为例,例如,变换编码器412实施为TCX编码器,及时域信号为各帧的激励。同理,使用线性预测分析滤波器或其修正版本呈加权滤波器A(z/γ)形式,根据线性预测系数418滤波第一子集(CELP)的目前帧的音频内容402的结果导致激励表示型态。因此,全域增益值426取决于二帧的两激励能量。
但图6a及图6b的实施方式并不限于TCX变换编码。可假设其它变换编码方案,诸如AAC混合CELP编码器410的CELP编码。
图6b示出与图6a的编码器相对应的多模式音频译码器。如图所示,图6b的译码器大致以430指示,被配置为基于编码的比特流434而提供音频内容的已译码表示型态432,其帧的第一子集为CELP编码(图6b中标示为「1」),及,其帧的第二子集为变换编码(图6b中标示为「2」)。译码器430包括CELP译码器436和变换译码器438。CELP译码器436包括激励发生器440和线性预测合成滤波器442。
CELP译码器440被配置为解码第一子集的目前帧。为了实现该目的,激励发生器440通过基于过去激励446及该已编码的比特流434内的第一子集的目前帧的码簿指标448而组成码簿激励,及基于该编码的比特流434内的全域增益值450而设定该码簿激励的增益,来产生该目前帧的目前激励444。合成滤波结果表示或用来在与比特流434内的该目前帧相对应帧,获得已译码表示型态432。变换译码器438被配置为通过由编码的比特流434构造第二子集的目前帧的频谱信息454,及对该频谱信息执行频域至时域变换来获得时域信号,使得该时域信号的电压取决于该全域增益值450,而解码帧的第二子集的目前帧。如前述,在变换译码器为TCX译码器的情况下,该频谱信息可为激励频谱,或在FD译码模式情况下可为原音频内容。
激励发生器440可被配置为在产生第一子集的目前帧的目前激励444时,基于该编码的比特流内的该第一子集的目前帧的自适应码簿指标及过去激励而组成一自适应码簿激励;基于已编码的比特流内的该第一子集的目前帧的创新码簿指标而构造创新码簿激励;基于已编码的比特流内的全域增益值设定变创新码簿激励的增益作为该码簿激励的增益;及组合该自适应码簿激励与该创新码簿激励来获得该第一子集的目前帧的目前激励444。换言之,激励发生器444可如前文就图4所述具体实施但非必要。
此外,变换译码器可被配置为使得频谱信息涉及目前帧的目前激励,及该变换译码器438可被配置为在解码第二子集的目前帧时,根据由所述编码比特流434内的所述第二子集的目前帧的线性预测滤波系数454限定的线性预测合成滤波器传输函数,而频谱形成第二子集的目前帧的目前激励,使得在所述频谱信息上执行所述频域至时域变换导致音频内容的译码表示型态432。换言之,变换译码器438可如前文参照图4所描述的,具体实施为TCX编码器,但着不是必要的。
变换译码器438可进一步被配置为通过将线性预测滤波系数变换成线性预测频谱,并以该线性预测频谱加权该目前激励的频谱信息而执行频谱信息。上文已经参照144进行了描述。如上前述,变换译码器438可被配置为以全域增益值450定标该频谱信息。如此,变换译码器438可被配置为通过使用编码的比特流内的频谱变换系数,及使用编码的比特流内的定标因子用以对定标因子带的频谱粒度的频谱变换系数定标,基于该全域增益值而定标定标因子,以便获得音频内容的译码表示型态432,来构造第二子集的目前帧的频谱信息。
图6a及图6b的实施方式强调图1至图4的实施方式的优异方面,据此码簿激励的增益,CELP编码部分的增益调整耦连至变换编码部分的增益调整性或控制能力。
其次参照图7a及图7b所述的实施方式聚焦在前述实施方式描述的CELP编译码器部分,而非必要存在有其它编码模式。反而,参照图7a及图7b所述的CELP编码构想关注参照图1至图4所述替代例,据此通过在加权域实施增益控制能力而实现CELP编码数据的增益控制能力,因而实现具有可能的精细粒度的已译码表示型态的增益调整,此种粒度为本领域CELP所不可能实现的。此外,在加权域运算前述增益可改良音频质量。
再次,图7a示出编码器,而图7b示出对应译码器。图7a的CELP编码器包括LP分析器502,激励发生器504,及能量测定器506。该线性预测分析器被配置为对音频内容512的目前帧510产生线性预测系数508,及将线性预测滤波系数508编码成比特流514。该激励发生器504被配置为将目前帧510的目前激励516确定为自适应码簿激励520与创新码簿激励522的组合,而当由线性预测合成滤波器基于该线性预测滤波系数508滤波时,通过构造由目前帧510的自适应码簿指标526及过去激励524所限定的自适应码簿激励520,及将该自适应码簿指标526编码成比特流514;及构造由目前帧510的创新码簿指标528限定的创新码簿激励,以及将创新码簿激励编码成该比特流514,而恢复该目前帧510。
能量测定器506被配置为确定该目前帧510的该音频内容512的版本能量,藉自一线性预测分析发出(或导算出)的一加权滤波器滤波而获得全域增益值530,及将该增益值530编码成比特流514,该加权滤波器由该线性预测系数508解释。
根据前文叙述,激励发生器504可被配置为于组成自适应码簿激励520及创新码簿激励522时,相对于该音频内容512最小化听觉失真测量值。又,线性预测分析器502可被配置为藉由线性预测分析施加至该音频内容之已开窗的且依据预定前置强调滤波器而已经前置强调版本,来确定线性预测滤波系数508。激励发生器504可于组成自适应码簿激励及创新码簿激励时,被配置为使用如下听觉加权滤波器而相对于该音频内容最小化听觉加权失真测量值:W(z)=A(z/γ),其中γ为听觉加权因子,及A(z)为1/H(z),其中H(z)为线性预测合成滤波器;及其中该能量测定器被配置为使用该听觉加权滤波器作为加权滤波器。具体地,该最小化可使用如下听觉加权合成滤波器,采用相对于该音频内容的听觉加权失真测量值执行:
此中γ为听觉加权因子,为线性预测合成滤波器A(z)之量化版本,Hemph=1-αz-1,及α为高频强调因子,及其中该能量测定器(506)被配置为使用该听觉加权滤波器W(z)=A(z/γ)作为加权滤波器。
又,为了编码器与译码器间维持同步,激励发生器504可被配置为藉下列处理而执行激励更新,
a)藉含在创新码簿指标的第一信息(如在比特流内部传输)诸如前述创新码簿向量脉冲的数目、位置及符号确定而估算创新码簿激励能,伴以以H2(z)滤波各创新码簿向量,及确定结果的能,
b)形成如此导算出的能量与藉global_gain确定的能间的比来获得预测增益g′c
c)将预测增益g′c乘以创新码簿修正因子,亦即含在该创新码簿指标内部的第二信息而获得实际创新码簿增益
d)经由组合自适应码簿激励及创新码簿激励,而以实际创新码簿激励加权后者,而实际上产生码簿激励,来用作为欲藉CELP编码的下一帧的过去激励。
图7b示出对应CELP译码器为具有激励发生器450及LP合成滤波器452。激励发生器440可被配置为通过下列处理动作而产生目前帧544的目前激励542:通过在比特流内的基于目前帧544的自适应码簿指标550及过去激励548,而组成自适应码簿激励546;基于比特流内的该目前帧544的创新码簿指标554而组成一创新码簿激励552;运算由该比特流内的自线性预测滤波系数556所组成的已加权线性预测合成滤波器H2而频谱式加权的该创新码簿激励的能量估值;基于该比特流内的增益值560及估算得的能量间之比而获得该创新码簿激励552的增益558;及组合该自适应码簿激励与该创新码簿激励来获得该目前激励542。线性预测合成滤波器542基于线性预测滤波系数556而滤波该目前激励542。
激励发生器440可被配置为在组成该自适应码簿激励546时,以取决于自适应码簿指标546的滤波器来滤波该过去激励548。又,激励发生器440可被配置为当组成创新码簿激励554时,使得后者包括具有多个非零脉冲的零向量,非零脉冲的数目及位置由创新码簿指标554指示。激励发生器440可被配置为运算创新码簿激励554之能估值,及使用下式滤波该创新码簿激励554
其中该线性预测合成滤波器被配置为根据滤波该目前激励542,其中及γ为听觉加权因子,Hemph=1-αz-1及α为高频增强因子,其中该激励发生器440进一步被配置为运算该已滤波的创新码簿激励样本的平方和而获得该能量估值。
激励发生器540可被配置为于组合自适应码簿激励556与创新码簿激励554时,形成以取决于自适应码簿指标556的加权因子加权的该自适应码簿激励556与以该增益加权的该创新码簿激励554的加权和。
LPD模式的进一步考虑概述于下表:
通过重新训练ACELP的增益VQ用以更准确地匹配新颖增益调整的统计学,可实现质量改良。
AAC的全域增益编码可通过如下修正:
当以TCX编码时对6/7位编码而非8位。对目前运算点可能有用,但当音频输入信号具有大于16位的分辨率时受限制。
提高统一全域增益的分辨率来匹配TCX量化(如此系与前述第二方法相对应):定标因子施加于AAC的方式,并非必要具有此种准确量化。此外,将暗示AAC结构的许多修正及定标因子耗用较大量位。
量化频谱系数前,TCX全域增益可经量化:系于AAC达成,及其允许频谱系数量化成为唯一误差来源。此方法似乎为最佳方法。虽言如此,已编码TCX全域增益目前表示能量,其量也可用于ACELP。这种能量用于前述增益控制统一方法作为编码增益的两种编码方案间的桥梁。
前述实施例可转移成使用SBR的实施例。可进行SBR能量封包编码,使得哟啊复制的频带能量相对于/差异于基频能量的能量而传输/编码,该基频能即为施加至前述编译码器实施例的频带能量。
本领域SBR,能封包与核心频宽能量不相干。然后绝对地重组已延长频带的能量封包。换言之,当核心频宽经电压调整时,将不影响延伸的频带而维持不变。
于SBR,两种编码方案可用于传输不同频带的能量。第一方案包含于时间方向差异编码。不同频带的能量与前一帧的相对应频带不同地编码。通过使用此种编码方案,在前一帧能量已经处理的情况下,目前帧能量将自动调整。
第二编码方案为在频率方向能量的差异Δ编码。目前频带能量与先前频带能量间的差经量化及传输。唯有第一频带能系绝对编码。第一频带能的编码可经修正,且可相对于核心频宽的能量做修正。藉此方式,当核心频宽修正时,已延伸的频宽电压经自动调整。
SBR能封包编码的另一方法当使用频率方向的差异Δ编码时,可改变第一频带能量的量化步骤,来获得与核心编码器的共享全域增益元素的相同粒度。通过此方式,当使用频率方向的差异Δ编码时,藉由修正核心码器的共享全域增益指标及SBR的第一频带能指标,可实现完全电压调整。
如此换言之,SBR译码器可包含前述译码器中之任一者作为用以译码一比特流内部之核心编码器部分之核心译码器。然后SBR译码器可对欲复制的频带解码封包能,自该比特流之SBR部分,确定该核心频带信号之能,及依据该核心频带信号之能而定标该等封包能。藉此方式,音频内容之已重建表示型态之已复制频带具有能量,该能量之特性可以前述global_gain语法元素定标。
如此,依据前述实施例,USAC之全域增益的统一可藉下述方式执行:目前对各个TCX帧有7-位全域增益(长度256、512或1024样本),或相对应地各个ACELP帧有2-位平均能值(长度256样本)。与AAC帧相反,每1024-帧并无全域值。为了求取统一,每1024-帧有8位之全域值可导入TCX/ACELP部分,及每TCX/ACELP帧之相对应值可与此全域值差异编码。由于此种差异编码故,可减少此等个别差异之位数目。
虽然已经就装置上下文描述某些方面,显然此等方面也表示相对应方法之描述,此处一方块或一装置系与一方法步骤或一方法步骤之结构相对应。同理,方法步骤上下文所述方面也表示相对应方块或相对应装置之项目或结构的描述。部分或全部方法步骤可藉(或使用)硬件装置例如微处理器、可程序计算机、或电子电路执行。于若干实施例,最重要方法步骤中之某一者或多者可藉此种装置执行。
本发明编码的音频信号可储存于数字储存媒体,或可于传输媒体上传输,诸如无线传输媒体或有线传输媒体诸如因特网。
依据某些实施要求而定,本发明实施例可于硬件或软件实施。实施可使用具有可电子式读取的控制信号储存其上之数字储存媒体,例如软盘、DVD、蓝光盘、CD、ROM、PROM、EPROM、EEPROM或闪存执行,该等控制信号与可程序计算机系统协力合作,使得可执行个别方法。因此,数字储存媒体可经计算机读取。
依据本发明之若干实施例包含一数据载体,其具有可电子式读取的控制信号,该等控制信号与可程序计算机系统协力合作,使得可执行此处所述方法中之一者。
一般而言,本发明之实施例可实施为带有程序代码之计算机程序产品,当该计算机程序产品于计算机上跑时,该程序代码可运算来执行该方法中之一者。程序代码例如可储存在机器可读取载体上。
其它实施例包含用以执行储存在机器可读取载体上的此处所述方法中之一者的计算机程序。
换言之,因此,本发明方法之实施例为具有程序代码用以执行储存在机器可读取载体上的此处所述方法中之一者的计算机程序。
因此,本发明方法之又一实施例为数据载体(或数字储存媒体、或计算机可读取媒体)包含用以执行此处所述方法中之一者的计算机程序记录于其上。数据载体、数字储存媒体、或记录媒体典型地为具体实施及/或非瞬时。
因此,本发明方法的又一实施例为一数据串流或一序列信号,表示用以执行此处所述方法中之一者的计算机程序。该数据串流或信号序列例如可被配置为透过数据通讯连接,例如透过因特网而传输。
又一实施例包含组配来或调适来执行此处所述方法中之一者的处理装置,例如计算机或可程序逻辑装置。
又一实施例包含其上已经安装计算机程序用以执行此处所述方法中之一者的计算机。
根据本发明的又一实施方式包含一种被配置为移转(例如电子式或光学式)用以执行此处所述方法中的一者的计算机程序至一接收器的装置或系统。接收器例如可为计算机、行动装置、内存组件等。该装置或系统例如可包含用来将计算机程序移转至该接收器的档案服务器。
在若干实施方式中,可程序逻辑装置(例如场可程序闸极数组)可用来发挥此处所述方法的部分或全部功能。在若干实施方式中,场可程序闸极数组可与微处理器协力合作来执行此处所述方法中的一个。大致上,该等方法优选由任何硬件装置执行。
前述实施例仅供举例说明本发明的原理。须了解此处所述配置及细节的修正与变更将为其它本领域技术人员显然易知。因此意图本发明的范围仅受随附的权利要求范围所限,而非受此处实施方式描述及解说所呈现的特定细节所限。
Claims (20)
1.一种多模式音频译码器(120;320),用于基于编码比特流(36;304)而提供音频内容(24;302)的译码表示型态(322),所述多模式音频译码器被配置为:
译码所述编码比特流(36;304)的每个帧(324;326)的全域增益值,其中,所述帧的第一子集(324)以第一编码模式编码,及所述帧的第二子集(326)以第二编码模式编码,所述第二子集的各个帧由多于一个子帧(328)组成,
对帧的所述第二子集的所述子帧(328)的至少一个子集的每个子帧,与各帧的所述全域增益值不同地译码相对应的比特流元素,以及
在译码帧的所述第二子集的所述子帧(328)的至少一个子集的子帧时使用所述全域增益值及所述相对应的比特流元素,及译码帧的所述第一子集时使用所述全域增益值,完成所述比特流(36;304)的译码,
其中,所述多模式音频译码器被配置为使得所述编码比特流(36;304)内的所述帧的所述全域增益值的变化导致所述音频内容(24;302)的译码表示型态(322)的输出电压(332)的调整(330)。
2.根据权利要求1所述的多模式音频译码器,其中,所述第一编码模式为频域编码模式,所述第二编码模式为线性预测编码模式。
3.根据权利要求2所述的多模式音频译码器,其中,所述多模式音频译码器被配置为在完成所述编码比特流(36;304)的译码时,通过使用变换激励线性预测译码来译码帧(310)的所述第二子集的所述子帧(328)的至少一个子集的子帧,及通过使用CELP来译码帧的所述第二子集的子帧的非连续子集。
4.根据权利要求1所述的多模式音频译码器,其中,所述多模式音频译码器被配置为对帧的所述第二子集(326)的每个帧译码又一比特流元素显示个别帧分解成一个或多个子帧。
5.根据权利要求1所述的多模式音频译码器,其中,所述第二子集的帧具有相等长度,及帧的所述第二子集的子帧(328)的至少一个子集具有选自于由256、512及1024个样本所组成的组群的不等样本长度,子帧的非连续子集具有256样本的样本长度。
6.根据权利要求1所述的多模式音频译码器,其中,所述多模式音频译码器被配置为基于固定位数目译码所述全域增益值及基于可变位数目译码所述比特流元素,所述数目取决于各子帧的样本长度。
7.根据权利要求1所述的多模式音频译码器,其中,所述多模式音频译码器被配置为基于固定位数目译码所述全域增益值及基于固定位数目译码所述比特流元素。
8.一种多模式音频译码器,用以基于编码比特流(434)而提供音频内容的译码表示型态(432),其帧的第一子集以CELP编码及其帧的第二子集以变换编码,所述多模式音频译码器包括:
CELP译码器(436),被配置为译码所述第一子集的目前帧,所述CELP译码器包括:
激励发生器(440),被配置为通过基于所述编码比特流内的所述第一子集的目前帧的码簿指标(448)及过去激励(446)而构造码簿激励,以及基于所述编码比特流(434)内的全域增益值(450)而设定所述码簿激励的增益,来产生所述第一子集的目前帧的目前激励(444);以及
线性预测合成滤波器(442),被配置为基于所述编码比特流内的所述第一子集的目前帧的线性预测滤波系数(452)而滤波所述目前激励(444);
变换译码器(438),被配置为通过如下方式解码所述第二子集的目前帧:
由所述编码比特流(434)构造所述第二子集的目前帧的频谱信息,以及对所述频谱信息进行频域至时域的变换来获得时域信号,使得所述时域信号的电压取决于所述全域增益值(450)。
9.根据权利要求8所述的多模式音频译码器,其中,所述激励发生器(440)被配置为,在产生所述第一子集的目前帧的目前激励(444)时,
基于所述编码比特流内的所述第一子集的目前帧的自适应码簿指标和过去激励而构造自适应码簿激励;
基于所述编码比特流内的所述第一子集的目前帧的创新码簿指标而构造创新码簿激励;
基于所述编码比特流内的所述全域增益值(450)而设定所述创新码簿激励的增益作为所述码簿激励的增益;以及
组合所述自适应码簿激励和所述创新码簿激励而获得所述第一子集的目前帧的目前激励(444)。
10.根据权利要求8所述的多模式音频译码器,其中,所述变换译码器(438)被配置为使得所述频谱信息涉及所述第二子集的目前帧的目前激励,所述变换译码器(438)进一步被配置为在译码所述第二子集的目前帧时,根据由所述编码比特流(434)内的所述第二子集的目前帧的线性预测滤波系数(454)限定的线性预测合成滤波器传输函数,而频谱形成所述第二子集的目前帧的目前激励,使得在所述频谱信息上执行所述频域至时域变换导致音频内容(302,402)的所述译码表示型态(432)。
11.根据权利要求10所述的多模式音频译码器,其中,所述变换译码器(438)被配置为通过将所述线性预测滤波系数(454)转变成线性预测频谱,以及以所述线性预测频谱加权所述目前激励的所述频谱信息而进行频谱的形成。
12.根据权利要求8所述的多模式音频译码器,其中,所述变换译码器(438)被配置为以所述全域增益值定标所述频谱信息。
13.根据权利要求8所述的多模式音频译码器,其中,所述变换译码器(438)被配置为通过使用所述编码比特流(434)内的频谱变换系数,以及所述编码比特流内的定标因子用以对定标因子带的频谱粒度的频谱变换系数定标,基于所述全域增益值而定标所述定标因子,从而获得所述音频内容的所述译码表示型态,来构造所述第二子集的目前帧的频谱信息。
14.一种SBR译码器,包括用以译码比特流的核心编码器部分而获得核心频带信号的核心译码器,所述SBR译码器被配置为从所述比特流的SBR部分解码要复制的频带的封装能量,及根据所述核心频带信号的能量而定标所述封装能量,其中,所述核心译码器包括根据权利要求1至13中任一项所述的多模式音频译码器。
15.一种多模式音频编码器,被配置为通过以第一编码模式(308)编码帧的第一子集(306)以及以第二编码模式(312)编码帧的第二子集(310),将音频内容(302)编码成编码比特流(304),其中,帧的所述第二子集(310)分别由一个或多个子帧(314)组成,其中,所述多模式音频编码器被配置为确定并编码每个帧的全域增益值,及对所述第二子集(310)的子帧(314)的至少一个子集的每个子帧,与各帧的所述全域增益值不同地确定并编码相对应的比特流元素,其中,所述多模式音频编码器被配置为使得所述编码比特流内的帧的所述全域增益值的改变导致所述音频内容(302)的译码表示型态在译码端的输出电压的调整。
16.一种多模式音频编码器,用于通过CELP编码音频内容(402)的帧的第一子集(406)及通过变换编码帧的第二子集(408)而将所述音频内容(402)编码成编码比特流(404),所述多模式音频编码器包括:
CELP编码器,被配置为编码所述第一子集的目前帧,所述CELP编码器包括:
线性预测分析器(414),被配置为对所述第一子集的目前帧产生线性预测滤波系数(418),并将其编码成所述编码比特流(404);以及
激励发生器(416),被配置为确定所述第一子集的目前帧的目前激励(422),当通过线性预测合成滤波器基于编码比特流(404)内的所述线性预测滤波系数(418)滤波时,其恢复由所述第一子集的目前帧的码簿指标(422)和过去激励(420)限定的所述第一子集的目前帧,及将所述码簿指标(422)编码成所述编码比特流(404);以及
变换编码器(412),被配置为通过对所述第二子集的目前帧的时域信号执行时域至频域变换而编码所述第二子集的目前帧来获得频谱信息,及将所述频谱信息编码成所述编码比特流,
其中,所述多模式音频编码器被配置为将全域增益值(426)编码成所述编码比特流(404),所述全域增益值取决于所述第一子集的目前帧的音频内容(402)根据线性预测系数(418)而使用所述线性预测分析滤波器来滤波的版本的能量,或取决于所述时域信号的能量。
17.一种多模式音频译码方法,用于基于编码比特流(36;304)而提供音频内容(24;302)的译码表示型态(322),所述方法包括:
译码所述编码比特流(36;304)的每个帧(324,326)的全域增益值,其中,所述帧的第一子集(324)以第一编码模式编码,及所述帧的第二子集(326)以第二编码模式编码,而所述第二子集的各个帧由多于一个的子帧(328)组成,
对帧的所述第二子集的子帧(328)的至少一个子集的每个子帧,以与各帧的全域增益值不同地译码相对应的比特流元素,以及
在译码帧的所述第二子集的所述子帧(328)的至少一个子集的子帧时使用所述全域增益值及所述相对应的比特流元素,及译码帧的所述第一子集时使用所述全域增益值,完成所述比特流(36;304)的译码,
其中,执行所述多模式音频译码方法,使得编码比特流(36;304)内的所述帧的所述全域增益值的变化导致所述音频内容(24;302)的所述译码表示型态的输出电压(332)的调整(330)。
18.一种多模式音频译码方法,用于基于编码比特流(434)提供音频内容的译码表示型态(432),所述编码比特流的帧的第一子集以CELP编码,其帧的第二子集以变换编码,所述方法包括:
CELP解码所述第一子集的目前帧,所述CELP译码器包括:
通过基于所述编码比特流内的所述第一子集的目前帧的一码簿指标(448)和过去激励(446)构造码簿激励,以及基于所述编码比特流(434)内的全域增益值(450)而设定所述码簿激励的增益,来产生所述第一子集的目前帧的目前激励(444);以及
基于所述编码比特流内的所述第一子集的目前帧的线性预测滤波系数(452)而滤波所述目前激励(444);
变换解码所述第二子集的目前帧,通过
由所述编码比特流(434)构造所述第二子集的目前帧的频谱信息,及对所述频谱信息进行频域至时域变换来获得时域信号,使得所述时域信号的电压取决于所述全域增益值(450)。
19.一种多模式音频编码方法,包括通过以第一编码模式(308)编码帧的第一子集(306)以及以第二编码模式(312)编码帧的第二子集(310),将音频内容(302)编码成编码比特流(304),其中,帧的所述第二子集(310)分别由一个或多个子帧(314)组成,其中,所述多模式音频编码方法进一步包括确定和编码每个帧的全域增益值,以及对所述第二子集(310)的所述子帧(314)的至少一个子集的每个子帧,与各帧的所述全域增益值不同地确定和编码相对应的比特流元素,其中,执行所述多模式音频编码方法,使得所述编码比特流内的帧的全域增益值的改变导致所述音频内容(302)的译码表示型态在译码端的输出电位的调整。
20.一种多模式音频编码方法,用于通过以CELP编码音频内容(402)的帧的第一子集(406)及以变换编码帧的所述第二子集(408)来将所述音频内容(402)编码成编码比特流(404),所述多模式音频编码方法包括:
编码所述第一子集的目前帧,所述CELP编码器包括:
执行线性预测分析来产生所述第一子的目前帧的线性预测滤波系数(418),及将其编码成所述编码比特流(404);以及
确定所述第一子集的目前帧的目前激励(422),当由线性预测合成滤波器基于所述编码比特流(404)内的线性预测滤波系数(418)滤波时,其恢复由所述第一子集的目前帧的码簿指标(422)和过去激励(420)限定的所述第一子集的目前帧,及将所述码簿指标(422)编码成所述编码比特流(404);以及
通过对所述第二子集的目前帧的时域信号执行时域至频域变换而编码所述第二子集的目前帧来获得频谱信息(424),以及将所述频谱信息编码成所述编码比特流(404),
其中,所述多模式音频编码方法进一步包括将全域增益值(426)编码成所述编码比特流(404),所述全域增益值取决于所述第一子集的目前帧的音频内容(402)根据线性预测系数(418)而使用所述线性预测分析滤波器来滤波的版本的能量,或取决于所述时域信号的能量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410256091.5A CN104021795B (zh) | 2009-10-20 | 2010-10-19 | 码簿激励线性预测编码器、译码器及编码、译码方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US25344009P | 2009-10-20 | 2009-10-20 | |
US61/253,440 | 2009-10-20 | ||
PCT/EP2010/065718 WO2011048094A1 (en) | 2009-10-20 | 2010-10-19 | Multi-mode audio codec and celp coding adapted therefore |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410256091.5A Division CN104021795B (zh) | 2009-10-20 | 2010-10-19 | 码簿激励线性预测编码器、译码器及编码、译码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102859589A CN102859589A (zh) | 2013-01-02 |
CN102859589B true CN102859589B (zh) | 2014-07-09 |
Family
ID=43335046
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080058349.0A Active CN102859589B (zh) | 2009-10-20 | 2010-10-19 | 多模式音频编译码器及其适用的码簿激励线性预测编码 |
CN201410256091.5A Active CN104021795B (zh) | 2009-10-20 | 2010-10-19 | 码簿激励线性预测编码器、译码器及编码、译码方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410256091.5A Active CN104021795B (zh) | 2009-10-20 | 2010-10-19 | 码簿激励线性预测编码器、译码器及编码、译码方法 |
Country Status (18)
Country | Link |
---|---|
US (3) | US8744843B2 (zh) |
EP (1) | EP2491555B1 (zh) |
JP (2) | JP6214160B2 (zh) |
KR (1) | KR101508819B1 (zh) |
CN (2) | CN102859589B (zh) |
AU (1) | AU2010309894B2 (zh) |
BR (1) | BR112012009490B1 (zh) |
CA (3) | CA2862712C (zh) |
ES (1) | ES2453098T3 (zh) |
HK (1) | HK1175293A1 (zh) |
MX (1) | MX2012004593A (zh) |
MY (2) | MY167980A (zh) |
PL (1) | PL2491555T3 (zh) |
RU (1) | RU2586841C2 (zh) |
SG (1) | SG10201406778VA (zh) |
TW (1) | TWI455114B (zh) |
WO (1) | WO2011048094A1 (zh) |
ZA (1) | ZA201203570B (zh) |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
EP2311034B1 (en) * | 2008-07-11 | 2015-11-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding frames of sampled audio signals |
MX2011000375A (es) * | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
ES2805349T3 (es) | 2009-10-21 | 2021-02-11 | Dolby Int Ab | Sobremuestreo en un banco de filtros de reemisor combinado |
TW201214415A (en) * | 2010-05-28 | 2012-04-01 | Fraunhofer Ges Forschung | Low-delay unified speech and audio codec |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
SG191771A1 (en) | 2010-12-29 | 2013-08-30 | Samsung Electronics Co Ltd | Apparatus and method for encoding/decoding for high-frequency bandwidth extension |
TWI488176B (zh) | 2011-02-14 | 2015-06-11 | Fraunhofer Ges Forschung | 音訊信號音軌脈衝位置之編碼與解碼技術 |
MY166394A (en) | 2011-02-14 | 2018-06-25 | Fraunhofer Ges Forschung | Information signal representation using lapped transform |
CN103477387B (zh) | 2011-02-14 | 2015-11-25 | 弗兰霍菲尔运输应用研究公司 | 使用频谱域噪声整形的基于线性预测的编码方案 |
BR112013020482B1 (pt) | 2011-02-14 | 2021-02-23 | Fraunhofer Ges Forschung | aparelho e método para processar um sinal de áudio decodificado em um domínio espectral |
KR101525185B1 (ko) | 2011-02-14 | 2015-06-02 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법 |
PL2676265T3 (pl) | 2011-02-14 | 2019-09-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie i sposób do kodowania sygnału audio z stosowaniem zrównanej części antycypacji |
EP3373296A1 (en) | 2011-02-14 | 2018-09-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise generation in audio codecs |
ES2639646T3 (es) | 2011-02-14 | 2017-10-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificación y decodificación de posiciones de impulso de pistas de una señal de audio |
PL2676264T3 (pl) | 2011-02-14 | 2015-06-30 | Fraunhofer Ges Forschung | Koder audio estymujący szum tła podczas faz aktywnych |
KR101551046B1 (ko) | 2011-02-14 | 2015-09-07 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법 |
US9626982B2 (en) * | 2011-02-15 | 2017-04-18 | Voiceage Corporation | Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec |
EP2681734B1 (en) | 2011-03-04 | 2017-06-21 | Telefonaktiebolaget LM Ericsson (publ) | Post-quantization gain correction in audio coding |
NO2669468T3 (zh) | 2011-05-11 | 2018-06-02 | ||
KR102070429B1 (ko) * | 2011-10-21 | 2020-01-28 | 삼성전자주식회사 | 에너지 무손실 부호화방법 및 장치, 오디오 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 오디오 복호화방법 및 장치 |
EP2862167B1 (en) * | 2012-06-14 | 2018-08-29 | Telefonaktiebolaget LM Ericsson (publ) | Method and arrangement for scalable low-complexity audio coding |
JP6133422B2 (ja) * | 2012-08-03 | 2017-05-24 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法 |
EP2922052B1 (en) * | 2012-11-13 | 2021-10-13 | Samsung Electronics Co., Ltd. | Method for determining an encoding mode |
CN103915100B (zh) * | 2013-01-07 | 2019-02-15 | 中兴通讯股份有限公司 | 一种编码模式切换方法和装置、解码模式切换方法和装置 |
CA2899542C (en) | 2013-01-29 | 2020-08-04 | Guillaume Fuchs | Noise filling without side information for celp-like coders |
WO2014118156A1 (en) * | 2013-01-29 | 2014-08-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program |
SI3848929T1 (sl) * | 2013-03-04 | 2023-12-29 | Voiceage Evs Llc | Naprava in metoda za zmanjšanje šuma kvantizacije v dekoderju časovne domene |
JP2016520854A (ja) * | 2013-03-21 | 2016-07-14 | インテレクチュアル ディスカバリー カンパニー リミテッド | オーディオ信号大きさの制御方法及び装置 |
CN105247614B (zh) * | 2013-04-05 | 2019-04-05 | 杜比国际公司 | 音频编码器和解码器 |
CN107818789B (zh) | 2013-07-16 | 2020-11-17 | 华为技术有限公司 | 解码方法和解码装置 |
EP2830061A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
PL3069338T3 (pl) | 2013-11-13 | 2019-06-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Koder do kodowania sygnału audio, system przesyłania audio i sposób określania wartości korekcji |
US9502045B2 (en) * | 2014-01-30 | 2016-11-22 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980797A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
CN110444219B (zh) * | 2014-07-28 | 2023-06-13 | 弗劳恩霍夫应用研究促进协会 | 选择第一编码演算法或第二编码演算法的装置与方法 |
CN106448688B (zh) | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
FR3024581A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Determination d'un budget de codage d'une trame de transition lpd/fd |
EP2996269A1 (en) * | 2014-09-09 | 2016-03-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio splicing concept |
WO2016108655A1 (ko) | 2014-12-31 | 2016-07-07 | 한국전자통신연구원 | 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치 |
KR20160081844A (ko) * | 2014-12-31 | 2016-07-08 | 한국전자통신연구원 | 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치 |
EP3067886A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
TWI693594B (zh) | 2015-03-13 | 2020-05-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
EP3079151A1 (en) * | 2015-04-09 | 2016-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and method for encoding an audio signal |
KR102398124B1 (ko) | 2015-08-11 | 2022-05-17 | 삼성전자주식회사 | 음향 데이터의 적응적 처리 |
US9787727B2 (en) | 2015-12-17 | 2017-10-10 | International Business Machines Corporation | VoIP call quality |
US10109284B2 (en) | 2016-02-12 | 2018-10-23 | Qualcomm Incorporated | Inter-channel encoding and decoding of multiple high-band audio signals |
WO2019099658A2 (en) * | 2017-11-17 | 2019-05-23 | Skywave Networks Llc | Method of encoding and decoding data transferred via a communications link |
WO2020253941A1 (en) * | 2019-06-17 | 2020-12-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs |
KR20210158108A (ko) | 2020-06-23 | 2021-12-30 | 한국전자통신연구원 | 양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기 |
CN114650103B (zh) * | 2020-12-21 | 2023-09-08 | 航天科工惯性技术有限公司 | 一种泥浆脉冲数据传输方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5490230A (en) * | 1989-10-17 | 1996-02-06 | Gerson; Ira A. | Digital speech coder having optimized signal energy parameters |
WO2000011659A1 (en) * | 1998-08-24 | 2000-03-02 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
IT1257065B (it) * | 1992-07-31 | 1996-01-05 | Sip | Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi. |
IT1257431B (it) * | 1992-12-04 | 1996-01-16 | Sip | Procedimento e dispositivo per la quantizzazione dei guadagni dell'eccitazione in codificatori della voce basati su tecniche di analisi per sintesi |
CN1111959C (zh) * | 1993-11-09 | 2003-06-18 | 索尼公司 | 量化装置、量化方法、高效率编码装置、高效率编码方法、解码装置和高效率解码装置 |
JP3317470B2 (ja) * | 1995-03-28 | 2002-08-26 | 日本電信電話株式会社 | 音響信号符号化方法、音響信号復号化方法 |
EP0880235A1 (en) * | 1996-02-08 | 1998-11-25 | Matsushita Electric Industrial Co., Ltd. | Wide band audio signal encoder, wide band audio signal decoder, wide band audio signal encoder/decoder and wide band audio signal recording medium |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
ATE302991T1 (de) * | 1998-01-22 | 2005-09-15 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen |
JP3802219B2 (ja) * | 1998-02-18 | 2006-07-26 | 富士通株式会社 | 音声符号化装置 |
US6385573B1 (en) * | 1998-08-24 | 2002-05-07 | Conexant Systems, Inc. | Adaptive tilt compensation for synthesized speech residual |
US6480822B2 (en) * | 1998-08-24 | 2002-11-12 | Conexant Systems, Inc. | Low complexity random codebook structure |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6658382B1 (en) * | 1999-03-23 | 2003-12-02 | Nippon Telegraph And Telephone Corporation | Audio signal coding and decoding methods and apparatus and recording media with programs therefor |
US6604070B1 (en) | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
ATE420432T1 (de) * | 2000-04-24 | 2009-01-15 | Qualcomm Inc | Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen |
FI110729B (fi) * | 2001-04-11 | 2003-03-14 | Nokia Corp | Menetelmä pakatun audiosignaalin purkamiseksi |
US6963842B2 (en) * | 2001-09-05 | 2005-11-08 | Creative Technology Ltd. | Efficient system and method for converting between different transform-domain signal representations |
US7043423B2 (en) * | 2002-07-16 | 2006-05-09 | Dolby Laboratories Licensing Corporation | Low bit-rate audio coding systems and methods that use expanding quantizers with arithmetic coding |
JP2004281998A (ja) * | 2003-01-23 | 2004-10-07 | Seiko Epson Corp | トランジスタとその製造方法、電気光学装置、半導体装置並びに電子機器 |
WO2004084182A1 (en) * | 2003-03-15 | 2004-09-30 | Mindspeed Technologies, Inc. | Decomposition of voiced speech for celp speech coding |
RU2316059C2 (ru) * | 2003-05-01 | 2008-01-27 | Нокиа Корпорейшн | Способ и устройство для квантования усиления в широкополосном речевом кодировании с переменной битовой скоростью передачи |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US8155965B2 (en) | 2005-03-11 | 2012-04-10 | Qualcomm Incorporated | Time warping frames inside the vocoder by modifying the residual |
KR100923156B1 (ko) * | 2006-05-02 | 2009-10-23 | 한국전자통신연구원 | 멀티채널 오디오 인코딩 및 디코딩 시스템 및 방법 |
US20080002771A1 (en) | 2006-06-30 | 2008-01-03 | Nokia Corporation | Video segment motion categorization |
US8532984B2 (en) * | 2006-07-31 | 2013-09-10 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
US8112271B2 (en) * | 2006-08-08 | 2012-02-07 | Panasonic Corporation | Audio encoding device and audio encoding method |
JPWO2009125588A1 (ja) | 2008-04-09 | 2011-07-28 | パナソニック株式会社 | 符号化装置および符号化方法 |
-
2010
- 2010-10-19 BR BR112012009490-4A patent/BR112012009490B1/pt active IP Right Grant
- 2010-10-19 EP EP10766284.3A patent/EP2491555B1/en active Active
- 2010-10-19 TW TW099135553A patent/TWI455114B/zh active
- 2010-10-19 PL PL10766284T patent/PL2491555T3/pl unknown
- 2010-10-19 CA CA2862712A patent/CA2862712C/en active Active
- 2010-10-19 SG SG10201406778VA patent/SG10201406778VA/en unknown
- 2010-10-19 MY MYPI2014003437A patent/MY167980A/en unknown
- 2010-10-19 CN CN201080058349.0A patent/CN102859589B/zh active Active
- 2010-10-19 CA CA2778240A patent/CA2778240C/en active Active
- 2010-10-19 ES ES10766284.3T patent/ES2453098T3/es active Active
- 2010-10-19 AU AU2010309894A patent/AU2010309894B2/en active Active
- 2010-10-19 MY MYPI2012001713A patent/MY164399A/en unknown
- 2010-10-19 KR KR1020127011136A patent/KR101508819B1/ko active IP Right Grant
- 2010-10-19 MX MX2012004593A patent/MX2012004593A/es active IP Right Grant
- 2010-10-19 CA CA2862715A patent/CA2862715C/en active Active
- 2010-10-19 WO PCT/EP2010/065718 patent/WO2011048094A1/en active Application Filing
- 2010-10-19 JP JP2012534666A patent/JP6214160B2/ja active Active
- 2010-10-19 CN CN201410256091.5A patent/CN104021795B/zh active Active
- 2010-10-19 RU RU2012118788/08A patent/RU2586841C2/ru not_active Application Discontinuation
-
2012
- 2012-04-18 US US13/449,890 patent/US8744843B2/en active Active
- 2012-05-16 ZA ZA2012/03570A patent/ZA201203570B/en unknown
-
2013
- 2013-02-27 HK HK13102440.7A patent/HK1175293A1/zh unknown
-
2014
- 2014-05-27 US US14/288,091 patent/US9495972B2/en active Active
- 2014-10-20 JP JP2014213751A patent/JP6173288B2/ja active Active
-
2016
- 2016-05-12 US US15/153,501 patent/US9715883B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5490230A (en) * | 1989-10-17 | 1996-02-06 | Gerson; Ira A. | Digital speech coder having optimized signal energy parameters |
WO2000011659A1 (en) * | 1998-08-24 | 2000-03-02 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
Non-Patent Citations (4)
Title |
---|
"A wideband speech and audio codec at 16/24/32 kbit/s using hybrid ACELP/TCX techniques;BESSETTE B ET AL;《 SPEECHCODING PROCEEDINGS, 1999 IEEE WORKSHOP ON PORVOO, FINLAND 20-23 JUNE 1999, PISCATAWAY, NJ, USA,IEEE, US》;19990620;7-9 * |
"Universal Speech/Audio Coding Using Hybrid ACELP/TCX Techniques";BESSETTE B ET AL;《 2005 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (IEEE CAT. NO.05CH37625) IEEE PISCATAWAY, NJ, USA, IEEE PISCATAWAY, NJ 》;20050318;301-304 * |
BESSETTE B ET AL."A wideband speech and audio codec at 16/24/32 kbit/s using hybrid ACELP/TCX techniques.《 SPEECHCODING PROCEEDINGS, 1999 IEEE WORKSHOP ON PORVOO, FINLAND 20-23 JUNE 1999, PISCATAWAY, NJ, USA,IEEE, US》.1999,7-9. |
BESSETTE B ET AL."Universal Speech/Audio Coding Using Hybrid ACELP/TCX Techniques".《 2005 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (IEEE CAT. NO.05CH37625) IEEE PISCATAWAY, NJ, USA, IEEE PISCATAWAY, NJ 》.2005,301-304. |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102859589B (zh) | 多模式音频编译码器及其适用的码簿激励线性预测编码 | |
US9812136B2 (en) | Audio processing system | |
EP3958257B1 (en) | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal | |
US8484038B2 (en) | Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation | |
CN110223704B (zh) | 对音频信号的频谱执行噪声填充的装置 | |
US7490036B2 (en) | Adaptive equalizer for a coded speech signal | |
EP1719116A1 (en) | Methods and devices for low-frequency emphasis during audio compression based on acelp/tcx | |
EP2301027A1 (en) | An apparatus and a method for generating bandwidth extension output data | |
US20100250260A1 (en) | Encoder | |
KR20230058705A (ko) | 노이즈 신호 믹싱에 의존하는 다채널 신호 발생기, 오디오 인코더, 및 관련 방법 | |
Fuchs et al. | MDCT-based coder for highly adaptive speech and audio coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP01 | Change in the name or title of a patent holder |
Address after: Munich, Germany Patentee after: Fraunhofer Application and Research Promotion Association Address before: Munich, Germany Patentee before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. |