CN102884572B - 音频信号解码器、音频信号编码器、用以将音频信号解码的方法、及用以将音频信号编码的方法 - Google Patents
音频信号解码器、音频信号编码器、用以将音频信号解码的方法、及用以将音频信号编码的方法 Download PDFInfo
- Publication number
- CN102884572B CN102884572B CN201180021269.2A CN201180021269A CN102884572B CN 102884572 B CN102884572 B CN 102884572B CN 201180021269 A CN201180021269 A CN 201180021269A CN 102884572 B CN102884572 B CN 102884572B
- Authority
- CN
- China
- Prior art keywords
- frequency
- context
- value
- audio signal
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 218
- 238000000034 method Methods 0.000 title claims description 67
- 238000001228 spectrum Methods 0.000 claims abstract description 265
- 230000003595 spectral effect Effects 0.000 claims abstract description 62
- 238000012952 Resampling Methods 0.000 claims description 41
- 238000013507 mapping Methods 0.000 claims description 26
- 238000012935 Averaging Methods 0.000 claims description 12
- 238000009795 derivation Methods 0.000 claims description 12
- 230000006978 adaptation Effects 0.000 claims description 8
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 44
- 238000004422 calculation algorithm Methods 0.000 description 40
- 230000006870 function Effects 0.000 description 40
- 230000001186 cumulative effect Effects 0.000 description 28
- 238000012937 correction Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 238000005070 sampling Methods 0.000 description 17
- 239000000872 buffer Substances 0.000 description 14
- 238000004590 computer program Methods 0.000 description 14
- 238000007906 compression Methods 0.000 description 11
- 230000006835 compression Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000036962 time dependent Effects 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000013139 quantization Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 239000012536 storage buffer Substances 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003795 desorption Methods 0.000 description 3
- NHDHVHZZCFYRSB-UHFFFAOYSA-N pyriproxyfen Chemical compound C=1C=CC=NC=1OC(C)COC(C=C1)=CC=C1OC1=CC=CC=C1 NHDHVHZZCFYRSB-UHFFFAOYSA-N 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- IXKSXJFAGXLQOQ-XISFHERQSA-N WHWLQLKPGQPMY Chemical compound C([C@@H](C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N1CCC[C@H]1C(=O)NCC(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(O)=O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(O)=O)NC(=O)[C@@H](N)CC=1C2=CC=CC=C2NC=1)C1=CNC=N1 IXKSXJFAGXLQOQ-XISFHERQSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000001367 artery Anatomy 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005056 compaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种基于包含一编码频谱表示(ac_spectral_data[])和一编码时间扭曲信息(tw_data[])的编码音频信号表示(152)提供一解码音频信号表示(154)的音频信号解码器(150),该音频信号解码器包含一基于上下文的频谱值解码器(160),配置成依赖一上下文状态解码一描述一或更多频谱值、或一或更多频谱值的一数字表示的至少一部分(m)的码字(acod_m)以获得解码频谱值(162,297,x_ac_dec[])。音频信号解码器也包含一配置成依赖一或更多先前解码频谱值(162,297)决定一现行上下文状态(164,c)的上下文状态决定器(170)。音频信号解码器也包含一时间扭曲频域对时域转换器(180),配置成基于一组与该特定音帧关联且由该基于上下文的频谱值解码器提供的解码频谱值(162)、并依赖时间扭曲信息而提供一特定音帧的时间扭曲时域表示(182)。上下文状态决定器(170)配置成使上下文状态的决定适应后续音帧之间的一基本频率改变。一音频信号编码器应用一类似的概念。
Description
技术领域
依据本发明的诸实施例与基于一编码音频信号表示提供一解码音频信号表示的一种音频信号解码器有关。
依据本发明的进一步实施例与提供一输入音频信号的一编码表示的一种音频信号编码器有关。
根据本发明更进一步的实施例与一种基于一编码音频信号表示提供一解码音频信号表示的方法有关。
根据本发明的另一些实施例与一种提供输入音频信号的一编码表示的方法有关。
根据本发明的更进一步实施例与计算机程序有关。
根据本发明的一些实施例与利用扭曲信息适应一算术编码器的上下文(context)的概念有关,该扭曲信息可与一时间扭曲修正型离散余弦转换结合利用(简称为TW-MDCT)。
背景技术
在下文中,将对时间扭曲音频编码范畴做一简短的介绍,该一范畴的概念可与本发明的一些实施例结合应用。
近来,已有将一音频信号转换成一频域表示,并将频域表示有效地,例如计入知觉遮蔽阈值编码的技术研发。如果一组编码频谱系数被传输的区块长度长,且如果仅有一相对少数的频谱系数远高于总体遮蔽阈值、而大量的频谱系数接近或低于总体遮蔽阈值且因此可被忽略(或以最小的码长度编码),则此一音频信号编码概念特别有效率。适用该条件的频谱有时称为一稀疏频谱。
举例而言,以余弦为基础或以正弦为基础的调制重迭转换因其能量压缩性质而经常被使用在信源编码的应用中。亦即,对具有一固定基本频率(音高)的谐波音,它们将信号能量集中到少数的频谱成分(子能带),导致一有效率的信号表示。
通常,一信号的(基本)音高应被理解成能与信号频谱区别的最低主要频率。在常用语音模式中,音高是由人类咽喉调制的激发信号频率。若仅有一个单一基本频率存在,频谱将极其简单,只包含基本频率和泛音。此一频谱可被高度有效地编码。然而,对于具有变化音高的信号,对应于每一谐波成分的能量覆盖数个转换系数,因而导致一编码效率的降低。
为了克服编码效率的减少,要编码的音频信号在一非均匀时间网格上被有效地重取样。在后续处理中,由非均匀重取样获得的样本位置被处理成犹如它们表示一均匀时间网格上的值。此一运算一般是表示成「时间扭曲」。取样次数可有利地依赖音高的时间变化被选择,以使得音频信号在音频信号的调谐扭曲版本中的一音高变化小于音频信号在原始版本(在时间扭曲之前)中的一音高变化。在音频信号的时间扭曲后,音频信号的时间扭曲版本转换成频域。音高相依的时间扭曲具有的效果为时间扭曲音频信号的频域表示典型地展现能量压缩成远比原初(非时间-扭曲音频信号)的频域表示为少的频谱成分数目。
在解码器端时间扭曲音频信号的频域表示被转换至时域,以使得时间扭曲音频信号的一时域表示可在解码器端取得。然而,在解码器端重建时间扭曲音频信号的时域表示中,编码器端输入音频信号的原始音高变化未被包含。因此,又另一通过重取样时间扭曲音频信号的解码器端重建时域表示的时间扭曲被应用。
为了要在解码器获得编码器端输入音频信号的良好重建,需要使解码器端时间扭曲至少大约是编码器端时间扭曲的反运算。为了要获得适当的时间扭曲,需要有一数据提供于解码器以容许编码器端时间扭曲的调整。
因为典型地需要将此信息从音频信号编码器传递到音频信号解码器,理想地是保持此一传输所需要的位率低,同时仍容许需要的时间扭曲信息能在解码器端可靠重整。
而且,当编码或解码频谱值时编码效率往往因使用一上下文相依编码器或一上下文相依解码器而增加。
然而,已经发现一音频编码器的一编码效率在一基本频率或一音高存有一变化下往往比较低,即使时间扭曲概念被应用亦然。
鉴于此一情况,希望有一种即使当存在一基本频率变化仍允许一良好编码效率的概念。
发明内容
发明概要
依据本发明的一实施例创作一种音频信号解码器,该解码器基于包括编码频谱表示及编码时间扭曲信息的一编码音频信号表示提供一解码音频信号表示。音频信号解码器包含一基于上下文的频谱值解码器,该解码器配置成依赖一上下文状态解码描述一或更多频谱值或一或更多频谱值的一数字表示的至少一部分的一码字,以获得解码频谱值。音频信号解码器也包含一上下文状态决定器,配置成依赖一或更多先前解码的频谱值决定一现行的上下文状态。音频信号解码器也包含一时间扭曲频域对时域转换器,配置成根据一组与特定音帧相关联且由该基于上下文频谱值决定器提供的解码频谱值、并依赖该时间曲信息提供一音帧的一时间扭曲时域表示。上下文状态决定器配置成使上下文状态的决定适应后续音帧之间的一基本频率变化。
根据本发明的此一实施例是以一发现为基础,即若上下文状态被适应后续音帧之间的一基本频率改变,则以一基于上下文频谱值的解码器在一具有时间变化的音频信号存在下所实现的编码效率被改进,因为基本频率随时间的变化(在许多情况等同于音高变化)具有的效果为一特定音帧的频谱典型地相似于一先前音帧(在特定音帧之前)的频谱的频率比例缩放版本,使得依赖基本频率变化决定上下文的适应技术允许利用该相似性来改良编码效率。
换言之,已发现基于上下文频谱值编码的编码效率(或解码效率)在二个后续音帧之间存在一基本频率的一显著改变时相对较差,且此一情况下编码效率可通过适应上下文状态的决定而被改善。此一决定上下文状态的适应技术允许利用先前音帧与现行音帧的频谱之间的相似性,同时也考虑先前音帧与现行音帧的频谱间的系统性差异,像是例如典型地出现在基本频率随着时间变化(即在二音帧之间)下的频谱的频率比例缩放。
概括而言,依据本发明的此一实施例有助于在不需要另外的旁侧信息或者位率之下改善编码效率(假定描述基本频率在后续音帧之间变化的信息利用一音频信号编码器或解码器的时间扭曲功能可在一音频比特流中使用)。
在一较佳实施例中,时间扭曲频域对时域转换器包含一标准(非时间扭曲)频域对时域转换器,配置为根据一组与特定音帧相关联且由基于上下文解码器提供的一组解码频谱值提供一特定音帧的一时域表示,以及一时间扭曲重取样器,配置为依赖时间扭曲信息重取样该特定音帧的时域表示、或其一已处理版本,以获得该特定音帧的一重取样(时间扭曲)时域表示。一时间扭曲频域对时域转换器的此一实施易于施行,原因是其依赖一「标准」频域对时域转换器,且包括一时间扭曲重取样器为其功能扩充,该时间扭曲重取样器的功能可以独立于频域对时域转换器的功能外。因此,该频域对时域转换器可在一时间扭曲(或复原时间扭曲)停用的运算模式及一时间扭曲(或复原时间扭曲)现用的运算模式的两种运算模式中被重复利用。
在一较佳实施例中,时间扭曲信息描述音高随时间的变化。在此实施例中,上下文状态决定器配置成从时间扭曲信息导出一频率伸展信息(即,一频率比例缩放信息)扭曲信息。而且,上下文状态决定器最好配置成沿着频率轴依赖频率伸展信息伸展或压缩与一先前音帧相关联的过去上下文,以获得用于一现行音帧的一或更多频谱值的基于上下文解码的一适应上下文。已发现一描述一音高随时间的变化的时间扭曲信息非常适合导出频率伸展信息。而且,已经发现沿频率轴伸展或压缩与一先前音帧相关联的过去上下文典型地产生一伸展或压缩上下文,其允许导出一有意义上下文状态信息,该状态信息良好适应目前音帧的频谱且因而带来一良好的编码效率。
在一较佳实施例中,上下文状态决定器配置成从时间扭曲信息导出一第一音帧的一第一平均频率信息,且从时间扭曲信息导出接着第一音帧之后的一第二音帧上的一第二平均频率信息。在此一情况,上下文状态决定器配置成在计算第二音帧上的第二平均频率信息与第一音帧上的第一平均频率信息之间的一比率,用以确定频率伸展信息。已发现典型地能够容易从时间扭曲信息导出平均频率信息,且亦发现第一与第二平均频率信息之间的比率允许一计算上有效的频率伸展信息导出。
在另一较佳实施例中,上下文状态决定器配置成从时间扭曲信息导出一第一音帧上的一第一平均时间扭曲信息,且从时间扭曲信息出一在第一音帧之后的一第二音帧上的第二平均时间扭曲信息。在此一情况,上下文状态决定器配置成计算第一音帧上的第一平均时间扭曲轮廓信息与该第二音帧上的第二平均时间扭曲信息之间的比率,用以确定频率伸展信息。已发现计算第一与第二音帧(可能重迭)上的时间扭曲轮廓的平均时在计算上特别有效,且第一平均时间扭曲轮廓信息与第二平均时间扭曲轮廓信息间的一比率提供充分正确的频率伸展信息。
在一较佳实施例中,上下文状态决定器配置成从一延伸在多个连续音帧上的共同时间扭曲轮廓导出第一和第二平均频率信息或第一和第二平均时间扭曲轮廓信息。已发现在多个连续音帧上建立一共同时间扭曲轮廓不仅促进重取样时间的正确和无失真计算,且也提供一非常好的基础以供判断二后续音帧之间的基本频率改变。因此,共同时间扭曲轮廓已被确认为一识别不同音帧之间一随着时间的相对频率改变的极佳方法。
在一较佳实施例中,音频信号解码器包含一时间扭曲轮廓计算器,配置成根据时间扭曲信息计算描述多个连续音帧上的一相对音高的时间演变的时间扭曲轮廓信息。在此一情况,上下文状态决定器配置成使用时间扭曲轮廓信息导出频率伸展信息。已发现例如可针对一音帧的每一取样被定义的一时间扭曲轮廓信息构成上下文状态决定的适应技术的一极佳基础。
在一较佳实施例中,音频信号解码器包含一重取样位置计算器。重取样位置计算器配置成根据时间扭曲轮廓信息计算重取样位置以供时间扭曲重取样器使用,以使得重取样位置的一时间变化由时间扭曲轮廓信息决定。已发现时间扭曲轮廓信息对于频率伸展信息的决定及重取样位置的决定的一般用途所具有的效果是,通过应用频率伸展信息所获得的一伸展上下文被良好适应一现行音帧的频谱的特性,其中该现行音帧的音频信号至少接近利用计算的重取样位置通过重取样操作被重建的先前音频信号的一音频信号延续。
在一较佳实施例中,上下文状态决定器配置成依赖多个先前解码的频谱值(可能被上下文内存结构所包含或描述)导出一数字的现行上下文值,且依赖数字现行上下文值选择描述一码值映射至一表示一或更多频谱、或一或更多频谱值的一数字表示的至少一部分的码值的一映射规则。在此情况下,基于上下文的频谱值解码器配置成使用上下文状态决定器所选择的映射规则解码描述一或更多频谱值、或者一或更多频谱值的一数字表示的至少一部分的码值。已发现一种上下文适应技术,其中一数字现行上下文值由多个先前解码频谱值导出,且其中一映射规则依据该数字(现行)上下文值被选择,因上下文状态例如数字(现行)上下文值的决定的一适应技术而显著获益,因为通过此一概念能避免一显著不适当映射规则的选择。相反地,如果上下文状态,即数字现行上下文值的导出不依赖后续音帧之间的基本频率改变被适应,则一映射规则的错误选择将在有一基本频率改变之下时常发生于,使得一编码增益可能减少。此一编码增益的减少通过所描述的机制而被避免。
在一较佳的实施例中,上下文状态决定器配置成建立及更新一初步上下文内存结构,以使得初步上下文内存结构的项目描述第一音帧的一或更多频谱值,其中初步上下文内存结构的项目的项目索引指示各别项目所关联的频域对时域转换器的一频率点或者一组相邻频率点(例如,在提供第一音帧的时域表示中)。上下文状态决定器更进一步被配置成根据初步上下文内存结构获得一频率比例缩放上下文内存结构以使得初步上下文的一个具有第一索引的特定项目或者子项目被映射至频率比例缩放上下文内存结构的具有一第二频率索引的对应项目或者子项目之上。第二频率索引与该第一频率索引是与该频域对时域转换器的一不同频率点或一不同组相邻频率点相关联。
换言之,在对应于该频域对时域转换器的一第i频谱点(或频域对时域转换器的第i组频谱点)的一或更多频谱值的基础上所获得的初步上下文内存结构的一项目被映射至频率比例缩放上下文内存结构的一与频域对时域换器的一第j频率点(或者第j组频率点)相关联的一项目上,其中j不同于i。已发现此一将初步内存结构的项目映射至频率比例缩放上下文内存结构的项目上的概念提供一使上下文状态的决定适应基本频率改变的一种计算上特别有效的方法。该上下文的一频率比例缩放可以利用此一概念被轻松达成。因此。由脉频率比例缩放上下文内存结构导出一数字现行上下文值与从一无音高变化的常规(例如初步)上下文内存结构导出一数字现行上下文值可以是同样的。因此,所描述的概念容许以最小的努力在一现存的音频解码器下实施上下文适应技术。
在一较佳实施例中,上下文状态决定器配置成导出描述现行上下文状态的一上下文状态值用于一码字的解码,该码字使用频率比例缩放上下文内存结构的值描述与一第三频率索引相关联的一第二音帧的一或更多频谱值、或第二音帧的一或更多频谱值的一数字表示的至少一部分,频率比例缩放上下文内存结构的该等值的频率索引是与第亖频率索引成一预定关系,该第三频率索引指定欲利用现行上下文状态值被解码的音帧所关联的频域对时域解码器的一频率点或者一组相邻频率点。
已经发现使用一或更多欲被解码的频谱值的预定(且最好是固定)相对环境(以频率点的角度)导出上下文状态值(例如,一数字现行上下文值)允许使该上下文状态值的计算保持适度简单。通过使用频率比例缩放上下文内存结构作为上下文状态值导出的一输入,基本频率的变化能有效率地被考虑。
在一较佳的实施例中,上下文状态决定器配置成将频率比例缩放上下文内存结构的具有一对应目标值频率索引的每一多个项目设定为初步上下文内存结构具有对应来源频率索引的一对应项目的值。上下文状态决定器配置成决定频率比例缩放上下文内存结构的一项目及初步上下文内存结构的一对应项目的对应频率索引,以使得该对应频率索引之间的一比率是由初步上下文内存结构的项目所关联的一现行音帧与解码上下文由频率比例缩放上下文内存结构的项目决定的一后续音帧之间的基本频率改变决定。通过使用此一概念导出频率比例缩放上下文内存结构的项目,能保持小的复杂度同时仍可使频率比例缩放上下文内存结构适应基本频率的变化。
在一较佳的实施例中,上下文状态决定器配置成建立初步上下文内存结构以使得初步上下文内存结构的每一多个项目是以一第一音帧的多个频谱为基础,其中初步上下文内存结构的项目的项目索引指示各别项目被关联(相对第一音帧)的频域对时转换的一组相邻频率点。上下文状态决定器配置成从初步上下文内存结构的项目提取具有关联的个别频率点索引的初步频率点个别上下文值。除此的外,上下文状态决定器配置成获得具有关联的个别频率点索引的频率比例缩放频率点个别上下文值,以使得具有一第一频率点索引的特定初步频率点个别上下文值被映射到一具有一第二频率点索引的对应频率比例缩放频率点个别上下文值,使得初步频率点个别上下文值的一频率点个别映射被获得。上下文状态决定器更进一步被配置为将多个频率比例缩放频率点个别上下文值组合成频率比例缩放上下文内存结构的一组合项目。因此,即使多个频率点被概括在上下文内存结构的一个项目中,仍能够使频率比例缩放上下文内存结构以一非常精细的方式适应基本频率的变化。因此,上下文对基本频率改变的一特别精确的适应可被达成。
依据本发明的另一实施例创作一种音频信号编码器,提供包括一编码频谱表示与一编码时间扭曲信息的输入音频信号的一编码表示。音频信号编码器包含一频域表示提供者,其配置成提供表示依据一时间扭曲资被时间扭曲的输入音频信号的时间扭曲版本。音频信号编码器进一步包含一基于上下文的频谱值编码器,配置成依赖一上下文状态编码一描述频域表示的一或更多频谱值,或频域表示的一或更多频谱值的一数字表示的至少一部分的码字,以获得编码频谱表示的编码频谱值。音频信号解码器也包含配置成依赖一或更多个先前编码的频谱值决定一现行上下文状态的上下文状态决定器。上下文状态决定器配置成使上下文状态的决定适应后续音帧之间的基本频率改变。
此一音频信号编码器与上述的音频信号解码器是以同一概念与发现为基础。同时,音频信号编码器能被增补有关于音频信号解码器所讨论的任何一特征及功能,其中先前编码频谱值担任先前解码频谱值在上下文状态计算中的角色。
在一较佳的实施例中,上下文状态决定器配置成依赖多个先前编码频谱值导出一数字现行上下文值,并依赖该数字现行上下文值选择描述一或更多频谱值、或一或更多频谱值的一数字表示的一部分映射至一码值上的映射规则。在此情况下,基于上下文的频谱值编码器配置成使用由上下文状态决定器选择的映射规则提供描述一或更多频谱值或一或更多频谱值的一数字表示的至少一部分的码值。依据本发明的另一实施例创作一种在一编码音频信号的基础上提供一解码音频信号表示的方法。
依据本发明的又一实施例创作一种提供一输入音频信号的编码表示的方法。
依据本发明的另一实施例创作一可执行该等方法之一的一种计算机程序。
诸方法及计算机程序是以与上述讨论的音频信号解码器和音频信号编码的相同考虑为基础。
此外,音频信号编码器,诸方法和计算机程序能以有关于音频信号解码器的上述及下文所描述的任何一功能和功能补充。
附图说明
图1a示出依据本发明的一实施例的一音频信号编码器的一方块概略图;
图1b示出依据本发明的一实施例的一音频信号解码器的一方块概略图;
图2a图示出依据本发明的另一实施例的音频信号编码器的一方块概略图;
图2b图示出依据发明的另一实施例的音频信号解码器的一方块概略图;
图2c示出依据发明的实施例的一使用在音频编码器中的算术编码器的一方块概略图;
图2d示出依据发明的实施例的一使用在音频信号解码器中的算术解码器的一方块概略图;
图3a示出一自适应上下文(编码/解码)的图标;
图3b示出一相对音高轮廓的图示;
图3c示出时间扭曲修正型离散余弦转换(tw-mdct)的一伸展效果的图示;
图4a示出使用在本发明的实施例中的一上下文状态决定器的方块概略图;
图4b示出可由依据图4的上下文状态决定器实施的一频率压缩的图标;
图4c示出一用于伸展或压缩一上下文、可被应用在依据本发明的实施例中的一算法的一虚拟程序码表示;
图4d和图4e示出一用于伸展或压缩一上下文、可被应用在依据本发明的实施例中的一算法的一虚拟程序码表示;
图5a、图5b示出依据发明的一实施例的一音频信号解码器的方块概略图的一详细摘录部分;
图6a、图6b示出依据发明的一实施例,一提供解码音频信号表示的映射程序的流程图的一详细摘录部分;
图7a图示出使用在依据发明一实施例的一音频解码器中的数据元素和辅助元素的一定义的说明;
图7b示出被使用在依据发明一实施例的一音频解码器中的常数的定义说明;
图8示出一码字索引映射至一对应的解码时间扭曲值之上的一映射的表表示;
图9示出一用于在相等间隔的节点间线性内插的算法的一虚拟程序码表示;
图10a示出一辅助程序函数“warp mv vec”的一虚拟程序码表示;
图10b示出一辅助程序函数“warp mv vec”的一虚拟程序码表示;
图11示出一用于计算一样本位置向量和一过渡长度的算法的一虚拟程序码表示;
图12示出取决于一窗序列和一核心编码器音帧长度的合成窗长度N的值的表表示;
图13示出一容许窗序列的真值表表示;
图14示出一用于一“EIGHT_SHORT_SEQUENCE”型态的窗序列的窗化及一内部重迭相加的算法的一虚拟程序码表示;
图15示出用于非“EIGHT_SHORT_SEQUENCE”型的其它窗序列的窗化及一内部重迭相加的算法的一虚拟程序码表示,
图16示出一用于重取样的算法的一虚拟程序码表示;且
图17示出一用于状态计算的上下文图示,其可被使用在依据本发明的一些实施例中;
图18示出一定义的说明;
图19示出一算法“arith map context()”的一虚拟程序码表示;
图20示出一算法“arith_get_context()”的一虚拟程序码表示;
图21示出一算法“arith get pk()”的一虚拟程序码表示;
图22示出一虚拟的“arith decode()”;
图23示出用于解码一或更多较不显著的位平面的一算法的一虚拟程序码表示;
图24示出用于设定一系列算术解码频谱值的算法的一虚拟程序码表示项目一;
图25示出一函数“arith_update_context()”的一虚拟程序码表示;
图26示出一算法“arith finish()”的一虚拟程序码表示;
图27a至与27f示出依据本发明一实施例图的音频流的语法元素的表示。
具体实施方式
较佳实施例的详细说明
1.依据图1a的音频信号编码器
图1a依据本发明的一实施例示出一音频信号编码器100的一方块概略图。
音频信号编码器100配置成接收一输入音频信号110且提供输入音频信号的一编码表示112。输入音频信号的编码表示112包含一编码频谱表示和一编码时间扭曲信息。
音频信号编码器100包含频域表示提供者120,其配置成接收输入音频信号110和一时间扭曲信息122。频域表示提供者120(其可被视为一时间扭曲频域表示提供者)配置成提供一表示依据时间扭曲信息122被时间扭曲的输入音频信号110的一时间扭曲版本的一频域表示124。音频信号编码器100也包含一基于上下文频谱值编码器130,配置成依赖一上下文状态提供一描述频域表示124的一或更多频谱值、或频域表示124的一或更多频谱值的数字表示的至少一部分,以获得编码频谱表示的编码频谱值。上下文状态例如可被一上下文状态信息134描述。音频信号编码器100也包含上下文状态决定器140,配置成依赖一或更多先前编码频谱値24决定一现行上下文状态。上下文状态决定器140继而可提供上下文状态信息134给基于上下文的频谱值编码器130,其中上下文状态信息例如可采一数字现行上下文值(用于选择一映射规则或映射表)的形式、或一选择映射规则或映射表的参考数据的形式。上下文状态决定器140配置成使上下文状态的决定适应对后续音帧之间的一基本频率改变。因此,上下文状态决定器可评估有关后续音帧之间的基本频率改变的一信息。此一有关后续音帧间的基本频率改变的信息例如可以是以频域表示提供者120所使用的时间扭曲信息122为基础。
因此,音频信号编码器在音频信号部分包括一随时间变化的基本频率、或一随时间变化的音高的情况下可提供一特别高的编码效率,因为上下文状态信息134的衍生信息被适应二个音帧之间的基本频率改变。因此,被基于上下文频谱值编码器130使用的上下文被良好适应频域表示124的频谱压缩(相对于频率)或频谱扩展(相对于频率),此在基本频率由一音帧改变至次一音帧(即在二音帧之间)时发生。因此,一上下文状态信息134甚至在一基本频率改变的情况下平均而言被良好适应于频域表示124,进而产生基于上下文频谱值编码器的良好编码效率。已发现,若相反地上下文状态未被适应基本频率的改变,则上下文在基本频率改变的情形中是不适当的,因此造成编码效率的显著降级。
因此,可以说音频信号编码器100在基本频率改变的情形中典型地表现超越使用一基于上下文频谱值编码的传统音频信号编码器。
在此应指出者,使上下文状态的决定适应于后续音帧(即从第一音帧到第二、后续音帧)之间的基本频率改变的手段存在有许多不同的实施方式。例如,一项目是由频域表示124定义或由其衍生的上下文内存结构,(或更精确地,其内容)可在一描述上下文状态的数字现行上下文值被导出之前在频率上被伸展或压缩。此等概念将在下文中详细讨论。或者,也可能改变(或适应)算法以从上下文内存结构的项目导出上下文状态信息134,内存结构的项目是以频域表示124为基础。例如,此一非频率比例缩放上下文内存结构的哪一项目(多个项目)被考虑可以调整,尽管此一解决方案在本文中不予详细讨论。
2.依据图1b的音频信号解码器
图1b示出一音频信号解码器150的一方块概略图配置成接收一编码音频信号表示152,可能包含一编码频谱表示和一编码时间扭曲信息。音频信号解码器150配置成根据编码音频信号表示152提供一解码音频信号表示154。
音频信号解码器150包含一基于上下文的频谱值解码器160,配置成接收编码频谱表示的码字且以的为基础提供解码频谱值162。而且,基于上下文的频谱值解码器160配置成接收一上下文信息164,举例而言,该信息可取采一选择的映射规则或一选择映射规则的参考数据的数字现行上下文值的形式。基于上下文的频谱值解码器160配置成依赖上下文状态(该状态可被上下文状态信息164描述)解码一描述一或更多频谱值、或一或更多频谱值的一数字表示的至少一部分的码字,以获得解码频谱值162。音频信号解码器150也包含一时间扭曲频域对时域转换器180,配置成根据一组与基于上下文频谱值解码器所提供的一特定音帧相关联的解码频谱值162决定一现行上下文状态。时间扭曲频域对时域转换器180配置成接收一时间扭曲信息184以使得时间扭曲时域表示182的提供适应由编码音频信号表示152的编码时间扭曲信息描述的需要时间扭曲,如此则时间扭曲时域表示182构成解码音频信号表示154(或者,等效地,如果使用后处理,则形成解码音频信号表示的基础,)
时间扭曲频域对时域转换器180例如可包含一频域对时域转换器,配置成根据与一特定音帧相关联且由基于上下文频谱值解码器160提供的成组解码频谱値162提供一特定音帧的时域表示。该时间扭曲频域对时域转换器也可以包含一时间扭曲重取样器,配置成依赖时间扭曲信息184对特定音帧的时域表示,或其处理版本重取样,以便获得特定音帧的重取样时域表示182。
此外,上下文状态决定器170配置成将上下文状态(该状态由上下文状态信息164描述)的决定适应后续音帧之间(即,从第一音帧到第二后续音帧的)的基本频率改变。
音频信号解码器150是以有关对音频信号编码器100所作讨论的发现为基础。尤其,音频信号解码器配置成将上下文状态的决定适应后续音帧之间的改变频率,以使得上下文状态(且结果是由基于上下文频谱值解码器160所使用、关于不同频谱值的发生的统计或然率的假设)至少平均而言良好适应一使用该上下文信息被解码的现行音帧的频谱。因此,由于在依据由上下文状态决定器170所提供的上下文状态选择的选出上下文与欲被解码的频谱值之间的良好匹配通常造成相对较短的码字,故编码该现行音帧的频谱值的码字可以特别短,带来一良好的位率效率。
此外,因为无论如何皆包含在编码音频信号表示152中以供时间扭曲频域对时域转换器使用的时间扭曲信息184可被上下文状态决定器170重复使用作为一有关后续音帧之间基本频率改变信息,故上下文状态决定器170可有效率地实施。
因此,上下文状态的决定对后续音帧之间基本频率改变的适应技术甚至不需要任何另外的旁侧信息。因此,音频信号解码器150不需要任何另外的旁侧信息即可产生基于上下文频谱值解码的改良编码效率(而且给予编码器100端的改良编码效率),此构成位率效率上的重大进步。
此外,应指出的是,不同的概念可被使用来将上下文状态的决定适应后续音帧之间的基本频率改变(即从一第一音帧到一第二、后续音帧)。举例而言,其项目为基于解码频谱值162的一上下文内存结构例如可在上下文状态信息164由上下文状态决定器170自频率比例缩放上下文内存结构导出前使用一频率比例缩放(例如,频率伸展或者频率压缩)被适应。然而,可选择地,一不同的运算法可被上下文状态决定器170用来导出上下文状态信息164。例如,一上下文内存结构的哪些项目被用来决定一上下文状态以用来解码一具有特定码字频率索引的码字可被适应。即使后者的概念尚未详细地在本文中描述,该一概念当然可以被应用在依据本发明的一些实施例中。同时,不同的概念可被使用来决定基本频率的改变。
3.依据图2a的音频信号编码器
图2a所示为依据本发明一实施例的音频信号编码器200的一方块概略图。应指出的是依据图2的音频信号编码器200与依据图1a的音频信号编码器100非常相似,因此同一方法及信号将被标示相同的参考数字且不再详细解释。
音频信号编码器200配置成接收一输入音频信号110且以该音频信号110的基础上提供一编码音频信号表示112。可自由选择地,音频信号编码器200也配置成接收一外部产生的时间扭曲信息214。
音频信号编码器200包含一频域表示提供者120,其功能可与音频信号编码器100的频域表示提供者120的功能完全相同。频域表示提供者120提供表示一输入音频信号110的时间扭曲版本的频域表示,该频域表示以124标示。音频信号编码器200也包含一基于上下文的频谱值编码器130和上下文状态决定器140,其操作是如相关于音频信号编码器100所讨论者。因此,基于上下文频谱值编码器130提供码字(例如,acod_m),每一码字代表编码频谱表示的一或更多频谱值,或者一或更多频谱值的一数字表示的至少一部分。
音频信号编码器可自由选择地包含一时间扭曲分析器或基本频率分析器或音高分析器220,其为配置成接收输入音频信号110且以的为基础提供一时间扭曲轮廓信息222,该信息例如描述由频域表示提供者120向输入音频信号110施加一时间扭曲,以便补偿在一音帧期间的一基本频率改变,及/或输入音频信号110的一基本频率的时间演变,及或输入音频信号110的一音高的时间演变。音频信号编码器200也包含一时间扭曲轮廓编码器224,其配置成根据时间扭曲轮廓信息222提供一编码时间扭曲信息226。编码时间扭曲信息226最好被包含在编码音频信号表示112中,且例如可采取(编码)时间扭曲比率值“tw_ratio[i]]”的形式。
此外,应指出者是时间扭曲轮廓信息222可被提供至频域表示提供者120且亦被提供至上下文状态决定器140。
音频信号编码器200可能另外包含一音响心理学模型处理器228,配置成接收输入音频信号110,或其一预先处理版本,并执行一音响心理学的分析,举例而言决定时域遮蔽效应及/或频率遮蔽效应。因此,音响心理学模型处理器228可提供一控制信息230,举例而言代表输入音频信号的一不同频带的音响心理学关联,在频域音频编码器上广为人知。
下文中,频域表示提供者120的信号路径将被简短地描述。频域表示提供者120包含可选择的预先处理120a,可以可选择地预先处理输入音频信号110,提供输入音频信号110的预先处理版本120b。频域表示提供者120也包含一取样器/重取样器,配置成依赖一接收自一取样位置计算器120e的取样位置信息120d而对该输入音频信号110、或其预处理版本120b取样或重取样。因此,取样器/重取样器120c可以对输入音频信号110(或其预先处理版本120b)应用一时变取样或重取样。通过应用此一时变取样(在有效样本点之间具有时间变化的时间距离),一取样或重取样的时域表示120f被获得,其中一音高或一基本频率的时间变化相较于输入音频信号110被减少。取样位置由取样位置计算器120e依赖时间扭曲轮廓信息222被计算。频域表示提供者120也包含一窗程序120g,其中窗程序120g被配置成使取样器或重取样器120c所提供的取样或重取样时域表示120f窗化。窗化被执行以便减少或消除块效应,藉此容许一音频信号解码器上的平顺迭加演算操作。频域表示提供者120也包含一时域对频域转换器120i,配置成接收窗化及取样/重取样的时域表示120h,且在其基础上提供一频域表示120j,该频域表示120j例如包含输入音频信号110每音帧的一组频谱系数(其中该输入音频信号的音帧举例而言可以是重迭处理或非重迭处理,其中一大约50%的重迭在一些重迭音帧实施例中是较佳者)。然而,应指出的是在一些实施例中,多个组频谱系数可被提供给一单一音帧。
频域表示提供者120可选择地包含一频谱处理器120k,配置成执行一时间噪声成形以及/或一长期预测以及/或任何其它形式的频谱后处理,藉此获得一后处理频域表示1201。
频域表示提供者120可选择地包含一比例缩放器/量化器120m,其中比例缩放器/量化器120m关于举例而言可以配置成依据音响心理学模型处理器228提供的控制信息230比例缩放频域表示120j或其后处理版本120l的不同频率点(或频带)。因此,频率点(或频带,包含多个频率点)举例而言可根据音响心理学相关性被比例缩放,以使得,具有高度音响心理学相关性的频率点(或者频带)有效地通过一基于上下文频谱值编码器以高准确度被编码,而具有低音响心理学相关性的频率点(或者频带)则以低准确度被编码。此外,应指出者为控制信息230可以可选择地调整时域对频域转换器及/或频谱后处理的窗化参数。同时,控制信息230可以一编码形式被包含在编码音频信号表示112内,如熟习此技艺者所周知。
关于音频信号编码器200的功能,可以说一时间扭曲(在一时变非均匀取样或者重取样的意义上)由取样器/重取样器120c依据时间扭曲轮廓信息220被应用。
因此,即使存在一具有音高时间变化而在未有时变取样/重取样时将产生一模糊频谱的输入音频信号,仍可达成一具有显著的频谱波峰与波谷的频域表示120j。此外,由基于上下文频谱值编码器130使用的上下文的导出依赖后续音帧间的一基本频率改变被适应,造成如上文所讨论的一特别高编码效率。除此的外,作为为取样器/重取样器120c的计算取样位置计算以及上下文状态决定的适应两者的基础的时间扭曲轮廓信息222使用时间扭曲轮廓编码器224被编码,以使得描述时间扭曲轮廓的编码时间扭曲信息226被包含在编码音频信号表示112之中。因此,编码音频信号表示112提供在一音频信号解码器端有效解码该编码输入音频信号110所需要的信息。
此外,应指出者是音频信号编码器200的个别组件可以实质上执行音频信号解码器240的个别组件的一反转功能,将在下文参照图2b被描述。
此外,本详细说明也在整体描述中提到有关音频信号解码器的功能,使得音频信号解码器的功能能被理解。
同时也应予指出,音频信号解码器和个别的组件可作相当多的修改。举例而言,一些功能可被结合像是例如取样/重取样,窗化网域对频域转换。而且,在适当处可加入另外的处理。
此外,依要求或需要,编码音频信号表示自然地可能包含另外的旁侧信息,当做需要或需要。
4.依据图2b的音频信号解码器
图2b示出依据本发明一实施例的音频信号解码器240的一方块概略图。音频信号解码器240可能与依据图1b的音频信号解码器150非常类似,因此相同的方法和信号以相同的数字标示而不再详细讨论。
音频信号解码器240配置成例如以比特流的形式接收一编码音频信号表示152。编码音频信号表示152包含一例如码字(举例而言,acod_m)形式的编码频谱表示,代表一或更多频谱值、或一或更多频谱值的一数字表示的至少一部分。编码音频信号表示152也包含一编码时间扭曲信息。此外,音频信号解码器240配置成提供一解码音频信号表示154,举例而言,音频内容的一时域表示。
音频信号解码器240包含一基于上下文的频谱值解码器160,其配置成接收代表来自编码音频信号表示152的频谱值的码字,且在其基础上提供解码频谱值162。
并且,音频信号解码器240也包含一上下文状态决定器170,配置成提供上下文状态信息164给基于上下文的频谱值解码器160。该音频信号解码器240也包含一时间扭曲频域对时域转换器180,其接收解码频谱值162且提供解码音频信号表示154。
音频信号解码器240也包含一时间扭曲计算器(或者时间扭曲解码器)250,配置成接收被包含在编码音频信号表示152之中的编码时间扭曲信息,且在其基础上提供一解码时间扭曲信息254。编码时间扭曲信息例如可包含描述一基本频率或一音高的一时间变化的码字“tw_ratio[i]”。解码时间扭曲信息254例如可采取一扭曲轮廓信息的形式。举例而言,解码时间扭曲信息254可包含值“warp_value_tbl[tw_ratio[i]”或值prei[n],将在下文中加以讨论。可任选地,音频信号解码器240也包含一时间扭曲轮廓计算器256,配置成从解码时间扭曲轮廓信息254导出一时间扭曲轮廓信息258。时间扭曲信息258例如可作为上下文状态决定器170、以及时间扭曲的频域对时域转换器180的一输入信息。
在下文中,关于时间扭曲的频域对时域转换器的一些细号节将被描述。转换器180可任选地可包含一反量化器/比例重缩放器180a,其可配置成从基于上下文的频谱值解码器160接收解码频谱值162并提供解码频谱值162的一反量化及/或比例重缩放版本180b。举例而言,反量化器/比例重缩放器180可被配置成执行一运算,该运算至少大约与音频信号编码器200的比例缩放器/量化器120m相反。因此,一可任选的反量化器/比例重缩放器180可以接收一可对应于控制信息230的控制信息。
时间扭曲频域对时域转换器180可任选地包含一频谱前处理器配置成的180c,配置成接收解码频谱值162或反量化/比例重缩放频谱值180b且在其基础上提供频谱预处理的频谱值180d。举例而言,频谱前处理器180c可执行一与音频信号编码器200的频谱后处理器120k相较之下的反运算。
时间扭曲频域对时域转换器180也包含一频域对时域转换器180e,配置成接收解码频谱值162,反量化/比例重缩放频谱值180b或频谱预处理频谱值180d,且在其基础上提供一时域表示180f。举例而言,频域对时域转换器可配置成执行一频域对时域反转换,举例而言,一修正型离散余弦反转换(IMDCT)。频域对时域转换器180e例如可根据一组解码频谱值,或可选择地,根据多个组解码频谱值提供编码音频信号的一音帧的一时域表示。然而,编码音频信号的音帧,举例而言,在某些情况中可以在时间上重迭。然而,在一些其它情况下音帧可能是非重迭的。
时间扭曲频域对时域转换器180也包含一窗程序180g,被配置成窗化时域表示180f且根据由频域对时域转换器180e所提供的时域表示180f提供一窗化时域表示180h。
时间扭曲频域对时域转换器180也包含一重取样器180i,配置成重取样该窗化时域表示180h,且以其为基础提供一窗化且重取样的时域表示180j。重取样器180i配置成从一取样位置计算器180l接收一取样位置信息180k。因此,重取样器180i对编码音频信号表示的每一音帧提供一窗化且重取样的时域表示180j,其中后续音帧可能重迭。
因此,一重迭器/相加器180m接收编码音频信号表示152的后续音帧的窗化与重取样时域表示180j,且重迭并相加该窗化及重取样时域表示180j以获得后续音帧之间的平滑过渡。
时间扭曲频域对时域转换器可选择地包含一时域后处理180o,配置成根据由重迭器/相加器180m提供的一组合音频信号180n执行一后处理。
时间扭曲轮廓信息258作为上下文状态决定器170的一输入信息,其配置成依赖时间扭曲轮廓信息258适应上下文状态信息164的导出。此外,时间扭曲频域对时域转换器180的取样位置计算器180l也接收时间扭曲信息且根据该时间扭曲轮廓信息258提供取样位置信息180k,藉此适应由重取样器180i依赖时间扭曲轮廓信息描述的时间扭曲轮廓而执行的时变重取样。
因此,一音高变化根据时间扭曲轮廓信息258所描述的时间扭曲轮廓被引入由时域表示180f描述的时域信号。因此有可能根据具有一显著波峰和波谷的稀疏频谱180d提供具有随时间的明显音高变化(或基本频率随时间的一明显改变)的音频信号的一时域表示180j。此一频谱可被以高位率编码而且结果造成编码音频信号表示152的一较低位率需求。
此外,上下文(或更普遍地,上下文状态信息164的导出)也使用上下文状态决定器170依赖时间扭曲轮廓信息258被适应。因此,编码时间扭曲信息252被重复使用两次,且通过容许一稀疏频谱的编码、及通过容许上下文状态信息在一时间扭曲或基本频率随时间的一变化存在下适应频谱的特定特性,而有助于改进编码效率。
关于音频信号编码器240的个别组件的功能的更进一步细节将在下文中被描述。
5.依据图2c的算术编码器
在下文中,一算术编码器290将被描述,它可代替基于上下文频谱值编码器130m与音频信号编码器100或音频信号编码器200中的上下文状态决定器140m的组合。算术编码器290配置成接收频谱值291(举例而言,频域表示124的频谱值)且根据这些频谱值291提供码字292a,292b。
换言之,算术编码器290例如可以配置成接收频域音频表示124的多个后处理及比例缩放且量化频谱值291。算术编码器包含一最高有效位平面提取器290a,其配置成由一频谱值提取一最高有效位面m。在此应指出者是,最高有效位平面可以包含一或甚至更多位(例如,二或三位),其为频谱值的最高有效位。
因此,最高有效位平面提取器290a提供一频谱值的最高有效位平面值290b。算术编码器290也包含一第一码字决定器290c,其配置成决定代表最高有效位平面值m的算术码字acod_m[pki][m]。
可任选地,第一码字决定器290c也可能提供一或更多例如表示有多少较低有效位平面可利用(且结果是指示最高有效位平面的数字重量)的逸出码字(在本文中也被标示成“ARITH_ESCAPE”)。第一码字决定器290c可以被配置成使用一具有(或被引用)一累积频率表索引pki的选择累积频率表提供与一最高有效位平面值m相关联的码字。
为了要决定哪一累积频率表应被选择,算术编码器最好包含一例如可采用上下文状态决定器140的功能的状态追踪器290d。状态追踪器290d配置成追踪算术编码器的状态,举例而言,通过观察哪些频谱值先前已被编码。状态追踪器290d结果提供一可以是等同于上下文状态信息134的状态信息290e,例如有时为一标示为“s”或“t”的状态值的形式(其中状态值s不应该与频率伸展因子s混淆)。
算术编码器290也包含一累积频率表选择器290f,配置成接收状态信息290e且提供一描述选出的累积频率表的信息290g给码字决定器290c。举例而言,累积频率表选择器290f可提供描述哪一累积频率表从一组例如64个累积频率表中被选出的一累积频率表索引“pki”。或者,累积频率表选择器290f可提供全部选出的累积频率给码字决定器290c。因此,码字决定器290c可使用选出的累积频率提供最高有效位平面值m的码字acod_m[pki][m],以使得编码该最高有效位平面的值m的实际码字acod_m[pki][m]取决于m的值及累积频率表索引pki,且结果取决于现行状态信息290e。关于编码程序和获得的码字格式的进一步细节将在下文中被描述。此外,关于等同于上下文状态决定器140的状态追踪器290d的运算的细节将在下文被讨论。
算术编码器290进一步包含一较低有效位平面提取器290h,配置成比例缩放且量化频域音频表示291提取一或更多的较低有效位平面,如果一或更多欲被编码的频谱值超过仅使用最高有效位平面可编码的值的范围。则较低有效位平面可依需要包含一或更多位。
因此,较低有效位平面提取器290h提供一较低有效位平面信息290i。
算术编码器290也包含第二码字决定器290j,配置成接收较低有效位平面信息290i并在其基础上提供代表零、一或更多较低有效位平面的内容的零、一或甚至更多码字“acod_r”。第二码字决定器290j可被配置成应用一算术编码算法或任一其它的编码算法以从该较低有效位平面信息290i导出较低有效位平面的码字“acod_r”。
在此应指出者,该较低有效位平面的数目可依比例缩放且量化频谱值291而变化,因此如果欲被编码的比例缩放且量化频谱比较小可能完全没有较低有效位,如此使得如果欲被编码的现行比例缩放且量化频谱值具有一中等范围则可能有一较低有效位平面,以及使得如果欲被编码的比例缩放且量化频谱值采一比较大的值,则可能有超过一较低有效位平面。
总结上述,算术编码器290配置成使用一阶层编码程序来编码由信息291描述的比例缩放且量化频谱值。最高有效位平面(举例而言每频谱值包含一、二或三位)被编码以获得最高有效位平面值的一算术码字“acod_m[pki][m]”。一或更多的较低有效位平面(每一较低有效位平面例如包含一、二或三位)被编码以获得一或更多码字“acod_r”。当编码最高有效位平面时,最高有效位平面的值m被映射到一码字acod_m[pki][m]。64个不同的累积频率表可用来依赖算术编码170的一状态值,即,依赖一先前编码频谱值来编码值m。因此,码字“acod_m[pki][m]”被获得。除此的外,一或更多码字“acod_r”被提供,且若一或更多较低有效位平面存在则被包含至比特流中。
然而,依据本发明,等同于上下文状态信息134的状态信息290e的导出被适应于由一第一音帧到一后续第二音帧(即在二个后续音帧之间)的基本频率改变。有关于此一可由状态追踪器290d执行的适应将在下文中被描述。
6.依据图2d的算术解码器
图2d示出算术解码器295的一方块概略图,其可代替基于上下文频谱值解码器160并取代依据图1D的音频信号解码器150以及依据图2b的音频信号解码器24。
算术解码器295配置成接收一编码频域表示296,其例如可包含,码字“acod_m”及“acod_r”形式的算术编码频谱数据。编码频域表示296可等同于输入基于上下文频谱值解码器160的码字。此外,算术解码器配置成提供一解码频域音频表示297,其可等同于由基于上下文频谱值解码器160所提供的解码频谱值162。
算术解码器295包含一最高有效位平面决定器295a,其配置成接收描述最高有效位平面的值m的算术码字acod_m[pki][m]。最高有效位平面决定器295可被配置成使用一源于一组包含多个,例如64个累积频率表中的一累积频率表来从算术码字“acod_m[pkil[m]”导出最高有效位平面值m。
最高有效位平面决定器295a被配置成根据码字“acod_m”导出频谱值的一最高有效位平面的值295b。算术解码器295更进一步包含一配置成接收代表一频谱值的一或更多较低有效位平面的一或更多码字“acod_r”的较低有效位平面决定器295c。因此,较低有效位平面的决定器295c配置成提供一或更多较低有效位平面的解码值295d。算术解码器295也包含一位平面组合器295e,配置成接收频谱值的最高有效位平面的解码值295b,以及如果较低有效位平面可用在现行频谱值时该频谱值的一或更多较低有效位平面的解码值295b。因此,位平面组合器295e提供编码频谱值,该编码频谱值是解码频域音频表示297的一部分。自然地,算术解码器295典型地被配置成提供多个频谱值以便获得与一音频内容现行音帧关联的一整组解码频谱值。
算术解码器295更进一步包含一累积频率表选择器295f,配置成例如依赖描述算术解码器295的一状态的状态索引295g选择64个累积频率表中的一个。算术解码器295更进一步包含一状态追踪器295h,配置成依赖先前解码频谱值追踪算术解码器的一状态。
状态追踪器295h可对应于上下文状态决定器170。有关状态追踪器295h的细节将在下文中被描述。
因此,累积频率表的选择器295f配置成提供一选出累积频率表的索引(举例而言,pki),或一选出的累积频率表本身,以便应用在依赖码字“acod_m”的最高有效位平面值m解码中。
因此,算术解码器利用相邻频谱值的最高有效位平面的值的不同组合的不同概率。不同的累积频率表被选择且依赖上下文被应用。换言之,频谱值之间的统计相关性通过从一组包含例如64个不同累积频率表中依赖一状态索引295g选择不同的累积频率表而被利用(可能等同于上下文状态信息164),该状态索引295g是由观察先前解码的频谱值被获得。通过依赖一有关基本频率(或音高)改变信息使状态索引295g的导出适应后续音帧间的一基本频率改变(或音高改变)时一频谱比例缩放被考虑。
7.适应上下文的概念的概观
在下文中,将提出使用时间扭曲信息适应算术编码器的上下文的概念的概要陈述。
7.1背景资料
在下文中,一些背景资料将被提出以帮助了解本发明。应指出者是在参考文献[3]中,一自适应上下文算术编码器(例如参见参考文献[5])被使用来无失真地编码量化频谱点。
所使用的上下文在图3a中被描述,该图示出此一自适应上下文算术编码图标。在图3a中,可以看见来自先前音帧的已解码频率点被用来决定欲被解码的频率点的上下文。应指出者是上下文和编码是否以4元组或者线状或其它n元组--n可能改变,被组织为无关紧要者。
再度参阅图3a,该图示出一自适应上下文算术编码或解码法,应指出者,一横坐标310描述时间而一纵坐标312描述频率。此处应指出者是4元组的频谱值使用一共同上下文状态依据图3a中所示的上下文被解码。例如,用于解码一与具有时间索引k与频率索引i的音帧相关联的频谱值的4元组320的上下文是基于一具有时间索引k和频率引i-1的第一4元组322,一具有时间索引k-1和频率索引i-1的第二4元组324,一具有时间索引k-1和频率索引i的第三4元组326以及一具有时间索引k-1和频率索引i+1的第四4元组328。应指出者是每一频率索引i-1、i、i+1指定(或更精确地,被关联于)时域对频域转换或频域对时间转换的四个频率点。因此,用于四元组321的解码的上下文是以四元组322、324、326、328的频谱值的频谱值为基础。因此,具有时间索引k-1的先前音帧的具有元组频率索引i-1、i和i+1的频谱值被用来导出用于解码具有时间索引k的现行音帧(典型地与具有时间索引k的现行解码音帧的具有元组频率索引i-1的频谱值组合)的具有元组频率索引i的频谱值的上下文。
已经发现时间扭曲转换典型地导致具有基本频率变化的谐波信号的较佳能量压缩,导致频谱展现一清楚的谐波结构而非多少模糊化的分音,其在未应用时间扭曲时可能发生。扭曲时间的另一效果是由连续音帧的可能不同平均局部取样频率所引起。已经发现此一一效果造成具有另一固定谐波结构但不同基本频率的一信号的连续频谱沿频率轴被伸展。
图3c的下方曲线图390示出一实例。该实例包含二连续音帧(例如,在一具有一基本频率的谐波信号被一时间编码扭曲修正型离散余弦转换编码器【TW-MDCT编码器】编码的情况下被指定为“最后音帧”和“本音帧”的音帧)的曲线图(举例而言,一为频率点的函数的dB大小)。
对应的相对音高演变能在图3b的一曲线图370中找到,显示一减少的相对音高以及因此一增加的谐波线的相对频率。
此导致在应用时间扭曲算法(举例而言,时间扭曲取样或重取样)后的一谐波线的频率增加。可以清楚看见的是现行音帧(也指称为“本音帧”)的此一频谱是最后音帧的一近似复制,但是沿着频率轴392伸展(根据修正型离散余弦转换的频率点标记)。这也将意指,如果我们使用过去音帧(也指称为“最后音帧”)当做算术编码器的一上下文(例如,用于现行音帧(也指称为“本音帧”)的频谱值解码,因匹配分音现在将可能在不同频率点中发生,故上下文将会是次优的。
图3c的一上方曲线图380将此(例如,使用一依赖上下文算术编码来编码频谱值的位需求)示出成与一通常被认为效果比算术编码系统差的霍夫曼编码系统相比较。由于次优的过去上下文(例如可能是由“最后音帧”定义的频谱值,由图3c中的曲线图390表示),在现行音帧的分音位于过去音帧中具有较低能量区域中的情况下,算术编码系统耗用较多的位,且反的亦然。另一方面,图3c的曲线图380显示,至少是在基本分音的情况下,如果上下文良好,则位分配在比较上低于使用霍夫曼编码者(举例而言,当使用一依赖上下文的算术编码时)。
综上所述,图3b的曲线图370示出一相对音高轮廓的时间演变的一实例。一横坐标372描述时间且一纵坐标374描述一相对音高prel与一相对频率frel两者。一第一曲线376描述相对音高的一时间演变,且一第二曲线377描述相对频率的时间演变。可以看出,相对音高随着时间经过而减少,而相对频率则随着时间经过增加。此外,应指出者是一先前音帧(也指称为“最后音帧”)的一时间延长378a与一现行音帧(也指称为“本音帧”)的一时间延长378b在图3b的曲线图370中非重迭。然而,典型地,后续音帧的时间延长378a、378b可以是重迭的。例如,重迭可能大约50%。
现在参考图3c,应指出者,曲线图390显示两个后续音帧的MDCT频谱。一横坐标392根据修正型离散余弦转换的频率点描述频率。一纵坐标394描述个别频谱点的一相对大小(根据分贝)。可以看出,现行音帧(“本音帧”)的频谱的频谱波峰相对于先前音帧(“最后音帧”)的频谱的对应频谱波峰频率上被移动(以一依赖频率的方式)。因此,已经发现若上下文是根据先前音帧的频谱值的原始版本被形成,用于现行音帧的频谱值基于上下文编码的该一上下文未被良好适应,因为现行音帧的的频谱的频谱波峰与(根据频率)先前音帧的频谱的频谱波峰不一致。因此,频谱值基于上下文编码的位率对需求比较高,而且可能甚至比在非基于上下文的霍情况还要高。此可在图3c的曲线图380中看出,其中一横坐标描述频率(根据修正型离散余弦转换的频率点),且一纵坐标384描述频谱值编码需要的位数目。
7.2.解决方案的讨论
然而,依据本发明的实施例提供以上讨论问题的一种解决方法。已经发现音高变化信息能被用来导出一时间扭曲修正型离散余弦转换编码器的连续频谱之间的频率伸展因子的一近似值(例如,在连续音帧的频谱之间)。已经发现此一伸展因子接着可用来沿频率轴伸展过去上下文以导出一较佳的上下文且因此减少编码一频率线所需要的位数目并增加编码增益。
已发现如果此一伸展因子大约是最后音帧与现行音帧的平均频率的比率,则可达成良好结果。此外,已发现此可逐行完成,或者如果算术编码器将n-元组线编码为一项目,逐元组完成。
换言之,上下文的伸展可以被逐行完成(即,个别地根据修正型离散余弦转换的频率点)或者逐元组的(即根据修正型离散余弦转换的多个频谱点的元组或组)。此外,而且,伸展因子计算的分辨率也能够依赖改变实施例的需求改变。
7.3.导出伸展因子的实例
在下文中,导出伸展因子的一些概念将详细地被描述。被描述在参考[3]中的时间扭曲修正型离散余弦转换方法,以及,或者,本文中所描述的时间扭曲修正型离散余弦转换方法,提供一所谓的平滑音高轮廓当作中间信息。此一平滑化音高轮廓(其例如可以由数组“warp_contour[]”的项目描述,或通过数组“new_warp_contour[]”及包含一些连续音帧上的相对音高演变信息的“past_warp_contour[]”的项目描述,所以对一音帧内的每一样本而言,相对音高的估计是已知的。而且此样本的相对频率仅是相对音高的倒数。
举例而言,下列的关系可适用:
在以上方程序中,frel[n]指称一特定时间索引n的相对音高,其可为一短期的相对音高(其中该时间索引n例如可指称一个别样本)。此外,frel[n]可指称时间索引n的一相对频率,且可以是一短期的相对频率值
7.3.1第一替代选择
一音帧k(其中k是一音帧索引)的平均相对频率可被描述成此一音帧k中的所有相对频率的算术平均值:
在以上的方程式frel中,平均值k指在具有时域框索引k的音帧上的平均相对频率。N指称具有时域框索引k的音帧的时域样本数目。n是运行在具有音帧索引k的现行音帧的时域样本的时域样本索引n=0至n=N-1上的一变量。frel[n]指称与具有一时域样本时间索引n的时域样本相关联的局部相对频率值。
由此(即对现行音帧由frel,mean,k的计算,且对先前音帧由frel,meam,k-l的计算),现行音帧k的伸展因子s接着可被导出为:
7-3-2第二替代选择
在下文中,计算伸展因子s的另一替代选择被将描述。如果将相对音高平均接近一计入考虑,一较简单且较不精确的伸展因子s估计(例如,当与第一替代选择比较时)可被建立,所以相对音高和相对频率的关系大约是线性的,且因而可省略反转相对音高以获得相对频率的步骤,并使用平均相对音高:
在上述的方程式中,prel,mean,k指称具有时域框索引k的音帧的一平均相对音高。N指称具有时间音帧索引k的音帧的时域样本的数目。运行变量n采取0与N-l之间的值且藉此运行在现行音帧的具有时间索引n的时域样本上。prei[n]指称具有时间索引n的时间样本的一(局部)相对音高值。例如,相对音高值prei[n]可等同于扭曲轮廓数组“warp_contour[]”的项目warp_contour[n]。
在此一情况,具有时域框k的音帧的伸展因子s可被估计为:
在上列方程式中,prel,mean,k-i指具有时间音帧索引k-1的音帧的一平均音高值,且可变prel,mean,k描述具有时间音帧k的音帧的一平均相对音高值。
7.3.3更进一步的替代选择
然而,应指出者是用于计算、或估计伸展因子s的显著不同概念可被使用,其中伸展因子s典型地也描述第一音帧和一后续第二音帧之间的一基本频率改变。举例而言,第一音帧与后绩第二音帧的频谱可通过一模式比较概念被比较,藉此导出伸展因子。然而,如前述所讨论的使用扭曲轮廓信息的频率伸展因子s计算似乎在计算上特别有效率,使得这是一优先的选项。
8.关于上下文状态决定的细节
8.1.依据图4a和图4b的实例
在下文中,关于上下文状态的决定的细节将被描述。基于此一目的,上下文状态决定器400的功能,一示出在图4a中的该决定器一方块概略图将被描述。
上下文状态决定器400例如可以取代上下文状态决定器140或上下文状态决定器170。即便有关上下文状态决定器的细节将在下文中针对一音频信号解码器的情形描述,上下文状态决定器400也可以在一音频信号编码器的场合中被使用。
上下文状态决定器400配置成接收关于先前解码频谱值或有关先前编码频谱值的一信息410。除此的外,上下文状态决定器400接收一时间扭曲信息或时间扭曲轮廓信息412。时间扭曲信息或时间扭曲轮廓信息412例如可能与时间扭曲信息122相等,且因此可描述(至少隐含地)后续音帧之间的基本频率的一改变。时间扭曲信息或时间扭曲轮廓信息412或者可能与时间扭曲信息184相等,且因而可描述后续音帧之间的基本频率的一改变。然而,时间扭曲信息/时间扭曲轮廓信息412或者可能与时间扭曲轮廓信息222或时间扭曲轮廓信息258相等。一般而言,可以说,时间扭曲信息/时间扭曲轮廓信息412能直接地或间接地描述后续音帧之间的频率改变。举例而言,时间扭曲信息/时间扭曲轮廓信息212可描述扭曲轮廓,且因此可包含数组“warp_contour[]”的项目,或可描述时间轮廓,且因而可包含数组“time contour[]”的项目。
上下文状态决定器400提供上下文状态值420,该上下文状态值描述使用于编码或解码现行音帧的频谱值的上下文,且可被基于上下文频谱值编码器或基于上下文频谱值解码器使用以选择现行音帧的频谱值的编码或解码的映射规则。上下文状态值420例如可以与上下文状态信息134或上下文状态信息164相等。
上下文状态决定器400包含初步上下文内存结构提供者430,配置成提供一初步上下文内存结构432,像是例如数组q[l][]。举例而言,初步上下文内存结构提供者430可被配置成依据图25和图26执行算法的功能,藉此提供一组,例如,数组q[1][]的N/4项目q[l][i](对于i=0至i=M/4-1)。
一般而言,初步上下文内存结构提供者430可配置成提供初步上下文内存结构432的项目以使得一具有项目频率索引i的项目是以一具有频率索引i的一(单一)频谱值为基础,或以一组具有共同频率索引i的频谱值为基础。然而,初步上下文内存结构提供者430最好被配置为提供初步上下文内存结构432,以使得初步上下文内存结构432的一项目的频率索引与该初步上下文内存结构432的项目作为基础的一或更多编码频谱值与解码频谱值的频率索引之间有一固定的频率索引关系。举例而言,该预定索引关系可以是使得初步上下文内存结构的项目q[l][i]以时域对频域转换器或频域对时域转换器的具有频率点索引i(或i-const,其中const是一常数)的频率点的频谱值为基础。然而,或者,初步上下文内存结构432的一索引q[l][i]可以是基于时域对频域转换器或频域对时域转换器的具有频率点索引4i-3、4i-2、4i-1及4i的频率点的频谱值(或频率点索引的一被移转范围)。因此,初步上下文内存结构432的每一项目可与音帧的一预定频率索引的频谱值或多个预定频率索引的一组频谱值相关联,初步上下文内存结构432根据该频谱值被建立。
上下文状态决定器400也包含一频率伸展因子计算器434,配置成接收时间扭曲信息/时间扭曲轮廓信息412并在其基础上提供一频率伸展因子信息436。举例而言,频率伸展因子计算器434可配置成从数组warp_contour[]的项目(其中相对音高信息prei[n]例如可与数组warp_contour[]的一对应项目相等)导出一相对音高信息prei[n][]。此外,频率伸展因子计算器434可配置成应用上述方程式的一从二个后续音帧的该相关音高信息prei导出频率伸展因子信息s。一般来说,频率伸展因子计算器434可配置成提供频率伸展因子信息(例如,一值s,或相等地,一值m_ContextUpdateRatio),使得频率伸展因子信息描述一先前编码或解码音帧与欲使用现行上下文状态值420被编码或解码的现行音帧间的一基本频率改变。
上下文状态决定器400也包含一频率比例缩放上下文内存结构提供者,配置成接收初步上下文内存结构432并在其基础上提供一频率比例缩放上下文内存结构。举例而言,频率比例缩放上下文内存结构可由数组q[l][]的一更新版本代表,该更新版本可以是承载初步上下文内存结构432的数组的一更新版本。
频率比例缩放上下文内存结构提供者可能配置成使用一频率比例缩放从初步上下文内存结构432导出频率比例缩放上下文内存结构。在频率比例缩放中,初步上下文内存结构432的一具有项目索引i的值可被复制,或移转到频率比例缩放上下文内存结构440的一具有项目索引j的项目,其中频率索引中i可能不同于频率索引j。举例而言,如果初步上下文内存结构432的内容的一频率伸展被执行,频率比例缩放上下文内存结构440的一具有项目索引j1的项目可被设定成初步上下文内存结构432的一具有项目索引i1的项目的值,且频率比例缩放上下文内存结构440的一具有项目索引j2的项目可被设定成初步上下文内存结构432的一具有项目索引il的项目的值,其中J2比i1大,且其中ji比i1大。对应的频率索引(举例而言,j1和i1、或J2和i2)之间的一比率可采一预定值(除圆化误差以外)。同样地,如果由初步上下文内存结构432描述的内容的一频率压缩是由频率比例缩放上下文内存结构提供者438执行,频率比例缩放上下文内存结构440的一具有项目索引h的项目可被设定至初步上下文内存结构432的一具有项目索引j3的项目的值,且频率比例缩放上下文内存结构440的一具有项目索引J4的项目可被设定成初步上下文内存结构432的一具有项目索引n的项目的一值。在此一情况,项目索引J3可能比项目索引i3小,且项目索引J4可能比项目索引i4小。而且,对应的项目索引之间(举例而言,项目索引J3和i3之间,或项目索引J4和i4之间)的一比率可能是常数(除了圆化误差以外),而且可能由频率伸展因子信息436决定。关于频率比例缩放上下文内存结构提供者440的运算的更进一步的细节将在下文中被描述。
上下文状态决定器400也包含上下文状态值提供者442,配置成根据频率比例缩放上下文内存结构440提供上下文状态值420。举例而言,上下文状态值提供者442可以配置成提供描述一具有频率索引lo的频谱值根据频率比例缩放上下文内存结构440的项目解码的上下文的上下文状态值420,该频率比例缩放上下文内存结构440的项目的项目索引与频率索引中lo成一预定关系。举例而言,上下文状态值提供者442可配置成提供上下文状态值420以供具有频率索引lo的频谱值(或频谱值的元组)根据具有频率索引l0-1、l0和l0+1的频率比例缩放上下文内存结构440的项目解码。
因此,上下文状态决定器400可有效提供上下文状态值420用于解码具有一频率索引l0的频谱值(或者频谱值的元组),如果频率比例缩放上下文内存结构提供者438执行一频率伸展,根据频率索引各别小于l0-1、小于l0及小于l0+1的初步上下文内存结构432的项目解码,在频率比例缩放上下文内存结构执行提供者438执行一频率压缩的情况下,根据频率索引各别大于l0-1、大于l0及大于l0+1的初步上下文内存结构432的项目解码。
因此,上下文状态决定器400配置成通过根据一频率比例缩放上下文内存结构提供上下文状态值420以使上下文适应后续音帧之间的基本频率间的改变,该频率比例缩放上下文内存结构为初步上下文内存结构432的频率比例缩放版本,依赖频率伸展因子436被频率比例缩放,转而描述基本频率随时间的变化。
图4b示出依据本发明的一实施例决定上下文状态的一图示。图4b示出初步上下文内存结构432的项目的一示意图,初步上下文内存结构432是由以参考数字450标示的初步上下文内存结构提供者430提供。例如,一具有频率索引il+1的项目450a,一项目450b和一具有频率索引i2+2的项目450e被标示。然而,以参考数字452标示,当提供频率比例缩放上下文内存结构440时,一具有频率索引il的项目452a被设定成采用具有频率索引i1+1的项目450a的值,且一具有频率索引i2-1的项目452c被设定成采用具有频率索引i2+2的项目450e的值。同样地,频率比例缩放上下文内存结构440的其它项目可依赖初步上下文内存结构430的项目被设定,其中,典型地,初步上下文内存结构的一些项目在一频率压缩的情况被丢弃,且其中,典型地,初步上下文内存结构432的一些项目在频率伸展的情况下被复制到频率比例缩放上下文内存结构440的多于一项目。
此外,图4b说明上下文状态如何被决定而用于根据率比例缩放上下文内存结构440(以参考数字452代表)的项目解码具有时间索引k的音帧的频谱值。举例而言,当决定用于解码具有时间索引为k的音帧的具有频率索引il的频谱值(或者频谱值的元组)的上下文状态时,时间索引k的音帧的一具有频率索引il-1的上下文值及具有时间索引k-1及频率索引i1-1、i1与i1+1的音帧的频率比例缩放上下文内存结构的项目被评估。因此,具有时间索引k-1和频率索引i1-1、i1+1和i2+2的音帧的初步上下文内存结构的项目被有效地评估以决定用于解码具有时间索引k及频率索引i1的音帧的频谱值(或频谱值的元组)。因此,用于上下文状态的决定的频谱值环境有效地被初步上下文内存结构(或其内容)的频率伸展或频率压缩改变。
8.2依据图4c实施
在下文中,一用于映射利用4元组的算术编码器的上下文的实例将参照图4c描述,该图示出一按元组的处理。
图4c示出用于根据初步上下文内存结构(例如,初步上下文内存结构432)获得频率比例缩放上下文内存结构(举例而言,频率比例缩放上下文内存结构440)的算法的一虚拟程序码表示。
依据图4c的算法460假定初步上下文内存结构432以一数组“self>base.m_qbuf”>被储存。此外,算法460假定频率伸展因子信息436被储存成一变量“self->base.m_ContextUpdateRatio”。
在第一步骤460a中,一些变量被初始化。尤其,一目标元组索引变量“nLinTupleIdx”以及来源元组索引变量“nWarpTupleIdx”被初始化成零。此外,一重排序缓冲区数组“Tqi4”被初始化。
在一步骤460b中,初步上下文内存结构的项目“self->base.m_qbuf”被复制到重排序缓冲区数组中。
其次,只要目标元组索引变量和来源元组索引变量小于一描述最大元组数目的变量nTuples,则复制算法460c被重复。
在一步骤460ca中,四个频率索引由来源元组索引变量(与一第一索引常数“firstIdx”组合)的一现行值决定的重排序缓冲区项目被复制到上下文内存结构(self>base.m_qbuf[][])的项目,该等项目的频率索引是由目标元组索引变量(nLinTupleIdx)(与第一索引常数“firstIdx”组合)决定。
在步骤460cb中,目标元组索引变量被增加一。
在步骤460cc中,来源元组索引变量被设定成一值,是目标元组索引变量(nLinTupleIdx)的现行值与频率伸展因子信息(self->base.m_ContextUpdateRatio)的乘积四舍五入成最接近的整数值。因此,若频率伸展因子变量大于一,来源元组索引变量的值可大于目标元组索引变量的值,而若频率伸展因子变量小于一,则小于目标元组索引变量的值。
因此,来源元组变量的一值被关联于目标元组索引变量的每一值(如果目标元组索引变量的值和来源元组变量的值两者皆小于固定的nTuples)。执行步骤460cb和460cc之后,从重排序缓冲区复制项目到上下文内存结构在步骤460ca中使用一来源元组和一目标元组之间的更新关联被重复。
因此,依据图4c的算法460执行频率比例缩放上下文内存结构提供者430a的功能,其中初步上下文内存结构以数组“self->base.m_qbuf”的原始项目代表且其中频率比例缩放上下文内存结构440由数组“self->base.m_qbuf”的更新项目代表。
8.3.依据图4d和图4e的实施
在下文中,映射一使用4元组的算术编码器上下文的实例将参考图4c被描述,该图示出一逐线的处理。
图4d和图4e示出执行一上下文的频率比例缩放(即,频率伸展或频率压缩)的算法的虚拟程序码表示。
依据图4d和图4e的算法470接收数组“self>base.m_qbuf[][]”(或至少该数组的一参照)及频率伸展因子信息“self->base.m_ContextUpdateRatio”作为一输入信息。此外,算法470接收一描述现用线的数目的变量“self->base.m_Icslnfo->mScaleFactorBandsTransmitted”当做一输入信息。此外,算法470修改数组self>base.m_qbuf[][],以使得该数组的项目代表频率比例缩放上下文内存结构。
算法470在步骤470a中包含多个变量的一初始化。尤其,一目标线索引变量(linLineIdx)和一来源线索引变量(warpLineIdx)被设定初始化为零。
在下文中,二组上下文被处理,其包含不同的上下文索引(以变量“contextIdx”标示)。然而,在其它的实施例中,仅处理一上下文也是足够的。
在一步骤470c中,一行临时缓冲区数组“ImeTmpBuf”和一行重排序缓冲区数组“lineReorderBuf”以零项目被初始化。
在步骤470d中,与多个频谱值元组的不同频率点关联的初步上下文内存结构的项目被复制到行重排序缓冲区数组。因此,具有后续频率索引的行重排序缓冲区数组的项目被设定成与不同频率点相关联的初步上下文内存结构的项目。换言之,初步上下文内存结构每频谱值元组包含一项目self->base.m_qbuf[CurTuple][contextIdx],其中该项目包含与个别频谱线(或频谱点)相关联的子项目a、b、c、d。每一子项目a、b、c、d在步骤470d被复制到个别项目缓冲数组“lineReorderBuf[]”。
因此,线重排序缓冲区数组的内容在一步骤470e中被复制到线时间缓冲区数组“lineTmpBuf[]”。
接着,目标线索引变量和来源线索引变量在一步骤470f中被初始化为采取零值。
接着,线重排序缓冲区数组的项目“lineReorderBuf[warpLineIdx]”在步骤470g中复制到目标线索引变量“linLineIdx”的多个值的线暂存缓冲区数组。只要目标线索引变量和来源线路索引变量是小于一表示有效(非零)频谱线总数的变量“activeLines”,步骤470g即被重复。由目标线索引变量“linLineIdx”的现行值指定的线暂存缓冲区数组的一项目被设定成由来源线索引变量的现行值指定的线重排序缓冲区数组的值。因此,目标线索引变量被增量一。来源线索引变量“warpLineIdx”设定成采取由目标线索引变量的现行值与频率伸展因子信息的乘积所决定的一值(由变量“self->base.m_ContextUpdateRatio”代表)。
在目标线路索引变量和来源线路索引变量的更新之后,只要目标线路索引变量和来源线路索引变量二者比变量“activeLines”为小,步骤470g即被重复。
因此,初步上下文内存的上下文项目是以一线法而非按元组频率比例缩放。
在一最后步骤470h中,元组表示根据线暂存缓冲区数组的线项目被重建。元组表示“self>base.m_qbuf[curTuple][contextIdx]”的项目a、b、c、d依据线暂存缓冲区数组的四个项目“lineTmpBuf[(curTuple-l)*4+0]”至“lineTmpBuf[(curTuple-l)*4+3]”被设定,该等项目频率上相邻。此外,一元组能量字段“e”可任由选择地被设定成代表与各自元组相关联频谱值的一能量。而且,如果与该频谱值相关联的频谱值的大小比较小,另一字段“v”可任由选择地被设定。
然而,应指出者,在步骤470h被执行的有关于新元组的计算的细节,乃主要取决于上下文的实际表示且因此可显著地改变。然而,大致而言,一以元组为基础的表示是在步骤470h中根据步骤470h中的频率比例缩放上下文的一基于个别线的表示被建立。
总结而言,依据算法470,一按元组的上下文表示(数组“self>base.m_qbuf[curTuple][contextIdx]”的项目)首先被分解成一频率线法上下文表示(或频率点法的上下文表示)(步骤470d),接着,频率比例缩放以一逐线方式(步骤470g)被执行。最后,一按元组表示的上下文(数组“self>base.m_qbuf[curTuple][contextIdx]”的更新项目)根据逐线频率比例缩放信息被重建(步骤470h)。
9.频域对时域解码法算法的详细描述
9.1.概观
在下文中,根据本发明一实施例的一音频解码器执行的一些算法将被详细地描述。为此一目的而参照图5a、5b、6a、6b、7a、7b、8、9、10a、10b、11、12、13、14、15及16。
首先,参考图7a,该图显示数据组件的定义的说明以及辅助组件的定义的说明。此外,参见图7b,该图显示常数的定义的说明。
一般而言,可以说本文所描述的方法能用来解码一根据一时间扭曲修正型离散余弦转换被编码的音频流。因此,当TW-MDCT对一音频流(可以用一标志指示,例如称为“twMDCT”标志,其可被包含在一特定的配置信息中)被启用时,一时间扭曲滤波器排组和区块更换可取代一音频解码器中的标准滤波器排组及区块更换。修正型离散余弦反转换(IMCT)的外时间扭曲滤波器排和区块更换包含一从一任意间隔时间栅对一标准规律间隔或线性间隔时间栅的时域对时域映射以及一对应的窗形状适应。
在此应指出者,本文所描述的解码算法例如可由扭曲时间扭曲频域对时域转换器180依据频谱的编码表示、且亦可依据时间扭曲信息184、252被执行。
9-2.定义
有关于数据组件的定义,辅助组件和常数,参考图7a和图7b。
9.3.解码程序-扭曲轮廓
扭曲轮廓节点的码簿索引是依下列被解码成个别节点的扭曲值。
然而,时间扭曲码字“tw_ratio[k'l”映射到解码时间扭曲值之上,在此定名为“warp_value_tbl[tw_ratio[k]”,在根据本发明的实施例中可任由选择地取决于取样频率。因此,依据本发明的一些实施例中没有一单一的映射表,但有不同取样频率的个别映射表。
为得到样本方式(n_long样本)的新扭曲轮廓数据“new_warp_contour[]”,扭曲节点值“warp_node_values[]”目前使用一算法,一呈示在图9中的虚拟程序码表示线性插值于等间隔(interp_dist相隔)节点之间。
在获得此一音帧(举例而言,一现行音帧)的完全扭曲轮廓之前,过去的缓冲值可比例重缩放,因此过去扭曲轮廓“past_warp_contour[]”的最后扭曲值=1。
past_warp_contour[i]=past_warp_contour[i]·norm_fac对于0≤i<2·n_long
last_warp_sum=last_warp_sum·norm_fac
cur_warp_sum=cur_warp_sum·norm_fac
完全扭曲轮廓“warp_contour[]”通过连接过去扭曲轮廓“past_warp_contour”与新扭曲轮廓“new_warp_contour”而获得,且新扭曲轮总和被计算成所有新扭曲轮廓值“new_warp_contour[]”的一总和:
9.4.解码程序-样本位置和窗长度调整
在一线性时间标度上的样本位置向量由扭曲轮廓“warp_contour[]”被计,为此,时间扭曲轮廓依据下列方程式被产生:
使用辅助函数“warp_inv_vec()”和“warp_time_inv()”,它们的虚拟程序码表示分别显示在图10a和图10b,样本位置向量和过渡长度根据一算法被计算,它的虚拟程序码表示被显示在图11中。
9.5.解码程序-修正型离散余弦反转换(IMDCT)
在下文中,修正型离散余弦反转换将被简短地描述
修正型离散余弦反转换的分析表示法如下:
其中:
n=样本索引
i=窗索引
k=频谱系数索引
N=基于window_sequence值的窗长度
N0=(N/2+1)/2
反转换的合成窗长度是语法元素“window_sequence”(可被包含在比特流之中)及演算上下文的一函数。合成窗长度举例而言可以依据图12的表被定义。
有意义的区块过渡列在图13的表中。在一特定的窗体位格中的勾号表示列在此一特定列中的一窗序列可接随列在此一特定行中的一窗序列。
关于被允许的窗序列,应指出者,音频解码器可能是,举例而言,在不同长度的窗之间是可转变的。然而,窗长度的交换并不特别与本发明相关。然而,本发明可在假设基础上被理解成有一“only_long_sequence”型态的窗序列且核心编码器音帧长度等于1024。
此外,应指出者,音频信号解码器可在一频域编码模式和一时域编码模式之间转变。然而,此一可能性并不特别与本发明相关。本发明反而是适用在仅能处理频域编码模式的音频信号解码器中,例如参照图1b和图2b所讨论者。
9.6.解码程序-窗化和区块更换
下文中,可由时间扭曲频域对时域转换器180,且特别是通过其窗程序180g执行的窗化和区块更换将被描述。
“window_shape”元素(可能被包含在表示音频信号的比特流中)而定,不同的过取样转换窗原型被使用,且过取样窗的长度是
NOS=2·n_long·OS_FACTOR_WIN
对于window_shape=1,窗系数由凯萨尔-贝塞尔导出(KBD)窗提供如下:
其中
W’,凯萨尔-贝塞尔内核函数被定义如下:
α=内核窗α因子,α=4
另外,对于窗形状==0,一正弦窗依下列被使用
对于各种的窗序列,左方窗部分使用的原型是由先前区块的窗形状决定。下列的公式表达这一事实:
同样地右方窗形状的原型是由下列公式决定:
由于过渡长度已经被决定,仅需在“EIGHT_SHORT_SEQUENCE”型态的窗序列和所有其它窗序列之间加以区分。
假若现行音帧为“EIGHT_SHORT_SEQUENCE”型态,一窗化与内部(音帧-内部)重迭与相加被执行。图14的C代码部分描述具有“EIGHT_SHORT_SEQUENCE”窗型态的音帧的窗化及内部重迭相加。
关于任何其它型态的音帧,一算法可被使用,一虚拟程序码表示在图15中被显示。
9.7.解码程序-时间-改变重取样
在下文中,时间改变重取样将被描述,该重取样可通过时间扭曲频域执行对时域转换器180,且尤其是通过重取样器180i被执行。
窗化区块z[]根据样本位置(是由取样位置计算器1801在解码时间扭曲轮廓信息258的基础上提供)使用下列的脉冲响应被重取样:
在重取样之前,窗化的区块在两端补零:
重取样本身在图16的一虚拟程序代码中被描述。
9-8.解码程序-重迭及相加先前窗序列
由时间扭曲频域对时域转换器180的重迭器/相加器180m执行的重迭及相加对所有序列皆相同,且可以用数学描述如下:
9.9.解码程序-内存更新
在下文中,内存更新将被描述。即使没有特定的方法被显示在图2b中,应指出者,内存更新可通过时间扭曲频域对时域转换器180被执行。
解码下一音帧所需要的内存缓冲区被更新如下:
past_warp_contour[n]=warp_contour[n+n_long],对于0≤n<2·n_long
cur_warp_sum=new_warp_sum
last_warp_sum=cur_warp_sum
在解码第一音帧前或如果最后一音帧以一光学LPC频域编码器被编码,内存状态被设定如下:
past_warp_contour[n]=1,对于0≤n<2·n_long
cur_warp_sum=n_long
last_warp_sum=n_long
9.10.解码程序-结论
总结上述,一解码程序已被描述,其可通过时间扭曲频域对时域转换器180被执行。如同可见,一时域表示被提供给例如2048时域样本的一音帧,且后续的音帧例如可以重迭大约50%,以使得后续音帧的时域表示之间的一平滑过渡被确保。
一组,例如NUM_TW_NODES=16个解码时间扭曲值可与每一音帧(只要时间扭曲在该音帧中是现用的)相关联,不考虑音帧的时域样本实际取样频率
10.频谱无噪声编码
在下文中,一些有关于频谱的无噪声编码的细节将被描述,该编码可通过基于上下文频谱值解码器160与上下文状态决定器170相组合被执行。应指出者,一对应的编码可通过上下文频谱值编码器与上下文状态决定器140相组合被执行,其中一熟习此技艺的人将从解码步骤的详细讨论中了解各别的编码步骤。
10.1.频谱无噪声编码-工具描述
频谱无噪声编码被用来更进一步减少量化频谱的冗余。频谱无噪声编码系统是以一与动态适应的上下文组合的算术编码为基础。下文中讨论的频谱无噪声编码系统是以2元组为基础,即二相邻频谱系数被合并。每一2元组被分割成符号-最高有效2位法平面和剩余的较低有效位平面。最高有效二位法平面,m,的无噪声编码使用来自四个先前解码相邻2元组的依赖上下文累积频率表。无噪声编码由量化频谱值被馈给且使用来自(例如依据其被选择)四个先前解码相邻2元组的依赖上下文累积频率表。此处,在时间与频率上的邻接被计入,如图16中所示出,该图呈示一状态计算器的上下文的图形表示。累积的频率表然后由算术编解码器(编码器或者解码器)使用来产生一可变长度二进制码。
然而,应指出者,不同大小的上下文可被选择。举例而言,在元组环境中供解码的一较小或较大的元组数目可在上下文决定上被使用。同时,一元组可包含一较小或较大数目的频谱值。或者,个别的频谱值可被使用来获得上下文、而非元组。
算术编解码器产生一特定符号组及它们各别的概率的二进制码。二进制码通过映射一该组符号存在的概率区间至一码字上被产生。
10.2频谱的无噪声编码-定义
有关于变量,常数,等等的定义,参见图18,该图显示定义的说明。
10.3.解码程序
量化频谱系数“x_ac_dec[]”从最低频率系数开始且进行至最高频率系数被无噪声地解码。举例而言,它们可藉多组集合成一所谓2-元组(a,b)的二连续系数a和b被解码。
一频域模式(如下文所描述)的解码系数x_ac_dec[]接着被储存在一数组“x_ac_quant[g][win][sfb][bin]”中。无噪声编码码字的传输顺序为使它们当以储存在数组中的顺序被解码时,bin是最快速增量的索引且g是增量索引。在一码字内,解码顺序是a且然后b。
可任由选择地,一转换-编码-激发模式的系数也可被评估。即使上述实例只与频域音频编码和频域音频解码有关,本文中揭露的概念可实际上用于操作在转换-编码-激发域中的音频编码器和音频解码器。转换编码激发(TCX)的解码系数x_ac_dec[]被直接储存在一数组x_tex_invquant中,且无噪声编码码字的传输顺序为使得当它们以接收及储存在数组中的顺序被解码时,bin是最快速增量的索引且win是最慢增量的索引。在一码字中的解码顺序是a且然后b。
首先,选择性的旗标“arith_reset_flag”决定是否上下文必需被重置(或应该被重设)。如果旗标是TRUE,设定初值被执行。
解码程序以一初始化阶段开始,其中上下文元素向量q通过将储存在数组(或子数组)q[l][]中的先前音帧的上下文元素复制及映射到q[0][]。q内的上下文元素被储存,例如以每2元组4位被储存。有关初始化阶段的细节可参见算法,该算法的一虚拟程序码表示在图19中被显示。
继初始化后,可依据图19的算法执行,已在上文中讨论的上下文频率比例缩放可被实行。例如,数组(或子数组)q[0][]可被视为初步上下文内存结构432(或者除了有关大小与项目e和v的细节外可等于数组self>base.m_qbufl[])。此外,频率比例缩放上下文可被储存回到数组q[0][](或储存回数组“self>base.m_qbuf[][]”)。然而,可选择地或附加地,数组(或子数组)q[l][]的内容可通过装置438被频率比例缩放。
总结而言,无噪声解码器输出2元组的无符号量化频谱系数。在第一(或典型地,在频率比例缩放之后),上下文的状态c根据2元组周围的先前解码频谱系数被计算以解码。因此,状态使用仅由二个新的2元组组成的最后解码二元组的上下文状态被增量更新。状态例如使用17位被编码且通过函数“arith_get_context[]”被转回,该函数的一虚拟程序码表示显示在图20中。
以函数“arith_get_context[]”的返回值获得的上下文状态c决定用于解码最有效2位平面m的累积频率表,c相对对应的累积频率表索引pki的映射是由函数“arith_get_pk[]”执行。一虚拟程序码表示显示在图21中。
值m使用与累积的频率表,“arith_cf_m[pki][]”一起被呼叫的函数“arith_decode[]”解码,其中pki对应于由函数“arith_get_pk[]”转回的索引。算术编码器是使用一种结合比例缩放的标签产生方法的整数实现。依据图22的虚拟C-码描述使用的算法。
当解码值m是逸出符号“ARITH_ESCAPE”时,变量“lev”和“esc_nb”被增量一而另一值m被解码。在此一情况中,函数“get_pk[]”再一次随值c&esc_nb<被呼叫作为输入自变量,其中esc_nb是先前对同一2元组被解码的逸出符号的数目且以7为界。
一旦值m不是逸出符号“ARITH_ESCAPE”,解码器连续的m形成一“ARITH_STOP”符号。如果条件(esc_nb>0&和m=0)为真,”ARITH_STOP”被检出且解码程序被结束。解码器直接跳到下文描述的地对被然后描述的符号解码。该情况意指音帧的其余部分由零值组成。
如果未遇见“ARITH_STOP”符号,若目前的2元组存在剩余的位平面则接着被解码。剩余的位平面通过称呼叫函数“arith_decode[]”lev多次从最高有效到最低有效水平被解码。解码的位巷平面r允许根据一算法精化先前解码值a、b,该算法的一虚拟程序代码示出在图23中。
此时,2元组(a﹐b)的无符号值被完全解码。其被储存在保持频谱系数的数组“x_ac_dec[]”中,如图24的虚拟程序代码所示。
上下文q也对下一2元组更新。应指出者,此一上下文更新也可对最后的2元组更新。上下文更新是由函数“artih update context[]”完成,该函数的一虚拟程序代码示于图25中。
音帧的下一2元组接着以1增量i且重做上述的相同程序而被解码。尤其,上下文的频率比例缩放可能被执行,且上述程序接着可以从函数“arith_get_context[]”重新开始。当lg/2元组在音帧内被解码或者当停止符号“ARITH_STOP”出现时,频谱振幅的解码程序终止且记号的解码开始。
一旦所有的无符号量化频谱系数被解码,相符的记号被加上。对于“x_ac_dec”的每一非零量化值,一位被读取。如果读取位等于一,量化值为正,无任何措施被采取且含符号值等于先前解码的无符号值。否则,解码系数为负,且二的补码取自于无符号值。正负号位从低值被读取到高频。
解码法通过呼叫函数“arith_finish[]”被完成,该函数的一虚拟程序代码示于图26。剩余的频谱系数设成零值。各别的上下文状态对应地被更新。
概括上述,频谱值的一基于上下文(或者依赖上下文)解码被执行,其中个别的频谱值可被解码,或其中频谱值可按元组解码(如上文所说明)。如本文中所讨论者,上下文可以是频率比例缩放的,以便在基本频率(或,相等地,音高)时间变化的情况下获得一良好的编码/解码性能。
11.依据图27a至图27f的音频流
在下文中,一音频流将被描述成包含一或更多音频信号信道以及一或更多时间扭曲轮廓的编码表示。下文中所描述的音频流例如可传送编码音频信号表示112或编码音频信号表示152。
图27a示出所谓“USAC_raw_data_block”数据流元素的一图标,可能包含一信号信道元素(SCE)、一信道对组件(CPE)或一或更多单一信道元素及/或一或更多的信道对元素的组合。
“USAC_raw_data_block”典型地可包含一编码音频数据区块。虽然另外的时间扭曲轮廓信息时可被提供成一分开的数据流元素。然而,将一些时间扭曲轮廓数据编码成“USAC原数据区块”自然也是可能的。
如同可从图27b看到,一单一信道元素典型地包含一频域通道流(“fd_channel_stream”),将被详细地参照图27d解释。
如同可从图27c看到,一信道对组件(“channel_pair_element”)典型地包含多个频域通道流。同时,信道对元素可包含时间扭曲信息,像是例如一时间扭曲启动旗标(“tw_MDCT”),可在一配置数据流元素或在“USAC_raw_data_block”中被传输,且其确定是否时间扭曲信息被包含在信道对元素之中。举例而言,如果“tw_MDCT”旗标指出时间扭曲是现用的,信道对元素可包含一旗标(“common_tw”),指示是否对于信道对元素的音频信道有一共同时间扭曲。如果该旗标(“common_tw”)指示对于多数音频通道有一共同的时间扭曲,则一共同时间扭曲信息(“tw_data”)被包括在信道对组件中,例如与频域通道流分开。
现在参考图27d,频域通道流被描述。如同由图27d可见,频域通道流,举例而言,包含一总体增益信息。同时,如果时间扭曲是现用的(旗标“tw_MDCT”现用)且如果多个音频信号没有共同的时间扭曲信息(旗标“common_tw”停用),则频域信道流包含时间扭曲数据。
此外,一频频域通道流也包含比例缩放因子数据(“scale_factor_data”)及编码频谱数据(例如,算术编码频谱数据“ac_spectral_data”)
现在参考图27e,时间扭曲数据的语法被简略地讨论。时间扭曲数据例如可任由选择地包含旗标(举例而言,“tw_data_present”或者“active_pitch_data)指示时间扭曲数据是否存在。如果时间扭曲数据存在(即,时间扭曲轮廓非平坦),时间扭曲数据可能包含多个编码时间扭曲比值(例如,“tw_ratio[i]”或者“pitch_Idx[i]”)的序列,该序列,举例而言,可如上述讨论根据依赖取样率的码簿表被编码。
因此,时间扭曲数据可能包含一指示没有时间扭数据可利用的旗标,可能以一音音频信号编码器设定,如果时间扭曲轮廓是恒定的(时间扭曲比率大约等于1.000)。相对照地,如果时间扭曲轮廓是变化的,后续时间扭曲轮廓节点之间的比率可使用码簿索引被编码,组成“tw_ratio”信息。
图27f示出算术编码频谱数据“ac_spectral_data()”的语法的一图标。算术编码频谱数据依赖一独立旗标(此处为:“indepFlag”)编码,该旗标如果为现用表示算术编码数据与先前音帧的算术编码数据无关。如果独立旗标“indepFlag”是现用的,一算术重设旗标“arith_reset_flag”被设定成现用。否则,算术重设旗标的值是由算术编码频谱数据中的一位确定。
此外,算术编码频谱数据区块“ac_spectial_data()”包含一或更多个单元的算术编码数据,其中算术编码数据的单元数目“arith_data()”取决于现行音帧中的区块(或窗)的数目。在一长区块模式中,每音帧只有一窗。然而,在一短区块模式中,举例而言,每音帧可能有八个窗。每一单元的算术编码频谱数据“arith_data”包含一组频谱系数,其可供作为一举例而言通过一反转换180e执行的频域对时域转换的输入。
每单位算术编码数据“arith_data”的频谱系数的数目,举例而言,独立于取样频率,但是可依赖区块长度模式(短区块模式“EIGHT_SHORT_SEQUENCE”或长的区块模式“ONLY_LONG_SEQUENCE”)。
12.结论
概括上述,有关时间扭曲修正型离散余弦转换方面的改进已经被讨论。本文以一时间扭曲修正型离散转换编码器(举例而言参考文献[1]和[2])的背景描述发明且包含一用于性能改善的扭曲MDCT转换编码器的方法。此一时间扭曲修正型离散余弦转换编码器的一种实施在进行中MPEG USAC音频编码标准化工作(举例而言参见参考文献[3])中被实现。所使用的TW-MDCT实施细节例如可在参考文献[4]中找到。
然而,对于所提到概念的改良是在本文中被提出。
13.实施替代选择
虽然某些层面已在一装置背景中被描述,清楚的是这些层面也代表对应方法的描述,其中一方块或装置对应于一方法步骤或一方法步骤的特征。类似地,在一方法步骤上下文中所描述的层面也代表一对应方块或项目或一对应装置的特征的描述。方法步骤的一些或全部可通过(或使用)一硬件装置执行,像是例如一微处理机、一可程序计算机或一电子电路。在一些实施例中,最重要的方法步骤中的某一或一者以上可通过此种装置执行。
本发明的编码音频可被储存在一数字储存媒体中,或可在一传输媒体诸如一无线传输媒体或一有线传输媒体,诸如因特网上被传输。
视特定实施需求而定,本发明的实施例能在硬件或软件中被实施。实施可利用一数字储存媒体被执行,举例而言,一软式磁盘、一数字影像光盘、一光盘、一只读存储器、一可程序只读存储器、一可抹除程序化只读存储器,或者闪存,其上储存有电子可读控制信号,其与一可程序的计算机系统合作(或能够合作)以使得各别的方法被执行。因此,数字储存媒体可为计算机可读的。
依据本发明的一些实施例包含一具有电子可读控制信号的数据载体,该控制信号能够与一可程序的计算机系统合作,使得本文中所描述的诸方法中的一者被执行。
通常,本发明的实施例可被实施成一具有程序代码的计算机程序产品,程序代码在计算机程序于一计算机上执行时可操作内来执行诸方法中的一者。程序代码例如可被储存在一机器可读的载体上。
其它的实施例包含执行本文所描述的诸方法之一的计算机程序,储存在一机器可读的载体上。
换句话说,本发明方法的一实施例因此是一具有程序代码的计算机程序,当计算机程序在一计算机上执行时该程序代码用来实施本文所述的诸方式中之一。
本发明方法的又一实施例因此是一数据载体(或一数字储存介体,或一计算机可读媒体)包含被储存于其上可供执行本文所描述的诸方法之一的计算机程序。该数据载体、数字储存媒体或被记录的媒体典型地是实体及非瞬时的。
本发明方法的另一实施例因此是一数据流或一代表用来执行本文所描述衣诸方法之一的计算机程序的信号序列。数据流或信号序列例如可配置成经由一数据通讯连接,例如经由因特网被转移。
另一实施例包含一处理设备,例如一计算机、或一可程序的逻辑装置,该逻辑装置被配置或适应为执行本文所描述的诸方法中之一。
又一实施例包含其上安装有用于执行本文描述的诸方法之一的计算机程序的计算机。
根据本发明的另一实施例包含配置成配置成传送(举例而言,电子地或者光学地)将一用以执行本文中所描述诸方法中之一的计算机程序到一接收器的一装置或一系统。该接收器,举例而言,可以是一计算机、一行动装置、一内存装置等等。装置或系统例如可包含一将计算机程序传送至接收器的档案服务器。
在一些实施例中,一可程序逻辑装置(例如现场可程序逻辑门阵列)可被使用来执行本文描述方法的一些或全部功能。在一些实施例中,一现场可程序逻辑门阵列可与一微处理器合作俾执行本文所描述的诸方法之一。通常,方法最好由任一硬件装置执行。
上述的实施例仅供说明本发明的原理。可以了解本文所述的配置及细节的修改与变化对于熟习此技艺者是显而易见的。因此仅意图被随后的专利申请范围所限制,而不受本文中的实施例描述与说明提出的特定细节所限。
参考文献
[1]Bernd Edler et.al.,“Time Warped MDCT”,US61/042,314,Provisional application for patent,
[2]L.Villemoes,“Time Warped Transform Coding of Audio Signals”,
PCT/EP2006/010246,International.patent application,November2005.
[3]“WD6of USAC”,ISO/IEC JTC1/SC29/WG11N11213,2010
[4]Bernd Edler et.al.,“A Time-Warped MDCT Approach to SpeechTransform Coding”,126th AES Convention,Munich,May2009,preprint7710
[5]Nikolaus Meine,“Vektorquantisierung undarithmetische Codierung für MPEG-4AAC”,VDI,Hannover,2007
Claims (16)
1.一种音频信号解码器,用于根据包含一编码频谱表示及一编码时间扭曲信息的一编码音频信号表示提供一解码音频信号表示,该音频信号解码器包含:
一基于上下文的频谱值解码器,其配置成依赖一上下文状态解码一描述一或更多频谱值或一或更多频谱值的一数字表示的至少一部分的码字,以便获得解码频谱值;
一上下文状态决定器,配置成依赖一或更多先前解码频谱值决定一现行上下文状态;
一时间扭曲频域对时域转换器,配置成根据一组与特定音帧相关联且由基于上下文的频谱值解码器所提供的解码频谱值并依赖该时间扭曲信息提供一特定音帧的时间扭曲时域表示;
其中该上下文状态决定器配置成使该上下文状态的决定适应后续音帧之间的一基本频率改变。
2.根据权利要求1所述的音频信号解码器,其中该时间扭曲信息描述一音高随时间的变化;且
其中该上下文状态决定器配置成从该时间扭曲信息导出一频率伸展信息;以及
其中上下文状态决定器配置成依赖频率伸展信息沿频率轴伸展或压缩与先前音帧关联的一前上下文,以获得一适应上下文用于一现行音帧的一或更多频谱值的基于上下文解码。
3.根据权利要求2所述的音频信号解码器,其中该上下文状态决定器配置成从时间扭曲信息导出一第一音帧上的第一平均频率信息,且从时间扭曲信息导出一接在第一音帧之后的第二音帧上的第二平均频率信息;且
其中该上下文状态决定器配置成计算第二音帧上的第二平均频率信息与第一音帧上的第一平均频率信息间的一比率,用以决定频率伸展信息。
4.根据权利要求2所述的音频信号解码器,其中该上下文状态决定器是配置成从该时间扭曲信息决定一第一音帧上的第一平均时间扭曲轮廓信息,且
其中该上下文状态决定器配置成从时间扭曲信息导出一接在该第一音帧之后的第二音帧上的第二平均时间扭曲轮廓信息,以及
其中该上下文状态决定器配置成计算第一音帧上的第一平均时间扭曲轮廓信息与第二音帧上的第二平均时间扭曲轮廓信息之间的一比率,用以确定频率伸展信息。
5.根据权利要求3所述的音频信号解码器,其中该上下文状态决定器配置成从延伸在多个连续音帧上的一共同时间扭曲轮廓信息导出第一和第二平均频率信息或者第一和第二平均时间扭曲轮廓信息。
6.根据权利要求3所述的音频信号解码器,其中该音频信号解码器包含一配置成计算一时间扭曲轮廓信息的时间扭曲计算器,该时间扭曲轮廓信息根据时间扭曲信息描述多个连续音帧上的一相对音高的时间演变,且
其中该上下文状态决定器配置成使用该时间扭曲轮廓信息导出频率伸展信息。
7.根据权利要求6所述的音频信号解码器,其中该音频信号解码器包含一重取样位置计算器,
其中该重取样位置计算器配置成根据时间扭曲轮廓信息计算可供时间扭曲重取样器使用的重取样位置,以使重取样位置的时间变化由该时间扭曲轮廓信息决定。
8.根据权利要求1所述的音频信号解码器,其中该上下文状态决定器配置成导出一数字现行上下文值,该数字现行上下文值依赖多个先前解码频谱值描述上下文状态,且依赖该数字现行上下文值选择一映射规则,该映射规则描述一码值在一表示一或更多频谱值、或一或更多频谱值的一数字表示的一部分的符号码上的映射,
其中该基于上下文的频谱值解码器配置成使用由该上下文状态决定器选择的映射规则解码该描述一或更多频谱值、或一或更多频谱值的数字表示的至少一部分的码值。
9.根据权利要求8所述的音频信号解码器,其中该上下文状态决定器配置成建立且更新一初步上下文内存结构,以使初步上下文内存结构的项目描述第一音帧的一或更多频谱值,其中该初步上下文内存结构的项目的项目索引表示各别项目所关联的频域对时域转换器的一频率点或一组相邻频率点;
其中该上下文状态决定器配置成获得一频率比例缩放上下文内存结构,用于根据初步上下文内存结构解码一接在该第一音帧之后的第二音帧,以使得一具有第一频率索引的初步上下文内存结构的一特定项目或一子项目被映射至具有第二频率索引的频率比例缩放上下文内存结构的一对应项目或子项目之上,其中该第二频率索引与频域对时域转换器的不同于该第一频率索引所关联者的一频率点或一组相邻频率点相关联。
10.根据权利要求9所述的音频信号解码器,其中该上下文状态决定器配置成导出一描述现行上下文状态的上下文状态值用于解码一码字,该码字描述已使用频率比例缩放上下文内存结构的值与一第三频率索引相关联的第二音帧的一或更多频谱值,或第二音帧的一或更多频谱值的一数字表示的至少一部分,频率比例缩放上下文内存结构的值的频率索引与该第三频率索引是成一预定关系,
其中该第三频率索引指定该频域对时域转换器的一频率点或一组相邻频率点,欲使用现行上下文状态被解码的第二音帧的一或更多频谱值与该一频率点或一组相邻频率点相关联。
11.根据权利要求9所述的音频信号解码器,其中该上下文状态决定器配置成将具有一对应目标频率索引的频率比例缩放上下文内存结构的多个项目的每一项目设定成具有一对应来源频率索引的初步上下文内存结构的一对应项目的一值,
其中该上下文状态决定器配置成决定该频率比例缩放上下文内存结构的一项目和初步上下文内存结构的一对应项目的对应频率索引,以使得该对应频率索引之间的一比率是由一初步上下文内存结构的项目所关联的现行音帧,以及解码上下文由该频率比例缩放上下文内存结构的项目决定的后续音帧之间的基本频率改变决定。
12.根据权利要求9所述的音频信号解码器,其中该上下文状态决定器配置成建立初步上下文内存结构以使得初步上下文内存结构的多个项目的每一项目是以一第一音帧的多个频谱值为基础,其中该初步上下文内存结构的项目的项目索引指示各项目所关联的频域对时域转换器的一组相邻频率点;
其中该上下文状态决定器配置成从初步上下文内存结构的项目提取具有关联的个别频率点索引的初步频率点个别上下文值;
其中该上下文状态决定器配置成获得具有关联的个别频率点索引的频率比例缩放频率点个别上下文值,以使得具有一第一频率点索引的特定初步频率点个别上下文值被映射至具有一第二频率点索引的对应频率比例缩放频率点个别上下文值,使得该初步频率点个别上下文值的一频率点个别映射被获得;且
其中上下文状态决定器配置成将多个频率比例缩放频率点个别上下文值组合成为频率比例缩放上下文内存结构的一组合项目。
13.一种用以提供包括一编码频谱表示与一编码时间扭曲信息的输入音频信号的编码表示的音频信号编码器,该音频信号编码器包含:
一频域表示提供者,配置成依据该时间扭曲信息提供代表输入音频信号的一时间扭曲版本的一频域表示;
一基于上下文的频谱值编码器,配置成依赖一上下文状态提供描述该频域表示的一或更多频谱值、或该频域表示的一或更多频谱值的一数字表示的至少一部分的一码字,以获得该编码频谱表示的编码频谱值;以及
一上下文状态决定器,配置成依赖一或更多先前编码的频谱值决定一现行的上下文状态,其中该上下文状态决定器配置成使该上下文状态的决定适应后续音帧之间的一基本频率改变。
14.根据权利要求13所述的音频信号编码器,其中该上下文状态决定器配置成依赖多个先前编码频谱值导出一数字现行上下文值,且依赖该数字现行上下文值选择一描述一或更多频谱、或一或更多频谱值的一数字表示的一部分映射至一码值上的一映射规则,
其中该基于上下文的频谱值编码器配置成使用由该上下文状态决定器选择的映射规则提供该描述一或更多频谱值、或一或更多频谱值的一数字表示的至少一部分的码值。
15.一种根据包括一编码频谱表示与一编码时间扭曲信息的一编码音频信号表示提供一解码音频信号表示的方法,该方法包含:
依赖一上下文状态解码一描述一或更多频谱值、或一或更多频谱值的一数字表示的至少一部分的码字,以便获得解码频谱值;
依赖一或更多个先前解码的频谱值决定一现行上下文状态;
根据一组与特定音帧相关联且由基于上下文频谱值解码器提供的解码频谱值并依赖该时间扭曲信息提供该特定音帧的一时间扭曲时域表示;
其中该上下文状态的决定被适应于后续音帧之间的一基本频率改变。
16.一种用于提供包括一编码频谱表示与一编码时间扭曲信息的一输入音频信号的编码表示的方法,该方法包含:
依据时间扭曲信息提供一表示该输入音频信号的时间扭曲版本的频域表示;
依赖一上下文状态提供一描述该频域表示的一或更多频谱值、或该频域表示的一或更多频谱值的一数字表示的至少一部分的码字,以便获得该编码频谱表示的编码频谱值;以及
依赖一或更多先前编码频谱值决定一现行上下文状态,
其中该上下文状态的决定被适应于后续音帧之间的一基本频率改变。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US31250310P | 2010-03-10 | 2010-03-10 | |
US61/312,503 | 2010-03-10 | ||
PCT/EP2011/053541 WO2011110594A1 (en) | 2010-03-10 | 2011-03-09 | Audio signal decoder, audio signal encoder, method for decoding an audio signal, method for encoding an audio signal and computer program using a pitch-dependent adaptation of a coding context |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102884572A CN102884572A (zh) | 2013-01-16 |
CN102884572B true CN102884572B (zh) | 2015-06-17 |
Family
ID=43829343
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180021269.2A Active CN102884572B (zh) | 2010-03-10 | 2011-03-09 | 音频信号解码器、音频信号编码器、用以将音频信号解码的方法、及用以将音频信号编码的方法 |
CN201180023298.2A Active CN102884573B (zh) | 2010-03-10 | 2011-03-09 | 使用取样率依赖时间扭曲轮廓编码的音频信号解码器、音频信号编码器及方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180023298.2A Active CN102884573B (zh) | 2010-03-10 | 2011-03-09 | 使用取样率依赖时间扭曲轮廓编码的音频信号解码器、音频信号编码器及方法 |
Country Status (16)
Country | Link |
---|---|
US (2) | US9129597B2 (zh) |
EP (2) | EP2539893B1 (zh) |
JP (2) | JP5625076B2 (zh) |
KR (2) | KR101445296B1 (zh) |
CN (2) | CN102884572B (zh) |
AR (2) | AR080396A1 (zh) |
AU (2) | AU2011226143B9 (zh) |
BR (2) | BR112012022744B1 (zh) |
CA (2) | CA2792500C (zh) |
ES (2) | ES2461183T3 (zh) |
HK (2) | HK1179743A1 (zh) |
MX (2) | MX2012010439A (zh) |
PL (2) | PL2539893T3 (zh) |
RU (2) | RU2607264C2 (zh) |
TW (2) | TWI455113B (zh) |
WO (2) | WO2011110591A1 (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2083418A1 (en) * | 2008-01-24 | 2009-07-29 | Deutsche Thomson OHG | Method and Apparatus for determining and using the sampling frequency for decoding watermark information embedded in a received signal sampled with an original sampling frequency at encoder side |
US8924222B2 (en) | 2010-07-30 | 2014-12-30 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coding of harmonic signals |
US9208792B2 (en) | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
CN103035249B (zh) * | 2012-11-14 | 2015-04-08 | 北京理工大学 | 一种基于时频平面上下文的音频算术编码方法 |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US9716959B2 (en) | 2013-05-29 | 2017-07-25 | Qualcomm Incorporated | Compensating for error in decomposed representations of sound fields |
MX355850B (es) | 2013-06-21 | 2018-05-02 | Fraunhofer Ges Forschung | Escalador de tiempo, decodificador de audio, metodo y programa de computadora usando un control de calidad. |
CA2964362C (en) | 2013-06-21 | 2020-03-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Jitter buffer control, audio decoder, method and computer program |
ES2638201T3 (es) | 2013-10-18 | 2017-10-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Codificación de las posiciones de los picos espectrales |
PT3058566T (pt) * | 2013-10-18 | 2018-03-01 | Fraunhofer Ges Forschung | Codificação de coeficientes espectrais de um espectro de um sinal de áudio |
FR3015754A1 (fr) * | 2013-12-20 | 2015-06-26 | Orange | Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame |
US9502045B2 (en) | 2014-01-30 | 2016-11-22 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
CN110619884B (zh) * | 2014-03-14 | 2023-03-07 | 瑞典爱立信有限公司 | 音频编码方法和装置 |
US10770087B2 (en) * | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
WO2016142002A1 (en) * | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
CN105070292B (zh) * | 2015-07-10 | 2018-11-16 | 珠海市杰理科技股份有限公司 | 音频文件数据重排序的方法和系统 |
CN117238300A (zh) * | 2016-01-22 | 2023-12-15 | 弗劳恩霍夫应用研究促进协会 | 使用帧控制同步来编码或解码多声道音频信号的装置和方法 |
EP3306609A1 (en) * | 2016-10-04 | 2018-04-11 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for determining a pitch information |
JP7123134B2 (ja) * | 2017-10-27 | 2022-08-22 | フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. | デコーダにおけるノイズ減衰 |
US20210192681A1 (en) * | 2019-12-18 | 2021-06-24 | Ati Technologies Ulc | Frame reprojection for virtual reality and augmented reality |
US11776562B2 (en) * | 2020-05-29 | 2023-10-03 | Qualcomm Incorporated | Context-aware hardware-based voice activity detection |
AU2021359779A1 (en) * | 2020-10-13 | 2023-06-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding a plurality of audio objects and apparatus and method for decoding using two or more relevant audio objects |
CN114488105B (zh) * | 2022-04-15 | 2022-08-23 | 四川锐明智通科技有限公司 | 一种基于运动特征及方向模板滤波的雷达目标检测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101325060A (zh) * | 2007-06-14 | 2008-12-17 | 汤姆逊许可公司 | 频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7272556B1 (en) | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
JP4196235B2 (ja) * | 1999-01-19 | 2008-12-17 | ソニー株式会社 | オーディオデータ処理装置 |
KR20010072035A (ko) * | 1999-05-26 | 2001-07-31 | 요트.게.아. 롤페즈 | 오디오 신호 송신 시스템 |
US6581032B1 (en) * | 1999-09-22 | 2003-06-17 | Conexant Systems, Inc. | Bitstream protocol for transmission of encoded voice signals |
CA2365203A1 (en) * | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
US20040098255A1 (en) * | 2002-11-14 | 2004-05-20 | France Telecom | Generalized analysis-by-synthesis speech coding method, and coder implementing such method |
US7394833B2 (en) * | 2003-02-11 | 2008-07-01 | Nokia Corporation | Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification |
JP4364544B2 (ja) * | 2003-04-09 | 2009-11-18 | 株式会社神戸製鋼所 | 音声信号処理装置及びその方法 |
CN101167125B (zh) * | 2005-03-11 | 2012-02-29 | 高通股份有限公司 | 用于对声码器内的帧进行相位匹配的方法及设备 |
AU2006232361B2 (en) * | 2005-04-01 | 2010-12-23 | Qualcomm Incorporated | Methods and apparatus for encoding and decoding an highband portion of a speech signal |
US7720677B2 (en) | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
DE602007004502D1 (de) | 2006-08-15 | 2010-03-11 | Broadcom Corp | Neuphasierung des status eines dekodiergerätes nach einem paketverlust |
CN101361112B (zh) * | 2006-08-15 | 2012-02-15 | 美国博通公司 | 隐藏丢包后解码器状态的更新 |
US8239190B2 (en) * | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
EP2107556A1 (en) * | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
CN102150201B (zh) | 2008-07-11 | 2013-04-17 | 弗劳恩霍夫应用研究促进协会 | 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码 |
MY154452A (en) | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
AU2009267543B2 (en) * | 2008-07-11 | 2013-01-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder and audio decoder |
US8600737B2 (en) | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
-
2011
- 2011-03-09 CA CA2792500A patent/CA2792500C/en active Active
- 2011-03-09 JP JP2012556506A patent/JP5625076B2/ja active Active
- 2011-03-09 RU RU2012143323A patent/RU2607264C2/ru not_active Application Discontinuation
- 2011-03-09 MX MX2012010439A patent/MX2012010439A/es active IP Right Grant
- 2011-03-09 JP JP2012556505A patent/JP5456914B2/ja active Active
- 2011-03-09 RU RU2012143340/08A patent/RU2586848C2/ru active
- 2011-03-09 PL PL11707415T patent/PL2539893T3/pl unknown
- 2011-03-09 MX MX2012010469A patent/MX2012010469A/es active IP Right Grant
- 2011-03-09 ES ES11707415T patent/ES2461183T3/es active Active
- 2011-03-09 PL PL11707665T patent/PL2532001T3/pl unknown
- 2011-03-09 BR BR112012022744-0A patent/BR112012022744B1/pt active IP Right Grant
- 2011-03-09 BR BR112012022741-6A patent/BR112012022741B1/pt active IP Right Grant
- 2011-03-09 KR KR1020127026462A patent/KR101445296B1/ko active IP Right Grant
- 2011-03-09 AU AU2011226143A patent/AU2011226143B9/en active Active
- 2011-03-09 TW TW100107904A patent/TWI455113B/zh active
- 2011-03-09 ES ES11707665T patent/ES2458354T3/es active Active
- 2011-03-09 CN CN201180021269.2A patent/CN102884572B/zh active Active
- 2011-03-09 EP EP20110707415 patent/EP2539893B1/en active Active
- 2011-03-09 TW TW100107905A patent/TWI441170B/zh active
- 2011-03-09 CA CA2792504A patent/CA2792504C/en active Active
- 2011-03-09 CN CN201180023298.2A patent/CN102884573B/zh active Active
- 2011-03-09 WO PCT/EP2011/053538 patent/WO2011110591A1/en active Application Filing
- 2011-03-09 EP EP20110707665 patent/EP2532001B1/en active Active
- 2011-03-09 KR KR1020127026461A patent/KR101445294B1/ko active IP Right Grant
- 2011-03-09 WO PCT/EP2011/053541 patent/WO2011110594A1/en active Application Filing
- 2011-03-09 AU AU2011226140A patent/AU2011226140B2/en active Active
- 2011-03-10 AR ARP110100746 patent/AR080396A1/es active IP Right Grant
- 2011-03-10 AR ARP110100748 patent/AR084465A1/es active IP Right Grant
-
2012
- 2012-09-06 US US13/604,869 patent/US9129597B2/en active Active
- 2012-09-10 US US13/608,980 patent/US9524726B2/en active Active
-
2013
- 2013-06-08 HK HK13106813.7A patent/HK1179743A1/zh unknown
- 2013-06-26 HK HK13107466.5A patent/HK1181540A1/zh unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101325060A (zh) * | 2007-06-14 | 2008-12-17 | 汤姆逊许可公司 | 频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备 |
Non-Patent Citations (2)
Title |
---|
A WARPED TIME-FREQUENCY EXPANSION FOR SPEECH SIGNAL REPRESENTATION;Peter L. Silsbee et al.;《Proceedings of the IEEE-SP International Symposium on Time-Frequency and Time-Scale Analysis, 1994.》;19941028;636-639 * |
Adaptive chirp-based time–frequency analysis of speech signals;Maria´n Ke´pesi et al.;《Speech Communication》;20060531;第48卷(第5期);474-492 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102884572B (zh) | 音频信号解码器、音频信号编码器、用以将音频信号解码的方法、及用以将音频信号编码的方法 | |
US20240096336A1 (en) | Decoder for Decoding an Encoded Audio Signal and Encoder for Encoding an Audio Signal | |
KR100958144B1 (ko) | 오디오 압축 | |
JP2020190751A (ja) | オーディオ信号のスペクトルのスペクトル係数のコード化 | |
CN105210149A (zh) | 用于音频信号解码或编码的时域电平调整 | |
EP3217398B1 (en) | Advanced quantizer | |
CN101878504A (zh) | 使用时间分辨率能选择的低复杂性频谱分析/合成 | |
KR20120074310A (ko) | 오디오 인코더, 오디오 디코더, 오디오 정보를 인코딩하는 방법, 오디오 정보를 디코딩하는 방법 및 이전의 디코딩된 스펙트럼 값의 그룹의 검출을 이용한 컴퓨터 프로그램 | |
US11848021B2 (en) | Periodic-combined-envelope-sequence generation device, periodic-combined-envelope-sequence generation method, periodic-combined-envelope-sequence generation program and recording medium | |
CN101425294A (zh) | 声音编解码与发送接收设备及编码方法、通信终端和基站 | |
JP6979048B2 (ja) | 低複雑度の調性適応音声信号量子化 | |
CN117253496A (zh) | 用于对音频信号进行编码的音频编码器以及方法 | |
CN103918028B (zh) | 基于自回归系数的有效表示的音频编码/解码 | |
US9373337B2 (en) | Reconstruction of a high-frequency range in low-bitrate audio coding using predictive pattern analysis | |
KR101387808B1 (ko) | 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치 | |
CN110291583B (zh) | 用于音频编解码器中的长期预测的系统和方法 | |
TW202209303A (zh) | 音頻量化器和音頻去量化器及相關方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP01 | Change in the name or title of a patent holder |
Address after: Munich, Germany Patentee after: Fraunhofer Application and Research Promotion Association Patentee after: Dolby Int AB Address before: Munich, Germany Patentee before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Patentee before: Dolby Int AB |