CN102177543A - 音频解码器、音频编码器、用于解码音频信号的方法、用于编码音频信号的方法、计算机程序及音频信号 - Google Patents
音频解码器、音频编码器、用于解码音频信号的方法、用于编码音频信号的方法、计算机程序及音频信号 Download PDFInfo
- Publication number
- CN102177543A CN102177543A CN2009801402269A CN200980140226A CN102177543A CN 102177543 A CN102177543 A CN 102177543A CN 2009801402269 A CN2009801402269 A CN 2009801402269A CN 200980140226 A CN200980140226 A CN 200980140226A CN 102177543 A CN102177543 A CN 102177543A
- Authority
- CN
- China
- Prior art keywords
- audio
- context
- information
- replacement
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Abstract
一种用于基于经熵编码的音频信息提供已解码的音频信息的音频解码器,包括基于上下文的熵解码器,所述基于上下文的熵解码器配置为依据上下文解码该经熵编码的音频信息,所述上下文基于在非重置操作状态下先前已解码的音频信息。所述基于上下文的熵解码器配置为依据所述上下文选择映射信息,用于从所述已编码的音频信息推导出所述已解码的音频信息。所述基于上下文的熵解码器包括上下文重置器,所述上下文重置器配置为重置用于选择映射信息的所述上下文至默认上下文,所述默认上下文独立于所述先前已解码的音频信息。
Description
技术领域
根据本发明的实施例涉及音频解码器、音频编码器、用于解码音频信号的方法、用于编码音频信号的方法及相应的计算机程序。一些实施例涉及音频信号。
根据本发明的一些实施例涉及音频编码/解码概念,其中边信息用于重置熵编码/解码的上下文。
一些实施例涉及算术编码器的重置的控制。
背景技术
传统音频编码概念包括熵编码方案(例如用于编码频域信号表示的频谱系数)以便减少冗余。典型地,熵编码被应用于基于频域的编码方案的量化的频谱系数或用于基于时域的编码方案的量化的时域样本。这些熵编码方案典型地使用传输码字与相对应的码本索引的结合,码本索引允许解码器查询码本某一页,用于解码该码本页上与所传输的码字相对应的已编码的信息字。
有关此种音频编码概念的细节,例如参考国际标准ISO/IEC 14496-3:2005(E),第三部分:音频,第四部分:一般音频编码(GA)-AAC,Twin VQ,BSAC,其中描述了所谓的用于“熵/编码”的概念。
然而已发现由于需要进行对详细码本选择信息(例如sect_cb)的常规传输,产生位率的显著开销(overhead)。
因此,本发明的目的为创造位率有效概念,该位率有效概念用于将熵解码的映射规则自适应于信号统计。
发明内容
通过根据权利要求1的音频解码器、根据权利要求12的音频编码器、根据权利要求11的用于解码音频信号的方法、根据权利要求16的用于编码音频信号的方法、根据权利要求17的计算机程序及根据权利要求18的已编码的音频信号可实现本目的。
根据本发明的实施例提出了一种音频解码器,该音频解码器用于基于已编码的音频信息提供已解码的音频信息。该音频解码器包括基于上下文的熵解码器,所述基于上下文的熵解码器配置为依据上下文解码该经熵编码的音频信息,该上下文基于在非重置操作状态下先前已解码的音频信息。该熵解码器配置为选定映射信息(例如累积频率表或霍夫曼码本),用于依据该上下文从该已编码的音频信息推导出已解码的音频信息。此外,该基于上下文的熵解码器也包括上下文重置器,所述上下文重置器配置为响应于该已编码的音频信息的边信息重置用于选择映射信息的上下文至默认上下文,所述默认上下文独立于所述先前已解码的音频信息。
本实施例基于这样的发现:在多种情况下对于推导出上下文,该实施例是位率有效的,该上下文依据基于先前已解码的音频信息项目的上下文决定经熵编码的音频信息对已解码的音频信息的映射(例如通过检查码本,或通过确定机率分布),因此可探讨在该经熵编码的音频信息内部的相关性。例如,如果某个频率分辨单元包括在该第一音频帧的大强度,则有高机率该相同的频率分辨单元在该第一音频帧后的下一个音频帧再者包括大的强度。因此,显然基于该上下文的映射信息的选择相比较于这样的情况可减少位率,在该情况下传输用于映射信息的选择的详细信息,该映射信息用于从该已编码的音频信息推导出该已解码的音频信息。
然而,也发现从先前已解码的音频信息推导出上下文偶尔导致这样的情况,在该情况下选择的映射信息(用于从该已编码的音频信息推导出该已解码的音频信息)显然不适合,因此导致用于编码该音频信息所需要的位不必要地高。例如如果随后音频帧的频谱能量分布显著不同,使得随后音频帧内部的新的频谱能分布强烈偏离基于先前音频帧内部的频谱分布知识可预期的频谱能分布,则可能发生此种情况。
根据本发明的关键概念,在这样的情况下,其中位率将因不当映射信息的选择(用于从该已编码的音频信息推导出该已解码的音频信息)而显著降级,响应于该已编码的音频信息的边信息重置该上下文,因此实现默认映射信息(与该默认上下文相关联)的选择,而其又导致对该音频信息的编码/解码的中等位消耗。
综上所述,本发明的关键概念为音频信息的位率有效编码可通过结合基于上下文的熵解码器实现,该熵解码器通常(在非重置操作状态下)使用先前已编码的音频信息用于推导出上下文及用于选择相对应的映射信息,该熵解码器具有基于边信息的重置机构,用于重置该上下文,由于此种概念为了维持适当解码上下文只需极少努力,因此在正常情况下(当该音频内容符合用于映射规则的基于上下文选择的设计预期时),此种概念很好地适应于该音频内容,以及在异常情况下(当该音频内容强烈偏离预期时)可避免位率的过度增高。
在优选实施例中,该上下文重置器配置为在具有相同频谱分辨率(例如频率分辨单元数目)的相关联频谱数据的随后时部(例如音频帧)之间变化时选择性重置该基于上下文的熵解码器。本实施例基于这样的发现,即使频谱分辨率维持不变,上下文的重置可具有有利效果(就减少所需位率而言)。换句话说,由于发现即使无需改变频谱分辨率(例如经由从每个帧的“长窗口”切换成每个帧多个“短窗口”),上下文仍然可能不当,因此发现与频谱分辨率的变化独立,执行上下文的重置是可能的。换句话说,发现即使在不希望从低时间分辨率(例如长窗口,结合高频谱分辨率)改变为高时间分辨率(例如短窗口,结合低频谱分辨率)的情况下,上下文可能不当(导致需要重置该上下文)。
在优选实施例中,该音频解码器配置为接收描述在第一音频帧及于该第一音频帧后的第二音频帧中的频谱值的信息作为该已编码的音频信息。在此种情况下,该音频解码器优选包括频域至时域变换器,该频域至时域变换器用于重迭与相加第一窗口化时域信号和第二窗口化时域信号,该第一窗口化时域信号基于该第一音频帧的频谱值,该第二窗口化时域信号基于该第二音频帧的频谱值。该音频解码器用于分开调整用于获得该第一窗口化时域信号的窗口的窗口形状及用于获得该第二窗口化时域信号的窗口的窗口形状。音频解码器优选还配置为响应于该边信息,执行在第一音频帧的频谱值解码与第二音频帧的频谱值解码之间的上下文的重置,即使第二窗口形状与第一窗口形状相同亦如此,使得在重置情况下,用于解码第二音频帧的已编码音频信息的上下文独立于第一音频帧的已解码音频信息。
本实施例允许在第一音频帧频谱值解码(使用基于上下文所选用的映射信息)与第二音频帧频谱值解码(使用基于上下文选用的映射信息)之间的上下文的重置,即使第一音频帧与第二音频帧的窗口化时域信号为重迭及相加亦如此,以及即使选用相同窗口形状用于从该第一音频帧及第二音频帧的频谱值推导出第一窗口化时域信号及第二窗口化时域信号亦如此。因此,上下文的重置可被引入作为额外自由度,可通过上下文重置器甚至在密切相关音频帧的频谱值的解码之间应用,其窗口化时域信号通过使用相同窗口形状推导出并被重迭与相加。
因此,优选上下文的重置独立于所使用的窗口形状,也独立于随后帧的窗口化时域信号属于邻接的音频内容即为重迭与相加的事实。
在优选实施例中,熵解码器配置为响应于边信息,重置在具有相同频率分辨率的相邻音频信息的帧的音频信息解码之间的上下文。在本实施例中,上下文重置的执行独立于频率分辨率的改变。
在再一个实施例中,音频解码器配置为接收上下文重置边信息,用于以信号传递该上下文的重置。在此种情况下,音频解码器也配置为额外接收窗口形边信息以调整窗口的窗口形状用于独立于执行上下文的重置而获得第一及第二窗口化时间信号。
在优选实施例中,音频解码器配置为接收每个已编码音频信息的音频帧的1位上下文重置标记,作为用于重置该上下文的边信息。在此种情况下,音频解码器优选配置为除了接收上下文重置标记外,接收描述通过已编码音频信息所表示的频谱值的频谱分辨率或时间窗口的窗口长度的边信息,时间窗口用于窗口化通过该已编码音频信息所表示的时域值。上下文重置器配置为在表示相同频谱分辨率的频谱值的两个已编码音频信息的音频帧间的变化处,响应于1位上下文重置标记来执行该上下文的重置。在此种情况下,该1位上下文重置标记典型地导致在随后音频帧的已编码音频信息的解码之间的上下文的单次重置。
在再一个优选实施例中,该音频解码器配置为接收每个已编码音频信息的音频帧的1位上下文重置标记,作为用于重置该上下文的边信息。此外,音频解码器配置为接收每个音频帧包括多组频谱值的已编码音频信息(使得单一音频帧被再划分成为多个子帧,各个子帧可相关联各个短窗口)。在此种情况下,基于上下文的熵解码器配置为依据上下文解码给定音频帧的频谱值的随后集合的经熵解码的音频信息,该上下文基于在非重置操作状态下,该给定音频帧的频谱值的前一个集合的先前已解码的音频信息。然而,该上下文重置器配置为在该给定音频帧的频谱值的第一集合解码之前,以及在该给定音频帧的频谱值的任两个随后集合的解码之间,响应于该1位上下文重置标记,(即如果且仅如果该1位上下文重置标记为激活)来将该上下文重置为该默认上下文,使得该给定音频帧的该1位上下文重置标记的激活在该音频帧频谱值的多个集合解码时引起上下文的多次重置。
本实施例基于这样的发现:对于包括多个“短窗口”对其编码各个频谱值集合的音频帧中的上下文,只执行单次重置,就位率而言典型为无效。反而包括多个频谱值集合的音频帧典型包括音频内容的强力非连续性,使得为了减低位率,建议重置随后多个频谱值集合的各集合之间的上下文。发现此种解决比上下文的一次重置(例如只在帧开始时重置)更有效,且比在该(多个短窗口)帧内部单独以信号传递(例如使用额外1位标记)多次上下文重置更有效。
在优选实施例中,该音频解码器配置为当使用所谓的“短窗口”时也接收群组化边信息(即传输多个频谱值集合,该等频谱值使用比音频帧更短的多个短窗口重迭及相加)。在此种情况下,该音频解码器优选配置为群组化中两个以上频谱值集合,用于依据群组化边信息而与通用比例因子信息结合。在此种情况下,上下文重置器优选用于响应于该1位上下文重置标记,在群组化的频谱值集合的解码之间,将该上下文重置为默认上下文。本实施例基于这样的发现:在某些情况下,群组化序列的频谱值集合的已解码音频值(例如已解码频谱值)有强力变化,即使初始比例因子适用于频谱值的随后集合亦如此。例如,如果随后频谱值集合之间有稳定但又显著的频率变化,则随后频谱值集合的比例因子可相等(例如如果频率变化不超过比例因子带),尽管如此适合于频谱值的不同集合间的变化重置上下文。因此,即使在此种频率变化音频信号变化的存在下,所述实施例允许位率有效编码及解码。此外,此项概念仍然允许在非常相关的频谱值存在下,编码快速体积变化时有良好效能。在此种情况下,通过去激活上下文重置标记可避免上下文的重置,即使不同比例因子可能与随后频谱值集合相关联亦如此(在此种情况下并未群组化,原因在于比例因子相异)。
在再一个实施例中,该音频解码器配置为接收每个已编码音频信号的音频帧1位上下文重置标记,作为重置该上下文的边信息。在此种情况下,该音频解码器也配置为接收已编码音频帧序列作为已编码音频信息,该已编码音频帧序列包括线性预测域音频帧。该线性预测域音频帧包括例如可选择数目的变化编码激励部分用于激励线性预测域音频合成器。该基于上下文的熵解码器配置为依据上下文解码该变换编码激励部分的频谱值,该上下文基于在非重置操作态下的先前已解码音频信息。该上下文重置器配置为在给定音频帧的第一变换编码激励部分的频谱值集合解码之前,响应于该边信息重置该上下文为默认上下文,同时在该给定音频帧(即内部)的不同经变换编码激励部分的频谱值集合的解码之间,忽略该成为该默认上下文的上下文重置。本实施例基于这样的发现:基于上下文的解码与上下文重置的结合在对线性预测域音频合成器编码变换编码激励时获得位率的减少。此外,发现当编码变换编码激励时,用于重置该上下文的时间粒度可选择大于在纯频域编码(例如进阶音频编码型音频编码)的变化(短窗口)存在下重置该上下文的时间粒度。
在再一个优选实施例中,音频解码器配置为接收包括每个音频帧的多个频谱值集合的已编码音频信息。在此种情况下,该音频解码器也优选用于接收群组化边信息。该音频解码器用于依据该群组化边信息,群组化两个或多个频谱信息集合,用于与通用比例因子信息的结合。在该优选实施例中,上下文重置器配置为响应于(即依据)群组化边信息重置该上下文成为默认上下文。该上下文重置器配置为在随后各组频谱值集合的解码之间重置上下文,以及避免在单组(即在组内部)的多个频谱值集合的解码之间重置该上下文。本发明的实施例基于这样的发现:如果频谱值集合的信号具有高度类似性(或由于此项理由而被群组化),则无需使用专用上下文重置边信息。特别发现有多种情况,每当比例因子数据改变,则适合重置上下文(例如在窗口内部从一个频谱值集合变化至另一个频谱值集合时,特别如果频谱值集合未被群组化,或于由一个窗口变化至另一个窗口时)。然而,如果期望关联相同比例因子的两个频谱值集合之间重置上下文,则仍可通过以信号传递新群组的存在而进行重置。这带来再者传输相同比例因子的代价,但如果错失上下文的重置而显著降级编码效率的话则可能为优选。尽管如此,评估群组化边信息用于上下文的重置可能为避免需要传输专用上下文重置边信息,同时仍然允许在适合时上下文的重置的有效概念。在该种情况下,即使使用相同比例因子信息时必须(或应该)重置上下文,但就位率方面付出代价(需要使用额外群组及转发该比例因子信息)而言,该位率代价可通过于其它帧的位率减小加以补偿。
根据本发明的另一个实施例形成基于输入音频信息提供已编码音频信息的音频编码器。该音频编码器包括基于上下文的熵编码器,该基于上下文的熵编码器配置为依据上下文编码该输入音频信息的给定音频信息,该上下文基于在非重置操作状态下,时间上或空间上相邻于该给定音频信息的相邻的音频信息。该基于上下文的熵编码器也配置为依据该上下文选出映射信息,该映射信息用于从该输入的音频信息推导出该已编码的音频信息。该基于上下文的熵编码器也包括上下文重置器,该上下文重置器配置为响应于上下文重置状况的出现,在输入音频信息连续块内部重置该用于选择映射信息的上下文为默认上下文,该其默认上下文独立于先前已解码的音频信息。基于上下文的熵编码器也配置为提供指示上下文重置状况的存在的该已编码音频信息的边信息。根据本发明的再一实施例基于这样的发现:基于上下文的熵编码以及偶尔上下文重置情况的结合,允许输入音频信息的位率有效编码,该偶尔上下文重置情况通过适当边信息以信号方式传递。
在优选实施例中,音频编码器配置为每n个输入音频信息帧,执行规律的上下文重置至少一次。发现规律的上下文重置带来更快速同步化至音频信号的机会,原因在于上下文的重置导入帧之间相依性的时间限制(或至少促成帧间相依性的此种限制)。
在再一个优选实施例中,音频编码器配置为在多个不同编码模式(例如频域编码模式及线性预测域编码模式)之间切换。在此种情况下,音频编码器优选用于响应于两种编码模式之间的改变而执行上下文重置。本实施例基于这样的发现:两种编码模式间的改变典型地与输入音频信号的显著改变相关,使得在编码模式切换之前与编码模式切换之后的音频内容之间典型只有极为有限的相关性。
在再一个优选实施例中,该音频编码器配置为依据非重置上下文,计算或估算用于编码该输入音频信息的某个音频信息(例如该输入音频信息的特定帧或部分,或该输入音频信息的至少一个或多个特定频谱值)所需的第一位数,该非重置上下文基于时间上或空间上相邻于该某个音频信息的相邻的音频信息,且用于计算或估算使用该默认上下文(例如该上下文重置成的上下文状态)用于编码某个音频信息所需的第二位数。该音频编码器进一步配置为比较该第一位数与该第二位数以基于非重置上下文或基于默认上下文判定是否提供于该某个音频信息相对应的已编码音频信息。该音频编码器也配置为使用该边信息以信号传递该判定结果。本实施例基于这样的发现:偶尔难以事先决定就位率而言是否优选重置上下文。上下文的重置可导致映射信息的选择(用于自某个输入音频信息推导出该已编码音频信息),其更加适合(就提供较低位率而言)用于某些音频信息的编码,或更不适合(就提供较高位率而言)用于编码某些音频信息。在某些情况下,发现经由使用两种变化法,即有或无重置上下文测定编码所需的位数目,来判定是否重置该上下文为优选。
根据本发明的额外实施例形成一种基于已编码音频信息提供已解码音频信息的方法,以及基于输入音频信息提供已编码音频信息的方法。
根据本发明的额外实施例提供相对应的计算机程序。
根据本发明的额外实施例提供音频信号。
附图说明
随后将参考所揭示的附图说明根据本发明的实施例,附图中:
图1示出根据本发明实施例的音频解码器的模块示意图;
图2示出根据本发明另一个实施例音频解码器的模块示意图;
图3a以语法表示形式示出由频域声道流所包括的信息的图解表示,该信息可由本发明的音频编码器提供且可由本发明的音频解码器使用;
图3b以语法表示形式示出信息的图解表示,该信息表示图3a的频域声道流的经算术编码的频谱数据;
图4以语法表示形式示出经算术编码的数据的图解表示,其可由图3b所表示的经算术编码的频谱数据所包括,或由图11b表示的经变换编码的激励数据所包括;
图5示出定义信息项目及用于图3a、3b及4的语法表示中的辅助元素的图例;
图6示出可用于本发明实施例的用于处理音频帧的方法的流程图;
图7示出用于状态计算的用于选择映射信息的上下文的图解表示;
图8示出例如使用图9a至图9f的算法,用于算术解码经算术编码的音频信息的数据项及辅助元素的图例;
图9a以类似C语言的形式,示出用于重置算术编码上下文的方法的伪程序代码;
图9b示出用于相同频谱分辨率的帧或窗口之间以及相异频谱分辨率的帧或窗口之间映射算术解码上下文的方法的伪程序代码;
图9c示出用于从上下文推导出状态值的方法的伪程序代码;
图9d示出从描述该上下文状态的数值推导出累积频率表的索引的方法的伪程序代码;
图9e示出用于算术解码已经算术编码的频谱值的方法的伪程序代码;
图9f示出用于频谱值元组解码后更新该上下文的方法的伪程序代码;
图10a示出在具有相关联的“长窗口”(每个音频帧一个长窗口)的音频帧存在时,上下文重置的图解表示;
图10b示出在具有相关联的多个“短窗口”(例如每个音频帧八个短窗口)的音频帧存在时,上下文重置的图解表示;
图10c示出在具有相关联的“长开始窗口”的第一音频帧与具有相关联的多个“短窗口”的音频帧之间转换处的上下文重置的图解表示;
图11a以语法表示形式,示出由线性预测域声道流包括的信息的图解表示;
图11b示出以语法表示形式,由变换编码激励编码所包括的信息的图解表示,该变换编码激励编码为图11a的线性预测域声道流的一部分;
图11c及11d示出定义用于图11a及11b的语法表示的信息项目及辅助元素的图例;
图12示出用于包括线性预测域激励编码的音频帧的上下文重置的图解表示;
图13示出基于群组化信息的上下文重置的图解表示;
图14示出根据本发明实施例的音频编码器的模块示意图;
图15示出根据本发明另一个实施例的音频编码器的模块示意图;
图16示出根据本发明另一个实施例的音频编码器的模块示意图;
图17示出根据本发明再一个实施例的音频编码器的模块示意图;
图18示出根据本发明实施例的用于提供已解码音频信息的方法的流程图;
图19示出根据本发明实施例的用于提供已编码音频信息的方法的流程图;
图20示出可用于本发明的音频解码器的用于频谱值元组的上下文相关算术解码的方法的流程图;及
图21示出可用于本发明的音频编码器的用于频谱值元组的上下文相关算术编码的方法的流程图。
具体实施方式
1.音频解码器
1.1音频解码器-一般实施例
图1示出根据本发明实施例的音频解码器的模块示意图。图1的音频解码器100配置为接收经熵编码的音频信息110,以及基于此提供已解码的音频信息112。该音频解码器100包括基于上下文的熵解码器120,其配置为依据上下文122解码经熵编码的音频信息110,该上下文122基于非重置操作状态中先前已解码的音频信息。该熵解码器120也配置为基于该上下文122选定映射信息124,用于从经熵编码的音频信息110推导出已解码的音频信息112。基于上下文的熵解码器120也包括上下文重置器130,其配置为接收经熵编码的音频信息110的边信息132,且基于此而提供上下文重置信号134。该上下文重置器130配置为响应于经熵编码的音频信息110的各个边信息132,重置用于选择该映射信息124的上下文122为默认上下文,该默认上下文独立于先前已解码的音频信息。
因此在操作中,每当检测到与经熵编码的音频信息110相关联的上下文重置边信息(例如上下文重置标记),上下文重置器130重置该上下文122。上下文122被重置为默认上下文可能产生这样的结果,即默认映射信息[例如在霍夫曼编码情况中的默认霍夫曼码本,或在算术编码情况中的默认(累积)频率信息“cum_freq”]被选定用于从该经熵编码的音频信息110(例如包括已编码频谱值a,b,c,d)推导出该已解码音频信息112(例如已解码频谱值a,b,c,d)。
因此在非重置状态操作中,上下文122受先前已解码的音频信息影响,例如受先前已解码的音频帧的频谱值影响。结果,用于解码当前音频帧(或用于解码该当前音频帧的一个或多个频谱值)的映射信息的选择(其基于上下文执行)典型地依赖于先前已解码的帧(或先前已解码的“窗口”)的已解码音频信息。
相反地,如果该上下文被重置(即处于上下文重置操作状态),则消除先前已解码的音频帧的先前已解码的音频信息(例如已解码的频谱值)对用于解码当前音频帧的映射信息的选择的影响。因此,在重置后,当前音频帧(或至少一些频谱值)的熵解码典型地不再取决于先前已解码的音频帧的音频信息(例如频谱值)。然而,当前音频帧的音频内容(例如一个或多个频谱值)的解码可能(或可能不)包括对该音频帧的先前已解码的音频信息的一些相关。
因此,考虑上下文122可改善在无重置状况存在下,从已编码的音频信息110推导出已解码的音频信息112的映射信息124。如果边信息132指示重置状况,则可重置上下文122以免考虑不当的上下文,不当的上下文将典型地导致位率增高。因此,音频解码器100允许以良好的位率效率解码经熵编码的音频信息。
1.2音频解码器—统一语音及音频编码(USAC)实施例
1.2.1解码器概述
在后文中,将对音频解码器进行概述,该音频解码器允许解码经频域编码的音频内容及经线性预测域编码的音频内容二者,因此允许对最适当编码模式的动态(例如逐帧)选择。需要注意的是,后文讨论的音频解码器组合频域解码及线性预测域解码。但需要注意的是,后文讨论的功能可分开用于频域音频解码器及线性预测域解码器。
图2示出音频解码器200,其配置为接收已编码的音频信号210,以及基于此提供已解码的音频信号212。音频解码器200配置为接收表示该已编码的音频信号210的比特流。音频解码器200包括比特流解复用器220,其用于从表示已编码的音频信号210的比特流中提取不同信息项目。例如,比特流复用器220配置为从表示已编码的音频信号200的比特流中提取频域声道流数据222,包括例如所谓的“arith_data”及所谓的“arith_reset_flag”及线性预测域声道流数据224(例如包括所谓的“arith_data”及所谓的“arith_reset_flag”),视哪一个存在于比特流中而定。此外,比特流解复用器配置为从表示已编码的音频信号200的比特流中提取额外的音频信息和/或边信息,例如线性预测域控制信息226、频域控制信息228、域选择信息230及后处理控制信息232。该音频解码器200也包括熵解码器/上下文重置器240,其配置为熵解码该经熵编码的频域频谱值或经熵编码的线性预测域变换编码激励刺激频谱值。熵解码器/上下文重置器240偶尔也表示为“无噪声解码器”或“算术解码器”,原因在于其典型地执行无损耗解码。熵解码器/上下文重置器240配置为基于频域声道流数据222提供频域已解码频谱值242或基于线性预测域声道流数据224提供线性预测域变换编码激励(TCX)刺激频谱值244。因此,熵解码器/上下文重置器240可配置为用于频域频谱值及线性预测域变换编码激励刺激频谱值的解码,视哪一个存在于当前帧的比特流中而定。
音频解码器200还包括时域信号重建。在频域编码的情况下,时域信号重建可例如包括反量化器250,其接收由熵解码器240所提供的频域已解码频谱值,且基于此,提供已反量化的频域已解码频谱值至频域至时域音频信号重建252。频域至时域音频信号重建可配置为接收频域控制信息228,及可选择地,接收额外信息(例如控制信息)。频域至时域音频信号重建252可配置为提供频域已编码时域音频信号254作为输出信号。对于线性预测域,音频解码器200包括线性预测域至时域音频信号重建262,其用于接收线性预测域变换编码激励刺激已解码频谱值244、线性预测域控制信息226及可选择地,额外的线性预测域信息(例如线性预测模型的系数或其编码版本),以及基于此,提供线性预测域编码时域音频信号264。
音频解码器200还包括选择器270,用于根据域选择信息230在频域已编码时域音频信号254与线性预测域编码时域音频信号264之间作选择,以判定该已解码的音频信号212(或其时间部分)是否基于频域已编码时域音频信号254或线性预测域编码时域音频信号264。在二域之间的转换,可由选择器270执行交叉混合来提供选择器输出信号272。已解码的音频信号212可等于该选择器音频信号272,或可以优选地使用音频信号后处理器280而从该选择器音频信号272推导出。音频信号后处理器280可考虑由该比特流解复用器220所提供的后处理控制信息232。
综上所述,音频解码器200可基于频域声道流数据222(结合可能的额外控制信息)或线性预测域声道流数据224(结合额外控制信息)提供已解码的音频信号212,其中音频解码器200可使用选择器270在频域与线性预测域之间切换。频域已编码时域音频信号254及线性预测域编码时域音频信号264可各自独立地产生。但相同的熵解码器/上下文重置器240可被应用(可能结合不同的域特定映射信息,例如累积频率表)用于频域已解码频谱值242的推导,其形成频域已编码时域音频信号254的基础,以及用于线性预测域变换编码激励刺激解已码频谱值244的推导,其形成线性预测域编码时域音频信号264的基础。
于后文,将讨论有关提供频域已解码频谱值242及提供线性预测域变换编码激励刺激已解码频谱值244的细节。
需要注意的是关于从频域已解码频谱值242推导出频域已编码时域音频信号254的细节,可参考国际标准ISO/IEC 14496-3:2005,第3部分:音频,第4部分:一般音频编码(GA)-AAC,Twin VQ,BSAC,及其中引用的参考文献。
也需要注意的是关于基于线性预测域变换编码激励刺激已解码频谱值244计算线性预测域编码时域音频信号264的细节,可参考国际标准3GPP TS 26.090,3GPP TS 26.190及3GPP TS 26.290。
所述的标准也包括有关用于后文的一些符号的信息。
1.2.2频域声道流解码
于后文将讨论如何从频域声道流数据推导出频域已解码频谱值242,以及本发明的上下文重置如何涉及此计算。
1.2.2.1频域声道流的数据结构
后文将参考图3a、3b、4及5说明频域声道流的相关数据结构。
图3a以表格形式示出频域声道流的语法的图解表示。因此可知,频域声道流包括“global_gain”信息。此外,频域声道流可包括比例因子数据(“scale_factor_data”),定义不同频率分辨单元(frequency bin)的比例因子。有关全局增益及比例因子数据及其用途可参考国际标准ISO/IEC 14496-3(2005),第3部分,第4子部分及其中引用的参考文献。
频域声道流也包括算术编码频谱数据(“ac_spectral_data”),其细节将说明如下。需要注意的是,频域声道流可包括额外选择性信息,例如噪声填充信息、配置信息、时间翘曲信息及时间噪声成形信息,这些信息并非与本发明相关。
后文将参考图3b及4讨论有关算术编码频谱数据的细节。如从图3b可知,图3b以表格形式示出算术编码频谱数据“ac_spectral_data”的语法的图解表示,该算术编码频谱数据包括用于重置用于算术解码的上下文的上下文重置标记“arith_reset_flag”。此外,该算术编码频谱数据包括一个或多个算术编码数据块“arith_data”。需要注意的是,由语法元素“fd_channel_stream”表示的音频帧可包括一个或多个“窗口”,其中窗口数目由变量“num_windows”定义。需要注意的是,一个频谱值集合(也表示为“频谱系数”)与音频帧的各个窗口相关联,使得包括num_windows的窗口的音频帧包括num_windows频谱值集合。有关于在单个音频帧内具有多个窗口(及多个频谱值集合)的概念例如在国际标准ISO/IEC 14493-3(2005),第3部分,第4子部分中描述。
再次参考图3,可获得以下结论,如果单个窗口系与由本频域声道流表示的音频帧相关联,则包括在频域声道流“fd_channel_stream”中的帧的算术编码频谱数据“ac_spectral_data”包括一个(单)上下文重置标记“arith_reset_flag”及一(单)块算术编码数据“arith_data”。相反地,如果当前音频帧(与频域声道流相关联)包括多个窗口(即num_windows个窗口),则帧的算术编码频谱数据包括单一上下文重置标记“arith_reset_flag”及多块算术编码数据“arith_data”。
现在参考图4,将参考图4讨论块算术编码数据“arith_data”的结构,图4示出算术编码数据“arith_data”的语法的图解表示。由图4可知该算术编码数据包括例如lg/4个编码元组(此处lg为当前音频帧或当前窗口的频谱值数目)的算术编码数据。对各个元组,算术编码群组索引“acod_ng”包含于该算术编码数据“arith_data”。量化频谱值a,b,c,d元组的群组索引ng是例如根据累积频率表被算术地编码的(在编码器侧),该累积频率表根据上下文选定,后面将讨论。该元组的群组索引ng经算术编码,其中所谓的“算术逃逸”(“ARITH_ESCAPE”)可用来扩展可能的数值范围。
此外,对于具有大于1的基数(cardinal)的4元组群组,用于解码该群组ng内部的元组索引ne的算术码字“acod_ne”可包含于算术编码数据“arith_data”内部。码字“acod_ne”例如可依据上下文编码。”
此外,编码该元组的数值a,b,c,d的一个或多个最低有效位的算术编码码字“acod_r”可包含于算术编码数据“arith_data”。
总之,算术编码数据“arith_data”包括一个(或存在算术逃逸序列时,为多个)算术码字“acod_ng”,用于考虑有索引pki的累积频率表来编码群组索引ng。可选择地(依据群组索引ng表示的群组的基数),算术编码数据也包括算术码字“acod_ne”,用于编码元素索引ne。可选择地,该算术编码数据也包括用于编码一个或多个最低有效位的一个或多个的算术码字。
决定用于算术码字“acod_ng”的编码/解码的累积频率表索引(例如pki)的上下文基于上下文数据q[0]、q[1]、qs,在图4中未示出,但在后面将进行讨论。如果在帧或窗口的编码/解码之前,上下文重置标记“arith_reset_flag”为激活的,则上下文信息q[0]、q[1]、qs基于默认值,或基于先前窗口(如果当前帧包括当前考虑窗口的先前窗口)或先前帧(如果当前帧只包括一个窗口,或如果考虑于当前帧内部的第一窗口)的先前已编码/已解码频谱值(例如频谱值a,b,c,d)。有关上下文的定义的细节,可参考图4表示为“获得窗口间上下文信息”的代码区段,其中也参考后文参考图9a及图9d详细说明的程序的定义“arith_reset_context”及“arith_map_context”。也需要注意的是,表示为“计算上下文状态”及“获得累积频率表的索引pki”的代码部分用来推导出依据上下文用于选择“映射信息”的索引“pki”,且可由依据上下文用于选择“映射信息”或“映射规则”的其它函数替代。函数“arith_get_context”及“arith_get_pk”将进一步说明其细节如下。
注意上下文的初始化,说明于“获得窗口间上下文信息”章节,是每个音频帧(如果该音频帧只包括一个窗口)执行一次(且优选只有一次),或每个窗口(如果该当前音频帧包括多个窗口)执行一次(且优选只有一次)。
因此,整个上下文信息q[0]、q[1]、qs的重置(或上下文信息q[0]基于先前帧(或先前窗口)的已编码频谱值的替代初始化)优选为每块算术编码数据只执行一次(即如果本帧只包括一个窗口则每窗口只执行一次,或如果本帧包括多个窗口,则每窗口只执行一次)。
相反地,上下文信息q[1](其基于先前已解码的当前帧或窗口的频谱值),例如通过程序“arith_update_context”完成单一频谱值a,b,c,d元组的解码时更新。
有关“频谱无噪声编码器”的有效负载(即用于编码算术编码频谱值)参考如图5表格列举的定义。
总之,来自“线性预测域”编码信号224和“频域”编码信号222的频谱系数(例如a,b,c,d)均被比例量化,以及然后通过自适应上下文相关算术编码被无噪声地编码(例如提供经熵编码音频信号210的编码器)。该已量化的系数(例如a,b,c,d)被集合在4元组中,随后自最低频传输至最高频(通过编码器)。各个4元组被分成最有效的逐3位(1位用于符号及2位用于振幅)平面(bit wise plane)及其余较非有效位平面。最有效的逐3位平面利用群组索引ng及元素索引ne根据其邻域编码(即考虑“上下文”)。其余较非有效位平面未考虑上下文而经熵编码。索引ng及ne及较非有效位平面形成算术编码器样本(通过熵解码器240评估)。有关算术编码细节将于后文讨论于章节1.2.2.2。
1.2.2.2频域声道流的解码方法
后面,将参考图6、7、8、9a-9f及20,详细描述包括上下文重置器130的基于上下文的熵解码器120、240的功能。
需要注意的是,基于上下文的熵解码器的功能基于经熵编码(优选算术编码)音频信息(例如已编码频谱值),重建(解码)经熵解码(优选算术解码)音频信息(例如该音频信号的频域表示或音频信号的线性预测域转换编码激励表示的频谱值a,b,c,d)。基于上下文的熵解码器(包括上下文重置器)例如可用于解码如通过图4所示语法而编码的频谱值a,b,c,d。
需要注意的是,图4所示语法可考虑为解码规则,特别当结合图5、7、8及9a-9f及20的定义一起考虑时,使得解码器通常配置为解码根据图4编码的信息。
现在参考图6,示出用于音频帧或音频帧内部的窗口处理用的简化解码算法的流程图,将说明该解码。图6的方法600包括步骤610,获得窗口间上下文信息。为了达成此项目的,可检查是否对当前窗口(或当前帧,如果该帧只包括一个窗口)设定上下文重置标记“arith_reset_flag”。如果已设定上下文重置标记,则在步骤612中,可重置上下文信息,例如经由执行如下讨论的函数“arith_reset_context”。特别地,描述先前窗口(或先前帧)的编码值的上下文信息部分可在步骤612中被设定为默认值(例如0或-1)。相反地,如果发现对该窗口(或帧)未设定上下文重置标记,则得自先前帧(或窗口)的上下文信息可拷贝或映射用于决定(或影响)用于本窗口(或帧)的已算术编码频谱值的解码的上下文。步骤614可对应于函数“arith_map_context”的执行。当执行该函数时,即使当前帧(或窗口)及先前帧(或窗口)包括不同频谱分辨率(即使本功能并非绝对需要),可映射上下文。
随后,通过执行步骤620、630、640一次或多次,可解码多个已算术编码频谱值(或这些数值的元组)。在步骤620中,基于步骤610所建立的上下文(以及可选择地在步骤640中更新),选择映射信息(例如霍夫曼码本或累积频率表“cum_freq”)。步骤620可包括用于测定映射信息的一个或多个步骤方法。例如,步骤620包括基于上下文信息(例如q[0]、q[1])计算上下文状态的步骤622。上下文状态的计算例如可通过函数“arith_get_context”执行,定义如下。可选择地,可执行辅助映射(例如如在图4表示为“计算上下文状态”的代码部分)。进一步地,步骤620包括映射上下文状态(例如图4语法所示的变量t)至映射信息(例如表示累积频率表的列或行)的索引(例如表示为“pki”)的子步骤624。为了这个目的,例如可评估函数“arith_get_pk”。总之,步骤620允许将当前上下文(q[0]、q[1])映射至索引(例如pki),索引(例如pki)描述哪一个映射信息(多个映射信息的离散集合中)须用于熵解码(例如算术解码)。方法600也包括使用所选定的映射信息(例如多个累积频率表中的一个累积频率表)来熵解码已编码的音频信息(例如频谱a,b,c,d)而获得新解码的音频信息(例如频谱值a,b,c,d)的步骤630。用于熵解码该音频信息,可使用后文详细说明的函数“arith_decode”。
随后,使用新解码的音频信息(例如使用一个或多个的频谱值a,b,c,d),在步骤640中可更新上下文。例如,可更新表示先前已编码的本帧或窗口(例如q[1])的音频信息的上下文部分。为了实现这个目的,现在使用函数“arith_update_context”,容后详述。
如前文说明,可重复步骤620、630、640。
熵解码已编码的音频信息可包括使用例如图4表示的由经熵编码的音频信息222、224所包括的一个或多个的算术码字(例如“acod_ng”、“acod_ne”和/或“acod_r”)。
之后将参考图7描述考虑用于状态计算(上下文状态)的该上下文的实例。大致上,可称为频谱无噪声编码(例如在编码器中)(及相对应的频谱无噪声解码)用来进一步减少该已量化频谱的冗余(以及用于解码器来重建该已量化频谱)。频谱无噪声编码方案基于算术编码结合已动态自适应的上下文。通过该已量化频谱值(例如a,b,c,d)设定无噪声编码,及使用从例如四个先前已解码的邻域4元组所推导出的上下文相关累积频率表(例如cum_freq)。此处考虑时间及频率二者的邻域,如图7所示。然后由算术编码器使用累积频率表(依据上下文选定)以产生可变长度二进制码(及也通过该算术解码器来解码该可变长度二进制码)。
现在参考图7,可知用于解码将要解码的4元组710的上下文基于已解码的4元组720,频率上相邻于该将要解码的4元组710且关联类似将要解码的4元组710的相同音频帧或窗口。此外,该将要解码的4元组710的上下文也基于已解码的三个额外4元组730a、730b、730c,且关联于将要编码的该4元组710的该音频帧或窗口的先前音频帧或窗口。
有关算术编码及算术解码,需要注意的是,算术编码器对于给定符号集合(例如频谱值a,b,c,d)及他们的各个机率(例如由累积频率表定义)产生二进制码。通过将符号集合(例如a,b,c,d)所在的机率间隔映射至码字产生该二进制码。相反地,其中,(例如a,b,c,d)的样本集合通过反映射而由该二进制码推导出,其中样本(例如a,b,c,d)的机率被列入考虑(例如经由基于上下文选择映射信息,例如累积频率分布)。在后文中,将参考图9a至图9f说明可通过基于上下文的熵解码器120或通过熵解码器/上下文重置器240执行的解码方法即算术解码方法,该方法通常参考图6作说明。
为了达成此项目的,参考图8表格所示定义。在图8的表中,定义图9a至图9f的伪程序代码中所使用的数据、变量及辅助元素的定义。也参考图5的定义及前文讨论。
有关解码程序,可说明已量化频谱系数的4元组始于最低频系数及前进至最高频系数(通过编码器)无噪声编码及传输(通过此处讨论的编码器与解码器间的传输频道或储存媒体)。
来自进阶音频编码(AAC)的系数(即频域声道流数据系数)被储存于数组“x_ac_quant[g][win][sfb][bin]”,无噪声编码码字的传输顺序为在所接收的且储存于数组的顺序解码时,[bin]为最快速递增指数及[g]为最缓慢递增指数。在码字内部,解码顺序为a,b,c,d。
来自(例如线性预测域声道流数据的)变换编码激励(TCX)的系数被直接储存于数组“x_tcx_invquant[win][bin]”,及无噪声编码码字的传输顺序为当以所接收及储存于数组的顺序解码时,bin是最快速递增指数及win是最缓慢递增指数。在码字内部,解码顺序为a,b,c,d。
首先评估标记“arith_reset_flag”。标记“arith_reset_flag”判定上下文是否须被重置。如果标记为TRUE,则呼叫图9a的伪程序代码表示示出的函数“arith_reset_context”。否则,当“arith_reset_flag”为FALSE时,在过去上下文(即经由先前已解码窗口或帧的已解码音频信息确定的上下文)与当前上下文之间进行映射。为了这个目的,呼叫图9b的伪程序代码表示中表示的函数“arith_map_context”(通过此允许即使先前帧或窗口包括不同频谱分辨率,允许再次使用该上下文)。但需要注意的是,函数“arith_map_context”的呼叫须视为可选择的。
无噪声解码器(或熵解码器)输出有符号的已量化频谱系数的4元组。首先,基于“环绕”(或更精确的,邻近)该将要解码的4元组的四个先前已解码群组(如图7示出于元素符号720、730a、730b、730c),计算上下文的状态。通过函数“arith_get_context()”给定上下文状态,该函数通过图9c的伪程序代码表示所表示。因此可知依据数值“v”(如图9f的伪程序代码定义),函数“arith_get_context”分派上下文状态值s至该上下文。
一旦状态s为已知,使用被馈以(或用于使用)与该上下文状态相对应的适当的(经选定的)累积频率表的函数“arith_decode()”,解码属于4元组的最有效逐2位平面的该群组。通过图9d的伪程序代码表示所表示的函数“arith_get_pk()”做出对应关系。
总之,函数“arith_get_context”及“arith_get_pk”允许基于上下文(即(q[0][1+i]、q[1][1+i-1]、q[s][1+i-1]、q[0][1+i+1])获得累积频率表索引pki。因此可依据上下文选择映射信息(即累积频率表中的一个)。
然后(一旦选定累积频率表),使用累积频率表呼叫与由“arith_get_pk()”返回的索引相对应的“arith_decode()”函数。算术解码器为使用成比例缩放产生标记的整数实例。图9e所示伪C代码说明所使用的算法。
参考图9e所示的算法“arith_decode”,需要注意的是,假设基于上下文选择适当的累积频率表。也需要注意的是,算法“arith_decode”使用图4定义的位(或位序列)“acod_ng”、“acod_ne”及“acod_r”进行算术解码。也需要注意的是,算法“arith_decode”可使用由该上下文所定义的累积频率表“cum_freq”用于解码与一元组相关的位序列“acod_ng”的第一次出现。但该相同元组的位序列“acod_ng”的额外出现(可出现于arith_escape序列的后)例如可使用不同的累积频率表解码或甚至使用默认累积频率表解码。进一步地,需要注意的是,位序列“acod_ne”及“acod_r”的解码可使用适当的累积频率表执行而独立于上下文。因此,总之,(除非上下文被重置,使得达到上下文重置状态及使用默认累积频率表),否则上下文相关累积频率表可应用于解码用于解码群组索引的“acod_ng”(至少直到辨识算术逃逸为止)。
当考虑图4所示“arith_data”语法的图解表示及结合图9e所示函数“arith_decode”的伪程序代码时将明了此点。基于了解“arith_data”的语法可获得了解解码。
当已解码的群组索引ng为“逃逸”符号“ARITH_ESCAPE”时,额外群组索引ng经解码,及变量lev递增2。一旦已解码的群组索引并非逃逸“ARITH_ESCAPE”时,经由查询表“dgroups[]”演绎出群组内部的元素数目mm及群组偏移值og:
mm=dgroups[nq]&255
og=dgroups[nq]>>8
然后通过用累积频率表(arith_cf_ne+((mm*(mm-1))>>1)[]呼叫函数“arith_decode()”解码元素索引ne。一旦元素索引经解码,则使用表格“dgvector[]:”可推导出4元组的最有效逐二位平面,
a=dgvectors[4*(og+ne)]
b=dgvectors[4*(og+ne)+1]
c=dgvectors[4*(og+ne)+2]
d=dgvectors[4*(og+ne)+3]
然后使用累积频率表“arith_cf_r[]”(其为用于最低有效位解码的预先界定的累积频率表,可指示字节合的相等频率),经由呼叫lev次“arith_decode()”从最高有效位阶至最低有效位阶解码剩余位平面(例如最低有效位)。已解码的位平面r允许通过下述方式重定义该4元组的解码:
a=(a<<1)|(r&1)
b=(b<<1)|((r>>1)&1)
c=(c<<1)|((r>>2)&1)
d=(d<<1)|(r>>3)
一旦该4元组(a,b,c,d)被完全解码,经由呼叫函数“arith_update_context()”,该呼叫函数“arith_update_context()”通过图9f的伪程序代码表示所表示,更新上下文表q及qs。
如由图9f可知,更新表示当前窗口或当前帧即q[1]的先前已解码的频谱值的上下文(例如每次解码频谱值的一个新的元组)。此外,函数“arith_update_context”也包括用于更新上下文历史qs的代码区段,该动作每个帧或每个窗口只执行一次。
总之,函数“arith_update_context”包括两项主要功能,即一旦当前帧或当前窗口的新频谱值经解码,更新表示该当前帧或窗口的先前已解码频谱值的上下文部分(例如q[1])以及响应于帧或窗口的解码完成更新该上下文历史(例如qs),使得上下文历史qs可用来当解码下一个帧或下一个窗口时推导出表示“旧的(old)”上下文的上下文部分(例如q[0])。
如于图9a及图9b的伪程序代码表示可知,上下文历史(例如qs)或被抛弃,换句话说在上下文重置的情况下,或被用来获得该“旧的”上下文部分(例如q[0]),换句话说如果无上下文重置,此时前进至下个帧或下个窗口的算术解码。
后文将参考图20简单摘述算术解码方法,图20示出解码方案的实施例的流程图。在步骤2005,对应于步骤2105,基于t0、t1、t2及t3推导出上下文。在步骤2010,由该上下文估算第一减低位准lev0,并将变量lev设定为lev0。在随后步骤2015,从该比特流读取群组ng,和从该上下文推导出用于解码ng的机率分布。在步骤2015,然后可由比特流解码群组ng。在步骤2020,判定ng是否等于544,544相当于逃逸值。如果是,则于返回步骤2015之前,可将变量lev增加两倍。在本分支首次使用时,即如果lev==lev0,则遵照前文说明的上下文自适应机制,上下文可据此自适应机率分布,如果该分支并非首度使用,则被抛弃。在步骤2020,如果群组索引ng并非等于544,则在下一个步骤2025,判定在群组的元素数目是否大于1,以及如果是,则在步骤2030,假设一致的机率分布,由该比特流读取及解码群组元素ne。使用算术解码及一致的机率分布,从该比特流推导出元素索引ne。在步骤2035,通过表格中的查表方法,例如参考dgroups[ng]及acod_ne[ne],由ng及ne推导出文字码字(a,b,c,d)。在步骤2040,对全部lev错失的位平面,使用算术编码及假设一致的机率分布,从该比特流读取该等平面。然后通过位移(a,b,c,d)至左及加位平面bp将位平面附接至(a,b,c,d):((a,b,c,d)<<=1)|=bp。本方法可重复lev次。最后在步骤2045,可提供4元组q(n,m)即(a,b,c,d)。
1.2.2.3解码过程
后文将参考图10a至图10d对不同状况简简要讨论解码过程。
图10a示出使用所谓的“长窗口”经频域编码的音频帧的解码过程的图解表示。有关编码,可参考国际标准ISO/IEC 14493-3(2005),第3部分,第4子部分。可知的是,第一帧1010的音频内容是密切相关的,且用于音频帧1010、1012重建的时域信号为重迭且相加(如该标准的定义)。由前述标准可知,一个频谱系数集合与这些帧1010、1012各自相关联。进一步地,新颖的1位上下文重置标记(“arith_reset_flag”)与帧1010、1012各自相关联。如果与第一帧1010相关联的上下文重置标记被设定,则在该第一音频帧1010的频谱值集合的算术解码之前,该上下文被重置(例如根据图9a所示算法)。同理,如果该第二音频帧1012的1位上下文重置标记被设定,则在该第二音频帧1012的频谱值解码之前,该上下文被重置,以与第一音频帧1010的频谱值独立。因此,通过评估该上下文重置标记,可重置用于解码第二音频帧1012的上下文,即使第一音频帧1010及第二音频帧1012密切相关使得这些等音频帧1010、1012的频谱值所推导出的窗口化时域音频信号为重迭与相加,以及即使相同窗口形状与第一音频帧1010及第二音频帧1012相关联亦如此。
现在参考图10b,示出相关联多个(例如8个)短窗口的音频帧1040的解码的图解表示,本例将说明上下文的重置。再者,有单个1位上下文重置标记与该音频帧1040相关联,即使与该音频帧1040关联多个短窗口亦如此。有关短窗口,需要注意的是,一个频谱值集合与这些短窗口各自相关联,使得音频帧1040包括多个(例如8个)(经算术编码的)频谱值集合。但如果该上下文重置标记为激活状态,则在该音频帧1040的第一窗口1042a的频谱值解码之前且在该音频帧1040的任何随后帧1042b-1042h的频谱值解码之间,该上下文将被重置。因此,再者,该上下文在两个随后窗口的频谱值解码之间被重置,其音频内容密切相关(其为重迭且相加),以及即使随后窗口(例如窗口1042a、1042b)包括相关联的相同窗口形状亦如此。且,需要注意的是,在单一音频帧的解码期间(即单一音频帧的不同频谱值的解码间),上下文被重置。且,需要注意的是,如果帧1040包括多个短窗口1042a-1042h,则单个位上下文重置标记呼叫多次上下文重置。
现在参考图10c,示出在从关联于长窗口的音频帧(音频帧1070及先前音频帧)变化至与多个短窗口相关联的一个或多个音频帧(音频帧1072)存在下,上下文重置的图解表示。需要注意的是,上下文重置标记允许与以信号传递窗口形状独立,以信号传递重置上下文的需要。例如,熵解码器可用于使用上下文,该上下文基于音频帧1070的频谱值,可获得音频帧1072的第一窗口1074a的频谱值,即使该“窗口”(或,更准确地,与短窗口相关联的帧部分或“子帧”)1074a的窗口形状实质上与音频帧1070的长窗口的窗口形状不同亦如此,以及即使短窗口1074a的频谱分辨率典型地低于音频帧1070的长窗口的频谱分辨率(频率分辨率)亦如此。此可经由不同频谱分辨率的窗口(或帧)之间的上下文的映射获得,这通过图9b的伪程序代码说明。但如果发现音频帧1072的上下文重置标记为激活状态,则熵解码器同时可在音频帧1070的长窗口频谱值与音频帧1072的第一短窗口1074a的频谱值解码之间重置上下文。在此种情况下,上下文的重置通过算法执行,这参考图9a的伪程序代码作说明。
综上所述,上下文重置标记的评估对本发明的熵解码器提供极大弹性。在优选实施例中,该熵解码器可:
●当解码当前帧或窗口(的频谱值)时,使用上下文,该上下文基于不同频谱分辨率的先前已解码的帧或窗口;以及
●响应于该上下文重置标记,在具有不同窗口形状和/或不同频谱分辨率的多个帧或窗口(的频谱值)的解码之间,可选择地重置该上下文;及
●响应于该上下文重置标记,在具有相同窗口形状和/或不同频谱分辨率的多个帧或窗口(的频谱值)的解码之间,可选择地重置该上下文。
换句话说,该熵解码器配置为通过评估与窗口形状/频谱分辨率边信息分开的上下文重置边信息,执行该上下文重置而与窗口形状和/或频谱分辨率的改变独立。
1.2.3线性预测域声道流解码
1.2.3.1线性预测域声道流数据
后文将参考图11a说明线性预测域声道流的语法,图11a示出线性预测域声道流的语法的图解表示,及同时也参考图11b,其示出变换编码激励编码(tcx_coding)的语法的图解表示,以及参考图11c及图11d,图11c及图11d示出用于该线性预测域声道流的语法的定义及数据元素的表示。
现在参考图11a,将讨论线性预测域声道流的整体结构。图11a所示线性预测域声道流包括多个配置信息项目例如“acelp_core_mode”及“lpd_mode”。有关配置元素的定义及线性预测域编码的整体概念可参考国际标准3GPP TS 26.090、3GPP TS 26.190及3GPP TS 26.290。
此外,需要注意的是,线性预测域声道流可包括至多四个“区块”(具有指数k=0至k=3),其包括经ACELP编码的激励或经变换编码的激励(本身可经算术编码)。再者参考图11a,可知对各个“区块”,线性预测域声道流包括ACELP刺激编码或TCX刺激编码。由于ACELP刺激编码与本发明不相关,故将删除其细节说明,可参考前文有关本议题的国际标准。
关于TCX刺激编码,需要注意的是,不同编码用于编码当前音频帧的第一TCX“区块”(也表示为“TCX帧”)以及用于编码当前音频帧的任何随后TCX“区块”(TCX帧)。在此以所谓的“first_tcx_flag”指示,其指示当前已处理的TCX“区块”(TCX帧)是否为本帧中的第一个(在线性预测域编码术语中也称作为“超帧”)。
现在参考图11b,可知经变换编码的激励“区块”(tcx帧)的编码包括已编码的噪声因子(“noise_factor”)及已编码的全局增益(“global_gain”)。此外,如果考虑的本tcx“区块”为当前考虑的音频帧内部的第一tcx“区块”,则当前考虑的tcx的编码包括上下文重置标记(“arith_reset_flag”)。否则,即如果考虑的本tcx“区块”并非当前音频帧的第一tcx“区块”,则该当前tcx“区块”的编码并未包括此种上下文重置标记,如由图11b的语法说明可知。此外,tcx刺激的编码包括算术编码频谱值(或频谱系数)“arith_data”,其根据已经参考前述图4说明的算术编码被编码。
如果该tcx“区块”的上下文重置标记(“arith_reset_flag”)为激活状态,则使用重置上下文(默认上下文)编码表示音频帧的第一tcx“区块”的经变换编码激励刺激的频谱值。如果该音频帧的上下文重置标记为非激活状态,则使用非重置上下文编码音频帧的第一tcx“区块”的经算术编码的频谱值。使用非重置上下文编码(即使用由前一个tcx区块推导出的上下文编码)音频帧的任何随后tcx“区块”(在第一tcx“区块”之后)的经算术编码的值。有关经变换编码激励的频谱值(或频谱系数)的算术编码细节可参考图11b同时结合图11a。
1.2.3.2用于经变换编码激励频谱值的解码方法
可考虑该上下文解码经算术编码的经变换编码激励频谱值。例如,如果tcx“区块”的上下文重置标记为激活状态,则在使用参考图9c至图9f所述算法解码该tcx“区块”的经算术编码的频谱值之前,例如可根据图9a所示算法重置该上下文。相反地,如果tcx“区块”的上下文重置标记为非激活状态,则参考图9b可通过(从先前已解码的tcx区块的上下文历史的)映射确定用于解码的上下文,或通过以任何其它形式由先前已解码的频谱值推导该上下文而确定用于解码的上下文。且,用于“随后”tcx“区块”,(其不是音频帧的第一tcx“区块”)解码的上下文可从先前tcx“区块”的先前已解码频谱值推导出。
对于tcx激励刺激频谱值的解码,因此解码器可使用例如已经参考图6、图9a至9f及图20说明的算法。然而,上下文重置标记(“arith_reset_flag”)的设定并未检查每个tcx“区块”(与“窗口”相对应),而只对音频帧的第一tcx“区块”作检查。对于随后tcx“区块”(对应于多个“窗口”),可假设该上下文不被重置。
因此,tcx激励刺激频谱值解码器可用于根据图11b及图4所示语法解码频谱值。
1.2.3.3解码过程
在后文中,将参考图12说明线性预测域激励音频信息的解码。但此处将忽略线性预测域信号合成器的参数(例如通过刺激或激励所激励的线性预测器参数)的解码。而将后文讨论的焦点放在经变换编码激励刺激频谱值的解码。
图12示出用于激励线性预测域音频合成器的已编码激励的图解表示。对随后的音频帧1210、1220、1230示出已编码的刺激信息。例如第一音频帧1210包括第一“区块”1212a,第一“区块”1212a包括经ACELP编码的刺激。音频帧1210也包括三个“区块”1212b、1212c、1212d,其包括经变换编码的激励刺激,其中各个TCX“区块”1212b、1212c、1212d的变换编码激励刺激包括经算术编码的频谱值集合。此外音频帧1210的第一TCX区块1212b包括上下文重置标记“arith_reset_flag”。音频帧1220例如包括四个TCX“区块”1222a-1222d,其中该音频帧1220的第一TCX区块1222a包括上下文重置标记。音频帧1230包括单个TCX区块1232,其本身包括上下文重置标记。因此每个包括一个或多个TCX区块的音频帧有一个上下文重置标记。
因此,当如图12所示解码线性预测域刺激时,则该解码器将检查TCX区块1212b的上下文重置标记是否被设定,并依据该上下文重置标记的状态,在该TCX区块1212b的频谱值解码之前重置该上下文。但独立于音频帧1210的上下文重置标记的状态,在TCX区块1212b与1212c的这些频谱值的算术解码之间并无上下文的重置。同理,在TCX区块1212c与1212d的频谱值解码之间并无上下文的重置。但依据音频帧1222的上下文重置标记的状态而定,解码器将在TCX区块1222a的频谱值解码之前重置该上下文,而在TCX区块1222a与1222b、1222b与1222c、1222c与1222d的频谱值解码之间并未进行上下文的重置。但依据音频帧1230的上下文重置标记的状态而定,在TCX区块1232的频谱值解码之前,解码器将进行上下文的重置。
也需要注意的是,音频串流可包括频域音频帧与线性预测域音频帧的结合,使得解码器可用于适当解码此种交替序列。在不同编码模式(频域相对于线性预测域)间的变化,通过上下文重置器可执行或可不执行上下文的重置。
1.3.音频解码器—第三实施例
后文将说明另一种音频解码器概念,其即使在无专用上下文重置边信息存在下,仍然允许上下文的位率有效重置。
发现伴随经熵编码的频谱值的该边信息可被探讨用于判定是否重置该上下文用于经熵编码频谱值的熵解码(例如算术解码)。
对其中包括与多个窗口相关联的频谱值集合的音频帧,已经发现用于重置算术解码上下文的有效概念。例如,所谓的“进阶音频编码”(也简单表示为“AAC”)定义于国际标准ISO/IEC 14496-3:2005,第三部分,第四子部分,使用包括八个频谱系数集合的音频帧,其中各个频谱系数集合与一个“短窗口”相关联。因此,八个短窗口与此种音频帧相关联,其中八个短窗口用于重迭与相加基于频谱系数集合所重建的窗口化时域。有关其细节可参考该国际标准。但在包括多个频谱系数集合的音频帧中,两个或多个频谱系数集合可被群组化,使得共用比例因子与群组化的频谱系数集合相关联(且应用于解码器)。频谱系数集合的群组化例如可使用群组化边信息(例如“scale_factor_grouping”位)以信号传递。有关其细节例如可参考ISO/IEC 14496-3:2005(E),第三部分,第四子部分,表4.6、4.44、4.45、4.46及4.47。尽管如此,为了获得完整了解,参考前述国际标准全文。
然而,在根据本发明的实施例的音频解码器中,有关不同频谱值集合的群组化(例如经由与共享比例频谱值相关联)的信息可用来判定何时重置用于这些频谱值的算术编码/解码的上下文。例如,根据第三实施例的本发明的音频解码器可用于每当发现从一个群组已编码频谱值集合变化至另一个群组频谱值集合(关联新比例因子集合的另一个群组)时,重置熵解码上下文(例如基于上下文的霍夫曼解码或基于上下文的算术解码,如前文说明)。因此,替代使用上下文重置标记,可探讨比例因子群组化边信息来判定何时重置算术解码上下文。
后文将参考图13说明本概念的实例,图13示出音频帧序列及各个边信息的图解表示。图13示出第一音频帧1310、第二音频帧1320及第三音频帧1330。该第一音频帧1310可为于ISO/IEC 14493-3,第三部分,第四子部分定义内部的“长窗口”音频帧(例如属于“LONG_START_WINDOW”类型)。上下文重置标记可与该音频帧1310相关联来判定该音频帧1310的频谱值的算术解码上下文是否应被重置,因此音频解码器将考虑上下文重置标记。
相反地,第二音频帧属于“EIGHT_SHORT_SEQUENCE”类型,因此包括八个已编码的频谱值集合。但前三个已编码的频谱值集合可共同群组化来形成一个群组(与共用比例因子信息关联)1322a。另一个群组1322b可通过单个频谱值集合定义。第三群组1322c可包括两个相关联的频谱值集合,且第四群组1322d包括另外两个相关联的频谱值集合。音频帧1320的频谱值集合的群组化可通过例如于前述标准表4.6中定义的所谓的“scale_factor_grouping”位被以信号传递。同理,音频帧1340可包括四个群组1330a、1330b、1330c、1330d。
然而,音频帧1320、1330例如未包括专用上下文重置标记。用于音频帧1320的频谱值的熵解码,解码器例如可无条件地或依据上下文重置标记,在第一群组1322a的频谱系数第一集合解码之前重置该上下文。随后,音频解码器可避免在同一群组频谱系数的不同频谱系数集合的解码之间重置该上下文。然而,一旦音频解码器检测到在包括多个(频谱系数集合的)群组的音频帧1320内部的新的群组开始,则该音频解码器重置该上下文用于熵解码这些频谱系数。因此,在第二群组1322b的频谱系数解码之前,在第三群组1322c的频谱系数解码之前,以及在第四群组1322d的频谱系数解码之前,该音频编码器可有效地重置该上下文,用于第一群组1322a的频谱系数的解码。
因此可避免在此种音频帧(其中有多个频谱系数集合)内部的专用上下文重置标记的分开传输。因此经由忽略此种帧内部的专用上下文重置标记的传输(在某些应用用途可能不需要),通过群组化位传输所产生的额外位负载可被至少部分补偿。
总之,已经说明的重置策略其可被实施为解码器结构(也可被实施为编码器结构)。此处所述策略无需传输任何额外信息(例如用于重置该上下文的专用边信息)至解码器。其使用已经由解码器所发送的边信息(例如通过提供与前述工业标准相对应的经AAC编码音频串流的编码器发送)。如此处所述,在该信号(音频信号)内部内容的改变可在例如1024个样本的不同帧发生。在此种情况下,已经重置标记,其可控制上下文自适应编码及缓和对效能的影响。然而,在一个1024样本的帧内部,内容也可改变。在此种情况下,当音频编码器(例如根据统一语言及音频编码“USAC”)使用频域(FD)编码时,解码器通常切换至短区块。在短区块中,发送群组化信息(如前文讨论),群组化信息已经提供有关该音频信号的变化或过渡位置的相关信息。此种信息再次用来重置上下文,如本章节讨论。
另一方面,当音频编码器(例如根据统一语言及音频编码“USAC”)使用线性预测域(LPD)编码时,内容改变将影响所选用的编码模式。当在1024个样本的一个帧内部出现不同的变换编码激励时,可使用上下文映射,如前文讨论(例如参考图9d的上下文映射)。发现每次选用一个不同的经变换编码激励为比重置上下文更优的解决方式。由于线性预测域编码是非常自适应的,因此编码模式经常地改变,系统性重置将大大地妨碍编码效能。但当选用ACELP时,重置上下文用于下一个经变换编码的激励(TCX)是有好处的。经变换编码激励之间选用ACELP强力指示在信号中出现大改变。
换句话说,例如参考图12,如果在该音频帧内部有至少一个经ACELP编码的刺激,则当使用线性预测主编码时,可全部或可选择地删除音频帧的第一TCX“区块”前方的该上下文重置标记。在此种情况下,编码器可配置为如果在ACELP“区块”之后的第一TCX“区块”被识别则重置该上下文,以及在随后多个TCX“区块”的频谱值解码之间忽略该上下文的重置。
且,可选择地,该解码器可配置为如果TCX区块在亲代音频帧(parent audio frame)前方,则评估上下文重置标记,例如每个音频帧一次,以允许该上下文的重置,即使在TCX“区块”的延长节段存在情况下亦如此。
2.音频编码器
2.1.音频编码器—基本概念
后文将讨论基于上下文的熵编码器的基本概念以便有助于了解用于上下文重置的特定程序,细节讨论如下。
无噪声编码可基于量化频谱值,且可使用例如由四个先前已解码的邻近元组所推导出的上下文相关累积频率表。图7示出另一个实施例。图7示出时间频率平面,其中顺着时间轴三个时隙,标记为n、n-1及n-2。此外,图7示出四个频率或频带,表示为m-2、m-1、m及m+1。图7示出在各个时间-频率槽帧内部,呈现将要编码或解码的样本元组。图7示出三个不同型元组,其中有虚线或点线边界的圆帧指示将要编码或解码的其余元组,有点线边界的矩形帧指示先前已编码或已解码的元组,及有实心边界的灰帧指示先前已编码/已解码的元组,用来测定将要编码或将要解码的当前元组的上下文。
注意前述实施例中,该先前节段及当前节段对应在本实施例中的元组,换句话说节段可于频域或频谱域逐频带处理。如图7所示,在当前元组(在时域或频域或频谱域)中的元组或节段可考虑用来推导出上下文。然后通过算术编码器使用累积频率表以产生可变长度二进制码。算术编码器可对给定的符号集合及他们各个机率传输二进制码。可通过将该符号集合所在的机率间隔映射至码字而产生该二进制码。
在本实施例中,可基于4元组(基于四个频谱系数指数)进行基于上下文的算术编码,4元组也表示为q(n,m)或q[m][n],表示量化后的频谱系数,和4元组在频域或频谱域中相邻且在一个步骤中被熵编码。根据前文说明,可基于编码上下文进行编码。如图7指示,除了经编码的4元组(即当前节段)之外,考虑四个先前已编码的4元组来推导该上下文。这些四个4元组决定该上下文且在频域之前和/或在时域之前。
图21a示出用于频谱系数编码方案的USAC(USAC=通用语言及音频编码器)上下文相关算术编码器的流程图。编码处理取决于当前4元组加上下文,此处该上下文用于选择算术编码器的机率分布以及用于预测频谱系数的振幅。图21a中,框2105表示上下文测定,其基于与q(n-1,m)、q(n,m-1)、q(n-1,m-1)及q(n-1,m+1)相对应的t0、t1、t2及t3。
通常,在实施例中,熵编码器可自适应于以频谱系数4元组为单位编码当前节段,以及用于基于编码上下文预测该4元组的振幅范围。
在本实施例中,编码方案包括一些阶段。首先,使用算术编码器及特定机率分布编码文字码字(literal codeword)。码字表示四个邻近频谱系数(a,b,c,d),但a,b,c,d各自的范围限于:
-5<a,b,c,d<4。
通常,在实施例中,熵编码器可自适应用于视需要经常地将该4元组除以预定因子以将除法结果与预测范围或预定范围匹配,以及当该4元组未落入该预测范围时,自适应用于编码所需的多个除法、除法余数及除法结果;以及自适应用于以其它方式编码除法余数及除法结果。
在后文中,如果项(a,b,c,d)即任何系数a,b,c,d超过本实施例的给定范围,通常考虑视需要地经常以因子(例如2或4)除以(a,b,c,d)用于将所得码字匹配给定范围。使用因子2的除法对应于二进制位移至右侧,即(a,b,c,d)>>1。此种缩小以整数表示进行,即可能丧失信息。可能因位移至右侧损失的最低有效位被储存以及后来使用算术编码器及一致的机率分布编码。位移至右侧的处理对全部四个频谱系数(a,b,c,d)进行。
在大致的实施例中,该熵编码器可自适应用于使用群组索引ng编码除法结果或该4元组,群组索引ng是指其机率分布基于编码上下文的群组一个或多个码字,及于该群组包括多个码字的情况下使用元素索引ne编码,该元素索引ne指在该群组内部的码字,及该元素索引可假设为均匀分布;以及用于通过多个逃逸符号编码除法数目,逃选符号为只用于指示除法的特定群组索引ng;以及用于使用算术编码规则,基于一致分布编码该除法余数。熵编码器可自适应用于使用包括该逃逸符号及与可用群组索引的集合相对应的群组符号的符号字母、包括相对应元素索引的符号字母、及包括不同余数值的符号字母,将符号序列编码成编码音频串流。
在图21a的实施例中,用于编码文字码字及范围缩小步骤数目估算的机率分布可由上下文推导出。例如,全部码字共84=4096,共跨距544个群组,这些群组由一个或多个元素所组成。码字可于位串流表示为群组索引ng及群组元素ne。可使用算术编码器使用某些机率分布编码这两个数值。在一个实施例中,ng的机率分布可由上下文推导出,而ne的机率分布可假设为一致。ng与ne的结合可明确识别码字。除法余数即位移出位平面也可假设为一致分布。
在图21a中,在步骤2110,提供4元组q(n,m)即(a,b,c,d)或当前节段,及通过设定为0将参数lev初始化。在步骤2115,从上下文估算(a,b,c,d)的范围。根据本估算,(a,b,c,d)可缩小lev0位准(levels),即通过2lev0因子除。lev0最低有效位平面储存供后来在步骤2150使用。
在步骤2120,检查(a,b,c,d)是否超过给定范围,如果是,则在步骤2125(a,b,c,d)的范围以因子4缩小。换句话说,在步骤2125,(a,b,c,d)向右位移2,被去除的位平面储存供后来在步骤2150使用。
为了指示此种缩小步骤,在步骤2130,ng被设定为544,即ng=544作为逃逸码字。然后此码字在步骤2155被写至比特流,此处为了推导出码字,在步骤2130,使用由该上下文推导出的具有机率分布的算术编码器。在本缩小步骤首次应用的情况下,即如果lev==lev0,则该上下文略为自适应。在该缩小步骤应用超过一次时,该上下文被抛弃并进一步使用默认分布。然后处理程序以步骤2120继续。
如果在步骤2120检测到范围匹配,更特别地如果(a,b,c,d)匹配范围条件,则(a,b,c,d)被映射至群组ng,以及如果适用,映射至群组元素索引ne。本映射为明确,即(a,b,c,d)可由ng及ne推导出。然后在步骤2135,使用对已自适应的/已抛弃的上下文所得机率分布,通过算术编码器编码群组索引ng。然后群组索引ng被在步骤2155插入该比特流。在随后步骤2140,检查群组中的元素数目是否大于1。如果必要,即如果以ng检索的群组是由多个元素所组成,则在步骤2145,通过算术编码器编码群组元素索引ne,在本实施例假设一致机率分布。
在步骤2145之后,在步骤2155,元素群组索引ne被插入比特流。最后,在步骤2150,假设一致机率分布,使用算术编码器编码全部储存的位平面。然后在步骤2155,已编码的已储存的位平面也被插入比特流。
综上所述,其中可使用后文说明的上下文重置概念的熵编码器接收一个或多个频谱值及基于一个或多个所接收的频谱值提供码字,该码字典型具有可变长度。所接收的频谱值至码字的映射与所估算的码字机率分布有相依性,通常而言,使得短码字与有高机率的频谱值(或其结合)相关联,及使得长码字与具有低机率的频谱值(或其结合)相关联。考虑到上下文,假设频谱值(或其结合)的机率与先前已编码的频谱值(或其结合)有相依性。因此,依据上下文,即依据先前已编码的频谱值(或其结合)选定映射规则(也表示为“映射信息”或“码本”或“累积频率表”)。但并非经常考虑该上下文。反而,偶尔通过此处所述的“上下文重置”功能重置该上下文。通过重置上下文,考虑当前将要编码的频谱值(或其结合)与基于上下文预期的频谱值有重大差异。
2.2音频编码器—图14的实施例
后文将参考图14说明音频编码器,该图基于前文说明的基本概念。图14的音频编码器1400包括音频处理器1410,其配置为接收音频信号1412及执行音频处理,例如音频信号1412自时域变换至频域,及由时域变换至频域所得频谱值的量化。因此,音频处理器也提供已量化的频谱系数(也称作为频谱值)1414。音频编码器1400也包括上下文自适应算术编码器1420,其配置为接收频谱系数1414及上下文信息1422。该上下文信息1422可用于选择将频谱值(或其结合)映射至码字的映射规则,码字为这些频谱值(或其结合)的已编码表示。因此,上下文自适应算术编码器1420提供已编码的频谱值(已编码的频谱系数)1424。音频编码器1400也包括配置为缓冲先前已编码的频谱值1414的缓冲器1430,原因在于由该缓冲器1430所提供的先前已编码的频谱值1432对该上下文有影响。音频编码器1400也包括上下文产生器1440,其配置为接收该已缓冲的先前已编码的系数1432以及基于此推导出上下文信息1422(例如用于选择累积频率表的数值“PKI”或用于上下文自适应算术编码器1420的映射信息)。但音频编码器1400也包括用于重置该上下文的重置机构1450。重置机构1450配置为判定何时重置由上下文产生器1440所提供的上下文(或上下文信息)。重置机构1450可选择地作用于缓冲器1430,以重置储存于或由缓冲器1430所提供的系数,或作用于上下文产生器1440来重置由上下文产生器1440所提供的上下文信息。
图14的音频编码器1400包括重置策略作为编码器特征。重置策略在编码器侧触发“重置标记”,其可考虑为上下文重置边信息,在一个位发送每个帧1024个样本(音频信号的时域样本)。音频编码器1400包括“规则重置”策略。根据此种策略,重置标记被规律地激活,通过此重置编码器使用的上下文及重置于适当解码器中的上下文(其如前文说明处理上下文重置标记)。
此种常规重置的优点限制本帧自先前帧编码的相依性。即使发生传输错误,每n个帧重置上下文(通过计数器1460及重置标记产生器1470实现)允许解码器将其状态与编码器再者同步化。然后于重置点的后可回复已解码信号。进一步,“常规重置”策略允许解码器随机存取比特流的任何重置点而未考虑过去信息。重置点间的间隔与编码效能之间折衷,在于编码器根据目标的接收器及传输频道特性达成的折衷。
2.3音频编码器—图15的实施例
后文将说明作为编码器特征的另一项重置策略。所述策略在编码器侧触发重置标记,1024个样本的每个帧以1位发送该重置标记。在图15的实施例中,通过编码特性触发重置。
如图15可知,音频编码器1500极为类似于音频编码器1400,因此相同装置及信号表示以相同的元素符号而不再解释。但该音频编码器包括不同的重置机构1550。上下文重置机构1550包括编码模式改变检测器1560及重置标记产生器。编码模式改变检测器检测编码模式的改变,该编码模式改变检测器指令重置标记产生器1570提供(上下文)重置标记。上下文重置标记也作用于上下文产生器1440,或另外或此外作用于缓冲器1430来重置上下文。如前文说明,重置通过编码特性触发。在已切换编码器中,类似统一语言及音频编码器(USAC),可能发生且连续发生不同编码模式。由于本帧的时间/频率分辨率可能与先前帧的分辨率不同,则难以演绎出上下文。这就是为什么USAC存在有上下文映射机构的原因,即使当两个帧间的分辨率改变时仍然允许回复上下文。但某些编码模式的彼此差异过大,即使上下文映射也可能无效。接着要求重置。
例如在统一语言及音频编码器(USAC),当从频域编码转换至线性预测域编码,或从线性预测域编码转换至频域编码时可触发此种重置。换句话说,每当编码模式在频域编码与线性预测域编码间改变时,可执行及以信号传递上下文自适应算术编码器1420的上下文重置。此种上下文重置可通过专用上下文重置标记以信号传递或不以信号传递。然而,可选择地,可在解码器侧探讨不同边信息例如指示编码模式的边信息来触发上下文的重置。
2.4.音频编码器—图16的实施例
图16示出另一个音频编码器的模块示意图,该编码器实施又另一种重置策略来作为编码器特征。该策略于编码器侧触发重置标记,基于1位发送1024个样本的每个帧。
图16的音频编码器1600类似于图14、图15的音频编码器1400、1500,因此相同结构特征及信号表示以相同的元素符号。但音频编码器1600包括两个上下文自适应算术编码器1420、1620(或至少可编码使用两个不同编码上下文欲当前编码的频谱值1414)。用于这个目的,先进上下文产生器1640配置为提供上下文信息1642,不通过上下文重置获得上下文信息1642,用于第一上下文自适应算术编码(例如用于上下文自适应算术编码器1420),以及用于提供第二上下文信息1644,通过应用上下文重置获得第二上下文信息1644,用于第二次编码当前欲编码的频谱值(例如于上下文自适应算术编码器1620)。位计数器/比较1660确定(或估计)使用非重置上下文编码频谱值所需位数,和也确定(或估计)使用重置上下文用于编码当前将要编码的频谱值所需位数。因此,就位率而言,位计数器/比较1660判定重置或不重置上下文哪个更有好处。因此,就位率而言,位计数器/比较1660依据是否优选重置上下文,提供激活状态的上下文重置标记。进一步地,再次依据非重置上下文或重置上下文是否导致较低位率,位计数器/比较1660可选择地提供使用非重置上下文编码的频谱值或使用重置上下文编码的频谱值作为输出信息1424。
综上所述,图16示出音频编码器,其使用闭环决策来判定是否激活或不激活该重置标记。因此,解码器包括重置策略作为编码器特征。该策略在编码器侧触发重置标记,基于1位1024个样本的每个帧发送重置标记。
发现信号特性有时在帧间急速改变。对于此种信号的不稳定部分,来自于过去的帧的上下文经常无意义。此外,发现在上下文自适应编码中考虑过去帧的缺点大于优点。解决的方式是当出现重置标记时触发重置标记。检测此种情况的方式在于两个重置标记开或关时比较解码效率。然后使用与最佳编码相对应的标记值(来决定编码器上下文的新颖状态)并将其传输。这种机制在统一语言及音频编码(USAC)中实施,测得下列效能的平均增益:
12kbps单声:1.55位/帧(最大值:54)
16kbps单声:1.97位/帧(最大值:57)
20kbps单声:285位/帧(最大值:69)
24kbps单声:3.25位/帧(最大值:122)
16kbps立体声:2.27位/帧(最大值:70)
20kbps立体声:2.92位/帧(最大值:80)
24kbps立体声:2.88位/帧(最大值:119)
32kbps立体声:3.01位/帧(最大值:121)
2.5.音频编码器—图17的实施例
后文将参考图17说明另一个音频编码器1700。音频编码器1700类似于图14、15及16的音频编码器1400、1500及1600,因此相同的元素符号将用来表示相同装置及信号。
当相比较于其它音频编码器时,音频编码器1700包括不同的重置标记产生器1770。重置标记产生器1770接收由音频处理器1410所提供的边信息,以及基于此提供的重置标记1772,将重置标记1772提供给上下文产生器1440。但需要注意的是,音频编码器1700避免将重置标记1772包含入已编码音频流。反而只将音频处理器边信息1780包含入已编码音频流。
重置标记产生器1770例如可配置为从音频处理器边信息1780推导出上下文重置标记1772。例如,重置标记产生器1770可评估群组化信息(前文已述)以判定是否重置上下文。因此上下文可在不同群组频谱系数集合的编码之间被重置,例如参考图13的解码器的说明。
因此,音频编码器1700使用重置策略,该策略可与解码器的重置策略相同。但重置策略可避免专用上下文重置标记的传输。换句话说,此处所述重置策略无需传输任何额外信息至解码器。使用已经送至解码器的边信息(例如群组化边信息)。此处需要注意的是,用于本策略,在编码器及解码器使用相同机制来测定是否重置该上下文。因此,参考图13的讨论。
2.6.音频编码器—进一步标注
首先,需要注意的是,可结合此处例如2.1至2.5节讨论的不同重置策略。特别地,可结合已经参考图14至图16讨论作为编码器特征的重置策略。然而,如果需要,参考图17讨论的重置策略也可结合其它重置策略。
此外,需要注意的是,在编码器侧的上下文的重置应与解码器侧上下文的重置同步发生。因此,编码器用于在前文(例如参考图10a-10c、12及13)讨论的时间(或对帧或窗口)提供讨论的上下文重置标记,使得解码器的讨论暗示相对应的编码器功能(有关上下文重置标记的产生)。同理,大部分情况下编码器功能的讨论与解码器各个功能相对应。
3.解码音频信息的方法
后文将参考图18简要讨论基于已编码音频信息提供已解码音频信息的方法。图18示出此种方法1800。方法1800包括步骤1810,在非重置操作状态下,考虑基于先前已解码的音频信息的上下文,解码该经熵编码的音频信息。解码该经熵编码的音频信息包括选择1812映射信息用于依据上下文从该已编码的音频信息推导出已解码的音频信息,其使用1814该所选定的映射信息来推导出部分已解码的音频信息。解码该经熵编码的音频信息也包括响应于边信息,重置1816该用于选择映射的上下文至默认上下文,默认上下文独立于先前已解码的音频信息;以及使用1818基于该默认上下文的映射信息,用于推导出该已解码音频信息的第二部分。
方法1800可通过在此讨论的有关音频信息解码,和有关本装置的任一项功能实施。
4.编码音频信号的方法
之后,将参考图19说明基于输入音频信息提供已编码音频信息的方法1900。
方法1900包括在非重置操作状态下,依据上下文编码1910该输入音频信息的给定音频信息,该上下文基于时间上或频谱上相邻于该给定音频信息的相邻音频信息。
方法1900也包括依据上下文选择1920映射信息,用于从所输入的音频信息推导出已编码的音频信息。
此外,方法1900包括响应于上下文重置状况的发生,在输入音频信息的连续块内部(例如于解码两个帧之间,其时域信号为重迭与相加),重置1930该用于选择映射信息的上下文至默认上下文,默认上下文独立于先前已解码的音频信息。
方法1900也包括提供1940该已编码音频信息的边信息(例如上下文重置标记或群组化信息)指示此种上下文重置状况的存在。
可补充以此处就本发明的音频编码概念所述的任何结构特征及功能。
5.实施替代的方式
虽然已经就装置说明一些方面,但显然这些方面也表示相对应方法的说明,此处模块或装置与方法步骤或方法步骤的结构特征相对应。同理,在方法步骤的上下文所述的方面也表示相对应装置的相对应模块或项目或结构特征的说明。
本发明的已编码音频信号可储存于数字储存媒体上,或可于传输媒体例如无线传输媒体或有线传输媒体诸如因特网传输。
依据一些实施要求,本发明的实施例可用硬件或软件实施。可使用数字储存媒体例如软盘、DVD、蓝光盘、CD、ROM、PROM、EPROM、EEPROM、或FLASH内存,其上储存有可电子式读取控制信号,该等信号与可编程计算机系统协力合作(或可协力合作)因而执行各个方法予以实施。因此,数字储存媒体可为计算机可读取。
根据本发明的一些实施例包括具有可电子式读取控制信号的数据载体,而这些信号可与可编程计算机系统合作因而执行此处所述的方法。
一般而言,本发明的实施例可实施为具有程序代码的计算机程序产品,当该计算机程序产品于计算机上运行时,该程序代码可操作用于执行该等方法中的一个。程序代码例如可储存于机器可读取载体上。
其它实施例包括储存于机器可读取载体上用于执行此处所述方法中的一个的计算机程序。
换句话说,因此本发明的实施例为一种具有程序代码的计算机程序,当该计算机程序在计算机上执行时,该程序代码用于执行此处所述方法中的一个。
因此,本发明的额外实施例包括其上记录用于执行此处所述方法中的一个的计算机程序的数据载体(或数字储存媒体或计算机可读取媒体)。
因此,本发明的又一实施例为用于执行此处所述方法中的一个的表示该计算机程序的数据串流或信号序列。该数据串流或信号序列例如可用于透过数据通讯连接例如透过因特网传送。
又一个实施例包括一种处理装置例如计算机或可程序逻辑装置,其用于或自适应而执行此处所述方法中的一个。
又一实施例包括其上安装用于执行此处所述方法中的一个的该计算机程序的计算机。
在一些实施例中,可编程逻辑装置(例如现场可编程逻辑阵列)可用于执行此处所述方法的部分或全部功能。在一些实施例中,现场可编程逻辑阵列可与微处理器合作来执行此处所述方法中的一个。大致上,这些方法优选通过任何硬件装置执行。
前述实施例仅供举例说明本发明的原理。须了解此处所述配置及细节的修改及变化对本领域技术人员为显然易见的。因此预期本发明仅受随附的专利权利要求的范围所限而不受通过举例说明此处实施例所呈现的特定细节所限。
Claims (18)
1.一种用于基于经熵编码的音频信息(110;210,222,224)提供已解码的音频信息(112;212)的音频解码器(100;200),所述音频解码器(100;200)包括:
基于上下文的熵解码器(120;240),所述基于上下文的熵解码器(120;240)配置为依据上下文(q[0],q[1])解码所述经熵编码的音频信息(110;210,222,224),所述上下文基于在非重置操作状态的先前已解码的音频信息;
其中,所述基于上下文的熵解码器(120;240)配置为依据所述上下文(q[0];q[1])选定映射信息(cum_freq[pki]),用于从所述已编码的音频信息推导出所述已解码的音频信息(112;212);以及
其中,所述基于上下文的熵解码器(120;240)包括上下文重置器(130),所述上下文重置器(130)配置为响应于所述已编码音频信息(110;210)的边信息(132;arith_reset_flag),重置(arith_reset_context)所述用于选择映射信息的上下文(q[0],q[1])至默认上下文,所述默认上下文独立于所述先前已解码的音频信息(qs)。
2.根据权利要求1所述的音频解码器(100;200),其中,所述上下文重置器(130)配置为在所述具有相同频谱分辨率的相关联频谱数据的已编码音频信息(110;210)的随后时间部分(1010;1012)的解码间,可选择地重置所述基于上下文的熵解码器(120;240)。
3.根据权利要求1或2所述的音频解码器(100;200),其中,所述音频解码器配置为接收描述在第一音频帧(1010)及在所述第一音频帧之后的第二音频帧(1012)内的频谱值的信息作为所述已编码音频信息(110;210,222,224)的组成部分;
其中,所述音频解码器包括频谱域至时域变换器(252;262),所述频谱域至时域变换器(252;262)配置为重迭及相加第一窗口化时域信号和第二窗口化时域信号以推导出所述已解码的音频信息(112;212),其中,所述第一窗口化时域信号基于所述第一音频帧(1010)的频谱值,所述第二窗口化时域信号基于所述第二音频帧(1012)的频谱值;
其中,所述音频解码器配置为分开调整用于获得所述第一窗口化时域信号的窗口的窗口形状及用于获得第二窗口化时域信号的窗口的窗口形状;以及
其中,所述音频解码器配置为响应于所述边信息(132;arith_reset_flag),在所述第一音频帧(1010)的频谱值解码与所述第二音频帧(1012)的频谱值解码之间进行所述上下文(q[0],q[1])的重置(arith_reset_context),即使所述第二窗口形状与所述第一窗口形状相同,
从而如果所述边信息指示重置所述上下文,则用于解码所述第二音频帧(1012)的已编码音频信息的所述上下文独立于所述第一音频帧(1010)的已解码音频信息。
4.根据权利要求3所述的音频解码器(100;200),其中,所述音频解码器配置为接收用于表示所述上下文重置的上下文重置边信息(132;arith_reset_flag);以及
其中,所述音频解码器配置为额外接收窗口形状边信息(window_sequence,window_shape);以及
其中,所述音频解码器配置为独立于执行所述上下文的重置,调整所述窗口的窗口形状用于获得所述第一窗口化时域信号及所述第二窗口化时域信号。
5.根据权利要求1至4任一项所述的音频解码器(100;200),
其中,所述音频解码器配置为接收所述已编码音频信息的每个音频帧的1位上下文重置标记,作为用于重置所述上下文的所述边信息(132;arith_reset_flag);以及
其中,所述音频解码器配置为除了所述上下文重置标记外,还接收用于描述由所述已编码音频信息(110;210,222,224)所表示的频谱值的频谱分辨率的边信息或用于窗口化由所述已编码音频信息所表示的时域值的时间窗口的窗口长度;以及
其中,所述上下文重置器(130)配置为响应于所述1位上下文重置标记,在已编码音频信息的两个音频帧的频谱值(242,244)的解码之间执行所述上下文的重置,所述已编码音频信息表示相同频谱分辨率的频谱值或窗口长度。
6.根据权利要求1至5任一项所述的音频解码器(100;200),其中,所述音频解码器配置为接收所述已编码的音频信息的每个音频帧的1位上下文重置标记,作为用于重置所述上下文的边信息(132;arith_reset_flag);
其中,所述音频解码器配置为接收已编码音频信息(110;210;22;224),所述已编码音频信息(110;210;22;224)包括每个音频帧(1040)的多个频谱值集合(1042a,1042b,…1042h);
其中,所述基于上下文的熵解码器(120;240)配置为在非重置操作状态,依据上下文(q[0],q[1])解码给定音频帧(1040)的随后频谱值集合(1042b)的所述经熵编码的音频信息,所述上下文基于所述给定音频帧(1040)的先前频谱值集合(1042a)的先前已解码的音频信息(q[0]);以及
其中,所述上下文重置器(130)配置为响应于所述1位上下文重置标记(132;arith_reset_flag),在所述给定的音频帧(1040)的第一频谱值集合(1042a)解码之前以及在所述给定音频帧(1040)的任何随后两个频谱值集合(1042a-1042h)的解码之间重置所述上下文(q[0],q[1])至所述默认上下文,
从而当解码所述音频帧(1040)的多个频谱值集合(1042a-1042h)时,所述给定音频帧(1040)的所述1位上下文重置标记(132;arith_reset_flag)的激活引起所述上下文(q[0],q[1])的多时间重置。
7.根据权利要求6所述的音频解码器(100;200),其中,所述音频解码器配置为还接收群组化边信息(scale_factor_grouping);以及
其中,所述音频解码器配置为依据所述群组化边信息(scale_factor_grouping),群组化所述频谱值集合(1042a-1042h)中的两个或更多个,用于与通用比例因子信息的组合;以及
其中,所述上下文重置器(130)配置为响应于所述1位上下文重置标记(132;arith_reset_flag),在群组化到一起的两个频谱值集合(1042a,1042b)解码之前重置所述上下文(q[0],q[1])至所述默认上下文。
8.根据权利要求1至7任一项所述的音频解码器(100;200),
其中,所述音频解码器配置为接收每个音频帧的1位上下文重置标记(132;arith_reset_flag),作为用于重置所述上下文的边信息;
当所述音频解码器被配置为接收已编码音频帧序列(1070,1072)作为所述已编码音频信息时,所述已编码音频帧序列包括单窗口帧(1070)及多窗口帧(1072);
其中,所述熵解码器(120)配置为依据上下文,解码先前单窗口音频帧(1070)之后的多窗口音频帧(1072)的经熵编码的频谱值,所述上下文基于在非重置操作状态下所述先前单窗口音频帧(1070)的先前已解码音频信息;
其中,所述熵解码器(120)配置为依据上下文,解码先前多窗口音频帧(1072)之后的单窗口音频帧的经熵编码的频谱值,所述上下文基于在非重置操作状态下所述先前多窗口音频帧(1072)的先前已解码音频信息;
其中,所述熵解码器(120)配置为依据上下文,解码先前单窗口音频帧(1010)之后的单窗口音频帧(1012)的经熵编码的频谱值,所述上下文基于在非重置操作状态下所述先前单窗口音频帧(1010)的先前已解码音频信息;
其中,所述熵解码器(120)配置为依据上下文,解码先前多窗口音频帧(1072)之后的多窗口音频帧的经熵编码的频谱值,所述上下文基于在非重置操作状态下所述先前多窗口音频帧(1072)的先前已解码音频信息;
其中,所述上下文重置器(130)配置为响应于1位上下文重置标记(132;arith_reset_flag),在随后音频帧的经熵编码频谱值的解码之间重置所述上下文(q[0],q[1]);以及
其中,所述上下文重置器(130)配置为在多窗口音频帧的情况下,响应于所述1位上下文重置标记,在与所述多窗口音频帧的不同窗口相关联的经熵编码的频谱值的解码之间额外地重置所述上下文(q[0],q[1])。
9.根据权利要求1至8任一项所述的音频解码器(100;200),其中,所述音频解码器配置为对已编码的音频信息(110;210;224)的每个音频帧接收1位上下文重置标记,作为用于重置所述上下文(q[0],q[1])的边信息(132;arith_reset_flag),以及
接收已编码的音频帧序列(1210,1220,1230),作为所述已编码的音频信息,所述已编码的音频帧序列包括线性预测域音频帧(1210,1220,1230);
其中,所述线性预测域音频帧包括可选择数目的变换编码激励部分(1212b,1212c,1212d,1222a,1222b,1222c,1222d,1232)用于激励线性预测域音频合成器(262);以及
其中,所述基于上下文的熵解码器(120:240)配置为依据上下文(q[0],q[1])解码所述经变换编码的激励部分的频谱值,所述上下文基于在非重置操作下的先前已解码的音频信息;以及
其中,所述上下文重置器(130)配置为响应于所述边信息(132;arith_reset_flag),在给定音频帧(1210,1220,1230)的第一经变换编码激励部分(1212b,1222a,1232)的频谱值集合解码之前,重置所述上下文(q[0],q[1])至所述默认上下文,同时在所述给定音频帧(1210,1220,1230)的不同的经变换编码激励部分(1212b,1212c,1212d;122a,1222b,1222c,1222d)的频谱值集合的解码之间不将所述上下文重置至所述默认上下文。
10.根据权利要求1至9任一项所述的音频解码器(100;200),其中,所述音频解码器配置为接收已编码的音频信息,所述已编码的音频信息包括对于每个音频帧(1320,1330)的多个频谱值集合;以及
其中,所述音频解码器配置为还接收群组化边信息(scale_factor_grouping);以及
其中,所述音频解码器配置为依据所述群组化边信息群组化(1322a,1322c,1322d,1330c,1330d)所述两个或更多个频谱值集合,用于与通用比例因子信息的组合;
其中,所述上下文重置器(130)配置为响应于所述群组化边信息scale_factor_grouping),重置所述上下文(q[0],q[1])至所述默认上下文;以及
其中,所述上下文重置器(130)配置为在随后群组的频谱值集合的解码之间重置所述上下文(q[0],q[1]),以避免在单组频谱值集合的解码之间重置所述上下文。
11.一种用于基于已编码音频信息提供已解码音频信息的方法(1800),所述方法包括:
在非重置操作状态下,考虑上下文解码(1810)经熵编码的音频信息,所述上下文基于先前已解码的音频信息,
其中,解码所述经熵编码的音频信息包括依据所述上下文,选择(1812)用于从所述已编码的音频信息推导出所述已解码的音频信息的映射信息,和使用(1814)所选定的映射信息用于推导出所述已解码的音频信息的第一部分;以及
其中,解码所述经熵编码的音频信息也包括响应于边信息,重置(1816)用于选择所述映射信息的上下文至默认上下文,所述默认上下文独立于该先前已解码的音频信息,和使用(1818)基于所述默认上下文的所述映射信息用于解码所述已解码音频信息的第二部分。
12.一种用于基于输入音频信息(1412)提供已编码音频信息(1424)的音频编码器(1400;1500;1600;1700),所述音频编码器包括:
基于上下文的熵编码器(1420,1440,1450;1420,1440,1550;1420,1440,1660;1420,1440,1770),所述基于上下文的熵编码器配置为在非重置操作状态下,依据上下文(q[0],q[1])编码所述输入音频信息(1412)的给定音频信息,所述上下文基于时间上或频谱上相邻于所述给定音频信息的相邻音频信息;
其中,所述基于上下文的熵编码器(1420,1440,1450;1420,1440,1550;1420,1440,1660;1420,1440,1770)配置为依据所述上下文选择用于从所述输入音频信息(1420)推导出所述已编码音频信息的映射信息(cum_freq[pki]);以及
其中,所述基于上下文的熵编码器包括上下文重置器(1450;1550;1660;1770),所述上下文重置器(1450;1550;1660;1770)配置为响应于上下文重置状况的发生,在相邻条输入音频信息(1412)内,重置用于选择所述映射信息的所述上下文至默认上下文,所述默认上下文独立于先前已解码的音频信息;以及
其中,所述音频编码器配置为提供所述已编码音频信息(1424)的边信息(1480;1780),所述边信息(1480;1780)指示上下文重置状况的存在。
13.根据权利要求12所述的音频编码器(1400),其中,所述音频编码器配置为对于每n帧输入音频信息,至少执行一次规律的上下文重置。
14.根据权利要求12或13所述的音频编码器(1500),其中,所述音频编码器配置为在多个不同编码模式间切换,和其中所述音频编码器配置为响应于两个编码模式之间的改变而执行上下文重置。
15.根据权利要求12至14任一项所述的音频编码器(1600),其中,所述音频编码器配置为依据非重置上下文(1642)计算或估算编码所述输入音频信息(1212)的某个音频信息所需的第一数目的位数,所述非重置上下文基于时间上或频谱上相邻于所述某个音频信息的相邻音频信息,和所述音频编码器配置为计算或估算使用所述默认上下文(1644)编码所述某个音频信息所需的第二数目的位数;以及
其中,所述音频编码器配置为比较所述第一数目的位数及所述第二数目的位数以基于所述非重置上下文(1642)或所述默认上下文(1644)判定是否提供与所述某个音频信息相对应的所述已编码音频信息(1424),和是否使用所述边信息(1480)以信号传递该判定结果。
16.一种用于基于输入音频信息(1412)提供已编码音频信息(1424)的方法,所述方法包括:
在非重置操作状态下,依据上下文编码(1910)所述输入音频信息的给定音频信息,所述上下文基于时间上或频谱上相邻于所述给定音频信息的相邻音频信息,
其中,依据所述上下文编码所述给定音频信息包括依据所述上下文选择(1920)映射信息,用于从所述输入音频信息推导出所述已编码音频信息,
响应于上下文重置状况的出现,在相邻条输入音频信息内重置(1930)用于选择所述映射信息的所述上下文至默认上下文,所述默认上下文独立于所述先前已解码的音频信息;及
提供(1940)所述已编码音频信息的边信息,所述边信息指示所述上下文重置状况的存在。
17.一种计算机程序,用于当所述计算机程序在计算机上运行时执行根据权利要求11或权利要求16所述的方法。
18.一种已编码音频信号,所述已编码音频信号包括:
多个频谱值集合的已编码表示(arith_data),
其中,依据非重置上下文编码多个频谱值集合,所述非重置上下文依据各个的先前频谱值集合;
其中,依据默认上下文编码多个频谱值集合,所述默认上下文独立于各个先前频谱值集合;以及
其中,所述已编码音频信号包括边信息(arith_reset_flag),以信号传递是否依据非重置上下文或依据默认上下文编码频谱系数集合。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10382008P | 2008-10-08 | 2008-10-08 | |
US61/103,820 | 2008-10-08 | ||
PCT/EP2009/007169 WO2010040503A2 (en) | 2008-10-08 | 2009-10-06 | Audio decoder, audio encoder, method for decoding an audio signal, method for encoding an audio signal, computer program and audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102177543A true CN102177543A (zh) | 2011-09-07 |
CN102177543B CN102177543B (zh) | 2013-05-15 |
Family
ID=42026731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801402269A Active CN102177543B (zh) | 2008-10-08 | 2009-10-06 | 音频解码器、音频编码器、用于解码音频信号的方法、用于编码音频信号的方法 |
Country Status (16)
Country | Link |
---|---|
US (1) | US8494865B2 (zh) |
EP (4) | EP2346029B1 (zh) |
JP (2) | JP5253580B2 (zh) |
KR (2) | KR101436677B1 (zh) |
CN (1) | CN102177543B (zh) |
AR (1) | AR073732A1 (zh) |
AU (1) | AU2009301425B2 (zh) |
BR (1) | BRPI0914032B1 (zh) |
CA (3) | CA2871268C (zh) |
MX (1) | MX2011003815A (zh) |
MY (1) | MY157453A (zh) |
PL (2) | PL2346030T3 (zh) |
RU (1) | RU2543302C2 (zh) |
TW (1) | TWI419147B (zh) |
WO (1) | WO2010040503A2 (zh) |
ZA (1) | ZA201102476B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104254885A (zh) * | 2012-03-29 | 2014-12-31 | 瑞典爱立信有限公司 | 谐波音频信号的变换编码/解码 |
CN105408956A (zh) * | 2013-06-21 | 2016-03-16 | 弗朗霍夫应用科学研究促进协会 | 用于获取用于音频信号的替换帧的频谱系数的方法及装置、音频解码器、音频接收器、以及用于发送音频信号的系统 |
CN105723452A (zh) * | 2013-10-18 | 2016-06-29 | 弗劳恩霍夫应用研究促进协会 | 音频信号的频谱的频谱系数的编码 |
CN106796787A (zh) * | 2014-05-20 | 2017-05-31 | 亚马逊技术有限公司 | 在自然语言处理中使用先前对话行为进行的语境解释 |
CN109509483A (zh) * | 2013-01-29 | 2019-03-22 | 弗劳恩霍夫应用研究促进协会 | 产生频率增强音频信号的译码器和产生编码信号的编码器 |
CN110491399A (zh) * | 2014-03-24 | 2019-11-22 | 日本电信电话株式会社 | 编码方法、编码装置、程序以及记录介质 |
CN110895945A (zh) * | 2013-07-22 | 2020-03-20 | 弗朗霍夫应用科学研究促进协会 | 频谱包络的样本值的基于上下文的熵编码 |
CN112037803A (zh) * | 2020-05-08 | 2020-12-04 | 珠海市杰理科技股份有限公司 | 音频编码方法及装置、电子设备、存储介质 |
CN112447165A (zh) * | 2019-08-15 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 信息处理、模型训练和模型构建方法、电子设备、智能音箱 |
CN112634913A (zh) * | 2015-03-09 | 2021-04-09 | 弗劳恩霍夫应用研究促进协会 | 用于编码的音频编码器及用于解码的音频解码器 |
CN112735452A (zh) * | 2020-12-31 | 2021-04-30 | 北京百瑞互联技术有限公司 | 实现超低编码速率的编码方法、装置、存储介质及设备 |
CN112786063A (zh) * | 2014-07-28 | 2021-05-11 | 弗劳恩霍夫应用研究促进协会 | 使用频域处理器、时域处理器和用于连续初始化的交叉处理器的音频编码器和解码器 |
US11929084B2 (en) | 2014-07-28 | 2024-03-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor with full-band gap filling and a time domain processor |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2911228A1 (fr) * | 2007-01-05 | 2008-07-11 | France Telecom | Codage par transformee, utilisant des fenetres de ponderation et a faible retard. |
KR101325335B1 (ko) * | 2008-07-11 | 2013-11-08 | 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 | 오디오 샘플 인코드 및 디코드용 오디오 인코더 및 디코더 |
CA2871268C (en) * | 2008-07-11 | 2015-11-03 | Nikolaus Rettelbach | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program |
EP3300076B1 (en) | 2008-07-11 | 2019-04-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and audio decoder |
US9384748B2 (en) | 2008-11-26 | 2016-07-05 | Electronics And Telecommunications Research Institute | Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching |
KR101315617B1 (ko) * | 2008-11-26 | 2013-10-08 | 광운대학교 산학협력단 | 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기 |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
EP2315358A1 (en) * | 2009-10-09 | 2011-04-27 | Thomson Licensing | Method and device for arithmetic encoding or arithmetic decoding |
CA2778323C (en) | 2009-10-20 | 2016-09-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a detection of a group of previously-decoded spectral values |
SG182467A1 (en) | 2010-01-12 | 2012-08-30 | Fraunhofer Ges Forschung | Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a hash table describing both significant state values and interval boundaries |
US8280729B2 (en) * | 2010-01-22 | 2012-10-02 | Research In Motion Limited | System and method for encoding and decoding pulse indices |
AU2011287747B2 (en) * | 2010-07-20 | 2015-02-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using an optimized hash table |
ES2600313T3 (es) * | 2010-10-07 | 2017-02-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para la estimación de nivel de tramas de audio codificadas en un dominio de flujo de bits |
FI3518234T3 (fi) | 2010-11-22 | 2023-12-14 | Ntt Docomo Inc | Audiokoodauslaite ja -menetelmä |
EP2466580A1 (en) * | 2010-12-14 | 2012-06-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Encoder and method for predictively encoding, decoder and method for decoding, system and method for predictively encoding and decoding and predictively encoded information signal |
JP5666021B2 (ja) | 2011-02-14 | 2015-02-04 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 復号後オーディオ信号をスペクトル領域で処理する装置及び方法 |
WO2012110478A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Information signal representation using lapped transform |
SG192734A1 (en) | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Apparatus and method for error concealment in low-delay unified speech and audio coding (usac) |
CA2827335C (en) | 2011-02-14 | 2016-08-30 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Audio codec using noise synthesis during inactive phases |
MY159444A (en) * | 2011-02-14 | 2017-01-13 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V | Encoding and decoding of pulse positions of tracks of an audio signal |
WO2012110473A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion |
JP5914527B2 (ja) | 2011-02-14 | 2016-05-11 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 過渡検出及び品質結果を使用してオーディオ信号の一部分を符号化する装置及び方法 |
AU2012230442B2 (en) * | 2011-03-18 | 2016-02-25 | Dolby International Ab | Frame element length transmission in audio coding |
WO2013032822A2 (en) | 2011-08-26 | 2013-03-07 | Dts Llc | Audio adjustment system |
US9489962B2 (en) * | 2012-05-11 | 2016-11-08 | Panasonic Corporation | Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method |
CN104781878B (zh) * | 2012-11-07 | 2018-03-02 | 杜比国际公司 | 音频编码器和方法、音频转码器和方法、以及转换方法 |
US9319790B2 (en) | 2012-12-26 | 2016-04-19 | Dts Llc | Systems and methods of frequency response correction for consumer electronic devices |
CN116665683A (zh) | 2013-02-21 | 2023-08-29 | 杜比国际公司 | 用于参数化多声道编码的方法 |
US9236058B2 (en) | 2013-02-21 | 2016-01-12 | Qualcomm Incorporated | Systems and methods for quantizing and dequantizing phase information |
JP2014225718A (ja) * | 2013-05-15 | 2014-12-04 | ソニー株式会社 | 画像処理装置および画像処理方法 |
EP2830064A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
EP2830058A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Frequency-domain audio coding supporting transform length switching |
ES2763280T3 (es) | 2014-05-08 | 2020-05-27 | Ericsson Telefon Ab L M | Clasificador de señales de audio |
CN106448688B (zh) | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
EP2980796A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for processing an audio signal, audio decoder, and audio encoder |
WO2016142002A1 (en) * | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
US10574993B2 (en) | 2015-05-29 | 2020-02-25 | Qualcomm Incorporated | Coding data using an enhanced context-adaptive binary arithmetic coding (CABAC) design |
CA3228657A1 (en) | 2015-10-08 | 2017-04-13 | Dolby International Ab | Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations |
SG10201908093SA (en) | 2015-10-08 | 2019-10-30 | Dolby Int Ab | Layered coding for compressed sound or sound field representations |
KR102632136B1 (ko) | 2017-04-28 | 2024-01-31 | 디티에스, 인코포레이티드 | 오디오 코더 윈도우 사이즈 및 시간-주파수 변환 |
KR102615903B1 (ko) | 2017-04-28 | 2023-12-19 | 디티에스, 인코포레이티드 | 오디오 코더 윈도우 및 변환 구현들 |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
TWI812658B (zh) | 2017-12-19 | 2023-08-21 | 瑞典商都比國際公司 | 用於統一語音及音訊之解碼及編碼去關聯濾波器之改良之方法、裝置及系統 |
JP7056340B2 (ja) | 2018-04-12 | 2022-04-19 | 富士通株式会社 | 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置 |
CA3091150A1 (en) * | 2018-07-02 | 2020-01-09 | Dolby Laboratories Licensing Corporation | Methods and devices for encoding and/or decoding immersive audio signals |
WO2020094263A1 (en) | 2018-11-05 | 2020-05-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs |
WO2020253941A1 (en) * | 2019-06-17 | 2020-12-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4956871A (en) * | 1988-09-30 | 1990-09-11 | At&T Bell Laboratories | Improving sub-band coding of speech at low bit rates by adding residual speech energy signals to sub-bands |
SE512719C2 (sv) | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
US5898605A (en) | 1997-07-17 | 1999-04-27 | Smarandoiu; George | Apparatus and method for simplified analog signal record and playback |
US6081783A (en) * | 1997-11-14 | 2000-06-27 | Cirrus Logic, Inc. | Dual processor digital audio decoder with shared memory data transfer and task partitioning for decompressing compressed audio data, and systems and methods using the same |
US6782360B1 (en) | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
US6978236B1 (en) | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
SE0001926D0 (sv) | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
SE0004818D0 (sv) | 2000-12-22 | 2000-12-22 | Coding Technologies Sweden Ab | Enhancing source coding systems by adaptive transposition |
DE60209888T2 (de) | 2001-05-08 | 2006-11-23 | Koninklijke Philips Electronics N.V. | Kodieren eines audiosignals |
US7469206B2 (en) | 2001-11-29 | 2008-12-23 | Coding Technologies Ab | Methods for improving high frequency reconstruction |
JP3864098B2 (ja) * | 2002-02-08 | 2006-12-27 | 日本電信電話株式会社 | 動画像符号化方法、動画像復号方法、及びこれらの方法の実行プログラムとこれらの実行プログラムを記録した記録媒体 |
RU2325046C2 (ru) | 2002-07-16 | 2008-05-20 | Конинклейке Филипс Электроникс Н.В. | Аудиокодирование |
DK1400954T3 (da) * | 2002-09-04 | 2008-03-31 | Microsoft Corp | Entropi-kodning ved tilpasning af kodning mellem niveau- og runlængde/niveau-moduser |
US7433824B2 (en) * | 2002-09-04 | 2008-10-07 | Microsoft Corporation | Entropy coding by adapting coding between level and run-length/level modes |
US7330812B2 (en) * | 2002-10-04 | 2008-02-12 | National Research Council Of Canada | Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel |
DE10252327A1 (de) | 2002-11-11 | 2004-05-27 | Siemens Ag | Verfahren zur Erweiterung der Bandbreite eines schmalbandig gefilterten Sprachsignals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals |
US20040138876A1 (en) | 2003-01-10 | 2004-07-15 | Nokia Corporation | Method and apparatus for artificial bandwidth expansion in speech processing |
KR100917464B1 (ko) | 2003-03-07 | 2009-09-14 | 삼성전자주식회사 | 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치 |
DE10345995B4 (de) * | 2003-10-02 | 2005-07-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten |
SE527669C2 (sv) * | 2003-12-19 | 2006-05-09 | Ericsson Telefon Ab L M | Förbättrad felmaskering i frekvensdomänen |
JP4241417B2 (ja) | 2004-02-04 | 2009-03-18 | 日本ビクター株式会社 | 算術復号化装置、および算術復号化プログラム |
JP4495209B2 (ja) | 2004-03-12 | 2010-06-30 | ノキア コーポレイション | 符号化済みマルチチャンネルオーディオ信号に基づくモノオーディオ信号の合成 |
FI119533B (fi) | 2004-04-15 | 2008-12-15 | Nokia Corp | Audiosignaalien koodaus |
JP4438663B2 (ja) * | 2005-03-28 | 2010-03-24 | 日本ビクター株式会社 | 算術符号化装置及び算術符号化方法 |
KR100713366B1 (ko) | 2005-07-11 | 2007-05-04 | 삼성전자주식회사 | 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치 |
US7539612B2 (en) | 2005-07-15 | 2009-05-26 | Microsoft Corporation | Coding and decoding scale factor information |
CN100403801C (zh) * | 2005-09-23 | 2008-07-16 | 联合信源数字音视频技术(北京)有限公司 | 一种基于上下文的自适应熵编/解码方法 |
CN100488254C (zh) * | 2005-11-30 | 2009-05-13 | 联合信源数字音视频技术(北京)有限公司 | 一种基于上下文的熵编码方法及解码方法 |
JP4211780B2 (ja) * | 2005-12-27 | 2009-01-21 | 三菱電機株式会社 | デジタル信号符号化装置、デジタル信号復号装置、デジタル信号算術符号化方法、およびデジタル信号算術復号方法 |
JP2007300455A (ja) * | 2006-05-01 | 2007-11-15 | Victor Co Of Japan Ltd | 算術符号化装置、および算術符号化装置におけるコンテキストテーブル初期化方法 |
US8010352B2 (en) | 2006-06-21 | 2011-08-30 | Samsung Electronics Co., Ltd. | Method and apparatus for adaptively encoding and decoding high frequency band |
JP2008098751A (ja) * | 2006-10-06 | 2008-04-24 | Matsushita Electric Ind Co Ltd | 算術符号化装置及び算術復号化装置 |
US8015368B2 (en) | 2007-04-20 | 2011-09-06 | Siport, Inc. | Processor extensions for accelerating spectral band replication |
WO2010003539A1 (en) | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal synthesizer and audio signal encoder |
CA2871268C (en) * | 2008-07-11 | 2015-11-03 | Nikolaus Rettelbach | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program |
EP3300076B1 (en) | 2008-07-11 | 2019-04-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and audio decoder |
-
2009
- 2009-06-25 CA CA2871268A patent/CA2871268C/en active Active
- 2009-06-25 PL PL11157204T patent/PL2346030T3/pl unknown
- 2009-06-25 PL PL11157188T patent/PL2346029T3/pl unknown
- 2009-06-25 CA CA2871252A patent/CA2871252C/en active Active
- 2009-06-25 EP EP11157188.1A patent/EP2346029B1/en active Active
- 2009-06-25 EP EP11157204.6A patent/EP2346030B1/en active Active
- 2009-10-06 CN CN2009801402269A patent/CN102177543B/zh active Active
- 2009-10-06 CA CA2739654A patent/CA2739654C/en active Active
- 2009-10-06 KR KR1020117010096A patent/KR101436677B1/ko active IP Right Grant
- 2009-10-06 JP JP2011530408A patent/JP5253580B2/ja active Active
- 2009-10-06 EP EP20155702.2A patent/EP3671736A1/en active Pending
- 2009-10-06 BR BRPI0914032A patent/BRPI0914032B1/pt active IP Right Grant
- 2009-10-06 MX MX2011003815A patent/MX2011003815A/es active IP Right Grant
- 2009-10-06 MY MYPI2011001546A patent/MY157453A/en unknown
- 2009-10-06 RU RU2011117696/08A patent/RU2543302C2/ru active
- 2009-10-06 EP EP09752278.3A patent/EP2335242B1/en active Active
- 2009-10-06 KR KR1020147014478A patent/KR101596183B1/ko active IP Right Grant
- 2009-10-06 AU AU2009301425A patent/AU2009301425B2/en active Active
- 2009-10-06 WO PCT/EP2009/007169 patent/WO2010040503A2/en active Application Filing
- 2009-10-07 TW TW098133976A patent/TWI419147B/zh active
- 2009-10-08 AR ARP090103874A patent/AR073732A1/es active IP Right Grant
-
2011
- 2011-04-04 ZA ZA2011/02476A patent/ZA201102476B/en unknown
- 2011-04-06 US US13/081,241 patent/US8494865B2/en active Active
-
2012
- 2012-12-21 JP JP2012280206A patent/JP5665837B2/ja not_active Expired - Fee Related
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104254885A (zh) * | 2012-03-29 | 2014-12-31 | 瑞典爱立信有限公司 | 谐波音频信号的变换编码/解码 |
CN104254885B (zh) * | 2012-03-29 | 2017-10-13 | 瑞典爱立信有限公司 | 谐波音频信号的变换编码/解码 |
CN109509483B (zh) * | 2013-01-29 | 2023-11-14 | 弗劳恩霍夫应用研究促进协会 | 产生频率增强音频信号的译码器和产生编码信号的编码器 |
CN109509483A (zh) * | 2013-01-29 | 2019-03-22 | 弗劳恩霍夫应用研究促进协会 | 产生频率增强音频信号的译码器和产生编码信号的编码器 |
CN105408956A (zh) * | 2013-06-21 | 2016-03-16 | 弗朗霍夫应用科学研究促进协会 | 用于获取用于音频信号的替换帧的频谱系数的方法及装置、音频解码器、音频接收器、以及用于发送音频信号的系统 |
US11282529B2 (en) | 2013-06-21 | 2022-03-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver, and system for transmitting audio signals |
US10475455B2 (en) | 2013-06-21 | 2019-11-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver, and system for transmitting audio signals |
CN110895945B (zh) * | 2013-07-22 | 2024-01-23 | 弗朗霍夫应用科学研究促进协会 | 频谱包络的样本值的基于上下文的熵编码 |
CN110895945A (zh) * | 2013-07-22 | 2020-03-20 | 弗朗霍夫应用科学研究促进协会 | 频谱包络的样本值的基于上下文的熵编码 |
US11790927B2 (en) | 2013-07-22 | 2023-10-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Context-based entropy coding of sample values of a spectral envelope |
CN105723452B (zh) * | 2013-10-18 | 2020-01-31 | 弗劳恩霍夫应用研究促进协会 | 音频信号的频谱的频谱系数的解码方法及解码器 |
US10847166B2 (en) | 2013-10-18 | 2020-11-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Coding of spectral coefficients of a spectrum of an audio signal |
CN105723452A (zh) * | 2013-10-18 | 2016-06-29 | 弗劳恩霍夫应用研究促进协会 | 音频信号的频谱的频谱系数的编码 |
CN110491399A (zh) * | 2014-03-24 | 2019-11-22 | 日本电信电话株式会社 | 编码方法、编码装置、程序以及记录介质 |
CN110491399B (zh) * | 2014-03-24 | 2022-10-21 | 日本电信电话株式会社 | 编码方法、编码装置以及记录介质 |
CN106796787B (zh) * | 2014-05-20 | 2020-12-22 | 亚马逊技术有限公司 | 在自然语言处理中使用先前对话行为进行的语境解释 |
CN106796787A (zh) * | 2014-05-20 | 2017-05-31 | 亚马逊技术有限公司 | 在自然语言处理中使用先前对话行为进行的语境解释 |
US11929084B2 (en) | 2014-07-28 | 2024-03-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor with full-band gap filling and a time domain processor |
US11915712B2 (en) | 2014-07-28 | 2024-02-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor, a time domain processor, and a cross processing for continuous initialization |
CN112786063A (zh) * | 2014-07-28 | 2021-05-11 | 弗劳恩霍夫应用研究促进协会 | 使用频域处理器、时域处理器和用于连续初始化的交叉处理器的音频编码器和解码器 |
CN112634913A (zh) * | 2015-03-09 | 2021-04-09 | 弗劳恩霍夫应用研究促进协会 | 用于编码的音频编码器及用于解码的音频解码器 |
US11741973B2 (en) | 2015-03-09 | 2023-08-29 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
US11881225B2 (en) | 2015-03-09 | 2024-01-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
CN112634913B (zh) * | 2015-03-09 | 2024-04-09 | 弗劳恩霍夫应用研究促进协会 | 用于编码的音频编码器及用于解码的音频解码器 |
CN112447165A (zh) * | 2019-08-15 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 信息处理、模型训练和模型构建方法、电子设备、智能音箱 |
CN112037803B (zh) * | 2020-05-08 | 2023-09-29 | 珠海市杰理科技股份有限公司 | 音频编码方法及装置、电子设备、存储介质 |
CN112037803A (zh) * | 2020-05-08 | 2020-12-04 | 珠海市杰理科技股份有限公司 | 音频编码方法及装置、电子设备、存储介质 |
CN112735452B (zh) * | 2020-12-31 | 2023-03-21 | 北京百瑞互联技术有限公司 | 实现超低编码速率的编码方法、装置、存储介质及设备 |
CN112735452A (zh) * | 2020-12-31 | 2021-04-30 | 北京百瑞互联技术有限公司 | 实现超低编码速率的编码方法、装置、存储介质及设备 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102177543B (zh) | 音频解码器、音频编码器、用于解码音频信号的方法、用于编码音频信号的方法 | |
USRE49363E1 (en) | Variable bit rate LPC filter quantizing and inverse quantizing device and method | |
TWI449033B (zh) | 用以編碼係數節段之音訊編碼器和方法、用以解碼已編碼音訊流之音訊解碼器和方法、及電腦程式 | |
CN101218630B (zh) | 处理音频信号的装置和方法 | |
US20100324912A1 (en) | Context-based arithmetic encoding apparatus and method and context-based arithmetic decoding apparatus and method | |
EP3373298B1 (en) | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal | |
CN102859588A (zh) | 音频信号编码器、音频信号译码器、用以提供音频内容的编码表示型态的方法、用以提供音频内容的译码表示型态的方法及用于低延迟应用的计算机程序 | |
CN102667922A (zh) | 音频编码器、音频解码器、用以将音频信息编码的方法、用以将音频信息解码的方法、及使用一组事先解码频谱值的检测的计算机程序 | |
AU2013345615B2 (en) | Method and apparatus for determining encoding mode, method and apparatus for encoding audio signals, and method and apparatus for decoding audio signals | |
CN102150205A (zh) | 用于编码和解码统合的语音与音频的设备 | |
KR102486258B1 (ko) | 스테레오 신호 인코딩 방법 및 인코딩 장치 | |
US11508386B2 (en) | Audio coding method based on spectral recovery scheme |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |