CN105247613B - 音频处理系统 - Google Patents
音频处理系统 Download PDFInfo
- Publication number
- CN105247613B CN105247613B CN201480024625.XA CN201480024625A CN105247613B CN 105247613 B CN105247613 B CN 105247613B CN 201480024625 A CN201480024625 A CN 201480024625A CN 105247613 B CN105247613 B CN 105247613B
- Authority
- CN
- China
- Prior art keywords
- signal
- grade
- mode
- audio
- mixed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 126
- 238000013139 quantization Methods 0.000 claims abstract description 131
- 230000005236 sound signal Effects 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 55
- 230000003595 spectral effect Effects 0.000 claims abstract description 55
- 238000005070 sampling Methods 0.000 claims abstract description 47
- 230000008569 process Effects 0.000 claims abstract description 38
- 238000000429 assembly Methods 0.000 claims abstract description 26
- 230000000712 assembly Effects 0.000 claims abstract description 26
- 230000009466 transformation Effects 0.000 claims description 110
- 230000008859 change Effects 0.000 claims description 36
- 238000001228 spectrum Methods 0.000 claims description 36
- 230000010076 replication Effects 0.000 claims description 24
- 239000000203 mixture Substances 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 13
- 239000002131 composite material Substances 0.000 claims description 13
- 238000002156 mixing Methods 0.000 claims description 12
- 230000010363 phase shift Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 8
- 238000011144 upstream manufacturing Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims 1
- 238000009826 distribution Methods 0.000 description 51
- 239000013598 vector Substances 0.000 description 33
- 238000010586 diagram Methods 0.000 description 25
- 238000011049 filling Methods 0.000 description 14
- 238000006073 displacement reaction Methods 0.000 description 13
- 230000009286 beneficial effect Effects 0.000 description 12
- 230000001965 increasing effect Effects 0.000 description 11
- 238000000926 separation method Methods 0.000 description 11
- 230000000295 complement effect Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 9
- 238000012937 correction Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 7
- 230000001360 synchronised effect Effects 0.000 description 6
- 206010044565 Tremor Diseases 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000009966 trimming Methods 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种音频处理系统(100)包括前端组件(102、103),其接收量化的谱分量,并且执行逆量化,从而得到中间信号的时域表示。该音频处理系统还包括:频域处理级(104、105、106、107、108),其被配置为提供处理的音频信号的时域表示;以及采样速率转换器(109),其提供以目标采样频率采样的重构音频信号。中间音频信号的时域表示和处理的音频信号的时域表示的相应的内部采样速率是相等的。在特定实施例中,处理级包括参数化上混级,其可以至少在两种不同的模式下进行操作,并且与确保恒定的总延迟的延迟级相关联。
Description
相关申请的交叉引用
本申请要求2013年4月5日提交的美国临时专利申请No. 61/809,019和2013年9月10日提交的美国临时专利申请No. 61/875,959的优先权,每个专利申请特此通过其整体引用而并入。
技术领域
本公开一般涉及音频编码和解码。各种实施例提供特别适合于话 音编码和解码的音频编码和解码系统(被称为音频编解码器系统)。
背景技术
复杂技术系统(包括音频编解码器系统)通常在长期的时间段累 积式地发展,并且常常是在独立的研究和开发团队中通过不协调的努 力而发展。作为结果,这样的系统可以包括表示不同的设计范式和/ 或不等水平的技术进步的组件的难处理的组合。频繁的保持与旧有设 备兼容的期望对设计者施加了附加的约束,并且可能导致系统架构的 连贯性较低。在参数化多声道音频编解码器系统中,向后兼容可能特 别涉及提供编码格式,在该编码格式中,下混信号在没有处理能力的 单声道或立体声回放系统中被播放时将返回能感觉得到地发声的输出。
代表本领域的状态的可用音频编码格式包括MPEG环绕、USAC 和高效AAC v2。这些已经在文献中被透彻地描述和分析。
将期望的是,提出一种特别是对于话音信号具有合理的性能的、 通用的、而架构上统一的音频编解码器系统。
发明内容
附图说明
现在将参照附图详细地描述本发明构思内的实施例,其中
图1是示出根据示例实施例的音频处理系统的总体结构的一般化 框图;
图2示出用于音频处理系统的两种不同单声道解码模式的处理路 径;
图3示出用于两个不同的参数化立体声解码模式的处理路径,一 个不具有而一个包括通过波形编码低频内容的后上混增强;
图4示出用于解码模式的处理路径,在该解码模式下,音频处理 系统对具有分开编码的声道的完全波形编码的立体声信号进行处理;
图5示出用于解码模式的处理路径,在该解码模式下,音频处理 系统通过在应用谱带复制之后参数化地混合三声道下混信号来提供五 声道信号;
图6示出根据示例实施例的音频处理系统的结构以及该系统中的 组件的内部工作;
图7是根据示例实施例的解码系统的一般化框图;
图8示出图7中的解码系统的第一部分;
图9示出图7中的解码系统的第二部分;
图10示出图7中的解码系统的第三部分;
图11是根据示例实施例的解码系统的一般化框图;
图12示出图11的解码系统的第三部分;
图13是根据示例实施例的解码系统的一般化框图;
图14示出图13中的解码系统的第一部分;
图15示出图13中的解码系统的第二部分;
图16示出图13中的解码系统的第三部分;
图17是根据第一示例实施例的编码系统的一般化框图;
图18是根据第二示例实施例的编码系统的一般化框图;
图19a示出以恒定比特速率提供比特流的示例音频编码器的框图;
图19b示出以可变比特速率提供比特流的示例音频编码器的框图;
图20示出基于变换系统的多个块产生示例包络;
图21a示出变换系数的块的示例包络;
图21b示出示例插值包络的确定;
图22示出示例量化器集合;
图23a示出示例音频解码器的框图;
图23b示出图23a的音频解码器的示例包络解码器的框图;
图23c示出图23a的音频解码器的示例子带预测器的框图;
图23d示出图23a的音频解码器的示例谱解码器的框图;
图24a示出示例的容许量化器集合的框图;
图24b示出示例抖动量化器的框图;
图24c示出示例的基于变换系数的块的谱对量化器的选择;
图25示出用于在编码器处以及在对应的解码器处确定量化器集 合的示例方案;
图26示出用于对已经使用抖动量化器确定的、熵编码的量化索引 进行解码的示例方案的框图;以及
图27示出示例比特分配处理。
所有图都是示意性的,并且一般仅示出了为了阐明本发明而必须 的部分,而其它部分则可以被省略或者仅仅被建议。
具体实施方式
音频处理系统接受被分割为携载音频数据的帧的音频比特流。音 频数据可能已经通过对声波进行采样并且将如此获得的电子时间采样 变换为谱系数而被准备,这些谱系数然后被量化并且被以适合于发送 或存储的格式编码。音频处理系统适于以单声道、立体声或多声道格 式重构采样的声波。如本文中所使用的,音频信号可以与纯音频信号 或者视频、视听或多媒体信号的音频部分有关。
音频处理系统一般被划分为前端组件、处理级和采样速率转换器。 前端组件包括:解量化级,其适于接收量化的谱系数并且输出中间信 号的第一频域表示;以及逆变换级,其用于接收中间信号的第一频域 表示,并且基于该第一频域表示来合成中间信号的时域表示。在一些 实施例中能够全部旁通的处理级包括:分析滤波器组,其用于接收中 间信号的时域表示,并且输出中间信号的第二频域表示;至少一个处 理组件,其用于接收中间信号的所述第二频域表示,并且输出处理的 音频信号的频域表示;以及合成滤波器组,其用于接收处理的音频信 号的频域表示,并且输出处理的音频信号的时域表示。采样速率转换 器最后被配置为接收处理的音频信号的时域表示并且输出以目标采样 频率采样的重构音频信号。
根据示例实施例,音频处理系统是单一速率架构,其中,中间音 频信号的时域表示和处理的音频信号的时域表示的相应的内部采样速 率是相等的。
在前端级包括核心编码器并且处理级包括参数化上混级的特定示 例实施例中,核心编码器和参数化上混级以相等的采样速率进行操作。 另外地或可替代地,核心编码器可以被扩展为对变换长度的较广范围 进行处理,并且采样速率转换器可以被配置为匹配标准视频帧速率以 允许视频同步音频帧的解码。以下将在音频模式编码章节下对这更详细地描述。
在更进一步的特定示例实施例中,前端组件可以在音频模式以及 不同于音频模式的话音模式下进行操作。因为话音模式专门适于话音 内容,所以这样的信号可以被更忠实地播放。在音频模式下,前端组 件可以类似于图6以及该说明书的相关联的章节中所公开的那样进行 操作。在话音模式下,前端组件可以如以下在话音模式编码章节中特 别讨论的那样进行操作。
在示例实施例中,一般来说,话音模式与前端组件的音频模式的 不同之处在于,逆变换级以较短的帧长度(或变换大小)进行操作。 减小的帧长度已经被证明更高效地捕获话音内容。在一些示例实施例 中,帧长度在音频模式内以及在视频模式内是可变的;它可以例如被 间歇地减小以捕获信号中的瞬变。在这样的情况下,从音频模式到话 音模式的模式改变将—所有其它的因素相等—暗示逆变换级的帧长度 的减小。换句话说,这样的从音频模式到话音模式的模式改变将暗示 (音频模式和话音模式中的每一个内的可选择帧长度之中的)最大帧 长度的减小。特别地,话音模式下的帧长度可以是音频模式下的当前 帧长度的固定的一小部分(例如,1/8)。
在示例实施例中,与处理级并行的旁通线路允许处理级在不希望 频域处理的解码模式下被旁通。当系统对分开编码的立体声或多声道 信号(特别是整个谱范围被波形编码(由此可能不需要谱带复制)的 信号)进行解码时,这可能是合适的。为了避免在旁通线路被切换进 入处理路径或从其切换出来的时刻的时移,旁通线路可以优选地包括 匹配处理级在其当前模式下的延迟(或算法延迟)的延迟级。在处理 级被布置为与其当前操作模式独立地具有恒定的(算法)延迟的实施 例中,旁通线路上的延迟级可能引发恒定的预定延迟;否则,旁通线 路中的延迟级优选地是自适应的,并且根据处理级的当前操作模式而变化。
在示例实施例中,参数化上混级可以在它接收3声道下混信号并 且返回5声道信号的模式下进行操作。可选地,谱带复制组件可以被 布置在参数化上混级的上游。在具有三个前置声道(例如,L、R和C) 以及两个环绕声道(例如,Ls、Rs)并且其中编码信号“前端重”的 回放声道配置中,该示例实施例可以实现更高效率的编码。实际上, 音频比特流的可用带宽主要花费在对三个前置声道尽可能多地进行波 形编码的尝试上。准备将被音频处理系统解码的编码设备可以在该模 式下通过测量将被编码的音频信号的性质来自适应地选择解码。以下 在标题立体声编码下讨论将一个下混声道上混为两个声道的上混过程和对应的下混过程的示例实施例。
在前面的示例实施例的进一步开发中,下混信号中的三个声道中 的两个对应于音频比特流中的联合编码的声道。这样的联合编码可能 需要,例如,一个声道的缩放被与其它声道相比较地表达。类似的方 法已经在AAC强度立体声编码中实现,其中,两个声道可以被编码 为声道对元素。已经通过收听实验证明,在给定比特速率处,当下混 信号的一些声道被联合编码时,重构音频信号的感知质量得到改进。
在示例实施例中,音频处理系统还包括谱带复制模块。以下在标 题立体声编码下更详细地讨论谱带复制模块(或高频重构级)。谱带 复制模块优选地在参数化上混级执行上混操作时(即,当它返回具有 被它接收的信号的声道的数量多的信号时)是活动的。然而,当参数 化上混级充当传递组件时,谱带复制模块可与参数化上混级的特定的 当前模式独立地进行操作;也就是说,在非参数化解码模式下,谱带 复制功能是可选的。
在示例实施例中,所述至少一个处理组件还包括波形编码级,以 下在多声道编码章节下更详细地描述波形编码级。
在示例实施例中,音频处理系统可操作为提供适合于旧有回放设 备的下混信号。更确切地说,通过将同相的环绕声道内容加到下混信 号中的第一声道并且将相移(例如,相移90度)的环绕声道内容加到 第二声道来获得立体声下混信号。这允许回放设备通过组合的反向相 移和减法运算来导出环绕声道内容。对于被配置为接受左-总/右-总下 混信号的回放设备,下混信号可能是可接受的。优选地,相移功能不 是音频处理系统的默认设置,而是可以在音频处理系统准备不意图用 于这种类型的回放设备的下混信号时被停用。实际上,存在已知的利 用相移的环绕信号不良地再现的特殊内容类型;特别地,从具有有限 空间广度的源记录的、随后在左前和左环绕信号之间平移的声音将不 会如预计的那样被感知为位于对应的左前和左环绕扬声器之间,但是 是将取决于与明确限定的空间位置无关联的许多收听者。该伪象可以 通过将环绕声道相移实现为可选的非默认功能来避免。
在示例实施例中,前端组件包括预测器、谱解码器、相加单元以 及逆平坦化单元。以下将在标题话音模式编码下更详细地描述提高系 统在它对话音类型的信号进行处理时的性能的这些元件。
在示例实施例中,音频处理系统还包括Lfe解码器,其用于基于 音频比特流中的信息来准备至少一个附加声道。优选地,Lfe解码器 分别从音频比特流所携载的其它声道提供被波形编码的低频效应声道。 如果附加声道与重构音频信号的其它声道分开编码,则对应的处理路 径可以与音频处理系统的其余部分独立。理解的是,每个附加声道加 到重构音频信号中的声道的总数;例如,在参数化上混级—如果这样 的级被提供—在N=5模式下进行操作并且存在一个附加声道的使用情 况下,重构音频信号中的声道的总数将为N+1=6。
进一步的示例实施例提供一种包括与以上音频处理系统在使用时 执行的操作对应的步骤的方法、以及一种用于使可编程计算机执行这 样的方法的计算机程序产品。
本发明构思进一步涉及一种编码器类型的音频处理系统,其用于 将音频信号编码为具有适合于在上文中描述的(解码器类型的)音频 处理系统中进行解码的格式的音频比特流。第一发明构思还包含用于 准备音频比特流的编码方法和计算机程序产品。
图1示出根据示例实施例的音频处理系统100。核心解码器101 接收音频比特流,并且至少输出量化的谱系数,该量化的谱系数被供 给到包括解量化级102和逆变换级103的前端组件。在一些示例实施 例中,前端组件可以具有双模式类型。在这些实施例中,它可以在通 用音频模式和特定音频模式(例如,话音模式)下选择性地操作。在 前端组件的下游,处理级在其上游端由分析滤波器组104来定界,并 且在其下游端由合成滤波器组108来定界。布置在分析滤波器组104 与合成滤波器组108之间的组件执行频域处理。在图1中所示的第一 构思的实施例中,这些组件包括:
●压扩组件105;
●组合组件106,其用于高频重构、参数化立体声和上混;以及
●动态范围控制组件107。
组件106可以例如执行如以下在本说明书的立体声编码章节中描 述的上混。
在处理级的下游,音频处理系统100还包括采样速率转换器109, 其被配置为提供以目标采样频率采样的重构音频信号。
在下游端,系统100可以可选地包括负责实现无修剪(non-clip) 条件的信号限制组件(未示出)。
此外,可选地,系统100可以包括并行处理路径,其用于提供一 个或多个附加声道(例如,低频效应声道)。该并行处理路径可以被 实现为Lfe解码器(在图1和图3-11中的任何一个中未示出),其接 收音频比特流或者其一部分,并且被布置为将如此准备的附加声道插 入到重构音频信号中;插入点可以紧靠采样速率转换器109的上游。
图2利用对应的标记示出图1中所示的音频处理系统的两个单声 道解码模式。更确切地说,图2示出在解码期间活动的并且形成用于 基于音频比特流来准备重构(单声道)音频信号的处理路径的那些系 统组件。注意,图2中的处理路径还包括最终的信号限制组件(“Lim”), 其被布置为缩减信号值以满足无修剪条件。图2中的上部的解码模式 使用高频重构,而图2中的下部的解码模式对完全经波形编码的声道 进行解码。因此,在下部的解码模式下,高频重构组件(“HFR”) 已被延迟级(“延迟”)代替,该延迟级引发与HFR组件的算法延 迟相等的延迟。
如图2的下部分所表明的,进一步可能的是完全旁通处理级 (“QMF”、“延迟”、“DRC”、“QMF-1”);当对信号不执行 动态范围控制(DRC)处理时,这可以是适用的。旁通处理级消除了 由于后跟QMF合成的QMF分析而导致的信号的任何潜在的劣化, 该QMF合成可以涉及非完美重构。旁通线路包括第二延迟线路级, 其被配置为将信号延迟与处理级的总(算法)延迟相等的量。
图3示出两个参数化立体声解码模式。在两个模式下,通过以下 获得立体声声道:将高频重构应用于第一声道,使用解相关器(“D”) 生成该第一声道的解相关版本,并然后形成两者的线性组合以获得立 体声信号。该线性组合由布置在DRC级的上游的上混级(“上混”) 计算。在模式中的一个—附图的下部分中所示的那个中—音频比特流 附加地携载用于两个声道的波形编码的低频内容(通过“\\\”填充的 区域)。通过图7-10以及本说明书的对应章节来描述后一模式的实现 细节。
图4示出其中音频处理系统对具有分开编码的声道的全部经波形 编码的立体声信号进行处理的解码模式。这是高比特速率立体声模式。 如果DRC处理不被视为必须的,则通过使用图4中所示的具有相应 的延迟级的两个旁通线路,处理级可以被完全旁通。延迟级优选地引 发与处理级在其它解码模式下时的延迟相等的延迟,使得模式切换可 以相对于信号内容连续地发生。
图5示出其中音频处理系统通过在应用谱带复制之后对三声道下 混信号进行参数化上混来提供五声道信号的解码模式。如已经提及的, 有利的是,联合地对声道中的两个(通过“///”填充的区域)编码(例 如,作为声道对元素),并且音频处理系统优选地被设计为利用该性 质对比特流进行处理。为了该目的,音频处理系统包括两个接收部分, 下部的接收部分被配置为对声道对元素进行解码,而上部的接收部分 用于对其余的声道(通过“\\\”填充的区域)进行解码。在QMF域 中进行高频重构之后,对声道对的每个声道单独进行解相关,此后, 第一上混级形成第一声道及其解相关的版本的第一线性组合,并且第 二上混级形成第二声道及其解相关的版本的第二线性组合。通过图 7-10以及本说明书的对应章节来描述该处理的实现细节。总共五个声 道然后在QMF合成之前经受DRC处理。
音频模式编码
图6是音频处理系统100的一般化框图,该音频处理系统100接 收编码的音频比特流P,并且以在图6中被示为一对立体声基带信号 L、R的重构音频信号作为其最终输出。在这个示例中,将假定比特 流P包括量化的、变换编码的两声道音频数据。音频处理系统100可 以从通信网络、无线接收器或存储器(未示出)接收音频比特流P。 系统100的输出可以被供给到扬声器以用于回放,或者可以被以相同 或不同的格式重编码以用于进一步通过通信网络或无线链路发送或者 以用于存储在存储器中。
音频处理系统100包括解码器108,其用于将比特流P解码为量 化的谱系数和控制数据。其结构将在以下进行更详细地讨论的前端组 件110对这些谱系数进行解量化,并且供给要被处理级120处理的中 间音频信号的时域表示。中间音频信号被分析滤波器组122L、122R变 换到第二频域中,该第二频域不同于与前面提及的编码变换相关联的 频域;第二频域表示可以是正交镜像滤波器(QMF)表示,在这种情 况下,分析滤波器组122L、122R可以被作为QMF滤波器组提供。在 分析滤波器组122L、122R的下游,负责高频重构的谱带复制(SBR) 模块124和动态范围控制器(DRC)模块126对中间音频信号的第二 频域表示进行处理。在其下游,合成滤波器组128L、128R生成如此处 理的音频信号的时域表示。如本领域技术人员在研究本公开之后将认 识到的,谱带复制模块124和动态范围控制模块126都不是本发明的 必须元件;相反,根据不同示例实施例的音频处理系统可以将附加的 或替代的模块包括在处理级120内。在处理级120的下游,采样速率 转换器130可操作为将处理的音频信号的采样速率调整为预期回放设 备(未示出)被设计成的期望的音频采样速率,诸如44.1kHz或48kHz。 如何设计在输出中具有低量伪象的采样速率转换器130在本领域中本身是已知的。采样速率转换器130可以在不需要采样速率转换时—即, 在处理级120供给已经具有目标采样频率的处理音频信号时—被停用。 布置在采样速率转换器130的下游的可选的信号限制模块140被配置 为根据无修剪条件、按照需要来限制基带信号值,无修剪条件可以鉴 于特定的预期回放设备而被再次选择。
如图6的下部分所示,前端组件110包括解量化级114和逆变换 级118L、118R,该解量化级114可以在具有不同块大小的几个模式中 的一个下被操作,逆变换级118L、118R也可以对不同块大小进行操作。 优选地,解量化级114和逆变换级118L、118R的模式改变是同步的, 使得块大小在所有时间点处都匹配。在这些组件的上游,前端组件110 包括解复用器112,其用于将量化的谱系数与控制数据分离;通常, 它将控制数据转发给逆变换级118L、118R,并且将量化的谱系数(以 及可选地,控制数据)转发给解量化级114。该解量化级114执行从 量化索引(通常被表示为整数)的一个帧到谱系数(通常被表示为浮 点数)的一个帧的映射。每个量化索引与量化水平(或重构点)相关 联。假定音频比特流已使用非均匀量化而准备,如以上所讨论的,该 关联不是唯一的,除非指定了量化索引涉及什么频带。换句话说,解 量化处理可以针对每个频带遵循不同的码本,并且该组码本可以根据 帧长度和/或比特速率而变化。在图6中,这被示意性地示出,其中, 垂直轴表示频率,而水平轴表示每单位频率分配的编码比特量。注意, 频带对于较高的频率通常较宽,并且结束于内部采样频率fi的一半处。 作为采样速率转换器130中的再采样的结果,内部采样频率可以被映 射到数值上不同的物理采样频率;例如,4.3%的上采样将将fi=46.034 kHz映射到近似的物理频率48kHz,并且将将较低的频带边界增大相 同的因子。如图6进一步表明的,准备音频比特流的编码器通常根据 编码信号的复杂度以及人类听觉的期望灵敏度变化来将不同量的编码 比特分配给不同频带。
表1中给出了表征音频处理系统100、并且特别是前端组件110 的操作模式的定量数据。
表1中的三个强调的列包含可控制量的值,而其余量可以被认为 是取决于这些。而且注意,再采样(SRC)因子的理想值为 (24/25)×(1000/1001)≈0.9560、24/25=0.96和1000/1001≈0.9990。表1中 列出的SRC因子值被四舍五入,如帧率值一样。再采样因子1.000是 精确的,并且对应于SRC 130被停用或完全不存在。在示例实施例中, 音频处理系统100可在至少两个具有不同帧长度的模式下操作,该模 式中的一个或多个可以与表1中的条目一致。
前端组件的帧长度被设置为1920个采样的模式a-d用于对被选择 为精确地匹配广泛的编码格式的视频帧率的(音频)帧率23.976、 24.000、24.975和25.000Hz进行处理。由于不同的帧长度,所以内部 采样频率(帧率×帧长度)在模式a-d下将从大约46.034kHz变化到 48.000kHz;假定临界采样和均匀间隔的频率区间(bin),这将对应 于从11.988Hz至12.500Hz的范围中的区间宽度值(一半内部采样频 率/帧长度)。因为内部采样频率的变化有限(作为帧率的变化范围为 大约5%的结果,它大约为5%),所以判断音频处理系统100将在所 有四个模式a-d下都递送合理的输出质量,尽管针对其准备传入音频 比特流的物理采样频率的非精确匹配。
继续前端组件110的下游,分析(QMF)滤波器组122在所有的 模式a-d下具有64个带,或者每QMF帧30个采样。从物理的角度, 这将对应于每个分析频带的略微变化的宽度,但是该变化再次是如此 有限的以致于它可以被忽略;特别地,SBR处理模块124和DRC处 理模块126可以不知道当前模式,而无损于输出质量。然而SRC 130 是模式相关的,并且将使用特定的再采样因子—其被选择为匹配目标 外部采样频率与内部采样频率的商—以确保处理的音频信号的每个帧 将包含在物理单位上与48kHz的目标外部采样频率对应的若干采样。
在模式a-d中的每一个下,音频处理系统100将精确地匹配视频 帧率和外部采样频率两者。音频处理系统100然后可以对多媒体比特 流T1和T2的音频部分进行处理,其中,音频帧A11、A12、A13、…; A22、A23、A24,…和视频帧V11、V12、V13,…;V22、V23、V24 在每个流内在时间上一致。于是,能够通过删除前导流中的音频帧和 相关联的视频帧来改进流T1、T2的同步性。可替代地,滞后流中的 音频帧和相关联的视频帧被重复并且被靠近原始位置插入,可以与插 值措施组合以减少可感知的伪象。
意图对帧率29.97Hz和30.00Hz进行处理的模式e和f可以被识 别为第二子组。如已经解释的,音频数据的量化针对大约48kHz的内 部采样频率而适应(或优化)。因此,因为每个帧较短,所以前端组 件110的帧长度被设置为较小值1536个采样,使得得到大约46.034 和46.080kHz的内部采样频率。如果分析滤波器组122就64个频带 而言是模式独立的,则每个QMF帧将包含24个采样。
类似地,50Hz和60Hz(对应于标准化的电视格式中的刷新率的 两倍)以及120Hz处或者其附近的帧率分别被模式g-i(帧长度960 个采样)、模式j-k(帧长度768个采样)和模式l(帧长度384个采 样)覆盖。注意,内部采样频率在每种情况下都保持接近48kHz,使 得通过其生成音频比特流的量化处理的任何心理声学调谐将至少保持 大致有效。64带滤波器组中的相应的QMF帧长度将是15个、12个 和6个采样。
如所提及的,音频处理系统100可以可操作为将音频帧细分为较 短的子帧;这样做的原因可能是更高效地捕获音频瞬变。对于48kHz 采样频率和表1中给出的设置,以下的表2-4示出源自细分为2个、4 个、8个和16个子帧的区间宽度和帧长度。可以认为,根据表1的设 置实现了时间和频率分辨率的有利平衡。
与帧的细分相关的决策可以被当作诸如音频编码系统(未示出) 中的准备音频比特流的处理的一部分。如表1中的模式m所示,音频 处理系统100可以被进一步使得能够利用与每QMF帧30个采样对应 的128个QMF带、并且以96kHz的增加的外部采样频率进行操作。因为外部采样频率偶然与内部采样频率一致,所以SRC因子是一,对 应于再采样不是必须的。
多声道编码
如本章节中所使用的,音频信号可以是纯音频信号、视听信号或 多媒体信号的音频部分、或者这些中的任何一个与元数据的组合。
如本章节中所使用的,多个信号的下混意指组合多个信号(例如, 通过形成线性组合),使得获得较少量的信号。下混的反向操作被称 为上混,即对较少量的信号执行操作以获得较多量的信号。
图7是用于重构M个编码声道的多声道音频处理系统中的解码器 100的一般化框图。解码器100包括三个概念部分200、300、400,其 在以下将结合图17-19更详细地解释。在第一概念部分200中,编码 器接收表示要被解码的多声道音频信号的M个波形编码信号和N个 波形编码的下混信号,其中,1<N<M。在所示的示例中,N被设置为 2。在第二概念部分300中,M个波形编码信号被与N个波形编码的 下混信号进行下混和组合。然后对组合的下混信号执行高频重构 (HFR)。在第三概念部分400中,对高频重构的信号进行上混,并 且将M个波形编码的信号与上混信号组合以重构M个编码声道。
在结合图8-10描述的示例性实施例中,描述了编码的5.1环绕声 的重构。可以注意到,低频效应信号在所描述的实施例中或者在附图 中未被提及。这并不意味着任何低频效应被忽略。低频效应(Lfe)被 以本领域技术人员熟知的任何合适的方式添加到重构的5声道。还可 以注意到,所描述的解码器同样很好地适合于其它类型的编码环绕声, 诸如7.1或9.1环绕声。
图8示出图7中的解码器100的第一概念部分200。该解码器包 括两个接收级212、214。在第一接收级212中,将比特流202解码和 解量化为两个波形编码的下混信号208a-b。这两个波形编码的下混信 号208a-b中的每一个包括与第一交叉频率ky与第二交叉频率kx之间 的频率对应的谱系数。
在第二接收级214中,将比特流202解码和解量化为五个波形编 码的信号210a-e。这五个波形编码的下混信号210a-e中的每一个包括 与直到第一交叉频率kx的频率对应的谱系数。
举例来说,信号210a-e包括用于中央声道的一个单一声道元素和 两个声道对元素。声道对元素可以例如是左前和左环绕信号的组合以 及右前和右环绕信号的组合。另外的示例是左前和右前信号的组合以 及左环绕和右环绕信号的组合。这些声道对元素可以例如被以和与差 格式编码。所有五个信号210a-e可以在独立加窗的情况下使用重叠加 窗变换进行编码,并且仍然可以被解码器解码。这可以允许改进的编 码质量和因此改进的解码信号的质量。
举例来说,第一交叉频率ky是1.1kHz。举例来说,第二交叉频 率kx位于5.6-8kHz的范围内。应注意,即使在单个信号的基础上, 第一交叉频率ky也可以变化,即,编码器可以检测到特定输出信号中 的信号分量可能不能通过立体声下混信号208a-b忠实地再现,并且对 于该特定时间实例可以增加带宽(即,相关的波形编码信号(即,210a-e) 的第一交叉频率ky)以进行该信号分量的适当的波形编码。
如本说明书中稍后将描述的,编码器100的其余的级通常在正交 镜像滤波器(QMF)域中进行操作。由于这个原因,第一接收级212 和第二接收级214所接收的信号208a-b、210a-e(其以修正离散余弦 变换(MDCT)形式接收)中的每一个通过应用逆MDCT 216而被变 换到时域中。然后通过应用QMF变换218来将每个信号变换回频域。
在图9中,五个波形编码信号210在下混级308处被下混到两个 下混信号310、312,其包括与直到第一交叉频率ky的频率对应的谱系 数。这些下混信号310、312可以通过使用与在编码器中用于创建图8 中所示的两个下混信号208a-b的下混方案相同的下混方案对低通多 声道信号210a-e执行下混而形成。
两个新的下混信号310、312然后在第一组合级320、322中被与 对应的下混信号208a-b组合以形成组合下混信号302a-b。该组合下混 信号302a-b中的每一个因此包括以下谱系数:来源于下混信号310、 312的、与直到第一交叉频率ky的频率对应的谱系数;以及来源于在 第一接收级212(在图8中示出)中接收的两个波形编码的下混信号 208a-b的、与第一交叉频率ky和第二交叉频率kx之间的频率对应的 谱系数。
编码器还包括高频重构(HFR)级314。该HFR级被配置为通过 执行高频重构来将来自组合级的两个组合下混信号302a-b中的每一 个扩展到高于第二交叉频率kx的频率范围。所执行的高频重构根据一 些实施例可以包括执行谱带复制SBR。高频重构可以通过以任何合适 的方式使用可以被HFR级314接收的高频重构参数来进行。
在应用HFR扩展316、318的情况下,来自高频重构级314的输 出是包括下混信号208a-b的两个信号304a-b。如上所述,HFR级314 基于存在于来自第二接收级214(在图8中示出)的、与两个下混信 号208a-b组合的输入信号210a-e中的频率来执行高频重构。稍微简 单点来说,HFR范围316、318包括来自已被拷贝直到HFR范围316、 318的下混信号310、312的谱系数的部分。因此,五个波形编码的信 号210a-e的部分将出现在来自HFR级314的输出304的HFR范围 316、318中。
应注意,在高频重构级314之前的第一组合级320、322中的组合 以及下混级308处的下混可以在时域中进行,即,在每个信号已通过 应用逆修正离散余弦变换(MDCT)216(在图8中示出)被变换到时 域中之后。然而,考虑到波形编码信号210a-e和波形编码的下混信号 208a-b可以被波形编码器使用具有独立加窗的重叠加窗变换进行编码, 信号210a-e和208a-b可能不能在时域中无缝地组合。因此,如果至 少第一组合级320、322中的组合在QMF域中进行,则达到更好的控 制场景。
图10示出解码器100的第三且最后的概念部分400。来自HFR 级314的输出304构成上混级402的输入。上混级402通过对频率扩 展信号304a-b执行参数化上混来创建五个信号输出404a-e。五个上混 信号404a-e中的每一个对应于编码的5.1环绕声中的用于高于第一交 叉频率ky的频率的五个编码声道中的一个。根据示例性参数化上混过 程,上混级402首先接收参数化混合参数。上混级402进一步产生两 个频率扩展的组合下混信号304a-b的解相关版本。该上混级402进一 步使这两个频率扩展的组合下混信号304a-b以及这两个频率扩展的 组合下混信号304a-b的解相关版本经受矩阵运算,其中,该矩阵运算 的参数由上混参数给出。可替代地,可以应用本领域中已知的任何其 它的参数化上混过程。例如在“MPEG Surround—The ISO/MPEG Standard for Efficient and CompatibleMultichannel Audio Coding” (Herre等人,Journal of the Audio EngineeringSociety,第56卷, 第11期,2008年11月)中描述了适用的参数化上混过程。
来自上混级402的输出404a-e因此不包括低于第一交叉频率ky的频率。与直到第一交叉频率ky的频率对应的其余的谱系数存在于五 个波形编码信号210a-e中,这五个波形编码信号210a-e已被延迟级 412延迟以匹配上混信号404的定时。
编码器100还包括第二组合级416、418。该第二组合级416、418 被配置为将第二接收级214(在图8中示出)接收的五个波形编码信 号210a-e与五个上混信号404a-e组合。
可以注意到,任何存在的Lfe信号可以被作为单独的信号添加到 所得的组合信号422。信号422中的每一个然后通过应用逆QMF变换 420而被变换到时域。来自逆QMF变换414的输出因此是全解码的 5.1声道音频信号。
图11示出作为图7的解码系统100的修改的解码系统100’。解 码系统100’具有与图16的概念部分100、200和300对应的概念部分 200’、300’和400’。图11的解码系统100’与图7的解码系统之间的不 同之处在于,在概念部分200’中存在第三接收级616,并且在第三概 念部分400’中存在交织级714。
第三接收级616被配置为接收另外的波形编码信号。所述另外的 波形编码信号包括与高于第一交叉频率的频率的子集对应的谱系数。 所述另外的波形编码信号可以通过应用逆MDCT 216而被变换到时域 中。它然后可以通过应用QMF变换218而被变换回频域。
要理解,所述另外的波形编码信号可以被作为单独的信号接收。 然而,所述另外的波形编码信号也可以形成五个波形编码信号210a-e 中的一个或多个的一部分。换句话说,所述另外的波形编码信号可以 被与五个波形编码信号201a-e中的一个或多个联合编码,例如,通过 使用相同的MCDT变换。如果这样,则第三接收级616对应于第二接 收级,即,所述另外的波形编码信号经由第二接收级214与五个波形 编码信号210a-e一起被接收。
图12更详细地示出图11的解码器100’的第三概念部分300’。除 了高频扩展下混信号304a-b以及五个波形编码信号210a-e之外,另 外的波形编码信号710也被输入到第三概念部分400’。在所示的示例 中,所述另外的波形编码信号710对应于五个声道的第三声道。所述 另外的波形编码信号710还包括与起始于第一交叉频率ky的频率间隔 对应的谱系数。然而,被所述另外的波形编码信号710覆盖的、高于 第一交叉频率的频率范围的子集的形式在不同实施例中当然可以变化。 还要注意,多个波形编码信号710a-e可以被接收,其中,该不同的波 形编码信号可以对应于不同的输出声道。被所述多个另外的波形编码信号710a-e覆盖的频率范围的子集可以在所述多个另外的波形编码信 号710a-e中的不同的波形编码信号之间变化。
所述另外的波形编码信号710可以被延迟级712延迟以匹配从上 混级402输出的上混信号404的定时。上混信号404和所述另外的波 形编码信号710然后被输入到交织级714。该交织级714将上混信号 404与所述另外的波形编码信号710交织(即,组合)以产生交织信 号704。在本示例中,交织级714因此将第三上混信号404c与所述另 外的波形编码信号710交织。交织可以通过将两个信号一起相加来执 行。然而,通常,交织是通过在信号重叠的频率范围和时间范围中利 用所述另外的波形编码信号710代替上混信号404来执行的。
交织信号704然后被输入到第二组合级416、418,在该第二组合 级416、418中,交织信号704被以与参照图19描述的相同方式与波 形编码信号201a-e组合以产生输出信号722。要注意,交织级714和 第二组合级416、418的次序可以反过来,使得组合在交织之前执行。
另外,在所述另外的波形编码信号710形成五个波形编码信号 210a-e中的一个或多个的一部分的情况下,第二组合级416、418和交 织级714可以被组合成单个级。具体地说,这样的组合级对于直到第 一交叉频率ky的频率将使用五个波形编码信号210a-e的谱内容。对 于高于第一交叉频率的频率,组合级将使用与所述另外的波形编码信 号710交织的上混信号404。
交织级714可以在控制信号的控制下进行操作。出于这个目的, 解码器100’可以例如经由第三接收级616来接收指示如何将所述另外 的波形编码信号与M个上混信号中的一个交织的控制信号。例如,该 控制信号可以指示频率范围和时间范围,对于该频率范围和时间范围, 所述另外的波形编码信号710要与上混信号404中的一个交织。例如, 该频率范围和时间范围可以以对其要进行交织的时间/频率片来表达。 时间/频率片可以是相对于在其中发生交织的QMF域的时间/频率格 (grid)的时间/频率片。
控制信号可以使用向量(诸如二值向量)来指示对其要进行交织 的时间/频率片。具体地说,可以存在与频率方向相关的第一向量,其 指示对其要执行交织的频率。该指示可以例如通过对第一向量中的对 应的频率间隔指示逻辑一来进行。还可以存在与时间方向相关的第二 向量,其指示对其要执行交织的时间间隔。该指示可以例如通过对第 二向量中的对应的时间间隔指示逻辑一来进行。出于这个目的,时间 帧通常被划分成多个时隙,使得时间指示可以基于子帧进行。通过使 第一向量和第二向量相交,可以构造时间/频率矩阵。例如,时间/频 率矩阵可以是二值矩阵,其包括用于第一向量和第二向量对其指示逻 辑一的每个时间/频率片的逻辑一。交织级714然后可以在执行交织时 使用时间/频率矩阵,例如使得对于在时间/频率矩阵中诸如通过逻辑 一指示的时间/频率片,上混信号704中的一个或多个被所述另外的波 形编码信号710代替。
注意,向量可以使用除了二值方案外的其它方案来指示对其要进 行交织的时间/频率片。例如,向量可以通过诸如零的第一值指示没有 交织要进行,并且通过第二值指示要相对于第二值所标识的某一声道 进行交织。
立体声编码
如本章节中所使用的,左右编码(coding)或编码(encoding) 意指左(L)和右(R)立体声信号在不执行这些信号之间的任何变换 的情况下被编码。
如本章节中所使用的,和与差编码或编码意指左立体声信号和右 立体声信号的和M被编码为一个信号(和),并且左立体声信号和右 立体声信号之间的差S被编码为一个信号(差)。和与差编码也可以 被称为中间侧边编码。左右形式与和差形式之间的关系因此是M=L +R和S=L-R。可以注意到,当将左立体声信号和右立体声信号变换 为和与差形式时,不同规范化或缩放是可能的,反之亦然,只要两个 方向上的变换匹配即可。在本公开中,主要使用M=L+R和S=L-R, 但是使用不同缩放(例如,M=(L+R)/2和S=(L-R)/2)的系统同样很 好地工作。
如本章节中所使用的,下混互补(dmx/comp)编码或编码意指在 编码之前使左立体声信号和右立体声信号经受取决于加权参数a的矩 阵乘法。dmx/comp编码因此也可以被称为dmx/comp/a编码。下混互 补形式、左右形式以及和差形式之间的关系通常是dmx=L+R=M和 comp=(1-a)L-(1+a)R=-aM+S。特别地,下混互补表示中的下混信号因 此等价于和与差表示的和信号M。
如本章节中所使用的,音频信号可以是纯音频信号、视听信号或 多媒体信号的音频部分、或者这些中的任何一个与元数据的组合。
图13是包括以下将结合图14-16更详细地解释的三个概念部分 200、300、400的解码系统100的一般化框图。在第一概念部分200 中,比特流被接收并且被解码成第一信号和第二信号。第一信号包括 第一波形编码信号和波形编码下混信号两者,该第一波形编码信号包 括与直到第一交叉频率的频率对应的谱数据,该波形编码下混信号包 括与高于第一交叉频率的频率对应的谱数据。第二信号仅包括第二波 形编码信号,该第二波形编码信号包括与直到第一交叉频率的频率对 应的谱数据。
在第二概念部分300中,在第一信号和第二信号的波形编码部分 不是和与差形式(例如,M/S形式)的情况下,第一信号和第二信号 的波形编码部分被变换为和与差形式。此后,第一信号和第二信号被 变换到时域中,然后被变换到正交镜像滤波器QMF域中。在第三概 念部分400中,第一信号被高频重构(HFR)。第一信号和第二信号 两者然后被上混以创建具有与被解码系统100解码的编码信号的整个 频带对应的谱系数的左和右立体声信号输出。
图14示出图13中的解码系统100的第一概念部分200。该解码 系统100包括接收级212。在接收级212中,比特流帧202被解码, 并且被解量化为第一信号204a和第二信号204b。比特流帧202对应 于正被解码的两个音频信号的时间帧。第一信号204a包括第一波形编 码信号208和波形编码下混信号206,该第一波形编码信号208包括 与直到第一交叉频率ky的频率对应的谱数据,该波形编码下混信号 206包括与高于第一交叉频率ky的频率对应的谱数据。举例来说,第 一交叉频率ky为1.1kHz。
根据一些实施例,波形编码下混信号206包括与第一交叉频率ky和第二交叉频率kx之间的频率对应的谱数据。举例来说,第二交叉频 率kx位于5.6-8kHz的范围内。
接收的第一波形编码信号208和第二波形编码信号210可以被以 左右形式、和差形式和/或下混互补形式进行波形编码,其中,互补信 号取决于加权参数a,其是信号自适应的。波形编码下混信号206对 应于适合于参数化立体声的下混,该下混根据以上内容对应于和形式。 然而,信号204b不具有高于交叉频率ky的内容。信号206、208、210 中的每一个在修正离散余弦变换(MDCT)域中被表示。
图15示出图13中的解码系统100的第二概念部分300。该解码 系统100包括混合级302。该解码系统100的设计要求以下将更详细 地描述的高频重构级的输入需要为和格式。因此,混合级被配置为检 查第一信号波形编码信号208和第二信号波形编码信号210是否为和 与差形式。如果第一信号波形编码信号208和第二信号波形编码信号 210对于直到第一交叉频率ky的所有频率不是和与差形式,则混合级 302将将整个波形编码信号208、210变换为和与差形式。在混合级302 的输入信号208、210的频率的至少一个子集是下混互补形式的情况下, 加权参数a需要作为混合级302的输入。可以注意到,输入信号208、 210可以包括几个以下混互补形式编码的频率的子集,并且在该情况 下,每个子集不必通过使用加权参数a的同一值进行编码。在这种情 况下,几个加权参数a需要作为混合级302的输入。
如以上所提及的,混合级302总是输出输入信号204a-b的和与差 表示。为了能够将在MDCT域中表示的信号变换为和与差表示, MDCT编码信号的加窗需要是相同的。这暗示着,在第一信号波形编 码信号208和第二信号波形编码信号210是L/R或下混互补形式的情况下,对于信号204a的加窗和对于信号204b的加窗不能是独立的。
因此,在第一信号波形编码信号208和第二信号波形编码信号210 是和与差形式的情况下,对于信号204a的加窗和对于信号204b的加 窗可以是独立的。
在混合级302之后,和与差信号通过应用逆修正离散余弦变换 (MDCT-1)312被变换到时域中。
两个信号304a-b然后通过两个QMF组314进行分析。由于下混 信号306不包括较低频率,所以不需要利用奈奎斯特(Nyquist)滤波 器组对该信号进行分析来增加频率分辨率。这可以与下混信号包括低 频率的系统(例如,传统的参数化立体声解码,诸如MPEG-4参数化 立体声)进行比较。在这些系统中,需要利用奈奎斯特滤波器组对下 混信号进行分析,以便将频率分辨率增加到超过QMF组所实现的频 率分辨率,并因此更好地匹配例如Bark频率标度所表示的人类听觉 系统的频率选择性。
来自QMF组314的输出信号304包括第一信号304a,其是波形 编码和信号308与波形编码下混信号306的组合,该波形编码和信号 308包括与直到第一交叉频率ky的频率对应的谱数据,该波形编码下 混信号306包括与第一交叉频率ky和第二交叉频率kx之间的频率对 应的谱数据。输出信号304还包括第二信号304b,其包括波形编码差 信号310,该波形编码差信号310包括与直到第一交叉频率ky的频率 对应的谱数据。信号304b不具有高于第一交叉频率ky的内容。
如稍后将描述的,高频重构级416(结合图16示出)使用较低频 率(即,来自输出信号304的第一波形编码信号308和波形编码下混 信号306)来重构高于第二交叉频率kx的频率。有利的是,高频重构 级416对其进行操作的信号是较低频率上的相似类型的信号。从这个 角度来讲,有利的是使混合级302总是输出第一信号波形编码信号208 和第二信号波形编码信号210的和与差表示,因为这暗示着,输出的 第一信号304a的第一波形编码信号308和波形编码下混信号306具有 类似的特性。
图16示出图13中的解码系统100的第三概念部分400。高频重 构(HRF)级416通过执行高频重构来将第一信号输入信号304a的 下混信号306扩展到高于第二交叉频率kx的频率范围。取决于HFR 级416的配置,HFR级416的输入是整个信号304a,或者仅仅是下 混信号306。高频重构通过以任何合适的方式使用可以被高频重构级 416接收的高频重构参数来进行。根据实施例,所执行的高频重构包 括执行谱带复制SBR。
在应用SBR扩展412的情况下,来自高频重构级314的输出是包 括下混信号406的信号404。高频重构信号404和信号304b然后被馈 送到上混级420中以便产生左L和右R立体声信号412a-b。对于与低 于第一交叉频率ky的频率对应的谱系数,上混包括执行第一信号408 和第二信号310的逆和与差变换。这仅意味着如前面所概述的那样从 中间侧边表示变为左右表示。对于与高于第一交叉频率ky的频率对应 的谱系数,下混信号406和SBR扩展412通过解相关器418馈送。下 混信号406和SBR扩展412以及下混信号406和SBR扩展412的解 相关版本然后使用参数化混合参数进行上混以针对高于第一交叉频率 ky的频率重构左声道416和右声道414。本领域中已知的任何参数化 上混过程可以被应用。
应注意,在图13-16中所示的编码器的以上示例性实施例100中, 需要高频重构,因为第一接收信号204a仅包括与直到第二交叉频率 kx的频率对应的谱数据。在进一步的实施例中,第一接收信号包括与 编码信号的所有频率对应的谱数据。根据该实施例,不需要高频重构。 本领域技术人员理解在这种情况下如何改动示例性编码器100。
图17通过示例的方式示出根据实施例的编码系统500的一般化框 图。
在编码系统中,要被编码的第一信号540和第二信号542被接收 级(未示出)接收。这些信号540、542表示左540立体声音频声道和 右542立体声音频声道的时间帧。信号540、542在时域中被表示。编 码系统包括变换级510。信号540、542在变换级510中被变换为和与差格式544、546。
编码系统还包括波形编码级514,其被配置为从变换级510接收 第一变换信号544和第二变换信号546。波形编码级通常在MDCT域 中进行操作。由于这个原因,变换信号544、546经受在波形编码级 514之前的MDCT变换512。在波形编码级中,第一变换信号544和 第二变换信号546分别被波形编码为第一波形编码信号518和第二波 形编码信号520。
对于高于第一交叉频率ky的频率,波形编码级514被配置为将第 一变换信号544波形编码为第一波形编码信号518的波形编码信号 552。该波形编码级514可以被配置为:高于第一交叉频率ky,将第 二波形编码信号520设置为零,或者根本不对这些频率进行编码。对 于高于第一交叉频率ky的频率,波形编码级514被配置为将第一变换 信号544波形编码为第一波形编码信号518的波形编码信号552。
对于低于第一交叉频率ky的频率,在波形编码级514中做出关于 什么种类的立体声编码要用于两个信号548、550的决策。取决于低于 第一交叉频率ky的变换信号544、546的特性,可以对波形编码信号 548、550的不同子集做出不同决策。编码可以是左/右编码、中间/侧 边编码(即,对和与差进行编码)、或dmx/comp/a编码。在信号548、 550在波形编码级514中通过和与差编码进行波形编码的情况下,波 形编码信号518、520可以在分别对信号518、520独立加窗的情况下 使用重叠加窗变换进行编码。
示例性第一交叉频率ky是1.1kHz,但是该频率可以根据立体声 音频系统的比特传输速率或者根据要被编码的音频的特性而变化。
至少两个信号518、520如此从波形编码级514输出。在低于第一 交叉频率ky的信号的一个或几个子集或者整个频带通过执行矩阵运 算而被以下混/互补形式编码的情况下,取决于加权参数a,该参数也 被作为信号522输出。在几个子集被以下混/互补形式编码的情况下, 每个子集不必通过使用加权参数a的同一值进行编码。在这种情况下, 几个加权参数被作为信号522输出。
这两个或三个信号518、520、522被编码和量化524为单个复合 信号558。
为了能够在解码器侧针对高于第一交叉频率的频率重构第一信号 540和第二信号542的谱数据,需要从信号540、542提取参数化立体 声参数536。出于这个目的,编码器500包括参数化立体声(PS)编 码级530。该PS编码级530通常在QMF域中进行操作。因此,在被 输入到PS编码级530之前,第一信号540和第二信号542被QMF分 析级526变换到QMF域。PS编码器级530适于仅提取用于高于第一 交叉频率ky的频率的参数化立体声参数536。
可以注意到,参数化立体声参数536反映被参数化立体声编码的 信号的特性。它们因此是频率选择性的,即,参数536中的每一个参 数可以对应于左输入信号540或右输入信号542的频率的子集。PS编 码级530计算参数化立体声参数536,并且以均匀或非均匀的方式对 这些进行量化。参数如以上所提及的那样被频率选择性地计算,其中, 输入信号540、542的整个频率范围被划分为例如15个参数带。这些 可以根据人类听觉系统的频率分辨率的模型(例如,bark标度)间隔。
在图17中所示的编码器500的示例性实施例中,波形编码级514 被配置为:针对第一交叉频率ky与第二交叉频率kx之间的频率对第 一变换信号544进行波形编码,并且高于第二交叉频率kx,将第一波 形编码信号518设置为零。这可以被进行以进一步降低编码器500是 其中的一部分的音频系统的所需传输速率。为了能够重构高于第二交 叉频率kx的信号,需要产生高频重构参数538。根据该示例性实施例, 这通过在下混级534处对在QMF域中表示的两个信号540、542进行 下混来进行。所得的下混信号(其例如等于信号540、542的和)然后 在高频重构HFR编码级532处经受高频重构,以便产生高频重构参 数538。如本领域技术人员所熟知的,该参数538可以例如包括高于 第二交叉频率kx的频率的谱包络、噪声添加信息等。
示例性第二交叉频率kx是5.6-8kHz,但是该频率可以根据立体 声音频系统的比特传输速率或者根据要被编码的音频的特性而变化。
编码器500还包括比特流产生级,即,比特流复用器524。根据 编码器500的示例性实施例,比特流产生级被配置为接收经编码和量 化的信号544以及两个参数信号536、538。这些被比特流产生级562 转换成比特流560以进一步分布在立体声音频系统中。
根据另一实施例,波形编码级514被配置为针对高于第一交叉频 率ky的所有频率对第一变换信号544进行波形编码。在这种情况下, 不需要HFR编码级532,因此,没有高频重构参数538被包括在比特 流中。
图18通过示例的方式示出根据另一实施例的编码器系统600的一 般化框图。
话音模式编码
图19a示出示例的基于变换的语音编码器100的框图。该编码器 100接收作为输入的、变换系数的块131(也被称为编码单元)。该变 换系数的块131可能已通过被配置为将输入音频信号的采样序列从时 域变换到变换域中的变换单元而获得。该变换单元可以被配置为执行 MDCT。该变换单元可以是通用音频编解码器(诸如AAC或HE-AAC) 的一部分。这样的通用音频编解码器可以使用不同的块大小,例如, 长块和短块。示例块大小对于长块是1024个采样,而对于短块是256 个采样。假定采样速率为44.1kHz并且重叠为50%,则长块覆盖输入 音频信号的大约20ms,而短块覆盖输入音频信号的大约5ms。长块通 常用于输入音频信号的静止段,而短块通常用于输入音频信号的瞬变 段。
语音信号可以被认为在大约20ms的时间段中是静止的。特别地, 语音信号的谱包络可以被认为在大约20ms的时间段中是静止的。为 了能够在变换域中对这样的20ms段导出有意义的统计,对基于变换 的语音编码器100提供变换系数的短块131(具有例如5ms的长度) 可能是有用的。通过这样做,多个短块131可以用于导出关于例如 20ms的时间段(例如,长块的时间段)的统计。此外,这具有为语音 信号提供足够的时间分辨率的优点。
因此,变换单元可以被配置为:如果输入音频信号的当前段被分 类为语音,则提供变换系数的短块131。编码器100可以包括被配置 为提取变换系数的多个块131(被称为块131的集合132)的组帧单元 101。块集合132也可以被称为帧。举例来说,块131的集合132可以 包括256个变换系数的四个短块,从而覆盖输入音频信号的大约20ms 段。
块集合132可以被提供给包络估计单元102。该包络估计单元102 可以被配置为基于块集合132来确定包络133。该包络133可以基于 块集合132内所包括的多个块131的对应的变换系数的均方根(RMS) 值。块131通常在对应的多个频率区间301(参见图21a)中提供多个 变换系数(例如,256个变换系数)。所述多个频率区间301可以被 分组为多个频带302。所述多个频带302可以基于心理声学考虑来选 择。举例来说,可以根据对数标度或Bark标度来将频率区间301分 组为频带302。已基于当前块集合132确定的包络134可以包括分别 对于所述多个频带302的多个能量值。对于特定频带302的特定能量 值可以基于对应于落在特定频带302内的频率区间301的集合132的 块131的变换系数来确定。可以基于这些变换系数的RMS值来确定 所述特定能量值。这样,对于当前块集合132的包络133(被称为当 前包络133)可以指示当前块集合132内所包括的变换系数的块131 的平均包络,或者可以指示用于确定包络133的变换系数的块132的 平均包络。
应注意,可以基于与当前块集合132相邻的变换系数的一个或多 个另外的块131来确定当前包络133。这在图20中被示出,在图20 中,当前包络133(通过量化的当前包络134指示)是基于当前块集 合132的块131和基于来自当前块集合132前面的块集合的块201确 定的。在所示的示例中,当前包络133是基于五个块131确定的。通 过在确定当前包络133时考虑相邻的块,可以确保相邻的块集合132 的包络的连续性。
当确定当前包络133时,可以对不同块131的变换系数进行加权。 特别地,被考虑用于确定当前包络133的最外面的块201、202可以具 有比其余的块131低的权重。举例来说,利用0.5对最外面的块201、 202的变换系数进行加权,其中,其它的块131的变换系数可以利用1 进行加权。
应注意,以与考虑前面的块集合132的块201类似的方式,正后 面的块集合132的一个或多个块(所谓的前瞻块)可以被考虑用于确 定当前包络133。
当前包络133的能量值可以以对数标度(例如,以dB标度)表 示。当前包络133可以被提供给包络量化单元103,该包络量化单元 103被配置为对当前包络133的能量值进行量化。该包络量化单元103 可以提供预定的量化器分辨率,例如,3dB的分辨率。包络133的量化索引可以在由编码器100产生的比特流内被作为包络数据161提供。 此外,量化的包络134(即,包括包络133的量化的能量值的包络) 可以被提供给插值单元104。
插值单元104被配置为基于量化的当前包络134和基于量化的前 一包络135(其已针对在当前块集合132正前面的块集合132确定) 来确定当前块集合132的每个块131的包络。插值单元104的操作在 图20、21a和21b中被示出。图20示出了变换系数的块131的序列。块131的序列被分组为接续的块集合132,其中,每个块集合132用 于确定量化的包络,例如,量化的当前包络134和量化的前一包络135。 图21a示出了量化的前一包络135和量化的当前包络134的示例。如 以上所指示的,包络可以指示谱能量303(例如,以dB标度)。对于同一个频带302的量化的前一包络135和量化的当前包络134的对应 的能量值303可以被插值(例如,使用线性插值)以确定插值包络136。 换句话说,可以对特定频带302的能量值303进行插值以提供该特定 频带302内的插值包络136的能量值303。
应注意,对其确定并应用插值包络136的块集合可能不同于基于 其确定量化的当前包络134的当前块集合132。这在图20中被示出, 图20示出了移位的块集合332,该块集合332与当前块集合132相比 被移位,并且包括前一块集合132的块3和4(分别通过附图标记203 和201指示)以及当前块集合132的块1和2(分别通过附图标记204 和205指示)。事实上,与对于当前块集合132的块的相关性相比, 基于量化的当前包络134和基于量化的前一包络135确定的插值包络 136对于移位的块集合332的块可以具有增加的相关性。
因此,图21b中所示的插值包络136可以用于使移位的块集合332 的块131平坦化。这通过图21b与图20组合示出。可以看出,图21b 的插值包络341可以应用于图20的块203,图21b的插值包络342可 以应用于图20的块201,图21b的插值包络343可以应用于图20的块204,图21b的插值包络344(其在所示的示例中对应于量化的当前 包络136)可以应用于图20的块205。这样,用于确定量化的当前包 络134的块集合132可能不同于对其确定插值包络136并且应用插值 包络136(出于平坦化的目的)的移位的块集合332。特别地,量化的当前包络134可以使用相对于移位的块集合332的块203、201、204、 205(其要使用量化的当前包络134进行平坦化)的某一前瞻来确定。 从连续性的观点来讲,这是有益的。
用于确定插值包络136的能量值303的插值在图21b中被示出。 可以看出,通过量化的前一包络135的能量值到量化的当前包络134 的对应的能量值之间的插值,可以对移位的块集合332的块131确定 插值包络136的能量值。特别地,对于移位的集合332的每个块131, 可以确定插值包络136,从而提供对于移位的块集合332的所述多个 块203、201、204、205的多个插值包络136。变换系数的块131(例 如,移位的块集合332的块203、201、204、205中的任何一个)的插 值包络136可以用于对变换系数的块131进行编码。应注意,当前包 络133的量化索引161在比特流内被提供给对应的解码器。因此,对 应的解码器可以被配置为以类似于编码器100的插值单元104的方式 确定所述多个插值包络136。
组帧单元101、包络估计单元102、包络量化单元103和插值单元 104对块集合(即,当前块集合132和/或移位的块集合332)进行操 作。另一方面,可以逐块地执行变换系数的实际编码。以下,对变换 系数的当前块131的编码进行论述,所述变换系数的当前块131可以 是移位的块集合332(或者可能地,在基于变换的语音编码器100的 其它实现中为当前块集合132)的多个块131中的任何一个。
对于当前块131的当前插值包络136可以提供当前块131的变换 系数的谱包络的近似。编码器100可以包括预平坦化单元105和包络 增益确定单元106,该预平坦化单元105和包络增益确定单元106被 配置为基于当前的插值包络136和基于当前块131来确定对于当前块 131的调整包络139。特别地,用于当前块131的包络增益可以被确定 为使得当前块131的平坦化的变换系数的方差被调整。X(k),k=1,…,K 可以是当前块131的变换系数(其中,例如,K=256),并且 E(k),k=1,…,K可以是当前的插值包络136的谱能量均值303(其中, 同一频带302的能量值E(k)相等)。包络增益a可以被确定为使得平 坦化的变换系数的方差被调整。特别地,包络增益a可 以被确定为使得方差为一。
应注意,包络增益a可以针对变换系数的当前块131的全部频率 范围的子范围确定。换句话说,可以仅基于频率区间301的子集和/ 或仅基于频带302的子集来确定包络增益a。举例来说,可以基于大 于起始频率区间304(起始频率区间大于0或1)的频率区间301来确 定包络增益a。作为结果,可以通过仅将包络增益a应用于与位于起 始频率区间304之上的频率区间301相关联的当前的插值包络136的 谱能量均值303来确定对于当前块131的调整包络139。因此,对于 在起始频率区间处及其之下的频率区间301,对于当前块131的调整 包络139可以对应于当前的插值包络136,并且对于起始频率区间之 上的频率区间301,可以对应于通过包络增益a偏移的当前的插值包 络136。这在图21a中通过调整包络339(以虚线示出)示出。
包络增益a 137(也被称为水平校正增益)对于当前的插值包络 136的应用对应于当前的插值包络136的调整或偏移,从而得到调整 包络139,如图21a所示。包络增益a 137可以被作为增益数据162 编码到比特流中。
编码器100还可以包括包络细化单元107,其被配置为基于包络 增益a 137和基于当前的插值包络136来确定调整包络139。该调整包 络139可以用于变换系数的块131的信号处理。与当前的插值包络136 (其可以以3dB步长进行量化)相比,包络增益a 137可以被量化到 较高的分辨率(例如,以1dB步长)。这样,调整包络139可以被量 化到包络增益a137的较高分辨率(例如,以1dB步长)。
此外,包络细化单元107可以被配置为确定分配包络138。该分 配包络138可以对应于调整包络139的量化版本(例如,被量化到3dB 量化水平)。该分配包络138可以用于比特分配目的。特别地,该分 配包络138可以用于—对于当前块131的特定变换系数—从预定的量 化器集合确定特定量化器,其中,该特定量化器要用于对该特定变换 系数进行量化。
编码器100包括平坦化单元108,其被配置为使用调整包络139 来使当前块131平坦化,从而得到平坦化的变换系数的块140。 该平坦化的变换系数的块140可以使用变换域内的预测环路进行 编码。这样,块140可以使用子带预测器117进行编码。该预测环路 包括差分单元115,其被配置为基于平坦化的变换系数的块140 和基于估计的变换系数的块150来确定预测误差系数Δ(k)的块 141,例如,应注意,由于块140包括平坦化的 变换系数(即,已使用调整包络139的能量值303进行规范化或平坦 化的变换系数)的事实,估计的变换系数的块150还包括平坦化的变 换系数的估计。换句话说,差分单元115在所谓的平坦化域中进行操 作。结果,预测误差系数Δ(k)的块141在平坦化域中被表示。
预测误差系数Δ(k)的块141可以呈现彼此不同的方差。编码器100 可以包括重新缩放单元111,其被配置为重新缩放预测误差系数Δ(k) 以得到重新缩放的误差系数的块142。重新缩放单元111可以使用一 个或多个预定的启发式规则来执行重新缩放。作为结果,重新缩放的 误差系数的块142呈现(平均来说)更接近于一的方差(与预测误差 系数的块141相比)。这对于随后的量化和编码可能是有益的。
编码器100包括系数量化单元112,其被配置为对预测误差系数 的块141或重新缩放的误差系数的块142进行量化。系数量化单元112 可以包括或使用预定量化器的集合。所述预定量化器的集合可以提供 具有不同的精确程度或不同的分辨率的量化器。这在图22中被示出, 在图22中,示出了不同的量化器321、322、323。不同的量化器可以 提供不同的精确水平(通过不同的dB值指示)。所述多个量化器321、 322、323中的特定量化器可以对应于分配包络138的特定值。这样, 分配包络138的能量值可以指向所述多个量化器中的对应的量化器。 这样,分配包络138的确定可以简化要用于特定误差系数的量化器的 选择处理。换句话说,分配包络138可以简化比特分配处理。
所述量化器的集合可以包括使用抖动来使量化误差随机化的一个 或多个量化器322。这在图22中被示出,图22示出了预定量化器的 第一集合326和预定量化器的第二集合327,该预定量化器的第一集 合326包括抖动量化器的子集324,该预定量化器的第二集合327包 括抖动量化器的子集325。这样,系数量化单元112可以使用预定量 化器的不同集合326、327,其中,要被系数量化单元112使用的所述 预定量化器的集合可以取决于预测器117所提供的控制参数146,和/ 或基于在编码器处以及在对应的解码器处可用的其它侧边信息而确定。 特别地,系数量化单元112可以被配置为基于控制参数146来选择用 于对重新缩放的误差系数的块142进行量化的预定量化器的集合326、 327,其中,控制参数146可以取决于预测器117所提供的一个或多个 预测器参数。所述一个或多个预测器参数可以指示预测器117所提供 的估计的变换系数的块150的质量。
量化的误差系数可以使用例如哈夫曼(Huffman)码进行熵编码, 从而得到要被包括到编码器100所产生的比特流中的系数数据163。
以下,描述关于量化器321、322、323的集合326的选择或确定 的进一步的细节。量化器的集合326可以对应于量化器的有序集326。 所述量化器的有序集326可以包括N个量化器,其中,每个量化器可 以对应于不同的失真水平。这样,量化器集326可以提供N个可能的 失真水平。集326的量化器可以根据减小的失真(或者等价地根据增 大的SNR)进行排序。此外,量化器可以通过整数标记来标记。举例 来说,量化器可以被标记0、1、2等,其中,增大的整数标记可以指 示增大的SNR。
量化器集326可以使得两个连续的量化器之间的SNR间隙至少大 致是恒定的。例如,具有标记“1”的量化器的SNR可以是1.5dB, 而具有标记“2”的量化器的SNR可以是3.0dB。因此,量化器的有 序集326的量化器可以使得,通过从第一量化器变到相邻的第二量化 器,SNR(信噪比)对于所有的第一和第二量化器对增加基本上恒定 的值(例如,1.5dB)。
量化器集326可以包括:
●噪声填充量化器321,其可以提供略低于或等于0dB的SNR, 这对于速率分配处理可以近似为0dB;
●Ndith量化器322,其可以使用消减抖动并且通常对应于中间 SNR水平(例如,Ndith>0);以及
●Ncq经典量化器323,其不使用消减抖动并且通常对应于相对 高的SNR水平(例如,Ncq>0)。不抖动量化器323可以对应 于标量量化器。
量化器的总数N由N=1+Ndith+Ncq给出。
图24a中示出了量化器集326的示例。量化器集326的噪声填充 量化器321可以例如使用随机数产生器来实现,所述随机数产生器根 据预定义的统计模型输出随机变量的实现。
另外,量化器集326可以包括一个或多个抖动量化器322。可以 使用如图24a中所示的伪数抖动信号602的实现来产生所述一个或多 个抖动量化器。该伪数抖动信号602可以对应于伪随机抖动值的块602。 该抖动数的块602可以具有与要被量化的重新缩放的误差系数的块 142的维度相同的维度。可以使用抖动产生器601来产生抖动信号602 (或抖动值的块602)。特别地,可以使用包含均匀分布的随机采样 的查找表来产生抖动信号602。
如将在图24b的上下文中所示的,抖动值的块602的单个抖动值 632用于将抖动应用于要被量化的对应系数(例如,应用于重新缩放 的误差系数的块142的对应的重新缩放的误差系数)。重新缩放的误 差系数的块142可以包括总共K个重新缩放的误差系数。以类似的方 式,抖动值的块602可以包括K个抖动值632。抖动值的块602的第 k个抖动值632(其中,k=1,…,K)可以被应用于重新缩放的误差系数 的块142的第k个重新缩放的误差系数。
如以上所指示的,抖动值的块602可以具有与要被量化的重新缩 放的误差系数的块142相同的维度。这是有益的,因为这允许对于量 化器集326的所有抖动量化器322使用抖动值的单个块602。换句话 说,为了对重新缩放的误差系数的给定块142进行量化和编码,对于 所有容许的量化器集326、327,以及对于针对失真的所有可能的分配, 伪随机抖动602可以仅产生一次。这促使实现编码器100与对应的解 码器之间的同步性,因为单个抖动信号602的使用不需要被明确地用 信号发送到对应的解码器。特别地,编码器100和对应的解码器可以 使用相同的抖动产生器601,该抖动产生器601被配置为产生用于重 新缩放的误差系数的块142的抖动值的相同块602。
量化器集326的组成优选地基于心理声学考虑。低速率变换编码 可能导致谱伪象,其包括由在应用于变换系数的传统量化方案中发生 的反向注水处理的性质触发的谱孔(spectral hole)和带限制。可以通 过将噪声注入到碰巧低于水平面一短时间段并且因此被分配零比特速 率的那些频带302来降低谱孔的可听度。
一般地,能够利用抖动量化器322来实现任意低的比特速率。例 如,在标量情况下,可以选择使用非常大的量化步长大小。尽管如此, 零比特速率操作在实践中不是可行的,因为它将对使得量化器与可变 长度编码器一起操作所需的数值精度施加苛刻的要求。这提供将通用 的噪声填充量化器321应用于0dB SNR失真水平、而不是应用抖动量 化器322的动机。提出的量化器集326被设计为使得抖动量化器322 被用于与相对小的步长大小相关联的失真水平,使得可以在不必解决 与保持数值精度相关的问题的情况下实现可变长度编码。
对于标量量化的情况,具有消减抖动的量化器322可以使用提供 接近最佳的MSE性能的后增益来实现。图24b中示出了消减地抖动 的标量量化器322的示例。抖动量化器322包括在消减抖动结构内使 用的均匀标量量化器Q 612。消减抖动结构包括抖动相减单元611,其 被配置为从对应的误差系数(来自重新缩放的误差系数的块142)减 去抖动值632(来自抖动值的块602)。此外,消减抖动结构包括对应 的相加单元613,其被配置为将抖动值632(来自抖动值的块602)相 加到对应的标量量化误差系数。在所示的示例中,抖动相减单元611 被放置在标量量化器Q 612的上游,而抖动相加单元613被放置在标 量量化器Q612的下游。来自抖动值的块602的抖动值可以采用来自 标量量化器612的步长大小的间隔[-0.5,0.5)或[0,1)倍的值。应注意, 在抖动量化器322的替代实现中,抖动相减单元611和抖动相加单元 613可以彼此交换。
缩放单元614可以跟在消减抖动结构后面,该缩放单元614被配 置为将量化的误差系数重新缩放量化器后增益γ。在缩放量化的误差 系数之后,获得量化的误差系数的块145。应注意,抖动量化器322 的输入X通常对应于落在要使用抖动量化器322进行量化的特定频带 内的重新缩放的误差系数的块142的系数。以类似的方式,抖动量化 器322的输出通常对应于落在特定频带内的量化的误差系数的块145 的量化系数。
可以假定,抖动量化器322的输入X是零均值,并且输入X的方 差是已知的。(例如,信号的方差可以从该信号的包络确定。) 此外,可以假定,包括抖动值632的伪随机抖动块Z 602对于编码器 100和对应的解码器是可用的。此外,可以假定,抖动值632独立于 输入X。可以使用各种不同的抖动602,但是在以下假定抖动Z 602 均匀地分布在0与Δ之间,这可以通过U(0,Δ)表示。在实践中,可以 使用满足所谓的Schuchman条件的任何抖动(例如,均匀分布在标量 量化器612的步长大小Δ的[-0.5,0.5)倍之间的抖动602)。
量化器Q 612可以是晶格,并且其Voronoi单元的广度可以是Δ。 在这种情况下,抖动信号将在所使用的晶格的Voronoi单元的广度上 具有均匀的分布。
量化器后增益γ可以在给定信号的方差和量化步长大小的情况下 导出,因为抖动量化器对于任何步长大小(即,比特速率)在分析上 是易处理的。特别地,后增益可以被导出以改进具有消减抖动的量化 器的MSE性能。后增益可以由以下给出:
即使通过应用后增益γ,抖动量化器322的MSE性能也可以被改 进,抖动量化器322通常具有比不具有抖动的量化器低的MSE性能 (尽管该性能损失随着比特速率增大而消失)。因此,一般地,抖动 量化器的噪声大于它们的不抖动版本。因此,可以期望的是,仅当抖 动量化器322的使用被抖动量化器322的感知上有益的噪声填充性质 证明合理时,才使用抖动量化器322。
因此,可以提供包括三种类型的量化器的量化器集326。有序量 化器集326可以包括单个噪声填充量化器321、一个或多个具有消减 抖动的量化器322、以及一个或多个经典(不抖动)量化器323。连续 的量化器321、322、323可以对SNR提供递增的改进。有序量化器集 326的一对相邻的量化器之间的递增的改进对于相邻量化器对中的一 些或全部可以基本上是恒定的。
特定量化器集326可以由特定集326内所包括的不抖动量化器 323的数量以及抖动量化器322的数量定义。此外,特定量化器集326 可以由抖动信号602的特定实现定义。集326可以被设计以便提供变 换系数渲染的感知上高效的量化:零速率噪声填充(得到略低于或等 于0dB的SNR);在中间失真水平上通过消减抖动的噪声填充(中间 SNR);以及在低失真水平上没有噪声填充(高SNR)。集326提供 在速率分配处理期间可以选择的容许的量化器的集合。来自量化器集 326的特定量化器对于特定频带302的系数的应用在速率分配处理期 间确定。哪个量化器将用于对特定频带302的系数进行量化通常是先 验未知的。然而,量化器集326的组成是什么通常是先验已知的。
对于误差系数的块142的不同频带302使用不同类型的量化器的 方面在图24c中被示出,在图24c中,示出了速率分配处理的示例性 成果。在这个示例中,假定速率分配遵循所谓的反向注水原理。图24c 示出输入信号的谱625(或系数的待量化块的包络)。可以看出,频 带623具有相对高的谱能量,并且使用提供相对低的失真水平的经典 量化器323进行量化。频带622呈现高于水平面624的谱能量。这些 频带622中的系数可以使用提供中间失真水平的抖动量化器322进行 量化。频带621呈现低于水平面624的谱能量。这些频带621中的系 数可以使用零速率噪声填充进行量化。用于对系数的特定块(通过谱 625表示)进行量化的不同量化器可以是已针对系数的特定块确定的 特定量化器集326的一部分。
因此,三种不同类型的量化器321、322、323可以被选择性地应 用(例如,关于频率选择性地应用)。关于特定类型的量化器的应用 的决策可以在以下描述的速率分配过程的上下文中确定。速率分配过 程可以使用感知标准,该感知标准可以从输入信号的RMS包络(或 者,例如,从信号的功率谱密度)导出。在特定频带302中要应用的 量化器的类型不需要被明确地用信号发送到对应的解码器。用信号发 送选择的量化器的类型的需要被消除,因为对应的解码器能够从基础 感知标准(例如,分配包络138)、从量化器集的预定组成(例如, 不同量化器集的预定集合)、以及从单个全局速率分配参数(也被称 为偏移参数),确定用于对输入信号的块进行量化的量化器的特定集 合326。
解码器处对已经被编码器100使用的量化器集326的确定通过将 量化器集326设计为使得量化器根据它们的失真(例如,SNR)进行 排序来促进。集326的每个量化器可以使前一个量化器的失真减小恒 定值(可以改善SNR)。此外,在整个速率分配处理期间,特定量化 器集326可以与伪随机抖动信号602的单个实现相关联。作为其结果, 速率分配过程的成果不影响抖动信号602的实现。这对于确保速率分 配过程的收敛是有益的。此外,这使得解码器能够执行解码,如果解 码器知道抖动信号602的单个实现的话。可以通过在编码器100处以 及在对应的解码器处使用相同的伪随机抖动产生器601来使解码器知 晓抖动信号602的实现。
如以上所指示的,编码器100可以被配置为执行比特分配处理。 出于这个目的,编码器100可以包括比特分配单元109、110。该比特 分配单元109可以被配置为确定可供用于对重新缩放的误差系数的当 前块142进行编码的比特143的总数。该比特143的总数可以基于分 配包络138确定。比特分配单元110可以被配置为根据分配包络138 中的对应的能量值将相对的比特分配提供给不同的重新缩放的误差系 数。
比特分配处理可以使用迭代分配过程。在分配过程的进程中,可 以使用偏移参数来使分配包络138偏移,从而选择分辨率增加/降低的 量化器。这样,偏移参数可以用于细化或粗化总体量化。偏移参数可 以被确定为使得使用由偏移参数所给出的量化器和分配包络138而获 得的系数数据163包括与分配给当前块131的比特143的总数对应(或 者不超过比特143的总数)的比特数量。已被编码器100用于对当前 块131进行编码的偏移参数被作为系数数据163包括到比特流中。作 为结果,使得对应的解码器能够确定已被系数量化单元112用于对重 新缩放的误差系数的块142进行量化的量化器。
这样,速率分配处理可以在编码器100处执行,在编码器100中, 它旨在根据感知模型分布可用比特143。感知模型可以取决于从变换 系数的块131导出的分配包络138。速率分配算法在不同类型的量化 器(即,零速率噪声填充321、所述一个或多个抖动量化器322和所 述一个或多个经典不抖动量化器323)之间分布可用比特143。关于要 被用于对谱的特定频带302的系数进行量化的量化器的类型的最终决 策可以取决于感知信号模型、伪随机抖动的实现以及比特流约束。
在对应的解码器处,比特分配(由分配包络138和偏移参数指示) 可以用于确定量化索引的概率,以便促进无损解码。可以使用量化索 引的概率的计算方法,该方法利用速率分配参数(即,偏移参数)以 及信号包络138所参数化的感知模型、全带伪随机抖动602的实现的 使用。通过使用分配包络138、偏移参数以及关于抖动值的块602的 知识,解码器处的量化器集326的组成可以与在编码器100处使用的 集326同步。
如以上所概述的,比特速率约束可以以每帧的比特143的最大允 许数量来指定。这适用于例如随后使用例如哈夫曼码进行熵编码的量 化索引。特别地,这适用于以顺序的方式产生比特流的编码场景,在 该编码场景中,一次对单个参数进行量化,并且在该编码场景中,将 对应的量化索引转换为附加到比特流的二进制码字。
如果算术编码(或范围编码)在使用中,则原理是不同的。在算 术编码的上下文中,通常,单个码字被分配给量化索引的长序列。正 好将比特流的特定部分与特定参数相关联通常是不可能的。特别地, 在算术编码的上下文中,对信号的随机实现进行编码所需的比特数量 通常是未知的。即使信号的统计模型是已知的,情况也是这样。
为了解决以上提及的技术问题,提出了使算术编码器成为速率分 配算法的一部分。在速率分配处理期间,编码器尝试对一个或多个频 带302的系数集合进行量化和编码。对于每一次这样的尝试,能够观 察到算术编码器的状态的改变并且计算在比特流中前进的位置的数量 (而不是计算比特的数量)。如果最大比特速率约束被设置,则在速 率分配过程中可以使用该最大比特速率约束。算术码的终止比特的开 销可以被包括在最后编码的参数的开销中,并且一般地,终止比特的 开销将根据算术编码器的状态而变化。尽管如此,一旦终止开销可用, 就能够确定对与所述一个或多个频带302的所述系数集合对应的量化 索引进行编码所需的比特数量。
应注意,在算术编码的上下文中,可以对(系数的特定块142的) 整个速率分配处理使用抖动602的单个实现。如以上所概述的,算术 编码器可以用于估计速率分配过程内的特定量化器选择的比特速率开 销。可以观察算术编码器的状态的改变,并且该状态改变可以用于计 算执行量化所需的比特数量。此外,算术码的终止处理可以被用在速 率分配处理内。
如以上所指示的,量化索引可以使用算术码或熵码来进行编码。 如果量化索引被熵编码,则可以考虑量化索引的概率分布,以便将变 化长度的码字分给单个或多组量化索引。抖动的使用可能对量化索引 的概率分布具有影响。特别地,抖动信号602的特定实现可能对量化 索引的概率分布具有影响。由于抖动信号602的实现的几乎无限的数 量,在通常情况下,码字概率是先验未知的,并且不能够使用哈夫曼 编码。
发明人已观察到,能够将可能的抖动实现的数量减少到抖动信号 602的实现的相对小且可管理的集合。举例来说,对于每个频带302, 可以提供抖动值的有限集合。出于这个目的,编码器100(以及对应 的解码器)可以包括离散抖动产生器801,其被配置为通过选择M个 预定抖动实现中的一个来产生抖动信号602(参见图26)。举例来说, 对于每一个频带302,可以使用M个不同的预定抖动实现。预定抖动 实现的数量M可以为M<5(例如,M=4或M=3)。
由于抖动实现的有限的数量M,能够对每个抖动实现训练(可能 是多维的)哈夫曼码本,从而得到M个码本的集803。编码器100可 以包括码本选择单元802,其被配置为基于选择的抖动实现来选择M 个预定码本集803中的一个。通过这样做,确保熵编码与抖动产生同 步。选择的码本811可以用于对已使用选择的抖动实现进行了量化的 单个或多组量化索引进行编码。作为结果,当使用抖动量化器时,熵 编码的性能可以得到改进。
预定码本集803和离散抖动产生器801也可以用在对应的解码器 处(如图26所示)。如果使用伪随机抖动,以及如果解码器保持与编 码器100同步,则解码是可行的。在这种情况下,解码器处的离散抖 动产生器801产生抖动信号602,并且特定抖动实现唯一地与来自码 本集803的特定哈夫曼码本811相关联。考虑心理声学模型(例如, 由分配包络138和速率分配参数表示)和选择的码本811,解码器能 够使用哈夫曼解码器551来执行解码以得到解码的量化索引812。
这样,可以使用相对小的哈夫曼码本集合803来代替算术编码。 来自所述哈夫曼码本集合813的特定码本811的使用可以取决于抖动 信号602的预定实现。同时,可以使用形成M个预定抖动实现的容许 抖动值的有限集合。速率分配处理然后可以涉及不抖动量化器、抖动 量化器和哈夫曼编码的使用。
作为重新缩放的误差系数的量化的结果,获得量化的误差系数的 块145。量化的误差系数的块145对应于在对应的解码器处可用的误 差系数的块。因此,量化的误差系数的块145可以用于确定估计的变 换系数的块150。编码器100可以包括逆重新缩放单元113,其被配置 为执行重新缩放单元113所执行的重新缩放操作的逆,从而得到缩放 的量化误差系数的块147。相加单元116可以用于通过将估计的变换 系数的块150相加到缩放的量化误差系数的块147来确定重构的平坦 化系数的块148。此外,逆平坦化单元114可以用于将调整包络139 应用于重构的平坦化系数的块148,从而得到重构的系数的块149。重 构的系数的块149对应于在对应的解码器处可用的变换系数的块131 的版本。结果,重构的系数的块149可以在预测器117中被用于确定 估计的系数的块150。
重构的系数的块149在未平坦化域中被表示,即,重构的系数的 块149还表示当前块131的谱包络。如以下所概述的,这对于预测器 117的性能可能是有益的。
预测器117可以被配置为基于重构的系数的一个或多个前面的块 149来对估计的变换系数的块150进行估计。特别地,预测器117可 以被配置为确定一个或多个预测器参数使得预定的预测误差标准降低 (例如,最小化)。举例来说,所述一个或多个预测器参数可以被确 定为使得预测误差系数的块141的能量或感知加权能量降低(例如, 最小化)。所述一个或多个预测器参数可以被作为预测器数据164包 括到编码器100所产生的比特流中。
预测器117可以使用如在专利申请US61750052以及要求其优先 权的专利申请(其内容通过引用并入)中描述的信号模型。所述一个 或多个预测器参数可以对应于信号模型的一个或多个模型参数。
图19b示出另外示例的基于变换的语音编码器170的框图。图19b 的基于变换的语音编码器170包括图19a的编码器100的组件中的许 多组件。然而,图19b的基于变换的语音编码器170被配置为产生具 有可变比特速率的比特流。出于这个目的,编码器170包括平均比特 速率(ABR)状态单元172,其被配置为保持对已被用于前面的块131 的比特流用尽的比特速率的跟踪。比特分配单元171使用该信息来确 定可供用于对变换系数的当前块131进行编码的比特143的总数。
以下,在图23a至23d的上下文中描述对应的基于变换的语音解 码器500。图23a示出了示例的基于变换的语音解码器500的框图。 该框图示出了用于将重构的系数的块149从变换域转换到时域中的合 成滤波器组504(也被称为逆变换单元),从而得到解码的音频信号 的采样。合成滤波器组504可以使用具有预定步幅(例如,大约5ms 或256个采样的步幅)的逆MDCT。
解码器500的主环路以该步幅为单位进行操作。每一步生成具有 与系统的预定带宽设置对应的长度或尺寸的变换域向量(也被称为块)。 当零填充直到合成滤波器组504的变换大小时,变换域向量将用于将 预定长度(例如,5ms)的时域信号更新合成到合成滤波器组504的 重叠/相加处理。
如以上所指示的,通用的基于变换的音频编解码器通常利用具有 5ms范围内的短块序列的帧来进行瞬变处理。这样,通用的基于变换 的音频编解码器提供用于短块和长块的无缝共存的必须的变换和窗口 切换工具。通过省略图23a的合成滤波器组504而定义的话音谱前端 因此可以被方便地集成到一般用途的基于变换的音频编解码器中,而 无需引入附加的切换工具。换句话说,图23a的基于变换的语音解码 器500可以方便地与通用的基于变换的音频解码器组合。特别地,图 23a的基于变换的语音解码器500可以使用通用的基于变换的音频解 码器(例如,AAC或HE-AAC解码器)所提供的合成滤波器组504。
从传入的比特流(特别地,从包络数据161以及从比特流内所包 括的增益数据162),包络解码器503可以确定信号包络。特别地, 包络解码器503可以被配置为基于包络数据161和增益数据162来确 定调整包络139。这样,包络解码器503可以执行与编码器100、170 的插值单元104和包络细化单元107类似的任务。如以上所概述的, 调整包络109表示预定义频带302的集合中的信号方差的模型。
此外,解码器500包括逆平坦化单元114,其被配置为将调整包 络139应用于平坦化域向量,该平坦化域向量的条目在标称上具有方 差一。平坦化域向量对应于在编码器100、170的上下文中描述的重构 的平坦化系数的块148。在逆平坦化单元114的输出处,获得重构的 系数的块149。重构的系数的块149被提供给合成滤波器组504(用于 产生解码的音频信号)和子带预测器517。
子带预测器517以与编码器100、170的预测器117类似的方式进 行操作。特别地,子带预测器517被配置为基于重构的系数的一个或 多个前面的块149来(在平坦化域中)确定估计的变换系数的块150 (通过使用在比特流内用信号发送的所述一个或多个预测器参数)。 换句话说,子带预测器517被配置为基于预测器参数(诸如预测器滞 后和预测器增益)来从信号包络和前面解码的输出向量的缓冲器输出 预测的平坦化域向量。解码器500包括预测器解码器501,其被配置 为对预测器数据164进行解码以确定所述一个或多个预测器参数。
解码器500还包括谱解码器502,其被配置为通常基于比特流的 最大部分(即,基于系数数据163)将加性(additive)校正供给预测 的平坦化域向量。谱解码处理主要由分配向量控制,该分配向量从包 络和发送的分配控制参数(也被称为偏移参数)导出。如图23a所示, 可以存在谱解码器502对预测器参数520的直接依赖。这样,谱解码 器502可以被配置为基于接收的系数数据163来确定缩放的量化误差 系数的块147。如在编码器100、170的上下文中概述的,用于对重新 缩放的误差系数的块142进行量化的量化器321、322、323通常取决 于分配包络138(其可以从调整包络139导出)和偏移参数。此外, 量化器321、322、323可以取决于预测器117所提供的控制参数146。 该控制参数146可以由解码器500使用预测器参数520导出(以类似 于编码器100、170的方式)。
如以上所指示的,接收的比特流包括可以用于确定调整包络139 的增益数据162和包络数据161。特别地,包络解码器503的单元531 可以被配置为从包络数据161确定量化的当前包络134。举例来说, 量化的当前包络134在预定义频带302中可以具有3dB分辨率(如图 21a中所指示的那样)。量化的当前包络134可以针对每一个块集合 132、332(例如,每四个编码单元,即,块,或者每20ms),特别是 针对每一个移位的块集合332进行更新。量化的当前包络134的频带 302可以包括根据频率而增多的大量频率区间301,以便适应人类听力 的性质。
对于移位的块集合332(或者可能地,当前块集合132)的每个块 131,可以将量化的当前包络134从量化的前一包络135线性插值到插 值包络136中。插值包络136可以在量化的3dB域中被确定。这意味 着插值的能量值303可以被四舍五入到最接近的3dB水平。示例的插 值包络136通过图21a的点图示出。对于每个量化的当前包络134, 四个水平校正增益a 137(也被称为包络增益)被作为增益数据162 提供。增益解码单元532可以被配置为从增益数据162确定水平校正 增益a 137。该水平校正增益可以以1dB步长进行量化。每个水平校 正增益被应用于对应的插值包络136,以便提供对于不同块131的调 整包络139。由于水平校正增益137的增加的分辨率,调整包络139 可以具有增加的分辨率(例如,1dB分辨率)。
图21b示出了量化的前一包络135与量化的当前包络134之间的 示例线性或几何插值。包络135、134可以分为对数谱的均值水平部分 和形状部分。这些部分可以利用独立的策略(诸如线性、几何或谐波 (并行电阻器)策略)进行插值。这样,不同的插值方案可以用于确 定插值包络136。解码器500所使用的插值方案通常对应于编码器100、 170所使用的插值方案。
包络解码器503的包络细化单元107可以被配置为通过对调整包 络139进行量化(例如,以3dB步长)来从调整包络139确定分配包 络138。该分配包络138可以与分配控制参数或偏移参数(包括在系 数数据163内)结合用于创建用于控制谱解码(即,系数数据163的解码)的标称整数分配向量。特别地,该标称整数分配向量可以用于 确定用于对系数数据163内所包括的量化索引进行逆量化的量化器。 分配包络138和标称整数分配向量在编码器100、170中以及在解码器 500中可以以类似的方式确定。
图27示出示例的基于分配包络138的比特分配处理。如以上所概 述的,分配包络138可以根据预定分辨率(例如,3dB分辨率)进行 量化。分配包络138的每个量化的谱能量值可以被分给对应的整数值, 其中,相邻的整数值可以表示与预定分辨率对应的谱能量的差(例如, 3dB差)。所得的整数集合可以被称为整数分配包络1004(被称为 iEnv)。整数分配包络1004可以偏移所述偏移参数以得到标称整数分 配向量(被称为iAlloc),该标称整数分配向量提供要用于对特定频 带302(通过频带索引bandIdx标识)的系数进行量化的量化器的直 接指示。
图27在示图1003中示出作为频带302的函数的整数分配包络 1004。可以看出,对于频带1002(bandIdx=7),整数分配包络1004 取整数值-17(iEnv[7]=-17)。整数分配包络1004可以限于最大值(被 称为iMax,例如,iMax=-15)。比特分配处理可以使用比特分配公 式,该比特分配公式提供作为整数分配包络1004和偏移参数(被称为 AllocOffset)的函数的量化器索引1006(被称为iAlloc[bandIdx])。 如以上所概述的,偏移参数(即,AllocOffset)被发送到对应的解码 器500,从而使得解码器500能够使用比特分配公式来确定量化器索 引1006。该比特分配公式可以由以下给出:
iAlloc[bandIdx]=iEnv[bandIdx]–(iMax–CONSTANT_OFFSET)+AllocOffset, 其中,CONSTANT_OFFSET可以是恒定的偏移,例如, CONSTANT_OFFSET=20。举例来说,如果比特分配处理已确定比特 速率约束可以使用偏移参数AllocOffset=-13来实现,则第7个频带的 量化器索引1007可以按照iAlloc[7]=-17-(-15-20)-13=5获得。通过对 于所有频带302使用以上提及的比特分配公式,可以确定用于所有频 带302的量化器索引1006(并因此量化器321、322、323)。小于零 的量化器索引可以被向上舍入到量化器索引零。以类似的方式,大于 最大可用量化器索引的量化器索引可以被向下舍入到最大可用量化器 索引。
此外,图27示出了可以使用本文档中所描述的量化方案来实现的 示例噪声包络1011。该噪声包络1011示出在量化期间引入的量化噪 声的包络。如果被与信号包络(由图27中的整数分配包络1004表示) 一起绘制,则噪声包络1011示出量化噪声的分布相对于信号包络在感 知上被优化的事实。
为了允许解码器500与接收的比特流同步,可以发送不同类型的 帧。帧可以对应于块集合132、332,特别是移位的块集合332。特别 地,可以发送所谓的P帧,该P帧被以相对于前一帧的相对方式编码。 在以上描述中,假定解码器500知晓量化的前一包络135。该量化的 前一包络135可以在前一帧内提供,使得当前集合132或对应的移位 的集合332可以对应于P帧。然而,在启动场景下,解码器500通常 不知晓量化的前一包络135。出于这个目的,可以发送I帧(例如, 当启动时或者定期地)。该I帧可以包括两个包络,该两个包络中的一个被用作量化的前一包络135,而另一个被用作量化的当前包络134。 I帧可以用于话音谱前端(即,基于变换的语音解码器500)的启动情 况,例如,当跟在利用不同的音频编码模式的帧的后面和/或作为明确 地启用音频比特流的拼接点的工具时。
子带预测器517的操作在图23d中被示出。在所示的示例中,预 测器参数520是滞后参数和预测器增益参数g。该预测器参数520可以 使用用于滞后参数和预测器增益参数的可能值的预定表从预测器数据 164确定。这使得能够实现预测器参数520的比特速率高效发送。
所述一个或多个前面解码的变换系数向量(即,所述重构系数的 一个或多个前面的块149)可以被存储在子带(或MDCT)信号缓冲 器541中。该缓冲器541可以根据步幅(例如,每5ms)进行更新。 预测器提取器543可以被配置为根据规范化的滞后参数T对缓冲器541进行操作。可以通过将滞后参数520规范化为步幅单位(例如, MDCT步幅单位)来确定规范化的滞后参数T。如果滞后参数T是整 数,则提取器543可以将一个或多个前面解码的变换系数向量T个时 间单位取到缓冲器541中。换句话说,滞后参数T可以指示重构系数 的所述一个或多个前面的块149中的哪些个块要用于确定估计的变换 系数的块150。在专利申请US61750052以及要求其优先权的专利申请 (其内容通过引用并入)中提供了关于提取器543的可能的实现的详 细讨论。
提取器543可以对携载全部的信号包络的向量(或块)进行操作。 另一方面,(要由子带预测器517提供的)估计的变换系数的块150 在平坦化域中被表示。因此,提取器543的输出可以被整形为平坦化 域向量。这可以使用整形器544来实现,该整形器544使用重构的系 数的所述一个或多个前面的块149的调整包络139。重构的系数的所 述一个或多个前面的块149的调整包络139可以被存储在包络缓冲器 542中。整形器单元544可以被配置为将来自T0个时间单位的、在平 坦化中要使用的延迟的信号包络取到包络缓冲器542中,其中,T0是 最接近于T的整数。然后,可以通过增益参数g对平坦化域向量进行 缩放以得到估计的变换系数的块150(在平坦化域中)。
作为替代方案,通过使用在平坦化域中进行操作的子带预测器 517(即,对重构的平坦化系数的块148进行操作的子带预测器517), 可以省略整形器544所执行的延迟平坦化处理。然而,已发现,由于 变换(例如,MDCT变换)的时间混叠方面,平坦化域向量(或块)序列没有很好地映射到时间信号。因此,对提取器543的基础信号模 型的拟合降低,并且较高水平的编码噪声源自该替代结构。换句话说, 已发现,子带预测器517所使用的信号模型(例如,正弦或周期性模 型)在未平坦化域中得到提高的性能(与平坦化域相比)。
应注意,在替代示例中,预测器517的输出(即,估计的变换系 数的块150)可以在逆平坦化单元114的输出处被相加(即,被相加 到重构的系数的块149)(参见图23a)。图23c的整形器单元544于 是可以被配置为执行延迟平坦化和逆平坦化的组合操作。
接收的比特流中的元素可以控制子带缓冲器541和包络缓冲器 541的偶尔清除,例如,在I帧的第一个编码单元(即,第一个块) 的情况下。这使得能够在不知道前面的数据的情况下实现I帧的解码。 第一个编码单元通常将不能够使用预测贡献,但是却可以使用相对较 少量的比特来传达预测器信息520。可以通过将更多比特分配给该第 一个编码单元的预测误差编码来补偿预测增益的损失。通常,预测器 贡献再次对于I帧的第二个编码单元(即,第二个块)是重大的。由 于这些方面,可以在比特速率的提高相对小的情况下保持质量,即使 在非常频繁地使用I帧的情况下。
换句话说,块集合132、332(也被称为帧)包括可以使用预测编 码进行编码的多个块131。当对I帧进行编码时,块集合332中仅第 一个块203不能使用通过预测编码器实现的编码增益进行编码。正后 面的块201可能已经使用了预测编码的益处。这意味着I帧关于编码 效率的缺点限于帧332的变换系数的第一个块203的编码,而不适用 于帧332的其它块201、204、205。因此,在本文档中描述的基于变 换的语音编码方案允许在不显著影响编码效率的情况下相对频繁地使 用I帧。这样,目前描述的基于变换的语音编码方案特别适合于要求 解码器与编码器之间相对快速和/或相对频繁的同步的应用。
图23d示出了示例谱解码器502的框图。该谱解码器502包括无 损解码器551,其被配置为对熵编码的系数数据163进行解码。此外, 谱解码器502包括逆量化器522,其被配置为将系数值分给系数数据 163内所包括的量化索引。如在编码器100、170的上下文中所概述的, 可以使用从预定量化器集合(例如,基于模型的标量量化器的有限集 合)中选择的不同量化器对不同的变换系数进行量化。如图22所示, 量化器321、322、323的集合可以包括不同类型的量化器。该量化器 集合可以包括提供噪声合成(在零比特速率的情况下)的量化器321、 一个或多个抖动量化器322(用于相对低的信噪比SNR,以及用于中 间比特速率)和/或一个或多个普通量化器323(用于相对高的SNR以 及用于相对高的比特速率)。
包络细化单元107可以被配置为提供分配包络138,其可以与系 数数据163内所包括的偏移参数组合以得到分配向量。该分配向量包 含用于每个频带302的整数值。用于特定频带302的整数值指向要用 于该特定带302的变换系数的逆量化的比率失真点。换句话说,用于 特定频带302的整数值指向要用于该特定带302的变换系数的逆量化 的量化器。该整数值增加1对应于SNR增加1.5dB。对于抖动量化器 322和普通量化器323,在可以利用算术编码的无损编码中可以使用拉 普拉斯(Laplacian)概率分布模型。一个或多个抖动量化器322可以 被用于在低比特速率情况与高比特速率情况之间以无缝方式桥接间隙。 抖动量化器322在针对静止噪声式的信号创建足够平滑的输出音频质 量可能是有益的。
换句话说,逆量化器552可以被配置为接收变换系数的当前块131 的系数量化索引。特定频带302的所述一个或多个系数量化索引已使 用来自预定的量化器集合的对应量化器确定。用于特定频带302的分 配向量的值(其可以通过利用偏移参数使分配包络138偏移而确定) 指示已被用于确定该特定频带302的所述一个或多个系数量化索引的 量化器。在标识该量化器之后,可以对所述一个或多个系数量化索引 进行逆量化以得到量化的误差系数的块145。
此外,谱解码器502可以包括逆重新缩放单元113以提供缩放的 量化误差系数的块147。图23d的无损解码器551和逆量化器552周 围的附加工具和互连可以用于使谱解码适应其在图23a中所示的整个 解码器500中的使用,在图23a中,谱解码器502的输出(即,量化 的误差系数的块145)用于对预测的平坦化域向量(即,对估计的变 换系数的块150)提供加性校正。特别地,这些附加工具可以确保解 码器500所执行的处理对应于编码器100、170所执行的处理。
特别地,谱解码器502可以包括启发式缩放单元111。如结合编 码器100、170所示的,启发式缩放单元111可能对比特分配有影响。 在编码器100、170中,可以通过启发式规则将预测误差系数的当前块 141缩放直到单位方差。因此,默认的分配可能导致启发式缩放单元 111的最终缩减输出的太细的量化。因此,应以与预测误差系数的修 改类似的方式修改分配。
然而,如以下所概述的,避免用于低频区间(或低频带)中的一 个或多个的编码资源的减少可能是有益的。特别地,这对于对在发声 的情况下碰巧是最突出的LF(低频)隆隆声/噪声伪象(即,对于具 有相对大的控制参数146rfu的信号)进行计数可能是有益的。这样, 以下描述的取决于控制参数146的比特分配/量化器选择可以被认为是 “发声自适应LF质量提升”。
谱解码器可以取决于被命名为rfu的控制参数146,该rfu是预测 器增益g的有限版本,rfu=min(1,max(g,0))。
通过使用控制参数146,可以对编码器100、170的系数量化单元 112中所使用的以及逆量化器552中所使用的所述量化器集合进行改 动。特别地,可以基于控制参数146来改动所述量化器集合的噪度。 举例来说,控制参数146rfu的接近于1的值可以使用抖动量化器来 触发分配水平范围的限制,并且可以触发噪声合成水平的方差的减小。 在示例中,可以设置rfu=0.75处的抖动决策阈值和等于1-rfu的噪声 增益。抖动改动可能影响无损解码和逆量化器两者,而噪声增益改动 通常仅影响逆量化器。
可以假定,预测器贡献对于发声/音调情况是重大的。这样,相对 高的预测器增益g(即,相对高的控制参数146)可以指示发声或音调 语音信号。在这样的情况下,抖动相关的或明显的(零分配情况)噪 声的添加实证表明对于编码信号的感知质量是适得其反的。因此,可 以基于预测器增益g来改动抖动量化器322的数量和/或用于噪声合成 量化器321的噪声的类型,从而改进编码的语音信号的感知质量。
这样,控制参数146可以用于修改对其使用抖动量化器322的 SNR的范围324、325。举例来说,如果控制参数146rfu<0.75,则可 以使用用于抖动量化器的范围324。换句话说,如果控制参数146低 于预定阈值,则可以使用量化器的第一集合326。另一方面,如果控 制参数146rfu≥0.75,则可以使用用于抖动量化器的范围325。换句话 说,如果控制参数146大于或等于预定阈值,则可以使用量化器的第 二集合327。
此外,控制参数146可以用于修改方差和比特分配。其原因是通 常成功的预测将需要较小的校正,尤其是在从0-1kHz的低频范围内。 可能有利的是,使量化器明确地知晓与单位方差模型的这个偏差以便 将编码资源释放到较高频带302。
等同、扩展、替代和其它
在研究以上描述之后,本发明的另外的实施例对于本领域技术人 员将变得清楚。即使本描述和附图公开了实施例和示例,本发明也不 限于这些特定示例。在不脱离由所附权利要求书限定的本发明的范围 的情况下,可以进行许多修改和变化。出现在权利要求中的任何引用 符号不被理解为限制它们的范围。
上文中公开的系统和方法可以被实现为软件、固件、硬件或它们 的组合。在硬件实现中,任务在以上描述中提及的功能单元之间的划 分不一定对应于划分成物理单元的划分;相反,一个物理组件可以具 有多种功能,并且一个任务可以由几个物理组件合作执行。某些组件 或所有组件可以被实现为由数字信号处理器或微处理器执行的软件, 或者被实现为硬件或专用集成电路。这样的软件可以分布在计算机可 读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介 质)和通信介质(或暂时性介质)。如本领域技术人员公知的,术语 计算机存储介质包括在用于存储信息的任何方法或技术中实现的易失 性和非易失性、可移动和不可移动介质,所述信息诸如计算机可读指 令、数据结构、程序模块或其它数据。计算机存储介质包括但不限于, RAM、ROM、RRPROM、闪存或其它存储器技术、CD-ROM、数字 多功能盘(DVD)或其它光学盘储存器、磁盒、磁带、磁盘储存器或 其它磁性存储装置、或可以用于存储期望的信息并且可以被计算机访 问的任何其它介质。此外,技术人员公知的是,通信介质通常包含计 算机可读指令、数据结构、程序模块、或模块化数据信号(诸如载波 或其它传输机制)中的其它数据,并且包括任何信息递送介质。
Claims (17)
1.一种被配置为接受音频比特流的音频处理系统(100),所述音频处理系统包括:
解码器(101),所述解码器(101)适于接收比特流,并且输出量化的谱系数;
前端组件,所述前端组件包括:
-解量化级(102),所述解量化级(102)适于接收所述量化的谱系数,并且输出中间信号的第一频域表示;和
-逆变换级(103),所述逆变换级(103)用于接收所述中间信号的第一频域表示,并且基于所述第一频域表示来合成所述中间信号的时域表示;
处理级,所述处理级包括:
-分析滤波器组(104),所述分析滤波器组(104)用于接收所述中间信号的时域表示,并且输出所述中间信号的第二频域表示;
-至少一个处理组件(105、106、107),所述至少一个处理组件(105、106、107)用于接收所述中间信号的所述第二频域表示,并且输出处理的音频信号的频域表示;和
-合成滤波器组(108),所述合成滤波器组(108)用于接收所述处理的音频信号的频域表示,并且输出所述处理的音频信号的时域表示;以及
采样速率转换器(109),所述采样速率转换器(109)用于接收所述处理的音频信号的所述时域表示,并且输出以目标采样频率采样的重构的音频信号,
其中,所述中间信号的时域表示和所述处理的音频信号的时域表示的相应的内部采样速率是相等的,并且其中,所述至少一个处理组件包括:
参数化上混级(106),所述参数化上混级(106)用于接收具有M个声道的下混信号,并且基于所述下混信号来输出具有N个声道的信号,其中,所述参数化上混级能够至少在上混模式和传递模式下操作,在上混模式下,1≤M<N并且所述参数化上混级执行上混操作,上混模式与算法延迟相关联,在传递模式下,1≤M=N并且所述参数化上混级不执行上混操作;和
第一延迟级,所述第一延迟级被配置为在所述参数化上混级处于传递模式下时引发延迟,以补偿与上混模式相关联的算法延迟,以便使所述处理级与所述参数化上混级的当前操作模式独立地具有恒定的总延迟。
2.根据权利要求1所述的音频处理系统,其中,所述前端组件能够在音频模式和话音特定模式下操作,并且所述前端组件的从所述音频模式到话音特定模式的模式改变包括减小所述逆变换级的最大帧长度。
3.根据权利要求2所述的音频处理系统,其中,所述采样速率转换器能够操作为提供以目标采样频率采样的重构的音频信号,所述目标采样频率与所述处理的音频信号的所述时域表示的内部采样速率相差多达5%。
4.根据前面权利要求中的任何一个所述的音频处理系统,还包括被布置为与所述处理级并行的旁通线路,并且包括被配置为引发与所述处理级的恒定的总延迟相等的延迟的第二延迟级。
5.根据权利要求1所述的音频处理系统,其中,所述参数化上混级进一步能够至少在M=3且N=5的模式下操作。
6.根据权利要求5所述的音频处理系统,其中,所述前端组件被配置为,在所述参数化上混级的M=3且N=5的这个模式下,提供包括下混信号的中间信号,其中,所述前端组件从所述音频比特流中的联合编码的声道导出M=3个声道中的两个声道。
7.根据权利要求1所述的音频处理系统,其中,所述至少一个处理组件还包括谱带复制模块(106),所述谱带复制模块(106)被布置在所述参数化上混级的上游,并且能够操作为重构高频内容,其中,所述谱带复制模块
-被配置为至少在所述参数化上混级的M<N的那些模式下是活动的;并且
-当所述参数化上混级处于M=N的模式中的任何一个模式下时,能够与所述参数化上混级的当前模式独立地操作。
8.根据权利要求7所述的音频处理系统,其中,所述至少一个处理组件还包括波形编码级(214),所述波形编码级(214)被布置为与所述参数化上混级并行或者在所述参数化上混级的下游,并且能够操作为利用波形编码的低频内容增强所述N个声道中的每一个,其中,所述波形编码级能够与所述谱带复制模块和参数化上混级的当前模式独立地活动和停用。
9.根据权利要求8所述的音频处理系统,能够至少在所述参数化上混级处于M=N模式的解码模式下操作,其中,M>2。
10.根据权利要求9所述的音频处理系统,能够至少在以下解码模式下操作:
i)参数化上混级处于M=N=1模式;
ii)参数化上混级处于M=N=1模式且谱带复制模块是活动的;
iii)参数化上混级处于M=1、N=2模式且谱带复制模块是活动的;
iv)参数化上混级处于M=1、N=2模式,谱带复制模块是活动的且波形编码级是活动的;
v)参数化上混级处于M=2、N=5模式且谱带复制模块是活动的;
vi)参数化上混级处于M=2、N=5模式,谱带复制模块是活动的且波形编码级是活动的;
vii)参数化上混级处于M=3、N=5模式且谱带复制模块是活动的;
viii)参数化上混级处于M=N=2模式;
ix)参数化上混级处于M=N=2模式且谱带复制模块是活动的;
x)参数化上混级处于M=N=7模式;
xi)参数化上混级处于M=N=7模式且谱带复制模块是活动的。
11.根据权利要求1所述的音频处理系统,还包括被布置在所述处理级的下游的以下组件:
相移组件,所述相移组件被配置为接收所述处理的音频信号的时域表示,在所述时域表示中,至少一个声道表示环绕声道,并且所述相移组件被配置为对所述至少一个环绕声道执行90度相移;和
下混组件,所述下混组件被配置为从所述相移组件接收所述处理的音频信号,并且基于所述处理的音频信号来输出具有两个声道的下混信号。
12.根据权利要求1所述的音频处理系统,还包括Lfe解码器,所述Lfe解码器被配置为基于所述音频比特流来准备至少一个附加声道,并且将所述至少一个附加声道包括在所述重构的音频信号中。
13.一种对音频比特流进行处理的方法,所述方法包括:
基于比特流来提供量化的谱系数;
接收所述量化的谱系数,并且执行逆量化,接着进行频率到时间变换,由此获得中间音频信号的时域表示;
基于所述中间音频信号的时域表示来提供所述中间音频信号的频域表示;
通过对所述中间音频信号的频域表示执行至少一个处理步骤来提供处理的音频信号的频域表示;
基于所述处理的音频信号的频域表示来提供所述处理的音频信号的时域表示;以及
将所述处理的音频信号的时域表示的采样速率变为目标采样频率,由此获得重构的音频信号,
其中,所述中间音频信号的时域表示和所述处理的音频信号的时域表示的相应的内部采样速率是相等的,其中,所述方法还包括:
在至少上混模式和传递模式当中确定处理步骤的当前模式,在上混模式下,1≤M<N并且执行与算法延迟相关联的上混操作,在传递模式下,1≤M=N并且不执行上混操作,
其中,所述至少一个处理步骤包括:
接收具有M个声道的下混信号,并且基于所述下混信号来输出具有N个声道的信号;
响应于当前模式为传递模式,引发延迟以补偿与上混模式相关联的算法延迟,以便使所述处理步骤的总延迟与所述当前模式独立地恒定。
14.根据权利要求13所述的方法,其中,所述逆量化和/或频率到时间变换在能够至少在音频模式和话音特定的模式下操作的硬件组件中被执行,当前模式根据与所述量化的谱系数相关联的元数据而选择,并且其中,从所述音频模式到话音特定模式的模式改变包括减小所述频率到时间变换的最大帧长度。
15.一种非暂时性计算机可读介质,所述非暂时性计算机可读介质包括存储在其上的指令,所述指令当被执行时,使得执行如权利要求13-14中任一项所述的方法的步骤。
16.一种对音频比特流进行处理的设备,包括:
一个或多个处理器;以及
存储器,存储当被执行时使所述一个或多个处理器执行如权利要求13-14中任一项所述的方法的步骤的指令。
17.一种对音频比特流进行处理的装置,该装置包括用于执行如权利要求13-14中任一项所述的方法的步骤的部件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910045920.8A CN109509478B (zh) | 2013-04-05 | 2014-04-04 | 音频处理装置 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361809019P | 2013-04-05 | 2013-04-05 | |
US61/809,019 | 2013-04-05 | ||
US201361875959P | 2013-09-10 | 2013-09-10 | |
US61/875,959 | 2013-09-10 | ||
PCT/EP2014/056857 WO2014161996A2 (en) | 2013-04-05 | 2014-04-04 | Audio processing system |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910045920.8A Division CN109509478B (zh) | 2013-04-05 | 2014-04-04 | 音频处理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105247613A CN105247613A (zh) | 2016-01-13 |
CN105247613B true CN105247613B (zh) | 2019-01-18 |
Family
ID=50489074
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480024625.XA Active CN105247613B (zh) | 2013-04-05 | 2014-04-04 | 音频处理系统 |
CN201910045920.8A Active CN109509478B (zh) | 2013-04-05 | 2014-04-04 | 音频处理装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910045920.8A Active CN109509478B (zh) | 2013-04-05 | 2014-04-04 | 音频处理装置 |
Country Status (11)
Country | Link |
---|---|
US (2) | US9478224B2 (zh) |
EP (1) | EP2981956B1 (zh) |
JP (2) | JP6013646B2 (zh) |
KR (1) | KR101717006B1 (zh) |
CN (2) | CN105247613B (zh) |
BR (1) | BR112015025092B1 (zh) |
ES (1) | ES2934646T3 (zh) |
HK (1) | HK1214026A1 (zh) |
IN (1) | IN2015MN02784A (zh) |
RU (1) | RU2625444C2 (zh) |
WO (1) | WO2014161996A2 (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI557727B (zh) | 2013-04-05 | 2016-11-11 | 杜比國際公司 | 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品 |
CN105247613B (zh) * | 2013-04-05 | 2019-01-18 | 杜比国际公司 | 音频处理系统 |
KR101987565B1 (ko) * | 2014-08-28 | 2019-06-10 | 노키아 테크놀로지스 오와이 | 오디오 파라미터 양자화 |
WO2016142002A1 (en) * | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
US20180082693A1 (en) * | 2015-04-10 | 2018-03-22 | Thomson Licensing | Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation |
EP3107096A1 (en) | 2015-06-16 | 2016-12-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Downscaled decoding |
WO2017080835A1 (en) * | 2015-11-10 | 2017-05-18 | Dolby International Ab | Signal-dependent companding system and method to reduce quantization noise |
KR101968456B1 (ko) * | 2016-01-26 | 2019-04-11 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 적응형 양자화 |
KR102546098B1 (ko) * | 2016-03-21 | 2023-06-22 | 한국전자통신연구원 | 블록 기반의 오디오 부호화/복호화 장치 및 그 방법 |
US20170289536A1 (en) * | 2016-03-31 | 2017-10-05 | Le Holdings (Beijing) Co., Ltd. | Method of audio debugging for television and electronic device |
US10770082B2 (en) * | 2016-06-22 | 2020-09-08 | Dolby International Ab | Audio decoder and method for transforming a digital audio signal from a first to a second frequency domain |
US10249307B2 (en) * | 2016-06-27 | 2019-04-02 | Qualcomm Incorporated | Audio decoding using intermediate sampling rate |
US10224042B2 (en) | 2016-10-31 | 2019-03-05 | Qualcomm Incorporated | Encoding of multiple audio signals |
PT3539127T (pt) * | 2016-11-08 | 2020-12-04 | Fraunhofer Ges Forschung | Dispositivo de downmix e método para executar o downmix de pelo menos dois canais e codificador multicanal e descodificador multicanal |
GB2559200A (en) * | 2017-01-31 | 2018-08-01 | Nokia Technologies Oy | Stereo audio signal encoder |
US10475457B2 (en) * | 2017-07-03 | 2019-11-12 | Qualcomm Incorporated | Time-domain inter-channel prediction |
US10950251B2 (en) * | 2018-03-05 | 2021-03-16 | Dts, Inc. | Coding of harmonic signals in transform-based audio codecs |
US10863300B2 (en) | 2018-06-18 | 2020-12-08 | Magic Leap, Inc. | Spatial audio for interactive audio environments |
US11545165B2 (en) * | 2018-07-03 | 2023-01-03 | Panasonic Intellectual Property Corporation Of America | Encoding device and encoding method using a determined prediction parameter based on an energy difference between channels |
CN112384976B (zh) * | 2018-07-12 | 2024-10-11 | 杜比国际公司 | 动态eq |
JP2022523564A (ja) | 2019-03-04 | 2022-04-25 | アイオーカレンツ, インコーポレイテッド | 機械学習を使用するデータ圧縮および通信 |
CN110335615B (zh) * | 2019-05-05 | 2021-11-16 | 北京字节跳动网络技术有限公司 | 音频数据的处理方法、装置、电子设备及存储介质 |
WO2021004047A1 (zh) * | 2019-07-09 | 2021-01-14 | 海信视像科技股份有限公司 | 显示装置、音频播放方法 |
BR112022003440A2 (pt) * | 2019-09-03 | 2022-05-24 | Dolby Laboratories Licensing Corp | Codec de efeitos de baixa latência, baixa frequência |
RU2731602C1 (ru) * | 2019-09-30 | 2020-09-04 | Ордена трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования "Московский технический университет связи и информатики" (МТУСИ) | Способ и устройство компандирования с предыскажением звуковых вещательных сигналов |
CN113140225B (zh) * | 2020-01-20 | 2024-07-02 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
CN111354365B (zh) * | 2020-03-10 | 2023-10-31 | 苏宁云计算有限公司 | 一种纯语音数据采样率识别方法、装置、系统 |
JP7567180B2 (ja) * | 2020-03-13 | 2024-10-16 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
GB2624686A (en) * | 2022-11-25 | 2024-05-29 | Lenbrook Industries Ltd | Improvements to audio coding |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1910655A (zh) * | 2004-01-20 | 2007-02-07 | 弗劳恩霍夫应用研究促进协会 | 构造多通道输出信号或生成下混信号的设备和方法 |
CN1957398A (zh) * | 2004-02-18 | 2007-05-02 | 沃伊斯亚吉公司 | 在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备 |
CN101192407A (zh) * | 2006-11-30 | 2008-06-04 | 索尼株式会社 | 再生方法和设备、程序、以及记录介质 |
CN101889307A (zh) * | 2007-10-04 | 2010-11-17 | 创新科技有限公司 | 相位-幅度3d立体声编码器和解码器 |
EP2302624A1 (en) * | 2008-07-14 | 2011-03-30 | Electronics and Telecommunications Research Institute | Apparatus for encoding and decoding of integrated speech and audio |
EP2360683A1 (en) * | 2010-02-18 | 2011-08-24 | Dolby Laboratories Licensing Corporation | Audio decoder and decoding method using efficient downmixing |
Family Cites Families (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3582589B2 (ja) * | 2001-03-07 | 2004-10-27 | 日本電気株式会社 | 音声符号化装置及び音声復号化装置 |
US7292901B2 (en) | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
US7644003B2 (en) * | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
JP4108317B2 (ja) * | 2001-11-13 | 2008-06-25 | 日本電気株式会社 | 符号変換方法及び装置とプログラム並びに記憶媒体 |
US7657427B2 (en) | 2002-10-11 | 2010-02-02 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
EP1618763B1 (en) * | 2003-04-17 | 2007-02-28 | Koninklijke Philips Electronics N.V. | Audio signal synthesis |
US7412380B1 (en) * | 2003-12-17 | 2008-08-12 | Creative Technology Ltd. | Ambience extraction and modification for enhancement and upmix of audio signals |
GB0402661D0 (en) * | 2004-02-06 | 2004-03-10 | Medical Res Council | TPL2 and its expression |
CN1677493A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
SE0400998D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
TWI393120B (zh) * | 2004-08-25 | 2013-04-11 | Dolby Lab Licensing Corp | 用於音訊信號編碼及解碼之方法和系統、音訊信號編碼器、音訊信號解碼器、攜帶有位元流之電腦可讀取媒體、及儲存於電腦可讀取媒體上的電腦程式 |
DE102004043521A1 (de) * | 2004-09-08 | 2006-03-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes |
SE0402649D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Advanced methods of creating orthogonal signals |
EP1817767B1 (en) * | 2004-11-30 | 2015-11-11 | Agere Systems Inc. | Parametric coding of spatial audio with object-based side information |
US7903824B2 (en) * | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
MX2007011915A (es) * | 2005-03-30 | 2007-11-22 | Koninkl Philips Electronics Nv | Codificacion de audio multicanal. |
US7961890B2 (en) * | 2005-04-15 | 2011-06-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. | Multi-channel hierarchical audio coding with compact side information |
EP1912206B1 (en) * | 2005-08-31 | 2013-01-09 | Panasonic Corporation | Stereo encoding device, stereo decoding device, and stereo encoding method |
US20080004883A1 (en) | 2006-06-30 | 2008-01-03 | Nokia Corporation | Scalable audio coding |
DE602007012116D1 (de) * | 2006-08-15 | 2011-03-03 | Dolby Lab Licensing Corp | Arbiträre formung einer temporären rauschhüllkurve ohne nebeninformation |
SG175632A1 (en) | 2006-10-16 | 2011-11-28 | Dolby Sweden Ab | Enhanced coding and parameter representation of multichannel downmixed object coding |
US8363842B2 (en) * | 2006-11-30 | 2013-01-29 | Sony Corporation | Playback method and apparatus, program, and recording medium |
US8200351B2 (en) | 2007-01-05 | 2012-06-12 | STMicroelectronics Asia PTE., Ltd. | Low power downmix energy equalization in parametric stereo encoders |
US8553891B2 (en) * | 2007-02-06 | 2013-10-08 | Koninklijke Philips N.V. | Low complexity parametric stereo decoder |
US8290167B2 (en) * | 2007-03-21 | 2012-10-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for conversion between multi-channel audio formats |
EP2077551B1 (en) | 2008-01-04 | 2011-03-02 | Dolby Sweden AB | Audio encoder and decoder |
US8546172B2 (en) * | 2008-01-18 | 2013-10-01 | Miasole | Laser polishing of a back contact of a solar cell |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
JP5551694B2 (ja) | 2008-07-11 | 2014-07-16 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 多くのスペクトルエンベロープを計算するための装置および方法 |
KR101261677B1 (ko) * | 2008-07-14 | 2013-05-06 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
PT2146344T (pt) * | 2008-07-17 | 2016-10-13 | Fraunhofer Ges Forschung | Esquema de codificação/descodificação de áudio com uma derivação comutável |
CN102099857B (zh) * | 2008-07-18 | 2013-03-13 | 杜比实验室特许公司 | 用于解码器中的编码音频数据的频域后滤波的方法和系统 |
WO2010042024A1 (en) | 2008-10-10 | 2010-04-15 | Telefonaktiebolaget Lm Ericsson (Publ) | Energy conservative multi-channel audio coding |
WO2010070016A1 (en) * | 2008-12-19 | 2010-06-24 | Dolby Sweden Ab | Method and apparatus for applying reverb to a multi-channel audio signal using spatial cue parameters |
WO2010075895A1 (en) | 2008-12-30 | 2010-07-08 | Nokia Corporation | Parametric audio coding |
EP2214161A1 (en) * | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for upmixing a downmix audio signal |
BRPI1009467B1 (pt) | 2009-03-17 | 2020-08-18 | Dolby International Ab | Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo |
FR2947945A1 (fr) | 2009-07-07 | 2011-01-14 | France Telecom | Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques |
KR20110022252A (ko) | 2009-08-27 | 2011-03-07 | 삼성전자주식회사 | 스테레오 오디오의 부호화, 복호화 방법 및 장치 |
KR20110049068A (ko) * | 2009-11-04 | 2011-05-12 | 삼성전자주식회사 | 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법 |
US9117458B2 (en) * | 2009-11-12 | 2015-08-25 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
US8442837B2 (en) | 2009-12-31 | 2013-05-14 | Motorola Mobility Llc | Embedded speech and audio coding using a switchable model core |
US8423355B2 (en) | 2010-03-05 | 2013-04-16 | Motorola Mobility Llc | Encoder for audio signal including generic audio and speech frames |
EP2375409A1 (en) | 2010-04-09 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction |
US8489391B2 (en) | 2010-08-05 | 2013-07-16 | Stmicroelectronics Asia Pacific Pte., Ltd. | Scalable hybrid auto coder for transient detection in advanced audio coding with spectral band replication |
CN103262158B (zh) | 2010-09-28 | 2015-07-29 | 华为技术有限公司 | 对解码的多声道音频信号或立体声信号进行后处理的装置和方法 |
CN102844808B (zh) | 2010-11-03 | 2016-01-13 | 华为技术有限公司 | 用于编码多通道音频信号的参数编码器 |
CN102959620B (zh) | 2011-02-14 | 2015-05-13 | 弗兰霍菲尔运输应用研究公司 | 利用重迭变换的信息信号表示 |
EP2523473A1 (en) * | 2011-05-11 | 2012-11-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating an output signal employing a decomposer |
CN103918029B (zh) * | 2011-11-11 | 2016-01-20 | 杜比国际公司 | 使用过采样谱带复制的上采样 |
CN105247613B (zh) * | 2013-04-05 | 2019-01-18 | 杜比国际公司 | 音频处理系统 |
-
2014
- 2014-04-04 CN CN201480024625.XA patent/CN105247613B/zh active Active
- 2014-04-04 US US14/781,232 patent/US9478224B2/en active Active
- 2014-04-04 RU RU2015147158A patent/RU2625444C2/ru active
- 2014-04-04 BR BR112015025092-0A patent/BR112015025092B1/pt active IP Right Grant
- 2014-04-04 ES ES14717713T patent/ES2934646T3/es active Active
- 2014-04-04 KR KR1020157031853A patent/KR101717006B1/ko active IP Right Grant
- 2014-04-04 IN IN2784MUN2015 patent/IN2015MN02784A/en unknown
- 2014-04-04 EP EP14717713.3A patent/EP2981956B1/en active Active
- 2014-04-04 CN CN201910045920.8A patent/CN109509478B/zh active Active
- 2014-04-04 WO PCT/EP2014/056857 patent/WO2014161996A2/en active Application Filing
- 2014-04-04 JP JP2016505845A patent/JP6013646B2/ja active Active
-
2016
- 2016-02-18 HK HK16101744.9A patent/HK1214026A1/zh unknown
- 2016-09-01 US US15/255,009 patent/US9812136B2/en active Active
- 2016-09-21 JP JP2016184272A patent/JP6407928B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1910655A (zh) * | 2004-01-20 | 2007-02-07 | 弗劳恩霍夫应用研究促进协会 | 构造多通道输出信号或生成下混信号的设备和方法 |
CN1957398A (zh) * | 2004-02-18 | 2007-05-02 | 沃伊斯亚吉公司 | 在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备 |
CN101192407A (zh) * | 2006-11-30 | 2008-06-04 | 索尼株式会社 | 再生方法和设备、程序、以及记录介质 |
CN101889307A (zh) * | 2007-10-04 | 2010-11-17 | 创新科技有限公司 | 相位-幅度3d立体声编码器和解码器 |
EP2302624A1 (en) * | 2008-07-14 | 2011-03-30 | Electronics and Telecommunications Research Institute | Apparatus for encoding and decoding of integrated speech and audio |
EP2360683A1 (en) * | 2010-02-18 | 2011-08-24 | Dolby Laboratories Licensing Corporation | Audio decoder and decoding method using efficient downmixing |
Non-Patent Citations (2)
Title |
---|
An Overview of the Coding Standard MPEG-4 Audio Amendments 1 and 2: HE-AAC, SSC, and HE-AAC v2;A. C. den Brinker et al.;《EURASIP Journal on Audio, Speech, and Music Processing》;20090101;第744-21页 |
MPEG Surround—The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding;J. Herre et al.;《Journal of the Audio Engineering Society》;20081130;第56卷(第11期);第932-955页 |
Also Published As
Publication number | Publication date |
---|---|
US20160055855A1 (en) | 2016-02-25 |
BR112015025092A2 (pt) | 2017-07-18 |
JP6013646B2 (ja) | 2016-10-25 |
HK1214026A1 (zh) | 2016-07-15 |
CN109509478A (zh) | 2019-03-22 |
US9478224B2 (en) | 2016-10-25 |
JP2016514858A (ja) | 2016-05-23 |
US9812136B2 (en) | 2017-11-07 |
EP2981956B1 (en) | 2022-11-30 |
RU2625444C2 (ru) | 2017-07-13 |
US20160372123A1 (en) | 2016-12-22 |
KR20150139601A (ko) | 2015-12-11 |
RU2015147158A (ru) | 2017-05-17 |
ES2934646T3 (es) | 2023-02-23 |
EP2981956A2 (en) | 2016-02-10 |
WO2014161996A2 (en) | 2014-10-09 |
JP6407928B2 (ja) | 2018-10-17 |
CN105247613A (zh) | 2016-01-13 |
KR101717006B1 (ko) | 2017-03-15 |
CN109509478B (zh) | 2023-09-05 |
IN2015MN02784A (zh) | 2015-10-23 |
BR112015025092B1 (pt) | 2022-01-11 |
JP2017017749A (ja) | 2017-01-19 |
WO2014161996A3 (en) | 2014-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105247613B (zh) | 音频处理系统 | |
US10573327B2 (en) | Method and system using a long-term correlation difference between left and right channels for time domain down mixing a stereo sound signal into primary and secondary channels | |
JP2023103271A (ja) | 無相関化信号の寄与の残差信号ベースの調整を用いたマルチチャンネルオーディオデコーダ、マルチチャンネルオーディオエンコーダ、方法およびコンピュータプログラム | |
US8817992B2 (en) | Multichannel audio coder and decoder | |
US8046214B2 (en) | Low complexity decoder for complex transform coding of multi-channel sound | |
US8249883B2 (en) | Channel extension coding for multi-channel source | |
KR20170126994A (ko) | 다채널 신호를 인코딩하기 위한 오디오 인코더 및 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더 | |
RU2749349C1 (ru) | Кодер аудиосцены, декодер аудиосцены и соответствующие способы, использующие пространственный анализ с гибридным кодером/декодером | |
KR20160015280A (ko) | 오디오 신호 인코더 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1214026 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |