CN113990332A

CN113990332A - 用于音频信号的高频重建技术的回溯兼容集成

Info

Publication number: CN113990332A
Application number: CN202111240006.2A
Authority: CN
Inventors: K·克乔埃尔林; L·维尔蒙斯; H·普尔纳根; P·埃克斯特兰德
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2018-01-26
Filing date: 2019-01-28
Publication date: 2022-01-28
Also published as: AR127540A2; IL278573A; AU2023255020A1; US11961528B2; CN113936672A; UA123426C2; CN113990331A; MX2020007635A; TW202046293A; US11646041B2; US20230049358A1; US20230050996A1; US20230049695A1; US20230059049A1; AR114312A1; KR20230043248A; US20220180880A1; WO2019148112A1; RU2740688C1; US11756559B2

Abstract

本申请涉及用于音频信号的高频重建技术的回溯兼容集成。本发明揭示一种用于解码经编码音频位流的方法。所述方法包含接收所述经编码音频位流及解码所述音频数据以产生经解码低频带音频信号。所述方法进一步包含提取高频重建元数据及使用分析滤波器组对所述经解码低频带音频信号滤波以产生经滤波低频带音频信号。所述方法还包含提取指示对所述音频数据执行频谱平移或谐波转置的旗标及根据所述旗标使用所述经滤波低频带音频信号及所述高频重建元数据来再生所述音频信号的高频带部分。

Description

用于音频信号的高频重建技术的回溯兼容集成

分案申请的相关信息

本案是分案申请。该分案的母案是申请日为2019年01月28日、申请号为PCT/US2019/015442的PCT国际申请进入中国后发明名称为“用于音频信号的高频重建技术的回溯兼容集成”的第201980010173.2号发明专利申请案。

相关申请案的交叉参考

本申请案主张以下优先申请案的优先权：2018年1月26日申请的第62/622,205号美国临时申请案，所述申请案特此以引用的方式并入本文中。

技术领域

实施例涉及音频信号处理，且更具体来说，涉及音频位流的编码、解码或转码，其中控制数据指示对音频数据执行基础形式的高频重建(“HFR”)或增强形式的HFR。

背景技术

典型信息位流包含指示音频内容的一或多个信道的音频数据(例如经编码音频数据)及指示音频数据或音频内容的至少一个特性的元数据两者。用于产生经编码音频位流的一个熟知格式是在MPEG标准ISO/IEC 14496-3:2009中描述的MPEG-4高级音频编码(AAC)格式。在MPEG-4标准中，AAC表示“高级音频编码”且HE-AAC表示“高效率高级音频编码”。

MPEG-4AAC标准定义确定哪些对象及编码工具存在于合规编码器或解码器中的若干音频布置文件(audio profile)。这些音频布置文件中的三者是(1)AAC布置文件、(2)HE-AAC布置文件及(3)HE-AAC v2布置文件。AAC布置文件包含AAC低复杂性(或“AAC-LC”)对象类型。AAC-LC对象是MPEG-2AAC低复杂性布置文件的具有一些调整的对应物，且不包含频谱频带复制(“SBR”)对象类型或参数立体声(“PS”)对象类型。HE-AAC布置文件是AAC布置文件的超集且另外包含SBR对象类型。HE-AAC v2布置文件是HE-AAC布置文件的超集且另外包含PS对象类型。

SBR对象类型含有频谱频带复制工具，其是显著改进感知音频编解码器的压缩效率的重要高频重建(“HFR”)编码工具。SBR重建(例如，在解码器中)接收器侧上的音频信号的高频分量。因此，编码器仅需编码并传输低频分量，从而允许按低数据速率的更高音频质量。SBR是基于先前经截断的谐波序列的复制以便降低来自可用带宽限制信号及从编码器获得的控制数据的数据速率。通过适应性逆滤波以及噪声与正弦波的选用相加而维持音调与类噪声分量之间的比率。在MPEG-4AAC标准中，SBR工具执行频谱修补(还称为线性平移或频谱平移)，其中将数个连续正交镜像滤波器(QMF)副频带从音频信号的经传输低频部分复制(或“修补”)到所述音频信号的高频带部分(其是在解码器中产生)。

对于某些音频类型(例如具有相对低交越频率的音乐内容)，频谱修补或线性平移可能不理想。因此，需要用于改进频谱频带复制的技术。

发明内容

揭示第一类别实施例，所述第一类别实施例涉及一种用于解码经编码音频位流的方法。所述方法包含接收所述经编码音频位流及解码所述音频数据以产生经解码低频带音频信号。所述方法进一步包含提取高频重建元数据及使用分析滤波器组对所述经解码低频带音频信号滤波以产生经滤波低频带音频信号。所述方法进一步包含提取指示对所述音频数据执行频谱平移或谐波转置的旗标及根据所述旗标使用所述经滤波低频带音频信号及所述高频重建元数据再生所述音频信号的高频带部分。最后，所述方法包含组合所述经滤波低频带音频信号与所述经再生高频带部分以形成宽频带音频信号。

第二类别实施例涉及一种用于解码经编码音频位流的音频解码器。所述解码器包含：输入接口，其用于接收所述经编码音频位流，其中所述经编码音频位流包含表示音频信号的低频带部分的音频数据；及核心解码器，其用于解码所述音频数据以产生经解码低频带音频信号。所述解码器还包含：解多路复用器，其用于从所述经编码音频位流提取高频重建元数据，其中所述高频重建元数据包含针对将连续数目个副频带从所述音频信号的低频带部分线性地平移到所述音频信号的高频带部分的高频重建过程的操作参数；及分析滤波器组，其用于对所述经解码低频带音频信号滤波以产生经滤波低频带音频信号。所述解码器进一步包含：解多路复用器，其用于从所述经编码音频位流提取指示对所述音频数据执行线性平移或谐波转置的旗标；及高频再生器，其用于根据所述旗标使用所述经滤波低频带音频信号及所述高频重建元数据再生所述音频信号的高频带部分。最后，所述解码器包含合成滤波器组，所述合成滤波器组用于组合所述经滤波低频带音频信号与所述经再生高频带部分以形成宽频带音频信号。

其它类别的实施例涉及编码及转码含有元数据的音频位流，所述元数据识别是否执行增强频谱频带复制(eSBR)处理。

附图说明

图1是可经配置以执行本发明方法的实施例的系统的实施例的框图。

图2是为本发明音频处理单元的实施例的编码器的框图。

图3是系统的框图，所述系统包含是本发明音频处理单元的实施例的解码器及任选地还耦合到解码器的后处理器。

图4是为本发明音频处理单元的实施例的解码器的框图。

图5是为本发明音频处理单元的另一实施例的解码器的框图。

图6是本发明音频处理单元的另一实施例的框图。

图7是MPEG-4AAC位流的块的图式，所述块包含其所分割成的片段。

表示法及命名法

贯穿本发明(包含在权利要求书中)，广义上使用表述“对”信号或数据执行操作(例如滤波、按比例调整、变换或将增益应用到信号或数据)来表示直接对信号或数据或对信号或数据的经处理版本(例如，对在对其执行操作之前已经历初滤波或预处理的信号的版本)执行操作。

贯穿本发明(包含在权利要求书中)，广义上使用表述“音频处理单元”或“音频处理器”来表示经配置以处理音频数据的系统、装置或设备。音频处理单元的实例包含(但不限于)编码器、编解码器、解码器、编解码器、预处理系统、后处理系统及位流处理系统(有时称为位流处理工具)。基本上全部消费性电子器件(例如移动电话、电视、膝上型计算机及平板计算机)含有音频处理单元或音频处理器。

贯穿本发明(包含在权利要求书中)，广义上使用术语“耦合”或“经耦合”来意谓直接或间接连接。因此，如果第一装置耦合到第二装置，那么所述连接可为通过直接连接或通过经由其它装置及连接的间接连接。此外，集成到其它组件中或与其它组件集成的组件也彼此耦合。

具体实施方式

MPEG-4AAC标准设想经编码MPEG-4AAC位流包含元数据，所述元数据指示待由解码器应用(如果有待应用者)以解码位流的音频内容的每一类型的高频重建(“HFR”)处理及/或控制此HFR处理及/或指示待用以解码位流的音频内容的至少一个HFR工具的至少一个特性或参数。在本文中，我们使用表述“SBR元数据”来表示在MPEG-4AAC标准中描述或提及用于与频谱频带复制(“SBR”)一起使用的此类型的元数据。所属领域的技术人员应了解，SBR是一种形式的HFR。

SBR优选用作双速率系统，其中底层编解码器按原始取样率的一半操作，而SBR按原始取样率操作。SBR编码器与底层核心编解码器并行工作，但按较高取样率。虽然SBR主要是解码器中的后期过程，但在编码器中提取重要参数以确保解码器中的最准确高频重建。编码器针对适合于当前输入信号片段特性的时间及频率范围/分辨率估计SBR范围的频谱包络。频谱包络由复QMF分析及后续能量计算估计。可高度自由地选择频谱包络的时间及频率分辨率，以确保针对给定输入片段的最合适的时间频率分辨率。包络估计需要考虑主要位于高频区域(例如高帽区)中的原始中的瞬时将在包络调整之前轻微存在于SBR产生的高频带中，这是因为解码器中的高频带是基于其中相较于高频带，瞬时更不显著的低频带。相较于如在其它音频编码算法中使用的普通频谱包络，此方面对频谱包络数据的时间频率分辨率提出不同要求。

除频谱包络之外，还提取表示针对不同时间及频率区域的输入信号的频谱特性的若干额外参数。由于编码器自然地能够存取原始信号以及关于解码器中的SBR单元将如何产生高频带的信息，因此给定特定控制参数集，系统可处置其中低频带构成强谐波系列且待再生的高频带主要构成随机信号分量的情境，以及其中强音调分量存在于原始高频带中而无低频带中的对应者(高频带区域基于其)的情境。此外，SBR编码器与底层核心编解码器密切相关工作以评鉴在给定时间应由SBR涵盖哪一频率范围。在立体声信号的情况中，通过利用熵编码以及控制数据的信道相依性而在传输之前高效编码SBR数据。

通常需要按给定比特率及给定取样率将控制参数提取算法仔细地调谐到底层编解码器。这是归因于相较于高比特率，较低比特率通常暗示较大SBR范围，且不同取样率对应于SBR帧的不同时间分辨率的事实。

SBR解码器通常包含若干不同部分。SBR解码器包括位流解码模块、高频重建(HFR)模块、额外高频分量模块及包络调整器模块。系统是基于复值QMF过滤器组(针对高质量SBR)或实值QMF过滤器组(针对低功率SBR)。本发明的实施例可适用于高质量SBR及低功率SBR两者。在位流提取模块中，控制数据从位流读取且经解码。在从位流读取包络数据之前针对当前帧获得时间频率栅格。底层核心解码器解码当前帧的音频信号(虽然按较低取样率)以产生时域音频样品。使用音频数据的所得帧以供HFR模块进行高频重建。接着使用QMF过滤器组分析经解码低频带信号。随后对QMF过滤器组的副频带样品执行高频重建及包络调整。以灵活方式基于给定控制参数从低频带重建高频。此外，根据控制数据在副频带信道基础上适应性地滤波经重建高频带以确保给定时间/频率区域的适当频谱特性。

MPEG-4AAC位流的顶层是序列数据块(“raw_data_block”元素)，所述块中的每一者是含有音频数据(通常针对1024或960个样品的时间段)及相关信息及/或其它数据的数据(本文中称为“块”)的片段。在本文中，我们使用术语“块”来表示包括确定或指示一个(而非一个以上)“raw_data_block”元素的音频数据(及对应元数据及任选地还有其它相关数据)的MPEG-4AAC位流的片段。

MPEG-4AAC位流的每一块可包含数个语法元素(其中的每一者在位流中还物化为数据的片段)。在MPEG-4AAC标准中定义数种类型的这些语法元素。每一语法元素由数据元素“id_syn_ele”的不同值识别。语法元素的实例包含“single_channel_element()”、“channel_pair_element()”及“fill_element()”。单一信道元素是包含单一音频信道(单声道音频信号)的音频数据的容器。信道对元素包含两个音频信道(即，立体声音频信号)的音频数据。

填充元素是包含识别符(例如上文提及的元素“id_syn_ele”的值)，接着为数据(其被称为“填充数据”)的信息的容器。填充元素已历史上被用于调整待经由恒定速率通带传输的位流的瞬时比特率。通过将适当量的填充数据加到每一块，可实现恒定数据速率。

根据本发明的实施例，填充数据可包含扩展能够在位流中传输的数据(例如元数据)的类型的一或多个扩展有效负载。可任选地由接收位流的装置(例如解码器)使用接收具有含有新类型的数据的填充数据的位流的解码器，以扩展装置的功能性。因此，所属领域的技术人员应了解，填充元素是特定类型的数据结构且不同于通常用于传输音频数据(例如，含有信道数据的音频有效负载)的数据结构。

在本发明的一些实施例中，用于识别填充元素的识别符可由具有0×6的值的三位式首先传输最高有效位的不带正负号整数(“uimsbf”)组成。在一个块中，可出现相同类型的语法元素(例如若干填充元素)的若干例子。

用于编码音频位流的另一标准是MPEG统一语音及音频编码(USAC)标准(ISO/IEC23003-3:2012)。MPEG USAC标准描述使用频谱频带复制处理(包含如MPEG-4AAC标准中描述的SBR处理，且还包含其它增强形式的频谱频带复制处理)编码及解码音频内容。此处理应用MPEG-4AAC标准中描述的SBR工具组的经扩展且经增强版本的频谱频带复制工具(本文中有时称为“增强SBR工具”或“eSBR工具”)。因此，eSBR(如USAC标准中定义)是对SBR(如在MPEG-4AAC标准中定义)的改进。

在本文中，我们使用表述“增强SBR处理”(或“eSBR处理”)来表示使用MPEG-4AAC标准中未描述或提及的至少一个eSBR工具(例如MPEG USAC标准中描述或提及的至少一个eSBR工具)的频谱频带复制处理。此类eSBR工具的实例是谐波转置及QMF-修补额外预处理或“预平坦化”。

整数阶T的谐波转置器将具有频率ω的正弦曲线映射到具有频率Tω的正弦曲线，同时保持信号持续时间。通常依序使用三个阶T＝2,3,4以使用最小可能转置阶产生所要输出频率范围的每一部分。如果需要高于第四阶转置范围的输出，那么其可通过频率偏移产生。当可行时，产生近临界取样的基频带时域以供处理以最小化运算复杂性。

谐波转置器可基于QMF或DFT。当使用基于QMF的谐波转置器时，完全在QMF域中使用经修改相位声码器结构(其执行抽取，接着为针对每一QMF副频带的时间拉伸)实行核心编码器时域信号的带宽扩展。在共同QMF分析/合成变换阶段中实行使用若干转置因子(例如，T＝2,3,4)的转置。由于基于QMF的谐波转置器不以信号适应性频域过取样为特征，因此可忽略位流中的对应旗标(sbrOversamplingFlag[ch])。

当使用基于DFT的谐波转置器时，优选通过内插而将因子3及4转置器(3阶及4阶转置器)集成到因子2转置器(2阶转置器)中以降低复杂性。针对每一帧(其对应于coreCoderFrameLength核心编码器样品)，转置器的标称“全大小”变换大小首先由位流中的信号适应性频域过取样旗标(sbrOversamplingFlag[ch])确定。

当sbrPatchingMode＝＝1时(其指示待使用线性转置以产生高频带)，可引入额外步骤来避免经输入到后续包络调整器的高频信号的频谱包络的形状的不连续性。此改进后续包络调整阶段的操作，从而导致经感知为更稳定的高频带信号。额外预处理的操作对于其中用于高频重建的低频带信号的粗频谱包络显示大电平变化的信号类型有益。然而，可在编码器中通过应用任何种类的信号相依分类而确定位流元素的值。优选通过单位式位流元素bs_sbr_preprocessing启动额外预处理。当bs_sbr_preprocessing被设置为1时，启用额外预处理。当bs_sbr_preprocessing被设置为0时，停用额外预处理。额外处理优选利用预增益(preGain)曲线，所述预增益曲线由高频产生器使用以针对每一图块按比例调整低频带X_Low。举例来说，可根据以下项计算预增益曲线：

preGain(k)＝10^{(meanNrg-lowEnvSlope(k))/20}，0≤k＜k₀

其中k₀是在主频带表中的第一QMF副频带且lowEnvSlope是使用(在最小平方意义上)计算最佳多项式拟合系数的函数(例如polyfit())计算。举例来说，

polyfit(3，k₀，x_lowband，lowEnv，lowEnvSlope)；

可经采用(使用三次多项式)且其中

其中x_lowband(k)＝[0...k_0-1]，numTimeSlot是存在于帧内的SBR包络时槽的数目，RATE是指示每一时槽的QMF副频带样品的数目的常数(例如，2)，

是线性预测滤波器系数(潜在地自协方差方法获得)且其中

根据MPEG USAC标准产生的位流(本文中有时称为“USAC位流”)包含经编码音频内容且通常包含指示待由解码器应用以解码USAC位流的音频内容的每一类型的频谱频带复制处理的元数据，及/或控制此频谱频带复制处理及/或指示待用以解码USAC位流的音频内容的至少一个SBR工具及/或eSBR工具的至少一个特性或参数的元数据。

在本文中，我们使用表述“增强SBR元数据”(或“eSBR元数据”)来表示元数据，所述元数据指示待由解码器应用以解码经编码音频位流(例如USAC位流)的音频内容的每一类型的频谱频带复制处理及/或控制此频谱频带复制处理及/或指示待用以解码此音频内容的至少一个SBR工具及/或eSBR工具的至少一个特性或参数，但在MPEG-4AAC标准中未描述或提及。eSBR元数据的实例是MPEG USAC标准中描述或提及但MPEG-4AAC标准中未描述或提及的元数据(指示，或用于控制频谱频带复制处理)。因此，本文中的eSBR元数据表示非SBR元数据的元数据，且本文中的SBR元数据表示非eSBR元数据的元数据。

USAC位流可包含SBR元数据及eSBR元数据两者。更具体来说，USAC位流可包含控制eSBR处理通过解码器的执行的eSBR元数据，及控制SBR处理通过解码器的执行的SBR元数据。根据本发明的典型实施例，eSBR元数据(例如eSBR特定配置数据)(根据本发明)包含于MPEG-4AAC位流中(例如，在SBR有效负载的结尾处的sbr_extension()容器中)。

在使用eSBR工具组(其包括至少一个eSBR工具)解码经编码位流期间，由解码器执行eSBR处理基于在编码期间经截断的谐波序列的复制而再生音频信号的高频频带。此eSBR处理通常调整经产生的高频频带的频谱包络且应用逆滤波，且相加噪声及正弦波分量以再生原始音频信号的频谱特性。

根据本发明的典型实施例，在经编码音频位流(例如MPEG-4AAC位流)的元数据片段中的一或多者中包含eSBR元数据(例如，包含是eSBR元数据的小数目个控制位)，所述经编码音频位流还包含在其它片段(音频数据片段)中的经编码音频数据。一般来说，位流的每一块的至少一个此元数据片段是(或包含)填充元素(其包含指示填充元素的开始的识别符)，且于填充元素中包含在识别符之后的eSBR元数据。

图1是其中系统的一或多个元件可根据本发明的实施例经配置的示范性音频处理链(音频数据处理系统)的框图。系统包含如展示那样耦合在一起的以下元件：编码器1、递送子系统2、解码器3及后处理单元4。在所展示系统的变体中，省略一或多个元件，或包含额外音频数据处理单元。

在一些实施方案中，编码器1(其任选地包含预处理单元)经配置以接受包括音频内容的PCM(时域)样品作为输入，且输出指示音频内容的经编码音频位流(其具有与MPEG-4AAC标准兼容的格式)。指示音频内容的位流的数据在本文中有时称为“音频数据”或“经编码音频数据”。如果编码器根据本发明的典型实施例经配置，那么从编码器输出的音频位流包含eSBR元数据(及通常还其它元数据)以及音频数据。

可确证从编码器1输出的一或多个经编码音频位流以编码音频递送子系统2。子系统2经配置以存储及/或递送从编码器1输出的每一经编码位流。从编码器1输出的经编码音频位流可由子系统2(例如，呈DVD或蓝光光盘的形式)存储，或由子系统2(其可实施传输链路或网络)传输或可由子系统2存储并传输两者。

解码器3经配置以解码其经由子系统2接收的经编码MPEG-4AAC音频位流(其由编码器1产生)。在一些实施例中，解码器3经配置以从位流的每一块提取eSBR元数据，且解码位流(包含通过使用经提取eSBR元数据执行eSBR处理)以产生经解码音频数据(例如经解码PCM音频样品流)。在一些实施例中，解码器3经配置以从位流(但忽略包含于位流中的eSBR元数据)提取SBR元数据，且解码位流(包含通过使用经提取SBR元数据执行SBR处理)以产生经解码音频数据(例如经解码PCM音频样品流)。一般来说，解码器3包含(例如，以非暂时性方式)存储从子系统2接收的经编码音频位流的片段的缓冲器。

图1的后处理单元4经配置以从解码器3接受经解码音频数据流(例如经解码PCM音频样品)且对其执行后处理。后处理单元还可经配置以呈现经后处理音频内容(或从解码器3接收的经解码音频)以供一或多个扬声器播放。

图2是为本发明音频处理单元的实施例的编码器100的框图。编码器100的任何组件或元件可实施为硬件、软件或硬件及软件的组合中的一或多个过程及/或一或多个电路(例如ASIC、FPGA或其它集成电路)。编码器100包含如展示那样连接的编码器105、填充器/格式化器阶段107、元数据产生阶段106及缓冲存储器109。一般来说，编码器100还包含其它处理元件(未展示)。编码器100经配置以将输入音频位流转换为经编码输出MPEG-4AAC位流。

元数据产生器106经耦合且经配置以产生元数据(包含eSBR元数据及SBR元数据)(及/或将所述元数据传递到阶段107)以通过阶段107而被包含于待从编码器100输出的经编码位流中。

编码器105经耦合且经配置以编码输入音频数据(例如，通过对其执行压缩)，且确证所得经编码音频到阶段107以包含于待从阶段107输出的经编码位流中。

阶段107经配置以多路复用来自编码器105的经编码音频及来自产生器106的元数据(包含eSBR元数据及SBR元数据)以产生经编码位流以从阶段107输出，优选使得经编码位流具有如由本发明的实施例中的一者指定的格式。

缓冲存储器109经配置以(例如，以非暂时性方式)存储从阶段107输出的经编码音频位流的至少一个块，且接着从缓冲存储器109确证经编码音频位流的序列块作为从编码器100到递送系统的输出。

图3是系统的框图，所述系统包含是发明音频处理单元的实施例的解码器200及任选地还耦合到解码器200的后处理器300。解码器200及后处理器300的任何组件或元件可实施为硬件、软件或硬件及软件的组合中的一或多个过程及/或一或多个电路(例如，ASIC、FPGA或其它集成电路)。解码器200包括如展示那样连接的缓冲存储器201、位流有效负载反格式化器(剖析器)205、音频解码子系统202(有时称为“核心”解码阶段或“核心”解码子系统)、eSBR处理阶段203及控制位产生阶段204。一般来说，解码器200还包含其它处理元件(未展示)。

缓冲存储器(缓冲器)201(例如，以非暂时性方式)存储由解码器200接收的经编码MPEG-4AAC音频位流的至少一个块。在解码器200的操作中，从缓冲器201确证位流的序列块到反格式化器205。

在图3的实施例(或待描述的图4的实施例)的变体中，非解码器的APU(例如，图6的APU 500)包含缓冲存储器(例如与缓冲器201相同的缓冲存储器)，所述缓冲存储器(例如，以非暂时性方式)存储由图3或图4的缓冲器201接收的相同类型的经编码音频位流(例如，MPEG-4AAC音频位流)(即，包含eSBR元数据的经编码音频位流)的至少一个块。

再次参考图3，反格式化器205经耦合且经配置以解多路复用位流的每一块以从其提取SBR元数据(包含经量化包络数据)及eSBR元数据(及通常还其它元数据)，确证至少eSBR元数据及SBR元数据到eSBR处理阶段203，且通常还确证其它经提取元数据到解码子系统202(且任选地还到控制位产生器204)。反格式化器205还经耦合且经配置以从位流的每一块提取音频数据，且确证经提取音频数据到解码子系统(解码阶段)202。

图3的系统任选地还包含后处理器300。后处理器300包含缓冲存储器(缓冲器)301及包含耦合到缓冲器301的至少一个处理元件的其它处理元件(未展示)。缓冲器301(例如，以非暂时性方式)存储由后处理器300从解码器200接收的经解码音频数据的至少一个块(或帧)。后处理器300的处理元件经耦合且经配置以从缓冲器301接收从缓冲器301输出的经解码音频的序列块(或帧)，且使用从解码子系统202(及/或反格式化器205)输出的元数据及/或从解码器200的阶段204输出的控制位适应性地处理所述序列块(或帧)。

解码器200的音频解码子系统202经配置以解码由剖析器205提取的音频数据(此解码可被称为“核心”解码操作)以产生经解码音频数据，且确证经解码音频数据到eSBR处理阶段203。解码是在频域中执行且通常包含逆量化，接着为频谱处理。一般来说，子系统202中的处理的最后阶段将频域转时域变换应用到经解码频域音频数据，使得子系统的输出是时域、经解码音频数据。阶段203经配置以将由eSBR元数据及eSBR(由剖析器205提取)指示的SBR工具及eSBR工具应用到经解码音频数据(即，使用SBR及eSBR元数据对解码子系统202的输出执行SBR及eSBR处理)以产生从解码器200输出(例如，到后处理器300)的经完全解码音频数据。一般来说，解码器200包含存储从反格式化器205输出的经反格式化音频数据及元数据的存储器(可由子系统202及阶段203存取)，且阶段203经配置以在SBR及eSBR处理期间视需要存取音频数据及元数据(包含SBR元数据及eSBR元数据)。阶段203中的SBR处理及eSBR处理可被视为对核心解码子系统202的输出的后处理。任选地，解码器200还包含最后升混合子系统(其可应用在MPEG-4AAC标准中定义的参数立体声(“PS”)工具，使用由反格式化器205提取的PS元数据及/或在子系统204中产生的控制位)，所述最后升混合子系统经耦合且经配置以对阶段203的输出执行升混合，以产生从解码器200输出的经完全解码的经升混合音频。替代地，后处理器300经配置以(例如，使用由反格式化器205提取的PS元数据及/或在子系统204中产生的控制位)对解码器200的输出执行升混合。

响应于由反格式化器205提取的元数据，控制位产生器204可产生控制数据，且控制数据可在解码器200内(例如，在最后升混合系统中)使用及/或经确证为解码器200的输出(例如，到后处理器300以供在后处理中使用)。响应于从输入位流提取的元数据(且任选地还响应于控制数据)，阶段204可产生(且确证到后处理器300)指示从eSBR处理阶段203输出的经解码音频数据应经历特定类型的后处理的控制位。在一些实施方案中，解码器200经配置以确证由反格式化器205从输入位流提取的元数据到后处理器300，且后处理器300经配置以使用元数据对从解码器200输出的经解码音频数据执行后处理。

图4是为本发明音频处理单元的另一实施例的音频处理单元(“APU”)(210)的框图。APU 210是未经配置以执行eSBR处理的旧型解码器。APU 210的任何组件或元件可实施为硬件、软件或硬件及软件的组合中的一或多个过程及/或一或多个电路(例如，ASIC、FPGA或其它集成电路)。APU 210包括如展示那样连接的缓冲存储器201、位流有效负载反格式化器(剖析器)215、音频解码子系统202(有时称为“核心”解码阶段或“核心”解码子系统)及SBR处理阶段213。一般来说，APU 210还包含其它处理元件(未展示)。APU 210可表示(例如)音频编码器、解码器或编解码器。

APU 210的元件201及202与(图3的)解码器200的相同编号的元件相同且将不重复其上文描述。在APU 210的操作中，从缓冲器201确证由APU 210接收的经编码音频位流(MPEG-4AAC位流)的序列块到反格式化器215。

根据本发明的任何实施例，反格式化器215经耦合且经配置以解多路复用位流的每一块以提取SBR元数据(包含量化包络数据)且通常还从其提取其它元数据，但忽略可包含于位流中的eSBR元数据。反格式化器215经配置以确证至少SBR元数据到SBR处理阶段213。反格式化器215还经耦合且经配置以从位流的每一块提取音频数据，且确证经提取音频数据到解码子系统(解码阶段)202。

解码器200的音频解码子系统202经配置以解码由反格式化器215提取的音频数据(此解码可被称为“核心”解码操作)以产生经解码音频数据，且确证经解码音频数据到SBR处理阶段213。在时域中执行解码。一般来说，子系统202中的处理的最后阶段将频域转时域变换应用到经解码频域音频数据，使得子系统的输出是时域、经解码音频数据。阶段213经配置以将由SBR元数据(由剖析器215提取)指示的SBR工具(而非eSBR工具)应用到经解码音频数据(即，使用SBR元数据对解码子系统202的输出执行SBR处理)以产生从APU 210输出(例如，到后处理器300)的经完全解码音频数据。一般来说，APU 210包含存储从反格式化器215输出的经反格式化音频数据及元数据的存储器(其可由子系统202及阶段213存取)，且阶段213经配置以在SBR处理期间视需要存取音频数据及元数据(包含SBR元数据)。阶段213中的SBR处理可被视为对核心解码子系统202的输出的后处理。任选地，APU 210还包含最后升混合子系统(其可应用MPEG-4AAC标准中定义的参数立体声(“PS”)工具，使用由反格式化器215提取的PS元数据)，所述最后升混合子系统经耦合且经配置以对阶段213的输出执行升混合，以产生从APU 210输出的经完全解码的经升混合音频。替代地，后处理器经配置以(例如，使用由反格式化器215提取的PS元数据及/或在APU210中产生的控制位)对APU 210的输出执行升混合。

编码器100、解码器200及APU 210的各种实施方案经配置以执行本发明方法的不同实施例。

根据一些实施例，于经编码音频位流(例如，MPEG-4AAC位流)中包含eSBR元数据(例如，包含是eSBR元数据的少量控制位)，使得旧型解码器(其未经配置以剖析eSBR元数据或使用与eSBR元数据相关的任何eSBR工具)可忽略eSBR元数据，但仍然尽可能地解码位流，而无需使用eSBR元数据或与eSBR元数据相关的任何eSBR工具，通常无经解码音频质量的任何显著损失。然而，经配置以剖析位流以识别eSBR元数据且响应于eSBR元数据而使用至少一个eSBR工具的eSBR解码器将享受使用至少一个此eSBR工具的益处。因此，本发明的实施例提供一种用于以回溯兼容方式高效传输增强频谱频带复制(eSBR)控制数据或元数据的手段。

一般来说，位流中的eSBR元数据指示以下eSBR工具(其在MPEG USAC标准中描述，且其可或可未由编码器在位流的产生期间应用)中的一或多者(例如，指示以下eSBR工具中的一或多者的至少一个特性或参数)：

·谐波转置；及

·QMF-修补额外预处理(预平坦化)。

举例来说，位流中包含的eSBR元数据可指示参数(在MPEG USAC标准中且在本发明中描述)的值：sbrPatchingMode[ch]、sbrOversamplingFlag[ch]、sbrPitchInBins[ch]、sbrPitchInBins[ch]及bs_sbr_preprocessing。

在本文中，标记X[ch](其中X是某一参数)表示所述参数与待解码的经编码位流的音频内容的信道(“ch”)相关。为了简洁起见，我们有时省略表述[ch]，且假定相关参数与音频内容的信道相关。

在本文中，标记X[ch][env](其中X是某一参数)表示所述参数与待解码的经编码位流的音频内容的信道(“ch”)的SBR包络(“env”)相关。为了简洁起见，我们有时省略表述[env]及[ch]，且假定相关参数与音频内容的信道的SBR包络相关。

在经编码位流的解码期间，由以下eSBR元数据参数控制在解码(针对由位流指示的音频内容的每一信道“ch”)的eSBR处理阶段期间谐波转置的执行：sbrPatchingMode[ch]:sbrOversamplingFlag[ch]；sbrPitchInBinsFlag[ch]；及sbrPitchInBins[ch]。

值“sbrPatchingMode[ch]”指示在eSBR中使用的转置器类型：sbrPatchingMode[ch]＝1指示如在MPEG-4AAC标准(如与高质量SBR或低功率SBR一起使用)的第4.6.18节中描述的线性转置修补；sbrPatchingMode[ch]＝0指示如在MPEG USAC标准的第7.5.3或7.5.4节中描述的谐波SBR修补。

值“sbrOversamplingFlag[ch]”指示与基于DFT的谐波SBR修补组合使用eSBR中的信号适应性频域过取样，如在MPEG USAC标准的第7.5.3节中描述。此旗标控制在转置器中利用的DFT的大小：1指示启用信号适应性频域过取样，如MPEG USAC标准的第7.5.3.1节中描述；0指示停用信号适应性频域过取样，如MPEG USAC标准的第7.5.3.1节中描述。

值“sbrPitchInBinsFlag[ch]”控制sbrPitchInBins[ch]参数的解译：1指示sbrPitchInBins[ch]中的值有效且大于零；0指示sbrPitchInBins[ch]的值被设置为零。

值“sbrPitchInBins[ch]”控制交叉乘积项在SBR谐波转置器中的相加。值sbrPitchinBins[ch]是在范围[0,127]中的整数值且表示针对作用于核心编码器的取样频率的1536-线DFT在频格中量测的距离。

在MPEG-4AAC位流指示其信道未耦合的SBR信道对(而非单一SBR信道)的情况中，位流指示上文语法的两个例子(针对谐波或非谐波变换)，一个针对sbr_channel_pair_element()的每一信道。

eSBR工具的谐波转置通常按相对低交越频率改进经解码音乐信号的质量。非谐波转置(即，旧型频谱修补)通常改进语音信号。因此，关于对于编码特定音频内容，哪一类型的转置优选的决定中的起始点是取决于语音/音乐检测而选择转置方法，其中对音乐内容采用谐波转置且对语音内容采用频谱修补。

由称为“bs_sbr_preprocessing”的单位eSBR元数据参数的值控制在eSBR处理期间预平坦化的执行，其意义在于取决于此单一位的值而执行或不执行预平坦化。当使用如MPEG-4AAC标准的第4.6.18.6.3节中描述的SBR QMF-修补算法时，可(当由“bs_sbr_preprocessing”参数指示时)执行预平坦化的步骤以努力避免经输入到后续包络调整器(所述包络调整器执行eSBR处理的另一阶段)的高频信号的频谱包络的形状的不连续性。预平坦化通常改进后续包络调整阶段的操作，从而导致经感知为更稳定的高频带信号。

预期对于在MPEG-4AAC位流中包含指示上文提及的eSBR工具(谐波转置及预平坦化)的eSBR元数据的整体比特率要求为每秒约数百个位，这是因为根据本发明的一些实施例，仅传输执行eSBR处理所需的差分控制数据。旧型解码器可忽略此信息，这是因为其此信息回溯兼容方式(如随后将解释)而包含。因此，由于数个原因，与包含eSBR元数据相关联的比特率的不利影响可忽略，所述数个原因包含以下：

·比特率损失(归因于包含eSBR元数据)是总比特率的非常小分率，这是因为仅传输执行eSBR处理所需的差分控制数据(且非SBR控制数据的联播)；及

·SBR相关的控制信息的调谐通常不取决于转置的细节。在本申请案中随后论述控制数据何时取决于转置器的操作的实例。

因此，本发明的实施例提供一种用于以回溯兼容方式高效传输增强频谱频带复制(eSBR)控制数据或元数据的手段。eSBR控制数据的此高效传输减少采用本发明的方面的解码器、编码器及编解码器中的存储器要求，同时对比特率无有形不利影响。此外，还减少与根据本发明的实施例执行eSBR相关联的复杂性及处理要求，这是因为SBR数据仅需处理一次且非联播，如果将eSBR视为MPEG-4AAC中的完全独立对象类型而非以回溯兼容方式集成到MPEG-4AAC编解码器中，情况将是如此。

接着，参考图7，我们描述根据本发明的一些实施例的其中包含eSBR元数据的MPEG-4AAC位流的块(“raw_data_block”)的元素。图7是MPEG-4AAC位流的块(“raw_data_block”)的图式，其展示所述块的一些片段。

MPEG-4AAC位流的块可包含至少一个“single_channel_element()”(例如图7中展示的单一信道元素)及/或至少一个“channel_pair_element()”(虽然其可存在，但在图7中未具体展示)，包含针对音频节目的音频数据。块还可包含数个“fill_elements”(例如，图7的填充元素1及/或填充元素2)，所述数个“fill_elements”包含与节目相关的数据(例如，元数据)。每一“single_channel_element()”包含指示单一信道元素的开始的识别符(例如，图7的“ID1”)，且可包含指示多声道音频节目的不同信道的音频数据。每一“channel_pair_element()”包含指示信道对元素的开始的识别符(图7中未展示)，且可包含指示节目的两个信道的音频数据。

MPEG-4AAC位流的fill_element(本文中称为填充元素)包含指示填充元素的开始的识别符(图7的“ID2”)及识别符之后的填充数据。识别符ID2可由具有0×6的值的三位式首先传输最高有效位的不带正负号整数(“uimsbf”)组成。填充数据可包含extension_payload()元素(本文中有时称为扩展有效负载)，在MPEG-4AAC标准的表4.57中展示其语法。若干类型的扩展有效负载存在且通过“extension_type”参数识别，所述参数是四位式首先传输最高有效位的不带正负号整数(“uimsbf”)。

填充数据(例如，其扩展有效负载)可包含标头或识别符(例如图7的“标头1”)，所述标头或识别符指示指示SBR对象的填充数据的片段(即，标头初始化“SBR对象”类型，其在MPEG-4AAC标准中被称为sbr_extension_data())。举例来说，频谱频带复制(SBR)扩展有效负载经识别具有针对标头中的extension_type字段的‘1101’或‘1110’的值，其中识别符‘1101’识别具有SBR数据的扩展有效负载且‘1110’识别具有SBR数据的扩展有效负载，所述SBR数据具有循环冗余检查(CRC)以验证SBR数据的正确性。

当标头(例如extension_type字段)初始化SBR对象类型时，SBR元数据(本文中有时称为“频谱频带复制数据”且在MPEG-4AAC标准中被称为sbr_data())接在标头之后，且至少一个频谱频带复制扩展元素(例如，图7的填充元素1的“SBR extension element”)可接在SBR元数据之后。此频谱频带复制扩展元素(位流的片段)在MPEG-4AAC标准中被称为“sbr_extension()”容器。频谱频带复制扩展元素任选地包含标头(例如图7的填充元素1的“SBR扩展标头”)。

MPEG-4AAC标准设想频谱频带复制扩展元素可包含针对节目的音频数据的PS(参数立体声)数据。MPEG-4AAC标准设想当填充元素的(例如，其扩展有效负载的)标头初始化SBR对象类型(如图7的“标头1”)且填充元素的频谱频带复制扩展元素包含PS数据时，填充元素(例如，其扩展有效负载)包含频谱频带复制数据及“bs_extension_id”参数，“bs_extension_id”参数的值(即，bs_extension_id＝2)指示PS数据包含于填充元素的频谱频带复制扩展元素中。

根据本发明的一些实施例，eSBR元数据(例如，指示是否对块的音频内容执行增强频谱频带复制(eSBR)处理的旗标)包含于填充元素的频谱频带复制扩展元素中。举例来说，在图7的填充元素1中指示此旗标，其中旗标出现在填充元素1的“SBR扩展元素”的标头(填充元素1的“SBR扩展标头”)之后。任选地，于频谱频带复制扩展元素中于频谱频带复制扩展元素的标头之后(例如，在图7中的填充元素1的SBR扩展元素中，在SBR扩展标头之后)包含此旗标及额外eSBR元数据。根据本发明的一些实施例，包含eSBR元数据的填充元素还包含“bs_extension_id”参数，“bs_extension_id”参数的值(例如，bs_extension_id＝3)指示eSBR元数据包含于填充元素中且待对相关块的音频内容执行eSBR处理。

根据本发明的一些实施例，eSBR元数据包含于MPEG-4AAC位流的填充元素(例如图7的填充元素2)中而非填充元素的频谱频带复制扩展元素(SBR扩展元素)中。这是因为含有具有SBR数据或具备CRC的SBR数据的extension_payload()的填充元素不含任何其它扩展类型的任何其它扩展有效负载。因此，在其中eSBR元数据存储其自身扩展有效负载的实施例中，使用分开的填充元素以存储eSBR元数据。此填充元素包含指示填充元素的开始的识别符(例如，图7的“ID2”)及识别符之后的填充数据。填充数据可包含extension_payload()元素(本文中有时称为扩展有效负载)，在MPEG-4AAC标准的表4.57中展示其语法。填充数据(例如，其扩展有效负载)包含指示eSBR对象的标头(图7的填充元素2的“标头2”)(即，标头初始化增强频谱频带复制(eSBR)对象类型)，且填充数据(例如，其扩展有效负载)包含在标头之后的eSBR元数据。举例来说，图7的填充元素2包含此标头(“标头2”)且在标头之后还包含eSBR元数据(即，填充元素2中的“旗标”，其指示是否对块的音频内容执行增强频谱频带复制(eSBR)处理)。任选地，于图7的填充元素2的填充数据中于标头2之后还包含额外eSBR元数据。在本段落中描述的实施例中，标头(例如图7的标头2)具有识别值，所述识别值非在MPEG-4AAC标准的表4.57中指定的常规值中的一者，且代替性地指示eSBR扩展有效负载(使得标头的extension_type字段指示填充数据包含eSBR元数据)。

在第一类别实施例中，本发明是一种音频处理单元(例如解码器)，其包括：

存储器(例如图3或4的缓冲器201)，其经配置以存储经编码位流的至少一个块(例如MPEG-4AAC位流的至少一个块)；

位流有效负载反格式化器(例如图3的元件205或图4的元件215)，其耦合到所述存储器且经配置以解多路复用所述位流的所述块的至少一个部分；及

解码子系统(例如图3的元件202及203或图4的元件202及213)，其经耦合且经配置以解码所述位流的所述块的音频内容的至少一个部分，其中所述块包含：

填充元素，其包含指示所述填充元素的开始的识别符(例如MPEG-4AAC标准的表4.85的具有值0×6的“id_syn_ele”识别符)及所述识别符之后的填充数据，其中所述填充数据包含：

至少一个旗标，其识别是否(例如，使用包含于所述块中的频谱频带复制数据及eSBR元数据)对所述块的音频内容执行增强频谱频带复制(eSBR)处理。

所述旗标是eSBR元数据，且所述旗标的实例是sbrPatchingMode旗标。所述旗标的另一实例是harmonicSBR旗标。这些旗标的两者指示是否对所述块的所述音频数据执行基础形式的频谱频带复制或增强形式的频谱复制。所述基础形式的频谱复制是频谱修补，且所述增强形式的频谱频带复制是谐波转置。

在一些实施例中，所述填充数据还包含额外eSBR元数据(即，除旗标之外的eSBR元数据)。

所述存储器可为(例如，以非暂时性方式)存储所述经编码音频位流的所述至少一个块的缓冲存储器(例如图4的缓冲器201的实施方案)。

据估计，通过eSBR解码器在包含eSBR元数据(指示这些eSBR工具)的MPEG-4AAC位流的解码期间(使用eSBR谐波转置及预平坦化)执行eSBR处理的复杂性将如下(针对使用经指示参数的典型解码)：

·谐波转置(16kbps,14400/28800Hz)

○基于DFT：3.68WMOPS(每秒加权百万个运算)；

○基于QMF：0.98WMOPS；

·QMF修补预处理(预平坦化)：0.1WMOPS。

已知基于DFT的转置通常针对瞬时比基于QMF的转置更好地执行。

根据本发明的一些实施例，包含eSBR元数据的(经编码音频位流的)填充元素还包含其值(例如，bs_extension_id＝3)发信eSBR元数据包含于填充元素中且待对相关块的音频内容执行eSBR处理的参数(例如，“bs_extension_id”参数)及/或其值(例如，bs_extension_id＝2)发信填充元素的sbr_extension()容器包含PS数据的参数(例如，相同“bs_extension_id”参数)。举例来说，如下文的表1中指示，具有值bs_extension_id＝2的此参数可发信填充元素的sbr_extension()容器包含PS数据，且具有值bs_extension_id＝3的此参数可发信填充元素的sbr_extension()容器包含eSBR元数据：

表1

根据本发明的一些实施例，包含eSBR元数据及/或PS数据的每一频谱频带复制扩展元素的语法如下文的表2中所指示(其中“sbr_extension()”表示是频谱频带复制扩展元素的容器，“bs_extension_id”如上文的表1中描述，“ps_data”表示PS数据，且“esbr_data”表示eSBR元数据)：

表2

在示范性实施例中，在上文的图2中提及的esbr_data()指示以下元数据参数的值：

1.位数据参数“bs_sbr_preprocessing”；及

2.针对待解码的经编码位流的音频内容的每一信道(“ch”)，上文描述的参数中的每一者为：“sbrPatchingMode[ch]”；“sbrOversamplingFlag[ch]”；“sbrPitchInBinsFlag[ch]”；及“sbrPitchInBins[ch]”。

举例来说，在一些实施例中，esbr_data()可具有表3中指示的语法以指示这些元数据参数：

表3

上文的语法实现增强形式的频谱频带复制(例如谐波转置)的高效实施方案，作为对旧型解码器的扩展。具体来说，表3的eSBR数据仅包含执行增强形式的频谱频带复制所需的在位流中尚未支持或非可直接从位流中已经支持的参数导出的所述参数。从位流中已经定义的位置中的预存在参数提取执行增强形式的频谱频带复制所需的全部其它参数及处理数据。

举例来说，可扩展MPEG-4HE-AAC或HE-AAC v2合规解码器以包含增强形式的频谱频带复制，例如谐波转置。此增强形式的频谱频带复制是已经由解码器支持的基础形式的频谱频带复制的补充。在MPEG-4HE-AAC或HE-AAC v2合规解码器的背景内容中，此基础形式的频谱频带复制是如MPEG-4AAC标准的第4.6.18节中定义的QMF频谱修补SBR工具。

当执行增强形式的频谱频带复制时，经扩展HE-AAC解码器可再用已经包含于位流的SBR扩展有效负载中的许多位流参数。可经再用的特定参数包含(例如)确定主频带表的各种参数。这些参数包含bs_start_freq(确定主频率表参数的开始的参数)、bs_stop_freq(确定主频率表的停止的参数)、bs_freq_scale(确定每一倍频程的频带的数目的参数)及bs_alter_scale(更改频带的比例的参数)。可经再用的参数还包含确定噪声频带表(bs_noise_bands)及限制器频带表参数(bs_limiter_bands)的参数。因此，在各个实施例中，从位流省略在USAC标准中指定的至少一些等效参数，藉此减少位流中的控制附加项。一般来说，在于AAC标准中指定的参数具有在USAC标准中指定的等效参数的情况下，在USAC标准中指定的等效参数与在AAC标准中指定的参数具有相同名称，举例来说，包络比例因子E_OrigMapped。然而，在USAC标准中指定的等效参数通常具有不同值，所述值是针对在USAC标准中定义的增强SBR处理而非针对在AAC标准中定义的SBR处理“经调谐”。

为了改进针对具有谐波频率结构及强音调特性的音频内容的主观质量，尤其按低比特率，推荐增强SBR的启动。可在编码器中通过应用信号相依分类机制而确定控制这些工具的对应位流元素(即，esbr_data())的值。一般来说，谐波修补方法(sbrPatchingMode＝＝1)的使用对于以非常低比特率编码音乐信号优选，其中核心编解码器可在音频带宽方面显著受限制。如果这些信号包含显著谐波结构，那么尤其如此。相反地，常规SBR修补方法的使用对于语音及混合信号优选，这是因为其提供语音中的时间结构的优选保存。

为了改进谐波转置器的性能，可启动预处理步骤(bs_sbr_preprocessing＝＝1)，所述预处理步骤努力避免引入进入后续包络调整器中的信号的频谱不连续性。工具的操作对于其中用于高频重建的低频带信号的粗频谱包络显示大电平变化的信号类型有益。

为了改进谐波SBR修补的瞬时响应，可应用信号适应性频域过取样(sbrOversamplingFlag＝＝1)。由于信号适应性频域过取样增加转置器的运算复杂性，但仅为含有瞬时的帧带来益处，因此此工具的使用由位流元素控制，所述位流元素每一帧且每一独立SBR信道经传输一次。

在经提出的增强SBR模式中操作的解码器通常需要能够在旧型SBR修补与增强SBR修补之间切换。因此，可引入延迟，取决于解码器设置，所述延迟可与一个核心音频帧的持续时间同样长。一般来说，针对旧型SBR修补与针对增强SBR修补的延迟将类似。

除了许多参数之外，在根据本发明的实施例执行增强形式的频谱频带复制时，经扩展HE-AAC解码器还可再用其它数据元素。举例来说，包络数据及噪声数据还可从bs_data_env(包络比例因子)及bs_noise_env(噪声底限比例因子)数据提取且在增强形式的频谱频带复制期间使用。

本质上，这些实施例利用SBR扩展有效负载中的旧型HE-AAC或HE-AAC v2解码器已经支持的配置参数及包络数据以实现需要尽可能少的额外经传输数据的增强形式的频谱频带复制。元数据最初是针对基础形式的HFR(例如SBR的频谱平移操作)经调谐，但根据实施例，元数据用于增强形式的HFR(例如eSBR的谐波转置)。如先前论述，元数据一般表示经调谐且希望与基础形式的HFR(例如线性频谱平移)一起使用的操作参数(例如包络比例因子、噪声底限比例因子、时间/频率栅格参数、正弦加法信息、可变交越频率/频带、逆滤波模式、包络分辨率、平滑模式、频率内插模式)。然而，与增强形式的HFR(例如，谐波转置)特定的额外元数据参数组合的此元数据可用于使用增强形式的HFR有效地且高效处理音频数据。

因此，可通过依赖于已经定义的位流元素(例如SBR扩展有效负载中的位流元素)且(在填充元素扩展有效负载中)仅新增支持增强形式的频谱频带复制所需的所述参数而以非常高效方式产生支持增强形式的频谱频带复制的经扩展解码器。与将最新新增的参数放置于经保留数据字段(例如扩展容器)中组合的此数据减少特征通过确保位流与不支持增强形式的频谱频带复制的旧型解码器回溯兼容而大体上减少产生支持增强形式的频谱频带复制的解码器的屏障。将了解，经保留数据字段是回溯兼容数据字段，其为已经由较早解码器(例如旧型HE-AAC或HE-AAC v2解码器)支持的数据字段。类似地，扩展容器回溯相容，其为已经由较早解码器(例如旧型HE-AAC或HE-AAC v2解码器)支持的扩展容器。

在表3中，在右栏中的数字指示在左栏中的对应参数的位的数目。

在一些实施例中，更新在MPEG-4AAC中定义的SBR对象类型以含有如SBR扩展元素(bs_extension_id＝＝EXTENSION_ID_ESBR)中发信的SBR工具及增强SBR(eSBR)工具的方面。如果解码器检测此SBR扩展元素，那么所述解码器采用增强SBR工具的经发信方面。

在一些实施例中，本发明是包含以下步骤的方法：编码音频数据以产生经编码位流(例如，MPEG-4AAC位流)，其包含通过在经编码位流的至少一个块的至少一个片段中包含eSBR元数据且在所述块的至少另一片段中包含音频数据。在典型实施例中，所述方法包含在经编码位流的每一块中使用eSBR元数据多路复用音频数据的步骤。在eSBR解码器中的经编码位流的典型解码中，解码器(包含通过剖析且解多路复用eSBR元数据及音频数据)从位流提取eSBR元数据且使用eSBR元数据以处理音频数据以产生经解码音频数据流。

本发明的另一方面是一种eSBR解码器，其经配置以在不包含eSBR元数据的经编码音频位流(例如，MPEG-4AAC位流)的解码期间(例如，使用称为谐波转置或预平坦化的eSBR工具的至少一者)执行eSBR处理。将参考图5描述此解码器的实例。

图5的eSBR解码器(400)包含如展示那样连接的缓冲存储器201(其与图3及4的存储器201相同)、位流有效负载反格式化器215(其与图4的反格式化器215相同)、音频解码子系统202(其有时称为“核心”解码阶段或“核心”解码子系统，且与图3的核心解码子系统202相同)、eSBR控制数据产生子系统401及eSBR处理阶段203(其与图3的阶段203相同)。一般来说，解码器400还包含其它处理元件(未展示)。

在解码器400的操作中，从缓冲器201确证由解码器400接收的经编码音频位流(MPEG-4AAC位流)的序列块到反格式化器215。

反格式化器215经耦合且经配置以解多路复用位流的每一块以从其提取SBR元数据(包含量化包络数据)及通常还其它元数据。反格式化器215还经配置以确证至少SBR元数据到eSBR处理阶段203。反格式化器215还经耦合且经配置以从位流的每一块提取音频数据，且确证经提取音频数据到解码子系统(解码阶段)202。

解码器400的音频解码子系统202经配置以解码由反格式化器215提取的音频数据(此解码可被称为“核心”解码操作)以产生经解码音频数据，且确证经解码音频数据到eSBR处理阶段203。在频域中执行解码。一般来说，子系统202中的处理的最后阶段将频域转时域变换应用到经解码频域音频数据，使得子系统的输出是时域、经解码音频数据。阶段203经配置以将由SBR元数据(由反格式化器215提取)及由在子系统401中产生的eSBR元数据指示的SBR工具(及eSBR工具)应用到经解码音频数据(即，以使用SBR及eSBR元数据对解码子系统202的输出执行SBR及eSBR处理)以产生从解码器400输出的完全解码的音频数据。一般来说，解码器400包含存储从反格式化器215(及任选地还有子系统401)输出的经反格式化音频数据及元数据的存储器(其可由子系统202及阶段203存取)，且阶段203经配置以在SBR及eSBR处理期间视需要存取音频数据及元数据。阶段203中的SBR处理可被视为对核心解码子系统202的输出的后处理。任选地，解码器400还包含最后升混合子系统(其可应用在MPEG-4AAC标准中定义的参数立体声(“PS”)工具，使用由反格式化器215提取的PS元数据)，所述最后升混合子系统经耦合且经配置以对阶段203的输出执行升混合以产生从APU 210输出的经完全解码的经升混合音频。

参数立体声是使用立体声信号的左及右信道的下行降混合及描述立体声影像的空间参数集来表示立体声信号的编码工具。参数立体声通常采用三个类型的空间参数：(1)描述信道之间的强度差的信道间强度差(IID)；(2)描述信道之间的相位差的信道间相位差(IPD)；及(3)描述信道之间的相干性(或类似性)的信道间相干性(ICC)。相干性可经量测为依据时间或相位而变化的互相关的最大值。这三个参数通常实现立体声影像的高质量重建。然而，IPD参数仅指定立体声输入信号的信道之间的相对相位差，且不指示这些相位差在左及右信道内的分布。因此，可另外使用描述总体相移或总体相位差(OPD)的第四类型的参数。在立体声重建程序中，经接收降混合信号s[n]及经接收降混合d[n]的不相关版本两者的连续窗化片段与空间参数一起经处理，以根据以下项来产生左(l_k(n))及右(r_k(n))经重建信号：

l_k(n)＝H₁₁(k，n)s_k(n)+H₂₁(k，n)d_k(n)

r_k(n)＝H₁₂(k,n)s_k(n)+H₂₂(k，n)d_k(n)

其中H₁₁、H₁₂、H₂₁及H₂₂是由立体声参数定义。最后通过频率转时间变换将信号l_k(n)及r_k(n)变换回到时域。

图5的控制数据产生子系统401经耦合且经配置以检测待解码的经编码音频位流的至少一个性质，且回应于检测步骤的至少一个结果来产生eSBR控制数据(其可为或包含根据本发明的其它实施例的经编码音频位流中所包含的任何类型的eSBR元数据)。确证eSBR控制数据到阶段203，以在检测位流的特定性质(或性质的组合)之后触发个别eSBR工具或eSBR工具的组合的应用及/或控制这些eSBR工具的应用。举例来说，为了控制使用谐波转置来执行eSBR处理，控制数据产生子系统401的一些实施例将包含：音乐检测器(例如常规音乐检测器的简化版本)，用于响应于检测位流指示或不指示音乐而设置sbrPatchingMode[ch]参数(及确证设置参数到阶段203)；瞬时检测器，用于响应于检测由位流指示的音频内容中的瞬时的存在或缺乏而设置sbrOversamplingFlag[ch]参数(及确证设置参数到阶段203)；及/或音高检测器，用于响应于检测由位流指示的音频内容的音高而设置sbrPitchInBinsFlag[ch]及sbrPitchInBins[ch]参数(及确证设置参数到阶段203)。本发明的其它方面是由在此段落中及先前段落中所描述的发明解码器的任何实施例执行的音频位流解码方法。

本发明的方面包含本发明APU、系统或装置的任何实施例经配置(例如，经编程)以执行的类型的编码或解码方法。本发明的其它方面包含经配置(例如，经编程)以执行本发明方法的任何实施例的系统或装置，及(例如，以非暂时性方式)存储用于实施发明方法或其步骤的任何实施例的程序代码的计算机可读媒体(例如，磁盘)。举例来说，本发明系统可为或包含使用软件或固件编程及/或以其它方式经配置以对数据执行各种操作的任何者(包含本发明方法或其步骤的实施例)的可编程通用处理器、数字信号处理器或微处理器。此通用处理器可为或包含计算机系统，所述计算机系统包含输入设备、存储器及经编程(及/或以其它方式经配置)以响应于确证到其数据而执行本发明方法(或其步骤)的实施例的处理电路系统。

本发明的实施例可实施于硬件、固件或软件或两者的组合中(例如，作为可编程逻辑数组)。除非另外指示，否则包含为本发明的部分的算法或程序非固有地与任何特定计算机或其它设备相关。特定来说，各种通用机器可与根据本文中的教示撰写的程序一起使用，或其对于建构更专用设备(例如集成电路)以执行所需方法步骤更方便。因此，本发明可实施于在一或多个可编程计算机系统(例如，图1的任何元件，或图2的编码器100(或其元件)，或图3的解码器200(或其元件)，或图4的解码器210(或其元件)，或图5的解码器400(或其元件)的实施方案)上执行的一或多个计算机程序中，所述一或多个可编程计算机系统各自包括至少一个处理器、至少一个数据存储系统(包含易失性及非易失性存储器及/或存储元件)、至少一个输入设备或端口及至少一个输出装置或端口。将程序代码应用到输入数据以执行本文中描述的功能且产生输出信息。以已知方式将输出信息应用到一或多个输出装置。

每一此程序可以任何所要计算机语言(包含机器、组合或高阶程序、逻辑或面向对象式程序设计语言)实施以与计算机系统进行通信。在任何情况中，语言可为经编译或经解译语言。

举例来说，当通过计算机软件指令序列实施时，本发明的实施例的各种功能及步骤可由在合适数字信号处理硬件中运行的多线程软件指令序列实施，在所述情况中，实施例的各种装置、步骤及功能可对应于软件指令的部分。

每一此计算机程序优选存储于可由通用或专用可编程计算机读取的存储媒体或装置(例如，固态存储器或媒体，或磁性或光学媒体)上或经下载到所述存储媒体或装置，用于在所述存储媒体或装置由计算机系统读取时配置且操作计算机以执行本文中描述的程序。本发明系统还可实施为经配置具有(例如，存储)计算机程序的计算机可读存储媒体，其中如此配置的存储媒体引起计算机系统以特定及预定义方式操作以执行本文中描述的功能。

已描述本发明的数个实施例。然而，将理解，可进行各种修改而不脱离本发明的精神及范围。本发明的许多修改及变化根据上文的教示是可能的。举例来说，为了促进高效实施方案，相移可与复合QMF分析及合成滤波器组组合使用。分析滤波器组负责将由核心解码器产生的时域低频带信号滤波成多个副频带(例如，QMF副频带)。合成滤波器组负责将由选定HFR技术(如由经接收的sbrPatchingMode参数)产生的经再生高频带与经解码低频带组合以产生宽频带输出音频信号。然而，在特定取样率模式(例如，正常双速率操作或降低取样率SBR模式)中操作的给定过滤器组实施方案不应具有位流相依的相移。在SBR中使用的QMF组是余弦调制滤波器组的理论的复指示扩展。可经展示，当使用复指数调制扩展余弦调制滤波器组时，假频取消约束变得过时。因此，针对SBR QMF组，分析滤波器h_k(n)及合成滤波器f_k(n)两者可由以下项定义：

其中p₀(n)是实值对称或不对称原型滤波器(一般来说，低通原型滤波器)，M表示信道的数目且N是原型滤波器阶数。在分析滤波器组中使用的信道的数目可不同于在合成滤波器组中使用的信道的数目。举例来说，分析滤波器组可具有32个信道，且合成滤波器组可具有64个信道。当在降低取样率模式中操作合成滤波器组时，合成滤波器组可仅具有32个信道。由于来自滤波器组的副频带样品是复值，因此可将新增的可能信道相依相移步骤附加到分析滤波器组。在合成滤波器组之前需要补偿这些额外相移。虽然原则上，相移项可具有任意值而不损害QMF分析/合成链的操作，但其还可经约束到针对一致性验证的某些值。SBR信号将由相位因子的选择影响而来自核心解码器的低通信号将不会。输出信号的音频质量将不受影响。

原型滤波器p₀(n)的系数可经定义具有640的长度L，如下文的表4中展示。

表4

还可通过一或多个数学运算(例如舍位、子取样、内插及抽取)从表4导出原型滤波器p₀(n)。

虽然SBR相关的控制信息的调谐通常不取决于转置的细节(如先前论述)，但在一些实施例中，可在eSBR扩展容器(bs_extension_id＝＝EXTENSION_ID_ESBR)中联播控制数据的某些元素以改进经再生信号的质量。一些经联播元素可包含噪声底限数据(例如，噪声底限比例因子及指示每一噪声底限的增量编码的方向(在频率方向或时间方向上))、逆滤波数据(例如，指示选自无逆滤波、低电平的逆滤波、中间电平的逆滤波及强电平的逆滤波的逆滤波模式的参数)及缺失谐波数据(例如，指示是否应将正弦曲线加到经再生高频带的特定频带的参数)。全部这些元素依赖于在编码器中执行的解码器的转置器的合成模拟且因此如果针对选定转置器经适当地调谐则可增加经再生信号的质量。

具体来说，在一些实施例中，缺失谐波及逆滤波控制数据在eSBR扩展容器中(连同表3的其它位流参数)经传输且针对eSBR的谐波转置器经调谐。传输针对eSBR的谐波转置器的此两个类别的元数据所需的额外比特率相对低。因此，发送eSBR扩展容器中的经调谐缺失谐波及/或逆滤波控制数据将增加由转置器产生的音频的质量而仅最小地影响比特率。为了确保与旧型解码器的回溯兼容性，还可使用隐式或显式发信在位流中作为SBR控制数据的部分发送针对SBR的频谱平移操作调谐的参数。

应理解，在所附权利要求书的范围内，可以本文中具体描述之外的方式实践本发明。在以下权利要求书中含有的任何元件符号仅是为了阐释性目的且不应用于以无论任何方式解释或限制权利要求书。从以下经列举示范性实施例(EEE)，将了解本发明的各种方面：

EEE1.一种用于执行音频信号的高频重建的方法，所述方法包括：

接收经编码音频位流，所述经编码音频位流包含表示所述音频信号的低频带部分的音频数据及高频重建元数据；

解码所述音频数据以产生经解码低频带音频信号；

从所述经编码音频位流提取所述高频重建元数据，所述高频重建元数据包含针对高频重建过程的操作参数，所述操作参数包含定位于所述经编码音频位流的扩展容器中的修补模式参数，其中所述修补模式参数的第一值指示频谱平移，且所述修补模式参数的第二值指示通过相位声码器频率扩展的谐波转置；

对所述经解码低频带音频信号滤波以产生经滤波低频带音频信号；

使用所述经滤波低频带音频信号及所述高频重建元数据再生所述音频信号的高频带部分，其中如果所述修补模式参数是所述第一值，那么所述再生包含频谱平移，且如果所述修补模式参数是所述第二值，那么所述再生包含通过相位声码器频率扩展的谐波转置；及

组合所述经滤波低频带音频信号与所述经再生高频带部分以形成宽频带音频信号。

EEE2.根据EEE 1所述的方法，其中所述扩展容器包含在所述修补模式参数等于所述第二值时使用的逆滤波控制数据。

EEE3.根据EEE 1到2中任一者所述的方法，其中所述扩展容器进一步包含在所述修补模式参数等于所述第二值时使用的缺失谐波控制数据。

EEE4.根据任何前述EEE所述的方法，其中所述经编码音频位流进一步包含填充元素，所述填充元素具有指示所述填充元素的开始的识别符及所述识别符之后的填充数据，其中所述填充数据包含所述扩展容器。

EEE5.根据EEE 4所述的方法，其中所述识别符是三位式首先传输最高有效位的不带正负号整数且具有0×6的值。

EEE6.根据EEE 4或EEE 5所述的方法，其中所述填充数据包含扩展有效负载，所述扩展有效负载包含频谱频带复制扩展数据，且所述扩展有效负载经识别具有四位式首先传输最高有效位的不带正负号整数且具有‘1101’或‘1110’的值，且任选地，

其中所述频谱频带复制扩展数据包含：

选用频谱频带复制标头，

频谱频带复制数据，其在所述标头之后，及

频谱频带复制扩展元素，其在所述频谱频带复制数据之后，且其中旗标包含于所述频谱频带复制扩展元素中。

EEE7.根据EEE 1到6中任一者所述的方法，其中所述高频重建元数据包含包络比例因子、噪声底限比例因子、时间/频率栅格信息或指示交越频率的参数。

EEE8.根据EEE 1到7中任一者所述的方法，其中通过包含是原型滤波器p₀(n)的经调制版本的分析滤波器h_k(n)的分析滤波器组根据以下项执行所述滤波：

其中p₀(n)是实值对称或不对称原型滤波器，M是所述分析滤波器组中的信道的数目且N是所述原型滤波器的阶数。

EEE9.根据EEE 8所述的方法，其中从本文中的表4的系数导出所述原型滤波器p₀(n)。

EEE10.根据EEE 8所述的方法，其中通过选自由舍位、子取样、内插或抽取组成的群组的一或多个数学运算从本文中的表4的系数导出所述原型滤波器p₀(n)。

EEE11.根据EEE 1到10中任一者所述的方法，其中在所述滤波之后将相移加到所述经滤波低频带音频信号，且在所述组合之前补偿所述相移以降低所述方法的复杂性。

EEE12.根据任何前述EEE所述的方法，其中所述扩展容器进一步包含指示在所述修补模式参数等于所述第一值时是否使用额外预处理来避免所述高频带部分的频谱包络的形状的不连续性的旗标，其中所述旗标的第一值启用所述额外预处理且所述旗标的第二值停用所述额外预处理。

EEE13.根据EEE 12所述的方法，其中所述额外预处理包含使用线性预测滤波器系数计算预增益曲线。

EEE14.根据EEE 1到13中任一者所述的方法，其中所述扩展容器是回溯兼容扩展容器。

EEE15.根据EEE 1到14中任一者所述的方法，其中根据格式编码所述经编码音频流，且其中所述扩展容器是以所述格式的至少一个旧型版本定义的扩展容器。

EEE16.一种非暂时性计算机可读媒体，其含有在由处理器执行时执行根据EEE1到15中任一者所述的方法的指令。

EEE17.一种音频处理单元，其用于执行音频信号的高频重建，所述音频处理单元经配置以执行根据EEE 1到15中任一者所述的方法。

Claims

1.一种用于执行音频信号的高频重建的方法，所述方法包括：

解码所述音频数据以产生经解码低频带音频信号；

从所述经编码音频位流提取所述高频重建元数据，所述高频重建元数据包含针对高频重建过程的操作参数，所述操作参数包含经定位于所述经编码音频位流的回溯兼容扩展容器中的修补模式参数，其中所述修补模式参数的第一值指示频谱平移，且所述修补模式参数的第二值指示通过相位声码器频率扩展的谐波转置；

组合所述经滤波低频带音频信号与经再生高频带部分以形成宽频带音频信号。