CN114242090A

CN114242090A - 具有减少后处理延迟的高频重建技术的集成

Info

Publication number: CN114242090A
Application number: CN202111585703.1A
Authority: CN
Inventors: K·克乔埃尔林; L·维尔蒙斯; H·普尔纳根; P·埃克斯特兰德
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2018-04-25
Filing date: 2019-04-25
Publication date: 2022-03-25
Also published as: US20210151062A1; US20230206933A1; AR114840A1; JP6908795B2; AR128549A2; MX2023013470A; IL278222B1; KR20200137026A; JP7242767B2; KR20210125108A; KR102310937B1; MX2020011212A; CA3098295C; RU2021130811A; TW202006706A; US11908486B2; UA128605C2; US11830509B2; MX2023013461A; MA50760A

Abstract

本申请涉及具有减少后处理延迟的高频重建技术的集成，并具体揭示一种用于解码经编码音频位流的方法。所述方法包含接收所述经编码音频位流且解码音频数据以产生经解码低频带音频信号。所述方法进一步包含提取高频重建元数据且使用分析滤波器组来对所述经解码低频带音频信号滤波以产生经滤波低频带音频信号。所述方法还包含提取指示是对所述音频数据执行频谱平移还是谐波转置的标记且根据所述标记使用所述经滤波低频带音频信号及所述高频重建元数据来再生所述音频信号的高频带部分。将所述高频再生执行为每个音频频道具有3010个样本的延迟的后处理操作。

Description

具有减少后处理延迟的高频重建技术的集成

分案申请的相关信息

本案是分案申请。该分案的母案是申请日为2019年4月25日、申请号为201980034811.4、发明名称为“具有减少后处理延迟的高频重建技术的集成”的发明专利申请案。

相关申请案的交叉参考

本申请案主张2018年4月25日申请的第62/662,296号美国临时专利申请案的优先权权利，所述案的全部内容以引用的方式并入本文中。

技术领域

实施例涉及音频信号处理，且更具体来说，实施例涉及使用指定对音频数据执行高频重建(“HFR”)的基本形式或HFR的增强形式的控制数据来编码、解码或转码音频位流。

背景技术

典型音频位流包含指示音频内容的一或多个频道的音频数据(例如经编码音频数据)及指示音频数据或音频内容的至少一个特性的元数据两者。用于产生编码音频位流的一个熟知格式是MPEG标准ISO/IEC 14496-3:2009中所描述的MPEG-4先进音频编码(AAC)格式。在MPEG-4标准中，AAC表示“先进音频编码”且HE-AAC表示“高效先进音频编码”。

MPEG-4 AAC标准界定若干音频配置文件，其确定兼容编码器或解码器中存在哪些对象及编码工具。这些音频配置文件中的三者是(1)AAC配置文件、(2)HE-AAC配置文件及(3)HE-AAC v2配置文件。AAC配置文件包含AAC低复杂性(或“AAC-LC”)对象类型。AAC-LC对象是MPEG-2AAC低复杂性配置文件的对应物，具有一些调整，且不包含频谱带复制(“SBR”)对象类型及参数立体声(“PS”)对象类型两者。HE-AAC配置文件是AAC配置文件的超集且另外包含SBR对象类型。HE-AAC v2配置文件是HE-AAC配置文件的超集且另外包含PS对象类型。

SBR对象类型含有频谱带复制工具，其是可显著提高感知音频编解码器的压缩效率的重要高频重建(“HFR”)编码工具。SBR重建接收器侧上(例如，解码器中)的音频信号的高频分量。因此，编码器仅需要编码及传输低频分量以允许低数据速率下的更高得多的音频质量。SBR是基于从编码器获得的可用带宽有限信号及控制数据复制先前为了降低数据速率而截断的谐波序列。通过自适应逆滤波以及任选地添加噪声及正弦曲线来维持音调分量与类噪声分量之间的比率。在MPEG-4 AAC标准中，SBR工具执行频谱修补(也称为线性平移或频谱平移)，其中将若干连续正交镜像滤波器(QMF)子频带从音频信号的经传输低频带部分复制(或“修补”)到所述音频信号的高频带部分(其在解码器中产生)。

频谱修补或线性平移可能不适合于某些音频类型(例如具有相对低交叉频率的音乐内容)。因此，需要用于改进频谱带复制的技术。

发明内容

第一类实施例涉及一种用于解码经编码音频位流的方法。所述方法包含接收所述经编码音频位流且解码所述音频数据以产生经解码低频带音频信号。所述方法进一步包含提取高频重建元数据且使用分析滤波器组来对所述经解码低频带音频信号滤波以产生经滤波低频带音频信号。所述方法进一步包含提取指示是对所述音频数据执行频谱平移还是谐波转置的标记且根据所述标记使用所述经滤波低频带音频信号及所述高频重建元数据来再生所述音频信号的高频带部分。最后，所述方法包含组合所述经滤波低频带音频信号及所述再生高频带部分以形成宽带音频信号。

第二类实施例涉及一种用于解码经编码音频位流的音频解码器。所述解码器包含：输入接口，其用于接收所述经编码音频位流，其中所述经编码音频位流包含表示音频信号的低频带部分的音频数据；及核心解码器，其用于解码所述音频数据以产生经解码低频带音频信号。所述解码器也包含：解复用器，其用于从所述经编码音频位流提取高频重建元数据，其中所述高频重建元数据包含用于高频重建过程的操作参数，所述高频重建过程将若干连续子频带从所述音频信号的低频带部分线性平移到所述音频信号的高频带部分；及分析滤波器组，其用于对所述经解码低频带音频信号滤波以产生经滤波低频带音频信号。所述解码器进一步包含：解复用器，其用于从所述经编码音频位流提取指示是对所述音频数据执行线性平移还是谐波转置的标记；及高频再生器，其用于根据所述标记使用所述经滤波低频带音频信号及所述高频重建元数据来再生所述音频信号的高频带部分。最后，所述解码器包含用于组合所述经滤波低频带音频信号及所述再生高频带部分以形成宽带音频信号的合成滤波器组。

其它类实施例涉及编码及转码音频位流，所述音频位流含有识别是否执行增强频谱带复制(eSBR)处理的元数据。

附图说明

图1是可经配置以执行发明方法的实施例的系统的实施例的框图。

图2是编码器的框图，所述编码器是发明音频处理单元的实施例。

图3是包含解码器(其是发明音频处理单元的实施例)且也任选地包含耦合到所述解码器的后处理器的系统的框图。

图4是解码器的框图，所述解码器是发明音频处理单元的实施例。

图5是解码器的框图，所述解码器是发明音频处理单元的另一实施例。

图6是发明音频处理单元的另一实施例的框图。

图7是MPEG-4 AAC位流的框图，包含其被划分成的若干区段。

符号及术语

在本发明中(包含在权利要求书中)，表述“对”信号或数据执行操作(例如滤波、按比例调整、变换信号或数据或将增益施加到信号或数据)用于广义表示直接对信号或数据或对信号或数据的经处理版本(例如，对在对其执行操作之前经历初步滤波或预处理的信号的版本)执行操作。

在本发明中(包含在权利要求书中)，表述“音频处理单元”或“音频处理器”用于广义表示经配置以处理音频数据的系统、装置或设备。音频处理单元的实例包含(但不限于)编码器、转码器、解码器、编解码器、预处理系统、后处理系统及位流处理系统(有时被称为位流处理工具)。几乎所有消费性电子产品(例如移动电话、电视、膝上型计算机及平板计算机)均含有音频处理单元或音频处理器。

在本发明中(包含在权利要求书中)，术语“耦合”或“经耦合”用于广义意指直接或间接连接。因此，如果第一装置耦合到第二装置，那么所述连接可通过直接连接或通过经由其它装置及连接的间接连接。此外，集成到其它组件中或与其它组件集成的组件也彼此耦合。

具体实施方式

MPEG-4 AAC标准预期，经编码MPEG-4 AAC位流包含元数据，其指示由解码器施加(如果将施加)以解码位流的音频内容的每一类型的高频重建(“HFR”)处理，及/或控制此HFR处理，及/或指示用于解码位流的音频内容的至少一个HFR工具的至少一个特性或参数。在本文中，我们使用表述“SBR元数据”来表示用于与频谱带复制(“SBR”)一起使用的此类型的元数据，如MPEG-4 AAC标准中所描述或提及。所属领域的技术人员应了解，SBR是HFR的形式。

SBR优选地用作双速率系统，其中基本编解码器以原始取样率的一半操作，而SBR以原始取样率操作。尽管具有较高取样率，但SBR编码器与基本核心编解码器并行工作。尽管SBR主要是解码器中的后处理，但在编码器中提取重要参数以确保解码器中的最准确高频重建。编码器估计适合于当前输入信号区段特性的时间及频率范围/分辨率的SBR范围的频谱包络。通过复数QMF分析及随后能量计算来估计频谱包络。可高度自由地选择频谱包络的时间及频率分辨率以确保给定输入区域段的最适合时间频率分辨率。包络估计需要考虑到，在包络调整之前，主要位于高频区(例如高帽)的原始来源的瞬态将在SBR产生的高频带中以较小的程度出现，因为解码器中的高频带是基于其中瞬态比高频带不明显得多的低频带。与用于其它音频编码算法中的一般频谱包络估计相比，此方面对频谱包络数据的时间频率分辨率提出不同要求。

除频谱包络以外，也提取表示不同时间及频率区域的输入信号的频谱特性的若干额外参数。由于编码器自然有权存取原始信号以及关于解码器中的SBR单元将如何产生高频带的信息，所以鉴于特定组控制参数，系统可处置其中低频带构成强谐波系列且将重新产生的高频带主要构成随机信号分量的情形以及其中强音调分量存在于原始高频带中而低频带中不具有对应物(高频带区域是基于此)的情形。此外，SBR编码器与基本核心编解码器密切相关地工作以评估在给定时间应由SBR覆盖哪个频率范围。就立体声信号来说，在传输之前通过利用熵编码以及控制数据的频道相依性来高效地编码SBR数据。

通常需要根据基本编解码器以给定位率及给定取样率小心调谐控制参数提取算法。这是归因于较低位率通常意味着比高位率更大的SBR范围且不同取样率对应于SBR帧的不同时间分辨率的事实。

SBR解码器通常包含若干不同部分。其包括位流解码模块、高频重建(HFR)模块、额外高频分量模块及包络调整器模块。系统是基于复值QMF滤波器组(用于高质量SBR)或实数值QMF滤波器组(用于低功率SBR)。本发明的实施例适用于高质量SBR及低功率SBR两者。在位流提取模块中，从位流读取及解码控制数据。在从位流读取包络数据之前，获得当前帧的时间频率网格。基本核心解码器解码当前帧的音频信号(尽管以较低取样率)以产生时域音频样本。由HFR模块使用音频数据的所得帧来进行高频重建。接着，使用QMF滤波器组来分析经解码低频带信号。随后，对QMF滤波器组的子频带样本执行高频重建及包络调整。基于给定控制参数，以灵活方式由低频带重建高频。此外，根据控制数据，基于子频带频道来自适应滤波经重建高频带以确保给定时间/频率区域的适当频谱特性。

MPEG-4 AAC位流的顶层是数据块序列(“raw_data_block”元素)，其中的每一者是含有音频数据(通常在1024或960个样本的时段内)及相关信息及/或其它数据的数据区段(本文中被称为“块”)。在本文中，我们使用术语“块”来表示包括音频数据(及对应元数据及任选地其它相关数据)的MPEG-4 AAC位流的区段，其确定或指示一个(但非一个以上)“raw_data_block”元素。

MPEG-4 AAC位流的每一块可包含若干语法元素(其中的每一者在位流中也具体化为数据区段)。在MPEG-4 AAC标准中界定7种类型的这些语法元素。每一语法元素由数据元素“id_syn_ele”的不同值识别。语法元素的实例包含“single_channel_element()”、“channel_pair_element()”及“fill_element()”。单频道元素是包含单个音频频道(单声道音频信号)的音频数据的容器。频道对元素包含两个音频频道的音频数据(即，立体声音频信号)。

填充元素是包含标识符(例如上述元素“id_syn_ele”的值)及后接数据(其被称为“填充数据”)的信息容器。填充元素历来用于调整将通过恒定速率频道传输的位流的瞬时位率。可通过向每一块添加适当量的填充数据来达到恒定数据速率。

根据本发明的实施例，填充数据可包含扩展能够在位流中传输的数据类型(例如元数据)的一或多个扩展有效负载。接收具有含有新数据类型的填充数据的位流的解码器可任选地由接收位流的装置(例如解码器)使用以扩展所述装置的功能。因此，所属领域的技术人员应了解，填充元素是特殊类型的数据结构且不同于通常用于传输音频数据的数据结构(例如含有频道数据的音频有效负载)。

在本发明的一些实施例中，用于识别填充元素的标识符可由具有0×6的值的先传输最高有效位的3位无符号整数(“uimsbf”)组成。在一个块中，可出现相同类型的语法元素的若干例项(例如若干填充元素)。

用于编码音频位流的另一标准是MPEG统一语音及音频编码(USAC)标准(ISO/IEC23003-3:2012)。MPEG USAC标准描述使用频谱带复制处理(包含MPEG-4 AAC标准中所描述的SBR处理且也包含频谱带复制处理的其它增强形式)来编码及解码音频内容。这个处理应用MPEG-4 AAC标准中所描述的SBR工具组的扩展及增强版本的频谱带复制工具(本文中有时被称为“增强SBR工具”或“eSBR工具”)。因此，eSBR(如USAC标准中所界定)是对SBR(如MPEG-4 AAC标准中所界定)的改进。

在本文中，我们使用表述“增强SBR处理”(或“eSBR处理”)来表示使用MPEG-4 AAC标准中未描述或未提及的至少一个eSBR工具(例如MPEG USAC标准中所描述或提及的至少一个eSBR工具)的频谱带复制处理。这些eSBR工具的实例是谐波转置及QMF修补额外预处理或“预扁平化”。

整数阶T的谐波转置器将具有频率ω的正弦曲线映射成具有频率Tω的正弦曲线，同时保持信号持续时间。通常依序使用三个阶T＝2,3,4以使用最小可能转置阶来产生所要输出频率范围的每一部分。如果需要高于4阶转置范围的输出，那么其可通过频移来产生。尽可能产生近临界取样的基频时域用于处理以最小化计算复杂性。

谐波转置器可基于QMF或DFT。当使用基于QMF的谐波转置器时，在QMF域中使用经修改相位声码器结构来完全实施核心编码器时域信号的带宽扩展以对每一QMF子频带执行抽样及接着时间延长。在共同QMF分析/合成变换级中实施使用若干转置因子(例如，T＝2,3,4)的转置。由于基于QMF的谐波转置器不具有信号自适应频域过取样的特征，所以可忽略位流中的对应标记(sbrOversamplingFlag[ch])。

当使用基于DFT的谐波转置器时，因子3及4转置器(3阶及4阶转置器)优选地通过内插集成到因子2转置器(2阶转换器)中以降低复杂性。对于每一帧(对应于coreCoderFrameLength核心编码器样本)，转置器的名义“全尺寸”变换大小首先由位流中的信号自适应频域过取样标记(sbrOversamplingFlag[ch])来确定。

当sbrPatchingMode＝＝1以指示线性转置将用于产生高频带时，可引入额外步骤以避免高频信号的频谱包络的形状不连续性输入到随后包络调整器。这改进随后包络调整级的操作以导致被感知为更稳定的高频带信号。额外预处理的操作有益于其中用于高频重建的低频带信号的粗略频谱包络显示大变动水平的信号类型。但是，可在编码器中通过应用任何种类的信号相依分类来确定位流元素的值。优选地，通过1位位流元素bs_sbr_preprocessing来启动额外预处理。当将bs_sbr_preprocessing设定为1时，启用额外处理。当将bs_sbr_preprocessing设定为0时，停用额外预处理。额外处理优选地利用由高频产生器使用的预增益曲线来按比例调整每一修补的低频带X_Low。例如，预增益曲线可根据以下方程式来计算：

preGain(k)＝10^{(meanNrg-lowEnvSlope(k))/20}，0≤k<k₀

其中k₀是主频带表中的第一QMF子频带且lowEnvSlope使用计算最佳拟合多项式(在最小平方意义上)的系数的函数(例如polyfit())来计算。例如，可采用(使用三次多项式)

polyfit(3，k₀，x_lowband，lowEnv，lowEnvSlope)；

且其中

其中x_lowband(k)＝[0...k₀-1]，numTimeSlot是存在于帧内的SBR包络时隙的数目，RATE是指示每一时隙的QMF子频带样本的数目的常数(例如2)，

是线性预测滤波系数(可从协方差法获得)且其中

根据MPEG USAC标准所产生的位流(本文中有时被称为“USAC位流”)包含经编码音频内容且通常包含指示由解码器施加以解码USAC位流的音频内容的每一类型的频谱带复制处理的元数据及/或控制此频谱带复制处理及/或指示用于解码USAC位流的音频内容的至少一个SBR工具及/或eSBR工具的至少一个特性或参数的元数据。

在本文中，我们使用表述“增强SBR元数据”(或“eSBR元数据”)来表示元数据，其指示由解码器施加以解码经编码音频位流(例如USAC位流)的音频内容的每一类型的频谱带复制处理，及/或控制此频谱带复制处理，及/或指示用于解码此音频内容但未在MPEG-4AAC标准中描述或提及的至少一个SBR工具及/或eSBR工具的至少一个特性或参数。eSBR元数据的实例是在MPEG USAC标准中描述或提及但未在MPEG-4 AAC标准中描述或提及的元数据(指示或用于控制频谱带复制处理)。因此，本文中的eSBR元数据表示不是SBR元数据的元数据，且本文中的SBR元数据表示不是eSBR元数据的元数据。

USAC位流可包含SBR元数据及eSBR元数据两者。更具体来说，USAC位流可包含控制由解码器执行eSBR处理的eSBR元数据及控制由解码器执行SBR处理的SBR元数据。根据本发明的典型实施例，eSBR元数据(例如eSBR特定配置数据)包含(根据本发明)于MPEG-4 AAC位流中(例如，在SBR有效负载末端的sbr_extension()容器中)。

在使用eSBR工具组(包括至少一个eSBR工具)解码经编码位流期间，由解码器执行eSBR处理以基于在编码期间被截断的谐波序列的复制来再生音频信号的高频带。此eSBR处理通常调整所产生的高频带的频谱包络且应用逆滤波，且添加噪声及正弦分量以重新产生原始音频信号的频谱特性。

根据本发明的典型实施例，eSBR元数据(例如是eSBR元数据的少量控制位)包含于经编码音频位流(例如MPEG-4 AAC位流)的一或多个元数据区段中，所述经编码音频位流也包含其它区段(音频数据区段)中的经编码音频数据。通常，位流的每一块的至少一个此元数据区段是(或包含)填充元素(包含指示填充元素的开始的标识符)，且eSBR元数据包含于标识符之后的填充元素中。

图1是例示性音频处理链(音频数据处理系统)的框图，其中可根据本发明的实施例来配置系统的一或多个元件。系统包含如所展示般耦合在一起的以下元件：编码器1、传送子系统2、解码器3及后处理单元4。在所展示的系统的变型中，省略一或多个元件，或包含额外音频数据处理单元。

在一些实施方案中，编码器1(其任选地包含预处理单元)经配置以接受包括音频内容作为输入的PCM(时域)样本且输出指示音频内容的经编码音频位流(具有符合MPEG-4AAC标准的格式)。指示音频内容的位流的数据在本文中有时被称为“音频数据”或“经编码音频数据”。如果根据本发明的典型实施例来配置编码器，那么从编码器输出的音频位流包含eSBR元数据(且通常也包含其它元数据)以及音频数据。

可将从编码器1输出的一或多个经编码音频位流断言到经编码音频传送子系统2。子系统2经配置以存储及/或传送从编码器1输出的每一经编码位流。从编码器1输出的经编码音频位流可由子系统2存储(例如，以DVD或蓝光光盘的形式)，或由子系统2传输(其可实施传输链接或网络)，或可由子系统2存储及传输。

解码器3经配置以解码其经由子系统2接收的经编码MPEG-4 AAC音频位流(由编码器1产生)。在一些实施例中，解码器3经配置以从位流的每一块提取eSBR元数据且解码位流(包含通过使用所提取的eSBR元数据执行eSBR处理)以产生经解码音频数据(例如经解码PCM音频样本流)。在一些实施例中，解码器3经配置以从位流提取SBR元数据(但忽略包含于位流中的eSBR元数据)且解码位流(包含通过使用所提取的SBR元数据执行SBR处理)以产生经解码音频数据(例如经解码PCM音频样本流)。通常，解码器3包含缓冲器，所述缓冲器存储(例如，以非暂时性方式)从子系统2接收的经编码音频位流的区段。

图1的后处理单元4经配置以接受来自解码器3的经解码音频数据流(例如经解码PCM音频样本)且对其执行后处理。后处理单元也可经配置以渲染经后处理的音频内容(或从解码器3接收的经解码音频)以供一或多个扬声器播放。

图2是编码器100的框图，其是发明音频处理单元的实施例。编码器100的任何组件或元件可以硬件、软件或硬件及软件的组合实施为一或多个过程及/或一或多个电路(例如ASIC、FPGA或其它集成电路)。编码器100包含如所展示般连接的编码器105、填充器/格式化器级107、元数据产生级106及缓冲存储器109。通常，编码器100也包含其它处理元件(未展示)。编码器100经配置以将输入音频位流转换成经编码输出MPEG-4 AAC位流。

元数据产生器106经耦合及配置以产生元数据(包含eSBR元数据及SBR元数据)(及/或传递到级107)以通过级107包含于从编码器100输出的经编码位流中。

编码器105经耦合及配置以编码输入音频数据(例如，通过对其执行压缩)且将所得经编码音频断言到级107以包含于从级107输出的经编码位流中。

级107经配置以多路复用来自编码器105的经编码音频及来自产生器106的元数据(包含eSBR元数据及SBR元数据)以产生从级107输出的经编码位流，优选地使得经编码位流具有由本发明的一个实施例指定的格式。

缓冲存储器109经配置以存储(例如，以非暂时性方式)从级107输出的经编码音频位流的至少一个块，且接着从缓冲存储器109将经编码音频位流的块序列作为来自编码器100的输出断言到传送系统。

图3是包含解码器200(其是发明音频处理单元的实施例)且任选地也包含耦合到解码器200的后处理器300的系统的框图。解码器200及后处理器300的任何组件或元件可以硬件、软件或硬件及软件的组合实施为一或多个过程及/或一或多个电路(例如ASIC、FPGA或其它集成电路)。解码器200包括如所展示般连接的缓冲存储器201、位流有效负载去格式化器(解析器)205、音频解码子系统202(有时被称为“核心”解码级或“核心”解码子系统)、eSBR处理级203及控制位产生级204。通常，解码器200也包含其它处理元件(未展示)。

缓冲存储器(缓冲器)201存储(例如，以非暂时性方式)由解码器200接收的经编码MPEG-4 AAC音频位流的至少一个块。在解码器200的操作中，将位流的块序列从缓冲器201断言到去格式化器205。

在图3实施例(或待描述的图4实施例)的变型中，APU(其不是解码器)(例如图6的APU 500)包含缓冲存储器(例如相同于缓冲器201的缓冲存储器)，其存储(例如，以非暂时性方式)由图3或图4的缓冲器201接收的相同类型的经编码音频位流(例如MPEG-4AAC音频位流)的至少一个块(即，包含eSBR元数据的经编码音频位流)。

再次参考图3，去格式化器205经耦合及配置以解多路复用位流的每一块以从其中提取SBR元数据(包含量化包络数据)及eSBR元数据(且通常也包含其它元数据)以将至少eSBR元数据及SBR元数据断言到eSBR处理级203且通常也将其它提取元数据断言到解码子系统202(且任选地也到控制位产生器204)。去格式化器205也经耦合及配置以从位流的每一块提取音频数据且将提取音频数据断言到解码子系统(解码级)202。

图3的系统也任选地包含后处理器300。后处理器300包含缓冲存储器(缓冲器)301及其它处理元件(未展示)，所述处理元件包含耦合到缓冲器301的至少一个处理元件。缓冲器301存储(例如，以非暂时性方式)由后处理器300从解码器200接收的经解码音频数据的至少一个块(或帧)。后处理器300的处理元件经耦合及配置以接收且使用从解码子系统202(及/或去格式化器205)输出的元数据及/或从解码器200的级204输出的控制位来自适应处理从缓冲器301输出的经解码音频的块(或帧)序列。

解码器200的音频解码子系统202经配置以解码由解析器205提取的音频数据(此解码可被称为“核心”解码操作)以产生经解码音频数据且将解码音频数据断言到eSBR处理级203。解码在频域中执行且通常包含逆量化及接着频谱处理。通常，子系统202中的最后处理级将频域到时域变换应用于经解码频域音频数据，使得子系统的输出是时域经解码音频数据。级203经配置以将由eSBR元数据及eSBR(由解析器205提取)指示的SBR工具及eSBR工具应用于经解码音频数据(即，使用SBR及eSBR元数据对解码子系统202的输出执行SBR及eSBR处理)以产生从解码器200输出(例如，到后处理器300)的经全解码音频数据。通常，解码器200包含存储从去格式化器205输出的去格式化音频数据及元数据的存储器(可由子系统202及级203存取)，且级203经配置以在SBR及eSBR处理期间根据需要存取音频数据及元数据(包含SBR元数据及eSBR元数据)。级203中的SBR处理及eSBR处理可被视为对核心解码子系统202的输出的后处理。解码器200也任选地包含最后上混子系统(其可使用由去格式化器205提取的PS元数据及/或在子系统204中产生的控制位来应用MPEG-4 AAC标准中所界定的参数立体声(“PS”)工具)，其经耦合及配置以对级203的输出执行上混以产生从解码器200输出的经全解码上混音频。替代地，后处理器300经配置以对解码器200的输出执行上混(例如，使用由去格式化器205提取的PS元数据及/或在子系统204中产生的控制位)。

响应于由去格式化器205提取的元数据，控制位产生器204可产生控制数据，且控制数据可用于解码器200内(例如，用于最后上混子系统中)及/或被断言为解码器200的输出(例如，到后处理器300以用于后处理)。响应于从输入位流提取的元数据(且任选地也响应于控制数据)，级204可产生控制位(且将控制位断言到后处理器300)以指示从eSBR处理级203输出的经解码音频数据应经历特定类型的后处理。在一些实施方案中，解码器200经配置以将由去格式化器205从输入位流提取的元数据断言到后处理器300，且后处理器300经配置以使用元数据对从解码器200输出的经解码音频数据执行后处理。

图4是音频处理单元(“APU”)210的框图，其是发明音频处理单元的另一实施例。APU 210是未经配置以执行eSBR处理的传统解码器。APU 210的任何组件或元件可以硬件、软件或硬件及软件的组合实施为一或多个过程及/或一或多个电路(例如ASIC、FPGA或其它集成电路)。APU 210包括如所展示般连接的缓冲存储器201、位流有效负载去格式化器(解析器)215、音频解码子系统202(有时被称为“核心”解码级或“核心”解码子系统)及SBR处理级213。通常，APU 210也包含其它处理元件(未展示)。APU 210可表示(例如)音频编码器、解码器或转码器。

APU 210的元件201及202相同于(图3的)解码器200的相同编号元件，且将不重复它们的上文描述。在APU 210的操作中，将由APU 210接收的经编码音频位流(MPEG-4AAC位流)的块序列从缓冲器201断言到去格式化器215。

去格式化器215经耦合及配置以解多路复用位流的每一块以从其提取SBR元数据(包含量化包络数据)且通常也从其提取其它元数据，但忽略可包含于根据本发明的任何实施例的位流中的eSBR元数据。去格式化器215经配置以将至少SBR元数据断言到SBR处理级213。去格式化器215也经耦合及配置以从位流的每一块提取音频数据且将经提取音频数据断言到解码子系统(解码级)202。

解码器200的音频解码子系统202经配置以解码由去格式化器215提取的音频数据(此解码可被称为“核心”解码操作)以产生经解码音频数据且将经解码音频数据断言到SBR处理级213。解码在频域中执行。通常，子系统202中的最后处理级将频域到时域变换应用于解码频域音频数据，使得子系统的输出是时域经解码音频数据。级213经配置以将由SBR元数据(由去格式化器215提取)指示的SBR工具(但非eSBR工具)应用于经解码音频数据(即，使用SBR元数据来对解码子系统202的输出执行SBR处理)以产生从APU 210输出(例如，到后处理器300)的经全解码音频数据。通常，APU 210包含存储从去格式化器215输出的去格式化音频数据及元数据的存储器(可由子系统202及级213存取)，且级213经配置以在SBR处理期间根据需要存取音频数据及元数据(包含SBR元数据)。级213中的SBR处理可被视为对核心解码子系统202的输出的后处理。APU 210也任选地包含最后上混子系统(其可使用由去格式化器215提取的PS元数据来应用MPEG-4 AAC标准中所界定的参数立体声“PS”工具)，其经耦合及配置以对级213的输出执行上混以产生从APU 210输出的经全解码上混音频。替代地，后处理器经配置以对APU 210的输出执行上混(例如，使用由去格式化器215提取的PS元数据及/或在APU 210中产生的控制位)。

编码器100、解码器200及APU 210的各种实施方案经配置以执行发明方法的不同实施例。

根据一些实施例，eSBR元数据(例如是eSBR元数据的少量控制位)包含于经编码音频位流(例如MPEG-4 AAC位流)中，使得传统解码器(其未经配置以解析eSBR元数据或使用与eSBR元数据有关的任何eSBR工具)可忽略eSBR元数据，但仍在不使用eSBR元数据或与eSBR元数据有关的任何eSBR工具的情况下尽可能解码位流，通常不显著损失经解码音频质量。但是，eSBR解码器(其经配置以解析位流来识别eSBR元数据且响应于eSBR元数据而使用至少一个eSBR工具)将受益于使用至少一个此eSBR工具。因此，本发明的实施例提供用于以向后兼容的方式高效地传输增强频谱带复制(eSBR)控制数据或元数据的方法。

通常，位流中的eSBR元数据指示以下eSBR工具中的一或多者(例如，指示其的至少一个特性或参数)(所述eSBR工具在MPEG USAC标准中描述，且可在或可不在位流的产生期间由编码器应用)：

●谐波转置；及

●QMF修补额外预处理(预扁平化)。

例如，包含于位流中的eSBR元数据可指示参数的值(如MPEG USAC标准及本发明中所描述)：sbrPatchingMode[ch]、sbrOversamplingFlag[ch]、sbrPitchInBins[ch]、sbrPitchInBins[ch]及bs_sbr_preprocessing。

在本文中，符号X[ch](其中X是某一参数)表示参数与待解码的经编码位流的音频内容的频道(“ch”)有关。为简单起见，我们有时省略表述[ch]，且假定相关参数与音频内容的频道有关。

在本文中，符号X[ch][env](其中X是某一参数)表示参数与待解码的经编码位流的音频内容的频道(“ch”)的SBR包络(“env”)有关。为简单起见，我们有时省略表述[env]及[ch]，且假定相关参数与音频内容的频道的SBR包络有关。

在经编码位流的解码期间，在解码的eSBR处理级期间执行谐波转置(针对由位流指示的音频内容的每一频道”ch”)由以下eSBR元数据参数控制：sbrPatchingMode[ch]、sbrOversamplingFlag[ch]、sbrPitchInBinsFlag[ch]及sbrPitchInBins[ch]。

值“sbrPatchingMode[ch]”指示用于eSBR中的转置器类型：sbrPatchingMode[ch]＝1指示MPEG-4 AAC标准的章节4.6.18中描述的线性转置修补(与高质量SBR或低功率SBR一起使用)；sbrPatchingMode[ch]＝0指示MPEG USAC标准的章节7.5.3或7.5.4中所描述的谐波SBR修补。

值“sbrOversamplingFlag[ch]”指示eSBR中的信号自适应频域过取样与MPEGUSAC标准的章节7.5.3中所描述的基于DFT的谐波SBR修补组合使用。此标记控制用于转置器中的DFT的大小：1指示如MPEG USAC标准的章节7.5.3.1中所描述般启用信号自适应频域过取样；0指示如MPEG USAC标准的章节7.5.3.1中所描述般停用信号自适应频域过取样。

值“sbrPitchInBinsFlag[ch]”控制sbrPitchInBins[ch]参数的解译：1指示sbrPitchInBins[ch]的值有效且大于0；0指示sbrPitchInBins[ch]的值被设定为0。

值“sbrPitchInBins[ch]”控制SBR谐波转置器中的交叉乘积项的加法。值sbrPitchinBins[ch]是范围[0,127]内的整数值且表示作用于核心编码器的取样频率上的1536线DFT的频格中所测量的距离。

如果MPEG-4 AAC位流指示其频道未耦合的SBR频道对(而非单个SBR频道)，那么位流指示上述语法的两个例项(针对谐波或非谐波转置)，每一频道各有一个例项sbr_channel_pair_element()。

eSBR工具的谐波转置通常提高相对低交叉频率下的经解码音乐信号的质量。非谐波转置(即，传统频谱修补)通常改进语音信号。因此，决定哪种类型的转置对于编码特定音频内容而言是优选的出发点是依据语音/音乐检测来选择转置方法，其中对音乐内容采用谐波转置且对速度内容采用频谱修补。

在eSBR处理期间执行预扁平化由称为“bs_sbr_preprocessing”的1位eSBR元数据参数的值来控制，从某种意义来说，依据此单个位的值来执行或不执行预扁平化。当使用MPEG-4 AAC标准的章节4.6.18.6.3中所描述的SBR QMF修补算法时，可执行预扁平化的步骤(当由“bs_sbr_preprocessing”参数指示时)以试图避免高频信号的频谱包络的形状不连续性输入到随后包络调整器(包络调整器执行eSBR处理的另一级)。预扁平化通常改进随后包络调整级的操作，从而导致被感知为更稳定的高频带信号。

根据本发明的一些实施例，包含于指示上述eSBR工具(谐波转置及预扁平化)的MPEG-4 AAC位流eSBR元数据中的总位率需求预期是约每秒数百个位，因为仅传输执行eSBR处理所需的差分控制数据。传统解码器可忽略此信息，因为其以向后兼容的方式被包含(如稍后将解释)。因此，由于包含以下项的若干原因，与包含eSBR元数据相关联的对位率的不利影响可忽略：

●位率损失(归因于包含eSBR元数据)在总位率中的占比非常小，因为仅传输执行eSBR处理所需的差分控制数据(且非SBR控制数据的联播)；及

●SBR相关控制信息的调谐通常不取决于转置的细节。本申请案稍后将论述控制数据取决于转置器的操作的实例。

因此，本发明的实施例提供用于以向后兼容的方式高效地传输增强频谱带复制(eSBR)控制数据或元数据的方法。eSBR控制数据的此高效传输减少采用本发明的方面的解码器、编码器及转码器中的存储器需求，同时对位率无明显不利影响。此外，也减少与根据本发明的实施例来执行eSBR相关联的复杂性及处理需求，因为SBR数据仅需被处理一次且不联播，当eSBR被视作MPEG-4 AAC中的完全独立对象类型而非以向后兼容的方式集成到MPEG-4 AAC编解码器中时，情况就是如此。

接着，参考图7，我们描述根据本发明的一些实施例的MPEG-4 AAC位流(其中包含eSBR元数据)的块(“raw_data_block”)的元素。图7是MPEG-4 AAC位流的块(“raw_data_block”)的图，其展示MPEG-4 AAC位流的一些区段。

MPEG-4 AAC位流的块可包含至少一个“single_channel_element()”(例如图7中所展示的单频道元素)及/或至少一个“channel_pair_element()”(图7中未明确展示，但其可存在)，其包含音频节目的音频数据。块也可包含若干“fill_element”(例如图7的填充元素1及/或填充元素2)，其包含与节目相关的数据(例如元数据)。每一“single_channel_element()”包含指示单频道元素的开始的标识符(例如图7的“ID1”)，且可包含指示多频道音频节目的不同频道的音频数据。每一“channel_pair_element()”包含指示频道对元素的开始的标识符(图7中未展示)，且可包含指示节目的两个频道的音频数据。

MPEG-4 AAC位流的fill_element(本文中被称为填充元素)包含指示填充元素的开始的标识符(图7的“ID2”)及标识符之后的填充数据。标识符ID2可由具有0×6的值的先传输最高有效位的3位无符号整数(“uimsbf”)组成。填充数据可包含其语法展示于MPEG-4AAC标准的表4.57中的extension_payload()元素(本文中有时被称为扩展有效负载)。存在若干类型的扩展有效负载且通过“extension_type”参数来识别，所述“extension_type”参数是先传输最高有效位的4位无符号整数(“uimsbf”)。

填充数据(例如其的扩展有效负载)可包含指示填充数据的区段(其指示SBR对象)的标头或标识符(例如图7的“标头1”)(即，标头初始化MPEG-4 AAC标准中被称为sbr_extension_data()的“SBR对象”类型)。例如，使用标头中extension_type字段的“1101”或“1110”的值来识别频谱带复制(SBR)扩展有效负载，其中标识符“1101”识别具有SBR数据的扩展有效负载且“1110”识别包含具有循环冗余检查(CRC)的SBR数据的扩展有效负载以验证SBR数据的正确性。

当标头(例如extension_type字段)初始化SBR对象类型时，SBR元数据(本文中有时被称为“频谱带复制数据”，且被称为MPEG-4 AAC标准中的sbr_data())跟随标头，且至少一个频谱带复制扩展元素(例如图7的填充元素1的“SBR扩展元素”)可跟随SBR元数据。此频谱带复制扩展元素(位流的区段)被称为MPEG-4 AAC标准中的“sbr_extension()”容器。频谱带复制扩展元素任选地包含标头(例如图7的填充元素1的“SBR扩展标头”)。

MPEG-4 AAC标准预期，频谱带复制扩展元素可包含用于节目的音频数据的PS(参数立体声)数据。MPEG-4 AAC标准预期，当填充元素(例如其的扩展有效负载)的标头初始化SBR对象类型(如图7的“标头1”)且填充元素的频谱带复制扩展元素包含PS数据时，填充元素(例如其的扩展有效负载)包含频谱带复制数据及“bs_extension_id”参数，其值(即，bs_extension_id＝2)指示PS数据包含于填充元素的频谱带复制扩展元素中。

根据本发明的一些实施例，eSBR元数据(例如指示是否对块的音频内容执行增强频谱带复制(eSBR)处理的标记)包含于填充元素的频谱带复制扩展元素中。例如，此标记在图7的填充元素1中指示，其中标记出现在填充元素1的“SBR扩展元素”的标头(填充元素1的“SBR扩展标头”)之后。此标记及额外eSBR元数据任选地包含于频谱带复制扩展元素的标头之后的所述频谱带复制扩展元素中(例如，在SBR扩展标头之后的图7中的填充元素1的SBR扩展元素中)。根据本发明的一些实施例，包含eSBR元数据的填充元素也包含“bs_extension_id”参数，其值(例如bs_extension_id＝3)指示eSBR元数据包含于填充元素中且对相关块的音频内容执行eSBR处理。

根据本发明的一些实施例，eSBR元数据包含于MPEG-4 AAC位流的填充元素(例如图7的填充元素2)中而非填充元素的频谱带复制扩展元素(SBR扩展元素)中。这是因为含有extension_payload()(其具有SBR数据或具有CRC的SBR数据)的填充元素不含有任何其它扩展类型的任何其它扩展有效负载。因此，在其中eSBR元数据存储其自身的扩展有效负载的实施例中，使用单独填充元素来存储eSBR元数据。此填充元素包含指示填充元素的开始的标识符(例如图7的“ID2”)及标识符之后的填充数据。填充数据可包含其语法展示于MPEG-4 AAC标准的表4.57中的extension_payload()元素(本文中有时被称为扩展有效负载)。填充数据(例如其的扩展有效负载)包含指示eSBR对象的标头(例如图7的填充元素2的“标头2”)(即，标头初始化增强频谱带复制(eSBR)对象类型)，且填充数据(例如其的扩展有效负载)包含标头之后的eSBR元数据。例如，图7的填充元素2包含此标头(“标头2”)且也包含标头之后的eSBR元数据(即，填充元素2中的“标记”，其指示是否对块的音频内容执行增强频谱带复制(eSBR)处理)。额外eSBR元数据也任选地包含于标头2之后的图7的填充元素2的填充数据中。在本段落所描述的实施例中，标头(例如图7的标头2)具有识别值，其不是MPEG-4 AAC标准的表4.57中所指定的常规值，而是代替地指示eSBR扩展有效负载(使得标头的extension_type字段指示填充数据包含eSBR元数据)。

在第一类实施例中，本发明是一种音频处理单元(例如解码器)，其包括：

存储器(例如图3或4的缓冲器201)，其经配置以存储经编码音频位流的至少一个块(例如MPEG-4 AAC位流的至少一个块)；

位流有效负载去格式化器(例如图3的元件205或图4的元件215)，其经耦合到所述存储器且经配置以解多路复用所述位流的所述块的至少一个部分；及

解码子系统(例如图3的元件202及203或图4的元件202及213)，其经耦合及配置以解码所述位流的所述块的音频内容的至少一个部分，其中所述块包含：

填充元素，其包含指示所述填充元素的开始的标识符(例如具有MPEG-4 AAC标准的表4.85的值0×6的“id_syn_ele”标识符)及所述标识符之后的填充数据，其中所述填充数据包含：

至少一个标记，其识别是否对所述块的音频内容执行增强频谱带复制(eSBR)处理(例如，使用包含于所述块中的频谱带复制数据及eSBR元数据)。

所述标记是eSBR元数据，且所述标记的实例是sbrPatchingMode标记。所述标记的另一实例是harmonicSBR标记。这些标记中的两者指示是对所述块的所述音频数据执行频谱带复制的基本形式还是频谱复制的增强形式。频谱复制的所述基本形式是频谱修补，且频谱带复制的所述增强形式是谐波转置。

在一些实施例中，所述填充数据也包含额外eSBR元数据(即，除所述标记以外的eSBR元数据)。

所述存储器可为缓冲存储器(例如图4的缓冲器201的实施方案)，其存储(例如，以非暂时性方式)所述经编码音频位流的所述至少一个块。

据估计，在包含eSBR元数据(指示这些eSBR工具)的MPEG-4 AAC位流的解码期间由eSBR解码器执行eSBR处理(使用eSBR谐波转置及预扁平化)的复杂性将为如下(针对具有指示参数的典型解码)：

●谐波转置(16kbps，14400/28800Hz)

○基于DFT：3.68WMOPS(每秒加权百万次操作)；

○基于QMF：0.98WMOPS；

●QMF修补预处理(预扁平化)：0.1WMOPS。

众所周知，针对瞬态，基于DFT的转置通常比基于QMF的转置执行得更好。

根据本发明的一些实施例，包含eSBR元数据的(经编码音频位流的)填充元素也包含其值(例如bs_extension_id＝3)预示eSBR元数据包含于填充元素中且对相关块的音频内容执行eSBR处理的参数(例如“bs_extension_id”参数)及/或其值(例如bs_extension_id＝2)预示填充元素的sbr_extension()容器包含PS数据的参数(例如相同“bs_extension_id”参数)。例如，如下表1中所指示，具有值bs_extension_id＝2的此参数可预示填充元素的sbr_extension()容器包含PS数据，且具有值bs_extension_id＝3的此参数可预示填充元素的sbr_extension()容器包含eSBR元数据：

表1

bs_extension_id	含义
		0	保留
1	保留
		2	EXTENSION_ID_PS
3	EXTENSION_ID_ESBR

根据本发明的一些实施例，包含eSBR元数据及/或PS数据的每一频谱带复制扩展元素的语法如下表2中所指示(其中“sbr_extension()”表示是频谱带复制扩展元素的容器，“bs_extension_id”如上表1中所描述，“ps_data”表示PS数据，且“esbr_data”表示eSBR元数据)：

表2

在例示性实施例中，上表2中所提及的esbr_data()指示以下元数据参数的值：

1.1位元数据参数“bs_sbr_preprocessing”；及

2.针对待解码的经编码位流的音频内容的每一频道(“ch”)，上述参数中的每一者是“sbrPatchingMode[ch]”、“SbrOversamplingFlag[ch]”、“SbrPitchInBinsFlag[ch]”及“sbrPitchInBins[ch]”。

例如，在一些实施例中，esbr_data()可具有表3中所指示的语法以指示这些元数据参数：

表3

上述语法能够将频谱带复制的增强形式(例如谐波转置)高效地实施为传统解码器的扩展。具体来说，表3的eSBR数据仅包含执行频谱带复制的增强形式所需的参数，其在位流中已不受支持且无法从位流中已支持的参数直接导出。执行频谱带复制的增强形式所需的所有其它参数及处理数据从位流中已界定位置中的现成参数提取。

例如，MPEG-4HE-AAC或HE-AAC v2兼容解码器可扩展为包含频谱带复制的增强形式，例如谐波转置。频谱带复制的此增强形式是已由解码器支持的频谱带复制的基本形式的附加。在MPEG-4HE-AAC或HE-AAC v2兼容解码器的背景中，频谱带复制的此基本形式是QMF频谱修补SBR工具，如MPEG-4 AAC标准的章节4.6.18中所界定。

当执行频谱带复制的增强形式时，扩展HE-AAC解码器可再使用已包含于位流的SBR扩展有效负载中的许多位流参数。可再使用的特定参数包含(例如)确定主频带表的各种参数。这些参数包含bs_start_freq(确定主频表参数的开始的参数)、bs_stop_freq(确定主频率表的停止的参数)、bs_freq_scale(确定每八音度的频带数目的参数)及bs_alter_scale(改动频带的比例的参数)。可再使用的参数也包含确定噪声频带表的参数(bs_noise_bands)及限制器频带表参数(bs_limiter_bands)。因此，在各种实施例中，从位流省略USAC标准中所指定的至少一些等效参数以藉此减少位流的控制负担。通常，当AAC标准中所指定的参数具有USAC标准中所指定的等效参数时，USAC标准中所指定的等效参数具有相同于AAC标准中所指定的参数的名称，例如包络比例因子E_OrigMapped。但是，USAC标准中所指定的等效参数通常具有不同值，其根据USAC标准中所界定的增强SBR处理而非AAC标准中所界定的SBR处理来“调谐”。

建议启动增强SBR以尤其在低位率下提高具有谐波频率结构及强音调特性的音频内容的主观质量。可在编码器中通过应用信号相依分类机制来确定控制这些工具的对应位流元素(即，esbr_data())的值。一般来说，谐波修补方法(sbrPatchingMode＝＝1)的使用对于以非常低位率编码音乐信号而言是优选，其中核心编解码器的音频带宽会受很大限制。此在这些信号包含明显谐波结构时尤为突出。相反地，常规SBR修补方法的使用对于语音及混合信号而言是优选，因为其提供语音的时间结构的较佳保留。

为提高谐波转置器的性能，可启动预处理步骤(bs_sbr_preprocessing＝＝1)，其试图避免将信号的频谱不连续性引入到随后包络调整器。工具的操作有益于其中用于高频重建的低频带信号的粗略频谱包络显示大变动水平的信号类型。

为改进谐波SBR修补的瞬态响应，可应用信号自适应频域过取样(sbrOversamplingFlag＝＝1)。由于信号自适应频域过取样增加转置器的计算复杂性，而仅为含有瞬态的帧带来益处，所以此工具的使用由位流元素来控制，每一帧及每一独立SBR频道传输位流元素一次。

在所提议的增强SBR模式中操作的解码器通常需要能够在传统SBR修补与增强SBR修补之间切换。因此，可根据解码器设置引入可与一个核心音频帧的持续时间一样长的延迟。通常，传统SBR修补及增强SBR修补两者的延迟将类似。

除许多参数以外，也可在执行根据本发明的实施例的频谱带复制的增强形式时由扩展HE-AAC解码器再使用其它数据元素。例如，包络数据及本底噪声数据也可从bs_data_env(包络比例因子)及bs_noise_env(本底噪声比例因子)数据提取且在频谱带复制的增强形式期间使用。

本质上，这些实施例利用SBR扩展有效负载中已由传统HE-AAC或HE-AAC v2解码器支持的配置参数及包络数据来启用频谱带复制的增强形式，这需要尽可能少的额外传输数据。元数据最初根据HFR的基本形式(例如SBR的频谱平移操作)来调谐，但根据实施例，用于HFR的增强形式(例如eSBR的谐波转置)。如先前所论述，元数据一般表示经调谐及设计以与HFR的基本形式(例如线性频谱平移)一起使用的操作参数(例如包络比例因子、本底噪声比例因子、时间/频率网格参数、正弦波加法信息、可变交叉频率/频带、逆滤波模式、包络分辨率、平滑模式、频率内插模式)。但是，此元数据可与专用于HFR的增强形式(例如谐波转置)的额外元数据参数组合使用以使用HFR的增强形式来高效且有效地处理音频数据。

因此，可通过依赖已界定的位流元素(例如SBR扩展有效负载中的位流元素)且仅添加支持频谱带复制的增强形式所需的参数(在填充元素扩展有效负载中)以非常高效方式产生支持频谱带复制的增强形式的扩展解码器。此数据减少特征与将新添加参数放置于保留数据字段(例如扩展容器)中的组合大体上减少产生解码器的障碍，所述解码器通过确保位流与不支持频谱带复制的增强形式的传统解码器向后兼容来支持频谱带复制的增强形式。

在表3中，右行中的数字指示左行中对应参数的位数。

在一些实施例中，更新MPEG-4 AAC中所界定的SBR对象类型以含有SBR工具及增强SBR(eSBR)工具的方面，如SBR扩展元素(bs_extension_id＝＝EXTENSION_ID_ESBR)中所预示。如果解码器检测且支持此SBR扩展元素，那么解码器采用增强SBR工具的预示方面。以此方式更新的SBR对象类型被称为SBR增强。

在一些实施例中，本发明是一种方法，其包含编码音频数据以产生经编码位流(例如MPEG-4 AAC位流)的步骤，包含通过在经编码位流的至少一个块的至少一个区段中包含eSBR元数据及在所述块的至少另一区段中包含音频数据。在典型实施例中，所述方法包含多路复用经编码位流的每一块中的音频数据与eSBR元数据的步骤。在eSBR解码器中的经编码位流的典型解码中，解码器从位流提取eSBR元数据(包含通过解析及解多路复用eSBR元数据及音频数据)且使用eSBR元数据来处理音频数据以产生经解码音频数据流。

本发明的另一方面是一种eSBR解码器，其经配置以在不包含eSBR元数据的经编码音频位流(例如MPEG-4 AAC位流)的解码期间执行eSBR处理(例如，使用称为谐波转置或预扁平化的eSBR工具中的至少一者)。将参考图5来描述此解码器的实例。

图5的eSBR解码器400包含如所展示般连接的缓冲存储器201(其相同于图3及4的存储器201)、位流有效负载去格式化器215(其相同于图4的去格式化器215)、音频解码子系统202(有时被称为“核心”解码级或“核心”解码子系统，且相同于图3的核心解码子系统202)、eSBR控制数据产生子系统401及eSBR处理级203(其相同于图3的级203)。通常，解码器400也包含其它处理元件(未展示)。

在解码器400的操作中，将由解码器400接收的经编码音频位流(MPEG-4 AAC位流)的块序列从缓冲器201断言到去格式化器215。

去格式化器215经耦合及配置以解多路复用位流的每一块以从其提取SBR元数据(包含量化包络数据)及通常也从其提取其它元数据。去格式化器215经配置以将至少SBR元数据断言到eSBR处理级203。去格式化器215也经耦合及配置以从位流的每一块提取音频数据且将所提取的音频数据断言到解码子系统(解码级)202。

解码器400的音频解码子系统202经配置以解码由去格式化器215提取的音频数据(此解码可被称为“核心”解码操作)以产生经解码音频数据且将经解码音频数据断言到eSBR处理级203。解码在频域中执行。通常，子系统202中的最后处理级将频域到时域变换应用于经解码频域音频数据，使得子系统的输出是时域经解码音频数据。级203经配置以将由SBR元数据(由去格式化器215提取)及在子系统401中产生的eSBR元数据指示的SBR工具(及eSBR工具)应用于经解码音频数据(即，使用SBR及eSBR元数据来对解码子系统202的输出执行SBR及ESBR处理)以产生从解码器400输出的经全解码音频数据。通常，解码器400包含存储从去格式化器215(及任选地子系统401)输出的去格式化音频数据及元数据的存储器(可由子系统202及级203存取)，且级203经配置以在SBR及eSBR处理期间根据需要存取音频数据及元数据。级203中的SBR处理可被视为对核心解码子系统202的输出的后处理。解码器400也任选地包含最后上混子系统(其可使用由去格式化器215提取的PS元数据来应用MPEG-4 AAC标准中所界定的参数立体声“PS”工具)，其经耦合及配置以对级203的输出执行上混以产生从APU 210输出的经全解码上混音频。

参数立体声是使用立体声信号的左频道及右频道的线性下混及描述立体声图像的空间参数组来表示立体声信号的编码工具。参数立体声通常采用三种类型的空间参数：(1)频道间强度差(IID)，其描述频道之间的强度差；(2)频道间相位差(IPD)，其描述频道之间的相位差；及(3)频道间同调性(ICC)，其描述频道之间的同调性(或类似性)。同调性可被测量为依据时间或相位而变化的互相关的最大值。这三个参数通常实现立体声图像的高质量重建。但是，IPD参数仅指定立体声输入信号的频道之间的相对相位差且未指示左频道及右频道上的这些相位差的分布。因此，可另外使用描述总相位偏移或总相位差(OPD)的第四类型的参数。在立体声重建过程中，所接收的下混信号s[n]及所接收的下混的去相关版本d[n]两者的连续窗口区段与空间参数一起被处理以根据以下方程式产生左(l_k(n))及右(r_k(n))重建信号：

l_k(n)＝H₁₁(k,n)s_k(n)+H₂₁(k,n)d_k(n)

r_k(n)＝H₁₂(k,n)s_k(n)+H₂₂(k,n)d_k(n)

其中H₁₁、H₁₂、H₂₁及H₂₂由立体声参数界定。最后，通过频率到时间变换来将信号l_k(n)及r_k(n)变换回时域。

图5的控制数据产生子系统401经耦合及配置以检测待解码的经编码音频位流的至少一个性质且回应于检测步骤的至少一个结果而产生eSBR控制数据(其可为或包含包含于根据本发明的其它实施例的经编码音频位流中的任何类型的eSBR元数据)。将eSBR控制数据断言到级203以在检测到位流的特定性质(或性质组合)之后触发个别eSBR工具或eSBR工具组合的应用及/或控制这些eSBR工具的应用。例如，为使用谐波转置来控制eSBR处理的执行，控制数据产生子系统401的一些实施例将包含：音乐检测器(例如常规音乐检测器的简化版本)，其用于响应于检测到位流是否指示音乐而设定sbrPatchingMode[ch]参数(且将设定参数断言到级203)；瞬态检测器，其用于响应于检测到由位流指示的音频内容中存在或不存在瞬态而设定sbrOversamplingFlag[ch]参数(且将设定参数断言到级203)；及/或间距检测器，其用于响应于检测到由位流指示的音频内容的间距而设定sbrPitchInBinsFlag[ch]及sbrPitchInBins[ch]参数(且将设定参数断言到级203)。本发明的其它方面是由本段落及前一段落中所描述的发明解码器的任何实施例执行的音频位流解码方法。

本发明的方面包含发明APU、系统或装置的任何实施例经配置(例如，经编程)以执行的编码或解码方法类型。本发明的其它方面包含经配置(例如，经编程)以执行发明方法的任何实施例的系统或装置及存储(例如，以非暂时性方式)用于实施发明方法或其步骤的任何实施例的代码的计算机可读媒体(例如光盘)。例如，发明系统可为或包含可编程通用处理器、数字信号处理器或微处理器，其使用软件或固件来编程及/或以其它方式配置以对数据执行各种操作的任何者(包含发明方法或其步骤的实施例)。此通用处理器可为或包含计算机系统，其包含经编程(及/或以其它方式配置)以响应于断言到其的数据而执行发明方法(或其步骤)的实施例的输入装置、存储器及处理电路。

本发明的实施例可以硬件、固件或软件或两者的组合实施(例如，作为可编程逻辑阵列)。除非另有说明，否则包含为本发明的部分的算法或过程与任何特定计算机或其它设备无内在关联。具体来说，各种通用机器可与根据本文中的教示所写入的程序一起使用，或其可更便于建构更专业设备(例如集成电路)以执行所需方法步骤。因此，本发明可在一或多个可编程计算机系统上执行的一或多个计算机程序中实施(例如图1的元件、或图2的编码器100(或其元件)、或图3的解码器200(或其元件)、或图4的解码器210(或其元件)或图5的解码器400(或其元件)的任何者的实施方案)，所述一或多个可编程计算机系统各包括至少一个处理器、至少一个数据存储系统(包含易失性及非易失性存储器及/或存储元件)、至少一个输入装置或端口及至少一个输出装置或端口。程序代码应用于输入数据以执行本文中所描述的功能且产生输出信息。输出信息以已知方式应用于一或多个输出装置。

每一此程序可以任何所要计算机语言(包含机器、汇编或高阶程序、逻辑或面向对象编程语言)实施以与计算机系统通信。无论何种情况，语言可为编译或解译语言。

例如，当由计算机软件指令序列实施时，本发明的实施例的各种功能及步骤可由在适合数字信号处理硬件中运行的多线程软件指令序列实施，在所述情况中，实施例的各种装置、步骤及功能可对应于软件指令的部分。

每一此计算机程序优选地存储于或下载到可由通用或专用可编程计算机读取的存储媒体或装置(例如固态存储器或媒体或磁性或光学媒体)上以在存储媒体或装置由计算机系统读取以执行本文中所描述的程序时配置及操作计算机。本发明系统也可实施为经配置有(即，存储)计算机程序的计算机可读存储媒体，其中如此配置的存储媒体使计算机系统以特定及预定义方式操作以执行本文中所描述的功能。

已描述本发明的许多实施例。但是，应了解，可在不背离本发明的精神及范围的情况下作出各种修改。可鉴于上述教示来进行本发明的许多修改及变动。例如，为促进高效实施，可将相移与复数QMF分析及合成滤波器组组合使用。分析滤波器组负责将由核心解码器产生的时域低频带信号滤波成多个子频带(例如QMF子频带)。合成滤波器组负责将由选定HFR技术产生的再生高频带(如由所接收的sbrPatchingMode参数所指示)与经解码低频带组合以产生宽带输出音频信号。但是，以某一取样率模式(例如正常双速率操作或降频取样SBR模式)操作的给定滤波器组实施方案不应具有与位流相依的相移。用于SBR中的QMF组是余弦调制滤波器组的理论的复指数扩展。可展示，当使用复指数调制来扩展余弦调制滤波器组时，频叠消除约束变得过时。因此，针对SBR QMF组，分析滤波器h_k(n)及合成滤波器f_k(n)两者可由以下方程式界定：

其中p₀(n)是实数值对称或非对称原型滤波器(通常为低通原型滤波器)，M表示频道数目，且N是原型滤波器阶数。用于分析滤波器组中的频道数目可不同于用于合成滤波器组中的频道数目。例如，分析滤波器组可具有32个频道且合成滤波器组可具有64个频道。当在降频取样模式中操作合成滤波器组时，合成滤波器组可仅具有32个频道。由于来自滤波器组的子频带样本是复数值，所以可将加法可行频道相依相移步骤附加到分析滤波器组。需要在合成滤波器组之前补偿这些额外相移。尽管在不破坏QMF分析/合成链的操作的情况下，相移项原则上可具有任意值，但其也可被约束为某些值以进行一致性验证。SBR信号会受相位因子的选择影响，而来自核心解码器的低通信号不会。输出信号的音频质量不受影响。

原型滤波器的系数p₀(n)可界定为640的长度L，如下表4中所展示。

表4

原型滤波器p₀(n)也可通过例如舍入、子取样、内插及抽样的一或多个数学运算从表4导出。

尽管SBR相关控制信息的调谐通常不取决于转置的细节(如先前所论述)，但在一些实施例中，控制数据的某些元素可在eSBR扩展容器(bs_extension_id＝＝EXTENSION_ID_ESBR)中联播以提高再生信号的质量。一些联播元素可包含本底噪声数据(例如本底噪声比例因子及指示每一本底噪声的差量编码的方向(频率或时间方向)的参数)、逆滤波数据(例如指示选自无逆滤波、低逆滤波程度、适中逆滤波程度及强逆滤波程度的逆滤波模式的参数)及缺失谐波数据(例如指示是否应将正弦波添加到再生高频带的特定频带的参数)。所有这些元素依赖编码器中所执行的解码器的转置器的合成模拟且因此可在根据选定转置器来适当调谐之后提高再生信号的质量。

具体来说，在一些实施例中，缺失谐波及逆滤波控制数据(连同表3的其它位流参数)在eSBR扩展容器中传输且根据eSBR的谐波转置器来调谐。传输eSBR的谐波转换器的这两类元数据所需的额外位率相对较低。因此，发送eSBR扩展容器中的调谐缺失谐波及/或逆滤波控制数据将提高由转置器产生的音频的质量，同时仅少量影响位率。为确保与传统解码器向后兼容，也可在位流中使用隐式或显式发信将针对SBR的频谱平移操作所调谐的参数发送为SBR控制数据的部分。

必须限制本申请案中所描述的具有SBR增强的解码器的复杂性以不显著增加实施方案的总计算复杂性。优选地，当使用eSBR工具时，SBR对象类型的PCU(MOP)等于或低于4.5，且当使用eSBR工具时，SBR对象类型的RCU等于或低于3。近似处理能力以处理器复杂性单元(PCU)(由MOPS的整数数目指定)给出。近似RAM使用以RAM复杂性单元(RCU)(由kWord(1000字)的整数数目指定)给出。RCU数目不包含可在不同对象及/或频道之间共享的工作缓冲区。此外，PCU与取样频率成比例。PCU值以每一频道的MOPS(每秒百万次操作)给出且RCU值以每一频道的千字数给出。

需要特别关注压缩数据，如可由不同解码器配置解码的HE-AAC编码音频。在此情况中，可以向后兼容的方式(仅AAC)以及以增强方式(AAC+SBR)完成解码。如果压缩数据容许向后兼容及增强解码两者，且如果解码器以增强方式操作使得其使用插入一些额外延迟的后处理器(例如HE-AAC中的SBR后处理器)，那么必须确保在呈现组合单元时考虑相对于向后兼容的模式引起的此额外时间延迟，如由对应值n所描述。为确保正确处置组合时间戳(使得音频与其它媒体保持同步)，当解码器操作模式包含本申请案中所描述的SBR增强(包含eSBR)时，以输出取样率下的取样数(每一音频频道)给出的由后处理引入的额外延迟是3010。因此，针对音频组合单元，当解码器操作模式包含本申请案中所描述的SBR增强时，组合时间应用于组合单元内的第3011个音频样本。

应启动SBR增强以尤其在低位率下提高具有谐波频率结构及强音调特性的音频内容的主观质量。可在编码器中通过应用信号相依分类机制来确定控制这些工具的对应位流元素(即，esbr_data())的值。

一般来说，谐波修补方法(sbrPatchingMode＝＝0)的使用对于以非常低位率编码音乐信号而言是优选，其中核心编解码器的音频带宽会受很大限制。此在这些信号包含明显谐波结构时尤为突出。相反地，常规SBR修补方法的使用对于语音及混合信号而言是优选，因为其提供语音的时间结构的较佳保留。

为提高MPEG-4SBR转置器的性能，可启动预处理步骤(bs_sbr_preprocessing＝＝1)，其避免将信号的频谱不连续性引入到随后包络调整器。工具的操作有益于其中用于高频重建的低频带信号的粗略频谱包络显示大变动水平的信号类型。

为改进谐波SBR修补的瞬态响应(sbrPatchingMode＝＝0)，可应用信号自适应频域过取样(sbrOversamplingFlag＝＝1)。由于信号自适应频域过取样增加转置器的计算复杂性，但仅对含有瞬态的帧带来益处，所以此工具的使用由位流元素来控制，每一帧及每一独立SBR频道传输位流元素一次。

具有SBR增强(即，启用eSBR工具的谐波转置器)的HE-AACv2的典型位率设定建议对应于44.1kHz或48kHz的取样率下的立体声音频内容的20kbp到32kbp。SBR增强的相对主观质量增益朝向较低位率边界增大，且经适当配置的编码器允许将此范围扩展到甚至更低位率。上文所提供的位率仅为建议且可适用于特定服务要求。

在所建议的增强SBR模式中操作的解码器通常需要能够在传统SBR修补与增强SBR修补之间切换。因此，可根据解码器设置来引入可与一个核心音频帧的持续时间一样长的延迟。通常，传统SBR修补及增强SBR修补两者的延迟将类似。

应理解，在所附权利要求书的范围内，可以除本文具体描述的方式以外的其它方式实践本发明。以下权利要求书中所含的任何元件符号仅供说明且绝不应该用于解释或限制权利要求书。

可从以下列举实例实施例(EEE)了解本发明的各种方面：

EEE 1.一种用于执行音频信号的高频重建的方法，所述方法包括：

接收经编码音频位流，所述经编码音频位流包含表示所述音频信号的低频带部分的音频数据及高频重建元数据；

解码所述音频数据以产生经解码低频带音频信号；

从所述经编码音频位流提取所述高频重建元数据，所述高频重建元数据包含高频重建过程的操作参数，所述操作参数包含定位于所述经编码音频位流的向后兼容扩展容器中的修补模式参数，其中所述修补模式参数的第一值指示频谱平移且所述修补模式参数的第二值指示通过相位声码器频率展延的谐波转置；

对所述经解码低频带音频信号滤波以产生经滤波低频带音频信号；

使用所述经滤波低频带音频信号及所述高频重建元数据来再生所述音频信号的高频带部分，其中如果所述修补模式参数是所述第一值，那么所述再生包含频谱平移，且如果所述修补模式参数是所述第二值，那么所述再生包含通过相位声码器频率展延的谐波转置；及

组合所述经滤波低频带音频信号与所述再生高频带部分以形成宽带音频信号，

其中将所述滤波、再生及组合执行为每一音频频道具有3010个样本的延迟或更少的后处理操作，且其中所述频谱平移包括通过自适应逆滤波来维持音调分量与类噪声分量之间的比率。

EEE 2.根据EEE 1所述的方法，其中所述经编码音频位流进一步包含填充元素，所述填充元素具有指示所述填充元素的开始的标识符及所述标识符之后的填充数据，其中所述填充数据包含所述向后兼容扩展容器。

EEE 3.根据EEE 2所述的方法，其中所述标识符是先传输最高有效位且具有0×6的值的3位无符号整数。

EEE 4.根据EEE 2或EEE 3所述的方法，其中所述填充数据包含扩展有效负载，所述扩展有效负载包含频谱带复制扩展数据，且所述扩展有效负载由先传输最高有效位且具有“1101”或“1110”的值的4位无符号整数识别，且任选地，

其中所述频谱带复制扩展数据包含：

任选频谱带复制标头，

频谱带复制数据，其位于所述标头之后，及

频谱带复制扩展元素，其位于所述频谱带复制数据之后，且其中所述标记包含于所述频谱带复制扩展元素中。

EEE 5.根据EEE 1到4中任一项所述的方法，其中所述高频重建元数据包含包络比例因子、本底噪声比例因子、时间/频率网格信息或指示交叉频率的参数。

EEE 6.根据EEE 1到5中任一项所述的方法，其中所述向后兼容扩展容器进一步包含指示是否在所述修补模式参数等于所述第一值时使用额外预处理来避免所述高频带部分的频谱包络的形状不连续性的标记，其中所述标记的第一值启用所述额外预处理且所述标记的第二值停用所述额外预处理。

EEE 7.根据EEE 6所述的方法，其中所述额外预处理包含使用线性预测滤波器系数来计算预增益曲线。

EEE 8.根据EEE 1到5中任一项所述的方法，其中所述向后兼容扩展容器进一步包含指示是否在所述修补模式参数等于所述第二值时应用信号自适应频域过取样的标记，其中所述标记的第一值启用所述信号自适应频域过取样且所述标记的第二值停用所述信号自适应频域过取样。

EEE 9.根据EEE 8所述的方法，其中所述信号自适应频域过取样仅应用于含有瞬态的帧。

EEE 10.如前述EEE中任一项所述的方法，其中以等于或低于每秒450万次操作及3千字存储器的估计复杂性执行通过相位声码器频率展延的所述谐波转置。

EEE 11.一种非暂时性计算机可读媒体，其含有在由处理器执行时执行根据EEE 1到10中任一项所述的方法的指令。

EEE 12.一种计算机程序产品，其具有在由计算装置或系统执行时使所述计算装置或系统执行根据EEE 1到10中任一项所述的方法的指令。

EEE 13.一种用于执行音频信号的高频重建的音频处理单元，所述音频处理单元包括：

输入接口，其用于接收经编码音频位流，所述经编码音频位流包含表示所述音频信号的低频带部分的音频数据及高频重建元数据；

核心音频解码器，其用于解码所述音频数据以产生经解码低频带音频信号；

去格式化器，其用于从所述经编码音频位流提取所述高频重建元数据，所述高频重建元数据包含用于高频重建过程的操作参数，所述操作参数包含定位于所述经编码音频位流的向后兼容扩展容器中的修补模式参数，其中所述修补模式参数的第一值指示频谱平移且所述修补模式参数的第二值指示通过相位声码器频率展延的谐波转置；

分析滤波器组，其用于对所述经解码低频带音频信号滤波以产生经滤波低频带音频信号；

高频再生器，其用于使用所述经滤波低频带音频信号及所述高频重建元数据来重建所述音频信号的高频带部分，其中如果所述修补模式参数是所述第一值，那么所述重建包含频谱平移，且如果所述修补模式参数是所述第二值，那么所述重建包含通过相位声码器频率展延的谐波转置；及

合成滤波器组，其用于组合所述经滤波低频带音频信号与所述再生高频带部分以形成宽带音频信号，

其中在每一音频频道具有3010个样本的延迟或更少的后处理器中执行所述分析滤波器组、高频再生器及合成滤波器组，且其中所述频谱平移包括通过自适应逆滤波来维持音调分量与类噪声分量之间的比率。

EEE 14.根据EEE 13所述的音频处理单元，其中以等于或低于每秒450万次操作及3千字存储器的估计复杂性执行通过相位声码器频率展延的所述谐波转置。

Claims

1.一种用于执行音频信号的高频重建的方法，所述方法包括：

解码所述音频数据以产生经解码低频带音频信号；

其中将所述滤波、再生及组合执行为每一音频频道具有3010个样本的延迟的后处理操作，且其中所述频谱平移包括通过自适应逆滤波来维持音调分量与类噪声分量之间的比率。