CN103959375A

CN103959375A - 增强的从音频编解码器的色度提取

Info

Publication number: CN103959375A
Application number: CN201280058961.7A
Authority: CN
Inventors: A·比斯沃斯; M·芬克; M·舒格
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2011-11-30
Filing date: 2012-11-28
Publication date: 2014-07-30
Anticipated expiration: 2032-11-28
Also published as: WO2013079524A2; US20140310011A1; EP2786377B1; EP2786377A2; WO2013079524A3; US9697840B2; CN103959375B; JP2015504539A; JP6069341B2

Abstract

本文档涉及用于音乐信息检索(MIR)的方法和系统。特别地，本文档涉及用于从音频信号提取色度矢量的方法和系统。描述了一种用于确定音频信号(301)的采样块的色度矢量(100)的方法(900)。方法(900)包括：从基于谱带复制的音频编码器(410)的核心编码器(412)接收(901)从音频信号(301)的采样块导出的相应频率系数块，所述基于谱带复制的音频编码器(410)适于从该频率系数块产生音频信号(301)的编码的比特流(305)；并且基于所接收的频率系数块来确定(904)音频信号(301)的采样块的色度矢量(100)。

Description

增强的从音频编解码器的色度提取

相关申请的交叉引用

本申请要求于2011年11月30日提交的美国临时专利申请No.61/565,037的优先权，该申请的全部内容通过引用并入此。

技术领域

本文档涉及用于音乐信息检索(MIR)的方法和系统。特别地，本文档涉及用于与音频信号的编码处理相结合地(例如，在音频信号的编码处理期间)从音频信号提取色度(chroma)矢量的方法和系统。

背景技术

由于易于访问的数据的数量在过去几年里显著增加的事实，遍历可用音乐库变得越来越困难。被称为音乐信息检索(MIR)的跨学科研究领域调查了对音乐数据进行结构化和分类的解决方案，以帮助用户探查他们的媒体。例如，希望的是基于MIR的方法能够对音乐进行分类，以便提议相似类型的音乐。MIR技术可以基于指定半音随时间的能量分布的中间水平的时间-频谱表示，其被称为色度图谱(chromagram)。音频信号的色度图谱可以用于识别音频信号的和声信息(例如，关于旋律(melody)的信息和/或关于和弦(chord)的信息)。然而，色度图谱的确定典型地与显著的计算复杂度相联系。

本文档设法解决了色度图谱计算方法的复杂度问题，并且描述了用于以降低的计算复杂度计算色度图谱的方法和系统。特别地，描述用于高效率地计算被感知激励的色度图谱的方法和系统。

发明内容

根据一方面，描述一种用于确定音频信号的采样块的色度矢量的方法。采样块可以是所谓的采样长块，其也被称为采样帧。音频信号可以是例如音轨。所述方法包括以下步骤：从音频编码器(例如，AAC(高级音频译码)或mp3编码器)接收从音频信号的采样块导出的相应的频率系数块。音频编码器可以是基于谱带复制(SBR)的音频编码器的核心编码器。举例来说，基于SBR的音频编码器的核心编码器可以是AAC或mp3编码器，更特别地，基于SBR的音频编码器可以是HE(高效率)AAC编码器或mp3PRO。可以应用本文档中所描述的方法的基于SBR的音频编码器的另一例子是MPEG-D USAC(通用语音和音频编解码器)编码器。

(基于SBR的)音频编码器典型地适于从频率系数块产生音频信号的编码的比特流。为了这个目的，音频编码器可以对频率系数块进行量化，并且可以对量化后的频率系数块进行熵编码。

所述方法还包括基于所接收的频率系数块来确定音频信号的采样块的色度矢量。特别地，可以从第二频率系数块确定色度矢量，第二频率系数块从所接收的频率系数块导出。在实施例中，第二频率系数块是所接收的频率系数块。在所接收的频率系数块是频率系数长块的情况下，情况可能如此。在另一实施例中，第二频率系数块对应于所估计的频率系数长块。该所估计的频率系数长块可以从所接收的频率系数块内所包括的多个短块确定。

频率系数块可以是修正离散余弦变换(MDCT)系数块。时域到频域变换(以及所得的频率系数块)的其他例子是诸如MDST(修正离散正弦变换)、DFT(离散傅立叶变换)和MCLT(修正复数交叠变换)的变换。一般地说，可以使用时域到频域变换来从相应的采样块确定频率系数块。反过来，可以使用相应的逆变换从频率系数块确定采样块。

MDCT是重叠变换，其意味着，在这样的情况下，从采样块以及音频信号的来自该采样块的直接邻域的另外的更多的采样确定频率系数块。特别地，可以从采样块和紧接在前的采样块确定频率系数块。

采样块可以包括N个接连的短块，每个接连的短块有M个采样。换句话讲，采样块可以是(或者可以包括)N个短块的序列。以类似的方式，频率系数块可以包括N个相应的短块，每个相应的短块有M个频率系数。在实施例中，M＝128，N＝8，这意味着采样块包括M×N＝1024个采样。音频编码器可以使用短块来对瞬态音频信号进行编码，从而提高时间分辨率，同时降低频率分辨率。

当从音频编码器接收到短块序列时，所述方法可以包括附加步骤以提高所接收的频率系数短块的序列的频率分辨率，从而使得能够确定全部采样块(其包括短块采样序列)的色度矢量。特别地，所述方法可以包括从N个M个频率系数的短块估计与采样块相应的频率系数长块。执行估计，以使得与N个频率系数短块相比，所估计的频率系数长块的频率分辨率提高。在这样的情况下，可以基于所估计的频率系数长块来确定音频信号的采样块的色度矢量。

应指出，对于不同的聚合水平，可以以分层的方式执行估计频率系数长块的步骤。这意味着，可以将多个短块聚合为长块，并且可以将多个长块聚合为超长块，等等。结果，可以提供不同水平的频率分辨率(以及相应地，时间分辨率)。举例来说，可以从N个短块的序列确定频率系数长块(如以上所概括的那样)。在下一分层层级，可以将N2个频率系数长块的序列(其中的一些或全部可能已被从相应的N个短块的序列估计出来)转换为N2倍频率系数的超长块(以及相应地，更高频率分辨率)。就这点而论，用于从频率系数短块的序列估计频率系数长块的方法可以用于分层地提高色度矢量的频率分辨率(同时，分层地降低色度矢量的时间分辨率)。

估计频率系数长块的步骤可以包括：对N个频率系数短块的相应频率系数进行交织，从而得到交织的频率系数长块。应指出，在对频率系数块进行量化和熵编码的上下文中，这样的交织可以由音频编码器(例如，核心编码器)执行。就这点而论，所述方法可替代地可以包括从音频编码器接收交织的频率系数长块的步骤。因此，交织步骤将不消耗额外的计算资源。色度矢量可以从交织的频率系数长块确定。此外，估计频率系数长块的步骤可以包括通过将(与高频区间(bin)相比，在变换的低频区间中)具有能量聚集性质(energy compactionproperty)的变换(例如，DCT-II变换)应用于交织的频率系数长块来对N个频率系数短块的N个相应频率系数进行去相关。该使用能量聚集变换(例如，DCT-II变换)的去相关方案可以被称为自适应混合变换(AHT)方案。色度矢量可以从去相关的、交织的频率系数长块确定。

可替代地，估计频率系数长块的步骤可以包括将多相转换(PPC)应用于N个M个频率系数的短块。多相转换可以基于转换矩阵，该转换矩阵用于在数学上将N个M个频率系数的短块变换为准确的N×M个频率系数的长块。就这点而论，可以在数学上从由音频编码器执行的时域到频域变换(例如，MDCT)确定转换矩阵。转换矩阵可以表示N个频率系数短块到时域的逆变换与时域采样到频域的随后变换的组合，从而得到准确的N×M个频率系数的长块。多相转换可以使用转换矩阵的其中一小部分转换矩阵系数被设置为零的逼近(approximation)。举例来说，可以将转换矩阵系数的90％或更多的部分被设置为零。结果，多相转换可以以低的计算复杂度提供所估计的频率系数长块。此外，该小部分(fraction)可以用作作为复杂度的函数改变转换质量的参数。换句话讲，该小部分可以用于提供复杂度可缩放的转换。

应指出，可以将AHT(以及PPC)应用于短块序列的一个或多个子集。就这点而论，估计频率系数长块可以包括形成N个频率系数短块的多个子集。这些子集可以具有L个短块的长度，从而得到N/L个子集。可以基于音频信号来选择每一子集的短块数量L，从而使AHT/PPC适应音频信号的特定特性(即，音频信号的特定帧)。

在AHT的情况下，对于每个子集，可以对频率系数短块的相应频率系数进行交织，从而得到该子集的交织的频率系数中间块(具有L×M个系数)。此外，对于每个子集，可以将能量聚集变换(例如，DCT-II变换)应用于该子集的交织的频率系数中间块，从而提高交织的频率系数中间块的频率分辨率。在PPC的情况下，可以确定中间转换矩阵，该中间转换矩阵用于在数学上将L个M个频率系数的短块变换为准确的L×M个频率系数的中间块。对于每个子集，多相转换(其可以被称为中间多相转换)可以使用中间转换矩阵的其中一小部分中间转换矩阵系数被设置为零的逼近。

更一般地，可以陈述，频率系数长块的估计可以包括从短块序列估计多个频率系数中间块(对于多个子集)。可以从多个频率系数中间块确定多个色度矢量(使用本文档中所描述的方法)。就这点而论，用于确定色度矢量的频率分辨率(以及时间分辨率)可适于音频信号的特性。

确定色度矢量的步骤可以包括将频率相关心理声学处理应用于从所接收的频率系数块导出的第二频率系数块。频率相关心理声学处理可以使用由音频编码器提供的心理声学模型。

在实施例中，应用频率相关心理声学处理包括将从第二频率系数块的至少一个频率系数导出的值与频率相关能量阈值(例如，频率相关的心理声学掩蔽阈值)进行比较。从所述至少一个频率系数导出的值可以对应于从相应的多个频率(例如，尺度因子带(scale factorband))的多个频率系数导出的平均能量值(例如，尺度因子带能量)。特别地，平均能量值可以是多个频率系数的平均值。作为比较的结果，如果频率系数低于能量阈值，则可以将频率系数设置为零。能量阈值可以从音频编码器(例如，基于SBR的音频编码器的核心编码器)所应用的心理声学模型导出。特别地，能量阈值可以从由音频编码器用于对频率系数块进行量化的频率相关掩蔽阈值导出。

确定色度矢量的步骤可以包括将第二块的频率系数中的一些或全部分类为色度矢量的音调类(tone class)。随后，可以基于分类的频率系数来确定色度矢量的音调类的累积能量。举例来说，可以使用与色度矢量的音调类相关联的带通滤波器来对频率系数进行分类。

可以通过从音频信号的采样块序列确定色度矢量序列并且相对于与该采样块序列相关联的时间线绘制该色度矢量序列，来确定音频信号(包括采样块序列)的色度图谱。换句话讲，通过对于采样块序列(例如，对于帧序列)重复迭代本文档中所概述的方法，可以逐帧地、不忽略任何帧(例如，不忽略包括短块序列的瞬态音频信号的帧)地确定可靠的色度矢量。因此，可以确定连续的色度图谱(每一帧包括(至少)一个色度矢量)。

根据另一方面，描述一种适于对音频信号进行编码的音频编码器。音频编码器可以包括适于对音频信号的(可能下采样的)低频分量进行编码的核心编码器。核心编码器典型地适于通过将采样块变换到频域中来对低频分量的采样块进行编码，从而得到相应的频率系数块。此外，音频编码器可以包括色度确定单元，其适于基于频率系数块来确定音频信号的低频分量的采样块的色度矢量。为了这个目的，色度确定单元可以适于执行本文档中所概述的方法步骤中的任何一个。编码器还可以包括谱带复制编码器，其适于对音频信号的相应的高频分量进行编码。另外，编码器可以包括复用器，其适于从由核心编码器和谱带复制编码器提供的数据产生编码的比特流。另外，复用器可以适于将从色度矢量导出的信息(例如，从色度矢量导出的高级信息，诸如和弦和/或调)作为元数据添加到编码的比特流。举例来说，编码的比特流可被以下列格式中的任何一种格式进行编码：MP4格式、3GP格式、3G2格式、LATM格式。

应指出，本文档中所描述的方法可以应用于音频解码器(例如，基于SBR的音频编码器)。这样的音频解码器典型地包括解复用和解码单元，其适于接收编码的比特流，并且适于从该编码的比特流提取(量化后的)频率系数块。这些频率系数块可以用于如本文档中所概述的那样确定色度矢量。

因此，描述一种适于对音频信号进行解码的音频解码器。音频解码器包括解复用和解码单元，其适于接收比特流，并且适于从所接收的比特流提取频率系数块。频率系数块与音频信号的(经下采样的)低频分量的相应采样块相关联。特别地，频率系数块可以对应于在相应的音频编码器处导出的相应的频率系数块的量化版本。可以将解码器处的频率系数块转换到时域中(使用逆变换)，以得到音频信号的(经下采样的)低频分量的重构采样块。

此外，音频解码器包括色度确定单元，其适于基于从比特流提取的频率系数块来确定音频信号(的低频分量)的采样块的色度矢量。色度确定单元可适于执行本文档中所概述的方法步骤中的任何一个。

此外，应指出，一些音频解码器可以包括心理声学模型。这样的音频解码器的例子是例如Dolby Digital和Dolby Digital Plus。该心理声学模型可以用于确定色度矢量(如本文档中所概述的那样)。

根据另一方面，描述一种软件程序。该软件程序可以适于在处理器上执行，并且适于当在计算装置上执行时执行本文档中所概述的方法步骤。

根据另一方面，描述一种存储介质。该存储介质可以包括软件程序，该软件程序适于在处理器上执行，并且适于当在计算装置上执行时执行本文档中所概述的方法步骤。

根据另一方面，描述一种计算机程序。该计算机程序可以包括用于当在计算装置上执行时执行本文档中所概述的方法步骤的可执行指令。

应指出，如本文档中所概述的包括其优选实施例的方法和系统可以独立使用，或者与本文档所公开的其他方法和系统结合使用。此外，本文档中所概述的方法和系统的所有方面可以任意组合。特别地，可以以任意的方式将权利要求的特征彼此组合。

附图说明

下面以示例性的方式参照附图说明本发明，其中：

图1例示色度矢量的示例确定方案；

图2示出用于将谱图的系数分类为色度矢量的示例音调类的示例带通滤波器；

图3例示包括色度确定单元的示例音频编码器的框图；

图4示出示例高效率-高级音频译码编码器和解码器的框图；

图5例示修正离散余弦变换的确定方案；

图6a和b例示示例心理声学频率曲线；

图7a至e示出(所估计的)频率系数长块的示例序列；

图8示出对于从各种长块估计方案导出的色度矢量的相似性的示例实验结果；以及

图9示出用于确定音频信号的色度矢量序列的方法的示例流程图。

具体实施方式

如今的存储解决方案具有向用户提供庞大的音乐内容数据库的能力。比如Simfy的在线流传输服务提供多于1千3百万首歌曲(音频文件或音频信号)，这些流传输服务面对遍历大型数据库进行导航以及选择适当的音轨并且将这些音轨流传输给它们的客户的挑战。类似地，具有存储在数据库中的大型个人音乐集的用户具有选择适当音乐的相同问题。为了能够处理这样的大量数据，发现音乐的新方式是希望的。特别地，可以有益的是，当知道用户对音乐的偏好品味时，音乐检索系统向用户建议相似类型的音乐。

为了识别音乐相似性，可能需要许多高级语义特征，诸如拍子、节奏、节拍、和声、旋律、风格和基调(mood)，并且可能需要从音乐内容提取这些高级语义特征。音乐信息检索(MIR)提供了计算这些音乐特征中的许多音乐特征的方法。大多数MIR策略依赖于从其获得必要的高级音乐特征的中间层次的描述符。中间层次的描述符的一个例子是图1中所例示的所谓的色度矢量100。色度矢量100通常是K维矢量，其中，该矢量的每个维度对应于半音类的谱能量。在西方音乐的情况下，典型地K＝12。对于其他类型的音乐，K可以具有不同的值。可以通过将音频信号在特定时刻的谱101(例如，使用短时傅立叶变换STFT的幅度谱而确定)映射和折叠到单个八度(octave)来获得来色度矢量100。就这点而论，色度矢量捕获音频信号在特定时刻的旋律及和声内容，同时与谱图101相比对音色的变化不那么敏感。

如图1中所示，可以通过将谱101投射在Shepard的音高(musicalpitch)感知的螺旋表示102上来使音频信号的色度特征可视化。在表示102中，色度是指从正上方看到的螺旋102的圆周上的位置。另一方面，高度是指从侧面看到的螺旋的垂直位置。高度对应于八度的位置，即，高度指示八度。可以通过下述方式来提取色度矢量，即，使幅度谱101围绕螺旋102卷绕并且将螺旋102的圆周上的相应位置处的、但是在不同八度(不同高度)处的谱能量投射到色度(或音调类)上，从而对半音类的谱能量进行求和。

半音类的这个分布捕获音频信号的和声内容。色度矢量随时间的进展被称为色度图谱。色度矢量和色度图谱表示可以用于识别和弦名称(例如，包括C、E和G的大色度矢量值的C大三和弦)、估计音频信号的总体音调(音调标识了表示音乐作品的其余部分的终点或音乐作品的一节的焦点的大调/小调、弦以及主音三和弦)、估计音频信号的调式(mode)(其中，调式是音阶的类型，例如，大调或小调中的音乐作品)、检测歌曲内或歌曲间的相似性(歌曲内的和声/旋律相似性、或歌曲集上的和声/旋律相似性，以创建相似歌曲的播放列表)、识别歌曲、和/或提取歌曲的合声。

就这点而论，可以通过将音频信号的短时谱谱折叠到单个八度中、接着将折叠的谱分割为十二维矢量来获得色度矢量。该操作依赖于音频信号的适当的时间-频率表示(优选地，在频域中具有高分辨率)。音频信号的这样的时间-频率变换的计算是计算密集型的，并且在已知的色度图谱计算方案中消耗大部分计算能力。

下面，描述用于确定色度矢量的基本方案。从表1(西方音乐的第四个八度中的半音的、以Hz为单位的频率)可以看出，当知道参考音高(对于音调A4，通常为440Hz)时，音调到频率的直接映射是可能的。

表1

两个半音的频率之间的因子为因此，两个八度之间的因子为因为频率翻倍等同于将音调提高一个八度，所以该系统可以被看作为周期性的，并且可以在圆柱坐标系102被显示，在圆柱坐标系102中，径向轴表示12个音调之一或色度值之一(被称为c)，并且其中，纵向位置表示音调高度(被称为h)。因此，可以将所感知的音高或频率f写为f＝2^c+h,c∈[0,1),h∈Z。

当就音频信号(例如，音乐作品)的旋律和和声对该音频信号进行分析时，随时间示出其和声信息的视觉显示是希望的。一种方式是所谓的色度图谱，在色度图谱中，一个帧的谱内容被映射到半音的十二维矢量，并且相对于时间进行绘制，半音的十二维矢量被称为色度矢量。可以通过将以上提及的等式变换为来从给定的频率f获得色度值c，其中，是向下取整(flooring)运算，其对应于将多个八度谱折叠到单个八度(由螺旋表示102描绘)。可替代地，可以通过每一个八度使用一组12个带通滤波器来确定色度矢量，其中，每个带通适于从音频信号在特定时刻的幅度谱提取特定色度的谱能量。就这点而论，可以使与每个色度(或音调类)相应的谱能量与幅度谱隔离，随后对该谱能量进行求和以得到特定色度的色度值c。图2中例示了用于音调类A的示例带通滤波器200。在M.Goto的“AChorus Section Detection Method for Musical Audio Signals and itsApplication to a Music Listening Station.”IEEE Trans.Auido,Speech,and Language Processing14,no.5(Sepetember2006):1783-1794中描述了用于确定色度矢量和色度图谱谱的这样的基于滤波器的方法。在Stein,M.等人的“Evaluation and Comparison of Auido ChromaFeature Extraction Methods.”126^thAES Convention.Munich,Germany2009中描述了另外的色度提取方法。两个文档都通过引用并入此。

如以上所概述的，色度矢量和色度图谱的确定需要确定音频信号的适当的时间-频率表示。这通常与高计算复杂度相联系。在本文档中，提出了通过将MIR处理整合到现有的已经使用了相似的时间-频率变换的音频处理方案中来减少计算工作量。这样的现有的音频处理方案的希望的品质将是具有高频率分辨率的时间-频率表示、时间-频率变换的高效率实现、以及可以用于潜在地改进所得的色度图谱的可靠性和质量的附加模块的可用性。

音频信号(特别是，音乐信号)典型地以编码的(即，压缩的)格式被存储和/或发送。这意味着MIR处理应与编码的音频信号结合地工作。因此，提出了与使用时间-频率变换的音频编码器相结合地确定音频信号的色度矢量和/或色度图谱。具体地，提出了使用高效率(HE)编码器/解码器，即，使用谱带复制(SBR)的编码器/解码器。这样的基于SBR的编码器/解码器的例子是HE-AAC(高级音频译码)编码器/解码器。HE-AAC编解码器被设计为以非常低的比特率递送丰富的收听体验，因此，广泛用于广播、移动流传输和下载服务中。可替代的基于SBR的编解码器例如是使用mp3核心编码器、而不是AAC核心编码器的mp3PRO编解码器。下面，将参照HE-AAC编解码器。然而，应指出，所提出的方法和系统也可应用于其他音频编解码器，特别是其他基于SBR的编解码器。

就这点而论，在本文档中提出使用在HE-AAC中可用的时间-频率变换，以便确定音频信号的色度矢量/色度图谱。就这点而论，显著降低了色度矢量确定的计算复杂度。除了节省计算成本之外，使用音频编码器来获得色度图谱的另一优点是典型的音频编解码器集中于人类感知的事实。这意味着典型的音频编解码器(诸如HE-AAC编解码器)提供可以适合于进一步色度图谱增强的良好的心理声学工具。换句话讲，提出使用音频编码器内可用的心理声学工具来增强色度图谱的可靠性。

此外，应指出，音频编码器本身也受益于附加的色度图谱计算模块的存在，因为该色度图谱计算模块使得可以计算可以被包括到由音频编码器产生的比特流的元数据中的有用元数据(例如，和弦信息)。该附加元数据可以用于在解码器端提供增强的消费者体验。特别地，该附加元数据可以用于另外的MIR应用。

图3例示了音频编码器(例如，HE-AAC编码器)300和色度图谱确定模块310的示例框图。音频编码器300通过在时间-频率域中使用时间-频率变换302对音频信号301进行变换来对音频信号301进行编码。这样的时间-频率变换302的典型例子是例如在AAC编码器的上下文中使用的修正离散余弦变换(MDCT)。典型地，使用频率变换(例如，MDCT)将音频信号301的采样帧x[k]变换到频域中，从而提供频率系数集X[k]。在量化和译码单元303中对频率系数集X[k]进行量化和编码，由此量化和译码典型地考虑感知模块306。随后，在编码单元或复用器单元304中将译码的音频信号编码为特定比特流格式(例如，MP4格式、3GP格式、3G2格式或LATM格式)。编码为特定比特流格式典型地包括将元数据添加到编码的音频信号。结果，获得特定格式的比特流305(例如，MP4格式的HE-AAC比特流)。该比特流305典型地包括来自音频核心编码器的编码的数据、以及SBR编码器数据和附加元数据。

色度图谱确定模块310使用时间-频率变换311来确定音频信号301的短时幅度谱101。随后，在单元312中从短时幅度谱101的序列确定色度矢量序列(即，色度图谱313)。

图3进一步例示了包括集成的色度图谱确定模块的编码器350。组合式编码器350的一些处理单元对应于单独的编码器300的单元。然而，如以上所指示的，可以在比特流编码单元354中用从色度图谱353导出的附加元数据来增强编码的比特流355。另一方面，色度图谱确定模块可以使用编码器350和/或编码器350的感知模块306的时间-频率变换302。换句话讲，色度图谱计算352(可能地，使用心理声学处理356)可以使用通过变换302提供的频率系数集X[k]来确定从其确定色度矢量100的幅度谱101。此外，可以考虑感知模块306，以便确定感知上显著的色度矢量100。

图4例示了HE-AAC版本1和HE-AAC版本2(即，包括立体声信号的参数化立体声(PS)编码/解码的HE-AAC)中所使用的示例的基于SBR的音频编解码器400。特别地，图4示出了在所谓的双率模式下(即，在编码器410中的核心编码器412以SBR编码器414的采样率一半的采样率工作的模式下)操作的HE-AAC编解码器400的框图。在编码器410的输入，提供输入采样率fs＝fs_in的音频信号301。在下采样单元411中对音频信号301进行因子为2的下采样，以便提供音频信号301的低频分量。典型地，下采样单元411包括低通滤波器，以便在下采样之前去除高频分量(从而避免混叠)。下采样单元411以降低的采样率fs/2＝fs_in/2提供低频分量。核心编码器412(例如，AAC编码器)对低频分量进行编码以提供低频分量的编码的比特流。

使用SBR参数对音频信号的高频分量进行编码。为了这个目的，使用分析滤波器组413(例如，具有例如64个频带的正交镜像滤波器组(QMF))对音频信号301进行分析。结果，获得音频信号的多个子带信号，其中，在每个时刻t(或者在每个采样k)，所述多个子带信号提供音频信号301在该时刻t的谱的指示。所述多个子带信号被提供给SBR编码器414。SBR编码器414确定多个SBR参数，其中，所述多个SBR参数使得能够在相应的解码器430处从(重构的)低频分量重构音频信号的高频分量。SBR编码器414典型地确定所述多个SBR参数，以使得基于所述多个SBR参数和(重构的)低频分量而确定的重构的高频分量逼近原始高频分量。为了这个目的，SBR编码器414可以使用基于原始高频分量和重构的高频分量的误差最小化标准(例如，均方误差标准)。

在复用器415(例如，编码器单元304)中所述多个SBR参数和低频分量的编码的比特流相结合来提供可以被存储或者可以被发送的整个比特流(例如，HE-AAC比特流305)。整个比特流305还包括关于由SBR编码器414用于确定多个SBR参数的SBR编码器设置的信息。另外，在本文档中提出将从音频信号301的色度图谱313、353导出的元数据添加到整个比特流305。

相应的解码器430可以从整个比特流305产生采样率fs_out＝fs_in的未压缩音频信号。核心解码器431将SBR参数与低频分量的编码的比特流分离。此外，核心解码器431(例如，AAC解码器)对低频分量的编码的比特流进行解码，以便以解码器430的内部采样率fs提供重构的低频分量的时域信号。使用分析滤波器组432对重构的低频分量进行分析。应指出，在双率模式下，由于AAC解码器431在下采样域中工作，即，以内容采样率fs(其为音频信号301的输入采样率fs_in的一半和输出采样率fs_out的一半)工作的事实，内部采样率fs在解码器430处不同于输入采样率fs_in和输出采样率fs_out。

与在编码器410处使用的分析滤波器组413相比，分析滤波器组432(例如，具有例如32个频带的正交镜像滤波器组)典型地仅具有一半数量的频带。这是由于仅必须分析重构的低频分量、而不是整个音频信号的事实导致的。重构的低频分量的所得的多个子带信号在SBR解码器433中与所接收的SBR参数结合使用来产生重构的高频分量的多个子带信号。随后，使用合成滤波器组434(例如，例如64个频带的正交镜像滤波器组)来提供时域中的重构的音频信号。典型地，合成滤波器组434的频带数量为分析滤波器组432的频带的数量的两倍。可以将重构的低频分量的多个子带信号馈送给合成滤波器组434的下半部分频带，并且可以将重构的高频分量的多个子带信号馈送给合成滤波器组434的上半部分频带。合成滤波器组434的输出处的重构的音频信号具有与信号采样速率fs_out＝fs_in相应的内部采样率2fs。

就这点而论，HE-AAC编解码器400提供用于确定SBR参数的时间-频率变换413。然而，该时间-频率变换413典型地具有非常低的频率分辨率，因此不适合于色度图谱确定。另一方面，核心编码器412(特别是AAC核心编码器)还使用具有更高频率分辨率的时间-频率变换(通常，MDCT)。

AAC核心编码器将音频信号分解成片段序列，这些片段被称为块或帧。被称为窗口的时域滤波器通过修改这些块中的数据来提供块间的平滑过渡。AAC核心编码器适于动态地在分别被称为长块和短块的两个块长度M＝1028个采样和M＝128个采样之间切换。就这点而论，AAC核心编码器适于对在音调(稳态的、和声丰富的复数谱信号)(使用长块)与激昂(瞬态信号)(使用八个短块的序列)之间摇摆的音频信号进行编码。

使用修正离散余弦变换(MDCT)来将每个采样块转换到频域中。为了避免在基于块的(也被称为基于帧的)时间频率变换的上下文中典型发生的谱泄漏的问题，MDCT使用重叠窗口，即，MDCT是所谓的重叠交叠变换的例子。这在图5中例示，图5示出了包括帧或块501的序列的音频信号301。在所示的例子中，每个块501包括音频信号301的M个采样(对于长块，M＝1024，对于短块，M＝128)。如序列502所示，不是仅将变换应用于单个块，而是重叠MDCT以重叠的方式变换两个相邻块。为了进一步平滑化顺序块之间的过渡，附加地应用长度为2M的窗口函数w[k]。因为该窗口被应用两次(在编码器处的变换中以及在解码器处的逆变换中)，因此该窗口函数w[k]应满足Princen-Bradley条件。可以将所得的MDCT变换写为：

X [k] = \sqrt{\frac{2}{M}} Σ_{l = 0}^{2 M - 1} x [l] w [k] \cos [\frac{π}{4 M} (2 l + 1 + M) (2 k + 1)], k &Element; [0, . . . ., M - 1]

这意味着从2M个信号采样x[l]确定M个频率系数X[k]。

随后，基于心理声学模型来对M个频率系数X[k]的块的序列进行量化。这些是音频译码中所使用的各种心理声学模型，比如，在下列文献中所描述的心理声学模型：标准ISO13818-7:2005、Coding ofMoving Pictures and Audio,2005、或ISO14496-3:2009、Informationtechnology–Coding of audio-visual objects–Part3:Audio,2009、或3GPP、General Audio Codec audio processing functions；Enhancedaac-Plus general audio codec；Encoder Specification AAC part,2004，这些文献通过引用并入。心理声学模型典型地考虑人耳对不同频率具有不同敏感性的事实。换句话讲，感知特定频率的音频信号所需的声压水平(SPL)作为频率的函数而变化。这在图6a中例示，在图6a中，人耳的听力曲线601的阈值被示为频率的函数。这意味着可以在考虑图6a中所示的听力曲线601的阈值的情况下来对频率系数X[k]进行量化。

另外，应指出，人耳的听力的能力受约束于掩蔽(masking)。术语掩蔽可以细分为谱掩蔽和时间掩蔽。谱掩蔽指示某一频率间隔的某一能量水平的掩蔽音调可以掩蔽该掩蔽音调的频率间隔的直接谱邻域中的其他音调。这在图6b中例示，在图6b中，可以观察到，听力的阈值602分别在中心频率0.25kHz、1kHz和4kHz周围、水平为60dB的窄带噪声的谱邻域中增大。升高的听力的阈值602被称为掩蔽阈值Thr。这意味着可以考虑图6b中所示的掩蔽阈值602来对频率系数X[k]进行量化。时间掩蔽指示前一掩蔽信号可以掩蔽后一信号(被称为后掩蔽或前向掩蔽)、和/或后一掩蔽信号可以掩蔽前一信号(被称为预掩蔽或后向掩蔽)。

举例来说，可以使用来自3GPP标准的心理声学模型。该模型通过计算相应的多个频带b的多个谱能量X_en来确定适当的心理声学掩蔽阈值。可以从MDCT频率系数X[k]通过对平方的MDCT系数进行求和来确定子带b(在本文档中也被称为频带b，在HE-AAC的上下文下也被称为尺度因子带)的多个谱能量X_en[b]，即，确定为：

X_{en} [b] = Σ_{k = k 1}^{k 2} X^{2} [k]

使用恒定的偏移模拟最糟情况，即，整个音频频率范围内的音调信号。换句话讲，心理声学模型不区分音调分量与非音调分量。假定所有信号帧都是音调，这暗示“最糟”情况。结果，不执行音调和非音调分量区分，因此该心理声学模型的计算效率高。

所使用的偏移值对应于SNR(信噪比)值，应适当地选择SNR值以保证高音频质量。对于标准AAC，定义了29dB的对数SNR值，并且将子带b中的阈值确定为：

{Thr}_{sc} [b] = \frac{X_{en} [b]}{SNR}

3GPP模型通过将子带b中的阈值Thr_sc[b]与相邻子带b-1、b+1的阈值Thr_sc[b-1]或Thr_sc[b+1]的加权版本进行比较并且选择最大值来模拟人类的听觉系统。该比较通过对于下邻域和上邻域分别使用不同的频率相关的加权系数s_h[b]和s_l[b]以便模拟不对称的掩蔽曲线602的不同斜率来进行。因此，从最低子带开始并且逼近15dB/Bark的斜率的第一滤波操作由下式给出：

Thr′_spr[b]＝max(Thr_sc[b]，s_h[b]·Thr_sc[b-1])

从最高子带开始并且逼近30dB/Bark的斜率的第二滤波操作由下式给出：

Thr_spr[b]＝max(Thr′_spr[b]，s_l[b]·Thr_spr[b+1])

为了从所计算的掩蔽阈值Thr_spr[b]获得子带b的整体阈值Thr[b]，还应考虑静音的阈值601(被称为Thr_quiet[b])。这可以通过分别选择用于每个子带b的两个掩蔽阈值中的更高值以使得两个曲线的更主导部分被考虑来进行。这意味着可以将整体掩蔽阈值确定为：

Thr′[b]＝max(Thr_spr[b]，Thr_quiet[b])

此外，为了使整体掩蔽阈值Thr‘[b]对前回声的问题更有抵抗力，可以应用下面的附加修改。当瞬态信号出现时，从一个块到另一个块在一些子带b中有可能存在突然的能量增大或下降。这样的能量跳跃可以导致掩蔽阈值Thr’[b]的突然增大，这将导致量化质量的突然降低。这可以导致编码的音频信号中的为前回声伪像的形式的可听误差。就这点而论，可以通过选择作为前一块的掩蔽阈值Thr_last[b]的函数的当前块的掩蔽阈值Thr[b]来沿着时间轴平滑化掩蔽阈值。特别地，可以将当前块的掩蔽阈值Thr[b]确定为：

Thr[b]＝max(rpmn·Thr_spr[b]，min(Thr′[b]，rpelev·Thr_last[b]))

其中，rpmn、rpelv是适当的平滑化参数。用于瞬态信号的掩蔽阈值的这个降低引起更高的SMR(信号掩蔽比)值，导致更好的量化，最终导致更少的为前回声伪像的形式的可听误差。

在量化和译码单元303中使用掩蔽阈值Thr[b]来对块501的MDCT系数进行量化。以较低的精度对位于掩蔽阈值Thr[b]以下的MDCT系数进行量化和译码，即，耗费较少的比特。如本文档中将概述的，在色度图谱计算352之前(或者在色度图谱计算352的上下文中)在感知处理356的上下文中也可使用掩蔽阈值Thr[b]。

总的说来，可以总结为：核心编码器412提供：

·音频信号301在时间-频率域中的为MDCT系数序列的形式的表示(对于长块以及对于短块)；以及

·为频率(子带)相关的掩蔽阈值Thr[b]的形式的信号相关感知模型(对于长块以及对于短块)。

该数据可以用于确定音频信号301的色度图谱353。对于长块(M＝1024个采样)，块的MDCT系数典型地具有用于确定色度矢量的足够高的频率分辨率。因为HE-AAC编码器410中的AAC核心编解码器412以采样频率的一半频率进行操作，所以与没有SBR编码的AAC的情况下相比，HE-AAC中所使用的MDCT变换-域表示对于长块具有更好的频率分辨率。举例来说，对于采样率为44.1kHz的音频信号301，用于长块的MDCT系数的频率分辨率为Δf＝10.77Hz/区间(bin)，其对于确定大多数西方流行音乐的色度矢量是足够高的。换句话讲，HE-AAC编码器的核心编码器的长块的频率分辨率足够高，从而可靠地将谱能量分配给色度矢量的不同音调类(参见图1和表1)。

另一方面，对于短块(M＝128)，频率分辨率为Δf＝86.13Hz/区间。因为基本频率(F0s)直到第6个八度，间隔都大于86.13Hz，所以短块所提供的频率分辨率典型地不足以确定色度矢量。不过，可能希望的是还能够确定短块的色度矢量，这是因为典型地与短块序列相关联的瞬态音频信号可以包括音调信息(例如，来自Xylophone或Glockenspiel或电子音乐类)。这样的音调信息对于可靠的MIR应用可能是重要的。

下面，描述用于提高短块序列的频率分辨率的各种示例方案。与将原始时域音频信号块变换到频域中的变换相比，这些示例方案降低了计算复杂度。这意味着，这些示例方案使得可以以降低的计算复杂度从短块序列确定色度矢量(与直接从时域信号进行确定相比)。

如以上所概述的，为了对瞬态音频信号进行编码，AAC编码器典型地选择八个短块的序列，而不是单个长块。就这点而论，提供八个MDCT系数块X_l[k],l＝0,…,N-1的序列，在AAC的情况下，N＝8。用于提高短块谱的频率分辨率的第一方案可以是连结长度为M_short(＝128)的N个频率系数块X_l至X_N，并且对频率系数进行交织。该短块交织方案(SIS)根据频率系数的时间索引将这些频率系数重新布置为长度为M_long＝NM_short(＝1024)的新块X_SIS。这可以根据下式来进行：

X_SIS[kN+l]＝X_l[k]，k∈[0，....，M_short-1]，l∈[0，...，N-1]

频率系数的这个交织增加了频率系数的数量，从而提高了分辨率。但是因为同一频率的、在不同时刻的N个低分辨率系数被映射到不同频率的、在同一时刻的N个高分辨率系数，所以引入了方差为±N/2个区间的误差。不过，在HE-AAC或AAC的情况下，该方法通过对长度为M_short＝128的N＝8个短块的系数进行交织来使得可以估计具有M_long＝1024个系数的谱。

用于提高N个短块的序列的频率分辨率的另一方案是基于自适应混合变换(AHT)的。AHT利用下述事实：如果时间信号保持相对恒定，则其谱将典型地将不会迅速改变。这样的谱信号的去相关将导致低频区间中的紧凑表示。用于对信号进行去相关的变换可以是逼近Karhunen-Loeve-Transform(KLT)的DCT-II(离散余弦变换)。从去相关的意义上来讲，KLT是最佳的。然而，KLT是信号相关的，因此不可能在没有高复杂度的情况下被应用。下面的AHT公式可以被看作是用于对相应的短块频率区间的频率系数进行去相关的DCT-II核和以上提及的SIS的组合，其：

X_{AHT} [kN + l] = \frac{\sqrt{2}}{N} C_{l} Σ_{m = 0}^{N - 1} X_{m} [k] \cos (\frac{(2 m + 1) lπ}{2 N})

与SIS相比，频率系数块X_AHT具有提高的频率分辨率以及降低的误差方差。同时，与音频信号采样长块的完整MDCT相比，AHT方案的计算复杂度较低。

就这点而论，可以对一帧的N＝8个短块(等同于一个长块)应用AHT，以估计高分辨率长块谱。所得的色度图谱的质量从而受益于长块谱的逼近，而不是使用短块谱序列。应指出，通常，AHT方案可以应用于任意数量的块，因为DCT-II是非重叠变换。因此，可以将AHT方案应用于短块序列的子集。这对于使AHT方案适应音频的特定条件可以是有益的。举例来说，可以通过计算谱相似性度量并且将短块序列分割为不同子集来区分短块序列中的多个不同的静态实体。然后可以用AHT对这些子集进行处理以提高这些子集的频率分辨率。

用于提高MDCT系数块X_l[k],l＝0,…,N-1的序列的频率分辨率的另一方案是使用短块序列的基本MDCT变换和长块的MDCT变换的多相描述。通过这样做，可以确定转换矩阵Y，其执行MDCT系数块X_l[k],l＝0,…,N-1的序列(即短块序列)到长块的MDCT系数块的精确变换，即：

X_PPC＝Y·[X₀，....，X_N-1]

其中，X_PPC是表示长块的MDCT系数和两个先前帧的影响的[3,MN]矩阵，Y是[MN,MN,3]转换矩阵(其中，矩阵Y的第三维表示矩阵Y的系数是3次多项式的事实，这意味着矩阵元素是az^-2+bz^-1+cz^-0所描述的等式，其中，z表示一个帧的延迟)，[X₀,…,X_N-1]是由N个短块的MDCT系数形成的[1,MN]矢量。N是形成长度为N×M的长块的短块的数量，M是短块内的采样的数量。

转换矩阵Y被从合成矩阵G和分析矩阵H确定，即，Y＝G·H，合成矩阵G用于将N个短块变换到时域中，分析矩阵H用于将长块的时域采样变换到频域中。转换矩阵Y使得可以从N个短块MDCT系数集合完美地重构长块MDCT系数。可以示出，转换矩阵Y是稀疏的，这意味着转换矩阵Y的矩阵系数的显著部分可以被设置为零，而不显著地影响转换精度。这是由于两个矩阵G和H都包括加权的DCT-IV变换系数的事实所导致的。所得的转换矩阵Y＝G·H是稀疏矩阵，因为DCT是正交变换。因此，可以在计算中忽视转换矩阵Y的许多系数，因为它们接近于零。典型地，考虑主对角线周围的q个系数的带是足够的。该方法使得从短块到长块的转换的复杂度和精度可以缩放，因为q可以选自1至M×N。可以示出，与递归实现中的O((MN)²)或O(M·N·log(M·N))的长块MDCT的复杂度相比，转换的复杂度为O(q·M·N·3)。这意味着使用多相转换矩阵Y的转换可被以比长块的MDCT的重新计算低的计算复杂度实现。

在G.Schuller、M.Gruhne和T.Friedrich的“Fast audio featureextraction from compressed audio data”,Selected Topics in SignalProcessing,IEEE Journal of,5(6):1262-1271,oct.2011中描述了关于多相转换的细节，该文献通过引用并入。

作为多相转换的结果，获得长块MDCT系数X_PPC的估计，其提供为短块MDCT系数[X₀,…,X_N-1]N倍的频率分辨率。这意味着所估计的长块MDCT系数X_PPC典型地具有足够高的用于确定色度矢量的频率分辨率。

图7a至e示出从基于长块MDCT的谱图700可以看出的包括截然不同的频率分量的音频信号的示例谱图。从图7b中所示的谱图701可以看出，通过所估计的长块MDCT系数X_PPC很好地逼近谱图700。在所示的例子中，q＝32，即仅考虑转换矩阵Y的3％的系数。这意味着长块MDCT系数X_PPC的估计可被以显著降低的计算复杂度确定。

图7c例示基于所估计的长块MDCT系数X_AHT的谱图702。可以观察到，频率分辨率低于谱图700中所示的正确的长块MDCT系数的频率分辨率。同时，可以看出，所估计的长块MDCT系数X_AHT提供比图7d的谱图703中所示的所估计的长块MDCT系数X_SIS高的频率分辨率，图7d的谱图703本身提供比图7e的谱图704所指示的短块MDCT系数[X₀,…,X_N-1]高的频率分辨率。

由以上概述的各种短块到长块转换方案提供的不同频率分辨率也反映在从长块MDCT系数的各种估计确定的色度矢量的质量中。这在图8中示出，图8示出对于若干个测试文件的平均色度相似性。色度相似性可以例如指示从长块MDCT系数获得的色度矢量与从所估计的长块MDCT系数获得的色度矢量相比的均方差。标号801指示色度相似性的基准。可以看出，基于多相转换而确定的估计具有相对高的相似性程度802。在q＝32的情况下，即，以全转换复杂度的3％执行多相转换。此外，例示了用自适应混合变换实现的相似性程度803、用短块交织方案实现的相似性程度804以及基于短块实现的相似性程度805。

就这点而论，描述了使得可以基于由基于SBR的核心编码器(例如，AAC核心编码器)提供的MDCT系数来确定色度图谱的方法。概述了可以如何通过逼近相应的长块MDCT系数来提高短块MDCT系数序列的分辨率。与从时域重新计算长块MDCT系数相比，可以以降低的计算复杂度确定长块MDCT系数。就这点而论，可以也以降低的计算复杂度确定瞬态音频信号的色度矢量。

下面，描述用于从感知上增强色度图谱的方法。具体地，描述使用由音频编码器提供的感知模型的方法。

如以上已经概述的，感知和无损音频编码器中的心理声学模型的目的典型地是如何根据给定的比特率对谱的细微的某些部分进行量化。换句话讲，编码器的心理声学模型提供了对于每一个频带b的感知相关性的等级。在感知相关部分主要包括和声内容的前提下，掩蔽阈值的应用应提高色度图谱的质量。多音信号的色度图谱应是特别有益的，因为音频信号的噪声部分被忽视或至少衰减。

已经概述了如何对于频带b确定逐帧(即，逐块)掩蔽阈值Thr[b]。编码器通过将用于每一个频率系数X[k]的掩蔽阈值Thr[b]与音频信号在频带b中的能量X_en[b](在HE-AAC的情况下，其也被称为尺度因子带)进行比较来使用该掩蔽阈值，能量X_en[b]包括频率索引k。每当能量值X_en[b]降至低于掩蔽值时，就忽视X[k]，即，典型地，相对于和弦识别应用内基于根据本文档中所描述的方法而确定的色度图谱的逐带比较而言，频率系数(即，能量值)X[k]与相应频带b的掩蔽阈值Thr[b]的逐系数比较仅提供较小的质量益处。另一方面，逐系数比较将导致计算复杂度提高。就这点而论，使用每一频带b的平均能量值X_en[b]的逐块比较可以是优选的。

典型地，频带b的包括和声贡献者的能量(也被称为尺度因子带能量)应高于感知掩蔽阈值Thr[b]。另一方面，频带b的主要包括噪声的能量应小于掩蔽阈值Thr[b]。就这点而论，编码器提供了频率系数X[k]的感知激励的降噪版本，其可以用于确定给定帧的色度矢量(以及帧序列的色度图谱)。

可替代地，可以从音频编码器处可得到的数据确定修正的掩蔽阈值。在特定块(或帧)的尺度因子带能量分布X_en[b]给定的情况下，可以通过对于所有尺度因子带b使用恒定的SMR(信号掩蔽比)来确定修正的掩蔽阈值Thr_constSMR，即，Thr_constSMR＝X_en[b]-SMR。该修正的掩蔽阈值可被以低计算成本确定，因为它仅需要减法运算。此外，修正的掩蔽阈值严格地遵循谱的能量，以使得可以通过调整编码器的SMR值来容易地调整被忽视的谱数据的量。

应指出，音调的SMR可以取决于音调振幅和音调频率。就这点而论，作为以上提及的恒定的SMR的替代，可以基于尺度因子带能量X_en[b]和/或带索引b来调整/修正SMR。

此外，应指出，可以直接从音频编码器接收特定块(帧)的尺度因子带能量分布X_en[b]。音频编码器典型地在(心理声学)量化的上下文中确定该尺度因子带能量分布X_en[b]。用于确定帧的色度矢量的方法可以从音频编码器接收已经计算的尺度因子带能量分布X_en[b](而不是计算能量值)，以便确定以上提及的掩蔽阈值，从而降低色度矢量确定的计算复杂度。

可以通过设置来应用修正的掩蔽阈值。如果假定每一个尺度因子带b仅存在一个和声贡献者，则该带b中的能量X_en[b]和能量谱的系数X[k]应具有相似的值。因此，X_en[b]降低恒定的SMR值应得到将仅捕获谱的和声部分的修正的掩蔽阈值。应将谱的非和声部分设置为零。帧的色度矢量(以及帧序列的色度图谱)可以从修正的(即，经过感知处理的)频率系数被确定。

图9例示用于从音频信号的块序列确定色度矢量序列的示例方法900的流程图。在步骤901中，接收频率系数(例如，MDCT系数)块。该频率系数块被从已经从音频信号的相应采样块导出频率系数块的音频编码器接收。特别地，频率系数块可能已经由基于SBR的音频编码器的核心编码器从音频信号的(下采样的)低频分量导出。如果频率系数块对应于短块序列，则方法900执行本文档中所概述的短块到长块变换方法(步骤902)(例如，SIS、AHT或PPC方案)。结果，获得对于频率系数长块的估计。可选地，如以上所概述的，方法900可以将(所估计的)频率系数块提交给心理声学的频率相关的阈值(步骤903)。随后，从所得的频率系数长块确定色度矢量(步骤904)。如果对于块序列重复该方法，则获得音频信号的色度图谱(步骤905)。

在本文档中，描述了用于以降低的计算复杂度确定色度矢量和/或色度图谱的各种方法和系统。特别地，提出了使用由音频编解码器(诸如HE-AAC编解码器)提供的音频信号的时间-频率表示。为了提供连续的色度图谱(在编码器已经希望地或不希望地切换到短块的情况下，也针对音频信号的瞬态部分，)，描述了用于提高短块时间-频率表示的频率分辨率的方法。另外，提出了使用由音频编解码器提供的心理声学模型，以便改进色度图谱的感知显著性。

应指出，本描述和附图仅例示了所提出的方法和系统的原理。因此将意识到，本领域的技术人员将能够想出尽管在本文中没有明确描述或示出、但是仍体现本发明的原理并且被包括在本发明的精神和范围内的各种布置。此外，本文中所记载的所有例子在原则上明确地意图仅用于教学的目的以帮助读者理解所提出的方法和系统的原理以及发明人推动本领域所做出贡献的构思，并且要被理解为不限于这些具体记载的例子和条件。而且，本文中记载本发明的原理、方面和实施例及其特定例子的所有陈述都意图包含其等同形式。

本文档中所描述的方法和系统可以被实现为软件、固件和/或硬件。某些组件可以例如被实现为在数字信号处理器或微处理器上运行的软件。其他组件可以例如被实现为硬件和/或专用集成电路。在所描述的方法和系统中遇到的信号可以被存储在诸如随机存取存储器或光学存储介质的介质上。它们可以经由网络传送，所述网络诸如无线电网络、卫星网络、无线网络或有线网络，例如互联网。使用本文档中所描述的方法和系统的典型装置为便携式电子装置或用于存储和/或呈现音频信号的其他消费类设备。

Claims

1.一种用于确定音频信号(301)的采样块的色度矢量(100)的方法(900)，所述方法(900)包括：

-从基于谱带复制的音频编码器(410)的核心编码器(412)接收(901)从音频信号(301)的采样块导出的相应频率系数块，所述核心编码器(412)适于从所述频率系数块产生音频信号(301)的编码的比特流(305)；和

-基于所接收的频率系数块来确定(904)音频信号(301)的采样块的色度矢量(100)。

2.根据权利要求1所述的方法(900)，其中，所述基于谱带复制的音频编码器(410)应用下列中的任何一个：高效率高级音频译码、mp3PRO和MPEG-D USAC。

3.根据前面任何一个权利要求所述的方法(900)，其中，所述频率系数块是下列中的任何一个：

-修正离散余弦变换系数块，修正离散余弦变换被称为MDCT；

-修正离散正弦变换系数块，修正离散正弦变换被称为MDST；

-离散傅立叶变换系数块，离散傅立叶变换被称为DFT；和

-修正复数重叠变换系数块，修正复数交叠变换被称为MCLT。

4.根据前面任何一个权利要求所述的方法(900)，其中，

-采样块包括N个接连的短块，N个接连的短块中的每一个分别有M个采样；

-频率系数块包括N个相应的短块，每个相应的短块分别有M个频率系数。

5.根据权利要求4所述的方法(900)，其中，所述方法还包括：

-从N个M个频率系数的短块估计(902)与所述采样块相应的频率系数长块；其中，所估计的频率系数长块与N个频率系数短块相比具有增大的频率分辨率；和

-基于所估计的频率系数长块来确定(904)音频信号(301)的采样块的色度矢量。

6.根据权利要求5所述的方法(900)，其中，估计(902)频率系数长块包括对N个频率系数短块的相应频率系数进行交织，从而得到交织的频率系数长块。

7.根据权利要求6所述的方法(900)，其中，估计(902)频率系数长块包括通过将具有能量聚集性质的变换应用于交织的频率系数长块来对N个频率系数短块的N个相应频率系数进行去相关，所述具有能量聚集性质的变换是例如DCT-II变换。

8.根据权利要求5所述的方法(900)，其中，估计(902)频率系数长块包括：

-形成N个频率系数短块的多个子集，其中，每一个子集的短块的数量基于所述音频信号而被选择；

-对于每个子集，对频率系数短块的相应频率系数进行交织，从而得到该子集的交织的频率系数中间块；和

-对于每个子集，将具有能量聚集性质的变换应用于该子集的交织的频率系数中间块，从而得到所述多个子集的多个估计的频率系数中间块，所述具有能量聚集性质的变换是例如DCT-II变换。

9.根据权利要求5所述的方法(900)，其中，估计(902)频率系数长块包括：将多相转换应用于N个M个频率系数的短块。

10.根据权利要求9所述的方法(900)，其中，

-所述多相转换基于转换矩阵，所述转换矩阵用于在数学上将N个M个频率系数的短块变换为准确的N×M个频率系数的长块；和

-所述多相转换使用所述转换矩阵的其中一部分转换矩阵系数被设置为零的逼近。

11.根据权利要求10所述的方法(900)，其中，将90％或更多的一部分的所述转换矩阵系数设置为零。

12.根据权利要求5所述的方法(900)，其中，估计(902)频率系数长块包括：

-形成N个频率系数短块的多个子集，其中，每一个子集的短块的数量L基于所述音频信号而被选择，L<N；

-将中间多相转换应用于所述多个子集，从而得到多个估计的频率系数中间块；其中，所述中间多相转换基于中间转换矩阵，所述中间转换矩阵用于在数学上将L个M个频率系数的短块变换为准确的L×M个频率系数的中间块；并且

其中，所述中间多相转换使用所述中间转换矩阵的其中一部分中间转换矩阵系数被设置为零的逼近。

13.根据权利要求10至12中的任何一个所述的方法(900)，其中，所述部分是可变的，从而改变所估计的频率系数块的质量。

14.根据权利要求4至13中的任何一个所述的方法(900)，其中，M＝128，N＝8。

15.根据权利要求5至14中的任何一个所述的方法(900)，还包括：

-从相应的多个频率系数长块估计与多个采样块相应的频率系数超长块；其中，所估计的频率系数超长块与所述多个频率系数长块相比具有增大的频率分辨率。

16.根据前面任何一个权利要求所述的方法(900)，其中，确定色度矢量(100)包括将频率相关心理声学处理应用(903)于从所接收的频率系数块导出的第二频率系数块。

17.根据引用权利要求5至7和9至11中的任何一个的权利要求16所述的方法(900)，其中，所述第二频率系数块是所估计的频率系数长块。

18.根据引用权利要求1至4中的任何一个的权利要求16所述的方法(900)，其中，所述第二频率系数块是所接收的频率系数块。

19.根据引用权利要求8和12中的任何一个的权利要求16所述的方法(900)，其中，所述第二频率系数块是所述多个估计的频率系数中间块之一。

20.根据参照权利要求15的权利要求16所述的方法(900)，其中，所述第二频率系数块是所估计的频率系数超长块。

21.根据权利要求16至20中的任何一个所述的方法(900)，其中，应用(903)频率相关心理声学处理包括：

-将从所述第二频率系数块的至少一个频率系数导出的值与频率相关能量阈值进行比较；和

-如果该频率系数低于该能量阈值，则将该频率系数设置为零。

22.根据权利要求21所述的方法(900)，其中，从所述至少一个频率系数导出的值对应于从相应的多个频率的多个频率系数导出的平均能量。

23.根据权利要求21至22中的任何一个所述的方法(900)，其中，所述能量阈值从核心编码器(412)所应用的心理声学模型被导出。

24.根据权利要求23所述的方法(900)，其中，所述能量阈值从核心编码器用于对所述频率系数块进行量化的频率相关掩蔽阈值被导出。

25.根据权利要求16至24中的任何一个所述的方法(900)，其中，确定色度矢量(100)包括：

-将第二块的频率系数中的一些或全部分类为色度矢量(100)的音调类；和

-基于所分类的频率系数来确定色度矢量(100)的音调类的累积能量。

26.根据权利要求25所述的方法(900)，其中，使用与色度矢量(100)的音调类相关联的带通滤波器(200)对频率系数进行分类。

27.根据前面任何一个权利要求所述的方法(900)，还包括：

-从音频信号(301)的采样块序列确定色度矢量(100)序列，从而得到音频信号(301)的色度图谱。

28.一种适于对音频信号(301)进行编码的音频编码器(350,410)，所述音频编码器(350,410)包括：

-核心编码器(302,412)，所述核心编码器(302,412)适于对音频信号(301)的经下采样的低频分量进行编码，其中，所述核心编码器(412)适于通过将采样块变换到频域中来对低频分量的采样块进行编码，从而得到相应的频率系数块；和

-色度确定单元(352,356)，所述色度确定单元(352,356)适于基于所述频率系数块来确定音频信号(301)的低频分量的采样块的色度矢量(100)。

29.根据权利要求28所述的编码器(350,410)，还包括谱带复制编码器(414)，所述谱带复制编码器(414)适于对音频信号(301)的相应的高频分量进行编码。

30.根据权利要求29所述的编码器(350,410)，还包括：

-复用器(354,415)，所述复用器(354,415)适于从由核心编码器(302,412)和谱带复制编码器(414)提供的数据产生编码的比特流(355)，其中，所述复用器(354,415)适于将从色度矢量(100)导出的信息作为元数据添加到编码的比特流(355)。

31.根据权利要求30所述的编码器(350,410)，其中，以下列格式中的任何一种格式对编码的比特流(355)进行编码：MP4格式、3GP格式、3G2格式、LATM格式。

32.一种适于对音频信号(301)进行解码的音频解码器(430)，所述音频解码器(430)包括：

-解复用和解码单元(431)，所述解复用和解码单元(431)适于接收编码的比特流，并且适于从所述编码的比特流提取频率系数块；其中，所述频率系数块与音频信号(301)的经下采样的低频分量的相应采样块相关联；和

-色度确定单元(352,356)，所述色度确定单元(352,356)适于基于所述频率系数块来确定音频信号(301)的采样块的色度矢量(100)。

33.一种软件程序，所述软件程序适于在处理器上执行，并且适于当在所述处理器上执行时执行权利要求1至27中的任何一个所述的方法步骤。

34.一种存储介质，所述存储介质包括软件程序，所述软件程序适于在处理器上执行，并且适于当在计算装置上执行时执行权利要求1至27中的任何一个所述的方法步骤。

35.一种计算机程序，所述计算机程序包括用于当在计算机上执行时执行权利要求1至27中的任何一个所述的方法步骤的可执行指令。