CN104541327B

CN104541327B - 用于高频音频内容的有效恢复的方法及系统

Info

Publication number: CN104541327B
Application number: CN201380010593.3A
Authority: CN
Inventors: 罗宾·特辛; 米夏埃尔·舒格
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2012-02-23
Filing date: 2013-02-22
Publication date: 2018-01-12
Anticipated expiration: 2033-02-22
Also published as: ES2568640T3; KR20140116520A; KR101679209B1; US9984695B2; RU2601188C2; US20150003632A1; WO2013124445A3; US20170221491A1; WO2013124445A2; CN107993673A; EP3029672B1; US9666200B2; KR101816506B1; EP3288033A1; EP3029672A2; JP2015508186A; BR112014020562B1; JP2016173597A; CN107993673B; EP3288033B1

Abstract

本文档涉及音频编码、解码和处理的技术领域。其具体涉及用于以有效方式从音频信号的低频分量恢复同一音频信号的高频分量的方法。描述了一种用于确定音频信号的第一频率子带(205)的第一分频带音调值(311，312)的方法。第一分频带音调值(311，312)用于基于音频信号的低频分量来近似音频信号的高频分量。该方法包括：基于音频信号的样本块来确定一组频率窗口的相应的一组变换系数；分别使用该组变换系数确定该组频率窗口的一组窗口音调值(341)；以及组成位于第一频率子带内的一组频率窗口中的两个或更多个邻近频率窗口的一组窗口音调值(341)中的相应的两个或更多个窗口音调值的第一子集，从而产生第一频率子带的第一分频带音调值(311，312)。

Description

用于高频音频内容的有效恢复的方法及系统

相关申请的交叉引用

本申请要求2012年2月23日提交的欧洲专利申请No.12156631.9以及2012年8月8日提交的美国临时专利申请No.61/680,805的优先权，在此通过引用以其全部内容合并在本文中。

技术领域

本文档涉及音频编码、解码和处理的技术领域。具体地，其涉及以有效方式从音频信号的低频分量恢复同一音频信号的高频分量的方法。

背景技术

音频信号的有效编码和解码通常包括基于心理声学原理减小要编码、传输和/或解码的与音频有关的数据的量。例如，这包括丢弃存在于音频信号中但听者感知不到的所谓的掩蔽的音频内容。可替代地或另外，当仅保持分别计算关于其较高频率内容的某些信息而不实际直接对这样的较高频率内容进行编码时，要编码的音频信号的带宽可能是有限的。然后，带限信号与所述较高频率信息一起被编码和传输(或被存储)，后者所要求的资源少于也对较高频率内容直接编码。

HE-AAC(高频-高级音频编码)中的谱带复制(SBR)和杜比数字+ 中的谱扩展(SPX)是关于基于音频信号的低频分量以及基于附加的边带信息(也称为较高频率信息)来近似或重建音频信号的高频分量的音频编码系统的两个示例。在下文中，参照杜比数字+的SPX方案。然而，应当注意的是，本文档中所描述的方法和系统通常可应用于高频重建技术，包括HE-AAC中的SBR。

基于SPX的音频编码器中的边带信息的确定通常受制于显著的计算复杂度。例如，边带信息的确定可能需要音频编码器的总计算资源的大约 50％。本文档描述了使得能够降低基于SPX的音频编码器的计算复杂度的方法和系统。具体地，本文档描述了使得能够在基于SPX的音频编码器的背景下降低用于执行音调计算的计算复杂度的方法和系统(其中，音调计算会占用于确定边带信息的计算复杂度的大约80％)。

US2010/0094638A1描述了一种用于确定用于带宽扩展的自适应噪声水平的装置和方法。

发明内容

根据一方面，描述了一种用于确定音频信号的第一频率子带的第一分频带音调值的方法。音频信号可以是多通道音频信号(例如，立体声、5.1 或7.1多通道信号)的通道的音频信号。音频信号可以具有从低信号频率到高信号频率范围的带宽。带宽可以包括低频带和高频带。第一频率子带可以位于低频带内或高频带内。第一分频带音调值可以指示位于第一频率带内的音频信号的音调。如果频率子带包括相对高程度的稳定正弦内容，则可以认为音频信号在频率子带内具有相对高音调。另一方面，如果频率子带包括相对高程度的噪声，则可以认为音频信号在该频率子带内具有低音调。第一分频带音调值可以取决于第一频率子带内的音频信号的相位变化。

用于确定第一分频带音调值的方法可以用在音频信号的编码器的背景下。编码器可以利用高频重建技术如谱带复制(SBR)(例如在高效-高级音频编码器HE-AAC的背景下所使用的)或谱扩展(SPX)(例如在杜比数字+编码器的背景下所使用的)。第一分频带音调值可以用于基于音频信号的低频分量(在低频带中)来近似音频信号的高频分量(在高频带中)。具体地，第一分频带音调值可以用于确定边带信息，该边带信息可以由相应的音频解码器用于基于所接收的(解码的)音频信号的低频分量来重建音频信号的高频分量。边带信息例如可以指定为了近似高频分量的频率子带而要添加至低频分量的转换的频率子带的噪声量。

该方法可以包括基于音频信号的样本块来确定相应的频率区间 (frequencybin)集合的变换系数集合。音频信号的样本序列可以被分组成帧序列，每个帧包括预定数量的样本。帧序列中的一个帧可以被细分成一个或更多个样本块。帧的邻近块可以重叠(例如，高至50％)。可以使用时域到频域变换如修正离散余弦变换(MDCT)和/或修正离散正弦变换(MDST)将样本块从时域变换到频域，从而产生变换系数集合。通过对样本块应用MDST和MDCT，可以提供复变换系数集合。通常，变换系数的数量N(以及频率区间的数量N)对应于块内的样本的数量N(例如，N＝128或N＝256)。第一频率子带可以包括多个N频率区间。换句话说，N个频率区间(具有相对高的频率分辨率)可以被分组成一个或更多个频率子带(具有相对较低的频率分辨率)，因此，可以提供减小的数量的频率子带(通常，这相对于编码音频信号的减小的数据速率是有利的)，其中，频率子带彼此之间具有相对高频率选择性(由于如下事实：通过对多个高分辨率频率区间进行分组获得频率子带)。

该方法还可以包括使用变换系数集合分别确定频率区间集合的区间音调值集合。通常对于各个频率区间确定(使用各个频率区间的变换系数) 区间音调值。因此，区间音调值指示各个频率区间内的音频信号的音调。例如，区间音调值取决于相应各个频率区间内的变换系数的相位变化。

该方法还可以包括对位于第一频率子带内的频率区间集合中的两个或更多个相应的邻近频率区间的区间音调值集合中的两个或更多个音调值的第一子集进行组合，从而产生第一频率子带的第一分频带音调值。换句话说，可以通过对位于第一频率子带内的两个或更多个频率区间的两个或更多个频率音调值进行组合来确定第一分频带音调值。区间音调值集合中的两个或更多个区间音调值的第一子集的组合可以包括对两个或更多个区间音调值进行平均和/或对两个或更多个区间音调值进行求和。例如，可以基于位于第一频率子带内的频率区间的区间音调值的和来确定第一分频带音调值。

因此，用于确定第一分频带音调值的方法指定：基于位于第一频率子带内的频率区间的区间音调值来确定位于第一频率子带(包括多个频率区间)的第一分频带音调值。换句话说，提出了以两步确定第一分频带音调值，其中第一步骤提供区间音调值集合，并且其中第二步骤对区间音调值集合(中的至少一些)进行组合以得到第一分频带音调值。由于这样的两步法，可以基于同一区间音调值集合来确定(针对不同子带结构的)不同的分频带音调值，从而降低利用不同的分频带音调值的音频编码器的计算复杂度。

在一种实施方式中，该方法还包括通过对位于第二频率子带内的频率区间集合中的两个或更多个相应的邻近频率区间的区间音调值集合中的两个或更多个区间音调值的第二子集进行组合来确定第二频率子带中的第二分频带音调值。第一频率子带和第二频率子带可以包括至少一个共同的频率区间，并且第一子集和第二子集可以包括相应的至少一个共同的区间音调值。换句话说，可以基于至少一个共同的区间音调值来确定第一分频带音调值和第二分频带音调值，从而使得能够降低与分频带音调值的确定有关的计算复杂度。例如，第一频率子带和第二频率子带可以位于音频信号的高频带内。第一频率子带可以比第二频率子带窄，并且可以位于第二频率子带内。第一音调值可以用在基于SPX的编码器的大方差衰减的背景下，第二音调值可以用在基于SPX的编码器的噪声混合的背景下。

如上面所指出的，在利用高频重建(HFR)技术的音频编码器的背景下，通常使用本文所描述的方法。这种HFR技术通常将音频信号的低频带中的一个或更多个频率区间转换成高频带中的一个或更多个频率区间，以近似音频信号的高频分量。因此，基于音频信号的低频分量近似音频信号的高频分量可以包括：将与低频分量对应的低频带中的一个或更多个频率区间的一个或更多个低频变换系数复制到与音频信号的高频分量对应的高频带。当确定分频带音调值时，可以考虑该预定复制处理。具体地，可以考虑区间音调值通常不受复制过程影响，从而使得针对低频带内的频率区间确定的区间音调值能够用于高频带内的相应副本的频率区间。

在一种实施方式中，第一频率子带位于低频带内，第二频率子带位于高频带内。该方法还可以包括通过组合被复制到第二频率子带的频率区间中的两个或更多个相应频率区间的区间音调值集合中的两个或更多个区间音调值的第二子集，来确定第二频率子带中的第二分频带音调值。换句话说，可以基于被复制到高频带的频率区间的区间音调值来确定第二分频带音调值(针对位于高频带内的第二频率子带)。第二频率子带可以包括从位于第一频带内的频率区间复制的至少一个频率区间。因此，第一子集和第二子集可以包括相应的至少一个共同的区间音调值，从而降低与确定分频带音调值有关的计算复杂度。

如上面所指出的，音频信号通常被分组成块序列(例如，每个块包括 N个样本)。该方法可以包括基于音频信号的相应的块序列来确定变换系数集合序列。因此，对于每个频率区间，可以确定变换系数序列。换句话说，对于特定频率区间，变换系数集合序列可以包括特定变换系数的序列。特定变换系数的序列可以用于确定音频信号的块序列的特定频率区间的区间音调值的序列。

确定特定频率区间的区间音调值可以包括：基于特定变换系数序列确定相位序列，以及基于相位序列确定相位加速度。特定频率区间的区间音调值通常是相位加速度的函数。例如，可以基于当前相位加速度确定音频信号的当前块的区间音调值。可以基于当前相位(基于当前块的变换系数确定)以及基于两个或更多个先前相位(基于两个或更多个先前块的两个或更多个变换系数确定)来确定当前相位加速度。如上面所指出的，特定频率区间的区间音调值通常基于同一特定频率区间的变换系数确定。换句话说，频率区间的区间音调值通常与其他频率区间的区间音调值无关。

如上面已经概述的，第一分频带音调值可以用于使用谱扩展(SPX) 方案基于音频信号的低频分量来近似音频信号的高频分量。第一分频带音调值可以用于确定SPX坐标重发策略、噪声混合因子和/或大方差衰减。

根据另一方面，描述了用于确定噪声混合因子的方法。应当注意的是，本文档中所描述的不同方面和方法可以以任意方式相互组合。噪声混合因子可以用于基于音频信号的低频分量来近似音频信号的高频分量。如上面所概述的，高频分量通常包括高频带中的音频信号分量。高频带可以被细分成一个或更多个高频子带(例如，上述第一和/或第二频率子带)。位于高频子带内的音频信号的分量可以被称为高频子带信号。以类似的方式，低频分量通常包括低频带中的音频信号分量，并且低频带可以被细分成一个或更多个低频子带(例如，上述第一和/或第二频率子带)。低频子带内的音频信号分量可以被称为低频子带信号。换句话说，高频分量可以包括高频带中的一个或更多个(原始的)高频子带信号，低频分量可以包括低频带中的一个或更多个低频子带信号。

如上面所概述的，近似高频分量可以包括：将一个或更多个低频子带信号复制到高频带，从而产生一个或更多个近似的高频子带信号。噪声混合因子可以用于指示为了将近似的高频子带信号的音调与音频信号的原始高频子带信号的音调对准而要添加到一个或更多个近似的高频子带信号的噪声量。换句话说，噪声混合因子可以指示为了近似音频信号的(原始的)高频分量而要添加到一个或更多个近似的高频子带信号的噪声量。

该方法可以包括基于一个或更多个(原始的)高频子带信号来确定目标分频带音调值。此外，该方法可以包括基于一个或更多个近似的高频子带信号来确定源音调值。音调值可以指示相应的子带信号的相位的演变。此外，可以如本文档中所描述地确定音调值。具体地，可以基于本文档中所概述的两步法来确定分频带音调值，即，可以基于区间音调值集合来确定分频带音调值。

该方法还可以包括基于目标分频带音调值和源分频带音调值来确定噪声混合因子。具体地，如果要近似的高频分量的带宽小于用于近似高频分量的低频分量的带宽，则该方法可以包括基于源分频带音调值来确定噪声混合因子。因此，与基于从音频信号的低频分量得到的分频带音调值来确定噪声混合因子的方法相比，可以降低用于确定噪声混合因子的计算复杂度。

在一种实施方式中，低频带包括起始带(例如，在基于SPX的编码器的情况下由spxstart参数指示)，该起始带指示能够用于复制的低频子带中具有最低频率的低频子带。此外，高频带可以包括开始带(例如，在基于SPX的编码器的情况下由spxbegin参数指示)，该开始带指示要近似的高频子带中具有最低频率的高频子带。另外，高频带可以包括结束带(例如，在基于SPX的编码器的情况下由spxend参数指示)，该结束带指示要近似的高频子带中具有最高频率的高频子带。

该方法可以包括确定起始带(例如，spxstart参数)与开始带(例如， spxbegin参数)之间的第一带宽。此外，该方法可以包括确定开始带(例如，spxbegin参数)与结束带(例如，spxend参数)之间的第二带宽。如果第一带宽大于第二带宽，则该方法可以包括基于目标分频带音调值和源分频带音调值来确定噪声混合因子。具体地，如果第一带宽大于或等于第二带宽，则可以基于位于起始带与起始带加第二带宽之间的低频子带的一个或更多个低频子带信号来确定源分频带音调值。通常，后面的低频子带信号是被复制到高频带的低频子带信号。因此，在第一带宽大于或等于第二带宽的情形下，可以降低计算复杂度。

另一方面，如果第一带宽小于第二带宽，则该方法可以包括：基于起始带与开始带之间的低频子带的一个或更多个低频子带信号来确定低分频带音调值，以及基于目标分频带音调值和低分频带音调值来确定噪声混合因子。通过将第一带宽与第二带宽进行比较，可以确保对于最小数量的子带(与第一带宽和第二带宽无关)确定噪声混合因子(以及分频带音调值)，从而降低计算复杂度。

可以基于目标分频带音调值与源分频带音调值(或目标分频带音调值与低分频带音调值)的方差来确定噪声混合因子。具体地，噪声混合因子 b可以被确定为：

b＝T_copy·(1-var{T_copy，T_high})+T_high·(var{T_copy，T_high})，

其中，是源音调值T_copy(或低音调值)与目标音调值T_high的方差。

如上面所指出的，可以使用本文档中所描述的两步法来确定(源、目标或低)分频带音调值。具体地，可以通过基于音频信号的样本块确定相应的频率区间集合中的变换系数集合来确定频率子带的分频带音调值。随后，使用变换系数集合分别确定频率区间集合的区间音调值集合。然后，可以通过组合位于频率子带内的频率区间集合中的两个或更多个相应的邻近频率区间的区间音调值集合中的两个或更多个区间音调值的第一子集，来确定该频率子带的分频带音调值。

根据又一方面，描述了用于确定音频信号的第一频率区间的第一区间音调值的方法。可以根据本文档中所描述的原理来确定第一区间音调值。具体地，可以基于第一频率区间的变换系数的相位变化来确定第一区间音调值。此外，如本文档中还概述的，第一区间音调值可以用于基于音频信号的低频分量来近似音频信号的高频分量。因此，用于确定第一区间音调值的方法可以用在使用HFR技术的音频编码器的背景下。

该方法可以包括提供音频信号的相应的样本块序列的第一频率区间的变换系数序列。可以通过对样本块序列应用时域到频域变换来确定变换系数序列(如上所述)。此外，该方法可以包括基于变换系数序列来确定相位序列。变换系数可以是复数，并且可以基于被应用于复数变换系数的实部和虚部的反正切函数来确定变换系数的相位。此外，该方法可以包括基于相位序列确定相位加速度。例如，可以基于当前相位以及基于两个或更多个先前相位来确定当前样本块的当前变换系数的当前相位加速度。另外，该方法可以包括基于变换系数序列中的当前变换系数来确定区间功率。当前变换系数的功率可以基于当前变换系数的幅度平方。

该方法还可以包括使用对数近似来近似加权因子，该加权因子指示随后的变换系数的功率比的四次方根。然后，该方法前进至由近似的加权因子和/或由当前变换系数的功率来加权相位加速度以得到第一区间音调值。由于使用对数近似来近似加权因子，所以可以实现正确的加权因子的高质量近似，同时与涉及随后的变换系数的功率比的四次方根的确定的精确加权因子的确定相比显著降低计算复杂度。对数近似可以包括通过线性函数和/或通过多项式(例如，1、2、3、4或5阶)来近似对数函数。

变换系数的序列可以包括(针对当前样本块的)当前变换系数和(针对前一个样本块的)前一个变换系数。加权因子可以指示当前变换系数与前一个变换系数的功率比的四次方根。此外，如上面所指出的，变换系数可以是包括实部和虚部的复数。可以基于当前(先前)变换系数的实部平方和虚拟平方来确定当前(先前)变换系数的功率。另外，可以基于当前 (先前)变换系数的虚部和实部的反正切函数来确定当前(先前)相位。可以基于当前变换系数的相位以及基于两个或更多个紧邻在前的变换系数的相位来确定当前相位加速度。

近似加权因子可以包括提供表示随后的变换系数序列中的当前变换系数的当前尾数和当前指数。此外，近似加权因子可以包括基于当前尾数和当前指数来确定预定的查找表的索引值。查找表通常提供多个索引值与多个索引值的相应的多个指数值之间的关系。因此，查找表可以提供用于近似指数函数的有效方法。在一种实施方式中，查找表包括64个或更少个条目(例如，索引值和指数值的对)。可以使用索引值和查找表来确定近似的加权因子。

具体地，该方法可以包括基于尾数和指数来确定实值索引值。然后，可以通过对实值索引值进行截取和/或四舍五入来确定(整数值)索引值。由于系统的截取或四舍五入运算，可以对近似引入系统偏移。这样的系统偏移对于使用本文档中所描述的用于确定区间音调值的方法编码的音频信号的感知质量是有利的。

近似加权因子还可以包括提供表示当前变换系数之前的变换系数的先前尾数和先前指数。然后，基于被应用于当前尾数、先前尾数、当前指数和先前指数的一个或更多个加和/或减运算来确定索引值。具体地，通过对(e_y-e_z+2·m_y-2·m_z)进行模运算来确定索引值，其中e_y为当前尾数， e_z为先前尾数，m_y为当前指数，m_z为先前指数。

如上面所指出的，本文档中所描述的方法可应用于多通道音频信号。具体地，该方法可应用于多通道音频信号的通道。多通道音频信号的音频编码器通常应用被称为通道耦合(简称耦合)的编码技术，以对多通道音频信号的多个通道进行共同编码。鉴于此，根据一个方面，描述了用于确定多通道音频信号的多个耦合通道的多个音调值的方法。

该方法可以包括确定多个耦合通道中的第一通道的相应样本块序列的第一变换系数序列。或者，可以基于从多个耦合通道得到的耦合通道的样本块序列来确定第一变换系数序列。该方法可以进行至确定第一通道 (或耦合通道)的第一音调值。为此，该方法可以包括：基于第一变换系数的序列来确定第一相位序列，以及基于第一相位的序列来确定第一相位加速度。然后，可以基于第一相位加速度来确定第一通道(或耦合通道) 的第一音调值。此外，可以基于第一相位加速度来确定多个耦合通道中的第二通道的音调值。因此，可以基于根据耦合通道中的仅单个通道确定的相位加速度来确定多个耦合通道的音调值，从而降低与音调的确定有关的计算复杂度。由于观察使得可以由于耦合而使多个耦合通道的相位对准。

根据另一方面，描述了用于确定基于谱扩展(SPX)的编码器中的多通道音频信号的第一通道的分频带音调值的方法。基于SPX的编码器可以被配置成根据第一通道的低频分量来近似第一通道的高频分量。为此，基于SPX的编码器可以利用分频带音调值。具体地，基于SPX的编码器可以将分频带音调值用于确定指示要添加到近似的高频分量的噪声量的噪声混合因子。因此，分频带音调值可以指示噪声混合之前近似高频分量的音调。可以由基于SPX的编码器将第一通道与多通道音频信号的一个或更多个其他通道耦合。

该方法可以包括基于耦合前的第一通道提供多个变换系数。此外，该方法可以包括基于多个变换系数来确定分频带音调值。因此，可以基于原始的第一通道的多个变换系数而不基于耦合的/去耦合的第一通道来确定噪声混合因子。由于这使得能够降低与基于SPX的音频编码器中的音调的确定有关的计算复杂度，所以这是有利的。

如上所述，基于耦合前的第一通道(即，基于原始的耦合通道)确定的多个变换系数可以用于确定区间音调值和/或分频带音调值，区间音调值和/或分频带音调值用于确定基于SPX的编码器的SPX坐标重发策略和 /或用于确定大方差衰减(LVA)。通过使用用于基于原始的第一通道(而不是基于耦合的/去耦合的第一通道)来确定第一通道的噪声混合因子的上述方法，可以重新使用针对SPX坐标重发策略和/或大方差衰减(LVA) 确定的区间音调值，从而降低基于SPX的编码器的计算复杂度。

根据另一方面，描述了被配置成确定音频信号的第一频率子带的第一分频带音调值的系统。第一分频带音调值可以用于基于音频信号的低频分量来近似音信号的高频分量。该系统可以被配置成基于音频信号的样本块来确定相应的频率区间集合中的变换系数集合。此外，该系统可以被配置成使用变换系数集合分别确定频率区间集合的区间音调值集合。另外，该系统可以被配置成组合位于第一频率子带内的频率区间集合中的两个或更多个相应的邻近频率区间的区间音调值集合中的两个或更多个区间音调值的第一子集，从而产生第一频率子带的第一分频带音调值。

根据另一方面，描述了被配置成确定噪声混合因子的系统。噪声混合因子可以用于基于音频信号的低频分量来近似音频信号的高频分量。高频分量通常包括高频带中的一个或更多个高频子带信号，低频分量通常包括低频带中的一个或更多个低频子带信号。近似高频分量可以包括将一个或更多个低频子带信号复制到高频带，从而产生一个或更多个近似的高频子带信号。该系统可以被配置成基于一个或更多个高频子带信号来确定目标分频带音调值。此外，该系统可以被配置成基于一个或更多个近似的高频子带信号来确定源分频带音调值。另外，该系统可以被配置成基于目标分频带音调值(322)和源分频带音调值(323)来确定噪声混合因子。

根据又一方面，描述了被配置成确定音频信号的第一频率区间的第一区间音调值的系统。第一分频带音调值可以用于基于音频信号的低频分量来近似音频信号的高频分量。该系统可以被配置成提供音频信号的相应样本块序列的第一频率区间中的变换系数序列。此外，该系统可以被配置成：基于变换系数序列来确定相位序列，以及基于相位序列来确定相位加速度。另外，该系统可以被配置成使用对数近似来近似指示随后的变换系数的功率比的四次方根的加权因子，并且由近似的加权因子来加权相位加速度以得到第一区间音调值。

根据另一方面，描述了被配置成使用高频重建对音频信号进行编码的音频编码器(例如，基于HFR的音频编码器，具体地，基于SPX的音频编码器)。音频编码器可以包括本文档中所描述的系统中的任意一个或多个系统。可替代地或另外，音频编码器可以被配置成执行本文档中所描述的方法中的任意一种或更多种方法。

根据又一方面，描述了一种软件程序。该软件程序可以适于在处理器上执行并且当在处理器上执行时用于执行本文档中所概述的方法步骤。

根据另一方面，描述了一种存储介质。存储介质可以包括适于在处理器上执行并且当在处理器上执行时用于执行本文档中所概述的方法步骤的软件程序。

根据又一方面，描述了一种计算机程序产品。该计算机程序可以包括当在处理器上执行时用于执行本文档中所概述的方法步骤的可执行指令。

应当注意的是，本专利申请中所概述的方法和系统包括其优选实施方式可以单独使用或与本文档中所公开的其他方法和系统组合使用。此外，本专利申请中所概述的方法和系统的所有方面可以被任意组合。具体地，权利要求的特征可以以任意方式相互组合。

附图说明

下面将参照附图以示例性方式说明本发明。

图1a、图1b、图1c和图1d示出了示例SPX方案；

图2a、图2b、图2c和图2d示出了音调在基于SPX的编码器的各级处的使用；

图3a、图3b、图3c和图3d示出了用于减少与音调值的计算有关的计算工作量的示例方案；

图4示出了将基于原始音频信号的音调确定与基于去耦合音频信号的音调确定进行比较的收听测试的示例结果；

图5a示出了将用于确定用于计算音调值的加权因子的各种方案进行比较的收听测试的示例结果；以及

图5b示出了用于计算音调值的加权因子的示例近似度。

具体实施方式

图1a、图1b、图1c和图1d示出了由基于SPX的音频编码器执行的示例步骤。图1a示出了示例音频信号的频谱100，其中频谱100包括基带101(也称为低频带101)和高频带102。在示出的示例中，高频带102 包括多个子带，即，SE带1至SE带5(SE，谱扩展)。基带101包括上至基带截止频率103的较低频率，高频带102包括从基带截止频率103上至音频带宽频率104的高频率。基带101对应于音频信号的低频分量的谱，高频带102对应于音频信号的高频分量的谱。换句话说，音频信号的低频分量包括基带101内的频率，其中音频信号的高频分量包括高频带102 内的频率。

为了根据时域音频信号确定谱100，音频编码器通常利用时域到频域变换(例如，修正离散余弦变换MDCT和/或修正离散正弦变换MDST)。时域音频信号可以被细分成音频帧序列，其包括音频信号的相应的样本序列。每个音频帧可以被细分成多个块(例如，多至六块)，每个块包括音频信号的例如N个或2N个样本。帧的多个块可以重叠(例如，重叠50％)，即，第二块可以在其开始处包括一定数量的样本，这些样本与紧邻在前的第一块的结束处的样本相同。例如，2N个样本的第二块可以包括N个样本的核心部分以及N/2个样本的后面/前面部分，后面/前面部分分别与紧邻在前的第一块和紧邻在后的第三块的核心部分重叠。时域音频信号的N (或2N)个样本的块的时域到频率变换通常为相应的频率区间集合(例如，N＝256)提供一组N个变换系数(TC)。例如，具有N个样本的核心部分和N/2个样本的重叠的后面/前面部分的2N样本的块的时域到频域变换(例如，MDCT或MDST)可以提供N个TC的集合。这样，50％的重叠平均可以产生时域样本与TC的1:1关系，由此得到临界采样系统。可以通过对M(例如，M＝12)个频率区间进行分组以形成子带来获得图 1a中所示的高频带102的子带。换句话说，高频带102的子带可以包括或包含M个频率区间。可以基于形成子带的M个频率区间的TC来确定子带的谱能量。例如，可以基于形成子带的M个频率区间的TC的幅度平方的和(例如，基于形成子带的M个频率区间的TC的幅度平方的平均值)来确定子带的谱能量。具体地，形成子带的M个频率区间的TC 的幅度平方的和可以得到子带功率，并且子带功率除以频率区间的数量M 可以得到功率谱密度(PSD)。这样，基带101和/或高频带102可以包括多个子带，其中分别从多个频率区间得到子带。

如上面所指出的，基于SPX的编码器通过音频信号的基带101近似音频信号的高频带102。为此，基于SPX的编码器确定边带信息，边带信息使得相应的解码器能够根据音频信号的编码的和解码的基带101重建高频带102。边带信息通常包括高频带102的一个或更多个子带的谱能量的指示符(例如，分别高频带102的一个或更多个子带的一个或更多个能量比率)。此外，边带信息通常包括要添加到高频带102的一个或更多个子带的噪声量(称为噪声混合)的指示符。后者指示符通常与高频带 102的一个或更多个子带的音调有关。换句话说，要添加到高频带102的一个或更多个子带的噪声量的指示符通常利用高频带102的一个或更多个子带的音调值的计算。

图1b、图1c和图1d示出了基于基带101近似高频带102的示例步骤。图1b示出了仅包括基带101的音频信号的低频分量的谱110。图1c 示出了基带101的一个或更多个子带121、122到高频带102的频率的谱转换。从谱120可以看到，子带1221、122被复制到高频带102的各个频带123、124、125、126、127和128。在示出的示例中，子带121、122 被复制三次，以填充高频带102。图1d示出了如何基于复制的(或转换的)子带123、124、125、126、127和128近似音频信号的原始高频带 102(参见图1a)。基于SPX的音频编码器可以将随机噪声添加到复制的子带，使得近似的子带133、134、135、136、137和138的音调对应于高频带102的原始子带的音调。这可以通过确定适当的相应音调指示符来实现。此外，复制的(以及噪声混合的)子带123、124、125、126、127和 128的能量可以被修改，使得近似的子带133、134、135、136、137和138 的能量对应于高频带102的原始子带的能量。这可以通过确定适当的相应能量指示符来实现。因此可以看到，谱130近似于图1a中所示的原始音频信号的谱100。

如上面所指出的，用于噪声混合(并且其通常要求确定子带的音调) 的指示符的确定对基于SPX的音频编码器的计算复杂度具有主要的影响。具体地，在SPX编码过程的不同阶段出于各种目的可能要求不同的信号段(频率子带)的音调值。在图2a、图2b、图2c和图2d中示出了通常要求确定音调值的阶段的概述。

在图2a、图2b、图2c和图2d中，在水平轴上使用SPX起始带(或 SPX起始频率)201(称为spxstart)、SPX开始带(或SPX开始频率) 202(称为spxbegin)和SPX结束带(或SPX结束频率)203(称为spxend) 的标记示出了频率(以SPX子带0至16的形式)。通常，SPX开始频率 202对应于截止频率103。SPX结束频率203可以对应于原始音频信号的带宽104或对应于比音频带宽104低的频率(如图2a、图2b、图2c和图 2d所示)。在编码之后，编码的/解码的音频信号的带宽通常对应于SPX 结束频率203。在一种实施方式中，SPX起始频率201对应于频率区间 No.25，而SPX结束频率203对应于频率区间No.229。在SPX编码处理的三个不同的阶段示出了音频信号的子带：原始音频信号的谱200(例如， MDCT谱)(图2a顶部和图2b)以及在音频信号的低频分量的编码/解码之后的音频信号的谱210(图2a中间和图2c)。音频信号的低频分量的编码/解码可以包括例如低频分量的矩阵化和去矩阵和/或耦合和去耦合。此外，示出了基带101的子带到高频带102的谱转换之后的谱220(图2a 底部和图2d)。在图2a的“原始”线(即，频率子带0至16)中示出了音频信号的原始部分的谱200；在图2a的“去矩阵/去耦合低带”线(即，示出的示例中的频率子带2至6)中示出了通过耦合/矩阵化修改的信号的部分的谱210；并且在图2a的“转换的高带”(即，示出的示例中的频率子带7至14)中示出了由谱转换修改的信号的部分的谱220。将被基于SPX 的编码器的处理修改的子带206示为浓阴影，而将保持未被基于SPX的编码器修改的子带205示为淡阴影。

子带下面的和/或SPX子带组下面的大括号231、232、233指示针对哪些子带或针对哪些子带组计算音调值(音调测量)。此外，其指示音调值或音调测量用于哪种目的。SPX起始带(spxstart)201与SPX结束带 (spxend)203之间的原始输入信号的分频带音调值231(即，子带或子带组的音调值)通常用于指导编码器决定是否需要发送新的SPX坐标 (“重发策略”)。SPX坐标通常以每个SPX带的增益因子的形式携带关于原始音频信号的谱包络的信息。SPX重发策略可以指示是否必须针对音频信号的新样本块发送新的SPX坐标或是否可以重新使用(紧邻在)先前的样本块的SPX坐标。另外，如图2a和图2b所示，高于spxbegin 202的SPX带的分频带音调值231可以用作大方差衰减(LVA)计算的输入。大方差衰减是可以用于根据谱转换来衰减潜在误差的编码器工具。在基带中不具有相应分量的扩展带的强谱分量(反之亦然)可以被视为扩展误差。 LVA机制可以用于衰减这种扩展误差。通过图2b中的大括号可以看到，可以针对各个子带(例如，子带0、1、2等)和/或子带组(例如，包括子带11和12的组)计算音调值231。

如上面所指出的，信号音调在用于确定被应用于高频带102中的重建的子带的噪声混合量方面起重要的作用。如图2c中所描绘的，对于解码的(例如，去矩阵或去耦合的)低带和原始高带分别计算音调值232。在该背景下，解码(例如，去矩阵或去耦合)表示以与在解码器中进行方式相同的方式经历编码器的先前应用的编码步骤(例如，矩阵化和耦合步骤)。换句话说，已经在编码器中模拟了这样的解码器机制。从而，包括谱210的子带0至6的低带是解码器将重建的谱的模拟。图2c还示出了 (仅)在这种情况下针对两个较大带计算音调，与每个SPX子带(横跨 12个变换系数(TC)中的多个)或每个SPX子带组计算的原始信号的音调相反。如图2c中的大括号所指示的，针对基带101(例如，包括子带0 至6)中的子带组以及高频带102(例如，包括子带7至14)中的子带组计算音调值232。

除了上述内容之外，大方差衰减(LVA)计算通常需要关于转换的变换系数(TC)计算的另一音调输入。针对与图2a中的谱区域相同的谱区域，但不关于不同的数据测量音调，即，关于转换的低带子带但不关于原始子带测量音调。在图2d中所示的谱220中对其进行了描绘。可以看到，基于转换的子带针对高频带102内的子带和/或子带组确定音调值233。

总的来说，可以看到，典型的基于SPX的编码器在编码/解码处理过程中确定关于原始音频信号和/或从原始音频信号得到的信号的各个子带 205、206和/或子带组的音调值231、232、233。具体地，可以针对原始音频信号的子带和/或子带组、音频信号的编码的/解码的低频分量的子带和/或子带组和/或音频信号的近似的高频分量的子带和/或子带组确定音调值231、232、233。如上所概述的，音调值231、232、233的确定通常构成基于SPX的编码器的总的计算工作量的很大部分。在下文中，描述了使得能够显著降低与音调值231、232、233的确定有关的计算工作量从而降低基于SPX的编码器的计算复杂度的方法和系统。

可以通过对子带205、206的角速度ω(t)沿时间t的演化进行分析来确定子带205、206的音调值。角速度ω(t)可以是角度或相位随时间的变化。因此，可以将角加速度确定为角速度ω(t)随时间的变化，即角速度ω(t)的一次微分或相位的二次微分。如果角速度ω(t)沿时间恒定，则子带205、 206是调性的，而如果角速度ω(t)沿时间变化，则子带205、206较无调性。因此，角速度ω(t)的变化速率(即，角加速度)为音调的指示符。例如，子带q或子带组q的音调值T_q 231、232、233可以被确定为：

在本文档中，提出了将子带q或子带组q的音调值T_q 231、232、233(也称为分频带音调值)的确定分成：针对由时域到频域变换获得的不同的变换系数TC(即，不同的频率区间n)的音调值T_n(也称为区间音调值) 的确定，以及随后基于区间音调值T_n来确定分频带音调值T_q 231、232、 233。如下面示出的，分频带音调值T_q 231、232、233的两步确定使得能够显著降低与分频带音调值T_q 231、232、233的计算有关的计算工作量。

在离散的时域中，可以基于例如如下公式确定频率区间n在块(或离散的时间点)k处的变换系数TC的区间音调值T_n，k：

其中，和分别是频率区间n在时间点k、k-1和k-2处的变换系数TC的相位，其中|TC_n，k|²是频率区间n在时间点k处的变换系数TC的幅度平方，并且其中w_n，k是频率区间n在时间点k处的加权因子。“anglenorm”函数通过2π的重复加/减将其辐角归一化到(-π；π]。在表1 中给出了“anglenorm”函数。

表1

子带q 205、206或子带组q 205、206在时间点k(或块k)处的音调值T_q，k 231、232、233可以基于频率区间n在包括在子带q 205、206或子带组q 205、206内的时间点k(或块k)处的音调值T_n，k(例如，基于音调值T_n，k的和或平均值)来确定。在本文档中，出于简洁理由，可以省略时间索引(或块索引)k和/或区间索引n/子带索引q。

可以根据复数TC的实部和虚部确定(特定区间n的)相位可以例如通过执行音频信号的N个样本的块的MDST和MDCT变换来在编码器侧确定复数TC，从而分别得到复数TC的实部和虚部。或者，可以使用复数时域到频率变换，从而得到复数TC。因此相位可以被确定为：

在因特网链接http://de.wikipedia.org/wiki/Atan2#atan2处指定atan2函数。原理上，atan2函数可以被描述为y＝Im{TC_k}和x＝Re{TC_k}之比的反正切函数，其考虑y＝Im{TC_k}和/或x＝Re{TC_k}的负值。如在图2a、图2b、图2c和图 2d的背景下所概述的，可能需要基于从原始音频信号得到的不同的谱数据200、210、220来确定不同的分频带音调值231、232、233。基于图2a 中示出的概述，发明人已观察到，不同的分频带音调计算实际上基于相同的数据，具体地，基于相同的变换系数(TC)：

1.原始高频带TC的音调用于确定SPX坐标重发策略和LVA，以及计算噪声混合因子b。换句话说，原始高频带102的TC的区间音调值T_n可以用于确定高频带102内的分频带音调值231和分频带音调值232。

2.去耦合/去矩阵低带TC的音调用于确定噪声混合因子b，以及在转换到高带之后用于LVA计算。换句话说，基于音频信号(谱210)的编码的/解码的低频分量的TC确定的区间音调值T_n用于确定基带101中的分频带音调值232以及确定高频带102内的分频带音调值233。这是由于如下事实：由基带101中的一个或更多个编码的/解码的子带到高频带102 中的一个或更多个子带的转换来获得谱220的高频带102内的子带的TC。该转换过程不影响复制的TC的音调，从而使得能够重新使用基于音频信号(谱210)的编码的/解码的低频分量的TC确定的区间音调值T_n。

3.去耦合/去矩阵低带TC通常仅不同于耦合区域中的原始TC(假定矩阵化是完全可逆的，即假定去矩阵操作重现原始的变换系数)。SPX起始频率201与耦合开始(cplbegin)频率(假定在示出的示例中的子带2处) 之间的子带(以及TC)的音调计算基于未修改的原始TC，从而对于去耦合/去矩阵低带TC和原始TC(如图2a中由谱210中的子带0和子带1 的淡阴影所示)而言相同。

上面陈述的观察表明：由于可以共享即重新使用先前计算的中间结果，因此一些音调计算不需要重复或至少不需要完全执行。从而，在很多情况下，可以重新使用先前计算的值，这显著降低计算成本。在下文中，描述了各种措施，其允许降低与基于SPX的编码器内的音调的确定有关的计算成本。

从图2a中的谱200和210可以看到，高频带102的子带7至14在谱200和210中相同。因此，应当可以重新使用高频带102的分频带音调值 231以及分频带音调值232。可惜，从图2a可以看出，即使基本的TC相同，也在两种情况下对于不同的带结构计算音调。因此，为了能够重新使用音调值，提出了将音调计算分成两部分，其中第一部分的输出可以用于计算分频带音调值231和232。

如上所述，可以将分频带音调T_q的计算分成：针对每个TC计算每个区间的音调T_n(步骤1)，以及将区间音调值T_n平滑和分组成带的后续过程(步骤2)，从而得到相应的分频带音调值T_q 231、232、233。可以基于包括在分频带音调值的带或子带内的区间的区间音调值T_n之和，例如基于区间音调值T_n的加权和来确定分频带音调值T_q 231、232、233。例如，可以基于除以相应的加权因子w_n的相关区间音调值T_n之和来确定分频带音调值T_q。此外，分频带音调值T_q的确定可以包括(加权)和到预定的值范围(例如，[0,1])的拉伸和/或映射。根据步骤1的结果，可以得到任意的分频带音调值T_q。应当注意的是，计算复杂度主要存在于步骤1中，因此步骤1构成该两步法的效率增益。

在图3b中针对高频带102的子带7至14示出了用于确定分频带音调值T_q的两步法。可以看到，在示出的示例中，每个子带由12个相应的频率区间中的12个TC组成。在第一步骤(步骤1)中，针对子带7至14 的频率区间确定区间音调值T_n 341。在第二步骤(步骤2)中，区间音调值T_n 341被以不同的方式分组，以便确定分频带音调值T_q 312(其对应于高频带102中的分频带音调值T_q 231)，以及以便确定分频带音调值T_q 322(其对应于高频带102中的分频带音调值T_q 232)。

因此，当分频带音调值312、322利用相同的区间音调值341时，用于确定分频带音调值322和分频带音调值312的计算复杂度可以降低几乎 50％。这在图3a中示出，图3a示出了通过重新使用原始信号的高带音调用于噪声混合，因此去除额外的计算(附图标记302)，可以降低音调计算的数量。对于低于耦合开始(cplbegin)频率303的子带0、1的区间音调值341也是如此。这些区间音调值341可以用于确定分频带音调值311 (其对应于基带101中的分频带音调值T_q 231)，并且它们可以重新用于确定分频带音调值321(其对应于基带101中的分频带音调值T_q 232)。

应当注意的是，用于确定分频带音调值的两步法对于编码器输出是透明的。换句话说，分频带音调值311、312、321和322不受两步计算的影响，因此与在一步计算中确定的分频带音调值231、232相同。

区间音调值314的重新使用还可以应用于谱转换的背景下。这样的重新使用场景通常涉及来自谱210的子带101的去矩阵/去耦合的子带。当确定噪声混合因子b(参见图3a)时，计算这些子带的分频带音调值321。此外，用于确定分频带音调值321的相同TC的至少一些用于计算控制大方差衰减(LVA)的分频带音调值233。在图3a和图3b的背景下概述的与第一重新使用场景的差异在于：TC在被用于计算LVA音调值233之前经历谱转换。然而，可以示出：区间的每区间音调T_n 341与其邻近区间的音调无关。因此，每区间音调值T_n 341可以以与针对TC进行的方式相同的方式在频率上转换(参见图3d)。这使得在高频带102中的LVA的计算中能够重新使用在基带101中计算的用于噪声混合的区间音调值T_n 341。这在图3c中示出，其中示出了如何从谱210的基带101的子带0至 5得到重建的高频带102中的子带。根据谱转换处理，可以重新使用包括在基带101的子带0至5内的频率区间的区间音调值T_n341以确定分频带音调值T_q 233。因此，如由附图标记303所示的，用于确定分频带音调值T_q233的计算工作量显著降低。此外，应当注意的是，编码器输出不受这种得出扩展带音调233的修改的方式的影响。

总之，已示出了通过将分频带音调值T_q的确定分成包括确定每区间音调值T_n的第一步骤和根据每区间音调值T_n确定分频带音调值T_q的随后的第二步骤的两步法，可以降低与分频带音调值T_q的计算有关的总的计算复杂度。具体地，已示出了两步法使得能够重新使用每区间音调值T_n用于确定多个分频带音调值T_q(由指示重新使用可能性的附图标记301、302、 303所示)，从而降低总的计算复杂度。

可以通过对通常计算的音调的区间的数量进行比较来量化从两步法和区间音调值的重新使用得到的性能提高。原始方案针对 2·(spxend-spxstart)+(spxend-spxbegin)+6个频率区间(其中，附加的6个音调值用于配置基于SPX的编码器内的特定陷波滤波器)计算音调值。通过如上所述重新使用音调值，针对其确定音调值的区间的数量被减少至：

spxend-spxstart-cplbegin+spxstart +min(spxend-spxbegin+3，spxbegin-spxstart) ＝spxend-cplbegin+min(spxend-spxbegin+3，spxbegin-spxstart)

(其中，附加的3个音调值用于配置基于SPX的编码器内的特定陷波滤波器)。针对其在优化之前和之后计算音调的区间的比率产生音调算法的性能改进(以及复杂度降低)。应当注意的是，两步法通常比分频带音调值的直接计算稍复杂。从而，完整的音调计算的性能增益(即，复杂度降低)比所计算的音调区间的比率稍低，可以在表2中对于不同的位速率看出。

表2

可以看到，可以实现计算音调值的计算复杂度的50％和更高的降低。

如上所概述的，两步法不影响编码器的输出。在下文中，对可能影响编码器的输出的用于降低基于SPX的编码器的计算复杂度的另外的措施进行描述。然而，感知测试已示出，平均来说，这些另外的措施不影响编码的音频信号的感知质量。对于本文档中所描述的其他措施，可以替代地或附加地使用下面所描述的措施。

例如，如在图3c的背景下所示，分频带音调值T_low 321和T_high 322 是计算噪声混合因子b的基础。音调可以被理解为或多或少地与包含在音频信号中的噪声量成反比的属性(即，更多的噪声→更少的音调，更少的噪声→更多的音调)。噪声混合因子b可以被计算为

b＝T_low·(1-var{T_low，T_high})+T_high·(var{T_low，T_high})

其中，T_low 321是解码器模拟的低带的音调，T_high 322是原始高带的音调，以及是两个音调值T_low 321与T_high 322的方差。

噪声混合的目标是将所需要的量的噪声插入再生的高带中以使得再生的高带听起来像原始高带。应当考虑源音调值(反映高频带102中的转换的子带的音调)和目标音调值(反映原始高频带102中的子带的音调) 以确定所期望的目标噪声水平。发明人的观察是，真实的源音调不被解码器模拟的低带的音调值T_low 321正确地描述，而是被转换的高带副本的音调值T_copy 323正确地描述(参见图3c)。可以基于近似由图3c中的大括号所示的高频带102的原始子带7至14的子带来确定音调值T_copy 323。对转换的高带执行噪声混合，从而应当仅实际上被复制到高带中的低带 TC的音调影响要添加的噪声的量。

如由上面的公式所示，目前来自低带的音调值T_low 321用作真实的源音调的估计。可以存在影响该估计的准确度的两种情况：

1.用于近似高带的低带小于或等于高带，并且编码器未遭遇中带环绕(mid-bandwrap-around)(即，目标带在复制区域(即，spxstart和spxbegin之间的区域)的结束处大于可用的源带)。编码器通常试图在目标SPX带内避免这样的环绕情形。这在图3c中示出，其中转换的子带5 在子带0和1之前(为了避免目标SPX带内的子带0之后的子带6的环绕情形)。在这种情况下，低带通常可能多次完全被复制到高带。由于全部TC被复制，所以低带的音调估计应当适当地靠近转换的高带的音调估计。

2.低带大于高带。在这种情况下，仅低带的较低部分被复制到高带。由于针对所有低带TC计算音调值T_low 321，所以转换的高带的音调值T_copy 323可以根据信号属性以及根据低带与高带之间的大小比而偏离音调值 T_low 321。

因此，音调值T_low 321的使用可以导致不准确的噪声混合因子b，尤其在不是所有用于确定音调值T_low 321的子带0至6都被转换到高频带 102的情况下(例如在图3c中示出的示例的情况下)。在未被复制到高频带102的子带(例如，图3c中的子带6)包括显著的音调内容的情况下可能出现显著的不准确。因此，提出了基于转换的高带的分频带音调值 T_copy323(而不基于从SPX起始频率201到SPX开始频率202的解码器模拟的低带的分频带音调值T_low 321)来确定噪声混合因子b。具体地，噪声混合因子b可以被确定为：

b＝T_copy·(1-var{T_copy，T_high})+T_high·(var{T_copy，T_high})

其中，是两个音调值T_copy 323与T_high 322的方差。

除了潜在提供基于SPX的编码器的改进质量之外，转换的高带的分频带音调值T_copy 323(而不是解码器模拟的低带的分频带音调值T_low 321) 的使用可以导致降低基于SPX的音频编码器的计算复杂度。对于其中转换的高带比低带窄的上述情况2尤其如此。该益处随着低带大小和高带大小的差异而增长。针对其计算源音调的带的量可以是

min{spxbegin-spxstart，spxend-spxbegin}，

其中如果基于解码器模拟的低带的分频带音调值T_low 321确定噪声混合因子b，则应用数量(spxbegin-spxstart)，并且其中如果基于转换的高带的分频带音调值T_copy 323确定噪声混合因子b，则应用数量 (spxend-spxbegin)。因此，在一种实施方式中，基于SPX的编码器可以被配置成根据(spxbegin-spxstart)和(spxend-spxbegin)的最小值来选择确定噪声混合因子b的模式(基于分频带音调值T_low 321的第一模式和基于分频带音调值T_copy 323的第二模式)，从而降低计算复杂度(尤其在 (spxend-spxbegin)小于(spxbegin-spxstart)的情况下)。

应当注意的是，用于确定噪声混合因子b的修改的方案可以与用于确定分频带音调值T_copy 323和/或T_high 322的两步法组合。在这种情况下，基于已经被转换到高频带102的频率区间的区间音调值T_n341来确定分频带音调值T_copy 323。对重建的高频带102有贡献的频率区间位于spxstart 201与spxbegin 202之间。在对于计算复杂度的最差情况下，spxstart 201 与spxbegin 202之间的所有频率区间都对重建的高频带102有贡献。另一方面，在很多其他情况下(例如如图3c中所示)，仅spxstart 201与spxbegin 202之间的频率区间的子集被复制到重建的高频带102。鉴于此，在一种实施方式中，使用区间音调值T_n341，即，使用用于确定分频带音调值T_copy 323的上述两步法，基于分频带音调值T_copy 323来确定噪声混合因子b。通过使用两步法，确保了即使在(spxbegin-spxstart)小于(spxend-spxbegin) 的情况下也由用于确定spxstart201与spxbegin202之间的频率范围内的区间音调值T_n 341所需要的计算复杂度来限制计算复杂度。换句话说，两步法确保即使在(spxbegin-spxstart)小于(spxend-spxbegin)的情况下也由包括在(spxbegin-spxstart)之间的TC的数量来限制用于确定分频带音调值 T_copy 323的计算复杂度。因此，可以基于分频带音调值T_copy 323持续地确定噪声混合因子b。然而，为了确定应当针对其确定音调值的耦合区域 (cplbegin至spxbegin)中的子带，可能有利的是确定(spxbegin-spxstart)和(spxend-spxbegin)中的最小值。例如，如果(spxbegin-spxstart)大于 (spxend-spxbegin)，则不需要确定频率区域(spxbegin-spxstart)的至少一些子带的音调值，从而降低计算复杂度。

如图3c中可以看到的，用于根据区间音调值确定分频带音调值的两步法允许区间音调值的显著的重新使用，从而降低计算复杂度。区间音调值的确定主要被降低至基于原始音频信号的谱200的区间音调值的确定。然而，在耦合情况下，可能需要基于位于cplbegin 303至spxbegin 202之间的一些或全部频率区间(图3c中的暗阴影子带2至6的频率区间)的耦合的/去耦合的谱210来确定区间音调值。换句话说，在利用重新使用先前计算的每区间音调的上述方法之后，需要音调重新计算的带仅为处于耦合中的带(参见图3c)。

耦合通常移除处于耦合中的多通道信号(例如，立体声信号或5.1多通道信号)的通道之间的相位差。耦合坐标的频率共享和时间共享还增加耦合的通道之间的相关。如上所述，音调值的确定基于当前样本块(时间点k处)以及一个或更多个先前样本块(例如，在时间点k-1、k-2处) 的相位和能量。由于耦合中的所有通道的相位角相同(由于耦合)，所以这些通道的音调值比原始信号的音调值更相关。

与基于SPX的编码器相应的解码器仅使用解码器根据所接收的包括编码的音频数据的位流生成的去耦合的信号。当计算意在根据转置的去耦合的低带信号再现原始的高带信号的比率时，编码工具如编码器侧的噪声混合和大方差衰减(LVA)通常对此进行考虑。换句话说，基于SPX的音频编码器通常考虑相应的解码器仅访问编码的数据(表示去耦合音频信号)。因此，通常根据当前的基于SPX的编码器中的去耦合信号(如例如图2a的谱210中所示)来计算噪声混合和LVA的源音调。然而，即使基于去耦合信号(即，基于谱210)计算音调在概念上有意义，但替代地根据原始信号计算音调的感知含义并不这样清晰。此外，如果可以避免基于去耦合信号的音调值的附加的重新计算，则可以进一步降低计算复杂度。

为此，已经进行了收听实验来评估使用原始信号的音调代替去耦合信号的音调(用于确定分频带音调值321和233)的感知影响。在图4中示出了收听实验的结果。对于多个不同的音频信号执行了MUSHRA(隐藏参考和基准的多刺激)测试。对于多个不同的音频信号中的每个，(左侧) 条401指示当基于去耦合信号(使用谱210)确定音调值时获得的结果，(右侧)条402指示当基于原始信号(使用谱200)确定音调值时获得的结果。可以看到，当使用原始音频信号确定噪声混合和LVA的音调值时获得的音频质量平均来说与当使用去耦合音频信号确定音调值时获得的音频质量相同。

图4的收听实验的结果表明，可以通过重新使用原始音频信号的区间音调值341确定分频带音调值321和/或分频带音调值323(用于噪声混合) 以及分频带音调值233(用于LVA)来进一步降低用于确定音调值的计算复杂度。因此，可以进一步降低基于SPX的音频编码器的计算复杂度，而不影响(平均来说)编码的音频信号的感知音频质量。

即使当基于去耦合音频信号(即，基于图3c的谱210的暗阴影子带 2至6)确定分频带音调值321和233时，由于耦合的相位的对准可以用于降低与音调的确定有关的计算复杂度。换句话说，即使不能避免耦合带的音调的重新计算，但去耦合信号表现出可以用于简化常规音调计算的特殊属性。该特殊属性为：所有耦合的(以及后续去耦合的)通道同相。由于耦合中的所有通道共享耦合带的相同相位因此该相位仅需要针对一个通道被计算一次，然后可以在耦合中的其他通道的音调计算中被重新使用。具体地，这意味着针对耦合中的多通道信号的所有通道仅需要执行一次用于确定时间点k处的相位的上述“atan2”运算。

从数值点的观点来说，由于耦合通道代表耦合中的所有通道的平均，所以使用耦合通道本身(而不是去耦合通道之一)用于相位计算似乎是有益的。在SPX编码器中已经实现了耦合中的通道的相位重新使用。在编码器输出中没有由相位值的重新使用而导致的变化。对于位速率256 kbps 下测量的配置，性能增益为(SPX编码器计算工作量的)约3％，但预期对于其中耦合区域较靠近SPX起始频率201地开始(即其中耦合开始频率303较靠近SPX起始频率201)的较低的位速率性能增益增大。

在下文中，描述用于降低与音调的确定有关的计算复杂度的另外的方法。对于本文档中所描述的其他方法，可以替代地或附加地使用本方法。与聚焦在减少所需要的音调计算的数量的先前示出的优化相反，下面的方法针对加速音调计算自身。具体地，下面的方法针对降低用于确定块k(索引k例如对应于时间点k)的频率区间n的区间音调值T_n，k的计算复杂度。

块k中的区间n的SPX每区间音调值T_n，k可以被计算为：

其中，Y_n，k＝Re{TC_n，k}²+Im{TC_n，k}²为区间n和块k的功率，w_n，k为加权因子，以及为区间n和块k的相位角。上面提到的用于音调值T_n，k的公式指示相位角的加速度(如在针对上述区间音调值T_n，k给出公式的背景下所概述的)。应当注意的是，可以使用用于确定区间音调值T_n，k的其他公式。音调计算的加速(即，计算复杂度的降低)主要针对与加权因子w的确定有关的计算复杂度。

加权因子w可以被定义为：

可以通过以巴比伦/海伦方法的平方根和一次迭代来代替四次方根来近似加权因子w，即，

尽管去除一个平方根运算已经提高了效率，但对于每块、每通道和每频率区间仍然存在一个平方根运算和一个除法。通过如下重写加权因子w 可以在对数域中得到不同的且计算上更有效的近似：

注意到不管(Y_n，k≤Y_n，k-1)还是(Y_n，k＞Y_n，k-1)对数域中的差总为负，可以丢弃情况的区别，从而得到

为了便于书写，去掉索引，并且分别由y和z代替Y_n，k和Y_n，k-1：

现在可以将变量y和z分别分解成指数e_y、e_z和归一化的尾数m_y、 m_z，从而得到

假定单独地处理全零尾数的特殊情况，归一化的尾数m_y、m_z位于区间[0,5；1]内。在该区间中log₂(x)函数可以由具有最大误差0.0861和平均误差0.0573的线性函数log₂(x)≈2·x-2近似。应当注意的是，取决于近似的期望精确度和/或计算复杂度，其他近似(例如，多项式近似)是可能的。使用上面提到的近似得到：

尾数近似的差异仍然具有0.0861的最大绝对误差，但平均误差为零，使得最大误差的范围从[0；0.0861](正偏置)变到[﹣0.0861；0.0861]。

将除以4的结果分解成整数部分和余数得到：

其中，int{...}运算通过截取来返回其操作数的整数部分，其中，mod{a，b}运算返回a/b的余数。在加权因子w的上述近似中，第一表达式转换成由对固定的点结构进行向右的简单移位运算。第二表达式可以通过使用包括2的幂的预定查找表来计算。查找表可以包括预定数量的条目，以便提供预定的近似误差。

为了设计适当的查找表，调用尾数的近似误差是有用的。由查找表的量化引入的误差不需要显著低于除以4的尾数(为0.0573)的平均绝对近似误差。这得到小于0.0143的期望的量化误差。使用64个条目的查找表的线性量化产生1/128＝0.0078的适当的量化误差。因此，预定的查找表可以包括总数64个条目。通常，预定的查找表中的条目的数量应当与对数函数的所选择的近似对准。具体地，由查找表提供量化的精确度应当根据对数函数的近似的精确度。

当区间音调值的估计正偏置时，即，当近似更有可能高估加权因子(以及所得到的音调值)而不是低估加权因子时，上述近似方法的感知评估指示编码的音频信号的整体质量提高了。

为了实现这样的过高估计，可以将偏置添加到查找表，例如，可以添加量化步骤的一半的偏置。量化步骤的一半的偏置可以通过将索引截取到量化查找表而不是将索引四舍五入来实现。可能有利的是将加权因子限制到0.5，以便匹配由巴比伦/海伦方法获得的近似。

在图5a中示出了从对数域近似函数得到的加权因子w的近似503以及其平均误差和最大误差的边界。图5a还示出了使用四次方根的精确的加权因子501以及使用巴比伦近似确定的加权因子502。在使用MUSHRA 测试方案的收听测试中已经验证了对数域近似的感知质量。在图5b中可以看到，使用对数近似(左侧条511)的感知质量平均来说类似于使用巴比伦近似(中间条512)和四次方根(右侧条513)的感知质量。另一方面，通过使用对数近似，总的音调计算的计算复杂度可以降低约28％。

在本文档中，已经描述了用于降低基于SPX的音频编码器的计算复杂度的各种方案。已经将音调计算确定为对基于SPX的编码器的计算复杂度的主要贡献者。所描述的方法使得能够重新使用已计算的音调值，从而降低总的计算复杂度。已计算的音调值的重新使用通常使基于SPX的音频编码器的输出不受影响。此外，已经描述了用于确定噪声混合因子b 的替选方式，替选方式使得能够进一步降低计算复杂度。另外，已经描述了用于每区间音调加权因子的有效近似方案，该方案可以用于降低音调计算本身的复杂度而不损害感知音频质量。由于本文档中所描述的方法的方案，可以根据配置和位速率预期基于SPX的音频编码器的计算复杂度的 50％的范围或更大范围的总体降低。

本文档中所描述的方法和系统可以被实现为软件、固件和/或硬件。某些部件例如可以实现为在数字信号处理器或微处理器上运行的软件。其他部件例如可以实现为硬件和/或被实现为专用集成电路。在所描述的方法和系统中遇到的信号可以被存储在介质如随机存取存储器或光学存储介质上。这些信号可以通过网络如无线电网络、卫星网络、无线网络或有线网络例如因特网被传送。利用本文档中所描述的方法和系统的典型的装置为用于存储和/或呈现音频信号的便携式电子装置或其他消费者设备。

本领域的普通技术人员将容易地能够应用上述各种概念，以实现具体适于当前音频编码需求的另外的实施方式。

Claims

1.一种用于针对音频信号的第一频率子带确定第一分频带音调值的方法；其中所述第一分频带音调值用于基于所述音频信号的低频分量来近似所述音频信号的高频分量；所述方法包括：

基于所述音频信号的样本块来确定相应一组频率区间中的一组变换系数；

使用所述一组变换系数分别针对所述一组频率区间来确定一组区间音调值；以及

组合针对位于所述第一频率子带内的所述一组频率区间的两个或更多个邻近频率区间的所述一组区间音调值中的两个或更多个相应的区间音调值的第一子集，从而产生所述第一频率子带的所述第一分频带音调值；

其中，

所述方法还包括：基于所述音频信号的相应的块序列来确定变换系数集合序列；

对于特定频率区间，所述变换系数集合序列包括特定变换系数序列；

确定所述特定频率区间的所述区间音调值包括：

基于所述特定变换系数序列来确定相位序列；以及

基于所述相位序列来确定相位加速度；并且

所述特定频率区间的所述区间音调值是所述相位加速度的函数。

2.根据权利要求1所述的方法，还包括：

通过组合针对位于第二频率子带内的所述一组频率区间的两个或更多个邻近频率区间的所述一组区间音调值中的两个或更多个相应的区间音调值的第二子集，来确定所述第二频率子带的第二分频带音调值；其中所述第一频率子带和所述第二频率子带包括至少一个共同的频率区间，并且其中所述第一子集和所述第二子集包括相应的至少一个共同的区间音调值。

3.根据权利要求1所述的方法，其中，

基于所述音频信号的所述低频分量来近似所述音频信号的所述高频分量包括：将一个或更多个频率区间的一个或更多个低频变换系数从与所述低频分量对应的低频带复制到与所述高频分量对应的高频带；

所述第一频率子带位于所述低频带内；

第二频率子带位于所述高频带内；

所述方法还包括：通过组合针对被复制到所述第二频率子带的所述频率区间中的两个或更多个频率区间的所述一组区间音调值中的两个或更多个相应的音调值的第二子集，来确定所述第二频率子带中的第二分频带音调值；

所述第二频率子带包括从位于所述第一频率子带内的频率区间复制的至少一个频率区间；并且

所述第一子集和所述第二子集包括相应的至少一个共同的区间音调值。

4.根据权利要求1所述的方法，其中，

所述第一分频带音调值被用于使用称为SPX的谱扩展方案基于所述音频信号的低频分量来近似所述音频信号的高频分量；并且

所述第一分频带音调值被用于确定SPX坐标重发策略、噪声混合因子和/或大方差衰减。

5.根据权利要求4所述的方法；其中所述噪声混合因子被用于基于音频信号的低频分量来近似所述音频信号的高频分量；其中所述高频分量包括高频带中的一个或更多个高频子带信号；其中所述低频分量包括低频带中的一个或更多个低频子带信号；其中近似所述高频分量包括：将一个或更多个低频子带信号复制到所述高频带，从而产生一个或更多个近似的高频子带信号；所述方法还包括：

基于所述一个或更多个高频子带信号确定目标分频带音调值；

基于所述一个或更多个近似的高频子带信号确定源分频带音调值；以及

基于所述目标分频带音调值和所述源分频带音调值确定所述噪声混合因子。

6.根据权利要求5所述的方法，其中，所述方法包括将所述噪声混合因子b确定为：

b＝T_copy·(1-var{T_copy,T_high})+T_high·(var{T_copy,T_high})，

其中，是所述源音调值T_copy与所述目标音调值T_high的方差。

7.根据权利要求5所述的方法，其中，

所述低频带包括：起始带，其指示可供用于复制的低频子带中具有最低频率的低频子带；

所述高频带包括：开始带，其指示要近似的高频子带中具有最低频率的高频子带；

所述高频带包括：结束带，其指示要近似的高频子带中具有最高频率的高频子带；

所述方法包括：确定所述起始带与所述开始带之间的第一带宽；并且

所述方法包括：确定所述开始带与所述结束带之间的第二带宽。

8.根据权利要求7所述的方法，还包括：

如果所述第一带宽小于所述第二带宽，则基于所述起始带与所述开始带之间的所述低频子带的所述一个或更多个低频子带信号来确定低分频带音调值，并且基于所述目标分频带音调值和所述低分频带音调值来确定所述噪声混合因子。

9.根据权利要求7所述的方法，还包括：

如果所述第一带宽大于或等于所述第二带宽，则基于位于所述起始带与所述起始带加所述第二带宽之间的所述低频子带的所述一个或更多个低频子带信号来确定所述源分频带音调值。

10.根据权利要求5所述的方法，其中，确定频率子带的分频带音调值包括：

基于所述音频信号的样本块来确定相应的一组频率区间中的一组变换系数；

分别使用所述一组变换系数来确定所述一组频率区间的一组区间音调值；以及

组合针对位于所述频率子带内的所述一组频率区间中的两个或更多个邻近频率区间的所述一组区间音调值中的相应的两个或更多个区间音调值的第一子集，从而产生所述频率子带的所述分频带音调值。

11.根据权利要求1所述的方法，其中针对音频信号的第一频率区间确定所述第一区间音调值；其中所述第一区间音调值被用于基于所述音频信号的低频分量来近似所述音频信号的高频分量；所述方法还包括：

针对所述音频信号的样本块序列提供所述第一频率区间中的相应变换系数序列；

基于所述变换系数序列来确定相位序列；

基于所述相位序列来确定相位加速度；

基于当前变换系数来确定区间功率；

使用对数近似来近似加权因子，该加权因子指示随后的变换系数的功率比的四次方根；以及

用所述区间功率和所述近似的加权因子对所述相位加速度进行加权，以产生所述第一区间音调值。

12.根据权利要求11所述的方法，其中，

所述变换系数序列包括所述当前变换系数和前一个变换系数；并且

所述加权因子指示所述当前变换系数与所述前一个变换系数的功率比的四次方根。

13.根据权利要求11所述的方法，其中，

基于当前变换系数的相位以及基于两个或更多个紧邻在前的变换系数的相位来确定当前相位加速度。

14.根据权利要求11所述的方法，其中，近似所述加权因子包括：

提供表示所述随后的变换系数中的当前变换系数的当前尾数和当前指数；

基于所述当前尾数和所述当前指数来确定预定的查找表的索引值；其中所述查找表提供多个索引值与所述多个索引值的相应的多个指数值之间的关系；以及

使用所述索引值和所述查找表来确定所述近似的加权因子。

15.一种用于确定多通道音频信号的多个耦合通道的多个音调值的方法；所述方法包括：

针对所述多个耦合通道中的第一通道的样本块序列确定相应的第一变换系数序列；

基于所述第一变换系数序列确定第一相位序列；

基于所述第一相位序列确定第一相位加速度；

基于所述第一相位加速度确定所述第一通道的第一组区间音调值，并且基于所述第一组区间音调值确定第一分频带音调值；以及

基于所述第一相位加速度确定所述多个耦合通道中的第二通道的第二组区间音调值，并且基于所述第二组区间音调值确定第二分频带音调值。

16.一种被配置成确定音频信号的第一频率子带的第一分频带音调值的系统；其中所述第一分频带音调值被用于基于所述音频信号的低频分量来近似所述音频信号的高频分量；其中所述系统被配置成：

基于所述音频信号的样本块，确定一组频率区间中的相应的一组变换系数；

分别使用所述一组变换系数确定所述一组频率区间的一组区间音调值；以及

组合针对位于所述第一频率子带内的所述一组频率区间中的两个或更多个邻近频率区间的所述一组区间音调值中的相应的两个或更多个区间音调值的第一子集，从而产生所述第一频率子带的所述第一分频带音调值；

其中，

所述系统还被配置为：基于所述音频信号的相应的块序列来确定变换系数集合序列；

确定所述特定频率区间的所述区间音调值包括：

基于所述特定变换系数序列来确定相位序列；以及

基于所述相位序列来确定相位加速度；并且

17.根据权利要求16所述的系统，还被配置成确定噪声混合因子；其中所述噪声混合因子被用于基于音频信号的低频分量来近似所述音频信号的高频分量；其中所述高频分量包括高频带中的一个或更多个高频子带信号；其中所述低频分量包括低频带中的一个或更多个低频子带信号；其中近似所述高频分量包括：将一个或更多个低频子带信号复制到所述高频带，从而产生一个或更多个近似的高频子带信号；其中所述系统被配置成：

18.根据权利要求16所述的系统，还被配置成确定音频信号的第一频率区间的第一区间音调值；其中所述第一区间音调值被用于基于所述音频信号的低频分量来近似所述音频信号的高频分量；其中所述系统被配置成：

针对所述音频信号的样本块序列提供所述第一频率区间中的相应的变换系数序列；

基于所述变换系数序列确定相位序列；

基于所述相位序列确定相位加速度；

基于当前变换系数确定区间功率；