CN110739001A

CN110739001A - 支持变换长度切换的频域音频编码器、解码器、编码和解码方法

Info

Publication number: CN110739001A
Application number: CN201910988103.6A
Authority: CN
Inventors: 萨沙·迪克; 克里斯蒂安·赫尔姆里希; 安德烈·赫尔策
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2013-07-22
Filing date: 2014-07-15
Publication date: 2020-01-31
Anticipated expiration: 2034-07-15
Also published as: RU2654139C2; EP2830058A1; RU2016105704A; US10984809B2; EP3312836A1; EP3961621B1; JP2019207419A; CA2918849C; AR097005A1; MY184665A; PL3312836T3; CA2918849A1; ES2940897T3; WO2015010965A1; US10242682B2; EP3961621A1; SG11201600369UA; TW201519219A; US11862182B2; JP7311940B2

Abstract

提供一种能够以向后兼容方式额外地支持特定变换长度的频域音频编解码器，通过如下手段：以交错方式且不考虑信号作用来传送各个帧的频域系数，以及独立于信号作用额外操作频域系数提取以及比例因子提取，其中信号作用信号化帧实际应用的变换长度。通过这个措施，对信号作用不敏感的老式频域音频编解码器/解码器仍可无错误操作并重现合理的质量。同时，能支持额外的变换长度的频域音频编解码器/解码器提供甚至更好的质量且向后兼容。考虑到以对于较旧的解码器明显的方式对频域系数进行编码造成的编码效率损失，由于使用交错方式，编码效率损失具有相对较小的性质。

Description

支持变换长度切换的频域音频编码器、解码器、编码和解码方法

本申请是申请人为弗朗霍夫应用科学研究促进协会、申请日为2014年7月15日、申请号为201480050257.6、发明名称为“支持变换长度切换的频域音频编码器、解码器、编码和解码方法”的分案申请。

技术领域

本发明关于支持变换长度切换的频域音频编码。

背景技术

现代频域语音/音频编码系统，例如IETF[1]的Opus/Celt编解码器、MPEG-4HE-AAC[2]或者，特别是MPEG-D xHE-AAC(USAC)[3]，提供根据信号的时间稳定性使用一个长变换-长区块-或八个顺序短变换-短区块对音频帧进行编码的方法。

针对特定的音频信号，例如雨声或是很多观众的喝彩，长区块编码或短区块编码都无法在低比特率下产生令人满意的质量。这可通过录音中的突出瞬态的密度来说明。仅以长区块编码可能会造成编码错误的频繁且可听见的时间模糊，其为已知的预回声；然而仅以短区块编码通常因增加的数据开销而是无效的，导致频谱空洞。

因此，使用支持也适用于上述概述的种类的音频信号的变换长度的频域音频编码是有利的。自然地，建立新的支持变换长度的集合(包含适合特定种类的音频信号的特期望变换长度)之间的切换的频域音频编解码器是可行的。然而，获得市场上采用的新的频域音频编解码器并非是容易的任务。熟知的编解码器已经可获得且被频繁地使用。因此，能够具有一种概念，使得现有的频域音频编解码器被扩展以便额外支持期望的新的变换长度，但是又能保持与现有的编解码器以及解码器的向后兼容，将是有利的。

发明内容

因此，本发明的目的是提供一种概念使得现有的频域音频编解码器以向后兼容的方式朝支持额外的变换长度扩展，以便在包括这个新的变换长度的多个变换长度之间切换。

本发明目的通过本文所附的独立权利要求的主题来实现。

本发明基于发现：当以交错方式且不考虑针对实际使用变换长度的帧信号作用信号化来传输各个帧的频域系数，以及当独立于信号作用额外地进行频域系数提取以及比例因子提取时，频域音频编解码器可具有向后兼容并额外支持特定变换长度的能力。通过这个措施，老式且对信号作用不敏感的频域音频编码器/解码器仍可无错误操作并重现合理的质量。同时，响应至/从额外支持的变换长度的切换的频域音频编码器/解码器达到甚至更好的质量且向后兼容。考虑到以对于较旧的解码器明显的方式对频域系数进行编码造成的编码效率损失，由于使用交错方式，编码效率损失具有相对较小的性质。

本申请的有利实现方式为从属权利要求的主题。

附图说明

特别地，下面结合附图描述本申请的优选实施例，其中：

图1显示根据实施例的频域音频解码器的示意框图；

图2显示说明图1的逆变换器的功能的示意图；

图3显示根据实施例的图2的逆TNS滤波过程朝上游方向的可能位移的示意图；

图4显示根据实施例的当针对USAC中的长停止-开始窗口使用变换分离时选择窗口的可能性；以及

图5显示根据实施例的频域音频编码器的框图。

具体实施方式

图1显示根据本申请的实施例的支持变换长度切换的频域音频解码器。图1的频域音频解码器通常使用附图标记10指示，包括频域系数提取器12、比例因子提取器14、逆变换器16以及组合器18。在其输入端，频域系数提取器12以及比例因子提取器14可以访问入站(inbound)数据流20。频域系数提取器12以及比例因子提取器14的输出端连接至逆变换器16的各个输入端。逆变换器16的输出端连接至组合器18的输入端。组合器18在编码器10的输出端22处输出重建音频信号。

频域系数提取器12用于从数据流20提取出音频信号的帧26的频域系数24。频域系数24可以为MDCT系数或者可属于一些其他变换，例如另一重叠变换。在以下描述的方式中，属于特定帧26的频域系数24以变化的频谱时间分辨率描述各个帧26内的音频信号的频谱。帧26表示以时间将音频信号划分成的时间部分。所有帧的所有频域系数24放在一起，表示音频信号的频谱图28。例如，帧26可为相等的长度。由于音频信号的音频内容的种类随时间而改变，不利于通过使用，例如具有固定变换长度(例如，跨越每个帧26的时间长度，即包含音频信号的帧26内的采样值以及先前与随后各个帧的时域采样)的变换，以连续频谱时间分辨率描述用于每个帧26的频谱。例如，预回声伪迹可以由以频域系数24的形式有损传送各个帧的频谱而造成。因此，在以下概述的方式中，通过在不同变换长度之间切换，各个帧26的频域系数24以可切换频谱时间分辨率描述这个帧26内的音频信号的频谱。然而，就考虑频域系数提取器12而言，后一种情况对于频率系数提取器12是显然的。频域系数提取器12独立于信号化上述的针对帧26的不同频谱时间分辨率之间的切换的任何信号作用而操作。

为了从数据流20提取出频域系数24，频域系数提取器12可使用熵编码。例如，频域系数提取器可使用基于上下文的熵解码，例如可变上下文算术解码，以从数据流20提取出频域系数24，其中给每个频域系数24分配相同的上下文，不管上述的信号化各个频域系数所属的帧26的频谱时间分辨率的信号作用。可选地，作为第二示例，提取器12可使用哈夫曼(Huffman)解码以及不考虑规定帧26的分辨率的信号用下定义一组哈夫曼码字。

针对频域系数24描述频谱图28的方式，存在不同可能性。例如，频域系数24可仅代表一些预测残差。例如，频域系数可至少部分地代表预测的剩余，其至少部分地已经由立体声预测从信号频谱图28所属的多声道音频信号外的代表对应的音频声道或者降混的另一音频信号来获得。可选地，或者除了预测残差之外，根据M/S立体声模式[5]，频域系数24可代表总和(中间)信号或是差值(边)信号。进一步，频域系数24可已经受到时域噪声整形。

除此之外，频域系数12被量化，并且为了保持量化误差低于心理听觉检测(或遮蔽)阈值，例如，以由与频域系数24相关联的各个比例因子所控制的方式，频谱地变化量化步骤大小。比例因子提取器14负责从数据流20提取比例因子。

以下简略地详细说明在帧与帧之间的不同频谱时间分辨率之间的切换，注意以下。如以下详细描述，不同频谱时间分辨率之间的切换指示在特定的帧26内，所有的频域系数24属于一个变换，或者各个帧26的频域系数24实际上属于不同变换，例如两个变换，其变换长度是上述的一个变换的变换长度的一半。下文中参考附图描述的实施例假设一方面的一个变换以及另一方面的两个变换之间的切换，但实际上，一个变换以及两个以上的变换之间的切换是原则上可行的，同样地，下面给出的实施例能轻易地转移至这种可选实施例。

图1使用阴影说明示意实例，其中当前帧为通过两个短变换表示的类型，其中一个已经使用当前帧26的后半部所导出，而另一个已经通过变换音频信号的当前帧26的前半部所获得。由于缩短的变换长度，在使用两个短变换的情形中，频域系数24以其描述帧26的频谱的频谱分辨率被减小，即减半，而时间分辨率增加，即加倍。例如，在图1中，以阴影显示的频域系数24应属于领先变换，而非阴影显示的应属于落后变换。如此，频谱共置的频域系数24描述帧26内的音频信号的相同频谱分量，但是在稍微不同的时间点，即在变换分离帧的两个连续的变换窗口。

在数据流20中，以交错方式传送频域系数24，使得两个不同变换的频谱上对应的频域系数彼此立即接续。换句话说，传送分离变换帧(即，用于其的变换分离被信号化在数据流20中的帧26)的频域系数24，使得如果从频域系数取器12所接收的频域系数24是顺序地排序，如同其为长变换的频域系数，那么它们被以交错的方式按这个顺序布置使得频谱共置频域系数24立即彼此邻接，而且成对的频谱共置频域系数24是根据频谱/频率顺序而排序。有趣的是，以这种方式排序下，交错的频域系数24的顺序看起来相似于由一个长变换获得的频域系数24的顺序。再次，就考虑频域系数提取器12而言，以帧为单元的不同变换长度或频谱时间分辨率之间的切换对于频域系数提取器12是显然的，因此，用于以上下文自适应的方式对频域系数24进行熵编码的上下文选择导致相同的上下文被选择，不管当前帧实际上为长变换帧或者当前帧为分离变换类型而提取器12不知道关于其的信息。例如，频域系数提取器12可根据频谱时间邻居(这个频谱时间邻居在图1中以交错状态定义)中已经编码/解码的频域系数，选择应用于特定的频域系数的上下文。这具有下列的结果。设想，当前编码/解码的频域系数24是图1中使用斜线表示的领先变换的一部分。那么，频谱上紧邻的频域系数实际上为相同领先变换(即图1中阴影区域)的频域系数24。虽然如此，然而，频域系数提取器12针对上下文选择使用属于落后变换的频域系数，即频谱上相邻的(根据缩短变换的减少频谱分辨率)，假设后者是当前频域系数24的一个长变换的紧邻频谱邻居。同样地，在选择用于落后变换的频域系数24的上下文时，频域系数提取器12使用属于领先变换的频域系数24作为紧邻频谱邻居，而实际上与这个系数频谱上共置。特别的是，当前帧26的系数24之间定义的解码顺序，例如，从最低频率到最高频率。当频域系数24被解交错排序时，在频域系数提取器12用于以立即连续的频域系数24的群/元组熵解码当前帧26的频域系数24的情形中，相似观察是有效的。代替使用仅属于相同短变换的频谱上相邻的频域系数24的元组，频域系数提取器12将基于属于不同变换的频域系数24的混合的频谱上相邻元组，针对属于不同短变换的频域系数24的混合的特定元组选择上下文。

由于上述的事实，在交错状态中，由两个短变换获得的频谱结果看起来非常相似于由一个长变换获得的频谱。因频域系数提取器12关于变换长度切换进行的不可知论的操作而导致的熵编码损失是低的。

继续描述解码器10的比例因子提取器14，如上所述，比例因子提取器14负责从数据流20提取频域系数24的比例因子。比例因子以其被分配给频域系数24的频谱分辨率比长变换所支持的相对细微的频谱分辨率粗糙。如大括号30所示，频域系数24可被分群成多个比例因子带。可根据心理听觉思维来选择比例因子带的细分，例如，与所谓的Bark(或临界)带相一致。如同比例因子提取器14以及频域系数提取器12无关变换长度切换，正如频域系数提取器12一样，比例因子提取器14假设每个帧26被细分成相等的多个比例因子带30(不考虑变换长度切换信号作用)，并为每个比例因子带30提取比例因子32。在编码器侧，在非解交错状态下完成频域系数24对比例因子带30的归属，如图1所示。结果，就关于对应于分离变换的帧26而言，每个比例因子32属于领先变换的频域系数24以及落后变换的频域系数24所组成的群组。

逆变换器16用于接收每个帧26对应的频域系数24以及对应的比例因子32，并将根据比例因子32缩放的帧26的频域系数24进行逆变换以获得音频信号的时域部分。逆变换器16可使用重叠变换，例如修正离散余弦变换(MDCT)。组合器18组合时域部分以获得音频信号，例如通过使用合适的重叠相加过程，导致例如逆变换器16所输出的时域部分的重叠部分内的时域混迭消除。

自然地，逆变换器16针对帧26响应数据流20内信号化的上述变换长度切换。关于图2更详细描述逆变换器16的操作。

图2更详细显示逆变换器16的可能的内部结构。如图2所指示，逆变换器16针对当前帧接收与这个帧相关联的频域系数24以及相对应的比例因子32以反量化频域系数24。进一步，对于每个帧，通过数据流20中存在的信号作用34控制逆变换器16。逆变换器16可进一步由数据流20的(选择性包括在其中的)其他分量控制。在下列描述中，描述关于这些额外参数的细节。

如图2所示，图2的逆变换器16包括反量化器36、可被激活的解交错器38以及逆变换阶段40。为使下列描述容易理解，针对当前帧从频域系数提取器12所得到的入站频域系数24从0到N–1进行编号。再次，当频域系数提取器12无关于信号作用34(即独立于信号作用操作)，频域系数提取器12以相同方式提供频域系数24给逆变换器16，而不考虑当前帧是分离变换类型或是1变换类型，即在目前说明情况下频域系数24的数量为N，索引0至N–1与N个频域系数24的关联性也不考虑信号作用34而维持相同。在当前帧是一个或长变换类型的情形中，索引0至N–1对应于从低频率到最高频率的顺序的频域系数24，以及在当前帧是分离变换类型的情形中，索引对应于当根据其频谱序而频谱布置的频域系数的顺序，但是以交错方式布置使得每个第二频域系数24属于落后变换，而其他属于领先变换。

相似事实也适用于比例因子32。当比例因子提取器14以无关于信号作用34的方式操作，来自比例因子提取器14的比例因子32的数量、顺序以及数值都与信号作用34无关，图2中示例性地标示为S₀至S_M的比例因子32，其中索引与这些比例因子相关联的比例因子带之间的频谱顺序相对应。

以与频域系数提取器12以及比例因子提取器14相似的方式，反量化器36可无关于或独立于信号作用而操作。反量化器36使用与各个频域系数所属的比例因子带相关联的比例因子，来反量化或缩放入站频域系数24。再次，入站频域系数24与各个比例因子带的从属关系独立于信号作用34，因此入站频域系数24与比例因子32的相关联性独立于信号作用34。如此，逆变换器16以频谱分辨率(其与信号作用相独立)根据比例因子32对频域系数24进行缩放。例如，反量化器36，独立于信号作用34，将索引0至3的频域系数分配至第一比例因子带以及第一比例因子S₀，索引4至9的频域系数分配给第二比例因子带以及比例因子S₁，等等。比例因子边界仅是说明性的。例如，为了反量化频域系数24，反量化器36可以使用相关联的比例因子进行乘法，即计算频域系数x₀为x₀·s₀，…x₃为x₃·s₀、x₄为x₄·s₁、…x₉为x₉·s₁，等等。可选地，反量化器36可从比例因子带定义的粗糙频谱分辨率进行实际上用于频域系数的反量化的比例因子的内插。内插可独立于信号作用34。然而，可选地，为了依照当前帧是分离变换类型还是一个/长变换类型来解释频域系数24的不同频谱时间采样位置，内插可与信号作用相关。

图2显示直至可激活的解交错器38的输入侧，频域系数24之间的顺序维持相同，并且直到那点，至少基本上关于整体操作而应用。图2显示可激活的解交错器38的上游，逆变换器16可执行进一步操作。例如，逆变换器16可用于将噪声填充应用至频域系数24上。例如，在频域系数24的顺序中，可识别出比例因子带，即索引0至N-1的顺序下的入站频域系数的群组，其中各个比例因子带的所有频域系数24都被量化成零。例如，可例如使用伪随机数发生器产生人工噪声以填充频域系数。可使用各个比例因子带的比例因子来调整填充至零量化比例因子带的噪声的强度/位准，而这对于缩放是不需要的，因为其中的频谱系数全为零。这种噪声填充示于图2中的40处，并且在专利EP2304719A1[6]的实施例中被更详细地描述。

图2进一步显示逆变换器16可用于支持联合立体声编码和/或声道间立体声预测。在声道间立体声预测的框架下，例如，逆变换器16可以从音频信号的另一声道预测42通过索引0至N–1的顺序表现的非解交错设置的频谱。即，频域系数24可以描述立体声音频信号的声道的频谱图，逆变换器16用于处理频域系数24作为从立体声音频信号的其他声道得到的预测信号的预测残差。例如，独立于信号作用在一些频谱间隔下进行声道间立体声预测。例如，控制复数立体声预测42的复数预测参数44可以针对上述比例因子带中的特定一些激活复数立体声预测42。对于通过复数预测参数44的方式激活复数预测的每个比例因子带，以0至N–1的顺序设置的位于各个比例因子带内的缩放频域系数24，将与从立体声音频信号的其他声道获得的声道间预测信号加总。包含在各个比例因子带的复数预测参数44内的复数参数可以控制预测信号。

进一步，在联合立体声编码框架内，逆变换器16可以用于进行MS解码46。即，图1的解码器10执行目前所述的操作两次，一次用于立体声音频信号的第一声道，另一次用于立体声音频信号的第二声道，且由数据流20内的MS参数来控制，逆变换器16可以MS解码这两个声道或者照它们的原样放着，即立体声音频信号的左声道以及右声道。MS参数48可以例如以比例因子带或其群组为单元，在帧水平上或者设置在一些更精细的水平上进行MS编码之间的切换。例如，在激活的MS解码的情形中，逆变换器16可以形成以系数顺序0至N–1的对应的频域系数24、以及立体声音频信号的其他声道的对应的频域系数的和，或者其差。

接着，图2显示可激活的解交错器38针对当前帧响应信号作用34，以便在当前帧由信号作用34而信号化成分离变换帧的情形中，解交错入站频域信号以获得两个变换，即领先变换50以及落后变换52，以及在信号作用34指示当前帧为长变换帧的情形下，让频域系数交错以导致一个变换54。在解交错的情形中，解交错器38由50以及52形成一个变换，由具有偶数索引的频域系数形成第一短变换，以及由奇数索引位置处的频域系数形成另一短变换。例如，偶数索引的频域系数可以形成领先变换(当在索引0开始)，而其他频域系数形成落后变换。对变换50以及52进行更短变换长度的逆变换，以分别导致时域部分56以及58。图1的组合器18正确地时间定位时域部分56以及58，即导致领先变换50的时域部分56在导致落后变换52的时域部分58之前，并在其间以及与从音频信号的先前帧与后续帧得到的时域部分进行重叠相加处理。在非解交错的情形中，抵达交错器38的频域系数构成长变换54，而逆变换阶段40在其上进行反变换，以产生在当前帧26的全部时间间隔上以及外延伸的时域部分60。组合器18组合时域部分60以及从音频信号额先前帧以及后续帧得到的各个时域部分。

目前为止所述的频域音频解码器以与不响应信号作用的频域音频解码器兼容的方式使能变换长度切换。特别的是，此“老式”解码器错误地假定实际上由信号作用34信号化为分离变换类型的帧为长变换类型。即，错误地让分离类型频域系数交错，以及执行长变换长度的逆变换。然而，重建音频信号的受影响的帧的结果质量仍然是非常的合理。

因而，编码效率损失也仍然非常合理。编码效率损失因忽视信号作用34而产生，而频域系数以及比例因子在不考虑不同系数的意义以及利用这个变化的情况下进行编码，从而增加编码效率。然而，相比于向后兼容的优点，后者损失比较小。关于激活以及停用仅在图2中通过索引0至N–1定义的解交错状态的连续频谱部分(比例因子带)中的噪声填充器40、复数立体声预测42以及MS解码46的限制，后者的描述也是真的。渲染控制这些编码工具的机会，尤其是对于(例如具有两个噪声水平的)帧的类型，可能会提供优点，但是这些优点被具有向后兼容性的优点过补偿。

图2显示图1的解码器甚至可以用于支持TNS编码，但是仍然保持与对信号作用34不敏感的解码器的向后兼容性。特别的是，图2显示在任何复数立体声预测42以及MS解码46之后进行逆TNS滤波的可能性，如果有的话。为了维持向后兼容性，逆变换器16用于使用各个TNS系数64在N个系数的序列上进行逆TNS滤波62，而不考虑信号作用34。通过这个措施，数据流20同样地编码TNS系数64，而不考虑信号作用34。即，TNS系数的数值以及编码TNS系数的方式是相同的。然而，逆变换器16用于不同地应用TNS系数64。在当前帧为长变换帧的情形中，在长变换54(即，以交错状态排序的频域系数)上进行逆TNS滤波，以及在当前帧被信号作用34信号化成分离变换帧的情形中，逆变换器16系将TNS滤波器62反转成领先变换50以及落后变换52的级联，即索引0、2、…N-2、1、3、5…N-1的频域系数顺序。例如，逆TNS滤波62涉及使用滤波的逆变换器16，其传递函数被根据已经通过处理上游解交错器38的顺序的解交错或是交错系数序列上的TNS系数64而设定。

如此，意外地处理分离变换类型的帧为长变换帧的“老式”解码器将编码器通过分析连续的两个短变换(即50以及52)产生的TNS系数64应用到变换54上，并且因此，通过应用到变换54上的逆变换产生不正确的时域部分60。然而，在限制使用分离变换帧于信号表示雨或喝彩或其他相似气氛的场合的情形中，听者甚至对于解码器上的这个质量衰减可以是可忍受的。

为了完整起见，图3显示逆变换器16的逆TNS滤波62也可插入图2所示的处理顺序中的任何地方。例如，逆TNS滤波62可位于复数立体声预测42的上游。为了维持逆TNS滤波62下游与上游的解交错域，图3显示频域系数24仅预先解交错66的情形，以便在解交错连续状态内进行逆TNS滤波68，其中如目前为止处理的频域系数24是索引0、2、4…N-2、1、3…N-3、N-1的顺序，基于此，解交错被反转70，以再次获得交错顺序0、1、2…、N-1下的反TNS滤波版本的频域系数。图2所示的处理步骤顺序内的逆TNS滤波62的位置可为固定的或是可经由数据流20信号化，例如逐帧基础上或者以一些其他间隔。

应注意的是，为了简化本说明，上述实施例仅专注在长变换帧以及分离变换帧的并列(juxtaposition)。然而，通过引入其他变换类型的帧(例如八个短变换的帧)，可以很好地扩展本申请的实施例。在这方面，应注意的是前述不可知论仅有关于以进一步信号作用方式与任何第三变换类型的其他帧区别的帧，使得通过检查所有帧包含的信号作用，“老式”解码器意外地将分离变换帧当长变换帧处理，而仅与其他帧(除了分离变换帧以及长变换帧以外的所有帧)区别的帧将包含信号作用34。就考虑其他帧(除了分离变换帧以及长变换帧之外的所有帧)而言，应该注意到的是提取器12以及14的操作模式(例如上下文选择等等)可以取决于进一步信号作用，即，操作模式可不同于应用于分离变换帧以及长变换帧的操作模式。

在描述配合上述解码器实施例的合适编码器之前，上述实施例的实现方式被描述，其适合因此升级xHE-AAC基础的音频编解码器/解码器，以允许以向后兼容方式支持变换分离。

即，下面描述如何在基于MPEG-DxHE-AAC(USAC)的音频编解码器中进行变换长度分离，以达到在低比特率下改进特定音频信号的编码质量的目的的可能性。变换分离工具被信号化为部分向后兼容性，使得遗留的xHE-AAC解码器可根据上述实施例分析以及解码比特流，而没有明显音频错误或掉音。如下文中将显示，部分向后兼容信号作用利用帧句法元素的未用的可能数值，以有条件地编码方式来控制噪声填充的使用。而遗留的xHE-AAC解码器对各个噪声填充句法元素的可能数值是不敏感的，但强化的音频解码器是敏感的。

特别的是，与上面描述的实施例一致，以下描述的实现方式使得实现为类似雨或者喝彩的编码信号提供中间变换长度，优选地，分离长区块，即两个顺序的变换，每个为长区块的频谱长度的一半或四分之一，这些变换之间的最大时间重叠低于连续的长区块之间的最小时间重叠。为了允许具有变换分离(即信号作用34)的编码比特流被传统的xHE-AAC解码器读取以及分析，应以部分向后兼容的方式使用分离﹕此变换分离工具的存在不应造成传统解码器停止解码或者甚至开始解码。xHE-AAC基础架构下比特流的可读性也可促进市场普及。为了达到上述的部分向后兼容的目的以在xHE-AAC或其潜在衍生品中使用变换分离，经由xHE-AAC的噪声填充信号作用对变换分离进行信号化。与上述实施例兼容，为了将变换分离构建到xHE-AAC编解码器/解码器中，代替频域(FD)停止开始窗顺序，可使用两个分离、半长度变换组成的分离变换。对于不支持变换分离的解码器，即传统的xHE-AAC解码器，以逐个系数的方式将时间上顺序的半长度变换交错成单个类停止开始区块。以下将描述经由噪声填充信号作用进行信号化。特别的是，8-比特噪声填充边信息可用于传输变换分离。这是可行的，因为即使待应用的噪声水平为零，MPEG-D标准[4]描述传送所有的8比特。在这种状况下，一些噪声填充比特可重复用于变换分离，即用于信号作用34。

关于传统xHE-AAC解码器的比特流分析以及播放的部分向后兼容性可如下确认。变换分离被经由零的噪声位准而信号化，即前三个噪声填充位皆为零值，接续有包含关于变换分离以及消失噪声位准的边信息的五个非零位(传统上代表噪声偏移)。因为如果3-比特噪声位准为零，传统的xHE-AAC解码器忽视5比特偏移，变换分离信号作用34的存在仅对传统解码器中的噪声填充有影响﹕因为前三个比特皆为零所以噪声填充被关闭，而解码操作的剩余部分如预期地运行。特别的是，分离变换的处理与全长反变换的传统停止开始块相似(由于上述系数交错)，并且没有执行解交错。因此，因为不需要在到达变换分离类型的帧时消音输出信号22或者甚至中止解码，所以传统的解码器仍然提供增强数据流/比特流20的“优美”解码。自然地，与根据图1的适当解码器的解码相比，传统的解码器不能提供分离变换帧的正确重建，导致受影响的帧的质量恶化。尽管如此，假设如预期地使用变换分离，即仅在低比特率下将变换分离用于瞬态或是噪音输入，通过xHE-AAC解码器的质量应该比受影响的帧由于消音或是导致明显播放错误的其他原因而掉音，更好。

具体地，xHE-AAC编码器/解码器的延伸朝向变换分离，如下所述。

根据以上所述，用于xHE-AAC的新工具可被称为变换分离(TS)。其将是xHE-AAC或者例如基于USAC[4]的MPEG-H 3D-音频的频域(FD)编码器中的新工具。然后，变换分离可被用于特定瞬态信号通道上，以代替常规的长变换(其导致低比特率下的时间模糊，尤其预回声)或是八个短变换(其导致低比特率下的频谱空洞以及幻影伪迹(bubble artifact))。然后，可能通过将FD系数交错成长变换，而部分向后兼容地信号化TS，其中可通过传统的MPEG-D USAC解码器正确地分析长变换。

这个工具的描述与上述内容相似。当TS活跃于长变换，两个半长度MDCT被应用代替一个全长MDCT，并且两个MDCT，即50以及52的系数以逐线交错方式传送。例如，在FD(停止)开始变换的情形中，交错传送已经使用，第一实时MDCT的系数系放置在偶数索引而第二实时MDCT的系数放置在奇数索引(索引从0开始)，但是不能处理停止-开始变换的解码器已经不能正确地分析数据流。即，由于用于熵编码频域系数的不同上下文为停止-开始变换服务，变化的句法被串流到半变换上，不能支持停止-开始窗口的任何解码器必须忽略各个停止-开始窗口帧。

请再参阅上述实施例，这意味着上述描述以外，图1的解码器可以可选地支持其他变换长度，即使用延伸信号作用34的信号作用将特定帧26划分成甚至多于两个变换。然而，关于帧26的变换划分的并列，与使用信号作用34激活的分离变换不同，FD系数提取器12以及比例因子提取器14将对信号作用敏感，其操作模式将依照除了信号作用34之外的额外信号作用进行改变。进一步，TNS系数、MS参数以及复数预测参数的串流传送，其定制成信号化变换类型而不是根据56和59的分离变换类型，需要每一个解码器必须能响应(即了解)包含根据60的长变换类型的这些“已知变换类型”或者帧和其他变换类型(例如，如在AAC的情况中，将一个帧划分成八个短变换)之间的信号作用选择。在此情况中，这个“已知信号作用”识别对于其信号作用34信号化分离变换类型的帧作为长变换类型的帧，使得不能了解信号作用34的解码器将这些帧当长变换帧而不是其他类型帧(例如8个短变换类型帧)处理。

请再回到xHE-AAC的可能延伸的描述，为了将TS工具构建至编码框架，可提供特定的操作限制。例如，TS可仅在FD长-开始或停止-开始窗中使用。即，下面的句法元素window_sequence可被请求为等于1。此外，由于部分向后兼容信号化，可要求TS仅当句法元素noiseFilling在句法容器UsacCoreConfig()中为1时应用TS。当TS被信号化为活跃时，除了TNS以及逆MDCT之外的所有FD工具操作在TS系数的交错(长)组上。这许比例因子带偏移和长变换算术编码表以及窗口形状以及重叠长度的再使用。

下面，呈现下文中使用的术语以及定义，以便说明[4]中描述的USAC标准如何被延伸提供向后兼容TS功能。针对有兴趣的读者，有时参考标准内的章节。

新的数据元素可为：

split_transform二元标志，其指示当前帧以及声道中是否利用TS

新的帮助元素可为：

window_sequence 用于当前帧以及声道的FD窗口顺序类型(章节6.2.9)

noise_offset 用于修改零量化带的比例因子的噪声填充偏移(章节7.2)

noise_level 噪声填充位准，其代表增加的频谱噪声的幅度(章节7.2)

half_transform_length coreCoderFrameLength(ccfl，变换长度)的一半(章节6.1.1)

half_lowpass_line 为当前声道所传送的MDCT线的数量的一半

在USAC框架中使用变换分离(TS)进行FD(停止-)开始变换的解码可按如下所示的纯顺序步骤执行：

首先，可执行split_transform以及half_lowpass_line的解码。

split_transform实际上不代表独立比特流元素，而是从噪声填充元素noise_offset以及noise_level，以及UsacChannelPairElement()的情形中，StereoCoreToolInfo()中的common_window标志所得到。如果noiseFilling＝＝0，split_transform为0。否则，

if((noiseFilling！＝0)&&(noise_level＝＝0)){

split_transform＝(noise_offset&16)/16；

noise_level＝(noise_offset&14)/2；

noise_offset＝(noise_offset&1)*16；

}

else{

split_transform＝0；

}

换句话说，如果noise_level等于0，noise_offset包含split_transform标志，其后接着4位的噪声填充数据，然后重新设置。因为此操作改变noise_level以及noise_offset的数值，其必须在章节7.2的噪声填充过程之前执行。此外，如果UsacChannelPairElement()中common_window等于1，则仅在左(第一)声道中确定split_transform；右声道的split_transform被设定等于左声道的split_transform(即复制)，并且上述伪代码没不在右声道执行。

Half_lowpass_line从当前声道的“长”比例因子带偏移表、swb_offset_long_window以及max_sfb，或者立体声以及common_window等于1的情形中的max_sfb_ste确定。

max_sfb_ste具有StereoCoreToolInfo()以及common_window＝＝1的元素中,

lowpass_sfb＝

max_sfb否则。

基于igFilling标志,得到half_lowpass_line:

if(igFilling！＝0){

lowpass_sfb＝max(lowpass_sfb,ig_stop_sfb)；

}

half_lowpass_line＝swb_offset_long_window[lowpass_sfb]/2；

然后，在第二步骤，执行针对时域噪声整形的半长度频谱的解交错。

在频谱反量化、噪声填充以及比例因子应用之后以及在时域噪声整形(TNS)应用之前，使用helper buffer[]解交错spec[]中的TS系数：

for(i＝0,i2＝0；i<half_lowpass_line；i+＝1,i2+＝2){

spec[i]＝spec[i2]；/*隔离第一窗口*/

buffer[i]＝spec[i2+1]；/*隔离第二窗口*/

}

for(i＝0；i<half_lowpass_line；i+＝1){

spec[i+half_lowpass_line]＝buffer[i]；/*复制第二窗口*/

}

适当的解交错在彼此之上有效地放置两个半长度TS频谱，以及

现在TNS工具照常在产生的全长伪频谱上运作。

参照上文，已经关于图3描述这个过程。

然后，在第三步骤中，随着两个顺序的逆MDCT使用临时再交错。

如果当前帧中common_window等于1或是TNS解码之后执行立体声解码(章节7.8中tns_on_lr等于0)，spec[]必须暂时地再交错成全长频谱：

for(i＝0；i<half_lowpass_line；i+＝1){

buffer[i]＝spec[i]；/*复制第一窗口*/

}

for(i＝0,i2＝0；i<half_lowpass_line；i+＝1,i2+＝2){

spec[i2]＝buffer[i]；/*合并第一窗口*/

spec[i2+1]＝spec[i+half_lowpass_line]；/*合并第二窗口*/

}

产生的伪频谱被用于立体声解码(章节7.7)以及更新dmx_re_prev[](章节7.7.2以及A.1.4)。在tns_on_lr等于0的情形中，立体声解码全长频谱被再次解交错，通过重复章节A.1.3.2的处理。最后，2个逆MDCT通过ccfl以及当前帧以及最后帧的声道window_shape计算2个逆MDCT。参见章节7.9以及图1。

可以对xHE-AAC的复数预测立体声解码作一些修改。

为了将TS构建到xHE-AAC，可以可选地使用隐式部分向后兼容信号化方法。

上述方法使用比特流中的一位将本发明的变换分离(包含在split_transform中)传送至本发明的解码器。特别的是，这种信号化(称其为显式部分向后兼容信号化)允许下列传统比特流数据(在此为噪声填充边信息)独立于本发明的信号使用﹕在本实施例中，噪声填充数据不取决于变换分离数据，反之亦然。例如，可传送由全零组成的噪声填充数据(noise_level等于noise_offset等于0)，而split_transform可持有任何可能数值(二元标志，0或是1)。

在传统的比特流数据以及本发明的比特流数据之间并不需要严格独立，并且本发明的信号系为二元决策的情形中，可避免信号化位的明示传送，而二元决策可由隐式部分向后兼容信号化的存在或缺乏以信号化。再次以上述实施例为例，变换分离的使用可通过简单使用本发明的信号化来传送：如果noise_level为零而同时noise_offset为非零，则split_transform设定等于1。如果noise_level以及noise_offset都不为零，则split_transform设定等于0。当noise_level以及noise_offset为零，本发明的隐式信号对传统的噪声填充信号的依赖增加。在此情形中，不清楚是使用传统的或是本发明的隐式信号化。为了避免此不明确，split_transform的值必须预先定义。在当前示例中，如果噪声填充数据全部由零组成，则split_transform适合定义为0，因为这是当噪声填充并未使用于帧中时，没有变换分离的传统编码器应信号化的。

在隐式部分向后兼容信号化的情形中待解决的问题在于如何同时信号化split_transform等于1以及没有噪声填充。如说明，噪声填充数据必须不是全部为零，以及如果请求零的噪声幅度，noise_level((noise_offset&14)/2，如上所述)必须等于0。这仅留下大于0的noise_offset((noise_offset&1)*16，如上所述)作为解决方案。幸运地，如果在基于USAC[4]的解码器中没有执行噪声填充，则可忽略noise_offset的值，如此这个方法在本实施例中被证实为可行的。因此，上述伪代码中的split_transform的信号化可如下修改，对于noise_offset使用储存的TS信号化位来传送2比特(4个数值)，而不是1比特：

if((noiseFilling！＝0)&&(noise_level＝＝0)&&(noise_offset！＝0)){

split_transform＝1；

noise_level＝(noise_offset&28)/4；

noise_offset＝(noise_offset&3)*8；

}

else{

split_transform＝0；

}

因此，使用此替换实施方式，USA C的描述可使用下列描述而延伸。

工具描述很大程度上相同。即：

当变换分离(TS)活跃于长变换中时，两个半长度MDCT被应用代替一个全长MDCT。两个MDCT的系数被以逐线交错的方式传送作为传统频域(FD)变换，且第一实时MDCT的系数被放置在偶数索引而第二实时MDCT的系数被放置在奇数索引。

操作上的限制可能需要，TS仅使用于FD长-开始或是停止-开始窗(window_sequence等于1)，以及仅当noiseFilling在UsacCoreConfig()中为1时才使用TS。当TS被信号化时，除了TNS以及逆MDCT之外的所有FD工具操作在TS系数的交错(长)组上。这允许比例因子带偏移和长变换算术编码表以及窗口形状和重叠长度的再使用。

下文中使用的术语和定义涉及以下帮助元素：

common_window 指示如果CPE的声道0以及声道1使用相同的窗口参数(参见ISO/IEC23003-3:2012章节6.2.5.1.1)。

window_sequence 用于当前帧以及声道的FD窗口顺序类型(参见ISO/IEC23003-3:2012章节6.2.9)。

tns_on_lr 指示用于TNS滤波的操作模式(参见ISO/IEC23003-3:2012章节7.8.2)。

noiseFilling 这个标志信号化FD核心编码器中的频谱空洞的噪声填充的使用(参见ISO/IEC23003-3:2012章节6.1.1.1)。

noise_offset 噪声填充偏移以修改零量化频带的比例因子(参见ISO/IEC23003-3:2012章节7.2)

noise_level 噪声填充位准，其代表增加的频谱噪声的幅度(参见ISO/IEC23003-3:2012章节7.2)。

split_transform 二元标志，其指示当前帧以及声道中是否利用TS。

half_transform_length CoreCoderFrameLength(ccfl，变换长度)的一半(参见ISO/IEC23003-3:2012章节6.1.1)。

half_lowpass_line 针对当前声道所传送的MDCT线的数量的一半

如下所示描述涉及TS的解码处理。特别的是，使用TS的FD(停止-)开始变换的解码系以如下所示的三个顺序步骤执行。

首先，可执行split_transform以及half_lowpass_line的解码。帮助元素split_transform不代表独立比特流元素，而是从噪声填充元素noise_offset以及noise_level，以及UsacChannelPairElement()的情形中，StereoCoreToolInfo()中的common_window标志得到。如果noiseFilling等于0，split_transform为0。否则:

换句话说，如果noise_level等于0，noise_offset包含split_transform标志，其后接着4位的噪声填充数据，然后重新配置。因为此操作改变noise_level以及noise_offset的数值，其必须在ISO/IEC 23003-3:2012章节7.2的噪声填充过程之前执行。

此外，如果在UsacChannelPairElement()中common_window等于1，则仅在左(第一)声道中确定split_transform；右声道的split_transform设定等于左声道的split_transform(即复制)，并且上述伪代码不在右声道执行。

帮助元素Half_lowpass_line从当前声道的“长”比例因子带偏移表、swb_offset_long_window以及max_sfb确定，或是在立体声以及common_window等于1的情形中，从max_sfb_ste确定。

根据igFilling标志，得到half_lowpass_line：

if(igFilling！＝0){

lowpass_sfb＝max(lowpass_sfb,ig_stop_sfb)；

}

half_lowpass_line＝swb_offset_long_window[lowpass_sfb]/2；

然后，执行针对时域噪声整形的半长度频谱的解交错。

频谱反量化、噪声填充以及比例因子应用之后以及在时域噪声整形(TNS)应用之前，使用helper buffer[]解交错spec[]中的TS系数：

适当的解交错在彼此之上有效地放置两个半长度TS频谱，而且现在TNS工具如常运作在产生的全长伪频谱上。

最后，可使用临时再交错以及两个顺序的逆MDCT：

如果当前帧中common_window等于1或是在TNS解码之后执行立体声解码(章节7.8中tns_on_lr等于0)，spec[]必须被暂时地再交错成全长频谱﹕

产生的伪频谱被用于立体声解码(ISO/IEC 23003-3:2012章节7.7)以及更新dmx_re_prev[](ISO/IEC 23003-3:2012章节7.7.2)以及在tns_on_lr等于0的情形中，立体声解码全长频谱被再次解交错，通过重复章节的处理。最后，通过ccfl以及声道的当前帧以及最后帧的window_shape计算2个逆MDCT。

针对TS的处理遵循ISO/IEC 23003-3:2012章节"7.9Filterbank and blockswitching"中给定的描述。应考虑下列补充。

使用N大小的helper buffer[]对spec[]中的TS系数进行解交错，窗口长度基于window_sequence值：

然后，针对半长度TS频谱的IMDCT定义为：

对于

后续的窗口化以及方块切换步骤被定义在下一个子章节中。

具有STOP_START_SEQUENCE的变换分离与下列描述相似：

图2中描述与变换分离结合的STOP_START_SEQUENCE。它包含两个重叠的以及相加的半长度窗口56与58，其中长度N_l/2设定为1024(960，768)。N_s被设定为256(240，192)。

针对两个半长度IMDCT的窗口(0，1)被给定如下：

其中，对于第一IMDCT窗口应用

对于第二IMDCT窗口应用

以下描述两个半长度窗口之间的重叠以及相加产生窗口时域数值zi,n。在此，N_l被设定为2048(1920，1536)，N_s设定为256(240，192)：

具有LONG_START_SEQUENCE的变换分离与下列描述相似：

图4中描述与变换分离结合的LONG_START_SEQUENCE。它包含三个窗口如下所定义，N_l/系设定为1024(960，768)，N_s设定为256(240，192)。

左/右半窗被给定为：

第三窗口等于LONG_START_WINDOW的左半边：

且

以下描述两个半长度窗口之间的重叠以及相加产生中间窗时域数值在此，N_l被设定为2048(1920，1536)，N_s设定为256(240，192)。

最后的窗时域数值Zi,n通过使用W2获得：

对于0≤n＜N_l

不管使用显式还是隐式部分向后兼容信号化，两者都在上面被描述，为了达到交错频谱上有意义的操作，对xHE-AAC的复数预测立体声解码的一些修改是必要的。

对复数预测立体声解码的修改可如下所示实现。

因为当TS活跃于声道对上时FD立体声工具操作在交错的伪频谱上，所以没必要改变下方M/S或者复数预测处理。然而，如果TS用于最后或当前帧中的任一声道，则在ISO/IEC23003-3:2012章节7.7.2中的先前帧的降混dmx_re_prev[]的推导以及降混MDSTdmx_im[]的计算需要被采用。

·use_prev_frame必须是0，如果TS的活动在最后到当前帧的任一声道中有改变。换句话说，由于变换长度切换，在此情况必须不使用dmx_re_prev[]。

·如果TS以前或现在是活跃的，则dmx_re_prev[]以及dmx_re[]指明交错伪频谱而且必须被解交错成对应的两个半长度TS频谱，为了正确MDST计算。

·依照TS活动，2个半长度MDST降混使用自适应滤波器系数(表1以及表2)计算而且交错成全长频谱dmx_im[](与dmx_re[]相似)。

·window_sequence﹕针对每一个群组窗口对，计算降混MDST估计。仅针对两个半窗口对中的第一个评价use_prev_frame。针对剩下的窗口对，总是在MDST估计中使用先前的窗口对，其代表use_prev_frame等于1。

·窗口形状：用于当前窗口的MDST估计参数，其为如下描述的滤波器系数，取决于左半窗和右半窗的形状。对于第一窗口，这意味着滤波器参数为当前以及先前帧window_shape标志的函数。剩余窗口仅被当前window_shape所影响。

表1—当前窗口的MDST滤波器参数(filter_coefs)

表2—先前窗口的MDST滤波器参数(filter_coefs_prev)

最后，为了完整起见，图5示出配合上述实施例的支持变换长度切换的可能的频域音频编码器。即，图5中用附图标记100标示的编码器能够将音频信号102编码成数据流20，使得图1的解码器以及上述的对应变型对于一些帧能够利用变换分离模式的优点，然而“老式”解码器仍然能处理TS帧而没有分析错误等。

图5的编码器100包含变换器104、逆缩放器106、频域系数插入器108以及比例因子插入器110。变换器104接收待编码的音频信号102以及用于对音频信号的时域部分进行变换以获得用于音频信号的帧的频域系数。特别的是，从上述描述可清楚知道，变换器104以逐帧为基础决定使用哪个划分将帧26换分成变换或是变换窗。如上所述，帧26可有相等的长度，而变换可为使用不同长度的重叠的变换的重叠变换。例如，图5示出帧26a进行一个长变换，而帧26b进行变换分离，即分离成两个一半长度的变换，以及另一个帧26c被显示为进行两个以上，例如2ⁿ>2，或甚至更短的2^-n长变换长度的变换。如上所述，通过这个措施，编码器100能够使变换器104执行的重叠变换所表现的频谱图的频谱时间分辨率适应时变音频内容或音频信号102的音频内容的种类。

即，变换器104的输出端产生的频域系数代表音频信号102的频谱图。逆缩放器106连接至变换器104的输出端，并用于根据比例因子逆缩放且同时量化频域系数。显著地，逆缩放器以变换器104获得的频率系数运作。即，逆缩放器106必须知道针对帧26的变换长度分配或是变换模式分配。还应注意的是逆缩放器106必须确定比例因子。为此，例如，逆缩放器106为反馈回路的一部分，其针对音频信号102估算心理听觉遮蔽阈值，以便在有或没有服从一些比特率限制的情况下尽可能地保持通过量化引进以及根据比例因子逐渐设定的量化噪声，低于检测的心理听觉阈值。

在逆缩放器106的输出端，输出比例因子以及逆缩放且量化的频域系数，比例因子插入器110用于将比例因子插入数据流20，而频域系数插入器108用于将根据比例因子逆缩放而且量化的音频信号的帧的频域系数插入数据流20。在对应于解码器的方式中，就考虑长变换模式的帧26a和变换分离模式的帧26b的并列而言，两个插入器108与110不考虑与帧26相关联的变换模式而操作。

换句话说，插入器110与108独立于上述信号作用34而操作，变换器104用于将信号作用信号化，或插入进针对帧26a与26b数据流20中。

换句话说，在上述实施例中，变换器104适当地设置长变换以及分离变换帧的变换系数，即通过平面串行设置或是交错的，而插入器实际上独立于109而工作。但是在更一般的意义上，如果频域系数插入器与信号作用的独立性受限于依照信号作用而将根据比例因子而逆缩放的音频信号的每个长变换或分离变换帧的频域系数序列插入进数据流中，在帧为长变换帧的情形中，通过以非交错方式顺序地设置各个帧的单个变换的频域系数而形成频域系数序列；在各个帧为分离变换帧的情形中，通过交错各个帧的多于一个变换的频域系数来形成频域系数序列。

就考虑频域系数插入器108而言，其独立于将一方面的帧26a以及另一方面的帧26b区别开的信号作用34而操作的事实意味着，在对于各个帧进行一个变换的情形中，插入器108将根据比例因子逆缩放的音频信号的帧的频域系数以顺序且非交错的方式插入数据流20；以及在对于各个帧进行多于一个变换(即图5的示例中的两个变换)的情形中，以交错方式将各个帧的频域系数插入数据流20。然而，如以上已经表示，变换分离模式也可不同地实现，以便将一个变换分离成两个以上的变换。

最后，应该注意的是也可采用图5的编码器执行关于图2所述的其他额外的编码措施，例如MS编码，复数立体声预测42以及为此确定各个参数44、48以及64的TNS。

虽然已经以装置为背景描述若干方面，但显然这些方面也表示相对应方法的描述，其中块或装置相对应于方法步骤或方法步骤的特性。类似地，以方法步骤为背景描述的方面也表示相对应块或相对应装置的项目或特性的描述。部分或全部方法步骤可通过(或使用)硬件装置执行，例如微处理器、可编程计算机或电子电路。在一些实施例中，最重要的方法步骤中的某一个或多个可通过此种装置执行。

根据某些实现要求，本发明的实施例可以硬件或软件实现。该实现可使用数字存储介质执行，例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存，具有存储在其上的电子可读取控制信号，其与可编程计算机系统协作(或能够协作)，以便执行各个方法。因此，数字存储介质可为计算机可读取的。

根据本发明的一些实施例包括具有电子可读取控制信号的数据载体，电子可读取控制信号能够与可编程计算机系统协作，以便执行此处描述的方法中的一个。

一般而言，本发明的实施例可被实现为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码被操作用以执行此处描述的方法中的一个。程序代码例如可存储在机器可读取载体上。

其它实施例包括存储在机器可读取载体上用以执行此处描述的方法中的一个的计算机程序。

换言之，因此，本发明方法的实施例为具有程序代码的计算机程序，当计算机程序在计算机上运行时，程序代码用以执行此处描述的方法中的一个。

因此，本发明方法的又一实施例为数据载体(或数字存储介质、或计算机可读取介质)，包括记录在其上用以执行此处描述的方法中的一个的计算机程序。数据载体、数字存储介质或记录介质典型地为有形的和/或非暂时性的。

因此，本发明方法的又一实施例为数据流或信号序列，其表示用以执行此处描述的方法中的一个的计算机程序。数据流或信号序列例如可被配置为通过数据通信连接例如通过因特网传送。

又一实施例包括处理元件，例如计算机或可编程逻辑设备，被配置、或被调适以执行此处描述的方法中的一个。

又一实施例包括计算机，其上安装有计算机程序以执行此处描述的方法中的一个。

根据本发明的又一实施例包含被配置为将用于执行此处描述的方法中的一个的计算机程序传送(例如电子地或光学地)给接收器的装置或系统。接收器例如可为计算机、移动装置、存储装置等。装置或系统例如可包含文件服务器用以将计算机程序传送给接收器。

在一些实施例中，可编程逻辑设备(例如现场可编程门阵列)可用以执行此处描述的方法的部分或全部功能。在一些实施例中，现场可编程门阵列可与微处理器协作以执行此处描述的方法中的一个。一般而言，优选地通过任何硬件装置执行方法。

前述实施例仅用于例示本发明的原理。理解的是，此处描述的配置及细节的修改及变化将为本领域的其他技术人员所显然易知。因此意图本发明仅由所附的专利权利要求的范围所限制而非由通过实施例的描述和解释的方式所呈现的特定细节所限制。

参考文献

[1]Internet Engineering Task Force(IETF),RFC 6716,“Definition of theOpus Audio Codec,”Proposed Standard,Sep.2012.Available online at http://tools.ietf.org/html/rfc6716.

[2]International Organization for Standardization,ISO/IEC 14496-3:2009,“Information Technology–Coding of audio-visual objects–Part 3:Audio,”Geneva,Switzerland,Aug.2009.

[3]M.Neuendorf et al.,“MPEG Unified Speech and Audio Coding–The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types,”inProc.132nd Convention of the AES,Budapest,Hungary,Apr.2012.Also to appear inthe Journal of the AES,2013.

[4]International Organization for Standardization,ISO/IEC 23003-3:2012,“Information Technology–MPEG audio–Part 3:Unified speech and audiocoding,”Geneva,Jan.2012.

[5]J.D.Johnston and A.J.Ferreira,"Sum-Difference Stereo TransformCoding",in Proc.IEEE ICASSP-92,Vol.2,March 1992.

[6]N.Rettelbach,et al.,European Patent EP2304719A1,"Audio Encoder,Audio Decoder,Methods for Encoding and Decoding an Audio Signal,Audio Streamand Computer Program",April 2011.

Claims

1.一种支持变换长度切换的频域音频解码器，包括:

频域系数提取器(12)，用于从数据流提取音频信号的帧的频域系数(24)；

比例因子提取器(14)，用于从所述数据流提取比例因子；

逆变换器(16)，用于对根据所述比例因子缩放的所述帧的所述频域系数进行逆变换，以获得所述音频信号的时域部分；

组合器(18)，用于组合所述时域部分以获得所述音频信号，

其中所述逆变换器响应所述音频信号的所述帧内的信号作用，以便依照所述信号作用，

通过以非解交错方式、顺序地设置根据所述比例因子缩放的各个帧的所述频域系数形成一个变换，并对所述一个变换进行第一变换长度的逆变换；或者

通过解交错根据所述比例因子缩放的所述各个帧的所述频域系数形成多于一个变换，并对所述多于一个变换中的每一个进行第二变换长度的逆变换，所述第二变换长度小于所述第一变换长度，

其中所述频域系数提取器以及所述比例因子提取器独立于所述信号作用而操作。

2.如权利要求1所述的频域音频解码器，其中所述比例因子提取器(14)用于以频谱时间分辨率从所述数据流提取所述比例因子，所述频谱时间分辨率独立于所述信号作用。

3.如权利要求1所述的频域音频解码器，其中所述频域系数提取器(12)使用基于上下文或码本的熵解码从所述数据流提取所述频域系数，并且不考虑所述信号作用，对于每个频域系数，分配相同的上下文或者码本给各个频域系数。

4.如权利要求1所述的频域音频解码器，其中所述逆变换器用于以独立于所述信号作用的频谱分辨率，根据所述比例因子对所述频域系数进行缩放。

5.如权利要求1所述的频域音频解码器，其中所述逆变换器用于以独立于所述信号作用的频谱分辨率对所述频域系数进行噪声填充，其中所述频域系数以非解交错方式、顺序地设置。

6.如权利要求1所述的频域音频解码器，其中所述逆变换器用于：

在所述一个变换的形成中，在所述频域系数上应用逆时域噪声整形滤波，其中所述频域系数以非解交错方式、顺序地设置，以及

在所述多于一个变换的形成中，在所述频域系数上应用逆时域噪声整形滤波，其中所述频域系数以解交错方式、顺序地设置，且根据所述解交错方式，所述多于一个变换在频谱上串联。

7.如权利要求1所述的频域音频解码器，其中所述逆变换器用于不考虑所述信号作用，支持有或没有声道间立体声预测的联合立体声编码，并使用所述频域系数作为所述声道间立体声预测的和(中间)或差(边)频谱或预测残差，其中所述频域系数以非解交错方式设置。

8.如权利要求1所述的频域音频解码器，其中所述多于一个变换的数量等于2，以及所述第一变换长度是所述第二变换长度的两倍。

9.如权利要求1所述的频域音频解码器，其中所述逆变换为逆修正离散余弦变换MDCT。

10.一种支持变换长度切换的频域音频编码器，包括:

变换器(104)，用于对音频信号的时域部分进行变换以获得所述音频信号的帧的频域系数；

逆缩放器(106)，用于根据比例因子对所述频域系数进行逆缩放；

频域系数插入器(108)，用于将根据比例因子逆缩放的所述音频信号的所述帧的所述频域系数插入所述数据流中；以及

比例因子插入器(110)，用于将所述比例因子插入所述数据流中，

其中所述变换器用于针对所述音频信号的所述帧，至少在以下操作之间切换：

对于各个帧，进行第一变换长度的一个变换，以及

对于所述各个帧，进行多于一个的第二变换长度的变换，所述第二变换长度小于所述第一变换长度，

其中所述变换器进一步用于通过所述数据流的所述帧内的信号作用将所述切换信号化；

其中所述频域系数插入器用于：

对于各个帧，以独立于所述信号作用的方式，将根据比例因子逆缩放的所述音频信号的所述各个帧的所述频域系数的序列插入所述数据流中，依据所述信号作用，通过以下方式形成所述频域系数的序列：

在对于各个帧进行一个变换的情形中，以非交错方式顺序地设置各个帧的所述一个变换的所述频域系数，以及

在对于各个帧进行多于一个变换的情形中，交错所述各个帧的所述多于一个变换的所述频域系数，

其中所述比例因子插入器独立于所述信号作用而操作。