CN102648495B

CN102648495B - 用于利用适应性过取样产生高频音频信号的装置及方法

Info

Publication number: CN102648495B
Application number: CN201080047626.8A
Authority: CN
Inventors: 拉尔斯·维莱蒙斯; 佩尔·埃克斯特兰德; 萨沙·迪施; 福雷德里克·纳格尔; 斯特凡·维尔德
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV; Dolby International AB
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV; Dolby International AB
Priority date: 2009-10-21
Filing date: 2010-05-25
Publication date: 2014-05-28
Anticipated expiration: 2030-05-25
Also published as: KR101341115B1; CA2778205C; PL2486564T3; CA2778205A1; BR112012009249B1; AR078717A1; KR20120094916A; CN102648495A; TWI431614B; RU2012119259A; US20120281859A1; MX2012004623A; HK1174733A1; JP5844266B2; WO2011047886A1; US9159337B2; TW201133471A; AU2010310041A1; ES2461172T3; JP2013508758A

Abstract

一种用于产生高频音频信号的装置，所述装置包括分析器(12)，用于分析输入信号以适应性地确定瞬时信息。另外设置了频谱转换器(14)以用于将输入信号转换为输入频谱表示型态。频谱处理器(13)处理该输入频谱表示型态以产生经处理的频谱表示型态，该经处理的频谱表示型态包含用于比该输入频谱表示型态更高的频率的值。时间转换器(17)被配置为将该经处理的频谱表示型态转换为时间表示型态，其中，该频谱转换器或该时间转换器为可控制的，以对具有相关联的该瞬时信息的该输入信号的第一部分执行频域过取样，且对不具有相关联的该瞬时信息的该输入信号的第二部分不执行频域过取样。

Description

用于利用适应性过取样产生高频音频信号的装置及方法

技术领域

本发明涉及音频信号的编码，且更具体地涉及包括诸如谐波换位器的频域换位器的高频重建方法。

背景技术

在现有技术中，存在用来利用谐波变换或时间拉伸或类似方式进行高频重建的多种方法。所用的一种方法基于相角音码器(phase vocoder)。这些方法在使用充分高的频率分辨率进行频率分析且在合成信号之前在频域内进行信号修改的原理下操作。时间拉伸或变换取决于分析窗口、分析窗口步幅、合成窗口、合成窗口步幅以及分析信号的相位调整的组合。

与这些方法共同存在的一个不可避免的问题在于为得到稳定声音所需的高质量变换所需的频率分辨率与系统对于瞬时声音的瞬时响应之间的矛盾。

采用相角音码器的算法如例如描述于以下文献中：M.Puckette.Phase-locked Vocoder，IEEE AS SP Conference on Applications of SignalProcessing to Audio and Acoustics，Mohonk，1995；

A.：Transientdetection and preservation in the phase vocoder；citeseer.ist.psu.edu/679246.html；Laroche L.，Dolson M.：····Improved phase vocoder timescalemodification of audio··，IEEE Trans.Speech and Audio Processing，vol 7，no.3，pp.323-332及美国专利第6549884号，Laroche，J.及Dolson，M.：Phase-vocoder pitch-shifting for the patch generation，该算法已出现在Frederik Nagel、Sascha Disch，····A harmonic bandwidth extension method foraudio codecs··，ICASSP International Conference on Acoustics，Speech andSignal Processing，IEEE CNF，台湾台北，2009年4月中。然而，由于并未保证次频带上的垂直相干性能保存在标准的相角音码器算法中，且此外离散傅立叶变换(DFT)相位的重新计算必须执行于隐式地假定循环周期性的变换的隔离时间区块上，故称为“谐波频宽扩展”(HBE)的方法易于对包含在音频信号中的瞬态造成质量劣化，如在Frederik Nagel，SaschaDisch，Nikolaus Rettelbach，··A phase vocoder driven bandwidth extensionmethod with novel transient handling for audio codecs··，126^th AESConvention，Munich，Germany，May 2009中所描述的。

已知可以特定地观察到基于区块的相角音码器处理而导致的两种假像。具体地，这两种假像为波形及时间频迭的分散，这归因于由于应用新近所计算的相位而导致的信号的时间循环回旋效应。

换言之，因为在BWE算法中对音频信号的频谱值应用相位修改，所以可以使音频信号区块中包含的瞬态(transcient)回绕该区块，即，使其循环地卷绕回至该区块中。这导致了时间频迭，且因此导致音频信号的劣化。

因此，应采用对含有瞬态的信号部分进行特殊处理的方法。然而，特别是由于BWE算法是在编译码器链的译码器端执行的，故计算复杂性是一个严重问题。因此，针对上文提及的音频信号劣化的措施优选地不应以大量增加计算复杂性为代价来进行。

发明内容

本发明的目的在于提供用于产生高频音频信号的有效且高质量的概念。

该目的通过根据权利要求1的用于产生高频音频信号的装置、根据权利要求14的产生高频音频信号的方法或根据权利要求15的计算机程序来时限。

本发明利用的特征为：单独地处理瞬态，即，不同于音频信号的非瞬时部分。为此，用于产生高频音频信号的装置包括分析器，用于分析输入信号以确定瞬时信息，其中，对于该输入信号的第一部分，瞬时信息被相关联，而该输入信号的第二随后时间部分不具有该瞬时信息。实际上，该分析器可分析音频信号本身，即，通过分析其能量分布或能量改变来确定瞬时部分。这需要某种预看措施以使得例如事先在某一时间分析核心编码器输出信号，以便可基于该核心编码器输出信号使用该分析的结果来产生高频音频信号。一种不同的可选方案在于对编码器端执行瞬时检测，且使诸如位流中的某一位的某一侧信息与具有瞬时特性的信号的时间部分相关联。随后，分析器被配置为用于从位流提取瞬时信息位以确定该输入音频信号的某一部分是否为瞬时的。另外，用于产生高频音频信号的装置包括频谱转换器，该频谱转换器用于将输入信号转换为输入频谱表示型态。在滤波器组域内执行高频重建，即，继利用该频谱转换器进行频谱转换之后。为此，频谱处理器处理该输入频谱表示型态以产生经处理的频谱表示型态，该经处理的频谱表示型态包含用于比该输入频谱表示型态更高的频率的值。转换回至时域的程序由随后连接的时间转换器来进行的，以用于将该经处理的频谱表示型态转换为时间表示型态。根据本发明，该频谱转换器及/或该时间转换器为可控制的，以对具有相关联的瞬时信息的输入信号的第一部分执行频域过取样，且对不具有相关联的瞬时信息的输入信号的第二部分不执行频域过取样。

本发明之优势在于其使得复杂性降低，而同时对于诸如组合的滤波器组中的谐波变换的变换仍保持良好的瞬时特性。因此，本发明包含具有在滤波器组中的组合换位器的频率下进行适应性过取样功能的装置及方法，其中，根据优选实施方式，该过取样由瞬时检测器来控制。

在一个优选实施方式中，频谱处理器执行自基本频带至第一高频带部分，更优选地，诸如三个或四个高频带部分的另外的高频带部分的谐波变换。在一个实施方式中，每一高频带部分具有单独的合成滤波器组，诸如反向FFT。在另一实施方式中(该实施方式在计算上更为有效)，利用诸如单个1024反向FFT的单个合成滤波器组。对于这两种情况，频域过取样为通过使变换大小增加诸如因子1.5的过取样因子来获得。通过优选地执行零填补，即，通过在窗口式帧的第一值之前添加某一数量的零且通过在窗口式帧结束处添加另一数量的零，来获得另外的FFT输入。响应于FFT控制信号，该过取样增加该FFT的大小，且优选地执行零填补，尽管也可将诸如不同于零的某些噪声值的其它值填补至窗口式帧。

另外，可由分析器输出信号，即，由瞬时信息来控制频谱处理器，以使得在瞬时部分中该FFT与非瞬时或非填补情况相比为更长的情况下，根据过取样因子来改变在滤波器组中线映射的开始索引值(即，不同的变换“回合”或变换迭代的开始索引值)，其中，此改变优选地包含使所利用的变换域索引与过取样因子相乘以获得用于对频域过取样情况的修补操作的新的开始索引。

附图说明

以下参照附图来说明优选实施方式，其中：

图1为用于产生高频音频信号的装置的框图；

图2a为用于产生高频音频信号的装置的实施方式；

图2b示出了频谱带复制处理器，其包含用于产生图1或图2a的高频音频信号的装置作为最终获得带宽扩展的信号的整体SBR处理的模块；

图3示出了在频谱处理器内部执行的处理动作/步骤的实施方式；

图4为在多个合成滤波器组的框架中的本发明的实施方式；

图5示出了使用单个合成滤波器组的另一实施方式；

图6示出了频谱变换及用于图5实施方式的滤波器组中的相应的线映射；

图7a示出了接近于窗口中心的瞬时事件的瞬时拉伸；

图7b示出了接近于窗口边缘的瞬时的拉伸；以及

图7c示出了在具有相关联的瞬时信息的输入信号的第一部分中发生过取样的情况下的瞬时拉伸。

具体实施方式

图1示出了根据实施方式的用于产生高频音频信号的装置。输入信号经由输入信号线10提供给分析器12和频谱转换器14。该分析器被配置为用于分析该输入信号以确定将在瞬时信息线16上输出的瞬时信息。另外，该分析器将找出是否存在该输入信号的不具有瞬时信息的第二随后部分。不存在始终为瞬态的信号。由于复杂性原因，优选地执行瞬时检测以使得瞬时部分(即，输入信号的“第一部分”)极少发生，这是由于本发明的频域过取样降低了效率，但为良好质量的音频处理所必需。根据本发明，尽管如在图7A的情形中所讨论的，对于具有接近于窗口中心的瞬时事件的瞬时信号甚至可断开频域过取样，但频域过取样仅在其实际上为必需时接通且在其为非必需时亦即在信号为非瞬时信号时断开。然而，由于效率及复杂性原因，当某一部分包括一瞬态时优选地将该部分标示为瞬时部分，而不管瞬时事件是否接近窗口中心。由于如在图4及图5的情形中所讨论的多个重迭处理，对于一些窗口而言，每一瞬态将接近该中心，即，将为“良好的”瞬态；但是对于另外数个窗口而言，每一瞬态将接近窗口的边缘，且因此对于这些窗口而言也为“不良的”瞬态。

频谱转换器14被配置为用于将输入信号转换为在线11上输出的输入频谱表示型态。频谱处理器13经由线11连接至该频谱转换器。

频谱处理器13被配置为用于处理该输入频谱表示型态以产生经处理的频谱表示型态，该经处理的频谱表示型态包含用于比该输入频谱表示型态更高的频率的值。换言之，频谱处理器13执行变换，且优选地执行谐波变换，尽管也可在频谱处理器13中执行其它变换。经处理的频谱表示型态经由线15从频谱处理器13输出至时间转换器17，其中，时间转换器17被配置为用于将该经处理的频谱表示型态转换为时间表示型态。优选地，该频谱表示型态为频域或滤波器组域表示型态，而该时间表示型态为简单的全频宽时域表示型态，尽管该时间转换器也可以被配置为用于将经处理的频谱表示型态15直接地变换为具有各次频带信号的滤波器组域，这些次频带信号中的每一个具有比FFT滤波器组更高的某一频宽。因此，在输出线18上的输出时间表示型态也可包含一个或多个次频带信号，其中，每一个次频带信号均具有比该经处理的频谱表示型态中的频率线或值更高的频宽。

频谱转换器14或时间转换器17或该两个组件相对于频谱转换算法的大小均为可控制的，以对具有相关联的瞬时信息的音频信号的第一部分执行频域过取样，且对该输入信号的不具有该瞬时信息的第二部分不执行频域过取样，以便在没有任何音频质量损失的情况下，提供高效率并降低复杂性。

优选地，该频谱转换器被配置为通过对具有相关联的瞬时信息的第一部分应用比应用于第二部分的变换长度更长的变换长度来执行频域过取样，其中，该更长的变换长度包含填补数据。该两个变换长度之间的长度差由频域过取样因子来表示，该因子可在1.3至3的范围内，且优选地该长度差应尽可能低，但要大到足以确保如图7中所示的“不良瞬态”不引入任何前回声(pre-echo)或仅引入可容忍的小的前回声。该过取样因子的优选值在1.4与1.9之间。

随后，将描述图2a以提供根据优选实施方式的关于图1的频谱转换器14、频谱处理器13或时间转换器17的更多细节。

频谱转换器14包括分析窗口器14a及FFT处理器14b。另外，时间转换器包括反向FFT模块17a、合成窗口器17b及重迭-相加处理器17c。本发明的装置可包括如例如参照图5及图6示出的单个时间转换器17，或可包括如图4示出的单个频谱转换器14及多个时间转换器。频谱处理器13优选地包括相位处理/变换模块13a，随后将对其进行更详细地描述。然而，相位处理/变换模块可由用来在滤波器组内从低频线产生高频线的已知的修补算法的任何一种来实施，诸如从M.Dietz，S.Liljeryd，K.Kjoerlingand O.Kunz“Spectral Band Replication，a Novel Approach in Audio Coding”，in 1112^th AES convention，Munich，May 2002所知的。在ISO/IEC14496-3：2001(MPEG-4标准)中另外描述了一种修补算法。然而，与MPEG-4标准中的修补算法相比，优选的是，频谱处理器13以多个“回合”或迭代执行谐波变换，如参照图6及图5的单个合成滤波器组实施方式所详细地讨论的。

图2b示出了用于高频重建处理器的SBR(频谱带复制)。在输入线10上，将例如可为时域输出信号的核心译码器输出信号提供给模块20，模块20表征图1或图2a处理。在该实施方式中，时间转换器18最终输出真实时域信号。随后，优选地，将此真实时域信号输入至QMF(正交镜像滤波器)分析级21中，分析级21在线22上提供多个次频带信号。这些单独的次频带信号被输入至SBR处理器23中，SBR处理器23另外接收SBR参数24，SBR参数24通常源自输入位流，输入至核心译码器(在图2B中未示出)的编码低频带信号属于该输入位流。SBR处理器23向QMF合成级25输出包络经调整的且在其它方面经操作的高频音频信号，QMF合成级25最终在线26上输出时域高频带音频信号。线26上的信号向前发至组合器27中，所述组合器另外经由分流线28接收低频带信号。优选的是，分流线28或所述组合器将充分的延迟引入至该低频带信号中，以使得正确的高频带信号26与正确的低频带信号28组合。可选地，当低频带信号在QMF表示型态中亦为可用时且当将低频带的QMF表示型态提供至QMF合成级25的较低的通道中时，如线29所示，QMF合成级25可提供合成级及组合器的功能。在这种情况下，组合器27并非为必需的。在QMF合成级25的输出处或在组合器27的输出处，输出频宽扩展的音频信号。随后，可储存、传输或经由放大器及扬声器来回放该信号。

图4示出了依赖多个不同的时间转换器170a、时间转换器170b、时间转换器170c的本发明的实施方式。另外，图4示出了图2A的分析步幅为a的分析窗口器14a的处理，其在该实施方式中为128个取样。当考虑分析窗口的1024个取样的长度时，则这意谓对分析窗口器14a进行8次重迭处理。

在方块14的输出处，存在输入频谱表示型态，该输入频谱表示型态随后经由并行排列的相位处理器41、相位处理器42、相位处理器43来处理。相位处理器41为图1中的频谱处理器13的一部分，其接收优选地来自频谱转换器14的复杂频谱值作为输入，且以对每一值的每一相位乘以2的方式来处理每一值。在相位处理器14的输出处，存在具有与如前所述模块41的相同振幅但每一相位乘以2的经处理的频谱表示型态。以类似方式，相位处理器42确定每一输入频谱线的相位且将该相位乘以因子3。类似地，相位处理器43再次撷取由该频谱转换器输出的每一复杂频谱线之相位，且将每一频谱线的该相位乘以4。随后，将这些相位处理器的输出向前发至相应的时间转换器170a、170b、170c。另外，设置有降低取样频率取样器(downsampler)44及45，其中，降低取样频率取样器44具有降低取样频率因子3/2，且降低取样频率取样器45具有降低取样频率因子2。在降低取样频率取样器44、45的输出处及在时间转换器170a的输出处，所有信号具有等于2fs的相同的取样速率，且因此可经由加法器46以逐个取样的方式将所有信号加在一起。因此，加法器46处的输出信号具有为在图4的左手边处输入信号的取样频率fs两倍的取样频率。由于频谱时间转换器170a以输入取样速率的双倍大小的速率输出信号，故在此实例中，在模块170a中执行步幅为256的不同步幅的重迭-相加处理。因此，在时间转换器b中形成了由“3”表示的另一重迭-相加处理，且时间转换器170c应用更大的步幅512。尽管项目44及项目45执行3/2及4/2的降低频率取样，此降低频率取样在某种意义上对应于如从相角音码器理论已知的三倍降低频率取样及四倍降低频率取样。因子1/2来自下述事实：与输入相比，组件170a的输出无论如何为输入的取样频率的双倍，且诸如由组合器46进行的第一处理系以双倍的取样速率来执行的。在此情形下，应注意的是，由于高频音频信号的频谱含量较高，故取样速率增加至取样速率的两倍或另一较高取样速率可能是必需的，且为了产生无频迭的信号，也必须根据取样定理来增加取样速率。

通过馈送不同的时间转换器170a、170b、170c来执行较高频率的产生，使得由频谱处理器41、42、43输出的信号输入至相应的频率信道内。另外，与输入滤波器组14相比，时间转换器170a、170b、170c具有增加的频率间隔，使得由该处理器产生的信号表示较高的频谱含量，或换言之表示较高的最大频率，而不是这些处理器具有相同大小，即，相同FFT大小。

分析器12被配置为用于从输入信号撷取瞬时信息并控制处理器14、170a、170b、170c利用较大的变换大小且在窗口式帧开始之前及在该窗口式帧结束之后利用填补值，以使得以适应性的方式执行频域过取样。图5所示的可选实施方式中，使用单个合成滤波器组17，而非三个合成滤波器组170a、170b、170c。为此，相位处理器13集中地执行与如图4中模块41至模块43所指示的乘以2、乘以3及乘以4相对应的相位处理。另外，频谱转换器14执行分析步幅为128的开窗口操作(windowing operation)，且时间转换器17执行合成步幅为256的重迭-相加处理。当在各个频率线之间应用双倍间隔时，时间转换器17执行频率-时间转换。由于方块17的输出对于每一窗口具有1024个值，且由于取样速率是经加倍的，故窗口式帧的时间长度为输入帧的时间长度的总量的一半。长度的减少为通过应用步幅为256的合成步幅或大体而言通过应用步幅为分析步幅两倍的合成步幅来平衡。通常，该合成步幅必须比该分析步幅大一个因子，该因子可等于取样频率增加因子。

图5示出了用于换位器的有效组合滤波器组结构，其中省略了图4下部的两个分支。随后在如图5所示的二阶组中产生三阶及四阶谐波。由于滤波器组参数T＝3或T＝4的改变，图3中的次频带的简单的一对一映射必须推广至如在图6的情形下讨论的内插规则。原则上，如果合成滤波器组次频带的物理间隔为分析滤波器组的物理间隔的两倍，则从索引(index)为k及k+1的分析频带获得对索引为n的合成频带的输入。另外，为清楚起见，假定k+r表示nQ/T的整数及小数表示型态。以幂(1-r)及r应用量值的几何内插，且使相位与加权T(1-r)及Tr线性组合。对于其中Q等于2的示例性情况，对于每一变换因子的相位映射在图6中图形示出。具体而言，图6在左手边示出了频谱的变换的图形表示型态，且在右手边示出了该滤波器组域中线的映射，即，源线至目标线的馈送，其中，所述源线是分析滤波器组(即，频谱转换器)的输出，且其中，所述目标线或目标频段(target bin)为进入至合成或时间转换器中的输入。例如由于如在左手边之中部及下部可以看出，频率索引k变换至3/2k或2k的频率，但是在具有双倍的取样速率的系统中，故该“重连”或将源频段馈送至目标频段实际上产生更高的频率，以致最后对应于例如在图6的部分中的k的由fs指示的物理频率至目标频率k、3/2k或2k的变换，分别对应于2、3或4的变换或物理频率。

另外，图6的左手边的第一部分示出了因子为2的变换，尽管将具有索引k的频率线映射至具有相同索引k的频率线。然而，该变换的发生归因于通过利用相同的FFT核大小但具有不同的频率间隔(即，具有双倍的频率间隔)隐式地执行的因子为2的取样速率转换。鉴于此，针对第一种情况，由于使相同的索引k映像至相同的索引k，故滤波器组中自分析滤波器组输出(源频段)至合成滤波器组输入(目标频段)的线的映射为简单的，但每一源频段频谱线的相位乘以2，如“乘以2”箭头62所指示。这将导致变换因子为2的二阶变换。

为了实际地实施或约计三阶变换，目标频段相对于频率从3/2k向上扩展。由于源频段k、k+2中的相应频谱线可按其现状来采用，且其相位如相位相乘箭头63所指示分别乘以3，故目标频段3/2k及3/2(k+2)的结果亦为简单的。然而，目标频段3/2(k+1)在源频段中不具有直接的配对。在例如考虑到小的实例时，其中k等于4且k+1等于5，则3/2k对应于6，将6除以1.5，得到k＝4。然而，下一个目标频段等于7，且7除以1.5等于4.66。然而，由于仅整数源频段确实存在，故具有索引为4.66的源频段不存在。因此，在邻近或相邻的源频段k与k+1之间执行内插。然而，由于相较于4(k)，4.66更接近于5(k+1)，故如箭头62所指示源频段k+1的相位信息乘以2，且来自源频段k(在该实例中等于4)的相位信息乘以1，如相位箭头61所示，箭头61表示相位乘以1。当然，这对应于仅按照现状采用该相位。优选地，将通过执行箭头61及箭头62所表征的操作而获得的这些相位进行组合，诸如加在一起，且甚至更优选地，由两个箭头共同执行的相位相乘导致相乘值为3，其为三阶变换所需要。类似地，可计算针对3/2k+2及3/2(k+2)+1的相位值。

对四阶变换执行类似的计算，其中如箭头62所示，内插值由两个相邻的源频段来计算，其中，每一源频段的相位乘以2。另一方面，为整数倍数的直接对应的目标频段的相位并非必需为内插的，而是可以利用乘以4的源频段的相位来计算。

应注意的是，在优选实施方式中，在根据源频段对目标频段进行直接计算的情况下，仅相对于源频段修改相位且维持源频段振幅的现状。关于内插值，优选地在两个相邻源频段的振幅之间执行内插，但也可执行组合这两个源频段的其它方式，诸如通过始终采用两个相邻源频段的较高振幅或两个相邻源频段的较低振幅、或相邻源频段振幅的几何平均值或算术平均值或任何其它组合。

图3示出了用于图6中的程序的流程图中的优选实施方式。在步骤30中，选择目标频段。随后，在步骤31中，如果可能，则通过利用变换因子乘以单个相位来计算相位。因此，步骤31请求其中在三阶变换中可执行3次相位相乘或其中在四阶变换中执行乘以4(箭头64)的操作的状况。对于计算内插目标频段而言，不可能直接地根据单个源频段来计算这些值。而是，如步骤32中所指示，选择将用于内插的相邻源频段。在实施方式中，相邻源频段为两个整数，其封闭通过在图5中组合向上取样的情况下将欲计算的目标频段除以整数变换因子或小数变换因子而获得的非整数。随后，在步骤33中，将相应相位因子应用于相邻源频段相位以计算目标频段相位。如已在中间部分所示出，应用于相邻源频段的相位因子之和等于变换因子，例如，通过应用箭头61表示的一倍相位“相乘”及箭头62表示的两倍相位相乘以获得(1+2)倍相位相乘，其对应于关于三阶的等于3的变换因子T。

随后，在步骤34中，优选地通过内插源频段振幅来确定目标频段振幅。在可选实施方式中，可根据源频段振幅或直接计算的目标频段的平均目标频段振幅，来随机地选择目标频段振幅。当应用随机选择时，可将两个源频段振幅值的平均值或其中一个值规定为用于随机过程的中间值。

通过频域过取样来获得换位器的改良的瞬时响应，频域过取样通过由利用长度为1024F的DFT核且通过对分析及合成窗口进行对称地填补零以达该长度来实施。此处，F为频域过取样因子。

出于复杂性原因，将过取样的量保持为最小值是重要的，因此下文将由一系列图来解释其基本理论。

在时间t＝t₀时，考虑原型瞬时信号(prototype transient signal)，狄拉克脉冲(Dirac pulse)。因此，将相位乘以T似乎是欲进行的正确操作，以获得在t＝Tt₀时脉冲的变换。实际上，具有无限持续时间的窗口的理论换位器将提供脉冲的正确拉伸。对于有限持续时间的窗口分析，情况由以下事实扰乱：将每一分析区块解释为周期信号的一个周期间隔，其中，周期等于DFT的大小。

在图7a中，分别在图的顶部及底部描述了风格化的分析及合成窗口。用垂直箭头在顶部图上描述t＝t₀时的输入脉冲。假定DFT变换区块大小为L，则相位乘以T的效应将在t＝Tt₀处产生脉冲的DFT分析(实线)且取消其它贡献量(虚线)。在接下来的窗口中，该脉冲相对于中心具有另一位置，且期望的行为是将脉冲移动至其相对于该窗口的中心的位置的T倍。该行为保证了所有的贡献量合计达单个时间拉伸的合成脉冲。

对于图7b的情况出现问题，其中，该脉冲朝向DFT区块的边缘进一步向外移动。合成窗口获得的分量为在t＝Tt₀-L时的脉冲。对音频的最终效应是在相当于(相当长)换位器窗口的标度的时距处出现再回声。

图7c示出了频域过取样的有利效应。DFT变换的大小增加至FL，其中，L为窗口持续时间且F≥1。

现在，脉冲列的周期为FL，且对脉冲拉伸的不需要的贡献量可通过选择充分大的F值来消除。对于在位置t＝t₀＜L/2处的任何脉冲，在t＝Tt₀-FL处的不期望的图像必须定位于t＝-L/2处的合成窗口的左边缘的左边。等效地，TL/2-FL≤L/2，导致下列规则：

F &GreaterEqual; \frac{T + 1}{2} .

更定量的分析表明仅因为窗口由接近边缘的较小的值组成，所以前回声(pre-echo)仍通过利用略低于此不等式所指定的值的频域过取样而减小。

在如图2的变换中，上述推导意味着利用过取样因子F＝2.5来涵盖所有的情况T＝2、3、4。在先前的贡献中，已示出，利用F＝2已经引起显著的质量改善。在图3的组合滤波器组实施中，利用较小值F＝1.5已足够。

由于过取样仅在信号的瞬时部分中所必需，故在编码器中执行瞬时检测且将瞬态标识发送至译码器，以供每一核心编码器帧控制该译码器中的过取样的量。当过取样为有效时，因子F＝1.5至少用于分析窗口在当前核心编码器帧中开始的所有换位器区组(transposer granule)。

在图7c中，“零填补“被示为窗口的第一非零值之前的部分70及窗口的最后非零值之后的部分71。因此，人们可以将图7C中的窗口解释为在其开始及结束处具有加权因子为零的新的较大的窗口。这意味着当分析窗口14a或合成窗口17b应用具有较大长度的该窗口时，由于通过应用具有开始时零部分及结束时零部分的窗口自动地执行了零填补，故单独的“零填补”步骤并非必需。然而，在优选的可选方案中，窗口并未被改变，而是始终以相同的形状使用，但是瞬时检测一成功，就在窗口式帧开始之前或窗口式帧结束之后或在开始之前及结束之后填补零，且可将此视为单独的步骤，其独立于窗口化，且其也独立于计算该变换。因此，在瞬时事件的情况下，启动数值填补器以优选地填补零，以使得结果(即，窗口式帧及所填补的零)完全与当应用具有在图7C中所示的零部分70及71的窗口时所获得的结果相同。

类似地，在合成情况下，人们也可在瞬时事件的情况下应用指定的较长的合成窗口，其将为由反向FFT处理器17a产生的帧的前导值及末尾值加入零。然而，优选的是，始终应用相同的合成窗口，但仅删除(即，去除)从FFT^-1输出开始的值，其中，在处理器17a输出的区块的开始及结束处删除的零值(填补值)的数量对应于零填补值的数量。

另外，瞬时事件的检测经由图2A中的开始索引控制线29来执行开始索引控制。为此，开始索引k，且因此索引3/2k及2k也乘以频域过取样因子。当该因子例如为因子2时，则第6图的左边部分中的每一k由2k取代。然而，如图所示，以相同方式执行其它程序。

优选地，对用于产生高频增强信号的帧(即所谓的SBR帧)，用信号通知瞬态。则输入信号的第一部分为包含瞬时事件的SBR帧，而输入信号的第二部分为在时间上较迟而不包含瞬态的SBR帧。因此，具有此瞬时帧的至少一单个取样值的每一窗口将接受零填补，以使得当帧具有一个窗口的长度时且当瞬时事件为单个取样时，这将产生利用具有填补值的较长变换而经变换的八个窗口。

本发明也可被视为一种用于频域变换的装置，其中，执行在组合换位器的滤波器组中的适应性的频域过取样，该过取样由一瞬时检测器控制。

尽管结合装置描述了一些方面，但很明显这些方面也表示相应方法的描述，其中，模块或设备对应于方法步骤或方法步骤的特征。类似地，结合方法步骤描述的方面也表示相应的模块或相应的装置的项目或特征。

根据某些实施要求，可以硬件或在软件实施本发明的实施方式。可利用例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存的数字储存介质来执行实施，所述数字存储介质具有储存于其上的电子可读取的控制信号，其与(或能够与)可编程的计算机系统结合以相应的方法被执行。

根据本发明的一些实施方式包含具有电子可读取的控制信号的数据载体，这些信号能够与可编程计算机系统结合，以使得本文所描述的这些方法中的一种被执行。

通常，本发明的实施方式可以被实施为具有程序代码的计算机程序产品，当该计算机产品在计算机上运行时所述程序代码可操作为执行这些方法中的一种。该程序代码例如可储存在机器可读取的载体上。

其它实施方式包括储存在机器可读取的载体上的用于执行本文所描述的这些方法中的一种的计算机程序。

换言之，因此，本发明的方法的实施方式为具有程序代码的计算机程序，以当计算机程序在计算机上运行时执行本文所描述之这些方法中的一种。

因此，本发明的方法的另一实施方式为包含记录于其上的计算机程序的数据载体(或数字储存介质或计算机可读取介质)，该计算机程序用于执行本文所描述的这些方法中的一种。

因此，本发明的方法的另一实施方式为表示用来执行本文中所述的这些方法中的一种的计算机程序的数据流或信号序列。所述数据流或信号序列例如可以被配置为经由数据通信连接(例如经由因特网)来传送。

另一实施方式包含处理装置，例如计算机，或可编程逻辑装置，被配置为或适于执行本文所描述的这些方法中的一种。

另一实施方式包含具有安装于其上的计算机程序的计算机，所述计算机程序用于执行本文所描述的这些方法中的一种。

在一些实施方式中，可以使用可编程逻辑装置(例如，现场可编程门阵列)来执行本文所描述的这些方法中的一些或全部功能。在一些实施方式中，现场可编程门阵列可与微处理器结合以执行本文所描述的这些方法中的一种。通常，这些方法优选地由任何硬件装置来执行。

上述实施方式仅是本本发明的原理示例。应理解的是，本文所描述的配置及细节的修改及变形对于本领域的技术人员来说将显而易见的。因此，本发明旨在仅由所附专利的权利要求的范围所限定，而并非由本文中对实施方式的描述及说明所提供的特定细节来限定。

Claims

1.一种用于产生高频音频信号的装置（18），包括：

分析器（12），用于分析输入信号以确定瞬时信息，其中，所述输入信号的第一部分具有相关联的所述瞬时信息，且所述输入信号的第二部分不具有所述瞬时信息，所述输入信号的所述第二部分随后于所述输入信号的所述第一部分；

频谱转换器（14），用于将所述输入信号转换为输入频谱表示型态（11）；

频谱处理器（13），用于处理所述输入频谱表示型态以产生经处理的频谱表示型态（15），所述经处理的频谱表示型态包含比所述输入频谱表示型态更高频率的值；以及

时间转换器（17），用于将所述经处理的频谱表示型态转换为时间表示型态，

其中，所述频谱转换器（14）或所述时间转换器（17）为可控制的，以对具有相关联的所述瞬时信息的所述输入信号的所述第一部分执行频域过取样，而对所述输入信号的所述第二部分不执行所述频域过取样，或以与所述输入信号的所述第一部分相比较小的过取样因子来执行频域过取样。

2.根据权利要求1所述的装置，其中，所述频谱转换器（14）被配置为通过对具有相关联的所述瞬时信息的所述第一部分应用比由所述频谱转换器（14）应用于所述第二部分的变换更长的变换长度来执行所述频域过取样，其中，对所述更长的变换长度的输入包括填补数据。

3.根据权利要求1所述的装置，其中，所述频谱转换器（14）包括：

窗口器（14a），用于窗口化所述输入音频信号的重迭帧，一帧具有多个窗口取样，以及

时间频率处理器（14b），用于将所述帧转换为频域，其中，所述时间频率处理器（14b）被配置为通过对所述输入信号的所述第一部分在多个输入取样的第一窗口取样之前或最后窗口取样之后填补额外值来增加所述多个窗口取样，且对于所述输入信号的所述第二部分不填补额外值或填补较小数量的额外值。

4.根据权利要求2所述的装置，其中，所述填补数据为零填补数据。

5.根据权利要求1所述的装置，其中，所述频谱转换器（14）包含具有可控制的变换长度的变换核，所述第一部分的所述变换长度相对于所述输入信号的所述第二部分的所述变换长度增加。

6.根据权利要求1所述的装置，其中，所述频谱转换器被配置为用于提供多个连续的频率线，

其中，所述处理器被配置为通过修改所述多个连续的频率线的相位或振幅来计算频率较高的频率线的相位，以获得经处理的频谱，并且

其中，所述时间转换器被配置为执行所述时间转换器的所述转换，以使得所述时间转换器输出的取样速率高于所述输入音频信号的取样速率。

7.根据权利要求1所述的装置，其中，所述频谱处理器（13）被配置为通过处理在某一频率索引处开始的所述输入频谱表示型态的频谱部分来利用变换因子执行变换，并且

其中，所述某一频率索引对于所述输入信号的所述第一部分较高，而对于所述输入信号的所述第二部分较低。

8.根据权利要求7所述的装置，其中，频谱转换器（14）或所述时间转换器（17）被配置为利用过取样因子对所述输入信号的所述第一部分执行频域过取样，并且

其中，所述频谱处理器（13）被配置为对于所述输入信号的所述第一部分使所述某一频率索引乘以所述过取样因子。

9.根据权利要求1所述的装置，其中，所述频谱处理器（13）被配置为通过组合所述输入频谱表示型态的两个频率相邻值来计算用于较高频率的值。

10.根据权利要求9所述的装置，其中，所述频谱处理器被配置为通过内插所述两个频率相邻值的相位来计算相位（33），或

通过内插所述两个频率相邻值的振幅来计算振幅（34）。

11.根据权利要求1所述的装置，其中，所述频谱处理器被配置为利用变换因子执行变换，其中，对于并非为所述变换因子的整数倍数或并非为由所述时间转换器（17）提供的向上取样因子来除的所述变换因子的整数倍数的目标频率，所述频谱处理器（13）被配置为利用来自至少两个相邻频谱值的各乘以单独的相位因子的相位来计算所述目标频率的所述相位，所述相位因子被确定为使得所述相位因子之和等于所述变换因子。

12.根据权利要求1所述的装置，其中，所述频谱处理器被配置为利用变换因子执行变换，其中，对于并非为所述变换因子的整数倍数或并非为由所述时间转换器（17）提供的向上取样因子来除的所述变换因子的整数倍数的目标频率，所述频谱处理器被配置为利用来自至少两个相邻频谱值的各乘以单独的相位因子的相位来计算所述目标频率的所述相位，其中，所述相位因子被确定为使得当用于所述目标频率的索引除以所述变换因子或除以所述变换因子及所述向上取样因子的小数更接近于所述输入频谱表示型态的第二值时，用于所述输入频谱值的第一值的相位因子低于用于所述输入频谱表示型态的所述第二值的相位因子。

13.根据权利要求1所述的装置，其中，所述输入信号具有相关联的旁侧信息，所述旁侧信息包含所述瞬时信息，并且

其中，所述分析器被配置为用于分析所述输入信号，以从所述旁侧信息提取所述瞬时信息，或

其中，所述分析器（12）包括瞬时检测器，所述瞬时检测器用于基于所述输入信号中的音频能量分布或音频能量变化来分析并检测所述输入信号中的瞬态。

14.一种用于产生高频音频信号的方法，包括：

分析输入信号以确定瞬时信息，其中，所述输入信号的第一部分具有相关联的所述瞬时信息，且所述输入信号的第二部分不具有所述瞬时信息，所述输入信号的所述第二部分随后于所述输入信号的所述第一部分；

将所述输入信号转换为输入频谱表示型态；

处理所述输入频谱表示型态以产生经处理的频谱表示型态，所述经处理的频谱表示型态包含用于比所述输入频谱表示型态更高的频率的值；以及

将所述经处理的频谱表示型态转换为时间表示型态，

其中，在所述转换为输入频谱表示型态的步骤中或在所述转换为时间表示型态步骤中，对具有所述瞬时信息的所述输入信号的所述第一部分执行可控制的频域过取样，其中，对所述输入信号的第二部分不执行所述频域过取样，或其中，对所述输入信号的所述第二部分以比所述输入信号的所述第一部分更小的过取样因子执行频域过取样。