CN101479788B

CN101479788B - 声音帧长度适配

Info

Publication number: CN101479788B
Application number: CN200780024091.0A
Authority: CN
Inventors: 马雷克·斯泽巴; 安德烈亚斯·格里茨; 马克·克莱因·米德林克
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2006-06-29
Filing date: 2007-06-27
Publication date: 2012-01-11
Anticipated expiration: 2027-06-27
Also published as: US20090287479A1; ATE520120T1; CN101479788A; EP2038881B1; JP2010503875A; WO2008001320A3; EP2038881A2; WO2008001320A2

Abstract

本发明提供了一种从声音参数(A)中产生时域声音数据(B)的方法，所述方法包括以下步骤：—形成第一帧，每一个第一帧包含表示声音的声音参数；—从第一帧形成第二帧，每一个第二帧包含从声音参数中导出的变换域声音数据，每一个第二帧的变换域声音数据表示具有特定时域长度的声音，并且每一个第二帧具有与高效反变换相对应的长度；—将第二帧反变换为第三帧(G1，G2，…)，每一个第三帧包含与第二帧的变换域声音数据相对应的时域声音数据，并且每一个第三帧具有与第二帧相等的长度；一实质上输出每一个第三帧的所有时域声音数据(B)；以及—根据需要丢弃或重复第一帧(F3、F7)，以补偿所述特定时域长度(P)和第三帧长度(Q)之间的任何差值。

Description

声音帧长度适配

技术领域

本发明涉及声音帧的长度适配。更具体地，本发明涉及一种从声音参数中产生时域声音数据的设备和方法，所述设备和方法包括帧长度适配以允许高效的变换。

背景技术

从表示声音样本的声音参数合成或重构声音是公知的。变换域(如频域，即傅立叶变换域)内的声音合成提供了优于时域内的声音合成的计算上的优点。出于这个原因，通常将声音编码并存储为声音参数(如频谱分量或表示频谱或时间属性的参数)。对于不同的声音分量(如瞬变分量、正弦分量以及噪声分量)可以提供分离的参数。例如，在国际专利申请WO 01/69593(飞利浦)中公开了一种使用这样不同声音分量的编码器和解码器。

合成器或解码器可以使用所存储或传送的声音参数来装配随后要被(反)变换到时域的变换域声音帧。所产生的时域声音帧的持续时间典型地由心理声学考虑而确定并可以被选择为最小化人工效应。例如，一些合成器使用具有(时域)持续时间为8.7ms的声音帧。在44.1kHz的采样频率下，这样的帧的长度将为384个样本。

尽管从心理声学的观点来看，384个数据项的帧长度是最优的，但是对这样的帧进行变换的效率是非常低的。当帧中的数据项的数目是2的幂(例如128、256或512)时，快速傅立叶变换(FFT)及其反变换(IFFT)和如离散余弦变换(DCT)的类似变换是最有效率的。在每帧384个数据项的本示例中，可以选择512的变换长度。当完成变换时，丢弃128个数据项以获得期望的384个数据项。然而，由于25％(＝128/512)的数据项是冗余的，这意味着该变换仅具有75％的效率。

在其他采样频率下的变换效率可能更低。如上示例中提及的8.7ms的持续时间在16kHz的采样频率下产生139个样本。使用256的变换长度将导致仅54％的效率。

尽管已知适用于除了2的幂的其他帧长度的FFT的实施例，但是这些可选实施例典型地效率较低并需要更多的处理时间和/或更多的存储器。

发明内容

本发明的目的是克服现有技术的这些和其他问题，并提供一种从如声音参数之类的输入声音数据中产生时域输出声音数据的方法和设备，所述设备和方法更有效率。

因此，本发明提供了用于从声音参数中产生时域声音数据的设备，所述设备包括：

—第一帧形成单元，用于形成第一帧，每一个第一帧包含表示声音的声音参数，

—第二帧形成单元，用于从第一帧形成第二帧，每一个第二帧包含从单个第一帧的声音参数中导出的变换域声音数据，每一个第二帧的变换域声音数据表示具有特定时域长度的声音，并且每一个第二帧具有与高效反变换相对应的长度，

—反变换单元，用于将第二帧反变换为第三帧，每一个第三帧包含与单个第二帧的变换域声音数据相对应的时域声音数据，并且每一个第三帧具有与第二帧相等的长度，

—输出单元，用于实质上输出每一个第三帧的所有时域声音数据，以及

—帧选择器单元，用于根据需要丢弃或重复第一帧，以补偿所述特定时域长度与第三帧长度之间的任何差值。

通过使用第三帧中包含的所有或几乎所有反变换的声音数据，而不是仅使用在数量上与由第二帧所表示的原始特定时域长度相对应的声音数据，显著地提高了设备的效率。

注意，在本发明中，输出单元可以输出每一个第三帧的所有声音数据或几乎所有时域声音数据，即至少90％的所述时域声音数据，优选地至少95％，更优选地至少98％。

通过丢弃或根据具体情况重复第一帧来补偿第三帧的长度与由第二帧的变换域数据所表示的特定时域长度之间的任何差值。例如，如果使用512的变换长度用于具有384个样本长度的(第一)帧，并且如果根据本发明使用所有512个反变换的样本，则512/384＝1.33，产生与现有技术一样多的样本。相应地，要使用的第一帧的数目必须减少384/512＝1/1.33＝25％。在本示例中，因此将必须每4帧中丢弃1帧来获得具有相同的总持续时间的声音。

已经发现，丢弃帧几乎不可察觉，特别是当间歇地执行丢弃时更不可察觉。因此，优选地，均匀地分隔开丢弃的帧，特别是避免丢弃两个直接相邻的帧(例如，当帧的原始帧序列为ABCDEFG时，丢弃后为ABDEG)。然而，当重复帧时，优选地，重复其次相邻的帧(例如，ABCCDEEFG)。

上述特定时域长度可以由与期望持续时间相对应的时间窗来定义，例如参照上述与8.7ms的持续时间相对应的384个样本。在实际实施例中，第二帧形成单元可以通过将由声音参数表示的变换域声音数据与期望时间窗的(一段)变换域表示(例如，复频谱)进行卷积来从声音参数导出变换域声音数据。可以对该期望时间窗的频谱表示应用过采样，以改进所产生的信号的频域分辨率。

上述特定时域长度典型地与形成第一帧的速率相关，并可以等于连续的第一帧之间的时间间隔。然而，这并不是必需的，可以设想以变化的间隔来形成第一帧的实施例，在将第一帧转换成第二帧之前将其缓存。

在本发明中，声音参数可以包括表示声音特性的参数，变换域声音数据可以包括从所述声音参数中导出的变换域系数，而时域声音数据可以包括从所述系数获得的声音样本。

通过选择更适合的变换长度，可以进一步提高变换效率。因此，根据本发明的另一方面，第一帧形成单元可以被设置用于减小或增大特定持续时间，使得所述特定时域长度等于或近似等于第三帧的长度。

通过减小或增大由第二帧的数据所表示的特定持续时间，能够获得可以与有效率的变换长度紧密匹配的缩短或加长的帧。例如，上述8.7ms的持续时间在16kHz的采样频率下产生139个样本，当使用256的变换长度时，仅导致54％(＝139/256)的效率。然而，如果将该持续时间减小至8.0ms，则在16kHz下仅需要128个样本，并可以使用仅128的变换长度。显然，这种措施显著地提高了效率。

应当注意的是，在实际实施例中，出于技术原因，特定持续时间的长度还可能被进一步略微减小至例如7.9ms和126个样本。

由于可以减小帧的持续时间，声音的总持续时间也被缩短，而这通常是不期望的。出于这种原因，帧选择器单元包括用于根据需要重复(或根据具体情况，丢弃)第一帧以补偿第一帧和第二帧之间的任何长度差值的装置。通过重复帧，输出的声音的总持续时间可以实质上保持不变。在上述示例中，第一帧长度从8.7ms减小至8.0ms需要8.7/8.0＝1.0875的调整长度(即添加8.75％)，例如这可以通过每12帧中重复一帧(1/12＝8.33％)来实现。

已经发现，只要遵守特定的限制，长度减小和相关的帧重复几乎不可听见。为了避免任何清晰可听见的人工效应，优选地，第一帧形成单元包括用于将特定持续时间减小至多40％，优选地至多25％，更优选地至多15％的装置。

尽管还可以使用其他适合的变换，例如反离散余弦变换(IDCT)、或(前向)快速傅立叶变换(FFT)，但优选地，反变换是反快速傅立叶变换(IFFT)。

本发明还提供了一种声音合成器、声音解码器、用户设备、和包括上述设备的音频系统。例如，声音合成器可以被设置为从存储的变换域数据中重现声音，并且可以分离地合成瞬变、正弦和噪声分量。本发明的设备特别适合于合成正弦分量。声音解码器可以被设置为从已编码的变换域数据中重现声音，并且还可以被设置为分离地合成瞬变、正弦和噪声分量。

例如，本发明的用户设备可以是一种手持设备，如便携式音频播放器(例如MP3播放器)或移动(蜂窝)电话装置，或电子乐器。音频系统可以是家庭娱乐系统或专业音响系统。可选地，音频系统可以包括语音合成器。

本发明还提供一种从声音参数中产生时域声音数据的方法，所述方法包括以下步骤：

—形成第一帧，每一个第一帧包含表示声音的声音参数，

—从第一帧形成第二帧，每一个第二帧包含从单个第一帧的声音参数导出的变换域声音数据，每一个第二帧的变换域声音数据表示具有特定时域长度的声音，并且每一个第二帧具有与高效反变换相对应的长度，

—将第二帧反变换为第三帧，每一个第三帧包含与第二帧的变换域声音数据相对应的时域声音数据，并且每一个第三帧具有与第二帧相等的长度，

—实质上输出每一个第三帧的所有时域声音数据，以及

—根据需要丢弃或重复第一帧，以补偿所述特定时域长度和第三帧的长度之间的任何差值。

不必要以所列的顺序来执行这些方法步骤。例如，可以在形成第二帧的步骤之前执行丢弃第一帧的步骤。可选地，可以完全不用形成一些第一帧，因此可以在形成第一帧之前丢弃变换域声音数据。应当注意的是，仅丢弃一些第一帧，因此，对于一些帧将不执行丢弃的步骤。

本发明的方法根本上解决了与上述本发明的设备相同的问题并实现了相同的优点。

形成第一帧的步骤可以包括减小特定持续时间，使得第一帧的长度至多与第二帧的长度相等。优选地，形成第一帧的步骤包括将特定持续时间减小至多40％，优选地至多25％，更优选地至多15％，但是如果能够接受特定的声音失真，则大于40％的百分比也是可能的。

根据本发明的方法还可以包括，根据需要丢弃或重复第一帧，以补偿特定时域长度和第二帧的长度之间的任何长度差值的步骤。

本发明的方法特别适合于合成周期性的声音分量，例如，在合成器中分离地产生瞬变、正弦和噪声分量。

本发明还提供了一种用于执行上述方法的计算机程序产品。计算机程序产品可以包括存储在如CD或DVD的数据载体上的计算机可读指令集合。允许可编程计算机执行如上所述方法的计算机可读指令集合还可以例如经由因特网从远程服务器下载来得到。

附图说明

参照附图中示出的示例性实施例，进一步解释本发明，附图中：

图1示意性地示出了根据现有技术的声音数据转换设备。

图2示意性地示出了根据本发明的声音数据转换设备。

图3示意性地示出了图1和2的声音数据转换设备中帧的处理。

图4示意性地示出了根据本发明的帧的丢弃。

图5示意性地示出了根据本发明的帧的重复。

图6示意性地示出了包括根据本发明的声音数据转换设备的声音合成器。

图7示意性地示出了包括根据本发明的声音数据转换设备的用户设备。

具体实施方式

图1中示出的根据现有技术的示例性声音数据转换设备1’包括：比特流解析单元(BP)11、频谱构建单元12、反快速傅立叶变换(IFFT)单元13、重叠相加(OLA)单元14和帧计数器(FC)15。

比特流解析单元11接收声音参数A的输入比特流，并形成包含这些声音数据的第一帧。声音参数可以包括描述和/或表示时间或频谱包络、频谱系数和/或其他参数的参数。每一个第一帧中的声音参数的数目可以取决于所使用的特定编码类型，并且可以在从单一数据项至几百个数据项中变化。第一帧可以具有可变长度。

第一帧的声音数据提供了在特定时间间隔期间的声音表示。该时间间隔的持续时间可以被选择为满足心理声学和/或技术约束，并且可以例如是8.7ms，但是可以使用其他值来代替。尽管不是必需的，但该时间间隔可以与第一帧之间的时间间隔相一致。

频谱构建单元12使用第一帧的样本来形成第二帧，所述第二帧具有适合于变换单元13中的后续变换的长度。典型地，最有效率的FFT长度为128、256、512和1024(2的幂)，在现有技术中使用了下一个更大的FFT长度，在本示例中长度为512。因此，频谱构建单元12将包含可变数量声音数据的第一帧转换成第二帧，在本示例中，每一个第二帧包含512个频谱分量。

为此，频谱构建单元12可以将每一个第一帧的声音数据与时间窗的(复)频谱表示进行卷积。可以将该时间窗的长度选择为使其与由单个帧表示的声音的持续时间相匹配。在上述示例中，使用8.7ms的持续时间，该持续时间在44.1kHz的采样频率下产生384个时域声音数据项(样本)的长度。可以将时间窗的形状选择为避免声音的失真，典型地使用汉宁窗(Hanning window)。为了提高准确度，可以对时间窗的(复)频谱表示进行过采样。

相应地，频谱构建单元12执行(汉宁)时间窗的(复)频谱和第一帧的声音数据的卷积，产生包含频谱分量的第二帧。频谱分量的数目(例如512)是2的幂，从而实现有效率的(反)变换。本领域的技术人员可以认识到，可以使用时域内的乘法来代替变换域内的卷积。

随后，IFFT单元13将变换域的第二帧转换成时域的第三帧，第三帧具有与第二帧相同的长度，并且在本示例中也包含512个数据项(即样本)。

重叠相加单元14’将第三帧转换成比特流、一系列帧、或包含时域输出声音数据B的任何其他适合的输出信号。本领域的技术人员知道，重叠相加(OLA)单元通过将部分重叠的帧的样本相加来产生信号。

帧计数器15对所产生的帧的数目进行计数，并相应地控制比特流解析单元11。例如可以从外部控制帧计数器来执行搜索操作或调整回放速度。

现有技术的重叠相加单元14’仅使用每一个第三帧中与原始的更少数目的样本相对应的部分。在本示例中，现有技术的重叠相加单元14’仅使用512个样本中的384个样本并丢弃剩余的128个样本。显然，这不是高效的。

仅作为非限制性示例，在图2中示出了根据本发明的声音数据转换设备1，设备1也包括比特流解析单元(BP)11、频谱构建单元12、反快速傅立叶变换(IFFT)单元13、重叠相加(OLA)单元14和帧计数器(FC)15。此外，所示的实施例包括帧选择器单元(FS)16。

与图1的现有技术设备1’不同，根据本发明的设备1使用第三帧中的所有可用数据项(样本)来产生输出信号。虽然单元11、12、13和15实质上参照如上所述的现有技术来操作，但图2的单元14相对于相应的图1的单元14’进行了修改。

使用上述示例，如现有技术一样，比特流解析单元11形成第一帧，第一帧包含变换域数据项(例如参数)。频谱构建单元12通过将由第一帧的数据所表示的系数与适合的时间窗(例如具有512个样本长度的汉宁窗)的(优选地，复)频谱进行卷积来将这些第一帧转换为第二帧，与现有技术的384个样本相比，第二帧具有512个数据项。然后，IFFT单元13对第二帧进行(反)变换，产生第三帧，每一个第三帧包含512个时域声音数据项。

被设计为输出时域输出声音数据A的本发明的重叠相加(OLA)单元14使用每一个第三帧的所有(或几乎所有)数据项来产生输出比特流。即在上述所给出的示例中，重叠相加单元14使用每一个第三帧的所有512个样本来产生输出比特流。

使用第三帧的所有数据项增加了每帧的输出样本的数目，并因此增加了声音的持续时间。为了获得具有其预期持续时间的声音，本发明还提出跳过特定的第一帧。这具有附加的有点：减小了要处理的帧的数目，从而节约了处理时间。

本发明的设备1配备有由帧计数器15控制的帧选择器单元16。帧选择器单元16根据每个第一帧的变换域数据项数目与每个第二帧的变换域数据项数目的比值来选择要处理的第一帧，丢弃不需要由比特流解析单元11来形成的那些帧。参照图3和4将更详细地对这一点进行解释。

注意，取代频谱构建单元所使用的卷积，或在频谱构建单元所使用的卷积之外，可以执行补零或类似技术来调整帧的大小。

在图3中示出了帧的处理，其中，在左边示出了根据现有技术的处理，在右边示出了根据本发明的处理。

根据现有技术，将输入比特流A装配入第一(I)帧101，尽管也可以使用如包络之类的其他参数，但在本示例中第一(I)帧101包含傅立叶域数据(FDD)，如表示声音的(频谱)参数。数据项的数目可以变化，从而第一帧的长度可以变化，典型地，第一帧的长度小于相应的第二和第三帧的长度。

例如，通过与时间窗的复频谱进行卷积，将第一(I)帧101转换为第二(II)帧102。在现有技术中，可以将该时间窗选择为匹配由每一个第一帧的变换域数据或参数所表示的数据的持续时间。

第二帧具有与有效率的变换格式相对应的长度，并可以包含例如512个数据项。在本示例中，对第二帧进行反变换以产生包含512个时域数据项(TDD)的第三(III)帧103。然后，现有技术方法仅使用原始数目的样本(即在本示例中为384个)来形成输出信号B，而丢弃剩余的样本(X)。

根据本发明，如现有技术中一样，形成第一帧111并对其进行卷积来形成第二帧112，并进行反变换来产生第三帧113。然而，与现有技术不同的是，使用第三帧113的所有数据项(即样本)来产生输出信号B，没有样本被丢弃。在上述示例中，这意味着输出比特流包含每帧512个样本，而不是原来的每帧384个样本。显然，每帧所增加的输出使变换的使用更高效。

然而，由于增加了每帧输出的样本数目，因此，速度降低并增大了由输出样本所表示的声音的持续时间。典型地这是不期望的，因此本发明提出通过丢弃(或在其他情况下，重复)帧来调整音轨的长度。在图4中对这点进行了说明。

所示第一帧块201包含8个第一帧F1，F2，...，F8，其中每一个表示原始时域长度P(例如384个样本或8.7ms)。根据本发明，将这些第一帧转换成具有增大的时域长度Q(例如512个样本或11.6ms)的第三帧。因此，块202仅包含6个帧：G1，G2，...，G6。由于块202的长度(6×512＝3072)与块201的长度(8×384＝3072)相同，从而表示相同的声音持续时间，因此必须丢弃第一块的两个帧。在所示的示例中，丢弃帧F3和F7。优选地，丢弃的帧不相邻，以避免声音中任何可察觉的人工效应。通过丢弃第一帧或与第一帧相对应的数据，在本示例中处理量降低了25％。

应当理解的是，上述所使用的示例并非意在以任何方式限制本发明，取而代之地，可以使用具有与512和384个数据项不同长度的帧，例如具有256和139个数据项长度的帧。还应理解，可以将数据项作为帧而不是比特流来输入和/或输出。

在图3和4的示例中，由于增加数据项的数目来匹配适合的变换格式，因此第三帧的长度大于第一帧的长度。根据本发明的另一方面，第三帧的长度也可以小于第一帧的长度。当减少数据项的数目来匹配适合的变换格式时就是这种情况。

例如，与8.7ms的持续时间相对应的时间窗在16kHz的采样频率下包含139个数据项。当使用256的变换长度时，变换效率仅为54％(＝139/256)。然而，如果将8.7ms的持续时间降低至8.0ms，在16kHz仅需要128个数据项，并且可以仅使用128的变换长度。显然，缩短帧长度显著地提高了变换效率。

应当注意，在实际的实施例中，出于技术原因，由于数据项的数目必须可被3除尽，因此时间窗的长度还可能进一步略微减小至例如7.9ms和126个数据项。在这种情况下，根据本发明，可以输出第三帧的所有128个样本。仍旧可以实现变换效率的显著提高。

由于可以减小帧的持续时间，声音的总持续时间也被缩短，而这通常是不期望的。出于这种原因，帧选择器单元包括用于根据需要重复第一帧以补偿第一帧与第二帧之间的任何长度差值的装置。通过对帧进行重复，输出的声音的总持续时间可以实质上保持不变。在上述示例中，时间窗长度从8.7ms减小到8.0ms需要8.7/8.0＝1.0875的调整长度(即添加8.75％)，例如，这可以通过每12帧重复1帧(1/12＝8.33)来实现。

在图5中对这一点进行了说明，其中，第一块203包含12个(第一)帧，而实质上具有相同长度的第二块204包含13个(第三)帧。在本示例中，每一个(第一)帧F1，F2，...，F12包含139个数据项，而每一个(第三)帧G1，G2，...，G1，G1^*包含128个数据项。相应地，块203和204基本上包含相同数目的数据项(139×12＝1668，138*13＝1664)。如果需要，可以通过偶尔重复一个或更多个帧来补偿该长度差值。

从图5可以看出，对帧F7进行了重复：帧F7用于产生帧G7和帧G8。在图5的示例中，两个帧G7和G8是相邻的，以最小化任何可听见的人工效应。

在图6中示出了根据本发明的合成器或解码器8。合成器或解码器8包含根据本发明的声音数据转换设备(SSCD)1和用于存储声音参数的数据库(DB)2。数据库2产生输入比特流A，声音数据转换设备1将输入比特流A转换成输出比特流B。合成器或解码器8可以包含另外的组件，为了说明清楚起见而未示出这些组件，例如，独立控制声音的音高和速度的组件。本发明可以特别有利地应用在参数解码器中。

图7中示意性地示出了用户设备9。用户设备7可以是如固态音频播放器的便携式用户设备(例如MP3播放器)。用户设备7包含如图6所示的声音合成器8。用户设备7还可以是移动电话装置、游戏设备、便携式音乐设备或产生声音的任何其他设备。声音不限于音乐，还可以是语音或铃音或其组合。

应当注意的是，在图2中示出了本发明的方法，其中以下单元可以表示以下方法步骤：

—单元11(BP)：形成包含声音参数的第一帧的步骤，

—单元12(SB)：从第一帧形成第二帧的步骤，所述第二帧具有与高效反变换相对应的长度，

—单元13(IFFT)：将第二帧反变换为第三帧的步骤，

—单元14(OLA)：输出每一个第三帧的时域输出声音数据的步骤，

—单元16(FS)与单元11(BP)结合：丢弃或重复第一帧。

本发明基于的认识是，通过使用全部(反)变换的帧代替仅使用与原始较短的帧相对应的部分，然后丢弃帧以补偿增加的声音总持续时间，可以显著地改进变换声音帧的效率。本发明得益于另一认识，通过减小和增大帧长度以匹配适合的变换长度，然后重复或丢弃帧以补偿减小的声音总持续时间，可以进一步改进效率。

注意，本文中使用的任何术语将不能被解释为对本发明的范围的限制。特别地，“包括”一词并不意味着排除没有特别陈述的任何元件。可以使用多个(电路)元件或使用其等效物来替代单个(电路)元件。术语帧不意味着将声音数据的集合限制为任何特定的布置。可以使用其他变换来代替上述傅立叶变换。

因此，本领域的技术人员将理解的是，本发明不限于如上所述的实施例，并且在不背离由所附权利要求所限定的本发明的范围的前提下，可以进行许多修改和添加。例如，如果本发明的设备接收包含表示声音的声音参数的第一帧，因此不需要在设备内形成第一帧，则可以省略第一帧形成单元。

Claims

1.一种用于从声音参数(A)中产生时域声音数据(B)的设备(1)，所述设备包括：

一第一帧形成单元(11)，用于形成第一帧，每一个第一帧包含表示声音的声音参数，

一第二帧形成单元(12)，用于从第一帧形成第二帧，每一个第二帧包含从单个第一帧的声音参数中导出的变换域声音数据，每一个第二帧的变换域声音数据表示具有特定时域长度的声音，并且每一个第二帧具有与高效反变换相对应的长度，

一反变换单元(13)，用于将第二帧反变换为第三帧，每一个第三帧包含与单个第二帧的变换域声音数据相对应的时域声音数据，并且每一个第三帧具有与第二帧相等的长度，

一输出单元(14)，用于输出每一个第三帧的所有时域声音数据(B)，以及

-帧选择器单元(16)，用于根据需要丢弃或重复第一帧以补偿所述特定时域长度与第三帧长度之间的任何差值。

2.根据权利要求1所述的设备，其中，所述第二帧形成单元(12)包括用于将由声音参数所表示的变换域声音数据与具有所述特定时域长度的时间窗的变换域表示进行卷积的装置。

3.根据权利要求1所述的设备，其中，所述第一帧形成单元(11)包括用于减小或增大特定持续时间以使得特定持续时间的长度等于第三帧长度的装置。

4.根据权利要求3所述的设备，其中，所述第一帧形成单元(11)包括用于将特定持续时间降低至多40％的装置。

5.根据权利要求3所述的设备，其中，所述第一帧形成单元(11)包括用于将特定持续时间降低至多25％的装置。

6.根据权利要求3所述的设备，其中，所述第一帧形成单元(11)包括用于将特定持续时间降低至多15％的装置。

7.根据权利要求1所述的设备，其中，反变换是反快速傅立叶变换(IFFT)。

8.根据权利要求1所述的设备，还包括帧计数器(15)。

9.一种声音合成器(8)，包括根据权利要求1所述的设备(1)。

10.一种声音解码器(8)，包括根据权利要求1所述的设备(1)。

11.一种用户设备(9)，包括根据权利要求1所述的设备(1)。

12.一种音频系统，包括根据权利要求1所述的设备(1)。

13.一种从声音参数(A)中产生时域声音数据(B)的方法，所述方法包括以下步骤：

一形成第一帧，每一个第一帧包含表示声音的声音参数，

一从第一帧形成第二帧，每一个第二帧包含从单个第一帧的声音参数中导出的变换域声音数据，每一个第二帧的变换域声音数据表示具有特定时域长度的声音，并且每一个第二帧具有与高效反变换相对应的长度，

一将第二帧反变换为第三帧，每一个第三帧包含与单个第二帧的变换域声音数据相对应的时域声音数据，并且每一个第三帧具有与第二帧相等的长度，

一输出每一个第三帧的所有时域声音数据(B)，以及

一根据需要丢弃或重复第一帧以补偿所述特定时域长度和第三帧长度之间的任何差值。

14.根据权利要求13所述的方法，其中，形成第一帧的步骤包括减小特定持续时间，使得特定持续时间至多等于第二帧的长度。

15.根据权利要求13所述的方法，其中，形成第一帧的步骤包括将特定持续时间降低至多40％。

16.根据权利要求13所述的方法，其中，形成第一帧的步骤包括将特定持续时间降低至多25％。

17.根据权利要求13所述的方法，其中，形成第一帧的步骤包括将特定持续时间降低至多15％。

18.根据权利要求13所述的方法，其中，反变换是反快速傅立叶变换(IFFT)。