CN101479789A

CN101479789A - 对声音参数进行解码

Info

Publication number: CN101479789A
Application number: CN200780024376.4A
Authority: CN
Inventors: 马瑞克·斯则巴; 安德瑞·吉瑞特; 马克·米德里克
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Nytell Software LLC
Priority date: 2006-06-29
Filing date: 2007-06-27
Publication date: 2009-07-08
Also published as: WO2008001316A3; US20090308229A1; EP2038882A2; JP2009543112A; WO2008001316A2

Abstract

一种用于根据表示声音分量的声音参数产生声音采样的设备(1)，包括：瞬变合成单元(14)，用于合成来自包含在每一帧中的瞬变声音参数的瞬变声音分量。为了提高合成效率，瞬变选择单元(11)设置为每一帧仅选择一个瞬变声音分量。此外，该设备可以设置为如果产生瞬变则产生较少的正弦声音分量。变换域系数可以与表示时间窗的变换域表示相卷积，控制得到的变换域系数的数目来进一步提高合成效率。

Description

对声音参数进行解码

技术领域

本发明涉及对声音参数进行解码并合成声音。更具体地，本发明涉及用于根据表示瞬变声音分量、正弦声音分量和/或其他声音分量的声音参数产生声音采样的设备和方法。

背景技术

根据诸如时域和/或谱包络参数、谱系数和其他参数的声音参数产生声音采样是公知的。例如，参数解码器能够对这样的参数进行解码并产生随后将被转换成模拟声音信号的声音采样。参数合成器同样使用声音参数来产生声音采样。

典型地，在帧(可以在单个例程中处理的数据集合)中设置声音参数和所产生的声音采样。每一帧可以包含被处理而产生大量声音采样的一个或多个参数。由于声音采样的数目可以比从中可导出这些声音采样的参数的数目大得多，因此参数通常构成声音的有效表示。

不同类型的声音参数可以用于表示不同的声音分量。例如，一些声音参数仅可以表示瞬变声音分量，而其他声音参数可以表示其他声音分量，例如正弦分量和/或噪声分量。由于这些声音分量具有不同的属性，可以通过不同的参数集合来更有效的表示。

每帧的声音分量的数目可以非常大。然而，合成大量声音分量可能需要大量的计算。这需要具有相对较强的处理能力的设备，而这在许多应用中是不可行的。

发明内容

本发明的目的是克服现有技术的这些和其他问题，并提供一种根据涉及较少计算量的声音参数产生声音采样的设备和方法。

因此，本发明提供一种用于从表示瞬变声音分量和其他声音分量的声音参数中产生声音采样的设备，该设备包括用于减少要合成的声音参数的数目的装置。

更具体地，本发明提供一种根据表示声音分量的声音参数产生声音采样的设备，该设备包括：

—至少一个选择单元，用于接收包含表示声音分量的声音参数的帧，并用于针对每一帧选择有限数目的声音分量，以及

—至少一个合成单元，用于合成选自其参数的声音分量。

选择单元可以是用于每帧选择一个瞬变声音分量的瞬变选择单元，合成单元可以是用于合成任何所选瞬变分量的瞬变合成单元。

通过在包含瞬变声音分量的每一帧中仅选择一个瞬变声音分量，避免了每帧中多个瞬变(声音)分量的合成。已经发现，多个瞬变分量的合成有很大的计算量需求，并且通过仅对每帧一个瞬变分量进行合成，显著地减少所需的处理。还已经发现，声音的质量在多数情况下几乎不受到影响。因此，可以极大地提高声音产生的效率，而几乎听不到每一帧的其他瞬变的省略。

应当理解的是，一些帧可以不包含瞬变声音分量，在这样的情况下，将没有瞬变分量被合成。其他帧可以仅包含一个瞬变分量，因此将选择该瞬变分量。

瞬变选择单元可以采用各种方式选择要被合成的单个瞬变。可以选择每一帧的第一瞬变并忽略剩余瞬变(的参数)。然而，可以使用其他准则来选择瞬变声音分量。在优选实施例中，选择单元具有用于选择具有最高能量内容的瞬变声音分量的装置。

特定帧的声音分量(特别是瞬变)可以延续到下一帧。当合成帧的声音时，还可以合成前一帧的声音的一部分。在这样的情况下，甚至当使用本发明时，仍可以同时对两个(或可能甚至不止两个)瞬变声音分量进行合成。为了进一步提高合成的效率，优选地，瞬变合成单元具有中断单元，用于在对本帧中的瞬变声音分量进行合成时中断前一帧的瞬变声音分量。

附加地或可选地，本发明的设备可以包括用于针对包含正弦声音分量的每一帧选择一个或多个正弦声音分量的正弦选择单元，和用于合成选自其参数的正弦声音分量的正弦合成单元。

如果该设备还包括瞬变合成单元，则正弦选择单元可以有利地取决于瞬变选择单元，并且如果瞬变选择单元选择相同帧的瞬变，则正弦选择单元可以产生较少的正弦声音分量。因此，优选地，瞬变选择单元控制正弦选择单元，所选正弦分量的数目取决于相同帧中瞬变分量的存在。

在包括正弦选择单元的实施例中，如果正在对瞬变进行合成，则减少正弦的数目将减少所需的计算量。已经发现，由于瞬变“掩盖了”正弦，该项措施几乎不影响声音质量。在不包含瞬变的帧中，可对所有正弦声音分量进行选择和合成。

应当注意的是，如果瞬变合成单元针对相同帧产生瞬变，则产生较少正弦声音分量的特征可以独立使用，并因此可以使用在对每帧中不止一个瞬变进行合成的设备中。

如果特定的帧不包含瞬变而前一帧包含瞬变，则还可以对瞬变进行合成。在这样的情况下，还可以减少正弦的数目以减少计算量。优选地，正弦分量和瞬变分量的选择基于其心理声学相关性，而正弦选择和瞬变选择可以彼此相互影响。

由于变换域中的正弦合成通常比时域中的正弦合成更有效，因此优选地，正弦声音参数表示变换域系数，或表示可以被转换成变换域系数的数据。此外，优选地，该设备还包括用于将变换域系数变换成时域采样的逆变换单元。优选地，变换域是频域，尤其是复频谱域，逆变换是逆快速傅立叶变换(IFFT)。然而，可以使用其他变换域和相关(逆)变换，例如，(离散)余弦变换域或正交镜像滤波器(QMF)变换域。

应当注意的是，声音参数可以是诸如傅立叶系数的变换域系数，但还可以根据声音参数产生变换域系数。在前一种情况下，声音参数等于变换域系数，而在后一种情况下，声音参数表示这样的系数或等同的数据，并可以被转换成变换域声音系数。

在优选实施例中，正弦合成单元包括：卷积单元，用于将变换域声音系数与时间窗的变换域表示相卷积；和系数限制单元，用于限制由卷积产生的附加变换域声音系数的数目。系数限制单元可以通过选择可用系数集合的子集，在卷积后有效地限制声音系数的数目。

有利的是，使用时间窗的表示来处理声音系数，从而产生与适合的持续时间相对应的声音数据(系数或采样)。当声音参数表示时域系数时处理还涉及乘法，或当声音参数表示变换域系数时处理还涉及卷积。通常，卷积引起非零变换域系数数量上的增加。然而，还增加了所需处理的量。

根据本发明的另一方面，系数限制单元可以设置为，根据帧中的声音参数的原始数目来限制帧中的变换域系数的数目。例如，如果系数的原始数目较多，则所选附加系数的数目可以较少。以这种方式，系数的总数目可以几乎保持不变，或至少小于特定的最大值。可选地，附加系数的数目可以几乎保持不变或小于特定的最大值。

可以采用各种方式限制附加系数的数目。在特别有利的实施例中，帧中的附加系数的数目如下：

—如果系数的原始数目小于3，则附加系数的数目等于6，

—如果系数的原始数目在3和5之间，则附加系数的数目等于4，

—如果系数的原始数目大于4，则附加系数的数目等于2。

然而，应当理解的是，这些数目可以取决于特定帧的长度和诸如相应正弦分量的能量等其他因素，并且通常将根据特定的实施例。具体地，上述数目可以应用于每一频带，特别是每一ERB频带或类似的频带，公知的ERB(等效矩形带宽)尺度考虑心理声学因素。

本发明的设备可以包括：噪声选择单元，用于针对每一帧选择要被合成的噪声声音分量；和噪声合成单元，用于合成选自其参数的噪声声音分量。通过在合成之前选择噪声分量，可以进一步降低计算量。噪声分量的选择可以独立于或取决于瞬变和/或正弦分量的选择。

本发明的设备还可以包括用于输出声音采样的输出单元，优选地，输出单元具有用于将重叠帧相加的装置。即，输出单元可以使用公知的重叠和相加技术来将帧组合成输出信号。

附加或可选地，本发明的设备可以包括用于形成包含声音参数的帧的帧形成单元，在这种情况下，瞬变选择单元、正弦选择单元和/或噪声选择单元从帧形成单元接收帧。

本发明还提供一种包括如上所述的设备的用户设备，以及包括如上所述的设备的声音系统。本发明的用户设备可以是便携式用户设备，诸如移动(美国：蜂窝)电话装置，诸如MP3播放器、音乐合成器的固态音乐播放器，或任何其他适合的设备。

本发明还提供一种根据表示瞬变声音分量和其他声音分量的声音参数产生声音采样的方法，该方法包括以下步骤：

—接收包括表示声音分量的声音参数的帧，

—针对每一帧，选择有限数目的声音分量，以及

—合成选自其参数的任何声音分量。

本发明的方法具有与上述设备相同的优点。

所选声音分量可以每帧中仅包括一个瞬变分量。本发明的方法还可以包括以下步骤：合成来自包含在帧中的正弦声音参数的正弦声音分量，并且如果产生相同帧的至少一个瞬变声音分量，则产生较少的正弦声音分量。

声音参数可以表示变换域参数或被转换成变换域参数的数据，优选地，该方法还包括对参数进行逆变换的步骤。

有利地，本发明的方法可以包括以下步骤：将变换域声音系数与时间窗的变换域表示相卷积，并限制由卷积产生的附加声音系数的数目。

本发明的方法还可以包括形成包含表示一个或多个声音分量的声音参数的帧的步骤。

从以下对本发明的详细描述，根据本发明的其他方法步骤将变得显而易见。

本发明还提供一种用于执行如上所述方法的计算机程序产品。计算机程序产品可以包括存储在诸如CD或DVD的数据载体上的计算机可执行指令。允许可编程计算机来执行如上所述的方法的计算机可执行指令的集合还可用于例如经由互联网从远程服务器下载。

附图说明

参照附图所示的示例性实施例，以下将进一步对本发明进行解释，在附图中：

图1示意性地示出了根据本发明的设备的示例性实施例。

图2示意性地示出了根据本发明的在卷积之后限制参数的数目的处理。

图3示意性地示出了根据本发明的限制相邻帧的瞬变声音分量的持续时间；

图4示意性地示出了根据本发明的瞬变合成单元。

图5示意性地示出了根据本发明的正弦合成单元。

图6示意性地示出了根据本发明的用户设备。

具体实施方式

图1中所示的仅作为非限制性示例的本发明的设备1包括：比特流解析(BP)单元10、瞬变选择(SEL)单元11、瞬变合成(TS)单元14、正弦选择(SEL)单元12、正弦合成(SS)单元15、噪声选择(SEL)单元13、噪声合成(NS)单元15、谱构建(SB)单元16、逆快速傅立叶变换(IFFT)单元17、重叠和相加(OLA)单元18、以及混合(MIX)和输出单元19。

在所示的实施例中，设备1接收包括声音参数的输入比特流A，并且产生包括时域声音采样的输出信号B。

比特流解析器10解析输入比特流A并形成包含声音参数的帧。帧可以包含分别表示瞬变、正弦和噪声声音分量的瞬变参数(TP)、正弦参数(SS)和/或噪声参数(NP)。分别向瞬变合成单元13、正弦合成单元14和噪声合成单元15提供每一帧的参数。应当注意的是，在一些实施例中，仅可以区分一种或两种类型的声音参数，而在其他实施例中，可以使用3、4或更多不同类型的声音参数。比特流解析器10可以具有多个输入端子以接收多个通道(例如，合成器中的多个装置)。

根据本发明，不将瞬变参数TP直接馈送至瞬变合成单元14。而是，首先将瞬变参数TP提供至从出现在特定帧中的瞬变(transient)中选择一个瞬变的瞬变选择单元11(应当注意的是，在可选实施例中，可以在每帧中选择不止一个瞬变，例如，两个瞬变，而仍旧获得至少一部分本发明的优点)。选择单元11选择一个瞬变(例如具有最高能量内容的瞬变)，并输出所选瞬变的参数TP’。将指示是否选择瞬变的选择数据sd发送至正弦选择单元12。

在图1的实施例中，瞬变选择单元11作为分离的单元示出。然而，可选地，可以将瞬变选择单元11合并到瞬变合成单元14中。稍后参照图4将更详细地解释瞬变选择单元11。

瞬变合成单元14使用所选的瞬变参数TP’来合成瞬变(声音)分量TC，并将所得到的该瞬变分量的采样Ts馈送至混合和输出单元19。

正弦选择单元12接收正弦参数SP并选择一个或多个正弦声音分量的参数。在所示的实施例中，该选择取决于从瞬变选择单元11接收的选择数据sd。例如，如果没有选择瞬变(通常，这意味着没有瞬变，或当前帧中不存在具有显著幅值的瞬变)，正弦的数目可以相对较大，并且例如可以选择当前帧的所有正弦分量。如果如选择数据sb所指示，选择了瞬变，则如正弦选择单元12所实现可以减少正弦的数目。如果在帧中仅存在相对小的瞬变，则可以忽略该相对小的瞬变以有利于相对大的正弦，这取决于从正弦选择单元12发送到瞬变选择单元11的控制数据sd。参照图5将更详细地对正弦选择单元12的优选实施例进行解释。

正弦合成单元14使用所选的正弦参数SP’来合成所选的正弦(声音)分量，并产生在本示例中为谱(即，傅立叶)系数的正弦声音系数Sc。通过逆FFT(IFFT)单元17对系数Sc进行逆变换。将得到的时域采样在重叠和相加(OLA)单元18中组合以产生要被馈送至混合和输出单元19的正弦声音采样Ss。

噪声选择单元13类似地接收噪声参数NP并选择一个或多个噪声声音分量的参数。在所示的实施例中，该选择取决于从瞬变选择单元11和正弦选择单元12接收的选择数据sd。例如，如果没有选择瞬变(通常，这意味着没有瞬变，或当前帧中不存在具有显著幅值的瞬变)，则噪声分量的数目可以相对较多，并例如可以选择当前帧的所有噪声分量。如果如选择数据sb所示选择瞬变，并还由于正弦分量将通常具有较小的心理声学相关性，则可以减少噪声分量的数目。如从正弦选择单元12接收的选择数据sd所示，如果选择相对大数目的正弦分量，可以减少要合成的噪声分量的数目。

选择数据sd还可以按着相反方向传递，例如，如果合成特定数目的正弦，则减少瞬变的数目，或者如果相同的帧包含具有相对高的能量的正弦，则抑制具有相对低能量的瞬变。

噪声合成单元16使用所选的噪声参数NP’合成噪声(声音)分量，并还将合成后分量的噪声声音采样Ns馈送至混合和输出单元19，合成后分量的噪声声音采样在混合和输出单元19与瞬变声音采样Ts和正弦声音采样Ss相组合以产生输出信号B。

以分离的单元示出正弦选择单元12和噪声选择单元13。在可选的实施例中，正弦选择单元12和/或噪声选择单元13可以分别合并到正弦合成单元14和/或噪声合成单元16中。类似地，逆变换单元17和重叠和相加单元18可以合并到正弦合成单元15中以形成单个、组合的单元。

在图1的示例性实施例中，正弦合成单元15包括执行由所选的正弦参数SP’表示的谱(或其他变换域)系数和适合的时间窗的谱(或其他变换域)表示的卷积的卷积单元。该卷积的结果是谱系数(通常：变换域数据)的帧，帧的长度与适合的变换长度相对应，例如256或512个系数。

图2中示意性地示出了由卷积单元(图5中地151)执行的卷积，其中，示例性的变换域表示P具有可以例如表示正弦分量的单个系数。该变换域表示P与时间窗的变换域表示Q相卷积，符号“*”表示卷积(为了清楚起见，在图2中仅示出了表示P和Q的绝对值)。在本示例中，得到的变换域表示R具有9个系数，比原始的表示P多8个系数。

尽管变换域系数的总数目没有变化，但卷积通常引起非零系数(可以被称作附加的变换域系数)的数目的增加。根据本发明的另一方面，该附加变换域系数(通常地，频谱段(bin))的数目受到系数限制(CL)单元(图5中的152)的限制。

附加变换域系数(或“侧谱段(side bin)”)是卷积操作的结果，增加了处理系数所需的计算量。为此，为了提高计算效率，如果需要，系数限制单元(图5中的152)减少系数的数目。在图2的例证中，系数的数目限制为5个系数的集合S，因此放弃其他系数并减少要处理的参数的数目。应当注意的是，所产生的附加系数的数目还确定合成后信号的时间-频率分辨率。

有利地，所使用的附加系数的数目取决于系数的原始数目，并因此取决于正弦分量的数目。为了减少系数的总数目，在优选实施例中，所使用的附加系数的数目与原始系数(图2中的P)的数目成反比。在特定优选实施例中，帧中的附加变换域系数的数目如下：

—如果变换域系数的原始数目小于3，则附加变换域系数的数目等于3，

—如果变换域系数的原始数目在3和5之间，则附加变换域系数的数目等于4，

—如果变换域系数的原始数目大于4，则附加变换域系数的数目等于2。

应当理解的是，所使用的附加变换域系数的实际数目将取决于特定的实施例。这些数目可以应用于每一频带(特别是每一ERB频带或类似的频带)。

在图4中示出了瞬变合成(TS)单元14的优选实施例。示出的实施例具备瞬变中断(TD)单元141，如果合成当前帧的瞬变，则瞬变中断(TD)单元141用于中断前一帧的瞬变。如图3所示，可以在相邻的帧F1和F2中合成瞬变T1和T2。第一帧F1从t＝0开始，第二帧F2从t＝1开始。

第一帧F1的瞬变T1将持续到第二帧F2，使在第二帧F2的至少一部分中合成T1和T2。为了防止合成多个瞬变，当第二帧从t＝1开始时，中断第一瞬变T1。

如图5所示，当正弦合成(SS)单元15具有系数限制(CL)单元152，还可以进一步实现合成效率的提高。系数限制(CL)152限制帧中合成的正弦的数目，这取决于相同帧中合成的瞬变的存在，并优选地，取决于心理声学准则。因此，减少了正弦系数Ss的数目，从而降低所需的计算量。除了或代替正弦选择单元12，还可以使用系数选择单元152。

示出的正弦合成(SS)单元15还包括卷积(CON)单元151，用于将由所选正弦参数SP’的变换域系数与时间窗的变换域表示相卷积。正弦合成单元15还包括：系数产生单元(未示出)，用于参照上述所选正弦参数SP’来产生变换域系数；和存储单元(未示出)，用于存储时间窗的变换域表示。优选地，选择时间窗的长度以便允许有效的变换，并且长度可以是例如128、256、512或1024、或128×N、256×N等。如果使用过采样，其中N是过采样因子，则可以例如等于32。

图6示意性地示出了根据本发明的用户设备。示出的用户设备9包括根据本发明的声音合成设备1。此外，用户设备9可以包括附加元件，例如声音数据存储器2、放大器、扬声器、电源、控制面板(未示出)等。用户设备9可以是便携式音频播放器、蜂窝(移动)电话装置、便携式数字助理(PDA)、音乐合成器、游戏设备、或能够输出信号或声学声音信号的任何其他设备。根据本发明的声音合成设备1还可以使用在音响系统中，并且特别适合使用在参数解码器和参数合成器中。

本发明基于的认识是，特别是当考虑心理声学准则时，通过选择要合成的声音分量，可以提高声音合成的效率。本发明受益于另一认识，在基本上不影响声音质量的前提下，仅可以合成每帧一个瞬变。本发明受益于另一认识，如果在相同帧中合成瞬变分量，则可以减少每帧要合成的正弦的数目，在保持声音质量基本不变的情况下，可以减少由变换域卷积产生的附加系数的数目。

应当注意的是，这篇文献中所使用的术语将不能视作对本发明范围的限制。特别地，单词“包括”并不意味着排除没有特别陈述的任何元件。可以用多个(电路)元件或其等同物替代单个(电路)元件。每一个实施例可以独立使用，或与其他实施例的任一项进行组合来使用。

因此，本领域的技术人员将理解的是，本发明不限于上述实施例，并且在不背离所附权利要求限定的本发明范围的前提下，可以进行许多修改和添加。

Claims

1、一种用于根据表示声音分量的声音参数来产生声音采样的设备(1)，所述设备包括：

-至少一个选择单元(11、12、14)，用于接收包含表示声音分量的声音参数在内的帧，并且用于针对每一帧选择有限数目的声音分量，以及

-至少一个合成单元(14、15、16)，用于合成选自其参数的任意声音分量。

2、根据权利要求1的设备，包括：瞬变选择单元(11)，用于针对包含瞬变声音分量的每一帧，选择一个瞬变声音分量；和瞬变合成单元(14)，用于合成选自其参数的任何瞬变声音分量。

3、根据权利要求2的设备，其中，瞬变选择单元(11)具有用于选择具有最高能量内容的瞬变声音分量的装置。

4、根据权利要求2的设备，其中，瞬变合成单元(14)具有中断单元(141)，用于当合成当前帧中的瞬变声音分量时中断前一帧的瞬变声音分量。

5、根据权利要求1的设备，包括：正弦选择单元(12)，用于针对每一帧选择一个或多个正弦声音分量；和正弦合成单元(15)，用于合成选自其参数的正弦声音分量。

6、根据权利要求2和5的设备，其中，如果瞬变选择单元(11)选择相同帧的瞬变分量，则正弦选择单元(12)减少所选正弦分量的数目。

7、根据权利要求5的设备，还包括逆变换单元(17)。

8、根据权利要求5的设备，其中，正弦选择单元(12)包括卷积单元(151)，用于将变换域系数与时间窗的变换域表示相卷积，并且其中，正弦选择单元(12)还优选具有系数限制单元(152)，用于限制由卷积产生的附加变换域系数的数目。

9、根据权利要求8的设备，其中，系数限制单元(152)根据帧中、特别是每一频带的声音参数的原始数目来限制帧中的附加变换域系数的数目。

10、根据权利要求1的设备，包括：噪声选择单元(13)，用于针对每一帧选择要合成的噪声声音分量；和噪声合成单元(16)，用于合成选自其参数的噪声声音分量。

11、一种包括根据权利要求1的设备(1)的用户设备。

12、一种包括根据权利要求1的设备(1)的声音系统。

13、一种根据表示瞬变声音分量和其他声音分量的声音参数产生声音采样的方法，所述方法包括以下步骤：

-接收包含表示声音分量的声音参数在内的帧，

-针对每一帧选择有限数目的声音分量，以及

-合成选自其参数的任意声音分量。

14、根据权利要求13的方法，其中，选择步骤涉及针对每一帧选择一个瞬变声音分量，并且其中，合成步骤涉及合成选自其参数的任意瞬变声音分量。

15、根据权利要求14的方法，其中，选择步骤涉及选择具有最高能量内容的瞬变声音分量。

16、根据权利要求14的方法，其中，合成步骤涉及当合成当前帧中的瞬变声音分量时中断前一帧的瞬变声音分量。

17、根据权利要求13的方法，还包括合成来自包含在帧中的正弦声音参数的正弦声音分量、并在合成之前选择正弦声音分量的步骤。

18、根据权利要求14和17的方法，还包括如果产生相同帧的瞬变声音分量则减少所选正弦分量的数目的步骤。

19、根据权利要求13的方法，其中，声音参数表示变换域系数，所述方法优选还包括对所述变换域系数进行逆变换的步骤。

20、根据权利要求19的方法，还包括将时间窗变换域表示与变换域系数相卷积、并优选限制由卷积产生的附加变换域系数的数目的步骤。

21、根据权利要求13的方法，还包括合成来自包含在帧中的噪声声音参数的噪声声音分量、并在合成之前选择噪声声音分量的步骤。

22、一种用于执行根据权利要求13的方法的计算机程序产品。