CN104217714A

CN104217714A - 使用音频信号的固定分区大小卷积的声音合成

Info

Publication number: CN104217714A
Application number: CN201410232411.3A
Authority: CN
Inventors: L.贝特贝德; S.奎雷西
Original assignee: Sony Computer Entertainment America LLC
Current assignee: Sony Interactive Entertainment LLC
Priority date: 2013-06-04
Filing date: 2014-05-28
Publication date: 2014-12-17
Anticipated expiration: 2034-05-28
Also published as: WO2014197171A2; WO2014197171A3; US20140355786A1; CN104217714B; US9431987B2

Abstract

提供一种用于卷积输入信号和脉冲响应函数的方法，脉冲响应函数被分割成相同大小的多个时间段，所述方法包括将输入信号的段变换到频域以生成输入信号的段的频谱；将输入信号的段的频谱乘以脉冲响应函数的每个段的频谱；缩放来自频谱的乘法的结果；累加缩放结果；以及对累加信号执行逆变换以生成时域中的期望的卷积信号。缩放包括对乘法结果执行逐位移位运算，并且执行逐位移位运算包括在逐位移位运算之前向乘法结果添加位。可以通过使用定点算术执行缩放输入信号、乘法和累加来实现均匀分割的脉冲响应函数的快速卷积。

Description

使用音频信号的固定分区大小卷积的声音合成

技术领域

本公开涉及用于执行频域卷积技术的信号处理方法和装置。更具体来说，本公开涉及声音合成技术，其涉及音频输入信号与固定分区大小脉冲响应函数的卷积。

发明背景

脉冲响应函数与输入信号的卷积具有各种各样的应用，包括例如音频和视频信号处理、声纳和雷达以及通用数字信号处理(DSP)应用。一个此类实例为音频信号卷积以模拟环境的声学效果，由此可以卷积源信号与有限脉冲响应(FIR)函数，FIR函数模型化环境的声学响应。此音频信号卷积的实际应用为模拟中声音的实时合成，例如，视频游戏虚拟环境，其中可以实时卷积模型化虚拟房间的声学特性的预计算的脉冲响应函数与输入源信号以模拟虚拟环境的声学效果。各种常规的技术可用于执行此等信号的卷积。

一种此类技术为对应于输入信号和脉冲响应滤波器的函数的时域中的直接卷积。然而，执行此卷积的计算成本可能非常高，并且执行此等运算的计算时间随着滤波器长度而线性增加(即，t∝N²，其中t为计算时间并且N为脉冲响应函数中的滤波器长度或取样点数)。因此，时域中的直接卷积不适合于许多实时应用，特别是当脉冲响应函数具有相对较长的持续时间时。

鉴于与直接卷积相关联的缺点，已提出各种频域技术，其涉及生成时域信号的频谱以便利用时域中的卷积用频域中的逐点乘法来代替的概念。计算时间用滤波器长度的对数(即，t∝Nlog₂N)而不是线性地缩放，由此在样本大小足够大的情况下，比直接时域技术提供显著的计算成本优势。

频域卷积技术通常涉及数字取样的脉冲响应函数(其可以是预计算的数字取样的输入信号)，以及使用离散傅立叶变换(DFT)将取样信号转换到频域中。通常通过使用快速傅立叶变换(FFT)算法对时域输入信号和脉冲响应执行DFT，并且可以零填充信号和脉冲响应的各段以避免圆周卷积。执行复值输入信号和脉冲响应频谱的逐点乘法，并且使用快速傅立叶逆变换(IFFT)将所得乘积转换回时域以生成作为时间的函数的期望的卷积和滤过的信号。

已提出用于执行脉冲函数和输入信号的频域卷积的各种技术。一个挑战是频域卷积引入固有的等待时间，这是因为输入信号段最初必须被缓冲，并且在可以执行卷积运算之前必须载入频率窗口(frequency bin)。在许多实时应用中，通过在执行频域卷积之前将脉冲响应函数分割成较小的块，使用块处理来解决等待时间问题是很常见的。然而，传统的分区方法在执行长的脉冲响应的卷积时仍然遭受缓慢的性能和/或等待时间。

因此，在本领域中需要以最小等待时间和低的计算成本执行实时源信号的准确且快速卷积的方法和装置。本公开正是在这一背景下产生的。

附图简述

通过考虑以下详细描述以及附图，可以容易地理解本公开的方面，其中：

图1A描绘根据本公开的方面的均匀分割的脉冲响应函数。

图1B描绘根据本公开的方面的均匀分割的输入信号。

图1C描绘根据本公开的方面的输入信号与图1A的脉冲响应函数之间的卷积方法。

图2A至图2B描绘说明本公开的方面的缩放运算的实例。

图3描绘根据本公开的方面的卷积方法的流程图。

图4描绘根据本公开的方面的用于执行卷积的系统。

具体实施方式

根据本公开的方面，已认识到存储器资源，而不是处理能力，在许多信号处理应用中试图卷积输入信号和脉冲响应函数时对缓慢的性能和瓶颈负有责任。瓶颈可能特别容易发生在高度耗尽计算资源的环境中操作的声音合成应用中，例如，视频游戏控制台。在许多传统的方法中，部分的卷积运算(例如，输入信号的缩放)以及乘法和累加运算通常使用浮点算术来执行。然而，这些运算可能会导致瓶颈，因为浮点计算可能具有计算要求并且需要大量的存储器资源。因此，需要使用定点算术来执行这些运算，以便获得与这个数据格式相关联的改进的存储性能。

在本公开的实施中，与输入信号和脉冲响应函数的卷积相关联的运算可以使用定点算术(例如，16位整数)来执行，以便以最小等待时间提供卷积的更快的性能。因此，本公开的实施可以使用定点数来执行复数乘法以及与源信号和脉冲响应滤波器的卷积相关联的其他运算，以便改进存储性能。举例而言但并非限制，通过使用定点数执行卷积运算来实现内存占用减少2倍和存储带宽减少4倍，从而卷积的计算速度可以提高8倍。

根据本公开的方面，为了使用定点算术执行卷积，在频域中使用输入信号和脉冲响应的乘法和累加运算卷积信号之前，将浮点格式的数据转换成定点格式，例如，从32位浮点格式转换成16位整数。与使用定点格式执行这些运算相关联的一个挑战是需要对源信号适当地缩放，并且在使用定点格式时选择适当的缩放因子是特别关键的，以便充分利用可以用固定整数表示的值的范围并且最小化精确度损失。

与使用定点数相关的另一挑战是复数乘法的乘积需要被四舍五入，这是由于定点格式的有限精确度和可以用使用的数据格式表示的值的范围。然而，截断缩放结果和乘法的乘积可能产生不良的截断噪声(即，截断有限精确度计算的结果引入一致性偏差，因为舍入是不对称的)。这种类型的截断噪声可能类似于向系统引入DC偏移，并且在时域中再现信号时可能表现为块边缘假象(artifact)，其可能在时间段之间的边界听到一系列可听得到的卡搭声。

应注意，许多传统的技术混合FFT和IFFT侧的缩放。相比之下，本公开的实施可以在频域中卷积源信号和脉冲响应滤波器时在累加之前通过缩放复数乘法的结果对输入和输出侧不同地执行缩放。根据本公开的方面，在使用定点数执行运算时，可以用对称地把乘积四舍五入以避免截断噪声逐步增加的方式执行缩放。

通过本公开的说明性实施的以下详细描述，将理解本公开的其他方面。为了说明本公开的各方面，本文可以参照从32位浮点格式转换成16位整数以及一个源信号和使用固定大小k的脉冲响应函数的3个分区的一个FIR滤波器的卷积来描述实施。然而，将理解，本公开的实施并不限于此，并且可以包括例如多个信道和/或多个实例卷积、各种系统信息能力以及各种分区数和分区大小。

在图1A至图1C中描绘本公开的实施。在图1A中，长度T的有限脉冲响应(FIR)函数h(t)被均匀分割成固定大小k的多个时间段106a、106b、106c。举例而言但并非限制，分区长度k可以是数字取样信号中的取样点的数量。如图1B中可见，长度T的输入信号x(t)107可以被均匀分割成相应的多个时间段107a、107b、107c。为简单起见，输入信号x(t)107可以同样被分割成同一分区长度k的时间段。然而，本公开的方面不限于此实施。或者，一个分区长度k1可以用于FIR时间段106a、106b、106c，并且不同的分区长度k2可以用于输入信号时间段107a、107b、107c。

图1C图示根据本公开的各方面的用于卷积图1B的输入信号x(t)107和图1A的分区脉冲响应函数h(t)以便产生期望的输出信号y(t)109的方法100。举例而言但并非限制，输入信号107可以是虚拟环境(例如，视频游戏)内的声音的实时流，并且脉冲响应函数106a-106c可以模型化环境(例如，模拟房间)的脉冲响应。因此，输出信号109可以对应于合成声音，其考虑输入信号107上环境的声学效果(例如，室内混响、回声等)。为清楚起见，图1C省略输入和IR分区的预FFT零填充。然而，可以实施此填充以避免圆周卷积，以使得每个分区可以与下一个分区重叠。

在说明性实施中，为了简单说明本公开的各方面，IR函数被分割成3段h₁(t)106a、h₂(t)106b和h₃(t)106c。此外，在说明性实施中，方法100包括对分区脉冲响应函数h(t)执行FFT111以便为每个IR分区生成相应的频谱H(ω)112a-c。然而，应注意，本公开不限于这些说明性方面。例如，在一些实施中，可以预计算脉冲响应函数h(t)106a-c，并且也可以可选地预计算脉冲响应函数的频谱H(ω)112a-c。可以用如同H₁(ω)X₁(ω)+H₂(ω)X₂(ω)+H₃(ω)X₃(ω)的形式用数学表示乘法与累加，其中运算被理解为复数逐点乘法累加运算。

在图1C中，使用具有分区脉冲响应滤波器以减少等待时间的频域块处理技术，卷积脉冲响应函数h(t)106a-c和输入信号x(t)103，并且可以根据系统调度的要求选择分区长度k。方法100可以包括对脉冲响应函数的每个时间段h₁(t)106a、h₂(t)106b、h₃(t)106c执行FFT111，以便将信号从时域变换成频域并且为每个时间段生成相应的频谱H₁(ω)112a、H₂(ω)112b、H₃(ω)112c。也可以对输入信号x(t)103的每个时间段执行FFT115，以便将每段从时域变换成频域，由此载入频率窗口并且生成相应的频谱X(ω)120，其可以由输入信号107的每个时间段x₁(t)107a、x₂(t)107b、x₃(t)107c的相应的频谱X₁(ω)、X₂(ω)、X₃(ω)组成。可以零填充每个FFT111、115的输入以便避免与圆周卷积相关联的缺点。适当的缩放因子也可以应用于FFT以便根据需要缩放FFT111、115的傅立叶系数。

根据本公开的方面，可以不同于IR FFT系数的缩放来处理输入信号FFT系数的缩放。举例而言但并非限制，可以使用单浮点规格化器将IR FFT系数缩放(作为一个整体)到-32k+32k范围(定点1:15规格化)以最大化动态范围并且允许IR在运行时间交叉混合。可以将输入信号FFT系数每个分区缩放2因子的幂，这允许通过右移进行快速整数反向规格化并且提供净空以32位整数累加。

在说明性方法100中，然后对缩小比例的频域数据120和121a-c执行乘法和累加运算。首先，可以通过复数乘法121a-c执行变换后的信号120和112a-c的频谱乘法。脉冲响应函数H(ω)的每个分片对应于脉冲响应函数h(t)的时间段，并且在脉冲响应函数的每个分片112a-c与每个输入分片120之间执行复数乘法121a-c，以便为滤波器的整个长度T生成期望的信号。方法100然后可以包括缩放124a-c复数乘法结果，并然后累加缩放结果127。在图1C中所示的方法100中，在累加127之前执行缩放124a-c复数乘法的结果。然后，可以对累加的数据执行IFFT130以便将信号从频域变换成时域并且生成期望的时域信号y(t)109。IFFT可以利用适当的缩放因子以便将IFFT结果重缩放到期望信号109的适当的水平。举例而言但并非限制，输出信号y(t)109可以是声音的实时输入流的合成声音，其包括输入信号x(t)107上环境的声学效果。

根据本公开的某些方面，输入信号的FFT的缩放用浮点完成，复数乘法的缩放用定点完成，IR的FFT的IR缩放用浮点完成，并且IFFT130的缩放用浮点完成。

图1C中所示的缩放124a-c为每个分区的复数乘法后反向规格化单独缩放(即，向下缩放)。这种缩放仅说明输入信号缩放。就在最后的IFFT之前转换回到浮点的过程中，IR反向规格化(向下)缩放在累加过程之后完成(这是这种缩放是针对整个IR的原因)。在这个阶段也考虑IFFT缩放。

根据本公开的方面，舍入方法可以用于输入分区缩放，其应用于复数乘法的结果。具体来说，由于这种缩放对整数数据除以2的幂，故我们执行算术右移。

在音量包络应用于单个IR时或在复数乘法与累加之前在2个IR之间执行交叉混合时，舍入方法也可以应用于IR的每分区缩放。

在说明性方法100中，可以使用固定整数执行输入信号段的缩放、复数乘法121a-c、结果的缩放124a-c和累加127，以便通过减少运算的存储器资源要求来提高计算速度。对复数乘法结果执行输入信号段的缩放，因为复数乘法是关联的，即，(k*A)*B＝k*(A*B)。举例而言，在对两个16位整数执行复数乘法时，结果是32位整数。在累加之前使结果右移以避免在累加时32位溢出。

可以各自在一个浮点运算中执行预计算的脉冲响应函数的缩放和IFFT130的缩放。在某些实施中，从浮点转换成整数格式可能一般涉及将一个数从B位浮点格式转换成B/2位整数格式，其中B表示位数。举例而言但并非限制，通过在执行输入信号段的缩放、乘法和累加之前，将数据从32位浮点转换成16位整数，可以使用16位整数来执行定点整数运算。因此，复数乘法121a-c的结果可以是32位整数。

在替代实施中，可以将浮点数从32位浮点转换成其他整数格式，例如，8位、12位、18位或20位。也应注意，脉冲响应函数可以用其他浮点格式，例如，64位等。

在图1C中所示的实施中，可以通过使用定点数据类型执行运算来实现改进的存储性能，因为不在延迟线126中执行累加127，而是可以在单独的缓冲区128中执行累加127。另外，因为累加涉及添加通过一部分缩放移位的位数(例如，32位)，所以可以避免溢出。在纯粹的定点实施中，用于缩放的乘法结果124a-124c的一个或多个缓冲区具有与用于每个IR分区的H(ω)112a-112c的缓冲区和用于复数乘法121a-121c的缓冲区不同的宽度。举例而言但并非限制，用于缩放乘法结果124a-124c和累加127的缓冲区可以是32位宽，而用于H(ω)112a-112c的缓冲区和用于复数乘法121a-121c的缓冲区可以是16位宽。在此实例中，如果将在延迟线126中执行累加127，那么复数乘法将被累加到覆写数据并且迫使使用32位存储进行累加的每个X_i(ω)中。在执行16位复数的乘法和累加时，必须将结果存储为32位数。使用单独的临时缓冲区允许我们使用输入信号的历史X(ω)的16位存储而不是32位存储。这将所需的存储器占用减少一半并且减少所需的存储带宽约四(4)倍。

如在上述实施中，在使用整数表示而不是浮点表示来执行计算时特别成问题的一个挑战在缩放信号和/或复数乘法的结果需要被四舍五入时出现。举例而言但并非限制，在IR上应用音量包络和/或交叉混合两个IR时，可能需要缩放整数域。在此等情况下，每个分区可以在复数乘法之前缩放0和1之间的因子。可能需要缩放整数域的另一实例在累加之前在反向规格化输入信号X(ω)的缩放应用于每个复数乘法的结果时发生。

因为舍入用基本上截断有限精确度计算的结果的算术右移来实施，所以舍入带来问题。然而，截断有限精确度计算的结果导致不对称的舍入，其生成不良的截断噪声。这种类型的截断噪声可能向系统引入类似于DC偏移的一致性偏差。这可能在使用IFFT将结果转换成时域时表现为在时间段之间的边界的块边缘假象并且例如可能在合成的音频信号中听到一系列卡搭声。使用不对称的舍入生成的截断噪声可以通过以下实例看出，由此表示小数点后的数的位被截断，从而导致不对称的舍入：

0.2→0

0.8→0

在本公开的实施中，可以通过刚好在执行缩放的移位之前添加位来克服这个挑战。这可以将逐位移位算子(即，逻辑或算术移位)变成就近舍入，以使得对称地进行结果的舍入以避免截断噪声。效果可以通过以下实例看出，由此在移位运算之后，附加位对应于1/2的最低有效位，由此导致移位数被四舍五入为最接近的整数：

(0.2+0.5)→0

(0.8+0.5)→1

因此，在本公开的实施中，可以通过逐位移位算子使用定点格式的数来执行缩放，逐位移位算子使数缩放2的幂并且避免生成截断噪声。因此，在执行输入分片的缩放之前，可以将数从浮点格式转换成计算能力要求较低的定点格式。举例而言但并非限制，通过在缩放每个输入分片之前将数据从32位浮点格式转换成16位定点格式，可以使用16位整数来执行缩放。可以计算运算的缩放因子，并且可以确定2的下一个幂以便确定用于移位以执行期望缩放的位位置数。

一般地，缩放因子可以与分区大小k的长度相关，并且可以根据信号的特性而变化。例如，对于具有能量集中在少数频率窗口的纯波形(例如，正弦波)的输入信号，可以使用缩放因子k/2。此缩放因子在应用于能量不会集中的现实世界的信号时将无法正常工作，因为其将生成大量的量化噪声。规格化IR频谱H(ω)允许使用由16位存储提供的所有的动态范围。由于IR为有限长度滤波器，故其可以被离线分析以确定整个文件的精确的浮点缩放因子。由于输入信号x(t)具有无限的长度，故可以计算每个分区的个别的缩放因子，并且由于这个因子将在复数乘法之后应用于整数域中，可以找到大于这个因子的2的下一个幂，故可以使用移位而不是很慢的整数除法。

在另一个极端，对于能量分散在大量的频率窗口的有噪输入信号，缩放因子会更合适。在现实世界的应用中，选择的缩放因子很可能是基于每个输入段的特性在这些极端之间的某个，并且应选择缩放因子以找到特定信号的最佳拟合。应注意，在使用定点格式时选择适当的缩放因子尤为关键，以便充分利用可以用位宽分辨率表示的值的范围，以便最小化精确度损失。

为了计算缩放每个输入分片的最佳拟合，本公开的实施可以为每个输入信号段X_i(ω)计算FFT结果的峰值P。通过找到2的下一个幂(其将被称为P_o)，FFT一般可以缩放到频率的幅度。举例而言但并非限制，可以用下式表示的逻辑移位来以16位整数执行缩放输入分片：

移位＝15–log₂(P_o)

然而，这种类型的截断将由于由移位施加的一致性偏差而导致上述截断噪声。为了避免此截断噪声，本公开的实施可以通过刚好在移位之前添加位将逐位移位运算变成就近舍入。这可以通过在执行上述移位之前添加以下位来完成：

1<<(移位–1)

通过添加上述位，移位到相应的位置，执行缩放的后续逐位移位运算(例如，算术右移)可以转换成就近舍入，因为附加位类似于在执行移位之后添加1/2的最低有效位。

应注意，在前述讨论的上下文中，移位是算术的，因为被移位的整数数据是带符号数据。再次参考复数数据的16位带符号整数存储的实例为我们提供15位幅度范围(绝对值)。在缩放之前的复频谱值取决于FFT长度(其为分区长度k的两倍)和信号的性质(正弦与噪声能量分布)。在具有允许分区长度的选择的情况下，输入信号的频谱X(ω)在存储在频率延迟线126中之前按比例增加，以使得其可以在乘法之后缩小比例以恢复足够的净空进行累加。应注意，对于16位带符号的整数数据，这种方法仅适用到(1<<(15-1))＝16384个样本的分区长度限制，因为超过这个限制，将按比例缩小到规格化并且在乘法之后按比例增加回到反向规格化。因此，将不会有任何的净空以32位整数累加。

在图2A和图2B中描绘如何添加位可以将算术移位转换成就近舍入的说明。图2A和图2B的实例中所示的数为任意选择的8位固定整数，以便以简化的术语说明如何将算术移位转换成就近舍入。

在图2A中所示的第一实例250中，描述4位位置的右移251，其对应于这些数按比例缩小2⁴＝16倍。这个第一实例说明在移位之前没有添加位的情况下生成截断噪声。数26和84被任意选择并且以二进制描述为8位整数。将这些数按比例缩小16的缩放因子应分别提供结果1.625和5.25。然而，因为执行这些数的逐位移位使最右边的位退出，所以截断使这些数总是按四舍五入调低。因此，舍入并不总是对称的并且在一个方向上生成等于DC偏移的一致性偏差。

在图2B中所示的第二实例255中，描述同一移位251，但刚好在移位之前添加位256，由此将同一逐位移位的截断变成就近舍入。一旦计算期望的移位，在右移4的这个实例中，在移位之前将位添加到适当的位位置，以便将移位转换成就近舍入。这个位位置可以被计算为最低有效位的左边的n位，其中n为所计算的移位减去1(即，n＝(移位–1))。因此，可以通过将1移位左边n来添加位，并且在缩放之前将这个位添加到数(即，1<<(移位-1))可以在执行移位之前添加到数。在涉及4位移位的说明性实例中，位1<<(4-1)或1移位到左3位置在缩放之前添加到数。如可以在这个第二实例中看出，当第一实例中的相同的数通过4个位置的逐位右移进行缩放时，截断最后4位位置由于附加位而使其四舍五入到最接近的整数。

转向图3，描绘本公开的实施的流程图被描绘。图3描绘根据本公开的方面的用于执行输入信号和均匀分割的脉冲响应的卷积的方法300。

在说明性实施中，使用频域块处理技术卷积输入信号x(t)303和脉冲响应函数h(t)312以便生成期望的信号y(t)309。分区IR函数h(t)312可以被均匀分割成固定大小k的多个段。在本公开的实施中，输入信号x(t)可以是实时音频流，实时卷积其每个段和每个IR段。

在方法300中，在315，可以例如使用FFT将输入信号x(t)303的每个段变换到频域，以便载入频率窗口并且生成这个段的信号的频谱。在311，也可以例如使用FFT将脉冲响应函数h(t)306的每个段变换到频域，以便载入频率窗口并且生成这个段的脉冲响应信号的频谱。在本公开的实施中，可以可选地预计算IR函数，并且也可以可选地预计算IR函数的FFT。也可以在执行FFT之前零填充(未图示)每个段以便避免圆周卷积。在本公开的实施中，可以使用浮点运算执行预计算的脉冲响应函数的FFT311的结果的缩放，同时可以根据本公开的方面使用定点格式的逐位移位运算来执行缩放FFT315中的输入分片。

然后，可以对信号数据执行乘法和累加运算。在图3中所示的方法300的实施中，可以使用定点数据类型执行乘法和累加运算以便保存存储器资源并且提供更快的性能。

可以执行每个输入分片X(ω)与脉冲响应H(ω)的每个分片的复数乘法321，由此每个频域分片可以对应于其原始时域信号的时间段的频谱。在324，可以使复数乘法321的结果缩放适当的缩放因子，基于输入段的长度和基本信号的特性确定这个缩放因子。在方法300的实施中，可以使用逐位移位执行缩放以便实施缩放2的幂，其对应于被移位的位位置数。

在缩放324之后，在327累加结果。根据本公开的方面，可以在缩放复数乘法的结果之后执行累加327。因此，可以实现改进的存储性能，因为可以在单独的缓冲区中执行累加，而不是在延迟线中执行累加。

在说明性方法300的实施中，可以使用定点数据类型执行复数乘法321、缩放324和累加327。举例而言但并非限制，通过在执行这些运算之前将频谱数据从32位浮点格式转换成16位整数格式，可以用16位整数来执行这些运算。因此，复数乘法的结果可以是32位整数。

在累加327之后，在330，可以例如通过IFFT将累加的结果变换回到时域。IFFT330的输出生成期望的卷积信号y(t)309。应注意，在累加之后，可以将数转换回到32位浮点格式。因此，IFFT的缩放可以在一个浮点运算中完成。同样地，预计算的IR的缩放可以在一个浮点运算中执行。

方法300可以进一步被配置成处理动态变化的脉冲响应。举例而言但并非限制，对于虚拟环境中合成声音的实施，用户可以穿过门或破坏墙，从而使环境的脉冲响应函数改变。可以修改方法以应用两个脉冲响应函数的交叉混合，以便通过交叉混合两个脉冲响应函数来处理环境的变化的脉冲响应。例如，系统可以在执行复数乘法之前应用两个或多个脉冲响应函数的线性组合的缩放。

举例而言但并非限制，如果输入信号段X_i(ω)的FFT的整数表示为16位表示，那么两个IR的线性组合(或仅缩放具有音量包络的单个IR)必须在规格化的频谱数据上以16位整数域完成100％。否则，数据将必须被转换成浮点，并且我们会失去一半的速度。为了避免这个相同的线性组合公式用来计算，组合增益可以用于反向规格化浮点域中的累加结果。

举例而言但并非限制，假定在脉冲响应IR_a与IR_b之间交叉混合的实施。在这个实例中，使IR_a缩放K_a倍，并且使IR_b缩放K_b倍。因为在IR_a与IR_b之间执行交叉混合，所以组合的脉冲响应IR可以表示为：

IR＝x*IR_a+(1-x)*IR_b，其中0≤x≤1。

用于反向规格化累加结果的缩放因子K可以表示为：

K＝x*K_a+(1-x)*K_b。

本公开的实施可以进一步包括根据本公开的各方面的用于执行卷积方法的系统和装置。在图4中描绘根据本公开的方面的信号处理系统400。

系统400可以包括处理器401和存储器402(例如，RAM、DRAM、ROM等)。另外，如果要实施并行处理，那么信号处理系统400可以具有多个处理器401。存储器402包括如上所述配置的数据和代码。具体来说，存储器402可以包括信号数据406，其可以包括例如一个或多个预计算的脉冲响应函数的数字表示和可以在模拟虚拟环境内生成的输入声音的数字表示。

系统400也可以包括众所周知的支持功能410，例如，输入/输出(I/O)元件411、电源(P/S)412、时钟(CLK)413和高速缓冲存储器414。系统400可以可选地包括用于存储程序和/或数据的大容量存储设备415，例如，磁盘驱动器、CD-ROM驱动器、磁带驱动器等。系统也可以可选地包括用于促进系统400与用户之间的交互的显示单元416和用户接口单元418。显示单元416可以采用显示文本、数字、图形符号或其他图像的阴极射线管(CRT)、平板屏幕、触摸屏或其他显示器的形式。用户接口418可以包括控制板、键盘、鼠标、操纵杆、光笔、触摸屏或其他设备。另外，用户接口418可以包括用于对要分析的信号(例如，要卷积的输入信号)提供直接捕获的麦克风、摄影机或其他信号换能设备。系统400也可以包括用于播放使用本文所述的方法生成的合成和卷积声音以及其他音频信号的扬声器419。处理器401、存储器402和系统400的其他组件可以通过图4中所示的系统总线420彼此交换信号(例如，代码指令和数据)。

如本文所使用的，术语I/O一般指将数据传输到系统400或从系统400传输数据以及将数据传输到外围设备或从外围设备传输数据的任何程序、操作或设备。每次数据传输可以被视为来自一个设备的输出和对另一个设备的输入。外围设备包括只输入设备，例如，键盘和鼠标；只输出设备，例如，打印机；以及例如可以充当输入和输出设备两者的可写CD-ROM的设备。术语“外围设备”包括外部设备，例如，鼠标、键盘、打印机、监视器、麦克风、游戏控制器、相机、外部Zip驱动器或扫描仪；以及内部设备，例如，CD-ROM驱动器、CD-R驱动器或内部调制解调器或例如闪速存储器读取器/写入器、硬盘驱动器的其他外围设备。

处理器401可以响应于数据406和程序404的程序代码指令而如上所述对信号数据406执行数字信号处理，程序404由存储器402存储并检索并由处理器模块401执行。程序404的代码部分可以遵循多种不同编程语言(例如，汇编、C++、JAVA或多种其他语言)的任何一种。处理器模块401形成在执行例如程序代码404的程序时成为专用计算机的通用计算机。虽然本文中将程序代码404描述为以软件形式实施并在通用计算机上执行，但是本领域技术人员将认识到，任务管理方法可以替代地使用硬件例如专用集成电路(ASIC)或其他硬件电路来实施。同样地，应理解本发明的实施方案可以全部或部分地以软件、硬件或两者的某种组合来实施。

在一个实施方案中，其中程序代码404可以包括一组处理器可读指令，其实施与图1C中所示的方法100或图3的方法300具有共有特征的方法。程序代码404一般可以包括一个或多个指令，其指示一个或多个处理器执行用于使用固定分区大小频域技术卷积一个或多个输入信号段和一个或多个脉冲响应函数的方法。代码404的指令在被执行时可以使处理器模块401将输入信号段变换到频域，例如，通过对时域输入信号执行FFT运算，并且变换分区脉冲响应函数，例如，通过对时域脉冲响应信号执行FFT运算。指令也可以使处理器401通过将每个变换后的输入信号分片乘以每个变换后的脉冲响应分片执行频谱数据的复数乘法。根据本公开的各方面，处理器可以通过执行适合的移位运算在累加之前缩放复数乘法的结果。指令也可以使处理器在结果被缩放之后累加结果并且将所得乘积变换回到时域，以便生成期望的信号。指令也可以使处理器用外围设备再现数据，例如，通过利用扬声器419播放音频信号。

系统400也可以包括网络接口424，其用于使系统400能够通过网络426(例如，互联网)与其他设备通信。通过非限制性实例，在一些实施中，系统400可以是被配置成使用户能够通过网络玩游戏的本地视频游戏控制台，并且可以在控制台上在本地执行卷积方法。在又进一步的实施中，系统400可以是基于云的服务器，其被配置成执行卷积和视频游戏操作并且通过网络426将数据流传送到基于云的用户到用户的本地控制台。对于基于云的计算方法，可能期望使用分区脉冲响应函数和/或脉冲响应段的较小的块大小，以便最小化等待时间。

尽管已参照声音合成方法和装置来描述本公开的各方面，但是将理解本公开的实施可以包括各种其他方法和装置。举例而言但并非限制，本公开的实施可以包括雷达应用和通用数字信号处理(DSP)应用。

尽管已参照转换成16位整数以执行复数乘法来描述本公开的各方面，但是将理解本公开的实施可以包括转换成其他定点数。举例而言但并非限制，本公开的实施包括使用12位、18位或8位整数来执行输入信号的缩放、乘法和累加运算。更一般地，本公开的实施可以包括通过在频域中执行复数乘法之前转换成浮点数的位数的一半1/2来从浮点转换成固定整数。在又进一步的实施中，在执行复数乘法之前，将浮点数转换成浮点数的1/4与3/4位数之间。

尽管已参照在本地控制台或其他计算系统上播放和计算的视频游戏程序来描述本公开的各方面，但是将理解本公开的实施可以包括其他系统。举例而言但并非限制，本公开的实施可以包括云计算实施，其中根据本公开的操作在云上被执行并且通过网络被传输，尤其是当使用足够小的块时。

尽管已参照单个信道(即，声源)和单个实例(即，单个播放器)来描述本公开的各方面，但是将理解本公开的实施可以包括多个信道(即，多个声源)和多个实例(即，多个播放器)。为了实施这一点，和室内脉冲响应卷积的输入信号可以是对混响贡献的每个声音的混音。每个贡献可以基于与收听者的距离：越靠近的声音对房间的混响贡献越少。此外，混响可能覆盖每个声音(干音)的直接信号，因此距离和位置的感知是通过湿音与干音水平之间的平衡以及方向性平移来驱动的。

尽管已参照在虚拟环境中导致改变的室内脉冲响应的墙破坏或房间的其他改变来描述本公开的各方面，但是将理解本公开的实施可以包括各种其他特征以便模拟虚拟环境的改变的脉冲响应。举例而言但并非限制，本公开的实施可以包括将增益包络应用于脉冲响应以模拟房间的破坏。举例而言但并非限制，可以在执行IR中的FFT之后应用增益包络。IR的FFT可以被一次离线完成并且包络可以被实时应用为IR的每个分区所独有的增益。以这种方式应用不同的包络允许重新使用单个IR来合成不同的房间或房间的几何变化。

尽管已参照频域卷积来描述本公开的各方面，但是将理解本公开的实施可以包括其他信号处理技术。举例而言但并非限制，本公开的方面可以应用于定点变换技术，例如，FFT结果的16位量化。

尽管已参照时域和频域来描述本公开的各方面，但是将理解本公开的实施可以包括对是其他变量的函数的信号执行的卷积运算。

尽管上文是对本发明的优选实施方案的完整描述，但是可能使用各种替代、修改和等效物。因此，本发明的范围应该不是参照上文描述来确定的，而是应该参照所附权利要求书连同其等效物的完整范围来确定。可以将本文描述的任何特征(无论是否是优选的)与本文描述的任何其他特征(无论是否是优选的)组合。在下文的权利要求书中，除非另有明确规定或上下文清楚地指示，否则不定冠词“一(a/an)”在用于含有开放式的过渡短语(例如，“包括(comprising)”)的权利要求书时指代冠词后面的项目的一个或多个的数量。此外，用于重新提及同一权利要求项的词“所述(said/the)”的稍后使用不会改变这个意义，而只是重新引用非单数意义。所附权利要求书不应解释为包括手段加功能的限制或步骤加功能的限制，除非在给定的权利要求书中使用短语“用于……的构件”或“用于……的步骤”来明确指出此类限制。

Claims

1.一种用于卷积输入信号和脉冲响应函数的方法，所述脉冲响应函数被分割成相同大小的多个时间段，所述方法包括：

将输入信号的段变换到频域以生成所述输入信号的所述段的频谱；

将所述输入信号的所述段的所述频谱乘以所述脉冲响应函数的相应段的频谱，其中在所述乘法之前已将所述输入信号的所述段和所述脉冲响应函数的所述相应段的所述频谱从浮点数据格式转换成定点整数数据格式；

缩放来自所述频谱相乘的乘法结果；

累加来自所述缩放乘法结果的缩放结果；

对来自所述累加缩放结果的累加信号执行逆变换以生成时域中的期望的卷积信号，

其中所述缩放乘法结果包括对所述乘法结果执行逐位移位运算，

其中所述执行所述逐位移位运算包括在所述逐位移位运算之前向所述乘法结果添加位。

2.如权利要求1所述的方法，其中所述输入信号为声音信号，并且所述脉冲响应函数对应于生成所述声音信号的环境。

3.如权利要求1所述的方法，其中所述定点数据格式为16位固定整数格式，其中所述方法还包括在所述频谱相乘之前将频谱数据从32位浮点格式转换成16位固定整数格式。

4.如权利要求1所述的方法，其中所述变换输入信号的段包括变换包括对所述输入信号的所述段执行FFT，并且所述对累加信号执行逆变换包括对所述累加信号执行IFFT。

5.如权利要求1所述的方法，其还包括在所述频谱相乘之前，将所述脉冲响应函数的所述段变换到所述频域以生成所述脉冲响应函数的所述段中的每个的所述频谱。

6.如权利要求1所述的方法，其还包括计算用于所述缩放乘法结果的缩放因子，其中所述计算所述缩放因子包括确定所述输入信号的所述段的所述频谱中的峰值以及从所述峰值确定2的下一个幂。

7.如权利要求1所述的方法，其中在与所述输入信号的延迟线分离的缓冲区中执行所述累加缩放结果中的所述累加。

8.如权利要求1所述的方法，其中所述脉冲响应函数包括两个或多个不同的脉冲响应函数的组合，其中所述方法还包括缩放两个或多个脉冲响应函数的所述组合以生成交叉混合的脉冲响应函数。

9.如权利要求1所述的方法，其中预计算所述脉冲响应函数，其中所述方法还包括使用浮点运算缩放所述脉冲响应函数以及使用浮点运算缩放所述对累加信号执行逆变换的所述逆变换。

10.如权利要求1所述的方法，其中预计算所述脉冲响应函数段的所述频谱。

11.一种系统，其包括：

处理器；

存储器，其耦合到所述处理器；

程序指令，其实施在所述存储器中由所述处理器执行，其中所述处理器对所述程序指令的执行使所述处理器实施方法，所述方法包括：

将所述输入信号的所述段的所述频谱乘以脉冲响应函数的相应段的频谱，其中在所述乘法之前已将所述输入信号的所述段和所述脉冲响应函数的所述相应段的所述频谱从浮点数据格式转换成定点整数数据格式；

缩放来自所述频谱相乘的乘法结果；

累加来自所述缩放乘法结果的缩放结果；

12.如权利要求11所述的系统，其还包括耦合到所述处理器的扬声器，所述方法还包括通过所述扬声器播放所述卷积信号。

13.如权利要求11所述的系统，其中所述输入信号为声音信号，并且所述脉冲响应函数对应于生成所述声音信号的环境。

14.如权利要求11所述的系统，其中所述定点数据格式为16位固定整数格式，其中所述方法还包括在所述频谱相乘之前将频谱数据从32位浮点格式转换成16位固定整数格式。

15.如权利要求11所述的系统，其中在与所述输入信号的延迟线分离的缓冲区中执行所述累加缩放结果中的所述累加。

16.如权利要求11所述的系统，其中所述变换输入信号的段包括变换包括对所述输入信号的所述段执行FFT，并且所述对累加信号执行逆变换包括对所述累加信号执行IFFT。

17.如权利要求11所述的系统，其中所述脉冲响应函数包括交叉混合的信号，其中所述方法还包括缩放多个脉冲响应函数的线性组合以为所述频谱相乘的所述脉冲响应函数生成所述交叉混合的信号。

18.如权利要求11所述的系统，其中预计算所述脉冲响应函数，其中所述方法还包括使用浮点运算缩放所述脉冲响应函数以及使用浮点运算缩放所述对累加信号执行逆变换的所述逆变换。

19.如权利要求11所述的系统，其还包括用户接口单元，其中所述输入信号包括由来自所述用户接口单元的输入生成的声音。

20.一种具有程序指令的非暂态计算机可读介质，其中一个或多个处理器对所述程序指令的执行使所述一个或多个处理器执行方法，所述方法包括：

缩放来自所述频谱相乘的乘法结果；

累加来自所述缩放乘法结果的缩放结果；