CN101868984A

CN101868984A - 一种确定高精度分量信号的装置和方法

Info

Publication number: CN101868984A
Application number: CN200880117592.8A
Authority: CN
Inventors: A·弗兰克; S·布利克斯; T·斯波尔
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2007-09-19
Filing date: 2008-09-03
Publication date: 2010-10-20
Anticipated expiration: 2028-09-03
Also published as: JP2010539833A; US8526623B2; US20100208905A1; JP5132776B2; US20130243203A1; WO2009036883A1; DE102007059597A1; US8605910B2; KR101119254B1; EP2189010B1; EP2189010A1; CN101868984B; KR20100063071A

Abstract

本发明公开了一种用于确定WFS系统(200)的分量信号(115)的装置，所述装置包括一提供WFS参数的工具(150)、一WFS参数插入器(160)和音频信号处理工具(170)。所述提供WFS参数的工具(150)使用声源位置(135)以及扬声器位置(145)为一分量信号(115)提供WFS参数，所述参数由小于音频采样频率的参数采样频率确定。所述WFS参数插入器(160)插入WFS参数(155)，以便生成内插WFS参数(165)，其参数内插频率高于参数采样频率，所述内插WFS参数(165)具有插值分数，所述插值分数的准确度比由音频采样频率指定的级别更高。所述音频信号处理工具(170)被配置为将插值分数值应用于音频信号(125)，使得所述分量信号(115)是在一以较高水平精确度处理过的状态中取得的。

Description

一种确定高精度分量信号的装置和方法

技术领域

本发明涉及一种确定WFS(波前合成)系统的高精度分量信号的装置和方法，特别是一种用于波前合成渲染或者重播系统的延迟内插的有效算法。

背景技术

波前合成是由Delft理工大学开发的一种用于对复杂音频场景进行空间渲染的声音再现方法。与大多数现有的声音再现方法不同，空间纠正渲染不限于较小的区域，而是延伸至一扩展的渲染区域。WFS是基于声音数学-物理基础上的，也就是基于惠更斯原理和基尔霍夫-亥姆霍兹积分原理。

通常，WFS再现系统包括大量的扬声器(所谓的第二声源)。扬声器信号由输入信号经过延迟并缩放而形成。由于WFS场景中通常使用许多音频对象(原始声场)，因此需要进行大量这样的运算才能产生扬声器信号。这就是波前合成需要高水平计算能力的原因。

除了上述的优点，WFS还为写实地描绘移动声源提供了可能。该特征运用于许多WFS系统中，对例如电影院中的使用、虚拟-现实应用或者现场表演等非常重要。

然而，对移动声源进行渲染会导致在静止声源的情况下不会发生的一系列特性误差。WFS渲染系统的信号处理对渲染质量具有重大影响。

发明内容

本发明的一个主要的目的就是开发使用WFS来渲染移动声源的信号处理算法。在这种情况下，算法的实时能力是个重要的前提。评价这些算法的最重要的标准是客观感知的音频质量。

如上所述，WFS是一种非常浪费处理资源的声音再现方法。因为该方法在WFS设置中必须使用大量的扬声器，而且WFS场景中使用的虚拟声场数目通常较大。为此，所开发的算法的效率非常重要。

一个重要的问题就是：通过所开发的算法可达到哪种质量。在考虑由WFS引起的其它干扰(artefact)时尤其需要考虑这一点，根据信号处理算法的质量，所述由WFS引起的其它干扰以更具妨碍性的方式或者通过掩盖信号处理的干扰使自身能被感受到。因此，重点在于开发具有通过不同参数(例如内插顺序、滤波长度，等等)可扩展(scalable)其质量的算法。作为极端情况，这包括其渲染误差在优化条件下(忽略任何其它干扰)低于感知阈值的算法。根据不同的质量需要、其它干扰的显著性以及可用资源，可以找到最佳的折衷方式。

可定义值的一系列标准和的范围，以方便设计算法。它们包括：

(a)可靠的声源速度。通常，具有任意声源速度的虚拟声场受到支持。但是，多普勒频移的影响随速度的增加而增大。另外，许多同样用于WFS的物理定律只适用低于声速的速度。因此，下列容许的范围被指定为对声源速度v_src有用的范围：

| v_{src} | \leq \frac{1}{2} c

此处，c为介质中的声速。在标准情况下，所允许的声源速度可达到172m/s或者619km/h。

(b)频率范围。整个音频频率范围，即

20Hz≤f≤20kHz (1)

应作为频率f的渲染范围。

值得注意的是，上截止频率和待实现质量的选择对算法的资源需求具有决定性的影响。

(c)采样频率。采样率的选择对所待设计的算法具有很大影响。一方面，随着奈奎斯特频率有意义频率范围的距离减小，大多数延迟内插算法的误差会急剧增加。同样，随着音频频率范围的上截止频率与奈奎斯特频率之间的范围减小，算法所需的许多滤波器的长度会急剧增加，因为在许多滤波器设计过程中该范围被用作所谓的无关(don’t-care)频带。

采样频率中的变化可能要求所用的滤波器和其它参数具有广泛的适应性，因此还可能决定性地影响具体算法的性能并影响其适用性。

作为标准功能，专业音频技术中普遍采用的系统以48kHz的采样率运行。因此，接下来的描述中也采用这一假定的采样频率。

(d)目标硬件。即使所开发的算法不依赖于所使用的硬件，制定目标平台也是有用的，原因如下：

(i)所采用的支持并行工作的CPU结构对算法的设计具有影响。

(ii)所用存储器的大小和结构影响算法设计的设计决策。

(iii)为指定性能要求，目标硬件必须具有效率标志。

由于目前使用和未来将使用的系统大多基于PC技术，应假定下述特征：

·目前的台式机或者工作站标准部件基于x86技术，

·未使用特别的硬件，

·处理器具有高性能的浮点功能，

·比较大的工作存储器，以及

·通常支持SIMD指令集(即SSE)。

波前合成的音频信号处理中的算法学可分为不同的种类：

(1)计算WFS参数。通过采用WFS合成算子，确定用于每个声源和扬声器组合的缩放值和延迟值。该计算执行的频率相对较低。在这些节点之间，缩放和延迟值是通过简单方法实现内插的。因此，对性能的影响相对较小。

(2)滤波。为实施所述WFS算子，需要使用具有边缘陡度为3dB的低通滤波器。另外，可执行对渲染条件的适应，所述适应依赖于声源或者扬声器。但是，由于滤波器对每个输入和/或输出信号只进行一次运算，因此，性能要求通常是适度的。此外，在现有的WFS系统中，这种运算在专用算术单元中进行。

(3)WFS缩放。该运算，通常被错误地称作WFS卷积，将由合成算子计算的延迟运用到存储于延迟线中的输入信号中，并对该信号以一同样由合成算子计算得到的缩放比例进行缩放。该运算对每个虚拟声场与扬声器组合进行。扬声器信号通过将所述扬声器的所有缩放后的输入信号相加形成。

由于WFS缩放为每个虚拟声场与扬声器组合以及每个声音样本执行，它形成了WFS系统的资源需求的主要部分，即使各项运算的复杂度很低。

除了已知的WFS渲染误差(干扰)，移动中的声源会进一步发生一系列特征误差。下述误差可被识别：

(A)梳状滤波效应(空间频率混叠(spatial aliasing))。在混叠的频率之上，所述空间频率混叠由渲染静止声源产生一干扰图，所述干扰图依赖于声源位置以及频率，且由超高和急剧下降创造。在虚拟声场移动的情况下，该特性会动态变化并因此对一非运动中的观察者产生依赖时间的频率失真。

(B)不遵从延迟时间。计算WFS参数需要使用声源的当前位置。但是，为得到精确的渲染，决定性的位置为当前碰撞声发出的位置。这会导致平均速度相对较小的多普勒频移产生一系统误差，而且如同大多数WFS应用中的干扰一样很有可能不能被感知。

(C)多普勒频散。由于相对速度不同，移动声源导致由第二声源发射的信号中的多普勒频率不同。所述多普勒频率在聆听位置处以虚拟声场的频谱展宽的形式表现。这种误差不能由WFS理论来解释，因而成为目前研究的对象。

(D)由延迟内插引起的音频干扰。为实现WFS缩放，需要用到被延迟了任意量的输入信号，这些输入信号通过仅在随机点处及时提出的离散样本来计算。用于该目的的算法就质量而言有很大不同，且经常会产生被感知为干扰的成分。

自然的多普勒效应，即移动声源的频移，由于其为待由WFS渲染的原始声场的一个特性，此处未被列入干扰。但在许多应用中，一般不希望出现这种情况。

确定随机点处离散时间采样信号的值的操作被称作延迟内插或者分数延迟内插。

为此，已设计出大量的算法，这些算法在内插的复杂度和质量方面具有很大不同。通常，分数延迟算法作为离散滤波器实施，所述离散滤波器以时间离散信号作为输入，以延迟信号的逼近作为输出。

分数延迟内插算法可按不同标准分类：

(I)滤波器结构。FD(分数延迟)滤波器可用作FIR(有限脉冲响应)和IIR(无限脉冲响应)滤波器。

FIR滤波器通常需要大量的滤波系数，因而需要进行大量的算术运算，而且总会产生随机分数延迟的幅度误差。但是，FIR滤波器通常比较稳定，而且具有许多种设计过程，包括许多相近的、非迭代的设计过程。

IIR滤波器可作为全通滤波器实施，具有对FD滤波器恒定且理想的振幅响应。但其对IIR滤波器相位的影响不可能像对FIR滤波器相位影响那么精确。IIR-FD滤波器的大部分设计方法为迭代的，因此不适于具有不同延迟的实时应用。唯一的例外是Thiran滤波器，其存在明确的系数公式。为实现IIR滤波器，必须存储之前输出的值。这在WFS重现系统中是不利的，因为之前的输出信号众多，管理比较麻烦。另外，由于内部状态可能以不同的分数延迟而不是当前的延迟为目标，所以内部状态的使用降低了IIR滤波器对不同延迟的适用性。这就导致了输出信号中被称之为瞬态的干扰。

出于上述原因，我们将仅研究用于WFS再现系统的FIR滤波器。

(II)固定的和可变的分数延迟。一旦确定了FD滤波器的系数，FD滤波器只适用于特定的延迟值。对每个新的值必须再次执行设计操作。依据该设计操作的成本，这些方法在不同程度上适于具有可变延迟的实时操作。

用于可变分数延迟(VFD)的方法将系数计算与滤波计算相结合，因此非常适合于延迟值的实时变化。它们是可变的数字滤波器的变体。

(III)异步采样率转换。在WFS中需要持续可变的延迟。例如，在虚拟声场的重现中，虚拟声场线性移动至第二声源，该延迟为时间的线性函数。该操作可被归纳为异步采样率转换。异步采样率转换的方法通常基于可变分数延迟算法实施。但是它们同时也表现出几个待解决的问题，即抑制成像和混叠干扰(aliasingartefacts)的必要性。

(IV)分数延迟参数值的范围。可变延迟参数d_frac的范围依赖于所使用的方法，并不一定是0≤d_frac≤1的范围。对于大部分FIR方法，其范围为

N为该方法的阶。通过这种方式将线性相位的偏差最小化。线性相位仅对于具体数值的d_frac才有可能。

通过将所需的延迟值d分解为整数值d_int和小数部分d_frac，随机延迟可使用分数延迟过滤器产生。在这样的情况下，d_int的延迟通过输入信号的指数变化(indexshift)来实现。

但是，坚持理想的工作范围会使得延迟最小，为保持因果关系，延迟不能跌破其最小值。因此，延迟内插方法，尤其是具有长滤波长度的高质量FD算法需要增加系统时延(system latency)。但是，即使是极其耗费代价的处理过程，所述系统时延也不能超过20...50个样本的数量级。但是，与典型WFS渲染系统中由其系统确定的其它时延相比，所述系统时延通常是比较低的。

从以下考虑延迟内插的必要性：

在通过WFS合成移动声源的过程中，音频信号所采用的延迟是时变的。WFS渲染系统的信号处理(渲染)以时间离散的方式进行；因此，源信号仅存在于特定的采样时间段内。通过有效的方式离散时间信号的延迟可以为采样周期的倍数，并可通过改变信号指数来实现。对离散时间信号两个采样点之间的值进行估计被称为延迟内插或者分数延迟。为此，需要特定的算法，所述算法在质量和性能方面有很大不同。下文中将会提供一关于分数延迟算法的概述。

在移动声源的WFS中，所需延迟时间可动态变化并取随机值。通常，每个扬声器信号需要不同的延迟值。因此所采用的算法必须支持随机的、可变的延迟。

将延迟舍入成采样周期的最接近的倍数，这样就能够提供较好的结果以及统计的WFS源，但是该方法同时会导致移动声源中具有明显的干扰。

对于波前合成，延迟内插对每个虚拟声场与扬声器的结合都是必须的。就延迟内插的复杂度(对高渲染质量来说是必要的)而言，高质量实时实现并不可行。

1997年，Delft理工大学的Edwin Verheijen的博士论文″Sound repodiction bywav field synthesis″(106-110页)中描述了延迟内插对于移动声源的必要性。但是，只有简单(标准)延迟内插方法可用于实现这些算法。

Marije Baalman，Simon Schmpijer，Torben Hohn，Thilo Koch，Daniel Plewe andEddie Mond：″Creating a large scale wave field synthesis system with swonder″，inProcc.of the 5^th International Linux Audio Conference，Berlin，Germany，March 1997中指出了采样率转换以及移动虚拟声场的必要性。在Bresenham算法的基础上提出了一种算法。但是，这种算法是基于整数计算的，是一种用于在光栅化渲染设备(rastered rendering device)上绘制线条的图形数据处理算法。因此，必须假定其不是实时的内插采样率转换，而是对该节点向最近的整数样本指数进行舍入。

WFS渲染器中实施延迟内插的各种简单的方法。借助所采用的类层次结构，这些方法可被简单替换。除了延迟内插，延迟(以及缩放)的WFS参数的时间内插对采样率转换的质量具有影响。在传统的渲染结构中，这些参数仅在一固定的栅格中(目前为32个音频样本的频率)更新。

执行下述的算法：

-整数延迟。此为原始算法。它不支持任何延迟内插，即延迟值被舍入至采样周期的最近倍数。延迟和缩放参数在当前具有32个样本的栅格中得到更新。该算法以最优的汇编形式实现，且适合于对整个WFS场景进行实时渲染。但是，该操作占据渲染器中所需的大部分计算负荷(computational load)。

-缓冲式线性延迟(BufferwiseDelayLinear)。WFS参数适合用于一粗光栅中(注释：bufferwise)，延迟的信号本身采用一延迟内插基于一线性内插进行计算。实施方式通过汇编的支持来执行，而且就性能而言，该实施方式适合于用在整个WFS场景中。该算法目前被用作默认配置。

-样本式线性延迟(SamplewiseDelayLinear)。该方法中，缩放和延迟值被内插至每个样本中(注释：samplewise)。延迟内插再次由线性内插(即一阶拉格朗日插值)执行。该方法所耗代价明显比之前的方法更加高，而且，该方法仅在C++参考实现方式中存在。因此，该方法不适合用于真实、复杂的WFS场景。

-样本式延迟立方(SamplewiseDelayCubic)。此处，缩放和延迟同样以精确到样本的方式被插值。延迟内插使用三阶(即立方)拉格朗日插值执行。该方法同样仅存在于参考实现方式中，专门适合于少量声源的情况。

从该现有技术出发，本发明的目的在于提供一种装置和方法，来确定波前合成系统的高精度分量信号。

上述目的通过权利要求1所述的装置和权利要求17或者18所述的方法来实现。

本发明的核心是：一质量相对高的分量信号是可实现的，因为属于虚拟声场的音频信号最初须经预处理，所述预处理不依赖于WFS参数，以实现改进的内插。因此，所述分量信号具有较高的准确度，分量信号表示的成分是由虚拟声场产生的且为扬声器信号的组成部分。此外，本发明包括WFS参数的改进的插值，例如由低参数采样频率确定的延迟或者缩放值。

因此，本发明的实施例提供了一种装置，用于确定一WFS系统的分量信号，所述WFS系统包括一扬声器阵列，所述WFS系统被配置成采用音频信号，所述音频信号与虚拟声场相关、且以一音频采样频率采样的离散信号形式存在，声源位置与虚拟声场相关，以便在考虑扬声器位置的同时基于虚拟声场计算扬声器的分量信号。本发明的装置包括使用声源位置以及扬声器位置为一分量信号提供WFS参数的工具(means)，所述参数由小于音频采样频率的参数采样频率确定。所述装置进一步包括一WFS参数插入器，用于插入WFS参数，以便生成内插WFS参数，其参数内插频率高于参数采样频率，所述内插WFS参数具有插值分数(interpolated fractions)，所述插值分数的准确度比由音频采样频率指定的级别更高。最后，所述装置包括音频信号处理工具，该工具被配置为将插值分数值应用于音频信号，使得所述分量信号是在一以较高水平精确度处理过的状态中取得的。

该解决方案的理念是基于以下事实：该整体算法的复杂性是利用冗余来降低的。在这种情况下，延迟内插算法被细分成：a)用于计算中间值的部分，以及b)用于计算最终结果的有效算法。

WFS渲染系统的结构如下：对于每个原始声场，所有扬声器的输出信号通过延迟内插来计算。通过这种方式对每个原始声场进行预处理。必须确保的是该预处理于实际的延迟无关。在这种情况下，数据只要经过了预先处理便可用于所有的扬声器信号。

贯彻这一原则的实施例通过两种方法得到描述：

(i)方法1：过采样与低阶延迟内插的结合。

该方法中，输入信号通过过采样被转换到更高的采样率，然后被储存至一延迟线中。这是通过多相方法来有效执行的。“超取样”值的数目相对较高，且储存在延迟线中。

为生成输出信号，所需延迟与过采样率相乘。该值用于访问延迟线。通过一低阶内插算法(即多项式内插法)，最终结果由延迟线的值确定。该算法以系统的原始时钟速率执行。

将过采样与多项式内插结合用于单延迟内插运算在WFS应用中是比较新颖的。通过综合利用过采样生成的信号可显著提高WFS中性能。

(ii)方法2：使用Farrow结构内插。

Farrow结构为可变数字滤波器，用于连续变化的可变延迟。它由一组P个子滤波器组成。输入信号由每个子滤波器进行滤波并提供P个不同的输出信号。c_p输出信号是由求解d中的多项式得到，d为所需延迟的分数部分，子滤波器的输出c_p形成了多项式的系数。

作为预处理，所建议的算法为输入信号的每个样本生成子滤波器的输出。P个值被写入延迟线。通过访问延迟线中P个值以及计算多项式，实现输出信号的生成。该高效操作对每个扬声器执行。

在上述实施例中，音频信号处理工具执行方法(i)和/或(ii)。

在另一实施例中，音频信号处理工具执行音频信号的过采样，使得所述过采样以能确保所需精确度水平的过采样率进行。这样做的好处是使第二个插值步骤成为多余。

本发明的实施例描述了WFS延迟内插，由于在抑制可听噪声方面具有明显改进，WFS延迟内插尤其有利于波前合成中的音频技术和声音技术。所述改进是通过在分数延迟和异步采样率转换中使用改进的延迟内插来实现的。

附图说明

下面结合附图对本发明的实施例作进一步说明，其中：

图1为本发明的一实施例的设备的示意图；

图2示出了对三阶拉格朗日插值的频率响应；

图3示出了对七阶拉格朗日插值的连续脉冲响应；

图4示出了对各阶拉格朗日插值的最坏的振幅响应；

图5示出了一WFS渲染器与WFS信号处理；

图6a至图6c显示了振幅和延迟内插的表示；

图7示出了通过过采样和同时作为一个拉格朗日插值读出的延迟内插；

图8示出了用于过采样的抗镜像滤波器的规格，过渡带仅指定为基带；

图9示出了用于过采样的抗镜像滤波器的规格以及过渡带成像的所谓的“无关”区域；

图10示出了在Farrow结构的基础上同步读出的延迟内插；以及

图11为一在示范区内具有一波前合成模块和扬声器阵列的波前合成系统的基本框图。

具体实施方式

在接下来的描述中，应注意的是，在不同实施例中，相同的或者具有相同行为的功能元件的参考数字是一致的，因此所述功能元件的描述在接下来描述的不同的实施例中是可互换的。

在详细描述本发明之前，参考图11对波前合成系统的基本结构进行描述。所述波前合成系统具有一扬声器阵列700，所述扬声器阵列700位于示范区702内。具体地，图11中的扬声器阵列为360°阵列，包括四个阵列边700a、700b、700c、和700d。例如，若示范区702为一电影院，按照前/后或者右/左的约定，则可假定电影屏幕位于示范区702上与子阵列700c相同的一侧。在这种情况下，观众中坐在所谓最佳点P位置处的成员朝前看屏幕。子阵列700a则位于观看者的后方，而子阵列700d则位于所述观看者的左方，700b位于所述观看者的右方。每个扬声器阵列由多个不同独立的扬声器708组成，其中每个扬声器由专用扬声器信号控制，所述专用扬声器信号由波前合成模块710通过数据总线712提供，所述数据总线712仅在图11中有示意性描述。所述波前合成模块计算各个扬声器708的扬声器信号，同时使用关于扬声器的类型和相对于示范区702位置的信息，也就是扬声器信息(LS信息)，还可能有其它数据，根据已知的波前合成算法，所述扬声器信号在每种情况下通过具有与之相关的位置信息的虚拟声场的音频数据获得。此外，所述波前合成模块可同样获得更多的输入，包括例如与示范区的声学特性相关的信息等等。

图1描述了根据本发明的一实施例的设备。声源位置135属于虚拟声场，扬声器位置145为一用于提供WFS参数的工具150的输入。用于提供WFS参数的工具150可选择性地包括另一输入，该输入中可读入其它数据190。所述其它数据190可包括，例如一房间的声学特性和其它场景数据。在参数采样频率上，用于提供WFS参数的工具150确定读入WFS参数插值器160的WFS参数155。一旦执行了插值，插值WFS参数被提供给音频信号处理工具170。所述音频信号处理工具170进一步包括一用于音频信号125的输入和一用于分量信号115的输出。每个虚拟声场均为自身提供一音频信号，该音频信号被处理成不同扬声器的分量信号。

图2为一WFS系统200，包括WFS信号处理210以及WFS参数计算220。所述WFS参数计算220包括一与N个声源信号相关的场景数据的输入。假定该WFS系统中有N个信号源(虚拟源)和M个扬声器可用，WFS参数计算220中计算NxM个参数值(缩放和延迟值)。这些参数被输出到WFS处理210。WFS处理210包括一WFS延迟和缩放工具212、一求和工具214以及一延迟线216。延迟线216一般由一用于缓冲的工具实现，且可由一环形缓冲器实现。

所述NxM个参数由WFS延迟和缩放工具212读入。WFS延迟和缩放工具212进一步从延迟线216读取音频信号。延迟线216中的音频信号包括一索引(index)，所述索引对应于一具体延迟且由一指针217访问，使得WFS延迟和缩放工具212可通过访问一具有特殊索引的音频信号来选择相应音频信号的延迟。因此所述索引同时作为延迟线216中相应数据的地址或者对相应数据起寻址作用。

延迟线216从N个源信号中获取音频输入数据，所述音频输入数据按照其时间顺序储存于延迟线216内。通过相应访问延迟线216的索引，WFS延迟和缩放单元212可读出具有预期的(经计算的)延迟值(指数)的音频信号。此外，WFS延迟和缩放单元212输出相应分量信号115至求和工具214，所述求和工具214将相应N个虚拟源的分量信号115相加，从而生成M个扬声器的扬声器信号。所述扬声器信号被提供给声音输出240处。

因此实施例与WFS渲染系统200的音频信号处理相关。该渲染系统包含输入数据：WFS源(虚拟声源)的音频信号、计算声源的索引变量n、以及表示声源数目的N。通常，该数据来自于其它系统分量，例如音频播放器、可能的预滤波器等等。作为另一输入参数，振幅(缩放)和延迟值由WFS参数计算块220提供给源和扬声器的每个组合(索引变量：m，数目：M)。这通常表现为一矩阵，且声源n和扬声器m的相应值在下文中涉及到延迟delay(n，m)和缩放scale(n，m)。

所述音频信号最初储存于延迟线216中，以方便后面的随机存取(即可变的延迟值)。

本实施例的核心部分是块(block)“WFS延迟和缩放”212。所述块有时也被成为WFS卷积；但实际上它并不是信号处理意义上的卷积，因此通常避免使用该术语。此处，对声源和扬声器的每个组合(n，m)都创建有一输出信号(分量信号115)。

对于信号y(n，m)，一延迟(n，m)-延迟值从声源n的延迟线216被读出。该值与幅值尺度(n，m)相乘。

最后，所有声源n＝1，...，N的信号y(n，m)通过扬声器被加至扬声器，并因此形成了每个扬声器y(m)的控制信号：

Y(m)＝y(1，m)+y(2，m)+...+y(N，m)

该计算对扬声器信号的每个样本执行。

就一静止声源而言，本发明的方法和/或装置实际上是次要的。即使合成后的波长偏离了理论上定义的理想情况，当延迟值被舍入时，所述偏离很小且完全被其它实际中发生的偏差(deviation)例如空间频率混叠所掩盖。但是，对于实际的实时实施方式，区分当前非移动和移动声源的用处不大。在所有情况下，必须使用一般情况下即移动声源使用的算法进行计算。

该算法尤其对移动声源有意义，但是，不仅在样本被“吞没”或者再次使用时会发生误差，而且在随机节点处的采样信号的近似值总会产生误差。节点之间逼近的方法被称作分数延迟内插。

同样这些误差使自身尤其是在输出信号的频率和相位误差中被感知。如果这些误差是时变的(如移动声源中的情况)，则在频率范围内会产生不同的效果(通常是可清楚听到的)，例如振幅和频率的调制以及由此引起的相当复杂的误差频谱。

这些误差同样发生在插值方法使用时-此处起决定性作用的是所用方法的质量，该质量通常与相应的计算开销相关。

有一种可能性就是正确省略和插入样本，但是该方法并不能提供更高质量的结果。

本发明的核心问题是通过构建相应的WFS信号处理，使得能够使用高质量的延迟内插方法，同时保证计算开销较低。

在本发明的实施例中，问题是不对声源的运动作出反应，并努力避免由相应产生的样本导致的误差。信号处理不需要任何关于声源位置的信息，但是需要专门的延迟和幅度值(在移动声源的情况下是时变的)。所讨论的误差是由于所述延迟值通过WFS延迟和缩放212(主要：该方法用于延迟内插)被用于音频信号功能单元的方式所引起的。这就是本发明的作用：减少使用高品质的延迟内插方法引起的误差。

如上所述，对于高值分量信号来说，使用高质量延迟内插方法很重要。为实现求值，可进行非正式的听觉测试，通过此方法来评估延迟逆差对一重现系统中渲染质量的影响。

可采用现有的WFS实时渲染系统进行渲染，其中使用了不同的延迟内插方法。所描述的算法用于延迟内插。

所研究的场景为独立的移动声源，该声源沿预先计算的简单几何路径进行移动。为此，所述渲染系统的现有的编写及渲染应用被用作屏幕播放器(sceneplayer)。此外，一适合的渲染器用于产生程序中的运动路径，无需任何外部现场播放器来评估现场播放器和网络传输性能对品质的影响。

所用的声源信号简单，通常为音调信号，由于采用所述信号，延迟内插噪声的感知有所增加。可使用系统的低于和高于空间混叠频率的信号，以评估两者的感知，没有任何失真的影响和延迟内插噪声和混叠干扰的相互影响。

研究以下运动路径：

1.一点声源围绕阵列做圆周运动。选取半径使得声源总是位于阵列外足够远的距离，例如通过切换到平移算法或通过改变幅度计算，以避免附加误差。ddd标志被激活以提高延迟改变速率。

2.一平面波围绕阵列做圆周运动。其法向总是指向阵列的中心。根据之前实验类推来选择其它边界条件。

3.一点声源朝阵列前方和后方做重复的线性运动。为避免脉冲式的干扰，该运动方向的逆转不是突然发生的，而是通过一直(线性)加速使声源达到目标速度，一旦达到目标速度声源便变回一匀速运动，使得该运动方向逆转。dd1标志应停用，以防止幅度变化导致的任何影响。

4.平面波沿朝阵列中心的法向做线性运动。平面波的参考点进行如之前的实验中发生的运动。ddd标志被激活。该实验的目的是尽可能将延迟内插的渲染误差与移动声源的其它干扰隔离开来：一平面波的参考点仅用于为源信号提供一时间基础(temporal basis)。因此，一频移会对所有第二声源信号产生均匀采样率转换。渲染的其它参数(扬声器重量的缩放、第二声源的多普勒频移、混叠干扰的显著性)不受频移的影响。

感知到的质量由几个测试人员非正式地、主观地进行评估。

下面是待回答的问题：

·延迟内插算法对WFS渲染的感知质量有什么影响？

·哪些特征性的干扰可以追溯到延迟内插，什么条件下它们尤为显著？

·始于延迟内插的哪些质量有没有更多可感知的改进？

接下来介绍评估的分数延迟算法质量的各项措施。

所述措施就其适用性而言还有待进一步改进，且可由新方法替代。这些措施既可用于评估算法的质量，又可用于制定质量标准，所述质量标准被作为设计和最优方法的目标。

可使用普通的分析离散系统的方法来对为具体分数延迟设计的FD滤波器进行研究。从这个角度而言，可使用例如复杂频率响应、振幅响应、相位响应、相位延迟和群延迟等评估方法。

理想的分数延迟元素具有振幅为1的恒定振幅响应、线性相位以及恒定的、与预期延迟相对应的相位和群延迟。针对d的不同值，必须对相应的措施作出评估。

图3的示例描述了不同延迟值d的三阶拉格朗日插值的振幅响应和相位延迟。图3a表述了振幅对归一化频率的依赖，图3b描述了相位对归一化频率的依赖。图3a、3b分别描述了不同d值的不同图形。例如，图3a示出了d＝0；0.1；0.2；....；0.5时的值。图3b示出了d＝0；0.1；0.2；....；1时的值。

通过频率响应进行评估仅对时不变系统有用，不可用于分数延迟参数中依赖于时间的变化。为了研究这些变化对内插信号的影响，可使用一理想内插信号与一实时内插信号之间差别的措施，例如信噪比(SNR)或者THD+N(总谐波失真+噪声)措施。THD+N措施用于评估延迟内插算法。为确定THD+N，采用定义的延迟曲线对一测试信号(通常为正弦振荡)进行插值，其结果与解析生成的、预期的输出信号进行比较。所用的延迟曲线通常是线性变化的。

主观评价可能出现在个别通道和WFS设置中。这包括采用与上面描述的非正式听觉测试相似的条件。

此外，可考虑使用客观测量方法来评估感知信号，尤其是PEAQ方法(音频质量的感知评估)。在这种情况下，可建立与主观确定的感知质量以及与客观质量措施的良好匹配。不过，由于PEAQ测试是为其它应用领域(音频编码)设计并参数化的，因此更进一步的研究结果，也将必须严肃对待。

图4为由一离散可变FD滤波器生成的连续脉冲响应的示例。特别地，图中示出了七阶拉格朗日插值的连续脉冲响应，信号的振幅作为时间节点t＝0，±1，±2，±3，±4的函数。时间被归一化，使得振幅在t＝0处取得最大值(脉冲的节点)。对于大于或者小于0的t值，振幅趋向于零。

连续可变分数延迟滤波器的连续脉冲响应可用于描述这种结构的性能。因为离散脉冲响应由多个d值确定，且被合并至一(准)连续脉冲相应，所以这种连续形式的描述可以生成。通过使用这种描述形式来研究用于一步采样率转换的FD滤波器的性能，即，例如可研究混叠频率和成像成分的抑制。

从这一描述，可获得可变延迟内插算法的质量措施。基于此，可以检查这种可变滤波器的质量是否会受特别是通过改变连续脉冲响应的特性的影响。

为提供高质量的分量信号，在延迟内插算法基础上必须强调一些要求。

接下来，将在合适方法的基础上定义一些要求。

·在整个音频再现范围内待实现高质量内插。选择适应于人类听觉能力的算法和参数化法，其误差因WFS传输系统中其它误差而不能被感知。

·分数延迟的随机值和随机变化率应该是可能的(在指定的最大声源速度范围内)。

·分数延迟中的稳态变化不得导致干扰(瞬态)。

·必须保证可以在渲染单元内以模块化方式实施该方法。

·所述方法必须能以高效的方式实施，使得整个WFS场景的实时性能可运用经济上可接受的硬件来实现(至少正确地(perspectively))。

正如上文所述，延迟时间的变化会导致音频信号的异步采样率转换，该变化对渲染移动声源来说是必要的。抑制处理过程中的混叠和成像效应成为采样率转换的实施方式中待解决的最大问题。转换因子的大范围成为WFS应用的另一个复杂因素。因此，所述方法需要研究关于抑制被反映(mirrored into)至基带中的频率的特性。需要分析的是，可怎样对分数延迟算法就其抑制混叠和成像成分而言进行研究。所待设计的算法必须是适于此基础的。

对于波前合成，延迟内插对于虚拟声场和扬声器的每个组合是必要的。根据实现高渲染质量所必须的延迟内插的复杂性，实时高质量实施方式是不切实际的。

拉格朗日插值是分数延迟内插最广泛使用的方法-最有利的算法之一，且建议其本身作为大多数应用待测试的第一算法。拉格朗日插值是基于多项式插值的概念。对于一N阶方法，计算N阶多项式，所述多项式贯穿围绕所寻找位置的N+1个节点。

拉格朗日插值满足最大平坦性(flatness)的条件。这就意味着逼近误差及其前N个推导在可选频率ω处消失(实际上，ω几乎全部选定为0)。因此，拉格朗日插值在低频率范围表现出极小的误差。但是，在相对较高频率处的表现却不尽人意。

图5示出了不同阶拉格朗日插值的所谓最坏情况振幅响应。图中示出了依赖于归一化频率(ω/ω₀，ω₀为截止频率)的振幅，以及阶数N＝1、3、7和13的拉格朗日插值。即使阶数不断上升，高频率段质量的提高依然比较缓慢。

虽然这些特征使得拉格朗日插值看起来不大适合于WFS应用，但该插值方法可用作相对复杂的算法的基本单元，所述算法没有上述的缺点。

滤波器系数由下式定义：

h_{i} = \prod_{k = 1, k &NotEqual; i}^{N} \frac{d - k}{k - i} - - - (2)

为了直接应用本公式，在计算N+1个系数时需要进行O(N²)次运算。

图6a至6c中示出了振幅响应和延迟内插d的表示。

例如，图6a中的音频信号为时间t的函数，其振幅为A。该音频信号的采样受时间t10、t11、t12、....、t20、t21等的影响。因此采样率由1/(t10-t11)定义(假定采样率是恒定的)。在较低频率处，延迟值被重新计算。在图6a所示的例子中，t10、t20和t30处的延迟值得到计算，在时间t10处计算延迟值d1，在时间t20处计算延迟值d2，在时间t30处进行计算延迟值d3。当重新计算延迟值时，时间点可能发生变化；例如，每32个时钟可生成一新的延迟值，或者在计算新延迟值的间隔内可能已经过了超过1000个时钟。在延迟值之间，可对单个时钟进行延迟值插值。

图6b中的示例描述了延迟值d的插值是如何执行的。在这样的情况下，可以使用不同的插值方法。最简单的方法是线性插值(一阶拉格朗日插值)。更优的插值法是基于与更高阶多项式(更高阶拉格朗日插值)的，相应的计算会消耗更多的计算时间。图6b示出了如何在时间t10处采用延迟值d1，如何在时间t20处采用延迟值d2，延迟值d3如何出现在时间t30处。插值导致延迟值d13出现在时间t13处。选择插值使得时间t10、t20、t30...处的节点作为插值曲线的部分。

图6c示出了音频信号的振幅A，所述音频信号为时间t的函数，所描述的时间间隔位于t12和t14之间。通过插值获得的延迟值d13位于时间t13处，时间t13处的延迟值d13导致振幅被移动至时间ta。在本示例中，所述移动是朝较小时间值进行，这只是一个具体的实施例，在其它实施例中可以相应不同。如果d13具有一分数部分，那么ta不依赖于采样时间。换言之，不需要一个时钟时间就可获得A2，而且逼近(例如舍入)会导致上述的问题，这些问题由本发明来解决。

如上所述，根据本发明可具体采用两种方法：

(i)方法1：采样与低阶插值结合，以及

(ii)方法2：使用Farrow结构实现内插。

首先详细介绍方法1。

通过一固定(通常是有理数(rational))因子改变采样率的方法是多种多样的。所述方法也被称作同步采样率转换。但是，使用这种方法只能生成固定输出次数的输出信号。另外，一旦输入和输出比率为无理数(即包括一较大的最小公倍数)，这些方法的代价就会变得较高。

出于上述原因，本发明建议将同步采样率转换与分数延迟内插方法相结合。

借助提高采样率来实施分数延迟，并舍入至最接近的采样时间，这种方法由于其预先假定权宜的信噪比具有相当高的采样率，通常不能当作权宜之计。

相应地，所建议的方法包括两个阶段：第一步骤包括由一固定整数因子进行的同步采样率转换。所述转换通过增采样(在每个输入值后插入L-1个0样本)及随后的低通滤波进行，以避免图像谱。该操作可通过多相滤波来有效执行。

第二步包括在过采样值之间进行分数延迟内插。所述插值借助于低阶可变分数延迟滤波器执行，低阶可变分数延迟滤波器的系数是直接计算的。此处尤其有用的是采用拉格朗日插值(见上文)。

为此，线性插值可在多相滤波器组的输出之间执行。主要目的是减少对于大多数非有理的(non-rational)(“不成比例的”)采样率所必需的存储和计算功率需求。

还有可能引入“宽带分数延迟元素”，其基于采用因子2进行的增采样、使用一低阶分数延迟滤波器、以及随后的减采样至原始采样率的组合。通过多相结构的实施方法，所述计算被分为两个独立的分支(偶数分支和奇数分支)。其结果是，增采样和减采样元件不需要直接实施。此外，分数延迟元件可在基带频率而不是过采样率实施。与分数滤波器(例如拉格朗日插值)相比，可变分数延迟滤波器质量提高的一个原因就是该滤波器由于采样率升高而仅运算至奈奎斯特频率的一半。

这促成了拉格朗日插值滤波器的最大限度平坦特性，因为在低频率段表现出极小的误差，而相对较高频率处发生的误差只能通过大量提高滤波器阶数来减少，这与用于系数计算和滤波方面的努力的相应增加有关。

宽带分数延迟滤波器的原则也可与半带滤波器一起作为抗镜像滤波器的有效实施方式。可变分数延迟元件可基于专用结构设计，其中所谓的Farrow结构(见下文)比较重要。

用于描述异步采样率转换的模型(DAAU-数字异步采样率转换器，或者GASRC＝通用异步采样率转换)包括一同步采样率转换器(过采样，或者有理数(rational)采样率转换)，其后紧跟一用于复制DA/AD转换的系统，一般通过一可变分数延迟滤波器来实现。

但是，同步过采样与可变延迟内插的组合在音频技术领域相对较普遍。这很可能是由于该领域所用的方法大多是从同步采样率转换器演变而来的，这些同步采样率转换器本身通常被设计成包括数个步骤。

一个特例是滤波器的设计方法其中有明确的、有效的滤波器系数计算规范。基于拉格朗日插值的分数延迟算法流传最广。通过上述算法，可变分数延迟可以相对有效的方式来实施。另外，还有一些滤波器基于其他插值方法，如样条函数。但是，这些算法不大适合用于信号处理算法中，尤其是音频应用。

与基于直接计算滤波器系数的分数延迟内插的方法相比，可变部分的滤波器阶数的大幅降低能够显著减少计算开支。

波前合成应用的优点在于过采样操作仅需要对每个输入信号执行一次，而该操作的结果可用于由该渲染单元计算的所有扬声器信号。因此，尤其是为了在整个音频渲染范围内保持较低的误差，过采样可能需要相应更高的计算开支。必须对每个输出信号单独执行可变分数延迟滤波，由于其要求的滤波器阶数较低，因此该操作执行起来可更有效。FD滤波器具有明确计算的系数(即，尤其是，拉格朗日FD滤波器)，FD滤波器的决定性缺点之一也就是其在高频率段的低性能，可由下述事实得到补偿：这些滤波器仅需要在相当低的频率范围内运作。

根据本发明，在一WFS渲染系统中，所提的算法实施如下：

·以离散音频数据形式存在的声源信号使用固定的、整数因子L进行过采样。这是通过在两个输入信号之间插入L-1个零样本，并随后采用抗镜像滤波器执行低通滤波来产生影响的，以避免在过采样信号中发生对输入频谱的复制。该操作使用多相技术有效实现。

·过采样值被写入通常作为环形缓冲器实施的延迟线216中。值得注意的是，相比传统算法，延迟线216的容量通过因子L有所增加。这代表了存储与计算复杂度之间的一种权衡-此处所设计算法必需选择的权衡。

·为了读出所述延迟线，延迟的期望值与过采样率L相乘。通过分离非整数部分，获得整数索引(integer index)d_int以及以分数部分d_frac。若可变FD滤波器的最佳工作范围偏离了0≤d_frac≤1，则对该操作进行修改，使得(N-1)/2≤d_frac≤(N+1)/2适用于拉格朗日插值。整数部分用作一用于访问延迟线的索引，以获得插值的节点。拉格朗日插值滤波器的系数由d_frac确定。内插输出信号起因于将节点与经计算的滤波器系数相卷积。对每个扬声器信号重复该操作。

图7为根据本法明第一个实施例通过过采样进行的延迟内插，通过拉格朗日插值同时读出。本实施例中，通过过采样工具236对离散音频信号数据x_s(来自音频源215)进行采样，随后根据时间顺序将其存储在延迟线216中。因此，一个样本对应每个延迟线216的存储器，所述采样导致在时间tm(见图6a)产生一预定点。延迟线216中相应的过采样值可由WFS延迟和缩放工具212读出，指针217根据延迟值读出样本。这意味着进一步指向图7左部的指针217对应更多的当前数据，即该指针具有轻微延迟，进一步指向图7右部的指针217对应具有更高资格(即更大的延迟)数据的音频数据或者样本。根据延迟线216的索引，只有可以检测到延迟值的整数部分，分数(有理)部分相应的插值发生在分数延迟滤波器222内。分数延迟滤波器222输出了分量信号115。分量信号115(y_i)随后与不同虚拟源X_s相加并被输出至相应的扬声器(扬声器信号)。

滤波器可被静态设计成本应用的运行时间之外。因此，滤波器设计的效率要求是无关的；可使用高性能工具和最优方法。

最优抗镜像滤波器(也被称作原型滤波器，因为它是用于实现多相的子滤波器的原型)是理想的低通滤波器，其离散截止频率

∏对应于过采样信号的采样频率。

为设计可实现的低通滤波器，指定额外的自由度是有用的。这通过定义过渡带或者无关频带发生，其中就频响而言没有提供说明。这些过渡带通过上述的音频频带来定义。过渡带的宽度对用于实现预期阻带衰减的滤波长度具有决定性作用。过渡范围为2f_c≤f ≤2(f_s-f_c)，f_c为预期上截止频率，f_s为非过采样信号的采样频率。

图8详细说明了用于过采样的抗镜像滤波器的频响，过渡带310被指定仅为基带。

图9详细说明了用于过采样的抗镜像滤波器，确定了过渡带310的成像(image)310a、310b、310c的所谓无关区域。附加的无关频带可定义于原始过渡范围310的成像处。

然而，由于过采样仅用作异步采样率转换的第一阶段，且由于该转换需要频率内容的转移，必须认真对待多个过渡带的利用，以避免在成像/或混叠分量移动到可听频率范围。

抗镜像滤波器几乎完全被设计成线性相位滤波器。在这一点上应该绝对避免相位误差，因为延迟内插的目的是要以目标(targeted)方式影响输入信号的相位。然而，对于作为一多相系统的实现方式，线性相位不适用于子滤波器，因而不能相应节省复杂度。

为设计所述原型滤波器，可采用现有的滤波器设计方法。特别相关的是最小二乘法(Matlab中：firls)以及等涟波方法(也被称作最大或者切比雪夫最优法，Matlab函数：firpm)。使用firpm的应用必需注意，相对较大滤波器长度(N_pp＞256)通常不收敛。但是，这仅是由于所使用工具(此处为Matlab)的数值，且可由一相应的实施方式抵消(neutralized)。

由于过采样信号通过插入L-1个零样本形成，对于需保持的原始信号的幅度采用因子L进行放大。在不增加计算开支的条件下，可以通过将滤波器系数与该因子相乘来实现放大。

不同于如拉格朗日插值的延迟内插的直接方法，所述组合算法包括各种相互依赖的、决定质量和复杂度的参数。它们包括：

(a)原型滤波器的滤波长度N_pp。它决定了抗镜像滤波器的质量，同时影响其性能。但是，由于对于每个输入信号仅进行一次滤波，因而对性能的影响相对较小。原型滤波器的长度也决定了由于延迟内插而引起的系统延迟。

(b)过采样率L。L决定了延迟线216必需的容量(存储要求)。在现代结构中，这点通过缓存局部性(cache locality)对性能产生影响。此外，随着L增大，实现预期滤波质量所需滤波长度也受到影响，因为需要L个多相子滤波器，而且因为过渡带宽随L增大而减小。

(c)渲染频率范围。渲染频率范围决定了滤波器过渡范围的宽度并影响实现预期滤波质量所需的滤波长度。

(d)插值阶数N。可变分数延迟内插(通常实施为拉格朗日插值)的阶数对性能及质量产生最深远的影响。其阶数决定了获得滤波系数和自身卷积所需计算开支。N也决定了卷积所需延迟线216的值的数目，因此还规定了所需存储带宽。由于输入信号与输出信号的每个组合都需要变量插值(variable interpolation)，N的选择对性能具有最大影响。

在这些参数当中，需要找到一种比较理想的组合，该组合对关于质量和性能方面的应用而言是比较理想的。为此，需要通过模拟对该算法不同阶段的相互影响进行分析并核实。

下列因素应予以考虑：

·过采样率L的选择应该适中，不得超过2和8之间的比率。

·所述变量插值不超过一低阶数(最大为3)。同时，使用奇数插值阶数，因为通过与纯拉格朗日插值的特性类比，即使阶数也有更重大的误差。

为了分析该滤波器，除了模拟实际输入信号，还可分析等效静态滤波器。为此，对于固定的分数延迟，包含在拉格朗日插值中的原型滤波器的滤波器系数由相应的拉格朗日权重确定并与之相乘，并在执行必要的指数变化后相加。因此，该算法可根据第4部分所述的标准(频率响应，相位延迟，连续脉冲响应)来分析，不必要遵守的多速率处理的特殊性。

因此，一种用于确定等效静态FD滤波器的算法待实施。唯一的问题在于仅规定了滤波长度，以便获得所有d值的可比的值，因为根据不同的d值，等效滤波器会访问输入信号的不同样本。

由插值滤波器确定的静态延迟依赖于采样阶数L、多相原型滤波器的相位延迟、以及插值阶数。若原型滤波器为线性相位，下述系统延迟会导致：

D_{system} = \frac{N_{pp} + N}{2 L} - - - (3)

所述算法构成一种可以对实用且易于实现的延迟内插进行改进的方法。与延迟内插方法(由系数的方向计算组成)相比，附加的性能需求相当低。这与渲染误差的明显减少相矛盾，尤其是在相对较高的频率处。不同于例如拉格朗日插值等直接法，要以合理的开支实现不受整个音频渲染范围内可感知干扰的影响的渲染是完全可能的。对该方法的性能起决定作用的是以下过程：有效获得整数及分数延迟参数、计算拉格朗日系数、以及执行滤波。

所采用的用于确定性能确定的参数的设计工具相对简单：L、N_pp和N可在外部限制的基础上或者通过实验手段来确定。原型滤波器的设计使用低通滤波器设计的标准方法执行，同时开发另外的无关区域。

接下来详细介绍本发明的另一种具创造性的方法2(使用Farrow结构实现插值)。

Farrow结构是一种可变滤波器结构，用于实现可变分数延迟。该结构基于FIR滤波器，其行为可通过附加参数控制。对于Farrow结构，延迟的分数部分被用作参数，以描绘一可控的延迟。Farrow结构是可变数字滤波器的一个例子，即使它是独立发展的。

可变特征通过采用多项式形成FIR滤波器系数实现。

h [n] = Σ_{m = 0}^{M} c_{nm} d^{m}, - - - (4)

其中d为可控参数。滤波器的转移函数确定为：

H (z, d) = Σ_{n = 0}^{N} Σ_{m = 0}^{M} c_{nm} d^{m} z^{- n} - - - (5)

为了有效实施，该转移函数通常实现为：

H (z, d) = Σ_{m = 0}^{M} d^{m} Σ_{n = 0}^{N} c_{nm} z^{- n} - - - (6)

= Σ_{m = 0}^{M} d^{m} c_{m} (z) - - - (7)

Farrow结构的输出可作为d中的一个多项式，多项式的系数作为FIR滤波器结构中M个固定子滤波器C_m(z)的输出。可通过采用Horner算法有效实现多项式求值。

固定子滤波器C_m(z)的输出信号不依赖于具体的分数有理延迟d。根据上述利用多于计算的方案，这些值可作为中间结果，用于计算所有第二声源的输出信号。

本发明的算法结构如下：

·每个输入信号与M个子滤波器并行卷积。

·子滤波器的输出值被写入(结合采样时间)延迟线216。

·为确定延迟的输出信号，延迟的整数部分被确定，延迟线216中预期数据的索引由此确定。

·子滤波器该位置处的输出被读出并用作分数有理延迟部分d中多项式插值的系数。

·多项式插值的结果是期望的延迟输入值。对每个输出信号重复进行最后三步。

该算法如图10所示，也可概括如下。在Farrow结构基础上执行同步读出，音频信号x_s的数据被输入一延迟线216。但是在本实施例中，音频数据本身不作为输入，而是系数c_p被计算作为Farrow结构(子滤波器237)的输出值239，并根据其时间顺序被储存在延迟线216中-不同于先前所述的实施例(见图7)。如之前的情形，通过指针217访问访问延迟线216，反过来，指针的位置根据延迟d的整数部分来选择。通过读出Farrow结构相应的系数c_i，相应的(经延迟的)扬声器信号y_i可通过延迟值或者延迟值的分数(非整数)部分(多项式插值250的工具中)的一指数级数来计算。

Farrow结构的应用不依赖于确定系数c_nm的具体设计方法。例如，误差积分

Q = {&Integral;}_{ω_{0}}^{ω_{1}} {&Integral;}_{α_{0}}^{α_{1}} {| \underset{n}{Σ} \underset{m}{Σ} c_{nm} e^{jnωT} - e^{jωαT} |}^{2} dαdω - - - (8)

可以被最小化。这符合最小二乘法优化问题。

基于最小二乘或者加权最小二乘准则的不同方法是可能的。所述方法目的在于实现控制参数d的预期频率范围以及定义范围内的方法的均方误差最小化。在加权最小二乘方法(WLS)中，另外定义一个加权函数，能在积分区域对误差进行加权处理。在WLS的基础上，可设计迭代方法，通过迭代法可以影响积分区域内某范围内的误差，例如可将最大误差最小化。大多数WLS方法的数值调节(numerical conditioning)较弱。这并不是因为方法不适合，而是由于滤波器设计中的过渡带(无关区域)引起的。因此，采用上述方法，仅可设计子滤波器长度N相对短且多项式阶数M相对低的Farrow结构，否则数值的不稳定性会限制参数的准确性或阻止该方法的收敛性。

其他种类的设计方法用于在可变分数延迟滤波器的工作范围内最小化最大误差。由所需频率范围以及控制参数d的允许范围所横跨的区域被定义为工作范围。这种优化法通常被称为极大极小或切比雪夫优化法。

对于不具有控制参数的传统线性相位FIR滤波器，存在用于切比雪夫逼近的有效算法，例如雷米兹交换算法或者基于此的Parks-McClellan算法。所述算法同时也可被扩展以适应随机复杂频率响应，以及分数延迟滤波器所需的相位响应。

通常，切比雪夫或者极大极小优化法问题可通过线性优化方法解决。这些方法的几个数量级比雷米兹交换算法的数量级代价更高。但是，它们能对Farrow结构的子滤波器进行直接公式化并解决设计问题。另外，所述方法能以等式或者不等式的形式对额外的辅助条件(secondary condition)进行公式化。这被认为是异步采样率转换器的设计非常重要的一个特点。

一种Farrow结构的极大极小设计方法是基于有限优化(被称为约束优化的、允许显示辅助条件的最优化)算法。所述Farrow结构的设计方法的一个特殊特征是可以为振幅和相位误差指定单独的规范。例如，当指定一可接受的最大振幅误差时，最大相位误差可被最小化。连同振幅和相位误差的精确的公差规格说明(所述公差规格说明来源于对相应误差的感知)，这是一种对滤波器结构进行面向应用优化的有力工具。

Farrow结构的进一步改进在于所提出的修改的Farrow结构。通过对参数d引入一对称的定义范围，通常为

可以保证最优Farrow滤波器的子滤波器其相位是线性的。对于偶数和奇数的m，它们交互地包括对称和非对称的系数，使得系数的数目减少至一半。除了导致降低了复杂性的滤波器设计和相关的改善了优化问题的数值调节，C_mz的线性相位结构也能使用更有效的算法来计算子滤波器的输出。

此外，设计Farrow结构的各种其他方法也是可能的。有一种方法是基于奇异值分解的，且在此基础上，实施有效的结构也得到发展。该方法提供了一种滤波器的设计精度等级，与WLS方法相比，该等级较高且具有更小的滤波器复杂度，但是该等级不能指定辅助条件或具体影响幅度或者相位的误差界限。

另一种方法是基于固有滤波器的。由于这种方法在理论上至今未能跟进，因此在未做任何专用实施和评估的情况下尚不能其对性能做出任何评论，但该方法是与SVD方法类似的。

滤波器设计的主要目标是尽量减小与理想分数延迟的偏差。在这种情况下，无论是最大的误差或(加权)平均误差都可被减到最小。根据所采用的方法不同，复杂误差或者相位和幅度的响应可以指定分开处理。

设置优化条件的一个重要因素是选择有效的频率范围。

相关连续相位响应(见上面)的形式对异步采样率转换的质量和感知质量具有较大影响。因此，与连续相位响应相关的辅助条件的直接使用还有待研究。在这种方式下，可以指定连续性要求。

许多延迟内插应用中提出的要求是观察插值条件。所述插值条件需要在离散节点处的插值够精确，即采样样本值。在允许以相等条件定义辅助条件的设计方法中，该需求可直接制定。拉格朗日插值的Farrow实现满足这种对拉格朗日插值的定义的要求。一般异步采样率转换的插值条件(尤其是WFS情况下)的益处被归纳为相当低。比在具体节点处精确插值更重要的是一般很小的误差、很小的极大偏差、和/或尽可能一致的误差曲线。

Farrow结构代表一用于延迟内插的高性能滤波器结构。对于波前合成的应用，可进行有效隔离，将算法分割成对每个声源信号进行预处理以及求值运算(evaluation operation)，所述求值运算可对每个输出信号进行，且具有较低的复杂度。

对于Farrow结构的系数，就其计算复杂度和可达到质量而言存在许多不同的设计方法。除了这些，可以在许多方法中定义与所需滤波器的特征直接或者间接相关的附加约束。这种设计自由导致在找到最佳参数之前评估各种方法和辅助条件的研究费用较大。但是，所需方法可适应高精确度规范。这很可能使具有相同的质量要求的滤波器的复杂性减小。

基于Farrow结构的WFS算法可有效实施。一方面，修改后的Farrow结构的线性相位子滤波器导致的复杂度的减小可在预滤波过程中采用。另一方面，作为多项式求值的预先计算的系数的求值有可能在Horner方法的基础上以高效率的方式实现。

该滤波器结构的一个较大优点在于封闭设计方法能够进行有针对性的设计。

进一步的实现和优化的可能性可归纳如下。

实施例主要讨论了应用于波前合成的延迟内插新型算法的发展。虽然这些算法通常不依赖于任何具体的实施方式和目标平台，但是在这一点上不能不考虑实施方式的各方面。这是由于以下事实：即这里所描述的算法构成一WFS再生系统整体性能的迄今为止最大的部分。因此，除了算法复杂度(如渐近复杂或操作的数目)，还必需考虑实施方式的以下几个方面，尤其是：

(i)并行性。在这种情况下，由于大多数现代处理器提供SIMD指令，因此指令级并行性被认为是最重要的。

(ii)对指令的依赖性。对算法的部分结果的强烈和长期关系的依赖性使得高效率的代码编译变得复杂，且降低了现代处理器的效率。

(iii)条件码。情形分化(case differentiations)降低了执行效率，而且维护和测试方面也存在问题。

(iv)代码和数据位置。由于延迟内插发生在WFS信号处理算法最内层循环的地方，因此紧凑的代码是比较重要的。此外，用于数据访问的缓存未命中数也影响性能。

(v)存储带宽和存储访问方式。存储访问其分布和排列的数目往往可能对性能有显著影响。

由于在不久的将来，渲染系统的的渲染单元中会采用标准PC组件，所以目前的PC平台仅用作实施的基础。但是，我们通常认为以这种方式获得的大多数结果也与其他系统架构相关，这是因为其基本概念大多是相似的。

上面提到的滤波以一多相操作有效执行。这包括将输入数据与L个不同子滤波器同步卷积，所述子滤波器的输出通过相乘被组合至增采样后的输出信号中。所述滤波过程也可以通过基于FFT的线性卷积或者快速卷积进行。对于通过FFT的实施方式，只需要对输入数据执行一次傅里叶变换，这些数据之后可以用于与所述滤波器进行多次同步卷积。但是，对于所使用的长度较短的子滤波器，必须仔细考虑与直接执行得实施方式相比，通过傅立叶变换方法的卷积是否具有优势。例如，一通过Parks-McClellan算法(Matlab函数firpm)设计的、长度为192的低通滤波器具有超过150dB的阻带衰减。这与长度为48的子滤波器相对应；比这长的滤波器不再以数值上稳定的方式设计。在任何情况下，子滤波器操作的结果必须以交错的方式插入到输出数据流中。有一种有效实施这种滤波器操作的可能性在于使用英特尔IPP库中的多相或多速率滤波的库函数。

基于Farrow结构的算法的预处理也可通过这种多速率处理的库函数有效执行。这种情况下，子滤波器必须通过交错手段合并到原型滤波器中，函数的输出值代表隔行输出值。然而，根据修改后的Farrow结构设计的子滤波器的线性相位可用来减少滤波操作的数目。但是，在这方面很可能需要一种专用的实施方式。

事实证明，延迟参数的时间离散化对异步延迟内插的FD算法的可实现质量具有决定性的影响。因此，上述设计的算法对延迟参数(被称作是精确到样本)的针对每个样本计算一个值进行处理的。所述值通过两个节点之间的线性插值方法进行计算。据推测，该插值顺序不够精确，且这种推测得到非正式听觉测试的支持。

分数延迟算法要求所需延迟被细分成一整数部分和一分数有理部分。对于修改后的Farrow结构，其范围[0...1)

不是强制性的，但该范围也可选择为拉格朗日插值中的[-¹/₂...¹/₂)或者[(N-1)/2...(n+1)/2)。但是，这并不改变基本的操作。通过精确到样本的参数插值，该操作对每个基础的延迟内插执行，因此也对性能有显著影响。所以，有效的执行是非常重要的。

WFS音频信号处理包括一延迟操作以及音频样本和原信号与扬声器的每个组合的延迟值的缩放，这些操作共同执行。如果这些操作单独执行，那么性能就会显著降低，这是参数转移、额外控制流以及退化的代码和数据局部性所需开支的预期结果。

因此，必须将缩放因素的生成步骤(这通常是通过节点之间的线性插值手段进行)与内插至WFS卷积实施方式的值的缩放步骤整合起来。

一旦执行这些方法，就会通过测量和主观的评估手段它们进行评估。

此外，由于其改进被整个WFS系统的其他误差源所掩盖，因此还有待计算在哪种程度上不能获得质量上的进一步改善。所达到的客观和主观质量要与它所需的资源相比较。

经最后更深入的思考，目前波前合成渲染系统中信号处理的概念也可说明如下。

延迟内插，即由随机延迟值引发的输入值延迟，对渲染质量和整个系统的性能具有决定性的影响。

由于所需延迟内插运算的数量非常大，以及所述运算的复杂度相对比较高，因而就资源而言是无法以合理的经济代价来实现分数延迟内插的已知算法的应用。

因此，一方面，为实现以最低的开支保证足够的质量，必须对这些算法以及这些滤波器特性的深入分析，所述滤波器是实现良好的主观感知所必需的。另一方面，为在此基础上发展大大降低该方法整体复杂性的方法，WFS算法的整体结构还有待研究。在这种情况下，处理结构已经确定，通过将延迟内插算法分成预处理阶段和多路存取经预处理过的数据的阶段，该处理结构能够明显减少计算开支。在此概念的基础上设计了两种算法：

1.一种基于过采样延迟线216和通过低阶拉格朗日插值多路存取所述值的方法，与纯低阶拉格朗日插值相比，该方法仅需要稍微增加计算开支，就能明显提高渲染质量。该方法相对容易实现参数化并容易实施，但无法具体影响插值的质量，也不存在相近的设计方法。

2.另一种算法基于Farrow结构，并具有很大的设计空间，例如用于设计滤波器系数的众多优化方法的应用。研究和实施所增加的开支由影响内插性质的可能性以及为更有效执行工作的潜在性来补偿。

在实现的过程中，两种方法都可从质量和性能的角度进行实施并比较。必须在这些方面中找到权衡。在其他已知的渲染误差的影响下，可研究经改进的延迟内插对WFS再现系统的整体渲染质量的影响。在这种情况下，必须指定内插质量的水平，所述水平是整个系统内可实现的改进所能达到的。

一个目标是要设计一些方法，所述方法能够以可接受的开支实现延迟内插的质量，即使没有由其他WFS干扰引起的任何遮蔽效应，所述延迟内插也不会产生任何可感知的干扰。因此，对于渲染系统今后的改进必须保证延迟内插不会对WFS渲染的质量产生不利影响。

作为本文件的扩展的几个议题可陈述如下。

在实施WFS渲染系统时，大多数情况下滤波器运算被提供用于输入和/或输出信号。例如，WFS系统中采用预滤波阶段。静态滤波器应用于每个输入信号以便实现由WFS算子(operator)的理论引起的3dB效应，以及实现与扬声器无关的对渲染空间的频响适应。

通常可以将这样的滤波器运算与过采样抗镜像滤波器结合起来。此处，原型滤波器被设计一次；在系统运行时间内，实现所述两种功能仅需要一个滤波器。

类似地，可实现随机静态和不依赖于声源的滤波器运算与Farrow子滤波器的组合。这种情况下，不论是使用标准方法设计的Farrow滤波器组的乘法还是滤波器组直接适应一预定义振幅响应都是可能的。

将两个滤波器组合同时提供了减少由(尤其是线性相位)滤波器引起的系统相位延迟的可能性，如果所述相位延迟为仅一个过滤器组件所需的。

因此，有待研究传统WFS滤波器以何种方式与滤波器运算相结合是有益的，所述滤波器运算对此处提出的延迟运算方法是必要的。在此背景下，对单独和组合执行滤波器运算所需的具体计算量进行比较。此外，对WFS信号处理的变化提供给未来的进一步发展(例如依赖于源位置、输出信号的扬声器专用滤波的预处理)进行观察。

精确到样本的延迟参数的插值对于高质量延迟内插是不可或缺的。缩放参数被插在同样的时间按分辨率处。研究由该参数的相对粗糙的离散对于渲染印象的影响。但是，需注意的是，步长的相应增加使人们有理由期待整体算法的性能略有提高。

此外，已对延迟内插的有效信号处理进行了调查。以这种方式实施的采样率转换看似移动虚声源的多普勒效应。而且，在许多应用中，由多普勒频散引起的频移是不受欢迎的。由于这里已经实施的高品质的延迟内插方法，多普勒效应可能变得比以前更为明显。因此，未来的研究项目也应包括学习算法，如果发生移动源的渲染以弥补多普勒效应，或控制其强度。然而，在最低水平上，这些方法也是基于此处所述的延迟内插算法。

因此，在波前合成渲染系统中可利用提供了高品质延迟内插实施方法的实施例。实施例还为波前合成再现系统提供了算法的进一步发展。这种情况下，由于所述方法对移动声源的渲染质量具有较大影响，将会详细讨论延迟内插方法。由于质量要求以及这些算法对整个渲染系统性能极高的影响，所以需要用于波前合成的新颖的信号处理算法。正如上面所详细解释的，可以将尤其是具有更高水平精确度的插值分数列入考虑范围。这一更高水平精确度使其本身在一个明显改善的听觉中能被感受到。正如上文所述，由于精度水平的提高，与移动声源同时产生的噪声很难被听到。

特别地，实施例描述了两种符合上述要求、并已被开发、执行和分析的有效方法。

特别地，应注意，根据条件，本发明的方案也可在软件中实施。可以在数字存储介质上完成本发明的实施方式，所述数字存储介质尤其是具有电子可读控制信号的磁盘、CD或DVD，它们可以与可编程计算机系统合作以执行本发明的方法。通常，本发明还包括一种计算机程序产品，具有机器可读载体上存储的程序代码，当所述计算机程序产品运行于计算机上时，用于执行本发明的方法。换言之，因此，本发明可以实现为具有程序代码的计算机程序，当该计算机程序运行于计算机上时，用于执行本发明的方法。

Claims

1.一种用于确定WFS系统(200)的分量信号(115)的装置，所述WFS系统(200)包括一扬声器阵列，所述WFS系统(200)被配置成采用音频信号(125)，所述音频信号(125)与虚拟声场相关、且以一音频采样频率采样的离散信号形式存在，声源位置(135)与虚拟声场相关，以便在考虑扬声器位置(145)的同时基于虚拟声场计算扬声器的分量信号(115)，其特征在于：所述装置包括：

使用声源位置(135)以及扬声器位置(145)为一分量信号(115)提供WFS参数的工具(150)，所述参数由小于音频采样频率的参数采样频率确定；

一WFS参数插入器(160)，用于插入WFS参数(155)，以便生成内插WFS参数(165)，其参数内插频率高于参数采样频率，所述内插WFS参数(165)具有插值分数，所述插值分数的准确度比由音频采样频率指定的级别更高；

音频信号处理工具(170)，该工具被配置为将插值分数值应用于音频信号(125)，使得所述分量信号(115)是在一以较高水平精确度处理过的状态中取得的。

2.根据权利要求1所述的装置，其特征在于：WFS参数(165)为延迟值，内插分数值为表示限定了音频信号(125)的采样间隔的分数的延迟的延迟值，且

所述音频信号处理工具(170)被配置为采用相应的分数延迟计算分量信号(115)。

3.根据上述权利要求中任意一项所述的装置，其特征在于：所述音频信号处理工具(170)进一步包括

变换音频信号的工具，以获得改变的音频信号；

用于缓冲所述改变的音频信号的工具(216)，所述缓冲工具(216)被配置成通过索引来存储改变的音频信号的索引，使得每个索引对应所述音频信号(125)的一预先确定的时间值；以及

用于生成所述分量信号(115)的工具(212)，该生成工具(212)被配置成由属于一特定索引的、改变的音频信号生成分量信号(115)，所述特定索引可由以延迟值确定，所述延迟值可由声源位置(135)以及扬声器位置(145)确定。

4.根据上述权利要求中任意一项所述的装置，其特征在于：所述音频信号处理工具(170)进一步包括求和工具(514)，求和工具(514)被配置成对分量信号(115)求和并将结果在声音输出(240)处提供给扬声器阵列。

5.根据上述权利要求中任意一项所述的装置，其特征在于：所述音频信号处理工具(170)进一步包括过采样工具(236)，该采样工具(236)被配置成对音频信号(115)进行采样。

6.根据权利要求5所述的装置，其特征在于：所述采样工具(236)被配置成以一预先确定的过采样率(L)执行过采样。

7.根据权利要求6所述的装置，其特征在于：所述过采样率(L)介于2到8之间。

8.根据权利要求5至7中任意一项所述的装置，其特征在于：所述过采样工具包括一多相滤波器。

9.根据权利要求3至8中任意一项所述的装置，其特征在于：所述音频信号处理工具(170)进一步包括

一延迟滤波器(222)，所述延迟滤波器(222)被配置成从缓冲工具(216)中读出值并以预先确定的阶数执行分数延迟内插，

所述值包括一特定索引以及其相邻值，所述特定索引对应于延迟值的一整数部分，其中所述延迟滤波器(222)产生一分量信号(115)。

10.根据权利要求9所述的工具，其特征在于：所述用于分数延迟内插的预先确定的阶数为奇数，该预先确定的阶数≤3或者≤7。

11.根据权利要求9或者10所述的工具，其特征在于：所述延迟滤波器(222)包括一拉格朗日插值器。

12.根据权利要求5至11中任意一项所述的工具，其特征在于：所述音频信号处理工具(170)进一步包括一预滤波阶段，所述预滤波阶段执行一与扬声器无关的对于渲染空间的频响适应，所述预滤波阶段包括过采样工具(236)。

13.根据权利要求1至4中任意一项所述的工具，其特征在于：所述音频信号处理工具(170)进一步包括子滤波器(237)，所述子滤波器被配置成对音频信号(115)滤波并将子滤波器(237)的输出值存储至缓冲工具(216)。

14.根据权利要求13所述的装置，其特征在于：所述子滤波器(237)形成一Farrow结构。

15.根据权利要求13或者14所述的装置，其特征在于：所述音频信号处理工具(170)进一步包括多项式插值工具(250)，所述多项式插值工具(250)被配置成由延迟值的分数有理部分和子滤波器(237)的输出值确定分量信号(115)。

16.根据权利要求14或者15所述的装置，其特征在于：所述Farrow结构由系数(c_mn)确定，所述系数(c_mn)将一误差整数最小化。

17.根据权利要求13至16中任意一项所述的工具，其特征在于：所述子滤波器(237)被配置成执行一依赖于声源的滤波器运算。

18.一种用于确定WFS系统(200)的分量信号(115)的方法，所述WFS系统(200)包括一扬声器阵列，所述WFS系统(200)被配置成采用音频信号(125)，所述音频信号(125)与虚拟声场相关、且以一音频采样频率采样的离散信号形式存在，声源位置(135)与虚拟声场相关，以便在考虑扬声器位置(145)的同时基于虚拟声场计算扬声器的分量信号(115)，其特征在于：所述方法包括：

使用声源位置(135)以及扬声器位置(145)确定分量信号(115)的一延迟值，所述延迟值包括一整数部分和一分数部分；

以一预先确定的过采样率(L)对音频信号(125)进行过采样；

将所述高采样值存储至缓冲工具(216)，延迟值的整数部分充当一索引；

从缓冲工具(216)将过采样值读出至索引；

对过采样值插值以获得一具有延迟值的分数部分的分量信号(115)，所述过采样值充当节点。

19.一种用于确定WFS系统(200)的分量信号(115)的方法，所述WFS系统(200)包括一扬声器阵列，所述WFS系统(200)被配置成采用音频信号(125)，所述音频信号(125)与虚拟声场相关、且以一音频采样频率采样的离散信号形式存在，声源位置(135)与虚拟声场相关，以便在考虑扬声器位置(145)的同时基于虚拟声场计算扬声器的分量信号(115)，其特征在于：所述方法包括：

将音频信号(125)送至子滤波器(237)，使得每个子滤波器(237)产生一输出信号(239)；

将子滤波器(237)的输出信号(239)储存至缓冲工具(216)中；

从一对应于延迟值的整数部分的位置处读出输出信号(239)；

通过求解一多项式来确定一内插值，以从延迟值的分数部分以及子滤波器(237)的输出信号(239)中获得分量信号(115)。

20.根据权利要求19所述的方法，其特征在于：内插通过一Farrow结构执行。

21.一种计算机程序，其特征在于：包括一种程序代码，当在电脑上运行时，该计算机程序执行权利要求18至20中任意一项所述的方法。