CN110619882B

CN110619882B - 用于降低去相关器电路中瞬态信号的时间伪差的系统和方法

Info

Publication number: CN110619882B
Application number: CN201911058391.1A
Authority: CN
Inventors: D·J·布瑞巴特; 芦烈; A·玛蒂奥斯索尔; N·R·青格斯
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2013-07-29
Filing date: 2014-07-23
Publication date: 2023-04-04
Anticipated expiration: 2034-07-23
Also published as: CN110619882A; CN105408955B; EP3028274A1; WO2015017223A1; JP2016528546A; JP6242489B2; US9747909B2; EP3028274B1; CN105408955A; US20160180858A1

Abstract

本发明涉及用于降低去相关器电路中瞬态信号的时间伪差的系统和方法。本发明的实施例涉及用于处理输入音频信号的方法，该方法包括：将所述输入音频信号分离为至少两个分量，其中第一分量的特征在于输入信号包络中的快速波动，而第二分量是随时间相对静止的；由去相关电路处理静止的所述第二分量，并且通过将所述去相关器电路的输出与输入信号和/或第一分量信号组合来构造输出信号。

Description

用于降低去相关器电路中瞬态信号的时间伪差的系统和方法

本申请是申请号为201480042558.4、申请日为2014年7月23日、发明名称为“用于降低去相关器电路中瞬态信号的时间伪差的系统和方法”的发明专利申请的分案申请。

对相关申请的交叉引用

本申请要求2013年7月29日提交的西班牙专利申请No.P201331160和2013年9月30日提交的美国临时专利申请No.61/884672的优先权，其全文内容通过引用并入于此。

技术领域

一个或更多个实施例大致涉及音频信号处理，并且更特别地涉及以降低瞬态信号的时间失真的方式去相关音频信号，并且所述瞬态信号可以用于修改基于对象的音频处理系统中的音频对象的可感知的尺寸。

背景技术

声源或声音对象具有包括其可感知的位置以及可感知的尺寸或宽度的空间属性。通常，可感知的物体的宽度与双耳相关或到达我们耳鼓的两个信号的相干性的数学概念紧密相关。去相关通常用于使得音频信号听起来在空间上更扩散。音频信号的相关的修改或操控由此通常存在于音频处理、编码和呈现应用中。音频信号的相关或相干的操控通常通过使用一个或更多个去相关器电路执行，所述去相关器电路获取输入信号并且产生一个或更多个输出信号。基于去相关器的拓扑结构，输出与其输入去相关，或者输出彼此之间相互去相关。两个信号的相关测量可以通过计算两个信号的互相关函数而确定。通常，相关测量是互相关函数(通常称为相干)的峰值或者是零(相关系数)滞后(相对延迟)的值。去相关被限定为当基于特定时间间隔持续时间T计算时具有归一化的互相关系数或小于+1的相干：

在上述公式中，x(t)、y(t)是受具有相互之间的低相关的信号，p是归一化的互相关系数，以及相干。相干值等价于遍历相对延迟τ的归一化互相关函数的最大值。

在空间音频处理中，信号去相关可以对声音图像化的感知具有显著的影响，并且测量的相关是音频复制中感知效果的重要的预测器。如现有技术中公知的，图1例示了简单的去相关器的两种配置。上部电路100将输出信号y(t)与输入信号x(t)去相关，同时下部电路101产生两个相互去相关的输出y(t)和x(t)，其可以或者不可以与共同的输入去相关。提出了多种去相关处理以用于当前系统，不同的是简单延迟、基于频率的延迟、随机相位全通滤波器、网格全通滤波器和其组合。这些处理全部显著地例如通过改变其波形而修改其输入信号。对于静止或平滑连续的信号，这种修改通常没有问题。然而，对于瞬动或快速改变的信号(瞬态)，这种修改可以导致不期望的失真。例如，相对于瞬态信号的开始，通过去相关修改波形可以引起时间拖尾或类似影响。类似地，在停止瞬态信号后，去相关可以导致后回音或类似反射的影响，所述影响在输入信号由于与滤波器和关联的电路关联的固有衰减时间而具有随时间骤减的水平时是可听见的。因此，在去相关中涉及的滤波处理通常导致衰退的瞬态响应，或瞬态“脆声”。

为了克服这种不期望的影响，去相关电路通常具有在滤波器结构之后用以削弱这些伪差的水平调节级或者具有其他类似的后去相关处理。因此，目前的去相关电路的局限在于其试图在去相关滤波器之后校正时间拖尾和其他退化影响，而不是基于输入信号本身的特性和分量而执行适量的去相关。因此，这种系统不足以解决与脉冲或瞬态信号处理相关联的问题。与目前的去相关电路关联的具体缺点包括退化的瞬态响应，对缩混伪差敏感以及对相互去相关的输出的数量的限制。

关于退化的瞬态响应的问题，当前的去相关的目的是去相关完整的输入信号，而无论输入信号的内容或结构如何。具体地，实际记录中的瞬态信号(例如打击乐器的敲击)通常不去相关，而其存在于记录中的持续部分或混响部分通常是去相关的。现有技术中的去相关电路通常不能复制这种区别，并且由此其输出能够听起来不自然或者可能由此具有退化的瞬态响应。

关于混缩伪差的问题，去相关器的输出通常不适于混缩，这是因为去相关处理的一部分涉及延迟输入的事实。将信号与其延迟的版本求和因求和的频谱中的峰值和凹陷的反复发生而导致不期望的梳状滤波器伪差。由于混缩是频繁发生在音频编码器、AV接收器、放大器等类似装置中的处理，所以这种性质在依赖于去相关电路的许多应用中都存在问题。

关于有限数量的相互去相关的输出的问题，为了避免可听见的回声和不期望的时间拖尾伪差，在去相关器中应用的总延迟通常是相当小的，例如具有10-30ms的数量级。这意味着相互独立的输出(如果需要的话)的数量是有限的。实践中，仅可以通过延迟构造相互明显去相关并且不遭受前述混缩伪差的两个或三个输出。

在背景技术部分中讨论的主题不应该仅因其在背景技术部分中涉及而被设想为现有技术。类似地，在背景技术部分中涉及的问题或与背景技术部分的主题关联的问题不应该被设想为之前在现有技术中已被意识到。背景技术部分中的主题仅表示不同的途径，其自身也可以是发明。

发明内容

实施例涉及用于通过以下方式处理输入音频信号的方法：将所述输入音频信号分离为瞬态分量和连续分量，所述瞬态分量的特征在于输入信号包络中的快速波动，所述连续分量的特征在于所述输入信号包络中的缓慢波动；在去相关电路中处理所述连续分量，而生成去相关的连续信号；以及将所述去相关的连续信号与所述瞬态分量组合以构造输出信号。在本实施例中，所述波动相对于时间测量，并且所述瞬态分量通过超过区分所述瞬态分量与所述连续分量的预定阈值的时变特性识别。所述时变特性可以是能量、响度和频谱相干性中的一个。根据本实施例的方法可以进一步包括：估计所述输入音频信号的包络；以及分析所述输入音频信号的包络相对于所述预定阈值的时变特性中的改变，以识别所述瞬态分量。本方法还可以包括预滤波所述输入音频信号以增强或衰减特定的感兴趣的频带，和/或估计所述输入音频信号的至少一个子带包络，以检测所述至少一个子带包络中的一个或更多个瞬态，并且将子带包络信号组合在一起以生成宽带连续信号和宽带瞬态信号。

在一个实施例中，所述方法进一步包括将权值应用到所述瞬态分量、连续分量、输入信号和去相关的连续信号中的至少一个，其中所述权值包括混合增益。所述去相关的连续信号可以基于所述输入音频信号的包络和所述去相关电路的输出而以时变缩放函数按比例缩放。所述去相关电路包括多个全通延迟区段，并且所述去相关的连续信号的包络可以自所述连续分量的包络预测。所述方法可以进一步包括滤波所述连续分量和/或所述去相关的连续信号，以获得所述输出信号中的基于频率的相关。

在一个实施例中，所述输入音频信号可以是具有空间复制数据的基于对象的音频信号，并且其中所述权值基于所述空间复制数据，并且所述空间复制数据可以包括对象宽度、对象尺寸、对象相关性和对象扩散性中的至少一个。

一些进一步的实施例描述了实施上述处理输入音频信号的方法的实施例的系统或装置以及计算机可读介质。

附图说明

在随后的附图中，相同的参考标记用于涉及相同的元件。虽然下面的附图描述了各种示例，但一个或更多个实施方式不限于附图中描述的示例。

图1例示了现有技术中公知的去相关电路的示例性配置。

图2是例示了根据一个实施例的基于瞬态处理的去相关器电路的框图。

图3例示了根据一个实施例的用于基于瞬态处理的去相关系统中的去相关器电路。

图4是例示了根据一个实施例的执行输出包络预测和输出水平调节的去相关器后处理电路的框图。

图5例示了根据一个实施例的包括包络预测器电路的去相关系统。

图6例示了根据一个实施例的用于基于瞬态的去相关系统的特定的预处理函数。

图7例示了根据一个实施例的处理在基于瞬态处理的去相关器系统中的音频信号的方法。

具体实施方式

描述了用于瞬态处理器的系统和方法，所述瞬态处理器在应用去相关滤波之前处理输入音频信号。瞬态处理器分析输入信号的特性和内容，并且将瞬态分量与输入信号的静止分量或连续分量分离。瞬态处理器提取输入信号的瞬态分量或脉冲分量，并且将连续信号发送到去相关器电路，在所述去相关器电路中，连续信号之后根据定义的去相关函数而去相关，同时输入信号的瞬态分量保持不去相关。输出级将去相关的连续信号与提取的瞬态分量组合以形成输出信号。以此方式，输入信号在任意去相关滤波之前被适当地分析和解构，使得恰当的去相关可以被应用到输入信号的适当的分量，并且可以避免由于瞬态信号的去相关引起的失真。

本文所述的一个或更多实施例的多个方面可以在音频或视听(AV)系统以及呈现和播放系统中实施，所述音频或视听(AV)系统处理混合的源音频信息，所述呈现和播放系统包括执行软件指令的一个或更多个计算机或处理装置。任意的所述实施例可以单独使用或与其他实施例任意组合地使用。虽然多个实施例可能由可能在本说明书的一个或更多地方加以讨论或暗示的现有技术中的各种不足促成，但所述实施例不是必须要解决这些不足中的任意一个的。换句话说，不同的实施例可以解决可能在本说明书中加以讨论的不同的不足。一些实施例可能仅部分地解决一些不足，或者仅解决可能在本说明书中加以讨论的一个不足，而一些实施例可以不解决这些不足中的任何不足。

图2是例示了根据一个实施例的基于瞬态处理器的去相关器电路的框图。如电路200中所示，输入信号x(t)被输入到瞬态处理器202。输入信号x(t)被瞬态处理器分析，所述瞬态处理器识别信号的瞬态分量与信号的连续分量。瞬态处理器202提取输入x(t)的瞬态或脉冲分量，以生成中间信号s₁(t)和瞬态内容(辅助)信号s₂(t)。中间信号s₁(t)包括连续信号内容，该连续信号内容之后由去相关器204处理以产生输出y(t)。瞬态内容信号s₂(t)被传送直接到达输出级206，而不需要应用任何去相关，使得不会产生因脉冲去相关而引起的时间拖尾或其它失真。输出级206将瞬态分量s₂(t)和去相关器输出y(t)组合以产生输出y’(t)。输出y’(t)由此包括去相关的连续信号分量和未去相关的瞬态分量的组合。电路200在应用任何去相关滤波器之前通过瞬态处理器处理输入信号，这与在去相关之后才处理所述信号的当前的去相关器电路不同。

如图2所示，信号的瞬态分量s₂(t)与连续分量s₁(t)分离，并且被直接发送到输出级，而不执行任何去相关。可替换地，瞬态分量s₂(t)还可以通过分离的去相关电路去相关，所述分离的去相关电路比连续信号去相关器应用更少的去相关或应用不同的去相关处理。

瞬态处理器

如图2所示，输入信号x(t)由瞬态处理器202处理，产生中间信号s₁(t)和辅助信号s₂(t)，其中仅s₁(t)被去相关器204处理以产生去相关的输出y(t)。信号s₁(t)与输入信号x(t)的连续片段相关联或包含该连续片段，同时提取的信号s₂(t)表示与信号水平中的快速或大幅波动相关联的x(t)的信号片段或分量，即信号的瞬态分量。瞬态信号通常被定义为在非常短的时间段内改变信号水平的信号，并且可以特征在于幅度、能量、响度或其它相关特性中的显著改变。这些特性中的一个或更多个可以由所述系统定义以检测输入信号中的瞬态分量的存在，所述特性例如特定的时间(例如以毫秒为单位)和/或水平(例如以dB为单位)值。

在一个实施例中，图2中的瞬态处理器202可以包括响应于输入信号水平中的任意突然的增大或减小的瞬态检测器。可替换地，这可以体现在识别包含一个或更多瞬态的信号片段的分割算法中，或者体现在将瞬态信号与连续信号片段分离的瞬态提取器中，或者体现在任意类似的瞬态处理方法中。

在一个实施例中，所述瞬态处理包括估计输入信号x(t)的包络e₁(t)的包络估计函数：e₁(t)＝F(x(t))，其中F(.)是包络估计函数。这种函数可以包括希耳伯特变换、峰值检测或根据以下公式的短期RMS估计：

在上述公式中，w(t)是窗口函数。常见的窗口函数包括以下指数衰减：

在上述公式中，ε(t)是阶梯函数，而c是确定自开始计算能量或RMS值起算的有效持续时间或衰减的系数。可替换的并且可能更为有效的消耗的包络提取器可以给定为：

在一些实施例中，信号x(t)在计算所述包络之前被滤波，以便增强或削弱感兴趣的特定频率区域，例如通过使用高通滤波器滤波。

在一个实施例中，使用由衰退系数c_i的差反映的不同的积分持续时间来计算两个或多个包络：

在另一个实施例中，漏峰值保持算法用于计算包络：

e(t)＝f(x(t))＝max(x(t-τ)∈(τ)exp(-cτ))

在另一个实施例中，自所述信号(例如振幅)的绝对值计算所述包络：

e(t)＝abs(x(t))

对于瞬态处理，所述包络e(t)针对突然的改变被分析，所述突然的改变指示输入信号x(t)中的能量水平中的强烈改变。例如，如果e(t)(以绝对项或相对于其之前的一个或多个值)增大特定的预定量，则与该增大关联的信号可以被指定为瞬态。在一个实施例中，6dB或更大的改变可以触发信号作为瞬态的识别。然而，其他值可以基于所述系统和应用的要求和约束使用。

可替换地，在一个实施例中，可以应用在瞬态处理器202中使用的软决策函数，该函数评估信号包含瞬态的概率。适合的函数是以不同的积分时间计算的两个包络估计e₁(t)和e₂(t)的比率，例如分别为5ms和100ms的积分时间。在这种情况下，信号x(t)可以被分解为信号s₁(t)和s₂(t)：

s₂(f，t)＝x(f，t)-s₁(f，t)

这等价于：

在本实施例中，信号s₁(t)和s₂(t)可以被公式化为输入信号x(t)与基于x(t)的包络的时变增益函数a(t)的乘积：

s₁(t)＝x(t)a₁(t)

s₂(t)＝x(t)a₂(t)

其中

在信号x(t)突然增大的情况下，包络e₁(t)基于x(t)中的变化比包络e₂(t)反应得更快，并且由此所述瞬态将被e₂(t)与e₁(t)的商削弱。因此，瞬态不包含在s₁(t)中，或者仅部分包含在s₁(t)中。

在另一个实施例中，信号s₂(t)可以包括被分类为“瞬态”的信号片段，同时信号s₁(t)可以包括其他所有片段。这种将音频信号分割为瞬态和连续信号帧是许多有损音频压缩算法的一部分。

在可替换的实施例中，瞬态处理器202可以执行与包络处理相对的子带瞬态处理。上述方法利用宽带包络e(t)。在本可替换的实施例中，子带包络e(f，t)也可以被估计，以便检测每个子带中的瞬态，其中f代表子带指数。由于音频信号通常是不同源的混合，因此检测子带中的瞬态可以具有检测所述瞬态或每个源的起始的益处。还可以潜在地增强基于子带的去相关技术。

子带瞬态可以如上所述类似的方式估计，例如，如以下面示出的公式估计：

s₁(f，t)＝x(f，t)min(1，e₂(f，t)/e₁(f，t))

s₂(f，t)＝x(f，t)-s₁(f，t)

在以上公式中，x(f，t)是子带音频信号，s₂(f，t)包含子带“瞬态”信号，而s₁(f，t)包含子带“静态”信号。

将所有子带信号结合在一起，可以获得如下的宽带“静态”s₁(t)和“瞬态”信号s₂(t)：

s₁(t)＝∑_fs₁(f，t)

s₂(t)＝∑_fs₂(f，t)

在特定情况下，可以自频谱相干性检测瞬态。因此，在可替换的实施例中，瞬态处理器202可以执行基于频谱相干性的瞬态处理。对于本实施例，瞬态处理器202包括比较能量包络e(t)的比较器，所述能量包络e(t)检测音频信号的突发能量变化。本实施例使用了以下事实，即频谱相干性能够检测频谱变化以检测哪里出现了新的音频事件或音频源。

在一个实施例中，在时间t的音频信号的频谱相干性c(t)可以简单地通过时间t之前和时间t之后的两个随机的帧/窗口之间的频谱相似性测量，例如通过以下公式测量：

在上述公式中，X₁(f，t)和X_r(f，t)是时间t左面和右面的帧/窗口的频谱。频谱相干性c(t)可以进一步在较长的窗口中变得平滑(例如通过求均值)，而获得长期相干性。通常，小的相干性可以表示频谱变化。例如，如果c(t)(以绝对项或相对于其之前的一个或多个值)减小特定的、预定量，则与该减小关联的信号可以被指定为瞬态。

可替换地，还可以应用与上述类似的软决策函数。两个相干估计c₁(t)和c₂(t)能够以不同的窗口尺寸被计算或变得平滑，其中相干性c₁(t)基于x(t)中的变化要比相干性c₂(t)反应得更快。类似地，信号x(t)可以如下所述被分解为信号s₁(t)和s₂(t)：

s₂(t)＝x(t)-s₁(t)

应该注意到在上述公式中，c₁(t)和c₂(t)的商被用于衰减瞬态，而不是用c₂(t)除以c₁(t)。

虽然以上呈现的相干性自宽带频谱计算，但应该注意到，如上所述的子带方法也可以应用在这种情况中。

瞬态处理还可以在响度域中执行。这种实施例利用的事实是信号响度中的突然变化可以指示信号中存在瞬态分量。瞬态处理器由此可以配置为检测输入信号x(t)的响度中的变化。在本实施例中，上述实施例可以扩展到包括处理响度域中的信号的函数，在所述响度域中，应用了响度，而不是能量或振幅。对于这个实施例，并且一般地，响度是能量或振幅的非线性变换。

去相关

如图2所示，电路200包括去相关连续信号s₂(t)的去相关器204。在一个实施例中，去相关器204实现为将信号s₁(t)与去相关滤波器脉冲响应d(t)求卷积的滤波器操作，如以下的公式所示：

在一个实施例中，去相关器包括去相关滤波器，所述去相关滤波器包括多个级联的全通延迟区段。图3例示了在一个实施例下，可以在基于瞬态处理器的去相关系统中的去相关器中使用的全通延迟区段的数字滤波器表示。如图3所示，滤波器电路300包括延迟的M个样本，以及应用于前馈和反馈路径的系数g。滤波器300的若干区段可以被组合以构成伪随机脉冲响应，其具有因级联电路引起的平坦幅度的频谱。所述区段的数量可以基于特定信号处理应用的实施方式、要求和约束而变化。使用如图3所示的级联的全通延迟区段的益处是通过随机化所述全通延迟区段的延迟和/或系数，多个去相关器可以被非常简单地构造为产生相互不相关的输出，所述输出可以被混合而不产生梳状滤波器伪差。

虽然图3例示了可以用于去相关器电路200的特定类型的滤波器电路，但是也可以使用其他类型或变型的去相关器电路。

在特定的实施例中，一个或更多个组件可以被提供以执行特定的去相关器后处理函数。例如，在特定的实际情况中，可能有用的是如果输入信号的包络突然减小，则应用后去相关器衰减函数，而去除或衰减去相关器输出信号。在一个实施例中，基于瞬态处理器的去相关系统包括一个或更多个高级的时间包络定形工具，其估计去相关器的输入信号的时间包络，并且随后修改去相关器的输出信号以密切匹配该去相关器的输入的包络。这帮助减轻与后回音伪差或由去相关滤波瞬态信号的突然结束而引起的响声关联的问题。

在全通延迟区段的级联的情况下，每个全通延迟区段e_ap，out[n]的输出的包络可以通过以下公式自其输入e_ap，in[n]的包络预测：

e_ap，out[n]＝e_ap，out[n]c+(1-c)e_ap，in[n]在上述公式中，系数c以下面的方式涉及全通延迟区段的延迟M和系数g：c＝g^1/M。该公式允许通过级联上述输出包络似然函数而估计全通延迟区段的级联的包络。如以下的公式所示，去相关器输出信号随后乘以全通延迟级联的输入和输出包络的商：

图4是例示了根据一个实施例的用于执行输出包络预测和输出水平调节的去相关器后处理电路的框图。如图4所示，电路400包括接受输入信号s₁(t)的去相关器402和接受包络输入e_in(t)的包络预测组件404。相应的输出y(t)和e_out(t)之后如所示地组合以产生输出y’(t)。

给定输入包络e_in(t)，包络预测器404估计y(t)的包络，所述输入包络e_in(t)由瞬态处理器202自输入信号x(t)生成。包络输入e_in(t)是s₁(t)信号的包络，并且是e₁(t)和e₂(t)包络估计的组合，如以上给出的公式所提供的：

s₁(t)＝x(t)min(1，(e₁(t)/e₂(t))

输出信号构造

在一个实施例中，去相关系统包括输出电路206，该输出电路206处理去相关器的输出连同由瞬态处理器生成的输入信号的瞬态分量，而形成输出信号y’(t)。这种输出电路还可以结合包络预测器电路400使用。图5例示了图2的去相关系统200，其在一个实施例中被修改为包括包络预测器电路。如图5中的电路500所示，包络预测器组件404与去相关器电路204组合，并且输出组件206包括根据图4中的电路400处理包络e_in(t)、e_out(t)和去相关器输出信号y(t)的组合电路。输出级还处理瞬态信号分量s₁(t)以生成输出y’(t)。

在一个实施例中，输出组件206处理信号x(t)、s₁(t)、s₂(t)和y’(t)以构造具有可变的相关性或可感知的空间宽度的两个或更多信号。例如，输出信号的立体对l(t)、r(t)可以使用以下公式构造：

l(t)＝x(t)+s₂(t)+y′(t)

r(t)＝x(t)+s₂(t)-y′(t)

辅助信号s₂(t)确保补偿从去相关器输入s₁(t)中去除的输入信号x(t)的信号区段。在其他实施例中，多个去相关器信号y_q’(t)可以用于以下面的方式构造一组输出信号z_r(t)：

z_r(t)＝P_r，q，1x(t)+P_r，q，2s₂(t)+P_r，q，3y′_q(t)

在上述公式中，P_r，q，x的值表示输出混合增益或权重。如图5所示，输出组件206包括应用适当的增益或权值的增益级504。在一个实施例中，增益级504实现为滤波器组电路，该滤波器组电路应用输出混合增益以获得输出信号中的基于频率的相关。例如，简单互补的倾斜型滤波器可以被应用于x(t)、s₂(t)和/或y_q’(t)以产生每个信号对输出信号z_r(t)的基于频率的贡献。

增益级504可以配置为补偿与信号处理系统的具体实施方式关联的特定的特性。例如，在与y_q’(t)相比的x(t)的相对贡献在非常低的频率(例如低于大约500Hz)下可能更大的情况下，所述电路可以配置为仿真现实生活环境中的贡献，因声学扩散场引起的到达耳鼓的信号的相关性将在低频处导致比高频处更高的相关。在另一个示例性情况下，与y_q’(t)相比的x(t)的相对贡献在大于约2kHz的频率处可以更小，因为人类一般对大于2kHz的相关中的变化没有对更低频率下的变化那么敏感。因此，所述电路可以据此配置为同样补偿这种贡献。

在一些实施例中，s₂(t)可以是使用缩放函数a₂(t)的按比例缩放版本的x(t)，并且由此，以下公式与上面的公式等价：

z_r(t)＝x(t)(P_r，q，1+P_r，q，2a₂(t))+P_r，q，3y′_q(t)

或

z_r(t)＝x(t)Q_x(t)+y’_q(t)Q_q(t)

这意味着输出信号z_r(t)可以公式化为输入信号x(t)和去相关器输出y_q’(t)的线性组合，其中权值Q_x(t)取决于x(t)的包络。

基于对象的音频的应用

在一个实施例中，基于瞬态的去相关系统可以结合基于对象的音频处理系统使用。基于对象的音频是指使用音频对象的音频创作、传输和复制方法，所述音频对象包括音频信号和相关联的空间复制信息。这种空间信息可以包括空间中的期望的对象位置，以及对象尺寸或可感知的宽度。对象尺寸或宽度可以由标量参数(例如，在从0至+1的范围内，以表示最小和最大的对象尺寸)表示，或者相反，通过指定信道间互相关(在从用于最大尺寸的0至用于最小尺寸的+1的范围内)而被表示。此外，相关性和对象尺寸的任意组合也可以包括在元数据中。例如，对象尺寸可以控制输出信号之间的信号的能量分布，例如控制每个扬声器的水平以复制特定的对象；并且对象相关性可以控制一个或更多个输出对之间的互相关，并且由此影响可感知的空间扩散。在此情况下，对象的尺寸可以被指定为元数据定义，并且这种尺寸信息用于计算信号阵列之间的声音分布。在此情况下的去相关系统提供了这种对象的连续信号分量的空间扩散，并且限制或避免了瞬态分量的去相关。

通常，扬声器索引为r的扬声器信号z_r(t)通过输入信号x(t)、辅助信号s₂(t)和一个或更多个去相关电路y_q’(t)的输出的线性组合如下构造：

z_r(t)＝P_r，q，1x(t)+P_r，q，2s₂(t)+P_r，q，3y′_q(t)

在静态输入信号的情况下，s₂(t)将很小或甚至为零。在此情况下，信号对z₁、z₂之间的相关P可以根据以下公式设定：

z₁(t)＝cos(α+β)x(t)+sin(α+β)y₁(t)

z₂(t)＝cos(α-β)x(t)+sin(α-β)y₁(t)

在上述公式中，α是自由选择的角度，而β取决于期望的相关ρ，并且给定为：β＝0.5arccos(ρ)。

可替换地，可以使用以下公式：

当信号s₂(t)为非零时，可以应用以下公式：

在以上公式中，信号z₁、z₂随后可以被按比例缩放，而基于期望的对象尺寸而保持特定的水平分布。对于本实施例，基于输入信号x(t)的包络和去相关电路的输出，去相关电路204的输出y(t)以时变缩放函数按比例缩放。

在一个实施例，基于瞬态的去相关系统可以包括一个或更多个函数处理，该函数处理在改变对去相关器电路的输入的去相关滤波器之前应用。图6例示了在一个实施例中与基于瞬态的去相关系统一起使用的特定的预处理函数。如图6所示，电路600包括含有一个或更多个预处理器的预处理级602。对于所示示例，预处理级602包括混响(ambiance)处理器606和对数处理器602以及瞬态处理器604。这些处理器可以在去相关器之前被独立应用或结合应用。所述处理器可以被提供为相同处理块内的功能组件，如图6所示，或者所述处理器可以被提供为在瞬态处理器604之前或之后执行各种功能的独立的组件。

在一个实施例中，混响处理器606提取或估计来自直接信号s₂(t)的混响信号s₁(t)，并且仅混响信号被去相关器610处理，这是因为混响通常是增强沉浸或环绕经验的最重要的成分。

对数处理器608提取或估计来自其他信号s₁(t)的对数信号s₂(t)，并且仅其他(非对数)信号被去相关器610处理，这是因为去相关算法可以消极地影响对数清晰度。类似地，混响处理器604可以将输入信号x(t)分离为直接和混响分量。混响信号可能经受去相关，同时干或直接分量可以被发送到s₂(t)。其他类似的预处理功能可以被提供以容纳不同类型的信号或在信号内的不同的分量，而选择性地将去相关应用到适当的信号分量。例如，内容分析块(未示出)还可以被提供为分析输入信号x(t)，并且提取特定的被定义的内容类型以应用适当的去相关量，而最小化与滤波处理关联的任何失真。

图7例示了在一个实施例下，在基于瞬态处理的去相关系统中处理音频信号的方法。图7中的处理将输入信号的瞬态(快速变化)分量与输入信号(704)的连续(缓慢变化)或静止分量分离。连续信号分量之后被去相关(706)。在分离步骤之前并且如块702所示，所述处理可以基于内容或特性(例如混响、对数等)而任意地预处理输入信号，以便将适当的信号分量传输到块706中的去相关器，使得所述信号的除了那些纯粹基于瞬态/连续特性的分量以外的分量被去相关，或因此不被去相关。如块708中所示，去相关的信号与瞬态分量组合，而形成输出信号(708)，适当的增益或缩放因数可以被施加到所述输出信号以形成最终输出(712)。所述处理还可以应用作为去相关器后处理步骤的任选的包络预测步骤710，而衰减去相关器输出以最小化后回音失真。在一个实施例中，由图7的方法处理的输入信号可以包括基于对象的音频系统，该系统包括被编码为与音频信号关联的元数据的空间序列。

本文所述的系统的各方面可以在用于处理数字音频文件或数字化音频文件的适当的基于计算机的声音处理网络环境中实施。自适应音频系统的部分可以包括一个或更多个网络，所述网络包括任意期望数量的独立的机器，包括一个或更多个路由器(未示出)，该路由器用于在各计算机之间缓冲和路由被传输的数据。这种网络可以建立在各种不同的网络协议上，并且可以是因特网、广域网(WAN)、局域网(LAN)或其任意组合。在所述网络包括因特网的一个实施例中，一个或更多个机器可以配置为通过网络浏览器程序访问因特网。

通过控制所述系统的基于处理器的计算装置的执行的计算机程序，可以实施所述组件、块、处理或其他功能组件中的一个或更多个。还应该注意到，本文公开的各种功能可以依据其行为、寄存器传输、逻辑组件和/或其他特性而使用硬件、固件和/或作为嵌入在各种机器可读或计算机可读介质中的数据和/或指令的任意数量的组合加以说明。其中可以嵌入这种格式化的数据和/或指令的计算机可读介质包括但不限于具有各种形式的物理的(非临时的)、非易失性存储介质，例如光学、磁性或半导体存储介质。

除非另有明确要求的内容，否则遍历本说明书和权利要求的是，词语“包括”、“包含”等被视为与排外或穷举意义相对的包括意义，也就是说，具有“包括但不限于”的意义。使用单数或复数的词语同样分别包括复数或单数。此外，词语“本文”、“下面”、“以上”、“以下”和类似意义的词语是指作为整体的本申请，而不是指本申请的任何特定部分。当词语“或”参考两个或更多项目的列表使用时，该词语覆盖该词语的以下全部解释：列表中的任意项目、列表中的全部项目以及列表中项目的任意组合。

虽然通过示例的方式并且依据具体实施例描述了一个或更多个实施方式，但应理解的是一个或更多个实施方式不限于公开的实施例。相反，其意图覆盖对本领域技术任意显然的各种修改和类似的布置。因此，所附权利要求的范围应该被给予最宽泛的解释，从而涵盖全部这些修改和类似的布置。

Claims

1.一种用于处理输入音频信号的系统，包括：

处理器；以及

存储指令的计算机可读介质，所述指令当被处理器执行时使得处理器执行处理输入音频信号的操作，所述操作包括：

分析所述输入音频信号的包络以识别所述输入音频信号的连续分量和所述输入音频信号的瞬态分量；

对所述连续分量进行去相关以生成去相关的连续信号，其中，根据所述输入音频信号的包络和所述去相关的输出，用时变缩放函数来缩放所述去相关的连续信号；以及

在输出级中组合所述瞬态分量和所述去相关的连续信号以生成输出信号。

2.如权利要求1所述的系统，所述操作包括使用希耳伯特变换、峰值检测处理或短期RMS处理中的一个来估计所述输入音频信号的包络。

3.如权利要求1所述的系统，所述操作包括：

生成所述输入音频信号的用不同的积分时间计算的两个包络估计；以及

基于所述两个包络估计的比率，区分所述瞬态分量和所述连续分量。

4.如权利要求1所述的系统，其中通过超过区分所述瞬态分量和所述连续分量的预定阈值的时变特性来识别所述瞬态分量，并且进一步地，其中所述瞬态分量的特征在于所述输入音频信号的包络中的快速波动，而连续分量的特征在于所述输入音频信号的包络中的缓慢波动。

5.如权利要求4所述的系统，其中所述时变特性包括幅度、能量、响度或频谱相干性中的至少一个。

6.如权利要求1所述的系统，所述操作包括将权值应用到所述瞬态分量、所述连续分量、所述输入音频信号和所述去相关的连续信号中的至少一个，其中所述权值包括混合增益以生成所述输出信号。

7.一种用于处理输入音频信号的系统，包括：

处理器；以及

估计所述输入音频信号的包络；

将所述输入音频信号分成瞬态分量和连续分量，所述瞬态分量的特征在于所述输入音频信号的包络中的快速波动，所述连续分量的特征在于所述输入音频信号的包络中的缓慢波动；

在去相关电路中处理所述连续分量以生成去相关的连续信号，其中，根据所述输入音频信号的包络和所述去相关的输出，用时变缩放函数来缩放所述去相关的连续信号；以及

组合所述去相关的连续信号和所述瞬态分量以构造输出信号。

8.如权利要求7所述的系统，其中关于时间来测量波动，并且通过超过区分所述瞬态分量和所述连续分量的预定阈值的时变特性来识别所述瞬态分量。

9.如权利要求8所述的系统，其中所述时变特性选自包括以下的组：幅度、能量、响度和频谱相干性。

10.如权利要求7所述的系统，所述操作包括针对时变特性相对于预定阈值的变化，分析所述输入音频信号的包络，以识别所述瞬态分量。

11.如权利要求7所述的系统，所述操作包括将权值应用到所述瞬态分量、所述连续分量、所述输入音频信号和所述去相关的连续信号中的至少一个，其中所述权值包括混合增益。

12.一种用于处理输入音频信号的系统，包括：

处理器；以及

通过瞬态处理器接收输入音频信号；

通过瞬态处理器分析所述输入音频信号，包括识别所述输入音频信号的瞬态分量和连续分量；

通过瞬态处理器提取所述瞬态分量以生成中间信号和瞬态内容信号，所述中间信号包括所述连续分量；

通过连续信号去相关器处理所述中间信号以产生去相关器输出信号；

将所述瞬态内容传递到输出级；以及

通过输出级组合所述瞬态分量和所述去相关器输出信号以生成组合的输出信号。

13.一种处理输入音频信号的方法，包括：

14.一种处理输入音频信号的方法，包括：

估计所述输入音频信号的包络；

15.一种处理输入音频信号的方法，包括：

通过瞬态处理器接收输入音频信号；

通过连续信号去相关器，处理所述中间信号以产生去相关器输出信号；

将所述瞬态内容传递到输出级；以及

16.如权利要求15所述的方法，其中所述瞬态分量在没有去相关的情况下被传递至输出级。

17.如权利要求15所述的方法，其中由第二去相关器对所述瞬态分量进行去相关，所述第二去相关器应用比所述连续信号去相关器少的去相关或应用与所述连续信号去相关器不同的不同去相关。

18.一种用于处理输入音频信号的装置，包括：

瞬态处理器，分析所述输入音频信号的包络以识别所述输入音频信号的连续分量和所述输入音频信号的瞬态分量；

去相关器，耦接到瞬态处理器并且对所述连续分量进行去相关以生成去相关的连续信号，其中，根据所述输入音频信号的包络和所述去相关的输出，用时变缩放函数来缩放所述去相关的连续信号；以及

输出级，耦接到去相关器和瞬态处理器并且组合所述瞬态分量和所述去相关的连续信号以生成输出信号。

19.一种处理输入音频信号的装置，包括：

包络预测器，估计所述输入音频信号的包络；

瞬态处理器，耦接到包络预测器并且将所述输入音频信号分成瞬态分量和连续分量，所述瞬态分量的特征在于所述输入音频信号的包络中的快速波动，所述连续分量的特征在于所述输入音频信号的包络中的缓慢波动；

去相关电路，耦接到瞬态处理器并且处理所述连续分量以生成去相关的连续信号，其中，根据所述输入音频信号的包络和所述去相关的输出，用时变缩放函数来缩放所述去相关的连续信号；以及

输出级，耦接到去相关器和瞬态处理器并且组合所述去相关的连续信号和所述瞬态分量以构造输出信号。

20.一种处理输入音频信号的装置，包括：

瞬态处理器，接收输入音频信号，分析所述输入音频信号，包括识别所述输入音频信号的瞬态分量和连续分量，以及提取所述瞬态分量以生成中间信号和瞬态内容信号，所述中间信号包括所述连续分量；

连续信号去相关器，处理所述中间信号以产生去相关器输出信号，并将所述瞬态内容传递到输出级；以及

输出级，组合所述瞬态分量和所述去相关器输出信号以生成组合的输出信号。

21.一种存储指令的计算机可读介质，所述指令当被处理器执行时使该处理器执行根据如权利要求13-17中任一项所述的方法。