CN103329571A

CN103329571A - 沉浸式音频呈现系统

Info

Publication number: CN103329571A
Application number: CN2012800046625A
Authority: CN
Inventors: 阿兰·D·克拉梅尔; 詹姆斯·特雷西; 泰米斯·卡奇诺斯
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2011-01-04
Filing date: 2012-01-03
Publication date: 2013-09-25
Anticipated expiration: 2032-01-03
Also published as: US20120170756A1; US10034113B2; KR20130132971A; EP2661907B8; EP2661907A1; EP2661907A4; CN103329571B; JP5955862B2; US9088858B2; WO2012094338A1; WO2012094335A1; US20160044431A1; EP2661907B1; JP2014505427A; KR101827036B1; US9154897B2; US20120170757A1

Abstract

一种深度处理系统可以采用立体声扬声器来实现沉浸式效果。有利地，深度处理系统可以操控相位和/或振幅信息来沿着收听者的正中面呈现音频，从而沿着变化的深度呈现音频。在一个实施例中，深度处理系统对左和右立体声输入信号进行分析以推断可以随时间变化的深度。深度处理系统然后可以随时间改变音频信号之间的相位和/或振幅去相关，以增强音频信号中已经存在的深度感，从而创建沉浸式深度效果。

Description

沉浸式音频呈现系统

相关申请

本申请基于35U.S.C§119(e)要求2011年1月4日递交的题为“Immersive Audio Rendering System”的美国临时申请No.61/429,600的优先权，其全部公开内容通过引用合并于此。

背景技术

提高技术能力并增加用户偏好产生了各种音频记录和回放系统。音频系统的发展已经超过具有分离的左和右记录/回放声道的较简单立体声系统，到达通常被称作的环绕声系统。环绕声系统通常设计为通过提供声源向收听者提供更真实的回放体验，声源源自或看似源自布置在收听者周围的多个空间位置，通常包括位于收听者后面的声源。

环绕声系统通常包括适于一般在收听者前方产生声音的中央声道、至少一个左声道和至少一个右声道。环绕声系统还通常包括适于一般在收听者后面产生声音的至少一个左环绕源和至少一个右环绕源。环绕声系统还可以包括低频效果(LFE)声道(有时被称作亚低音扬声器声道)来改善低频声音的回放。作为一个具体示例，具有中央声道、左前声道、右前声道、左环绕声道、右环绕声道和LFE声道的环绕声系统可以被称作5.1环绕系统。句点之前的数字5指示存在的非低音扬声器的个数，句点之后的数字1指示存在亚低音扬声器。

发明内容

出于概述本公开的目的，本文已经描述了本发明的一些方面、优点和新颖特征。应当理解，不必根据这里本文的本发明的任何具体实施例实现所有这样的优点。因此，可以以如下方式实现或执行本文所公开的发明：实现或优化如本文教导的一个优点或一组优点，而没有必要实现如本文教导或建议的其它优点。

在某些实施例中，一种呈现音频输出信号中的深度的方法包括：接收多个音频信号，在第一时刻从音频信号中识别第一深度导引信息；并且在第二时刻从音频信号中识别后续深度导引信息。此外，该方法可以包括：由一个或更多个处理器，按照至少部分依赖于第一深度导引信息的第一量对多个音频信号进行去相关，以产生第一去相关音频信号。该方法还可以包括：向收听者输出用于回放的第一去相关音频信号。此外，该方法可以包括：在所述输出之后，按照与第一量不同的第二量对多个音频信号进行去相关以产生第二去相关音频信号，其中，第二量可以至少部分依赖于后续深度导引信息。此外，该方法可以包括向收听者输出用于回放的第二去相关音频信号。

在其他实施例中，一种呈现音频输出信号中的深度的方法可以包括：接收多个音频信号，识别随时间变化的深度导引信息，至少部分地基于深度导引信息，随时间动态地对多个音频信号进行去相关，以产生多个去相关音频信号；并且向收听者输出用于回放的多个去相关信号。可以通过电子硬件来实现该方法的至少所述去相关或任何其他子集。

在一些实施例中，一种呈现音频输出信号中的深度的系统可以包括：深度估计器，可以接收两个或更多个音频信号并且可以识别与两个或更多个音频信号相关联的深度信息；以及深度呈现器，包括一个或更多个处理器。深度呈现器可以至少部分基于深度信息，随时间动态地对两个或更多个音频信号进行去相关，以产生多个去相关音频信号，并且输出多个去相关音频信号(例如，向收听者输出以用于回放，和/或向另一音频处理部件输出)。

呈现音频输出信号中的深度的多种实施例包括：接收具有两个或更多个音频信号的输入音频；对与输入音频相关联的深度信息进行估计，其中，深度信息可以随时间变化；并且由一个或更多个处理器基于估计的深度信息来动态地增强音频。这种增强可以基于深度信息随时间的变化而动态地改变。此外，该方法可以包括输出增强后的音频。

在若干实施例中，一种呈现音频输出信号中的深度的系统可以包括：深度估计器，可以接收具有两个或更多个音频信号的输入音频并且对与输入音频相关联的深度信息进行估计；以及增强部件，具有一个或更多个处理器。增强部件可以基于估计的深度信息动态地对音频进行增强。这种增强可以基于深度信息随时间的变化而动态地改变。

在某些实施例中，一种对施加于音频信号的感知增强进行调制的方法包括：接收左音频信号和右音频信号，其中左音频信号和右音频信号分别具有与声源相对于收听者的空间位置有关的信息。该方法还可以包括：计算左音频信号和右音频信号中的差信息；对左音频信号和右音频信号中的差信息应用至少一个感知滤波器，以获得左输出信号和右输出信号；并且对左输出信号和右输出信号施加增益。该增益的值可以至少部分基于计算的差信息。通过一个或更多个处理器执行至少所述施加增益(或整个方法或方法的子集)。

在一些实施例中，一种对施加于音频信号的感知增强进行调制的系统包括：信号分析部件，可以至少通过以下操作对多个音频信号进行分析：接收左音频信号和右音频信号，其中左音频信号和右音频信号分别具有与声源相对于收听者的空间位置有关的信息，并且从左音频信号和右音频信号中获得差信号。该系统还可以包括：具有一个或更多个物理处理器的环绕处理器。环绕处理器可以对差信号应用至少一个感知滤波器，以获得左输出信号和右输出信号，其中可以至少部分基于计算的差信息来调制至少一个感知滤波器的输出。

在某些实施例中，一种非暂时物理计算机存储器，包括其中存储的指令，可以在一个或更多个处理器中实现对施加于音频信号的感知增强进行调制的操作。这些操作可以包括：接收左音频信号和右音频信号，其中左音频信号和右音频信号分别具有与声源相对于收听者的空间位置有关的信息；计算左音频信号和右音频信号中的差信息；对左音频信号和右音频信号中的每一个应用至少一个感知滤波器，以获得左输出信号和右输出信号；并且至少部分基于计算的差信息对至少一个感知滤波器的所述应用进行调制。

在某些实施例中，一种对施加于音频信号的感知增强进行调制的系统包括：用于接收左音频信号和右音频信号的装置，其中，左音频信号和右音频信号分别具有与声源相对于收听者的空间位置有关的信息；用于计算左音频信号和右音频信号中的差信息的装置；用于对左音频信号和右音频信号中的每一个应用至少一个感知滤波器的装置；以及用于至少部分基于计算的差信息对至少一个感知滤波器的所述应用进行调制的装置。

附图说明

贯穿附图，参考数字可以再次使用，以指示所引用元件之间的对应性。提供附图来示出本文所描述的本发明的实施例，而非限制本发明的范围。

图1A示出了采用深度处理系统的实施例的示例深度呈现场景。

图1B、2A和2C示出了与深度呈现算法实施例有关的收听环境的方面。

图3A至3D示出了图1的深度处理系统的示例实施例。

图3E示出了本文描述的任一深度处理系统中可以包括的串扰消除器的实施例。

图4示出了可以由本文描述的任一深度处理系统实现的深度呈现处理的实施例。

图5示出了深度估计器的实施例。

图6A和6B示出了深度呈现器的实施例。

图7A、7B、8A和8B示出了与图6A和6B中示出的示例深度呈现器相关联的示例极点-零点(pole-zero)和相位-延迟曲线图。

图9示出了示例频域深度估计处理。

图10A和10B示出了可以用于估计深度的视频帧的示例。

图11示出了可以用于根据视频数据估计深度的深度估计和呈现算法的实施例。

图12示出了基于视频数据的示例深度分析。

图13和14示出了环绕处理器的实施例。

图15和16示出了环绕处理器创建虚拟环绕效果时可以使用的感知曲线的实施例。

具体实施方式

I.介绍

环绕声系统尝试通过从位于收听者周围的多个扬声器投射声音来创建沉浸式音频环境。典型地，相对于具有较少扬声器的系统(例如，立体声系统)，音频爱好者优选环绕声系统。然而，立体声系统通常由于具有较少扬声器而成本较低，并且因此进行了多种尝试来利用立体声扬声器近似环绕声效果。虽然有这样的尝试，但是具有多于两个扬声器的环绕声环境通常比立体声系统更使人沉浸。

本公开描述了一种深度处理系统，在可能的其他扬声器配置之中，采用立体声扬声器来实现沉浸式效果。深度处理器系统有利地操控相位和/或振幅信息来沿着收听者的正中面呈现音频，从而相对于收听者以改变的深度来呈现音频。在一个实施例中，深度处理系统对左和右立体声输入信号进行分析，以推断可以随时间变化的深度。深度处理系统然后可以随时间改变音频信号之间的相位和/或幅度去相关，从而创建沉浸式深度效果。

本文描述的音频系统的特征可以在电子设备(例如，电话、电视、膝上型计算机、其他计算机、便携式媒体播放器、车载立体声系统等)中实现，以使用两个或更多个扬声器创建沉浸式音频效果。

II.音频深度估计和呈现实施例

图1A示出了沉浸式音频环境100的实施例。所示的沉浸式音频环境100包括：深度处理器系统110，接收两个(或更多个)声道音频输入，并且产生针对左和右扬声器112、114的两声道音频输出，以及可选的针对亚低音扬声器的第三输出。有利地，在某些实施例中，深度处理系统110对两声道音频输入信号进行分析，以估计或推断与这些信号有关的深度信息。使用该深度信息，深度处理系统110可以调节音频输入信号，以在提供给左和右立体声扬声器112、114的音频输出信号中创建深度感。因此，左和右扬声器可以为收听者102输出沉浸式声场(由曲线所示)。这种沉浸式声场可以为收听者102创建深度感。

深度处理系统110提供的沉浸式声场效果可以比环绕声扬声器的沉浸式效果更有效地起作用。因此，不是被视为对环绕系统的近似，而是深度处理系统110可以提供优于现有环绕系统的优势。某些实施例中提供的一个优点是，沉浸式声场效果可以是相对的最佳听音位置(sweet spot)无关，在整个收听空间内提供沉浸式效果。然而，在一些实现方式中，可以通过在扬声器之间近似等距地、并按照与两个扬声器(虚线104所示)形成实质上等边三角形的角度，来定位收听者102，以实现加强的沉浸式效果。

图1B示出了与深度呈现实施例相关的收听环境150的方面。在与收听者102相关联的两个几何平面160、170的上下文中示出了收听者102。这些平面包括正中或矢状面160、以及额状或冠状面170。在一些实施例中，可以通过沿着收听者102的正中面呈现音频来有利地获得三维音频效果。

在收听者102旁边示出了示例坐标系统108作为参照。在该坐标系统108中，正中面160位于y-x平面、冠状面170位于x-y平面。x-y平面还对应于可以在面对收听者102的两个立体声扬声器之间形成的平面。坐标系统180的z轴可以是该平面的法线。在一些实现方式中，沿着正中面160呈现音频可以视为沿着坐标系统180的z轴呈现音频。因此，例如，可以沿着正中面由深度处理系统110呈现深度效果，使得一些声音沿着正中面160听起来更接近收听者，并且一些声音沿着正中面160更远离收听者102。

深度处理系统110还沿着正中面160和冠状面170二者呈现声音。在一些实施例中，在三个维度中呈现的能力可以增加收听者102在音频场景中的沉浸感，并且在一起体验音频和视频时还加强三维视频的幻觉。

可以通过图2A和2B中示出的示例声源场景200来可视化收听者的深度感知。在图2A中，声源252与收听者202间隔一距离。而在图2B中声源252相对更接近收听者202。典型地通过两只耳朵感知声源，其中，一只耳朵更接近声源，典型地在另一只耳朵之前听到声音。从一只耳朵到另一只耳朵的声音接收延迟可以认为是耳间时间延迟(ITD)。此外，声源的强度对于更接近的耳朵更大，引起耳间强度差(IID)。

图2A和2B中绘制的从声源252到收听者202的每只耳朵的线272、274形成夹角。在较远处该角度较小，当声源252更接近时，该角度变大，如图2A和2B所示。声源250越远离收听者202，声源252就越近似点源，夹角为0度。因此，左音频信号和右音频信号可以相对同相，以表示较远的声源252，并且这些信号可以相对异相以表示较近的声源252(假定相对于收听者102的非零方位到达角，使得声源252不在收听者的正前方)。相应地，较远声源252的ITD和IID可以相对小于较近声源252的ITD和IID。

由于具有两个扬声器，立体声记录可以包括能够被分析以推断声源252相对于收听者102的深度的信息。例如，左和右立体声声道之间的ITD和IID信息可以表示为两个声道之间的相位和/或振幅去相关。两个声道之间的去相关越大，声场越广大，反之亦然。深度处理系统110有利地可以操控该相位和/或振幅去相关，来沿着收听者102的正中面160呈现音频，从而沿着改变的深度呈现音频。在一个实施例中，深度处理系统110对左和右立体声输入信号进行分析，以推断可以随时间变化的深度。深度处理系统110然后可以随时间改变输入信号之间的相位和/或振幅去相关，以创建这种深度感。

图3A至3D示出了深度处理系统310的更详细实施例。具体地，图3A示出了基于立体声和/或视频输入呈现深度效果的深度处理系统310A。图3B示出了基于环绕声和/或视频输入创建深度效果的深度处理系统310B。在图3C中，深度处理系统310C使用音频对象信息创建深度效果。图3D类似于图3A，除提供了附加的串扰消除部件之外。这些深度处理系统310中的每一个可以实现上述深度处理系统110的特征。此外，可以以硬件和/或软件实现所示的每个部件。

具体参照图3A，深度处理系统310A接收被提供给深度估计器320a的左和右输入信号。深度估计器320a是信号分析部件的示例，对两个信号进行分析，以估计两个信号表示的音频的深度。深度估计器320a可以基于该深度估计产生深度控制信号，深度呈现器330a可以使用该深度估计来加重两个声道之间的相位和/或振幅去相关(例如，ITD和IID差)。在所描述的实施例中向可选的环绕处理模块340a提供深度呈现输出信号，可选的环绕处理模块340a可以可选地加宽声级，并从而增加深度感。

在某些实施例中，深度估计器320a例如通过计算L-R信号，对左和右输入信号中的差信息进行处理。L-R信号的幅度可以反映两个输入信号中的深度信息。如上关于图2A和2B所述，L和R信号可以随着声音更移近收听者而变得更异相。因此，L-R信号的较大幅度可以比L-R信号的较小幅度反映出更接近的信号。

深度估计器320a还可以分析分离的左和右信号，以确定两个信号中哪个信号是主导的。一个信号的主导可以提供与如何调节ITD和/或IID差有关的线索，以强调主导声道并从而强调深度。因此，在一些实施例中，深度估计器320a创建以下控制信号中的一些或全部：L-R、L、R、以及可选的L+R。深度估计器320a可以使用这些控制信号来调节深度呈现器330(以下描述的)所施加的滤波器特性。

在一些实施例中，深度估计器320a还可以基于视频信息而不是上述基于音频的深度分析，或者基于这两者，来确定深度信息。深度估计器320a可以根据三维视频合成深度信息，或者可以根据二维视频产生深度图。根据这样的深度信息，深度估计器320a可以产生类似于上述控制信号的控制信号。以下参照图10A至12更详细地描述基于视频的深度信息。

深度估计器320a可以对采样块进行操作或逐采样地操作。为了方便起见，本说明书的剩余部分参照基于块的实现方式，尽管应当理解，可以逐采样地执行类似的实现方式。在一个实施例中，深度估计器320a产生的控制信号包括采样块，例如，L-R采样块、L、R和/或L+R采样块等。此外，深度估计器320a可以对L-R、L、R、或L+R信号的包络进行平滑和/或检测。因此，深度估计器320a产生的控制信号可以包括对多种信号的经平滑版本和/或包络加以表示的一个或更多个采样块。

使用这些控制信号，深度估计器320a可以操控深度呈现器330a所实现的一个或更多个深度呈现滤波器的滤波特性。深度呈现器330a可以从深度估计器320a接收左和右输入信号，并且对输入的音频信号应用一个或更多个深度呈现滤波器。深度呈现器330a的深度呈现滤波器可以通过选择性地对左和右输入信号进行相关和去相关来创建深度感。深度呈现模块可以基于深度估计器320a的输出，通过操控声道间的相位和/或增益差来执行该相关和去相关。这种去相关可以是输出信号的部分去相关或完全去相关。

有利地，在某些实施例中，深度呈现器330基于从输入信号中导出的控制或导引信息执行的动态去相关创建深度印象，而不仅仅是立体声宽广性。因此，收听者可以感知到声源就像从扬声器弹出，动态地向着或远离收听者移动。当与视频耦合时，视频中对象所表示的声源可以像是随着视频中的对象移动一样，获得3-D音频效果。

在所描述的实施例中，深度呈现器330a向环绕处理器340a提供深度呈现的左和右输出。环绕处理器340可以加宽声级，从而加宽深度呈现效果的最佳听音位置。在一个实施例中，环绕处理器340a使用一个或更多个首部相关传递函数或美国专利No.7,492,907(代理卷宗no.SRSLABS.100C2)中描述的感知曲线来加宽声级，其全部公开通过引用合并于此。在一个实施例中，环绕处理器340a基于由深度估计器320a产生的一个或更多个控制或导引信号，调制该声级加宽效果。因此，有利地可以根据检测到的深度的量来加宽声级，从而进一步增强深度效果。环绕处理器340a可以输出左和右输出信号以向收听者回放(或者用于进一步处理；参见例如图3D)。然而，环绕处理器340a是可选的，并且在一些实施例中可以省略。

图3A的深度处理系统310A可以适于处理多于两个音频输入。例如，图3B示出了对5.1环绕声声道输入进行处理的深度处理系统310B的实施例。这些输入包括左前(L)、右前(R)、中央(C)、左环绕(LS)、右环绕(RS)和亚低音扬声器(S)输入。

深度估计器320b、深度呈现器330b和环绕处理器340b可以分别执行与深度估计器320a、深度呈现器330a相同或实质上相同的功能。深度估计器320b和深度呈现器320b可以将LS和RS信号作为分离的L和R信号来处理。因此，深度估计器320b可以基于L和R信号产生第一深度估计/控制信号，并且基于LS和RS信号产生第二深度估计/控制信号。深度处理系统310B可以输出经深度处理的L和R信号、以及分离的经深度处理的LS和RS信号。可以将C和S信号一直传递到输出，或者也可以对这些信号施加增强。

环绕声处理器340b可以将L、R、LS和RS信号(以及可选地，C和/或S信号)下混成两个L和R输出。备选地，环绕声处理器340可以输出全部L、R、C、LS、RS和S输出，或者它们的一些其他子集。

参照图3C，示出了深度处理系统310C的另一实施例。在所描述的实施例中，深度处系统310C不接收分立的音频声道，而接收音频对象。这些音频对象包括音频要素(例如，声音)和对象元数据。音频对象的示例可以包括与视频中的对象(例如，人、机器、动物、环境效果等)相对应的声源或对象。对象元数据可以包括与音频对象的位置有关的位置信息。因此，在一个实施例中，由于在音频对象中明确编码了对象相对于收听者的深度，因此不需要深度估计。代替深度估计模块，提供滤波器变换模块320c，其可以基于对象位置信息产生适合的深度呈现滤波器参数(例如，系数和/或延迟)。深度呈现器330c然后继续基于计算的滤波器参数执行动态去相关。如上所述，还提供可选的环绕处理器340c。

对象元数据中的位置信息可以采用三维空间中坐标的格式，例如，x、y、z坐标，球面坐标等。滤波器变换模块320c可以基于元数据中所反映的对象的变化的位置，确定滤波器参数，滤波器参数创建变化的相位和增益关系。在一个实施例中，滤波器变换模块320c根据对象元数据创建双对象。该双对象可以是二源对象，类似于立体声左和右输入信号。滤波器变换模块320c可以根据单声音频要素源和对象元数据、或根据具有对象元数据的立体声音频要素源，创建该双对象。滤波器变换模块320可以基于双对象的元数据指定位置、其速度、加速度等确定滤波器参数。三维空间中的位置可以是环绕收听者的声场中的内点。因此，滤波器变换模块320c可以将这些内点解译为指定了可以用于调节深度呈现器330c的滤波器参数的深度信息。在一个实施例中，滤波器变换模块320c可以使深度呈现器320将音频作为深度呈现效果的一部分来散布或扩散。

由于在音频对象信号中可能存在若干对象，因此，滤波器变换模块320c可以基于音频中的一个或更多个主导对象的位置来产生滤波器参数，而不是合成总体位置估计。对象元数据可以包括对哪些对象是主导的加以指示的特定元数据，或者滤波器变换模块320c可以基于对元数据的分析来推断主导。例如，具有以下元数据的对象可以认为是主导：指示这些对象应当比其他对象更大声地呈现；或者更接近收听者的对象可以是主导，等等。

深度处理系统310C可以处理任何类型的音频对象，包括MPEG编码对象，或者在2010年8月13日递交的题为“Object-Oriented AudioStreaming System”的美国申请No.12/856,442(代理卷宗no.SRSLABS.501A1)中描述的音频对象，其全部公开通过引用合并于此。在一些实施例中，音频对象可以包括基本声道对象和扩展对象，如在2011年3月9日递交的题为″System for Dynamically Creating andRendering Audio Objects″的美国临时申请No.61/451,085中所描述的，其全部公开通过引用合并于此。因此，在一个实施例中，深度处理系统310C可以根据基本声道对象(使用例如深度估计器320)执行深度估计，并且还可以基于扩展对象及其相应元数据执行滤波器变换调制(块320c)。换言之，除了声道数据之外或代替声道数据，也可以使用音频对象元数据来确定深度。

在图3D中，示出了深度处理系统310d的另一实施例。该深度处理系统310d类似于图3A的深度处理系统310a，另外添加了串扰消除器350a。尽管与图3A的处理系统310a的特征一起示出了串扰消除器350a，但是串扰消除器350a实际上可以包括在任一在前深度处理系统中。串扰消除器350a有利地可以改善一些扬声器布置的深度呈现效果的质量。

串扰会发生在两个立体声扬声器与收听者耳朵之间的空气中，使得来自每个扬声器的声音都到达两只耳朵，而不是局限于一只耳朵。在这种情形下，劣化了立体声效果，另一种类型的串扰会发生在设计为适合紧凑空间(例如，电视下面)的一些扬声器箱中。这些面向下的立体声扬声器通常不具有单独的包封。因此，从这些扬声器背面发出的回波声音(可以是从正面发出的声音的反转版本)由于回波混合，可以创建彼此串扰的形式。这种回波混合串扰可以减少或完全抵消本文描述的深度呈现效果。

为了克服这些影响，串扰消除器350a可以消除或减小两个扬声器之间的串扰。除了有助于针对电视扬声器的更好深度呈现以外，串扰消除器350a可以有助于针对其他扬声器的更好深度呈现，包括蜂窝电话、平板电脑和其他便携式电子设备上的背面扬声器。在图3E中更详细地示出了串扰消除器350的一个示例。该串扰消除器350b表示图3D的串扰消除器350a的许多可能实现方式中的一个。

串扰消除器350b接收如上所述经深度效果处理的两个信号，左和右信号。每个信号由反转器352、362反转。每个反转器352、362的输出被延迟模块354、364延迟。在求和器356、366处对延迟模块的输出与输入信号求和。因此，对每个信号进行反转、延迟并与相反的输入信号进行求和，来产生输出信号。如果正确地选择延迟，则反转或延迟的信号应当抵消或至少部分地减小由于回波混合引起的串扰(或其他串扰)。

延迟模块354、364中的延迟可以表示两个耳朵之间的声波传播时间差，并且可以依据收听者到扬声器的距离。延迟可以由合并了深度处理系统110、310的设备的制造商来设定，以匹配设备大多数用户的期望延迟。用户接近其就坐的设备(例如，膝上型电脑)很可能比用户远离其就坐的设备(例如，电视机)具有更短的延迟。因此，基于所使用设备的类型来定制延迟设定。这些延迟设定可以显露在用户界面中，以供用户(例如，设备的制造商、设备上软件的安装者，或终端用户等)选择。备选地，延迟可以是预设的。在另一实施例中，延迟可以基于获得的与收听者相对于扬声器的位置有关的位置信息而动态地变化。该位置信息可以从摄像机或光传感器获得，例如，从Microsoft^TMCorporationt可获得的Xbox^TMKinect^TM。

可以使用也包括首部相关传递函数(HRTF)滤波器等在内的其他形式的串扰消除器。如果从系统中去除可能已经包括HRTF导出滤波器的环绕处理器340，则向串扰消除器350添加HRTF滤波器可以提供更大的最佳听音位置和空间感。在一些实施例中环绕处理器340和串扰消除器350两者均可以包括HRTF滤波器。

图4示出了可以由本文描述的任一深度处理系统110、310或由本文没有描述的其他系统来实现的深度呈现处理400的实施例。深度呈现处理400示出了用于呈现深度以创建沉浸式音频收听体验的示例方法。

在方框402处，接收包括一个或更多个音频信号的输入音频。两个或更多个音频信号可以包括左和右立体声信号、如上所述的5.1环绕信号，其他环绕配置(例如，6.1、7.1等)、音频对象、或者甚至单声音频，深度处理系统可以在深度呈现之前将单声音频转换成立体声。在方框404处，估计在一段时间上与输入音频相关联的深度信息。深度信息可以根据如上所述对音频本身的分析(同样参见图5)直接来估计，或者根据视频信息、根据对象元数据或它们任一组合来估计。

在方框406处，可以按照依赖于估计的深度信息的量，去相关一个或更多个音频信号。在方框408处输出去相关音频。这种去相关可以包括基于估计的深度，动态地调节音频的两个声道之间的相位和/或增益延迟。因此估计的深度可以用作驱动所创建的去相关量的导引信号。由于输入音频中的声源从一个扬声器移至另一个扬声器，因此去相关可以以对应方式动态地改变。例如，在立体声设定中，如果声源从左扬声器移至右扬声器，则可以首先加重左扬声器输出，之后随着声源移至右扬声器，加重右扬声器输出。在一个实施例中，去相关可以有效地获得两个声道之间差的增大，产生更大的L-R或LS-RS值。

图5示出了深度估计器520的更详细实施例。深度估计器350可以实现上述深度估计器320的任一特征。在所描述的实施例中，深度估计器520基于左和右输入信号估计深度，并且向深度呈现器530提供输出。深度估计器520还可以用于根据左和右环绕输入信号估计深度。此外，深度估计器520的实施例可以结合本文描述的视频深度估计器或对象滤波器变换模块来使用。

可以将左和右信号提供给求和以及求差模块502、504。在一个实施例中，深度估计器520一次接收左和右采样的块。深度估计器520的其余部分因此可以操控该采样块。求和模块502产生L+R输出，而求差模块504产生L-R输出。将这些输出中的每一个连同原始输入一起提供给包络检测器510。

包络检测器510可以使用多种技术中的任一种来检测L+R、L-R、L和R信号(或其子集)中的包络。一种包络检测技术是获取信号的均方根(RMS)值。包络检测器510输出的包络信号因此示作RMS(L-R)、RMS(L)和RMS(L+R)。向平滑器512提供这些RMS输出，平滑器512对RMS输出应用平滑滤波器。获取包络和平滑音频信号可以平滑掉音频信号中的偏差(例如，峰值)，从而避免或减小深度处理中的后续突发或震动变化。在一个实施例中，平滑器512是快攻慢衰(FASD)平滑器。在另一实施例中，可以省略平滑器512。

图5中平滑器512的输出可以表示为图5中的RMS()’。向深度计算器524提供RMS(L+R)’信号。如上所述，L-R信号的幅度可以反映两个输入信号中的深度信息。因此，RMS且平滑后的L-R信号的幅度也可以反映深度信息。例如，相比RMS(L-R)’信号中的较小幅度，RMS(L-R)’信号中的较大幅度可以反映更接近的信号。换言之，L-R或RMS(L-R)’信号的值反映L-R信号之间的相关度。具体地，L-R或RMS(L-R)’(或RMS(L-R))信号可以是左信号和右信号之间的耳间互相关系数(IACC)的逆指示符。(如果L和R信号高度相关，则例如它们的L-R值接近0，而它们的IACC值接近1，反之亦然)

由于RMS(L-R)’信号可以反映L和R信号之间的逆相关，因此RMS(L-R)’信号可以用于确定在L和R输出信号之间施加多少去相关。深度计算器524进一步处理RMS(L-R)’信号，以提供深度估计，深度估计可以用于对L和R信号施加去相关。在一个实施例中，深度计算器524归一化RMS(L-R)’信号。例如，RMS值可以除以L和R信号的几何均值(例如，RMS(L)’*RMS(R)’^(1/2)))(或其他均值或统计度量)以归一化包络信号。归一化可以有助于确保信号电平或音量的波动不会被误解译为深度波动。因此，如图5所示，在乘法模块538处，将RMS(L)’值与RMS(R)’值乘在一起，并提供给深度计算器524，深度计算器524可以完成归一化处理。

除了对RMS(L-R)’信号进行归一化以外，深度计算器524还可以应用附加处理。例如，深度计算器524可以对RMS(L-R)’信号应用非线性处理。该非线性处理可以加重RMS(L-R)’信号的幅度，从而非线性地加重RMS(L-R)’信号中的已有去相关。因此，与L-R信号中的缓慢变化相比，甚至可以更多地加重L-R信号中的快速变化。非线性处理在一个实施例是幂函数或指数，或者在另一实施例中大于线性增加。例如，深度计算器524可以使用诸如x^a等指数函数，其中，x＝RMS(L-R)’且a＞1。可以选择包括不同形式的指数函数的其他函数，以进行非线性处理。

深度计算器524向系数计算模块534和环绕缩放模块536提供经归一化并非线性处理的信号作为深度估计。系数计算模块534基于深度估计的幅度计算深度呈现滤波器的系数。以下参照图6A和6B更详细地描述深度呈现滤波器。然而，应当注意，一般来说，计算模块534所产生的系数可以影响施加于左和右音频信号的相位延迟和/或增益调节的量。因此，例如，计算模块534可以产生对于深度估计的较大值产生较大相位延迟的系数，反之亦然。在一个实施例中，计算模块524产生的相位延迟与深度估计之间的关系是非线性的，例如，幂函数等。该幂函数可以具有的幂可选的是基于收听者与扬声器的接近度的可调谐参数，该接近度可以由其中实现深度估计器520的设备的类型来确定。例如，电视机可以比蜂窝电话具有更大的预期收听者距离，并且因此计算模块524针对这些或其他类型的设备可以以不同方式调谐幂函数。计算模块524施加的幂函数可以放大深度估计的效果，获得带来扩大的相位和/或振幅延迟的深度呈现滤波器的系数。在另一实施例中，相位延迟和深度估计之间的关系是线性的而不是非线性(或是二者的组合)。

环绕缩放模块536可以输出对可选的环绕处理器340所应用的环绕处理的量进行调节的信号。通过深度估计所计算的L-R内容中的去相关或宽广度的量因此可以调制所应用的环绕处理的量。环绕缩放模块536可以输出对于深度估计的较大值具有较大值并且对于深度估计的较小值具有较小值的缩放值。在一个实施例中，环绕缩放模块536对深度估计应用非线性处理(例如，幂函数等)，以产生缩放值。例如，缩放值可以是深度估计的幂的某一函数。在其他实施例中，缩放值和深度估计具有线性关系而不是非线性关系(或二者的组合)。以下参照图13至17描述缩放值应用的处理的更多具体内容。

向延迟和幅度计算模块540分离地提供RMS(L)’信号和RMS(R)’信号。计算模块540可以例如通过更新可变延迟线指针，计算要在深度呈现滤波器(图6A和6B)中施加的延迟量。在一个实施例中，计算模块540确定L和R信号(或其RMS’等同物)中的哪一个是主导，或者电平更高。计算模块54可以通过获得两个信号的比值(RMS(L)’/RMS(R)’)来确定该主导，其中大于1的值指示左主导，小于1的值指示右主导(或者如果分子和分母颠倒，则大于1的值指示右主导，小于1的值指示左主导)。备选地，计算模块540可以执行两个信号的简单求差，以确定具有更大幅度的信号。

如果左信号是主导，则计算模块540可以调节深度呈现滤波器的左部分(图6A)，以减小施加于左信号的相位延迟。如果右信号是主导，则计算模块540可以针对应用于右信号的滤波器执行相同操作(图6B)。随着信号主导的变化，计算模块540可以改变深度呈现滤波器的延迟线值，引起左声道和右声道之间随时间的相位延迟推拉变化。这种相位延迟推拉变化可以至少部分用于选择性地增大声道之间的去相关和增大声道之间的相关(例如，在主导变化期间)。计算模块540可以响应于左信号和右信号主导的变化在左延迟主导和右延迟主导之间渐变(fade)，以免输出震动变化和信号伪像。

此外，计算模块540可以基于左信号和右信号(或者经处理的左信号和右信号，例如，其RMS值)之比计算要施加于左声道和右声道的总增益。计算模块540可以以推拉方式改变这些增益，类似于相位延迟的推拉变化。例如，如果左信号是主导，则计算模块54可以放大左信号并衰减右信号。随着右信号变为主导，计算模块540可以放大右信号并衰减左信号，以此类推。计算模块540还可以交叉渐变(crossfade)声道之间的增益，以免震动的增益转变或信号伪像。

因此，在某些实施例中，延迟和振幅计算器计算使深度呈现器530在相位延迟和/或增益中去相关的参数。在效果上，延迟和振幅计算器540可以使深度呈现器530用作放大镜或放大器，对左信号和右信号之间已有的相位和/或增益去相关进行放大。相位延迟去相关或增益去相关可以单独地在任何给定实施例中执行。

深度计算器524、系数计算模块534和计算模块540可以一起工作，以控制深度呈现器350的深度呈现效果。相应地，在一个实施例中，去相关带来的深度呈现量可以依赖于可能的多个因素，例如，主导声道和(可选地，经处理的)差信息(例如，L-R等)。如以下参照图6A和6B更详细描述的，模块534的基于差信息的系数计算可以开启或关闭深度呈现器530提供的相位延迟效果。因此，在一个实施例中，差信息有效地控制是否执行相位延迟，而声道主导信息控制执行的相位延迟和/或增益去相关的量。在另一实施例中，差信息还影响执行的相位去相关和/或增益去相关的量。

在除了所描述的那些实施例以外的其他实施例中，深度计算器524的输出可以用作单独控制相位和/或振幅去相关的量，而计算模块540的输出可以用于控制系数计算(例如，可以提供给计算模块534)。在另一实施例中，向计算模块540提供深度计算器524的输出，并且基于差信息和主导信息二者控制计算模块540的相位和振幅去相关参数输出。类似地，系数计算模块534可以采用来自计算模块540的附加输入，并且基于差信息和主导信息二者计算系数。

在所示意的实施例中，还向非线性处理(NLP)模块522提供RMS(L+R)’信号。NLP模块522可以对深度计算器524所施加的RMS(L+R)’信号执行类似的NLP处理，例如通过对RMS(L+R)’信号施加指数函数。在许多音频信号中，L+R信息包括对话，并且通常用作中央声道的替换。经由非线性处理加重L+R块的值，这可以有用于确定对L+R或C信号施加多少动态范围压缩。更大的压缩值可以产生更大声且更清楚的对话。然而，如果L+R信号的值非常低，则不存在对话，并因此可以减小施加的压缩量。因此，压缩缩放模块550可以使用NLP模块522的输出来调节施加于L+R或C信号的压缩量。

应当注意，在不同实现方式中可以修改或省略深度估计器520的许多方面。例如，可以省略包络检测器510或平滑器512。因此，可以直接基于L-R信号进行深度估计，并且信号主导可以直接基于L和R信号。于是，可以对深度估计和主导计算(以及基于L+R的压缩缩放计算)进行平滑，而非平滑输入信号。此外，在另一实施例中，来自深度计算器524的L-R信号(或其平滑/包络版本)和深度估计可以用于调节计算模块540中的延迟线指针计算。同样，L和R信号之间的主导(例如，如通过比值或差值所计算的)可以用于操控模块534中的系数计算。也可以省略压缩缩放模块550或环绕缩放模块536。在深度估计器520中也可以包括许多其他附加方面，例如，以下更详细描述的视频深度估计。

图6A和6B示出了深度呈现器630a、630b的实施例，并且表示上述深度呈现器330、350的更详细实施例。图6A中的深度呈现器630a对左声道应用深度呈现滤波器，而图6B中的深度呈现器630b对右声道应用深度呈现滤波器。每幅图中示出的部件因此相同(尽管在一些实施例中在两个滤波器之间可以具有差异)。因此，为了方便起见，以下将深度呈现器630a、630b总体上描述为单个深度呈现器630。

上述(并且在图6A和6B中再现的)深度估计器520可以向深度呈现器630提供若干输入。这些输入包括提供给可变延迟线610、622的一个或更多个延迟线指针、施加于乘法器602的前馈系数、施加于乘法器616的反馈系数、以及施加于乘法器624的总体增益值(例如，从图5的模块540获得)。

在某些实施例中，深度呈现器630是可以调节输入信号的相位的全通滤波器。在所示实施例中，深度呈现器630是具有前馈部件632和反馈部件634的无限脉冲响应(IIR)滤波器。在一个实施例中，可以省略反馈部件634，以获得实质上类似的相位延迟效果。然而，在无反馈部件634的情况下，会出现梳状滤波器效应，这潜在地使一些音频频率为空或者被衰减。因此，反馈部件634可以有利地减小或消除该梳状滤波器效应。前馈部件632表示滤波器630A的零点，而反馈部件表示滤波器的极点(参见图7和8)。

前馈部件632包括可变延迟线610、乘法器602和组合器612。可变延迟线610采用输入信号(例如，图6A中的左信号)作为输入，根据深度估计器520确定的量延迟信号，并且向组合器612提供延迟的信号。也向乘法器602提供输入信号，乘法器602对信号进行缩放并向组合器612提供经缩放的信号。乘法器602表示图5的系数计算模块534计算的前馈系数。

向反馈部件634提供组合器612的输出，反馈部件634包括可变延迟线622、乘法器616、和组合器614。向组合器614提供前馈部件632的输出，组合器614向可变延迟线622提供输出。可变延迟线622具有与可变延迟线610的延迟相对应的延迟，并且依赖于深度估计器520的输出(参见图5)。延迟线622的输出是提供给乘法器模块616的延迟信号。乘法器模块616施加系数计算模块534(参见图5)计算的反馈系数。向组合器614提供该模块616的输出，组合器614还向乘法器624提供输出。该乘法器624对深度呈现滤波器630的输出施加总增益(以下描述)。

前馈部件632的乘法器602可以控制输入信号加上延迟信号的湿/干混合。向乘法器602施加更大增益可以增加输入信号(干或回响小的信号)相对延迟信号(湿或回响大的信号)的量，反之亦然。对输入信号施加较小增益可以使输入信号的相位延迟版本成为主导，加重深度效果，反之亦然。该增益的逆版本(未示出)可以包括在可变延迟模块610中，以补偿乘法器602所施加的额外增益。可以选择乘法器616的增益以与增益602相对应，使得适当地消除梳状滤波器空值。因此，在某些实施例中，乘法器602的增益可以调制时变的湿-干混合。

在操作中，深度估计器520可以控制两个深度呈现滤波器630A、630B，以选择性地对左和右输入信号(或LS和RS信号)进行相关和去相关。为了创建耳间时间延迟并且因此创建来自左侧的深度感(假定从左侧检测到更大的深度)，可以沿着一个方向调节左延迟线610(图6A)，而沿着相反方向调节右延迟线610(图6B)。在两个声道之间以相反方式调节延迟可以创建声道之间的相位差，并从而对声道去相关。类似地，可以通过沿着一个方向调节左增益(图6A中的乘法器模块624)而沿着另一个方向调节右增益(图6B中的乘法器模块624)来创建耳间强度差。因此，由于音频信号中的深度在左声道与右声道之间转移，因此深度估计器520可以在声道之间以推拉方式调节延迟和增益。备选地，在任何给定时间调节左和右延迟和/或增益中的仅一个。

在一个实施例中，深度估计器520随机地改变延迟(延迟线610中的延迟)或者增益624，以随机地改变两个声道中的ITD和IID差。这种随机改变可以较小或较大，但是在一些实施例中微小的随机改变会引起更自然的发声沉浸式环境。此外，随着输入音频信号中声源更远离或者更接近收听者移动，深度呈现模块可以对深度呈现滤波器630应用线性渐变和/或平滑(未示出)，以在两个声道中提供深度调节之间的平滑过渡。

在某些实施例中，当施加于乘法器602的导引信号相对较大(例如，＞1)时，深度呈现滤波器630变成最大相位滤波器，其中，所有零点在单位圆外部，并且引入了相位延迟。在图7A中示出了这种最大相位效果的示例，图7A示出了具有零点在单位圆外部的极点-零点曲线710。在图7B中示出了对应的相位曲线730，示出了与乘法器602系数的相对较大值相对应的大约32个采样的示例延迟。可以通过调节乘法器602系数的值来设定其他延迟值。

当施加于乘法器602的导引信号相对较小(例如，＜1)时，深度呈现滤波器630变成最小相位滤波器，其中其零点在单位圆内部。因此，相位延迟为零(或接近零)。在图8A中示出了这种最小相位效果的示例，图8A示出了具有所有零点在单位圆内部的极点-零点曲线810。在图8B中示出了对应的相位曲线830，图8B示出了0采样延迟。

图9示出了示例频域深度估计处理900。频域处理90可以由上述系统110、310中的任一个来实现，并且可以用于代替以上关于图6A至8B描述的时域滤波器。因此，可以在时域或频域(或二者)中执行深度呈现。

通常，多种频域技术可以用于呈现左和右信号，以加重深度。例如，可以针对每个输入信号计算快速傅立叶变换(FFT)。然后可以调节每个FFT信号的相位，以创建信号之间的相位差。类似地，可以对两个FFT信号施加强度差。可以对每个信号施加逆FFT，以产生时域呈现的输出信号。

具体地参见图9，在方框902处，接收立体声采样块。立体声采样块可以包括左和右音频信号。在方框904处对采样块施加窗函数904。可以选择任何适合的窗函数，例如，汉明窗或哈宁窗。在方框906处针对每个声道计算快速傅立叶变换(FFT)，以产生频域信号，并且在方框908处从每个声道的频域信号中提取幅度和相位信息。

可以通过改变频域信号的相位角在频域中完成针对ITD效果的相位延迟。类似地，可以通过两个声道之间的扫调(panning)来完成针对两个声道之间的IID效果的幅度改变。因此，在方框910和912处计算频率相关角度和扫调。这些角度和扫调增益值可以至少部分基于深度估计器320或520输出的控制信号。例如，来自深度估计器520的、对左声道是主导加以指示的主导控制信号可以使频率相关扫调计算在要扫调到左声道的一系列采样上的增益。同样，RMS(L-R)’信号等可以用于计算相位变化，如改变的相位角时中所反映的。

在方框914处使用旋转变换(例如，使用极坐标复值相移)对频域信号应用相位角和扫调变化。在方框916处在每个信号中更新幅度和相位信息。然后在方框918处，将幅度和相位信息从极坐标复值形式转换到笛卡尔复值形式，以实现逆FFT处理。在一些实施例中根据FFT算法的选择，可以省略这种去转换步骤。

在方框920处针对每个频域信号计算逆FFT。然后在方框922处使用交叠相加合成将立体声采样块与在前的立体声采样块相组合，然后在方框924处输出。

III.视频深度估计实施例

图10A和10B示出了可以用于估计深度的视频帧1000的示例。在图10A中，视频帧1000A绘制了来自视频的彩色场景。已经选择了简化的场景来更方便地示出深度映射，尽管从所示的具体视频帧1000A中的任一对象可能不发出音频。基于彩色视频帧1000A，可以使用当前可用的技术来创建灰度级深度图，如图10B中的灰度级帧1000B所示。灰度级图像中像素的亮度反映图像中像素的深度，其中较暗像素反映较大深度，并且较亮像素反映较小深度(这些惯例可以反转)。

对于任何给定的视频，深度估计器(例如，320)可以获得针对视频中一个或更多个帧的灰度级深度图，并且可以向深度呈现器(例如，330)提供对帧中深度的估计。深度呈现器可以呈现与视频中显示具体帧的时间对应的音频信号中的深度效果，其中对于该具体帧已经获得了深度信息(参见图11)。

图11示出了可以用于根据视频数据估计深度的深度估计和呈现算法1100的实施例。算法1100接收视频帧的灰度级深度图1102以及谱扫调音频深度图1104。可以选择音频深度图1104中与播放视频帧的时间相对应的时刻。相关器1110可以将从灰度级深度图1102获得深度信息与从谱扫调音频图(或L-R、L和/或R信号)获得的深度信息相组合。该相关器1110的输出可以是控制深度呈现器1130(或330或630)的深度呈现的一个或更多个深度导引信号。

在某些实施例中，深度估计器(未示出)可以将灰度级深度图划分成区域，例如，象限、二等分等。深度估计器然后可以分析区域中的像素深度，以确定哪个区域是主导。如果左区域是主导，则例如深度估计器可以产生使深度呈现器1130加重左信号的导引信号。深度估计器可以如上所述结合音频导引信号(参见图5)产生该导引信号，或者不使用音频信号而单独地产生该导引信号。

图12示出了基于视频数据的深度的示例分析曲线1200。在曲线1200中，峰值反映图11的视频图与音频图之间的相关。随着这些峰值的位置随时间变化，深度估计器可以相应地对音频信号去相关，以加重视频和音频信号中的深度。

IV.环绕处理实施例

如上关于图3A所述，向可选的环绕处理模块340a提供深度呈现的左和右信号。如上所述，环绕处理器340a可以使用以上合并的美国专利No.7,492,907中描述的一个或更多个感知曲线等加宽声级，从而加宽最佳听音位置并增加深度感。

在一个实施例中，控制信号之一，L-R信号(或其归一化包络)可以用于调制环绕处理模块所应用的环绕处理(参见图5)。由于L-R信号的较大幅度可以反映较大深度，因此当L-R相对较大时可以应用较多环绕处理，并且当L-R相对较小是可以应用较少环绕处理。可以通过调节施加于感知曲线的增益值来调节环绕处理。调节环绕处理的量可以减轻在音频信号中存在很少深度时应用过多环绕处理的可能的不利影响。

图13至16示出了环绕处理器的实施例。图17和18示出了环绕处理器可以用于创建虚拟环绕效果的感知曲线的实施例。

转向图13，示出了环绕处理器1340的实施例。环绕处理器1340是上述环绕处理器340的更详细实施例。环绕处理器1340包括：解码器1380，可以是无源矩阵解码器；圆形环绕解码器(参见题为“5-2-5MatixSystem”的美国专利No.5,771,295，其全部公开通过引用合并于此)等。解码器138可以将左和右输入信号(例如，从深度呈现器330a接收到的)解码成可以利用一个或多尔感知曲线滤波器1390来环绕处理的多个信号。在一个实施例中，解码器1380的输出包括左信号、右信号、中央信号和环绕信号。环绕信号可以包括左环绕和右环绕二者，或者仅包括单个环绕信号。在一个实施例中，解码器1380通过对L和R信号进行求和(L+R)来合成中央信号，并且通过从L中减去R(L-R)来合成后部环绕信号。

一个或更多个感知曲线滤波器1390可以向解码器1380输出的信号提供宽广度增强，这可以加宽最佳听音位置，用于深度呈现，如上所述。如所示，可以基于L-R差信息调制或调节这些滤波器1390提供的宽广度和感知效果。该L-R差信息可以是根据以上关于图5描述的包络、平滑和/或归一化效果而处理的L-R差信息。

在一些实施例中，可以与深度呈现无关地使用环绕处理器1340提供的环绕效果。左和右信号的差信息对该环绕效果的调制可以与深度呈现无关地增强声音效果的质量。

在可以结合本文描述的系统和方法来实现以下美国专利中描述了关于感知曲线和环绕处理器的更多信息：题为″Multi-Channel AudioEnhancement System For Use In Recording And Playback And MethodsFor Providing Same″的美国专利No.7,492,907、题为″Multi-ChannelAudio Enhancement System″的美国专利No.8,050,434、以及题为″AudioEnhancement System for Use in a Surround Sound Environment″的美国专利No.5,970,152，其全部公开通过引用合并于此。

图14示出了环绕处理器1400的更详细实施例。环绕处理器1400可以用于实现上述环绕处理器(例如，环绕处理器1340)的任一特征。为了便于示意，没有示出解码器。取而代之，向环绕处理器1400提供音频输入ML(左前)、MR(右前)、中央(CIN)、可选的亚低音扬声器(B)、左环绕(SL)、和右环绕(SR)，环绕处理器1400对音频输入的各种混合施加感知曲线滤波器1470、1406和1420。

将信号ML和MR馈送到由音量调节信号Mvolume控制的对应的增益调节乘法器1452和1454。可以通过由信号Mvolume控制的第一乘法器1456和由中央调节信号Cvolume控制的第二乘法器1458来调节中央信号C的增益。类似地，首先将环绕信号SL和SR馈送至由音量调节信号Svolume控制的相应乘法器1460和1462。

将主要的左前和右前信号ML和MR分别馈送到求和节点1464和1466。求和节点1464具有接收MR的反相输入和接收ML的非反相输入，反相输入和非反相输入结合以沿着输出路径1468产生ML-MR。将信号ML-MR馈送至由传递函数P1表征的感知曲线滤波器1470。在感知曲线滤波器1470的输出处将经处理的差信号传送至增益调节乘法器1472。增益调节乘法器1472可以施加以上关于图5描述的环绕缩放536设定。因此，可以基于L-R信号中差信息来调制感知曲线滤波器1470的输出。

可以将乘法器1472的输出直接馈送至左混合器1480和反转器1482。将反转的差信号(MR-ML)p从反转器1482传输至右混合器1484。和信号ML+MR从节点1466输出，并且被馈送至增益调节乘法器1486。增益调节乘法器1486还施加以上关于图5描述的环绕缩放536设定或一些其他增益设定。

将乘法器1486的输出馈送至将中央声道信号C与信号ML_MR相加的求和节点。组合的信号ML+MR+C存在于节点1490，并且引导至左混合器1480和右混合器1484二者。最后，原始信号ML和MR在被传输至混合器1480和1484之前首先分别经由固定增益调节部件(例如，放大器1490和1492)馈送。

环绕左和右信号SL和SR分别从乘法器1460和1462输出，并且分别被馈送至求和节点1400和1402。求和节点1401具有接收SR的反相输入和接收SL的非反相输入，反相输入和非反相输入组合以沿着输出路径1404产生SL-SR。根据是产生和信号还是差信号，所有求和节点1464、1466、1400和1402可以被配置为反相放大器或非反相放大器。反相和非反相放大器均可以根据本领域技术人员公知的原理由普遍运算放大器来构造。将信号SL-SR馈送至由传递函数P2表征的感知曲线滤波器1406。

在感知曲线滤波器1406的输出处将经处理的差信号(SL-SR)p传送至增益调节乘法器1408。增益调节乘法器1408可以施加以上关于图5描述的环绕缩放536设定。该环绕缩放536设定可以与乘法器1472施加的设定相同或不同。在另一实施例中，乘法器1408可以省略或者依赖于环绕缩放536设定以外的其他设定。

将乘法器1408的输出直接馈送至左混合器1480和反转器1410。可以将反转的差信号(SR-SL)p从反转器1410传输至右混合器1484。和信号SL+SR从节点1402输出，并且被馈送至由传递函数P3表征的分离的感知曲线滤波器1420。在感知曲线滤波器1420的输出处将经处理的和信号(SL+SR)p传送至增益调节乘法器1432。增益调节乘法器1432可以施加以上关于图5描述的环绕缩放536设定。这种环绕缩放536设定可以与乘法器1472、1408施加的设定相同或不同。在另一实施例中，乘法器1432可以省略或者依赖于除了环绕缩放536设定以外的其他设定。

尽管参照和信号以及差信号，但是应当注意，对实际和信号以及差信号的使用仅是代表性的。不管一对信号的环境和单声分量是如何隔离的，均能够实现相同的处理。可以将乘法器1432的输出直接馈送至左混合器1480和右混合器1484。同样，原始信号SL和SR在被传输至混合器1480和1484之前首先分别经由固定增益放大器1430和1434馈送。最后，经由放大器1436馈送低频效果声道B，以创建输出的低频效果信号BOUT。可选地，如果无亚低音扬声器可用，则可以混合低频声道B作为输出信号LOUT和ROUT的一部分。

此外，感知曲线滤波器1470以及感知曲线滤波器1406和1420可以采用多种音频增强技术。例如，感知曲线滤波器1470、1406和1420可以使用时延技术、相移技术、信号均衡或所有这些技术的组合来实现期望的音频效果。

在实施例中，环绕处理器1400以独有方式调整一组多声道信号，以通过两个输出信号LOUT和ROUT的回放提供环绕声体验。具体地，通过将这些信号中存在的环境信息隔离来一并处理信号ML和MR。环境信号分量表示一对音频信号之间的差。因此从一对音频信号中导出的环境信号分量通常被称作“差”信号分量。尽管将感知曲线滤波器1470、1406和1420示出和描述为产生和信号以及差信号，但是感知曲线滤波器1470、1406和1420的其他实施例可以根本无区别地产生和信号以及差信号。

除了对5.1环绕音频信号源的处理以外，环绕处理器1400还可以自动处理具有更少离散音频声道的信号源。例如，如果环绕处理器1400输入Dolby Pro-Logic信号或无源矩阵解码信号(参见图13)，例如，其中SL＝SR，则在一个实施例中仅感知曲线滤波器1420可以操作来修改后部声道信号，这是因为在节点1400处将不产生环境分量。类似地，如果仅存在双声道立体声信号ML和MR，则环绕处理器1400操作以通过感知曲线滤波器1470的操作根据仅两个声道来创建空间增强的收听体验。

图15示出了可以由本文描述的任一环绕处理器实现的示例感知曲线1500。这些感知曲线1500在一个实施例中是由图14的感知曲线滤波器1470实现的正面感知曲线。图15绘制了输入1502，-15dBFS的对数扫频，并且还绘制了轨迹1504、1506和1508，轨迹1504、1506和1508示出了所显示的频率范围上感知曲线滤波器的示例幅度响应。

尽管在整个20Hz至20kHz频率范围上示出了图15中轨迹所示的响应，但是在某些实施例中这些响应不需要提供在整个可听范围上。例如，在某些实施例中，频率响应的一些可以截取至例如40Hz至10kHz范围，而具有较小或没有功能损失。也可以为频率响应提供其他范围。

在某些实施例中，轨迹1504、1506和1508示意了上述一个或更多个感知滤波器(例如，正面或(可选的)后部感知滤波器)的示例频率响应。这些轨迹1504、1506和1508基于图5的环绕缩放536设定表示感知曲线滤波器的不同等级。环绕缩放536设定的较大幅度可以引起较大的幅度曲线(例如曲线1404)，而环绕缩放536设置的较小幅度可以引起较小幅度曲线(例如，1406或1408)。所示的实际幅度仅是示例并且可以改变。此外，在某些实施例中可以基于环绕缩放值536来选择多于三个的不同幅度。

更具体地，轨迹1504开始于约20Hz处的大约-16dBFS，并且在大约100Hz处增加到大约-11dBFS。其后，轨迹1504在大约2kHz处减小到大约-17.5dBFS，然后在大约15kHz处增加到大约-12.5dBFS。轨迹1506开始于大约20Hz处的大约-14dBFS，并且在大约100Hz处增加到大约-10dBFS，并且在大约2kHz处减小到大约-16dBFS，在大约15kHz处增加到大约-11dBFS。轨迹1508开始于大约20Hz处的大约-12.5dBFS，并且在大约100Hz处增加到大约-9dBFS，并且在大约2kHz处减小到大约-14.5dBFS，在大约15kHz处增加到大约-10.2dBFS。

如所绘制的轨迹1504、1506和1508的实施例所示，感知滤波器对大约2kHz范围中的频率去加重，并且感知滤波器对大约100Hz和大约15kHz处的频率加重。在某些实施例中可以改变这些频率。

图16示出了可以由本文描述的任一环绕处理器实现的感知曲线1600的另一示例。在一个实施例中这些感知曲线1600是后部感知曲线，并且可以由图14的感知曲线滤波器1406或1420来实现。如在图15中，示出了输入对数频率扫频1610，产生两个不同感知曲线滤波器的输出轨迹1620、1630。

在一个实施例中，感知曲线1620与应用于环绕差信号的感知曲线滤波器相对应。例如，感知曲线1620可以由感知曲线滤波器1406来实现。感知曲线1620在某些实施例中与应用于环绕和信号的感知曲线滤波器相对应。例如，感知曲线1630可以由感知曲线滤波器1420来实现。曲线1620、1630的有效幅度可以基于上述环绕缩放536设定而改变。

更具体地，在所示的示例实施例中，曲线1620在大约-10dBFS处具有近似平坦的增益，该增益衰减到大约2kHz和大约4kHz之间(或者近似在2.5kHz和3kHz之间)出现的波谷。从该波谷开始，曲线1620幅度增大，直到大约11kHz处或者在出现峰值的大约10kHz和12kHz之间。在该峰值之后，曲线1620再次衰减，直到大约20kHz或更小处。曲线1630具有类似的结构，但是峰值和波谷较不明显，曲线平坦直到在大约3kH处(或在大约2kHz和4kHz之间)出现波谷，并且在大约11kHz处(或在大约10kHz和12kHz之间)出现峰值，衰减到大约20kHz或更小。

所示的曲线仅是示例并且在不同实施例中可以改变。例如，高通滤波器可以与曲线相结合，以将平坦的低频响应改变成衰减的低频响应。

V.术语

根据本公开本文描述以外的许多其他变型将变得显而易见。例如，根据实施例，本文所描述的任一算法的特定动作、事件或功能可以以不同的顺序执行，可以一起添加、合并或省去(例如，并非所有描述的动作或事件对于算法的实践而言都是必要的)。此外，在一些实施例中，可以例如通过多线程处理、中断处理或多处理器或处理器核或在其它并行体系结构上并发地执行动作或事件，而非顺序地执行。此外，不同的任务或处理可以由能够一起工作的不同机器和/或计算系统来执行。

可以将结合本文公开的实施例描述的各种说明性逻辑块、模块和算法步骤实现为电子硬件、计算机软件或其结合。为了清楚地说明硬件和软件的可互换性，上文总体上已经从功能方面描述了各种说明性部件、块、模块和步骤。将这些功能实现为硬件还是软件取决于具体应用和施加至整个系统上的设计约束。对于每个具体应用，可以不同的方式实现所描述的功能，但是这种实现决策不应该解释为背离本公开的范围。

结合本文公开的实施例描述的各种说明性逻辑块和模块可以通过如下的机器来实现或执行：设计成执行本文所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑电路、分立硬件部件、或其任意组合。通用处理器可以是微处理器，但是备选地，处理器可以是控制器、微控制器或状态机、其组合等。处理器还可以被实现为计算设备的组合(例如，DSP和微处理器的组合)、多个微处理器、结合DSP核的一个或多个微处理器、或任意其它这种配置。尽管本文主要关于数字技术进行描述，但是处理器还可以包括主模拟部件。例如，本文描述的任一信号处理算法可以在模拟电路中实现。计算环境可以包括任何类型的计算机系统，包括但不限于基于微处理器的计算机系统、主机计算机、数字信号处理器、便携式计算设备、个人组织器、设备控制器和设备内的计算引擎，仅举几个例子。

结合本文公开的实施例来描述的方法、处理或算法的步骤可以在硬件、处理器执行的软件模块或其组合中直接实现。软件模块可以驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可拆卸盘、CD-ROM或现有技术中已知的任意其它形式的计算机可读存储介质中。示例存储介质可以与处理器耦合，使得处理器可以从存储介质读取信息，以及将信息写入存储介质。备选地，存储介质可以是处理器的组成部分。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。备选地，处理器和存储介质可以作为用户终端中的分立部件。

本文使用的条件语言，其中例如“能够”、“可能”、“可以”、“等等”等，除非特别声明或在使用时结合上下文来理解，否则一般旨在表示某些实施例包括而其它实施例没有包括的一些特征、元件和/或状态。因此，这种条件语言一般并非旨在暗示以任意方式需要用于一个或多个实施例，或者暗示在具有或没有发明人输入或提示的情况下，一个或多个实施例有必要包括下述逻辑：用于决定这些特征、元件和/或状态是否应该被包括在任意特定实施例中或者在任意特定实施例中被执行。术语“包括”、“包含”、“具有”等是同义的，并且以开放方式包括地使用，并且不排除附加元件、特征、动作、操作等。同义术语“或”使用在其包括意义中(并且不在其排他意义中)，使得当例如用于连接元件列表时，术语“或”意味着列表中一个、一些或所有元件。

尽管以上的详细描述已经示出、描述和指出了所应用到各种实施例的新颖特征，但是应该理解，可以在不背离本公开的精神的情况下，对所示意的设备或算法进行各种形式和细节上的省略、替换和改变。应认识到，本文描述的本发明的一些实施例可以在不提供本文所述的全部特征和益处的形式来实现，因为一些特征可以与其他特定分开使用或实践。

Claims

1.一种对施加于音频信号的感知增强进行调制的方法，所述方法包括：

接收左音频信号和右音频信号，其中左音频信号和右音频信号各自包括与声源相对于收听者的空间位置有关的信息；

计算左音频信号和右音频信号中的差信息；

对左音频信号和右音频信号中的差信息应用至少一个感知滤波器，以获得左输出信号和右输出信号；以及

对左输出信号和右输出信号施加增益，该增益的值至少部分基于计算的差信息；

其中，通过一个或更多个处理器执行至少所述施加增益。

2.根据权利要求1所述的方法，还包括：执行以下中的一个或更多个：检测差信息的包络，以及平滑差信息。

3.根据权利要求2所述的方法，其中，所述调制包括：至少部分基于差信息的包络和经平滑的差信息之一或二者，调制所述至少一个感知滤波器的应用。

4.根据权利要求1、2或3所述的方法，还包括：至少部分基于左音频信号和右音频信号的信号电平，归一化差信息。

5.根据权利要求4所述的方法，其中，所述调制包括：至少部分基于归一化的差信息，调制所述至少一个感知滤波器的应用。

6.根据权利要求4或5所述的方法，其中，所述归一化包括：计算左音频信号和右音频信号的几何均值并且用差信息除以计算的几何均值。

7.根据权利要求1至6中任一项所述的方法，还包括：对左输出信号和右输出信号施加串扰消除，以降低回波串扰。

8.根据权利要求1至7中任一项所述的方法，还包括：在应用所述至少一个感知滤波器之前，至少部分基于差信息对左音频信号和右音频信号施加深度呈现增强。

9.根据权利要求8所述的方法，其中，所述对左音频信号和右音频信号施加深度呈现增强包括将左音频信号与右音频信号去相关。

10.一种对施加于音频信号的感知增强进行调制的系统，所述系统包括：

信号分析部件，配置为至少通过以下操作对多个音频信号进行分析：

接收左音频信号和右音频信号，其中左音频信号和右音频信号各自包括与声源相对于收听者的空间位置有关的信息，并且

从左音频信号和右音频信号获得差信号；以及

包括一个或更多个物理处理器的环绕处理器，所述环绕处理器配置为对差信号应用至少一个感知滤波器，以获得左输出信号和右输出信号，其中至少部分基于计算的差信息来调制所述至少一个感知滤波器的输出。

11.根据权利要求10所述的系统，其中，信号分析器还配置为至少执行以下中的一个或更多个：检测差信号的包络，以及平滑差信号。

12.根据权利要求11所述的系统，其中，环绕处理器还配置为，至少部分基于差信号的包络和经平滑的差信号之一或二者，执行所述调制。

13.根据权利要求10、11或12所述的系统，其中，信号分析器还配置为，至少部分基于左音频信号和右音频信号的信号电平，归一化差信号。

14.根据权利要求13所述的系统，其中，环绕处理器还配置为，至少部分基于归一化的差信号执行所述调制。

15.根据权利要求13或14所述的系统，其中，信号分析器还配置为，通过至少计算左音频信号和右音频信号的几何均值并且用差信号除以计算的几何均值，来归一化差信号。

16.根据权利要求10至15中任一项所述的系统，还包括：串扰消除器，配置为对左输出信号和右输出信号施加串扰消除。

17.根据权利要求10至16中任一项所述的系统，还包括：深度呈现部件，配置为在应用所述至少一个感知滤波器之前，至少部分基于差信号在左音频信号和右音频信号中呈现深度。

18.根据权利要求17所述的系统，其中，所述深度呈现部件还配置为通过至少将左音频信号与右音频信号去相关来呈现深度。

19.一种非暂时物理计算机存储器，包括其中存储的指令，配置为在一个或更多个处理器中实施对施加于音频信号的感知增强进行调制的操作，所述操作包括：

计算左音频信号和右音频信号中的差信息；

对左音频信号和右音频信号中的每一个应用至少一个感知滤波器，以获得左输出信号和右输出信号；并且

至少部分基于计算的差信息对所述至少一个感知滤波器的所述应用进行调制。

20.一种对施加于音频信号的感知增强进行调制的系统，包括：

用于接收左音频信号和右音频信号的装置，其中，左音频信号和右音频信号各自包括与声源相对于收听者的空间位置有关的信息；

用于计算左音频信号和右音频信号中的差信息的装置；

用于对左音频信号和右音频信号中的每一个应用至少一个感知滤波器的装置；以及

用于至少部分基于计算的差信息对所述至少一个感知滤波器的所述应用进行调制的装置。