CN102726066A

CN102726066A - 空间声音再现

Info

Publication number: CN102726066A
Application number: CN2011800081380A
Authority: CN
Inventors: A.S.赫梅; W.P.J.德布鲁恩
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2010-02-02
Filing date: 2011-01-26
Publication date: 2012-10-10
Anticipated expiration: 2031-01-26
Also published as: RU2012137189A; WO2011095913A1; US9282417B2; EP2532178A1; US20120328109A1; JP2013519253A; RU2559713C2; JP6013918B2

Abstract

用于空间声音再现的设备包括用于接收多声道音频信号的接收机（101）。分析器（107）确定多声道音频信号的空间属性，诸如空间复杂度或组织。选择处理器（109）随后从多种声音再现模式中选择再现模式，其中这些多声道声音再现模式采用不同的空间渲染技术。再现电路（103）随后驱动一组扩音器（105），以便使用所选择的再现模式来再现多声道音频信号。在这些再现模式之间的切换可能是快速的（例如，以100毫秒到10秒的量级），从而允许再现模式对于信号特性的短期适应。该方案可以特别地给收听者提供改善的空间体验。

Description

空间声音再现

技术领域

本发明涉及空间声音再现，并且特别地但是不完全涉及包括多声道音频信号的上混和（upmixing）的空间声音再现。

背景技术

采用立体声录音和再现形式的空间声音再现已经出现了几十年。在过去的几十年中，已使用更先进的安排和信号处理来提供改善的空间聆听体验。特别地，使用例如5或7个空间扬声器的环绕声音的使用已成为流行来与例如电影或电视的观看相结合提供增强的体验。此外，诸如“声音吧（sound bar）”之类的紧凑型多驱动器扩音器（loudspeaker）系统已变成为对于传统的立体声和5.1系统而言受欢迎的选择。这些设备甚至从小型设备中为收听者提供宽阔空间声像的体验。这是基于信号的数字处理和设备的特殊物理安排。

空间声音处理越来越多地利用高级的信号处理作为声音再现的一部分来提供改善的空间体验。例如，复杂的算法可以用于将音频信号上混合到更高数量的声道（channel）。例如，5声道环绕信号可以在发射端上被下混合（downmix）为立体声或单声道信号。这个信号随后被分发，并且声音再现包括将接收到的信号上混合为原始的5声道信号。

作为另一示例，信号处理可以用于对立体声信号提供声音展宽效应，导致收听者体验更宽阔的声场（sound stage）。通常，这些方法基于减小声道之间相关性的信号处理操作。这些技术在上面提到的紧凑型扩音器系统中是特别流行的。

作为另一示例，空间信号的再现可以包括在例如立体声信号中主导（dominating）声源的提取。剩余的残留信号将通常对应于更加扩散的环境立体图像。主导信号和环境信号随后可以不同地进行再现，以致再现特性对于每一个信号被优化。

然而，虽然这样的空间声音再现技术改善聆听体验，但是往往具有一些相关联的缺陷。特别地，再现可能无法在所有情况中提供最佳的空间体验，并且信号处理可能在一些情况中实际上导致降级的空间体验。

因此，用于空间声音再现的改善系统将是有利的，并且特别地，虑及增加灵活性、便利操作、便利实现、改善空间聆听体验和/或改善性能的系统将是有利的。

发明内容

因此，本发明寻求单独地或以任何组合来优选地缓解、减轻或消除上述缺陷中的一个或多个缺陷。

根据本发明的方面，提供一种用于空间声音再现的设备，该设备包括：用于接收多声道音频信号的接收机；用于确定多声道音频信号的空间属性的电路；用于从多种声音再现模式中选择所选择的再现模式的电路，这些多声道声音再现模式采用不同的空间渲染（rendering）技术；和再现电路，用于驱动由一组扩音器提供的一组空间声道，以便使用所选择的再现模式来再现多声道音频信号。

本发明可以在许多实施例中提供改善的声音再现。特别地，在许多情景中可以提供改善的空间体验。通常，可以针对特定的音频信号来改善空间再现。该方案在许多实施例中可以进一步允许低复杂度实现和便利的操作。

可以针对在保持低复杂度的同时所经历的特定条件来优化适当再现方法的选择。

空间属性可以指示信号的空间组织和/或空间复杂度。例如，空间属性可以根据合适的标准或用于提取主导声源的处理来指示一个或多个主导声源的存在。在一些实施例中，空间属性可以指示声源在利用多声道信号表示的声像中的空间分布。

该组扩音器可以特别地是包括例如3、5或7个空间扬声器（有可能除了非空间低频效果扬声器或低音炮之外）的环绕声设置的扩音器。该组扩音器可以是多驱动器扩音器系统，其中一般三个或更多个别驱动的扩音器（或扩音器阵列）在一个物理设备中。该组扩音器也可以包括多个这样的设备。

根据本发明的可选特征，这些声音再现模式中的至少一种声音再现模式包括以下之中的至少一个：上混合至比多声道音频信号的声道数量更高数量的空间声道；和下混合至比多声道音频信号的声道数量更低数量的空间声道。

本发明可以提供改善的空间体验。例如，立体声信号中的一些声像当被再现为单声道信号时可以提供改善的空间体验。立体声信号中的其他声像当被再现为与中央信号组合的展宽的立体声信号时即在使用三个空间声道再现时可以提供改善的空间体验。

根据本发明的可选特征，该组空间声道包括数量与多声道音频信号不同的声道。

本发明可以为声音再现系统提供改善的空间体验并且可以特别地在使得声音再现适应于特定的声像和空间特性时允许附加的自由度。

根据本发明的可选特征，用于在声音再现模式之间切换的最大切换频率超过1Hz。

这可以提供动态适应（adaptation）和优化，其可以密切匹配音频的变化特性，从而提供改善的聆听体验。

该特征可以允许再现模式对于音频信号的改善性能和改善适应，从而提供增强的聆听体验。该方案可以允许再现对于信号特性的短期适应。

在一些实施例中，用于在再现模式之间切换的最大切换频率可以超过0.01Hz、0.1Hz或甚至10Hz。

最大切换频率可以是该设备能够在再现模式之间切换的最大频率。最大频率可以利用该系统的包括空间属性估计和切换功能的特性的设计参数来限制。

根据本发明的可选特征，用于确定空间属性的电路被安排为利用不超过10秒的时间常数来确定空间属性。

这可以提供可能密切匹配音频的变化特性的动态适应和优化，从而提供改善的聆听体验。

在一些实施例中，用于确定空间属性的电路可以有利地被安排为利用小于500秒、100秒、1秒、500毫秒、100毫秒或甚至50毫秒的时间常数来确定空间属性。

时间常数表示空间属性在阶跃变化之后达到其最终（渐近）值的1-1/e•63%所耗费的时间。

在一些实施例中，用于确定空间属性的电路被安排为包括空间属性的低通滤波，该低通滤波具有超过0.001Hz、0.01Hz、0.1Hz、1Hz、10Hz或50Hz的3dB截止频率。

根据本发明的可选特征，多种声音再现模式包括以下之中的至少一个：单声道再现（monophonic reproduction）模式；保持多声道信号的空间特性的再现模式；包括空间展宽处理的再现模式；和包括分离成至少一个主导源信号和环境信号并且应用至少一个主要源信号和环境信号的不同空间再现的再现模式。

这些再现技术可能是特别有利的，并且适于对于不同的音频特性提供改善的聆听特性。在许多实施例中，多种声音再现模式可以有利地包括两种、三种或所有四种再现模式，因为这些模式特别适于不同的特性，并因而一起提供一组为大范围的音频特性提供改善再现的模式。这些技术可以特别地一起为宽范围的音频信号提供合适的再现特性。

根据本发明的可选特征，该设备进一步包括：用于为多声道音频信号确定内容特性的电路；和其中用于选择的电路被安排为响应于内容特性来进一步选择所选择的再现算法。

这在许多实施例中可以进一步改善再现的适应和提供改善的空间体验。内容特性可以例如通过多声道音频信号和/或相关联的视频信号的内容分析来确定。

根据本发明的可选特征，用于确定内容特性的电路被安排为响应于与多声道音频信号相关联的元数据来确定内容特性。

这可以提供在许多实施例中可能是有利的特别精确和低复杂度方案。

根据本发明的可选特征，用于再现多声道音频信号的电路被安排为响应于内容特性来适配所选择的再现模式的空间渲染技术的特性。

这在许多实施例中可以进一步改善再现的适应和提供改善的空间体验。

根据本发明的可选特征，用于再现多声道音频信号的电路被安排为响应于空间属性来适配所选择的再现模式的空间渲染技术的特性。

根据本发明的可选特征，空间处理特性是应用于多声道音频信号的至少两个声道的空间展宽的程度。

这可以提供特别有利的优化，因为空间展宽可以为一些音频特性提供显著增强的空间体验，但是可能降级对于其他音频特性的空间体验。因此，空间展宽对于音频特性的优化可以提供特别有利的性能。

根据本发明的可选特征，用于再现多声道音频信号的电路被安排为从第一选择的再现算法逐步过渡到第二选择的再现算法。

这可以提供改善的性能并且可以特别地减小在不同再现模式之间改变的显著性（noticeability）。该设备可以特别地被安排为：在过渡间隔期间使用第一选择的再现算法和第二选择的再现算法二者来为该组扩音器生成驱动信号，以及利用作为驱动信号的加权组合而生成的信号来驱动该组扩音器，其中加权在过渡间隔期间动态地被改变。

根据本发明的可选特征，用于确定空间属性的电路被安排为确定空间属性，以响应相对于用于至少两个声道的差信号的能量指示而言的用于多声道音频信号的至少两个声道的组合信号的能量指示。

这对于适配空间再现而言可能是特别有利的空间属性。特别地，这对于许多情景而言可以在精确度与复杂度之间提供有利的权衡。

根据本发明的可选特征，用于确定空间属性的电路被安排为将多声道音频信号分解成至少一个主导声源信号和残留信号，并且确定空间属性，以响应相对于用于残留信号的能量指示而言的用于主导声源信号的能量指示。

根据本发明的方面，提供一种空间声音再现的方法，该方法包括：接收多声道音频信号；确定多声道音频信号的空间属性；从多种声音再现模式中选择所选择的再现模式，这些多声道声音再现模式采用不同的空间渲染技术；和驱动一组扩音器，以便使用所选择的再现模式来再现多声道音频信号。

本发明的这些与其他方面、特征和优点从下文描述的（一个或多个）实施例中将是显然的，并且本发明的这些与其他方面、特征和优点将参考下文描述的（一个或多个）实施例来阐述。

附图说明

本发明的实施例将参考附图仅通过示例来描述，其中：

图1是根据本发明的一些实施例的用于空间声音再现的系统的示例的图解；

图2是根据本发明的一些实施例的用于空间声音再现的系统的元素的示例的图解；和

图3是根据本发明的一些实施例的用于空间声音再现的系统的示例的图解。

具体实施方式

以下描述集中于可应用于使用上混合到三个声道的立体声信号的空间声音再现的本发明的实施例。然而，将意识到：本发明并不局限于这种应用，而可以应用于许多其他的音频信号和再现方法。

图1示出根据本发明的一些实施例的用于再现声音的系统的示例。该系统包括接收机101，其接收包括多个音频声道的空间音频信号。在该示例中，输入信号是立体声信号，但是将意识到：在其他的实施例中，可以采用其他数量的声道。例如，输入信号可以是五声道环绕声输入信号。在一些情景中，输入信号可以是编码的信号，并且接收机101可以被安排为部分或全部解码输入信号，以便由该系统进一步处理。例如，对于每一个编码段（segment），输入信号的频率表示可以作为编码方案所采用的中频表示来生成。也将意识到：输入信号的多个声道可以利用单个编码的音频信号和相关联的参数数据来表示。例如，多声道输入信号可以是编码的单声道信号和空间参数数据。作为特例，输入信号可以是参数立体声（Parametric Stereo）信号。

可以从任何内部或外部源中接收输入多声道音频信号。

接收机101耦合到驱动电路103，其中驱动电路103从接收机101接收多声道（在该特定示例中，立体声信号）。驱动电路103为一组扩音器105生成驱动信号。该组扩音器提供许多空间声道。在该示例中，这些扩音器提供左声道、右声道和中置声道，但是将意识到：在其他实施例中，可以提供更多（或更少）空间声道。例如，在一些实施例中，这些扩音器可以只提供左和右声道。在其他实施例中，全环绕系统配备有例如五或七个空间声道。

在一些示例中，由该组扩音器105中的扬声器提供的空间声道的数量可以等于多声道信号中的声道的数量。然而，在该示例中，由该组扩音器105提供的空间声道的数量高于多声道信号中的声道的数量。在该示例中，驱动电路103可以操作在一些再现模式中，这些再现模式包括将多声道信号的声道上混合至空间声道的数量。作为选择或此外，驱动电路103可以包括用于在至少一些再现模式中选择可用声道的子集的功能，其中该子集在不同的再现模式中是不同的。这些模式中的一种或多种模式可以进一步包括输入声道的下混合。例如，对于立体声输入信号，一种再现模式可以使用空间声道中的两个声道（例如，左和右声道）来提供输出，另一种再现模式可以仅使用一个空间声道（例如，中置声道），而还一种再现模式可以使用三个空间声道（例如，左、右和中置声道）。

在该特定示例中，该组扩音器105在空间布局中包括三个扩音器，从而提供三个空间声道。因而，该组扩音器105中的扬声器对应于左、右和中间扬声器。

该组扩音器因而被安排为提供空间体验。在一些实施例中，驱动电路103可能知道扩音器相对于聆听位置的确切定位，但是情况通常不是这样的，并且空间声音再现以假定的扩音器的定位为基础，正如从传统的环绕声和立体声系统中所获悉的。该组扩音器提供多个空间声道，例如，它们可以提供左、右和中央空间声道，这些声道用于向收听者提供空间体验。然而，该组扩音器无需针对每个声道具有单个独立扩音器。例如，该组扩音器可以包括扩音器阵列和相关联的驱动功能，以便使用音频波束形成技术来提供空间声道。因而，图1的该组扩音器105中的扩音器可以被感知为与给定的空间位置或声道相对应的虚拟扩音器。在一些实施例中，每一个虚拟扩音器可以对应于物理扩音器，但是这不是在所有的实施例中都是必要的。

驱动电路103被安排为在驱动扩音器105时使用不同的声音再现模式。不同的声音再现模式使用不同的空间渲染技术。因而，不同的声音再现模式可以应用不同的空间处理算法，并因而不同的声音再现模式具有不同的空间音频特性。例如，一种声音再现模式可以只使用单个扩音器105来呈现多声道信号（即，作为单声道再现），另一种再现模式可以在没有任何空间处理的情况下利用相应空间声道的信号来简单驱动每个扩音器，从而保持输入信号的空间特性。还一种再现模式可以将输入声道扩展（spread）到所有的扩音器上并引入空间展宽。因而，驱动电路103被设计成能够提供非常不同的空间处理和利用非常不同的属性来驱动该组扩音器105。实际上，不同的再现模式不仅对于给定的空间处理使用不同的参数设置，而且还应用不同的基本原理，并且尤其使用不同的空间处理算法和方法。

这样的各种再现模式可以允许由该系统提供非常不同的效果，并且可以允许收听者的空间体验的高可变性。然而，发明人已认识到：鉴于空间信号处理可以提供增强的体验，它在一些情况中也可能导致减少的空间体验。例如，对于不同的内容和信号特性来说，音频格式转换算法（诸如空间展宽、上混合、转换至单声道信号等等）对所感知的立体图像的影响可能是不同的。

例如，一种方法可以提供适合于动作电影场景的宽阔空间图像，但是相同的方法在新闻节目或具有单一乐器的音乐的情况中可能被感知为烦躁和模糊。即，可能适合于一种类型的内容的上混合或立体声展宽当被用于不同类型的内容时可能产生不需要的效果。

作为另一示例，当在立体声混合物（mixture）中没有清晰的中央声源时，目的在于从立体声信号中提取中置声道的上混合算法不可能总是最佳地工作。如果中置声道提取方法用于这样的内容，它可能导致立体图像的宽度减少。

允许终端用户手动地选择或调节再现模式可以允许这种敏感性被减轻，这是因为用户能够选择提供最令人愉快的空间体验的模式。然而，发明人已认识到：这样的解决方案可能通常是不实际的，因为它只允许缓慢且高度繁琐的适应。

解决方案可以是为每一种可能类型的音频定义再现模式。例如，对于新闻节目，使用一种特定的再现模式，对于电影，使用另一种特定的再现模式，等等。然而，发明人已认识到：由于优选的空间再现可能无法直接地被链接到特定类型的音频，所以这样的方案有可能是不准确的。

实际上，发明人已认识到：通过实现合适再现模式的动态的实时选择，时常能够实现实质上改善的体验。发明人已进一步认识到：通过基于输入信号的空间属性来实现这样的动态选择，能够获得有利的性能。因而，在图1的系统中，基于输入信号的空间属性来动态地选择再现模式。从而，获得再现模式对于输入信号中的特定变化的实时和快速适应。

这样的方案允许声音再现自动地且动态地适应于信号的当前特性，从而允许增强的聆听体验。该方案此外允许非常快速的适应，其允许再现模式针对当前特性和首选项来优化，而非针对例如特定类型的音频或该音频表示的特定节目类型的平均或预期特性来优化。例如，该方案允许再现模式在电影的音轨期间动态地且自动地改变，以致例如对话和动作声音二者利用对于那个特定声音而言最适合的再现算法来再现。例如，人们知道：空间图像时常在媒体项的持续时间上不断改变。例如，电影音频场景可以包含在宽阔的立体声音频场景与只有一个声源诸如演员的语音是可闻的时刻之间的交替（alternation）。在第一种情况中，期望立体图像是宽阔的和身临其境的，而在第二种情况中，对于语音而言具有清晰定位的空间位置，这是自然的。图1的系统提供再现模式的自动调节来反映这样的首选项。

特别地，图1的系统包括被安排为确定多声道音频信号的空间属性的分析器107。空间属性可以特别地是存在于输入信号中的空间组织或复杂度的指示。空间属性可以指示空间扩展的程度，并且可以特别地指示输入信号是利用一个或多个单个良好定义的声源来表征还是更多地利用没有强方向性提示的环境声音来表征。

分析器107耦合到选择处理器109，其中选择处理器被馈送空间属性并且被安排为从能够被驱动电路103使用的多种声音再现模式中选择再现模式。选择处理器109进一步耦合到驱动电路103，并且控制这个来使用所选择的再现模式。因而，在空间属性变化时，选择处理器109动态地且自动地在这些再现模式之间切换，以便对于当前特性提供最佳的再现处理。因而，实现改善的空间体验。

该系统特别地被安排为允许再现模式对于信号特性的短期适应。因而，可以允许快速切换，从而允许空间再现不仅在（长期）平均水平上被优化，而且也匹配更多的瞬时信号变化。

因此，分析器107被安排为以被低通滤波或被平均的空间属性的形式但是利用相对高的频率来生成估计。类似地，这些再现模式之间的实际切换可以利用相对高的频率来执行。因而，不是选择再现模式以及在例如整个节目中使用这个模式，图1的系统动态地适配再现模式，以匹配信号特性中的短期变化。

该系统的优选的动态特性可以取决于个别实施例的特定特性和首选项。

然而，在许多实施例中，特别有利的性能可以利用允许以其范围通常是从大约50毫秒到5分钟的间隔更新再现模式的系统来实现。确切的动态性质可以基于对于当前信号特性的适应的精确度和该系统的可靠性以及与不同模式之间的切换相关联的任何伪像（artefact）的程度之间的权衡来选择。

在许多实施例中，在确定空间属性时包括的低通滤波有利地取决于个别实施例的特定首选项而具有超过0.001Hz、0.01Hz、0.1Hz、1Hz、10Hz或50Hz的3dB截止频率。相应地，空间属性可以有利地利用小于500秒、100秒、10秒、1秒、500毫秒、100毫秒或甚至50毫秒的时间常数来确定。时间常数可以被定义为空间属性在阶跃变化之后达到其最终（渐近）值的1-1/e•63%所花费的时间。例如，空间属性可以跟踪或者取决于多声道信号的一个或多个空间特性。在保持所有其他参数恒定的同时这个空间特性的阶跃变化将导致空间属性的改变。用于确定空间属性的时间常数随后可以作为这个改变达到其最终（渐近）值的1-1/e•63%所花费的时间来测量。

类似地，切换可以根据类似的动态来安排。特别地，用于在再现模式之间切换的最大切换频率可以超出0.01Hz、0.1Hz、1Hz乃至10Hz。最大频率可以是由于确定空间属性和/或实际切换操作而可能的最快切换。因而，最大切换频率可以是该系统能够跟随（follow）的音频信号的基本空间特性中的最高频率变化。

在特定的实施例中，驱动电路103被安排为在四种不同的再现模式之间切换。

在第一种再现模式中，驱动电路103仅保持原始的立体声信号并且不引入任何空间修改。因而，这种操作模式保持多声道输入信号的空间特性。在特定示例中，立体声输入信号仅被再现为立体声信号，即，左输入声道被馈送至左扩音器，而右输入声道被馈送至右扩音器，并且没有信号被馈送至中央扩音器。因而，在这种再现模式中，驱动电路103提供原始音频声道的立体声（stereophonic）再现。

在第二种再现模式中，驱动电路103将输入信号再现为单声道信号。例如，两个立体声声道可以进行组合（例如，通过简单相加），并且所得到的单声道信号可以被馈送至中央扩音器，其中没有信号被馈送到左或右扩音器。因而，驱动电路103的第二种再现模式包括下混合输入信号并且是单声道再现模式。这样的再现模式在其中音频对应于诸如例如用于新闻节目的新闻播音员的单个中央放置的声源的情景中是特别有利的，等等。

在第三种再现模式中，驱动电路103被安排为引入空间展宽处理。在特定示例中，第三种再现模式包括将立体声展宽算法应用于输入立体声信号。这样的立体声展宽往往提供立体声声道的解相关（decorrelation），以便实现放大的空间图像的感知。将意识到：本领域技术人员将知晓各种空间展宽技术，并且能够使用任何适当的算法而无损于本发明。

这样的处理在声像由环境声音主导而非特定定位的声源主导时可能是特别有利的。例如，它在再现利用具有许多乐器的大型管弦乐队创作的音乐时可以提供增强的体验。

在第四种再现模式中，驱动电路103将输入信号分成一个或多个主要源信号，其中每一个主要信号寻求包括仅来自特定主导声源的声音。将意识到：技术人员将知道用于检测和提取主导声源的不同算法并且可以使用任何适当的算法而无损于本发明。驱动电路103进一步在提取（一个或多个）主导声源之后生成与该信号相对应的残留信号。在第四种再现模式中，输入立体声信号因而被分解成一个或多个主要声源信号和环境立体声或环绕信号。

主导声源信号和残留信号随后不同地进行处理，以致不同的空间处理应用于这些信号。作为简单示例，空间展宽可以应用于残留信号，但是不应用于主导声源信号。因而，主导声源的空间良好定义的定位不被修改，而对于通常与周围声音环境相对应的残留信号实现增强的声像。此外，主导声源信号可以例如存在于中央空间声道中，并且残留信号可以存在于左和右空间声道中。因而，在这种再现模式中，由该组扩音器提供的所有的空间声道被使用，并且该模式包括输入信号的上混合。

已提议用于从音频声道中估计空间源分布的方法。例如，在M. Goodwin和J-M. Jot于2007年3月在芬兰的AES 30th int. Conference发布的“Multichannel surround format conversion and generalized upmix”中提议一种用于从多声道音频数据中确定突出声源的方向和估计环境声级的方法。例如，在A. Härmä和C. Faller于2004年5月8-11日在德国柏林的AES 116th Convention发布的“Spatial decomposition of time-frequency regions: subbands or sinusoids”中研究用于估计多个声源在立体声混合物中的分布的两种其他方法。

第四种再现模式可能特别适合于例如是特定声源与环境声音或噪声之间的混合物的信号。

利用分析器107对输入信号中声源的空间分布进行的分析可以例如基于每一个声道内的音频能量的频率选择性分析和/或代表声道之间相似性的一些适当数值量度的变化的频率选择性分析。例如，分析器107可以使用与在MPEG环绕标准中使用的分析方法相类似的分析方法。因而，它们可以基于输入信号的子带分解以及不同声道中的频率子带之间的能量和协方差值的计算。然而，将意识到：可以使用许多其他的方案，例如，诸如与信号的参数表示相关的相关量度和/或表征不同声道之间相似性的互信息。

图2示出可以在图1的系统中使用的特定方案。

在该示例中，分析器107包括被馈送输入左和右信号的加法器201和减法器203。加法器将两个信号加在一起，而减法器203从一个信号中减去另一个信号。加法器201被馈送至第一能量估计器205，其中第一能量估计器计算由加法器201生成的和信号的信号能量。减法器203被馈送至第二能量估计器207，其中第二能量估计器测量由减法器生成的差信号的信号能量。第一和第二能量估计器205、207耦合到选择处理器109，其中选择处理器基于和与差能量的空间属性指示来选择再现模式。

因而，在该示例中，再现模式的选择基于左和右声道信号之间的和与差信号的计算以及这些信号的短时能量的比较。当和信号的能量显著大于差信号时，估计输入立体声信号实质上是单声道的。当和与差信号的能量在相同水平上或者差信号的能量大于和信号的能量时，输入信号被认为是常规的立体声音频信号。

因而，在每一个能量分析周期中的检测值可以利用下式来给定：

其中E_sum和E_diff分别是和信号与差信号的短时能量，而A是通常显著大于1的标量系数（例如，A=100）。

驱动电路103的操作并且特别地在不同再现模式之间的切换可以被实现为动态矩阵运算：

其中和

是原始的左和右立体声信号，n是用于数字信号的采样的索引。输出

、

和

分别是用于左、右和中央扬声器的驱动值。

因而，在该示例中，使用和信号与差信号的信号能量在使用中央扬声器的实质上单声道再现和使用左与右扬声器的立体声再现之间切换。

作为另一个示例，和与差运算可以利用更通用的运算来替代。例如，主导声源的方向可以通过主成分分析（PCA）（或其他类似方法，诸如自适应特征值分解）来估计。进一步，可以使用加权的和与差，以致从差信号中消除主导声源。这可能导致在结构上非常类似于图2的示例但是比图2的示例更通用的解决方案。

所描述的方案可以例如在不同的频率间隔中独立地加以应用，例如，诸如在利用傅里叶变换生成的个别频率区（bin）中或者在滤波器组的频率子带中独立地加以应用。

在特定示例中，上面的方案首先用于确定在哪里（是否）输入信号具有实质上单声道特性（monophonic character）。如果是的话，则使用第二种再现模式（单声道表示）。如果否的话，即，如果ƿ=0，则执行进一步处理来选择将使用其他再现模式之中的哪一种。通过恰当地切换应用于

和

的处理，可以特别地在这些再现方法之间进行切换。例如，对于第一种再现模式（保持输入信号的空间特性），输入声道被直接地用作和

（并因而，

和

），而对于第三种再现模式（展宽），在输入信号被用作

和

（并因而，

和

）并被馈送至扩音器之前，首先对输入信号应用空间展宽。

在一些实施例中，分析器107可以确定包括一个或多个主导声源的主导声源信号。随后可以生成表示在已提取（一个或多个）主导声源之后剩余的信号的残留信号。最后，空间属性可以被确定，以响应于相对于用于残留信号的能量指示而言的用于主导声源信号的能量指示。

例如，定向过滤技术可以用于从输入信号的立体声混合物中提取主导源。这种提取可以使用任何适当的用于多声道信号分解的技术，包括波束形成算法、自适应波束形成算法、盲源分离算法和用于多声道噪声抑制的方法，正如对于本领域技术人员而言将是已知的。

在从混合物中提取主导（或主要）源之后，确定多声道残留信号，其中已消除或抑制了主导声源。

在这种情况下，检测值可以被计算为：

其中E_prim是用于主导或主要声源信号的能量度量，而E_res是用于残留信号的能量度量。取决于主要信号提取的特定特性，参数B的值通常是大约一（around unity）。如果所提取的主导源的能量与残留的相比是低的话，该系统确定该混合物不包含主导/主要声源。在这种情况下，可以选择第三种再现方法来提供增强的空间图像。

否则，该设备可以着手评估残留信号是否包含另一主导声源。这例如可以通过将主要源分离迭代地应用于残留信号来完成。作为另一示例，该确定可以基于多声道信号之间的相似性度量的计算。典型的相似性度量是各种类型的加权的相关度量，诸如Pearson（皮尔逊）相关性、对于相关函数或归一化相关函数的最大值的估计。也有可能使用各种类型的幅度差函数或信息理论测量，诸如互信息。如果测量显示两个残留信号之间的低相似性，则这利用某个环境信号（因为以前发现该信号不是实质上单声道的）表示单个主导声源的存在。因此，第四种再现模式可以与未利用空间展宽再现的主导或主要源信号一起使用（并且例如作为被馈送给中置声道的单声道信号），而空间展宽被应用于残留的立体声信号，该立体声信号随后被馈送至左和右扩音器。

然而，如果发现残留信号的声道具有高相似性，这有可能反映输入信号可能包含两个可以利用第一种再现方法来较好再现的主导源，并因此选择这个方法。

不同的再现模式之间的切换在许多实施例中可以有利地是平滑且渐进的过渡。这可以减小并减轻由于不同的再现模式的不同的空间特性而引起的伪像。

作为示例，从单声道模式到立体声再现模式的切换可以依据：

其中

其中时间积分系数•是在间隔[0,1]中的值。典型值例如可以是•=0.95。

作为更一般示例，该设备可以被安排为同时操作这些再现模式之中的两种（或更多种）再现模式。从该系统在其之间切换的两种再现模式中生成的信号可以随后一起进行混合，其中这两种模式的加权逐步从以前的再现模式改变成新的再现模式。例如，对于每一个扩音器来说，利用这两种再现模式生成的相应信号可以依据下式来相加：

其中y(n)是用于扬声器的驱动信号，x_p是利用以前的再现模式生成的采样，x_n是利用新的再现模式生成的采样，n是采样索引，而•是具有适当时间特性的逐渐从1变成0的值。

在许多实施例中，在从10毫秒到1秒的间隔中的过渡时间趋于提供有利的性能。该过渡时间可以作为新的再现模式从所得到的组合信号的10%的加权变成90%的加权的时间来测量。

在一些实施例中，驱动电路103进一步被安排为响应于空间属性来适配所选择的再现模式的空间渲染技术的特性。例如，对于第三种再现模式，所应用的空间展宽的程度可以根据空间优先级来调节。因而，在这样的示例中，输入信号的空间混合物的分析也被用于控制解相关的量或空间展宽算法的“立体声展宽参数”。例如，如果空间属性指示输入信号包含具有多个源的丰富和宽广的空间图像或例如没有可辨别的声源的扩散信号，那么可以在再现中应用比在两个声道中具有基本上相同内容时更多的立体声展宽。通过评估两个音频声道之间相关的量，能够将第一种情况与第二种情况区分开来。

作为另一示例，可以考虑其中两个独立的源分别在主导左和右声道的信号。在这种情况下，预定的空间图像包括立体图像中两个清晰定位的分离源（例如，在左侧的歌手与在右侧的吉他手的二重奏）。在这种情况下，这些声道之间的相关性是低的。如果由于这些信号的相关性而对这些信号应用立体声展宽，那么所产生的空间图像将是宽阔的。然而，在这种情况下，立体图像将由于缺少两个预定立体图像的清晰定位的特性而变得模糊。因此，对于这种类型的内容使用直接（非展宽）立体声回放以便在图像中保留清晰定位的源将有可能是更好的。有可能检测立体图像是否具有少量非相关源的简单混合物或者是否它是多个声源的复杂混合物。执行此的简单方式是分析在左与右声道之间的归一化互相关C。基于这样的推理，再现模式的选择在一些实施例中能够基于以下逻辑：

如果C<T_low，则该内容被视为包括在左和右侧的两个非相关源，并且选择标准（非展宽）的立体声再现，以便保留这两个源的定位，

如果T_low<C<T_high，则该内容被视为常规复杂的立体声材料。立体声展宽方案因此用于这种类型的内容的再现，

如果T_high<C，则该内容被视为具有一个明显的源。因此，对于这种类型的输入，选择立体声再现方法或用于单声道内容的特定再现。

归一化相关函数可以例如是利用下式给定的皮尔逊相关性：

或者归一化相关函数可以是利用下式给定的由Avendado提议的归一化相关性测量（C. Avendado, Frequency-domain source identification and manipulation in stereo mixes for enhancement, suppression and re-panning applications, IEEE Proc. WASPAA, NY, USA, 2003）：

。

检测也能够基于输入信号的小时间-频率段中声道之间的相关性和水平差的统计。

图1的系统可以在许多情景中并且对于许多现实生活信号提供改善的聆听体验。特别地，在许多情景中可以改善基于上混合的系统的空间体验。例如，寻求从立体声信号中提取中置声道的上混合算法在中央声源出现在声像中时可以提供非常好的性能，但是在立体声混合物中没有清晰的中央图像时可能无法始终理想地工作。实际上，如果中置声道提取方法用于这样的内容，它可能导致立体图像的宽度的减小。所描述的方案虑及输入信号的再现动态地适应于使用合适的上混合方案。

在一些实施例中，再现模式的选择可以进一步考虑输入信号的内容属性。在图3中示出这样的示例，其中图3显示图1的系统被修改成包括内容处理器301，其中内容处理器被安排为确定信号的内容特性。内容特性可以例如指示流派、与音频信号相关联的节目类型（例如，音频是否与诸如例如电视或广播节目之类的媒体项相关联）、与音频相关联的艺术家，等等。

内容特性可以例如从与输入信号相关联的元数据中进行确定。因而，在一些情景中，元数据可以单独地从音频信号中接收或者例如被嵌入在音频信号中。内容处理器301可以被安排为提取描述输入信号的内容的数据。

在其他的实施例中，内容处理器301可被安排为对接收到的输入信号执行内容分析，并基于这样的内容分析来确定内容特性。例如，内容处理器301可以分析该信号，以确定它是主要包含语音、音乐还是例如巨大的爆炸声。它可以随后基于该分析来估计内容的相应类型，诸如例如在新闻节目、音乐节目和动作电影之间选择。将意识到：不同的内容分析方案对于本领域技术人员而言将是公知的，并且可以使用任何适当的算法。对于视听信号（即，其中输入音频信号与视频信号相耦合），内容分析可以作为选择或附加地基于与输入信号相关联的视频信号。

内容特性被馈送至选择处理器109，其中选择处理器着手将它包括在将要使用的再现模式的选择中。特别地，在不同的再现模式之间的短期切换可能仍然基于空间属性的短期变化来确定，但是确切的切换标准可以根据该内容是什么来修改。例如，与针对新闻节目相比，该系统可能更有可能针对动作电影而切换到空间展宽方案。

因而，在选择将要使用的最佳空间再现方法中可以使用指示内容类型的数据。特别地，内容特性可以用于增强再现模式-选择策略的可靠性。在决策中包括内容特性可以降低选择不适当再现模式的风险。

例如，在一些情况中，信号的空间分析可能导致没有清晰指示合适再现模式的空间属性。在这种情况下，可能希望在选择再现模式时考虑该内容。因而，在空间信号分析没有清晰地将信号的空间混合物分类到四种再现类别之一而是处于其之中的两种或多种模式之间不确定的“灰色”区域中的情况下，可以考虑该内容特性。在一些实施例中，与每种再现模式相对应的空间属性的间隔可以例如取决于特定属性。这可能例如导致在未修改的立体声再现模式和展宽的立体声再现模式之间的选择例如对于新闻节目和动作电影来说是不同的。因而，与针对动作电影相比，对于新闻节目可以较少使用展宽。

在一些实施例中，驱动电路103可以响应于内容特性来适配所选择的再现模式的空间渲染技术的特性。因而，反映有关输入信号的内容类型的信息的内容特性可以用于控制所选择的空间再现模式的参数。例如，在该系统决定立体声展宽是最佳的再现方法时应用的展宽的量可以根据内容类型来调节。为此目的，内容类型的分类可能在高层次上完成，例如，在如同“新闻”、“电影”、“音乐”、“纪录片”等等的类别之间进行区分。然而，在例如不同的音乐流派或不同的电影类型之类的子类型中进行分类也可能是有益的。例如，某些音乐流派通常与相当紧密的声场和声学氛围（例如，歌手-歌曲作者或室内音乐）相关联，而其他流派与宽阔的声场和非常宽敞的室内声学（例如，合唱音乐）相关联。除了分析音频信号的空间混合物之外，知道音乐流派还能够帮助选择恰当的再现模式和/或设置空间再现模式的参数。

上面的描述集中于其中该组扩音器提供比输入信号（特别地，双声道）更多的空间声道（特别地，三个空间声道）的实施例。然而，将意识到：在其他实施例中，该组扩音器可能无法提供比输入信号更多的空间声道。

实际上，在许多实施例中，对于该组扩音器提供比输入信号更少的空间声道而言，这可能是有利的。例如，在三个空间声道中可以再现七声道环绕声输入信号。在这样的实施例中，可以使用潜在复杂的空间处理来提供有利的性能，并且所描述的原理可以用于选择哪种再现模式将应用于输入信号的特定空间特性。因而，不同的下混合算法可以根据输入信号的空间特性来使用。

将意识到：为了清楚起见，上面的描述参考不同的功能电路、单元和处理器描述了本发明的实施例。然而，以下将是显然的：可以使用在不同的功能电路、单元或处理器之间的任何适当的功能分布而无损于本发明。例如，被说明为由单独的处理器或控制器执行的功能可以由相同的处理器或控制器来执行。因此，对特定功能单元或电路的引用仅被视为对用于提供所描述的功能的适当手段的引用，而不是指示严格的逻辑或物理结构或组织。

本发明能够采用任何适当的包括硬件、软件、固件或这些的任何组合的形式来实现。本发明可以可选地至少部分地作为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件来实现。本发明的实施例的元素和组件可以在物理上、功能上和逻辑上采用任何适当的方式来实现。实际上，功能可以在单个单元中、在多个单元中或作为其他功能单元的一部分来实现。就此而论，本发明可以在单个单元中实现或可以在物理上和功能上在不同的单元、电路和处理器之间进行分布。

虽然结合一些实施例描述了本发明，但是并不打算将本发明限制于在这里阐述的特定形式。相反，本发明的范围仅利用所附的权利要求书来限制。此外，虽然特征可能显现成结合特定实施例来描述，但是本领域技术人员将认识到，所描述的实施例的各种特征可以根据本发明进行组合。在权利要求书中，术语包括并不排除其他元素或步骤的存在。

此外，虽然个别地列出，但是多个装置、元素、电路或方法步骤可以利用例如单个电路、单元或处理器来实现。另外，虽然个别特征可以被包括在不同的权利要求中，但是这些特征或许有可能有利地进行组合，并且在不同权利要求中的包含并不意味着特征的组合不是可行的和/或有利的。同样，特征在一种类别的权利要求中的包含并不意味着对于这种类别的限制，而是指示该特征同样可酌情应用于其他的权利要求类别。此外，特征在这些权利要求中的顺序并不意味着这些特征必须据此来工作的任何特定顺序，并且特别地，个别步骤在方法权利要求中的顺序并不意味着这些步骤必须以这个顺序来执行。相反，这些步骤可以按照任何适当的顺序来执行。此外，单数引用并不排除复数。因而，对“一”、“一个”、“第一”、“第二”等等的引用并不排除多个。权利要求书中的参考符号仅仅作为说明示例来提供，而不应被解释成以任何方式来限制这些权利要求的范围。

Claims

1.一种用于空间声音再现的设备，所述设备包括：

用于接收多声道音频信号的接收机（101）；

用于确定多声道音频信号的空间属性的电路（107）；

用于从多种声音再现模式中选择所选择的再现模式的电路（109），所述多声道声音再现模式采用不同的空间渲染技术；以及

再现电路（103），用于驱动由一组扩音器（105）提供的一组空间声道，以便使用所选择的再现模式来再现多声道音频信号。

2.权利要求1的设备，其中声音再现模式之中的至少一种声音再现模式包括以下之中的至少一种：上混合至比多声道音频信号的声道的数量更高数量的空间声道；以及下混合至比多声道音频信号的声道的数量更低数量的空间声道。

3.权利要求1的设备，其中该组空间声道包括与多声道音频信号不同数量的声道。

4.权利要求1的设备，其中用于在声音再现模式之间切换的最大切换频率超过1Hz。

5.权利要求1的设备，其中用于确定空间属性的电路（107）被安排为利用不超过10秒的时间常数来确定空间属性。

6.权利要求1的设备，其中多种声音再现模式包括以下之中的至少一种：

单声道再现模式；

保持多声道信号的空间特性的再现模式；

包括空间展宽处理的再现模式；以及

包括分离成至少一个主导源信号和环境信号并应用至少一个主要源信号和环境信号的不同空间再现的再现模式。

7.权利要求1的设备，进一步包括：

用于为多声道音频信号确定内容特性的电路（301）；以及

其中用于选择的电路（109）被安排为进一步选择所选择的再现算法，以响应内容特性。

8.权利要求7的设备，其中用于确定内容特性的电路（301）被安排为确定内容特性，以响应与多声道音频信号相关联的元数据。

9.权利要求7的设备，其中用于再现多声道音频信号的电路（103）被安排为响应于内容特性来适配所选择的再现模式的空间渲染技术的特性。

10.权利要求1的设备，其中用于再现多声道音频信号的电路（103）被安排为响应于空间属性来适配所选择的再现模式的空间渲染技术的特性。

11.权利要求10的设备，其中空间处理特性是应用于多声道音频信号的至少两个声道的空间展宽的程度。

12.权利要求1的设备，其中用于再现多声道音频信号的电路（103）被安排为从第一选择的再现算法逐步过渡到第二选择的再现算法。

13.权利要求1的设备，其中用于确定空间属性的电路（107）被安排为确定空间属性，以响应相对于用于至少两个声道的差信号的能量指示而言的用于多声道音频信号的至少两个声道的组合信号的能量指示。

14.权利要求1的设备，其中用于确定空间属性的电路（107）被安排为将多声道音频信号分解成至少一个主导声源信号和残留信号，以及确定空间属性，以响应相对于用于残留信号的能量指示而言的用于主导声源信号的能量指示。

15.一种空间声音再现的方法，所述方法包括：

接收多声道音频信号；

确定多声道音频信号的空间属性；

从多种声音再现模式中选择所选择的再现模式，所述多声道声音再现模式采用不同的空间渲染技术；以及

驱动一组扩音器（105），以便使用所选择的再现模式来再现多声道音频信号。