CN107980225A

CN107980225A - 使用驱动信号驱动扬声器阵列的装置和方法

Info

Publication number: CN107980225A
Application number: CN201580078950.9A
Authority: CN
Inventors: 迈克尔·布尔格; 海因里希·洛尔曼; 沃尔特·凯勒曼; 彼得·格罗舍; 郎玥
Original assignee: Huawei Technologies Co Ltd; Friedrich Alexander Univeritaet Erlangen Nuernberg FAU
Current assignee: Huawei Technologies Co Ltd; Friedrich Alexander Univeritaet Erlangen Nuernberg FAU
Priority date: 2015-04-17
Filing date: 2015-04-17
Publication date: 2018-05-01
Anticipated expiration: 2035-04-17
Also published as: EP3272134A1; EP3272134B1; US10375503B2; US20180098175A1; CN107980225A8; CN107980225B; WO2016165776A1

Abstract

一种使用驱动信号驱动扬声器阵列的波场合成装置(100、800)，所述装置包括：声场合成器(110、810)，用于产生声场驱动信号，所述声场驱动信号用于使所述扬声器(210)阵列在一个或多个音频区(220、230、520、620、720、730)处产生一个或多个声场；双声道渲染器(120、820)，用于产生双声道驱动信号，所述双声道驱动信号用于使所述扬声器阵列在至少两个位置处产生特定声压，其中所述至少两个位置基于检测到的听众位置和/或方向确定；以及决策单元(130、830)，用于决定是使用所述声场合成器还是使用所述双声道渲染器来产生所述驱动信号。

Description

使用驱动信号驱动扬声器阵列的装置和方法

技术领域

本发明涉及一种使用驱动信号驱动扬声器阵列的装置和方法。

本发明的各方面涉及结合了本地声场合成的单独3D音频的个性化声音再现，本地声场合成即使用双声道波束成形或串音消除等点对点渲染(point-to-point rendering，P2P渲染)的本地波域渲染(local wave domain rendering，LWDR)和本地波场合成(localwave field synthesis，LWFS)等方法。

背景技术

存在几种同时为多个听众提供个性化的空间音频的已知方法。第一组方法使用本地声场合成(sound field synthesis，SFS)方法，例如(高阶)立体声、波场合成及与其相关技术，以及多种最小二乘法(例如压力匹配或声学对比度最大化)。这些技术的目的是在多个空间扩展区域(音频区)中再现所需声场。

第二组包括双声道渲染(binaural rendering，BR)或点对点(point-to-point，P2P)渲染方法，例如双声道波束成形或串音消除。它们的目的是通过在听众耳朵位置处引起适当的双耳时差(interaural time difference，ITD)和双耳电平差(interaural leveldifference，ILD)来产生想要的听觉效果。从而，在所需位置处感知到虚拟源。与在空间扩展区域中再现所需声场的SFS相反，在BR的情况下仅考虑耳朵位置。

两种方法(BR和SFS)都有缺点(限制)和优势。BR系统的基本缺点是在听众头部的移动或转动方面的稳健性有限。这是由于以下事实所致：声场仅针对耳朵位置，即针对特定头部位置和方向，内在优化。

在SFS的情况下，许多扬声器可以理想地围绕整个听音区域，从而可以针对所有方向合成虚拟源。此外，SFS通常更容易受空间混叠的影响，因为需要在整个区域中产生适当的声场，而不是仅在单个点(耳朵位置)处产生。类似地，针对非常低的频率使用SFS恰当地合成声场很具挑战性，这还是由于声场必须在空间扩展区域中合成的事实，而对于BR，声场仅需在耳朵位置处进行控制。然而SFS在听众头部的移动/转动方面的稳健性要高得多，这是因为在空间扩展区域中合成所需声场，而不是在空间中的某些点处引起ITD和ILD。因此，头部转动和小幅头部移动不会影响听觉效果。此外，SFS独立于听众的头部相关传递函数(head-related transfer function，HRTF)，这些函数在声音感觉和BR中起关键作用。

发明内容

本发明的目的是提供一种使用驱动信号驱动扬声器阵列的装置和方法，其中所述装置和所述方法为一个或多个听众提供更好的听觉体验。

本发明的第一方面提供一种使用驱动信号驱动扬声器阵列的波场合成装置，所述装置包括：

声场合成器，用于产生声场驱动信号，所述声场驱动信号用于使所述扬声器阵列在一个或多个音频区处产生一个或多个声场，

双声道渲染器，用于产生双声道驱动信号，所述双声道驱动信号用于使所述扬声器阵列在至少两个位置处产生特定声压，其中所述至少两个位置基于检测到的听众位置和/或方向确定，以及

决策单元，用于决定是使用所述声场合成器还是使用所述双声道渲染器来产生所述驱动信号。

决策单元可以用于以一种优化一个或多个听众的听觉体验的方式来决定是使用声场合成器还是使用双声道渲染器产生驱动信号。这样，声场合成器和双声道渲染器的优点可以结合。即使在本地声场合成不可行或不合理时也能够保持最佳音频渲染。

在本发明的实施例中，这能够使扬声器放置更具灵活性。

根据第一方面的波场合成装置使得同时为多个听众提供个性化的空间音频成为可能，其中将两组不同的渲染方法相结合以便利用两者的益处。

根据听众位置、扬声器位置和要合成的虚拟源的位置，可以通过声场合成或双声道渲染来确定在哪些频带中进行再现。可以在本地音频区(“亮区”)内感知所需虚拟源，同时可以将第二(第三、第四……)本地音频区(“暗区”)中的声音强度最小化。在本发明的实施例中，为了合成剩余音频区中的单独声场，针对每个音频区重复该过程，其中先前的一个暗区现在已经成为亮区，反之亦然。然后可以通过叠加所有单独声场贡献来获得多个用户的整体声场。

可以理解，波场合成装置无需包括放大器，即，波场合成装置产生的驱动信号在强得足以直接驱动扬声器之前可能需要通过外部放大器进行放大。此外，波场合成装置产生的驱动信号可能是数字信号，这些数字信号在用于驱动扬声器之前需要转换成模拟信号并进行放大。

根据所述第一方面，在所述装置的第一实施方式中，所述决策单元用于基于所述扬声器阵列的确定位置、虚拟声源的虚拟位置、所述一个或多个音频区的位置和/或范围、所述检测到的听众位置和/或所述检测到的听众方向来做决定。

扬声器的确定位置可以存储在波场合成装置的内部存储器中。例如，波场合成装置可以包括输入设备，用户可以通过该输入设备进入扬声器阵列中的扬声器的位置。

或者，可以通过外部总线连接将扬声器的位置提供给波场合成装置。例如，这可以是到存储扬声器位置信息的立体声系统的总线连接。

决策单元的决定还可以基于声源相对于控制点的虚拟位置、虚拟方向和/或虚拟范围。例如，扬声器位置与虚拟源位置的某些组合可能不太适合用来使用声场合成器产生驱动信号。因此，如果决策单元考虑到该信息，那么这是有利的。

根据所述第一方面，在所述装置的第二实施方式中，所述决策单元用于，当所述扬声器阵列中有足够数量的扬声器位于听众位置与虚拟源的虚拟位置之间的虚拟线周围的虚拟管中时，决定使用所述声场合成器为所述一个或多个音频区中的选定音频区产生所述驱动信号。

如果没有扬声器或仅不足量的扬声器放置在虚拟源应合成的角方向(声波应起源于该角方向)中，那么SFS不合理。然后，根据第二实施方式，可以将BR用作整个频率范围的后备方案。

因此，即使在仅有少量扬声器可用的情况下，也可以为听众提供高质量的听觉体验。

可用扬声器的数量也可以有限，因为有物体位于选定音频区与听众之间。因此，根据第二实施方式的波场合成装置可以用于忽略由于位于选定音频区与扬声器之间的物体而受阻的扬声器。具体而言，波场合成装置可以包括物体检测单元，用于获取关于房间中的物体的信息。例如，物体检测单元可以连接到照相机，波场合成装置可以通过该照相机获取展示房间的图像帧。物体检测单元可以用于在照相机获取的图像帧中检测位于房间中的一个或多个物体。此外，物体检测单元可以用于确定检测到的一个或多个物体的大小和/或位置。

根据所述第一方面，在所述装置的第三实施方式中，所述决策单元用于，当从所述一个或多个音频区中的选定音频区到所述一个或多个声场之一的虚拟源的角方向相对于从所述选定音频区到所述一个或多个音频区中的一个或多个剩余音频区的一个或多个角方向所偏离的角度超过预定义的角度时，使用所述声场合成器为所述选定音频区产生所述驱动信号。

如果角方向差太小，则SFS不可行，因为亮区和暗区彼此太靠近，尤其是暗区可能位于亮区与虚拟源之间。因此，BR可以用作整个频率范围的后备方案。

根据所述第一方面，在所述装置的第四实施方式中，所述角方向基于所述选定音频区和所述一个或多个剩余音频区的中心确定。

根据所述第一方面，在所述装置的第五实施方式中，所述一个或多个音频区包括基本上为圆形的暗区和基本上为圆形的亮区，其中所述决策单元用于在以下情况下使用所述声场合成器产生所述驱动信号：

其中，φ是从所述亮区的中心到所述暗区的中心的角方向与从所述亮区的所述中心到虚拟源的位置的角方向之间的角度，R_i是所述亮区的半径，R_j是所述暗区的半径，D是第一个区的中心与第二个区的中心之间的距离，γ是预先确定的参数，其中|γ|≥1。

对于所提议的如在本发明的装置的第三实施方式中使用的决策规则，声波建模为如同在顺直通道中传播，即，就好像它们的空间扩展大幅受限。第五实施方式假设声波传播的一种更现实的模型并提出更灵活的决策规则。

根据所述第一方面，在所述装置的第六实施方式中，所述装置还包括分离器，用于基于源信号的属性将所述源信号分为一个或多个分离信号，其中所述决策单元用于针对每个所述分离信号决定是使用所述声场合成器还是使用所述双声道渲染器来产生对应的驱动信号。

例如，分离器可以用于将源信号分离为一个语音信号和一个剩余信号，剩余信号包括源信号的非语音分量。因此，例如，语音信号可以用作双声道渲染器的输入，剩余信号可以用作声场合成器的输入。然后，可以使用具有小虚拟范围的双声道渲染器再现语音信号，可以使用具有更大虚拟范围的声场合成器再现剩余信号。这使语音信号与剩余信号更好地分离，这能够例如提高语音清晰度。

在其它实施例中，分离器可以用于将源信号分离为一个前景信号和一个背景信号。例如，前景信号可以用作双声道渲染器的输入，背景信号可以用作声场合成器的输入。然后，可以使用具有小虚拟范围的双声道渲染器再现前景信号，可以使用具有更大虚拟范围的声场合成器再现背景信号。这使前景信号与背景信号更好地分离。

分离器可以是模拟或数字分离器。例如，源信号可以是包括若干数字信道的数字信号。这些信道可以包括关于每个信道的内容的信息。例如，若干数字信道中的一个可以(例如使用与该信道相关联的元数据)指定为仅包括全信号的语音分量。另一信道可以指定为仅包括全信号的背景分量。因此，分离器可以基于多个被不同指定的信道的指定来“分离”这些信道。例如，可以将五个信道指定为背景信号，将三个信道指定为前景信号。然后，分离器可以将这五个背景信道指派给双声道渲染器，将这三个前景信道指派给声场合成器。

源信号可以包括与关于虚拟源的元数据相关联的至少一个信道。元数据可以包括关于虚拟源的虚拟位置、虚拟方向和/或虚拟范围的信息。然后，分离器可以用于基于该元数据，例如基于关于与一个或多个信道相关联的虚拟源的虚拟范围的信息，分离源信号。这样，决策单元可以将与具有大范围的虚拟源对应的信道指派为使用声场合成再现，并且决策单元可以将与具有小范围的虚拟源对应的信道指派为使用双声道渲染再现。例如，可以使用预先确定的虚拟范围阈值来决定应使用声场合成器还是使用双声道渲染器再现与某一虚拟源对应的信道。

根据所述第一方面，在所述装置的第七实施方式中，所述决策单元用于设置所述分离器的一个或多个参数。

例如，决策单元可以设置指示信号的哪些部分应视为背景以及哪些部分应视为前景的参数。在其它实施例中，决策单元可以设置指示源信号应分离为多少个前景信道和多少个背景信道的参数。

在又一实施例中，决策单元可以用于设置分离器的分离频率。此外，决策单元可以用于设置分离器的指示源信号的哪些信道指派给声场合成器以及哪些指派给双声道渲染器的参数。

根据所述第一方面，在所述装置的第八实施方式中，所述分离器是用于将所述源信号分为一个或多个有限带宽信号的滤波器组。

例如，滤波器组可以配置为低于某一最小频率ω_min(例如200Hz)和高于最大频率ω_max(例如扬声器阵列的空间混叠频率其中c和d分别表示音速和扬声器间距)，使用BR。在剩余频率范围中，利用SFS以便获得头部移动和转动方面的高稳健性。

根据所述第一方面，在所述装置的第九实施方式中，所述滤波器组适用于将所述源信号分为在频域中部分重叠的两个或更多有限带宽信号。

在本实施方式中，SFS与BR之间的转变是平滑的，即，沿频率轴没有突变，但是应用了衰落。

根据所述第一方面，在所述装置的第十实施方式中，所述双声道渲染器用于基于一个或多个头部相关传递函数产生所述双声道驱动信号，其中特别来说所述一个或多个头部相关传递函数从头部相关传递函数数据库中获取。

在左耳和右耳感知到声源之前，头部相关传递函数可以针对左耳和右耳描述该声源的滤波。头部相关传递函数还可以描述为声音从大气方向到声音到达左耳膜和右耳膜时的改变。这些改变可以例如基于听众的外耳形状、听众的头形和体形以及声音播放空间的声学特性。

不同头形可以与对应的头部相关传递函数一起存储在数据库中。在本发明的实施例中，波场合成装置可以包括用于获取图像帧的照相机和用于基于所获取的图像帧检测听众头形的头部检测单元。然后可以从头部相关传递函数数据库中查找对应的头部传递函数。

本发明的第二方面涉及一种使用驱动信号驱动扬声器阵列以在一个或多个音频区产生一个或多个本地波场的方法，所述方法包括以下步骤：

检测听众位置和/或方向，

决定是使用声场合成器产生所述驱动信号还是使用双声道渲染器产生所述驱动信号，

产生声场驱动信号，所述声场驱动信号用于使所述扬声器阵列在一个或多个音频区处产生一个或多个声场，和/或

产生双声道驱动信号，所述双声道驱动信号用于使所述扬声器阵列在至少两个位置处产生特定声压，其中所述至少两个位置基于所述检测到的听众位置和/或所述检测到的听众方向确定。

根据本发明第二方面的方法可以由根据本发明第一方面的装置来执行。根据本发明第二方面的方法的其它特征或实施方式可以执行根据本发明第一方面的装置的功能和其不同实施形式。

在所述第二方面的所述方法的第一实施方式中，所述扬声器位于汽车中。在汽车中，暗音频区特别重要，例如，暗音频区可以位于驾驶员座位处，从而其他乘客想听音乐不会干扰驾驶员。

将扬声器置于汽车中并将发明方法应用于汽车中的扬声器也是有利的，因为汽车中扬声器的位置以及听众的可能位置很明确。因此，从扬声器到听众的传递函数能够以高精度计算。

在所述第二方面的所述方法的第二实施方式中，检测听众位置和/或方向包括如下步骤：检测所述汽车中的哪些座位被乘客占用。

例如，可以使用压力传感器来检测汽车中的哪个座位被占用。

本发明的第三方面涉及一种存储程序代码的计算机可读存储介质，所述程序代码包括用于执行所述第二方面的所述方法或所述第二方面的一种实施方式的指令。

附图说明

为了更清楚地说明本发明实施例中的技术特征，下面将对实施例描述中所需要使用的附图作简单地介绍。下面描述中的附图仅仅是本发明的一些实施例，这些实施例在不违背本发明如权力要求书中所定义的保护范围的情况下，可以进行修改。

图1所示为根据本发明的波场合成装置的示意图；

图2所示为具有来自矩形扬声器阵列的声音的听音区域的示意图；

图3所示为根据本发明一实施例的使用驱动信号驱动扬声器阵列的方法的图；

图4所示为进一步示出图3的方法的部分步骤的图；

图5示出了角域，决策单元可以用于针对该角域决定声场合成可行；

图6示出了根据本发明的用于确定最小角度φ_min的决策规则；

图7A示出了声场合成可行的一种场景；

图7B示出了声场合成仍然可行的一种边缘场景；

图8所示为根据本发明的具有虚拟源单元作为输入的波场合成装置的详细方框图；

图9示出了双声道驱动信号的频谱幅度和声场驱动信号的频谱幅度。

具体实施方式

图1所示为根据本发明的波场合成装置100的示意图。波场合成装置100包括声场合成器110和双声道渲染器120。声场合成器110和双声道渲染器120连接到决策单元130。图1示出了本发明一实施例，在本实施例中，决策单元130连接到波场合成装置100外部的扬声器210。例如，决策单元130可以包括滤波器组。在本发明的其它实施例中，在波场合成装置100的单元与扬声器210之间提供其它连接。

图2所示为具有来自扬声器210的矩形阵列的声音的听音区域200的示意图。扬声器210等距放置，它们之间的距离是d。坐标系的x轴和y轴以箭头202、204指示。在图2所示的实施例中，扬声器210阵列与轴202、204对齐。但是一般而言，扬声器可以相对于坐标系朝向任何方向。具体而言，扬声器210阵列的排列无需是矩形，也可以是圆形、椭圆形或甚至随机分布，其中优选地，波场合成装置知道扬声器的随机位置。

扬声器210阵列围绕着两个听众222、232。第一个听众222位于第一音频区220中，第二个听众232位于第二音频区230中。

角φ_S1、φ₁₂、φ₂₂和φ_S2相对于x轴定义。φ_S1和φ_S2指示来自第一和第二虚拟源(未在图2中示出)的声波242、252的方向240、250的角。角φ₁₂和φ₂₂指示从第一音频区220的中心到第二音频区230的中心的角。

图3所示为根据本发明一实施例的使用驱动信号驱动扬声器阵列的方法的图。在第一步骤S10中，检测听众位置和/或方向。在第二步骤S20中，决定是使用声场合成器产生驱动信号还是使用双声道渲染器产生驱动信号。在第三和第四步骤S30和S40中，产生用于使扬声器阵列在一个或多个音频区处产生一个或多个声场的声场驱动信号，或产生用于使扬声器阵列在至少两个位置处产生特定声压的双声道驱动信号。一般而言，这些步骤无需按该顺序执行。例如，第二步骤S20可以由滤波器组执行，该滤波器组与用于产生声场驱动信号的声场合成器和用于产生双声道驱动信号的双声道渲染器同时操作。这样，第二、第三和第四步骤S20、S30和S40同时执行。此外，步骤S10中的听众位置和/或方向检测可以周期性地或连续执行，从而也与其它步骤同时执行。

图4所示为进一步示出与决定是使用声场合成器产生驱动信号还是使用双声道渲染器产生驱动信号有关的步骤的图。

在步骤S22中，确定扬声器阵列是否不适合声场合成(sound field synthesis，SFS)。例如，如果没有扬声器或仅不足量的扬声器放置在虚拟源应合成的角方向(声波应起源于该角方向)中，那么SFS不合理。那么，在步骤S30中，决定应产生双声道渲染(binauralrendering，BR)驱动信号作为整个频率范围的后备方案。

在步骤S24中，确定虚拟声源的位置是否太靠近任一暗区：如果特定区i中要合成的虚拟源的角方向相对于剩余N-1个区中的任一区的角方向φ_ij，其中j∈{1,2,…,N}\i，所偏离的角度小于预定义的角度φ_min，那么SFS不可行，因为亮区和暗区彼此太靠近。那么，使用BR作为整个频率范围的后备方案(步骤S30)。

除非在步骤S22和S24中决定SFS主要不可行，否则SFS和BR同时使用。在步骤S26中，使用滤波器组将源信号分为两个信号。低于某一频率ω_min(例如200Hz)和高于最大频率ω_max(例如扬声器阵列的空间混叠频率其中c和d分别表示音速和扬声器间距)，使用BR。在剩余频率范围中，利用SFS以便获得头部移动和转动方面的高稳健性。SFS与BR之间的转变是平滑的，即，沿频率轴没有突变，但是应用了衰落。

图5示出了依赖于角度560的决策规则，在角度560中，要使用的声场合成需要紧密间隔的扬声器。听众522位于音频区520的中心。箭头550指示来自虚拟源的声音的方向。与箭头550正交的线552指示向听众522传播的声波的(建模)扩展。角φ_s、φ_left和φ_right相对于坐标系(未在图5中示出)的x轴定义。φ_s指示从方向550发送声波552的虚拟源的源角，φ_left和φ_right分别指示朝扬声器阵列210的左边缘和右边缘的角。角域560通过最大左方向562和最大右方向564定义。

如果源角φ_s不在区间[φ_left，φ_right]中或者如果扬声器排列很稀疏(例如，如果扬声器间距d超过15cm-20cm)，那么决策单元确定SFS不可行。

图6、7A和7B示出了根据本发明的用于确定φ_min的决策规则。如图6所示，距离D定义为亮区620(其中听众622位于中心)与暗区630的边缘之间的距离，这两个区的对应区半径分别是R_i和R_j。角α表示源方向与垂直于暗区630和亮区620的中心的连接线的线之间的角距。注意，对于提议的简单决策规则，声波建模为如同在顺直通道中传播，即，它们的空间扩展大幅受限。

图7A所示为SFS可行的一种合理场景：亮区720与暗区730离得足够远，且沿方向750的声波752不经过暗区730。

图7B所示为一种边缘场景，在该场景下，声波752的方向750靠近暗区730，但是SFS仍然可行。最大角φ_min＝90°-|α_max|和最大角α_max一起定义。如果D_i+D_j＝D+R_i+R_j成立，则给出这种边缘情况，其中D定义为亮区720与暗区730之间的距离。此外，D_i和D_j定义为和对于角α，这种边缘情况对应一种引入了加法参数γ≥1的更灵活的决策规则产生更大的角|α_max|，因此产生更小的角φ_min。对应的更灵活的规则通过给出，其中反余弦函数的参数的上限为1。

如上所述，所提议的系统可以超越一种直接方法，在该方法中，BR与SFS的可能组合仅取决于频率。这里，扬声器的数量和/或位置、虚拟源的位置和/或范围以及本地听音区域也考虑在内，它们是确定某一再现方法是否可行的关键参数。

图8是具有虚拟源单元802作为输入的波场合成装置800的方框图。波场合成装置800产生用于驱动扬声器210阵列的驱动信号。要合成的虚拟源通过其短时间傅里叶变换(Short-Time Fourier Transform，STFT)频谱S(ω,t)和其在3D空间的位置向量x_src来定义，其中ω和t分别表示角频率和时间帧。如图8所示，频谱S(ω,t)和位置向量x_src(其也可以随时间而变)可以由波场合成装置外部的虚拟源单元802提供。在其它实施例中，波场合成装置800可以包括虚拟源单元，该虚拟源单元适用于计算波场合成装置800内的频谱S(ω，t)和位置向量x_src。

频谱S(ω，t)和位置向量x_src提供给决策单元830。决策单元830包括滤波器组832和决策图单元834，决策图单元834用于定义滤波器组832使用的频带(例如截止频率)。

滤波器组832基于上述决策规则将源谱S(ω，t)分为第一频带谱S_SFS(ω，t)和第二频带谱S_BR(ω，t)，它们将分别通过声场合成和双声道再现来再现。

将虚拟源的第二频带谱S_BR(ω，t)和位置向量x_src作为输入提供给双声道渲染器820。此外，将随时间而变的头部位置x_head(t)和随时间而变的头部方向φ_head(t)提供给双声道渲染器820。双声道渲染器820包括合成单元822，用于基于虚拟源的位置x_src以及听众的当前头部位置x_head(t)和当前方向φ_head(t)产生双声道信号s_binaural(ω，t)。为此，合成单元822使用在合成单元822中建模或者从头部相关传递函数(Head-Related TransferFunction，HRTF)测量数据库(未在图8中示出)获取的HRTF。如果听众移动或转动其头部，则双声道信号s_binaural(ω,t)适用。双声道信号作为双声道渲染器820的双声道再现单元824的输入，在双声道渲染器820中可以部署串音消除器或双声道波束成形系统等。然后，这些双声道信号s_binaural(ω,t)和/或源信号由对应的滤波器处理，这些滤波器使用STFT以逐帧的方式描述BF或SFS系统。双声道再现阶段和声场合成阶段产生的信号分别表示为s_BR(ω,t)和s_SFS(ω，t)。最后，在添加单元804处添加s_BR(ω，t)和s_SFS(ω，t)以便获取频域中的驱动信号s_1dspk(ω，t)，这些驱动信号在STFT单元806处通过逆STFT转变到时域，并且最终在D/A转换之后通过扬声器210再现。

波场合成装置800包括头部位置和方向检测单元840，用于在照相机842获取的图像帧中检测听众的头部位置和方向。此外，波场合成装置包括也从照相机842获取图像帧的物体检测单元844。物体检测单元844可以例如检测扬声器210的位置x_ldspk并将该信息提供给波场合成装置800的一个或多个单元，特别是决策图单元834。

图9示出了双声道驱动信号的频谱幅度910和声场驱动信号的频谱幅度920。水平轴930表示角频率ω。如图9示意性地针对单个信道所示，SFS与BF之间的转变平滑且不突兀。

总而言之，提出了一种使用驱动信号驱动扬声器阵列的装置和方法。本发明的实施例将声场合成和双声道渲染的优点相结合。例如，即使在本地声场合成不可行和/或不合理的情况下，也能够利用不那么稳健的双声道渲染来保持渲染。双声道渲染的稳健性可以通过在中频范围中利用更稳健的声场合成来提高。

本发明的实施例支持更灵活地放置扬声器，需要更少的扬声器来达到相同的渲染质量，不那么复杂，更稳健，需要更少的硬件并且扩大了频率范围。

在本发明中，能够将双声道渲染和声场合成相结合，从而能够利用这两种方法的益处。也就是，对于声场合成不合理的场景和频率范围，可以利用双声道渲染作为后备方案。如果声场合成在某些频率下可行，则其支持双声道渲染并从而提高了系统在头部移动方面的稳健性。

本文已经结合各种实施例描述了本发明。但本领域技术人员通过实践本发明，研究附图、本发明以及所附的权利要求，能够理解并获得公开实施例的其它变体。在权利要求书中，词语“包括”不排除其它元素或步骤，不定冠词“一”不排除多个。单个处理器或其它单元可以实现权利要求中列举的若干项目的功能。在仅凭某些措施被记载在通常不同的从属权利要求书中这个单纯的事实并不意味着这些措施的结合不能被有效地使用。

本发明实施例可以在用于在计算机系统上运行的计算机程序中实现，至少包括当在诸如计算机系统等的可编程装置上运行时用于执行根据本发明的方法步骤的代码部分，或者使得可编程装置执行根据本发明的设备或系统的功能的代码部分。

计算机程序是指令列表，例如，特定的应用程序和/或操作系统。计算机程序例如可以包括以下中的一个或多个：子例程、函数、流程、对象方法、对象实现、可执行应用、小程序、服务器小程序、源代码、目标代码、共享库/动态加载库和/或设计用于在计算机系统上执行的其它指令序列。

计算机程序可以存储在计算机可读存储介质内部或通过计算机可读传输介质传输到计算机系统。全部或部分计算机程序可以在永久地、可移除地或远程地耦合至信息处理系统的瞬时性或非瞬时性计算机可读介质上提供。计算机可读介质可以包括，例如但不限于，任意数量的以下示例：磁存储介质，包括磁盘和磁带存储介质；光存储介质，例如光盘介质(例如，CD-ROM、CD-R等)和数字视频光盘存储介质；非易失性存储器存储介质，包括基于半导体的存储器单元，例如闪存、EEPROM、EPROM、ROM；铁磁数字存储器；MRAM；易失性存储介质，包括寄存器、缓冲器或缓存、主存储器、RAM等；以及数据传输介质，包括计算机网络、点对点电信设备、载波传输介质，此处仅举几例。

计算机进程通常包括执行(运行)程序或程序的一部分、当前程序值和状态信息，以及操作系统用来管理进程的执行的资源。操作系统(Operating System，简称OS)是管理计算机资源共享的软件，并为程序员提供用于访问这些资源的接口。操作系统处理系统数据和用户输入，并通过分配及管理任务和内部系统资源作为服务对系统的用户和程序进行响应。

计算机系统例如可以包括至少一个处理单元、关联存储器和多个输入/输出(input/output，简称I/O)设备。当执行计算机程序时，计算机系统根据计算机程序处理信息并通过I/O设备生成合成的输出信息。

此处讨论的连接可以是适用于例如通过中间设备从或向相应节点、单元或设备传递信号的任意类型的连接。因此，除非另有所指或所述，该连接例如可以是直接连接或间接连接。可以结合单个连接、多个连接、单向连接或双向连接对该连接进行说明或描述。然而，不同的实施例可能会使该连接的实现发生变化。例如，可以使用单独的单向连接而不是双向连接，反之亦然。此外，多个连接可以被替换为以串行或时间复用方式传递多个信号的单个连接。同样地，携带多个信号的单个连接可以被分离成携带这些信号的子集的各种不同的连接。因此，存在许多用于传递信号的选择。

本领域技术人员将意识到，各逻辑块之间的界限仅仅是说明性的，并且替代实施例可以合并逻辑块或电路元件，或者可以在各种逻辑块或电路元件上实行功能的替代分解。因此，应当理解，此处所描述的架构仅仅是示例性的，并且实际上，许多其它实现相同功能的架构也能够实现。例如，波场合成装置800可包括虚拟源单元802。

此外，本领域技术人员将意识到，以上所描述的操作之间的界限仅仅是说明性的。多个操作可以组合成单个操作，单个操作可以分布在附加操作中，操作可以以在时间上至少部分重叠的方式来执行。另外，替代实施例可以包括某个特定操作的多个示例，在各种其它实施例中可以改变操作的顺序。

此外，例如，其中的示例或部分可以，例如以任意合适类型的硬件描述语言，实现为物理电路的或可转换成物理电路的逻辑表示的软或代码表示。

此外，本发明不限于在不可编程硬件中实现的物理设备或单元，也可以应用于能够通过根据合适的程序代码进行操作来执行所期望的设备功能的可编程设备或单元，例如，大型主机、小型计算机、服务器、工作站、个人计算机、记事本、个人数字助理、电子游戏、汽车和其它嵌入式系统、蜂窝电话和各种其它无线设备，在本申请中通常表示为‘计算机系统’。

Claims

1.一种使用驱动信号驱动扬声器(210)阵列的波场合成装置(100、800)，其特征在于，所述装置包括：

声场合成器(110、810)，用于产生声场驱动信号，所述声场驱动信号用于使所述扬声器阵列在一个或多个音频区(220、230、520、620、720、730)处产生一个或多个声场，

双声道渲染器(120、820)，用于产生双声道驱动信号，所述双声道驱动信号用于使所述扬声器(210)阵列在至少两个位置处产生特定声压，其中所述至少两个位置基于检测到的听众位置和/或方向确定，以及

决策单元(130、830)，用于决定是使用所述声场合成器(110、810)还是使用所述双声道渲染器(120、820)来产生所述驱动信号。

2.根据权利要求1所述的装置，其特征在于，所述决策单元(130、830)用于基于所述扬声器阵列的确定位置、虚拟声源的虚拟位置、虚拟方向和/或虚拟范围、所述一个或多个音频区(220、230、520、620、720、730)的位置和/或范围、所述检测到的听众(222、232、522、622)位置和/或所述检测到的听众(222、232、522、622)方向来做决定。

3.根据前述权利要求之一所述的装置，其特征在于，所述决策单元(130、830)用于，当所述扬声器阵列中有足够数量的扬声器位于听众位置与虚拟源的虚拟位置之间的虚拟线周围的虚拟管中时，决定使用所述声场合成器为所述一个或多个音频区(220、230、520、620、720、730)中的选定音频区产生所述驱动信号。

4.根据前述权利要求之一所述的装置，其特征在于，所述决策单元(130、830)用于，当从所述一个或多个音频区中的选定音频区(220、230、520、620、720、730)到所述一个或多个声场之一的虚拟源的角方向(240、250、550、650、750)相对于从所述选定音频区到所述一个或多个音频区中的一个或多个剩余音频区的一个或多个角方向所偏离的角度超过预定义的角度时，使用所述声场合成器为所述选定音频区产生所述驱动信号。

5.根据权利要求4所述的装置，其特征在于，所述角方向(240、250、550、650、750)基于所述选定音频区和所述一个或多个剩余音频区的中心确定。

6.根据前述权利要求之一所述的装置，其特征在于，所述一个或多个音频区包括基本上为圆形的暗区(630、730)、基本上为圆形的亮区(620、720)，其中所述决策单元(130、830)用于在以下情况下使用所述声场合成器(110、810)产生所述驱动信号：

7.根据前述权利要求之一所述的装置，其特征在于，还包括分离器(832)，用于基于源信号的属性将所述源信号分为一个或多个分离信号，其中所述决策单元(130、830)用于针对每个所述分离信号决定是使用所述声场合成器(110、810)还是使用所述双声道渲染器(120、820)来产生对应的驱动信号。

8.根据权利要求7所述的装置，其特征在于，所述决策单元(130、830)用于设置所述分离器(832)的一个或多个参数。

9.根据权利要求7或8所述的装置，其特征在于，所述分离器(832)是用于将所述源信号分为一个或多个有限带宽信号的滤波器组。

10.根据权利要求9所述的装置，其特征在于，所述滤波器组适用于将所述源信号分为在频域中部分重叠的两个或更多有限带宽信号。

11.根据前述权利要求之一所述的装置，其特征在于，所述双声道渲染器(120、820)用于基于一个或多个头部相关传递函数产生所述双声道驱动信号，其中特别来说所述一个或多个头部相关传递函数从头部相关传递函数数据库中获取。

12.一种使用驱动信号驱动扬声器阵列以在一个或多个音频区产生一个或多个本地波场的方法，其特征在于，所述方法包括以下步骤：

检测(S10)听众位置和/或方向，

决定(S20、S22、S24、S26)是使用声场合成器产生所述驱动信号还是使用双声道渲染器产生所述驱动信号，

产生(S30)声场驱动信号，所述声场驱动信号用于使所述扬声器阵列在一个或多个音频区处产生一个或多个声场，和/或

产生(S40)双声道驱动信号，所述双声道驱动信号用于使所述扬声器(210)阵列在至少两个位置处产生特定声压，其中所述至少两个位置基于所述检测到的听众位置和/或所述检测到的听众方向确定。

13.根据权利要求12所述的方法，其特征在于，所述扬声器(210)位于汽车中。

14.根据权利要求13所述的方法，其特征在于，检测听众(222、232、522、622)位置和/或方向包括如下步骤：检测所述汽车中的哪个座位被所述听众占用。

15.一种存储程序代码的计算机可读存储介质，其特征在于，所述程序代码包括用于执行权利要求12至14之一所述的方法的指令。