CN106134223A

CN106134223A - 重现双耳信号的音频信号处理设备和方法

Info

Publication number: CN106134223A
Application number: CN201480077618.6A
Authority: CN
Inventors: 卡里姆·赫尔旺尼; 彼得·格罗舍; 郎玥
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-11-13
Filing date: 2014-11-13
Publication date: 2016-11-16
Anticipated expiration: 2034-11-13
Also published as: US9838825B2; CN106134223B; WO2016074734A1; EP3103269A1; US20170070838A1; EP3103269B1

Abstract

一种用于从输入音频信号中为多个扬声器生成多个输出信号的音频信号处理设备(10)包括：驱动函数确定单元(11)，用于基于虚拟左双耳信号源的位置和方向性、虚拟右双耳信号源的位置和方向性以及所述多个扬声器的位置确定所述多个扬声器的驱动函数以生成所述虚拟左双耳信号源和所述虚拟右双耳信号源。而且，所述音频信号处理设备包括滤波单元(12)，所述滤波单元用于使用所述多个扬声器的所述驱动函数滤波左双耳信号和右双耳信号，产生所述多个输出信号。所述左双耳信号和所述右双耳信号构成所述输入音频信号或从其中推导出。

Description

重现双耳信号的音频信号处理设备和方法

技术领域

本发明涉及使用多个扬声器生成双耳信号并将其投射到用户位置。

背景技术

近年来，双耳信号在头戴式耳机中的使用已经成为一种标准惯例。双耳信号为由预期到达听者左耳的左双耳信号对应的左声道和预期到达听者右耳的右双耳信号对应的右声道组成的两个声道信号，通过使用这些双耳信号有可能使用户有一个定向感觉，不过只有单个扬声器用于用户的每只耳朵。

但是，双耳信号在头戴式耳机中使用的缺点是用户必须戴上头戴式耳机，这限制了用户的移动性，会很费力而且不舒服。

此外，声场合成已经使用了相当长的时间。通过使用声场合成，虚拟声源可以置于由多个扬声器围绕的区域内。

由于需要大量扬声器，所以声场合成使用起来不便。此外，被投射的声场的区域内的不同用户听不到同一声音。但是，凭借声场内的各个用户的位置，可以感知到不同声音。尤其是，声场不限于其听觉范围。因此，声场内的每个人都能感知到听觉信息。

发明内容

相应地，本发明的目的是提供一种装置和方法，使得至少一个用户感知定向音频信息，同时将对其他用户的干扰降低到最低。

该目的通过装置权利要求1和方法权利要求14的特征来解决。此外，该目的通过关联计算机程序的权利要求15的特征来解决。附属权利要求包含进一步的发展。

本发明的第一方面提供了一种用于从输入音频信号中为多个扬声器生成多个输出信号的音频信号处理设备，包括：驱动函数确定单元，用于基于虚拟左双耳信号源的位置和方向性、虚拟右双耳信号源的位置和方向性以及所述多个扬声器的位置确定所述多个扬声器的驱动函数以生成所述虚拟左双耳信号源和所述虚拟右双耳信号源。而且，所述音频信号处理设备包括滤波单元，所述滤波单元用于使用所述多个扬声器的所述驱动函数滤波左双耳信号和右双耳信号，产生所述多个输出信号。所述左双耳信号和所述右双耳信号构成所述输入音频信号或从其中推导出。因此，有可能将所述输入音频信号以双耳信号的形式投射到用户位置，从而使得所述用户以定向方式感知所述输入音频信号，同时防止其他用户被所述声音干扰。

在第一实施形式中，所述驱动函数确定单元用于基于所述虚拟左双耳信号源和所述虚拟右双耳信号源的预设或接收到的位置和/或方向性确定所述驱动函数。因此，有可能以非常灵活的方式定位所述虚拟信号源。

根据第二实施形式，所述设备包括虚拟源位置确定单元，所述虚拟源位置确定单元用于确定所述虚拟左双耳信号源和所述虚拟右双耳信号源的所述位置和/或方向性。因此，有可能非常确切地在要放置所述虚拟双耳信号源的位置处确立该信号源。

根据第三实施形式，所述虚拟源位置确定单元包括头部跟踪单元，所述头部跟踪单元用于跟踪用户头部的位置和/或方向。所述虚拟源位置确定单元还用于基于所述用户头部的所述位置和/或方向确定所述虚拟左双耳信号源和所述虚拟右双耳信号源的所述位置和方向性，使得所述虚拟左双耳信号源指向所述用户左耳，所述虚拟右双耳信号源指向所述用户右耳。另外或可选地，所述虚拟左双耳信号源的位置接近所述用户的左耳，所述虚拟右双耳信号源的位置接近所述用户的右耳。因此，通过自动方式，所述虚拟双耳信号源的理想位置和/或方向性可以靠近所述用户的耳朵，从而使用户获得理想的感知条件并使对周围其他用户的干扰降到最低。

根据第四实施形式，所述头部跟踪单元包括至少一个可见光摄像机和/或至少一个超声传感器和/或至少一个红外光摄像机和/或至少一个陀螺仪和/或至少一个磁传感器，这些传感器用于跟踪所述用户头部的所述位置和/或方向。因此，有可能通过低成本的标准传感器来非常准确地跟踪用户头部。

在第五实施形式中，所述驱动函数确定单元包括声场计算单元，所述声场计算单元用于将所述虚拟左双耳信号源的左声场和所述虚拟右双耳信号源的右声场作为多个扬声器对应的多极源的组合来计算。而且，所述驱动函数确定单元在这种情况下包括时间反转单元，所述时间反转单元用于通过对每个多极源进行时间反转计算来获得所述扬声器驱动函数。因此，有可能非常准确地确定所述驱动函数。

在第六实施形式中，所述声场计算单元用于：在计算所述左声场和所述右声场时将所述用户头部的散射和/或环境对象的散射考虑进去。因此，有可能极度准确地确定所述驱动函数。

根据第七实施形式，所述设备用于从所述输入音频信号和至少又一输入音频信号中生成所述多个输出信号，其中，所述输入音频信号和所述又一音频信号是针对两个不同用户的信号。所述驱动函数确定单元还用于基于所述虚拟左双耳信号源的所述位置和方向性、所述虚拟右双耳信号源的所述位置和方向性、又一左双耳信号源的位置和方向性、又一虚拟右双耳信号源的位置和方向性以及所述多个扬声器的位置确定所述多个扬声器的所述驱动函数以生成所述虚拟左双耳信号源、所述虚拟右双耳信号源、所述又一虚拟左双耳信号源和所述又一虚拟右双耳信号源。所述滤波单元还用于使用所述多个扬声器的所述驱动函数滤波所述左双耳信号、所述右双耳信号、又一左双耳信号和又一右双耳信号，产生多个输出信号，其中，所述又一左双耳信号源和所述又一右双耳信号源构成所述又一输入音频信号或从其中推导出。因此，有可能为第二用户生成信号，使得所述用户可以感知定向音频信息，同时周围其他用户只受到微小干扰。有利的是，还有可能使所述设备为两个以上用户生成信号。

在第八实施形式中，所述音频信号是一个单音频信号。所述左双耳信号和所述右双耳信号还从所述单音频信号和单音频信号位置中推导出。因此，有可能为单向单音频信号产生定向感觉。

根据第九实施形式，一种系统包括根据本发明的所述第一方面或前述实施形式之一的设备、放大器和扬声器阵列。所述设备还用于将所述输出信号提供给所述放大器设备，同时所述放大器设备用于放大所述输出信号。所述扬声器阵列还用于输出所述放大的输出信号。因此，有可能生成所述输出信号，使得只有一个或多个目标用户能够以预期方式感知所述音频信号，同时其他用户只受到微小干扰。

根据第十实施形式，所述扬声器阵列包括多个扬声器，每个扬声器连接到所述放大器设备中的多个放大器之一。所述放大器设备中的每个放大器还用于放大单个输出信号并驱动所述连接的扬声器以输出所述输出信号。因此，有可能输出高质量音频。

根据第十一实施形式，所述多个扬声器布置为二维地围绕所述用户，或者三维地围绕所述用户，或者二维地在所述用户的一侧，或者三维地在所述用户的一侧。因此，有可能非常灵活地定位扬声器。

根据第十二实施形式，所述设备、所述放大器设备和所述多个扬声器包含声霸或平板PC或移动电话或智真系统。因此，有可能非常灵活地使用所述设备和系统。

根据本发明的第二方面，提供了一种从输入音频信号中为多个扬声器生成多个音频信号的音频信号处理方法。所述方法包括基于虚拟左双耳信号源的位置和方向性、虚拟右双耳信号源的位置和方向性和多个扬声器的位置确定所述多个扬声器的驱动函数以生成所述虚拟左双耳信号源和虚拟右双耳信号源。而且，所述方法包括使用所述多个扬声器的所述驱动函数滤波左双耳信号和右双耳信号，产生多个输出信号，其中，所述左双耳信号和所述右双耳信号构成输入音频信号或从其中推导出。因此，有可能将所述输入音频信号以双耳信号的形式投射到用户位置，从而使得所述用户以定向方式感知所述输入音频信号，同时防止其他用户被所述声音打扰。

在本发明的所述第二方面的第一实施形式中，所述驱动函数基于所述虚拟左双耳信号源和所述虚拟右双耳信号源的预设或接收到的位置和/或方向性确定。因此，有可能以非常灵活的方式定位所述虚拟信号源。

根据本发明的所述第二方面的第二实施形式，所述虚拟左双耳信号源和所述虚拟右双耳信号源的所述位置和/或方向性在确定所述驱动函数之前确定。因此，有可能非常确切地在要放置所述虚拟双耳信号源的位置处确立该信号源。

根据本发明的所述第二方面的第三实施形式，确定用户头部的位置和/或方向。基于所述用户头部的所述位置和/或方向确定所述虚拟左双耳信号源和所述虚拟右双耳信号源的所述位置和方向性，使得所述虚拟左双耳信号源指向所述用户左耳，所述虚拟右双耳信号源指向所述用户右耳。另外或可选地，所述虚拟左双耳信号源的位置接近所述用户左耳，所述虚拟右双耳信号源的位置接近所述用户右耳。因此，通过自动方式，所述虚拟双耳信号源的理想位置和/或方向性可以靠近所述用户的耳朵，从而使用户获得理想的感知条件并使对周围其他用户的干扰降到最低。

在所述第二方面的第四实施形式中，为了确定所述用户头部的所述位置和/或方向，使用至少一个可见光摄像机和/或至少一个超声传感器和/或至少一个红外光摄像机和/或至少一个陀螺仪和/或至少一个磁传感器。因此，有可能通过低成本的标准传感器来非常准确地跟踪用户头部。

根据所述第二方面的第五实施形式，确定所述驱动函数包括将所述虚拟左双耳信号源的左声场和所述虚拟右双耳信号源的右声场作为对应所述多个扬声器的多极源的组合来计算，以及通过对每个多极源进行时间反转来获得所述扬声器驱动函数。因此，有可能非常准确地确定所述驱动函数。

根据本发明的所述第二方面的第六实施形式，通过考虑在所述用户头部声学散射和/或在环境对象声学散射来执行所述声场计算。因此，有可能极度准确地确定所述驱动函数。

根据本发明的所述第二方面的第七实施形式，所述多个输出信号从所述输入音频信号和至少一个又一输入音频信号中生成，其中，所述输入音频信号和所述又一音频信号是针对两个不同用户的信号。在这种情况下，基于所述虚拟左双耳信号源的所述位置和方向性、所述虚拟右双耳信号源的所述位置和方向性、又一左双耳信号源的位置和方向性、又一虚拟右双耳信号源的位置和方向性以及所述多个扬声器的位置确定所述多个扬声器的所述驱动函数以生成所述虚拟左双耳信号源、所述虚拟右双耳信号源、所述又一左双耳信号源和所述又一虚拟右双耳信号源。使用所述多个扬声器的所述驱动函数滤波所述左双耳信号、所述右双耳信号、又一左双耳信号和又一右双耳信号，产生多个输出信号，其中，所述又一左双耳信号源和所述又一右双耳信号源构成所述又一输入音频信号或从其中推导出。因此，有可能为第二用户生成信号，使得所述用户可以感知定向音频信息，同时周围其他用户只受到微小干扰。有利的是，还有可能使所述设备为两个以上用户生成信号。

根据所述第二方面的第八实施形式，所述输入音频信号为单音频信号，所述左双耳信号和所述右双耳信号从所述单音频信号和单音频信号位置中推导出。因此，有可能为单向单音频信号产生定向感觉。

根据本发明的第三方面，提供了一种具有程序代码的计算机程序，所述计算机程序在计算机上运行时用于执行根据所述第二方面和所述第二方面的所述实施形式的所述方法。因此，有可能使用低成本标准计算机硬件生成所述多个输出信号。

一般而言，需要注意的是，本申请中描述的所有装备、设备、元件、单元和构件可以通过软件或硬件元件或其任意类型的组合来实施。本申请中描述的各种实体执行的所有步骤和所描述的将由所述各种实体执行的功能旨在表明各个实体适于或用于执行各个步骤和功能。即使在下文描述或特定实施例中，由一般实体执行的具体功能或步骤没有体现在执行该具体步骤或功能的那个实体的具体详细元件的描述中，技术人员也应清楚，这些方法和功能可以在各个软件或硬件元件或其任意类型的组合中实施。

附图说明

下文相对于本发明的实施例且参考附图详细阐述本发明，在附图中：

图1所示为方框图中的根据本发明的音频处理设备的第一实施例；

图2所示为方框图中的根据本发明的音频处理设备的第二实施例；

图3所示为方框图中的本发明的音频处理设备的第三实施例的详细内容；

图4所示为方框图中的本发明的音频处理设备的第四实施例的详细内容；

图5所示为方框图中的本发明的音频处理设备的第五实施例的详细内容；

图6所示为方框图中的根据本发明的系统的第一实施例；

图7所示为流程图中的根据本发明的音频信号处理方法的第一实施例；

图8所示为流程图中的根据本发明的音频信号处理方法的第二实施例；

图9所示为头部模型的概述；

图10所示为头部模型的概述中的传输函数；

图11所示为头部模型中的串音抵消的概述；

图12所示为由扬声器阵列生成的虚拟双耳信号源；

图13所示为扬声器阵列围绕用户头部的布置；

图14所示为扬声器阵列围绕用户头部的又一布置；

图15所示为根据本发明的音频信号处理设备的第六实施例；

图16所示为根据本发明的音频信号处理设备的第七实施例；

图17所示为根据本发明的音频信号处理设备的第八实施例；

图18所示为根据本发明的音频信号处理设备的第九实施例；

图19所示为根据本发明的音频信号处理设备的第十实施例；

图20所示为根据本发明的音频信号处理设备的第十一实施例；

图21所示为根据本发明的音频信号处理设备的第十二实施例；

图22所示为根据本发明的音频信号处理设备的第十三实施例；

图23所示为使用本发明的音频信号处理设备的实施例的音频电平测量的第一结果；

图24所示为使用本发明的音频信号处理设备的实施例的音频电平测量的第二结果；

图25所示为使用本发明的音频信号处理设备的实施例的音频电平测量的第三结果。

具体实施方式

在图1中，描述了发明性音频信号处理设备10的第一实施例。音频信号处理设备10包括驱动函数确定单元11和滤波单元12。驱动函数确定单元11用于基于虚拟左双耳信号源的位置和方向性、虚拟右双耳信号源的位置和方向性以及多个扬声器的位置确定多个扬声器的驱动函数以生成虚拟左双耳信号源和虚拟右双耳信号源。所得驱动函数传递给滤波单元12，滤波单元12用于使用多个扬声器的驱动函数滤波左双耳信号和右双耳信号，产生多个输出信号。

有利的是，该驱动函数确定单元提供有虚拟双耳信号源的位置和方向性。可选地，可以确定虚拟双耳信号源的位置和方向性。这在图2中描述。

同样有利的是，滤波单元12提供有左双耳信号和右双耳信号。可选地，右双耳信号和右双耳信号可以从至少一个信号和信号位置中生成。

在图2中，示出了发明性音频信号处理设备10的第二实施例。这里，音频信号处理设备10还包括虚拟源位置确定单元20，虚拟源位置确定单元20确定虚拟双耳信号源的位置和方向性。虚拟双耳信号源的位置和方向性递交给驱动函数确定单元11。

在图3中，示出了发明性音频信号处理设备的第三实施例的详细内容。这里，示出了图2的虚拟源位置确定单元的内部结构。虚拟源确定单元20包括头部跟踪单元30，头部跟踪单元30跟踪用户头部位置和方向。虚拟源位置确定单元20还基于用户头部的位置和方向确定虚拟双耳信号源的位置和方向，使得左双耳信号源指向用户左耳，右双耳信号源指向用户右耳。有利地或可选地，左双耳信号源的位置靠近用户左耳，而虚拟右双耳信号源的位置靠近所述用户右耳。

在图4中，示出了发明性音频信号处理设备的第四实施例的详细内容。这里，示出了图3的头部跟踪单元30的内部结构。头部跟踪单元30包括至少一个可见光摄像机40和/或至少一个红外光摄像机41和/或至少一个超声传感器42。在图4的示例中，头部跟踪单元30包括所有上述三种传感器。但是这并不被视为限制。也可能是仅使用单个传感器的头部跟踪单元30。上述传感器用于确定用户头部位置和方向。另外或可选地，可以使用其它传感器，例如陀螺仪和磁传感器。

在图5中，示出了根据本发明的音频信号处理设备的第五实施例的详细内容。这里，示出了图2的驱动函数确定单元11的内部结构。驱动函数确定单元11包括声场计算单元50和时间反转单元51。声场计算单元50将虚拟左双耳信号源的左声场和虚拟右双耳信号源的右声场作为对应多个扬声器和输出信号要输出的多极源的组合来计算。时间反转单元51还通过对每个多极源进行时间反转计算来获得扬声器驱动函数。

在图6中，示出了发明性系统60的第一实施例。系统60包括前面描述的音频信号处理设备10、放大器设备61和扬声器阵列62。音频信号处理设备10连接到放大器设备61，放大器设备61再连接到扬声器阵列62。音频信号处理设备10将输出信号提供给放大器设备61，放大器设备61放大输出信号。放大的输出信号还提供给扬声器阵列62，扬声器阵列62输出该放大的输出信号。

在图7中，流程图中示出了发明性音频信号处理方法的第一实施例。在第一步骤70中，多个扬声器的驱动函数基于虚拟左双耳信号源的位置和方向性、虚拟右双耳信号源的位置和方向性以及多个扬声器的位置生成。驱动函数完成了在特定位置和方向性处生成虚拟左双耳信号源和虚拟右双耳信号源的目标。在第二步骤71中，使用在第一步骤70中确定的多个扬声器的驱动函数滤波左双耳信号和右双耳信号，产生多个输出信号，这些输出信号又有利地由扬声器阵列输出。

在图8中，流程图中示出了发明性音频信号处理方法的更详细实施例。在第一步骤80中，确定虚拟左双耳信号源和虚拟右双耳信号源的位置和方向性。例如，这种确定可以包括跟踪用户头部位置和方向、确定耳朵位置、将虚拟左双耳信号源定位为接近和/或指向用户左耳以及将虚拟右双耳信号源定位为接近用户右耳和/或指向用户右耳。在第二步骤81中，计算虚拟左和右双耳信号源的声场。在第三步骤82中，通过对对应各个扬声器的每个多极源执行时间反转计算来确定多个扬声器的驱动函数以生成虚拟左双耳信号源和虚拟右双耳信号源。在第四步骤83中，使用前面确定的驱动函数滤波左双耳信号和右双耳信号。第四步骤83的结果是针对多个扬声器的多个输出信号。在最后的第五步骤84中，使用扬声器阵列输出信号。

在下文中，给出了技术背景的更仔细审查和本发明的基本运算。

双耳信号为双声道音频信号，例如离散立体声信号或参数立体声信号，由单音下混频和空间侧信息组成，空间侧信息捕获人类听觉系统用来定位声源的整组空间线索。当听者耳鼓处的声压发生在真实声学场景时捕获该声压，当将双耳信号呈现给用户时，在听者耳鼓处产生的信号跟实际在记录位置处所捕获的信号一致。双耳信号可使用合适的传递函数或脉冲响应生成，传递函数可以为频域中的头相关传递函数(head related transferfunction，HRTF)，脉冲响应可以为时域中的头相关脉冲响应(Head-related impulseresponse，HRIR)或双耳房间脉冲响应(binaural room impulse response，BRIR)，或者双耳信号可使用仿真头或入耳式麦克风等合适记录设备进行记录。

例如，参考图9，生成音频源信号S的人或者乐器或者甚至单音扬声器等声学源S可以在左耳作为左耳入口信号或左耳音频信号E_L以及在右耳作为右耳入口信号或右耳音频信号E_R由用户或听者感知。描述从源S到左耳E_L以及到右耳E_R的传输声道的对应传递函数可以为，例如描绘为图9中的H_L和H_R的对应左耳和右耳头相关传递函数(head-relatedtransfer function，HRTF)。

如图9所示，为了给置于坐标系原点的听者产生位于球形坐标中的位置(r,θ,φ)的虚拟源S的感知，与此类似，源信号S可以通过虚拟源位置以及听者左耳和右耳对应的HRTFH(r,θ,φ)进行滤波以获得耳入口信号E，即E_L和E_R。

(\begin{matrix} E_{L} \\ E_{R} \end{matrix}) = (\begin{matrix} H_{L} \\ H_{R} \end{matrix}) S .

换言之，通过基于音频源S的预期虚拟位置r、θ和φ来选择合适的HRTF，任何音频源信号S都可以处理使得在其通过头戴式耳机或耳塞式耳机重现时听者能够感知音频源信号置于预期位置处。

以这种方式产生的双耳定位线索的正确重现的一个重要要求在于耳信号E在听者耳鼓处重现，这在使用如图9所描述的头戴式耳机或耳塞式耳机时很自然地得到实现。头戴式耳机和耳塞式耳机的共同点是它们直接位于耳上或甚至位于耳内，以及放置头戴式耳机或耳塞式耳机包含的扬声器的膜使得它们直接指向耳鼓。然而，在很多情况下，穿戴头戴式耳机不被听者接受，因为穿戴起来不舒服或者可能会使耳朵听不见外界声音。此外，包括手机等移动设备的许多设备都包括扬声器。

为了将双耳信号呈现给用户，有必要确保每个声道独立呈现，而不会产生串音。串音是指一种不期望的情况，其中一部分在听者右耳鼓处记录的信号呈现给左耳，反之亦然。防止串音在使用传统头戴式耳机呈现双耳信号时很自然地实现。

使用传统扬声器的呈现因此需要一种使用合适的处理来主动抵消不期望串音的方法，这避免了左扬声器产生的信号到达右耳鼓，反之亦然。没有串音的双耳信号可以提供全沉浸式3D收听体验，其中声源的位置不受限制但是基本上跨越听者周围的整个3D空间。

例如，使用传统扬声器对在听者耳朵处重现双耳信号需要解决串音问题，这在通过头戴式耳机重现双耳信号时不能很自然地发生，因为左耳信号E_L可以直接且只能在听者左耳处重现，而右耳信号E_R直接且只能在听者右耳处重现。

通过串音抵消技术，对于预期左耳和右耳入口信号E_L和E_R，可以计算对应的扬声器信号。当一对(远距离)左和右立体声扬声器播放两个信号，即X_L(jω)和X_R(jω)时，听者的左耳和右耳入口信号，即E_L(jω)和E_R(jω)，可以构建为：

(\begin{matrix} E_{L} (j ω) \\ E_{R} (j ω) \end{matrix}) = (\begin{matrix} G_{L L} (j ω) & G_{L R} (j ω) \\ G_{R L} (j ω) & G_{R R} (j ω) \end{matrix}) (\begin{matrix} X_{L} (j ω) \\ X_{R} (j ω) \end{matrix}), - - - (1)

其中，G_LL(jω)和G_RL(jω)为从左和右扬声器到左耳的传递函数，G_LR(jω)和G_RR(jω)为从左和右扬声器到右耳的传递函数。G_RL(jω)和G_LR(jω)表示不期望的串音路径，其需要取消以正确地重现所需耳朵入口信号E_L(jω)和E_R(jω)。这在图10中描述。

在向量矩阵表示法中，(1)为：

E＝GX, (2)

其中

E = (\begin{matrix} E_{L} (j ω) \\ E_{R} (j ω) \end{matrix})

G = (\begin{matrix} G_{L L} (j ω) & G_{L R} (j ω) \\ G_{R L} (j ω) & G_{R R} (j ω) \end{matrix})

X = (\begin{matrix} X_{L} (j ω) \\ X_{R} (j ω) \end{matrix}) .

一种解决该问题的简单方法将是采用基于滤波器求逆的串音抵消技术，其中，给定的预期耳朵入口信号E所对应的扬声器信号X通过对传递函数G求逆来获得。

X＝G^-1E, (4)

这种方法在图11中描述。

然而，该技术仍然很难成功实施，因为该技术会调用经常是病态的矩阵的求逆。矩阵求逆会导致不现实的高滤波增益，这在实践中不可用。所需要的扬声器的范围非常大且是动态的，且大量声学能量可向除用户的两只耳朵之外的区域辐射。

可选地，可以采用基于扬声器阵列的声场合成。声场合成通常旨在在大听音区域中产生经过分析给出的声场。该重现通常是为了提供同源空间听觉事件给更多听者而不是一个人。

第一种使用基于扬声器阵列的声场合成以呈现双耳信号给听者的方法是称为双耳天空的系统。这里，这种理念是合成听者耳朵处的两个虚拟点源。一个虚拟点源是将双耳信号的第一声道呈现给左耳，第二个点源是将双耳信号的第二声道呈现给右耳。

通过使用听者头部之上的圆形扬声器阵列和一种跟踪听者旋转的方式一起，该系统能够实现虚拟源的稳定定位，即使听者在旋转他的头。

这种方法的缺点是：听者必须停留在阵列的中心，即最佳地点，所以无法应对听者的运动状态，以及不考虑听者头部导致的散射声场，即该方法基于自由场假设，该假设仅在听者进入最佳地点时成立。此外，这种方法的缺点还包括除了该用户之外的其它用户会听到失真版本的声音。

除通过滤波器求逆进行的串音抵消之外，另一种对于双耳信号空间重现的有前景的方法是波束成形。波束成形技术有时在雷达或卫星通信等领域中使用，在声学领域，有时适用于使用麦克风阵列记录声学场景。这里，将声波向某些方向发出只是为了将声学能量通过扬声器波束成形集中到某一方向，而不是捕获源自预期方向的声音。这会产生两个独立的波束，其中双耳信号的第一声道对应的第一波束指向听者左耳的位置，双耳信号的第二声道对应的第二波束指向听者左耳的位置。该方法的优点在于，波束成形器的使用使得环境干扰降低到最低，因为大多数能量指向听者耳朵的位置。然而，波束成型器的定向选择性强烈依赖于扬声器阵列的属性，尤其是扬声器的大小和数量。此外，该方法基于自由场假设，而且不考虑用户身体和环境对象导致的散射。

在图12中，描述了利用扬声器阵列120的左双耳信号和右双耳信号的合成。左双耳信号放置在虚拟左双耳信号源121处，虚拟左双耳信号源121的位置接近用户左耳并指向用户左耳，而右双耳信号放置在虚拟右双耳信号源122处，虚拟右双耳信号源122的位置接近用户右耳并指向用户右耳。定向源可以通过多极源的叠加来实现。声源或为定向集中点源或为集中扩展源，充当虚拟阵列，其执行一些波束成形技术，如以下小节描述。

集中定向点源的合成：

对于无限制音频内容的重现，实施滤波器，优选地实施无限冲激响应滤波器(finite impulse response filter，FIR)，使得在每个离散频率点中实现预期方向性。选择的频率点数量取决于可用计算资源，但是也影响计算滤波器的性能。计算的频率范围根据时间采样率选择并且通常应覆盖达到尼奎斯特频率的所有频率点。例如，对于44100Hz的采样频率和1024抽的预期滤波器长度，需要考虑512个频率点，这些应统一使达到22050Hz的频率范围离散化。如果不在频域中执行进一步处理，则滤波器的时域表示可以通过快速傅立叶反变换(Inverse Fast Fourier Transform，IFFT)块获得。

通过求解波动方程的正交函数对声场进行典型描述。根据表达和分离波动方程的坐标系，声场通常分别通过笛卡尔坐标系中的平面波、柱面或球面坐标中的柱面或球面波表示。柱面和球面波分为独立的径向和角分量。对于滤波器的解析推导，通过求解对应坐标系中的波齐次方程的正交基本函数来扩展集中源的声场，即2维设置时为柱面，3维设置时为球面。由于预期直达声源来自方向[φ₀，θ₀]，在位置r＝[r，φ，θ]处的声场给出为：

P (k, r) = Σ_{n = 0}^{N} Σ_{m = - n}^{n} i^{n} j_{n} (k r) Y_{n}^{m} (θ_{0}, φ_{0}) Y_{n}^{m} (θ, φ),

其中i表示复单位，表示n，m阶的球面谐波，j_n表示第一类的球面贝塞尔函数，为波数，其中c代表声速。

对于其它源，可以进行不同预期方向的相同扩展。因为到目前为止，相对不同原点、原点到共同原点的转换，优选地，在圆形扬声器阵列的中心进行扩展，但是该中心还可以为任意选中的点。

通过利用一个点的声压的不变性相对于扩展坐标进行转换。

然后，通过假设自由场格林函数在扬声器位置处计算预期集中源的压力。随后计算扬声器的驱动函数，使得发出时间反转的声场。根据Kirchhof-Helmholtz积分的高频近似，驱动函数为声压在扬声器位置处的法向导数，而且可以通过施加共轭在频域中获得时间反转：

D (r_{s}) = a (r_{s}) \frac{\partial P * (r_{s}, ω)}{\partial n},

其中，a(r_s)表示次级源选择的可选窗口函数，{·}^*表示共轭并且实现时间反转腔。

集中定向扩展源的合成：

对于集中定向扩展源的合成，扩展源通过集中点源的分布来近似，例如该部分可以为线性分布，而且为了实现方向性，在虚拟点源上应用波束成形器。这可以是延迟和加法波束成形器，其中，每个虚拟点源的信号被延迟，使得所得波前与预期控制方向垂直。

头模型并入：

●由于多极，该合成理论上并入听者头部的散射场的模型，使得对散射场进行补偿。

●靠近听者耳朵的预期直达虚拟源的散射和入射场用于计算扬声器信号。

●通过利用时间反转腔以分析的方式进行推导。

●本专利还应涵盖通过最小化重现误差的数值推导作为替代性实施方式。

合成滤波器的数值计算：

●数值优化基于多个点，而且可以基于存在仿真头或头模型的测量或合成脉冲响应。优选地，对于测量，集中球形扬声器放置在定向集中源的预期位置处。扬声器阵列发出已知的定向性测试序列(例如对数扫瞄)，方向性优选地通过采用模态波束成形技术来实现。仿真头等散射体可以靠近集中球形扬声器阵列放置。记录测试序列的麦克风围绕听音区放置在稍后放置重现扬声器的位置处。

●相对扬声器信号最小化的成本函数优选地为在预期虚拟源的位置处捕获的麦克风信号与在自由场条件下获得的理想化信号之间的均方误差。

●滤波器计算所需要的求逆运算优选地使用频率相关方案来正规化。

●滤波器离线计算并保存在查找表或在线计算，取决于用户位置。

在图13中，描绘了利用扬声器阵列130的在用户头部133周围的虚拟源131、132的可能放置的示例性设置。这里，只有两个虚拟源的位置接近用户耳朵。虚拟源指向相应耳朵。

在图14中，描绘了利用扬声器阵列130的在用户头部133周围的虚拟源141、142的可能放置的替代性实施例设置。这里，多个虚拟源的位置接近用户的每只耳朵。虚拟源在这里是单向的。

在图15中，描绘了发明性音频信号处理设备的又一示例性实施例。基于可预定义的(静态的)听者位置和头部方向，由听者手动指定或头部跟踪设备150自动确定，例如运动跟踪设备使用诸如光、陀螺或磁传感器等合适传感器，在第一步骤，基于听者耳朵位置的估计确定虚拟源的预期位置。虚拟源指向听者耳朵。左虚拟源的位置靠近并指向听者左耳，右虚拟源的位置靠近并指向听者右耳。虚拟源的定位由位置计算单元152执行。

基于虚拟源的位置和扬声器阵列的陀螺设置，由驱动函数确定单元为对应左和右虚拟源的每个扬声器计算最优扬声器驱动函数，例如脉冲响应，该驱动函数确定单元在本实施例中划分为两个部分驱动函数确定单元153a、153b。

考虑到所有扬声器驱动函数对应左虚拟源，呈现给听者的双耳信号的左声道与扬声器驱动函数卷积以获得在每个扬声器上播放的信号。双耳信号的右声道与对应右虚拟源的所有扬声器驱动函数卷积。这种滤波由滤波单元执行，该滤波单元在本示例性实施例中由两个部分滤波单元154a、154b组成。

最后，对应左虚拟源和右虚拟源的所得扬声器信号在加法单元155中加起来，可选地由没有描述的放大单元进行放大，然后由扬声器阵列156输出。

在图16中，示出了发明性音频信号处理设备的又一示例性实施例。这里，可听化单元160执行音频信号预处理，音频信号的预期空间位置考虑用户头部位置和方向。所得信息如图15所述处理。

图17所示为发明性音频信号处理设备的又一实施例。本实施例的重点是左和右虚拟源的扬声器驱动函数的计算。如前面说明，用户头部的位置和方向由头部跟踪单元170跟踪。虚拟源的位置和指向性随后由虚拟源位置确定单元172计算。考虑到左和右虚拟源的位置，扬声器选择单元基于阵列的几何选择最佳扬声器集合，该扬声器选择单元在这里描述为两部分扬声器选择单元173a、173b。扬声器的位置和虚拟源的位置随后用于由两部分声场计算单元174a、174b计算分散且直达声场。这些声场被认为是对应扬声器阵列178中的各个扬声器的多极组合。最后两部分时间反转单元176a、176b通过每个多极源的时间反转获得扬声器驱动函数。从此，进一步处理等同于前面描述和说明的进一步处理。

在图18中，示出了发明性音频信号处理设备的又一实施例。这里，基于一组双耳房间脉冲响应(binaural room impulse responses，BRIR)180，双耳房间脉冲响应选择单元181基于用户头部的位置和方向选择双耳房间脉冲响应。在这之后，耳间时差校正单元182基于听者的耳间时差估计和基于虚拟源位置确定单元183进行的虚拟源位置计算执行耳间时差校正。音频内容随后由两部分卷积单元184a、184b使用耳间时差校正的结果进行卷积。所得的卷积音频信号随后进一步如图15至17所述和所示参考音频内容进行处理。

在下文，多个用例以发明性音频处理设备的其它实施例的形式提出：

在图19中，提出了用于渲染双耳信号的发明性音频处理设备的实施例。这里，双耳信号的左声道L和右声道R直接传递给两部分滤波单元195a、195b，该滤波单元通过前面提到的附图所描述确定的驱动函数执行滤波。

图20所示为用于在虚拟位置渲染单音源的发明性音频处理设备的实施例。为了在虚拟位置处渲染单音源，如图16所说明，基于预期源位置在可听化单元中生成双耳信号。图16的可听化单元160对应图20的双耳信号发生器204。可选地，头部旋转信息可以用于将双耳信号适应听者头部方向的改变。除此之外，处理等同于前面描述的实施例。

在图21中，示出了用于渲染多声道音频信号的发明性音频处理设备的实施例。为了渲染多声道(2+、立体、环绕)音频信号，生成双耳信号，其中每个声道对应可听化单元215中的预期位置的虚拟扬声器。具有不同内容和位置的多个不同音频源可以实施在双耳信号中。可选地，头部旋转信息可以用于将双耳信号适应听者头部方向的改变。剩余处理等同于前面描述的实施例。

图22所示为用于动态双耳渲染的发明性音频处理设备的替代性实施例，这对执行源的动态双耳渲染有益。图22中示出了单个源，但是任意数量的源是可能的，而且使用该策略可以重现立体声或多声道内容。这里，固定HRTF不用于渲染源，但是HRTF根据听者位置的信息动态地更新，信息至少包括头部的位置和方向。因此，实现了以下效应。初始在听者左侧90度处渲染的源将在听者将其头部转90度之后出现在听者正前方0度。这种处理由可听化单元221执行。这种动态双耳渲染大大提高了双耳渲染的感知质量。具体而言，前后混淆可以急剧降低。除了上述描述的改变之外，处理等同于前面描述的实施例。

在下文，分析了发明性音频信号处理设备的实施例的性能：

在图23、图24和图25中，心型波束模式的指向性的虚拟聚焦源的合成示为将次级源的圆形分布作为凸扬声器分布的具体实现的单极和双极的叠加。

本文已经结合各种实施例描述了本发明。但本领域技术人员通过实践本发明，研究附图、本发明以及所附的权利要求，能够理解并获得公开实施例的其他变体。在权利要求书中，词语“包括”不排除其它元素或步骤，“一”不排除多个。单个处理器或其他单元可以完成权利要求中描述的几个器件的功能。在仅凭某些措施被记载在通常不同的从属权利要求书中这个单纯的事实并不意味着这些措施的结合不能被有效地使用。计算机程序可存储或分发到合适的介质上，例如与其它硬件一起或者作为其它硬件的部分提供的光存储介质或者固态介质，还可以以其它形式例如通过因特网或者其它有线或无线电信系统分发。

Claims

1.一种用于从输入音频信号中为多个扬声器(62、120、130、156)生成多个输出信号的音频信号处理设备(10)，其特征在于，包括：

驱动函数确定单元(11、153a、153b)，用于基于虚拟左双耳信号源(121、131、141)的位置和方向性、虚拟右双耳信号源(122、132、142)的位置和方向性以及所述多个扬声器(62、120、130、156)的位置确定所述多个扬声器(62、120、130、156)的驱动函数以生成所述虚拟左双耳信号源(121、131、141)和所述虚拟右双耳信号源(122、132、142)，

滤波单元(12、154a、154b、176a、176b、195a、195b)，用于使用所述多个扬声器的所述驱动函数(62、120、130、156)滤波左双耳信号(L)和右双耳信号(R)，产生所述多个输出信号，其中，所述左双耳信号(L)和所述右双耳信号(R)构成所述输入音频信号或从其中推导出。

2.根据权利要求1所述的设备，其特征在于，

所述驱动函数确定单元(11、153a、153b)用于基于所述虚拟左双耳信号源(121、131、141)和所述虚拟右双耳信号源(122、132、142)的预设或接收到的位置和/或方向性确定所述驱动函数。

3.根据权利要求1所述的设备，其特征在于，

包括虚拟源位置确定单元(20、150、152、170、172)，其用于确定所述虚拟左双耳信号源(121、131、141)和所述虚拟右双耳信号源(122、132、142)的所述位置和/或方向性。

4.根据权利要求3所述的设备，其特征在于，

所述虚拟源位置确定单元(20、150、152、170、172)包括头部跟踪单元(30、150、170)，其用于跟踪用户头部(133)的位置和/或方向，

所述虚拟源位置确定单元(20、150、152、170、172)，基于所述用户头部(133)的所述位置和/或方向确定所述虚拟左双耳信号源(121、131、141)和所述虚拟右双耳信号源(122、132、142)的所述位置和方向性，使得

所述虚拟左双耳信号源(121、131、141)指向所述用户左耳，所述虚拟右双耳信号源(122、132、142)指向所述用户右耳，和/或

所述虚拟左双耳信号源(121、131、141)的位置接近所述用户的左耳，所述虚拟右双耳信号源(122、132、142)的位置接近所述用户的右耳。

5.根据权利要求4所述的设备，其特征在于，

所述头部跟踪单元(30、150、170)包括至少一个可见光摄像机(40)和/或至少一个超声传感器(42)和/或至少一个红外光摄像机(41)和/或至少一个陀螺仪和/或至少一个磁传感器，这些传感器用于跟踪所述用户头部的所述位置和/或方向。

6.根据权利要求1至5的任一项所述的设备，其特征在于，

所述驱动函数确定单元(11、153a、153b)包括：

声场计算单元(50、174a、174b)，用于将所述虚拟左双耳信号源(121、131、141)的左声场和所述虚拟右双耳信号源(122、132、142)的右声场作为对应于所述多个扬声器(62、120、130、156)的多极源的组合来计算，

时间反转单元(51、175a、175b)，用于通过对每个多极源进行时间反转计算来获得所述扬声器驱动函数。

7.根据权利要求6所述的设备，其特征在于，

所述声场计算单元(50、174a、174b)用于在计算所述左声场和所述右声场时将所述用户头部(133)的散射和/或环境对象的散射考虑进去。

8.根据权利要求1至7的任一项所述的设备，其特征在于，

所述设备(10)用于从所述输入音频信号和至少又一输入音频信号中生成所述多个输出信号，其中，所述输入音频信号和所述又一音频信号是针对两个不同用户的信号，

所述驱动函数确定单元(11、153a、153b)用于基于所述虚拟左双耳信号源(121、131、141)的所述位置和方向性、所述虚拟右双耳信号源(122、132、142)的所述位置和方向性、又一左双耳信号源的位置和方向性、又一虚拟右双耳信号源的位置和方向性以及所述多个扬声器(62、120、130、156)的位置确定所述多个扬声器(62、120、130、156)的所述驱动函数以生成所述虚拟左双耳信号源(121、131、141)、所述虚拟右双耳信号源(122、132、142)、所述又一虚拟左双耳信号源和所述又一虚拟右双耳信号源，

滤波单元(12、154a、154b、176a、176b、195a、195b)用于使用所述多个扬声器(62、120、130、156)的所述驱动函数滤波所述左双耳信号、所述右双耳信号、又一左双耳信号和又一右双耳信号产生多个输出信号，其中，所述又一左双耳信号和所述又一右双耳信号构成所述又一输入音频信号或从其中推导出。

9.根据权利要求1至8的任一项所述的设备，其特征在于，

所述输入音频信号为单音频信号，

所述左双耳信号和所述右双耳信号从所述单音频信号和单音频信号位置中推导出。

10.一种包括根据权利要求1至9的任一项所述的设备(10)、放大器设备(61)和扬声器阵列(62)的系统(60)，其特征在于，

所述设备(10)用于将所述输出信号提供给所述放大器设备(61)，

所述放大器设备(61)用于放大所述输出信号，

所述扬声器阵列(62)用于输出所述放大的输出信号。

11.根据权利要求10所述的系统，其特征在于，

所述扬声器阵列(62)包括多个扬声器(120、130、156)，每个扬声器连接到所述放大器设备(61)中的多个放大器之一，

所述放大器设备(61)中的每个放大器用于放大单个输出信号并驱动所述连接的扬声器(120、130、156)以输出所述输出信号。

12.根据权利要求10或11所述的系统，其特征在于，

所述多个扬声器(62)布置为

二维地围绕所述用户，或

三维地围绕所述用户，或

二维地在所述用户的一侧，或

三维地在所述用户的一侧。

13.根据权利要求10至12的任一项所述的系统，其特征在于，

所述设备(10)、所述放大器设备(61)和所述多个扬声器(62)包含声霸或平板PC或移动电话或智真系统。

14.一种用于从输入音频信号中为多个扬声器(62、120、130、156)生成多个输出信号的音频信号处理方法，其特征在于，包括以下步骤：

基于虚拟左双耳信号源的位置和方向性、虚拟右双耳信号源的位置和方向性以及多个扬声器的位置确定所述多个扬声器(70、81、82)的驱动函数以生成所述虚拟左双耳信号源和虚拟右双耳信号源，

使用所述多个扬声器的所述驱动函数滤波左双耳信号和右双耳信号，产生多个输出信号(71、83)，其中，所述左双耳信号和所述右双耳信号构成输入音频信号或从所述输入音频信号推导出。

15.一种具有程序代码的计算机程序，其特征在于，所述计算机程序在计算机上运行时用于执行根据权利要求14所述的方法。