CN107534825B

CN107534825B - 音频信号处理装置和方法

Info

Publication number: CN107534825B
Application number: CN201580079121.2A
Authority: CN
Inventors: 庞立昀; 帕布洛·霍夫曼
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-04-22
Filing date: 2015-04-22
Publication date: 2019-12-24
Anticipated expiration: 2035-04-22
Also published as: BR112017022609B1; KR101981150B1; CN107534825A; EP3216235B1; KR20170094297A; WO2016169591A1; US20170346951A1; BR112017022609A2; JP2018506222A; MY186995A; US10412226B2; EP3216235A1; MX2017013569A; CA2983359A1; RU2694335C1; JP6434157B2; CA2983359C

Abstract

本发明涉及一种用于处理对多个音频信号频谱进行定义的多个音频信号(105)的音频信号处理装置(100)，该音频信号被发送至听众，使得听众感觉到该音频信号来自多个音频信号源的虚拟位置。该音频信号处理装置包括：选择器(101)，用于从多个可能的空间排列中选择相对于听众的音频信号源的虚拟位置的空间排列；滤波器(103)，用于基于所选择的空间排列，对所述多个音频信号进行滤波。

Description

音频信号处理装置和方法

技术领域

本发明涉及音频信号处理装置和方法。特别地，本发明涉及用于虚拟空间音频会议系统的音频信号处理装置和方法。

背景技术

在过去，多方音频会议系统中扬声器的声音通常作为单声道音频流呈现给听众——这基本上是彼此相互堆叠在一起，并且当使用耳机时通常将其呈现给听众的“大脑内”。

虚拟空间音频会议系统是由ITU-T建议P.1301“音频和视听多方远程会议的主观质量评估”定义的多方远程会议的特殊形式，实现了参与者声音的3D音频渲染。也就是说，通过采用从头相关冲激响应(head-related impulse response，简称HRIR)或其对应的频域表示，即头相关传递函数(head-related transfer function，简称HRTF)和/或双耳房间冲激响应(binaural room impulse response，简称BRIR)或其对应的频域表示，即双耳房间传递函数(binaural room transfer function，简称BRTF)推导出的空间滤波器，将参与者的声音置于空间中的不同“虚拟”位置。这些滤波器对人类用于空间声音感知的听觉线索进行编码，即双耳时间差(interaural time difference，简称ITD)、双耳声级差(interaural level difference，简称ILD)、频谱线索以及诸如BRIR情况下的混响等的室内声学信息。相对于参与者声音的单声道音频流，3D音频渲染的有益效果不仅在于会议体验更自然，而且在于语音清晰度也大大增强。经表明，当目标扬声器和通常被称为掩蔽器的竞争扬声器(虚拟地)在空间上分离时，科学上称为空间去掩蔽的心理声学效应可以提高语音清晰度高达12-13dB。

US7391877描述了一种空间声音处理器，其以沿着以听众位置为中心的圆虚拟地将扬声器分布在非等距的位置上。基于对语音识别的心理声学测试的结果，系统以放在听众前面的扬声器的较小虚拟空间分离开始。然后，随着扬声器被放置在更多的横向位置，扬声器之间的虚拟空间间隔也会增加。对于方位角为±90度的方向，给出了两个虚拟扬声器位置，其中，一个位于远场，另一个位于近场。WO2013/142641和WO2013/142668中描述了基于等距或非等距扬声器的类似方案。

已经尝试使用语音信号本身包含的信息来增强语音清晰度。这些尝试，即使用语音信息将扬声器与掩蔽器分开，在很大程度上取决于目标扬声器和掩蔽器，即能量掩蔽之间存在的频谱重叠量。为了移除掩蔽器能量占主导地位的时频区域，仅保留目标语音能量占主导地位的那些时频区域，已经提出了理想的时频二进制掩膜，例如，在Brungart等人“隔离具有理想的时频偏析的语音对讲掩蔽的能量分量”，J.Acoust.Soc.Am.第120卷第6篇，2006年。由于需要使用来自目标扬声器和掩蔽器扬声器的干净(原始)语音信号，因此它们是理想的。更具体地，需要关于目标扬声器和掩蔽器扬声器的先验知识，以便可以保留那些由目标扬声器支配的声学混合的时频区域。然而，实践中，有时候目标扬声器不是先验或变量。例如，在虚拟空间音频会议中，每个参与者都可以是一定时间段内的目标扬声器。

因此，需要一种改进的音频信号处理装置和方法，特别是提高虚拟空间音频会议系统中的语音清晰度的音频信号处理装置和方法。

发明内容

本发明的目的是提供一种提高虚拟空间音频会议系统中的语音清晰度的音频信号处理装置和方法。

该目标通过独立权利要求的主题得以实现。从属权利要求、说明书和附图中提供了进一步的实现方式。

根据第一方面，本发明涉及一种用于处理对多个音频信号频谱进行定义的多个音频信号的音频信号处理装置，所述多个音频信号被发送至听众，使得听众感觉到所述多个音频信号来自多个音频信号源的虚拟位置。音频信号处理装置包括：选择器，用于从相对于听众的多个音频信号源的虚拟位置的多个可能的空间排列中选择相对于听众的多个音频信号源的虚拟位置的空间排列，其中，所述多个音频信号源的虚拟位置的每个可能的空间排列都与多个传递函数相关联，其中，所述选择器用于基于所述多个音频信号频谱以及与所述多个音频信号源的虚拟位置的每个可能的空间排列相关联的多个传递函数，选择所述多个音频信号源的虚拟位置的空间排列；滤波器，用于基于相对于听众的所选择的多个音频信号源的虚拟位置的空间排列，对所述多个音频信号进行滤波，其中，听众感觉到多个经滤波的音频信号来自多个音频信号源的虚拟位置，所述多个音频信号源的虚拟位置是由相对于听众的所选择的多个音频信号源的虚拟位置的空间排列定义的。

因此，提供了一种音频信号处理装置，使得例如通过采用语音(即音频信号频谱)和用于选择改进的空间排列的定向(即传递函数)信息，改善虚拟空间音频会议系统中的语音清晰度。

多个音频信号可以包括N个音频信号，多个音频信号源的虚拟位置可以包括L个虚拟位置。传递函数可以是头相关传递函数(head related transfer function，简称HRTF)或双耳房间传递函数(binaural room transfer function，简称BRTF)。

在本发明第一方面的第一种可能的实现方式中，选择器用于通过将多个音频信号频谱和与多个音频信号源的虚拟位置的各个可能的空间排列相关联的多个传递函数进行组合，选择多个音频信号源的虚拟位置的空间排列，以获得与多个音频信号源的虚拟位置的每个可能的空间排列相关联的多个定向扬声器频谱轮廓，并基于多个定向扬声器频谱轮廓，选择多个音频信号源的虚拟位置的空间排列。

在该实现方式中，将语音和定向信息组合成用于选择改进的空间排列的定向扬声器频谱轮廓。

根据本发明第一方面的第一种可能的实现方式，在第二种可能的实现方式中，选择器用于将多个音频信号频谱和与多个音频信号源的虚拟位置的每个可能的空间排列相关联的多个传递函数进行组合，以通过将多个音频信号频谱乘以与多个音频信号源的虚拟位置的每个可能的空间排列相关联的多个传递函数，获得与多个音频信号源的虚拟位置的每个可能的空间排列相关联的多个定向扬声器频谱轮廓。

该实现方式提供了一种高效计算的方式。在该方式中，通过乘以频谱将语音和方向信息组合到定向扬声器频谱轮廓中。

根据本发明第一方面的第一或第二种实现方式，在第三种可能的实现方式中，选择器用于通过选择多个音频信号源的虚拟位置的多个可能的空间排列中的其中一个，选择多个音频信号源的虚拟位置的空间排列，其中，多个定向扬声器频谱轮廓之间的频谱差异大于预定义阈值，优选为最大值。

该实现方式通过采用频谱差异来确定有利的空间排列，从而提供良好的语音清晰度。在频谱差异的基础上，该实现方式可以确定最佳的空间排列。

根据本发明第一方面的第三种实现方式，在第四种可能的实现方式中，选择器用于采用以下等式，确定与多个音频信号源的虚拟位置的第m个空间排列相关联的定向扬声器频谱轮廓之间的频谱差异：

和

Y_n，m，k＝X_n，kH_m，k

其中，S_m表示标量值，其表示与多个音频信号源的虚拟位置的第m个空间排列相关联的多个定向扬声器频谱轮廓之间的频谱差异，K表示频带的总数，w_k表示加权因子，σ_m，k表示第k个频带的定向扬声器频谱轮廓的方差，N表示音频信号频谱的总数，Y_n，m，k表示第k个频带中第n个定向扬声器频谱轮廓的值，表示第k个频带中定向扬声器轮廓的平均值，X_n，k表示第k个频带中第n个音频信号的音频信号频谱的值，H_m，k表示与第k个频带中第n个音频信号相关联的音频信号源的虚拟位置相关联的传递函数的值。

根据本发明第一方面的第四种实现方式，在第五种可能的实现方式中，选择器用于通过基于以下等式对多个频率点(用于离散傅立叶变换)进行平均运算，确定第k个频带中第n个音频信号的音频信号频谱的值，即X_n，k，和/或与第k个频带中第n个音频信号相关联的音频信号源的虚拟位置相关联的传递函数的值，即H_m，k：

和

其中，x(i)表示第i个频率点中第n个音频信号的离散傅立叶变换的值，表示与第i个频率点中第n个音频信号相关联的音频信号源的虚拟位置相关联的传递函数的冲激响应的离散傅立叶变换的值，J(k)表示第k个频带的频率点数。

根据本发明第一方面的第三至第五种实现方式，在第六种可能的实现方式中，选择器用于通过将多个音频信号频谱和相对于听众左耳的与音频信号源的虚拟位置相关联的多个左耳传递函数进行组合，以获得多个左耳定向扬声器频谱轮廓，通过将多个音频信号频谱和相对于听众右耳的与音频信号源的虚拟位置相关联的多个右耳传递函数进行组合，以获得多个右耳定向扬声器频谱轮廓，以及通过选择多个音频信号源的虚拟位置的多个可能的空间排列中的其中一个，选择多个音频信号源的虚拟位置的空间排列，其中，左耳定向扬声器频谱轮廓和右耳定向扬声器频谱轮廓之间的频谱差异小于预定义阈值，尤其是最小值。

在本发明第一方面的第七种可能的实现方式中，选择器用于从相对于听众的多个音频信号源的虚拟位置的多个可能的空间排列中选择多个音频信号源的虚拟位置的空间排列，其中，将多个音频信号源的虚拟位置布置在以听众为中心的圆上，通过确定多个音频信号源的虚拟位置的多个可能的空间排列中的其中一个，多个音频信号源的虚拟位置基于多个音频信号频谱以及与多个音频信号源的虚拟位置的每个可能的空间排列相关联的多个传递函数，具有恒定的角间距，其中，多个传递函数之间的频谱差异大于预定义阈值，优选为最大值。

根据本发明第一方面的第七种实现方式，在第八种可能的实现方式中，选择器用于采用以下等式，确定与多个音频信号源的虚拟位置的第m个空间排列相关联的传递函数之间的频谱差异：

和

其中，表示标量值，其表示与多个音频信号源的虚拟位置的第m个空间排列相关联的多个传递函数之间的频谱差异，K表示频带的总数，w_k表示加权因子，表示第k个频带的多个传递函数的方差，N表示音频信号频谱的总数，H_n，m，k表示第k个频带中第n个传递函数的值，表示第k个频带中传递函数的平均值。

根据本发明第一方面的第七或第八种实现方式，在第九种可能的实现方式中，选择器用于通过基于以下等式对用于离散傅立叶变换的多个频率点进行平均运算，确定第k个频带中第n个传递函数的值，即H_n，m，k：

其中，表示与第i个频率点中第n个音频信号相关联的音频信号源的虚拟位置相关联的传递函数的冲激响应的离散傅立叶变换的值，J(k)表示第k个频带的频率点数。

根据本发明第一方面的第七或第八种实现方式，在第十种可能的实现方式中，选择器用于通过根据多个音频信号频谱的相似度值对多个音频信号频谱进行排列，基于多个音频信号频谱以及与多个音频信号源的虚拟位置的每个可能的空间排列相关联的多个传递函数选择多个音频信号源的虚拟位置的空间排列。

根据本发明第一方面的第十种实现方式，在第十一种可能的实现方式中，选择器用于通过将排列的多个音频信号频谱分配给所选择的多个音频信号源的虚拟位置的空间排列的虚拟位置，基于多个音频信号频谱以及与多个音频信号源的虚拟位置的每个可能的空间排列相关联的多个传递函数选择多个音频信号源的虚拟位置的空间排列，使得相似度值大的音频信号频谱之间的角间距最大化。

根据本发明第一方面的第十或第十一种实现方式，在第十二种可能的实现方式中，选择器用于通过(i)计算平均音频信号频谱以及每个音频信号频谱与平均音频信号频谱之间的频谱差异，或(ii)通过计算音频信号频谱之间的相关函数，计算多个音频信号频谱的相似度值。

根据第二方面，本发明涉及一种用于处理对多个音频信号频谱进行定义的多个音频信号的信号处理方法，所述多个音频信号被发送至听众，使得听众感觉到所述多个音频信号来自多个音频信号源的虚拟位置。音频信号处理方法包括步骤：从相对于听众的多个音频信号源的虚拟位置的多个可能的空间排列中选择相对于听众的多个音频信号源的虚拟位置的空间排列，其中，所述多个音频信号源的虚拟位置的每个可能的空间排列都与多个传递函数相关联，其中，基于所述多个音频信号频谱以及与所述多个音频信号源的虚拟位置的每个可能的空间排列相关联的多个传递函数，选择所述多个音频信号源的虚拟位置的空间排列，以及步骤：基于相对于听众的所选择的多个音频信号源的虚拟位置的空间排列，对所述多个音频信号进行滤波，其中，听众感觉到多个经滤波的音频信号来自多个音频信号源的虚拟位置，所述多个音频信号源的虚拟位置是由相对于听众的所选择的多个音频信号源的虚拟位置的空间排列定义的。

根据本发明第二方面的音频信号处理方法可以由根据本发明第一方面的音频信号处理装置执行。根据本发明第二方面的音频信号处理方法的更多特征直接取决于根据本发明第一方面及其不同的实现方式的音频信号处理装置的功能。

根据第三方面，本发明涉及一种包括程序代码的计算机程序，当在计算机上运行时，该程序代码用于执行根据本发明第二方面的方法。

本发明可以在硬件和/或软件中得以实现。

附图说明

本发明的具体实施方式将结合以下附图进行描述，其中：

图1示出了根据实施例的音频信号处理装置的示意图；

图2示出了根据实施例的音频信号处理方法的示意图；

图3示出了可以与根据实施例的音频信号处理装置和方法一起使用的示例性的左、右和平均双耳房间传递函数；

图4示出了可以与根据实施例的音频信号处理装置和方法一起使用的示例性的音频信号频谱；

图5示出了可以与根据实施例的音频信号处理装置和方法得到并一起使用的示例性的定向扬声器频谱轮廓；

图6A针对可以与根据实施例的音频信号处理装置和方法一起使用的五个扬声器，示出了示例性的定向扬声器频谱轮廓；

图6B示出了图6A中示例性的定向扬声器频谱轮廓的方差；

图6C示出了根据实施例的音频信号处理装置和方法中用于整合人类听觉灵敏度的示例性的加权因子；

图7示出了根据实施例的相对于听众的多个音频信号源的虚拟位置的四个示例性空间排列；

图8A和8B示出了根据实施例如何选择相对于听众的多个音频信号源的虚拟位置的最佳空间排列。

具体实施方式

以下结合附图进行详细描述，所述附图是描述的一部分，并通过图解说明的方式示出可以实施本发明的具体方面。可以理解的是，在不脱离本发明范围的情况下，可以利用其它方面，并可以做出结构上或逻辑上的改变。因此，以下详细的描述并不当作限定，本发明的范围由所附权利要求书界定。

应当理解，与所述方法相关的公开内容也可以适用于用于执行该方法的对应设备或系统，反之亦然。例如，如果描述了一个特定的方法步骤，则对应的设备或装置可以包括执行所述方法步骤的单元，即使在图中未明确描述或示出这样的单元。此外，应当理解，如无特别说明，这里所述的各个示例性方面的特征可以相互组合。

图1示出了根据实施例的音频信号处理装置100的示意图。音频信号处理装置100用于处理对多个音频信号频谱进行定义的多个音频信号105。所述多个音频信号105被发送至听众，使得听众感觉到所述多个音频信号来自多个音频信号源的虚拟位置。在一实施例中，音频信号处理装置为虚拟空间音频会议系统的一部分，音频信号为虚拟空间音频会议的参与者的语音信号。

所述音频信号处理装置100包括选择器101，用于从相对于听众的多个音频信号源的虚拟位置的多个可能的空间排列选择相对于听众的多个音频信号源的虚拟位置的空间排列。

所述多个音频信号源的虚拟位置的每个可能的空间排列都与多个传递函数，特别是头相关传递函数(head-related transfer function，简称HTRF)和/或双耳房间传递函数(binaural room transfer function，简称BTRF)相关联。如本领域技术人员已知的，HTRF/BTRF及其冲激响应，即头相关冲激响应(head-related impulse response，简称HRIR)和双耳房间冲激响应(binaural room impulse response，简称BRIR)之间存在直接的对应关系。

此外，选择器101用于基于多个音频信号频谱以及与多个音频信号源的虚拟位置的每个可能的空间排列相关联的多个传递函数，选择所述多个音频信号源的虚拟位置的空间排列。

音频处理领域的技术人员对术语“虚拟位置”非常熟知。听众会通过选择合适的传递函数的位置，从而感觉到接收了由(虚拟)音频信号源发出的音频信号。该位置是在此使用的“虚拟位置”，可以包括各个技术，其中，通过耳机呈现的源/扬声器似乎来自空间中任一期望的方向(即虚拟位置)。

音频信号处理装置100还包括滤波器103，用于基于相对于听众的所选择的多个音频信号源的虚拟位置的空间排列，对多个音频信号105进行滤波，并产生多个经滤波的音频信号107。听众感觉到多个经滤波的音频信号107来自多个音频信号源的虚拟位置，所述多个音频信号源的虚拟位置是由相对于听众的所选择的多个音频信号源的虚拟位置的空间排列定义的。

图2示出了用于处理对多个音频信号频谱进行定义的多个音频信号105的音频信号处理方法200的实施例的示意图。所述多个音频信号被发送至听众，使得听众感觉到所述多个音频信号来自多个音频信号源的虚拟位置。

音频信号处理方法200包括：步骤201：从相对于听众的多个音频信号源的虚拟位置的多个可能的空间排列，选择相对于听众的多个音频信号源的虚拟位置的空间排列，其中，多个音频信号源的虚拟位置的每个可能的空间排列都与多个传递函数相关联。基于多个音频信号频谱以及与多个音频信号源的虚拟位置的每个可能的空间排列相关联的多个传递函数，选择多个音频信号源的虚拟位置的空间排列。

此外，音频信号处理装置200包括：步骤203：基于相对于听众的所选择的多个音频信号源的虚拟位置的空间排列，对所述多个音频信号105进行滤波，以得到多个经滤波的音频信号107。听众感觉到所述多个经滤波的音频信号107来自多个音频信号源的虚拟位置，所述多个音频信号源的虚拟位置是由相对于听众的所选择的多个音频信号源的虚拟位置的空间排列定义的。

例如，音频信号处理方法200可以由根据本发明第一方面的音频信号处理装置100来执行。

在下文中，对音频信号处理装置100和音频信号处理方法200的更多实现方式以及实施例进行描述。

在一实施例中，音频信号处理装置100的选择器101用于通过将多个音频信号频谱和与多个音频信号源的虚拟位置的各个可能的空间排列相关联的多个传递函数进行组合，选择多个音频信号源的虚拟位置的空间排列。在一实施例中，通过将多个音频信号频谱和多个传递函数相乘，将多个音频信号频谱和多个传递函数进行组合，以获得与多个音频信号源的虚拟位置的每个可能的空间排列相关联的多个定向扬声器频谱轮廓。

图3示出了通过推导出左BRTF和右BRTF的平均值而获得的示例性传递函数。为了推导出示例性传递函数，在各自的频带上对左BRTF和右BRTF进行平均运算。完成该子带分析的方式有很多种，例如，采用正交镜像滤波器(quadrature mirror filter，简称QMF)、伽马通滤波器或倍频程或第三倍频程频带。对于图3所示的示例，通过第六倍频程频带分析，即，1/n倍频程频带对频谱、轮廓和传递函数进行计算，其中，n＝6表示滤波器组的带宽。通过对离散傅立叶变换(Discrete Fourier Transform，简称DFT)的幅度段进行平均运算，该分析接近于一个恒定-Q滤波器组，其中，该恒定-Q滤波器组是采用快速傅立叶变换(FastFourier Transform，简称FFT)算法进行计算的。恒定-Q滤波器组表示各个滤波器中，该滤波器的中心频率和带宽之间的比值保持相同。在一实施例中，在语音相关的频率范围内进行子带分析，将其频率设置为500和6300赫兹之间。该频率范围导致了总共具有21个不同的1/6倍频程频带的子带分析。上限频率也可能为7000或8000赫兹。

本领域的技术人员应当理解，求左、右HRTF之间的平均值仅仅是推导出传递函数的一种方式，其中，可以在音频信号处理装置100和音频信号处理方法200的上下文中对该传递函数进行运用。例如可以将左或右HRTF/BRTF用作传递函数。可以对诸如HRTF和/或BRTF的传递函数进行一次计算并将其存储以便后续使用。

图4示出了可以与根据实施例的音频信号处理装置100和音频信号处理方法200一起使用的示例性音频信号频谱。图4中的细线表示示例性语音音频信号的离散傅立叶变换，即示例性音频信号频谱。图4中的粗线表示实施例中用作计算目的的音频信号频谱的平均或子带表征。

在一实施例中，通过基于以下等式对用于离散傅立叶变换的多个频率点进行平均运算，确定第k个频带中第n个音频信号的音频信号频谱的值，即X_n，k，和/或与第k个频带中第n个音频信号相关联的音频信号源的第m个空间排列的虚拟位置相关联的传递函数的值，即H_m，k：

和

图5示出了选择器101如何将诸如图3所示的传递函数等的传递函数和诸如图4所示的音频信号频谱等的音频信号频谱进行组合，以获得一个定向扬声器频谱轮廓。如图5所示，通过将(子带平均的)的传递函数乘以(子带平均的)音频信号频谱，或对其对应的对数幅度响应进行求和，得到该定向扬声器频谱轮廓。在本发明的上下文中，将传递函数乘以音频信号频谱是指两个向量的逐点相乘，其分别由平均或离散传递函数以及平均或离散音频信号频谱所定义。数学上，选择器101用于计算

Y_n，m，k＝X_n，kH_m，k

其中，Y_n，m，k表示与第k个频带中多个音频信号源的虚拟位置的第m个空间排列相关联的第n个定向扬声器频谱轮廓的值。

在一实施例中，选择器101用于基于多个定向扬声器频谱轮廓，选择多个音频信号源的虚拟位置的空间排列。在一实施例中，选择器101用于通过选择多个音频信号源的虚拟位置的多个可能的空间排列中的其中一个，选择多个音频信号源的虚拟位置的空间排列，其中，多个定向扬声器频谱轮廓之间的频谱差异大于预定义阈值，优选为最大值。

在一实施例中，选择器101用于采用以下等式，确定与多个音频信号源的虚拟位置的第m个空间排列相关联的定向扬声器频谱轮廓之间的频谱差异：

和

其中，S_m表示标量值，其表示与多个音频信号源的虚拟位置的第m个空间排列相关联的多个定向扬声器频谱轮廓之间的频谱差异，K表示频带的总数，w_k表示加权因子，σ_m，k表示第k个频带的定向扬声器频谱轮廓的方差，N表示音频信号频谱的总数，表示第k个频带中定向扬声器轮廓的平均值。

图6A针对可以与根据实施例的音频信号处理装置100和音频信号处理方法200一起使用的五个扬声器，示出了示例性的定向扬声器频谱轮廓。图6B示出了图6A所示的不同频带的五个示例性的定向扬声器频谱轮廓的方差σ_m，k。

在一实施例中，加权因子w_k可以全部设置为1，其用于计算S_m，即多个定向扬声器频谱轮廓之间的频谱差异。或者，加权因子w_k可以代表不同频带的中心频率上的人类听觉灵敏度。在这种情况下，可以将加权因子w_k计算为听力的绝对阈值的倒数，其中，通过最小阈值，即平均人类可听度最敏感的频带的阈值将听力进行标准化。图6C示出了这些示例性的来自人类听力绝对阈值的加权因子w_k。

针对选择器101可能确定多个具有相同的最大频谱差异的音频信号源的虚拟位置的至少两个空间排列，在一实施例中，选择器101用于通过将多个音频信号频谱和相对于听众左耳的与音频信号源的虚拟位置相关联的多个左耳传递函数进行组合，以获得多个左耳定向扬声器频谱轮廓，通过将多个音频信号频谱和相对于听众右耳的与音频信号源的虚拟位置相关联的多个右耳传递函数进行组合，以获得多个右耳定向扬声器频谱轮廓，以及通过选择多个音频信号源的虚拟位置的多个可能的空间排列中的其中一个，选择多个音频信号源的虚拟位置的空间排列，其中，左耳定向扬声器频谱轮廓和右耳定向扬声器频谱轮廓之间的频谱差异小于预定义阈值，尤其是最小值。

图7示出了3个扬声器，即音频信号，和12个可能的虚拟位置，即传递函数的情况下，多个音频信号源的虚拟位置的四个示例性空间排列。采用能够呈现总共L个不同虚拟位置，即L个不同传递函数的虚拟空间会议中的N个扬声器，可能的空间排列的总数M由下式给出：

因此，例如，如果N＝3个扬声器，L＝12个空间位置，则M＝1320个可能的空间排列。对于图7所示的示例，基于多个平均传递函数，四种排列都提供了最大频谱差异。通过使用左耳传递函数和右耳传递函数，在本发明的一实施例中，选择排列2作为多个音频信号源的虚拟位置的最佳空间排列，其使得左耳定向扬声器频谱轮廓和右耳定向扬声器频谱轮廓之间的频谱差异最小化。

在一实施例中，选择器101用于从相对于听众的多个音频信号源的虚拟位置的多个可能的空间排列中选择多个音频信号源的虚拟位置的空间排列，其中，将多个音频信号源的虚拟位置布置在以听众的位置为中心的圆上，通过确定多个音频信号源的虚拟位置的多个可能的空间排列中的其中一个，多个音频信号源的虚拟位置基于多个音频信号频谱以及与多个音频信号源的虚拟位置的每个可能的空间排列相关联的多个传递函数，具有恒定的角间距，其中，多个传递函数之间的频谱差异大于预定义阈值，优选为最大值。

在一实施例中，选择器101用于采用以下等式，确定与多个音频信号源的虚拟位置的第m个空间排列相关联的传递函数之间的频谱差异：

和

在一实施例中，通过基于以下等式对用于离散傅立叶变换的多个频率点进行平均运算，确定第k个频带中第n个传递函数的值，即H_n，m，k：

在一实施例中，选择器101用于通过根据多个音频信号频谱的相似度对多个音频信号频谱进行排列，基于多个音频信号频谱以及与多个音频信号源的虚拟位置的每个可能的空间排列相关联的多个传递函数选择多个音频信号源的虚拟位置的空间排列。在一实施例中，选择器101通过(1)计算平均音频信号频谱以及每个音频信号频谱与平均音频信号频谱之间的频谱差异，或(2)通过计算音频信号频谱之间的相关函数，计算多个音频信号频谱的相似度值。

在一实施例中，选择器101用于通过将排列的多个音频信号频谱分配给所选择的多个音频信号源的虚拟位置的空间排列的虚拟位置，基于多个音频信号频谱以及与多个音频信号源的虚拟位置的每个可能的空间排列相关联的多个传递函数选择多个音频信号源的虚拟位置的空间排列，使得频谱差异小的音频信号频谱，即“相似的”音频信号频谱之间的角间距最大化。

图8A和8B示出了如何选择根据实施例的相对于听众的多个扬声器，即音频信号源的虚拟位置的最佳空间排列的示例。从N个扬声器中任意选择一个给定的扬声器，并对所选择的扬声器的音频信号频谱和其它N-1个扬声器的每个音频信号频谱之间的相关性进行计算。然后选择具有最高相关性的扬声器的音频信号频谱。对新选择的扬声器重复该相同的过程，直到对所有的扬声器的音频信号频谱都进行排列。

在图8A和图8B所示的示例中，存在(根据首次进入虚拟空间音频会议的时间将它们进行排序：从1至5)N＝5个扬声器，最佳空间排列是由标记为A、B、C、D和E的5个方向组成。根据音频信号频谱中的相似度，扬声器排列将它们排列为序列5、1、3、2和4。通过将扬声器列表中的第一扬声器，即扬声器5任意分配至方向列表中的第一方向，即方向A，开始分配传递函数。将下一个扬声器，即扬声器1从方向A分配至具有最大角间距的方向，相比其它扬声器，该扬声器的音频信号频谱更类似于扬声器5的音频信号频谱。在该特定示例中，存在两个选项，即方向C和D。该双重备选是方向具有恒定的角间距的约束的结果。这里，选择逆时针方向搜索，正如连接A和C的箭头所指示的，选择方向C。通过将扬声器3分配至方向E，继续进行该过程，这是因为该方向提供了C的最大角间距。对扬声器2(连接方向E和B的箭头)和扬声器4(连接方向B和D的箭头)重复相同的过程，直到所有可用的方向都被占用。

本领域的技术人员应该理解，本发明的实施例可以用于计算最佳的空间排列，即空间排列，也可以用于扬声器重放，其包括但不限于立体声回放：5.1、7.1以及22.2通道。独立于扬声器及其空间位置的数量，这些实施例利用该音频信号频谱根据频谱差异对扬声器进行排列，这等效于上述过程。根据扬声器的数量以及它们的空间位置及其覆盖的最大角跨度Θ，可以通过两种方式将位置分配至不同的扬声器。

在一实施例中，基于简单的角距离使扬声器在空间上分离。即，将具有最相似的音频信号频谱的扬声器放置在具有最大角距离的位置，将具有最不相似的音频信号频谱的扬声器放置在具有最小角距离的位置。这些位置可以是在真实扬声器的准确位置，也可以是扬声器之间的位置。该扬声器是利用淘选技术或诸如波场合成等其它声场渲染技术所创建的。

在一替代实施例中，基于上述的定向扬声器频谱轮廓或者基于上述的传递函数，使扬声器在空间上分离。在串扰消除系统的特定情况下，上述实施例可以以完全相同的方式用于耳机重放。一旦找到最佳的空间排列，淘选技术或声场渲染技术可以用于将扬声器放置在其最佳的位置。

本领域的技术人员应该理解，所要求保护的本发明还涵盖一些实施例，其中，未对音频信号及其频谱进行动态分析，而是用户的多个音频信号频谱对用户配置文件进行了定义。这依次由音频信号频谱轮廓所表示，例如来自用户的音频信号频谱的平均值。

本发明实施例可以在用于在计算机系统上运行的计算机程序中实现，至少包括当在诸如计算机系统等的可编程装置上运行时用于执行根据本发明的方法步骤的代码部分，或者使得可编程装置执行根据本发明的设备或系统的功能的代码部分。

计算机程序是指令列表，例如，特定的应用程序和/或操作系统。计算机程序例如可以包括以下中的一个或多个：子例程、函数、流程、对象方法、对象实现、可执行应用、小程序、服务器小程序、源代码、目标代码、共享库/动态加载库和/或设计用于在计算机系统上执行的其它指令序列。

计算机程序可以存储在计算机可读存储介质内部或通过计算机可读传输介质传输到计算机系统。全部或部分计算机程序可以在永久地、可移除地或远程地耦合至信息处理系统的瞬时性或非瞬时性计算机可读介质上提供。计算机可读介质可以包括，例如但不限于，任意数量的以下示例：磁存储介质，包括磁盘和磁带存储介质；光存储介质，例如光盘介质(例如，CD-ROM、CD-R等)和数字视频光盘存储介质；非易失性存储器存储介质，包括基于半导体的存储器单元，例如闪存、EEPROM、EPROM、ROM；铁磁数字存储器；MRAM；易失性存储介质，包括寄存器、缓冲器或缓存、主存储器、RAM等；以及数据传输介质，包括计算机网络、点对点电信设备、载波传输介质，此处仅举几例。

计算机进程通常包括执行(运行)程序或程序的一部分、当前程序值和状态信息，以及操作系统用来管理进程的执行的资源。操作系统(Operating System，简称OS)是管理计算机资源共享的软件，并为程序员提供用于访问这些资源的接口。操作系统处理系统数据和用户输入，并通过分配及管理任务和内部系统资源作为服务对系统的用户和程序进行响应。

计算机系统例如可以包括至少一个处理单元、关联存储器和多个输入/输出(input/output，简称I/O)设备。当执行计算机程序时，计算机系统根据计算机程序处理信息并通过I/O设备生成合成的输出信息。

此处讨论的连接可以是适用于例如通过中间设备从或向相应节点、单元或设备传递信号的任意类型的连接。因此，除非另有所指或所述，该连接例如可以是直接连接或间接连接。可以结合单个连接、多个连接、单向连接或双向连接对该连接进行说明或描述。然而，不同的实施例可能会使该连接的实现发生变化。例如，可以使用单独的单向连接而不是双向连接，反之亦然。此外，多个连接可以被替换为以串行或时间复用方式传递多个信号的单个连接。同样地，携带多个信号的单个连接可以被分离成携带这些信号的子集的各种不同的连接。因此，存在许多用于传递信号的选择。

本领域技术人员将意识到，各逻辑块之间的界限仅仅是说明性的，并且替代实施例可以合并逻辑块或电路元件，或者可以在各种逻辑块或电路元件上实行功能的替代分解。因此，应当理解，此处所描述的架构仅仅是示例性的，并且实际上，许多其它实现相同功能的架构也能够实现。

因此，实现相同功能的组件的任意排列是有效地“关联”，从而实现了所期望的功能。因此，不论是架构或是中间组件，此处组合以实现某个特定功能的任意两个组件可被视为相互“关联”，从而实现了所期望的功能。同样地，任意两个如此关联的组件也可被视为相互“可操作地连接”或“可操作地耦合”，以实现所期望的功能。

此外，本领域技术人员将意识到，以上所描述的操作之间的界限仅仅是说明性的。多个操作可以组合成单个操作，单个操作可以分布在附加操作中，操作可以以在时间上至少部分重叠的方式来执行。另外，替代实施例可以包括某个特定操作的多个示例，在各种其它实施例中可以改变操作的顺序。

此外，例如，其中的示例或部分可以，例如以任意合适类型的硬件描述语言，实现为物理电路的或可转换成物理电路的逻辑表示的软或代码表示。

此外，本发明不限于在不可编程硬件中实现的物理设备或单元，也可以应用于能够通过根据合适的程序代码进行操作来执行所期望的设备功能的可编程设备或单元，例如，大型主机、小型计算机、服务器、工作站、个人计算机、记事本、个人数字助理、电子游戏、汽车和其它嵌入式系统、蜂窝电话和各种其它无线设备，在本申请中通常表示为‘计算机系统’。

然而，其它修改、变形和替代也是可能的。应认为本说明书和附图具有说明性意义而非限制性意义。

Claims

1.一种用于处理对多个音频信号频谱进行定义的多个音频信号(105)的音频信号处理装置(100)，其特征在于，所述多个音频信号(105)被发送至听众，使得听众感觉到所述多个音频信号(105)来自多个音频信号源的虚拟位置，所述音频信号处理装置(100)包括：

选择器(101)，用于从相对于所述听众的所述多个音频信号源的所述虚拟位置的多个可能的空间排列中选择相对于所述听众的所述多个音频信号源的所述虚拟位置的空间排列，其中，所述多个音频信号源的所述虚拟位置的每个可能的空间排列都与多个传递函数相关联，其中，所述选择器(101)用于基于所述多个音频信号频谱以及与所述多个音频信号源的所述虚拟位置的每个可能的空间排列相关联的所述多个传递函数，选择所述多个音频信号源的所述虚拟位置的所述空间排列；

滤波器(103)，用于基于相对于所述听众的所选择的所述多个音频信号源的所述虚拟位置的所述空间排列，对所述多个音频信号(105)进行滤波，其中，所述听众感觉到所述多个经滤波的音频信号(107)来自所述多个音频信号源的所述虚拟位置，所述多个音频信号源的所述虚拟位置是由相对于所述听众的所选择的所述多个音频信号源的所述虚拟位置的所述空间排列定义的。

2.根据权利要求1所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于：通过将所述多个音频信号频谱和与所述多个音频信号源的所述虚拟位置的各个可能的空间排列相关联的所述多个传递函数进行组合，选择所述多个音频信号源的所述虚拟位置的所述空间排列，以获得与所述多个音频信号源的所述虚拟位置的每个可能的空间排列相关联的多个定向扬声器频谱轮廓，并基于所述多个定向扬声器频谱轮廓，选择所述多个音频信号源的所述虚拟位置的所述空间排列。

3.根据权利要求1所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于将所述多个音频信号频谱和与所述多个音频信号源的所述虚拟位置的每个可能的空间排列相关联的所述多个传递函数进行组合，以通过将所述多个输入音频信号频谱乘以与所述多个音频信号源的所述虚拟位置的每个可能的空间排列相关联的所述多个传递函数，获得与所述多个音频信号源的所述虚拟位置的每个可能的空间排列相关联的多个定向扬声器频谱轮廓。

4.根据权利要求2所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于通过选择所述多个音频信号源的所述虚拟位置的所述多个可能的空间排列中的其中一个，选择所述多个音频信号源的所述虚拟位置的所述空间排列，其中，所述多个定向扬声器频谱轮廓之间的频谱差异大于预定义阈值。

5.根据权利要求3所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于通过选择所述多个音频信号源的所述虚拟位置的所述多个可能的空间排列中的其中一个，选择所述多个音频信号源的所述虚拟位置的所述空间排列，其中，所述多个定向扬声器频谱轮廓之间的频谱差异大于预定义阈值。

6.根据权利要求2所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于通过选择所述多个音频信号源的所述虚拟位置的所述多个可能的空间排列中的其中一个，选择所述多个音频信号源的所述虚拟位置的所述空间排列，其中，所述空间排列为大于预定义阈值的所述多个定向扬声器频谱轮廓之间的频谱差异中频谱差异最大的虚拟位置的空间排列。

7.根据权利要求3所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于通过选择所述多个音频信号源的所述虚拟位置的所述多个可能的空间排列中的其中一个，选择所述多个音频信号源的所述虚拟位置的所述空间排列，其中，所述空间排列为大于预定义阈值的所述多个定向扬声器频谱轮廓之间的频谱差异中频谱差异最大的虚拟位置的空间排列。

8.根据权利要求4至7中任一项所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于采用以下等式，确定与所述多个音频信号源的所述虚拟位置的第m个空间排列相关联的定向扬声器频谱轮廓之间的频谱差异：

和

Y_n,m,k＝X_n,kH_m,k

其中，S_m为与所述多个音频信号源的所述虚拟位置的所述第m个空间排列相关联的所述多个定向扬声器频谱轮廓之间的所述频谱差异，w_k为加权因子，σ_m,k为频带k的所述定向扬声器频谱轮廓的方差，为所述多个定向扬声器频谱轮廓的频带平均值，Y_n，m，k为频带k中第n个定向扬声器频谱轮廓的幅度，X_n，k表示第k个频带中第n个音频信号的所述音频信号频谱的值，H_m，k表示与第k个频带中第n个音频信号相关联的所述音频信号源的所述虚拟位置相关联的所述传递函数的值。

9.根据权利要求8所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于通过基于以下等式对多个频率点进行平均运算，确定第k个频带中第n个音频信号的所述音频信号频谱的值和/或与第k个频带中第n个音频信号相关联的所述音频信号源的所述虚拟位置相关联的所述传递函数的值：

和

其中，表示第i个频率点中第n个音频信号的离散傅立叶变换的值，表示与第i个频率点中第n个音频信号相关联的所述音频信号源的所述虚拟位置相关联的所述传递函数的冲激响应的离散傅立叶变换的值，J(k)表示第k个频带的频率点数，j(k)表示第k个频带的频率仓数。

10.根据权利要求4至7中任一项所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于通过将所述多个音频信号频谱和相对于所述听众左耳的与所述音频信号源的所述虚拟位置相关联的多个左耳传递函数进行组合，以获得多个左耳定向扬声器频谱轮廓，通过将所述多个音频信号频谱和相对于所述听众右耳的与所述音频信号源的所述虚拟位置相关联的多个右耳传递函数进行组合，以获得多个右耳定向扬声器频谱轮廓，以及通过选择所述多个音频信号源的所述虚拟位置的所述多个可能的空间排列中的其中一个，选择所述多个音频信号源的所述虚拟位置的所述空间排列，其中，所述左耳定向扬声器频谱轮廓和所述右耳定向扬声器频谱轮廓之间的频谱差异小于预定义阈值。

11.根据权利要求4至7中任一项所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于通过将所述多个音频信号频谱和相对于所述听众左耳的与所述音频信号源的所述虚拟位置相关联的多个左耳传递函数进行组合，以获得多个左耳定向扬声器频谱轮廓，通过将所述多个音频信号频谱和相对于所述听众右耳的与所述音频信号源的所述虚拟位置相关联的多个右耳传递函数进行组合，以获得多个右耳定向扬声器频谱轮廓，以及通过选择所述多个音频信号源的所述虚拟位置的所述多个可能的空间排列中的其中一个，选择所述多个音频信号源的所述虚拟位置的所述空间排列，其中，所述空间排列为小于预定义阈值的所述左耳定向扬声器频谱轮廓和所述右耳定向扬声器频谱轮廓之间的频谱差异中频谱差异最小的虚拟位置的空间排列。

12.根据权利要求1所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于从相对于所述听众的所述多个音频信号源的所述虚拟位置的所述多个可能的空间排列中选择所述多个音频信号源的所述虚拟位置的所述空间排列，其中，将所述多个音频信号源的所述虚拟位置布置在以所述听众为中心的圆上，通过确定所述多个音频信号源的所述虚拟位置的所述多个可能的空间排列中的其中一个，所述多个音频信号源的所述虚拟位置基于所述多个音频信号频谱以及与所述多个音频信号源的所述虚拟位置的每个可能的空间排列相关联的所述多个传递函数，具有恒定的角间距，其中，所述多个传递函数之间的频谱差异大于预定义阈值。

13.根据权利要求1所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于从相对于所述听众的所述多个音频信号源的所述虚拟位置的所述多个可能的空间排列中选择所述多个音频信号源的所述虚拟位置的所述空间排列，其中，将所述多个音频信号源的所述虚拟位置布置在以所述听众为中心的圆上，通过确定所述多个音频信号源的所述虚拟位置的所述多个可能的空间排列中的其中一个，所述多个音频信号源的所述虚拟位置基于所述多个音频信号频谱以及与所述多个音频信号源的所述虚拟位置的每个可能的空间排列相关联的所述多个传递函数，具有恒定的角间距，其中，所述空间排列为大于预定义阈值的所述多个定向扬声器频谱轮廓之间的频谱差异中频谱差异最大的虚拟位置的空间排列。

14.根据权利要求12或13所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于采用以下等式，确定与所述多个音频信号源的所述虚拟位置的第m个空间排列相关联的所述传递函数之间的频谱差异：

和

其中，表示标量值，其表示与所述多个音频信号源的所述虚拟位置的第m个空间排列相关联的所述多个传递函数之间的所述频谱差异，K表示频带的总数，w_k表示加权因子，表示第k个频带的所述多个传递函数的方差，N表示音频信号频谱的总数，H_n，m，k表示第k个频带中第n个传递函数的值，表示第k个频带中传递函数的平均值。

15.根据权利要求14所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于通过基于以下等式对多个频率点进行平均运算，确定第k个频带中第n个传递函数的值：

其中，表示与第i个频率点中第n个音频信号相关联的所述音频信号源的所述虚拟位置相关联的所述传递函数的冲激响应的离散傅立叶变换的值，J(k)表示第k个频带的频率点数，j(k)表示第k个频带的频率仓数。

16.根据权利要求12或13所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于通过根据多个音频信号频谱的相似度值对所述多个音频信号频谱进行排列，基于所述多个音频信号频谱以及与所述多个音频信号源的所述虚拟位置的每个可能的空间排列相关联的所述多个传递函数选择所述多个音频信号源的所述虚拟位置的所述空间排列。

17.根据权利要求14所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于通过根据多个音频信号频谱的相似度值对所述多个音频信号频谱进行排列，基于所述多个音频信号频谱以及与所述多个音频信号源的所述虚拟位置的每个可能的空间排列相关联的所述多个传递函数选择所述多个音频信号源的所述虚拟位置的所述空间排列。

18.根据权利要求16所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于通过将所述排列的多个音频信号频谱分配给所述多个音频信号源的所述虚拟位置的所选择的空间排列的所述虚拟位置，基于所述多个音频信号频谱以及与所述多个音频信号源的所述虚拟位置的每个可能的空间排列相关联的所述多个传递函数选择所述多个音频信号源的所述虚拟位置的所述空间排列，使得相似度值大的音频信号频谱之间的所述角间距最大化。

19.根据权利要求17所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于通过将所述排列的多个音频信号频谱分配给所述多个音频信号源的所述虚拟位置的所选择的空间排列的所述虚拟位置，基于所述多个音频信号频谱以及与所述多个音频信号源的所述虚拟位置的每个可能的空间排列相关联的所述多个传递函数选择所述多个音频信号源的所述虚拟位置的所述空间排列，使得相似度值大的音频信号频谱之间的所述角间距最大化。

20.根据权利要求16所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于通过(i)计算平均音频信号频谱以及每个音频信号频谱与所述平均音频信号频谱之间的频谱差异，或(ii)通过计算所述音频信号频谱之间的相关函数，计算所述多个音频信号频谱的相似度值。

21.根据权利要求17至19中任一项所述的音频信号处理装置(100)，其特征在于，所述选择器(101)用于通过(i)计算平均音频信号频谱以及每个音频信号频谱与所述平均音频信号频谱之间的频谱差异，或(ii)通过计算所述音频信号频谱之间的相关函数，计算所述多个音频信号频谱的相似度值。

22.一种用于处理对多个音频信号频谱进行定义的多个音频信号(105)的信号处理方法(200)，其特征在于，所述多个音频信号(105)被发送至听众，使得听众感觉到所述多个音频信号来自多个音频信号源的虚拟位置，所述音频信号处理方法(200)包括以下步骤：

从相对于所述听众的所述多个音频信号源的所述虚拟位置的多个可能的空间排列中选择(201)相对于所述听众的所述多个音频信号源的所述虚拟位置的空间排列，其中，所述多个音频信号源的所述虚拟位置的每个可能的空间排列都与多个传递函数相关联，其中，基于所述多个输入音频信号频谱以及与所述多个音频信号源的所述虚拟位置的每个可能的空间排列相关联的所述多个传递函数，选择所述多个音频信号源的所述虚拟位置的所述空间排列；

基于相对于所述听众的所选择的所述多个音频信号源的所述虚拟位置的空间排列，对所述多个音频信号进行滤波(203)，其中，所述听众感觉到所述多个经滤波的音频信号(107)来自所述多个音频信号源的所述虚拟位置，所述多个音频信号源的所述虚拟位置是由相对于所述听众的所选择的所述多个音频信号源的所述虚拟位置的空间排列定义的。

23.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序，所述程序使得通信设备执行根据权利要求22所述的音频信号处理方法(200)。