CN111294724A

CN111294724A - 多个音频流的空间重新定位

Info

Publication number: CN111294724A
Application number: CN201911232904.6A
Authority: CN
Inventors: 沈望傅; 李迪篪
Original assignee: Creative Technology Ltd
Current assignee: Creative Technology Ltd
Priority date: 2018-12-07
Filing date: 2019-12-05
Publication date: 2020-06-16
Anticipated expiration: 2039-12-05
Also published as: KR20200070110A; US10966046B2; US20200186954A1; SG10201911051PA; TW202028929A; JP2020108143A; TWI808277B; EP3664477A1; EP3664477B1; CN111294724B

Abstract

本申请实现多个音频流的空间重新定位。一种音频呈现系统包括处理器，该处理器将音频输入信号与优选地包括房间响应的个性化空间音频传递函数组合。个性化空间音频传递函数选自具有从针对多个个体的入耳麦克风测量结果导出的多个候选传递函数数据集的数据库。可替代地，个性化传递函数数据集是从收听者的实际入耳测量结果导出的。针对前景及背景方向和距离利用来自所选择的数据集的传递函数对来指定和匹配前景位置和背景位置。诸如语音和音乐的输入音频的两个声道被处理。当诸如电话呼叫的语音通信被接受时，使用个性化传递函数将正在呈现的音乐从前景声道移动到与背景空间音频位置相对应的背景声道。语音呼叫被同时转移到前景声道。

Description

多个音频流的空间重新定位

相关申请的交叉引用

本申请通过引用整体地合并以下申请的公开内容：2018年1月7日提交并且标题为“METHOD FOR GENERATING CUSTOMIZED SPATIAL AUDIO WITH HEAD TRACKING”的美国专利申请序号62/614,482；2016年12月28日提交并且标题为“A METHOD FOR GENERATING ACUSTOMIZED/PERSONALIZED HEAD RELATED TRANSFER FUNCTION”的国际申请No.PCT/SG2016/050621，其要求2015年12月31日提交并且标题为“A METHOD FOR GENERATING ACUSTOMIZED/PERSONALIZED HEAD RELATED TRANSFER FUNCTION”的新加坡专利申请No.10201510822Y的优先权的权益，这些申请全部都通过引用并入以用于所有目的。本申请进一步通过引用整体地合并以下申请的公开内容：2018年5月2日提交并且标题为“SYSTEMAND A PROCESSING METHOD FOR CUSTOMIZING AUDIO EXPERIENCE”的美国专利申请序号15/969,767；以及2018年9月19日提交并且标题为“METHOD FOR GENERATING CUSTOMIZEDSPATIAL AUDIO WITH HEAD TRACKING”的美国专利申请序号16/136,211。

技术领域

本发明涉及用于生成音频以便通过耳机呈现的方法和系统。更具体地，本发明涉及使用具有与空间音频位置以及音频流相关联的房间脉冲响应信息的个性化空间音频传递函数的数据库，以及使用所述个性化空间音频传递函数来生成空间音频位置以通过耳机创建更逼真的音频呈现。

背景技术

常常当电话呼叫进来时用户正在其电话上听音乐并且可能希望音乐继续不中断。遗憾的是，大多数电话被配置为在接听电话时使音乐静音。所需要的是一种改进的系统，该系统允许音乐或其他音频在接听电话时继续不中断并且还允许实现允许用户在两个不同的音频源之间区分。

发明内容

为了实现前述事项，本发明在各种实施例中提供一种被配置为向耳机提供双耳信号的处理器和系统，所述系统包括：用于将音频音频放置定位在位于第一位置(诸如前景位置)中的第一输入音频声道中的装置；以及用于将音频放置定位在位于第二位置(诸如背景位置)中的第二输入音频声道中的装置。

在本发明的实施例中的一些实施例中，所述系统包括具有与空间音频位置以及至少两个音频流相关联的房间脉冲响应信息(诸如HRTF或BRIR)的个性化空间音频传递函数的数据库。用于至少两个定位的个性化BRIR与两个输入音频流一起被用于创建前景空间音频源和背景空间音频源来通过耳机为收听者提供沉浸式体验。

附图说明

图1是图示根据本发明的一些实施例的经处理的音频的空间音频位置的图。

图2是图示根据本发明的一些实施例的用于在不同的空间音频定位处呈现诸如来自若干不同类型的媒体中的任一种媒体的音频源和语音通信的系统的图。

图3是图示根据本发明的实施例的用于为了定制生成BRIR、为了定制获取收听者属性、为收听者选择定制BRIR并且用于呈现通过BRIR修改的音频的系统的图。

具体实施例

现在将详细地参考本发明的优选实施例。优选实施例的示例被图示在附图中。虽然将与这些优选实施例相结合地描述本发明，但是应理解的是，它不旨在将本发明限于这样的优选实施例。相反，它旨在涵盖如可以被包括在如通过所附权利要求书所限定的本发明的精神和范围内的替代方案、修改和等同物。在以下描述中，阐述了许多具体细节以便提供对本发明的透彻理解。可以在没有这些具体细节中的一些或全部的情况下实践本发明。在其他情况下，未详细地描述众所周知的机制以免不必要地模糊本发明。

在此应该注意的是，贯穿各个附图，相似的附图标记指代相似的部分。本文图示和描述的各个附图用于图示本发明的各种特征。就在一个附图而非另一附图中图示特定特征而言，除非在另外指示的情况下或者在结构内在地禁止并入该特征的情况下，否则应当理解的是，那些特征可以适于被包括在其他图中表示的实施例中，好像它们在那些图中被充分地图示一样。除非另外指示，否则附图不一定按比例绘制。在附图上提供的任何尺寸不旨在对本发明的范围进行限制，而仅仅是说明性的。

双耳技术(其通常指代与两只耳朵有关或者与两只耳朵一起使用的技术)使得用户能够感知三维场中的音频。这在一些实施例中通过确定并使用双耳房间脉冲响应(BRIR)及其相关的双耳房间传递函数(BRTF)来实现。BRIR模拟来自扩音器的声波与收听者的耳朵、头部和躯干的相互作用，以及与房间中的墙壁和其他物体的相互作用。可替代地，在一些实施例中使用头部相关传递函数(HRTF)。HRTF是与表示消声环境中的相互作用的脉冲响应相对应的频域中的传递函数。也就是说，脉冲响应在这里表示声音与收听者耳朵、头部和躯干的相互作用。

根据用于确定HRTF或BRTF的已知方法，真实或仿制头部和双耳麦克风用于记录真实房间中的许多扩音器位置中的每一个的立体声脉冲响应(IR)。也就是说，针对每个位置生成一对脉冲响应，每只耳朵各一个。此对脉冲响应被称为BRIR。然后可以使用这些BRIR来对音乐曲目或其他音频流进行卷积(过滤)，并且结果混合在一起并通过耳机播放。如果应用了正确的均衡，则音乐的声道将听起来就像在记录BRIR的房间中的扬声器位置处正在播放它们一样。

常常当电话呼叫进来时用户正在其电话上听音乐，并且用户可能希望音乐在接听电话时继续不中断。并不是调用静音功能，而是可将两个单独的音频信号(即，电话呼叫和音乐)馈送到相同的声道中。但是通常，人类很难区分来自同一方向的声源。为了解决此问题，并且根据一个实施例，当传入呼叫进来时，音乐被从第一位置引导至诸如背景位置之类的第二位置中的扬声器或声道，即，音乐和语音通信被定位在不同的位置中。遗憾的是，虽然定位被呈现的音频流的这些方法当与多扬声器设置一起使用时允许源的分离，但是当今的很大一部分语音通信通过移动电话进来，所述移动电话通常未连接到多声道扬声器设置。此外，当通过平移为与扩音器的物理位置不完全对准的位置来指定音频源时，甚至是与多声道设置一起使用的此类方法有时也提供不了最佳的结果。这是部分地由于以下原因而导致的：当通过传统的平移方法来近似此类位置以将所感知的音频位置移动到多声道扬声器位置之间的定位时收听者难以精确地定位空间音频位置。

本发明利用以下方法解决通过耳机进行语音通信的这些问题：通过利用使用传递函数虚拟化的位置来自动地将语音呼叫和音乐定位在不同的空间音频位置中，所述传递函数例如通过使用HRTF来至少模拟从至少个体的头部、躯干和耳朵对音频的影响效果。更优选地，通过用BRIR处理音频流来考虑房间对音频的影响效果。但是非个体化的市售BRIR数据集给大多数用户带来拙劣的方向感受以及甚至更差的对所感知的声源的距离感受。这可能导致区分声源时的困难。

为了解决这些附加问题，本发明在一些实施例中使用个体化BRIR。在一个实施例中，个体化HRTF或BRIR数据集的生成是通过在收听者的耳朵中插入麦克风并在记录会话中记录脉冲响应来生成的。这是可能不方便包括在移动电话或其他音频单元的销售中的费时过程。在另外的实施例中，使用个体化BRIR(或关联的BRTF)将语音和音乐声源定位于分开的第一(例如，前景)和第二(例如，背景)定位处，所述个体化BRIR是根据针对每个个体收听者的基于图像的属性的提取而导出的，所述属性用于根据具有针对多个被测个体的个体化空间音频传递函数的候选池的数据库来确定适合的个体化BRIR。与至少两个分开的空间音频位置中的每一个相对应的个体化BRIR优选地用于将第一音频流和第二音频流引导到两个不同的空间音频位置。

更进一步地，由于已知当一个声源被收听者确定为较近而另一声源被确定为较远时人类能够更好地区分这两个声源，所以在一些实施例中，利用使用所提取的基于图像的属性导出的个体化BRIR，音乐被自动地定位在背景空间位置中的一定距离处并且语音被安置在较近的距离处。

在一个另外的实施例中，所提取的基于图像的属性由移动电话生成。在另一实施例中，在确定语音呼叫具有较低优先级时，在从收听者接收到控制信号(诸如通过激活开关而生成的控制信号)时，语音呼叫被从前景引导到背景而音乐被引导到前景。在又一个实施例中，在确定语音呼叫具有较低优先级时并且在从收听者接收到控制信号时，使用与针对相同方向的不同距离相对应的个体化BRIR来增加语音呼叫的视在距离(apparentdistance)并且减小音乐的视在距离。

虽然应该理解的是，本文的大多数实施例描述与耳机一起使用的个性化BRIR，但是也可将用于与所描述的语音通信相结合地定位媒体流的技术扩展到根据关于图3描述的步骤为用户定制的任何适合的传递函数。

应该理解的是，本发明的范围旨在涵盖将相应的第一音频源和语音通信定位在用户周围的任何位置处。进一步地，前景和背景在本文中的使用不旨在限于分别为在收听者前面或在收听者后面的区域。相反，前景将在其最一般意义上被解释为指代两个单独的位置中的更突出或重要的位置，进而背景指代这些单独的位置中的不太突出的位置。更进一步地，应该注意的是，本发明的范围从非常一般的意义上来说是：根据本文描述的技术使用HRTF或BRIR来将第一音频流引导到第一定位并且将第二音频流引导到第二空间音频位置。应该进一步注意的是，本发明的一些实施例可扩展为选择针对前景位置或背景位置的用户周围的任何方向性定位，同时应用信号衰减代替向前景位置分配较近的距离和向背景位置分配较远的距离。以其最简单的形式，将根据本发明的实施例最先示出应用两对BRIR来表示前景位置和背景位置的过滤电路。

图1是图示根据本发明的一些实施例的经处理的音频的空间音频位置的图。最初，收听者105可能正在通过耳机103听诸如音乐的第一音频信号。使用应用于第一音频流的BRIR，收听者感觉第一音频流正在从第一音频位置102而来。在一些实施例中，这是前景位置。在一个实施例中，一种技术将此前景位置放置在相对于收听者105的零度位置处。当发生触发事件(诸如在一个实施例中接收到电话呼叫)时，第二流(例如，语音通信或电话呼叫)被路由到第一位置(102)同时第一音频信号被路由到第二位置104。在所示的示例实施例中，此第二位置被放置在200度位置处，所述200度位置在一些实施例中被描述为不太突出的位置或背景位置。200度位置仅作为非限制性示例被选择。将音频流放置在此第二位置处优选地使用与针对感兴趣收听者的此第二位置的方位角、仰角(elevation)和距离相对应的BRIR(或BRTF)来实现。

在一个实施例中，第一音频流到第二位置(例如，背景)的转变突然发生，而不提供第一音频流正在移动通过中间空间位置的任何感觉。这通过路径110图式地描绘，所述路径110没有示出中间空间位置。在另一实施例中，音频被定位在中间点112和114处非常短的瞬态时间段，以提供直接或替代地沿从前景位置102到背景位置104的弧移动的感觉。在优选实施例中，针对中间位置112和114的BRIR用于在空间上定位音频流。在替代实施例中，通过将BRIR用于前景和背景位置并且在与那些前景和背景位置相对应的那些虚拟扩音器之间平移来实现移动的感觉。在一些实施例中，用户可以认识到语音通信(例如，电话呼叫)不应有优先级状态并且选择将电话呼叫移交到第二位置(例如背景位置)或者甚至移交到用户选择的第三位置并且音乐回到第一(例如前景)位置。在一个实施例中，这通过将与音乐相对应的音频流发送回到前景(第一)位置102并且将语音通信发送到背景位置104来执行。在另一实施例中，通过使语音呼叫变得更远离并使音乐变得更靠近收听者头部105来执行优先级的这种重新排列。这优选地通过为在不同距离处捕获的收听者分配新HRTF或BRTF以表示新距离来完成，所述新HRTF或BRTF是根据所捕获的测量结果计算或者内插得到的。例如，为了增加来自背景位置104的音乐的优先级，可以将视在距离减小至空间音频位置118或116。优选地通过按新HRTF或BRTF来处理音乐音频流而实现的此减小的距离增大了与语音通信信号有关的音乐的音量。语音信号可以同时地在一些实施例中在离收听者头部105的距离上增加，同样是根据对捕获的HRTF/BRTF值的选择或者被内插来实现。内插/计算可以使用不止2个点来完成。例如，为了得到作为两条线(AB和CD)的交点的点，内插/计算可能需要点A、B、C和D。

可替代地，可以在重新排列步骤期间使生成语音通信的空间音频位置维持在固定位置处或者增加该空间音频位置。在一些实施例中，两个单独的音频流享有相等的重要性。

在另一些其他实施例中，用户可从用户界面为至少一个流选取空间音频位置，更优选地，为所有流选取单个或多个定位。

图2是图示根据本发明的一些实施例的用于在不同的空间音频定位处模拟音频源和语音通信的系统的图。图2总体上描绘通过使用分开的过滤器对来进入空间音频定位系统的两个不同的流(202和204)，所述过滤器对为针对第一空间音频位置的一对过滤器(即，过滤器207、208)和针对第二空间音频位置的一对过滤器209、210。在加法器214上添加分别用于左耳机杯的信号并且在加法器215中类似地添加用于耳机216的右耳机杯的过滤结果之前，可以对所有过滤流应用增益222-225。虽然硬件模块的此合集示出了所涉及的基本原理，但是其他实施例使用存储在存储器中的BRRI或HRTF，所述存储器例如如图3中所图示的音频呈现模块730(诸如移动电话)的存储器732。在一些实施例中，由于以下事实，收听者在辨别第一空间音频位置和第二空间音频位置时得到帮助：那些空间音频位置是通过为个体选择具有除了HRTF之外的房间响应的传递函数来生成的。在优选实施例中，使用为收听者定制的BRIR来确定第一位置和第二位置。

当通过直接入耳麦克风测量结果或者可替代地在不使用入耳麦克风测量结果的情况下通过个体化BRIR/HRIR数据集来针对收听者使HRTF或BRTF个体化时，用于通过耳机呈现的系统和方法效果最好。根据本发明的优选实施例，使用一种用于生成BRIR的定制方法，该方法涉及从用户提取基于图像的属性并且像通过图3一般地描绘的那样从BRIR的候选池中确定适合的BRIR。更详细地，图3图示根据本发明的实施例的系统，该系统用于为定制用途生成HRTF、为定制获取收听者属性、为收听者选择定制HRTF、提供适于结合相对用户头部移动进行工作的旋转过滤器并且用于呈现如通过BRIR所修改的音频。提取设备702是被配置为识别并提取收听者的音频相关物理属性的设备。尽管在优选实施例中块702可被配置为直接地测量那些属性(例如耳朵的高度)，但是相关测量结果是从用户拍摄的图像中提取的，以包括至少用户的一只或多只耳朵。提取那些属性所必需的处理优选地在提取设备702中发生，但是也可能位于在别处。对于非限制性示例，可在从图像传感器704接收到图像之后通过远程服务器710中的处理器来提取属性。

在优选实施例中，图像传感器704获取用户耳朵的图像并且处理器706被配置为提取用户的相关属性并且将它们发送到远程服务器710。例如，在一个实施例中，可使用主动形状模型来识别耳朵耳廓图像中的地标，并且使用那些地标及其几何关系和线性距离来识别关于用户的与从存储的BRIR数据集的合集(即，从BRIR数据集的候选池)生成定制BRIR有关的属性。在其他实施例中，RGT模型(回归树模型)用于提取属性。在另一些其他实施例中，诸如神经网络和其他形式的人工智能(AI)的机器学习用于提取属性。神经网络的一个示例是卷积神经网络。用于识别新收听者的唯一物理属性的若干方法的完整讨论在于2016年12月28日提交并且标题为“A Method for Generating a customized Personalized HeadRelated Transfer Function”的申请PCT/SG2016/050621中进行了描述，该公开通过引用完全并入本文。

远程服务器710优选地可通过诸如互联网的网络访问。远程服务器优选地包括选择处理器710，该选择处理器用于访问存储器714以使用在提取设备702中提取的物理属性或其他图像相关属性来确定最佳匹配的BRIR数据集。选择处理器712优选地访问具有多个BRIR数据集的存储器714。也就是说，候选池中的每个数据集将在方位角和仰角以及可能头部倾斜方面对于处于适当角度下的每个点优选地具有BRIR对。例如，可以在方位角和仰角方面以每3度进行测量，以针对组成BRIR的候选池的被采样个体生成BRIR数据集。

如早先所讨论的，这些是优选地通过用入耳麦克风对适度大小(即，大于100个个体)的人群进行测量而得到的，但是可适用个体的较小群组并且连同与每个BRIR集相关联的类似的图像相关属性一起存储。这些可部分地通过直接测量并部分地通过内插来生成以形成BRIR对的球面网格。即使在部分地测量/部分地内插的网格的情况下，一旦使用适当的方位角和仰角值来从BRIR数据集中为点识别适当的BRIR对，就可对未落在网格线上的另外的点进行内插。例如，可以优选地在频域中使用任何适合的内插方法，包括但不限于相邻线性内插、双线性内插和球面三角形内插。

在一个实施例中存储在存储器714中的BRIR数据集中的每一个均至少包括针对收听者的整个球面网格。在这种情况下，可选择方位角(在收听者周围的水平平面上，即在耳朵水平面处)或仰角的任何角度以用于放置声源。在其他实施例中BRIR数据集更受限制，在一种情况下限于生成符合常规立体声设置的房间中的扩音器放置(即，在相对于笔直零位置的+30度和-30度处，或者在完整球面网格的另一子集中，用于诸如5.1系统或7.1系统的没有限制的多声道设置的扬声器放置)所必需的BRIR对。

HRIR是头部相关脉冲响应。它完整地描述在消声条件下在时域中声音从源到接收器的传播。它包含的大多数信息与被测人的生理和人体测量学有关。HRTF是头部相关传递函数。HRTF与HRIR等同，只是它是频域中的描述。BRIR是双耳房间脉冲响应。BRIR与HRIR等同，只是它在房间中被测量，并且因此附加地合并了针对在其中捕获BRIR的具体配置的房间响应。BRTF是BRIR的频域版本。应该理解的是，在本说明书中，由于BRIR可容易地与BRTF置换，并且同样地，HRIR可容易地与HRTF置换，所以即使在这里未具体地描述它们，本发明实施例也旨在涵盖那些可容易置换的步骤。因此，例如，当描述涉及访问另一BRIR数据集时，应该理解的是，涵盖了访问另一BRTF。

图3进一步描绘存储在存储器中的数据的示例逻辑关系。存储器被示出为在列716中包括用于若干个体的BRIR数据集(例如，HRTF DS1A、HRTF DS2A等)。这些通过与每个BRIR数据集相关联的属性(优选为图像相关属性)来索引和访问。列715中所示的关联属性允许使新收听者属性与和被测量并存储在列716、717和718中的BRIR相关联的属性相匹配。也就是说，它们作为那些列中所示的BRIR数据集的候选池的索引。列717指代参考位置零处存储的BRIR并且与BRIR数据集的剩余部分相关联，并且可与旋转过滤器组合以便在监视并适应收听者头部旋转时高效存储和处理。此选项的进一步描述在2018年9月19日提交并且标题为METHOD FOR GENERATING CUSTOMIZED SPATIAL AUDIO WITH HEAD TRACKING的共同待决申请16/136,211中进行了详细的描述，所述申请通过引用完全并入本文。

通常，访问BRIR(或HRTF)数据集的候选池的一个目标是为人生成定制音频响应特性(诸如BRIR数据集)。在一些实施例中，如上所述，这些用于处理诸如语音通信和媒体流的输入音频信号，以对它们进行定位以便准确感知与第一位置和第二位置相关联的空间音频。在一些实施例中，生成诸如个体化BRIR的这种定制音频响应特性包括提取个体的诸如生物计量数据的图像相关属性。例如，此生物计量数据可包括与耳朵(通常为人的耳朵)的耳廓、头部和/或肩部有关的数据。在另外的实施例中，诸如(1)多重匹配；(2)多重辨识器类型；以及(3)基于聚类(cluster)的处理策略用于生成中间数据集，所述中间数据集稍后被组合(其中多个命中结果)以为个体产生定制BRIR数据集。可通过使用加权和等其他方法来组合这些。在一些情况下，在存在仅单个匹配的情况下无需组合中间结果。在一个实施例中，中间数据集至少部分地基于检索到的BRIR数据集(来自候选池)相对于提取的属性的匹配的接近度。在其他实施例中，使用多重辨识器匹配步骤，由此处理器基于与生物计量数据相对应的多个训练参数来检索一个或多个数据集。在另一些其他实施例中，使用基于聚类的处理策略，由此基于所提取的数据(例如，生物计量数据)对潜在数据集进行聚类。聚类包括具有关系的多个数据集，其中这些数据集被聚类或者分组在一起以形成具有与从图像中提取的数据(例如生物计量数据)匹配的对应BRIR数据集的模型。

在本发明的一些实施例中存储了2个或更多个距离球体。这指代针对离收听者的2个不同距离而生成的球面网格。在一个实施例中，一个参考位置BRIR是针对2个或更多个不同的球面网格距离球体来存储和关联的。在其他实施例中每个球面网格将具有它自己的要与适用的旋转过滤器一起使用的参考BRIR。选择处理器712用于针对新收听者使存储器714中的属性与从提取设备702接收的所提取的属性相匹配。各种方法用于匹配关联的属性，使得可导出正确的BRIR数据集。如上所述，这些包括基于多重匹配的处理策略、多重辨识器处理策略、基于聚类的处理策略和其他策略来比较生物计量数据，如2018年5月2日提交的标题为“SYSTEM AND A PROCESSING METHOD FOR CUSTOMIZING AUDIO EXPERIENCE”的美国专利申请号15/969,767中所描述的，该专利申请的公开内容通过引用完全并入本文。列718指代用于在第二距离处的被测个体的BRIR数据集的集合。也就是说，此列示出在第二距离处为被测个体记录的BRIR数据集。作为另一个示例，可以在1.0m至1.5m处取得列716中的第一BRIR数据集，而列718中的BRIR数据集可以指代在离收听者5m处测量的那些数据集。理想地BRIR数据集形成完整球面网格，但是本发明实施例适用于完整球面网格的任何和所有子集，包括但不限于包含常规立体声集合的BRIR对的子集；5.1多声道设置；7.1多声道设置以及球面网格的所有其他变化和子集，包括在方位角和仰角两者方面的每3度或更小角度处的BRIR对，以及密度不规则的那些球面网格。例如，这可能包括网格点的密度在前方位置中比在收听者后方的网格点的密度大得多的球面网格。此外，列716和718中的内容的布置不仅适用于如通过测量和内插导出的所存储的BRIR对，而且还适用于通过创建BRIR数据集而进一步细化的那些BRIR对，BRIR数据集反映前者到包含旋转过滤器的BRIR的转换。

在确定一个或多个匹配或计算出的BRIR数据集之后，数据集被发送到音频呈现设备730，以存储通过如上面针对新收听者所描述的匹配或其他技术而确定的整个BRIR数据集或在一些实施例中与所选择的空间化音频定位相对应的子集。音频呈现设备然后在一个实施例中选择针对所期望的方位角或仰角定位的BRIR对，并且将那些BRIR对应用于输入音频信号以向耳机735提供空间化音频。在其他实施例中，所选择的BRIR数据集被存储在耦合到音频呈现设备730和/或耳机735的单独的模块中。在其他实施例中，在呈现设备中仅有限的存储可用的情况下，呈现设备仅存储与收听者最佳匹配的关联属性数据的标识或最佳匹配BRIR数据集的标识，并且根据需要从远程服务器710实时地下载所期望的BRIR对(针对所选择的方位角和仰角)。如早前所讨论的，这些BRIR对是优选地通过用入耳麦克风对适度大小(即，大于100个个体)的人群进行测量来导出的，并且连同与每个BRIR数据集相关联的类似的图像相关属性一起存储。不是取全部7200个点，而是这些BRIR对可部分地通过直接测量并且部分地通过内插来生成以形成BRIR对的球面网格。即使是部分地测量/部分地内插的网格情况下，一旦使用适当的方位角和仰角值来从BRIR数据集中为点识别适当的BRIR对，就可对未落在网格线上的另外的点进行内插。

一旦为个体选择了定制选择的HRTF或BRIR数据集，这些个体化传递函数就用于使得用户或系统能够提供至少第一空间音频位置和第二空间音频位置以用于定位相应的媒体流和语音通信。换句话说，一对传递函数被用于第一空间音频位置和第二空间音频位置中的每一个，以虚拟地放置那些流并且因此使得收听者能够由于音频流的分开的空间音频位置而专注于他优选的音频流(例如，电话呼叫或媒体流)。本发明的范围旨在涵盖所有媒体流，包括但不限于与视频和音乐相关联的音频。

尽管已出于理解的清楚的目的详细地描述了前述发明，然而将显而易见的是，可以在所附权利要求的范围内实践某些变化和修改。因此，本实施例将被认为是说明性的而不是限制性的，并且本发明不应限于本文给出的细节，而是可以在所附权利要求的范围和等同物内被修改。

Claims

1.一种用于通过使用空间音频位置传递函数数据集来处理事件的音频处理设备，所述设备包括：

音频呈现模块，所述音频呈现模块被配置为将分别包括至少语音通信流和媒体流的第一音频信号和第二音频信号定位在至少第一空间音频位置和第二空间音频位置中的所选空间音频位置中，所述第一空间音频位置和所述第二空间音频位置中的每一个通过使用来自所述空间音频位置传递函数数据集的相应的第一传递函数和第二传递函数来呈现；

监视模块，所述监视模块用于监视语音通信事件的发起，所述事件包括电话呼叫的接收，并且在所述电话呼叫发起时，通过将所述语音通信流定位到所述第一空间音频位置并且将所述媒体流定位到所述第二空间音频位置来处理所述第一音频信号和所述第二音频信号；以及

输出模块，所述输出模块被配置用于通过两个输出声道将所得到的音频呈现到一对耦合的耳机。

2.根据权利要求1所述的音频处理设备，其中，所述空间音频位置传递函数数据集是个体化头部相关脉冲响应HRIR数据集或个体化双耳房间脉冲响应BRIR数据集中的一个，所述HRIR数据集和所述BRIR数据集是针对个体定制的数据集。

3.根据权利要求2所述的音频处理设备，还包括第二处理器，所述第二处理器被配置为从输入图像中提取针对所述个体的基于图像的属性，并且用于将所述基于图像的属性发送到选择处理器，所述选择处理器被配置为从具有已为个体的群体提供的多个HRIR或BRIR数据集的候选池的存储器中确定所述个体化HRIR数据集或所述个体化BRIR数据集，所述HRIR数据集或所述BRIR数据集各自与其对应的基于图像的属性相关联。

4.根据权利要求3所述的音频处理设备，其中，所述选择处理器通过访问所述候选池、通过将针对所述个体所提取的基于图像的属性与针对所述候选池所提取的属性进行比较，来确定所述个体化BRIR数据集，以基于接近度度量来识别一个或多个BRID数据集，并且所使用的处理策略是以下各项中的一种：多重匹配；多重辨识器类型；以及基于聚类的。

5.根据权利要求2所述的音频处理设备，其中，来自所确定的个体化BRIR数据集的所述第一空间音频位置和所述第二空间音频位置是通过内插或其他计算方法从所述存储器中的捕获的数据集导出的，并且其中，所述第一空间音频位置和所述第二空间音频位置分别包括前景位置和背景位置。

6.根据权利要求5所述的音频处理设备，其中，在个体收听者确定所述语音通信流具有较低优先级并且生成对应的控制信号时，所述语音通信流被定向到所述背景位置而所述媒体流被定向到所述前景位置。

7.根据权利要求2所述的音频处理设备，其中，在个体收听者确定所述语音通信流具有较低优先级并且生成对应的控制信号时，使用与针对相同方向的不同距离相对应的个体化BRIR来增加所述语音通信流的视在距离并且减小所述媒体流的视在距离。

8.根据权利要求2所述的音频处理设备，其中，以突然方式执行所述语音通信流从其初始位置到所述第一空间音频位置以及所述媒体流从其初始位置到所述第二空间音频位置的定位。

9.根据权利要求2所述的音频处理设备，还包括便携式图像捕获设备，所述便携式图像捕获设备被配置用于获取输入图像，并且其中，所述音频处理设备是获取所述图像并提取所述基于图像的属性的移动电话、通信设备或平板设备中的一个。

10.根据权利要求1所述的音频处理设备，其中，所述音频处理设备被配置为在所述语音通信流终止时将所述媒体流重新定位到所述第一空间音频位置。

11.根据权利要求1所述的音频处理设备，其中，所述媒体流包括音乐。

12.根据权利要求1所述的音频处理设备，其中，使用来自与针对相同方向的不同距离相对应的个体化双耳房间脉冲响应BRIR的相应的第一空间音频位置声音传递函数和第二空间音频位置声音传递函数来增加所述语音通信流的视在距离并且减小所述媒体流的视在距离。

13.根据权利要求1所述的音频处理设备，其中，所述输出模块经由无线连接和有线连接中的一种耦合到所述耳机。

14.根据权利要求1所述的音频处理设备，其中，所述输出模块包括数模转换器，并且与所述耳机的耦合是通过模拟端口实现的。

15.根据权利要求1所述的音频处理设备，其中，所述输出模块被配置为将数字信号传递到所述耳机，并且所述耳机包括数模转换器。

16.根据权利要求1所述的音频处理设备，还包括用户界面，所述用户界面被配置用于为所述第一空间音频位置和所述第二空间音频位置中的至少一个选取定位。

17.一种用于处理到一组耳机的音频流的方法，包括：

将分别包括至少语音通信流和媒体流的第一音频信号和第二音频信号定位在至少第一空间音频位置和第二空间音频位置中的所选空间音频位置中，所述第一空间音频位置和所述第二空间音频位置中的每一个通过使用来自空间音频位置传递函数数据集的相应的第一传递函数和第二传递函数来呈现；

监视语音通信事件的发起，所述事件包括电话呼叫的接收，并且在所述电话呼叫发起时，通过将所述语音通信流定位到所述第一空间音频位置并且将所述媒体流定位到所述第二空间音频位置来处理所述第一音频信号和所述第二音频信号，其中，对于所述第二空间音频位置来说存在至少关联的房间脉冲响应；以及

通过两个输出声道将所得到的音频呈现到一对耦合的耳机。

18.根据权利要求17所述的方法，其中，所述空间音频位置传递函数数据集是针对个体定制的头部相关脉冲响应HRIR数据集或双耳房间脉冲响应BRIR数据集中的一个。

19.根据权利要求18所述的方法，其中，所述定制包括从输入图像中提取所述个体的基于图像的属性并且将所述基于图像的属性发送到选择处理器，所述选择处理器被配置为从具有已为个体的群体提供的多个HRIR或BRIR数据集的候选池的存储器中确定个体化HRIR或BRIR数据集，所述HRIR或BRIR数据集各自与其对应的基于图像的属性相关联。

20.根据权利要求19所述的方法，其中，确定个体化BRIR数据集包括所述候选池中的现有BRIR数据集之间的内插_。