CN107113523A

CN107113523A - 根据用户发声感知来确定头部相关变换函数数据

Info

Publication number: CN107113523A
Application number: CN201580062407.XA
Authority: CN
Inventors: E·索尔特威尔
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-11-17
Filing date: 2015-11-16
Publication date: 2017-08-29
Also published as: KR102427064B1; EP3222060A1; WO2016081328A1; US20160142848A1; EP3222060B1; US9584942B2; KR20170086596A

Abstract

公开了一种用于确定用户的个性化的头部相关变换函数(HRTF)参数的方法和装置。本技术可包括通过使用用户的变换数据来确定用户的HRTF数据，其中变换数据指示由用户感知到的用户的直接话语的声音与用户的间接话语的声音之间的差异。本技术还可涉及通过基于用户的HRTF数据对音频数据进行处理来产生为用户定制的音频效果。

Description

根据用户发声感知来确定头部相关变换函数数据

发明领域

本发明的至少一个实施例涉及用于确定头部相关变换函数(HRTF)数据的技术，并且更具体而言，涉及一种用于根据用户发声感知确定HRTF数据的方法和装置。

背景

三维(3D)位置音频是用于(例如，从立体声扬声器或耳机)产生声音的技术，使得收听者感知到来自相对于他或她的头部的空间中的特定位置的声音。为了创建该感知，音频系统通常使用被称为头部相关变换函数(HRTF)的信号变换来修改音频信号。HRTF表征特定个人的耳朵如何接收来自空间中某一点的声音。更具体而言，HRTF可被定义成从自由场中的特定点到耳道中的特定点测得的特定个人的左耳或右耳远场频率响应。

最高质量的HRTF针对每个单独的收听者来被参数化，以将不同收听者的听觉系统的生理学和解剖学上的个体差异考虑在内。然而，用于确定HRTF的现有技术要么太过于通用(例如，它们为任何给定的收听者创建并不足够个性化的HRTF)，要么在消费者规模上对于收听者作出切实可行的实现而言是很费力的(例如，不要期望消费者愿意仅为了使用特定的3D位置音频产品而来到研究实验室以使他们的个性化的HRTF得到确定)。

概述

此处介绍的是一种方法和装置(共同地亦单独地被称为“技术”)，其使得更容易以方便用户自行管理的方式来创建个性化的HRTF数据。在至少一些实施例中，该技术包括通过使用用户的变换数据来确定用户的HRTF数据，其中变换数据指示由用户感知到的用户的直接话语的声音与(例如，从音频扬声器记录并输出的)用户的间接话语的声音之间的差异。该技术还可涉及通过基于用户的HRTF数据处理音频数据来产生为用户定制的音频效果。根据附图和详细描述，该技术的其他方面将显而易见。

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。

附图简述

在附图中的各图中作为示例而非限制解说了本发明的一个或多个实施例，其中相同的标记指示相似的元素。

图1例示了使用个性化的HRTF数据来产生3D位置音频的终端用户设备。

图2例示了用于基于用户发声感知来生成个性化的HRTF数据的方案的示例。

图3是其中个性化的HRTF生成技术可被实现的处理系统的示例的框图。

图4是基于用户发声感知来生成并使用个性化的HRTF数据的整个过程的示例的流程图。

图5是创建等价映射的整个过程的示例的流程图。

图6是基于用户的等价映射和变换数据来确定用户的个性化的HRTF数据的整个过程的示例的流程图。

详细描述

至少有两个问题与为给定的收听者产生个性化的HRTF相关联。第一，潜在的HRTF的解决方案空间非常大。第二，HRTF与感知到的声音位置之间不存在简单的关系，所以收听者不能被引导以通过简单地描述声音位置中的错误(例如，通过说“离左边有点远”)来找到正确的HRTF。另一方面，大多数人都有收听他们自己声音的录音并需要注意录音听起来不同于他们对他们的直接语音的感知的经历。换言之，当一个人说话时他的声音在他听来与他听到的他说话的录音是不同的。

这种感知到的差异的主要原因在于，当一个人说话时，他的声音的大部分通过头/颅骨到达耳膜，而不是从口中传出、通过耳道并接着到达耳膜的。对于录制的语音，声音几乎完全通过外耳和耳道到达耳膜。外耳包含许多褶皱和起伏，其影响声音的定时(声音何时由听觉神经记录)以及声音的其他特性，诸如音调、音色等。这些特征影响个人如何感知声音。换句话说，一个人对直接话语的感知与该人对外部(例如经录制的)话语的感知之间的差异的主要决定因素之一是耳朵的形状。

这些同样的人们之间的耳朵形状的差异还决定了个性化的HRTF。因此，一个人对他的内部语音与外部语音之间的差异的感知作为数据源可被用来确定特定用户的HRTF。也就是说，一个人对该人的直接话语与该人的间接话语之间的差异的感知可被用来为该人生成个性化的HRTF。其他变量(诸如颅骨/颌骨形状或骨密度)在该系统中生成噪声并且可能降低总体准确度，因为它们倾向于影响人们如何感知内部和外部话语之间的差异，而不与该用户的最佳HRTF相关。然而，耳朵形状是感知到的内部和外部话语之间的差异的足够大的要素，从而信噪比应该足够高，使得即使存在这些其他变量作为噪声源，系统仍大体上可用。

本文所使用的术语“直接话语”是指由一个人从该人自己的嘴巴说出的话语，即不是通过该人身体外部的除空气之外的任何介质生成、修改、再现、辅助或传达的。与本文中“直接话语”具有相同含义的其他术语包括“内部话语”、“颅内话语”和“内部话语”。另一方面，本文所使用的术语“间接话语”是指除了直接话语之外的话语，诸如从播放人的话语的录音的扬声器输出的声音。间接话语的其他术语包括“外部话语”和“经再现的话语”。附加地，“话语”的其他术语包括“声音”、“发声”和“语音”。

因此，为了确定个人的最佳HRTF，可以要求该人操纵他的经录制的语音的合适的音频参数，以使他的直接和间接话语在该人听来相同，而不是试图要求他直接帮助找到正确的HRTF参数。对该事实的认识是有价值的，因为大多数人对声音质量(例如音色和音调)中的差异比他们对复杂的数学函数(例如，HRTF)要更加熟悉。这种熟悉可被用来创建引导式体验，其中个人以用声音的3D定位无法直接完成的方式来帮助指导处理系统通过声音变化(音调，音色等)的解决方案空间。

因此，这里介绍的技术的至少一个实施例包括三个阶段。第一阶段涉及基于与一些(优选地大量的)人(训练对象)的交互来建立模型数据库，以指示对他们的外部语音声音的不同改变(即，使他们的外部语音的声音被感知成与他们的内部语音相同的改变)是如何映射到他们的HRTF数据的。该映射在本文中被称为“等价映射”。剩余的阶段通常在与第一阶段不同的地点和在第一阶段之后的时间被执行。第二阶段涉及引导特定个人(例如，特定消费者产品的终端用户，本文中被称为“用户”)通过标识变换的过程，该变换使如该人所感知到的他的内部和外部的声音话语听起来是等价的。第三阶段涉及使用等价映射和在第二阶段中生成的个体的声音变换来确定该用户的个性化的HRTF数据。一旦个性化的HRTF数据得到确定，其就可被用于终端用户产品中来为该用户生成高质量的3D位置音频。

现在参考图1，图1例示了使用个性化的HRTF数据来产生3D位置音频的终端用户设备1。用户设备1可以是例如常规的个人计算机(PC)、平板或平板手机计算机、智能电话、游戏控制台、机顶盒或任何其他处理设备。替代地，图1所例示的各种元素可分布在两个或更多个终端用户设备(诸如上述那些设备中的任何一个)之间。

终端用户设备1包括可通过两个或更多个音频扬声器4为用户3生成3D位置声音的3D音频引擎2。3D音频引擎2可包括并且/或者执行用于此目的的软件应用，诸如游戏或高保真音乐应用。3D音频引擎2通过使用针对用户的个性化的HRTF数据5来生成位置音频效果。个性化的HRTF数据5由HRTF引擎6生成并提供(在下文作进一步讨论)并被储存在存储器7中。

在一些实施例中，HRTF引擎6可驻留在除包含扬声器4的设备之外的设备中。因此，终端用户设备1实际上可以是多设备系统。例如，在一些实施例中，HRTF引擎6驻留在(例如，使用高清晰度电视机作为显示设备的类型的)视频游戏控制台中，而3D音频引擎2和扬声器4驻留在由用户佩戴的立体声耳机中，其从游戏控制台无线地接收HRTF 5(以及可能的其他数据)。在这种情况下，游戏控制台和耳机两者都可包括用于在这两个设备之间提供有线和/或无线通信的合适的收发机(未示出)。此外，在这样的实施例中的游戏控制台可例如经由诸如互连网之类的网络从远程设备(例如服务器计算机)获取个性化的HRTF数据5。附加地，在这样的实施例中的耳机还可配备有为用户提供虚拟现实和/或增强现实(“VR/AR”)视觉体验的处理和显示元件(未示出)，其可以与扬声器的3D位置音频输出同步或以其他方式协调。

图2示出了根据一些实施例的用于生成个性化的HRTF数据5的方案的示例。一些人(“训练对象”)21被引导通过由等价映射生成器23创建等价映射22的过程。最初，针对训练对象21中的每一个的HRTF数据24被提供给等价映射生成器23。每个训练对象21的HRTF数据24可使用任何已知或方便的方法来被确定，并且可以按任何已知或方便的格式来被提供给等价映射生成器23。HRTF数据24被生成并格式化的方式与这里介绍的技术无密切的关系。然而，要需要注意，为特定个人获取HRTF数据的已知方法包括数学计算方法和实验测量方法。例如，在实验测量方法中，一个人可被放置在具有多个音频扬声器的消声室中，该多个音频扬声器以相等的、已知的角位移(被称为方位角)围绕该人间隔开，距离该人几英尺(替代地，单个音频扬声器可被使用并相继地被放置在相对于该人的头部的不同的角位置或“方位角”处)。小的麦克风可被放置在人的耳道中，并且被用来针对每个耳朵相继地检测来自扬声器中的每一个的声音。每个扬声器的声音输出与在各麦克风处被检测到的声音之间的差异可被用来针对每个方位角确定该人的左耳和右耳的单独的HRTF。

表示HRTF的已知方式包括例如频域表示、时域表示和空间域表示。在频域HRTF表示中，针对多个方位角中的每一个，人的每个耳朵的HRTF可被表示成例如信号幅度响应相对于频率的图(或等效数据结构)，其中方位角是声源在水平面中的角位移。在时域HRTF表示中，针对多个方位角中的每一个，人的每个耳朵的HRTF可被表示成例如信号振幅相对于时间(例如，样本号)的图(或等效数据结构)。在空间域HRTF表示中，针对多个方位角和仰角中的每一个，人的每个耳朵的HRTF可被表示成例如信号幅度相对于方位角和仰角两者的图(或等效数据结构)。

再次参考图2，对于每个训练对象21，等价映射生成器23提示训练对象21向麦克风25说出预定的话语并记录该话语。等价映射生成器23接着通过一个或多个扬声器28向训练对象21回放该话语，并且提示训练对象21指示经录制的话语的回放(即他的间接话语)听起来是否与他的直接话语相同。训练对象21可通过任何已知或方便的用户界面(诸如经由计算机显示器上的图形用户界面、机械控制(例如，物理旋钮或滑块)或语音识别接口)来提供该指示。如果训练对象21指示直接和间接话语听起来不一样，则等价映射生成器23通过用户界面26提示训练对象21对一个或多个音频参数(例如，音调、音色或音量)进行调整。与上述指示一样，用户界面26可以是例如GUI、手动控制、识别接口或其组合。等价映射生成器23接着回放根据经调整的音频参数作出修改的训练对象21的间接话语，并且再次要求训练对象21指示其听起来是否与该训练对象的直接话语相同。如果需要，则该过程将继续并重复，直到训练对象21指示他的直接和间接话语听起来相同。当训练对象已作如此指示时，等价映射生成器23接着将所有可调整音频参数的当前值作为训练对象的变换数据27，并且将训练对象的变换数据27与训练对象的HRTF数据24相关联地储存在等价映射22中。

等价映射22的格式并不重要，只要它包含多个训练对象的变换数据(例如，音频参数值)27和HRTF数据24之间的关联性即可。例如，数据可被储存为键值对，其中变换数据是键，而HRTF数据是对应的值。一旦完成，则等价映射22可以但不一定保留每个个体训练对象的数据关联性。例如，在某一时点，等价映射生成器23或一些其他实体可处理等价映射22，使得给定的一组HRTF数据24不再与一个特定的训练对象21相关联；然而，该组HRTF数据仍将与特定的一组变换数据27相关联。

在等价映射22已被创建之后的某个时间，其可被储存在终端用户产品中或者可使终端用户产品可访问，以用于生成如上所述的个性化的3D位置音频。例如，等价映射22可由终端用户产品的制造商并入终端用户产品中。替代地，其可在终端用户产品的制造和销售之后的某个时间(诸如在用户已履行产品的交付之后)经由计算机网络(例如，互连网)被下载到终端用户产品中。在另一替代方案中，等价映射22可简单地使得终端用户产品经由网络(例如，互联网)可访问，而不会将等价映射的任何实质部分下载到终端用户产品。

仍然参考图2，在终端用户产品中被实现或至少与终端用户产品通信的HRTF引擎6可访问等价映射22。HRTF引擎6引导用户3通过与训练对象21被引导通过的过程类似的过程。具体而言，HRTF引擎6提示用户对麦克风40(其可以是终端用户产品的一部分)说出预定的话语并记录该话语。HRTF引擎6接着通过一个或多个扬声器4(其也可以是终端用户产品的一部分)来向用户3回放该话语，并且提示用户3指示经录制的话语的回放(即，他的间接话语)听起来是否和他的直接话语一样。用户3可通过任何已知或方便的用户界面(诸如经由计算机显示器或电视上的图形用户界面、机械控制(例如，物理旋钮或滑块)或语音识别接口)来提供该指示。需要注意，在其他实施例中，这些步骤可被颠倒；例如，用户可被播放他自己的声音的先前经录制的版本，并接着被要求说话并收听他的直接话语，并且将其与经录制的版本进行比较。

如果训练对象3指示直接和间接话语听起来不一样，则等价映射生成器6通过用户界面29提示训练对象3对一个或多个音频参数(例如，音调、音色或音量)进行调整。与上述指示一样，用户界面29可以是例如GUI、手动控制、语音识别接口或其组合。HRTF引擎6接着回放根据经调整的(多个)音频参数作出修改的用户3的间接话语，并且再次要求用户3指示其听起来是否与该用户的直接话语相同。如果需要，则该过程将继续并重复，直到用户3指示他的直接和间接话语听起来相同。当用户3已作出如此指示时，HRTF引擎6接着将可调整音频参数的当前值作为用户的变换数据。此时，HRTF引擎6接着使用用户的变换数据在等价映射22中进行索引，以确定其中所储存的最适合于用户3的HRTF数据。个性化的HRTF数据的这种确定可以是简单的查找操作。或者，其可涉及最佳拟合确定，该最佳拟合确定可包括一种或多种技术，诸如机器学习或统计技术。一旦个性化的HRTF数据针对用户3得到确定，则其可被提供给针对用户产品中的3D音频引擎，以用于生成3D位置音频，如上所述。

等价映射生成器23和HRTF引擎6各自可通过例如一个或多个(例如，由软件应用)编程的通用微处理器来实现，以执行本文所述的各功能。替代地，这些元件可通过专用电路(诸如专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)等)来实现。

图3高级地例示了其中这里介绍的个性化的HRTF生成技术可被实现的处理系统的示例。需要注意，该技术的不同部分可在两个或更多个分开的处理系统中被实现，每个处理系统与图3所标识的处理系统一致。处理系统30可表示终端用户设备(诸如图1中的终端用户设备1)或者生成由终端用户设备使用的等效映射的设备。

如图所示，处理系统30包括一个或多个处理器31、存储器32、通信设备33、大容量存储设备34、声卡35、音频扬声器36、显示设备37以及可能的其他输入/输出(I/O)设备38，它们通过某种形式的互连39彼此耦合。互连39可以是或者包括一个或多个导电迹线、总线、点到点连接、控制器、适配器、无线链路和/或其他常规连接设备和/或介质。一个或多个处理器31单独和/或共同地控制处理系统30的整体操作，并且可以是或者包括例如一个或多个通用可编程微处理器、数字信号处理器(DSP)、移动应用处理器、微控制器、专用集成电路(ASIC)、可编程门阵列(PGA)等，或者这些设备的组合。

一个或多个存储器32每个可以是或者包括一个或多个物理存储设备，其可以是随机存取存储器(RAM)、只读存储器(ROM)(其可以是可擦除且可编程)、闪存、微型硬盘驱动器或其他合适类型的存储设备或者这些设备的组合的形式。一个或多个大容量存储设备34可以是或者包括一个或多个硬盘驱动器、数字通用盘(DVD)、闪速存储器等。

一个或多个通信设备33每个可以是或者包括例如以太网适配器、电缆调制解调器、DSL调制解调器、Wi-Fi适配器、蜂窝收发机(例如，3G、LTE/4G或5G)、基带处理器、蓝牙或蓝牙低功耗(BLE)收发机等，或者其组合。

配置(多个)处理器31来执行这里介绍的技术的各个方面的数据和指令(代码)可被储存在系统30的一个或多个组件中，诸如被储存在存储器32、大容量存储设备34或声卡35或者其组合中。例如，如图3所示，在一些实施例中，等价映射22被储存在大容量存储设备34中，存储器32储存用于实现等价映射生成器23的代码40以及用于实现HRTF引擎6的代码41以及用于实现3D音频引擎2(即，当由处理器31执行时)的代码41。声卡35可包括用于实现3D音频引擎2(即，当由处理器执行时)的3D音频引擎2和/或存储器存储代码42。然而，如上所述，这些元素(代码和/或硬件)不必都驻留在同一设备中，并且分布它们的其它可能的方式是可能的。此外，在一些实施例中，所例示的组件中的两个或更多个可被组合；例如，声卡35的功能可由可能与一个或多个存储器32结合的一个或多个处理器31来实现。

图4示出了基于用户发声感知来生成并使用个性化的HRTF数据的整个过程的示例。最初，在步骤401，等价映射被创建，其将语音声音的变换与多个训练对象的HRTF数据相关联。随后(可能很晚以后，并且可能在不同于步骤401被执行的位置的位置)，在步骤402，针对特定用户的HRTF数据例如通过使用指示用户对用户的直接话语与用户的间接话语之间的差异的感知的变换数据作为等价映射中的索引来从等价映射中被确定。最后，在步骤403，为用户定制的位置音频效果通过基于在步骤402所确定的用户的个性化的HRTF数据对音频数据进行处理来被产生。

图5更详细地例示了根据一些实施例的创建等价映射的步骤401的示例。该过程可由等价映射生成器(诸如图2中的等价映射生成器23)执行。所例示的过程针对多个(理想地，大量的)训练对象中的每一个进行重复。

最初，图2的过程获取训练对象的HRTF数据。如上所述，用于生成或获取HRTF数据的任何已知或方便的技术可在该步骤中被使用。接下来，在步骤502，训练对象同时地说话并收听他自己的直接话语，其在当前示例实施例中也由系统(例如，由等价映射生成器23)录制。话语的内容是不重要的；它可以是任何方便的测试短语，诸如“测试1-2-3，我的名字是John Doe”。接下来，在步骤503，该过程通过一个或多个音频扬声器向训练对象播放该训练对象的间接话语(例如，在步骤502中的用户的话语的录制)。在步骤504，训练对象接着指示步骤503的间接话语是否听上去与步骤502的直接话语相同。需要注意，该整个过程中的步骤顺序可根据这里所描述的作出改变。例如，在其他实施例中，系统可首先回放训练对象的先前经录制的话语，并且此后要求训练对象说话并收听他的直接话语。

如果训练对象指示直接和间接话语听起来不一样，则步骤507处的过程接收来自训练对象的输入，以用于变换他的间接(经录制的)话语的听觉特性。这些输入可由例如训练对象转动一个或多个控制旋钮和/或移动一个或多个滑块来提供，每个对应于不同的音频参数(例如，音调、音色或音量)，其中任何一个可以是物理控件或者基于软件的控件。该过程接着通过再次播放根据在步骤507中被调整的参数作出修改的经录制的话语来从步骤502进行重复。

当训练对象在步骤504指示直接和间接话语听上去“相同”(其实际上可能意味着在训练对象听来它们是接近的)时，该过程进行到步骤505，其中该过程将训练对象的变换参数确定为音频参数的当前值，即由训练对象最新近地修改的音频参数。在步骤506，这些值随后与训练对象的HRTF数据相关联地被储存在等价映射中。

可通过使用确定性统计回归分析或通过更复杂的非确定性机器学习技术(诸如神经网络或决策树)来创建或优化等价映射。这些技术可在来自所有训练对象的HRTF数据和变换数据已被获取和储存之后被应用，或者它们可在新数据被获取并被储存在等价映射中时被迭代地应用于等价映射。

图6更详细地示出了根据一些实施例的基于用户的等效映射和变换数据来确定用户的个性化的HRTF数据的步骤402的示例。该过程可由HRTF引擎(诸如例如图1和图2中的HRTF引擎6)执行。最初，在步骤601，用户同时地说话并收听他自己的直接话语，其在当前示例实施例中也由系统(例如，由HRTF引擎6)录制。话语的内容是不重要的；它可以是任何方便的测试短语，诸如“测试1-2-3，我的名字是Joe Smith”。接下来，在步骤602，该过程通过一个或多个音频扬声器向用户播放该用户的间接话语(例如，在步骤601中的用户的话语的录制)。在步骤603，训练对象接着指示步骤602的间接话语听上去是否与步骤601的直接话语相同。需要注意，该整个过程中的步骤顺序可根据这里所描述的作出改变。例如，在其他实施例中，系统可首先回放用户的先前经录制的话语，并且此后要求用户说话并收听他的直接话语。

如果用户指示直接和间接话语听起来不一样，则过程接着在步骤606接收来自用户的输入，以用于变换他的间接(经录制的)话语的听觉特性。这些输入可由例如用户转动一个或多个控制旋钮和/或移动一个或多个滑块来提供，每个对应于不同的音频参数(例如，音调、音色或音量)，其中任何一个可以是物理控件或者基于软件的控件。该过程接着通过再次播放根据在步骤601中被调整的参数作出修改的经录制的话语来从步骤606进行重复。

当用户在步骤603指示直接和间接话语听上去“相同”(其实际上可能意味着在用户听来它们是接近的)时，该过程进行到步骤604，其中该过程将用户的变换参数确定为音频参数的当前值，即由用户最新近地修改的音频参数。这些值接着被用来执行在与用户的变换参数最相符的HRTF数据的等价映射中的查找；该HRTF数据然后被当作用户的个性化的HRTF数据。像图5的过程一样，可使用确定性统计回归分析或更复杂的非确定性机器学习技术(例如，神经网络或决策树)来确定最接近地映射到用户的变换参数的HRTF数据。

需要注意，上述过程的其他变型被构想。例如，与其使训练对象或用户自己调整音频参数，一些实施例可改为向训练对象或用户呈现被不同地改变的外部语音声音的阵列，并使他们选择最接近地匹配他们对他们内部语音声音的感知的一者，或者通过指示与每个呈现出的外部语音声音或多或少地相似来引导系统。

以上描述的机器实现的操作可由通过软件和/或固件来编程/配置的可编程电路，或者完全由专用电路，或者由这样的形式的组合来实现。这样的专用电路(如果有的话)可采用例如一个或多个专用集成电路(ASIC)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、片上系统(SOC)等的形式。

用于实现本文中引入的技术的软件可被储存在机器可读存储介质上，并可由一个或多个通用或专用可编程微处理器来执行。如本文中所使用的术语“机器可读介质”包括可储存可由机器(机器可以是例如计算机、网络设备、蜂窝电话、个人数字助理(PDA)、制造工具、具有一个或多个处理器的任何设备等)访问的形式的信息的任何机制。例如，机器可访问介质包括可记录/不可记录介质(例如，只读存储器(ROM)；随机存取存储器(RAM)；磁盘存储介质；光盘存储介质；闪存设备等)等。

某些实施例的示例

本文中引入的技术的某些实施例被概括在以下被编号的示例中：

1.一种方法，包括：通过使用用户的变换数据来确定用户的头部相关变换函数(HRTF)数据，变换数据指示由用户感知到的用户的直接话语的声音与用户的间接话语的声音之间的差异；以及通过基于用户的HRTF数据对音频数据进行处理来产生为用户定制的音频效果。

2.如示例1所述的方法，还包括在确定用户的HRTF数据之前：经由用户接口接受来自用户的用户输入，用户输入指示由用户感知到的用户的直接话语的声音与来自音频扬声器的用户输出的间接话语的声音之间的差异；以及基于用户输入生成用户的变换数据。

3.根据前述示例1至2中任一项所述的方法，其中确定用户的HRTF数据包括在包含多个训练对象的HRTF数据与多个训练对象的变换数据的关联性的映射数据库中确定针对用户的变换数据的最接近的匹配。

4.根据前述示例1至3中任一项所述的方法，其中多个训练对象的变换数据指示由每个对应的训练对象感知到的训练对象的直接话语的声音与来自音频扬声器的训练对象输出的间接话语的声音之间的差异。

5.根据前述示例1至4中任一项所述的方法，其中在映射数据库中确定针对用户的变换数据的最接近的匹配包括执行机器学习算法以确定最接近的匹配。

6.根据前述示例1至5中任一项所述的方法，其中在映射数据库中确定针对用户的变换数据的最接近匹配包括执行统计算法以确定最接近的匹配。

7.一种方法，包括：a)通过音频扬声器向用户播放用户的经再现的话语；b)提示用户提供指示用户是否感知到经再现的话语的声音与用户的直接话语的声音相同的第一用户输入；c)接收来自用户的第一用户输入；d)当第一用户输入指示用户感知到经再现的话语的声音与直接话语的声音不同时，使用户能够经由用户接口提供第二用户输入以促使对音频参数的调整，并且接着使用根据第二用户输入被调整的经再现的话语来重复步骤a)至d)，直到用户指示经再现的话语的声音与直接话语的声音相同；e)当用户已指示经再现的话语的声音与直接话语的声音基本相同时，基于经调整的音频参数来确定用户的变换数据；以及f)通过使用用户的变换数据和包含与多个训练对象的头部相关变换函数(HRTF)数据相关联的多个训练对象的变换数据的映射数据库来确定用户的HRTF数据。

8.如示例7所述的方法，还包括：通过基于用户的HRTF数据对音频数据进行处理来经由音频扬声器产生为用户定制的位置音频效果。

9.根据前述示例7至8中任一项所述的方法，其中映射数据库中的多个训练对象的变换数据指示由每个对应的训练对象感知到的训练对象的直接话语的声音与来自音频扬声器的训练对象输出的经再现的话语的声音之间的差异。

10.根据前述实施例7至9中任一项所述的方法，其中确定用户的HRTF数据包括执行机器学习算法。

11.根据前述实施例7至10中任一项所述的方法，其中确定用户的HRTF数据包括执行统计算法。

12.一种处理系统，包括：处理器；以及存储器，该存储器被耦合到处理器并储存代码，该代码当在处理系统中被执行时促使处理系统：接收来自用户的用户输入，用户输入表示由用户感知到的用户的直接话语的声音与来自音频扬声器的用户输出的经再现的话语的声音之间的关系；基于用户输入导出用户的变换数据；使用用户的变换数据来确定用户的头部相关变换函数(HRTF)数据；以及促使HRTF数据被提供给音频电路，供音频电路用来根据用户的HRTF数据产生为用户定制的音频效果。

13.如示例12所述的处理系统，其中该处理系统是耳机。

14.根据前述示例12至13中任一项所述的处理系统，其中处理系统是游戏控制台，并且被配置成将HRTF数据传送到包含音频电路的分开的用户设备。

15.根据前述示例12至14中任一项所述的处理系统，其中处理系统包括耳机和游戏控制台，游戏控制台包括处理器和存储器，耳机包括音频扬声器和音频电路。

16.根据前述示例12至15中任一项所述的处理系统，其中代码进一步促使处理系统：a)促使经再现的话语通过音频扬声器播放给用户；b)提示用户提供指示用户是否感知到经再现的话语的声音与直接话语的声音相同的第一用户输入；c)接收来自用户的第一用户输入；d)当第一用户输入指示经再现的话语听起来不同于直接话语时，使用户经由用户接口能够提供第二用户输入以调整经再现话语的音频参数，并且接着使用带有经调整的音频参数的经再现的话语来重复所述a)至d)，直到用户指示经再现的话语听起来与直接话语相同；以及e)当用户已指示经再现的话语听起来与直接话语基本相同时，基于经调整的音频参数来确定用户的变换数据。

17.根据前述示例12至16中任一项所述的处理系统，其中代码进一步促使处理系统通过在包含多个训练对象的HRTF数据与多个训练对象的变换数据的关联性的映射数据库中确定针对变换数据的最接近的匹配来确定用户的HRTF数据。

18.根据前述示例12至17中任一项所述的处理系统，其中多个训练对象的变换数据指示由每个对应的训练对象感知到的训练对象的直接话语的声音与来自音频扬声器的训练对象输出的经再现的话语的声音之间的差异。

19.一种系统，包括：音频扬声器；驱动音频扬声器的音频电路；以及头部相关变换函数(HRTF)引擎，该头部相关变换函数引擎被通信地耦合到音频电路，以通过导出指示由用户感知到的用户直接话语的声音与来自音频扬声器的用户输出的经再现的话语的声音之间的差异的用户的变换数据并且随后使用用户的变换数据来确定用户的HRTF数据从而确定用户的HRTF数据。

20.一种装置，包括：用于通过使用用户的变换数据来确定用户的头部相关变换函数(HRTF)数据的装置，变换数据指示由用户感知到的用户的直接话语的声音与用户的间接话语的声音之间的差异；以及用于通过基于用户的HRTF数据对音频数据进行处理来产生为用户定制的音频效果的装置。

21.一种如示例20所述的装置，还包括：用于在确定用户的HRTF数据之前经由用户接口接收来自用户的用户输入的装置，用户输入指示由用户感知到的用户的直接话语的声音与来自音频扬声器的用户输出的间接话语的声音之间的差异；以及用于在确定用户的HRTF数据之前基于用户输入生成用户的变换数据的装置。

22.根据前述示例20至21中任一项所述的一种装置，其中确定用户的HRTF数据包括在包含多个训练对象的HRTF数据与多个训练对象的变换数据的关联性的映射数据库中确定针对用户的变换数据的最接近的匹配。

23.根据前述示例20至22中任一项所述的一种装置，其中多个训练对象的变换数据指示由每个对应的训练对象感知到的训练对象的直接话语的声音与来自音频扬声器的训练对象输出的间接话语的声音之间的差异。

24.根据前述示例20至23中任一项所述的一种装置，其中在映射数据库中确定针对用户的变换数据的最接近匹配包括执行机器学习算法以确定最接近的匹配。

25.根据前述示例20至24中任一项所述的一种装置，其中在映射数据库中确定针对用户的变换数据的最接近匹配包括执行统计算法以确定最接近的匹配。

除非到可能以其他方式对上述进行阐述的程度，或者到任何这样的实施例由于它们的功能或结构可能不相容的程度，上述任何或所有特征及功能可以彼此组合，这对于本领域普通技术人员将是显而易见的。除非与物理可能性矛盾，可以设想(i)本文描述的方法/步骤可以以任何顺序和/或以任何组合来被执行，并且(ii)各个实施例的组件可以以任何方式进行组合。

尽管用结构特征和/或动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述特定特征和动作是作为实现权利要求书的示例而公开的，并且其他等价特征和动作旨在处于权利要求书的范围内。

Claims

1.一种方法，包括：

通过使用用户的变换数据来确定所述用户的头部相关变换函数(HRTF)数据，所述变换数据指示由所述用户感知到的所述用户的直接话语的声音与所述用户的间接话语的声音之间的差异；以及

通过基于所述用户的HRTF数据对音频数据进行处理来产生为所述用户定制的音频效果。

2.根据权利要求1所述的方法，其特征在于，还包括在确定所述用户的HRTF数据之前：

经由用户接口接受来自所述用户的用户输入，所述用户输入指示由所述用户感知到的所述用户的直接话语的声音与来自音频扬声器的所述用户输出的间接话语的声音之间的所述差异；以及

基于所述用户输入生成所述用户的变换数据。

3.根据权利要求1或权利要求2所述的方法，其特征在于，其中确定所述用户的HRTF数据包括：

在包含多个训练对象的HRTF数据与所述多个训练对象的变换数据的关联性的映射数据库中确定针对所述用户的变换数据的最接近的匹配。

4.根据权利要求3所述的方法，其特征在于，其中所述多个训练对象的变换数据指示由每个对应的训练对象感知到的所述训练对象的直接话语的声音与来自音频扬声器的所述训练对象输出的间接话语的声音之间的差异。

5.根据权利要求3至4中任一项所述的方法，其特征在于，其中在所述映射数据库中确定针对所述用户的变换数据的最接近的匹配包括执行机器学习算法以确定所述最接近的匹配。

6.根据权利要求3至4中任一项所述的方法，其特征在于，其中在所述映射数据库中确定针对所述用户的变换数据的最接近的匹配包括执行统计算法以确定所述最接近的匹配。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法包括：

a)通过音频扬声器向所述用户播放所述用户的经再现的话语；

b)提示所述用户提供指示所述用户是否感知到所述经再现的话语的声音与所述用户的直接话语的声音相同的第一用户输入；

c)接收来自所述用户的所述第一用户输入；

d)当所述第一用户输入指示所述用户感知到所述经再现的话语的声音与所述直接话语的声音不同时，使所述用户能够经由用户接口提供第二用户输入以促使对音频参数的调整，并且接着使用根据所述第二用户输入被调整的所述经再现的话语来重复步骤a)至d)，直到所述用户指示所述经再现的话语的声音与所述直接话语的声音相同；

e)当所述用户已指示所述经再现的话语的声音与所述直接话语的声音基本相同时，基于所述经调整的音频参数来确定所述用户的变换数据；以及

f)通过使用所述用户的变换数据和包含与多个训练对象的头部相关变换函数(HRTF)数据相关联的所述多个训练对象的变换数据的映射数据库来确定所述用户的HRTF数据，其中所述映射数据库中的所述多个训练对象的变换数据指示由每个对应的训练对象感知到的所述训练对象的直接话语的声音与来自音频扬声器的所述训练对象输出的经再现的话语的声音之间的差异。

8.根据权利要求7所述的方法，其特征在于，还包括：

通过基于所述用户的HRTF数据对音频数据进行处理来经由所述音频扬声器产生为所述用户定制的位置音频效果。

9.一种处理系统，包括：

处理器；以及

存储器，所述存储器被耦合到所述处理器并储存代码，所述代码当在所述处理系统中被执行时促使所述处理系统：

接收来自用户的用户输入，所述用户输入表示所述用户的直接话语的声音与来自音频扬声器的所述用户输出的经再现的话语的声音之间的关系；

基于所述用户输入导出所述用户的变换数据；

使用所述用户的变换数据来确定所述用户的头部相关变换函数(HRTF)数据；以及

促使所述HRTF数据被提供给音频电路，供所述音频电路用来根据所述用户的HRTF数据产生为所述用户定制的音频效果。

10.根据权利要求9所述的处理系统，其特征在于，其中所述代码进一步促使所述处理系统：

a)促使所述经再现的话语通过所述音频扬声器播放给所述用户；

b)提示所述用户提供指示所述用户是否感知到所述经再现的话语的声音与所述直接话语的声音相同的第一用户输入；

c)接收来自所述用户的所述第一用户输入；

d)当所述第一用户输入指示所述经再现的话语听起来不同于所述直接话语时，使所述用户经由用户接口能够提供第二用户输入以调整所述经再现的话语的音频参数，并且接着使用带有所述经调整的音频参数的所述经再现的话语来重复所述a)至d)，直到所述用户指示所述经再现的话语听起来与所述直接话语相同；以及

e)当所述用户已指示所述经再现的话语听起来与所述直接话语基本相同时，基于所述经调整的音频参数来确定所述用户的变换数据。

11.根据权利要求9或权利要求10所述的处理系统，其特征在于，其中所述代码进一步促使所述处理系统通过在包含多个训练对象的HRTF数据与所述多个训练对象的变换数据的关联性的映射数据库中确定针对所述变换数据的最接近的匹配来确定所述用户的HRTF数据。

12.根据权利要求9至11中任一项所述的处理系统，其特征在于，其中所述多个训练对象的变换数据指示由每个对应的训练对象感知到的所述训练对象的直接话语的声音与来自音频扬声器的所述训练对象输出的经再现的话语的声音之间的差异。

13.根据权利要求9至12中任一项所述的处理系统，其特征在于，其中所述处理系统是耳机。

14.根据权利要求9至12中任一项所述的处理系统，其特征在于，其中所述处理系统是游戏控制台，并且被配置成将所述HRTF数据传送到包含所述音频电路的分开的用户设备。

15.根据权利要求9至12中任一项所述的处理系统，其特征在于，其中所述处理系统包括耳机和游戏控制台，所述游戏控制台包括所述处理器和所述存储器，所述耳机包括所述音频扬声器和所述音频电路。