CN107996028A

CN107996028A - 校准听音装置

Info

Publication number: CN107996028A
Application number: CN201680027300.6A
Authority: CN
Inventors: 杰森·雷基; 乔伊·里昂; 约瑟·阿乔·阿塞巴尔; 大卫·卡尔
Original assignee: Ossic Co
Current assignee: Ossic Co
Priority date: 2015-03-10
Filing date: 2016-03-10
Publication date: 2018-05-04
Also published as: US20190364378A1; US10129681B2; WO2016145261A1; US20160269849A1; US10939225B2; US20190098431A1; EP3269150A1

Abstract

本文公开了校准听音装置的系统和方法。在一个实施例中，校准听音装置(例如耳机)的方法包括确定用户解剖结构的多于一个部分的头部相关传递函数(HRTF)。将所得的HRTF进行组合以形成复合HRTF。

Description

校准听音装置

相关申请交叉引用

本申请要求2015年3月10日提交的待决美国临时申请第62/130,856号和2015年8月18日提交的美国临时申请第62/206,764号的权益。上述申请通过引用以其全文并入本文。

背景技术

声波通过包括反射(扩散)、吸收和衍射等的过程与其环境相互作用。这些相互作用是相对于相互作用体的波长大小以及相对于介质的主体本身的物理性质的函数。对于声波(定义为以人类可听见范围内的频率通过空气传播的声波)，其波长在约1.7厘米至17米之间。人体具有声音尺度上的解剖特征，与自由场条件相比该解剖特征对声场产生强烈的相互作用和特征变化。听者的耳朵、头部、躯干和外耳(耳廓)与声音相互作用，引起时间和频率的特征变化，这被称为头部相关传递函数(HRTF)。或者，它可以被称为头部相关脉冲响应(HRIR)。人体之间的解剖学变化可能导致HRTF对于每个听者而言不同、在每个耳朵之间不同、并且对于在空间(r、θ、φ)中相对于收听者而言位于不同位置的声源不同。这些具有位置的各种HRTF可以帮助声音的定位。

附图说明

图1A-1C是根据所公开技术的实施例配置的听音装置的正视图。

图2是根据所公开技术的实施例配置的听音装置的耳机的侧视图。

图3示出根据所公开技术的实施例配置的多个听音装置的侧视图。

图4A是根据所公开技术的实施例分解信号的方法的流程图。

图4B是根据所公开技术的实施例分解信号的方法的流程图。

图5A是根据所公开技术的实施例配置的邻近耳道入口设置的传感器的示意图。

图5B是根据所公开技术的实施例配置的设置在听音装置上的传感器的示意图。

图6是根据所公开技术的实施例配置的设置在替代听音装置上的传感器的示意图。

图7示出了不同头部形状的示意图。

图8A-8D是具有测量传感器的听音装置的示意图。

图9A-9F是听音装置测量方法的示意图。

图10A-10C是听音装置测量方法的示意图。

图11A-11C是光学校准方法的示意图。

图12是声学测量的示意图。

图13A和13B是用于数据校准和发送的流程图。

图14是耳塞的后视剖视图。

图15A是根据所公开技术的实施例配置的测量系统的示意图。

图15B-15F是根据所公开技术的实施例的各种换能器位置的剖面侧视图。

图15G是根据所公开技术另一实施例配置的听音装置的示意图。

图15H和15I是根据所公开技术实施例的测量结构的示意图。

图16是根据所公开技术的另一实施例配置的测量系统的示意图。

图17是确定使用者的头部相关传递函数的示例方法的流程图。

图18是计算使用者的头部相关传递函数的示例方法的流程图。

图19是生成输出信号的方法的流程图。

图20是输出信号的频率响应的曲线图。

所描绘的各种元件的尺寸不一定按比例绘制，而是可以任意地扩大这些各种元件以增加可读性。如在电气设备表示的领域中常见的，电气部件的尺寸不按比例绘制，而是可以放大或缩小各种部件以增加附图可读性。组件细节已经在附图中被抽象出来，以在本发明不需要这些细节的时候排除诸如组件位置和这些组件之间的某些精确连接的细节。

具体实施方式

有时期望将声音呈现给听者，以使其听起来来自于空间中的特定位置。这种效果可以通过将声源(例如，扬声器)物理放置在期望的位置来实现。然而，对于模拟和虚拟环境，将大量物理声源分散在环境中并不方便。另外，在多个听者的情况下，声源和听者的相对位置是独特的，其导致不同的声音体验，其中一个听者可能处于声音的“最佳听音位置”，而另一个听者可能处于较不优选的听音位置。还存在一些情况，期望声音成为一种个人聆听体验，以实现隐私和/或不打扰附近的其他人。在这些情况下，需要声音可以利用减少的声源数量、或通过耳机(Headphone)和/或耳塞(Earphone)(在下文中可互换使用或通用)来重建。利用减少的声源数量和/或通过耳机重建多个声源的声场需要知道听者的头部相关传递函数(以下称为“HRTF”)来重建听者用于将声音置于听觉景观中的空间提示。

所公开的技术包括确定或校准使用者的HRTF和/或头相关脉冲响应(以下称为“HRIR”)以帮助听者进行声音定位的系统和方法。HRTF/HRIR被分解成可以通过各种解决方案来解决的理论分组，其可以单独使用或组合使用。HRTF和/或HRIR被分解为时间效应(包括耳间时间差(ITD))和频率效应(包括耳间水平差(ILD)和频谱效应两者)。ITD可以被理解为两耳之间的到达时间差异(例如，声音先到达较接近声源的耳朵，然后到达较远的耳朵)。ILD可以被理解为耳朵之间的声响差异，并且可能与耳朵和声源之间的相对距离以及与头部和躯干周围的声音衍射相关联的频率阴影相关。频谱效应可以理解为与来自精细尺度特征(例如耳朵(耳廓)的精细尺度特征)的衍射和共振相关的频率响应差异。

HRTF的常规测量是将麦克风放置在听者的耳朵中，位于阻塞的耳道位置处或直接位于耳道中。在这种配置中，测试对象坐在消声室中，扬声器置于听者周围的几个位置处。经扬声器播放输入信号，并且麦克风直接捕捉耳麦处的信号。计算输入信号和在耳麦处测量的声音之间的差值。这些测量通常在消声室中进行，以仅捕获听者的HRTF测量，并防止来自环境物体的声音反射的测量污染。然而，发明人已经认识到，这些类型的测量并不方便，因为受试者必须去专用设施并为可能大量的测量静坐以捕获其独有的HRTF测量。

在所公开技术的一个实施例中，分别确定用于使用者解剖结构的第一和第二部分的第一和第二头部相关传递函数(HRTF)。通过组合第一和第二HRTF的部分来生成使用者的复合HRTF。通过确定使用者头部的形状来计算第一HRTF。耳机可以包括具有第一换能器的第一耳塞和具有第二换能器的第二耳塞，通过从第一换能器发射音频信号并在第二换能器处接收所发射的部分音频信号来确定第一HRTF。在一些实施例中，利用从靠近使用者头部的位置发射的音频信号的耳间时间差(ITD)和/或耳间水平距离(ILD)来确定第一HRTF。例如，在一个实施例中，使用第一模态(例如，使用者头部的尺寸测量)来确定第一HRTF，并且使用不同的第二模态(例如，使用者的一个或两个耳廓的频谱响应)来确定第二HRTF。在另一实施例中，听音装置包括耦合至头带的耳塞，并且使用指示耳塞相对于头带从第一位置到第二位置的运动的电信号来确定第一HRTF。在某些实施例中，通过使用佩戴耳机的使用者头部的第二照片校准未佩戴耳机的使用者头部的第一照片来确定第一HRTF。在其他实施例中，通过以下方式确定第二HRTF：在非消声环境中从与听者耳朵间隔开的换能器发出声音，并且在位于耳塞上的换能器处接收声音，所述耳塞配置为佩戴在使用者至少一个耳朵的耳道的开口中。

在所公开技术的另一实施例中，计算机程序产品包括计算机可读存储介质(例如，非暂时性计算机可读介质)，其存储可执行为实施用于生成使用者复合HRTF的操作的计算机可用程序代码。所述操作包括确定使用者解剖结构第一部分的第一HRTF和使用者解剖结构第二部分的第二HRTF。可以组合第一和第二HRTF的部分以生成使用者的复合HRTF。在一个实施例中，所述操作还包括将复合HRTF发送至远程服务器。例如，在一些实施例中，确定第一HRTF的操作包括将音频信号发送至使用者佩戴的耳机上的第一换能器。所发送的音频信号的一部分从耳机上不同的第二传感器接收。在其他实施例中，确定第一HRTF的操作还可以包括从佩戴在使用者头上的传感器(例如加速度计)接收指示使用者头部的运动的电信号。

在所公开技术的又一实施例中，被配置为佩戴在使用者头部上的听音装置包括经由带耦合的一对耳塞。每个耳塞限定具有内表面的空腔，并且包括靠近内表面设置的换能器。该装置还包括配置为产生指示使用者头部运动的信号的传感器(例如加速度计、陀螺仪、磁力计、光学传感器、声换能器)。配置为发送和接收数据的通信组件以通信方式将耳塞和传感器耦合至配置为计算使用者HRTF的至少一部分的计算机。

在一些实施例中，听者的HRTF可以在自然听音环境中确定。技术可以包括使用用于听者参与的校准过程的已知刺激或输入信号，或者可涉及使用听者环境中自然存在的噪声，在该情形中可以在没有用于听者的校准过程的情况下习知HRTF。该信息用于创建音频的空间回放，并从身体上/身体附近记录的音频中去除HRTF的伪影。在所公开技术的一个实施例中，例如，确定使用者HRTF的方法包括在由使用者身体携带的一个或多个换能器处接收来自使用者环境的声能。例如，该方法还可以包括在没有利用耦合至一个或多个换能器的处理器的外部HRTF输入信号的情况下使用环境音频信号来确定使用者的HRTF。

在所公开技术的另一实施例中，计算机程序产品包括存储计算机可用程序代码的计算机可读存储介质，所述计算机可读存储介质可由处理器执行以实施用于确定使用者HRTF的操作。所述操作包括在由使用者身体携带的麦克风处接收与来自使用者环境的声音相对应的音频信号。所述操作还包括在不存在与在麦克风处接收到的声音相对应的输入信号的情况下使用音频信号来确定使用者的HRTF。

以下描述和附图是说明性的，而不应被解释为限制性的。描述了多个具体细节以提供对本公开的透彻理解。然而，在某些情况下，不描述公知的或常规的细节，以免使描述变得费解。对本公开中的一个实施例或实施例的引用可以是(但不一定是)引用同一实施例；并且这样的引用意味着至少一个实施例。

在本说明书中对“一个实施例”或“实施例”的引用意味着结合实施例描述的特定特征、结构或特性包括在本公开的至少一个实施例中。在说明书各个位置出现的短语“在一个实施例中”不一定都指相同的实施例，也不是与其他实施例相互排斥的单独实实施例或替代实施例。而且，描述了可由一些实施例表现而没有由其他实施例表现的各种特征。类似地，描述了各种要求，其可能是一些实施例的要求但不是其它实施例的要求。此外，本文使用的被动语态通常意味着所公开的系统执行所描述的功能。

在本公开的上下文中以及在使用每个术语的具体上下文中，在本说明书中使用的术语通常具有其在本领域中的普通含义。用于描述本公开的某些术语在下文或说明书的其他地方进行讨论，以向实施者提供另外的关于本公开描述的指导。为了方便起见，可以突出显示某些术语(例如使用斜体和/或引号)。使用突出显示对术语的范围和含义没有影响；术语的范围和含义在相同的上下文中是相同的，而不管其是否被突出显示。将会理解，相同的事物可以用多种方式表述。

因此，替代语言和同义词可以用于本文中讨论的任何一个或多个术语，而不会对于术语是否在本文中进行阐述或讨论设置任何特别的意义。提供某些术语的同义词。一个或多个同义词的逐一列举并不排除使用其他同义词。在本说明书中任何其它地方使用的示例(包括本文讨论的任何术语的示例)仅仅是说明性的，而无意于进一步限制本公开或任何示例性术语的范围和含义。同样，本公开不限于本说明书中给出的各种实施例。

无意于进一步限制本公开的范围，下面给出了根据本公开实施例的仪器、设备、方法及其相关结果的示例。注意，为了方便读者，可能在示例中使用标题或副标题，但这绝对不应限制本公开的范围。除非另有限定，本文使用的所有技术和科学术语具有与本公开所属领域的普通技术人员所通常理解的相同含义。在存在冲突的情况下，将以本文件(包括定义)为准。

现在将描述本发明的各种示例。以下描述提供了一些具体的细节，以用于透彻地理解这些示例并使得能够对其进行描述。然而，相关技术的技术人员将会理解，可以在没有这些细节中的许多细节的情况下实施本发明。同样，相关技术领域的技术人员还会理解，本发明可以包括本文中未详细描述的许多其它显而易见的特征。另外，一些公知的结构或功能可能未在下文中详细地显示或描述，以免不必要地使各种示例的相关描述变得费解。

以下使用的术语将以其最广泛的合理方式进行解释，即使其与本发明的某些具体示例的详细描述结合使用也是如此。实际上，下文甚至可能强调某些术语；然而，意图以任何限制性方式解释的任何术语将在本具体实施方式部分中公开地和具体地定义。

合适的环境

图1A是包括配置为佩戴在使用者头上并且通信地耦合至计算机110的一对耳塞101(即耳挂式和/或贴耳式耳机)的听音装置110a的正视图。耳塞101各自包括一个或多个换能器和声学隔离室(例如，封闭的后部)。在一些实施例中，耳塞101可以被配置为允许一定百分比(例如，约5％至约25％、小于50％、小于75％)的声音朝使用者环境向外散布。图1B和1C示出了可以与所公开的技术一起使用的其它类型的耳机。图1B是具有一对耳塞102(即，耳挂式和/或贴耳式耳机)的听音装置100b的正视图，每个耳塞102具有一个或多个换能器和配置为允许声音穿过的声学开放后室。图1C是具有一对外耳式听筒(concha-phone)或入耳式耳塞103的听音装置100c的正视图。

图2是根据所公开技术的实施例配置的耳塞200的侧视图。在一些实施例中，耳塞200是听音装置100a和/或听音装置100的组件。四个换能器201-203和205布置在耳廓的前面(201)、上方(202)、后面(203)和与其同轴(205)。从这些换能器发送的声音可以与耳廓相互作用，以对应于期望的角度，产生频率响应的性能特征。例如，来自换能器201的声音可以对应于从20度方位角和0度仰角入射的声音，来自换能器205的声音可以对应于从90度方位角入射的声音，并且来自换能器203的声音可以对应于从150度方位角入射的声音。换能器202可以是90度方位角和60度仰角，并且换能器204是90度方位角和-60度高度。其他实施例可以使用更少或更多数量的换能器，和/或将换能器布置在不同位置以对应于不同的声音入射角。

图3示出了耳塞301-312，其在换能器320的数量及其在耳罩内的放置方面有所不同。换能器320在耳廓附近的X、Y、Z中的放置结合距离校正信号处理可以模拟来自各个方向的声音的频谱特性。如下面关于图4A进一步详细描述的，在其中换能器320不与期望的源位置对准的实施例中，可以使用将声源定位在换能器角度之间的方法。这些方法可以包括(但不限于)幅度平移和声场环绕(ambisonics)。对于图2的实施例，位于55度方位角处的声源可以具有针对55度测量或计算的脉冲响应，其在换能器201和205之间进行平移以捕获最佳的可用光谱响应。对于未与期望位置对准的换能器位置，可以应用信号校正以去除与实际位置相关联的声学提示，并且该信号可以包括来自期望位置的部分或整个频谱HRTF提示。

合适的系统

再次参考图1，计算机110经由通信链路112(例如，一个或多个导线、一个或多个无线通信链路、因特网或另一通信网络)通信地耦合至听音装置100a。在图1A所示的实施例中，计算机110显示为与听音装置100a分开。然而，在其他实施例中，计算机110可以集成在听音装置100a内和/或邻近听音装置100a。而且，在所示出的实施例中，计算机110显示为单个计算机。然而，在一些实施例中，计算机110可以包括多个计算机，例如包括靠近听音装置100a的计算机(例如，一个或多个个人计算机、个人数据助理、移动装置、平板电脑)和/或远离听音装置110a的计算机(例如，经由因特网或另一通信网络耦合至听音装置的一个或多个服务器)。

计算机110包括处理器、存储器、非易失性存储器和接口装置。为了说明简洁，省略了各种共用组件(例如高速缓冲存储器)。计算机系统110意在示出其上可以实现图1A的示例中描绘的任意组件(以及本说明书中描述的任何其它组件)的硬件装置。计算机110可以是任何适用的已知或方便的类型。计算机110的组件可以经由总线或通过一些其它已知或方便的装置耦合在一起。

例如，处理器可以是常规微处理器，例如Intel微处理器。相关领域的技术人员将认识到，术语“机器可读(存储)介质”或“计算机可读(存储)介质”包括可由处理器访问的任何类型的装置。

存储器通过例如总线耦合至处理器。存储器可以包括(例如但不限于)随机存取存储器(RAM)，例如动态RAM(DRAM)和静态RAM(SRAM)。存储器可以是本地的、远程的或分布式的。总线还将处理器耦合至非易失性存储器和驱动单元。非易失性存储器通常是磁性软盘或硬盘、磁光盘、光盘、只读存储器(ROM)(例如CD-ROM、EPROM或EEPROM)、磁卡或光卡、或用于大量数据的其他存储形式。该数据中的一部分经常在计算机110中的软件执行期间通过直接存储器访问过程来写入存储器中。非易失性存储器可以是本地的、远程的或分布式的。非易失性存储器是可选的，因为可以使用存储器中可用的所有适用数据来创建系统。典型的计算机系统通常至少包括处理器、存储器、和将存储器耦合至处理器的装置(例如，总线)。

软件通常存储在非易失性存储器和/或驱动单元中。实际上，对于大型程序，甚至可能无法将整个程序存储在存储器中。然而，应当理解，对于要运行的软件，如果必要的话，将其移动至适于处理的计算机可读位置，并且为了说明的目的，该位置在本文中被称为存储器。即使将软件移动至用于执行的存储器，处理器也通常将利用硬件寄存器来存储与软件相关联的值，以及理想地用于加速执行的本地高速缓存。如本文所使用的，当软件程序被称为“在计算机可读介质中实现”时，软件程序被假定为存储在任何已知或方便的位置(从非易失性存储器至硬件寄存器)。当与程序相关联的至少一个值被存储在处理器可读的寄存器中时，处理器被认为被“配置为执行程序”。

总线还将处理器耦合至网络接口装置。接口可以包括一个或多个调制解调器或网络接口。应当理解，调制解调器或网络接口可以被认为是计算机系统的一部分。接口可以包括模拟调制解调器、综合业务数字网络(ISDN)调制解调器、电缆调制解调器、令牌环接口、卫星传输接口(例如“直接PC”)或用于将计算机系统耦合至其他计算机系统的其他接口，包括无线接口(例如WWAN、WLAN)。接口可以包括一个或多个输入和/或输出装置。I/O装置可以包括(例如但不限于)键盘、鼠标或其他定点装置、磁盘驱动器、打印机、扫描仪以及其它输入和/或输出装置，包括显示装置。显示装置可以包括(例如但不限于)阴极射线管(CRT)、液晶显示器(LCD)、LED、OLED或其它可应用的已知或方便的显示装置。为了简单起见，假定未描绘的任何装置的控制器都位于接口中。

在操作中，计算机110可以由包括文件管理系统(例如磁盘操作系统)的操作系统软件来控制。具有相关文件管理系统软件的操作系统软件的一个示例是已知为华盛顿州雷德蒙德微软公司的的操作系统系列及其相关文件管理系统。具有相关文件管理系统软件的操作系统软件的另一个示例是Linux操作系统及其相关文件管理系统。文件管理系统通常存储在非易失性存储器和/或驱动单元中，并使处理器执行操作系统所需的各种动作，以输入和输出数据并将数据存储在存储器中，包括将文件存储在在非易失性存储器和/或驱动单元中。

可以关于计算机存储器内数据位的操作的算法和符号表示来呈现详细描述的一些部分。这些算法描述和表示是数据处理领域的技术人员用于将其工作的本质最有效地传达给本领域技术人员的手段。在此处，算法通常被认为是导致期望结果的自相矛盾的操作序列。所述操作是需要对物理量进行物理操作的那些操作。通常(但不是必须的)，这些量采取能够被存储、传送、组合、比较和以其他方式操纵的电信号或磁信号的形式。已证明，有时(主要是为了普遍使用的原因)将这些信号称为比特、值、元素、符号、字符、术语、数字等是方便的。

然而，应当记住，所有这些术语和类似术语都应与合适的物理量相关联，并且仅仅是应用于这些量的便利标签。除非另有说明，如从以下讨论中明显可知的，应当理解，在整个说明书中，利用诸如“处理”或“运算”或“计算”或“确定”或“显示”等术语进行的讨论是指计算机系统或类似的电子计算装置的动作和过程，其将表示为计算机系统的寄存器和存储器内的物理(电子)量的数据操纵并变换成其他数据，所述其他数据类似地表示为计算机系统存储器或寄存器或其他这样的信息存储、传输或显示装置内的物理量。

本文呈现的算法和显示并不固有地与任何特定计算机或其他设备相关。各种通用系统可以与根据本文的教导与程序一起使用，或者其可以证明便于构造实施一些实施例方法的更为专用的装置。各种这些系统所需的结构将从下文的描述中出现。另外，所述技术并不是参考任何特定的编程语言描述的，因而可以使用各种编程语言来实施各种实施例。

在替代实施例中，计算机110作为独立的装置工作，或者可以连接(例如联网)到其他机器。在联网布置中，计算机110可以以客户端-服务器网络环境中的服务器或客户端机器的身份工作，或者作为对等(或分布式)网络环境中的对等机器工作。

计算机110可以是服务器计算机、客户端计算机、个人计算机(PC)、平板电脑、膝上型计算机、机顶盒(STB)、个人数字助理(PDA)、移动电话、智能电话、可穿戴计算机、家用电器、处理器、电话、网络设备、网络路由器、交换机或桥接器、或能够(顺序或以其他方式)执行一组指令的任何机器，所述指令指定将由该机器采取的动作。

虽然机器可读介质或机器可读存储介质在一个实施例中显示为单个介质，但是术语“机器可读介质”和“机器可读存储介质”应当被认为包括存储一组或多组指令的单个介质或多个介质(例如，集中式或分布式数据库、和/或相关联的高速缓存和服务器)。术语“机器可读介质”和“机器可读存储介质”也应被视为包括能够存储、编码或携带用于机器执行的指令并使所述机器实施目前公开的技术和创新的任意一种或多种方法的任何介质。

通常，被执行为实现本公开实施例的例程可以被实现为操作系统或被称为“计算机程序”的具体应用、组件、程序、对象、模块或指令序列的一部分。计算机程序通常包括在计算机中的各种存储器和存储装置中在不同时间设定的一个或多个指令，当由计算机中的一个或多个处理单元或处理器读取和执行时，所述一个或多个指令使计算机实施操作以执行涉及本公开各个方面的要素。

而且，虽然已经在全功能计算机和计算机系统的上下文中描述了实施例，但是本领域技术人员将理解，各种实施例能够作为各种形式的程序产品分配，并且本公开也同样适用，而与用于实际影响该分配的具体类型的机器或计算机可读介质无关。

机器可读存储介质、机器可读介质、或计算机可读(存储)介质的其它示例包括但不限于可记录型介质，尤其是例如易失性和非易失性存储器装置、软盘和其它可移动磁盘、硬盘驱动器、光盘(例如，光盘只读存储器(CD ROM)、数字多功能光盘(DVD))等)；以及传输类介质，例如数字和模拟通信链路。

HRTF和HRIR分解

图4A和4B是根据所公开技术的实施例配置的确定使用者HRTF/HRIR的方法400a和400b的流程图。方法400a和400b可以包括存储在存储器中并由计算机(例如，图1A的计算机110)中的处理器执行的一个或多个指令。

首先参考图4A，在框401中，方法400a从信号源(例如，来自计算机、无线源、移动装置和/或另一个音频源的预录或实况回放)接收音频信号。

在框402中，方法400a识别参考坐标系中音频信号中的声源位置。在一个实施例中，可以将位置定义为相对于耳朵入口点(EEP)的范围、方位角和仰角(r、θ、φ)，或者在耳朵之间到头部中心的参考点也可用于足够远的声源，使得左、右EEP之间的(r、θ、φ)的差可以忽略不计。然而，在其他实施例中，可以使用其他坐标系和替代参考点。此外，在一些实施例中，对于标准5.1和7.1信道格式，声源的位置可以预定义。然而，在一些其它实施例中，声源可以被任意定位、具有动态定位、或具有使用者定义的定位。

在框403中，方法400a利用基于使用者头部和/或躯干的尺寸测量(例如，ILD、ITD、使用者头部尺寸的机械测量、使用者头部尺寸和躯干效应的光学估算、和/或头部尺寸和躯干效应的声学测量和推断)的计算来计算使用者HRTF/HRIR的一部分。在框404中，方法400a利用频谱分量(例如，从使用者耳廓反射的声音的近场频谱测量)来计算使用者HRTF/HRIR的一部分。框403和404将在下文参考图4B更为详细地讨论。

在框405中，方法400a将在框403和404中计算的HRTF的部分进行组合，以形成使用者的复合HRTF。复合HRTF可以应用于被输出到听音装置(例如，图1A-1C的听音装置100a、100b和/或100c)的音频信号。在被应用于音频信号之前，还可以对复合HRTF进行另外的信号处理(例如，包括对经处理信号进行滤波和/或增强的信号处理)。图20是示出了在对其应用复合HRTF的声音回放期间输出信号2010和2020的频率响应的曲线图2000，所述声音被感知为直接位于听者前方(例如，0度方位角)。信号2010是利用本文描述的实施例创建的复合HRTF的频率响应(例如，使用上述方法400a)。信号2020是在听者耳朵处捕获的针对真实声源的HRTF频率响应。

图4B是更详细地示出方法400a的某些部分的方法400b的流程图。在框410中，方法400b从信号源(例如，来自计算机、无线源、移动装置和/或另一个音频源的预录或实况回放)接收音频信号。

在框411中，方法400b确定所接收信号中的声源的位置。例如，对于标准5.1和7.1信道格式，声源的位置可以是预定义的，或者可以是任意定位、动态定位或使用者定义的定位。

在框412中，方法400b将声源转换成相对于听者的位置坐标。此步骤允许听者和声源的任意相对定位，以及声源相对于使用者的动态定位，例如用于具有头部/位置跟踪的系统。

在框413中，方法400b从位于使用者附近和/或使用者身上的一个或多个传感器接收与使用者解剖结构相关的测量。例如，在一些实施例中，位于听音装置(例如，图1A-1C的听音装置100a-100c)上的一个或多个传感器可以获取与解剖结构相关的测量(例如，头部尺寸、取向)。位置数据也可以由跟踪听者和/或听音装置(但是不一定在物理上位于听音装置上)的外部测量装置(例如，一个或多个传感器)提供。在下文中，对位置数据的引用可以来自任何来源，但是其功能与装置上的确切位置具体相关的除外。方法400b可以处理所获取的数据以确定声源相对于使用者头部上的耳朵的实际位置的取向和位置。例如，方法400b可以确定声源相对于听者头部的中心位于30度处，具有0度仰角和2米范围，但是为了确定与听者耳朵的相对位置，可使用听者头部的尺寸和该头部耳朵的位置来提高模型的准确性并确定与特定头部几何形状相关的HRTF/HRIR角度。

在框414中，方法400b使用来自框413的信息来缩放或以其它方式调整ILD和ITD以创建使用者头部的HRTF。例如，头部的尺寸和耳朵在头上的位置可影响头部和身体周围的声音的路径长度(飞行时间)和衍射，并且最终会影响何种声音能到达耳朵。

在框415中，方法400b计算包括与耳廓相关联的精细尺度频率响应特征的频谱模型以为使用者的每个耳朵创建HRTF，或者可以用于使用者两个耳朵的单个HRTF。所获取的与在框413中接收的使用者解剖结构相关的数据可用于为这些HRTF创建频谱模型。频谱模型也可以通过将换能器放置在耳朵的近场中并直接从耳廓反射声音来创建。

在框416中，方法400b将经处理的信号分配给近耳和远耳，以利用换能器相对于耳廓的相对位置。下文将在频谱HRTF部分描述另外的细节和实施例。

在框417中，方法400b计算对经处理信号的范围或距离校正，其可以补偿：近场中的额外头部阴影、耳机中的近场换能器和较大范围处的声源之间的差异，和/或可以应用于针对耳朵入口参考点来校正头部中心的参考点。例如，方法400b可以通过向信号应用预定的滤波器和/或包括基于环境声学信息(例如，基于之前导出的房间脉冲响应)的反射和混响提示来计算范围校正。例如，方法400b可以使用来自真实声音环境的脉冲响应或将不同HRTF应用于直接或间接(反射)声音的模拟混响或脉冲响应，其可以从不同角度到达。在图4B的图示实施例中，框417显示为在框416之后。然而，在其他实施例中，方法400b可以包括在图4B中示出的任意框中和/或在未示出的一个或多个附加步骤中的范围校正。而且，在其他实施例中，方法400b不包括范围校正计算步骤。

在框418中，方法400b终止处理。在一些实施例中，经处理的信号可以被发送到用于音频回放的听音装置(例如，图1A-1C的听音装置100a、100b和/或100c)。在其他实施例中，可以在播放之前对经处理的信号进行另外的信号处理(例如，包括对经处理的信号进行滤波和/或增强的信号处理)。

图5A示出可以位于耳道入口附近的麦克风501。该麦克风可以与听者附近的扬声器源(例如，在约1m范围内)组合使用，以在声学上直接测量HRTF/HRIR。注意，这可以在非消声环境中进行。另外，可以应用平移进行范围校正。可以使用一个或多个传感器来跟踪声源和麦克风的相对位置。在一个实施例中，可以将多换能器耳机与麦克风501配对以捕获近场中使用者的HRTF/HRIR。图5B示出了其中换能器510(例如，麦克风)被包括在主体503(例如，听音装置、入耳式耳塞)上的实施例。换能器510可用于利用外部扬声器或耳机中的换能器来捕获HRTF/HRIR。在一些实施例中，换能器501可以用于直接测量使用者的整个或部分HRTF/HRIR。图6示出了位于耳塞603中/上的传感器601。该传感器可以用于声学和/或视觉扫描耳廓。

ILD和ITD

ILD和ITD受头部和躯干尺寸和形状影响。ILD和ITD可以在声学上直接测量或基于测量的或任意分配的尺寸来计算。图7示出可以从其测量或计算ILD和ITD模型的多个代表性形状701-706。ILD和lTD可以由没有频谱分量的HRIR表示，或者可以由频域整形/滤波和时间延迟块来表示。形状701通常对应于具有耳廓的人体头部，其结合了ITD、ILD和频谱分量。形状702通常对应于没有耳廓的人体头部。HRTF/HRIR可以从去除耳廓的头部铸型直接测量，或者从模型中计算。形状703、704和705分别对应于扁长球体、扁球体和球体。这些形状可以用于模拟人体头部的形状。形状706是头部形状中的任意几何形状的表示。与形状702-705一样，形状706可以用于计算/数学模型中，或者直接从物理对象测量。任意几何形状还可以指具有不同细化程度的头部的网格表示。本领域技术人员可以理解头部模型的扩展。在图7所示的实施例中，形状701-706通常表示人的头部。然而，在其他实施例中，也可以包括引入其他解剖部分(例如，颈部、躯干)的形状。

ILD和ITD定制

可以通过直接测量头部几何形状并将尺寸输入到模型(例如形状702-706)中或通过从一组HRTF/HRIR测量值中选择来定制ILD和ITD。以下发明是有助于ILD和ITD的方法。此外，所收集的信息可用于耳机修改以增加舒适度。

图8A-D、9A-F、10A-C和11A-C分别示意性地表示根据本公开实施例的通过机电、声学和/或光学方法的头部尺寸和耳朵位置的方法。每个方法可以分开使用或与其他方法结合使用来定制ILD和ITD的头部模型。例如，图8A-8D示出了使用配置成获取数据并将所获取的数据发送到计算系统(例如图1A的计算机110)的一个或多个传感器(例如，加速度计、陀螺仪、换能器、照相机)来测量人体头部宽度，该测量值用于计算使用者的HRTF(例如，使用图4A的方法400a和/或图4B的方法400b)。也可以使用一个或多个传感器来改进头部跟踪。

首先参考图8A，听音装置800(例如，图1A的听音装置100a)包括经由头带803耦合的一对耳塞801)。在所示出的实施例中，位于每个耳塞801上的传感器805(例如，加速度计、陀螺仪、换能器、照相机、磁力计)可用于获取与使用者头部的尺寸相关的数据。例如，当使用者旋转其头部时，传感器805获取位置和旋转数据。通过听音装置800的设计来预定每个传感器805距头部的距离。头部的宽度——第一距离r1和第二距离r2的结合——是通过使用来自两个传感器805的信息计算的，因为它们围绕与任一传感器805基本等距的中心轴线旋转。

图8B示出了听音装置800的另一实施例，其示出了位于单个耳塞801上不同位置处的两个传感器805。在所示出的实施例中，第一距离r1和第三距离r11(即，两个传感器805之间的距离)可以通过旋转来计算，其中头部的宽度被计算为第一距离的两倍。在其他实施例中，传感器805可以放置在听音装置800上的任意位置处(例如，在头带803、麦克风臂(未示出)上)。

图8C示出了具有用于计算头部宽度的单个传感器805的另一实施例。可使用围绕中心的旋转来确定第一距离r1。在一些实施例中，可以应用滤波器来校正平移。头部的宽度大约是第一距离的两倍。图8D示出了具有设置在头带803上的附加传感器805的耳机800的又一实施例。

频谱自校准

图9A-11C一般性显示用于将HRTF/HRIR定制到ILD和ITD的头部尺寸和耳朵位置自动测量的方法。HRTF/HRIR的频谱分量可以另外通过图5、6和11所示的方法来测量。可以组合这些数据以重建用于在任意的耳机或耳塞上回放的个体的全部HRTF/HRIR。频谱HRTF可以被分解为来自耳廓的分量和对距离的范围校正。另外，使用用于减少耳罩内的反射的方法来抑制并不是由耳廓引起的频谱干扰，因为它们可从HRTF中减除。

图9A-9F是听音装置100a(图1A)的示意图，其示出用于确定佩戴者头部尺寸的测量技术的示例。一起参考图9A-9F，在一些实施例中，当听音装置100a被佩戴在佩戴者的头部上时，可以利用耳塞110之间的距离901(图9A)来确定佩戴者头部的尺寸。在一些实施例中，可以利用头带105上第一位置902a和第二位置902b(图9B)处的挠曲和/或弯曲的量来确定佩戴者头部的尺寸。例如，头带中的一个或多个电应变计感测头带弹簧上的应变并向处理器提供信号，然后所述处理器(例如通过查表或以算术方式)计算使用者头部尺寸。

在一些实施例中，可以通过确定由佩戴者头部施加到对应的左耳塞和右耳塞110上的压力P和P’(图9C)的量来确定佩戴者头部的尺寸。例如，耳罩处的一个或多个压力计感测使用者头部上的耳机的压力并向处理器提供信号，然后所述处理器(例如通过查表或以算术方式)计算使用者头部的尺寸。在一些实施例中，可以通过确定头带105的中央部分相对于耳塞101的高度910(图9D)来确定佩戴者头部的尺寸。例如，头带中的一个或多个电距离测量换能器(类似于电微米)测量头带的位移并向处理器提供信号，然后所述处理器(例如通过查表或以算术方式)计算高度。在一些实施例中，可以通过确定头带105的中央部分相对于对应的左耳塞和右耳塞101的的第一高度911a(图9E)和第二高度911b来确定佩戴者头部的尺寸。例如，确定第一高度911a和第二高度911b可以补偿佩戴者头部的不对称性和/或耳机100a的不均匀磨损。例如，头带中的左电距离测量换能器和右电距离测量换能器测量头带/耳罩的左位移和右位移，并向处理器提供左信号和右信号，然后所述处理器(例如通过查表或以算术方式)计算高度。

在一些实施例中，佩戴者头部的尺寸可以通过耳罩的旋转，以及通过佩戴在佩戴者头部上时对应左耳塞和右耳塞101相对于未佩戴在佩戴者头部上时的各自取向的第一偏转912a(图9F)和第二偏转912b来确定。上文关于图9A-9F描述的尺寸和测量可以利用听音装置100a上和/或中的一个或多个传感器来获得或捕获并发送至计算机112(图1A)。然而，在一些实施例中，利用其他合适方法(例如，测量带、帽子尺寸)进行的测量可以手动输入到模型中。

图10A-10C是利用声学方法的头部尺寸测量的示意图。首先参考图10A和10B，耳机1000a(例如，图1A的听音装置100a)包括第一耳塞1001a(例如，右耳塞)和第二耳塞1001b(例如，左耳塞)。在所示出的实施例中，第一耳塞1001a包括扬声器1010，并且第二耳塞1001b包括麦克风1014。使用者头部的宽度可以通过确定由扬声器1010发送声音和在麦克风1014处接收声音之间的延迟来测量。如下文关于图15A-15I和16更详细地讨论的，扬声器1010和麦克风1014可以位于耳机1000a上和/或附近的其他位置(例如，头带、电缆和/或麦克风臂)处。声音路径P1(图10A)是从扬声器1010发出的声音可以围绕使用者头部朝向麦克风1014传播的路径的一个示例。也可以使用沿路径P1’穿过使用者头部的经颅声传播(图10B)来测量头部的尺寸。接下来参考图10C，耳机1000b可以包括具有多个扬声器1010的可旋转耳塞1002。沿多个路径长度P2、P2’和P2”测量声音使得能够更精确地测量使用者头部的尺寸。在一些实施例中，麦克风1014利用来自身体的影响使用者头部的麦克风测量的反射提示来捕获与躯干和颈部相关联的HRTF部分。

图11A和11B是用于确定佩戴者的头部、颈部和/或躯干的尺寸的光学方法的示意图。照相机1102(例如，位于智能手机或另一移动装置上的照相机)捕获佩戴耳机1000a(图11A)而没佩戴耳机1000b(图11B)的佩戴者头部1011的一个或多个照片。可以将这些照片发送到计算机(例如，图1A的计算机112)，其可以基于已知的参考照片和预定耳机尺寸的目录来计算佩戴者头部的尺寸和/或确定耳朵位置。在一些实施例中，具有第一形状1110或第二形状1111(图11C)的物体可以用于听者的缩放参考，以用于佩戴者头部1101和/或其他解剖特征(例如，一个或多个耳廓、肩部、颈部、躯干)的光学缩放。

图12示出了位于距听者1201距离D(例如，1m或更小)处的扬声器1202。扬声器1202可以包括一个或多个独立的扬声器和/或集成到另一装置(例如，移动装置，其例如为平板电脑或智能电话)中的一个或多个扬声器。扬声器1202可以被定位在预定位置处，并且可以通过置于耳中的麦克风1210(例如，定位在图5B的听筒503上的麦克风510)接收信号。在一些实施例中，可以利用通过扬声器1202和麦克风1210的配对捕获的数据来计算听者的整个HRTF/HRIR。或者，如果认为声学数据不适合，如可能由非消声环境中的反射所致，则可以对数据进行处理。该处理可以包括包括门控以捕获高频谱信息。该信息可以与用于全部HRTF/HRIR的低频模型进行组合。或者，可以使用声学信息来从已知的HRTF/HRIR的数据库中选择杂音较少的模型。可以使用传感器融合来定义最可能的特征并选择或计算频谱信息。另外，可以应用用于范围校正的平移，并且可以使用传感器来跟踪声源和麦克风的相对位置。

自校准和共享

图13A和13B分别是方法1300和1301的流程图。方法1300和1301可以包括例如存储在存储器(例如，计算机可读存储介质)中并由一个或多个处理器(例如，图1A的计算机110中的存储器和一个或多个处理器)执行的指令。方法1300和1301可以被配置为测量和使用使用者解剖结构的一些部分(例如使用者的头部尺寸、头部形状、耳朵位置和/或耳朵形状)，以为使用者解剖结构的所述部分创建单独的HRTF。单独的HRTF可以进行组合以形成可以在耳机内使用的、和/或可以被上传到数据库的个性化复合HRTF/HRIR。HRTF数据可以应用于可能具有或可能不具有自校准特征的耳机、耳塞和扬声器。可以应用数据存储和传输方法将这些参数自动上传到数据库。

首先参考图13A，在框1310中，方法1300计算使用者解剖结构的一个或多个部分的一个或多个HRTF，并形成用于使用者的复合HRTF(例如，如上文参考图4A和4B描述的)。在框1320中，方法1300通过将使用者的复合HRTF应用于经由听音装置回放的音频信号使用HRTF来校准由使用者佩戴的听音装置(例如，耳机、耳塞等)。在一些实施例中，方法1300使用使用者的复合HRTF来过滤音频信号。在一些实施例中，方法1300可以基于使用者的HRTF和/或听音装置上的换能器布置将音频信号拆分成被分配用于在听音装置上的特定换能器中回放的一个或多个滤波信号。方法1300可以可选地包括框1330和1360，其将在下文参考图13B更详细地描述。例如，在框1330中，方法1300可以将在框1310中计算的HRTF经由通信链路(例如，图1A的通信链路112、导线、无线的无线电链路、互联网和/或另一种合适的通信网络或协议)发送至远程服务器。例如，在框1360中，方法1300可以将在框1310中计算的HRTF发送到由相同使用者和/或具有相似解剖特征的不同使用者佩戴的不同听音装置。在一些实施例中，例如，使用者可以引用具有相似解剖学形状和尺寸(例如，相似的头部尺寸、头部形状、耳朵位置和/或耳朵形状)的使用者的HRTF数据库条目来选择定制的HRTF/HRIR。HRTF数据可以应用于可能具有或可能不具有自校准特征的耳机、耳塞和扬声器。

接下来参考图13B，在框1310中，方法1301计算使用者解剖结构的一个或多个部分的一个或多个HRTF，以生成使用者的复合HRTF，如上文参照图13A描述的。在框1330中，复合HRTF被发送到服务器，如上文参照图13A描述的。在方框1340中，方法1301计算对使用者佩戴的听音装置的校准。校准可以包括将音频信号的一部分分配给收音装置中的不同换能器。在框1360中，方法1301可以发送校准，如参考图13A描述的。

吸收式耳机

图14是根据所公开技术的实施例配置的耳塞1401(例如，图1A的耳塞101)的一部分的后视剖视图。耳塞1401包括由被单独置于隔室中的多个第二换能器1403围绕的中央或第一换能器1402。耳垫1406配置为当耳塞佩戴在使用者的头部上时抵靠并缓冲佩戴者的耳朵。声室体积1405被封闭在第一换能器1402和第二换能器1403的后面。许多常规的耳机包括大的挡板和大的换能器。如本领域普通技术人员将理解的那样，这些常规设计可以具有在频率响应中引起特征凸起和凹陷的谐振和/或驻波。对于输出3D音频的耳机，传统耳机的谐振可能会引起注意力分散。在一些实施例中，体积1405可以填充有吸声材料(例如，泡沫)，其可以衰减驻波并减少不想要的谐振。在一些实施例中，吸收材料具有介于约0.40和1.0之间(包括端点值)的吸收系数。在某些实施例中，换能器1402和1403的直径(例如，25mm或更小)相对于产生为保留在针对高频的运行活塞区域中的波长而言可以较小，从而防止模态行为和频率响应异常。然而，在其它实施例中，换能器1402和1403具有任意合适尺寸的直径(例如，在约10mm至约100mm之间)。

校准

图15A是具有根据所公开技术的实施例配置的听音装置1502的系统1500的示意图。图15B-15F是根据所公开技术的实施例的听音装置1502的各种配置的剖面侧视示意图。听音装置1502的位置可以被理解为在耳朵周围，位于15B-15F所示的位置处。图15G是根据所公开技术的另一实施例配置的听音装置1502′的示意图。图15H和15I是根据所公开技术的实施例配置的不同测量配置的示意图。

一起参考图15A-15I，系统1500包括由使用者1501佩戴并且经由电缆1507和通信链路1512(例如，一个或多个导线、一个或多个无线通信链路、因特网或另一通信网络)可通信地耦合至音频处理计算机1510(图15A)的听音装置1502(例如，耳塞、挂耳式耳机等)。听音装置1502包括一对耳塞1504(图15A-15F)。每个耳塞1504包括其上的相应麦克风1506。如图15B-15F的实施例所示出的，麦克风1506可以被放置在耳塞1504上的合适位置处。然而，在其他实施例中，麦克风1506可以被放置在听音装置和使用者1501身体的另一位置中或所述另一位置上。在一些实施例中，耳塞1504包括一个或多个另外的麦克风1506和/或麦克风阵列。例如，在一些实施例中，耳塞1504包括在图15B-15F中示出的麦克风1506的两个或多个位置处的麦克风阵列。在一些实施例中，麦克风阵列可以包括位于使用者身体上或附近的任意合适位置处的麦克风。图15G示出了设置在听音装置1502’的电缆1507上的麦克风1506。图15H和15I示出了位于使用者胸部(图15H)或颈部(图15I)附近的一个或多个麦克风1506。

图16是具有根据所公开技术的实施例配置的听音装置1602的系统1600的示意图。听音装置1602包括经由电缆1607和通信链路1512(图15A)通信地耦合至计算机1510(图15A)的一对挂耳式耳塞1604。头带1605可操作地耦合耳塞1604并且配置为被接收到使用者头部的上部上。在一些实施例中，头带1605可以具有可调节的尺寸以适应各种头部形状和尺寸。一个或多个麦克风1506位于每个耳塞1604上。在一些实施例中，一个或多个附加麦克风1506可以可选地定位在头带1605上的一个或多个位置和/或电缆1607上的一个或多个位置处。

再次参考图15A，多个声源1522a-d(分别识别为第一声源1522a、第二声源1522b、第三声源1522c和第四声源1522d)向使用者1501发射相应的声音1524a-d。例如，声源1522a-d可以包括来自使用者周围环境1501的汽车噪声、警笛声、风扇、嗓音和/或其他环境声音。在一些实施例中，系统1500可选地包括耦合到计算机1510并被配置为利用由计算机1510和/或另一合适的信号发生器提供的输入信号朝使用者1501输出已知的声音1527(例如标准测试信号和/或扫频信号)。扬声器可以包括例如移动装置、平板电脑和/或配置成产生可听和/或不可听声波的任意合适的换能器中的扬声器。在一些实施例中，系统1500可选地包括耦合到计算机1510的光学传感器或照相机1528。照相机1528可以向计算机1510提供光学和/或照片图像数据，以用于HRTF确定。

计算机1510包括总线1513，其耦合存储器1514、处理器1515、一个或多个传感器1515(例如，加速度计、陀螺仪、换能器、照相机、磁力计、电流计)、数据库1517(例如，存储在非易失性存储器上的数据库)、网络接口1518和显示器1519。在所示出的实施例中，计算机1510被显示为与听音装置1502分开。然而，在其他实施例中，计算机1510可以集成在听音装置1502内和/或与其相邻。此外，在图15A所示的实施例中，计算机1510被显示为单个计算机。然而，在一些实施例中，计算机1510可以包括多个计算机，其包括例如靠近听音装置1502的计算机(例如，一个或多个个人计算机、个人数据助理、移动装置、平板电脑)和/或远离听音装置1502的计算机(例如，经由因特网或另一通信网络耦合至听音装置的一个或多个服务器)。为了便于说明，省略了各种共用组件(例如高速缓冲存储器)。

计算机系统1510意在说明可以在其上实现在图15A的示例中描绘的任意组件(以及本说明书中描述的任何其它组件)的硬件装置。计算机1510可以是任何适用的已知或方便的类型。在一些实施例中，计算机1510和计算机110(图1A)可以包括相同的系统和/或类似的系统。在一些实施例中，计算机1510可以包括一个或多个服务器计算机、客户端计算机、个人计算机(PC)、平板电脑、膝上型计算机、机顶盒(STB)、个人数字助理(PDA)、移动电话、智能电话、可穿戴式计算机、家用电器、处理器、电话、网络设备、网络路由器、交换机或桥接器、和/或能够(顺序地或以其他方式)执行一组指令的另一合适机器，所述一组指令指定该机器将要采取的动作。

处理器1515可以包括例如常规微处理器，例如Intel微处理器。相关领域的技术人员将认识到，术语“机器可读(存储)介质”或“计算机可读(存储)介质”包括可由处理器访问的任何类型的装置。总线1513将处理器1515耦合至存储器1514。存储器1514可以包括(例如但不限于)随机存取存储器(RAM)，例如动态RAM(DRAM)和静态RAM(SRAM)。存储器可以是本地的、远程的或分布式的。

总线1513还将处理器1515耦合至数据库1517。数据库1517可以包括硬盘、磁光盘、光盘、只读存储器(ROM)(例如CD-ROM、EPROM、或EEPROM)、磁卡或光卡、或用于大量数据的另一种存储形式。该数据中的一部分通常在计算机1510中执行软件期间通过直接存储器访问过程写入存储器中。数据库1517可以是本地的、远程的或分布式的。数据库1517是可选的，因为可以使用存储器中可用的所有适用数据来创建系统。典型的计算机系统通常至少包括处理器、存储器、和将存储器耦合至处理器的装置(例如，总线)。软件通常存储在数据库1517中。实际上，对于大型程序，甚至不可能将整个程序存储在存储器1514中。然而，应当理解，对于待运行的软件，如果必要的话，将其移动到适于处理的计算机可读位置，并且为了说明的目的，该位置在本文中被称为存储器1514。即使当软件被移动至存储器1514以用于执行时，处理器1515通常将利用硬件寄存器来存储与软件相关联的值，以及理想地用于加速执行的本地高速缓存。

总线1513还将处理器耦合至接口1518。接口1518可以包括调制解调器或网络接口中的一个或多个。应当理解，调制解调器或网络接口可以被认为是计算机系统的一部分。接口1518可以包括模拟调制解调器、ISDN调制解调器、电缆调制解调器、令牌环接口、卫星传输接口(例如“直接PC”)或用于将计算机系统耦合至其他计算机系统的其他接口。接口1518可以包括一个或多个输入和/或输出装置。I/O装置可以包括(例如但不限于)键盘、鼠标或其他定点装置、磁盘驱动器、打印机、扫描仪以及其它输入和/或输出装置，包括显示器1518。显示器1518可以包括(例如但不限于)阴极射线管(CRT)、液晶显示器(LCD)、LED、OLED或其它一些适用的已知或方便的显示装置。为了简单起见，假定未描绘的任何装置的控制器都位于接口中。

在操作中，计算机1510可以由操作系统软件来控制，所述操作系统软件包括文件管理系统，例如磁盘操作系统。具有相关文件管理系统软件的操作系统软件的一个示例是已知为得自华盛顿州雷德蒙德微软公司的的操作系统系列及其相关文件管理系统。具有其相关文件管理系统软件的操作系统软件的另一个示例是Linux操作系统及其相关文件管理系统。文件管理系统通常存储在数据库1517和/或存储器1514中，并且使处理器1515执行操作系统所需的各种动作来输入和输出数据，并且将数据存储在存储器1514中，包括将文件存在数据库1517上。

在替代实施例中，计算机1510作为独立的装置工作，或者可以连接(例如联网)到其他机器。在联网布置中，计算机1510可以客户端-服务器网络环境中的服务器或客户端机器的身份工作，或者作为对等(或分布式)网络环境中的对等机器工作。

合适的校准方法

图17是用于确定根据所公开技术的实施例配置的使用者HRTF的方法1700的流程图。方法1700可以包括存储在存储器(例如，图15A的存储器1514或数据库1517)中并由计算机中的处理器(例如，图15A的计算机1510中的处理器1515)执行的一个或多个指令或操作。方法1700可以用于基于在消声和/或非消声环境中实施和/或捕获的测量来确定使用者的HRTF。在一个实施例中，例如，方法1700可用于在没有对应于一个或多个环境声源的输入信号的情况下使用者环境中的环境声源来确定使用者的HRTF。

在框1710中，方法1700接收对应于在一个或多个换能器(例如，图15A的听音装置1502上的一个或多个换能器1506)处获取的声能的电音频信号。音频信号可以包括从环境噪声源(例如，图15A的声源1522a-d)接收的音频信号和/或由方法1700产生并经由扬声器(例如，图15A的扬声器1526)回放的预定信号。预定信号可以包括例如标准测试信号，例如最大长度序列(MLS)、正弦扫描和/或算法“已知”的另一合适声音。

在框1720中，方法1700可选地从一个或多个传感器(例如，图15A的传感器1516)接收附加数据，其包括例如使用者和/或一个或多个声源的位置。在一个实施例中，声源的位置可以被定义为相对于耳朵入口点(EEP)的范围、方位角和仰角(r、θ、φ)，或者也可以使用耳朵之间的、头部中心的参考点用于足够远的声源，使得左EEP和右EEP之间的(r、θ、φ)差异可被忽略不计。然而，在其他实施例中，可以使用其他坐标系和替代参考点。此外，在一些实施例中，可以关于标准的5.1和7.1信道格式预定义声源的位置。然而，在一些其他实施例中，声源可以是任意定位的、具有动态定位或具有使用者定义的定位。在一些实施例中，方法1700接收包括关于听者和/或环境的照相信息的光学图像数据(例如，来自图15A的照相机1528)。该信息可以用作方法1107的输入，以解决模糊和作为用于预测改进的未来数据集的初始数据。在一些实施例中，方法1700接收使用者输入数据，其包括例如使用者的身高、重量、头发长度、眼镜、衬衫尺寸和/或帽子尺寸。方法1700可以在HRTF确定期间使用该信息。

在框1730中，方法1700可选地记录在框1710中获取的音频数据，并将所记录的音频数据存储为合适的单声道、立体声道和/或多声道文件格式(例如，mp3、mp4、WAV、OGG、FLAC、声场环绕声、Dolby等)。所存储的音频数据可以用于生成一个或多个记录(例如，通用空间音频记录)。在一些实施例中，所存储的音频数据可用于测量后分析。

在框1740中，方法11000利用来自框1710和(可选地)框1720的输入数据来计算使用者HRTF中的至少一部分。如下面参考图18进一步详细描述的，方法1700使用关于麦克风阵列几何形状、位置传感器信息、光学传感器信息、使用者输入数据和在框1710处接收的音频信号的特性的可用信息来确定使用者的HRTF或其一部分。

在框1750中，将HRTF数据作为原始或经处理的HRTF数据存储在数据库(例如，图15A的数据库1517)中。所存储的HRTF可以用作未来分析的初始数据，或者可以在将来重新进行处理，因为随着时间的推移，增加的数据能改进模型。在一些实施例中，可以使用从框1710中的麦克风接收的数据和/或来自框1720的传感器数据来计算关于使用者环境的房间声学的信息，该信息也可以由方法1700存储在数据库中。例如，房间声学数据可以用于创建如上文参考图4A和4B所讨论的真实混响模型。

在框1760中，方法1700可选择地将HRTF数据输出到显示器(例如，图15A的显示器1519)和/或输出到远程计算机(例如，经由图15A的接口1518)。

在框1770中，方法1700可选地应用来自框1740的HRTF以生成用于回放的空间音频。HRTF可以用于初始听音装置上的音频回放，或者可以在另一听音装置上使用，以允许听者回放看起来来自空间中任意位置的声音。

在框1775中，该方法确认记录数据是否被存储在框1730中。如果记录数据可用，则方法1700进行至框1780。否则，方法1700在框1790处结束。在框1780中，方法1700从记录中移除特定的HRTF信息，从而创建维持位置信息的通用记录。双耳记录通常具有麦克风几何形状所特有的信息。对于针对个体进行的测量，这可能意味着HRTF被捕获在记录中，并且对于记录个体是完美的或接近完美的。然而，记录将被编码，其对于用于另一听者的HRTF而言是不正确的。为了经由扬声器或耳机与另一听者分享经验，可以将记录变为通用的。下文参考图19更详细地描述框1780中操作的一个实施例的示例。

图18是配置为确定使用者的HRTF并创建环境声学数据库的方法1800的流程图。方法1800可以包括存储在存储器(例如，图15A的存储器1514或数据库1517)中并由计算机中的处理器(例如，图15A的计算机1510中的处理器1515)执行的一个或多个指令或操作15A。如本领域普通技术人员将理解的，所公开技术的一些实施例包括相比图18的示出实施例中所示更少或更多的步骤和/或模块。而且，在一些实施例中，方法1800以与图18的实施例中显示的那些步骤顺序不同的步骤顺序来操作。

在框1801中，方法1800从麦克风(例如，一个或多个及全部位置传感器)接收音频输入信号。

在方框1802中，该方法将包括照片(例如，从图15A的照相机1528接收的照片)的光学数据、位置数据(例如，经由图15A的一个或多个传感器1516)、和使用者输入数据(例如，经由图15A的接口1518)反馈至HRTF数据库1805中。HRTF数据库(例如，图15A的数据库1517)用于帮助选择用于参考分析和总体预期参数范围的候选HRTF。例如，在一些实施例中，可以采用耳廓和/或头部识别算法来将物影照片中的使用者耳廓特征与和使用者耳廓特征中的一个或多个相关联的一个或多个HRTF进行匹配。该数据用于与总HRTF的激励估算(Stimulus Estimation)、位置估算(Position Estimation)和参数化(Parameterization)进行统计比较。该数据库接收随着时间的推移增加并适应的反馈。

在框1803中，该方法确定在框1801中接收的音频信号是否为“已知的”主动刺激(例如，图15A的已知声音1527)或“未知的”被动刺激(例如，图15A的一个或多个声源1524a-d)。如果刺激是主动的，则通过相干和相关方法处理音频信号。如果刺激是被动的，则方法1800进行到框1804，在该处方法1800评估频率和/或时域中的信号，并且指定可以用作用于分析的虚拟刺激的信号和数据。该分析可以包括来自多个麦克风的数据，包括参比麦克风(例如，图15A-15I和16的一个或多个麦克风1506)，以及数据与预期HRTF信号行为的比较。有用刺激数据的概率包含有虚拟刺激数据并用于进一步处理。

在框1806中，方法1800评估声源(刺激)相对于接收器的位置。如果位置数据是“已知的”，则为刺激分配数据。如果过程1800缺少关于相对源和接收器位置的信息，则方法1800进行至框1807，在该处由存在于框1806中的信号和数据并通过与来自框1805的预期HRTF行为进行比较来创建位置信息的估算。由于HRTF随听者周围的位置r、θ、φ变化，所以需要将传递函数分配给位置以辅助任意位置处的声音再现。在“已知的”条件下，位置传感器可存在于听者的头部和耳朵上以跟踪运动，可存在于躯干上以跟踪相对的头部和躯干位置，并且可存在于声源上以跟踪相对于听者的位置和运动。用于评估和分配HRTF位置的方法包括但不限于：评估早到和迟到反射以确定环境内的位置变化(即运动)、指示声源和听者的相对运动的音调声音的多普勒频移、麦克风阵列元件之间的确定相对于听者和/或阵列的声源位置的波束形成、与针对个人收集的数据的总体范围相比和与每个位置的HRTF的一般行为相比HRTF的频率特性变化(外耳突起(concha pump)、耳廓突起和凹陷、肩部反弹)、耳朵之间的声音到达时间与总的到达时间范围(互相关)的比较、将具有特征性和物理上可能的头部运动的(在声场中旋转的)具有给定尺寸的何者头部进行比较来估计头部尺寸和耳朵间距并与已知的模型进行比较。将位置估算和精度概率分配给该数据以进行进一步分析。这种分析可包括取向、深度、多普勒频移以及针对平稳性和遍历性的一般检查。

在框1808中，方法1800估算外部噪声的信号完整性和包括回波在内的环境声学特性，以及初始刺激中的或作为处理副产物引入的其它信号损坏。如果信号是干净的，则方法1800进行到框1809并且批准HRTF。如果信号不干净，则方法1800进行到框1810并且减少噪声并去除环境数据。信号完整性和参数置信度的估算是性能，并与信号一起进行进一步的分析。

在框1812中，方法1800评估音频信号的环境声学参数(例如，频谱、总体声功率电平、混响时间和/或其他衰减时间、耳间互相关)，以改善噪声降低模块并且在模拟环境中创建用于实际回放的常见环境的数据库，所述模拟环境包括但不限于虚拟现实、增强现实和游戏。

在框1811中，方法1800评估所得到的数据集(包括概率)，并使HRTF的多个方面参数化以进行合成。分析和评估技术包括但不限于：时间延迟估算、相干和相关性、阵列的波束成形、子带频率分析、贝叶斯统计、神经网络/机器学习、频率分析、时域/相位分析、与现有数据集进行比较、和利用最小二乘法的数据拟合和其他方法。

在框1813中，方法1100选择最适合已知和估算数据的可能候选HRTF。HRTF可以作为整体进行评估，或者可以分解为头部、躯干和耳朵(耳廓)效应。方法1800可以确定部分或整个测量的HRTF具有足够的数据完整性和正确表征听者的高概率；这些r、θ、φHRTF是原样采集的。在一些实施例中，方法1800确定HRTF的数据完整性不足，或者在表征听者时具有高不确定性。在这些实施例中，可以充分地定义一些参数，包括用于选择最佳HRTF组的耳朵之间的最大时间延迟、从耳廓上的特征至麦克风位置的声学反射等。方法1800组合经测量的和参数化HRTF的要素。方法1800将候选HRTF存储在数据库1805中。

在一些实施例中，方法1800可以包括一个或多个附加步骤，例如使用左麦克风和右麦克风的到达时间的范围来确定头部尺寸并选择合适的候选HRTF。替代地或者另外地，方法1800评估时间和/或频域中的肩部反弹以包括在HRTF中并且解析刺激位置。方法1800可以评估高频中的凸起和凹陷以解析耳廓的关键特征和到达角度。方法1800还可以使用用于信号分析参比和解析信号到达位置的参比麦克风。在一些实施例中，方法1800使用头部和躯干上的参比位置传感器或麦克风来解析头部和躯干的相对旋转。替代地或另外地，方法1800在麦克风元件之间进行波束成形，并且评估由于相对于耳廓关键特征的麦克风放置引起的时间和频率干扰。在一些实施例中，方法1800所计算的HRTF的要素可以分别由上文参考图4A和4B讨论的方法400a和400b使用。

图19是配置为一般性呈现记录(例如，存储在框1730中的、在图17的框1710中捕获的音频信号的记录)和/或实况回放的方法1900的流程图。

在框1901中，方法1900收集位置数据。该数据可以来自位置传感器，或者从信号本身中的可用信息估算。

在框1902中，该方法将来自框1901的位置信息与记录进行同步。

在框1903中，方法1900从之前的处理中检索使用者HRTF信息，或者利用上文参照图18描述的方法1800确定的使用者HRTF信息。

在框1904中，方法1900去除记录个体所特有的HRTF方面。例如，这些方面可以包括高频耳廓效应、身体反弹的频率、以及与头部尺寸相关联的时间和水平变化。

在框1905中，该方法产生通用位置记录。在一些实施例中，方法1900利用位置数据经扬声器(例如，移动装置上的扬声器)回放通用记录，以将声音平移到正确位置。在其他实施例中，在框1907中，方法1900将另一使用者的HRTF应用于通用记录，并且缩放这些特征以匹配目标HRTF。

示例

下文描述所公开技术的实施例的示例。

例如，可以利用声源来创建虚拟声场，所述声源例如为音频文件或在声音环境中以位置x、y、z定位的实况声音。环境可以是消声环境，或具有被固定的、使用者可选择的和/或音频内容创建者可选择的建筑声学特性(混响、反射、衰减特性等)。可以利用脉冲响应或其他这样的表征物从真实环境中捕获环境，或者可以利用射线跟踪或频谱建筑声学技术来模拟环境。另外，耳塞上的麦克风可以用作输入，以捕获听者环境的声学特性以用于输入到模型中。

听者可以位于虚拟声场内，以识别相对于听者耳朵的相对位置和方位。例如，这可以利用在耳塞上或外部的传感器来实况监控，所述传感器跟踪运动并更新在任意给定时间被调用的一组HRTF。

可以通过在耳机内构造用于听者的HRTF来为听者重建声音，如同它们实际上在虚拟声场之内那样，所述虚拟声场通过相对运动而与声场相互作用。例如，可以计算用于使用者解剖结构不同部分的部分HRTF。

例如，可以利用使用者头部尺寸来计算使用者头部的部分HRTF。可以利用耳塞中的传感器来确定使用者的头部，所述传感器跟踪头部的旋转并计算半径。这可以引用真实头部的数据库，并且改进一组没有耳朵或具有无特征耳朵的头部的一组真实声学测量(例如双耳脉冲响应)，或者可以创建模拟这点的模型。另一种这样的方法可以是2D或3D图像，其捕获听者头部并基于图像计算尺寸和/或形状以引用现有模型或创建一个模型。另一种方法可以是利用位于耳塞上的麦克风收听并使用该信息来构建头部模型，所述麦克风通过对耳朵进行比较来表征ILD和ITD。该方法可以包括相对于耳朵校正麦克风的放置。

可以通过以下方式来创建与躯干(和颈部)相关的部分HRTF：通过组合使用真实的无耳廓头部和躯干的测量、通过从2D或3D图像中提取信息以从现有数据库中选择或构建用于躯干的模型、通过用耳塞上的麦克风收听以捕获原位躯干效应(主要是身体反弹)、或者通过要求使用者输入衬衫尺寸或身体测量值/估算值。

根据耳塞的类型，可以以不同的方式构建与较高频谱分量相关联的部分HRTF。

对于包含耳廓的耳塞(例如耳罩式耳机)，可以通过耳塞中的换能器来回放来自上述组件的经组合的部分HRTF。这种近场传感器与耳朵精细结构的相互作用将根据相对于耳朵的位置产生频谱HRTF分量。对于传统的耳塞而言，利用每个耳朵上位于耳道中或耳道附近且与其同轴的单个换能器，可以在信号处理中包括将对离轴模拟HRTF角度的校正。这种校正可以是最小的，在没有频谱校正的情况下回放无耳廓的头部和躯干HRTF；或者可以通过从包含听者HRTF的数据库拉出来进行部分至全谱校正，可以使用图像来创建与耳廓精细结构相关联的HRTF分量，或其他方法。

另外，可以将多个换能器定位在耳塞内以从不同的HRTF角度对耳廓进行声透射。可以利用转换器之间的声音转向来实现换能器区域之间的平滑过渡。另外，对于耳罩内稀疏的换能器位置，可以使用来自替代源(例如图像或已知使用者数据库)的频谱HRTF数据填充较不密集的区域。例如，如果在耳廓下方没有传感器，则可以使用跟踪陷波滤波器来模拟从同轴换能器运动通过该区域的声音，同时可以使用较高的换能器直接对耳朵进行声透射以用于来自仰角的HRTF。在稀疏换能器位置的情况下，或者每个耳罩使用单个换能器的极端情况下，可以在增加正确频谱提示之前抵消与针对未对应于放置的HRTF角度的换能器放置相关的频谱提示，即抵消HRTF校正。

为了减少与耳塞的设计和构造相关联的频谱效应(例如来自驻波的干扰)，耳罩的内部可以通过使用例如吸收性材料和小型换能器而变成无回声。

对于不容纳耳廓的耳塞(例如插入式耳塞或耳机)，可以通过使用麦克风学习HRTF的数个部分(例如在图18中描述的)来构建与耳廓相关的HRTF的精细结构。例如，对于在听者前方的高概率声源(环境中的真实声音)，可以提取6-10kHz的频率响应的频谱分量，并与来自另一个声源的10-20kHz的频谱分量结合，所述另一声源在该频带中具有更多的能量。另外，这可以利用基于2D或3D图像的信息进行补充，该信息用于从数据库中拉取频谱分量或从模型中创建。

对于任意的耳机类型，换能器都处于听者的近场。虚拟声场的创建通常可涉及模拟来自听者的各种深度的声音。通过考虑基本声学传播(例如与距离相关联的响度级别滚降)以及房间/环境声学(混响)的直接反射声音比例的调整来增加对HRTF的范围校正，即靠近头部的声音将会以较强的直接或反射声音比例存在，而来自头部的声音可以具有相等的直接或反射声音，或者甚至更强的反射声音。环境声学可以使用来自真实环境的3D脉冲响应或向直接和间接(反射)声音应用不同HRTF的模拟3D脉冲响应，它们通常可以从不同的角度到达。所产生的针对听者的声学响应可以重现原本在真实声音环境中会听到的声音。

本公开可以通过以下示例中的一个或多个来限定：

1.一种校准听音装置的方法，所述听音装置配置为佩戴在使用者的头部上，所述方法包括：

当所述听音装置佩戴在所述使用者的头部上时利用所述听音装置自动确定所述使用者解剖结构的第一部分的第一头部相关传递函数(HRTF)；

自动确定所述使用者解剖结构的第二部分的第二HRTF，其中所述使用者解剖结构的第二部分与所述使用者解剖结构的第一部分不同；

自动组合所述第一HRTF和第二HRTF的多个部分以生成所述使用者的复合HRTF，

其中所述复合HRTF被个性化为所述使用者解剖结构的所述第一部分和所述第二部分；和，

基于所述复合HRTF自动校准用于所述使用者的听音装置。

2.根据示例1所述的方法，其中自动确定所述第一HRTF包括确定或估算所述使用者的头部的形状。

3.根据示例1或2所述的方法，其中所述听音装置包括具有第一换能器的第一耳塞和具有第二换能器的第二耳塞，其中自动确定所述第一HRTF包括从所述第一换能器发射音频信号并在所述第二换能器处接收所发射的音频信号的一部分。

4.根据示例1-3中任一项所述的方法，其中确定所述第一HRTF包括确定从靠近所述使用者头部的位置发射的音频信号的耳间时间差(ITD)或耳间水平距离(ILD)。

5.根据示例1-4中任一项所述的方法，其还包括：

自动确定所述使用者解剖结构的第三部分的第三HRTF，

其中所述使用者解剖结构的所述第一部分和所述第三部分分别包括所述使用者的左耳和右耳，以及

其中所述使用者解剖结构的所述第二部分包括所述使用者的颈部或躯干的一部分。

6.根据示例1-6中任一项所述的方法，其中所述听音装置包括限定具有内表面的空腔的耳塞，其中第一换能器设置为靠近所述内表面，并且其中自动确定所述第二HRTF还包括：

从所述第一换能器发射音频信号；

在与所述空腔流体连通的第二换能器处接收所述音频信号的一部分；和

使用所发射的音频信号和所述音频信号的所接收的一部分之间的差来计算第二HRTF。

7.根据示例1-6中任一项所述的方法，其中所述听音装置包括具有内表面的耳塞，所述内表面包含吸收系数为约0.40至1.0(包括端点值)的材料。

8.根据示例1-7中任一项所述的方法，其中自动确定所述第一HRTF包括第一HRTF模态，并且其中确定所述第二HRTF包括不同的第二HRTF模态。

9.根据示例1-8中任一项所述的方法，其中所述听音装置包括耦合至头带的耳塞，并且其中自动确定所述第一HRTF还包括：

接收位置信号，所述位置信号指示所述耳塞相对于所述头带从第一位置到第二位置的运动。

10.根据示例1-9中任一项所述的方法，其中自动确定所述第一HRTF还包括：

接收没有耳机的所述使用者头部的第一照片；

接收具有佩戴在其上的所述耳机的所述使用者头部的第二照片；

识别所述第一照片中所述使用者头部的至少一部分；

自动识别所述第二照片中所述耳机的至少第一部分；和

利用第二段中所述耳机的至少第一部分来校准所述第一照片。

11.根据权利要求示例1-10中任一项所述的方法，其中自动确定所述第二HRTF还包括：

在非消声环境中从与所述听者的耳朵间隔开的换能器发出声音；和

在位于身体上的换能器处接收声音，所述换能器被配置为佩戴在所述使用者的至少一个耳朵中的耳道开口中。

12.一种确定使用者的头部相关传递函数(HRTF)的方法，所述方法包括：

在一个或多个换能器处接收来自所述使用者的环境的环境声能，所述一个或多个换能器附接至配置为由所述使用者佩戴的听音装置，

其中所述一个或多个换能器配置为将所述声能转换成电音频信号；和

利用耦合至所述一个或多个换能器的处理器来确定所述使用者的HRTF，

其中在没有对应于在所述一个或多个换能器处接收的声能的输入信号的情况下利用所述电音频信号通过所述处理器来执行所述确定。

13.根据示例12所述的方法，其中所述一个或多个换能器包括换能器阵列，并且其中确定所述使用者的HRTF还包括使所述电音频信号波束成形以确定所述使用者环境中的一个或多个声源的位置。

14.根据示例12或13所述的方法，其中所述使用者的HRTF是复合HRTF，其还包括将所述复合HRTF分解成第一HRTF和至少第二HRTF，其中所述第一HRTF和所述第二HRTF包括由所述使用者身体的各个部分引起的所述复合HRTF的因素。

15.根据示例12-14中任一项所述的方法，其还包括：

将所述电音频信号存储为音频数据；和

利用所述音频数据创建通用音频记录，其中创建所述通用音频记录包括从所述音频数据中去除所述使用者特定的HRTF信息。

16.根据示例12-15中任一项所述的方法，其中确定所述使用者的HRTF还包括利用所述电音频信号来生成所述使用者的环境的混响模型。

17.一种配置为佩戴在使用者的头部上的听音装置，所述听音装置包括：

经由头带耦合的一对耳塞，其中每个所述耳塞限定具有内表面的空腔，并且其中多个换能器设置为靠近所述内表面；

至少一个传感器，其配置为产生指示所述使用者的头部的运动的运动信号；和

通信组件，其耦合至所述一对耳塞和所述传感器并配置为发送和接收数据，

其中所述通信组件被配置为将所述耳塞和所述传感器通信地耦合至计算装置，以及

其中所述计算装置被配置为至少部分地基于来自所述传感器的所述运动信号来计算所述使用者的头部相关传递函数(HRTF)的至少一部分。

18.根据示例17所述的听音装置，其中每个耳塞的所述空腔的所述内表面的至少一部分包括吸收系数为约0.40至1.0(包括端点值)的材料。

19.根据示例17或18所述的听音装置，其中在每个耳塞上的多个换能器包括至少一个扬声器和至少一个麦克风。

20.根据示例17-19中任一项所述的听音装置，其中当所述听音装置被佩戴在所述使用者的耳朵上时，每个耳塞上的多个换能器包括在所述使用者的耳廓上方的第一换能器、在所述使用者的耳廓前面的第二换能器、在所述使用者的耳廓后面的第三换能器和与所述使用者的耳廓轴向重合的第四换能器。

21.一种计算机程序产品，其包括非暂时计算机可读存储介质，所述非暂时计算机可读存储介质存储可执行为实施用于生成使用者的复合头部相关传递函数(HRTF)的操作的计算机可用程序代码，所述操作包括：

确定所述使用者解剖结构的第一部分的第一HRTF；

确定所述使用者解剖结构的第二部分的第二HRTF；以及

组合所述第一HRTF和第二HRTF的多个部分以生成所述使用者的复合HRTF。

22.根据示例21所述的计算机程序产品，其中所述操作还包括将所述复合HRTF发送至远程服务器。

23.根据示例21或22所述的计算机程序产品，其中确定所述第一HRTF的操作包括：

将音频信号发送至由所述使用者佩戴的耳机上的第一换能器；和

从所述耳机上的不同的第二传感器接收所发射的音频信号的一部分。

24.根据示例21-23中任一项所述的计算机程序产品，其中确定所述第一HRTF的所述操作包括从位于佩戴在所述使用者头部上的听音装置上的加速度计接收指示所述使用者的头部的运动的电信号。

25.根据示例21-24中任一项所述的计算机程序产品，其中确定所述第一HRTF的操作包括：

在没有耳机的情况下接收所述使用者头部的第一照片；

接收其上佩戴有所述耳机的所述使用者头部的第二照片；

识别所述第一照片中所述使用者头部的至少一部分；

自动识别所述第二照片中所述耳机的至少第一部分；和

从上述内容将会理解，本文已经为说明的目的描述了本发明的具体实施例，但是可以在不脱离本发明范围的情况下进行各种修改。相应地，本发明只受所附的权利要求限制。

Claims

自动组合所述第一HRTF和第二HRTF的部分以生成所述使用者的复合HRTF，其中所述复合HRTF被个性化为所述使用者解剖结构的所述第一部分和所述第二部分；和

基于所述复合HRTF自动校准用于所述使用者的所述听音装置。

2.根据权利要求1所述的方法，其中自动确定所述第一HRTF包括确定或估算所述使用者的头部的形状。

3.根据权利要求1所述的方法，其中所述听音装置包括具有第一换能器的第一耳塞和具有第二换能器的第二耳塞，其中自动确定所述第一HRTF包括从所述第一换能器发射音频信号并在所述第二换能器处接收所发射的音频信号的一部分。

4.根据权利要求1所述的方法，其中确定所述第一HRTF包括确定从靠近所述使用者头部的位置发射的音频信号的耳间时间差(ITD)或耳间水平距离(ILD)。

5.根据权利要求1所述的方法，还包括：

自动确定所述使用者解剖结构的第三部分的第三HRTF，其中所述使用者解剖结构的所述第一部分和所述第三部分分别包括所述使用者的左耳和右耳，以及

6.根据权利要求1所述的方法，其中所述听音装置包括限定具有内表面的空腔的耳塞，其中第一换能器设置为靠近所述内表面，并且其中自动确定所述第二HRTF还包括：

从所述第一换能器发射音频信号；

使用所发射的音频信号和所述音频信号的所接收的一部分之间的差来计算所述第二HRTF。

7.根据权利要求1所述的方法，其中所述听音装置包括具有内表面的耳塞，所述内表面包含吸收系数为约0.40至1.0(包括端点值)的材料。

8.根据权利要求1所述的方法，其中自动确定所述第一HRTF包括第一HRTF模态，并且其中确定所述第二HRTF包括不同的第二HRTF模态。

9.根据权利要求1所述的方法，其中所述听音装置包括耦合至头带的耳塞，并且其中自动确定所述第一HRTF还包括：接收位置信号，所述位置信号指示所述耳塞相对于所述头带从第一位置到第二位置的运动。

10.根据权利要求1所述的方法，其中自动确定所述第一HRTF还包括：

接收没有耳机的所述使用者头部的第一照片；

识别所述第一照片中的所述使用者头部的至少一部分；

自动识别所述第二照片中的所述耳机的至少第一部分；和

利用所述第二照片中的所述耳机的所述至少第一部分来校准所述第一照片。

11.根据权利要求1所述的方法，其中自动确定所述第二HRTF还包括：

在位于身体上的换能器处接收声音，所述换能器被配置为佩戴在所述使用者的至少一个耳朵的耳道的开口中。

在一个或多个换能器处接收来自所述使用者的环境的环境声能，所述一个或多个换能器附接至配置为由所述使用者佩戴的听音装置，其中所述一个或多个换能器配置为将所述声能转换成电音频信号；和

利用耦合至所述一个或多个换能器的处理器来确定所述使用者的HRTF，其中在没有对应于在所述一个或多个换能器处接收的所述声能的输入信号的情况下利用所述电音频信号通过所述处理器来执行所述确定。

13.根据权利要求12所述的方法，其中所述一个或多个换能器包括换能器阵列，并且其中确定所述使用者的HRTF还包括使所述电音频信号波束成形以确定所述使用者环境中的一个或多个声源的位置。

14.根据权利要求12所述的方法，其中所述使用者的HRTF是复合HRTF，其还包括将所述复合HRTF分解成第一HRTF和至少第二HRTF，其中所述第一HRTF和所述第二HRTF包括由所述使用者身体的各个部分引起的所述复合HRTF的因素。

15.根据权利要求12所述的方法，还包括：

将所述电音频信号存储为音频数据；和

16.根据权利要求12所述的方法，其中确定所述使用者的HRTF还包括利用所述电音频信号来生成所述使用者的环境的混响模型。

至少一个传感器，其配置为产生指示所述使用者的头部的运动的运动信号；

和

通信组件，其耦合至所述一对耳塞和所述传感器并配置为发送和接收数据，其中所述通信组件被配置为将所述耳塞和所述传感器通信地耦合至计算装置，以及其中所述计算装置被配置为至少部分地基于来自所述传感器的所述运动信号来计算所述使用者的头部相关传递函数(HRTF)的至少一部分。

18.根据权利要求17所述的听音装置，其中每个耳塞的所述空腔的所述内表面的至少一部分包括吸收系数为约0.40至1.0(包括端点值)的材料。

19.根据权利要求17所述的听音装置，其中在每个耳塞上的多个换能器包括至少一个扬声器和至少一个麦克风。

20.根据权利要求17所述的听音装置，其中当所述听音装置被佩戴在所述使用者的耳朵上时，每个耳塞上的多个换能器包括在所述使用者的耳廓上方的第一换能器、在所述使用者的耳廓前面的第二换能器、在所述使用者的耳廓后面的第三换能器和与所述使用者的耳廓轴向重合的第四换能器。

确定所述使用者解剖结构的第一部分的第一HRTF；

确定所述使用者解剖结构的第二部分的第二HRTF；以及

22.根据权利要求21所述的计算机程序产品，其中所述操作还包括将所述复合HRTF发送至远程服务器。

23.根据权利要求21所述的计算机程序产品，其中确定所述第一HRTF的操作包括：

24.根据权利要求21所述的计算机程序产品，其中确定所述第一HRTF的所述操作包括从位于佩戴在所述使用者头部上的听音装置上的加速度计接收指示所述使用者的头部的运动的电信号。

25.根据权利要求21所述的计算机程序产品，其中确定所述第一HRTF的操作包括：

在没有耳机的情况下接收所述使用者头部的第一照片；

接收其上佩戴有所述耳机的所述使用者头部的第二照片；

识别所述第一照片中所述使用者头部的至少一部分；

自动识别所述第二照片中所述耳机的至少第一部分；和

利用第二照片中所述耳机的至少第一部分来校准所述第一照片。