CN109691139A

CN109691139A - 确定个性化头部相关传递函数和耳间时间差函数的方法及用于执行该方法的计算机程序产品

Info

Publication number: CN109691139A
Application number: CN201680088932.3A
Authority: CN
Inventors: J·赖尼尔斯; H·佩雷曼斯; B·W·M·帕托恩斯
Original assignee: Universiteit Antwerpen
Current assignee: Universiteit Antwerpen
Priority date: 2016-09-01
Filing date: 2016-09-01
Publication date: 2019-04-26
Anticipated expiration: 2036-09-01
Also published as: EP3507996B1; EP3507996A1; US20190208348A1; CN109691139B; WO2018041359A1; ES2822600T3; US10798514B2

Abstract

估计特定人的个体化头部相关传递函数(HRTF)和个体化耳间时间差函数(ITDF)的方法，包括以下步骤：a)获取多个数据集(Li,Ri,Oi)，该多个数据集包括来自入耳式麦克风的左音频样本和右音频样本以及来自取向单元的取向信息(Oi)，这些数据集在测试布置中被测量，其中经由扬声器来呈现声学测试信号并且人正在移动头部。b)提取耳间时间差值和/或频谱值、以及对应的取向值；c)使用预定义质量准则来估计扬声器相对于头部的方向；d)估计取向单元相对于头部的取向；e)估计个体化ITDF和个体化HRTF。一种用于执行该方法的计算机程序产品。一种包含计算机程序的数据载体。

Description

确定个性化头部相关传递函数和耳间时间差函数的方法及用于执行该方法的计算机程序产品

发明领域

本发明涉及3D声音技术的领域。更具体而言，本发明涉及一种估计特定人的个体化头部相关传递函数(HRTF)和个体化耳间时间差函数(ITDF)的计算机实现的方法。本发明还涉及计算机程序产品和包括这种计算机程序产品的数据载体，以及包括这种数据载体的部件套件。

发明背景

在过去几十年中，在虚拟现实技术领域已取得了很大进展，特别是在视觉虚拟现实方面。3D电视屏幕已进入公众视野，尤其是家庭影院和视频游戏利用3D电视屏幕。但3D声音技术仍然落后。然而，至少在理论上，创建虚拟3D声学环境(被称为虚拟听觉空间(VAS))相当容易。当人在3D空间中定位声音时，他们使用由左耳和右耳拾取的两个音频信号。由此，一个重要提示是所谓的“耳间时间差”(ITD)：取决于声音的方向(相对于人头部)，声音将首先到达左耳或右耳，并且该时间差包含与侧角θ(参见图2)有关的信息。耳间时间差函数(ITDF)描述了ITD随着声源(例如，扬声器)的方向如何变化，例如参见图3。

其他提示被包含在声音的频谱内容中，而声音由内耳记录。毕竟，在来自某个方向的声波到达鼓膜之前，它们会干扰身体、头部和耳廓。并且通过这种干扰，一些频率比其他频率更容易传送；因此，出现取决于传出声音的方向的频谱滤波。该滤波由所谓的“头部相关传递函数”(HRTF)来描述(参见图4中的示例)，该HRTF针对声源的每个方向描述了每个频率的被传送或被滤除的比例。在双耳中接收到的信号的频谱内容由此包含关于声源位置的附加信息(被称为：频谱提示)，尤其是关于仰角(参见图2)、声源相对于头部所位于的高度，而且还有声源是位于人的前方还是后方。

为了创建逼真的3D声学虚拟现实(例如，通过音频呈现系统)，因此知道特定人的ITDF和HRTF是至关重要的。当这些已知时，可以针对任何特定方向人为地添加适当的时间延迟和频谱滤波，并且以此方式，给予收听者必要的提示(时间提示和频谱提示)以重构3D世界。

目前，市场上已经有很多应用使用HRTF来创建虚拟3D印象，但到目前为止它们还未被广泛使用。毕竟，这些应用使用单一、通用的ITDF和HRTF集，该ITDF和HRTF集被假设为适用于广泛的受众。正如3D视觉系统一样(3D视觉系统假设每个人的眼睛之间的距离相同)，这些系统利用平均ITDF和HRTF。虽然这不会对视觉造成重大问题，但对3D音频造成重大问题。当对于个人而言，眼睛之间的距离与平均距离显著不同时，可能发生用户深度感知不是最佳的，从而造成感觉“某些东西出错”，但与3D音频相关的问题严重得多。小的差异可能造成大的误差。在装备有虚拟“平均耳朵”的情况下，用户有效地体验空间效果-声音不再在头部内部，而是在头部之外的某处，但是关于传出声音的方向通常存在很多混淆。大多数错误是在对仰角的感知中犯下的，但同时，更加令人烦扰的是：前后经常互换。实际上应该来自前方的声音被感知为来自后方，这显著降低了该技术的有用性。

因此，尽管事实上不同人的HRTF和ITDF相似，但是人的真实HRTF和ITDF与通用HRTF和ITDF之间的微小差异导致误差，与3D视觉形成对比，这些误差对空间体验是有害的。这可能是为何通过立体声耳机的VAS尚未实现其全部潜力的原因之一。因此，为了最佳地利用该技术，有必要使用个性化HRTF和ITDF。但是如何大规模实现这一目标，以使得公众可获取该技术？

传统上使用专门的基础设施来记录人的HRTF和ITDF：在消声室中，其中声源被置于对象周围，并且对于每个被采样方向，通过麦克风装置来记录抵达左耳和右耳的对应信号，这些麦克风装置被布置在对象的左耳和右耳中，就布置在耳道的入口处。尽管近年来已取得进展并且已开发新方法来简化该规程，但是此类测量仍然非常麻烦且昂贵。因此不可能以此方式来测量所有潜在用户的HRTF和ITDF。因此，需要寻找其他方式来个体化HRTF和ITDF。

US5729612A描述了一种用于在消声室外部测量头部相关传递函数的方法和装置。在该文档中，提出使用由安装在特殊支撑件上的扬声器输出的声波来测量HRTF。左右音频信号由对象所佩戴的两个入耳式麦克风捕获，该对象的头部移动由位置传感器跟踪和/或该对象坐在可以在特定(已知)方向上取向的椅子上。数据将在远程计算机中被处理。该文档没有关于如何确切地根据测得的音频信号和位置信号来计算ITDF和HRTF的记载。然而，使用校准步骤来确定扬声器和麦克风的传递特性，并且该方法还严重依赖于人和扬声器的相对位置是确切已知的事实。

仍有改进的空间或替代方案。

发明概述

本发明的各实施例的目的是提供用于确定或估计个性化耳间时间差函数(ITDF)和个性化头部相关传递函数(HRTF)的良好方法和良好计算机程序产品。

本发明的各实施例的目的是提供一种用于基于由最终用户自己捕获的数据，以相对简单的测试布置且不需要特定技能或专业装备来确定或估计个性化ITDF和个性化HRTF的方法和计算机程序产品。

本发明的各实施例的目的是提供一种方法以及用于在家中的几乎任何房间中执行该方法的计算机程序产品，并且基本上仅需要合适的计算设备、入耳式麦克风、扬声器以及通常在智能电话(anno 2016)中找到的“低端”取向单元。“低端”意指取向信息不需要高度准确(例如，±5°的角位置是可接受的)，并且一些取向信息可能是不正确的，并且其中取向单元可以在任意位置和取向上被固定地安装到头部，并且人可以被置于扬声器的远场中的任意距离处，并且人不需要执行准确的移动。

本发明的各实施例的目的是提供一种稳健(例如“万无一失”)的方法和稳健的计算机程序产品，该方法和计算机程序产品能够基于由入耳式麦克风捕获的左右音频样本并基于源自被固定安装到人的头部的取向单元的取向信息，使用由至少一个扬声器发射的音频刺激来确定或估计个性化耳间时间差函数(ITDF)和个性化头部相关传递函数(HRTF)，但是其中，在捕获所述音频样本时头部相对于一个或多个扬声器的位置和/或距离和/或取向不是精确已知的。

本发明的特定实施例的目的是提供一种方法和计算机程序产品，其允许使用测量地球磁场和/或加速度和/或角速度的取向单元(如可以在例如合适的智能电话anno 2016中找到的)、并使用入耳式麦克风和扬声器(可任选地但不必与另一计算机(诸如举例而言膝上型计算机或台式计算机)相组合)来估计所述个性化ITDF和HRTF。

这些和其他目的由本发明的各实施例来完成。

在第一方面，本发明涉及一种在计算设备中估计特定人的个体化头部相关传递函数和个体化耳间时间差函数的方法，该方法包括以下步骤：a)获取或检索多个数据集，每个数据集包括源自左入耳式麦克风的左音频样本和源自右入耳式麦克风的右音频样本以及源自取向单元的取向信息，每个数据集的左音频样本和右音频样本以及取向信息在布置中基本上同时被捕获，其中：左入耳式麦克风被插入人的左耳中，并且右入耳式麦克风被插入到人的右耳中，并且人位于距扬声器一距离处，并且取向单元被固定地安装到人的头部，并且扬声器被布置成用于呈现包括多个音频测试片段的声学测试信号，并且人在呈现声学测试信号期间在多个不同取向上移动他或她的头部；b)从数据集提取或计算多个耳间时间差值和/或多个频谱值，以及取向单元的对应取向值；c)估计扬声器相对于人的头部中心的平均位置、并且以世界参考系来表达的方向，包括以下步骤：1)采取一候选源方向；2)向多个耳间时间差值的至少子集的每个成员和/或多个频谱值的至少子集的每个成员指派与以取向单元参考系表达的所采取源方向相对应的方向，从而获取经映射数据集；3)基于预定义质量准则来计算经映射数据集的质量值；4)针对与先前候选源方向不同的第二和/或进一步候选源方向重复步骤1)到3)至少一次；5)选择得到最高质量值的候选源方向作为扬声器相对于人的头部中心的平均位置的方向；d)估计取向单元相对于头部的取向；e)基于该多个数据集并基于步骤c)中所估计的扬声器相对于人的头部中心的平均位置的方向、以及基于步骤d)中所估计的取向单元相对于头部的取向，来估计人的个体化ITDF和个体化HRTF；其中步骤a)到步骤e)是由至少一个计算设备执行的。

最后语句“其中步骤a)到步骤e)是由至少一个计算设备执行的”意指各个步骤a)到e)中的每个步骤是由一个并且相同的计算设备执行的，或者一些步骤由第一计算设备执行，而一些其他步骤由第二或者甚至进一步的计算设备执行。

步骤c)2)中的“指派方向”可以包括指派两个坐标，例如两个球坐标，或者其他适当的坐标，优选地以这些坐标定义唯一性方向的方式来指派。使用球坐标的优点在于，在该情形中，可以使用球函数来确定质量值，并且结果可以被可视化并且可以被更容易地解读。

步骤c)2)中的映射可包括将数据集ITD_I,S_i映射到球体。

该方法的优点在于，步骤c)中对源方向的估计可以仅基于所捕获的左和右音频样本和源自取向单元的取向信息，而不必使用通用ITDF或HRTF。

该方法的优点在于，可以在合理的时间内(在约30分钟的数量级)在标准计算机(例如，膝上型或台式计算机)上执行ITDF和HRTF。

本发明的方法的优点在于，算法能够从所捕获的数据正确地并且准确地提取ITDF和HRTF，即使人相对于扬声器的位置未被设定或者在捕获数据时不是精确已知的。或者换言之，优点在于，人的头部相对于扬声器的位置不需要先验已知，并且不需要校准。

优点在于，取向单元可以具有相对于头部的先验未知取向，即，取向单元可以在任何任意取向上被安装到头部(例如，取向到或转向到头的前方，或转向到后方或左方)。

根据本发明的各实施例的优点在于，声源相对于头部的取向的估计可以仅基于ITD数据(参见图27)，或者可以仅基于一个特定频率处(例如，8100Hz处)的左音频样本的频谱数据，或者可以仅基于一个特定频率处(例如，8100Hz处)的右音频样本的频谱数据，或者可以基于至少两个不同频率处的频谱数据(例如，通过将针对每个频率的质量值相加)，或者可以基于预定义频率范围(例如，从大约4kHz到大约20kHz，参见例如图28到图30)中的左音频样本和/或右音频样本的频谱数据，或者其任何组合。

本发明的各实施例的优点在于，它为个人提供个体化ITDF和HRTF，该个人的ITDF和HRTF仅需要估计一次，并且随后可以用于各种应用中，诸如用于3D游戏或电话会议应用中以创建空间体验。

本发明的各实施例的优点在于，用于估计ITDF和HRTF的算法不需要被调谐到特定环境或布置，尤其是在捕获音频样本和取向数据时。

特别有利的是，该方法在捕获数据时不会施加严格的移动，并且可以由大多数个人在他/她的家中执行，而不需要昂贵的装备。具体而言，除了一对入耳式麦克风之外，用于执行捕获部分所需要的其他装备(例如：用于在扬声器、智能电话、计算机上呈现音频的设备)是广泛可获得的。

有利的是，扬声器的频谱滤波特性不需要先验已知。

本发明的各实施例的优点在于，用于估计ITDF和HRTF的算法使得能够在数据获取时估计头部相对于扬声器的相对取向，而无需知道取向单元在头上的(确切)取向或位置并且无需精确知道扬声器和/或人在房间中的(确切)位置，并且不需要校准来确定头部相对于扬声器的相对位置和/或取向。

本发明的各实施例的优点在于，用于估计ITDF和HRTF的算法可以在与用于捕获音频和取向数据的设备相同的设备或不同的另一设备上执行。例如，数据可以在第一步骤中由智能电话捕获并被传送到远程计算机或存储在存储卡上，随后可以由远程计算机从存储卡获取(例如，经由电缆或无线地接收)或检索该数据，以供实际地估计ITDF和HRTF。

本发明的各实施例的优点在于，用于估计ITDF和HRTF的算法不一定需要来自取向单元的非常精确的取向信息(例如，约±10°的容限裕度是可接受的)，因为算法可以但不一定仅依赖于取向数据来确定相对位置，而是还可以依赖于音频数据。

尽管本发明所提供的ITDF和HRTF不如在消声室中测量的ITDF和HRTF那样准确，但优点在于，当在3D-VAS系统中使用由本发明获得的个性化ITDF和HRTF时，预计给出比在“平均”或“通用”ITDF和HRTF的情况下使用该相同3D-VAS系统好得多的结果，特别是在前/后误感知方面。

本发明的各实施例的优点在于，算法可以包含用于推导出ITDF和HRTF的一次或多次迭代，而数据捕获步骤仅需要执行一次。多次迭代将以处理时间为代价给出对真实ITDF和HRTF的更优近似。

本发明的各实施例的优点在于，本发明基于如下洞察：多个未知量(诸如举例而言，人的头部与扬声器之间的未知取向、和/或麦克风的未知传递特性和/或扬声器的未知传递特性、和/或未知的ITDF和HRTF)可以通过步进式近似来“一起”计算，由此在每个近似中可以使用未知变量的经改善版本。迭代次数可以由技术人员基于所要求的准确度来选择(并且由此被设置为预定义值)，或者可以在测试期间动态地确定。

本发明的各实施例的优点在于，它不需要特殊装备(例如，具有以球形或弧形布置的多个麦克风的消声室)，而是可以由用户自己在他/她家中以非常简单的设置来进行。

在一实施例中，步骤b)包括：定位该多个数据集中的多个左音频片段和右音频片段，每个左音频片段和右音频片段与由扬声器呈现的音频测试片段相对应；针对成对对应的左音频片段和右音频片段的至少子集计算耳间时间差值；针对每对对应的左音频片段和右音频片段估计取向单元的瞬时取向。

该实施例的优点在于，如果期望的话，对声源的取向的估计可以仅基于ITD数据，如图27中所解说的。

在一实施例中，步骤b)包括或者进一步包括：定位该多个数据集中的多个左音频片段和/或右音频片段，每个左和/或右音频片段与由扬声器呈现的音频测试片段相对应；计算针对每个左音频片段的一组左频谱值和/或计算针对每个右音频片段的一组右频谱值，每组频谱值包含对应于一个频谱频率的至少一个频谱值；针对左音频片段和/或右音频片段的至少子集估计取向单元的瞬时取向。

本实施例的优点在于，对声源的取向的估计可以基于频谱数据。如果音频测试样本具有变化的频率，例如，如果音频测试样本是“啁啾”，则这是特别有用的。

在一实施例中，预定义质量准则是经映射数据的空间平滑度准则。

发明人惊讶地发现，可以通过搜索经映射数据“最平滑”的方向来寻找声源相对于头部的取向的估计，这与其关于源方向的不正确估计将仅导致经映射数据在球体上的旋转的原始预期形成对比。相比之下，实验已表明，对源方向的不正确估计导致经映射数据以及所得到的ITDF和HRTF数据的严重失真。就发明人所知，该洞察在现有技术中是未知的。实际上，就发明人所知，在现有技术中没有声源位于相对于对象的未知位置/取向。

在一实施例中，预定义质量准则基于经映射数据与参考表面之间的偏离或距离，其中参考表面被计算为所述经映射数据的低通变型。

该实施例的优点在于，用于定义“平滑度”的参考表面可以从经映射数据本身推导出，由此例如不需要使用统计分析从包含IDTF或HRTF函数的数据库中提取。这简化了算法的实现，然而非常灵活并且提供了高度准确的结果。

注意，许多“平滑”表面可以用作参考表面，这提供了进一步改善算法的机会，例如，在计算复杂度和/或速度方面。

在一实施例中，预定义质量准则基于经映射数据与参考表面之间的偏离或距离，其中，参考表面基于由有限数目的基函数的加权和所定义的对经映射数据的近似。

使用有限的基函数集合(具体而言，具有低于预定义值(例如，在5到15的范围中的值)的“阶数”的一组正交基函数)是有利的，因为它们非常适合于近似大部分相对平滑的表面，并且因为它们可以用已知的方式来计算，并且可以用相对小的参数集来表示。

在一实施例中，基函数是球谐函数。

虽然本发明对其他函数也起作用，但球谐函数对于该应用而言是非常方便的基函数。它们在其他应用中提供与傅立叶级数相同的优点。

在一实施例中，使用实球谐函数。

在另一实施例中，使用复球谐函数。

在一实施例中，预定义质量准则是表达经映射ITDi数据的镜像反对称性程度的准则。

镜像反对称性意指除符号外对称。

ITDF和/或HRTF的若干通用属性可以用于定义质量准则。在权利要求4中，利用ITDF和或HRTF的平滑度。在权利要求8和9中，构想利用ITDF的镜像对称性(权利要求8)或圆柱形对称性(权利要求9)。在采取源的正确实际方向的情况下，ITDi将围绕轴(实际上为耳-耳轴)主要呈圆柱形对称。类似地，在采取源的正确实际方向的情况下，ITDi将显示关于穿过球体中心的平面主要呈镜像对称。在最后一种情况下，这允许确定源的方向(除符号外)。

在一实施例中，预定义质量准则是表达经映射ITDi数据的圆柱形对称程度的准则。

在一实施例中，该方法进一步包括：f)估计与由人在步骤a)中捕获音频样本和取向信息时做出的头部移动相关的机械模型的模型参数；g)使用该机械模型和所估计的模型参数来估计多个头部位置；并且其中，步骤c)包括使用步骤g)所估计的头部位置。

与采取头部位置固定相对地，使用机械模型来估计头部中心的位置是有利的。该模型允许更好地估计头部与扬声器之中/之间的相对位置和/或距离。这允许改善ITDF和HRTF的准确度。

在一实施例中，机械模型被适配用于对头部围绕头部中心的至少旋转以及以下移动中的至少一者进行建模：人在坐在可旋转椅子上时围绕静止垂直轴的旋转；人的颈部相对于人的躯干的移动。

使用这种模型(特别是具有两个特征的模型)的优点在于，它允许更好地估计头部与扬声器的相对位置，从而改善ITDF和HRTF的准确度。

有利的是，该模型允许以对于用户而言更方便的方式在步骤a)中捕获数据，用户不必尝试将他/她的头部的中心保持在空间中的单个点，而不会降低ITDF和HRTF的准确度。

在一实施例中，步骤b)包括：在多个音频片段上估计头部移动的轨迹；在估计头部位置和/或头部取向时将所估计的轨迹纳入考虑。

在一实施例中，可以使用相对于用户定位于不同方向的一个以上扬声器(例如两个扬声器)，在这种情形中将使用一个以上声学测试信号(例如两个)，并且在这种情形中，在步骤c)中将估计生成每个特定声学刺激的扬声器的方向。

使用两个扬声器(例如被放置成使得(例如，在数据捕获期间的任何特定时刻)从用户位置看到形成45°或90°的角度)的优点在于，这得到对扬声器的方向的改善估计，这是因为存在不改变位置的两个参考点。此外，与仅具有单个扬声器的设置相比，用户不必转动他/她的头部，并且仍覆盖采样球体的较大部分。

在特定实施例中，可由两个扬声器交替地发射各个声学测试刺激。

在一实施例中，步骤e)进一步包括估计扬声器和麦克风的经组合滤波特性，或包括调整所估计的ITDF以使得每频带的能量对应于通用ITDF的能量，并包括调整所估计的HRTF以使得每频带的能量对应于通用HRTF的能量。

本发明的各实施例的优点在于，用于估计ITDF和HRTF的算法不需要事先知道扬声器和入耳式麦克风的频谱滤波特性，而是可以作为算法的一部分来估计扬声器和麦克风的组合频谱滤波特性，或者可以进行补偿以使得所得到的ITDF和HRTF具有与通用ITDF和HRTF大致相同的能量密度或能量含量。

这提供了以下优点：用户可以(原则上)使用任何一组(合理质量的)入耳式麦克风和任何(合理质量的)扬声器。这提供了以下优点：在数据捕获期间不需要使用特定类型的扬声器和入耳式麦克风，并且还可以省略特定的校准步骤。但是当然，也可以使用具有已知频谱滤波特性的扬声器和入耳式麦克风，在这种情形中，算法可以使用该已知频谱滤波特性，并且对扬声器和入耳式麦克风的组合频谱滤波特性的估计可以省略。

扬声器和麦克风的组合频谱滤波特性的估计可以基于如下假设或近似：该组合频谱滤波特性仅是单个参数(即频率)中的频谱函数，而与取向无关。由于入耳式麦克风的小尺寸以及人与扬声器之间的相对较大距离(优选地至少1.5m，更优选地至少2.0m)，因此这种近似是有效的。

在一实施例中，估计扬声器和麦克风的组合频谱滤波特性包括：利用关于扬声器的频谱滤波特性的先验信息，和/或利用关于麦克风的频谱滤波特性的先验信息。

本发明的各实施例可以利用关于典型入耳式麦克风和关于典型扬声器的统计信息。这可以例如包括使用“平均”频谱滤波特性和“协方差”函数，其可以在算法中用于计算“距离”度量或偏离度量或候选函数的似然性。

在一实施例中，步骤b)使用将声学提示与空间信息相关的至少一个传递函数、通过还将从左右音频样本提取的空间信息纳入考虑来估计取向单元的取向。

在该实施例中，利用至少一个传递函数，诸如举例而言人的ITDF和/或HRTF，例如人的通用ITDF和/或通用HRTF，以实现从左右音频样本提取空间信息(例如，取向信息)。

该算法的优点在于，将至少一个传递函数纳入考虑，允许从音频数据中提取空间信息，该空间信息与取向传感器数据相结合使得能够在数据获取期间更好地估计头部的相对取向和/或改善其准确度，而无需知道取向单元在头上的(确切)位置/取向并且无需知道扬声器的(确切)位置。当取向单元本身的准确度相当低时，这是特别有用的。

本发明的一些实施例的优点在于，能够例如通过迭代地求解问题来从音频数据中提取估计ITDF和HRTF所必需的空间信息，尽管确切的ITDF和/或HRTF还未知。在第一次迭代中，可以使用通用传递函数来从音频数据中提取空间信息。该信息随后可被用来估计HRTF和/或ITDF，该HRTF和/或ITDF在下一次迭代中随后可以用于更新至少一个传递函数，最终收敛到对ITDF和HRTF的经改善估计。

注意，在使用位于从用户位置看到的不同方向的一个以上扬声器(例如，两个扬声器)的情况下，从位于不同方向的两个不同声源提取空间信息是有利的。一般而言，将声学提示与空间信息相关的传递函数在空间上不是均匀的，即，并非所有空间方向都以声学提示的形式同样良好地被表示，并且因此，来自某些方向的声音基于其声学内容比源自其他方向的声音更容易定位。通过使用一个以上扬声器(例如两个)，可以应对传递函数中的这些“盲点”，因为两个扬声器采样传递函数的不同方向，并且如果一个扬声器产生难以定位的声音，则源自另一扬声器的声音仍然可以包含必要的方向信息来对头部的取向作出推断。

在一实施例中，将声学提示与空间信息关联的该至少一个预定义的传递函数是预定义的耳间时间差函数(ITDF)。

传递函数是预定义的ITDF的实施例的优点在于，在捕获每个数据集期间头部相对于扬声器的取向仅根据(平均或估计的)ITDF而不是HRTF来计算。

在一实施例中，将声学提示与空间信息相关的该至少一个传递函数是包括预定义的耳间时间差函数和预定义的头部相关传输函数的两个传递函数。

在捕获每个数据集期间头部相对于扬声器的取向根据ITDF(的平均值或估计)并根据HRTF(的平均值或估计)来计算的实施例是有利的，因为这允许在数据获取期间对头部相对于扬声器的取向的改善估计，这进而能够改善对ITDF和HRTF的估计。

在一实施例中，该方法包括执行步骤b)到e)至少两次，其中，第一次迭代中的步骤b)不将所述空间信息纳入考虑，并且其中，第二次和任何进一步迭代中的步骤b)使用第一次或进一步迭代中的步骤e)中所估计的耳间时间差函数和/或头部相关传递函数将所述空间信息纳入考虑。

头部相对于扬声器的取向可以通过将IDTF和HRTF纳入考虑(但不在第一次迭代中，而是在第二次迭代时)来计算的实施例是有利的。以此方式，如果期望的话，可以避免使用通用ITDF和/或通用HRTF。

在一实施例中，估计ITDF函数的步骤d)包括：基于对包含不同人的多个ITDF的数据库的统计分析来利用关于个性化ITDF的先验信息。

本发明的各实施例可以利用与包含在数据库中的典型ITDF有关的统计信息。这可以例如包括使用“平均”ITDF和“协方差”函数，其可以在算法中用于计算“距离”度量或偏离度量或候选函数的似然性。

本发明的各实施例的优点在于，将来自此类数据库(其中一些是公开可获得的)的信息纳入考虑，因为它增加了所估计的个体化ITDF和所估计的个体化HRTF的准确度。

例如基于特定人的年龄或性别而仅将此类数据库的子集纳入考虑的本发明的特定实施例是有利的。

在一实施例中，估计HRTF的步骤e)包括：基于对包含不同人的多个HRTF的数据库的统计分析来利用关于个性化HRTF的先验信息。

如上面提到的在使用关于ITDF的先验信息时的相同优点也适用于HRTF。

在一实施例中，取向单元包括被适配用于提供相对于地球重力场的取向信息的至少一个取向传感器以及被适配用于提供相对于地球磁场的取向信息的至少一个取向传感器。

本发明的各实施例的优点在于，使用可以提供相对于固定到地球(本文也称为“固定到世界”)的坐标系的取向信息，这与需要发送器单元和接收器单元的定位单元形成对比，因为它只需要单个单元。

在一实施例中，该方法进一步包括以下步骤：将取向单元固定地安装到人的头部。

本发明的方法考虑到取向单元和头部的相对取向对于所有音频样本/片段是固定的。不需要特定的取向，任何任意取向都可以，只要头部与取向单元之间的相对取向是恒定的。

在一实施例中，取向单元被包括在便携式设备中，并且其中该方法进一步包括以下步骤：将包括取向单元的便携式设备固定地安装到人的头部。

在一实施例中，该方法进一步包括以下步骤：经由扬声器来呈现声学测试信号；捕获源自所述左入耳式麦克风和所述右入耳式麦克风的所述左音频信号和所述右音频信号，并从取向单元捕获所述取向信息。

在一实施例中，取向单元被包括在便携式设备中，该便携式设备被能被安装到人的头部；并且，便携式设备进一步包括可编程处理器和存储器，以及电连接到左右入耳式麦克风的对接装置，以及用于存储和/或传送所捕获数据集的装置；并且便携式设备捕获该多个左音频样本和右音频样本以及取向信息，并且便携式设备将所捕获的数据集存储在可更换的存储器上和/或将所捕获的数据集传送到计算设备，并且计算设备读取所述可更换存储器或接收所传送的所捕获数据集，并在读取或接收所捕获数据集的同时或之后执行步骤c)到e)。

在此类实施例中，实际数据捕获的步骤由便携式设备来执行，例如由装备有具有立体声音频输入等的插件设备的智能电话来执行，而对所捕获数据的处理可由另一计算机(例如，在云中)离线执行。由于取向单元是智能电话本身的一部分，因此不需要额外的电缆。

此类实施例的优点在于，到入耳式麦克风的电缆可以(与布线到附近计算机的电缆相比)短(短得多)，从而得到更高的移动自由度。此外，所捕获的左右音频信号可以具有更佳的SNR，这是因为电缆的移动较少并且电缆形成的环较小，因此不期望的电磁辐射的拾取较少。便携式设备可以包括足够量的存储器以用于存储所述音频信号，例如，可以包括1GB的易失性存储器(RAM)或非易失性存储器(FLASH)，并且便携式设备可以例如包括无线发射器(例如，RF发射器(例如，蓝牙，WiFi等等))以用于将数据集发送到外部设备。实验已表明，约为100到200MB的RAM大小可能是足够的。

在此类实施例中，外部计算机通常将执行所有步骤b)到e)，数据捕获步骤a)除外，并且便携式设备(例如，智能电话)将执行数据捕获。

当然，对功能性的另外分割也是可能的，例如，使用平均ITDF和/或平均HRTF对步骤c)的第一次执行也可以在智能电话上执行，而其他步骤由计算机执行。

在一实施例中，该方法进一步包括以下步骤：将左入耳式麦克风插入人的左耳中，并将右入耳式麦克风插入所述人的右耳中；计算设备电连接到左右入耳式麦克风，并且操作地连接到取向单元；并且计算设备捕获该多个左音频样本和右音频样本，并直接或间接地从所述取向单元检索或接收或读取或以其他方式获取取向信息；并且其中计算设备将所述数据存储在存储器中。

在此类实施例中，所有步骤(包括实际数据捕获)由计算设备执行，该计算设备可以是例如装备有具有立体声音频输入等的USB设备的台式计算机或膝上型计算机。如果在该实施例中使用智能电话的取向单元，则计算机将例如经由电缆连接或经由无线连接从智能电话检索取向信息，并且智能电话的唯一任务是提供取向数据。

在一实施例中，计算设备是还包括取向单元的便携式设备。

在此类实施例中，所有步骤a)到e)(包括实际数据捕获)在便携式设备上执行，例如由智能电话执行。要明确指出的是，这对于许多智能电话anno 2015而言已经在技术上可行，尽管处理可能花费相对长的时间(例如，对于未经优化的代码，在30分钟的数量级)，但构想该速度在不远的将来可以被进一步改善。

在一实施例中，便携式设备是智能电话。

在一实施例中，便携式设备进一步包括扬声器；并且其中，便携式设备被进一步适配用于分析取向信息以根据预定义的准则来验证头部周围的3D空间是否被充分采样；并且被进一步适配用于：取决于3D空间是否被充分采样的分析结果而经由便携式设备的扬声器来呈现第一或第二预定义音频消息。

用于判定3D空间是否被充分采样的预定义准则可以例如基于预定义子空间上的最小预定义密度。子空间可以例如是由完整球体的相当大部分定义的空间。

此类实施例的优点在于，在数据捕获期间或之后不久、在对ITDF和HRTF的实际估计开始之前提供某种形式的控制和交互。以此方式，可以增加所估计的个体化ITDF和HRTF的准确度，并且由于ITDF和HRTF曲线在粗略采样的3D空间中的内插引起的在3D-VAS系统中呈现音频数据期间的误感知的风险可以降低。

尽管取向信息可能具有不足以在确定HRTF时直接用作传出声音的方向信息的准确度，但该准确度通常足以使得能够验证人头部周围的3D空间是否被充分采样。当然，可能存在两个以上预定义消息。此类消息的示例可以例如包含“测试结束”的消息，或者“需要重复测试”的消息，或者“在看向右方和上方时需要附加采样”的消息，或任何其他消息。

在一实施例中，音频测试信号包括多个声学刺激，其中每个声学刺激的在25到50ms的范围中的历时；和/或其中后续声学刺激之间的时间段是在250至500ms范围中的时段。

在一实施例中，声学刺激是宽带声学刺激，具体而言是啁啾。

注意，在具有纯音的声学测试信号中可能也会起作用，但是要获取相同的IDTF和HRTF质量将花费长得多的时间。

在一实施例中，声学刺激具有随时间线性减小的瞬时频率。

使用宽带声学刺激信号(而不是纯音信号)是有利的，这是因为宽带宽信号允许针对头部的每个取向在感兴趣的完整频率范围上提取频谱信息以及因此估计HRTF，并且还因为对于宽带宽信号ITD估计的准确度更高。

使用具有小于50ms的历时的声学刺激的测试信号是有利的，这是因为对于这种短信号，假定人以相对低的角速度(例如，以小于60°每秒)轻缓地转动他/她的头部而不是突然地转动，则可以合理地采取头部(暂时)静止不动，即使在实践中头部可能是(并且通常将是)旋转的。

还有一个优点是，这种短历时信号避免了沿直接路径的接收和沿间接路径接收相同信号之间的交叠，该间接路径包含在房间的一个边界或房间内存在的物体上的至少一个附加反射。因此，可以避免复杂的回声消除技术。

在一实施例中，该方法进一步包括以下步骤：取决于对所捕获数据集的分析来从一组预定义的音频消息中选择预定义的音频消息，并经由与用于测试刺激的相同扬声器或经由与第一扬声器不同的第二扬声器来呈现所选择的音频消息，以在呈现音频测试信号之前和/或期间和/或之后向人提供信息或指令。

在一实施例中，第二扬声器可以例如是便携式设备的扬声器。

这种实施例例如在步骤c)的(准)实时处理中可能是有用的，由此从所捕获样本的子集中提取(准确的或近似的)位置和/或取向信息，或者理想地在每个连续音频样本之间的时间提取，并且由此算法进一步验证头部周围的3维空间是否以足够的密度被采样，并且由此在声学测试文件结束之后或甚至在声学测试文件完成之前向用户给出对应的声学反馈。

但是当然也可以给出其他消息，例如使用户保持他/她的头部静止达超过一定数目的声学刺激(例如五或十)的文本指令，以允许对针对该特定取向收集的音频样本进行平均，以使得可以实现更高的信噪比(SNR)。

当然，非实时应用也可以提供相同的功能性，其中例如第一次呈现声学测试信号，并且捕获第一多个数据集，随后在步骤c)中处理该第一多个数据样本，并且由此步骤c)进一步包括验证头部周围的空间是否以足够的密度被采样，并且由此经由第二扬声器向用户给出对应的声学消息，例如以向他/她通知捕获是足够的，或者要求他/她重复测量，从而可任选地给出将头部在某些方向上取向的进一步指令。

以此方式，可以使数据捕获的实际步骤在计算机与人之间具有相当的交互性，具有以至少预定义密度来估计HRTF的技术效果。

以此方式，可以(进一步)降低空间采样不充分的风险、以及因此针对在空间上未被充分密集采样的方向必须在两个或更多个ITDF曲线或HRTF曲线之间内插的风险。

在第二方面，本发明涉及一种针对特定人呈现虚拟音频信号的方法，包括：x)使用根据前述权利要求中的任一项所述方法来估计所述特定人的个体化头部相关传递函数和个体化耳间时间差函数；y)通过利用在步骤x)中所估计的个性化头部相关传递函数和个性化耳间时间差函数，来针对特定人生成虚拟音频信号；z)使用立体声耳机和/或一组入耳式扬声器来呈现在步骤y)中生成的虚拟音频信号。

在第三方面，本发明涉及一种用于估计特定人的个体化头部相关传递函数和耳间时间差函数的计算机程序产品，该计算机程序产品在包括可编程处理器和存储器的至少一个计算设备上被执行时被编程用于执行根据第一方面或第二方面的方法的至少步骤c)到e)。

计算机程序产品可以包括可在第一计算机(例如，膝上型或台式计算机)上执行的软件模块，当第一计算机(例如，经由电导线)适当地连接到入耳式麦克风并且(例如，经由蓝牙)操作地连接到取向单元时，第一模块被适配用于执行与捕获和存储音频和取向数据相关的步骤a)，可任选地包括将数据存储在存储器中，以及与估计或计算个性化IDTF和HRTF相关的步骤c)到e)。

计算机程序产品可以包括两个软件模块，一个软件模块可在包括取向模块的便携式设备(诸如举例而言智能电话)上执行，并且第二模块可在第二计算机(例如，膝上型或台式计算机)上执行，第一模块被适配用于至少执行与数据捕获相关的步骤a)，优选地还包括将数据存储在存储器中，第二模块被适配用于至少执行与估计或计算个性化IDTF和HRTF相关的步骤c)到e)。在数据捕获期间，便携式设备(例如，经由电导线)适当地连接到入耳式麦克风。

该计算机程序产品可以包括进一步的软件模块，以用于将所捕获的数据例如经由有线或无线连接(例如，经由蓝牙或Wifi)从便携式设备传递到计算机。替换地，可以经由存储卡等将数据从便携式设备传递到计算机。当然，也可以使用各传递机制的混合。

在第四方面，本发明涉及一种包括根据第三方面的计算机程序产品的数据载体。

在一实施例中，数据载体进一步包括所述声学测试信号的数字表示。

在第五方面，本发明还涉及根据第三方面的计算机程序产品的传输。

该传输还可以包括计算机程序产品以及所述声学测试信号的数字表示的传输。

在第六方面，本发明还涉及一种部件套件，包括：根据第四方面的数据载体，以及左入耳式麦克风和右入耳式麦克风。

这种部件套件的优点在于，它提供了典型最终用户需要的所有硬件(在他/她已经具有的计算机和/或智能电话和音频装备之外)，以估计他/她的个体化ITDF和个体化HRTF。该部件套件可以作为独立包装提供，或者与例如3D游戏或其他软件包一起提供。声学测试信号可以例如从因特网上的特定网站下载，并且录制到音频CD盘上，或者写在记忆棒上，或者以另一方式获取。

在一实施例中，该部件套件进一步包括：包括所述声学测试信号的数字表示的第二数据载体。

第二数据载体可以是例如可在标准立体声系统上播放的音频CD盘，或可在DVD播放器或家庭影院设备上播放的DVD盘。

本发明的这些以及其他方面从下文所描述的(诸)实施例中将变得显而易见并且将参考这些实施例来进行阐明。

附图简述

图1解说了来自特定方向的声音如何在不同时间抵达人的左耳和右耳，以及双耳如何施加不同的频谱滤波。

图2是可以在本发明的各实施例中使用的不同参考系的示意表示：被固定到安装在头上或安装到头部的取向单元的参考系；世界参考系，其是被固定到世界(或“地球”)的任何体系，如取向单元所使用的；以及被固定到头部的参考系，其被定义为在标准HRTF和ITDF测量中使用的“头部参考系”(也参见图3和图4)。“相对于头部的源方向”(即，一个或多个扬声器相对于被固定在两耳之间的中间点处的头部参考系的方向)由侧角θ和仰角定义。侧角是“源方向”与耳-耳轴之间的角度，并且仰角是“源方向”与鼻-耳-耳平面之间的角度。源方向是在测试期间从扬声器到头部中心的平均位置的虚线。

图3示出了特定人的耳间时间差函数(ITDF)的示例，由此取决于传出声音的方向，使用不同的强度(灰度)来指示耳间时间差(ITD)的不同值。Iso-ITD轮廓以白色曲线示出。

图4示出了沿正中面的特定人的单耳(左耳)头部相关传递函数(HRTF)的示例，由此使用不同的强度(灰度)来指示不同的值。Iso响应轮廓以白色曲线示出。

图5示出了现有技术中已知的用于在消声室外部测量HRTF的布置。

图6示出了用于执行根据本发明的方法的一个或多个步骤的可能硬件配置的第一示例，由此由电连接到入耳式麦克风的计算机来执行数据捕获，并且由此从存在于智能电话中的传感器获取取向数据，该智能电话以任意位置被固定地安装在人的头上或安装到人的头部。

图7示出了用于执行根据本发明的方法的一个或多个步骤的可能硬件配置的第二示例，由此由电连接到入耳式麦克风的智能电话来执行数据捕获，并且由此从存在于智能电话中的传感器单元获取取向数据，并且由此还由智能电话执行数据处理。

图8示出了用于执行根据本发明的方法的一个或多个步骤的可能硬件配置的第三示例，由此由电连接到入耳式麦克风的智能电话来执行数据捕获，并且由此从存在于智能电话中的传感器单元获取取向数据，并且由此数据处理被卸载到计算机或“云”。

图9示出了在本发明的方法中要估计的变量，因此示出了要由本发明的各实施例中使用的算法的数据处理部分求解的问题。

图10是根据本发明的用于确定个性化ITDF和HRTF的方法的第一实施例的流程图表示。

图11是根据本发明的用于确定个性化ITDF和HRTF的方法的第二实施例的流程图表示。

图12示出了用于估计相对于世界的智能电话取向的方法，如可以在图10的框1001和图11的框1101中使用的那样。

图13示出了用于估计相对于世界的源方向的方法，如可以在图10的框1002和图11的框1102中使用的那样。

图14示出了用于估计智能电话相对于头部的取向的方法，如可以在图10的框1003和图11的框1103中使用的那样。

图15示出了用于估计头部中心相对于世界的位置的方法，如可以在图10的框1004和图11的框1104中使用的那样。

图16示出了用于估计HRTF和IDTF的方法，如可以在图10的框1005和图11的框1105中使用的那样。

图17示出了可以在本发明的各实施例中使用的可任选附加功能性的流程图。

图18示出了从被固定地安装到头部的取向单元捕获取向信息。

图18(a)到图18(d)示出了可以从被固定地安装到头部的取向单元获取的传感器数据的示例。

图18(e)示出了在评估期间使用的机器人测试平台。

图19(a)到图19(d)是根据本发明的在捕获音频数据和取向传感器数据期间进行平缓头部移动的人的快照以允许确定ITDF和HRTF。

图20是在坐在房屋的典型房间中的椅子上的距扬声器典型距离处的人的草图。

图21解说了具有预定义时间历时和线性频率扫描的所谓“啁啾”的特性，该“啁啾”可以用作本发明的各实施例中的音频测试刺激。

图22(a)到图22(c)解说了用于提取啁啾的抵达时间和用于从啁啾中提取频谱信息的可能步骤。

图22(a)示出了针对包括四个连续啁啾的音频测试信号由左入耳式麦克风捕获的音频信号的频谱图，其中每个啁啾具有约25ms的历时以及275ms的啁啾间区间。

图22(b)示出了“经整流”频谱图，即，当补偿啁啾中已知的频率相关的定时延迟时。

图22(c)示出了由左入耳式麦克风捕获的音频信号的“经整流”频谱图的经求和强度，基于该强度可以确定啁啾的抵达时间。

图23示出了针对包括四千个啁啾的示例性音频测试信号的从左音频信号提取的频谱(图23a：左耳频谱)和从右音频信号提取的频谱(图23b：右耳频谱)的示例，以及耳间时间差(图23c)。

图24更详细地示出了图23的频谱和ITD数据的一部分。

图25(a)示出了使用随机(但不正确)的源方向将图23的四千个啁啾的ITD数据映射到球面上，从而得到具有高度不规则性或低平滑度的函数。

图25(b)示出了使用正确的源方向将图23的四千个啁啾的ITD数据映射到球面上，从而得到具有高度规则性或高平滑度的函数。

图25(a,b)示出了错误采取的源方向对ITD测量的经投影表面的平滑度的不利影响。

图25(c,d)示出了针对频谱数据的相同影响。

图26(a)示出了一组低阶实球谐基函数，其可以用于生成或定义仅具有缓慢变化的空间变动的函数。这种函数可以用于定义“平滑”表面。

图26(b)示出了用于量化在球体上定义的函数(例如，ITDF，其可以用作平滑度度量)的平滑度的技术。

图27(a)示出了针对球体上显示的两千个候选“源方向”的根据图26(b)中定义的平滑度度量(在被应用于ITD值的情况下)的平滑度值，其中球谐函数的阶数被设置为5。灰度在图27(b)中调整。

图28(a)示出了在将平滑度准则应用于双耳频谱时的平滑度值，其中球谐函数的阶数被设置为5，针对球体上所示出的每个坐标的平滑度值是针对在范围4kHz到20kHz中的每个频率(以300Hz的步长)的平滑度值的总和。灰度在图28(b)中调整。

图29(a)示出了在将平滑度准则应用于双耳频谱时的平滑度值，其中球谐函数的阶数被设置为15。灰度在图29(b)中调整。

图30(a)示出了在将平滑度准则应用于单耳频谱时的平滑度值，其中球谐函数的阶数被设置为15。灰度在图30(b)中调整。

图31解说了头部中心移动的先验模型的模型参数。当人坐在办公椅上并且允许在所有方向上自由地旋转他/她的头部、并且在身体被固定到椅子的情况下与椅子一起自由地旋转时，则可以使用该简化机械模型来描述头部中心的移动。

图32示出了在执行对自由旋转的椅子的HRTF测量时捕获对象的视频的快照。使用图31的机械模型，提取出关于头部的位置的信息(其得到对相对于头部的源方向的更优估计)，如可以从所估计的头部取向和位置的可视化中看到的。黑线示出了头部中心的偏离。

图33是在示例性音频捕获测试期间使用图31的机械模型估计的头部中心的位置(在世界坐标X,Y,Z中)的图形表示。

图34示出了对头部中心与声源之间的距离随时间推移的测量，如通过连续啁啾之间的定时延迟确定的。图31的机械模型允许与这些测得的距离偏离的良好拟合。

图35示出了对同一人的两个HRTF的比较：一个HRTF是在专业设施(在亚琛(Aachen))中测量的，另一HRTF是使用根据本发明的方法获取的、在家测量的。如可以看到的，在专业设施中测量的HRTF与在家测量的HRTF的图形表示之间存在非常良好的对应性。

这些附图仅是示意性而非限制性的。在附图中，出于解说的目的，一些元件的大小可被放大并且未按比例绘制。权利要求中的任何附图标记不应被解释为限制范围。

在不同的附图中，相同的附图标记指代相同或相似的元件。

解说性实施例的详细描述

将针对具体实施例且参考特定附图来描述本发明，但是本发明不限于此而仅由权利要求书来限定。所描述的附图只是示意性的而非限制性的。在附图中，出于解说的目的，一些元件的大小可被放大并且未按比例绘制。尺寸和相对尺寸不对应于本发明实践的实际缩减。

此外，说明书中和权利要求中的术语第一、第二等等用于在类似的元素之间进行区分，并且不一定用于在时间上、空间上、以排名或任何其他方式来描述序列。应当理解，如此使用的术语在适当的情况下是可互换的并且本文中所描述的本发明实施例与本文中所描述或解说的相比能够以其他顺序操作。

此外，说明书和权利要求中的术语顶部、下方及类似术语用于描述性的目的并且不一定用于描述相对位置。应该理解，如此使用的这些术语在合适情况下可以互换，并且本文描述的本发明的实施例能够以除了本文描述或解说的之外的其他取向来操作。

要注意，权利要求中使用的术语“包括”不应被解释为限定于其后列出的装置；它并不排除其他要素或步骤。因此，该术语被解释为指定所陈述的特征、整数、步骤或组件的存在，但不排除一个或多个其他特征、整数、步骤或组件、或其群组的存在或添加。因此，表述“一种包括装置A和B的设备”的范围不应当被限定于仅由组件A和B构成的设备。这意味着对于本发明，该设备的仅有的相关组件是A和B。

贯穿本说明书引述的“一个实施例”或“一实施例”意指结合该实施例描述的特定特征、结构或特性是包含在本发明的至少一个实施例中的。由此，短语“一个实施例中”或“一实施例中”在贯穿本说明书的各个地方的出现并非必要地全部引述同一实施例，而是可能引述同一实施例。此外，在一个或多个实施例中，如从本公开中对本领域普通技术人员将是显而易见的，特定的特征、结构或特性可以用任何合适的方式进行组合。

类似地，应当领会，在本发明的示例性实施例的描述中，出于精简本公开和辅助对各个发明性方面中的一个或多个的理解的目的，本发明的各个特征有时被一起编组在单个实施例、附图或其描述中。然而，这种公开的方法不应被解释为反映所要求保护的本发明需要比每项权利要求中所明确记载的更多特征的意图。相反，如所附权利要求反映的，各发明方面可以存在比单个前述公开的实施例的全部特征更少的特征。因此，具体描述之后所附的权利要求由此被明确纳入该具体描述中，其中每一项权利要求独自作为本发明单独的实施例。

此外，尽管本文所描述的一些实施例包括其他实施例中所包括的一些特征但不包括其他实施例中所包括的其他特征，但是不同实施例的特征的组合旨在落在本发明的范围内，并且形成如将由本领域技术人员所理解的不同实施例。例如，在所附的权利要求书中，所要求保护的实施例中的任何实施例均可以任何组合来使用。

在本文所提供的描述中，阐述了众多具体细节。然而应理解，在没有这些具体细节的情况下也可实践本发明的实施例。在其他实例中，公知的方法、结构和技术未被详细示出以免模糊本描述的理解。

在本发明的上下文中，“耳间时间差”或即“ITD”意指时间差，该时间差可以由值(例如，以毫秒计)来表示，但该值取决于传出声音的方向(相对于头部)而不同。针对不同方向的ITD值的表示在本文中被称为“耳间时间差函数”或即“ITDF”，并且在图3中示出了该函数的示例。

在本发明的上下文中，“头部相关传递函数”或即“HRTF”意指双耳频谱函数的集合(如图4中所示，仅针对左耳，针对正中面)，每个频谱函数S(f)(与图4中的每条水平线对应的值)表示由身体、头部和左/右耳对来自特定方向(相对于头部)的声音施加的频谱滤波特性。

在本发明中引用“世界参考系”的情况下，这意指在对象头部中心的平均值处固定到世界(或“地球”)的3D参考系，该3D参考系可通过以下操作来定义：选择沿着重力轴指向背离地球中心的Z轴、位于水平面中并指向磁北方向的X轴、以及也位于水平面中并与另外两个轴形成右手正交3D坐标系的Y轴。

在本发明中引用“物体的位置”的情况下，这意指3D空间中的特定位置，例如可以由相对于世界参考系的特定X,Y,Z坐标来指示，但也可以使用其他坐标。

在本发明中引用“物体的取向”的情况下，这意指固定到物体的3D参考系的取向，该取向可以例如通过相对于世界参考系的3个欧拉(Euler)角来表示，但也可以使用其他坐标。

在本发明中引用“声源相对于头部的方向”的情况下，这意指相对于头部参考系的特定方向，如在标准HRTF和ITDF测量中所使用的。该方向通常由两个角度来表达：侧角θ和仰角(例如图2中所示)，由此侧角θ是在范围0到π中的值，而仰角是在范围-π到+π中的值。

在引用“符号不定的方向”时这指的是由两个角度表征的方向和由两个角度表征的方向两者。

在本发明中引用“声源相对于世界的方向”的情况下，这意指相对于世界参考系的特定方向。

在本发明中，引用“取向传感器”或“取向单元”而不是(6D)位置传感器，因为主要对头部的取向感兴趣，并且不需要(X,Y,Z)位置信息来估计HRTF和ITDF。然而，如果可用的话，算法也可以使用(X,Y,Z)位置信息来估计头部中心的位置，该位置被定义为左耳位置与右耳位置之间的中间点。

在本文档中，术语“平均HRTF”和“通用HRTF”用作同义词，并指代一群人的一种平均或共同HRTF

在本文档中，术语“平均ITDF”和“通用ITDF”用作同义词，并指代一群人的一种平均或共同ITDF。

在本文档中，术语“个性化HRTF”和“个体化HRTF”用作同义词，并指代特定人的HRTF。

在本文档中，术语“个性化ITDF”和“个体化ITDF”用作同义词，并指代特定人的ITDF。

在本发明中使用表达“相对于头部的源方向”的情况下，实际上意指在特定时刻(例如，在捕获特定的左右音频片段时)相对于如图2中所示的“头部参考系”的瞬时源方向。由于人正在移动他/她的头部，因此即使源保持静止，源方向也会在测试期间发生变化。

在本文档中，术语“取向信息”和“取向数据”有时用作同义词，或者有时在从取向传感器(例如，陀螺仪)可获得的“原始数据”与经转换数据(例如，角度θ和)之间进行区分，在这种情形中，原始数据被称为取向信息，并且经处理的数据。

在本文档中，缩写“re.world”意指“相对于世界(relative to the world)”，这等效于“在世界坐标中(in world coordinates)”也缩写为“在w.c中”。

在本发明中使用术语“(经)估计”的情况下，这应当被广义地解释。取决于上下文，该术语可以意指例如“测量”、或“测量和校正”或“测量和计算”或“计算”或“近似”等等。

在本文档中，术语“双耳音频数据”可以指代“左音频样本和右音频样本”(在表示个体样本的情况下)，或者指代“左右音频片段”(在表示对应于啁啾(chirp)的左样本或右样本的序列的情况下)。

在本文档中，术语“源”和“扬声器”用作同义词，除非另外明确说明。

除非另外明确说明，否则“机械模型”或“运动学模型”用作同义词。

发明人面临的问题是寻找一种以简单的方式(对于用户)并且以降低的成本(对于用户)来个性化HRTF和ITDF的方式。

所提出的方法尝试组合两个(矛盾的)要求：

(1)对充分收集信息数据的需求，以使得能够充分准确地估计ITDF和HRTF(或者换言之：以使得能够充分准确地近似每个人的真实ITDF和HRTF)，以及

(2)可以在家中执行规程(或更确切而言：捕获数据的部分)并且对于普通用户来说不太困难的限制。

发明人提出了一种方法，该方法具有两个主要步骤：

1)数据捕获的第一步骤，该步骤易于执行，并且使用在家中通常可获得的硬件：声音再现设备(例如，可连接到扬声器的任何单声道或立体声链或MP3播放器等等)和取向传感器(如今例如在智能电话中可获得)。用户只需购买一套入耳式麦克风，

2)数据处理的第二步骤，该步骤可以例如在同一智能电话上、或在另一计算设备(诸如台式计算机或膝上型计算机)上、或甚至在云中执行。在第二步骤中执行算法，该算法被调谐到数据捕获步骤的细节，并且考虑到扬声器和麦克风的频谱特性可能是未知的，并且人相对于扬声器的位置可能是未知的，并且人的头部上的取向单元的位置/取向可能不是(确切)已知的，并且可任选地，由取向单元提供的取向数据的准确度可能不是非常准确(例如具有±5°的容限)。

由该折衷产生的ITDF和HRTF可能不是完美的，但足够准确以允许用户(近似地)在3D空间中定位声源，特别是在将前方与后方区分开方面，由此为用户产生具有增值的空间感觉。此外，最终用户主要面对(数据捕获的)第一步骤的优点，并且不会面对数据处理步骤的复杂性。

在本文档的其余部分中，首先将参考图5讨论现有技术解决方案。随后将参考图6至图8更详细地解释本发明的数据捕获步骤。最后将参考图9至图29更详细地解释本发明的数据处理步骤。

还参考了来自相同发明人的共同未决的国际申请PCT/EP2016/05320，本文中进一步被称为“在先申请”，该在先申请在欧洲还未公布(因此在Art 54(3)下不是现有技术)，该在先申请与本发明具有一些共同点，但也具有重要差别，如将进一步解释的。

I.已知的解决方案

图5是US5729612A的图1的副本，并解说了消声室外部的已知测试设置的实施例，由此人503坐在距扬声器502已知距离处的椅子上，该扬声器502被安装在特殊支撑件506上以允许扬声器在高度方向上移动。左右音频信号由人佩戴的两个入耳式麦克风505捕获。人的头部移动由安装在坐在椅子507上的人的头顶上的位置传感器504跟踪，该椅子507可以在特定方向上取向(如由地板上的线所指示的)。麦克风505和位置传感器504经由电缆电连接到计算机501。计算机501将声学测试信号发送到扬声器502，并使用特殊支撑件506来控制扬声器502的垂直位置。

数据将在计算机501中处理，但是该文档没有关于如何根据测得的音频信号和位置信号来确切地计算ITDF和HRTF的记载。该文档确实提到了校准步骤以确定扬声器502和麦克风505的传递特性，并且该方法还在很大程度上依赖于人503和扬声器502的相对位置是确切已知的事实。

II.数据捕获：

图6至图8示出了根据本发明的可以用于捕获数据的可能测试布置的三个示例，本发明不限于此。

在所示的配置中，声源602、702、802(例如扬声器)被置于距人未知距离604、704、804处，但是大致与人的头部在相同的高度。扬声器可以例如被放置在桌子的边缘，并且不需要移动。人603、703、803可以坐在椅子或类似物上。椅子可以是可旋转的椅子，但这不是绝对必需的，并且不需要在地板上作出指示，并且不需要用户根据地板上的线条使他/她自己在特定方向上取向。

该人在他/她的左耳佩戴左入耳式麦克风，并在他/她的右耳佩戴右入耳式麦克风。取向单元604、704、804被固定地安装到人的头部，优选地安装在人的头顶上，或者安装在人的头部的背面，例如通过头带(未示出)或带或者可伸展装置或弹性装置。取向单元604、704、804可以被置于相对于头部的任何任意取向。取向单元可以例如包括加速度计和/或陀螺仪和/或磁力计，并且优选地包括所有这些，但是也可以使用任何其他合适的取向传感器。在优选实施例中，取向单元允许确定该取向单元相对于地球重力场和地球磁场的瞬时取向，并且由此不需要位于例如扬声器附近的发射器。取向单元可以被包括在便携式设备中，诸如举例而言智能电话。本发明的各实施例的主要优点在于，不需要确切地知道取向单元相对于头部的位置和取向，并且取向传感器不需要非常准确(例如，对于个体的±10°容限可能是普遍可接受的)，如将进一步解释的。

在数据捕获步骤期间，声学测试信号(例如存在于CD音频盘上的预先记录的音频文件)在声音再现装备608、708、808上播放，并经由(单个)扬声器602、702、802被呈现。替换地，可以使用两个或者甚至更多个扬声器。声学测试信号包括多个声学刺激，例如具有预定义历时和预定义频谱内容的啁啾。在本发明的上下文中，为了便于解释，术语“啁啾”和“刺激”可互换使用，并且两者都是指声学刺激。优选地，使用相对短的历时(例如，在25ms至50ms的范围中)并具有宽带频谱(例如，在1kHz至20kHz的范围中)的声学刺激，但是本发明不限于此，并且也可以使用其他信号，例如短纯音。

当声学测试信号经由扬声器被呈现时，该人需要在多个不同取向上轻缓地转动他/她的头部(参见图2)。

感兴趣的声学刺激(例如，啁啾)经由左右入耳式麦克风605、705、805被捕获或记录，并且对于每个经记录的刺激，取向单元的取向数据(还指示在刺激抵达耳朵的时刻头部的取向(尽管该取向还未知，因为取向单元可以被安装在相对于头部的任何任意位置和任何任意取向))也被捕获和/或记录。

在图6的配置中，入耳式麦克风605(经由相对长的电缆)电连接到计算机601，该计算机601捕获左右音频数据，并且还从取向传感器单元604(有线或无线)检索取向信息。计算机601随后可以将所捕获的信息存储为数据集，每个数据集包括源自左入耳式麦克风的左音频样本(Li)和源自右入耳式麦克风的右音频样本(Ri)以及源自取向单元的取向信息(Oi)。注意，音频通常以至少40kHz的频率来采样，例如以约44.1kHz或48kHz，但也可以使用其他频率。数据集可以以任何合适的方式存储，例如以交织的方式存储在单个文件中，或者存储为分开的文件。

图6的配置的缺点在于，入耳式麦克风以及可能还有取向传感器经由相对长的电缆连接到计算机601，这可能阻碍人603的移动。

取向单元604可以被包括在便携式设备(诸如举例而言智能电话或游戏控制台的遥控器)中，该便携式设备可包括配置有用于从一个或多个取向传感器读取取向数据、以及用于将该取向数据传送到计算机601的计算机程序的可编程处理器，该计算机601将被适配有用于接收所述取向数据的计算机程序。取向数据可以例如经由有线或无线(由图6中的虚线所指示)来传送。在后一种情形中，可以省略计算机601与传感器单元604之间的导线，这对于用户603更加方便。

在该方法的变型中，取向数据被存储在可交换存储器上，例如在数据捕获期间例如与时间戳一起被存储在闪存卡上，该闪存卡可以稍后被插入计算机601中以供处理。

图7的设置可以被视为图6的设置的变型，由此取向单元704是便携式设备(例如，智能电话)的一部分，该便携式设备具有可编程处理器和存储器，并且进一步装备有装置，例如可以被插入外部接口的附加设备，并且具有用于与左右入耳式麦克风705连接的一个或两个输入连接器以用于捕获抵达左耳和右耳的音频样本，被称为左右音频样本。由于嵌入有取向传感器单元704，因此处理器可以从传感器704读取或检索取向数据，并将所捕获的左右音频样本、以及对应的例如同时捕获的取向信息存储为存储器中的多个数据集。

图7的实施例的进一步优点在于，便携式设备与入耳式麦克风705之间的电缆可以短得多，这对于用户703来说舒适和方便得多，并且允许更大的移动自由度。如此捕获的音频信号通常还包含较少的噪声，因此可以以此方式增加SNR(信噪比)，从而最终得到经估计ITDF和HRTF的更高准确度。

如果第二步骤(即数据处理)也由便携式设备(例如，智能电话)执行，则只需要在智能电话上加载单个软件程序产品，并且不需要外部计算机。

图8是关于图7所描述的后一实施例的变型，由此第二步骤(即对所捕获数据的数据处理)由外部计算机801执行，但数据捕获的第一步骤仍然由便携式设备执行。所捕获的数据可从便携式设备例如经由有线或无线或者以任何其他方式传送到计算机。例如，便携式设备可将所捕获的数据存储在非易失性存储卡等上，并且用户可以在捕获完成之后从便携式设备中移除存储卡，并将其插入计算机801的对应插槽中。后两个示例都提供了以下优点：用户803具有很大的移动自由度，并且不受电缆的阻碍。无线变型具有不需要更换存储卡的附加优点。在图8的所有实施例中，需要第一软件模块来供便携式设备捕获数据、并存储或传送所捕获的数据，并且需要第二模块来供计算机801获取(例如，接收或检索或读取)所捕获的数据、并处理所捕获的数据以便于估计个性化ITDF和个性化HRTF。

以下章节A至G适用于捕获具体而言包括左音频、右音频和取向信息的数据集的所有硬件配置，但不限于图6至图8中所示的配置，除非另外特别说明。

在这些章节中，为了便于解释，将参考“啁啾”作为感兴趣的音频刺激的示例，但是本发明不限于此，并且也可以使用其他信号，例如如上所述的短纯音。

在这些章节中，将引用“智能电话”作为其中嵌入有取向传感器单元的便携式设备的示例，但是本发明不限于此，并且在一些实施例中(诸如图6中所示)，独立取向传感器单元604也可以起作用，而在其他实施例中(诸如图8中所示)，便携式设备需要具有至少音频捕获装置和存储器，而在另外实施例中(诸如图7中所示)，便携式设备进一步需要具有处理装置。

A.对音频和取向的同时捕获

重要的是左右音频样本(即经记录的刺激)和取向信息是对应的。理想情况下，左右音频信号是“同时采样”的(在时钟信号的容限裕度内)，但是对何时确切地测量取向数据存在某一容限。对于本发明重要的是，从取向单元获取的取向数据代表在与捕获音频样本大致相同时刻取向单元的3D取向，并且间接地也代表头部的3D取向(在取向单元和头部的相对取向将是已知的情况下)。作为示例，假设在捕获步骤期间头部轻缓地转动(例如，以小于每秒60°的角速度)，并假设声学刺激具有相对短的历时(例如约25ms)，则在声学刺激的开始还是结束时、还是在刺激期间从传感器检索取向数据并不重要，因为它会得到小于60°/40(约为1.5°)的角度取向误差，这是普遍可接受的。

B.硬件设置

在数据捕获期间，扬声器602、702、802与人603、703、803之间的距离优选地是在1.0到2.0m的范围中的距离，例如，在1.3到1.7m的范围中，例如，约1.5m，但不需要知道确切的距离。扬声器应当大致被置于房间高度的约一半。人的头部应当被置于与扬声器大致相同的高度。扬声器指向头部。假设约为20cm的头宽度，被置于1.5m距离处的源，则耳朵将离轴arctan(0.1/1.5)rad＝3.8°。

假设人的头部主要旋转(围绕头部的中心点)并且没有或仅仅最小程度地移位，则主瓣足够宽以在感兴趣的频率处充分包含头部，以使强度差有限。但是，如果头部的中心没有保持在完全相同的位置，本发明的方法也将很好地工作，如将进一步解释的(参见图27)。

在下面描述的示例中，使用单个扬声器，但是当然本发明不限于此，并且也可以使用位于空间中的不同点处的多个扬声器。例如，声音再现系统可以是立体声系统，从而将声学刺激交替地发送到左扬声器和右扬声器。

C.用于最终用户的可能规程

该规程优选地在相对安静的房间(或空间)中执行。可以向该人提供包含声学测试信号以及书面或听觉指令的音频CD。用户可以按所提到的次序或以任何其他次序来执行以下一个或多个步骤：

1.将扬声器放置在桌子的边缘(但也可以使用其他合适的位置)。配置声音再现设备(例如，立体声链)以使得只有一个扬声器产生声音(或者两者都产生声音，但不在同时产生声音)，

2.收听音频CD上的指令，该指令可例如包括用户必须改变他/她的头部取向的频度和/或速度和/或时间的指示，

3.将左入耳式麦克风插入左耳，并将右耳入式麦克风插入右耳，并将麦克风连接到智能电话(在图6中：连接到外部计算机601)，

4.在智能电话上下载合适的软件应用(通常被称为“app”)并运行该app(该步骤不适用于图6)，

5.将智能电话(或图6中的传感器)放置在头顶上，并例如使用专门设计的头带或另一紧固装置来固定其位置，以允许智能电话捕获和/或流送和/或记录任何头部取向和/或移动和/或位置。注意，智能电话可以被安装在相对于头部的任何任意位置和任何任意取向，

6.将自己置于(例如，坐或站)距扬声器约1.5±0.5m的距离处。确保房间足够大，并且在距扬声器和人约1.5m的半径内不存在墙壁或物体(以避免反射)，

7.当听到声学刺激(例如，啁啾声)时，在预定义时段(例如，5到15分钟，例如约10分钟)期间在所有方向上(例如，从左到右、从上到下等等)轻缓地转动头部。

在一些实施例中(参见图26)，优选头部的位置(X,Y,Z)应当保持不变，并且仅改变头部的取向(例如，相对于世界参考系的3个欧拉角)(参见图2)，以改变声音相对于头部的入射角。在一系列声学刺激(例如，啁啾)之间，可以给出关于如何移动的指导。例如，可以在某个时刻给出指令以使头部转动四分之一圈(90°)或半圈(180°))以使得来自用户“后方”的横向半球和声音也被采样。

在其他实施例中(参见图27)，允许用户坐在可旋转的椅子上，并且不需要将他/她的头部的中心保持在固定位置，而是允许用户自由地旋转椅子并自由地弯曲他的/她的颈部。显然，此类实施例对于用户来说方便得多。

8.在测试完成后，将要求用户从头部移除智能电话，并停止通过“app”捕获或记录。

随后例如在智能电话自身上计算个性化ITDF和个性化HRTF(参见图7)，在这种情形中，所捕获的数据不需要传递到另一计算机，或者在另一计算机上(例如，在云中)计算个性化ITDF和个性化HRTF，在这种情形中，所捕获的数据需要从“app”传递到计算机或网络。

要传送的数据量可以例如是约120MB(对于约11分钟的声学测试)。在约8Mb/s＝每秒1MB的无线传输速度下，这种传递仅需要约2分钟。

随后使用特定算法来计算IDTF和HRTF(如下面将解释的)，随后使所得到的IDTF和HRTF可用，并且例如在3D游戏环境或电话会议环境、或任何其他3D-虚拟音频系统应用中可供个人使用。

上述规程的许多变型是可能的，例如：

-在进行所有测量之前，所捕获数据的传输可以已经开始，

-部分计算可以在接收到全部所捕获数据之前已经开始，

-并非仅捕获数据，而是智能电话还可以分析数据(例如取向数据)以验证是否已经测量了所有方向，并且可以在其自己的扬声器上用对应的指令呈现例如适当的消息，例如以在特定方向上转动头部等等。

D.房间和声学测试信号

不同的测试刺激可被用于确定ITDF和HRTF。在一个实施例中，提出使用宽带刺激(本文被称为“啁啾”)，由此频率至少从1kHz变化到20kHz，本发明不限于此。可以选择更窄的频带，例如从4kHz到12kHz，因为在可听频谱的该部分中，HRTF变化最大(参见图4中的示例)。

传统上，使用相当长的信号(例如，约2到5秒钟)来执行HRTF测量。传统上，HRTF测量是在(半)消声室中执行的，其中墙壁覆盖有吸音材料，以使得墙壁和其他物体上的二次反射减少到最小。由于本发明的方法是在家中执行的，因此不能以此方式消除这些反射。替代地，使用刺激信号(例如，啁啾)，这些刺激信号要么具有足够短的历时以防止直接声音和反射声音(针对房间中的墙壁和/或物体)交叠(对于典型的房间)，要么具有较长的历时但具有频率扫描结构，该频率扫描结构允许区分经由“直接路径”传入的信号分量与经由间接路径(例如，反射路径)传入的信号分量。

假设在示例性布置中(参见图21)扬声器在1.40m的高度h_e，并且人头部在1.40m的高度h_x，并且人与扬声器之间的距离L为d＝1.4m，并且房间的高度至少为2.8m，以使得地面上的反射在天花板上的反射之前抵达，则直接路径与(地面上的)第一反射之间的行进距离的差是：

并且由此反射信号需要(1.7m)/(344m/s)＝约4.94ms的更久时间来抵达头部。

由此，通过采用具有短于4.94ms的历时(例如最多4.80ms、或最多4.50ms、或最多4.25ms、或最多4.0ms、或最多3.5ms、或最多3.0ms、或最多2.5ms、或最多2.0ms、或最多1.5ms、或最多1ms)的刺激信号，通过使用窗口掩蔽(这本身在现有技术中是已知的技术)可以容易地将直接信号与后续反射分开。

另一种策略将是利用频率扫描。刺激历时则可以长得多，大于10ms、大于20ms、大于30、大于40、大于50ms、大于60、大于100，这是由于直接信号和反射可以在时域中交叠，因为它们可以在频率-时间域(频谱图)中“分开”，参见图21和图22。

在下文中，将采取25ms的刺激历时，但是本发明不限于此，并且取决于房间特性，也可以使用短于或长于25ms的其他脉冲历时。还构想了音频CD上可以存在一个以上声学测试信号，并且用户可以取决于房间特性来选择最恰适的一个声学测试信号。

在每个刺激(例如，啁啾)之后，必需等待足够长的时间，以使得环境中的所有反射(混响)都被充分消除。该历时取决于腔室以及腔室中的物体。所谓的混响时间被定义为确保回声信号强度与原始信号相比已下降60dB所需要的时间。根据各个房间中的测试，确定约300ms的脉冲间时间满足需要，但是本发明不限于此，并且也可以使用大于或小于300ms的其他脉冲间时间，例如约100ms、例如约200ms、例如约400ms、例如约500ms、例如约600ms、例如约800ms、例如约1000ms的脉冲间时间。保持啁啾间时间尽可能小是有利的，以增加总测试时间期间(例如，约15分钟)的啁啾数目，或者换言之，以减少给定数目的啁啾的总测试时间。如果提供音频CD或DVD，则还可以提供具有不同脉冲历时和/或不同脉冲间时间和/或不同测试总历时的多个音频测试信号(例如，音频轨道)，并且该规程可以包括例如取决于执行测试的房间来确定合适的音频测试文件的步骤。音频CD上的一种可能实现是指令存在于第一音频轨道上，其中用户被告知不同的选项，并且由此用户可以取决于他/她的房间特性和/或期望的准确度(获得的样本越好，数据捕获和处理就可以越快，但预期得到的ITDF和HRTF越不准确)来选择恰适的测试信号。

后续刺激不需要相同，但可以在频率内容和/或历时上变化。如果后续刺激被选择成使得它们覆盖明显分开的不同频带，则这种测试信号设计将允许减少刺激间时间，并且因此缩短总数据获取时间。

在使用一个以上扬声器的实施例中(例如在立体声信号的情形中为两个扬声器)，每个扬声器位于空间中的不同点，并且每个扬声器呈现包括不同刺激(不同频谱和/或在扬声器之间交替(刺激/无刺激)的刺激)的不同声学测试信号(使用立体声输入)，以便能够在接收之际分开刺激并通过其起源的位置来标识扬声器。优点在于本发明对于大量的房间设置起作用，而不需要特殊的椅子或用于安装扬声器的特殊支撑件等等，不需要在数据捕获期间重新放置扬声器，不需要知道扬声器的确切位置，并且不需要知道扬声器的滤波特性。

E.测量头部取向

为了确定HRTF和ITDF，有必要知道相对于头部传送声音的方向，或者更确切而言：相对于如图2中所示的头部参考系，其中头部的中心位于两耳之间的中间点，一个轴与耳-耳轴重合，一个轴取向到头部的“前方”，并且一个轴取向到“上方”。

根据本发明，可以通过利用取向单元201来获取相对于头部的源(扬声器)方向，该取向单元201包括一个或多个取向传感器，例如，加速度计(主要测量相对于重力轴的取向)、陀螺仪(测量旋转移动)、磁力计(测量相对于地球磁场的角度)，但也可以使用其他取向单元或取向传感器。在发明人的观点中，该解决方案并非微不足道，因为取向单元提供该取向单元的取向信息，而不是头部的取向信息。根据本发明的原理，在数据捕获步骤期间，取向单元201被固定地安装到头部，但取向单元201相对于头部参考系的确切定位和/或取向不需要事先知道，虽然如果知道关于其取向的一些先验知识，则可以使用该先验知识来确定相对于头部的源方向。本发明的各实施例的优点在于，所给出的方法能够在用户不必执行物理测量或特定的取向测试等等的情况下确定源方向。

本发明的优点在于，取向传感器单元的潜在不准确性不仅可以通过依赖于从取向传感器获取的取向信息来解决，而且还可以通过在确定头部取向时将音频信号纳入考虑来解决，如下面在描述算法时将进一步详细解释的。

有利的是，头部移动由人自己以比图5中所示的现有技术自由且方便得多的方式来执行。此外，在本发明的一些实施例中，人不会受到从入耳式麦克风行进到外部计算机的电缆的阻碍。

本发明与来自相同发明人的共同未决申请PCT/EP2016/05320之间的重要区别在于，在前一申请中，发明人认为取向单元对于提供可靠的取向数据不是充分准确的。确实，由设想的取向传感器提供的瞬时取向数据有时在滞后或“中断(hick-up)”发生的意义上是不准确的，并且磁场感测在所有取向和环境中不是同等敏感的。前一申请的基本思想是来自所捕获的音频数据的空间提示可以帮助改善取向数据的准确度，可以使用“通用”ITDF和/或HRTF函数来提取该空间提示，这进而又是一旦找到个性化ITDF和个性化HRTF的“第一版本”就迭代算法的原因，因为随后可以使用个性化ITDF和/或个性化HRTF来重复计算，从而产生更准确的结果。

本发明部分地依赖于两个洞察：

1)不需要使用空间提示来改善从取向单元获取的原始取向数据的准确度或校正该原始取向数据，并且由此也不需要使用预定义的ITDF(例如，通用ITDF)和/或预定义的HTRF(例如，通用HRTF)来提取那些空间提示；以及

2)对源方向(相对于世界)和将智能电话参考系映射到头参考系的变换的联合估计可以被划分成连续执行的两个更简单的估计问题。这允许将搜索问题从在5维搜索空间(用以指定源方向的2个角度+用以指定智能电话-头部变换的3个角度)中执行的搜索问题重新制定为两个更简单的问题，首先求解2维搜索空间(用以指定源方向的2个角度)中的问题，并且后续使用这些结果求解三维搜索空间(用以指定智能电话-头部变换的3个角度)中的问题。该办法因以下事实而是可能的：测得/计算的ITD和/或频谱信息在被指派给不正确的源方向时在被映射到球体上时产生ITDF和HRTF的完全失真的“图像”，该“图像”具有许多高阶分量，非常不同于图3和图4中所示的相对连续或相对平滑的图。本发明通过使用经映射ITDF和/或HRTF的“平滑度”作为质量准则来利用该洞察，以首先找到相对于世界的源方向。将进一步描述算法的确切细节，但是这种质量准则的使用是本发明的基本思想之一。简单来说，它归结为找到如下源方向，针对该源方向球体上的经映射IDTF和/或HRTF比所有其他可能的源方向“看起来更平滑”。注意，也可以使用基于ITDF和/或HRTF的其他特定属性的其他质量准则，例如，ITDF相对于矢状面的对称性(除符号外)、ITDF围绕耳-耳轴的圆柱形对称性。给定源方向(相对于世界)，则寻找智能电话-头部变换减少到3维搜索空间中的搜索问题。通过首先确定耳-耳轴(相对于智能电话)并最后确定围绕耳-耳轴的旋转角可以进一步细分该3维搜索。

这种洞察的重要优点(即“经映射ITDF和/或经映射HRTF的平滑度”可以用作寻找(最可能的)源方向的质量准则)是重要的洞察，尤其是因为(1)它允许可以在不使用其他人的ITDF和HRTF(或通用ITDF和/或通用HRTF)的情况下确定特定人的ITDF和HRTF，以及(2)因为它在计算复杂度和计算时间方面提供巨大优势。为了给出理念，使用根据本发明的方法，在具有例如2.6GHz处理器(anno 2016)的标准膝上型计算机上使用非最佳代码来确定ITDF和HRTF所需的计算仅花费约15分钟，甚至不需要尝试优化代码。

构想了可以找到量化球体上的经映射或经绘制或经呈现的ITDF和/或HRTF数据的“平滑度”的若干种方式，本文将参考图31来描述其中两种方式。在一个实施例中，扩展所测得的HRTF数据在实球谐函数(SH)中扩展，实球谐函数是与傅立叶基函数类似的基函数，但是在球面上定义。类似于傅立叶基函数，实SH基函数具有低l值对应于更缓慢变化的基函数的性质，参见图26(a)。因此，这意味着：如果HRTF以截断的基(其仅包含最多至所选择或预定义最大阶数L(l<L)的基函数)表示，则有效地应用了仅允许缓慢空间变化的低通滤波器。

所选择的L值越高，基扩展包括的空间“细节”就越多。因此，为了量化“平滑度”，首先估计在某个所选L处截断的SH基的HRTF扩展的和系数(分别对应于在所选方向r上频率f处的右耳和左耳HRTF)。接着，计算测得数据点与获得的HRTF扩展之间的平方差(其中在所有测量方向和所有测量频率上计算总和)：

该误差现在量化了缓慢变化的基函数的基扩展到什么程度足以描述在球体上测量的HRTF中存在的空间图案。误差越小，仅使用缓慢变化的基函数来近似声学数据越好，并且因此，HRTF模式越平滑。因此，该误差可用作质量准则。

还可以定义其他平滑度准则。例如，还将选择下式：

或者

还可以使用除欧几里德范数之外的其他范数，例如一般p范数或绝对值范数。

F.硬件

返回参考图6至图8。虽然并非所有智能电话都允许经由立体声或两个单声道输入连接器来捕获或记录立体声音频信号，但存在扩展，这些扩展允许经由USB端口(例如市售的“TASCAM iM2Channel Portable Digital Recorder(TASCAM iM2通道便携式数字记录器)”)进行立体声记录。虽然该扩展具有不能被插入耳朵的麦克风，但是该示例表明技术可以用于制作这种专用扩展，例如通过移除麦克风并提供其中可以插入入耳式麦克风的两个音频连接器。这仅是可以在图7和图8的实施例中使用的可能便携式设备的一个示例。

用于确定便携式设备的取向信息的技术也可用。例如，考虑“传感器融合应用”。该应用表明，用于从具有嵌入式取向传感器(诸如举例而言，加速度计(用于主要测量相对于重力轴的取向)、陀螺仪(用于测量旋转移动)和/或磁力计(用于测量相对于地球磁场的方向))的便携式设备检索取向信息的技术是可用的。

G.向计算装置提供所捕获的数据

在捕获和/或记录和/或流送来自麦克风的左右音频信号(也被称为双耳音频数据)和对应的头部取向(来自取向单元，尽管取向单元与头部之间的确切关系还是未知的)之后，对所捕获数据的处理可以由便携式设备(例如，智能电话)本身中的处理器执行，或者在传送或流送或以任何其它方式(例如，经由可更换的存储卡)提供数据的远程计算机上执行(例如，在云中，或在桌面或膝上型设备或游戏控制台上)。

III.数据处理

将参考图9至图16更详细地解释本发明的数据处理步骤。

图9是解说了要估计的未知变量的示意图。换言之，该图解说了要通过本发明的各实施例中使用的算法的数据处理部分来求解的问题。

如从图9中可以看出，个性化(或个体化)ITDF和个性化(或个体化)HRTF不是唯一要确定的变量集。数据获取期间的头部取向在如图6至图8中所示的设置中是未知的，这是因为，即使确定了取向单元201自身的取向(主要基于取向传感器)，取向单元201相对于头部参考系的取向也不是确切已知的，并且因为，仅仅基于在每个特定啁啾期间检索或获取的个体传感器信息，头部取向在接收到每个声学刺激时(例如，在每个啁啾)可能不是确切已知的，因此被认为是未知的。另外，声源的方向(相对于头部参考系)是未知的。另外，扬声器和麦克风组合的频谱特性可能是未知的，这是因为用户可以使用任何可用的扬声器。入耳式麦克风的传递特性可以是事先已知的，尤其是当入耳式麦克风例如与CD一起在包装中出售时，但即使如此，扬声器的参数也是未知的。在已知扬声器和麦克风的传递特性的情况下，算法可以使用该特性，但这不是绝对必要的。

已发现，除非将所有数据一起组合和估计(在“依赖于彼此”的意义上)，否则不能以足够的准确度来估计该大量未知变量。这是本发明的另一有利方面。例如，源自(诸)取向传感器(例如被嵌入在智能电话中)的各个原始取向和移动数据可能不允许以足够的准确度来确定各个智能电话取向并因此确定头部取向，尤其是因为智能电话相对于头部的位置/取向并不是完全已知的，并且另外，因为在给定取向传感器的各个测量的有限准确度的情况下可能很难准确地估计头部取向。

主要差异：

在发明人在“在先申请”中提出可任选地提取左右音频数据中所包含的取向信息的情况下，该原理不依赖于本发明，至少对于确定个性化IDTF和个性化HRTF的第一版本，尽管在算法的某些步骤的第二次或进一步迭代中仍然可以考虑该数据。替代地，本发明所依赖的关键特征是扬声器的方向(相对于世界)可以通过最大化优选地与“平滑度度量”相关的预定义质量值来找到。

并且可任选地，如果从取向单元获取的取向信息的准确度不足，则可以通过依赖头部的平缓移动来进一步改善取向数据的准确度和/或可靠性。这允许例如通过在与不是“相邻啁啾”而是例如隔开2或3个啁啾历时的啁啾相对应的两个取向之间内插来生成或校正取向信息，因此可以改善由于例如“中断”或由于滞后、或由于取向单元在特定方向上的低灵敏度引起的不正确的原始取向数据。

总之，认为本发明最重要的优点如下：

-该方法可以在家由几乎任何用户应用(无需特殊房间，因此需要特殊技能)；

-用户除了一对入耳式麦克风和音频测试文件以及用于将智能电话连接到头部的带之外不需要特殊装备(假设几乎每个用户都具有智能电话和/或膝上型设备)；

-该方法非常稳健(不需要知道或测量扬声器相对于头部的相对位置、智能电话相对于头部的相对取向)；

-用户几乎可以自由移动，并且不必遵循特定的模式(但空间应当充分地被采样)；

-(最后但并非最不重要)降低计算复杂度。

图9中所示的未知变量可以迭代地优化，以使得由此获得的解与所捕获的数据集最佳地对应。在讨论图11时将更详细地解释这一点。

在多个扬声器的情况下(例如在立体声信号(或两个同步的非交叠单声道信号)的情况下两个扬声器)，得益于对所应用的声学测试信号的选择，经记录的刺激可以被标识为源自各扬声器中的一者，并且因此获取两个分开的数据集，每个数据集与各扬声器中的一者对应。这些数据集随后可以一起用作算法的输入，以估计适当的扬声器的方向，以及图9中所示的问题的其他未知变量。一个人具有两个不改变位置的“参考点”的事实可改善头部取向的估计，并且因此改善ITDF和HRTF的估计。

算法(高级)：

图10示出了本发明所提出的算法的前两个步骤。

在第一步骤1011(进一步也被称为“步骤a”)，获取多个数据集，每个数据集包括左右音频样本和对应的取向数据。

“左音频片段”和“右音频片段”意指由左或右入耳式麦克风接收的音频波形中与由扬声器发送的特定声学刺激(例如，“啁啾”)相对应的部分。

注意，数据集可以以许多不同的方式被“获取”和/或“捕获”和/或“存储”在存储器中，例如作为单个交织的文件或流，或作为三个分开的文件或流(例如，第一个包含左音频样本，第二个包含右音频样本，并且第三个包含取向数据，由此每个文件可以包括例如时间戳形式的同步信息)，或作为各个数据分组，每个数据分组包含左音频样本、和右音频样本以及相对于固定到世界的参考系的取向数据，但是其他方式也是可能的，并且本发明不限于这些方式中的任何方式。

取决于哪个硬件设备执行数据捕获，以及哪个硬件设备执行计算(例如，独立计算机、或网络计算机、或智能电话、或任何其他计算装置)，“获取”可以表示：例如经由有线或无线接口“接收”由另一设备(例如，由智能电话，参见例如图8)捕获的数据，或从可更换存储卡(数据由捕获设备存储在该可更换存储卡上，并且该可更换存储卡随后连接到计算设备)“检索”或“读取”数据，或以任何其他方式进行数据传递。但是，如果捕获数据的设备与将执行计算的设备相同，则“获取”可表示直接或间接地“捕获数据集”，并且不需要将捕获的数据传输到另一设备。由此清楚的是，针对数据处理的方法或计算机程序产品不一定也必需捕获数据。

在第二步骤1012(本文也被称为“步骤b”)，将数据集存储在存储器中。存储器可以是非易失性存储器或易失性存储器，例如，RAM或FLASH或存储卡等等。通常，所有数据集将被存储在存储器中，例如存储在RAM中。构想了100MB到150MB(例如约120MB)的存储器足以存储所捕获的数据。

为了便于描述，假设取向单元存在于智能电话中，并且仅存在一个扬声器，但是本发明不限于此，并且也可以使用其他取向单元和一个以上扬声器。

图10是根据本发明的方法1000的第一实施例的流程图表示。出于解说性目的，为了不使用大量箭头来使图10和图11过载，该流程图应被解释为具有可任选的迭代或重复(右侧向上箭头)的步骤1001至1005的序列，其中步骤1004是可任选的，然而尽管未明确示出，但是提供给“先前”步骤的数据也可用于后续步骤。例如，取向传感器数据被示为框1001的输入，但也可用于框1002、1003等等。同样地，框1001的输出不仅可用于框1002，还可用于框1003等等。

在步骤1001，针对每个音频片段来估计相对于世界的智能电话取向(例如，以3个欧拉角表达)。该步骤的示例在图13中更详细地示出。该步骤可以可任选地考虑双耳音频数据以改善取向估计，但这不是绝对必需的。简单来说，该步骤的主要目的是要针对每个音频片段来确定智能电话的未知取向。

随后，在步骤1002，确定相对于世界的“源方向”，不包括符号(或上面讨论的“感觉”)。该步骤的示例在图14中更详细地示出。简单来说，该步骤的主要目的是针对每个音频片段来确定扬声器的未知方向(在世界坐标中)。

随后，在步骤1003，确定“智能电话相对于头部参考系(参见图2)的取向以及相对于世界的“源方向”的符号(或上面讨论的“感觉”)。在图15中更详细地示出了该步骤的示例。简单地说，该步骤的主要目的是要确定智能电话针对头部的未知取向。

随后，可任选地，在步骤1004，可估计相对于世界的头部中心位置。如果假设头部中心在测量期间不移动，则可以跳过步骤1004，其中两个示例将在图26和27中描述。在图26的“简单模型”的情形中。

随后，在步骤1005，估计个性化ITDF和个性化HRTF。简单来说，该步骤的主要目的是要提供IDTF函数和HRTF函数，该IDTF函数和HRTF函数能够为相对于头部的每个源方向、并为在测试期间未明确测量的源方向提供值。

将在附录中描述该实施例1000的示例。

发明人认为，步骤的特定顺序(用于获取相对于头部的声音方向而不实际施加它或测量它，而是相比之下使用可以进一步在任意方向上取向的智能电话)以及为步骤1002提出的特定解并非微不足道。

图11是图10的变型，并且示出了根据本发明的方法1100的第二实施例。图11的方法1100和图10的方法100之间的主要区别在于：步骤1102还可以考虑智能电话位置/取向的先验信息，如果该先验信息是已知的话。这可以允许在步骤1102估计源的符号。

图10中提到的所有其他内容也适用于此。

图12示出了方法1200(即，各步骤的组合)，该方法1200可被用于基于取向传感器数据和双耳音频数据来估计相对于世界的智能电话取向，如可以在图10的方法的步骤1001和/或图11的方法的步骤1101中使用的那样。

在步骤1201，从取向单元的一个或多个传感器获取或读出或以其他方式获取传感器数据，例如来自磁力计的数据和/或来自加速度计的数据和/或来自陀螺仪的数据，并且优选地所有这些数据。

在步骤1202，在给定时间区间上确定智能电话取向的轨迹，例如通过最大化磁力计数据、加速度计数据和陀螺仪数据之间的内部一致性。

在步骤1203，确定(例如，从双耳音频数据中提取)每个耳朵中的音频片段(例如，啁啾)的抵达时间。

在步骤1204，在等于双耳中对应啁啾的平均抵达时间的时刻估计智能电话的取向(相对于世界)。

图13示出了用于估计相对于世界的源方向的示例性方法1300，如可以在图10和图11的步骤1002和/或步骤1102中使用的那样。或者更具体而言，所估计的是经过扬声器并且经过头部中心在所有测量上的“平均位置”的虚拟线的方向，但没有指向这条线的任何一端的“符号”。换言之，位于该虚拟线上的矢量将从平均头部中心位置指向扬声器、或者指向相反方向。

在步骤1301，从双耳音频数据中提取ITD信息，例如通过计算(与由扬声器发射的啁啾相对应的)音频片段抵达左耳和右耳的时刻之间的时间差。ITD数据可以被表示为值ITD[i](对于i＝1到m)的数组，其中m是啁啾的数目。m也等于每只耳朵捕获的音频片段的数目。在步骤1301，还从左右音频样本中提取双耳频谱数据。对于i＝1到m，频谱数据Si(f)可以例如被存储为数据的二维数组，参见例如作为该数据的图形表示的图23(a)和图23(b)以及图24(a)和图24(b)。

步骤1302、1303、1304、1305和1306形成多次执行的循环，每次执行针对不同的“候选源方向”。在循环的每次迭代中，“候选源方向”被用于将ITD数据的值(针对所有啁啾或其子集)映射到球面，和/或被用于将一个或多个特定频率的频谱值映射到一个或多个其他球面。并且对于这些映射中的每一者，由此对于每个“候选源方向”，基于预定义质量准则来计算质量值。

在优选实施例中，质量准则与经映射数据的平滑度相关或指示该平滑度。该方面将在讨论图26时更详细地描述。

循环重复若干次，并且在步骤1307选择获取最高质量值的“候选源方向”作为“源方向”。实验已表明，这样找到的源方向对应于真实的源方向。就发明人所知，这种寻找源方向的技术在现有技术中是未知的，但提供了若干重要的优点，诸如举例而言：(1)事先不需要知道源方向，(2)可以基于所捕获的数据相对准确地确定源方向，以及(3)可以相对快速地找到源方向，尤其是在使用巧妙的搜索策略的情况下。

可以使用以下搜索策略，但是本发明不限于该特定搜索策略，并且也可以使用其他搜索策略：

a)在第一系列迭代中，为预定义的一组(例如8到100个，例如约32个)候选源方向确定质量因子，以便得到在最佳候选的附近找到良好起始点的大致概念。计算针对该预定数目的候选的质量因子，并且选择提供最高质量因子的位置作为第二系列迭代的起始点。

b)在第二系列迭代中，以小步长来调整候选源方向，例如通过测试八个附近方向，这些方向具有略微不同的仰角(例如，当前仰角-5°，+0°或+5°)和/或稍微不同的侧角(例如，当前侧角-5°，+0°或+5°)，从而得到八个新候选，对这些新候选进行评估并选择最佳候选。

c)重复步骤b)直至质量因子不再增加，

d)以较小的步长(例如(-1°，+0°和+1°))重复步骤b)，直至质量因子不再增加。

测试已表明，收敛可以相对较快，例如在约2.6GHz时钟频率的标准膝上型设备上需要不到1分钟。

图14示出了用于确定智能电话相对于头部参考系的取向的方法1400，如可以在图10的框1003和图11的框1103中使用的那样，但是本发明不限于此，并且也可以使用其他方法。

步骤1401与步骤1301相同，但是出于说明性目的而示出。当然，由于之前已经执行了步骤1301，因此不需要再次执行，而是可以重新使用数据。

在步骤1402，基于智能电话取向(相对于世界)和符号不定的源方向(相对于世界)以及ITD和/或频谱信息，相对于智能电话参考系来估计耳-耳轴的取向。在附录中描述的实施例中，仅使用ITD数据，但是本发明不限于此。

随后可以在步骤1403使用耳-耳轴的取向(相对于智能电话)，连同单耳或双耳频谱信息、补充有相对于世界的智能电话取向、以及相对于世界的源方向(除符号外)，以估计头部相对于智能电话参考系的正面方向，从而得到智能电话相对于头部的取向，并且得到相对于世界的源方向的“符号”。

图15示出了用于确定头部中心相对于世界的位置的方法1500，如可以在图10的可任选框1004和图11的框1104中使用的那样，但是本发明不限于此，并且也可以使用其他方法。

在步骤1501，提取对应的左右音频片段的抵达时间。

在步骤1502，使用这些抵达时间来估计头部中心与源之间的距离变化。

在步骤1503，可使用该距离变化来估计头部/椅子力矩的模型参数，例如图31中所示的模型的参数(如果使用该模型的话)。如上面提到的，该模型是可任选的，但在使用时，可以提供更准确的数据。

在步骤1504，随后可以基于用相对于世界的头部取向和源方向来补充的机械模型参数来估计中心头部位置。

图16示出了用于确定HRTF和/或ITDF的方法1600，如可以在图10的框1005和图11的框1105中使用的那样，但是本发明不限于此，并且也可以使用其他方法。

在步骤1601，基于世界中的源方向和头部取向(如果可用的话，用头部位置和关于至源的距离的先验信息来补充)来估计相对于头部的源方向。

步骤1602与步骤1301相同，但是出于说明性目的而示出。当然，由于之前已经执行了步骤1301，因此不需要再次执行，而是可以重新使用数据。

在步骤1603，根据相对于头部的声音方向，通过将截断的基的球谐系数分别最小二乘拟合到被投影在球体上的ITD数据和频谱数据(基于每个频率)来估计ITDF和HRTF。

图18示出了如可以在本发明的各实施例中使用的可任选附加功能性的流程图。

在最简单的设置中，在扬声器上呈现包含声学测试信号(一系列声学刺激，例如啁啾)的声音文件，并且由智能电话收集数据。包括用于对象的口头指令可能是有益的，以引导他或她完成实验，从而改善数据收集。这些指令可以被固定(例如被预定)作为要通过扬声器呈现的预先记录的声音文件的一部分，或者，另一种可能性是在计算设备(例如，智能电话)上在一定程度上实时地处理数据收集，并向用户提供即时或中间反馈，例如以便改善数据获取。这可以通过图18中概述的包括以下步骤的过程来实现。

在第一步骤1801，智能电话捕获、存储和检索取向传感器数据和双耳音频数据。

在第二步骤1802，在智能电话上(至少部分地)实时处理测得的数据。可以针对多个数据集提取来自左右音频样本的定时信息和/或频谱信息。基于该信息，可以评估信号的质量和实验设置(例如，接收到的与回声交叠的信号的信噪比等等)。还可以针对捕获的样本的子集提取取向信息(准确的或近似的)，由此算法进一步验证头部周围的空间是否以足够的密度被采样。基于该信息，可以标识问题，并且算法可以从一组预定义的音频消息中选择用于改善数据收集的指令(例如，口头指令)，例如，确保天花板足够高、确保半径1.5m内没有反射物体、增加/减小扬声器音量、使用不同的扬声器、更缓慢地移动头部、向左转四分之一并从左到右移动头部等等。

在第三步骤1803，通过智能电话的扬声器实时传达这些指令。

在第四步骤1804，人对这些指令作出反应，该人的动作反映在双耳音频数据和智能电话传感器数据的后续记录中，如在第一步骤1801获取的。

在第五步骤1805，根据前面描述的方法，使用所收集的数据来估计HRTF和ITDF。

图18解说了从被固定安装到头部的取向单元捕获取向信息。取向单元可被嵌入智能电话中，但是本发明不限于此。

图18(a)到图18(c)示出了如可以从被固定安装到机器人头部1802的取向单元1801获取的原始测量数据的示例。

在所示出的示例中，可从“Phidgets公司”(加拿大)商业可获取的惯性测量单元(IMU)“PhidgetSpatial Precision 3/3/3High Resolution(PhidgetSpatial精度3/3/3高分辨率)”被用作取向单元，但是本发明不限于此，并且也可以使用能够提供从中可以推导出3D空间中的唯一性取向(例如，以相对于地球磁场和地球重力场的角度的形式)的取向信息的其他取向单元。该IMU具有若干取向传感器：加速度计、磁力计和陀螺仪。由在图18(a)到图18(c)中示出了由这些传感器中的每个传感器提供的示例性数据波形。该信息由计算设备(图19中未示出)经由电缆1904读出。IMU测量的采样周期被设置为16ms。

在实验中，使用来自所有三个传感器的数据，因为这提供最准确的结果。IMU的经估计取向可以以所谓的四元数的形式来表示，参见图18(d)。IMU取向是使用批处理方法每100ms进行估计，该批处理方法不仅利用瞬时数据来估计IMU的取向。

图18(e)示出了在评估期间使用的机器人设备1903。将具有类似于人的耳朵的假头1802安装到机器人装置1803以用于模拟头部移动。取向单元1801被固定地安装到头部，在该示例中被安装到头顶上，但这不是绝对必需的，并且当取向单元被安装到任何其他任意位置时，本发明也将起作用，只要该位置在实验期间固定。此外，取向单元的取向不需要与头的前部对齐，这意味着例如允许取向单元的“前侧”指向左耳、或右耳、或头的前部、或背部，这无关紧要。细心的读者将记得，图14的方法可以计算取向单元1801相对于头部1802的取向。

在该实验中，机器人设备被编程为根据预定义(已知)模式移动头部。测试结果显示实际头部移动与测得的取向之间的良好一致性(<3°)。由于类似的取向传感器现在被嵌入智能电话中(并且例如用于取向应用中)，因此构想被嵌入智能电话中的传感器可以用于获取此类取向信息。即使每个个体测量的取向将不是完美的(例如，如果在其中一个传感器中发生了拾取)，也可以通过使用其他传感器信息和/或通过内插(采取轻缓的头部移动)和/或通过考虑来自捕获的音频数据的空间信息来容易地检测和/或校正该取向。后一种可能性纯粹是可任选的：本发明的一些实施例将仅使用从取向单元获取的取向信息(而不使用来自所捕获的音频的空间信息)。本发明的其他实施例将使用来自取向单元的取向信息和从所捕获的音频中提取的空间信息。实验已表明，可能不需要后者。

图20(a)到图20(a)是在数据获取步骤(意指捕获音频数据和取向数据)期间进行轻缓头部移动的人的一些快照。

在所示出的示例中，该人坐在可旋转的椅子上并在约10分钟的时间段内在“许多不同方向”上轻缓地(即，不突然地)移动他/她的头部，同时扬声器发射声学信号(图20中未示出)，该声学信号包括多个声学测试刺激，例如短哔声(beep)和/或啁啾。

在图20中所示的图像序列中，示出了花费约3秒钟的轻缓头部移动的轨迹。

重要的是，该人不需要遵循特定的轨迹，而是可以自由地移动他/她的头部，这使得数据获取步骤对于用户来说非常方便。意图是基本上在球体上的“所有可能方向”上转动头部，以允许确定来自人头部周围的虚拟球体中的任何点(例如，来自前方、来自右方、来自左方、来自上方、来自下方、以及其间的所有位置)的声音的ITDF和HRTF。当然，由于人体的物理限制，球体的某些区域不会被采样。

在图20中所示的例子中，该人坐在可旋转的椅子上，这对于用户来说非常方便。本发明的各实施例在确定平均头部位置时可以考虑这一点，如将在图31中进一步描述的。然而，本发明不限于此，并且还可以在用户坐在静止的椅子上、或者坐在他/她的膝盖上或直立时获取数据。在这些情形中，本发明的各实施例采取在数据捕获期间头部的中心位于固定(虽然未知)的位置，但是能够围绕头部的中心旋转。

图20示出了在数据捕获步骤期间坐在典型房屋的典型房间2000中的椅子上的人的典型布置。房间2000具有位于在地板上方高度“hc”(通常在2.0到2.8m的范围中)的天花板。扬声器2002以高度“he”(例如等于地板上方约80到120cm)位于房间中。人的头部2001位于地板上方的高度“hx”(例如约120到160cm)，并且距扬声器的距离为“d”，通常相隔约1.0到2.0m。

本发明的优点在于，这些值“he”、“d”、“hx”或任何相关联的角度(特别是扬声器相对于人的头部的相对取向)不是也不需要事先知道，并且不需要使用某种测量来“校准”，而算法仍然可以基于双耳音频数据、或从被固定地安装到头部并且在任意位置和取向上的取向单元获取的取向信息或数据来确定或估计相关的“源方向”，这是ITDF和HRTF的关键。

图21解说了作为用于估计ITDF和HRTF的示例性声学刺激的所谓“啁啾”的特性，但是本发明不限于该特定波形，并且也可以使用其他波形，例如具有线性增加频率的啁啾、或具有非线性减小频率的啁啾、或具有阶梯形式的频率分布的啁啾、或甚至纯音。将针对图21中所示的啁啾来描述本发明。

在说明书末尾的附录中描述了在考虑典型房间的一些特性的情况下可以如何设计合适的啁啾、以及两个啁啾之间的合适时间区间是多少的一些方面，但是为了理解本发明，应知道每个啁啾具有预定义的历时“T”(通常是25到50ms范围中的值)满足需要。啁啾可以包括从第一频率fH到第二频率fL(例如从20kHz到1kHz)的线性频率扫描。如附录中所描述的，这允许以等于约300Hz的频率分辨率δf来测量IDTF和HRTF。

图22解说了提取啁啾的抵达时间和频谱信息所采取的可能步骤。

图22(a)示出了针对包括四个连续啁啾(每个啁啾具有约25ms的历时，其中啁啾间区间为275ms)的音频测试信号由左入耳式麦克风捕获的音频信号的频谱图。该频谱图是以本领域本身已知的方式，在对左或右音频样本进行合适加窗之后应用快速傅立叶变换而获取的。图21还示出了回声信号是发射信号在针对房间的各部分(例如，地板和天花板)或针对房间中存在的物体的一次或多次反射之后的衰减版本(混响)。本发明的各方法优选地仅对“直接信号部分”起作用。

图22(b)示出了“经整流的”频谱图，即，当补偿啁啾中已知的频率相关的定时延迟时。

图22(c)示出了左右音频信号的经求和强度，基于该强度可以确定啁啾的抵达时间。

图23示出了针对包括四千个啁啾的示例性音频测试信号的从左音频信号提取的频谱(图23a：左耳频谱)和从右音频信号提取的频谱(图23b：右耳频谱)、以及耳间时间差(图23c)的示例。

图24更详细地示出了图23的频谱和ITD数据的一部分。

图25至图30用于解说本发明的重要基本原理。它们主要涉及图13中所示的用于估计相对于世界的源方向的方法1300，该源方向可以通过根据预定义质量准则最大化预定义的质量值来迭代地找到。

在优选实施例中，质量准则与“平滑度度量”相关，但是也可以使用其他质量准则，诸如举例而言似然函数，其中某些特征或特性的似然性可以从被映射到球面上之后的双耳音频数据中提取或推导出，其中映射基于所采取的源(扬声器)相对于世界的方向，并且其中音频数据与同样相对于世界的取向信息相关联。

首先图25，图25(a)是在采取随机(但不正确)的源方向的情况下将4000个啁啾(参见图24)的ITD值映射到球面上的示例。如在图27(a)中可以看到，明亮区域存在很多“暗点”，并且“灰暗区域”中存在“亮点”，或者换言之，表面具有高度的不规则性、不连续性、不会逐渐变化、不光滑。所有这些表达都与“平滑度”有关，但它们可以以不同方式来表达或计算。

相比之下，如果基于正确的源方向(相对于世界)完成映射，如图27(b)中所解说的，则形成一表面，该表面变化连续得多、平滑得多、具有更少的不规则性、变化不那么突然等等。读者应当忽略对应于没有实际数据可用的方向或者换言之未被映射到表面上的纯白区域。

如上面解释的，发明人提出通过针对多个候选源方向测试质量(例如，连续性程度、突然变化程度、平滑度)并选择产生最高质量值的该候选源方向来实现利用该效应来“找到”源方向的理念。

图25示出了错误采取的源方向对ITD测量的投影表面的平滑度的不利影响。

图25(a)示出了使用随机(但不正确)的源方向将图23的四千啁啾的ITD数据映射到球面上，从而得到具有高度不规则性或低平滑度的函数。

图25(b)示出了使用正确的源方向将图23的四千啁啾的ITD数据映射到球面上，从而得到具有高度规则性或高光滑度的函数。

图25(c)和图25(d)示出了错误采取的源方向对从啁啾获取的频谱数据的平滑度的影响。在该示例中，使用8100Hz处的频谱信息，但也可以选择另一频率。如可以看到，图27(c)的表面高度不规则，而图27(d)的表面“平滑”得多。

构想可以使用许多不同的方式来表达连续性或平滑度，本文被称为“质量值”。

在本发明的优选实施例中，通过计算经映射ITD或频谱值与经映射数据的空间低通滤波版本(其可以被视为“参考表面”)之间的“总距离”来确定平滑度。构想已知的滤波技术可用于此目的。重要的是要注意，如此获得的“参考表面”不是预先确定的，并且不是从IDT或HRTF数据库推导出的，而是从所捕获的数据本身导出的，换言之，参考表面也被个性化。

图26解说了用于基于通过有限数目的正交基函数的级数来近似表面(特别是通过限制该级数的最大阶数)来确定“参考表面”的一种特定方式。

在优选实施例中，正交基函数是“球谐函数”。

图26(a)示出了这些基函数的图形表示，以给出球谐函数的外观。熟悉图像处理技术的读者将认识到与傅里叶级数的相似性，但现在基函数在球体上定义。对于范围5到15之间(例如，10)的阶数，发现了良好的结果。阶数的值似乎并不重要。

参考图27(a)，在确定产生该表面的“候选源方向”的“品质因数”或“平滑度值”时，首先为该表面确定“参考表面”，例如通过用具有阶数＝10的球谐函数的级数来近似表面。

接着，在经映射的测量数据与(平滑的)参考表面之间计算“总距离”，作为针对所有测量(由此针对每个啁啾)的差的平方和。可以使用任何合适的“距离准则”或“距离度量”，例如：

d1＝实际数据与参考数据之间的差的绝对值，或

d2＝实际数据与参考数据之间的差的平方，或

任何其他合适的距离准则。参考附录以获取更多详情。

图26(b)示出了量化球体上定义的函数(例如，ITDF，其可以用作平滑度度量准则)的平滑度的技术。

图27(a)针对被显示在球体上的两千个候选“源方向”示出了根据图图26(b)中定义的平滑度度量(当其被应用于ITD值时，其中球谐阶数被设置为5)的平滑度值(以灰色阴影示出)。在图27(b)中调整灰度级。从该图中可以清楚地看出，球体上的平滑度值达到了明显的最小值，并且因此相对于世界的源方向可以定位在该方向(或球体上的点)上。虽然在该图中不可见，但表示平滑度值的表面呈现镜像对称性，并且局部最小值也位于球体的相对侧。这解释了为什么只能估计1002和1300中的源方向，而不是符号。还要注意，至少在该特定示例中，表示平滑度值的表面不具有其他局部最小值，从而大大简化了搜索。

图28(a)示出了当将平滑度准则应用于双耳频谱时所指示的平滑度值，其中球谐函数的阶数被设置为5，球体上显示的每个坐标的平滑度值是针对范围从4kHz至20kHz、步长为300Hz的每个频率的平滑度值的总和。在图28(b)中调整灰度级。可以得出与图27(c)中类似的结论。

图29(a)示出了当将平滑度准则应用于双耳频谱时的平滑度值，其中球谐函数的阶数被设置为15。在图29(b)中调整灰度级。可以得出与图27(c)中类似的结论。

图30(a)示出了当将平滑度准则应用于单耳频谱时的平滑度值，其中球谐函数的阶数被设置为15。在图30(b)中调整灰度等级。可以得出与图4中类似的结论。

上述示例说明，基于最小化或最大化质量值、以上述方式来寻找相对于世界的源方向的原理起作用并且相当准确。此外，它在计算复杂度方面非常可行，不需要大量的存储器或处理能力。例如，不需要DSP。

图31解说了头部中心移动的先验模型的模型参数，其可以在1004、1104、1503中使用。当一个人坐在办公椅上并且允许其在所有方向上自由地旋转他/她的头部时，并且在身体固定到椅子的情况下随着椅子一起自由旋转，则可以使用这种相对简单的机械模型来描述头部中心的移动。头部中心(rc)距颈部的基部(一个旋转点)的距离为b，颈部的基部距椅子的旋转中心的距离为a。

但是也构想了头部移动的其他机械模型，例如类似于图32的模型，但没有椅子移动，由此假设头部安置于颈部上(距离a＝0)。

在图32的另一变型中，模型比图32中所示的模型稍微复杂一些，该模型还考虑到人可以在椅子上向前或向后倾斜，由此存在附加程度的运动。

构想大量数据允许确定(最可能的)模型参数，并且一旦模型参数已知，取向信息和/或声学信息就可以用于确定在捕获每个音频片段时模型的特定状态。

图32示出了在自由旋转的椅子上执行HRTF测量时捕获对象的视频的快照。使用图31的机械模型。在图31中，提取关于头部位置的信息(这使得更好地估计源相对于头部的方向)，如从所估计的头部取向和位置的可视化中可以看出的。黑线示出头部中心与头部平均中心的偏离。这些偏离将影响相对于头部的感知源方向，尤其是当头部垂直于源移动时。因此，包括头部中心的这些平移将改善1005和1105中的HRTF和ITDF估计。

图33是使用图31的机械模型在示例性音频捕获测试期间头部中心的所估计位置(在世界坐标X,Y,Z中)的图形表示。每个点对应于一个啁啾抵达时的头部中心位置。注意，估计头部中心遵循连续轨迹(用线连接的连续点)。图32中所示的每个快照对应于沿该轨迹的特定点。

图34示出了从连续啁啾之间的定时延迟确定的头部中心与声源之间的距离随时间推移的测量。实际上，如果头部中心不会移动，则连续接收到的啁啾之间的时间将是恒定的。但是如果头部移动，则当头部移离源时，啁啾将被延迟，或者当头部移近源时，啁啾将更快抵达。通过乘以声速，可以很容易地将啁啾的抵达时间差转换为距离差。这些距离变化随后可以用作1503的输入，以估计图31所示的机械模型的模型参数。从(原始)红色曲线清楚可见，图31的机械模型允许与这些测得的距离变化(最初的蓝色曲线)很好地拟合。

图35示出了同一个人的两个HRTF的比较：一个HRTF是在专业设施(在亚琛)中测量的，另一个HRTF是使用根据本发明的方法获得的、在家测量的。可以看出，在专业设施中测量的HRTF的图形表示与在家测量的HRTF的图形表示之间存在非常良好的对应关系。

其他考虑：

销售给用户的商业包装可以包括：一对入耳式麦克风、以及具有声学测试信号的音频CD。可任选地，该包装还可以包含头带(例如，弹性头带)以用于将便携式设备或便携式设备组件固定到人头部，但后者不是必需的。事实上，音频CD也不是必需的，因为声音文件也可以从特定网站下载，或者可以由其他存储装置提供，诸如举例而言，DVD-ROM或存储卡等等。所需要的其他硬件(特别是包括取向传感器单元(诸如举例而言，合适的智能电话)的设备，以及具有扬声器的声音再现系统(例如，立体声链，或具有声卡的计算机，或MP3播放器等等)和音频捕获单元(例如，装备有附加设备的所述智能电话、或计算机等等))预期已经由最终用户拥有，但也可以作为包装的一部分来提供。

本发明的方法、计算机程序和算法并非旨在提供最准确的HRTF和ITDF，而是将其近似得足够接近，以使得至少前与后误感知和/或上与下误感知的主要问题被大大减少，并且优选地被完全消除。

本发明利用当今广泛使用的技术(智能电话、麦克风和扬声器)，结合允许用户自己执行规程的用户友好型规程。尽管智能电话很普遍，但使用智能电话来记录立体声音频信号并结合取向信息并不普遍，更不用说使用音频信号来校正取向信息、将取向单元的未知取向与如在标准HRTF和ITDF测量中使用的头部参考系关联、以及定位声源。这意味着本文所提出的方法更灵活(更加用户友好)，并且问题的复杂度从数据捕获步骤/设置转移到后处理，即，估计算法。

参考列表：

501,601,801：计算机 502,602,702,802：扬声器

503,603,703,803：人 504,604,704,804：取向单元

505,605,705,805：入耳式麦克风 506：支撑件 507：椅子

608,708,808：声音再现装备

附录：

作为原理证明，以下示出了使用根据本发明的一个特定实施例的方法获得的结果。

测量设置

单板计算机(SBC)Raspberry PI 2型号B被用于捕获和存储音频数据。惯性测量单元(IMU)PhidgetSpatial Precision 3/3/3High Resolution被用作取向单元。该IMU测量陀螺仪、磁力计和加速度计数据。SBC用声卡(Wolfson音频卡)来扩展，这允许具有16位分辨率以44.2千样本/秒的立体声记录。该设置的感测和存储功能可堪比至少一些现今(anno2016)智能电话设备。

双耳声音由现成的立体声双声道麦克风(Soundman OKM II Classic)使用阻塞的耳道技术来捕获，尽管后者并非绝对必需。

所获取数据的处理在膝上型设备(Dell Latitude E5550，Intel CoreTM i7双核2.6GHz，具有8GB RAM，Windows10，64位)上执行。所有信号处理均Matlab R2015b中被编程。在代码未针对速度进行优化的情况下，处理15分钟的立体声和相关联取向信息的总处理时间约为30分钟。

刺激声音信号通过单个扬声器(JBC)、利用家中的普通Hi-Fi系统来播放。

所有测量均在家中、在未修改的书房(尺寸约4m×3m×2.5m高、木地板、抹灰墙、窗帘、桌子、柜子等等)中执行。对象坐在位于距扬声器约1.5m的普通办公椅上，该扬声器大致指向椅子的旋转轴。指令对象坐直，并在所有方向(上、下、侧向)自由地弯曲他的头部。他被指令自由但缓慢地(通过使用他的腿)旋转椅子，同时不在椅子上移动他的躯干。除了这些指令外，对象的动作不受任何控制。IMU在任意位置并且以任意取向被固定到对象头部的背面。确切的房间尺寸、源高度、相对于扬声器的对象位置、起始位置/取向，扬声器/hi-fi系统设置不是先验已知的，也不是由系统控制的。

IMU取向的估计

使用(批处理)经典的高斯牛顿(Gauss-Newton)法，基于陀螺仪、磁力计和加速度计传感器数据来估计IMU的取向。IMU的取向用四元数表示。图18(a)-(d)示出了这种记录的(a)加速度计、(b)磁力计和(c)陀螺仪数据以及(d)所估计的四元数(取向)动态随时间的示例。

刺激信号

设计了声学刺激信号，该声学刺激信号在不同的约束(平均房间尺寸、实验的有限历时)之间呈现了合理的折衷，从而允许提取相关的声学信息(频率范围从大约1kHz到大约20kHz，频率分辨率约为300Hz和足够的信噪比，总测量历时在10-20分钟之间)。

为了能够在家中执行测量，必须处理地板、墙壁和天花板的声音反弹的反射。这是通过使用与足够长的间歇性静默期(刺激间时间)交织的短宽带啁啾来实现的。仅隔离沿直接路径行进的声音、并将其与第一反射分开是有利的，参见图20。直接声音和第一反射抵达对象之间的时间是测量设置的属性(房间中头部和扬声器的位置)。在该测量中，对象坐在与扬声器分开约d＝1.5m的距离处，头部和扬声器两者都处于约h_e＝h_x＝h_c/2＝约1.30m的高度，这约是房间高度的一半。(关于h_e、h_x和h_c的定义参见图20)。

可以提取直接声音的频谱内容的频率分辨率取决于到第一反射的时间(Δt)，历时(T)和啁啾的频率范围(Δf)，参见图21。每种组合都允许特定的频率分辨率(δf)，这可以使用以下不等式获取：

在所示出的实验结果中，使用在T＝25ms期间从f＝20kHz到1Hz线性向下扫描的啁啾。这允许约300Hz的频率分辨率δf，这类似于共同HRTF数据库中使用的频率分辨率(参见CIPIC：223Hz)。但是也可以使用不同的刺激(指数扫描、不同的历时、不同的频率范围等等)。

此外，各啁啾之间的时间应该足够大，以使得啁啾的记录不会受到仍然在房间中混响的先前啁啾的声音的显著影响。混响时间是房间的属性，其取决于内容物(例如墙壁、家具等等)的尺寸和吸收/反射属性。混响时间通常被表达为声强降低60dB所需的时间。在我们测试期间遇到的房间中，275ms的啁啾间时间足以排除混响效应影响测量的质量。如果该方法应用于高混响室，则可能需要增加该啁啾间时间，从而得到更长的测量历时。

提取定时和频谱信息

为了从捕获的音频信号中提取定时和频谱信息，使用麦克风信号的频谱图表示并绘制其平方模数，从而提供作为时间函数的频谱信息。在图22(a)中，示出了针对1.2秒的经记录声音(在一只耳朵中)的频谱图。接着，通过补偿啁啾中已知的与频率相关的定时延迟来对频谱图进行“整流”，参见图22(b)。接着，将沿频率轴的强度相加，如图22(c)中所示。啁啾的估计抵达时间现在是与该啁啾相对应的经求和强度模式达到峰值的时间。随后通过在图22(b)所示的经整流频谱图中评估对应抵达时间处的频谱来获取频谱内容。图23(a,b)中针对左耳(a)和右耳(b)分别以dB标度示出了不同啁啾的对应频谱内容。注意，这不是提取定时和频谱信息的仅有方法，存在许多其他方式，例如，逆滤波。

声源方向的估计

为了估计“声源方向”，使用IMU取向(来自取向传感器数据)和所提取的频谱和/或ITD信息(来自双耳音频数据)。使用的办法部分地基于HRTF和ITDF是空间平滑函数的事实。该方法可以理解如下。

首先，HRTF/ITDF是相对于IMU确定的(不是相对于头部，这是违反直觉的，因为HRTF总是相对于头部来表达)。如果相对于世界参考系知道确切的源方向r，则可以将每个IMU取向测量与单个采样的源方向关联，这将得到HRTF的离散采样版本(S^r(r_i))，如图25(d)中针对f＝8100Hz所示的。可以在球体上识别相对平滑的图案。然而，如果采取相对于世界参考系的错误源方向，则得到不同的、混乱得多且更不平滑的图案，如图25(c)中所示。发明人认识到，从IMU的角度来看，对源方向的不同选择不仅导致真实HRTF的旋转，而是(通过比较图25(c)和(d)可以理解)产生包含大量假变型的HRTF。因此，HRTF和/或ITDF的“平滑度”特性可以用于推导出用于评估候选源方向的质量准则。该质量准则的优化随后得到最佳声源方向估计。

可以选择不同的准则来量化“平滑度”。在本申请中，测得的HRTF数据在实球谐函数(SH)中扩展，实球谐函数是与傅里叶基函数类似的基函数，但是在球上定义。

类似于傅立叶基函数，实SH基函数具有较低l值对应于更缓慢变化的基函数的属性。因此，这意味着如果HRTF以截断的基(其仅包含最多至所选择或预定义最大阶数L(l<L)的基函数)表达，则有效地应用仅允许缓慢的空间变化的低通滤波器。选择的L值越高，基扩展所包含的空间“细节”就越多。因此，为了量化“平滑度”，首先在以某一所选L处截断的SH基中估计HRTF扩展的系数和和分别对应于针对所选择的方向r在频率f处的左耳和右耳HRTF)。接着，计算测得的数据点与获得的HRTF扩展之间的平方差(其中在所有测量方向和所有测量频率上计算总和)：

该误差量化了缓慢变化的基函数的基扩展到什么程度足以描述在球体上测量的HRTF中存在的空间图案。误差越小，仅使用缓慢变化的基函数来近似声学数据越好，并且因此，HRTF图案越平滑。因此，该误差可以被用作质量准则。注意，也可以使用单耳HRTF或ITDF测量来应用相同的规程。

通过最小化使用高斯牛顿法来估计源方向r。在本实现中，L＝10用于HRTF的扩展，但是也可以应用大于10(例如15)或小于10(例如L＝9或L＝8或L＝7或L＝6或L＝5或L＝4)的其他值。注意，双耳HRTF信息用于5khz-10kHz的频率范围，但也可以使用ITDF或单耳频谱信息，或者也可以选择不同的频率范围。发现最佳声源方向非常接近实际方向。图27、28、29和30中针对不同的L值，基于ITDF和单耳/双耳HRTF信息示出了球体上

的这种误差的示例。

图25(d)中针对右耳和8100Hz的频率示出了所得到的r_i及其对应值S^r(f,r_i)。并且所得到的ITDF在图25(b)中示出。注意，该方法仅允许估计声源的方向(除符号外)。因此，关于源的确切方向仍存在不确定性：两个相反的源方向是可能的。为了解决这种歧义，可以利用HRTF的其他属性。

注意，该误差也可以用于在迭代规程中，以进一步改善HRTF/ITDF估计的整体质量；改善IMU的取向估计(例如，通过优化IMU的噪声的模型参数)；和/或估计取向数据与音频数据之间的定时延迟(如果数据捕获不完全同步)。

还可以定义其他平滑度准则。例如，还可以选择下式：

或者

对耳-耳轴的取向的估计

为了估计耳-耳轴的取向，利用ITDF和/或HRTF相对于垂直于耳-耳轴的平面的对称性(左与右)。在下文中，使用ITDF的对称性。

首先假设耳-耳轴的方向a的特定值。随后所有方向r_i相对于垂直于该耳-耳轴的平面被镜像，从而得到方向r_i'。接着，假设镜像方向的ITD值等于ITD'_i＝-ITD_i，并且原始数据集和镜像数据集被合并成单个数据集。现在，如果绘制合并的ITD集，则只有在假设的a是耳-耳轴的真实方向的情况下才会得到平滑的图案。如果采取了错误的耳-耳轴，则图案再次混乱得多。

因此，如前所述，“平滑度”准则被用作估计耳-耳轴的方向的质量因子，但现在通过将合并的ITD集投影到球谐函数的截断的基。再次，使用高斯牛顿法来得到对耳-耳轴方向的最佳估计。

对对象的正面方向的估计

人的正面方向被定义成与传统HRTF测量中的正面方向一致(参见CIPIC数据库)。简单来说，向前方向接近于从头部中心看到的人的鼻子指向的方向。

为了估计对象的正面方向，将HRTF围绕耳-耳轴旋转，并且将所得到的HRTF与通用HRTF(例如，在受控环境下测量的HRTF数据库的平均值)进行比较。由于仅知道源方向(除符号外)，因此针对两个候选(＝相反)源方向执行该规程。随后通过选择测得的HRTF最接近通用HRTF的旋转角度和符号来估计正面方向和源方向的符号。

存在比较两个HRTF的不同方式，例如，通过计算点积或通过计算均方差等等。在该实现中，首先在假定的采样方向上评估内插的通用HRTF，接着在每个频率的基础上对采样的通用HRTF和测得的HRTF进行归一化，并且最后通过计算均方差来比较两个HRTF。随后基于经旋转的通用HRTF和测得的HRTF的均方差最小的角度(和源方向的符号)来估计正面方向(和源方向的符号)。

估计头部中心的偏离(相对于世界)

到目前为止，假设头部围绕头部中心(其被定义为两耳之间的中间点)旋转。当然，实际情况并非如此。头部中心将来回移动、上下移动，并且与其“平均”位置的这些偏离将对实际采样的方向产生影响，即，它可能与在头部保持固定的情况下不同。当头部进一步远离该“平均”位置时，特别是当其垂直于源方向移动时，方向误差更大。包括头部中心的这些附加平移将改善所估计的声源方向，并且因此还将改善所得到的HRTF和ITDF估计。

存在“跟踪”头部中心的移动的不同方式。在一种实现中，这是基于人头部移动的模型以及对后续啁啾之间的定时变化的分析来完成的。

该模型描述了头部的典型移动。在这种实现中，指令对象直立坐在旋转的办公椅上，将他的躯干固定到椅子上，并且仅在所有可能的方向上移动他的头部，同时使用由椅子提供的旋转能力来执行围绕垂直轴的缓慢旋转。这限制了可能的头部移动，并且可以使用图31中示意性示出的相对简单的机械模型来建模。头部中心(r_c)距颈部的基部(一个旋转点)的距离为b，颈部的基部距椅子的旋转中心的距离为a。随后头部中心的先验模型如下：

图31中所指示的颈部的俯仰角和偏航角θ₁和θ₂是未知的，但是可以基于头部的取向来估计。颈部的俯仰角等于头部的俯仰角，至多达偏移(颈部轴不必平行于头部的z轴)。此外，θ₁和θ₂两者都可以从头部偏航角θ估计。实际上，当测试人员被指令在椅子的某个位置中作出许多头部移动、并且非常缓慢地仅仅旋转椅子时，可以假设对应于椅子的偏航角(θ₁)是总偏航角(θ)缓慢变化分量，而与颈部对应的偏航角是快速变化的分量(θ₂)。

为了估计其余的模型参数可以使用至源的距离在头部/椅子移动期间变化的事实。可以通过检查连续啁啾之间的定时来测量沿声源方向的这些移动。实际上，如果头部中心不会移动，则连续接收到的啁啾之间的时间将是恒定的。但是如果头部移动，则当头部远离源时，啁啾将被延迟，或者当头部移近源时，啁啾将更快到达。通过乘以声速，可以很容易地将啁啾的抵达时间差转换为距离差Δr_meas(t)。

主要是沿着源方向的头部中心移位将对到源的距离产生影响，并且因此根据模型Δr_mod(t)的距离变化可以被写为：

接着，使用高斯牛顿估计方法通过最小化下式来估计这些模型参数a和b：

在图34中，测量期间的距离变化(具有偏移)被示出为时间的函数。一条曲线(最初是蓝色曲线)是基于测得的各啁啾之间的时间的经估计距离Δr_meas(t)，另一条曲线(最初是红色曲线)是从经优化模型获取的经估计距离Δr_mod(t)。两者都处于相对良好的一致性。

在图33中，示出了由模型获取的头部中心偏离(相对于“平均”中心)的轨迹。注意，(0,0,0)对应于“平均”中心位置。可以看出，真正的头部中心的位置确实不是恒定的。

图32示出了在可自由旋转的椅子上执行HRTF测量时捕获的对象的视频的快照(奇数行)，与示出所估计的头部取向和位置的可视化并置(偶数行)。黑线示出头部中心的偏离。

估计扬声器和/或麦克风的未知传递特性

扬声器和麦克风的确切传递特性是未知的，声音产生系统的频谱特性也是未知的。为了补偿这种未知的传递特性，在每个频率的基础上调整频谱信息的能量，以使得每个频率的能量基本上等于通用HRTF的能量(已在受控环境下测量的HRTF的数据库的平均值，如CIPIC数据库)。

在整个球体上估计HRTF和ITDF

前面的步骤得到HRTF和ITDF的经采样版本。但是由于头部的不受控制的不规则移动，因此一些区域将比其他区域更加密集地采样，而其他区域由于实际头部移动的有限范围而根本未被采样。注意，到目前为止，SH表示仅用于评估HRTF或ITDF的平滑度。因此，SH表示仅在用于“构建”SH表示的相同数据点中进行评估，并且因此SH表示从未在未被采样的区域中进行评估。

然而，为了允许在整个球体上估计HRTF和ITD(这是音频呈现系统产生来自任何方向的声音的错觉所需要的)，应用基于实数球谐函数SH的内插。考虑SH基的有限截断阶数来内插HRTF(l<＝15)和ITD(l<＝5)，因为这捕获了足够的频谱细节。然而，由于方向样本的有限数目以及球体的某些部分根本没有被采样的事实，可能出现正则化问题。

为了解决在估计SH系数时的这些正则化问题，应用如Zotkin等人所描述的Tikhonov正则化。再次，不同的准则是可能的，但是在该实现中，(除了残差平方和之外)系数矢量的范数(包括阶数l>2的系数)也被最小化。这样，解被“强制”尽可能地使用缓慢变化的低阶SH基函数，从而保证HRTF值在还未被采样的区域中不会变得太大。

HRTF评估

使用当前实现获取的HRTF与在专业的、最先进的设施(亚琛大学的消声室)中测量的HRTF进行了比较。两种方法都明显产生类似的HRTF，参见图35，图35(b)和图35(d)是在亚琛测量的，图35(c)和图35(e)是使用本发明的方法来确定的，当然针对同一对象。

参考

D.Zotkin，R.Duraiswami，N.Gumerov，“Regularized HRTF fitting usingspherical harmonics(使用球谐函数调整HRTF拟合)”，Applications of signalprocessing to audio and acoustics(信号处理在音频和声学中的应用)，(WASPAA)2009IEEE Workshop，pp.257-260,2009

Claims

1.一种用于在计算设备中估计特定人的个体化头部相关传递函数(HRTF)和个体化耳间时间差函数(ITDF)的方法(1000；1100)，所述方法包括以下步骤：

a)获取(1011；1111)或检索多个数据集(Li,Ri,Oi)，

每个数据集包括源自左入耳式麦克风的左音频样本(Li)和源自右入耳式麦克风的右音频样本(Ri)以及源自取向单元(604；704；804)的取向信息(Oi)，

每个数据集的左音频样本和右音频样本以及取向信息在布置中基本上是同时被捕获的，其中：

所述左入耳式麦克风被插入所述人的左耳中，并且

所述右入耳式麦克风被插入所述人的右耳中，并且

所述人位于距扬声器(602；702；802)一距离处，并且

所述取向单元被固定地安装到所述人的头部，并且

所述扬声器被布置成用于呈现包括多个音频测试片段(Ci)的声学测试信号，并且

所述人在所述声学测试信号的呈现期间在多个不同取向上移动他或她的头部；

b)从所述数据集(Li,Ri,Oi)提取或计算多个耳间时间差值(ITDi)和/或多个频谱值(SLi_f,SRi_f)、以及所述取向单元的对应取向值；

c)估计(1002；1102)所述扬声器相对于所述人的头部中心的平均位置、并且以世界参考系来表达的方向，包括以下步骤：

1)采取候选源方向

2)向所述多个耳间时间差值(ITDi)的至少子集的每个成员和/或所述多个频谱值(SLi_f,SRi_f)的至少子集的每个成员指派与以所述取向单元的参考系表达的所采取源方向相对应的方向从而获取经映射数据集

3)基于预定义质量准则来计算所述经映射数据集的质量值；

4)针对与先前候选源方向不同的第二和/或进一步候选源方向重复步骤1)到3)至少一次；

5)选择得到最高质量值的候选源方向作为所述扬声器相对于所述人的头部中心的平均位置的方向；

d)估计(1003；1103)所述取向单元相对于所述头部的取向；

e)基于所述多个数据集(Li,Ri,Oi)并基于步骤c)中所估计的所述扬声器相对于所述头部中心的平均位置的方向、以及基于步骤d)中所估计的所述取向单元相对于所述头部的取向，来估计(1005；1105)所述人的所述个体化ITDF和所述个体化HRTF；

其中，步骤a)到步骤e)是由至少一个计算设备执行的。

2.如权利要求1所述的方法，其特征在于，步骤b)包括：

-定位所述多个数据集(Li,Ri,Oi)中的多个左音频片段(LFi)和多个右音频片段(RFi)，每个左音频片段和每个右音频片段与由所述扬声器呈现的音频测试片段(Ci)相对应；

-针对成对的对应的左音频片段和右音频片段(LFi,RFi)的至少子集计算耳间时间差值(ITDi)；

-针对每对对应的左音频片段和右音频片段(LFi,RFi)估计所述取向单元(604；704；804)的瞬时取向。

3.如权利要求1或2所述的方法，其特征在于，步骤b)包括或进一步包括：

-计算针对每个左音频片段(LFi)的一组左频谱值(SLi_f)和/或计算针对每个右音频片段(RFi)的一组右频谱值(SRi_f)，每组频谱值(SLi_f；SRi_f)包含对应于一个频谱频率的至少一个频谱值；

-针对所述左音频片段(LFi)和/或所述右音频片段(RFi)的至少子集估计所述取向单元(604；704；804)的瞬时取向。

4.如前述权利要求中任一项所述的方法，其特征在于，所述预定义质量准则是所述经映射数据的空间平滑度准则。

5.如前述权利要求中任一项所述的方法，其特征在于，所述预定义质量准则基于所述经映射数据与参考表面之间的偏离或距离，其中，所述参考表面被计算为所述经映射数据的低通变型。

6.如前述权利要求中任一项所述的方法，其特征在于，所述预定义质量准则基于所述经映射数据与参考表面之间的偏离或距离，其中，所述参考表面基于由有限数目的基函数的加权和定义的对所述经映射数据的近似。

7.如权利要求6所述的方法，其特征在于，所述基函数是球谐函数。

8.如权利要求1至3中任一项所述的方法，其特征在于，所述预定义质量准则是表达所述经映射ITDi数据的镜像反对称性程度的准则。

9.如权利要求1至3中任一项所述的方法，其特征在于，所述预定义质量准则是表达所述经映射ITDi数据的圆柱形对称性程度的准则。

10.如前述权利要求中的任一项所述的方法，其特征在于，进一步包括：

f)估计(1503)与在步骤a)中捕获所述音频样本和所述取向信息时由所述人做出的头部移动相关的机械模型的模型参数；

g)使用所述机械模型和所估计的模型参数来估计(1504)多个头部位置；

并且其中，步骤c)包括使用步骤g)所估计的头部位置。

11.如权利要求10所述的方法，其特征在于，所述机械模型被适配用于对所述头部围绕所述头部的中心的至少旋转以及以下移动中的至少一者进行建模：

-所述人在坐在可旋转椅子上时围绕静止垂直轴的旋转；

-所述人的颈部相对于所述人的躯干的移动。

12.如前述权利要求中任一项所述的方法，其特征在于，步骤b)包括：

-估计所述头部移动在多个音频片段上的轨迹；

-在估计所述头部位置和/或头部取向时将所估计的轨迹纳入考虑。

13.如前述权利要求中任一项所述的方法，其特征在于，步骤e)进一步包括估计所述扬声器和所述麦克风的经组合滤波特性，或包括调整所估计的ITDF以使得每频带的能量对应于通用ITDF的能量，并包括调整所估计的HRTF以使得每频带的能量对应于通用HRTF的能量。

14.如权利要求13所述的方法，其特征在于，估计所述扬声器和所述麦克风的的经组合频谱滤波特性包括：

-利用与所述扬声器的频谱滤波特性有关的先验信息，和/或

-利用与所述麦克风的频谱滤波特性有关的先验信息。

15.如前述权利要求中的任一项所述的方法，其特征在于：

步骤b)使用将声学提示与空间信息关联的至少一个传递函数(IDFT,HRTF)，通过还将从所述左音频样本和所述右音频样本提取的空间信息纳入考虑来估计所述取向单元的取向，

可任选地，将声学提示与空间信息关联的所述至少一个预定义的传递函数是预定义的耳间时间差函数(ITDF)，或者

可任选地，将声学提示与空间信息关联的所述至少一个传递函数是包括预定义的耳间时间差函数(ITDF)和预定义的头部相关传输函数(HRTF)的两个传递函数；或者

所述方法包括执行步骤b)到e)至少两次，其中，第一次迭代中的步骤b)不将所述空间信息纳入考虑，并且其中，第二次和任何进一步迭代中的步骤b)使用第一次或进一步迭代中的步骤e)中所估计的耳间时间差函数(ITDF)和/或头部相关传递函数(HRTF)来将所述空间信息纳入考虑。

16.如前述权利要求中任一项所述的方法，其特征在于，估计所述ITDF函数的步骤d)包括：基于对包含不同人的多个ITDF的数据库的统计分析来利用与个性化ITDF有关的先验信息。

17.如前述权利要求中任一项所述的方法，其特征在于，估计所述HRTF的步骤e)包括：基于对包含不同人的多个HRTF的数据库的统计分析来利用与个性化HRTF有关的先验信息。

18.如前述权利要求中任一项所述的方法，其特征在于，所述取向单元包括被适配用于提供相对于地球重力场的取向信息的至少一个取向传感器以及被适配用于提供相对于地球磁场的取向信息的至少一个取向传感器。

19.如前述权利要求中任一项所述的方法，其特征在于，进一步包括以下步骤：

-将所述取向单元固定地安装到所述人的头部。

20.如前述权利要求中任一项所述的方法，其特征在于，所述取向单元被包括在便携式设备中，并且其中，所述方法进一步包括以下步骤：

-将包括所述取向单元的所述便携式设备固定地安装到所述人的头部。

21.如前述权利要求中任一项所述的方法，其特征在于，进一步包括以下步骤：

-经由所述扬声器来呈现所述声学测试信号；

-捕获源自所述左入耳式麦克风和所述右入耳式麦克风的所述左音频信号和所述右音频信号(Li,Ri)并捕获源自取向单元(604；704；804)的所述取向信息(Oi)。

22.如权利要求1至20中任何一项所述的方法，其特征在于，

所述取向单元被包括在便携式设备中，所述便携式设备能被安装到所述人的头部；

并且，所述便携式设备进一步包括可编程处理器和存储器，以及电连接到所述左入耳式麦克风和所述右入耳式麦克风的对接装置，以及用于存储和/或传送所捕获数据集的装置；

并且，所述便携式设备捕获所述多个左音频样本(Li)和所述多个右音频样本(Ri)以及取向信息(Oi)，

并且，所述便携式设备将所捕获数据集存储在可更换的存储器上和/或将所捕获数据集传送到所述计算设备，

并且，所述计算设备读取所述可更换的存储器或接收所传送的所捕获数据集，并在读取或接收所捕获数据集的同时或之后执行步骤c)到e)。

23.根据权利要求1至20中任一项所述的方法，其特征在于，进一步包括以下步骤：

-将所述左入耳式麦克风插入所述人的左耳中并将所述右入耳式麦克风插入所述人的右耳中；

-其中，所述计算设备电连接到所述左入耳式麦克风和所述右入耳式麦克风，并且操作地连接到所述取向单元；

并且其中，所述计算设备捕获所述多个左音频样本(Li)和所述多个右音频样本(Ri)，并从所述取向单元检索或接收或读取或以其他方式获取所述取向信息(Oi)；

并且其中，所述计算设备将所述数据存储在存储器中。

24.如权利要求23所述的方法，其特征在于，所述计算设备是还包括所述取向单元的便携式设备。

25.如权利要求24所述的方法，其特征在于，所述便携式设备是智能电话。

26.如权利要求22或24或25所述的方法，其特征在于，

所述便携式设备进一步包括扬声器；

并且，所述便携式设备被进一步适配用于分析所述取向信息以根据预定义的准则来验证围绕所述头部的3D空间是否被充分采样；

并且被进一步适配用于取决于所述3D空间是否被充分采样的分析结果而经由所述便携式设备的所述扬声器来呈现第一或第二预定义音频消息。

27.如前述权利要求中的任一项所述的方法，其特征在于，

所述音频测试信号包括多个声学刺激，

每个声学刺激具有在范围25到50ms中的历时；和/或

后续声学刺激之间的时间段是在范围250到500ms中的时段。

28.如前述权利要求中任一项所述的方法，其特征在于，进一步包括以下步骤：

-取决于对所捕获数据集的分析而从一组预定义音频消息中选择预定义音频消息，以及

-经由与用于所述测试刺激的相同扬声器或经由与第一扬声器不同的第二扬声器来呈现所选择的音频消息，以在呈现所述音频测试信号之前和/或期间和/或之后向所述人提供信息或指令。

29.一种呈现用于特定人的虚拟音频信号的方法，包括：

x)使用根据前述权利要求中任一项所述的方法来估计所述特定人的个体化头部相关传递函数(HRTF)和个体化耳间时间差函数(ITDF)；

y)通过利用在步骤x)中所估计的所述个体化头部相关传递函数(HRTF)和所述个体化耳间时间差函数(ITDF)来生成用于所述特定人的虚拟音频信号；

z)使用立体声耳机和/或一组入耳式扬声器来呈现在步骤y)中生成的所述虚拟音频信号。

30.一种用于估计特定人的个体化头部相关传递函数(HRTF)和耳间时间差函数(ITDF)的计算机程序产品，所述计算机程序产品在包括可编程处理器和存储器的至少一个计算设备上被执行时被编程用于执行如前述权利要求中任一项所述的方法中的至少步骤c)到e)。

31.一种数据载体，包括权利要求30所述的计算机程序产品。

32.如权利要求31所述的数据载体，其特征在于，进一步包括所述声学测试信号的数字表示。

33.如权利要求30所述的计算机程序产品的传输。

34.如权利要求30所述的计算机程序产品以及所述声学测试信号的数字表示的传输。

35.一种部件套件，包括：

-如权利要求31或32所述的数据载体；

-左入耳式麦克风和右入耳式麦克风。

36.如权利要求35所述的部件套件，其特征在于，进一步包括：

-包括所述声学测试信号的数字表示的第二数据载体。