CN107409266A

CN107409266A - 确定个体化头部相关传输函数和耳间时间差函数的计算机程序和方法

Info

Publication number: CN107409266A
Application number: CN201680012633.1A
Authority: CN
Inventors: J·赖尼尔斯; H·G·P·佩雷曼斯; B·W·M·帕托恩斯
Original assignee: Universiteit Antwerpen
Current assignee: Universiteit Antwerpen
Priority date: 2015-02-26
Filing date: 2016-02-12
Publication date: 2017-11-28
Anticipated expiration: 2036-02-12
Also published as: US20180035226A1; EP3262853B1; US10257630B2; CN107409266B; GB2535990A; EP3262853A1; WO2016134982A1; GB201503213D0

Abstract

一种估计特定人的个人化头部相关传输函数(HRTF)和个人化耳间时间差函数(ITDF)的方法，包括以下步骤：a)获得多个数据集(Li,Ri,Oi)，每个数据集包括来自一对入耳式话筒的左和右音频样本(Li,Ri)以及来自定向单元的定向信息(Oi)，所述定向信息时在其中经由扬声器呈现听觉测试信号的测试布置中测量的；b)将所述数据集存储在存储器中；c)基于所述定向数据和所述音频数据来估计所述扬声器相对于所述人的方向；d)基于所述数据集并且基于估计的相对位置/定向来估计ITDF；e)基于所述且基于估计的相对位置/定向来估计HRTF。一种用于执行该方法的计算机程序产品。一种包含该计算机程序的数据载体。

Description

确定个体化头部相关传输函数和耳间时间差函数的计算机程序和方法

发明领域

本发明涉及3D声技术领域。更具体而言，本发明涉及估计特定人的个人化头部相关传输函数(HRTF)和个人化的耳间时间差函数(ITDF)的计算机程序产品和方法。本发明还涉及包括这种计算机程序产品的数据载体，并涉及包括这种数据载体的部件套件。

发明背景

过去数十年在虚拟现实技术领域已经有了长足的进步，特别是在视觉虚拟现实方面。3D TV屏已经进入公众家中，尤其是此处的家庭影院和视频游戏所利用的。但是3D声技术仍旧滞后。然而，至少在理论上，创建虚拟3D听觉环境(被称为虚拟音频空间(VAS))是非常容易的。当人们在3D空间中定位声音时，他们使用由左耳和右耳拾取的两个音频信号。由此一个重要线索是所谓的“耳间时间差(ITD)”：取决于声音(相对于人的头部)的方向，声音将首先到达左耳或右耳，且这一时间差包含关于横向角度的信息(参见图2)。耳间时间差函数(ITDF)描述了ITD如何随声音源(例如扬声器)的方向变化，例如参见图3。

当声音被内耳配准(register)时，声音的频谱内容包含其它线索。毕竟，在来自某个方向的声波到达鼓膜之前，声波与身体、头部和耳廓干涉。并且通过这种干涉，一些频率比其它频率更容易被传送；因此，发生取决于声音来自的方向的频谱滤波。这种滤波由所谓的“头部相关传输函数(HRTF)”(参见图4中的示例)描述，对于声音源的每个方向，HRTF描述了被传送或滤除的每个频率的比例。在双耳中接收的信号的频谱内容从而包含关于声音源的位置(被称为：频谱线索)，且尤其是关于高程(参见图2)以及声音源是位于人的前方还是后方的附加信息，高程(elevation)是声音源相对于头部所处的高度。

为了创建真实的3D听觉虚拟现实，因此知道特定人的ITDF和HRTF是最重要的。在知道ITDF和HRTF时，可针对特定方向人工添加适当的时间延迟和频谱滤波，并且用这种方式，给倾听者必要的线索(时间线索和频谱线索)来重构3D世界。

目前，在市场上已经有使用HRTF来创建虚拟3D印象的大量应用，但是到目前为止这些应用未被广泛使用。毕竟，这些应用利用被认为适合于大量听众的单一的、一般化的ITDF和HRTF集合。就像假定所有人的双眼间的距离均相同的3D视觉系统一样，这些系统利用平均ITDF和HRTF。尽管对于视觉而言这没有带来明显的问题，对于3D音频却带来了明显问题。在对于一个体而言双眼间的距离与平均距离显著不同时，可能出现的是用户深度感知不是最优的，从而导致“出现了某个问题”的感觉，但是与3D音频相关的问题要严重得多。小的差异可能导致大的差错。被装备了虚拟的“平均耳朵”之后，用户实际上体验了空间效果——声音不再在头部内，而是在头部外某处，但是关于声音来自的方向经常有许多困惑。最多错误发生在高程的感知上，但是这也烦人得多：前方和后方经常互换。实际上应当来自前方的声音被感知为来自后方，从而显著降低了此技术的有用程度。

因此，尽管存在不同人的HRTF和ITDF类似这一事实，人的真实HRTF和ITDF和一般HRTF和ITDF的即使很小的差异也导致差错，与3D视觉不同，这些差错对于空间体验是不利的。这很可能是通过立体声耳机的VAS尚未实现其全部潜力的原因之一。因此，为了最优地使用此技术，使用个体化的HRTF和ITDF是必要的。但是如何在大规模上实现这一点，以便可使此技术可公众可用呢？

人的HRTF和ITDF传统上时使用专门化的基础结构来记录的：在无回声室(其中声音源绕受试者移动)中，并且对于每个被采样的方向到达左耳和右耳的相应信号的每个所采样的方向被通过布置在受试者的左耳和右耳中的刚好在耳孔入口处的话筒记录。尽管近年来已经取得了进展并且已经开发了新方法来简化这一过程，然而这种测量仍旧非常繁琐且昂贵。因此以此方式测量所有潜在用户的HRTF和ITDF是不可能的。因此，存在寻找个性化HRTF和ITDF的需求。

US5729612A描述了一种用于在无回声室外测量头部相关传输函数的方法和装置。在此文档中，提出使用安装在专用支架上的扬声器输出的声波来测量HRTF。左和右音频信号被受试者戴着的两个入耳式话筒捕捉，受试者的头部移动被位置传感器跟踪和/或受试者坐在可被定向在特定方向上的椅子上。数据将在远程计算机中被处理。该文档没有提及具体如何从测得的音频信号和位置信号来计算ITDF和HRTF。然而，校准步骤被用来确定扬声器和话筒的传输性质，且该方法还严重依赖于以下事实：人和扬声器的相对位置被准确知晓。

仍有改进或替代的空间。

发明概述

本发明的实施例的目标是提供确定或估计个体化耳间时间差函数(ITDF)和个体化耳间时间差函数(HRTF)的良好计算机程序产品和良好方法。

本发明的特定实施例的目标是提供一种基于最终用户自己在相对简单的测试布置中而不需要特定技能或专业装备(例如在他或她的家中)捕捉的数据确定或估计个体化ITDF和个体化HRTF的计算机程序产品和方法，并且复杂度被转移到数据处理步骤。换言之，提供能大规模应用的计算机程序产品和方法，以便可服务大用户群体。

本发明的特定实施例的目标是提供一种实现用于基于左和右音频样本以及由定向单元提供的(可能不精确的)定向样本来确定或估计个体化ITDF和个体化HRTF的算法的计算机程序产品和方法，所述定向单元在头部上的位置/定向可能是未知的，且这不需要校准步骤。如果可用，则该算法可利用关于各扬声器中的一个或多个的位置的(可能不精确的)信息，和/或关于定向单元在头部上的位置/定向的(可能不精确的)信息，和/或关于被使用的装备和环境的频谱性质的(可能不精确的)信息。

本发明的特定实施例的目标是提供一种确定或估计个体化ITDF和个体化HRTF的计算机程序产品和方法，其当在3D虚拟音频系统(3D-VAS)中使用时为至少一些用户(优选地为大用户群体，最优选地为所有用户)给出(与通用或平均IDTF和平均HRTF相比)更精确的3D虚拟声音体验，特别是在减少数量的前/后误感知方面。

这些和其它目标由本发明的实施例来实现。

在第一方面中，本发明一种用于估计特定人的个人化头部相关传输函数(HRTF)和耳间时间差函数(ITDF)的计算机程序产品，所述计算机程序产品当在包括处理器和存储器的至少一个计算设备上执行时，被适配成用于执行以下步骤：a)获得多个数据集，每个数据集包括源自左入耳式话筒的左音频样本和源自右入耳式话筒的右音频样本以及源自定向单元的定向信息，每个数据集的所述左音频样本及所述右音频样本和所述定向信息是在布置中被同时捕捉的，其中：所述左入耳式话筒被插入在所述人的左耳中，以及所述右入耳式话筒被插入在所述人的右耳中，以及所述定向单元被安装在所述人的头部上或被安装到所述人的头部，以及所述人位于距扬声器一距离处，以及所述扬声器被布置成用于呈现听觉测试信号，所述听觉测试信号包括多个听觉刺激，以及a)所述人在所述听觉测试信号的呈现期间在多个不同定向上转动头部；b)将所述多个数据集存储在存储器中；c)针对存储在所述存储器中的每个数据集，估计所述扬声器相对于所述人的所述头部的方向；d)基于存储在所述存储器中的所述多个数据集(Li,Ri,Oi)并且基于在步骤c)中估计的方向来估计所述人的个人化ITDF；e)基于存储在所述存储器中的所述多个数据集并且基于在步骤c)中估计的方向来估计所述人的个人化HRTF。

本发明的实施例的优点在于：它提供个体的个人化ITDF和HRTF，其ITDF和HRTF仅需要被估计一次，且随后可在各种应用中使用，诸如在3D游戏中或在电话会议应用中使用以创建空间体验。

本发明的实施例的优点在于：用于估计ITDF和HRTF的算法被调谐到用于捕捉所需音频和定向数据的特定布置，该布置对顾客非常友好，以使得该方法可由大部分个人在他/她的家中执行，而不需要昂贵的装备。具体而言，除了一对入耳式话筒外，执行捕捉部分所需的其它装备广泛可用(例如：用于在扬声器上呈现音频的设备、智能电话)。本发明的优点在于：扬声器的频谱滤波性质不需要被知晓。

本发明的实施例的优点在于：用于估计ITDF和HRTF的算法允许估计数据获取期间头部的相对转动，而不需要知晓头部上的定向单元的(精确)定向/位置，且也不需要知晓扬声器的(精确)位置。

本发明的实施例的优点在于：用于估计ITDF和HRTF的算法可在于被用于捕捉音频和定向数据的设备相同的设备或另一设备上执行。例如，在第一步骤中该数据可被智能电话捕捉并被传送至远程计算机或存储在存储卡上，该数据随后可(例如经由电缆或无线接收)被远程计算机获得或从存储卡检索以用于实际估计ITDF和HRTF。

本发明的实施例的优点在于：用于估计ITDF和HRTF的算法不需要非常精确的定向信息(例如，约+/-10°的容差余裕可以是可接受的)，因为该算法不单独依赖于定向数据来确定相对位置，还依赖于音频数据。

尽管本发明提供的ITDF和HRTF将不如在无回声室中测量的ITDF和HRTF那么精确，然而其优点在于：可通过本发明获得的个体化ITDF和HRTF当在3D-VAS系统中使用时，将给出比使用具有“平均”ITDF和“平均”HRTF的该相同3D-VAS系统好得多的结果，尤其是在前/后误感知方面。

本发明的实施例的优点在于：算法可包含用于推导ITDF和HRTF的一次或多次迭代，而数据捕捉步骤仅需要被执行一次。多次迭代将给出真实ITDF和HRTF的更好近似，代价是处理时间。

本发明的实施例的优点在于：其基于以下洞察：多个未知量(诸如举例而言任何扬声器之间的未知定向和/或话筒的未知传输性质和/或扬声器的未知传输性质，和/或未知ITDF和HRTF)可通过使用逐步近似来“一起”计算，其中在每次近似中使用未知变量的经改善版本。迭代次数可由技术人员基于所需的精确度选择。

本发明的实施例的优点在于：其不需要特殊装备(例如具有布置为球形的多个话筒的无回声室)，而是可由用户自己在他/她的家中在非常简单的设定中进行。

在一实施例中，可使用相对于用户位于不同方向的多于一个扬声器(例如两个扬声器)，在此情况下将使用多于一个听觉测试信号(例如两个)，且在此情况下在步骤c)中生成具体听觉刺激的扬声器的方向将被估计。

使用两个扬声器(例如被定位以形成45°或90°角，如从用户位置所见的)的优点在于：其导致扬声器的方向的经改善估计，因为存在不改变位置的两个参考点。而且，与仅具有单个扬声器的设定相比，用户将不需要将他/她的头转动那么远，而且还覆盖采样球体的更大的部分。

在一实施例中，步骤e)进一步包括估计扬声器和话筒的组合频谱滤波性质。

本发明的实施例的优点在于：用于估计ITDF和HRTF的算法不需要提前知晓扬声器的频谱滤波性质和入耳式话筒的频谱滤波性质，而是其可作为算法的一部分估计扬声器和话筒的组合频谱滤波性质。这提供了以下优点：用户可(原则上)使用任何一组(合理质量的)入耳式话筒和任何(合理质量的)扬声器。这提供了以下优点：在数据捕捉期间不需要使用特定类型的扬声器和入耳式话筒，且可省略专门的校准步骤。但是当然，使用具有已知频谱滤波性质的扬声器和入耳式话筒也是可能的，在此情况下该算法可使用已知频谱滤波性质，且扬声器和入耳式话筒的组合频谱滤波性质的估计可被省略。

扬声器和话筒的组合频谱滤波性质的估计可以基于以下假设或近似：此组合频谱滤波性质是仅在单参数(即频率)的频谱函数，而与定向无关。由于入耳式话筒的小尺寸和人和扬声器之间的相对大的距离，这种近似是有效的。

在一实施例中，估计扬声器和话筒的组合频谱滤波性质包括：利用关于扬声器的频谱滤波性质的先验信息，和/或利用关于话筒的频率滤波性质的先验信息。

本发明的实施例可利用关于典型入耳式话筒和关于典型扬声器的统计信息。这可例如包括使用“平均”频谱滤波性质和“协方差”-函数，其可在算法中使用以计算候选函数的“距离”-度量或偏差度量等。

在一实施例中，步骤c)的估计基于存储在所述存储器中的所述多个数据集并且基于将听觉线索与空间信息相关的至少一个传输函数。

在此实施例中，利用至少一个传输函数，诸如举例而言人类的ITDF和/或HRTF，以允许从左和右音频样本提取空间信息(例如定向信息)。

该算法的优点在于：将至少一个传输函数纳入考虑允许从音频数据提取空间信息，其与定向传感器数据相组合允许估计数据获取期间头部的相对定向，而无需知晓头部上的定向单元的(精确的)位置/定向且无需知晓扬声器的(精确的)位置。

本发明的算法的优点在于：例如通过迭代地对该问题求解，其能够从音频数据提取估计ITDF和HRTF所必需的空间信息，尽管精确的ITDF和/或HRTF尚未被知晓。在第一次迭代中，使用通用传输函数来从音频数据提取空间信息。此信息随后可被用来估计HRTF和/或ITDF，在下一次迭代中，所估计的HRTF和/或ITDF可被用来更新至少一个传输函数，最终收敛到ITDF和HRTF的经改善估计。

注意，在使用如从用户位置看位于不同方向的多于一个扬声器(例如两个扬声器)的情况下，优点在于：空间信息被从位于不同位置的两个不同声音源提取。一般而言，将听觉线索与空间信息相关的传输函数不是空间均质的，即，在听觉线索方面，并非所有空间方向被等同良好地表示，且因此来自一些方向的声音基于其听觉内容而比源自其它方向的那些声音更容易被定位。通过使用多于一个扬声器(例如两个扬声器)，可处理传输函数中的这些“盲点”，因为这两个扬声器对传输函数的不同方向进行采样，并且如果一个扬声器产生难以定位的声音，源自另一扬声器的声音仍旧包含做出关于头部的定向的推断所必需的方向信息。

在一实施例中，将听觉线索与空间信息相关的所述至少一个传输函数为耳间时间差函数(ITDF)。

此实施例的优点在于：在每个数据集的捕捉期间头部关于扬声器的定向被仅从(平均或估计的)ITDF计算，而不从HRTF计算。这允许在步骤e)被执行之前步骤c)和步骤d)被组合起来执行(且任选地被迭代)。这提供了步骤e)仅需要被执行一次的优点。

在一实施例中，将听觉线索与空间信息相关的所述至少一个传输函数为耳间时间差函数(ITDF)和耳间时间差函数(HRTF)。

此实施例的优点在于：在捕捉每个数据集期间头部相对于扬声器的定向被从ITDF(的平均值或估计)以及从HRTF(的平均值或估计)两者计算，因为这允许数据获取期间头部相对于扬声器的经改善的估计，其又允许改善ITDF和HRTF的估计。

在一实施例中，估计ITDF的步骤d)包括利用基于包含不同人的多个ITDF的数据库的统计分析的关于个体化ITDF的先验信息。

本发明的实施例可利用如包含在数据库中的典型ITDF的统计信息。这可例如包括使用“平均”ITDF和“协方差”-函数，其可在算法中使用以计算候选函数的“距离”-度量或偏差度量等。

本发明的实施例的优点在于：来自这样的数据库(其中一些公开可用)的信息被纳入考虑，因为其增加了估计的个人化ITDF和估计的个人化HRTF的精确度。

本发明的特定实施例的优点在于：其中这样的数据库的仅一子集被纳入考虑，例如基于该特定人的年龄或性别。

在一实施例中，估计所述HRTF的步骤e)包括利用基于包含不同人的多个HRTF的数据库的统计分析的关于个体化HRTF的先验信息。

与上面在使用关于ITDF时提及的相同优点也适用于HRTF。

在一实施例中，步骤c)包括：从所述多个数据集的所述左音频样本和所述右音频样本提取定时信息；从所述多个数据集的所述左音频样本和所述右音频样本提取频谱信息；基于所提取的定时信息和频谱信息来估计所述扬声器相对于所述人的所述头部的方向，由此使用通用ITDF和通用HRTF。

在此实施例中(在本文中被描述为“算法1”)，ITDF和HRTF两者均在步骤c)中被使用。

在一实施例中，步骤d)包括：基于所述左音频样本和所述右音频样本中包含的所述定时信息和频谱信息以及基于步骤c)的估计的方向来确定个人化ITDF的估计；以及步骤e)包括：基于所述左音频样本和所述右音频样本中包含的所述定时信息和频谱信息以及基于步骤c)的估计的方向来确定个人化HRTF的估计。

在一实施例中，所述计算机设备被进一步适配成用于执行以下步骤组合：i)在执行步骤d)和步骤e)之后，再次执行步骤c)，但是使用如在步骤d)中确定的个人化ITDF的估计而不是一般性ITDF以及使用如在步骤e)中确定的个人化HRTF的估计而不是一般性HRTF，以获得所述扬声器相对于所述人的头部的方向的经更新的估计；ii)在执行步骤i)之后，再次执行步骤d)，使用步骤i)的所述扬声器的所述方向的经更新的估计，以获得所述人的个人化ITDF的更新；iii)在执行步骤i)之后，再次执行步骤e)，使用步骤i)的所述扬声器的所述方向的经更新的估计，以获得所述人的个人化HRTF的更新。

其中执行至少一次迭代的实施例的优点在于：所估计的ITDF和HRTF更好地近似真实ITDF和真实HRTF(在精确度方面，不是在角度采样密度方面)，且从而在3D-VAS系统中使用估计的ITDF和/或HRTF时前/后误感知的风险减小。

在一实施例中，步骤c)包括：从所述多个数据集的所述左音频样本和所述右音频样本提取定时信息；基于所提取的定时信息针对每个数据集估计所述扬声器相对于所述人的头部的方向，由此使用通用ITDF而不使用通用HRTF。

在此实施例中(在本文中被描述为“算法2”)，仅ITDF在步骤c)中被使用。

在一实施例中，所述计算设备被适配成用于在执行步骤c)和步骤d)的组合之后执行步骤e)；并且其中步骤e)进一步包括：从所述多个数据集的所述左音频样本和所述右音频样本提取频谱信息；基于所提取的频谱信息估计高程偏移；基于所述左音频样本和所述右音频样本中包含的所述定时信息和频谱信息以及基于步骤c)的所述扬声器的估计的方向来确定个人化HRTF的估计。

在一实施例中，所述计算设备被适配成用于执行以下步骤组合的至少一次迭代：i)再次执行步骤c)以获得所述扬声器的方向的经更新的估计，其中在步骤c)的第二次执行和每次后续执行中使用个人化ITDF的估计而非通用ITDF；ii)使用步骤i)的所述扬声器的方向的经更新的估计来再次执行步骤d)以获得所述人的经更新的个人化ITDF。

其中执行至少一次迭代的实施例的优点在于：所估计的ITDF和HRTF更好地近似真实ITDF和真实HRTF(就精确度而言，不是就角度采样密度而言)，且从而在3D-VAS系统中使用估计的ITDF和/或HRTF时前/后误感知的风险减小。

在一实施例中，所述定向单元被适配成用于提供相对于地球重力场以及相对于地球磁场的定向信息。

本发明的实施例的优点在于：使用可提供相对于固定到地球的任何坐标系的绝对坐标或位置或定向信息的定向单元，而不是要求发送机单元和接收机单元的定位单元，因为其仅需要单个单元。

在一实施例中，其中所述音频测试信号包括具有小于4.80ms的历时的多个听觉刺激。

优选地，所述音频刺激为宽带音频刺激。

使用宽带音频刺激信号(而不是纯音调信号)是有优点的，因为宽带宽信号允许提取频谱信息以及对于头部的每个定向在感兴趣的整个频谱范围上估计HRTF，并且还因为ITD估计的准确度对于宽带宽信号更高。

使用带具有小于4.80ms的听觉刺激的测试信号是有优点的，因为对于这种短信号，可以合理地假定头部(在瞬间)保持静止，即使在实践中头部可能正在(并且通常将正在)转动，假定该人正以相对低的角速度(例如，以小于秒60°)轻柔地而非急剧地转动他/她的头部。

其优点还在于：这种短历时信号避免了沿直接路径的接收和相同信号沿包含在房间的周边之一或房间内存在的物体上的至少一次附加反射的间接路径的接收之间的交叠。因此，可避免复杂的回声抵消技术。

在一实施例中，所述计算机程序产品被进一步适配成用于：取决于对所述多个数据集的分析从一组预定义音频消息中选择预定义音频消息，以及经由不同于所述第一扬声器的第二扬声器呈现所选择的音频消息，以用于在呈现所述音频测试信号之前和/或期间和/或之后向所述人提供信息或指令。

这种实施例例如可在步骤c)的(类)实时处理中有用，其中(精确或近似的)位置和/或定向信息被从所捕捉样本的子集提取，或在理想情况下，在每个连续音频样本之间的时间中，且其中所述算法进一步验证所述头部周围的3维空间是否被以足够密度采样，且其中对应的听觉反馈被在听觉测试文件完成之后甚至之前给予用户。

但是当然也可给出其它消息，例如，用于用户保持他/她的头部在特定数量(例如5到10个)的听觉刺激上静止的文本指令，以允许对针对该特定定向收集的音频样本求平均，以便可实现更高的信噪比(SNR)。

当然，相同功能性也可由非实时应用提供，其中例如听觉测试信号被呈现第一时间，且第一多个数据集被捕捉，该第一多个数据样本随后在步骤c)中被处理，且其中步骤c)进一步包括验证头部周围的空间是否以足够的密度被采样，且其中对应的听觉消息被经由第二扬声器给予该用户，例如以告知他/她捕捉是充分的，或请求他/她重复测量，任选地通过给出在特定方向上转动头部的进一步指令。

以此方式，可使得数据捕捉的实际步骤在计算机和人之间非常有交互性，具有以至少预定义密度估计HRTF的技术效果。

以此方式，可(进一步)降低不重复的空间采样的风险，以及因此必须针对没有被足够密集地空间采样的方向在两个或更多个ITDF曲线和HRTF曲线之间内插的风险。

在一实施例中，所述计算设备电连接至所述左和右入耳式话筒，并且电连接至所述定向单元，以及其中所述计算设备被适配成用于在步骤a)中捕捉多个左音频样本及右音频样本和定向信息，以及用于执行步骤b)到步骤e)。

在这样的实施例中，所有步骤，包括实际数据捕捉，由计算设备执行，例如由装备有USB设备的带立体声音频输入等的台式计算机或膝上型计算机。如果智能电话的定向单元在此实施例中被使用，则计算机将从智能电话检索定向信息，例如经由电缆连接或经由无线连接，且智能电话的唯一任务将是提供定向数据。

在一实施例中，所述定向单元被包括在便携式设备中，所述便携式设备能安装到所述人的头部，以及其中所述便携式设备进一步包括可编程处理器和存储器，以及能够电连接至所述左和右入耳式话筒的接口装置，以及用于存储和/或传送所述所捕捉数据集的装置，以及其中所述计算机程序产品包括被适配成由所述便携式设备的处理器执行的第一软件模块和被适配成由所述计算设备执行的第二软件模块，以及其中所述第一软件模块被适配成用于执行步骤a)的所述左和右音频样本的捕捉和所述定向信息的捕捉，以及用于传送所捕捉数据集至所述计算设备或用于将所捕捉数据集存储在可交换存储器上，以及其中所述第二软件模块被适配成用于获得所述多个数据集，并且用于执行步骤b)到步骤e)。

在这样的实施例中，实际数据捕捉的步骤由便携式设备执行，例如装备有插件设备的带立体声音频输入等的智能电话，而所捕捉数据的处理可由另一计算机(例如在云中)离线执行。因为定向单元是智能电话本身的一部分，所以不需要额外的电缆。

这种实施例的优点在于：可使到入耳式话筒的电缆更短(得多)，从而导致更高的移动自由度。而且，所捕捉的左和右音频信号可具有更好的SNR，这是由于电缆的更少移动和电缆形成的更少的环，因此对不想要的电磁辐射的更少拾取。该便携式设备可包括足够量的存储器以存储所述音频信号，例如1千兆字节易失性存储器(RAM)或非易失性存储器(闪存)，且该便携式设备可以例如包括无线发射机，例如RF发射机(例如蓝牙、WiFi等)，以将数据集传送至外部设备。

在这样的实施例中，外部计算机将执行除数据捕捉外的所有步骤，且该便携式设备(例如智能电话)将执行数据捕捉。

当然另一种功能性划分也是可能的，例如，使用平均ITDF和/或平均HRTF的步骤c)的第一次执行也可在智能电话上执行，而其它步骤由计算机执行。

在一实施例中，所述定向单元被包括在便携式设备中，所述便携式设备能安装到所述人的头部，以及其中所述便携式设备进一步包括形成所述计算设备的处理器和存储器，以及其中所述便携式设备进一步包括能够电连接至所述左和右入耳式话筒的接口装置，以及其中所述便携式设备的所述处理器被适配成用于执行步骤a)的所述左和右音频样本的捕捉以及所述定向信息的捕捉，以及用于在步骤b)中将所捕捉数据集存储在所述存储器中，以及用于执行步骤c)到步骤e)。

在这样的实施例中，所有步骤a)到e)，包括实际数据捕捉，均在便携式设备(例如智能电话)上执行。尽管这用纪元2015年的许多智能电话还不实际，但是构想了，将数字设备的处理能力和存储器大小随着技术进步增加，这种实施例将在几年时间里很实际。

在一个实施例中，所述便携式设备进一步包括扬声器，以及其中所述便携式设备的处理器被进一步适配成用于分析所述定向信息以便验证是否以至少预定义强度采样围绕所述头部的3D空间，以及用于如果所述验证的结果是以所述预定义强度采样所述空间则经由所述便携式设备的所述扬声器呈现第一预定义音频消息，且如果所述验证的结果是没有以所述预定义强度采样所述空间则由所述便携式设备的所述扬声器呈现第二预定义音频消息。

这样的数量的优点在于：在数据捕捉期间或短期后、在ITDF和HRTF的实际估计开始之前，提供某种形式的控制和交互。用这种方式，可增加估计的个人化ITDF和HRTF的精确度，且可减小在3D-VAS系统中呈现音频数据期间由ITDF和HRTF曲线在粗略采样的3D空间中的内插所带来的误感知的风险。

尽管定向信息可能具有不足以在确定HRTF时被直接用作声音来自哪里的方向信息的精确度，然而该精确度一般足以允许验证该人的头部周围的3D空间是否被充分采样。当然可能存在多于两个预定义消息。这种消息的示例例如可包含“测试结束”或“需要重复测试”或“看向右和上时需要附加采样”的消息或任何其它消息。

在第二方面中，本发明涉及包括根据第一方面的计算机程序产品的数据载体。

在一实施例中，该数据载体进一步包括所述听觉测试信号的数字表示。

在第三方面中，本发明还涉及根据第一方面的计算机程序产品的传送。

在一实施例中，该传送进一步包括所述听觉测试信号的数字表示的传送。

在第四方面中，本发明还涉及一种部件套件，包括：根据第二方面的数据载体，以及左入耳式话筒和右入耳式话筒。

这种部件套件的优点在于：其提供典型最终用户需要的所有硬件(在和他/她已经具有的计算机和/或智能电话和音频装备的基础上)，以建立他/她的个人化ITDF和个人化HRTF。此部件套件可作为独立包装提供，以例如与3D游戏或其它软件包装一起提供。听觉测试信号可例如从因特网上的特定网站下载，或烧录在音频CD盘上，或写在存储棒上，或以其它方式获得。

在一实施例中，该部件套件进一步包括包含所述听觉测试信号的数字表示的第二数据载体。

该第二数据载体例如可以是可在独立立体声组件上播放的音频CD盘、可在DVD播放器或家庭影院设备上播放的DVD盘。

在第五方面中，本发明涉及一种在计算设备中估计特定人的个人化头部相关传输函数(HRTF)和个人化耳间时间差函数(ITDF)的方法，所述方法包括以下步骤：a)获得多个数据集，每个数据集包括源自左入耳式话筒的左音频样本和源自右入耳式话筒的右音频样本以及源自定向单元的定向信息，每个数据集的所述左音频样本和所述右音频样本和所述定向信息是在布置中被同时捕捉的，其中：所述左入耳式话筒被插入在所述人的左耳中，以及所述右入耳式话筒被插入在所述人的右耳中，以及所述定向单元被安装在所述人的头部上或被安装到所述人的头部，以及所述人位于距扬声器一距离处，以及所述扬声器被布置成用于呈现听觉测试信号，所述听觉测试信号包括多个听觉刺激，以及a)所述人在所述听觉测试信号的呈现期间在多个不同定向上转动头部；b)将所述多个数据集存储在存储器中；c)针对存储在所述存储器中的每个数据集，估计所述扬声器相对于所述人的所述头部的方向；d)基于存储在所述存储器中的所述多个数据集(Li,Ri,Oi)并且基于在步骤c)中估计的方向来估计所述人的个人化ITDF；e)基于存储在所述存储器中的所述多个数据集(Li,Ri,Oi)并且基于在步骤c)中估计的方向来估计(1005)所述人的个人化HRTF。

在一实施例中，步骤e)进一步包括估计扬声器和话筒的组合传输函数。

在一实施例中，步骤c)的估计基于存储在所述存储器中的所述多个所捕捉数据集并且基于将听觉线索与空间信息相关的至少一个传输函数。

在一实施例中，估计ITDF的步骤d)包括利用基于包含不同人的多个ITDF函数的数据库的统计分析的关于个体化ITDF的先验信息。

在一实施例中，估计HRTF的步骤d)包括利用基于包含不同人的多个HRTF的数据库的统计分析的关于个体化HRTF的先验信息。

在一实施例中，所述方法进一步包括以下步骤组合的一次或多次迭代：i)在执行步骤d)和步骤e)之后，再次执行步骤c)以获得所述扬声器相对于所述人的头部的方向的经更新的估计，但是使用如在步骤d)中确定的个人化ITDF的估计而不是使用一般性ITDF以及使用如在步骤e)中确定的个人化HRTF的估计而不是使用一般性HRTF；ii)在执行步骤i)之后，再次执行步骤d)，使用步骤i)的所述扬声器的所述方向的经更新的估计，以获得所述人的个人化ITDF的更新；iii)在执行步骤i)之后，再次执行步骤e)，使用步骤i)的所述扬声器的所述方向的经更新的估计，以获得所述人的个人化HRTF的更新。

在一实施例中，步骤c)包括：从所述多个数据集的所述左音频样本和所述右音频样本提取定时信息；基于所提取的定时信息针对每个数据集(Li,Ri,Oi)估计所述扬声器相对于所述人的头部的方向，由此使用通用ITDF而不使用通用HRTF。

在一实施例中，步骤e)在执行步骤c)和步骤d)的组合之后被执行；且步骤e)进一步包括：从所述多个数据集的所述左音频样本和所述右音频样本(Li,Ri)提取频谱信息；基于所提取的频谱信息估计高程偏移；基于所述左音频样本和所述右音频样本中包含的所述定时信息和频谱信息以及基于步骤c)的所述扬声器的估计的方向来确定个人化HRTF的估计。

在一实施例中，所述方法进一步包括以下步骤组合的至少一次迭代：i)再次执行步骤c)以获得所述扬声器的方向的经更新的估计，其中在步骤c)的第二次执行和每次后续执行中使用个人化ITDF的估计而非通用ITDF；ii)使用步骤i)的所述扬声器的方向的经更新的估计来再次执行步骤d)以获得所述人的经更新的个人化ITDF。

在一实施例中，所述定向单元提供相对于地球重力场以及相对于地球磁场的定向信息。

在一实施例中，所述方法进一步包括以下步骤：将所述左入耳式话筒插入所述人的左耳中并将所述右入耳式话筒插入所述人的右耳中以用于捕捉源自所述扬声器的所述左音频信号和所述右音频信号。

在一实施例中，所述方法进一步包括以下步骤：将所述定向单元安装在所述人的头部上或安装到所述人的头部。

在一实施例中，所述定向单元被包括在便携式设备中，并且其中所述方法进一步包括以下步骤：将包括所述定向单元的所述便携式设备安装在所述人的头部上或安装到所述人的头部。

在一实施例中，所述方法进一步包括以下步骤：经由所述扬声器呈现所述听觉测试信号。

在一实施例中，所述音频测试信号包括具有小于4.80ms的历时的多个听觉刺激。

在一实施例中，所述方法进一步包括以下步骤：取决于对所捕捉数据集的分析从一组预定义音频消息中选择预定义音频消息，以及经由不同于所述第一扬声器的第二扬声器呈现所选择的音频消息，以用于在呈现所述音频测试信号之前和/或期间和/或之后向所述人提供信息或指令。

根据第六方面，本发明还提供了通过根据第五方面的方法估计的个人化ITDF和个人化HRTF

根据第七方面本发明还涉及一种用于为特定人生成虚拟音频信号的3D-VAS系统，所述3D-VAS系统利用根据第五方面的方法获得的个人化头部相关传输函数(HRTF)和个人化耳间时间差函数(ITDF)。

一种个体化HRTF在各种音视部门中具有广泛应用和利用潜力，主要的是：计算机游戏、家庭影院和电话会议。在这三个领域中，已经有使用一般化HRTF来生成3D音频假象的软件可用，但是因为其还不可能以容易的方式确定(例如测量或估计)个体化HRTF，所以这些应用至今不允许使用个体化HRTF，这将需要软件的(有限)适配。

本发明的特别和优选方面在所附独立和从属权利要求中阐述。从属权利要求中的技术特征可以与独立权利要求的技术特征以及其他从属权利要求的技术特征适当地结合，而不仅仅是其在权利要求中明确阐明的那样。

本发明的这些以及其他方面从下文所描述的(诸)实施例中将变得显而易见并且将参考这些实施例来进行阐明。

附图简述

图1解说了来自特定方向的声音如何在不同时间到达人的左耳和右耳，以及双耳如何施加不同的频谱滤波。

图2是可在本发明的实施例中使用的不同参考系的示意图：安装到头部的定向单元的参考系、世界参考系(其是固定到世界的被定向单元使用的任何帧)、以及固定到头部的参考系(其被定义为在标准HRTF和ITDF测量中使用的头部参考系)(还参见图3和图4)。源相对于头部的方向由横向角度φ和高程定义。

图3示出了特定人的耳间时间差函数(ITDF)的示例，由此不同强度(灰度)被用来指示不同的耳间时间差(ITD)值，该值取决于声音来自的方向。Iso-ITD等高线用白色曲线示出。

图4示出了特定人沿中间平面的单耳(左耳)头部相关传输函数(HRTF)的示例，由此不同强度(灰度)被用来指示不同值。Iso-响应等高线用白色曲线示出。

图5示出了现有技术中已知的在无回声室外测量HRTF的布置。

图6示出了用于执行根据本发明的方法的一个或多个步骤的可能硬件配置的第一示例，由此数据捕捉被电连接至入耳话筒的计算机执行，且由此定向数据被从存在于智能电话中的传感器单元获得。

图7示出了用于执行根据本发明的方法的一个或多个步骤的可能硬件配置的第二示例，由此数据捕捉被电连接至入耳话筒的智能电话执行，且由此定向数据被从存在于该智能电话中的传感器单元获得，且由此数据处理也能够被智能电话执行。

图8示出了用于执行根据本发明的方法的一个或多个步骤的可能硬件配置的第三示例，由此数据捕捉被电连接至入耳话筒的智能电话执行，且由此定向数据被从存在于该智能电话中的传感器单元获得，且由此数据处理被卸载到计算机或“云”。

图9解说了在本发明的方法中药被估计的变量，由此解说了在本发明的实施例中使用的算法的数据处理部分所要解决的问题。

图10示出了本发明提出的算法的主要步骤。

图11是本发明提出的(通用)方法的数据流图表示。

图12是图10的算法的第一具体实现(在本文中称为“算法1”)的数据流图表示。

图13是图10的算法的第二具体实现(在本文中被称为“算法2”)的数据流图表示。

图14示出第一具体实现(“算法1”)的详细流图。

图15示出第二具体实现(“算法2”)的详细流图。

图16示出可在本发明的实施例中使用的任选附加功能性的流图。

这些附图只是示意性而非限制性的。在附图中，出于解说性目的，可将一些元素的尺寸放大且未按比例绘制。

权利要求中的任何附图标记不应被解释为限制范围。

在不同的附图中，相同的附图标记指相同或相似的元件。

解说性实施例的详细描述

本发明将针对特定实施例且参考一些附图进行描述，但是本发明不限于此，而是只通过权利要求限定。所描述的附图只是示意性的而非限制性的。在附图中，出于说明目的，一些元件的大小可被放大并且不按比例绘制。尺寸和相对尺寸不对应于本发明实践的实际缩减。

此外，说明书中和权利要求中的术语第一、第二等等用于在类似的元素之间进行区分，而不一定用于在时间上、空间上、以排名或任何其他方式描述某个顺序。应该理解，如此使用的这些术语在合适环境下可以互换，并且本文描述的本发明的实施例能够以除了本文描述或解说的之外的其他顺序来操作。

此外，说明书和权利要求中的术语顶、下方等等用于描述性的目的并且不一定用于描述相对位置。应该理解，如此使用的这些术语在合适环境下可以互换，并且本文描述的本发明的实施例能够以除了本文描述或解说的之外的其他取向来操作。

要注意，权利要求中使用的术语“包括”不应被解读为限定于其后列出的手段；它并不排除其他元素或步骤。由此其解读为指定所陈述的特征、整数、步骤或组件的存在，但不排除一个或多个其他特征、整数、步骤或组件，或其群组的存在或添加。因此，措词“一种包括装置A和B的设备”的范围不应当被限定于仅由组件A和B构成的设备。这意味着该设备的唯一与本发明有关的组件是A和B。

贯穿本说明书引述的“一个实施例”或“一实施例”意指结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。由此，短语“在一个实施例中”或“在一实施例中”在贯穿本说明书的各个地方的出现并不一定全部引述同一实施例，但是可能引述同一实施例。此外，在一个或多个实施例中，如本领域普通技术人员会从本公开中显而易见的，特定特征、结构或特性可以用任何合适的方式进行组合。

类似地，应当领会，在本发明的示例性实施例的描述中，出于精简本公开和辅助对各个发明性方面中的一者或多者的理解的目的，本发明的各个特征有时被一起编组在单个实施例、附图或其描述中。然而，这种公开方法不应被解读为反映所要求保护的本发明需要比每项权利要求中所明确记载的更多特征的意图。相反，如所附权利要求反映的，各发明性方面存在于比单个前述公开的实施例的全部特征更少的特征。由此，详细描述之后所附的权利要求由此被明确纳入该详细描述中，其中每一项权利要求本身代表本发明的单独实施例。

此外，尽管本文描述的一些实施例包括其他实施例中所包括的一些特征但没有其他实施例中包括的其他特征，但是不同实施例的特征的组合意图落在本发明的范围内，并且形成如本领域技术人员所理解的不同实施例。例如，在所附的权利要求书中，所要求保护的实施例中的任何实施例均可以任何组合来使用。

在本文所提供的描述中，阐述了众多具体细节。然而应理解，在没有这些具体细节的情况下也可实践本发明的实施例。在其他实例中，公知的方法、结构和技术未被详细示出以免混淆对本描述的理解。

在本发明的上下文中，“耳间时间差”或“ITD”是指可用某个值(例如，以毫秒计算)表示的时间差，但是此值取决于声音来自的方向(相对于头部)而不同。不同方向的ITD的表示在本文中称为“耳间时间差函数”或“ITDF”，且这一函数的示例在图3中示出。

在本发明的上下文中，“头部相关传输函数”或“HRTF”是指双耳频谱函数的总效果(对于中间平面，如图4中仅针对左耳所示)，每个频谱函数(与图4中的每个水平线对应的值)表示由身体、头部和/或左右耳对来自特定方向的声音施加的频谱滤波特性。

在本发明中对“物体的位置”做出引用之处，是指在3D空间中的特定位置，如例如可由关于世界参考系的特定X,Y,Z坐标所指示的，但也可使用其它坐标。

在本发明中对“物体的定向”做出引用之处，是指在3D空间中的定向，其可例如通过关于世界参考系的3D欧拉角度来表达，但也可使用其它坐标。

在本发明中对“声音源相对于头部的方向”做出引用之处，是指如在标准HRTF和ITDF测量中使用的关于头部参考系的特定方向。此方向通常通过两个角度来表达：横向角度φ和高程角度如例如在图2中所示，由此横向角度φ是范围在0到π中的值，而高程角度是范围在0到2π中的值。

在本发明中对“定向传感器”或“定向单元”而非(6D)位置传感器做出引用，因为我们主要对头部的定向感兴趣而(X,Y,Z)位置信息不是估计HRTF和ITDF所真正需要的。尽管如此，如果可用，(X,Y,Z)位置信息也可被算法用来查明头部的转动中心在数据获取期间没有改变太多。

在本文中，术语“平均HRTF”和“一般化HRTF”作为同义词被使用，且指代人群的一类平均的或共同的HRTF。

在本文中，术语“平均ITDF”和“一般化ITDF”作为同义词被使用，且指代人群的一类平均的或共同的ITDF。

在本文中，术语“个体化HRTF”和“个人化HRTF”作为同义词被使用，且指代特定人的HRTF。

在本文中，术语“个体化ITDF”和“个人化ITDF”作为同义词被使用，且指代特定人的ITDF。

发明人面对找到以(对用户而言)简单的方式并且以(对用户而言)减小的成本来个体化HRTF和ITDF的方式的问题。

所提出的方法尝试组合两个(相互矛盾)的需求：

(1)对充分收集信息数据以便ITDF和HRTF可被足够精确地估计(或换言之：真实的ITDF和HRTF可被足够精确地近似)的需要，以及

(2)该过程(或更确切地：该数据被捕捉的部分)可在家中执行并且对普通用户而言并不太难这一限制。

发明人实现了具有两个主要步骤的方法：

1)数据捕捉的第一步骤，该步骤易于执行，并且使用家中通常可用的硬件：声音在线设备(例如，可连接到扬声器的任何单声道或立体声链或MP3播放器等)以及定向传感器(如现在例如在智能电话中可用的)。用户仅需要购买一组入耳式话筒，

2)数据处理的第二步骤，其可例如在同一智能电话上执行，或在另一计算设备上(诸如在台式计算机或平板计算机上或者甚至在云中)执行。在第二步骤中，执行算法，该算法被调谐到数据捕捉步骤的详情，并且将以下纳入考虑：扬声器和话筒的特性可能未被知晓，且人相对于扬声器的位置可能未被知晓，且人的头部上的定向单元的位置/定向可能未被(准确)知晓，且定向单元提供的定向数据的精度可能不是非常精确(例如，具有+/-10°的容差)。

由此妥协得到的ITDF和HRTF可能不完美，但是足够精确以允许用户(近似地)在3D空间中定位声音源，特别是在分辨前后方面，由此创建对用户具有附加价值的空间感受。而且，最终用户主要面对第一步骤的优势，且不面对数据处理步骤的复杂性。

在本文的剩余部分中，首先将参考图5讨论第一现有技术方案。随后将参考图6到图8更详细地解释本发明的数据捕捉步骤。最后将参考图9到图16更详细地解释本发明的数据处理步骤。

I.已知方案

图5是US5729612A的副本，并且解说了在无回声室外的已知测试设定的实施例，其中人503坐在距扬声器502已知距离处的椅子上，该扬声器安装在专用支架506上以允许扬声器在高度方向上移动。左音频信号和右音频信号被该人戴着的两个入耳式话筒505捕捉。该人的头部移动被坐在椅子507上的该人的头顶上安装的位置传感器504跟踪，该椅子可定向在特定方向上(如由地板上的线所指示的)。话筒505和位置传感器504经由电缆电连接至计算机501。计算机501向扬声器502发送听觉测试信号，并使用专用支架506控制扬声器502的竖直位置。

数据将在501中被处理，但该文档没有提及具体如何从测得的音频信号和位置信号来计算ITDF和HRTF。该文档的确提及了校准步骤，以确定扬声器502和话筒505的传输性质，且该方法还严重依赖于以下事实：人503和扬声器502的相对位置被准确知晓。

II.数据捕捉

图6到图8示出根据本发明的可用来捕捉数据的可能的测试布置的三个示例，本发明不限于此。

在所示配置中，声音源602、702、802(例如扬声器)被定位在距人604、704、804未知位置处，但与该人的头部大致处于相同高度。扬声器例如可被放置在桌子边上，并且不需要被移动。人603、703、803可坐在椅子等上。该人正在他/她的左耳中戴着左入耳式话筒，并在他的右耳中戴着右入耳式话筒。定向单元604、704、804被安装到该人的头部，优选地在该人的头顶上，例如借助头带(未示出)或带子或可伸缩装置或弹性装置。定向单元例如可包括加速度计和/或陀螺仪和/或磁力计，但是也可使用任何其它适当定向传感器。定向单元可被包括在便携式设备(诸如举例而言智能电话)中。本发明的实施例的优点在于：定向单元关于头部的位置和定向不需要被准确知晓，且定向传感器不需要非常精确(例如+/-10°的容差完全可接受)，如将被进一步解释的。

在数据捕捉步骤期间，听觉测试信号(例如存在于CD音频盘上的预先录制的音频文件)在声音再现装备608、708、808上被播放并经由(单个)扬声器602、702、802呈现。替代地，两个或者甚至更多扬声器可被使用。听觉测试信号包括多个听觉刺激，例如具有预定义历时和预定义频谱内容的哒声。在本发明的上下文中，为便于解释，术语“哒声”和“刺激”被互换地使用且均指代听觉刺激。优选地，短历时和具有宽带频谱的听觉刺激被使用，但本发明不限于此，且也可使用其它信号，例如短的纯音调(tone)。

在听觉测试信号正被经由扬声器呈现的同时，该人需要轻柔地将他/她的头部在多个不同定向上转动(参见图2)。

感兴趣的听觉刺激(例如，哒声)被左和右入耳式话筒605、705、805捕捉或记录，且对于每个所记录的刺激，指示在刺激到达耳朵的时刻头部的定向的定向数据也被捕捉或记录。

在图6的配置中，入耳式话筒605(经由相对长的电缆)电连接至计算机601，该计算机捕捉左和右音频数据，并且还(有线或无线地)从定向传感器单元604检索定向信息。计算机601随后可将所捕捉的信息作为数据集存储，每个数据集包括源自左入耳式话筒的左音频信号(Li)和源自右入耳式话筒的右音频信号(Ri)和源自定向单元的定向信息(Oi)。数据集可按任何适当方式存储，例如按交织方式存储在单个文件中，或存储在分开的文件中。

图6的配置的缺点在于：入耳式话筒以及可能还有定向传感器经由相对长的电缆连接至计算机，这可能妨碍人的移动。

定向单元604可被包括在便携式设备中，诸如举例而言智能电话、游戏控制台的遥控器，其可包括配置有用于从定向传感器读取定向数据以及用于将该定向数据传送至计算机601的计算机程序的可编程处理器，该计算机可适配成具有用于接收所述数据的计算机程序。定向数据例如可经由有线或无线(图6中的虚线所指示的)传送。在无线情况下，计算机601和传感器单元604之间的线可被省略，这对于用户603更方便。

图7的设定可被视为图6的设定的变种，其中定向单元704是便携式设备(例如智能电话)的一部分，该便携式设备具有可编程处理器和存储器，并且进一步装备有各装置，例如可插入在外表面中以及具有一个或两个输入连接器以与左和右入耳式话筒705连接以捕捉到达左耳和右耳的音频样本(被称为左和右音频样本)的插件设备。因为嵌入传感器单元704，所以处理器可从传感器704读取或检索定向数据，并将所捕捉的左和右音频样本和对应的(例如同时捕捉的)定向信息作为多个数据集存储在存储器中。

图7的实施例的进一步优点在于：便携式设备和入耳式话筒705之间的电缆可以短得多，这对用户703而言更舒适且方便，并允许更大的运动自由度。如此捕捉的音频信号通常还包含更少的噪声，因此以此方式可增加SNR(信噪比)，从而最终导致估计的ITDF和HRTF的更高的精确度。

如果第二个步骤(即数据处理)也由便携式设备(例如智能电话)执行，则仅单个软件程序产品需要被加载在智能电话上，且不需要额外的计算机。

图8是关于图7描述的后一实施例的变种，其中第二个步骤(即所捕捉数据的数据处理)由外部计算机801执行，但是第一个步骤数据捕捉仍旧由便携式设备执行。所捕捉的数据可被从便携式设备传送至计算机，例如经由有线或无线，或以任何其它方式。例如，便携式设备可将所捕捉数据存储在非易失性存储卡等上，且用户可在捕捉完成后将存储卡从便携式设备移除并将其插到计算机801的相应槽中。后两个示例均提供了以下优点：用户803具有很大的移动自由度，并且不被电缆妨碍。无线变种具有不需要交换存储卡的附加优点。在图8的所有实施例中，便携式设备需要第一软件模块一捕捉数据，以及存储或传送所捕捉数据，并且计算机801需要第二模块来获得(例如接收或检索或读取)所捕捉数据，以及处理所捕捉数据以便估计个体化ITDF和个体化HRTF。

后面的章节A到G适用于用于捕捉数据集(具体而言，包括左音频、右音频和定向信息)的所有硬件布置，但不限于图6到8所示的布置，除非另外具体说明。

在这些章节中，将参考“哒声”作为感兴趣的音频刺激的示例，以便于解释，但是本发明不限于此，且也可使用其它信号(诸如短的纯音调)，如上所述。

在这些章节中，将参考“智能电话”作为嵌入有定向传感器单元的便携式设备的示例，但是本发明不限于此，且在一些实施例(诸如图6中示出的实施例)中，独立的定向传感器单元604也可行，而在其它实施例(诸如图8中示出的实施例)中，便携式设备需要至少具有音频捕捉装置和存储器，而在又一些其它实施例(诸如图7中示出的实施例)中，便携式设备进一步需要具有处理装置。

A.音频和定向的同时捕捉

左和右音频样本(即所记录的刺激)和定向信息相对应是很重要的。理想情况下，左和右音频信号被“同时采样”(在时钟信号的容差余裕内)，但是测量定向数据的确切时间存在一定容差。对本发明而言，重要的是，定向数据表示音频样本被捕捉的时刻头部的3D定向。作为示例，假定头部在捕捉步骤期间轻柔转动(例如以小于每秒的角速度60°)且听觉刺激具有相对短的历时(例如小于5.0毫秒)，那么在听觉刺激的开始还是结束处还是在刺激期间从传感器检索定向数据不真正重要，因为其将导致小于60°/200(其为约1°的1/3)的角度定向误差，这是完全可接受的。

B.硬件设定

在数据捕捉期间，扬声器602、702、802和人603、703、803之间的距离优选地是在1.0到2.0米范围内的距离，例如，在1.3到1.7米范围内，例如约1.5米，但是不需要知道精确距离。扬声器应当大致定位在房间的高度的约一半处。人的头部应当被定位在与扬声器大致相同的高度。扬声器朝向头部。假定约20厘米的头部宽度、位于1.5米距离处的源，耳朵应当为bgtan(0.1/1.5)rad＝3.8°离轴。而且，假定该人的头部主要是转动且没有平移或仅最小平移，则声波可通过平面波来近似且因此对于大多数扬声器，主瓣足够宽以将头部完全包含在感兴趣的频率，强度差是有限的。

在下面描述的示例中，使用了单个扬声器，但是当然本发明不限于此，且也可使用位于空间中不同点的多个扬声器。例如，声音再现系统可以是立体声系统，其向左扬声器和右扬声器交替发送听觉刺激。

C.最终用户的可能过程

所述过程优选地在相对安静的房间(或空间)中执行。人可被提供有包含听觉测试信号的音频CD以及手写或听觉指令。用户可按提到的次序或按任何其它次序执行以下步骤中的一个或多个

1.将该扬声器方在桌子的边上(但也可使用其它适当位置)。将声音再现设备(例如立体声链)配置成使得仅一个扬声器产生声音(或两个均产生声音，但不同时产生声音)，

2.听音频CD上的指令，该指令例如可包括用户必须多么频繁和/或多么快和/或何时改变他/她的头部定向的指令。

3.将左入耳式话筒插入左耳，并将右入耳式话筒插入右耳，并将所述话筒连接至智能电话(在图6中，连接至外部计算机601)，

4.将适当的软件应用(通常被称为“app(应用)”)下载到智能电话上，并运行该应用(此步骤不适用于图6)

5.将智能电话(或图6中的传感器)放在头顶上，并例如使用专门设计的头带或另一紧固装置固定其位置，以允许智能电话捕捉和/或流传输和/或记录任何头部定向和/或移动和/或位置，

6.将自己定位(例如坐或站)在距扬声器大约1.5+/-0.5米距离处。确保房间足够大，并且在距扬声器以及距人约1.5米半径内不存在墙壁或物体(以避免反射)。

7.当听到听觉刺激(例如哒声)时，在预定义时段(例如5到15分钟，例如约10分钟)期间在所有方向上(例如从左到右，从上到下等)(这意味着头部的位置(X,Y,Z)应当保持不变，且仅头部的定向(例如，关于世界参考系的3个欧拉角度)被改变)轻柔地转动头部，参见图2，以改变声音相对于头部的入射角)。在一系列听觉刺激(例如哒-)之间，可给出关于如何移动的指南。例如，可在特定时刻给出转动头部四分之一圈(90°)或半圈(180°)以便横向半球和来自用户“后方”的声音也被采样的指令。

8.在测试完成后，将请求用户从头部移除智能电话并停止“应用”的捕捉或记录。

个体化ITDF和个体化HRTF随后例如在智能电话本身上(参见图7)被计算，在此情况下所捕捉数据不需要被传输至另一计算机，或在另一计算机上计算，例如在云中，在此情况下所捕捉数据需要被从该“应用”传输至该计算机或网络。随后使用特定算法来计算ITDF和HRTF(如将在下面解释的)，且随后使所得到的ITDF和HRTF可用，且准备好用于个人用途，例如在3D游戏环境中，或电话会议环境中，或任何其它3D-VAS应用中。

上面描述的过程的许多变种是可能的，例如：

-所捕捉数据的传输可在所有测量被获取前已经开始，

-计算可在所有所捕捉数据被接收前已经开始

-不是仅捕捉数据，智能电话还可分析数据，例如定向数据，以验证是否已测量了所有方向，且可能例如在其自己的扬声器上呈现具有相应指令的恰适消息，例如，在特定方向转动头部等。

D.房间和听觉测试信号

不同的测试刺激可被用于确定ITDF和HRTF。在一个实施例中，提议使用宽带刺激(在本文中称为“哒声”)，其中频率从5kHz到12kHz变化。在这一部分频谱中，HRTF改变最多(参见图4中的示例)，本发明不限于此。

传统上，HRTF测量是使用很长的信号(例如约2到5秒)执行的。传统上，HRTF测量是在(半)无回声室中执行的。此处，墙壁覆盖有声音吸收材料，以使得墙壁和其它物体上的二次反射被降低到最小。因为本发明的方法将在家中执行，所以这些反射不能用这种方式来消除。相反，使用具有足够短到防止直接声音和(从墙壁和/或房间中的物体)反射的声音交叠(对于典型的房间)的历时的刺激信号(例如哒声)。

假设在示例性布置中，扬声器处于1.40米的高度Hls，且人头部处于1.40米的高度Hhead，且人和扬声器之间的距离为L＝1.4米，且房间的高度为至少2.8米，以便地上的反射在屋顶上的放射之前到达，则直接路径和第一次反射(地上的反射)之间的行进距离的差为：

并且从而被反射的信号需要(1.7m)/(344m/s)＝约4.94ms的更长时间来到达头部。

从而，通过采用具有短于4.94ms(例如最多4.80ms、或最多4.50ms、或最多4.25ms、或最多4.0ms、或最多3.5ms、或最多3.0ms、或最多2.5ms、或最多2.0ms、或最多1.5ms、或最多1.0ms)的历时的刺激信号，可使用窗口掩模(window mask，其本身为本领域已知的技术)来将直接信号与后续反射轻易分开。在后文中，将假定4.80ms的刺激历时，尽管本发明不限于此，且取决于房间性质，也可使用比4.80ms更长或比4.8ms更短的其它脉冲历时。还构想了，音频CD上可存在多于一个听觉测试信号，且用户可取决于房间性质选择一个最恰适的听觉测试信号。

在每个刺激(例如哒声)之后，等待足够长的时间以便环境中的所有反射(混响)被充分消灭。此历时取决于该室和其中的物体。所谓的混响时间被定义为确保回声信号强度与原始信号相比下降60分贝所需的时间。各室中的测试将必须显示哪个脉冲间时间是必要的以便回声信号被充分衰减。根据初步测试，预期约400ms的脉冲间时间就足够了，但是本发明不限于此，且可使用大于或小于400ms的其它脉冲间时间，例如约100ms、例如约200ms、例如约300ms、例如约500ms、例如约600ms、例如约800ms、例如约1000ms的脉冲间时间。保持哒声间时间尽可能小是有利的，以增加总测试时间(例如约10分钟)的哒声的数量，或换言之，以降低给定数量的哒声的总测试时间。如果提供音频CD或DVD，还可能提供具有不同脉冲历时和/或不同脉冲间时间和/或不同总测试历时的多个音频测试信号(例如音轨)，且该过程可包括确定适当音频测试文件(例如取决于其中执行测试的房间)的步骤。音频CD上的一个可能的实现将是：指令存在于第一音轨上，其中告知用户不同选项，并且其中用户可取决于他/她的房间性质和/或期望精确度来选择恰适的测试信号(采集的样本越少，数据捕捉和处理可以越快，但是所得到的ITDF和HRTF预计越不精确)。

连续刺激不需要相同，而是可在频率内容和/或历时方面改变。如果连续的刺激被选择为使得所述刺激覆盖不同频带(其可被清晰区分)，则这种测试信号设计将允许减少刺激间时间，并且因此改善数据获取。

在其中多于一个扬声器(例如在立体声信号的情况下的两个扬声器)被使用的实施例中，则每个扬声器被定位在空间中的不同点，且每个扬声器呈现包括不同刺激(不同的频谱和/或扬声器间的刺激交替(刺激/无刺激))的不同的听觉测试信号(使用立体声输入)，以便能够在接收到刺激时将刺激分开并且标识刺激所源自的扬声器。优点在于：本发明适用于大量房间设定，而无需专用的椅子或用于安装扬声器的专用支架等，无需在数据捕捉期间重新定位扬声器，无需知道扬声器的精确位置，且无需知道扬声器的滤波性质。

E.测量头部定向

为了确定HRTF和ITDF，知道声音相对于头部所来自的方向是必要的。根据本发明，此相对定向可通过利用一个或多个定向传感器获得，所述定向传感器例如是加速度计(主要测量相对于重力轴的定向)、陀螺仪(测量旋转移动)、磁力计(测量相对于地球的磁场的角度)，但是也可使用其它定向传感器。定向单元被固定到头部(可能以预定义方式)，但是定向单元相对于头部参考系的精确定位不需要提前知晓。

本发明的优点在于：定向传感器单元的可能的不精确不仅通过依赖于从定向传感器获得的信息，而且还在确定头部定向时将音频信号纳入考虑来解决，如将在下面在描述算法时更详细地解释的。

优点在于：头部移动由人自己按照比现有技术远更自由且方便的方式来执行。而且，在本发明的一些实施例中，人不被从入耳式话筒延伸到外部计算机的电缆妨碍。

F.硬件

尽管并非所有智能电话均允许经由立体声或两个单声道输入连接器来捕捉或记录立体声音频信号，然而存在经由USB端口进行立体声记录的扩展，例如可购得的“TASCAMiM2Channel Portable Digital Recorder(TASCAM iM2通道便携式数字记录仪)”。尽管此扩展具有不能被插入到耳朵中的话筒，然而此示例表明本技术很容易制造这种专用扩展，例如通过移除话筒或者通过提供两个音频连接器，其中入耳式话筒可被插入所述音频连接器。这仅是可在图7和图8的实施例中使用的可能便携式设备的一个示例。

用于确定便携式设备的定向信息的技术也可用。例如考虑“Sensor Fusion App(传感器混合应用)”。此应用显示用于从具有嵌入式定向传感器的便携式设备检索定向信息可用，所述定向传感器诸如举例而言加速度计(主要测量相对于重力轴的定向)、陀螺仪(测量旋转移动)和/或磁力计(测量相对于地球的磁场的角度)。

G.向计算装置提供所捕捉数据

在捕捉和/或记录和/或流传输来自话筒的左和右音频信号(也被称为双耳音频数据)和相应的头部定向(来自定向单元)之后，所捕捉数据的处理可由便携式设备(例如智能电话)自身或远程计算机(例如，在云中或在台式机或膝上型计算机或游戏控制台)上的处理器执行，数据被传送或流传输或以任何其它方式(例如经由可交换的存储卡)提供给所述便携式设备或远程计算机。

III.数据处理

将参考图9到图16更详细地解释本发明的数据处理步骤。

图9是解说要估计的未知量的示意图。换言之，此图解说了要由在本发明的实施例中使用的算法的数据处理部分解决的问题。

如从图9中可见，个人(或个人化)的ITDF和个人(或个人化)的HRTF不是要确定的唯一变量集合。数据获取期间的头部定向是该设定中的未知量(如图6到8中所示)，因为定向单元关于头部参考系的定向不被精确知晓，且因为在接收到每个听觉次级(例如，在每个哒声处)的时刻的头部定向可能无法仅基于传感器信息而被精确知晓，因此被认为是未知量。而且，声音源的方向也是未知的。此外，扬声器和话筒组合的频谱性质可能是未知的，因为用户可使用任何可用扬声器。话筒的传输性质可以是提前已知的，特别是在话筒例如是在连同CD一起在包装中出售时，但是即使那时，扬声器的参数也不是已知的。在其中扬声器和话筒的传输性质已知的情况下，算法可使用所述传输性质，但是这不是绝对必要的。

据发现，这大量的未知量不能用足够的精确度来估计，除非所有数据被组合并一起估计。这是本发明的另一个优势方面。例如，源自(一个或多个)定向传感器(例如嵌入在智能电话中的定向传感器)的原始定向和移动数据可能不允许以足够的精确度确定头部定向，尤其因为智能电话相对于头部的位置/定向不被完全知晓，且此外，还因为在定向传感器的精确度有限的情况下精确估计头部定向可能非常困难。然而，发明人意识到，定向信息也包含在左和右音频数据中，尽管存在以下事实：定向信息不能容易地从左和右音频数据中提取，因为HRTF和ITDF和声音源方向不被完全知晓。

简言之，在优选实施例中，本发明所提出的方案基于迭代过程，该迭代过程开始于对数据获取期间智能电话定向、一般化的HRTF和ITDF的初始估计，以及对扬声器和话筒的滤波性质的估计。在迭代步骤期间，来自音频测量的信息与现实HRTF和ITDF的先前知识相组合。的确，因为HRTF和ITDF不是随机函数，所以其自由度是有限的。可能的HRTF和ITDF的结构(即，哪个HRTF和ITDF可能发生而哪些不太可能发生)可从测得的HRTF和ITDF(其例如是在无回声室中测得的)的现有数据库推断。例如基于HRTF和ITDF的数据库，特定系数基础可被选择，以使得足够详细地描述HRTF和ITDF所必需的系数的数量被大大减少，这减少了需要估计的系数的数量。对于组合的话筒/扬声器滤波同样如此。图9中示出的未知量可被迭代地优化，以使得如此获得的方案最佳地对应于所捕捉数据集。这将进一步更详细地解释。

在多个扬声器(例如在立体声信号(或者两个同步的非交叠的单声道信号)的情况下2个扬声器)的情况下，借助对所应用的听觉测试信号的选择，所记录的刺激可被标识为源自扬声器之一，并且因此获得两个独立的数据集，每个数据集对应于所述扬声器之一。这些数据集随后可被共同用来作为用于正确估计扬声器的定向和图9中示出的问题的其它未知量的算法的输入。具有两个不改变位置的“参考点”的事实可改善对头部定向的估计，并且因此改善对ITDF和HRTF的估计。

算法：

图10示出了本发明提出的算法的主要步骤。

在第一步骤1001(后文中也称为“步骤a”)中，获得多个数据集，每个数据集包括左和右音频样本，以及相应的定向数据。

“音频样本”的意思是例如左入耳式话筒接收的音频波形的一短部分，该部分包含扬声器发送的听觉刺激的经滤波版本。所接收的刺激波形之前可以是静音的一部分，且该部分可例如在刺激开始之后4.8ms处被截断，以避免反射，但这仅是一个示例。

注意，数据集可按许多不同方式被“获得”和/或“捕捉”和/或“存储”在存储器中，例如，作为单个交错文件或流，或作为三个分开的文件或流(例如，第一文件或流包含左音频样本，第二文件或流包含右音频样本，而第三文件或流包含定向数据，其中每个文件可包括同步信息，例如时间戳形式的同步信息)，或作为个体数据包，每个数据包包含左音频样本及右音频样本和关于固定到世界的参考系的定向数据，但是其它方式也是可能的，且本发明不限于这些方式中的任何方式。

取决于哪个硬件设备执行数据的捕捉，以及哪个硬件设备执行计算(例如，独立的计算机，或网络计算机，或智能电话，或任何其它计算装置)，“获得”可以是指：“接收”由另一设备捕捉(例如，由智能电话，参见例如图8)的数据(例如经由有线或无线接口)，或从可交换存储卡(数据被捕捉设备存储于存储卡上并且随后存储卡被连接至计算设备)“检索”或“读取”数据，或任何其它方式的数据传输。但是如果捕捉数据的设备与将执行计算的设备相同，则“获得”可以是指直接或间接地“捕捉数据集”，且所捕捉数据向另一设备的传输不是必需的。从而，很清楚，旨在处理数据的方法或计算机程序产品不需要必然也捕捉数据。

在第二步骤1002(在本文中也被称为“步骤b”)中，将数据集存储在存储器中。存储器可以是非易失性存储器或易失性存储器，例如RAM或闪存或存储卡等。构想了，如果算法可被实时执行(例如，在快速处理装置上，或通过在哒声之间使用长延迟)，以及如果每个步骤的单次执行将足以计算足够精确的个体化ITDF和HRTF，则所有数据不需要必然同时存在于存储器中，但这是非常例外的。通常，所有数据集将被存储在存储器中，然而并非所有数据需要同时处于RAM中，但是可以如此。

在第三步骤1003(在本文中也被称为“步骤c”)中，基于该多个数据集估计扬声器关于人的头部的相对方向，其中不仅使用定向传感器数据，而且其中还从音频数据提取相关空间信息(关于声音源相对于头部的方向的信息)，利用将听觉线索与声音源的空间信息相关的传输函数。可使用不同传输函数，ITDF和/或HRTF或任何其它函数可从这些函数推导出来，诸如例如基于耳间水平差(ILD)、耳间强度差(IID)或耳间频谱差(ISD)的函数，其本身在本领域中已知。

在第四步骤1004(在本文中也被称为“步骤d”)中，基于该多个数据集并将在步骤c)中估计的相对方向纳入考虑来计算个体化的ITDF。

在第五步骤1005(在本文中也被称为“步骤e”)中，基于该多个数据集并将在步骤c)中估计的相对方向纳入考虑来计算个体化的HRTF。

注意，步骤a)到e)不必然按该顺序被执行，且一个或多个步骤可被重复(迭代)。具体而言，两个具体算法将被进一步描述，它们在本文中被称为“算法1”和“算法2”。

在第一具体算法中，步骤c)、d)和e)可被重复一次或多次，其中步骤c)的第二次执行(且每次进一步执行)可将分别在步骤d)和步骤e)中估计的IDTF和HRTF的初步版本作为将听觉线索与空间信息相关的传输函数纳入考虑。这将参考图12和图14更详细地描述。

在第二具体算法中，步骤c)和d)和可被重复一次或多次，其中步骤c)的第二次执行(且每次进一步执行)可将在步骤d)中估计的IDTF的初步版本作为将听觉线索与空间信息相关的传输函数纳入考虑。在步骤c)和步骤d)的一次或多次迭代之后，在步骤e)中估计HRTF。这将参考图13和图15更详细地描述。

但是本发明不限于这些具体算法，且依赖于相同原理的其它具体实施例也可以是可能的。

图11是本发明提出的(通用)方法的数据流图表示。基于在步骤a和b中获得的定向传感器数据和双耳音频数据，每个哒声的时间处声音源相对于头部的方向在步骤c中被估计。基于传输函数的假设，从双耳音频数据提取关于声音源的空间信息是可能的。此传输函数可以是ITDF(将到达时间差与声音源方向相关)、HRTF(将双耳频谱与声音源方向相关)或可从这些函数推导的任何其它函数，如例如耳间水平差(ILD)、耳间强度差(IID)或耳间频谱差(ISD)，这些本身是本领域中已知的。初始地，可在步骤c中使用通用的非个体化的传输函数。将所得到的源方向估计与双耳音频数据(HRTF和ITDF)相组合可在步骤d和e中被估计。接下来，基于HRTF和ITDF的这些新估计，“更新”被用来改善声音源方向的估计的传输函数是可能的，声音源方向进而可随后被用来重新估计HRTF和ITDF。迭代可被执行预定次数，或直到出现收敛，从而导致ITDF和HRTF的最终估计。

图12是图10的算法的第一具体实现(在本文中被称为“算法1”)的数据流图表示。图12示出图11中示出的相同数据流，在此情况下步骤c利用HRTF和ITDF作为传输函数来从双耳音频数据提取关于声音源的空间信息。因此，在此算法中，HRTF和ITDF两者都在步骤d中使用在步骤c中产生的经迭代改善的声音源方向估计来迭代适配。

图13是图10的算法的第二具体实现(在本文中被称为“算法2”)的数据流图表示。图13示出图11中示出的相同数据流，在此情况下步骤c仅利用ITDF作为传输函数来从双耳音频数据提取关于声音源的空间信息。因此，仅ITDF在步骤d中使用在步骤c中产生的经迭代改善的源方向估计来迭代地适配。在预定义迭代次数之后，或在发生收敛之后，这产生ITDF的最终估计，且所得到的源方向估计与双耳音频数据相组合允许估计HRTF。因此，在此算法中，步骤e应当仅被执行一次。

图14示出第一具体实现(“算法1”)的详细流图。

在第一步骤1401中，利用基于对包含多个HRTF和ITDF的数据库的统计分析的关于个体化的HRTF和ITDF的先验信息和扬声器/话筒滤波性质，所获得的双耳音频数据(双耳频谱和ITD)被用来估计在固定于头部的坐标系中每个哒声i的时间处的源方向(φ_ι和)，参见图2。

在第二步骤1402中，所获得的智能电话定向传感器数据被用来估计固定到世界的坐标系中的每个哒声的时间处的智能电话定向。

在第三步骤1403中，来自步骤1401和1402的计算的结果被组合以估计从智能电话坐标系到头部坐标系的转换(3个角度)以及估计声音源(2个角度)在世界坐标系中的方向，参见图2。这5个角度的最佳估计是使得源相对于头部的方向(在步骤1401中估计的)在于经转换的智能电话定向(在步骤1402中估计的)相组合时最佳地映射到世界坐标系中的单个源方向的估计。

在第四步骤1404中，经改善的源相对于头部的方向(在步骤1403中估计的)被与ITD和双耳频谱测量和关于个体化的HRTF和ITDF的先验信息(基于对包含多个HRTF和ITDF的数据库的统计分析)相组合来估计HRTF和ITDF。估计的HRTF和ITDF与先前估计组合以计算个体化HRTF和ITDF的经改善估计。HRTF的经改善估计的源方向无关分量被用来改善扬声器和话筒的组合频谱滤波性质的估计。

ITDF、HRTF和扬声器和话筒的组合频谱滤波性质的经改善估计被用于始于步骤1401的下一次迭代。此迭代过程可在预定迭代数量之后停止，或者在使用某个准则已出现收敛，从而导致最终HRTF和ITDF时停止。

图15示出第二具体实现(“算法2”)的详细流图。

使用现代智能电话中的定向/位置传感器，估计绕重力轴的转动角度特别困难。但是(由ITD编码的)此信息可被非常容易地从听觉数据提取。因此，图10的算法的替换版本仅使用ITD数据来估计智能电话相对于声音源的定向。基于此信息，测得的双耳频谱数据随后被用来以非迭代方式估计HRTF和扬声器和话筒的组合频谱滤波性质。该替换算法由以下步骤构成：

在第一步骤1501中，基于对包含多个ITDF的数据库的统计分析将测得的ITD数据与关于个体化ITDF的先验信息相组合以估计初步ITDF。

在第二步骤1502中，测得的ITD数据被与初步ITDF相组合以估计每个哒声的横向角度φ_ι，即，耳-耳轴和源(扬声器)方向之间的角度。的确，ITDF是绕耳-耳轴大致对称的，参见图1和图2，因此，测得的ITD值主要包含关于横向角度φ_ι的信息。

在第三步骤1503中，定向传感器数据被用来估计固定到世界的坐标系中的每个点击的智能电话定向。

在第四步骤1504中，步骤1502和1503的结果随后被组合来估计声音源相对于世界坐标系的定向(2个角度)和耳-耳轴相对于智能电话的定向(2个角度)。对于这4个参数的任何组合，现在可以计算，在给定一系列测得ITD和智能电话定向数据的情况下，该智能电话的推测移动。为了优化这4个参数的估计，首先，应当要求内部一致性。而且，如果组合不带来智能电话的现实定向组合，则存在头部轨迹应当是生物上可信的附加要求：给定刺激之间的有限时间跨度(例如约400ms)，头部移动应当是连续的：头部不能再定向间跳动。此连续性度量可被用作优化准则以达到这4个参数的最优估计。给定测量期间的头部定向，可通过平滑头部的轨迹从而移除局部噪声来进一步改善头部的估计的移动。除了高程偏移外，源相对于头部的方向随后可被提取。的确，从受试者的视角的精确向前方向尚未被知晓。源方向的所得到的估计随后可被反馈到步骤1501，以便以迭代方式改善个体化ITDF的估计。因此，步骤1501、1502和1504可重复一次或多次，其中步骤1501的后续执行可将经校正的在步骤1504的先前执行中估计的源方向纳入考虑。

在第五步骤1505中，在此迭代过程中获得的估计的源相对于头部的方向被与基于包含多个HRTF的数据库的统计分析的关于个体化HRTF的先验信息相组合，以估计高程偏移、个体化HRTF和扬声器和话筒的组合频谱滤波性质。经改善的HRTF的源方向无关分量可被用来改善扬声器和话筒的组合频谱滤波性质的估计。

在最简单设定中，包含听觉测试信号(一系列听觉刺激，例如哒声)的声音文件被呈现在扬声器上，且数据被智能电话收集。包括针对受试者的指令可能是有益的，以直到他或她通过实验，从而改善数据收集。这些指令可以是固定的，例如预定的，作为要通过扬声器呈现的预先记录的声音文件的一部分，或者，另一种可能性可以是在计算设备(例如智能电话)上实时处理数据收集到某种程度并且给予用户立即反馈，例如以便改善数据获取。这可通过图16中概述的过程达成，该过程包括以下步骤：

在第一步骤1601中，智能电话捕捉、存储和检索定向传感器数据和双耳音频数据。

在第二步骤1602中，在智能电话上实时处理测得的数据。来自左和右音频样本的定时信息和/或频谱信息可针对该多个数据集被提取。基于此信息，信号的质量和实验设定(例如所接收的信号的信噪比、与回声的交叠等)可被评估。定向信息(精确或者近似)也可针对所捕捉样本的子集提取，其中该算法进一步验证头部周围的空间是否以足够的强度被采样。基于此信息，问题可被标识且改善数据收集的指令可被算法从一组预定义音频消息中选择，例如确保屋顶足够高，确保在1.5米的半径内部存在反射物体，增大/减小扬声器音量，使用不同的扬声器，更慢地移动头部，向左转四分之一圈以及将头从左向右移动等。

在第三步骤1603中，这些指令通过智能电话的扬声器实时传递。

在第四步骤1604中，人对这些指令做出反应，这些指令被反映在双耳音频数据和智能电话传感器数据的后续记录中(如在第一步骤1601中获得的)。

在第五步骤1605中，所收集的数据被用来根据早先描述的方法估计HRTF和ITDF。

其它考虑

向用户销售的商业包装可包括：一对入耳式话筒、以及具有听觉测试信号的音频CD。任选地，该包装还可包括头带，例如弹性头带，以将便携式设备或便携式设备组件固定到人的头部，但是后者不是必须的。事实上，音频CD也不是必须的，因为音频文件也可从特定网站下载，或者可通过其它存储装置，诸如举例而言DVD-ROM或存储卡等提供。预期最终用户已经拥有所需的其它硬件(特别是包括定向传感器单元的设备(诸如举例而言适当的智能电话))以及具有扬声器的声音再现系统(例如，立体声链、或具有声卡的计算机、或MP3播放器等)和音频捕捉单元(例如，装备有插件设备的所述智能电话、或计算机等)，但它们也可作为包装的一部分提供。

本发明的方法、计算机程序和算法不旨在提供最精确的HRTF和ITDF，而是对其进行足够近地近似以便至少前与后误感知和/或上与下误感知的主要问题被显著减少，且优选地被完全消除。

本发明利用现代广泛传播的技术(智能电话、话筒和扬声器)与允许用户自己执行该过程的对用户友好的过程相组合。即使智能电话普及，使用智能电话来与定向信息相组合地记录立体声音频信号并不普及，更不用提使用音频信号来校正定向信息，将定向单元的未知定向与如在标准HRTF和ITDF测量中使用的头部的参考系相关，以及定位声音源。这意味着本文提出的方法更灵活(对用户更友好)，且该问题的复杂性从数据捕捉步骤/设定迁移到了后处理，即，估计算法。

参考列表：

501,601,801:计算机 502,602,702,802:扬声器

503,603,703,803:人 504,604,704,804:定向单元

505,605,705,805:入耳式话筒 506:支架 507:椅子

608,708,808:声音再现装备

Claims

1.一种用于估计特定人的个人化头部相关传输函数(HRTF)和耳间时间差函数(ITDF)的计算机程序产品，所述计算机程序产品当在包括处理器和存储器的至少一个计算设备上执行时，被适配成用于执行以下步骤：

a)获得(1001)多个数据集(Li,Ri,Oi)，

每个数据集包括源自左入耳式话筒的左音频样本(Li)和源自右入耳式话筒的右音频样本(Ri)以及源自定向单元(604；704；804)的定向信息(Oi)，

每个数据集的所述左音频样本及所述右音频样本和所述定向信息是在布置中被同时捕捉的，其中：

所述左入耳式话筒被插入在所述人的左耳中，以及

所述右入耳式话筒被插入在所述人的右耳中，以及

所述定向单元被安装在所述人的头部上或被安装到所述人的头部，以及

所述人位于距扬声器(602；702；802)一距离处，以及

所述扬声器被布置成用于呈现包括多个听觉刺激(Ci)的听觉测试信号，以及

所述人在所述听觉测试信号的呈现期间在多个不同定向上转动头部；

b)将所述多个数据集(Li,Ri,Oi)存储(1002)在存储器中；

c)针对存储在所述存储器中的每个数据集(Li,Ri,Oi)，估计(1003)所述扬声器相对于所述人的所述头部的方向；

d)基于存储在所述存储器中的所述多个数据集(Li,Ri,Oi)并且基于在步骤c)中估计的方向来估计(1004)所述人的个人化ITDF；

e)基于存储在所述存储器中的所述多个数据集(Li,Ri,Oi)并且基于在步骤c)中估计的方向来估计(1005)所述人的个人化HRTF。

2.如权利要求1所述的计算机程序产品，其特征在于，步骤e)进一步包括估计所述扬声器和所述话筒的组合频谱滤波性质。

3.如权利要求2所述的计算机程序产品，其特征在于，估计所述扬声器和所述话筒的组合频谱滤波性质包括：

-利用关于所述扬声器的频谱滤波性质的先验信息，和/或

-利用关于所述话筒的频谱滤波性质的先验信息。

4.如前述权利要求中任一项所述的计算机程序产品，其特征在于，步骤c)的估计基于存储在所述存储器中的所述多个数据集(Li,Ri,Oi)并且基于将听觉线索与空间信息相关的至少一个传输函数。

5.如权利要求4所述的计算机程序产品，其特征在于，将听觉线索与空间信息相关的所述至少一个传输函数为耳间时间差函数(ITDF)。

6.如权利要求4所述的计算机程序产品，其特征在于，将听觉线索与空间信息相关的所述至少一个传输函数为耳间时间差函数(ITDF)和头部相关传输函数(HRTF)。

7.如前述权利要求中任一项所述的计算机程序产品，其特征在于，估计所述ITDF的步骤d)包括利用基于包含不同人的多个ITDF的数据库的统计分析的关于个体化ITDF的先验信息。

8.如前述权利要求中任一项所述的计算机程序产品，其特征在于，估计所述HRTF的步骤e)包括利用基于包含不同人的多个HRTF的数据库的统计分析的关于个体化HRTF的先验信息。

9.如前述权利要求中任一项所述的计算机程序产品，其特征在于，步骤c)包括：

-从所述多个数据集的所述左音频样本和所述右音频样本提取定时信息；

-从所述多个数据集的所述左音频样本和所述右音频样本提取频谱信息；

-基于所提取的定时信息和频谱信息估计所述扬声器相对于所述人的所述头部的方向，由此使用通用ITDF和通用HRTF。

10.如权利要求9所述的计算机程序产品，

-其中步骤d)包括：基于所述左音频样本和所述右音频样本中包含的所述定时信息和频谱信息以及基于步骤c)的估计的方向来确定个人化ITDF的估计；以及

-其中步骤e)包括：基于所述左音频样本和所述右音频样本中包含的所述定时信息和频谱信息以及基于步骤c)的估计的方向来确定个人化HRTF的估计。

11.如权利要求10所述的计算机程序产品，其特征在于，所述计算机设备被进一步适配成用于执行以下步骤组合：

i)在执行步骤d)和步骤e)之后，再次执行步骤c)，但是使用如在步骤d)中确定的个人化ITDF的估计而不是一般性ITDF以及使用如在步骤e)中确定的个人化HRTF的估计而不是一般性HRTF，以获得所述扬声器相对于所述人的头部的方向的经更新的估计；

ii)在执行步骤i)之后，再次执行步骤d)，使用步骤i)的所述扬声器的所述方向的经更新的估计，以获得所述人的个人化ITDF的更新；

iii)在执行步骤i)之后，再次执行步骤e)，使用步骤i)的所述扬声器的所述方向的经更新的估计，以获得所述人的个人化HRTF的更新。

12.如权利要求1到8中任一项所述的计算机程序产品，其特征在于，步骤c)包括：

-基于所提取的定时信息针对每个数据集(Li,Ri,Oi)估计所述扬声器相对于所述人的头部的方向，由此使用通用ITDF而不使用通用HRTF。

13.如权利要求12所述的计算机程序产品，

-其中所述计算设备被适配成用于在执行步骤c)和步骤d)的组合之后执行步骤e)；

-并且其中步骤e)进一步包括：

*从所述多个数据集的所述左音频样本和所述右音频样本(Li,Ri)提取频谱信息；

*基于所提取的频谱信息估计高程偏移；

*基于所述左音频样本和所述右音频样本中包含的所述定时信息和频谱信息以及基于步骤c)的所述扬声器的估计的方向来确定个人化HRTF的估计。

14.如权利要求13所述的计算机程序产品，其特征在于，所述计算设备被适配成用于执行以下步骤组合的至少一次迭代：

i)再次执行步骤c)以获得所述扬声器的方向的经更新的估计，其中在步骤c)的第二次执行和每次后续执行中使用个人化ITDF的估计而非通用ITDF；

ii)使用步骤i)的所述扬声器的方向的经更新的估计来再次执行步骤d)以获得所述人的经更新的个人化ITDF。

15.如前述权利要求中任一项所述的计算机程序产品，其特征在于，所述定向单元被适配成用于提供关于地球重力场以及关于地球磁场的定向信息。

16.如前述权利要求中任一项所述的计算机程序产品，

其中所述音频测试信号包括具有小于4.80ms的历时的多个听觉刺激。

17.如前述权利要求中任一项所述的计算机程序产品，其特征在于，所述计算机程序产品被进一步适配成用于：

-取决于对所述多个数据集的分析从一组预定义音频消息中选择预定义音频消息，以及

-经由不同于所述第一扬声器的第二扬声器呈现所选择的音频消息，以用于在呈现所述音频测试信号之前和/或期间和/或之后向所述人提供信息或指令。

18.如权利要求1到17中任一项所述的计算机程序产品，

其中所述计算设备电连接至所述左和右入耳式话筒，并且电连接至所述定向单元，

以及其中所述计算设备被适配成用于在步骤a)中捕捉多个左音频样本及右音频样本和定向信息，并用于执行步骤b)到步骤e)。

19.如权利要求1到17中任一项所述的计算机程序产品，

其中所述定向单元被包括在便携式设备中，所述便携式设备能安装到所述人的头部，

以及其中所述便携式设备进一步包括可编程处理器和存储器，以及能够电连接至所述左和右入耳式话筒的接口装置，以及用于存储和/或传送所述所捕捉数据集的装置，

以及其中所述计算机程序产品包括被适配成由所述便携式设备的处理器执行的第一软件模块和被适配成由所述计算设备执行的第二软件模块，

以及其中所述第一软件模块被适配成用于执行步骤a)的所述左及右音频样本的捕捉和所述定向信息的捕捉，以及用于将所捕捉数据集传送至所述计算设备或用于将所捕捉数据集存储在可交换存储器上，

以及其中所述第二软件模块被适配成用于获得所述多个数据集，并且用于执行步骤b)到步骤e)。

20.如权利要求1到17中任一项所述的计算机程序产品，

以及其中所述便携式设备进一步包括形成所述计算设备的处理器和存储器，

以及其中所述便携式设备进一步包括能够电连接至所述左和右入耳式话筒的接口装置，

以及其中所述便携式设备的所述处理器被适配成用于执行步骤a)的所述左和右音频样本的捕捉以及所述定向信息的捕捉，以及用于在步骤b)中将所捕捉数据集存储在所述存储器中，

以及用于执行步骤c)到步骤e)。

21.如权利要求19或20所述的计算机程序产品，

-其中所述便携式设备进一步包括扬声器，

-以及其中所述便携式设备的处理器被进一步适配成用于分析所述定向信息，以便验证是否以至少预定义强度采样围绕所述头部的3D空间，

-以及用于如果所述验证的结果分别是以/未以所述预定义强度采样所述空间，则经由所述便携式设备的所述扬声器分别呈现第一/第二预定义音频消息。

22.包括如权利要求1到21中任一项所述的计算机程序产品的数据载体。

23.如权利要求22所述的数据载体，其特征在于，进一步包括所述听觉测试信号的数据表示。

24.如权利要求1到21中任一项所述的计算机程序产品的传送。

25.如权利要求1到21中任一项所述的计算机程序产品与所述听觉测试信号的数据表示的组合的传送。

26.一种部件套件，包括：

-如权利要求22或23所述的数据载体；

-左入耳式话筒和右入耳式话筒。

27.如权利要求26所述的部件套件，其特征在于，进一步包括：

-包括所述听觉测试信号的数据表示的第二数据载体。

28.一种在计算设备中估计特定人的个人化头部相关传输函数(HRTF)和个人化耳间时间差函数(ITDF)的方法(1000)，所述方法包括以下步骤：

a)获得(1001)多个数据集(Li,Ri,Oi)，

每个数据集的所述左音频样本和所述右音频样本和所述定向信息是在布置中被同时捕捉的，其中：

所述左入耳式话筒被插入在所述人的左耳中，以及

所述右入耳式话筒被插入在所述人的右耳中，以及

所述人位于距扬声器(602；702；802)一距离处，以及

所述扬声器被布置成用于呈现听觉测试信号，所述听觉测试信号包括多个音频测试片段(Ci)，以及

b)将所述多个数据集(Li,Ri,Oi)存储(1002)在存储器中；

29.如权利要求29所述的方法，其特征在于，步骤e)进一步包括估计所述扬声器和所述话筒的组合传输函数。

30.如权利要求29所述的方法，其特征在于，估计所述扬声器和所述话筒的组合频谱滤波性质包括：

-利用关于所述扬声器的频谱滤波性质的先验信息，和/或

-利用关于所述话筒的频谱滤波性质的先验信息。

31.如权利要求28到30中任一项所述的方法，其特征在于，步骤c)的估计(1003)基于存储在所述存储器中的多个所捕捉数据集(Li,Ri,Oi)并且基于将听觉线索与空间信息相关的至少一个传输函数。

32.如权利要求31所述的方法，其特征在于，将听觉线索与空间信息相关的所述至少一个传输函数为耳间时间差函数(ITDF)。

33.如权利要求31所述的方法，其特征在于，将听觉线索与空间信息相关的所述至少一个传输函数为耳间时间差函数(ITDF)和头部相关传输函数(HRTF)。

34.如权利要求28到33中任一项所述的方法，其特征在于，估计所述ITDF函数的步骤d)包括利用基于包含不同人的多个ITDF的数据库的统计分析的关于个体化ITDF的先验信息。

35.如权利要求28到34中任一项所述的方法，其特征在于，估计所述HRTF函数的步骤d)包括利用基于包含不同人的多个HRTF的数据库的统计分析的关于个体化HRTF的先验信息。

36.如权利要求28到35中任一项所述的方法(1400)，其特征在于，步骤c)包括：

37.如权利要求36所述的方法(1400)，其特征在于，

38.如权利要求37所述的方法(1400)，其特征在于，进一步包括以下步骤组合的一次或多次迭代：

i)在执行步骤d)和步骤e)之后，再次执行步骤c)以获得所述扬声器相对于所述人的头部的方向的经更新的估计，但是使用如在步骤d)中确定的个人化ITDF的估计而不是使用一般性ITDF以及使用如在步骤e)中确定的个人化HRTF的估计而不是使用一般性HRTF；

39.如权利要求28到35中任一项所述的方法(1500)，其特征在于，步骤c)包括：

40.如权利要求39所述的方法(1500)，其特征在于，

-其中步骤e)在步骤c)和步骤d)的组合的执行之后被执行；

并且其中步骤e)还包括：

*基于所提取的频谱信息估计高程偏移；

41.如权利要求40所述的方法(1500)，其特征在于，进一步包括以下步骤组合的至少一次迭代：

42.如权利要求28到41中任一项所述的方法，其特征在于，所述定向单元提供关于地球重力场以及关于地球磁场的定向信息。

43.如权利要求28到42中任一项所述的方法，其特征在于，进一步包括以下步骤：

-将所述左入耳式话筒插入所述人的左耳中并将所述右入耳式话筒插入所述人的右耳中以用于捕捉源自所述扬声器的所述左音频信号和所述右音频信号。

44.如权利要求28到43中任一项所述的方法，其特征在于，进一步包括以下步骤：

-将所述定向单元安装到所述人的头部。

45.如权利要求28到44中任一项所述的方法，其特征在于，所述定向单元被包括在便携式设备中，并且其中所述方法进一步包括以下步骤：

-将包括所述定向单元的所述便携式设备安装到所述人的头部。

46.如权利要求28到45中任一项所述的方法，其特征在于，进一步包括以下步骤：

-经由所述扬声器呈现所述听觉测试信号。

47.如权利要求28到46中任一项所述的方法，其特征在于，

48.如权利要求28到47中任一项所述的方法，其特征在于，进一步包括以下步骤：

-取决于对所捕捉数据集的分析从一组预定义音频消息中选择预定义音频消息，以及

49.一种为特定人呈现虚拟音频信号的方法，包括：

x)使用如权利要求28到48中任一项所述的方法来估计所述特定人的个人化头部相关传输函数(HRTF)和个人化耳间时间差函数(ITDF)；

y)通过利用在步骤x)中估计的个人化头部相关传输函数(HRTF)和个人化耳间时间差函数(ITDF)来为所述人生成虚拟音频信号；

z)使用立体声耳机和/或一组入耳式扬声器呈现在步骤y)中生成的所述虚拟音频信号。

50.通过如权利要求28到48中任一项所述的方法估计的个人化ITDF和个人化HRTF。

51.一种被适配成用于为特定人生成虚拟音频信号的3D-VAS系统，所述3D-VAS系统利用通过如权利要求28到48中任一项所述的方法获得的个人化头部相关传输函数(HRTF)和个人化耳间时间差函数(ITDF)。

52.一种3D-VAS系统，所述3D-VAS系统包括计算设备和立体声耳机和/或一组入耳式扬声器，所述计算设备被适配成用于执行权利要求49的方法。