CN108476358B

CN108476358B - 一种用于生成定制/个性化头部相关传递函数的方法

Info

Publication number: CN108476358B
Application number: CN201680077390.XA
Authority: CN
Inventors: 李泰齐; 克里斯多夫·特里昂格恩; 德斯蒙德·海伊; 格斯·马克·本杰明·莱斯利
Original assignee: Creative Technology Ltd
Current assignee: Creative Technology Ltd
Priority date: 2015-12-31
Filing date: 2016-12-28
Publication date: 2021-12-28
Anticipated expiration: 2036-12-28
Also published as: US20230386174A1; US20200250466A1; DK3398353T3; EP3398353B1; JP2019506050A; KR20180100180A; CN108476358A; EP3398353A1; US20230050354A1; JP6636642B2; US11468663B2; WO2017116308A1; HK1255064A1; ES2888916T3; SG10201510822YA; PL3398353T3; US20180373957A1; EP3398353A4; US11804027B2

Abstract

提供了一种用于生成个性化头部相关传递函数(HRTF)的方法。该方法可以包括：使用便携式设备捕获耳朵的图像、自动缩放所捕获的图像以确定耳朵的物理几何形状、以及基于所确定的耳朵的物理几何形状获得个性化HRTF。

Description

一种用于生成定制/个性化头部相关传递函数的方法

技术领域

本公开总体涉及一种用于基于所捕获的图像来生成定制/个性化头部相关传递函数(HRTF)的方法。

背景技术

准确的交互式3D空间音频渲染需要个性化头部相关传递函数 (HRTF)的。

传统上，为了获得这种个性化HRTF，用户需要在消声室中坐大约半小时而不能移动，并且音频信号发射自该室内的不同位置。麦克风被放置在用户的耳朵中以捕获由用户可听地感知的音频信号。还需要考虑诸如室、(一个或多个)音频信号源和麦克风响应等之类的因素。这种响应可以被认为是假响应，并且可能需要消除这种假响应以便获得随后可以被转换为HRTF的头部相关脉冲响应(HRIR)。

现有技术已经出现以简化上述方法。具体地，期望消除对消声室的需求并且解决诸如上述假响应之类的问题。

一个这样的现有技术是“P-HRTF:Efficient Personalized HRTF Computationfor High-Fidelity Spatial Sound(P-HRTF：用于高保真度空间声音的高效个性化HRTF计算)，Meshram等，IMAR 2014论文集 (http://gamma.cs.unc.edu/HRTF/)”。该现有技术从多个照片重建详细的耳朵模型并执行声学模拟以获得HRTF。将需要密集捕获的一组照片(推荐的15度间隔的20+照片，使用SLR佳能60D 8MP)以及强大的计算能力。

另一这样的现有技术是“Selection of Head-Related Transfer Functionthrough Ear Contour Matching for Personalized Binaural Rendering(通过耳朵轮廓匹配选择头部相关传递函数以用于个性化双耳渲染)，米兰理工大学，计算机工程科学硕士，Dalena Marco，学术年2012/2013”。该现有技术设想，替代对耳朵和声学进行物理建模，可以使用现有数据库来执行基于图像的匹配。现有数据库可以包括与相应的(一个或多个)HRTF相关联的图像(例如，照片)集合。给定图像，可以使用广义霍夫(Hough) 变换来找到给定图像的最佳匹配(相对于现有数据库中的图像集合)，以获得相应的HRTF。

然而，可以理解，上面讨论的方法/技术在计算能力方面将需要很多资源。此外，上面讨论的方法/技术可能不利于以用户友好和/或高效的方式来创建(一个或多个)个性化HRTF。

因此期望提供解决上述问题的解决方案。

发明内容

根据本公开的一个方面，提供了一种用于生成个性化头部相关传递函数(HRTF)的方法。该方法可以包括：

(1)使用便携式设备捕获耳朵的图像；

(2)自动缩放所捕获的图像以确定耳朵的物理几何形状；以及

(3)基于所确定的耳朵的物理几何形状获得个性化HRTF。

附图说明

下文参考以下附图描述本公开的实施例，在附图中：

图1示出了根据本公开的实施例的用于从使用便携式设备(例如，具有照相机的智能电话)捕获的图像创建/生成个性化/定制头部相关传递函数(HRTF)的方法；

图2a示出了根据本公开的实施例的具有多个控制点的主动形状模型，可以使用多个样本来训练该多个控制点；

图2b示出了根据本公开的实施例的可以包括第一样本和第二样本的图2a的多个样本；以及

图2c示出了根据本公开的实施例的符合用户耳朵的形状的图2a的控制点。

具体实施方式

本公开涉及用于从使用便携式设备(例如，具有照相机的智能电话) 捕获的图像创建/生成个性化/定制头部相关传递函数(HRTF)的方法100 (如将参考图1更详细示出的)。本公开设想关于霍夫变换的现有技术与涉及从多个照片重建详细耳朵模型的现有技术以及涉及使用消声室的传统方法相比是最简单的技术。本公开还设想需要进一步简化关于霍夫变换的现有技术，以便至少促进以用户友好和/或高效的方式来创建/生成(一个或多个)个性化HRTF。

参考图1，示出了根据本公开的实施例的用于创建/生成个性化/定制 HRTF的方法100。具体地，可以从使用便携式设备捕获的图像来创建/生成个性化/定制HRTF。

方法100可以包括图像捕获步骤102、参考确定步骤104、分析步骤 106和个性化步骤108。

在图像捕获步骤102处，可以使用具有图像捕获设备的便携式设备来捕捉耳朵的至少一个图像。例如，便携式设备可以对应于具有照相机的智能电话。

在参考确定步骤104处，可以确定与所捕获的图像有关的缩放因子。优选地，缩放因子被确定而不必依赖于手动测量。缩放因子可以用作自动缩放的基础，如稍后将更详细讨论的。

在一个实施例中，缩放因子可以基于眼睛分离(即瞳孔间距)来确定。在另一实施例中，缩放因子可以基于平均耳屏长度来确定。在又一实施例中，缩放因子可以基于图像捕获设备的焦点来确定。在又一实施例中，缩放因子可以基于参考对象(例如，名片或罐子)和/或具有已知焦距的深度相机来确定。

关于基于眼睛分离来确定缩放因子，用户可以捕获两个图像。一个图像可以是用户他/她自己拍摄的照片(例如，利用便携式设备在大约半个手臂长度的距离处拍摄的自拍)，其中，用户的眼睛可以被检测到。另一图像可以是所拍摄的用户的一个耳朵的照片，例如，通过在捕获第一图像之后让用户旋转他/她的头部。具体地，在用户已经拍摄了其中可以检测到用户的眼睛的他/她自己的自拍(即第一图像)之后，用户可以旋转他/她的头部以利用被保持在适合于两个图像的位置(即拍摄自拍时便携式设备的位置被保留用于捕获第二图片)的便携式设备来捕获他/她的耳朵的图像 (即可以与在图像捕获步骤102处捕获的上述耳朵图像相对应的第二图像)。替代地，还可以以弧形(即从眼睛到耳朵或者从耳朵到眼睛)扫掠便携式设备，同时在扫掠期间保持便携式设备和用户头部之间的距离基本不变，以捕获眼睛和耳朵的图像二者。例如，便携式设备可以由用户在拍摄他/她自己的自拍(即第一图像)时手持在手臂的长度，在自拍中可以检测到用户的眼睛，并且在拍摄了自拍之后，用户可以扫掠到他/她的头部的一侧同时保持便携式设备在相同的手臂的长度(根据捕获第一图像时)，以捕获他/她的耳朵的图像(即第二图像)。可以设想，对于成年人，物理眼睛分离通常约为6.5cm(可以理解，儿童的眼睛分离可以不同)。因此，可以导出缩放因子。例如，对于第一图像，两只眼睛之间的分离在影像上可以是50个像素。因此，在影像上，50个像素可以对应于物理分离中的6.5cm(即在就物理尺寸/测量方面，50个像素可以例如对应于6.5 cm)。使用50像素：6.5cm的图像尺寸对物理尺寸比例(即基于第一图像)，可以将耳朵的图像(即第二图像)转换为物理尺寸。

关于基于平均耳屏长度确定缩放因子，可以设想耳屏长度在不同的耳朵之间是相对一致的。因此，根据关于眼睛分离的较早讨论，耳屏长度可以以类似的方式用作参考(即基于已知/标准耳屏长度的耳朵图像到物理尺寸的转换)。

关于基于图像捕获设备的焦点确定缩放因子，可以设想图像捕获设备 (例如，照相机)可以具有自动对焦特征。因此，当用户使用图像捕获设备来捕获他/她的耳朵的图像时，图像捕获设备可以自动对焦到用户的耳朵。自动对焦基于镜头到对象(即用户的耳朵)的距离。本公开设想知道镜头到耳朵的距离以及焦距(即镜头的视场)足以确定缩放因子。

在分析步骤106处，可以使用主动形状模型(ASM)来基于耳朵的图像检测耳朵特征和几何属性。ASM(由Tim Cootes和Chris Taylor在1995 年开发)通常已知对应于对象的形状(例如，耳朵的形状)的分布模型，其迭代地变形以适应新图像中的对象的示例(例如，所捕获的用户耳朵的图像)并且形状受到点分布模型(PDM)的约束。在这方面，可以从可根据PDM来变形的控制点提取/确定基于图像的几何属性(例如，在像素方面)，例如，外耳的长度、耳屏的长度、耳朵的宽度和/或高度。因此，控制点可以基于在图像捕获步骤102处捕获的图像(即耳朵的图像)来符合耳朵的形状。稍后将参考图2更详细地讨论控制点。

在个性化步骤108处，可以基于如在分析步骤106处确定的用户耳朵的基于图像的几何属性(例如，在像素方面)以及如在参考确定步骤104 处确定的缩放因子来导出/确定个性化HRTF。这将在稍后参考示例性场景更详细地讨论。

本公开设想可以基于图像的几何属性(例如，在像素方面)和缩放因子来导出用户耳朵的物理尺寸。这些物理尺寸可以是用于导出/确定个性化HRTF的基础。

此外，本公开设想可以在分析步骤106或个性化步骤108处确定用户耳朵的物理几何形状。

图2a示出了具有前面参考图1所讨论的多个控制点的主动形状模型 200。例如，主动形状模型200可以包括第一控制点200a、第二控制点 200b、第三控制点200c、第四控制点200d和第五控制点200e。如图所示，主动形状模型200可以对应于耳朵的形状。具体地，多个控制点可以被布置为对应于耳朵的形状。主动形状模型200可以基于使用多个样本的训练来导出。样本可以对应于多个耳朵图像(即多于一个的耳朵的图像)。优选地，样本是从不同的对象(即从不同的人)获得的。例如，可以从20个不同的对象(即20个不同的耳朵)训练主动形状模型200。在示例性场景中，可以通过以一致的方式将控制点定位在每个样本中来导出活动形状模型200。

具体地，参考图2b，如图2a提及的多个样本可以包括第一样本201a 和第二样本201b。每个控制点可以被始终定位在耳朵的各个不同位置。例如，控制点之一(例如，标签16)可以被一致地定位在样本201a/201b中的每个样本中示出的耳朵的一个位置(例如，耳垂)处。可以理解，通过针对每个控制点这样做，可以获得基于被定位在跨样本的耳朵的基本上相同位置(例如，耳垂)处的同一控制点(例如，标签16)的平均。因此，从使用多个样本的训练，可以导出耳朵的平均形状。在这方面，主动形状模型200可以类似于表示平均耳朵(即基于使用多个样本的训练)及其底层PDM的通用模板。这样的通用模板可以是用于新图像(即在图像捕获步骤102处捕获的耳朵的新图像)的迭代变形的基础。此外，在训练主动形状模型200时同时导出底层PDM。具体地，如将参考图2c更详细讨论的，基于新图像(即在图像捕获步骤102期间捕获的耳朵的新图像)的控制点的分布的迭代变形的极限(即根据活动形状模型200的控制点的位置的偏差)可能受到如使用多个样本训练的PDM约束。

根据本公开的实施例，便携式设备可以包括屏幕(未示出)，并且活动形状模型200的控制点可以经由显示在屏幕上的图形用户界面(GUI) 来呈现。如图所示，主动形状模型200可以包括多个控制点 200a/200b/200c/200d/200e。

图2c示出了根据本公开的实施例的符合用户耳朵的形状(即在图像捕获步骤102期间捕获的耳朵的上述图像)的图2a的主动形状模型200。

控制点可以对应于前面在图2a中讨论的上述新图像。在一个示例性应用中，所导出的主动形状模型200(即基于如前面讨论的使用多个样本的训练)可以被显示在便携式设备的屏幕上，并且当使用便携式设备的用户将便携式设备定位为捕获他/她的耳朵的图像(即新图像)时，屏幕的至少一部分可以显示用户耳朵的实时图像202。可以理解，实时图像202可以根据用户如何定位便携式设备而改变。如此，主动形状模型200可以相应地迭代地变形。也就是说，控制点(例如，第一到第五控制点 200a/200b/200c/200d/200e)可以迭代地改变以匹配如在屏幕上显示的用户的耳朵。如此，控制点例如可以被视觉地感知为偏离位置以使得控制点基本上覆盖用户耳朵的图像。具体地，如图2b所示，主动形状模型200应基本上覆盖用户耳朵的图像。更具体地，如图2a所示的主动形状模型200 的控制点可以符合用户耳朵的形状。因此，主动形状模型200的控制点200a/200b/200c/200d/200e的位置可以被迭代地改变以便描画用户耳朵的形状(即如实时用户耳朵的实时图像202所示)。

优选地，可以提供对稳定性的指示(例如，以诸如“哔哔声”之类的音频反馈的形式)以指示当前显示在屏幕上的图像是否适于捕获。例如，当活动形状模型200的控制点停止改变位置(即停止移动)时，可以提供对稳定性的指示。也就是说，主动形状模型200可以被认为基本上符合用户耳朵的形状(即根据用户耳朵的实时图像202)。可以理解，以这种方式，可以提供某种形式的“优良(goodness)”措施。此外，以这种方式，还可以在用户定位便携式设备以准备在图像捕获步骤102处的图像捕获时执行用户耳朵的实时检测。

此外，本公开设想可以期望改善耳朵检测性能以便避免任何“假”图像捕获，在“假”图像捕获中，看起来像是用户耳朵的图像(即实际上不是用户耳朵的图像)被捕获。

因此，根据本公开的实施例，可以提供另外的反馈信号(即除了上述对稳定性的指示之外的反馈信号)以指示便携式设备是否已经被适当地定位。在一个示例中，可以提供来自诸如由便携式设备携带的陀螺仪/加速度计和/或磁传感器之类的运动传感器的反馈信号，以指示便携式设备是否被适当地定位。

替代地，与由便携式设备携带的图像捕获设备相关联的焦距可以被用作与改善耳朵检测性能相关的参数。具体地，与由便携式设备携带的图像捕获设备相关联的焦距可被用于确定感兴趣对象到捕获设备的距离。本公开设想，实际上，耳朵(即感兴趣的对象)和捕获之间的距离可以非常接近(例如，相距约10cm)，因此当焦距大约为10cm时，仅需要考虑所捕获的(一个或多个)图像(例如，照相机视频流)中耳朵的存在(例如，仅需要考虑从2cm到20cm的焦距)。因此，当在一个实例中图像捕获设备的焦距是例如1.2米时，可以安全地假设在该实例中如由图像捕获设备捕获的照相机视频流中的感兴趣的对象不对应于适当的耳朵图像。

下文将基于根据本公开的实施例的示例性场景来描述上述内容。

在一个示例性场景中，诸如具有可用于用户捕获他/她的耳朵的图像的照相机的智能电话之类的便携式设备，以及能够显示呈现与耳朵有关的 ASM的GUI的屏幕。用户可以使用便携式设备来捕获根据较早的讨论的自拍以获得缩放因子。缩放因子可以用作自动缩放所捕获的耳朵的图像的基础。

根据本公开的实施例，便携式设备可以包括能够在屏幕上呈现GUI并且使得活动形状模型200的控制点符合将捕获的用户耳朵的图像的软件。具体地，便携式设备可以包括处理器，该处理器可以被配置为使活动形状模型200变形以使得控制点符合根据将捕获的用户耳朵的图像的用户耳朵的形状。在接收到对稳定性的指示时，优选地，用户可以继续捕获他/她的耳朵的图像(即在图像捕获步骤102处)。替代地，可以在接收到对稳定性的指示时自动捕获用户耳朵的图像(例如，在操作上类似于快速响应码扫描或条形码扫描仪)。因此，可以捕获用户耳朵的图像(优选地，利用如图2b所示覆盖用户耳朵的图像的主动形状模型200)。基于所捕获的用户耳朵的图像，可以在分析步骤106处提取/确定(例如，在像素方面)用户耳朵的基于图像的几何属性和/或特征。此外，基于可以在参考确定步骤 104期间确定的缩放因子，可以执行所捕获的用户耳朵的图像的自动缩放以便确定用户耳朵的物理几何形状和/或特征(例如，在像素方面的几何属性和/或特征可以被转变/转换为在厘米方面的物理尺寸)。

基于所确定的用户耳朵的物理几何形状和/或特征(其例如可以由处理器在例如分析步骤106处执行)，可以在HRTF数据库(例如，具有 HRTF的集合/库的在线数据库)中进行搜索(该搜索可以在个性化步骤 108处执行)，以找到匹配/最接近地匹配这种物理几何形状和/或特征的 HRTF。以这种方式，可以创建/生成个性化HRTF。可以理解，如果期望找到针对用户的每只耳朵(例如，用户的左耳和右耳两者)的HRTF，则可以相应地应用前面讨论的图1的方法100。可以设想，针对每只耳朵找到的HRTF(例如，基于前面讨论的在HRTF数据库中进行的搜索)可以是相同的或不同的。

替代地，可以通过扰动现有HRTF(例如，在HRTF数据库中可用的 HRTF)来在个性化步骤108处创建/生成个性化HRTF。对现有HRTF的扰动可以通过插入一个以上的头部相关脉冲响应(HRIR)的方式进行。具体地，基于所确定的用户耳朵的物理几何形状和/或特征，可以在数据库 (例如，具有HRIR的集合/库的在线数据库)中进行搜索以找到最接近地匹配这种物理几何形状和/或特征的多于一个HRIR(即HRIR-A和HRIR- B)。可以执行所找到的HRIR的交叉衰落的过程以生成插值HRIR(即“HRIR-插值)。可以执行进一步的傅立叶变换的过程以导出HRTF。可以理解，可以基于插值HRIR来创建/生成个性化HRTF。关于交叉衰落，针对每个所找到的HRIR的衰落系数可以与距离(例如，欧几里得距离或马哈拉诺比斯距离)成反比。例如：

HRIR-A＝[a1，a2，a3，...a25]；

HRIR-B＝[b1，b2，b3，...b25]；

HRIR-插值＝[a1*c+b1*(1-c)，...]，其中，“c”表示上述距离并且范围为从0到1。

在另一替代方案中，基于所确定的用户耳朵的物理几何形状和/或特征，可以构建用户耳朵的三维(3D)模型。利用基于所构建的3D模型的 3D几何，可以使用波传播模拟方法(例如，“Efficient and Accurate Sound Propagation Using Adaptive RectangularDecomposition(使用自适应矩形分解的高效和精确声音传播)”，Raghuvanshi N.、NarainR.和Lin M.C.， IEEE可视化与计算机图形学报2009)来创建/生成个性化HRTF。

因此，可以简单地通过用户使用例如智能电话捕获他/她的耳朵的图像的方式来获得个性化/定制HRTF。可以理解，本公开有助于以用户友好和/ 或高效的方式来创建/生成(一个或多个)个性化HRTF。此外，还可以实时地创建/生成个性化/定制HRTF。

以上述方式，描述了用于解决上述缺点中的至少一个的本公开的各种实施例。这些实施例旨在被以下权利要求所涵盖，并且不限于被如此描述的部分的具体形式或布置，并且鉴于本公开对于本领域技术人员将明显的是，可以做出许多改变和/或修改，这些改变和/或修改也旨在被以下权利要求所涵盖。

例如，除了对HRIR进行插值之外，本公开设想还可以使用3D变形方法(例如，“Cross-Parameterization and Compatible Remeshing of 3D Models(3D模型的交叉参数化和兼容重新网格划分)，Kraevoy V.、 Sheffer A.，ACM图形汇刊(TOG)-ACM SIGGRAPH论文集2004”)来对耳朵模型进行插值以匹配用户耳朵特征/几何形状，并执行声学仿真以导出新的HRIR。新的HRIR可以进行傅立叶变换以导出HRTF。

在另一示例中，本公开设想捕获用户头部的尺寸以进一步改善HRTF 质量的可能性。具体地，本公开设想头部的尺寸(头部宽度和深度)对于 HRTF计算可能是重要的。捕获头部尺寸可以是可能的，根据本公开的实施例，由于正面和侧面图像两者(即关于前面讨论的“(一个或多个自拍)”)。替代地，头部检测器(甚至是基于ASM但替代地具有头部模型的头部检测器)可以被用于捕获头部尺寸。

Claims

1.一种用于生成个性化头部相关传递函数HRTF的方法，包括：

使用便携式处理设备中所包括的图像捕获设备来获取个体的至少一个耳朵的图像，其中所述便携式处理设备被配置用于实时地在显示屏幕上显示所述图像；

确定与所述图像有关的缩放因子；

向所述图像应用主动形状模型，来通过基于多个控制点进行变形获得符合所述个体的至少一个耳朵的形状的主动形状模型，其中所述控制点被实时地覆盖在所述便携式处理设备的所述显示屏幕上；

当所述主动形状模型的所述控制点根据优良标准符合所述个体的至少一个耳朵的所述图像时，向用户生成指示；

从符合所述个体的至少一个耳朵的形状的所述主动形状模型的控制点提取所述个体的至少一个耳朵的基于图像的几何属性；以及

基于所述个体的至少一个耳朵的所述基于图像的几何属性和所述缩放因子从HRTF数据库中所包括的多个HRTF数据集中选择针对所述个体的至少一个耳朵的个性化HRTF数据集。

2.如权利要求1所述的方法，其中，所述HRTF数据库包括头部相关脉冲响应HRIR的集合，并且选择所述个性化HRTF数据集包括选择不止一个HRIR并且在所述不止一个HRIR之间进行插值以确定所述个性化HRTF数据集。

3.如权利要求1所述的方法，其中，所述图像捕获设备是智能电话的照相机。

4.如权利要求1所述的方法，其中，所述缩放因子是使用下列项中至少一项来确定的：所述图像中的常规大小参考对象、所述图像捕获设备的镜头距所述个体的耳朵的距离以及所述图像捕获设备的焦距、或平均耳屏长度。

5.如权利要求1所述的方法，其中，获取所述图像包括检测步骤，所述检测步骤包括对耳朵的存在的确定。

6.如权利要求1所述的方法，其中，所述主动形状模型先前在个体的多个耳朵图像上被训练过。

7.如权利要求1所述的方法，其中，所述主动形状模型通过变形被迭代地处理以匹配所述显示屏幕上显示的所述耳朵的所述图像。

8.如权利要求1所述的方法，其中，所述HRTF数据库具有针对每个HRTF数据集的不同方位角和高度值处的HRTF对的集合。

9.如权利要求1所述的方法，其中，基于将所提取的所述个体的至少一个耳朵的基于图像的几何属性最接近地匹配到与所述多个HRTF数据集中的每个HRTF数据集相关联的相应的基于图像的几何属性，来从所述多个HRTF数据集选择所述个性化HRTF数据集。

10.如权利要求1所述的方法，其中，通过将一个或多个基于图像的几何属性与所述个性化HRTF相匹配来从所述多个HRTF数据集中选择若干个HRTF数据集，所述个性化HRTF是通过与所述若干个HRTF数据集中的至少一个HRTF数据集相关的插值或扰动之一来生成的，并且其中，所述基于图像的几何属性包括下列项中的一项或多项：控制点的距离、控制点的弧、控制点的角、外耳长度、耳朵宽度、耳朵高度、以及耳朵的三维表示。

11.一种用于生成个性化头部相关传递函数HRTF的便携式处理设备，包括：

图像捕获设备，被配置用于：

获取个体的至少一个耳朵的图像；

显示屏幕，被配置用于实时地向用户显示所述图像；

所述便携式处理设备被配置用于：

确定与所述图像有关的缩放因子；

当所述主动形状模型的所述控制点根据优良标准符合所述个体的至少一个耳朵的所述图像时，向所述用户生成指示；

12.如权利要求11所述的便携式处理设备，其中，所述HRTF数据库包括头部相关脉冲响应HRIR的集合，并且选择所述个性化HRTF数据集包括选择不止一个HRIR并且在所述不止一个HRIR之间进行插值以确定所述个性化HRTF数据集。

13.如权利要求12所述的便携式处理设备，其中，所述缩放因子是使用下列项中至少一项来确定的：所述图像中的常规大小参考对象、所述图像捕获设备的镜头距所述个体的耳朵的距离以及所述图像捕获设备的焦距、或平均耳屏长度。

14.如权利要求12所述的便携式处理设备，其中，基于将提取的所述个体的至少一个耳朵的所述基于图像的几何属性最接近地匹配到与所述多个HRTF数据集中的每个HRTF数据集相关联的所述基于图像的几何属性，来从所述多个HRTF数据集选择所述个性化HRTF数据集。

15.如权利要求12所述的便携式处理设备，其中，所述主动形状模型先前在个体的多个耳朵图像上被训练过。

16.如权利要求12所述的便携式处理设备，其中，通过将一个或多个基于图像的几何属性与所述个性化HRTF相匹配来从所述多个HRTF数据集中选择若干个HRTF数据集，所述个性化HRTF是通过与所述若干个HRTF数据集中的至少一个HRTF数据集相关的插值或扰动之一来生成的，并且其中，所述基于图像的几何属性包括下列项中的一项或多项：控制点距离、控制点弧、控制点角、外耳长度、耳朵宽度、耳朵高度、以及耳朵的三维表示。

17.一种用于生成个性化头部相关传递函数HRTF的系统，包括：

如权利要求11到16中任一项所述的便携式处理设备；以及

存储器，能够由所述便携式处理设备访问并且存储所述多个HRTF数据集。