CN110321768A

CN110321768A - 用于生成头部相关传递函数滤波器的布置

Info

Publication number: CN110321768A
Application number: CN201910126684.2A
Authority: CN
Inventors: A·J·万尼; T·A·胡特图南; J·O·安蒂凯南
Original assignee: Onsalod Corp
Current assignee: Apple Inc
Priority date: 2018-03-29
Filing date: 2019-02-20
Publication date: 2019-10-11
Anticipated expiration: 2039-02-20
Also published as: EP3547212A1; US20190304081A1; US11562471B2; CN110321768B; US20230038674A1; US11776307B2; CN116912666A; US20210183046A1; US10937142B2; FI20185300A1

Abstract

本发明题为“用于生成头部相关传递函数滤波器的布置”。本发明公开用于获取用于产生头部相关传递函数滤波器的图像的布置。在该布置中，调整移动电话或类似便携式设备的相机以进行成像。分析所有获取的图像，并且仅进一步发送合适的图像以用于产生头部相关传递滤波器。该布置进一步被配置成向用户提供指令，以便充分地覆盖整个头部和其他相关的身体部分。

Description

用于生成头部相关传递函数滤波器的布置

背景技术

具有多个音频通道的音频系统通常是公知的，并且被娱乐行业用于例如电影或电脑游戏。这些系统常常称为环绕音响系统或三维音响系统。最近已经引入了用于实现甚至更好的三维声音体验的布置。这些布置不仅具有多个音频通道，而且提供基于对象的音频以改善收听体验。

通常在耳机收听中，这些布置基于使用所谓的头部相关传递函数滤波器对声道进行滤波。通过操纵耳机的两个音频通道中的声音使得它们类似于到达耳道的定向声音来产生三维体验。通过考虑耳廓、头部和躯干对进入耳道的声音的影响，可能实现三维声音体验。这些滤波器常常称为HRTF(头部相关传递函数)滤波器。这些滤波器用于提供类似于人类体验来自不同方向和距离的声音的效果。当已知人的身体部位(诸如耳朵、头部和躯干)的解剖结构时，可产生个人HRTF滤波器，使得通过耳机体验的声音尽可能逼真。

产生这种滤波器所需要的材料包括描述表面点云的三维点云坐标，通过确定耳朵的相关部分的三维点云可实现耳朵。在常规的基于模拟的方法中，通过使用三维扫描装置来确定身体部位的三维点云，该三维扫描装置产生耳朵的至少一部分可见部分的三维模型。然而，这需要昂贵的三维扫描装置，其可以产生准确的耳朵三维几何模型。因为耳朵可能具有不同的几何形状，所以产生两个滤波器是可能的，使得两个耳朵分别具有它们自己的滤波器。

常规地，HRTF滤波器是预先产生的，并且对于每个人，选择选自针对小部分个体进行声学测量或模拟得到的HRTF滤波器库的滤波器，然而，由于技术的进步，当已知设计滤波器所针对的人的解剖结构时，可能产生个人滤波器。可通过获取充分显示待测量人员的足够的图像或视频材料来完成解剖结构测量。然而，这在计算上和网络连接方面非常密集，因为较长的视频和较大的图像集需要大量空间。另外，单独获取这些图像并不容易。这增加了所需图像的数量或视频的长度。

因此，需要一种能够获取产生HRTF滤波器所需的图像的布置。

发明内容

公开了用于获取用于生成头部相关传递函数滤波器的图像的布置。在该布置中，调整移动电话或类似便携式设备的相机以进行成像。分析所有获取的图像，并且仅进一步发送合适的图像以用于产生头部相关传递滤波器。该布置进一步被配置成向用户提供指令，以便充分地覆盖整个头部和其他相关的身体部位。

在本发明的一个方面，公开了一种用于获取产生头部相关传递函数滤波器的几何数据所需的图像的方法。该方法包括初始化用户设备中的相机应用程序，以用于控制该用户设备的相机模块；使用该相机模块获取多个图像；选择显示解剖结构的图像，其中解剖结构可用于产生头部相关传递函数滤波器；确定所选图像是否充分地包括解剖结构以便产生头部相关传递函数滤波器；以及如果该确定的结果是否定的，则该方法还包括：向用户提供指令以获取另外的图像，以便获取未被充分覆盖的区域的图像。

该方面通过提供产生滤波器生产中所需的点云所需的图像的简单获取，有助于更好地产生头部相关传递函数滤波器。此外，减少了在设备或远程服务处产生滤波器所需的传输容量和计算能力。另外，当在图像获取期间控制图像的质量和角度覆盖时，改善了点云的几何精度。

在实现方式中，该方法还包括：将包括用于产生头部相关传递滤波器的解剖结构的每个所选图像传输到头部相关传递函数滤波器生成服务器。将所选图像传输到具有更多计算容量的内部或外部的服务器或其他计算设施是有益的。当仅发送所选图像时，待传输的数据量得到减少。

在实现方式中，该方法还包括：丢弃不包括可用于产生头部相关传递滤波器的几何形状的图像。丢弃不使用的图像以便为其他目的释放存储器是有益的。

在实现方式中，该方法还包括：制备用于获取图像的用户设备，其中该制备包括以下项中的至少一者：选择足够的分辨率；打开相机用户设备的照明设备；调整曝光时间；选择适当的帧速率。在获取图像之前确定合适的设置是有益的。该设置可不同于用户对普通摄影优选的设置。因此，改变的图像将导致用于该目的的更好的图像，并且这可以减少要获取的用于产生点云的图形的需要。

在实现方式中，该方法在提供指令时还包括以下项中的至少一者：在设备的屏幕上显示视觉指令；向用户提供语音指令；提供触觉指令。向用户提供关于图像获取成功的反馈是有益的。这有助于在更短的时间内获取更高质量的图像。

在实现方式中，该方法还包括：检测和/或标记耳朵界标和面部界标。检测和标记界标是有益的，因为这些界标是与滤波器的生产相关的解剖学特征。

在实现方式中，该方法还包括：将所选图像布置成至少三个数据集，其中这些集包括：头部和上躯干的图像；左耳的图像；以及右耳的图像。从对滤波器有重要意义的所有身体部位获取图像是有益的。这将改善滤波器的质量。

在实现方式中，该选择是基于以下项中的至少一者：所选解剖学特征的可见度；图像的质量；图像的角度覆盖。有益的是，图像的选择可基于各种定性测量，使得图像既好又显示相关部位。

在一方面，公开了一种用于服务器的计算机程序，该计算机程序包括在数据处理系统上执行时适于引起根据如上所描述的方法的代码。有益的是，该布置可作为计算机程序提供，使得个人设备可容易地用于图像获取。

在一方面，一种装置包括：至少一个处理器，该至少一个处理器被配置成执行计算机程序；至少一个存储器，该至少一个存储器被配置成存储计算机程序和相关数据；至少一个数据通信接口，该至少一个数据通信接口被配置成与外部数据通信网络通信；以及至少一个成像设备；其中所述装置被配置成执行根据如上所描述的方法。有益的是，该布置可作为装置提供，使得用户在图像获取时可容易地使用该装置。

所描述的用于获取用于产生头部相关传递函数滤波器的图像的布置有助于个人设计的头部相关传递函数滤波器的生成，而无需昂贵的扫描处理。希望获得个人头部相关传递函数滤波器的人可通过使用移动电话或类似物来获取所需要的图像。所公开的布置是有效的，因为它确定所获取的图像是否适合使用并且仅传输可使用的图像。这不仅减少了对数据传递的需求，而且还提供了更可靠的结果。在替代示例中，将图像提供给同一设备内的应用程序。在该方法中，该过程减少了所需要的计算能力，从而可能在较低计算容量的设备中进行此类计算。此外，当需要较少的计算容量时，设备的电池将持续更长时间。

当获取必要图像的人使用所公开的布置时，他/她可以立即获取所有必要的图像。此外，该布置能够提供即时反馈，该即时反馈说明所获取的图像是否足够。因此，用户可依赖于该服务，这样他/她就不需要多次获取图像。这减少了最终头部相关传递滤波器的从命令到传输的时间。

附图说明

被包括以提供对用于生成头部相关传递函数滤波器的布置的进一步理解并且构成本说明书的一部分的附图示出了用于生成头部相关传递函数滤波器的布置的实施方案，并且连同说明书帮助解释该布置的原理。在附图中：

图1是用于生成头部相关传递函数滤波器的装置的示例，并且

图2是用于生成头部相关传递函数滤波器的方法的示例。

具体实施方式

现在将详细地参考实施方案，这些实施方案的示例在附图中示出。

在下面的描述中，已经参考了多个图像。在本说明书的上下文中，该多个图像可以意指一定数量的静止图像或从视频流中提取的图像、或这两者的任何组合。需要多个图像以便从不同角度看到所需的特征，使得可充分准确地确定三维点云。

在图1中，示出了用于获取产生头部相关传递函数滤波器所需的图像的装置10的示例。在图1的示例中，装置10是移动电话，然而，可使用遵循下面讨论的原理的任何类似设备。此类设备的示例包括平板电脑、膝上型计算机等。

图1的移动电话10包括显示器11。显示器11可以是普通的移动显示器，它们通常是触敏的，即使在此示例中不是必需的。

移动电话10还包括被配置成执行计算机程序和应用程序的至少一个处理器12。该移动电话还包括用于存储计算机程序、应用程序和相关数据的存储器13。通常，移动电话具有易失性存储器和非易失性存储器两者。本示例适用于这两种类型的存储器。

移动电话10还包括数据通信接口14。这种接口的示例为UMTS(通用移动通信系统)和LTE(长期演进)。移动电话通常可访问几种不同的网络类型。

现代移动电话的共同特征是相机15。该相机包括至少一个透镜和至少一个图像传感器。在多个透镜和所获取传感器图像的情况下，组合所获取传感器图像以便提供更高质量的图像。通常，相机(诸如移动电话10的相机15)能够获取视频序列。在本示例中，可捕获所谓的全高清1080p分辨率下的视频序列，该分辨率为1920×1080像素。还可获取更高的分辨率。在本示例中，通过使用更高分辨率的静止图像来增补视频序列是可能的。现代相机还可能够产生三维图像、包括至少图像中的一些对象的深度信息的其他图像。该图像还可包括另外的信息，诸如照明条件、设备取向信息和提供关于图形和图形内容的另外信息的其他类似信息。这些特征可用在所描述的实施方案中。例如，深度相机、立体相机或其他范围成像设备可能对确定在产生头部相关传递函数滤波器时所考虑的解剖学特征的三维坐标方面非常有用。

移动电话10还包括音频设备16。该音频设备可包括扬声器和麦克风的组合。扬声器也可用于普通呼叫。移动电话10还包括触觉设备17，该触觉设备17可用于向移动电话10的用户提供反馈。这种特征通常用于例如通过振动警报来通知用户有关传入呼叫。

在图2中，示出了用于获取产生头部相关传递函数滤波器所需的图像的方法的示例。该方法可用于诸如图1的移动电话10的设备。然而，这只是示例性的，并且可使用任何类似的设备。

通过初始化移动电话的相机应用程序(步骤20)来发起该方法。该初始化通常包括加载和启动应用程序，以便移动电话准备好获取图像。在图2的方法中，这还包括设定适于该目的的参数。

这些参数可以是例如选择具有最高的可能分辨率(诸如1920×1080或3840×2160)、具有适当帧速率的视频捕获模式。帧速率不需要适用于观看目的，然而，更高的帧速率提供更多的材料供以后使用。除了帧速率之外，还可以选择适当的曝光时间。如果移动电话具有照明设备(诸如LED(发光二极管)或其他灯)，则可打开该照明设备以改善捕获。即使存在若干预设选项，也不需要使用所有选项。设定的目的是改善捕获滤波器产生所需的特征。因此，可接受的图像是使得有助于从图像中提取特征的，但它对人眼来说不一定美观。例如，当选择最佳暴露时间时，重要的是重要的像素不会曝光过度或曝光不足。

当已经适当地设定了设置时，就获取多个图像(步骤21)。移动电话10的用户使用移动电话10的相机15来获取多个图像。这些图像可以静止模式或作为视频流来获取。可能向用户提供指令，例如，首先获取左耳的图像。在已经获取图像之后，例如已经实现了特定时段的视频流或预先确定数量的图像，就停止成像。相机将所获取的图像存储到存储器13。在更先进的实现方式中，停止条件可取决于质量、成像条件等。例如，有可能一直获取图像，直到已经实现预先确定的角度覆盖为止。

从所获取的图像中选择用于确定头部相关传递函数所需的图像(步骤22)。通过处理器12处理存储器13中的图像，以便确定图像是否可用。此外，因为先前的图像已经充分覆盖该区域，所以一些图像可能被认为是不可用的。

在选择图像以用于进一步传输时可采取若干可选的步骤。首先，可处理图像中的每一个以检查技术质量。这可包括例如检查图像是否锐化并且适当地曝光。在此过程中，可使用自动校正算法以便检查是否有可能改善图像。例如，使用拉普拉斯滤波器(Laplacianfilter)的方差来评估清晰度。在焦点框中产生比模糊框更高的方差。帧选择是使用动态阈值水平(视频的平均方差)来定义。如果采样速率不足，则降低阈值水平直到实现所请求的帧速率为止。

可通过分析目标上的最高像素强度来验证照明和暴露，以验证不存在过度曝光。此步骤对应于选择正确曝光的分析。

在技术检查之后，在通过技术检查的图像上进行所需身体部位(诸如耳朵、面部和头部)的定位，应用技术检查。

使用(机器学习)特征检测方法(诸如CNN(卷积神经网络))来检测耳朵和面部。使用所选择的数据集对检测器进行预训练，这些数据集通常由n>1000个图像的大量图像样本组成。

在视频捕获期间，可能使用特征检测方法来检测耳朵，并且在图像上绘制耳朵的ROI(感兴趣区域)。使用预训练的形状模型从ROI检测面部界标和耳朵界标，并且在捕获过程期间跟踪这些界标。如果无法检测到耳朵或面部位置和特征，则应用程序向用户提供反馈并引导用户根据先前检测到的特征调整相机位置。

图形用户界面可引导用户从正确的距离和方向获取多个图像，诸如视频。这可例如通过在移动设备的屏幕上显示头部或耳朵的轮廓来完成。建议用户在拍摄视频时将头部或耳朵放在该轮廓内。另外，轮廓可旋转以引导用户改变拍摄方向。可用屏幕上的箭头指示相机需要移动到的方向。

仅当获取多个图像的人可以看到指令时，上述反馈才适用。这通常仅在另一个人负责获取时发生。在无辅助获取的情况下，可提供触觉和/或音频反馈，而不是视觉信息。此外，可组合或单独使用所有视觉、触觉和音频反馈，以便可以提供最佳的可能形式的帮助。

对于检测到的身体部位，必须应用在线可见度检测。耳朵上的毛发将影响最终重建，因而将检测这些情况并且将通知用户该问题。从使用上述方法检测到的ROI进行检测。

首先，使用颜色信息对耳朵区域进行分段。基于颜色的分段可例如使用改善分段结果的神经网络来进行。向分段帧应用边缘检测(诸如Canny方法)，该边缘检测检测耳朵上的细毛。如果检测到不需要的毛发，应用程序将通知用户去除耳朵上的毛发。

在选择了图像之后，处理器12被配置成确定所选择的图像是否足以用来确定头部相关传递函数滤波器(步骤23)。为了执行此操作，处理器12可执行头部/耳朵的稀疏重建。

稀疏重建是指对于HRTF处理而言不够准确的点云或表面模型，然而，当使用具有提供这种重建的能力的计算设备进行最终重建时，该稀疏重建足以用来提供图像是否足够准确的估计。稀疏点云是使用例如快速同时定位和映射(SLAM)方法在线生成的。表面模型可使用例如使用主成分分析(PCA)生成的可变形形状模型来生成。当执行稀疏重建时，提取和跟踪来自所获取视频流或图像的特征。跟踪的特征用于改善对摄像机位置和角度的估计。从另外的移动电话传感器(诸如陀螺仪和加速度计)接收的信息的使用可用于改善相机定位和绝对缩放。

在此阶段，可能向用户提供在必要时获取更多图像的指令。可例如通过将来自相机的原始图像与从稀疏3d重建生成的虚拟图像进行比较来分析稀疏重建的质量。如果稀疏重建的特征(诸如耳朵的轮廓)与原始图像不一致，则指示用户获取更多图像。然而，也可能尝试确定是否有可能创建三个足够的集(步骤23)。在此示例中，存在用于头部和双耳的集，然而，可能包括例如用于用户身体的单独的另外集。相应地，可能通过包括仅用于耳朵的集来创建较低质量的滤波器。

如果这些集并不足够，则该方法返回到通过指令获取图像(步骤21)。如果图像足够，则将所获取的图像发送到服务器、类似用于产生实际的头部相关传递滤波器的云服务。从稀疏重建获取的信息可与该图像一起发送。

如果这些集足够，则该方法继续进一步传输所选择的图像(步骤24)。进一步传输图像可以意指将图像传输到外部设备或服务，诸如计算机、服务器或云服务。然而，进一步传输到另外的应用程序是在用于获取图像的设备中执行的。例如，移动电话应用程序可被配置成使得要求苛刻的计算在后台进行，可能在诸如夜晚的低活动时段期间，以及当设备可能连接到充电器时。因此，即使在低计算容量的设备中也可以进行复杂的过程。

在上述示例中，该方法被示出为步骤序列，然而，该过程不需要是顺序的，但可以至少部分地并行地实现。例如，当用户开始获取图像时，可立即开始第一视频帧的处理。因此，可能从一开始就立即向用户提供信息和指令。

如上所述，示例性实施方案的部件可包括计算机可读介质或存储器，这些介质或存储器用于保存根据本发明的教导内容编程的指令，并用于保存本文所述的数据结构、表格、记录和/或其他数据。计算机可读介质可包括参与向处理器提供指令以供执行的任何合适的介质。常见形式的计算机可读介质可包括，例如，软盘、软性磁盘、硬盘、磁带、任何其他合适的磁性介质、CD-ROM、CD±R、CD±RW、DVD、DVD-RAM、DVD±RW、DVD±R、HD DVD、HD DVD-R、HD DVD-RW、HD DVD-RAM、蓝光光盘、任何其他合适的光学介质、RAM、PROM、EPROM、FLASH-EPROM、任何其他合适的存储器芯片或盒、或计算机可从其读取的任何其他合适的介质。

对于本领域技术人员显而易见的是，随着技术的进步，可以各种方式实现用于生成头部相关传递函数滤波器的布置的基本想法。用于生成头部相关传递函数滤波器的布置及其实施方案因此并不限于上述示例；相反，它们可以在权利要求的范围内变化。

Claims

1.一种用于获取产生头部相关传递函数滤波器的几何数据所需的图像的方法，所述方法包括：

初始化用户设备中的相机应用程序，以用于控制所述用户设备的相机模块；

使用所述相机模块获取多个图像；

选择显示解剖结构的图像，其中解剖结构可用于产生头部相关传递函数滤波器；

确定所选图像是否充分地包括解剖结构以便产生所述头部相关传递函数滤波器；以及

如果所述确定的结果是否定的，则所述方法还包括：向用户提供指令以获取另外的图像，以便获取未被充分覆盖的区域的图像。

2.根据权利要求1所述的方法，其中所述方法还包括：将包括用于产生所述头部相关传递滤波器的解剖结构的每个所选图像传输到头部相关传递函数滤波器生成服务器。

3.根据权利要求1或2所述的方法，其中所述方法还包括：丢弃不包括可用于产生所述头部相关传递滤波器的几何形状的图像。

4.根据前述权利要求1-3中任一项所述的方法，其中所述方法还包括：制备用于获取所述图像的所述用户设备，其中所述制备包括以下项中的至少一者：

-选择足够的分辨率；

-打开所述相机用户设备的照明设备；

-调整曝光时间；以及

-选择适当的帧速率。

5.根据前述权利要求1-4中任一项所述的方法，其中所述方法在提供指令时还包括以下项中的至少一者：

-在所述设备的屏幕上显示视觉指令；

-向所述用户提供语音指令；以及

-提供触觉指令。

6.根据前述权利要求1-5中任一项所述的方法，其中所述选择还包括：检测和/或标记耳朵界标和面部界标。

7.根据权利要求6所述的方法，其中所述方法还包括：将所述所选图像布置成至少三个数据集，其中所述集包括：

-头部和上躯干的图像；

-左耳的图像；和

-右耳的图像。

8.根据前述权利要求1-7中任一项所述的方法，其中所述选择是基于以下项中的至少一者：

-所选解剖学特征的可见度；

-所述图像的质量

-所述图像的角度覆盖。

9.一种用于服务器的计算机程序，包括在数据处理系统上执行时适于引起根据权利要求1-8中任一项所述的方法的代码。

10.一种装置，所述装置包括：

至少一个处理器(12)，所述至少一个处理器(12)被配置成执行计算机程序；

至少一个存储器(13)，所述至少一个存储器(13)被配置成存储计算机程序和相关数据；

至少一个数据通信接口(14)，所述至少一个数据通信接口(14)被配置成与外部数据通信网络通信；和

至少一个成像设备(15)；

其中所述装置被配置成执行根据权利要求1-8中任一项所述的方法。