CN114208208A

CN114208208A - 基于个性化声传递函数的穿戴者识别

Info

Publication number: CN114208208A
Application number: CN202080055864.7A
Authority: CN
Inventors: 弗拉迪米尔·图尔巴宾; 雅各布·瑞恩·唐利; 瓦米思·克里希纳·伊泰普
Original assignee: Facebook Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-07-30
Filing date: 2020-07-24
Publication date: 2022-03-18
Also published as: US11526589B2; KR20220042183A; EP4004882A1; JP2022541991A; US20210034725A1; WO2021021643A1

Abstract

一种可穿戴设备包括音频系统。在一个实施例中，音频系统包括传感器阵列，该传感器阵列包括多个声传感器。当用户穿戴可穿戴设备时，音频系统基于在传感器阵列周围的局部区域内的检测到的声音为用户确定声传递函数。因为声传递函数基于用户的身体(例如，用户的头部)的尺寸、形状和密度，所以将为不同的用户确定不同的声传递函数。将所确定的声传递函数与存储的已知用户的声传递函数进行比较，以便认证可穿戴设备的用户。

Description

基于个性化声传递函数的穿戴者识别

背景

本公开总体上涉及个性化声传递函数的动态确定以及声传递函数用于用户识别和安全性目的的使用。

诸如智能眼镜、音频头戴装置(headset)和增强现实设备的可穿戴设备可用于为其用户提供个性化体验和内容。期望识别或认证用户，例如以提供个性化内容。此外，能够在任何给定时间识别谁穿戴着设备可以防止未经授权的用户访问私人或敏感数据。

概述

根据本发明，提供了一种音频系统，包括：传感器阵列，该传感器阵列包括多个声传感器，该多个声传感器被配置为检测在音频系统的局部区域内传输的声音；以及控制器，该控制器被配置为：部分基于检测到的声音来确定至少一个声传递函数，其中该至少一个声传递函数定义部分由音频系统的用户的头部引起的声音的变换；并且基于至少一个声传递函数来识别用户。

优选地，控制器被配置为：通过将确定的至少一个声传递函数与至少一个存储的声传递函数进行比较，基于至少一个声传递函数来识别用户。

方便地，多个声传感器包括被配置为根据声音生成第一音频信号的第一声传感器和被配置为根据所述声音生成第二音频信号的第二声传感器；并且控制器被配置成通过确定第一音频信号和第二音频信号之间的比率来确定声传递函数。

优选地，控制器被配置为确定声传递函数集合，每个声传递函数基于多个声传感器中的两个声传感器之间的比率，并且控制器被配置为基于所确定的声传递函数集合来识别用户。

方便地，多个声传感器包括位于用户的每只耳朵附近的一对声传感器，并且声传递函数对应于头部相关传递函数(HRTF)。

优选地，传感器阵列位于头戴装置上。

方便地，音频系统还包括接近传感器(proximity sensor)，并且其中控制器还被配置为：基于从接近传感器接收的输入来确定用户是否正穿戴着头戴装置；并且响应于确定用户正穿戴着头戴装置来确定声传递函数。

优选地，控制器还被配置为：确定所检测的声音的源定位(location)，该源定位指示相对于音频系统的位置的在局部区域内的定位；将所确定的至少一个声传递函数与所确定的源定位相关联；基于所确定的源定位，识别对应于经授权用户的至少一个存储的声传递函数；以及基于所确定的至少一个声传递函数和所识别的至少一个存储的声传递函数的比较来识别用户。

方便地，至少一个存储的声传递函数与在所确定的源定位的阈值距离内的源定位相关联。

优选地，控制器还被配置成使扬声器发出声音。

方便地，声音由用户产生。

优选地，控制器还被配置为基于比较的结果执行一个或更多个安全功能，其中一个或更多个安全功能包括授权用户访问个性化数据或者基于一个或更多个存储的用户偏好来设置可穿戴设备的配置。

根据本发明的另一方面，提供了一种方法，包括：使用传感器阵列检测在头戴装置的局部区域内传输的声音，该传感器阵列包括多个声传感器；部分基于所检测的声音确定与用户相关联的至少一个声传递函数，其中该至少一个声传递函数定义部分由头戴装置的用户的头部引起的声音的变换；以及基于所确定的声传递函数来识别用户。

优选地，基于所确定的声传递函数来识别用户包括将所确定的至少一个声传递函数与至少一个存储的声传递函数进行比较。

方便地，多个声传感器包括被配置为根据声音生成第一音频信号的第一声传感器和被配置为根据声音生成第二音频信号的第二声传感器；并且其中确定声传递函数包括确定第一音频信号和第二音频信号之间的比率。

优选地，该方法还包括：基于从头戴装置的接近传感器接收的输入来确定用户是否正穿戴着头戴装置；以及响应于确定用户正穿戴着头戴装置来确定声传递函数。

方便地，该方法还包括：基于比较的结果执行一个或更多个安全功能，其中一个或更多个安全功能包括授权用户访问个性化数据或者基于一个或更多个存储的用户偏好来设置头戴装置的配置。

优选地，该方法还包括：确定所检测的声音的源定位，该源定位指示相对于头戴装置的位置的在局部区域内的定位；将所确定的至少一个声传递函数与所确定的源定位相关联；基于所确定的源定位，识别对应于经授权用户的至少一个存储的声传递函数；以及基于所确定的声传递函数和所识别的至少一个存储的声传递函数的比较来识别用户。

根据本发明的另一方面，提供了一种存储指令的非暂时性计算机可读介质，该指令在由一个或更多个处理器执行时使该一个或更多个处理器执行包括以下项的操作：使用传感器阵列检测在头戴装置的局部区域内传输的声音，传感器阵列包括多个声传感器；部分基于所检测的声音来确定与用户相关联的至少一个声传递函数，其中该至少一个声传递函数定义了部分由头戴装置的用户的头部引起的声音的变换；以及基于所确定的声传递函数来识别用户。

声传递函数表示来自源定位的声音与声音如何例如被传感器阵列或被人检测到之间的关系。例如，根据声源相对于每只耳朵的方向或定位，以及根据局部区域内的可以反射声音或声音可以传播通过的对象，在人的两只耳朵处感知的声音可以不同。在包含音频系统的可穿戴设备中，声传递函数可用于向用户呈现音频内容，允许用户将所呈现的音频内容感知为源自局部区域内的特定定位。由于不同的用户具有可能以不同方式影响声音的不同的头部几何形状，因此不同的声传递函数可以与不同的用户相关联，以用于呈现音频内容的目的。

实施例涉及一种用于基于确定的声传递函数来识别用户的音频系统。在一些实施例中，音频系统包括传感器阵列，该传感器阵列包括多个声传感器，该多个声传感器被配置成检测在音频系统的局部区域内传输的声音。音频系统还可以包括控制器。控制器被配置成部分基于所检测的声音来确定声传递函数，其中声变换函数定义部分由音频系统的用户的头部引起的声音的变换，并且控制器被配置成基于声传递函数来识别用户。

在一些实施例中，公开了一种基于确定的声传递函数来识别用户的方法。该方法可以包括使用传感器阵列检测在头戴装置的局部区域内传输的声音，该传感器阵列包括多个声传感器。该方法还可以包括部分基于所检测的声音来确定与用户相关联的至少一个声传递函数，其中该至少一个声传递函数定义部分由头戴装置的用户的头部引起的声音的变换。该方法还可以包括基于所确定的声传递函数来识别用户。

在一些实施例中，公开了一种存储指令的非暂时性计算机可读介质，然后，指令在由一个或更多个处理器执行时使一个或更多个处理器执行操作。这些操作可以包括使用传感器阵列检测在头戴装置的局部区域内传输的声音，该传感器阵列包括多个声传感器。这些操作还可以包括部分基于所检测的声音来确定与用户相关联的至少一个声传递函数，其中该至少一个声传递函数定义部分由头戴装置的用户的头部引起的声音的变换。这些操作还可以包括基于所确定的声传递函数来识别用户。

附图简述

图1A是示出根据一个或更多个实施例的实现为眼部穿戴物(eyewear)设备的可穿戴的头戴装置的示例。

图1B是根据一个或更多个实施例的实现为头戴式显示器的头戴装置的透视图。

图2是根据一个或更多个实施例的音频系统的框图。

图3是示出根据一些实施例的局部区域中的声音可以由传感器阵列检测并用于确定声传递函数的图。

图4是示出根据一个或更多个实施例的生成和更新包括音频系统的可穿戴设备的声传递函数的过程的流程图。

图5是示出根据一个或更多个实施例的基于一个或更多个确定的声传递函数来认证包括音频系统的可穿戴设备的用户的过程的流程图。

图6是根据一个或更多个实施例的包括音频系统的眼部穿戴物设备的系统环境。

附图仅出于说明的目的描绘了本公开的实施例。本领域中的技术人员从下面的描述中将容易认识到，本文示出的结构和方法的替代实施例可以被采用而不偏离本文所述的本公开的原理或者所推崇的益处。

详细描述

声传递函数表示源自源定位的声音和声音如何(例如由传感器阵列或由人)被检测到之间的关系。例如，从源定位到达听者的耳朵的声音可以包括从源定位直接传播到听者的耳朵的声音，以及间接到达耳朵的声音。该间接声音可以包括从听者的头部和/或局部区域中的其他对象反射的声音，并且还可以包括穿过听者的头部的声音。间接声音可以通过衍射或反射进行变换，导致某些频率被提升，而其他频率被衰减。因此，来自特定源定位的声音将如何被听者感知可能取决于听者的头部、耳朵和脸部的尺寸、形状和/或密度。这些相同的原理也可以应用于用户穿戴的可穿戴设备的传感器阵列。传感器阵列可以在不同的位置包含至少两个麦克风，该至少两个麦克风被配置成检测局部区域内的声音。来自源定位的声音如何被传感器阵列的每个麦克风接收可能取决于每个麦克风相对于源定位的定位，以及用户的头部、耳朵和脸部的形状、尺寸和/或密度，这影响声音如何从用户身体的不同部分反射和/或穿过用户身体以间接到达传感器阵列的至少一个麦克风。传感器阵列(或穿戴着具有传感器阵列的设备的人)可以具有几个相关联的声传递函数，这些声传递函数对应于传感器阵列周围(或穿戴着传感器阵列的人周围)的局部区域中的不同源定位和/或与所检测的声音相关联的频率范围。

因为每个用户的头部的几何形状对于单个用户是唯一的，所以当具有传感器阵列的可穿戴设备被第一用户穿戴时，可穿戴设备的传感器阵列可以与第一声传递函数集合相关联，由于第一用户和第二用户的头部的不同属性(例如，不同的头部形状、尺寸和/或密度)，该第一声传递函数集合不同于与可穿戴设备被第二用户穿戴时对应的第二声传递函数集合。以这种方式，可以利用所确定的传感器阵列的声传递函数作为指示器来识别哪个用户当前正穿戴着可穿戴设备。如本文所使用的，用户的头部形状、尺寸和/或密度也可以包括用户面部上的特征(例如，用户的鼻子的尺寸和形状)和与用户的耳朵相关的特征(例如，耳朵和/或耳道的形状)。

可穿戴设备的音频系统检测声音以便为用户生成一个或更多个声传递函数。在一个实施例中，音频系统包括传感器阵列和控制器，该传感器阵列包括多个声传感器。每个声传感器被配置成检测在传感器阵列周围的局部区域内的声音。在一些实施例中，多个声传感器中的至少一些声传感器被耦合到被配置为由用户穿戴的近眼显示器(NED)。当用户穿戴可穿戴设备时，传感器阵列的声传感器检测用户周围的局部区域内的声音。所检测的声音可以包括受控声音和非受控声音。非受控声音是不受音频系统控制且发生在局部区域中的声音(例如，自然产生的环境噪声)。受控声音是由音频系统控制(例如，由音频系统的一个或更多个扬声器发出)的声音和/或由音频系统提示(例如，音频系统提示用户产生声音)的声音。

本公开的实施例可以包括人工现实系统或结合人工现实系统来被实现。人工现实是一种在呈现给用户之前已经以某种方式进行了调整的现实形式，其可以包括例如虚拟现实(VR)、增强现实(AR)、混合现实(MR)、混杂现实或其某种组合和/或衍生物。人工现实内容可以包括完全生成的内容或者与采集的(例如，真实世界的)内容相结合的生成的内容。人工现实内容可以包括视频、音频、触觉反馈或它们的某种组合，并且它们中的任何一个都可以在单个通道或多个通道中呈现(例如向观看者产生三维效果的立体视频)。此外，在一些实施例中，人工现实还可以与应用、产品、附件、服务或其某种组合相关联，这些应用、产品、附件、服务或其某种组合用于例如在人工现实中创建内容和/或在人工现实中以其他方式使用(例如在人工现实中执行活动)。提供人工现实内容的人工现实系统可以在各种平台上实现，包括连接到主计算机系统的头戴装置、独立的头戴装置、移动设备或计算系统、或能够向一个或更多个观看者提供人工现实内容的任何其他硬件平台。

眼部穿戴物设备配置

图1A是示出根据一个或更多个实施例的实现为眼部穿戴物设备的可穿戴设备100(例如，头戴装置)的示例。可穿戴设备100是具有向用户呈现媒体的眼部穿戴物设备的头戴装置。在一个实施例中，可穿戴设备100可以是近眼显示器(NED)。在一些实施例中，眼部穿戴物设备是近眼显示器(NED)。通常，可穿戴设备100可以戴在用户的面部上，使得使用显示组件和/或音频系统呈现内容(例如，媒体内容)。然而，也可以使用可穿戴设备100，使得媒体内容以不同的方式呈现给用户。由可穿戴设备100呈现的媒体内容的示例包括一个或更多个图像、视频、音频或其某种组合。可穿戴设备100包括框架，并且可以包括显示组件、深度相机组件(DCA)、音频系统和位置传感器190以及其他部件，该显示组件包括一个或更多个显示元件120。虽然图1A示出了在可穿戴设备100上的示例定位上的可穿戴设备100的部件，但是部件可以位于可穿戴设备100上的其他地方、位于与可穿戴设备100配对的外围设备上或其某种组合。类似地，可穿戴设备100上的部件可能比图1A中所示的更多或更少。

框架110保持可穿戴设备100的其他部件。框架110包括保持一个或更多个显示元件120的前部和附接到用户头部的的末端件(例如，镜腿(temple))。框架110的前部架在(bridge)用户鼻子的顶部。末端件的长度可以是可调节的(例如，可调节的镜腿长度)以适合不同的用户。末端件还可包括在用户耳朵后面卷曲的部分(例如，镜腿尖端、耳件(earpiece))。

一个或更多个显示元件120向穿戴可穿戴设备100的用户提供光。如图所示，头戴装置包括用于用户的每只眼睛的显示元件120。在一些实施例中，显示元件120生成提供给可穿戴设备100的视窗(eyebox)的图像光。视窗是用户穿戴可穿戴设备100时眼睛所占据的空间中的定位。例如，显示元件120可以是波导显示器。波导显示器包括光源(例如，二维光源、一个或更多个线光源、一个或更多个点光源等)和一个或更多个波导。来自光源的光被向内耦合到一个或更多个波导中，该波导以使得在可穿戴设备100的视窗中存在光瞳复制的方式输出光。来自一个或更多个波导的光的向内耦合和/或向外耦合可以使用一个或更多个衍射光栅来完成。在一些实施例中，波导显示器包括扫描元件(例如，波导、反射镜等)，当来自光源的光向内耦合到一个或更多个波导中时，该扫描元件扫描来自光源的光。须注意，在一些实施例中，显示元件120中的一个或两个是不透明的并且不透射来自可穿戴设备100周围的局部区域的光。局部区域是可穿戴设备100周围的区域。例如，局部区域可以是穿戴可穿戴设备100的用户所在的房间，或者穿戴可穿戴设备100的用户可以在外面，并且局部区域是外部区域。在这种上下文中，可穿戴设备100生成VR内容。可替代地，在一些实施例中，显示元件120中的一者或两者至少部分透明，使得来自局部区域的光可与来自一个或更多个显示元件的光组合以产生AR和/或MR内容。

在一些实施例中，显示元件120不生成图像光，而是透镜将光从局部区域传送到视窗。例如，显示元件120中的一个或两个可以是无矫正的透镜(非处方透镜)，或者是处方透镜(例如，单视力透镜、双焦和三焦透镜或渐进透镜)以帮助矫正用户视力的缺陷。在一些实施例中，显示元件120可以被偏振和/或着色以保护用户的眼睛免受阳光照射。

须注意，在一些实施例中，显示元件120可以包括附加的光学块(未示出)。光学块可包括将光从显示元件120引导至视窗的一个或更多个光学元件(例如，透镜、菲涅耳透镜等)。光学块可以例如校正一些或所有图像内容中的像差、放大图像的一些或全部、或其某种组合。

DCA确定可穿戴设备100周围的局部区域的一部分的深度信息。DCA包括一个或更多个成像设备130和DCA控制器(未在图1A中示出)，并且还可以包括照明器140。在一些实施例中，照明器140用光照射局部区域的一部分。光可以是例如红外(IR)中的结构光(例如，点图案、条(bar)等)、用于飞行时间的IR闪光等。在一些实施例中，一个或更多个成像设备130采集包括来自照明器140的光的局部区域的部分的图像。如图所示，图1A示出了单个照明器140和两个成像设备130。在替代实施例中，没有照明器140和至少两个成像设备130。

DCA控制器使用采集的图像和一种或更多种深度确定技术计算局部区域的部分的深度信息。深度确定技术可以是例如直接飞行时间(ToF)深度感测、间接ToF深度感测、结构光、被动立体分析、主动立体分析(使用通过来自照明器140的光添加到场景的纹理)、确定场景的深度的某种其他技术或者它们的某种组合。

传感器设备190响应于可穿戴设备100的运动而生成一个或更多个测量信号。传感器设备190可以位于可穿戴设备100的框架105的一部分上。传感器设备190可包括位置传感器、惯性测量单元(IMU)或两者。可穿戴设备100的一些实施例可以包括或可以不包括传感器设备190，或者可以包括多于一个传感器设备190。在传感器设备190包括IMU的实施例中，IMU基于来自传感器设备190的测量信号而生成快速校准数据。传感器设备190的示例包括：一个或更多个加速度计、一个或更多个陀螺仪、一个或更多个磁力计、检测运动的另一种合适类型的传感器、用于IMU的误差校正的一种类型的传感器或者它们的某种组合。传感器设备190可位于IMU的外部、IMU的内部、或其某种组合。

基于一个或更多个测量信号，传感器设备190估算相对于可穿戴设备100的初始位置的可穿戴设备100的当前位置。所估算的位置可以包括可穿戴设备100的定位、和/或可穿戴设备100或戴着可穿戴设备100的用户的头部的定向、或其某种组合。定向可以对应于每只耳朵相对于参考点的位置。在一些实施例中，传感器设备190使用来自DCA的深度信息和/或绝对位置信息来估算可穿戴设备100的当前位置。传感器设备190可以包括测量平移运动(向前/向后、向上/向下、向左/向右)的多个加速度计和测量旋转运动(例如俯仰、偏航、横滚)的多个陀螺仪。在一些实施例中，IMU对测量信号进行快速采样，并且根据所采样的数据计算可穿戴设备100的估算的位置。例如，IMU在时间上对从加速度计接收的测量信号求积分以估算速度向量，并且在时间上对速度向量求积分以确定在可穿戴设备100上的参考点的估算的位置。替代地，IMU向控制器150提供采样的测量信号，控制器150确定快速校准数据。参考点是可以用来描述可穿戴设备100的位置的点。虽然参考点通常可以被定义为空间中的点，然而实际上，参考点被定义为在可穿戴设备100内的点。

在一些实施例中，可穿戴设备100可以提供可穿戴设备100的位置的即时定位与地图映射(SLAM)以及局部区域的模型的更新。例如，可穿戴设备100可以包括生成彩色图像数据的无源相机组件(PCA)。PCA可以包括一个或更多个RGB相机，其用于采集一些或全部局部区域的图像。在一些实施例中，DCA的一些或所有成像设备130也可以用作PCA。PCA采集的图像和DCA确定的深度信息可以用于确定局部区域的参数、生成局部区域的模型、更新局部区域的模型或者它们的某种组合。此外，位置传感器190跟踪可穿戴设备100在房间内的位置(例如，定位和姿势)。

在一些实施例中，传感器设备190可以包括一个或更多个传感器，该一个或更多个传感器被配置为确定与可穿戴设备100的用户相关的一个或更多个参数，例如可穿戴设备当前是否被用户穿戴。例如，传感器设备190可以包括可用于确定用户当前是否穿戴着可穿戴设备100的接近传感器(例如，红外接近传感器)、触摸传感器或其某种组合。可穿戴设备可以基于用户当前穿戴着可穿戴设备100的确定来执行一个或更多个功能，例如尝试认证用户、向用户提供内容、允许用户访问可穿戴设备的一个或更多个功能等。例如，可穿戴设备100可以响应于确定用户穿戴着可穿戴设备，尝试认证用户并将用户登录到用户账户，并且响应于确定用户不再穿戴可穿戴设备，将用户从用户账户注销。

音频系统提供音频内容。音频系统包括换能器阵列、传感器阵列和音频控制器150。然而，在其他实施例中，音频系统可以包括不同的和/或附加的部件。类似地，在一些情况下，参考音频系统的部件描述的功能可以以不同于这里描述的方式分布在部件之间。例如，控制器的一些或所有功能可以由远程服务器执行。

换能器阵列向用户呈现声音。换能器阵列包括多个换能器。换能器可以是扬声器160或组织换能器(tissue transducer)170(例如，骨传导换能器或软骨传导换能器)。尽管扬声器160被示出在框架110的外部，但是扬声器160可以被封闭在框架110中。在一些实施例中，代替用于每只耳朵的单独的扬声器，可穿戴设备100包括扬声器阵列，该扬声器阵列包括集成到框架110中的多个扬声器，以改善所呈现的音频内容的方向性。组织换能器170耦合到用户的头部并直接振动用户的组织(例如，骨骼或软骨)以生成声音。换能器的数量和/或定位可以与图1A所示的不同。

音频系统检测声音以为可穿戴设备100的用户生成一个或更多个声传递函数。声传递函数表征声音如何从空间中的一点被接收。声传递函数可以是阵列传递函数(ATF)、头部相关传递函数(HRTF)、其他类型的声传递函数或其某种组合。音频系统然后可以使用一个或更多个声传递函数来认证用户、为用户生成音频内容等。可穿戴设备100的音频系统包括传感器阵列和控制器150。

传感器阵列检测可穿戴设备100的局部区域内的声音。传感器阵列包括多个声传感器180。声传感器180采集从局部区域(例如，房间)中的一个或更多个声源发出的声音。每个声传感器被配置为检测声音并将检测到的声音转换成电子格式(模拟的或数字的)。声传感器180可以是声波传感器、麦克风、声音换能器或适用于检测声音的类似传感器。

在一些实施例中，一个或更多个声传感器180可以放置在每只耳朵的耳道中(例如，充当双耳麦克风)。在一些实施例中，声传感器180可以放置在可穿戴设备100的外表面上、放置在可穿戴设备100的内表面上、与可穿戴设备100分离(例如，是某种其他设备的部分)或者其某种组合。声传感器180的数量和/或定位可以与图1A所示的不同。例如，可以增加声检测定位的数量以增加收集的音频信息的量以及信息的灵敏度和/或准确性。声检测定位可以被定向成使得麦克风能够检测穿戴可穿戴设备100的用户周围的宽范围方向上的声音。

传感器阵列检测传感器阵列周围的局部区域内的声音。局部区域是围绕可穿戴设备100的环境。例如，局部区域可以是穿戴可穿戴设备100的用户所在的房间，或者穿戴可穿戴设备100的用户可以在房间外面，并且局部区域是传感器阵列能够检测声音的外部区域。所检测的声音可能是非受控声音或受控声音。非受控声音是不受音频系统控制且发生在局部区域中的声音。非受控声音的示例可以是自然产生的环境噪声。在这种配置中，音频系统能够使用由音频系统检测的非受控声音来校准可穿戴设备100。受控声音是由音频系统控制的声音。受控声音的示例可以是由诸如扬声器、扬声器组件、校准系统或其某种组合的外部系统输出的一个或更多个信号。在一些实施例中，受控声音还可以包括由音频系统提示的声音。例如，音频系统可以提示可穿戴设备100的用户(例如，通过说出预定短语)创建声音。虽然可穿戴设备100可以使用非受控声音来校准，但是在一些实施例中，在校准过程期间可以使用外部系统校准可穿戴设备100。每个所检测的声音(非受控声音和受控声音)可以与频率、振幅、持续时间或它们的某种组合相关联。

传感器阵列的声传感器180的配置可以变化。虽然可穿戴设备100在图1中被示为具有八个声传感器180，但是声传感器180的数量可以增加或减少。增加声传感器180的数量可以增加所收集的音频信息的量以及音频信息的灵敏度和/或准确度。减少声传感器180的数量可以降低控制器150处理所收集的音频信息所需的计算能力。此外，传感器阵列的每个声传感器180的位置可以变化。声传感器180的位置可以包括所定义的在用户身上的位置、所定义的在框架110上的坐标、与每个声传感器相关联的定向、或者其某种组合。例如，声传感器180可以位于用户的耳朵的不同部位上，例如耳郭(pinna)后面或耳廓(auricle)或窝(fossa)内，或者除了耳道内的声传感器180之外，在耳朵上或周围还可以有附加的声传感器。具有定位在用户的耳道旁边的声传感器可以使传感器阵列能够收集关于声音如何到达耳道的信息。可以沿着镜腿的长度、横越镜梁(bridge)、在显示元件120的上方或下方、或者其某种组合来定位框架115上的声传感器180。声传感器180可以被定向成使得传感器阵列能够检测穿戴可穿戴设备100的用户周围的宽范围方向上的声音。

控制器150处理来自传感器阵列的描述由传感器阵列检测到的声音的信息。与每个所检测的声音相关联的信息可以包括所检测的声音的频率、振幅和/或持续时间。在一些实施例中，对于每个所检测的声音，控制器150执行DoA估算。DoA估算是估算的方向，所检测的声音从该估算的方向到达传感器阵列的声传感器处。如果声音由传感器阵列中的至少两个声传感器检测到，则控制器150可以使用声传感器的已知位置关系和来自每个声传感器的声信号，以例如经由三角测量或另一种DoA算法来估算所检测的声音的源定位。当检测到声音的声传感器的数量增加时和/或当检测到声音的声传感器之间的距离增加时，源定位估算的准确性可以增加。

在一些实施例中，控制器150用信息填充音频数据集。信息可以包括所检测的声音和与每个所检测的声音相关联的参数。示例参数可以包括频率、振幅、持续时间、DoA估算、源定位或其某种组合。每个音频数据集可以对应于相对于可穿戴设备100的不同源定位，并且包括具有该源定位的一个或更多个声音。该音频数据集可用于确定对于该源定位的一个或更多个声传递函数。一个或更多个声传递函数可以存储在数据集中。在替代实施例中，每个音频数据集可以对应于相对于可穿戴设备100的几个源定位，并且包括每个源定位的一个或更多个声音。例如，彼此相对靠近(例如，在阈值距离内)的源定位可以被分组在一起。当传感器阵列检测到声音时，控制器150可以用信息填充音频数据集。当为每个所检测的声音执行DoA估算或确定源定位时，控制器150可以进一步为每个所检测的声音填充音频数据集。

在一些实施例中，控制器150选择对其执行DoA估算和/或源定位确定的所检测的声音。控制器150可以基于与存储在音频数据集中的每个所检测的声音相关联的参数来选择所检测的声音。控制器150可以评估与每个所检测的声音相关联的存储参数，并确定一个或更多个存储参数是否满足相应的参数条件。例如，如果参数高于或低于阈值或者落在目标范围内，则参数条件可以被满足。如果满足参数条件，控制器150对所检测的声音执行DoA估算和/或源定位确定。例如，控制器150可以对频率在频率范围内、振幅高于阈值振幅、持续时间低于阈值持续时间、其他类似变形、或其某种组合的所检测的声音执行DoA估算和/或源定位确定。参数条件可以由音频系统的用户基于历史数据、基于对音频数据集中的信息的分析(例如，评估所收集的参数信息并设置平均值)或其某种组合来设置。控制器150可以在音频集中创建元素来存储所检测的声音的DoA估算和/或源定位。在一些实施例中，如果数据已经存在，控制器150可以更新音频集中的元素。

在一些实施例中，控制器150可以从在可穿戴设备100外部的系统接收可穿戴设备100的位置信息。位置信息可以包括可穿戴设备100的定位、可穿戴设备100或戴着可穿戴设备100的用户的头部的定向、或其某种组合。位置信息可以相对于参考点被定义。定向可以对应于每只耳朵相对于参考点的位置。系统的示例包括成像组件、控制台(例如，如在图6中所述的)、即时定位与地图构建(SLAM)系统、深度相机组件、结构光系统或其他合适的系统。在一些实施例中，可穿戴设备100可以包括可以用于SLAM计算的传感器，SLAM计算可以全部或部分地由控制器150执行。控制器150可以连续地或以随机或指定的间隔从系统接收位置信息。在一些实施例中，接收到的位置信息可以用于确定所检测的声音的源定位。例如，在所检测的声音包括由外部系统产生的受控声音的实施例中，控制器150可以基于外部系统的已知位置和可穿戴设备100的当前位置来确定源定位。

基于所检测的声音的参数，控制器150生成与音频系统相关联的一个或更多个声传递函数。声传递函数可以是ATF、HRTF、其他类型的声传递函数或其某种组合。ATF表征传感器阵列如何从空间中的点接收声音。具体地，ATF定义在声源定位处的声音的参数和传感器阵列检测到该声音时的参数之间的关系。与声音相关联的参数可以包括频率、振幅、持续时间、DoA估算等。在一些实施例中，传感器阵列的至少一些声传感器耦合到用户穿戴的可穿戴设备100。由于人的解剖结构(例如耳朵形状、肩膀等)在声音传播到人的耳朵时影响声音，所以相对于传感器阵列的特定源定位的ATF可能因用户而异。因此，传感器阵列的ATF对于穿戴可穿戴设备的每个用户是个性化的。

HRTF表征耳朵如何从空间中的点接收声音。由于人的解剖结构(例如耳朵形状、肩膀等)在声音传播到人的耳朵时影响声音，所以相对于人的特定源定位的HRTF对于人的每只耳朵是唯一的(并且对于该人是唯一的)。例如，基于位于用户的每只耳朵附近(例如，在耳道入口的阈值距离内(并且可以位于耳道入口处)，或者在耳朵的耳道内)的一对声传感器，控制器150可以为用户生成两个HRTF，每只耳朵一个HRTF。一个HRTF或一对HRTF可用于创建包括似乎来自空间中的特定点的声音的音频内容。几个HRTF可用于创建环绕声音频内容(例如，用于家庭娱乐系统、剧院扬声器系统、沉浸式环境等)，其中每个HRTF或每对HRTF对应于空间中的不同点，使得音频内容似乎来自空间中的几个不同点。在一些实施例中，控制器150可以基于每个所检测的声音的DoA估算来更新预先存在的声传递函数。在一些实施例中，当可穿戴设备100的位置在局部区域内改变时，控制器150可以相应地生成新的声传递函数或者更新预先存在的声传递函数。

图1B是根据一个或更多个实施例的实现为HMD的头戴装置105的透视图。在描述AR系统和/或MR系统的实施例中，HMD前侧的部分在可见光波段(约380nm至约750nm)中至少部分透明，并且在HMD前侧和用户的眼睛之间的HMD的部分至少是部分透明的(例如，部分透明的电子显示器)。HMD包括前刚性主体190和带175。头戴装置105包括许多与上文参考图1A描述的部件相同的部件，但这些部件经过修改以与HMD形状因子集成。例如，HMD包括显示组件、DCA、音频系统和位置传感器190。图1B示出了照明器140、多个扬声器160、多个成像设备130、多个声传感器180和传感器设备190。尽管图1B示出了在头戴装置105上的特定定位中的HMD的部件，但是应当理解，在其他实施例中，HMD的部件可以不同地布置。例如，图1B示出了安装在带175上的扬声器160。在其他实施例中，扬声器160可以在带175上、在前刚性主体115上、在单独的结构上使得扬声器160位于用户的耳朵附近或耳朵内、或者它们的某种组合。

音频系统综述

图2是根据一个或更多个实施例的音频系统200的框图。图1中的音频系统可以是音频系统200的实施例。音频系统200检测声音来为用户生成一个或更多个声传递函数，这些声传递函数可用于认证用户和/或为用户生成音频内容。在图2的实施例中，音频系统200包括换能器阵列210、传感器阵列220和音频控制器230。音频系统200的一些实施例具有与这里描述的部件不同的部件。类似地，在某些情形中，功能可以以不同于这里描述的方式在部件之间分配。

换能器阵列210被配置成呈现音频内容。换能器阵列210包括多个换能器。换能器是提供音频内容的设备。换能器可以是例如扬声器(例如，扬声器160)、组织换能器(例如，组织换能器170)、提供音频内容的某种其他设备或它们的某种组合。组织换能器可以被配置成用作骨传导换能器或软骨传导换能器。换能器阵列210可以经由空气传导(例如，经由一个或更多个扬声器)、经由骨传导(经由一个或更多个骨传导换能器)、经由软骨传导音频系统(经由一个或更多个软骨传导换能器)或其某种组合来呈现音频内容。在一些实施例中，换能器阵列210可以包括一个或更多个换能器，以覆盖频率范围的不同部分。例如，压电换能器可以用于覆盖频率范围的第一部分，而动圈换能器可以用于覆盖频率范围的第二部分。

骨传导换能器通过振动用户的头部中的骨骼/组织来产生声压波。骨传导换能器可以耦合到头戴装置的一部分，并且可以被配置为在耳廓后面耦合到用户头骨的一部分。骨传导换能器从音频控制器230接收振动指令，并基于接收到的指令使用户的头骨的一部分振动。来自骨传导换能器的振动产生组织传播的声压波，该声压波绕过耳膜朝向用户的耳蜗传播。

软骨传导换能器通过振动用户的耳朵的耳软骨(auricular cartilage)的一个或更多个部分来产生声压波。软骨传导换能器可以耦合到头戴装置的一部分，并且可以被配置为耦合到耳朵的耳软骨的一个或更多个部分。例如，软骨传导换能器可以耦合到用户耳朵的耳廓的后部。软骨传导换能器可以位于沿着外耳周围的耳软骨的任何地方(例如耳郭、耳屏、软骨的某个其他部分或它们的某种组合)。振动耳软骨的一个或更多个部分可以产生：耳道外部的空气传播的声压波；组织产生的声压波，该声压波导致耳道的某些部分振动，从而在耳道内产生空气传播的声压波；或者它们的某种组合。产生的空气传播的声压波顺着耳道向耳膜传播。

换能器阵列210根据来自音频控制器230的指令生成音频内容。在一些实施例中，音频内容被空间化。空间化的音频内容是听起来源自特定方向和/或目标区域(例如，局部区域中的对象和/或虚拟对象)的音频内容。例如，空间化的音频内容可以使声音听起来是来自音频系统200的用户的房间对面的虚拟歌手。换能器阵列210可以耦合到可穿戴设备(例如，可穿戴设备100)。在替代实施例中，换能器阵列210可以是与可穿戴设备分离(例如，耦合到外部控制台)的多个扬声器。在一个实施例中，换能器阵列210可以发射受控的测试声音，该测试声音由传感器阵列220接收，并且可以被分析以生成用于可穿戴设备100的声传递函数。具有变化的频率、振幅、持续时间或序列的多个测试声音可以由换能器阵列210产生。在一些实施例中，音频控制器230还可以通过换能器阵列210向用户发出听觉指令(例如，提示用户创建声音、在区域内移动等)。

传感器阵列220检测在音频系统200周围的局部区域内的声音。传感器阵列220可以包括多个声传感器，每个声传感器检测声波的气压变化并将所检测的声音转换成电子格式(模拟的或数字的)。多个声传感器可以位于头戴装置(例如，头戴装置100和/或头戴装置105)上、用户身上(例如，用户的耳道中)、颈带上或其某种组合。声传感器可以是例如麦克风、振动传感器、加速度计、接触式麦克风或其任意组合。在一些实施例中，传感器阵列220被配置成使用多个声传感器中的至少一些声传感器来监控由换能器阵列210生成的音频内容。增加传感器的数量可以提高描述由换能器阵列210产生的声场和/或来自局部区域的声音的信息(例如，方向性)的准确性。

如参照图1所述，所检测的声音可以是非受控声音或受控声音。每个所检测的声音可以与音频信息(例如频率、振幅、持续时间或它们的某种组合)相关联。传感器阵列220中的每个声传感器可以是活跃的(被通电)或不活跃的(被断电)。声传感器根据来自音频控制器230的指令被激活或被去激活。在一些实施例中，传感器阵列220中的所有声传感器可以是活跃的以检测声音，或者多个声传感器的子集可以是活跃的。活跃的子集包括多个声传感器中的至少两个声传感器。活跃的子集可以包括例如每隔一个的声传感器、预编程的初始子集、随机子集或其某种组合。

音频控制器230控制音频系统200的操作。在图2的实施例中，音频控制器230包括数据储存器235、源定位确定模块240、传递函数处理模块250、跟踪模块260、波束形成(beamforming)模块270和声音滤波器模块280。在一些实施例中，音频控制器230可以位于头戴装置内部。音频控制器230的一些实施例具有与这里描述的部件不同的部件。类似地，功能可以以与这里描述的方式不同的方式在部件之间进行分配。例如，控制器的一些功能可以在头戴装置的外部执行(例如，由数据储存器235和安全模块285存储的所学习的传递函数存储装置可以被实现为与音频系统200通信的独立安全系统的一部分)。

数据储存器235存储供音频系统200使用的数据。数据储存器235中的数据可以包括记录在音频系统200的局部区域中的声音、音频内容、计算的HRTF、一个或更多个传感器的传递函数、一个或更多个声传感器的ATF、声源定位、局部区域的虚拟模型、到达方向估算、声音滤波器和与供音频系统200使用相关的其他数据、或者它们的任意组合。

音频控制器230处理来自传感器阵列220的信息。此外，音频控制器230控制音频系统200的其他模块和设备。与每个所检测的声音相关联的信息可以包括所检测的声音的频率、振幅和/或持续时间。

源定位确定模块220被配置成部分基于来自传感器阵列220的信息来定位局部区域中的声源。定位(localization)是确定声源相对于音频系统200的用户的位置的过程。如果声音由传感器阵列中的至少两个声传感器检测到，则音频控制器230可以使用声传感器的位置关系和来自每个声传感器的DoA估算来例如经由三角测量估算所检测的声音的源定位。所估算的源定位可以是局部区域中源定位相对于传感器阵列220的位置的相对位置。DOA分析可以包括分析在传感器阵列220处的每个声音的强度、频谱和/或到达时间，以确定声音源自的方向。在一些情况下，DOA分析可以包括用于分析音频系统200所处的周围声学环境的任何合适的算法。

例如，DOA分析可以被设计成从传感器阵列220接收输入信号，并将数字信号处理算法应用于输入信号以估算到达方向。这些算法可以包括例如延迟和求和算法，其中输入信号被采样，并且得到的被采样信号的加权和延迟版本被一起取平均以确定DOA。也可以实现最小均方(LMS)算法以创建自适应滤波器。该自适应滤波器然后可以用于例如，识别信号强度的差异或到达时间的差异。然后这些差异可用于估算DOA。在另一个实施例中，可以通过将输入信号转换到频域内并选择要处理的时频(TF)域内的特定单元(bin)来确定DOA。可以处理每个选定TF单元以确定该单元是否包括具有直接路径音频信号的音频频谱的一部分。然后可以分析具有直接路径信号的一部分的那些单元，以识别传感器阵列220接收直接路径音频信号的角度。然后，所确定的角度可以用于识别接收到的输入信号的DOA。也可以单独地或者与上面的算法结合地使用上面没有列出的其他算法来确定DOA。

在一些实施例中，如果传感器阵列220的绝对位置在局部区域中是已知的，则音频控制器230可以确定源定位的绝对位置。传感器阵列220的位置可以从外部系统(例如成像组件、AR或VR控制台、SLAM系统、深度相机组件、结构光系统等)接收。外部系统可以创建局部区域的虚拟模型，其中局部区域和传感器阵列220的位置被测绘(map)。所接收的位置信息可以包括在所测绘的局部区域中的传感器阵列的定位和/或定向。音频控制器230可以用所检测的声音的所确定的源定位来更新局部区域的测绘。音频控制器230可以连续地或以随机或指定的间隔从外部系统接收位置信息。在一些实施例中，音频控制器230选择为其执行源定位确定的所检测的声音(例如，仅满足某些参数条件的声音)。

在一些实施例中，源定位确定模块220可以从一个或更多个附加传感器(例如，传感器设备190)接收信息，用于在确定所检测的声音的源定位时使用。例如，在一些实施例中，一个或更多个相机组件、陀螺仪、加速度计、磁力计、SLAM系统和/或类似物可用于确定可穿戴设备的基本事实(ground truth)位置和定向，从该基本事实位置和定向可确定一个或更多个受控声源(例如，外部扬声器)的相对位置。例如，在所检测的声音是在相对于参考点的已知定位处从外部扬声器发出的受控声音的情况下，源定位确定模块220使用音频系统200相对于参考点的位置来确定相对于音频系统200的声音的源定位。在一些实施例中，如果当检测到声音时，可穿戴设备正在移动(例如，由于用户在局部区域内移动)，则当确定所检测的声音的源定位时，附加传感器数据可用于补偿移动。

传递函数处理模块250被配置成生成一个或更多个声传递函数。一般来说，传递函数是对于每个可能的输入值给出相应的输出值的数学函数。基于所检测的声音的参数，传递函数处理模块250生成与音频系统相关联的一个或更多个声传递函数。声传递函数可以是ATF、HRTF、其他类型的声传递函数或其某种组合。ATF表征麦克风如何从空间中的点接收声音。在图2的实施例中，声传递函数表示在声源定位处的声音和声音如何例如由传感器阵列或由人检测到之间的关系。当检测到源自不同源定位的声音时，传递函数处理模块250可以针对每个不同的源定位确定一个或更多个声传递函数。

在一个实施例中，传递函数处理模块250生成阵列传递函数(ATF)。ATF表征传感器阵列220如何从空间中的点接收声音。具体地，ATF定义在声源定位处的声音的参数和传感器阵列220检测到该声音时的参数之间的关系。与声音相关联的参数可以包括频率、振幅、持续时间等。传递函数处理模块250可以对于所检测的声音的特定源定位生成一个或更多个ATF。可以影响声音如何由传感器阵列220接收的因素可以包括传感器阵列220中声传感器的布置和/或定向、在声源和传感器阵列220之间的任何对象、穿戴着具有传感器阵列220的眼部穿戴物设备的用户的解剖结构或者在局部区域中的其他对象。例如，如果用户穿戴着包括传感器阵列220的眼部穿戴物设备，则此人的解剖结构(例如耳朵形状、肩膀等)可以在声波传播到传感器阵列220时影响声波。在另一示例中，如果用户穿戴着包括传感器阵列220的眼部穿戴物设备并且围绕传感器阵列220的局部区域是包括建筑物、树、灌木、水体(abody of water)等的外部环境，则这些对象可能减弱或放大局部区域中的声音的振幅。生成和/或更新ATF可以提高由传感器阵列220采集的音频信息的准确性。

在一个实施例中，传递函数处理模块250生成一个或更多个HRTF。HRTF表征人的耳朵如何从空间中的点接收声音。由于人的解剖结构(例如耳朵形状、肩膀等)在声音传播到人的耳朵时影响声音，所以相对于人的特定源定位的HRTF对于人的每只耳朵是唯一的(并且对于该人是唯一的)。传递函数处理模块250可以为单个人生成多个HRTF，其中每个HRTF可以与不同的源定位、不同的频率范围或其某种组合相关联。

安全模块285被配置为基于所确定的声传递函数，使用传递函数处理模块250为用户生成的声传递函数，来管理与用户识别或认证相关的一个或更多个安全功能。一个或更多个安全功能可以包括基于他们的确定的声传递函数、基于与先前学习的声传递函数的比较来识别或认证用户，基于识别或认证来将用户登录到用户简档或阻止用户登录到用户简档，基于识别或认证来允许或阻止对个性化内容的访问，等等。为了能够识别用户，将确定的与用户相关联的声传递函数与存储在数据储存器235中的先前确定的与已知用户相关联的声传递函数(以下称为“个性化函数”)进行比较。例如，在一些实施例中，安全模块285响应于接收为用户确定的函数，从数据储存器235中检索一个或更多个已知用户的一个或更多个个性化函数，并尝试基于所确定的声传递函数与所检索的个性化函数的比较来识别用户。在一些实施例中，安全模块285仅检索对应于与所确定的声传递函数相关联的源定位的个性化函数，或者与在所确定的声传递函数的源定位的阈值距离内的源定位相关联的个性化函数。在一些实施例中，代替从数据储存器235中检索或除了从数据储存器235中检索之外，安全模块285可以从传递函数存储装置中检索与一个或更多个已知用户相关联的个性化函数，该传递函数存储装置位于与可穿戴设备(例如，图6所示的控制台615)或可通过网络访问的服务器(例如，图6所示的映射服务器625)通信的独立设备上。此外，尽管安全模块285被示为音频系统200的一部分，但是在一些实施例中，安全模块285的功能可以在单独的设备(例如，控制台)或服务器上执行，其中远程安全模块接收在音频系统200处确定的声传递函数，针对该声传递函数执行一个或更多个安全功能。

安全模块285可以使用回归模型、聚类模型或基于机器学习的分类模型来比较所确定的声传递函数和所检索的个性化函数。例如，在一些实施例中，安全模块285包括被训练来确定不同声传递函数之间的相似性水平的神经网络。

在一些实施例中，安全模块285确定指示为用户确定的一个或更多个声传递函数和对应于已知用户的一个或更多个存储的个性化函数之间的相似性水平的置信度水平，并且如果置信度水平超过阈值，则将用户认证为已知用户。在一些实施例中，置信度水平可以基于所比较的声传递函数的数量、与所比较的函数相关联的不同定位的数量等。在一些实施例中，如果置信度水平在预定范围内，安全模块285可以提示用户提供附加的认证信息(例如，密码、指纹、语音识别等)。在一些实施例中，置信度值可以与其他安全措施合计(aggregate)，以便形成用于识别用户的合计的置信度度量。

数据储存器235可以存储(例如，由传递函数处理模块250)为已知用户确定的声传递函数作为用户的个性化函数。在一些实施例中，数据储存器235为一个或更多个已知用户中的每一个用户存储一组或更多组个性化函数，每组个性化函数与特定的源定位相关联。每个源定位可以对应于相对于音频系统200的定位，或者对应于特定区域内的多个定位(例如，彼此在阈值距离内的定位集合)。在一些实施例中，每组个性化函数可以进一步分成对应于不同频率范围的一个或更多个子集。在一些实施例中，为一个或更多个用户确定的个性化函数可以存储在单独的所学习的传递函数存储装置(未示出)中。

在一些实施例中，安全模块285为用户执行初始校准操作，以便使用与用户相关联的个性化函数填充数据储存器235，从而当用户稍后穿戴上可穿戴设备时，可以使用他们的个性化函数来识别用户。在校准操作期间，用户被认证并与已知的用户简档相关联。例如，用户可以在与设备相关联的用户界面上输入密码、提供指纹和/或使用其他手段被认证。当用户穿戴可穿戴设备时，传递函数处理模块250为用户确定一个或更多个声传递函数，这些声传递函数作为用户的个性化函数存储在数据储存器235中。例如，在一些实施例中，在用户经由一些其他手段(例如，在游标器、电话或其他可信设备上的指纹)首次被认证之后，设备针对用户进行训练。当设备被穿戴时(例如，由眼镜框架内侧的红外(IR)接近传感器或其他戴/脱传感器(don/doff sensor)确定)，在“设备开启(device-on)”状态期间预测/估算穿戴者的声传递函数。"

在一些实施例中，安全模块285可以使一个或更多个受控声音被发出，以便为用户确定对应于某些期望的定位和/或频率范围的声传递函数。例如，安全模块285可以使换能器阵列210的一个或更多个扬声器发出一个或更多个预定的声音。在其他实施例中，安全模块285可以使与可穿戴设备100通信的外部设备的扬声器发出预定的声音。安全模块285可以提示用户创建一个或更多个声音，例如说出一个或更多个短语、拍手等。在一些实施例中，安全模块285可以提示用户在局部区域内移动，以便检测源自相对于设备的更多种类的不同定位的声音。可以执行校准操作，直到为用户确定了阈值数量的声传递函数、直到为用户确定了对应于某些源定位、阈值数量的源定位和/或某些频率范围的声传递函数、等等。在一些实施例中，随着校准操作继续为用户确定和/或更新声传递函数，直到达到如由机器学习模型确定的阈值置信度水平。

一旦已经执行了校准操作，并且为用户存储了个性化函数，则当用户稍后穿戴该设备时，可以基于用户的个性化函数来识别用户。例如，当确定用户正穿戴着可穿戴设备时，传递函数处理模块250动态地为用户确定一个或更多个声传递函数。在一些实施例中，传递函数处理模块250使用用户的局部区域内的非受控声音为用户确定声传递函数。在一些实施例中，安全模块285可以引起受控声音的发射，或者可以提示用户(例如，通过说出预定短语)创建一个或更多个声音，该一个或更多个声音可以用于确定声传递函数。受控声音的使用可以允许可靠地确定与特定源定位或特定频率范围相关联的声传递函数，而不管局部区域内非受控声音的水平如何。此外，在提示用户创建一个或更多个声音的实施例中，用户的声传递函数的确定可以与用户的语音识别并行执行。例如，声传递函数的确定可以利用用户在创建声音时的空间签名(例如，由于声音源自相对于音频传感器的稳定的(consistent)、可预测的定位)，而语音识别功能可以基于所创建的声音来分析用户的语音签名。

然后，可以将所确定的声传递函数与存储在数据储存器235中的用户的个性化函数的至少一个子集进行比较，其中可以响应于成功的比较(例如，置信度值超过阈值水平)来识别用户，并且允许用户访问个性化内容和/或可穿戴设备的某些功能。在另一个示例中，可以响应于识别用户来激活可穿戴设备的特定于用户的配置。另一方面，如果比较不成功(例如，由于确定的声传递函数和存储的个性化函数之间的差异太大)，则不识别用户。在一些实施例中，用户可能被限制访问可穿戴设备的某些数据或功能。在一些实施例中，比较的结果可以与一种或更多种附加识别方法(例如语音识别、眼睛/虹膜识别、指纹识别等)结合使用以识别用户(例如，与多个不同的识别方案相关联的置信度值的加权组合)。

在一些实施例中，声传递函数可以用于促进用户认证。例如，存储的用户的个性化函数可以用作用户的“指纹”，类似于实际的指纹、人脸ID系统等。安全模块285可以在识别出和认证第一用户时将第一用户登录到第一用户账户。稍后，安全模块285可以确定不同的穿戴者正穿戴着可穿戴设备(例如，通过检测可穿戴设备被移除并且然后被重新穿戴，或者通过周期性地确定穿戴用户的声传递函数)，并且响应于基于为用户确定的声传递函数和存储的第一用户的个性化函数的比较确定当前穿戴用户不同于第一用户，注销第一用户账户。在一些实施例中，如果第一用户被识别为是与第二用户相关联的被授权群组的一部分(例如，第二用户的家庭成员)，则安全模块285可以将第一用户登录到与第二用户相关联的用户账户或简档中。

波束形成模块270被配置成处理一个或更多个ATF，以选择性地强调来自某个区域内的声源的声音，同时削弱(de-emphasize)来自其他区域的声音。在分析由传感器阵列220检测到的声音时，波束形成模块270可以组合来自不同声传感器的信息，以强调来自局部区域的特定区域的相关联的声音，同时削弱来自该特定区域外部的声音。波束形成模块270可以基于例如来自DOA估计模块240和跟踪模块260的不同DOA估计，将与来自特定声源的声音相关联的音频信号与局部区域中的其他声源隔离。波束形成模块270因此可以选择性地分析局部区域中的分立声源。在一些实施例中，波束形成模块270可以增强来自声源的信号。例如，波束形成模块270可以应用消除高于、低于某些频率或在某些频率之间的信号的声音滤波器。信号增强起作用来相对于由传感器阵列220检测到的其他声音来增强与给定的所识别的声源相关联的声音。在一些实施例中，波束形成模块270包括一个或更多个波束形成滤波器，其适于包含用于一个或更多个给定方向和/或环境的ATF的干净副本。

声音滤波器模块280确定用于换能器阵列210的声音滤波器。在一些实施例中，声音滤波器使音频内容被空间化，从而使得音频内容听起来源自目标区域。声音滤波器模块280可以使用HRTF和/或声学参数来生成声音滤波器。声学参数描述了局部区域的声学特性。声学参数可以包括例如混响时间、混响水平、房间脉冲响应等。在一些实施例中，声音滤波器模块280计算一个或更多个声学参数。在一些实施例中，声音滤波器模块280从映射服务器(例如，如下面参考图6所述的)请求声学参数。声音滤波器模块280向换能器阵列210提供声音滤波器。在一些实施例中，作为频率的函数，声音滤波器可以引起声音的正放大或负放大。

用于用户认证的声传递函数的确定

图3是示出根据一些实施例的局部区域中的声音可以由传感器阵列检测并用于确定声传递函数的图。用户可以在其头部310附近穿戴具有声传感器305A和305B(统称为声传感器305)的可穿戴设备。尽管图3仅示出了在相对于用户的头部310的特定定位中的两个声传感器305，但是应当理解，在其他实施例中，可穿戴设备的音频系统可以包括附加的声传感器、在相对于用户的头部310的不同定位中的声传感器或者它们的某种组合。

源自局部区域中的源定位315的声音可以产生声波，该声波可以被声传感器305检测到。在声传感器305A和305B中的每一个处检测到的声音可以分别包括直达声320A和320B，以及间接声音。间接声音可以包括从用户的头部310反射的反射声音325A、325B，以及通过用户的头部310的至少一部分传播的声音330。在一些实施例中，直达声可以包括通过不同介质(例如用户的头部310)传播的声音。在一些实施例中，间接声音还可以包括从局部区域中的其他对象反射的声音(未示出)。在一些实施例中，由于直达声具有从源定位315到每个声传感器305的最直接路径(例如，典型地，视线路径，除非被遮挡)，因此声传感器将在时间上最早检测到直达声，而间接声音可以在时间上较晚被检测到。由于用户的头部310接近声传感器305，因此对应于从用户的头部反射的间接声音可以与直达声紧密交互，而对应于从局部区域中的其他对象(例如，墙壁、家具等)反射的声音可以在时间上较晚在声传感器305处被检测到。

音频系统基于在每个声传感器305处检测到的声音来确定声传递函数。由于声传感器305的不同定位，直达声320A和320B在不同的时间被声传感器305A和305B检测到。此外，基于在源定位315和每个声传感器305之间的任何插入对象的属性(例如用户的头部310的形状、尺寸和/或密度)，在每个声传感器305处检测到的直达声320的幅度可以不同。基于用户的头部310相对于源定位315的位置、用户的头部310的几何形状和密度等，在每个声传感器305A和305B处检测到的间接声音(包括反射声音325A、325B和穿过头部的声音330)也可以不同。因此，对于源自同一源定位315的给定声音，对于具有不同头部形状的不同用户，在每个声传感器305处检测到的直达声和间接声音之间的差异将是不同的，从而允许为不同的用户确定不同的声传递函数。

在一些实施例中，所确定的声传递函数是相对传递函数，其对应于在两个或更多个麦克风处检测的声音之间的相对差异。因为相对传递函数反映了在不同麦克风处检测的声音之间的相对差异，所以可以使用来自相同定位的具有不同听觉内容的声音来确定用户的相对传递函数。这允许通过将基于源自已知源定位的第一声音为用户确定的第一传递函数与基于源自该源定位的第二声音为用户确定的第二传递函数进行比较来认证用户，即使第一声音和第二声音不同。

在音频系统的传感器阵列包含多于两个声传感器的实施例中，预定的声传感器可以被指定为参考声传感器，其中所确定的相对传递函数指示在每个剩余的声传感器和参考声传感器处检测的声音之间的相对差异。在一些实施例中，音频系统确定声传递函数集合，每个声传递函数对应于在传感器阵列的两个声传感器处检测的声音之间的比率。

在一些实施例中，音频系统分析在每个声传感器305处接收的声音，并且从在每个声传感器处检测到的合计的声音中提取声音的一部分。声音的被提取部分可以对应于在接收来自源定位的直达声的第一部分的时间窗口内从源定位接收的声音。因此，提取的直达声可以包括直接通过空气传播到每个声传感器的声音(例如，声音320)、通过其他介质(例如用户的头部310)传播的直达声、和/或从用户的头部的部分反射的间接声音。另一方面，可以选择时间窗口，使得提取的声音将不包含从更远的对象(例如，用户身体的其他部位、局部区域中的其他对象)反射的间接声音。在一些实施例中，直达声被识别为相对于间接声音更早到达每个声传感器305处并且具有更大的振幅。相对传递函数基于在每个声传感器处检测到的提取的声音之间的差异来确定，该差异反映了声传感器305与源定位315的相对定位，以及来自用户的头部310的任何影响。在一些实施例中，在每个声传感器处检测到的提取的声音之间的差异被确定为比率。因为只有由声传感器检测到的提取的声音被用于确定相对传递函数，所以来自由于从除用户的头部310之外的局部区域中的对象的反射而导致的间接声音的影响被忽略，并且不会影响所确定的声传递函数。因此，基于音频系统相对于源定位的位置、由于用户的头部310而导致的对直达声的影响以及所检测的声音的频率范围，所确定的声传递函数将反映在声传感器305处检测的声音的时间延迟和频率响应。在标题为“Audio System for Dynamic Determination of Personalize AcousticTransfer Functions”的美国专利申请第16/015,879号中描述了用于从接收到的声音中提取直达声并确定声音传递函数的方法的附加示例，该申请通过引用以其整体并入本文。

声传递函数认证过程流

图4是示出根据一个或更多个实施例的生成和更新包括音频系统(例如音频系统200)的可穿戴设备(例如可穿戴设备100)的声传递函数的过程400的流程图。在一个实施例中，图4的过程由音频系统的部件执行。在其他实施例中，其他实体(例如，控制台)可以执行该过程的一些或所有步骤。同样，实施例可以包括不同的和/或附加的步骤，或者以不同的顺序执行这些步骤。

音频系统监控410眼部穿戴物设备上的传感器阵列周围的局部区域中的声音。传感器阵列可以检测声音，例如出现在局部区域中的非受控声音和受控声音。每个所检测的声音可以与频率、振幅、持续时间或其某种组合相关联。在一些实施例中，音频系统将与每个所检测的声音相关联的信息存储在音频数据集中。

在一些实施例中，音频系统可选地估算420传感器阵列在局部区域中的位置。所估算的位置可以包括传感器阵列的定位、和/或可穿戴设备或穿戴着可穿戴设备的用户的头部的定向、或其某种组合。在一个实施例中，音频系统可以包括一个或更多个传感器，该传感器响应于传感器阵列的运动而生成一个或更多个测量信号。音频系统可以相对于传感器阵列的初始位置估算传感器阵列的当前位置。在另一个实施例中，音频系统可以从外部系统(例如成像组件、AR或VR控制台、SLAM系统、深度相机组件、结构光系统等)接收眼部穿戴物设备的位置信息。在一些实施例中，设备相对于环境的定位的知识可以用于帮助去除与来自环境中的对象的反射对应的音频数据，从而允许计算的声传递函数通过减少来自环境中的其他对象的反射声音的影响来更准确地反映用户头部的几何形状。

音频系统相对于传感器阵列的位置为每个所检测的声音执行430源定位确定。在一些实施例中，源定位确定基于针对麦克风的每个声传感器的一个或更多个DoA估算，该DoA估算指示所检测的声音到达传感器阵列的声传感器处的估算的方向。DoA估算可以被表示为在所检测的声音的所估算的源定位和眼部穿戴物设备在局部区域内的位置之间的向量。可以基于估算的DoA的三角测量来确定源定位。在一些实施例中，音频系统可以对与满足参数条件的参数相关联的所检测的声音执行430源定位确定。例如，如果参数高于或低于阈值或者落在目标范围内，则参数条件可以被满足。

音频系统更新440一个或更多个声传递函数。声传递函数可以是ATF或HRTF。声传递函数表示在声源定位处的声音和声音如何被检测之间的关系。因此，每个声传递函数与所检测的声音的不同源定位(相对于传感器阵列的位置)相关联。结果，音频系统可以为特定源定位更新440多个声传递函数。

在一些实施例中，眼部穿戴物设备可以为特定源定位更新440两个HRTF，用户的每只耳朵一个HRTF。在一些实施例中，音频系统生成一个或更多个声传递函数，每个声传递函数与在传感器阵列的不同声传感器处检测到的声音的相对比率相关联。

当检测到来自局部区域的不同声音时，音频系统可以生成一个或更多个新的声传递函数，或者相应地更新440与源定位相关联的一个或更多个预先存在的声传递函数。当穿戴传感器阵列的用户移动穿过局部区域时，过程400可以不断地重复，或者过程400可以在经由传感器阵列检测到声音时启动。

图5是示出根据一个或更多个实施例的基于一个或更多个确定的声传递函数来识别包括音频系统的可穿戴设备的用户的过程500的流程图。音频系统接收510用户正穿戴着可穿戴设备的指示。在一些实施例中，该指示可以基于可穿戴设备的操作状态(例如，可穿戴设备被打开、一个或更多个功能被打开等)、一个或更多个传感器读数(例如，指示用户正穿戴着该设备的接近传感器，例如IR接近传感器)、一个或更多个用户输入(例如，用户在穿戴上该可穿戴设备后按下特定按钮)或其某种组合。

如上面所讨论，虽然在不需要来自用户的任何输入的情况下基于局部区域中的声音确定用户的声传递函数是可能的，但是在一些实施例中，音频系统可以导致520发出受控声音和/或提示用户生成一个或更多个声音，以便于利于为用户确定声传递函数。例如，音频系统可以使由可穿戴设备控制或与可穿戴设备通信的扬声器产生一个或更多个声音。在一些实施例中，可以提示用户说出一个或更多个预定短语、拍手等。在已知用户的个性化函数包括基于用户在校准操作期间说出的短语而计算的声传递函数的实施例中，提示用户说出一个或更多个短语可以确保可以获得对应于特定源定位的声传递函数，这是因为当用户穿戴设备时，用户的嘴部位置通常会在相似的定位处。

基于在音频系统的传感器阵列(例如，传感器阵列)处检测到的声音，音频系统为用户确定530至少一个声传递函数。例如，传感器阵列的声传感器可以位于穿戴在用户的头部上的头戴装置上。声音从源定位传播到每个声传感器。声传感器基于采集的声音生成音频数据。声音通过从用户的头部的不同部分(例如，头部、面部、耳朵表面)反射和/或通过用户的头部传播来进行变换，并且这种变换对于不同的用户可能是不同的。该变换可以包括频率响应、时间延迟和/或振幅变化。该至少一个声传递函数可以基于由不同定位处的声传感器采集的音频数据的比率来确定。在一些实施例中，可以确定声传递函数集合。例如，成对的声传感器之间以及对于每个分立源定位的音频数据的比率可以用于确定声传递函数集合。

在一些实施例中，声音可以是受控声音(例如，由可穿戴设备控制的或与可穿戴设备通信的扬声器发出的声音，或者由用户响应于提示而说出的声音)。在其他实施例中，所检测的声音可以包括设备的局部区域内的非受控声音。在一些实施例中，音频系统使用图4所示的过程来确定至少一个声传递函数。所确定的声传递函数可以包括指示由传感器阵列的每个麦克风检测的声音的相对差异的相对传递函数。在一些实施例中，每个确定的声传递函数与特定的源定位、特定的频率范围或其组合相关联。

音频系统将为用户确定的至少一个声传递函数与和已知用户相关联的一个或更多个存储的声传递函数进行比较540。在一些实施例中，音频系统识别与定位(该定位与至少一个确定的声传递函数相关联的源定位相同或在该源定位的阈值距离内)相关联的一个或更多个存储的个性化函数，以与确定的声传递函数进行比较。在一些实施例中，所识别的个性化函数可以被确定为关联于与所确定的声传递函数共同的频率范围的函数。在一些实施例中，音频系统基于至少一个确定的声传递函数和所识别的与每个已知用户相关联的存储的声传递函数之间的比较来确定一个或更多个置信度值。在一些实施例中，可以将声传递函数集合(例如，每个声传递函数对应于使用不同的声传感器对生成的比率)与相应的存储的声传递函数集合进行比较。在一些实施例中，阵列传递函数与存储的声传递函数集合的比较可以使用机器学习和统计学习算法(包括相似性学习、表示学习和距离度量计算)来完成。在一些实施例中，这样的特定模型/算法包括核化最近邻(kernalized nearestneighbors)、神经网络、非线性变换(如单索引或多索引模型)、广义主成分分析、局部线性嵌入、等距映射等。

音频系统基于声传递函数的比较来识别550用户。例如，如果通过将确定的一个或更多个声传递函数与存储的第一已知用户的声传递函数进行比较而获得的置信度满足阈值，则用户可以被识别为第一已知用户。在一些实施例中，比较结果可以与一种或更多种附加认证方法(例如，语音、指纹等)相结合来识别或认证用户。例如，如果提示用户说出预定短语(例如，在520)，则与用户的语音对应的声音可以用于确定用户的声传递函数，以及对用户执行语音识别。在一些实施例中，如果用户被识别为已知用户，则设备可以执行对用户个性化的一个或更多个动作，例如，根据一个或更多个存储的用户偏好自动配置一个或更多个设置、允许用户访问个性化内容等等。另一方面，如果用户无法被识别为已知用户，则设备可以阻止用户访问已知用户的个性化内容，和/或限制一个或更多个功能。在一些实施例中，音频系统可以提示授权用户创建用户简档(例如，经历校准操作)，使得他们可以成为设备的已知用户。

通过使用可穿戴设备的音频系统来动态地确定穿戴可穿戴设备的用户的声传递函数，因此可以通过将所确定的声传递函数与先前确定并存储的与已知用户相关联的声传递函数进行比较，将用户识别为设备的已知用户。这允许以对用户不显眼的免手操作(hands-free)方式进行用户识别和/或认证(尤其是如果使用局部区域中的非受控声音，因此不需要用户采取动作)和/或能够容易地与其他认证方法(例如，语音识别)交叉引用以获得额外的安全性。此外，所确定的声传递函数还可以用于在可穿戴设备的操作期间向用户提供音频内容。

示例系统环境

图6是根据一个或更多个实施例的包括头戴装置605的系统600。在一些实施例中，头戴装置605可以是图1A的可穿戴设备100或图1B的头戴装置105。系统600可以在人工现实环境(例如，虚拟现实环境、增强现实环境、混合现实环境或其某种组合)中操作。图6所示的系统600包括头戴装置605、耦合到控制台615的输入/输出(I/O)接口610、网络620和映射服务器625。虽然图6示出了包括一个头戴装置605和一个I/O接口610的示例系统600，但在其他实施例中，系统600中可以包括任意数量的这些部件。例如，可以有多个头戴装置，每个头戴装置具有相关联的I/O接口610，每个头戴装置和I/O接口610与控制台615通信。在替代配置中，系统600中可以包括不同的和/或附加的部件。另外，在一些实施例中，结合图6所示的一个或更多个部件描述的功能可以以不同于结合图6描述的方式在部件之间分配。例如，控制台615的一些或全部功能可由头戴装置605提供。

头戴装置605包括显示组件630、光学块635、一个或更多个位置传感器640和DCA645。头戴装置605的一些实施例具有与结合图6描述的部件不同的部件。另外，在其他实施例中，由结合图6描述的各种部件提供的功能可以在头戴装置605的部件之间不同地分配，或者被采集在远离头戴装置605的单独组件中。

显示组件630根据从控制台615接收的数据向用户显示内容。显示组件630使用一个或更多个显示元件(例如，显示元件120)显示内容。显示元件可以是例如电子显示器。在各种实施例中，显示组件630包括单个显示元件或更多个显示元件(例如，用于用户的每只眼睛的显示器)。电子显示器的示例包括：液晶显示器(LCD)、有机发光二极管(OLED)显示器、有源矩阵有机发光二极管显示器(AMOLED)、波导显示器、某种其他显示器或其某种组合。须注意，在一些实施例中，显示元件120还可以包括光学块635的一些或全部功能。

光学块635可以放大从电子显示器接收到的图像光，校正与图像光相关联的光学误差，并且将校正后的图像光呈现给头戴装置605的一个或两个视窗。在各种实施例中，光学块635包括一个或更多个光学元件。光学块635中包括的示例光学元件包括：光圈、菲涅耳透镜、凸透镜、凹透镜、滤光器、反射表面或影响图像光的任何其他合适的光学元件。此外，光学块635可以包括不同光学元件的组合。在一些实施例中，光学块635中的一个或更多个光学元件可以具有一个或更多个涂层，例如部分反射涂层或抗反射涂层。

与较大的显示器相比，光学块635对图像光的放大和聚焦允许电子显示器在物理上更小、重量更轻并且消耗更少的功率。另外，放大可以增加电子显示器呈现的内容的视场。例如，显示的内容的视场使得显示的内容使用用户的几乎所有视场(例如，约110度对角线)来呈现，并且在某些情况下，使用用户的所有视场来呈现。另外，在一些实施例中，可以通过添加或移除光学元件来调整放大量。

在一些实施例中，光学块635可以被设计成校正一种或更多种类型的光学误差。光学误差的示例包括桶形或枕形失真、纵向色差或横向色差。其他类型的光学误差还可以包括球面像差、色差(chromatic aberrations)或由于透镜像场弯曲(lens fieldcurvature)、散光或任何其他类型的光学误差引起的误差。在一些实施例中，提供给电子显示器用于显示的内容被预失真，并且光学块635在其接收来自电子显示器的基于内容生成的图像光时校正失真。

位置传感器640是生成指示头戴装置605的位置的数据的电子设备。位置传感器640响应于头戴装置605的运动而生成一个或更多个测量信号。位置传感器190是位置传感器640的实施例。位置传感器640的示例包括：一个或更多个IMU、一个或更多个加速度计、一个或更多个陀螺仪、一个或更多个磁力计、检测运动的另一种合适类型的传感器或其某种组合。位置传感器640可以包括测量平移运动(向前/向后、向上/向下、向左/向右)的多个加速度计和用于测量旋转运动(例如，俯仰、偏航、滚动)的多个陀螺仪。在一些实施例中，IMU快速采样测量信号并根据采样数据计算头戴装置605的估算位置。例如，IMU对从加速度计接收到的测量信号在时间上求积分以估算速度向量并且对速度向量在时间上求积分以确定头戴装置605上的参考点的估算位置。参考点是可以用来描述头戴装置605的位置的点。虽然参考点通常可以定义为空间中的点，然而实际上参考点被定义为头戴装置605内的点。

DCA 645为局部区域的一部分生成深度信息。DCA包括DCA控制器和一个或更多个成像设备。DCA 645还可以包括照明器。DCA 645的操作和结构在上面关于图1A进行了描述。

音频系统650向头戴装置605的用户提供音频内容。音频系统650是上述音频系统200的实施例。音频系统650可以包括一个或更多个声传感器、一个或更多个换能器和音频控制器。音频系统650可以向用户提供空间化的音频内容。在一些实施例中，音频系统650可以通过网络620从映射服务器625请求声学参数。声学参数描述局部区域的一个或更多个声学特性(例如，房间脉冲响应、混响时间、混响水平等)。音频系统650可以从例如DCA 645提供描述局部区域的至少一部分的信息和/或从位置传感器640提供头戴装置605的定位信息。音频系统650可以使用从映射服务器625接收的一个或更多个声学参数来生成一个或更多个声音滤波器，并使用声音滤波器向用户提供音频内容。

音频系统650还可以基于在头戴装置605的局部区域内传输的声音，为用户确定一个或更多个声传递函数。所确定的声传递函数可以基于用户的身体的一部分(例如，用户的头部、面部、耳朵、躯干等)的尺寸、形状和/或密度，并因此对于头戴装置605的不同穿戴者，所确定的声传递函数可能不同。在一些实施例中，所确定的声传递函数可用于向用户提供个性化音频内容。此外，通过将所确定的函数与先前确定的并且与已知用户相关联的声传递函数进行比较，声传递函数可以用于识别或认证用户。基于该识别或认证，一个或更多个安全功能(例如，将用户登录到用户账户、阻止用户登录到用户账户、允许或阻止用户访问个性化数据等)可以被执行。

I/O接口610是允许用户发送动作请求并从控制台615接收响应的设备。动作请求是执行特定动作的请求。例如，动作请求可以是开始或结束采集图像或视频数据的指令，或者是在应用内执行特定动作的指令。I/O接口610可以包括一个或更多个输入设备。示例输入设备包括：键盘、鼠标、游戏控制器、或者用于接收动作请求并将动作请求传送到控制台615的任何其他合适的设备。由I/O接口610接收的动作请求被传送到控制台615，控制台执行对应于动作请求的动作。在一些实施例中，I/O接口610包括IMU，其采集指示相对于I/O接口610的初始位置的I/O接口610的估算位置的校准数据。在一些实施例中，I/O接口610可以根据从控制台615接收到的指令向用户提供触觉反馈。例如，当动作请求被接收到时，或者当控制台615向I/O接口610传送指令时，触觉反馈被提供，该指令使I/O接口610在控制台615执行动作时生成触觉反馈。

控制台615向头戴装置605提供内容以根据从以下一项或更多项接收到的信息进行处理：DCA 645、头戴装置605和I/O接口610。在图6所示的示例中，控制台615包括应用储存器655、跟踪模块660和引擎665。控制台615的一些实施例具有与结合图6描述的模块或部件不同的模块或部件。类似地，下面进一步描述的功能可以以不同于结合图6描述的方式被分配在控制台615的部件之间。在一些实施例中，本文讨论的关于控制台615的功能可以在头戴装置605或远程系统中实现。

应用储存器655存储用于由控制台615执行的一个或更多个应用。应用是一组指令，该组指令当由处理器执行时生成用于呈现给用户的内容。应用生成的内容可以响应于经由头戴装置605或I/O接口610的移动从用户接收到的输入。应用的示例包括：游戏应用、会议应用、视频回放应用或其它合适的应用。

跟踪模块660使用来自DCA 645、一个或更多个位置传感器640或其某种组合的信息来跟踪头戴装置605或I/O接口610的移动。例如，跟踪模块660基于来自头戴装置605的信息来确定头戴装置605的参考点在局部区域的映射中的位置。跟踪模块660还可以确定对象或虚拟对象的位置。另外，在一些实施例中，跟踪模块660可以使用来自位置传感器640的指示头戴装置605的位置的数据的部分以及来自DCA 645的局部区域的表示来预测头戴装置605的未来定位。跟踪模块660向引擎665提供头戴装置605或I/O接口610的估算的或预测的未来位置。

引擎665执行应用并从跟踪模块660接收头戴装置605的位置信息、加速度信息、速度信息、预测的未来位置或其某种组合。基于接收到的信息，引擎665确定提供给头戴装置605以呈现给用户的内容。例如，如果接收到的信息指示用户向左看，则引擎665为头戴装置605生成内容，该内容反映用户在虚拟局部区域中或在用附加内容增强局部区域的局部区域中的移动。此外，引擎665响应于从I/O接口610接收到的动作请求而在控制台615上执行的应用内执行动作并向用户提供该动作被执行的反馈。所提供的反馈可以是经由头戴装置605的视觉或听觉反馈，或者经由I/O接口610的触觉反馈。

网络620将头戴装置605和/或控制台615耦合到映射服务器625。网络620可以包括使用无线和/或有线通信系统的局域网和/或广域网的任意组合。例如，网络620可以包括互联网以及移动电话网络。在一个实施例中，网络620使用标准通信技术和/或协议。因此，网络620可以包括使用诸如以太网、802.11、微波接入全球互通(WiMAX)、2G/3G/4G移动通信协议、数字用户线路(DSL)、异步传输模式(ATM)、无限带宽(InfiniBand)、PCI Express高级交换等技术的链路。类似地，网络620上使用的网络协议可以包括多协议标签交换(MPLS)、传输控制协议/互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)、文件传输协议(FTP)等。通过网络620交换的数据可以使用包括二进制形式的图像数据(例如，便携式网络图形(PNG))、超文本标记语言(HTML)、可扩展标记语言(XML)等的技术和/或格式来表示。此外，可以使用传统的加密技术对所有或部分链路进行加密，例如安全套接字层(SSL)、传输层安全(TLS)、虚拟专用网络(VPN)、互联网协议安全(IPsec)等。

映射服务器625可以包括存储描述多个空间的虚拟模型的数据库，其中虚拟模型中的一个定位对应于头戴装置605的局部区域的当前配置。映射服务器625经由网络620从头戴装置605接收描述局部区域的至少一部分的信息和/或局部区域的定位信息。映射服务器625基于接收到的信息和/或定位信息来确定虚拟模型中与头戴装置605的局部区域相关联的定位。映射服务器625部分地基于所确定的虚拟模型中的定位和与所确定的定位相关联的任何声学参数，来确定(例如，检索)与局部区域相关联的一个或多个声学参数。映射服务器625可以将局部区域的定位和与局部区域相关联的任何声学参数值发送给头戴装置605。

附加配置信息

本公开的实施例的前述描述为了说明的目的被提出；它并不意图为无遗漏的或将本公开限制到所公开的精确形式。相关领域中的技术人员可以认识到，按照上面的公开，许多修改和变化是可能的。

本描述的一些部分从对信息的操作的算法和符号表示方面描述了本公开的实施例。数据处理领域的技术人员通常使用这些算法描述和表示来向本领域的其他技术人员有效地传达他们工作的实质。这些操作虽然在功能上、计算上或逻辑上进行了描述，但应理解为将由计算机程序或等效电路、微代码等来实现。此外，将操作的这些布置称为模块有时候也被证明是方便的而不失一般性。所描述的操作和它们的相关模块可以体现在软件、固件、硬件或其任何组合中。

可以利用一个或更多个硬件或软件模块单独地或与其他设备组合地来执行或实现本文描述的任何步骤、操作或过程。在一个实施例中，利用包括计算机可读介质的计算机程序产品来实现软件模块，该计算机可读介质包含计算机程序代码，计算机程序代码可以由计算机处理器执行，用于执行所描述的任何或全部步骤、操作或过程。

本公开的实施例也可以涉及用于执行本文的操作的装置。该设备可以被特别构造成用于所需的目的，和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这样的计算机程序可以存储在非暂时性的、有形的计算机可读存储介质中，或者任何类型的适于存储电子指令的介质中，其可以耦合到计算机系统总线。此外，说明书中提到的任何计算系统可以包括单个处理器，或者可以是采用多处理器设计以提高计算能力的架构。

本公开的实施例也可以涉及由本文所述的计算过程产生的产品。这样的产品可以包括从计算过程得到的信息，其中信息被存储在非暂时性的、有形的计算机可读存储介质上且可以包括计算机程序产品或本文所述的其他数据组合的任何实施例。

最后，在说明书中使用的语言主要为了可读性和指导目的而被选择，并且它可以不被选择来描绘或限制创造性主题。因此，意图是本公开的范围不由该详细描述限制，而是由在基于其的申请上发布的任何权利要求限制。因此，实施例的公开意图对本公开的范围是说明性的，而不是限制性的，在所附权利要求中阐述了本公开的范围。

Claims

1.一种音频系统，包括：

传感器阵列，其包括被配置为检测在所述音频系统的局部区域内传输的声音的多个声传感器；和

控制器，其被配置为：

部分基于所检测的声音确定至少一个声传递函数，其中所述至少一个声传递函数定义部分由所述音频系统的用户的头部引起的所述声音的变换；和

基于所述至少一个声传递函数来识别所述用户。

2.根据权利要求1所述的音频系统，其中，所述控制器被配置为：

通过将所确定的至少一个声传递函数与至少一个存储的声传递函数进行比较，基于所述至少一个声传递函数来识别所述用户。

3.根据权利要求1所述的音频系统，其中：

所述多个声传感器包括第一声传感器和第二声传感器，所述第一声传感器被配置为根据所述声音生成第一音频信号，所述第二声传感器被配置为根据所述声音生成第二音频信号；和

所述控制器被配置为通过确定所述第一音频信号和所述第二音频信号之间的比率来确定所述声传递函数。

4.根据权利要求3所述的音频系统，其中，所述控制器被配置为确定声传递函数集合，每个声传递函数基于所述多个声传感器中的两个声传感器之间的比率，并且所述控制器被配置为基于所确定的声传递函数集合来识别所述用户。

5.根据权利要求1所述的音频系统，其中，多个声传感器包括位于用户的每只耳朵附近的一对声传感器，并且所述声传递函数对应于头部相关传递函数(HRTF)。

6.根据权利要求1所述的音频系统，其中，所述传感器阵列位于头戴装置上。

7.根据权利要求6所述的音频系统，还包括接近传感器，并且其中所述控制器还被配置为：

基于从所述接近传感器接收的输入来确定所述用户是否正穿戴着所述头戴装置；和

响应于确定所述用户正穿戴着所述头戴装置，确定所述声传递函数。

8.根据权利要求1所述的音频系统，其中，所述控制器还被配置为：

确定所检测的声音的源定位，所述源定位指示相对于所述音频系统的位置的在所述局部区域内的定位；

将所确定的至少一个声传递函数与所确定的源定位相关联；

基于所确定的源定位，识别对应于经授权用户的至少一个存储的声传递函数；和

基于所确定的至少一个声传递函数和所识别的至少一个存储的声传递函数的比较来识别所述用户。

9.根据权利要求8所述的音频系统，其中，所述至少一个存储的声传递函数与在所确定的源定位的阈值距离内的源定位相关联。

10.根据权利要求1所述的音频系统，以及下列项中的任一项：

a)其中所述控制器还被配置为使扬声器发出所述声音；或者

b)其中所述声音由所述用户产生；或者

c)其中所述控制器还被配置为：

基于所述比较的结果执行一个或更多个安全功能，其中所述一个或更多个安全功能包括授权所述用户访问个性化数据或者基于一个或更多个存储的用户偏好来设置可穿戴设备的配置。

11.一种方法，包括：

使用传感器阵列检测在头戴装置的局部区域内传输的声音，所述传感器阵列包括多个声传感器；

部分基于所检测的声音确定与用户相关联的至少一个声传递函数，其中所述至少一个声传递函数定义部分由所述头戴装置的用户的头部引起的所述声音的变换；和

基于所确定的声传递函数来识别所述用户。

12.根据权利要求11所述的方法，以及以下中的任一项：

a)其中基于所确定的声传递函数识别所述用户包括将所确定的至少一个声传递函数与至少一个存储的声传递函数进行比较；或者

b)其中：所述多个声传感器包括第一声传感器和第二声传感器，所述第一声传感器被配置为根据所述声音生成第一音频信号，所述第二声传感器被配置为根据所述声音生成第二音频信号；并且其中确定所述声传递函数包括确定所述第一音频信号和所述第二音频信号之间的比率；或者

c)还包括：基于从所述头戴装置的接近传感器接收的输入，确定所述用户是否正穿戴着所述头戴装置；和

响应于确定所述用户正穿戴着所述头戴装置，确定所述声传递函数；或者

d)还包括：基于所述比较的结果执行一个或更多个安全功能，其中所述一个或更多个安全功能包括授权所述用户访问个性化数据或基于一个或更多个存储的用户偏好来设置所述头戴装置的配置。

13.根据权利要求11所述的方法，还包括：

确定所检测的声音的源定位，所述源定位指示相对于所述头戴装置的位置的在所述局部区域内的定位；

将所确定的至少一个声传递函数与所确定的源定位相关联；

基于所确定的声传递函数和所识别的至少一个存储的声传递函数的比较来识别所述用户。

14.根据权利要求11所述的方法，其中，所述至少一个存储的声传递函数与在所确定的源定位的阈值距离内的源定位相关联。

15.一种存储指令的非暂时性计算机可读介质，所述指令在由一个或更多个处理器执行时使所述一个或更多个处理器执行包括以下项的操作：

部分基于所检测的声音来确定与用户相关联的至少一个声传递函数，其中所述至少一个声传递函数定义部分由所述头戴装置的用户的头部引起的所述声音的变换；和

基于所确定的声传递函数来识别所述用户。