CN110536665B

CN110536665B - 使用虚拟回声定位来仿真空间感知

Info

Publication number: CN110536665B
Application number: CN201880025509.8A
Authority: CN
Inventors: B·M·阿泰加; W·J·德雷维斯; J·M·戴维斯; Z·卡兹; B·E·B·多科瓦
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-04-19
Filing date: 2018-04-06
Publication date: 2022-03-04
Anticipated expiration: 2038-04-06
Also published as: EP3612143B1; US20190274001A1; CN110536665A; WO2018194857A1; US20180310116A1; US10321258B2; EP3612143A1; US10701509B2

Abstract

公开了涉及被配置为执行虚拟回声定位的头戴式设备的示例。头戴式设备被配置为从根据头戴式设备在物理环境中的姿势得出的位置以指定角度投射射线阵列；标识射线与物理环境的虚拟模型的多个交点；针对每个标识出的交点，基于与交点对应的头部相关传递函数来修改音频信号以产生多个空间化音频信号；针对每个空间化音频信号，基于对应交点与射线自其被投射的位置之间的距离来确定飞行时间调节；以及以基于飞行时间调节的延迟，向一个或多个扬声器输出每个空间化音频信号。

Description

使用虚拟回声定位来仿真空间感知

背景技术

回声定位是个人可以用来通过发出声脉冲并且聆听来自附近表面的声波反射来感知周围环境的过程。诸如蝙蝠等很多动物有效地使用该技术在弱光条件下高速导航复杂环境。视障团体的某些成员也可以使用回声定位来导航各种环境。

发明内容

提供本“发明内容”以便以简化的形式介绍一些概念，这些概念将在下面的“具体实施方式”中被进一步描述。本“发明内容”既不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本公开的任何部分中指出的任何或所有缺点的实现。

公开了涉及被配置为执行虚拟回声定位的头戴式设备的示例。头戴式设备被配置为从根据头戴式设备在物理环境中的姿势得出的位置以指定角度投射射线阵列；标识射线与物理环境的虚拟模型的多个交点；针对每个标识出的交点，基于与交点对应的头部相关传递函数来修改音频信号，以产生多个空间化音频信号；针对每个空间化音频信号，基于对应交点与射线自其被投射的位置之间的距离来确定飞行时间调节；以及以基于飞行时间调节的延迟向一个或多个输出每个空间化音频信号。

附图说明

图1示出了与物理环境交互的示例头戴式设备的佩戴者。

图2示出了生成物理环境的示例虚拟模型的图1的头戴式设备。

图3和图4示意性地示出了图1的头戴式设备将射线阵列投射到物理环境中。

图5示出了图1的头戴式设备输出与物理环境的虚拟模型的不同交点对应的经飞行时间调节的空间化音频信号。

图6示出了示例头戴式设备以指定角度将射线阵列投射到物理环境中以形成虚拟回声定位手杖。

图7示出了示例头戴式设备基于由头戴式设备的佩戴者提供的语音命令以指定角度投射覆盖物理环境的较小覆盖区域的射线阵列。

图8示出了示例头戴式设备基于由头戴式设备的佩戴者提供的语音命令以指定角度投射覆盖物理环境的较大覆盖区域的射线阵列。

图9示出了示例头戴式设备基于头戴式设备的一个或多个运动传感器的一个或多个运动参数以指定角度投射覆盖物理环境的较小覆盖区域的射线阵列。

图10示出了示例头戴式设备基于头戴式设备的一个或多个运动传感器的一个或多个运动参数以指定角度投射覆盖物理环境的较大覆盖区域的射线阵列。

图11和图12示出了示例头戴式设备根据基于由头戴式设备的佩戴者提供的语音命令而动态改变的刷新率来重复输出经飞行时间调节的空间化音频信号。

图13和图14示出了示例头戴式设备根据基于头戴式设备的一个或多个运动传感器的一个或多个运动参数而动态改变的刷新率来重复输出经飞行时间调节的空间化音频信号。

图15示出了用于使用头戴式设备执行虚拟回声定位的示例方法。

图16示出了示例头戴式设备。

图17示出了示例计算系统。

具体实施方式

在较大的环境中，近场导航和对一个人的位置的上下文理解都是视觉障碍团体成员每天面临的挑战。如果没有视力的好处，在陌生的环境中安全导航可能会非常困难，并且某些障碍可能很难被发现。当运动速率增大时，这个问题变得复杂。在一个示例中，导航辅助设备使用激光测距仪来提供关于对象到设备的距离的一维反馈。该设备以“哔哔”声的形式输出音频反馈，或者以振动的形式输出触觉反馈。该设备以类似于用户所持握的传统手杖的方式工作，但是该设备用单个激光束代替传统手杖的物理杆。这样，该设备可以检测到位于比传统手杖更远位置的对象。但是，为了使激光束检测到对象，需要将设备直接指向对象。这样的一维扫描方法可能太慢，并且可能无法提供足够详细的空间反馈以成功导航现实世界的物理环境。

因此，公开了涉及头戴式设备的示例，该头戴式设备为被配置为使用多维扫描方法来执行虚拟回声定位。更具体地，头戴式设备可以被配置为基于从头戴式设备的深度相机提供的深度图像来生成物理环境的虚拟模型，从根据头戴式设备在物理环境中的位置得出的点投射射线阵列，并且在射线与虚拟模型的交点处定位空间化音频源。空间化音频源可以模拟位于物理环境中的不同交点的虚拟音频扬声器。头戴式设备还可以被配置为向头戴式设备的一个或多个扬声器输出与不同的空间化音频源对应的经飞行时间调节的空间化音频信号。每个空间化音频信号的飞行时间调节可以基于交点/虚拟音频扬声器的位置与射线自其被投射的位置之间的距离。空间化音频信号可以传送关于物理环境的详细几何信息，头戴式设备的佩戴者可以使用该几何信息来在他或她的视觉皮层中创建周围物理环境的三维(3D)地图。头戴式设备可以被配置为重复地输出空间化音频信号，该空间化音频信号允许佩戴者在他或她的视觉皮层中形成经更新的3D地图，使得佩戴者可以实时地自由地研究周围物理环境。

通过以不同角度将包括多个射线的阵列投射到物理环境中，可以输出多个空间化音频信号，这可以使得头戴式设备的佩戴者能够在他或她的视觉皮层中形成物理空间的详细3D地图。此外，通过执行飞行时间调节，可以以相应的延迟来输出空间化音频信号，该延迟准确地反映虚拟音频源在物理环境中的位置。此外，由于飞行时间调节基于简单的距离计算，因此飞行时间调节可以足够快地被执行，以使得头戴式设备能够根据指定刷新率或节奏(例如，实时地)输出经飞行时间调节的空间化音频信号。换言之，这样的头戴式设备可以以容易被吸收并且可以被快速消耗的方式将复杂的空间音频信息传递给头戴式设备的佩戴者。

图1示出了在物理环境104中佩戴头戴式设备102的用户(或佩戴者)100。头戴式设备102被配置为通过输出与位于物理环境104中的不同位置/表面的多个虚拟化音频源对应的多个音频信号来促进虚拟回声定位。例如，佩戴者100可能具有视觉障碍(例如，盲人)，而由头戴式设备102提供的虚拟回声定位可以帮助佩戴者100避开物理环境104中的对象，并且以其他方式导航物理环境104。在其他示例中，头戴式设备102可以由没有视觉障碍的用户佩戴以用于导航目的。例如，由头戴式设备102提供的虚拟回声定位可以帮助用户在弱光条件下或在黑暗中导航物理环境。在又一示例中，头戴式设备102可以用于通过将虚拟环境的物理特征映射到表征虚拟环境的经飞行时间调节的空间化音频信号的虚拟回声定位来帮助佩戴者100导航虚拟环境(例如，在视频游戏中)。

在所示示例中，头戴式设备102可以提供虚拟回声定位，该虚拟回声定位使得佩戴者100能够识别佩戴者100相对于房间中的不同物理特征的位置。例如，佩戴者100可以识别出他站得距离墙壁106有多远。此外，佩戴者100可以识别地板112上的大块108和小块110相对于佩戴者100在物理环境104中的位置的位置。

为了为佩戴者100提供虚拟回声定位，头戴式设备102被配置为生成可以在其中放置空间化音频源的物理环境104的虚拟模型。图2从佩戴者100的角度示意性地示出了物理环境104的示例虚拟模型200。虚拟模型200可以由头戴式设备102以任何合适的方式来生成。在一个示例中，头戴式设备102包括被配置为对物理环境104进行成像的一个或多个高分辨率深度感测相机202。头戴式设备102可以被配置为基于来自深度感测相机202的一个或多个深度图像来生成虚拟模型200。在所示示例中，虚拟模型200采用线框网格的形式，该线框网格表示物理环境104中的所有对象和表面。在一个示例中，线框网格可以包括每立方米多达1200个三角形，这提供了对物理环境104的高密度的精确建模。由于虚拟模型200是基于来自深度感测相机202的深度图像生成的，因此线框网格200可以覆盖深度感测相机202的至少整个视场204。

在一些实现中，虚拟模型200可以是虚拟环境(例如，视频游戏)的虚拟模型。在这样的实现中，头戴式设备200可以提供虚拟回声定位以帮助虚拟环境的导航。例如，有视力障碍的佩戴者可以使用头戴式设备102来玩视频游戏。

此外，头戴式设备102可以包括被配置为测量一个或多个运动参数的一个或多个运动传感器206，诸如惯性测量单元(IMU)。头戴式设备102可以被配置为基于(多个)运动传感器的(多个)运动参数，相对于虚拟模型200来确定头戴式设备102在物理环境104中的姿势(例如，三维(3D)位置)。在一个示例中，头戴式设备102被配置为基于来自(多个)深度感测相机202的传感器和(多个)运动传感器206反馈来执行同时定位和映射(SLAM)。头戴式设备102可以使用SLAM来快速更新(例如，实时地)虚拟模型200和头戴式设备102的姿势，以准确地反映头戴式设备102/佩戴者100以及物理环境104中的其他对象的运动。

在一些实现中，头戴式设备102可以被配置为一旦生成虚拟模型200，就将虚拟模型200存储在“世界地图”存储库中。世界地图存储库可以本地或远程存储(例如，发送到远程云存储系统)。世界地图存储库可以聚合由头戴式设备102和/或由在物理环境104周围移动的其他佩戴者佩戴的其他头戴式设备生成的不同真实世界位置的各种虚拟模型。例如，头戴式设备102可以被配置为当头戴式设备102已经离开物理环境104中的位置在用于模型/位置信息的深度相机的有效刷新半径之外的距离时参考/检索虚拟模型200。

为了向佩戴者100提供虚拟回声定位，头戴式设备102被配置为将虚拟向量射线阵列投射到物理环境104中。图3和4示意性地示出了由头戴式设备102投射到物理环境104中的射线302的示例阵列300。图3示出了物理环境104的俯视图。图4示出了物理环境104的侧视图。头戴式设备102被配置为从根据头戴式设备102的确定姿势得出的原点位置304以指定角度投射射线302的阵列300。头戴式设备102可以被配置为从任何合适的原点位置投射射线302的阵列300。在该示例中，原点位置接近佩戴者的嘴部。例如，原点位置可以基于距头戴式设备102的确定姿势的指定偏移来确定。在一个示例中，该偏移基于头戴式设备的位置与针对用户群体的佩戴者的嘴部之间的平均距离来计算。

阵列300可以包括任何合适数目的射线302。在一个示例中，阵列300包括从原点位置304投射的三十个射线。不同的射线302可以从原点位置304以任何合适的角度被投射到物理环境104中。例如，每个射线302可以以从参考向量偏离的固定角度偏移被投射，以形成一致的图案(例如，圆锥体)。在另一示例中，每个射线302可以以不同的角度偏被移投射以形成随机图案。在其他示例中，射线可以被选择为在具有较大密度特征(例如，家具、墙壁中的角度或不连续性等)的虚拟模型的区域中具有更近的角度接近度并且在具有较低密度特征的虚拟模型的区域中具有更宽的角度间隔。

阵列300中的每个射线302可以从原点位置304延伸到物理环境104中的表面的交点306。头戴式设备102可以被配置为使用虚拟模型200标识多个交点306。当虚拟模型200活跃时，头戴式设备102可以被配置为识别射线302与虚拟模型200碰撞的交点306。例如，原点位置304和交点306可以使用具有相对于虚拟模型200的参考系的3D坐标来表示。

头戴式设备102可以被配置为生成源自位于每个交点306处的虚拟音频源的空间化音频信号。例如，头戴式设备102可以被配置为针对多个交点306中的每个交点，基于与交点306对应的头部相关传递函数(HRTF)修改输入音频信号，以产生与交点306对应的空间化音频信号。HRTF基于音频信号在物理环境104中从其起源的模拟位置来修改输入音频信号，以考虑音频信号的音量和方向性的变化。

此外，基于相应射线302与物理环境104中的不同对象的表面相交的位置，不同交点306与原点位置306的距离可以不同。在所示示例中，一些较长射线从原点位置304延伸到墙壁106上的交点。其他较短的射线从原点位置304延伸到大块108、小块110以及地板112上的交点。头戴式设备102可以被配置为针对阵列300中的每个射线302，确定从原点位置304到射线302的对应交点306的距离。头戴式设备102可以被配置为针对与多个交点306对应的多个空间化音频信号中的每个空间化音频信号，基于该距离来确定飞行时间调节。飞行时间调节考虑了音频信号基于声速从用户的嘴部行进到交点并且然后再回到用户的耳朵所花费的时间。在所示示例中，相对于位于大块108上的交点，位于壁106上的交点的飞行时间调节可以更大。由于飞行时间调节基于简单的距离计算，所以飞行时间调节可以在使用最少处理资源的同时被快速执行。以这种方式，头戴式设备102可以提供基本实时地准确地表征物理环境104的空间化音频信号。

在某些情况下，可以根据相对于飞行时间调节而被夸大的延迟从扬声器输出空间化音频信号，以帮助用户识别音频信号。例如，与空间化音频信号相关联的延迟可以在训练模式期间增大，以使得用户更容易学习该技术。一旦用户精通回声定位，就可以将延迟调节为与飞行时间调节对应。

头戴式设备102可以被配置为以与飞行时间调节对应的延迟向头戴式设备102的左耳扬声器和右耳扬声器中的一个或多个输出空间化音频信号。例如，在图5中，头戴式设备102的扬声器以脉冲“咔哒”声的形式输出多个空间化音频信号500。为了简单起见，脉冲咔嗒声被描述为同时发生。实际上，脉冲咔哒声是在一段时间内输出的。特别地，基于HRTF和飞行时间调节，以不同的音量和延迟来输出每个脉冲咔嗒声，以给佩戴者100咔嗒声源自物理环境104中的相应交点的印象。HRTF考虑了基于各个佩戴者的耳朵相对于音频源的位置从每个声源传送到每个耳朵的声音的差异。例如，由于佩戴者的头部从左耳部分遮挡了虚拟音频源，所以从位于佩戴者右侧的虚拟音频源接收的音频信号在右耳扬声器中以比在左耳扬声器中更大的音量输出。

例如，在示出的场景中，可以以高音量和短延迟来输出源自大块108的第一咔嗒声502，以指示大块靠近佩戴者100。源自小块110的第二咔嗒声504可以以比第一咔嗒声502更低的音量和更长的延迟来输出，以指示小块110比大块108更远离佩戴者100。源自壁106的第三咔嗒声506可以以比第二咔嗒声504更低的音量和更长的延迟来输出，以指示壁106比小块106更远离佩戴者100。每个咔嗒声可以由佩戴者100唯一地体验以便传送物理环境104中所有虚拟音频源的位置。此外，每个咔嗒声可以具有与咔嗒声所源自的对应虚拟音频源在物理环境中的3D位置相关联的唯一音量和延迟。

产生咔嗒声的音频信号可以被设计用于高神经本原接收，以使佩戴者感觉自然。这样的高神经本原接收能力使得佩戴者可以容易地下意识地消化音频信息，从而使得佩戴者可以快速解释空间化音频信号以在佩戴者的视觉皮层中建立三维模型。在一个示例中，如在头和躯干模拟器(HATS)上捕获的，咔嗒声的特征在于人的嘴部与耳朵之间的传递函数的脉冲响应。这种刺激很短，具有高功率，快速衰减，并且频率内容被集中在2-3kHz区域，在该区域，人耳听觉敏感并且空间线索易于辨别。提供咔嗒声作为旨在非限制性的音频信号的示例。头戴式设备102可以被配置为输出任何合适类型的音频信号以向用户提供虚拟回声定位。

在一些实现中，头戴式设备102可以被配置为以指定角度投射各自具有固定长度的射线的阵列以形成虚拟回声定位“手杖”来帮助佩戴者100导航。图6示出了包括多个射线602的示例阵列600，每个射线602具有相同的长度并且以不同角度被投射。射线602的阵列600从接近用户嘴部的原点位置606以三十度角向下投射以在用户100前面形成半圆形周界608。注意，阵列600中的射线602可以具有任何合适的长度，并且可以从原点位置606以任何合适的角度投射。头戴式设备102可以被配置为输出与阵列600中的每个射线602与虚拟模型的交点对应的经飞行时间调节的空间化音频信号。由于每个射线602的长度相同，因此，射线602的阵列600可以检测位于用户100前面指定距离(例如，几英尺)的对象。例如，可以使用这种操作模式来标识任何绊倒危险，将佩戴者置于走廊中心，和/或以其他方式帮助导航。在一些情况下，如果没有对象与特定射线相交，则头戴式设备102不输出与该射线对应的空间化音频信号。换言之，在该示例中，头戴式设备102仅在对象进入虚拟手杖的周界608时提供音频反馈。

可以使用该虚拟手杖的操作模式以替代或补充射线不具有固定长度的虚拟回声定位模式。在一些实现中，虚拟手杖可以具有与虚拟回声定位不同的音频信号，以使得佩戴者100可以能够区分两种形式的音频反馈。例如，如果绊倒危险进入由虚拟手杖形成的周界608，则头戴式设备102可以输出用于虚拟回声定位的咔嗒声并且输出“蜂鸣器”声音。任何合适的不同音频信号可以用于为虚拟回声定位和虚拟手杖操作模式提供音频反馈。

在一些实现中，头戴式设备可以被配置为动态地调节由射线阵列覆盖的物理环境的覆盖区域。图7-10示出了示例场景，其中头戴式设备动态地调节射线阵列的覆盖区域。首先，图7-8示出了示例场景，其中头戴式设备102被配置为基于从佩戴者100接收的用户输入来动态地调节射线阵列的覆盖区域。在图7中，头戴式设备102检测来自佩戴者100的、采用短语“放大”(zoom-in)形式的语音命令700。头戴式设备102被配置为基于从佩戴者100接收语音命令来动态地调节阵列704中的射线702的指定角度。在该示例中，头戴式设备102调节射线702的角度以收缩由阵列704覆盖的物理环境104的覆盖区域706。通过收缩覆盖区域706，虚拟音频源可以被集中以在覆盖区域中提供更详细的音频反馈。例如，当在覆盖区域706中搜索对象时，佩戴者100可以实时地收缩覆盖区域706。

在图8中，头戴式设备102检测来自佩戴者100的、采用短语“缩小”(zoom-out)形式的语音命令800。头戴式设备102被配置为基于从佩戴者100接收语音命令来动态地调节阵列704中的射线702的指定角度。在该示例中，头戴式设备102调节射线702的角度以增大由阵列704覆盖的物理环境104的覆盖区域706。通过增大覆盖区域706，虚拟音频源可以被分散以提供表征更多物理环境104的音频反馈，尽管其细节较少。例如，当在整个物理环境104中移动时，佩戴者100可以即时增大覆盖区域706。

头戴式设备102可以被配置为基于接收任何合适类型的用户输入来动态地调节阵列704的覆盖区域706。在另一示例中，头戴式设备102可以基于检测由佩戴者执行的手势来动态地调节阵列的覆盖区域。在又一示例中，头戴式设备102可以基于从诸如点击器设备等用户输入设备接收用户输入来动态地调节阵列的覆盖区域。

图9-10示出了示例场景，其中头戴式设备102被配置为基于头戴式设备的一个或多个运动传感器的一个或多个运动参数来动态地调节射线阵列的覆盖区域。在图9中，头戴式设备102的运动传感器指示头戴式设备102的速度为零。换言之，佩戴者100静止不动。头戴式设备102被配置为基于速度动态地调节阵列902中的射线900的指定角度。在该示例中，因为速度为零，所以头戴式设备102调节射线900的角度以收缩由阵列902覆盖的物理环境104的覆盖区域904。

在图10中，头戴式设备102的运动传感器指示头戴式设备102的速度为V1，V1大于零。换言之，佩戴者100正在整个物理环境104中移动。头戴式设备102被配置为基于速度动态地调节阵列902中的射线900的指定角度。在该示例中，因为速度大于零，所以头戴式设备102调节射线900的角度以增大由阵列902所覆盖的物理环境104的覆盖区域904。

头戴式设备102可以被配置为基于任何合适的(多个)运动参数来调节射线阵列的覆盖区域。这种运动参数的非限制性示例包括速度、加速度和角加速度。此外，头戴式设备102可以被配置为基于运动参数的任何适当的改变来调节射线阵列的覆盖区域。在一个示例中，可以基于速度变得大于阈值速度来动态地增大覆盖区域。在另一示例中，可以随着速度改变来线性或非线性地动态地改变覆盖区域。

头戴式设备102可以改变阵列中的射线的指定角度以形成任何合适形状的覆盖区域。在一些实现中，覆盖区域的形状可以与物理环境的形状相匹配。例如，如果佩戴者正沿着走廊走，则覆盖区域可以是矩形以匹配走廊的尺寸。在另一示例中，覆盖区域的形状可以围绕佩戴者。例如，阵列中的射线可以360°旋转地被投射出去，从而使得射线从原点向所有方向投射。这样的覆盖区域可以提供周围环境的低细节特征。在一个示例中，诸如当佩戴者进入房间时，初始可以采用这种覆盖区域来表征新的空间。

在一些实现中，头戴式设备102可以被配置为当增大/减小阵列的覆盖区域时改变阵列中包括的射线的数目。例如，当减小覆盖区域以提供覆盖区域的高度详细的音频反馈时，头戴式设备102可以增加阵列中的射线的数目。

另外，在一些实现中，头戴式设备102可以被配置为基于物理环境中与头戴式设备的姿势最接近的检测到的对象的位置来动态地调节阵列中射线的指定角度。例如，最接近的检测到的对象可以被假定是佩戴者感兴趣的对象，并且可以将覆盖区域调节为聚焦在感兴趣的对象上。

此外，在一些实现中，头戴式设备102可以被配置为基于头戴式设备的姿势向量来动态地调节阵列中的射线的指定角度。例如，如果姿势向量指向靠近佩戴者的位置，诸如佩戴者附近的地面上的区域，则覆盖区域可以被减小以聚焦在地面上的该特定区域上。在另一示例中，如果姿势向量指向远离佩戴者的位置，诸如在天空中或沿着地平线，则覆盖区域可以被增大。

在一些实现中，头戴式设备可以被配置为动态地调节向扬声器重复输出经飞行时间调节的空间化音频信号的刷新率。此外，当新的射线被投射到物理环境中时，虚拟模型可以被连续地更新和建立，以确定在每个时刻与佩戴者相对于虚拟模型的位置对应的适当的交点。

图11-14示出了示例场景，其中头戴式设备动态地调节向扬声器输出经飞行时间调节的空间化音频信号的刷新率。图11-12示出了示例场景，其中头戴式设备102被配置为基于从佩戴者100接收的用户输入来动态地调节向扬声器输出经飞行时间调节的空间化音频信号的刷新率。在图11中，头戴式设备102检测来自佩戴者100的、采用短语“降低刷新率”形式的语音命令1100。头戴式设备102被配置为基于从佩戴者100接收语音命令1100来设置/动态地调节刷新率。在该示例中，头戴式设备102基于语音命令而降低刷新率。在时间T1，头戴式设备102输出第一组经飞行时间调节的空间化音频信号1102。为简单起见，第一组音频信号1102被描述为同时发生。实际上，第一组音频信号1102在基于飞行时间调节的时间窗口上别输出。在时间T3，头戴式设备102以降低的刷新率输出第二组经飞行时间调节的空间化音频信号1104。

在图12中，头戴式设备102检测来自佩戴者100的、采用短语“增加刷新率”形式的语音命令800。头戴式设备102被配置为基于从佩戴者100接收语音命令1200来设置/动态地调节刷新率。在该示例中，头戴式设备102基于语音命令而增加刷新率。在时间T1，头戴式设备102输出第一组经飞行时间调节的空间化音频信号1202。在时间T2，头戴式设备102输出第二组经飞行时间调节的空间化音频信号1204。在时间T3，头戴式设备102以增加的刷新率输出第三组经飞行时间调节的空间化音频信号1206。在该示例中，降低的刷新率导致在时间帧T1-T3上输出两组音频信号，并且增加的刷新率导致在时间帧T1-T3上输出三组音频信号。

图13-14示出了示例场景，其中头戴式设备102被配置为基于来自头戴式设备102的一个或多个运动传感器的一个或多个运动参数来动态地调节向扬声器输出经飞行时间调节的空间化音频信号的刷新率。在图13中，头戴式设备102的运动传感器指示头戴式设备102的速度为零。换言之，佩戴者100静止不动。头戴式设备102被配置为基于速度来设置/动态地调节刷新率。在该示例中，因为速度为零，所以头戴式设备102降低刷新率。在时间T1，头戴式设备102输出第一组经飞行时间调节的空间化音频信号130。在时间T2，速度仍然为零，因此刷新率保持不变。在时间T3，速度仍然为零，并且头戴式设备102以降低的刷新率输出第二组经飞行时间调节的空间化音频信号1302。

在图14中，在时间T1，头戴式设备102的运动传感器指示头戴式设备102的速度是V1，V1大于零。换言之，佩戴者100正在整个物理环境104中移动。头戴式设备102被配置为基于速度来动态地调节刷新率。在该示例中，因为速度大于零，所以头戴式设备102增加刷新率。更具体地，在时间T1，头戴式设备102输出第一组经飞行时间调节的空间化音频信号1400。在时间T2，速度仍然是V1，因此增加的刷新率被保持，并且头戴式设备102输出第二组经飞行时间调节的空间化音频信号1402。在时间T3，速度仍然是V1，因此增加的刷新率被保持，头戴式设备102按照增加的刷新率输出第三组经飞行时间调节的空间化音频信号1404。在该示例中，降低的刷新率导致在时间帧T1-T3上输出两组音频信号，并且增加的刷新率导致在时间帧T1-T3上输出三组音频信号。

刷新率可以被调节为任何合适的时间段。例如，如果运动传感器指示佩戴者正在快速行走，则可以将刷新设置为250毫秒，而如果运动传感器指示佩戴者处于静止状态，则可以将刷新率设置为2秒。在一些实现中，头戴式设备可以被配置为从多个预定义的刷新率中选择刷新率。预定义的刷新率的非限制性示例可以包括0.25秒、0.5秒、1秒和2秒。

图15示出了用于使用头戴式设备执行虚拟回声定位的示例方法1500。例如，方法1500可以由图1的头戴式设备102、图16的头戴式设备1600或图17的计算系统1700执行。在1502，方法1500包括生成环境的虚拟模型。在一些实现中，虚拟模型可以表征物理环境，并且在1504，可以基于来自深度相机的一个或多个深度图像来生成虚拟模型。在一些实现中，在1506，虚拟模型可以表征虚拟环境并且可以以另一方式被生成。

在1508，方法1500包括基于来自一个或多个运动传感器的一个或多个运动参数来确定头戴式设备在环境中的姿势。在1510，方法1500包括从根据姿势得出的位置以指定角度投射射线阵列。在1512，方法1500包括标识射线与虚拟模型的多个交点。在1514，方法1500包括针对多个交点中的每个交点，基于与该交点对应的HRTF来修改输入音频信号，以产生与该交点对应的空间化音频信号。在1516，方法1500包括针对与多个交点对应的多个空间化音频信号中的每个空间化音频信号，基于对应交点与射线自其被投射的位置之间的距离来确定飞行时间调节。在1518，方法1500包括针对多个空间化音频信号中的每个空间化音频信号，以与针对空间化音频信号的飞行时间调节对应的延迟向左耳扬声器和右耳扬声器中的一个或多个输出空间化音频信号。

在一些实现中，在1520，方法1500可选地可以包括动态地调节阵列中的射线的指定角度，以使得射线与虚拟模型的不同的感兴趣区域相交。另外，在一些实现中，在1522，方法1500可选地可以包括动态地调节向左耳扬声器和/或右耳扬声器输出多个经更新的空间化音频信号的刷新率。方法1500返回到1502，以根据刷新率向左耳扬声器和/或右耳扬声器重复输出多个经更新的空间化音频信号。

图16示出了示例头戴式设备1600的各方面。头戴式设备1600是图1所示的头戴式设备102、图17所示的计算系统和/或本文中公开的其他头戴式设备的非限制性示例。头戴式设备1600可以被配置为向头戴式设备1600的佩戴者提供虚拟回声定位。

在一些实现中，头戴式设备1600可以包括可以通过车载计算机1604操作的近眼显示器1602。从佩戴者的角度来看，近眼显示器1602可以是全部透明或部分透明的。在其他实现中，近眼显示器可以是完全不透明的。可以使用任何合适的机制来经由近眼显示器1602显示图像。例如，近眼显示器1602可以包括位于透镜1606内的图像产生元件。作为另一示例，近眼显示器1602可以包括显示设备，诸如位于框架1608内的硅基液晶(LCOS)设备或OLED微型显示器。在该示例中，透镜1606可以用作或以其他方式包括光导，光导用于将光从显示设备传递到佩戴者的眼睛。另外地或替代地，近眼显示器1602可以经由相应的左眼和右眼显示器呈现左眼和右眼虚拟现实图像。在其他实现中，可以从头戴式设备1600中省略近眼显示器1602。

车载计算机1604可以被配置为执行与以下各项有关的各种操作：接收用户输入(例如，手势识别、头部位置、视线检测)，提供经飞行时间调节的空间化音频输出，以及本文中描述的其他操作。在一些实现中，上述所有计算功能中的一些可以在板外执行。

头戴式设备1600包括各种传感器和相关系统以向车载计算机1604提供信息。这样的传感器可以包括但不限于面向内的图像传感器1610A和1610B、面向外的图像传感器1612A和1612B、惯性测量单元(IMU)1614以及一个或多个麦克风1616。一个或多个面向内的图像传感器1610A、1610B可以被配置为从佩戴者的眼睛获取视线跟踪信息。在一些实现中，可以从头戴式设备1600省略面向内的图像传感器1610A、1610B。

一个或多个面向外的图像传感器1612A、1612B可以被配置为测量物理环境的物理环境属性。在一个示例中，图像传感器1612A可以包括光强度相机，光强度相机被配置为收集物理环境的光强度图像。图像传感器1612B可以包括深度相机，深度相机被配置为收集物理环境的深度图像。更具体地，在一个示例中，深度相机是红外飞行时间深度相机。

来自面向外的图像传感器1612A、1612B的数据可以由车载计算机1604用于检测运动，诸如基于手势的输入或由佩戴者或物理环境中的人或物理对象执行的其他运动。在一个示例中，来自面向外的图像传感器1612A、1612B的数据可以用于检测由虚拟现实计算系统1600的佩戴者执行的佩戴者输入，诸如手势。

此外，来自面向外的图像传感器1612A、1612B的数据可以由机载计算机1604用来确定支持头戴式设备1600在物理环境中的位置/运动跟踪的方向/位置和取向数据(例如，来自成像环境特征)。

IMU 1614可以被配置为将头戴式设备1600的位置和/或取向数据提供给车载计算机1604。在一个示例中，IMU 1614是三轴或三自由度(3DOF)位置传感器系统。这样的配置可以包括三个陀螺仪以指示或测量头戴式设备1600在3D空间内关于三个正交轴(例如，横滚、俯仰和偏航)的取向变化。

在另一示例中，IMU 1614是六轴或六自由度(6DOF)位置传感器系统。这样的配置可以包括三个加速度计和三个陀螺仪以指示或测量头戴式设备1600沿着三个正交空间轴(例如，x、y和z)的位置的变化以及关于三个正交旋转轴(例如，偏航、俯仰和横滚)的设备取向的变化。在一些实现中，来自面向外的图像传感器1612A、1612B和IMU 1614的位置和取向数据可以被结合使用以确定头戴式设备1600的位置和取向(或6DOF姿势)。

头戴式设备1600还可以支持其他合适的定位技术，诸如GPS或其他全球导航系统。此外，尽管已经描述了位置传感器系统的具体示例，但是将理解，可以使用任何其他合适的传感器系统。例如，头部姿势和/或运动数据可以基于来自被安装在佩戴者上和/或佩戴者外部的传感器的任何组合的传感器信息来确定，这样的传感器包括但不限于任何数目的陀螺仪、加速度计、惯性测量单元、GPS设备、气压计、磁力计、相机(例如，可见光相机、红外光相机、飞行时间深度相机、结构化光深度相机等)、通信设备(例如，WIFI天线/接口)等。

一个或多个麦克风1616可以被配置为测量物理环境中的声音。例如，来自一个或多个麦克风1616的音频数据可以由车载计算机1604用来识别由佩戴者提供的用于控制头戴式设备1600的语音命令。

头戴式设备1600包括左耳扬声器1618A和右耳扬声器1618B。扬声器1618A和1618B被耦合到框架1608，以使得扬声器1618A和1618B被定位在头戴式设备1600的佩戴者的左耳和右耳上方和后方。车载计算机1604可以被配置为以与针对空间化音频信号的飞行时间调节对应的延迟，向左耳扬声器1618A和右耳扬声器1618B中的一个或多个输出空间化音频信号。经飞行时间调节的空间化音频信号可以由扬声器1618A和1618B重复输出，以向头戴式设备1600的佩戴者提供虚拟回声定位。

车载计算机1604可以包括与头戴式设备1600的各种传感器以及扬声器通信并且在下面关于图17更详细讨论的逻辑机器和存储机器。

本文中公开的示例也可以适用于其他硬件配置。例如，本文中讨论的虚拟回声定位方法可以与视频游戏(或其他应用)一起使用，诸如以软件插件的形式。该视频游戏可以具有可访问模式，该可访问模式可以被访问以激活回声定位音频信号。在该模式下，软件插件可以查询定义视频游戏的3D虚拟环境的虚拟游戏地图，而不是深度传感器，以标识虚拟游戏地图中的音频信标交点。所得到的空间化音频信号将以相同的方式被传送给用户，以传达距视频游戏的虚拟游戏地图中的虚拟对象的距离。在该实现中，空间化音频信号可以被输出到用户佩戴的耳机的左耳和右耳扬声器。这样的配置可以允许视障用户通过收听回声定位音频信号来导航视频游戏世界的3D虚拟环境。该方法可以使得用户能够参与先前由于用户无法看到视觉上所呈现的3D虚拟环境而被排除的社交游戏体验。此外，这样的配置可以用作用户学习也可以应用于现实世界的回声定位技能的训练场。

图17示意性地示出了可以实现上述方法和过程中的一个或多个的计算系统1700的非限制性实现。计算系统1700以简化形式被示出。计算系统1700可以采取一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能电话)、虚拟现实设备、头戴式设备和/或其他计算设备的形式。例如，计算系统1700可以是图1的头戴式设备102和/或图16的头戴式设备1600的非限制性示例。

计算系统1700包括逻辑机器1702和存储机器1704。计算系统1700可以可选地包括显示子系统1706、输入子系统1708、通信子系统1710和/或图17中未示出的其他组件。

逻辑机器1702包括被配置为执行指令的一个或多个物理设备。例如，逻辑机器1702可以被配置为执行作为一个或多个应用、服务、程序、例程、库、对象、组件、数据结构或其他逻辑构造的一部分的指令。这样的指令可以被实现以执行任务，实现数据类型，转换一个或多个组件的状态，达到技术效果，或者以其他方式达到期望的结果。

逻辑机器1702可以包括被配置为执行软件指令的一个或多个处理器。另外地或替代地，逻辑机器1702可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑机器。逻辑机器1702的处理器可以是单核或多核，并且在其上执行的指令可以被配置用于顺序、并行和/或分布式处理。逻辑机器1702的各个组件可选地可以分布在两个或更多个分开的设备之间，这些设备可以位于远程和/或被配置用于协调处理。逻辑机器1702的各方面可以由以云计算配置进行配置的远程可访问的联网计算设备虚拟化和执行。

存储机器1704包括一个或多个物理设备，该一个或多个物理设备被配置为保存由逻辑机器1702可执行以实现本文中描述的方法和过程的指令。当这样的方法和过程被实施时，存储机器1704的状态可以被变换，例如以保存不同的数据。

存储机器1704可以包括可移动和/或内置设备。存储机器1704可以包括光学存储器(例如，CD、DVD、HD-DVD、蓝光光盘等)、半导体存储器(例如，RAM、EPROM、EEPROM等)和/或磁存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)等。存储机器1704可以包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和/或内容可寻址设备。

应当理解，存储机器1704包括一个或多个物理设备。然而，本文中描述的指令的各方面可以替代地由物理设备未在有限的持续时间内保持的通信介质(例如，电磁信号、光信号等)传播。

逻辑机器1702和存储机器1704的各方面可以一起被集成为一个或多个硬件逻辑组件。这样的硬件逻辑组件可以包括现场可编程门阵列(FPGA)、程序特定集成电路和应用特定的集成电路(PASIC/ASIC)、程序特定标准产品和应用特定标准产品(PSSP/ASSP)、片上系统(SOC)和复杂的可编程逻辑器件(CPLD)。

当被包括时，显示子系统1706可以用于呈现由存储机器1704保存的数据的视觉表示。该视觉表示可以采取图形用户界面(GUI)的形式。当本文中描述的方法和过程改变由存储机器保存的数据，并且因此改变存储机器的状态时，显示子系统1706的状态同样可以被变换以在视觉上表示基础数据的变化。显示子系统1706可以包括实际上利用任何类型的技术的一个或多个显示设备。这样的显示设备可以在共享的外壳中与逻辑机器1702和/或存储机器1704组合，或者这样的显示设备可以是外围显示设备。作为非限制性示例，显示子系统1706可以包括上述近眼显示器。

当被包括时，输入子系统1708可以包括一个或多个用户输入设备或与之交互，诸如键盘、鼠标、触摸屏或游戏控制器。在一些实现中，输入子系统可以包括所选择的自然用户输入(NUI)组件或与之接口连接。这样的组件可以是集成组件或外围组件，并且输入动作的转导和/或处理可以在板上或板外进行。示例NUI组件可以包括用于语音和/或声音识别的麦克风；用于机器视觉和/或手势识别的红外、彩色、立体和/或深度相机；用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速度计和/或陀螺仪；以及用于评估大脑活动的电场感测组件。

当被包括时，通信子系统1710可以被配置为将计算系统1700与一个或多个其他计算设备以通信方式耦合。通信子系统1710可以包括与一种或多种不同的通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子系统可以被配置用于经由无线电话网络或者有线或无线局域网或广域网的通信。在一些实现中，通信子系统1710可以允许计算系统1700经由诸如互联网等网络向其他设备发送消息和/或从其他设备接收消息。

在一些实现中，计算系统1700可以提供虚拟回声定位以导航定义视频游戏的3D虚拟环境的虚拟游戏地图。在这样的实现中，虚拟游戏地图可以用作在其中标识交点的虚拟模型。此外，可以将所得到的经飞行时间调节的空间化音频信号输出到由用户佩戴并且连接到计算系统1700的耳机的左耳扬声器和右耳扬声器。这样的配置可以允许视障用户通过收听输出到耳机的回声定位音频信号来导航视频游戏世界的3D虚拟环境。此外，耳机可以以任何合适的方式与计算设备1700通信，并且计算设备1700不需要被安装到用户的头部。相反，计算设备1700可以相对于用户被远程定位。

在一个示例中，一种头戴式设备包括：被配置为对物理环境成像的深度相机、被配置为测量一个或多个运动参数的一个或多个运动传感器、左耳扬声器和右耳扬声器、处理系统以及存储系统，该存储系统保存指令，该指令由处理系统可执行以进行以下操作：基于来自深度相机的一个或多个深度图像来生成物理环境的虚拟模型，基于来自一个或多个运动传感器的一个或多个运动参数来确定头戴式设备在物理环境中的姿势，从根据头戴式设备的姿势得出的位置以指定角度投射射线阵列，标识射线与虚拟模型的多个交点，针对多个交点中的每个交点，基于与交点对应的头部相关传递函数(HRTF)来修改输入音频信号以产生与交点对应的空间化音频信号，针对与多个交点对应的多个空间化音频信号中的每个空间化音频信号，基于对应交点与射线自其被投射的位置之间的距离来确定飞行时间调节，以及针对多个空间化音频信号中的每个空间化音频信号，以与针对空间化音频信号的飞行时间调节对应的延迟向左耳扬声器和右耳扬声器中的一个或多个输出空间化音频信号。在该示例和/或其他示例中，存储系统还可以保存指令，该指令由处理系统可执行以通过以下中的一项或多项来修改输入音频信号：改变输入音频信号的音量以考虑物理环境中与自其发出空间化音频信号的交点对应的位置，以及改变音频信号的方向性以考虑物理环境中与自其发出空间化音频信号的交点对应的位置。在该示例和/或其他示例中，存储系统还可以保存指令，该指令由处理系统可执行以根据刷新率向左耳扬声器和/或右耳扬声器重复输出多个经更新的空间化音频信号，其中多个经更新的空间化音频信号基于头戴式设备的经更新的姿势。在该示例和/或其他示例中，存储系统还可以保存指令，该指令由处理系统可执行以基于从头戴式设备的佩戴者接收用户输入来动态地调节刷新率。在该示例和/或其他示例中，存储系统还可以保存指令，该指令由处理系统可执行以基于来自一个或多个运动传感器的一个或多个运动参数来动态地调节刷新率。在该示例和/或其他示例中，存储系统还可以保存指令，该指令由处理系统可执行以动态地调节阵列中的射线的指定角度以使得射线与虚拟模型的不同的感兴趣区域相交。在该示例和/或其他示例中，存储系统还可以保存指令，该指令由处理系统可执行以基于以下中的一项或多项来动态地调节阵列中的射线的指定角度：物理环境中与头戴式设备的姿势最接近的检测到的对象的位置，头戴式设备的姿势向量，以及来自运动传感器的一个或多个运动参数。在该示例和/或其他示例中，存储系统还可以保存指令，该指令由处理系统可执行以基于从头戴式设备的佩戴者接收的用户输入来动态地调节阵列中的射线的指定角度。在该示例和/或其他示例中，音频信号可以是第一音频信号，并且存储系统还可以保存指令，该指令由处理系统可执行以：从位置投射具有指定角度和指定长度的一个或多个附加射线，标识一个或多个附加射线与虚拟模型的一个或多个附加交点，针对一个或多个附加交点中的每个附加交点，基于与附加交点对应的头部相关传递函数(HRTF)来修改不同的第二音频信号以产生与交点对应的第二空间化音频信号，针对与所标识的一个或多个附加交点对应的一个或多个第二空间化音频信号中的每个第二空间化音频信号，基于对应附加交点与该位置之间的距离来确定飞行时间调节，以及针对一个或多个第二空间化音频信号中的每个第二空间化音频信号，以与针对空间化音频信号的飞行时间调节对应的延迟，向左耳扬声器和右耳扬声器中的一个或多个输出第二空间化音频信号。

在一个示例中，一种用于使用计算设备执行虚拟回声定位的方法，该计算设备与左耳扬声器和右耳扬声器通信，该方法包括：生成环境的虚拟模型；确定环境中的姿势；从根据该姿势得出的位置以指定角度投射射线阵列；标识射线与虚拟模型的多个交点；针对多个交点中的每个交点，基于与交点对应的头部相关传递函数(HRTF)来修改输入音频信号，以产生与交点对应的空间化音频信号；针对与多个交点对应的多个空间化音频信号中的每个空间化音频信号，基于对应交点与射线自其被投射的位置之间的距离来确定飞行时间调节；以及针对多个空间化音频信号中的每个空间化音频信号，以与针对空间化音频信号的飞行时间调节对应的延迟，向左耳扬声器和右耳扬声器中的一个或多个输出空间化音频信号。在该示例和/或其他示例中，环境可以是物理环境，计算设备还可以包括深度相机和一个或多个运动传感器，深度相机被配置为对物理环境成像的，一个或多个运动传感器被配置为测量一个或多个运动参数，物理环境的虚拟模型可以基于来自深度相机的一个或多个深度图像来生成，并且该姿势可以基于一个或多个运动传感器的一个或多个运动参数来确定。在该示例和/或其他示例中，环境可以是虚拟环境，并且姿势可以是虚拟环境的虚拟模型中的虚拟位置。在该示例和/或其他示例中，该方法还可以包括根据刷新率向左耳扬声器和/或右耳扬声器重复输出多个经更新的空间化音频信号，其中多个经更新的空间化音频信号基于环境中的经更新的姿势。在该示例和/或其他示例中，该方法还可以包括基于以下中的一项或多项来动态地调节刷新率：从计算设备的用户接收的用户输入，以及来自一个或多个运动传感器的一个或多个运动参数。在该示例和/或其他示例中，该方法还可以包括动态地调节阵列中的射线的指定角度以使得射线与虚拟模型的不同的感兴趣区域相交。在该示例和/或其他示例中，阵列中的射线的指定角度可以基于以下中的一项或多项来动态地调节：物理环境中与该姿势最接近的检测到的对象的位置、姿势向量、来自计算设备的一个或多个运动传感器的一个或多个运动参数、以及从计算设备的用户接收的用户输入。

在一个示例中，一种头戴式设备包括：被配置为对物理环境成像的深度相机、被配置为测量一个或多个运动参数的一个或多个运动传感器、左耳扬声器和右耳扬声器、处理系统以及存储系统，该存储系统保存指令，该指令由处理系统可执行以进行以下操作：基于来自深度相机的一个或多个深度图像来生成物理环境的虚拟模型，基于来自一个或多个运动传感器的一个或多个运动参数来确定头戴式设备在物理环境中的姿势，从根据头戴式设备的姿势得出的位置以指定角度投射射线阵列，其中指定角度可以基于从佩戴者接收的用户输入和来自一个或多个运动传感器的一个或多个运动参数中的一项或多项动态地调节，标识该射线与虚拟模型的多个交点，针对多个交点中的每个交点，基于与交点对应的头部相关传递函数(HRTF)来修改输入音频信号以产生与交点对应的空间化音频信号，针对与多个交点对应的多个空间化音频信号中的每个空间化音频信号，基于对应交点与射线自其被投射的位置之间的距离来确定飞行时间调节，以及针对多个空间化音频信号中的每个空间化音频信号，以与针对空间化音频信号的飞行时间调节对应的延迟，向左耳扬声器和右耳扬声器中的一个或多个输出空间化音频信号。在该示例和/或其他示例中，存储系统还可以保存由处理系统可执行以根据刷新率向左耳扬声器和/或右耳扬声器重复输出多个经更新的空间化音频信号的指令，其中多个经更新的空间化音频信号基于头戴式设备的经更新的姿势。在该示例和/或其他示例中，存储系统还可以保存由处理系统可执行以基于以下中的一项或多项来动态地调节刷新率的指令：从头戴式设备的佩戴者接收的用户输入，以及来自一个或多个运动传感器的一个或多个运动参数。在该示例和/或其他示例中，音频信号可以是第一音频信号，并且存储系统还可以保存指令，该指令由处理系统可执行以：从该位置投射具有指定角度和指定长度的一个或多个附加射线；标识一个或多个附加射线与虚拟模型的一个或多个附加交点；针对一个或多个附加交点中的每个附加交点，基于与附加交点对应的头部相关传递函数(HRTF)来修改不同的第二音频信号，以产生与交点对应的第二空间化音频信号；针对与所标识的一个或多个附加交点对应的一个或多个第二空间化音频信号中的每个第二空间化音频信号，基于对应附加交点与该位置之间的距离来确定飞行时间调节；以及针对一个或多个第二空间化音频信号中的每个第二空间化音频信号，以与针对空间化音频信号的飞行时间调节对应的延迟，向左耳扬声器和右耳扬声器中的一个或多个输出第二空间化音频信号。

应当理解，本文中描述的配置和/或方法本质上是示例性的，并且这些特定实施例或示例不应当被视为是限制性的，因为可以有多种变化。本文中描述的特定例程或方法可以表示任何数目的处理策略中的一个或多个。这样，所示和/或描述的各种动作可以按照所示和/或描述的顺序执行、以其他顺序执行、并行执行或者被省略。同样，可以改变上述过程的顺序。

本公开的主题包括本文中公开的各种过程、系统和配置以及其他特征、功能、动作和/或特性及其任何和所有等同项的所有新颖和非明显的组合和子组合。

Claims

1.一种头戴式设备，包括：

深度相机，被配置为对物理环境成像；

一个或多个运动传感器，被配置为测量一个或多个运动参数；

左耳扬声器和右耳扬声器；

处理系统；以及

存储系统，所述存储系统保存指令，所述指令由所述处理系统可执行以进行以下操作：

基于来自所述深度相机的一个或多个深度图像，生成所述物理环境的虚拟模型；

基于来自所述一个或多个运动传感器的所述一个或多个运动参数，确定所述头戴式设备在所述物理环境中的姿势；

从根据所述头戴式设备的所述姿势得出的位置以指定角度投射射线阵列；

标识所述射线与所述虚拟模型的多个交点；

针对所述多个交点中的每个交点，基于与所述交点对应的头部相关传递函数（HRTF）修改输入音频信号，以产生与所述交点对应的空间化音频信号；

针对与所述多个交点对应的多个空间化音频信号中的每个空间化音频信号，基于对应交点与所述射线自其被投射的所述位置之间的距离确定飞行时间调节；

针对所述多个空间化音频信号中的每个空间化音频信号，以与针对所述空间化音频信号的所述飞行时间调节对应的延迟，向所述左耳扬声器和所述右耳扬声器中的一个或多个扬声器输出所述空间化音频信号；以及

根据刷新率向所述左耳扬声器和/或所述右耳扬声器重复输出多个经更新的空间化音频信号，其中所述多个经更新的空间化音频信号基于的是所述头戴式设备的经更新的姿势。

2.根据权利要求1所述的头戴式设备，其中所述存储系统还保存指令，所述指令由所述处理系统可执行以通过以下中的一项或多项来修改所述输入音频信号：改变所述输入音频信号的音量以考虑所述物理环境中与自其发出所述空间化音频信号的所述交点对应的位置，以及改变所述音频信号的方向性以考虑所述物理环境中与自其发出所述空间化音频信号的所述交点对应的位置。

3.根据权利要求1所述的头戴式设备，其中所述存储系统还保存指令，所述指令由所述处理系统可执行以：基于从所述头戴式设备的佩戴者接收用户输入，动态地调节所述刷新率。

4.根据权利要求1所述的头戴式设备，其中所述存储系统还保存指令，所述指令由所述处理系统可执行以：基于来自所述一个或多个运动传感器的所述一个或多个运动参数，动态地调节所述刷新率。

5.根据权利要求1所述的头戴式设备，其中所述存储系统还保存指令，所述指令由所述处理系统可执行以：动态地调节所述阵列中的所述射线的所述指定角度，以使得所述射线与所述虚拟模型的不同的感兴趣区域相交。

6.根据权利要求5所述的头戴式设备，其中所述存储系统还保存指令，所述指令由所述处理系统可执行以基于以下中的一项或多项来动态地调节所述阵列中的所述射线的所述指定角度：所述物理环境中与所述头戴式设备的所述姿势最接近的检测到的对象的位置、所述头戴式设备的姿势向量、以及来自所述运动传感器的所述一个或多个运动参数。

7.根据权利要求5所述的头戴式设备，其中所述存储系统还保存指令，所述指令由所述处理系统可执行以：基于从所述头戴式设备的佩戴者接收的用户输入，动态地调节所述阵列中的所述射线的所述指定角度。

8.根据权利要求1所述的头戴式设备，其中所述音频信号是第一音频信号，并且其中所述存储系统还保存指令，所述指令由所述处理系统可执行以进行以下操作：

从所述位置投射具有指定角度和指定长度的一个或多个附加射线；

标识所述一个或多个附加射线与所述虚拟模型的一个或多个附加交点；

针对所述一个或多个附加交点中的每个附加交点，基于与所述附加交点对应的头部相关传递函数（HRTF）来修改不同的第二音频信号，以产生与所述附加交点对应的第二空间化音频信号；

针对与所标识的所述一个或多个附加交点对应的一个或多个第二空间化音频信号中的每个第二空间化音频信号，基于对应附加交点与所述位置之间的距离来确定飞行时间调节；以及

针对所述一个或多个第二空间化音频信号中的每个第二空间化音频信号，以与针对所述空间化音频信号的所述飞行时间调节对应的延迟向所述左耳扬声器和所述右耳扬声器中的一个或多个扬声器输出所述第二空间化音频信号。

9.一种用于使用计算设备执行虚拟回声定位的方法，所述计算设备与左耳扬声器和右耳扬声器通信，所述方法包括：

生成环境的虚拟模型；

确定头戴式设备在所述环境中的姿势；

从根据所述姿势得出的位置以指定角度投射射线阵列；

标识所述射线与所述虚拟模型的多个交点；

针对与所述多个交点对应的多个空间化音频信号中的每个空间化音频信号，基于对应交点与所述射线自其被投射的位置之间的距离确定飞行时间调节；

针对所述多个空间化音频信号中的每个空间化音频信号，以与针对所述空间化音频信号的飞行时间调节对应的延迟向所述左耳扬声器和所述右耳扬声器中的一个或多个扬声器输出所述空间化音频信号；以及

根据刷新率向所述左耳扬声器和/或所述右耳扬声器重复输出多个经更新的空间化音频信号，其中所述多个经更新的空间化音频信号基于的是所述环境中的经更新的姿势。

10.根据权利要求9所述的方法，其中所述环境是物理环境，其中所述计算设备还包括深度相机和一个或多个运动传感器，所述深度相机被配置为对所述物理环境成像，所述一个或多个运动传感器被配置为测量一个或多个运动参数，其中所述物理环境的所述虚拟模型是基于来自所述深度相机的所述一个或多个深度图像而生成的，并且其中所述姿势是基于所述一个或多个运动传感器的所述一个或多个运动参数而确定的。

11.根据权利要求9所述的方法，其中所述环境是虚拟环境，并且其中所述姿势是所述虚拟环境的所述虚拟模型中的虚拟位置。

12.根据权利要求9所述的方法，还包括：

基于以下中的一项或多项来动态地调节所述刷新率：从所述计算设备的用户接收的用户输入，以及来自所述一个或多个运动传感器的所述一个或多个运动参数。

13.根据权利要求9所述的方法，还包括：

动态地调节所述阵列中的所述射线的所述指定角度，以使得所述射线与所述虚拟模型的不同的感兴趣区域相交。

14.根据权利要求13所述的方法，其中所述阵列中的所述射线的所述指定角度基于以下中的一项或多项来被动态地调节：所述物理环境中与所述姿势最接近的检测到的对象的位置、姿势向量、来自所述计算设备的一个或多个运动传感器的一个或多个运动参数、以及从所述计算设备的用户接收的用户输入。

15.一种头戴式设备，包括：

深度相机，被配置为对物理环境成像；

左耳扬声器和右耳扬声器；

处理系统；以及

从根据所述头戴式设备的所述姿势得出的位置以指定角度投射射线阵列，其中所述指定角度基于从佩戴者接收的一个或多个用户输入和来自所述一个或多个运动传感器的所述一个或多个运动参数而动态地可调整；

标识所述射线与所述虚拟模型的多个交点；

针对所述多个交点中的每个交点，基于与所述交点对应的头部相关传递函数（HRTF）来修改输入音频信号，以产生与所述交点对应的空间化音频信号；

针对与所述多个交点对应的多个空间化音频信号中的每个空间化音频信号，基于对应交点与所述射线自其被投射的所述位置之间的距离来确定飞行时间调节；

针对所述多个空间化音频信号中的每个空间化音频信号，以与针对所述空间化音频信号的所述飞行时间调节对应的延迟，向所述左耳扬声器和所述右耳扬声器中的一个或多个扬声器输出所述空间化音频信号。

16.根据权利要求15所述的头戴式设备，其中所述存储系统还保存指令，所述指令由所述处理系统可执行以根据刷新率向所述左耳扬声器和/或所述右耳扬声器重复输出多个经更新的空间化音频信号，其中所述多个经更新的空间化音频信号基于的是所述头戴式设备的经更新的姿势。

17.根据权利要求15所述的头戴式设备，其中所述存储系统还保存指令，所述指令由所述处理系统可执行以基于从所述头戴式设备的佩戴者接收用户输入以及来自所述一个或多个运动传感器的所述一个或多个运动参数中的一者或多者，动态地调节刷新率。

18.根据权利要求15所述的头戴式设备，其中所述音频信号是第一音频信号，并且其中所述存储系统还保存指令，所述指令由所述处理系统可执行以：

从所述位置投射均具有指定角度和指定长度的一个或多个附加射线；

针对所述一个或多个附加交点中的每个附加交点，基于与所述附加交点对应的头部相关传递函数（HRTF）修改不同的第二音频信号，以产生与所述附加交点对应的第二空间化音频信号；

针对与所述一个或多个附加交点对应的一个或多个第二空间化音频信号中的每个第二空间化音频信号，基于对应附加交点与所述位置之间的距离确定飞行时间调节；以及

针对所述一个或多个第二空间化音频信号中的每个第二空间化音频信号，以与针对所述空间化音频信号的所述飞行时间调节对应的延迟，向所述左耳扬声器和所述右耳扬声器中的一个或多个扬声器输出所述第二空间化音频信号。