CN117319876A

CN117319876A - 使用多个设备进行的音频捕获

Info

Publication number: CN117319876A
Application number: CN202310790244.3A
Authority: CN
Inventors: S·M·朗; J·D·谢弗; S·D·马尼亚斯
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2022-06-29
Filing date: 2023-06-29
Publication date: 2023-12-29
Also published as: US20240007816A1

Abstract

本公开涉及使用多个设备进行的音频捕获。在一个具体实施中，在物理环境中的第一设备处执行一种使组合音频拾取模式可视化的方法，该第一设备包括显示器、一个或多个处理器和非暂态存储器。该方法包括确定该第一设备的第一音频拾取模式。该方法包括确定相应一个或多个第二设备的一个或多个第二音频拾取模式。该方法包括基于该第一音频拾取模式和该一个或多个第二音频拾取模式确定该第一设备和该一个或多个第二设备的组合音频拾取模式。该方法包括在该显示器上显示该组合音频拾取模式的表示。

Description

使用多个设备进行的音频捕获

相关申请的交叉引用

本申请要求2022年6月29日提交的美国临时专利号63/356,624的优先权，该美国临时专利据此全文以引用方式并入。

技术领域

本公开整体涉及使用多个设备来确定物理声源的音频发射模式。

背景技术

扩展现实(XR)环境中的虚拟对象可以是在XR环境中发射声音的音频发射器对象，声音的音量根据音频发射模式取决于XR环境中的虚拟对象和用户的相对位置和/或取向。

附图说明

因此，本公开可被本领域的普通技术人员理解，更详细的描述可参考一些例示性具体实施的方面，其中一些具体实施在附图中示出。

图1A至图1C示出了第一物理环境。

图2A至图2B示出了第二XR环境。

图3是根据一些具体实施的使组合音频拾取模式可视化的方法的流程图表示。

图4是根据一些具体实施的确定音频发射模式的方法的流程图。

图5是根据一些具体实施的电子设备的框图。

根据通常的做法，附图中示出的各种特征部可能未按比例绘制。因此，为了清楚起见，可以任意地扩展或减小各种特征部的尺寸。另外，一些附图可能未描绘给定的系统、方法或设备的所有部件。最后，在整个说明书和附图中，类似的附图标号可用于表示类似的特征部。

发明内容

本文所公开的各种具体实施包括用于使组合音频拾取模式可视化的设备、系统和方法。在各种具体实施中，在物理环境中的第一设备处执行该方法，该第一设备具有显示器、一个或多个处理器和非暂态存储器。该方法包括确定该第一设备的第一音频拾取模式。该方法包括确定相应一个或多个第二设备的一个或多个第二音频拾取模式。该方法包括基于该第一音频拾取模式和该一个或多个第二音频拾取模式确定该第一设备和该一个或多个第二设备的组合音频拾取模式。该方法包括在该显示器上显示该组合音频拾取模式的表示。

本文所公开的各种具体实施包括用于确定音频发射模式的设备、系统和方法。在各种具体实施中，在第一位置的第一设备处执行该方法，该第一设备具有麦克风、一个或多个处理器和非暂态存储器。该方法包括经由该麦克风获得声源的第一音频。该方法包括从一个或多个第二设备接收该声源的一个或多个第二音频。该方法包括确定该一个或多个第二设备的一个或多个第二位置。该方法包括基于该第一音频数据、该一个或多个第二音频数据以及该一个或多个第二位置来确定该声源的音频发射模式，其中该声源的该音频发射模式指示相对于该声源的各个位置处的声级。

根据一些具体实施，一种设备包括一个或多个处理器、非暂态存储器以及一个或多个程序；一个或多个程序被存储于非暂态存储器中并且被配置为由一个或多个处理器执行。一个或多个程序包括用于执行或促使执行本文描述的任何方法的指令。根据一些具体实施，一种非暂态计算机可读存储介质中存储有指令，这些指令在由设备的一个或多个处理器执行时使该设备执行或使执行本文所述方法中的任一种。根据一些具体实施，一种设备包括：一个或多个处理器、非暂态存储器以及用于执行或使执行本文所述方法中的任一种的装置。

具体实施方式

物理环境是指人们在没有电子设备帮助的情况下能够感测和/或交互的物理地点。物理环境可包括物理特征，诸如物理表面或物理对象。例如，物理环境对应于包括物理树木、物理建筑物和物理人的物理公园。人们能够诸如通过视觉、触觉、听觉、味觉和嗅觉来直接感测物理环境和/或与物理环境交互。相反，扩展现实(XR)环境是指人们经由电子设备感测和/或交互的完全或部分模拟的环境。例如，XR环境可包括增强现实(AR)内容、混合现实(MR)内容、虚拟现实(VR)内容等。在XR系统的情况下，跟踪人的物理运动的一个子集或其表示，并且作为响应，以符合至少一个物理定律的方式调节在XR系统中模拟的一个或多个虚拟对象的一个或多个特征。又如，XR系统可以检测呈现XR环境的电子设备(例如，移动电话、平板电脑、膝上型电脑、头戴式设备等)的移动，并且作为响应，以类似于此类视图和声音在物理环境中将如何改变的方式调节由电子设备呈现给人的图形内容和声场。在一些情况下(例如，出于可达性原因)，XR系统可响应于物理运动的表示(例如，声音命令)来调节XR环境中图形内容的特征。

有许多不同类型的电子系统使人能够感测和/或与各种XR环境交互。示例包括头戴式系统、基于投影的系统、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为设计用于放置在人的眼睛上的透镜的显示器(例如，类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入系统(例如，具有或不具有触觉反馈的可穿戴或手持式控制器)、智能电话、平板电脑、以及台式/膝上型计算机。头戴式系统可具有集成不透明显示器和一个或多个扬声器。另选地，头戴式系统可被配置为接受外部不透明显示器(例如，智能电话)。头戴式系统可结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式系统可具有透明或半透明显示器，而不是不透明显示器。透明或半透明显示器可以具有媒介，代表图像的光通过该媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或它们的任意组合。在一些具体实施中，透明或半透明显示器可被配置为选择性地变得不透明。基于投影的系统可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影系统也可以被配置为将虚拟对象投影到物理环境中，例如作为全息图或在物理表面上。

描述了许多细节以便提供对附图中所示的示例具体实施的透彻理解。然而，附图仅示出了本公开的一些示例方面，因此不应被视为限制。本领域的普通技术人员将理解，其他有效方面和/或变体不包括本文所述的所有具体细节。此外，没有详尽地描述众所周知的系统、方法、部件、设备和电路，以免模糊本文所述的示例性具体实施的更多相关方面。

如上所述，扩展现实(XR)环境中的虚拟对象可以是在XR环境中发射声音的音频发射器对象，声音的音量根据音频发射模式取决于XR环境中的虚拟对象和用户的相对位置和/或取向。

在各种具体实施中，虚拟对象具有基本上类似于该虚拟对象的物理版本的音频发射模式可能是有益的。确定物理对象的音频发射模式可能是困难的和/或需要高度受控的条件。因此，在本文所述的各种具体实施中，使用诸如智能电话、平板和/或头戴式设备的多个电子设备来确定物理对象的音频发射模式。

图1A示出了在第一时间的第一物理环境100。第一物理环境100与三维环境坐标系相关联，其中环境坐标系中的每个点与x坐标、y坐标和z坐标相关联。第一物理环境100包括初级电子设备110，该初级电子设备包括初级显示器111。在初级显示器111的相对侧上，初级电子设备110包括在环境坐标系中具有初级相机姿态(例如，位置和取向)的初级相机(未示出)。在初级显示器111的相对侧上，初级电子设备110包括在环境坐标系统中处于初级麦克风姿态的初级麦克风(未示出)。初级麦克风具有初级音频拾取模式。

麦克风的音频拾取模式指示麦克风的方向性。例如，在各种具体实施中，麦克风的极性音频拾取模式指示在每个角度下由麦克风记录的声音的音量与在该角度下声源的音量的比率。作为另一示例，在各种具体实施中，麦克风的局部笛卡尔音频拾取模式指示在以麦克风的位置为原点的麦克风坐标系中的每个点处由麦克风记录的声音的音量与在该点处声源的音量的比率。在各种具体实施中，可使用平方反比定律从极性坐标音频拾取模式确定局部笛卡尔音频拾取模式。作为另一示例，麦克风的全局笛卡尔音频拾取模式指示在环境坐标系中的每个点处由麦克风记录的声音的音量与在该点处声源的音量的比率。在各种具体实施中，可使用基于麦克风在环境坐标系中的姿态的变换从局部笛卡尔音频拾取模式确定全局笛卡尔音频拾取模式。

第一物理环境100包括第一次级电子设备120A。第一次级电子设备120A包括在环境坐标系中处于第一次级麦克风姿态的第一次级麦克风121A。第一次级麦克风121A具有第一次级音频拾取模式。第一次级电子设备120A包括显示QR码123的第一次级显示器122A。第一物理环境100包括第二次级电子设备120B。第二次级电子设备120A包括在环境坐标系统中处于第二次级麦克风姿态的第二次级麦克风121A。第二次级电子设备120A具有第二次级音频拾取模式。

第一物理环境100包括作为物理声源的蟋蟀130。

初级显示器111显示第一XR环境140。第一XR环境140包括用虚拟拾取表示161增强的第一物理环境100的一部分的物理环境表示150。在各种具体实施中，基于用初级电子设备110的初级相机捕获的第一物理环境100的图像来生成物理环境表示150，该初级相机具有朝向第一物理环境100的视场。因此，物理环境表示150包括第一次级电子设备120A的第一次级电子设备表示151A、第二次级电子设备120B的第二次级电子设备表示151B、以及蟋蟀130的蟋蟀表示152。

XR环境140包括虚拟拾取表示161。为了显示虚拟拾取表示161，初级电子设备161确定虚拟拾取表示161的环境坐标系中的一组或多组三维坐标。初级电子设备110使用基于初级相机姿态的变换(例如，初级相机的外部参数，以及在各种具体实施中，初级相机的内部参数，诸如焦距、视场、分辨率等)来确定对应于环境坐标系中的一组或多组三维坐标的初级显示器111上的一个或多个位置(例如，显示坐标系中的一组或多组二维坐标)。然后，初级电子设备161在初级显示器111上的位置处显示虚拟拾取表示。

初级电子设备110基于麦克风的姿态(例如，初级麦克风姿态、第一次级麦克风姿态和第二次级麦克风姿态)以及它们的音频拾取模式(例如，初级音频拾取模式、第一次级音频拾取模式和第二次级音频拾取模式)来确定环境坐标空间中针对虚拟拾取表示161的一组或多组三维坐标。

可使用适当的同步和处理来组合由多个麦克风记录的声源的声音以生成组合声音。多个麦克风的组合音频拾取模式可被定义为在环境坐标系中的每个点处组合声音的音量与声源的音量的比率。在各种具体实施中，可通过组合(例如，相加)多个麦克风中的每个麦克风的全局笛卡尔音频拾取模式来确定组合音频拾取模式。

因此，在各种具体实施中，初级电子设备110基于麦克风的姿态以及它们的音频拾取模式确定初级麦克风、第一次级麦克风121A和第二次级麦克风121B的组合音频拾取模式。在各种具体实施中，初级电子设备110使用初级电子设备110的惯性测量单元(IMU)来确定初级麦克风姿态。在各种具体实施中，初级电子设备110通过检测物理环境100的图像中的次级电子设备120A-120B来确定次级麦克风姿态。在各种具体实施中，初级电子设备110通过从次级电子设备120A-120B接收姿态数据(该姿态数据可基于次级电子设备120A-120B的IMU)来确定次级麦克风姿态。在各种具体实施中，初级电子设备110通过读取由次级电子设备120A-120B显示的机器可读代码(例如，由第一次级电子设备120A显示的QR代码123)来确定次级麦克风姿态。

在各种具体实施中，初级电子设备110通过从初级电子设备110的存储器读取数据来确定初级音频拾取模式。在各种具体实施中，初级电子设备110通过检测物理环境100的图像中的次级电子设备120A-120B、将次级电子设备120A-120B中的每个次级电子设备归类为设备类型以及从初级电子设备110的存储器或远程数据库获得将设备类型与音频拾取模式相关联的数据来确定次级音频拾取模式。在各种具体实施中，初级电子设备110通过从次级电子设备120A-120B接收数据来确定次级音频拾取模式。在各种具体实施中，初级电子设备110通过读取由次级电子设备120A-120B显示的机器可读代码(诸如由第一次级电子设备120A显示的QR代码123)来确定次级音频拾取模式。

在各种具体实施中，初级电子设备110确定环境坐标系中针对虚拟拾取表示161的一组或多组坐标，在该坐标处组合音频拾取模式为阈值。在各种具体实施中，初级电子设备110确定环境坐标系中针对虚拟拾取表示161的一组或多组坐标，在该坐标处组合音频拾取模式大于或等于阈值。

在各种具体实施中，阈值为默认值。在各种具体实施中，阈值基于麦克风的数量。在各种具体实施中，阈值基于初级电子设备110和次级电子设备120A-120B的设备类型。在各种具体实施中，阈值基于用户输入，例如，设置或改变阈值的用户输入。

在各种具体实施中，音频拾取模式(以及由此产生的组合音频拾取模式)是频率相关的。因此，在各种具体实施中，初级电子设备110确定环境坐标系中针对虚拟拾取表示161的一组或多组坐标，在该坐标处特定频率(或在多个频率或频率范围上平均)的组合音频拾取模式为阈值(或大于或等于阈值)。

在各种具体实施中，特定频率为默认频率。在各种具体实施中，默认频率基于用户输入，例如，设置或改变默认频率的用户输入。

如上所述，初级电子设备110使用基于初级相机姿态的变换将环境坐标系中的一组或多组坐标变换为初级显示器111上的位置，并在初级显示器111的这些位置处显示虚拟拾取表示161。

在各种具体实施中，初级设备110提供关于目标组合音频拾取模式的反馈。目标组合音频拾取模式可基于初级设备和/或次级设备的数量和/或设备类型。在各种具体实施中，初级设备110在初级设备110处与距实现目标组合拾取模式的位置的距离成比例(或成反比)地提供触觉反馈。在各种具体实施中，初级设备110在初级显示器111中显示目标组合音频拾取模式的目标表示162。

图1B示出了在第一时间之后的第二时间的第一物理环境100。在第二时间，第一次级电子设备120A已移动，从而将第一次级麦克风121A从第一次级麦克风姿态移动到更新的第一次级麦克风姿态。响应于第一次级电子设备120A的移动，第一次级电子设备表示151A已在显示在初级电子设备110的初级显示器111上的第一XR环境140中移动。此外，响应于麦克风姿态从第一次级麦克风姿态到更新的第一次级麦克风姿态的改变，组合音频拾取模式和对应的虚拟拾取模式表示161已在显示在初级电子设备110的初级显示器111上的第一XR环境140中改变。

图1C示出了在第二时间之后的第三时间的第一物理环境100。在第一时间、第二时间和附加时间，初级电子设备110和次级电子设备120A-120B记录由蟋蟀130发出的声音。

在这些时间中的每个时间和在多个频率中的每个频率，可基于在该时间和在该频率下组合声音的音量来确定由蟋蟀130发出的声音的基本音量。在各种具体实施中，可基于由蟋蟀130发出的声音的基本音量和在蟋蟀130的位置处的组合音频拾取模式来确定由蟋蟀130发出声音的真实音量。

对于麦克风、时间和频率中的每一者，可基于由麦克风在该时间记录的声音的音量、麦克风的姿态和麦克风的音频拾取模式来确定由蟋蟀130在该时间和在该频率下在麦克风的方向上发出的声音的定向音量。

在各种具体实施中，在每个时间和在每个频率下声音的定向音量通过除以在该时间和在该频率下声音的基本音量来归一化。在各种具体实施中，组合针对归一化定向音量的值以确定针对蟋蟀130的时变的、频率相关的音频发射模式。在各种具体实施中，时变的、频率相关的音频发射模式随时间和/或频率平均。

在图1C中，虚拟拾取表示161被音频发射模式的虚拟发射表示163取代。

图2A从用户角度示出在第一时间基于第二物理环境的第二XR环境200。第二XR环境200包括第二物理环境中的物理桌子的桌子表示211和第二物理环境中的物理灯的灯表示212。第二XR环境200包括虚拟花221作为桌子表示211上的世界锁定虚拟对象。第二XR环境200包括虚拟时钟222作为显示锁定虚拟对象。第二XR环境200包括虚拟蟋蟀223作为桌子表示221上的世界锁定虚拟对象。

虚拟蟋蟀223是与音频发射模式相关联的音频发射器对象。在各种具体实施中，虚拟蟋蟀223的音频发射模式基于在第一物理环境100中确定的蟋蟀130的音频发射模式。因此，在各种具体实施中，虚拟蟋蟀223的音频发射模式是时变的和/或频率相关的。在各种具体实施中，由虚拟蟋蟀223产生的声音基于在第一物理环境100中确定的组合声音。在各种具体实施中，由虚拟蟋蟀223产生的声音是不同的声音，但仍基于蟋蟀130的音频发射模式。例如，在物理环境中演奏第一旋律的物理小号的音频发射模式可用于渲染在XR环境中演奏第二旋律的虚拟小号。作为另一示例，说出第一组词的物理人的音频发射模式可用于渲染说出第二组词的虚拟人。

第二XR环境200包括音量计250，该音量计指示在用户位置处以各种频率播放的音频的音量。具体地，在第一时间，处于第一频率f1的音量是第一音量V1，并且处于第二频率f2的音量是第二音量V2。在各种具体实施中，不显示音量计250。然而，为了便于说明，在图2A和图2B中示出音量计250。

图2B从用户角度示出在第二时间的第二XR环境200。在图2B中，虚拟蟋蟀223已改变姿态。由于虚拟蟋蟀223已改变姿态，因此在第二时间在用户位置处播放的音频的音量小于在第一时间在用户位置处播放的音频的音量。因此，声音更安静或不那么强烈。此外，音量的变化是频率相关的，使得音量的变化在较高频率下比在较低频率下更大。因此，第二XR环境200包括音量计250，该音量计指示在第二用户位置处以第一频率f1播放的音频的音量是第二音量V2，该第二音量小于第一音量V1，并且在第二用户位置处以第二频率f2播放的音频的音量是第三音量V3，该第三音量小于第一音量V1并且还小于第二音量V2。因此，第一音量V1和第二音量V2之间的差小于第一音量V2和第三音量V3之间的差。

图3是根据一些具体实施的使组合音频拾取模式可视化的方法300的流程图表示。在各种具体实施中，方法300由物理环境中的第一设备执行，该第一设备具有显示器、一个或多个处理器和非暂态存储器。在一些具体实施中，方法300由处理逻辑部件(包括硬件、固件、软件或它们的组合)执行。在一些具体实施中，方法300由执行存储在非暂态计算机可读介质(例如，存储器)中的指令(例如，代码)的处理器执行。

方法300在框310中以设备确定第一设备的第一音频拾取模式开始。在各种具体实施中，该设备通过从非暂态存储器读取指示第一设备的第一音频拾取模式的数据来确定第一音频拾取模式。

方法300在框320中以设备确定相应一个或多个第二设备的一个或多个第二音频拾取模式继续。在各种具体实施中，第一设备通过在物理环境的图像中检测第二设备、将第二设备中的每个第二设备分类为设备类型以及从非暂态存储器(本地或远程)读取将设备类型与音频拾取模式相关联的数据来确定第二音频拾取模式。因此，在各种具体实施中，确定特定第二设备的特定音频拾取模式包括确定特定第二设备的设备类型。在各种具体实施中，第一设备通过从第二电子设备接收数据来确定第二音频拾取模式。在各种具体实施中，第一设备通过读取由第二电子设备显示的机器可读代码来确定第二音频拾取模式。

方法300在框330中以设备基于第一音频拾取模式和一个或多个第二音频拾取模式确定第一设备和一个或多个第二设备的组合音频拾取模式。

在各种具体实施中，确定组合音频拾取模式包括将第一音频拾取模式和一个或多个第二音频拾取模式中的至少一者转换为全局笛卡尔音频拾取模式。因此，在各种具体实施中，确定第一音频拾取模式或一个或多个第二音频拾取模式中的至少一者包括基于平方反比定律将极性音频拾取模式转换为局部笛卡尔音频拾取模式。此外，在各种具体实施中，确定第一音频拾取模式或一个或多个第二音频拾取模式中的至少一者包括基于相关联设备的位置和/或取向将局部笛卡尔音频拾取模式转换为全局笛卡尔音频拾取模式。因此，在各种具体实施中，确定特定设备的特定音频拾取模式包括确定该特定设备在物理环境中的位置和/或取向。在各种具体实施中，该特定设备为第一设备。在各种具体实施中，第一设备使用第一设备的IMU来确定第一设备的位置和/或取向。

在各种具体实施中，该特定设备为特定第二设备。在各种具体实施中，第一设备通过在物理环境的图像中检测特定第二设备来确定该特定第二设备的位置和/或取向。在各种具体实施中，第一设备通过从特定第二设备接收姿态数据来确定特定第二设备的位置和/或取向。在各种具体实施中，第一设备通过读取由特定第二设备在物理环境的图像中显示的机器可读代码来确定特定第二设备的位置和/或取向。

在各种具体实施中，确定组合音频拾取模式包括组合(例如，相加)第一音频拾取模式和一个或多个第二音频拾取模式。

方法300在框340中以设备在显示器上显示组合音频拾取模式的表示继续。在各种具体实施中，第一设备针对组合音频拾取模式的表示确定物理环境的坐标系中的一组或多组坐标，在该坐标处组合音频拾取模式为阈值。因此，在各种具体实施中，组合音频拾取模式的表示是包括物理环境中组合拾取水平恒定的位置的表面。在各种具体实施中，显示组合音频拾取模式的表示包括在物理环境中的位置处与物理环境的图像相关联地显示组合音频拾取模式的表示(例如，作为世界锁定虚拟对象)。

在各种具体实施中，方法300包括检测第一设备或一个或多个第二设备中的至少一者的移动。方法300包括基于移动来确定第一设备和一个或多个第二设备的更新的组合音频拾取模式。方法300包括在显示器上显示更新的组合音频拾取模式的表示。

在各种具体实施中，方法300包括提供关于目标组合音频拾取模式的反馈。目标组合音频拾取模式可基于第一设备和/或一个或多个第二设备的数量和/或设备类型。在各种具体实施中，提供关于目标组合音频拾取模式的反馈包括在第一设备处与距实现目标组合拾取模式的位置的距离成比例地提供触觉反馈。在各种具体实施中，提供关于目标组合音频拾取模式的反馈包括显示目标组合音频拾取模式的表示。

如上所述，在各种具体实施中，组合由多个设备的多个麦克风记录的声音以生成组合声音。组合声音可用于确定多个设备的组合音频拾取模式。此外，组合声音可用于确定声源的音频发射模式。

图4是根据一些具体实施的确定音频发射模式的方法400的流程图。在各种具体实施中，方法400由第一位置的第一设备处执行，该第一设备具有麦克风、一个或多个处理器和非暂态存储器。在一些具体实施中，方法400由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中，方法400由执行存储在非暂态计算机可读介质(例如，存储器)中的指令(例如，代码)的处理器执行。

方法400在框410中以第一设备经由麦克风获得声源的第一音频开始。

方法400在框420中以第一设备从一个或多个第二设备接收声源的一个或多个第二音频继续。

方法400在框430中以第一设备确定一个或多个第二设备的一个或多个第二位置继续。在各种具体实施中，第一设备通过在物理环境的一个或多个图像中检测特定第二设备来确定该特定第二设备的位置和/或取向。在各种具体实施中，第一设备通过从特定第二设备接收姿态数据来确定特定第二设备的位置和/或取向。在各种具体实施中，第一设备通过读取由特定第二设备在物理环境的图像中显示的机器可读代码来确定特定第二设备的位置和/或取向。

方法400在框440中以第一设备基于第一音频、一个或多个第二音频以及一个或多个第二位置确定声源的音频发射模式继续，其中声源的音频发射模式指示在相对于声源的各个位置处的声级。

在各种具体实施中，确定音频发射模式包括基于第一音频和一个或多个第二音频确定组合音频。在各种具体实施中，确定组合音频包括同步第一音频和一个或多个第二音频。在各种具体实施中，使用互相关来同步第一音频和一个或多个第二音频。在各种具体实施中，确定组合音频包括从第一音频和一个或多个第二音频中的至少一者中的混响音频中过滤直接音频。在各种具体实施中，滤波包括迫零或MMSE(“最小均方误差”)均衡。在各种具体实施中，确定组合音频包括在第一音频和一个或多个第二音频中的至少一者中执行降噪。

在各种具体实施中，确定音频发射模式包括确定在多个时间中的每个时间和在多个频率中的每个频率下声源的基本音量。在各种具体实施中，在多个时间中的每个时间和在多个频率中的每个频率下声源的基值基于在该时间和在该频率下组合音频的音量来确定。

在各种具体实施中，确定音频发射模式包括对于第一音频(与第一设备相关联)以及一个或多个第二音频(分别与一个或多个第二设备相关联)中的每个第二音频，确定在多个时间中的每个时间和在多个频率中的每个频率下声源的定向音量。在各种具体实施中，确定在多个时间中的每个时间和在多个频率中的每个频率下声源的定向音量是基于在该时间音频的音量、相应设备的姿态以及该相应设备的音频拾取模式。

在各种具体实施中，确定音频发射模式包括对于第一音频以及一个或多个第二音频中的每个第二音频，通过将在多个时间中的每个时间和在多个频率中的每个频率下声音的定向音量除以在该时间和在频率下声音的基本音量来确定在该时间和在频率下声音的归一化定向音量。

在各种具体实施中，组合在多个时间中的每个时间和在多个子频率中的每个频率下针对第一音频以及一个或多个第二音频中的每个第二音频的声音的归一化定向音量，以生成时变的、频率相关的音频发射模式。因此，在各种具体实施中，声源的音频发射模式指示在相对于声源的特定位置处在各个频率下的声级。此外，在各种具体实施中，声源的音频发射模式指示在相对于声源的特定位置处在各种时间的声级。在各种具体实施中，时变的、频率相关的音频发射模式随时间和/或频率平均。

在各种具体实施中，确定音频发射模式包括在两个位置处对声音的归一化定向音量进行插值，以确定在不同位置处声音的归一化定向音量。因此，在各种具体实施中，确定声源的音频发射模式包括基于第一位置处的声级和一个或多个第二位置处的一个或多个声级中的至少两个声级来确定与第一位置和一个或多个第二位置不同的第三位置处的声级。

在各种具体实施中，方法400包括与组合音频相关联地存储声源的音频发射模式。因此，声源的音频发射模式可用于渲染播放组合音频的虚拟声源。在各种具体实施中，声源的音频发射模式可用于渲染播放除组合音频之外的音频的虚拟声源。

图5是根据一些具体实施的电子设备500的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在一些具体实施中，电子设备500包括一个或多个处理单元502(例如，微处理器、ASIC、FPGA、GPU、CPU、处理核心等)、一个或多个输入/输出(I/O)设备和传感器506、一个或多个通信接口508(例如，USB、FIREWIRE、THUNDERBOLT、IEEE 802.3x、IEEE 802.11x、IEEE 802.16x、GSM、CDMA、TDMA、GPS、IR、BLUETOOTH、ZIGBEE和/或类似类型的接口)、一个或多个编程(例如，I/O)接口510、一个或多个XR显示器512、一个或多个可选的面向内部和/或面向外部的图像传感器514、存储器520以及用于互连这些部件和各种其他部件的一条或多条通信总线504。

在一些具体实施中，一条或多条通信总线504包括互连并控制系统部件之间的通信的电路。在一些具体实施中，一个或多个I/O设备和传感器506包括惯性测量单元(IMU)、加速度计、陀螺仪、温度计、一个或多个生理传感器(例如，血压监测仪、心率监测仪、血液氧传感器、血糖传感器等)、一个或多个传声器、一个或多个扬声器、触觉引擎以及/或者一个或多个深度传感器(例如，结构光、飞行时间等)等。

在一些具体实施中，一个或多个XR显示器512被配置为向用户呈现XR内容。在一些具体实施中，一个或多个XR显示器512对应于全息、数字光处理(DLP)、液晶显示器(LCD)、硅上液晶(LCoS)、有机发光场效应晶体管(OLET)、有机发光二极管(OLED)、表面传导电子发射显示器(SED)、场发射显示器(FED)、量子点发光二极管(QD-LED)、微机电系统(MEMS)和/或类似的显示器类型。在一些具体实施中，一个或多个XR显示器512对应于衍射、反射、偏振、全息等波导显示器。例如，电子设备500包括单个XR显示器。在另一示例中，电子设备500对于用户的每只眼睛包括XR显示器。在一些具体实施中，一个或多个XR显示器412能够呈现AR、MR和/或VR内容。

在各种具体实施中，一个或多个XR显示器512为视频透传显示器，其将真实场景的至少一部分显示为由场景相机所捕获的图像。在各种具体实施中，一个或多个XR显示器512为光学透传显示器，其至少部分为透明的并使由真实场景发射或反射的光通过。

在一些具体实施中，一个或多个图像传感器514被配置为获取对应于用户面部的至少一部分(包括用户的眼睛)的图像数据(并且可被称为眼睛跟踪相机)。在一些具体实施中，一个或多个图像传感器514被配置为面向前方，以便获得对应于当不存在电子设备500时用户将看到的物理环境的图像数据(并且可被称为场景相机)。一个或多个可选图像传感器514可包括一个或多个RGB相机(例如，具有互补金属氧化物半导体(CMOS)图像传感器或电荷耦合器件(CCD)图像传感器)、一个或多个红外(IR)相机、一个或多个基于事件的相机等。

存储器520包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备。在一些具体实施中，存储器520包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器520任选地包括与一个或多个处理单元502远程定位的一个或多个存储设备。存储器520包括非暂态计算机可读存储介质。在一些具体实施中，存储器520或者存储器520的非暂态计算机可读存储介质存储下述程序、模块和数据结构或者它们的子集，其中包括任选的操作系统530和XR呈现模块540。

操作系统530包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。在一些具体实施中，XR呈现模块540被配置为经由一个或多个XR显示器512向用户呈现XR内容。为此，在各种具体实施中，XR呈现模块540包括数据获得单元542、音频模式确定单元544、XR呈现单元546和数据传输单元548。

在一些具体实施中，数据获得单元542被配置为获得数据(例如，呈现数据、交互数据、传感器数据、位置数据等)。可从一个或多个处理单元502或另一电子设备获得数据。为此，在各种具体实施中，数据获取单元542包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，音频模式确定单元544被配置为确定声源的组合音频拾取模式和/或音频发射模式。为此，在各种具体实施中，音频模式确定单元544包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，XR呈现单元546被配置为经由一个或多个XR显示器512呈现XR内容。为此，在各种具体实施中，XR呈现单元546包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，数据传输单元548被配置为向一个或多个处理单元502、存储器520或另一电子设备传输数据(例如，呈现数据、位置数据等)。为此，在各种具体实施中，数据传输单元548包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

尽管数据获得单元542、音频模式确定单元544、XR呈现单元546和数据传输单元548被示为驻留在单个电子设备500上，但应当理解，在其他具体实施中，数据获得单元542、音频模式确定单元544、XR呈现单元546和数据传输单元548的任何组合可位于单独计算设备中。

此外，图5更多地用作可能存在于特定具体实施中的各种特征的功能描述，与本文所描述的具体实施的结构示意图不同。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图5中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。

虽然上文描述了在所附权利要求书范围内的具体实施的各个方面，但是应当显而易见的是，上述具体实施的各种特征可通过各种各样的形式体现，并且上述任何特定结构和/或功能仅是例示性的。基于本公开，本领域的技术人员应当理解，本文所述的方面可以独立于任何其他方面来实现，并且这些方面中的两个或更多个可以采用各种方式组合。例如，可以使用本文阐述的任何数量的方面来实现装置和/或可以实践方法。另外，除了本文阐述的一个或多个方面之外或者不同于本文阐述的一个或多个方面，可以使用其他结构和/或功能来实现这样的装置和/或可以实践这样的方法。

还将理解的是，虽然术语“第一”、“第二”等可能在本文中用于描述各种元素，但是这些元素不应当被这些术语限定。这些术语只是用于将一个元件与另一元件区分开。例如，第一节点可以被称为第二节点，并且类似地，第二节点可以被称为第一节点，其改变描述的含义，只要所有出现的“第一节点”被一致地重命名并且所有出现的“第二节点”被一致地重命名。第一节点和第二节点都是节点，但它们不是同一个节点。

本文中所使用的术语仅仅是为了描述特定具体实施并非旨在对权利要求进行限制。如在本具体实施的描述和所附权利要求中所使用的那样，单数形式的“一个”和“该”旨在也涵盖复数形式，除非上下文清楚地另有指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件，和/或其分组。

如本文所使用的，术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真，具体取决于上下文。类似地，短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真，具体取决于上下文。

Claims

1.一种方法，所述方法包括：

在第一位置的第一设备处，所述第一设备具有麦克风、一个或多个处理器和非暂态存储器；

经由所述麦克风获得声源的第一音频；

从一个或多个第二设备接收所述声源的一个或多个第二音频；

确定所述一个或多个第二设备的一个或多个第二位置；以及

基于所述第一音频数据、所述一个或多个第二音频数据以及所述一个或多个第二位置来确定所述声源的音频发射模式，其中所述声源的所述音频发射模式指示相对于所述声源的各个位置处的声级。

2.根据权利要求1所述的方法，其中确定特定第二设备的所述第二位置包括在物理环境的一个或多个图像中检测所述特定第二设备。

3.根据权利要求2所述的方法，其中确定所述特定第二设备的所述第二位置包括基于在所述物理环境的所述一个或多个图像中编码的数据来识别所述特定第二设备。

4.根据权利要求1所述的方法，其中确定所述声源的所述音频发射模式包括基于所述第一音频和所述一个或多个第二音频生成组合音频。

5.根据权利要求4所述的方法，其中生成所述组合音频包括同步所述第一音频和所述一个或多个第二音频。

6.根据权利要求4所述的方法，其中生成所述组合音频包括从所述第一音频和所述一个或多个第二音频中的至少一者中的混响音频过滤直接音频。

7.根据权利要求4所述的方法，其中生成所述组合音频包括在所述第一音频和所述一个或多个第二音频中的至少一者中执行降噪。

8.根据权利要求4所述的方法，其中确定所述音频发射模式包括基于在多个时间中的每个时间和在多个频率中的每个频率下所述组合音频的音量来确定在所述时间和在所述频率下所述声源的基本音量。

9.根据权利要求8所述的方法，其中确定所述音频发射模式包括对于与所述第一设备相关联的所述第一音频以及分别与所述一个或多个第二设备相关联的所述一个或多个第二音频中的每个第二音频，基于在所述多个时间中的每个时间所述音频的音量、相应设备的姿态以及所述相应设备的音频拾取模式来确定在所述时间和在所述多个频率中的每个频率下所述声源的定向音量。

10.根据权利要求9所述的方法，其中确定所述音频发射模式包括对于所述第一音频和所述一个或多个第二音频中的每个第二音频，通过将在所述多个时间中的每个时间和在所述多个频率中的每个频率下所述声音的定向音量除以在所述时间和在所述频率下所述声音的基本音量来确定在所述时间和在所述频率下声音的归一化定向音量。

11.根据权利要求1所述的方法，其中所述声源的所述音频发射模式指示在相对于所述声源的特定位置处在各个频率下的声级。

12.根据权利要求1所述的方法，其中所述声源的所述音频发射模式指示在相对于所述声源的特定位置处在各个时间的声级。

13.根据权利要求1所述的方法，其中确定所述声源的所述音频发射模式包括基于所述第一位置处的声级和所述一个或多个第二位置处的一个或多个声级中的至少两个声级来确定不同于所述第一位置和所述一个或多个第二位置的第三位置处的声级。

14.根据权利要求1所述的方法，还包括将所述声源的所述音频发射模式与基于所述第一音频和所述一个或多个第二音频的组合音频相关联地存储。

15.一种设备，所述设备包括：

麦克风；

非暂态存储器；和

一个或多个处理器，所述一个或多个处理器用于：

经由所述麦克风获得声源的第一音频；

确定所述一个或多个第二设备的一个或多个第二位置；以及

16.根据权利要求15所述的设备，其中所述一个或多个处理器用于通过基于所述第一音频和所述一个或多个第二音频生成组合音频来确定所述声源的所述音频发射模式。

17.根据权利要求15所述的设备，其中所述声源的所述音频发射模式指示在相对于所述声源的特定位置处在各种时间和在各种频率下的声级。

18.根据权利要求15所述的设备，其中所述一个或多个处理器用于通过基于所述第一位置处的声级和所述一个或多个第二位置处的一个或多个声级中的至少两个声级确定不同于所述第一位置和所述一个或多个第二位置的第三位置处的声级来确定所述声源的所述音频发射模式。

19.根据权利要求15所述的设备，其中所述一个或多个处理器还用于将所述声源的所述音频发射模式与基于所述第一音频和所述一个或多个第二音频的组合音频相关联地存储。

20.一种存储一个或多个程序的非暂态存储器，所述一个或多个程序当由包括麦克风的设备的一个或多个处理器执行时使得所述设备：

经由所述麦克风获得声源的第一音频；

确定所述一个或多个第二设备的一个或多个第二位置；以及