CN113994715A

CN113994715A - 用于人工现实环境的音频系统

Info

Publication number: CN113994715A
Application number: CN202080043438.1A
Authority: CN
Inventors: 塞瓦斯蒂亚·维琴察·阿门瓜尔加里; 卡尔·席斯勒; 彼得·亨利·马雷什; 安德鲁·洛维特; 菲利普·罗宾逊
Original assignee: Facebook Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-06-24
Filing date: 2020-05-01
Publication date: 2022-01-28
Also published as: WO2020263407A1; EP3932093A1; JP2022538714A; US20200404445A1; US10645520B1; KR20220024143A; JP7482147B2; US10959038B2

Abstract

头戴式装置上的音频系统向用户呈现模拟目标人工现实环境的音频内容。该系统从环境接收音频内容，并分析该音频内容以确定与该环境相关联的一组声学特性。音频内容可以是用户生成的声音或环境声音。在接收到目标环境的一组目标声学特性之后，系统通过比较该一组声学特性和目标环境的声学特性来确定传递函数。系统基于传递函数调整音频内容，并将调整后的音频内容呈现给用户。所呈现的调整后的音频内容包括目标环境的目标声学特性中的一个或更多个。

Description

用于人工现实环境的音频系统

相关申请的交叉引用

本申请要求2019年6月24日提交的美国申请第16/450,678号的优先权，该申请的内容为了所有目的通过引用以其整体并入本文。

背景

本公开总体上涉及音频系统，并且具体涉及渲染(render)目标人工现实环境的声音的音频系统。

头戴式显示器(HMD)可用于向用户呈现虚拟的和/或增强的信息。例如，增强现实(AR)头戴式装置或虚拟现实(VR)头戴式装置可用于模拟增强/虚拟现实。传统上，AR/VR头戴式装置的用户佩戴头戴式耳机来接收或以其它方式体验计算机生成的声音。其中用户佩戴AR/VR头戴式装置的环境通常与AR/VR头戴式装置模拟的虚拟空间不匹配，从而为用户呈现听觉冲突。例如，音乐家和演员通常需要在表演空间完成排练，因为他们的演奏风格和在观众区接收的声音取决于大厅的声学效果。此外，在涉及用户生成的声音(例如语音(speech)、鼓掌等等)的游戏或应用中，玩家所在的真实空间的声学特性与虚拟空间的声学特性不匹配。

概述

公开了一种用于渲染目标人工现实环境中的声音的方法。该方法通过控制器分析与环境相关联的一组声学特性。环境可以是用户所在的房间。一个或更多个传感器从环境中接收音频内容(包括用户生成的声音和环境声音)。例如，用户可以在环境中说话、演奏乐器或唱歌，而环境声音可以包括风扇运转和狗吠声等。响应于接收到对诸如体育场、音乐大厅或场地的目标人工现实环境的选择，控制器将用户当前所在房间的声学特性与和目标环境相关联的一组目标声学特性进行比较。控制器随后确定传递函数，控制器使用该传递函数来调整接收的音频内容。因此，一个或更多个扬声器向用户呈现调整后的音频内容，使得调整后的音频内容包括目标环境的目标声学特性中的一个或更多个。用户感知调整后的音频内容就好像他们在目标环境中一样。

在一些实施例中，该方法由作为头戴式装置(例如，近眼显示器(NED)、头戴式显示器(HMD))的一部分的音频系统来执行。音频系统包括用于检测音频内容的一个或更多个传感器、用于呈现调整后的音频内容的一个或更多个扬声器、以及用于分析环境的声学特性与目标环境的声学特性以及确定表征两组声学特性的比较的传递函数的控制器。

附图简述

图1是根据一个或更多个实施例的头戴式装置的图。

图2A示出了根据一个或更多个实施例的声场。

图2B示出了根据一个或更多个实施例的在渲染目标环境的音频内容之后的声场。

图3是根据一个或更多个实施例的示例音频系统的框图。

图4是根据一个或更多个实施例的用于渲染目标环境的音频内容的过程。

图5是根据一个或更多个实施例的示例人工现实系统的框图。

附图仅出于说明的目的描绘了各种实施例。本领域技术人员从下面的讨论中将容易认识到，在不脱离本文描述的原理的情况下，可以采用本文示出的结构和方法的替代实施例。

详细描述

一种音频系统渲染目标人工现实环境的音频内容。当佩戴诸如头戴式装置等人工现实(AR)或虚拟现实(VR)设备时，用户可以生成音频内容(例如，语音、来自乐器的音乐、掌声或其他噪声)。用户当前环境(诸如房间)的声学特性可能与AR/VR头戴式装置模拟的虚拟空间(即目标人工现实环境)的声学特性不匹配。音频系统渲染用户生成的音频内容，就像它是在目标环境中生成的一样，同时也考虑用户当前环境中的环境声音。例如，用户可以使用头戴式装置来模拟音乐大厅(即目标环境)中的声乐表演。当用户唱歌时，音频系统调整音频内容(即用户唱歌的声音)，使得其听起来像用户在音乐大厅唱歌。用户周围环境中的环境噪声(例如滴水、人们说话或风扇运转)可能被减弱，因为目标环境不太可能以这些声音为特征。音频系统考虑环境声音和用户生成的不具有目标环境特征的声音，并渲染音频内容，使得其听起来像是在目标人工现实环境中产生的。

音频系统包括用于接收音频内容(包括用户生成的声音以及用户周围的环境声音)的一个或更多个传感器。在一些实施例中，音频内容可以由环境中的一个以上的用户生成。音频系统分析用户当前环境的一组声学特性。音频系统接收用户对目标环境的选择。在比较与当前环境的声学特性相关联的原始响应和与目标环境的声学特性相关联的目标响应之后，音频系统确定传递函数。音频系统根据确定的传递函数调整检测到的音频内容，并通过一个或更多个扬声器向用户呈现调整后的音频内容。

本发明的实施例可以包括人工现实系统或者结合人工现实系统来实现。人工现实是一种在呈现给用户之前已经以某种方式进行了调整的现实形式，其可以包括例如虚拟现实(VR)、增强现实(AR)、混合现实(mixed reality，MR)、混杂现实(hybrid reality)或其某种组合和/或衍生物。人工现实内容可以包括完全生成的内容或者与所捕获的(例如，真实世界)内容组合地生成的内容。人工现实内容可以包括视频、音频、触觉反馈、或其某种组合，且其中任何一个都可以在单个通道中或在多个通道中被呈现(例如向观看者产生三维效果的立体视频)。此外，在一些实施例中，人工现实还可以与应用、产品、附件、服务或其某种组合相关联，这些应用、产品、附件、服务或其某种组合用于例如在人工现实中创建内容和/或在人工现实中以其他方式被使用(例如在人工现实中执行活动)。提供人工现实内容的人工现实系统可以在各种平台上实现，这些平台包括连接到主计算机系统的头戴式显示器(HMD)、独立的HMD、移动设备或计算系统、或者能够向一个或更多个观看者提供人工现实内容的任何其他硬件平台。

系统概况

图1是根据一个或更多个实施例的头戴式装置100的图。头戴式装置100向用户呈现媒体。头戴式装置100包括音频系统、显示器105和框架110。通常，头戴式装置可以佩戴在用户的脸上，使得使用头戴式装置来呈现内容。内容可以包括分别通过音频系统和显示器105呈现的音频和视觉媒体内容。在一些实施例中，头戴式装置可以仅通过头戴式装置向用户呈现音频内容。框架110使得头戴式装置100能够佩戴在用户的脸上，并且容纳音频系统的部件。在一个实施例中，头戴式装置100可以是头戴式显示器(HMD)。在另一个实施例中，头戴式装置100可以是近眼显示器(NED)。

显示器105向头戴式装置100的用户呈现视觉内容。视觉内容可以是虚拟现实环境的一部分。在一些实施例中，显示器105可以是电子显示元件，例如液晶显示器(LCD)、有机发光二极管(OLED)显示器、量子有机发光二极管(QOLED)显示器、透明有机发光二极管(TOLED)显示器、某种其他显示器或它们的某种组合。显示器105可以是背光的。在一些实施例中，显示器105可以包括一个或更多个透镜(lenses)，这些透镜增强了用户在佩戴头戴式装置100时看到的内容。

音频系统向头戴式装置100的用户呈现音频内容。除了其它部件之外，音频系统包括一个或更多个传感器140A、140B、一个或更多个扬声器120A、120B、120C以及控制器。音频系统可以向用户提供调整后的音频内容，将检测到的音频内容渲染为好像它是在目标环境中产生的一样。例如，头戴式装置100的用户可能想要在音乐大厅练习演奏乐器。头戴式装置100将呈现模拟目标环境(即音乐大厅)的视觉内容，以及模拟用户将如何感知目标环境中的声音的音频内容。关于音频系统的附加的细节在下面关于图2-图5进行论述。

扬声器120A、120B和120C根据来自控制器170的指令生成声压波以呈现给用户。扬声器120A、120B和120C可以被配置为向用户呈现调整后的音频内容，其中调整后的音频内容包括目标环境的至少一些声学特性。一个或更多个扬声器可以通过空气传导生成声压波，其将空气传播的声音传送到用户的耳朵。在一些实施例中，扬声器可以通过组织传导呈现内容，其中扬声器可以是直接振动组织(例如，骨、皮肤、软骨等)以生成声压波的换能器。例如，扬声器120B和120C可以耦合到耳朵附近和/或耳朵处的组织并使该组织振动，以产生由用户耳朵的耳蜗检测为声音的组织承载的声压波。扬声器120A、120B、120C可以覆盖频率范围的不同部分。例如，压电换能器可以用于覆盖频率范围的第一部分，而动圈换能器可以用于覆盖频率范围的第二部分。

传感器140A、140B从用户的当前环境中监测和捕获关于音频内容的数据。音频内容可以包括用户生成的声音(包括用户说话、演奏乐器和唱歌)，以及环境声音(例如狗喘气、空调运转和水流动)。传感器140A、140B可以包括例如麦克风、加速度计、其他声学传感器或它们的某种组合。

在一些实施例中，扬声器120A、120B和120C以及传感器140A和140B可以位于框架110内和/或框架110上与图1所示不同的位置。头戴式装置可以包括数量和/或类型不同于图1所示的数量和/或类型的扬声器和/或传感器。

控制器170指示扬声器呈现音频内容，并确定用户当前环境和目标环境之间的传递函数。环境与一组声学特性相关联。声学特性表征了环境如何响应声学内容(例如声音在环境中的传播和反射)。声学特性可以是针对多个频带的从声源到头戴式装置100的混响时间(reverberation time)、每个频带的混响水平、每个频带的直达混响比(a direct toreverberant ratio)、声音从声源到头戴式装置100的早期反射时间、其他声学特性或它们的某种组合。例如，声学特性可以包括信号从房间内的表面的反射以及信号在空气中传播时的衰减。

用户可以使用头戴式装置100模拟目标人工现实环境(即“目标环境”)。位于当前环境(例如房间)中的用户可以选择模拟目标环境。用户可以从多个可能的目标环境选项中选择目标环境。例如，用户可以从包括歌剧大厅、室内篮球场、音乐录音棚等的选择列表中选择体育场。目标环境具有其自己的一组声学特性(即一组目标声学特性)，其表征了声音在目标环境中如何被感知。控制器170基于当前环境的一组声学特性来确定“原始响应”，即用户当前环境的房间脉冲响应。原始响应表征了用户在第一位置如何感知其当前环境(即房间)中的声音。在一些实施例中，控制器170可以确定在用户的第二位置处的原始响应。例如，用户在房间中央感知的声音将不同于在房间入口处感知的声音。因此，在第一位置(例如，房间中央)的原始响应将不同于在第二位置(例如，房间的入口)的原始响应。控制器170还基于目标声学特性来确定“目标响应”，该“目标响应”表征声音将如何在目标环境中被感知。比较原始响应和目标响应，控制器170确定它在调整音频内容时使用的传递函数。在比较原始响应和目标响应时，控制器170确定用户当前环境中的声学参数和目标环境中的声学参数之间的差异。在一些情况下，差异可以是负的，在这种情况下，控制器170消除和/或遮挡用户的当前环境中的声音，以获得目标环境中的声音。在其他情况下，差异可以是相加的，其中控制器170添加和/或增强某些声音以描绘(portray)目标环境中的声音。控制器170可以使用声音滤波器来改变当前环境中的声音，以获得目标环境中的声音，这在下面关于图3进行更详细的描述。控制器170可以通过确定影响环境中的声音的环境参数的差异来测量当前环境中的声音和目标环境中的声音之间的差异。例如，除了诸如混响和衰减等声学参数的比较之外，控制器170还可以比较环境的温度和相对湿度。在一些实施例中，传递函数特定于用户在环境中的位置，例如第一位置或第二位置。调整后的音频内容反映了至少一些目标声学特性，使得用户将声音感知为好像它是在目标环境中产生的一样。

为目标环境渲染声音

图2A示出了根据一个或更多个实施例的声场。用户210位于环境200(例如起居室)中。环境200具有声场205，其包括环境噪声和用户生成的声音。环境噪音的来源可能包括例如附近街道上的交通、邻居的狗吠声以及其他人在相邻房间的键盘上打字。用户210可以生成声音，诸如唱歌、弹吉他、跺脚和说话。在一些实施例中，环境200可以包括生成声音的多个用户。在佩戴人工现实(AR)和/或虚拟现实(VR)头戴式装置(例如，头戴式装置100)之前，用户210可以根据环境200的一组声学特性感知声音。例如，在可能充满许多物体的起居室中，用户210在他们说话时可以感知到最小的回声。

图2B示出了根据一个或更多个实施例的在渲染目标环境的音频内容之后的声场。用户210仍然位于环境200中，并且佩戴头戴式装置215。头戴式装置215是图1中描述的头戴式装置100的实施例，其渲染音频内容，使得用户210感知调整后的声场350。

头戴式装置215检测用户210的环境中的音频内容，并将调整后的音频内容呈现给用户210。如上所述，关于图1，头戴式装置215包括音频系统，该音频系统具有至少一个或更多个传感器(例如，传感器140A、140B)、一个或更多个扬声器(例如，扬声器120A、120B、120C)和控制器(例如，控制器170)。用户210的环境200中的音频内容可以由用户210、环境200中的其他用户和/或环境声音生成。

控制器通过估计表征用户210对环境200内发出的声音的感知的房间脉冲响应来识别和分析与环境200相关联的一组声学特性。房间脉冲响应与用户210对环境200中特定位置的声音的感知相关联，并且如果用户210改变在环境200内的位置，则房间脉冲响应将改变。在头戴式装置215渲染用于AR/VR模拟的内容之前，房间脉冲响应可以由用户210生成。用户210可以使用例如移动设备生成测试信号，响应于此，控制器测量脉冲响应。或者，用户210可以生成脉冲噪声，例如拍手，以生成控制器测量的脉冲信号。在另一个实施例中，头戴式装置215可以包括图像传感器(例如相机)，以记录与环境200相关联的图像和深度数据。控制器可以使用传感器数据和机器学习来模拟环境200的尺寸、布局和参数。因此，控制器可以学习环境200的声学特性，从而获得脉冲响应。控制器使用房间脉冲响应来定义原始响应，其表征在音频内容调整之前环境200的声学特性。在2018年11月5日提交的第16/180,165号美国专利申请中更详细地描述了估计房间的声学特性，该美国专利申请通过引用以其整体并入本文。

在另一个实施例中，控制器可以向映射服务器提供由头戴式装置215检测到的视觉信息，其中视觉信息描述环境200的至少一部分。映射服务器可以包括环境及其相关联的声学特性的数据库，并且可以基于接收到的视觉信息来确定与环境200相关联的一组声学特性。在另一个实施例中，控制器可以向映射服务器查询位置信息，响应于此，映射服务器可以检索与位置信息相关联的环境的声学特性。关于图5更详细地论述了在人工现实系统环境中映射服务器的使用。

用户210可以指定用于渲染声音的目标人工现实环境。例如，用户210可以通过移动设备上的应用来选择目标环境。在另一个实施例中，头戴式装置215可以被预先编程以渲染一组目标环境。在另一个实施例中，头戴式装置215可以连接到映射服务器，该映射服务器包括列出可用目标环境和相关联的目标声学特性的数据库。该数据库可以包括目标环境的实时模拟、关于目标环境中测量到的脉冲响应的数据或算法混响方法。

头戴式装置215的控制器使用目标环境的声学特性来确定目标响应，随后比较目标响应和原始响应来确定传递函数。原始响应表征用户当前环境的声学特性，而目标响应表征目标环境的声学特性。声学特性包括环境中来自不同方向的反射(具有特定的时序和幅度)。控制器使用当前环境中的反射和目标环境中的反射之间的差异来生成差异反射模式(pattern)，其特征在于传递函数。根据传递函数，控制器可以确定将环境200中产生的声音转换成在目标环境中感知的声音所需的头部相关传递函数(HRTF)。HRTF表征用户的耳朵如何接收来自空间中的点的声音，并根据用户当前的头部位置而变化。控制器应用对应于反射方向的在反射的时序和幅度下的HRTF，以生成对应的目标反射。控制器对所有差异反射实时重复该过程，使得用户将声音感知为好像它是在目标环境中产生的一样。在2019年4月22日提交的第16/390,918号美国专利申请中详细描述了HRTF，该美国专利申请通过引用以其整体并入本文。

在佩戴头戴式装置215之后，用户210可以产生由头戴式装置215上的传感器检测到的一些音频内容。例如，用户210可以在物理上位于环境200中的地面上跺脚。用户210选择目标环境，例如由图2B描绘的室内网球场，控制器为其确定目标响应。控制器210确定指定的目标环境的传递函数。头戴式装置215的控制器实时地将传递函数与环境200内产生的声音(例如用户210的脚的跺脚)进行卷积。卷积基于目标声学特性调整音频内容的声学特性，从而产生调整后的音频内容。头戴式装置215的扬声器向用户呈现调整后的音频内容，该内容现在包括目标声学特性中的一个或更多个声学特性。环境200中不具有目标环境中的特征的环境声音被抑制，因此用户210不会感知到它们。例如，经由调整后的声场350呈现的调整后的音频内容中不会出现声场205中的狗吠声。用户210会感知到他们跺脚的声音，就好像他们在室内网球场的目标环境中一样，该目标环境可能不包括狗吠。

图3是根据一个或更多个实施例的示例音频系统的框图。音频系统300可以是向用户提供音频内容的头戴式装置(例如，头戴式装置100)的部件。音频系统300包括传感器阵列310、扬声器阵列320和控制器330(例如，控制器170)。图1-2中描述的音频系统是音频系统300的实施例。音频系统300的一些实施例包括除了本文描述的那些部件之外的其他部件。类似地，部件的功能分布可以与本文描述的不同。例如，在一个实施例中，控制器330可以在头戴式装置的外部，而不是嵌入头戴式装置内。

传感器阵列310检测来自环境内的音频内容。传感器阵列310包括多个传感器，例如传感器140A和140B。传感器可以是声学传感器(例如麦克风、振动传感器、加速度计或其任意组合)，其被配置为检测声压波。传感器阵列410被配置为监测环境内的声场(例如房间200中的声场205)。在一个实施例中，传感器阵列310将检测到的声压波转换成电格式(模拟或数字)，然后传感器阵列将其发送到控制器330。传感器阵列310检测用户生成的声音(例如用户说话、唱歌或演奏乐器)，以及环境声音(例如风扇运转、滴水或狗吠)。传感器阵列310通过跟踪声源来区分用户生成的声音和环境噪声，并相应地将音频内容存储在控制器330的数据储存器340中。传感器阵列310可以通过到达方向(DOA)分析、视频跟踪、计算机视觉或其任意组合来执行环境内音频内容源的位置跟踪。传感器阵列310可以使用波束成形技术来检测音频内容。在一些实施例中，传感器阵列310包括传感器，该传感器不同于用于检测声压波的那些传感器。例如，传感器阵列310可以包括图像传感器、惯性测量单元(IMU)、陀螺仪、位置传感器或其组合。图像传感器可以是相机，该相机被配置为执行视频跟踪和/或与控制器330通信用于计算机视觉。在2019年4月9日提交的第16/379,450号美国专利申请和2018年6月22日提交的第16/016,156号美国专利申请中更详细描述了波束成形和DOA分析，这两个美国专利申请通过引用以其整体并入本文。

扬声器阵列320向用户呈现音频内容。扬声器阵列320包括多个扬声器，例如图1中的扬声器120A、120B、120C。扬声器阵列320中的扬声器是将声压波传送到佩戴头戴式装置的用户的耳朵的换能器。换能器可以通过空气传导传送音频内容，其中空气传播的声压波到达用户耳朵的耳蜗，并被用户感知为声音。换能器还可以通过组织传导(例如骨传导、软骨传导或它们的某种组合)来传送音频内容。扬声器阵列320中的扬声器可以被配置为在整个频率范围内向用户提供声音。例如，整个频率范围是20Hz到20kHz，一般是在人类听觉的平均范围左右。扬声器被配置为在各种频率范围内传送音频内容。在一个实施例中，扬声器阵列320中的每个扬声器在整个频率范围内操作。在另一个实施例中，一个或更多个扬声器在低子范围(例如，20Hz到500Hz)内操作，而第二组扬声器在高子范围(例如，500Hz到20kHz)内操作。扬声器的子范围可以与一个或更多个其他子范围部分重叠。

控制器330控制音频系统300的操作。控制器330基本上类似于控制器170。在一些实施例中，控制器330被配置成调整由传感器阵列310检测到的音频内容，并指示扬声器阵列320呈现调整后的音频内容。控制器330包括数据储存器340、响应模块350和声音调整模块370。控制器330可以向映射服务器查询用户当前环境的声学特性和/或目标环境的声学特性，这将关于图5进一步描述。在一些实施例中，控制器330可以位于头戴式装置内部。控制器330的一些实施例具有与本文描述的那些部件不同的部件。类似地，功能可以以与本文描述的方式不同的方式在部件之间分布。例如，控制器330的一些功能可以在头戴式装置外部执行。

数据储存器340存储供音频系统300使用的数据。数据储存器340中的数据可以包括用户可以选择的多个目标环境、与目标环境相关联的声学特性组、用户选择的目标环境、在用户当前环境中测量的脉冲响应、头部相关的传递函数(HRTF)、声音滤波器、以及与音频系统300使用相关的其他数据、或者它们的任意组合。

响应模块350基于环境的声学特性确定脉冲响应和传递函数。响应模块350通过估计对脉冲声音的脉冲响应来确定表征用户当前环境(例如，环境200)的声学特性的原始响应。例如，响应模块350可以使用对用户所在房间中的单次鼓声的脉冲响应来确定房间的声学参数。脉冲响应与声源的第一位置相关联，该第一位置可以由如上所述的传感器阵列310通过DOA和波束成形分析来确定。脉冲响应可能随着声源和声源位置的改变而改变。例如，用户所在房间的声学特性在中央和在外围可能不同。响应模块350从数据储存器340访问目标环境选项及其目标响应的列表，该列表表征了它们的相关联的声学特性。随后，响应模块350确定与原始响应相比表征目标响应的传递函数。原始响应、目标响应和传递函数都存储在数据储存器340中。传递函数对于特定声源、该声源的位置、用户和目标环境可能是唯一的。

声音调整模块370根据传递函数调整声音，并指示扬声器阵列320相应地播放调整后的声音。声音调整模块370将存储在数据储存器340中的特定目标环境的传递函数与传感器阵列310检测到的音频内容进行卷积。卷积导致基于目标环境的声学特性对检测到的音频内容进行调整，其中调整后的音频内容具有至少一些目标声学特性。卷积的音频内容存储在数据储存器340中。在一些实施例中，声音调整模块370部分基于卷积的音频内容生成声音滤波器，然后指示扬声器阵列320相应地呈现调整后的音频内容。在一些实施例中，声音调整模块370在生成声音滤波器时考虑目标环境。例如，在除了用户生成的声音之外的所有其他声源都是安静的目标环境中，例如教室，声音滤波器可以衰减环境声压波，同时放大用户生成的声音。在嘈杂的目标环境(例如繁忙的街道)中，声音滤波器可以放大和/或增强与繁忙的街道的声学特性相匹配的声压波。在其他实施例中，声音滤波器可以通过低通滤波器、高通滤波器和带通滤波器以特定频率范围为目标。或者，声音滤波器可以增强检测到的音频内容，以反映目标环境中的音频内容。生成的声音滤波器存储在数据储存器340中。

图4是根据一个或更多个实施例的渲染目标环境的音频内容的过程400。音频系统(诸如音频系统300)执行该过程。图4的过程400可以由装置的部件(例如图3的音频系统300)来执行。在其他实施例中，其他实体(例如，图1的头戴式装置100的部件和/或图5所示的部件)可以执行该过程的一些或所有步骤。同样，实施例可以包括不同的和/或附加的步骤，或者以不同的顺序执行这些步骤。

音频系统分析410环境(例如用户所在的房间)的一组声学特性。如上所述，关于图1-图3，环境具有与该环境相关联的一组声学特性。音频系统通过估计环境中用户在环境中的位置处的脉冲响应来识别声学特性。音频系统可以通过使用移动设备生成的音频测试信号或用户生成的脉冲音频信号(例如拍手)运行受控测量来估计用户当前环境中的脉冲响应。例如，在一个实施例中，音频系统可以使用房间混响时间的测量来估计脉冲响应。或者，音频系统可以使用传感器数据和机器学习来确定房间参数并相应地确定脉冲响应。用户当前环境中的脉冲响应被存储为原始响应。

音频系统从用户接收420对目标环境的选择。音频系统可以向用户呈现可用目标环境选项的数据库，从而允许用户选择特定的房间、大厅、体育场等。在一个实施例中，目标环境可以由游戏引擎根据游戏场景(例如用户进入带有大理石地板的大的安静的教堂)来确定。每个目标环境选项与一组目标声学特性相关联，该一组目标声学特性还可以与可用目标环境选项的数据库一起存储。例如，带有大理石地板的安静教堂的目标声学特性可能包括回声。音频系统通过确定目标响应来表征目标声学特性。

音频系统从用户的环境接收430音频内容。音频内容可以由音频系统的用户或环境中的环境噪声生成。音频系统中的传感器阵列检测声音。如上所述，一个或更多个关注源(例如用户的嘴、乐器等)可以使用DOA估计、视频跟踪、波束成形等进行跟踪。

音频系统通过将用户当前环境的声学特性与目标环境的声学特性进行比较来确定440传递函数。当前环境的声学特性由原始响应表征，而目标环境的声学特性由目标响应表征。可以使用实时模拟、测量到的响应的数据库或算法混响方法生成传递函数。因此，音频系统基于目标环境的目标声学特性来调整450检测到的音频内容。在一个实施例中，如图3所述，音频系统将传递函数与音频内容进行卷积，以生成卷积的音频信号。音频系统可以利用声音滤波器来放大、衰减或增强检测到的声音。

音频系统呈现460调整后的音频内容，并通过扬声器阵列将其呈现给用户。调整后的音频内容具有至少一些目标声学特性，使得用户将声音感知为好像它们位于目标环境中一样。

人工现实系统的示例

图5是根据一个或更多个实施例的示例人工现实系统500的框图。人工现实系统500向用户呈现人工现实环境，例如虚拟现实、增强现实、混合现实环境或其某种组合。系统500包括近眼显示器(NED)505和输入/输出(I/O)接口555，两者都耦合到控制台510，近眼显示器(NED)505可以包括头戴式装置和/或头戴式显示器(HMD)。系统500还包括耦合到网络575的映射服务器570。网络575耦合到NED 505和控制台510。NED 505可以是头戴式装置100的实施例。尽管图5示出了具有一个NED、一个控制台和一个I/O接口的示例系统，但在其他实施例中，系统500中可以包括任意数量的这些部件。

NED 505向用户呈现内容，该内容包括具有计算机生成的元素(例如，二维(2D)或三维(3D)图像、2D或3D视频、声音等)的物理、真实世界环境的增强视图。NED 505可以是眼镜设备或头戴式显示器。在一些实施例中，呈现的内容包括经由音频系统300呈现的音频内容，该音频系统300从NED 505、控制台610或两者接收音频信息(例如，音频信号)，并且基于音频信息呈现音频内容。NED 505向用户呈现人工现实内容。NED包括音频系统300、深度相机组件(DCA)530、电子显示器535、光学块540、一个或更多个位置传感器545和惯性测量单元(IMU)550。位置传感器545和IMU 550是传感器140A-140B的实施例。在一些实施例中，NED505包括不同于本文描述的那些部件的部件。此外，各种部件的功能分布可能与本文描述的内容不同。

音频系统300向NED 505的用户提供音频内容。如上所述，参考图1-4，音频系统300为目标人工现实环境渲染音频内容。传感器阵列310捕获音频内容，控制器330针对环境的声学特性对该音频内容进行分析。使用环境的声学特性和目标环境的一组目标声学特性，控制器330确定传递函数。传递函数与检测到的音频内容卷积，导致调整后的音频内容具有目标环境的至少一些声学特性。扬声器阵列320向用户呈现调整后的音频内容，呈现声音，就好像它正在目标环境中传送一样。

DCA 530捕获数据，该数据描述NED 505中的一些或全部的周围的局部环境的深度信息。DCA 530可以包括光发生器(例如，结构化光和/或用于飞行时间的闪光)、成像装置和可以耦合到光发生器和成像装置两者的DCA控制器。光发生器例如根据由DCA控制器生成的发射指令用照明光照射局部区域。DCA控制器被配置为基于发射指令来控制光发生器的特定部件的操作，例如，以调整照射局部区域的照明光的强度和图案。在一些实施例中，照明光可以包括结构化光图案，例如点图案、线图案等。成像设备捕获用照明光照射的局部区域中的一个或更多个物体的一个或更多个图像。DCA 530可以使用由成像设备捕获的数据来计算深度信息，或者DCA 530可以将该信息发送到另一设备(例如控制台510)，该另一设备可以使用来自DCA 530的数据来确定深度信息。

在一些实施例中，音频系统300可以利用从DCA 530获得的深度信息。音频系统300可以使用深度信息来识别一个或更多个潜在声源的方向、一个或更多个声源的深度、一个或更多个声源的移动、一个或更多个声源周围的声音活动、或其任何组合。在一些实施例中，音频系统300可以使用来自DCA 530的深度信息来确定用户的环境的声学参数。

电子显示器535根据从控制台510接收的数据来向用户显示2D或3D图像。在各种实施例中，电子显示器535包括单个电子显示器或多个电子显示器(例如，针对用户的每只眼睛的显示器)。电子显示器535的示例包括：液晶显示器(LCD)、有机发光二极管(OLED)显示器、有源矩阵有机发光二极管显示器(AMOLED)、波导显示器、某种其他显示器或它们的某种组合。在一些实施例中，电子显示器545显示与音频系统300呈现的音频内容相关联的视觉内容。当音频系统300呈现被调整为声音的音频内容就好像它在目标环境中被呈现一样时，电子显示器535可以向用户呈现描绘目标环境的视觉内容。

在一些实施例中，光学块540放大从电子显示器535接收到的图像光，校正与图像光相关联的光学误差，并将校正的图像光呈现给NED 505的用户。在各种实施例中，光学块540包括一个或更多个光学元件。光学块540中包括的示例光学元件包括：波导、光圈、菲涅尔透镜(Fresnel lens)、凸透镜、凹透镜、滤光器、反射表面或影响图像光的任何其他合适的光学元件。此外，光学块540可以包括不同光学元件的组合。在一些实施例中，光学块540中的一个或更多个光学元件可以具有一个或更多个涂层，例如部分反射涂层或抗反射涂层。

光学块540对图像光的放大和聚焦允许电子显示器535比更大的显示器物理上更小、重量更轻并且消耗更少的功率。此外，放大可以增大电子显示器535所呈现的内容的视场。例如，显示的内容的视场使得显示的内容使用用户的几乎所有视场(例如，约110度对角线)，并且在某些情况下，使用用户的所有视场来呈现。此外在一些实施例中，可以通过添加或移除光学元件来调整放大量。

在一些实施例中，光学块540可以被设计成校正一种或更多种类型的光学误差。光学误差的示例包括桶形或枕形失真、纵向色差或横向色差。其他类型的光学误差还可以包括球面像差、色差(chromatic aberrations)或由于透镜像场弯曲(lens fieldcurvature)、散光或任何其他类型的光学误差引起的误差。在一些实施例中，被提供给电子显示器535用于显示的内容被预失真，并且当光学块540从电子显示器535接收基于内容生成的图像光时，光学块540校正失真。

IMU 550是电子设备，其基于从一个或更多个位置传感器545接收的测量信号生成指示头戴式装置505的位置的数据。位置传感器545响应于头戴式装置505的运动而生成一个或更多个测量信号。位置传感器545的示例包括：一个或更多个加速度计、一个或更多个陀螺仪、一个或更多个磁力计、检测运动的另一种合适类型的传感器、用于IMU 550的误差校正的一类传感器或者其某种组合。位置传感器545可以位于IMU 550的外部、IMU 550的内部或者这两种位置的某种组合。在一个或更多个实施例中，IMU 550和/或位置传感器545可以是传感器阵列420中的传感器，其被配置为捕获关于由音频系统300呈现的音频内容的数据。

基于来自一个或更多个位置传感器545的一个或更多个测量信号，IMU 550生成指示相对于NED 505的初始位置的NED 505的估计的当前位置的数据。例如，位置传感器545包括用于测量平移运动(向前/向后、向上/向下、向左/向右)的多个加速度计和用于测量旋转运动(例如，俯仰、偏航和横滚)的多个陀螺仪。在一些实施例中，IMU 550对测量信号进行快速采样，并根据所采样的数据来计算NED 505的估计的当前位置。例如，IMU 550对从加速度计接收到的测量信号在时间上求积分以估计速度矢量，并对速度矢量在时间上求积分以确定在NED 505上的参考点的估计的当前位置。替代地，IMU 550向控制台510提供采样的测量信号，控制台510对数据进行解析以减少误差。参考点是可以用来描述NED 505的位置的点。参考点通常可以定义为空间中的点或与眼镜装置505的定向和位置相关的位置。

I/O接口555是允许用户发送动作请求并从控制台510接收响应的设备。动作请求是执行特定动作的请求。例如，动作请求可以是开始或结束捕获图像或视频数据的指令，或者是在应用内执行特定动作的指令。I/O接口555可以包括一个或更多个输入设备。示例输入设备包括：键盘、鼠标、手控制器或用于接收动作请求并将动作请求传送到控制台510的任何其他合适的设备。由I/O接口555接收的动作请求被传送到控制台510，控制台510执行对应于动作请求的动作。在一些实施例中，I/O接口515包括IMU 550，如上文进一步描述的，其捕获指示相对于I/O接口555的初始位置的I/O接口555的估计的位置的校准数据。在一些实施例中，I/O接口555可以根据从控制台510接收的指令来向用户提供触觉反馈。例如，当动作请求被接收到时，或者当控制台510向I/O接口555传送指令使I/O接口555在控制台510执行动作时生成触觉反馈时，触觉反馈被提供。I/O接口555可以监测来自用户的一个或更多个输入响应以用于确定音频内容的感知源方向和/或感知源位置。

控制台510向NED 505提供内容以根据从以下一项或更多项接收的信息进行处理：NED 505和I/O接口555。在图5所示的示例中，控制台510包括应用储存器520、跟踪模块525和引擎515。控制台510的一些实施例具有与结合图5描述的模块或部件不同的模块或部件。类似地，下面进一步描述的功能可以以不同于结合图5描述的方式分布在控制台510的部件当中。

应用储存器520存储用于由控制台510执行的一个或更多个应用。应用是一组指令，该组指令在由处理器执行时生成用于呈现给用户的内容。由应用生成的内容可以响应于经由NED 505的移动或I/O接口555而从用户接收的输入。应用示例包括：游戏应用、会议应用、视频回放应用或其他合适的应用。

跟踪模块525使用一个或更多个校准参数来校准系统环境500，并且可以调整一个或更多个校准参数以减少NED 505或I/O接口555的位置确定中的误差。由跟踪模块525执行的校准也可以考虑从NED 505中的IMU 550和/或被包括在I/O接口555中的IMU 550接收的信息。此外，如果丢失对NED 505的跟踪，则跟踪模块525可以重新校准系统环境500的一些或全部。

跟踪模块525使用来自一个或更多个位置传感器545、IMU 550、DCA 530或其某种组合的信息来跟踪NED 505或I/O接口555的移动。例如，跟踪模块525基于来自NED 505的信息来确定NED 505的参考点在局部区域的映射中的位置。跟踪模块525也可以分别地使用来自IMU 550的指示NED 505位置的数据或者使用来自包括在I/O接口555中的IMU 550的指示I/O接口555位置的数据来确定NED 505的参考点或者I/O接口555的参考点的位置。此外，在一些实施例中，跟踪模块525可以使用来自IMU 550的指示头戴式装置505的位置的数据的部分来预测NED 505的未来位置。跟踪模块525向引擎515提供NED 505或I/O接口555的估计的或预测的未来位置。在一些实施例中，跟踪模块525可以向音频系统300提供跟踪信息以用于生成声音滤波器。

引擎515还执行系统环境500内的应用，并从跟踪模块525接收NED 505的位置信息、加速度信息、速度信息、所预测的未来位置、或它们的某种组合。基于接收到的信息，引擎515确定要提供给NED 505用于呈现给用户的内容。例如，如果接收到的信息指示用户向左看，则引擎515为NED 505生成内容，该内容反映用户在虚拟环境中或在用附加内容增强局部区域的环境中的移动。另外，引擎515响应于从I/O接口555接收的动作请求来执行在控制台510上执行的应用内的动作，并且向用户提供动作被执行的反馈。所提供的反馈可以是经由NED 505的视觉或听觉反馈或者经由I/O接口555的触觉反馈。

映射服务器570可以向NED 505提供音频和视觉内容以呈现给用户。映射服务器570包括数据库，该数据库存储描述多个环境和这些环境的声学特性(包括多个目标环境及其相关联的声学特性)的虚拟模型。NED 505可以向映射服务器570查询环境的声学特性。映射服务器570经由网络575从NED 505接收描述用户当前所处环境(例如房间)的至少一部分的视觉信息和/或NED 505的位置信息。映射服务器570基于接收到的视觉信息和/或位置信息来确定虚拟模型中与房间的当前配置相关联的位置。映射服务器570部分地基于虚拟模型中的确定的位置和与确定的位置相关联的任何声学参数，来确定(例如，检索)与房间的当前配置相关联的一组声学参数。映射服务器570还可以通过NED 505接收关于用户想要模拟的目标环境的信息。映射服务器570确定(例如，检索)与目标环境相关联的一组声学参数。映射服务器570可以向NED 505(例如，经由网络575)提供关于一组声学参数、关于用户的当前环境和/或目标环境的信息，以用于在NED 505生成音频内容。可替代地，映射服务器570可以使用该一组声学参数生成音频信号，并将该音频信号提供给NED 505用于渲染。在一些实施例中，映射服务器570的一些部件可以与经由有线连接连接到NED 505的另一设备(例如，控制台510)集成。

网络575将NED 505连接到映射服务器570。网络575可以包括使用无线和/或有线通信系统的局域网和/或广域网的任意组合。例如，网络575可以包括互联网以及移动电话网络。在一个实施例中，网络575使用标准通信技术和/或协议。因此，网络575可以包括使用诸如以太网、802.11、全球微波接入互操作性(WiMAX)、2G/3G/4G移动通信协议、数字用户线路(DSL)、异步传输模式(ATM)、无限带宽、PCI Express高级交换等的技术的链路。类似地，网络575上使用的网络协议可以包括多协议标签交换(MPLS)、传输控制协议/互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)、文件传输协议(FTP)等。通过网络575交换的数据可以使用包括二进制形式的图像数据(例如，便携式网络图形(PNG))、超文本标记语言(HTML)、可扩展标记语言(XML)等的技术和/或格式来表示。此外，可以使用例如安全套接字层(SSL)、传输层安全(TLS)、虚拟专用网络(VPN)、互联网协议安全(IPsec)等传统的加密技术对所有或一些链路进行加密。网络575还可以将位于相同或不同房间的多个头戴式装置连接到相同的映射服务器570。在2019年3月27日提交的第16/366,484号美国专利申请中更详细地描述了使用映射服务器和网络来提供音频和视觉内容，该美国专利申请通过申请以其整体并入本文。

附加的配置信息

出于说明的目的，已经呈现了本公开的实施例的前述描述；它并不旨在穷举或将本公开限制于所公开的精确形式。相关领域中的技术人员可以认识到，按照上面的公开，许多修改和变化是可能的。

本描述的一些部分从对信息的操作的算法和符号表示方面描述了本公开的实施例。数据处理领域的技术人员通常使用这些算法描述和表示来向本领域的其他技术人员有效地传达他们工作的实质。这些操作(尽管在功能上、计算上或逻辑上进行了描述)应理解为通过与制造过程相关的计算机程序或等效电路、微代码等来实现。此外，将操作的这些布置称为模块有时候也被证明是方便的而不失一般性。所描述的操作和它们的相关模块可以体现在软件、固件、硬件或它们的任何组合中。

可以利用一个或更多个硬件或软件模块单独地或与其他设备组合地来执行或实现本文描述的任何步骤、操作或过程。在一个实施例中，利用包括包含计算机程序代码的计算机可读介质的计算机程序产品来实现软件模块，该计算机程序代码可以由计算机处理器执行以用于执行(例如关于制造工艺)所描述的步骤、操作或过程中的任一个或全部。

本公开的实施例也可以涉及用于执行本文的操作的装置。该装置可以被特别构造成用于所需的目的，和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这种计算机程序可以存储在非暂时性的、有形的计算机可读储存介质中，或者适合于存储电子指令的任何类型的介质中，其可以耦合到计算机系统总线。此外，说明书中提到的任何计算系统可以包括单个处理器，或者可以是采用多处理器设计以提高计算能力的架构。

最后，在说明书中使用的语言主要为了可读性和指导目的而被选择，并且它可以不被选择来描绘或限制创造性主题。因此，意图是本公开的范围不由该详细描述限制，而是由在基于其的申请上发布的任何权利要求限制。因此，实施例的公开意图对本公开的范围是说明性的，而不是限制性的，在所附权利要求中阐述了本公开的范围。

Claims

1.一种方法，包括：

分析环境中的声音以识别与所述环境相关联的一组声学特性；

接收在所述环境中生成的音频内容；

基于所述一组声学特性与目标环境的一组目标声学特性的比较来确定传递函数；

使用所述传递函数来调整所述音频内容，其中，所述传递函数基于所述目标环境的所述一组目标声学特性来调整所述音频内容的所述一组声学特性；和

向用户呈现所调整的音频内容，其中，所调整的音频内容被用户感知为是在所述目标环境中生成的。

2.根据权利要求1所述的方法，其中，使用所述传递函数调整所述音频内容还包括：

识别所述环境中的环境声音；和

为用户从所调整的音频内容中过滤掉所述环境声音。

3.根据权利要求1所述的方法，还包括：

向用户提供多个目标环境选项，所述多个目标环境选项中的每一个对应于不同的目标环境；和

从用户接收从所述多个目标环境选项中对所述目标环境的选择。

4.根据权利要求3所述的方法，其中，所述多个目标环境选项中的每一个与所述目标环境的不同的一组声学特性相关联。

5.根据权利要求1所述的方法，还包括：

确定表征与所述环境相关联的所述一组声学特性的原始响应；和

确定表征所述目标环境的所述一组目标声学特性的目标响应。

6.根据权利要求5所述的方法，其中，确定所述传递函数还包括：

比较所述原始响应和所述目标响应；和

基于该比较，确定与所述环境相关联的所述一组声学参数和与所述目标环境相关联的所述一组声学参数之间的差异。

7.根据权利要求1所述的方法，还包括：

使用所述传递函数生成声音滤波器，其中，所调整的音频内容部分基于所述声音滤波器。

8.根据权利要求1所述的方法，其中，确定所述传递函数是基于至少一个先前测量的房间脉冲或算法混响来确定的。

9.根据权利要求1所述的方法，其中，调整所述音频内容还包括：

将所述传递函数与所接收的音频内容进行卷积。

10.根据权利要求1所述的方法，其中，所接收的音频内容是由多个用户中的至少一个用户生成的。

11.一种音频系统，包括：

一个或更多个传感器，其被配置为接收环境中的音频内容；

一个或更多个扬声器，其被配置为向用户呈现音频内容；和

控制器，其被配置为：

分析所述环境中的声音以识别与所述环境相关联的一组声学特性；

指示所述扬声器向用户呈现所调整的音频内容，其中，所调整的音频内容被用户感知为是在所述目标环境中生成的。

12.根据权利要求11所述的系统，其中，所述音频系统是头戴式装置的一部分。

13.根据权利要求11所述的系统，其中，调整所述音频内容还包括：

识别所述环境中的环境声音；和

为用户从所调整的音频内容中过滤掉所述环境声音。

14.根据权利要求11所述的系统，其中，所述控制器还被配置为：

15.根据权利要求14所述的系统，其中，所述多个目标环境选项中的每一个与所述目标环境的一组目标声学特性相关联。

16.根据权利要求11所述的系统，其中，所述控制器还被配置为：

17.根据权利要求16所述的系统，其中，所述控制器还被配置为：

估计所述环境的房间脉冲响应，其中，所述房间脉冲响应用于生成所述原始响应。

18.根据权利要求11所述的系统，其中，所述控制器还被配置为：

使用所述传递函数生成声音滤波器；和

部分基于所述声音滤波器来调整所述音频内容。

19.根据权利要求11所述的系统，其中，所述控制器还被配置为：

使用至少一个先前测量的房间脉冲响应或算法混响来确定所述传递函数。

20.根据权利要求11所述的系统，其中，所述控制器被配置为通过将所述传递函数与所接收的音频内容进行卷积来调整所述音频内容。