CN113597777B

CN113597777B - 音频处理

Info

Publication number: CN113597777B
Application number: CN202080019451.3A
Authority: CN
Inventors: C·T·尤班克; J·D·阿特金斯; S·佩尔策; D·施罗德
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2019-05-15
Filing date: 2020-05-09
Publication date: 2023-07-07
Anticipated expiration: 2040-05-09
Also published as: KR20210131422A; GB2596003A; KR102586699B1; GB202112963D0; GB2596003B; US20210329405A1; DE112020002355T5; WO2020231884A1; US11956623B2; CN116828383A; CN113597777A

Abstract

在增强现实环境中处理声音可包括基于物理环境的图像生成该物理环境的声学模型。由麦克风阵列捕获的音频信号可在该物理环境中捕获声音。基于这些音频信号，可生成该物理环境的一个或多个实测声学参数。可使用该物理环境的模型和实测声学参数处理目标音频信号，从而得到具有虚拟声源的多个输出音频信道，该虚拟声源具有虚拟位置。该等输出音频信道可用于驱动多个扬声器。也描述了其他方面并要求对其他方面进行保护。

Description

音频处理

技术领域

本公开的一个方面涉及增强现实环境中的音频处理。

背景技术

可被嵌入消费电子设备(例如，移动电话或平板电脑)中的麦克风阵列能够促成一种用于捕获声音并渲染空间(3D)音效的装置。麦克风捕获的信号可包含有关空间的3D声学信息。3D音频渲染可被描述为音频信号(诸如麦克风信号或其他记录或合成的音频内容)的处理，以便生成由多信道扬声器装置(例如，立体声扬声器、环绕声扬声器、扬声器阵列或耳机)发出的声音。由扬声器发出的声音可被收听者感知为来自特定方向或在三维空间中环绕收听者。例如，此类虚拟声源中的一个或多个虚拟声源可在声音节目中生成，该声音节目将被收听者感知为在收听者后方、上方或下方，或者从收听者的一侧平移到另一侧。

发明内容

描述了用于与各种增强型现实技术相关地使用此类系统的电子系统和技术的各种示例。

物理布景是指各个人可在不使用电子系统的情况下感测和/或交互的世界。物理布景诸如物理公园包括物理元素，诸如物理野生动物、物理树木和物理植物。人们可例如使用一种或多种感觉(包括视觉、嗅觉、触觉、味觉和听觉)直接感测物理布景和/或以其他方式与物理布景进行交互。

与物理布景相比，增强型现实(ER)布景是指各种人通过使用电子系统可感测和/或以其他方式与之交互的完全地(或部分地)计算机生成的布景。在ER中，部分地监视人的移动，并且响应于此，以与一个或多个物理定律一致的方式来改变与ER布景中的至少一个虚拟对象对应的至少一个属性。例如，响应于ER系统检测到人向上看，ER系统可以以与此类声音和外观会在物理布景中改变的方式一致的方式来调整呈现给人的各种音频和图形。也可例如响应于移动的表示(例如，语音命令)而进行对ER布景中的虚拟对象的属性的调整。

人可以利用一种或多种感觉，诸如视觉、嗅觉、味觉、触觉和听觉来感测ER对象和/或与ER对象交互。例如，人可感测创建多维或空间声学布景的对象和/或与其交互。多维或空间声学布景为个人提供了在多维空间中对离散声源的感知。此类对象还可实现声学透明性，该声学透明性可在具有或没有计算机生成的音频的情况下选择性地结合来自物理布景的音频。在某些ER布景中，人可仅感测音频对象和/或仅与其交互。

虚拟现实(VR)是ER的一个示例。VR布景是指被配置为仅包括针对一种或多种感觉的计算机生成的感官输入的增强布景。VR布景包括人可以感测和/或交互的多个虚拟对象。人可通过在计算机生成的布景内模拟人动作中的至少一些动作和/或通过模拟人或其在计算机生成的布景内的存在来感测VR布景中的虚拟对象和/或与其交互。

混合现实(MR)是ER的另一个示例。MR布景是指被配置为将计算机生成的感官输入(例如，虚拟对象)与来自物理布景的感官输入或来自物理布景的感官输入的表示进行集成的增强布景。在现实频谱上，MR布景介于一端处的完全物理布景和另一端处的VR布景之间并且不包括这些布景。

在一些MR布景中，计算机生成的感官输入可基于来自物理布景的感官输入的变化而被调整。另外，用于呈现MR布景的一些电子系统可以检测相对于物理布景的位置和/或取向，以实现真实对象(即来自物理布景的物理元素或其表示)与虚拟对象之间的交互。例如，系统可检测移动并相应地调整计算机生成的感官输入，使得例如虚拟树相对于物理结构看起来是固定的。

增强现实(AR)是MR的示例。AR布景是指一个或多个虚拟对象叠加在物理布景(或其表示)之上的增强布景。例如，电子系统可包括不透明显示器和用于捕获物理布景的视频和/或图像的一个或多个成像传感器。例如，此类视频和/或图像可以是物理布景的表示。视频和/或图像与虚拟对象组合，其中该组合随后被显示在不透明显示器上。物理布景可由人经由物理布景的图像和/或视频间接地查看。因此，人可观察叠加在物理布景上的虚拟对象。当系统捕获物理布景的图像并且使用所捕获的图像在不透明显示器上显示AR布景时，所显示的图像被称为视频透传。另选地，透明或半透明显示器可被包括在用于显示AR布景的电子系统中，使得个体可通过透明或半透明显示器直接查看物理布景。虚拟对象可被显示在半透明或透明显示器上，使得个体观察叠加在物理布景上的虚拟对象。在另一个示例中，可利用投影系统以便将虚拟对象投影到物理布景上。例如，虚拟对象可在物理表面上被投影，或作为全息图，使得个体观察叠加在物理布景之上的虚拟对象。

AR布景也可指其中物理布景的表示被计算机生成的感官数据修改的增强布景。例如，物理布景的表示的至少一部分能够以图形方式修改(例如，放大)，使得所修改的部分仍可表示初始捕获的图像(但不是完全复制的版本)。另选地，在提供视频透传时，可修改一个或多个传感器图像，以便施加与由图像传感器捕获的视点不同的特定视点。再如，物理布景的表示的部分可通过以图形方式将该部分进行模糊处理或消除该部分而被改变。

增强虚拟(AV)是MR的另一个示例。AV布景是指虚拟的或计算机生成的布景结合来自物理布景的一个或多个感官输入的增强布景。此类感官输入可包括物理布景的一个或多个特征的表示。虚拟对象可例如结合与由成像传感器捕获的物理元素相关联的颜色。另选地，虚拟对象可采用与例如对应于物理布景的当前天气状况一致的特征，诸如经由成像识别的天气状况、在线天气信息和/或与天气相关的传感器。又如，AR公园可包括虚拟结构、植物和树木，尽管AR公园布景内的动物可包括从物理动物的图像准确复制的特征。

各种系统允许人们感测ER布景和/或与其交互。例如，头戴式系统可包括一个或多个扬声器和不透明显示器。又如，外部显示器(例如，智能电话)可结合到头戴式系统内。头戴式系统可包括用于捕获物理布景的音频的麦克风和/或用于捕获物理布景的图像/视频的图像传感器。头戴式系统中还可包括透明或半透明显示器。半透明或透明显示器可例如包括基板，(表示图像的)光通过该基板被引导到人的眼睛。显示器还可包含LED、OLED、硅基液晶、激光扫描光源、数字光投影仪或它们的任何组合。光透射穿过的基板可以是光学反射器、全息基板、光波导、光合路器或它们的任何组合。透明或半透明显示器可例如选择性地在透明/半透明状态和不透明状态之间转变。又如，电子系统可以是基于投影的系统。在基于投影的系统中，视网膜投影可用于将图像投影到人的视网膜上。另选地，基于投影的系统还可将虚拟对象投影到物理布景中，例如，诸如将虚拟对象投影为全息图或投影到物理表面上。ER系统的其他示例包括被配置为显示图形的窗口、头戴式耳机、耳机、扬声器布置、被配置为显示图形的透镜、平视显示器、被配置为显示图形的汽车挡风玻璃、输入机构(例如，具有或不具有触觉功能的控制器)、台式或膝上型计算机、平板电脑或智能电话。

在增强现实环境中，位于增强现实环境中的用户可听到与增强现实布景的室内声学匹配的计算机生成的声音。在一个方面，可处理布置在增强现实布景中的虚拟化声源，使得该虚拟化声源听起来好像在类似于增强现实布景的物理布景中那样。在一个方面，可生成增强现实布景以匹配用户的物理环境。可渲染被导入到增强现实环境中的声音，使得它们在增强现实环境中听起来是自然的。

例如，如果两个人在同一物理房间(房间A)中并且第三个人在不同的物理房间中，一种方法或系统可通过将第三个人的语音带到房间A的环境中来生成增强现实体验，其中所有用户听起来好像他们在房间A中一样。这可为用户提供更沉浸、更自然的增强现实体验。然而，在将第三个人的语音渲染成听起来好像他们在房间A中一样时的问题是，渲染应考虑房间A的独特属性，诸如混响、房间尺寸、房间几何结构、房间中的对象、表面的吸声、用于语音再现的指向性图案(指向性)，以及其他房间属性。此外，第三个人位于可具有不同声学属性的不同房间中，这些不同声学属性可在第三个人的语音中听到。

处理第三个人的语音或虚拟声源以匹配增强现实布景可能是有益的。例如，在一个方面，图像可从设备的相机生成。该设备可以是移动设备，诸如平板电脑或智能电话。该设备还可以是头戴式设备。例如，构成此类设备的相机可生成物理布景或环境的图像。可在该等图像中检测到对象检测、房间几何结构估计、房间布局提取和对象对准，以得出包括房间中墙壁和对象位置的房间构造估计，然后建模。

基于该等图像生成的这些信息可与从设备的麦克风获得的房间声学参数的估计值组合。通过使用针对声学模拟优化的房间几何结构(例如，声学上正确的或简化的物理房间构造版本)以及声学参数估计，可以表征物理环境的声学。该表征可被发送到其他应用或用户以进行处理。在这种情况下，被带入虚拟布景的其他用户可体验与增强现实布景的音频匹配的虚拟化音频，增强现实布景的音频继而与例如用户的物理环境的音频匹配。

在一个方面，描述了一种用于在增强现实环境中处理声音的方法。所述方法包括：接收由相机捕获的图像，所述图像示出物理环境；基于所述图像生成所述物理环境的估计模型，其中所述估计模型包括所述物理环境的三维表示；接收由麦克风阵列捕获的音频信号，所述音频信号在所述物理环境中捕获声音；基于所接收的音频信号生成所述物理环境的一个或多个实测声学参数；以及使用所述估计模型和所述实测声学参数处理目标音频信号，从而产生具有虚拟声源的多个输出音频信道，所述虚拟声源具有虚拟位置，所述输出音频信道用于驱动多个扬声器。

在一个方面，所述目标音频信号的处理包括基于所述实测声学参数修改所述估计模型的一个或多个声学表面材料参数，从而得到所述物理环境的更新模型；基于所述更新模型选择或生成一个或多个脉冲响应；以及利用所述一个或多个脉冲响应对所述目标音频信号和目标位置进行卷积以生成所述多个输出音频信道。

在一个方面，描述了一种在增强现实环境中处理音频的制品。所述制品包括：相机，用于捕获物理环境的图像；麦克风阵列，用于在所述物理环境中捕获声音；多个扬声器(例如，耳机)；以及在其中存储有指令的机器可读介质，所述指令在由处理器执行时使得所述制品执行以下操作：基于所述图像生成所述物理环境的估计模型，其中所述估计模型包括所述物理环境的三维表示；接收由所述麦克风阵列捕获的音频信号；基于所接收的音频信号生成所述物理环境的一个或多个实测声学参数；使用所述估计模型和所述实测声学参数处理目标音频信号，从而产生具有虚拟声源的多个输出音频信道，所述虚拟声源具有虚拟位置；以及在虚拟化环境中用所述输出音频信道驱动所述多个扬声器。

以上概述不包括本公开的所有方面的详尽列表。可预期的是，本公开包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在权利要求书部分特别指出的各个方面的所有合适的组合来实践的所有系统和方法。此类组合可具有未在上述发明内容中具体阐述的特定优点。

附图说明

本公开的各方面以举例的方式进行说明，而不仅限于各个附图的图示，在附图中类似的附图标号指示类似的元件。应当指出的是，在本公开中提到“一”或“一个”方面未必是同一方面，并且其意指至少一个。另外，为了简洁以及减少附图的总数，可使用给定附图示出本公开的不止一个方面的特征部，并且对于给定方面，可能并非需要该附图中的所有元件。

图1示出了在一个方面中的一种在增强现实环境中处理声音的方法或设备的流程图。

图2示出了在一个方面中的一种在增强现实环境中处理声音的方法或设备的流程图。

图3示出了在一个方面中的一种在增强现实环境中处理声音的方法或设备的流程图。

图4示出了在一个方面中的一种在增强现实环境中处理声音的方法或设备的流程图。

图5示出了在一个方面中的一种设备和制品。

图6示出了在一个方面中的一种声学参数生成器的流程图。

图7示出了一种具有编程处理器的音频系统的一个示例性实施方式。

具体实施方式

现在将参考所附附图来解释本公开的各方面。每当所描述的部件的形状、相对位置和其它方面未明确限定时，本发明的范围并不仅局限于所示出的部件，所示出的部件仅用于例证的目的。另外，虽然阐述了许多细节，但应当理解，本公开的一些方面可在没有这些细节的情况下被实施。在其他情况下，未详细示出熟知的电路、结构和技术，以免模糊对该描述的理解。

增强现实声音处理

现参考图1，示出了在一个方面中的一种用于在增强现实环境中处理声音的系统、方法或设备10。增强现实环境可包括空间化声音以及，任选地，具有用描绘物理环境的图像渲染的虚拟内容的视觉分量。

相机16生成物理环境的一个或多个场景图像20。估计模型生成器22基于该一个或多个场景图像生成该物理环境的估计模型。该估计模型可包括该物理环境的三维空间表示和该物理环境的一个或多个环境参数。

该一个或多个环境参数可包括房间和检测到的对象的一个或多个声学表面材料参数和/或散射参数。该等环境参数可以是频率相关的，例如，可以估计不同的参数以对应于不同的频率。估计模型可存储在已知数据结构中，例如作为体素网格或网格数据结构。声学表面材料参数可包括取决于表面、对象或房间的材料(例如，表面材料)的吸声参数。表面或对象的散射参数可以是基于表面或对象的尺寸、结构和/或形状或受其影响的几何属性。因此，估计模型可包括物理房间几何结构以及在物理环境中检测到的对象和房间与对象的环境参数。

该估计模型可通过诸如对象识别等计算机视觉技术来生成。受过训练的神经网络可用于识别图像中的对象和材料表面。可用生成二维图像(例如，位图)的2D相机来检测表面。3D相机(例如，具有一个或多个深度传感器)也可以用于生成具有二维参数(例如，位图)和深度参数的三维图像。因此，相机16可以是2D相机或3D相机。模型库可用于定义在场景图像中识别的对象。其他方面也有所描述并受权利要求书保护。

一个或多个麦克风阵列18可捕获音频信号，该等音频信号捕获物理环境中的一个或多个声音。音频信号处理器24可用模数转换器将该等音频信号中的每一个从模拟转换成数字，这在本领域中是已知的。此外，该音频信号处理器可将数字音频信号中的每个数字音频信号从时域转换到频域。实测声学参数生成器26(例如，计算机估计器)可生成物理环境的一个或多个实测声学参数。应当理解，“生成”该等实测声学参数包括估计从麦克风信号提取的物理环境的实测声学参数。

在一个方面，生成一个或多个实测声学参数包括处理音频信号以确定物理环境的混响特性，该混响特性定义环境的一个或多个实测声学参数。在一个方面，该一个或多个实测声学参数可包括以下各项中的一者或多者：混响衰减速率或时间、直接混响比、混响测量结果或其他等效或类似测量结果。在一个方面，物理环境的一个或多个实测声学参数是对应于音频信号的一个或多个频率范围生成的。这样，每个频率范围(例如，频带或频格)可具有对应的参数(例如，混响特性、衰减速率或所提及的其他声学参数)。参数可以是频率相关的。

在一个方面，生成物理环境的一个或多个实测声学参数包括从音频信号中提取直接分量和从音频信号中提取混响分量。受过训练的神经网络可基于所提取的直接分量和所提取的混响分量生成实测声学参数(例如，混响特性)。直接分量可指具有单一声源的声场，该单一声源具有单一方向或高方向性，例如，没有任何混响声音。混响分量可指几何结构对声音的次要效应，例如，当声能从表面反射并引起混响和/或回声时。

应当理解，直接分量可包含一些漫射声音，并且漫射分量可包含一些方向，因为将这两者完全分开可能是不切实际的和/或不可行的。因此，混响分量可主要包含混响声音，其中方向分量已基本上被尽可能地或实际地移除。类似地，直接分量可主要包含定向声音，其中混响分量已基本上被尽可能地或实际地移除。

在一个方面，图6示出了实测声学参数生成器26可包括混响提取器310，该混响提取器从输入音频信号中移除混响分量以提取直接分量。输入音频信号可由物理环境中的麦克风生成，并且被处理成频域音频信号。提取器可从音频信号中移除混响分量，从而输出直接分量。可通过减法器311从输入音频信号中减去直接分量以提取混响分量。与输入音频信号类似，直接分量和混响分量也可在频域中。这些可作为输入馈送到受过训练的神经网络312(例如，卷积神经网络)，然后该神经网络可基于直接分量和混响分量生成实测声学参数。这样，该等实测声学参数可基于由物理环境中的麦克风生成的音频信号来生成，并且被馈送到增强现实音频处理器中，以在增强现实环境中从空间上处理目标声音信号。在一个方面，混响提取器可包括多信道混响器，其对每个输入的经处理的音频信号执行线性混响以输出经混响的直接分量。在一个方面，混响提取器可包括参数多信道维纳滤波器(PMWF)，其将滤波器参数应用于输入信号并输出经混响和去噪的直接分量。在一个方面，混响提取器可包括多信道去混响器和PMWF两者。

重新参考图1，增强现实音频处理器30可使用估计模型和实测声学参数处理目标音频信号34，并且生成具有虚拟声源的输出音频信道。该虚拟声源可具有位于增强现实环境内的虚拟位置。输出音频信道可用于驱动扬声器32(例如，耳机的扬声器)。目标音频信号可以是任何声音，例如，人语、车声、鸟鸣等。

在一个方面，增强现实音频处理器对目标音频信号的处理包括基于实测声学参数修改和/或生成估计模型的一个或多个声学表面材料参数和/或散射参数，从而得到物理环境的更新模型。这样，基于图像的估计模型还可具有被优化(例如，增大或减小)的声学表面材料参数(例如，吸声、散射或声音减小参数)，以更紧密地匹配物理环境的实测声学参数。例如，该处理可包括基于将估计模型的估计或模拟声学响应与环境的实测声学参数进行比较，通过增加或减少一个或多个声学表面材料参数来修改估计模型的声学表面材料参数。因此，该方法可基于来自物理环境中的音频信号的输入来优化或调谐模型的声学参数(例如，模型中的对象的散射特性/参数、吸声系数和/或声音降低参数)。

在一个方面，目标音频信号的处理包括增强现实环境的基于波的声学建模。利用基于波的方法，增强现实环境的动态响应变量可被生成为波函数。加权残差方案可用于将边界残差强制为零以产生波模型。诸如有限元方法和边界元素方法等基于常规元素的模型近似于形状函数以描述动态响应变量，与此类模型不同的是，基于波的模型较小，可以改善计算效率。在一个方面，基于波的建模包括为环境选择波函数、生成环境的边界条件和连续性条件的残余权重，以及从波函数生成声压场和/或其他声学参数。

在另一方面，目标音频信号的处理包括基于增强现实环境的声学建模的几何声学技术。在几何声学的一个方面，由声源发射的声功率可能具有可被视为能量指示器的多条射线。这些射线可被建模为以声速行进穿过空间，并且在与房间边界碰撞之后被反射。这些射线的初始能量可由发射声源的指向性模型加权，或者在另一方面，这些射线的浓度可基于发射声源的指向性模型分布。每条射线的能量由于空气和在射线行进路径中与射线碰撞的墙壁的吸声而降低。

在一个方面，处理器可基于更新模型来选择或生成一个或多个脉冲响应，并且将目标音频信号和目标位置与该一个或多个脉冲响应进行卷积以生成多个输出音频信道。在一个方面，该一个或多个脉冲响应包括双耳房间脉冲响应(BRIR)的左分量和右分量。然后可以用BRIR处理目标音频信号，使得当输出音频驱动头戴式耳机的左扬声器和右扬声器时，声音将听起来是从增强现实环境中的目标位置发出的。

场景图像的捕获和处理与音频信号的捕获和处理可在同一物理环境中同时发生。然而，如果没有检测到声音存在，则声学参数生成器可以调用先前生成的声学/环境参数。系统可基于对图像、GPS坐标、可用Wi-Fi网络或可识别物理环境的其他技术的分析来查找先前在相同或类似物理环境中生成的声学/环境参数。可基于所检测到的物理环境的图像与先前物理环境(例如，存储为模型或图像)之间的相似性来选择先前生成/估计的声学/环境参数。因此，通过访问先前生成的对应于当前物理环境的已存储声学/环境参数，即使当前不存在声音，系统也可以有利地提供声学/环境参数。

在一个方面，输出音频信道与在图像上渲染的虚拟视觉对象同步驱动扬声器，并且虚拟声源的虚拟位置对应于在虚拟化环境中的图像上渲染的虚拟视觉对象的视觉位置。

在一个方面，可用图像渲染虚拟视觉对象，以生成以数据编码的虚拟视觉环境；并且可用该虚拟视觉环境的数据来驱动显示器。诸如平板电脑或智能电话等设备可具有多个相机和显示器，该多个相机布置在前面和后面。因此，在一些情况下，前向相机可生成正说话的用户的视频，而后向相机可生成该用户所处物理环境的视频。

例如，可将一个房间中的用户的语音渲染为在增强现实环境中具有虚拟位置的虚拟声源，其中该增强现实环境基于不同的房间。可在该增强现实环境中渲染虚拟视觉对象，例如该用户的动画或图像/视频。该用户的动画(例如，视频动画)可与语音同步。该增强现实环境中的其他用户将感知到该用户处于增强现实环境中。如果用户语音的处理基于其他用户的物理环境的模型，则用户语音可能听起来好像该用户与其他用户在同一环境中一样。

在一个方面，当多个参与者在该增强现实环境中交谈时，一些参与者可在同一房间中(例如，房间A中的参与者1和2)，并且其他参与者可在不同房间中(例如，房间B中的参与者3和房间C中的参与者4)。这些参与者可选择在哪个房间中交谈。假设他们选择在房间A中交谈，则可处理参与者3和参与者4的语音以提取其相应语音信号中的每个语音信号的直接分量。同时，房间A中的参与者1和2可利用带有相机和麦克风的设备来生成房间A的估计模型(例如，房间的布局)，该估计模型利用房间A的实测声学参数予以优化。房间A的估计模型可在所有参与者之间共享。空间音频引擎可处理参与者3和4的语音信号，并且使用房间A的估计模型将它们空间化到增强现实环境中。在一个方面，可处理所有参与者的语音(例如，参与者1、2、3和4)，使得直接分量被提取(例如，通过去除混响和/或漫射声音)。每个参与者的语音的直接分量可与要在增强现实环境中渲染的其他参与者共享。

因此，基于本公开的一些方面，会议或群聊中的参与者可感觉到他们已被运输到其他参与者的环境(例如，房间A)中，因为他们可听到他们自己的、已用其他参与者的房间声学处理的语音。通过仅将参与者的语音的直接分量共享给其他参与者，空间音频引擎可使其听起来好像每个人都在同一房间中，而一些参与者的语音不受其自身房间声学的影响。

具有对象检测的物理环境的估计模型

现参考图2，示出了在一个方面中的一种用于在增强现实环境中处理声音的系统和过程100。由相机生成的场景图像104可示出物理环境的图像。

在对象检测模块108中，可处理图像以识别图像中的对象(例如，利用已知的计算机视觉算法，该等算法使用受过训练的神经网络来将对象识别为对应于模型库102中的对象模型)。在对象对准模块114中，可以执行对象模型在物理环境的估计模型中的定位和取向，从而生成物理环境和物理环境内的对象的代表性模型。对象模型可具有限定对象模型的三维形状的三维参数，以及限定对象的声学响应的声学元数据。声学元数据可包括可定义对象和/或其子表面的声学特性的吸声、声音降低和/或散射参数。

在一个方面，模块110执行房间几何结构估计。该模块估计物理环境的尺寸、形状和/或容积，例如，如果物理环境是房间，则可估计房间的尺寸、形状和/或容积。房间几何结构估计可包括对图像的区域进行分类，并且基于所分类的区域，房间布局提取模块112可生成物理环境的几何结构，包括以下各项中的一者或多者：墙壁的尺寸或取向、天花板的尺寸或取向、地板的尺寸或取向、房间的高度、宽度或长度、或房间的容积。如果物理环境仅部分封闭或完全打开，则可生成具有一面或多面墙壁、天花板和地板、和/或局部墙壁、天花板和地板的模型，以准确地反映物理环境。

在模块106中，材料估计器可估计房间和房间中的对象的声学表面材料特性，该等声学表面材料特性促成估计模型的声学表面材料参数。在一个方面，房间的声学表面材料特性可包括例如声音阻尼参数、吸声参数、散射参数和/或声音降低参数。在一个方面，房间布局的每个表面(例如，墙壁、天花板和/或地板)可具有一个或多个参数。例如，墙壁中的一面墙(或墙壁的一部分)可具有与高声音阻尼相关联的颜色或纹理。因此，材料估计器可为该面墙壁或墙壁的一部分分配对应的声学表面材料特性，该声学表面材料特性可大于或小于房间模型中的其他表面。在一个方面，材料估计器可为在对象检测模块108中检测到的对象中的每一个生成类似参数。

在模块116中，房间构造估计可生成物理环境的估计模型，该估计模型具有房间布局、房间中对准的对象以及与房间布局相关联(例如，墙壁、天花板和/或地板的布局)和/或与对象相关联的声学表面材料参数。

在一个方面，声学模块120的几何结构简化可以包括利用几何结构简化算法简化估计模型的一个或多个对象模型的几何结构，以获得相对于声学的物理模型。例如，几何结构简化算法可以减少对象模型的表面、边缘或环的总数。因此，可将带有详细雕刻的咖啡台的模型简化成具有极的矩形或平面(表示具有支腿的表面)，或者可将带有手柄的咖啡马克杯简化成圆柱体。这样，目标音频信号的处理可有利地基于具有简化几何结构的估计模型来执行，该估计模型是正确的声学模型。这可改善处理效率并减少可能因对象几何结构中的太多细节而错误造成的不利伪影。

在一个方面，几何结构简化算法包括确定是否从估计模型中移除对象模型，以进一步简化估计模型的总体几何结构。该确定可基于例如对象的波长(例如，虚拟声源的波长)和尺寸，和/或对象模型相对于目标音频信号的目标位置的位置。在一个方面，如果对象模型在虚拟声源的虚拟位置的阈值距离之外，则移除对象。否则，当在增强现实环境中渲染目标音频信号(例如，作为虚拟位置中的虚拟声源)时，对象可能导致不利伪影或阻挡声音。

在一个方面，几何结构简化算法随着目标位置与对象模型之间的距离增大而更积极地简化对象模型的几何结构，并且随着目标位置与对象模型之间的距离减小而更不积极地简化对象模型的几何结构。更积极的简化可意味着所简化的对象具有数量减少的表面和/或顶点。

在模块124处，接收经处理的音频信号103，并且基于该等音频信号生成物理环境的一个或多个实测声学参数，其细节将参考图1进行讨论。

在模块122处，声学材料优化器可基于该等实测声学参数修改估计模型119的一个或多个声学表面材料参数，从而得到物理环境的更新模型123。在一个方面，已在模块120处简化了估计模型。在另一方面，简化模块被移除，并且声学材料优化器122可以在估计模型尚未被简化的情况下修改估计模型的一个或多个声学表面材料参数。关于是否简化几何结构的决定可基于多个因素来确定，例如，取决于对象形状的复杂性、简化所需的处理量、输出音频的帧速率或对目标声音信号126执行的声音模拟的类型。例如，如果采用基于波的建模，则可移除简化过程。如果采用几何声学算法，则可简化模型以移除可导致错误的细节。

在模块118处，具有声音模拟器的空间引擎可基于更新模型123选择或生成一个或多个脉冲响应，并且将目标音频信号126和目标位置与该一个或多个脉冲响应进行卷积以生成多个输出音频信道。输出信道可用于驱动扬声器。

在一个方面，在物理环境中不存在声音时，或者在声音似乎失真的情况下，模块118可使用估计模型121，无需来自声学材料优化器122的修改。这样，该系统和方法可通过以下方式改善房间模型的准确性：利用在物理环境中有声音时的实测音频信号来优化表面声学参数，但是当物理环境中不存在声音时，则房间模型依赖于图像的处理和声学表面参数的估计(例如，模块106、108、114、110、112、116和120)。

目标音频信号可包含例如用户的语音。在这种情况下，用户的语音可在增强现实环境中的目标位置处具有虚拟位置，使得收听者将用户的语音感知为从增强现实中的目标位置发出。

基于表面的模型生成器

现参考图3，示出了在一个方面中的一种用于在增强现实环境中处理声音的系统和过程200。该系统和过程类似于图2，但不同之处在于几何结构估计模块202通过将图像的区域分类为三维空间中的表面和形状来执行。换句话讲，可在不试图对图像中的对象进行分类的情况下处理图像，因为对象可能与数据库中的已知对象相关。相反，更一般地处理图像以识别图像中的表面和形状，然后在模块116中使用这些表面和形状来生成物理环境的估计模型，该估计模型具有房间布局以及房间中的表面和形状。图像处理可包括边缘检测、语义分割、实例分割，以及可利用一个或多个神经网络将图像的区域分类为表面和形状的其他计算机视觉技术。类似于图2，图3的材料估计器106可估计房间模型的表面的声学表面材料特性，差异在于估计模型将不具有放置在其中的对象模型。已相对于图1和/或图2描述了图3所示的其余特征。

用于处理声音的方法

图4示出了根据一个示例性方面的用于在增强现实环境中处理声音的流程图。以下方面可被描述为过程300，该过程通常被描绘为流程图、流程框图、结构图或框图。虽然流程图可将操作描述为顺序的过程，但是这些操作中的多个操作可并行执行或同时执行。此外，操作的顺序可被重新排列。过程在其操作被完成时终止。过程可对应于方法、程序等。过程300可由包括硬件(例如电路、专用逻辑等)、软件(例如实现在非暂态计算机可读介质上)或它们两者的组合的处理逻辑来执行。

在模块220中，该过程可接收由相机捕获的图像，该图像示出物理环境。在模块222中，该过程可基于该图像生成该物理环境的估计模型。该估计模型可包括a)物理环境的三维表示，和/或b)一个或多个声学表面材料参数，和/或c)一个或多个散射参数。可针对物理房间和在该物理环境中检测到的对象来估计声学表面材料参数和散射参数。在模块224中，该过程可接收由麦克风阵列捕获的音频信号，该等音频信号在该物理环境中捕获声音。在模块228中，该过程可基于所接收的音频信号生成该物理环境的一个或多个实测声学参数。在模块230中，该过程可使用估计模型和实测声学参数来处理目标音频信号(例如，通过基于实测声学参数来优化估计模型)，从而产生具有虚拟声源的多个输出音频信道，该虚拟声源具有虚拟位置，该等输出音频信道用于驱动多个扬声器。

图5示出了在一个方面中执行所述过程的系统。此类系统可包括设备202。该设备可具有一个或多个相机196，该相机可生成物理环境的图像和/或捕获并生成用户1的图像。该设备可具有示出增强现实环境的显示器194。在一个方面，增强现实环境可以是用户1周围的物理环境的表示，但是一个或多个虚拟对象用其渲染。例如，增强现实环境可包括处于不同物理环境中但已被渲染到代表用户1的物理环境的增强现实环境中的第二用户。

在一个方面，该设备可具有一个或多个传感器197，诸如加速度计、GPS模块和陀螺仪。在一个方面，该设备可具有形成扬声器阵列的扬声器198。在一个方面，该等扬声器可生成声束。在一个方面，该设备可具有一个或多个麦克风192。该设备的麦克风可形成一个或多个麦克风阵列，该一个或多个麦克风阵列可用于生成音频信号。在一个方面，该等麦克风阵列可形成声学拾取波束以针对每个拾取波束生成对应的音频信号。

该等扬声器可由具有虚拟声源的多个输出音频信道驱动，该虚拟声源具有虚拟位置。例如，继续前述示例，该虚拟声源可以是第二用户的语音。该第二用户可被渲染到增强现实环境中的位置上，并且该第二用户的语音可被渲染成使得其在用户1听来就像该第二用户的语音是从该位置发出来的一样。在一个方面，扬声器和/或麦克风可另选地或除此之外包括在用户佩戴的头戴式耳机204上。

在一个方面，尽管未示出，但头戴式耳机可具有显示器以及一个或多个相机、多个麦克风、扬声器和传感器。增强现实环境可通过显示器可视地示出，而虚拟化音频通过扬声器渲染。头戴式耳机的麦克风可在佩戴者的物理环境中拾取音频并用于生成实测声学参数。相机可生成用于估计房间模型的一个或多个图像。实测声学参数可用于优化房间模型，如在其他部分中所讨论的。

图7示出了在一个方面可与本文所述的任何方面一起使用的音频处理系统硬件的框图。该音频处理系统可表示通用计算机系统或专用计算机系统。需注意，虽然图7示出了可被结合到耳机、扬声器系统、麦克风阵列和娱乐系统中的音频处理系统的各种部件，但这仅仅是特定具体实施的一个示例，并且仅仅是为了示出可存在于音频处理系统中的部件的类型。图7并不旨在表示使这些部件互连的任何特定架构或方式，因为此类细节与本文所述的各方面并无密切关系。还应理解，还可使用具有比图7所示更少部件或更多部件的其他类型的音频处理系统。因此，本文所述的过程不限于与图7的硬件和软件一起使用。

如图7所示，音频处理系统150(例如，膝上型计算机、台式计算机、移动电话、智能电话、平板电脑、智能扬声器、头戴式显示器(HMD)，或者用于汽车或其他车辆的信息娱乐系统)包括用于将系统的各种部件互连的一条或多条总线162。如本领域中所公知地，一个或多个处理器152耦接到总线162。一个或多个处理器可以是微处理器或专用处理器、片上系统(SOC)、中央处理单元、图形处理单元、通过专用集成电路(ASIC)创建的处理器或它们的组合。存储器151可包括使用本领域已知的技术耦接到总线的只读存储器(ROM)、易失性存储器和非易失性存储器或它们的组合。

存储器尽管在图7中未示出，但可连接到总线并且可包括DRAM、硬盘驱动器或闪存存储器、或磁性光驱或磁性存储器、或光驱，或者甚至在系统断电之后仍维护数据的其他类型的存储器系统。在一个方面，处理器152检索存储在机器可读存储介质(存储器)中的计算机程序指令并执行这些指令以执行本文所述的操作。

尽管未示出，但音频硬件可耦接到一条或多条总线162，以便接收待由扬声器156处理并输出的音频信号。音频硬件可包括数模转换器和/或模数转换器。音频硬件还可包括音频放大器和滤波器。音频硬件还可与麦克风154(例如，麦克风阵列)连接以接收音频信号(无论是模拟的还是数字的)，在必要时将其数字化，并且将该信号传送到总线162。

通信模块164可与远程设备和网络通信。例如，通信模块164可通过已知的技术诸如Wi-Fi、3G、4G、5G、蓝牙、ZigBee或其他等效技术进行通信。通信模块可包括可与联网设备诸如服务器(例如，云端)和/或其他设备诸如远程扬声器和远程麦克风通信(例如，接收和发送数据)的有线或无线发射器和接收器。

应当理解，本文所公开的方面可利用远离系统的存储器，诸如通过网络接口诸如调制解调器或以太网接口耦接到音频处理系统的网络存储设备。如本领域所熟知的，总线162可通过各种网桥、控制器和/或适配器彼此连接。在一个方面，一个或多个网络设备可耦接到总线162。一个或多个网络设备可为有线网络设备(例如，以太网)或无线网络设备(例如，WI-FI、蓝牙)。在一些方面，所述的各个方面(例如，模拟、分析、估计、建模、对象检测等)可由与捕获设备通信的联网服务器执行。音频系统可包括一个或多个相机158和显示器160。

本文所述的各个方面可至少部分地在软件中体现。也就是说，响应于其处理器执行存储介质(诸如非暂态机器可读存储介质(诸如DRAM或闪存存储器))中包含的指令序列而可在音频处理系统中实施这些技术。在各个方面中，可将硬连线电路与软件指令结合地使用来实现本文所述的技术。因此，这些技术不限于硬件电路与软件的任何指定组合，也不限于由音频处理系统执行的指令的任何特定源。

在本说明书中，某些术语用于描述各个方面的特征。例如，在某些情况下，术语“分析器”、“分离器”、“渲染器”、“估计器”、“组合器”、“合成器”、“部件”、“单元”、“模块”、“逻辑部件”、“提取器”、“减法器”、“生成器”、“优化器”、“处理器”、和“模拟器”表示被配置为执行一个或多个功能的硬件和/或软件。例如，“硬件”的示例包括但不限于集成电路诸如处理器(例如，数字信号处理器、微处理器、专用集成电路、微控制器等)。当然，硬件可另选地实现为有限状态机或甚至组合逻辑部件。“软件”的示例包括应用程序、小应用程序、例程甚至一系列指令形式的可执行代码。如上所述，软件可存储在任何类型的机器可读介质中。

已按照对计算机存储器中的数据位进行操作的算法和符号表示来呈现前面详细描述的某些部分。这些算法描述和表示是音频处理领域技术人员所用的方法，而这些方法也能最有效地将他们的工作实质传达给该领域其他技术人员。算法在这里并通常是指导致所希望的结果的操作的自相一致的序列。操作是需要对物理量进行物理操纵的那些操作。然而，应当谨记，所有这些以及类似的术语都与适当的物理量相关联，并且只是应用于这些量的方便标签。除非另外特别说明，否则从上述讨论中显而易见的是，可以理解在整个说明书中，使用诸如那些在下文权利要求书中给出的术语的讨论涉及音频处理系统或类似电子设备的动作和过程，其操纵在系统的寄存器和存储器中被表示为物理(电子)量的数据以及将其转换成在系统存储器或寄存器或其他此类信息存储、传输或显示设备中类似地被表示为物理量的其他数据。

本文所述的过程和块不限于所述的特定示例，并且不限于在本文中作为示例使用的特定次序。相反，可根据需要对任何处理块进行重新排序、组合或移除、并行或串行地执行，以实现上述结果。与实施音频处理系统相关联的处理块可通过一个或多个可编程处理器执行存储在非暂态计算机可读存储介质上的一个或多个计算机程序来执行，以执行系统的功能。音频处理系统的全部或部分可被实现为专用逻辑电路(例如，FPGA(现场可编程门阵列)和/或ASIC(专用集成电路))。音频系统的全部或部分可利用包括电子设备诸如例如处理器、存储器、可编程逻辑器件或逻辑门中至少一者的电子硬件电路来实现。另外，过程可在任何组合硬件设备和软件部件中实现。

虽然已经在附图中描述和示出了某些方面，但是应当理解，这些方面仅仅是对本发明的说明而非限制，并且本发明不限于所示出和所描述的具体结构和布置，因为本领域的普通技术人员可以想到各种其他修改型式。因此，要将描述视为示例性的而非限制性的。

为了帮助专利局和本申请中发布的任何专利的任何读者解译所附权利要求书，申请人希望注意到它们并不意欲所附权利要求书中的任一个或权利要求要素调用35U.S.C.112(f)，除非在特定权利要求中明确使用字词“用于......的装置”或“用于......的步骤”。

众所周知，使用个人可识别信息应遵循公认为满足或超过维护用户隐私的行业或政府要求的隐私政策和做法。具体地，应管理和处理个人可识别信息数据，以使无意或未经授权的访问或使用的风险最小化，并应当向用户明确说明授权使用的性质。

Claims

1.一种用于在增强现实环境中处理声音的方法，所述方法包括：

接收由相机捕获的图像，所述图像示出物理环境；

基于所述图像生成所述物理环境的估计模型，其中所述估计模型包括：

所述物理环境的三维表示，和

所述物理环境的环境参数；

接收由麦克风阵列捕获的音频信号，所述音频信号在所述物理环境中捕获声音；

基于所接收的音频信号生成所述物理环境的一个或多个实测声学参数；

利用所述物理环境的所述一个或多个实测声学参数修改所述估计模型，从而得到所述物理环境的更新模型；以及

使用所述更新模型和所述实测声学参数处理目标音频信号，包括基于所述更新模型选择或生成一个或多个脉冲响应以及利用所述一个或多个脉冲响应对所述目标音频信号和目标位置进行卷积，从而产生具有虚拟声源的多个输出音频信道，所述虚拟声源具有虚拟位置，所述输出音频信道用于驱动多个扬声器。

2.根据权利要求1所述的方法，其中：

所述物理环境的所述环境参数包括一个或多个声学表面材料参数、或一个或多个散射参数；并且

修改所述估计模型包括：

基于所述实测声学参数修改所述估计模型的所述一个或多个声学表面材料参数或所述一个或多个散射参数。

3.根据权利要求2所述的方法，其中生成所述估计模型包括：

对所述图像的区域进行分类；

基于所分类的区域，检测所述图像中的对象并估计所述物理环境的房间的几何结构，所述几何结构包括以下各项中的一者或多者：墙壁的尺寸或取向、天花板的尺寸或取向、地板的尺寸或取向、所述房间的高度、宽度或长度、或所述房间的容积；以及

估计所述估计模型的所述房间或检测到的对象的所述散射参数或声学表面材料参数。

4.根据权利要求1所述的方法，其中所述生成所述估计模型包括：

处理所述图像以利用神经网络识别所述物理环境中的对象，所述神经网络被训练以将所述对象识别为对应于模型库中的对象模型，以及

在所述物理环境的所述估计模型内对所述对象模型进行定位和取向。

5.根据权利要求4所述的方法，其中：

所述对象模型具有限定所述对象模型的三维形状的三维参数，以及声学元数据。

6.根据权利要求5所述的方法，其中所述对象模型的所述声学元数据包括散射参数、吸声参数或声音降低参数。

7.根据权利要求1所述的方法，其中生成所述估计模型包括将所述图像的区域分类为三维空间中的表面和形状。

8.根据权利要求1所述的方法，还包括：

利用几何结构简化算法简化所述估计模型的一个或多个对象模型的几何结构，

其中所述处理所述目标音频信号基于具有所简化的几何结构的所述估计模型。

9.根据权利要求8所述的方法，其中所述估计模型形成为体素网格或网格数据结构。

10.根据权利要求8所述的方法，其中所述几何结构简化算法基于所述对象模型的波长和尺寸确定是否从所述估计模型中移除对象模型。

11.根据权利要求8所述的方法，其中所述几何结构简化算法随着目标位置与所述对象模型之间的距离增大而更积极地简化所述对象模型的几何结构，并且随着所述目标位置与所述对象模型之间的距离减小而更不积极地简化所述对象模型的几何结构。

12.根据权利要求1所述的方法，其中所述生成所述物理环境的所述一个或多个实测声学参数包括：

处理所述音频信号以确定所述物理环境的混响特性，所述混响特性定义所述环境的所述一个或多个实测声学参数。

13.根据权利要求12所述的方法，其中所述物理环境的所述一个或多个实测声学参数包括以下各项中的一者或多者：混响衰减速率或时间、直接混响比或混响测量结果。

14.根据权利要求13所述的方法，其中所述物理环境的所述一个或多个实测声学参数是对应于所述音频信号的一个或多个频率范围生成的。

15.根据权利要求14所述的方法，其中生成所述物理环境的所述一个或多个实测声学参数包括：

从所述音频信号中提取直接分量；

从所述音频信号中提取混响分量；以及

利用受过训练的神经网络基于所提取的直接分量和所提取的混响分量生成所述混响特性。

16.根据权利要求1所述的方法，其中生成所述物理环境的所述一个或多个实测声学参数包括：当在所述音频信号中未检测到声音时，调用先前生成的声学参数。

17.根据权利要求16所述的方法，其中所述先前生成的声学参数是基于检测到的所述物理环境的所述图像与和所述先前生成的声学参数相关联的先前环境之间的相似性选择的。

18.根据权利要求2所述的方法，其中修改所述估计模型的所述一个或多个声学表面材料参数或所述一个或多个散射参数包括基于将所述估计模型的估计声学响应与所测量的所述物理环境的声学参数进行比较来增大或减小所述一个或多个声学表面材料参数或所述一个或多个散射参数。

19.根据权利要求18所述的方法，其中所述声学表面材料参数包括吸声参数或声音降低参数。

20.根据权利要求19所述的方法，其中处理所述目标音频信号包括基于波的建模。

21.根据权利要求20所述的方法，其中处理所述目标音频信号包括几何声学算法。

22.根据权利要求1所述的方法，其中所述一个或多个脉冲响应包括双耳房间脉冲响应(BRIR)。

23.根据权利要求1所述的方法，其中：

在捕获所述图像和捕获所述音频信号的同时实时执行所述方法，

所述输出音频信道与在所述图像上渲染的虚拟视觉对象同步驱动所述扬声器，

并且所述虚拟声源的所述虚拟位置对应于在所述增强现实环境中的所述图像上渲染的所述虚拟视觉对象的视觉位置。

24.根据权利要求1所述的方法，其中利用所述物理环境的所述一个或多个实测声学参数修改所述估计模型包括：

在所述物理环境中检测声音的存在，

响应于所述声音在所述物理环境中被检测到，利用所述一个或多个实测声学参数修改所述估计模型，以及

响应于所述声音在所述物理环境中未被检测到，使用未经修改的所述估计模型来处理所述目标音频信号。

25.一种在增强现实环境中处理音频的制品，包括：

相机，用于捕获物理环境的图像；

麦克风阵列，用于生成在所述物理环境中捕获声音的音频信号；

多个扬声器；和

在其中存储有指令的机器可读介质，所述指令在由处理器执行时使得所述制品执行以下操作：

所述物理环境的三维表示，和

所述物理环境的环境参数；

基于由所述麦克风阵列生成的所述音频信号生成所述物理环境的一个或多个实测声学参数；

利用所述物理环境的所述一个或多个实测声学参数修改所述估计模型，从而得到所述物理环境的更新模型；

使用所述更新模型和所述实测声学参数处理目标音频信号，包括基于所述更新模型选择或生成一个或多个脉冲响应以及利用所述一个或多个脉冲响应对所述目标音频信号和目标位置进行卷积，从而产生具有虚拟声源的多个输出音频信道，所述虚拟声源具有虚拟位置；以及

在所述增强现实环境中用所述输出音频信道驱动所述多个扬声器。

26.根据权利要求25所述的制品，其中：

所述物理环境的所述环境参数包括一个或多个声学表面材料参数或一个或多个散射参数；并且

修改所述估计模型包括：

修改所述估计模型的所述一个或多个声学表面材料参数或所述一个或多个散射参数。

27.根据权利要求25所述的制品，还包括：

显示器；和

其中存储有所述指令的所述机器可读介质，所述指令在由所述处理器执行时还使得所述制品执行以下操作：

用所述图像渲染虚拟视觉对象，以生成以数据编码的虚拟视觉环境；以及

用所述虚拟视觉环境的所述数据驱动所述显示器；

其中所述输出音频信道与在所述图像上渲染的所述虚拟视觉对象同步驱动所述扬声器，

并且所述虚拟声源的所述虚拟位置对应于在所述增强现实环境中渲染的所述虚拟视觉对象的视觉位置。

28.根据权利要求25所述的制品，其中所述相机为二维相机，并且所述图像为二维图像。

29.根据权利要求25所述的制品，其中所述相机为三维相机，并且所述图像具有二维参数和深度参数。