CN113439447A

CN113439447A - 使用深度学习图像分析的房间声学仿真

Info

Publication number: CN113439447A
Application number: CN201980090751.8A
Authority: CN
Inventors: M·沃尔什; A·迈克唐纳; M·M·古德文; E·斯特因; P·考考安
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2018-12-24
Filing date: 2019-12-13
Publication date: 2021-09-24
Also published as: JP2022515266A; EP3903510A1; KR20210106546A; US20220101623A1; WO2020139588A1

Abstract

一种方法包括：接收真实世界环境的图像；使用机器学习分类器，对所述图像进行分类以生成与用于声学环境仿真的声学预设置相关联的分类，所述声学预设置均包括表示声音混响的声学参数；以及基于所述分类，在所述声学预设置当中选择声学预设置。

Description

使用深度学习图像分析的房间声学仿真

优先权要求

本申请要求2018年12月24日提交的美国临时专利申请No.62/784,648的优先权，该申请的全部内容通过引用并入本文。

技术领域

本公开涉及对图像进行分类以用于增强现实。

背景技术

增强现实(AR)是合并真实世界和虚拟世界以生成新的环境和可视化，其中实际的或真实的物理对象和数字的或虚拟的对象共存，并且可以实时地相互作用。AR利用逼真的视觉和音频将虚拟世界带到用户的真实世界环境中。AR将来自虚拟声音对象的虚拟声音与真实的声学环境中的真实声音混合。来自虚拟声音对象的虚拟声音应与通过耳机向用户播放的等效的真实世界的声音匹配以确保令人愉快的AR体验。否则，用户经历AR体验的劣化。常规的技术使用复杂的多步处理来使虚拟声音与等效的真实世界的声音匹配。这样的复杂性将显著的听觉延迟引入到AR仿真中，这可能劣化用户体验。而且，该复杂性不利地提高了对于AR设备的处理要求，因此提高了AR设备的成本。

附图说明

图1A是被配置为向用户提供AR体验的示例性扩展现实(XR)系统的高级框图。

图1B是可以被用户穿戴并且被配置为向用户传递AR体验的示例性AR设备或系统的透视图。

图2是对于XR系统可以基于声学预设置仿真的环境的示例性声音响应的例示。

图3是可由XR系统执行的、与来自虚拟声音对象的声音的渲染组合的基于机器学习(ML)的分类的示例性方法的例示。

图4是使用ML分类将真实世界环境的图像直接分类到用于声学环境仿真的声学参数的声学预设置的示例性方法的流程图。

图5是使用ML分类将真实世界环境的图像分类到房间类型的示例性方法的流程图，然后可以从房间类型推导用于声学环境仿真的声学预设置。

图6是使用ML分类基于真实世界环境的场景及其相关联的声学预设置的高速缓存将真实世界环境的图像直接分类到用于声学环境仿真的声学参数的声学预设置的示例性方法的流程图。

图7是使用ML分类将真实世界环境的图像直接分类到用于声学环境仿真的一般/主要声学预设置和次要声学修改符的示例性方法的流程图。

图8是将图7的方法扩展到产生三维(3D)网格和从该3D网格的材料性质推导的声学参数的示例性方法的流程图。

图9A是基于根据第一训练场景的训练图像对XR系统的ML分类器进行训练并且ML分类器一旦被训练、就使用ML分类器来对图像进行分类的示例性方法的例示。

图9B是用于图9A的训练方法的预训练数据准备的例示。

图10是根据第二训练场景和第三训练场景对ML分类器进行训练的示例性方法的例示。

图11A是根据第四训练场景对ML分类器进行训练的示例性方法的例示。

图11B是包括背对背180^°鱼眼透镜并且在两个相机视角上捕捉房间的360^°图像的示例性图像传感器的例示。

图12是与图1A的XR处理器实施例相比、包括附加功能的示例性XR处理器的框图。

图13是可以在XR处理器中使用或者与XR处理器一起使用以基于声学参数执行环境仿真的示例性交互式音频引擎(LAE)的框图。

图14是可由图12的XR处理器执行的示例性声学参数改善处理的流程图。

图15是由图12的XR处理器产生的示例性声学参数的表格。

图16是使用高速缓存的声学预设置的示例性XR处理器的框图。

图17是在声学预设置之间转变的示例性方法的流程图。

图18是在声学预设置之间转变并且执行可用图像安全性检查的示例性方法的流程图。

图19是在被校准的场景实施例中在声学预设置之间转变的示例性方法的流程图。

图20是ML分类器的从处于未被训练条件状态的ML分类器开始的深度神经网络(DNN)训练的示例性方法的例示。

图21是其中可以实现XR处理器和/或交互式音频引擎的示例性计算机设备的框图。

图22是直接将图像分类到声学预设置的示例性总结方法的流程图。

图23是直接对相对于在图22的方法中分类的图像的后续图像或第二图像进行分类的示例性方法的流程图。

具体实施方式

示例实施例

扩展现实(XR)通常涵盖虚拟显示(VR)和增强现实(AR)，有时被称为混合现实(MR)。音频信号再现系统已经发展到将三维(3D)音频递送给收听者。在3D音频中，声音由耳机或听筒(为了简单，在本文中统称为“耳机”)生成，并且可以涉及或包括声音源在收听者听觉感知到的真实的或理论的3D空间或环境中的虚拟放置。例如，虚拟化声音可以在听到3D音频处理声音的收听者的上面、下面、或者甚至后面提供。经由耳机的常规音频再现趋向于提供被感知为源自或发源于收听者的头内部的声音。在例子中，通过耳机(包括使用常规的一对立体声耳机)递送的音频信号可以被特殊地处理以实现3D音频效果，诸如为收听者提供感知的空间声音环境。

3D音频耳机系统可以被用于VR应用，诸如为收听者在没有真实的声音源存在的局部或虚拟环境中的特定位置处提供声音源的感知。类似地，3D音频耳机系统可以被用于AR应用，从而为收听者在没有真实的声音源存在的位置处提供声音源的感知，但是是以收听者仍至少部分地知晓局部环境中的一个或多个真实声音的方式。用于VR或AR的由计算机产生的音频渲染可以利用游戏和虚拟现实音频渲染系统和应用编程接口中的信号处理技术进展，诸如在计算机音乐和建筑声学领域中的先前进展之上构建或延伸。可以应用各种双耳技术、人工混响、物理房间声学建模和可听化(auralization)技术来为用户提供增强的收听体验。VR或AR信号处理系统可以被配置为再现一些声音以使得它们被收听者感知为发源于局部环境中的外部源，而不是发源于耳机或者发源于收听者的头内部的地点。

与VR 3D音频相比，AR音频涉及鼓励暂停参与者的怀疑(诸如通过提供与局部收听环境的声学基本上一致的仿真环境声学和源环境交互)的额外的挑战。这提出了如下挑战：以虚拟信号或添加信号包括或表示用户的环境的方式对这些信号提供音频信号处理，从而使得这些信号不容易与自然发生的或通过环境中的耳机再现的其他声音区分开。这样的音频信号处理通过对于给定的收听环境、匹配和应用混响性质来在虚拟声场中提供准确的声音源，所述混响性质包括衰减时间、混响响度特性和/或混响均衡特性(例如，混响的频谱内容)。在视听AR应用中，计算机产生的声音对象(被称为“虚拟声音对象”)可以经由声学透明的耳机来渲染，以与观看者/收听者自然地听到的物理环境混合。这样的混合可以包括或使用双耳人工混响处理来匹配或近似局部环境声学。

本文中呈现的实施例提供了将3D音频渲染算法或仿真扩展到忠实地匹配或近似物理局部环境声学的实用且高效的方法。实施例提供了针对上述问题和/或挑战的解决方案，并且还提供了将从随后的描述中清楚理解的优点。实施例可以被用于例如3D音频应用(诸如VR和AR)中。实施例使用机器学习(ML)技术来直接从图像传感器捕捉的局部环境的图像预测局部环境的声学性质，诸如混响特性。实施例然后可以在匹配或近似该局部环境的实际声学的环境声学仿真中使用所预测的声学性质。基于预测的声学性质，当收听者经由耳机感知时，声学环境仿真无缝地混合虚拟声音与局部环境。

更具体地说，本文中呈现的实施例使用ML技术来训练ML分类器的一个或多个神经网络，以使用图像传感器准确地预测未知环境的声学性质。预测的声学性质然后被用于以在声学环境内实时地创建的声学环境仿真的形式为虚拟声音对象创建声学上下文。实施例有利地利用在XR设备上一般可用的相机传感器；允许使用机器学习引擎(诸如Unity引擎和Unreal引擎)中使用的典型的音频插件；与常规技术相比，降低复杂性、处理要求、以及与在实时AR环境中使虚拟声音与等效的真实世界声音匹配相关联的延迟；根据图像传感器可用性提供可扩展的实现；并且可以被实现为深度学习推理引擎。

系统级别描述

在高级别上，本文中呈现的实施例采用ML技术来将真实世界的(即，实际的)环境的图像直接分类到表示用于声学环境仿真(AES)的声学参数集合的声学预设置。声学参数集合表示足以执行AES的性质集合。AES基于声学预设置的声学参数集合来对真实世界环境的声音响应进行仿真或建模。声学预设置是声音响应的参数表示。AES将声音响应应用于来自(虚拟地)放置在真实世界环境中的虚拟声音对象的声音，以将该声音转换为当通过耳机向用户播放时似乎实际源自虚拟声音对象的现实声音。前述真实世界环境包括具有混响质量的任何真实世界环境或空间，诸如但不限于：房间、礼堂、音乐厅、户外剧场等。房间还可以包括家里的房间，诸如厨房、客厅、餐厅、浴室等。房间还可以包括办公空间等。

参照图1A，存在根据本文中呈现的实施例的示例性XR系统100的高级框图，示例性XR系统100被配置为向用户提供AR体验。尽管实施例主要是在AR应用的上下文中描述的，但是实施例同样适用于VR应用。在图1A中，虚线通常表示参数流，例如声学参数的流，而实线通常表示图像和声音信号流。

XR系统100包括图像传感器102、AR显示器104、头戴式装置106、可选的位置传感器107以及XR处理器或处理器108，图像传感器102捕捉图像序列或视频(统称为“图像”103)，头戴式装置106包括左耳机和右耳机，XR处理器或处理器108耦合到图像传感器、AR显示器、头戴式装置和位置传感器，并且与它们通信。XR处理器108包括(i)基于ML的声学环境分类器120(简称为“ML分类器”120)和交互式音频引擎(IAE)124，ML分类器120包括根据本文中呈现的实施例的将图像103分类到声学预设置122中的一个或多个神经网络。IAE 124可以如图1A所示那样被实现为XR处理器108的一部分，或者可以与XR处理器分开。在例子中，ML分类器120可以包括一个或多个卷积神经网络(CNN)，诸如AlexNet、GoogLeNet和ResNet50。在其他例子中，ML分类器120包括适合于如本文中描述的那样对图像进行分类的非CNN神经网络。IAE 124基于来自ML分类器120的声学预设置122产生或执行AES 126，并且还产生用于虚拟地放置到真实世界环境的场景中的一个或多个虚拟声音对象128。

图像传感器102可以包括捕捉真实世界环境的图像序列103的摄像机。图像传感器102可以被定位在真实世界环境中的不同位置和朝向(统称为“有利点(vantage point)”)处以从不同的有利点捕捉真实世界环境的不同场景的图像103。例如，图像传感器102可以包括由作为AR体验的目标的用户穿戴的摄像机，以使得摄像机操作为随着用户在真实世界环境中四处走动而捕捉真实世界环境的不同场景。位置传感器107感测或确定环境中的一个或多个对象(包括用户)的位置和朝向，并且将指示对象的位置和朝向的位置信息114提供给XR处理器108。

在高级别上，在操作中，XR处理器108处理(i)真实世界环境的图像103、(ii)来自虚拟声音对象128的声音(即，声音信号)、以及(iii)位置信息114(当可用时)，以生成视频信号136和声音信号138，利用虚拟声音对象和其他虚拟信息增强的真实世界环境的代表性场景。AR显示器104将视频信号136转换为视频，并且向用户播放该视频。头戴式装置106的耳机将声音信号138转换为声音，并且向用户播放声音。更具体地说，XR处理器108的ML分类器120采用深度学习神经网络技术将图像103分类到声学预设置122中。每个声学预设置122表示相应的声学参数集合，诸如混响(“reverb”)参数，该声学参数集合表示真实世界环境的声音性质。IAE 124基于声学预设置122来执行AES 126，以对真实世界环境的声学响应(包括混响)进行仿真或建模。IAE 124还将放置在各种虚拟地点处的一个或多个虚拟声音对象128产生到真实世界环境的场景中。AES 126将声音响应应用于虚拟声音对象128产生的声音信号，以将来自虚拟声音对象的声音信号转换为传递虚拟声音对象的现实声音的声音信号118。即，AES 126至少对例如虚拟声音对象的声音混响进行建模。

参照图1B，存在AR设备150的透视图，AR设备150可以被用户穿戴，并且被用于向用户传送AR体验。装置150包括广角跟踪相机160、红绿蓝(RGB)相机164、麦克风阵列168和立体声耳机170，它们都耦合到图1B中未示出的内置XR处理器。AR设备150还可以包括耦合到XR处理器的飞行时间深度传感器和附加的立体相机。

参照图2，存在AES可以基于声学预设置122仿真的真实世界环境的一般性声音响应200的例示。声音响应200响应于源自真实世界环境的声音源的声音脉冲而发生。声音响应200可以在真实世界环境中的与声音源间隔开的收听者位置处记录。声音响应200包括直射路径(DP)声音、包括跟随直射路径声音的早期反射的反射(REF)、以及跟随反射的混响能量或混响(REV)。反射REF在从直射路径声音DP发生时算起的反射延迟之后开始，并且混响REV在从反射REF开始时算起的混响延迟之后。混响REV的振幅根据混响的衰减时间而衰减。在本文中呈现的实施例中，除了仿真/表示直射路径声音、早期反射、以及相对于来自虚拟声音对象128的声音的混响的其他声学参数之外，AES 126还采用声学预设置122的声学参数。

图3是ML分类器120和IAE 124可以执行的图像103直接到声学预设置122的基于ML的分类以及来自虚拟声音对象128的声音的渲染的示例性方法300的例示。方法300假定ML分类器120已经在先验的训练操作中训练成直接将图像分类到声学预设置。简要地，训练包括在用声学预设置中的不同的声学预设置贴标签的不同图像上训练ML分类器120。在例子中，声学预设置可以包括分别与标签L1-LM相关联的M个(例如，10个、20个等)声学预设置P1-PM。每个声学预设置Pi表示用于声学环境仿真(例如，AES 126)的声学参数AP1-APN的集合。标签L1-LM和声学预设置P1-PM(以及它们的相关联的声学参数AP1-APN的集合)可以被存储在XR处理器108的存储器中。对于给定的声学预设置Pi，声学参数AP1-APN具有相应的值，并且这些值在声学预设置P1-PM之间变化。声学参数AP1-APN可以至少包括声学混响参数。通常来说，混响参数可以包括例如混响衰减时间、混响响度特性、和/或混响均衡特性(例如，混响的频谱内容)。更具体地说，混响参数可以包括高频衰退和衰减时间、低频衰退和衰减时间、阻尼、扩散、密度、房间大小等。混响参数可以包括如任何已知的或以后开发的声学相关标准(诸如交互式3D音频渲染指南级别2.0(I3DL2))中定义的参数。

声学参数AP1-APN可以包括附加的声学参数，诸如一个或多个声音反射参数/系数、一个或多个声音吸收参数/系数等。

在302，XR处理器108选择或建立声学预设置P1-PM中的一个作为用于AES的默认或初始的声学预设置。默认的声学预设置的声学参数AP1-APN表示初始声学参数。

在304，ML分类器120接收图像传感器102捕捉的序列图像103中的图像。在稳态操作中，所述图像可以是将通过方法300顺序地处理的图像序列103当中的先前图像和未来图像中的当前图像。

在被称为“推理”的306，(预先训练的)ML分类器120将所述图像直接分类到与声学预设置P1-PM相对应的多个(当前的)分类的集合中。所述分类集合可以仅包括标签L1-LM，标签L1-LM指示具有与相应的标签相关联的置信水平C1-CN的声学预设置P1-PM。标签L1-LM可以被用于访问(已知的)声学预设置P1-PM中的相应的声学预设置，从而访问声学预设置的(已知的)声学参数AP1-APN。例如，声学预设置P1-PM可以被存储以便基于标签L1-LM索引并因此检索。置信水平Ci表示对于所述图像来说、相关联的标签Li/声学预设置Pi正确(即，所述图像被正确地分类到标签Li/声学预设置Pi)的概率。这样，分类可以被认为是软决策，而不是硬决策。

在308，XR处理器108选择分类当中与置信水平C1-CN中的最大置信水平相关联的标签/声学预设置，以生成(当前的)选择的标签/声学预设置。选择的声学预设置替换来自操作302的默认声学预设置。选择的声学预设置是从存储器检索的(即，选择的预设置的声学参数AP1-APN是从存储器检索的)。

在310，XR处理器108用选择的声学预设置(即，用选择的声学预设置的参数AP1-APN)更新IAE 124。

方法300随着图像序列103当中的接下来的图像到达以供分类而顺序地重复，以生成与所述图像序列相对应的并且被顺序地传递给IAE 124以用于AES 126的分类结果序列。

方法300的变化是使对于IAE 124的声学预设置更新以预定的置信水平阈值为条件，当所述方法重复对连续的图像进行分类，这可以将滞后(hysteresis)引入到提供给IAE的更新中。更具体地说，所述变化只有在一个或多个(当前的)分类具有超过置信水平阈值的置信水平时才更新IAE 124，在这种情况下，操作308和310如上所述那样继续进行。否则，所述变化不更新IAE 124，即，所述变化仅维持超过置信水平阈值的上次对于IAE的最后的前一次更新。假定分类包括将置信水平表示为概率或者与作为概率的置信水平相关联的softmax值(即，软决策)，那么置信水平阈值可以被设置为等于例如0.7的概率。在这种情况下，更新只有在对应的概率超过>0.7时才发生。为了添加滞后。更新只在预定数量>1的连续的分类上的平均置信水平(通过操作306)超过0.7时才可以发生。

分类流程图

现在结合图4-7的流程图来描述使用ML技术对图像进行分类的各种方法。可以执行所述方法来将图像分类到指示上述声学预设置P1-PM的分类。所述方法可以由XR系统100执行。

图4是使用ML分类将真实世界环境的图像直接分类到用于AES(例如，AES 126)的声学参数的“最佳匹配”声学预设置的示例性方法400的流程图。方法400总结了以上结合方法300描述的操作。方法400采用在不同的真实世界环境的许多图像上训练过的并且用声学预设置P1-PM中的各种声学预设置贴标签的ML分类器(例如，ML分类器120)，使得作为训练的结果，ML分类器被配置为在没有中间分类或操作的情况下将图像直接分类到声学预设置(即，声学预设置的声学参数)。

在402，建立声学预设置P1-PM当中的初始声学预设置。

在404，捕捉真实世界环境的场景的图像。

在406，使用深度学习神经网络推理，将所述图像(从404接收)直接分类到指示声学预设置P1-PM的M个分类和它们相应的置信水平C1-CN。声学预设置P1-PM当中与置信水平C1-CN中的最高置信水平相关联的声学预设置被认为图像中描绘的真实世界环境的“最佳匹配”声学预设置。即，AES 126基于最佳匹配声学预设置产生的仿真声音响应比基于任何其他声学预设置产生的声音响应更接近于真实世界环境的实际声音响应。在408，可以基于与分类/声学预设置相关联的置信水平来识别/选择最佳匹配声学预设置。

在408，如以上结合图3描述的，确定是否用例如最佳匹配声学预设置来更新AES126。如果确定更新AES 126，则将最佳匹配声学预设置提供给AES，从而替换先前的声学预设置。否则，不用最佳匹配声学预设置更新AES 126，并且AES使用先前的最佳匹配声学预设置(即，先前的声学预设置不被替换)。

从408，流程控制返回到404，并且所述处理对于下一个图像重复。

图5是使用ML分类将真实世界环境的图像分类到房间类型的示例性方法的流程图，用于声学环境仿真的声学预设置然后可以从房间类型推导出来。方法500采用在用房间类型(例如，厨房、浴室、客厅等)贴标签的不同的真实世界环境的图像上训练过的ML分类器，使得作为训练的结果，ML分类器被配置为将图像分类到房间类型。方法500还假定相应的声学预设置P1-PM可以被分配给从前述分类得到的房间类型、或者从这些房间类型推导得到。

在502，建立声学预设置P1-PM当中的初始声学预设置。

在504，捕捉真实世界环境的场景的图像。

在506，使用深度学习神经网络推理，将所述图像(从操作504接收)分类到房间类型，例如，厨房。

在508，检索声学预设置P1-PM当中与该房间类型相关联的/被分配给该房间类型的声学预设置。

在510，来自508的声学预设置可被用于更新AES。

从510，流程控制返回到504，并且所述处理对于下一个图像重复。

在方法500中，推理操作506不直接分类到声学预设置。因此，在执行分类之后，使用额外的操作508来识别声学预设置。即，房间类型被转化为声学预设置。

图6是基于真实世界环境的场景及其相关联的声学预设置的高速缓存、使用ML分类将真实世界环境的图像直接分类到用于AES 126的声学参数的声学预设置的示例性方法的流程图。方法600类似于方法400，除了方法600包括下面描述的附加操作602和604之外。方法600假定XR处理器108确定用户已经在哪些真实世界环境(例如，房间)中，并且将每个房间的(最佳的)声学预设置记录在高速缓存中。

流程从402和404进行到602。在602，确定用户以前是否已经在用户当前所在的房间中。如果用户先前已经在所述房间中，则流程继续进行到604，在604，从高速缓存检索用于该房间的声学预设置。流程从604继续进行到408，408使用从高速缓存检索的声学预设置。如果用户先前不在所述房间中，则流程继续进行到406，并且操作如上所述那样继续。下面会结合图16描述被配置为执行方法600的XR处理器的例子。

图7是使用ML分类将真实世界环境的图像直接分类到用于AES126的一般/主要声学预设置和次要声学修改符的示例性方法的流程图。更具体地说，如方法400中那样，方法700使用ML分类器(例如，ML分类器120)的第一神经网络，其被训练为将真实世界环境的图像直接分类到一般声学预设置(也被称为“主要声学预设置”)。每个一般声学预设置包括一般声学参数的相应集合。例如，一般声学参数可以是混响参数。方法700还使用ML分类器的第二神经网络，其被训练为进一步将所述图像分类到可以用于修改一般声学预设置的附加或次要声学参数(诸如吸收和/或反射参数或系数、房间体积等)。

在702，建立声学预设置P1-PM当中的初始声学预设置。

在704，捕捉真实世界环境的场景的图像。

在706，使用第一神经网络，将所述图像直接分类到一般声学预设置，从所述一般声学预设置选择最佳的一般声学预设置，即，与最高置信水平相关联的声学预设置被选择作为最佳声学预设置。

在708，使用第二神经网络，将所述图像直接分类到次要声学参数。

在710，基于次要声学参数中的一个或多个来修改/调整在706选择的一般声学预设置的一般声学参数中的一个或多个，以生成经修改的一般声学预设置。例如，可以基于次要声学参数的值来增大或减小一般声学预设置的一般声学参数的值。可替代地，一般声学参数中的一个或多个可以由次要声学参数中的一个或多个替换。

在简单的例子中，小数范围0<α<1内的吸收系数a可以被用作次要声学参数，在这种情况下，操作710可以将一般声学参数中的一个或多个乘以吸收系数α，以生成一个或多个经修改的一般声学参数。在实践中，由于以下原因，基于吸收的此类修改可能更复杂。因为每个材料具有它自己的吸收系数，所以来自该材料的早期反射通常直接受该材料的吸收系数的影响。因此，包括许多不同的材料的声学环境中的混响可以受该环境中的材料的集合体影响，所述集合体共同产生聚合吸收。聚合吸收可以在不同的频带中不同地影响混响的延迟速率，这可以在操作710中纳入考虑。

在712，可以使用经修改的一般声学预设置来更新AES。

从712，流程返回到704，并且所述处理重复。

参照图8，存在示例性方法800的流程图，方法800类似于方法700，除了方法800包括与方法700的操作708联系的3D网格处理操作802之外。仅描述3D网格处理操作802。一般来说，3D网格处理操作802将在操作708中生成的次要声学参数中的一个或多个映射到使用例如深度相机产生的3D网格的组成部分。

在804，深度相机捕捉在操作704中捕捉了图像的相同的真实世界环境的深度图(图像)。

在806，从深度图创建3D网格。

在808，将在操作708中生成的次要声学参数(例如，材料声音吸收)映射到3D网格。

在810，导出3D网格和次要声学参数。

现在结合图9-11B来更详细地描述ML分类器120的训练和实时操作。

ML训练

图9A是基于根据第一训练场景的训练图像对ML分类器120进行训练并且使用训练好的ML分类器120来对图像进行分类的示例性方法的例示。一旦被训练好，ML分类器120就在被称为“推理”的阶段或操作中对图像进行分类，通常是实时地。在图9A的例子中，ML分类器120被配置有CNN。例如，ML分类器120包括耦合到完全连接层904的卷积层902。在实践中，ML分类器120可以包括导致完全连接层的许多卷积层。

为了训练，并且为了推理阶段，在训练之后，ML分类器120接收图像906，并且生成表示声学预设置的标签的形式的分类908。在推理阶段中，在910，如上所述，基于标签和它们的置信水平来选择具有最高置信度的声学预设置。在训练期间，图像906表示ML分类器120在其上训练的训练图像。

在第一训练场景中，ML分类器120的训练可以包括以下操作：

a.建立M个不同的标签L1-LM，例如，标签0-20。标签可以是数字的、字母数字的、人类可读的标签等。

b.创建/设计表示相应的典型用户环境(例如，房间)的M个声学预设置P1-PM。如上所述，每个预设置包括声学预设置AP1-APN的相应集合。每个声学预设置Pi与对应的标签Li相关联。

c.执行预训练数据准备：利用声学预设置P1-PM当中的最可能的声学预设置来给房间的大量训练图像(例如，训练图片)贴标签。图9B是下面描述的预训练数据准备的例示。

i.将训练图片划分为M个组G1-GM的训练图片(在图9B中，被单个地表示为“I”)，以使得每组Gi中的训练图片中的(房间的)场景表现为具有与该组中的(房间的)场景类似的声学性质，但是与其他组中的(房间的)场景不同的声学性质。例如：组G1的训练图片中的场景表现为具有彼此类似的声学性质；组G2的训练图片中的场景表现为具有彼此类似的声学性质，但是不同于组G1的训练图片的场景的声学性质；对于所有M个组G1-GN的训练图片，依此类推。

ii.用声学预设置P1-PM当中的最可能的声学预设置中的相应声学预设置来给训练图片组贴标签。最可能的声学预设置是最有可能与训练图片中的场景的声学性质匹配的声学预设置。即，用在每组内相同的但是在组之间不同的相应声学预设置给训练图片贴标签。例如，假定声学预设置P1是组G1的训练图片的最佳匹配，声学预设置P2是组G2的训练图片的最佳匹配，依此类推，那么用用于声学预设置P1的标签L1给组G1的所有的训练图片贴标签，用用于声学预设置P2的标签L2给组G2的所有的训练图片贴标签，依此类推。该操作生成带标签的训练图片，即，贴有它们的最可能的声学预设置的标签的训练图片。

d.使用带标签的训练图片，训练ML分类器120以直接将图像分类到标签/声学预设置。即，带标签的训练图片被供应给ML分类器120的训练输入，ML分类器120然后在带标签的训练图片上训练。如上所述，ML分类器被训练为将图像分类到软决策(例如，softmax)分类，这些软决策分类将所述分类与置信水平相关联。

可以基于主观声音设计(即，基本上由声音设计者手动地)执行操作(a)-(c)。对于训练数据库中的许多训练图片当中的训练图片中描绘的对应场景，声音设计者使用他/她对房间声学的体验来设计具有最可能发声的声学参数的相应集合的相应声学预设置。即，声音设计者基于设计者的主观设计经验来将声学参数的每个相应集合设计为最佳地表示或匹配训练图片之一中描绘的对应场景的声学性质。例如，设计者对“活跃”房间(例如，生活厨房)选择第一声学预设置的第一混响参数集合，对“沉寂”房间(例如，包括织物覆盖的家具的、铺了厚厚的地毯的卧室)选择第二混响参数集合，对具有介于“活跃”房间和“沉寂”房间的混响特性之间的中间混响特性的房间选择第三声学预设置的第三混响参数集合。然后，设计者用训练图片的最可能的声学预设置(每个声学预设置表示声学参数的相应集合)来给训练图片贴标签。例如，设计者用第一声学预设置给类似的看起来活跃的房间的训练图片贴标签，用第二声学预设置给类似的看起来沉寂的房间的训练图片贴标签，并且用第三声学预设置给表现为具有中间混响的类似的房间的训练图片贴标签，依此类推。

主要依赖于声音设计者的经验建立用于训练的声学预设置的替代方案使用具有不同的混响性质的房间的实际声学测量，然后通过算法从声学测量推导声学预设置。例如，可以使用任何已知的或以后开发的用于测量真实世界环境的声学脉冲响应的技术来测量每个房间的声学脉冲响应。然后，使用任何已知的或以后开发的技术来通过算法从测得的声学脉冲响应推导声学预设置的声学参数集合，以例如从声学脉冲响应推导混响参数。

在一个简化的例子中，脉冲响应的绝对值可以被规范化，并被转换为dB幅度。从在dB幅度降至60dB以下的初始脉冲(被规范化为0dB)算起的时间被取作RT60衰减时间(即，声音在房间中衰减60dB将花费多久)。在添加频域分析的情况下，这样的方法可以被扩展到RT60时间的多带分析。类似地，初始频谱能量、起始时间、早期反射时序和密度等的值可以在脉冲响应或其加窗节段中被直接观察到。将理解，这个特定的技术仅仅是作为例子提供的，并且任何附加的或可替代的脉冲分析方法可以被使用。

一旦被训练，ML分类器120就可以通过确定任意房间模型“听起来像”所预期的那样来验证。

对于推理阶段，ML分类器120(或ML分类器外部的逻辑)可以被配置为在ML分类器生成的softmax(输出)分类上应用平滑函数，以使得分类只有在softmax分类超过softmax阈值时才从其前一个状态(即，提供给AES 126的前一个声学预设置)转变，其中内置一些滞后以避免伪分类，类似于以上结合图3的方法300描述的阈值化。例如，声学预设置可以使用适当的延迟线插值和增益交叉渐变来平滑地转变。

训练还可以利用迁移学习，所述迁移学习利用已经执行传统房间类型分类的预训练的神经网络。该方法使用上述标签来冻结预训练的神经网络的卷积层(在特征提取时)继续适应完全连接层(分类)。

图10是用于ML分类器120的示例性操作流程的示图，其示出了根据第二训练场景和第三训练场景训练ML分类器，并且ML分类器一旦训练好就被用于对图像进行分类。图10的例子类似于图9A的例子，除了在推理阶段中，在1002从通过分类输出的标签更新声学参数之外。

在第二训练场景中，标签可以基于低级声学参数，诸如混响参数。混响参数可以包括例如I3DL2声学参数。一开始，对于训练数据库中的许多训练图片当中的训练图片中描绘的对应场景，声音设计者使用他/她对房间声学的经验来设计具有最有可能发声的声学参数集合的相应的声学预设置。即，每个相应的声学参数集合被设计为最佳地表示或匹配训练图片之一中描绘的对应场景的声学性质。然后，在推理期间，如在1002所示的，基于标签来更新声学参数。

在第三训练场景中，标签基于从在如训练图像中描绘的同一房间中获取的真实的声学性质的声学测量推导的低级声学参数。声学测量可以包括例如房间(声音)脉冲响应的测量。然后，预训练数据准备包括分析房间脉冲响应以自动地调谐适当的声学参数，即，执行自动化调谐。自动化调谐本身可以基于ML神经网络。

第二训练场景和第三训练场景这二者都可以利用ML神经网络。

图11A是用于ML分类器120的示例操作流程的示图，其示出了根据第四训练场景训练ML分类器，并且ML分类器一旦训练好就被用于对图像进行分类。图11A的例子类似于图9A和图10的例子，除了以下差别之外。在图11A的例子中，ML分类器120包括卷积层902之后的长短期记忆(LSTM)1102。基于LSTM 1102的神经网络适合于图像描述。在图11A的流程中，LSTM 1102分类到声学描述符1104。操作1106将声学描述符1104转化为在更新操作1106中使用的混响参数。

在第四训练场景中，在具有声学相关性的图片的描述性特征上训练ML分类器120。用于预训练的数据准备包括用给定的声学词汇贴标签的房间的场景的图片。尽管图11A的例子包括LSTM 1102，但是如果关注点是最可能的标签组合(例如，大的、活跃的、瓷砖等)，则LSTM可以被替换为完全连接层(例如，完全连接层904)。训练包括用声学特定的描述符贴标签的大量训练图片。

参照图11B，存在图像传感器102(例如，相机)的例子的例示，图像传感器102包括背对背180^°鱼眼透镜，这些鱼眼透镜一起在两个相机视角(图像)1180-1和1180-2中捕捉房间的360^°图像，即，它们捕捉整个房间的场景。在该例子中，XR处理器108可以使用任何已知的或以后开发的等矩(equi-rectangular)投影技术来将不同的相机视角一起拼接到单个矩形图像帧中。XR处理器108在训练期间或者在推理/实时阶段期间将所述单个矩形图像帧提供给ML分类器120进行处理。在另一个例子中，可以使用传统的矩形图像来训练ML分类器120。可替代地，可以随着用户/查看者使相机指向房间的不同视图、基于追踪房间来将传统的矩形图像一起拼接到更大的图像(例如，合成图像)中。即使当已经在360图像上训练过ML分类器时，也可以将所得的拼接图像应用于ML分类器120。在另一个例子中，图像传感器102捕捉房间的矩形图像，XR处理器108将该矩形图像映射到等矩空间上的区域，以生成映射图像，ML分类器120对映射图像进行分类。任何已知的或以后开发的技术可以被用于将矩形图像映射到等矩空间。

XR处理器例子

图12是根据实施例的XR处理器108的框图，与通过图1A的XR处理器的实施例提供的XR处理器相比，XR处理器108包括附加功能。在图12的例子中，XR处理器108包括图像分类路径1202、材料估计路径1204、声学参数合并(APC)逻辑1206和IAE 124。图像分类路径1202处理来自图像传感器102的图像103以生成一般/主要声学预设置1210和次要声学修改符1212，并且将该一般声学预设置和次要声学修改符提供给APC逻辑1206。材料估计路径1204与图像分类路径1202并行地处理来自图像传感器102的图像103以生成早期反射模型数据(ERE)(也被称为“早期反射参数”)1214，并且将早期反射模型数据提供给APC逻辑1206。APC逻辑1206将一般声学预设置1210、次要声学修改符1212和早期反射模型数据1214一起处理以生成最终声学调谐参数1220，并且将它们提供给IAE 124的AES126。

图像分类路径1202包括图像预处理器1222(用于声学分析)，图像预处理器1222之后是ML分类器120。图像预处理器1222处理图像103，即，原始图像数据，以生成适合于ML分类器120消耗的格式的图像。图像预处理器1222将原始图像数据格式化，和/或选择、召回或聚合原始图像数据以匹配对于ML分类器120的训练假设。例如，如上所述，图像预处理器1222可以将图像103中的连续图像一起拼接以生成用于分类的拼接图像。

假定ML分类器120已经被训练为将图像直接分类到一般声学预设置(具有它们的置信水平)和次要声学修改符这二者，那么ML分类器将来自图像预处理器1222的每个图像直接分类到一般声学预设置1210和声学修改符1212。在例子中，一般声学预设置1210包括初始混响参数，次要声学修改符1212可以包括声学吸收参数、声学反射参数、声学扩散参数和特定环境(例如，房间)尺寸中的一个或多个。

ML分类器120可以同时生成一般声学预设置1210和次要声学修改符1212，前提条件是存在足够的图像信息和足够的ML分类器(例如，神经网络)处理能力来使两种类型的分类同时进行。可替代地，ML分类器120可以(i)首先仅基于最初接收的图像和/或最初有限的处理能力来生成一般声学预设置1210，并且(ii)当进一步的图像到达和/或进一步的处理能力可用时，同时生成一般声学预设置1219和次要声学修改符1212这二者。

APC逻辑1206基于声学修改符1212来修改一般声学预设置1210的(初始)混响参数，以生成经修改的一般声学预设置，该经修改的一般声学预设置包括经修改的混响参数，并且在最终声学调谐参数1220中将经修改的一般声学预设置提供给AES 126。

材料估计路径1204包括图像预处理器1232(用于几何分析)，图像预处理器1232之后是建筑网格和材料估计器(被简称为“材料估计器”)1234。图像预处理器1232处理图像103中的原始图像数据，以生成供材料估计器1234消耗的图像。材料估计器1234为图像中描绘的场景构造(数字)建筑3D网格，基于该建筑3D网格来估计场景中描绘的材料的类型，并且估计这些材料的声学性质，以生成包括这些声学性质的早期反射模型数据(例如，参数)1214。图像预处理器1232和材料估计器1234可以使用任何已知的或以后开发的技术来执行几何图像分析、产生建筑网格、以及从网格估计材料性质。

APC逻辑1206将早期反射模型数据1214与经修改的一般声学预设置组合成最终声学调谐参数1220。可替代地和/或附加地，APC逻辑1206可以使用早期反射模型数据1214中的各种参数来进一步修正经修改的一般声学预设置。

在省略了材料估计路径1204的实施例中，早期反射模型数据1214仍可以被使用，但是被设置为例如默认值。

图13是用于基于最终声学调谐参数1220的声学参数来执行AES126的IAE 124的一部分的框图。IAE 124包括从相应的虚拟声音对象128接收相应的声音信号S1-SO的声音声道1300(1)-1300(0)。每个声道1300(i)通过一系列可调谐增益(G)、延迟和全景电位计(pan)阶段来将用于声音信号Si的相应的直射路径提供给多声道输出总线1302。所得的每个声道的直射路径声音信号被混合到多声道输出总线1302中。每个声道1300(i)还通过响应于反射控制信号1310控制反射的可调谐反射阶段(refl)来将用于声音信号Si的相应的反射路径提供给多声道输出总线。反射控制信号1310可以包括上述最终声学调谐1220的一个或多个声学参数。所得的每个声道的反射也被混合到多声道输出总线1302中。IAE 124还包括混响发生器(rev)1312，混响发生器1312由每个声道的反射馈送，并且被配置为响应于混响控制信号1314而使组合在多声道输出总线1302上的组合直射路径声音信号和反射混响。混响控制信号1314可以包括最终声学调谐参数1220的声学参数(例如，混响参数)。

图14是例如图12的XR处理器108可以执行的示例性声学参数改善处理1400的示图。在1402，初始图像数据流到ML分类器120中，ML分类器直接对初始图像数据进行分类，以生成一般声学预设置P1-PM(例如，一般声学预设置1210)的软决策标签。每个声学预设置Pi包括N个声学参数AP1-APN(参数1-参数N)的相应集合。基于置信水平选择一般声学预设置P1-PM中的一个，以生成选择的一般声学预设置。早期反射模型数据(ERE)默认参数(例如，早期反射模型数据1214的默认值)可以被添加到选择的一般声学预设置。

在1404，进一步的图像数据流到ML分类器120中，并且基于进一步的图像数据，除了一般声学预设置P1-PM之外，ML分类器还生成次要声学修改符(例如，次要声学修改符)1212。

在1406，声学参数安全性检查逻辑对选择的一般声学预设置和次要声学修改符执行声学参数安全性检查，以确保前述声学参数在给定(当前的)选择的一般声学预设置和对于执行安全性检查有用的附加信息的情况下合理的界限内。在安全性检查之后，APC逻辑1206基于次要声学修改符来修改选择的一般声学预设置，以生成经修改/合并的声学预设置，所述经修改/合并的声学预设置包括经修改的N个声学参数。ERE默认参数被保留有经修改/合并的声学预设置。

在1410，材料估计路径1204基于初始图像数据和进一步的图像数据来产生早期反射模型数据1214。

在1412，声学参数安全性检查逻辑对经修改/合并的声学预设置和早期反射模型数据1214执行声学参数安全性检查。APC逻辑1206基于早期反射模型数据1214来进一步修正经修改/合并的声学预设置，或者仅将早期反射数据添加到经修改的预设置，以生成最终声学调谐参数1220。

图15是图12的XR处理器108为房间的图像产生的示例性声学参数的表格。该表格将表格中的第一行的一般声学预设置的一般声学参数、表格的第二行的次要声学参数、以及表格的第三行中的早期反射数据参数映射到表格的列中描绘的前述参数的各种性质。该表格的第一列标识前述三种类型的声学参数。接下来的或中间的两列包括如这些列中指示的与由ML分类器120和材料估计路径1204生成的(描述性)标签相关联的信息。最后一列提供混响参数和ERE参数的例子。

高速缓存实施例

图16是如以上结合图6的方法600描述的实施例中的XR处理器108使用与已知的真实世界环境相关联的高速缓存的声学预设置的框图。在校准操作期间，图像预处理器1601和ML分类器120一起操作来将与先前的“场景”相对应的声学参数存储在校准的预设置存储器或高速缓存1602中。在校准之后，实时地，图像预处理器1601(其执行图像匹配)与逻辑1604(其可以包括ML分类器120)一起从已知的实时图像中识别声学参数，并且在没有充分图像分析的情况下，召回识别的声学参数，如上所述。在图16的实施例中，机器学习集中于使房间与预校准的场景之一匹配的早期任务。

在图16的实施例中，当校准的预设置存储器或高速缓存1602存储一般声学预设置、次要声学预设置和早期反射模型数据时，以及当这样的数据已经经过声学参数安全性检查时，APC逻辑1206可以被省略。IAE 124基于关于虚拟声音对象128的位置信息和位置信息114来完成反射。

用于声学预设置转变方法的流程图

图17-19分别是针对基于softmax分类的置信水平在声学预设置之间转变、将可用的图像安全性检查添加到转变、以及在校准的场景实施例中执行声学预设置之间的转变的方法。一般来说，图17-图19的方法防止一般/主要声学预设置和次要声学修改符的分类器被迫猜测没有有意义的/可辨别的特征的图像或真实世界场景。

图17是在声学预设置(例如，混响预设)之间转变的示例性方法1700的流程图。在包括1702和1704的环路中，方法1700建立用于IAE 124的默认声学预设置，并且检查置信的声学环境变化。如果存在置信的声学环境变化，则流程继续进行到1706以更新声学预设置，流程从1706继续进行到1708。否则，流程返回到所述环路。在包括1708、1710和1712的环路中，方法1700在1708接收基于环境的声学预设置，并且在1710检查置信的声学环境变化。如果存在置信的声学环境变化，则流程继续进行到1712以更新声学预设置。否则，流程返回到1708继续进行。

图18是在声学预设置之间转变并且执行可用图像安全性检查的示例性方法1800的流程图。方法1800类似于方法1700，除了方法1800进一步包括验证当前传感器数据(即，图像)作为可用图像的操作1802和1804之外。例如，插入在操作1702和1704之间的操作1802验证当前传感器数据验证作为可用图像(一个或多个)。如果是，则流程从1702继续进行到1704，而如果否，则流程返回到1702。类似地，操作1804插入在操作1708和1710之间，并且类似于操作1804调理操作1702和1704之间的流程的方式，调理这些操作之间的流程。

图19是在校准的场景实施例(诸如图16中描绘的实施例)中在声学预设置之间转变的示例性方法1900的流程图。在包括1902和1904的环路中，方法1900建立默认声学预设置，并且对比与校准的场景相关联的场景来检查当前场景。如果未找到校准的场景，则流程返回到1902。否则，当找到校准的场景，流程继续进行到1906，在1906，方法1900利用校准的声学预设置来更新默认声学预设置。流程从1906继续进行到1908、1910和1912，1908、1910和1912重复在1902、1904和1906执行的操作，但是从来自1906的经更新的校准的声学预设置、而不是默认声学预设置开始。

训练处理

图20是示出用于最初未训练的ML分类器120的深度神经网络(DNN)训练的示例性训练处理2000的框图，其表示以上结合图9、图10和图11A讨论的训练方法。在2002，图像预处理器1222将来自图像传感器102的真实世界环境的训练图像格式化以供未训练的ML分类器120消耗，并且将这些训练图像(被格式化)提供给ML分类器的训练输入。在2004，图像预处理器功能以用户友好的、容易查看的格式在显示器上向用户/人类操作者呈现训练图像。在2006，用户将与声学预设置、次要参数等相对应的标签/声学调谐参数应用于每个训练图像，以使得声学参数与训练图像中的真实世界环境/场景匹配。用户将标签/声学调谐参数与输入到未训练的ML分类器120的相应的训练图像相关联，以使得训练图像与它们的标签相关。在2010，ML分类器120的一个或多个神经网络在带标签的训练图像上训练。2010处的训练基于训练图像中的特征来更新ML分类器120的神经网络的滤波器系数，这导致ML分类器120的训练版本。因此，训练处理将ML分类器120的一个或多个神经网络配置为将图像直接分类到它们的对应的声学预设置。

计算机设备

参照图21，存在可以实现XR处理器108和/或IAE 124的示例性计算机设备2100的框图。存在用于设备2100的许多可能的配置，图21意在作为例子。设备2100的例子包括平板计算机、个人计算机、膝上型计算机、移动电话(诸如智能电话)等。设备2100可以包括驱动显示器和耳机的输出2104。设备2100还可以包括一个或多个网络接口单元(NIU)2108和存储器2114，它们均耦合到处理器2116。所述一个或多个NIU 2108可以包括允许处理器2116通过通信网络通信的有线和/或无线连接能力。例如，如相关领域中的普通技术人员将意识到的，NIU 2108可以包括通过以太网连接通信的以太网卡、与通信网络中的蜂窝网络无线通信的无线RF收发器等。

处理器2116可以包括一批微控制器和/或微处理器，例如，每个被配置为执行存储在存储器2114中的相应的软件指令。处理器2116可以在一个或多个可编程专用集成电路(ASIC)、固件或它们的组合中实现。存储器2114(和其中的指令)的部分可以与处理器2116整合。如本文中所使用的，术语“声学”、“音频”和“声音”是同义的且可互换的。

存储器2114可以包括：只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质设备，光学存储介质设备，闪存设备，电的、光学的或其他物理/有形的(例如，非暂时性的)存储器存储设备。因此，一般来说，存储器2114可以包括被编码有包括计算机可执行指令的软件的一个或多个计算机可读存储介质(例如，存储器设备)，当该软件被(处理器2116)执行时，它可操作为执行本文中描述的操作。例如，存储器2114存储或者被编码用于使控制逻辑2120执行本文中描述的与ML分类器120、IAE 124、图像预处理器1222和1232、APC逻辑1206、材料估计路径1204和上述方法相关的操作的指令。

另外，存储器2114存储由逻辑2120使用和产生的数据/信息2122，诸如图像、声学参数、神经网络等。

总结方法流程图

参照图22，存在对图像进行分类的示例性方法2200的流程图，方法2200包括上述各种操作。

在2202，所述方法接收真实世界环境的图像。为此，所述方法可以使用图像传感器捕捉图像，或者从预存储的图像的文件访问图像。

在2204，所述方法使用已经或者以前如本文中描述的那样训练的ML分类器来接收在操作2202捕捉的图像并且将该图像直接分类到与用于AES的(已知的)声学预设置相关联的并且指示这些声学预设置的分类。所述分类包括相应的置信水平。声学预设置均包括表示用于AES的声音混响的(已知的)声学参数。

在操作2204中分类时，声学预设置及其相应的参数已经从ML分类器的先验训练得知。因此，ML分类器将图像“直接”分类到与声学预设置相关联的并且指示这些声学预设置的分类，而不首先分类到房间类型，于是这将需要例如从房间类型推导声学参数的进一步操作。操作2204的直接分类本质上是从图像流到分类的单个分类操作，该操作提供对于与分类相关联的已知的/预定的声学参数的直接访问，而不介入参数转化。而且，AES直接(即，照原样)使用声学预设置。在实施例中，ML分类器曾在被划分为不同组的训练图像的、真实世界环境的(带标签的)训练图像上训练过。不同组的训练图像中的训练图像带有在每个不同组内相同、但是在不同组之间不同的相应的声学预设置的标签。训练图像还可以带有下面描述的进一步的操作2210-2214中利用的附加(次要)声学参数的标签。

在2206，所述方法基于分类的置信水平来选择声学预设置当中的声学预设置(即，声学预设置中的特定的一个声学预设置)。所述方法访问/检索该声学预设置。

在2208，所述方法基于声学预设置的声学参数来执行AES。AES基于声学预设置的声学参数来对虚拟地放置在真实世界环境中的一个或多个虚拟声音对象的声音混响进行建模。

在2210，所述方法使用机器学习分类器来直接对图像进行分类、或者对一个或多个进一步的图像进行分类，以生成一个或多个声学参数修改符。所述进一步的分析可以与操作2204的分类是同时的。可替代地，所述进一步的分析可以由接收附加的或随后的图像并且对这些图像进行分类而导致。

在2212，所述方法基于来自2210的一个或多个声学参数修改符来修改来自2206的声学预设置的声学参数，以生成经修改的声学预设置，所述经修改的声学预设置包括用于AES的经修改的声学参数。

在2214，所述方法使用经修改的声学参数来执行AES。

方法2200的操作2202-2206的不同组合可以表示单独的且独立的实施例。例如，操作2202-2206共同表示独立的实施例。

参照图23，存在直接对相对于在方法2200中分类的图像的后续图像或第二图像进行分类的示例性方法2300的流程图。方法2300包括上述各种操作。

在2302，所述方法捕捉/接收真实世界环境的第二图像。

在2304，使用机器学习分类器，所述方法直接对第二图像进行分类以生成具有相应的第二置信水平的第二分类。

在2306，所述方法确定第二分类中的一个或多个是否具有超过置信水平阈值的相应的第二置信水平。

在2308，如果第二分类中的一个或多个具有超过置信水平阈值的相应的第二置信水平，则所述方法基于第二分类的第二置信水平来选择声学预设置当中的第二声学预设置(声学预设置中的特定的第二声学预设置)，并且利用第二声学预设置来更新/替换所述声学预设置以用于声学环境仿真。

在2310，如果第二分类中的一个或多个没有超过置信水平阈值的对应的第二置信水平，则所述方法不选择第二声学预设置，并且不更新/替换用于声学环境仿真的声学预设置。

在方法2200和2300中，单个的分类可以是基于一个图像或多于一个的图像。例如，考虑到对图像序列(或图像帧序列)进行分类的上下文，所述方法可以一次对一个图像进行分类，以针对每个图像(或图像帧)生成单独的分类；然而，当来自几个这样的图像(或图像帧)的分类的置信水平的“滑动平均值”存在显著的/大幅的差异时，分类预设置(即，呈现给AES的声学预设置)改变或更新。此外，可以使用来自图像传感器的多个图像来增强正在分类的图像，例如，通过拼接多个视角以产生环境的裁剪较少的视角。

总之，在一个实施例中，提供了一种方法，包括：接收真实世界环境的图像；使用机器学习分类器，对所述图像进行分类以生成与用于声学环境仿真的声学预设置相关联的分类，所述声学预设置每个包括表示声音混响的声学参数；以及基于所述分类，在所述声学预设置当中选择声学预设置。

在另一实施例中，提供了一种设备，包括处理器，所述处理器被配置为：接收真实世界环境的图像；使用经训练的包括一个或多个神经网络的机器学习分类器来将所述图像直接分类到与用于声学环境仿真的声学预设置相关联的分类，所述声学预设置每个包括表示声音混响的声学参数；基于所述分类，在所述声学预设置当中选择声学预设置；以及基于所述声学预设置的声学参数来执行所述声学环境仿真。

在进一步的实施例中，提供了一种非暂时性计算机可读介质。所述计算机可读介质被编码有指令，所述指令在被处理器执行时使所述处理器执行本文中呈现的方法，所述方法包括：接收真实世界环境的图像；使用先前在带有相应的声学预设置的标签的真实世界环境的训练图像上训练过的机器学习分类器，将所述图像直接分类到与用于声学环境仿真的声学预设置相关联的分类，所述声学预设置每个包括表示声音混响的声学参数；基于所述分类，在所述声学预设置当中选择声学预设置；以及基于所述声学预设置的声学参数来执行所述声学环境仿真。

在另一实施例中，提供了一种系统，所述系统包括：图像传感器，所述图像传感器捕捉真实世界的场景的图像；处理器，所述处理器被耦合到所述图像传感器，并且被配置为：实现和使用先前训练过的机器学习分类器将所述图像直接分类到与用于声学环境仿真的声学预设置相关联的分类，所述声学预设置每个包括表示声音混响的声学参数；基于所述分类，在所述声学预设置当中选择声学预设置；以及基于所述声学预设置的声学参数来执行所述声学环境仿真，以生成指示声学环境仿真的声音信号；以及一个或多个耳机，所述一个或多个耳机被耦合到所述处理器，并且被配置为将所述声音信号转换为声音。

尽管所述技术在本文中被例示和描述为在一个或多个特定的例子中实施，但是并不意图限于所示的细节，因为可以在权利要求的等同形式的范畴和范围内做出各种修改和结构改变。

下面呈现的每个权利要求表示单独的实施例，并且组合不同的权利要求和/或不同的实施例的实施例在本公开的范围内，并且对于本领域的普通技术人员来说，在阅览本公开之后将是显而易见的。

Claims

1.一种方法，包括：

接收真实世界环境的图像；

使用机器学习分类器，对所述图像进行分类以生成与用于声学环境仿真的声学预设置相关联的分类，所述声学预设置均包括表示声音混响的声学参数；以及

基于所述分类，在所述声学预设置当中选择声学预设置。

2.根据权利要求1所述的方法，进一步包括：

基于所述声学预设置的声学参数来执行声学环境仿真。

3.根据权利要求2所述的方法，其中，执行声学环境仿真包括基于所述声学预设置的声学参数来对虚拟地放置在真实世界环境中的一个或多个虚拟声音对象的声音混响进行建模。

4.根据权利要求2所述的方法，进一步包括：

使用所述机器学习分类器，对所述图像或一个或多个进一步的图像进行分类，以生成一个或多个声学参数修改符；以及

基于所述一个或多个声学参数修改符来修改所述声学预设置的声学参数，以生成经修改的声学预设置，所述经修改的声学预设置包括用于声学环境仿真的经修改的声学参数，

其中，执行声学环境仿真包括使用所述经修改的声学参数来执行声学环境仿真。

5.根据权利要求1所述的方法，其中：

所述声学参数包括以下中的一个或多个：频率相关的衰减时间、房间大小、反射延迟、早期起始时间和扩散水平。

6.根据权利要求1所述的方法，其中，所述分类包括直接将所述图像分类到所述分类和相关联的声学预设置。

7.根据权利要求1所述的方法，其中：

所述分类包括对所述图像进行分类，以生成所述分类使得所述分类具有相应的置信水平；并且

所述选择包括选择所述声学预设置使得所述声学预设置与所述分类当中具有相应的置信水平中的最高的置信水平的分类相关联。

8.根据权利要求7所述的方法，进一步包括：

接收所述真实世界环境的第二图像；

使用所述机器学习分类器，对所述第二图像进行分类以生成具有相应的第二置信水平的第二分类；

确定所述第二分类中的一个或多个是否具有超过置信水平阈值的相应的第二置信水平；以及

如果所述第二分类中的一个或多个具有超过所述置信水平阈值的相应的第二置信水平，则基于所述第二分类，在所述声学预设置当中选择第二声学预设置，并且用第二声学预设置替换所述声学预设置以用于声学环境仿真。

9.根据权利要求8所述的方法，进一步包括：

如果所述第二分类中的一个或多个不具有超过所述置信水平阈值的对应的第二置信水平，则不选择所述第二声学预设置，并且不替换用于声学环境仿真的声学预设置。

10.根据权利要求1所述的方法，其中，所述接收真实世界环境的图像包括接收作为所述真实世界环境的360度图像的图像。

11.根据权利要求1所述的方法，其中，所述图像表示不同图像的合成物。

12.根据权利要求1所述的方法，其中，所述声学预设置的声学参数是通过算法从声学脉冲响应推导得到的，所述声学脉冲响应表示其上训练过所述机器学习分类器的训练图像中表示的真实世界环境。

13.根据权利要求1所述的方法，其中，所述声学预设置的声学参数是基于主观声音设计而开发的。

14.根据权利要求1所述的方法，进一步包括：

对所述声学预设置执行声学参数安全性检查。

15.根据权利要求1所述的方法，其中，所述机器学习分类器是在用相应的声学预设置贴标签的真实世界环境的训练图像上训练的。

16.根据权利要求1所述的方法，进一步包括：

接收数字三维(3D)网格；以及

估计所述3D网格中表示的物理材料的声学性质，以生成用于所述声学环境仿真的早期反射参数。

17.一种装置，包括：

处理器，所述处理器被配置为：

接收真实世界环境的图像；

使用经训练的包括一个或多个神经网络的机器学习分类器来将所述图像直接分类到与用于声学环境仿真的声学预设置相关联的分类，所述声学预设置均包括表示声音混响的声学参数；

基于所述分类，在所述声学预设置当中选择声学预设置；以及

基于所述声学预设置的声学参数来执行声学环境仿真。

18.根据权利要求17所述的装置，其中，所述处理器被配置为通过基于所述声学预设置的声学参数对虚拟地放置在真实世界环境中的一个或多个虚拟声音对象的声音混响进行建模来执行声学环境仿真。

19.根据权利要求18所述的装置，其中，所述处理器被进一步配置为：

使用所述机器学习分类器来进一步对所述图像进行分类，以生成一个或多个声学参数修改符；

基于所述一个或多个声学参数修改符来修改所述声学预设置的声学参数，以生成经修改的声学预设置，所述经修改的声学预设置包括用于所述声学环境仿真的经修改的声学参数；以及

使用所述经修改的声学参数来进一步执行声学环境仿真。

20.根据权利要求17所述的装置，其中：

所述分类具有相应的置信水平；并且

所述处理器被配置为通过选择所述声学预设置使得所述声学预设置与所述分类当中具有相应的置信水平中的最高的置信水平的分类相关联来进行选择。

21.根据权利要求17所述的装置，其中，所述机器学习分类器是在用相应的声学预设置贴标签的真实世界环境的训练图像上训练的。

22.一种用指令编码的非暂时性计算机可读介质，所述指令在被处理器执行时使所述处理器：

接收真实世界环境的图像；

使用先前在用相应的声学预设置贴标签的真实世界环境的训练图像训练的机器学习分类器，将所述图像直接分类到与用于声学环境仿真的声学预设置相关联的分类，所述声学预设置均包括表示声音混响的声学参数；

基于所述声学预设置的声学参数来执行所述声学环境仿真。

23.根据权利要求22所述的非暂时性计算机可读介质，其中，使所述处理器执行声学环境仿真的指令包括使所述处理器基于所述声学预设置的声学参数来对虚拟地放置在真实世界环境中的一个或多个虚拟声音对象的声音混响进行建模的指令。

24.根据权利要求23所述的非暂时性计算机可读介质，进一步包括使所述处理器执行以下步骤的指令：

基于所述一个或多个声学参数修改符来修改所述声学预设置的声学参数，以生成经修改的声学预设置，所述经修改的声学预设置包括用于声学环境仿真的经修改的声学参数；以及

使用所述经修改的声学参数来进一步执行声学环境仿真。

25.根据权利要求22所述的非暂时性计算机可读介质，其中：

所述分类具有相应的置信水平；并且

使所述处理器选择的指令包括使所述处理器选择所述声学预设置使得所述声学预设置与所述分类当中具有相应的置信水平中的最高的置信水平的分类相关联的指令。