CN115842984A

CN115842984A - 确定虚拟聆听环境

Info

Publication number: CN115842984A
Application number: CN202211151906.4A
Authority: CN
Inventors: P·莫盖; J·E·阿瑟; J·D·阿特金斯; J·O·梅里马; D·森; B·J·莱斯; A·辛格阿尔瓦拉多; J·D·谢弗; B·伯纳德; D·E·罗姆布洛姆
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2021-09-21
Filing date: 2022-09-21
Publication date: 2023-03-24
Also published as: GB202212105D0; US20230104111A1; DE102022123713A1; GB2612173A

Abstract

本公开涉及确定虚拟聆听环境。可以基于由设备的一个或多个传感器捕获的传感器信号来确定用户的当前声学环境的一个或多个声学参数。可以基于该用户的该当前声学环境的该一个或多个声学参数和包括音频信号的音频文件的声学环境来确定一个或多个预设声学参数，该音频文件的该声学环境是基于该音频文件的该音频信号或该音频文件的元数据确定的。可以通过将包括该一个或多个预设声学参数的空间滤波器应用到该音频信号，在空间上渲染该音频信号，从而产生双耳音频信号。该双耳音频信号可用于驱动头戴式耳机的扬声器。其他方面也有所描述并受权利要求书保护。

Description

确定虚拟聆听环境

相关申请的交叉引用

本申请要求提交于2021年9月21日的美国临时专利申请第63/246484号的权益，该申请以引用的方式全文并入本文。

背景技术

内容创作者可以创作音频作品或视听作品。可以根据内容创作者的品味对音频进行精确微调，以便向聆听者传递特定的体验。内容创作者可以精心制作音频，使得它随其承载有特定场景(例如，有回声的户外山腰、体育场或小型封闭空间)的可感知提示。户外录制的音频作品可以具有可感知声学提示，其使聆听者产生身临户外环境的感觉。类似地，如果音频作品是在房间内录制的，则可以虚拟地使聆听者产生身临该房间的感觉。

用户可以在各种位置聆听音频作品。每个位置可以具有不同的声学环境。例如，用户可以在汽车中、在草地上、在教室内、在火车上或在客厅内聆听音频作品或视听作品。用户周围的每个声学环境可随其承载对要如何听到声音的预期，即使声音是由用户所佩戴的耳机产生的。

发明内容

在一个方面，由处理器执行的方法包括：基于由设备的一个或多个传感器捕获的传感器信号，确定用户的当前声学环境的一个或多个声学参数。基于用户的当前声学环境的一个或多个声学参数和包括音频信号的音频文件的声学环境来确定一个或多个预设声学参数，该音频文件的声学环境是基于音频文件的音频信号或音频文件的元数据确定的。通过将一个或多个预设声学参数应用到音频信号，在空间上渲染音频信号，从而产生双耳音频信号。双耳音频信号可用作驱动扬声器的输入。以此方式，可以在用户的当前声学环境与音频文件的声学环境之间达成折衷。

在一个方面，由设备的处理器执行的方法包括：确定音频文件或视听文件是否包括元数据，该元数据包含用于回放的声学环境。响应于音频文件或视听文件包括包含声学环境的元数据，处理器根据元数据的声学环境在空间上渲染与音频文件或视听文件相关联的音频信号。响应于音频文件或视听文件不包括元数据，处理器基于以下在空间上渲染音频信号：用户的当前环境的一个或多个声学参数，音频文件或视听文件的当前场景，和/或基于音频文件或视听文件的内容类型。以此方式，内容创作者可以通过元数据精确地控制声学环境，然而，如果不存在元数据，则可以在用户的当前声学环境与音频文件的声学环境之间达成折衷。

以上概述不包括本公开的所有方面的详尽列表。可预期的是，本公开包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在权利要求书部分特别指出的各个方面的所有合适的组合来实践的所有系统和方法。此类组合可具有未在上述发明内容中具体阐述的特定优点。

附图说明

为了容易地识别对任何特定元件或动作的讨论，参考标号中的一个或多个最高有效数位是指首先引入该元件的附图编号。

图1示出了根据一些方面的音频文件或视听文件的音频处理。

图2示出了根据一些方面的对用于音频处理的声学参数的选择。

图3示出了根据一些方面的用于确定和应用预设声学参数的工作流程。

图4示出了根据一些方面的用于确定预设声学参数的方法。

图5示出了根据一些方面的用于确定预设声学参数的方法。

图6示出了根据一些方面的用于确定预设声学参数的音频处理操作。

图7示出了根据一些方面的具有声学参数的元数据。

图8示出了根据一些方面的音频处理系统。

具体实施方式

人类可以通过分析其两只耳朵处的声音来估计声音的位置。这被称为双耳听力，并且人类听觉系统可以使用声音在我们身体周围衍射并反射离开以及与我们的耳廓进行交互的方式来估计声音的方向。

麦克风可通过用电声换能器将声压变化转换成电信号来感测声音。可以用模数转换器(ADC)将电信号数字化。可以用空间滤波器来渲染音频以用于回放，使得音频被感知为具有空间特质。空间滤波器可以将空间提示人工地赋予到音频中，该空间提示类似于由我们的人体工程学和耳廓自然引起的衍射、延迟和反射。空间滤波的音频可以由空间音频再现系统制作，并且通过耳机输出。

具有耳机的空间音频再现系统可以追踪用户的头部运动。双耳滤波器可以基于用户的头部位置来选择，并且随着头部位置变化而连续地更新。这些滤波器应用于音频，以保持声音来自空间中的一些期望位置的错觉。这些空间双耳滤波器被称为头部相关冲激响应(HRIR)。

聆听者估计距离(不仅仅是相对角度)，特别是在室内空间中估计距离的能力与信号的直接部分(即，无反射)的等级相对于混响(有反射)的等级有关。这种关系被称为直达混响比(DRR)。在聆听环境中，反射是由声能引起的，该声能从一个或多个表面(例如，墙壁或物体)反弹开，然后到达聆听者的耳朵。在房间内，单个声源可以产生在不同时间来自不同表面的许多反射。来自这些反射的声能(其可以理解为混响)可能随时间逐渐增强然后衰减。

混响有助于形成声音来自房间内的源的强烈错觉。如此，空间滤波器和被赋予到左输出音频信道和右输出音频信道中的双耳提示应包括一些混响。这种混响可由人的存在和房间的性质来塑造，并且可以通过一组双耳房间冲激响应(或BRIR)进行描述。

稳健的虚拟声学模拟(例如，空间音频)极大地受益于使房间虚拟化以引起声音外化感，其可以理解为感觉到声音不是来自耳机，而是来自外部世界。决定虚拟房间的声学参数对提供令人信服的空间音频体验非常重要。

一般来讲，虚拟房间越类似于人在其内操作的真实房间的声学效果，外化感就越似真实。然而，当再现预先录制的音频内容诸如电影、播客、音乐或其他内容时，使用空间音频来模拟真实房间可能对体验不利，因为虚拟房间的声学效果可能比录制内容的声学效果强大或者与其形成感知差异。这种情况的典型示例是户外电影场景，其中用户可能期望听不到或听到极少的混响，但由于虚拟化，用户可能会从虚拟房间听到大量混响。在此类情况下，可以在再现似真性(其有助于外化和包围感)和再现保真性(其保持如内容创作者所预期的观看体验)之间进行权衡或达成折衷。

在一些方面，系统可以基于对真实房间的声学效果和被回放的内容的声学效果的分析和/或先验知识来选择最佳虚拟房间预设或混响算法的参数。

图1示出了根据一些方面的音频文件或视听文件的音频处理。音频处理系统116可以包括传感器122，诸如麦克风、相机或可以表征用户112的声学环境120的其他传感器。音频系统处理系统可以集成在设备诸如头戴式耳机104和/或其他计算设备110内。在一些方面，计算设备可以是膝上型电脑、移动电话、平板电脑、智能扬声器、媒体播放器或其他计算设备。计算设备可包括显示器。在一些方面，音频处理系统可以分布在多于一个计算设备之间。音频处理系统可以感测用户的声学环境。例如，音频处理系统可以集成在设备110或104内，该设备存在于户外的草地中或者在有用户的客厅内。传感器122可以生成随其携带空间的感测到的声音和声学属性的麦克风信号。

音频文件102可包含音频信号106和元数据114。在一些方面，音频文件可以是也包括视频信号108的视听文件。音频处理系统116可以确定要被应用来在空间上渲染音频信号106的预设声学参数118。预设声学参数可以被确定或选择为用户的声学环境与音频文件的声学环境之间的折衷。

音频处理系统116可以基于麦克风信号、视频信号或其他感测到的数据来确定用户的当前声学环境的一个或多个声学参数。音频处理系统可以将一个或多个音频处理算法应用于麦克风信号以提取用户的环境的声学参数。这些声学参数可以包括特定于用户的当前环境的混响时间、直达混响比(DRR)、反射密度、包围感或语音清晰度中的至少一者。因此，如果用户重新定位到新空间，则可以更新这些声学参数以表征用户的新声学环境。可以重复地诸如周期性地或响应于环境的变化确定此类声学参数，以更新如何以响应于用户的环境的实时变化的方式将音频空间化。

音频处理系统可以基于不同因素(诸如用户的当前声学环境的一个或多个声学参数和音频文件102的声学环境)来确定或选择一个或多个预设声学参数118。在一些情况下，音频文件的声学环境可以例如使用软件进行人工创作。音频文件或视听文件102可以包括例如歌曲、播客、无线电节目、电影、演出、录制的音乐会、视频游戏、或其他音频或视听作品。不同的声学环境可以具有不同的声学参数，诸如混响、DRR、回声、反射密度、包围感或语音清晰度。例如，可以在声学环境中录制音频信号106，声学环境诸如户外布景、室内布景、大教堂、储藏室、其他声学环境，其各自具有独特的声学特性。

可以基于音频文件的音频信号或音频文件的元数据来确定音频文件的声学环境，其可以被称为基于内容的声学环境。音频处理系统116可以将一个或多个算法应用于音频信号106以提取音频信号106的声学参数。音频处理系统可以对在其中录制(或人工创作)音频信号106的声学环境进行分类。例如，音频处理系统可以将文件的声学环境分类为“户外的”或“室内的”。可以用更大的粒度对声学环境进行分类，例如，音频文件的声学环境可以被分类为“大型房间”、“中型房间”或“小型房间”。音频文件的声学环境可以从一个场景变为另一个场景。例如，在音频文件开始时，场景可以是户外的。场景可以在音频文件的中部转变成为室内的，然后再次返回呈户外的。类似地，场景可以从一个室内房间变化为具有不同几何形状、大小和/或阻尼表面的不同房间。

音频文件或视听文件可以包含可以描述作品的一个或多个场景的元数据114。该场景可能在整个作品中发生变化。例如，元数据可以将第一场景指定为“户外的”，并将第二场景指定为“室内的”。音频处理系统116可以读取元数据以对音频文件的声学环境进行分类。例如，如果元数据表明当前场景是“户外的”，则基于内容的声学环境可以被分类为“户外的”。如果元数据表明当前场景是“室内的”，则基于内容的声学环境可以被分类为“室内的”。如果元数据表明当前场景为“卧室”，则基于内容的声学环境可以被分类为“卧室”。在一些方面，元数据可以指定：当前场景将为“用户112的声学环境”，在这种情况下，音频处理系统可以从麦克风信号或其他传感器数据确定用户的声学环境，如所描述的。在一些方面，元数据可以包括要由音频处理系统使用的一个或多个预设声学参数118，这些参数也可以根据场景发生变化。

在一些方面，音频处理系统可以分析视频信号108以确定基于内容的声学环境。例如，音频处理系统可以使用计算机视觉(例如，经训练的机器学习算法)来分析视频以确定内容是否正显示户外场景或室内场景、大型房间、中型房间、小型房间、体育场、或其他声学环境。类似地，音频处理系统可以将计算机视觉算法应用于图像以确定用户112的声学环境。

音频处理可以基于用户112的声学环境来选择或确定预设声学参数118，并且如所描述的基于内容的声学环境可以基于元数据114、音频信号106和/或视频信号108进行分类。在一些情况下，音频处理系统可以使用更加高度类似于基于内容的声学环境的预设声学参数，而在其他情况下，音频处理系统可以使用更加高度类似于用户120的声学环境的预设声学参数。这可以取决于各种因素，如其他部分所进一步描述。

在一些方面，音频处理系统可以首先扫描指示基于内容的声学环境的元数据。如果存在此类元数据，则音频处理可以基于元数据来确定预设声学参数。如果不存在，则音频处理系统可以回退分析音频信号106和/或视频信号108，以确定预设声学参数。

音频处理系统可以在空间上渲染一个或多个音频信号，这可以包括将一个或多个预设声学参数应用于音频信号。例如，音频处理系统可以用表征头部相关传递函数(HRTF)的空间滤波器对音频信号进行卷积。这些空间滤波器可包括预设声学参数，诸如混响时间、DRR或其他预设声学参数。音频处理系统可以用所得的双耳音频信号来驱动头戴式耳机104的扬声器。

图2示出了根据一些方面的用于选择用于音频处理的声学参数的系统。如所讨论，可以在再现似真性和再现保真性之间进行权衡或达成折衷。用户在音频中被外化和包围的程度越高，空间再现对用户来说就越似真实或令人信服。然而，此类渲染可能不符合预期的声学场景。预设选择器212可以确定使空间音频似真实的与保持如内容创作者所预期的原始观看体验之间的权衡。

预设选择器212可以确定一个或多个预设声学参数216。预设声学参数可以与多个预设声学环境214中的每个预设声学环境相关联。可以在计算机可读介质中存储和访问预设声学环境。预设声学环境的这种库可以包括各种环境，诸如例如大型房间、小型房间、具有不同几何形状的房间、具有不同表面吸收表面的房间、具有物体(例如，家具)的各种布置的房间、户外空间及有回声的户外空间、大教堂、体育场、图书馆、客厅、卧室、或其他声学环境。预设声学环境可以在较早时间确定，存储在存储器中，并在处理音频文件时调用。预设声学环境中的每个预设声学环境都可以包括对应的预设声学参数。例如，大型房间可以具有长混响时间，而小型房间可以具有短混响时间。预设选择器可以选择预设声学环境214，或者直接选择预设声学参数216。在一些方面，预设选择器不选择预设声学环境，而是基于对用户的声学环境的分析和/或对内容的音频或视频信号的分析来生成对期望声学环境建模的房间模型。这种期望声学环境可以用于代替预设声学环境，或者可用于通知对预设声学环境的选择。

预设选择器可以响应于音频文件的声学环境为户外场景而确定或选择预设声学参数以增大与音频文件的声学环境的类似性。另一方面，预设选择器可以响应于音频文件的声学环境是室内的或不存在而选择预设参数以增大与用户的当前声学环境的类似性。

例如，如果用户正聆听在户外录制的音频文件，则创作者的意图可以为使用户体验声音，如同该场景是户外的一样。如此，预设选择器可以减小应用于音频文件的‘房间效应’。然而，如果音频文件的场景变为室内布景，则预设选择器可以增大‘房间效应’以改善空间渲染的似真性。这可以在较少考虑预期的音频场景的情况下完成，因为音频文件的室内场景可以与用户的声学环境(例如，客厅)在感知上类似。如线图中所示，预设选择器可以选择预设声学参数，用于更强调似真性的室内电影场景206(更向左)以及更强调保真性的户外电影场景208(更向右)。“房间效应”可以被理解为人工应用虚拟房间的声学参数，其中该虚拟房间可以类似于用户的实际声学环境。

预设选择器可以响应于音频文件的元数据中的指示标识210而选择预设声学参数216以使与音频文件的声学环境的类似性增大。例如，元数据可以包括控制诸如一个值，该值在一个端部完全关闭“房间效应”，使得音频用录制的声学环境在空间上渲染，而无需添加的混响或其他人工添加的声学环境。在该值的另一个端部，可以选择预设声学环境以使与用户的当前环境的类似性增大。在一些方面，控制可以是一个二进制值，该二进制值也完全关闭“房间效应”，使得录制的声学环境在没有附加声学环境应用于音频文件的情况下进行空间化。

在一些方面，可以在音频文件的元数据中指定声学参数。如果元数据中存在声学参数，则预设选择器可以将这些元数据声学参数作为预设声学参数216应用于音频文件。如果元数据中存在声学参数和控制，则该控制可以指示以下条件：这些声学参数例如要在特定时间应用于特定的场景。

在一些方面，预设选择器可以响应于音频文件与视觉作品相关联而选择预设参数以增大与音频文件的声学环境的类似性。另一方面，预设选择器可以响应于音频文件不与视觉作品相关联而选择预设参数以增大与用户的当前声学环境的类似性。

例如，如柱形图所示，如果音频文件是视听文件诸如电影，则这可以使预设选择器朝保真性偏向。预设选择器可以选择预设参数，其中用于室内电影场景206的“房间效应”比用于播客204或虚拟助理202的更少。尽管可以在声学环境中录制播客，但这通常是录制过程的制品，而不是创作者的预期声学效果。因此，预设选择器可以选择预设参数，其中更强调似真性，对播客体验的影响最小。另一方面，虚拟助手可以包括不具有声学环境的人工生成的语音。因此，预设选择器可以选择预设声学参数，其中完全强调似真性。在一些方面，可以确定用户的当前声学环境的一个或多个声学参数，并且可以应用那些声学参数以产生“房间效应”。

预设选择器可以应用或调节权重或其他控制参数，以使对预设声学参数的选择朝类似于音频文件的声学环境或朝类似于用户的声学环境偏向。例如，增大或减小控制参数可以使对预设声学参数216或预设声学环境214的选择朝似真性偏向。增大或减小控制参数可以使选择朝保真性偏向。可以线性或非线性方式应用控制参数，以根据需使选择偏向。

图3示出了根据一些方面的用于确定和应用预设声学参数的工作流程。一个或多个麦克风316可以生成相应的麦克风信号。一个或多个麦克风可以集成在计算设备内。在一些方面，一个或多个麦克风可以集成在具有扬声器314的公共设备中。扬声器314可以是头戴式扬声器或一个或多个扬声器。

声学参数估计器302可以基于由一个或多个麦克风捕获的麦克风信号来确定用户的当前声学环境的一个或多个声学参数。声学参数可以包括混响时间(例如，T60、T30等)、直达混响比(DRR)、反射密度、包围感、语音清晰度或其他声学参数中的一者或多者。

在一些方面，声学参数估计器可以将机器学习模型(例如，神经网络或其它机器学习算法)应用于麦克风信号以确定用户的当前声学环境的声学参数。可以用现有数据集训练神经网络或其它机器学习模型，使得模型可以以最小错误提取声学参数。

附加地或另选地，声学参数估计器302可以使用数字信号处理算法(诸如盲室估计算法、波束形成或频域自适应滤波器(FDAF))来确定用户的当前声学环境的一个或多个声学参数。盲室估计可以被理解为使用混响信号的录制品来估计空间的声学参数，诸如在不使用原始发射信号并且不产生人工测试刺激以分析空间的响应的情况下。因此，可以将盲室估计算法应用于麦克风信号以确定麦克风所位于的空间的声学参数，该空间可以被假定为用户所位于的空间。波束形成可以包括将相移应用于麦克风信号或音频信号以形成相长干涉和相消干涉，从而在一些方向上强调声学拾取并在其他方向上去强调声学拾取。频域自适应滤波器可以包括对麦克风信号的滤波、错误估计和基于错误估计的抽头权重自调整。其他数字信号处理算法可用于估计用户的环境的声学参数。

类似地，声学参数估计器308可以应用数字信号算法或机器学习模型(如相对于框302所描述)于音频文件312的一个或多个音频信号，以确定基于内容的声学参数。应当理解，对于本公开，音频文件能够与视听文件互换。基于内容的声学参数可以被理解为在其中录制音频信号的声学环境的声学参数。在一些方面，内容的声学环境可以由创作者人工改变，例如在后期制作中。无论如何，音频信号都可以携带用作内容的声学环境的可感知提示的声学参数。例如，如果音频文件的场景是音乐厅，则可存在长混响时间并且在许多方向上可存在强大的声能。在这种情况下，估计器308可以由音频信号确定RT60(其将相对长)、DRR(其将相对低)、包围感(其将相对高)或其他基于内容的声学参数。

在一些方面，元数据可以包括场景的基于内容的声学参数。声学环境分类器310可以扫描元数据，或者预设选择器可以直接选择这些基于内容的声学参数并将其用作要应用于音频信号的预设声学参数。

声学环境分类器310可以基于声学参数或基于元数据对音频文件的环境进行分类。音频文件的声学环境可以按房间容积(例如，大型房间、中型房间、小型房间)、是开放空间(例如，户外)、或者是封闭空间(例如，室内)进行分类。可以不同的粒度等级对声学环境进行分类。在一些方面，该环境可以基于空间类型进行分类，诸如例如房间、图书馆、大教堂、体育场、森林、空旷场地、山腰、山谷等。

元数据可以指示：场景是“户外的”、“室内的”、大型房间、中型房间、小型房间、混响房间、音乐厅、图书馆或其他声学环境。声学环境分类器可以使用元数据中指示的环境对声学环境进行分类。如果元数据中不存在环境，则分类器可以基于基于内容的声学参数来确定声学环境。例如，如果RT60是量“x”，并且DRR是量“y”，则声学环境可以分类为音乐厅。如果RT60是“a”并且/或者DRR是“b”，则声学环境可以分类为户外。

预设选择器304可以基于以下确定一个或多个预设声学参数：在框302处确定的、用户的当前声学环境的一个或多个声学参数；和/或如在框310处分类的、基于音频文件的音频信号或音频文件的元数据确定的音频文件的声学环境。在一些方面，预设选择器可以使用基于规则的算法，其基于内容类型、场景类型和用户的声学环境来确定预设声学参数(或选择包括预设声学参数的预设声学环境)。例如，预设选择器可以强制实施规则，该规则表明：如果内容类型＝“电影”，场景＝“户外”，并且用户的声学环境的声学参数＝“混响”，则将预设声学参数设置为“低混响”。在一些方面，预设选择器可以生成房间模型以形成期望的虚拟声学环境。房间模型可以包括限定声学行为的参数、算法和/或数学关系，诸如例如，混响时间、冲激响应或声学参数。用户的声学环境的估计结果(来自框302)和内容的估计结果(来自框308)可以包括房间模型的参数，诸如例如房间大小和/或模拟表面的吸收率。混响时间和/或其他声学参数可以从房间大小(例如，容积)、吸收率和混响时间之间的关系导出。例如，T＝.16V/A，其中T表示混响时间，V表示房间容积，并且A表示房间的总吸声率。房间模型可以包括基于控制参数从其导出声学参数的其他关系。这些声学参数可以用作预设声学参数。

附加地或另选地，预设选择器可以使用数据驱动算法，诸如经训练的神经网络或其他经训练的机器学习模型。数据驱动算法可以从大型数据池选择一个或多个预设声学参数。机器学习模型可以经训练，使得当应用于内容类型、音频场景类型和/或用户环境的一个或多个声学参数时，该模型可以以最小错误输出预设声学参数。

如此，系统可以对音频文件的声学环境进行分类(在框310处)，并且选择预设声学参数(在框304处)作为音频文件的声学环境与一个或多个真实声学参数之间的平衡或折衷。可以在诸如以下某些情况下添加用户的“房间效应”：在室内场景中，严格用于音频内容；或者音频不具有其自身的声学环境的情况。可以在诸如以下其他情况下调低或关闭用户的“房间效应”：电影；或者内容创作者已在元数据中如此指定的情况。系统可以在不同参数(例如元数据)中采取音频的声学环境和用户的声学环境，并且确定或选择最佳声学场景。

在一些方面，声学环境分类器310可以基于音频文件或视听文件312的视频信号对空间进行分类。例如，分类器可以包括计算机视觉算法，其可以确定场景是户外场景还是室内场景。

在一些方面，可以存储并在稍后的时间重新使用用户的当前声学环境的一个或多个声学参数。例如，用户可以观看演出(例如，视听文件)，从而触发图3中所示的工作流程。用户的客厅的混响时间和/或DRR可以在框302处存储在计算机可读介质中。第二天，当用户返回到客厅并聆听播客时，设备诸如智能电话或扬声器314可感测到用户处于同一声学环境(即，客厅)中。存储的混响时间和/或DRR可以重新使用来将播客空间化，使得它们不需要进行重新计算。

空间渲染器306可以将空间滤波器应用于一个或多个音频信号318。空间渲染器可以用空间滤波器对一个或多个音频信号进行卷积，以产生所得空间化音频信道。所得空间化音频信道可以用于驱动扬声器314。扬声器314可以包括佩戴在用户的耳朵中或耳朵上的左扬声器和右扬声器。在一些方面，扬声器314可以包括可以与一个或多个扬声器箱成一体的一个或多个扬声器阵列。空间渲染器可以基于预设声学参数选择空间滤波器，使得空间滤波器包括预设声学参数的期望效果，诸如例如期望的混响时间、DRR、包围感、反射密度、包围感和/或语音清晰度。

应当理解，尽管所示的处理框被分组为单独框以显示工作流程，但是它们中的每一个都可以用音频处理系统执行或者分布在可以通过网络通信的多个音频处理系统之间。一些框或所有框可以组合为一个或多个其他框。

图4示出了根据一些方面的音频处理方法400。方法400可以用所描述的各个方面执行。该方法可以由设备、硬件(例如，电路、专用逻辑部件、可编程逻辑部件、处理器、处理设备、中央处理单元(CPU)、片上系统(SoC)等)、软件(例如，在处理设备上运行/执行的指令)、固件(例如，微码)或它们的组合来执行。尽管在方法中描述了特定功能框(“框”)，但是此类框是示例。也就是说，各方面非常适合于执行方法中所述的各种其它框或所述框的变化。应当理解，方法中的框可以以不同于呈现的顺序执行，并且并非方法中的所有框都可以执行。

在框402处，处理器可以基于由设备的一个或多个传感器捕获的传感器信号，确定用户的当前声学环境的一个或多个声学参数。例如，处理器可以将数字信号处理算法或机器学习算法应用于由麦克风捕获的麦克风信号和/或由相机捕获的相机图像，如其他部分所描述。

在框404处，处理器可以基于用户的当前声学环境的一个或多个声学参数和包括音频信号的音频文件的声学环境来确定一个或多个预设声学参数，该音频文件的声学环境是基于音频文件的音频信号或音频文件的元数据确定的。

例如，处理器可以由音频文件的音频信号确定基于内容的声学参数。处理器可以基于元数据或基于内容的声学参数对音频文件的环境进行分类。预设选择器可以基于对音频文件的声学环境的分类和用户的声学环境的声学参数来选择预设声学参数。还描述了其他方面。

在框406处，处理器可以通过将一个或多个预设声学参数应用于音频信号，在空间上渲染音频信号，从而产生空间化音频信号。在框408处，处理器可以用空间音频信号来驱动扬声器。

图5示出了根据一些方面的用于确定预设声学参数的方法。方法500可以用所描述的各个方面执行。该方法可以由硬件(例如，电路、专用逻辑部件、可编程逻辑部件、处理器、处理设备、中央处理单元(CPU)、片上系统(SoC)等)、软件(例如在处理设备上运行/执行的指令)、固件(例如，微码)或它们的组合来执行。尽管在方法中描述了特定功能框(“框”)，但是此类框是示例。也就是说，各方面非常适合于执行方法中所述的各种其它框或所述框的变化。应当理解，方法中的框可以以不同于呈现的顺序执行，并且并非方法中的所有框都可以执行。

在框502中，处理器可以确定音频文件或视听文件是否包括元数据，该元数据包含用于回放的声学环境或声学参数。例如，处理器可以扫描元数据以确定是否存在声学环境或声学参数。

在框504中，响应于音频文件或视听文件包括包含声学环境或声学参数的元数据，处理器可以根据元数据的声学环境或声学参数在空间上渲染与音频文件或视听文件相关联的音频信号。

在框506中，响应于音频文件或视听文件不包括元数据，处理器可以基于以下在空间上渲染音频信号：用户的当前环境的一个或多个声学参数，音频文件或视听文件的当前场景，或者基于音频文件或视听文件的内容类型。

例如，响应于音频文件或视听文件的当前场景是户外场景，音频信号可以在与用户的当前环境的相似性较小的情况下在空间上渲染。另一方面，响应于音频文件或视听文件的当前场景是室内场景，音频信号可以在与用户的当前环境的相似性较大的情况下在空间上渲染。

响应于音频文件或视听文件的内容类型是电影，音频信号可以在空间上渲染，其中与用户的当前环境的相似性较小，并且其中与从音频文件或视听文件的音频信号或视频信号中提取的声学参数的相似性较大。另一方面，响应于音频文件或视听文件的内容类型是播客或脱口秀，音频信号可以在与用户的当前环境的相似性较大的情况下在空间上渲染。

通过增大或减小权重或其他控制参数并且/或通过基于特定次序选择预设声学参数，可以使对音频信号的渲染偏向为与当前环境更类似(例如，增大的“房间效应”)且与当前环境不太类似(例如，较小的“房间效应”)。例如，预设声学参数可以沿如图2所示的从似真性到保真性的滑动标尺进行排序和分组。

图6示出了根据一些方面的音频处理操作。操作可由音频处理系统执行，其中各方面在其他部分中描述。

在框602处，音频处理系统可以读取音频文件或视听文件的元数据，并确定是否存在指定是否要保留原始声学环境的控制。控制可以指定：将不添加附加混响或其他“房间效应”。在一些情况下，控制可以定义要在空间化期间应用的声学参数。因此，在框602处，如果元数据包括控制或其他指示标识，则音频处理系统可以前进到框612，在该框中，该音频处理系统可以使用在元数据中指定的或在音频文件的音频信号中固有的声学环境或声学参数。

如果元数据没有任何此类指示，则音频处理系统可以前进到框604。如果音频文件仅是不具有视觉分量的音频，诸如播客、脱口秀、音乐或虚拟助手，则音频处理系统可以前进到框610并增大用户的声学环境的影响。音频处理系统可以前进到框608并确定音频文件是否具有室内布景或户外布景。这可以基于技术(诸如例如数字信号处理、基于机器学习的技术或元数据)来执行，如其他部分中所描述。如果音频文件被确定为具有户外布景，则音频处理系统可以前进到框614并减小用户的声学环境的影响。如果音频文件具有室内布景，则音频处理系统可以重新访问框610并进一步增大用户的声学环境的影响。因此，可能旨在于户外发出声音的纯音频文件可能具有更小的所应用的房间效应，而在室内录制的那些音频文件可能具有更大的所应用的房间效应。

如果音频文件不是纯音频的，则音频处理系统可以前进到框614并减小用户的声学环境的影响。音频处理系统可以前进到框606。如果视听文件是电影，则音频处理系统可以重新访问框614以进一步减小用户的声学环境的影响。如果视听文件不是电影，则音频处理系统可以前进到框610并增大用户的声学环境的影响。

音频处理系统可以前进到框608。如果视听场景是户外场景，则音频处理系统可以重新访问框614并进一步减小用户的声学环境的影响。否则，如果其是室内电影场景，则音频处理系统可以前进到框610以增大用户的声学环境的影响。如所讨论，可以调节一个或多个权重或其他控制参数以增大或减小用户的声学环境的影响。

在框608处，考虑到用户的声学环境应在确定预设声学参数方面应具有多大影响(如确定为操作的结果)，音频处理系统可以使用基于元数据或用户的声学环境确定的预设声学参数来将音频空间化。

图7示出了根据一些方面的元数据704。元数据704可以与音频文件或视听文件成一体或与其相关联。如所提及，音频文件或视听文件可以包括静态文件或流式传输数据。

元数据可以包括描绘场景的开始和结束的时间戳716。每个场景可以具有其自身的描述场景的声学环境的一组字段。淡入淡出区域78可以被指定用于场景之间的转变。另外，元数据可以包括虚拟化指示标识724，其可以包括指示是否向音频应用房间效应的控制。此类指示标识可以是二进制值或其他值，其提供用户的环境可能对当前音频或视听作品具有多大影响的滑动标尺。

元数据704可以包括可以指示声学环境或声学参数的各种字段。例如，元数据可以具有字段710，其指示场景是室内的还是户外的。元数据可以指定场景的声学环境中的房间大小706、房间几何形状708和/或各种表面的表面吸收率712。元数据可以包括声学环境内的空气密度和/或湿度714。元数据可以包括声学参数726，诸如混响时间、DRR、反射密度、包围感、语音清晰度或其他声学参数。

在一些方面，音频处理系统720可以创作元数据并将其嵌入音频文件或视听文件或将其与音频文件或视听文件相关联。音频处理系统可以从源702获得音频文件或视听文件，该源可以是捕获设备(例如，麦克风和/或相机)。在一些方面，源702可以是下游设备，诸如用于音频数据或视听数据的后期制作的计算机。

在一些方面，音频处理系统可以实时地或在场景被捕获设备捕获的同时创作元数据。在一些方面，音频处理系统720可以与捕获设备成一体。音频处理系统可以包括传感器722，诸如例如一个或多个麦克风、气压计和/或相机。音频处理系统将数字信号处理算法和/或机器学习模型应用于音频文件的音频信号或视频或应用于传感器数据，以确定元数据字段，诸如706、708、710、712、714和726。用户可以设置虚拟化指示标识722，或者音频处理系统可以应用基于规则的算法或基于机器学习的算法来设置虚拟化指示标识字段，如其他部分中所描述的那些。

如此，音频处理系统可以生成由下游设备(例如，在其他部分中描述的音频处理系统)使用的元数据704，以确定要在何时将哪些声学参数应用于音频文件。元数据可以明确地指示期望声学环境、基于内容的声学环境和用户的声学环境的期望混合和/或可在下游从其推断声学设置的其他声学数据(例如，房间大小、几何形状、表面参数等)。

在一些方面，一种方法包括：确定音频文件或视听文件是否包括元数据，该元数据包含用于回放的声学环境；响应于音频文件或视听文件包括元数据(其包含用于回放的声学环境)，根据元数据的声学环境在空间上渲染与音频文件或视听文件相关联的音频信号；以及响应于音频文件或视听文件不包括元数据，基于以下在空间上渲染音频信号：用户的当前环境的一个或多个声学参数，音频文件或视听文件的当前场景，或者基于音频文件或视听文件的内容类型。在一些方面，响应于音频文件或视听文件的当前场景是户外场景，音频信号在与用户的当前环境的相似性较小的情况下在空间上渲染。在一些方面，响应于音频文件或视听文件的当前场景是室内场景，音频信号在与用户的当前环境的相似性较大的情况下在空间上渲染。在一些方面，响应于音频文件或视听文件的内容类型是电影，音频信号在空间上渲染，其中与用户的当前环境的相似性较小，并且其中与从音频文件或视听文件的音频信号或视频信号中提取的声学参数的相似性较大。在一些方面，响应于音频文件或视听文件的内容类型是播客或脱口秀，音频信号在与用户的当前环境的相似性较大的情况下在空间上渲染。

图8示出了根据一些方面的音频处理系统。音频处理系统可以是计算设备，诸如例如台式计算机、平板电脑、智能电话、膝上型计算机、智能扬声器、媒体播放器、家用电器、耳机组、头戴式显示器(HMD)、智能眼镜、用于汽车或其他车辆的信息娱乐系统、或其他计算设备。系统可以被配置为执行本公开中描述的方法和过程。

尽管示出了可被结合到耳机、扬声器系统、麦克风阵列和娱乐系统中的音频处理系统的各种部件，但该例证仅是可存在于音频处理系统中的部件的类型的特定具体实施的一个示例。该示例并不旨在表示使这些部件互连的任何特定架构或方式，因为此类细节与本文所述的各方面并无密切关系。还应理解，还可使用具有比所示的更少或更多的部件的其他类型的音频处理系统。因此，本文所述的过程不限于与所示硬件和软件一起使用。

音频处理系统可以包括用于将系统的各种部件互连的一条或多条总线818。如本领域中所公知地，一个或多个处理器804耦接到总线。一个或多个处理器可以是微处理器或专用处理器、片上系统(SOC)、中央处理单元、图形处理单元、通过专用集成电路(ASIC)创建的处理器或它们的组合。存储器810可包括使用本领域已知的技术耦接到总线的只读存储器(ROM)、易失性存储器和非易失性存储器或它们的组合。传感器816可以包括IMU和/或一个或多个相机(例如，RGB相机、RGBD相机、深度相机等)或本文描述的其它传感器。音频处理系统还可以包括显示器814(例如，HMD或触摸屏显示器)。

存储器810可连接到总线并且可包括DRAM、硬盘驱动器或闪存存储器，或磁性光驱或磁性存储器，或光驱或者是甚至在系统断电之后仍维护数据的其他类型的存储器系统。在一个方面，处理器804检索存储在机器可读存储介质(存储器)中的计算机程序指令并执行这些指令以执行本文所述的操作。

尽管未示出，但音频硬件可耦接到一条或多条总线，以便接收待由扬声器808处理并输出的音频信号。音频硬件可包括数模转换器和/或模数转换器。音频硬件还可包括音频放大器和滤波器。音频硬件还可与麦克风806(例如，麦克风阵列)连接以接收音频信号(无论是模拟的还是数字的)，在适当时将其数字化，并且将该信号传送到总线。

通信模块812可通过有线或无线接口与远程设备和网络通信。例如，通信模块可通过已知的技术诸如TCP/IP、以太网、Wi-Fi、3G、4G、5G、蓝牙、ZigBee或其他等效技术进行通信。通信模块可包括可与联网设备诸如服务器(例如，云端)和/或其他设备诸如远程扬声器和远程麦克风通信(例如，接收和发送数据)的有线或无线发射器和接收器。

应当理解，本文所公开的方面可利用远离系统的存储器，诸如通过网络接口诸如调制解调器或以太网接口耦接到音频处理系统的网络存储设备。如本领域所熟知的，总线可通过各种网桥、控制器和/或适配器彼此连接。在一个方面，一个或多个网络设备可以耦接到总线。网络设备可以是有线网络设备(例如，以太网)或无线网络设备(例如，Wi-Fi、蓝牙)。在一些方面，所述的各个方面(例如，模拟、分析、估计、建模、对象检测等)可由与捕获设备通信的联网服务器执行。

本文所述的各个方面可至少部分地在软件中体现。也就是说，响应于其处理器执行存储介质(诸如非暂态机器可读存储介质(诸如DRAM或闪存存储器))中包含的指令序列而可在音频处理系统中实施这些技术。在各个方面中，可将硬连线电路与软件指令结合地使用来实现本文所述的技术。因此，这些技术不限于硬件电路与软件的任何指定组合，也不限于由音频处理系统执行的指令的任何特定源。

在本说明书中，某些术语用于描述各个方面的特征。例如，在某些情况下，术语“模块”、“处理器”、“单元”、“渲染器”、“系统”、“设备”、“滤波器”、“混响器”、“估计器”、“分类器”、“框”、“选择器”、“模拟”、“模型”和“部件”表示被配置为执行一个或多个过程或功能的硬件和/或软件。例如，“硬件”的示例包括但不限于集成电路诸如处理器(例如，数字信号处理器、微处理器、专用集成电路、微控制器等)。因此，如本领域的技术人员所理解的，可以实现硬件和/或软件的不同组合以执行由上述术语描述的过程或功能。当然，硬件可另选地实现为有限状态机或甚至组合逻辑部件。“软件”的示例包括应用程序、小应用程序、例程甚至一系列指令形式的可执行代码。如上所述，软件可存储在任何类型的机器可读介质中。

已按照对计算机存储器中的数据位进行操作的算法和符号表示来呈现前面详细描述的某些部分。这些算法描述和表示是音频处理领域技术人员所用的方法，而这些方法也能最有效地将他们的工作实质传达给该领域其他技术人员。算法在这里并通常是指导致所希望的结果的操作的自相一致的序列。这些操作是需要对物理量进行物理操纵的那些操作。然而，应当谨记，所有这些以及类似的术语都与适当的物理量相关联，并且只是应用于这些量的方便标签。除非另外特别说明，否则从上述讨论中显而易见的是，可以理解在整个说明书中，使用诸如那些在下文权利要求书中给出的术语的讨论涉及音频处理系统或类似电子设备的动作和过程，其操纵在系统的寄存器和存储器中被表示为物理(电子)量的数据以及将其转换成在系统存储器或寄存器或其他此类信息存储、传输或显示设备中类似地被表示为物理量的其他数据。

本文所述的过程和块不限于所述的特定示例，并且不限于在本文中作为示例使用的特定次序。相反，可根据需要对任何处理框进行重新排序、组合或移除、并行或串行地执行，以实现上述结果。与实施音频处理系统相关联的处理块可通过一个或多个可编程处理器执行存储在非暂态计算机可读存储介质上的一个或多个计算机程序来执行，以执行系统的功能。音频处理系统的全部或部分可被实现为专用逻辑电路(例如，FPGA(现场可编程门阵列)和/或ASIC(专用集成电路))。音频系统的全部或部分可利用包括电子设备诸如例如处理器、存储器、可编程逻辑器件或逻辑门中至少一者的电子硬件电路来实现。另外，过程可在任何组合硬件设备和软件部件中实现。

在一些方面，本公开可包括语言例如“[元素A]和[元素B]中的至少一者”。该语言可以是指这些元素中的一者或多者。例如，“A和B中的至少一者”可以是指“A”、“B”、或“A和B”。具体地讲，“A和B中的至少一者”可以是指“A中至少一者和B中至少一者”或者“至少A或B任一者”。在一些方面，本公开可包括语言例如“[元素A]、[元素B]、和/或[元素C]”。该语言可以是指这些元素中任一者或其任何组合。例如，“A、B和/或C”可以是指“A”、“B”、“C”、“A和B”、“A和C”、“B和C”或“A、B和C”。

虽然已描述并且在附图中示出了某些方面，但应当理解，此类方面仅是举例说明而不是限制性的，并且本公开并不限于所示和所述的特定构造和布置，因为对于本领域的普通技术人员而言可想到各种其他修改。

为了帮助专利局和本申请中发布的任何专利的任何读者解译所附权利要求书，申请人希望注意到它们并不意欲所附权利要求书中的任一个或权利要求要素调用35U.S.C.112(f)，除非在特定权利要求中明确使用字词“用于......的装置”或“用于......的步骤”。

众所周知，使用个人可识别信息应遵循公认为满足或超过维护用户隐私的行业或政府要求的隐私政策和做法。具体地，应管理和处理个人可识别信息数据，以使无意或未经授权的访问或使用的风险最小化，并应当向用户明确说明授权使用的性质。

Claims

1.一种由设备的处理器执行的方法，所述方法包括：

基于由所述设备的一个或多个传感器捕获的传感器信号，确定用户的当前声学环境的一个或多个声学参数；

基于所述用户的所述当前声学环境的所述一个或多个声学参数和包括音频信号的音频文件的声学环境，确定一个或多个预设声学参数，所述音频文件的所述声学环境是基于所述音频文件的所述音频信号或所述音频文件的元数据确定的；

通过将所述一个或多个预设声学参数应用于所述音频信号，在空间上渲染所述音频信号，从而产生双耳音频信号；以及

用所述双耳音频信号驱动扬声器。

2.根据权利要求1所述的方法，其中确定所述一个或多个预设声学参数包括：响应于所述音频文件的所述声学环境为户外场景，选择所述一个或多个预设声学参数以增大与所述音频文件的所述声学环境的类似性。

3.根据权利要求1所述的方法，其中确定所述一个或多个预设声学参数包括：响应于所述元数据中的指示标识，选择所述一个或多个预设声学参数以增大与所述音频文件的所述声学环境的类似性。

4.根据权利要求1所述的方法，其中确定所述一个或多个预设声学参数包括：响应于所述声学参数存在于所述元数据中或由所述元数据中的控制指示，选择在所述元数据中指定的声学参数作为所述一个或多个预设声学参数。

5.根据权利要求1所述的方法，其中确定所述一个或多个预设声学参数包括：响应于所述音频文件的所述声学环境是室内的或不存在，选择所述一个或多个预设声学参数以增大与所述用户的所述当前声学环境的类似性。

6.根据权利要求1所述的方法，其中确定所述一个或多个预设声学参数包括：响应于所述音频文件与视觉作品相关联，选择所述一个或多个预设声学参数以增大与所述音频文件的所述声学环境的类似性。

7.根据权利要求1所述的方法，其中确定所述一个或多个预设声学参数包括：响应于所述音频文件不与视觉作品相关联，选择所述一个或多个预设声学参数以增大与所述用户的所述当前声学环境的类似性。

8.根据权利要求1所述的方法，其中确定所述一个或多个预设声学参数包括：对所述音频文件的所述声学环境进行分类并选择所述一个或多个预设声学参数作为所述音频文件的所述声学环境与用户的当前声学环境的所述一个或多个声学参数之间的平衡。

9.根据权利要求1所述的方法，其中确定所述音频文件的所述声学环境包括：从所述音频文件的所述音频信号或从所述元数据提取基于内容的声学参数。

10.根据权利要求1所述的方法，其中所述音频文件的所述声学环境按以下中的至少一者进行分类：房间容积，处于开放空间中，或者处于封闭空间中。

11.一种系统，所述系统包括：

麦克风，所述麦克风生成表征所述系统的声学环境的麦克风信号；以及

非暂态计算机可读存储器和处理器，所述非暂态计算机可读存储器存储可执行指令，所述处理器被配置为执行所述指令以使所述系统：

基于所述麦克风信号，确定所述系统的所述声学环境的一个或多个声学参数，至少包括混响持续时间；

基于所述系统的所述声学环境的所述一个或多个声学参数和音频文件的声学环境来确定一个或多个预设声学参数，所述音频文件的所述声学环境是基于所述音频文件的音频信号或所述音频文件的元数据确定的；

在空间上渲染一个或多个音频信号，包括：将所述一个或多个预设声学参数应用于所述音频信号，从而产生空间化音频信号；以及

用所述空间化音频信号驱动扬声器。

12.根据权利要求11所述的系统，其中所述系统包括所述麦克风和所述扬声器被集成在其上的头戴式耳机。

13.根据权利要求11所述的系统，其中所述音频文件的所述声学环境按空间类型进行分类，包括：房间、图书馆、大教堂、体育场。

14.根据权利要求11所述的系统，其中确定音频文件的所述声学环境还基于与所述音频文件相关联的视频信号。

15.根据权利要求11所述的系统，其中确定所述用户的当前声学环境的一个或多个声学参数或基于所述音频文件的所述音频信号确定声学参数是使用机器学习模型执行的。

16.根据权利要求11所述的系统，其中确定用户的当前声学环境的一个或多个声学参数或基于所述音频文件的所述音频信号确定声学参数是使用包括盲室估计算法、波束形成或频域自适应滤波器(FDAF)中的至少一者的数字信号处理算法来执行的。

17.根据权利要求11所述的系统，还包括：存储用户的当前声学环境的一个或多个声学参数，并响应于在稍后的时间感测用户的声学环境，在所述稍后的时间重新使用所存储的当前声学环境的一个或多个声学参数。

18.根据权利要求11所述的系统，其中确定所述一个或多个预设声学参数是使用基于规则的算法执行的，所述基于规则的算法包括内容类型、音频场景类型、和所述用户的所述当前声学环境的所述一个或多个声学参数。

19.根据权利要求11所述的系统，其中确定所述一个或多个预设声学参数是使用机器学习模型执行的，所述机器学习模型包括内容类型、音频场景类型和所述用户的当前声学环境的一个或多个声学参数。

20.根据权利要求11所述的系统，其中一个或多个真实声学参数和所述一个或多个预设声学参数包括混响时间、混响时间度量、直达混响比(DRR)、反射密度、包围感或语音清晰度中的至少一者。