CN109076305A

CN109076305A - 增强现实耳机环境渲染

Info

Publication number: CN109076305A
Application number: CN201780018136.7A
Authority: CN
Inventors: J-M·卓特; 李瑾燮; E·斯特因
Original assignee: DTS BVI Ltd
Current assignee: DTS BVI Ltd
Priority date: 2016-02-02
Filing date: 2017-02-02
Publication date: 2018-12-21
Anticipated expiration: 2037-02-02
Also published as: HK1258156A1; EP3412039A1; KR20180108766A; CN109076305B; US20170223478A1; WO2017136573A1; EP3412039B1; KR102642275B1; US10038967B2; EP3412039A4

Abstract

声学混响的准确建模可能是为参与者生成并提供现实的虚拟现实或增强现实体验必需的。在例子中，可以提供用于使用耳机回放的混响信号。混响信号可以对应于起源于局部收听者环境中的指定地点的虚拟声源信号。除了其他方面之外，提供混响信号还可以包括使用关于来自参考环境的参考脉冲响应的信息并且使用关于参与者的局部环境中的混响衰退的特性信息。提供混响信号可以进一步包括使用关于参考环境的体积和参与者的局部环境的体积之间的关系的信息。

Description

增强现实耳机环境渲染

优先权声明

本国际申请要求2016年2月2日提交的美国专利申请No.62/290,394和2016年9月16日提交的美国专利申请No.62/395,882的优先权权益，这些申请中的每篇整体通过引用并入本文。

背景技术

音频信号再现已经发展到超越了简单的立体声或双声道配置或系统。例如，环绕声系统(诸如5.1环绕声)常用于家庭安装和商业安装中。这样的系统利用位于相对于预期收听者的各种地点的扩音器，并且被配置为为收听者提供比从常规立体声配置可获得的体验更沉浸式的体验。

一些音频信号再现系统被配置为递送三维音频或3D音频。在3D音频中，声音是由立体声扬声器、环绕声扬声器、扬声器阵列、或耳机或耳麦产生的，并且可以涉及或包括将声源虚拟地放置在收听者在听觉上感知到的真实的或理论的三维空间中。例如，虚拟化声音可以在听到3D音频处理后的声音的收听者的上面、下面或者甚至后面提供。

经由耳机的常规立体声音频再现趋向于提供被感知为起源于或来自于收听者的头部内部的声音。在例子中，可以对由耳机递送的(包括使用常规的扩音器驱动器立体声对递送的)音频信号进行特殊处理以实现3D音频效果，诸如为收听者提供感知到的空间声音环境。3D音频耳机系统可以用于虚拟现实应用，诸如为收听者提供没有真实声源存在的局部或虚拟环境中的特定位置处的声源的感知。在例子中，3D音频耳机系统可以用于增强现实应用，诸如为收听者提供没有真实声源存在的位置处的声源的感知，但是以收听者保持至少部分地知道局部环境中的一个或多个真实声音的方式。

发明内容

提供本发明内容是为了以简化的形式介绍下面在具体实施方式中进一步描述的构思的选择。本发明内容并非意图认定要求保护的主题的关键特征或基本特征，也不意图用于以任何方式限制要求保护的主题的范围。

计算机生成的用于虚拟现实(VR)或增强现实(AR)的音频渲染可以利用游戏和虚拟现实音频渲染系统和应用编程接口中的信号处理技术发展，诸如建立在计算机音乐和建筑声学领域中的以前的发展之上并且从这些发展延伸的信号处理技术发展。可以应用各种双耳技术、人工混响、物理房间声学建模和可听化技术来为用户提供增强的收听体验。在例子中，VR或AR音频可以经由耳机或耳麦递送到收听者。VR或AR信号处理系统可以被配置为再现一些声音以使得它们被收听者感知为来自于局部环境中的外部源，而不是来自于耳机或收听者的头部内部的地点。

与VR 3D音频相比，AR音频涉及鼓励参与者的怀疑的暂停(诸如通过提供基本上与局部收听环境的声学一致的模拟环境声学和源-环境相互作用)的额外挑战。也就是说，本申请的发明人已经认识到，要被解决的问题包括以这样的方式对虚拟信号或添加的信号提供音频信号处理：信号包括或表示用户的环境，并且使得信号不易于与环境中自然出现的或通过扩音器再现的其他声音区分开。例子可以包括被配置为模拟物理存在的声源的“翻版”的虚拟声源的渲染。该例子可以包括例如真实表演者和演奏相同乐器的虚拟表演者之间的二重奏、或真实人物和他/她的“虚拟双胞胎”在给定环境中的对话。

在例子中，在虚拟声场中提供准确的声源的问题的解决方案可以包括对于给定的收听环境、匹配并应用混响衰退时间、混响响度特性和/或混响均衡特性(例如，混响的频谱内容)。本申请的发明人已经认识到，进一步的解决方案可以包括或使用测得的双耳房间脉冲响应(BRIR)或从关于环境的物理或几何数据计算的脉冲响应。在例子中，解决方案可以包括或使用测量环境中的混响时间，诸如多个频带中的混响时间，并且可以进一步包括或使用关于环境(或房间)体积的信息。

在视听增强现实应用中，可以经由声学上透明的耳机来渲染计算机生成的音频对象以与观看者/收听者自然地听到的物理环境融合。这样的融合可以包括或使用双耳人工混响处理来匹配或逼近局部环境声学。当人工音频对象被适当地处理时，音频对象可能是收听者不能与环境中自然地发生的或通过扩音器再现的其他声音区分开的。

涉及测量或计算消费者环境中的双耳房间脉冲响应的方法可能受到实际的障碍和复杂性的限制。本申请的发明人已经认识到，上述问题的解决方案可以包括使用统计混响模型，该统计混响模型使得能够实现可以用于表征环境的紧凑的混响指纹。对于多个虚拟声源，解决方案可以进一步包括或使用计算效率高的、数据驱动的混响渲染。在例子中，解决方案可以被应用于基于耳机的“音频增强现实”以促进音乐、电影或游戏声轨、导航引导、警告或其他音频信号内容的自然发声的、外部化的虚拟3D音频再现。

应注意到，替代实施例是可能的，并且本文所讨论的步骤和元素可以根据特定实施例改变、添加或除去。在不脱离本发明的范围的情况下，这些替代实施例包括可以使用的替代步骤和替代元素以及可以做出的结构改变。

附图说明

现在参照附图，在附图中，相似的附图标记始终表示对应的部分：

图1一般性地示出用于虚拟声源渲染的信号处理和再现系统的例子。

图2一般性地示出表示房间脉冲响应模型的分解的图表的例子。

图3一般性地示出包括第一声源、虚拟源和收听者的例子。

图4A一般性地示出测得的EDR的例子。

图4B一般性地示出测得的EDR和多个频率相关混响曲线的例子。

图5A一般性地示出建模的EDR的例子。

图5B一般性地示出与图5A的混响曲线相对应的外推曲线。

图6A一般性地示出与参考环境相对应的脉冲响应的例子。

图6B一般性地示出与收听者环境相对应的脉冲响应的例子。

图6C一般性地示出与收听者环境相对应的第一合成脉冲响应的例子。

图6D一般性地示出基于第一合成脉冲响应的、具有修改的早期反射特性的第二合成脉冲响应的例子。

图7一般性地示出包括在局部收听者环境中为收听者提供耳机音频信号的方法的例子并且耳机音频信号包括直接音频信号和混响信号分量。

图8一般性地示出包括对虚拟声源生成混响信号的方法的例子。

图9是示出根据一些示例实施例的能够从机器可读介质(例如，机器可读存储介质)读取指令并且执行本文所讨论的方法中的任何一个或多个的机器的组件的框图。

具体实施方式

在包括环境渲染和音频信号处理(诸如用于经由耳机进行再现)的例子的以下描述中，参照附图。附图通过例证示出系统和方法的实施例可以如何被实施的特定例子。将理解的是，在不脱离要求保护的主题的范围的情况下，可以使用其他实施例，并且可以做出结构改变。

除了其他方面之外，本申请的发明人已经认识到在虚拟现实(VR)系统和增强现实(AR)系统中提供感知上似乎合理的局部音频环境混响建模的重要性。除了其他方面之外，以下讨论包括用于将3D音频渲染算法扩展到忠实地匹配或逼近局部环境声学的实用的且高效的方法。匹配或逼近局部环境声学可以包括使用关于局部环境房间体积的信息、使用关于局部环境中的一个或多个源的内在性质的信息、和/或使用关于局部环境中的混响特性的测得信息。

在例子中，诸如在AR系统中，自然发声的、外部化的3D音频再现可以使用双耳人工混响处理来帮助匹配或逼近局部环境声学。当被适当地执行时，环境匹配得到收听体验，其中，处理后的声音与环境中自然发生的或通过扩音器再现的声音不可区分开。在例子中，用于用人工混响处理对音频内容进行渲染的一些信号处理技术包括或使用双耳房间脉冲响应的测量或计算。在例子中，信号处理技术可以包括或使用统计混响模型(诸如包括“混响指纹”)来表征局部环境并且提供计算效率高的人工混响。在例子中，技术包括可以应用于视听增强现实应用的方法，诸如其中计算机生成的音频对象经由声学上透明的耳机渲染以与观看者或收听者自然体验到的真实的物理环境无缝地融合。

诸如通过扩音器或耳机的音频信号再现可以使用或依赖于各种声学模型性质来准确地再现声音信号。在例子中，不用的模型性质可以用于不同的场景表示或环境，或者用于通过根据指定的环境对音频信号进行处理来模拟声源。在例子中，测得的双耳房间脉冲响应或BRIR可以用于对源信号进行卷积，并且可以通过时间分解来表示或建模，诸如以识别直接声音、早期反射和晚期混响中的一个或多个。然而，确定或获取BRIR在消费者应用中可能是困难的或不切实际的，诸如因为消费者可能没有硬件或技术专长来适当地测量这样的响应。

在例子中，表征局部环境或房间混响特性的实用方法(诸如用于3D音频应用(比如VR和AR)中)可以包括或使用可以基本上独立于源和/或收听者位置或方位的混响指纹。混响指纹可以用于通过耳机来提供自然发声的虚拟多声道音频节目表示。在例子中，可以使用关于虚拟扩音器布局的或关于虚拟扩音器、声源或环境中的其他物品的一个或多个声学性质的信息来定制这样的表示。

在例子中，耳麦或耳机设备可以包括或者可以被耦合到被配置为对一个或多个音频信号进行处理并且将现实的3D音频递送给收听者的虚拟器。虚拟器可以包括用于对音频信号进行渲染、均衡化(equalizing)、平衡(balancing)、频谱处理或其他方式调整以创建特定的听觉体验的一个或多个电路。在例子中，虚拟器可以包括或使用混响信息来帮助对音频信号进行处理，诸如以为收听者模拟不同的收听环境。在例子中，耳麦或耳机设备可以包括或使用用于测量环境混响特性(诸如使用与耳机设备集成的或与耳机设备进行数据通信的换能器)的电路。测得的混响特性可以用于(诸如与关于环境的物理布局或体积的信息一起)更新虚拟器以更好地匹配特定的环境。在例子中，混响测量电路可以被配置为自动地更新测得的混响特性，诸如周期性地或响应于指示收听者的位置的改变或局部环境的改变的输入而自动地更新。

图1一般性地示出用于虚拟声源渲染的信号处理和再现系统100的例子。信号处理和再现系统100包括直接声音渲染电路110、反射声音渲染电路115和均衡器电路120。在例子中，音频输入信号101(诸如单声道或多声道音频信号或音频对象信号)可以被提供给直接声音渲染电路110和反射声音渲染电路115中的一个或多个，诸如经由被配置为接收虚拟声源信号的音频输入电路。音频输入信号101可以包括要经由用于收听者的耳机虚拟化或渲染的声学信息。例如，音频输入信号101可以是意图被收听者感知为位于收听者的局部环境中的指定地点或起源于收听者的局部环境中的指定地点的虚拟声源信号。

在例子中，耳机150(在本文中有时被称为耳麦)耦合到均衡器电路120，并且从均衡器电路120接收一个或多个渲染的且均衡化的音频信号。音频信号放大器电路可以进一步设于信号链中以驱动耳机150。在例子中，耳机150被配置为向用户提供局部声场(诸如对应于耳机150的用户所在的环境)的基本上声学上透明的感知。换句话说，即使当耳机150的用户正带着耳机150时，起源于局部声场(诸如在用户附近)的声音也可以被该用户基本上准确地检测到。

在例子中，信号处理示意图100表示用于对虚拟点源进行渲染并且使耳机传递函数均衡化的信号处理模型。如图2所表示的，由渲染器实现的合成BRIR可以被分解为直接声音、早期反射和晚期混响。

在例子中，直接声音渲染电路110和反射声音渲染电路115被配置为接收与音频输入信号101相对应的数字音频信号，该数字音频信号可以包括关于以下中的一个或多个的编码信息：参考环境、参考脉冲响应(例如，包括关于参考环境中的参考声音和参考接收器的信息)、或局部收听者环境(诸如包括关于参考环境和局部收听者环境的体积信息)。直接声音渲染电路110和反射声音渲染电路115可以使用编码信息来对音频输入信号101进行处理或者生成与音频输入信号101的人工直接或反射分量相对应的新信号。在例子中，直接声音渲染电路110和反射声音渲染电路115包括如下配置的相应的数据输入，这些数据输入被配置为接收关于参考环境的信息、关于参考脉冲响应的信息(例如，包括关于参考环境中的参考声音和参考接收器的信息)、或关于局部收听者环境的信息(诸如包括关于参考环境和局部收听者环境的体积信息)。

直接声音渲染电路110可以被配置为基于音频输入信号101来提供直接声音信号。直接声音渲染电路110可以例如应用头部相关传递函数(HRTF)、体积调整、平移调整、频谱成形或其他滤波器或处理来将音频输入信号101定位或安置在虚拟环境中。在包括被配置为使得它们基本上是声学上透明的耳机150(诸如用于增强现实应用的)的例子中，虚拟环境可以对应于佩戴耳机150的收听者或参与者的局部环境，直接声音渲染电路110提供与局部环境中的源的起源地点相对应的直接声音信号。

反射声音渲染电路115可以被配置为基于音频输入信号101并且基于局部环境的一个或多个特性来提供混响信号。例如，反射声音渲染电路115可以包括混响信号处理器电路，该混响信号处理器电路被配置为如果音频输入信号101是起源于收听者(例如，使用耳机150的收听者)的局部环境中的指定地点处的实际声音、则生成与音频输入信号101(例如，虚拟声源信号)相对应的混响信号。例如，反射声音渲染电路115可以被配置为使用关于参考脉冲响应的信息、关于与参考脉冲响应相对应的参考房间体积的信息、以及关于收听者的局部环境的房间体积的信息来基于音频输入信号101生成混响信号。在例子中，反射声音渲染电路115可以被配置为基于参考环境和局部环境的房间体积之间的关系来针对音频输入信号101缩放混响信号。例如，可以基于比率或基于环境体积的其他固定量或可变量来对混响信号进行加权。

图2一般性地示出表示用于位于房间中的声源和接收者(例如，收听者或麦克风)的房间脉冲响应(RIR)模型的分解的图表200的例子。图表200示出了多个时间上连续的段，包括直接声音201、早期反射203和晚期反射205。直接声音201段表示从声源到接收者的直接声学路径。在直接声音201的后面，图表200示出了反射延迟202。反射延迟202对应于直接声音到达接收者和声源发出的声学信号的第一环境反射之间的持续时间。在反射延迟202的后面，图表200示出了与一个或多个环境相关的音频信号反射相对应的一系列早期反射203。在早期反射203的后面，晚期到达反射形成晚期混响205。混响延迟204间隔表示相对于早期反射203的起始时间的、晚期混响205的起始时间。晚期混响信号功率在RIR中随着时间呈指数衰退，其衰退速率可以通过随着频率变化的混响衰退时间测得。

表1描述了表征图表200所示的RIR模型中的每个段的客观的声学参数和几何参数。表1进一步区分源、收听者(或接收者)或环境(或房间)固有的参数。对于房间或局部环境中的晚期混响效果，混响衰退速率和房间的体积是重要因素。例如，表1示出了(不管源和收听者位置或性质如何)足以表征环境中的晚期混响的环境特定的参数，包括环境的体积及其混响衰退时间或衰退速率。

表1：RIR模型声学参数和几何参数的概述

在例子中，在不存在由介于中间的声学障碍造成的障碍时，直接声音传播可以基本上独立于除了影响介质中的传播时间、速率和吸收的那些参数之外的环境参数。除了别的之外，这样的参数可以包括相对湿度、温度、源和收听者之间的相对距离、或源和收听者中的一个或两个的移动。

在例子中，各种数据或信息可以用于表征和模拟声音再现、辐射和捕捉。例如，声源和目标收听者的耳朵可以分别被建模为发射换能器和接收换能器。每个可以由一个或多个方向相关的自由场传递函数(诸如包括收听者的头部相关传递函数或HRTF)表征以表征收听者的耳朵处的接收，诸如从空间中的点源的接收。在例子中，耳朵和/或换能器模型可以进一步包括频率相关的灵敏度特性。

图3一般性地示出例子300，例子300包括第一声源301、虚拟源302和收听者310。收听者310可以被置于环境中(例如，小的混响室内、或大的户外空间中、等等)，并且可以使用耳机150。耳机150可以是基本上声学上透明的，以使得来自第一声源301的(诸如起源于收听者的环境中的第一地点的)声音可以被收听者310听到。在例子中，耳机150或耦合到耳机150的信号处理电路可以被配置为再现来自虚拟源302的声音，虚拟源302诸如可以被收听者310感知为在收听者的环境中的不同的第二地点处。

在例子中，收听者310所用的耳机150可以从图1的系统100的均衡器电路120接收音频信号。均衡器电路120可以被配置为使得对于由耳机150再现的任何声源，虚拟源302与第一声源301基本上在频谱上是不可区分的，第一声源301诸如可以被收听者310通过声学上透明的耳机150自然地听到。

在例子中，收听者310的环境可以包括障碍物320，障碍物320诸如可以位于第一声源301和收听者310之间的或虚拟源302和收听者310之间的或第一声源301和收听者310之间以及虚拟源302和收听者310之间的信号传输路径中。当这样的障碍物存在时，各种声音衍射和/或传输模型可以(例如，被系统100的一个或多个部分)用于在耳机150处准确地渲染音频信号。在例子中，诸如可以被提供给增强现实虚拟渲染系统的几何或物理数据可以被渲染系统用于将音频信号提供给耳机150，该渲染系统诸如可以包括或使用系统100。

增强现实音频渲染系统进行的早期反射建模可以很大程度上取决于渲染的音频信号的期望的规模、细节、分辨率或准确度。在例子中，增强现实音频渲染系统(诸如包括系统100的全部或一部分)可以尝试准确地且详尽地再现对于诸如与具有不同位置、方位和/或频谱内容的相应的多个音像源相对应的多个虚拟声源中的每个的反射，并且每个音像源可以至少部分由表征环境边界、源参数和接收者参数的几何参数和声学参数定义。在例子中，用于增强现实应用的局部反射的表征(例如，测量和分析)和对应的双耳渲染可以被执行，并且可以包括或使用以下中的一个或多个：物理或声学成像传感器、基于云的环境数据、以及用于对声学传播进行建模的物理算法的预先计算。

本申请的发明人已经认识到，要被解决的问题包括简化或加快如下这样的综合信号处理，该综合信号处理在计算上可能是昂贵的，并且可能需要大量数据和处理速度(诸如以便为增强现实应用和/或其中在向收听者提供音频信号时使用或考虑物理环境的效果的其他应用提供准确的音频信号)。本申请的发明人已经进一步认识到，问题的解决方案可以包括更实用的且可扩展的系统，该系统诸如可以使用一个或多个反射声音信号模型中的较少的细节来实现。由于心理声学掩蔽现象，可以通过例如对来自具有共同的源的多个反射信号的组合贡献进行建模、而不是对多个反射信号中的每个详尽地匹配单个的空间-时间参数和频率相关衰减来准确地且高效地逼近典型的房间中的声学反射的感知效果。本申请的发明人已经进一步认识到，分别对多个虚拟声源的行为进行建模、然后组合结果的问题的解决方案可以包括确定并使用诸如可以基于房间的物理特性定义或确定的混响指纹，该混响指纹可以被应用于一起相似地处理或批处理多个声源，诸如通过使用混响处理器电路。

在封闭的环境(例如，封闭的房间，比如卧室)或半开放的环境中，反射的声场积累直到混合时间，从而建立扩散混响处理，该扩散混响处理适宜于预测BRIR能量、指数衰退和耳间互相关的易处理的统计时间-频率模型。

在这样的时间-频率模型中，声源和接收者可以由它们的扩散场传递函数表征。在例子中，扩散场传递函数可以通过它们各自的自由场传递函数的功率域空间平均化而导出。

混合时间通常是用(房间体积的平方根)、以毫秒为单位估计的。在例子中，对于给定房间或环境的晚期混响衰退可以使用房间的体积及其随着频率而变化的混响衰退速率(或混响时间)来建模，混响衰退速率诸如可以在适度数量的频带(例如，少至一个或两个，通常是5-15个或更多个，取决于处理容量和期望的分辨率)中被采样。体积和混响衰退速率可以用于控制执行诸如可以被虚拟房间中的多个源共享的或使用的混响处理算法的、计算效率高的且感知上忠实的参数化混响处理器电路。在例子中，混响处理器电路可以被配置为执行混响算法，这些混响算法可以基于反馈延迟网络，或者可以基于与合成BRIR的卷积，合成BRIR诸如可以被建模为频谱上成形的、呈指数衰退的噪声。

在例子中，用于感知上似乎合理的渲染的实用的低复杂性方法可以基于最小局部环境数据，诸如通过改动在参考环境中获取的(或使用参考双耳麦克风获取的)一组BRIR。改动可以包括对混响衰退时间进行校正和/或对混响能量级的偏移进行校正，例如以模拟与参考环境中所用的扩音器系统和参考双耳麦克风相同的、但是在局部收听环境中移置的扩音器系统和参考双耳麦克风。在例子中，改动可以进一步包括对直接声音、混响和早期反射能量、频谱均衡、和/或空间-时间分布进行校正，诸如包括或使用特定的声源发射数据和与收听者相关联的一个或多个头部相关传递函数(HRTF)。

在例子中，具有3D音频效果的VR和AR模拟可以包括或使用动态头部跟踪来补偿收听者头部移动，诸如实时地。该方法可以扩展到模拟相同的参考房间中的中间声源位置，并且可以包括对声源位置和/或收听者位置或方位进行采样、诸如基本上实时地模拟或考虑移动。在例子中，可以使用一个或多个地点传感器或可以用于确定源或收听者位置的其他数据来获得或确定位置信息，诸如通过使用与源相关联的或与收听者相关联的WiFi或蓝牙信号(例如，通过使用与耳机150或对应于收听者的另一移动设备相关联的信号)。

测得的参考BRIR可以针对不同的房间、不同的收听者和一个或多个任意的声源改动，由此简化可能依赖于收集局部收听环境中的多个BRIR测量的其他技术。在例子中，房间脉冲响应h(t)中的扩散混响可以被建模为其方差遵循呈指数衰退的包络的随机信号，诸如可以独立于房间中的音频信号源和接收者(例如，收听者)位置，并且可以用频率相关的衰退时间Tr(f)和初始功率谱P(f)来表征。

在例子中，频率相关的衰退时间Tr(f)可以用于匹配或逼近房间的混响特性，并且可以用于对音频信号进行处理以向收听者提供“正确的”房间声学的感知。换句话说，适当的频率相关的衰退时间Tr(f)可以被选来帮助诸如在AR应用中提供真实的声源和合成的或虚拟化的声源之间的一致性。为了进一步增强或改进真实的房间效果和虚拟化的房间效果之间的对应或匹配，可以对混响的能量和频谱均衡进行校正。在例子中，可以通过提供与真实的初始功率谱相对应的混响的初始功率谱来执行该校正。除了别的之外，这样的初始功率谱还可能受源的辐射特性(诸如源的频率相关方向性)的影响。在没有这样的校正的情况下，诸如就音色着色和离收听者的距离的感觉或与收听者的接近度的感觉而言，虚拟声源可以听起来显著不同于其真实世界的对应物。

在例子中，初始功率谱P(f)与源和接收者扩散场传递函数的乘积以及房间的体积V的倒数(reciprocal)是成比例的。可以使用源的(或接收者的)自由场传递函数的功率域空间平均化来计算或确定扩散场传递函数。能量衰退起伏(relief)EDR(t,f)可以是时间和频率的函数，可以用于估计模型参数Tr(f)和P(f)。在例子中，EDR可以对应于混响衰退的时间-频率表示的总体均值，诸如激发信号(例如，静止的白噪声信号)的中断之后的总体均值。在例子中，其中，ρ(t,f)是h(t)的短时傅里叶变换。在多个不同的频率处拟合的线性曲线可以用于提供频率相关的混响衰退时间Tr(f)的估计，诸如用返回到发射时间的建模的EDR外推来提供，该EDR外推用EDR’(0,f)表示。在例子中，初始功率谱可以被确定为P(f)＝EDR’(0,f)/Tr(f)。

图4A一般性地示出测得的能量衰退起伏(EDR)401的例子，其诸如是针对参考环境的。测得的EDR 401示出了多个频率上的、随着时间的过去的、混响衰退信号的相对功率之间的关系。图5A一般性地示出针对相同的参考环境的并且使用与图4A的例子相同的轴线的建模的EDR 501的例子。

图4A中的测得的EDR 401包括相对功率谱衰退的例子，该相对功率谱衰退诸如遵循广播到参考环境的白噪声信号。测得的EDR 401可以通过脉冲响应信号功率ρ(t,f)的向后积分而导出。测得的EDR 401的特性可以至少部分地取决于源(例如，白噪声信号源)的位置和/或方位，并且可以进一步至少部分地取决于接收者(诸如定位在参考环境中的麦克风)的位置和/或方位。

图5A中的建模的EDR 501包括相对功率谱衰退的例子，并且可以独立于源和接收者位置或方位。例如，建模的EDR 501可以通过执行诸如图4B所示的测得的EDR 401的一部分的线性(或其他)拟合和外推而导出。

图4B一般性地示出测得的EDR 401和与测得的EDR 401的“表面”拟合的多个频率相关的混响曲线402的例子。混响曲线402可以与测得的EDR 401的不同的或对应的部分拟合。在图4B的例子中，混响曲线402中的第一个对应于测得的EDR 401的在大约10kHz处的一部分，并且进一步对应于大约0.10秒和0.30秒之间的衰退间隔。混响曲线402中的另一个对应于测得的EDR 401的在大约5kHz处的一部分，并且进一步对应于大约0.15秒和0.35秒之间的衰退间隔。在例子中，对于多个不同的频率中的每个，混响曲线402可以与相同的衰退间隔(例如，在0.10秒和0.30秒之间)拟合。

再次参照图5A，可以使用混响曲线402来确定建模的EDR 501。例如，建模的EDR501可以包括从混响曲线402中的多个混响曲线外推的衰退谱。例如，混响曲线402中的一个或多个仅包括测得的EDR 401的场中的一段，该段可以在时间方向上外推或延伸，诸如向后外推或延伸到初始时间(例如，时间零或起始时间)和/或向前外推或延伸到最终时间，诸如向前外推或延伸到指定的下限(例如，-100dB等)。初始时间可以对应于源信号的发射时间。

图5B一般性地示出与混响曲线402相对应的外推曲线502，外推曲线502可以用于定义建模的EDR 501。在图5B的例子中，初始功率谱503对应于建模的EDR 501的在初始时间(例如，时间零)的部分，并且是初始时间时的初始功率谱和混响衰退时间的乘积。也就是说，建模的EDR 501可以至少用混响时间Tr(f)和初始功率谱P(f)来表征。混响时间Tr(f)提供预期的或建模的混响时间的频率相关指示。初始功率谱P(f)包括混响衰退信号的相对功率级(诸如相对于某些初始功率级(例如，0dB))的指示，并且是频率相关的。

在例子中，初始功率谱P(f)是作为房间体积的倒数和信号源和接收者的扩散场传递函数的乘积提供的。这对于用于VR和AR的实时或现场音频信号处理可能是方便的，例如，因为可以使用关于源的静态的或内在的信息(例如，随着频率而变化的源方向性，其可以是源内在的性质)和房间体积信息来对信号进行处理。

房间的混响指纹(例如，与参考环境相同或不同于参考环境)可以包括关于房间体积和混响时间Tr(f)的信息。换句话说，可以使用子带混响时间信息来确定混响指纹，子带混响时间信息诸如可以从单个脉冲响应测量导出。在例子中，可以使用消费者级别的麦克风和扩音器设备来执行这样的测量，诸如包括使用与移动计算设备(例如，蜂窝电话或智能电话)相关联的麦克风和可以再现环境中的源信号的家庭音频扩音器。在例子中，可以监视麦克风信号，诸如基本上实时地监视，并且可以使用对应的监视的麦克风信号来识别局部混响指纹中的任何改变。

在例子中，非参考声源和/或收听者的性质也可以被考虑。例如，当实际的BRIR预计不同于参考BRIR时，那么可以用实际的扩音器响应信息和/或单个的HRTF来替换自由场传递函数和扩散场传递函数。可以在实际的环境中调整扩音器布局，或者可以使用其他的方向或距离平移方法来调整直接声音和反射声音。在例子中，混响处理器电路或其他音频处理电路(例如，其被配置为使用或应用反馈延迟网络或FDN、混响算法等)可以在多个虚拟声源之间共享。

再次参照图3的例子300，第一声源301和虚拟源302可以被建模为扩音器。参考BRIR可以在参考环境中测得(例如，在参考房间中)，诸如通过使用如例子300中所示的定位在相对于接收者或收听者310的相同的距离和方位处的扩音器来测得。图6A-6D示出使用参考BRIR或RIR来提供与收听者环境相对应的合成脉冲响应的例子，参考BRIR或RIR诸如对应于参考环境。

图6A一般性地示出与参考环境相对应的测得的脉冲响应601的例子。该例子包括针对参考脉冲响应601可以估计的参考衰退包络602。在例子中，参考脉冲响应601对应于对于参考房间中的第一声源301的响应。

不同的局部脉冲响应可以是对于非参考环境或局部收听者环境中的相同的第一声源301测得的，诸如通过使用相同的参考接收者特性测得的。图6B一般性地示出与收听者环境相对应的脉冲响应的例子。也就是说，图6B包括与局部环境相对应的局部脉冲响应611。局部衰退包络612可以是对于局部脉冲响应611估计的。从图6A和6B的例子，可以观察到，与图6A相对应的参考环境表现出较快的混响衰退和较小的初始功率。如果虚拟源(诸如虚拟源302)是通过与参考脉冲响应601的卷积渲染的，则收听者可能能够可听地检测到音频再现和局部环境之间的不协调，这可能导致收听者怀疑虚拟源302是否事实上存在于局部环境中。

在例子中，参考脉冲响应601可以被改动的脉冲响应(诸如其扩散混响衰退包络较好地匹配或逼近局部收听者环境的扩散混响衰退包络)所取代，诸如在不测量局部收听者环境的实际脉冲响应的情况下。改动的脉冲响应可以是通过计算确定的。例如，可以从参考脉冲响应(例如，参考脉冲响应601)估计初始功率谱，然后根据局部房间体积(例如，根据P_local(f)＝P_ref(f)V_ref/V_local，其中，V_ref是与参考环境的参考脉冲响应相对应的房间体积，V_local是与局部环境相对应的房间体积)来对初始功率谱进行缩放。另外，可以确定局部环境混响衰退速率及其对应的频率依赖性。

图6C一般性地示出与收听者环境相对应的第一合成脉冲响应621的例子。在例子中，可以通过对与参考环境(参见例如图6A)相对应的测得的脉冲响应601进行修改以匹配收听者环境的晚期混响性质(参见例如与图6B的局部环境相对应的局部脉冲响应611)来获得第一合成脉冲响应621。图6C的例子包括第二局部衰退包络622和来自图6A的例子的参考衰退包络602，第二局部衰退包络622诸如可以等于来自图6B的例子的局部衰退包络612。

在图6C的例子中，第二局部衰退包络622对应于响应的晚期混响部分。可以通过截取参考脉冲响应并且实现模拟晚期混响响应的参数化双耳混响器来准确地渲染它。在例子中，可以通过参考BRIR的频域整形(诸如通过在每个时间和频率处应用增益偏移)来渲染晚期混响。在例子中，增益偏移可以由局部衰退包络612和参考衰退包络602之间的dB差给出。

在例子中，可以使用上述频域整形技术来获得脉冲响应中的早期反射的粗略的、但是有用的校正。图6D一般性地示出基于第一合成脉冲响应621的、具有修改的早期反射特性的第二合成脉冲响应631的例子。在例子中，可以通过对来自图6C的例子的第一合成脉冲响应621进行修改以匹配收听者环境(参见例如图6B)的早期反射性质来获得第二合成脉冲响应631。

在例子中，第一合成脉冲响应621和第二合成脉冲响应631中的单个的早期反射的空间-时间分布可以基本上对应于来自参考脉冲响应601的早期反射。也就是说，不管与局部脉冲响应611相对应的环境的实际效果如何，第一合成脉冲响应621和第二合成脉冲响应631可以包括与参考脉冲响应601类似的早期反射信息，诸如尽管环境或房间体积、房间几何形状或房间材料有任何差异。另外，在该例证中，模拟是通过以下假设促进的，即，虚拟源(例如，虚拟源302)与真实的源(例如，第一源301)是相同的，并且在对应于局部脉冲响应711的局部BRIR中位于离收听者相同的距离处。

在例子中，上述模型改动过程可以被扩展以包括任意的源和相对方位和/或方向性，诸如包括收听者特定的HRTF考虑。对于直接声音，这种改动可以包括或使用基于自由场源传递函数和收听者传递函数的频谱均衡化，这些传递函数诸如可以是针对参考脉冲响应和局部条件或特定条件提供的。类似地，晚期混响的校正可以基于源扩散场传递函数和接收者扩散场传递函数。

在例子中，可以适应信号源或收听者的位置的改变。例如，可以使用距离和方向平移技术来做出改变。对于扩散混响，改变可以涉及频谱均衡化，诸如取决于绝对到达时间差，并且可以被成形为匹配局部混响衰退速率，诸如以频率相关的方式。这样的扩散场均衡化可以是对于早期反射的可接受的逼近，如果这些被假定均匀地分布在它们的发射方向和到达方向上的话。如上面所讨论的，可以通过房间几何形状的现场检测和边界材料的辨识来驱动详细的反射渲染。可替代地，可以使用高效的感知上或统计上激励的模型来转移、缩放和平移反射集群。

图7一般性地示出方法700的例子，方法700包括为局部收听者环境中的收听者提供耳机音频信号，该耳机音频信号包括直接音频信号和混响信号分量。在操作702，该例子包括生成用于虚拟声音信号的混响信号。混响信号可以例如使用图1的例子中的反射声音渲染电路115生成以对虚拟声音信号(例如，音频输入信号101)进行处理。在例子中，反射声音渲染电路115可以接收关于参考环境中的参考脉冲响应(例如，对应于参考声源和参考接收者)的信息，并且可以接收关于与局部收听者环境相关联的局部混响衰退时间的信息。反射声音渲染电路115然后可以根据图6C或图6D所示的方法、基于虚拟声音信号来生成混响信号。例如，反射声音渲染电路115可以对参考脉冲响应进行修改以匹配局部收听者环境的混响性质，诸如通过使用接收的关于局部混响衰退时间的信息来修改。在例子中，修改可以包括参考脉冲响应的频域整形，诸如通过在各种时间和频率应用增益偏移的频域整形，该增益偏移可以基于局部混响衰退时间的衰退包络和参考脉冲响应的参考包络之间的幅度差异而提供。反射声音渲染电路115可以对混响信号进行渲染，例如，通过将修改的脉冲响应与虚拟声音信号进行卷积来渲染。

在操作704，方法700可以包括使用环境体积信息来对混响信号进行缩放。在例子中，操作704包括使用反射声音渲染电路115来接收关于局部收听者环境的房间体积信息并且接收关于参考环境的房间体积信息，诸如对应于用于在操作702生成混响信号的参考脉冲响应。除了其他方面之外，接收房间体积信息还可以包括：接收房间体积的数值指示，感测房间体积，或者计算或确定房间体积，诸如通过使用来自CAD模型或其他2D或3D绘图的关于房间的维度(dimension)信息。在例子中，可以基于局部收听者环境的房间体积和参考环境的房间体积之间的关系来对混响信号进行缩放。例如，可以使用局部房间体积与参考房间体积的比率来对混响信号进行缩放。可以使用其他的缩放或校正因子。在例子中，混响信号的不同的频率分量可以被不同地缩放，诸如通过使用体积关系或使用其他因子来缩放。

在操作706，示例方法700可以包括生成用于虚拟声音信号的直接信号。生成直接信号可以包括使用直接声音渲染电路110来基于虚拟声音信号提供虚拟地局部化在局部收听者环境中的音频信号。例如，可以通过使用直接声音渲染电路110来提供直接信号以将头部相关传递函数应用于虚拟声音信号以适应特定收听者的独特特性。直接声音渲染电路110可以进一步对虚拟声音信号进行处理(诸如通过调整振幅、平移、频谱成形或均衡化、或者通过其他处理或滤波)以将虚拟声音信号定位或安置在收听者的局部环境中。

在操作708，方法700包括将来自操作704的缩放的混响信号与在操作706生成的直接信号组合。在例子中，组合由专用的音频信号混频器电路执行，该混频器电路诸如可以被包括在图1的示例信号处理和再现系统100中。例如，该混频器电路可以被配置为从直接声音渲染电路110接收用于虚拟声音信号的直接信号，并且可以被配置为从反射声音渲染电路115接收用于虚拟声音信号的混响信号，并且可以将组合的信号提供给均衡器电路120。在例子中，混频器电路被包括在均衡器电路120中。混频器电路可以可选地被配置为进一步平衡或调整直接信号和混响信号的相对振幅或频谱内容以提供组合的耳机音频信号。

图8一般性地示出方法800的例子，方法800包括生成用于虚拟声源的混响信号。在操作802，该例子包括接收参考脉冲响应信息。参考脉冲响应信息可以包括与参考声源和参考接收者相对应的脉冲响应数据，该脉冲响应数据诸如可以在参考环境中测得。在例子中，参考脉冲响应信息包括关于与参考声源和参考接收者中的一个或两个相对应的扩散场和/或自由场传递函数的信息。例如，关于参考脉冲响应的信息可以包括关于用于参考环境中的收听者(例如，与局部环境中的收听者相同的收听者)的头部相关传递函数的信息。头部相关传递函数可以是是特定于特定用户的，因此，当不同的用户或收听者参与时，参考脉冲响应信息可以被改变或更新。

在例子中，接收参考脉冲响应信息可以包括接收关于用于虚拟声源的局部源的扩散场传递函数的信息。可以根据用于局部源的扩散场传递函数和用于参考声源的扩散场传递函数之间的关系(例如，差值、比率等)来对参考脉冲响应进行缩放。类似地，接收参考脉冲响应信息可以另外地或可替代地包括接收关于用于参考声源的参考接收者的扩散场头部相关传递函数的信息。参考脉冲响应然后可以另外地或可替代地根据用于局部收听者的扩散场头部相关传递函数和用于参考接收者的扩散场传递函数之间的关系(例如，差值、比率等)缩放。

在操作804，方法800包括接收参考环境体积信息。参考环境体积信息可以包括与房间体积相关联的指示或数值，或者可以包括从其可以确定或计算房间体积的、关于参考环境的维度信息。在例子中，关于参考环境的其他信息(诸如关于参考环境中的物体或表面光洁度(finish)的信息)可以被类似地包括。

在操作806，方法800包括接收局部环境混响信息。接收局部环境混响信息可以包括使用反射声音渲染电路115来接收或检索先前获取的或先前计算的关于局部环境的数据。在例子中，在操作806接收局部环境混响信息包括感测局部收听者环境中的混响衰退时间，诸如通过使用通用的麦克风(例如，收听者的智能电话、头戴式受话器或其他设备)来感测。在例子中，接收的局部环境混响信息可以包括与虚拟声源相对应的频率信息。也就是说，虚拟声源可以包括与指定的频带(例如，0.4-3kHz)相对应的声学频率内容，接收的局部环境混响信息可以包括与相同的指定的频带的至少一部分相对应的混响衰退信息。

在例子中，各种频率分区或分组方案可以用于与衰退时间相关联的时间-频率信息。例如，关于Mel频带或临界带的信息可以被使用，诸如作为使用关于混响衰退特性的连续频谱信息的补充或替代。在例子中，频率平滑和/或时间平滑可以类似地用于帮助稳定混响衰退包络信息，诸如关于参考环境和局部环境的混响衰退包络信息。

在操作808，方法800包括接收局部环境体积信息。局部环境体积信息可以包括与房间体积相关联的指示或数值，或者可以包括从其可以确定或计算房间体积的、关于局部环境的维度信息。在例子中，关于局部环境的其他信息(诸如关于局部环境中的物体或表面光洁度的信息)可以被类似地包括。

在操作810，方法800包括使用来自操作802的关于参考脉冲响应的信息并且使用来自操作806的局部环境混响信息来生成用于虚拟声源信号的混响信号。在操作810生成混响信号可以包括使用反射声音渲染电路115。

在例子中，在操作810生成混响信号包括接收或确定在操作802接收的参考脉冲响应信息的时间-频率包络、然后基于与在操作806接收的局部环境混响信息(例如，局部混响衰退时间)相关联的时间-频率包络的对应部分来调整时间-频率包络。也就是说，调整参考脉冲响应的时间-频率包络可以包括基于局部混响衰退的时间-频率包络的对应部分和与参考脉冲响应相关联的时间-频率包络之间的关系(例如，差值、比率等)来调整包络。在例子中，反射声音渲染电路115可以包括或使用人工混响器电路，该人工混响器电路可以使用调整的包络来对虚拟声源信号进行处理，从而匹配局部收听者环境的局部混响衰退。

在操作812，方法800包括调整在操作810生成的混响信号。例如，操作812可以包括使用关于参考环境体积(参见例如操作804)和局部环境体积(参见例如操作808)之间的关系的信息来调整混响信号，诸如通过使用反射声音渲染电路115或者使用另一混频器或音频信号缩放电路来调整。来自操作812的调整后的混响信号可以与虚拟声源信号的直接声音版本组合，然后经由耳机提供给收听者。

在例子中，操作812包括确定局部环境体积与参考环境体积的比率。也就是说，操作812可以包括：确定与参考环境相关联的房间体积，该参考环境诸如对应于参考脉冲响应；并且确定与局部收听者的环境相关联的房间体积。混响信号然后可以根据房间体积的比率缩放。缩放后的混响信号可以与直接声音组合使用，然后经由耳机提供给收听者。

在例子中，操作812包括调整混响信号的晚期混响部分(参见例如图2、晚期混响205处)。混响信号的早期混响部分可以被类似地、但是不同地调整。例如，可以使用参考脉冲响应、而不是调整后的脉冲响应来调整混响信号的早期混响部分。也就是说，在例子中，调整后的混响信号可以包括基于参考脉冲响应信号的第一部分(对应于早期混响或早期反射)，并且可以包括基于调整后的参考脉冲响应的随后的第二部分(对应于晚期混响)。

图9是示出根据一些示例实施例的机器900的组件的框图，机器900能够从机器可读介质(例如，机器可读存储介质)读取指令916并且执行本文所讨论的方法中的一个或多个。具体地说，图9以计算机系统的示例形式示出了机器900的图解表示，在该计算机系统内，用于使机器900执行本文所讨论的方法中的一个或多个的指令916(例如，软件、程序、应用程序、小程序、应用或其他可执行代码)可以被执行。例如，指令916可以实现图1的模块等。指令916将一般的非程控机器900变换为被编程为以所描述的方式执行所描述的和所示出的功能的特定机器。在替代实施例中，机器900作为独立设备操作，或者可以耦合(例如，联网)到其他机器。在联网部署中，机器900可以在服务器-客户端网络环境中的服务器机器或客户端机器的容量中操作，或者作为对等(或分布式)网络环境中的对等机器操作。

机器900可以包括，但不限于，服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如，智能手表)、智能家庭设备(例如，智能电器)、其他智能设备、web电器、网络路由器、网络交换机、网络桥、耳机驱动器、或能够顺序地或以其他方式执行指定机器900将采取的动作的指令916的任何机器。此外，虽然只有单个机器900被示出，但是术语“机器”也应被看作包括单个地或联合地执行指令916以执行本文所讨论的方法中的任何一个或多个的一批机器900。

机器900可以包括处理器910、存储器/储存器930和I/O组件950，它们可以被配置为诸如经由总线902彼此通信。在示例实施例中，处理器910(例如，中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、ASIC、射频集成电路(RFIC)、其他处理器、或它们的任何合适的组合)可以包括例如诸如处理器912和处理器914之类的、可以执行指令916的电路。术语“处理器”意图包括多核处理器912、914，多核处理器912、914可以包括可以同时地执行指令916的两个或更多个独立的处理器912、914(有时被称为“核”)。尽管图9示出了多个处理器910，但是机器900可以包括具有单个核的单个处理器912、914、具有多个核的单个处理器912、914(例如，多核处理器912、914)、具有单个核的多个处理器912、914、具有多个核的多个处理器912、914、或它们的任何组合。

存储器/储存器930可以包括存储器932(诸如主存储器电路或其他存储器存储电路)和储存器电路936，这二者可供处理器910诸如经由总线902访问。储存器单元936和存储器932存储实施本文所描述的方法或功能中的任何一个或多个的指令916。在机器900执行指令916期间，指令916还可以完全地或部分地驻留在存储器932内、储存器单元936内、处理器910中的至少一个内(例如，处理器912、914的高速缓存存储器内)或它们的任何合适的组合。因此，存储器932、储存器单元936和处理器910的存储器是机器可读介质的例子。

如本文所使用的，“机器可读介质”意指能够暂时地或永久地存储指令916和数据的设备，并且可以包括，但不限于，随机存取存储器(RAM)、只读存储器(ROM)、缓冲存储器、闪存、光学介质、磁性介质、高速缓存存储器、其他类型的储存器(例如，可擦可编程只读存储器(EEPROM))、和/或它们的任何合适的组合。术语“机器可读介质”应被看作包括能够存储指令916的单个介质或多个介质(例如，集中式或分布式数据库、或相关联的高速缓存和服务器)。术语“机器可读介质”还应被看作包括能够存储供机器(例如，机器900)执行的指令(例如，指令916)以使得指令916在被机器900的一个或多个处理器(例如，处理器910)执行时使机器900执行本文所描述的方法中的任何一个或多个的任何介质或多个介质的组合。因此，“机器可读介质”是指单个存储装置或设备、以及包括多个存储装置或设备的“基于云的”存储系统或存储网络。术语“机器可读介质”不包括信号本身。

I/O组件950可以包括接收输入、提供输出、产生输出、发送信息、交换信息、捕捉测量等的各种组件。包括在特定机器900中的特定的I/O组件950将取决于机器900的类型。例如，诸如移动电话之类的便携式机器将有可能包括触摸输入设备或其他这样的输入机构，而无头服务器机器将有可能不包括这样的触摸输入设备。将意识到，I/O组件950可以包括图9中未示出的许多其他的组件。仅仅是为了简化以下讨论，I/O组件950是按照功能性分组的，并且分组绝不是限制。在各种示例实施例中，I/O组件950可以包括输出组件952和输入组件954。输出组件952可以包括视觉组件(例如，显示器，诸如等离子体显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT))、声学组件(例如，扬声器)、触觉组件(例如，振动马达、电阻机构)、其他信号处理器等。输入组件954可以包括字母数字输入组件(例如，键盘、被配置为接收字母数字输入的触摸屏、光-光学键盘、或其他字母数字输入组件)、基于点的输入组件(例如，鼠标、触摸板、轨迹球、控制杆、运动传感器或其他定点器械)、触觉输入组件(例如，实物按钮、提供触摸或触摸姿势的位置和/或力的触摸屏、或其他触觉输入组件)、音频输入组件(例如，麦克风)等。

在进一步的示例实施例中，在各种各样的其他的组件之间，I/O组件950可以包括生物计量组件956、运动组件958、环境组件960或位置组件962。例如，生物计量组件956可以包括检测表达(例如，手部表达、面部表情、声音表达、身体姿势或眼睛跟踪)、测量生物信号(例如，血压、心率、体温、汗水或脑波)、识别人(例如，语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的组件，这些组件诸如可以影响例如收听者特定的或环境特定的脉冲响应或HRTF的包括、使用或选择。运动组件958可以包括加速度传感器组件(例如，加速计)、引力传感器组件、旋转传感器组件(例如，陀螺仪)等。环境组件960可以包括，例如，照射传感器组件(例如，光度计)、温度传感器组件(例如，检测环境温度的一个或多个温度计)、湿度传感器组件、压力传感器组件(例如，气压计)、声学传感器组件(例如，检测混响衰退时间(诸如针对一个或多个频率或频带)的一个或多个麦克风)、接近度传感器或房间体积感测组件(例如，检测附近的物体的红外传感器)、气体传感器(例如，为安全起见检测危险气体的浓度或测量大气中的污染物的气体检测传感器)、或可以提供与周围物理环境相对应的指示、测量或信号的其他组件。位置组件962可以包括地点传感器组件(例如，全球定位系统(GPS)接收器组件)、海拔传感器组件(例如，检测从其可以导出海拔的空气压力的高度计或气压计)、方位传感器组件(例如，磁强计)等。

通信可以使用各种技术来实现。I/O组件950可以包括可操作为分别经由耦合982和耦合972将机器900耦合到网络980或设备970的通信组件。例如，通信组件964可以包括网络接口组件或与网络980通过接口连接的其他合适的设备。在进一步的例子中，通信组件964可以包括有线通信组件、无线通信组件、蜂窝通信组件、近场通信(NFC)组件、组件(例如，Low Energy)、组件、以及经由其他方式提供通信的其他通信组件。设备970可以是另一机器或各种外设设备中的任何一个(例如，经由USB耦合的外设设备)。

而且，通信组件964可以检测标识符，或者包括可操作为检测标识符的组件。例如，通信组件964可以包括射频识别(RFID)标签读取器组件、NFC智能标签检测组件、光学读取器组件(例如，检测一维条形码(诸如通用产品代码(UPC)条形码)、多维条形码(诸如快速响应(QR)码)、Aztec码、Data Matrix、Dataglyph、MaxiCode、PDF49、Ultra码、UCC RSS-2D条形码和其他光学代码)的光学传感器)、或声学检测组件(例如，识别加标签的音频信号的麦克风)。另外，各种信息可以经由通信组件964导出，诸如经由互联网协议(IP)地理位置导出地点、经由信号三角测量导出地点、经由检测可以指示特定地点的NFC信标信号导出地点、等等。这样的标识符可以用于确定关于以下中的一个或多个的信息：参考或局部脉冲响应、参考或局部环境特性、或收听者特定的特性。

在各种示例实施例中，网络980的一个或多个部分可以是自组织网络、内联网、外联网、虚拟私有络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、互联网、互联网的一部分、共用交换电话网络(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、网络、另一类型的网络、或两个或更多个这样的网络的组合。例如，网络980或网络980的一部分可以包括无线或蜂窝网络，耦合982可以是码分多址(CDMA)连接、全球移动通信系统(GSM)连接、或另一类型的蜂窝或无线耦合。在该例子中，耦合982可以实现各种类型的数据传送技术中的任何一个，诸如单载波无线电传输技术(1xRTT)、演变数据优化(EVDO)技术、通用分组无线服务(GPRS)技术、增强型数据速率GSM演进(EDGE)技术、第三代合作伙伴计划(3GPP)(包括3G)、第四代无线(4G)网络、通用移动电信系统(UMTS)、高速分组访问(HSPA)、全球微波访问互操作性(WiMAX)、长期演进(LTE)标准、由各种标准设置组织定义的其他数据传送技术、其他长距离协议、或其他数据传送技术。在例子中，这样的无线通信协议或网络可以被配置为将耳机音频信号从集中式处理器或机器发送到耳机设备以供收听者使用。

指令916可以经由网络接口设备(例如，被包括在通信组件964中的网络接口组件)使用传输介质以及使用若干众所周知的传送协议中的任何一个(例如，超文本传送协议(HTTP))来通过网络980发送或接收。类似地，指令916可以经由与设备970的耦合972(例如，对等耦合)使用传输介质发送或接收。术语“传输介质”应被看作包括能够存储、编码或承载供机器900执行的指令916的任何有形介质，并且包括促进这样的软件的通信的数字或模拟通信信号或其他有形介质。

本文所讨论的构思和例子的许多变型对于相关领域的技术人员将是清楚的。例如，根据实施例，本文所描述的方法、处理或算法中的任何一个的某些动作、事件或功能可以按不同的顺序执行，可以被添加、被合并或被省略(以使得并非所描述的所有动作或事件都是实施各种方法、处理或算法所必需的)。而且，在一些实施例中，动作或事件可以同时执行，诸如通过多线程处理、中断处理、或多个处理器或处理器核同时执行，或者在其他并行架构上同时执行，而不是顺序地执行。另外，不同的任务或处理可以由可以一起运作的不同机器和计算系统执行。

结合本文所公开的实施例描述的各种说明性逻辑块、模块、方法以及算法处理和序列可以实现为电子硬件、计算机软件或这二者的组合。为了示出硬件和软件的这个可互换性，各种组件、块、模块和处理动作在一些情况下一般是就它们的功能性描述的。这样的功能性是实现为硬件还是软件取决于特定应用和施加于整个系统上的设计约束。所描述的功能性因此可以针对特定应用以不同的方式实现，但是这样的实现决策不应被解释为引起脱离本文档的范围。本文所描述的混响处理系统和方法和技术的实施例是在诸如在上面在图9的讨论中描述的许多类型的通用或专用计算系统环境或配置内操作的。

本发明的各方面可以独立地使用或一起使用。例如，方面1可以包括或使用主题(诸如用于执行动作的装置、系统、设备、方法、手段、或包括当被设备执行时可以使设备执行动作的指令的设备可读介质)，诸如可以包括或使用一种用于准备用于使用耳机回放的混响信号的方法，该混响信号对应于起源于局部收听者环境中的指定地点的虚拟声源信号。方面1可以包括：使用处理器电路来接收关于对于参考环境中的参考声源和参考接收者的参考脉冲响应的信息，并且使用处理器电路来接收关于参考环境的参考体积的信息。方面1可以进一步包括：确定(例如，测量或估计或计算)关于局部收听者环境的局部混响衰退的信息，并且确定(例如，测量或估计或计算)关于局部收听者环境的局部体积的信息。在例子中，方面1包括使用处理器电路来使用关于参考脉冲响应的信息和确定的关于局部混响衰退的信息生成用于虚拟声源信号的混响信号。方面1可以进一步包括使用处理器电路来根据局部体积和参考体积之间的关系对用于虚拟声源信号的混响信号进行缩放。

方面2可以包括或使用，或者可以可选地与方面1的主题组合以可选地包括：用于虚拟声源信号的混响信号的缩放包括使用局部收听者环境和参考环境的体积比。

方面3可以包括或使用，或者可以可选地与方面1或2中的一个或方面1或2的任何组合的主题组合以可选地包括：接收关于参考脉冲响应的信息包括：接收关于用于参考声源的扩散场传递函数的信息，并且基于用于局部源的扩散场传递函数和用于参考声源的扩散场传递函数之间的关系来对用于虚拟声源信号的混响信号进行校正。

方面4可以包括或使用，或者可以可选地与方面1至3中的一个或方面1至3的任何组合的主题组合以可选地包括：接收关于参考脉冲响应的信息包括：接收关于用于参考接收者的扩散场传递函数的信息，并且基于用于局部收听者的扩散场头部相关传递函数和用于参考接收者的扩散场传递函数之间的关系来对用于虚拟声源信号的混响信号进行缩放。

方面5可以包括或使用，或者可以可选地与方面1至4中的一个或方面1至4的任何组合的主题组合以可选地包括：接收关于参考脉冲响应的信息包括接收关于用于参考接收者的头部相关传递函数的信息，该头部相关传递函数对应于使用耳机的第一收听者。

方面6可以包括或使用，或者可以可选地与方面5的主题组合以可选地包括：接收第二收听者正在使用耳机(例如，代替第一收听者)的指示，并且作为响应，方法可以包括将用于参考接收者的头部相关传递函数更新为与第二收听者相对应的头部相关传递函数。

方面7可以包括或使用，或者可以可选地与方面1至6中的一个或方面1至6的任何组合的主题组合以可选地包括：使用关于参考脉冲响应和确定的局部混响衰退的信息来生成用于虚拟声源信号的混响信号，包括调整参考脉冲响应的时间-频率包络。

方面8可以包括或使用，或者可以可选地与方面7的主题组合以可选地包括：参考脉冲响应的时间-频率包络基于来自脉冲响应的平滑后的和/或频率分区后的时间-频率频谱信息，并且其中，调整参考脉冲响应的时间-频率包络包括基于参考脉冲响应的时间-频率包络和局部混响衰退的时间-频率包络的对应部分之间的差异来调整包络。

方面9可以包括或使用，或者可以可选地与方面1至8中的一个或方面1至8的任何组合的主题组合以可选地包括：生成混响信号包括使用人工混响器电路和确定的关于局部收听者环境的局部混响衰退的信息。

方面10可以包括或使用，或者可以可选地与方面1至9中的一个或方面1至9的任何组合的主题组合以可选地包括：接收关于参考环境的参考体积的信息包括接收参考体积的数值指示或者接收关于参考体积的维度信息。

方面11可以包括或使用，或者可以可选地与方面1至10中的一个或方面1至10的任何组合的主题组合以可选地包括：确定局部环境的局部混响衰退时间包括：在局部环境中产生可听刺激信号，并且使用局部环境中的麦克风来测量局部混响衰退时间。在例子中，麦克风与收听者特定的设备(诸如个人智能电话)相关联。

方面12可以包括或使用，或者可以可选地与方面1至11中的一个或方面1至11的任何组合的主题组合以可选地包括：确定关于局部收听者环境的局部混响衰退的信息包括测量或估计局部混响衰退时间。

方面13可以包括或使用，或者可以可选地与方面12的主题组合以可选地包括：测量或估计局部环境的局部混响衰退时间包括在与虚拟声源信号的频率内容相对应的一个或多个频率处测量或估计局部混响衰退时间。

方面14可以包括或使用，或者可以可选地与方面1至13中的一个或方面1至13的任何组合的主题组合以可选地包括：确定关于局部房间体积的信息包括以下中的一个或多个：

接收局部收听者环境的局部体积的数值指示，接收关于局部收听者环境的局部体积的维度信息，并且使用处理器电路来使用局部收听者环境的CAD绘图或3D模型计算局部收听者环境的局部体积。

方面15可以包括或使用，或者可以可选地与方面1至14中的一个或方面1至14的任何组合的主题组合以可选地包括：提供或确定确定参考环境的参考混响衰退包络，该参考混响衰退包络具有与参考脉冲响应相关联的参考初始功率谱和参考衰退时间；通过按照参考环境和局部收听者环境的体积比对参考初始功率谱进行缩放来确定局部收听者环境的局部初始功率谱；使用局部初始功率谱和确定的关于局部混响衰退的信息来确定局部收听者环境的局部混响衰退包络；并且提供改动的脉冲响应。在方面15中，在与局部收听者环境中的虚拟声源信号的早期反射相对应的第一间隔内，改动的脉冲响应基本上等于根据局部体积和参考体积之间的关系缩放的参考脉冲响应。在方面15中，在早期反射之后的随后的间隔内，改动的脉冲响应的时间-频率分布基本上等于在每个时间和频率、根据确定的局部混响衰退包络和参考混响衰退包络之间的关系缩放的参考脉冲响应的时间-频率分布。

方面16可以包括，或者可以可选地与方面1至15中的一个或方面1至15的任何组合的主题组合以包括或使用，主题(诸如用于执行动作的装置、方法、手段、或包括当被机器执行时可以使机器执行动作的指令的机器可读介质)，诸如可以包括或使用一种用于提供耳机音频信号以在局部收听者环境中的指定地点处模拟虚拟声源的方法。方面16可以包括：接收关于对于参考环境中的参考声源和参考接收者的参考脉冲响应的信息；确定关于局部收听者环境的局部混响衰退的信息；使用混响处理器电路来使用关于参考脉冲响应的信息和确定的关于局部混响衰退的信息生成用于来自虚拟声源的虚拟声源信号的混响信号；使用直接声音处理器电路来基于局部收听者环境中的指定地点处的虚拟声源信号生成直接信号；并且将混响信号和直接信号组合以提供耳机音频信号。

方面17可以包括或使用，或者可以可选地与方面16的主题组合以可选地包括：接收关于用于参考声源的扩散场传递函数的信息；接收关于用于虚拟声源的扩散场传递函数的信息；并且生成混响信号包括基于用于参考声源的扩散场传递函数和用于虚拟声源的扩散场传递函数之间的关系来校正混响信号。

方面18可以包括或使用，或者可以可选地与方面16或17中的一个或方面16或17的任何组合的主题组合以可选地包括：接收关于用于参考接收者的扩散场传递函数的信息；接收关于用于局部收听者环境中的局部收听者的扩散场头部相关传递函数的信息；并且生成混响信号包括基于用于参考接收者的扩散场传递函数和用于局部收听者的扩散场头部相关传递函数之间的关系来校正混响信号。

方面19可以包括或使用，或者可以可选地与方面16至18中的一个或方面16至18的任何组合的主题组合以可选地包括：接收关于参考环境的参考体积的信息；确定关于局部收听者环境的局部体积的信息；并且生成混响信号包括根据参考环境的参考体积和局部收听者环境的局部体积之间的关系来对混响信号进行缩放。

方面20可以包括或使用，或者可以可选地与方面19的主题组合以可选地包括：对混响信号进行缩放包括使用局部体积与参考体积的比率。

方面21可以包括或使用，或者可以可选地与方面19或20中的一个或方面19或20的任何组合的主题组合以可选地包括：生成用于虚拟声源信号的直接信号包括将头部相关传递函数应用于虚拟声源信号。

方面22可以包括，或者可以可选地与方面1至21中的一个或方面1至21的任何组合的主题组合以包括或使用，主题(诸如用于执行动作的装置、方法、手段、或包括当被机器执行时可以使机器执行动作的指令的机器可读介质)，诸如可以包括或使用一种音频信号处理系统，该音频信号处理系统包括：音频输入电路，其被配置为接收用于虚拟声源的虚拟声源信号，虚拟声源设在局部收听者环境中的指定地点处；以及存储器电路，其包括关于对于参考环境中的参考声源和参考接收者的参考脉冲响应的信息、关于参考环境的参考体积的信息、以及关于局部收听者环境的局部体积的信息。方面22可以包括耦合到音频输入电路和存储器电路的混响信号处理器电路，该混响信号处理器电路被配置为使用关于参考脉冲响应的信息、关于参考体积的信息和关于局部体积的信息来生成与虚拟声源信号和局部收听者环境相对应的混响信号。

方面23可以包括或使用，或者可以可选地与方面22的主题组合以可选地包括：混响信号处理器电路被配置为使用局部体积和参考体积的比率对混响信号进行缩放来生成混响信号。

方面24可以包括或使用，或者可以可选地与方面22或23中的一个或方面22或23的任何组合的主题组合以可选地包括：耳机信号输出电路，其被配置为提供耳机音频信号，该耳机音频信号包括与虚拟声源信号相对应的混响信号和直接信号。

方面25可以包括或使用，或者可以可选地与方面24的主题组合以可选地包括：直接声音处理器电路，其被配置为通过使用头部相关传递函数对虚拟声源信号进行处理来提供直接信号。

这些非限制性方面中的每个可以独立存在，或者可以按各种排列或组合与本文所提供的其他方面或例子中的一个或多个组合。

在本文档中，术语“一”、“一个”如专利文档中常见的那样用于包括一个或多于一个，独立于“至少一个”或“一个或多个”的任何其他情况或使用。在本文档中，术语“或”用于指代非排他性的，或者使得“A或B”包括“有A、但没有B”、“有B、但没有A”和“有A和B”，除非另有指示。在本文档中，术语“包括”和“在其中”用作相应术语“包含”和“其中”的普通英语等同形式。

本文所用的条件语言(除了别的之外，诸如“能够”、“可能”、“可以”、“例如”等)除非另有具体陈述或者在所用上下文内另有理解，否则一般意图传达某些实施例包括而其他实施例不包括某些特征、元件和/或状态。因此，这样的条件语言一般并不意图暗示，特征、元件和/或状态无论如何都是一个或多个实施例必需的，或者一个或多个实施例必定包括用于在有或没有创作者输入或提示的情况下决定这些特征、元件和/或状态是否包括在任何特定实施例中或者将在任何特定实施例中被执行的逻辑。

虽然上面的详细描述已经示出、描述和指出了应用于各种实施例的新颖特征，但是将理解的是，在不脱离本公开的精神的情况下，可以做出示出的设备或算法的形式和细节上的各种省略、替换和改变。如将认识到的，本文所描述的发明的某些实施例可以在不提供本文所阐述的全部特征和益处的形式内实施，因为一些特征可以与其他特征分开使用或实施。

而且，尽管已经用特定于结构特征或方法或动作的语言描述了主题，但是将理解的是，所附权利要求中限定的主题不一定限于上述特定特征或动作。相反，上述特定特征和动作是作为实现权利要求的示例形式公开的。

Claims

1.一种用于准备用于使用耳机回放的混响信号的方法，混响信号对应于起源于局部收听者环境中的指定地点处的虚拟声源信号，该方法包括：

使用处理器电路来接收关于对于参考环境中的参考声源和参考接收者的参考脉冲响应的信息；

使用处理器电路来接收关于参考环境的参考体积的信息；

确定关于局部收听者环境的局部混响衰退的信息；

确定关于局部收听者环境的局部体积的信息；

使用处理器电路来使用关于参考脉冲响应的信息和确定的关于局部混响衰退的信息生成用于虚拟声源信号的混响信号；并且

使用处理器电路来根据局部体积和参考体积之间的关系对用于虚拟声源信号的混响信号进行缩放。

2.根据权利要求1所述的方法，其中，对用于虚拟声源信号的混响信号进行缩放包括使用局部收听者环境和参考环境的体积比。

3.根据权利要求1所述的方法，其中，接收关于参考脉冲响应的信息包括：接收关于用于参考声源的扩散场传递函数的信息，并且基于用于局部源的扩散场传递函数和用于参考声源的扩散场传递函数之间的关系来对用于虚拟声源信号的混响信号进行校正。

4.根据权利要求1所述的方法，其中，接收关于参考脉冲响应的信息包括：接收关于用于参考接收者的扩散场传递函数的信息，并且基于用于局部收听者的扩散场头部相关传递函数和用于参考接收者的扩散场传递函数之间的关系来对用于虚拟声源信号的混响信号进行缩放。

5.根据权利要求1所述的方法，其中，接收关于参考脉冲响应的信息包括接收关于用于参考接收者的头部相关传递函数的信息，其中，头部相关传递函数对应于使用耳机的第一收听者。

6.根据权利要求5所述的方法，进一步包括接收第二收听者正在使用耳机的指示，并且作为响应，将用于参考接收者的头部相关传递函数更新为与第二收听者相对应的头部相关传递函数。

7.根据权利要求1所述的方法，其中，使用关于参考脉冲响应和确定的局部混响衰退的信息来生成用于虚拟声源信号的混响信号包括调整参考脉冲响应的时间-频率包络。

8.根据权利要求7所述的方法，其中，参考脉冲响应的时间-频率包络基于来自脉冲响应的平滑后的和频率分区后的时间-频率频谱信息，并且其中，调整参考脉冲响应的时间-频率包络包括基于参考脉冲响应的时间-频率包络和局部混响衰退的时间-频率包络的对应部分之间的差异来调整包络。

9.根据权利要求1所述的方法，其中，生成混响信号包括使用人工混响器电路和确定的关于局部收听者环境的局部混响衰退的信息。

10.根据权利要求1所述的方法，其中，接收关于参考环境的参考体积的信息包括接收参考体积的数值指示或者接收关于参考体积的维度信息。

11.根据权利要求1所述的方法，其中，确定局部环境的局部混响衰退时间包括：在局部环境中产生可听刺激信号，并且使用局部环境中的麦克风来测量局部混响衰退时间。

12.根据权利要求1所述的方法，其中，确定关于局部收听者环境的局部混响衰退的信息包括测量或估计局部混响衰退时间。

13.根据权利要求12所述的方法，其中，测量或估计局部环境的局部混响衰退时间包括在与虚拟声源信号的频率内容相对应的一个或多个频率处测量或估计局部混响衰退时间。

14.根据权利要求1所述的方法，其中，确定关于局部房间体积的信息包括以下中的一个或多个：

接收局部收听者环境的局部体积的数值指示；

接收关于局部收听者环境的局部体积的维度信息；并且

使用处理器电路来使用局部收听者环境的CAD绘图或3D模型来计算局部收听者环境的局部体积。

15.根据权利要求1所述的方法，进一步包括：

提供或确定参考环境的参考混响衰退包络，参考混响衰退包络具有与参考脉冲响应相关联的参考初始功率谱和参考衰退时间；

通过按照参考环境和局部收听者环境的体积比对参考初始功率谱进行缩放来确定局部收听者环境的局部初始功率谱；

使用局部初始功率谱和确定的关于局部混响衰退的信息来确定局部收听者环境的局部混响衰退包络；并且

提供改动的脉冲响应，其中：

在与局部收听者环境中的虚拟声源信号的早期反射相对应的第一间隔内，改动的脉冲响应基本上等于根据局部体积和参考体积之间的关系缩放的参考脉冲响应；并且

在早期反射之后的随后的间隔内，改动的脉冲响应的时间-频率分布基本上等于在每个时间和频率处、根据确定的局部混响衰退包络和参考混响衰退包络之间的关系缩放的参考脉冲响应的时间-频率分布。

16.一种用于提供耳机音频信号以在局部收听者环境中的指定地点处模拟虚拟声源的方法，该方法包括：

接收关于对于参考环境中的参考声源和参考接收者的参考脉冲响应的信息；

确定关于局部收听者环境的局部混响衰退的信息；

使用混响处理器电路来使用关于参考脉冲响应的信息和确定的关于局部混响衰退的信息生成用于来自虚拟声源的虚拟声源信号的混响信号；

使用直接声音处理器电路来基于局部收听者环境中的指定地点处的虚拟声源信号生成直接信号；并且

将混响信号和直接信号组合以提供耳机音频信号。

17.根据权利要求16所述的方法，进一步包括：

接收关于用于参考声源的扩散场传递函数的信息；

接收关于用于虚拟声源的扩散场传递函数的信息；

其中，生成混响信号包括基于用于参考声源的扩散场传递函数和用于虚拟声源的扩散场传递函数之间的关系来校正混响信号。

18.根据权利要求16所述的方法，进一步包括：

接收关于用于参考接收者的扩散场传递函数的信息；

接收关于用于局部收听者环境中的局部收听者的扩散场头部相关传递函数的信息；

其中，生成混响信号包括基于用于参考接收者的扩散场传递函数和用于局部收听者的扩散场头部相关传递函数之间的关系来校正混响信号。

19.根据权利要求16所述的方法，进一步包括：

接收关于参考环境的参考体积的信息；

确定关于局部收听者环境的局部体积的信息；

其中，生成混响信号包括根据参考环境的参考体积和局部收听者环境的局部体积之间的关系来对混响信号进行缩放。

20.根据权利要求19所述的方法，其中，对混响信号进行缩放包括使用局部体积与参考体积的比率。

21.根据权利要求19所述的方法，其中，生成用于虚拟声源信号的直接信号包括将头部相关传递函数应用于虚拟声源信号。

22.一种音频信号处理系统，包括：

音频输入电路，被配置为接收用于虚拟声源的虚拟声源信号，虚拟声源设在局部收听者环境中的指定地点处；

存储器电路，包括：

关于对于参考环境中的参考声源和参考接收者的参考脉冲响应的信息；以及

关于参考环境的参考体积的信息；

关于局部收听者环境的局部体积的信息；以及

耦合到音频输入电路和存储器电路的混响信号处理器电路，混响信号处理器电路被配置为使用关于参考脉冲响应的信息、关于参考体积的信息和关于局部体积的信息来生成与虚拟声源信号和局部收听者环境相对应的混响信号。

23.根据权利要求22所述的音频信号处理系统，其中，混响信号处理器电路被配置为使用局部体积和参考体积的比率对混响信号进行缩放以生成混响信号。

24.根据权利要求22所述的音频信号处理系统，进一步包括耳机信号输出电路，该耳机信号输出电路被配置为提供耳机音频信号，该耳机音频信号包括与虚拟声源信号相对应的直接信号和混响信号。

25.根据权利要求24所述的音频信号处理系统，进一步包括直接声音处理器电路，该直接声音处理器电路被配置为通过使用头部相关传递函数对虚拟声源信号进行处理来提供直接信号。