CN106659936A

CN106659936A - 用于确定增强现实应用中音频上下文的系统和方法

Info

Publication number: CN106659936A
Application number: CN201580039587.XA
Authority: CN
Inventors: P·S·奥贾拉
Original assignee: Pcms Holdings Inc
Current assignee: Pcms Holdings Inc
Priority date: 2014-07-23
Filing date: 2015-07-09
Publication date: 2017-05-10
Also published as: EP3441966A1; US20170208415A1; EP3172730A1; US20180376273A1; WO2016014254A1

Abstract

增强现实音频系统通过采样的音频信号来生成关于听觉环境的信息。使用高斯混合模型或其它技术，所述系统识别一个或多个音频源的位置，每个源将音频分量贡献至所采样的音频信号。所述系统使用音频分量确定听觉环境的混响时间。在确定混响时间时，所述系统可以丢弃来自被确定处于运动中的源的音频分量，诸如具有超过阈值的角速度的分量或具有超过阈值的多普勒偏移的分量。所述系统还可以丢弃来自具有超过阈值的信道间相干性的源的音频分量。在至少一个实施方式中，所述系统使用在与音频源分离的虚拟位置处的混响时间渲染声音。

Description

用于确定增强现实应用中音频上下文的系统和方法

相关申请的交叉引用

本申请要求于2014年7月23日递交的且标题为“System and Method forDetermining Audio Context in Augmented-Reality Applications”的美国临时专利申请序列号62/028，121的优先权和权益，其全部内容通过引用合并于此。

技术领域

本公开涉及增强现实系统的音频应用。

背景技术

当渲染增强现实应用中音频上下文时，具有关于现行音频情景上下文的信息是很重要的。增强现实内容需要符合周围环境和上下文以对增强现实应用的用户显得自然。例如，当增强音频场景内的人工音频源时，如果源混响不同于用户周围的音频场景的混响，或者如果内容在与环境源相同的相关方向被渲染，在所述内容听起来不是自然的并且不能提供自然的用户体验。当音频标签在域中或相对于用户在预定位置被增强时，这在虚拟现实游戏和娱乐中尤其重要。为了实现自然渲染，期望应用上下文分析以获得包括提供可靠的混响估计的给定音频场景的准确估计。这类似于对针对在增强现实屏幕上渲染的视觉分量具有匹配的照度和恰当的阴影的期望。

混响估计通常通过搜索音频内容内衰减事件而来进行。在最佳情况中，估计器检测脉冲式声音事件，其衰减拖尾揭示了给定空间的混响条件。自然地，估计器还检测自然缓慢衰减的信号。在这种情况下，观测的衰减率为源信号衰减和给定空间的混响的结合。此外，通常假设音频场景是静止的，即，声音源不移动。然而，混响估计算法可能将移动的音频源检测为衰减信号源，这引起估计结果的误差。

混响上下文仅仅在存在活跃音频源时可以被检测。然而，不是所有音频内容适合用户进行这种分析。增强现实设备和游戏机可以应用测试信号来进行现行的音频上下文分析。然而，许多可穿戴设备并不具有发射这种测试信号的能力，或者在许多情境中这种测试信号是不可用的。

环境和室内效应的混响通常利用离线测量设置来估计。基本方式是具有人工脉冲声音源和用于记录脉冲响应的附加设备。混响估计工具可以使用本领域已知的工具，诸如极大似然估计(MLE)。脉冲衰减率然后被应用以计算混响。这是用于确定现行上下文的相当可靠的方式。然而，其不是实时的并且当用户的位置不事先预知时其不能被用于增强现实服务中。

通常给定环境的混响估计和室内响应使用测试信号来进行。游戏设备或增强现实应用输出定义明确的声学测试信号，其可以由白噪声或分红噪声、伪随机序列或脉冲等组成。例如，微软公司的体感设备可以被配置成扫描室内并估计室内声学。在这种情况中，设备或应用同时回放测试信号并利用一个或多个麦克风记录输出。结果，先知的输入信号和输出信号，设备和应用能够确定给定空间的脉冲响应。

发明内容

于此公开了用于确定增强现实应用中音频上下文的系统和方法。

一种实施方式具有包括以下项的方法的形式：(i)从多个麦克风采样音频信号；(ii)从所采样的音频信号确定至少一个音频源的相应位置；以及(iii)渲染具有与确定的至少一个位置相隔至少阈值间隔的虚拟位置的增强现实音频信号。

在至少一个这种实施方式中，通过增强现实头戴式设备执行所述方法。

在至少一个这种实施方式中，渲染包括应用头相关传递函数滤波。

在至少一个这种实施方式中，所确定的位置是角位置，并且阈值间隔是阈值角距离；在至少一个这种实施方式中，阈值角距离具有从包括5度和10度的组中选择的值。

在至少一个这种实施方式中，所述至少一个音频源包括多音频源，以及虚拟位置与相应确定的位置中的每一者相隔至少阈值间隔。

在至少一个这种实施方式中，所述方法进一步包括基于从包括谐振频率、声级和相干性的范围中选择的一个或多个统计特性区别所述多个音频源。

在至少一个这种实施方式中，多个音频源中的每一者向采样的音频信号贡献相应音频分量，以及所述方法进一步包括确定音频分量中的每一者具有高于预定相干性等级阈值的相应的相干性等级。

在至少一个这种实施方式中，所述方法进一步包括使用高斯混合模型识别所述多个音频源中的每一者。

在至少一个这种实施方式中，所述方法进一步包括至少部分通过确定到达数据的方向的概率密度函数来识别所述多个音频源中的每一者。

在至少一个这种实施方式中，所述方法进一步包括至少部分通过模型化到达数据的方向的概率密度函数作为所述多个音频源的概率分布函数的总和的模型来识别所述多个音频源中的每一者。

在至少一个这种实施方式中，所采样的音频信号不是测试信号。

在至少一个这种实施方式中，使用双耳线索编码来执行位置确定。

在至少一个这种实施方式中，通过分析频域中的子频带来执行位置确定。

在至少一个这种实施方式中，使用信道(channel)间时间差来执行位置确定。

一种实施方式采用增强现实头戴式设备的方式，所述增强现实头戴式设备包括：(i)多个麦克风；(ii)至少一个音频输出设备；(iii)处理器，以及(iv)数据存储器，包含所述处理器可执行的指令用于促使增强现实头戴式设备执行功能集合，所述功能集合包括(a)从所述多个麦克风采样音频信号；(b)从所采样的音频信号确定至少一个音频源的相应位置；以及(c)经由所述至少一个音频输出设备渲染具有与所述确定的至少一个位置相隔至少阈值间隔的虚拟位置的增强现实音频信号。

一种实施方式采用包括以下项的方法的形式：(i)从多个麦克风采样至少一个音频信号；(ii)基于所采样的至少一个音频信号确定混响时间；(iii)至少部分基于所确定的混响时间来修改增强现实音频信号；以及(iv)渲染所修改的增强现实音频信号。

在至少一个这种实施方式中，所述方法通过增强现实头戴式设备来执行。

在至少一个这种实施方式中，至少部分基于所确定的混响时间来修改所述增强现实音频信号包括将对应于所确定的混响时间的混响应用至所述增强现实音频信号。

在至少一个这种实施方式中，至少部分基于所确定的混响时间来修改所述增强现实音频信号包括将对应于所确定的混响时间的混响滤波器应用至所述增强现实音频信号。

在至少一个这种实施方式中，至少部分基于所确定的混响时间来修改所述增强现实音频信号包括通过至少部分基于所确定的混响时间确定的量来放缓所述增强现实音频信号。

附图说明

图1是到达双麦克风阵列的声波的示意性说明。

图2是用户体验的声波的示意性说明。

图3是示出作为头戴式增强现实设备的空间音频的声源的增加的示意性框图，其中声音处理链包括3D渲染HRTF和混响滤波器。

图4是示出音频放大软件模型的示意性框图。

图5是示出在上下文估计过程中执行的步骤的流程图。

图6是示出在音频增强期间使用上下文信息执行的步骤的流程图。

图7是可以在一些实施方式中使用的无线收发信机用户设备的框图。

图8是示出根据至少一个实施方式的第一方法的流程图。

图9是示出根据至少一个实施方式的第二方法。

具体实施方式

音频上下文分析方法可以通过集合与感兴趣点相关联的多个音频情景参数化而被改善。在一些实施方式中，检测到的音频源的到达方向和相干性估计一样揭示关于环境的有用信息并且被用于提供上下文的信息。在另一实施方式中，与源的移动相关联的测量可以被用于进一步改善所述分析。在于此描述的各种实施方式中，音频上下文分析可以在不使用测试信号的情况下通过监听环境及现有自然声音而被执行。

在一种实施方式中，音频源的到达估计的方向使用包括至少两个麦克风的麦克风阵列而被进行。阵列的输出是所有麦克风的总计信号。旋转方向并检测提供感兴趣信号的能量的最高量的方向是用于估计到达方向的一种方法。在另一实施方式中，可以通过调节麦克风延迟线来实现阵列的电子操纵，即，向着感兴趣点旋转所述阵列，而不是物理地旋转设备。例如，通过在对信号相加之前将另一麦克风输入信号延缓特定时间延迟，使得双麦克风阵列与麦克风的垂直轴相对齐。提供感兴趣的总计信号的最大能量的时间延迟与这两个麦克风之间的距离一起可以被用于导出到达方向。

图1是到达双麦克风阵列的声音波形的示意性说明。实际上，图1示出麦克风阵列106(包括麦克风108和110)物理地稍微偏离正在产生声波104的声源102的情况100。可以看出，声波104到达麦克风110的时间晚于它们到达麦克风108的时间。现在，为了操纵麦克风阵列106向着实际声源102，来自麦克风110的信号可以被延迟与垂直于声源102的距离差对应的时间单元。双麦克风阵列106可以例如是安装在增强现实头戴式设备上的麦克风对。

当麦克风108和110之间的距离、捕获的麦克风信号之间的时间延迟和声音的速度是已知的情况下，使用三角法直接确定源的到达方向。在又一实施方式中，估计到达的方向的方法包括检测麦克风信号的电平差并应用对应的立体平移法。

图2是用户体验的声音波形的示意性说明。实际上，图2示出听众210(从上文示出并具有右耳212和左耳214)暴露于多个声音源202(通常在206处发射所示声波)和204(通常在208处发射所示声波)的情况200。在这种情形中，耳装式麦克风充当传感器阵列，其能够基于输入的左侧信号和右侧信号的时间和电平差来区别源。声音场景分析可以在时频域中通过利用重叠变换或滤波器组来首先分解输出信号而被进行。这使能信号的子频带处理。

当两个信道音频信号的信道间时间和电平差参数化是可用的时，可以通过以下等式通过首先将时间差线索转换为到达线索的参考方向来对每个子频带进行到达方向估计：

τ＝(|x|sin(φ))/c (1)

其中∣x∣是麦克风之间的距离，c是声音的速度以及τ是两个信道之间的时间差。

可替代地，信道间电平线索可以被应用。到达线索的方向φ使用例如传统的平移等式而被确定：

其中，信道i的l_i＝xi(n)^Tx_i(n)。

一种用于空间音频参数化的方法是使用双耳线索编码(BCC)，其提供多信道信号分解至组合(下混合)的音频信号和描述空间图像的空间线索。通常，BCC参数化的输入信号可以是两个或更多个音频信道或源。

所述输入首先使用例如傅里叶变换或QMF滤波器组而被转换成时频域。音频情景在变换域中被分析并且对应的参数化被提取。

常规的BCC分析包括每个变换域时频间隙内(即，在每个输入帧的每个频带中)估计的信道间相干性(ICC)、时间差(ITD)和信道间电平差(ILD)参数。ILD和ITD参数在每个信道对之间被确定，然而ICC通常针对每个输入信道单独被确定。在具有两个信道的双耳音频信号的情况中，BCC线索可以在分解的左信道和右信道之间被确定。

在下文中，BCC方式的一些细节使用具有例如在头安装立体声麦克风阵列中可用的两个输入信道而被说明。然而，以下陈述可以很容易被替换成包括在传感器网络中具有可用的多于两个信道的输入信号。

针对每个子频带ΔL_n的信道间电平差(ILD)通常在对数域中被估计：

其中和分别是子频带n中的时域左信道信号和右信道信号。信道间时间差(ITD)(即，左信道和右信道之间的延迟)是

τ_n＝arg max_d{Φ_n(k，d)} (4)

其中Φ_n(k，d)是归一化相关性

其中

d₁＝max{0，-d}

d₂＝max{0，d} (6)

等式(5)的归一化相关性是信道间相干性(ICC)参数。其可以被用于捕获被与由等式(3)和(4)中的相位和幅度参数表示的“干燥”声音分量去相关的环境分量。

可替代地，BCC系数可以在DFT域中被确定。使用例如加窗短时傅里叶变换(STFT)，上述子频带信号被转化成变换系数组。和分别是给定分析帧的子频带n的左和右(双耳)信号的频谱系数向量。变换域ILD可以根据等式(3)很容易被确定

其中*表示复共轭。

然而，ITD根据以下等式可以更方便处理为复数域的信道间相位差(ICPD)

ICC可以使用非常类似于等式(5)中时域计算中使用的计算而在频域中被计算：

电平和时间/相位差线索表示干燥环绕立体声分量，即，它们可以被认为模型化空间中声音源位置。基本上，ILD和ITD线索表示环绕立体声平移系数。

另一方面，相干性线索应该包括相干性和解相关声音之间的关系。也就是说，ICC表示环境氛围。其直接涉及输入信道的相关性，并因此给出关于听众周围环境的良好指示。因此，声源后期混响的等级(例如，由于室内效应)和分布在输入信道之间的环境声音可以对于例如给定空间的混响上的空间音频上下文具有重大贡献。

上述到达估计的方向已经针对单一音频源的检测被给出。然而，相同参数化也可以被用于多个源。线索的统计分析可以被用于揭示音频情景可以包含一个或多个源。例如空间音频线索可以使用高斯混合模型(GMM)方式在任意数量的子集中被聚合。

实现的到达线索的方向可以通过确定到达数据的方向的概率密度函数(PDF)在M个高斯混合中被分类

其中ρ_i是分量权重并且分量是高斯分布的

具有平均值μ_i，方差σ²和到达线索的方向φ。

例如，期望最大化(EM)算法可以被用于使用获得的数据集合以迭代方式针对每个混合进行分量权重、平均和方差参数的估计。对于这种特殊情况，系统可以被配置成确定每个高斯混合的平均参数，因为其给出多个声源的到达方向的估计。由于算法提供的混合数量最有可能大于图像中声源的实际数量，其可以是有益的相对于具有最大分量权重和最低方差的参数集中，因为它们指示强点状声源。也可以具有平均值互相接近的混合被结合，例如，比10-15度更近的源可以被结合为单个源。

源运动可以通过观察对应于最大分量权重的集合的平均μ_i而被追踪。在新的分量权重(具有不同于任何先前参数的分量平均参数)超过预定阈值时，新的声源的引入可以被确定。类似地，当被追踪的声源的分量权重降到阈值以下时，该源最有可能是无声的或已经从空间音频图像消失了。

当渲染增强音频内容时，检测声源的数量和它们相对于用户的位置是很重要的。附加信息源必须不是被放置在现有声源顶部或接近现有声源的3D空间中。

一些实施方式可以维持检测到的位置的记录以保持声源和源数量的追踪。例如，当记录对话时，说话者倾向于轮流讲话。也就是说，估计算法可以被配置成记住先前讲话者的位置。一种可能性是基于统计特性标注所述源，其中统计特性诸如谐振频率的范围、声级、相干性等。

用于估计给定音频情景中的混响时间的便利方式是首先构造表示混响拖尾的信号衰减的模型。当声源正被关闭时，信号持续对应于混响时间的特定时间段。由于多重散射，该混响拖尾可以包含若干反射。通常，该拖尾持续从十分之一秒到几秒，这取决于给定空间的声学性质。

混响时间指的是被关掉的声音衰减期望量的时间。在一些实施方式中，60dB可以被使用。其它值也可以被使用，这依赖于环境和期望的应用。应该注意的是，在大多数情况中，连续信号不包含下跌60dB的任何完整事件。仅仅在用户例如正在拍手或以其它方式在记录音频场景的同时人工地创建脉冲状声音事件的情况下，可以观察到完全的60dB的衰减信号。因此，估计算法可以被配置成使用具有较低电平的信号来识别模型参数。在这种情况中，即使20dB的衰减足以发现衰减信号模型参数。

衰减信号的简单模型包括衰减因子a以使得衰减拖尾的信号模型被写成

y(n)＝a(n)ⁿx(n) (12)

其中x(n)是声源信号以及y(n)是给定空间中混响效应的检测信号。衰减因子值(用于衰减信号)被计算为a(n)＝e^(-1/τ(n))，其中衰减时间常数排列τ(n)＝[0...∞)以获得一对一映射a(n)＝[0...1)。在一些实施方式中实际混响时间(RT)通过RT＝6.91τ与时间常数相关。也就是说，RT定义了声音衰减60dB的时间，即，针对人类听众变成无声的。其被确定为20log10(e^-RT/τ)＝-60。

用于估计等式(12)的模型参数的有效方法是利用重叠的N个采样窗口执行的极大似然估计(MLE)算法。所述窗口大小可以被选择以在衰减混响拖尾不符合所述窗口以及不衰减部分偶然被包括的情况下避免估计失败。

可以假设由于延迟因子a(n)随时间变化的的性质，检测的采样y(n)独立于概率分布因此，用于序列观察n＝0，...，N-1的联合概率密度函数被写成(其中N被认为是分析窗口长度)：

等式(13)中依时性衰减因子a(n)可以被认为是分析窗口内的常数。因此，联合概率函数可以被写为：

等式(14)的似然函数通过衰减因子和方差σ被唯一地定义。采用等式(14)的算法，得到对数似然函数。

因子a和方差σ的偏导数为

等式(15)中对数似然函数的最大值在偏导数为零时被实现。因此，等式对如下被获得

当衰减因子a是已知的时，可以针对给定数据集合使用等式(19)而求解方差。然而，等式(18)仅仅可以被迭代地解决。解决方案是将等式(19)代入等式(15)中的对数似然函数并简单地发现最大化所述似然性的衰减因子。

针对衰减因子的估计可以通过选择以下等式而被发现

衰减因子候选可以是量化的参数集合。例如，我们可以定义例如处于RT_i＝0.1，...，5秒的范围内的一组Q个时间候选并且将该衰减因子集合确定为其中i＝0,…,Q-1并且fs为采样频率。

上述极大似然估计算法可以与重叠N个采样窗口而被执行。所述窗口大小可以被选择以使得衰减混响拖尾符合所述窗口，从而避免意外地包括不衰减部分。

一些实施方式可以被配置成针对预定时间段i＝0,…,T来采集衰减极大似然估计所述估计的集合可以被表示为直方图。一个简单的方式是挑选具有最小衰减因子的估计因为假设任何声源将不会衰减的比给定空间内实际混响快是合逻辑的。然而，音频信号可以包含衰减比该实际混响时间快的分量。因此，一个解决方案是代替地挑选对应于直方图中的第一主峰的估计。

可能发生的是，所采集的估计集合内的i＝0，...，T的一些估计针对包括活跃信号的不混响衰减拖尾来确定，而不是多径散射。因此，根据于此描述的实施方式，该估计集合可以使用关于现行音频上下文的信息来改善。

上下文估计细化

由于混响时间估计是连续过程并且在每个分析窗口中产生估计时，会发生针对包括活跃信号、无声、移动源和相干内容的不混响衰减拖尾而确定一些估计。应用重叠窗口的实时分析算法产生混响估计，尽管内容不具有任何混响分量。也就是说，针对基于直方图选择算法采集的估计可能是误导性的。因此，估计可以使用关于当前音频上下文的信息而被增强。

声音环境的混响上下文通常是相当稳定的。也就是说，由于物理原因，用户周围环境的混响不会突然改变。因此，分析可以应用在相当长时间段上从重叠窗口获得的多个混响估计而被进行。一些实施方式可以将估计缓冲若干秒，因为分析正在尝试确定所记录的将提供最可靠估计的音频内容中的衰减拖尾。大多数音频内容是不具有衰减拖尾的无声或活跃声音。因此，一些实施方式可以丢弃大多数的估计。

根据一种实施方式，混响时间估计通过考虑例如输入信号信道间相干性而被改进。混响估计算法连续地或周期性地监视音频图像估计的信道间线索参数。即使MLE算法提供有意义的结果，并且衰减信号事件被检测到，高ICC参数估计可以指示给定信号事件是来自点状源的直达声并且不能是包含声音的多重散射的混响拖尾。

当仅仅单信道音频是可用的时，相干性估计可以使用传统相关法通过找到输入信号的最大自相关而被进行。例如，大于0.6的ICC或归一化相关值指示高相关的周期信号。因此，对应于ICC(或自相关)的高于预定阈值的混响时间估计可以被安全地丢弃。

此外，在一些实施方式中，当来自连续的重叠分析窗口的结果包含一个或多个相对大的值时，混响估计可以从基于直方图的分析中丢弃。从活跃不衰减信号计算的MLE估计是无限的。因此，例如10秒的混响是没有意义的。在这种情况中，分析窗口可以被认为是不混响的并且环境的混响估计不被更新。

由多重散射引起的混响衰减拖尾可以通过点状声源引起，但是拖尾本身是环绕的并不具有到达线索的明确方向。因此，在混响拖尾的情况中检测到的源的高斯混合是正在扩展的。也就是说，当衰减线索的MLE估计被检测到且高斯混合的方差σ²正在增加时，实现可靠的估计。

根据该实施方式，移动声源的检测被用作选择标准。移动声音可以在从观察的音频图像逐渐消失时促使衰减声级拖尾。例如，过往的汽车产生长的衰减声音效果，其可能被误认为是混响拖尾。衰减的声音可以恰好适合于MLE估计并且最终在所有缓冲估计的直方图中产生大的峰值。因此，根据该实施方式，当移动的比预定角速度(跟踪源的到达估计的方向的第一差分)快的源高于预定阈值时，对应的混响时间估计不被更新及缓冲以用于基于直方图的分析。

移动声音还可以利用多普勒效应来识别。已知声源的频率分量被偏移到更高或更低频率，这取决于所述源是向着听众移动还是远离听众移动的。频移还揭示了经过的声源。

应用上下文

本公开的一些实施方式的另一方面是在观察的音频环境中使用声源位置和混响估计。具有人为增加的音频分量的增强现实概念可以通过使用用户的音频环境的指示而被改善。例如，基于头戴式设备的媒体渲染和增强现实设备，诸如谷歌眼镜式头戴式设备，可以具有位于头戴式设备框架中的听筒或麦克风阵列中的麦克风。因此，该设备部可以进行第一实施方式中描述的听觉上下文分析。所述设备可以分析音频图像，确定混响条件并精炼参数化。当所述设备是上下文感知时，增强内容可以通过3D定位方案和混响生成滤波器而被处理。这确保增强内容听起来是自然的并且作为属于环境的自然声音被体验。

通常增强声音在相对于用户和环境的特定预定方向上被渲染。在这种情况中，环境中的现活跃源被考虑以避免相同方向中的多个源。这例如使用头相关传递函数(HRTF)滤波来完成。在期望的增强源的位置是已知的情况下，对应于到达方向的HRTF滤波器集合被选择。当多于一个源被增强时，每个单独源信号利用对应于所期望的方向的HRTF集合分别被渲染。可替代地，渲染可以在子频带及主源中完成，即每个子频带和时间窗的最大声分量利用对应于HRTF滤波器对的时频分量而被滤波。

在已知关于用户周围自然音频图像内的现有声源的情况下，该增强可以避免相同的位置。当相干的(即，当归一化相干性线索大于例如0.5时)，以及静止声源在图像中被检测到时，增强源可以在预定距离内被平缓地移动或放置。例如，水平面内5至10度空隙有益于源的分离和可解度。然而，在源是不相干，即散射的声音和在图像内的移动的情况下，可能不需要来改善该增强声音的位置。而且，在一些应用中，利用在相同位置中渲染的增强源可以是有益于消除现有的自然声源与在相同位置中渲染的增强源。

另一方面，当音频增强应用是将要消除用户周围的音频图像内的一个或多个自然声源时，可能需要源的位置、混响和相干性的准确估计。

基于期望的增强声音的方向来选择HRTF滤波器参数。并且最后，用本发明实现的上下文参数需要混响生成。存在实施人为混响的若干有效方法。

图3是示出作为头戴式增强现实设备的空间音频的声源的增强的示意性框图，其中声音处理链包括3D渲染HRTF和混响滤波器。实际上，如图所示，在描述300中，增强声音分别通过有右侧HRTF滤波器302和左侧HRTF滤波器304，其还将输入位置信息作为输入，然后分别通过右侧和左侧混响滤波器306和308，其还根据本方法和系统采用混响信息作为输入。然后分别向所描述的示例用户310的右耳和左耳播放输出。

图4是示出音频增强软件模块400的示意性框图。模块400包括用于执行与从麦克风收集的数据相关的上下文分析的子模块408。模块400进一步包括子模块406，该子模块406执行上下文精炼并连接在子模块408和子模块404之间，其操纵于此描述的增强现实音频信号的渲染。子模块404连接在(a)API 403(以下描述)与(b)(1)上下文精炼子模块406及混合器子模块410之间。混合器子模块410连接在渲染子模块410和回放子模块412之间，回放子模块412向扩音器提供音频输出。

而且，上下文估计可以被应用于例如用户户内/户外分类。户外空地中混响通常为零，因为不存在散射表面和反射表面。例外可能是在狭窄街道上的高层建筑之间的位置。因此，知晓用户处于户外并不能确保混响线索在上下文分析和音频增强中不被需要。

于此描述的各种实施方式涉及多麦克风中多源传感器信号捕捉和空间音频捕捉，应用音频参数化的时间和空间上的音频情景估计及上下文提取。于此描述的方法可以被用于ad-hoc(自组织)传感器网络、实时增强现实服务、设备和基于音频的用户接口。

各种实施方式提供一种用于使用双耳、立体和多信道音频信号的音频上下文估计的方法。音频情景的实时估计通过估计声源位置、信道间相干性、离散音频源运动和混响而被进行。相干性线索可以被用于将音频事件的混响拖尾与不受混响影响的自然衰减相干和“干燥”的信号区分开。此外，由于声源远离观察者移动而引起的可能的声级衰退效应，移动声源被从混响时间估计中排除在外。具有分析空间音频线索的能力改善了整体上下文分析可靠性。

掌握用户周围的整体听觉上下文的情况对于增强现实概念(诸如实时指导和信息服务及例如随境游戏)是有用的。于此描述的方法和设备提供用于关于混响、现有声源的数量和它们相对运动的环境分析的手段。

在一些实施方式中上下文音频环境估计开始于用户周围音频图像的参数化，其可以包括：

-估计声源的数量和相应的到达方向，以及使用到达估计的方向来优选地在子频带域中追踪声源运动；

-在多于一个输入信道被记录以及单声道记录自相关的情况下，使用信道间相干性确定声源环境；

-利用例如在每个单独信道上的重叠窗口中的极大似然估计函数构建衰减信号模型，以启用连续和实时的上下文分析；

-使用例如高斯混合建模确定在范围内的源的数量；以及

-通过核查高斯混合的运动来确定移动源。

参数化然后可以在一些实施方式中通过使用以下上下文知识中的一者或多者和/或组合的不同的模态而被精炼：

-通过丢弃对应于无限衰减时间的太高的估计、或对应于高相干信号、点状源或快速移动源的估计来改善混响估计；

-仅仅当上下文分析保证合适条件时更新混响线索；

-在增强内容渲染中应用声源位置和混响估计；以及

-根据上下文估计，当自然源是相干和静止的时候，以一定的间隙移动与现有自然源相邻的增强源。

本公开的音频上下文分析方法可以在增强现实设备或移动电话音频增强模块中实施。于此描述的算法将操纵处理一个或多个麦克风信号、输入的上下文分析408和增强内容的渲染404。

本公开的音频增强层可以包括用于多个麦克风的输入连接。所述系统可以进一步包含用于应用开发者和服务供应商的API 402以输入增强音频分量和关于期望位置的元信息。

所述增强层对利用麦克风捕捉的自然音频环境的实施音频上下文分析。当例如由服务提供商或游戏应用提供的增强内容被渲染时，所述信息被应用至音频输出。

图5是示出上下文估计过程中执行的步骤的流程图。实际上，图5根据一些实施方式详细描绘了上下文分析过程500。首先，来自两个或更多麦克风的音频信号被转发至模块502中的声源和相干性估计工具。对应的线索被提取至信号510用于上下文精炼及用于协助可能的增强音频源处理阶段。声源运动估计利用模块504中估计的位置信息的帮助而被进行。输出是在信号512中的现有源的数量及其运动信息。所捕捉到的音频进一步被转发至模块506中的混响估计。该混响估计在信号514中。最后，上下文信息使用模块508中的所有估计的线索510、512和514而被精炼。该混响估计考虑位置、相干性和运动信息而被精炼。

注意到描述的实施方式中的一者或多者的各种硬件元件被称为“模块”，其完成(即，执行、实行等)于此结合相应模块描述的不同功能。如于此所使用的，模块包括相关领域技术人员认为适合给定的实施方式中的硬件(例如，一个或多个处理器、一个或多个微处理器、一个或多个微控制器、一个或多个微芯片、一个或多个专用集成电路(ASIC)、一个或多个现场可编程门阵列(FPGA)、一个或多个存储器设备)。每个所描述的模块还可以包括可执行的指令，用于实现描述的如相应模块完成的一个或多个功能，以及注意到那些指令可以采用以下形式或包括：硬件(即硬连线)指令、固件指令、软件指令等等并且可以存储在任何合适的非暂时性计算机可读媒介或媒体，诸如通常称为RAM、ROM等。

图6是示出在使用上下文信息的音频增强期间执行的步骤的流程图。实际上，图6描绘了使用给定空间的上下文信息的一些实施方式的增强音频源过程600。首先，增强源的设计位置考虑给定空间内的自然源的估计位置而被改善。当增强源被设计成与相干的、点状自然源处于相同的位置或方向时，增强源在模块602中移动预定义度数。这帮助用户分离源，并且内容的可解度被改善。尤其在增强源和自然源均在例如电话会议类型的应用场景中包含语音时。然而，当自然声音是非相干的时，例如平均归一化相干性线索值低于阈值，诸如0.5，增强源不被移动，即时其可能位于相同方向。HPTF处理可以被应用于渲染模块604中期望位置中的内容。估计的混响线索被应用至所有增强内容以用于在模块606中生成自然发声的音频体验。最后，所有增强源在模块608中混合在一起并在增强现实设备中回放。

本公开中描述的音频上下文估计的系统和方法的一些实施方式可以提供以下几个不同优势中的一者或多者：

-利用对听觉环境中全部条件的了解丢弃最明显错误的上下文估计以使得上下文算法是可靠的；

-声源位置线索、相干性知识和环境的混响估计使能增强现实应用中音频内容的自然渲染；

-易于实施，因为可穿戴的增强现实设备已经具有用于例如连接至眼镜的耳承式或头戴式耳机而具有渲染3D音频的手段。用于捕捉音频内容的麦克风可以设置在移动电话中或者优选地设置在头戴式框架中作为麦克风阵列或利用安装在接近用户耳道或在用户耳道中的麦克风的立体声/双耳录音：

-甚至具有麦克风阵列和固定设置的非便携增强现实设备的游戏机，由于给定空间的上下文可以在不设计任何特定测试过程或测试设置的情况下被估计而受益。该音频处理链可以在后台中进行分析。

本公开中描述的增强音频的系统和方法的一些实施方式可以提供以下几个不同优势中的一者或多者：

-上下文估计通过捕捉和检测用户和增强现实设备周围环境中的自然声源而被进行。无需使用人为生成或发射信标或测试信号来检测例如室内听觉响应和混响来进行分析。这是有益的，因为增加的信号可能妨碍服务体验并打搅用户。最重要的是，用于增强现实解决方案的可穿戴设备甚至可以不具有输出测试信号的手段。本公开中描述的方法可以包括主动监听环境并在不干扰环境的情况下进行可靠的估计。

-一些方法可能尤其有益于与未连接至任何预定义的或固定位置的可穿戴的增强设备和服务使用。用户可以在不同位置周围移动以具有不同音频环境。因此，为了根据用户周围的现行条件能够渲染增强内容，可穿戴设备可以进行上下文的连续估计。

在移动设备或可穿戴增强现实设备中音频增强软件层中的测试应用功能是直接的。本公开的上下文线索精炼方法通过运行诸如低混响监听室或无回音室的受控音频环境中内容增强服务而被测试。在测设设置中，服务API被馈送增强音频内容并且设备扩音器或耳承式设备中的实际渲染内容被记录。

-测试开始于人为创建的混响声音在测试室中回放。由增强现实设备或服务创建的渲染声音的特征然后与原始增强内容进行比较。如果渲染声音具有混响效应，则音频增强层软件的混响估计工具被验证。

-下一步，不具有混响效应的监听室内的人为声音在周围移动以创建衰减声音效应和可能的多普勒效应。现在，当比较增强源和渲染内容的输出不具有任何混响效应时，音频软件的上下文精炼工具被验证。

-最后，室内人为声源被设置在与增强源的期望位置相同的相对位置。人为声音作为点状相干源被回放，并且包含用于降低相干性的混响。当音频软件移动增强源远离相干的自然声音并在该自然声音是不相干的情况下保持位置时，则该工具被验证。

图7是可以在一些实施方式中使用的无线收发信机用户设备的框图。在一些实施方式中，于此描述的系统和方法可以在无线发射接收单元(WTRU)中实施，诸如图7中所示的WTRU 702。在一些实施方式中，WTRU 702的组件可以在增强现实头戴式设备中实施。如图7所示，WTRU 702可以包括处理器718、收发信机720、发射/接收元件722、音频转换器724(优选地包括至少两个麦克风和至少两个扬声器，其可以是耳承式设备)、键盘726、显示器/触摸板728、不可移除存储器730、可移除存储器732、电源734、全球定位系统(GPS)芯片组736、以及其它外围设备738。应该理解的是，在保持符合实施方式的同时，WTRU 702可以包括任意子组合的前述元件。WTRU可以与节点通信，该节点诸如但不限于收发信台(BTS)、节点B、站点控制器、接入点(AP)、家庭节点B、演进型节点B(eNodeB)、家庭演进节点B(HeNB)、家庭演进节点B网关、及代理节点，等。

处理器718可以是通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP内核相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、其他任意类型的集成电路(IC)、状态机等等。处理器718可以执行信号编码、数据处理、功率控制、输入/输出处理和/或其他任意能使WTRU702在无线环境中工作的功能。处理器718可以耦合至收发信机720，收发信机720可以耦合至发射/接收部件722。虽然图7将处理器718和收发信机720描述成是独立组件，但是应该了解，处理器718和收发信机720可以集成在一个电子封装或芯片中。

发射/接收部件722可以被配置成经由空中接口715向节点发射信号或接收来自节点的信号。举个例子，在一个实施方式中，发射/接收部件722可以是被配置成传送和/或接收RF信号的天线。在另一个实施方式中，作为示例，发射/接收部件722可以是被配置成发射和/或接收IR、UV或可见光信号的发射器/检测器。在又一个实施方式中，发射/接收部件722可以被配置成发射和接收RF和光信号。应该理解的是，发射/接收部件722可以被配置成发射和/或接收无线信号的任意组合。

此外，虽然在图7中将发射/接收部件722被描述成是单个部件，但是WTRU 702可以包括任意数量的发射/接收部件722。更具体地说，WTRU 702可以使用MIMO技术。因此，在一个实施方式中，WTRU 702可以包括两个或更多个经由空中接口715来传送和接收无线电信号的发射/接收部件722(例如多个天线)。

收发信机720可以被配置成对发射/接收部件722将要传送的信号进行调制，以及对发射/接收部件722接收的信号进行解调。如上所述，WTRU 702可以具有多模能力。因此，收发信机720可以包括用于使WTRU 702能够经由诸如UTRA和IEEE 802.11之类的多种RAT来进行通信的多个收发信机。

WTRU 102的处理器718可以耦合至扬声器/麦克风724、键盘726和/或显示器/触摸板728(例如液晶显示器(LCD)显示单元或有机发光二极管(OLED)显示单元)，并且可以接收来自这些部件的用户输入数据。处理器718还可以向扬声器/麦克风724、键盘726和/或显示器/触摸板728输出用户数据。此外，处理器718可以从任意类型的适当的存储器(例如不可移除存储器730和/或可移除存储器732)中访问信息，以及将信息存入这些存储器。所述不可移除存储器730可以包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘或是其他任意类型的记忆存储设备。可移除存储器732可以包括用户身份模块(SIM)卡、记忆棒、安全数字(SD)记忆卡等等。在其他实施方式中，处理器718可以从那些并非实际位于WTRU 702上的存储器访问信息，以及将数据存入这些存储器，其中举例来说，所述存储器可以是位于服务器或家庭计算机(未显示)上。

处理器718可以接收来自电源734的电力，并且可以被配置成分发和/或控制用于WTRU 702中的其他组件的电力。该电源734可以是为WTRU702供电的任意适当的设备。举例来说，该电源734可以包括一个或多个干电池组(如镍镉(Ni-Cd)、镍锌(Ni-Zn)、镍金属氢化物(NiMH)、锂离子(Li-ion)等等)、太阳能电池、燃料电池等等。

处理器718还可以与GPS芯片组736耦合，该芯片组可以被配置成提供与WTRU 702的当前位置相关的位置信息(例如经度和纬度)。作为来自GPS芯片组136的信息的补充或替换，WTRU 702可以经由空中接口715接收来自基站的位置信息，和/或根据从两个或多个附近基站接收的信号的时机来确定其位置。应该了解的是，在保持符合实施方式的同时，WTRU702可以借助任意适当的定位方法来获取位置信息。

处理器718还可以耦合到其他外围设备738，该外围设备738可以包括提供附加特征、功能和/或有线或无线连接的一个或多个软件和/或硬件模块。例如，该外围设备738可以包括加速度计、电子指南针、卫星收发信机、数码相机(用于照片和视频)、通用串行总线(USB)端口、振动设备、电视收发信机、免提耳机、蓝牙模块、调频(FM)无线电单元、数字音乐播放器、媒体播放器、视频游戏机模块、因特网浏览器等等。

图8是示出根据至少一种实施方式的第一方法的流程图。示例方法800于此通过示例方式被描述为由增强现实头戴式设备完成。

在步骤802，头戴式设备采集来自多个麦克风的音频信号。在至少一个实施方式中，所采样的音频信号不是测试信号。

在步骤804，头戴式设备从所采样的音频信号确定至少一个音频源的相应位置。在至少一个实施方式中，使用双耳线索编码来执行位置确定。在至少一个实施方式中，通过分析频域中的子频带来执行位置确定。在至少一个实施方式中，使用信道间时间差来执行位置确定。

在步骤806，头戴式设备渲染具有与至少一个确定位置相隔至少阈值间隔的虚拟位置的增强现实音频信号。在至少一个实施方式中，渲染包括应用头相关传递函数滤波。在至少一个实施方式中，确定的位置是角位置，并且阈值间隔是阈值角距离；在至少一个这种实施方式中，阈值角距离具有从包含5度和10度的组选择的值。

在至少一种实施方式中，至少一个音频源包括多个音频源，并且虚拟位置与相应确定的位置的每一者分隔至少阈值间隔。

在至少一种实施方式中，所述方法进一步包括基于从包含谐振频率、声级和相干性的范围的组选择的一个或多个统计特性区分多个音频源。

在至少一种实施方式中，多个音频源中的每一者将相应音频分量贡献至采样的音频信号，并且所述方法进一步包括确定音频分量的每一者具有超过预定相干性等级阈值的相应相干性等级。

在至少一种实施方式中，所述方法进一步包括使用高斯混合模型识别多个音频源中的每一者。在至少一种实施方式中，所述方法进一步包括至少部分通过确定到达数据的方向的概率密度函数来识别多个音频源中的每一者。在至少一种实施方式中，所述方法进一步包括至少部分通过模型化到达数据的方向的概率密度函数作为多个音频源的概率分布函数的总和来识别多个音频源中的每一者。

图9是根据至少一种实施方式的第二方法的流程图。图9的示例方法900于此通过示例方式描述为通过增强现实头戴式设备完成。

在步骤902，头戴式设备从多个麦克风采样至少一个音频信号。

在步骤904，头戴式设备基于所采样的至少一个音频信号确定混响时间。

在步骤906，头戴式设备至少部分基于所确定的混响时间修改增强现实音频信号。在至少一种实施方式中，步骤906包含将对应于所确定的混响时间的混响应用至增强现实音频信号。在至少一种实施方式中，步骤906包含将对应于所确定的混响时间的混响滤波应用至增强现实音频信号。在至少一种实施方式中，步骤906包含通过至少部分基于所确定的混响时间来放缓增强现实音频信号(即，增减用于增强现实音频信号的播放时间)。放缓音频信号可以使得在混响显著的环境中的音频信号更容易被用户所理解。

在步骤908，头戴式设备渲染修改的增强现实音频信号。

附加实施方式

一种实施方式采用确定音频上下文的方法的形式。该方法包括(i)从多个麦克风采样音频信号；以及(ii)从所采样的音频信号确定至少一个音频源的位置。

在至少一个这种实施方式中，所述方法进一步包括渲染具有与所述至少一个音频源的位置分离的虚拟位置的增强现实音频信号。

在至少一种实施方式中，所述方法进一步包括渲染具有与所述至少一个音频源的位置分离的虚拟位置的增强现实音频信号，以及渲染包括应用头相关传递函数滤波。

在至少一个这种实施方式中，所述方法进一步包括渲染具有在水平面内与音频源的位置相隔至少5度的虚拟位置的增强现实音频信号。

在至少一个这种实施方式中，所述方法进一步包括渲染具有在水平面内与音频源的位置相隔至少10度的虚拟位置的增强现实音频信号。

在至少一个这种实施方式中，所述方法进一步包括(i)从所采样的音频信号确定多个音频源的位置以及(ii)渲染具有不同于所有所述多个音频源的所述位置的虚拟位置的增强现实音频信号。

在至少一个这种实施方式中，所述方法进一步包括(i)从所采样的音频信号确定多个音频源的位置，每个音频源将相应音频分量贡献至采样的音频信号；(ii)确定每个相应音频分量的相干性等级；(iii)识别与超过预定阈值的相干性等级相关联的一个或多个相干音频源；以及(iv)渲染在不同于一个或多个相干音频源的位置的虚拟位置处的增强现实音频信号。

在至少一个实施方式中，所采样的音频信号不是测试信号。

在至少一种实施方式中，使用双耳线索编码来执行位置确定。

在至少一个实施方式中，通过分析频域中子频带来执行位置确定。

在至少一个实施方式中，使用信道间时间差来执行位置确定。

一种实施方式采用确定音频上下文的方法的形式。所述方法包括(i)从多个麦克风采样音频信号；(ii)识别多个音频源，每个源将相应音频分量贡献至所采样的音频信号；以及(iii)从所采样的音频信号确定至少一个音频源的位置。

在至少一个这种实施方式中，音频源的识别使用高斯混合模型来执行。

在至少一个这种实施方式中，音频源的识别包括确定到达数据的概率密度函数。

在至少一个这种实施方式中，所述方法进一步包括追踪所述多个音频源。

在至少一个这种实施方式中，音频源的识别通过模型化到达数据的方向的概率密度函数作为多个音频源的概率分布函数的总和而被执行。

在至少一个这种实施方式中，所述方法进一步包括基于从包含谐振频率、声级和相干性的范围的组选择的一个或多个统计特性来区分不同音频源。

一种实施方式采用确定音频上下文的方法的形式。所述方法包括(i)从多个麦克风采样音频信号；以及(ii)基于所采样的音频信号确定混响时间。

在至少一个这种实施方式中，混响时间的确定使用多个重叠采样窗口来执行。

在至少一个这种实施方式中，混响时间的确定使用极大似然估计来执行。

在至少一个这种实施方式中，多个音频信号被采样，以及混响时间的确定包括：(i)针对多个所采样的音频信号中每一者确定信道间相干性参数；以及(ii)仅基于具有低于预定阈值的信道间相干性参数的信号来确定混响时间。

在至少一个这种实施方式中，多个音频信号被采样，以及所述混响时间的确定包括：(i)针对多个采样的音频信号中的每一者，确定候选混响时间；以及(ii)仅基于具有低于预定阈值的候选混响时间的信号来确定混响时间。

在至少一个这种实施方式中，混响时间的确定包括：(i)从所采样的音频信号识别多个音频源，每个音频源将关联的音频分量贡献至所采样的音频信号；(ii)从所述关联的音频分量确定多个音频源中每一者的角速度；以及(iii)仅基于与具有低于阈值角速度的角速度的音频源相关联的音频分量来确定混响时间。

在至少一个这种实施方式中，混响时间的确定包括：(i)从所采样的音频信号识别多个音频源，每个音频源将关联的音频分量贡献至所采样的音频信号；(ii)使用多普勒效应确定所述多个音频源中每一者的径向速度；以及(iii)仅基于与具有低于阈值径向速度的径向速度的音频源相关联的音频分量来确定混响时间。

在至少一个这种实施方式中，混响时间的确定包括：(i)从所采样的音频信号识别多个音频源，每个音频源将关联的音频分量贡献至所采样的音频信号；以及(ii)仅基于实质上静止的音频源来确定混响时间。

在至少一个这种实施方式中，所述方法进一步包括渲染具有对应于所确定的混响时间的混响的增强现实音频信号。

一种实施方式采用确定音频上下文的方法的形式。该方法包括(i)从多个麦克风采样音频信号；(ii)从所采样的音频信号中识别多个音频源；(iii)识别归因于静止音频源的采样的音频信号的分量；以及(iv)至少部分基于归因于所述静止音频源的采样的音频信号的分量来确定混响时间。

在至少一个这种实施方式中，使用双耳线索编码执行归因于静止音频源的分量的识别。

在至少一个这种实施方式中，通过分析频域中子频带来执行归因于静止音频源的分量的识别。

在至少一个这种实施方式中，使用信道间时间差来执行归因于静止音频源的分量的识别。

一种实施方式采用系统的形式，该系统包括(i)多个麦克风；(ii)多个扬声器；(iii)处理器；以及(iv)具有存储在其上的指令的非暂时性计算机可读媒介，所述指令在由所述处理器执行时可操作以下项(a)获得来自多个麦克风的多信道音频采样；(b)从所述多信道音频采样识别多个音频源，每个源将相应音频分量贡献至多信道音频采样；(c)确定每个音频源的位置；以及(d)通过所述多个扬声器渲染增强现实音频信号。

在至少一个这种实施方式中，所述指令进一步实施以渲染以在不同于所述多个音频源的所述位置的虚拟位置处的增强现实音频信号。

在至少一个这种实施方式中，所述指令进一步实施以从多信道音频样本确定混响时间。

在至少一个这种实施方式中，所述指令进一步实施以(a)从多个音频缘中识别至少一个静止音频源；以及(b)仅从与所述静止音频源相关联的音频分量确定混响时间。

在至少一个这种实施方式中，所述扬声器是耳承式设备。

在至少一个这种实施方式中，所述系统在增强现实头戴式设备中实施。

在至少一个这种实施方式中，所述指令被实施以使用高斯混合建模来识别多个音频源。

在至少一个这种实施方式中，所述指令进一步实施以(a)针对每个音频分量确定候选混响时间；以及(b)基于混响时间的候选混响时间小于预定阈值。

在至少一个这种实施方式中，所述系统在移动电话中实施。

在至少一个这种实施方式中，所述指令进一步实施以(a)从多信道音频样本确定混响时间；(b)使用所确定的混响时间将混响滤波器应用至增强现实音频信号；以及(c)通过所述多个扬声器渲染经滤波的增强现实音频信号。

一种实施方式采用方法的形式，该方法包括(i)在至少两个信道上采样多个音频信号；(ii)针对每个音频信号确定信道间相干性值；(iii)识别至少一个具有低于预定阈值的信道间相干性值的音频信号；以及(iv)从所述至少一个具有低于预定阈值的信道间相干性值的音频信号确定混响时间。

在至少一个这种实施方式中，所述方法进一步包括使用所确定的混响时间生成增强现实音频信号。

一种实施方式采用方法的形式，该方法包括(i)在至少两个信道上采样多个音频信号；(ii)确定表示针对每个音频信号的源运动的值；(iii)识别至少一个具有低于预定阈值的源运动值的音频信号；以及(iv)从具有低于所述预定阈值的源运动值的所述至少一个音频信号确定混响时间。

在至少一个这种实施方式中，表示源运动的值是角速度。

在至少一个这种实施方式中，表示源运动的值是表示多普勒偏移的值。

一种实施方式采样增强现实音频系统的形式，该系统通过采样音频信号生成关于听觉环境的信息。使用高斯混合模型或其它技术，所述系统识别一个或多个音频源的位置，其中每个源将音频分量贡献至所采样的音频信号。所述系统使用音频分量确定听觉环境的混响时间。在确定混响时间时，所述系统可以丢弃来自被确定处于运动中的源的音频分量，诸如具有高于阈值的角速度的分量或具有高于阈值的多普勒偏移的分量。所述系统还可以丢弃来自具有高于阈值的信道间相干性的源的音频分量。在至少一个这种实施方式中，所述系统使用在与音频源的位置分离的虚拟位置处的混响时间来渲染声音。

结论

虽然在上文中描述了采用特定组合的特征和元素，但是本领域普通技术人员将会了解，每一个特征或元素既可以单独使用，也可以与其他特征和元素进行任意组合。此外，于此描述的方法可以在引入到计算机可读介质中并供计算或处理器运行的计算机程序、软件或固件中实施。关于计算机可读介质的示例包括但不局限于只读存储器(ROM)、随机存取存储器(RAM)、寄存器、缓冲存储器、半导体存储设备、内部硬盘盒可拆卸磁盘之类的磁介质、磁光介质、以及CD-ROM碟片和数字多用途碟片(DVD)之类的光学介质。与软件相关联的处理器可以用于实施在WTRU、UE、终端、基站、RNC或任意主计算机中使用的射频收发信机。

Claims

1.一种方法，该方法包括：

从多个麦克风采样音频信号；

从所采样的音频信号确定至少一个音频源的相应位置；以及

渲染具有与所确定的至少一个位置相隔至少阈值间隔的虚拟位置的增强现实音频信号。

2.根据权利要求1所述的方法，通过增强现实头戴式设备完成所述方法。

3.根据权利要求1所述的方法，其中渲染包括应用头相关传递函数滤波。

4.根据权利要求1所述的方法，其中所确定的位置是角位置，并且其中所述阈值间隔是阈值角距离。

5.根据权利要求4所述的方法，其中所述阈值角距离具有从包含5度和10度的组选择的值。

6.根据权利要求1所述的方法，其中所述至少一个音频源包括多个音频源，并且其中所述虚拟位置与各所确定的位置中的每一者相隔至少所述阈值间隔。

7.根据权利要求6所述的方法，该方法进一步包括基于从包含谐振频率、声级和相干性的范围的组中选择的一个或多个统计特性来在所述多个音频源之间进行区分。

8.根据权利要求6所述的方法，其中所述多个音频源中的每一者将相应音频分量贡献至所采样的音频信号，所述方法进一步包括：

确定所述音频分量中的每一者具有超过预定相干性等级阈值的相应相干性等级。

9.根据权利要求6所述的方法，所述方法进一步包括使用高斯混合模型识别所述多个音频源中的每一者。

10.根据权利要求6所述的方法，该方法进一步包括至少部分通过确定到达数据的方向的概率密度函数来识别所述多个音频源中的每一者。

11.根据权利要求6所述的方法，该方法进一步包括至少部分通过模型化到达数据的方向概率密度函数作为所述多个音频源的概率分布函数的总和来识别所述多个音频源中的每一者。

12.根据权利要求1所述的方法，其中所采样的音频信号不是测试信号。

13.根据权利要求1所述的方法，其中使用双耳线索编码执行所述位置确定。

14.根据权利要求1所述的方法，其中通过分析频域中的子频带来执行所述位置确定。

15.根据权利要求1所述的方法，其中使用信道间时间差来执行所述位置确定。

16.一种增强现实头戴式设备，该增强现实头戴式设备包括：

多个麦克风；

至少一个音频输出设备；

处理器；以及

数据存储器，包含所述处理器可执行的指令用于促使所述增强现实头戴式设备执行功能集合，该功能集合包括：

从所述多个麦克风采样音频信号；

从所采样的音频信号确定至少一个音频源的相应位置；

经由所述至少一个音频输出设备渲染具有与所确定的至少一个位置相隔至少阈值间隔的虚拟位置的增强现实音频信号。

17.一种方法，该方法包括：

从多个麦克风采样至少一个音频信号；

基于所采样的至少一个音频信号确定混响时间；

至少部分基于所确定的混响时间修改增强现实音频信号；以及

渲染所修改的增强现实音频信号。

18.根据权利要求17所述的方法，其中至少部分基于所确定的混响时间来修改所述增强现实音频信号包括将对应于所确定的混响时间的混响应用至所述增强现实音频信号。

19.根据权利要求17所述的方法，其中至少部分基于所确定的混响时间来修改所述增强现实音频信号包括将对应于所确定的混响时间的混响滤波器应用至所述增强现实音频信号。

20.根据权利要求17所述的方法，其中至少部分基于所确定的混响时间来修改所述增强现实音频信号包括通过至少部分基于所确定的混响时间确定的量来放缓所述增强现实音频信号。