CN105981412A

CN105981412A - 用于基于至少第一对空间脉冲响应估计总体混合时间的装置和方法以及对应的计算机程序

Info

Publication number: CN105981412A
Application number: CN201480074930.XA
Authority: CN
Inventors: 西蒙妮·方塔纳; 彼得·格罗舍; 潘吉·赛提亚万
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-03-21
Filing date: 2014-03-21
Publication date: 2016-09-28
Anticipated expiration: 2034-03-21
Also published as: US20170006403A1; BR112016021565A2; JP2017514414A; WO2015139769A1; CN105981412B; JP6442037B2; BR112016021565B1; KR20160130843A; US9936328B2; EP3108671A1; KR101882423B1; EP3108671B1

Abstract

本申请案涉及一种用于基于至少第一对空间脉冲响应估计总体混合时间的装置(200)，所述装置包括处理元件(305)，所述处理元件用于：在所述第一对空间脉冲响应的多个不同采样时间内确定所述第一对空间脉冲响应的第一空间脉冲响应与所述第一对空间脉冲响应的第二空间脉冲响应的能量分布之间的差异；设置所述多个采样时间的一个采样时间为所述第一对空间脉冲响应的混合时间，在所述混合时间内所述第一对空间脉冲响应的所述第一空间脉冲响应与所述第二空间脉冲响应的能量分布之间的差异等于或低于阈值；基于所述第一对空间脉冲响应的所述混合时间确定所述总体混合时间。本申请案进一步涉及一种用于估计总体混合时间的对应的方法。

Description

用于基于至少第一对空间脉冲响应估计总体混合时间的装置和方法以及对应的计算机程序

技术领域

本发明涉及一种用于基于至少第一对空间脉冲响应估计总体混合时间的装置和方法以及对应的包括程序代码的计算机程序，所述程序代码当在计算机上运行时用于执行根据本发明的方法。

背景技术

多信道音频内容如今在消费电子产品中越来越普遍。沉浸式音频在许多多媒体和通信系统中正在变成常见特征。然而，沉浸式音频通常需要涉及极大数目的扩音器的再现布局，如同例如，22.2布局。这是针对某些产品的主要约束，例如，移动装置(智能电话、平板计算机等)以及电话会议应用、家庭剧院应用、Hi-Fi应用等等，其仅通过两个扩音器或头戴式耳机输出音频信号，其中信号是在左音频输出信道和右音频输出信道中输出的。

也被称为“虚拟环绕”的双声道化是多信道音频信号到使用头戴式耳机、左扬声器/右扬声器或其它装置的收听者的双声道呈现(扬声器上的双声道)。执行双声道化的一种方式是渲染每个扬声器及相关馈送信号作为虚拟来源，也就是说甚至使用头戴式耳机对馈送信号进行双声道地滤波以获得真实扬声器的感知。为了通过双声道方式渲染每个扬声器和相关馈送信号，对应于给定房间中的扬声器的位置，信号通过双声道空间脉冲响应(Binaural Room Impulse Response，BRIR)进行滤波，其中BRIR是在虚拟收听者位置处确定和测量的。

一般而言，空间脉冲响应(Room Impulse Response，RIR)在某一点处测量到的房间对点声源激励的响应。通常，为了测量房间中的空间脉冲响应，房间通过扬声器激励并且响应则由不同位置处的麦克风测量。如果对激发的响应是通过安装在人体模型头部的耳朵中的麦克风测量的，那么相应的两个信道响应被称作双声道空间脉冲响应(Binaural RoomImpulse Response，BRIR)，如关于图1所解释。

BRIR对相应的扬声器与收听者的两只耳朵(左和右)之间的传递函数进行编码。

在图1中呈现双声道滤波过程的一个实例，其中H_i ^x表示通过信道i信号馈送到收听者的X(对于左X可以是L或对于右X可以是R)耳的扬声器的脉冲响应。大写字母H代表频域，而小写字母h代表表示脉冲响应的时域。如图1中示意性地示出，收听者100在房间中的虚拟位置处并且位于房间中的相应的不同位置处的两个扬声器105(扬声器1)和110(扬声器2)发出音频波，所述音频波是通过使用者100的左耳(L)和右耳(R)接收的。如图1中所示，存在针对扬声器105、110中的每一个的一对脉冲响应H。

双声道化过程中的信号处理可导致高计算复杂度，尤其是对于高品质应用场景。这种复杂度来自于对双声道空间脉冲响应(binaural room impulse response，BRIR)的多信道输入信号的滤波。具体而言，BRIR的使用需要超过数万个采样，复杂性可以变得极其的高。此外，多信道架构可以由较多数目的信道组成，例如，在22.2扬声器布局中的22个信道。(对于2低频效应(Low Frequency Effect，LFE)，信道通常使用的是不同处理方式，因为这些信道并不会对声源的定位造带来任何贡献)。

为了减小用于双声道化应用的计算复杂性，房间中的脉冲响应通常被划分成两部分，这也如在图2中所示的实例RIR的反射图曲线中观测到，即划分成直接路径和早期反射(direct path and early reflection，D&E)部分以及成混响拖尾(晚期部分)。随后针对两个部分使用不同的双声道化策略。

D&E部分与晚期部分之间的过渡点被称作混合时间。混合时间可以实际时间值(例如，ns、ms、s)表示或以表示时间点的采样值表示。一般来说，我们讨论的采样时间涵盖混合时间的两种表述。早期反射是一组离散反射，其密度增大直至个体反射无法被辨别或感知。当D&E部分中的直达声音是可以轻易地识别的单个事件时，房间中的脉冲响应的早期反射和晚期混响是更加难以区分和标记的，如同在图3的实例中所示的空间脉冲响应幅值/时间图的实例中可见。

混合时间的估计和确定是在现有技术中研究的相当深入的课题并且已经有很多的方案被提出来。

第一组的方法是基于模型的方法，其假定存在房间的特性的一些先验知识，例如，体积或几何形状，基于此，混合时间是基于例如房间中的反射的密度的阈值或房间中的平均自由路径的阈值确定的。反射密度和平均自由路径可以在数学上涉及一些房间特性，使得可以闭合形式计算混合时间。第一组的方法的限制和问题在于房间特性的先验知识是必要的。通常，这些方法的结果不是非常精确的，因为它们不是基于真实房间的而是仅基于房间的模型。结果的质量极大的依赖于模型的质量和真实房间与模型的适配。

第二组方法使用单个测量空间脉冲响应以估计混合时间。第二组方法是基于基于信号的方法的并且使用阈值估计，设置例如(高斯)随机性的阈值、存储器的阈值、反射检测能力的阈值、相位随机性的阈值。混合时间随后在其中给定指标低于或高于给定阈值的时间(或样本)处是固定的。然而，这些方法的评估是成问题的，因为不存在混合时间的清楚的定义。

为了具有有意义的参考，一些现有技术研究执行RIR的感知分析以便在主观收听测试中定义知觉混合时间。此类研究通常采用在相同房间中的不同位置处测量的多个RIR。在一些情况下，基于模型的、基于信号的估计器和感知估计是使用回归方法合并的。一般而言，统计方法具有有限的一致性并且传递混合时间的非稳固估计。统计方法倾向于提供嘈杂检测曲线使得在此类曲线上施加阈值是易错的：曲线的较小变化引起混合时间估计的较大变化。此外，通过例如正交镜像滤波器(Quadrature Mirror Filter，QMF)的技术获得的RIR或BRIR的下采样子带域表示是MPEG双声道化框架所需的。到目前为止，基于信号的算法尚未在此类情境中被评估。然而，考虑全频带RIR的有限稳固性，可以合理的推测在下采样子带域中性能会不足：较短分析窗口可能引起统计不准确性(窗口的长度，通常是1024个样本，除以子带的数目，通常是64)；从全频带RIR到下采样子带RIR的精细结构传送的改变可能引起估计的不准确性。

发明内容

因此本发明的目标是提供用于基于至少第一对空间脉冲响应估计总体混合时间的概念，所述概念允许稳固的混合时间估计。

上述目标通过所附独立权利要求中提供的方案来实现。在相应的从属权利要求中界定有利的实施方案。

本发明的第一方面提供用于基于至少第一对空间脉冲响应估计总体混合时间的装置。所述装置包括处理元件，所述处理元件用于确定在第一对空间脉冲响应的多个不同采样时间内第一对空间脉冲响应的第一空间脉冲响应与第一对空间脉冲响应的第二空间脉冲响应的能量分布之间的差异；设置所述多个采样时间中的一个采样时间为第一对空间脉冲响应的混合时间，其中，所述混合时间内第一对空间脉冲响应的第一空间脉冲响应与第二空间脉冲响应的能量分布之间的差异等于或低于阈值；基于所述第一对空间脉冲响应的混合时间确定总体混合时间。

相比在本申请的引言部分中所描述的现有技术，本发明的第一方面的装置能够的更加精确地及稳固地估计总体混合时间。

在根据本发明的第一方面的装置的第一实施形式中，所述装置用于基于多对空间脉冲响应估计总体混合时间，第一对空间脉冲响应包括在多对空间脉冲响应中，并且所述处理元件进一步用于针对所述多对脉冲响应中的每一对脉冲响应确定，每一对所述的空间脉冲响应的第一空间脉冲响应与第二空间脉冲响应分别在多个不同采样时间内的能量分布之间的差异，并且为所述多对脉冲响应中的每一对空间脉冲响应设置多个采样时间的一个采样时间作为相应的对的空间脉冲响应的混合时间，其中，在所述混合时间内所述相应的对的空间脉冲响应的第一空间脉冲响应与第二空间脉冲响应的能量分布之间的差异等于或低于阈值，并且基于多个空间脉冲响应中的每一个的混合时间确定总体混合时间。此实施方案为多信道系统提供了稳定且稳固的估计结果。通过具有基于多对RIR而不是仅一对RIR推导总体混合时间的可能性，可以获得混合时间的更加稳固的检测。

在根据本发明的第一方面的第一实施形式的装置的第二实施形式中，所述处理元件进一步用于基于多对空间脉冲响应的混合时间的平均确定总体混合时间。所述方案为总体混合时间提供了改进的且更加精确的结果。

在根据本发明的第一方面的第一实施形式或第二实施形式的装置的第三实施形式中，所述处理元件进一步用于至少针对多对空间脉冲响应的部分对所确定的混合时间进行加权，并且用于基于加权混合时间确定总体混合时间。所述方案提供更加可靠的估计结果，因为通过对混合时间进行加权，RIR的对给总体混合时间的估计的贡献可以发生改变(例如，依赖于记录RIR的对的特性)。

在根据本发明的第一方面的第三实施形式的装置的第四实施形式中，所述处理元件进一步用于基于与相应的对的空间脉冲响应的第一空间脉冲响应相关联的第一元数据并且基于与相应的对的空间脉冲响应的第二空间脉冲响应相关联的第二元数据对多个空间脉冲响应的所述部分的每一对空间脉冲响应的混合时间进行加权，第一元数据表明用于推导相关联的第一空间脉冲响应的声源与接收器之间的相互关系，第二元数据表明用于推导相关联的第二空间脉冲响应的声源与接收器之间的相互关系。这种方案提供估计结果的提高的精确性，因为通过考虑相关联的空间脉冲响应的声源与接收器之间的相互关系，可以推导出某一对空间脉冲响应对于确定混合时间的可靠程度。因此，被认为将是不可靠的空间脉冲响应的对可以获得较低权重，而被认为将是可靠的空间脉冲响应的对可以获得较高权重。

在同样地根据第一方面或根据本发明的第一方面的前述实施形式中的任一者的装置的第五实施形式中，所述处理元件进一步用于计算反向累积能量差异衰减曲线以用于确定能量分布之间的所述差异。所述方案提供结果的额外精确性和提高的可靠性。

在根据本发明的第一方面的第五实施形式的装置的第六实施形式中，所述处理元件进一步用于使用平滑能量差异以用于计算所述反向累积能量差异衰减曲线或者用于使用直接能量差异以用于计算所述反向累积能量差异衰减曲线或者用于使用幅值差异以用于计算所述反向累积能量衰减曲线或者用于使用等级差异以用于计算所述反向累积能量差异衰减曲线。这些方案提供有利的且良好质量的估计结果。

在同样地根据第一方面或根据本发明的第一方面的前述实施形式中的任一者的装置的第七实施形式中，所述处理元件用于推导所述第一脉冲响应与所述第二脉冲响应的能量分布之间的差异使得所述差异可通过以下表达式计算

D E D C [n] = Σ_{k = n}^{P} {dh}^{2} [k] = Σ_{k = n}^{P} | {\tilde{h}}_{1}^{2} [k] - {\tilde{h}}_{2}^{2} [k] |,

其中DEDC[n]是在采样时间n处第一脉冲响应与第二脉冲响应的能量分布之间的差异，是的暂时平滑版本，|·|指代绝对值，h₁[k]是在采样时间k处第一脉冲响应的值，h₂[k]是在采样时间k处第二空间脉冲响应的值，并且P是第一对空间脉冲响应的空间脉冲响应的长度。这种方案对于结果的精确性是尤其有利的。

在同样地根据第一方面或根据本发明的第一方面的前述实施形式中的任一者的装置的第八实施形式中，所述处理元件用于基于与第一空间脉冲响应相关联的第一元数据以及与第二空间脉冲响应相关联的第二元数据确定出自可用的空间脉冲响应的全集的第一对脉冲响应，所述第一元数据表明用于推导第一空间脉冲响应的声源与接收器之间的相互关系，并且所述第二元数据表明用于推导第二空间脉冲响应的声源与接收器之间的相互关系。所述方案提供估计结果的进一步提高的质量。

在同样地根据第一方面或根据本发明的第一方面的前述实施形式中的任一者的装置的第九实施形式中，所述处理元件进一步用于针对所述第一对空间脉冲响应的多个子带分区在多个不同采样时间内确定第一空间脉冲响应与第二空间脉冲响应的能量分布之间的差异；单独地针对每个子带分区设置所述多个采样时间中的一个采样时间作为对应的子带分区的混合时间，在所述混合时间内用于相应的子带分区的第一空间脉冲响应与第二空间脉冲响应的能量分布之间的差异等于或低于阈值；基于所述多个子带分区的混合时间确定总体混合时间。这种方案也在给出BRIR的子带表示的情况下提供稳固且精确的估计。

在同样地根据第一方面或根据本发明的第一方面的前述实施形式中的任一者的装置的第十实施形式中，阈值或者是预先确定的，或者处理元件用于基于与第一对空间脉冲响应相关联的元数据推导阈值，所述元数据至少表明房间的特性，基于所述房间的特性推导出第一对空间脉冲响应。

本发明的第二方面提供用于对音频信号解码的音频解码器，所述音频解码器包括用于至少基于第一对空间脉冲响应估计总体混合时间的装置，如因此在第一方面或在本发明的第一方面的前述实施形式中的任一者中所定义的。

本发明的第三方面提供用于基于至少第一对空间脉冲响应估计总体混合时间的方法。所述方法包括：在所述第一对空间脉冲响应的多个不同采样时间内确定第一对空间脉冲响应的第一空间脉冲响应与第一对空间脉冲响应的第二空间脉冲响应的能量分布之间的差异；设置所述多个采样时间的一个采样时间作为用于第一对空间脉冲响应的混合时间，在所述混合时间内第一对空间脉冲响应的第一空间脉冲响应与第二空间脉冲响应的能量分布之间的差异等于或低于阈值；基于第一对空间脉冲响应的混合时间确定总体混合时间。

在根据本发明的第三方面的方法的第二实施形式中，所述第一对空间脉冲响应是双声道脉冲响应(包括第一空间脉冲响应(例如，对应于右耳记录位置)和第二空间脉冲响应(例如，对应于左耳记录位置))。

在同样地根据第三方面或根据第一实施形式的方法的第二实施形式中，所述总体混合时间是基于多对空间脉冲响应估计的，所述第一对空间脉冲响应包括在多对空间脉冲响应中。所述方法包括每一对所述的空间脉冲响应的第一空间脉冲响应与第二空间脉冲响应分别在多个不同采样时间内的能量分布之间的差异；为所述多对脉冲响应中的每一对脉冲响应设置多个采样时间中的一个采样时间作为所述相应的对的空间脉冲响应的混合时间，在所述混合时间内相应的对的空间脉冲响应的第一空间脉冲响应与第二空间脉冲响应的能量分布之间的差异等于或低于阈值；基于所述多个空间脉冲响应中的每一个的混合时间确定总体混合时间。

在根据第二实施形式的方法的第三实施形式中，所述方法进一步包括基于多对空间脉冲响应的混合时间的平均确定总体混合时间的步骤。

在根据第二或第三实施形式的方法的第四实施形式中，所述方法进一步包括至少针对多对空间脉冲响应的部分对所确定的混合时间进行加权的步骤；以及基于加权混合时间确定总体混合时间的步骤。

在根据第三实施形式的方法的第五实施形式中，所述方法进一步包括基于与相应的对的空间脉冲响应的第一空间脉冲响应相关联的第一元数据并且基于与相应的对的空间脉冲响应的第二空间脉冲响应相关联的第二元数据对多个空间脉冲响应的所述部分的每一对空间脉冲响应的混合时间进行加权，所述第一元数据表明用于推导相关联的第一空间脉冲响应的声源与接收器之间的相互关系，所述第二元数据表明用于推导相关联的第二空间脉冲响应的声源与接收器之间的相互关系。

在同样地根据第三方面或根据第三方面的前述实施形式中的任一者的方法的第六实施形式中，所述方法进一步包括使用能量衰减曲线作为所述能量分布和反向累积能量差异衰减曲线以用于确定能量衰减曲线之间的所述差异。

在根据第五实施形式的方法的第七实施形式中，所述方法进一步包括在所述反向累积能量差异衰减曲线中使用平滑能量差异或者在所述反向累积能量差异衰减曲线中使用直接能量差异或在所述反向累积能量差异衰减曲线中使用幅值差异或在所述反向累积能量差异衰减曲线中使用等级差异。

在同样地根据第三方面或根据第三方面的前述实施形式中的任一者的方法的第八实施形式中，所述方法进一步包括推导第一脉冲响应与第二脉冲响应的能量分布之间的差异，使得所述差异可通过以下表达式计算

D E D C [n] = Σ_{k = n}^{P} {dh}^{2} [k] = Σ_{k = n}^{P} | {\tilde{h}}_{1}^{2} [k] - {\tilde{h}}_{2}^{2} [k] |,

其中DEDC[n]是在采样时间n处第一脉冲响应与第二脉冲响应的能量分布之间的差异，是的暂时平滑版本，|·|指代绝对值，h₁[k]是在采样时间k处第一脉冲响应的值，h₂[k]是在采样时间k处第二空间脉冲响应的值，并且P是第一对空间脉冲响应的空间脉冲响应的长度。

在同样地根据第三方面或根据第三方面的前述实施形式中的任一者的方法的第九实施形式中，所述方法进一步包括基于与第一空间脉冲响应相关联的第一元数据以及与第二空间脉冲响应相关联的第二元数据确定出自可用的空间脉冲响应的全集的第一对脉冲响应，所述第一元数据表明用于推导第一空间脉冲响应的声源与接收器之间的相互关系，并且所述第二元数据表明用于推导第二空间脉冲响应的声源与接收器之间的相互关系。

在同样地根据第三方面或根据第三方面的前述实施形式中的任一者的方法的第十实施形式中，所述方法进一步包括：针对第一对空间脉冲响应的多个子带分区在多个不同采样时间内确定第一空间脉冲响应与第二空间脉冲响应的能量分布之间的差异；针对每个子带分区单独地设置多个采样时间中的采样时间作为对应的子带分区的混合时间，在所述混合时间内相应的子带分区的第一空间脉冲响应与第二空间脉冲响应的能量分布之间的差异等于或低于阈值；基于多个子带分区的混合时间确定总体混合时间。

在同样地根据第三方面或根据第三方面的前述实施形式中的任一者的方法的第十一实施形式中，阈值是预先确定的；或者所述方法进一步包括基于与第一对空间脉冲响应相关联的元数据推导阈值，所述元数据至少表明房间的特性，基于所述房间的特性推导出第一对空间脉冲响应。

本发明的第四方面提供一种包括程序代码的计算机程序，所述程序代码当在计算机上运行时用于执行同样地根据第三方面或根据本发明的第三方面的实施形式中的任一者的方法。

本发明的上述第一、第二、第三和第四方面以有利的方式解决了上述目标。其它有利的但是可选的实施方案定义在各种上述实施形式中。通常，必须注意，在本申请案中所描述的所有布置、装置、元件、单元和构件等可以通过软件或硬件元件或其任何种类的组合来实施。通过本申请案中所描述的各种实体执行的所有步骤以及描述成将通过各种实体执行的功能性意图意味着相应的实体用于(adapted to)或用于(configured to)执行相应的步骤和功能性。即使在以下对具体实施例的描述中，将由一般实体执行的具体功能性或步骤并未反映在执行所述具体步骤或功能性的所述实体的具体详细元件的描述中，所属领域的技术人员也应该清楚，这些方法和功能性可以用相应的软件或硬件元件或其任何种类的组合实施。另外，本发明的方法以及其各步骤实施于各种所描述装置元件的功能性中。

附图说明

本发明的上述方面和实施方案将在以下关于附图的对具体实施例的描述中得到说明，其中

图1示出了用于两个虚拟扬声器的双声道滤波一个示意性实例，

图2示出了说明混合时间的空间脉冲响应的一个实例，

图3示出了典型房间中的空间脉冲响应的一个实例，

图4示出了根据本发明的实施例的具有四信道音频内容的MPEG-H 3D音频解码器的示意性框图，所述音频解码器包括具有处理元件的装置，

图5示出了根据本发明的实施例的图4中所示的音频解码器的双声道渲染器和处理元件的示意性框图，

图6示出了在相同房间中的不同位置处记录的若干空间脉冲响应的不同能量衰减曲线(energy decay curve，EDC)的实例，

图7a在房间中的不同位置处记录的两个空间脉冲响应(room impulse response，RIR)的能量衰减曲线(energy decay curve，EDC)，

图7b图7a中所示的两个RIR的对应的差分能量衰减曲线(differential energydecay curve，DEDC)，

图8示出了根据本发明的实施例的如在双声道渲染器中实施的用于双声道空间脉冲响应(binaural room impulse response，BRIR)的混合时间估计的流程图的示意性概述，

图9示出了根据本发明的实施例的如在渲染器中实施的多个RIR对的混合时间估计的方法的示意性流程图，

图10是比较使用本发明的实施例的混合时间的估计与用于子带处理的常规方法的实例图，以及

图11示出了比较使用本发明的实施例的混合时间的估计与常规方法的另一示意图。

具体实施方式

作为根据本发明的实施例的装置的一个实施方案实例，图4示出了用于四信道音频内容的实例的MPEG-H 3D音频解码器200的示意性框图，以便在此类音频解码器中形象化双声道渲染器205的位置。除了将在下文中说明的处理元件305之外所示的音频解码器200的各种元件对应于MPEG标准和具体实例的MPEG-H标准的音频解码器的常见且已知的元件，因此针对相应的标准文档作出参考并且省略每个元件的详细描述。

然而，如针对图4的本发明的四信道实例可见，多信道音频信号，例如，mp3或mp4，输入到音频解码器200的解码器210，所述解码器对信号进行解码以获得多信道音频信号，并且之后进行一些进一步处理，所述信号在混合器215中混合到输出音频信道的相应地所需的或设计的数目。在双声道渲染器205中，此实例的四个信道是通过如关于图1所描述的传递函数H相应地被滤波的以便获得双声道信号Ls和Rs，所述信号随后输入到头戴式耳机220或类似物。应注意本发明的实施例不限于四信道实例，并且可以应用于任何数目的信道。并且，本发明的实施例不限于MPEG应用；因为它们可以在其它音频编码和立体声音频渲染环境中实施。

换句话说，虽然本发明的实施例是使用MPEG解码器200的实例在本申请案中描述的，但是本发明的大部分单个实施例可以由包括处理元件305的装置形成，将在下文中说明所述处理元件。

如图4的实例中所示需要技术来减小双声道渲染器205中的计算复杂性，以保持系统的时延在合理的值下并且传递高品质音频体验。在MPEG中，已经研发出高品质但又低复杂性的双声道渲染器，所述渲染器利用若干技术来减小复杂性。降低质量同时保持最高可能的质量的一部分是将BRIR分成不同部分并且采用不同的滤波策略以用于不同部分中的每一个。

图5现在示出了图4中所示的音频解码器的双声道渲染器205的元件以及根据本发明的实施例的处理元件305的示意性框图。处理元件305是例如如图所示的BRIR参数化元件305，其连接到双声道渲染器205。在参数化元件305中，相应的BRIR分成直接和早期(directand early，D&E)部分315以及晚期混响部分320。随后，这两个部分中的每一个在双声道渲染器205中以不同方式进行滤波。通常是短暂的D&E部分315以最高质量滤波以实现良好的局部化性能。然而，由于包含房间的混响而可以非常长的晚期混响部分320以较低分辨率在双声道渲染器205中滤波。虽然晚期混响是在第一近似中并不取决于测量位置的房间的特性，但是携带直接正面和早期反射的脉冲响应的早期部分必须是专门建模的并且单独地考虑收听者100和扬声器105、110的位置(参考图1)。

BRIR的早期部分315涉及特定扬声器和输入信道，这意味着每个输入信道必须通过对应的早期BRIR滤波以便提供实际的再现。另一方面，晚期部分320并不取决于扬声器的特定位置，但是实质上对于相应的房间内的所有位置是相同的。因此，没有必要通过相应的BRIR的晚期部分320对每个信道进行滤波。实际上，有可能以相同的晚期部分320对每个信道进行滤波。因此，在双声道渲染器205中，全部信道的总和通过相同晚期部分320进行直接滤波。另一方面，早期部分315是针对每个信道单独地被滤波的。仅在输出信道(给定实例中的两个输出信道并且并非全部是输入通道，例如是22个信道)上执行晚期部分320的滤波，引起复杂性的大幅度减小。减小滤波操作(卷积)本身的进一步优化引起就计算复杂性而言的甚至更加增强的性能。

本发明的实施例大体上涉及用于基于至少第一对空间脉冲响应(room impulseresponses，RIR)估计总体混合时间的装置和方法。

此类装置包括如图4和5所示的处理元件305。因此图2中所示的音频解码器200形成根据本发明的实施例的装置或至少包括此类装置。

根据本发明的实施例的装置，例如音频解码器200，包括处理元件305，所述处理元件用于执行各种功能性，如将在下文中进一步详细说明的。此处理元件305是作为单独处理元件例如在如图5中所示的参数化元件中实施的或是如图5中所示的参数化元件的一部分。一般而言，装置200的处理元件305用于确定在第一对空间脉冲响应的多个不同采样时间内第一对空间脉冲响应的第一空间脉冲响应与第一对空间脉冲响应的第二空间脉冲响应的能量分布之间的差异。此外，处理元件305用于设置多个采样时间中的一个采样时间为第一对空间脉冲响应的混合时间，此处第一对空间脉冲响应的第一空间脉冲响应与第二空间脉冲响应的能量分布之间的差异等于或低于阈值，并且用于基于第一对空间脉冲响应的混合时间确定总体混合时间。第一对空间脉冲响应或稍后所描述的多对空间脉冲响应是例如存储在音频解码器200中的数据库中或存储在处理元件305的存储器元件中。根据本发明的实施例的处理元件305随后根据下文中说明的各种实施例和实施细节确定总体混合时间。

在混合时间的一般概念中，通过房间中的来源省略的声音直接到达接收器(收听者、麦克风或类似物)。这被称作直接路径。直接路径声音后面是由房间的墙壁上的低阶反射产生一些离散早期反射。随后反射的密度增大直至被称作混合时间的时间为止，此时个体反射变得不可区分(高反射密度)。这已经在上文中关于图2和3说明，但是相同地适用于本发明的实施例和实施方案。在遍历性的房间中，能量逐渐地在空间和时间上变为均相削弱的，这意味着流过房间中的任意表面的均匀的能量以及房间中的每个位置中的恒定能量密度。因此，对于遍历性的房间，在混合时间之后，能量流动并且密度将以相同方式在房间中的任一点中衰减并且因此在房间中的任意位置处测量的全部脉冲响应将具有相同能量衰减分布。换句话说，遍历性系统具有针对时间平均与针对空间平均的相同行为。事件的一个顺序的时间平均与集合的平均相同。在现实世界的房间中，遍历性假设通常并不成立，并且可以受到房间中的吸收的不均匀分配、耦合房间、极小房间、靠近墙壁和/或低频率模态行为的限制。然而，因为双声道化的目标是再现令人愉快的收听体验，所以用于双声道化内容的常见BRIR表示声学上最佳的收听房间。在此类房间中所提到的限制通常并不成立。本发明人已经发现为了估计混合时间和实际双声道化应用，可以假定遍历性。因此，可以假定RIR的晚期混响部分315独立于房间内的位置。换句话说，基于遍历性假设可以说在混合时间之后，能量分布对于在相同房间内在任意位置处测量的全部RIR将是相同的。

如上文所提及，用于估计总体混合时间以及其它特征的本发明的实施例是基于在一对空间脉冲响应的多个不同采样时间内所述一对空间脉冲响应的第一空间脉冲响应与第二空间脉冲响应的能量分布之间的差异的确定的。由此，本发明的实施例有利地且可选地建议使用向后集成能量差衰减曲线用于确定能量分布之间的所述差异。此类向后集成能量衰减曲线也被称为施罗德能量衰减曲线(Energy Decay Curve，EDC)，其相当于平均若干测量结果。这些曲线的主要益处在于它们总是降低的并且与例如表示在任何时刻处的能量的平方脉冲响应相比是更加平滑的。因此，向后集成能量衰减曲线提供稳固能量衰减分布估计。

给定长度P的脉冲响应h，其中时间索引n∈{1,...,P}，能量衰减曲线EDC被定义为向后集成能量

E D C [n] = Σ_{k = n}^{P} h^{2} [k] .

按照此定义，EDC[1]是脉冲响应h的完全的能量。

图6示出针对在相同房间中记录的一组脉冲响应的此类EDC的若干不同实例。X轴以样本定义时间并且Y轴定义能量。这些曲线是房间声学的重要部分，例如，混响时长是传统上使用在例如减去60dB处的EDC上的阈值定义的。

如上文所陈述，在遍历性条件中，对应于在房间中的不同点处测量的2或更大RIR的EDC在早期部分中是最为不同的并且在晚期部分处是高度类似的。此效应可以在图6中观察到，其中EDC示出早期部分中的较大变化以及到晚期部分中的相同值的转换。在有利的且可选的实施方案中本发明的实施例现在建议使用差分能量衰减曲线(differentialenergy decay curve，DEDC)，以用于如下捕获在房间中的不同点处测量的RIR的能量差的衰减分布。

给定两个RIR，在房间中的不同点处测量的长度P样本的h₁、h₂被定义为

D E D C [n] = Σ_{k = n}^{P} {dh}^{2} [k] = Σ_{k = n}^{P} | {\tilde{h}}_{1}^{2} [k] - {\tilde{h}}_{2}^{2} [k] |

其中是的暂时平滑版本并且|·|是指绝对值。

双声道空间脉冲响应的情况可以被认为是特殊情况，因为人体模型头部的两只耳朵中的两个麦克风在同时且不同位置(左耳、右耳)处提供两个脉冲响应(h_L，h_R)。双声道DEDC(binaural DEDC，B-DEDC)被定义为

B D E D C [n] = Σ_{k = n}^{P} | {\tilde{h}}_{L}^{2} [k] - {\tilde{h}}_{R}^{2} [k] |

如从这些等式中可见，DEDC以及B-DEDC可以被视为捕获两个RIR的能量差的衰减的反向累积能量差衰减曲线。

用于计算能量差的若干量度是可能的

·直接能量差

·平滑能量差

·幅值差|h₁[k]|-|h₂[k]|

·等级差20log(|h₁[k]|)-20log(|h₂[k]|)

由此，给定计算成果和混合时间的结果的精确性，平滑能量差的使用可以是有利的。

图7a示出了在相同房间中的不同位置处测量的RIR的两个EDC。X轴定义时间并且Y轴定义能量。显然，能量衰减中的差异大部分位于早期部分中。因此，如图7b中所示的所得DEDC在早期部分中呈现较大值并且迅速朝向零聚集。X轴以样本定义时间并且Y轴定义能量。理想地，在混合时间之后DEDC将是零。然而，实际上，如通过本发明的实施例执行的在DEDC上设置阈值将向所估计的混合时间传递合理的计算努力和良好的且可靠的结果。本发明的实施例建议搜索值n，对于所述值DEDC或BDEDC第一次低于阈值。此值n随后形成混合时间。在图7a和7b的实例中，混合时间以样本或样本数目表示，然而，以例如ms的时间单位的表示也是可能的。一般而言，我们说采样时间涵盖这两种表示(以时间单位以及以样本数目)。

图8示出了用于考虑例如在房间中测量的N元件BRIR体来估计房间的混合时间的方法的示意性流程图，所述N元件BRIR库即，一组N个BRIR。对于全部N个BRIR，在第一步骤810中两个对应的响应，即，左信道和右信道，是时间对齐的，并且随后在步骤820中针对每个对计算B-DEDC。为了从B-DEDC中推导混合时间，使用阈值。阈值可以是预设的(固定的)，或者可以根据房间的一些特性调适并且可变，例如，其混响时长(reverberation time，RT)，这可能在第二选项中，例如，在步骤880中从BRIR数据库870中的房间信息中推导。在所述实例中，房间信息是混响时长，然而，可以使用房间的其它适当的参数。在步骤830中B-DEDC低于阈值的样本索引或采样时间被确定为相应的混合时间以用于所评估的BRIR。在样本索引1处所述阈值可以来自B-DEDC例如在-18dB与-23dB之间(包含)。N个混合时间估计来自此操作的结果(针对混合时间上的每个BRIR推导估计)。随后在步骤850中对N个混合时间进行平均和存储，以便在步骤860中获得房间的总体混合时间。可选地，可以实施额外的加权步骤840，此步骤给予每个对一个权重。房间中的某些位置可以接收较低或较高权重，因为它们可以是不太可靠或更加可靠的。举例来说，来自人体模型头部(参看图1)的正面或背部中居中的来源的BRIR测量结果并不提供可靠的估计。因为另外对于早期部分，左耳和右耳中的BRIR的两个响应可以被视作相等或至少非常类似，所以估计是不可靠的。对于任何时间值，B-DEDC将在理论上等于零。因此，在步骤840中对应于居中位置的BRIR的权重可以设置成零。

图9示出了根据本发明的实施例的考虑例如在房间中测量的2N元件RIR库的用于估计房间的混合时间的方法的流程图。在第一步骤905中，两个RIR选自RIR数据库970，随后在步骤910中响应是时间对齐的并且随后在步骤920中针对每个对计算DEDC。为了在步骤930中从DEDC中推导混合时间，以与关于图8的步骤830描述的相同方式设置阈值，所述阈值可以是固定的或适用于房间的一些特性，例如，其混响时长(reverberation time，RT)。在样本索引1处阈值可以距离(所选择的对的)DEDC例如在-18dB和-23dB之间(包含)。在步骤930中DEDC低于阈值的样本索引或采样时间被确定为相应的混合时间。在步骤930中N个混合时间估计可以由此操作引起。随后对混合时间进行平均以便获得房间的最终或总体混合时间。对于此步骤，可选地加权平均可以通过在步骤940中将权重给予所述对来计算。举例来说，房间中的某些位置可以实现较低或较高权重，因为它们可以是不太可靠或更加可靠的。对于两个紧密测量的RIR或在相对于房间几何形状对称的位置中测量的两个RIR关于加权的与关于图8作出的考量类似的考量也成立。在步骤905中执行RIR区段的RIR对选择模块可以包含智能选择过程，所述过程考虑通过所考虑对传送的有效信息优化选择。作为一个实例，所述RIR的对可以经选择使得多个RIR组合成RIR的对，所述对(可能)具有它们的能量分布中的最高差异。RIR对的此选择可以基于单个RIR的元数据，另外加权也是如此。表明声源与接收器之间的相互关系的元数据用于推导相关联的空间脉冲响应。

必须注意的是关于图8和9的流程图所示出和说明的各种步骤可以通过处理元件305中的相应的功能实体或元件实施。在本发明的最简单的实施例中，总体混合时间仅从第一对空间脉冲响应中推导。在此简单实施例中，总体混合时间等于针对第一对空间脉冲响应估计的混合时间。

根据本发明的另一实施例，DEDC或B-DEDC也可以从子带表示中计算。由此，处理元件305用于针对第一对空间脉冲响应的多个子带分区在多个不同采样时间内确定第一空间脉冲响应与第二空间脉冲响应的能量分布之间的差异。此外，处理元件305用于针对每个子带分区单独地设置多个采样时间中的采样时间作为对应的子带分区的混合时间，对于相应的子带分区在所述混合时间内第一空间脉冲响应与第二空间脉冲响应的能量分布之间的差异等于或低于阈值。此外，对于多个子带分区处理元件305用于基于混合时间确定总体混合时间。

在这种情况下，一对脉冲响应(BRIR或在步骤905中所选择的)的空间脉冲响应h₁、h₂首先使用例如滤波器组被拆分成B频率子带h^b ₁,h^b ₂，b∈{1,...,B}。随后，针对每个子带h^b ₁,h^b ₂推导混合时间估计，产生B子带混合时间估计。

基于子带混合时间估计，可以估计出总体混合时间。

在图10中X轴定义子带索引并且Y轴以样本定义所估计的混合时间，从图10中可以看出在本申请案中所描述的概念也稳固地处理子带下采样响应，例如，通过MPEG-H解码器的正交镜像滤波器(Quadrature Mirror Filter，QMF)所提供的那些：图10示出在通常考虑48个第一QMF子带在与高斯估计量的结果进行比较中示出的情况下的子带混合估计时间值。

图10说明由于估计指标DEDC的单调行为的所描述的概念的增大的稳固性。传统的统计方法，例如，高斯方法是更加不稳定的。尤其对于上述子带下采样表示，例如，借助于QMF过滤器组，如在图10中所反映的，这种增大的稳固性实际上是显著的。

在图10中，圆形标记1001对应于从在28个BRIR上平均的B-DEDC中推导的子带MT值。直线特征线1003对应于B-DEDC的子带平均。星标记示出使用常规的高斯近似推导的1005子带混合时间值(点直线1007是它们的平均)。如可见，B-DEDC更好地反映了用于低频率的较长混合时间以及用于高频率的短暂混合时间的物理行为。

图11示出了用于MPEG情境中的给定BRIR的若干混合时间估计。X轴以样本定义时间并且Y轴定义幅值。如由DEDC提供的3800个样本的混合时间(约80毫秒)是通过目视检查获得的并且是此房间普遍接受的。

图11示出了第一白色箭头1101和第二白色箭头1103，所述第一白色箭头对应于在子带(subband，SB)情境中使用高斯估计的混合时间估计，所述第二白色箭头对应于在满带(fullband，FB)情境中使用高斯估计的混合时间估计。对于子带中的高斯估计，显然不考虑一个主要反射。此外，高斯结果对于满带(fullband，FB)和子带(subband，SB)域是不一致的(两个白色箭头相差很多)。

另外，图11示出了第一黑色箭头1105和第二黑色箭头1107，所述第一黑色箭头对应于在子带(subband，SB)情境中使用本发明的实施例(基于DEDC)的混合时间估计，所述第二黑色箭头对应于在满带(fullband，FB)情境中使用本发明的实施例的混合时间估计。

由于DEDC的单调行为，根据本发明的实施例从DEDC中推导的混合时间(黑色箭头1105、1107)在2个背景中是更加稳固的并且一致的，并且更加接近从目视检查中推导的3800个样本的混合时间的预期值。

已经结合作为实例的不同实施例以及实施方案描述了本发明。然而，可由所属领域的技术人员在实践所主张的本发明时从图式、揭示内容和独立权利要求的研究理解并实现其它变化。在权利要求书和说明书中，词语“包括”不排除其它元素或步骤，不定冠词“一”不排除多个。单个元素或其他单元可以完成权利要求中描述的几个实体或器件的功能。在仅凭某些措施被记载在相互不同的权利要求书中这个单纯的事实并不意味着这些措施的结合不能被有效地使用。

Claims

1.一种用于基于至少第一对空间脉冲响应估计总体混合时间的装置(200)，其特征在于，所述装置包括

处理元件(305)，用于

在所述第一对空间脉冲响应的多个不同采样时间内确定所述第一对空间脉冲响应的第一空间脉冲响应与所述第一对空间脉冲响应的第二空间脉冲响应的能量分布之间的差异，

设置所述多个采样时间中的一个采样时间为所述第一对空间脉冲响应的混合时间，在所述混合时间内所述第一对空间脉冲响应的所述第一空间脉冲响应与所述第二空间脉冲响应的所述能量分布之间的所述差异等于或低于阈值，

基于所述第一对空间脉冲响应的所述混合时间确定所述总体混合时间。

2.根据权利要求1所述的装置(200)，

其特征在于，所述装置用于基于多对空间脉冲响应估计所述总体混合时间，所述第一对空间脉冲响应包括在所述多对空间脉冲响应中，并且

其中所述处理元件(305)进一步用于

针对多对脉冲响应中的每一对脉冲响应确定每一对所述的空间脉冲响应的第一空间脉冲响应与第二空间脉冲响应分别在多个不同采样时间内的能量分布之间的差异，

针对所述多对脉冲响应中的每一对脉冲响应设置所述多个采样时间中的一个采样时间为所述相应的对的空间脉冲响应的混合时间，其中，在所述混合时间内所述相应的对的空间脉冲响应的所述第一空间脉冲响应与所述第二空间脉冲响应的所述能量分布之间的差异等于或低于阈值，

基于所述多个空间脉冲响应中的每一个的所述混合时间确定所述总体混合时间。

3.根据权利要求2所述的装置(200)，其特征在于

所述处理元件(305)进一步用于基于所述多对空间脉冲响应的所述混合时间的平均确定所述总体混合时间。

4.根据权利要求2或3所述的装置(200)，其特征在于

所述处理元件(305)进一步用于

至少针对所述多对空间脉冲响应的部分对所述所确定的混合时间进行加权；

基于所述加权混合时间确定所述总体混合时间。

5.根据权利要求4所述的装置(200)，其特征在于

所述处理元件(305)进一步用于基于与所述相应的对的空间脉冲响应的所述第一空间脉冲响应相关联的第一元数据并且基于与所述相应的对的空间脉冲响应的所述第二空间脉冲响应相关联的第二元数据对所述多个空间脉冲响应的所述部分的每一对空间脉冲响应的所述混合时间进行加权，所述第一元数据表明用于推导所述相关联的第一空间脉冲响应的声源与接收器之间的相互关系，所述第二元数据表明用于推导所述相关联的第二空间脉冲响应的声源与接收器之间的相互关系。

6.根据权利要求1到5中的一项权利要求所述的装置(200)，其特征在于

所述处理元件(305)进一步用于计算反向累积能量差异衰减曲线以用于确定所述能量分布之间的所述差异。

7.根据权利要求6所述的装置(200)，其特征在于

所述处理元件(305)进一步用于使用平滑能量差异以用于计算所述反向累积能量差异衰减曲线或者使用直接能量差异以用于计算所述反向累积能量差异衰减曲线或者使用幅值差异以用于计算所述反向累积能量差异衰减曲线或者使用等级差异以用于计算所述反向累积能量差异衰减曲线。

8.根据权利要求1到6中的一项权利要求所述的装置(200)，其特征在于

所述处理元件(305)用于推导所述第一脉冲响应与所述第二脉冲响应的所述能量分布之间的所述差异，使得所述差异可通过以下表达式计算

D E D C [n] = Σ_{k = n}^{P} {dh}^{2} [k] = Σ_{k = n}^{P} | {\tilde{h}}_{1}^{2} [k] - {\tilde{h}}_{2}^{2} [k] |,

其中DEDC[n]是在采样时间n处所述第一脉冲响应与所述第二脉冲响应的所述能量分布之间的差异，是的暂时平滑版本，|·|指代绝对值，h₁[k]是在采样时间k处所述第一脉冲响应的值，h₂[k]是在采样时间k处所述第二空间脉冲响应的值，并且P是所述第一对空间脉冲响应的所述空间脉冲响应的长度。

9.根据权利要求1到8中的一项权利要求所述的装置(200)，

其特征在于，所述处理元件(305)用于基于与所述第一空间脉冲响应相关联的第一元数据以及与所述第二空间脉冲响应相关联的第二元数据确定出自可用的空间脉冲响应的全集的所述第一对脉冲响应，所述第一元数据表明用于推导所述第一空间脉冲响应的声源与接收器之间的相互关系，并且所述第二元数据表明用于推导所述第二空间脉冲响应的声源与接收器之间的相互关系。

10.根据权利要求1到9中的一项权利要求所述的装置(200)，其特征在于

所述处理元件(305)进一步用于

针对所述第一对空间脉冲响应的多个子带分区在所述多个不同采样时间内确定所述第一空间脉冲响应与所述第二空间脉冲响应的所述能量分布之间的所述差异，

针对每个子带分区单独地设置所述多个采样时间的所述采样时间作为所述对应的子带分区的所述混合时间，在所述混合时间内所述相应的子带分区的所述第一空间脉冲响应与所述第二空间脉冲响应的所述能量分布之间的所述差异等于或低于阈值，

基于所述多个子带分区的所述混合时间确定所述总体混合时间。

11.根据权利要求1到10中的一项权利要求所述的装置(200)，

其特征在于，所述阈值是预先确定的；或者

其中，所述处理元件(305)用于基于与所述第一对空间脉冲响应相关联的元数据推导所述阈值，所述元数据表明房间的至少一个特性，基于所述特性推导出所述第一对空间脉冲响应。

12.一种用于对音频信号解码的音频解码器(200)，其特征在于，包括根据权利要求1到11中的一项权利要求所述的用于基于至少第一对空间脉冲响应估计总体混合时间的装置。

13.一种用于基于至少第一对空间脉冲响应估计总体混合时间的方法，其特征在于，所述方法包括

确定第一对空间脉冲响应的第一空间脉冲响应与第二空间脉冲响应分别在多个不同采样时间内的能量分布之间的差异，

设置所述多个采样时间的一个采样时间作为所述第一对空间脉冲响应的混合时间，在所述混合时间内所述第一对空间脉冲响应的所述第一空间脉冲响应与所述第二空间脉冲响应的所述能量分布之间的所述差异等于或低于阈值，

14.根据权利要求13所述的方法，其特征在于，所述第一对空间脉冲响应是双声道空间脉冲响应。

15.一种包括程序代码的计算机程序，所述程序代码当在计算机上运行时用于执行根据权利要求13到14中的一项权利要求所述的方法。