CN105519139A

CN105519139A - 音频信号处理方法、信号处理单元、双耳渲染器、音频编码器和音频解码器

Info

Publication number: CN105519139A
Application number: CN201480041811.4A
Authority: CN
Inventors: 西蒙·法格; 简·普洛格施蒂斯
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2013-07-22
Filing date: 2014-07-18
Publication date: 2016-04-20
Anticipated expiration: 2034-07-18
Also published as: US20160255453A1; SG11201600370UA; BR112016001136B1; JP6879979B2; EP3025520A1; ZA201601079B; EP3025520B1; TW201521017A; PL3025520T3; EP3606102C0; US20230032120A1; JP6374502B2; KR101771533B1; AR097002A1; JP2023071866A; EP4297017A2; TWI555011B; PT3025520T; CA2918279A1; JP2018182757A

Abstract

描述一种根据房间脉冲响应处理音频信号(504)的方法。利用房间脉冲响应的早期部分以及房间脉冲响应的晚期混响分别对音频信号(504)进行处理(502)，其中晚期混响的处理(514)包含产生缩放混响信号，缩放(526)取决于音频信号(504)。音频信号(504)的经处理的早期部分(506)与缩放混响信号相组合。

Description

音频信号处理方法、信号处理单元、双耳渲染器、音频编码器和音频解码器

技术领域

本发明涉及音频编码/解码领域，特别地，涉及空间音频编码以及空间音频对象编码，例如3D音频编解码器系统的领域。本发明的实施例涉及一种根据房间脉冲响应处理音频信号的方法、信号处理单元、双耳渲染器、音频编码器以及音频解码器。

背景技术

空间音频编码工具是本领域中所熟知且标准化的，例如，以MPEG环绕声标准。空间音频编码从多个原始输入声道开始，例如在再现设置中依照其位置而识别的五个或七个输入声道，即左声道、中间声道、右声道、左环绕声道、右环绕声道以及低频增强声道。空间音频编码器可以从原始声道衍生一个或多个降混声道，以及另外衍生出关于空间提示的参数数据，例如在声道相干数值中的声道间水平差异、声道间相位差异、声道间时间差异等等。一个或多个降混声道与指示空间提示的参数化辅助信息一起传输到空间音频解码器，用于解码降混声道以及相关联的参数化数据，以最终获得与原始输入声道为近似版本的输出声道。在输出端设置中的声道的位置通常为固定的，例如，5.1声道格式或7.1声道格式等等。

此外，空间音频对象编码工具是本领域中所熟知且标准化的，例如，以MPEGSAOG标准(SAOG＝空间音频对象编码)。相比于空间音频编码从原始声道开始，空间音频对象编码从非自动专用于特定渲染再现设置的音频对象开始。另外，音频对象在再现场景中的位置是可变化，且可由使用者例如通过将特定的渲染信息输入至空间音频对象编码解码器来设定。可选地或额外地，渲染信息可以被传输作为额外的辅助信息或元数据；渲染信息可以包括特定音频对象在再现设置中待放置(例如经过一段时间)的位置的信息。为了获得特定的数据压缩，很多音频对象使用SAOC编码器来编码，SAOC编码器根据特定的降混信息来降混对象以从输入对象中计算一个或多个运输声道。此外，SAOC编码器计算参数化辅助信息，参数化辅助信息代表对象间提示，例如对象水平差异(OLD)、对象相干数值等等。当在空间音频编码(SAC)中，对象间参数化数据是针对个别时间/频率片(time/frequencytiles)来计算。针对音频信号的特定帧(例如，1024或是2048个取样值)，考虑多个频带(例如，24、32或是64个频带)使得对于每帧以及每个频带均提供参数化数据。例如，当音频片具有20个帧且当每一帧细分成32个频带时，则时间/频率片的数量为640。

在3D音频系统中，可以期望提供音频信号的空间效果，即彷佛该频信号是在特定的房间聆听到的。在这种情况下，提供特定房间的房间脉冲响应，例如基于房间脉冲响应的测量提供特定房间的房间脉冲响应，特定房间的房间脉冲响用于在呈现给聆听者的时候处理音频信号。可期望地，处理直接音效以及在此呈现中与晚期混响相分离的早期反射。

发明内容

本发明的目的是提供一种被认可的方法，用于利用房间脉冲响应的早期部分以及晚期混响分别对音频信号进行处理，以允许达到感知上的结果，尽可能地与具有完整脉冲响应的音频信号的卷积的结果相同。

该目的通过如权利要求1所述的方法、如权利要求19项所述的信号处理单元、如权利要求23所述的双耳渲染器、如权利要求24所述的音频编码器以及如权利要求25所述的音频解码器来实现。

本发明是基于发明人的如下发现，在传统方法中存在这样的问题，当根据房间脉冲响应处理音频信号时，分别关于早期部分以及混响处理音频信号的结果偏离当施加具有完整脉冲响应的卷积时的结果。本发明进一步基于发明人的如下发现，混响的适当水平取决于输入音频信号以及脉冲响应两者，因为，例如当使用合成混响方法时，在混响上的输入音频信号的作用不会完全保留下来。脉冲响应的作用可看作为通过使用已知的混响特性来作为输入参数。输入信号的作用可看作用于调整混响水平的基于信号的缩放，此混响水平基于输入音频信号而确定。已发现通过该方法，当对双耳渲染使用全卷积方法时，混响的感知水平更好地匹配混响水平。

(1)本发明提供一种根据房间脉冲响应处理音频信号的方法，该方法包括：利用房间脉冲响应的早期部分以及晚期混响分别对音频信号进行处理，其中处理晚期混响包括产生缩放混响信号，缩放比例取决于音频信号；以及将利用房间脉冲响应的早期部分进行处理的音频信号与缩放混响信号进行组合。

当与上述传统方法相比较时，本发明的方法的优势在于，不须计算全卷积结果或不须施加广泛的或不精确的聆听模式即允许缩放晚期混响。本发明实施例提供一种简单的方法缩放人工晚期混响使得其听起来像以全卷积方法实现的混响。缩放比例基于输入信号，而不需要额外的聆听模式或目标混响响度。缩放因子可以在时间频率域中导出，这是具有优势的，因为在编码器/解码器链中的音频材料在该域中也常常是可获得的。

(2)根据实施例，缩放比例可取决于音频信号的一个或多个输入声道的条件(例如输入声道的数量、活动输入声道的数量及/或在输入声道内的活动)。

这是具有优势的，因为缩放比例可从具有降低的计算成本的输入音频信号中容易地确定。例如，当相较于原始的音频信号时，缩放比例可通过简单地确定在原始的音频信号中的声道的数量来确定，此原始的音频信号被降混至当前所考虑的包含降低的数量的声道的降混声道。可选地，降混至当前考虑的降混声道的活动声道(在当前音频帧中显示某活动的声道)的数量可形成用于缩放混响信号的基础。

(3)根据实施例，缩放比例(除了输入声道条件之外)取决于音频信号的预定义或计算得到的相关性测量。

使用预定义的相关性测量是具有优势的，因为它减少处理过程中的计算复杂度。预定义的相关性测量可具有固定值，例如在0.1到0.9的范围，它可以基于对多个音频信号的分析来凭经验确定。另一方面，计算相关性测量是具有优势的，尽管需要额外的计算资源，在此情况中，期望分别地针对当前经处理的音频信号获得更精确的测量。

(4)根据实施例，产生缩放混响信号包括施加增益因子，其中增益因子基于音频信号的一个或多个输入声道的条件及/或基于音频信号的预定义或计算得到的相关性测量而确定，其中可在处理音频信号的晚期混响之前、过程中或之后施加增益因子。

这是具有优势的，因为增益因子能基于上述参数容易地计算出，并可关于基于具体实施方式的处理链中的混响器灵活地运用。

(5)根据实施例，增益因子根据下式确定：

g＝c_u+ρ·(c_c-c_u)

其中，

ρ＝音频信号的预定义或计算得到的相关性测量，

c_u,c_c＝指示音频信号的一个或多个输入声道的条件的因子，其中c_u涉及完全非相关声道，c_c关于完全相关声道。

这是具有优势的，因为随着时间改变的多个因子比例系具有在音频信号内的一定数量的活动声道。

(6)根据实施例，c_u以及c_c根据下式确定：

c_{u} = 10^{\frac{10 \cdot \log_{10} (K_{i n})}{20}} = \sqrt{K_{i n}}

c_{c} = 10^{\frac{20 \cdot \log_{10} (K_{i n})}{20}} = K_{i n}

其中，

k_in＝活动或固定降混声道的数量。

这是具有优势的，因为因子直接地取决于音频信号内的活动声道的数量。如果没有声道是活动的，混响接着缩放为零，如果多个声道系为活动的，则混响的振福会增大。

(7)根据实施例，增益因子在多个音频帧上被低通滤波，其中根据下式对增益因子进行低通滤波：

g_s(t_i)＝c_s，old·g_s(t_i-1)+c_s，new·g

c_{s, o l d} = e^{- (\frac{1}{f_{s} \cdot \frac{t_{s}}{k}})}

c_s，new＝1-c_s，old

其中，

t_s＝低通滤波器的时间常数

t_i＝在帧t_i处的音频帧

g_s＝平滑增益因子

k＝帧大小，以及

f_s＝取样频率。

这是具有优势的，因为缩放因子不会随时间发生突变。

(8)根据实施例，产生缩放混响信号包括音频信号的相关性分析，其中音频信号的相关性分析可以包括确定音频信号的音频帧的组合相关性测量，其中组合相关性测量是通过针对一个音频帧的多个声道组合组合相关性系数而计算得到的，每个音频帧包括一个或多个时隙，其中组合相关性系数可以包括取音频帧的多个相关性系数的平均值。

这是具有优势的，因为相关性可通过描述音频帧的整体相关性的单个值来进行说明。在此不需处理多个频率相关值。

(9)根据实施例，确定组合相关性测量可以包括：(i)针对一个音频帧的每个声道计算整体平均值，(ii)通过从相应的声道中减去平均值以计算出零平均音频帧，(iii)针对多个声道组合计算相关性系数，以及(iv)计算组合相关性测量，作为多个相关性系数的平均值。

这是具有优势的，因为，如上所述，对每个帧仅计算一个整体相关性值(容易处理)，并且能类似于“标准”皮尔逊相关系数进行计算，其中皮尔逊相关系数也使用零平均信号以及其标准偏差。

(10)根据实施例，针对声道组合的相关性系数根据下式确定：

ρ [m, n] = | \frac{1}{(N - 1)} \cdot \frac{Σ_{i} Σ_{j} x_{m} [i, j] \cdot x_{n} {[i, j]}^{*}}{Σ_{j} σ (x_{m} [j]) \cdot σ (x_{n} [j])} |

其中，

ρ[m,n]＝相关性系数，

σ(x_m[j])＝横跨声道m的一个时隙j的标准偏差，

0(x_n[j])＝横跨声道n的一个时隙j的标准偏差，

x_m,x_n＝零平均变量值，

*＝共轭复数。

这是具有优势的，因为可使用皮尔逊相关系数的公知公式，并可将其转换成与频率以及时间相关的公式。

(11)根据实施例，处理音频信号的晚期混响之步骤包含降混音频信号以及将降混音频信号施加到一混响器。

这是具有优势的，因为例如处理混响器需要处理更少的声道，并且可直接地控制降混处理过程。

(12)本发明提供一种信号处理单元，包括输入端、早期部分处理器以及晚期混响处理器，其中输入端用于接收音频信号，早期部分处理器根据房间脉冲响应的早期部分处理接收的音频信号，晚期混响处理器根据房间脉冲响应的晚期混响处理该接收的音频信号，晚期混响处理器配置或编程用于产生取决于所接收的音频信号的缩放混响信号，输出端用于将利用房间脉冲响应的早期部分进行处理的音频信号和缩放混响信号组合为输出音频信号。

(13)根据实施例，晚期混响处理器包括接收音频信号以及产生混响信号的混响器，根据音频信号产生增益因子的相关性分析器，以及耦接至混响器的输入端或输出端并由相关性分析器提供的增益因子进行控制的增益级。

(14)根据实施例，信号处理单元进一步包括低通滤波器以及延迟元件中的至少一种，其中低通滤波器耦接于相关性分析器以及增益级之间，延迟元件耦接于增益级以及加法器之间，加法器进一步耦接至早期部分处理器以及输出端。

(15)本发明提供一种双耳渲染器，其包含本发明的信号处理单元。

(16)本发明提供一种用于编码音频信号的音频编码器，其包含本发明的信号处理单元或本发明的双耳渲染器，用于在编码之前处理音频信号。

(17)本发明提供一种用于对编码的音频信号进行解码的音频解码器，其包含本发明的信号处理单元或本发明的双耳渲染器，用于处理解码的音频信号。

附图说明

本发明实施例将关于附图进行描述，其中：

图1示出3D音频系统的3D音频编码器的整体图；

图2示出3D音频系统的3D音频编码器的整体图；

图3示出执行格式转换器的示例，该格式转换器可以在图2的3D音频解码器中执行；

图4示出双耳渲染器的示例，该双耳渲染器可在图2的3D音频解码器中执行；

图5示出房间脉冲响应h(t)的示例；

图6示出利用房间脉冲响应处理音频输入信号的不同的可能性，其中图6(a)示出根据房间脉冲响应处理完整的音频信号，以及图6(b)图示出早期部分以及晚期混响部分的分开处理；

图7示出根据本发明的教导进行操作的如同双耳渲染器的信号处理单元的框图；

图8示意性地示出根据本发明实施例在双耳渲染器中的音频信号的双耳处理；

图9示意性地示出根据本发明实施例的图8的双耳渲染器的频率域混响器中的处理。

具体实施方式

本发明方法的实施例将在此进行描述。下列描述将从3D音频编解码器系统的系统整体图开始，其中本发明方法可以在3D音频编解码器系统中执行。

图1以及图2示出根据实施例的3D音频系统的算法框图。更具体地说，图1示出3D音频编码器100的整体图。音频编码器100在预渲染器/混合器电路102(可选择地提供的)处接收输入信号，更具体地说，多个输入声道将多个声道信号104、多个对象信号106以及相应的对象元数据108提供到音频编码器100。预渲染器/混合器102(请见信号110)所处理的对象信号106可提供到SAOC(空间音频对象编码)编码器112。SAOC编码器112产生提供到USAC(统一语音和音频编码)编码器116的SAOC运输声道114。此外，信号SAOC-SI(SAOC辅助信息)118也提供到USAC编码器116。USAC编码器116进一步直接从预渲染/混合器、多个声道信号以及多个预渲染对象信号122接收对象信号120。对象元数据信息108施加到OAM(对象元数据)编码器124，此OAM编码器124将经压缩的对象元数据信息126提供到USAC编码器。USAC编码器116基于上述的输入信号产生压缩输出信号mp4，如图中128所示。

图2示出3D音频系统的3D音频解码器200的整体图。图1的音频编码器100所产生的编码信号128(mp4)在音频解码器200处被接收，更具体地说，在USAC解码器202处被接收。USAC解码器202将接收的信号128解码成声道信号204、预渲染对象信号206、对象信号208以及SAOC运输声道信号210。更进一步，压缩对象元数据信息212以及信号SAOC-SI214通过USAC解码器202输出。对象信号208被提供到输出预渲染对象信号218的对象渲染器216。SAOC运输声道信号210被提供到输出多个预渲染对象信号222的SAOC解码器220。压缩对象元信息212被提供到OAM解码器224，OAM解码器224将各个控制信号输出到对象渲染器216以及SAOC解码器220，以产生预渲染对象信号218以及预渲染对象信号222。解码器进一步包含混合器226，如图2所述，混合器226接收用于输出声道信号228的输入信号204、206、218以及222。声道信号可直接地输出到扬声器，例如以230标示的32声道扬声器。信号228可提供到格式转换电路232，格式转换电路232接收作为控制输入的再现布局信号，此再现布局信号指示声道信号228的转换方法。在图2描述的实施例中，假设可以做这样的转换，使得信号提供到以234标示的5.1扬声器系统。此外，声道信号228可提供到产生两个输出信号的双耳渲染器236，例如以238标示的耳机。

在本发明的实施例中，图1以及图2中所描述的编码/解码系统基于MPEG-DUSAC编解码器用于声道以及对象信号的编码。为了提高对多个对象进行编码的效率，可使用MPEGSAOC技术。三种渲染器可执行将对象渲染到声道、将声道渲染到耳机或将声道渲染到不同的扬声器设置(见图2的参考符号230、234以及238)的任务。当明确地传输对象信号或使用SAOC进行参数化编码时，相应的对象元数据信息108(参见信号126)被压缩，并被多路传输到3D音频数据流128。

图1以及图2示出的整体3D音频系统的算法框图将更进一步详细描述如下。

可选择性地提供预渲染器/混合器102，以在编码之前将加入对象输入场景的声道转换成声道场景。功能上，其相当于下述的对象渲染器/混合器。对象的预渲染可期望用于确保在编码器输入端处的决定性信号熵，决定性信号熵基本上取决于同步活动对象信号的数量。利用预渲染对象，则不需要对象元数据传输。离散对象信号被渲染到编码器所使用的声道布局。针对每一声道的对象的权重系从相关联的对象元数据(OAM)中获得。

USAC编码器116为针对扬声器声道信号、离散对象信号、对象降混信号以及预渲染信号的核心编解码器。其基于MPEG-DUSAC技术。通过基于输入声道以及对象分配的几何以及语义信息，建立声道对象映射信息以进行上述信号的编码。映射信息描述输入声道以及对象如何映射到USAC-channel元件，如双耳元件(CPE)、单声道元件(SCE)、低频效果声道(LFE)以及四声道元件(QCE)，以及CPE、SCE和LFE，以及相应的信息如何传输到解码器。在编码器的速率控制上将考虑全部额外的有效载荷如SAOC数据114，118或对象元数据126。取决于渲染器的速率/失真要求以及交互作用的要求，对象编码可能使用不同的方法。根据实施例，下列对象编码变形是可能的：

●预渲染对象：在编码之前，将对象信号预渲染以及混合到22.2声道信号。随后的编码链参见22.2声道信号。

●离散对象波形：对象作为单声道波形而提供到编码器。编码器使用单声道元件(SCE)以除了声道信号之外还传输多个对象。在接收器侧上，将解码对象信号进行渲染以及混合。压缩对象元数据信息被传输到接收器/渲染器。

●参数化对象波形：对象属性以及它们彼此之间的关系通过SAOC参数的平均值来描述。对象信号的降混利用USAC进行编码。参数化信息沿着侧边进行传输。降混声道的数量的根据对象的数量以及整体数据速率来选择。压缩对象元数据信息传输到SAOC渲染器。

对象信号的SAOC编码器112以及SAOC解码器220可基于MPEGSAOC技术。系统能够基于少量的传输声道以及额外的参数化数据(例如OLD、IOC(内部对象相关性)、DMG(降混增益))来重建、修正以及渲染多个音频对象。相较于分别传输所有对象以使编码非常有效率所要求的数据率，额外的参数化数据表现出明显较小的数据率。SAOC编码器112取作为单声道波形的对象/声道信号作为输入，并输出参数化信息(其被包装成3D音频比特数据流128)以及SAOC运输声道(使用单声道元件对其进行编码及传输)。SAOC解码器220从解码的SAOC运输声道210以及参数化信息214中重建对象/声道信号，并基于再现布局、解压缩对象元数据信息以及可选的基于用户交互信息来产生输出音频场景。

提供对象元数据编解码器(见OAM编码器124以及OAM解码器224)，使得针对每一对象，指定几何位置的相关联的元数据以及在3D空间内的对象的音量是通过在时间以及空间上的对象属性的量化以进行有效率地编码。压缩对象元数据cOAM126传输到接收器200以作为辅助信息。

对象渲染器216根据给定的再现格式利用压缩对象元数据以产生对象波形。每一对象根据其元数据渲染到特定的输出声道。该框的输出产生于部分结果的和。如果基于声道的内容以及离散/参数化对象均被解码，在输出所产生的波形228之前或在将它们反馈至后处理器模块(如双耳渲染器236或扬声器渲染器模块232)之前，基于声道的波形以及渲染对象波形通过混合器226进行混合。

双耳渲染器模块236产生多声道音频材料的双耳降混，使得每一输入声道通过虚拟音源来表示。在正交镜像滤波器组(QuadratureMirrorFilterbank，QMF)域中逐帧进行处理，双耳是基于所测量的双耳房间脉冲响应。

扬声器渲染器232在传输声道配置228以及所期望的再现格式之间进行转换。其也可被称为“格式转换器”。格式转换器执行转换以降低输出声道的数量，亦即产生降混。

图3示出执行格式转换器232的示例。格式转换器232也被称为扬声器渲染器，其在传输器声道配置以及所期望的再现格式之间进行转换。格式转换器232执行转换以到达较低的输出声道的数量，亦即进行降混(DMX)过程240。优选地操作于QMF域的降混器240，接收混合器输出信号228，并输出扬声器信号234。配置器242也被称为控制器，可以提供配置器242，配置器242可接收指示混合器输出布局(亦即确定混合器输出信号228所表示的数据的布局)的信号246，以及指示所期望的再现布局的信号248，以作为控制输入。基于此信息，优选地，控制器242针对输入以及输出格式的给定组合自动产生优化降混矩阵，并将这些矩阵施加到降混器240。格式转换器允许232标准扬声器配置以及具有非标准扬声器位置的随机配置。

图4示出图2的双耳渲染器236的实施例。双耳渲染器模块可提供多声道音频材料的双耳降混。双耳可以基于测量的双耳房间脉冲响应。房间脉冲响应可以考虑真实房间的声学特性的“指纹”。测量以及储存房间脉冲响应，任何声学信号可被提供该“指纹”，从而允许在聆听者处与房间脉冲响应相关联的房间声学特性的模拟。双耳渲染器236可配置或编程用于使用头部相关转换函数或双耳房间脉冲响应(BRIRs)，将输出声道渲染成两个双耳声道。例如，针对移动装置，双耳渲染可期望用于附接至这种移动装置的耳机或扬声器。在这种移动装置中，由于约束性，可能有必要限制解码器以及渲染复杂度。在这种处理场景中除了省略去相关性，优选地，首先，使用降混器250对中间降混信号252执行降混，亦即对较少的输出声道执行降混，以对实际双耳转换器254产生较少的输入声道。例如，22.2声道材料可通过降混器250降混到5.1中间降混，或者替换地，中间降混可直接地通过在“快捷(shortcut)”模式下的图2中的SAOC解码器220进行计算。双耳渲染接着仅施加10个HRTFs(头部相关转换函数)或用于渲染在不同位置上的五个独立的声道的BRIRs函数，相对地，如果对22.2输入声道进行直接渲染，则施加44个HRTF或BRIR函数。双耳演示所需的卷积运算需要高处理能力，因此，降低处理能力的同时，仍获得可接受的音频质量，这对于移动装置是尤其有用的。双耳渲染器236产生多声道音频材料228的双耳降混238，使得每一输入声道(LFE声道除外)通过虚拟音源来表示。可在QMF域内进行逐帧处理。双耳是基于测量的双耳房间脉冲响应，直接音效以及早期反射可通过在伪FFT域中使用QMF域的顶端的快速卷积的卷积方法印记到音频材料上，同时晚期混响可分开进行处理。

图5示出房间脉冲响应h(t)300的房间脉冲响应的示例。房间脉冲响应包含三个成分，分别为直接音效301、早期反射302以及晚期混响304。因此，当执行脉冲时，房间脉冲响应描述封闭的混响声学空间的反射行为。早期反射302进行离散反射且增加密度，脉冲响应而无法识别个别反射的部分被称为晚期混响304。直接音效301可容易地在房间脉冲响应中被识别，并可与早期反射相分离，然而，从早期反射302到晚期混响304的转换是不太明显的。

如上所述，在双耳渲染器内，例如图2中所描述的双耳渲染器，已知根据房间脉冲响应处理多声道音频输入信号的不同方法。

图6示出利用房间脉冲响应处理音频输入信号的不同的可能性。图6(a)示出根据房间脉冲响应处理完整的音频信号，图6(b)示出早期部分以及晚期混响部分的分开处理。如图6(a)示出，接收输入信号400(例如多声道音频输入信号)并将其施加到处理器402，处理器402配置或编程用于允许利用房间脉冲响应(见图5)实现多声道音频输入信号400的全卷积，在所描述的实施例中，房间脉冲响应产生双耳音频输出信号404。如上所述，此方法被认为是不利的，因为对整个脉冲响应使用卷积，在运算上是非常高成本的。因此，根据另一个方法，如图6(b)所示，如关于图6(a)中的描述，取代通过利用房间脉冲响应应用全卷积来处理整个多声道音频输入信号，房间脉冲响应300的早期部分301与302(请见图5)以及晚期混响部分304为分开地进行处理。更具体地说，如图6(b)示出，接收多声道音频输入信号400，然而，此信号平行施加到第一处理器406用于处理早期部分，亦即根据图5示出的房间脉冲响应300的直接音效301以及早期反射302来处理音频信号。多声道音频输入信号400也施加到处理器408，用于根据房间脉冲响应300的晚期混响来处理音频信号。在图6(b)描述的实施例中，多声道音频输入信号也可施加到降混器410，用于将多声道信号400降混到具有较少声道的信号。降混器410的输出系接着施加到处理器408。处理器406以及408的多个输出在412上进行组合，以产生2声道音频输出信号404’。

在双耳渲染器中，如上所述，主要由于计算复杂度的降低，可期望将直接音效及早期反射与晚期混响分离开进行处理。直接音效以及早期反射的处理可例如通过处理器406所实施的卷积方法印记到音频信号(见图6(b))，同时晚期混响可被处理器408所提供的合成混响取代。接着，整体双耳输出信号404为处理器406所提供的卷积结果以及处理器408所提供的合成混响信号的组合。

此处理在现有技术参考文献[1]中也有描述。上述方法的结果在感知上应尽可能与完全脉冲响应的卷积的结果相当，全转换方法如图6(a)所描述。然而，如果音频信号，或者更一般地，音频材料利用直接音效以及脉冲响应的早期反射部分进行卷积，不同的产生的声道加在一起以形成整体音效信号，该整体音效信号到达聆听者的一个耳朵的播放信号相关联。然而，混响不从该整体信号中计算得到，一般而言，是原始输入音频信号的一个声道或降混的混响信号。因此，本发明的发明人已经确定，晚期混响不会适当地匹配处理器406所提供的卷积结果。已发现混响的适当水平取决于输入音频信号以及房间脉冲响应300。脉冲响应的作用通过使用作为混响器的输入参数的混响特性而获得，此混响器可以为处理器408的部分，这些输入参数是从测量的脉冲响应的分析中获得的，例如与频率相关的混响时间值以及与频率相关的能量测量值。一般而言，这些测量值可从单个脉冲响应中确定，例如，通过利用倍频滤波器组分析来计算能量值以及RT60混响时间值，或者这些测量值可以为多个脉冲响应分析结果的平均值。

然而，已发现，当使用如图6(b)所描述的合成混响方法时，尽管有这些提供到混响器的输入参数，在混响上的输入音频信号的作用不会完全地被保留。例如，由于用于产生合成混响尾端的降混，输入音频信号的作用会丢失。因此，混响的产生水平在感知上不会与全卷积方法的结果相当，特别是在输入信号包含多个声道的情况下。

迄今，没有已知的方法将晚期混响的数量与全卷积方法的结果相比较或将期混响的数量匹配到卷积结果。有一些技术，试图评价晚期混响的质量或其听起来有多自然。例如，在一个方法中，定义用于自然发音混响的响度测量，此方法使用响度模式预测混响的感知响度。此方法在现有技术参考文献[2]中有描述，此水平可匹配目标值。此方法的缺点是它依赖复杂但不精确的人类聆听模式，并且需要目标响度以对被发现使用全卷积结果的晚期混响提供缩放因子。

在现有技术参考文献[3]所描述的另一个方法中，针对人工混响质测量测试使用互相关标准。然而，此方法仅适用于测试不同的混响算法，而不适用于多声道音频、不适用于双耳音频以及不适用于描述晚期混响的缩放。

另一个可能的方法是使用在所考虑的耳朵处的输入声道的数量作为缩放因子，然而，此方法不会给定感知上的正确缩放，因为整体音效信号的感知振福取决于不同的音频声道的相关性，而不是仅取决于声道的数量。

因此，根据本发明提供一种信号相关的缩放方法，此方法根据输入音频信号调整混响的水平。如上所述，当针对双耳渲染使用全卷积方法时，混响的感知水平期望与混响的水平相匹配，因此，适当的混响水平的测量的判定对于达到良好的音效质量是重要的。根据实施例，分别地利用房间脉冲响应的早期部分以及晚期混响对音频信号进行处理，其中处理晚期混响包含产生缩放混响信号，其缩放比例取决于音频信号。处理过的音频信号的早期部分和缩放后的晚期混响信号组合成输出信号。根据一个实施例，缩放比例取决于音频信号的一个或多个输入声道的条件(例如输入声道的数量、活动输入声道的数量及/或在输入声道内的活动)。根据另一个实施例，缩放比例取决于音频信号的预定义或计算得到的相关性测量。可选实施例可基于一个或多个输入声道的条件以及预定义或计算得到的相关性测量的组合来进行缩放。

根据实施例，缩放后的混响信号可通过施加增益因子而产生，此增益因子基于音频信号的一个或多个输入声道的条件，或基于音频信号的预定义或计算得到的相关性测量，或者基于这两者的组合而确定。

根据实施例，分开处理音频信号的步骤包含，在第一处理步骤中，利用房间脉冲响应300的早期反射部分301、302处理音频信号，以及在与第一处理步骤不同且分开的第二处理步骤中，利用房间脉冲响应300的扩散混响304处理音频信号。从第一处理步骤至第二处理步骤的改变发生在转换时期。根据进一步的实施例，在第二处理步骤中，扩散(晚期)混响304可由合成混响来取代。在这种情况下，施加到第一处理步骤的房间脉冲响应仅包含早期反射部分300、302(见图5)，而不包含晚期扩散混响304。

在下文中，根据以基于输入音频信号的相关性分析而计算出的增益因子，将进一步描述本发明方法的实施例。图7示出根据本发明的教导进行操作的如同双耳渲染器的信号处理单元的框图。双耳渲染器500包含第一分支部，此第一分支部包含从输入端504接收包含N个声道的音频信号x[k]的处理器502。当处理器502为双耳渲染器的部份时，处理输入信号504以产生输出信号506x_conv[k]。更具体地说，处理器502利用房间脉冲响应的直接音效以及早期反射以造成音频输入信号504的卷积，其中房间脉冲响应的直接音效以及早期反射系可从保存多个记录的双耳房间脉冲响应的外部数据库508提供到处理器502。如上所述，处理器502可基于数据库508所提供的双耳房间脉冲响应进行操作，从而产生仅具有两个声道的输出信号502。输出信号506从处理器502提供到加法器510。输入信号504进一步提供到包含混响处理器514以及降混器516的混响分支512。降混输入信号被提供到混响器514，基于混响器参数，如同分别保存在数据库518以及520中的混响RT60和混响能量，混响器514在仅包含两个声道的混响器514输出端处产生混响信号r[k]。储存于数据库518以及520的参数可通过适当的分析522从所储存的双耳房间脉冲响应获得，如在图7中的虚线所示。

混响分支512进一步包含相关性分析处理器524，相关性分析处理器524接收输入信号504，并在其输出端处产生增益因子g。进一步地，提供耦接于混响器514以及加法器510之间的增益级526。增益级526通过增益因子g进行控制，从而在增益级526的输出端处产生施加到加法器510的缩放混响信号r_g[k]。加法器510将早期处理部分以及混响信号进行组合，以提供也包含两个声道的输出信号y[k]。选择性地，混响分支512可包含耦接于处理器524以及增益级之间的低通滤波器528，用于随着多个音频帧而平滑增益因子。选择性地，延迟元件530也可提供在增益级526的输出端以及加法器510之间，用于延迟缩放混响信号，使得其匹配在房间脉冲响应内的早期反射以及混响之间的转换。

如上所述，图7示出将直接音效以及早期反射与晚期混响分开处理的双耳渲染器的框图。如图所示，利用双耳房间脉冲响应的直接音效以及早期反射进行处理的输入信号x[k]产生信号x_conv[k]。如图所示，此信号被转送到加法器510用于将此信号加入至混响信号成分r_g[k]。该信号是通过将输入信号x[k]的降混(例如立体声降混)馈入到混响器514而产生，混响器514随后有接收降混的混响信号r[k]以及增益因子g的倍增器或增益级526。增益因子g是通过处理器524所执行的输入信号x[k]的相关性分析而获得，如上所述，可通过低通滤波器528随着时间进行平滑。经缩放或加权的混响元件可选择性地通过延迟元件530进行延迟，以使其起点与从早期反射到晚期混响的转换点相匹配，使得在加法器510的输出端获得输出信号y[k]。

图7中描述的多声道双耳渲染器采用合成2声道晚期混响，用于克服上面所讨论的传统方法的缺点，根据本发明的方法，合成晚期混响系通过增益因子g进行缩放以将感知与全卷积方法的结果相匹配。在聆听者的耳朵处的多个声道(例如高达22.2)的迭加是相关性依赖的。这就是为什么晚期混响可根据输入信号声道的相关性进行缩放，本发明方法的实施例系提供基于相关性及时间依赖性缩放方法，此方法确定晚期混响的适当的振福。

对于计算缩放因子，引入基于相关性系数的相关性测量，以及根据实施例，相关性测量定义在二维时间依赖性频域，例如QMF域。针对每个多维音频帧、由多个频带N所定义的每个音频帧、每帧的多个时隙M以及多个音频声道A，计算在-1以及1之间的相关性数值。获得每个耳朵的每帧的一个缩放因子。

以下，将进一步详细描述本发明方法的实施例。首先，请参阅图7的相关性分析处理器524中所使用的相关性测量。根据此实施例，基于相关性测量是以皮尔逊积矩相关系数(也称为相关系数)，此皮尔逊积矩相关系数是通过将两个变量值X，Y的协方差值除以它们的标准偏差的乘积值而计算得出：

ρ {X, Y} = \frac{E {(X - \overset{&OverBar;}{X}) \cdot (Y - \overset{&OverBar;}{Y})}}{σ_{X} \cdot σ_{Y}}

其中，

E{·}＝期望值操作符

ρ{X，Y}＝相关性系数，

σ_x，σ_Y＝变量值X，Y的标准偏差

根据所描述的实施例，该处理转送为时间频率域(例如QMF域)内的二维。二维为时隙以及QMF频带。此方法是合理的，因为数据时常进行编码，并在时间频率域中进行传输。期望值操作符由随着多个时间和/或频率取样的平均值运算取代，使得在(0，1)范围内的两个零平均变量值x_m,x_n之间的时间频率相关性测量被定义如下：

ρ [m, n] = | \frac{1}{(N - 1)} \cdot \frac{Σ_{i} Σ_{j} x_{m} [i, j] \cdot x_{n} {[i, j]}^{*}}{Σ_{j} σ (x_{m} [j]) \cdot σ (x_{R} [j])} |

其中，

ρ[m,n]＝相关性系数，

σ(x_m[j])＝横跨声道m的一个时隙j的标准偏差，

σ(x_n[j])＝横跨声道n的一个时隙j的标准偏差，

x_m，x_n＝零平均变量值，

*＝共轭复数。

在针对一个音频帧的多个声道组合(m,n)计算该系数之后，ρ[m,n,t_i]的数值通过取多个相关性值ρ[m,n,t_i]的平均值而组合到单个相关性测量ρ_m(t_i)。应当注意的是，音频帧可包含32个QMF时隙，t_i指示各个音频帧。上述的处理可针对一个音频帧进行归纳，如下：

(i)首先，针对具有大小为[N,M,K]的音频或数据帧x的k个声道中的每一个，计算整体平均值，其中根据实施例，所有的k声道降混到混响器的一个输入声道。

(ii)通过从相应的声道减去该数值以计算出零平均音频或数据帧。

(iii)针对多个声道组合(m,n)，计算所定义的相关性系数或相关性值c。

(iv)计算平均值相关性数值c_m作为多个相关性数值ρ[m,n]的平均值(除了错误计算得到的值，例如通过除以零)。

根据上述实施例，缩放比例是基于音频信号的相关性测量而确定的。尽管需要额外的计算资源，例如当期望分别获得当前处理的音频信号的相关性测量时，这是具有优势的。

然而，本发明并不限定于这样的方法。根据其他实施例，除了计算相关性测量，还有可以使用预定义的相关性测量。使用预定义的相关性测量是具有优势的，因为它降低在处理过程中的计算复杂度。预定义的相关性测量可具有固定值，例如0.1到0.9的范围，其可基于对多个音频信号的分析来凭经验确定。在此种情况下，可省略相关性分析524，增益级的增益值可通过适当的控制信号来设定。

根据其它实施例，缩放比例取决于音频信号的一个或多个输入声道的条件(例如输入声道的数量、活动输入声道的数量及/或在输入声道内的活动)。这是具有优势的，因为可使用减少的计算成本轻易地决定缩放比例。例如，可通过简单地确定原始音频信号内的声道的数量来确定缩放比例，此原始音频信号被降混到当前考虑的降混声道，该当前考虑的降混声道包含与原始音频信号相比更少数量的声道。可选地，降混到当前考虑的降混声道的数量的活动声道(显示在当前音频帧内的某个活动的声道)的数量可形成缩放混响信号的基础。这可以在块524中进行。

在下文中，将详细描述基于音频信号的一个或多个输入声道的条件以及基于(上述固定的或计算得到的)相关性测量确定混响信号的缩放比例。根据该实施例，增益因子或增益或缩放因子g定义如下：

g＝c_u+ρ·(c_c-c_u)

c_{u} = 10^{\frac{10 \cdot \log_{10} (K_{i n})}{20}} = \sqrt{K_{i n}}

c_{c} = 10^{\frac{20 \cdot \log_{10} (K_{i n})}{20}} = K_{i n}

其中，

ρ＝音频信号的预定义或计算得到的相关性测量，

c_u,c_c＝指示音频信号的一个或多个输入声道的条件的因子，其中c_u涉及完全非相关声道，c_c关于完全相关声道，

K_in＝活动非零或固定降混声道的数量。

如果降混声道为完全非相关(不具有声道间相关性)，则施加因子c_u。在仅使用一个或多个输入声道的条件的情况下，预定义的固定相关性系数值设定为零。如果降混声道为完全相关(信号为每一个其他的加权版本(加入相位移以及偏移))，则施加因子c_c。在仅使用一个或多个输入声道的条件的情况下，预定义的固定相关性系数值设定为1。这些因子描述在音频帧内的晚期混响的缩放比例的最大值和最小值(取决于(活动)声道的数量)。

根据实施例“声道数量”K_in定义如下：多声道音频信号使用降混矩阵Q降混到立体声降混，此降混矩阵Q定义哪个降混声道包含哪些输入声道(大小M×2，M为音频输入材料的输入声道的数量，例如针对5.1设置的6声道)。

降混矩阵Q的示例可以为：

Q = [\begin{matrix} 1 & 0 \\ 0 & 1 \\ 0.7071 & 0.7071 \\ 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{matrix}]

针对这两个降混声道中的每个，缩放比例系数计算如下：

g＝f(c_c，c_u，ρ_avg)＝c_u+ρ_avg·(c_c-c_u)

其中，ρ_avg为针对多个声道组合[m，n]的所有的系数相关性的平均值，c_c，c_u取决于声道数量K_in，其可以如下：

●K_in可以为降混到当前考虑的降混声道k∈[1，2](在降混矩阵Q的行k上的包含不等于零的值的列的数量)的声道的数量。此数量不会随时间改变，因为降混矩阵Q针对一个输入声道配置进行预定义，且不会随着一个音频输入信号的长度而改变。

例如当考虑5.1输入信号应用以下情况：

o声道1，3，4降混到降混声道1(见上述矩阵Q)，

o在每个音频帧(3声道)中K_in＝3

●K_in可以为降混到当前所考虑的降混声道k∈[1，2](输入声道在当前音频帧内有活动的，在降混矩阵Q的行k上包含不等于零的值的输入声道的数量→在活动声道交集内的声道的数量以及在Q的行K上的非均等元素的数量)的活动声道的数量。此数量可以为随音频输入信号的长度改变的时间变量，因为即使Q保持不变，信号活动可随着时间值改变。

例如当考虑5.1输入信号应用以下情况：

o声道1，3，4降混到降混声道1(见上述矩阵Q)，

o在帧n内：

■活动声道为声道1，2，4，

■K_in为在交集{1，4}内的声道的数量，

■K_in(n)＝2

o在帧n+1内：

■活动声道为声道1，2，3，4，

■K_in为在交集{1，3，4}内的声道的数量，

■K_in(n+l)＝3

音频声道(在预定义帧中)可考虑为活动式，在此情况下，其具有超过预设临界值的预定义帧内的振福或能量，例如根据实施例，在音频声道(在预定义帧中)的活动可被定义如下：

●信号的绝对振幅的总值或最大值(在时域，QMF域等内)在此帧内大于零，或

·信号能量的总值或最大值(在时域或QMF域内的振幅的平方的绝对值)在帧内大于零。

除了零，也可使用另一个大于零的临界值(相对于最大能量或振福)，例如临界值0.01。

根据实施例，针对每个耳朵提供增益因子，该增益因子取决于活动(随时间改变)的数量或包含在降混声道内的声道K_in(不等于零的降混矩阵)的固定数量。假定因子在完全非相关以及完全相关情况之间线性增加。完全非相关表示信号为彼此的加权版本(具有偏移的相位差，相关值为1)。

如上所述，增益或缩放因子g可通过低通滤波器528随着音频帧进行平滑。低通滤波器528可具有产生帧大小k的平滑增益因子g_S(t)的时间常数t_s，平滑增益因子g_S(t)如下：

g_s(t_i)＝c_s，old·g_s(t_i-1)+c_s，new·g

c_{s, o l d} = e^{- (\frac{1}{f_{s} \cdot \frac{t_{s}}{k}})}

c_s，new＝1-c_s，old

其中，

t_s＝低通滤波器的时间常数，单位为秒

t_i＝在帧t_i处的音频帧

g_s＝平滑增益因子

k＝帧大小，以及

f_s＝取样频率，单位为Hz。

帧大小k可以为在时域取样值(例如2048个取样值)内的音频帧的大小。

音频帧x(t_i)的左声道混响信号接着通过因子g_s,left(t_i)进行缩放，右声道混响信号通过因子g_s,right(t_i)进行缩放。利用作为呈现于立体声降混的左声道的(活动非零的或总数量的)声道的数量计算一次缩放因子，此立体声降混馈入到产生缩放因子g_s,left(t_i)的混响器内。接着，利用作为呈现于立体声降混的右声道的(活动非零的或总数量的)声道数量再次计算缩放因子，此立体声降混馈入到产生缩放因子g_s,left(t_i)的混响器内。混响器回馈音频帧的立体声混响版本。混响版本的左声道(或混响器的输入端的左声道)利用g_s,left(t_i)进行缩放，混响版本的右声道(或混响器的输入端的右声道)利用g_s,right(t_i)进行缩放。

缩放人工(合成)晚期混响被施加到加法器510，以待加入利用直接音效以及早期反射进行处理的信号506内。

如上所述，根据实施例，本发明的方法可用于双耳处理器，该双耳处理器用于音频信号的双耳处理。音频信号的双耳处理的实施例将在下文中描述。双耳处理可作为将解码信号转换成双耳降混信号的解码器处理来执行，当通过耳机被聆听时，双耳降混信号提供环绕音效体验。

图8示出根据本发明实施例的用于音频信号的双耳处理的双耳渲染器800的示意性表示。图8还提供在双耳渲染器的QMF域处理的整体图。在输入端802上的双耳渲染器800接收待处理的音频信号，例如包含N个声道以及64QMF频带的输入信号。此外，双耳渲染器800接收多个输入参数以控制音频信号的处理。输入参数包含双适用于2xN个声道以及64QMF频带的双耳房间脉冲响应(BRIR)804，最大频带的指示值K_max806(其用于利用BRIRs804的早期反射部分进行的音频输入信号的卷积)，以及如上所述的混响器参数808以及810(RT60以及混响能量)。双耳渲染器800包含快速卷积处理器812，此快速卷积处理器812用于利用所接收的BRIRs804的早期部分处理输入音频信号802。处理器812在输出上产生包含两个声道以及KmaxQMF频带的早期处理信号。双耳渲染器800包含早期处理分支以及混响分支，其中早期处理分支具有卷积快速处理器812，混响分支包含两个混响器816a以及816b，混响器816a以及816b中的每个接收RT60信息808以及混响能量信息810以作为输入参数。混响分支进一步包括立体声降混处理器818以及相关性分析处理器820，两者也接收输入音频信号802。此外，两个增益级821a和821b提供于立体声降混处理器818和各个混响器816a和816b之间，用于控制立体声降混处理器818所提供的降混信号822的增益。立体声降混处理器818基于输入信号802提供具有两个频带以及64QMF频带的降混信号822。增益级821a以及821b的增益分别通过相关性分析处理器820所提供的控制信号824a以及824b进行控制。增益控制的降混信号分别输入到混响器816a与816b，用于分别产生混响信号826a与826b。早期处理信号814以及混响信号826a，826b通过混合器828进行接收，混合器828将接收的信号组合成具有两个声道以及64QMF频带的输出音频信号830。此外，根据本发明，快速卷积处理器812以及混响器816a，816b接收另一个输入参数832，此另一个输入参数832指示如上所述的在房间脉冲响应804内从早期部分到晚期混响的转换。

双耳渲染器模块800(例如图2或图4的双耳渲染器236)具有作为输入802的解码数据流。信号通过QMF分析滤波器组处理，如在具有在ISO/IEC14496-3:2009第4.B.18.2项中修改的ISO/IEC14496-3:2009的第8.6.4.2.项所列出的。渲染器模块800也可处理QMF域输入数据；在此情况下，分析滤波器组可省略。双耳房间脉冲响应(BRIRs)804表示为复QMF域滤波器。从时域双耳房间脉冲响应到复QMF滤波器表现的转换列于AnnexB的ISO/IECFDIS23003-1:2006上。BRIRs804在复QMF域中限定为特定数量的时隙，使得这些时隙仅包含早期反射部分301与302(见图5)，而不包含晚期扩散混响304。如上所述，例如，通过在双耳处理的预处理步骤中通过BRIRs804的分析而确定从早期反射到晚期混响的转换点832。接着，QMF域音频信号802以及QMF域BRIRs804通过类频带(bandwise)快速卷积812的处理以执行双耳处理。QMF域混响器816a，816b用于产生双声道QMF域晚期混响826a与826b。混响模块816a与816b使用一组频率相关性混响时间值808以及能量值810以调整混响的特性。混响的波形基于音频输入信号802的立体声降混818，其根据多声道音频信号802的相关性分析820来适应性缩放821a与821b的振福。双声道QMF域卷积结果814以及双声道QMF域混响816a，816b接着进行组合，最后，两个QMF合成滤波器组组计算双耳时域输出信号830，如ISO/IEC14496-3:2009的第4.6.18.4.2.项所列。渲染器也可产生QMF域输出数据；接着，省略QMF合成滤波器组。

变量定义

音频信号802馈入双耳渲染器模块800内以作为输入信号，如下所述。作为双耳处理的结果的音频信号830，被称为输出信号。双耳渲染器模块800的输入信号802为核心解码器的音频输出信号(例如见图2的信号228)。所使用的变量的定义如下：

处理

现在描述输入信号的处理。双耳渲染模块操作于输入音频信号的长度L＝2048时域取样值的连续非重迭帧，并且对每个长度L的经处理的输入帧输出L个取样值的一帧。

(1)初始化以及预处理

在核心解码器(例如见图2的解码器200)传递音频取样的过程发生之前，执行双耳处理区块的初始化。初始化包含几个处理步骤。

(a)分析值的读取

混响器模块816a、816b取混响时间值808以及能量值810的频率相关集合以作为输入参数。从双耳处理模块800的初始化上的接口读取这些数值。此外，读取在时域取样值内的从早期反射到晚期混响的转换时间值832。这些数值可储存于以32位每取样值、浮点值以及小端字节顺序写成的双耳文件。处理时所需的读取值详述于下表中：

(b)BRIRs的读取以及预处理

双耳房间脉冲响应804从分别储存左耳以及右耳BRIRs的两个专用文件中读取。BRIRs的时域取样存储在具有每取样值24位分辨率以及32个声道的整数波形文件。在该文件中的BRIRs顺序详述于下表中：

如果在扬声器的任一位置上没有测量到BRIR，则在波形文件中的相应的声道包含零值。LFE声道没有用于双耳处理。

如预处理步骤，给定的双耳房间脉冲响应(BRIRs)的集合从时域滤波器转换到复值QMF域滤波器。在复值QMF域内的所给定的时域滤波器是根据ISO/IECFDIS23003-1:2006，AnnexB来执行。滤波器转换的原型滤波器系数是根据ISO/IECFDIS23003-1:2006，AnnexB的表B.1使用的。处理具有1≤v≤L_trans的时域表现以增益具有1≤n≤L_tranns,的复值QMF域滤波器

(2)音频信号处理

双耳渲染器模块800的音频处理块是从核心解码器获得N_in输入声道的时域音频取样值802，并产生包含N_out＝2声道的双耳输出信号830。

作为输入的处理

●从核心解码器所解码的音频数据802，

●BRIR集合804的早期反射部分的复QMF域表示，以及

●频率相关性参数集合808，810，832是通过QMF域混响器816a与816b执行，以产生晚期混响826a与826b。

(a)音频信号的QMF分析

如第一处理步骤，双耳渲染器模块将N_in声道时域输入信号(来自核心解码器)的L＝2048时域取样值转换到维度L_n＝32QMF时隙(时隙指数n)以及K＝64频带(频带指数k)的N_in声道QMF域信号表示802。

如在具有在ISO/IEC14496-3:2009第4.B.18.2项中修改的ISO/IEC14496-3:2009的第8.6.4.2.项所列出的，QMF分析执行于时域信号的帧以增益QMF域信号的帧，其中1≤v≤L以及1≤n≤L_n。

(b)QMF域音频信号的快速卷积以及QMF域BRIRs

接着，执行类频带快速卷积812以处理QMF域音频信号802以及QMF域BRIRs804。可针对输入信号802的每个声道以及每个BRIR804执行每个QMF频带k的FFT分析。

由于在QMF域中的复值，一个FFT分析执行于QMF域信号表示的实部以及一个FFT分析执行于QMF域信号表示的虚部。接着，组合结果以形成最终的类频带复值伪FFT域信号

以及类频带复值BRIRs

针对左耳

针对右耳

FFT转换长度是根据复值QMF域BRIR滤波器的长度L_trans,n以及在QMF域时隙的长度L_n所决定，使得L_FFT＝L_trans,n+L_n-1。

接着，复值伪FFT域信号利用复值伪FFT域BRIR滤波器倍增以形成快速卷积结果。向量m_conv用于发送信号，而发送的输入信号的声道对应于BRIR数据集合中的BRIR对的声道。

符合1≤k≤K_max的所有QMF频带k执行类频带倍增。最大频带K_max通过QMF频带确定，此QMF频带表示18kHz或出现在来自核心解码器的音频信号内的最大信号频率f_max＝min(f_max,decoder,18kHz)。

从具有每一个BRIR对的每个输入声道所产生的倍增结果在符合1≤k≤K_max的每个QMF频带k内进行叠加，以产生中间的双声道K_max带伪FFT域信号。

以及皆为在QMF域频带k内的伪FFT卷积结果。

下一步，执行频带FFT分析以将卷积结果转换回至QMF域，以产生中间的双声道K_max带伪FFT域信号，其中L_FFT时隙且1≤n≤L_FFT以及1≤k≤K_max。

针对具有L＝32时隙的每个QMF域输入帧，恢复具有L＝32时隙的卷积结果。储存所留下的L_FFT-32时隙，并在下列的(多个)帧中执行重迭附加的处理。

(c)晚期混响的产生

作为第二中间信号826a、826b，混响信号被称为其通过频率域混响器模块816a，816b而产生。频率域混响器816a，816b以下列作为输入

●输入信号的一帧的QMF域立体声混响822

●包含频率相关性混响时间值808以及能量值810的参数集合

频率域混响器816a与816b转换到双声道QMF域晚期混响的末端。

频率相关性参数集合的最大使用频带数量是根据最大频率进行计算。

首先，执行输入信号的一帧的QMF域立体声降混818，以通过输入信号声道的加权相加来形成混响器的输入。加权增益值包含在降混矩阵M_DMX中。它们是实数非负数的且此降混矩阵的为N_out×N_in维度。其包含非零值，其中输入信号的声道映射到两个输出声道中的一个。

代表位于左半球的扬声器的声道映射到左输出声道，代表位于右半球的扬声器的声道映射到右输出声道。这些声道的信号皆通过系数1进行加权。代表在中间平面上的扬声器的声道映射到双耳信号的两输出声道。这些声道的输入信号系通过系数进行加权。

a = 0.7071 \approx \frac{1}{\sqrt{2}}

此外，能量均等步骤执行于降混内。其将一个降混声道的类频带能量调整成相当于包含在该降混声道中的输入信号声道的频带能量的总和。能量均等步骤通过利用实值系数的频带倍增来执行。

c_{e q, k} = \sqrt{P_{i n}^{k} / P_{o u t}^{k} + ϵ}

因子c_eq,k限于区间[0.5，2]。引入数值常数ε以避免被零整除。降混的带宽受限于频率f_max；在所有高频带的数值皆设定为零。

图9示意性地表示根据本发明实施例双耳渲染器800的频率域混响器816a与816b中的处理。

在频率域混响器中，使用输入混合器900计算立体声输入的单声道降混。在第二输入声道上非相干地施加90°相位移。

单声道信号接着被馈入于每个频带内的产生延迟脉冲序列的回馈延迟循环902。接着相互并联的FIR去相关器以延迟的方式将信号能量分配于多个脉冲之间的间隔，并产生在多个输出声道之间的非相干性。施加延迟滤波阀密度以产生能量延迟。滤波阀相位操作受限于四个选项以执行稀疏的以及无倍增的去相关器。

在混响计算之后，针对每个QMF频带,声道间相干性(ICC)校正904包含在混响模块中。在ICC校正步骤中，使用频率相关性直接增益值g_direct以及交错混合增益g_cross来调整ICC。

不同频带的能量总量值以及混响时间值包含在输入参数集合内，这些数值给定在多个频率点处，这些频率点内部映射到K＝64QMF频带。

频率域混响器的两个示例用于计算最终中间信号信号为混响器的第一示例的第一输出声道，为混响器的第二示例的第二输出声道。它们组合成具有双声道、64个频带以及32个时隙的维度的最终混响信号帧。

根据输入信号帧的相关性测量820对立体声降混822进行时间缩放821a，b，以确认混响器输出的正确缩放。缩放因子定义为在区间内的数值，其线性基于0以及1之间的相关性系数c_corr，

c_{c o r r} = \frac{1}{{N_{i n}}^{2}} \cdot Σ_{A = 1}^{A = N_{D M X, a c t}} Σ_{B = 1}^{B = N_{D M X, a c t}} c_{c o r r}^{A, B}

以及

其中意指横跨声道A的一个时隙n的标准偏差，操作符{^*}代表共轭复数以及为在实际信号帧内的QMF域信号的零平均值的版本。

c_corr被计算两次：一次为针对活动于实际信号帧F上且包含在立体声降混的左声道中的多个声道A,B，另一次为针对活动于实际信号帧F上且包含在立体声降混的右声道中的多个声道A,B。N_DMX,act为降混至降混声道A的输入声道的数量(在不等于零的降混矩阵M_DMX的第A列内的矩阵元素的数量)，并且活动于当前帧。

接着，缩放因子为

\begin{matrix} c_{s c a l e} = [c_{s c a l e, 1}, e_{s c a l e, 2}] \\ = [\sqrt{N_{D M X, a c t, 1}} + c_{c o r r} \cdot (N_{D M X, a c t, 1} - \sqrt{N_{D M X, a c t, 1}}), \sqrt{N_{D M X, a c t, 2}} + c_{c o r r} \cdot (N_{D M X, a c t, 2} - \sqrt{N_{D M X, a c t, 2}})] \end{matrix} .

缩放因子通过一阶低通滤波器随音频信号帧进行平滑，以产生平滑缩放因子

{\tilde{c}}_{s c a l e} = [{\tilde{c}}_{c a l e, 1}, {\tilde{c}}_{s c a l e, 2}] .

缩放因子通过具有相同平均值的时域相关性分析在第一音频输入数据帧中进行初始化。

第一混响器示例的输入利用缩放因子进行缩放，第二混响器示例的输入利用缩放因子进行缩放。

(d)卷积结果以及晚期混响的组合

接着，卷积结果814，以及混响器输出826a与826b，针对QMF域音频入帧通过混合处理828进行组合，此混合处理828是将两个输入信号的带宽加在一起。应当注意的是，卷积仅在高达于K_max的频带中执行，所以高于K_max的上频带在内皆为零值。

晚期混响输出是通过在混合处理中的d＝((L_trans-20·64+1)/64+0.5)+1时隙的总量进行延迟。

延迟d考虑BRIRs内的从早期反射到晚期反射的转换时间以及20个QMF时隙的混响器的初始延迟，以及针对BRIRs的QMF分析的0.5QMF时隙的分析延迟，以确认在合理的时隙上的晚期混响的插入。在一个时隙n上所组合的信号是通过进行计算。

(e)双耳QMF域信号的QMF分析

QMF域输出信号的32时隙的一个双声道帧，根据ISO/IEC14496-3:2009的第4.6.18.4.2项通过QMF分析转换成具有长度的双声道时域信号帧，从而产生最终时域输出信号830

{\tilde{z}}_{c h}^{v} = [{\tilde{z}}_{c h, 1}^{v} ... {\tilde{z}}_{c h, 2}^{v}] .

根据本发明的方法，考虑输入信号的特性，对合成或人工晚期混响进行缩放，从而改善输出信号的质量，并同时通过分开处理而具有降低的运算复杂度的优势。此外，从以上描述可得知，不需要额外的聆听模型或目标混响响度。

应当注意的是，本发明不限于上述实施例。例如，上述实施例已组合QMF域进行描述，应当注意的是，也可以使用其他的频率域，例如STFT域。此外，缩放因子可以以频率相关性方式进行计算，使得相关性不随着频带的整体数量的改变而计算，即而是以多个S子集合进行计算，如下：

i_{1} &ForAll; [1, N_{1}], i_{2} &ForAll; [N_{1} + 1, N_{2}], ..., i_{S} &ForAll; [N_{S - 1} + N]

此外，平滑处理可施加于在频带，或频带可根据特定规则进行组合，例如根据听觉的频率分辨率。平滑可适用不同的时间常数，例如取决于帧大小或聆听者的偏好。

本发明的方法也可应用于不同的帧大小，甚至帧大小可能仅为在时间频率域内的仅仅一个时隙的帧大小。

根据实施例，不同的降混矩阵可用于降混，例如对称降混矩阵或非对称矩阵。

相关性测量可从在音频比特流中传输的参数中推导出来，例如从MPEG环绕或SAOC中的声道间相干性。此外，根据实施例，其可能从平均值计算中排除矩阵的一些数值，例如错误计算值或在主对角上的值，自相关值(如果有必要)。

例如当施加低复杂度双耳设定时，可在解码器上执行此处理，而不是在解码器侧的双耳渲染器内使用该处理。这导致缩放因子的一些表示，例如缩放因子本身、介于0及1之间的相关性测量及类似的，以及针对固定的下游矩阵，这些参数在比特流中从编码器传输至解码器。

此外，虽然在上述实施例中已描述，在混响器514之后施加增益，应当注意的是，根据其它实施例，此增益也可施加于混响器514之前或混响器之内，例如通过修正混响器514内的增益。这是具有优势的，因为可以需要更少的运算。

尽管在装置上下文中已经描述了一些方面，很显然地，这些方面也代表相应的方法描述，其中块或装置对应于方法步骤或方法步骤之特征。相似地，方法步骤的上下文中描述的方面也表示相应的块或项或相对应的装置的特征的描述。方法步骤中的一些或全部可通过(或使用)硬设备来执行，像是例如微处理器、可编程计算机或电子电路。在一些实施例中，最重要的方法步骤中的一些或多个可通过这种装置执行。

根据特定实施例的要求，本发明的实施例可在硬件或软件上执行。本实施方式可以使用非暂时性存储介质例如数字储存媒介来执行，例如软盘驱动器、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或是FLASH存储器，此数字储存媒介具有存储于其上的电子可读控制信号，该电子可读控制信号与可编程计算机系统配合(或能够配合)，以使执行各个方法。因此，数字储存媒介可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，该电子可读控制信号能够与可编程计算机系统配合，以使执行本文描述的任一方法。

一般情况下，本发明的实施例能够作为具有程序代码的计算机程序产品而实施，当计算机程序产品在计算机上运行时，程序代码可操作用于任一方法。程序代码例如可被储存于机器可读载体上。

另一实施例包括计算机程序，该计算机程序储存于机器可读载体上，用于执行本文描述的任一方法。

换句话说，因此，本发明方法的实施例是计算机程序，当在计算机上执行时，计算机程序具有用于执行本文描述的任一方法的程序代码。

本发明方法的进一步的实施例是数据载体(或数字储存介质，或是计算机可读介质)其包括计算机程序，此计算机程序被记录在数据载体上并且用于执行本文描述的任一方法。数据载体、数字储存媒体或记录媒体典型地为有形体及/或非过渡体。

因此，本发明方法的进一步的实施例是数据流或信号序列，其代表用于执行本文描述的方法之一的程序代码。数据流或信号序列可以例如用于为经由数据通讯连接(例如经由因特网)而被传输。

进一步的实施例包括处理装置，例如计算机或可编程逻辑器件，处理装置用于或适用于执行本文描述的任一方法。

进一步的实施例包括计算机，计算机具有安装于其内的计算机程序，用于执行本文描述的任一方法。

根据本发明的进一步的实施例，包括装置或系统，用于传输(例如电子或光学方式传输)计算机程序至接收器，以执行本文描述的任一方法。接收器可以为例如计算机、移动装置、存储装置或类似的。装置或系统可以例如包括用于将计算机程序传输至接收器的文件服务器。

在一些实施例中，可编程逻辑器件(例如场可编程门阵列)可以用于执行本文所描述的方法的一些或全部的功能。在一些实施例中，场可编程门阵列可以与微处理器配合，以执行本文描述的任一方法。一般而言，这些方法优选地通过任何硬件装置来执行。

以上描述的实施例仅仅用于说明本发明的原理。可以理解的是，本文所描述的布置的修正及变化以及细节对于本领域技术人员将是显而易见的。因此，本发明意欲应当仅由所附的专利权利要求的范围所限定，而不是由本文实施例的描述及说明的具体细节所限定。

参考文献：

[1]M.R.Schroeder，"DigitalSimulationofSoundTransmissioninReverberantSpaces"，TheJournaloftheAcousticalSocietyofAmerica，VoS.47，pp.424-431(1970)andenhancedinJA.Moorer，"AboutThisReverberationBusiness"，ComputerMusicJournal，Vol.3，no.2，pp.13-28，MITPress(1979).

[2]Uhle，Christian；Paulus，Jouni；Herre，Jürgen:“PredictingthePerceivedLevelofLateReverberationUsingComputationalModelsofLoudness”Proceedings，17thInternationalConferenceonDigitalSignalProcessing(DSP)，July6–8，2011，Corfu，Greece.

[3]Czyzewski，Andrzej:“AMethodofArtificialReverberationQualityTesting”J.AudioEng.Soc.，Vol.38，No3，1990.

Claims

1.一种根据房间脉冲响应(300)处理音频信号(504，802)的方法，包括：

利用所述房间脉冲响应(300)的早期部分(301，302)以及晚期混响(304)分别对所述音频信号(504，802)进行处理(502，514，812，816a，816b)，其中处理所述晚期混响(304)包括产生缩放混响信号，所述缩放比例取决于所述音频信号(504，802)；以及

将利用所述房间脉冲响应的所述早期部分进行处理的所述音频信号与所述缩放混响信号进行组合。

2.如权利要求1所述的方法，其中所述缩放比例取决于所述音频信号(504，802)的所述一个或多个输入声道的所述条件。

3.如权利要求2所述的方法，其中所述音频信号(504，802)的所述一个或多个输入声道的条件包括输入声道的数量、活动输入声道的数量以及所述输入声道中的所述活动中的一个或多个。

4.如权利要求1至3任一项所述的方法，其中所述缩放比例取决于所述音频信号(504，802)的预定义或计算得到的相关性测量。

5.如权利要求1至4任一项所述的方法，其中产生所述缩放混响信号包括施加增益因子，其中所述增益因子基于所述音频信号(504，802)的所述一个或多个输入声道的所述条件及/或基于所述音频信号(504，802)的所述预定义或计算得到的相关性测量而确定。

6.如权利要求5所述的方法，其中产生所述缩放混响信号包括在处理所述音频信号(504，802)的所述晚期混响(304)之前、过程中或之后施加所述增益因子。

7.如权利要求5或6所述的方法，其中所述增益因子根据下式确定：

g＝c_u+ρ·(c_c-c_u)

其中，

ρ＝所述音频信号(504，802)的预定义或计算得到的相关性测量，

c_u,c_c＝指示所述音频信号(504，802)的所述一个或多个输入声道的所述条件的因子，其中c_u涉及完全非相关声道，c_c关于完全相关声道。

8.如权利要求7所述的方法，其中c_u以及c_c根据下式确定：

c_{u} = 10^{\frac{10 \cdot \log_{10} (K_{i n})}{20}} = \sqrt{K_{i n}}

c_{c} = 10^{\frac{20 \cdot \log_{10} (K_{i n})}{20}} = K_{i n}

其中，

K_in＝活动或固定降混声道的数量。

9.如权利要求5至8任一项所述的方法，其中所述增益因子在所述多个音频帧上被低通滤波。

10.如权利要求9所述的方法，其中根据下式对所述增益因子进行低通滤波：g_s(t_i)＝c_s，old·g_s(t_i-1)+c_s，new·g

c_{s, o l d} = e^{- (\frac{1}{f_{s} \cdot \frac{t_{s}}{k}})}

c_s，new＝1-c_s，old

其中，

t_s＝所述低通滤波器的时间常数

t_i＝在帧t_i处的音频帧

g_s＝平滑增益因子

k＝帧大小，以及

f_s＝取样频率。

11.如权利要求1至10任一项所述的方法，其中产生所述缩放混响信号包括所述音频信号(504，802)的相关性分析。

12.如权利要求11所述的方法，其中所述音频信号(504，802)的所述相关性分析包括确定所述音频信号(504，802)的音频帧的组合相关性测量，其中所述组合相关性测量是通过针对一个音频帧的多个声道组合组合所述相关性系数而计算得到的，每个音频帧包括一个或多个时隙。

13.如权利要求12所述的方法，其中组合所述相关性系数包括取所述音频帧的多个相关性系数的平均值。

14.如权利要求11或12所述的方法，其中确定所述组合相关性测量包括：

(i)针对所述一个音频帧的每个声道计算整体平均值，

(ii)通过从相应的声道中减去所述平均值以计算零平均音频帧，

(iii)计算多个声道组合的所述相关性系数，以及

(iv)计算所述组合相关性测量，作为多个相关性系数的所述平均值。

15.如权利要求11至14任一项所述的方法，其中声道组合的所述相关性系数根据下式计算：

ρ [m, n] = | \frac{1}{(N - 1)} \cdot \frac{Σ_{i} Σ_{j} x_{m} [i, j] \cdot x_{n} {[i, j]}^{*}}{Σ_{j} σ (x_{m} [j]) \cdot σ (x_{n} [j])} |

其中，

ρ[m，n]＝相关性系数，

σ(x_m[j])＝横跨声道m的一个时隙j的标准偏差，

σ(x_n[j])＝横跨声道n的一个时隙j的标准偏差，

X_m，x_n＝零平均变量值，

＝频带，

＝时隙，

＝声道，

*＝共轭复数。

16.如权利要求1至15任一项所述的方法，包括延迟所述缩放混响信号，以使所述缩放混响信号的起点匹配所述房间脉冲响应(300)中的从早期反射到晚期混响(304)的转换点。

17.如权利要求1至16任一项所述的方法，其中处理所述音频信号(504，802)的所述晚期混响(304)包括降混所述音频信号(504，802)以及将所述降混音频信号施加至混响器。

18.一种非实体计算机产品，包括用于存储指令的计算机可读介质，当被计算机执行时，用于实施如权利要求1至17任一项所述的方法。

19.一种信号处理单元，包括：

输入端，所述输入端用于接收音频信号(504，802)，

早期部分处理器，所述早期部分处理用于根据房间脉冲响应(300)的早期部分(301，302)处理所述接收的音频信号(504，802)，

晚期混响处理器，所述晚期混响处理器用于根据所述房间脉冲响应(300)的晚期混响处理所述接收的音频信号(504，802)，所述晚期混响处理器用于产生缩放混响信号，所述缩放比例取决于所述接收的音频信号(504，802)；以及

输出端，所述输出端用于将所述接收的音频信号(504，802)的所述经处理的早期部分以及所述缩放混响信号组合为输出音频信号。

20.如权利要求19所述的信号处理单元，其中所述晚期混响处理器包括：

混响器，所述混响器用于接收所述音频信号(504，802)以及产生混响信号；以及

增益级，所述增益级耦接至所述混响器的输入端或输出端，并由增益因子进行控制。

21.如权利要求21所述的信号处理单元，包括相关性分析器，所述相关性分析器根据所述音频信号(504，802)产生所述增益因子。

22.如权利要求20或21所述的信号处理单元，进一步包括下列中的至少一种：

低通滤波器，所述低通滤波器耦接至所述增益级，以及

延迟元件，所述延迟元件耦接于所述增益级和加法器之间，所述加法器进一步耦接至所述早期部分处理器和所述输出端。

23.一种双耳渲染器，包括如权利要求19至22任一项所述的信号处理单元。

24.一种用于编码音频信号的音频编码器，包括：

如权利要求19至22任一项所述的信号处理单元或如权利要求23所述的双耳渲染器，用于在编码之前处理所述音频信号。

25.一种用于对编码的音频信号进行解码的音频解码器，包括：

如权利要求19至22任一项所述的信号处理单元或如权利要求23所述的双耳渲染器，用于处理所述解码的音频信号。