CN101933344A

CN101933344A - 用于产生双声道音频信号的方法及装置

Info

Publication number: CN101933344A
Application number: CN2008801115927A
Authority: CN
Inventors: D·J·布里巴特; L·F·维乐莫斯
Original assignee: Koninklijke Philips Electronics NV; Dolby Sweden AB
Current assignee: Koninklijke Philips NV; Dolby International AB; Dolby Sweden AB
Priority date: 2007-10-09
Filing date: 2008-09-30
Publication date: 2010-12-29
Anticipated expiration: 2028-09-30
Also published as: MY150381A; RU2443075C2; BRPI0816618A2; US8265284B2; BRPI0816618B1; TWI374675B; CA2701360A1; EP2198632A1; RU2010112887A; ES2461601T3; PL2198632T3; JP2010541510A; KR101146841B1; AU2008309951A1; US20100246832A1; AU2008309951B2; TW200926876A; CN101933344B; EP2198632B1; MX2010003807A

Abstract

本发明公开了一种用于产生一双声道音频信号的装置，其包含一解复用器(401)与解码器(403)，该解码器接收音频数据，所述音频数据包含作为一N通道音频信号之一降混的一音频M通道音频信号与用于升混该M通道音频信号至该N通道音频信号的空间参数数据。一转换处理器(411)将所述空间参数数据之空间参数转换成第一双耳参数作为对至少一双耳感知转移函数的响应。一矩阵处理器(409)将该M通道音频信号转换成一第一立体声信号作为对所述第一双耳参数的响应。一立体声滤波器(415、417)通过滤波该第一立体声信号来产生该双声道音频信号。用于该立体声滤波器的滤波器系数系通过一系数处理器(419)响应该至少一双耳感知转移函数来加以决定。该参数转换/处理及滤波之组合允许低复杂度地产生一高品质双耳信号。

Description

用于产生双声道音频信号的方法及装置

技术领域

本发明涉及一种用于产生一双声道音频信号的方法及装置，具体地，但非排他性地，涉及从一单声降混信号产生一双声道音频信号。

背景技术

在最近十年间，一直趋向于多通道音频且尤其是趋向延伸至传统立体声信号外的空间音频。例如，传统立体声记录仅包含两个通道，而现代高级音频系统如在流行的5.1环绕声音系统中一般使用五个或六个通道。此提供一更复杂的倾听体验，使用者可被声源所环绕。

已发展出各种技术及标准用于传达此类多通道信号。例如，可依据诸如高级音频编码(AAC)或杜比(Dolby)数字标准等标准来发送表示一5.1环绕系统的六个离散通道。

然而，为了提供向后相容性，众所周知的方法是将更高数目的通道降混至一更低数目的通道，具体而言，常用的方法是将一5.1环绕声音信号降混至一立体声信号，从而允许由传统(立体声)解码器来复制一立体声信号以及由环绕声解码器来复制一5.1信号。

其中的一个实例就是MPEG2向后相容编码方法。一多通道信号被降混成一立体声信号。额外信号被编码于辅助数据部分内，从而允许一MPEG2多通道解码器产生该多通道信号的一表示。一MPEG1解码器将会忽视所述辅助数据并因而仅解码立体声降混信号。

存在可用于说明音频信号的空间性质的数个参数。一此类参数为通道间互相关性，诸如在用于立体声信号的左通道与右通道之间的互相关性。另一参数为所述通道的功率比。在所谓(参数)空间音频编码器中，所述及其他参数提取自原始音频信号，以便产生具有一减少数目通道(例如仅一单一通道)的音频信号，加上一组参数用于说明该原始音频信号的空间性质。在所谓(参数)空间音频解码器中，重整发送空间参数所说明的空间性质。

3D声源定位目前颇受关注，尤其是在手机领域内。在手机游戏内的音乐播放及声音效果可在以3D定位时给消费者体验增加明显的价值，从而有效地建立一″头外″3D效果。具体而言，现有的方法是记录并复制其中包含有人类耳朵较敏感的特定方向信息的双声道音频信号。两路立体声录音(Binaural recordings)一般使用安装于一虚拟人类头部内的两个麦克风来进行，使得所记录声音相当于人类耳朵所捕捉的声音，且包括由头部及耳朵形状所引起的任何影响。两路立体声录音不同于立体声(即立体音响)录音，因为一两路立体声录音的复制一般用于一耳机或头戴式耳机，而一立体声的录音通常由扬声器来复制。一两路立体声录音允许仅使用两个通道来复制所有空间信息，而一立体声录音将不会提供同样的空间感知。

常规双通道(立体音响)或多通道(例如5.1)录音可通过将每一常规信号与一组感知转移函数进行卷积来变换成两路立体声录音。此类感知转移函数模仿人类头部以及其他可能物体对信号的影响。一著名的空间感知转移函数就是所谓的头部相关转移函数(HRTF)。另一可选的空间感知转移函数为双耳空间脉冲响应(BRIR)，其还将一房间的墙壁、天花板及地板的反射考虑在内。

一般而言，3D定位算法采用HRTF(或BRIR)，其通过一脉冲响应来说明从一特定声源位置至耳膜的转移。3D声源定位可通过HRTF应用于多通道信号，从而允许一双耳信号(例如)使用一副头戴式耳机来向一使用者提供空间声音信息。

图1概述了一传统双耳合成演算法。一组输入通道系由一组HRTF来加以滤波。每一输入信号被分割成两个信号(一左″L″及一右″R″分量)；每一个信号随后由对应于给定的声源位置的一HRTF来加以滤波。之后将所有左耳信号相加以产生左双耳输出信号，并所有右耳信号相加以产生右双耳输出信号。

现有的解码器系统可接收一环绕声音编码信号并从一双耳信号产生一环绕声音体验。例如，现有的头戴式耳机系统，其允许将一环绕声音信号转换成一环绕声音双耳信号，用于向所述头戴式耳机的使用者提供一环绕声音体验。

图2描述了一系统，其中一MPEG环绕解码器接收具有空间参数数据的一立体声信号。输入比特流由一解复用器(201)来加以解复用，从而得到空间参数与一降混比特流。所述降混比特流使用一传统单声或立体声解码器(203)来加以解码。该解码后的降混比特流由一空间解码器(205)来加以解码，该空间解码器基于传输的空间参数来产生一多通道输出。最后，该多通道输出由一双耳合成级(207)(类似于图1者)来加以处理，从而产生一能向使用者提供一环绕声音体验的双耳输出信号。

然而，此方案较复杂且要求相当多计算资源，而且可能进一步减低音频品质并引起听觉失真(audible artifacts)。

为了克服所述缺点，已提出一种方法，将一参数多通道音频解码器与一双耳合成演算法结合，不需要先从所发射的降混信号来产生多通道信号并随后使用HRTF滤波器来降混该多通道信号，就可以在头戴式耳机内呈现一多通道信号。

在此类解码器中，用于重新建立该多通道信号的升混空间参数与HRTF滤波器结合以产生组合参数，可将所述组合参数直接应用于降混信号以产生双耳信号。为此可将所述HRTF滤波器参数化。

图3中描述了一解码器的一示例，且在Breebaart，J.″Analysis and synthesis of binauralparameters for efficient 3D audio rendering in MPEG Surround(用于MPEG环绕中具效率3D音频呈现的双耳参数的分析及合成)″，ICME会议录，北京，中国(2007)与Breebaart，J.、Faller，C.″Spatial audio processing：MPEG Surround and other applications(空间音频处理：MPEG环绕及其他应用)″，Wiley&Sons，纽约(2007)中有进一步说明。

一包含空间参数与一降混信号的输入比特流由一解复用器301来接收。该降混信号系由一传统解码器303来加以解码，从而生成一单声或立体声降混信号。

此外，HRTF数据由一HRTF参数提取单元305来转换至参数域。所述所得HRTF参数在一转换单元307内组合以产生称为双耳参数的组合参数。该些组合参数说明所述空间参数与HRTF处理的组合效果。

该空间解码器通过修改依赖于双耳参数的解码降混信号来合成该双耳输出信号。具体而言，该降混信号通过一变换单元309来转移至一变换或滤波器组域(或传统解码器303可直接提供该解码降混信号作为一变换信号)。变换单元309可包含一QMF滤波器组来产生QMF子带。子带降混信号被馈送至一矩阵单元311，其在每个子带内执行一2×2矩阵运算。

若发送的降混为一立体声信号，则矩阵单元311的两个输入信号为两个立体声信号。若发送的降混为一单信号，则矩阵单元311的输入信号之一为该单信号，而另一信号为一解相关信号(类似于一单信号至一立体声信号的传统升混)。

对于所述单声与立体声降混，矩阵单元311执行运算：

[\begin{matrix} y_{L_{B}}^{n, k} \\ y_{R_{B}}^{n, k} \end{matrix}] = [\begin{matrix} h_{11}^{n, k} & h_{12}^{n, k} \\ h_{21}^{n, k} & h_{22}^{n, k} \end{matrix}] [\begin{matrix} y_{L_{0}}^{n, k} \\ y_{R_{0}}^{n, k} \end{matrix}],

其中k为子带索引编号，n为槽(变换间隔)索引编号，h_ij ^n，k为用于子带k的矩阵元素，

为用于子带k的两个输入信号而

为所述双耳输出信号样本。

矩阵单元311将双耳输出信号样本馈送至一逆变换单元313，逆变换单元313将该信号变换回至时域。接着可将所得时域双耳信号馈送至头戴式耳机以提供一环绕声音体验。

上述方案具有若干优点：

可在变换域内执行该HRTF处理，从而由于可使用相同变换域来解码该降混信号，所以在许多情况下可减少所需的变换数目。

处理的复杂度为极低(其仅使用2×2矩阵乘法)且事实上与同时音频通道的数目无关。

其可应用于单声与立体声降混两者；

HRTF以极紧凑的方式来表示并因此高效地发送及储存。

不过，该方案还具有一些缺点。具体而言，由于无法通过所述参数化子带HRTF值来表示更长的脉冲响应，该方案仅适用于具有一相对较短脉冲响应(通常小于变换间隔)的HRTF。因而，该方案不能用于具有较长回声或回响的音频环境。具体而言，该方案一般无法对可能较长的回声HRTF或双耳空间脉冲响应(BRIR)无效，因而极难使用参数方案来正确模型化。

因此，一种用于产生一双声道音频信号的改良系统将会较有利，尤其是一种允许增加灵活性、改良效能、便于实施、减少资源使用和/或改良不同音频环境适用性的系统将会较有利。

发明内容

据此，本发明致力于单独或以任一组合方式较佳地减轻、缓和或消除上述缺点中的一或多个缺点。

依据本发明的一第一方面，提供一种用于产生一双声道音频信号的装置，该装置包含：接收装置，用于接收音频数据，所述音频数据包含作为一N通道音频信号的一降混的一M通道音频信号以及用于升混该M通道音频信号至该N通道音频信号的空间参数数据；参数数据构件，用于将所述空间参数数据的空间参数转换成第一双耳参数作为对至少一双耳感知转移函数的响应；转换装置，用于将该M通道音频信号转换成一第一立体声信号作为对所述第一双耳参数的响应；一立体声滤波器，用于通过对第一立体声信号进行滤波来产生该双声道音频信号；及系数构件，用于确定该立体声滤波器的滤波器系数作为该双耳感知转移函数的响应。

本发明可允许产生一改进的双声道音频信号。具体地，本发明的具体实施例可使用频率与时间处理的一组合来产生反映回声音频环境和/或具有较长脉冲响应的HRTF或BRIR的双耳信号。可获得一较低复杂度的实施方案。该处理过程可在较低计算和/或记忆体资源需求下实施。

该M通道音频降混信号具体可为一单声或立体声信号，其包含一较高数目空间通道的一降混，诸如一5.1或7.1环绕信号的一降混。所述空间参数数据可包含该N通道音频信号的通道间差异和/或互相关性差异。所述双耳感知转移函数可为HRTF或BRIR转移函数。

依据本发明的一可选特征，该装置进一步包含变换构件，用于将该M通道音频信号从一时域变换至一子带域，且其中转换装置与立体声滤波器被配置用于分别处理该子带域的每一子带。

该特征便于实施，能减少资源需求和/或与许多音频处理应用(诸如传统解码算法)的相容性。

依据本发明的一可选特征，该双耳转移函数的一脉冲响应的一持续时间超过一变换更新间隔。

本发明可允许产生一改进的双耳信号和/或可减少复杂度。具体地，本发明可产生对应于具有较长回声或回响特性的音频环境的双耳信号。

依据本发明的一可选特征，该转换装置被配置以为每一子带产生立体声输出样本，其实质上为：

[\begin{matrix} L_{O} \\ R_{O} \end{matrix}] = [\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}] [\begin{matrix} L_{I} \\ R_{I} \end{matrix}],

其中L_I与R_I的至少一者为在该子带中该M通道音频信号的一音频通道的一样本，而该转换装置被配置以确定矩阵系数h_xy来响应空间参数数据与至少一双耳感知转移函数。

该特征可允许产生一改进的双耳信号和/或可减少复杂度。

依据本发明的一可选特征，该系数构件包含：提供构件，用于提供对应于该N通道信号中不同声源的复数个双耳感知转移函数的脉冲响应的一子带表示；决定构件，用于通过所述子带表示的对应系数的一加权组合来决定所述滤波器系数；及决定构件，其用于决定用于该加权组合的所述子带表示的权重作为对所述空间参数数据的响应。

本发明可允许产生一改进的双耳信号和/或可减少复杂度。具体地，可决定低复杂度、高品质的滤波器系数。

依据本发明的一可选特征，所述第一双耳参数包含相干性参数，其指示在该双声道音频信号的通道的间的一相关性。

本特征可允许产生一改进的双耳信号和/或可减少复杂度。具体地，可通过在滤波前进行一低复杂度运算来有效地提供所需相关性。具体而言，可执行一低复杂度子带矩阵乘法来引入所需相关性或相干性性质至该双耳信号。此类性质可在该滤波前引入且不需要修改所述滤波器。因而，该特征可允许具效率且低复杂度地控制相关性或相干性特性。

依据本发明的一可选特征，所述第一双耳参数不包含指示该双声道音频信号的任一声源的一位置的定位参数以及指示该双声道音频信号的任一声音分量的一回响的回响参数的至少一者。

该特征可允许产生一改进的双耳信号和/或可减少复杂度。具体地，该特征可允许通过所述滤波器来排他性地控制定位信息和/或回响参数，从而促进运算和/或提供改进的品质。所述双耳立体声通道的相干性或相关性可通过该转换装置来加以控制，从而独立地控制该相关性/相干性与定位和/或回响，且最具实用性或效率。

依据本发明的一可选特征，该系数构件被配置以确定所述滤波器系数，以反映双声道音频信号的定位线索与回响线索中的至少一者。

本特征可产生一改进的双耳信号和/或可减少复杂度。具体地，所需定位或回响性质可通过子带滤波来有效地提供，从而提供改进的品质且具体地允许(例如)有效地模拟回声音频环境。

依据本发明的一可选特征，该音频M通道音频信号为一单声音频信号，而该转换装置被配置用于从该单声音频信号产生一解相关信号，并通过应用于一立体声信号的样本的一矩阵乘法来产生第一立体声信号，所述立体声信号包含所述解相关信号与所述单声音频信号。

本特征可允许从一单信号产生一改进的双耳信号和/或可减少复杂度。具体地，本发明可允许从一般可用空间参数来产生用于生成一高品质双声道音频信号的所有要求参数。

依据本发明的另一方面，提供一种产生一双声道音频信号的方法，该方法包含：接收音频数据，所述音频数据包含作为一N通道音频信号的一降混的一M通道音频信号以及用于升混该M通道音频信号至该N通道音频信号的空间参数数据；将所述空间参数数据的空间参数转换成第一双耳参数作为对至少一双耳感知转移函数的响应；将该M通道音频信号转换成一第一立体声信号作为对所述第一双耳参数的响应；通过滤波该第一立体声信号来产生该双声道音频信号；以及决定用于该立体声滤波器的滤波器系数作为对至少一双耳感知转移函数的响应。

依据本发明的另一方面，提供一种发射一双声道音频信号的发射器(transmitter)，该发射器包含：接收装置，其用于接收音频数据，所述音频数据包含作为一N通道音频信号的一降混的一M通道音频信号以及用于升混该M通道音频信号至该N通道音频信号的空间参数数据；参数数据构件，用于将所述空间参数数据的空间参数转换成第一双耳参数作为对至少一双耳感知转移函数的响应；转换装置，用于将该M通道音频信号转换成一第一立体声信号作为对所述第一双耳参数响应；一立体声滤波器，用于通过滤波该第一立体声信号来产生该双声道音频信号；及系数构件，用于确定该立体声滤波器的滤波器系数作为对该双耳感知转移函数的响应；以及发射构件，其用于发射该双声道音频信号。

依据本发明的另一方面，提供一种发射一音频信号的传输系统，该传输系统包括一发射器，该发射器包含：接收装置，用于接收音频数据，所述音频数据包含作为一N通道音频信号的一降混的一M通道音频信号与升混该M通道音频信号至该N通道音频信号的空间参数数据；参数数据构件，用于将所述空间参数数据的空间参数转换成第一双耳参数作为对至少一双耳感知转移函数的响应；转换装置，用于将该M通道音频信号转换成一第一立体声信号作为对所述第一双耳参数的响应；一立体声滤波器，其用于通过滤波该第一立体声信号来产生该双声道音频信号；及系数构件，用于确定该立体声滤波器的滤波器系数作为对该双耳感知转移函数的响应；以及发射构件，用于发射该双声道音频信号；及一接收器，用于接收该双声道音频信号。

依据本发明的另一方面，提供一种用于记录一双声道音频信号的音频记录器件，该音频记录器件包含接收装置，用于接收音频数据，所述音频数据包含作为一N通道音频信号的一降混的一M通道音频信号与升混该M通道音频信号至该N通道音频信号的空间参数数据；参数数据构件，用于将所述空间参数数据的空间参数转换成第一双耳参数作为对至少一双耳感知转移函数的响应；转换装置，用于将所述M通道音频信号转换成一第一立体声信号作为对所述第一双耳参数的响应；一立体声滤波器，用于通过滤波该第一立体声信号来产生该双声道音频信号；系数构件(419)，用于确定所述立体声滤波器的滤波器系数作为所述双耳感知转移函数的响应；以及记录构件，用于记录该双声道音频信号。

依据本发明的另一方面，提供一种发射一双声道音频信号的方法，该方法包含：接收音频数据，所述音频数据包含作为一N通道音频信号的一降混的一M通道音频信号与用于升混该M通道音频信号至该N通道音频信号的空间参数数据；响应至少一双耳感知转移函数将所述空间参数数据的空间参数转换成第一双耳参数；响应所述第一双耳参数将该M通道音频信号转换成一第一立体声信号；通过在一立体声滤波器中滤波该第一立体声信号来产生该双声道音频信号；响应双耳感知转移函数来决定用于该立体声滤波器的滤波器系数；及发射该双声道音频信号。

依据本发明的另一方面，提供一种发射并接收一双声道音频信号的方法，该方法包含：一发射器执行以下步骤：接收音频数据，所述音频数据包含作为一N通道音频信号的一降混的一M通道音频信号与用于升混该M通道音频信号至该N通道音频信号的空间参数数据；将所述空间参数数据的空间参数转换成第一双耳参数作为对至少一双耳感知转移函数的响应；将所述M通道音频信号转换成一第一立体声信号作为对所述第一立体声参数的响应；通过在一立体声滤波器内滤波该第一立体声信号来产生该双声道音频信号；确定用于所述立体声滤波器的滤波器系数作为对所述双耳感知转移函数的响应；及发射该双声道音频信号；以及一接收器执行接收该双声道音频信号的步骤。

依据本发明的另一方面，提供一种用于实行以上所说明方法的任一者的电脑程序产品。

根据以下说明的具体实施例将会明白本发明的该些及其他方面、特征及优点并将参考所述具体实施例予以阐释。

附图说明

下面结合附图和实施例对本发明作进一步说明：

图1为依据现有技术的一种用于产生一双耳信号的方案的示意图；

图2为依据现有技术的另一种用于产生一双耳信号的方案的示意图；

图3为依据现有技术的又一种用于产生一双耳信号的方案的示意图；

图4为依据本发明的一些具体实施例的一种用于产生一双声道音频信号的器件的示意图；

图5为依据本发明的一些具体实施例的一种产生一双声道音频信号的方法的一范例的流程图；以及

图6为依据本发明的一些具体实施例的一种用于音频信号通信的传输系统的一范例的示意图。

具体实施方式

下列说明集中于适用于从复数个空间通道的一单声降混来合成一双耳立体声信号的本发明的一具体实施例。具体地，本说明书将适用于从使用一所谓″5151″组态编码的一MP EG环绕声音比特流产生用于头戴式耳机复制的一双耳信号，该组态具有5个通道作为输入(由第一个″5″指示)、一单声降混(第一个″1″)、一5通道重建(第二个″5″)与依据树结构的空间参数化″1″。关于不同树结构的详细信息可见诸于Herre，J.，K.，Breebaart，J.，Faller，C.，Disch，S.，Purnhagen，H.，Koppens，J.，Hilpert，J.，J.，Oomen，W.，Linzmeier，K.，Chong，K.S.“MPEG Surround-The ISO/MPEG standard for efficient andcompatible multi-channel audio coding”，Proc.122AES convention，Vienna，Austria(2007)以及Breebaart，J.，Hotho，G.，Koppens，J.，Schuijers，E.，Oomen，W.，van de Par，S.“Background，concept，and architecture of the recent MPEG Surround standard on multi-channel audiocompression”J.Audio Engineering Society，55，p 331-351(2007)。不过，应了解，本发明不限于此应用，而可(例如)应用于许多其他音频信号，例如包括降混至一立体声信号的环绕声音信号。

在诸如图3中的现有技术器件中，长HRTF或BRIR无法通过参数化数据与矩阵单元311所执行的矩阵运算来有效地表示。事实上，所述子带矩阵乘法限于表示时域脉冲响应，所述时域脉冲响应具有对应于用于变换至子带时域的变换时间间隔的一持续时间。例如，若该变换为一快速傅立叶变换(FFT)，则将N个样本的每一FFT间隔转换成N个子带样本，并被馈送至该矩阵单元。但是，长于N个样本的脉冲响应将得不到充分表示。

此问题的一解决方案为使用一子带域滤波方案，其中为通过一矩阵滤波方案来替代该矩阵运算，在该矩阵滤波方案中对个别子带进行滤波。因而，在此类具体实施例中，该子带处理可取代一简单矩阵乘法而给出为：

[\begin{matrix} y_{L_{B}}^{n, k} \\ y_{R_{B}}^{n, k} \end{matrix}] = Σ_{i = 0}^{N_{q} - 1} [\begin{matrix} h_{11}^{n - i, k} & h_{12}^{n - i, k} \\ h_{21}^{n - i, k} & h_{22}^{n - i, k} \end{matrix}] [\begin{matrix} y_{L_{o}}^{n - i, k} \\ y_{R_{o}}^{n - i, k} \end{matrix}],

其中N_q为用于该滤波器表示该(等)HRTF/BRIR函数的抽头(tap)的数目。

这种方案有效地对应于应用四个滤波器至每一子带(矩阵单元311的输入通道及输出通道的每一排列均一个)。

尽管这种方案可能在一些具体实施例中较有利，但还具有一些关联缺点。例如，该系统要求四个滤波器用于每一子带，因而明显增加了处理的复杂度及对资源的要求。而且，在许多情况下，可能较复杂、难以或甚至不可能产生精确对应于所需HRTF/BRIR脉冲响应的参数。

具体而言，对于图3的简单矩阵乘法，可在HRTF参数与所发送空间参数的帮助下估计该双耳信号的相干性，因为两个参数类型均存在于相同(参数)域内。该双耳信号的相干性取决于在个别声源信号的间的相干性(如所述空间参数所说明)以及从所述个别位置至耳膜的声学路径(由HRTF所说明)。若全部以一统计(参数)方式来说明相对信号电平、逐对相干性值及HRTF转移函数，则可在该参数域内直接估计空间呈现与HRTF处理的组合效果所引起的净相干性。此程序在Breebaart，J.″Analysis and synthesis of binaural parameters for efficient 3D audiorendering in MPEG Surround″，Proc.ICME，Beijing，China(2007)与Breebaart，J.、Faller，C.″Spatial audio processing：MPEG Surround andother applications″，Wiley&Sons，New York(2007)中得到说明。若所需相干性为已知，则可通过一矩阵运算由一解相关器与该单信号的一组合来获得具有依据指定值的一相干性的一输出信号。此程序在Breebaart，J.，van de Par，S.，Kohlrausch，A.，Schuijers，E.“Parametric coding of stereo audio”，EURASIP J.Applied Signal Proc.9，p 1305-1322(2005)和

J.，Purnhagen，H.，

J.，Liljeryd，L.“Synthetic ambience in parametric stereo coding”，Proc.116thAES convention，Berlin，Germany(2004)中有说明。

结果，所述解相关器信号矩阵实体(h₁₂与h₂₂)遵循空间与HRTF参数的间的相对简单关系。不过，对于诸如以上所说明所述者的滤波器响应，明显更难以计算由空间解码与双耳合成所引起的净相干性，因为所需相干性值为对于该BRIR的第一部分(直达声)不同于对于剩余部分(后期混响)。

具体而言，对于BRIR，所要求的性质可随时间而相对程度地变化。例如，一BRIR的第一部分可说明直达声(没有房间效应)。此部分因此具有高度方向性(具有由(例如)电平差异与到达时间差异所反映的完全不同的定位性质以及一较高相干性)。另一方面，早期反射声及后期混响时常相对较少具方向性。因而，耳朵之间的电平差异不太明显，由于该些的随机性质，且在许多情况下该相干性为相当低，故难以精确地确定到达时间差异。此定位性质变化对于精确捕捉相当重要，但此可能较困难，因为其将要求所述滤波器响应的相干性依赖实际滤波器响应内的位置来变化，而同时整个滤波器响应取决于所述空间参数与所述HRTF系数。所述要求的组合极难以使用一有限数目的处理步骤来实现。

总而言之，要决定所述双耳输出信号之间的正确相干性并确保其正确时间行为对于一单声降混而言极困难，而且使用已知用于现有技术的矩阵乘法方案的方案一般不可能实现。

图4描述了一种用于依据本发明的一些具体实施例来产生一双声道音频信号的器件。所述方案中结合了参数矩阵乘法与低复杂度滤波，以允许模拟具有较长回声或回响的音频环境。具体地，该系统允许使用长HRTF/BRIR，同时仍维持较低复杂度与实际实施。

该器件包含一解复用器401，用于接收一音频数据比特流，该音频数据比特流包含作为一N通道音频信号的一降混的一音频M通道音频信号。此外，所述数据包含用于升混该M通道音频信号至该N通道音频信号的空间参数数据。在该特定范例中，该降混信号为一单信号，即M＝1而该N通道音频信号为一5.1环绕信号，即N＝6。该音频信号具体为一环绕信号的一MP EG环绕编码，而所述空间数据包含电平间差异(ILD)与通道间互相关性(ICC)参数。

该单信号的音频数据被馈送至一与解复用器401连接的解码器403。解码器403使用一合适的本领域技术人员所熟知的传统解码算法来解码该单信号。因而，在该范例中，解码器403的输出为一经解码的单声音频信号。

解码器403被连接至一变换处理器405，变换处理器405可操作以将该经解码的单信号从时域转换至一频率子带域。在一些具体实施例中，可配置变换处理器405以将该信号划分成变换间隔(对应于包含一适当数目样本的样本区块)并在每一变换时间间隔内执行一快速傅立叶变换(FFT)。例如，该FFT可能为一64点FFT，将所述单声音频样本划分成64个样本区块，对所述样本区块应用该FFT以产生64个复合子带样本。

在该特定范例中，变换处理器405包含一QMF滤波器组，其使用一64样本变换间隔来操作。因而，对于64个时域样本的每一区块，在该频域内产生64个子带样本。

在该范例中，所接收到的信号为一待升混至双耳立体声信号的单信号。相应地，频率子带单信号被馈送至一解相关器407，其产生该单信号的一解相关形式。应了解，在不脱离本发明的前提下可使用任一产生一解相关信号的适当方法。

变换处理器405与解相关器407被馈送至一矩阵处理器409。因而，将该单信号的子带表示以及所产生解相关信号的子带表示馈送至矩阵处理器409。矩阵处理器409继续将该单信号转换成一第一立体声信号。具体而言，矩阵处理器409在每一子带内执行一矩阵乘法：

[\begin{matrix} L_{O} \\ R_{O} \end{matrix}] = [\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}] [\begin{matrix} L_{I} \\ R_{I} \end{matrix}],

其中L_I与R_I为输入至矩阵处理器409的输入信号的样本，即在该特定范例中，L_I与R_I为单信号与解相关信号的子带样本。

由矩阵处理器409所执行的转换取决于响应所述HRTF/B RIR所产生的双耳参数。在该范例中，该转换还取决于使该接收单信号与(额外)空间通道相关的空间参数。

具体而言，矩阵处理器409被连接至一转换处理器411，转换处理器411进一步连接至解复用器401与一HRTF储存器413，该HRTF储存器413包含表示所需HRTF(或等效的BRIR)的数据。出于简洁的目的，下列将仅而引用(多个)HRTF，但应了解可使用(多个)BRIR来取代(或随同)HRTF。转换处理器411接收来自解复用器的空间数据以及表示来自HRTF储存器413的HRTF的数据。转换处理器411接着继续通过响应所述HRTF数据将所述空间参数转换成第一双耳参数来产生供矩阵处理器409使用的双耳参数。

但是，在该范例中，未计算产生一输出双耳信号所必需的HRTF与空间参数的整个参数化。确切而言，用于该矩阵乘法内的双耳参数仅反映所需HRTF响应的部分。具体地，仅针对该HRTF/BRIR的直接部分(排除早期反射声与后期混响)来估计双耳参数。此举通过使用传统参数估计程序来实现，仅在HRTF参数化程序期间使用该HRTF时域脉冲响应的第一峰值。随后在2×2矩阵中仅使用用于直接部分的所得相干性(排除诸如电平和/或时间差异的定位线索)。实际上，在该特定范例中，所述产生的矩阵系数仅用于反映该双耳信号的所需相干性或相关性，并不包括定位或回响特性的考量。

因而，该矩阵乘法仅执行所需处理的部分，且矩阵处理器409的输出并非最终双耳信号，而是一中间(双耳)信号，其反映在所述通道之间直达声的所需相干性。

以矩阵系数h_xy的形式的双耳参数在该范例中通过首先基于所述空间数据尤其是基于其内所包含的电平差异参数来计算在该N通道信号的不同音频通道内的相对信号功率而产生。接着基于所述值以及与N通道中每一个相关联的HRTF来计算在双耳通道的每一个内的相对功率。同时，基于在N通道的每一个内的信号功率与HRTF来计算用于双耳信号之间互相关性的一期望值。基于该双耳信号的互相关性与组合功率，随后计算用于该通道的一相干性测量并确定矩阵参数以提供此相关性。稍后将说明如何产生所述双耳参数的特定细节。

矩阵处理器409连接至两个滤波器415、417，所述两个滤波器415、417可通过对矩阵处理器409所产生的立体声信号进行滤波来产生输出双声道音频信号。具体而言，该两个信号的每一个为作为一单信号来加以单独滤波且不引入通道间的任一信号的交叉连接。相应地，仅运用两个单声滤波器，以减少与(例如)要求四个滤波器的方案相比而言的复杂度。

滤波器415、417为对每个子带单独进行滤波的子带滤波器。具体而言，所述滤波器的每一个可能为有限脉冲响应(FIR)滤波器，在每一子带中执行一滤波，其为实质上给出为：

z^{n, k} = Σ_{i = 0}^{N_{q} - 1} c_{i}^{k} \cdot y_{0}^{n - i, k}

其中y表示接收自矩阵处理器409的子带样本，c为滤波器系数，n为样本数目(对应于变换间隔数目)，k为子带，而N为该滤波器的脉冲响应的长度。因而，在每一单独的频带中执行一″时域″滤波，从而将该处理过程从单一变换间隔中延伸至考虑了复数个变换间隔的子带样本。

MPEG环绕的信号修改在一复合调变滤波器组(即不被临界采样的QMF)的域内执行。其特定设计允许通过使用一单独滤波器在时间方向上对每一子带信号进行滤波来高准确度地实施一给定时域滤波器。用于滤波器实施方案的所得整体SNR在50dB范围内，误差的频叠部分显著减小。此外，所述子带域滤波器可由给定的时域滤波器直接导出。一种用于计算对应于一时域滤波器h(v)的子带域滤波器的特别有吸引力的方法，该方法使用一第二复合调变分析滤波器组，其具有由该QMF滤波器组的原型滤波器导出的一FIR原型滤波器q(v)。具体而言，

c_{i}^{k} = \underset{v}{Σ} h (v + iL) q (v) \exp (- j \frac{π}{L} (k + \frac{1}{2}) v),

其中L＝64。对于该MPEG环绕QMF组而言，该滤波器转换器原型滤波器q(v)具有192个抽头。作为一范例，一具有1024个抽头的时域滤波器将会被转换成一组64子带滤波器，所述子带滤波器在时间方向上均具有18个抽头。

该范例中的滤波器特性产生以反映空间参数的方面以及所需HRTF的两方面。具体而言，响应所述HRTF脉冲响应与空间位置线索来决定所述滤波器系数，使得通过所述滤波器来引入并控制所产生双耳信号的回响及定位特性。假定所述滤波器的直接部分为(几乎)相干并因此该双耳输出的直达声的相干性为完全由之前的矩阵运算来加以定义，则所述双耳信号的直接部分的相关性或相干性并不受滤波影响。另一方面，假定所述滤波器的后期混响部分在左及右耳滤波器之间为不相关并因此该特定部分的输出将会独立于输入所述滤波器内的信号的相干性而始终不相关。因此不要求响应所需相干性对所述滤波器作任何修改。因而，滤波器的矩阵运算决定该直接部分的所需相干性，而剩余回响部分将会独立于实际矩阵值而自动具有正确(较低)相关性。因而，该滤波维持矩阵处理器409所引入的所需相干性。

因而，在图4的器件中，供矩阵处理器409使用的所述双耳参数(呈矩阵系数的形式)为相干性参数，其指示在该双声道音频信号的通道之间的一相关性。然而，所述参数不包含指示该双声道音频信号的任一声源的一位置的定位参数或指示该双声道音频信号的任一声音分量的一回响的回响参数。所述参数/特性由随后的子带滤波通过确定滤波器系来引入，使得所述参数/特性反映该双声道音频信号的定位线索与回响线索。

具体而言，所述滤波器被连接至一系数处理器419，系数处理器419进一步连接至解复用器401与HRTF储存器413。系数处理器419响应该(等)双耳感知转移函数来决定用于立体声滤波器415、417的滤波器系数。此外，系数处理器419接收来自解复用器401的空间数据并使用此数据来确定滤波器系数。

具体而言，所述HRTF脉冲响应被转换至子带域并作为该脉冲响应超过一单一转换间隔，导致用于每一子带内每一通道的一脉冲响应而不是一单一子带系数。接着对用于对应于N通道中每一个的每一HRTF滤波器的脉冲响应求加权和。响应空间数据来决定应用于N个HRTF滤波器脉冲响应的每一个的权重，并明确决定以使得功率适当分布于不同通道之间。稍后将说明如何可产生所述滤波器系数的特定细节。

所述滤波器415、417的输出因而为一双声道音频信号的一立体声子带表示，所述双声道音频信号在一头戴式耳机中表现时可有效地模拟一完整的环绕信号。滤波器415、417被连接至一逆变换处理器421，其执行一逆变换以将该子带信号转换至时域。具体而言，逆变换处理器421可执行一逆QMF变换。

因而，逆变换处理器421的输出为一双耳信号，其可从一组头戴式耳机提供一环绕声音体验。该信号可(例如)使用一传统立体声编码器来加以编码和/或可在一模数转换器中转换至模拟域以提供一可直接馈送至头戴式耳机的信号。

因而，图4的器件结合参数HRTF矩阵处理与子带滤波以提供一双耳信号。一相关性/相干性矩阵乘法与一以滤波器为主定位及回响滤波的分离提供一种系统，其中可为(例如)一单信号容易地计算所需参数。具体而言，对比一纯滤波器方案，其中难以或不可能确定和实施该相干性参数，不同类型处理的组合使得对于即使是基于一单声降混信号的应用仍能有效地控制该相干性。

因而，所说明方案的优点在于，正确相干性的合成(通过矩阵乘法)与定位线索及回响的产生(通过所述滤波器)是完全分离且独立控制的。而且，由于不要求任何交叉通道滤波，滤波器的数目限于两个。由于所述滤波器一般比简单矩阵乘法更复杂，故能减少复杂度。

在下文中，将说明如何可计算所要求矩阵双耳参数与滤波器系数的一特定范例。在该范例中，所接收信号为使用一″5151″树结构编码的一MPEG环绕比特流。

在说明中，将会使用下列缩写词：

l或L：左通道

r或R：右通道

f：(多个)前通道

s：(多个)环绕通道

c：中央通道

ls：左环绕

rs：右环绕

lf：左前

lr：左右

在该MPEG数据流内所包含的空间数据包括下列参数：

参数说明

CLD_fs前面vs环绕电平差异

CLD_fc前面vs中央电平差异

CLD_f前左vs前右电平差异

CLD_s环绕vs对环绕右电平差异

ICC_fs前面vs环绕相关性

ICC_fc前面vs中央相关性

ICC_f前左vs前右相关性

ICC_s环绕左vs环绕右相关性

CLD_lfe中央vsLFE电平差异

首先，将说明通过矩阵处理器409来产生用于矩阵乘法的所述双耳参数。

转换处理器411先计算该双耳相干性的一估计，其为反映在该双耳输出信号的所述通道之间所需相干性的一参数。该估计使用空间参数以及HRTF函数确定的HRTF参数。

具体而言，使用下列HRTF参数：

P_l，其为在对应于左耳的一HRTF的一特定频带内的rms功率

P_r，其为在对应于右耳的一HRTF的一特定频带内的rms功率

ρ，其为对于一特定虚拟声源位置在左耳与右耳HRTF之间的一特定频带内的相干性

其为对于一特定虚拟声源位置在左耳与右耳HRTF之间的一特定频带内的平均相位差

假定分别用于左耳及右耳的频域HRTF表示为H_l(f)、H_r(f)，以及f为频率指数，则可依据以下来计算所述参数：

P_{l} = \sqrt{Σ_{f = f (b)}^{f = f (b + 1) - 1} H_{l} (f) H_{l}^{*} (f)}

P_{r} = \sqrt{Σ_{f = f (b)}^{f = f (b + 1) - 1} H_{r} (f) H_{r}^{*} (f)}

ρ = \frac{| Σ_{f = f (b)}^{f = f (b + 1) - 1} H_{l} (f) H_{r}^{*} (f) |}{P_{l} P_{r}}

其中针对每一参数频带执行横跨f的相加来为每一参数频带b得出一组参数。关于此HRTF参数化程序的更多信息可获得自Breebaart，J.“Analysis and synthesis of binaural parameters for efficient 3D audio rendering in MPEGSurround”，Proc.ICME，Beijing，China(2007)和Breebaart，J.，Faller，C.“Spatial audioprocessing：MPEG Surround and other applications”，Wiley&Sons，New York(2007).

以上参数化程序为对于每一参数频带与每一虚拟扬声器位置来独立地执行。在下文中，通过P₁(X)来表示扬声器位置，X为扬声器识别码(lf、rf、c、ls或ls)。

作为第一步骤，使用传输的CLD参数来计算5.1通道信号的相对功率(相对于单声输入信号的功率)。左前通道的相对功率由下式给出：

σ_{lf}^{2} = r_{1} ({CLD}_{fs}) r_{1} ({CLD}_{fc}) r_{1} ({CLD}_{f}),

其中

r_{1} (CLD) = \frac{10^{CLD / 10}}{1 + 10^{CLD / 10}},

以及

r_{2} (CLD) = \frac{1}{1 + 10^{CLD / 10}} .

类似地，其他通道的相对功率由下式给出：

σ_{rf}^{2} = r_{1} ({CLD}_{fs}) r_{1} ({CLD}_{fc}) r_{2} ({CLD}_{f})

σ_{c}^{2} = r_{1} ({CLD}_{fs}) r_{2} ({CLD}_{fc})

σ_{ls}^{2} = r_{2} ({CLD}_{fs}) r_{1} ({CLD}_{s})

σ_{rs}^{2} = r_{2} ({CLD}_{fs}) r_{2} ({CLD}_{s})

给定每一虚拟扬声器的功率σ、表示特定扬声器对之间相干性值的ICC参数以及用于每一虚拟扬声器的HRTF参数P_l、P_r、ρ及

可估计所得双耳信号的统计特性。这是通过为每一虚拟扬声器添加在功率σ的贡献因素，乘以用于每一耳朵个别反映HRTF所引起的功率变化的HRTF P_l、P_r的功率来实现。要求额外项来并入虚拟扬声器信号(ICC)与该HRTF的路长差异(由参数

所表示)之间相互相关性的效应(参考(例如)Breebaart，J.，Faller，C.“Spatial audio processing：MPEG Surround and otherapplications”，Wiley&Sons，New York(2007))。

左双耳输出通道的相对功率的期望值σ_L ²(相对于单声输入通道)由下式给出：

σ_{L}^{2} = P_{l}^{2} (C) σ_{l}^{2} + P_{l}^{2} (Lf) σ_{lf}^{2} + P_{l}^{2} (Ls) σ_{ls}^{2} + P_{l}^{2} (Rf) σ_{rf}^{2} + P_{l}^{2} (Rs) σ_{rs}^{2} + . . .

{2 P}_{l} (Lf) P_{l} (Rf) ρ (Rf) σ_{lf} σ_{rf} {ICC}_{f} \cos (φ (Rf)) + . . .

{2 P}_{l} (Ls) P_{l} (Rs) ρ (Rs) σ_{ls} σ_{rs} {ICC}_{s} \cos (φ (Rs))

类似，用于右通道的(相对)功率由下式给出：

σ_{R}^{2} = P_{r}^{2} (C) σ_{c}^{2} + P_{r}^{2} (Lf) σ_{lf}^{2} + P_{r}^{2} (Ls) σ_{ls}^{2} + P_{r}^{2} (Rf) σ_{rf}^{2} + P_{r}^{2} (Rs) σ_{rs}^{2} + . . .

{2 P}_{r} (Lf) P_{r} (Rf) ρ (Lf) σ_{lf} σ_{rf} {ICC}_{f} \cos (φ (Lf)) + . . .

{2 P}_{r} (Ls) P_{r} (Rs) ρ (Ls) σ_{ls} σ_{rs} {ICC}_{s} \cos (φ (Ls))

基于类似假定并使用类似技术，可从以下计算用于双耳信号对的交叉乘积L_BR_B ^*的期望值

< L_{B} R_{B}^{*} > = σ_{c}^{2} P_{l} (C) P_{r} (C) ρ (C) \exp (jφ (C)) + . . .

σ_{lf}^{2} P_{l} (Lf) P_{r} (Lf) ρ (Lf) \exp (jφ (Lf)) + . . .

σ_{rf}^{2} P_{l} (Rf) P_{r} (Rf) ρ (Rf) \exp (jφ (Rf)) + . . .

σ_{Ls}^{2} P_{l} (Ls) P_{r} (Ls) ρ (Ls) \exp (jφ (Ls)) + . . .

σ_{rs}^{2} P_{l} (Rs) P_{r} (Rs) ρ (Rs) \exp (jφ (Rs)) + . . .

P_{l} (Lf) P_{r} (Rf) σ_{lf} σ_{rf} {ICC}_{f} + . . .

P_{l} (Ls) P_{r} (Rs) σ_{ls} σ_{rs} {ICC}_{s} + . . .

P_{l} (Rs) P_{r} (Ls) σ_{ls} σ_{rs} {ICC}_{s} ρ (Ls) ρ (Rs) \exp (j (φ (Rs) + φ (Ls))) + . . .

P_{l} (Rf) P_{r} (Lf) σ_{lf} σ_{rf} {ICC}_{f} ρ (Lf) ρ (Rf) \exp (j (φ (Rf) + φ (Lf)))

该双耳输出的相干性(ICC_B)由下式给出：

{ICC}_{B} = \frac{| < L_{B} R_{B}^{*} > |}{σ_{L} σ_{R}},

基于该双耳输出信号的已决定相干性ICC_B(并忽略所述定位线索与回响特性)，接着可使用如在Breebaatr，J.、van de Par，S.、Kohlrausch，A.、Schuijers，E.″Parametric coding of stereo audio(立体声音频的参数编码)″，EURASIP J.Applied Signal Proc.9(EURASIP应用信号处理期刊9)，第1305至1322页(2005)所指定的传统方法来计算重新安整ICC_B参数所要求的所述矩阵系数。

h₁₁＝cos(α+β)

h₁₂＝sin(α+β)

h₂₁＝cos(-α+β)

h₂₂＝sin(-α+β)

其中

α＝0.5arccos(ICC_B)

β = \arctan (\frac{σ_{R} - σ_{L}}{σ_{R} + σ_{L}} \tan (α))

在下文中，将说明通过系数处理器419来产生所述滤波器系数。

首先，产生对应于该双声道音频信号内不同声源的双耳感知转移函数的脉冲响应的子带表示。

具体而言，通过在图4的说明中以上所概述的滤波器转换器方法将所述HRTF(或BRIR)转换至该QMF域，分别导致用于左耳及右耳脉冲响应的QMF域表示H_L，X ^n，k、H_R，X ^n，k。在该表示中，X表示源通道(X＝Lf、Rf、C、Ls、Rs)，R与L分别表示左及右双耳通道，n为变换区块数目而k表示子带。

系数处理器419接着继续确定滤波器系数作为子带表示H_L，X ^n，k、H_R，X ^n，k相应系数的加权组合。具体而言，用于FIR滤波器415、417的滤波器系数H_L，K ^n，k、H_R，X ^n，k由下式给出：

H_{L, M}^{n, k} = g_{L}^{k} \cdot (t_{Lf}^{k} H_{L, Lf}^{n, k} + t_{Ls}^{k} H_{L, Ls}^{n, k} + t_{Rf}^{k} H_{L, Rf}^{n, k} + t_{Rs}^{k} H_{L, Rs}^{n, k} + t_{C}^{k} H_{L, C}^{n, k}),

H_{R, M}^{n, k} = g_{R}^{k} \cdot (s_{Lf}^{k} H_{R, Lf}^{n, k} + s_{Ls}^{k} H_{R, Ls}^{n, k} + s_{Rf}^{k} H_{R, Rf}^{n, k} + s_{Rs}^{k} H_{R, Rs}^{n, k} + s_{C}^{k} H_{L, C}^{n, k}) .

系数处理器419计算权重t^k与s^k，如下文中所说明。

首先，选取线性组合权重的模数，使得：

| t_{X}^{k} | = σ_{X}^{k},

| s_{X}^{k} | = σ_{X}^{k}

因而，选择对应于一给定空间通道的一给定HRTF的权重，以对应于该通道的功率电平。

其次，如下计算缩放增益g_Y ^k。

假使对于输出通道Y＝L、R，用于混成频带k的正规化目标双耳输出功率由(σ_Y ^k)²来表示，并假使滤波器H_Y，M ^n，k 的功率增益由(σ_Y，M ^k)²来表示，然后调整缩放增益g_Y ^k以获得

σ_{Y, M}^{k} = σ_{Y}^{k} .

此处应注意，若此可使用在每一参数频带内恒定的缩放增益来近似地获得，则缩放可从滤波器形变中省略并通过修改先前区段的矩阵元素成以下来加以执行

h₁₁＝g_Lcos(α+β)

h₁₂＝g_Lsin(α+β)

h₂₁＝g_Rcos(-α+β)

h₂₂＝g_Rsin(-α+β)。

为了使此点保持真实，要求未缩放的加权组合

t_Lf ^kH_L，Lf ^n，k+t_Ls ^kH_L，Ls ^n，k+t_Rf ^kH_L，Rf ^n，k+t_Rs ^kH_L，Rs ^n，k+t_C ^kH_L，C ^n，k

s_Lf ^kH_R，Lf ^n，k+s_Ls ^kH_R，Ls ^n，k+s_Rf ^kH_R，Rf ^n，k+s_Rs ^kH_R，Rs ^n，k+s_C ^kH_R，C ^n，k

具有在参数频带内部变动不大的功率增益。一般而言，此类变动的一主要贡献因素由HRTF响应之间的主要延迟差异所引起。在本发明的一些具体实施例中，在时域内的一预对齐被执行用于支配HRTF滤波器并可应用简单实数组合权重：

t_{X}^{k} = s_{X}^{k} = σ_{X}^{k} .

在本发明的其他具体实施例中，通过引入复值权重来在主要的HRTF对上适应性抵销延迟差异。在前/后对的情况下，实际上是使用下列权重：

t_{Lf}^{k} = σ_{Lf}^{k} \exp [- j φ_{Lf, Ls}^{L, k} \frac{{(σ_{Ls}^{k})}^{2}}{{(σ_{Lf}^{k})}^{2} + {(σ_{Ls}^{k})}^{2}}],

t_{Ls}^{k} = σ_{Ls}^{k} \exp [j φ_{Lf, Ls}^{L, k} \frac{{(σ_{Lf}^{k})}^{2}}{{(σ_{Lf}^{k})}^{2} + {(σ_{Ls}^{k})}^{2}}],

且对于X＝C，Rf，Rs，

t_{X}^{k} = σ_{X}^{k} .

s_{Rf}^{k} = σ_{Rf}^{k} \exp [- j φ_{Rf, Rs}^{R, k} \frac{{(σ_{Rs}^{k})}^{2}}{{(σ_{Rf}^{k})}^{2} + {(σ_{Rs}^{k})}^{2}}],

s_{Rs}^{k} = σ_{Rs}^{k} \exp [j φ_{Rf, Rs}^{R, k} \frac{{(σ_{Rf}^{k})}^{2}}{{(σ_{Rf}^{k})}^{2} + {(σ_{Rs}^{k})}^{2}}],

且对于X＝C，Lf，Ls，

s_{X}^{k} = σ_{X}^{k} .

此处，φ_Xf，Xs ^X，k为在所述子带滤波器H_X，Xf ^n，k与H_X，Xs ^n，k之间的复互相关的展开相位角。此互相关性为定义为

{(CIC)}_{k} = \frac{\underset{n}{Σ} (H_{X, Xf}^{n, k}) {(H_{X, Xs}^{n, k})}^{*}}{{(\underset{n}{Σ} {| H_{X, Xf}^{n, k} |}^{2})}^{1 / 2} {(\underset{n}{Σ} {| H_{X, Xs}^{n, k} |}^{2})}^{1 / 2}},

其中星号表示共轭复数。

相位展开的目的是使用选取一相位角直至数倍2π的自由度以便获得一相位曲线，其作为子带指数k的一函数尽可能缓慢地变动。

在以上组合公式中相位角参数的作用是双重的。首先，其在重叠之前实现前/后滤波器的一延迟补偿，该重叠引起一组合响应，该组合响应模仿对应于在前及后扬声器之间的一源位置的一主要延迟时间。其次，其减少未缩放的滤波器的功率增益的变动性。

若在一参数频带或一混成频带内的组合滤波器H_L，M、H_R，M的相干性ICC_M小于1，则该双耳输出可比预期的变得更少相干，由于其遵循关系

ICC_B，Out＝ICC_M·ICC_B。

依据本发明的一些具体实施例此问题的解决方案为使用一经修改的ICC_B值用于矩阵元素定义，该值为定义为

{ICC}_{B}^{'} = \min {1, \frac{{ICC}_{B}}{{ICC}_{M}}} .

图5描述了依据本发明的一些具体实施例的一种产生一双声道音频信号的方法的一范例的一流程图。

该方法开始于步骤501，该步骤中接收音频数据，音频数据包含作为一N通道音频信号的降混的一音频M通道音频信号与用于升混该M通道音频信号至该N通道音频信号的空间参数数据。

步骤501后紧随步骤503，其中响应一双耳感知转移函数将所述空间参数数据的所述空间参数转换成第一双耳参数。

步骤503后紧随步骤505，其中响应所述第一双耳参数将该M通道音频信号转换成一第一立体声信号。

步骤505后紧随步骤507，其中响应该双耳感知转移函数为一立体声滤波器决定滤波器系数。

步骤507后紧随步骤509，其中通过在该立体声滤波器中滤波该第一立体声信号来产生该双声道音频信号。

图4的装置可能(例如)用于一传输系统。图6描述了依据本发明的一些具体实施例的一种用于传输一音频信号的传输系统的一范例。该传输系统包含一发射器601，发射器601通过一网络605来连接至一接收器603，该网络具体可能为互联网。

在该特定范例中，发射器601为一信号记录器件而接收器603为一信号播放器器件，但应了解在其他具体实施例中，一发射器与接收器可用于其他应用并用于其他用途。例如，发射器601和/或接收器603可能为一转码功能性的部分并可(例如)提供连接至其他信号源或目标的接口。具体而言，接收器603可接收一编码环绕音频信号并产生模拟该环绕音频信号的一编码双耳信号。接着可将该编码双耳信号分布至其他信号源。

在其中一支持信号记录功能的特定范例中，发射器601包含一数字转换器607，其接收一模拟多通道(环绕)信号，该信号为通过采样并模数转换来转换成一数字PCM(脉冲编码调制)信号。

数字转换器607连接至图1中的依据一编码算法来编码PCM多通道信号的编码器609。在该特定范例中，编码器609将该信号编码成一MPEG编码环绕声音信号。编码器609被连接至一网络发射器611，所述网络发射器611接收该编码信号并连接至网际网络605。该网络发射器可透过网际网络605来发射该编码信号至接收器603。

接收器603包含一网络接收器613，所述网络接收器613连接至网际网络605并配置成从发射器601接收该编码信号。

网络接收器613被连接至一双耳解码器615，本范例中的双耳解码器为图4的器件。

在其中一支持信号播放功能的特定范例中，接收器603进一步包含一信号播放器617，其从双耳解码器615接收双声道音频信号并向使用者表现此信号。具体而言，信号播放器117可能在必要时包含一数模转换器、放大器及扬声器用于输出双声道音频信号至一组头戴式耳机。

应了解，为了简洁起见，以上说明已参考不同功能单元与处理器来说明本发明的具体实施例。然而，应明白，在不脱离本发明的前提下，可使用在不同功能单元或处理器之间的任何适当功能性分布。例如，由单独处理器或控制器执行的功能还可通过同一处理器或控制器来加以执行。因此，应将参考特定功能单元仅看作参考适于提供所说明功能性的构件，而不是指示一严格的逻辑或物理结构或组织。

本发明可采用任一适当形式来实施，包括硬件、软件、固件或所述中的任意组合。本发明视需要地为至少部分可在一或多个数据处理器和/或数字信号处理器上运行的电脑软件。本发明的一具体实施例的元件及组件可用任一适当方式来物理性、功能性及逻辑性地实施。事实上，功能性可实施于一单个单元、复数个单元内或作为其他功能单元的部分。如此，本发明可实施于一单个单元或可在物理和功能上分布于不同单元及处理器之间。

尽管已结合一些具体实施例来说明本发明，但其并不限于本文所提出的特定形式。而是，本发明的范畴仅受后附的申请专利范围限制。此外，尽管一特征可能看似已结合特定具体实施例来说明，但本技术领域人员应认识到，所说明具体实施例的各种特征可依据本发明加以组合。在该申请专利范围中，术语“包含”并不排除其他元件或步骤的存在。

另外，尽管已个别列出，但复数个构件、元件或方法步骤可通过(例如)一单一单元或处理器来加以实施。此外，尽管个别特征可包括在不同权利要求项中，但所述特征可能有利地组合，另外，包括在不同权利要求项中并不意味着一特征组合不可行和/或不利。而且，一权利要求项类别中包括一特征但并不暗示限于此类别，而是指示该特征适当时同样适合于其他权利要求项类别。此外，申请专利范围中特于的次序并不暗示使所述特征工作必须采用的任何特定次序，且具体地，方法权利要求项中个别步骤的次序并不暗示必须以此次序执行所述步骤。而是，可以任何适当的次序来执行所述步骤。此外，单数引用并不排除复数个。因此″一″、″一个″、″第一″、″第二″等的参考并不排除复数个。在申请专利范围中的参考符号仅供作解释范例，不应视为以任何方式限制申请专利范围的范畴。

Claims

1.一种用以产生一双声道音频信号的装置，所述装置包含：

-接收装置(401、403)，用于接收音频数据，所述音频数据包含作为一N通道音频信号的降混的一M通道音频信号以及用于升混所述M通道音频信号至所述N通道音频信号的空间参数数据；

-参数数据构件(411)，用于将这些空间参数数据的空间参数转换成第一双耳参数作为对至少一双耳感知转移函数的响应；

-转换装置(409)，用于将所述M通道音频信号转换成一第一立体声信号作为对所述第一双耳参数的响应；

-一立体声滤波器(415、417)，用于通过对第一立体声信号进行滤波来产生所述双声道音频信号；以及

-系数构件(419)，用于确定所述立体声滤波器的滤波器系数作为所述双耳感知转移函数的响应。

2.根据权利要求1所述的装置，其特征在于：所述装置进一步包含：

-变换构件(405)，用于将所述M通道音频信号从一时域变换至一子带域，且其中所述转换装置与所述立体声滤波器被配置用于分别处理该子带域的每一子带。

3.根据权利要求2所述的装置，其特征在于：所述双耳感知转移函数的一脉冲响应的一持续时间超过一变换更新间隔。

4.根据权利要求2所述的装置，其特征在于：所述转换装置(409)被配置以为每一子带生成立体声输出样本，其实质上为：

[\begin{matrix} L_{O} \\ R_{O} \end{matrix}] = [\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}] [\begin{matrix} L_{I} \\ R_{I} \end{matrix}],

其中L_I与R_I的至少一者为在所述子带中所述M通道音频信号的一音频通道的一样本，而所述转换装置被配置以确定矩阵系数h_xy来响应所述空间参数数据与所述至少一双耳感知转移函数。

5.根据权利要求2所述的装置，其特征在于：所述系数构件(419)包含：

-提供构件，用于提供对应于所述N通道信号中不同声源的复数个双耳感知转移函数的脉冲响应的一子带表示；

-决定构件，用于通过所述子带表示的对应系数的一加权组合来决定所述滤波器系数；以及

-决定构件，用于决定用于所述子带表示的权重用于所述加权组合来作为对所述空间参数数据的响应。

6.根据权利要求1所述的装置，其特征在于：所述第一双耳参数包含相干性参数，用于指示在所述双声道音频信号的通道的间的一相关性。

7.根据权利要求1所述的装置，其特征在于：所述第一双耳参数不包含指示所述N通道信号的任一声源的一位置的定位参数以及指示所述双声道音频信号的任一声音分量的一回响的回响参数的至少一者。

8.根据权利要求1所述的装置，其特征在于：所述系数构件(419)被配置以确定所述滤波器系数，以反映用于所述双声道音频信号的定位线索与回响线索的至少一者。

9.根据权利要求1所述的装置，其特征在于：所述音频M通道音频信号为一单声音频信号，而所述转换装置(407、409)被配置用于从所述单声音频信号产生一解相关信号并通过应用于一立体声信号的样本的一矩阵乘法来产生第一立体声信号，所述立体声信号包含所述解相关信号与所述单声音频信号。

10.一种产生一双声道音频信号的方法，其特征在于：所述方法包含

-接收(501)音频数据，所述音频数据包含作为一N通道音频信号的降混的一M通道音频信号与用于升混所述M通道音频信号至所述N通道音频信号的空间参数数据；

-将所述空间参数数据的空间参数转换(503)成第一双耳参数作为对至少一双耳感知转移函数的响应；

-将所述M通道音频信号转换(505)成一第一立体声信号作为对所述第一双耳参数的响应；

-通过滤波该第一立体声信号来产生(509)所述双声道音频信号；以及

-决定(507)用于该立体声滤波器的滤波器系数作为对至少一双耳感知转移函数的响应。

11.一种用以发射一双声道音频信号的发射器，其特征在于：所述发射器包含：

-接收装置(401、403)，用于接收音频数据，所述音频数据包含作为一N通道音频信号的降混的一M通道音频信号与用于升混所述M通道音频信号至所述N通道音频信号的空间参数数据；

-参数数据构件(411)，用于将所述空间参数数据的空间参数转换成第一双耳参数作为对至少一双耳感知转移函数的响应；

-转换装置(409)，用于将该M通道音频信号转换成一第一立体声信号作为对所述第一双耳参数响应；

-一立体声滤波器(415、417)，用于通过滤波该第一立体声信号来产生该双声道音频信号；

-系数构件(419)，用于确定该立体声滤波器的滤波器系数作为对该双耳感知转移函数的响应；以及

-发射构件，用于发射所述双声道音频信号。

12.一种用以发射一双声道音频信号的传输系统，其特征在于：

所述传输系统包括

一发射器，其包含：

-接收装置(401、403)，用于接收音频数据，所述音频数据包含作为一N通道音频信号的降混的一M通道音频信号与用于升混所述M通道音频信号至所述N通道音频信号的空间参数数据，

-参数数据构件(411)，用于将这些空间参数数据的空间参数转换成第一双耳参数作为对至少一双耳感知转移函数的响应，

-转换装置(409)，用于将所述M通道音频信号转换成一第一立体声信号作为对所述第一双耳参数的响应，

-一立体声滤波器(415、417)，用于通过滤波所述第一立体声信号来产生所述双声道音频信号，

-系数构件(419)，用于确定所述立体声滤波器的滤波器系数作为对所述双耳感知转移函数的响应，以及

-发射构件，其用于发射所述双声道音频信号；以及

-一接收器，用于接收所述双声道音频信号。

13.一种用以记录一双声道音频信号的音频记录器件，其特征在于：所述音频记录器件包含：

-系数构件(419)，用于确定所述立体声滤波器的滤波器系数作为所述双耳感知转移函数的响应；以及

-记录构件，用于记录所述双声道音频信号。

14.一种发射一双声道音频信号的方法，所述方法包含：

-接收音频数据，所述音频数据包含作为一N通道音频信号的降混的一M通道音频信号与用于升混所述M通道音频信号至所述N通道音频信号的空间参数数据；

-将这些空间参数数据的空间参数转换成第一双耳参数作为对至少一双耳感知转移函数的响应；

-响应所述第一双耳参数将所述M通道音频信号转换成一第一立体声信号；

-通过在一立体声滤波器内滤波所述第一立体声信号来产生所述双声道音频信号；

-响应所述双耳感知转移函数来确定用于所述立体声滤波器的滤波器系数；以及

-发射所述双声道音频信号。

15.一种发射并接收一双声道音频信号的方法，所述方法包含：

一发射器执行以下步骤：

-接收音频数据，所述音频数据包含作为一N通道音频信号的降混的一M通道音频信号与用于升混所述M通道音频信号至所述N通道音频信号的空间参数数据，

-将所述空间参数数据的空间参数转换成第一双耳参数作为对至少一双耳感知转移函数的响应，

-将所述M通道音频信号转换成一第一立体声信号作为对所述第一立体声参数的响应，

-通过在一立体声滤波器内滤波所述第一立体声信号来产生所述双声道音频信号，

-确定用于所述立体声滤波器的滤波器系数作为对所述双耳感知转移函数的响应，以及

-发射所述双声道音频信号；以及

-一接收器，执行接收所述双声道音频信号的步骤。

16.一种电脑程序产品，其特征在于：所述电脑程序产品用于执行权利要求14和15中任意一项的方法。