CN108966111B

CN108966111B - 音频信号处理方法和装置

Info

Publication number: CN108966111B
Application number: CN201810782770.4A
Authority: CN
Inventors: 李泰圭; 吴贤午
Original assignee: Wilus Institute of Standards and Technology Inc; Gcoa Co Ltd
Current assignee: Wilus Institute of Standards and Technology Inc; Gcoa Co Ltd
Priority date: 2014-04-02
Filing date: 2015-04-02
Publication date: 2021-10-26
Anticipated expiration: 2035-04-02
Also published as: CN106165452B; US10469978B2; US20170188174A1; KR20160121549A; CN106165452A; KR20160125412A; US20180091927A1; US20170188175A1; US20190090079A1; EP3399776B1; KR102216801B1; WO2015152663A3; WO2015152665A1; EP3399776A1; EP3128766A2; KR101856540B1; KR101856127B1; US10129685B2; CN106165454A; CN108307272B

Abstract

本发明涉及用于处理音频信号的方法和装置。所述方法包括：接收输入音频信号；获得每个子带的滤波器系数的块长度信息和块数目信息；接收用于具有根据所述块长度信息的长度的每个块中的子带索引、双耳滤波器对索引、所述块数目中的块索引、以及时隙索引中的每个的滤波器系数，其中，基于相应的子带的滤波器阶数确定用于相同子带索引和相同双耳滤波器对索引的滤波器系数的总长度；和通过使用与其对应的所接收的滤波器系数对所述输入音频信号的每个子带信号进行滤波。

Description

音频信号处理方法和装置

分案声明

本申请是申请日为2015年4月2日、发明名称为“音频信号处理方法和设备”、申请号为：201580018973.0的中国发明专利申请的分案申请。

技术领域

本发明涉及用于处理音频信号的方法和装置。

背景技术

在现有技术中，3D音频统称为一系列信号处理、传输、编码和再现技术，该一系列信号处理、传输、编码和再现技术用于通过向在环绕音频中提供的水平面(2D)上的声音场景提供与高度方向对应的另一轴，来提供出现在3D空间中的声音。具体地，为了提供3D音频，应当使用比相关技术更多的扬声器，或者以其他方式，尽管使用了比相关技术更少的扬声器，但是需要在不存在扬声器的虚拟位置处产生声音图像的渲染技术。

预计3D音频将是与超高清(UHD)TV对应的音频解决方案，并且预计3D音频将应用于各种领域，除了在演进为高品质的信息娱乐空间的车辆中的声音之外，还包括影院音响、个人3DTV、平板装置、智能手机和云游戏。

同时，作为提供给3D音频的声源的类型，可以存在基于声道的信号和基于对象的信号。另外，可以存在基于声道的信号和基于对象的信号被混合的声源，并且因此，用户可以具有新型的收听体验。

发明内容

技术问题

本发明致力于实现一种滤波过程，该滤波过程在最小化在双耳渲染中的音质损失的同时，要求具有非常小的计算量的高计算量，以便在以立体声再现多声道或者多对象信号时保持原始信号的沉浸感。

本发明还致力于在输入信号中包含失真时通过高质量滤波器来最小化失真传播。

本发明还致力于实现具有非常大的长度的有限脉冲响应(FIR)滤波器作为具有较小长度的滤波器。

本发明还致力于在使用缩小FIR的滤波器执行滤波时通过省略的滤波器系数来最小化截断部分(destructed part)的失真。

本发明还致力于提供声道相关双耳渲染方法和可调整双耳渲染方法。

技术解决方案

为了实现这些目的，本发明提供如下用于处理音频信号的方法和装置。

本发明的示例性实施例提供一种用于处理音频信号的方法，包括：接收包括多声道信号和多对象信号中的至少一个的输入音频信号；接收用于所述输入音频信号的双耳滤波的滤波器集合的类型信息，滤波器集合的类型是有限脉冲响应(FIR)滤波器、频域中的参数化滤波器和时域中的参数化滤波器中的一个；基于所述类型信息来接收用于双耳滤波的滤波器信息；以及通过使用所接收的滤波器信息，来执行用于所述输入音频信号的双耳滤波，其中，当所述类型信息指示频域中的参数化滤波器时，在接收滤波器信息中，接收具有对频域的每个子带确定的长度的子带滤波器系数，并且在执行双耳滤波中，通过使用与之对应的子带滤波器系数，来滤波所述输入音频信号的每个子带信号。

本发明的另一示例性实施例提供一种用于处理音频信号的装置，该装置用于执行包括多声道信号和多对象信号中的至少一个的输入音频信号的双耳渲染，其中，用于处理音频信号的装置接收用于输入音频信号的双耳滤波的滤波器集合的类型信息，滤波器集合的类型是有限脉冲响应(FIR)滤波器、频域中的参数化滤波器和时域中的参数化滤波器中的一个；基于所述类型信息来接收用于双耳滤波的滤波器信息，并且通过使用所接收的滤波器信息来执行用于输入音频信号的双耳滤波，并且其中，当类型信息指示频域中的参数化滤波器时，用于处理音频信号的装置接收具有对频域的每个子带确定的长度的子带滤波器系数，并且通过使用与之对应的子带滤波器系数，来滤波所述输入音频信号的每个子带信号。

每个子带滤波器系数的长度可以基于从原型滤波器系数获得的相应子带的混响时间信息来确定，并且从相同原型滤波器系数获得的至少一个子带滤波器系数的长度可以不同于另一子带滤波器系数的长度。

该方法可以进一步包括：当类型信息指示频域中的参数化滤波器时，接收有关用于执行双耳渲染的频带的数目的信息和有关用于执行卷积的频带的数目的信息；接收用于相对于具有用于执行卷积的频带的高频子带组的每个子带信号执行抽头延迟线滤波的参数作为边界；以及通过使用所接收的参数来对高频率组的每个子带信号执行抽头延迟线滤波。

在这种情况下，可以基于在用于执行双耳渲染的频带的数目和用于执行卷积的频带的数目之间的差，来确定执行抽头延迟线滤波的高频子带组的子带的数目。

参数可以包括从对应于高频率组的每个子带信号的子带滤波器系数中提取的延迟信息和对应于所述延迟信息的增益信息。

当类型信息指示FIR滤波器时，接收滤波器信息的步骤接收对应于输入音频信号的每个子带信号的原型滤波器系数。

本发明的又一示例性实施例提供一种用于处理音频信号的方法，包括：接收包括多声道信号的输入音频信号；接收对频域的每个子带变化地确定的滤波器阶数信息；基于用于输入音频信号的双耳滤波的滤波器系数的每个子带的快速傅立叶变换长度来接收用于每个子带的块长度信息；接收对应于每相应子带的块的输入音频信号的每个子带和每个声道的频域可变阶数滤波(VOFF)系数，VOFF系数的长度的总和对应于基于相应子带的滤波器阶数信息确定的同一子带和同一声道；以及通过使用所接收的VOFF系数来滤波输入音频信号的每个子带信号以生成双耳输出信号。

本发明的又一示例性实施例提供一种用于处理音频信号的装置，该装置用于执行包括多声道信号的输入音频信号的双耳渲染，该装置包括：快速卷积单元，被配置为执行用于输入音频信号的直达声部和早期反射声部的渲染，其中，快速卷积单元接收输入音频信号，接收对频域的每个子带变化地确定的滤波器阶数信息，基于用于输入音频信号的双耳滤波的滤波器系数的每个子带的快速傅立叶变换长度来接收用于每个子带的块长度信息，接收对应于每相应子带的块的输入音频信号的每个子带和每个声道的频域可变阶数滤波(VOFF)系数，VOFF系数的长度的总和对应于基于相应子带的滤波器阶数信息确定的同一子带和同一声道；以及通过使用所接收的VOFF系数来滤波输入音频信号的每个子带信号以生成双耳输出信号。

在这种情况下，滤波器阶数可以基于从原型滤波器系数获得的相应子带的混响时间信息来确定，并且从同一原型滤波器系数获得的至少一个子带的滤波器阶数可以不同于另一子带的滤波器阶数。

每块的VOFF系数的长度可以被确定为具有作为索引值的相应子带的块长度信息的2的幂的值。

生成双耳输出信号可以包括将子带信号的每个帧划分成基于预定的块长度确定的子帧单元，并且执行在划分的子帧和VOFF系数之间的快速卷积。

在这种情况下，子帧的长度可以被确定为预定块长度的一半大的值，并且划分的子帧的数目可以基于通过将帧的总长除以子帧的长度获得的值来确定。

有益效果

根据本发明的示例性实施例，当执行对多声道或者多对象信号的双耳渲染时，可以显著减少计算量，同时最小化音质损失。

另外，能够对多声道或者多对象音频信号实现具有高音质的双耳渲染，而在现有技术的低功率装置中已经不可能进行这种实时处理。

本发明提供了一种以小的计算量来有效地执行对包括音频信号的各种类型的多媒体信号进行滤波的方法。

根据本发明，提供了包括声道相关双耳渲染、可调整双耳渲染等的方法以控制双耳渲染的质量和计算量。

附图说明

图1是示出根据本发明的示例性实施例的音频信号解码器的框图。

图2是示出根据本发明的示例性实施例的双耳渲染器的每个组件的框图。

图3是示出根据本发明的示例性实施例的用于生成用于双耳渲染的滤波器的方法的图。

图4是示出根据本发明的示例性实施例的具体QTDL处理的图。

图5是示出本发明的实施例的BRIR参数化单元的各个组件的框图。

图6是示出本发明的实施例的VOFF参数化单元的各个组件的框图。

图7是图示本发明的实施例的VOFF参数化生成单元的具体配置的框图。

图8是图示本发明的实施例的QTDL参数化单元的各个组件的框图。

图9是图示用于生成用于逐块快速卷积的VOFF系数的方法的示例性实施例的图。

图10是图示根据本发明的快速卷积单元中的音频信号处理的过程的示例性实施例的图。

图11至15是图示根据本发明的用于实现用于处理音频信号的方法的语法的示例性实施例的图。

图16是图示根据本发明的变形示例性实施例的用于确定滤波器阶数的方法的图。

图17和图18是示出用于实现本发明的变形示例性实施例的功能的语法的图。

具体实施方式

考虑到本发明中的功能，在本说明书中使用的术语尽量采用目前广泛使用的通用术语，但是，可以根据本领域的技术人员的意图、习惯、或者新技术的出现来改变这些术语。此外，在特定情况下，可以使用申请人任意选择的术语，并且在这种情况下，在本发明的对应描述部分中，将公开这些术语的含义。此外，我们旨在发现应该不仅基于术语的名称，还应该基于贯穿本本说明书的术语的实质意义和内容来分析在本说明书中使用的术语。

图1是图示了根据本发明的另一示例性实施例的音频解码器的框图。本发明的音频解码器1200包括核心解码器10、渲染单元20、混合器30和后处理单元40。

首先，核心解码器10对接收到的比特流进行解码，并且将该解码的比特流传递至渲染单元20。在这种情况下，从核心解码器10输出并且被传递至渲染单元的信号可以包括扩音器声道信号411、对象信号412、SAOC声道信号414、HOA信号415和对象元数据比特流413。用于在编码器中进行编码的核心编解码器可以用于核心解码器10，并且例如，可以使用MP3、AAC、AC3或者基于联合语音和音频编码(USAC)的编解码器。

同时，接收到的比特流可以进一步包括可以标识由核心解码器10解码的信号是声道信号、对象信号还是HOA信号的标识符。此外，当解码的信号是声道信号411时，在比特流中可以进一步包括可以标识每个信号对应于多声道中的哪个声道(例如，对应于左边扬声器、对应于后方右上扬声器等)的标识符。当解码的信号是对象信号412时，可以另外获得指示将对应的信号在再现空间中哪个位置处被再现的信息，如同通过解码对象元数据比特流413所获得的对象元数据信息425a和425b。

根据本发明的示例性实施例，音频解码器执行灵活渲染以改善输出音频信号的质量。该灵活渲染可以指基于实际再现环境的扩音器配置(再现布局)或者双耳房间脉冲响应(BRIR)滤波器集合的虚拟扬声器配置(虚拟布局)来转换解码的音频信号的格式的过程。通常，在设置在实际起居室环境中的扬声器中，方位角和距离二者与标准建议的不同。因为距扬声器的收听方的高度、方向、距离等不同于根据标准建议的扬声器配置，所以当在扬声器的改变位置处再现原始信号时，可能难以提供理想的3D声音场景。为了即使在不同扬声器配置中也有效地提供内容制作者预期的声音场景，需要灵活渲染，该灵活渲染通过转换音频信号来根据在扬声器当中的位置差异校正该改变。

因此，渲染单元20通过使用再现布局信息或者虚拟布局信息来将由核心解码器10解码的信号渲染为目标输出信号。该再现布局信息可以指示目标声道的配置，其被表示为再现环境的扩音器布局信息。此外，可以基于在双耳渲染器200中使用的双耳房间脉冲响应(BRIR)滤波器集合来获得虚拟布局信息，并且可以通过与BRIR滤波器集合相对应的位置集合的子集来构成与虚拟布局相对应的位置集合。在这种情况下，虚拟布局的位置集合可以指示各个目标声道的位置信息。渲染单元20可以包括格式转换器22、对象渲染器24、OAM解码器25、SAOC解码器26和HOA解码器28。渲染单元20根据解码的信号的类型，通过使用上述配置中的至少一个来执行渲染。

格式转换器22还可以被称为声道渲染器，并且将传输的声道信号411转换成输出扬声器声道信号。即，格式转换器22执行在传输的声道配置与要再现的扬声器声道配置之间的转换。当输出扬声器声道的数目(例如，5.1声道)小于传输的声道的数目(例如，22.2声道)，或者传输的声道配置和要再现的声道配置彼此不同时，格式转换器22执行声道信号411的向下混合或者转换。根据本发明的示例性实施例，音频解码器可以通过使用在输入声道信号与输出扬声器声道信号之间的组合来生成最优向下混合矩阵，并且通过使用该矩阵来执行行下混合。此外，预渲染的对象信号可以被包括在由格式转换器22处理的声道信号411中。根据示例性实施例，在对音频信号进行解码之前，可以将至少一个对象信号预渲染和混合为声道信号。通过格式转换器22，可以将混合的对象信号与声道信号一起转换成输出扬声器声道信号。

对象渲染器24和SAOC解码器26对基于对象的音频信号执行渲染。基于对象的音频信号可以包括离散对象波形和参数对象波形。在离散对象波形的情况下，按照单声道波形向编码器提供各个对象信号，并且编码器通过使用单通道元素(SCE)来传输各个对象信号。在参数对象波形的情况下，多个对象信号被向下混合为至少一个声道信号，并且相应对象的特征和特点之间的关系被表示为空间音频对象编码(SAOC)参数。利用该核心编解码器来对对象信号进行向下混合和编码，并且在这种情况下，所生成的参数信息被一起传输至解码器。

同时，当单独的对象波形或者参数对象波形被传输至音频解码器时，可以一起传输与之相对应的压缩对象元数据。对象元数据通过以时间和空间为单位量化对象属性来指定每个对象在3D空间中的位置和增益值。渲染单元20的OAM解码器25接收压缩对象元数据比特流413，并且对接收到的压缩对象元数据比特流413进行解码，并且将解码的对象元数据比特流413传递至对象渲染器24和/或SAOC解码器26。

对象渲染器24通过使用对象元数据信息425a来根据给定的再现格式对每个对象信号412进行渲染。在这种情况下，可以基于对象元数据信息425a来将每个对象信号412渲染为特定输出声道。SAOC解码器26从SAOC声道信号414和参数信息来恢复对象/声道信号。此外，SAOC解码器26可以基于再现布局信息和对象元数据信息425b生成输出音频信号。即，SAOC解码器26通过使用SAOC声道信号414来生成解码的对象信号，并且执行将解码的对象信号映射成目标输出信号的渲染。如上所述，对象渲染器24和SAOC解码器26可以将对象信号渲染为声道信号。

HOA解码器28接收高阶立体混响(HOA)信号415和HOA附加信息，并且对该HOA信号和HOA附加信息进行解码。HOA解码器28通过独立等式来对声道信号或者对象信号建模以生成声音场景。当在所生成的声音场景中选择扬声器的空间位置时，可以将声道信号或者对象信号渲染为扬声器声道信号。

同时，虽然在图1中未图示，但是当音频信号被传递至渲染单元20的各个组件时，动态范围控制(DRC)可以作为预处理程序被执行。DRC将再现的音频信号的范围限制为预定水平，并且将小于预定阈值的声音调大，而将大于预定阈值的声音调小。

将由渲染单元20处理的基于声道的音频信号和基于对象的音频信号传递至混合器30。混合器30混合由渲染单元20的各个子单元渲染的部分信号以生成混合器输出信号。当部分信号与在再现/虚拟布局上的相同的位置匹配时，该部分信号彼此相加，并且当该部分信号与不相同的位置匹配时，该部分信号被混合以输出分别对应于独立位置的信号。混合器30可以确定在彼此相加的部分信号中是否发生频偏干扰，并且进一步执行用于防止该频偏干扰的附加过程。此外，混合器30调整基于声道的波形和渲染的对象波形的延迟，并且以样本为单位汇聚所调整的波形。由混合器30汇聚的音频信号被传递至后处理单元40。

后处理单元40包括扬声器渲染器100和双耳渲染器200。扬声器渲染器100执行用于输出从混合器30传递的多声道和/或多对象音频信号的后处理。后处理可以包括动态范围控制(DRC)、响度标准化(LN)和峰值限制器(PL)。将扬声器渲染器100的输出信号传递至多声道音频系统的扩音器以便输出。

双耳渲染器200生成多声道和/或多对象音频信号的双耳向下混合信号。双耳向下混合信号是允许用位于3D中的虚拟声源来表示每个输入声道/对象信号的2-声道音频信号。双耳渲染器200可以接收供应到扬声器渲染器100的音频信号作为输入信号。双耳渲染可以基于双耳房间脉冲响应(BRIR)来执行并且在时间域或者QMF域上执行。根据示例性实施例，作为双耳渲染的后处理程序，可以附加地执行动态范围控制(DRC)、响度规范化(LN)和峰值限制器(PL)。可以将双耳渲染器200的输出信号传递和输出到诸如头戴耳机、耳机等的2-声道音频输出装置。

图2是图示了根据本发明的示例性实施例的双耳渲染器的每个组件的框图。如在图2中所图示的，根据本发明的示例性实施例的双耳渲染器200可以包括BRIR参数化单元300、快速卷积单元230、后期混响生成单元240、QTDL处理单元250以及混合器&组合器260。

双耳渲染器200通过执行对各种类型的输入信号的双耳渲染来生成3D音频耳机信号(即，3D音频2-声道信号)。在这种情况下，输入信号可以是包括声道信号(即，扩音器声道信号)、对象信号、和HOA系数信号中的至少一个的音频信号。根据本发明的另一示例性实施例，当双耳渲染器200包括特定解码器时，输入信号可以是前面提到的音频信号的编码比特流。双耳渲染将解码的输入信号转换成双耳向下混合信号，以使得能够在通过耳机收听对应的双耳向下混合信号时体验环绕声。

根据本发明的示例性实施例的双耳渲染器200可以通过使用双耳房间脉冲响应(BRIR)滤波器来执行双耳渲染。当使用BRIR的双耳渲染被一般化时，双耳渲染是用于获取用于具有M个声道的多声道输入信号的O输出信号的M-至-O处理。在这种过程期间，双耳滤波可以被视为使用与每个输入声道和每个输出声道对应的滤波器系数的滤波。为此，可以使用表示从每个声道信号的扬声器位置到左右耳的位置的传递函数的各种滤波器集合。在一般的收听室中测量的传递函数，即，在传递函数之中的混响空间，被称为双耳房间脉冲响应(BRIR)。相反，为了不受再现空间的影响在消声室中测量的传递函数被称为头部相关脉冲响应(HRIR)，并且其传递函数被称为头部相关传递函数(HRTF)。因此，与HRTF不同，BBIR包含再现空闲信息以及方向信息。根据示例性实施例，可以通过使用HRTF和人工混响器来替代BRIR。在本说明书中，对使用BRIR的双耳渲染进行了描述，但是本发明不限于此，并且本发明甚至可以通过类似或者对应的方法，适用于使用包括HRIR和HRIF的各种类型的FIR滤波器的双耳渲染。此外，本发明可以适用于对输入信号的各种形式的滤波以及对音频信号的各种形式的双耳渲染。

在本发明中，从狭义上讲，用于处理音频信号的设备可以指示在图2中图示的双耳渲染器200或者双耳渲染单元220。然而，在本发明中，从广义上讲，用于处理音频信号的设备可以指示包括双耳渲染器的图1的音频信号解码器。此外，在下文中，在本说明书中，将主要对多声道输入信号的示例性实施例进行描述，但是除非另有描述，否则声道、多声道和多声道输入信号可以用作分别包括对象、多对象和多对象输入信号的概念。此外，多声道输入信号还可以用作包括HOA解码和渲染的信号的概念。

根据本发明的示例性实施例，双耳渲染器200可以对在QMF域中执行对输入信号的双耳渲染。即，双耳渲染器200可以接收QMF域的多声道(N个声道)的信号，并且通过使用QMF域的BRIR子带滤波器来执行对该多声道的信号的双耳渲染。当通过OMF分析滤波器集合的第i个声道的第k个子带信号用x_k,i(l)表示并且在子带域中的时间索引由l表示时，可以通过下面给出的等式来表示在QMF域中的双耳渲染。

[等式1]

此处，m是L(左)或者R(右)，并且

是通过将时间域BRIR滤波器转换成OMF域的子带滤波器来获得的。

即，可以通过将QMF域的声道信号或者对象信号划分成多个子带信号并且利用与之对应的BRIR子带滤波器对各个子带信号进行卷积的方法来执行双耳渲染，并且此后，对利用BRIR子带滤波器卷积的各个子带信号进行加总。

BRIR参数化单元300转换并编辑用于在QMF域中的双耳渲染的BRIR滤波器系数，并且生成各种参数。首先，BRIR参数化单元300接收用于多声道或者多对象的时间域BRIR滤波器系数，并且将接收到的时间域BRIR滤波器系数转换成QMF域BRIR滤波器系数。在这种情况下，QMF域BRIR滤波器系数分别包括与多个频带相对应的多个子带滤波器系数。在本发明中，子带滤波器滤波器系数指示QMF-转换的子带域的每个BRIR滤波器系数。在本说明书中，可以将子带滤波器系数指定为BRIR子带滤波器系数。BRIR参数化单元300可以编辑QMF域的多个BRIR子带滤波器系数中的每一个，并且将所编辑的子带滤波器系数传递至快速卷积单元230等。根据本发明的示例性实施例，可以包括BRIR参数化单元300，作为双耳渲染器220的组件，或者以其他方式作为独立设备被提供。根据示例性实施例，包括除了BRIR参数化单元300的快速卷积单元230、后期混响生成单元240、QTDL处理单元250以及混合器&组合器260的组件可以归类为双耳渲染单元220。

根据示例性实施例，BRIR参数化单元300可以接收与虚拟再现空间的至少一个位置相对应的BRIR滤波器系数作为输入。虚拟再现空间的每个位置可以与多声道系统的每个扬声器位置相对应。根据示例性实施例，由BRIR参数化单元300接收的BRIR滤波器系数中的每一个可以与双耳渲染器200的输入信号中的每个声道或者每个对象直接匹配。相反，根据本发明的另一示例性实施例，接收到的BRIR滤波器系数中的每一个可以具有独立于双耳渲染器200的输入信号的配置。即，由BRIR参数化单元300接收的BRIR滤波器系数中的至少一部分可以与双耳渲染器200的输入信号不直接匹配，并且接收到的BRIR滤波器系数的数目可以小于或者大于输入信号的声道和/或对象的总数。

BRIR参数化单元300还可以接收控制参数信息，并且基于接收到的控制参数信息来生成用于双耳渲染的参数。如在下面描述的示例性实施例中所描述的，控制参数信息可以包括复杂度-质量控制信息等，并且可以用作用于BRIR参数化单元300的各种参数化过程的阈值。BRIR参数化单元300基于输入值来生成双耳渲染参数，并且将所生成的双耳渲染参数传递至双耳渲染单元220。当要改变输入BRIR滤波器系数或者控制参数信息时，BRIR参数化单元300可以重新计算双耳渲染参数，并且将重新计算的双耳渲染参数传递至双耳渲染单元。

根据本发明的示例性实施例，BRIR参数化单元300转换并编辑与双耳渲染器200的输入信号的每个声道或者每个对象相对应的BRIR滤波器系数，以将所转换和编辑的BRIR滤波器系数传递至双耳渲染单元220。对应的BRIR滤波器系数可以是从用于每个声道或者每个对象的BRIR滤波器集合中选择的匹配BRIR或者回退BRIR。可以通过针对每个声道或者每个对象的BRIR滤波器系数是否存在于虚拟再现空间中来确定BRIR匹配。在这种情况下，可以从用信号通知声道布置的输入参数获取每个声道(或者对象)的位置信息。当存在针对输入信号的相应声道或者相应对象的位置中的至少一个的BRIR滤波器系数时，BRIR滤波器系数可以是输入信号的匹配BRIR。然而，当不存在针对特定声道或者对象的位置的BRIR滤波器系数时，BRIR参数化单元300可以提供针对与对应的声道或者对象最相似的位置的BRIR滤波器系数，作为用于对应声道或者对象的回退BRIR。

首先，当在BRIR滤波器集合中存在具有在距期望位置(特定声道或对象)的预定范围内的高度和方位偏差的BRIR滤波器系数时，可以选择对应的BRIR滤波器系数。换言之，可以选择具有与期望位置相同的高度和距期望位置方位偏差在+/-20的BRIR滤波器系数。当不存在与之对应的BRIR滤波器系数时，可以选择BRIR滤波器集合中的具有距期望的位置的最小几何距离的BRIR滤波器系数。即，可以选择最小化在对应的BRIR的位置与期望位置之间的几何距离的BRIR滤波器系数。此处，BRIR的位置表示与相关BRIR滤波器系数相对应的扬声器的位置。此外，两个位置之间的几何距离可以被定义为通过汇聚两个位置之间的高度偏差的绝对值和方位偏差的绝对值所获得的值。同时，根据示例性实施例，通过用于内插BRIR滤波器系数的方法，BRIR滤波器集合的位置可以与期望位置匹配。在这种情况下，内插的BRIR滤波器系数可以被视为BRIR滤波器集合的一部分。即，在这种情况下，可以实现BRIR滤波器系数始终存在于期望位置处。

可以通过单独的矢量信息m_conv来传递对应于输入信号的每个声道或每个对象的BRIR滤波器系数。矢量信息m_conv指示在BRIR滤波器集合中的对应于输入信号的每个声道或对象的BRIR滤波器系数。例如，当具有与输入信号的特定声道的位置信息匹配的位置信息的BRIR滤波器系数存在于BRIR滤波器集合中时，矢量信息m_conv指示相关BRIR滤波器系数作为对应于特定声道的BRIR滤波器系数。然而，当具有与输入信号的特定声道的位置信息匹配的位置信息的BRIR滤波器系数不存在于BRIR滤波器集合中时，矢量信息m_conv指示具有与特定声道的位置信息的最小几何距离的回退BRIR滤波器系数作为对应于特定声道的BRIR滤波器系数。因此，参数化单元300可以通过使用矢量信息m_conv，来确定整个BRIR滤波器集合中的对应于输入音频信号的每个声道或每个对象的BRIR滤波器系数。

同时，根据本发明的示例性实施例，BRIR参数化单元300转换和编辑所有所接收的BRIR滤波器系数，以将所转换和编辑的BRIR滤波器系数传递到双耳渲染器200。在这种情况下，可以由双耳渲染单元220执行对应于输入信号的每个声道或每个对象的BRIR滤波器系数(替代地，所编辑的BRIR滤波器系数)的选择过程。

当BRIR参数化单元300由与双耳渲染器200分离的设备构成时，可以将由BRIR参数化单元300生成的双耳渲染参数作为比特流传送到双耳渲染单元220。双耳渲染单元220可以通过解码接收的比特流，获得双耳渲染参数。在这种情况下，传送的双耳渲染参数包括用于双耳渲染单元220的每个子单元中的处理所需要的各种参数，并且可以包括所转换和编辑的BRIR滤波器系数、或原始BRIR滤波器系数。

双耳渲染单元220包括快速卷积单元230、后期混响生成单元240和QTDL处理单元250，并且接收包括多声道和/或多对象信号的多音频信号。在本说明书中，包括多声道和/或多对象信号的输入信号将被称为多音频信号。图2图示了根据示例性实施例的双耳渲染单元220接收QMF域的多声道信号，但是双耳渲染单元220的输入信号可以进一步包括时域多声道信号和时域多对象信号。此外，当双耳渲染单元220另外包括特定解码器时，输入信号可以是多音频信号的编码比特流。此外，在本说明书中，基于执行多音频信号的BRIR渲染的情况来描述本发明，但本发明不限于此。即，由本发明提供的特征不仅可以应用于BRIR，而且可以应用于其他类型的渲染滤波器，并且不仅可以应用于多音频信号，而且可以应用于单声道或单对象的音频信号。

快速卷积单元230执行在输入信号和BRIR滤波器之间的快速卷积，以处理输入信号的直达声和早期反射声。为此，快速卷积单元230可以通过使用截断的BRIR来执行快速卷积。截断的BRIR包括根据每个子带频率截断的多个子带滤波器系数，并且由BRIR参数化单元300来生成。在这种情况下，根据相应子带的频率来确定截断的子带滤波器系数的中的每一个的长度。快速卷积单元230可以通过使用具有根据子带的不同长度的截断的子带滤波器系数，在频域中执行可变阶数滤波。即，可以在QMF域子带信号和针对每个频带而与之相对应的QMF域的截断子带滤波器之间执行快速卷积。与每个子带信号对应的截断的子带滤波器可以通过以上给出的矢量信息m_conv来识别。

后期混响生成单元240生成用于输入信号的后期混响信号。后期混响信号表示在由快速卷积单元230生成的早期反射声和直达声之后的输出信号。后期混响生成单元240可以基于由从BRIR参数化单元300传递的子带滤波器系数中的每一个所确定的混响时间信息，来处理输入信号。根据本发明的示例性实施例，后期混响生成单元240可以生成用于输入音频信号的单声道或立体声下混合信号，并且执行所生成的下混合信号的后期混响处理。

QMF域抽头延迟线(QTDL)处理单元250处理在输入音频信号当中的高频带中的信号。QTDL处理单元250从BRIR参数化单元300接收对应于高频带中的每一子带信号的至少一个参数(QTDL参数)，并且通过使用所接收的参数来在QMF域中执行抽头延迟线滤波。对应于每个子带信号的参数可以通过以上给出的矢量信息m_conv来识别。根据本发明的示例性实施例，双耳渲染器200基于预定常数或预定频带，将输入音频信号分成低频带信号和高频带信号，并且分别可以由快速卷积单元230和后期混响生成单元240处理低频带信号，并且由QTDL处理单元250处理高频带信号。

快速卷积单元230、后期混响生成单元240和QTDL处理单元250中的每一个输出2声道QMF域子带信号。混合器&组合器260针对每个子带，组合和混合快速卷积单元230的输出信号、后期混响生成单元240的输出信号和QTDL处理单元250的输出信号。在这种情况下，针对2声道的左右输出信号中的每一个单独执行输出信号的组合。双耳渲染器200对组合的输出信号执行QMF合成，以生成时域中的最终双耳输出音频信号。

<频域中的可变阶滤波(VOFF)>

图3是示出根据本发明的示例性实施例的用于双耳渲染的滤波器生成方法的图。转换成多个子带滤波器的FIR滤波器可以用于QMF域中的双耳渲染。根据本发明的示例性实施例，双耳渲染的快速卷积单元可以通过使用具有根据每个子带频率的不同长度的截断的子带滤波器，执行QMF域中的可变阶数滤波。

在图3中，Fk表示用于快速卷积的截断子带滤波器，以便于处理QMF子带k的直达声和早期反射声。此外，Pk表示用于QMF子带k的后期混响生成的滤波器。在这种情况下，截断子带滤波器Fk可以是从原始子带滤波器截断的前滤波器，并且还可以被指定为前子带滤波器。此外，Pk可以是原始子带滤波器截断后的后滤波器，并且还可以被指定为后子带滤波器。QMF域具有总共K个子带，并且根据示例性实施例，可以使用64个子带。此外，N表示原始子带滤波器的长度(抽头数)，并且N_滤波器[k]表示子带k的前子带滤波器的长度。在这种情况下，长度N_滤波器[k]表示QMF域中被向下采样的抽头数。

在使用BRIR滤波器进行渲染的情况下，可以基于从原始BRIR滤波器提取的参数，即，用于每个子带滤波器的混响时间(RT)信息、能源衰减曲线(EDC)值、能源衰减时间信息等，来确定用于每个子带的滤波器阶数(即，滤波器长度)。混响时间可能由于下述声学特性而根据频率变化：取决于墙壁和天花板的材料的声音吸收度和空气中的拆件针对每个频率而变化。通常，具有较低频的信号具有更长混响时间。由于长混响时间意味着更多信息保留在FIR滤波器的后部，所以优选的是在正常传递的混响信息中，截断相应的滤波器长度。因此，至少部分地基于从相应的子带滤波器提取的特性信息(例如，混响时间信息)，来确定本发明的每个截断子带滤波器Fk的长度。

根据实施例，可以基于通过用于处理音频信号的装置所获得的附加信息，即，解码器的所需的质量信息、复杂度或复杂度水平(简档)，来确定截断子带滤波器Fk的长度。可以根据用于处理音频信号或由用户直接输入的值的装置的硬件资源来确定复杂度。质量可以根据用户的请求确定或参考通过比特流传送的值或包括在比特流中的其他信息来确定。此外，质量还可以根据通过估计所传送的音频信号的质量所获得的值来确定，即，比特率越高，质量被认为是更高质量。在这种情况下，根据复杂度和质量，每个截断子带滤波器的长度可以成比例地增加，并且可以随用于每个带的不同比率而变化。此外，为了通过诸如FFT的等的高速处理来获取附加增益，可以将每个截断子带滤波器的长度确定为相应大小的单元，例如说，2的幂的倍数。相反，当所确定的截断子带滤波器的长度长于实际子带滤波器的总长度时，截断子带滤波器的长度可以被调整为实际子带滤波器的长度。

根据本发明的实施例的BRIR参数化单元生成对应于根据上述示例性实施例确定的截断子带滤波器的相应长度的截断子带滤波器系数，并且将所生成的截断子带滤波器系数传递到快速卷积单元。快速卷积单元通过使用截断子带滤波器系数，来在多音频信号的每个子带信号的频域中执行可变阶数滤波(VOFF处理)。即，关于作为彼此不同的频带的第一子带和第二子带，快速卷积单元通过将第一截断子带滤波器系数应用于第一子带信号来生成第一子带双耳信号，并且通过将第二截断子带滤波器系数应用于第二子带信号来生成第二子带双耳信号。在这种情况下，各个第一截断子带滤波器系数和第二截断子带滤波器系数可以独立地具有不同长度，并且从时域中的同一原型滤波器获得。即，由于将时域中的单个滤波器被转换成多个QMF子带滤波器并且对应于各个子带的滤波器的长度变化，所以从单个原型滤波器获得各个截断子带滤波器。

同时，根据本发明的示例性实施例，可以将被QMF转换的多个子带滤波器分类成多个组，并且对所分类的组中的每一个应用不同的处理。例如，可以基于预定频带(QMF频带i)来将多个子带分类成具有低频率的第一子带组区域1以及具有高频率的第二子带组区域2。在这种情况下，可以关于第一子带组的输入子带信号执行VOFF处理，并且可以关于第二子带组的输入子带信号执行下述QTDL处理。

因此，BRIR参数化单元针对第一子带组中的每个子带生成截断子带滤波器(前子带滤波器)系数，并且将前子带滤波器系数传递到快速卷积单元。快速卷积单元通过使用所接收的前子带滤波器系数来执行第一子带组的子带信号的VOFF处理。根据示例性实施例，可以通过后期混响生成单元附加地执行第一子带组的子带信号的后期混响处理。此外，BRIR参数化单元从第二子带组的子带滤波器系数中的每一个获得至少一个参数，并且将所获得的参数传递到QTDL处理单元。QTDL处理单元通过使用所获得的参数执行下述第二子带组的每个子带信号的抽头延迟线滤波。根据本发明的示例性实施例，用于区分第一子带组和第二子带组的预定频率(QMF带i)可以基于预定常数值来确定，或者可以根据所传送的音频输入信号的比特流特性来确定。例如，在使用SBR的音频信号的情况下，第二子带组可以被设定为对应于SBR频带。

根据本发明的另一示例性实施例，基于如图3所示的预定第一频带(QMF带i)和第二频带(QMF带j)，可以将多个子带分类成三个子带组。即，可以将多个子带分类成作为等于或小于第一频带的低频区域的第一子带组区域1、作为高于第一频带并且等于或小于第二频带的中间频率区域的第二子带组区域2、以及作为高于第二频带的高频区域的第三子带组区域3。例如，当总共64个QMF子带(子带索引0至63)被划分成3个子带组时，第一子带组可以包括具有索引0至31的总共32个子带，第二子带组可以包括具有索引32至47的总共16个子带，并且第三子带组可以包括具有其余索引48至63的子带。本文中，当子带频率变低时，子带索引具有更低值。

根据本发明的示例性实施例，可以仅关于第一子带组和第二子带组的子带信号执行双耳渲染。即，如上所述，可以关于第一子带组的子带信号执行VOFF处理和后期混响处理，并且可以关于第二子带组的子带信号执行QTDL处理。此外，关于第三子带组的子带信号，可以不执行双耳渲染。同时，用于执行双耳渲染的频带的数目的信息(kMax＝48)以及用于执行卷积的频带的数目的信息(kConv＝32)可以是预定值，或者可以通过BRIR参数化单元来确定以被传递到双耳渲染单元。在这种情况下，第一频带(QMF带j)被设定为索引kConv-1的子带，并且第二频带(QMF带j)被设定为索引kMax-1的子带。同时，频带的数目的信息(kMax)和用于执行卷积的频带的数目的信息(kConv)的值可能由于通过原始BRIR输入的采样频率、输入音频信号的采样频率等而变化。

同时，根据图3的示例性实施例，还可以基于从初始子带滤波器和前子带滤波器Fk提取的参数来确定后子带滤波器Pk的长度。即，至少部分地基于在相应的子带滤波器中提取的特性信息来确定每个子带的前子带滤波器和后子带滤波器的长度。例如，可以基于相应子带滤波器的第一混响时间信息来确定前子带滤波器的长度，并且可以基于第二混响时间信息来确定后子带滤波器的长度。即，前子带滤波器可以是基于原始子带滤波器中的第一混响时间信息的、处于截断前部的滤波器，并且后子带滤波器可以是处于对应于作为在前子带滤波器之后的区域的、在第一混响时间和第二混响时间之间的区域的后部的滤波器。根据示例性实施例，第一混响时间信息可以是RT20，并且第二混响时间信息可以是RT60，但本发明不限于此。

早期反射声部被切换至后期混响声部的部分存在于第二混响时间内。即，具有确定性特性的区域被切换至具有随机特性的区域的点存在，并且在整个频带的BRIR方面，该点被称为混合时间。在混合时间之前的区域中，主要存在提供每个位置的方向性的信息，并且这对每个声道是独特的。相反，由于后期混响部针对每个声道具有共同特性，所以可以高效地一次处理多个声道。因此，对每个子带的混合时间进行估计以在混合时间之前通过VOFF处理来执行快速卷积，并且在混合时间之后执行通过后期混响处理来反映每个声道的共同特性的处理。

然而，由于与在估计混合时间时的感知视点的偏差而导致错误可能发生。因此，从质量观点看，与通过估计准确的混合时间来基于相应的边界单独地处理VOFF处理部和后期混响部相比，通过最大化VOFF处理部的长度来执行快速卷积更优良。因此，根据复杂度-质量控制，VOFF处理部的长度，即前子带滤波器的长度可以长于或短于对应于混合时间的长度。

此外，为了减少每个子带滤波器的长度，除上述截断方法外，当特定子带的频率响应单调时，提供相应子带的滤波器降低到低阶的建模。作为代表性方法，存在使用频率采样的FIR滤波器建模，并且可以设计从最小平方观点最小化的滤波器。

<高频带的QTDL处理>

图4是更具体地示出根据本发明的示例性实施例的QTDL处理的图。根据图4的示例性实施例，QTDL处理单元250通过使用单抽头延迟线滤波器来执行多声道输入信号X0,X1,…,X_M-1的子带特定的滤波。在这种情况下，假定多声道输入信号被接收为QMF域的子带信号。因此，在图4的示例性实施例中，单抽头延迟线滤波器可以对每个QMF子带执行处理。单抽头延迟线滤波器关于每个声道信号，通过仅使用一个抽头来执行卷积。在这种情况下，可以基于从对应于相关子带信号的BRIR子带滤波器系数直接提取的参数来确定所使用的抽头。参数包括用于要在单抽头延迟线滤波器中使用的抽头的延迟信息以及与之对应的增益信息。

在图4中，L_0,L_1,…L_M-1表示分别相对于于M个声道(输入声道)-左耳(左输出声道)的BRIR的延迟，并且R_0,R_1,…,R_M-1分别表示相对于M个声道(输入声道)-右耳(右输出声道)的BRIR的延迟。在这种情况下，延迟信息表示BRIR子带滤波器系数当中的、以绝对值、实部的值或虚部的值的顺序的、用于最大峰值的位置信息。此外，在图4中，G_L_0,G_L_1,…,G_L_M-1表示对应于左声道的相应延迟信息的增益，并且G_R_0,G_R_1,…,G_R_M-1表示对应于右声道的相应延迟信息的增益。每个增益信息可以基于相应的BRIR子带滤波器系数的总的幂、对应于延迟信息的峰值的大小等来确定。在这种情况下，作为增益信息，可以使用在对整个子带滤波器系数的能量补偿之后的相应峰值的加权值以及子带滤波器系数中的相应峰值本身。通过使用用于相应峰值的加权值的实数以及加权值的虚数来获得增益信息。

同时，可以仅关于高频带的输入信号执行QTDL处理，其如上所述，基于预定常数或预定频带来被分类。当将频谱带复制(SBR)应用于输入音频信号时，高频带可以对应于SBR频带。用于高频带的高效编码的频谱带复制(SBR)是下述工具：该用具用于通过重新扩展由于在低比特率编码中切断高频带的信号而缩窄的带宽来确保与原始信号一样大的带宽。在这种情况下，通过使用编码和传送的低频带的信息，以及由编码器传送的高频带信号的附加信息，来生成高频带。然而，由于不准确谐波的生成而导致在通过使用SBR生成的高频分量中发生失真。此外，SBR带是高频带，并且如上所述，相应的频带的混响时间非常短。即，SBR带的BRIR子带滤波器具有小的有效信息和高的衰减率。因此，在用于对应于SBR带的高频带的BRIR渲染中，在计算复杂度与声音质量方面，通过使用少量有效抽头来执行渲染仍然比执行卷积更有效。

通过单抽头延迟线滤波器滤波的多个声道信号被聚合成用于每个子带的2声道左和右输出信号Y_L和Y_R。同时，在用于双耳渲染的初始化过程期间，在QTDL处理单元250的每个单抽头延迟线滤波器中使用的参数(QTDL参数)可以被存储在存储器中，并且可以在不需要用于提取该参数的附加操作的情况下执行QTDL处理。

<详细的BRIR参数化>

图5是示出根据本发明的示例性实施例的BRIR参数化单元的各个组件的框图。如图14所示，BRIR参数化单元300可以包括VOFF参数化单元320、后期混响参数化单元360和QTDL参数化单元380。BRIR参数化单元300接收时域的BRIR滤波器集合作为输入，并且BRIR参数化单元300的每个子单元通过使用所接收的BRIR滤波器集合，来生成用于双耳渲染的各种参数。根据示例性实施例，BRIR参数化单元300可以另外接收控制参数，并且基于接收控制参数来生成参数。

首先，VOFF参数化单元320生成用于频域中的可变阶数滤波(VOFF)所需的截断子带滤波器系数以及得到的辅助参数。例如，VOFF参数化单元320计算用于生成截断子带滤波器系数的频带特定的混响时间信息、滤波器阶数信息等，并且确定用于对截断子带滤波器系数执行逐块快速傅立叶变换的块的大小。由VOFF参数化单元320生成的一些参数可以被传送到后期混响参数化单元360和QTDL参数化单元380。在这种情况下，所传递的参数不限于VOFF参数化单元320的最终输出值，并且可以包括根据VOFF参数化单元320的处理同时生成的参数，即，时域的截断BRIR滤波器系数等。

后期混响参数化单元360生成用于后期混响生成所需要的参数。例如，后期混响参数化单元360可以生成下混合子带滤波器系数、IC(内耳相干性)值等。此外，QTDL参数化单元380生成用于QTDL处理的参数(QTDL参数)。更详细地说，QTDL参数化单元380从后期混响参数化单元320接收子带滤波器系数，并且通过使用所接收的子带滤波器系数来生成每个子带中的延迟信息和增益信息。在这种情况下，QTDL参数化单元380可以接收用于执行双耳渲染的频带的数目的信息kMax和用于执行卷积的频带的数目的信息kConv作为控制参数，并且生成用于具有kMax和kConv的子带组的每个频带的延迟信息和增益信息作为边界。根据示例性实施例，QTDL参数化单元380可以被设置为包括在VOFF参数化单元320中的组件。

在VOFF参数化单元320、后期混响参数化单元360和QTDL参数化单元380中生成的参数分别被传送到双耳渲染单元(未示出)。根据示例性实施例，后期混响参数化单元360和QTDL参数化单元380可以根据是否在双耳渲染单元中分别执行后期混响处理和QTDL处理，来确定是否生成参数。当在双耳渲染单元中不执行后期混响处理和QTDL处理中的至少一个时，与之对应的后期混响参数化单元360和QTDL参数化单元380可以不生成参数，或者不将所生成的参数传送到双耳渲染单元。

图6是示出本发明的VOFF参数化单元的各个组件的框图。如图15所示，VOFF参数化单元320可以包括传播时间计算单元322、QMF转换单元324和VOFF参数生成单元330。VOFF参数化单元320执行下述过程：通过使用所接收的时域BRIR滤波器系数来生成用于VOFF处理的截断子带滤波器系数。

首先，传播时间计算单元322计算时域BRIR滤波器系数的传播时间信息，并且基于所计算的传播时间信息来截断时域BRIR滤波器系数。在本文中，传播时间信息表示从BRIR滤波器系数的初始采样到直达声的时间。传播时间计算单元322可以从时域BRIR滤波器系数截断对应于所计算的传播时间的部分并且移除截断的部分。

可以使用各种方法来估计BRIR滤波器系数的传播时间。根据示例性实施例，可以基于第一点信息来估计传播时间，其中示出了大于阈值的、与BRIR滤波器系数的最大峰值成比例的能量值。在这种情况下，由于从多声道输入的各个声道直到听众的所有距离彼此不同，所以传播时间对于每个声道可能改变。然而，所有声道的传播时间的截断长度需要彼此相同，以便于通过使用BRIR滤波器系数来执行卷积，其中，在执行双耳渲染时截断传播时间，并且以便于补偿在具有延迟的情况下执行双耳渲染的最终信息。此外，当通过将相同传播时间信息应用于每个声道来执行截断时，可以降低独立声道中的错误发生概率。

为了根据本发明的示例性实施例计算传播时间信息，可以首先定义用于逐帧索引k的帧能量E(k)。当用于输入声道索引m、左/右输出声道索引i和时域的时隙索引v的时域BRIR滤波器系数为

时，可以通过下述给出的等式，计算第k帧的帧能量E(k)。

[等式2]

其中，N_BRIR表示BRIR滤波器集合的滤波器的总数目，N_hop表示预定跳大小，并且L_frm表示帧大小。即，帧能量E(k)可以被计算为相对于同一时间间隔的每个声道的帧能量的平均值。

可以通过使用定义的帧能量E(k)，通过下述给出的等式来计算传播时间pt。

[等式3]

即，传播时间计算单元322通过逐预定跳地偏移来测量帧能量，并且识别帧能量大于预定阈值的第一帧。在这种情况下，传播时间可以被确定为所识别的第一帧的中间点。同时，在等式3中，描述了将阈值设定为比最大帧能量小60dB的值，但本发明不限于此，并且阈值可以被设定为与最大帧能量成比例的值或与最大帧能量相差预定值的值。

同时，跳大小N_hop和帧大小L_frm可以基于输入BRIR滤波器系数是否是头部相关脉冲响应(HRIR)滤波器系数而变化。在这种情况下，指示输入BRIR滤波器系数是HRIR滤波器系数的信息flag_HRIR可以从外部接收，或者通过使用时域BRIR滤波器系数的长度来估计。通常，早期反射声部和后期混响部的边界已知为80ms。因此，当时域BRIR滤波器系数的长度为80ms或更小时，相应的BRIR滤波器系数被确定为HRIR滤波器系数(flag_HRIR＝1)，并且当时域BRIR滤波器系数的长度大于80ms时，可以确定相应的BRIR滤波器系数不是HRIR滤波器系数(flag_HRIR＝0)。当确定了输入BRIR滤波器系数是HRIR滤波器系数时(flag_HRIR＝1)的跳大小N_hop和帧大小L_frm可以被设定成比当确定了相应的BRIR滤波器系数不是HRIR滤波器系数(flag_HRIR＝0)时的那些更小的值。例如，在flag_HRIR＝0的情况下，跳大小N_hop和帧大小L_frm可以被分别设定为8个和32个样本，并且在flag_HRIR＝1的情况下，跳大小N_hop和帧大小L_frm可以被分别设定为1个和8个样本。

根据本发明的示例性实施例，传播时间计算单元322可以基于所计算的传播时间信息来截断时域BRIR滤波器系数，并且将截断的BRIR滤波器系数传递到QMF转换单元324。在本文中，截断的BRIR滤波器系数指示在从原始BRIR滤波器系数截断和移除对应于传播时间的部分之后的剩余滤波器系数。传播时间计算单元322针对每个输入声道和每个左/右输出声道来截断时域BRIR滤波器系数，并且将截断的时域BRIR滤波器系数传递到QMF转换单元324。

QMF转换单元324执行在时域和QMF域之间的输入BRIR滤波器系数的转换。即，QMF转换单元324接收时域的截断的BRIR滤波器系数，并且将所接收的BRIR滤波器系数转换成分别对应于多个频带的多个子带滤波器系数。所转换的子带滤波器系数被传递到VOFF参数生成单元330，并且VOFF参数生成单元330通过使用所接收的子带滤波器系数来生成截断子带滤波器系数。当代替时域BRIR滤波器系数而将QMF域BRIR滤波器系数接收为VOFF参数化单元320的输入时，所接收的QMF域BRIR滤波器系数可以绕过QMF转换单元324。此外，根据另一示例性实施例，当输入滤波器系数是QMF域BRIR滤波器系数时，在VOFF参数化单元320中，可以省略QMF转换单元324。

图7是示出图6的VOFF参数生成单元的具体配置的框图。如图7所示，VOFF参数生成单元330可以包括混响时间计算单元332、滤波器阶数确定单元334和VOFF滤波器系数生成单元336。VOFF参数生成单元330可以从图6的QMF转换单元324接收QMF域子带滤波器系数。此外，可以将包括用于执行双耳渲染的频带的数目的信息kMax、执行卷积的频带的数目的信息kConv、预定最大FFT大小信息等的控制参数输入到VOFF参数生成单元330。

首先，混响时间计算单元332通过使用所接收的子带滤波器系数来获得混响时间信息。所获得的混响时间信息可以被传递到滤波器阶数确定单元334，并且用于确定相应子带的滤波器阶数。同时，由于根据测量环境，偏置或偏差可能存在于混响时间信息中，所以可以通过使用与另一声道的相互关系来使用统一值。根据示例性实施例，混响时间计算单元322生成每个子带的平均混响时间信息，并且将所生成的平均混响时间信息传递到滤波器阶数确定单元334。当用于输入声道索引m、左/右输出声道索引i和子带索引k的子带滤波器系数的混响时间信息为RT(k,m,i)时，可以通过下述给出的等式来计算子带k的平均混响时间信息RT^k。

[等式4]

其中，N_BRIR表示BRIR滤波器集合的滤波器总数。

即，混响时间计算单元332从对应于多声道输入的每个子带滤波器系数中提取混响时间信息RT(k,m,i)，并且获得相对于同一子带提取的每个声道的混响时间信息RT(k,m,i)的平均值(即，平均混响时间信息RT^k)。所获得的平均混响时间信息RT^k可以被传递到滤波器阶数确定单元334，并且滤波器阶数确定单元334可以通过使用所传递的平均混响时间信息RT^k来确定应用于相应子带的单个滤波器阶数。在这种情况下，所获得的平均混响时间信息可以包括混响时间RT20，并且根据示例性实施例，还可以获得其他混响时间信息，即，RT30,RT60等。同时，根据本发明的另一示例性实施例，混响时间计算单元332可以将相对于同一子带提取的每个声道的混响时间信息的最大值和/或最小值传递到滤波器阶数确定单元334，作为相应子带的代表性混响时间信息。

接下来，滤波器阶数确定单元334基于所获得的混响时间信息来确定相应子带的滤波器阶数。如上所述，通过滤波器阶数确定单元334获得的混响时间信息可以是相应子带的平均混响时间信息，并且根据示例性实施例，还可以替代地获得具有每个声道的混响时间信息的最大值和/或最小值的代表性混响时间信息。滤波器阶数可以用于确定用于相应子带的双耳渲染的截断子带滤波器系数的长度。

当子带k中的平均混响时间信息为RT^k时，可以通过下述给出的等式来获得相应子带的滤波器阶数信息N_Filter[k]。

[等式5]

即，可以使用相应子带的平均混响时间信息的对数尺度近似的整数值作为索引来将滤波器阶数信息确定为2的幂的值。换句话说，使用对数尺度中的相应子带的平均混响时间信息的四舍五入值、上舍入值或下舍入值用作索引，滤波器阶数信息可以被确定为2的幂的值。当相应的子带滤波器系数的原始长度，即，直到最后一个时隙n_end的长度小于在等式5中确定的值时，可以用子带滤波器系数的初始长度值n_end代替滤波器阶数信息。即，滤波器阶数信息可以被确定为由等式5确定的参考截断长度和子带滤波器系数的原始长度中的较小值。

同时，在对数尺度中，可以线性地接近取决于频率的能量的衰减。因此，当使用曲线拟合法时，可以确定每个子带的优化的滤波器阶数信息。根据本发明的示例性实施例，滤波器阶数确定单元334可以通过使用多项式曲线拟合法来获得滤波器阶数信息。为此，滤波器阶数确定单元334可以获得用于平均混响时间信息的曲线拟合的至少一个系数。例如，滤波器阶数确定单元334通过对数尺度中的线性等式来执行每个子带的平均混响时间信息的曲线拟合，并且获得相应线性等式的斜率值“b”和片段值“a”。

通过使用所获得的系数，通过下述给出的等式，可以获得子带k中的曲线拟合滤波器阶数信息N'_Filter[k]。

[等式6]

即，可以使用相应子带的平均混响时间信息的多项式曲线拟合值的近似整数值作为索引来将曲线拟合滤波器阶数信息确定为2的幂的值。换句话说，可以使用相应子带的平均混响时间信息的多项式曲线拟合值的四舍五入值、上舍入值或下舍入值作为索引，来将曲线拟合滤波器阶数信息确定作2的幂的值。当相应子带滤波器系数的原始长度，即，直到最后一个时隙n_end的长度小于在等式6中确定的值时，可以用子带滤波器系数的原始长度值n_end代替滤波器阶数信息。即，滤波器阶数信息可以被确定为由等式6确定的参考截断长度和子带滤波器系数的原始长度中的较小值。

根据本发明的示例性实施例，基于原型BRIR滤波器系数，即，时域的BRIR滤波器系数是否是HRIR滤波器系数(flag_HRIR)，可以通过使用等式5和等式6中的任何一个来获得滤波器阶数信息。如上所述，可以基于原型BRIR滤波器系数的长度是否大于预定值来确定flag_HRIR的值。当原型BRIR滤波器系数的长度大于预定值(即flag_HRIR＝0)时，根据上述给出的等式6，滤波器阶数信息可以被确定为曲线拟合值。然而，当原型BRIR滤波器系数的长度不大于预定值(即，flag_HRIR＝1)时，根据上述给出的等式5，滤波器阶数信息可以被确定为非曲线拟合值。即，在不执行曲线拟合的情况下，可以基于相应子带的平均混响时间信息来确定滤波器阶数信息。原因在于由于HRIR不受房间的影响，所以能量衰减的趋势不会出现在HRIR中。

同时，根据本发明的示例性实施例，当获得用于第0子带(即，子带索引0)的滤波器阶数信息时，可以使用不执行曲线拟合的平均混响时间信息。原因在于由于房间模式的影响等而导致第0子带的混响时间可以具有与另一子带的混响时间不同的趋势。因此，根据本发明的示例性实施例，可以仅在flag_HRIR＝0的情况下并且在索引不为0的子带中，可以使用根据等式6的曲线拟合滤波器阶数信息。

将根据上述示例性实施例确定的每个子带的滤波器阶数信息传递到VOFF滤波器系数生成单元336。VOFF滤波器系数生成单元336基于所获得的滤波器阶数信息来生成截断子带滤波器系数。根据本发明的示例性实施例，截断子带滤波器系数可以由按用于逐块快速卷积的预定块大小执行快速傅立叶变换(FFT)的至少一个VOFF系数构成。如下文参考图9所述，VOFF滤波器系数生成单元336可以生成用于逐块快速卷积的VOFF系数。

图8是示出本发明的QTDL参数化单元的各个组件的框图。如图13所示，QTDL参数化单元380可以包括峰值搜索单元382和增益生成单元384。QTDL参数化单元380可以从VOFF参数化单元320接收QMF域子带滤波器系数。此外，QTDL参数化单元380可以接收用于执行双耳渲染的频带的数目的信息Kproc和用于执行卷积的频带的数目的信息Kconv作为控制参数，并且生成用于具有kMax和kConv的子带组(即第二子带组)的每个频带的延迟信息和增益信息作为边界。

根据更具体示例性实施例，当用于输入声道索引m、左/右输出声道索引i、子带索引k和QMF域时隙索引n的BRIR子带滤波器系数为

时，如下所述，可以获得延迟信息

和增益信息

[等式7]

[等式8]

其中，sign{x}表示值x的符号，n_end表示相应的子带滤波器系数的最后一个时隙。

即，参考等式7，延迟信息可以表示相应的BRIR子带滤波器系数具有最大大小的时隙的信息，并且这表示相应的BRIR子带滤波器系数的最大峰值的位置信息。此外，参考等式8，增益信息可以被确定为通过使相应的BRIR子带滤波器系数的总的幂值乘以最大峰值位置处的BRIR子带滤波器系数的符号所获得的值。

峰值搜索单元382基于等式7来获得最大峰值位置，即，第二子带组的每个子带滤波器系数中的延迟信息。此外，增益生成单元384基于等式8来获得用于每个子带滤波器系数的增益信息。等式7和等式8示出了获得延迟信息和增益信息的等式的示例，但可以不同地修改用于计算每个信息的等式的具体形式。

<逐块快速卷积>

同时，根据本发明的示例性实施例，可以在效率和性能方面针对最佳双耳执行预定逐块快速卷积。基于FFT的快速卷积具有下述特征：当FFT大小增加时，计算量减小，但整体处理延迟增加并且存储器使用率增加。当将1秒长度的BRIR被快速卷积为具有相应长度两倍长的FFT大小时，在计算量方面这是高效的，但对应于1秒的延迟发生，并且需要与之对应的缓冲器和处理存储器。具有长延迟时间的音频信号处理方法不用合于实时数据处理的应用等。因为帧是音频信号处理装置可以通过其执行解码的最小单位，所以即使在双耳渲染中，也优选地以对应于帧单元的大小来执行逐块快速卷积。

图9示出用于生成用于逐块快速卷积的VOFF系数的方法的示例性实施例。与上述示例性实施例类似，在图9的示例性实施例中，原型FIR滤波器被转换成K子带滤波器，并且Fk和Pk分别表示子带k的截断的子带滤波器(前子带滤波器)和后子带滤波器。子带带0至带K-1中的每一个可以表示频域中的子带，即，QMF子带。在QMF域中，可以使用总共64个子带，但本发明不限于此。此外，N表示原始子带滤波器的长度(抽头数)，并且N_Filter[k]表示子带k的前子带滤波器的长度。

类似于上述示例性实施例，可以基于预定频带(QMF带i)，将QMF域的多个子带分类成具有低频率的第一子带组(区域1)和具有高频率的第二子带组(区域2)。替代地，可以基于预定第一频带(QMF带i)和第二频带(QMF带j)，将多个子带分类成三个子带组，即，第一子带组(区域1)、第二子带组(区域2)和第三子带组(区域3)。在这种情况下，分别可以关于第一子带组的输入子带信号执行使用逐块快速卷积的VOFF处理，并且可以关于第二子带组的输入子带信号执行QTDL处理。此外，关于第三子带组的子带信号，可以不执行渲染。根据示例性实施例，关于第一子带组的输入子带信号，可以另外执行后期混响处理。

参考图9，本发明的VOFF滤波器系数生成单元336按相应子带中的预定块大小来执行截断子带滤波器系数的快速傅立叶变换以生成VOFF系数。在这种情况下，基于预定最大FFT大小2L来确定每个子带k中的预定块的长度N_FFT[k]。更详细地，可以通过下述等式来表达子带k中的预定块的长度N_FFT[k]。

[等式9]

其中，2L表示预定最大FFT大小，并且N_Filter[k]表示子带k的滤波器阶数信息。

即，预定块的长度N_FFT[k]可以被确定为在截断子带滤波器系数的参数滤波器长度的2倍的值

和预定最大FFT大小2L之间的较小值。在本文中，参考滤波器长度表示相应子带k中的滤波器阶数N_Filter[k](即，截断子带滤波器系数的长度)的2的幂的形式的近似值和真值中的任何一个。即，当子带k的滤波器阶数具有2的幂的形式时，相应的滤波器阶数N_Filter[k]用作子带k中的参考滤波长度，并且当子带k的滤波器阶数N_Filter[k]不具有2的幂的形式(例如n_end)时，相应滤波器阶数N_Filter[k]的2的幂的形式的四舍五入值、上舍入值或下舍入值被用作参考滤波器长度。同时，根据本发明的示例性实施例，预定块的长度N_FFT[k]和参考滤波器长度

可以是2的幂的值。

当作为参考滤波器长度的2倍大的值等于或大于(或大于)最大FFT大小2L，如图9的F0和F1时，相应子带的预定块长度N_FFT[0]和N_FFT[1]中的每一个被确定为最大FFT大小2L。然而，当作为参考滤波器长度的2倍大的值小于(或等于或小于)最大FFT大小2L，如图9的F5时，相应子带的预定块长度N_FFT[5]可以被确定为作为参考滤波器长度的两倍大的值的

如下所述，因为通过零填充并且此后快速傅立叶变换，来使截断子带滤波器系数扩展为两倍长，所以可以基于在作为参考滤波器长度两倍大的值和预定最大FFT大小2L之间的比较结果来确定快速傅立叶变换的块的长度N_FFT[k]。

如上所述，当确定每个子带中的块长度N_FFT[k]时，VOFF滤波器系数生成单元336按所确定的块大小，执行截断子带滤波器系数的快速傅立叶变换。更详细地，VOFF滤波器系数生成单元336按预定块大小的一半N_FFT[k]/2来划分截断子带滤波器系数。图9中所示的VOFF处理部的虚线边界的区域表示按预定块大小的一半划分的子带滤波器系数。接下来，BRIR参数化单元通过使用各个划分的滤波器系数，生成相应块大小N_FFT[k]的临时滤波器系数。在这种情况下，临时滤波器系数的前半部分由划分的滤波器系数构成，并且后半部分通过零填充的值构成。因此，通过使用预定块的一半长度N_FFT[k]/2的滤波器系数来生成预定块的长度N_FFT[k]的临时滤波器系数。接下来，BRIR参数化单元执行对所生成的临时滤波器系数的快速傅立叶变换，以生成VOFF系数。所生成的VOFF系数可以用于输入音频信号的预定逐块快速卷积。

如上所述，根据本发明的示例性实施例，VOFF滤波器系数生成单元336按针对每个子带独立确定的块大小，执行截断子带滤波器系数的快速傅立叶变换，以生成VOFF系数。结果，可以执行使用用于每个子带的不同块数目的快速卷积。在这种情况下，子带k中的块的数目N_blk[k]可以满足下述等式。

[等式10]

其中，N_blk[k]是自然数。

即，子带k中的块的数目N_blk[k]可以被确定为通过使相应子带中的参考滤波器长度两倍的值除以预定块的长度N_FFT[k]所获得的值。

同时，根据本发明的示例性实施例，相对于第一子带组的前子带滤波器Fk，可以限制性地执行预定逐块VOFF系数的生成过程。同时，根据示例性实施例，通过如上所述的后期混响生成单元，可以执行用于第一子带组的子带信号的后期混响处理。根据本发明的示例性实施例，可以基于原型BRIR滤波器系数的长度是否大于预定值来执行用于输入音频信号的后期混响处理。如上所述，可以通过指示原型BRIR滤波器系数的长度大于预定值的标志(即，flag_HRIR)，来表示原型BRIR滤波器系数的长度是否大于预定值。当原型BRIR滤波器系数的长度大于预定值(flag_HRIR＝0)时，可以执行用于输入音频信号的后期混响处理。然而，当原型BRIR滤波器系数的长度不大于预定值(flag_HRIR＝1)时，可以不执行用于输入音频信号的后期混响处理。

当不执行后期混响处理时，仅可以执行对第一子带组中的每一子带信号的VOFF处理。然而，对VOFF处理指定的每个子带的滤波器阶数(即，截断点)可以小于相应的子带滤波器系数的总长度，并且结果，能量失配可能发生。因此，为了防止能量失配，根据本发明的示例性实施例，可以基于flag_HRIR信息来执行用于截断子带滤波器系数的能量补偿。即，当原型BRIR滤波器系数的长度不大于预定值(flag_HRIR＝1)时，可以将执行能量补偿的滤波器系数用作截断子带滤波器系数或者构成截断子带滤波器系数的每个VOFF系数。在这种情况下，可以通过直到基于滤波器阶数信息N_Filter[k]的截断点的子带滤波器系数除以直到该截断点的滤波器的幂，并且乘以相应子带滤波器系数的总滤波器的幂，来执行能量补偿。可以将总滤波器的幂定义为用于从初始样本到相应的子带滤波器系数的最后一个样本n_end的滤波器系数的幂的总和。

图10示出根据本发明的快速卷积单元中的音频信号处理的过程的示例性实施例。根据图10的示例性实施例，本发明的快速卷积单元执行逐块快速卷积以对输入音频信号进行滤波。

首先，快速卷积单元获得构成用于对每个子带信号进行滤波的截断子带滤波器系数的至少一个VOFF系数。为此，快速卷积单元可以从BRIR参数化单元接收VOFF系数。根据本发明的另一示例性实施例，快速卷积单元(替代地，包括快速卷积单元的双耳渲染单元)从BRIR参数化单元接收截断子带滤波器系数并且按预定块大小来对该截断子带滤波器系数进行快速傅里叶变换以生成VOFF系数。根据示例性实施例，确定每个子带k中的预定块长度N_FFT[k]，并且获得对应于相应子带k中的块的数目N_blk[k]的数目的VOFF系数VOFF coef.1至VOFF coef.N_blk。

同时，快速卷积单元按相应子带中的预定子帧大小，执行对输入音频信号的每个子带信号的快速傅立叶变换。为了执行在输入音频信号和截断子带滤波器系数之间的逐块快速卷积，基于相应子带中的预定块长度N_FFT[k]来确定子帧的长度。根据本发明的示例性实施例，因为通过零填充并且此后经历快速傅里叶变换来将各个划分的子帧扩展为两倍的长度，所以子帧的长度可以被确定为作为预定块一半大的长度，即，N_FFT[k]/2。根据本发明的示例性实施例，可以将子帧的长度设定为具有2的乘方值。

当如上所述确定子帧的长度时，快速卷积单元将每个子带信号划分成相应子带的预定子帧大小N_FFT[k]/2。如果时域样本中的输入音频信号的帧的长度为L，则QMF域时隙中的相应帧的长度可以为Ln，并且相应帧可以被划分成N_Frm[k]个子帧，如下述等式中所示。

[等式11]

即，用于子带k中的快速卷积的子帧的数目N_Frm[k]是使帧的总长Ln除以子帧的长度N_FFT[k]/2所获得的值，并且N_Frm[k]可以被确定为具有等于或大于1的值。换句话说，子帧的数目N_Frm[k]被确定为通过使帧的总长Ln除以N_Frm[k]/2获得的值与1之间的较大值。在本文中，QMF域时隙中的帧长度Ln是与时域样本中的帧长度L成比例的值，并且当L为4096时，Ln可以被设计为64(即Ln＝L/64)。

快速卷积单元通过使用划分的子帧帧1至帧N_Frm来生成每一个都具有作为子帧长度的两倍大的长度(即，长度N_FFT[k])的临时子帧。在这种情况下，临时子帧的前半部分由划分的子帧构成，而后半部分由零填充值构成。快速卷积单元通过对所生成的临时子帧进行快速傅立叶变换来生成FFT子帧。

接下来，快速卷积单元使快速傅立叶变换的子帧(即，FFT子帧)和VOFF系数相乘以生成滤波的子帧。快速卷积单元的复数乘法器(CMPY)执行在FFT子帧和VOFF系数之间的复数乘法以生成滤波的子帧。接下来，快速卷积单元对每个滤波的子帧进行快速傅立叶反变换，以生成快速卷积子帧(Fast conv子帧)。快速卷积单元重迭-相加作为被快速傅立叶反变换的至少一个子帧(Fast conv子帧)以生成滤波的子带信号。滤波的子带信号可以构成相应子带中的输出音频信号。根据示例性实施例，在快速傅立叶反变换前后的步骤中，滤波的子帧可以被聚组合成用于同一子带中的每个声道的子帧的左和右输出声道的子帧。

为了最小化快速傅立叶反变换的计算量，当当前子帧之后的子帧被处理并且此后进行快速傅立叶变换时，可以将通过执行与在相应子带的第一VOFF系数之后的VOFF系数，即，VOFF coef.m(m等于或大于2并且等于或小于N_blk)的复数乘法所获得的滤波的子帧存储在存储器(缓冲器)中并且聚合。例如，将通过在第一FFT子帧(FFT子帧1)和第二VOFF系数(VOFF coef.2)之间的复数乘法所获得的滤波子帧存储在缓冲器中，并且此后，在对应于第二子帧的时间，与通过在第二FFT子帧(FFT子帧2)和第一VOFF系数(VOFF coef.1)之间执行复数乘法获得的滤波子帧聚合，并且相对于聚合的子帧执行快速傅立叶反变换。类似地，将通过在第一FFT子帧(FFT子帧1)与第三VOFF系数(VOFF coef.3)之间的复数乘法所获得的滤波子帧和通过第二FFT子帧(FFT子帧2)与第二VOFF系数(VOFF coef.2)之间复数乘法所获得的滤波子帧的每一个存储在缓冲器中。在对应于第三子帧的时间，在缓冲器中存储的滤波子帧与通过第三FFT子帧(FFT子帧3)和第一VOFF系数(VOFF coef.1)之间复数乘法获得的滤波子帧聚合，并且相对于聚合的子帧，执行快速傅立叶反变换。

根据本发明的又一示例性实施例，子帧的长度可以具有小于作为预定块的长度的一半大的长度N_FFT[k]/2的值。在这种情况下，相应的子帧可以通过零填充，被扩展为预定块长度N_FFT[k]之后进行快速傅立叶变换。此外，当重迭-相加通过使用快速卷积单元的复数乘法器(CMPY)生成的滤波子帧时，可以不基于子帧长度，而是基于作为预定块的长度的一半大的长度N_FFT[k]/2，确定重叠间隔。

<双耳渲染语法>

图11至15示出根据本发明的用于实现用于处理音频信号的方法的语法的示例性实施例。图11至15的各个功能可以由本发明的双耳渲染器实现，并且当双耳渲染单元和参数化单元被设置为单独的设备时，可以通过双耳渲染单元实现相应的功能。因此，在下述描述中，双耳渲染器可以指根据示例性实施例的双耳渲染单元。在图11至15的示例性实施例中，并行地写入在比特流中接收的每个变量以及分配给相应变量的比特数目和助记符的类型。在助记符的类型中，“uimsbf”表示无符号整数，最高有效位优先，并且“bslbf”表示比特串，左位优先。图11至15的语法表示用于实现本发明的示例性实施例，以及可以改变和替换每一变量的详细分配值。

图11示出根据本发明的示例性实施例的双耳渲染函数(S1100)的语法。可以通过调用图11的双耳渲染函数(S1100)，实现根据本发明的示例性实施例的双耳渲染。首先，双耳渲染函数通过步骤S1101至S1104，获得BRIR滤波器系数的文件信息。此外，接收指示滤波器表示的总数目的信息“bsNumBinauralDataRepresentation”(S1110)。滤波器表示是指包括在单个双耳渲染语法中的独立双耳数据的单位。不同的滤波器表示可以被指派给原型BRIR，其具有同步的采样频率但是在相同的空间中获得。此外，即使通过不同BRIR参数化单元来处理同一原型BRIR，不同的滤波器表示可以被指派给相同原型BRIR。

接下来，基于接收的“bsNumBinauralDataRepresentation”值，重复步骤S1111至S1350。首先，接收作为用于确定过滤器表示(即BRIR)的采样频率值的索引的“brirSamplingFrequencyIndex”(S1111)。在这种情况下，通过参考预定义的表，可以获得对应于该索引的值作为BRIR采样频率。当索引是预定特定值(即brirSamplingFrequencyIndex＝＝0x1f)时，可以从比特流直接接收BRIR采样频率值“brirSamplingFrequency”。

接下来，双耳渲染函数接收作为BRIR滤波器集合的类型信息的“bsBinauralDataFormatID”(S1113)。根据本发明的示例性实施例，BRIR滤波器集合可以具有有限脉冲响应(FIR)滤波器、频域(FD)参数化滤波器或时域(TD)参数化滤波器的类型。在这种情况下，基于类型信息，确定通过双耳渲染器获得的BRIR滤波器集合的类型(S1115)。当类型信息表示FIR滤波器时(即，当bsBinauralDataFormatID＝＝0时)，可以执行BinauralFIRData()函数(S1200)，因此，双耳渲染器可以接收未被变换和编辑的原型FIR滤波器系数。当类型信息表示FD参数化滤波器时(即当bsBinauralDataFormatID＝＝1时)，可以执行FDBinauralRendererParam()函数(S1300)，因此，如上述示例性实施例，双耳渲染器可以获得频域中的VOFF系数和QTDL参数。当类型信息表示TD参数化滤波器时(即，当bsBinauralDataFormatID＝＝2时)，可以执行TDBinauralRendererParam()函数(S1350)，因此，双耳渲染器接收时域中的参数化BRIR滤波器系数。

图12示出用于接收原型BRIR滤波器系数的BinauralFirData()函数(S1200)的语法。BinauralFirData()是用于接收未被变换和编辑的原型FIR滤波器系数的FIR滤波器获取函数。首先，FIR滤波器获取函数接收原型FIR滤波器的滤波器系数数字信息“bsNumCoef”(S1201)。即“bsNumCoef”可以表示原型FIR滤波器的滤波器系数的长度。

接下来，FIR滤波器获取函数接收相应FIR滤波器中的每一FIR滤波器索引pos和采样索引i的FIR滤波器系数(S1202和S1203)。在本文中，FIR滤波器索引pos表示传送的双耳滤波器对的数量“nBrirPairs”中的相应FIR滤波器对(即，左/右输出对)的索引。传送的双耳滤波器对的数量“nBrirPairs”可以表示将由双耳滤波器对滤波的虚拟扬声器的数量、声道的数量或HOA组件的数量。此外，索引i表示具有长度“bsNumCoefs”的每一FIR滤波器系数中的样本索引。FIR滤波器获取函数接收用于每一索引pos和i的左输出声道的FIR滤波器系数(S1202)和右输出声道的FIR滤波器系数(S1203)的每一个。

接下来，FIR滤波器获取函数接收作为表示FIR滤波器的最大有效频率的信息的“bsAllCutFreq”(S1210)。在这种情况下，当各个声道具有不同最大有效频率时，“bsAllCutFreq”具有值0，而当所有声道具有相同最大有效频率时，具有非0的值。当各个声道具有不同最大有效频率(即bsAllCutFreq＝＝0)时，FIR滤波器获取函数接收左输出声道的FIR滤波器的最大有效频率信息“bsCutFreqLeft[pos]”以及用于每一FIR滤波器索引pos的右输出声道的最大有效频率信息“bsCutFreqRight[pos]”(S1211和S1212)。然而，当所有声道具有相同的最大有效频率时，左输出声道的FIR滤波器的最大有效频率信息“bsCutFreqLeft[pos]”和右输出声道的最大有效频率信息“bsCutFreqRight[pos]”的每一个被分配值“bsAllCutFreq”(S1213和S1214)。

图13示出根据本发明的示例性实施例，FdBinauralRendererParam()函数(S1300)的语法。FdBinauralRendererParam()函数(S1300)是频域参数获取函数并且接收用于频域双耳滤波的各个参数。

首先，接收信息“flagHrir”，其表示输入到双耳渲染器的脉冲响应(IR)滤波器系数是HRIR滤波器系数还是BRIR滤波器系数(S1302)。根据示例性实施例，可以基于由参数化单元接收的原型BRIR滤波器系数的长度是否大于预定值，确定“flagHrir”。此外，接收表示从原型滤波器系数的初始样本到直达声的时间的传播时间信息“dInit”(S1303)。由参数化单元传送的滤波器系数可以是从原型滤波器系数去除对应于传播时间后的部分后的剩余部分的滤波器系数。此外，频域参数获取函数接收频带的数量信息“kMax”以执行双耳渲染，接收频带的数量信息“kConv”以执行卷积，以及频带的数量信息“kAna”以执行后期混响分析(S1304,S1305和S1306)。

接下来，频域参数获取函数执行“VoffBrirParam()”以接收VOFF参数(S1400)。当输入IR滤波器系数是BRIR滤波器系数时(即当flagHrir＝＝0时)，另外执行“SfrBrirParam()”函数，因此，可以接收用于后期混响处理的参数(S1450)。此外，频域参数获取函数可以“QtdlBrirParam()”函数来接收QTDL参数(S1500)。

图14示出根据本发明的示例性实施例的VoffBrirParam()函数(S1400)的语法。VoffBrirParam()函数(S1400)是VOFF参数获取函数，并且接收用于VOFF处理的VOFF系数及与之相关的参数。

首先，为了接收用于每个子带的截断子带滤波器系数和表示构成子带滤波器系数的VOFF系数的数值特性的参数，VOFF参数获取函数接收分配给相应参数的比特数信息。即，接收滤波器阶数的比特数信息“nBitNFilter”、块长度的比特数信息“nBitNFft”以及块编号的比特数信息“nBitNBlk”(S1401，S1402和S1403)。

接下来，相对于每个频带k，VOFF参数获取函数重复地执行步骤S1410至S1423以实现双耳渲染。在这种情况下，相对于作为执行双耳渲染的频带的数量信息的kMax，子带索引k具有从0到kMax-1的值。

详细地，VOFF参数获取函数接收相应子带k的滤波器阶数信息“nFilter[k]”、VOFF系数的块长度(即，FFT大小)信息“nFft[k]”以及用于每一子带的块编号信息“nBlk[k]”(S1410,S1411和S1413)。根据本发明的示例性实施例，可以接收用于每一子带的逐块VOFF系数集合，以及预定块长度，即，VOFF系数长度可以被确定为2次幂的值。因此，由比特流接收的块长度信息“nFft[k]”可以表示VOFF系数长度的索引值以及双耳渲染器可以计算作为从2至“nFft[k]”的VOFF系数的长度的“fftLength”(S1412)。

接下来，VOFF参数获取函数接收用于相应块中的每个子带索引k、块索引b、BRIR索引nr和频域时隙索引v的VOFF系数(S1420至S1423)。在本文中，BRIR系数nr表示作为传送的双耳滤波器对的数量中的“nBrirPairs”中，相应的BRIR滤波器对的索引。传送的双耳滤波器对的数量“nBrirPairs”可以表示虚拟扬声器的数量、声道的数量或将由双耳滤波器对滤波的HOA分量的数量。此外，索引b表示作为相应子带k中的所有块的数量的“nBlk[k]”中的相应VOFF系数块的索引。索引v表示具有长度“fftLength”的每一块的时隙索引。VOFF参数获取函数接收用于索引k,b,nr和v的每一个的实值的左输出声道VOFF系数(S1420)、虚值的左输出声道VOFF系数(1421)、实值的右输出声道VOFF系数(S1422)和虚值的右输出声道VOFF系数(1423)的每一个。本发明的双耳渲染器接收对应于相对于每一子带k，在相应的子带中确定的fftLength长度的每块b的每一BRIR滤波器对的VOFF系数并且如上所述，通过使用接收的VOFF系数。执行VOFF处理。

根据本发明的示例性实施例，相对于执行双耳渲染的所有频带(子带索引0至kMax-1)，接收VOFF系数。即，VOFF参数获取函数接收用于第二子带组和第一子带组的所有频带的VOFF系数。当相对于第二子带组的每一子带信号，执行QTDL处理时，双耳渲染器可以仅相对于第一子带组的子带，执行VOFF处理。然而，当相对于第二子带组的每一子带信号，不执行QTDL处理时，双耳渲染可以相对于第一子带组和第二子带组的每一频带，执行VOFF处理。

图15根据本发明的示例性实施例，示出QtdlParam()函数(S1500)的语法。QtdlParam()函数(S1500)是QTDL参数获取函数并且接收用于QTDL处理的至少一个参数。在图15的示例性实施例中，将省略与图14的示例性实施例相同部分的重复描述。

根据本发明的示例性实施例，可以相对于第二子带组，即，子带索引kConv和kMax-1之间的每一频带执行QTDL处理。因此，相对于子带索引k,QTDL参数获取函数重复地执行步骤S1501至S1507达kMax-kConv次以接收用于第二子带组的每一子带的QTDL参数。

首先，QTDL参数获取函数接收分配给每一子带的延迟信息的比特数信息“nBitQtdlLag[k]”(S1501)。接着，QTDL参数获取函数接收QTDL参数，即，用于每一子带索引k的增益信息和延迟信息以及BRIR索引nr(S1502至S1507)。更详细地说，QTDL参数获取函数接收用于索引k和nr的每一个的左输出声道的实值信息(S1502)、左输出声道增益的虚值信息(S1503)、右输出声道的实值信息(S1504)、右输出声道增益的虚值信息(S1505)、左输出声道延迟信息(S1506)和右输出声道延迟信息(S1507)的每一个。根据本发明的示例性实施例，双耳渲染接收实值的增益信息以及用于每一子带k的左/右输出声道的虚值的增益信息和延迟信息，以及第二子带组的每一BRIR滤波器对nr，并且通过使用实值的增益信息以及虚值的延迟信息，对第二子带组的每一子带信号，执行单抽头延迟线滤波。

<VOFF处理的变形示例性实施例>

同时，根据本发明的另一示例性实施例，双耳渲染器可以执行声道相关VOFF处理。为此，对每一声道，各个子带滤波器系数的滤波器阶数可以设定成彼此不同。例如，用于输入信号具有更多能量的前声道的滤波器阶数可以被设定成高于用于输入信号具有相对小能量的后声道的滤波器阶数。因此，相对于前声道，增加在双耳渲染后反射的分辨率，以及相对于后声道，通过小的计算量，执行渲染。在本文中，前声道和后声道的分类不限于分配给多声道输入信号的每一声道的声道名称，以及各个声道可以基于预定空间参考，分成前声道和后声道。此外，根据本发明的另外的示例性实施例可以基于预定空间参考，将多声道的各个声道分成三个或以上声道组，以及可以将不同滤波器阶数用于每一声道组。替代地，作为对应于每一声道的子带滤波器系数的滤波器阶数，可以基于虚拟再现空间中的相应声道的位置信息，使用应用不同加权的值。

如上所述，为了对每一声道应用不同的滤波器阶数，可以相对于混合时间显著长于基本滤波器阶数N_Filter[k]的声道，使用调整的滤波器阶数。参考图16，可以由相应子带的平均混合时间，确定子带k的基本滤波器阶数N_Filter[k]，以及如在等式4中所述，基于相应子带的每一声道的混响时间信息的平均值(即，平均混响时间信息)，计算平均混合时间。然而，可以将调整的滤波器阶数应用于单个混合时间比平均混合时间长预定值或更大的声道#6(ch 6)和声道#9(ch 9)。当用于输入声道索引m、左/右输出声道索引i和子带索引k的子带滤波器系数的混响时间信息为RT(k,m,i)并且相应子带的基本滤波器阶数为N_Filter[k]时，如在下文给出的等式中所示，可以获得对每一声道调整的滤波器阶数

[等式12]

即，可以将调整的滤波器阶数确定为相应子带的基本滤波器阶数的整数倍，以及可以将用于基本滤波器阶数的调整的滤波器阶数的倍率确定为通过四舍五入相应声道的混响时间信息与基本滤波器阶数的比获得的值。同时，根据本发明的示例性实施例，根据等式5，可以将相应子带的基本滤波器阶数确定为值N_Filter[k]值，但根据另一示例性实施例，可以将根据等式6的曲线拟合N'_Filter[k]用作基本滤波器阶数。此外，可以将调整的滤波器阶数的倍率确定为包括相应声音的混响时间信息与基本滤波器阶数的比的上舍值、下舍入值等的其他近似值。当如上所述，将调整的滤波器阶数用于每一声道时，还可以响应滤波器阶数的变化，调整用于后期混响处理的参数。

根据本发明的另一示例性实施例，双耳渲染器可以执行可缩放VOFF处理。在上述示例性实施例中，描述了将混响时间信息RT20用于确定用于每一子带的滤波器阶数。然而，当使用更长混响时间信息时，即，当VOFF部与BRIR能量比(VBER)更高时，双耳渲染的质量和复杂度增加或反之亦然。根据本发明的示例性实施例，双耳渲染器可以选择用于VOFF处理的截断子带滤波器系数的VBER。即，参数化单元可以基于最大VBER，提供截断子带滤波器系数，以及获得截断子带滤波器系数的双耳渲染器可以基于设备状态信息，诸如相应设备的计算量、剩余电池容量等或用户输入，调整将用于VOFF处理的截断子带滤波器系数的VBER。例如，参数化单元可以提供VBER 40的截断子带滤波器系数(即通过使用RT40确定的由滤波器阶数截断的子带滤波器系数)以及双耳渲染器可以根据相应设备的状态信息，选择VBER40的VBER(最大VBER)或更小。当选择小于最大VBER的VBER(即VBER 10)时，双耳渲染器可以基于选择的VBER(即VBER 10)，重新截断每一子带滤波器系数并且通过使用重新截断的子带滤波器系数，执行VOFF处理。然而，在本发明中，最大VBER不限于VBER 40，以及可以将大于或小于VBER 40的值用作最大VBER。

图17和18示出用于实现变形示例性实施例的FdBinauralRendererParam2()函数(S1700)和VoffBrirParam2()函数(S1800)的语法。根据本发明的变形示例性实施例，图17和18的FdBinauralRendererParam2()函数(S1700)和VoffBrirParam2()函数(S1800)分别是频域参数获取函数和VOFF参数获取函数。在图17和18的示例性实施例中，将省略与图13和14的示例性实施例相同部分的重复描述。

首先，参考图17，频域参数获取函数将输出声道数量nOut设定为2(S1701)，以及通过步骤S1702至S1706，接收用于频域中的双耳滤波的各个参数。分别与图13的步骤S1302至S1306类似，执行步骤S1702至S1706。接着，频域参数获取函数接收VBER数量信息“nVBER”和表示是否执行声道相关VOFF处理的标记“flagChannelDependent”(S1707和S1708)。在本文中，“nVBER”可以表示有关用在双耳渲染器的VOFF处理中的VBERs的数量的信息，更详细地说，表示用于确定截断子带滤波器系数的滤波器阶数的混响时间信息的数量。例如，当用于RT10,RT20和RT40的任何一个的截断子带滤波器系数用在双耳渲染器中时，可以将“nVBER”确定为3。

接着，频域参数获取函数相对于VBER索引n，重复地执行步骤S1710至S1714。在这种情况下，VBER索引n可以具有0和nVBER-1之间的值以及越高索引表示越高RT值。更详细地说，相对于每一VBER索引n，接收VOFF处理复杂性信息(“VoffComplexity[n]”)(S1710)以及基于“flagChannelDepedent”的值，接收滤波器阶数信息。当执行声道相关VOFF处理时(即，当flagChannelDependent＝＝1时)，频域参数获取函数接收在用于VBER索引n和BRIR索引nr的每一滤波器阶数分配的比特数信息“nBitNFilter[nr][n]”(S1711)并且接收用于VBER索引n、BRIR索引nr和子带索引k的组合的每一滤波器阶数信息“nFilter[nr][n][k]”(S1712)。然而，当不执行声道相关VOFF处理时(即，当flagChannelDependent＝＝0时)，频域参数获取函数接收在用于VBER索引n的每一滤波器阶数分配的比特数信息“nBitNFilter[n]”(S1713)并且接收用于VBER索引n和子带索引k的组合的每一滤波器阶数信息“nFilter[n][k]”(S1714)。同时，尽管在图17的语法中未示出，但频域参数获取函数可以接收用于BRIR索引nr和子带索引k的组合的每一滤波器阶数信息“nFilter[nr][k]”。

如上所述，根据图17的示例性实施例，可以相对于VBER索引和BRIR索引(即，声道索引)以及每一子带索引的至少一个的另外的组合，确定滤波器阶数信息。接着，频域参数获取函数执行“VoffBrirParam2()”函数来接收VOFF参数(S1800)。如上所述，当输入IR滤波器系数是BRIR滤波器系数时(即当flagHrir＝＝0时)，另外执行“SfrBrirParam()”函数，因此，可以接收用于后期混响处理的参数(S1450)。此外，频域参数获取函数执行“QtdlBrirParam()”函数来接收QTDL参数(S1500)。

图18示出根据本发明的示例性实施例的VoffBrirParam2()函数(S1800)的语法。参考图18，VOFF参数获取函数接收用于每一子带索引k、BRIR索引nr和频域时隙索引v的截断子带滤波器系数(S1820至S1823)。在本文中，索引v具有0和nFilter[nVBER-1][k]-1之间的值。因此，VOFF参数获取函数接收用于对应于最大VBER索引(即最大RT值)的每一子带的滤波器阶数nFilter[nVBER-1][k]的长度的截断子带滤波器系数。在这种情况下，接收用于索引k,nr和v的每一个的实值的左输出声道截断子带滤波器系数(S1820)、虚值的左输出声道截断子带滤波器系数(S1821)、实值的右输出声道截断子带滤波器系数(S1822)和虚值的右输出声道截断子带滤波器系数(S1823)。如上所述，当接收到对应于最大VBER的截断子带滤波器系数时，双耳渲染可以通过滤波器阶数nFilter[n][k]，重新编辑相应的子带滤波器系数，取决于为实现渲染选择的VBER，并且将重新编辑的子带滤波器系数用在VOFF处理中。

如上所述，根据图18的示例性实施例，双耳渲染器接收具有相对于每一子带k和BRIR索引nr，在相应的子带中确定的滤波器阶数nFilter[nVBER-1][k]的长度的截断子带滤波器系数，并且通过使用该截断子带滤波器系数，执行VOFF处理。同时，尽管图18中未示出，但当如在上述示例性实施例中所述，描述声道相关VOFF处理时，索引v可以具有在0的nFilter[nr][nVBER-1][k]-1和在0的nFilter[nr][k]-1之间的值。即，基于综合考虑用在VOFF处理中的每一BRIR索引(声道索引)nr的滤波器阶数，接收截断子带滤波器系数。

尽管通过上述详细示例性实施例，描述了本发明，但在不背离本发明的精神和范围的情况下，本领域的技术人员也可以做出本发明的改进和改变。即，尽管在本发明中，已经描述了用于多音频信号的双耳渲染的示例性实施例，能类似地应用本发明，甚至扩展到包括音频信号和视频信号的各种多媒体信号。因此，认为本领域的技术人员从本发明的详细描述和示例性实施例，对本发明的简单推断包括在本发明的主张中。

发明的方式

如上，已经在最佳实施方式中描述了相关特征。

工业实用性

本发明能应用于处理多媒体信号的各种形式的装置，包括用于处理音频信号的装置和用于处理视频信号的装置等。

此外，本发明能应用于生成用于音频信号处理和视频信号处理的参数的参数化设备。

Claims

1.一种用于处理音频信号的方法，所述方法包括：

接收输入音频信号；

接收每个子带的快速傅里叶变换FFT长度信息；

基于所述FFT长度信息获得每个子带的滤波器系数的块长度信息，其中所述块长度被确定为具有相应的子带的所述FFT长度信息作为指数值的2的幂的值；

接收每个子带的滤波器系数的块数目信息；

接收用于每个索引集的滤波器系数，其中，所述索引集包括用于具有根据所述块长度信息的长度的每个块中的子带索引、双耳滤波器对索引、所述块数目中的块索引、以及时隙索引，其中，基于相应的子带的滤波器阶数确定用于相同子带索引和相同双耳滤波器对索引的滤波器系数的总长度；和

通过使用与其对应的所接收的滤波器系数对所述输入音频信号的每个子带信号进行滤波。

2.根据权利要求1所述的方法，其中，将所述滤波器阶数确定为在频域中是可变的。

3.根据权利要求1所述的方法，其中，基于从相应的子带的滤波器系数提取的特性信息来确定所述滤波器阶数。

4.根据权利要求1所述的方法，其中，所述滤波器阶数对于每个子带具有单个值。

5.根据权利要求1所述的方法，其中，所述索引中的每个的所述滤波器系数包括实数值的左输出通道滤波器系数、虚数值的左输出通道滤波器系数、所述实数值的右输出通道滤波器系数、以及所述虚数值的右输出通道滤波器系数。

6.根据权利要求1所述的方法，其中，基于通过将子带中的参考滤波器长度的两倍除以根据所述块长度信息的所述长度而获得的值来确定所述子带中的所述块数目，并且

其中，基于相应的子带的滤波器阶数确定所述参考滤波器长度。

7.根据权利要求1所述的方法，其中，以具有根据所述块长度信息的长度的块为单位接收所述滤波器系数。

8.一种用于处理音频信号的装置，所述装置包括：

快速卷积单元，所述快速卷积单元被配置为执行对输入音频信号的一个或多个子带信号的滤波，

其中，所述快速卷积单元被配置为：

接收输入音频信号，

接收每个子带的快速傅里叶变换FFT长度信息；

接收每个子带的滤波器系数的块数目信息，

9.根据权利要求8所述的装置，其中，将所述滤波器阶数确定为在频域中是可变的。

10.根据权利要求8所述的装置，其中，基于从相应的子带的滤波器系数提取的特性信息来确定所述滤波器阶数。

11.根据权利要求8所述的装置，其中，所述滤波器阶数对于每个子带具有单个值。

12.根据权利要求8所述的装置，其中，所述索引中的每个的所述滤波器系数包括实数值的左输出通道滤波器系数、虚数值的左输出通道滤波器系数、所述实数值的右输出通道滤波器系数、以及所述虚数值的右输出通道滤波器系数。

13.根据权利要求8所述的装置，其中，基于通过将子带中的参考滤波器长度的两倍除以根据所述块长度信息的所述长度而获得的值来确定所述子带中的所述块数目，并且

14.根据权利要求8所述的装置，其中，以具有根据所述块长度信息的长度的块为单位接收所述滤波器系数。