CN108347689B

CN108347689B - 用于处理音频信号的方法和设备

Info

Publication number: CN108347689B
Application number: CN201810180321.2A
Authority: CN
Inventors: 李泰圭; 吴贤午; 朴荣喆; 尹大熙; 徐廷一; 李用主; 白承权; 姜京玉; 张大永
Original assignee: Yonsei University Industrial Academic Cooperative; Electronics and Telecommunications Research Institute ETRI; Wilus Institute of Standards and Technology Inc
Current assignee: Yonsei University Industrial Academic Cooperative; Electronics and Telecommunications Research Institute ETRI; Wilus Institute of Standards and Technology Inc
Priority date: 2013-10-22
Filing date: 2014-10-22
Publication date: 2021-01-01
Anticipated expiration: 2034-10-22
Also published as: US20200152211A1; US20190122676A1; EP3062535A4; CN105874819B; WO2015060654A1; EP3062534A1; CN108449704B; WO2015060652A1; KR20160083859A; US12014744B2; EP3062534B1; US20160277865A1; KR101804744B1; CN108347689A; CN105900455B; US10692508B2; CN105900455A; EP3062535A1; KR101804745B1; KR20160083860A

Abstract

本发明提供一种用于处理音频信号的方法和设备，该方法包括以下步骤：接收输入音频信号；接收用于滤波输入音频信号的各个子带信号的被截断的子带滤波器系数，其中被截断的子带滤波器系数包括在相对应的子带中在预设块单元中通过快速傅里叶变换获得的至少一个FFT滤波器系数；基于在相对应的子带中在预设的子帧单元执行用于子带信号的快速傅里叶变换；通过将快速傅里叶变换的子帧和FFT滤波器系数相乘生成被滤波的子帧；对被滤波的子帧执行逆快速傅里叶变换；以及通过重叠添加被逆快速傅里叶变换的至少一个子帧生成被滤波的子带信号。

Description

用于处理音频信号的方法和设备

本申请是2016年4月22日提交的国际申请日为2014年10月22日的申请号为201480058320.0(PCT/KR2014/009975)的，发明名称为“用于处理音频信号的方法和设备”专利申请的分案申请。

技术领域

本发明涉及一种用于处理信号的方法和设备，其被用于有效地再现音频信号，并且更加特别地，涉及一种用于处理音频信号的方法和设备，其被用于以低计算复杂性实现对于输入音频信号的滤波。

背景技术

存在随着目标滤波器的长度增加，用于立体收听多声道信号的双耳渲染要求高计算复杂性的问题。特别地，当使用反映了录音室特性的双耳室脉冲响应(BRIR)滤波器时，BRIR滤波器的长度可以达到48000至96000个采样。在此，当输入声道的数目像22.2声道格式一样增加时，计算复杂性是巨大的。

当通过x_i(n)表示第i个声道的输入信号时，通过b_i ^L(n)和b_i ^R(n)分别表示相对应的声道的左右BRIR滤波器，并且通过y^L(n)和y^R(n)表示输出信号，通过下面给出的等式能够表达双耳滤波。

[等式1]

在此，*表示卷积。通常基于快速傅立叶变换(FFT)通过使用快速卷积执行上述时域卷积。当通过使用快速卷积执行双耳渲染时，需要通过与输入声道的数目相对应的次数执行FFT，并且需要通过与输出声道的数目相对应的次数执行逆FFT。此外，因为像多声道音频编解码器一样在实时再现环境下需要考虑延迟，因此需要执行分块快速卷积，并且与相对于总长度仅执行快速卷积的情况下相比可能消耗更多的计算复杂性。

然而，在频域中实现大多数编译方案，并且在一些编译方案(例如，HE-AAC、USAC等等)中，在QMF域中执行解码的最后步骤。因此，当如在上面给出的等式1中所示在时域中执行双耳滤波时，另外要求有与声道的数目一样多的用于QMF合成的操作，这是非常低效的。因此，在QMF域中直接地执行双耳渲染是有优势的。

发明内容

技术问题

本发明具有下述目的，关于立体再现多声道或者多对象信号，实现双耳渲染的要求高计算复杂性的滤波过程，用于以非常低的复杂性保留原始信号的沉浸感同时最小化音质的损坏。

此外，本发明具有当在输入信号中包含失真时通过使用高质量的滤波器最小化失真的扩展的目的。

此外，本发明具有通过具有较短长度的滤波器实现具有长度长的有限脉冲响应(FIR)滤波器的目的。

此外，本发明具有当通过使用被截断的FIR滤波器执行滤波时最小化由于丢弃的滤波器系数而破坏的部分的失真的目的。

技术方案

为了实现目的，本发明提供一种如下面的用于处理音频信号的方法和设备。

首先，本发明的示例性实施例提供一种用于处理音频信号的方法，包括：接收输入音频信号；接收用于滤波输入音频信号的各个子带信号的被截断的子带滤波器系数，被截断的子带滤波器系数是从用于输入音频信号的双耳滤波的双耳室脉冲响应(BRIR)滤波器系数获得的子带滤波器系数的至少一部分，基于通过至少部分地使用从相对应的子带滤波器系数提取的特性信息获得的滤波器阶数信息确定被截断的子带滤波器系数的长度，并且通过其中已经执行在相对应的子带中按照预先确定的块大小的快速傅里叶变换(FFT)的至少一个FFT滤波器系数组成被截断的子带滤波器系数；在相对应的子带中基于预先确定的子帧大小执行子带信号的快速傅里叶变换；通过将快速傅里叶变换的子帧和FFT滤波器系数相乘生成被滤波的子帧；逆快速傅里叶变换被滤波的子帧；以及通过重叠添加被逆快速傅里叶变换的至少一个子帧生成被滤波的子带信号。

本发明的另一示例性实施例提供一种用于处理音频信号的设备，其被用于执行用于输入音频信号的双耳渲染，各个输入音频信号包括多个子带信号，该设备包括：快速卷积单元，该快速卷积单元执行对于每个子带信号的直接声音和前期反射声部分的渲染，其中快速卷积单元接收输入音频信号；接收用于滤波输入音频信号的各个子带信号的被截断的子带滤波器系数，被截断的子带滤波器系数是从用于输入音频信号的双耳滤波的双耳室脉冲响应(BRIR)滤波器系数获得的子带滤波器系数的至少一部分，基于通过至少部分地使用从相对应的子带滤波器系数提取的特性信息获得的滤波器阶数信息确定被截断的子带滤波器系数的长度，并且通过其中已经执行在相对应的子带中按照预先确定的块大小的快速傅里叶变换(FFT)的至少一个FFT滤波器系数组成被截断的子带滤波器系数；在相对应的子带中基于预先确定的子帧大小执行子带信号的快速傅里叶变换；通过将快速傅里叶变换的子帧和FFT滤波器系数相乘生成被滤波的子帧；逆快速傅里叶变换被滤波的子帧；并且通过重叠添加被逆快速傅里叶变换的至少一个子帧生成被滤波的子带信号。

本发明的另一示例性实施例提供一种用于处理音频信号的方法，包括：接收输入音频信号；接收用于滤波输入音频信号的各个子带信号的被截断的子带滤波器系数，被截断的子带滤波器系数是从用于输入音频信号的双耳滤波的双耳室脉冲响应(BRIR)滤波器系数获得的子带滤波器系数的至少一部分，并且基于通过至少部分地使用从相对应的子带滤波器系数提取的特性信息获得的滤波器阶数信息确定被截断的子带滤波器系数的长度；在相对应的子带中按照预先确定的块大小通过快速傅里叶变换(FFT)被截断的子带滤波器系数获得至少一个FFT滤波器系数；在相对应的子带中基于预先确定的子帧执行子带信号的快速傅里叶变换；通过将快速傅里叶变换的子帧和FFT滤波器系数相乘生成被滤波的子帧；逆快速傅里叶变换被滤波的子帧；以及通过重叠添加被逆快速傅里叶变换的至少一个子帧生成被滤波的子带信号。

本发明的另一示例性实施例提供一种用于处理音频信号的设备，其被用于执行用于输入音频信号的双耳渲染，各个输入音频信号包括多个子带信号，该设备包括：快速卷积单元，该快速卷积单元执行对于每个子带信号的直接声音和前期反射声部分的渲染，其中快速卷积单元接收输入音频信号；接收用于滤波输入音频信号的各个子带信号的被截断的子带滤波器系数，被截断的子带滤波器系数是从用于输入音频信号的双耳滤波的双耳室脉冲响应(BRIR)滤波器系数获得的子带滤波器系数的至少一部分，并且基于通过至少部分地使用从相对应的子带滤波器系数提取的特性信息获得的滤波器阶数信息确定被截断的子带滤波器系数的长度；在相对应的子带中按照预先确定的块大小通过快速傅里叶变换(FFT)被截断的子带滤波器系数获得至少一个FFT滤波器系数；在相对应的子带中基于预先确定的子帧执行子带信号的快速傅里叶变换；通过将快速傅里叶变换的子帧和FFT滤波器系数相乘生成被滤波的子帧；逆快速傅里叶变换被滤波的子帧；并且通过重叠添加被逆快速傅里叶变换的至少一个子帧生成被滤波的子带信号。

在这样的情况下，特性信息可以包括相对应的子带滤波器系数的混响时间信息，并且滤波器阶数信息可以对于每个子带具有单个值。

此外，至少一个被截断的子带滤波器系数的长度可以不同于另一子带的被截断的子带滤波器系数的长度。

预先确定的块的长度和预先确定的子帧的长度可以具有2的幂的值。

在相对应的子带中基于预先确定的块的长度确定预先确定的子帧的长度。

根据本发明的示例性实施例，快速傅里叶变换的执行可以包括：将子带信号分割成预先确定的子帧大小；生成包括通过被分割的子帧组成的前半部分和通过零填充的值组成的后半部分的临时子帧；以及快速傅里叶变换被产生的临时子帧。

根据本发明的另一示例性实施例提供一种用于生成音频信号的滤波器的方法，包括：接收用于滤波输入音频信号的各个子带信号的至少一个原型滤波器系数；将原型滤波器系数转换成多个子带滤波器系数；基于通过至少部分地使用从相对应的子带滤波器系数提取的特性信息获取的滤波器阶数信息截断子带滤波器系数中的每一个，至少一个被截断的子带滤波器系数的长度不同于另一子带的被截断的子带滤波器系数的长度；以及在相对应的子带中按照预先确定的块通过快速傅里叶变换(FFT)被截断的子带滤波器系数生成FFT滤波器系数。

本发明的另一示例性实施例提供一种用于生成音频信号的滤波器的参数化单元，其中参数化单元接收用于滤波输入音频信号的各个子带信号的至少一个原型滤波器系数；将原型滤波器系数转换成多个子带滤波器系数；基于通过至少部分地使用从相对应的子带滤波器系数提取的特性信息获得的滤波器阶数信息截断子带滤波器系数中的每一个，至少一个被截断的子带滤波器系数的长度不同于另一子带的被截断的子带滤波器系数的长度；以及在相对应的子带中按照预先确定的块通过快速傅里叶变换(FFT)被截断的子带滤波器系数生成FFT滤波器系数。

此外，预先确定的块的长度可以被确定为在被截断的子带滤波器系数的参考滤波器长度的两倍的值和预先确定的最大FFT大小之间的较小值，并且参考滤波器长度可以以2的幂的形式表示滤波器阶数的近似值和真值中的任意一个。

当参考滤波器参数是N并且与其相对应的预先确定的块的长度是M时，M可以是2的幂的值并且2N＝kM(k是自然数)。

根据本发明的示例性实施例，FFT滤波器系数的产生可以包括：将被截断的子带滤波器系数分割成预先确定的块大小的一半；使用被分割的滤波器系数生成预先确定的块大小的临时滤波器系数，通过被分割的滤波器系数组成临时滤波器系数的前半部分并且通过零填充的值组成临时滤波器系数的后半部分；以及快速傅里叶变换被生成的临时滤波器系数。

此外，原型滤波器系数可以是时域的BRIR滤波器系数。

本发明的另一示例性实施例提供一种用于处理音频信号的方法，包括：接收输入音频信号，各个输入音频信号包括多个子带信号，并且基于预先确定的频带多个子带信号包括具有低频率的第一子带组的信号和具有高频率的第二子带组的信号；接收用于滤波第一子带组的各个子带信号的被截断的子带滤波器系数，被截断的子带滤波器系数是从用于滤波输入音频信号的原型滤波器系数获得的子带滤波器系数的至少一部分，并且基于通过至少部分地使用从相对应的子带滤波器系数提取的特性信息获得的滤波器阶数信息确定被截断的子带滤波器系数的长度；在相对应的子带中按照预先确定的块大小通过快速傅里叶变换(FFT)被截断的子带滤波器系数获得至少一个FFT滤波器系数；在相对应的子带中基于预先确定的子帧执行子带信号的快速傅里叶变换；通过将快速傅里叶变换的子帧和FFT滤波器系数相乘生成被滤波的子帧；逆快速傅里叶变换被滤波的子帧；以及通过重叠添加被逆快速傅里叶变换的至少一个子帧生成被滤波的子带信号。

本发明的另一示例性实施例提供一种用于处理音频信号的设备，其用于执行输入音频信号的额滤波，各个输入音频信号包括多个子带信号，并且基于预先确定的频带多个子带信号包括具有低频率的第一子带组的信号和具有高频率的第二子带组的信号，该设备包括：快速卷积单元，该快速卷积单元执行第一子带组的各个子带信号的滤波；抽头延迟线处理单元，该抽头延迟线处理单元执行第二子带组的各个子带信号的滤波，其中该快速卷积单元接收输入音频信号；接收用于滤波第一子带组的各个子带信号的被截断的子带滤波器系数，被截断的子带滤波器系数是从用于滤波输入音频信号的原型滤波器系数获得的子带滤波器系数的至少一部分，并且基于通过至少部分地使用从相对应的子带滤波器系数提取的特性信息获得的滤波器阶数信息确定被截断的子带滤波器系数的长度；在相对应的子带中按照预先确定的块大小通过快速傅里叶变换(FFT)被截断的子带滤波器系数获得至少一个FFT滤波器系数；在相对应的子带中基于预先确定的子帧执行子带信号的快速傅里叶变换；通过将快速傅里叶变换的子帧和FFT滤波器系数相乘生成被滤波的子帧；逆快速傅里叶变换被滤波的子帧；并且通过重叠添加被逆快速傅里叶变换的至少一个子帧生成被滤波的子带信号。

在这样的情况下，一种用于处理音频信号的方法可以进一步包括：接收与第二子带组的各个子带信号相对应的至少一个参数，从与各个子带信号相对应的子带滤波器系数提取至少一个参数；和通过使用接收到的参数执行第二子带组的子带信号的抽头延迟线滤波。

此外，抽头延迟线处理单元可以接收与第二子带组的各个子带信号相对应的至少一个参数，并且可以从与各个子带信号相对应的子带滤波器系数提取至少一个参数，并且抽头延迟线处理单元可以通过使用接收到的参数执行第二子带组的子带信号的抽头延迟线滤波。

在这样的情况下，抽头延迟线滤波可以是使用参数的一抽头延迟线滤波。

有益效果

根据本发明的示例性实施例，当执行对于多声道或者多对象信号的双耳渲染时，能够显著地减少计算复杂性同时最小化音质的损耗。

根据本发明的示例性实施例，能够实现其实时处理在现有的低功率设备中不可行的多声道或者多对象音频信号的高音质的双耳渲染。

本发明提供一种以低计算复杂性有效地执行对于包括输入的音频信号的各种形式的多媒体信号的滤波的方法。

附图说明

图1是图示根据本发明的示例性实施例的音频信号解码器的框图。

图2是图示根据本发明的示例性实施例的双耳渲染器的每个组件的框图。

图3至图7是图示根据本发明的实施例的用于处理音频信号的设备的各种示例性实施例的图。

图8至图10是图示根据本发明的示例性实施例的用于生成用于双耳渲染的FIR滤波器的方法的图。

图11至图14是图示本发明的P部分渲染单元的各种示例性实施例的图。

图15和图16是图示本发明的QTDL处理的各种示例性实施例的图。

图17和图18是图示使用分块快速卷积的音频信号处理方法的示例性示例的图。

图19是图示在本发明的快速卷积单元中的音频信号处理过程的示例性示例的图。

具体实施方式

作为在本说明书中使用的术语，通过考虑本发明中的功能，当前尽可能被广泛地使用的通用术语被选择，但是它们可以取决于本领域中的技术人员的意图、习惯或者新技术的出现而被改变。此外，在特定的情况下，申请人任意地选择的术语可以被使用，并且在此情况下，在本发明的相对应的描述部分中辨别其意义。因此，贯穿整个说明书，将会公开在本说明书中使用的术语应基于不是仅术语的名称而且术语的本质意义和内容分析。

图1是图示根据本发明的示例性实施例的音频信号解码器的框图。根据本发明的音频信号解码器包括核心解码器10、渲染单元20、混合器30以及后处理单元40。

首先，核心解码器10解码扬声器声道信号、离散对象信号、对象缩混信号、以及预渲染的信号。根据示例性实施例，在核心解码器10中，基于统一的语音和音频编译(USAC)的编解码器可以被使用。核心解码器10解码接收到的比特流并且将被解码的比特流传输到渲染单元20。

渲染单元20通过使用再现布局信息执行对通过核心解码器10解码的信号渲染。渲染单元20可以包括格式转换器22、对象渲染器24、OAM解码器25、SAOC解码器26、以及HOA解码器28。渲染单元20根据被解码的信号的类型通过使用上述组件中的任何一个执行渲染。

格式转换器22将发送的声道信号转换成输出扬声器声道信号。即，格式转换器22在发送的声道配置和要被再现的扬声器声道配置之间执行转换。当输出扬声器声道的数目(例如，5.1声道)小于发送的声道的数目(例如，22.2声道)或者发送的声道配置不同于要被再现的声道配置时，格式转换器22执行发送的声道信号的缩混。本发明的音频信号解码器可以通过使用输入声道信号和输出扬声器声道信号的组合生成最佳的缩混矩阵，并且通过使用该矩阵执行缩混。根据本发明的示例性实施例，通过格式转换器22处理的声道信号可以包括预渲染的对象信号。根据示例性实施例，在编码音频信号以与声道信号混合之前，预渲染至少一个对象信号。与声道信号一起，如上所述的被混合的对象信号可以被格式转换器22转换成输出扬声器声道信号。

对象渲染器24和SAOC解码器26执行对于基于对象的音频信号的渲染。基于对象的音频信号可以包括离散对象波形和参数对象波形。在离散对象波形的情况下，每个对象信号以单声波形被提供给编码器，并且编码器通过使用单个声道要素(SCE)发送对象信号中的每个。在参数对象波形的情况下，多个对象信号被缩混成至少一个声道信号，并且每个对象的特征和对象之间的关系被表达为空间音频对象编译(SAOC)参数。对象信号被缩混以被编码到核心编解码器，并且此时生成的参数信息被一起发送到解码器。

同时，当离散对象波形或者参数对象波形被发送到音频信号解码器时，与其相对应的被压缩的对象元数据可以被一起发送。对象元数据以时间和空间为单位量化对象属性，以在3D空间中指定每个对象的位置和增益值。渲染单元20的OAM解码器25接收被压缩的对象元数据并且解码接收到的对象元数据，并且将被解码的对象元数据传输到对象渲染器24和/或SAOC解码器26。

对象渲染器24通过使用对象元数据根据给定的再现格式执行渲染每个对象信号。在这样的情况下，基于对象元数据，每个对象信号可以被渲染到特定的输出声道。SAOC解码器26从解码的SAOC传输声道和参数信息恢复对象/声道信号。SAOC解码器26可以基于再现布局信息和对象元数据生成输出音频信号。正因如此，对象渲染器24和SAOC解码器26可以将对象信号渲染到声道信号。

HOA解码器28接收高阶环境声(HOA)系数信号和HOA附加信息，并且解码接收到的HOA系数信号和HOA附加信息。HOA解码器28通过单独的等式建模声道信号或者对象信号，以生成声音场景。当选择在生成的声音场景中的扬声器的空间位置时，可以执行到扬声器声道信号的渲染。

同时，虽然在图1中未被图示，当音频信号被传输到渲染单元20的每个组件时，动态范围控制(DRC)可以作为预处理过程被执行。DRX将再现的音频信号的动态范围限于预先确定的水平，并且将小于预先确定的阈值的声音调节成较大并且将大于预先确定的阈值的声音调节成较小。

通过渲染单元20处理的基于声道的音频信号和基于对象的音频信号可以被传输到混合器30。混合器30调节基于声道的波形和被渲染的对象波形的延迟，并且以采样为单位求和被调节的波形。通过混合器30求和的音频信号被传输到后处理单元40。

后处理单元40包括扬声器渲染器100和双耳渲染器200。扬声器渲染器100执行用于输出从混合器30传输的多声道和/或多对象音频信号的后处理。后处理可以包括动态范围控制(DRC)、响度标准化(LN)、峰值限制器(PL)等等。

双耳渲染器200生成多声道和/或多对象音频信号的双耳缩混信号。双耳缩混信号是允许通过以3D定位的虚拟声源表达每个输入声道/对象信号的2声道音频信号。双耳渲染器200可以接收被提供给扬声器渲染器100的音频信号作为输入信号。基于双耳室脉冲响应(BRIR)滤波器执行双耳渲染，并且在时域或者QMF域中执行。根据示例性实施例，作为双耳渲染的后处理过程，动态范围控制(DRC)、响度标准化(LN)、峰值限制器(PL)等等可以被另外执行。

图2是图示根据本发明的示例性实施例的双耳渲染器的每个组件的框图。如在图2中所图示，根据本发明的示例性实施例的双耳渲染器200可以包括BRIR参数化单元210、快速卷积单元230、后期混响生成单元240、QTDL处理单元250、以及混合器和组合器260。

双耳渲染器200通过执行各种类型的输入信号的双耳渲染生成3D音频耳机信号(即，3D音频2声道信号)。在这样的情况下，输入信号可以是包括声道信号(即，扬声器声道信号)、对象信号、以及HOA系数信号中的至少一个的音频信号。根据本发明的另一示例性示例，当双耳渲染器200包括特殊的解码器时，输入信号可以是前述的音频信号的被编码的比特流。双耳渲染将解码的输入信号转换成双耳缩混信号以使其能够在通过耳机听相对应的双耳缩混信号时体验环绕的声音。

根据本发明的示例性实施例，双耳渲染器200可以在QMF域中执行输入信号的双耳渲染。这就是说，双耳渲染器200可以接收QMF域的多声道(N个声道)的信号，并且通过使用QMF域的BRIP子带滤波器执行用于多声道的信号的双耳渲染。当通过x_k,i(l)表示经过QMF分析滤波器组的第i个声道的第k个子带信号并且通过1表示子带域中的时间索引时，可以通过下面给出的等式表达QMF域中的双耳渲染。

[等式2]

在此，通过将时域BRIR滤波器转换成QMF域的子带滤波器获得m∈{L，R}和

即，可以通过将QMF域的声道信号或者对象信号划分成多个子带信号并且利用与其相对应的BRIR子带滤波器卷积各自的子带信号，并且其后，求和通过BRIR子带滤波器卷积的各自的子带信号的方法，可以执行双耳渲染。

BRIR参数化单元210转换和编辑用于QMF域中的双耳渲染的BRIR滤波器系数并且生成各种参数。首先，BRIR参数化单元210接收用于多声道或者多对象的时域BRIR滤波器系数，并且将接收到的时域BRIR滤波器系数转换成QMF域BRIR滤波器系数。在这样的情况下，QMF域BRIR滤波器系数包括与多个频带分别相对应的多个子带滤波器系数。在本发明中，子带滤波器系数指示QMF转换的子带域的每个BRIR滤波器系数。在本说明书中，子带滤波器系数可以被指定为BRIR子带滤波器系数。BRIR参数化单元210可以编辑QMF域的多个BRIR子带滤波器系数中的每个，并且将被编辑的子带滤波器系数传输到快速卷积单元230等等。根据本发明的示例性实施例，BRIR参数化单元210可以被包括作为双耳渲染器200的组件，否则比提供作为单独的设备。根据示例性示例，包括除了BRIR参数化单元210之外的快速卷积单元230、后期混响生成单元240、QTDL处理单元250、以及混合器和组合器260的组件可以被分类成双耳渲染单元220。

根据示例性实施例，BRIR参数化单元210可以接收与虚拟再现空间的至少一个位置相对应的BRIR滤波器系数作为输入。虚拟再现空间的每个位置可以对应于多声道系统的每个扬声器位置。根据示例性实施例，通过BRIR参数化单元210接收到的BRIR滤波器系数中的每个可以直接地匹配双耳渲染器200的输入信号的每个声道或者每个对象。相反地，根据本发明的另一示例性实施例，接收到的BRIR滤波器系数中的每个可以具有与双耳渲染器200的输入信号独立的配置。即，通过BRIR参数化单元210接收到的BRIR滤波器系数的至少一部分可以不直接匹配双耳渲染器200的输入信号，并且接收到的BRIR滤波器系数的数目可以小于或者大于输入信号的声道和/或对象的总数目。

根据本发明的示例性实施例，BRIR参数化单元210转换和编辑与双耳渲染器200的输入信号的每个声道或者每个对象相对应的BRIR滤波器系数，以将被转换和编辑的BRIR滤波器系数传输到双耳渲染单元220。相对应的BRIR滤波器系数可以是用于每个声道或者每个对象的匹配BRIR或者回退BRIR。BRIR匹配可以被确定在虚拟再现空间中是否存在针对每个声道或者每个对象的位置的BRIR滤波器系数。在这样的情况下，从用信号发送声道配置的输入参数可以获得各个声道(或者对象)的位置信息。当针对输入信号的各自的声道或者各自的对象的位置中的至少一个的BRIR滤波器系数存在时，BRIR滤波器系数可以是输入信号的匹配BRIR。然而，当针对特定声道或者对象的位置的BRIR滤波器系数不存在时，BRIR参数化单元210可以提供针对与相对应的声道或者对象大部分相似的位置的BRIR滤波器系数，作为用于相对应的声道或者对象的回退BRIR。

首先，当存在具有在距所期待的位置(特定的声道或者对象)预先确定的范围内的高度和方位偏差的BRIR滤波器系数时，相对应的BRIR滤波器系数可以被选择。换言之，可以选择具有在距所期待的位置的+/-20内的相同的高度和方位偏差的BRIR滤波器系数。当不存在相对应的BRIR滤波器系数时，在BRIR滤波器系数集合中的具有距所期待的位置最小地理距离的BRIR滤波器系数可以被选择。即，可以选择使在相对应的BRIR的位置和所期待的位置之间的地理距离最小化的BRIR滤波器系数。在此，BRIR的位置表示与相关的BRIR滤波器系数相对应的扬声器的位置。此外，在两个位置之间的地理距离可以被定义为通过两个位置的高度偏差的绝对值和方位偏差的绝对值的求和获得的值。

同时，根据本发明的另一示例性实施例，BRIR参数单元210转换和编辑接收到的BRIR滤波器系数的全部，以将转换和编辑的BRIR滤波器系数传输到双耳渲染单元220。在这样的情况下，通过双耳渲染单元220可以执行与输入信号的每个声道或者每个对象相对应的BRIR滤波器系数(可替选地，编辑的BRIR滤波器系数)的选择过程。

双耳渲染单元220包括快速卷积单元230、后期混响生成单元240、以及QTDL处理单元250，并且接收包括多声道和/或多对象信号的多音频信号。在本说明书中，包括多声道和/或多对象信号的输入信号将会被称为多音频信号。图2图示双耳渲染单元220根据示例性实施例接收QMF域的多声道信号，但是双耳渲染单元220的输入信号可以进一步包括时域多声道信号和时域多对象信号。此外，当双耳渲染单元220另外包括特定的解码器时，输入信号可以是多音频信号的被编码的比特流。此外，在本说明书中，基于执行多音频信号的BRIR渲染的情况描述了本发明，但是本发明不限于此。因此，通过本发明提供的特征不仅可以被应用于BRIR而且可以被应用于其它类型的渲染滤波器，并且不仅被应用于多音频信号而且被应用于单声道或者单对象的音频信号。

快速卷积单元230执行在输入信号和BRIR滤波器之间的快速卷积以处理用于输入信号的直接声音和前期反射声音。为此，快速卷积单元230可以通过使用被截断的BRIR执行快速卷积。被截断的BRIR包括取决于每个子带频率截断的多个子带滤波器系数，并且通过BRIR参数化单元210生成。在这样的情况下，取决于相对应的子带的频率确定每个被截断的子带滤波器系数的长度。快速卷积单元230可以通过使用根据子带具有不同长度的被截断的子带滤波器系数在频域中执行可变阶滤波。即，在用于每个频带的QMF域子带音频信号和与其相对应的QMF域的被截断的子带滤波器之间可以执行快速卷积。在本说明书中，直接声音和前期反射(D&E)部分可以被称为前(F)部分。

后期混响生成单元240生成用于输入信号的后期混响信号。后期混响信号表示跟随由快速卷积单元230生成的直接声音和前期反射声音的输出信号。后期混响生成单元240可以基于通过从BRIR参数化单元210传输的每个子带滤波器系数确定的混响时间信息处理输入信号。根据本发明的示例性实施例，后期混响生成单元240可以生成用于输入音频信号的单声或者立体声缩混信号，并且执行被生成的缩混信号的后期混响处理。在本说明书中，后期混响(LR)部分可以被称为参数(P)部分。

QMF域抽头延迟线(QTDL)处理单元250处理输入音频信号当中的高频带中的信号。QTDL处理单元250从BRIR参数化单元210接收对应于高频带中的每个子带信号的至少一个参数，并且通过使用接收到的参数在QMF域中执行抽头延迟时间滤波。根据本发明的示例性实施例，基于预先确定的常数或者预先确定的频带，双耳渲染器200将输入音频信号分离成低频带信号和高频带信号，并且分别可以通过快速卷积单元230和后期混响生成单元240处理低频带信号，并且可以通过QTDM处理单元处理高频带信号。

快速卷积单元230、后期混响生成单元240、以及QTDL处理单元250中的每个输出2声道QMF域子带信号。混合器和组合器260组合并混合快速卷积单元230的输出信号、后期混响生成单元240的输出信号，以及QTDL处理单元250的输出信号。在这样的情况下，为2个声道的左右输出信号中的每个单独地执行输出信号的组合。双耳渲染器200在时域中对被组合的输出信号执行QMF合成以生成最终的输出音频信号。

在下文中，参考每个附图将会详细地描述在图2中图示的快速卷积单元230、后期混响生成单元240、以及QTDM处理单元250及其组合的各种示例性实施例。

图3至图7图示根据本发明的用于处理音频信号的设备的各种示例性实施例。在本发明中，作为狭义，用于处理音频信号的设备可以指示如在图2中图示的双耳渲染器200或者双耳渲染单元220。然而，在本发明中，作为广义，用于处理音频信号的设备可以指示包括双耳渲染器的图1的音频信号解码器。为了描述的方便起见在图3至图7中图示的每个双耳渲染器可以仅指示在图2中图示的双耳渲染器200的一些组件。此外，在下文中，在本说明书中，将会主要地描述多声道输入信号的示例性实施例，但是除非另外描述，否则声道、多声道、以及多声道输入信号可以分别被用作包括对象、多对象、以及多对象输入信号的概念。此外，多声道输入信号也可以被用作包括HOA解码和渲染的信号的概念。

图3图示根据本发明的示例性实施例的双耳渲染器200A。当使用BRIR的双耳渲染被一般化时，双耳渲染是用于获取用于具有M个声道的多声道输入信号的O输出信号的M至O处理。双耳滤波可以被视为在这样的过程期间使用与每个输入声道和每个输出声道相对应的滤波器系数的滤波。在图3中，初始滤波器集合H意指从每个声道信号的扬声器位置直到左耳和右耳的位置的传递函数。在传递函数当中的在一般收听室，即，混响空间中测量的传递函数被称为双耳室脉冲响应(BRIR)。相反地，在无回声室测量使得没有被再现空间影响的传递函数被称为头相关脉冲响应(HRIR)，并且其传递函数被称为头相关传递函数。因此，不同于HRTF，BRIR包含再现空间的信息以及方向信息。根据示例性实施例，可以通过使用HRTF和人工混响器代替BRIR。在本说明书中，描述了使用BRIR的双耳渲染，但是本发明不限于此，并且通过使用类似的或者对应的方法，本发明甚至可以应用于使用包括HRIR和HRTF的各种类型的FIR滤波器的双耳渲染。此外，本发明能够被应用于用于输入信号的各种形式的滤波以及用于音频信号的双耳渲染。同时，BRIR可以具有如上所述的96K个采样的长度，并且因为通过使用不同的M*O个滤波器执行多声道双耳渲染，要求有具有高计算复杂性的处理过程。

根据本发明的示例性实施例，为了优化计算复杂性，BRIR参数化单元210可以生成从原始滤波器集合H变换的滤波器系数。BRIR参数化单元210将原始滤波器系数分离成前(F)部分系数和参数(P)部分系数。在此，F部分表示直接声音和前期反射(D&E)部分，P部分表示后期混响(LR)部分。例如，具有96K个采样的长度的原始滤波器系数可以被分离成其中仅前面的4K个采样被截断的F部分和与剩余的92K个采样相对应的部分的P部分中的每个。

双耳渲染单元220从BRIR参数化单元210接收F部分系数和P部分系数中的每个，并且通过使用接收到的系数执行渲染多声道输入信号。根据本发明的示例性实施例，在图2中图示的快速卷积单元230通过使用从BRIR参数化单元210接收到的F部分系数渲染多音频信号，并且后期混响生成单元240可以通过使用从BRIR参数化单元接收到的P部分系数渲染多音频信号。即，快速卷积单元230和后期混响生成单元240可以分别对应于本发明的F部分渲染单元和P部分渲染单元。根据示例性实施例，通过一般的有限脉冲响应(FIR)滤波器可以实现F部分渲染(使用F部分系数的双耳渲染)，并且通过参数方法可以实现P部分渲染(使用P部分系数的双耳渲染)。同时，通过用户或者控制系统提供的复杂性质量控制输入可以被用于确定对F部分和/或P部分生成的信息。

图4图示根据本发明的另一示例性实施例的通过双耳渲染器200B实现F部分渲染的更加详细的方法。为了描述的方便起见，在图4中P部分渲染单元被省略。此外，图4图示在QMF域中实现的滤波器，但是本发明不限于此，并且可以被应用于其它域的子带处理。

参考图4，在QMF域中通过快速卷积单元230可以执行F部分渲染。对于在QMF域中的渲染，QMF分析单元222将时域输入信号x0、x1、…x_M-1转换成QMF域信号X0、X1、…X_M-1。在这样的情况下，输入信号x0、x1、…x_M-1可以是多声道音频信号，即，与22.2声道扬声器相对应的声道信号。在QMF域中，可以使用总共64个子带，但是本发明不限于此。同时，根据本发明的示例性实施例，从双耳渲染器200B中可以省略QMF分析单元222。在使用谱带复制(SBR)的HE-AAC或者USAC的情况下，因为在QMF域中执行处理，所以双耳渲染器200B可以在没有QMF分析的情况下立即接收作为输入的QMF域信号X0、X1、…X_M-1。因此，当QMF域信号作为如上所述的输入被直接地接收时，在根据本发明的双耳渲染器中使用的QMF与在先前的处理单元(即，SBR)中使用的QMF相同。QMF合成单元244QMF合成2个声道的左和右信号Y_L和Y_R，其中执行双耳渲染，以生成时域的2声道输出音频信号yL和yR。

图5至图7分别图示执行F部分渲染和P部分渲染两者的双耳渲染器200C、200D以及200E的示例性实施例。在图5至图7的示例性实施例中，在QMF域中通过快速卷积单元230执行F部分渲染，并且在QMF域或者时域中通过后期混响生成单元240执行P部分渲染。在图5至图7的示例性实施例中，将会省略与先前的附图的示例性实施例重复的部分的详细描述。

参考图5，双耳渲染器200C可以在QMF域中执行F部分渲染和P部分渲染两者。即，双耳渲染器200C的QMF分析单元222将时域输入信号x0、x1、…x_M-1转换成QMF域信号X0、X1、…X_M-1以将被转换的QMF域信号X0、X1、…X_M-1中的每个传输到快速卷积单元230和后期混响生成单元240。快速卷积单元230和后期混响生成单元240分别渲染QMF域信号X0、X1、…X_M-1以生成2声道输出信号Y_L、Y_R和Y_Lp、Y_Rp。在这样的情况下，快速卷积单元230和后期混响生成单元240可以通过分别使用BRIR参数化单元210接收到的F部分滤波器系数和P部分滤波器系数执行渲染。F部分渲染的输出信号Y_L和Y_R与P部分渲染的输出信号Y_Lp和Y_Rp在混合器和组合器260中被组合用于左和右声道的每个，并且被传输到QMF合成单元224。QMF合成单元224QMF合成输入的2个声道的左右信号以生成时域的2声道输出音频信号yL和yR。

参考图6，双耳渲染器200D可以执行QMF域中的F部分渲染和时域中的P部分渲染。双耳渲染器200D的QMF分析单元222QMF转换时域输入信号，并且将被转换的时域输入信号传输到快速卷积单元230。快速卷积单元230执行F部分渲染QMF域信号以生成2声道输出信号Y_L和Y_R。QMF分析单元224将F部分渲染的输出信号转换成时域输出信号，并且将被转换的时域输出信号传输到混合器和组合器260。同时，后期混响生成单元240通过直接地接收时域输入信号执行P部分渲染。P部分渲染的输出信号yLp和yRp被传输到混合器和组合器260。混合器和组合器260在时域中组合F部分渲染输出信号和P部分渲染输出信号，以在时域中生成2声道输出音频信号yL和yR。

在图5和图6的示例性实施例中，并行地执行F部分渲染和P部分渲染，同时根据图7的示例性实施例，双耳渲染器200E可以顺序地执行F部分渲染和P部分渲染。即，快速卷积单元230可以执行F部分渲染QMF转换的输入信号，并且QMF合成单元224可以将F部分渲染的2声道信号Y_L和Y_R转换成时域信号，并且其后，将转换的时域信号传输到后期混响生成单元240。后期混响生成单元240执行P部分渲染输入2声道信号以生成时域的2声道输出音频信号yL和yR。

图5至图7分别图示执行F部分渲染和P部分渲染的示例性实施例，并且各自的附图的示例性实施例被组合和修改以执行双耳渲染。也就是说，在每个示例性实施例中，双耳渲染器可以将输入信号缩混成2声道左右信号或者单声信号，并且其后执行P部分渲染缩混信号以及分开地执行P部分渲染输入的多音频信号中的每个。

<频域中的可变阶滤波(VOFF)>

图8至图10图示根据本发明的示例性实施例的用于生成用于双耳渲染的FIR滤波器的方法。根据本发明的示例性实施例，被转换成QMF域的多个子带滤波器的FIR滤波器可以被用于QMF域中的双耳渲染。在这样的情况下，取决于每个子带截取的子带滤波器可以被用于F部分渲染。即，双耳渲染器的快速卷积单元可以通过使用根据子带具有不同长度的被截断的子带滤波器在QMF域中执行可变阶滤波。在下文中，可以通过图2的BRIR参数化单元执行将会在下面描述的图8至图10中的滤波器生成的示例性实施例。

图8图示根据被用于双耳渲染的QMF域滤波器的每个QMF带的长度的示例性实施例。在图8的示例性实施例中，FIR滤波器被转换成I QMF子带滤波器，并且Fi表示QMF子带i的被截断的子带滤波器。在QMF域中，总共64个子带可以被使用，但是本发明不限于此。此外，N表示初始子带滤波器的长度(抽头的数目)，并且分别通过N1、N2以及N3表示被截断的子带滤波器的长度。在这样的情况下，长度N、N1、N2以及N3表示在降采样的QMF域(即，QMF时隙)中的抽头的数目。

根据本发明的示例性实施例，根据每个子带具有不同的长度N1、N2以及N3的被截断的子带滤波器可以被用于F部分渲染。在这样的情况下，被截断的子带滤波器是在初始子带滤波器中截断的前滤波器，并且也可以被指定为前子带滤波器。此外，在截取初始子带滤波器之后的后部分可以被指定为后子带滤波器并且被用于P部分渲染。

在使用BRIR滤波器渲染的情况下，基于从初始BRIR滤波器提取的参数，即，用于每个子带滤波器的混响时间(RT)信息、能量衰减曲线(EDC)值、能量衰减时间信息等等，用于每个子带的滤波器阶数(即，滤波器长度)可以被确定。由于声学特性，其中取决于墙和天花板的材料的在空气中的衰减和声音吸收程度对于每个频率变化，因此混响时间取决于频率而变化。通常，具有更低的频率的信号具有更长的混响时间。因为混响时间长意指更多的信息保留在FIR滤波器的后部中，所以优选的是，在正常传输混响信息中长地截断相对应的滤波器。因此，至少基于从相对应的子带滤波器提取的特性信息(例如，混响时间信息)，确定本发明的每个被截断的子带滤波器的长度。

根据各种示例性实施例可以确定被截断的子带滤波器的长度。首先，根据示例性实施例，每个子带可以被分类成多个组，并且每个被截断的子带滤波器的长度可以根据被分类的组而被确定。根据图8的示例，每个子带可以被分类成三个区段区段1、区段2、以及区段3，并且与低频率相对应的区段1的被截断的子带滤波器可以具有比与高频率相对应的区段2和区段3的被截断的子带滤波器更长的滤波器阶数(即，滤波器长度)。此外，相对应的区段的被截断的子带滤波器的滤波器阶数可以朝着具有高频率的区段逐渐地减少。

根据本发明的另一示例性实施例，根据初始子带滤波器的特性信息，可以为每个子带独立地或者可变地确定每个被截断的子带滤波器的长度。每个被截断的子带滤波器的长度基于在相对应的子带中确定的截断长度确定，并且不受相邻的或者其它的子带的被截断的字段滤波器的长度影响。也就是说，区段2的一些或者所有的被截断的子带滤波器的长度可能比区段1的至少一个被截断的子带滤波器的长度长。

根据本发明的另一示例性实施例，可以仅相对于被分类成多个组的一些子带执行在频域中的可变阶滤波。即，仅相对于属于至少两个被分类的组当中的一些组的子带，可以生成具有不同长度的被截断的子带滤波器。根据示例性实施例，其中生成被截断的子带滤波器的组可以是基于预先确定的常数或者预先确定的频带被分类成低频带的子带组(也就是说，区段1)。例如，当最初的BRIR滤波器的采样频率是48kHz时，最初的BRIR滤波器可以被变换成总共64个QMF子带滤波器(I＝64)。在这样的情况下，相对于与所有0至24kHz带的一半的0至12个kHz带相对应的子带，即，以低频带的顺序具有索引0至31的总共32个子带，可以仅生成被截断的子带滤波器。在这样的情况下，根据本发明的示例性实施例，具有0索引的子带的被截断的子带滤波器的长度比具有31索引的子带的被截断的子带滤波器的大。

基于通过用于处理音频信号获得的附加信息，即，复杂性、复杂程度(属性)、或者解码器的所要求的质量信息，可以确定被截断的滤波器的长度。根据用于处理音频信号的设备的硬件资源或者用户直接地输入的值可以确定复杂性。质量可以根据用户的请求被确定，或者参考通过比特流发送的值或者在比特流中包括的其它信息来确定。此外，也可以根据通过估计被发送的音频信号的质量获得值确定质量，也就是说，随着比特率跟高，质量可以被视为更高的质量。在这样的情况下，每个被截断的子带滤波器的长度可以根据复杂性和质量按比例地增加，并且可以以用于每个带的不同的比率变化。此外，为了通过诸如下面要描述的FFT的高速处理获取附加的增益等等，每个被截断的子带滤波器的长度可以被确定为与附加的增益相对应的大小单元，也就是说，2的幂的倍数。相反地，当被确定的被截断的滤波器的长度比实际子带滤波器的总长度长时，被截断的子带滤波器的长度可以被调节成实际子带滤波器的长度。

BRIR参数化单元生成与根据前述的示例性实施例确定的各自的被截断的子带滤波器相对应的被截断的子带滤波器系数(F部分系数)，并且将生成的被截断的子带滤波器系数传输到快速卷积单元。快速卷积单元通过使用被截断的子带滤波器系数在多音频信号的每个子带信号的频域中执行可变阶滤波。

图9图示被用于双耳渲染的QMF域滤波器的每个QMF带的长度的另一示例性实施例。在图9的示例性实施例中，与图8的示例性实施例相同或者对应于图8的示例性实施例的部分的重复描述将会被省略。

在图9的示例性实施例中，Fi表示被用于QMF子带i的F部分渲染的被截断的子带滤波器(前子带滤波器)，并且Pi表示被用于QMF子带i的P部分渲染的后子带滤波器。N表示初始子带滤波器的长度(抽头的数目)，并且NiF和NiP分别表示子带i的前子带滤波器和后子带滤波器的长度。如上所述，NiF和NiP表示在降采样的QMF域中的抽头的数目。

根据图9的示例性实施例，基于从初始子带滤波器以及前子带滤波器提取的参数确定后子带滤波器的长度。即，至少部分基于在相对应的子带滤波器中提取的特性信息确定每个子带的前子带滤波器和后子带滤波器的长度。例如，基于相对应的子带滤波器的第一混响时间信息可以确定前子带滤波器的长度，并且可以基于第二混响时间信息确定后子带滤波器的长度。即，前子带滤波器可以是在初始子带滤波器中基于第一混响时间信息在被截断的前部分的滤波器，并且后子带滤波器可以是在与作为跟随前子带滤波器的区段的在第一混响时间和第二混响时间之间的区段相对应的后部分的滤波器。根据示例性实施例，第一混响时间信息可以是RT20，并且第二混响时间信息可以是RT60，但是实施例不限于此。

其中前期反射声音部分被切换到后期混响声音部分的部分存在于第二混响时间内。即，点存在，其中具有确定性特性的区段被切换到具有随机特性的区段，并且在整个带的BRIR方面该点被称为混合时间。在混合时间之前的区段的情况下，主要存在提供用于每个位置的方向性的信息，并且这对于每个声道来说是唯一的。相反地，因为后期混响部分具有用于每个声道的公共特征，所以同时处理多个声道可能是有效率的。因此，用于每个子带的混合时间被估计以在混合时间之前通过F部分渲染执行快速卷积，并且在混合时间之后通过P部分渲染执行其中用于每个声道的公共特性被反映的处理。

然而，在估计混合时间时从知觉的角度来看可能通过偏见而出现错误。因此，与通过估计精确的混合时间基于相对应的边界单独处理F部分和P部分相比较，从质量的角度来看，通过最大化F部分的长度执行快速卷积是更加优异的。因此，F部分的长度，即，前子带滤波器的长度，可能比根据复杂性质量控制与混合时间相对应的长度更长或者更短。

此外，为了减少每个子带滤波器的长度，除了前述的截断方法之外，当特定子带的频率响应是单调的时，将相对应的子带的滤波器减少到低阶的建模是可用的。作为代表性的方法，存在使用频率采样的FIR滤波器建模，并且从最小平方的角度最小化的滤波器可以被设计。

根据本发明的示例性实施例，对于相对应的子带的每个声道，用于每个子带的前子带滤波器和/或后子带滤波器的长度可以具有相同的值。测量中的错误在BRIR中可能存在，并且即使在估计混响时间中诸如偏见的错误要素等等存在。因此，为了减少影响，基于在声道之间或者在子带之间的相互关系可以确定滤波器的长度。根据示例性实施例，BRIR参数化单元可以从与相同子带的每个声道相对应的子带滤波器提取第一特性信息(也就是说，第一混响时间信息)，并且通过组合被提取的第一特性信息获取用于相对应的子带的单滤波器阶数信息(可替选地，第一截断点信息)。基于获得的滤波器阶数信息(可替选地，第一截断点信息)，用于相对应的子带的每个声道的前子带滤波器可以被确定为具有相同的长度。类似地，BRIR参数化单元可以从与相同子带的每个声道相对应的子带滤波器提取特性信息(也就是说，第二混响时间信息)，并且通过组合被提取的第二特性信息，获取要被共同地应用于与相对应的子带的每个声道相对应的后子带滤波器的第二截断点信息。在此，前子带滤波器可以是在初始子带滤波器中基于第一截断点信息在被截断的前部分的滤波器，并且后子带滤波器可以是在与作为跟随前子带滤波器的区段的在第一截断点和第二阶段点之间的区段相对应的后部分的滤波器。

同时，根据本发明的另一示例性实施例，仅相对于特定子带组的子带执行F部分处理。在这样的情况下，与通过使用整个子带滤波器执行处理的情况相比较，当通过仅使用直到第一截断点的滤波器相对于对应的子带执行处理时，用户感知水平的失真可能由于被处理的滤波器的能量差而出现。为了防止失真，对于没有被用于处理的区域，即，跟随第一截断点的区域的能量补偿可以在相对应的子带滤波器中被实现。通过将F部分系数(第一子带滤波器系数)除以直到相对应的子带滤波器的第一截断点的滤波器功率并且将相除的F部分系数(前子带滤波器系数)乘以所期待的区域的能量，即，相对应的子带滤波器的总功率，可以执行能量补偿。因此，F部分系数的能量可以被调节为与整个子带滤波器的能量相同。此外，虽然从BRIR参数化单元发送P部分系数，但是双耳渲染单元基于复杂性质量控制可以不执行P部分处理。在这样的情况下，双耳渲染单元可以通过使用P部分系数执行对于F部分系数的能量补偿。

在通过前述方法的F部分处理中，从单个时域滤波器(即，原型滤波器)获取具有用于每个子带的不同长度的被截断的子带滤波器的滤波器系数。即，因为单个时域滤波器被转换成多个QMF基带滤波器，并且与每个子带相对应的滤波器的长度变化，所以从单个原型滤波器中获得每个被截断的子带滤波器。

BRIR参数化单元生成与根据前述的示例性实施例确定的每个前子带滤波器相对应的前子带滤波器系数(F部分系数)，并且将生成的前子带滤波器系数传输到快速卷积单元。快速卷积单元通过使用接收到的前子带滤波器系数在多音频信号的每个子带信号的频域中执行可变阶滤波。此外，BRIR参数化单元可以生成与根据前述的示例性实施例确定的每个后子带相对应的后子带滤波器系数(P部分系数)，并且将生成的后子带滤波器系数传输到后期混响生成单元。后期混响生成单元可以通过使用接收到的后子带滤波器系数执行每个子带信号的混响处理。根据本发明的示例性实施例，BRIR参数化单元可以组合用于每个声道的后子带滤波器系数以生成缩混子带滤波器系数(缩混P部分系数)，并且将生成的缩混子带滤波器系数传输到后期混响生成单元。如下面所描述的，后期混响生成单元可以通过使用接收到的缩混子带滤波器系数生成2声道左右子带混响信号。

图10图示用于生成被用于双耳渲染的FIR滤波器的方法的又一示例性实施例。在图10的示例性实施例中，将会省略与图8和图9的示例性实施例相同或者对应于图8和图9的示例性实施例的部分的重复描述。

参考图10，被QMF转换的多个子带滤波器可以被分类成多个组，并且对于每个被分类的组可以应用不同的处理。例如，基于预先确定的频带(QMF带i)，多个子带可以被分类成具有低频率的第一子带组区段1和具有高频率的第二子带组区段2。在这样的情况下，可以相对于第一子带组的输入子带信号执行F部分渲染，并且可以相对于第二子带组的输入子带信号执行下面要描述的QTDL处理。

因此，BRIR参数化单元生成用于第一子带组的每个子带的前子带滤波器系数，并且将被生成的前子带滤波器系数传输到快速卷积单元。快速卷积单元通过使用接收到的前子带滤波器系数执行第一子带组的子带信号的F部分渲染。根据示例性实施例，通过后期混响生成单元可以另外执行第一子带组的子带信号的P部分渲染。此外，BRIR参数化单元从第二子带组的子带滤波器系数中的每个获得至少一个参数，并且将获得的参数传输到QTDL处理单元。QTDL处理单元通过使用获得的参数执行如下面描述的第二子带组的每个子带信号的抽头延迟时间滤波。根据本发明的示例性实施例，用于区分第一子带组和第二子带组的预先确定的频率(QMF带i)可以基于预先确定的常数值被确定，或者基于被发送的音频输入信号的比特流特性被确定。例如，在使用SBR的音频信号的情况下，第二子带组可以被设置以对应于SBR带。

根据本发明的示例性实施例，基于预先确定的第一频带(QMF带i)和预先确定的第二频带(QMF带j)，多个子带可以被划分成三个子带组。即，多个子带可以被分类成等于或者低于第一频带的低频率区段的第一子带组区段1、高于第一频带并且等于或者低于第二频带的中频区段的第二子带组区段2、以及高于第二频带的高频区段的第三子带组区段3。例如，当总共64个QMF子带(子带索引0至63)被划分成3个子带组时，第一子带组可以包括具有索引0至31的总共32个子带，第二子带组可以包括具有索引32至47的总共16个子带，并且第三子带组可以包括具有剩余索引48至63的子带。在此，随着子带频率变得更低，子带索引具有更低的值。

根据本发明的示例性示例，可以仅相对于第一和第二子带组的子带信号执行双耳渲染。即，如上所述，可以相对于第一子带组的子带信号执行F部分渲染和P部分渲染，并且可以相对于第二子带组的子带信号执行QTDL处理。此外，可以不相对于第三子带组的子带信号执行双耳渲染。同时，要执行双耳渲染的最大频带的信息(Kproc＝48)和要执行卷积的频带的信息(Kconv＝32)可以是预先确定的值或者通过BRIR参数化单元确定以被传送到双耳渲染单元。在这样的情况下，第一频带(QMF带i)被设置为索引Kconv-1的子带，并且第二频带(QMF带j)被设置为索引Kproc-1的子带。同时，通过最初的BRIR输入的采样频率、输入音频信号的采样频率等等可以变化最大频带的信息(Kproc)和要执行卷积的频带的信息(Kconv)的值。

<后期混响渲染>

接下来，将会参考图11至图14描述本发明的P部分渲染的各种示例性实施例。即，将会参考图11至图14描述在QMF域中执行P部分渲染的图2的后期渲染生成单元240的各种示例性实施例。在图11至图14的示例性实施例中，假定多声道输入信号作为QMF域的子带信号被接收。因此，可以为每个QMF子带执行图11至图14的各自的组件，即，解相关器241、子带滤波单元242、IC匹配单元243、缩混单元244、以及能量衰减匹配单元246的处理。在图11至图14的示例性实施例中，将会省略与先前的附图的示例性实施例重复的部分的详细描述。

在图8至图10的示例性实施例中，与P部分相对应的Pi(P1,P2,P3,…)是通过频率可变截断去除的每个子带滤波器的后部分，并且通常包括关于后期混响的信息。P部分的长度可以被定义为根据复杂性质量控制在每个子带滤波器的截断点之后的整个滤波器，或者参考相对应的子带滤波器的第二混响时间信息被定义为较小的长度。

P部分渲染可以为每个声道独立地执行或者相对于被缩混的声道执行。此外，P部分渲染可以对于每个预先确定的子带组或者对于每个子带通过不同的处理被应用，或者作为相同的处理被应用于所有的子带。在本示例性实施例中，可应用于P部分的处理可以包括用于输入信号的能量衰减补偿、抽头延迟线滤波、使用无限脉冲响应(IIR)滤波器的处理、使用人工混响器的处理、频率无关的耳间一致(FIIC)补偿、频率依赖的耳间一致(FDIC)补偿等等。

同时，重要的是，通常保存两个特征，即，用于P部分的参数处理的能量衰减减轻(EDR)和频率依赖的耳间一致(FDIC)的特征。首先，当从能量的角度观察P部分时，能够看到对于每个声道来说EDR可以是相同或者相似的。因为各自的声道具有公共的EDR，所以将所有的声道缩混到一个或者两个声道，并且其后，从能量的角度执行被缩混的声道的P部分渲染是适当的。在这样的情况下，其中需要相对于M个声道执行M个卷积的P部分渲染的操作被减少到M到O缩混和一个(可替选地，两个)卷积，从而提供显著的计算复杂性的增益。

接下来，在P部分渲染中要求补偿FDIC的过程。存在估计FDIC的各种方法，但是可以使用下述等式。

[等式3]

在此，H_m(i,k)表示脉冲响应h_m(n)的短时傅立叶变换(STFT)系数，n表示时间索引，i表示频率索引，k表示帧索引，并且m表示输出声道索引L或者R。此外，分子的函数

输出输入x的实数值，并且x^*表示x的复共轭值。等式中的分子部分可以被替换成具有绝对值而不是实数值的函数。

同时，在本发明中，因为在QMF域中执行双耳渲染，所以可以通过下面给出的等式定义FDIC。

[等式4]

在此，i表示子带索引，k表示子带中的时间索引，并且h_m(i,k)表示BRIR的子带滤波器。

后期混响部分的FDIC是当BRIR被记录时主要通过两个麦克风的位置影响的参数，并且不受被扬声器的位置，即，方向和距离影响。当假定收听者的头是球体时，BRIR的理论的FDIC IC_ideal可以满足下面给出的等式。

[等式5]

在此，r表示在收听者的两个耳朵之间的距离，即，在两个麦克风之间的距离，并且k表示频率索引。

当使用多个声道的BRIR的FDIC被分析时，能够看到主要被包括在F部分中的前期反射声对于每个声道变化。即，F部分的FDIC对于每个声道来说不同地变化。同时，FDIC在高频带的情况下很大地变化，但是理由是由于其能量快速衰减的高频带信号的特性导致大的测量错误发生，并且当对于每个声道的平均值被获得时，FDIC几乎被收敛到0。相反地，即使在P部分的情况下在对于每个声道的FDIC中的差由于测量错误而发生，但是能够确认FDIC被平均地收敛到在图等式5中示出的同步函数。根据本发明的示例性实施例，用于P部分渲染的后期混响生成单元可以基于前述的特性被实现。

图11图示根据本发明的示例性实施例的后期混响生成单元240A。根据图11的示例性实施例，后期混响生成单元240A可以包括子带滤波单元242和缩混单元244a和244b。

子带滤波单元242通过使用P部分系数滤波用于每个子带的多声道输入信号X0,X1,…,X_M-1。P部分系数可以从如上所述的BRIR参数化单元(未被图示)获得，并且包括具有用于每个子带的不同长度的后子带滤波器的系数。子带滤波器单元242为每个频率执行QMF域子带信号和与其相对应的QMF域的后子带滤波器之间的快速卷积。在这样的情况下，可以基于如上所述的RT60确定后子带滤光器的长度，但是根据复杂性质量控制被设置为高于或者低于RT60的值。

通过子带滤波单元242，多声道输入信号分别被渲染成左声道信号X_L0、X_L1、…、X_L_M-1，和右声道信号X_R0、X_R1、…、X_R_M-1。缩混单元244a和244b分别缩混用于左右声道的被渲染的左声道信号和多个被渲染的右声道信号，以生成2声道左右输出信号Y_Lp和Y_Rp。

图12图示根据本发明的另一示例性实施例的后期混响生成单元240B。根据图12的示例性实施例，后期混响生成单元240B可以包括解相关器241、IC匹配单元243、缩混单元244a和244b、以及能量衰减匹配单元246a和246b。此外，对于后期混响生成单元240B的处理，BRIR参数化单元(未被图示)可以包括IC评估单元213和缩混子带滤波器生成单元216。

根据图12的示例性实施例，后期混响生成单元240B可以通过使用用于各自的声道的后期混响部分的能量衰减特性彼此相同来减少计算复杂性。即，后期混响生成单元240B执行每个多声道信号的解相关和耳间一致(IC)调节，将用于每个声道的被调节的输入信号和解相关信号缩混成左右声道信号，并且补偿被缩混的信号的能量衰减，以生成2声道左右输出信号。更加详细地，解相关器241生成用于各自的多声道输入信号X0、X1、…、X_M-1的解相关信号D0、D1、…、D_M-1。解相关器241是一种用于调节两耳之间的一致的预处理器，并且可以采用相位随机数发生器，并且为了计算复杂性的效率可以以90°为单位改变输入信号的相位。

同时，BRIR参数化单元(未被图示)的IC估计单元213估计IC值，并且将估计的IC值传输到双耳渲染单元(未被图示)。双耳渲染单元可以将接收到的IC值存储在存储器255中，并且将接收到的IC值传输到IC匹配单元243。IC匹配单元可以从BRIR参数化单元直接地接收IC值，并且可替选地，获取被预存储在存储器255中的IC值。在IC匹配单元243中，用于各自的声道的输入信号和解相关信号被渲染成左声道信号X_L0、X_L1、…、X_L_M-1和右声道信号X_R0、X_R1、…、X_R_M-1。IC匹配单元243通过参考IC值执行在用于每个声道的解相关信号和初始输入信号之间的加权和，并且通过加权和调节在两个声道信号之间的一致。在这样的情况下，因为用于每个声道的输入信号是子带域的信号，所以可以实现前述的FDIC匹配。当通过X表示初始声道信号，通过D表示解相关声道信号，并且通过φ表示相对应的子带的IC时，可以通过下面给出的等式表达经历IC匹配的左右声道信号X_L和X_R。

[等式6]

X_L＝sqrt((1+φ)/2)X±sqrt((1-φ)/2)D

(以相同顺序的双重符号)

缩混单元244a和244b通过IC匹配分别缩混用于左右声道的多个被渲染的左声道信号和多个被渲染的右声道信号，从而生成2声道左右渲染信号。接下来，能量衰减匹配单元246a和246b分别反映2声道左右渲染信号的能量衰减，以生成2声道左右输出信号Y_Lp和Y_Rp。能量衰减匹配单元246a和246b通过使用从缩混子带滤波器生成单元216获得的缩混子带滤波器系数执行能量衰减匹配。通过用于相对应的子带的各自的声道的后子带滤波器系数的组合，生成缩混子带滤波器系数。换言之，关于对应的子带，缩混子带滤波器系数可以包括具有用于每个声道的后子带滤波器系数的振幅响应的均方根值的子带滤波器系数。因此，缩混子带滤波器系数反映用于相对应的子带信号的后期混响部分的能量衰减特性。缩混子带滤波器系数可以包括根据示例性实施例在单声或者立体声中缩混的缩混子带滤波器系数，并且从与FDIC相似的BRIR参数化单元直接接收或者从预存储在存储器225中的值获得。当通过BRIR_k表示其中在M个声道当中的第k个声道中截取的F部分的BRIR，通过BRIR_T,k表示其中在第k个声道中截取直到第N个采样的BRIR，并且通过BRIR_E表示在补偿第N个采样之后的被截取的部分的能量的缩混子带滤波器系数时，通过使用下面给出的等式可以获得BRIR_E。

[等式7]

其中

图13图示根据本发明的又一示例性实施例的后期混响生成单元240C。图13的后期混响生成单元240C的各自的组件可以与在图12的示例性实施例中描述的后期混响生成单元240B的各自的组件相同，并且后期混响生成单元240C和后期混响生成单元240B两者可以在各自的组件当中的数据处理顺序上彼此部分不同。

根据图13的示例性实施例，后期混响生成单元240C可以通过使用用于各自的声道的后期混响部分的FDIC彼此相同来进一步减少计算复杂性。即，后期混响生成单元240C将各自的多声道信号缩混成左右声道信号，调节被缩混的左右声道信号的IC，并且补偿对于调节的左右声道信号的能量衰减，从而生成2声道左右输出信号。

更加详细地，解相关器241生成用于各自的多声道输入信号X0、X1、…、X_M-1的解相关信号D0、D1、…、D_M-1。接下来，缩混单元244a和244b分别缩混多声道输入信号和解相关信号，以生成2声道缩混信号X_DMX和D_DMX。IC匹配单元243通过参考IC值执行2声道缩混信号的加权和以调节两个声道信号之间的一致。能量衰减匹配单元246a和246b分别执行对于通过IC匹配单元243经历IC匹配的左右声道信号X_L和X_R的能量补偿，以生成2声道左右输出信号X_Lp和Y_Rp。在这样的情况下，用于能量补偿的能量补偿信息可以包括用于每个子带的缩混子带滤波器系数。

图14图示根据本发明的又一示例性实施例的后期混响生成单元240D。图14的后期混响生成单元240D的各自的组件可以与在图12和图13的示例性实施例中描述的后期混响生成单元240B和240C的各自的组件相同，但是具有被更加简化的特征。

首先，缩混单元244缩混用于每个子带的多声道输入信号X0、X1、…、X_M-1以生成单声道缩混信号(即，单声子带信号)X_DMX。能量衰减单元246反映用于生成的单声道缩混信号的能量衰减。在这样的情况下，用于每个子带的缩混子带滤波器系数可以被使用以便于反映能量衰减。接下来，解相关器241生成通过能量衰减反映的单声道缩混信号的解相关信号D_DMX。IC匹配单元243通过参考FDIC值执行反映能量衰减的单声缩混信号和解相关信号的加权和，并且通过加权和生成2声道左右输出信号Y_Lp和Y_Rp。根据图14的示例性实施例，因为仅关于单声缩混信号X_DMX执行能量衰减匹配一次，所以可以进一步节省计算复杂性。

<高频带的QTDL处理>

接下来，将会参考图15和图16描述本发明的QTDL处理的各种示例性实施例。即，参考图15和图16将会描述在QMF域中执行QTDL处理的图2的QTDL处理单元250的各种示例性实施例。在图15和图16的示例性实施例中，假定多声道输入信号作为QMF域的子带信号被接收。因此，在图15和图16的示例性实施例中，抽头延迟线滤波器和单抽头延迟线滤波器可以执行用于每个QMF子带的处理。此外，仅关于基于预先确定的常数或者预先确定的频带分类的高频带的输入信号执行QTDL处理，如上所述。当谱带复制(SBR)被应用于输入音频信号时，高频带可以对应于SBR带。在图15和图16的示例性实施例中，将会省略与先前的附图的示例性实施例重复的部分的详细描述。

被用于高频带的有效编码的谱带(SBR)是用于通过重新延伸由于在低比特率编码中扔掉高频带的信号而变窄的带宽来确保与原始信号一样多的带宽的工具。在这样的情况下，通过使用被编码和发送的低频带的信息和通过编码器发送的高频带信号的附加信息生成高频带。然而，由于不精确的谐波的生成，在通过使用SBR产生的高频分量中可能出现失真。此外，SBR带是高频带，并且如上所述，相对应的频带的混响时间非常短。即，SBR带的BRIR子带滤波器可以具有少的有效信息和高的衰减率。因此，在用于与SBR带相对应的高频带的BRIR渲染中，与执行卷积相比，在对音质的计算复杂性方面，通过使用少量的有效的抽头执行渲染可以仍然更加有效。

图15图示根据本发明的示例性实施例的QTDL处理单元250A。根据图15的示例性实施例，QTDL处理单元250A通过使用抽头延迟线滤波器执行用于多声道输入信号X0、X1、…、X_M-1的每个子带的滤波。抽头延迟线滤波器关于每个声道信号执行仅少量的预先确定的抽头的卷积。在这样的情况下，基于从与有关子带信号相对应的BRIR子带滤波器系数直接提取的系数可以确定此时使用的少量的抽头。参数包括用于要被用于抽头延迟线滤波器的每个抽头的延迟信息和与其相对应的增益信息。

通过复杂性质量控制可以确定被用于抽头延迟线滤波器的数目。基于被确定的抽头的数目，QTDL处理单元250A从BRIR参数化单元接收对应于用于每个声道和用于每个子带的抽头的有关数目的参数集(增益信息和延迟信息)。在这样的情况下，接收到的参数集可以从与有关子带信号相对应的BRIR子带滤波器系数提取，并且根据各种示例性实施例被确定。例如，按照绝对值的顺序、按照实数部分的值的顺序、或者按照虚数部分的值的顺序，在相对应的BRIR子带滤波器系数的多个峰值当中，与被确定的抽头的数目一样多的、用于每个被提取的峰值的参数集，可以被接收。在这样的情况下，每个参数的延迟信息指示相对应的峰值的位置信息，并且在QMF域中具有基于采样的整数值。此外，基于与延迟信息相对应的峰值的大小确定增益信息。在这样的情况下，作为增益信息，在用于整个子带滤波器系数的能量补偿被执行之后的相对应的峰值的加权值，以及子带滤波器系数中的相对应的峰值本身，可以被使用。通过使用用于相对应的峰值的加权值的实数和加权值的虚数两者从而具有复值来获得增益信息。

通过抽头延迟线滤波器滤波的多个声道被共计到用于每个子带的2声道左右输出信号Y_L和Y_R。同时，在用于双耳渲染的初始化过程期间在QTDL处理单元250A的每个抽头延迟线滤波器中使用的参数可以被存储在存储器中，并且在没有用于提取参数的附加的操作的情况下可以执行QTDL处理。

图16图示根据本发明的另一示例性实施例的QTDL处理单元250B。根据图16的示例性实施例，QTDL处理单元250B通过使用单抽头延迟线滤波器执行用于多声道输入信号X0、X1、…、X_M-1的每个子带的滤波。将会理解的是，相对于每个声道信号，单抽头延迟线滤波器仅在一个抽头中执行卷积。在这样的情况下，可以基于从与有关子带信号相对应的BRIR子带滤波器系数中直接提取的参数确定被使用的抽头。参数包括从BRIR子带滤波器系数中提取的延迟信息和与其相对应的增益信息。

在图16中，L_0、L_1、…L_M-1分别表示用于与M个声道左耳有关的BRIR的延迟，并且R_0、R_1、…、R_M-1分别表示用于与M个声道右耳有关的BRIR的延迟。在这样的情况下，延迟信息表示在BRIR子带滤波器系数当中以绝对值、实数部的值、或者虚数部的值的顺序的最大峰值的位置信息。此外，在图16中，分别地，G_L_0、G_L_1、…、G_L_M-1表示与左声道的各自的延迟信息相对应的增益，并且G_R_0、G_R_1、…、G_R_M-1表示与右声道的各自的延迟信息相对应的增益。如所描述的，基于与延迟信息相对应的峰值的大小确定每个增益信息。在这样的情况下，作为增益信息，在用于整个子带滤波器系数的能量补偿之后的相对应的峰值的加权值以及在子带滤波器系数中的相对应的峰值可以被使用。通过使用用于相对应的峰值的加权值的实数和加权值的虚数两者获得增益信息。

如在图15的示例性实施例中所描述的，通过单抽头延迟线滤波器滤波的多个声道信号与用于每个子带的2声道左右输出信号Y_L和Y_R被求和。此外，在用于双耳渲染的初始化过程期间，在QTDL处理单元250B的每个单抽头延迟线滤波器中使用的参数可以被存储在存储器中，并且在没有用于提取参数的附加的操作的情况下可以执行QTDL处理。

<分块快速卷积>

图17至图19图示根据本发明的示例性实施例的通过使用分块快速卷积处理音频信号的方法。在图17至图19的示例性实施例中，将会省略与先前的附图的示例性实施例重复的部分的详细描述。

根据本发明的示例性实施例，在效率和性能方面，为了优化双耳渲染，可以执行预先确定的分块快速卷积。基于FFT的快速卷积具有下述特性，其中，随着FFT的大小增加，计算量减少，但是整个处理延迟增加并且存储器使用增加。当具有1秒的长度的BRIR以具有相对应长度的两倍的长度的FFT大小经历快速卷积时，在计算量方面其是有效的，但是与1秒相对应的延迟出现并且要求与其相对应的缓冲器和处理存储器。具有长延迟时间的音频信号处理方法不适合于用于实时数据处理的应用。因为帧是通过音频信号处理设备能够执行解码的最小单元，所以甚至在双耳渲染中，优选地以与帧单元相对应的大小执行分块快速卷积。

图17图示使用分块快速卷积的音频信号处理方法的示例性实施例。与前述的示例性实施例相似，在图17的示例性实施例中，原型FIR滤波器被转换成I子带滤波器，并且Fi表示子带i的被截断的子带滤波器。各自的子带带0至带I-1可以表示频域中的子带，即，QMF子带。在QMF域中，可以使用总共64个子带，但是本发明不限于此。此外，N表示最初的子带滤波器的长度(抽头的数目)，并且通过N1、N2以及N3分别表示被截断的子带滤波器的长度。即，区段1中包括的子带i的被截断的子带滤波器系数的长度具有N1值，在区段2中包括的子带i的被截断的子带滤波器系数的长度具有N2值，并且在区段3中包括的子带i的被截断的子带滤波器系数的长度具有N3值。在这样的情况下，长度N、N1、N2、以及N3表示在降采样的QMF域中的抽头的数目。如上所述，可以为如在图17中所图示的子带组区段1、区段2以及区段3中的每一个独立地确定被截断的子带滤波器的长度，否则为各个子带独立地确定。

参考图17，本发明的BRIR参数化单元(可替选地，双耳渲染单元)在相对应的子带(可替选地，子带组)中通过预先确定的块大小执行被截断的子带滤波器的快速傅里叶变换以生成FFT滤波器系数。在这样的情况下，基于预先确定的最大FFT大小L确定在各个子带i中的预先确定的块的长度M_i。更加详细地，在子带i中的预先确定的块的长度M_i可以通过下面的等式来表达。

[等式8]

M_i＝min(L,2N_i)

其中，L表示预先确定的最大FFT大小，并且N_i表示被截断的子带滤波器系数的参考滤波器长度。

即，预先确定的块的长度M_i可以被确定为是在被截断的子带滤波器系数的参考滤波器长度N_i的两倍的值和预先确定的最大FFT大小L之间的较小的值。当被截断的子带滤波器系数的参考滤波器长度N_i的两倍的值等于或者大于(可替选地，大于)最大FFT大小L时，像图17的区段1和区段2一样，预先确定的块的长度M_i被确定为最大FFT大小L。然而，当被截断的子带滤波器系数的参考滤波器参考N_i的两倍的值小于(等于或者小于)最大FFT大小L时，像图17的区段3一样，预先确定的块的长度M_i被确定为是参考滤波器长度N_i的两倍的值。如下面所描述的，因为通过零填充被截断的子带滤波器系数被延伸到双倍长度并且其后经历快速傅里叶变换，所以可以基于在参考滤波器长度N_i的两倍的值和预先确定的最大FFL大小L之间的比较结果确定用于快速傅里叶变换的块的长度M_i。

在此，参考滤波器长度N_i以2的幂的形式表示在相对应的子带中的滤波器阶数(即，被截断的子带滤波器系数的长度)的真值和近似值中的任意一个。即，当子带i的滤波器阶数具有2的幂的形式时，相对应的滤波器阶数被用作子带i中的参考滤波器长度N_i，并且当子带i的滤波器阶数不具有2的幂的形式时，以2的幂的形式的相对应的滤波器阶数的上舍入值或者下舍入值被用作参考滤波器长度N_i。作为示例，因为作为区段3的子带I-1的滤波器阶数的N3不是2的幂的值，所以以2的幂的形式的近似值的N3’可以被用作相对应的子带的参考滤波器长度N_I-1。在这样的情况下，因为参考滤波器长度N3’的两倍的值小于最大FFT大小L，所以子带I-1中的预先确定的块的长度M_I-1可以被设置为是N3’的两倍的值。同时，根据本发明的示例性示例，预先确定的块的长度和参考滤波器长度N_i可以是2的幂的值。

如上所述，当各个子带中的块长度M_i被确定时，通过被确定的块大小执行被截断的子带滤波器系数的快速傅里叶变换。更加详细地，BRIR参数化单元将被截断的子带滤波器系数分割了预先确定的块大小的一半M_i/2。在图17中图示的F部分的虚线边界的区域表示被分割了预先确定的块大小的一半的子带滤波器系数。接下来，BRIR参数化单元通过使用各自的被分割的滤波器系数生成预先确定的块大小M_i的临时滤波器系数。在这样的情况下，通过被分割的滤波器系数组成临时滤波器系数的前半部分，并且通过零填充的值组成后半部分。因此，通过使用预先确定的块的一半长度的滤波器系数生成预先确定的块的长度M_i的临时滤波器系数。接下来，BRIR参数化单元执行被生成的临时滤波器系数的快速傅里叶变换以生成FFT滤波器系数。被生成的FFT滤波器系数可以被用于对于输入音频信号的预先确定的分块快速卷积。即，如下所描述双耳渲染器的快速卷积单元可以通过按照子帧大小(例如，复数乘法)将被生成的FFT滤波器系数和与其相对应的多音频信号相乘以执行快速卷积。

如上所述，根据本发明的示例性实施例，BRIR参数化单元通过为各个子带(可替选地，为各个子带组)单独地确定的块大小执行被截断的子带滤波器系数的快速傅里叶变换以生成FFT滤波器系数。结果，可以执行对于各个子带(可替选地，用于各个子带组)使用不同数目的块的快速卷积。在这样的情况下，子带i中的块的数目ki可以满足下述等式。

[等式9]

2N_i＝ki*M_i(ki是自然数)

即，子带i中的块的数目ki可以被确定为通过将相对应的子带中的参考滤波器长度N_i的两倍的值除以预先确定的块M_i的长度而获取的值。

图18图示使用分块快速卷积的音频信号处理方法的另一示例性实施例。在图18的示例性实施例中，与图10或者图17的示例性实施例相同或者对应于图10或者图17的示例性实施例的部分的重复描述将会被省略。

参考图18，基于预先确定的频带(QMF带i)，频域的多个子带可以被划分成具有低频率的第一子带组区段1和具有高频率的第二子带组区段2。可替选地，基于预先确定的第一频带(QMF带i)和第二频带(QMF带j)，多个子带可以被划分成三个子带组，即，第一子带组区段1、第二子带组区段2、以及第三子带组区段3。在这样的情况下，可以相对于第一子带组的输入子带信号执行使用分块快速卷积的F部分渲染，并且可以相对于第二子带组的输入子带信号执行QTDL处理。另外，可以不相对于第三子带组的子带信号执行渲染。

因此，根据本发明的示例性实施例，可以相对于第一子带组的前子带滤波器Fi限制性地执行预先确定的分块FFT滤波器系数生成过程。同时，根据示例性实施例，可以通过如上所述的后期混响产生单元执行第一子带组的子带信号的P部分渲染。根据示例性实施例，后期混响产生单元也可以执行预先确定的分块P部分渲染。为此，BRIR参数化单元可以分别生成与第一子带组的后子带滤波器Pi相对应的预先确定的分块FFT滤波器系数。虽然在图18中未被图示，但是BRIR参数化单元通过预先确定的块大小执行各个后子带滤波器Pi或者缩混子带滤波器(缩混P部分)的快速傅里叶变换以生成至少一个FFT滤波器系数。被生成的FFT滤波器系数被传送到后期混响产生单元以被用于输入音频信号的P部分渲染。即，后期混响产生单元可以通过按照子帧大小将获取的FFT滤波器系数和与其相对应的第一子带组的子带信号复数相乘以执行P部分渲染。

此外，如上所述，BRIR参数化单元从第二子带组的各个子带滤波器系数获取至少一个参数，并且将获取的参数传送到QTDL处理单元。如上所述，QTDL处理单元通过使用获取的参数执行第二子带组的各个子带信号的抽头延迟线滤波。同时，根据本发明的另外的示例性实施例，BRIR参数化单元执行获取的参数的预先确定的分块快速傅里叶变换以生成至少一个FFT滤波器系数。BRIR参数化单元将与第二子带组的各个子带相对应的FFT滤波器传送到QTDL处理单元。QTDL处理单元可以通过按照子帧大小将获取的FFT滤波器系数和与其相对应的第二子带组的子带信号复数相乘以执行滤波。

可以通过被包括在双耳渲染器中的BRIR参数化单元执行在图17和图18中描述的FFT滤波器系数产生过程。然而，本发明不限于此，并且通过与双耳渲染单元分离的BRIR参数化单元可以执行FFT滤波器系数生成过程。在这样的情况下，BRIR参数化单元将被截断的子带滤波器系数作为分块FFT滤波器系数的形式传送到双耳渲染单元。即，由其中已经执行分块快速傅里叶变换的至少一个FFT滤波器系数组成从BRIR参数化单元传送到双耳渲染单元的被截断的子带滤波器系数。

此外，在前述的示例性实施例中，描述了通过BRIR参数化单元执行使用分块快速傅里叶变换的FFT滤波器系数生成过程，但是本发明不限于此。即，根据本发明的另一示例性实施例，可以通过双耳渲染单元执行前述的FFT滤波器系数产生过程。BRIR参数化单元将通过截断BRIR子带滤波器系数获得的被截断的子带滤波器系数发送到双耳渲染单元。双耳渲染单元从BRIR参数化单元接收被截断的子带滤波器系数，并且通过预先确定的块大小执行被截断的子带滤波器系数的快速傅里叶变换以生成至少一个FFT滤波器系数。

图19图示在本发明的快速卷积单元中的音频信号处理过程的示例性实施例。根据图19的示例性实施例，本发明的快速卷积单元执行分块快速卷积以滤波输入的音频信号。

首先，快速卷积单元获得组成用于滤波各个子带信号的被截断的子带滤波器系数的至少一个FFT滤波器系数。为此，快速卷积单元可以从BRIR参数化单元接收FFT滤波器系数。根据本发明的另一示例性实施例，快速卷积单元(可替选地，包括快速卷积单元的双耳渲染单元)从BRIR参数化单元接收被截断的子带滤波器系数，并且通过预先确定的块大小执行被截断的子带滤波器系数的快速傅里叶变换以生成FFT滤波器系数。根据前述的示例性实施例，各个子带中的预先确定的块的长度M_i被确定，并且其数目对应于有关子带中的块的数目ki的FFT滤波器系数FFT coef.1至FFT coef.ki被获得。

同时，快速卷积单元在相对应的子带中基于预先确定的子帧大小执行输入音频信号的各个子带信号的快速傅里叶变换。为此，快速卷积单元通过预先确定的子帧大小分割子带信号。为了执行在输入音频信号和被截断的子带滤波器系数之间的分块快速卷积，基于在相对应的子带中的预先确定的块的长度M_i确定子带的长度。根据本发明的示例性实施例，因为通过零填充各自的被分割的子带被延伸到双倍长度，并且其后，经历快速傅里叶变换，所以子带的长度可以被确定为预先确定的块的长度M_i/2的一半。根据本发明的示例性实施例，子帧的长度可以被设置以具有2的幂的值。接下来，快速卷积单元通过使用被分割的子帧(即，子帧1至子帧ki)分别生成具有子帧的双倍长度(即，长度M_i)的临时子帧。在这样的情况下，通过被分割的子帧组成临时子帧的前半部分并且通过零填充的值组成后一半部分。快速卷积单元执行被生成的临时子帧的快速傅里叶变换以生成FFT子帧。快速卷积单元将快速傅里叶变换的子帧(即，FFT子帧)和FFT滤波器系数相乘以生成被滤波的子帧。快速卷积单元的复数乘法器CMPY执行FFT子帧和FFT滤波器系数的复数乘法以生成被滤波的子帧。接下来，快速卷积单元执行各个被滤波的子帧的快速傅里叶变换以生成快速卷积的子帧(即，快速卷积子帧)。快速卷积单元重叠添加至少一个逆快速傅里叶变换的子帧(即，快速卷积子帧)以生成被滤波的子带信号。被滤波的子带信号可以在相对应的子带中配置输出音频信号。根据示例性实施例，在逆快速傅里叶变换之前或者之后的步骤中，用于相同子帧的各个声道的子帧可以被累加到用于两个输出声道的子帧。

此外，为了最小化逆快速傅里叶变换的计算复杂性，通过在相对应的子带的第一FFT滤波器系数，即，FFT coef.m(m是2至ki)之后执行关于FFT滤波器系数的复数乘法获得的被滤波的子帧被存储在存储器(缓冲器)中，并且结果，当在当前子帧之后的子帧被处理时可以累加被滤波的子帧，并且其后，经历逆快速傅里叶变换。例如，通过在第一FFT子帧(即，FFT子帧1)和第二FFT滤波器系数(即，FFT coef.2)之间的复数乘法获得的被滤波的子帧被存储在缓冲器中，并且其后，被滤波的子帧被添加到在与第二子帧相对应的时间通过在第二FFT子帧(即，FFT子帧2)和第一FFT滤波器系数(即，FFT coef.1)之间的复数乘法获得的被滤波的子帧，并且可以相对于被添加的子帧执行逆快速傅里叶变换。类似地，通过在第一FFT子帧(即，FFT子帧1)和第三FFT滤波器系数(即，FFT coef.3)之间的复数乘法获得的被滤波的帧和通过在第二FFT子帧(即，FFT子帧2)和第二FFT滤波器系数(即，FFTcoef.2)之间的复数乘法获得的被滤波的子帧可以被存储在缓冲器中。被存储在缓冲器中的被滤波的子帧被添加到在与第三子帧相对应的时间处通过在第三FFT子帧(即，FFT子帧3)和第一FFT滤波器系数(即，FFT coef.1)之间的复数乘法获得的被滤波的子帧，并且可以相对于被添加的子帧执行逆快速傅里叶变换。

作为本发明的又一示例性实施例，子帧的长度可以具有预先确定的块的长度M_i/2的一半的值。在这样的情况下，各个子帧可以通过零填充被延伸到预先确定的块的长度M_i，并且其后，经历快速傅里叶变换。此外，在重叠添加通过使用快速卷积单元的复数乘法器CMPY生成的被滤波的子帧的情况下，可以不基于子帧的长度而是基于预先确定的块的长度M_i/2的一半确定重叠间隔。

在上文中，通过详细地示例性实施例已经描述了本发明，但是在没有脱离本发明的目的和范围的情况下本领域的技术人员能够进行本发明的修改和变化。即，在本发明中已经描述了用于多音频信号的双耳渲染的示例性实施例，但是本发明能够被相似地应用并且甚至延伸到包括视频信号以及音频信号的各种多媒体信号。因此，分析从详细描述中本领域的技术人员能够容易地类推的事件和本发明的示例性实施例被包括在本发明的权利要求中。

本发明的模式

如上面，以最佳模式已经描述了有关特征。

工业实用性

本发明能够被应用于处理多媒体信号的各种形式的设备，包括用于处理音频信号的设备和用于处理视频信号的设备等等。

Claims

1.一种用于处理音频信号的方法，所述方法包括：

接收输入音频信号，所述输入音频信号包括多个子带信号，其中所述多个子带信号包括基于预定频带的具有低频率的第一子带组的子带信号和基于所述预定频带的具有高频率的第二子带组的子带信号；

在相对应的子带中基于预先确定的子帧大小执行所述第一子带组的子带信号的快速傅里叶变换(FFT)，

通过将所述相对应的子带的快速傅里叶变换的子帧和FFT滤波器系数相乘生成被滤波的子帧，其中在所述相对应的子带中按照预先确定的块大小通过快速傅里叶变换被截断的子带滤波器系数获得所述FFT滤波器系数，并且所述被截断的子带滤波器系数是从用于双耳滤波所述输入音频信号的原型滤波器系数获得的子带滤波器系数的至少一部分，并且其中，基于通过至少部分地使用从相对应的子带滤波器系数提取的混响时间信息获得的滤波器阶数信息确定所述被截断的子带滤波器系数的长度，所述子带滤波器系数从用于双耳滤波所述输入音频信号的原型滤波器系数所获得；

逆快速傅里叶变换所述被滤波的子帧；并且

通过重叠添加一个或多个逆快速傅里叶变换的子帧生成所述第一子带组的被滤波的子带信号。

2.根据权利要求1所述的方法，其中，所述滤波器阶数信息被确定为在频域中是可变的。

3.根据权利要求1所述的方法，其中，所述滤波器阶数信息对于每个子带具有单个值。

4.根据权利要求1所述的方法，其中，在所述相对应的子带中基于所述预先确定的块大小确定所述预先确定的子帧大小。

5.根据权利要求1所述的方法，其中，执行快速傅里叶变换进一步包括：

将子带信号分割成预先确定的子帧大小；

生成包括由被分割的子帧组成的前半部分和通过零填充的值组成的后半部分的临时子帧；以及

快速傅里叶变换被生成的临时子帧。

6.一种用于处理音频信号的装置，所述装置用于对输入音频信号进行滤波，所述输入音频信号包括多个子带信号，并且所述多个子带信号包括基于预定频带的具有低频率的第一子带组的子带信号和基于所述预定频带的具有高频率的第二子带组的子带信号，所述装置包括：

快速卷积单元，所述快速卷积单元被配置成执行所述第一子带组的每个子带信号的滤波，

抽头延迟线处理单元，所述抽头延迟线处理单元执行所述第二子带组的每个子带信号的滤波，

其中，所述快速卷积单元被配置为：

逆快速傅里叶变换所述被滤波的子帧；并且

7.根据权利要求6所述的装置，其中，所述滤波器阶数信息被确定为在频域中是可变的。

8.根据权利要求6所述的装置，其中，所述滤波器阶数信息对于每个子带具有单个值。

9.根据权利要求6所述的装置，其中，在所述相对应的子带中基于所述预先确定的块大小确定所述预先确定的子帧大小。

10.根据权利要求6所述的装置，其中，所述快速卷积单元进一步被配置为：

将子带信号分割成预先确定的子帧大小；

快速傅里叶变换被生成的临时子帧。