CN104798131A

CN104798131A - 用于空间音频对象编码中信号相依缩放变换的编码器、解码器及方法

Info

Publication number: CN104798131A
Application number: CN201380052362.9A
Authority: CN
Inventors: 萨沙·迪施; 约尼·鲍卢斯; 贝恩德·埃德勒; 奥立夫·赫尔穆特; 于尔根·赫勒; 索尔斯腾·科斯特
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2012-10-05
Filing date: 2013-10-02
Publication date: 2015-07-22
Anticipated expiration: 2033-10-02
Also published as: HK1213361A1; TWI539444B; CA2887028C; AU2013326526A1; WO2014053548A1; US10152978B2; ES2880883T3; CN104798131B; RU2015116287A; JP6268180B2; JP6185592B2; CN105190747A; EP2717265A1; AU2013326526B2; MY178697A; ES2873977T3; AR092928A1; AR092929A1; EP2717262A1; US9734833B2

Abstract

提供一种用于从降混信号产生包括一个或多个音频输出声道的音频输出信号的解码器。降混信号编码一个或多个音频对象信号。解码器包括用于根据一个或多个音频对象信号中的至少一个的信号属性将激活指示设定成激活状态的控制单元(181)。此外，解码器包括用于变换解混信号以获得包括多个第一子带声道的第一变换后的降混的第一分析模块(182)。此外，解码器包括第二分析模块(183)，用于当激活指示被设定成激活状态时，通过变换第一子带声道中的至少一个获得第二子带声道而产生第二变换后的降混，其中第二变换后的降混包括尚未被第二分析模块变换的第一子带声道及第二子带声道。此外，解码器包括解混单元(184)，其中解混单元(184)用于当激活指示被设定成激活状态时，基于关于一个或多个音频对象信号的参数边信息对第二变换后的降混进行解混以获得音频输出信号，以及当激活指示未被设定成激活状态时，基于关于一个或多个音频对象信号的参数边信息度第一变换后的降混进行解混以获得音频输出信号。此外，提供一种编码器。

Description

用于空间音频对象编码中信号相依缩放变换的编码器、解码器及方法

技术领域

本发明涉及音频信号编码、音频信号解码及音频信号处理，特别地，涉及一种用于空间音频对象编码(SAOC)中时间/频率分辨率的反向兼容动态适应的编码器、解码器及方法。

背景技术

在现代数字音频系统中，允许在接收器侧上对所传输的内容进行与音频对象有关的修改为主要趋势。这些修改包括音频信号的选定部分的增益修改和/或通过空间分布式扬声器在多声道回放的情况下对专用音频对象的空间重定位。这可通过分别地将音频内容的不同部分传递至不同扬声器来实现。

换言之，在音频处理、音频传输及音频存储的技术中，存在允许关于面向对象式音频内容播放的用户交互的增加需求，以及存在利用多声道播放的扩展可能性分别地渲染音频内容或其部分以便改善听觉印象的要求。由此，多声道音频内容的使用为用户带来显著的改善。例如，可获得三维听觉印象，其在娱乐应用中带来改善的用户满意度。然而，多声道音频内容也适用于专业环境，例如，电话会议应用，因为通过使用多声道音频播放可以改善讲话者的可懂度。另一可能应用为使得音乐作品的收听者分别地调整不同部分(也称为“音频对象”)或乐曲(诸如，声乐部分或不同乐器)的播放级别和/或空间位置。使用者可因为个人品味、为了更易于转录来自音乐作品的一个或多个部分、教育目的、伴唱、排演等原因而执行这种调整。

所有数字多声道或多对象音频内容的直接离散传输(例如，脉冲编码调制(PCM)数据的形式或者甚至压缩音频格式)需要非常高的比特率。然而，也需要按比特率有效的方式传输及存储音频数据。因此，人们乐于接受音频质量与比特率要求之间的合理权衡以便避免由多声道/多对象应用造成的过多资源负荷。

近来，在音频编码的领域中，用于多声道/多对象音频信号的比特率有效传输/存储的参数技术已由例如运动图像专家组(MPEG)及其他人介绍。一个示例为作为面向声道的方法[MPS、BCC]的MPEG环绕(MPS)，或作为面向对象的方法[JSC、SAOC、SAOC1、SAOC2]的MPEG空间音频对象编码(SAOC)。另一面向对象的方法被称为“知情源分离(informedsource separation)”[ISS1、ISS2、ISS3、ISS4、ISS5、ISS6]。这些技术旨在基于声道/对象与额外边信息(描述传输/存储的音频场景和/或音频场景中的音频源对象)的降混重建期望的输出音频场景或期望的音频源对象。

按时频选择性方式在这种系统中进行声道/对象相关的边信息的估计及应用。因此，这种系统使用时频变换，诸如，离散傅立叶变换(DFT)、短时傅立叶变换(STFT)或滤波器组如正交镜相滤波器(QMF)组等。使用MPEG SAOC的示例，在图3中描述这种系统的基本原理。

在STFT的情况下，时间维度由时间块号码表示，空间维度由频谱系数(“仓”号)捕获。在QMF的情况下，时间维度由时槽号码表示，空间维度由子带号码捕获。如果QMF的空间分辨率被随后应用的第二滤波器阶段改善，则将整个滤波器组称为混合QMF，且将精细分辨率子带称为混合子带。

如上所述，在SAOC中，按时频选择性方式进行一般的处理，且可如下在每个频带内描述，如图3中所示：

-使用由元素d_1,1…d_N,P组成的降混矩阵将N个输入音频对象信号s₁…s_N降混成P个声道x₁…x_P，作为编码器处理的部分。此外，编码器提取描述输入音频对象的特征的边信息(边信息估计器(SIE)模块)。对于MPEG SAOC，对象功率w.r.t关于彼此的关系为这种边信息的最基本形式。

-传输/存储降混信号及边信息。为此，可压缩降混音频信号，例如，使用熟知的感知音频编码器，如MPEG-1/2层II或III(又称为mp3)、MPEG-2/4高级音频编码(AAC)等。

-在接收端，解码器在概念上尝试使用传输的边信息从(解码的)降混信号恢复原始对象信号(“对象分离”)。然后使用由图3中的系数r_1,1…r_N,M描述的渲染矩阵将这些近似对象信号混合成由M个音频输出声道表示的目标场景。在极端情况下，期望的目标场景可以为来自混合的仅仅一个源信号的渲染(源分离情景)，但也可以为由传输的对象组成的任何其他任意声学场景。例如，输出可以为单声道、2声道立体声或5.1多声道目标场景。

基于时频的系统可利用具有静态时间及频率分辨率的时频(t/f)变换。选择某一固定t/f分辨率网格典型地涉及时间与频率分辨率之间的权衡。

固定t/f分辨率的效果可在音频信号混合中的典型对象信号的示例上演示。例如，音调声音的频谱展现具有基本频率及若干泛音的谐波相关结构。这种信号的能量集中于某些频率区域。对于这种信号，所利用的t/f表示的高频分辨率对于将窄频音调频谱区域与信号混合物分开是有益的。相反地，瞬态信号(如鼓音)通常具有不同的时间结构：大量能量仅在短时间周期内存在，且在广泛的频率范围上散布开。对于这些信号，所利用的t/f表示的高时间分辨率对于将瞬态信号部分与信号混合分开是有利的。

当前音频对象编码方案仅提供SAOC处理的时频选择性的有限可变性。例如，MPEGSAOC[SAOC][SAOC1][SAOC2]限于可通过使用所谓的混合正交镜相滤波器组(混合QMF)及其随后的分群成参数频带而获得的时频分辨率。因此，标准SAOC(MPEG SAOC，如在[SAOC]中标准化)中的对象恢复经常具有混合QMF的粗频率分辨率，从而导致来自其他音频对象的声音调制串扰(例如，语音中的含糊其辞的假象或音乐中的听觉粗糙度假象)。

音频对象编码方案，如双耳线索编码[BCC]和音频源的参数联合编码[JSC]，也受限于使用一个固定分辨率滤波器组。固定分辨率滤波器组或变换的实际选择总是涉及编码方案的时间与频谱属性之间的预限定之取舍(就最适性而言)。

在知情源分离(ISS)的领域中，已建议动态地使时频变换长度适宜于信号的属性[ISS7]，如自感知音频编码方案(例如，高级音频编码(AAC)[AAC])所熟知。

发明内容

本发明的目标为提供用于音频对象编码的改进的概念。本发明的目标由如权利要求1的解码器、如权利要求7的编码器、如权利要求13的用于解码的方法、如权利要求14的用于编码的方法、及如权利要求15的计算机程序解决。

与现有技术的SAOC相比，提供按反向兼容方式动态地使时频分辨率适宜于信号的实施例，以便

-源自标准SAOC编码器(MPEG SAOC，如在[SAOC]中标准化)的SAOC参数比特流仍可由具有与通过标准解码器获得的感知质量相当的感知质量的增强型解码器解码，

-可通过增强型解码器按最佳质量解码增强型SAOC参数比特流，且

-可将标准与增强型SAOC参数比特流混合(例如，在多点控制单元(MCU)情境中)成可通过标准或增强型解码器解码的一个普通比特流。

对于以上提到的属性，提供可按时频分辨率动态适应以支持新颖增强型SAOC数据的解码且同时支持传统标准SAOC数据的反向兼容映射的普通滤波器组/变换表示是有用的。给定此普通表示，增强型SAOC数据与标准SAOC数据的合并是可能的。

可通过动态地使用于估计或用于合成音频对象线索的滤波器组或变换的时频分辨率适宜于输入音频对象的特定属性来获得增强型SAOC感知质量。例如，如果在某一时间跨度期间音频对象为准静止的，则对粗时间分辨率及精细频率分辨率执行参数估计及合成是有益的。如果在某一时间跨度期间音频对象含有瞬态或非静止性，则使用精细时间分辨率及粗频率分辨率进行参数估计及合成是有利的。由此，滤波器组或变换的动态适应允许

-在准静止信号的频谱分离中的高频率选择性，以便避免对象间串扰，以及

-对于对象开始或瞬态事件的高时间精确度，以便使前回音及后回音最小化。

同时，可通过将标准SAOC数据映射至通过取决于描述对象的信号特性的边信息的本发明的反向兼容信号自适应变换提供的时频网格上来获得传统SAOC质量。

能够使用一个普通变换来解码标准及增强型SAOC数据使得能够实现对于包含标准与新颖增强型SAOC数据的混合的应用的直接反向兼容。

提供一种用于从包括多个时域降混样本的降混信号产生包括一个或多个音频输出声道的音频输出信号的解码器。降混信号编码两个或更多个音频对象信号。

解码器包括窗序列产生器或确定多个分析窗，其中分析窗中的每个包括降混信号的多个时域降混样本。多个分析窗中的每个分析窗具有指示所述分析窗的时域降混样本的数目的窗长度。窗序列产生器用于确定多个分析窗，以便分析窗中的每个的窗长度取决于两个或更多个音频对象信号中的至少一个的信号属性。

此外，解码器包括t/f分析模块，t/f分析模块用于根据多个分析窗中的每个分析窗的窗长度将所述分析窗的多个时域降混样本从时域变换至时频域，以获得变换后的降混。

此外，解码器包括解混单元，解混单元用于基于关于两个或更多个音频对象信号的参数边信息对变换后的降混进行解混，以获得音频输出信号。

根据实施例，窗序列产生器可用于确定多个分析窗，以便指示由降混信号编码的两个或更多个音频对象信号中的至少一个的信号改变的瞬态被多个分析窗中的第一分析窗以及多个分析窗中的第二分析窗包括，其中根据c_k＝t-l_b通过瞬态的位置t限定第一分析窗的中心c_k，根据c_k+1＝t+l_a通过瞬态的位置t限定第一分析窗的中心c_k+1，其中l_a及l_b为数字。

在实施例中，窗序列产生器可用于确定多个分析窗，以便指示由降混信号编码的两个或更多个音频对象信号中的至少一个的信号改变的瞬态被多个分析窗中的第一分析窗包括，其中根据c_k＝t通过瞬态的位置t限定第一分析窗的中心c_k，其中根据c_k-1＝t-l_b通过瞬态的位置t限定多个分析窗中的第二分析窗的中心c_k-1，以及其中根据c_k+1＝t+l_a通过瞬态的位置t限定多个分析窗中的第三分析窗的中心c_k+1，其中l_a及l_b为数字。

根据实施例，窗序列产生器可用于确定多个分析窗，以便多个分析窗中的每个包括第一数目个时域信号样本或第二数目个时域信号样本，其中第二数目个时域信号样本多于第一数目个时域信号样本，且其中当多个分析窗中的每个分析窗包括指示由降混信号编码的两个或更多个音频对象信号中的至少一个的信号改变的瞬态时，所述分析窗包括第一数目个时域信号样本。

在实施例中，t/f分析模块可用于通过使用QMF滤波器组及奈奎斯特滤波器组将分析窗中的每个的时域降混样本从时域变换至时频域，其中t/f分析单元(135)用于根据分析窗中的每个的窗长度变换分析窗的多个时域信号样本。

此外，提供一种用于编码两个或更多个输入音频对象信号的编码器。所述两个或更多个输入音频对象信号中的每个包括多个时域信号样本。编码器包括用于确定多个分析窗的窗序列单元。分析窗中的每个包括输入音频对象信号中的一个的多个时域信号样本，其中分析窗中的每个具有指示所述分析窗的时域信号样本的数目的窗长度。窗序列单元用于确定多个分析窗，以便分析窗中的每个的窗长度取决于两个或更多个输入音频对象信号中的至少一个的信号属性。

此外，编码器包括t/f分析单元，t/f分析单元用于将分析窗中的每个的时域信号样本从时域变换至时频域以获得变换后的信号样本。t/f分析单元可用于根据分析窗中的每个的窗长度变换所述分析窗的多个时域信号样本。

此外，编码器包括用于根据变换后的信号样本确定参数边信息的PSI估计单元。

在实施例中，编码器可进一步包括瞬态检测单元，瞬态检测单元用于确定两个或更多个输入音频对象信号的多个对象级差，且用于确定对象级差中的第一个与对象级差中的第二个之间的差是否大于阈值以确定对于分析窗中的每个，所述分析窗是否包括指示两个或更多个输入音频对象信号中的至少一个的信号改变的瞬态。

根据实施例，瞬态检测单元可用于使用检测函数d(n)确定对象级差中的第一个与对象级差中的第二个之间的差是否大于阈值，其中检测函数d(n)限定为：

d (n) = \underset{i, j}{Σ} | \log ({OLD}_{i, j} (b, n - 1)) - \log ({OLD}_{i, j} (b, n)) |

其中n指示指数，其中i指示第一对象，其中j指示第二对象，其中b指示参数频带。OLD可例如指示对象级差。

在实施例中，窗序列单元可用于确定多个分析窗，以便指示两个或更多个输入音频对象信号中的至少一个的信号改变的瞬态被多个分析窗中的第一分析窗以及多个分析窗中的第二分析窗包括，其中根据c_k＝t-l_b通过所述瞬态的位置t限定所述第一分析窗的中心c_k，根据c_k+1＝t+l_a通过所述瞬态的所述位置t限定所述第一分析窗的中心c_k+1，其中l_a及l_b为数字。

根据实施例，窗序列单元可用于确定多个分析窗，以便指示两个或更多个输入音频对象信号中的至少一个的信号改变的瞬态被多个分析窗中的第一分析窗包括，其中根据c_k＝t通过所述瞬态的位置t限定所述第一分析窗的中心c_k，其中根据c_k-1＝t-l_b通过所述瞬态的位置t限定所述多个分析窗中的第二分析窗的中心c_k-1，以及其中根据c_k+1＝t+l_a通过所述瞬态的位置t限定所述多个分析窗中的第三分析窗的中心c_k+1，其中l_a及l_b为数字。

在实施例中，窗序列单元可用于确定多个分析窗，以便多个分析窗中的每个包括第一数目个时域信号样本或第二数目个时域信号样本，其中所述第二数目个时域信号样本多于所述第一数目个时域信号样本，以及其中当多个分析窗中的每个分析窗包括指示两个或更多个输入音频对象信号中的至少一个的信号改变的瞬态时，所述分析窗包括第一数目个时域信号样本。

根据实施例，t/f分析单元可用于通过使用QMF滤波器组及奈奎斯特滤波器组将分析窗中的每个的时域信号样本从时域变换至时频域，其中t/f分析单元可用于根据分析窗中的每个的窗长度变换所述分析窗的多个时域信号样本。

此外，提供一种用于从包括多个时域降混样本的降混信号产生包括一个或多个音频输出声道的音频输出信号的解码器。降混信号编码两个或更多个音频对象信号。解码器包括用于变换多个时域降混样本以获得包括多个子带样本的多个子带的第一分析子模块。此外，解码器包括用于确定多个分析窗的窗序列产生器，其中分析窗中的每个包括多个子带中的一个的多个子带样本，其中多个分析窗中的每个分析窗具有指示所述分析窗的子带样本的数目的窗长度，其中窗序列产生器用于确定多个分析窗，以便分析窗中的每个的窗长度取决于两个或更多个音频对象信号中的至少一个的信号属性。此外，解码器包括第二分析模块，第二分析模块用于根据多个分析窗中的每个分析窗的窗长度变换所述分析窗的多个子带样本，以获得变换后的降混。此外，解码器包括解混单元，解混单元用于基于关于两个或更多个音频对象信号的参数边信息对变换后的降混进行解混，以获得音频输出信号。

此外，提供一种用于编码两个或更多个输入音频对象信号的编码器。两个或更多个输入音频对象信号中的每个包括多个时域信号样本。编码器包括用于变换多个时域信号样本以获得包括多个子带样本的多个子带的第一分析子模块。此外，编码器包括用于确定多个分析窗的窗序列单元，其中分析窗中的每个包括多个子带中的一个的多个子带样本，其中分析窗中的每个具有指示所述分析窗的子带样本的数目的窗长度，其中窗序列单元用于确定多个分析窗，以便分析窗中的每个的窗长度取决于两个或更多个输入音频对象信号中的至少一个的信号属性。此外，编码器包括第二分析模块，第二分析模块用于根据多个分析窗中的每个分析窗的窗长度变换所述分析窗的多个子带样本，以获得变换后的信号样本。此外，编码器包括用于根据变换后的信号样本确定参数边信息的PSI估计单元。

此外，提供一种用于从降混信号产生包括一个或多个音频输出声道的音频输出信号的解码器。降混信号编码一个或多个音频对象信号。解码器包括用于根据一个或多个音频对象信号中的至少一个的信号属性而将激活指示设定至激活状态的控制单元。此外，解码器包括用于变换降混信号以获得包括多个第一子带声道的第一变换后的降混的第一分析模块。此外，解码器包括第二分析模块，第二分析模块用于当激活指示被设定至激活状态时通过变换第一子带声道中的至少一个获得多个第二子带声道来产生第二变换后的降混，其中第二变换后的降混包括尚未被第二分析模块变换的第一子带声道及第二子带声道。此外，解码器包括解混单元，其中解混单元用于当激活指示被设定至激活状态时，基于关于一个或多个音频对象信号的参数边信息对第二变换后的降混进行解混以获得音频输出信号，以及当激活指示未被设定至激活状态时，基于关于一个或多个音频对象信号的参数边信息对第一变换后的降混进行解混以获得音频输出信号。

此外，提供一种用于编码输入音频对象信号的编码器。编码器包括用于根据输入音频对象信号的信号属性将激活指示设定至激活状态的控制单元。此外，编码器包括用于变换输入音频对象信号以获得第一变换后的音频对象信号的第一分析模块，其中第一变换后的音频对象信号包括多个第一子带声道。此外，编码器包括第二分析模块，第二分析模块用于当激活指示被设定至激活状态时通过变换多个第一子带声道中的至少一个获得多个第二子带声道来产生第二变换后的音频对象信号，其中第二变换后的音频对象信号包括尚未被第二分析模块变换的第一子带声道及第二子带声道。此外，编码器包括PSI估计单元，其中PSI估计单元用于当激活指示被设定至激活状态时，基于第二变换后的音频对象信号确定参数边信息，以及当激活指示未被设定至激活状态时，基于第一变换后的音频对象信号确定参数边信息。

此外，提供一种用于从包括多个时域降混样本的降混信号产生包括一个或多个音频输出声道的音频输出信号的解码方法。降混信号编码两个或更多个音频对象信号。方法包括：

-确定多个分析窗，其中分析窗中的每个包括降混信号的多个时域降混样本，其中多个分析窗中的每个分析窗具有指示所述分析窗的时域降混样本的数目的窗长度，其中进行确定多个分析窗以便分析窗中的每个的窗长度取决于两个或更多个音频对象信号中的至少一个的信号属性，

-根据多个分析窗中的每个分析窗的窗长度，将所述分析窗的多个时域降混样本从时域变换至时频域，以获得变换后的降混，以及

-基于关于两个或更多个音频对象信号的参数边信息对变换后的降混进行解混，以获得音频输出信号。

此外，提供一种用于编码两个或更多个输入音频对象信号的方法。两个或更多个输入音频对象信号中的每个包括多个时域信号样本。方法包括：

-确定多个分析窗，其中分析窗中的每个包括所述输入音频对象信号中的一个的多个时域信号样本，其中分析窗中的每个具有指示所述分析窗的时域信号样本的数目的窗长度，其中进行确定多个分析窗以便分析窗中的每个的窗长度取决于两个或更多个输入音频对象信号中的至少一个的信号属性，

-将分析窗中的每个的时域信号样本从时域变换至时频域以获得变换后的信号样本，其中根据分析窗中的每个的窗长度变换所述分析窗的多个时域信号样本，以及

-根据变换后的信号样本确定参数边信息。

此外，提供一种用于通过从包括多个时域降混样本的降混信号产生包括一个或多个音频输出声道的音频输出信号而解码的方法，其中降混信号编码两个或更多个音频对象信号。方法包括：

-变换多个时域降混样本以获得包括多个子带样本的多个子带，

-确定多个分析窗，其中分析窗中的每个包括所述多个子带中的一个的多个子带样本，其中多个分析窗中的每个分析窗具有指示所述分析窗的子带样本的数目的窗长度，其中进行确定多个分析窗以便分析窗中的每个的窗长度取决于两个或更多个音频对象信号中的至少一个的信号属性，

-根据多个分析窗中的每个分析窗的窗长度变换所述分析窗的多个子带样本以获得变换后的降混，以及

此外，提供一种用于编码两个或更多个输入音频对象信号的方法，其中两个或更多个输入音频对象信号中的每个包括多个时域信号样本。方法包括：

-变换多个时域信号样本以获得包括多个子带样本的多个子带，

-确定多个分析窗，其中分析窗中的每个包括多个子带中的一个的多个子带样本，其中分析窗中的每个具有指示所述分析窗的子带样本的数目的窗长度，其中进行确定多个分析窗以便分析窗中的每个的窗长度取决于两个或更多个输入音频对象信号中的至少一个的信号属性，

-根据多个分析窗中的每个分析窗的窗长度变换所述分析窗的多个子带样本以获得变换后的信号样本，以及

-根据变换后的信号样本确定参数边信息。

此外，提供一种用于通过从降混信号产生包括一个或多个音频输出声道的音频输出信号而解码的方法，其中降混信号编码两个或更多个音频对象信号。方法包括：

-根据两个或更多个音频对象信号中的至少一个的信号属性将激活指示设定至激活状态。

-变换降混信号以获得包括多个第一子带声道的第一变换后的降混。

-当激活指示被设定至激活状态时，通过变换第一子带声道中的至少一个获得多个第二子带声道而产生第二变换后的降混，其中第二变换后的降混包括尚未被第二分析模块变换的第一子带声道及第二子带声道。以及

-当激活指示被设定至激活状态时，基于关于两个或更多个音频对象信号的参数边信息对第二变换后的降混进行解混以获得音频输出信号，以及当激活指示未被设定至激活状态时，基于关于两个或更多个音频对象信号的参数边信息对第一变换后的降混进行解混以获得音频输出信号。

此外，提供一种用于编码两个或更多个输入音频对象信号的方法。该方法包括：

-根据两个或更多个输入音频对象信号中的至少一个的信号属性将激活指示设定至激活状态。

-变换输入音频对象信号中的每个以获得所述输入音频对象信号的第一变换后的音频对象信号，其中所述第一变换后的音频对象信号包括多个第一子带声道。

-对于输入音频对象信号中的每个，当激活指示被设定至激活状态时，通过变换所述输入音频对象信号的第一变换后的音频对象信号的第一子带声道中的至少一个获得多个第二子带声道而产生第二变换后的音频对象信号，其中所述第二变换后的降混包括尚未被第二分析模块变换的所述第一子带声道及所述第二子带声道。以及

-当激活指示被设定至激活状态时，基于输入音频对象信号中的每个的第二变换后的音频对象信号确定参数边信息，以及当该激活指示未被设定至激活状态时，基于输入音频对象信号中的每个的第一变换后的音频对象信号确定参数边信息。

此外，提供一种用于当在计算机或信号处理器上执行时实施上述方法中的一个的计算机程序。

在从属权利要求中提供优选实施例。

附图说明

在下文中，结合附图详细地描述本发明的实施例，其中：

图1a示出根据实施例的解码器，

图1b示出根据另一实施例的解码器，

图1c示出根据又一实施例的解码器，

图2a示出根据实施例的用于编码输入音频对象信号的编码器，

图2b示出根据另一实施例的用于编码输入音频对象信号的编码器，

图2c示出根据又一实施例的用于编码输入音频对象信号的编码器，

图3示出SAOC系统的概念性概述的示意性框图，

图4示出单声道音频信号的时间频谱表示的示意性及示例性示图，

图5示出SAOC编码器内的边信息的时频选择性计算的示意性框图，

图6示出根据实施例的说明解码标准SAOC比特流的增强型SAOC解码器的框图，

图7示出根据实施例的解码器的框图，

图8示出根据特定实施例的实施编码器的参数路径的编码器的框图，

图9示出正常窗序列的适应以容纳瞬态处的窗跨越点，

图10示出根据实施例的瞬态隔离块切换方案，

图11示出根据实施例的具有瞬态的信号及其生成的AAC状窗序列，

图12示出扩展QMF混合滤波，

图13示出将短窗用于变换的示例，

图14示出将比图13的实例中长的窗用于变换的示例，

图15示出实现高频率分辨率及低时间分辨率的示例，

图16示出实现高时间分辨率及低频率分辨率的示例，

图17示出实现中等时间分辨率及中等频率分辨率的第一示例，以及

图18示出实现中等时间分辨率及中等频率分辨率的第一示例。

具体实施方式

在描述本发明的实施例之前，提供关于现有技术的SAOC系统的更多背景。

图3示出SAOC编码器10及SAOC解码器12的一般配置。SAOC编码器10接收N个对象(即，音频信号s₁至s_N)作为输入。特别地，编码器10包括降混器16，降混器16接收音频信号s₁至s_N并将其降混成降混信号18。可选地，可在外部提供降混(“艺术降混”)，且系统估计额外的边信息以使所提供的降混与计算出的降混相匹配。在图3中，降混信号被示为P声道信号。因此，可想到任何单声道(P＝1)、立体声(P＝2)或多声道(P>2)降混信号配置。

在立体声降混的情况下，降混信号18的声道记为L0及R0，在单声道降混的情况下，降混信号18的声道简记为L0。为了使SAOC解码器12能够恢复单个对象s₁至s_N，边信息估计器17为SAOC解码器12提供包括SAOC参数的边信息。例如，在立体声降混的情况下，SAOC参数包括对象级差(OLD)、对象间相关性(IOC)(对象间交叉相关参数)、降混增益值(DMG)及降混声道级差(DCLD)。包括SAOC参数的边信息20与降混信号18一起形成被SAOC解码器12接收的SAOC输出数据流。

SAOC解码器12包括升混器，升混器接收降混信号18以及边信息20以便将音频信号及恢复且渲染到任一组用户选定的声道至上，其中通过输入至SAOC解码器12的渲染信息26规定渲染。

可将任何编码域(例如，时域或频谱域)中的音频信号s₁至s_N输入编码器10中。在将时域中的(如，PCM编码的)音频信号s₁至s_N馈入至编码器10的情况下，编码器10可使用滤波器组(如，混合QMF组)，以便将信号变换至频谱域内，其中音频信号被表示成特定滤波器组分辨率处的与不同频谱部分相关联的若干子带。如果音频信号s₁至s_N已经为编码器10期望的表示，则其不必执行频谱分解。

图4示出刚提到的频谱域中的音频信号。由图可见，音频信号被表示为多个子带信号。每个子带信号30₁至30_K由小方框32指示的子带值的时间序列组成。由图可见，子带信号30₁至30_K的子带值32在时间上彼此同步，以便对于连续滤波器组时槽34中的每个，每个子带30₁至30_K包括正好一个子带值32。如通过频率轴36所示，子带信号30₁至30_K与不同频率区域相关联，如通过时间轴38所示，滤波器组时槽34在时间上连续地配置。

如上所述，图3的边信息提取器17从输入音频信号s₁至s_N计算SAOC参数。根据当前实施的SAOC标准，编码器10按可相对于如通过滤波器组时槽34及子带分解确定的原始时间/频率分辨率降低某一量的时间/频率分辨率执行此计算，其中这个某一量在边信息20内被传送至解码器侧。若干个群的连续滤波器组时槽34可形成SAOC框41。SAOC框41内的参数频带的数目也在边信息20内被传送。因此，时间/频率域被虚线42分成图4中举例说明的时间/频率数据块(tile)。在图4中，参数频带按相同方式分布于各种示出的SAOC框41中，以便获得时间/频率数据块的规则配置。然而，一般地，根据各个SAOC框41中的频谱分辨率的不同需求，参数频带可在一个SAOC框41和随后的SAOC框之间不同。此外，SAOC框41的长度也可变化。结果，时间/频率数据块的配置可以为不规则的。尽管如此，特定SAOC框41内的时间/频率数据块典型地具有相同的持续时间且在时间方向上对准，即，所述SAOC框41中的所有t/f数据块开始于给定SAOC框41的开始处且结束于所述SAOC框41的结束处。

图3中示出的边信息提取器17根据以下公式计算SAOC参数。特别地，边信息提取器17将对于每个对象i的对象级差计算为

{OLD}_{i}^{l, m} = \frac{\underset{n &Element; l}{Σ} \underset{k &Element; m}{Σ} x_{i}^{n, k} x_{i}^{n, k *}}{\max_{j} (\underset{n &Element; l}{Σ} \underset{k &Element; m}{Σ} x_{j}^{n, k} x_{j}^{n, k *})}

其中总和n及指数k分别遍历属于由用于SAOC框(或处理时槽)的指数l及用于参数频带的指数m标记的某一时间/频率数据块42的所有时间指数34及所有频谱指数30。因此，音频信号或对象i的所有子带值x_i的能量被总计及标准化至所有对象或音频信号间的那个数据块的最高能量值。表示的复共轭。

另外，SAOC边信息提取器17能够计算不同输入对象s₁至s_N的对的对应时间/频率数据块的相似性度量。虽然SAOC边信息提取器17可计算输入对象s₁至s_N的所有对之间的相似性度量，但是SAOC边信息提取器17也可抑制相似性度量的传送或将相似性度量的计算限于形成普通立体声声道的左声道或右声道的音频对象s₁至s_N。在任何情况下，相似性度量被称为对象间交叉相关参数计算如下

{IOC}_{i, j}^{l, m} = {IOC}_{j, i}^{l, m} = Re {\frac{\underset{n &Element; l}{Σ} \underset{k &Element; m}{Σ} x_{i}^{n, k} x_{j}^{n, k *}}{\sqrt{\underset{n &Element; l}{Σ} \underset{k &Element; m}{Σ} x_{i}^{n, k} x_{i}^{n, k *} \underset{n &Element; l}{Σ} \underset{k &Element; m}{Σ} x_{j}^{n, k} x_{j}^{n, k *}}}}

其中指数n及k也遍历属于某一时间/频率数据块42的所有子带值，i及j表示音频对象s₁至s_N的某一对，且Re{}表示丢弃复共轭的虚数部分的操作。

图3的降混器16通过使用应用至每个对象s₁至s_N的增益因子降混对象s₁至s_N。也就是说，将增益因子d_i应用至对象i，然后总计所有因此被加权的对象s₁至s_N以获得单声道降混信号，这在图3中示例性示出(如果P＝1)。在两声道降混信号的另一示例情况下(图3中示为如果P＝2的情况)，将增益因子d_1,i应用至对象i，然后对所有这种增益放大的对象求和以便获得左降混声道L0，将增益因子d_2,i应用至对象i，然后对因此增益放大的对象求和以便获得右降混声道R0。在多声道降混(P>2)的情况下，将应用与以上相似的处理。

这个降混处方通过降混增益DMGi(及在立体声降混信号的情况下，降混声道级差DCLDi)传送至解码器侧。

根据以下公式计算降混增益：

DMG_i＝20log₁₀(d_i+ε)，(单声道降混)，

{DMG}_{i} = {10 \log}_{10} (d_{1, i}^{2} + d_{2, i}^{2} + ϵ),

(立体声降混)，

其中ε为小数，如10^-9。

对于DCLD，应用以下公式：

{DCLD}_{i} = {20 \log}_{10} (\frac{d_{1, i}}{d_{2, i} + ϵ}) .

在正常模式中，降混器16分别根据以下公式产生降混信号：

对于单声道降混，

(L 0) = (d_{i}) (\begin{matrix} s_{1} \\ . \\ . \\ . \\ s_{N} \end{matrix});

或者，对于立体声降混，

(\begin{matrix} L 0 \\ R 0 \end{matrix}) = (\begin{matrix} d_{1, i} \\ d_{2, i} \end{matrix}) (\begin{matrix} s_{1} \\ . \\ . \\ . \\ s_{N} \end{matrix}) .

因此，在以上提到的公式中，参数OLD及IOC为音频信号的函数，参数DMG及DCLD为d的函数。附带提一下，注意，d可在时间上及在频率上变化。

因此，在正常模式中，降混器16无偏好地混合所有对象s₁至s_N，即，平等地处理所有对象s₁至s_N。

在解码器侧，升混器在一个计算步骤中(即，在两声道降混的情况下)执行降混程序的逆转及通过矩阵R(在文献中有时也称作A)表示的“渲染信息”26的实施。

(\begin{matrix} {\hat{y}}_{1} \\ . \\ . \\ . \\ {\hat{y}}_{M} \end{matrix}) = {RED}^{*} {({DED}^{*})}^{- 1} (\begin{matrix} L 0 \\ R 0 \end{matrix}),

其中矩阵E为参数OLD及IOC的函数，且矩阵D含有降混系数，如

矩阵E为音频对象s₁至s_N的估计协方差矩阵。在当前的SAOC实施中，估计协方差矩阵E的计算典型地按SAOC参数的频谱/时间分辨率执行(即，对于每个(l,m)，估计协方差矩阵可被写为E^l,m。估计协方差矩阵E^l,m的大小为N×N，且其系数被限定为

e_{i, j}^{l, m} = \sqrt{{OLD}_{i}^{l, m} {OLD}_{j}^{l, m}} {IOC}_{i, j}^{l, m} .

因此，E^l,m为

矩阵E^l,m具有沿着其对角线的对象级差，即对于i＝j，这是因为对于i＝j，且在其对角线外，估计协方差矩阵E具有分别表示对象i及j的对象级差的几何平均数的矩阵系数，且通过对象间交叉相关度量对矩阵系数加权。

图5显示关于作为SAOC编码器10的部分的边信息估计器(SIE)的示例的实施的一可能原理。SAOC编码器10包括混合器16及边信息估计器(SIE)17。SIE概念上由两个模块组成：一个模块45计算每个信号的基于短时的t/f表示(例如，STFT或QMF)。将计算出的短时t/f表示馈入至第二模块(t/f选择性边信息估计模块(t/f-SIE))46内。t/f-SIE模块46计算每个t/f数据块的边信息。在当前SAOC实施中，对于所有音频对象s₁至s_N，时间/频率变换是固定的且相同的。此外，在对于所有音频对象相同且对于所有音频对象s₁至s_N具有相同时间/频率分辨率的SAOC框上确定SAOC参数，因此忽视在一些情况下对精细时间分辨率或在其他情况下对精细频谱分辨率的对象特定需求。

在下文中，描述本发明的实施例。

图1a说明根据实施例的用于从包括多个时域降混样本的降混信号产生包括一个或多个音频输出声道的音频输出信号的解码器。降混信号编码两个或更多个音频对象信号。

解码器包括用于确定多个分析窗的窗序列产生器134(例如，基于参数边信息，例如，对象级差)，其中分析窗中的每个包括降混信号的多个时域降混样本。多个分析窗中的每个分析窗具有指示所述分析窗的时域降混样本的数目的窗长度。窗序列产生器134用于确定多个分析窗，以便分析窗中的每个的窗长度取决于两个或更多个音频对象信号中的至少一个的信号属性。例如，窗长度可取决于所述分析窗是否包括指示由降混信号编码的两个或更多个音频对象信号中的至少一个的信号改变的瞬态。

为了确定多个分析窗，窗序列产生器134可(例如)分析参数边信息(例如，传输的关于两个或更多个音频对象信号的对象级差)，以确定分析窗的窗长度，以便分析窗中的每个的窗长度取决于两个或更多个音频对象信号中的至少一个的信号属性。或者，例如，为了确定多个分析窗，窗序列产生器134可分析窗形状或分析窗自身，其中可在比特流中(例如)将窗形状或分析窗自编码器传输至解码器，且其中分析窗中的每个的窗长度取决于两个或更多个音频对象信号中的至少一个的信号属性。

此外，解码器包括t/f分析模块135，t/f分析模块135用于根据所述分析窗的窗长度将多个分析窗中的每个分析窗的多个时域降混样本从时域变换至时频域，以获得变换后的降混。

此外，解码器包括解混单元136，解混单元136用于基于关于两个或更多个音频对象信号的参数边信息对变换后的降混进行解混，以获得音频输出信号。

以下实施例使用特定窗序列建构机制。对于窗长度N_w的指数0≤n≤N_w-1，限定原型窗函数f(n,N_w)。设计单个窗w_k(n)需要三个控制点，即，先前窗、当前窗及下一个窗的中心——c_k-1、c_k及c_k+1。

使用这些控制点，将窗函数限定为

那么，实际窗位置为其中(表示将自变量向上取整至下一个整数的运算，且对应地表示将自变量向下取整至下一个整数的运算)。在说明中使用的原型窗函数为正弦窗，其限定为

f (n, N) = \sin (\frac{π (2 n + 1)}{2 N}),

但也可使用其他形式。瞬态位置t限定三个窗的中心c_k-1＝t-l_b、c_k＝t及c_k+1＝t+l_a，其中数字l_b及l_a限定瞬态前及后的期望的窗范围。

如稍后关于图9所解释的，窗序列产生器134可例如用于确定多个分析窗，以便瞬态被多个分析窗中的第一分析窗和多个分析窗中的第二分析窗包括，其中根据c_k＝t-l_b通过瞬态的位置t限定第一分析窗的中心c_k，根据c_k+1＝t+l_a通过瞬态的位置t限定第一分析窗的中心c_k+1，其中l_a及l_b为数字。

如稍后关于图10所解释的，窗序列产生器134可例如用于确定多个分析窗，以便瞬态被多个分析窗中的第一分析窗包括，其中根据c_k＝t通过瞬态的位置t限定第一分析窗的中心c_k，其中根据c_k-1＝t-l_b通过瞬态的位置t限定多个分析窗中的第二分析窗的中心c_k-1，以及其中根据c_k+1＝t+l_a通过瞬态的位置t限定多个分析窗中的第三分析窗的中心c_k+1，其中l_a及l_b为数字。

如稍后关于图11所解释的，窗序列产生器134可例如用于确定多个分析窗，以便多个分析窗中的每个包括第一数目个时域信号样本或第二数目个时域信号样本，其中第二数目个时域信号样本多于第一数目个时域信号样本，且其中当多个分析窗中的每个分析窗包括瞬态时，所述分析窗包括第一数目个时域信号样本。

在实施例中，t/f分析模块135用于通过使用QMF滤波器组及奈奎斯特滤波器组将分析窗中的每个的时域降混样本从时域变换至时频域，其中t/f分析单元(135)用于根据分析窗中的每个的窗长度变换所述分析窗的多个时域信号样本。

图2a说明用于编码两个或更多个输入音频对象信号的编码器。两个或更多个输入音频对象信号中的每个包括多个时域信号样本。

编码器包括用于确定多个分析窗的窗序列单元102。分析窗中的每个包括输入音频对象信号中的一个的多个时域信号样本，其中分析窗中的每个具有指示所述分析窗的时域信号样本的数目的窗长度。窗序列单元102用于确定多个分析窗，以便分析窗中的每个的窗长度取决于两个或更多个输入音频对象信号中的至少一个的信号属性。例如，窗长度可取决于所述分析窗是否包括指示两个或更多个输入音频对象信号中的至少一个的信号改变的瞬态。

此外，编码器包括t/f分析单元103，t/f分析单元103用于将分析窗中的每个的时域信号样本从时域变换至时频域以获得变换后的信号样本。t/f分析单元103可用于根据分析窗中的每个的窗长度变换所述分析窗的多个时域信号样本。

此外，编码器包括用于根据变换后的信号样本确定参数边信息的PSI估计单元104。

在实施例中，编码器可例如进一步包括瞬态检测单元101，瞬态检测单元101用于确定两个或更多个输入音频对象信号的多个对象级差，以及用于确定对象级差中的第一个与对象级差中的第二个之间的差是否大于阈值以确定对于分析窗中的每个，所述分析窗是否包括指示两个或更多个输入音频对象信号中的至少一个的信号改变的瞬态。

根据实施例，瞬态检测单元101用于使用检测函数d(n)确定对象级差中的第一个与对象级差中的第二个之间的差是否大于阈值，其中将检测函数d(n)限定为：

d (n) = \underset{i, j}{Σ} | \log ({OLD}_{i, j} (b, n - 1)) - \log ({OLD}_{i, j} (b, n)) |

其中n指示时间指数，其中i指示第一对象，其中j指示第二对象，其中b指示参数频带。OLD可例如指示对象级差。

如稍后关于图9所解释的，窗序列单元102可例如用于确定多个分析窗，以便指示两个或更多个输入音频对象信号中的至少一个的信号改变的瞬态被多个分析窗中的第一分析窗和多个分析窗中的第二分析窗包括，其中根据c_k＝t-l_b通过瞬态的位置t限定第一分析窗的中心c_k，根据c_k+1＝t+l_a通过瞬态的位置t限定第一分析窗的中心c_k+1，其中l_a及l_b为数字。

如稍后关于图10所解释的，窗序列单元102可例如用于确定多个分析窗，以便指示两个或更多个输入音频对象信号中的至少一个的信号改变的瞬态被多个分析窗中的第一分析窗包括，其中根据c_k＝t通过瞬态的位置t限定第一分析窗的中心c_k，其中根据c_k-1＝t-l_b通过瞬态的位置t限定多个分析窗中的第二分析窗的中心c_k-1，以及其中根据c_k+1＝t+l_a通过瞬态的位置t限定多个分析窗中的第三分析窗的中心c_k+1，其中l_a及l_b为数字。

如稍后关于图11所解释的，窗序列单元102可例如用于确定多个分析窗，以便多个分析窗中的每个包括第一数目个时域信号样本或第二数目个时域信号样本，其中第二数目个时域信号样本多于第一数目个时域信号样本，且其中当多个分析窗中的每个分析窗包括指示两个或更多个输入音频对象信号中的至少一个的信号改变的瞬态时，所述分析窗包括第一数目个时域信号样本。

根据实施例，t/f分析单元103用于通过使用QMF滤波器组及奈奎斯特滤波器组将分析窗中的每个的时域信号样本从时域变换至时频域，其中t/f分析单元103用于根据分析窗中的每个的窗长度变换所述分析窗的多个时域信号样本。

在下文中，描述根据实施例的使用反向兼容自适应滤波器组的增强型SAOC。

首先，说明通过增强型SAOC解码器解码标准SAOC比特流。

增强型SAOC解码器被设计为能够按良好质量解码来自标准SAOC编码器的比特流。解码仅限于参数重建构，且忽略可能的残余流。

图6示出根据实施例的增强型SAOC解码器的框图，其说明解码标准SAOC比特流。粗黑功能块(132、133、134、135)指示本发明的处理。参数边信息(PSI)由对象级差(OLD)、对象间相关性(IOC)及用于从解码器中的各个对象产生降混信号(DMX音频)的降混矩阵D的组组成。每个参数集与限定与参数相关联的时间区域的参数边界相关联。在标准SAOC中，将基础时间/频率表示的频段集合成参数频带。频带俄间距类似于人类听觉系统中的临界频带的间距。此外，可将多个t/f表示框集合成参数框。这些操作都提供所需的边信息的量的减少，代价为建模不准确。

如在SAOC标准中所描述的，OLD及IOC用于计算解混矩阵G＝ED^TJ，其中E的元素为近似于对象交叉相关矩阵，i及j为对象指数，J≈(DED^T)^-1，且D_T为D的转置。解混矩阵计算器131可用于因此计算解混矩阵。

然后，按照标准SAOC，通过时间内插器132将解混矩阵从参数框的先前框的解混矩阵线性内插至估计值所到达的参数边界。这导致用于每个时间/频率分析窗及参数频带的解混矩阵。

解混矩阵的参数频带频率分辨率被窗频率分辨率适应单元133扩展至那个分析窗的时频表示的分辨率。当用于时间框中的参数频带b的内插的解混矩阵被限定为G(b)时，对于那个参数频带内的所有频段使用相同的解混系数。

窗序列产生器134用于使用来自PSI的参数集范围信息确定适当的窗序列，以用于分析输入降混音频信号。主要要求在于，当在PSI中存在参数集边界时，连续分析窗之间的交界点应匹配该边界。窗还确定每个窗中的数据的频率分辨率(如前所述，用于解混数据扩展)。

然后，通过t/f分析模块135使用适当的时频变换(例如，离散傅立叶变换(DFT)、复杂的修正离散余弦变换(CMDCT)或奇数堆栈离散傅立叶变换(ODFT))将窗口的数据变换成频域表示。

最后，解混单元136对降混信号X的频谱表示应用每框每频段解混矩阵，以获得参数重构Y。输出声道j为降混声道的线性组合。

对于大多数情况，通过这个过程可获得的质量在感知上无法与通过标准SAOC解码器获得的结果相区分。

应注意的是，以上文字描述单个对象的重构，但在标准SAOC中，渲染包括在解混矩阵中，即，包括在参数内插中。作为线性运算，运算的顺序无所谓，但是差异值得注意。

在下文中，描述通过增强型SAOC解码器解码增强型SAOC比特流。

较早已在标准SAOC比特流的解码中描述了增强型SAOC解码器的主要功能。这个章节将描述如何将引入至PSI中的增强型SAOC增强用于获得较好感知质量。

图7描述根据实施例的说明频率分辨率增强的解码的解码器的主要功能块。粗黑功能块(132、133、134、135)指示本发明的处理。

首先，频带上值扩展单元141使每个参数频带的OLD及IOC值适应于增强中使用的频率分辨率，例如，适应于1024个频段。这通过在对应于参数频带的频段上复制值来进行。这导致新的OLD和IOC， K(f,b)为通过以下公式将频段f的分配限定成参数频带b的核心矩阵

与此同时，增量函数恢复单元142反转校正因子参数化以获得与扩展后的OLD及IOC相同大小的增量函数

接着，增量应用单元143对扩展后的OLD值应用增量，且获得的精细分辨率OLD值通过获得。

在特定实施例中，解混矩阵的计算可例如通过解混矩阵计算器131进行，如同解码标准SAOC比特流：G(f)＝E(f)D^T(f)J(f)，其中且J(f)≈(D(f)E(f)D^T(f))^-1。若想要，可将渲染矩阵与解混矩阵G(f)相乘。如同标准SAOC，接下来进行时间内插器132的时间内插。

因为每个窗中的频率分辨率可与标准高频率分辨率不同(通常低于标准高频率分辨率)，所以窗频率分辨率适应单元133需要修改解混矩阵以匹配来自音频的频谱数据的分辨率从而允许应用解混矩阵。这可例如通过将频率轴上的系数重取样至正确的分辨率来进行。或者，如果分辨率为整数倍数，则用高分辨率数据简单地平均化对应于低分辨率中的一个频段的指数，

G^{low} (b) = 1 / | | b | | \underset{f &Element; b}{Σ} G (f) .

来自比特流的窗序列信息可用于获得与在编码器中使用的时频分析完全互补的时频分析，或可基于参数边界建构开窗序列，如在标准SAOC比特流解码中所进行。为此，可使用窗序列产生器134。

接着通过t/f分析模块135使用给定窗进行降混音频的时频分析。

最后，经时间内插及(可能的)频谱适应的解混矩阵被解混单元136应用到输入音频的时频表示上，且可获得输出声道j作为输入声道的线性组合

在下文中，描述反向兼容增强型SAOC编码。

现在，描述产生含有反向兼容边信息部分及额外增强的比特流的增强型SAOC编码器。现有的标准SAOC解码器可以解码PSI的反向兼容部分并产生对象的重构。在多数情况下，被增强型SAOC解码器使用的增加的信息改进重构的感知质量。另外，如果增强型SAOC解码器在有限资源上运行，则可忽略增强且仍获得基本质量重构。应注意的是，来自标准SAOC的重构与来自仅使用标准SAOC兼容PSI的增强型SAOC解码器的重构不同，但被判断为感知上非常类似(差异是具有与使用增强型SAOC解码器解码标准SAOC比特流的类似性质)。

图8示出根据特定实施例的实施上述编码器的参数路径的编码器的框图。粗黑功能块(102、103)指示本发明的处理。特别地，图8说明产生反向兼容比特流的二级编码的框图(具有功能更强大的解码器的增强)。

首先，将信号细分成分析框，然后将分析框变换至频域。将多个分析框集合成固定长度的参数框，例如在MPEG SAOC中使用16和32个分析框的长度是常见的。假定，信号属性在参数框期间保持准静止且可因此由仅一组参数来表征。如果信号特性在参数框内改变，则存在建模错误，并且将较长参数框细分成再次满足准静止的假定的部分是有益的。为此目的，需要瞬态检测。

可通过瞬态检测单元101从所有输入对象单独地检测瞬态，并且当在对象的仅一个中存在瞬态事件时，将那个位置声明为全局瞬态位置。瞬态位置的信息用于建构适当的开窗序列。建构可基于例如以下逻辑：

-设定默认窗长度，即，默认信号变换块的长度，例如，2048个样本。

-设定与4个默认窗具有50％重叠的参数框长度，例如，4096个样本。参数框将多个窗集合在一起，且将单一组的信号描述符用于整个块，而不是对于每个窗单独地具有描述符。这允许减少PSI的量。

-如果没有检测到瞬态，则使用默认窗及整个参数框长度。

-如果检测到瞬态，则修改开窗以提供在瞬态的位置处的较好时间分辨率。

当建构开窗序列时，负责其的窗序列单元102还从一个或多个分析窗生成参数子框。将每个子集作为实体进行分析，且对于每个子块，仅传输一组PSI参数。为了提供标准SAOC兼容PSI，将限定的参数块长度用作主参数块长度，且那个块内的可能的定位瞬态限定参数子集。

输出所建构的窗序列，用于由t/f分析单元103进行的输入音频信号的时频分析，且在PSI的增强型SAOC增强部分中传输所建构的窗序列。

每个分析窗的频谱数据被PSI估计单元104用于估计用于反向兼容(例如，MPEG)SAOC部分的PSI。这通过将频谱段集合成MPEG SAOC的参数频带以及估计频带中的IOC、OLD和绝对对象能量(NRG)来进行。宽松地遵循MPEG SAOC的记录，将参数化数据块中的两个对象频谱S_i(f,n)与S_j(f,n)的归一化积限定为

{nrg}_{i, j} (b) = \frac{Σ_{n = 0}^{N - 1} Σ_{f = 0}^{F_{n} - 1} K (b, f, n) S_{i} (f, n) S_{j}^{*} (f, n)}{Σ_{n = 0}^{N - 1} Σ_{f = 0}^{F_{n} - 1} K (b, f, n)},

其中矩阵限定从(这个参数框中的N个框的)框n中的F_n个t/f表示段到参数B频带的映射，其中

且

S^*为S的复共轭。频谱分辨率在单个参数块中的各个框间不同，因此映射矩阵将数据转换成普通分辨率基础。将这个参数化数据块中的最大对象能量限定为最大对象能量具有这个值，接着将OLD限定为归一化的对象能量

{OLD}_{i} (b) = \frac{{nrg}_{i, i} (b)}{NRG (b)} .

最后，可以从互功率获得IOC：

{IOC}_{i, j} (b) = Re {\frac{{nrg}_{i, j} (b)}{\sqrt{{nrg}_{i, i} (b) {nrg}_{j, j} (b)}}} .

这结束比特流的标准SAOC兼容部分的估计。

粗功率谱重构单元105用于使用OLD及NRG在参数分析块中重构频谱包络的粗略估计。按那个块中使用的最高频率分辨率建构包络。

每个分析窗的原始频谱被功率谱估计单元106用于计算那个窗中的功率谱。

所获得的功率谱被频率分辨率适应单元107变换成通用高频率分辨率表示。这可例如通过内插功率谱值来进行。接着，通过平均化参数块内的频谱来计算平均功率谱轮廓。这粗略地对应于忽略参数频带聚集的OLD估计。获得的频谱轮廓被视为精细分辨率OLD。

增量估计单元108用于估计校正因子“增量”，例如，通过使用粗功率谱重构划分精细分辨率OLD。结果，这为每个频段提供可用于在给定粗频谱时估算精细分辨率OLD的(乘法)校正因子。

最后，增量建模单元109用于以有效的方式对估计的校正因子建模以供传输。

有效地，对比特流的增强型SAOC修改由开窗序列信息及用于传输“增量”的参数组成。

在下文中，描述瞬态检测。

当信号特性保持准静止时，可通过将若干个时间框组合成参数区块来获得编码增益(关于边信息的量)。例如，在标准SAOC中，常使用的值为每个参数区块的16及32个QMF框。这些分别对应于1024及2048个样本。可预先将参数块的长度设定为固定值。这具有的一个直接效果为编码解码器延迟(编码器必须具有全框才能够对其编码)。当使用长参数块时，检测信号特性中的显著改变将是有益的，尤其当违反准静止假定时。在找到显著改变的位置后，可在其处划分时域信号且划分后的时域信号的部分可重新较好地满足准静止假定。

此处，描述将与SAOC一起使用的新颖瞬态检测方法。学究式地可见，它并不旨在检测瞬态，而是检测也可例如通过声音偏移触发的信号参数化的改变。

将输入信号划分成短的重叠框，且将所述框变换至频域，例如，使用离散傅立叶变换(DFT)。通过将值与其复共轭相乘(即，它们的绝对值的平方)将复频谱变换成功率谱。接着，使用与标准SAOC中使用的参数频带集合类似的参数频带集合，并且计算每个对象中的每个时间框中的每个参数频带的能量。简言之，运算为

P_{i} (b, n) = \underset{f &Element; b}{Σ} S_{i} (f, n) S_{i}^{*} (f, n),

其中S_i(f,n)为时间框n中的对象i的复频谱。在频带b中的频段f上进行求和。为了从数据中移除一些噪声效应，通过一阶IIR滤波器对值进行低通滤波：

P_{i}^{LP} (b, n) = a_{LP} P_{i}^{LP} (b, n - 1) + (1 - a_{LP}) P_{i} (b, n),

其中0≤a_LP≤1为滤波器反馈系数，例如，a_LP＝0.9。

SAOC中的主要参数化为对象级差(OLD)。提出的检测方法试图检测OLD何时改变。因此，通过检察所有的对象对。通过以下的公式将所有单个对象对的改变总计成检测函数

d (n) = \underset{i, j}{Σ} | \log ({OLD}_{i, j} (b, n - 1)) - \log ({OLD}_{i, j} (b, n)) | .

将获得的值与阈值T比较以滤除小的级偏离，且在连续检测之间实施最小距离L。因此，检测函数为

在下文中，描述增强型SAOC频率分辨率。

从标准SAOC分析获得的频率分辨率受限于在标准SAOC中具有最大值28的参数频带的数目。它们从混合滤波器组获得，混合滤波器组由64频带QMF分析及随后的对最低频带的混合滤波阶段(进一步将它们划分成多达4个复子带)组成。将获得的频带集合成模仿人类听觉系统的关键频带分辨率的参数频带。集合允许减少所需的边信息数据速率。

给定合理的低数据速率，现有的系统产生合理的分离质量。主要问题为用于音调声音的清晰分离的频率分辨率不足。这表现为包围对象的音调分量的其他对象的“晕(halo)”。感知上，这被观测为刺耳或声码器状伪讯。通过增加参数频率分辨率可以减少这个晕的不利效应。注意，等于或高于512个频带(在44.1kHz采样率下)的分辨率产生测试信号的感知上良好的分离。可通过扩展现有系统的混合滤波阶段来获得这个分辨率，但混合滤波器将需要具有用于充分分离的相当高的阶，从而导致高的计算成本。

获得所需频率分辨率的简单方式为使用基于DFT的时频变换。这些可通过快速傅立叶变换(FFT)算法有效地完成。替代正常DFT，将CMDCT或ODFT视为可选方案。差异在于，后两者为奇数的，且获得的频谱包含纯的正及负频率。与DFT相比，频段被偏移0.5个频段宽度。在DFT中，频段中的一个以0Hz为中心，另一个以奈奎斯特频率为中心。ODFT与CMDCT之间的差异在于，CMDCT含有影响相位谱的额外的后调制操作。这产生的益处在于，生成的复频谱由修正离散余弦变换(MDCT)及修正离散正弦变换(MDST)组成。

长度N的基于DFT的变换产生具有N个值的复频谱。当变换的序列为实值时，仅仅需要这些值中的N/2个用于完美的重构；另外的N/2个值可通过简单的操作从给定的值中获得。分析通常根据以下操作进行：从信号取得N个时域样本的框，对这些值应用窗函数，以及接着计算被加窗的数据的实际变换。连续的块在时间上重叠50％，且窗函数被设计成使得连续窗的平方的和为一。这保证当对数据应用两次窗函数时(一次分析时域信号，第二次在合成变换之后在重叠相加之前)，无信号修改的分析加合成链无失真。

给定连续框之间的50％重叠以及2048个样本的框长度，则有效时间分辨率为1024个样本(对应于44.1kHz采样率下的23.2ms)。因为以下两个原因，这并不足够小：首先，将需要能够解码由标准SAOC编码器产生的比特流，其次，若必要，需要按较精细的时间分辨率分析增强型SAOC编码器中的信号。

在SAOC中，可以将多个块集合成参数框。假定信号属性在参数框上保持足够类似以便使用单一参数集来表征参数框。标准SAOC中通常遇到的参数框长度为16或32个QMF框(标准允许高达72的长度)。当使用具有高频率分辨率的滤波器组时，可进行类似的集合。当信号属性在参数框期间不改变时，集合提供编码效率，而无质量降级。然而，当信号属性在参数框内改变时，集合诱发错误。标准SAOC允许限定默认集合长度，其供准静止信号使用，但也限定参数子块。子块限定比默认长度短的集合，且在每个子块上单独地进行参数化。由于基础QMF组的时间分辨率，产生的时间分辨率为64个时域样本，这比使用具有高频率分辨率的固定滤波器组可获得的分辨率精细得多。这个要求影响增强型SAOC解码器。

使用具有大变换长度的滤波器组提供良好的频率分辨率，但同时时间分辨率降级(所谓的不确定原理)。如果信号属性在单个分析框内改变，则低时间分辨率可造成合成输出中的模糊。因此，在相当大的信号改变的位置中获得子框时间分辨率将为有益的。子框时间分辨率自然地导致较低频率分辨率，但假定在信号改变期间，时间分辨率为需要被准确捕获的更重要的方面。这个子框时间分辨率要求主要影响增强型SAOC编码器(因此，也影响解码器)。

可在两种情况下使用相同的解决原理：当信号为准静止(未检测到瞬态)时以及当不存在参数边界时，使用长分析框。当不满足两个条件中的任一个时，使用块长度切换机制。这个条件的例外可以用于存在于未划分的框群之间且与两个长窗之间的交界点重合的参数边界(在解码标准SAOC比特流时)。假定，在这种情况下，对于高分辨率滤波器组，信号属性保持足够静止。当(从比特流或瞬态检测器)传送参数边界时，框被调整以使用较小的框长度，因此局部地改进时间分辨率。

前两个实施例使用相同的基础窗序列建构机制。对于窗长度N，为指数0≤n≤N-1限定原型窗函数f(n,N)。设计单个窗w_k(n)需要三个控制点，即，先前窗、当前窗及下个窗的中心c_k-1、c_k及c_k+1。

使用这些控制点，将窗函数限定为

因此，实际窗位置为其中说明中使用的原型窗函数为正弦窗，其限定为

f (n, N) = \sin (\frac{π (2 n + 1)}{2 N}),

但也可使用其他形式。

在下文中，描述根据实施例的瞬态处的交叉。

图9为“瞬态处的交叉”块切换方案的原理的说明。特别地，图9说明正常窗序列的适应以容纳瞬态处的窗交叉点。线111表示时域信号样本，垂直线112表示检测到的瞬态的位置t(或来自比特流的参数边界)，线113说明窗函数及其时间范围。这个方案需要决定瞬态周围的两个窗w_k与w_k+1之间的重叠的量，从而限定窗陡度。当重叠长度被设定为小值时，窗在靠近瞬态处具有它们的最大点，且与瞬态交叉的段快速衰减。瞬态之前与之后的重叠长度可以不同。在这个方法中，将在长度上调整包围瞬态的两个窗或框。瞬态的位置将周围窗的中心限定为c_k＝t-l_b及c_k+1＝t+l_a，其中l_b及l_a分别为瞬态之前及之后的重叠长度。使用这些限定，可使用以上的等式。

在下文中，描述根据实施例的瞬态隔离。

图10示出根据实施例的瞬态隔离块切换方案的原理。短窗w_k居中在瞬态上，两个相邻窗w_k-1及w_k+1被整以补充短窗。有效地，相邻窗受限于瞬态位置，因此前一个窗仅含有瞬态之前的信号，后一个窗仅含有瞬态之后的信号。在这个方法中，瞬态限定三个窗的中心c_k-1＝t-l_b、c_k＝t及c_k+1＝t+l_a，其中l_b及l_a限定瞬态前及后的期望窗范围。使用这些限定，可使用以上的等式。

在下文中，描述根据实施例的AAC状框架。

可能并不总是需要两个上述的加窗方案的自由度。在感知音频编码的领域中还使用不同的瞬态处理。因此目标为减少将造成所谓的前回音的瞬态的时间传播。在MPEG-2/4AAC[AAC]中，使用两个基本窗长度：长(具有2048个样本长度)及短(具有256个样本长度)。除了这两个之外，还限定两个过渡窗以实现从长到短的过渡，反之亦然。作为额外的约束，需要短窗以8个窗的群的形式出现。以这种方式，窗与窗群之间的步幅保持1024个样本的恒定值。

如果SAOC系统将基于AAC的编码解码器用于对象信号、降混或对象残余，则具有可易于与编码解码器同步的加框方案将为有益的。为此原因，描述基于AAC窗的块切换方案。

图11示出AAC状块切换示例。特别地，图11说明具有瞬态及产生的AAC状窗序列的同一信号。可看出，瞬态的时间位置覆盖有8个短窗，其被从长窗到长窗的过渡窗包围。从说明可看出，瞬态自身既不以单个窗为中心，也不以两个窗之间的交叉点为中线。这是因为窗位置被固定至网格，但是这个网格同时保证恒定步幅。假定产生的时间舍入误差足够小，以至于与通过仅使用长窗造成的误差相比在感知上无关紧要。

将窗限定为：

-长窗：w_LONG(n)＝f(n,N_LONG)，其中N_LONG＝2048。

-短窗：w_SHORT(n)＝f(n,N_SHORT)，其中N_SHORT＝256。

-从长至短的过渡窗

-从短至长的过渡窗w_STOP(n)＝w_START(N_LONG-n-1)。

在下文中，描述根据实施例的实施变型。

无论哪种块切换方案，另一个设计选择为实际t/f变换的长度。如果主要目标为保持下列频域操作在分析框上简单，则可使用恒定变换长度。将长度设定成适当的大值，例如，对应于最长允许框的长度。如果时域框比这个值短，则将其补零至全长。应注意的是，即使在补零后频谱具有较大量的频段，与较短的变换相比，实际变换的量未被增加。在这种情况下，对于所有值n，核心矩阵K(b,f,n)具有相同的维度。

另一可选方案为无补零地变换加窗的框。这具有比在恒定变换长度的情况下小的计算复杂性。然而，核心矩阵K(b,f,n)需要考虑连续框之间的不同频率分辨率。

在下文中，描述根据实施例的扩展的混合滤波。

获得较高频率分辨率的另一种可能性将为，为了获得更精细分辨率而修改标准SAOC中使用的混合滤波器组。在标准SAOC中，仅使64个QMF频带中的最低三个穿过奈奎斯特滤波器组，从而进一步细分频带内容。

图12示出扩展的QMF混合滤波。对于每个QMF频带，单独地重复奈奎斯特滤波器，并将输出组合以获得单个高分辨率频谱。特别地，图12说明如何获得与基于DFT的方法相当的频率分辨率将需要将每个QMF频带细分成例如16个子带(需要复合滤波成32个子带)。这个方法的缺点在于，由于频带的狭窄，所需的滤波器原型长。这造成一些处理延迟，且增加计算复杂性。

可选的方式为通过将奈奎斯特滤波器组替换为有效的滤波器组/变换(例如，“缩放(zoom)”DFT、离散余弦变换等)来实施扩展的混合滤波。此外，由第一滤波器阶段(此处：QMF)的泄漏效应造成的生成的高分辨率频谱系数中包含的混叠可基本被与熟知MPEG-1/2层3混合滤波器组[FB][MPEG-1]类似的高分辨率频谱系数的混叠消除后处理减少。

图1b示出根据对应实施例的用于从包括多个时域降混样本的降混信号产生包括一个或多个音频输出声道的音频输出信号的解码器。降混信号编码两个或更多个音频对象信号。

解码器包括用于变换多个时域降混样本以获得包括多个子带样本的多个子带的第一分析子模块161。

此外，解码器包括用于确定多个分析窗的窗序列产生器162，其中分析窗中的每个包括多个子带中的一个的多个子带样本，其中多个分析窗中的每个分析窗具有指示所述分析窗的子带样本的数目的窗长度。窗序列产生器162用于确定多个分析窗(例如，基于参数边信息)，以便分析窗中的每个的窗长度取决于两个或更多个音频对象信号中的至少一个的信号属性。

此外，解码器包括第二分析模块163，第二分析模块163用于根据多个分析窗中的每个分析窗的窗长度变换所述分析窗的多个子带样本，以获得变换后的降混。

此外，解码器包括解混单元164，解混单元164用于基于关于两个或更多个音频对象信号的参数边信息对变换后的降混进行解混，以获得音频输出信号。

换言之，分两个阶段进行变换。在第一变换阶段，产生各自包括多个子带样本的多个子带。接着，在第二阶段中，进行进一步的变换。其中，用于第二阶段的分析窗确定生成的变换后的降混的时间分辨率及频率分辨率。

图13示出将短窗用于变换的示例。使用短窗导致低频率分辨率，但导致高时间分辨率。例如，当瞬态存在于编码后的音频对象信号中时，使用短窗可以为适当的(u_i,j指示子带样本，v_s,r指示时频域中的变换后降混的样本)。

图14示出将比图13的示例中长的窗用于变换的示例。使用长窗导致高频率分辨率，但导致低时间分辨率。例如，当瞬态不存在于编码后的音频对象信号中时，使用长窗可以为适当的。(同样地，u_i,j指示子带样本，v_s,r指示时频域中的变换后降混的样本。)

图2b示出根据实施例的用于编码两个或更多个输入音频对象信号的对应的编码器。两个或更多个输入音频对象信号中的每个包括多个时域信号样本。

编码器包括第一分析子模块171，第一分析子模块171用于变换多个时域信号样本以获得包括多个子带样本的多个子带。

此外，编码器包括用于确定多个分析窗的窗序列单元172，其中分析窗中的每个包括多个子带中的一个的多个子带样本，其中分析窗中的每个具有指示所述分析窗的子带样本的数目的窗长度，其中窗序列单元172用于确定多个分析窗，以便分析窗中的每个的窗长度取决于两个或更多个输入音频对象信号中的至少一个的信号属性。例如，(可选的)瞬态检测单元175可提供关于瞬态是否存在于输入至窗序列单元172的输入音频对象信号中的一个中的信息。

此外，编码器包括第二分析模块173，第二分析模块173用于根据多个分析窗中的每个分析窗的窗长度变换所述分析窗的多个子带样本，以获得变换后的信号样本。

此外，编码器包括PSI估计单元174，PSI估计单元174用于根据变换后的信号样本确定参数边信息。

根据其他实施例，可存在用于在两个阶段中进行分析的两个分析模块，但可根据信号属性而接通和断开第二模块。

例如，如果需要高频率分辨率且低时间分辨率为可接受的，则接通第二分析模块。

相反地，如果需要高时间分辨率且低频率分辨率为可接受的，则断开第二分析模块。

图1c示出根据这种实施例的用于从降混信号产生包括一个或多个音频输出声道的音频输出信号的解码器。降混信号编码一个或多个音频对象信号。

解码器包括控制单元181，控制单元181用于根据一个或多个音频对象信号中的至少一个的信号属性将激活指示设定成激活状态。

此外，解码器包括第一分析模块182，第一分析模块182用于变换降混信号以获得包括多个第一子带声道的第一变换后的降混。

此外，解码器包括第二分析模块183，第二分析模块183用于当激活指示被设定成激活状态时，通过变换第一子带声道中的至少一个获得多个第二子带声道而产生第二变换后的降混，其中第二变换后的降混包括尚未被第二分析模块变换的第一子带声道及第二子带声道。

此外，解码器包括解混单元184，其中解混单元184用于当激活指示被设定成激活状态时，基于关于一个或多个音频对象信号的参数边信息对第二变换后的降混进行解混以获得音频输出信号，以及当激活指示未被设定成激活状态时，基于关于一个或多个音频对象信号的参数边信息对第一变换后的降混进行解混以获得音频输出信号。

图15示出需要高频率分辨率但低时间分辨率是可接受的示例。因此，控制单元181通过将激活指示设定成激活状态(例如，藉由将布尔变量“activation_indication”设定成“activation_indication＝真”)而接通第二分析模块。通过第一分析模块182(图15中未示出)对降混信号进行变换以获得第一变换后的降混。在图15的示例中，变换后的降混具有三个子带。在更现实的应用情境中，变换后的降混可例如具有例如32个或64个子带。然后，第一变换的降混被第二分析模块183(图15中未示出)变换以获得第二变换后的降混。在图15的示例中，变换后的降混具有九个子带。在更现实的应用情境中，变换后的降混可例如具有例如512个、1024个或2048个子带。然后，解混单元184将对第二变换后的降混进行解混以获得音频输出信号。

例如，解混单元184可从控制单元181接收激活指示。或者，例如，每当解混单元184从第二分析模块183接收到第二变换后的降混时，解混单元184得出必须对第二变换后的降混进行解混的结论；每当解混单元184没有从第二分析模块183接收到第二变换后的降混时，解混单元184得出必须对第一变换后的降混进行解混的结论。

图16示出需要高时间分辨率但低频率分辨率是可接受的示例。因此，控制单元181通过将激活指示设定成与激活状态不同的状态(例如，通过将布尔变量“activation_indication”设定成“activation_indication＝假”)来断开第二分析模块。降混信号被第一分析模块182(图16中未示出)变换，以获得第一变换后的降混。接着，与图15相反，第一变换后的降混不再被第二分析模块183进行再一次的变换。相反地，解混单元184将对第一变换后的降混进行解混以获得音频输出信号。

根据实施例，控制单元181用于根据一个或多个音频对象信号中的至少一个是否包括指示一个或多个音频对象信号中的至少一个的信号改变的瞬态而将激活指示设定成激活状态。

在另一个实施例中，将子带变换指示分配给第一子带声道中的每个。控制单元181用于根据一个或多个音频对象信号中的至少一个的信号属性将第一子带声道中的每个的子带变换指示设定成子带变换状态。此外，第二分析模块183用于变换第一子带声道中的每个(第一子带声道中的每个的子带变换指示被设定成子带变换状态)，以获得多个第二子带声道，但不变换第二子带声道中的每个(第二子带声道中的每个的子带变换指示未被设定成子带变换状态)。

图17示出控制单元181(图17中未示出)确实将第二子带的子带变换指示设定成子带变换状态(例如，通过将布尔变量“subband_transform_indication_2”设定至“subbandtransform_indication_2＝真”)的示例。因此，第二分析模块183(图17中未示出)变换第二子带以获得三个新的“精细分辨率”子带。在图17的示例中，控制单元181不将第一和第三子带的子带变换指示设定成子带变换状态(例如，这可由控制单元181通过将布尔变量“subband_transform_indication_1”及“subband_transform_indication_3”设定成“subband transform_indication_1＝假”及“subband transform_indication_3＝假”来指示)。因此，第二分析模块183不变换第一及第三子带。相反地，第一子带及第三子带自身被用作第二变换后的降混的子带。

图18示出控制单元181(图18中示出)确实将第一和第二子带的子带变换指示设定成子带变换状态(例如，通过将布尔变量“subband_transform_indication_1”设定成“subband transform_indication_1＝真”，以及例如通过将布尔变量“subband_transform_indication_2”设定成“subband transform_indication_2＝真”)的示例。因此，第二分析模块183(图18中未示出)变换第一及第二子带以获得六个新的“精细分辨率”子带。在图18的示例中，控制单元181不将第三子带的子带变换指示设定成子带变换状态(例如，这可由控制单元181通过将布尔变量“subband_transform_indication_3”设定成“subband transform_indication_3＝假”来指示)。因此，第二分析模块183不变换第三子带。相反地，第三子带自身被用作第二变换后的降混的子带。

根据实施例，第一分析模块182用于通过使用正交镜相滤波器(QMF)变换降混信号以获得包括多个第一子带声道的第一变换后的降混。

在实施例中，第一分析模块182用于根据第一分析窗长度变换降混信号，其中第一分析窗长度取决于所述信号属性，和/或第二分析模块183用于当激活指示被设定成激活状态时通过根据第二分析窗长度变换第一子带声道中的至少一个而产生第二变换后的降混，其中第二分析窗长度取决于所述信号属性。这种实施例实现接通及断开第二分析模块183及设定分析窗的长度。

在实施例中，解码器用于从降混信号产生包括一个或多个音频输出声道的音频输出信号，其中降混信号编码两个或更多个音频对象信号。控制单元181用于根据两个或更多个音频对象信号中的至少一个的信号属性而将激活指示设定成激活状态。此外，解混单元184用于当激活指示被设定成激活状态时，基于关于一个或多个音频对象信号的参数边信息对第二变换后的降混进行解混以获得音频输出信号，以及当激活指示未被设定成激活状态时，基于关于两个或更多个音频对象信号的参数边信息对第一变换后的降混进行解混以获得音频输出信号。

图2c说明根据实施例的用于编码输入音频对象信号的编码器。

编码器包括控制单元191，控制单元191用于根据输入音频对象信号的信号属性将激活指示设定成激活状态。

此外，编码器包括第一分析模块192，第一分析模块192用于变换输入音频对象信号以获得第一变换后的音频对象信号，其中第一变换后的音频对象信号包括多个第一子带声道。

此外，编码器包括第二分析模块193，第二分析模块193用于当激活指示被设定成激活状态时，通过变换多个第一子带声道中的至少一个获得多个第二子带声道而产生第二变换后的音频对象信号，其中第二变换后的音频对象信号包括尚未被第二分析模块变换的第一子带声道及第二子带声道。

此外，编码器包括PSI估计单元194，其中PSI估计单元194用于当激活指示被设定成激活状态时，基于第二变换后的音频对象信号确定参数边信息，以及当激活指示未被设定成激活状态时，基于第一变换后的音频对象信号确定参数边信息。

根据实施例，控制单元191用于根据输入音频对象信号是否包括指示输入音频对象信号的信号改变的瞬态将激活指示设定成激活状态。

在另一个实施例中，将子带变换指示分配给第一子带声道中的每个。控制单元191用于根据输入音频对象信号的信号属性而将第一子带声道中的每个的子带变换指示设定成子带变换状态。第二分析模块193用于变换第一子带声道中的每个(第一子带声道中的每个的子带变换指示被设定成子带变换状态)，以获得多个第二子带声道，但不变换第二子带声道中的每个(第二子带声道中的每个的子带变换指示未被设定成子带变换状态)。

根据实施例，第一分析模块192用于通过使用正交镜相滤波器变换输入音频对象信号中的每个。

在另一个实施例中，第一分析模块192用于根据第一分析窗长度变换输入音频对象信号，其中第一分析窗长度取决于所述信号属性，和/或第二分析模块193用于当激活指示被设定成激活状态时，通过根据第二分析窗长度变换多个第一子带声道中的至少一个而产生第二变换后的音频对象信号，其中第二分析窗长度取决于所述信号属性。

根据另一个实施例，编码器用于编码输入音频对象信号及至少一个另外的输入音频对象信号。控制单元191用于根据输入音频对象信号的信号属性以及根据至少一个另外的输入音频对象信号的信号属性而将激活指示设定成激活状态。第一分析模块192用于变换至少一个另外的输入音频对象信号以获得至少一个另外的第一变换后的音频对象信号，其中至少一个另外的第一变换后的音频对象信号中的每个包括多个第一子带声道。第二分析模块193用于当激活指示被设定成激活状态时，变换至少一个另外的第一变换后的音频对象信号中的至少一个的多个第一子带声道中的至少一个以获得多个另外的第二子带声道。此外，PSI估计单元194用于当激活指示被设定成激活状态时基于多个另外的第二子带声道确定参数边信息。

本发明的方法及装置减少使用固定滤波器组或时频变换的现有技术的SAOC处理的前述缺点。通过动态地修改用于分析及同步化SAOC内的音频对象的变换或滤波器组的时间/频率分辨率，可获得较好的主观音频质量。同时，可最小化相同SAOC系统内的因缺乏时间精确度而造成的如前回音及后回音的伪讯以及由不充分的频谱精确度造成的如听觉刺耳及含糊其辞的伪讯。更重要地，装备有本发明的自适应变换的增强型SAOC系统保持与标准SAOC的反向兼容性，仍提供与标准SAOC的感知质量相当的良好感知质量。

实施例提供如上所述的音频编码器或音频编码方法或相关计算机程序。此外，实施例提供如上所述的音频编码器或音频解码方法或相关计算机程序。此外，实施例提供如上所述的编码后的音频信号或存储有编码后的音频信号的存储介质。

虽然已在装置的上下文中描述了一些方面，但显然，这些方面还表示对应的方法的描述，其中块或装置对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面还表示对应的装置的对应块或项目或特征的描述。

本发明的分解信号可存储于数字存储介质上，或可在如无线传输介质或有线传输介质(如，因特网)的传输介质上传输。

根据某些实施要求，本发明的实施例可以以硬件或软件实施。可使用具有存储于其上的电子可读控制信号的数字存储介质，例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存，执行实施方案，电子可读控制信号与(或能够与)可编程计算机系统协作，从而执行各个方法。

根据本发明的一些实施例包括具有电子可读控制信号的非暂时性数据载体，电子可读控制信号能够与可编程计算机系统协作，从而执行本文中描述的方法中的一个。

一般地，本发明的实施例可被实施为具有程序代码的计算机程序产品，程序代码可操作用于当计算机程序产品在计算机上执行时执行所述方法中的一个。程序代码可例如存储于机器可读载体上。

其他实施例包括存储于机器可读载体上的用于执行本文中描述的方法中的一个的计算机程序。

换言之，本发明的方法的实施例因此为具有程序代码的计算机程序，该程序代码用于当计算机程序在计算机上执行时执行本文中描述的方法中的一个。

本发明的进一步实施例因此为数据载体(或数字存储介质或计算机可读媒体)，其包括记录于其上的用于执行本文中描述的方法中的一个的计算机程序。

本发明的进一步实施例因此为数据流或信号序列，其表示用于执行本文中描述的方法中的一个的计算机程序。数据流或信号序列可例如被配置为通过数据通信连接(例如，通过因特网)进行传送。

进一步实施例包括处理装置(例如，计算机或可编程逻辑装置)，其被配置为或适于执行本文中描述的方法中的一个。

进一步实施例包括一种计算机，其具有安装于其上用于执行本文中描述的方法中的一个的计算机程序。

在一些实施例中，可使用可编程逻辑装置(例如，现场可编程门阵列)执行本文中描述的方法的一些或全部功能性。在一些实施例中，现场可编程门阵列可与微处理器协作以执行本文中描述的方法中的一个。通常，方法优选地被任何硬件装置执行。

上述实施例仅为说明本发明的原理。应理解的是，本文中描述的配置及细节的修改及变化对于本领域的其他技术人员是显而易见的。因此，其仅受到所附的专利权利要求的范围的限制，而不受本文中以实施例的描述及解释的方式而呈现的特定细节的限制。

参考文献

[BCC]C.Faller和F.Baumgarte,“Binaural Cue Coding-Part II:Schemes andapplications,”IEEE Trans.on Speech and Audio Proc.,卷11,号6,2003年11月.

[JSC]C.Faller,“Parametric Joint-Coding of Audio Sources”,120th AES Convention,巴黎,2006.

[SAOC1]J.Herre,S.Disch,J.Hilpert,O.Hellmuth:"From SAC To SAOC-RecentDevelopments in Parametric Coding of Spatial Audio",22nd Regional UK AES Conference,Cambridge,UK,2007年4月.

[SAOC2]J.B.Resch,C.Falch,O.Hellmuth,J.Hilpert,A.L.Terentiev,J.Breebaart,J.Koppens,E.Schuijers and W.Oomen:"Spatial Audio ObjectCoding(SAOC)–The Upcoming MPEG Standard on Parametric Object Based AudioCoding",124th AES Convention,Amsterdam,2008.

[SAOC]ISO/IEC,“MPEG audio technologies–Part 2:Spatial Audio Object Coding(SAOC),”ISO/IEC JTC1/SC29/WG11(MPEG)International Standard 23003-2:2010.

[AAC]Bosi,Marina；Brandenburg,Karlheinz；Quackenbush,Schuyler；Fielder,Louis；Akagiri,Kenzo；Fuchs,Hendrik；Dietz,Martin,“ISO/IEC MPEG-2Advanced AudioCoding”,J.Audio Eng.Soc,卷45,号10,789-814页,1997.

[ISS1]M.Parvaix和L.Girin:“Informed Source Separation of underdeterminedinstantaneous Stereo Mixtures using Source Index Embedding”,IEEE ICASSP,2010.

[ISS2]M.Parvaix,L.Girin,J.-M.Brossier:“A watermarking-based method forinformed source separation of audio signals with a single sensor”,IEEE Transactions onAudio,Speech and Language Processing,2010.

[ISS3]A.Liutkus and J.Pinel and R.Badeau and L.Girin and G.Richard:“Informedsource separation through spectrogram coding and data embedding”,Signal ProcessingJournal,2011.

[ISS4]A.Ozerov,A.Liutkus,R.Badeau,G.Richard:“Informed source separation:source coding meets source separation”,IEEE Workshop on Applications of SignalProcessing to Audio and Acoustics,2011.

[ISS5]Shuhua Zhang and Laurent Girin:“An Informed Source Separation System forSpeech Signals”,INTERSPEECH,2011.

[ISS6]L.Girin and J.Pinel:“Informed Audio Source Separation from CompressedLinear Stereo Mixtures”,AES 42nd International Conference:Semantic Audio,2011.

[ISS7]Andrew Nesbit,Emmanuel Vincent,and Mark D.Plumbley:“Benchmarkingflexible adaptive time-frequency transforms for underdetermined audio source separation”,IEEE International Conference on Acoustics,Speech and Signal Processing,37-40页,2009.

[FB]B.Edler,"Aliasing reduction in subbands of cascaded filterbanks withdecimation",Electronic Letters,卷28,号12,1104-1106页,1992年6月.

[MPEG-1]ISO/IEC JTC1/SC29/WG11MPEG,International Standard ISO/IEC 11172,Coding of moving pictures and associated audio for digital storage media at up to about 1.5Mbit/s,1993.

Claims

1.一种用于从降混信号产生包括一个或多个音频输出声道的音频输出信号的解码器，其中所述降混信号编码一个或多个音频对象信号，其中所述解码器包括：

控制单元(181)，用于根据所述一个或多个音频对象信号中的至少一个的信号属性将激活指示设定成激活状态，

第一分析模块(182)，用于变换所述降混信号以获得包括多个第一子带声道的第一变换后的降混，

第二分析模块(183)，用于当所述激活指示被设定成所述激活状态时，通过变换所述第一子带声道中的至少一个获得多个第二子带声道而产生第二变换后的降混，其中所述第二变换后的降混包括尚未被所述第二分析模块变换的所述第一子带声道及所述第二子带声道，以及

解混单元(184)，其中所述解混单元(184)用于当所述激活指示被设定成所述激活状态时，基于关于所述一个或多个音频对象信号的参数边信息对所述第二变换后的降混进行解混以获得所述音频输出信号，以及当所述激活指示未被设定成所述激活状态时，基于关于所述一个或多个音频对象信号的所述参数边信息对所述第一变换后的降混进行解混以获得所述音频输出信号。

2.如权利要求1所述的解码器，其中所述控制单元(181)用于根据所述一个或多个音频对象信号中的至少一个是否包括指示所述一个或多个音频对象信号中的至少一个的信号改变的瞬态，将所述激活指示设定成所述激活状态。

3.如权利要求1或2所述的解码器，

其中子带变换指示被分配给所述第一子带声道中的每个，

其中所述控制单元(181)用于根据所述一个或多个音频对象信号中的至少一个的所述信号属性，将所述第一子带声道中的每个的所述子带变换指示设定成子带变换状态，以及

其中所述第二分析模块(183)用于变换所述第一子带声道中的每个以获得所述多个第二子带声道，以及用于不变换所述第二子带声道中的每个，其中所述第一子带声道中的每个的所述子带变换指示被设定成所述子带变换状态，所述第二子带声道中的每个的所述子带变换指示未被设定成所述子带变换状态。

4.如前述权利要求中任一项所述的解码器，其中所述第一分析模块(182)用于通过使用正交镜相滤波器变换所述降混信号，以获得包括所述多个第一子带声道的所述第一变换后的降混。

5.如前述权利要求中任一项所述的解码器，

其中所述第一分析模块(182)用于根据第一分析窗长度变换所述降混信号，其中所述第一分析窗长度取决于所述信号属性，或

其中所述第二分析模块(183)用于当所述激活指示被设定成所述激活状态时，通过根据第二分析窗长度变换所述第一子带声道中的至少一个，产生所述第二变换后的降混，其中所述第二分析窗长度取决于所述信号属性。

6.如前述权利要求中任一项所述的解码器，

其中所述解码器用于从所述降混信号产生包括一个或多个音频输出声道的所述音频输出信号，其中所述降混信号编码两个或更多个音频对象信号，

其中所述控制单元(181)用于根据所述两个或更多个音频对象信号中的至少一个的所述信号属性，将所述激活指示设定成所述激活状态，以及

其中所述解混单元(184)用于当所述激活指示被设定成所述激活状态时，基于关于所述一个或多个音频对象信号的参数边信息对所述第二变换后的降混进行解混以获得所述音频输出信号，以及当所述激活指示未被设定成所述激活状态时，基于关于所述两个或更多个音频对象信号的所述参数边信息对所述第一变换后的降混进行解混以获得所述音频输出信号。

7.一种用于编码输入音频对象信号的编码器，其中所述编码器包括：

控制单元(191)，用于根据所述输入音频对象信号的信号属性，将激活指示设定成激活状态，

第一分析模块(192)，用于变换所述输入音频对象信号以获得第一变换后的音频对象信号，其中所述第一变换后的音频对象信号包括多个第一子带声道，

第二分析模块(193)，用于当所述激活指示被设定成所述激活状态时，通过变换所述多个第一子带声道中的至少一个获得多个第二子带声道，而产生第二变换后的音频对象信号，其中所述第二变换后的音频对象信号包括尚未被所述第二分析模块变换的所述第一子带声道及所述第二子带声道，以及

PSI估计单元(194)，其中所述PSI估计单元(194)用于当所述激活指示被设定成所述激活状态时，基于所述第二变换后的音频对象信号确定参数边信息，以及当所述激活指示未被设定成所述激活状态时，基于所述第一变换后的音频对象信号确定所述参数边信息。

8.如权利要求7所述的编码器，其中所述控制单元(191)用于根据所述输入音频对象信号是否包括指示所述输入音频对象信号的信号改变的瞬态，将所述激活指示设定成所述激活状态。

9.如权利要求7或8所述的编码器，

其中子带变换指示被分配给所述第一子带声道中的每个，

其中所述控制单元(191)用于根据所述输入音频对象信号的所述信号属性，将所述第一子带声道中的每个的所述子带变换指示设定成子带变换状态，以及

其中所述第二分析模块(193)用于变换所述第一子带声道中的每个以获得所述多个第二子带声道，以及用于不变换所述第二子带声道中的每个，其中所述第一子带声道中的每个的所述子带变换指示被设定成所述子带变换状态，所述第二子带声道中的每个的所述子带变换指示未被设定成所述子带变换状态。

10.如权利要求7至9中任一项所述的编码器，其中所述第一分析模块(192)用于使用正交镜相滤波器变换所述输入音频对象信号中的每个。

11.如权利要求7至10中任一项所述的编码器，

其中所述第一分析模块(192)用于根据第一分析窗长度变换所述输入音频对象信号，其中所述第一分析窗长度取决于所述信号属性，或

其中所述第二分析模块(193)用于当所述激活指示被设定成所述激活状态时，通过根据第二分析窗长度变换所述多个第一子带声道中的至少一个，产生所述第二变换后的音频对象信号，其中所述第二分析窗长度取决于所述信号属性。

12.如权利要求7至11中任一项所述的编码器，

其中所述编码器用于编码所述输入音频对象信号及至少一个另外的输入音频对象信号，

其中所述控制单元(191)用于根据所述输入音频对象信号的所述信号属性以及根据所述至少一个另外的输入音频对象信号的信号属性，将所述激活指示设定成所述激活状态，

其中所述第一分析模块(192)用于变换至少一个另外的输入音频对象信号以获得至少一个另外的第一变换后的音频对象信号，其中所述至少一个另外的第一变换后的音频对象信号中的每个包括多个第一子带声道，

其中所述第二分析模块(193)用于当所述激活指示被设定成所述激活状态时，变换所述至少一个另外的第一变换后的音频对象信号中的至少一个的所述多个第一子带声道中的至少一个以获得多个另外的第二子带声道，以及

其中所述PSI估计单元(194)用于当所述激活指示被设定成所述激活状态时，基于所述多个另外的第二子带声道确定所述参数边信息。

13.一种用于通过从降混信号产生包括一个或多个音频输出声道的音频输出信号的解码方法，其中所述降混信号编码两个或更多个音频对象信号，其中所述方法包括：

根据所述两个或更多个音频对象信号中的至少一个的信号属性，将激活指示设定成激活状态，

变换所述降混信号以获得包括多个第一子带声道的第一变换后的降混，

当所述激活指示被设定成所述激活状态时，通过变换所述第一子带声道中的至少一个获得多个第二子带声道，而产生第二变换后的降混，其中所述第二变换后的降混包括尚未被第二分析模块变换的所述第一子带声道及所述第二子带声道，以及

当所述激活指示被设定成所述激活状态时，基于关于所述两个或更多个音频对象信号的参数边信息对所述第二变换后的降混进行解混以获得所述音频输出信号，以及当所述激活指示未被设定成所述激活状态时，基于关于所述两个或更多个音频对象信号的所述参数边信息对所述第一变换后的降混进行解混以获得所述音频输出信号。

14.一种用于编码两个或更多个输入音频对象信号的方法，其中所述方法包括：

根据所述两个或更多个输入音频对象信号中的至少一个的信号属性，将激活指示设定成激活状态，

变换所述输入音频对象信号中的每个以获得所述输入音频对象信号的第一变换后的音频对象信号，其中所述第一变换后的音频对象信号包括多个第一子带声道，

当所述激活指示被设定成所述激活状态时，对于所述输入音频对象信号中的每个，通过变换所述输入音频对象信号的所述第一变换后的音频对象信号的所述第一子带声道中的至少一个获得多个第二子带声道，而产生第二变换后的音频对象信号，其中所述第二变换后的降混包括尚未被第二分析模块变换的所述第一子带声道及所述第二子带声道，以及

当所述激活指示被设定成所述激活状态时，基于所述输入音频对象信号中的每个的所述第二变换后的音频对象信号确定参数边信息，以及当所述激活指示未被设定成所述激活状态时，基于所述输入音频对象信号中的每个的所述第一变换后的音频对象信号确定所述参数边信息。

15.一种计算机程序，用于当在计算机或信号处理器上执行时实施如权利要求13或14所述的方法。