CN104838442B

CN104838442B - 用于反向兼容多重分辨率空间音频对象编码的编码器、译码器及方法

Info

Publication number: CN104838442B
Application number: CN201380063932.4A
Authority: CN
Inventors: 萨沙·迪施; 哈拉尔德·富克斯; 约尼·保卢斯; 莱昂·特伦迪; 奥利弗·黑尔慕斯; 于尔根·赫莱
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2012-10-05
Filing date: 2013-10-02
Publication date: 2018-10-02
Anticipated expiration: 2033-10-02
Also published as: ZA201503024B; WO2014053537A1; US11074920B2; RU2669079C2; PT2904609T; TR201900436T4; US20150213806A1; EP2904609B1; AU2013326516B2; MX345497B; MY191498A; SG11201502608XA; MX2015004205A; PL2904609T3; CA2887228C; CA2887228A1; BR112015007532A8; EP2717261A1; TWI545559B; EP2904609A1

Abstract

提供一种用于产生一未经混合音频信号的译码器，该未经混合音频信号包含多个未经混合音频信道。此外，提供一种编码器及一种经编码的音频信号。该译码器包含一未混合信息判定器，该未混合信息判定器用于通过接收关于至少一音频对象信号的第一参数旁侧信息及关于该至少一音频对象信号的第二参数旁侧信息来判定未混合信息，其中，该第二参数旁侧信息的频率分辨率高于该第一参数旁侧信息的频率分辨率。此外，该译码器包含一未混合模块，该未混合模块用于将该未混合信息应用于指示至少一音频对象信号的一下降混合的一下降混合信号，以获得包含该多个未经混合音频信道的一未经混合音频信号。该未混合信息判定器被配置为通过修改该第一参数信息及该第二参数信息以获得经修改参数信息来判定该未混合信息，使得该经修改参数信息具有高于该第一频率分辨率的一频率分辨率。

Description

用于反向兼容多重分辨率空间音频对象编码的编码器、译码器及方法

技术领域

本发明涉及音频信号编码、音频信号译码及音频信号处理，且具体地，涉及用于反向兼容多重分辨率空间音频对象编码(SAOC)的编码器、译码器及方法。

背景技术

在现代数字音频系统中，主要倾向是允许在接收器侧上对所传输内容的音频对象的相关修改。这些修改包括音频信号的所选择部分的增益修改及/或在经由空间分布的扬声器的多通道播放状况下专用音频对象的空间复位。此情形可通过将音频内容的不同部分单独地递送至不同扬声器来达成。

换言之，在音频处理、音频传输及音频存储的技术中，存在增加的需要以允许关于面向对象式音频内容播放的用户互动且还存在需求以利用多通道播放的扩展可能性以单独地呈现音频内容或其部分以便改善听取印象。通过此情形，多信道音频内容的使用带来对使用者的显著改良。举例而言，可获得三维听取印象，其带来娱乐应用中改善的使用者满意度。然而，多信道音频内容还在专业环境中(例如，在电话会议应用)中有用，这是因为发话人可懂得可通过使用多信道音频播放来改进。另一可能应用系将音乐片段提供给收听者以单独地调整不同部分(也称为「音频对象」)或曲目(诸如，人声部分或不同乐器)的播放层级及/或空间位置。使用者出于个人口味、为了易于转译来自音乐片段的一个或多个部分、教育用途、伴唱机、排演等原因而可执行此调整。

例如以脉码调变(PCM)数据或甚至经压缩音频格式的形式的所有数字多信道或多对象音频内容的直接离散传输需要极高比特率。然而，也需要以比特率有效的方式来传输并储存音频数据。因此，希望接受音频质量与比特率要求之间的合理取舍以便避免由多信道/多对象应用引起的额外资源负载。

最近，在音频编码的领域中，多信道/多对象音频信号的比特率有效传输/储存的参数技术已通过例如动画专家组(MPEG)等引入。一个实例系作为信道导向式方法[MPS、BCC]的MPEG环绕立体声(MPS)，或作为面向对象式方法[JSC、SAOC、SAOC1、SAOC2]的MPEG空间音频对象编码(SAOC)。另一面向对象式方法称为「消息源分离」[ISS1、ISS2、ISS3、ISS4、ISS5、ISS6]。这些技术旨在在信道/对象及描述所传输/所储存音频场景及/或音频场景中音频源对象的额外旁侧信息的下降混合基础上重建所要输出音频场景或所要音频源对象。

这些系统中信道/对象相关旁侧信息的估计及应用以时间频率选择性方式来进行。因此，这些系统使用时间频率变换，诸如离散傅立叶变换(DFT)、短时间傅立叶变换(STFT)或类似于正交镜相滤波器(QMF)组的滤波器组等。这些系统的基本原理使用MPEGSAOC的实例描绘于图4中。

在STFT的状况下，时间维度通过时间区块数字来表示，且频谱维度通过频谱系数(「区间」)编号来捕获。在QMF的状况下，时间维度通过时隙编号来表示，且频谱维度通过子频带编号来捕获。若QMF的频谱分辨率通过第二滤波器级的后续应用来改良，则整个滤波器组被称为混合式QMF且精细分辨率子频带被称为混合式子频带。

如上文已提及，在SAOC中，通用处理以时间频率选择性方式进行，且可在每一频带内描述如下：

-N个输入音频对象信号s₁…s_N使用由元素d_1,1…d_N,P组成的下降混合矩阵下降混合至P个信道x₁…x_P作为编码器处理的部分。此外，编码器提取旁侧信息，旁侧信息描述输入音频对象的特性(旁侧信息估计器(SIE)模块)。对于MPEG SAOC，对象功率关于彼此的关系是此旁侧信息的最基本形式。

-传输/存储下降混合信号及旁侧信息。为此目的，下降混合音频信号可例如使用诸如MPEG-1/2层II或III(又名mp3)、MPEG-2/4进阶音频编码(AAC)等熟知感知音频编码器来压缩。

-在接收端，译码器概念上试图使用所传输的旁侧信息自(经译码)下降混合信号来复原原始对象信号(「对象分离」)。这些经近似对象信号接着使用由图4中的系数r_1,1…r_N,M描述的呈现矩阵(rendering matrix)经混合成通过M个音频输出信道表示的目标场景。所要目标场景在极端状况下可以是来自混合物的仅一个源信号的呈现(源分离情境)，但也可以是由所传输的对象组成的其他任意声学场景。举例而言，输出可系单信道、2信道立体或5.1多信道目标场景。

基于时间频率的系统可利用具有静态时间及频率分辨率的时间频率(t/f)变换。选定某固定的t/f分辨率栅格通常涉及时间分辨率与频率分辨率之间的取舍。

可关于音频信号混合物中的典型对象信号的实例来论证固定的t/f分辨率的效应。举例而言，音调声音的频谱展现具有基本频率及若干泛音的谐波相关的结构。这些信号的能量集中于某频率区处。对于这些信号，所利用t/f表示的高频率分辨率对于分离窄频音调频谱区与信号混合物是有益的。相反，类似于鼓声的瞬变信号常常具有独特时间结构：实质能量仅存在历时短时间周期，且分布于广范围的频率上。对于这些信号，所利用的t/f表示的高时间分辨率对于分离瞬变信号部分与信号混合物是有利的。

从标准SAOC表示获得的频率分辨率限于参数频带的数目，从而在标准SAOC中具有最大值28。参数频带获得自由64频带QMF分析组成的混合式QMF组，其中最低频带上的额外混合式滤波级将这些频带进一步划分成至多4个复合子频带。所获得的频带经分组成参数频带，从而仿真人类听觉系统的关键频带分辨率。分组允许将所需要的旁侧信息数据速率减小至在实际应用中可经有效地进行处置的大小。

当前音频对象编码方案给予SAOC处理的仅时间频率选择性的有限可变性。举例而言，MPEG SAOC[SAOC][SAOC1][SAOC2]限于可通过使用所谓混合式镜面滤波器组(混合式QMF)及其后续至参数频带的分组获得的时间频率分辨率。因此，标准SAOC中的对象复原常常遭受混合式QMF的粗糙频率分辨率，从而导致来自其他音频对象的可听经调变串扰(例如，语音的双重讲话人为效应或音乐中的听觉粗糙人为效应)。

给定合理的低数据速率，现有系统产生合理的分离质量。主要问题是音调声音的完全分离的不足频率分辨率。此情形经展现为其他对象的包围一对象的音调分量的「光晕」。此情形感知地观测为粗糙度或类似于声码器的人为效应。此光晕的有害效应可通过增加参数频率分辨率来减小。注意到，等于或高于512个频带(以44.1kHz采样率)的分辨率足够产生测试信号中感知上显著改良的分离。此高参数分辨率情况下的问题是需要的旁侧信息的量大幅度地增加至不切实际的量。此外，与现有标准SAOC系统的兼容性将丢失。

因此高度重视的是，是否可提供教示如何克服目前技术的上述约束的概念。

发明内容

本发明的目标是提供用于音频对象编码的这些改良的概念。本发明的目标通过以下各者来解决：如权利要求1所述的译码器、如权利要求9所述的编码器、如权利要求14所述经编码音频信号、如权利要求15所述的系统、如权利要求16所述的用于解码的方法、如权利要求17所述的用于编码的方法，及如权利要求18所述的计算机程序。

与目前技术SAOC相反，本发明的实施例提供一种频谱参数化，使得

-源于标准SAOC编码器的SAOC参数比特流仍可以与利用标准译码器获得的感知质量相当的感知质量通过增强型译码器来解码，

-增强型SAOC参数比特流可以与利用标准SAOC比特流可获得的质量相当的质量通过标准SAOC译码器解码，

-增强型SAOC参数比特流可利用增强型译码器以最佳质量译码，

-增强型SAOC译码器例如根据可用的计算资源可动态地调整增强层级，

-标准及增强型SAOC参数比特流例如在多点控制单元(MCU)情境下可混合成一个共同比特流，该共同比特流可通过译码器提供的质量利用标准译码器或增强型译码器解码，且

-额外参数化为紧凑的。

对于上文提及的性质，优选地是具有参数化，该参数化通过标准SAOC译码器理解，而且还允许以较高频率分辨率高效地递送信息。基本时间频率表示的分辨率判定增强的最大效能。本发明在此定义一种用于以一紧凑且允许反向兼容译码的方式递送增强型高频率信息的方法。

增强型SAOC感知质量可(例如)通过动态地适配滤波器组或变换的时间/频率分辨率来获得，该滤波器组或变换用以估计或用以合成对输入音频对象的特定性质的音频对象提示。举例而言，若音频对象在某时间跨度期间是准稳定的，则对粗糙时间分辨率及精细频率分辨率有益地执行参数估计及合成。若音频对象含有瞬变或在某时间跨度期间是非稳定的，则使用精细时间分辨率及粗糙频率分辨率有利地进行参数估计及合成。从而，滤波器组或变换的动态适配允许

-准稳定信号的频谱分离中的高频率选择性以便避免对象间串扰，以及

-对象开始或瞬变事件的高时间精度以便使前回声及后回声最小化。

同时，传统SAOC质量可通过将标准SAOC数据映像于由本发明的反向兼容信号自适应性变换提供的时间频率栅格上来获得，该变换取决于描述对象信号特性的旁侧信息。

使用一个共同变换能够译码标准SAOC数据及增强型SAOC数据两者启用涵盖标准SAOC数据与新颖增强型SAOC数据的混合的应用的直接反向兼容性。其也允许优于标准质量的时间频率选择性增强。

所提供实施例不限于任何特定时间频率变换，而是可通过提供足够高的频率分辨率的任何变换应用。文献描述通过切换式时间频率分辨率至基于离散傅立叶变换(DFT)的滤波器组的应用。在此方法中，时域信号被再分割为也可重迭的较短区块。每一较短区块中的信号通过开窗函数(windowing function)来加权(正常地在中间具有大值，且在两个末端处递减至零)。最终，经加权信号通过所选择的变换(此处，通过DFT的应用)变换至频域。

提供一种用于产生一未经混合音频信号的译码器，未经混合音频信号包含多个未经混合音频信道。译码器包含一未混合信息判定器，该未混合信息判定器用于通过接收关于至少一音频对象信号的第一参数旁侧信息及关于至少一音频对象信号的第二参数旁侧信息来判定未混合信息，其中，第二参数旁侧信息的频率分辨率高于第一参数旁侧信息的频率分辨率。此外，译码器包含一未混合模块，未混合模块用于将未混合信息应用于指示至少一音频对象信号的一下降混合的一下降混合信号，以获得包含多个未经混合音频信道的一未经混合音频信号。未混合信息判定器被配置为通过修改第一参数信息及第二参数信息以获得经修改参数信息来判定未混合信息，使得经修改参数信息具有高于第一频率分辨率的一频率分辨率。

此外，提供一种用于编码一个或多个输入音频对象信号的编码器。编码器包含下降混合单元，下降混合单元用于下降混合一个或多个输入音频对象信号以获得一个或多个下降混合信号。此外，编码器包含参数旁侧信息产生器，参数旁侧信息产生器用于产生关于至少一音频对象信号的第一参数旁侧信息及关于至少一音频对象信号的第二参数旁侧信息，使得第二参数旁侧信息的频率分辨率高于第一参数旁侧信息的频率分辨率。

此外，提供一种经编码音频信号。经编码音频信号包含指示一个或多个输入音频对象信号的下降混合的一下降混合部分、以及包含关于至少一音频对象信号的第一参数旁侧信息及关于至少一音频对象信号的第二参数旁侧信息的参数旁侧信息部分。第二参数旁侧信息的频率分辨率高于第一参数旁侧信息的频率分辨率。

此外，提供一种系统。系统包含如上文所描述的编码器及如上文所描述的译码器。编码器被配置为通过以下操作来编码一个或多个输入音频对象信号：获得指示一个或多个输入音频对象信号的下降混合的一个或多个下降混合信号，获得关于至少一音频对象信号的第一参数旁侧信息及获得关于至少一音频对象信号的第二参数旁侧信息，其中，第二参数旁侧信息的频率分辨率高于第一参数旁侧信息的频率分辨率。译码器被配置为基于一个或多个下降混合信号且基于第一参数旁侧信息及第二参数旁侧信息来产生未经混合音频信号。

编码器被配置为通过以下操作来编码一个或多个输入音频对象信号：获得指示一个或多个输入音频对象信号的下降混合的一个或多个下降混合信号，获得关于至少一音频对象信号的第一参数旁侧信息及获得关于至少一音频对象信号的第二参数旁侧信息，其中，第二参数旁侧信息的频率分辨率高于第一参数旁侧信息的频率分辨率。译码器被配置为基于一个或多个下降混合信号且基于第一参数旁侧信息及第二参数旁侧信息来产生音频输出信号。

此外，提供一种用于产生一未经混合音频信号的方法，未经混合音频信号包含多个未经混合音频信道。该方法包含：

-通过接收关于至少一音频对象信号的第一参数旁侧信息及关于至少一音频对象信号的第二参数旁侧信息来判定未混合信息，其中，第二参数旁侧信息的频率分辨率高于第一参数旁侧信息的频率分辨率。以及：

-将未混合信息应用于一指示至少一音频对象信号的一下降混合的下降混合信号，以获得包含多个未经混合音频信道的一未经混合音频信号。

判定未混合信息包含修改第一参数信息及第二参数信息以获得经修改的参数信息，使得经修改的参数信息具有高于第一频率分辨率的一频率分辨率。

此外，提供一种用于编码一个或多个输入音频对象信号的方法。该方法包含：

-下降混合一个或多个输入音频对象信号以获得一个或多个下降混合信号，以及：

-产生关于至少一音频对象信号的第一参数旁侧信息及关于至少一音频对象信号的第二参数旁侧信息，使得第二参数旁侧信息的频率分辨率高于第一参数旁侧信息的频率分辨率。

此外，提供一种当在一计算机或信号处理器上执行时用于实施上述方法中的一个的计算机程序。

在从属权利要求中提供较佳实施例。

附图说明

在以下内容中，参看诸图更详细地描述本发明的实施例，其中：

图1A示出了根据一实施例的译码器，

图1B示出了根据另一实施例的译码器，

图2A示出了根据一实施例的编码器，

图2B示出了根据另一实施例的编码器，

图2C示出了根据一实施例的经编码的音频信号，

图3示出了根据一实施例的系统，

图4展示了SAOC系统的概念概述的示意性方块图，

图5展示了单信道音频信号的时间频谱表示的示意性且例示性图，

图6展示了SAOC编码器内的旁侧信息的时间频率选择性计算的示意性方块图，

图7示出了根据实施例的反向兼容表示，

图8示出了根据一实施例的真实参数值与低分辨率平均值之间的差异曲线，

图9描绘了根据一实施例的提供具有增强的反向兼容比特流的增强型编码器的高层级说明，

图10示出了根据实施编码器的参数路径的特定实施例的编码器的方块图，

图11描绘了根据一实施例的能够译码标准比特流及增强型比特流两者的增强型译码器的高层级方块图，

图12示出了增强型PSI译码单元的实施例的方块图，

图13描绘了根据一实施例的通过增强型SAOC译码器译码标准SAOC比特流的方块图，

图14描绘了根据一实施例的译码器的主要功能方块，

图15示出了音调及噪声信号，且具体地，高分辨率功率频谱及对应的粗略重建，

图16示出了两个实例信号的修改，具体地，实例信号的校正因子，

图17示出了针对两个实例信号的原始校正因子及基于降级线性预测的近似，且

图18示出了对粗略重建应用经建模校正因子的结果。

具体实施方式

在描述本发明的实施例的前，提供关于目前技术SAOC系统的更多背景内容。

图4展示了SAOC编码器10及SAOC译码器12的通用配置。SAOC编码器10接收N个输入对象(亦即，音频信号s₁至s_N)作为输入。具体地，编码器10包含下降混合器16，其接收音频信号s₁至s_N且将前述音频信号下降混合成下降混合信号18。或者，下降混合可经外部地提供(「艺术家风格下降混合」)，且系统估计额外旁侧信息以使得所提供的下降混合与所计算的下降混合匹配。在图4中，下降混合信号展示为P信道信号。因此，任何单(P＝1)、立体(P＝2)或多通道(P>2)下降混合信号配置是可想到的。

在立体下降混合的状况下，下降混合信号18的通道标注为L0及R0，在单下降混合状况下，通道简单地标注为L0。为了使SAOC译码器12能够恢复个别对象s₁至s_N，旁侧信息估计器17向SAOC译码器12提供包括SAOC参数的旁侧信息。举例而言，在立体下降混合的状况下，SAOC参数包含对象层级差(OLD)、对象间相关(IOC)(对象间交叉相关参数)、下降混合增益值(DMG)及下降混合通道层级差(DCLD)。包括SAOC参数的旁侧信息20连同下降混合信号18一起形成由SAOC译码器12接收到的SAOC输出数据流。

SAOC译码器12包含向上混合器，其接收下降混合信号18以及旁侧信息20以便将音频信号及恢复并呈现于通道至的任何用户所选择集合上，其中呈现通过呈现输入至SAOC译码器12中的信息26来规定。

音频信号s₁至s_N可在任何编码域中(诸如，在时间或频谱域中)输入至编码器10中。在音频信号s₁至s_N在时域中馈入至编码器10中(诸如，经PCM编码)的状况下，编码器10可使用诸如混合式QMF组的滤波器组，以便以特定滤波器组分辨率将信号传送至频谱域中，其中以与不同频谱部分相关联的若干子频带表示音频信号。若音频信号s₁至s_N已经呈编码器10预期到的表示，则编码器10不必执行频谱分解。

图5展示了刚刚提及的频谱域中的音频信号。如可看出，音频信号表示为多个子频带信号。每一子频带信号30₁至30_K由通过小框32指示的子频带值的时间序列组成。如可看出，子频带信号30₁至30_K的子频带值32在时间上经彼此同步，使得对于连续滤波器组时隙34中的每一者，每一子频带30₁至30_K包含准确的一个子频带值32。如由频率轴36所说明，子频带信号30₁至30_K与不同频率区相关联，且如由时间轴38所说明，滤波器组时隙34在时间上经连续地配置。

如上文所概述，图4的旁侧信息提取器17从输入音频信号s₁至s_N计算SAOC参数。根据当前实施的SAOC标准，编码器10以时间/频率分辨率执行此计算，该分辨率相对于如由滤波器组时隙34及子频带分解判定的原始时间/频率分辨率可被减低某量，其中此某量在旁侧信息20内信号传输至译码器侧。连续滤波器组时隙34的群组可形成SAOC帧(frame)41。又，SAOC帧41内的参数频带的数目在旁侧信息20内予以输送。因此，时间/频率域经划分成通过虚线42例证于图5中的时间/频率平铺块。在图5中，参数频带在各种所描绘的SAOC帧41中以同一方式分布，使得获得时间/频率平铺块的规则配置。然而，一般而言，根据各个SAOC帧41中对频谱分辨率的不同需要，参数频带可在一个SAOC帧41与下一SAOC帧41之间发生变化。此外，SAOC帧41的长度又可发生变化。因而，时间/频率平铺块的配置可以是不规则的。然而，特定SAOC帧41内的时间/频率平铺块通常具有相同持续时间且在时间方向上对准，亦即，该SAOC帧41中的所有t/f平铺块在给定SAOC帧41的起点处开始，且于该SAOC帧41的终点处结束。

描绘于图4中的旁侧信息提取器17根据以下方程序计算SAOC参数。具体地，旁侧信息提取器17针对每一对象i计算对象层级差如下

其中，和及索引n及k分别遍历所有时间索引34，且属于某时间/频率平铺块42的所有频率索引30由SAOC帧(或处理时隙)的索引l及参数频带的索引m提及，且是的复共轭。藉此，音频信号或对象i的所有子频带值xi的能量经总计并正规化为彼平铺块的在所有对象或音频信号中的最高能量值。

另外，SAOC旁侧信息提取器17能够计算数对不同输入对象s₁至s_N的对应时间/频率平铺块的类似性测量。尽管SAOC旁侧信息提取器17可计算所有成对输入对象s₁至s_N之间的类似性测量，但SAOC旁侧信息提取器17也可抑制类似性测量的信号传输或将类似性测量的计算约束至形成常见立体通道的左侧或右侧信道的音频对象s₁至s_N。在任何状况下，类似性测量被称作对象间交叉相关参数计算如下

其中，索引n及k再次遍历属于某时间/频率平铺块42的所有子频带值，i及j表示某对音频对象s₁至s_N，且Re{}表示保留复数值自变数的仅实部(亦即，舍弃虚部)的运算。

图4的下降混合器16通过使用应用至每一对象s₁至s_N的增益因子来下降混合对象s₁至s_N。亦即，增益因子d_i应用至对象i，且接着所有因此经加权的对象s₁至s_N经总计以获得单下降混合信号，其例证于图4中(在P＝1情况下)。在描绘于图4(在P＝2情况下)中的双信道下降混合信号的另一实例状况下，增益因子d_1,i应用至对象i，且接着所有这些增益放大的对象经总计以便获得左侧下降混合通道L0，且增益因子d_2,i应用至对象i，且接着因此增益放大的对象经总计以便获得右侧下降混合通道R0。在多通道下降混合(P>2)的状况下将应用类似于以上处理的处理。

此下降混合规定借助于下降混合增益DMG_i信号传输至译码器侧，且在立体下降混合信号状况下借助于下降混合通道层级差DCLD_i而信号传输至译码器侧。

下降混合增益根据以下方程序计算：

DMG_i＝20log₁₀(d_i+ε)，(单下降混合)，

(立体下降混合)，

其中ε是诸如10^-9的小数字。

对于DCLD，应用以下方程式：

在正常模式中，下降混合器16根据以下方程序产生下降混合信号：

对于单下降混合，或

分别对于立体下降混合。

因此，在上述方程式中，参数OLD及IOC是音频信号的函数，且参数DMG及DCLD是下降混合系数d的函数。顺便地，请注意，d在时间及频率上可以是可变的。

因此，在正常模式中，下降混合器16在无偏好情况下(亦即，在等同地处置所有对象s₁至s_N情况下)混合所有对象s₁至s_N。

在译码器侧，向上混合器执行下降混合程序的反转程序及一个计算步骤中(亦即，在双通道下降混合状况下)通过矩阵R(在文献资料中有时也称作A)表示的「呈现信息(rendering information，渲染信息)」26的实施

其中矩阵E是参数OLD及IOC的函数，且矩阵D含有如下下降混合系数

且其中D^*表示D的复数转置。矩阵E是音频对象s₁至s_N的所估计协方差矩阵。在当前SAOC实施中，所估计协方差矩阵E的计算通常以SAOC参数的频谱/时间分辨率(亦即，对于每一(l,m))执行，使得所估计协方差矩阵可被撰写为E^l,m。所估计协方差矩阵E^l,m具有大小N×N，其中其系数定义如下

因此，由于且(对于i＝j)，因此具有下式的矩阵E^l _, ^m沿其对角线具有对象层级差，亦即(对于i＝j)：

在其对角线外部，所估计协方差矩阵E具有通过对象间交叉相关测量进行加权的分别表示对象i及j的对象层级差的几何平均值的矩阵系数。

图6显示了关于作为SAOC编码器10的部分的旁侧信息估计器(SIE)的实例的实施的一个可能原理。SAOC编码器10包含混合器16及旁侧信息估计器(SIE)17。SIE概念上由两个模块组成：计算每一信号的基于短时间的t/f表示(例如，STFT或QMF)的一个模块45。所计算的短时间t/f表示馈入至第二模块46(t/f选择性旁侧信息估计模块(t/f-SIE))中。t/f-SIE模块46计算每一t/f平铺块的旁侧信息。在当前SAOC实施中，时间/频率变换对于所有音频对象s₁至s_N是固定且等同的。此外，SAOC参数在SAOC帧上进行判定，该等SAOC参数对于所有音频对象是相同的且对于所有音频对象s₁至s_N具有相同时间/频率分辨率，因此不管在一些状况下对精细时间分辨率或在其他状况下对精细频谱分辨率的对象特定需要。

在以下内容中，描述本发明的实施例。

图1A示出了根据实施例的用于产生未经混合音频信号的译码器，该未经混合音频信号包含多个未经混合音频信号。

译码器包含未混合信息判定器112，其用于通过接收关于至少一音频对象信号的第一参数旁侧信息及关于至少一音频对象信号的第二参数旁侧信息来判定未混合信息，其中第二参数旁侧信息的频率分辨率高于第一参数旁侧信息的频率分辨率。

此外，译码器包含未混合模块113，其用于将未混合信息应用于指示至少一音频对象信号的下降混合的下降混合信号，以获得包含多个未经混合音频信道的未经混合音频信号。

未混合信息判定器112被配置为通过修改第一参数信息及第二参数信息以获得经修改参数信息来判定未混合信息，使得经修改参数信息具有高于第一频率分辨率的频率分辨率。

图1B示出了根据另一实施例的用于产生未经混合音频信号的译码器，该未经混合音频信号包含多个未经混合音频信号。图1B的译码器进一步包含第一变换单元111，其用于变换在时域中表示的下降混合输入以获得在时间频率域中表示的下降混合信号。此外，图1B的译码器包含第二变换单元114，其用于将未经混合音频信号从时间频率域变换至时域。

图2A示出了根据实施例的用于编码一个或多个输入音频对象信号的编码器。

编码器包含下降混合单元91，其用于下降混合一个或多个输入音频对象信号以获得一个或多个下降混合信号。

此外，编码器包含参数旁侧信息产生器93，其用于产生关于至少一音频对象信号的第一参数旁侧信息及关于至少一音频对象信号的第二参数旁侧信息，使得第二参数旁侧信息的频率分辨率高于第一参数旁侧信息的频率分辨率。

图2B示出了根据另一实施例的用于编码一个或多个输入音频对象信号的编码器。图2B的编码器进一步包含变换单元92，其用于将一个或多个输入音频对象信号从时域变换至时间频率域以获得一个或多个经变换音频对象信号。在图2B的实施例中，参数旁侧信息产生器93被配置为基于一个或多个经变换音频对象信号产生第一参数旁侧信息及第二参数旁侧信息。

图2C示出了根据一实施例的经编码音频信号。经编码音频信号包含指示一个或多个输入音频对象信号的下降混合的一下降混合部分51、以及包含关于至少一音频对象信号的第一参数旁侧信息和关于至少一音频对象信号的第二参数旁侧信息的参数旁侧信息部分52。第二参数旁侧信息的频率分辨率高于第一参数旁侧信息的频率分辨率。

图3示出了根据实施例的系统。系统包含如上文所描述的编码器61及如上文所描述的译码器62。

编码器61被配置为通过以下操作来编码一个或多个输入音频对象信号：获得指示一个或多个输入音频对象信号的下降混合的一个或多个下降混合信号，获得关于至少一音频对象信号的第一参数旁侧信息及获得关于至少一音频对象信号的第二参数旁侧信息，其中第二参数旁侧信息的频率分辨率高于第一参数旁侧信息的频率分辨率。

译码器62被配置为基于一个或多个下降混合信号且基于第一参数旁侧信息及第二参数旁侧信息来产生未经混合音频信号。

在以下内容中，描述使用反向兼容频率分辨率改良的增强型SAOC。

图7示出了根据实施例的反向兼容表示。待表示的信号性质(例如，功率频谱包络71)在频率上发生变化。频率轴经分割成参数频带，且单一集合的信号描述符针对每一子频带进行指派。使用信号描述符而非递送每一频率区间的描述分离地允许所要求的旁侧信息之量的节省而不会感知到质量的显著损失。在标准SAOC中，每一频带的单一描述符是逐区间描述符的平均值72、73、74。如可理解，此情形可引入信息损失，信息损失的量值取决于信号性质。在图7中，频带k-1及k具有相当大的误差，而在频带k+1中，误差要小得多。

图8示出了根据实施例的真实参数值与低分辨率平均值之间的差异曲线81(例如，在标准SAOC参数化中失去的精细结构信息)。描述一种用于以有效方式参数化并传输平均值72、73、74(例如，标准SAOC描述符)与真实精细分辨率值之间的差异曲线81从而允许近似译码器中的精细分辨率结构的方法。

请注意，将增强信息添加至混合物中的单一对象不仅改良该特定对象的所得质量，而且改良共享近似空间位置且具有某频谱重迭的所有对象的质量。

在以下内容中，描述通过增强型编码器(具体地，增强型SAOC编码器)进行的反向兼容增强型SAOC编码，该增强型SAOC编码器产生含有反向兼容旁侧信息部分及额外增强的比特流。所添加信息可以一方式插入至标准SAOC比特流中，使得陈旧的标准兼容译码器在增强型译码器使用所添加数据同时简单地忽略所添加数据。现有标准SAOC译码器可译码参数旁侧信息(PSI)的反向兼容部分，且产生对象的重建，同时增强型SAOC译码器使用的添加信息在多数状况下改良重建的感知质量。另外，若增强型SAOC译码器正在有限资源上执行，则增强可被忽略，且仍获得基本质量重建。请注意，使用仅标准SAOC相容PSI自标准SAOC及增强型SAOC译码器的重建不同，但断定为感知上极其类似的(差异是关于如增强型SAOC译码器情况下解码标准SAOC比特流上的类似本质)。

图9描绘了根据实施例的增强型编码器的高层级说明，该增强型编码器提供具有增强的反向兼容比特流。

编码器包含下降混合单元91，其用于下降混合多个音频对象信号以获得一个或多个下降混合信号。举例而言，音频对象信号(例如，单个(音频)对象)由下降混合单元91使用以产生下降混合信号。此情形可在时域、频域中发生，或甚至可使用外部提供的下降混合。

在PSI路径中，(音频)对象信号由变换单元92从时域变换至频域、时间频率域或频谱域(举例而言，通过包含一个或多个t/f变换子单元921、922的变换子单元92)。

此外，编码器包含用于产生参数旁侧信息的参数旁侧信息产生器93。在图9的实施例中，参数旁侧信息产生器93可(例如)包含PSI提取单元94及PSI分裂器95。根据此实施例，在频域中，PSI通过PSI提取单元94来提取。PSI分裂器95接着进行以将PSI分裂成两个部分：可通过任何标准兼容SAOC译码器译码的标准频率分辨率部分、及增强型频率分辨率部分。后者可「隐藏」于比特流元素中，使得这些比特流元素将由标准译码器忽略，但由增强型译码器利用。

图10示出了根据实施上文描述的编码器的参数路径的特定实施例的编码器的方块图。粗黑功能区块(102、105、106、107、108、109)指示本发明处理的主要组件。具体地，图10示出了产生反向兼容比特流与针对能力更强译码器的增强的二级编码的方块图。编码器被配置为产生可通过两个译码器型式译码的PSI。图9的变换单元92通过图10中的瞬变检测单元101、通过创建窗序列单元102且通过t/f分析单元103来实施。图10中的其他单元104、105、106、107、108、109实施参数旁侧信息产生器93(例如，单元104、105、106、107、108、109可实施PSI提取单元94及PSI分裂器95之组合的功能性)。

首先，将信号再分成分析帧，这些分析帧接着经变换至频域。多个分析帧接着分组成固定长度参数帧，例如，在标准SAOC中，16及32个分析帧的长度是常见的。假定，信号性质在参数帧期间保持准稳定，且可因此通过仅一个参数集来特征化。若信号特性在参数帧内改变，则遭受建模误差，且将较长参数帧再分成准稳定的假定再次经实现的部分将系有益的。为了此目的，需要瞬变检测。

在实施例中，根据包含一个或多个输入音频对象信号中的至少一者的信号值的信号变换区块的窗长度，变换单元92被配置为将一个或多个输入音频对象信号从时域变换至时间频率域。变换单元92包含瞬变检测单元101，其用于判定指示瞬变是否存在于至少一音频对象信号中的一个或多个中的瞬变检测结果，其中瞬变指示至少一音频对象信号中的一个或多个中的信号改变。此外，变换单元92进一步包含窗序列单元102，其用于视瞬变检测结果来判定窗长度。

举例而言，瞬变可通过瞬变检测单元101从所有输入对象单独地检测，且在瞬变事件存在于对象中的仅一者中时，该位置宣告为全局瞬变位置。瞬变位置的信息用于构建适当开窗序列(windowing sequence)。构建可基于(例如)以下逻辑：

-设定默认窗长度，亦即，默认信号变换区块的长度(例如，2048个样本)。

-设定具有50％重迭的对应于4个预设窗的参数帧长度(例如，4096个样本)。参数帧将多个窗分组在一起且单一集合的信号描述符用于整个区块而非分离地具有针对每一窗的描述符。此情形允许减小PSI的量。

-若尚未检测到瞬变，则使用预设窗及全参数帧长度。

-若检测到瞬变，则适配开窗以在瞬变的位置处提供更好时间分辨率。

创建窗序列单元102构建开窗序列。同时，创建窗序列单元102也从一个或多个分析窗产生参数子帧。每一子集作为整体进行分析，且针对每一子区块传输仅一个集合的PSI参数。为了提供标准SAOC相容PSI，所界定参数区块长度用作主参数区块长度，且彼区块内的可能的定位瞬变界定参数子集。

所构建窗序列被输出以供t/f分析单元103进行的输入音频信号的时间频率分析，且在PSI的增强型SAOC增强部分中进行传输。

PSI由以下各者组成：对象层级差(OLD)集合，对象间相关(IOC)，及用以从编码器中的各个对象产生下降混合信号的下降混合矩阵D的信息。每一参数集系与参数边界相关联，该边界界定参数关联至的时间区。

每一分析窗的频谱资料由PSI估计单元104用于估计标准SAOC部分的PSI。这通过将频谱区间分组成标准SAOC的参数频带且估计频带中IOC、OLD及绝对对象能量(NRG)来进行。松散地遵循标准SAOC的记数法，参数化平铺块中两个物件频谱S_i(f,n)及S_j(f,n)的正规化乘积界定为：

其中，矩阵K(b,f,n):通过下式界定从帧n中的F_n t/f表示区间至B参数频带中的映射

频谱分辨率在单一参数区块内的帧之间可发生变化，因此映像矩阵将数据转换成共同分辨率基准。此参数化平铺块中的最大对象能量限定为最大对象能量具有此值，接着将OLD界定为正规化物件能量

且最终IOC可获得自交叉功率如下

此情形推断出比特流的标准SAOC兼容部分的估计。

粗糙功率频谱重建单元105被配置为将OLD及NRG用于在参数分析区块中重建频谱包络的粗略估计。包络以用于该区块中的最高频率分辨率来构建。

每一分析窗的原始频谱由功率频谱估计单元106用于计算该窗中的功率频谱。

所获得的功率频谱通过频率分辨率适配单元107被转换成常见高频率分辨率表示。此情形可(例如)通过对功率频谱值进行内插来进行。接着，平均功率频谱概况通过对参数区块内的频谱进行平均来计算。此情形粗略地对应于省略参数频带聚合的OLD估计。所获得的频谱概况被视为精细分辨率OLD。

编码器进一步包含德耳塔估计单元(delta-estimation unit)108，其用于通过使至少一音频对象信号中的一者的多个OLD中的每一个除以至少一音频对象信号的该一者的功率频谱重建的值来估计多个校正因子以获得第二参数旁侧信息，其中，该多个OLD具有相较于该功率频谱重建较高的频率分辨率。

在实施例中，德耳塔估计单元108被配置为根据至少一音频对象信号而基于多个参数值来估计多个校正因子以获得第二参数旁侧信息。例如，德耳塔估计单元108可被配置为(例如)通过用粗略功率频谱重建除以精细分辨率OLD来估计校正因子「德耳塔」。结果，此情形针对每一频率区间提供(例如，倍增)校正因子，该校正因子在给定粗略频谱情况下可用于近似精细分辨率OLD。

最终，德耳塔建模单元109被配置为以有效方式建模所估计校正因子以供传输。使用线性预测系数(LPC)进行建模的一个可能性稍后在下文进行描述。

有效地，增强型SAOC修改由将开窗序列信息及用于传输「德耳塔」的参数添加至比特流组成。

在以下内容中，描述增强型译码器。

图11描绘了根据实施例的增强型译码器的高层级方块图，该译码器能够译码标准比特流及增强型比特流两者。具体地，图11示出了能够译码标准比特流以及包括频率分辨率增强的比特流两者的增强型译码器的操作方块图。

输入下降混合信号通过t/f变换单元111变换至频域。

所估计的未混合矩阵通过未混合单元110应用于经变换下降混合信号来产生未混合输出。

另外，去相关路径经包括以允许未混合中对象的更好空间控制。去相关单元119对经变换下降混合信号进行去相关，且将去相关的结果馈入至未混合单元110中。未混合单元110将去相关结果用于产生未混合输出。

未混合输出接着通过f/t变换单元114变换回至时域。

参数处理路径可采用标准分辨率PSI作为输入，在该状况下，通过标准PSI译码单元115产生的经解码PSI通过频率分辨率转换单元116适配至用于t/f变换中的频率分辨率。

替代性输入组合PSI的标准频率分辨率部分与增强型频率分辨率部分，且计算包括增强型频率分辨率信息。更详细地，增强型PSI译码单元117产生展现增强型频率分辨率的经译码PSI。

未混合矩阵产生器118基于接收自频率分辨率转换单元116或接收自增强型PSI译码单元117的经解码PSI产生未混合矩阵。未混合矩阵产生器118也可基于呈现信息(例如，基于呈现矩阵)产生未混合矩阵。未混合单元110被配置为通过将由未混合矩阵产生器118产生的此未混合矩阵应用于经变换下降混合信号来产生未混合输出。

图12示出了方块图，该方块图示出了图11的增强型PSI译码单元117的实施例。

第一参数信息包含多个第一参数值，其中第二参数信息包含多个第二参数值。未混合信息判定器112包含一频率分辨率转换子单元122及一组合器124。频率分辨率转换单元112被配置为(例如)通过复制第一参数值而产生额外参数值，其中第一参数值及额外参数值一起形成多个第一经处理参数值。组合器124被配置为组合第一经处理参数值与第二参数值以获得多个经修改参数值作为经修改参数信息。

根据实施例，标准频率分辨率部分通过译码子单元121译码，且通过频率分辨率转换子单元122转换成由增强部分使用的频率分辨率。通过增强型PSI译码子单元123产生的经译码增强部分通过组合器124与经转换标准分辨率部分组合。

在以下内容中，更详细地描述可能实施情况下的两个译码模式。

首先，描述通过增强型译码器译码标准SAOC比特流：

增强型SAOC译码器被设计为使得其能够以良好质量译码来自标准SAOC编码器的比特流。解码限于仅参数重建，且忽略可能的残余流。

图13描绘了根据一实施例的说明译码程序的通过增强型SAOC译码器解码标准SAOC比特流的方块图。粗黑功能区块(131、132、133、135)指示本发明处理的主要部分。

未混合矩阵计算器131、时间内插器132及窗频率分辨率适配单元133实施图1的标准PSI译码单元115、频率分辨率转换单元116及未混合矩阵产生器118的功能。窗序列产生器134及t/f分析模块135实施图11的t/f变换单元111。

正常地，基础时间/频率表示的频率区间被分组成参数频带。频带的间隔类似于人类听觉系统中的关键频带的间隔。此外，多个t/f表示帧可被分组成参数帧。这些操作中的两者以建模不准确性为代价提供所需要旁侧信息量的减小。

如在SAOC标准中所描述，OLD及IOC用以计算未混合矩阵G＝ED^*J，其中，E元素限定为近似对象交叉相关矩阵的i及j是对象索引，J≈(DED^*)^-1。未混合矩阵计算器131可被进行以计算未混合矩阵。

按照标准SAOC，未混合矩阵接着通过时间内插器132在参数帧上从先前帧的未混合矩阵起进行线性内插直至达到所估计值所在的参数边界。这导致每一时间/频率分析窗及参数频带的未混合矩阵。

未混合矩阵的参数频带频率分辨率通过窗频率分辨率适配单元133扩展至该分析窗中的时间/频率表示的分辨率。当时间帧中参数频带b的经内插未混合矩阵界定为G(b)时，同一未混合系数用于该参数频带内部的所有频率区间。

窗序列产生器134被配置为使用来自PSI的参数集范围信息来判定用于分析输入下降混合音频信号的恰当开窗序列。主要要求为，当在PSI中存在参数集边界时，连续分析窗之间的交叉点应与参数集边界匹配。开窗也判定每一窗内数据的频率分辨率(如较早所描述，用于未混合数据扩展中)。

经开窗数据接着使用(例如)以下各者的恰当时间频率变换通过t/f分析模块135变换成频域表示：离散傅立叶变换(DFT)、复合经修改离散余弦变换(CMDCT)或奇数堆栈离散傅立叶变换(ODFT)。

最终，未混合单元136将每帧每频率区间的未混合矩阵应用于下降混合信号X的频谱表示以获得参数呈现Y。输出通道j是下降混合信道的线性组合

对于大多数用途，可通过此程序获得的质量与通过标准SAOC译码器获得的结果是感知上难区分的。

请注意，以上文字描述各个对象的重建，但在标准SAOC中，呈现包括于未混合矩阵中，亦即，呈现包括于参数内插中。作为线性运算，运算的次序并无重要关系，但差异是值得一提的。

在以下内容中，描述利用增强型译码器译码增强型SAOC比特流。

增强型SAOC译码器的主要功能性已在译码标准SAOC比特流中较早进行了描述。此章节将详述PSI中所引入的增强型SAOC增强可用于获得更好感知质量的方式。

图14描绘了根据实施例的示出译码频率分辨率增强的主要功能区块。粗黑功能区块(141、142、143)指示本发明处理的主要部分。频带上值扩展单元141、德尔塔函数恢复单元142、德尔塔应用单元143、未混合矩阵计算器131、时间内插器132及窗频率分辨率适配单元133实施图11的增强型PSI译码单元117及未混合矩阵产生器118的功能。

图14的译码器包含未混合信息判定器112。其中，未混合信息判定器112包含德尔塔函数恢复单元142及德尔塔应用单元143。第一参数信息视至少一音频对象信号而包含多个参数值(例如，对象层级差值)。第二参数信息包含校正因子参数化。德尔塔函数恢复单元142被配置为反转该校正因子参数化以获得德尔塔函数。该德尔塔应用单元143被配置为对参数值(例如，对对象层级差值)应用该德尔塔函数以判定未混合信息。在实施例中，校正因子参数化包含多个线性预测系数，且德尔塔函数恢复单元142被配置为通过根据多个线性预测系数产生多个校正因子来反转校正因子参数化，且被配置为基于多个校正因子产生德尔塔函数。

举例而言，首先，频带上值扩展单元141针对每一参数频带适配OLD及IOC值至用于增强中的频率分辨率(例如，至1024个区间)。此情形通过复制对应于参数频带上的频率区间上的值来进行。这导致新的OLD及K (f,b)是限定频率区间f至参数频带b的指派的核心矩阵。

与以上情形并行，德尔塔函数恢复单元142反转校正因子参数化以获得具有与经扩展OLD及IOC相同的大小的德尔塔函数

接着，德尔塔应用单元143对经扩展的OLD值应用德尔塔，且所获得的精细分辨率OLD值通过来获得。

在特定实施例中，未混合矩阵的计算可(例如)通过未混合矩阵计算器131如同译码标准SAOC比特流一般来进行：G(f)＝E(f)D^*(f)J(f)，其中且J(f)≈(D(f)E(f)D^*(f))^-1。若想要，则呈现矩阵可被倍增至未混合矩阵G(f)中。由时间内插器132进行的时间内插遵照标准SAOC。

由于每一窗中的频率分辨率可不同于(低于)标称高频率分辨率，因此窗频率分辨率适配单元133需要适配未混合矩阵以与来自音频的频谱数据的分辨率匹配以允许应用该频率分辨率。此情形可(例如)在频率轴上对系数重新取样至正确分辨率来进行。或若分辨率是整数倍，则从高分辨率数据对与较低分辨率中一个频率区间对应的索引简单地进行平均

来自比特流的开窗序列信息可用以获得与用于编码器中的分析完全互补的时间频率分析，或开窗序列可如同在标准SAOC比特流译码中进行一般基于参数边界来构建。为此，可使用窗序列产生器134。

下降混合音频的时间频率分析接着通过t/f分析模块135使用给定窗进行。

最终，经时间内插且频谱(可能)适配的未混合矩阵通过未混合单元136应用于输入音频的时间频率表示上，且输出信道j可作为输入信道的线性组合而获得

在以下内容中，描述实施例的特定方面。

在实施例中，图10的德尔塔建模单元109被配置为通过进行线性预测来从多个校正因子(德尔塔)判定线性预测系数。

现在，描述根据此实施例的校正因子(德尔塔)的估计程序及使用线性预测系数(LPC)的可能建模替代例。

首先，描述根据实施例的德尔塔估计。

对估计的输入由在参数区块上及来自基于OLD及NRG参数的功率频谱概况的粗糙重建的估计精细分辨率功率频谱概况组成。精细功率频谱概况以如下方式进行计算。S_i(f,n)是第i个对象的复合频谱，其中f是频率区间索引，且0≤n≤N-1是长度为N的建模区块中的时间窗索引。精细分辨率功率频谱则是

粗糙重建通过下式从(去量化)OLD及NRG计算

Z_i(f)＝K(f,b)OLD_i(b)NRG_i(b)

其中，K(f,b)是界定频率区间f至参数频带b的指派的核心矩阵。

具有不同频谱性质的两个信号在此章节中将用作实例：第一信号是具有实际上平坦频谱的(粉红)噪声(忽略频谱倾斜)，且第二信号是来自乐器钟琴(glockenspiel)的具有高音调(亦即，尖峰)频谱的音调。

图15示出了音调信号及噪声信号的功率频谱。其高分辨率功率频谱(「原始」)以及基于OLD和NRG的对应粗略重建(「重建」)。具体地，图15示出了两个信号的精细功率频谱及粗糙功率频谱。更具体地，展示了原始音调信号151及原始噪声信号152的功率频谱以及音调信号153及噪声信号154的重建功率频谱。请注意，在以下各图中，对于信号153及154，宁可草绘缩放因子(经重建的功率频谱参数)而非充分重建的信号。

可快速地注意到，精细值与粗糙值之间的平均差在噪声信号的状况下是相当小的，而音调信号中的差是极大的。这些差引起所有对象的参数重建的感知降级。

校正因子通过使精细分辨率曲线除以粗糙重建曲线来获得：

C_i(f)＝P_i(f)/Z_i(f)。

此情形允许恢复可应用于粗略重建上以获得精细分辨率曲线的倍增因子：

图16示出了两个实例信号的修改，具体地，实例信号的校正因子。具体地，展示了音调信号151及噪声信号152的校正因子。

在以下内容中，描述德尔塔建模。

校正曲线C在频率轴上指派至一个或多个建模区块中。本质替代例使用与用于标准SAOC PSI的参数频带定义相同的参数频带定义。建模接着以如下步骤对于每一区块单独地进行：

1.利用离散傅立叶逆变换(IDFT)将频谱校正因子C变换至时域自动相关序列。

当建模区块的长度是奇数时，待变换的伪频谱定义如下

当建模区块为偶数时，伪频谱定义如下

变换结果则是r(t)＝IDFT(R(l))。

2.结果被截断为前半部分：

3.列文逊-杜宾递归应用于自动相关序列r(t)以获取反射系数k及建模残余变量e从而使模型阶数增加。

4.可选：基于建模残余变量e，省略整个建模(由于未获得增益)或选择恰当阶数。

5.模型参数经量化用于传输。

若德尔塔应针对每一t-f平铺块(界定频率范围的标准参数频带及界定时间范围的参数区块)独立地进行传输，则有可能作出一决策。该决策可基于(例如)以下各项进行：

-检查德尔塔建模残余能量。若建模残余能量并未超出某临限值，则不传输增强信息。

-测量精细分辨率建模参数描述、德尔塔建模或音频对象信号的功率频谱包络的「尖锐度」/不平坦度。视所测量的值而定，描述精细频谱分辨率的德尔塔建模参数被传输或不传输，或根据视音频对象信号的功率频谱包络的不平坦度进行计算)。恰当测量系(例如)频谱波峰因子、频谱平坦度测量，或最小值与最大值比率。

-获得重建的感知品质。编码器在有增强和无增强情况下计算呈现重建，且判定每一增强的质量增益。接着，定位建模复杂性与质量增益的间的恰当平衡的点，且传输所指示的增强。举例而言，感知上经加权的失真与信号比率或增强型感知测量可用于决策。该决策可针对每一(粗糙)参数频带单独地进行(亦即，局部品质优化)，但也在考虑邻近频带以解决由时间频率系数的时间及频率变量操控引起的信号失真情况下进行(亦即，全局品质优化)。

现在，描述德尔塔重建及应用。

校正曲线的重建遵循如下步骤：

1.所接收的反射系数k(长度L-1的向量)在伪码语法中经解量化且变换成具有长度L的IIR滤波系数a(其中函数X＝diag(x)输出矩阵X，其中X的对角线元素是x，且X的所有非对角线元素是零)：

A＝diag(k)

for ii＝1 to L

for l＝1 to ii-1

A(l,ii)＝A(l,ii-1)+k(ii)*A(ii-l,ii-1)

end

a＝[1；A(1to end,end)]

2.所得滤波器a的频率响应h(n)通过来计算，其中i表示虚数单位

3.校正函数重建通过C^raw(n)＝h(n)h^*(n)自此获得。

4.响应被正规化以具有单位平均值，使得建模区块的总体能量并不改变

5.校正因子应用于OLD上，其已扩展至精细分辨率请注意，在绝对能量中可被忽略，这是由于绝对能量在进一步计算中将被消除。

图17示出了针对实例信号两者的原始校正因子及基于降级LPC的近似(在建模之后)。具体地，展示音调信号151、原始噪声信号152的原始校正因子，以及音调信号153及噪声信号154的经重建校正因子估计。

图18示出了对在图15中示出的对粗略重建应用经建模校正因子的结果。具体地，展示了原始音调信号151及原始噪声信号152的功率频谱以及音调信号153及噪声信号154的经重建功率频谱估计。这些曲线现可在应用建模校正因子的后替代OLD用于以下计算(具体地，重建的精细分辨率功率频谱)中。此处，绝对能量信息被包括以使得比较为更明显，但同一原理在无绝对能量信息情况下亦起作用。

本发明方法及装置使用具有高频率分辨率的滤波器组或时间频率变换且提供额外信息的有效参数化来减轻先前技术SAOC处理的前述缺陷。此外，可以一方式传输此额外信息，使得标准SAOC译码器可译码与使用符合标准SAOC编码器获得的质量相当的可获得质量译码信息的反向兼容部分，且仍允许增强型译码器将额外信息用于更好感知质量。最重要地，额外信息可以极其紧凑的方式表示以供有效传输或储存。

所呈现的本发明方法可应用于任何SAOC方案。其可与任何当前以及将来的音频格式组合。本发明方法通过频谱旁侧信息的双层级表示而允许SAOC应用中增强的感知音频质量。

同一理念也可在通过通道层级差(CLD)替换OLD概念时结合MPEG环绕立体声来使用。

提供如上文所描述的音频编码器或音频编码方法或相关计算机程序。此外，提供如上文所描述的音频编码器或音频译码方法或相关计算机程序。此外，提供上文所描述之经编码音频信号或储存有经编码音频信号的储存媒体。

尽管一些方面已在装置的上下文中予以描述，但清楚的是，这些方面也表示对应方法的描述，其中区块或器件对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对应装置的对应区块或项目或特征的描述。

本发明分解信号可存储于数字储存媒体上或可在诸如无线传输媒体或有线传输媒体(诸如，因特网)的传输媒体上进行传输。

视某些实施要求而定，本发明的实施例可以硬件或以软件来实施。实施可使用具有上面存储的电可读控制信号的数字储存媒体(例如，软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行，该数字存储媒体与可程序化计算机系统协作(或能够与可程序化计算机系统协作)，使得各个方法被执行。

根据本发明的一些实施例包含具有电可读控制信号的非瞬时性数据载体，该非瞬时性数据载体能够与可程序化计算机系统协作，使得本文中所描述的方法中的一个被执行。

通常，本发明的实施例可实施为具有程序代码的计算机程序产品，程序代码是可操作的从而在计算机程序产品在计算机上执行时执行方法中的一个。程序代码可(例如)存储于机器可读载体上。

其他实施例包含存储于机器可读载体上的用于执行本文中描述的方法中的一个的计算机程序。

换言之，本发明方法的实施例因此是具有程序代码的计算机程序，该程序代码用于在计算机程序在计算机上执行时执行本文中所描述的方法中的一个。

本发明方法的其他实施例因此是数据载体(或数字储存媒体或计算机可读媒体)，该数据载体包含记录于其上的用于执行本文中所描述的方法中的一个的计算机程序。

本发明方法的其他实施例因此是数据流或信号序列，其表示用于执行本文中所描述的方法中的一个的计算机程序。数据流或信号序列可(例如)被配置为经由数据通信连接(例如，经由因特网)进行传送。

其他实施例包含被配置为或适配为执行本文中所描述的方法中的一个的处理构件，例如计算机或可程序化逻辑器件。

其他实施例包含上面安装有用于执行本文中所描述的方法中的一个的计算机程序的计算机。

在一些实施例中，可程序化逻辑器件(例如，现场可编程门阵列)可用以执行本文中所描述的方法的功能的一些或全部。在一些实施例中，现场可编程门阵列可与微处理器协作以便执行本文中所描述的方法中的一个。通常，方法较佳由任何硬件装置执行。

上述实施例仅说明本发明的原理。应理解，本文中所描述的配置及细节的修改及变化对于本领域技术人员将是显而易见的。因此，意图是仅由待审权利要求的范围来限制，而非通过借助于本文中的实施例的描述及解释呈现的特定细节来限制。

参考

[BCC]C.Faller and F.Baumgarte,”Binaural Cue Coding-Part II:Schemesand applications,”IEEE Trans.on Speech and Audio Proc.,vol.11,no.6,Nov.2003.

[JSC]C.Faller,”Parametric Joint-Coding of Audio Sources”,120th AESConvention,Paris,2006.

[SAOC1]J.Herre,S.Disch,J.Hilpert,O.Hellmuth:"From SAC To SAOC-RecentDevelopments in Parametric Coding of Spatial Audio",22nd Regional UK AESConference,Cambridge,UK,April 2007.

[SAOC2]J.B.Resch,C.Falch,O.Hellmuth,J.Hilpert,A.L.Terentiev,J.Breebaart,J.Koppens,E.Schuijers and W.Oomen:"Spatial AudioObject Coding(SAOC)-The Upcoming MPEG Standard on Parametric Object BasedAudio Coding",124th AES Convention,Amsterdam,2008.

[SAOC]ISO/IEC,"MPEG audio technologies-Part 2:Spatial Audio ObjectCoding(SAOC),"ISO/IEC JTC1/SC29/WG11(MPEG)International Standard 23003-2:2010.

[AAC]M.Bosi,K.Brandenburg,S.Quackenbush,L.Fielder,K.Akagiri,H.Fuchs,M.Dietz,"ISO/IEC MPEG-2 Advanced Audio Coding",J.Audio Eng.Soc,vol 45,no 10,pp.789-814,1997.

[ISS1]M.Parvaix and L.Girin:"Informed Source Separation ofunderdetermined instantaneous Stereo Mixtures using Source Index Embedding",IEEE ICASSP,2010.

[ISS2]M.Parvaix,L.Girin,J.-M.Brossier:"A watermarking-based methodfor informed source separation of audio signals with a single sensor",IEEETransactions on Audio,Speech and Language Processing,2010.

[ISS3]A.Liutkus and J.Pinel and R.Badeau and L.Girin and G.Richard:"Informed source separation through spectrogram coding and data embedding",Signal Processing Journal,2011.

[ISS4]A.Ozerov,A.Liutkus,R.Badeau,G.Richard:"Informed sourceseparation:source coding meets source separation",IEEE Workshop onApplications of Signal Processing to Audio and Acoustics,2011.

[ISS5]S.Zhang and L.Girin:"An Informed Source Separation System forSpeech Signals",INTERSPEECH,2011.

[ISS6]L.Girin and J.Pinel:"Informed Audio Source Separation fromCompressed Linear Stereo Mixtures",AES 42nd International Conference:SemanticAudio,2011.

[ISS7]A.Nesbit,E.Vincent,and M.D.Plumbley:"Benchmarking flexibleadaptive time-frequency transforms for underdetermined audio sourceseparation",IEEE International Conference on Acoustics,Speech and SignalProcessing,pp.37-40,2009.

Claims

1.一种用于产生一未经混合音频信号的译码器，所述未经混合音频信号包括多个未经混合音频信道，其中，所述译码器包括：

一未混合信息判定器(112)，用于通过接收关于至少一音频对象信号的第一参数旁侧信息及关于所述至少一音频对象信号的第二参数旁侧信息来判定未混合信息，其中，所述第二参数旁侧信息的第二频率分辨率高于所述第一参数旁侧信息的第一频率分辨率，以及

一未混合模块(113)，用于将所述未混合信息应用于指示至少一音频对象信号的下降混合的一下降混合信号，以获得包括所述多个未经混合音频信道的一未经混合音频信号，

其中，所述未混合信息判定器(112)被配置为通过修改所述第一参数旁侧信息及所述第二参数旁侧信息以获得经修改参数信息来判定所述未混合信息，使得所述经修改参数信息具有高于所述第一频率分辨率的频率分辨率。

2.根据权利要求1所述的译码器，

其中，所述译码器进一步包括一第一变换单元(111)，所述第一变换单元用于变换表示于一时域中的下降混合输入，以获得表示于一时间频率域中的所述下降混合信号，作为经变换下降混合，并且

其中，所述译码器包括一第二变换单元(114)，所述第二变换单元用于将所述未经混合音频信号从所述时间频率域变换至所述时域。

3.根据权利要求1所述的译码器，其中，所述未混合信息判定器(112)被配置为通过组合所述第一参数旁侧信息与所述第二参数旁侧信息以获得所述经修改参数信息来判定所述未混合信息，使得所述经修改参数信息具有等于所述第二频率分辨率的频率分辨率。

4.根据权利要求1所述的译码器，

其中，所述第一参数旁侧信息包括多个第一参数值，其中，所述第二参数旁侧信息包括多个第二参数值，

其中，所述未混合信息判定器(112)包括一频率分辨率转换子单元(122)及一组合器(124)，

其中，所述译码器还包括：频率分辨率转换单元(116)，被配置为产生额外参数值，其中，这些第一参数值及这些额外参数值一起形成多个第一经处理参数值，并且

其中，所述组合器(124)被配置为组合这些第一经处理参数值与这些第二参数值以获得多个经修改参数值作为所述经修改参数信息。

5.根据权利要求1所述的译码器，

其中，所述未混合信息判定器(112)包括一德尔塔函数恢复单元(142)及一德尔塔应用单元(143)，

其中，所述第一参数旁侧信息根据所述至少一音频对象信号而包括多个参数值，且其中，所述第二参数旁侧信息包括一校正因子参数化，

其中，所述德尔塔函数恢复单元(142)被配置为反转所述校正因子参数化以获得一德尔塔函数，并且

其中，所述德尔塔应用单元(143)被配置为对所述参数值应用所述德尔塔函数以判定所述未混合信息。

6.根据权利要求5所述的译码器，

其中，所述校正因子参数化包括多个线性预测系数，

其中，所述德尔塔函数恢复单元(142)被配置为通过根据所述多个线性预测系数产生多个校正因子来反转所述校正因子参数化，并且

其中，所述德尔塔函数恢复单元(142)被配置为基于所述多个校正因子产生所述德尔塔函数。

7.根据权利要求2所述的译码器，

其中，所述译码器进一步包括一未混合矩阵产生器(118)，所述未混合矩阵产生器用于根据所述第一参数旁侧信息、根据所述第二参数旁侧信息且根据呈现信息来产生一未混合矩阵，并且

其中，所述未混合模块(113)被配置为对所述经变换下降混合应用所述未混合矩阵以获得所述未经混合音频信号。

8.根据权利要求2所述的译码器，

其中，所述未混合模块(113)包括一去相关单元(119)及一未混合单元(110)，

其中，所述去相关单元(119)被配置为对所述经变换下降混合进行去相关以获得一去相关结果，

并且其中，所述未混合单元(110)被配置为使用所述去相关结果来获得所述未经混合音频信号。

9.一种用于编码一个或多个输入音频对象信号的编码器，包括：

一下降混合单元(91)，用于下降混合所述一个或多个输入音频对象信号以获得一个或多个下降混合信号，以及

一参数旁侧信息产生器(93)，用于产生关于至少一音频对象信号的第一参数旁侧信息及关于所述至少一音频对象信号的第二参数旁侧信息，使得所述第二参数旁侧信息的频率分辨率高于所述第一参数旁侧信息的频率分辨率。

10.根据权利要求9所述的编码器，

其中，所述编码器进一步包括一变换单元(92)，所述变换单元用于将所述一个或多个输入音频对象信号从时域变换至时间频率域以获得一个或多个经变换音频对象信号，并且

其中，所述参数旁侧信息产生器(93)被配置为基于所述一个或多个经变换音频对象信号产生所述第一参数旁侧信息及所述第二参数旁侧信息。

11.根据权利要求10所述的编码器，

其中，所述变换单元(92)被配置为根据一信号变换区块的一窗长度，来将所述一个或多个输入音频对象信号从所述时域变换至所述时间频率域，所述信号变换区块包括所述一个或多个输入音频对象信号中的至少一个的信号值，

其中，所述变换单元(92)包括一瞬变检测单元(101)，所述瞬变检测单元(101)用于判定一瞬变检测结果，所述瞬变检测结果指示一瞬变是否存在于所述至少一音频对象信号中的一个或多个中，其中，一瞬变指示所述至少一音频对象信号中的一个或多个中的信号改变，且

其中，所述变换单元(92)进一步包括一窗序列单元(102)，所述窗序列单元(102)用于根据所述瞬变检测结果来判定所述窗长度。

12.根据权利要求9所述的编码器，其中，所述编码器进一步包括一德尔塔估计单元(108)，所述德尔塔估计单元(108)用于根据所述至少一音频对象信号基于多个参数值来估计多个校正因子以获得所述第二参数旁侧信息。

13.根据权利要求12所述的编码器，其中，所述编码器进一步包括一德尔塔建模单元(109)，所述德尔塔建模单元用于通过进行一线性预测而从所述多个校正因子来判定线性预测系数。

14.一种经编码音频信号，包括：

一下降混合部分(51)，指示一个或多个输入音频对象信号的下降混合，

一参数旁侧信息部分(52)，包括关于至少一音频对象信号的第一参数旁侧信息及关于所述至少一音频对象信号的第二参数旁侧信息，其中，所述第二参数旁侧信息的频率分辨率高于所述第一参数旁侧信息的频率分辨率。

15.一种用于编码一个或多个输入音频对象信号以及用于产生一未经混合音频信号的系统，其中所述系统包括：

如权利要求9至13中任一项所述的编码器(61)，用于通过以下操作来编码所述一个或多个输入音频对象信号：获得指示一个或多个输入音频对象信号的下降混合的一个或多个下降混合信号，获得关于所述至少一音频对象信号的第一参数旁侧信息，以及获得关于所述至少一音频对象信号的第二参数旁侧信息，其中，所述第二参数旁侧信息的频率分辨率高于所述第一参数旁侧信息的频率分辨率，以及

如权利要求1至8中任一项所述的译码器(62)，用于基于由如权利要求9至13中任一项所述的编码器(61)产生的所述一个或多个下降混合信号中的一个下降混合信号且基于所述第一参数旁侧信息及所述第二参数旁侧信息来产生所述未经混合音频信号。

16.一种用于产生一未经混合音频信号的方法，所述未经混合音频信号包括多个未经混合音频信道，其中，所述方法包括：

通过接收关于至少一音频对象信号的第一参数旁侧信息及关于所述至少一音频对象信号的第二参数旁侧信息来判定未混合信息，其中，所述第二参数旁侧信息的第二频率分辨率高于所述第一参数旁侧信息的第一频率分辨率，以及

将所述未混合信息应用于指示至少一音频对象信号的下降混合的一下降混合信号，以获得包括所述多个未经混合音频信道的一未经混合音频信号，

其中，判定所述未混合信息包括修改所述第一参数旁侧信息及所述第二参数旁侧信息以获得经修改参数信息，使得所述经修改参数信息具有高于所述第一频率分辨率的频率分辨率。

17.一种用于编码一个或多个输入音频对象信号的方法，包括：

下降混合所述一个或多个输入音频对象信号以获得一个或多个下降混合信号，以及

产生关于至少一音频对象信号的第一参数旁侧信息及关于所述至少一音频对象信号的第二参数旁侧信息，使得所述第二参数旁侧信息的频率分辨率高于所述第一参数旁侧信息的频率分辨率。

18.一种计算机可读介质，包括当在计算机或信号处理器上执行时用于实施权利要求16或17所述的方法的计算机程序。