CN102171751B

CN102171751B - 支持后降混信号的多对象音频编解码设备

Info

Publication number: CN102171751B
Application number: CN2009801362577A
Authority: CN
Inventors: 徐廷一; 白承权; 姜京玉; 洪镇佑; 金镇雄; 安致得; 金光基; 汉民秀
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2008-07-16
Filing date: 2009-07-16
Publication date: 2013-05-29
Anticipated expiration: 2029-07-16
Also published as: CN102171751A; EP2696342B1; US20200066289A1; KR20100008755A; KR20190050755A; US9685167B2; KR101734452B1; EP2320415A1; US20170337930A1; KR101614160B1; CN103258538A; WO2010008229A1; EP2998958A3; KR101976757B1; US10410646B2; CN103258538B; EP2696342A2; US20110166867A1; EP2998958A2; KR20170054355A

Abstract

本发明提供了一种多对象音频编码和解码设备（100），其支持后降混信号（103）。所述多对象音频编码设备（100）可包括：对象信息提取及降混生成单元（101），其从输入对象信号生成对象信息和降混信号；参数决定单元（202），其使用提取出的降混信号和邮降混信号，来决定降混信息参数；和比特流生成单元（203），其结合对象信息和降混信息参数，来生成对象比特流。

Description

支持后降混信号的多对象音频编解码设备

技术领域

本发明涉及一种多对象音频编码和解码设备，更特别是，涉及一种可支持从外部输入的后降混信号(post downmix signal)的多对象音频编解码设备，并有效地显示与一般降混信号和后降混信号之间的关系相关的降混信息参数。

技术背景

目前，可以有效压缩音频对象信号的基于对象的音频编码技术是人们关注的焦点。用于支持现有运动图像专家组(MPEG)环绕技术的任意降混信号的参数的量化/反量化体系(scheme)，可提取任意降混信号和编码器的降混信号之间的频道水平差异CLD(Channel Level Difference)参数。此外，量化/反量化体系可使用以在MPEG环绕体系中的0dB为基准设计得心对称的CLD量化表，来执行量化/反量化步聚。

当多个乐器/曲目被混合为立体声信号时，可生成领头降混信号(mastering downmix signal)，其可被放大以具有光盘(CD)可显示的最大动态范围，并可被通过均衡器等转换。因此，领头降混信号可与立体声混音信号不同。

当MPEG环绕体系的任意降混处理技术被应用到多对象音频编码设备中来支持领头降混信号时，降混信号和领头降混信号之间的CLD可由于每个对象的降混增益被非对称地提取。在这里，CLD可通过将每个对象乘以降混增益而获得。因此，只可使用一个现有CLD量化表的一边，因此当进行CLD参数的量化/反量化时发生的量化误差可能是很重大的。

因此，需要一种方法来有效编码/解码音频对象。

发明内容

技术目的

本发明的一个方面，提供一种多对象音频编码和解码设备，其支持后降混信号。

本发明的一个方面，还提供一种多对象音频编码和解码设备，其可基于与每个对象相乘的降混增益使非对称地提取的降混信息参数针对0dB变得均匀对称分布，可执行量化和反量化，从而可减少量化误差。

本发明的一个方面，还提供一种多对象音频编码和解码设备，其可使用降混信息参数，将后降混信号调整为类似于编码操作中生成的降混信号，从而降低声音衰减。

技术方案

根据本发明的一个方面，提供一种多对象音频编码设备，其使用从外部输入的后降混信号来编码多对象音频。

所述多对象音频编码设备可包括：对象信息提取及降混生成单元，其从输入对象信号生成对象信息和降混信号；参数决定单元，其使用提取出的降混信号和后降混信号，来决定降混信息参数；和比特流生成单元，其结合对象信息和降混信息参数，来生成对象比特流。

所述参数决定单元可包括：功率偏置(power offset)计算单元，其将所述后降混信号定级(scale)为预设定的值，来使特定帧中的后降混信号的平均功率与降混信号的平均功率相同；和参数提取单元，其在预设定的帧中从被定级的后降混信号中提取降混信息参数。

所述参数决定单元，可决定作为补偿降混信号和后降混信号之间差异的降混信息参数的PDG，且所述比特流生成单元，可传输包含有PDG的对象比特流。

所述参数决定单元，可生成对应降混信号和后降混信号之间的差异的残差信号；且所述比特流生成单元，可传输含有残差信号的对象比特流。所述降混信号和后降混信号之间的差异，可通过应用后降混增益而被补偿。

根据本发明的一个方面，提供一种多对象音频解码设备，其使用从外部输入的后降混信号来解码多对象音频。

所述多对象音频解码设备包括：比特流处理单元，其从对象比特流中提取降混信息参数和对象信息；降混信号生成单元，其基于降混信息参数调整后降混信号，并生成降混信号；和解码单元，其使用对象信息解码降混信号并生成对象信号。

所述多对象音频解码设备可进一步包括：渲染单元，其使用用户控制信息对生成的对象信号执行渲染，并生成可重复输出信号。

所述降混信号生成单元可包括：功率偏置补偿单元，其使用从降混信息参数中提取出的功率偏置值，来定级后降混信号；降混信号调整单元，其使用降混信息参数来将定级的后降混信号转换为降混信号。

根据本发明的一个方面，提供一种多对象音频解码设备，包括：比特流处理单元，其从对象比特流中提取降混信息参数和对象信息；降混信号生成单元，其使用降混信息参数和后降混信号来生成降混信号；代码转换单元，其使用对象信息和用户控制信息对所述降混信号执行代码转换；降混信号预处理单元，其使用代码转换的结果来预处理所述降混信号；和运动图像专家组MPEG环绕解码单元，其使用代码转换的结果和处理的降混信号来执行MPEG环绕解码。

技术效果

根据本发明的一个实施例，提供一种多对象音频编码和解码设备，其支持后降混信号。

根据本发明的一个实施例，还提供一种多对象音频编码和解码设备，其可基于与每个对象相乘的降混增益使非对称地提取的降混信息参数针对0dB变得均匀对称分布，可执行量化和反量化，从而可减少量化误差。

根据本发明的一个实施例，还提供一种多对象音频编码和解码设备，其可使用降混信息参数，将后降混信号调整为类似于编码操作中生成的降混信号，从而降低声音衰减。

附图说明

图1是示出根据本发明的一个实施例的支持后降混信号的多对象音频编码设备的框图；

图2是示出根据本发明的一个实施例的支持后降混信号的多对象音频编码设备的配置的框图；

图3是示出根据本发明的一个实施例的支持后降混信号的多对象音频解码设备的配置的框图；

图4是示出根据本发明的另一个实施例的支持后降混信号的多对象音频解码设备的配置的框图；

图5是示出在根据本发明的一个实施例的支持后降混信号的多对象音频编码设备中补偿频道水平差异CLD(Channel Level Difference)的操作的框图；

图6是示出根据本发明的一个实施例的通过相反地补偿CLD补偿值来进行后降混信号的补偿的的操作的框图；

图7是示出根据本发明的另一个实施例的支持后降混信号的多对象音频编码设备中的参数决定但单元的配置的框图；

图8是示出根据本发明的另一个实施例的支持后降混信号的多对象音频解码设备中的降混信号生成单元的配置的框图；和

图9是示出根据本发明的一个实施例的输出后降混信号空间音频对象编码SAOC(Spatial Audio Object Coding)比特流的操作的示图。

具体实施方式

现在将参照附图对本发明的实施例进行详细描述，所述实施例的示例在附图中被示出，其中相同的参考数字始终表示相同的元素。下面将参照数字描述实施例，以对本发明进行说明。

图1是示出根据本发明的一个实施例的支持后降混信号的多对象音频编码设备100的框图。

多对象音频编码设备100，可使用从外部输入的后降混信号(postdownmix signal)来编码多对象音频信号。多对象音频编码设备100可使用输入对象信号101来生成降混信号和对象信息。在这种情况下，对象信息可表示从输入对象信号101预测的空间线索参数(spatial cue parameter)。

此外，多对象音频编码设备100可分析降混信号和额外输入的后降混信号102，从而可生成降混信息参数，来将后降混信号102调整为类似于降混信号。降混信号可在执行编码时生成。多对象音频编码设备100可使用降混信息参数和对象信息来生成对象比特流104。此外，输入的后降混信号102可被直接作为后降混信号103输出而无需经过特定的重放(replay)进程。

在这种情况下，可通过提取降混信号和后降混信号102之间的CLD参数、使用频道水平差异(CLD)量化表来量化/反量化降混信息参数。所述CLD量化表可针对预定的中心被设计得对称。例如，多对象音频编码设备可基于应用到每个对象信号的降混增益，使不对称地提取的CLD参数针对某一预定中心变得对称。根据本发明，对象信号可能被称为对象。

图2是示出根据本发明的一个实施例的支持后降混信号的多对象音频编码设备100的配置的框图。

参考图2，多对象音频编码设备100可包括：对象信息提取及降混生成单元201，参数决定单元202，比特流生成单元203。多对象音频编码设备100可支持从外部输入的后降混信号(post downmix signal)102。根据本发明，后降混信号(post downmix signal)可表示领头降混信号(masteringdownmix signal)。

对象信息提取及降混生成单元201可从输入对象信号101生成对象信息和降混信号。

参数决定单元202，可分析提取出的降混信号和后降混信号102，来决定降混信息参数。参数决定单元202可计算降混信号和后降混信号102之间的信号强度差异来决定降混信息参数。此外，输入的后降混信号102可作为后降混信号103直接输出而无需特定的重放进程。

例如，参数决定单元202可将后降混增益PDG(Post Downmix Gain)决定为降混信息参数。可通过将后降混信号最大程度上调整为与降混信号类似而均匀对称地分布所述PDG。具体来说，参数决定单元202可基于降混增益将不对称提取的降混信息参数相对于0dB决定地均匀对称。在这里，降混信息参数可以是PDG，降混增益可以与每个对象相乘。随后，可以以等同于CLD的量化表来量化PDG。

当通过将后降混信号调整地类似于编码操作中生成的降混信号来解码后降混信号102时，声音质量有可能比使用降混信号。直接解码时严重衰减。因此，要有效地提取用来调整降混信号102的降混信息参数来减少声音的衰减。降混信息参数可以是如被用作运动图像专家组环绕MPEG Surround体系的任意降混增益ADG的CLD之类的参数。

CLD参数可以被量化以传输，并可针对0dB对称，从而可减少量化误差，并降低由后降混信号引起的声音衰减。

比特流生成单元203可结合对象信息和降混信息参数，来生成对象比特流。

图3是示出根据本发明的一个实施例的支持后降混信号的多对象音频解码设备300的配置的框图。

参考图3，多对象音频解码设备300可包括：降混信号生成单元301，比特流处理单元302，解码单元303和渲染单元304。多对象音频解码设备300可支持从外部输入的后降混信号305。

比特流处理单元302可从多对象音频编码设备传输来的对象比特流306中提取降混信息参数308和对象信息309。随后，降混信号生成单元301可基于降混信息参数308调整后降混信号305，并生成降混信号307。在这种情况下，降混信息参数308可补偿降混信号307和后降混信号305之间的信号强度差异。

解码单元303可使用对象信息309解码降混信号307并生成对象信号310。渲染单元304可使用用户控制信息311对生成的对象信号310执行渲染，并生成可重复输出信号312。在这种情况下，用户控制信息311可表示通过混合存储的对象信号来生成输出信号所需的渲染矩阵或信息。

图4是示出根据本发明的另一个实施例的支持后降混信号的多对象音频解码设备400的配置的框图。

参考图4，多对象音频解码设备400可包括：降混信号生成单元401，比特流处理单元402，降混信号预处理单元403，代码转换单元404，以及MPEG环绕解码单元405。

比特流处理单元402，可从对象比特流407中提取降混信息参数409和对象信息410。降混信号生成单元410，可使用降混信息参数409和后降混信号406来生成降混信号408。后降混信号406可被直接输出用于重放。

代码转换单元404，可使用对象信息410和用户控制信息412对所述降混信号408执行代码转换。随后，降混信号预处理单元403可使用代码转换的结果来预处理所述降混信号408。MPEG环绕解码单元405可使用MPEG环绕比特流413和预处理过的降混信号411来执行MPEG环绕解码。MPEG环绕比特流413可以是代码转换的结果。多对象音频解码设备400可通过MPEG环绕解码来输出输出信号414。

图5是示出在根据本发明的一个实施例的支持后降混信号的多对象音频编码设备中补偿频道水平差异CLD(Channel Level Difference)的操作的框图。

当通过将后降混信号调整为与降混信号类似而执行解码时，音质可能比直接使用编码时生成的降混信号进行解码更加严重地衰减。因此，后降混信号将被调整到最大限度类似于原始降混信号来减少声音的衰减。于此，用来调整后降混信号的降混信息参数可被有效地提取和显示。

跟据本发明的一个实施例，降混信号与后降混信号之间的信号强度差异可被用作降混信息参数。被用作MPEG环绕体系的ADG的CLD可以是降混信息参数。

所述降混信息参数可由表1所示的CLD量化表来进行量化。

[表1]CLD量化表(CLD quantization table)

因此，当降混信息参数针对0dB对称分布时，可降低降混信息参数的量化误差，并可以减少由后降混信号带来的声音衰减。

但是，在一般多对象音频编码设备中生成的与后降混信号和降混信号有关的降混信息参数，可能会由于用于生成降混信号的混合矩阵的每个对象的降混增益而不对称分布。例如，当每个对象的原始增益为1时，小于1的降混增益可被与每个对象相乘来防止削波造成降混信号失真。因此，与后降混信号相比，生成的降混信号可具有与降混增益相同的小功率。在这种情况下，在测量降混信号和后降混信号之间的信号强度差异时，分布中心可不位于0dB。

当降混信息参数如上所述被量化时，量化误差可能会增加，因为只有如上所述CLD量化表的一侧可被使用。根据本发明的一个实施例，多对象音频编码设备可使补偿降混信息参数提取的参数的分布中心位于毗邻0分贝处并进行量化，其内容将介绍如下。

CLD，即从外部输入的后降混信号与基于频道X的混合矩阵生成的降混信号之间的降混信息参数，在特定的帧/参数带中可通过下面的公式得出：

[公式1]

{CLD}_{X} (n, k) = 10 \log_{10} \frac{P_{X, m} (n, k)}{P_{X, d} (n, k)}

其中，n和k可分别表示帧和参数带。Pm和Pd可分别表示后降混信号的功率和降混信号的功率。当用于生成频道X的降混信号的混合矩阵的每个对象的降混增益是GX1，GX2，……，GXN时，用以将提取的CLD的分布中心补偿为0的CLD补偿值可通过下面的公式得出：

[公式2]

其中N可表示输入对象的总数。

用于混合矩阵的每个对象的降混增益可与所有帧/参数带相同，公式2的CLD的补偿值可以是常数。因此，补偿的CLD可通过从公式1的降混信息参数中减去公式2的CLD补偿值获得，其可通过下面的公式3得出。

[公式3]

CLD_X,m(n,k)=CLD_X(n,k)-CLD_X,c

补偿的CLD可根据表1被量化，并被传输到多对象音频解码设备。此外，补偿的CLD的统计分布可位于比一般CLD靠近0dB处，也就是说，与高斯分布(Gaussian distribution)相对的普拉斯分布的特征(Laplaciandistribution)已被显示出。因此，与表1的量化表相对的、从-10dB至+10dB的范围被更加紧密划分的量化表可被应用于减少量化误差。

多对象音频编码设备可根据下列公式4、5、6来计算降混增益DMG和降混频道水平差异DCLD，并可将DMG和DCLD传输到多对象音频解码设备。所述DMG可表示每个对象的混合量。具体来说，单声道降混信号和立体声降混信号两者均可被使用。

[公式4]

DMG_i＝20log₁₀G_i

其中i=1，2，3，……N(单声道降混)。

[公式5]

DMG_i＝10log₁₀(G_1i ²+G_2i ²)

其中，i=1，2，3，……N(立体声降混)。

[公式6]

{DCLD}_{i} = 20 \log_{10} \frac{G_{1 i}}{G_{2 i}}

其中，i=1，2，3，……N

当降混信号是单声道降混信号时公式4可用于计算降混增益，当降混信号是立体声降混信号时公式5可用来计算降混增益。公式6可用于计算贡献给降混信号的左、右声道的每个对象的等级。在这里，G_1i和G_2i可分别表示左声道和右声道。

当根据本发明的实施例支持后降混信号时，无法使用单声道降混信号，因此可应用公式5和公式6。公式2之类的补偿值可使用公式5和公式6来计算，来使用传输的补偿的CLD和使用公式5和公式6获得的降混增益还原降混信息参数。用于针对左声道和右声道的每个对象的降混增益可使用公式5和公式6计算，可通过下面的公式得出：

[公式7]

{\hat{G}}_{1 i} = \sqrt{\frac{10^{{DCLD}_{i} / 10}}{1 + 10^{{DCLD}_{i} / 10}}} \cdot 10^{{DMG}_{i} / 20}

{\hat{G}}_{2 i} = \sqrt{\frac{1}{1 + 10^{{DCLD}_{i} / 10}}} \cdot 10^{{DMG}_{i} / 20}

其中，i=1，2，3……，N

CLD补偿值可以与公式2同样的方式使用计算的每个对象降混增益计算，其可通过下面的公式得出：

[公式8]

C \hat{L} D_{X, c} = 10 \log_{10} \frac{N^{2}}{{({\hat{G}}_{X, 1} + {\hat{G}}_{X, 2} + {\hat{G}}_{X, 3} + \cdot \cdot \cdot + {\hat{G}}_{X, N})}^{2}}

多对象音频解码设备可使用计算的CLD补偿值和补偿的CLD的反量化值还原降混信息参数，其可通过下面的公式得出：

[公式9]

C \hat{L} D_{X, m} (n, k) = C \hat{L} D_{X} (n, k) + C \hat{L} D_{X, c}

其与通过一般量化处理还原的参数相比，可减少还原的降混信息参数的量化误差。因此，可减少声音衰减。

当使用均衡器进行每个波带的水平控制处理时，原始的降混信号可被最明显地传输。当MPEG环绕的ADG使用CLD作为参数时，CLD值可被作为20波带或28波带处理，且所述均衡器可使用多种组合如24波带、36波带等。提取降混信息参数的参数带可被作为均衡器带设置和处理，而不是CLD参数带，由此可减少两带之间的差异和解决方案差异的误差。

降混信息参数分析带可如下所示。

[表2]降混信息参数分析波带(Downmix information parameter analysis band)

当“bsMDProcessingBand”的值大于1时，降混信息参数可被抽取出来作为由一般均衡器使用的单独定义的带。

对图5的CLD补偿操作做出描述。

为处理后降混信号，多对象音频编码设备可使用混合矩阵509根据公式2执行DMG/CLD计算步骤501。此外，多对象音频编码设备可通过DMG/CLD量化步骤502来量化DMG/CLD，并通过DMG/CLD反量化步骤503来反量化DMG/CLD，并执行混合矩阵计算步骤504。多对象音频编码设备可使用混合矩阵505来执行CLD补偿值计算，由此可减少CLD错误。

此外，多对象音频编码设备可使用后降混信号511执行CLD计算步骤506。多对象音频编码设备可使用CLD补偿值计算步骤505计算的CLD补偿值507来执行CLD量化步骤508。由此，可生成量化的补偿的CLD512。

图6是示出根据本发明的一个实施例的通过相反地补偿CLD补偿值来进行后降混信号的补偿的的操作的框图。图6的操作可以是图5的操作的逆向操作。

多对象音频解码设备可使用量化的DMG/CLD607执行DMG/CLD反量化步聚601。多对象音频解码设备可使用反量化的DMG/CLD执行混合矩阵计算步骤602，并执行CLD补偿值计算步骤603。多对象音频解码设备可使用量化的补偿的CLD608执行补偿的CLD的反量化步聚604。此外，多对象音频解码设备可使用反量化的补偿的CLD和通过CLD补偿值计算步骤603计算的CLD补偿值605来执行后降混补偿606。后降混信号可被应用于后降混补偿步骤606。由此，可生成混合降混609。

图7是示出根据本发明的另一个实施例的支持后降混信号的多对象音频编码设备中的参数决定但单元的配置的框图。

参考图7，参数决定单元700可包括：功率偏置计算单元701和参数提取单元702。参数决定700单元可对应图2的参数决定单元202。

功率偏置计算单元701，可将所述后降混信号定级(scale)为预设定的值，来使特定帧中的后降混信号703的平均功率与降混信号704的平均功率相同。在一般情况下，由于后降混信号703具有比编码操作期间生成的降混信号更大的功率，所以功率偏置计算单元701可以通过定级(scaling)来调整后降混信号703和降混信号704的功率。

参数提取单元702可在预设定的帧中从被定级的后降混信号705中提取降混信息参数706。降混信号703可用于决定降混信息参数706，或者后降混信号707可被直接输出而不经过特别的处理。

也就是说，参数决定单元700可计算降混信号704和后降混信号705之间的信号强度差异来决定降混信息参数706。具体来说，参数决定单元700可将PDG决定为降混信息参数706。所述PDG，通过将后降混信号705最大程度上调整为与降混信号704类似而被均匀对称地分布。

图8是示出根据本发明的另一个实施例的支持后降混信号的多对象音频解码设备中的降混信号生成单元800的配置的框图。

参考图8，降混信号生成单元800可包括功率偏置补偿单元801和降混信号调整单元802。

功率偏置补偿单元801可使用从降混信息参数804中提取出的功率偏置值，来定级后降混信号803。所述功率偏置可被包含在降混信息参数804中，按需要可被发送或不发送。

降混信号调整单元802可将定级的后降混信号805转换为降混信号806。

图9是示出根据本发明的一个实施例的输出后降混信号空间音频对象编码SAOC(Spatial Audio Object Coding)比特流的操作的示图。如表3至表7所示的语法，可被添加到应用降混信息参数中，以支持后降混信号。

[表3]SAOCSpecificConfig()的语法

[表4]SAOCExtensionConfigData(1)的语法

[表5]SAOCFrame()的语法

[表6]SpatialExtensionFrameData(1)的语法

[表7]MasteringDownmixResidualData()的语法

后领头信号(post Mastering signal)可表示由音乐领域中的领头工程师(Mastering engineer)创建的音频信号，并被应用至各领域的与MPEG-DSAOC相关的一般降混频信号中，如视频会议系统、游戏等。此外，扩展的降混信号、增强的降混信号、专业的降混等，可针对后领头信号被用作领头降混信号。表3至表7中用以支持MPEG-D SAOC的领头降混信号的的语法，可为每个降混信号的名称如下所示重新定义。

[表8]SAOCSpecificConfig()的语法

[表9]SAOCExtensionConfigData(1)的语法

[表10]SAOCFrame()的语法

[表11]SpatialExtensionFrameData(1)的语法

[表12]ExtendedDownmixResidualData()的语法

[表13]SAOCSpecificConfig()的语法

[表14]SAOCExtensionConfigData(1)的语法

[表15]SAOCFrame()的语法

[表16]SpatialExtensionFrameData(1)的语法

[表17]EnhancedDownmixResidualData()的语法

[表18]SAOCSpecificConfig()的语法

[表19]SAOCExtensionConfigData(1)的语法

[表20]SAOCFrame()的语法

[表21]SpatialExtensionFrameData(1)的语法

[表22]ProfessionalDownmixResidualData()的语法

[表23]SAOCSpecificConfig()的语法

[表24]SAOCExtensionConfigData(1)的语法

[表25]SAOCFrame()的语法

[表26]SpatialExtensionFrameData(1)的语法

[表27]PostDownmixResidualData()的语法

用以支持扩展的降混的MPEG-D SAOC语法已在表8至表12中示出，用以支持增强的降混的MPEG-D SAOC语法已在表13至表17中示出。另外，用以支持专业的降混的MPEG-D SAOC语法已在表18至表22中示出，且用以支持后降混的MPEG-D SAOC语法已在表23至表27中示出。

参考图9，正交镜像滤波器QMF(Quadrature Mirror Filter)分析步骤901、902和903可被针对音频对象(1)907、音频对象(2)908和音频对象(3)909执行，由此可执行空间分析904。QMF分析步骤905和906可被针对输入的后降混信号(1)910和输入的后降混信号（2）911执行，从而可以执行空间分析步骤904。输入的后降混信号(1)910和输入的后降混信号(2)911可作为后降混信号（1）915和后降混信号（2）916直接输出而无需特殊处理。

当针对音频对象（1）907、音频对象（2）908、音频对象（3）909执行空间分析步骤904时，可生成标准空间参数912和后降混增益PDG(PostDownmix Gain)913。可使用生成的标准空间参数912和PDG913来生成SAOC比特流914。

根据本发明的一个实施例的多对象音频编码设备可生成PDG来处理降混信号和后降混信号910和911，如领头降混信号。所述PDG可以是用以补偿降混信号和后降混信号之间的差异的降混信息参数，并可被包含在SAOC比特流914中。在这种情况下，PDG的结构可基本与MPEG环绕体系的ADG相同。

因此，根据本发明的一个实施例的多对象解码设备可使用PDG和后降混信号补偿降混信号。在这种情况下，可使用与MPEG环绕体系的CLD相同的量化表来量化PDG。

将PDG与其他空间参数如OLD、NRG、IOC、DMG和DCLD比较的结果，如下表28所示。所述PDG可使用MPEG环绕体系的CLD量化表来反量化。

[表28]PDG和其他空间参数的尺寸和值范围比较

后降混信号可使用反量化的PDG来补偿，将在下面详细描述。

在后降混信号补偿中，可通过将混合矩阵乘以输入的降混信号来生成补偿的降混信号。在这种情况下，当SAOCSpecificConfig()的语法中bsPostDownmix值是0时，可能无法执行后降混信号补偿。当值是1时，可执行后降混信号补偿。也就是说，当值是0时，输入的降混信号可直接随特定的处理输出。当混合矩阵是单声道降混时，混合矩阵可由以下公式10表示。当混合矩阵是立体声降混时，混合矩阵可由以下公式11表示。

[公式10]

W_{PDG}^{l, m} = [1]

[公式11]

W_{PDG}^{l, m} = [\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix}]

当bsPostDownmix值是1时，输入的降混信号可通过反量化的PDG进行补偿。当混合矩阵是单声道降混时，混合矩阵可以被定义为：

[公式12]

W_{PDG}^{l, m} = [w_{1}^{l, m}]

其中，可使用反量化的PDG来计算，并可表示为：

[公式13]

w_{1}^{l, m} = D_{PDG} (0, l, m),

0≤m<M_proc,0≤l<L

当混合矩阵是立体声降混时，混合矩阵可被定义为：

[公式14]

W_{PDG}^{l, m} = [\begin{matrix} w_{1}^{l, m} & 0 \\ 0 & w_{2}^{l, m} \end{matrix}]

其中，

可使用反量化的PDG来计算，并可表示为：

[公式15]

w_{X}^{l, m} = D_{PDG} (X, l, m),

0≤X<2,0≤m<M_proc,0≤l<L

此外，用于传输比特流中的PDG的语法如表29和表30所示。表29和表30显示当残余解码没有被应用到完全还原后降混信号时的PDG，用于和表23至表27所显示的PDG做比较。

[表29]SAOCSpecificConfig()的语法

[表30]SAOCFrame()的语法

表29中的bsPostDownmix值可以是表示PDG是否存在的标旗(flag)，并可表示如下。

[表31]bsPostDownmix

使用PDG支持后降混信号的执行，可通过残余编码进行提高。也就是说，当后降混信号被补偿以使用PDG解码时，音质可能会与直接使用降混信号时相比由于原始降混信号和补偿的后降混信号之间的差异而降低。

为了克服上述缺点，可从多对象音频编码设备中提取、编码并传输残差信号。残差信号可表示降混信号和补偿的后降混信号之间的差异。多对象音频解码设备可解码所述残差信号并将残差信号添加入补偿的后降混信号来将残差信号调整为与原始降混信号相似。由此，可减少音质的下降。

此外，残差信号可是从整个频段提取。但是，由于比特率可能会明显增加，残差信号可以只在实际上影响音质的一个频段中传输。也就是说，当由于对象只具有低频成分如低音而发生声音衰减时，多对象音频编码设备可在低频段信号中提取残差信号并补偿声音衰减。

一般来说，由于在低频段的声音衰减可基于人类的认知自然进行补偿，所以，可从低频段提取并传输残差信号。当使用残差信号时，多对象音频编码设备可向根据公式9至公式14补偿的后降混信号添加相同量的由如下所示语法决定的残差信号来作为频带。

[表32]bsSAOCExtType

[表33]SAOCExtensionConfigData(1)的语法

[表34]PostDownmixResidualConfig()的语法

[表35]SpatialExtensionFrameData(1)的语法

[表36]PostDownmixResidualData()的语法

虽然本发明一些实施例已被展示和描述，但是本发明不仅限于所描述的实施例。相反，本技术领域的技术人员应当明白，在不脱离本发明的原则和精神范围内，可对实施例进行改变，其范围由权利要求书及其等同物定义。

Claims

1.一种多对象音频编码设备，其使用从外部输入的后降混信号来编码多对象音频，其包括：

对象信息提取及降混生成单元，其从输入对象信号生成对象信息和降混信号；

参数决定单元，其使用提取出的降混信号和后降混信号，来决定降混信息参数；和

比特流生成单元，其结合对象信息和降混信息参数，来生成对象比特流，

其中，所述参数决定单元包括：

功率偏置计算单元，其将所述后降混信号定级为预设定的值，来使特定帧中的后降混信号的平均功率与降混信号的平均功率相同；和

参数提取单元，其在预设定的帧中从被定级的后降混信号中提取降混信息参数。

2.如权利要求1所述的多对象音频编码设备，其中，所述参数决定单元，计算降混信号和后降混信号之间的信号强度差异来决定降混信息参数。

3.如权利要求2所述的多对象音频编码设备，其中，所述参数决定单元，将后降混增益PDG决定为降混信息参数。

4.如权利要求1所述的多对象音频编码设备，其中，所述参数决定单元，计算表示输入对象信号的混合量的降混增益DMG和降混频道水平差异DCLD。

5.如权利要求1所述的多对象音频编码设备，其中，

所述参数决定单元，决定作为补偿降混信号和后降混信号之间差异的降混信息参数的后降混增益，且

所述比特流生成单元，传输包含有后降混增益的对象比特流。

6.如权利要求5所述的多对象音频编码设备，其中，

所述参数决定单元，生成对应降混信号和后降混信号之间的差异的残差信号；且

所述比特流生成单元，传输含有残差信号的对象比特流，

其中，所述降混信号和后降混信号之间的差异通过应用后降混增益而被补偿。

7.如权利要求6所述的多对象音频编码设备，其中，所述残差信号，针对影响输入对象信号音质的频带而生成，且通过比特流被传输。

8.一种多对象音频解码设备，其使用从外部输入的后降混信号来解码多对象音频，其包括：

比特流处理单元，其从对象比特流中提取降混信息参数和对象信息；

降混信号生成单元，其基于降混信息参数调整后降混信号，并生成降混信号；和

解码单元，其使用对象信息解码降混信号并生成对象信号，

其中，所述降混信号生成单元包括：

功率偏置补偿单元，其使用从降混信息参数中提取出的功率偏置值，来定级后降混信号；

降混信号调整单元，其使用降混信息参数来将定级的后降混信号转换为降混信号。

9.如权利要求8所述的多对象音频解码设备，其进一步包括：

渲染单元，其使用用户控制信息对生成的对象信号执行渲染，并生成可重复输出信号。

10.如权利要求8所述的多对象音频解码设备，其中，所述降混信息参数，补偿降混信号和后降混信号之间的信号强度差异。

11.如权利要求8所述的多对象音频解码设备，其中，所述降混信号调整单元，使用后降混信号和后降混增益来补偿降混信号，所述后降混增益是用于补偿降混信号与后降混信号之间差异的降混信息参数。

12.如权利要求11所述的多对象音频解码设备，其中，所述降混信号调整单元，将残差信号应用到使用后降混增益补偿的后降混信号中，且所述残差信号是降混信号和后降混信号之间的差异，所述降混信号和后降混信号之间的差异通过应用后降混增益来补偿。

13.一种多对象音频解码设备，包括：

降混信号生成单元，其使用降混信息参数和后降混信号来生成降混信号；

代码转换单元，其使用对象信息和用户控制信息对所述降混信号执行代码转换；

降混信号预处理单元，其使用代码转换的结果来预处理所述降混信号；和

运动图像专家组MPEG环绕解码单元，其使用代码转换的结果和处理的降混信号来执行MPEG环绕解码，

其中，所述降混信号生成单元包括：

功率偏置补偿单元，其使用从降混信息参数中提取出的功率偏置值来定级后降混信号；

降混信号调整单元，其使用降混信息参数，将定级的后降混信号转换为降混信号。

14.如权利要求13所述的多对象音频解码设备，其中，所述比特流处理单元，提取表示降混信号和后降混信号之间的信号强度差异的降混信息参数。

15.如权利要求14所述的多对象音频解码设备，其中，所述降混信息参数包括后降混增益。