CN103258538A

CN103258538A - 支持后降混信号的多客体音频编解码设备

Info

Publication number: CN103258538A
Application number: CN201310141538XA
Authority: CN
Inventors: 徐廷一; 白承权; 姜京玉; 洪镇佑; 金镇雄; 安致得; 金光基; 汉民秀
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2008-07-16
Filing date: 2009-07-16
Publication date: 2013-08-21
Anticipated expiration: 2029-07-16
Also published as: CN102171751A; EP2696342B1; CN102171751B; US20200066289A1; KR20100008755A; KR20190050755A; US9685167B2; KR101734452B1; EP2320415A1; US20170337930A1; KR101614160B1; WO2010008229A1; EP2998958A3; KR101976757B1; US10410646B2; CN103258538B; EP2696342A2; US20110166867A1; EP2998958A2; KR20170054355A

Abstract

本发明提供了一种多客体音频编码和解码设备（100），其支持后降混信号（103）。所述多客体音频编码设备（100）可包括：客体信息提取及降混生成单元（101），其从输入客体信号生成客体信息和降混信号；参数决定单元（202），其使用提取出的降混信号和邮降混信号，来决定降混信息参数；和比特流生成单元（203），其结合客体信息和降混信息参数，来生成客体比特流。

Description

支持后降混信号的多客体音频编解码设备

本专利申请是下列专利申请的分案申请：

申请号：200980136257.7

申请日：2009年07月16日

发明名称：支持后降混信号的多客体音频编解码设备

技术领域

本发明涉及一种多客体音频编码和解码设备，更特别是，涉及一种可支持从外部输入的后降混信号(post downmix signal)的多客体音频编解码设备，并有效地显示与一般降混信号和后降混信号之间的关系相关的降混信息参数。

技术背景

目前，可以有效压缩音频客体信号的基于客体的音频编码技术是人们关注的焦点。用于支持现有运动图像专家组(MPEG)环绕技术的任意降混信号的参数的量化/反量化体系(scheme)，可提取任意降混信号和编码器的降混信号之间的频道水平差异CLD(Channel Level Difference)参数。此外，量化/反量化体系可使用以在MPEG环绕体系中的0dB为基准设计得心对称的CLD量化表，来执行量化/反量化步聚。

当多个乐器/曲目被混合为立体声信号时，可生成领头降混信号(mastering downmix signal)，其可被放大以具有光盘(CD)可显示的最大动态范围，并可被通过均衡器等转换。因此，领头降混信号可与立体声混音信号不同。

当MPEG环绕体系的任意降混处理技术被应用到多客体音频编码设备中来支持领头降混信号时，降混信号和领头降混信号之间的CLD可由于每个客体的降混增益被非对称地提取。在这里，CLD可通过将每个客体乘以降混增益而获得。因此，只可使用一个现有CLD量化表的一边，因此当进行CLD参数的量化/反量化时发生的量化误差可能是很重大的。

因此，需要一种方法来有效编码/解码音频客体。

发明内容

技术目的

本发明的一个方面，提供一种多客体音频编码和解码设备，其支持后降混信号。

本发明的一个方面，还提供一种多客体音频编码和解码设备，其可基于与每个客体相乘的降混增益使非对称地提取的降混信息参数针对0dB变得均匀对称分布，可执行量化和反量化，从而可减少量化误差。

本发明的一个方面，还提供一种多客体音频编码和解码设备，其可使用降混信息参数，将后降混信号调整为类似于编码操作中生成的降混信号，从而降低声音衰减。

技术方案

根据本发明的一个方面，提供一种多客体音频编码设备，其使用从外部输入的后降混信号来编码多客体音频。

所述多客体音频编码设备可包括：客体信息提取及降混生成单元，其从输入客体信号生成客体信息和降混信号；参数决定单元，其使用提取出的降混信号和后降混信号，来决定降混信息参数；和比特流生成单元，其结合客体信息和降混信息参数，来生成客体比特流。

所述参数决定单元可包括：功率偏置(power offset)计算单元，其将所述后降混信号定级(scale)为预设定的值，来使特定桢中的后降混信号的平均功率与降混信号的平均功率相同；和参数提取单元，其在预设定的桢中从被定级的后降混信号中提取降混信息参数。

所述参数决定单元，可决定作为补偿降混信号和后降混信号之间差异的降混参数信息的PDG，且所述比特流生成单元，可传输包含有PDG的客体比特流。

所述参数决定单元，可生成对应降混信号和后降混信号之间的差异的残差信号；且所述比特流生成单元，可传输含有残差信号的客体比特流。所述降混信号和后降混信号之间的差异，可通过应用后降混增益而被补偿。

根据本发明的一个方面，提供一种多客体音频解码设备，其使用从外部输入的后降混信号来解码多客体音频。

所述多客体音频解码设备包括：比特流处理单元，其从客体比特流中提取降混信息参数和客体信息；降混信号生成单元，其基于降混信息参数调整后降混信号，并生成降混信号；和解码单元，其使用客体信息解码降混信号并生成客体信号。

所述多客体音频解码设备可进一步包括：渲染单元，其使用用户控制信息对生成的客体信号执行渲染，并生成可重复输出信号。

所述降混信号生成单元可包括：功率偏置补偿单元，其使用从降混信息参数中提取出的功率偏置值，来定级后降混信号；降混信号调整单元，其使用降混信息参数来将定级的后降混信号转换为降混信号。

根据本发明的一个方面，提供一种多客体音频解码设备，包括：比特流处理单元，其从客体比特流中提取降混信息参数和客体信息；降混信号生成单元，其使用降混信息参数和后降混信号来生成降混信号；代码转换单元，其使用客体信息和用户控制信息对所述降混信号执行代码转换；降混信号预处理单元，其使用代码转换的结果来预处理所述降混信号；和运动图像专家组MPEG环绕解码单元，其使用代码转换的结果和处理的降混信号来执行MPEG环绕解码。

具体来讲，根据本发明一个方面，提供了一种多客体音频编码设备，其包括：客体信息提取及降混生成单元，其利用多个输入客体信号来提取显示出输入客体信号之间关系的客体信息，从而生成降混信号；参数决定单元，其利用所述生成的降混信号和从多客体音频编码设备的外部输入的post降混信号，来决定降混信息参数；和比特流生成单元，其生成包含有所述降混信息参数和所述客体信息的客体比特流。

根据本发明另一方面，提供了一种多客体音频解码设备，其包括：比特流处理单元，其从客体比特流中提取降混信息参数和客体信息；降混信号生成单元，其利用所述降混信息参数来控制从多客体音频编码设备被传达的post降混信号，从而生成降混信号；和解码单元，其利用所述生成的降混信号和客体信息来生成客体信号。

根据本发明另一方面，提供了一种多客体音频解码设备，包括：比特流处理单元，其从客体比特流中提取降混信息参数和客体信息；降混信号生成单元，其利用所述降混信息参数以及从多客体音频编码设备被传达的post降混信号，来生成降混信号；代码转换单元，其利用客体信息和用户控制信息，来执行代码转换；降混信号预处理单元，其利用所述生成的降混信号来进行预处理；和运动图像专家组MPEG环绕解码单元，其利用所述预处理的降混信号和通过所述代码转换所生成的MPEG比特流来执行MPEG环绕解码。

根据本发明另一方面，提供了一种多客体音频编码设备所执行的多客体音频编码方法，所述多客体音频编码方法包括以下步骤：利用多个输入客体信号来提取显示出输入客体信号之间关系的客体信息，从而生成降混信号；利用所述生成的降混信号和从多客体音频编码设备的外部输入的post降混信号，来决定降混信息参数；和生成包含有所述降混信息参数和所述客体信息的客体比特流。

根据本发明另一方面，提供了一种多客体音频解码设备所执行的多客体音频解码方法，所述多客体音频解码方法包括以下步骤：从客体比特流中提取降混信息参数和客体信息；利用所述降混信息参数来控制从多客体音频编码设备被传达的post降混信号，从而生成降混信号；和利用所述生成的降混信号和客体信息来生成客体信号。

根据本发明另一方面，提供了一种多客体音频解码设备所执行的多客体音频解码方法，所述多客体音频解码方法包括以下步骤：从客体比特流中提取降混信息参数和客体信息；利用所述降混信息参数以及从多客体音频编码设备被传达的post降混信号，来生成降混信号；利用客体信息和用户控制信息，来执行代码转换；利用所述生成的降混信号来进行预处理；和利用所述预处理的降混信号和通过所述代码转换所生成的MPEG比特流，来执行MPEG环绕解码。

技术效果

根据本发明的一个实施例，提供一种多客体音频编码和解码设备，其支持后降混信号。

根据本发明的一个实施例，还提供一种多客体音频编码和解码设备，其可基于与每个客体相乘的降混增益使非对称地提取的降混信息参数针对0dB变得均匀对称分布，可执行量化和反量化，从而可减少量化误差。

根据本发明的一个实施例，还提供一种多客体音频编码和解码设备，其可使用降混信息参数，将后降混信号调整为类似于编码操作中生成的降混信号，从而降低声音衰减。

附图说明

图1是示出根据本发明的一个实施例的支持后降混信号的多客体音频编码设备的框图；

图2是示出根据本发明的一个实施例的支持后降混信号的多客体音频编码设备的配置的框图；

图3是示出根据本发明的一个实施例的支持后降混信号的多客体音频解码设备的配置的框图；

图4是示出根据本发明的另一个实施例的支持后降混信号的多客体音频解码设备的配置的框图；

图5是示出在根据本发明的一个实施例的支持后降混信号的多客体音频编码设备中补偿频道水平差异CLD(Channel Level Difference)的操作的框图；

图6是示出根据本发明的一个实施例的通过相反地补偿CLD补偿值来进行后降混信号的补偿的的操作的框图；

图7是示出根据本发明的另一个实施例的支持后降混信号的多客体音频编码设备中的参数决定但单元的配置的框图；

图8是示出根据本发明的另一个实施例的支持后降混信号的多客体音频解码设备中的降混信号生成单元的配置的框图；和

图9是示出根据本发明的一个实施例的输出后降混信号空间音频客体编码SAOC(Spatial Audio Object Coding)比特流的操作的示图。

具体实施方式

现在将参照附图对本发明的实施例进行详细描述，所述实施例的示例在附图中被示出，其中相同的参考数字始终表示相同的元素。下面将参照数字描述实施例，以对本发明进行说明。

图1是示出根据本发明的一个实施例的支持后降混信号的多客体音频编码设备100的框图。

多客体音频编码设备100，可使用从外部输入的后降混信号(postdownmix signal)来编码多客体音频信号。多客体音频编码设备100可使用输入客体信号101来生成降混信号和客体信息。在这种情况下，客体信息可表示从输入客体信号101预测的空间线索参数(spatial cue parameter)。

此外，多客体音频编码设备100可分析降混信号和额外输入的后降混信号102，从而可生成降混信息参数，来将后降混信号102调整为类似于降混信号。降混信号可在执行编码时生成。多客体音频编码设备100可使用降混信息参数和客体信息来生成客体比特流104。此外，输入的后降混信号102可被直接作为后降混信号103输出而无需经过特定的重放(replay)进程。

在这种情况下，可通过提取降混信号和后降混信号102之间的CLD参数、使用频道水平差异(CLD)量化表来量化/反量化降混信息参数。所述CLD量化表可针对预定的中心被设计得对称。例如，多客体音频编码设备可基于应用到每个客体信号的降混增益，使不对称地提取的CLD参数针对某一预定中心变得对称。根据本发明，客体信号可能被称为客体。

图2是示出根据本发明的一个实施例的支持后降混信号的多客体音频编码设备100的配置的框图。

参考图2，多客体音频编码设备100可包括：客体信息提取及降混生成单元201，参数决定单元202，比特流生成单元203。多客体音频编码设备100可支持从外部输入的后降混信号(post downmix signal)102。根据本发明，后降混信号(post downmix signal)可表示领头降混信号(masteringdownmix signal)。

客体信息提取及降混生成单元201可从输入客体信号101生成客体信息和降混信号。

参数决定单元202，可分析提取出的降混信号和后降混信号102，来决定降混信息参数。参数决定单元202可计算降混信号和后降混信号102之间的信号强度差异来决定降混信息参数。此外，输入的后降混信号102可作为后降混信号103直接输出而无需特定的重放进程。

例如，参数决定单元202可将后降混增益PDG(Post Downmix Gain)决定为降混信息参数。可通过将后降混信号最大程度上调整为与降混信号类似而均匀对称地分布所述PDG。具体来说，参数决定单元202可基于降混增益将不对称提取的降混信息参数相对于0dB决定地均匀对称。在这里，降混信息参数可以是PDG，降混增益可以与每个客体相乘。随后，可以以等同于CLD的量化表来量化PDG。

当通过将后降混信号调整地类似于编码操作中生成的降混信号来解码后降混信号102时，声音质量有可能比使用降混信号。直接解码时严重衰减。因此，要有效地提取用来调整降混信号102的降混信息参数来减少声音的衰减。降混信息参数可以是如被用作运动图像专家组环绕MPEG Surround体系的任意降混增益ADG的CLD之类的参数。

CLD参数可以被量化以传输，并可针对0dB对称，从而可减少量化误差，并降低由后降混信号引起的声音衰减。

比特流生成单元203可结合客体信息和降混信息参数，来生成客体比特流。

图3是示出根据本发明的一个实施例的支持后降混信号的多客体音频解码设备300的配置的框图。

参考图3，多客体音频解码设备300可包括：降混信号生成单元301，比特流处理单元302，解码单元303和渲染单元304。多客体音频解码设备300可支持从外部输入的后降混信号305。

比特流处理单元302可从多客体音频编码设备传输来的客体比特流306中提取降混信息参数308和客体信息309。随后，降混信号生成单元301可基于降混信息参数308调整后降混信号305，并生成降混信号307。在这种情况下，降混信息参数308可补偿降混信号307和后降混信号305之间的信号强度差异。

解码单元303可使用客体信息309解码降混信号307并生成客体信号310。渲染单元304可使用用户控制信息311对生成的客体信号310执行渲染，并生成可重复输出信号312。在这种情况下，用户控制信息311可表示通过混合存储的客体信号来生成输出信号所需的渲染矩阵或信息。

图4是示出根据本发明的另一个实施例的支持后降混信号的多客体音频解码设备400的配置的框图。

参考图4，多客体音频解码设备400可包括：降混信号生成单元401，比特流处理单元402，降混信号预处理单元403，代码转换单元404，以及MPEG环绕解码单元405。

比特流处理单元402，可从客体比特流407中提取降混信息参数409和客体信息410。降混信号生成单元410，可使用降混信息参数409和后降混信号406来生成降混信号408。后降混信号406可被直接输出用于重放。

代码转换单元404，可使用客体信息410和用户控制信息412对所述降混信号408执行代码转换。随后，降混信号预处理单元403可使用代码转换的结果来预处理所述降混信号408。MPEG环绕解码单元405可使用MPEG环绕比特流413和预处理过的降混信号411来执行MPEG环绕解码。MPEG环绕比特流413可以是代码转换的结果。多客体音频解码设备400可通过MPEG环绕解码来输出输出信号414。

图5是示出在根据本发明的一个实施例的支持后降混信号的多客体音频编码设备中补偿频道水平差异CLD(Channel Level Difference)的操作的框图。

当通过将后降混信号调整为与降混信号类似而执行解码时，音质可能比直接使用编码时生成的降混信号进行解码更加严重地衰减。因此，后降混信号将被调整到最大限度类似于原始降混信号来减少声音的衰减。于此，用来调整后降混信号的降混信息参数可被有效地提取和显示。

跟据本发明的一个实施例，降混信号与后降混信号之间的信号强度差异可被用作降混信息参数。被用作MPEG环绕体系的ADG的CLD可以是降混信息参数。

所述降混信息参数可由表1所示的CLD量化表来进行量化。

[表1]CLD量化表(CLD quantization table)

因此，当降混信息参数针对0dB对称分布时，可降低降混信息参数的量化误差，并可以减少由后降混信号带来的声音衰减。

但是，在一般多客体音频编码设备中生成的与后降混信号和降混信号有关的降混信息参数，可能会由于用于生成降混信号的混合矩阵的每个客体的降混增益而不对称分布。例如，当每个客体的原始增益为1时，小于1的降混增益可被与每个客体相乘来防止削波造成降混信号失真。因此，与后降混信号相比，生成的降混信号可具有与降混增益相同的小功率。在这种情况下，在测量降混信号和后降混信号之间的信号强度差异时，分布中心可不位于0dB。

当降混信息参数如上所述被量化时，量化误差可能会增加，因为只有如上所述CLD量化表的一侧可被使用。根据本发明的一个实施例，多客体音频编码设备可使补偿降混信息参数提取的参数的分布中心位于毗邻0分贝处并进行量化，其内容将介绍如下。

CLD，即从外部输入的后降混信号与基于频道X的混合矩阵生成的降混信号之间的降混信息参数，在特定的桢/参数带中可通过下面的公式得出：

[公式1]

{CLD}_{X} (n, k) = 10 \log_{10} \frac{P_{X, m} (n, k)}{P_{X, d} (n, k)}

其中，n和k可分别表示桢和参数带。Pm和Pd可分别表示后降混信号的功率和降混信号的功率。当用于生成频道X的降混信号的混合矩阵的每个客体的降混增益是GX1，GX2，……，GXN时，用以将提取的CLD的分布中心补偿为0的CLD补偿值可通过下面的公式得出：

[公式2]

{CLD}_{X, c} = 10 \log_{10} \frac{N^{2}}{{(G_{X, 1} + G_{X, 2} + G_{X, 3} + \cdot \cdot \cdot + G_{X, N})}^{2}}

其中N可表示输入客体的总数。

用于混合矩阵的每个客体的降混增益可与所有帧/参数带相同，公式2的CLD的补偿值可以是常数。因此，补偿的CLD可通过从公式1的降混信息参数中减去公式2的CLD补偿值获得，其可通过下面的公式3得出。

[公式3]

CLD_X,m(n,k)=CLD_X(n,k)-CLD_X,c

补偿的CLD可根据表1被量化，并被传输到多客体音频解码设备。此外，补偿的CLD的统计分布可位于比一般CLD靠近0dB处，也就是说，与高斯分布(Gaussian distribution)相对的普拉斯分布的特征(Laplaciandistribution)已被显示出。因此，与表1的量化表相对的、从-10dB至+10dB的范围被更加紧密划分的量化表可被应用于减少量化误差。

多客体音频编码设备可根据下列公式4、5、6来计算降混增益DMG和降混频道水平差异DCLD，并可将DMG和DCLD传输到多客体音频解码设备。所述DMG可表示每个客体的混合量。具体来说，单声道降混信号和立体声降混信号两者均可被使用。

[公式4]

DMG_i＝20log₁₀G_i

其中i=1，2，3，……N(单声道降混)。

[公式5]

DMG_i＝10log₁₀(G_1i ²+G_2i ²)

其中，i=1，2，3，……N(立体声降混)。

[公式6]

{DCLD}_{i} = 20 \log_{10} \frac{G_{1 i}}{G_{2 i}}

其中，i=1，2，3，……N

当降混信号是单声道降混信号时公式4可用于计算降混增益，当降混信号是立体声降混信号时公式5可用来计算降混增益。公式6可用于计算贡献给降混信号的左、右声道的每个客体的等级。在这里，G_1i和G_2i可分别表示左声道和右声道。

当根据本发明的实施例支持后降混信号时，无法使用单声道降混信号，因此可应用公式5和公式6。公式2之类的补偿值可使用公式5和公式6来计算，来使用传输的补偿的CLD和使用公式5和公式6获得的降混增益还原降混信息参数。用于针对左声道和右声道的每个客体的降混增益可使用公式5和公式6计算，可通过下面的公式得出：

[公式7]

{\hat{G}}_{1 i} = \sqrt{\frac{10^{{DCLD}_{i} / 10}}{1 + 10^{{DCLD}_{i} / 10}}} \cdot 10^{{DMG}_{i} / 20}

{\hat{G}}_{2 i} = \sqrt{\frac{1}{1 + 10^{{DCLD}_{i} / 10}}} \cdot 10^{{DMG}_{i} / 20}

其中，i=1，2，3……，N

CLD补偿值可以与公式2同样的方式使用计算的每个客体降混增益计算，

其可通过下面的公式得出：

[公式8]

C \hat{L} D_{X, c} = 10 \log_{10} \frac{N^{2}}{{({\hat{G}}_{X, 1} + {\hat{G}}_{X, 2} + {\hat{G}}_{X, 3} + \cdot \cdot \cdot + {\hat{G}}_{X, N})}^{2}}

多客体音频解码设备可使用计算的CLD补偿值和补偿的CLD的反量化值还原降混信息参数，其可通过下面的公式得出：

[公式9]

C \hat{L} D_{X, m} (n, k) = C \hat{L} D_{X} (n, k) + C \hat{L} D_{X, c}

其与通过一般量化处理还原的参数相比，可减少还原的降混信息参数的量化误差。因此，可减少声音衰减。

当使用均衡器进行每个波带的水平控制处理时，原始的降混信号可被最明显地传输。当MPEG环绕的ADG使用CLD作为参数时，CLD值可被作为20波带或28波带处理，且所述均衡器可使用多种组合如24波带、36波带等。提取降混信息参数的参数带可被作为均衡器带设置和处理，而不是CLD参数带，由此可减少两带之间的差异和解决方案差异的误差。

降混信息参数分析带可如下所示。

[表2]降混信息参数分析波带(Downmix information parameter analysis band)

当“bsMDProcessingBand”的值大于1时，降混信息参数可被抽取出来作为由一般均衡器使用的单独定义的带。

对图5的CLD补偿操作做出描述。

为处理后降混信号，多客体音频编码设备可使用混合矩阵509根据公式2执行DMG/CLD计算步骤501。此外，多客体音频编码设备可通过DMG/CLD量化步骤502来量化DMG/CLD，并通过DMG/CLD反量化步骤503来反量化DMG/CLD，并执行混合矩阵计算步骤504。多客体音频编码设备可使用混合矩阵505来执行CLD补偿值计算，由此可减少CLD错误。

此外，多客体音频编码设备可使用后降混信号511执行CLD计算步骤506。多客体音频编码设备可使用CLD补偿值计算步骤505计算的CLD补偿值507来执行CLD量化步骤508。由此，可生成量化的补偿的CLD512。

图6是示出根据本发明的一个实施例的通过相反地补偿CLD补偿值来进行后降混信号的补偿的的操作的框图。图6的操作可以是图5的操作的逆向操作。

多客体音频解码设备可使用量化的DMG/CLD607执行DMG/CLD反量化步聚601。多客体音频解码设备可使用反量化的DMG/CLD执行混合矩阵计算步骤602，并执行CLD补偿值计算步骤603。多客体音频解码设备可使用量化的补偿的CLD608执行补偿的CLD的反量化步聚604。此外，多客体音频解码设备可使用反量化的补偿的CLD和通过CLD补偿值计算步骤603计算的CLD补偿值605来执行后降混补偿606。后降混信号可被应用于后降混补偿步骤606。由此，可生成混合降混609。

图7是示出根据本发明的另一个实施例的支持后降混信号的多客体音频编码设备中的参数决定但单元的配置的框图。

参考图7，参数决定单元700可包括：功率偏置计算单元701和参数提取单元702。参数决定700单元可对应图2的参数决定单元202。

功率偏置计算单元701，可将所述后降混信号定级(scale)为预设定的值，来使特定桢中的后降混信号703的平均功率与降混信号704的平均功率相同。在一般情况下，由于后降混信号703具有比编码操作期间生成的降混信号更大的功率，所以功率偏置计算单元701可以通过定级(scaling)来调整后降混信号703和降混信号704的功率。

参数提取单元702可在预设定的桢中从被定级的后降混信号705中提取降混信息参数706。降混信号703可用于决定降混信息参数706，或者后降混信号707可被直接输出而不经过特别的处理。

也就是说，参数决定单元700可计算降混信号704和后降混信号705之间的信号强度差异来决定降混信息参数706。具体来说，参数决定单元700可将PDG决定为降混信息参数706。所述PDG，通过将后降混信号705最大程度上调整为与降混信号704类似而被均匀对称地分布。

图8是示出根据本发明的另一个实施例的支持后降混信号的多客体音频解码设备中的降混信号生成单元800的配置的框图。

参考图8，降混信号生成单元800可包括功率偏置补偿单元801和降混信号调整单元802。

功率偏置补偿单元801可使用从降混信息参数804中提取出的功率偏置值，来定级后降混信号803。所述功率偏置可被包含在降混信息参数804中，按需要可被发送或不发送。

降混信号调整单元802可将定级的后降混信号805转换为降混信号806。

如表3至表7所示的语法，可被添加到应用降混信息参数中，以支持后降混信号。

[表3]SAOCSpecificConfig()的语法

[表4]SAOCExtensionConfigData(1)的语法

[表5]SAOCFrame()的语法

[表6]SpatialExtensionFrameData(1)的语法

[表7]MasteringDownmixResidualData()的语法

后领头信号(post Mastering signal)可表示由音乐领域中的领头工程师(Mastering engineer)创建的音频信号，并被应用至各领域的与MPEG-DSAOC相关的一般降混频信号中，如视频会议系统、游戏等。此外，扩展的降混信号、增强的降混信号、专业的降混等，可针对后领头信号被用作领头降混信号。表3至表7中用以支持MPEG-D SAOC的领头降混信号的的语法，可为每个降混信号的名称如下所示重新定义。

[表8]SAOCSpecificConfig()的语法

[表9]SAOCExtensionConfigData(1)的语法

[表10]SAOCFrame()的语法

[表11]SpatialExtensionFrameData(1)的语法

[表12]ExtendedDownmixResidualData()的语法

[表13]SAOCSpecificConfig()的语法

[表14]SAOCExtensionConfigData(1)的语法

[表15]SAOCFrame()的语法

[表16]SpatialExtensionFrameData(1)的语法

[表17]EnhancedDownmixResidualData()的语法

[表18]SAOCSpecificConfig()的语法

[表19]SAOCExtensionConfigData(1)的语法

[表20]SAOCFrame()的语法

[表21]SpatialExtensionFrameData(1)的语法

[表22]ProfessionalDownmixResidualData()的语法

[表23]SAOCSpecificConfig()的语法

[表24]SAOCExtensionConfigData(1)的语法

[表25]SAOCFrame()的语法

[表26]SpatialExtensionFrameData(1)的语法

[表27]PostDownmixResidualData()的语法

用以支持扩展的降混的MPEG-D SAOC语法已在表8至表12中示出，用以支持增强的降混的MPEG-D SAOC语法已在表13至表17中示出。另外，用以支持专业的降混的MPEG-D SAOC语法已在表18至表22中示出，且用以支持后降混的MPEG-D SAOC语法已在表23至表27中示出。

参考图9，正交镜像滤波器QMF(Quadrature Mirror Filter)分析步骤901、902和903可被针对音频客体(1)907、音频客体(2)908和音频客体(3)909执行，由此可执行空间分析904。QMF分析步骤905和906可被针对输入的后降混信号(1)910和输入的后降混信号（2）911执行，从而可以执行空间分析步骤904。输入的后降混信号(1)910和输入的后降混信号(2)911可作为后降混信号（1）915和后降混信号（2）916直接输出而无需特殊处理。

当针对音频客体（1）907、音频客体（2）908、音频客体（3）909执行空间分析步骤904时，可生成标准空间参数912和后降混增益PDG(PostDownmix Gain)913。可使用生成的标准空间参数912和PDG913来生成SAOC比特流914。

根据本发明的一个实施例的多客体音频编码设备可生成PDG来处理降混信号和后降混信号910和911，如领头降混信号。所述PDG可以是用以补偿降混信号和后降混信号之间的差异的降混信息参数，并可被包含在SAOC比特流914中。在这种情况下，PDG的结构可基本与MPEG环绕体系的ADG相同。

因此，根据本发明的一个实施例的多客体解码设备可使用PDG和后降混信号补偿降混信号。在这种情况下，可使用与MPEG环绕体系的CLD相同的量化表来量化PDG。

将PDG与其他空间参数如OLD、NRG、IOC、DMG和DCLD比较的结果，如下表28所示。所述PDG可使用MPEG环绕体系的CLD量化表来反量化。

[表28]PDG和其他空间参数的尺寸和值范围比较

后降混信号可使用反量化的PDG来补偿，将在下面详细描述。

在后降混信号补偿中，可通过将混合矩阵乘以输入的降混信号来生成补偿的降混信号。在这种情况下，当SAOCSpecificConfig()的语法中bsPostDownmix值是0时，可能无法执行后降混信号补偿。当值是1时，可执行后降混信号补偿。也就是说，当值是0时，输入的降混信号可直接随特定的处理输出。当混合矩阵是单声道降混时，混合矩阵可由以下公式10表示。当混合矩阵是立体声降混时，混合矩阵可由以下公式11表示。

[公式10]

W_{PDG}^{l, m} = [1]

[公式11]

W_{PDG}^{l, m} = [\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix}]

当bsPostDownmix值是1时，输入的降混信号可通过反量化的PDG进行补偿。当混合矩阵是单声道降混时，混合矩阵可以被定义为：

[公式12]

W_{PDG}^{l, m} = [w_{1}^{l, m}]

其中，

可使用反量化的PDG来计算，并可表示为：

[公式13]

w_{1}^{l, m} = D_{PDG} (0, l, m), 0 \leq m < M_{proc}, 0 \leq l < L

当混合矩阵是立体声降混时，混合矩阵可被定义为：

[公式14]

W_{PDG}^{l, m} = [\begin{matrix} w_{1}^{l, m} & 0 \\ 0 & w_{2}^{l, m} \end{matrix}]

其中，

可使用反量化的PDG来计算，并可表示为：

[公式15]

w_{X}^{l, m} = D_{PDG} (X, l, m), 0 \leq X < 2,0 \leq m < M_{proc}, 0 \leq l < L

此外，用于传输比特流中的PDG的语法如表29和表30所示。表29和表30显示当残余解码没有被应用到完全还原后降混信号时的PDG，用于和表23至表27所显示的PDG做比较。

[表29]SAOCSpecificConfig()的语法

[表30]SAOCFrame()的语法

表29中的bsPostDownmix值可以是表示PDG是否存在的标旗(flag)，并可表示如下。

[表31]bsPostDownmix

使用PDG支持后降混信号的执行，可通过残余编码进行提高。也就是说，当后降混信号被补偿以使用PDG解码时，音质可能会与直接使用降混信号时相比由于原始降混信号和补偿的后降混信号之间的差异而降低。

为了克服上述缺点，可从多客体音频编码设备中提取、编码并传输残差信号。残差信号可表示降混信号和补偿的后降混信号之间的差异。多客体音频解码设备可解码所述残差信号并将残差信号添加入补偿的后降混信号来将残差信号调整为与原始降混信号相似。由此，可减少音质的下降。

此外，残差信号可是从整个频段提取。但是，由于比特率可能会明显增加，残差信号可以只在实际上影响音质的一个频段中传输。也就是说，当由于客体只具有低频成分如低音而发生声音衰减时，多客体音频编码设备可在低频段信号中提取残差信号并补偿声音衰减。

一般来说，由于在低频段的声音衰减可基于人类的认知自然进行补偿，所以，可从低频段提取并传输残差信号。当使用残差信号时，多客体音频编码设备可向根据公式9至公式14补偿的后降混信号添加相同量的由如下所示语法决定的残差信号来作为频带。

[表32]bsSAOCExtType

[表33]SAOCExtensionConfigData(1)的语法

[表34]PostDownmixResidualConfig()的语法

[表35]SpatialExtensionFrameData(1)的语法

[表36]PostDownmixResidualData()的语法

虽然本发明一些实施例已被展示和描述，但是本发明不仅限于所描述的实施例。相反，本技术领域的技术人员应当明白，在不脱离本发明的原则和精神范围内，可对实施例进行改变，其范围由权利要求书及其等同物定义。

Claims

1.一种多客体音频编码设备，其包括：

客体信息提取及降混生成单元，其利用多个输入客体信号来提取显示出输入客体信号之间关系的客体信息，从而生成降混信号；

参数决定单元，其利用所述生成的降混信号和从多客体音频编码设备的外部输入的post降混信号，来决定降混信息参数；和

比特流生成单元，其生成包含有所述降混信息参数和所述客体信息的客体比特流。

2.如权利要求1所述的多客体音频编码设备，其中，所述多客体音频编码设备，将所述客体比特流及post降混信号传达给多客体音频解码设备。

3.如权利要1所述的多客体音频编码设备，其中，所述参数决定单元，其决定post降混增益，作为用于补偿所述降混信号与所述post降混信号之间差异的降混参数信息。

4.如权利要求1所述的多客体音频编码设备，其中，所述参数决定单元，其决定降混信息参数，用于控制post降混增益使其与降混信号相似，且

所述降混信息参数，其以0dB为基准相一致地被左右对称分布。

5.如权利要求1所述的多客体音频编码设备，其中，所述参数决定单元，计算表示所述输入客体信号各自的混合量的降混增益DMG和降混频道水平差异DCLD，来用于修正所述降混信息参数。

6.如权利要求1所述的多客体音频编码设备，其中，所述参数决定单元，生成残差信号，其表示通过所述降混信息参数被补偿的post降混信号和所述降混信号之间的差异；且

所述比特流生成单元，传输含有所述残差信号的客体比特流，

7.一种多客体音频解码设备，其包括：

比特流处理单元，其从客体比特流中提取降混信息参数和客体信息；

降混信号生成单元，其利用所述降混信息参数来控制从多客体音频编码设备被传达的post降混信号，从而生成降混信号；和

解码单元，其利用所述生成的降混信号和客体信息来生成客体信号。

8.如权利要求7所述的多客体音频解码设备，其进一步包括：

渲染单元，其通过用户控制信息对所述生成的客体信号执行渲染，从而生成可重复输出信号。

9.如权利要求7所述的多客体音频解码设备，其中，所述降混信息参数，利用降混信息参数来调节post降混信号使其与降混信号相似。

10.如权利要求7所述的多客体音频解码设备，其中，所述降混信息参数，其以0dB为基准相一致地被左右对称分布。

11.如权利要求7所述的多客体音频解码设备，其中，所述降混信号调整单元，将残余信号应用至通过post降混增益被补偿的post降混信号，从而调节所述post降混信号使其与所述降混信号相似，且

所述残余信号，是指通过应用所述post降混增益所补偿的post降混信号与降混信号之间的差异。

12.一种多客体音频解码设备，包括：

降混信号生成单元，其利用所述降混信息参数以及从多客体音频编码设备被传达的post降混信号，来生成降混信号；

代码转换单元，其利用客体信息和用户控制信息，来执行代码转换；

降混信号预处理单元，其利用所述生成的降混信号来进行预处理；和

运动图像专家组MPEG环绕解码单元，其利用所述预处理的降混信号和通过所述代码转换所生成的MPEG比特流来执行MPEG环绕解码。

13.如权利要求11所述的多客体音频解码设备，其中，所述降混信号生成单元，其利用降混信息参数来调节post降混信号使其与降混信号相似。

14.一种多客体音频编码设备所执行的多客体音频编码方法，所述多客体音频编码方法包括以下步骤：

利用多个输入客体信号来提取显示出输入客体信号之间关系的客体信息，从而生成降混信号；

利用所述生成的降混信号和从多客体音频编码设备的外部输入的post降混信号，来决定降混信息参数；和

生成包含有所述降混信息参数和所述客体信息的客体比特流。

15.一种多客体音频解码设备所执行的多客体音频解码方法，所述多客体音频解码方法包括以下步骤：

从客体比特流中提取降混信息参数和客体信息；

利用所述降混信息参数来控制从多客体音频编码设备被传达的post降混信号，从而生成降混信号；和

利用所述生成的降混信号和客体信息来生成客体信号。

16.一种多客体音频解码设备所执行的多客体音频解码方法，所述多客体音频解码方法包括以下步骤：

从客体比特流中提取降混信息参数和客体信息；

利用所述降混信息参数以及从多客体音频编码设备被传达的post降混信号，来生成降混信号；

利用客体信息和用户控制信息，来执行代码转换；

利用所述生成的降混信号来进行预处理；和

利用所述预处理的降混信号和通过所述代码转换所生成的MPEG比特流，来执行MPEG环绕解码。