CN101926181B

CN101926181B - 用于处理音频信号的方法和装置

Info

Publication number: CN101926181B
Application number: CN200980102980.3A
Authority: CN
Inventors: 吴贤午; 郑亮源
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2008-01-23
Filing date: 2009-01-23
Publication date: 2014-05-21
Anticipated expiration: 2029-01-23
Also published as: KR101024924B1; DE602009000166D1; JP5319704B2; JP2011511307A; RU2450440C1; KR20090081342A; CN101926094B; ATE481830T1; MX2010007997A; JP2011510589A; JP5249354B2; AU2009206856A1; CN101926094A; CA2712941C; CN101926181A; ATE481829T1; KR20090081341A; KR100998913B1; CA2712941A1; RU2010134915A

Abstract

本发明公开了一种用于处理音频信号的装置及其方法。本发明包括：音频信号接收单元，其接收包括至少一个对象的音频信号；预置元数据接收单元，其从预置信息接收预置元数据；预置渲染数据接收单元，其从所述预置信息中获得预置矩阵；显示单元，其显示所述预置元数据；输入单元，其接收用于选择一个所述预置元数据的命令；和对象调整单元，其通过使用对应于所选择的预置元数据的所述预置矩阵来根据所述输出信道调整所述对象的输出电平。因此，不需要用户用于每个对象的设置，如果相对于预置元数据和预置矩阵选择要应用到音频信号的预置元数据，可以使用对应于所选择的预置元数据的预置渲染数据来容易地调整音频信号中包括的对象的电平。

Description

用于处理音频信号的方法和装置

技术领域

本发明涉及一种用于处理音频信号的方法和装置，并且更具体地，涉及一种用于处理音频信号的装置及其方法。尽管本发明适合于广泛范围的应用，但是其尤其适合于处理作为数字媒体、广播信号等而被接收的音频信号。

背景技术

通常地，在通过将包括多个对象的音频信号下混为单声道或立体声信号来生成下混信号的过程中，从对象中提取参数(信息)。这些参数(信息)用于解码下混的信号的处理。并且，可以通过用户的选择来对对象的摇摆(panning)和增益进行控制。

发明内容

技术问题

然而，下混符号中包括的对象应当通过用户的选择来适当地控制。当用户控制对象时，对于用户来说直接控制对象是不方便的。并且，相比于由专家控制而言，根据环境来恢复包括多个对象的音频信号的最优状态可能是更加困难的。

技术方案

因此，本发明针对一种基本上避免了由于相关技术的限制和缺点造成的一个或多个问题的用于处理音频信号的装置及其方法。

本发明的目的是提供一种用于处理音频信号的装置及其方法，通过所述装置及其方法，可以使用包括预置元数据和预置渲染(rendering)数据的预置信息来控制音频信号中包括的对象。

本发明的另一个目的是提供一种用于处理音频信号的装置及其方法，通过所述装置及其方法，可以以基于音频信号的输出信道信息来确定预置渲染数据，并且然后在预置渲染数据类型为矩阵的情况下将预置渲染数据应用于音频信号的方式，调整输出信道中的对象的电平。

本发明的另一个目的是提供一种用于处理音频信号的装置及其方法，通过所述装置及其方法，根据从编码器传送的单声道类型预置渲染矩阵或增益信息中逐步地生成用于调整对象的预置渲染矩阵。

有利效果

因此，本发明提供了以下效果或优点。

首先，本发明选择了先前设置的预置信息中的一个，而不需要对于对象的用户设置，由此使得易于调整输出信道的电平(level)。

第二，本发明基于表示元数据长度的预置长度信息将用于表示预置信息的预置元数据表示为文本，由此减少了不必要的编码。

第三，在预置渲染数据的类型为矩阵的情况下，本发明基于音频信号的输出信道信息确定了表示预置渲染数据的预置矩阵，由此更加精确和有效地调整了对象的输出信道的电平。

第四，本发明逐步地生成预置矩阵，由此减少了来自编码器的比特率。

第五，本发明使用预置矩阵，用于仅仅部分地调整对象，由此减少了不必要的编码。

附图说明

被包括以便提供对本发明的进一步理解，并且合并到本说明书以及构成其一部分的附图示出了本发明的实施例，并且连同说明一起用于说明本发明的原理。

在附图中：

图1是根据本发明实施例的应用于音频信号中包括的对象的预置信息的概念图；

图2是根据本发明实施例的音频信号处理装置的框图；

图3是根据本发明实施例的音频信号处理装置中的预置接收单元的框图；

图4是根据本发明实施例的处理音频信号的方法的流程图；

图5是根据本发明实施例的语法的图；

图6是根据本发明另一个实施例的语法的图；

图7是根据本发明另一个实施例的语法的图；

图8是根据本发明另一个实施例的预置渲染数据接收单元的框图；

图9是根据本发明又一个实施例的语法的图；

图10是根据本发明另一个实施例的音频信号处理装置的框图；

图11是根据本发明实施例的实现预置接收单元的产品的示意性框图；

图12是对应于图11中示出的产品的终端和服务器之间的关系的图；

图13是根据本发明实施例的实现预置接收单元的数字TV的示意性框图；

图14是根据本发明一个实施例的包括预置接收单元的产品的显示单元的图。

具体实施方式

最佳模式

本发明的另外特征和优点将在随后的描述中阐述，并且部分特征和优点将根据描述而变得明显，或者可以通过实践本发明而学习到。本发明的目的和其它优点将通过所写的描述和其权利要求以及附图中特别指出的结构来实现和获得。

为了实现这些和其它优点，并且根据本发明的目的，如所具体表达和宽泛描述的，一种根据本发明的处理音频信号的方法包括：接收音频信号和预置信息，其中，所述音频信号包括至少一个对象；从预置信息获得预置矩阵，其中，预置矩阵表示对象对输出信道的贡献程度；通过使用预置矩阵，根据输出信道来调整对象的输出电平；以及用所调整的输出电平输出包括对象的音频信号，其中，基于表示预置信息存在的预置存在信息和表示预置信息数量的预置数量信息来获得预置信息，其中基于表示预置信息以矩阵表示的预置类型信息来获得预置矩阵。

优选地，基于表示输出信道是单声道、立体声和多信道中的一个的输出信道信息来获得预置矩阵。

优选地，以1个比特来表示预置类型信息。

更优选地，基于对象的数量和输出信道的数量来确定预置矩阵的维数(dimension)。

为了进一步实现这些和其它优点，并且根据本发明的目的，一种根据本发明的用于处理音频信号的装置包括：音频信号接收单元，其接收包括至少一个对象的音频信号；预置元数据接收单元，其从预置信息中接收预置元数据，其中预置元数据接收单元从至少一个预置信息中获得至少一个预置元数据；预置渲染数据接收单元，其从预置信息中获得预置矩阵，其中预置矩阵表示对象对于输出信道的贡献程度并且其中预置矩阵对应于预置元数据；显示单元，其显示预置元数据；输入单元，其接收用于选择一个预置元数据的命令；对象调整单元，其通过使用对应于所选择的预置元数据的预置矩阵，根据输出信道来调整对象的输出电平；以及输出单元，其用所调整的输出电平输出包括对象的音频信号。优选地，当输出单元输出音频信号时，显示单元显示所选择的预置元数据。

优选地，显示单元还显示对象的输出电平。

优选地，基于表示预置信息的数量的预置数量信息而获得预置信息，并且其中基于表示预置信息以矩阵表示的预置类型信息来获得预置矩阵。

优选地，预置信息还包括表示要应用到对象的预置矩阵是否存在的预置对象应用信息。

优选地，显示单元还基于预置对象应用信息来显示要应用到对象的预置矩阵是否存在。

更优选地，显示单元以文本显示预置元数据。

应当理解，前述一般描述和以下详细描述都是示例性和说明性的，并且旨在提供对如所声明的本发明的进一步说明。

用于发明的模式

现在将详细参考本发明的优选实施例，其示例在附图中示出。

首先，本公开中的”信息’被一般地解释为包括值、参数、系数、元素等的术语，”对象’可以被解释为构成吉他、人声、钢琴等的音频信号的源信号。它们的含意将根据场合而可以进行不同地解释，并且本发明不限于此。

在对包括多个对象的音频信号进行解码时，本发明提供了一种使用用于调整对象的先前设置的信息之一来有效地解码音频信号的方法。

图1是根据本发明实施例的应用到音频信号中包括的对象的预置信息的概念图。在本公开中，用于调整对象的先前设置的信息被称为预置信息。预置信息可以表示根据音频信号或收听环境的特征而可选的各种模式之一。并且，可以存在多项预置信息。而且，预置信息包括用于表示预置信息的属性等的元数据和应用于调整对象的渲染数据。元数据可以以文本类型来表示。元数据不仅表示预置信息的属性(例如音乐厅模式、卡拉OK模式、新闻模式等)，而且包括用于表示预置信息的有关信息，例如，预置信息的作者、成文日期、具有预置信息应用到其上的对象的名称等。同时，渲染数据是基本上应用于对象的数据。渲染数据可以具有各种形式中的一种。特定地，渲染数据可以以矩阵类型存在。

参考图1，预置信息1可以是音乐厅模式，用于提供使得音乐信号能够如在音乐厅中一样被收听的录音棚效果。预置信息2可以是卡拉OK模式，用于减少音频信号中的人声对象的电平。并且，预置信息n可以是新闻模式，用于增加语音对象电平。而且，预置信息2包括元数据2和渲染数据2。如果用户选择了预置信息2，元数据2的卡拉OK模式将在显示单元中实现，并且能够通过向对象应用与元数据2相关的渲染数据2来调整电平。

在该情况下，如果渲染数据是矩阵类型的，则可以包括单声道矩阵、立体声矩阵、或者多信道矩阵。单声道矩阵是在对象的输出信道是单声道时所应用的渲染数据。立体声矩阵是在对象的输出信道是立体声时所应用的渲染数据。并且，多信道矩阵是在对象的输出信道是多信道时所应用的渲染数据。一旦确定了对象的输出信道，则使用所确定的输出信道来确定矩阵。然后能够通过将矩阵应用到对象来调整电平。

因此，使用预置信息中包括的元数据和渲染数据，对对象进行调整，并且对所应用的预置信息的属性或特征进行表示。因此，能够有效地提供具有特定于用户的效果的音频信号。

图2是根据本发明实施例的音频信号处理装置200的框图。

参考图2，根据本发明实施例的音频信号处理装置200可以包括预置信息生成单元210、和预置信息接收单元2210、以及对象调整单元230。

预置信息生成单元210生成预置信息，用于调整音频信号中包括的对象。预置信息生成单元210可以包括元数据生成单元212和预置渲染数据生成单元214。元数据生成单元212接收用于表示预置信息的文本信息的输入，并且然后能够生成预置元数据。如前述描述中所提及，预置元数据可以是用于表示预置信息的特征或属性的信息。在该情况下，元数据生成单元212可以进一步生成表示预置元数据的特征长度数量的预置长度信息。在该情况下，预置长度信息可以以字节来表示，但是预置长度信息不限于该示例。

同时，如果关于用于调整对象电平的增益和对象的淘选的信息被输入到预置渲染数据生成单元214，则能够生成预置渲染数据以应用到对象。在该情况下，可以为每个对象生成预置渲染数据，并且可以以各种类型之一来将其实现。例如，预置渲染数据可以是以矩阵类型实现的预置矩阵。而且，预置渲染数据生成单元214可以进一步生成表示是否以矩阵表示预置渲染数据的预置类型信息(preset_type_flag)。而且，预置渲染数据生成单元214可以进一步生成表示对象可以具有多少输出信道的输出信道信息。

由元数据生成单元212生成的预置长度信息和预置元数据，以及由预置渲染数据生成单元214生成的预置类型信息、输出信道信息、和预置渲染数据可以通过包括在一个比特流中被传输，并且更具体地，通过包括在包括音频信号的比特流的辅助(ancillary)区域中被传输。

同时，预置信息生成单元210可以进一步生成表示预置长度信息、预置元数据、预置类型信息、输出信道信息、和预置渲染数据是否包括在比特流中的预置存在信息。预置存在信息可以具有表示与预置信息存在于哪个区域中有关的信息的容器类型，或者标志类型，但是预置存在信息的示例不限于此。

而且，预置信息生成单元210能够生成预置信息。每项预置信息包括预置长度信息、预置元数据、预置类型信息、输出信道信息、和预置渲染数据。在该情况下，预置生成单元210可以进一步生成表示预置信息数量的预置数量信息。

预置信息接收单元220接收预置信息生成单元210生成和发送的预置信息。并且，预置信息接收单元220可以包括元数据接收单元222和预置渲染数据接收单元224。

元数据接收单元222接收并且然后输出预置元数据，并且预置渲染数据接收单元224接收预置渲染数据(例如，预置矩阵)，其细节将参考图3和图4来说明。

而且，对象调整单元230接收包括多个对象的音频信号和由渲染数据接收单元224生成的预置渲染数据。在该情况下，将预置渲染数据应用于对象，由此可以调整对象的电平或位置。

图3是根据本发明实施例的音频信号处理装置200的预置接收单元200中包括的元数据接收单元310和预置渲染数据接收单元320的框图。

参考图3，元数据接收单元310包括预置长度信息接收单元312和预置元数据接收单元314。预置长度信息接收单元312接收表示用于表示预置信息的预置元数据的长度的预置长度信息，并且然后获得预置元数据的长度。随后，预置元数据接收单元314读取总计达到由预置长度信息所表示的长度的比特流，并且然后接收预置元数据。而且，预置元数据接收单元314将作为表示预置信息的类型或属性的元数据的预置元数据转换为文本类型，并且然后输出文本类型的所转换的预置元数据。

预置渲染数据接收单元320包括预置类型标志接收单元322、输出信道信息接收单元324、和预置矩阵接收单元326。预置数据类型标志接收单元322接收表示预置渲染数据是否具有矩阵类型的预置类型标志(present_type_flag)。在该情况下，预置类型标志的含意在表格1中示出。

[表1]

预置类型标志	含意
		0	预置渲染数据的类型不是矩阵
1	预置渲染数据的类型是矩阵

如果预置类型标志表示预置渲染数据的类型是矩阵的情况，输出信道信息接收单元324接收表示在其上音频信号中包括的对象将被重放的输出信道的数量的输出信道信息。输出信道信息可以包括单声道信道、立体声信道、或多信道(5.1信道)，但是输出信道信息的示例不限于此。

预置矩阵接收单元326基于输出信道信息接收并且输出表示对象对输出信道的贡献程度，并且对应于预置元数据的预置矩阵。在该情况下，预置矩阵可以包括单声道预置矩阵、立体声预置矩阵、和多信道预置矩阵中的一个。基于对象的数量和输出信道的数量来确定预置矩阵的维数。因此，预置矩阵可以具有(对象数量)*(输出信道数量)的形式。例如，如果存在音频信号中包括的n个对象，并且来自输出信道信息接收单元324的输出信道对应于5.1信道(即，六个信道)，则预置矩阵接收单元326能够以n*6的形式来实现公式1中示出的预置多信道矩阵。

[公式1]

M_{ren} = [\begin{matrix} m_{0, Lf} & m_{0, Rf} & m_{0, C} & m_{0, Lfe} & m_{0, Ls} & m_{0, Rs} \\ . . . & . . . & . . . & . . . & . . . & . . . \\ m_{N - 1, Lf} & m_{N - 1, Rf} & m_{N - 1, C} & m_{N - 1, Lfe} & m_{N - 1, Ls} & m_{N - 1, Rs} \end{matrix}]

在公式1中，矩阵分量m_a，b是表示第a个对象被包括在第b个信道中的程度的增益值。随后，预置多信道矩阵可以通过被应用到音频信道来调整对应对象的电平。

因此，本发明的预置信息接收单元220通过使用预置长度信息来读取必需数量的比特流，从而有效地表示预置元数据，并且能够通过基于输出信道信息而获得预置矩阵来有效地调整音频信号中包括的对象的增益等。

图4是根据本发明实施例的处理音频信号的方法的流程图。

参考图4，接收包括至少一个对象的音频信号[S410]。并且，接收表示是否存在对对象增益或淘选进行调整的预置信息的预置存在信息[S415]。如果预置信息存在，接收表示存在多少(n)预置信息的预置数量信息[S420]。预置数量信息假设预置信息存在，并且可以表示为“(实际存在的预置信息)-1”。随后，接收表示用于表示预置信息的元数据具有多少比特(或字节)的预置长度信息[S430]。基于预置长度信息，接收预置元数据[S435]。例如，输出卡拉OK模式、音乐厅模式、新闻模式等[S437]。在该情况下，预置元数据可以具有文本类型。如前述描述中所提及，预置元数据可以包括公开预置信息作者、成文日期、由预置信息调整的对象的名称等的元数据数据，以及表示预置信息的录音棚效果的元数据，但是预置元数据的示例不限于此。

随后，接收表示预置信息中包括的预置渲染数据的类型的预置类型信息[S440]。基于预置类型信息，确定预置数据的类型是矩阵类型[S445]。如果预置数据的类型是矩阵类型[步骤S445中为”是’]，接收表示存在多少对象的对象信道的输出信道信息[S450]。基于输出信道信息，接收所编码预置矩阵中的对应预置矩阵[S455]。基于对象数量和输出信道的数量来确定预置矩阵的维数。例如，如果对象的输出信道是立体声，所接收的预置矩阵将是“(对象数量)*2”类型的立体声预置矩阵。

确定包括上面接收的预置长度信息、预置元数据、预置类型信息、输出信道信息、和预置矩阵的(第i项)预置信息的i是否小于由预置数量信息表示的预置的数量(n)[S460]。如果i小于预置数量信息[步骤S460中为“是”]，则例程返回到步骤S430，并且然后重做接收下一个[第(i+1)]预置的预置长度信息的步骤。如果第i个预置等于预置数量信息[步骤S460中为“否”]，则通过将预置矩阵应用到音频信号来调整对象电平[S465]。同时，如果预置矩阵不存在于矩阵中[步骤S445中为“否”]，则接收除了由编码器建立的矩阵之外的类型中实现的预置数据[S457]。然后通过将所接收的预置数据应用到音频信号来调整对象的电平[S468]。随后，能够输出包括所调整对象的音频信号[S470]。

通过应用预置矩阵调整对象的步骤S465可以使用通过用户的选择而确定的预置矩阵[图中未示出]。用户能够选择对应于预置矩阵的预置元数据，所述预置元数据在输出元数据的步骤S437中输出。例如，如果用户从元数据中选择表示为卡拉OK模式的元数据，基于输出信道信息从所接收的预置矩阵中选择对应于卡拉OK模式的预置元数据的预置矩阵[S455]。随后，通过将对应于卡拉OK模式的所选择预置矩阵应用到音频信号来调整对象的电平。然后输出包括所调整对象的音频信号。

图5是根据本发明实施例的语法的图。

参考图5，有关于预置信息的信息可以存在于比特流的报头区域中。所以，能够从比特流的报头区域获得预置数量信息(bsNumPresets)。

如果预置数量信息存在[if(bsNumPresets)]，在获得预置数量信息表示的预置信息的数量[numPresets＝bsNumPresets+1]。例如，如果一项预置信息存在，预置数量信息可以将“bsNumPresets”设置为0。在该情况下，预置信息的实际数量被识别和用作为“(预置数量信息)+1”。可以首先从比特流接收预置数量信息。

基于预置数量信息，能够获得表示每个预置信息(第i个预置)的预置渲染数据的类型(bsPresetType[i])的信息。如果传送为矩阵类型的预置渲染数据的情况定义为特定预置类型(当为矩阵类型时传送bsPresetType[i]的情况)，表示预置渲染数据类型的信息可以是表示预置渲染数据是否以矩阵类型生成并且被传送的前述的预置类型信息(preset_type_flag)。在该情况下，预置类型信息可以表示为一个比特。

如果第i个预置信息中包括的预置渲染数据是矩阵类型(bsPresetType[i])，则获得表示输出信道具有多少信道的输出信道信息(bsPresetCh[i])。并且，基于输出信道信息获得用于调整音频信号中包括的对象电平的预置矩阵(getRenderingMatrix())。

图6是根据本发明另一个实施例的表示音频信号处理方法的语法的图。预置信息存在于报头区域中，并且然后可以相同地应用于所有的帧。可选地，预置信息可以根据时间而可变化地应用(以下称为“时间可变的”)，以便有效地调整对象的电平。如果预置信息是时间可变的，则与预置信息有关的信息应当被包括在每个帧中。因此，表示预置信息是否被每个帧包括的信息包括在报头中，由此可以有效地构造比特流。

参考图6，示出了表示预置信息是否被包括在每个帧中的语法。该语法类似于前面图5中示出的，表示图5中示出的音频信号处理方法的语法。然而，图6中示出的语法可以包括表示预置信息是否存在时间可变的预置时间变化标志信息(bsPresetTimeVarying[i])，即，已获得输出信道信息(bsPresetCh[i])之后的每个帧。如果预置时间变化标志信息包括在比特流的报头区域中，则使用比特流的帧区域中包括的预置矩阵和重置元数据来调整对象的电平。如果预置时间变化标志信息存在于报头中，确定是否存在每个帧的预置信息的更新。如果没有更新，分离标志被设置为“保持”。如果存在更新，分离标志被设置为“读取”。因此，能够通过建立分离标志来有效地建立比特流。

而且，预置存在信息(bsPresetExists)表示比特流中是否存在预置信息。如果预置存在信息表示比特流中不存在预置信息，则可以不执行用于获得预置数量信息(bsNumPresets)、预置类型信息(bsPresetType[i])、输出信道信息(bsPresetCh[i])、和预置时间变化标志信息(bsPresetTimeVarying[i])的循环。如果需要，可以从语法中省略预设存在信息。

图7是根据本发明又一个实施例的表示音频信号处理方法的语法的图。以上解释的预置矩阵是“(对象数量)*(输出信道数量)”类型的矩阵，并且表示对象对输出信道的贡献程度。在该情况下，通过接收以便仅仅使用与某些对象相关的信息，在效率方面可以减少所传送的例外(buts)的数量。因此，本发明的另一个实施例提出了一种用于仅使用预置信息调整特定对象的音频信号处理方法的语法。

参考图7，语法还可以包括表示是否将用于调整对象电平的预置信息应用于每个对象的预置对象应用信息(bsPresetObject[i][j])。使用预置对象应用信息，能够宣告预置信息是否包括与相应对象有关的信息。预置对象应用信息可以存在于比特流的报头区域中。如果预置信息是随时间变化的，如图6中所示，预置对象应用信息可以存在于帧中。其能够宣告用于每个对象的预置信息包括与相应对象有关的信息，如图7中所示。并且，表示包括存在或不存在的对象索引可以包括在比特流中。如果使用对象索引，则能够使用退出(exit)特征来更方便地构造比特流。

在使用哈夫曼表格等的无损编码中执行编码的情况下，退出特征设计了具有比实际参数数量多1的参数的表格。在该情况下，另外分配的参数可以定义为退出参数。特别是，如果退出参数从比特流获得，则通过将其定义为接收全部的相应信息来对其进行使用。例如，如果预置信息仅包括与总共十个对象中的两个有关的信息(与第3个对象有关的信息，和与第8个对象有关的信息)，能够以依次传送对应于第3个和第8个对象的哈夫曼索引和对应于退出参数的哈夫曼索引的方式来有效地构造比特流。

图8是根据本发明另一个实施例的用于逐步生成预置矩阵的预置渲染数据接收单元的框图。

参考图8，预置渲染数据接收单元320包括预置数据类型标志接收单元322、输出信道信息接收单元324、和预置矩阵确定单元326。剩下的元件具有与图2/3中示出的预置渲染数据接收单元224/320相同的结构和效果，并且它们的细节在下面的描述中将被省略。

同时，图8中示出的预置矩阵确定单元326包括单声道类型预置矩阵接收单元810、立体声类型预置矩阵生成单元820、和多信道类型预置矩阵生成单元830。

单声道类型预置矩阵接收单元810从预置生成单元(图中未示出)接收表示为“(对象数量)”类型的单声道预置矩阵。如果从输出信道信息接收单元324接收的输出信道信息是单声道的，则原样地输出单声道预置矩阵。所输出的单声道预置矩阵应用到音频信号，以调整对象的电平。

同时，如果输出信道信息是立体声的，单声道预置矩阵被输入到立体声类型预置矩阵生成单元820。信道扩展信息也被输入到“(对象数量)*2)”类型的立体声预置矩阵。如果输出信道信息表示多信道，则立体声预置矩阵和多信道扩展信息输入到多信道类型预置矩阵生成单元830，以便生成“(对象数量)*6”类型的多信道预置矩阵。

因此，编码器仅生成单声道预置矩阵，并且预置矩阵确定单元326通过使用信道扩展信息来逐步生成预置矩阵。因此，如果重放结构仅限于立体声，则能够节省所传输比特的数量。并且，可以不冗余地传送用于立体声或多信道的预置矩阵。

根据本发明另一个实施例的音频信号处理方法提出了一种根据需要来，对在发送预置信息或发送标准化预置矩阵中的增益值进行传送的方法。这可以扩展为，一种仅当需要增益来调整音频信号中包括的对象时发送增益值，或者简单地发送整个预置矩阵的方法。例如，为了传送公式1中示出的预置矩阵，应当首先发送n*6的增益信息。在该情况下，可以如公式2来计算增益信息。

[公式2]

G_{i} = {&Sum;}_{j = 0}^{nCH} m_{i, j}^{2}

在公式2中，“i”表示对象，“j”表示输出信道，并且“nCH”表示输出信道的数量。因为G_i与对象数量一样多地存在，所以对于预置信息而言需要n的数量。

如果淘选信息以及增益信息是必需的，则另外地使用标准化的预置矩阵。在该情况下，可以如公式3来定义标准化的预置矩阵。

[公式3]

M_{norm} = [\begin{matrix} {\hat{m}}_{0, Lf} & {\hat{m}}_{0, Rf} & . . . \\ . . . & . . . & . . . \\ {\hat{m}}_{N - 1, Lf} & . . . & . . . \end{matrix}]

{\hat{m}}_{i, j} = \frac{m_{i, j}}{G_{i}}

在以上述方式使用增益信息和标准化预置矩阵的情况下，应当传送n*6的增益信息。然而，由于标准化特征，存在这样的特征，并且

的log 10的值总是等于或小于0。因此，在使用信道电平差异信息的表格，以用于量化增益信息的情况下，仅仅使用与现有技术表格的一半。与接收以使用未标准化的预置矩阵，而不分离地传送增益信息相比，这可以节省必需数据的大小以及比特率。此外，因为增益信息可以仅包括在预置信息中，所以能够以可扩展的方式使用预置信息。

图9是根据本发明又另一个实施例的语法的图，其中，增益信息和淘选相关信息通过被分离地包括在预置信息中而被传送。增益信息和淘选信息可以包括在报头或帧区域中。

参考图9，斜体部分表示从比特流接收实际预置值。可以使用各种无噪声的编码方案，并且其被表示为在图9中的函数。例如，如果上面的信息存在于帧区域中，则检查预置信息是否存在。如果预置信息存在，则接收预置数量信息。随后，首先接收增益信息。增益信息是表示相应的对象将被再现为规定的增益值的信息。在该情况下，增益信息可以是前述的G_i，或者是当音频信号的电平由外部输入值来调整时生成的任意下混增益(以下缩写为ADG)。

另外获得的淘选信息可以具有各种类型之一。淘选信息可以包括前述的标准化预置矩阵。并且，淘选信息可以分为立体声淘选信息和多信道淘选信息。

图10是根据本发明另一个实施例的音频信号处理装置的框图。

参考图10，根据本发明另一个实施例的音频信号处理装置主要包括下混单元1010、对象信息生成单元1020、预置信息生成单元1030、下混信号处理单元1040、信息处理单元1050、和多信道解码单元1060。

首先，多个对象被输入到下混单元1010，并且然后生成为单声道或立体声下混信号。多个对象还被输入到对象信息生成单元1020，并且然后生成为表示对象电平的对象电平信息、在下混信号和/或立体声下混信号中包括对象的增益值的情况下表示包括在下混信道中的对象的程度(extent)的对象增益信息、和包括表示对象之间相关或不相关的对象相关信息的对象信息。

随后，下混信号和对象信息被输入到预置信息生成单元1030，以便被生成为包括用于调整对象电平的预置渲染数据和用于表示预置信息的预置元数据的预置信息。用于生成预置渲染数据和预置元数据的处理如同图1到9中示出的音频信号处理装置和方法的前述描述中所说明的一样，其细节将在下面的描述中被省略。同时，由对象信息生成单元1020生成的对象信息和由预置信息生成单元1030生成的预置信息可以通过被包括在SAOC比特流中来传送。

信息处理单元1050包括对象信息处理单元1051和预置信息接收单元1052。并且，信息处理单元1050接收SAOC比特流。

预置信息接收单元1052从SAOC比特流中接收上述的预置存在信息、预置数量信息、预置长度信息、预置元数据、预置类型信息、输出信道信息、和预置矩阵，并且使用根据图1到9中示出的为音频信号处理方法和装置所说明的各种实施例的方法。并且，预置信息接收单元1052输出预置元数据和预置矩阵。对象信息处理单元1051接收预置元数据和预置矩阵，并且然后生成用于预处理下混信号的下混处理信息，和用于使用SAOC比特流中包括的对象信息以及预置元数据和预置矩阵来向上混合下混信号的多信道信息。

随后，因为下混处理信息输入到下混信号处理单元1040，所以能够执行下混信号中包括的对象的淘选。连同从信息处理单元1050输出的多信道信息，上面预处理的下混信号被输入到多信道解码单元1060，并且然后被向上混合以生成多信道音频信号。

因此，在使用对象信息将包括多个对象的音频信号解码为多信道信号时，根据本发明的音频信号处理装置使得易于使用预置信息来调整对象电平。在如此行动时，根据本发明的音频信号处理装置使用基于作为应用到对象的预置矩阵的输出信道信息而接收的矩阵类型数据，有效地执行对象的电平调整。并且，根据本发明的音频信号处理装置能够通过基于从编码器端传送的预置长度信息而输出预置元数据，从而增强编码效率。

图11是根据本发明实施例，实现包括元数据接收单元和预置渲染数据接收单元的预置信息接收单元的产品的示意性框图，并且图12是对应于图11中示出的产品的终端和服务器之间的关系的图。

参考图11，有线/无线通信单元1110通过有线/无线通信系统接收比特流。特别地，有线/无线通信单元1110可以包括从由有线通信单元1111、红外通信单元1112、蓝牙单元1113、和无线局域网通信单元1114组成的组中选择的至少一个。

用户认证单元1120接收用户信息的输入，并且然后执行用户认证。用户认证单元1120可以包括从由指纹识别单元1121、虹膜识别单元1122、面部识别单元1123、和语音识别单元1124组成的组中选择的至少一个。在该情况下，用户认证可以以接收指纹信息、虹膜信息、面部轮廓信息、或语音信息的输入；将所输入的信息转换为用户信息；并且然后确定用户信息是否匹配所注册的用户数据的方式来执行。

输入单元1130是使得用户能够输入各种类型的命令的输入设备。并且，输入单元1130可以包括从由键区单元1131、触摸板单元1132、和遥控单元1133组成的组中选择的至少一个，但是输入单元1130的示例不限于此。同时，如果从将在随后说明的元数据接收单元1141输出的用于预置信息的预置元数据经由显示单元1162而在屏幕上显现，用户能够经由输入单元1130选择预置元数据，并且与所选择预置元数据有关的信息被输入到控制单元1150。

信号解码单元1140包括元数据接收单元1141和预置渲染数据接收单元1142。元数据接收单元1141接收预置长度信息，并且然后基于所接收的预置长度信息来接收预置元数据。如果通过预置类型信息将预设表示为矩阵，则预置渲染数据接收单元1142接收输出信道信息，并且然后基于所接收的输出信道信息来接收作为预置渲染数据的预置矩阵。信号解码单元1140通过使用所接收比特流、预置元数据和预置矩阵来解码音频信号，从而生成输出信号，并且输出文本类型的预置元数据。

控制单元1150从输入设备接收输入信号，并且控制信号解码单元1140和输出单元1160的所有处理。如前述描述中所提及，如果与所选择元数据有关的信息从输入单元1130输入到控制单元1150，预置渲染数据接收单元1142接收对应于所选择预置元数据的预置矩阵，并且然后使用所接收的预置矩阵来解码音频信号。

并且，输出单元1160是用于输出由信号解码单元1140生成的输出信号等的元件。输出单元1160可以包括扬声器单元1161和显示单元1162。如果输出信号是音频信号，则其经由扬声器单元1161进行输出。如果输出信号是视频信号，则其经由显示单元1162进行输出。此外，输出单元1160经由显示单元1162在屏幕上显现从控制单元1150输入的预置元数据。

图12示出终端之间或者终端和服务器之间的关系，其每一个均对应于图11中示出的产品。

参考图12的(A)，可以观察到，可以经由有线/无线通信单元在第一终端1210和第二终端1220之间执行数据或比特流的双向通信。

参考图12的(B)，可以观察到，可以在服务器1230和第一终端1240之间执行有线/无线通信。

图13是根据本发明一个实施例，实现包括元数据接收单元和预置渲染数据接收单元的预置信息接收单元的广播信号解码设备1300的示意性框图。

参考图13，信号分离器1320从调谐器1310接收与TV广播相关的多个数据。所接收的数据由信号分离器1320分离，并且然后由数据解码器1330解码。同时，多路分离器1320分离的数据可以存储在诸如HDD的存储介质1350中。信号分离器1320分离的数据被输入到包括音频解码器1341和视频解码器1342的解码器1340，以便将其解码为音频信号和视频信号。根据本发明的一个实施例，音频解码器1341包括元数据接收单元1341A和预置渲染数据接收单元1341B。元数据接收单元1341A接收预置长度信息，并且然后基于所接收的预置长度信息来接收预置元数据。如果预置信息以矩阵表示，预置渲染数据接收单元1341B接收输出信道信息，并且然后基于所接收的输出信道信息来接收作为预置渲染数据的预置矩阵。音频解码器1341通过使用所接收的比特流、预置元数据、和预置矩阵来解码音频信号，从而生成输出信号，并且输出文本类型的预置元数据。

显示单元1370显现从视频解码器1342输出的视频信号和从音频解码器1341输出的预置元数据。显示单元1370包括扬声器单元(图中未示出)。并且，其中使用预置矩阵调整从音频解码器1341输出的对象的电平的音频信号经由显示单元1370中包括的扬声器单元而输出。此外，解码器1340解码的数据可以存储在诸如HDD的存储介质1350中。

同时，信号解码设备1300还可以包括能够控制通过用户输入信息而接收的多个数据的应用管理器1360。

应用管理器1360包括用户接口管理器1361和服务管理器1362。用户接口管理器1361控制用于从用户接收信息的输入的接口。例如，用户接口管理器1361能够控制在显示单元1370上显现的文本的字体类型、屏幕亮度、菜单结构等。同时，如果广播信号由解码器1340和显示单元1370解码和输出，则服务管理器1362能够使用用户输入的信息来控制所接收的广播信号。例如，服务管理器1362能够提供广播信道设置、警报功能设置、成人认证功能等。从应用管理器1360输出的数据通过被传送到显示单元1370以及解码器1340而可使用。

图14是根据本发明一个实施例的包括预置信息接收单元的产品的显示单元的图。显示单元能够显现比特流中包括的所有预置元数据。例如，如图14中所示的卡拉OK模式、音乐厅模式、和新闻模式全部显现在屏幕上。

如果用户选择预置元数据之一，显示单元以将对应于卡拉OK模式的预置矩阵应用到多个对象上的方式来显现其电平被调整的对象。例如，如果用户选择卡拉OK模式，可以显现将人声对象的电平设置为最小的结构。而且，如果用户选择新闻模式，应用到音频信号的预置矩阵将降低除了人声对象之外的对象的电平。

参考图14，如果选择了新闻模式，显示单元能够显现人声对象的电平被升高为比卡拉OK模式中的更高的电平，同时剩余对象的电平被设置为最小的结构。

因此，以在显示单元上显现预置矩阵调整的对象电平，以及表示预置的预置元数据的方式，用户能够通过适当地选择特定的预置模式来收听具有特定录音棚效果的音频信号。

工业应用性

因此，本发明可应用于编码和解码音频信号。

尽管这里参考了本发明的优选实施例来描绘和示出了本发明，对于本领域技术人员来说明显的是，在不偏离本发明的精神和范围的情况下可以在其中进行各种修改和变化。因此，本发明旨在覆盖落入所附权利要求及其等同物的范围内的本发明的这些修改和变化。

Claims

1.一种用于处理音频信号的装置，包括：

音频信号接收单元，所述音频信号接收单元接收包括至少一个对象的音频信号；

信息处理单元，所述信息处理单元接收空间音频对象编码SAOC比特流，所述SAOC比特流包括对象信息和预置信息，其中所述对象信息包括表示对象之间相关性的对象相关信息，所述预置信息包括预置元数据和预置矩阵，其中所述预置矩阵被用于控制所述至少一个对象的增益或者淘选，其中，所述信息处理单元进一步包括预置信息接收单元和对象信息处理单元，所述预置信息接收单元进一步包括预置元数据接收单元和预置渲染数据接收单元，其中所述预置元数据接收单元从预置信息中接收预置元数据；

显示单元，所述显示单元显示所述预置元数据；

输入单元，所述输入单元接收用于选择所述预置元数据中的一个的命令，其中，所述预置渲染数据接收单元获得对应于选择的预置元数据的预置矩阵，其中在所述信息处理单元中的对象信息处理单元基于所述对象信息、预置元数据和获得的预置矩阵来产生下混处理信息和多信道信息；

下混音频信号处理单元，所述下混音频信号处理单元基于所述下混处理信息来执行所述音频信号中包括的对象的淘选；以及

解码器，所述解码器基于所述多信道信息来解码经过所包括对象的淘选的所述音频信号并且生成输出信号。

2.根据权利要求1所述的装置，其中，所述显示单元当输出单元输出所述输出信号时，显示所选择的预置元数据。

3.根据权利要求1所述的装置，其中，基于表示输出信道是单声道、立体声、和多信道中的一个的输出信道信息来获得所述预置矩阵。

4.根据权利要求1所述的装置，其中，基于表示是否所述预置信息存在的预置存在信息获得所述预置信息，并且其中，基于表示所述预置信息以矩阵表示的预置类型信息来获得所述预置矩阵。

5.根据权利要求1所述的装置，其中，所述预置信息还包括表示要应用到所述对象的所述预置矩阵是否存在的预置对象应用信息。

6.根据权利要求1所述的装置，其中，所述显示单元以文本显示所述预置元数据。

7.一种处理音频信号的方法，包括：

接收包括至少一个对象的音频信号；

接收对象信息，所述对象信息包括表示对象之间的相关性的对象相关信息；

接收包括预置元数据和预置矩阵的预置信息，其中，所述预置矩阵能够控制所述至少一个对象的增益或者淘选；

显示所述预置元数据；

选择所述预置元数据中的一个；

从所述预置信息中获得对应于所选择的预置元数据的预置矩阵，其中，所述预置矩阵表示所述对象对输出信道的贡献程度；

基于所述对象信息、预置元数据和获得的预置矩阵来产生下混处理信息；

基于所述对象信息、预置元数据和所获得的预置矩阵来产生多信道信息；

基于所述下混处理信息来执行所述音频信号中包括的对象的淘选；以及

基于所述多信道信息来解码经过所包括对象的淘选的所述音频信号并且生成输出信号。

8.根据权利要求7所述的方法，还包括：

当所述输出信号被输出时，显示所选择的预置元数据。

9.根据权利要求7所述的方法，其中，基于表示输出信道是单声道、立体声、和多信道中的一个的输出信道信息来获得所述预置矩阵。

10.根据权利要求7所述的方法，其中，基于表示是否所述预置信息存在的预置存在信息来获得所述预置信息，并且其中，基于表示所述预置信息以矩阵表示的预置类型信息来获得所述预置矩阵。

11.根据权利要求7所述的方法，其中，所述预置信息还包括表示要应用到所述对象的所述预置矩阵是否存在的预置对象应用信息，

其中，所述预置元数据的所述显示还基于所述预置对象应用信息来显示要应用到所述对象的所述预置矩阵是否存在。