CN101926094B

CN101926094B - 用于处理音频信号的方法和设备

Info

Publication number: CN101926094B
Application number: CN2009801029907A
Authority: CN
Inventors: 吴贤午; 郑亮源
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2008-01-23
Filing date: 2009-01-23
Publication date: 2013-07-17
Anticipated expiration: 2029-01-23
Also published as: MX2010007997A; ATE481830T1; DE602009000167D1; KR20090081341A; JP2011510589A; CN101926181B; KR101024924B1; CA2712941A1; AU2009206856A1; KR100998913B1; JP5249354B2; DE602009000166D1; AU2009206856B2; RU2010134915A; CA2712941C; CN101926094A; JP2011511307A; KR20090081342A; CN101926181A; ATE481829T1

Abstract

公开了一种用于处理音频信号的设备及其方法。本发明包括：接收音频信号和预设信息；从预设信息中获得预设矩阵，其中，预设矩阵指示对象对于输出信道的贡献程度；以及通过使用预设矩阵来调整对象的输出电平。因此，在没有用户对于每个对象的设置的情况下，如果参考先前设置的预设元数据来选择要应用于音频信号的预设元数据，则可以使用与所选择的预设元数据相对应的预设渲染数据来容易地调整包括在音频信号中的对象的电平。

Description

用于处理音频信号的方法和设备

技术领域

本发明涉及用于处理音频信号的方法和设备，并且更具体地，涉及用于处理音频信号的设备及其方法。虽然本发明适合于大范围的应用，但是特别适合于处理作为数字介质、广播信号等接收到的音频信号。

背景技术

通常，在通过将包括多个对象的音频信号下混合为单信道或立体声信号来生成下混合信号的过程中，从对象中提取参数(信息)。使用这些参数(信息)来进行用于解码下混合的信号的过程。而且，可以通过由用户进行的选择来控制对象的摇摆(panning)和增益。

发明内容

技术问题

然而，应当通过用户的选择来适当地控制包括在下混合信号中的对象。当用户控制对象时，用户不能方便地直接控制对象。而且，比起由专家来控制，可能更加难以根据环境来恢复包括多个对象的音频信号的最佳状态。

技术解决方案

因此，本发明针对一种用于处理音频信号的设备及其方法，该设备和方法基本上消除了由于现有技术的局限和缺点而导致的一个或多个问题。

本发明的目的是提供一种用于处理音频信号的设备及其方法，通过该设备和方法，可以使用包括预设元数据和预设渲染数据的预设信息来控制包括在音频信号中的对象。

本发明的另一个目的是提供一种用于处理音频信号的设备及其方法，通过该设备和方法，在预设渲染数据类型是矩阵的情况下，可以以信道基于音频信号的输出信道信息确定预设渲染数据并且然后对音频信号应用该预设渲染数据的方式来调整在输出信道中的对象的电平。

本发明的又一个目的是提供一种用于处理音频信号的设备及其方法，通过该设备和方法，从编码器传送的单信道类型的预设渲染矩阵或增益信息来逐步生成用于调整对象的预设渲染矩阵。

有利效果

因此，本发明提供了下面的效果或优点。

首先，本发明在没有用户对于对象的设置的情况下选择先前设置的预设信息中的一个，由此便利调整输出信道的电平。

其次，本发明表示了预设元数据，用于基于指示元数据的长度的预设长度信息来将预设信息表示为文本，由此减少了不必要的编码。

第三，在预设渲染数据的类型是矩阵的情况下，本发明基于音频信号的输出信道信息来确定指示预设渲染数据的预设矩阵，由此更精确和有效地调整对象的输出信道的电平。

第四，本发明逐步地生成预设矩阵，由此降低了来自编码器的比特率。

第五，本发明使用预设矩阵来仅部分地调整对象，由此减少不必要的编码。

附图说明

附图被包括进以提供本发明的进一步理解，并且附图被并入在本说明书中并且构成本说明书的一部分，附图图示了本发明的实施例，并且与描述一起用于解释本发明的原理。

在附图中：

图1是根据本发明的实施例的对包括在音频信号中的对象所应用的预设信息的概念示图；

图2是根据本发明的实施例的音频信号处理设备的框图；

图3是根据本发明的实施例的在音频信号处理设备中的预设接收单元的框图；

图4是根据本发明的实施例的处理音频信号的方法的流程图；

图5是根据本发明的实施例的句法的示图；

图6是根据本发明的另一个实施例的句法的示图；

图7是根据本发明的另一个实施例的句法的示图；

图8是根据本发明的又一个实施例的预设渲染数据接收单元的框图；

图9是根据本发明的又一个实施例的句法的示图；

图10是根据本发明的另一个实施例的音频信号处理设备的框图；

图11是根据本发明的实施例的实现预设接收单元的产品的示意性框图；

图12是在与在图11中所示的产品相对应的终端和服务器之间的关系的示图；

图13是根据本发明的实施例的实现预设接收单元的数字TV的示意性框图；以及

图14是根据本发明的一个实施例的包括预设接收单元的产品的显示器单元的示图。

发明内容

本发明的其他特征和优点将在下面的描述中进行阐述，并且部分地从描述中显而易见，或者可以通过本发明的实施来习得。通过在撰写的描述及其权利要求以及附图中所具体指出的结构，将实现和获得本发明的目的和其他优点。

为了实现这些和其他优点并且根据本发明的目的，如实施和主要描述的，一种根据本发明的处理音频信号的方法包括：接收所述音频信号和预设信息，其中，所述音频信号包括至少一个对象；从所述预设信息中获得预设矩阵，其中，所述预设矩阵指示所述对象对于输出信道的贡献程度；通过使用所述预设矩阵根据所述输出信道来调整所述对象的输出电平；以及用所调整的输出电平来输出包括所述对象的音频信号，其中，基于指示所述预设信息存在的预设存在信息和指示所述预设信息的数目的预设数目信息来获得所述预设信息，其中，所述预设矩阵基于指示所述预设信息以矩阵来表示的预设类型的信息来获得。

优选地，所述预设矩阵基于信道信道指示所述输出信道是单信道、立体声和多信道中的一个的输出信道信息来获得。

优选地，所述预设类型信息以1个比特来表示。

更优选地，所述预设矩阵的维度基于所述对象的数目和所述输出信道的数目来确定。

为了进一步实现这些和其他优点，并且根据本发明的目的，一种根据本发明的用于处理音频信号的设备包括：音频信号接收单元，所述音频信号接收单元接收包括至少一个对象的所述音频信号；预设元数据接收单元，所述预设元数据接收单元从预设信息中接收预设元数据，其中，所述预设元数据接收单元从所述预设信息的至少一个中获得所述预设元数据的至少一个；预设渲染数据接收单元，所述预设渲染数据接收单元从所述预设信息中获得预设矩阵，其中，所述预设矩阵指示所述对于象对输出信道的贡献程度，并且其中，所述预设矩阵与所述预设元数据相对应；显示器单元，所述显示器单元显示所述预设元数据；输入单元，所述输入单元接收用于选择所述预设元数据的一个的命令；对象调整单元，所述对象调整单元通过使用与所选择的预设元数据相对应的所述预设矩阵根据所述输出信道来调整所述对象的输出电平；以及输出单元，所述输出单元用调整的输出电平来输出包括所述对象的音频信号。优选地，当所述输出单元输出所述音频信号时，所述显示器单元显示所述选择的预设元数据。

优选地，所述显示器单元进一步显示所述对象的输出电平。

优选地，基于指示所述输出信道是单信道、立体声和多信道中的一个的输出信道信息来获得所述预设矩阵信道信道信道信道。

优选地，基于指示所述预设信息的数目的预设数目信息来获得所述预设信息，并且其中，基于指示以矩阵表示预设信息的预设类型信息来获得预设矩阵。

优选地，所述预设信息进一步包括预设对象应用信息，所述预设对象应用信息指示要对所述对象应用的所述预设矩阵是否存在。

优选地，所述显示器单元进一步基于所述预设对象应用信息来显示要对所述对象应用的所述预设矩阵是否存在。

更优选地，所述显示器单元以文本来显示所述预设元数据。

应当理解，上述笼统描述和下面的详细描述都是示例性和解释性的，并且意在提供要求保护的本发明的进一步的解释。

具体实施方式

现在详细参考本发明的优选实施例，在附图中图示了本发明的优选实施例的示例。

首先，在本公开中的‘信息’被解释为通常包括值、参数、系数和元素等的术语，‘对象’可以被解释为配置吉他、有声或钢琴等的音频信号的源信号。它们的含义偶尔可以被解释为不同的，本发明不受其限制。

在解码包括多个对象的音频信号中，本发明提供了一种用于调整对象的使用先前设置的信息中的一个来有效地解码音频信号的方法。

图1是根据本发明的实施例的对包括在音频信号中的对象应用的预设信息的概念示图。在本公开中，用于调整对象的先前设置的信息被称为预设信息。预设信息可以指示可以根据音频信号或收听环境的特性选择的各种模式中的一个。而且，可以存在多个预设信息。而且，预设信息包括元数据，该元数据用于表示预设信息等的属性，并且渲染适用于来调整对象的数据。可以以文本类型来表示元数据。元数据不仅指示预设信息的属性(例如，音乐厅模式、卡拉OK模块式、新闻模式等)，而且还包括用于表示预设信息的相关信息，诸如预设信息的作者、撰写日期和已经对其应用了预设信息的对象的名称等。同时，渲染数据是实质上应用于对象的数据。渲染数据可以具有各种形式中的一个。具体地，渲染数据可以以矩阵类型存在。

参考图1，预设信息1可以是音乐厅模式，音乐厅模式用于提供使得音乐信号听起来是在音乐厅中的声场效果。预设信息2可以是卡拉OK模式，卡拉OK模式用于降低在音频信号中的有声对象的电平。而且，预设信息n可以是新闻模式，新闻模式用于提高语音对象的电平。而且，预设信息2包括元数据2和渲染数据2。如果用户选择预设信息2，则将在显示器单元中实现元数据2的卡拉OK模式，并且能够通过向对象应用与元数据2相关的渲染数据2来调整电平。

在该情况下，如果渲染数据是矩阵类型，则它可以包括单信道矩阵、立体声矩阵或多信道矩阵。单信道矩阵是在对象的输出信道是单信道时应用的渲染数据。立体声矩阵是在对象的输出信道是立体声时应用的渲染数据。而且，多信道矩阵是在对象的输出信道是多信道时应用的渲染数据。一旦确定了对象的输出信道，则使用所确定的输出信道来确定矩阵。因此，能够通过向对象应用矩阵来调整电平。

因此，使用包括在预设信息中的元数据和渲染数据，调整对象并且表示所应用的预设信息的属性或特征。因此，能够有效地提供具有用户特定效果的音频信号。

图2是根据本发明的实施例的音频信号处理设备200的框图。

参考图2，根据本发明的实施例的音频信号处理设备200可以包括预设信息生成单元210和预设信息接收单元220以及对象调整单元230。

预设信息生成单元210生成用于调整包括在音频信号中的对象的预设信息。预设信息生成单元210可以包括元数据生成单元212和预设渲染数据生成单元214。元数据生成单元212接收用于表示预设信息的文本信息的输入，并且然后能够生成预设元数据。如在上述的描述中所述，预设元数据可以是用于表示预设信息的特性或属性的信息。在该情况下，元数据生成单元212可以进一步生成预设长度数，该预设长度信息指示预设元数据的字符长度信息。在该情况下，可以将预设长度信息表示为字节，预设长度信息的示例不受其限制。

同时，如果将用于调整对象的电平的增益和对象的摇摆的信息输入到预设渲染数据生成单元214中，则能够生成要应用于对象的预设渲染数据。在该情况下，预设渲染数据可以按对象来生成，并且可以以各种类型中的一个来实现。例如，预设渲染数据可以是以矩阵类型实现的预设矩阵。而且，预设渲染数据生成单元214可以进一步生成预设类型的信息(preset_type_flag)，该预设类型信息指示是否以矩阵来表示预设渲染数据。此外，预设渲染数据生成单元214可以进一步生成输出信道信息，该输出信道信息指示对象具有多少个输出信道。

可以通过被包括在一个比特流，并且更具体地通过被包括在包括音频信号的比特流的附加区域(ancillary region)中来传输由元数据生成单元212生成的预设长度信息和预设元数据以及由预设渲染数据生成单元214生成的预设类型信息、输出信道信息和预设渲染数据。

同时，预设信息生成单元210可以进一步生成预设存在信息，该预设存在信息指示在比特流中是否包括预设长度信息、预设元数据、预设类型信息、输出信道信息和预设渲染数据。预设存在信息可以具有容器类型，该容器类型指示关于预设信息存在于哪个区域中或以哪个标记类型存在的信息，预设存在信息的示例不受其限制。

而且，预设信息生成单元210能够生成预设信息。预设信息的每一个包括预设长度信息、预设元数据、预设类型信息、输出信道信息和预设渲染数据。在该情况下，预设生成单元210可以进一步生成预设数目信息，该预设数目信息指示预设信息的数目。

预设信息接收单元220接收由预设信息生成单元210生成和传送的预设信息。而且，预设信息接收单元220可以包括元数据接收单元222和预设渲染数据接收单元224。

元数据接收单元222接收并且然后输出预设元数据，并且预设渲染数据接收单元224接收预设渲染数据(例如，预设矩阵)，将参考图3和图4来说明其细节。

而且，对象调整单元230接收包括多个对象的音频信号和由渲染数据接收单元224生成的预设渲染数据。在该情况下，向对象应用预设渲染数据，由此，可以调整对象的电平或位置。

图3是根据本发明的实施例的包括在音频信号处理设备200的预设接收单元200中的元数据接收单元310和预设渲染数据接收单元320的框图。

参考图3，元数据接收单元310包括预设长度信息接收单元312和预设元数据接收单元314。预设长度信息接收单元312接收指示用于表示预设信息的预设元数据的长度的预设长度信息，并且然后获得预设元数据的长度。随后，预设元数据接收单元314读取相当于由预设长度信息指示的长度的比特流，并且然后接收预设元数据。而且，预设元数据接收单元314将作为指示预设信息的类型或属性的元数据的预设元数据转换成文本类型，并且然后输出所转换的文本类型的预设元数据。

预设渲染数据接收单元320包括预设类型标记接收单元322、输出信道信息接收单元324和预设矩阵接收单元326。预设数据类型标记接收单元322接收预设类型标记(preset_type_flag)，该预设类型标记指示预设渲染数据是否具有矩阵类型。在该情况下，在表1中示出了预设类型标记的含义。

[表1]

预设类型标记	含义
		0	预设渲染数据的类型不是矩阵。
1	预设渲染数据的类型是矩阵。

如果预设类型标记指示预设渲染数据的类型是矩阵的情况，则输出信道信息接收单元324接收输出信道信息，该输出信道信息指示在其上将回放包括在音频信号中的对象的输出信道的数目。输出信道信息可以包括单信道、立体声信道或多信道(5.1信道)，输出信道信息的示例不受其限制。

预设矩阵接收单元326基于输出信道信息来接收和输出预设矩阵，该预设矩阵指示对象对于输出信道的贡献程度并且与预设元数据相对应。在该情况下，预设矩阵可以包括单信道预设矩阵、立体声预设矩阵和多信道预设矩阵中的一个。基于对象的数目和输出信道的数目来确定预设矩阵的维度。因此，预设矩阵可以具有(对象的数目)*(输出信道的数目)的形式。例如，如果在音频信号中包括n个对象并且来自输出信道信息接收单元324的输出信道对应于5.1信道(即，6个信道)，则预设矩阵接收单元326能够给出以n*6形式实现的公式1中所示的预设多信道矩阵。

[公式1]

M_{ren} = \{\begin{matrix} m_{0, Lf} & m_{0, Rf} & m_{0, C} & m_{0, Lfe} & m_{0, Ls} & m_{0, Rs} \\ . . . & . . . & . . . & . . . & . . . & . . . \\ m_{N - 1, Lf} & m_{N - 1, Rf} & m_{N - 1, C} & m_{N - 1, Lfe} & m_{N - 1, Ls} & m_{N - 1, Rs} \end{matrix}

在公式1中，矩阵分量m_a，b是指示包括在第b个信道中的第a个对象的程度的增益。随后，预设多信道矩阵可以通过被应用于音频信号来调整对应对象的电平。

因此，本发明的预设信息接收单元220通过使用预设长度信息读取必要数量的比特流来有效地表示预设元数据，并且能够通过基于输出信道信息获得预设矩阵来有效地调整包括在音频信号中的对象的增益。

图4是根据本发明的实施例的处理音频信号的方法的流程图。

参考图4，接收包括至少一个对象的音频信号[S410]。而且，接收指示预设信息是否存在以调整对象的增益或摇摆的预设存在信息[S415]。如果预设信息存在，则接收指示存在多少(n)个预设信息的预设数目信息[S420]。预设数目信息假定预设信息存在，并且可以被表示为‘(实际存在的预设信息的数目)-1’。随后，接收指示用于表示预设信息的元数据具有多少比特(或字节)的预设长度信息[S430]。基于预设长度信息，接收预设元数据[S435]。例如，输出卡拉OK模式、音乐厅模式或新闻模式等[S437]。在该情况下，预设元数据可以具有文本类型。如在上述描述中所述，预设元数据可以包括公开了预设信息的作者、撰写日期、通过预设信息调整的对象的名称等的元数据数据以及表示预设信息的声场效果的元数据，预设元数据的示例不受其限制。

随后，接收指示包括在预设信息中的预设渲染数据的类型的预设类型信息[S440]。基于该预设类型信息，确定预设数据的类型是否是矩阵类型[S445]。如果预设数据的类型是矩阵类型[在步骤S445中的‘是’]，则接收信道信道指示存在多少个对象的对象信道的输出信道信息[S450]。基于输出信道信息，接收在编码的预设矩阵中的对应预设矩阵[S455]。基于对象的数目和输出信道的数目来确定预设矩阵的维度。例如，如果对象的输出信道是立体声，则接收到的预设矩阵将是‘(对象的数目)*2’类型的立体声预设矩阵。

确定预设信息(第i个)的i是否小于由预设数目信息指示的预设的数目(n)[S460]，该预设信息(第i个)包括上面接收到的预设长度信息、预设元数据、预设类型信息、输出信道信息和预设矩阵。如果i小于预设数目信息[在步骤S460中的‘是’]，则例程返回到步骤S430，并且然后重复接收下一个预设[第(i+1)个]的预设长度信息的步骤。如果第i个预设等于预设数目信息[在步骤S460中的‘否’]，则通过对音频信号应用预设矩阵来调整对象的电平[S465]。同时，如果没有以矩阵呈现预设矩阵[在步骤S445中的‘否’]，则接收以除了由编码器建立的矩阵之外的类型实现的预设数据[S457]。然后，通过对音频信号应用接收到的预设数据来调整对象的电平[S468]。随后，能够输出包括调整的对象的音频信号[S470]。

通过应用预设矩阵来调整对象的步骤S465可以使用通过用户的选择确定的预设矩阵[在附图中未示出]。用户能够选择与预设矩阵相对应的预设元数据，该预设元数据是在输出元数据的步骤S437中被输出的。例如，如果用户从预设元数据中选择了被表示为卡拉OK模式的元数据，则从基于输出信道信息接收到的预设矩阵[S455]中选择与卡拉OK模式的预设元数据相对应的预设矩阵。随后，通过对音频信号应用与卡拉OK模式相对应的所选择的预设矩阵来调整对象的电平。然后，输出包括调整的对象的音频信号。

图5是根据本发明的实施例的句法的示图。

参考图5，与预设信息相关的信息可以存在于比特流的报头区域中。因此，能够从比特流的报头区域获得预设数目信息(bsNumPresets)。

如果存在预设数目信息[if(bsNumPresets)]，则获得由预设数目信息指示的预设信息的数目[numPresets＝bsNumPresets+1]。例如，如果存在一个预设信息，则预设数目信息可以将‘bsNumPresets’设置为0。在该情况下，预设信息的实际数目被识别并且用作‘(预设数目信息)+1’。可以首先从比特流接收预设数目信息。

基于预设数目信息，能够获得指示每一个预设信息(第i个预设)的预设渲染数据的类型的信息(bsPresetType[i])。如果以矩阵类型传送预设渲染数据的情况被定义为特定预设类型(当矩阵类型时传送bsPresetType[i]的情况)，则指示预设渲染数据的类型的信息可以是上述指示是否以矩阵类型生成和传送预设渲染数据的预设类型信息(preset_type_flag)。在该情况下，预设类型信息可以被表示为一个比特。

如果包括在第i个预设信息中的预设渲染数据是矩阵类型(bsPresetType[i])，则获得指示输出信道具有多少个信道的输出信道信息(bsPresetCh[i])信道信道信道。而且，基于输出信道信息来获得用于调整包括在音频信号中的对象的电平的预设矩阵(getRenderingMatrix())。

图6是根据本发明的另一个实施例的表示音频信号处理方法的句法的示图。预设信息存在于报头区域中，并且可以然后被等同地应用于所有的帧。替代地，根据时间可变(以下称为“时间可变”)地应用预设信息，以有效地调整对象的电平。如果预设信息是时间可变的，则应当每一个帧都包括与预设信息相关的信息。因此，在报头中包括指示每一个帧是否包括预设信息的信息，由此可以有效地配置比特流。

参考图6，示出了指示每一个帧是否包括预设信息的句法。该句法类似于指示在图5中所示的音频信号处理方法的在图5中所示的前一种句法。但是，在图6中所示的句法可以包括预设时变标记信息(bsPresetTimeVarying[i])，该预设时变标记信息(bsPresetTimeVarying[i])指示预设信息是否时变地存在，即，在已经获得输出信道信息(bsPresetCh[i])之后每一个帧是否存在预设信息。如果在比特流的报头区域中包括预设时变标记信息，则使用包括在比特流的帧区域中的预设矩阵和复位(reset)元数据来调整对象的电平。如果在报头中存在预设时变标记信息，则确定每一个帧是否有预设信息的更新。如果没有更新，则将独立的标记设置为‘保持’。如果有更新，则将独立的标记设置为‘读取’。因此，能够通过建立该独立的标记来有效地建立比特流。

而且，预设存在信息(bsPresetExists)指示在比特流中是否存在预设信息。如果预设存在信息指示在比特流中不存在预设信息，则可以不执行用于获得预设数目信息(bsNumPresets)、预设类型信息(bsPresetType[i])、输出信道信息(bsPresetCh[i])和预设时变标记信息(bsPresetTimeVarying[i])的循环。如果有必要，则可以从句法中省略预设存在信息。

图7是根据本发明的又一个实施例的表示音频信号处理方法的句法的示图。上述的预设矩阵是‘(对象的数目)*(输出信道的数目)’类型的矩阵，并且指示对象对于输出信道的贡献程度。在该情况下，通过仅接收以使用关于一些对象的信息，可以在效率方面减少所传送的比特的数目。因此，本发明的又一个实施例提出了用于仅使用预设信息来调整特定对象的音频信号处理方法的句法。

参考图7，句法可以进一步包括指示是否向每个对象应用用于调整对象电平的预设信息的预设对象应用信息(bsPresetObject[i][j])。使用预设对象应用信息，能够声明预设信息是否包括关于对应的对象的信息。预设对象应用信息可以存在于比特流的报头区域中。如果预设信息是时变的，如图6中所示，则预设对象应用信息可以存在于帧中。能够声明，每个对象的预设信息包括关于对应的对象的信息，如图7中所示。而且，可以在比特流中包括指示包含的存在与否的对象索引。如果使用对象索引，则能够使用退出字符来更方便地配置比特流。

在以使用霍夫曼表等的无损编码来执行编码的情况下，退出字符设计了具有数目比实际参数多1的参数的表。在该情况下，可以将额外分配的参数定义为退出参数。具体地，如果从比特流中获得退出参数，则可以通过被定义为接收所有对应信息来使用该退出参数。例如，如果预设信息仅包括关于全部10个对象中的2个的信息(关于第三对象的信息和关于第八对象的信息)，则能够以传送与第三和第八对象相对应的霍夫曼索引并且进而传送与退出参数相对应的霍夫曼索引的方式来有效地配置比特流。

图8是根据本发明的又一个实施例的用于逐步生成预设矩阵的预设渲染数据接收单元的框图。

参考图8，预设渲染数据接收单元320包括预设数据类型标记接收单元322、输出信道信息接收单元324和预设矩阵确定单元326。其余元件具有在图2/3中所示的预设渲染数据接收单元224/320的相同配置和效果，并且在下面的描述中省略它们的细节。

同时，如图8中所示，预设矩阵确定单元326包括单信道类型预设矩阵接收单元810、立体声类型预设矩阵生成单元820和多信道类型预设矩阵生成单元830。

单信道类型预设矩阵接收单元810从预设生成单元(在附图中未示出)接收被表示为‘对象的数目’类型的矩阵的单信道预设矩阵。如果从输出信道信息接收单元324接收到的输出信道信息是单信道的，则原样输出单信道预设矩阵。将所输出的单信道预设矩阵应用于音频信号以调整对象的电平。

同时，如果输出信道信息是立体声，则向立体声类型预设矩阵生成单元820输入单信道预设矩阵。进一步输入信道扩展信息以生成‘(对象的数目)*2’类型的立体声预设矩阵。如果输出信道信息指示多信道，则向多信道类型预设矩阵生成单元830输入立体声预设矩阵和多信道扩展信息，以生成‘(对象的数目)*6’类型的多信道预设矩阵。

因此，编码器仅生成单信道预设矩阵，并且预设矩阵确定单元326使用声道扩展信息来逐步生成预设矩阵。因此，如果回放配置仅限于立体声，则能够存储所传输的比特的数目。而且，可以不冗余地传送用于立体声信道或多信道的预设矩阵。

根据本发明的又一个实施例的音频信号处理方法提出了一种在必要时在传送预设信息或传送规范化的预设矩阵中传送增益值的方法。这可以被扩展为一种只有需要增益来调整包括在音频信号中的对象时才传送增益值或容易地传送整个预设矩阵的方法。例如，为了传送在公式1中所示的预设矩阵，应当首先传送n*6增益信息。在该情况下，可以按公式2来计算增益信息。

[公式2]

G_{i} = Σ_{j = 0}^{nCH} m_{i, j}^{2}

在公式2中，‘i’指示对象，‘j’指示输出信道，并且‘nCH’指示输出信道的数目。因为存在如对象的数目那么多的G_i，所以需要数目n用于预设信息。

如果需要摇摆信息以及增益信息，则额外地使用规范化的预设矩阵。在该情况下，可以如公式3来定义规范化的预设矩阵。

[公式3]

M_{norm} = [\begin{matrix} {\hat{m}}_{0, LF} & {\hat{m}}_{0, Rf} & . . . \\ . . . & . . . & . . . \\ {\hat{m}}_{N - 1, Lf} & . . . & . . . \end{matrix}]

{\hat{m}}_{i, j} = \frac{m_{i, j}}{G_{i}}

在以上述方式使用增益信息和规范化的预设矩阵的情况下，应当传送n*6增益信息。但是，由于规范化特性，所以存在诸如

的特性，并且

的log 10的值总是等于或小于0。因此，在使用声道电平差信息的表来用于增益信息的量化的情况下，仅使用现有技术表的一半。这可以在不独立地传送增益信息的情况下，节省必要数据的大小以及比特率，而不是接收以使用非规范化的预设矩阵。而且，因为可以仅在预设信息中包括增益信息，所以能够以可调整的方式使用预设信息。

图9是根据本发明的又一个实施例的句法的示图，其中，增益信息和摇摆相关信息通过分别被包括在预设信息中来进行传送。可以在报头或帧区域中包括增益信息和摇摆信息。

参考图9，斜体部分指示从比特流接收到实际预设值。可以获得各种无噪声编码方案，并且将它们表示为在图9中的函数。例如，如果在帧区域中存在上面的信息，则检查是否存在预设信息。如果存在预设信息，则接收预设数目信息。随后，首先接收增益信息。增益信息是指示将对应的对象再现为规定的增益值的信息。在该情况下，增益信息可以是上述的G_i或在通过外部输入值来调整音频信号的电平时生成的任意下混合增益(以下缩写为ADG)。

额外获得的摇摆信息可以具有各种类型中的一个。摇摆信息可以包括上述的规范化的预设矩阵。而且，可以将摇摆信息划分成立体声摇摆信息和多信道摇摆信息。

图10是根据本发明的另一个实施例的音频信号处理设备的框图。

参考图10，根据本发明的另一个实施例的音频信号处理设备主要包括下混合单元1010、对象信息生成单元1020、预设信息生成单元1030、下混合信号处理单元1040、信息处理单元1050和多信道解码单元1060。

首先，将多个对象输入到下混合单元1010中，并且然后被生成为单信道或立体声下混合信号。还可以将多个对象输入到对象信息生成单元1020，并且然后被生成为指示对象的电平的对象电平信息；对象增益信息，该对象增益信息指示在对象的增益值被包括在下混合信号和/或立体声下混合信号中的情况下的包括在下混合声道中的对象的程度；以及包括指示在对象之间的相关或不相关的对象相关信息的对象信息。

随后，将下混合信号和对象信息输入到预设信息生成单元1030中，以被生成为预设信息，该预设信息包括用于调整对象的电平的预设渲染数据和用于表示预设信息的预设元数据。用于生成预设渲染数据和预测元数据的过程与在图1至9中所示的音频信号处理设备和方法的上述描述中解释的几乎一样，在下面的描述中将省略其细节。同时，由对象信息生成单元1020生成的对象信息和由预设信息处理生成单元1030生成的预设信息可以通过被包括在SAOC比特流中来进行传送。

信息处理单元1050包括对象信息处理单元1051和预设信息接收单元1052。而且，信息处理单元1050接收SAOC比特流。

预设信息接收单元1052从SAOC比特流中接收上述预设存在信息、预设数目信息、预设长度信息、预设元数据、预设类型信息、输出信道信息和预设矩阵，并且使用根据对于在图1至图9中所示的音频信号处理方法和设备解释的各种实施例的方法。而且，预设信息接收单元1052输出预设元数据和预设矩阵。对象信息处理单元1051接收预设元数据和预设矩阵，并且然后使用包括在SAOC比特流中的对象信息连同预设元数据和预设矩阵一起来生成用于预处理下混合信号的下混合处理信息和用于上混合下混合信号的多信道信息。

随后，当将下混合处理信息输入到下混合信号处理单元1040中时，能够执行包括在下混合信号中的对象的摇摆。将上面预处理的下混合信号连同从信息处理单元1050输出的多信道信息一起输入到多信道解码单元1060中，并且然后被上混合以生成多信道音频信号。

因此，在使用对象信息将包括多个对象的音频信号解码为多信道信号中，促进根据本发明的音频信号处理设备来使用预设信息调整对象的电平。在如此进行中，根据本发明的音频信号处理设备使用基于输出信道信息接收到的矩阵类型数据作为适用于对象的预设矩阵来有效地执行对象的电平调整。而且，根据本发明的音频信号处理设备能够通过基于从编码器侧传送的预设长度信息输出预设元数据来增强编码效率。

图11是根据本发明的实施例的实现包括元数据接收单元和预设渲染数据接收单元的预设信息接收单元的产品的示意性框图，并且图12是在与在图11中所示的产品相对应的终端和服务器之间的关系的示图。

参考图11，有线/无线通信单元1110通过有线/无线通信系统来接收比特流。具体地，有线/无线通信单元1110可以包括从一组中选择的至少一个，该组包括有线通信单元1111、红外线通信单元1112、蓝牙单元1113和无线LAN通信单元1114。

用户认证单元1120接收用户信息的输入，并且然后执行用户认证。用户认证单元1120可以包括从一组中选择的至少一个，该组包括指纹识别单元1121、虹膜识别单元1122、脸部识别单元1123和语音识别单元1124。在该情况下，可以以下述方式来执行用户认证，该方式接收指纹信息、虹膜信息、脸部轮廓信息或语音信息的输入，将输入的信息转换为用户信息，并且然后确定用户信息是否匹配登记的用户数据。

输入单元1130是使得用户能够输入各种命令的输入装置。并且，输入单元1130可以包括从一组中选择的至少一个，该组包括小键盘单元1131、触摸板单元1132和遥控器单元1133，输入单元1130的示例不受其限制。同时，如果经由显示器单元1162来在屏幕上显现用于从稍后解释的元数据接收单元1141输出的预设信息的预设元数据，则用户能够经由输入单元1130来选择预设元数据，并且向控制单元1150输入关于所选择的预设置元数据的信息。

信号解码单元1140包括元数据接收单元1141和预设渲染数据接收单元1142。元数据接收单元1141接收预设长度信息，并且然后基于接收到的预设长度信息来接收预设元数据。如果通过预设类型信息来将预设表示为矩阵，则预设渲染数据接收单元1142接收输出信道信息，并且然后基于接收到的输出信道信息来接收作为预设渲染数据的预设矩阵。信号解码单元1140通过使用接收到的比特流、预设元数据和预设矩阵解码音频信号来生成输出信号，并且输出文本类型的预设元数据。

控制单元1150从输入装置接收输入信号，并且控制信号解码单元1140和输出单元1160的所有过程。如在上面的描述中所述，如果从输入单元1130向控制单元1150输入关于所选择的预设元数据的信息，则预设渲染数据接收单元1142接收与所选择的预设元数据相对应的预设矩阵，并且然后使用接收到的预设矩阵来解码音频信号。

而且，输出单元1160是用于输出由信号解码单元1140生成的输出信号等的元件，输出单元1160可以包括扬声器单元1161和显示器单元1162。如果输出信号是音频信号，则经由扬声器单元1161来输出该输出信号。如果输出信号是视频信号，则经由显示器单元1162来输出该输出信号。而且，输出单元1160经由显示器单元1162在屏幕上显现从控制单元1150输入的预设元数据。

图12示出了在终端之间或在终端和服务器之间的关系，其每一个与在图11中所示的产品相对应。

参考图12的(A)，可以观察到可以经由有线/无线通信单元在第一终端1210和第二终端1220之间执行数据或比特流的双向通信。

参考图12的(B)，可以观察到，可以在服务器1230和第一终端1240之间执行有线/无线通信。

图13是根据本发明的一个实施例的实现包括元数据接收单元和预设渲染数据接收单元的预设信息接收单元的广播信号解码装置1300的示意性框图。

参考图13，解复用器1320从调谐器1310接收与TV广播相关的多个数据。接收到的数据由解复用器1320来分离，并且然后由数据解码器1330来解码。同时，由解复用器1320分离的数据可以被存储在诸如HDD的存储介质1350中。将由解复用器1320分离的数据输入到包括音频解码器1341和视频解码器1342的解码器1340，以被解码成音频信号和视频信号。根据本发明的一个实施例，音频解码器1341包括元数据接收单元1341A和预设渲染数据接收单元1341B。元数据接收单元1341A接收预设长度信息，并且然后基于该接收到的预设长度信息来接收预设元数据。如果以矩阵来表示预设信息，则预设渲染数据接收单元1341B接收输出信道信息，并且然后基于接收到的输出信道信息来接收预设矩阵，该预设矩阵是预设渲染数据。音频解码器1341通过使用接收到的比特流、预设元数据和预设矩阵解码音频信号来生成输出信号，并且输出文本类型的预设元数据。

显示器单元1370显现从视频解码器1342输出的视频信号和从音频解码器1341输出的预设元数据。显示器单元1370包括扬声器单元(在附图中未示出)。而且，经由包括在显示器单元1370中的扬声器单元来输出音频信号，在该音频信号中，使用预设矩阵来调整从音频解码器1341输出的对象的电平。而且，由解码器1340解码的数据可以被存储在诸如HDD的存储介质1350中。

同时，信号解码装置1300可以进一步包括应用管理器1360，该应用管理器1360能够控制通过从用户输入信息来接收的多个数据。

应用管理器1360包括用户界面管理器1361和服务管理器1362。用户界面管理器1361控制用于从用户接收信息的输入的界面。例如，用户界面管理器1361能够控制在显示器单元1370上显现的文本的字体类型、屏幕亮度和菜单配置等。同时，如果广播信号由解码器1340和显示器单元1370解码和输出，则服务管理器1362能够使用由用户输入的信息来控制接收到的广播信号。例如，服务管理器1362能够提供广播信道设置、警报功能设置、成人认证功能等。从应用管理器1360输出的数据通过被传送到显示器单元1370以及解码器1340来进行使用。

图14是根据本发明的一个实施例的包括预设信息接收单元的产品的显示器单元的示图。显示器单元能够显现包括在比特流中的所有预设元数据。例如，在屏幕上全部地显现了如图14中所示的卡拉OK模式、音乐厅模式和新闻模式。

如果用户选择预设元数据中的一个，则显示器单元显现其电平以下述方式被调整的对象：将与卡拉OK模式对应的预设矩阵应用于多个对象。例如，如果用户选择卡拉OK模式，则可以显现将有声对象的电平设置为最小的配置。而且，如果用户选择了新闻模式，则应用于音频信号的预设矩阵将降低除了有声对象之外的对象的电平。

参考图14，如果选择了新闻模式，则显示器单元能够显现下述配置：有声对象的电平被提高得大于在卡拉OK模式中的电平，而将其余对象的电平设置为最小。

因此，以在显示器单元上显现通过预设矩阵和指示预设的预设元数据调整的对象的电平的方式，用户能够通过适当地选择特定的预设模式来收听具有特定的声场效果的音频信号。

工业实用性

因此，本发明适用于编码和解码音频信号。

虽然已经在此参考本发明的优选实施例来描述和图示了本发明，但是对于本领域内的技术人员明显的是，在不偏离本发明的精神和范围的情况下，可以在其中进行各种修改和变化。因此，希望本发明涵盖在所附的权利要求及其等同物的范围中的本发明的修改和变化。

Claims

1.一种处理音频信号的方法，包括：

接收所述音频信号和预设信息，其中，所述音频信号包括至少一个对象，所述预设信息是一个或多个，每个预设信息包括用来表示该预设信息的属性的元数据和用来渲染所述至少一个对象的预设渲染数据；

从所述预设信息中获得预设矩阵，其中，所述预设矩阵指示所述对象对于输出信道的贡献程度；

通过使用所述预设矩阵根据所述输出信道来调整所述对象的输出电平；以及

用所调整的输出电平来输出包括所述对象的音频信号，

其中，所述预设信息基于指示所述预设信息存在的预设存在信息和指示所述预设信息的数目的预设数目信息来获得，

其中，所述预设矩阵基于指示以矩阵表示所述预设信息的预设类型信息来获得。

2.根据权利要求1所述的方法，其中，根据用来指示所述输出信道是单信道、立体声和多信道中的一个的输出信道信息来获得所述预设矩阵。

3.根据权利要求2所述的方法，其中，所述预设类型信息以1个比特来表示。

4.根据权利要求1所述的方法，其中，所述预设矩阵的维度基于所述对象的数目和所述输出信道的数目来确定。

5.一种用于处理音频信号的设备，包括：

音频信号接收单元，所述音频信号接收单元接收包括至少一个对象的所述音频信号；

预设元数据接收单元，所述预设元数据接收单元从预设信息中接收预设元数据，所述预设信息是一个或多个，每个预设信息包括用来表示该预设信息的属性的元数据和用来渲染所述至少一个对象的预设渲染数据；

预设渲染数据接收单元，所述预设渲染数据接收单元从所述预设信息中获得预设矩阵，其中，所述预设矩阵指示所述对象对于输出信道的贡献程度；

对象调整单元，所述对象调整单元通过使用所述预设矩阵根据所述输出信道来调整所述对象的输出电平；以及

输出单元，所述输出单元用所调整的输出电平来输出包括所述对象的音频信号，

其中，所述预设矩阵基于指示以矩阵来表示所述预设信息的预设类型信息来获得。

6.根据权利要求5所述的设备，其中，所述预设渲染数据接收单元根据用来指示所述输出信道是单信道、立体声和多信道中的一个的输出信道信息来获得所述预设矩阵。

7.根据权利要求6所述的设备，其中，所述预设类型信息以1个比特来表示。

8.根据权利要求5所述的设备，其中，所述预设矩阵的维度基于所述对象的数目和所述输出信道的数目来确定。

9.一种用于处理音频信号的设备，包括：

音频信号生成单元，所述音频信号生成单元通过下混合至少一个对象而生成音频信号；

元数据生成单元，所述元数据生成单元生成预设信息的预设元数据，所述预设信息是一个或多个，每个预设信息包括用来表示该预设信息的属性的元数据和用来渲染所述至少一个对象的预设渲染数据；以及

预设渲染数据生成单元，所述预设渲染数据生成单元生成指示所述对象对于输出信道的贡献程度的预设矩阵和指示以矩阵来表示所述预设信息的预设类型信息信道。

10.根据权利要求9所述的设备，其中，所述预设渲染数据生成单元进一步生成输出信道信息，所述输出信道信息指示所述输出信道是单信道、立体声和多信道中的一个。

11.一种处理音频信号的方法，包括：

通过下混合至少一个对象生成所述音频信号；

生成指示预设信息是否存在的预设存在信息，所述预设信息是一个或多个，每个预设信息包括用来表示该预设信息的属性的元数据和用来渲染所述至少一个对象的预设渲染数据；

生成指示所述预设信息的数目的预设数目信息；

生成表示所述预设信息的预设元数据；

生成指示所述对象对于输出信道的贡献程度的预设矩阵；以及

生成指示以矩阵来表示所述预设信息的预设类型信息。