CN102349108B

CN102349108B - 解码音频信号的方法和装置

Info

Publication number: CN102349108B
Application number: CN201080011640.2A
Authority: CN
Inventors: 吴贤午; 郑亮源
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2009-01-28
Filing date: 2010-01-28
Publication date: 2014-08-20
Anticipated expiration: 2030-01-28
Also published as: US20100198602A1; EP2392007A4; US8254600B2; WO2010087630A3; KR20100087681A; CN102349108A; EP2392007A2; WO2010087630A2; KR101137360B1; KR20100087682A; KR101137361B1

Abstract

本发明涉及用于处理音频信号的装置及方法。本发明包括：接收包括多个对象的下混合信号以及包括对象信息和下混合增益信息的比特流；获取用于指示在比特流中是否存在电平指导信息的用于所有帧的电平指导标记信息；基于电平指导标记信息，从比特流获取电平指导信息，电平指导信息表示应用于多个对象中至少一个对象的对象电平的限制；接收混合信息；基于电平指导信息和下混合增益信息，通过修改混合信息来产生修改后的混合信息；并且基于修改后的混合信息和所述对象信息，产生下混合处理信息和多声道信息中的至少一个，其中使用用于多个对象中至少一个对象的对象电平，估计混合信息，并且当产生下混合信号时，确定对象信息和下混合增益信息。因此，本发明可以用对定位和/或增益调整提供限制范围的方式，防止根据定位和/或增益调整的声音质量的失真。

Description

解码音频信号的方法和装置

技术领域

本发明涉及用于对音频信号进行处理的装置及方法。尽管本发明适用于广泛的应用，但其尤其适用于对经由数字介质、广播信号等接收的音频信号进行处理。

背景技术

通常，在用于将包括多个对象的音频信号下混合为单声道或立体声信号的处理中，从该对象中提取参数。在对下混合信号进行解码中使用这些参数。并且，用户做出的选择以及该参数可以控制每个对象的定位(panning)和增益。

发明内容

技术问题

首先，用户所做的选择可以控制在下混合信号中包括的对象的定位和增益。然而，在对象的定位和增益，具体而言对象的增益受到用户控制的情况中，由于没有用于增益控制的准则或者未对增益控制做出限制，因此声音质量可能根据增益控制而失真。

其次，在用户调整对象的定位和增益的情况中，必须在用户接口上检查用于定位和增益控制的准则或者对于定位和增益控制所做的限制。

技术方案

因此，本发明涉及一种用于处理音频信号的装置及其方法，其基本避免了由于相关技术的限制和缺点所带来的一个或多个问题。

本发明的一个目的是提供一种用于处理音频信号的装置及其方法，通过该装置和方法，可以基于用户所做的选择来控制对象的定位和增益。

本发明的另一目的是提供一种对音频信号进行处理的装置及其方法，通过该装置和方法，可以在预定限制范围内基于用户所做的选择，控制对象的定位和增益。

本发明的进一步目的是提供一种用于处理音频信号的装置及其方法，通过该装置和方法，如果可以基于用户所做的选择来控制对象的定位和增益，则可以在用户界面上检查用于定位和增益控制的准则和/或对于定位和增益控制所做的限制。

有益效果

相应地，本发明提供以下效果和/或优点。

首先，本发明可以基于用户所做的选择来控制对象的增益和定位。

其次，在对象的增益和定位受控的情况下，本发明可以用对定位和/或增益调整提供限制范围的方式，防止根据定位和/或增益调整的声音质量的失真。

第三，在对象的增益和定位受控的情况下，本发明可以用在用户界面上显示可以检查用于定位和增益控制的准则和/或对定位和增益控制所做的限制的方式，防止根据定位和/或增益调整的声音质量的失真。

第四，在对象的增益和定位受控的情况下，本发明用在用户界面上显示调整结果的方式，使得用户可以检查是否实际执行了用户特定对象(user-specific object)的定位和增益调整。

附图说明

附图被包括进来以提供对本发明的进一步理解，并且附图被并入和组成本说明书的一部分，附图图示说明了本发明的实施例，并与描述一起解释本发明的原理。

在附图中：

图1是根据本发明一个实施例的音频信号处理装置的示图；

图2是根据本发明实施例的音频信号处理装置的框图；

图3是根据本发明实施例，包括在音频信号处理装置中的提取单元的配置的详细框图；

图4是根据本发明一个实施例，包括图形用户界面的音频信号处理装置的配置的框图；

图5是根据本发明一个实施例，使用图形用户界面来显示电平指导信息(level guide information)的方法的示图；

图6是根据本发明另一实施例，使用图形用户界面来显示电平指导信息的方法的示图；

图7是指示电平指导信息是否存在于比特流中以及指示电平指导信息在比特流中的位置的示图；

图8是根据本发明一个实施例的音频信号处理方法的流程图；

图9是根据本发明一个实施例，包括图形用户界面的音频信号处理装置的配置的框图，该图形用户界面被配置为显示对应于电平指导信息的表示(representation)；

图10是根据本发明又一实施例，包括图形用户界面的音频信号处理装置的配置的框图；

图11示出根据本发明一个实施例，显示与修改后的混合信息相对应的表示的方法；

图12是根据本发明另一实施例，显示与修改后的混合信息相对应的表示的方法的示图；

图13是根据本发明再一实施例，包括图形用户界面的音频信号处理装置的配置的框图；

图14是根据本发明又一实施例，包括图形用户界面的音频信号处理装置的配置的框图；

图15是产品的示意框图，其中实现了根据本发明一个实施例的音频信号处理装置；以及

图16A和图16B是根据本发明一个实施例，与音频信号处理装置一起提供的产品的关系的示图。

具体实施方式

本发明的其他特征和优点将在以下说明中阐述，并且部分地将因该说明而变得明显，或可通过本发明的实践而知悉。通过在所撰写的说明书及其权利要求以及附图中具体指出的结构，将实现并获得本发明的目的和其它优点。

为了实现这些和其他益处并根据本发明的目的，如所体现的和宽泛描述的，一种用于处理音频信号的方法，包括以下步骤：接收包括多个对象的下混合信号以及包括对象信息和下混合增益信息的比特流；获取用于指示在比特流中是否存在电平指导信息的用于所有帧的电平指导标记信息；基于电平指导标记信息，从比特流获取电平指导信息，电平指导信息表示应用于多个对象中至少一个对象的对象电平的限制；接收混合信息；基于电平指导信息和下混合增益信息，通过修改混合信息来产生修改后的混合信息；并且基于修改后的混合信息和对象信息，产生下混合处理信息和多声道信息中的至少一个，其中使用用于多个对象中至少一个对象的对象电平，估计混合信息，并且当产生下混合信号时，确定对象信息和下混合增益信息。

优选地，从比特流的头部获取用于所有帧的电平指导标记信息。

优选地，该方法进一步包括：获取用于指示在比特流的帧数据中是否存在电平指导信息的用于每个帧的电平指导标记信息，其中电平指导信息被从比特流的帧数据中获取，并且被应用于与帧数据相对应的当前帧。

优选地，电平指导信息对应于固定比特长度，并且该方法进一步包括：使用量化表，将用于所有帧的电平指导信息去量化(de-quantize)为电平指导参数，基于电平指导参数和下混合增益信息，通过修改混合信息来产生修改后的混合信息。

优选地，该对象信息包括对象电平信息和对象相关性信息中的至少一个，在不改变声道数量的情况下，下混合处理信息将处理下混合信号，多声道信息包括声道电平差异、声道间相关性和声道预测系数中的至少一个，使用用于至少一个对象的全部或一部分的进一步对象定位，来估计混合信息，并且当产生下混合信号时，下混合增益信息是应用于至少一个对象的增益值。

优选地，该方法进一步包括：使用下混合信号和下混合处理信息，产生处理后的下混合信号，并且基于处理后的下混合信号和多声道信息，产生多声道信号。

优选地，电平指导信息包括应用于多个对象的全部的公共限制。

优选地，电平指导信息包括应用于多个对象中的每一个的个别限制。

为了进一步实现这些和其他益处并根据本发明的目的，一种用于处理音频信号的装置，包括：接收单元，接收包括多个对象的下混合信号以及包括对象信息和下混合增益信息的比特流；提取单元，获取用于指示在比特流中是否存在电平指导信息的用于所有帧的电平指导标记信息，并且基于电平指导标记信息，从比特流获取电平指导信息，该电平指导信息表示应用于多个对象中至少一个对象的对象电平的限制；呈现控制单元，接收混合信息，并且基于电平指导信息和下混合增益信息，通过修改混合信息来产生修改后的混合信息；以及信息产生单元，基于修改后的混合信息和对象信息，产生下混合处理信息和多声道信息中的至少一个，其中使用用于多个对象中至少一个对象的对象电平，来估计混合信息，并且当产生下混合信号时，确定对象信息和下混合增益信息。

优选地，提取单元进一步包括：获取用于指示在比特流的帧数据中是否存在电平指导信息的用于每个帧的电平指导标记信息；其中电平指导信息被从比特流的帧数据中获取，并且被应用于与帧数据相对应的当前帧。

优选地，电平指导信息对应于固定比特长度，并且其中提取单元通过使用量化表，将用于所有帧的电平指导信息去量化为电平指导参数，其中基于电平指导参数和下混合增益信息，通过修改混合信息来产生修改后的混合信息。

优选地，该装置进一步包括：下混合处理单元，通过使用下混合信号和下混合处理信息，产生处理后的下混合信号；以及多声道解码器，基于处理后的下混合信号和多声道信息，产生多声道信号。

具体实施方式

现在将具体参考本发明的优选实施例，本发明的示例在附图中予以说明。首先，在本说明和权利要求中使用的术语和词语不被解释为受限于一般的意义或者字典的意义，而是应当基于发明人能够适当定义术语的概念以便用最佳方式描述发明人的发明的原理，而被解释为匹配于本发明的技术思想的意义和概念。在本公开中公开的实施例和在附图中示出的配置仅是优选实施例，并不代表本发明的所有技术思想。因此，应当理解，本发明涵盖本发明的修改和变化，只要在提交本申请的时间点，这些修改和变化处于所附权利要求以及其等效内容的范围之内。

可以基于以下标准解释在本发明中的以下术语，并且可以根据以下目的来解释未被解释的其他术语。具体而言，在本公开中，本公开中的信息是一般包括值、参数、系数、元素等的术语，并且有时可以对其意义做不同的解释，本发明并不受限于此。

图1是根据本发明一个实施例的音频信号处理装置的示图。

参照图1，根据本发明一个实施例的音频信号处理装置100主要包括下混合单元110和对象编码器120。将多个对象输入到下混合单元110来产生单声道或立体声下混合信号。另外，将多个对象输入对象编码器120，以产生指示对象的属性的对象信息。对象信息包括指示对象的电平的对象电平信息和指示对象间相关性的对象相关性信息。在下混合信号是立体声信号的情况下，对象信息包括指示增益间的差异的对象增益比率，该增益中的每一个指示在下混合信号的相应声道(channel)(例如，左声道、右声道等)中对象被包括的程度。而且，在产生下混合信号的情况下，对象编码器120可以附加地产生对象增益信息DMG，该对象增益信息DMG指示施加到对象的增益。另外，对象编码器120可以进一步产生电平指导信息，以下具体参照图2进行解释。

另外，对象编码器120可以通过将对象信息、下混合增益信息、电平指导信息等复用在一起，产生比特流。

同时，复用器(在附图中未示出)可以通过将下混合单元110产生的下混合信号以及对象编码器120产生的参数(例如，对象信息等)复用在一起，产生一个比特流。

图2是根据本发明一个实施例的音频信号处理装置的框图。

参照图2，根据本发明的音频处理装置200包括：接收单元210、提取单元220、呈现(rendering)控制单元230和对象解码器240，还可以进一步包括多声道解码器270。对象解码器240可以包括下混合处理器单元250和信息产生单元260。

接收单元210从音频信号处理装置100接收包括至少一个对象的下混合信号DMX，还接收包括对象信息的比特流。在这种情况下，比特流可以进一步包括下混合增益信息和电平指导信息。在附图中，示出的是分开地接收下混合信号和比特流。这样是为了有助于理解本发明。如在以上描述中提及的，可以通过将下混合信号包括在与其复用在一起的一个比特流中来发送下混合信号。

提取单元220从接收单元210所发送的比特流中提取下混合信息和电平指导信息。以下参照图4描述提取单元220的详情。

呈现控制单元230从用户接口(附图中未示出)接收混合信息MXI，还接收提取单元220所提取的下混合增益信息和电平指导信息。以下参照图4描述呈现控制单元230的详情。

混合信息是基于对象位置信息、对象增益信息、重放配置信息等而产生的信息。具体而言，对象位置信息是用户输入的信息，用来控制每个对象的位置或定位。并且，对象增益信息是用户输入的信息，用来控制每个对象的增益。并且，重放配置信息是包括扬声器数量、扬声器位置、环境信息(扬声器的虚拟位置)等的信息。重放配置信息由用户输入、被提前存储、或者可以被从其他设备接收。

在产生下混合信号的情况中，下混合增益信息指示施加到对象的增益。并且，电平指导信息是指示用于至少一个对象的再现电平的限制或对象电平的限制的信息。在这种情况下，在对象电平被过度地增大或抑制的情况中，需要对象电平的限制以防止声音质量失真。对象电平的限制可以包括：用于避免增大超过特定值的增大限制值，以及用于避免抑制超过特定值的抑制限制值。

电平指导信息由音频信号处理装置200自身产生，或者可以由用户提前定义。而本发明意图描述由编码器产生电平指导信息的情况。

基于电平指导信息和下混合增益信息，呈现控制单元230通过修改混合信息来产生修改后的混合信息。以下将参照图11解释这个过程的详情。将修改后的混合信息输入到信息产生单元260。

同时，参考图2，例如由用户输入混合信息，本发明并不受限于此。替代性地，混合信息包括通过被包括在比特流中而被输入给接收单元210的信息，或者可以包括从外部或单独地输入的信息。

同时，信息产生单元260可以基于修改后的混合信息，产生下混合处理信息和多声道信息中的至少一个。具体而言，在解码模式中(例如，输出模式是单声道、立体声或3D(双耳)输出)，信息产生单元260产生下混合处理信息。在转码模式的情况中(例如，输出模式是多声道模式)，信息产生单元260可以进一步产生多声道信息。

在这种情况下，下混合处理信息(DPI)是用于处理下混合的信息。在解码模式的情况中，下混合处理信息(DPI)是用于通过调整对象的电平和/或定位，来产生最终输出(例如，时域中的PCM信号)的信息。在转码模式的情况中，下混合处理信息(DPI)可以是用于在不改变声道数量的情况下，对立体声下混合信号调整对象定位的信息。在转码模式和单声道下混合信号的情况中，不产生下混合处理信息(DPI)，并且下混合信号DMX可以绕过下混合处理单元250。

同时，多声道信息是用于对下混合信号或者处理后的下混合信号进行上混合的信息。而且，多声道信息可以包括：声道电平信息、声道相关性信息和声道预测系数。

在由信息产生单元260产生下混合处理信息(DPI)的情况中，下混合处理单元250可以使用下混合信号和下混合处理信息(DPI)来产生处理后的下混合信号。在前述解码模式的情况中，处理后的下混合信号可以包括时域的PCM信号。在这种情况下，将处理后的下混合信号作为最终输出信号传送给诸如扬声器的输出设备，而不是传送给多声道解码器270。

将多声道信息输出到多声道解码器270。随后，通过使用处理后的下混合信号(在转码模式和立体声下混合的情况中)或者下混合信号DMX(在转码模式和单声道下混合的情况中)以及多声道信息(MI)来执行上混合，多声道解码器270可以最终产生多声道信号。

图3是根据本发明一个实施例，包括在音频信号处理装置中的提取单元的配置的详细框图。

参照图3，根据本发明实施例包括在音频信号处理装置中的提取单元200表示参照图2描述的提取单元220的具体配置。而且，提取单元200包括：下混合增益信息提取单元222、对象信息提取单元224、电平指导标记获取单元226、电平指导信息获取单元228和呈现控制单元230。

下混合增益信息提取单元222提取从参照图2描述的接收单元210接收到的比特流中所包括的下混合增益信息。在这种情况下，如在以上描述中提及的，下混合增益信息是用于指示施加到包括在下混合信号中的每个对象的增益的信息。

对象信息提取单元224从接收到的比特流中提取对象信息。在这种情况下，如在以上描述中提及的，对象信息可以包括：对象电平信息、对象相关性信息等。

电平指导标记获取单元226从接收到的比特流中获取电平指导标记。具体而言，电平指导标记可以包括：用于全部帧的电平指导标记和用于每个帧的电平指导标记。用于全部帧的电平指导标记指示在比特流中是否包括电平指导信息。可以在比特流的头部中包括该标记。同时，用于每个帧的电平指导标记信息指示在比特流的帧数据中是否存在电平指导信息。而且，也可以在比特流的头部中包括该标记。

根据电平指导标记获取单元226所获取的标记，将比特流引入到电平指导信息获取单元228。如果标记指示在接收到的比特流中包括电平指导信息(例如，如果标记的值被设置为1)，则将比特流引入到电平指导信息获取单元228。

相反，如果标记指示在接收到的比特流中不包括电平指导信息(例如，如果标记的值被设置为0)，则接收到的比特流绕过电平指导信息获取单元228。

在电平指导标记指示在比特流中包括电平指导信息的情况中，电平指导信息获取单元228从比特流中获取电平指导信息。在这种情况下，电平指导信息可以对应于全部帧或仅对应于特定帧，以下将参照图7对其详情进行解释。

呈现控制单元230从下混合增益信息获取单元220获取下混合增益信息，从用户接口(附图中未示出)获取混合信息，并且从电平指导信息获取单元228获取电平指导信息。基于电平指导信息，呈现控制单元230通过修改混合信息来产生修改后的混合信息。然后将修改后的混合信息传送给参照图2描述的信息产生单元260。

电平指导信息是指示用于至少一个对象的再现电平的限制的信息，并且可以例如包括用于对象的增益调整的范围。在这种情况下，可以将该范围设置为限制值，诸如上限、下限等，本发明并不受限于此。

限制值可以对应于用于特定对象的绝对增益值。例如，在包括2个对象(对象A、对象B)的对象信号中，将对象A(例如，语音对象)的增益调整范围设置在6dB内，并且可以将对象B(例如，吉他对象)的增益调整值设置在12dB内。以下将参照图8来对此做进一步的详细解释。

图4是根据本发明一个实施例，包括图形用户界面的音频信号处理装置的配置的框图。

参考图4，除了先前参照图2描述的音频信号处理装置200以外，根据本发明一个实施例的音频信号处理装置400可以进一步包括图形用户界面480。

图4中的接收单元410、提取单元420、呈现控制单元430、对象解码器440、下混合处理单元450、信息产生单元460和多声道解码器470分别与图2所示的相同名称组件的配置与功能相同，为了清楚起见，在以下描述中省略其详情。

图形用户界面480接收用于对至少一个对象的电平进行调整的用户输入。然后将根据用户输入而估计的混合信息输入到呈现控制单元430。

如前所述，呈现控制单元430可以用基于电平指导信息来修改混合信息的方式，产生修改后的混合信息。而且，图形用户界面480可以显示对应于修改后的混合信息的表示。

以下将参照图11具体描述经由图形用户界面480的用户输入和修改后的混合信息显示方法。

图5是根据本发明一个实施例，使用图形用户界面来显示电平指导信息的方法的示图。

参照图5，图形用户界面显示对应于电平指导信息的表示，电平指导信息指示用于包括在下混合信号中的多个对象中的至少一个对象的呈现限制(rendering limitation)。在这种情况下，该表示可以包括：表示呈现限制的非推荐呈现区域和表示除呈现限制以外的呈现范围的推荐呈现区域。

另外，图形用户界面另外地显示了用于接收用户输入的电平调节器(level fader)，该用户输入用于控制多个对象中的至少一个的电平。在这种情况下，对应于电平指导信息的表示可以与电平调节器相关联地显示。

电平调节器沿着直线或曲线操作。可以在直线或曲线上显示非推荐呈现区域和推荐呈现区域中的每一个。而且，电平调节器可在推荐呈现区域内操作。

图5示出电平调节器沿着直线操作，本发明不受限于此。推荐呈现区域的形状(或形式)不同于非推荐呈现区域的形状(或形式)。也就是说，形状可以例如包括颜色、亮度、纹理和图案中的至少一种。

参照图5，例如如果描述了低音对象，则推荐呈现区域510被表示为绿线，而非推荐呈现区域520可以被表示为红线。

本发明参照颜色区分了推荐呈现区域和非推荐呈现区域的形状，本发明并不受限于此。如前所述，本发明可以包括参照亮度、纹理、图案等来实现视觉区分的所有情况。

在调整对象的增益和定位，尤其是对象的增益的情况中，用户可以基于对应于电平指导信息的表示，来查看用于增益调整的限制范围。因此，可以防止声音质量根据定位调整和/或增益调整而失真。

图6是根据本发明另一个实施例，使用图形用户界面来显示电平指导信息的方法的示图。

图5所示的显示方法仅提供了用于增益调整的限制范围，但是没有对未偏离范围的增益调整做出限制。因此，声音质量可能根据用户做出的增益调整而失真。

参照图6，为了防止以上问题，显示了电平调节器的上限和下限。并且，基于电平指导信息，使得用户不偏离用于增益调整的限制范围。因此，可以防止声音质量根据用户做出的增益调整而失真。

可以将用户输入所估计的上述混合信息作为公式1所示的呈现矩阵而输入。在公式1所示的呈现矩阵中，每行指示输入信号的每个声道，每列指示在输入信号中包括的每个对象。因此，可以根据该矩阵确定从每个声道输出的每个对象的大小。

具体而言，可以通过公式2估计在呈现矩阵中的N个对象中的第i个对象的输出。

数学式1

M_{ren} = [\begin{matrix} m_{0, Lf} & . . . & m_{N - 1, Lf} \\ m_{0, Rf} & . . . & m_{N - 1, Rf} \\ m_{0, C} & . . . & m_{N - 1, C} \\ m_{0, Lfe} & . . . & m_{N - 1, Lfe} \\ m_{0, Ls} & . . . & m_{N - 1, Ls} \\ m_{0, Rs} & . . . & m_{N - 1, Rs} \end{matrix}]

数学式2

电平指导信息是指示用于至少一个对象的再现电平的限制的信息，并且也是对下混合增益信息的相对值。因此，可以将上述修改后的混和信息表示为公式3。

数学式3

在公式3中，

L_{i，下混合}＝DMG，

DMG_i|是未被量化的下行链路增益信息。

最终，可以将修改后的混合信息推导进公式4所示的呈现矩阵。

数学式4

另外，在混合信息不作为矩阵而是作为电平值(L_i，输入)和定位值(P_i，输入)而输入的情况中，有利于指导和/或限制该混合信息。具体而言，假定修改后的混合信息包括与输入信号中所包括的对象的输出电平期望值相对应的全部能量，则可以将用于修改混合信息的处理表示为公式5。

数学式5

另外，可以使用指导或限制后的电平值(L_i，限制)和输入的定位值(P_i，输入)，来计算公式1所示的矩阵。

用编码器将本发明的音频信号编码为包括多个对象的下混合信号以及包括对象信息和下混合增益信息的比特流。然而将它们作为一个比特流或单独的比特流发送给解码器。

同时，比特流可以包括电平指导信息和电平指导标记信息，该电平指导信息指示关于多个对象中的至少一个对象的呈现限制，该电平指导标记信息指示电平指导信息是否存在于比特流中。

电平指导标记可以在如表1所示的语法中携带。

表1

电平指导标记(bsExtlndRgiFlag)	意义
		0	在比特流中存在电平指导信息
1	在比特流中不存在电平指导信息

同时，可以将电平指导信息作为对于所有对象公用的一个信息来发送，或者可以作为应用于每个对象的信息来发送。

表2示出用于指示电平指导信息是否是应用于每个对象的信息的电平指导属性信息以及电平指导属性信息的意义。

表2

同时，将电平指导信息包括在比特流的配置信息区域中，然后被公共地应用于位于后面的所有数据区域。替代性地，电平指导信息被包括在多个数据区域中的每一个中，并且然后可个别地应用于每个数据区域。

图7是用于指示电平指导信息在比特流中是否存在以及指示电平指导信息在比特流中的位置的示图。以下参照图7描述电平指导信息的位置和目标。在图7中，(a)或(b)对应于在比特流中包括电平指导信息的情况，而(c)对应于在比特流中未包括电平指导信息的情况。

首先，参照图7的(a)，在比特流的配置信息区域中包括电平指导信息。在这种情况下，配置信息区域可以对应于头部，该头部包括被公共地应用于一个帧的信息，诸如采样速率、频率分辨率、帧长度等。在这种情况下，从配置信息区域提取的电平指导信息同样地应用于下混合信号的所有数据区域或者所有帧。

相反，参照图7的(b)，在数据区域或者帧数据中包括电平指导信息。在这种情况下，将从相应数据区域提取的电平指导信息应用于对应于帧数据的当前帧，以对调整对象的定位和增益做出限制。

在配置信息区域中包括电平指导信息的情况中，可以将电平指导信息称为静态的。在这种情况下，电平指导信息被公共地同样地应用于所有数据区域。

相反，如果在比特流的数据区域中包括电平指导信息，则可以将电平指导信息称为动态的。在这种情况下，仅将电平指导信息应用于相应的数据区域，从而可以调整在相应数据区域中的下混合信号中所包括的对象的定位和增益。

在根据本发明的音频信号处理方法中，电平指导信息可以是确定用于调整对象的增益的限制范围(上限或下限)的信息。尤其是，如果将电平指导信息设置为3dB，则可以将对象的增益向上调整到3dB。如果将电平指导信息设置为12dB，则可以将对象的增益向上调整到12dB。

然而，根据本发明的电平指导信息并不受限于确定用于调整对象的增益的限制范围的信息。例如，根据本发明的电平指导信息可以包括按照用户输入的比例而确定以用于调整对象增益的信息。

具体而言，在用户将对象的增益调整10dB的情况中，可对全部10dB或者10dB的50％的5dB做出限制，或者可不做限制。

如上所述，根据本发明的电平指导信息可能在其意义上有所不同，但是具有相同的目的，即，对调整对象的增益做出限制。因此，本发明并不受限于以上描述。

图8是根据本发明一个实施例，用于音频信号处理方法的流程图。

参照图8，根据本发明一个实施例的音频信号处理方法包括以下步骤。

首先，接收比特流，该比特流包括：包含多个对象的下混合信号，以及包含对象信息和下混合增益信息的比特流[S810]。

随后，获取用于指示在比特流中是否存在电平指导信息的关于所有帧的电平指导标记信息[S815]。

如果将用于所有帧的电平指导标记设置为1[S820]，则从比特流获取电平指导信息[S825]，然后获取混合信息[S830]。

随后，基于获取的电平指导信息和下混合增益信息，修改混合信息[S835]。基于修改后的混合信息和对象信息，产生下混合处理信息和多声道信息中的至少一个[S855]。

同时，如果电平指导标记未被设置为1[S820]，则用于指示电平指导信息是否存在于比特流的帧数据中的关于每个帧的电平指导标记信息，基于关于每个帧的电平指导标记信息，从比特流的帧数据获取电平指导信息[S840]，以及获取混合信息[S845]。同时，将电平指导信息应用于对应于帧数据的当前帧。

随后，基于获取的电平指导信息和下混合增益信息，修改混合信息[S850]。基于修改后的混合信息和对象信息，产生下混合处理信息和多声道信息中的至少一个[S855]。

图9是根据本发明一个实施例，包括图形用户界面的音频信号处理装置的配置的框图，该图形用户界面被配置为显示与电平指导信息相对应的表示。

参照图9，根据本发明一个实施例的包括图形用户界面的音频信号处理装置900与先前参照图4描述的音频信号处理装置的配置相同，其中该图形用户界面被配置为显示与电平指导信息相对应的表示。

因此，接收单元910、提取单元920、对象解码器940、下混合处理单元950、信息产生单元960和多声道解码器970具有与图4所示的相同名称组件相同的配置，在以下描述中省略其详情。

如在以上参照图5的描述中提及的，图形用户界面980可以显示对应于电平指导信息的表示，该电平指导信息指示对包括在下混合信号中的多个对象中的至少一个对象的呈现限制。另外，图形用户界面980可以显示从提取单元920接收到的电平指导信息。

然而，由于音频信号处理装置900不包括在先前的音频信号处理装置400中所包括的呈现控制单元430，所以图形用户界面980接收用于控制多个对象中至少一个对象的电平的用户输入，并且仅将由用户输入所估计的混合信息输出给信息产生单元960，但是其不能经由呈现控制单元430基于电平指导信息来修改混合信息。

图10是根据本发明又一实施例，包括图形用户界面的音频信号处理装置的配置的框图。

参照图10，根据本发明一个实施例的包括图形用户界面的音频信号处理装置1000与先前参照图4描述的音频信号处理装置的配置相同，该图形用户界面被配置为显示与电平指导信息相对应的表示。

因此，图10中的接收单元1010、提取单元1020、呈现控制单元1030、对象解码器1040、下混合处理单元1050、信息产生单元1060、多声道解码器1070和图形用户界面1080分别与图4所示的相同名称组件的配置与功能相同，为了简洁，在以下描述中省略其详情。

参照图10，图形用户界面1080接收用于对至少一个对象的电平进行调整的用户输入。然后将由用户输入估计的混合信息输入到呈现控制单元1030。

同时，呈现控制单元1030可以基于电平指导信息，通过修改混合信息来产生修改后的混合信息。而且，图形用户界面1080可以显示对应于修改后的混合信息的表示。

图11示出根据本发明一个实施例，显示对应于修改后混合信息的表示的方法。

如在以上参照图5的描述中提及的，根据本发明的图形用户界面可以显示用于显示呈现限制的非推荐呈现区域1100以及用于显示除呈现限制以外的呈现范围的推荐呈现区域1110，并且还可以显示用于接收用户输入的电平调节器，该用户输入用于控制在下混合信号中包括的多个对象中的至少一个对象的电平。

参照图11(a)，用户将吉他对象的电平向上调整到偏离推荐呈现区域1110的非推荐呈现区域1100。如果如此，参照图11(b)，由于用于吉他对象的用户输入对应于呈现限制(即，用户输入超过呈现限制范围)，因此可将用户输入改变到呈现范围内。

具体而言，当基于用户输入产生的混合信息是+50dB时，如果基于电平指导信息(例如，用于指示推荐呈现区域和非推荐呈现区域的信息)修改了混合信息，则电平调节器的回弹动作(rebound movement)会发生，达到推荐呈现区域(30dB)。

同时，在包括两个对象(对象A、对象B)的下混合信号中，当例如输入用于对对象A执行+20dB的混合信息时，如果基于电平指导信息和内部操作，用于对象A的输出是+20dB，则修改后的混合信息与输入的混合信息彼此相等。

在图形用户界面方面，例如参照图5，将对应于对象A(例如吉他)的电平调节器提升到+20dB的结果出现了。

如果用户另外地输入用于对对象B(例如，语音)执行-10dB的混合信息，则将对象A和对象B设置为与原始状态有20dB的差异。如果这超过了在电平指导信息中确定的限制范围，则内部地产生并应用从混合信息修改的修改后的混合信息(例如，修改后的混合信息可以将对象A调整到+15dB，或者将对象B调整到-5dB)。

如在以上描述中提及的，使用用户输入而估计的混合信息(对象A：+20dB，对象B：-10dB)以及修改后的混合信息(对象A：+15dB，对象B：-5dB)是不匹配的，该修改后的混合信息是基于所估计的混合信息将GUI所表示的值实际应用于其而得到的。

因此，实际应用的混合信息和由用户输入所估计的混合信息需要通过向用户显示修改后的混合信息来彼此匹配。

图12示出根据本发明另一实施例，显示对应于已修改混合信息的表示的方法的原理图。

参照图12，用户输入混合信息，用于将对应于对象A(例如，吉他)的电平调节器提升到+20dB，并且对对象B(例如，语音)执行-10dB。

在这种情况下，对象A和对象B将被设置为与原始状态有30dB的差异。如果这超过了在电平指导信息中确定的限制范围，则内部地产生并应用从混合信息修改的修改后的混合信息(例如，修改后的混合信息可以将对象A调整到+15dB，并且将对象B调整到-5dB)。

在这种情况下，可以显示对应于修改后的混合信息的表示。

根据本发明一个实施例在GUI上显示修改后的混合信息的方法可以使用以电平调节器的形式显示修改后的混合信息的方法，本发明不受限于此。

在这种情况下，可以使用消息、警告声音、打开或关闭警告灯和/或等等，在GUI上显示对应于修改后的混合信息的表示。

尽管本发明涉及与对象的电平相关联地修改混合信息的情况，但是其也可以同样地应用于对象的定位的情况。

图13是根据本发明再一个实施例，包括图形用户界面的音频信号处理装置的配置的框图。

参照图13，根据本发明再一个实施例的音频信号处理装置1300具有与先前参照图10描述的音频信号处理装置相同的配置。

图13中的接收单元1310、提取单元1320、呈现控制单元1330、对象解码器1340、下混合处理单元1350、信息产生单元1360、多声道解码器1370和图形用户界面1380分别与图10所示的相同名称组件的配置和功能相同，为了清楚，在以下描述中省略其详情。

参照图13，图形用户界面1380接收用于对至少一个对象的电平进行调整的用户输入。然后将由用户输入估计的混合信息输入到呈现控制单元1330。

可以用仅为了屏幕显示将修改后的混合信息显示为GUI，而不将修改后的混合信息用于实际调整输出音频信号的电平和定位的方式，来描述根据本发明再一个实施例的音频信号处理装置1300。

例如，使用先前参照图12解释的示例，可以用以下方式做出相同描述。

首先，用户输入混合信息，以用于将对应于对象A(例如，吉他)的电平调节器提升到+20dB，并且对对象B(例如，人声)执行-10dB。

在这种情况下，对象A和对象B将被设置为与原始状态有30dB的差异。即使这超过了在电平指导信息中确定的限制范围，也将按原样内部地应用混合信息。然而，通过将修改后的混合信息(例如，修改后的混合信息可以将对象A调整到+15dB，将对象B调整到-5dB)显示为电平调节器或GUI上的文本(字符或数字)，用户可以检查修改后的混合信息。

图14是根据本发明又一个实施例，包括图形用户界面的音频信号处理装置的配置的框图。

参照图14，根据本发明又一个实施例的音频信号处理装置1400具有与先前参照图13描述的音频信号处理装置1400几乎相同的配置。

图14中的接收单元1410、提取单元1420、对象解码器1440、下混合处理单元1450、信息产生单元1460和多声道解码器1470分别与图13所示的相同名称组件的配置和功能相同，为了清楚，在以下描述中省略其详情。

呈现控制单元1430接收混合信息，然后根据混合信息和用于选择限制模式或非限制模式的模式选择信息，基于电平指导信息，对混合信息进行修改，从而输出修改后的混合信息之一。

因此，用户可以将模式选择信息输入给图形用户界面1480。通过这样，呈现控制单元1480将混合信息或修改后的混合信息输出给信息产生单元1460。然后，信息产生单元1460可以基于对象信息以及混合信息或修改后的混合信息，来产生下混合处理信息和多声道信息中的至少一个。

同时，如在以上描述中提及的，根据本发明在音频处理装置1400中包括的图形用户界面1480可以显示对应于修改后的混合信息的表示。

图15是产品的示意框图，在该产品中实现了根据本发明一个实施例的音频信号处理装置。并且，图16A和图16B是用于产品关系的示图，每个产品具备根据本发明一个实施例的音频信号处理装置。

参照图15，有线/无线通信单元1510经由有线/无线通信系统接收比特流。具体而言，有线/无线通信单元1510可以包括有线通信单元1511、红外单元1512、蓝牙单元1513和无线LAN单元1514中的至少一个。

用户鉴权单元1520接收用户信息的输入，然后执行用户鉴权。用户鉴权单元1520可以包括指纹识别单元1521A、虹膜识别单元1522、面部识别单元1523和语音识别单元1524中的至少一个。指纹识别单元1521、虹膜识别单元1522、面部识别单元1523和语音识别单元1524分别接收指纹信息、虹膜信息、面部轮廓信息和语音信息，然后将它们转换为用户信息。确定每个用户信息是否匹配于预登记的用户数据，以执行用户鉴权，。

输入单元1530是使得用户可以输入各种命令的输入设备，并且可以包括键盘单元1531、触摸板单元1532和远程控制器单元1533中的至少一个，本发明并不受限于此。

同时，在音频信号处理装置1541产生混合信息和修改后的混合信息中的至少一个，并且经由显示单元1562在屏幕上显示混合信息或修改后的混合信息的情况中，用户可以通过输入单元1530调整混合信息。相应的信息被输入控制单元1550。

信号解码单元1540包括音频信号处理装置1541。信号解码单元1540基于对象信息以及混合信息与修改后的信息中的至少一个，产生下混合处理信息和多信道信息中的至少一个。

控制单元1550从输入设备接收输入信号，并且控制信号解码单元1540和输出单元1560的全部处理。

具体而言，输出单元1560是被配置为输出由信号解码单元1540所产生的输出信息等的元件，并且其可以包括扬声器单元1561和显示单元1562。如果输出信号是音频信号，则其经由扬声器单元1561输出。如果输出信号是视频信号，则经由显示单元1562输出。

图16A和图16B是用于产品关系的示图，每个产品具备根据本发明一个实施例的音频信号处理装置。参照图16A，可以看出第一终端1610和第二终端1620可以经由有线/无线通信单元，彼此双向地交换数据或比特流。经由有线/无线通信单元交换的数据或比特流可以包括图1所示的本发明所产生的比特流或者包括有参照图1至15描述的本发明的电平指导标记信息、电平指导信息等的数据。参照图16B，可以看出服务器1630和第一终端1640也可以彼此执行有线/无线通信。

工业实用性

因此，本发明可应用于音频信号编码/解码。

尽管在本文中已经参照本发明的优选实施例对本发明进行了描述和说明，但是对于本领域的技术人员来说显而易见的是，在不偏离本发明的精神和范围的前提下，可以做出各种修改和变化。因此，意图使本发明涵盖位于所附权利要求及其等效内容范围之内的本发明的修改和变化。

Claims

1.一种用于处理音频信号的方法，包括：

接收包括多个对象的下混合信号以及包括对象信息和下混合增益信息的比特流；

获取用于指示在所述比特流中是否存在电平指导信息的电平指导标记信息；

基于所述电平指导标记信息，从所述比特流获取所述电平指导信息，所述电平指导信息表示应用于所述多个对象中至少一个对象的对象电平的限制；

接收混合信息；

基于所述电平指导信息和所述下混合增益信息，通过修改所述混合信息来产生修改后的混合信息；以及

基于修改后的混合信息和所述对象信息，产生下混合处理信息和多声道信息中的至少一个，

其中使用所述多个对象中至少一个对象的对象电平估计所述混合信息，

并且其中当产生所述下混合信号时，确定所述对象信息和所述下混合增益信息。

2.如权利要求1所述的方法，其中从所述比特流的头部获取所述电平指导标记信息。

3.如权利要求1所述的方法，进一步包括：

获取用于指示在所述比特流的帧数据中是否存在电平指导信息的用于每个帧的电平指导标记信息；

其中从所述比特流的帧数据获取所述电平指导信息，并且将所述电平指导信息应用于与所述帧数据相对应的当前帧。

4.如权利要求1所述的方法，其中所述电平指导信息对应于固定比特长度，并且

所述方法进一步包括：

使用量化表，将所述电平指导信息去量化为电平指导参数，

基于所述电平指导参数和所述下混合增益信息，通过修改所述混合信息来产生修改后的混合信息。

5.如权利要求1所述的方法，其中：

所述对象信息包括对象电平信息和对象相关性信息中的至少一个，

在不改变声道数量的情况下，所述下混合处理信息将处理所述下混合信号，

所述多声道信息包括声道电平差异、声道间相关性和声道预测系数中的至少一个，

进一步使用所述至少一个对象的全部或一部分的对象定位估计所述混合信息，以及

当产生所述下混合信号时，所述下混合增益信息是应用于至少一个对象的增益值。

6.如权利要求1所述的方法，进一步包括：

使用所述下混合信号和所述下混合处理信息，产生处理后的下混合信号；以及，

基于所述处理后的下混合信号和所述多声道信息，产生多声道信号。

7.如权利要求1所述的方法，其中所述电平指导信息包括应用于所述多个对象的全部的公共限制。

8.如权利要求1所述的方法，其中所述电平指导信息包括应用于所述多个对象中的每一个的个别限制。

9.一种用于处理音频信号的装置，包括：

接收单元，接收包括多个对象的下混合信号以及包括对象信息和下混合增益信息的比特流；

提取单元，获取用于指示在所述比特流中是否存在电平指导信息的电平指导标记信息，并且基于所述电平指导标记信息，从所述比特流获取电平指导信息，所述电平指导信息表示应用于所述多个对象中至少一个对象的对象电平的限制；

呈现控制单元，接收混合信息，并且基于所述电平指导信息和所述下混合增益信息，通过修改所述混合信息来产生修改后的混合信息；以及

信息产生单元，基于所述修改后的混合信息和所述对象信息，产生下混合处理信息和多声道信息中的至少一个，

10.如权利要求9所述的装置，其中从所述比特流的头部获取所述电平指导标记信息。

11.如权利要求9所述的装置，其中所述提取单元进一步获取用于指示在所述比特流的帧数据中是否存在电平指导信息的用于每个帧的电平指导标记信息，

12.如权利要求9所述的装置，其中所述电平指导信息对应于固定比特长度，并且

其中所述提取单元使用量化表，将所述电平指导信息去量化为电平指导参数，

其中基于所述电平指导参数和所述下混合增益信息，通过修改所述混合信息来产生修改后的混合信息。

13.如权利要求9所述的装置，其中：

14.如权利要求9所述的装置，进一步包括：

下混合处理单元，通过使用所述下混合信号和所述下混合处理信息，产生处理后的下混合信号；以及，

多声道解码器，基于所述处理后的下混合信号和所述多声道信息，产生多声道信号。

15.如权利要求9所述的装置，其中所述电平指导信息包括应用于所述多个对象的全部的公共限制。

16.如权利要求9所述的装置，其中所述电平指导信息包括应用于所述多个对象中的每一个的个别限制。