CN1957640A

CN1957640A - 用于生成对低位速率应用的参数表示的方案

Info

Publication number: CN1957640A
Application number: CNA2005800170783A
Authority: CN
Inventors: 弗莱德里克·赫恩; 乔纳斯·罗丹
Original assignee: Coding Technologies Sweden AB
Current assignee: Coding Technologies Sweden AB
Priority date: 2004-04-16
Filing date: 2005-04-14
Publication date: 2007-05-02
Anticipated expiration: 2025-04-14
Also published as: EP1745676A1; US20070127733A1; HK1101848A1; SE0400997D0; WO2005101905A1; JP2007533221A; JP4688867B2; CN1957640B; KR20070001227A; US8194861B2; JP2010154548A; JP5165707B2; KR100855561B1; EP1745676B1

Abstract

为了生成对尤其适合于低位速率应用的多声道信号的参数表示，使用方向参数信息只对播放装置内的最大声能的位置进行编码和发送。为了进行多声道重构(54)，由方向参数信息对由方向参数信息标识的输出声道的能量分布进行控制(57)，而不由方向参数信息来对剩余环境声道(59)中的能量分布进行控制。

Description

用于生成对低位速率应用的参数表示的方案

技术领域

本发明涉及使用空间参数对音频信号的多声道表示进行编码。本发明教导了用于对用于根据比输出声道的数量少的声道数量重新创建多声道信号的参数进行定义和估计的新方法。具体地，本发明旨在使得多声道表示的位速率最小化，并提供了多声道信号的编码表示，其使得能够容易地针对所有可能的声道配置对数据进行编码和解码。

背景技术

随着对例如广播系统中的多声道音频的兴趣的增长，对数字低位速率音频编码技术的需求是明显的。在PCT/SE02/01372“Efficient andscalable Parametric Stereo Coding for Low Bitrate Audio CodingApplications”中表明，可以根据立体声声像的单声道缩混(down mix)信号和附加的非常简洁的参数表示，重新创建出与原始立体声声像非常接近地类似的立体声声像。基本原理是将输入信号分成多个频带和时间段，对于这些频带和时间段，估计声道间强度差(IID)和声道间相参性(ICC)，第一个参数是对特定频带中的两个声道之间的功率分布的测度，第二个参数是对特定频带的两个声道之间的相关性的估计。在解码器侧，通过根据所发送的IID数据将单声道信号分布在两个输出声道之间，并通过添加去相关环境信号以保持原始立体声声道的声道相关性质，来根据单声道信号重新创建立体声声像。

存在根据立体声信号创建多声道输出的几种矩阵化技术。这些技术通常依靠相位差来创建后置声道(back channel)。通常，与前置声道(front channel)相比，后置声道稍微延迟。为了使得性能最大化，在编码器侧使用从多声道信号到两个立体声基本声道的特殊的缩混规则来创建立体声文件。这些系统通常具有稳定的前置声像而在后置声道中具有一些环境声音，并且将复杂声音材质分离到不同扬声器中的能力有限。

存在几种多声道配置。最公知的配置是5.1配置(中声道、左前/右前、左环绕/右环绕以及LFE声道)。ITU-R BS.775定义了用于获得包括比给定声道配置少的声道的声道配置的几种缩混方案。不是始终必须对所有声道进行解码并依赖于缩混，而是在对声道进行解码之前，可能期望如下多声道表示，其使得接收器能够方便地提取针对播放声道配置的相关参数。另一另选缩混方案是具有可以映射到解码器侧的任何扬声器组合的多个参数。此外，从可调节(scalable)或嵌入式编码的观点出发，期望固有地可调节的参数集合，其中例如可以将与环绕声道相对应的数据以位流形式存储在增强层中。

在现有技术中，使用总和信号或缩混信号和附加的参数化侧信息的另一多声道信号表示被公知为双耳暗示编码(BCC)。在以下文献中描述了该技术：“Binaural Cue Coding-Part 1：Psycho-AcousticFundamentals and Design Principles”，IEEE Transactions on Speechand Audio Processing，vol.11，No.6，November 2003，F.Baumgarte，C.Faller和“Binaural Cue Coding.Part II：Schemes and Applications”，IEEE Transactions on Speech and Audio Processing，vol.11，No.6，November 2003，C.Faller and F.Baumgarte。

通常，双耳暗示编码是用于基于一个缩混的音频声道和侧信息进行多声道空间渲染的方法。要由BCC编码器计算并由BCC编码器使用以进行音频重构或音频渲染的几个参数包括声道间水平差、声道间时间差、以及声道间相参性参数。这些声道间暗示是用于感知空间图像的决定性因素。对原始多声道信号的时间采样的块赋予这些参数，并且这些参数是频率选择性的，以使得多声道信号采样的每个块都具有针对若干频带的若干暗示。在C播放声道的通常情况下，在多个声道对之间的每个子带中(即，针对相对于参考声道的每个声道)考虑声道间水平差和声道间时间差。将一个声道定义为对于每个声道间水平差的参考声道。根据声道间水平差和声道间时间差，可以将源渲染到所使用的播放装置的多个扬声器对中的一对之间的任何方向。为了确定所渲染的源的宽度或漫射性，针对所有音频声道，每子带考虑一个参数就足够了。该参数是声道间相参性参数。通过修改子带信号使得所有可能的声道对具有同一声道间相参性参数来控制所渲染的源的宽度。

在BCC编码中，所有声道间水平差都是在参考声道1与任何其他声道之间确定的。例如，当将中声道确定为参考声道时，计算左声道与中声道之间的第一声道间水平差、右声道与中声道之间的第二声道间水平差、左环绕声道与中声道之间的第三声道间水平差、以及右环绕声道与中声道之间的第四声道间水平差。此情况描述了5声道方案。当5声道方案附加地包括低频增强声道(其也被称为“重低音(sub-woofer)”声道)时，计算该低频增强声道与中声道(其为唯一的参考声道)之间的第五声道间水平差。

当使用单个缩混声道(其也被称为“单”声道)和所发送的诸如ICLD(声道间水平差)、ICTD(声道间时间差)以及ICC(声道间相参性)的暗示来重构原始多声道时，使用这些暗示来修改单声道信号的谱系数。使用确定了各谱系数的水平修改的正实数来执行水平修改。使用确定了各谱系数的相位修改的量值的复数来生成声道间时间差。另一个函数确定了相参性影响。通过首先计算参考声道的因子来计算各声道的水平修改的因子。将参考声道的因子计算成使得：针对各频率划分，所有声道的功率之和等于总和信号的功率。然后，基于参考声道的水平修改因子，使用相应的ICLD参数来计算其他声道的水平修改因子。

由此，为了执行BCC合成，要计算参考声道的水平修改因子。为了进行该计算，需要针对频带的所有ICLD参数。然后，基于单个声道的该水平修改，可以计算出其他声道(即，不是参考声道的声道)的水平修改因子。

该方法的缺点在于，为了完全重构，需要每一个声道间水平差。当存在易出错的发送声道时，该要求更加成问题。所发送的声道间水平差中的每个错误都会导致所重构的多声道信号的错误，因为需要每一个声道间水平差来计算每一个多声道输出信号。此外，当在发送过程中丢失了声道间水平差时，不可能进行重构，尽管只有例如左环绕声道或右环绕声道需要该声道间水平差，而这些声道对于多声道重构来说不是那么重要，因为在左前声道(随后被称为左声道)、右前声道(随后被称为右声道)或中声道中包括了大部分信息。当在发送过程中丢失了低频增强声道的声道间水平差时，该情况变得更差。在此情况下，不可以进行多声道重构或者只可以进行错误的多声道重构，尽管低频增强声道对于听众的听觉舒适来说不是那么决定性的。由此，单个声道间水平差的错误被蔓延为所重构的多个输出声道中的每一个内的错误。

虽然这些多声道参数化方案基于对能量分布进行充分重构的意图，但是为了对能量分布进行这种正确的重构而必须付出的代价是增大的位速率，因为必须发送用于进行空间能量分布的大量声道间水平差或平衡参数。尽管这些能量分布方案自然不会执行对原始声道的时间波形的精确重构，然而由于精确的能量分布特性，它们无论如何也会得到足够的输出声道质量。

然而，对于低位速率应用，这些方案仍然需要太多的位，这导致如下后果：对于这些低位速率应用，人们不会关心多声道重构，而是只满足于单声道或立体声重构。

发明内容

本发明的目的是提供多声道处理方案，该多声道处理方案使得即使在低位速率限制的情况下也可以进行多声道重构。

该目的是通过以下设备、方法、计算机程序以及参数表示来实现的：根据权利要求1的用于生成参数表示的设备、根据权利要求19的用于对多声道信号进行重构的设备、根据权利要求28的生成参数表示的方法、根据权利要求29的对多声道信号进行重构的方法、根据权利要求30的计算机程序或根据权利要求31的参数表示。

本发明基于如下发现：多声道表示的听者的主要的主观听觉感受是通过她或他对播放装置中声能所集中的特定区域/方向的辨识而产生的。听者可以在某个精确度内对该区域/方向进行定位。然而，对于主观收听印象来说不是那么重要的是各个扬声器之间的声能的分布。当例如所有声道的声能集中在播放装置的一扇形(其在参考点(优选地，其为播放装置的中心点)与两个扬声器之间延伸)之内时，对于听者的主观质量印象来说，能量在其他扬声器之间如何分布不是那么重要。当对重构出的多声道信号与原始多声道信号进行比较时，已经发现，当声能在所重构出的声场中的某个区域内的集中性类似于原始多声道信号的对应情况时，在很高程度上是令用户满意的。

鉴于此，变得清楚的是：现有技术的参数化多声道方案对大量冗余信息进行处理和发送，因为这种方案关注于对播放装置中的所有声道之间的完全分布进行编码和发送。

根据本发明，只对包括最大局部声能的区域进行编码，而忽略掉其他声道之间的能量分布(其对该最大局部声能没有主要贡献)，因此，并非涵盖用于发送该信息的任何位。由此，与现有技术完全能量分布系统相比，本发明对来自声场的更少的信息进行编码和发送，因此，使得即使在非常有限的位速率条件下也可以进行多声道重构。

换句话说，本发明确定最大局部声音区相对于参考位置的方向，并基于该信息，在解码器侧选择扬声器的子组，如限定了最大声音所位于的扇形的扬声器或围绕该最大声音的两个扬声器。该选择过程只使用了所发送的针对最大能量区的方向信息。在解码器侧，将所选择的声道中的信号的能量设定成使得重构出最大局部声音区。所选择的声道中的能量可以-并且必然-不同于原始多声道信号中的对应声道的能量。然而，最大局部声音的方向与原始信号中的最大局部声音的方向相同或者至少相当类似。将合成地创建针对剩余声道的信号作为环境信号。还根据所发送的(多个)基本声道(其典型地将是单声道)来推导出环境信号。然而，为了生成环境声道，本发明并不一定需要任何发送的信息。取而代之，例如通过使用用于生成解相关信号的混响器或任何其他公知设备，从单声道信号推导出针对环境声道的解相关信号。

为了确保所选择的声道和剩余声道的组合能量类似于单声道信号或原始信号，执行水平控制，该水平控制对所选择的声道和剩余声道中的所有信号进行调节，使得满足能量条件。然而，对所有声道的该调节并不会导致最大能量区的移动，因为该最大能量区是由所发送的方向信息确定的，该方向信息用于选择声道并用于对所选择的声道中的能量之间的能量比进行调整。

随后，对两个优选实施例进行总结。本发明涉及音频信号的参数化多声道表示的问题。一个优选实施例包括用于对位于多声道音频信号内的声音定位进行编码和解码的方法，该方法包括以下步骤：在给定了所述多声道信号的情况下，在所述编码器侧对所述多声道信号进行缩混；选择所述多声道信号内的声道对；在所述编码器处，计算用于对在所述选择的声道之间的声音进行定位的参数；对所述定位参数和所述声道对选择进行编码；以及在所述解码器侧，根据从位流数据解码出的所述选择和定位参数来重新创建多声道音频。

另一实施例包括用于对多声道音频信号内的声音定位进行编码和解码的方法，该方法包括以下步骤：在给定了所述多声道信号的情况下，在所述编码器侧对所述多声道信号进行缩混；计算表示所述多声道信号的角度和半径；对所述角度和所述半径进行编码；以及在所述解码器侧，根据从位流数据解码出的所述角度和所述半径来重新创建多声道音频。

附图说明

下面参照附图仅以不限制本发明的范围或精神的例示性示例的方式对本发明进行描述，在附图中：

图1a例示了用于选路和声像调节(pan)参数系统的可能的信号表示；

图1b例示了用于选路和声像调节参数系统的可能的信号表示；

图1c例示了用于选路和声像调节参数系统的可能的信号表示；

图1d例示了用于选路和声像调节参数系统的可能的框图；

图2例示了用于选路和声像调节参数系统的可能的信号表示表；

图3a例示了可能的两声道声像调节；

图3b例示了可能的三声道声像调节；

图4a例示了用于角度和半径参数系统的可能的信号表示；

图4b例示了用于角度和半径参数系统的可能的信号表示；

图5a例示了用于生成原始多声道信号的参数表示的创造性设备的框图；

图5b示出了用于对多声道信号进行重构的创造性设备的示意性框图；

图5c例示了图5b的输出声道生成器的优选实施例；

图6a示出了选路和声像调节实施例的通用流程图；以及

图6b示出了优选角度和半径实施例的流程图。

具体实施方式

下述实施例仅仅是对本发明的与音频信号的多声道表示有关的原理的例示。应当明白，对于本领域的技术人员而言，对这里描述的布置和详情的修改和变化是显而易见的。因此，本发明仅受所附专利权利要求的范围的限制，而不受这里通过对实施例的说明和阐述的方式而给出的具体详情的限制。

本发明第一实施例(以下称为‘选路和声像调节’)使用以下参数来在扬声器阵列上对音频源进行定位：

用于连续定位两个(或三个)喇叭之间的声音的声像调节(panorama)参数；和

定义了向声像调节参数所应用于的扬声器对(或三个扬声器)的选路信息。

图1a到1c例示了该方案，该方案使用包括以下声道扬声器的典型的5喇叭装置：左前声道扬声器(L)102、111以及122，中声道扬声器(C)103、112以及123，右前声道扬声器(R)104、113以及124，左环绕声道扬声器(Ls)101、110以及121，以及右环绕声道扬声器(Rs)105、114以及125。在编码器处将原始5声道输入信号缩混成被编码、发送或存储的单声道信号。

在图1a的示例中，编码器已确定声能基本上集中于104(R)和105(Rs)。由此，选择声道104和105作为向其应用声像调节参数的扬声器对。根据现有技术的方法对该声像调节参数进行估计、编码以及发送。箭头107例示了该情况，箭头107定义了用于将虚拟声音源定位于该特定扬声器对选择处的限制。类似地，可以根据现有技术的方法针对所述声道对来对可选立体声宽度参数进行推导和信号表示。如图2的表定义的，可以通过3位‘选路’信号来对声道选择进行信号表示。PSP表示参数化立体声对，该表的第二列列出了哪些扬声器按选路信号的给定值来应用声像调节和可选立体声宽度信息。DAP表示导出环境对，即，通过使用用于生成环境信号的任意现有技术的方法对PSP进行处理而获得的立体声信号。该表的第三列定义哪个扬声器对要馈送DAP信号，要么预定义该扬声器对的相对水平，要么可选地通过环境水平信号从编码器用信号表示该扬声器对的相对水平。0到3的选路值对应于绕4声道系统(此时不考虑中声道扬声器(C))旋转，这些值包括按90度步长(近似的，取决于扬声器阵列几何形状)的“前”声道的PSP和“后”声道的DAP。由此图1a对应于选路值1，并且106限定了DAP信号的空间覆盖范围。显然，该方法使得可以通过选择与选路值0到3相对应的扬声器对来使声音对象绕着房间移动360度。

图1d是包括根据现有技术的参数化立体声解码器130、环境信号生成器131以及声道选择器132的选路和声像调节解码器的一个可能的实施例的框图。参数化立体声解码器获取基本声道(缩混)信号133、声像调节信号134以及立体声宽度信号135(对应于根据现有技术方法的参数化立体声位流136)作为输入，并生成被馈送给声道选择器的PSP信号137。此外，该PSP被馈送给环境生成器，该环境生成器根据现有技术的方法(例如，通过延迟和混响器)生成也被馈送给声道选择器的DAP信号138。声道选择器采用选路信号139(其与声像调节信号一起形成方向参数信息140)，并根据图2中的表将PSP和DAP信号连接到对应的输出声道141。声道选择器内的直线对应于由图1a和图2例示的情况，选路＝1。可选地，环境生成器采用环境水平信号142作为输入，以对环境生成器输出的水平进行控制。在另选实施例中，环境生成器131还利用信号134和135来进行DAP生成。

图1b例示了该方案的另一种可能性：这里选择非相邻111(L)和114(Rs)作为扬声器对。因此，可以通过声像调节参数来对角地移动虚拟声源，如由箭头116例示的。115描绘了对应的DAP信号的放置。图2中的选路值4和5对应于该对角声像调节。

在以上实施例的变型例中，当选择两个非相邻扬声器时，如图3b例示的，根据三向(three-way)声像调节方案对所选择的扬声器对之间的(多个)扬声器进行馈送。作为参照，图3a示出了常规立体声声像调节方案，图3b示出了三向声像调节方案，这两个方案都是根据现有技术的方法。图1c给出了三向声像调节方案的应用示例：例如，如果102(L)与104(R)形成该扬声器对，则将信号选路到用于中间位置声像调节值的103(C)。图1d的声道选择器132中的虚线进一步例示了该情况，其中广义的参数化立体声解码器的中声道输出143由于所采用的3向声像调节方法而起作用。为了使声音级稳定化，可以使用带有大重叠的声像调节曲线。那么，外扬声器也对中间位置声像调节中的再现有贡献，其中来自中间扬声器的信号相对应地衰减，使得在整个声像调节范围上实现恒定功率。可以使用三向声像调节的选路方法的其他示例是C-R-Rs和L-[Ls和R]-Rs(即，中间位置声像调节产生来自Ls和R的信号)。当然，可以由选路信号来用信号表示是否应用三向声像调节方法。另选地，一种预定义行为可以是这样的：如果由选路信号指出了其间具有至少一个扬声器的两个非相邻扬声器，则应当应用三向声像调节方法。

以上方案可以很好地处理单声源，并且对于特殊的声音效果(例如直升机在周围飞)来说是有用的。如果采用针对不同频带的单独的选路和声像调节，那么也会涵盖位于不同位置但是在频率上分离的多个源。

本发明第二实施例(以下称为‘角度和半径’)是以上方案的通用化，其中使用以下参数来进行定位：

角度参数，用于在整个扬声器阵列上对声音进行连续定位(360度范围)；和

半径参数，用于在扬声器阵列上对声音的扩展进行控制(0到1范围)。

换句话说，可以由极坐标，角度α和半径r来表示多个扬声器音乐材质，其中α可以覆盖整个360度，因此可以将声音映射到任何方向。半径r使得可以将声音映射到几个扬声器而不仅仅映射到两个相邻扬声器。这可以被视为对以上三向声像调节的通用化，其中由半径参数来确定重叠量(例如，较大值的r对应于小重叠)。

为了对以上实施例进行例示，假设在[r]的范围(被定义为从0到1)内的半径。0是指所有扬声器具有同样的能量，可以将1解释成应当在最靠近于由[α]定义的方向的两个相邻扬声器之间应用二声道声像调节。在编码器处，可以使用例如输入扬声器配置和各扬声器中的能量来提取[α，r]，以计算类似于质心的声音中心点。通常，声音中心点将更靠近于比播放装置中的其他扬声器发出更大声能的扬声器。为了计算声音中心点，可以使用播放装置中的扬声器的空间位置、可选地这些扬声器的方向特性，以及由各扬声器发出的声能，该声能直接取决于相应声道的电信号的能量。

然后使用角度和半径[α，r]对位于多声道扬声器装置内的声音中心点进行参数化。

在解码器侧，针对当前使用的扬声器配置使用所述多个扬声器声像调节规则，以对所有[α，r]组合给出各扬声器中的已定义声音量。由此，在解码器侧生成了相同声源方向，就好像存在于解码器侧一样。

本发明的另一优点在于解码器和编码器声道配置不必相同，因为可以将参数化映射到在解码器处当前可用的扬声器配置，以仍然实现正确的声音定位。

图4a例示了声音408位于靠近右前扬声器(R)404处的情况，其中401到405对应于图1a中的101到105。由于r407是1并且α406指向右前扬声器(R)404与右环绕扬声器(RS)405之间。解码器将在右前扬声器(R)404与右环绕扬声器(RS)之间应用双声道声像调节。

图4b例示了声像417的总体方向靠近于左前扬声器411的情况，其中410到414对应于图1a中的101到105。所提取的α415将指向该声像的中间，并且所提取的r416确保了解码器可以使用多扬声器声像调节来重新创建声像宽度，以对所发送的属于所提取的α415和r416的音频信号进行分布。

可以将角度和半径参数化与生成环境信号并将其添加给(α的)相反方向的预定义规则组合起来。另选地，可以采用对环境信号的角度和半径的单独信号表示。

在优选实施例中，使用某些附加的信号表示来使本发明的方案适应于某些情况。以上两个基本方向参数方案并未很好地涵盖所有情况。通常，在L-C-R上需要“全声级(soundstage)”，此外期望来自一个后置声道的直达声。存在用于对功能进行扩展以处理该情况的几种可能性：

1.根据需要发送附加参数集合。例如，系统默认为缩混信号与参数之间的1∶1关系，但是有时发送第二参数集合，该第二参数集合也对与1∶2配置对应的缩混信号进行操作。显然，通过叠加所解码出的参数，可以按此方式获得任意附加源。

2.使用解码器侧规则(取决于选路和声像调节或角度和半径值)来取代默认声像调节行为。假设各个频带具有单独的参数，一个可能的规则是“当只对与其他频带显著不同的少数几个频带进行选路和声像调节时，除了实现与示例1的效果相同的效果以外，插入对于‘少数几个频带’的‘其他频带’的声像调节，并应用对于‘少数几个频带’的信号表示的声像调节。可以使用标记来打开/关闭该行为。

换句话说，本示例使用针对各频带的单独的参数，并根据以下规则在频率方向上采用插入：如果只对与其他频带(主组)显著不同的少数几个频带(外层)进行选路和声像调节，则根据以上规则将外层的参数解释成附加参数集合(尽管未发送)。对于所述少数几个频带，在频率方向上插入主组的参数。最后对所述少数几个频带的当前可用的两个参数集合进行叠加。这使得可以在与主组的方向显著不同的方向上放置附加源，而不必发送附加的参数，同时避免了针对所述少数几个频带在主方向上的谱洞(spectral hole)。可以使用标记来打开/关闭该行为。

3.用信号表示某些特殊的预设映射，例如

a)将信号选路到所有扬声器；

b)将信号选路到任意单个扬声器；以及

c)将信号选路到选定的扬声器(＞2)的子集。

以上3个扩展情况适用于选路和声像调节方案，也适用于角度和半径方案。从以下示例(其中也对环境信号进行讨论)显见，对于选路和声像调节情况来说预设映射是尤其有用的。

图2最后给出了可能的特殊预设映射的示例。最后两个选路值6和7对应于特殊情况，在该特殊情况中，未发送声像调节信息，并根据第4列对缩混信号进行映射，并根据最后一列来生成和映射环境信号。最后一行定义的情况创建了“在漫射声音场的中间”的印象。根据本示例的系统的位流附加地可以包括用于只要PSP列中的扬声器对在扬声器阵列中不相邻就使能三向声像调节的标记。

本发明的另一示例是使用针对直达声的一个角度和半径参数集合和针对环境声的第二角度和半径参数集合。在本示例中，发送单声道信号，既使用该单声道信号来对直达声进行角度和半径参数集合声像调节，又使用该单声道信号来创建解相关环境信号，然后使用针对环境的角度和半径参数集合来应用该解相关环境信号。示意性地，位流示例可能如下：

<angle_direct，radius_direct>

<angle_ambience，radius_ambience>

<M>

本发明的另一示例既使用选路和声像调节以及角度和半径参数化又使用两个单声道信号。在本示例中，角度和半径参数描述了对来自单声道信号M1的直达声的声像调节。此外使用选路和声像调节来描述如何应用从M2产生的环境信号。因此所发送的选路值描述了应当在哪些声道中应用环境信号，并且作为示例可以使用图2的环境表示。对应的位流示例可能如下：

<angle_direct，radius_direct>

<route，ambience_level>

<M1_direct>

<M2_ambience>

根据本发明的多声道扬声器装置中的用于对声音进行空间定位的参数化方案是可以按许多方式来应用的构件块：

i)频率范围：

全局(针对所有频带)选路；或

逐频带选路。

ii)参数集合的数量

静态(随时间固定)；或

动态(根据需要发送附加的集合)。

iii)信号应用，即，对以下声音的编码：

直达(干)声；或

环境(湿)声。

iv)缩混信号的数量与参数集合的数量之间的关系，例如：

1∶1(单声道缩混和单个参数集合)；

2∶1(立体声缩混和单个参数集合)；或

1∶2(单声道缩混和两个参数集合)。假设缩混信号M是所有原始输入声道之和。其可以是对所有输入的自适应加权和自适应相位调节的(多个)和。

v)缩混信号和参数集合的超位置，例如

1∶1+1∶1(两个不同的单声道缩混和对应的单个参数集合)

后者对于自适应缩混和编码(例如，阵列(束形成)算法、信号分离(对第一最大、次最大...的编码))来说是有用的。

为了清楚起见，在以下说明中，描述了根据现有技术的使用在两个声道(图3a)或三个声道(图3b)之间的平衡参数来进行声像调节。通常，平衡参数表示在例如播放装置中的两个扬声器的两个不同空间位置之间对声源的定位。图3a和图3b表示在左声道与右声道之间的情况。

图3a例示了声像调节参数如何与在扬声器对上的能量分布相关联的示例。x轴是声像调节参数，范围是区间[-1，1]，这对应于[极左，极右]。y轴的范围是[0，1]，其中0对应于0输出，1对应于完全相对输出水平。曲线301例示了取决于声像调节参数有多少输出分布于左声道，302例示了右声道的对应输出。因此参数值-1使得应将所有输入声像调节到左扬声器，参数值0使得应将所有输入声像调节到右扬声器，从而，对于1的声像调节值反之亦然。

图3b表示三向平衡情况，其示出了3条可能的曲线311、312以及313。与图3a类似，x轴覆盖[-1，1]，y轴的范围是[0，1]。与前面一样，曲线311和312例示了有多少信号分布到左声道和右声道。曲线312例示了有多少信号分布到中声道。

随后，结合图5a到6b对本创造性概念进行讨论。图5a例示了用于生成对具有至少3个原始声道的原始多声道信号的参数表示的创造性设备，该参数表示包括方向参数信息，该方向参数信息待用于与从所述至少3个原始声道导出的基本声道一起对具有至少2个声道的输出信号进行重构。此外，如已结合图1a、1b、1c、4a、4b讨论的，原始声道与位于播放装置中的不同空间位置处的声源相关联。每个播放装置都具有参考位置10(图1a)，优选地，该参考位置10是圆的圆心，扬声器101到105沿着该圆布置。

本创造性设备包括用于确定方向参数信息的方向信息计算器50。根据本发明，方向参数信息表示从参考位置10到播放装置中的如下区域的方向：所述至少3个原始声道的组合声能集中于该区域。在图1a中将该区域表示为扇形12，该扇形12由从参考位置10延伸到右声道104和从参考位置10延伸到右环绕声道105的线来限定。假设在当前音频情景下，例如主导声源位于区域12中。此外，假设在所有5个声道之间或者在至少右声道与右环绕声道之间的最大局部声能位于位置14处。此外，由方向箭头16表示从参考位置到所述区域尤其是到最大局部声能14的方向。该方向箭头由参考位置10和最大局部声能位置14来限定。

根据第一实施例(其具有表示声道对的选路信息和表示所选择的两个声道之间的能量分布的平衡或声像调节参数，作为方向参数信息)，所重构出的最大能量只能沿双头箭头18移动。由声像调节或平衡参数来确定可以沿箭头18将多声道重构中最大局部能量布置到的度数或位置。当例如最大局部声音位于图1a中的14处时，在本实施例中不能对该点进行精确编码。然而，为了对最大局部能量方向进行编码，表示该方向的平衡参数可以作为参数，这使得重构的最大局部能量落在箭头18与箭头16的交叉点上，这在图1a中被表示为“平衡(声像调节)”。

选路和声像调节方案编码器的一个可能的实施例是首先计算图1a中的最大局部能量14以及对应的角度和半径。利用该角度选择声道对(或三个声道)，这产生了选路参数值。最后将该角度转换成针对所选择的声道对的声像调节值，然后，可选地，利用所述半径来计算环境水平参数。

然而，图1a的实施例的优势在于其不必精确地计算局部最大声能14以确定声道对和平衡。取而代之，通过检查原始声道中的能量并通过选择具有最大能量的两个声道(或例如L-C-R的三个声道)，根据声道来简单地推导出必要的方向信息。该识别出的声道对(三个声道)在播放装置中限定了扇形12，最大局部声能14将位于该扇形12中。由此，该声道对选择确定了粗略的方向。将通过平衡参数来执行对该方向的“细调”。为了进行大致的近似，本发明简单地通过计算所选择的声道的能量之间的商来确定平衡参数。由此，由于尚未选择的其他声道C、L、Ls，通过声道对选择和平衡参数编码的方向16可能由于其他扬声器的贡献而与实际最大局部能量方向有一点点偏离。然而，为了便于减小位速率，在图1a的选路和声像调节实施例中接受这些偏离。

图5a的设备附加地包括用于生成参数表示以使得该参数表示包括方向参数信息的数据输出生成器52。注意，在优选实施例中，表示从参考位置到最大局部能量的(至少)大致方向的该方向参数信息是从编码器发送到解码器的唯一声道间水平差信息。因此，与现有技术的BCC方案相比，本发明只须发送单个平衡参数，而不是发送针对5声道系统的4个或5个平衡参数。

优选地，方向信息计算器50可操作地确定这样的方向信息，即，使得组合能量所集中的区域包括播放装置中的总声能的至少50％。

此外或者另选地，优选地，方向信息计算器50可操作地确定这样的方向信息，即，使得所述区域只包括播放装置中的具有比同样位于所述区域内的最大局部能量值的75％更大的局部能量值的位置。

图5b示出了创造性的解码器装置。具体地，图5b示出了用于使用至少一个基本声道和参数表示对多声道信号进行重构的设备，该参数表示包括表示从播放装置中的一位置到播放装置中的至少3个原始声道的组合声能所集中的区域的方向，根据该参数表示推导出了所述至少一个基本声道。具体地，本创造性装置包括用于接收可以进入单个数据流或者可以进入不同数据流的所述至少一个基本声道和参数表示的输入接口53。该输入接口将基本声道和方向参数信息输出到输出声道生成器54中。

输出声道生成器可操作地生成待相对于参考位置在播放装置中定位的输出声道的数量，该输出声道数量比基本声道的数量大。具有创造性的是，输出声道生成器可操作地响应于方向参数信息而生成输出声道，使得从参考点到所重构出的输出声道的组合能量所集中的区域的方向类似于由方向参数信息表示的方向。为此，输出声道生成器54需要与参考位置有关的信息，可以发送或者优选地预先确定该信息。此外，输出声道生成器54需要与在播放装置中的扬声器的不同空间位置有关的信息，这些扬声器要在所重构出的输出声道输出55处连接到输出声道生成器。同样优选地，预先确定该信息，并且该信息可以容易地通过表示普通5加1装置或修改的装置或具有7个或更多个或更少个声道的声道配置的某些信息位来用信号表示。

图5c示出了图5b中的创造性输出声道生成器54的优选实施例。将方向信息输入到声道选择器中。声道选择器56选择待由方向信息确定其能量的输出声道。在图1的实施例中，所选择的声道是在方向信息选路位(图2的第一列)中或多或少地显式地用信号表示的声道对中的声道。

在图4的实施例中，待由声道选择器56选择的声道是隐式地用信号来表示的，并且无需与连接到重构器的播放装置相关联。取而代之，角度α指向播放装置中的某个方向。不管播放扬声器装置是否与原始声道装置相同，声道选择器56都可以确定限定了角度α所位于的扇形的多个扬声器。这可以通过几何计算或优选地通过查找表来执行。

此外，该角度还表示在限定了所述扇形的声道之间的能量分布。特定角度α还限定了对声道的声像调节或平衡。当考虑图4a时，角度α在某个点与圆相交，该点被表示成“声能中心”，与右环绕扬声器405相比，该点更靠近于右扬声器404。由此，解码器基于该声能中心点和该点到右扬声器404和右环绕扬声器405的距离，计算扬声器404与扬声器405之间的平衡参数。然后，声道选择器56将其声道选择用信号传送给扩混器(up-mixer)。声道选择器将从所有输出声道中选择至少两个声道，并且，在图4b的实施例中，甚至选择两个以上扬声器。然而，除了如下情况以外，声道选择器永远不会选择所有扬声器：用信号发送了特殊的所有扬声器信息。然后，扩混器57基于显式地发送到方向信息中的平衡参数或基于从所发送的角度推导出的平衡值，对通过基本声道线58接收到的单声道信号执行扩混。在优选实施例中，还发送声道间相参性参数，并且扩混器57使用该声道间相参性参数来计算选择的声道。所选择的声道将输出直达声或“干声”，其负责对最大局部声音进行重构，其中通过所发送的方向信息对该最大局部声音的位置进行编码。

优选地，还对其他声道(即，剩余的或非选定声道)提供输出信号。使用环境信号生成器来生成针对其他声道的输出信号，该环境信号生成器例如包括用于生成解相关“湿”声的混响器。优选地，该解相关声音也是从(多个)基本声道推导出来的，并被输入到剩余的声道中。优选地，图5b中的创造性输出声道生成器54还包括水平控制器60，该水平控制器60对扩混后的选定声道以及剩余声道进行调节，使得输出声道中的总能量等于所发送的(多个)基本声道中的能量或与所发送的(多个)基本声道中的能量成某个关系。当然，该水平控制可以针对所有声道执行全局能量调节，但是基本上不会改变由方向参数信息所编码并发送的声能集中性。

在低位速率实施例中，如上所讨论的，本发明不需要任何发送的信息来生成剩余的环境声道。取而代之，根据预先定义的解相关规则从所发送的单声道信号推导出针对环境声道的信号，并将该信号转发给剩余的声道。在该低位速率实施例中预先定义了环境声道的水平与所选择的声道的水平之间的水平差。

对于提供了更好的输出质量但是也要求增大的位速率的更先进的设备，也可以在编码器侧计算并发送环境声能方向。此外，可以生成第二缩混声道，其为环境声音的“主声道”。优选地，通过将原始多声道信号中的环境声音与非环境声音分离开来，在编码器侧生成该环境主声道。

图6a示出了选路和声像调节实施例的流程图。在步骤61中，选择具有最高能量的声道对。然后，计算该对之间的平衡参数(62)。然后，将该声道对和平衡参数作为方向参数信息发送给解码器(36)。在解码器侧，使用所发送的方向参数信息来确定声道对和声道之间的平衡(64)。基于该声道对和平衡值，使用例如普通单声道/立体声扩混器(PSP)来生成直接声道的信号(65)。此外，使用一个或更多个解相关环境信号(DAP)来创建针对剩余声道的解相关环境信号(66)。

图6b中作为流程图例示了角度和半径实施例。在步骤71中，计算(虚拟)播放装置中的声能的中心。基于该声音中心和参考位置，确定从该参考位置到能量中心的向量的角度和距离(72)。

然后，如步骤73所示，将该角度和距离作为方向参数信息(角度)和扩展测度(距离)来发送。该扩展测度表示有多少扬声器对于生成直达声起作用。换句话说，该扩展测度表示能量所集中的区域的地点，该地点不是位于两个扬声器之间的连接线上(这种位置完全由这些扬声器之间的平衡参数来限定)，但是不是位于这种连接线上。为了重构这种位置，需要两个以上扬声器。

在优选实施例中，与所有直接扬声器发出完全相关的信号的情况相比，还可以使用扩展参数作为一种相参性参数来合成地增大声音的宽度。在此情况下，也可以使用所述向量的长度来对生成待添加到针对“直接”声道的信号的解相关信号的混响器或任何其他设备进行控制。

在解码器侧，如在图6b的步骤74处表示的，使用角度、距离、参考位置以及播放声道装置来确定播放装置中的声道的子组。在步骤75中，使用由角度、半径，因而由在子组中包括的声道数量来控制的1到n扩混来生成针对该子组的信号。当该子组中的声道的数量很少，并且例如等于两个(这是当半径的值很大时的情况)，如在图6a的实施例中那样，可以使用通过由所述向量的角度表示的平衡参数而进行的简单扩混。然而，当半径减小，并且因此子组内的声道数量增加时，可以在解码器侧使用查找表，该查找表以角度和半径作为输入，并以对与某个向量和水平参数相关联的子组中的每个声道的标识作为输出，优选地，该水平参数是这样的百分比参数，即，将该百分比参数施加于单声道信号能量以确定所选择的子组内的输出声道中的每一个中的信号能量。如图6b的步骤76所述，生成解相关环境信号并将其转发给非选定扬声器。

根据所述多个创造性方法的特定实现要求，可以将所述多个创造性方法实现为硬件或软件。可以使用数字存储介质，尤其是其上存储有电子地可读控制信号的盘或CD，来执行该实现，该可读控制信号与可编程计算机系统相合作，使得执行所述多个创造性方法。概括起来，本发明因此是具有存储在机器可读载体上的程序代码的计算机程序产品，当在计算机上运行该计算机程序产品时，该程序代码可操作地执行所述多个创造性方法。换句话说，所述多个创造性方法因此是计算机程序，该计算机程序具有用于在计算机上运行该计算机程序时执行所述多个创造性方法中的至少一个的程序代码。

Claims

1、一种用于生成对具有至少3个原始声道(L、R、Rs)的原始多声道信号的参数表示的设备，所述参数表示包括方向参数信息，该方向参数信息被用于连同从所述至少3个原始声道推导出的基本声道一起来对具有至少2个声道的输出信号进行重构，所述原始声道与位于播放装置中的不同空间位置处的多个声源(103、104、105)相关联，所述播放装置具有参考位置(10)，该设备包括：

方向信息计算器(50)，用于确定表示从所述播放装置中的所述参考位置(16)到所述至少3个原始声道的组合声能所集中(14)的区域(12)的方向的方向参数信息；和

数据输出生成器(52)，用于生成所述参数表示，使得所述参数表示包括所述方向参数信息。

2、根据权利要求1所述的设备，其中所述方向信息计算器(50)包括：

声道对搜索器，用于对在所述至少3个原始声道中具有最大能量的原始声道对进行搜索(61)，或用于对在至少4个原始声道中具有最大能量的三个原始声道进行搜索(61)；

平衡参数计算器，用于计算(62)表示所述原始声道对之间的平衡的平衡参数，并且

其中所述数据输出生成器(52)可操作地将对所述原始声道对和所述平衡参数的表示作为所述方向参数信息包括在所述参数表示中。

3、根据权利要求2所述的设备，其中所述声道对搜索器可操作地将所述原始声道对编码成多个码字中的一个码字，其中每个码字都被分配给所述多个原始声道之中的可能声道对。

4、根据以上权利要求之一所述的设备，其中所述方向信息计算器可操作地计算所述方向参数信息，使得所述方向参数信息只包括与待通过声道的子组而重构的能量分布有关的信息，所述声道的子组至少包括2个声道并且最多包括比原始声道的数量更少的多个声道。

5、根据权利要求4或权利要求1所述的设备，

其中所述方向信息计算器可操作地计算(72)参考线(9)与从所述参考位置指向所述组合声能所集中的区域的向量之间的角度；并且

其中所述数据输出生成器可操作地将与所述角度有关的信息作为所述方向参数信息包括在所述参数表示中。

6、根据权利要求5所述的设备，其中所述方向信息计算器(50)可操作地计算所述播放装置内的声能中心点，

并且其中所述方向信息计算器(50)进一步可操作地确定所述参考线与从所述参考位置到声音中心点的所述向量之间的角度。

7、根据权利要求5或6所述的设备，还包括：

扩展计算器，用于计算所述向量的长度，所述向量的长度表示所述原始多声道信号的声音扩展情况，并且

其中所述数据输出生成器可操作地将所述向量的长度信息作为扩展参数包括在所述参数表示中。

8、根据权利要求7所述的设备，其中所述扩展计算器可操作地将所述向量的长度在0与1之间调节，其中长度0对应于所述参考点，长度1对应于所述声源的不同空间位置可以位于的线。

9、根据权利要求5到8之一所述的设备，其中所述方向信息计算器(50)可操作地计算另一位置的另一角度，所述另一位置位于所述多个原始声道内的环境声音的组合声能所集中的区域中。

10、根据权利要求9所述的设备，其中所述方向信息计算器(50)可操作地从所述原始信号提取环境信号，并对所述提取的环境信号进行处理以获得另一基本声道，所述另一基本声道在当对所述多声道信号的环境声道进行重构时连同所述另一角度一起使用。

11、根据以上权利要求之一所述的设备，其中所述方向信息计算器(50)可操作地确定所述方向信息，使得组合能量所集中的所述区域包括所述播放装置中的总声能的至少50％。

12、根据以上权利要求之一所述的设备，其中所述方向信息计算器(50)可操作地确定所述方向信息，使得所述区域只包括所述播放装置中的具有比最大局部能量值的75％更大的局部能量值的位置，该最大局部能量值也位于所述区域内。

13、根据以上权利要求之一所述的设备，还包括用于对所述原始声道进行缩混以获得至少一个基本声道的缩混器，并且

其中所述数据输出生成器可操作地将所述至少一个缩混声道包括在所述参数表示中。

14、根据以上权利要求之一所述的设备，该设备还包括：

环境信号水平计算器，用于利用所述原始多声道信号来计算环境信号水平，并且

其中所述数据输出生成器可操作地将所述环境信号水平包括在所述参数表示中。

15、根据以上权利要求之一所述的设备，其中所述数据输出生成器可操作地将三向声像调节指示输入到所述参数表示中。

16、根据以上权利要求之一所述的设备，进一步包括：

参数计算控制器，用于基于所述原始多声道信号来确定对至少一个附加参数的需要，所述参数计算控制器可操作地对所述数据输出生成器进行控制，以将所述至少一个附加参数包括在所述参数表示中。

17、根据以上权利要求之一所述的设备，其中所述方向信息计算器(50)可操作地计算待与所述方向参数信息一起使用的另一方向参数信息，并且

其中所述数据输出生成器可操作地将所述另一方向参数信息而不是所述方向参数信息，以及控制信号引入到所述参数表示中，

其中所述控制信号是这样的，即，其指示多声道重构器除了在所述参数表示中未包括的所述方向参数信息以外还要使用所述另一方向参数信息，所述参数表示中未包括的所述方向参数信息要通过插入使用所述参数表示中的其他方向参数信息来推导出。

18、根据以上权利要求之一所述的设备，其中所述方向信息计算器(50)可操作地计算针对所述原始多声道信号的一个以上频带或针对所述原始多声道信号的一个以上时间段的方向参数信息。

19、一种用于使用至少一个基本声道和参数表示对多声道信号进行重构的设备，该参数表示包括表示从播放装置中的参考位置到所述播放装置中的至少3个原始声道的组合声能所集中的区域的方向的方向参数信息，从所述至少3个原始声道推导出了所述至少一个基本声道，该设备包括：

输出声道生成器(54)，用于生成待相对于所述参考位置(10)而定位于所述播放装置中的多个输出声道，所述输出声道的数量比所述基本声道的数量大，

其中所述输出声道生成器(54)可操作地响应于所述方向参数信息而生成所述输出声道，使得从所述参考位置(10)到所述重构的输出声道的所述组合能量所集中的区域的方向取决于由所述方向参数信息表示的方向。

20、根据权利要求19所述的设备，

其中所述输出声道生成器可操作地基于所述方向参数信息计算至少2个输出声道，并针对剩余输出声道使用从所述基本声道推导出的信号来生成环境信号，从所述基本声道推导出的所述信号在延迟、增益、相关性或均衡化方面与所述基本声道不同。

21、根据权利要求19或20所述的设备，其中所述方向参数信息包括与选择的声道对有关的信息，并且其中所述平衡参数表示所述选择的输出声道对之间的平衡，并且

其中所述输出声道生成器(54)可操作地计算所述选择的输出声道对，以使得所述声道对之间的能量分布由所述平衡参数来确定，并且计算在所述选择的输出声道对中不包括的声道的环境声道信号。

22、根据权利要求20或21所述的设备，其中所述输出声道生成器(54)可操作地计算所述剩余声道，使得所述剩余声道的能量与预先设定的设置相一致，或者使得所述剩余声道的组合能量取决于在所述参数表示中附加地包括的环境参数。

23、根据权利要求19或20所述的设备，

其中所述方向参数信息包括与所述播放装置中的所述参考位置(10)相关联的角度，所述角度限定了源自所述播放装置中的参考位置的向量，并且

其中所述输出声道生成器(54)可操作地将所述角度映射到所述播放装置中的所有声道的子组，并基于所述角度确定在所述子组中的声道之间的能量分布。

24、根据权利要求23所述的设备，其中所述方向参数信息进一步包括与向量的长度有关的信息，

其中所述输出声道生成器(54)可操作地对所述角度进行映射，使得所述子组中的声道的数量取决于所述向量的长度。

25、根据权利要求23或24所述的设备，其中所述输出声道生成器可操作地利用取决于待与用于进行重构的所述设备连接的所述播放装置的映射规则来对所述角度进行映射，并且其中所述映射规则是这样的，即，使得限定了所述向量所位于的扇形的两个相邻声道的能量比在所述扇形的外部的声道的能量大。

26、根据权利要求19到25之一所述的设备，

其中所述输出声道生成器(54)包括解相关器(59)，该解相关器(59)用于基于所述至少一个基本声道来生成解相关信号，并且

其中所述输出声道生成器进一步可操作地基于在所述参数表示中包括的相参性参数将所述解相关信号加入直达声输出声道中，或者

将所述解相关信号包括在环境输出声道中，所述环境输出声道具有能量分布，该能量分布不是由所述方向参数信息来控制的。

27、根据权利要求19到26之一所述的设备，其中所述参数方向信息标识了所述播放装置中的彼此不相邻的输出声道，并且

其中所述输出声道生成器可操作地执行至少3声道声像调节，以基于所述参数方向信息计算在2个所标识的声道之间的能量分布以及所述标识的声道之间的至少一个声道。

28、一种用于生成对具有至少3个原始声道(L、R、Rs)的原始多声道信号的参数表示的方法，所述参数表示包括方向参数信息，该方向参数信息被用于连同从所述至少3个原始声道推导出的基本声道一起来对具有至少2个声道的输出信号进行重构，所述原始声道与位于播放装置中的不同空间位置处的多个声源(103、104、105)相关联，所述播放装置具有参考位置(10)，该方法包括以下步骤：

确定(54)方向参数信息，该方向参数信息表示从所述参考位置(16)到所述播放装置中的所述至少3个原始声道的组合声能(14)所集中的区域(12)的方向；和

生成(52)参数表示，使得所述参数表示包括所述方向参数信息。

29、一种用于使用至少一个基本声道和参数表示对多声道信号进行重构的方法，该参数表示包括表示从播放装置中的参考位置到所述播放装置中的至少3个原始声道的组合声能所集中的区域的方向的方向参数信息，从所述至少3个原始声道推导出了所述至少一个基本声道，该方法包括以下步骤：

生成(54)待相对于所述参考位置(10)定位于所述播放装置中的多个输出声道，所述输出声道的数量比所述基本声道的数量大，

其中执行所述生成(54)步骤，使得响应于所述方向参数信息而生成所述输出声道，以使得从所述参考位置(10)到所述重构的输出声道的所述组合能量所集中的区域的方向取决于由所述方向参数信息表示的方向。

30、一种具有机器可读指令的计算机程序，当在计算机上运行时，执行根据权利要求28或29的方法。

31、一种参数表示，该参数表示包括对从播放装置中的参考位置到所述播放装置中的至少3个原始声道的组合声能所集中的区域的方向进行表示的方向参数信息，从所述至少3个原始声道推导出了至少一个基本声道。

32、根据权利要求31所述的参数表示，用于当被输入根据权利要求19的设备中时对多声道重构进行控制。