CN1275498C

CN1275498C - 声道转换方法

Info

Publication number: CN1275498C
Application number: CNB028046625A
Authority: CN
Inventors: 马克·富兰克林·戴维斯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2001-02-07
Filing date: 2002-02-07
Publication date: 2006-09-13
Anticipated expiration: 2022-02-07
Also published as: KR100904985B1; WO2002063925A3; EP1410686A2; CA2437764C; JP2004526355A; KR20030079980A; AU2002251896B2; ATE390823T1; DE60225806T2; MXPA03007064A; WO2002063925A2; EP1410686B1; CN1524399A; WO2002063925A8; CA2437764A1; DE60225806D1; HK1066966A1; AU2002251896A2

Abstract

本发明涉及将表示一个声场的M个输入声道转换为表示同一声场的N个输出声道的方法，其中每个声道是表示由一个方向抵达的声音的单个音频流，M和N是正整数，且M至少为2，该方法产生一组或多组输出声道，每组有一个或多个输出声道。每一组被联系于两个或更多的空间上相邻的输入声道，并且一组中的每个输出声道由一个处理产生，此处理包括确定两个或更多输入声道的相关性度量和两个或更多输入声道的电平相互关系。

Description

声道转换方法

技术领域

本发明涉及音频信号处理。特别是，本发明涉及表示一个声场的M个输入声道至表示同一声场的N个输出声道的转换，其中每个声道是表示由一个方向抵达的声频的单个音频流，M和N是正整数，且M至少为2。

背景技术

虽然人类只有两只耳朵，但我们能听出实际三维的声音，这依赖于多个定位提示，例如头部相关的转换函数(HRTF)和头部运动。所以完全逼真的声音再现要求保留并再现全三维声场，或者至少需要被感觉的提示。不幸的是，声音记录技术不适应于获取三维声场，也不适应二维平面声音的获取，甚至不适应一维直线声音的获取。当前的声音记录技术只适合于获取、保存和表现零维的离散声道。

自从Edison发明声音记录以来关于改进逼真度的努力大多集中于克服其原始的模拟式纹道受调的圆柱体/圆盘媒体的缺陷。这些缺陷包括有限且不平坦的频率响应，噪声，失真，抖晃，速度精度，磨损，污垢和复制损害。虽然已有一些对于局部改进的零散努力，包括电子放大，磁带记录，减小噪音以及价格比某些汽车还高的放音机，但是各声道质量的传统问题在直到研发了一般的数字记录，尤其是引入音频光盘(CD)之前证明没有最终解决。自研发了数字记录特别是CD以来，除了进一步扩展数字记录的质量到24比特/96kHz(千赫兹)取样的一些努力之外，在声音再现研究方面的主要努力集中于降低为保持各声道质量所需之数据量—大都采用感知编码器，以及提高空间逼真度。这后一个问题是本文的主题。

改进空间逼真度的努力已沿着两条路线进行：试图传送整个声场的感知提示，以及试图传送实际的原始声场的一个近似。采用前一方法的系统实例包括双声道记录和基于两个扬声器的虚拟环绕声系统。这些系统存在多个不幸的缺陷，尤其是在可靠地定位某些方向上的声音方面，以及要求使用耳机或在单个的固定的听位置上收听方面。

无论是在一间居室中还是诸如电影院这样的营业场所，为了再现立体声给多位听众，唯一可行的方法是尝试来近似实际的原始声场。如果给定声音记录的离散信道特性，这是不会令人惊奇的：目前大多数努力包括可谓保守地增加再现声道的数量。表示性系统包括50年代早期的移动-单声道三扬声器电影胶片音轨，常规立体声，60年代的四声道立体声，70毫米电影胶片上的五声道离散磁性音轨，70年代采用矩阵的杜比环绕声，90年代的AC-35.1声道环绕声和近来的环绕-EX6.1声道环绕声。“Dolby”(杜比)、“Pro Logic”和“Surround EX”(环绕-EX)是Dolby实验室特许公司的商标。在不同程度上，这些系统提供比单声道再现改善了的空间再现。然而大量声道的混音导致更多时间和费用负担在内容制作者身上，并且导致的感受典型的是几个分散的离散声道中的一个，而不是一个连续的声场。Dolby的Pro Logic解码被描述在美国专利4,799,260中，该专利全部内容在此作为参考。AC-3的详细内容描述在先进电视系统委员会(ATSC)1995年12月20日公布的文档A/52“数字音频压缩标准(AC-3)”中(可在互联网的万维网网址www.atsc.org/Standards/A52/a-52.doc得到)。也可见1999年7月22日的勘误表(可在互联网的万维网网址 www.dolby.com/tech/ATSC err.pdf得到)。

本发明的基础概述

在一个无信源的波介质中重建一个任意分布的基础由一个高斯定理提供，此定理规定在某个区域内的波场完全由沿区域边界的压力分布确定。这意味着，在一间居室的范围内重建音乐厅中的声场原理上可如此实现：在音乐厅内设置居室，墙是隔音的，然后通过在墙的外侧配置无限个极小话筒而使墙变成声学上透明的，每个话筒信号经适当放大后连接到一个在居室墙内的对应扬声器。通过在话筒和扬声器之间插入一个适当的记录媒体，一个圆满的—可能是不切实际的—精确三维声音再现系统被实现了。剩下的设计工作是使此系统变为实用的。

迈向实用化的第一步可通过注意到感兴趣的信号是频带受限的—上限约20kHz，并应用空间取样定理来完成，空间取样定理是更常用的时域取样定理的变型。后者是说，如果一个连续的限带的时域波形以至少两倍于信源最高频率的速率被离散地取样，则不丢失信息。空间取样定理出于相同的考虑，它规定空间取样间隔必须至少为最短波长密度的两倍密度，以避免信息的丢失。因为20kHz的波长在空气中约为3/8英寸，这意味着一个精确的三维声音系统可用间隔不大于3/16英寸的话筒和扬声器的阵列实现。扩展到一个典型的9英尺×12英尺房间的所有表面，这产生大约2.5百万个声道，这对于无限个而言是明显的改进，但目前仍是不实际的。可是，它建立了利用作为空间取样的离散声道阵列的基本方法，根据该方法，应用适当的内插可以再生声场。

一旦声场被表征，原理上这是可能的：一个解码器产生最佳信号馈给任一输出扬声器。馈送到这样一个解码器的声道在本文件不同地方被称为“基本”、“被传送的”和“输入”声道，并且位置不对应于基本的声道中的一个声道的位置的任何输出信道将被称为一个“中间”声道。一个输出声道也可以有一个与一个基本输入声道相一致的位置。

所以要求减少离散声道空间取样或基本声道的数目。实现这一点可以基于以下事实：在1500Hz(赫兹)以上听觉不再跟随各个周期，而只跟随临界频带包络。这允许声道间隔与1500Hz相对应，大约为3英寸。这将减小9英尺×12英尺房间的声道总数到大约6000个，相比于前面的配置，有效地减少了约2.49百万个声道。

在任何情况下，理论上可借助于心理声学的定位极限而进一步缩减空间取样声道数。对于居中的声音，水平的分辨力极限约为1度的弧，对应的垂直分辨力极限约为5度。如果这个密度适当地扩展在一个球面上，结果将仍然是数百到数千个声道。

发明内容

按照本发明，一个处理将表示一个声场的M个输入声道转换为表示同一声场的N个输出声道，其中每个声道是表示由一个方向抵达的声音的单个音频流，M和N是正整数，且M至少为2。一组或多组输出声道被产生，每一组有一个或多个输出声道。每一组与两个或更多的空间上相邻的输入声道相联系，并且一组中的每个输出声道由一个处理产生，此处理包括确定两个或更多个输入声道的相关性度量和两个或更多个输入声道的电平相互关系。

在本发明的一个方面，多组输出声道被联系于多于两个的输入声道，并且其处理按照分级次序确定与每组输出声道联系的那些输入声道的相关性，使得每组或多组按照输入声道的个数被排序，这些输入声道被联系于这组输出声道(一个或多个)。输入声道的最大数目对应最高阶次，处理过程根据其分级次序依序处理各组。此外按照本发明的一个方面，处理过程考虑对较高阶次的组处理的结果。

本发明的放音或解码方面假设M个表示由一个方向抵达的声音的输入声道中每一个由每个源方向的一个被动-矩阵的最近-相邻的幅度-跟随编码产生(即一个源方向是被假设主要映射最邻近的基本声道(一个或多个))，而不需要附加侧链信息(侧链或辅助信息的利用是可选的)，从而它与现有混音的技术、控制台和格式兼容。虽然这些源信号可以通过直接使用一个被动编码矩阵产生，大多数常用的记录方法固有产生这些源信号(所以，构成一个“有效编码矩阵”)。本发明的放音或解码方面也与自然记录的源信号大都兼容，例如用5个实际的定向话筒记录的信号，因为允许某些可能的时延，从中间方向抵达的声音倾向于主要映射到最邻近的话筒(在一个水平阵列中，明确地映射到最邻近的一对话筒中)。

按照本发明的一个解码器或解码处理可以被实现为相连的处理模块或模块功能(以后称为“解码模块”)的网格，每一个解码模块被用于从与该解码模块相联的两个或更多的空间上最邻近的基本声道产生一个或多个输出声道(或者产生可用于产生一个或多个输出声道的控制信号)。输出声道体现关联到具体解码模块的空间上最邻近的基本信道中音频信号的相对比例。如下面更详细解释的那样，在模块共享节点和存在解码模块分级的意义上解码模块互相松散耦合。模块按照与其相联系的基本声道的数目被分级排序(具有最多数目相关基本声道的一个模块或多个模块有最高阶次)。一个管理程序功能如此管理这些模块：公共节点信号被公平地共享，并且较高阶次的解码器模块可以影响较低阶次模块的输出。

每个解码器模块可以有效地包括一个矩阵，使得它直接产生输出信号，或者每个解码器模块可产生控制信号，这些控制信号与其它解码器模块产生的控制信号一起被用于改变一个可变矩阵的系数或改变输入到一个固定矩阵的或从一个固定矩阵输出的比例因子，以产生所有的输出信号。

解码器模块模仿人耳的工作，力求给出感觉透明的再现。每个解码器模块可被实现为或者宽频带的或者多频带的结构或功能，在后者情况下或者用一个连续的滤波器组，或者用一个块结构，例如采用诸如在每个频带上做相同实质处理的一个基于变换的处理器。

虽然基础发明一般涉及M个输入声道至N个输出声道的空间转换，其中M和N是正整数，且M至少为2，该发明的另一内容是通过合宜地依靠虚拟映像，接收N个输出声道的扬声器数量可减小到一个实用的数值，即在未放置扬声器的空间位置上形成感觉到的声像。虚拟映像最普通的应用是通过在声道之间移动一个单声信号立体再现两个扬声器之间的一个映像的轨迹。虚拟映像对于具有少量声道的群再现来说不被认为是一种可行的方法，因为它要求收听者与两个扬声器等距离或近似等距。例如，在电影院中左前方和右前方的扬声器对于大多数听众获得一个中央声像的有用的幻像而言相距太远了，因此作为许多对话源的中央声道是重要的，一个物理的中央扬声器被使用。

然而，当扬声器的密度被增大时，对大多数听众来说，至少对于平滑移动的范围，可在任何一对扬声器之间出现虚拟映像的位置将可达到；扬声器足够时，扬声器之间的间隙不再能被感知。这样的一个阵列具有对比前面推出的二百万的阵列几乎不能区分的潜力。

为了测试本发明的效果，我们开发了一个水平阵列，每面墙上5个扬声器，考虑公用的角落扬声器，总共16个，加上以大约45度的垂直角置于收听者上方的一圈6个扬声器，再加上直接在收听者上方的单个扬声器，共23个，加上一个超重低音扬声器(LFE声道)，总计24个，所有声道都由用于24声道放音的一台PC(个人计算机)馈给。虽然按现在的说法这个系统可被叫作23.1声道系统，为了简单，这里它将被称为一个24声道系统。

图1是一个顶视图，它简示出符合上面所述测试安排的一个理想化的解码结构。5个水平广范围的基本声道作为外圆上的方块1’、3’、5’、9和13’被示出。一个垂直声道被示作中心处的虚线方块23’，该声道可能由5个广范围的基本声道通过相关或所产生的混响而导出，或者单独提供。23个宽范围输出声道由相应数字1-23标出的实心圆示出。外圆上16个输出声道在一个水平面上，内圆上6个输出声道在水平面上方45度。输出声道23直接在一个或多个听众上方。5个两输入解码模块由外圆上箭头24-28示出，它们连接在每一对水平基本声道之间。5个附加的两输入垂直解码模块由箭头29-33示出，连接垂直声道到水平声道中的每一个。被升高的中央靠后的声道即输出声道21由一个三输入解码模块导出，它由输出声道21与基本声道9、13和23之间的箭头示出。所以每个模块与相应的一对或三个空间上最邻近的基本声道相关联。虽然图1中示出的解码模块有3个、4个或5个输出声道，但一个解码模块可有任意合理个数的输出声道。一个输出声道可定位于一个或多个基本声道中间或在与一个基本声道相同的位置上。所以在图1例中，每一个基本声道位置上也有一个输出声道。每个输入声道被两个或三个解码模块共享。

如将要讨论的，本发明的设计目标是放音处理器应能原则上工作于任意个数的扬声器及其排列结构，24声道的阵列将用来作为一个说明例，但不是按照本发明取得一个令人信服的连续被感知的声场所需要的密度和排列结构的唯一例子。

能够应用大的且可以由用户选择的放音声道个数这一要求提出了离散声道个数问题和/或其它信息，这些必须被传达给放音处理器，以便它至少作为一个选项导出上面描述的24个声道。显然，一种可能的方法是简单地传送24个离散信道，但除了信息生产者必须混合这样多个独立的声道可能是很麻烦的，并且传送如此多的声道对于传输媒体也可能是麻烦的之外，最好不这样，因为24声道结构只是许多可能中的一种，并且需要能由一个公共的传送信号阵列产生较多或较少的放音声道。

再生输出声道的一个途径是应用正式的空间内插，为每个输出产生一个被传送声道的固定加权和，假设这些声道的密度足够大，大到能够允许这样做。然而，这将需要数以千计到数以百万计的被传送声道，相当于用数百个抽头的FIR滤波器实现单个信号的时域内插。被传送声道减少到实用数量需要应用心理声学原理和由足够少的声道更积极的动态内插，但仍然没有回答以下问题：为了产生一个完好的声场感觉需要多个声道。

这个问题被几年前本发明人完成的、并最近被其它人重复的一个实验回答了。至少较早实验的基础是观察到传统的两声道双耳记录能再现真实的左/右声像分布，但是导致不稳定的前/后位置确定，部分因为所用HRTF的不完善，并且没有头部运动提示。为避开此缺陷，一个双-双耳(4声道)记录被实现，它用相距对应人头部尺寸的两对定向话筒。一对话筒面朝前，另一对面朝后。得到的记录在靠近头部隔开的4个扬声器上放音，以减轻声学交叉耦合效应。此结构从每一对扬声器给出真实的左/右定时和幅度定位提示，话筒和扬声器的对应的离散位置给出清楚的前/后信息。此结果是一个非常令人信服的环绕声放音，只是缺少高度信息的适当表现。最近其它人的实验加进一个中央正前声道和两个高度声道，给出了同样的真实感，甚至可能由于加进了高度信息而改善了。

所以，从心理声学考虑和实验提供的证据两方面，看来相关的感觉信息可以在大概4至5个“类似双耳”的水平声道，再加上一个或多个垂直声道中被传递。然而，双耳声道对的信号交叉馈送特性使得它们不适合于直接给一组扬声器放音，因为在中间频率范围和在低频只有非常小的隔离度。因而与在编码器引入交叉馈送(像对一个双耳对所做的那样)以只需在解码器取消它相比，这是更为简单的和更加直接的：保持声道相互隔离并从最近的被传送声道混合输出声道信号。这样做不仅可以通过同样个数的扬声器而不用解码器来直接放音，如果需要，还对少数声道用一个被动矩阵解码器进行可选用的下混，而且它基本对应于现有的5.1声道的标准排列结构，至少在水平面上是对应的。它也广泛兼容于自然记录，例如可用5个实际的定向话筒实施的记录，因为允许某些可能的时延，由中间方向抵达的声音将倾向于主要映射到最近的话筒(在水平阵列中，尤其是映射到最近的一对话筒)。

所以，从感觉的角度看，这应是可能的：一个声道转换解码器接受一个标准的5.1声道节目，并通过任意个数的水平排列的扬声器—包括前述24声道阵列中的16个水平扬声器—实现有说服力的放音。通过附加一个垂直声道，就像有时为一个数字电影系统所建议的那样，可以对全部24声道阵列馈送分别导出的、感觉有效的信号，这些信号一起产生一个在大多数收听位置上感觉到的连续声场。当然，如果在编码现场可以得到精细结构的源声道，关于它们的附加信息可被用来有效地改变编码矩阵定标因子，以预补偿解码器的局限性，或者可以简单地包括进来作为附加的侧链(辅助)信息，可能类似于用在AC-3(Dolby Digital)多声道编码中的耦合坐标，但是在感觉上这样的附加信息应是不必要的；并且实际上，包含这种信息的要求是不需要的。声道转换解码器的所需工作不局限于用5.1声道的信源工作，并可以用较少或较多的声道，但是至少有理由相信，可靠的性能可从5.1声道信源获得。

剩下的未回签的一个问题是如何由被传送声道的稀疏阵列提取中间的输出声道。本发明的一个方面所建议的解决方案是再利用虚拟映象的概念，但是稍微作些变化。先前已注意到，虚拟映像对于用稀疏的扬声器阵列进行群放音是不适用的，因为它要求收听者与每个扬声器的距离近似相等。但是它经过改造可对不规则地就座的一个收听者给出中间幻像声道的感觉，这是对于那些振幅已经在最近的实际输出声道之间移动的信号。所以在本发明的一个方面中建议声道转换解码器包括一系列模块化的内插信号处理器，每个处理器有效模仿一个最佳就座的收听者，并且每个以模仿人类听觉系统的方法工作，以由振幅移动的信号提取那些将形成虚拟映像的成份，并将它们馈给实际的扬声器；扬声器最好足够密地排列，使得自然的虚拟映象能充满在扬声器之间剩余的间隙中。

一般，每个解码模块由最邻近的被传送基本声道导出其输入，例如，对于一个天幕式(在顶上的)扬声器阵列，可以是3个或更多的基本声道。产生与多于两个的基本声道有关系的输出声道的一种方法可以是进行一系列成对的操作，例如，某些成对解码模块的输出馈给其它模块的输入。然而，这有两个缺点。一个缺点是级联解码模块引入多个级联的时间常数，导致某些输出声道比其它声道反应更快，从而引起声音位置假象。第二个缺点是成对相关只能沿着一对声道之间直线安插中间的或导出的输出声道；三个或更多基本声道的应用超出了这个限制。因此，通常成对相关的一个扩展已被开发，用于相关三个或更多的输出信号，这个技术在下面被说明。

人耳中的水平定位主要基于两个定位提示：两耳间振幅差和两耳间时间差。后者仅对于时间上近似对准的—差±600微秒左右—信号对有效。实际效果是幻像的中间映像将只出现在对应于一个具体的左/右振幅差的位置上，假定在两个真实声道中公共的信号成份是相关的或者近似相关的(注：两个信号可以有+1到-1之间的交叉相关值。完全相关的信号(相关值＝1)有相同波形且时间上对准，但是可以有不同的幅度，对应于偏离中心的映像位置)。当一个信号对的相关值低于1时，感觉到的映像将展宽，直到对于两个不相关的信号，将不存在中间映像，只有分离的且不同的左和右映像。负的相关通常被耳朵处理为类似于不相关的信号对，虽然这两个映像可在更宽范围内扩展。相关被实现在一个临界频带基础上，且在约1500Hz以上，临界频带信号包络被用来代替信号本身，以节省人类计算需求(MIPS)。

垂直定位更复杂一点，依赖于HRTF顶提示和水平提示随头部运动的动态调制，但是最终的效应类似于水平定位相对于移动的振幅、交叉相关以及相应感觉到的映像位置和汇合。然而垂直空间分辨力精度低于水平分辨力，并且为了适当的内插性能，不需要那么密的基本声道阵列。

利用定向的处理器—它模仿人耳的工作—的好处是信号处理的任何不完善或限制应能通过人耳的类似的不完善和限制在感觉上掩饰掉，从而允许下述可能性：系统被感觉与原来的完全连续的放音几乎没有区别。

虽然本发明被设计能有效地应用于不管多或少的输出声道可用的情形(包括不解码而由与输入声道同样多的扬声器进行的放音，以及被动的下混到较少的声道，包括单声，立体声和兼容Lt/Rt的环绕声)，最好力求使用多的和有点随意的、然而实用的个数的放音声道/扬声器，并且使用类似或更少个数的编码声道，包括现有的5.1声道环绕声道，以及可能的下一代11或12声道数字电影声道作为源材料。

本发明的实施要求体现四个原理：误差遏制，优势保持，恒定功率和同步平滑。

误差遏制的概念是在给定的解码错误可能性下，每个源的解码后位置应该在合理的意义下接近其真实的预期方向。这规定了解码策略中一定程度的保守性。存在更为积极的解码，它们伴随着错误事件中可能更大的空间上的不一致，通常推荐接受较小精度的解码，以换取确保的空间遏制。甚至在更高精度的解码有把握被应用的情况下，如果存在着动态信号条件要求解码器在积极的和保守的方式之间接合以生成人造声像的可能，应用更高精度的解码可能是不明智的。

优势保持是误差遏制的一个更为有约束力的变种，它要求单个的良好确定的优势信号应能被解码器只移动到最邻近的那些输出声道中。这个条件对于保持优势信号的映像汇合是必要的，并且有利于感觉出矩阵解码器的离散性。当一个信号是占优势的时候，它被从其它输出声道中抑制掉，方法是或者从相关基本信号中减去它，或者直接使其它输出声道的矩阵系数互补于用于产生优势信号的矩阵系数(“反优势系数/信号”)。

恒定功率解码不仅要求总的解码输出功率等于输入功率，而且要求在传送的基本阵列中被编码的每个声道和定向信号的输入/输出功率相等。这使增益变化产生的假象最小。

同步平滑意味着对系统施加与信号相关的平滑时间常数，并且要求：如果一个解码模块中的任一平滑网络被切换到快速时间常数模式，在此模块中的所有其它平滑网络同样被切换。这是为了避免新占优的定向信号呈现缓慢衰落/离开以前的优势方向。

附图说明

图1是一个示意图，示出一个理想化的解码器安排结构的俯视图。

具体实施方式

解码模块

因为编码任一源方向被假设为主要映射到最邻近的声道上，声道转换解码是基于一系列半自动的解码模块，它们在通常的意义上再生输出声道，尤其是中间输出声道，每一个输出声道通常由所有被传送声道的一个子集，以类似于人耳的方法求出。

以类似于人耳的方法，解码模块的工作基于幅度比和交叉相关的结合，幅度比用于确定标称的当前主方向，交叉相关用于确定映像的相对宽度。

应用由幅度比和交叉相关求出的控制信号，处理器产生输出声道的声音信号。因为这最好基于线性关系实现，以避免产生失真，解码器形成包含有感兴趣信号的基本声道的加权和。(像下面解释的那样，也可要求在计算加权和中也包括非邻近的基本声道)。这个有限的但动态的内插方式更常被称为矩阵化。如果在信源中，需要的信号被映射(振幅移动)到最邻近的M个基本声道中，则是一个M∶N矩阵解码的问题。换言之，输出声道表示输入声道相对比例。

特别是在两输入解码模块的情况中，它很象有源的2∶N矩阵解码器涉及的问题，例如新型号的Dolby Pro Logic矩阵解码器，它具有成对的解码模块输入端对应于Lt/Rt编码信号。

注意：2∶N矩阵解码器的输出有时称为基本声道。然而在本文中用“基本”来称呼声道转换解码器的输入声道。

然而，在现有技术的自主2∶N解码器与本发明解码模块的工作之间至少有一个有意义的区别。前者除了用左/右幅度指示左/右位置，这一点也是声道转换解码器的假设，它们还用相互声道的相位指示前/后位置，特别是基于Lt/Rt编码声道的和/差比。

这种自主2∶N解码器结构有两个问题。一个问题是，例如完全相关的(前方的)，但是偏离中心的信号将导致和/差比小于无限大，从而不正确地指示一个不完全在前方的位置(类似于完全反相关的偏离中心的背后信号)。结果是一个有点变形的解码空间。第二个缺点是，位置映射是多对一的，引入固有的解码错误。例如在一个4∶2∶4矩阵系统中，一对没有前-入或背-入的非相关的左-入和右-入信号将映射与信号相同的纯净的，非相关的Lt/Rt对，也可映射一个没有左-入/右-入的非相关的前-入/后-入对，或者映射所有4个不相关输入的内容。解码器面对一个不相关的Lt/Rt对没有选择，而“放松此矩阵”，即用一个被动矩阵分配声音到所有输出声道上。不可能解码为一个同时只有左-出/右-出，或只有前-出/背-出的信号阵列。

根本的问题在于，在N∶2∶N矩阵系统中应用相互声道的相位来编码前/后位置，这不同于人耳的工作，人耳不用相位来判别前/后位置。本发明最好用至少三个不在一条直线上的基本声道来工作，使得前/后位置由基本声道的设定方向指示，而不是根据它们的相对相位或极性给出不同的方向，这样，一对不相关的或反-相关的声道转换的基本信号明确地解码为分离的基本-输出声道信号，没有中间信号，也没有“后方的”方向被指示。(此外，这避免了自主2∶N解码器中令人遗憾的“中心聚集”效应，其中不相关的左-入和右-入信号以减小了的分离度被放音，因为解码器馈送这两个信号的和及差给中心和周围的声道。)当然，原则上可以通过用一个N∶M声道转换系统与一个2∶N解码器-N＝4或5—级联来在空间上扩展一个Lt/Rt信号，但是在此情况下，2∶N解码器的任何局限性—例如中心聚集—将被带到倍增的声道输出上，也可以组合这些功能到一个设计来接收2声道Lt/Rt信号的声道转换解码器，并且在此情况下改变其特性以解释负的相关信号为具有后方的定向，保持其它的处理不变。然而，甚至在此情况下仍然存在由只有两个被传送的声道所导致的解码模糊。

所以，每个解码模块，尤其是具有两个输入声道的解码模块类似于现有有源2∶N解码器，具有前/后检测禁用或变更的，任意个数的输出声道。当然数字上不可能用矩阵从较少个数的声道唯一地产生较多个数的声道，因为这基于解N个具有M个未知数的线性方程，而M大于N。所以期望的是，解码模块在存在多个自主的源方向信号时可能有时呈现不太好的声道复原。然而人类听觉系统受使用两耳的局限，将承受同样的，允许系统被感觉为离用的极限，甚至用所有声道工作时也如此。当其它声道被静音时分离的声道质量仍然是要考虑的，这是为了照顾到坐在一个扬声器近处的收听者。

人耳的工作肯定是与频率有关的，但是大多数声像在所有频率上被相关，而且根据作为宽带系统的Pro logic解码器成功的经验性实验，可以预期一个宽频带的声道转换系统可能在某些应用中也有令人满意的性能。多频带声道转换解码器应该也是可能的，采用在逐个频带的基础上类似的处理，并在每个情况下应用相同的编码信号，单个频带的个数和带宽可作为一个自由参数留给解码器实现者。虽然多频带处理可能比宽带处理要求更高的MIPS，如果输入信号被分成数据块，并且处理基于块实现，则计算需求量可能不太高。

在说明可被本发明解码模块使用的算法之前，首先给出对共享节点的考虑。

共享节点

如果解码模块所用的基本声道组都是独立的，则解码模块本身应是独立的，自主的实体。然而通常不是这种情况。一个给定的被传递声道通常将与两个或更多的相邻基本声道一起被分离的输出信号享用。如果独立的解码模块被用来解码此阵列，每一个将被相邻声道的输出信号影响，导致可能是严重的错误。在功能上，两个相邻解码模块的输出信号将“拉”向—或移向—另一个，因为公共基本节点包含两个信号，使电平增加。如果—这里经常发生的情况—信号是动态的，互作用的量将大到导致与信号有关的动态定位误差大到令人不愉快。这个问题在ProLogic和其它有源的2∶N解码中不存在，因为它们只有单个的分离的声道对作为解码器输入。

所以，补偿“共享节点”效应是必要的。一个可能的方法是，在试图再生一个共享公共节点的相邻解码模块的输出信号之前，从公共节点中减去一个已再生的信号。这通常是不可能的，因而改用以下方法：每个解码模块预测出现在共输入声道上的公共输出信号能量，并且一个管理程序通知每个模块它的相邻模块的输出信号能量估计。

公共能量的成对计算

例如，假设基本声道对A/B包含一个公共信号X以及单独的不相关的信号Y和Z：

A＝0.707X+Y

B＝0.707X+Z

其中定标因子

0.707 = \sqrt{0.5}

提供了一个功率对最邻近基本声道保持映射。

= 0.5 \overset{&OverBar;}{X^{2}} + 0.707 \overset{&OverBar;}{XY} + \overset{&OverBar;}{Y^{2}}

因为X和Y不相关， XY＝0，所以

\overset{&OverBar;}{A^{2}} = 0.5 \overset{&OverBar;}{X^{2}} + \overset{&OverBar;}{X^{2}} .

即，因为X和Y不相关，基本声道A中的总能量是信号X和Y的能量和。

类似地：

\overset{&OverBar;}{B^{2}} = 0.5 \overset{&OverBar;}{X^{2}} + \overset{&OverBar;}{Z^{2}}

因为X，Y和Z是不相关的，A和B的平均交叉乘积为：

\overset{&OverBar;}{AB} = 0.5 \overset{&OverBar;}{X^{2}}

这样，在一个输出信号被两个相邻的基本声道—它们也可包含独立的，不相关的信号—均分享用的情况下，信号的平均交叉一乘积等于公共信号分量在每个声道中的能量。如果公共信号不是均分地被共享，即它偏向一个基本声道，平均交叉乘积将是A和B中公共分量的能量之间的几何平均，由此，单独声道公共能量估计能通过用声道振幅比的平方根进行归一化而求出。实时的时间平均用一个具有适当的下降时间常数的有漏泄积分器计算，以反映前进中的活动性。时间常数平滑可用非线性的上升和下降时间选件来精心完善，并且在多频带系统中，可用频率来定标。

更高阶的公共能量计算

为了求出具有三个或更多个输入的解码模块的公共能量，必须形成所有输入信号的平均交叉-乘积。简单地进行输入的成对处理将不能区分每对输入与所有输入公共的信号之间的分离的输出信号。

例如，考虑三个基本声道A，B和C，它们分别由不相关的信号W，Y，Z和公共的信号X组成：

A＝X+W

B＝X+Y

C＝X+Z

如果平均交叉乘积被计算，像在第二阶计算中那样，所有包含W，Y和Z的组合的项将被消去，剩下X³的平均：

\overset{&OverBar;}{ABC} = \overset{&OverBar;}{X^{3}}

不幸的是，如果X是平均值为零的时间信号，则其立方的平均也是零。不像X²的平均，对任何非零的X值，X²均为正数，X³与X有相同的符号，从而正和负的贡献部分将抵消掉。显然，这对于X的任何奇次幂同样成立，X的奇次幂对应于奇数个模块输入，但是指数大于2的偶指数也能导致错误的结果；例如具有分量(X，X，-X，-X)的4个输入与(X，X，X，X)将有相同的乘积/平均值。

上述问题可以用变形的平均乘积技术解决。在做平均之前，每个乘积的符号通过取乘积的绝对值而去除。乘积的每一项的符号被检查。如果它们都相同，乘积的绝对值被送去进行平均，如果任一符号不同于其它的，乘积的绝对值的负值被平均。因为可能的同符号组合的个数不等于可能的不同符号组合的个数，一个加权因子被施加于变负的绝对值乘积进行补偿，此加权因子由同符号组合个数与不同符号组合个数的比值构成。例如一个三输入模块在8个可能中有两个同符号的可能情况，剩下的六个可能情况是不同符号的，因此定标因子为2/6＝1/3。此补偿当而且仅当一个解码模块的所有输入存在公共的信号分量时才导致积分的或相加的乘积增大。

然而，为了不同阶模块的平均可以比较，它们全体必须有相同的量纲。一个常规的二阶相关包含两输入乘法的平均，因而量纲为能量或功率。所以在更高阶相关中被平均的项必须也改变为有功率量纲。对于一个第K阶相关，各个乘积绝对值必须在平均之前变为其指数为2/k的幂。

当然，与阶次无关，如果需要，模块的各个输入节点的能量可计算为相应节点信号的平方的平均，并且不需要首先提升到其k次幂，再减小到一个二阶量。

共享的节点：相邻电平

通过应用基本声道信号的平均平方和变形的交叉乘积，可以估计出公共的输出声道信号能量大小，上面的例子涉及单个内插处理器，但是如果A/B(/C)节点的一个或多个是与另一个具有其自已的与任何其它信号不相关的公共信号分量的另一个模块共同的，则上面计算的平均交叉-乘积应不受影响，使得计算固有地不存在声像率引应效。(注：如果两个输出信号不是相关的，它们将倾向于拉近解码器，但是在人耳中会有一类似的效应，重新使系统工作对人类听觉仍保持忠实。)

一旦每个解码模块已计算出在其每一基本声道上的估计的公共输出声道信号，管理程序功能可告知相邻模块每个其它的公共能量，在那一点处，输出声道信号的产生像下面所述那样进行。由一个模块在一个节点上所应用的公共能量的计算必须考虑不同阶模块可能重叠的多层结构，并且从共享同一节点的任一低阶模块估计的公共能量中减去一个高阶模块的公共能量。

例如，假设有两个相邻的表示两个水平方向的基本声道A和B，以及一个表示垂直方向的基本声道C，并进一步假设存在一个表示一个在内部的方向(即在A，B和C的限制内的一个方向)的信号能量为X²的中间的或导出的输出声道。输入为(A，B，C)的三输入模块的公共能量将是X²，但是两输入模块(A，B)，(B，C)和(A，C)的公共能量也应是X²。如果A所连接的模块(A，B，C)，(A，B)和(A，C)的公共能量简单地相加，将得到3X²，而不是X²。为了正确地计算公共节点能量，每个高阶模块的公共能量首先从每个重叠的低阶模块估计的公共能量中减去，从而高阶模块(A，B，C)的公共能量X²从两个两输入模块的公共能量估计中被减去，在每个情况下得到0，并且得到节点A处的净公共能量估计等于X²+0+0＝X²。

输出声道信号产生

如前所述，以一个线性方法由传送的声道再生输出声道全体的处理基本上是一个矩阵方法，即形成基本声道的加权和，以求出输出声道信号。矩阵定标因子的最佳选择一般是与信号无关的。确实，如果当前活动的输出声道的个数等于被传送声道(但表示不同的方向)的个数，使得系统是严格受制约的，则数学上可以计算出有效编码矩阵的逆矩阵并还原分离的源信号原型。甚至于如果活动的输出声道个数大于基本声道个数，可能仍然可以计算出一个伪逆矩阵。

不幸的是，此方法存在问题，计算量需求一特别是基于多频带处理，并且面向高精度浮点实现—并是一个最重要的因素。即使中间信号被假设是位于最邻近的基本声道间，有效编码矩阵的数学逆阵或伪-逆矩阵一般对每个输出声道有来自所有基本声道的贡献，这是由于节点共享效应。如果在解码中有任何不完善—实际上这是不可避免的，一个基本声道信号可能由一个空间上与它相距较远的输出声道再生，这是非常不合乎要求的。此外，伪逆矩阵计算倾向于产生最小RMS能量解，这大大扩展了声音范围，给出最小的分离度；这是与本发明相当不相容的。

因此，为了实现一个实用的容错解码器—在其中有固有的空间解码误差，与用于信号检测的相同模块结构被用于信号产生。

下面详述一个解码模块再生输出信号的产生过程。注意连接于模块的每个输出声道的有效位置被假设由振幅比确定，这些振幅是定位信号到其物理位置所需的，即对应于比方向的有效矩阵编码系数的比值。为了避开被零除的问题，比值被典型地计算为一个声道的矩阵系数除以此输入声道的矩阵系数(通常为1)全体的RMS和得到的商。例如，在一个输入为L和R的两输入模块中所用的能量比应是L能量除以L和R能量之和(“L-比值”)，它有0至1的取值范围。如果两输入解码模块具有5个输出声道，有效编码矩阵系数对为(1.0，0)、(0.89，0.45)、(0.71，0.71)、(0.45，0.89)和(0，0.1)，相应的L-比值是1.0，0.89，0.71，0.45和0，因为每对定标固子有一个1.0的RMS和。

从解码模块的每个输入节点(基本声道)的信号能量中减去被相邻解码模块取走的任何节点共离信号，得到归一化的输入信号功率电平，用于计算的余数。

优势方向指示被计算为基本方向被相对能量加权的矢量和。对于一个两输入模块，它简化为归一化输入信号功率电平的L-比值。

包括优势方向在其中的输出声道通过将上一步骤中的优势方向L-比值与输出声道的L-比值进行比较而确定。例如，如果上述五输出解码模块输入的L-比值为0.75，则第二和第三输出声道包括了优势方向，因为0.89＞0.75＞0.71。

映射优势信号到最邻近的涵盖声道的移动定标因子由声道的反-优势信号电平的比值计算得到。与特定输出声道相联系的反-优势信号是当对应的解码模块输入信号用输出声道的反-优势矩阵定标因子变换的结果。一个输出声道的反-优势矩阵定标因子是RMS和等于1的那些定标因子，它们在单个优势信号被定位到该输出声道上时导致零输出。如果输出声道的编码矩阵定标因子为(A，B)，则此声道的反-优势定标因子是(B，-A)。

证明

如果单个优势信号被定位于具有编码定标因子(A，B)的输出声道上，则信号必须有振幅(KA，KB)，其中K是信号的总振幅，于是，对于此声道，反-优势信号是(KA*B-KB*A)＝0。

因此，如果一个优势信号由两输入模块输入信号(x(t)，y(t))组成，它具有归一化为RMS＝1的输入振幅(X，Y)，产生的优势信号为dom(t)＝Xx(t)+Yy(t)。如果这个信号的位置被包括在矩阵定标因子分别为(A，B)和(C，D)的输出声道之间，对于矩阵定标因子为(A，B)的声道定标dom(t)的优势信号定标因子是：

SF(A，B)＝sqrt((DX-CY)/((DX-CY)+(BX-AY)))，

而对于矩阵定标因子为(C，D)的声道，相应的优势信号定标因子为：

SF(C，D)＝sqrt((BX-AY)/((DX-CY)+(BX-AY)))，

当优势方向从一个输出声道向另一输出声道移去时，这两个定标因子以相反方向在0与1之间移去，且具有不变的功率和。

反-优势信号用适当的对所有非-优势声道定标的增盖被计算和定位。反-优势信号是一个没有任何优势信号的矩阵变换信号。如果解码模块的输入为(x(t)，y(t))，其归一化振幅为(X，Y)，优势信号是Xx(t)+Yy(t)，反-优势信号是Yx(t)-Xy(t)，与非-优势输出声道的位置无关。

除了优势/反-优势信号分布外，第二个信号分布用“被动”矩阵计算，它基于已经讨论过的，被定标以维持功率的输出声道矩阵定标因子。

解码模块输入信号的交叉相关被计算为输入信号的平均交叉乘积除以归一化输入电平的乘积的平方根。

现在回到产生过程的说明，最终输出被计算为优势信号和被动信号分布的一个加权的交叉衰落和，其中用解码模块的输入信号交叉相关推出交叉衰落因子。对于相关值＝1，只使用优势/反-优势分布。当相关值减小时，输出信号阵列通过对被动分布的交叉衰减被展宽，以实现在一个低的正相关值上，典型地为0.2至0.4，取决于连接到解码模块的输出信道个数。当相关值进一步减小，趋于零时，被动振幅输出分布逐渐向外弯曲，减小输出信号电平，以模仿人耳对这些信号的响应。

垂直处理

至今所描述的用以从相邻基本声道产生输出声道信号的大多数处理与输出和基本声道的方向无关。然而由于人耳的水平定向性，人类听觉定位倾向于在垂直方向上比水平方向上有较小的对相互声道相关性的敏感度。为保持人耳工作的真实感，这可能是需要的：在用垂直一定向的输入声道内插处理器中削弱相关约束，例如在使用它之前用一个弯曲函数处理相关信号。然而有可能用与水平声道相同的处理将不带来任何听觉的恶化，这样将简化整个解码器的结构。

严格讲，垂直信号包括从上方和下方来的声音，并且所描述的解码器结构应同样好地对它们工作，但是实际中通常没有自然声来自下方，因而其处理和声道可被消去而不损害所感觉的系统空间保真度。

此概念在应用声道转换到现有5.1声道环绕声材料时可能有实际意义，当然此材料没有垂直声道。然而，它可以包含垂直信息，例如飘在头顶上的，它们的记录跨在多个或全部水平声道。所以，应该可以从这些源材料中提取一个虚拟的垂直声道，方法是考虑非-相邻声道或声道组之间的相关性。如果存在上述相关性，它们通常将表示来自收听者上方，而不是下方的垂直信息的存在。在某些情况下，也可以由一个混响发生器导出虚拟的垂直信息，可能关键在于所用收听环境模型。一旦虚拟的垂直声道从5.1声道信源被提取或导出，至较大个数声道-例如前面描述的24声道结构—的扩展可以象提供了一个真实的垂直声道那样进行。

定向记忆

关于解码模块控制产生的操作，如上所述，它类似于诸如Pro Logic的解码器的一个2∶N自主解码器的工作，本发明的一个方面是在处理中唯一的“记忆”是在平滑网络中，此网络产生基本控制信号。在任一时刻，只存在一个优势方向和一个输入相关值，而信号产生直接根据这些信号进行。

然而，特别是在复杂的声学环境下(如原型的鸡尾酒会)，人耳呈现出一定程度的位置记忆，或者惯性，一个短暂的来自某给定方向的被明确定位的优势声音将导致其它的来自非专一的方向的不能明确定位的那些声音被感觉到来自同一个源。

可在解码模块中(实际上同样在Pro Logic解码中)模仿这个效应，方法是增加一个显式机构来保存最新的优势方向轨迹，并在方向上模糊的信号条件期间，加权输出信号分布，使其指向最新的优势方向。这可以改进由复杂信号阵列所感觉到的再生离散性和稳定性。

修改的相关和选择的声道混合

如前所述，每个解码模块的输出分布确定是基于其输入信号的同时的交叉相关，这可能在某些情况下低估了输出信号内容量。例如，这将随一个自然记录的信号出现，在此信号中非-中心方向有略微不同的抵达时间和不相等的振幅，这导致相关值减小。如果应用大间距的话筒，相应有更大的声道间时延，上述效应可能更严重。为了补偿此效应，相关性计算可扩展到覆盖信道间时延的一个范围，这以略为更高的处理MIPS要求为代价。因为听觉神经细胞绝没有约1毫秒的有效时间常数，更加真实的相关值可以通过首先用一个具有1毫秒时间常数的平滑器对被检测声音进行平滑来获得。

此外，如果一个信息生产者有一个具有强不相关声道的现有5.1声道节目，通过轻微混合相邻声道，从而增加相关性，可以在用声道转换解码器进行处理时提高分布的均匀性，此方法将导致声道转换解码模块在其中间输出声道之间提供更均匀的分布。这种混音也可做成有选择性的，例如保留中心前方声道信号不被混音，以保持对话音轨的紧致性。

音量压缩/扩展

当编码处理包括混合较大个数的声道为较小个数声道时，如果不提供某些形式的增益补偿，则编码后信号有可能被限幅。这个问题对于传统的矩阵编码同样存在，但是对声道转换有更大的可能出现，因为被混合为一个给定输出声道的声道数更大。为避免在这种情况下的限幅，由编码器给出一个总的增益定标因子，并在已编码的比特流中传送到解码器。通常这个值为0dB，但是它可以被编码器设置为一个非零的衰减值，以避免限幅，解码器提供一个等效的补偿增益量。

如果解码器被用来处理一个现有的多声道，它没有这个定标因子节目(例如，一个现有的5.1声道轨迹)，它应该选用固定的定标因子为一个假设的值(大约0dB)，或者基于信号电平和/或动态范围应用一个扩展函数，或应用可能利用的元数据，例如一个对话规范值，来调节解码器增益。

本发明及其各个方面可以实现在模拟电路中，或者更可能作为软件功能实现在数字信号处理器、编程的通用数字计算机和/或专用数字计算机中。模拟与数字信号流之间的接口可实现在合适的硬件中和/或作为功能实现在软件和/或固件中。

Claims

1.一种用于将表示一个声场的M个输入声道转换为表示同一声场的N个输出声道的方法，其中每个声道是表示由一个方向抵达的声音的单个音频流，M和N是正整数，且M为等于或大于2的正整数，该方法包括：

多个解码模块操作，其中多个模块操作共享所述M个输入声道中的多个输入声道，每个模块操作或者

包括一个产生构成所述N个声道的一个子集的一个或多个输出声道的矩阵，并根据与该解码模块操作关联的空间上相邻的最靠近的基本声道中的两个或更多个基本声道控制其矩阵，或者

根据与该解码模块操作关联的空间上相邻的最靠近的基本声道中的两个或更多个基本声道产生控制信号，这些控制信号连同由其它解码模块操作产生的控制信号一起用来改变一个可变矩阵的系数以产生所述输出声道的全部，或者

根据与该解码模块操作关联的空间上相邻的最靠近的基本声道中的两个或更多个基本声道产生控制信号，这些控制信号连同由其它解码模块操作产生的控制信号一起用来改变到/从一个固定矩阵的输入/输出的比例因子以产生所述输出声道的全部。

2.根据权利要求1的方法，其中各模块操作按照它们的输入声道的个数被分级排序，并且所述方法还包括管理程序操作，该管理程序操作与所述各模块操作通信，以根据它们的分级排序控制输入信号的共享。