CN101410889A

CN101410889A - 对作为听觉事件的函数的空间音频编码参数进行控制

Info

Publication number: CN101410889A
Application number: CNA2006800279189A
Authority: CN
Inventors: 艾伦·J·西弗尔特; 马克·S·文顿
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2005-08-02
Filing date: 2006-07-24
Publication date: 2009-04-15
Anticipated expiration: 2026-07-24
Also published as: KR20080031366A; EP1941498A2; JP2009503615A; KR101256555B1; TW200713201A; US20090222272A1; EP2296142A3; EP2296142A2; MY165339A; JP5189979B2; WO2007016107A2; TWI396188B; CN101410889B; WO2007016107A3; HK1128545A1

Abstract

本发明公开了一种音频编码器或编码方法，其接收多个输入音频声道，并生成一个或多个音频输出声道，以及用于描述可由一个或多个音频输出声道导出的多个音频声道之间预期空间关系的一个或多个参数，通过检测在多个音频输入声道中的一个或多个声道中信号特性随时间的变化，将在多个音频输入声道中的所述一个或多个声道中信号特性随时间的变化识别为听觉事件边界，相继边界之间的音频段构成声道中的听觉事件，以及至少部分地响应听觉事件和/或与所述听觉事件边界相关的信号特性的变化程度，生成所述一个或多个参数的所有或其中一些参数。另外，还披露了听觉事件响应音频上混频器或上混频方法。

Description

对作为听觉事件的函数的空间音频编码参数进行控制

技术领域

本发明涉及音频编码方法和设备，其中编码器将多个音频声道下混频(downmix)到更少数量的音频声道，生成描述在所述音频声道间预期空间关系的一个或多个参数(所有或其中一些参数)。本发明还涉及作为听觉事件的函数，将多个音频声道上混频(upmix)到更多数量音频声道的音频方法和设备。本发明还涉及用于实现这样的方法或对这样的设备进行控制的计算机程序。

背景技术

空间编码

某些有限比特率数字音频编码技术对输入多声道信号进行分析，以导出“下混频”复合信号(包含与输入信号相比更少声道的信号)和包含原始声场参数模型的边信息。可将边信息(边链)和复合信号(例如，可通过有损和/或无损比特率缩减编码进行编码)传送到解码器，由解码器应用合适的有损和/或无损解码，然后将参数模型应用到解码复合信号，以便有助于将复合信号“上混频”到更多声道，由此重新创建原始声场的近似。这样的“空间”或“参数”编码系统的原始目标是利用非常有限数据量重新创建多声道声场；因此，这对用于模拟原始声场的参数模型造成限制。这样空间编码系统的细节包含在多个文献中，包括后面在标题“参考文献”下引述的那些文献。

这样的空间编码系统通常采用参数对原始声场进行建模，例如，声道间振幅或电平差(“ILD”)、声道间时间或相位差(“IPD”)和声道间交叉相关(“ICC”)。一般而言，对于要编码的每个声道对于多个频谱带对这样的参数进行估计，并随着时间的变化动态地对其进行估计。

在典型现有技术中，在M＝1的N:M:N空间编码系统中，使用重叠DFT(离散频率变换)将多声道输入信号转换到频域。然后，将DFT频谱细划分成接近人耳临界频带的频带。对于每个频带计算出对于声道间振幅差、声道间时间或相位差和声道间相关的估计。使用这些估计将原始输入声道下混频到单声道或双声道立体声复合信号。将复合信号与估计空间参数一道发送到解码器，于此，使用同样的重叠DFT和临界频带间隔将复合信号转换到频域。然后，将空间参数应用到其相应频带，以创建对原始多声道信号的近似。

听觉事件和听觉事件检测

有时将声音划分成认为独立且不同的单元或片断称为“听觉事件分析”或“声音场境分析(auditory scene analysis，ASA)”，并且，有时将片段成为“听觉事件”或“音频事件”。关于听觉事件分析的展开讨论参看由Albert S.Bregman在其著作Auditory SceneAnalysis-The Perceptual Organization of Sound(于MassachusettsInstitue of Technology，1991年，2001年第四次印刷，MIT Press出版社第二平装版)中的描述。此外，于1999年12月14日授予Bhadkamkar等人的美国专利No.6,002,776引述了作为“关于通过音频场境分析进行声音分离的现有技术工作”追溯至1976年的公开资料。然而，Bhadkamkar等人的专利对音频场境分析的实际应用失去信心，并导出这样的结论，即，尽管关于声音场境分析从科学角度而言作为人声音处理模型引起人们的兴趣，目前，在还未取得重大进步的条件下，它需要过多的计算要求，从而并非将其作为声音分离的实际技术。

识别听觉事件的实用方法由Crockett以及Crockett等人在后面标题“Incorporation by Reference”下列出的多个专利申请和文章中给出。根据这些文献，将音频信号(或在多声道信号中的声道)划分成听觉事件，往往将每个听觉事件认为是独立且不同的，这通过检测频谱成分(作为频率函数的振幅)随时间的变化来实现。例如，这可通过计算音频信号连续时间块的频谱含量、计算音频信号连续时间块之间频谱内容的差，以及当这样连续时间块之间频谱内容的差超过阈值时将听觉事件边界识别为连续时间块之间边界来实现。或者，不计算或不仅计算频谱含量随时间的变化，可计算振幅随时间的变化。

在其对计算要求最少的实现方式中，处理通过将全部频带(全带宽音频)或基本上全部频带(在实际实现方式中，通常采用在频谱末端处进行的带限滤波)进行分析并对最大声音频信号分量给定最大权重，将音频划分成时间段。该方法利用其中在更短时间定标(20毫秒(ms)或等短)耳朵可能往往关注给定时刻处单个听觉事件的心理声学现象。这表示，尽管可能有多个事件同时发生，但往往有一个分量感觉最显著，并可对其进行单独处理，就好像仅有该事件发生一样。利用该效应还允许进行听觉事件检测，以便与要处理的音频的复杂度成比例。例如，如果要处理的输入音频信号为独奏乐，则被识别的音频事件将有可能是进行演奏的独立音符。对于输入语音信号也同样，有可能将例如话音、元音和辅音的各分量识别为独立音频元素。随着音频复杂度增加，如对于具有鼓声或多乐器和语音的音乐，听觉事件检测识别出任何给定时刻“最显著”(即，最大声)的音频元素。

以更大计算复杂度为代价，处理还可在离散子频带(固定或动态确定、或固定和动态确定的子频带)而非全带宽中，考虑到频谱成分随时间的变化。该可选方法在不同子频带中考虑不止一个音频流，胜于假设在特定时刻仅感觉到单个流。

听觉事件检测可通过这样的方式实现，即，将使语音频波形划分成时间间隔或块，然后，使用滤波器库或时频变换，例如，FFT，将每个块中的数据转换到频域。可对每个块的频谱内容的振幅进行归一化处理，以便消除或减弱由振幅变化带来的影响。每个生成的频域表示提供了特定块中音频频谱内容的表示。将连续块的频谱内容进行比较，可采用比阈值更大的变化表示听觉事件的时间起点或时间终点。

优选地，如以后所述的那样，对频域数据进行归一化处理。需对频域数据进行归一化处理的程度给出了振幅的表示。因此，如果该程度变化超过预定阈值，则可将用它来表示事件边界。由频谱变化和振幅变化导出的事件起点和终点可一起进行OR操作，以便识别由任何变化类型导出的事件边界。

尽管所述Crockett以及Crockett等人的申请和文章中描述的技术结合本发明的方面特别有益，不过，在本发明的方面中也可采用用于识别听觉事件和事件边界的其他技术。

发明内容

根据本发明的一个方面，音频编码器接收多个输入音频声道，并生成一个或多个音频输出声道，以及用于描述可由一个或多个音频输出声道导出的多个音频声道之间预期空间关系的一个或多个参数。检测在多个音频输入声道中的一个或多个声道中信号特性随时间的变化，并将在多个音频输入声道中的一个或多个声道中信号特性随时间的变化识别为听觉事件边界，以便相继边界之间的音频段构成声道中的听觉事件。至少部分地响应听觉事件和/或与所述听觉事件边界相关的信号特性的变化程度，生成所述一个或多个参数中的一些参数。一般而言，听觉事件是常被认为独立且不同的音频片段。关于信号特性的一个可用测量包括对音频频谱内容的测量，例如，如在引用的Crockett和Crockett等人的文档中的描述。可至少部分地响应一个或多个听觉事件的存在与否生成一个或多个参数的所有或其中一些。可将听觉事件边界识别为超过阈值的信号特性随时间变化。或者，可至少部分地响应与所述听觉事件边界相关联的信号特性变化程度的连续测量，生成一个或多个参数的所有或其中一些。尽管在原则上本发明的方面可在模拟和/或数字域中实现，实际实现方式也可能在其中将每个音频信号通过数据块内的采样来表示的数字域中实现。在该情形中，信号特性可以是块内音频的频谱内容，可通过检测块与块之间音频频谱内容变化来检测信号特性的变化，听觉事件时间起点和终止边界均与数据块的边界相符合。

根据本发明的另一方面，音频处理器接收多个输入声道，并生成比输入声道数量更多的多个音频输出声道，这通过以下步骤来实现:检测在多个音频输入声道中的一个或多个声道中信号特性随时间的变化，并将在多个音频输入声道中的所述一个或多个声道中的信号特性随时间的变化识别为听觉事件边界，其中，相继边界之间的音频段构成声道中的听觉事件，至少部分地响应听觉事件和/或与所述听觉事件边界相关联的信号特性变化程度，生成所述音频输出声道。一般而言，听觉事件是常被认为独立且不同的音频片段。关于信号特性的一个可用测量包括对音频频谱内容的测量，例如，如在引用的Crockett和Crockett等人的文档中的描述。可至少部分地响应一个或多个听觉事件的存在与否生成一个或多个参数的所有或其中一些。可将听觉事件边界识别为超过阈值的信号特性随时间变化。或者，可至少部分地响应与所述听觉事件边界相关联的信号特性变化程度的连续测量，生成一个或多个参数的所有或其中一些。尽管在原则上本发明的方面可在模拟和/或数字域中实现，实际实现方式也可能在其中将每个音频信号通过数据块内的采样来表示的数字域中实现。在该情形中，信号特性可以是块内音频的频谱内容，可通过检测块与块之间音频频谱内容变化来检测信号特性的变化，听觉事件时间起点和终止边界均与数据块的边界相符合。

此处，在包括其他发明的方面的空间编码环境中描述了本发明的某些特性。在Dolby Laboratories Licensing Corporation公司(本发明的拥有人)的多个待审美国和国际专利申请中，描述了这样的其他发明(在此以此确定这些发明)。

附图说明

图1的功能框图显示出在空间编码系统中的编码器的示例，且在所述空间编码系统中，编码器接收N声道信号，该信号预期由空间编码系统中的解码器进行重现。

图2的功能框图显示出空间编码系统中的编码器的示例，且在所述空间编码系统中，编码器接收N声道信号，该信号预期由空间编码系统中的解码器进行重现，它还接收自编码器发送到解码器的M声道复合信号。

图3的功能框图显示出空间编码系统中的编码器的示例，且在所述空间编码系统中，空间编码器作为盲上混频布置的一部分。

图4的功能框图显示出空间编码系统中的解码器的示例，且所述解码器可与图1-3中任何一个所示编码器一起使用。

图5表示单端盲上混频布置的功能框图。

图6显示出包含本发明方面的空间编码系统的有益STDFT分析和合成窗口的示例。

图7表示信号时域振幅随时间(采样数)变化的一组绘图，前两个绘图显示出在DFT处理块内的假定双声道信号。第三个绘图显示出将两个声道信号下混频到单个声道复合的效应，第四个绘图显示出对于第二声道使用SWF处理的上混频信号。

具体实施方式

包括本发明方面的空间编码器的某些示例如图1，2和3所示。一般而言，空间编码器通过拾取N个原始音频信号或声道，将它们下混频成包含M个信号或声道的复合信号，其中M＜N。一般而言，N＝6(5.1音频)，M＝1或2。同时，从原始多声道信号提取出用于描述在多个声道之间感觉上较显著的空间暗示信息(cue)的低数据速率边链信号。然后，可通过现有音频编码器(如，MPEG-2/4AAC编码器)对复合信号进行编码，并封装以空间边链信息。在解码器处，将复合信号解码，并使用解封装边链信息将复合信号上混频成原始多声道信号的近似。或者，解码器可忽略边链信息，且仅输出复合信号。

在多个最近技术文献(如后面引述的那些文献)中以及在MPEG标准委员会内建议的空间编码系统通常采用参数对诸如声道间电平差(ILD)、声道间相位差(IPD)和声道间交叉相关(ICC)之类的原始声场进行建模。一般而言，对于进行编码的每个声道关于多个频谱带对这样的参数进行估计，并随时对它们进行动态估计。本发明的一个方面包括用于计算这样参数中一个或多个的新技术。为便于描述对于本发明方面的有益环境，本发明文献包括用于将上混频信号解相关的方法的描述，包括解相关滤波器，以及用于保留原始多声道信号精细时间结构的技术。用于此处所述本发明方面的另一有益环境是在空间编码器中，且所述空间编码器结合合适的解码器起作用，以执行“盲”上混频(在不具有任何辅助控制信号的条件下，仅响应音频信号起作用的上混频)，将音频材料直接从上声道内容转换成可与空间解码系统相兼容的材料。这样有益环境的某些方面是Dolby Laboratories Licensing Corporation公司其他美国和国际专利申请的主题，在此对其进行确定。

编码器概述

可采用本发明的方面的空间编码器某些示例如图1，2和3所示。在如图1所示编码器示例中，通过设备或功能(“时间到频率”)2，通过合适的时间到频率变换，如众所周知的短时离散傅里叶变换(STDFT)，将N声道原始信号(例如，采用PCM格式的数字音频)转换到频域。一般而言，对变换进行操纵，以使得将一个或多个频率箱组成接近人耳临界频带的频带。通过设备或功能(“导出空间边信息”)4，对每个频带计算对于声道间振幅或电平差(“ILD”)、声道间时间或相位差(“IPD”)和声道间相关(“ICC”)的估计(通常称为“空间参数”)。如后面将进行更详细的描述，声音场境分析器或分析功能(“声音场境分析”)6还接收N-声道原始信号，并影响着设备或功能4生成空间参数，如本说明书中其他部分所述的那样。声音场境分析6可采用N-声道原始信号中声道的任意组合。尽管出于说明的目的进行分别显示，设备或功能4和6可作为单个设备或功能。如果与N-声道原始信号相对应的M-声道复合信号还未存在(M＜N)，则可在下混频器或下混频功能(“下混频”)8中，使用空间参数将N-声道原始信号下混频成M-声道复合信号。然后，由利用合适频率到时间变换从而具有与设备或功能2相反功能的设备或功能(“频率到时间”)10，可将M-声道复合信号转换回时域。然后，在设备或功能(“格式化”)12(可包括有损和/或无损缩位编码)中，可将来自设备或功能4的空间参数和时域中的M-声道复合信号格式化成合适形式，例如，串行或并行位流。自格式化12输出的形式对于本发明而言无关紧要。

在本文献中，可对结构相同或可执行同样功能的设备或功能赋予同样的附图标记。当设备或功能的功能结构相似时，但又稍有区别，例如，具有附加输入，对存在变化但相似的设备或功能指定以最初标记(例如，“4’”)。此外，还应理解，多个框图表示包含有分别示出的功能的功能框图，但实际实施例可将多个或所有这些功能组合在单个功能或设备中。例如，编码器的实际实施例，如图1所示示例，可通过根据计算机程序实现的数字信号处理器实现，其中，计算机程序部分实现多个功能。在后面的标题“实现方式”下，还会看到有关内容。

或者，如图2所示，如果N-声道原始信号和相关M-声道复合信号(例如，均作为PCM数字音频的多个声道)可有效作为对编码器的输入，则通过相同的时间到频率变换2(出于说明清楚目的，表示成两个框图)可对它们同时进行处理，可通过设备或功能(导出空间边信息)4’(可与如图1所示设备或功能4相似，但接收两组输入信号)，针对那些M-声道复合信号，计算N-声道原始信号的空间参数。如果N-声道原始信号组不可用，则可在时域中(未示出)将可用的M-声道复合信号上混频，以生成“N-声道原始信号”-每个多声道信号分别向如图1所示示例中时间到频率设备或功能2提供一组输入。在图1所示编码器和图2所示可选设备中，然后，通过设备或功能(“格式化”)12将M-声道复合信号和空间参数编码成合适形式，如图1示例。如图1编码器示例中那样，自格式化12的输出形式对于本发明无关紧要。如后面将更详细描述的那样，声音场境分析器或分析功能(“声音场境分析”)6’接收N-声道原始信号和M-声道复合信号，并影响着设备或功能4’生成空间参数，如本说明书中其他部分所述的那样。尽管出于说明的目的进行分别显示，设备或功能4’和6’可作为单个设备或功能。声音场境分析6’可采用N-声道原始信号和M-声道复合信号的任何组合。

可采用本发明方面的编码器的其他示例的特征在于，作为空间编码器在执行“盲”上混频时与合适解码器一起使用。在Seefeldt等人于2006年5月26日递交的题名为“Channel Reconfiguration withSide Information”的共同待审国际专利申请PCT/US2006/020882中，披露了这样的编码器，从而，在此该申请全文引作参考。此处如图1和2所示空间编码器在生成空间编码参数时采用现有N-声道空间图像。然而，在多个情形中，空间编码应用的音频内容提供商具有充裕的立体声内容，但缺少原始多声道内容。解决该问题的一种方法是，在进行空间编码之前通过使用盲上混频系统将现有双声道立体声内容变换成多声道(例如5.1声道)内容。如以上所述，盲上混频系统使用仅在原始双声道立体声信号本身中可用的信息对多声道信号进行合成。商业上有获得许多这样的上混频系统，例如，Dolby Pro Logic II(“Dolby”、“Pro Logic”和“Pro Logic II”是DolbyLaboratories Licensing Corporation公司的商标)。当与空间编码器组合时，将在编码器处通过将盲上混频信号下混频生成复合信号，如此处图1所示编码器示例那样，或者将使用现有双声道立体声信号，如此处图2所示编码器示例那样。

作为可选方式，可采用如图3示例所示的空间编码作为盲上混频的一部分。这样的编码器使用现有空间编码参数直接从双声道立体声信号合成预期多声道空间图像的参数模型，而无需生成中间上混频信号。最终编码信号与现有空间解码器相兼容(解码器可使用边信息生成预期盲上混频，或者可通过为收听者提供原始上声道立体声信号忽略边信息)。

在图3所示编码器示例中，由设备或功能(“时间到频率”)2，通过使用合适的时间到频率变换，例如，如在其他编码器示例中的众知短时离散傅里叶变换(STDFT)，将M-声道原始信号(例如，采用PCM格式的数字音频多声道)转换到频域，以便将一个或多个频率箱组成接近人耳临界频带的频带。对于每个频带，通过设备或功能(“导出上混频信息作为空间边信息”)4计算空间参数。如后面将更详细描述的那样，声音场境分析器或分析功能(“声音场境分析”)6”还接收M-声道原始信号，并影响着设备或功能4”生成空间参数，如本说明书中其他部分所述的那样。尽管出于说明的目的进行分别显示，设备或功能4”和6”可作为单个设备或功能。然后，在设备或功能(“格式化”)12(可包括有损和/或无损缩位编码)中，可将来自设备或功能4”的空间参数和M-声道复合信号(仍在时域中)格式化成合适形式，例如，串行或并行位流。如图1和图2所示编码器示例，自格式化12的输出形式对于本发明而言无关紧要。图3所示编码器的其他细节将在后面在标题“盲上混频”下给出。

空间解码器(如图4所示)从诸如图1、图2或图3所示编码器之类的编码器接收复合信号和空间参数。通过设备或功能(“解格式化”)22将位流解码，以便与空间参数变信息一道生成M-声道复合信号。由设备或功能(“时间到频率”)24将复合信号变换到频域，其中，由设备或功能(“应用空间边信息”)26将解码空间参数应用到其相应频带，在频域中生成N-声道原始信号。这样由更少数量声道生成更多数量的声道是上混频(此外，设备或功能26的特征可作为“上混频器”)。最后，应用频率到时间变换(“频率到时间”)28(具有与如图1，2和3所示时间到频率设备或功能2相反的作用)，生成对于N-声道原始信号的近似(如果编码器属于图1和图2的示例所示的类型)或对于如图3所示M-声道原始信号的上混频的近似。

本发明的其他方面涉及作为音频场境分析的函数进行上混频的“单机”或“单端”处理器。后面，将结合图5示例的描述，对本发明这样的方面进行描述。

在提供本发明方面及其环境的更多细节时，在该文献其余部分中，使用以下表述：

x表示原始N声道信号；y表示M声道复合信号(M＝1或2)；z表示仅使用ILD和IPD参数由y进行上混频的N声道信号上混频；

表示对z应用解相关之后对原始信号x的最终估计；x_i，y_i，z_i和

表示信号x，y，z和

的信道i；X_i[k，t]，Y_i[k，t]，Z_i[k，t]和

表示在箱k和时间块t处声道x_i，y_i，z_i和

的STDFT。

根据以下方程式，在时域中基于每个频带，实现用于生成复合信号y的主动下混频：

Y_{i} [k, t] = Σ_{j = 1}^{N} D_{ij} [b, t] X_{j} [k, t], k b_{b} \leq k \leq k e_{b} - - - (1)

其中，kb_b表示频带b的下方箱索引，ke_b表示频带b的上方箱索引，D_ij[b，t]表示复合信号的声道i相对原始多声道信号的声道j的复数下混频系数。

上混频信号z表示同样在频域中由复合信号y计算出：

Z_{i} [k, t] = Σ_{j = 1}^{M} U_{ij} [b, t] Y_{j} [k, t], k b_{b} \leq k < k e_{b} - - - (2)

其中，U_ij[b，t]表示上混频信号的声道i相对复合信号的声道j的上混频系数。ILD和IPD参数通过上混频系数的振幅和相位给出：

ILD_ij[b，t]＝|U_ij[b，t]| (3a)

IPD_ij[b，t]＝∠U_ij[b，t] (3b)

最终信号估计

通过对上混频信号z应用解相关得到。采用的具体解相关技术对本发明而言无关紧要。在Breebaart的题名为“Signal Synthesizing”(2003年10月30日公开)国际专利公开WO03/090206A1中描述了一种技术。不过，可基于原始信号x的特性选择两个其他技术的其中一者。在Seefeldt等人的题名为“Multichannel Decorrelation in Spatial Audio Coding”(2006年3月9日公开)的国际专利公开WO 2006/026452中描述了第一种技术，该技术使用对ICC的测量将解相关的程度进行调制。在Vinton等人的题名为“Temporal Envelope Shaping for Spatial Audio CodingUsing Frequency Domain Wiener Filtering”(2006年3月6日公开)的国际专利公开WO 2006/026161中描述了第二种技术，该技术对Z_i[k，t]应用频谱维纳滤波器，以便恢复在估计

中x的每个声道的原始时间包络。

编码器参数

这里给出关于计算和应用ILD、IPD、ICC和“SWF”空间参数的某些细节。如果采用Vinton等人在上述发明申请中的解相关技术，然后，空间编码器还应生成合适的“SWF”(“空间维纳滤波器”)参数。前三个参数之间的共同之处在于其依赖于对于原始多声道信号x的每个频带中协方差距阵的时变估计。作为在x每个声道上每个频带中频谱系数之间的点积(“点积”也称为标量积，是取两个向量并返回标量数量的二进位操作)，对N×N协方差矩阵R[b，t]进行估计。为了将该估计在时间上取得稳定，使用简单漏泄积分器(低通滤波器)进行平滑处理，如下所示：

R_{ij} [b, t] = λ R_{ij} [b, t - 1] + \frac{1 - λ}{k e_{b} - k b_{b}} Σ_{k = k b_{b}}^{k = k e_{b} - 1} X_{i} [k, t] X_{j}^{*} [k, t], - - - (4)

此处，R_ij[b，t]表示R[b，t]的第i行、第j列元素，表示出在时间块t处频带b中第i个声道与第j个声道之间的协方差，λ表示平滑时间常数。

ILD和IPD

考虑在生成原始信号x的主动下混频y然后将下混频y上混频成原始信号x的估计z的情形中，计算ILD和IPD。在下面的讨论中，假设对于子频带b和时间块t对参数进行计算，出于说明清楚的目的，未明确显示出频带和时间指数。此外，采用下混频/上混频处理的向量表示。首先考虑复合信号中声道数量为M＝1的情形，然后考虑M＝2的情形。

M＝1系统

将子频带b中原始N-声道信号表示为N×1复随机向量x，通过如下所示下混频和上混频的处理计算该原始向量的估计z：

z＝ud^Tx， (5)

其中，d表示N×1复下混频向量，u表示N×1复上混频向量。可以看出，使得z与x之间均方差最小的向量由下式给出：

u^*＝d＝v_max’ (6)

其中，v_max表示与R(x的协方差距阵)的最大特征值相对应的特征向量。尽管在最小二乘方中是最优的，但该方法可能引入不可接受的可感知假声。特别是，该方法往往会使原始信号的低电平声道“零输出(zero out)”，这是由于它使得误差最小。为生成在感觉上满意的下混频和下混频信号，更好的方法是下混频信号包含某些固定数量的每个原始信号声道的方法，且使得每个上混频声道的功率与原始信号相同。然而，还发现，在下混频之前将各个声道旋转以便使声道之间的任何相消最小方面，使用最小二乘方方法的相位较为有益。同样，在上混频处应用最小二乘方用于恢复声道之间原始相位关系。可将该优选方法的下混频向量表示为：

d = α \overset{&OverBar;}{d} \cdot e^{j &angle; v_{\max}} - - - (7)

此处，d表示可包含有例如标准ITU下混频系数的固定下混频向量。向量∠v_max等于复特征向量v_max，操作符a·b表示两个向量的逐元素相乘。标量α表示使得下混频信号的功率等于原始信号声道功率以固定下混频向量加权和的归一化项，可将其计算如下

α = \sqrt{\frac{Σ_{i = 1}^{N} {\overset{&OverBar;}{d}}_{i}^{2} R_{il}}{(\overset{&OverBar;}{d} \cdot e^{j &angle; v_{\max}}) R {(\overset{&OverBar;}{d} \cdot e^{j &angle; v_{\max}})}^{H}}}, - - - (8)

其中，d_i表示向量d第i个元素，R_ij表示协方差矩阵R的第i行、第j列元素。使用特征向量v_max用于表示它仅直至复标量乘法器是惟一的问题。为了使特征向量惟一，应用与最显著声道的元素具有零相位的约束，其中，将显著声道定义为具有最大能量的声道：

g = \underset{i}{\arg \max} (R_{il} [b, t]) . - - - (9)

可将上混频向量u进行与d同样的表示：

u = β \cdot \overset{&OverBar;}{u} \cdot e^{- j &angle; v_{\max}} . - - - (10)

将固定上混频向量u的每个元素选择为使得：

u_id_i＝1， (11)

并且，将归一化向量β的每个元素为，使得上混频信号每个声道中的功率等于在原始信号中相应声道的功率：

β_{i} = \sqrt{\frac{{\overset{&OverBar;}{d}}_{i}^{2} R_{ii}}{Σ_{j = 1}^{N} {\overset{&OverBar;}{d}}_{j}^{2} R_{jj}}} - - - (12)

ILD和IPD参数由上混频向量u的振幅和相位给出：

ILD_l1[b，t]＝|u_i| (13a)

IPD_i1[b，t]＝∠u_i (13b)

M＝2系统

对于M＝2时的情形，可写出类似于(1)的矩阵方程式：

z = [\begin{matrix} u_{L} & u_{R} \end{matrix}] [\begin{matrix} d_{L}^{T} \\ d_{R}^{T} \end{matrix}] x, - - - (14)

其中，2-声道下混频信号相当于具有左和右声道的立体声对，这些声道都具有对应的下混频和上混频向量。可将这些向量表示成与M＝1系统类似的形式：

d_{L} = α_{L} {\overset{&OverBar;}{d}}_{L} \cdot e^{j 0_{LR}} - - - (15 a)

d_{R} = α_{R} {\overset{&OverBar;}{d}}_{R} \cdot e^{j 0_{LR}} - - - (15 b)

u_{L} = β_{L} \cdot {\overset{&OverBar;}{u}}_{L} \cdot e^{- j 0_{LR}} - - - (15 c)

u_{R} = β_{R} \cdot {\overset{&OverBar;}{u}}_{R} \cdot e^{- j 0_{LR}} - - - (15 d)

对于5.1声道原始信号，可将固定下混频向量设置成等于标准ITU下混频系数(假设声道排序为L，C，R，Ls，Rs，LFE)：

{\overset{&OverBar;}{d}}_{L} = [\begin{matrix} 1 \\ 1 / \sqrt{2} \\ 0 \\ 1 / \sqrt{2} \\ 0 \\ 1 / \sqrt{2} \end{matrix}], {\overset{&OverBar;}{d}}_{R} = [\begin{matrix} 0 \\ 1 / \sqrt{2} \\ 1 \\ 0 \\ 1 / \sqrt{2} \\ 1 / \sqrt{2} \end{matrix}] - - - (16)

元素相关约束为：

d_Llu_Ll+d_Rlu_Rl＝1， (17)

通过下式给出相对应的固定上混频向量：

{\overset{&OverBar;}{u}}_{L} = [\begin{matrix} 1 \\ 1 / \sqrt{2} \\ 0 \\ \sqrt{2} \\ 0 \\ 1 / \sqrt{2} \end{matrix}], {\overset{&OverBar;}{u}}_{R} = [\begin{matrix} 0 \\ 1 / \sqrt{2} \\ 1 \\ 0 \\ \sqrt{2} \\ 1 / \sqrt{2} \end{matrix}] - - - (18)

为了在双声道立体声下混频信号中保持原始信号的图像外观，经发现，不应将原始信号的左和右声道的相位旋转，应将其他声道(尤其中心声道)旋转与将其下混频到左和右声道中相同的量。这通过将共同下混频相位旋转计算为左声道相关协方差矩阵的元素与右声道相关元素之间加权和的角度来实现：

θ_LRl＝∠(d_Lld_LlR_ll+d_Rrd_RlR_rl)， (19)

其中，l和r表示与左和右声道相对应的原始信号向量x的角标。通过在(10)中给出的下混频向量，如所预期的，上述表示服从θ_LRl＝θ_LRr＝0。最后，如对于M＝1系统的(4)和(7)公式所示，计算在(9a-d)中的归一化参数。ILD和IPD参数由下式给出：

ILD_l1[b，t]＝|u_Ll| (20a)

ILD_l2[b，t]＝|u_Rl| (20b)

IPD_l1[b，t]＝∠u_Ll (20c)

IPD_l2[b，t]＝∠u_Rl (20d)

然而，通过(12)中的固定上混频向量，这些参数中的数个总是为零，且无需作为边信息显式传输。

解相关技术

对复合信号y应用ILD和IPD参数来恢复上混频信号z中原始信号x的声道间电平和相位关系。尽管这些关系表示原始空间图像的较大感知暗示信息，但上混频信号z的声道保持高度相关，这是由于是从复合信号y中数量同样少的声道(1或2)导出其每个声道。从而，z的空间图像可能与原始信号x相比听起来经常较差。因此，需要对信号z进行修改，以便声道之间的相关性更接近原始信号x的声道相关性。下面描述用于实现该目标的两种技术。第一种技术使用对ICC的测量来控制对z的每个声道的解相关程度。第二种技术，频谱维纳滤波(SWF)，通过在频域中对信号z进行滤波来恢复x的每个声道的原始时间包络。

ICC

可由原始信号的协方差矩阵R[b，t]计算出其归一化声道间相关矩阵C[b，t]，如下：

C_{ij} [b, t] = \frac{| R_{ij} [b, t] |}{\sqrt{R_{ii}^{2} [b, t] R_{jj}^{2} [b, t]}} . - - - (21)

在C[b，t]第i行、第j列的元素测量信号x的声道i与j之间的归一化相关。理想是，期望将z修改成使其相关矩阵等于C[b，t]。然而，由于在边链数据速率方面的限制，作为近似方式，可能会代之以选择修改z使得每个声道与参考声道之间的相关性近似等于在C[b，t]中的相应元素。将参考声道选择为在公式9中定义的显著声道g。然后，将作为边信息发送的ICC参数设置成等于相关矩阵C[b，t]的行g：

ICC_i[b，t]＝C_gi[b，t]. (22)

在解码器处，使用ICC参数控制对于每个频带信号z与解相关信号

的线性组合：

{\hat{X}}_{i} [k, t] = {ICC}_{i} [b, t] Z [k, t] + \sqrt{1 - {ICC}_{i}^{2} [b, t]} {\tilde{Z}}_{i} [k, t]

对于kb_b≤k≤ke_b (23)

通过使用惟一LTI解相关滤波器对信号z的每个声道进行滤波生成解相关信号

{\tilde{z}}_{i} = h_{i} * z_{i} . - - - (24)

将滤波器h_i设计成近似将z和的所有声道近似互解相关：

E {z_{i} {\tilde{z}}_{j}} &cong; 0

i＝1..N，j＝1..N (25)

E {{\tilde{z}}_{i} {\tilde{z}}_{j}} &cong; 0

i＝1..N，j＝1..N，i≠j

假定(17)以及在(19)中的条件，同时假设z的声道高度相关，可以示出最终上混频信号

显著声道与所有其他声道之间的相关由下式给出：

{\hat{C}}_{gi} [b, t] &cong; {ICC}_{i} [b, t], - - - (26)

由此获得预期效果。

在国际专利公开WO 03/090206A1(在本文其他地方有引述)中，对于从单个复合声道合成立体双声道的参数立体声编码系统给出解相关技术。由此，仅需要单个解相关滤波器。此处，所建议的滤波器是频变延迟滤波器，其中，随着频率增大，延迟线性地从某一最大延迟线性降至零。与固定延迟相比，这样的滤波器具有提供明显解相关的预期特性，而且，当将滤波信号添加到未滤波信号时不会引入感知回声，如(17)所指明的。此外，频变延迟在频谱中引入其间距随频率增大而增大的标记。这认为是与固定延迟造成线性间距梳形滤波相比听起来更自然。

在所述WO 03/090206A1文献中，与所建议的滤波器相关的可调参数仅为其长度。在引述的Seefeldt等人的国际专利公开WO2006/026452中披露的本发明的方面对于N个所需解相关滤波器的每个都引入更灵活的频变延迟。将每个的脉冲响应设定为瞬时频率在序列周期上从π单调降至零的有限长度正弦序列：

h_{i} [n] = G_{i} \sqrt{| ω_{i}^{'} (n) |} \cos (φ_{i} (n)),

n＝0...L_i

φ_i(t)＝∫ω_i(t)dt， (27)

其中，ω_i(t)表示单调递减瞬时频率函数，ω_i’(t)表示瞬时频率的一阶导数，φ_i(t)表示通过对瞬时频率的积分给出瞬时相位，L_i表示滤波器的长度。需要相乘项

在所有频率上作出近似平坦的h_i[n]频率响应，将增益G_i计算为

Σ_{n = 0}^{L_{i}} h_{i}^{2} [n] = 1 . - - - (28)

所设定的脉冲响应具有啁啾形序列，从而，具有这样滤波器的滤波音频信号有时能够导致在瞬时有可听“啁啾”假声。通过对滤波器相应的瞬时相位添加噪声项可降低该效应：

h_{i} [n] = G_{i} \sqrt{| ω_{i}^{'} (n) |} \cos (φ_{i} (n) + N_{i} [n]) . - - - (29)

使该噪声序列N_i[n]等于作为π一小部分的方差的白高斯噪声，足以使脉冲响应听起来比啁啾更像噪声，而由ω_i(t)设定的频率与延迟之间的预期关系仍很大程度地得以维持。在(23)中的滤波器具有三个自由参数：ω_i(t)，L_i和N_i[n]。通过选择在N个滤波器上彼此足以不同的这些参数，可满足在(19)中的预期解相关条件。

可通过在时域中卷积生成解相关信号

，不过更有效的实现方式通过具有z的变换系数的乘法进行滤波：

{\tilde{Z}}_{i} [k, t] = H_{i} [k] Z_{i} [k, t], - - - (30)

其中，H_i[k]等于h_i[n]的DFT。严格而言，变换系数的该乘法相当于在时域中的循环卷积，但通过对STDFT分析和合成窗口以及解相关滤波器长度的正确选择，该操作等效于正常的卷积。图6表示出合适的分析/合成窗口对。将窗口设计成有75％重叠，分析窗口在主波瓣之后包含明显的零填充区，以便防止当应用解相关滤波器时出现循环重叠。只要选择每个解相关滤波器的长度小于或等于该零填充区的长度(由图6中L_max给出)，则在公式30中的乘法就相当于在时域中的正常卷积。除在分析窗口主波瓣之后具有零填充区外，还使用量更小的引导零填充处理与频带上ILD，IPD和ICC参数的方差相关的任何非因果卷积漏泄。

频谱维纳滤波

前一部分显示出如何可能基于频带到频带和块到块，通过使用ICC参数控制解相关程度，在估计中恢复原始信号x的声道间相关。对于多数信号而言，其起到的作用极佳；然而，对于某些信号，如欢呼声，需要恢复原始信号各声道的精细时间结构，以便重新构建原始声场的感知弥散效果。该精细结构通常在下混频处理中遭到破坏，由于所采用的STDFT跳跃尺寸以及变换长度，应用ILD，IPD和ICC参数有时并不足以将其恢复。对于这些个别问题情形，SWF技术(在引述的Vinton等人国际专利公开WO2006/026161中有所描述)可有利地取代基于ICC的技术。如频谱维纳滤波(SWF)所表示的新技术利用时间频率二元性：在频域中的卷积等效于时域中的乘法。频谱维纳滤波对空间解码器的每个输出声道的频谱应用FIR滤波器，并因此将输出声道的时间包络，以便更好与原始信号的时间包络相匹配。该技术类似于在MPEG-2/4AAC中所采用的时间噪声整形(TNS)算法，这是由于它通过在频域中的卷积来修改时间包络。然而，SWF算法不同于TNS，它是单端的，且仅应用于解码器。此外，SWF算法将滤波器设计成信号(而非编码噪声)的时间包络，并因此导致不同的滤波器设计约束。空间编码器必须设计在频域中的FIR滤波器，这将表示在解码器中需对原始时间包络重新应用的时域乘法变化。可将该滤波器问题表示为最小二乘方问题，这通常称为维纳滤波器设计。然而，与维纳滤波器的传统应用(其在时域中进行设计和应用)不同，此处提出的滤波器处理是在频域中进行设计和应用的。

将频域最小二乘方滤波器设计问题定义为如下：计算使得X_i[k，t]与Z_i[k，t]滤波版本之间误差最小的一组滤波器系数a_i[k，t]：

\min_{a_{i} [k, t]} [E {X_{i} [k, t] - Σ_{m = 0}^{L - 1} a_{i} [m, t] Z_{i} [k - m, t]}], - - - (31)

其中，E表示在频谱箱k上的期望操作符，L表示进行设计的滤波器的长度。注意，X_i[k，t]和Z_i[k，t]为复数值，从而一般来说，a_i[k，t]也将是复数。可使用矩阵表示对方程式31进行重新表示：

\min_{A} [E {X_{k} - A^{T} Z_{k}}], - - - (32)

其中

X_k＝[X_l[k，t]]，

Z_{k}^{T} = [\begin{matrix} Z_{i} [k, t] & Z_{i} [k - 1, t] & \cdot \cdot \cdot & Z_{i} [k - L + 1, t] \end{matrix}],

且

A^T＝[a_i[0，t] a_i[1，t] … a_i[L-1，t]].

通过将(32)相对于每个滤波器系数的偏导设置为零，简单示出用于使问题最小化的方法，通过下式给出：

A = R_{ZZ}^{- 1} R_{ZX}, - - - (33)

其中

R_{ZZ} = E {Z_{k} Z_{k}^{H}},

R_{ZX} = E {Z_{k} X_{k}^{H}},

在编码器处，根据(33)计算对于原始信号的每个声道的最优SWF系数，并将其作为空间边信息进行发送。在解码器处，对上混频频谱Z_i[k，t]应用这些系数，以生成最终估计

{\hat{X}}_{i} [k, t] = Σ_{m = 0}^{L - 1} a_{i} [m, t] Z_{i} [k - m, t], - - - (34)

图7示出SWF处理的性能；前两个绘图显示出假定在DFT处理块内有两个声道信号。将这两个声道组合成单个声道复合信号的结果如第三个绘图所示，其中，显然看出，下混频处理消除了在第二个绘图中信号精细时间结构。第四个绘图显示出在空间解码器中对第二上混频声道应用SWF处理的效果。如所预期的，已取代了原始第二声道的估计的精细时间结构。如果在不使用SWF处理的条件下将第二声道进行上混频，则时间包络将如同第三个绘图所示复合信号那样平坦。

盲上混频

图1和图2示例的空间编码器考虑对现有N个声道(通常为5.1)信号的空间图像的参数模型进行估计，以便可从包含少于N个声道的相关复合信号合成该图像的近似。然而，如以上所述，在许多情形中，内容提供商缺少原始5.1内容。解决该问题的一种方法是在进行空间编码之前首先通过使用盲上混频系统将现有双身道立体声内容变换成5.1。这样的盲上混频系统使用能够仅在原始双声道立体声信号本身可用的信息合成5.1信号。商业上可获得许多这样的上混频系统，例如，Dolby Pro Logic II。当与空间编码系统进行组合时，将在编码器处通过将盲上混频信号进行下混频生成复合信号，如图1所示，或者可利用现有的上声道立体声信号，如图2所示。

在可选实施例(在所引述的Seefeldt等人的待审国际申请PCT/US2006/020882中给出)中，将空间编码器用作为盲上混频器的一部分。该修改编码器使用现有空间编码参数直接从双声道立体声信号合成所需5.1空间图像的参数模型，而需生成中间盲上混频信号。图3表示出以上概括性描述的这样的修改编码器。

然后，生成的编码信号可与现有空间解码器相兼容。解码器可使用变信息生成预期盲上混频，或可忽略边信息，为收听者提供原始双声道立体声信号。

可根据以下示例，使用先前所述的空间编码参数(ILD，IPD和ICC)创建双声道立体声信号的5.1盲上混频。该示例仅考虑仅从左和右立体声对合成三个环绕声道，但也可将该技术扩展到合成中心声道和LFE(低频效应)声道。该技术基于这样的想法，即，将立体声信号的左右声道解相关的频谱部分相当于在记录中的情形，且应将其操作到环绕声道。将左和右声道相关的频谱部分相当于直接声音，并应保持在前左和右声道中。

作为第一步，计算出对于原始双声道立体声信号y的每个频带的2×2协方差矩阵Q[b，t]。可采用与早先描述的R[b，t]相同的递归方式，对该矩阵的每个元素进行更新：

Q_{ij} [b, t] =

λ Q_{ij} [b, t - 1] + \frac{1 - λ}{k e_{b} - k b_{b}} Σ_{k = k b_{b}}^{k = k e_{b} - 1} Y_{i} [k, t] Y_{j}^{*} [k, t] - - - (35)

其次，由Q[b，t]计算在左与右声道之间的归一化相关ρ：

ρ [b, t] = \frac{| Q_{12} [b, t] |}{\sqrt{Q_{11}^{2} [b, t] Q_{22}^{2} [b, t]}} . - - - (36)

使用ILD参数，以与ρ成比例的量，将左和右声道操作到左和右环绕声道。如果ρ＝0，则将左和右声道完全操作到环绕声道。如果ρ＝1，则将左和右声道完全保持在前声道。此外，将环绕声道的ICC参数设置成等于0，以便这些声道接收全解相关，从而创建更弥散的空间图像。用于实现该5.1盲上混频的空间参数全集如以下表中所列：

声道1(左)：

ILD₁₁[b，t]＝ρ[b，t]

ILD₁₂[b，t]＝0

IPD₁₁[b，t]＝IPD₁₂[b，t]＝0

ICC₁[b，t]＝1

声道2(中心)：

ILD₂₁[b，t]＝ILD₂₂[b，t]＝IPD₂₁[b，t]＝IPD₂₂[b，t]＝0

ICC₂[b，t]＝1

声道3(右)：

ILD₃₁[b，t]＝0

ILD₃₂[b，t]＝ρ[b，t]

IPD₃₁[b，t]＝IPD₃₂[b，t]＝0

ICC₃[b，t]＝1

声道4(左环绕)：

{ILD}_{41} [b, t] = \sqrt{1 - ρ^{2} [b, t]}

ILD₄₂[b，t]＝0

IPD₄₁[b，t]＝IPD₄₂[b，t]＝0

ICC₄[b，t]＝0

声道5(右环绕)：

ILD₅₁[b，t]＝0

{ILD}_{52} [b, t] = \sqrt{1 - ρ^{2} [b, t]}

IPD₅₁[b，t]＝IPD₅₂[b，t]＝0

ICC₅[b，t]＝0

声道6(LFE)：

ILD₆₁[b，t]＝ILD₆₂[b，t]＝IPD₆₁[b，t]＝IPD₆₂[b，t]＝0

ICC₆[b，t]＝1

前面所述的简单系统合成出非常引人入胜的环绕效果，不过可能存在利用相同空间参数的更高级盲上混频技术。具体上混频技术的使用对于本发明而言无关紧要。

并非结合空间编码器和解码器操作，所述盲上混频系统或者可操作在单端方式中。即，可以同时导出和应用空间参数，以便直接从多声道立体声信号，例如，双声道立体声信号，合成上混频信号。这种结构可以用于消费设备中，诸如可从例如紧致光盘播放大量遗传的两声道立体声内容的音频/视频接收机。消费者希望在播放时将这种内容直接转换成多声道信号。图5显示出采用这种单端方式的盲上混频器的一个示例。

在图5所示盲上混频器示例中，通过利用适当的时间到频率变换，诸如前面编码器示例中的众知短时离散傅里叶变换(STDFT)，的设备或功能(“时间到频率”)2，将M-声道原始信号(例如，PCM格式的数字音频多声道)转换到频域，使得将一个或多个频率箱划分成接近人耳临界频带的频带。针对每个频带，由设备或功能(“导出上混频信息”)4”(该设备或功能对应于图3的“导出上混频信息作为空间边信息4”)计算采用空间参数形式的上混频信息。如上所述，声音场境分析器或分析功能(“声音场境分析”)6”还接收M-声道原始信号，并影响着设备或功能4”生成空间参数，如本说明书中其他部分所述的那样。尽管出于说明的目的进行分别显示，设备或功能4”和6”可作为单个设备或功能。然后，可将来自设备或功能4”的上混频信息通过设备或功能(“应用上混频信息”)26应用到M-声道原始信号频域版本的相应频带，产生在频域中的N-声道上混频信号。这种从较少数量声道产生更大数量声道是上混频(也可以将设备或功能26描述为“上混频器”)。最后，应用频率到时间变换(“频率到时间”)28(时间到频率设备或功能2的逆)，产生N-声道上混频信号，该信号构成盲混频信号。尽管在图5的示例中，上混频信息采取了空间参数的形式，不过，在至少部分响应听觉事件和/或与所述听觉事件边界相关的信号特征的改变程度生成音频输出声道的单机上混频器设备或功能中，这样的上混频信息没有必要采取空间参数的形式。

利用听觉事件进行参数控制

如上所述，用于N:M:N空间编码和盲混频的ILD，IPD和IDD，依赖于对于每个频带协方差矩阵(在N:M:N空间编码的情况中，为R[b，t]，在双声道立体声盲混频的情况中，为Q[b，t])的时变估计。在从相应公式4和36中选择相关平滑参数λ时必须注意，要使编码器参数改变得足够快，以便获取所需空间图像的时变方面，不过也不能变得太快了以致在合成空间图像中引入声音不稳定。特别有问题的是，在N:M:N系统中，与M＝1系统的IPD以及对于M＝1和M＝2系统的ICC参数相关的显著参考声道g。即使协方差估计在时间块上特别平滑，如果几个声道包含相似的能量，那么显著声道将在块与块之间快速波动。这导致IPD和ICC参数快速改变，在合成信号中引起可听假声。

该问题的一种解决方法，是仅在声频事件的边界处才更新显著声道。由此，在每个事件的持续时间内，编码参数保持相对稳定，并且保持每个事件在感觉完整性。使用音频频谱形状的变化来检测听觉事件边界。在编码器中，在每个时间块t处，将每个声道中听觉事件边界强度计算为当前块与前一块的归一化对数谱振幅之间的绝对差值之和：

S_{i} [t] = \underset{k}{Σ} | P_{i} [k, t] - P_{i} [k, t - 1] |, - - - (37 a)

其中：

P_{i} [k, t] = \log (\frac{| X_{i} [k, t] |}{\max_{k} {| X_{i} [k, t] |}}), - - - (37 b)

如果在任何声道i中事件强度S_i[t]大于某一固定阈值T_S，则根据公式9来更新显著声道g。否则，显著声道保持其前一时间块的值。

上面刚刚描述的技术是基于听觉事件的“硬判决”的一个示例。一个事件或者被检测，或者不被检测，并且基于这种二元检测作出是否更新显著声道的判决。听觉事件也可以应用于“软判决”方式中。例如，可使用事件强度S_i[t]连续地改变用于平滑化协方差矩阵R[b，t]或Q[b，t]的参数λ。如果S_i[t]较大，则发生了将强事件，应当通过很少的平滑更新矩阵，以便快速获取与该强事件相关的音频的新统计值。如果S_i[t]较小，则音频处于一个事件之内并且相对稳定；从而，应当对协方差矩阵进行更强平滑。下式给出了基于该原理计算某些最小值(最小平滑)与最大值(最大平滑)之间的λ的一种方法：

λ = \{\begin{matrix} λ_{\min}, & S_{i} [t] > T_{\max} \\ \frac{S_{i} [t] - T_{\min}}{T_{\max} - T_{\min}} (λ_{\min} - λ_{\max}) + λ_{\max}, & T_{\max} &GreaterEqual; S_{i} [t] &GreaterEqual; T_{\min} \\ λ_{\max}, & S_{i} [t] < T_{\min} \end{matrix} - - - (38)

实现方式

本发明可采用硬件或软件或者两者的组合(例如，可编程逻辑阵列)的方式来实施。除非特别说明，否则，包含作为本发明一部分的算法与任何特定计算机或其他设备并不存在固有的关系。特别是，可使用具有根据此处教导编写出的程序的各种通用机器，或者可以更加方便地构造更专用的设备(例如集成电路)，执行所需的方法步骤。因此，可在各自至少包括一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备或端口和至少一个输出设备或端口的一个或多个可编程计算机系统上执行的一个或多个计算机程序中，实现本发明。将程序代码应用到输入数据，以执行此处所述功能，并生成输出信息。按照已知方式，将输出信息应用到一个或多个输出设备。

可采用与计算机系统进行通信的任何所需计算机语言(包括机器、汇编，或高级程序、逻辑，或面向对象的编程语言)中，实现每个这样的程序。在任何情形中，语言可为编辑或解释语言。

每个这样的计算机程序优选存储在或下载到通用或专用可编程计算机可读的存储介质或设备(例如，固态存储器或介质，或磁或光介质)，当由计算机系统读取存储介质或设备时，用于对计算机进行配置和操作，以便执行此处所述的程序。此外，还可考虑将本发明的系统实现为计算机可读存储介质，通过计算机程序进行配置，其中，进行这样配置的存储介质使得计算机系统以设定和预定方式进行操作，以执行此处所述的功能。

以上描述了本发明的多个实施例。不过，应该理解的是，在不偏离本发明精神和范围的条件下，可进行多种修改。例如，此处所述的其中某些步骤可以顺序独立，从而可采用不同于所述方式的顺序得以执行。

参考文献

以下发明、发明申请和公开其全部内容均在此引作参考。

空间和参数编码

已出版国际专利申请WO 2005/086139A1，于2005年9月15日出版。

已出版国际专利申请WO 2006/026452，于2006年3月9日出版。

国际专利申请PCT/US2006/020882，Seefeldt等人，于2006年5月26日递交，题名为Channel Reconfiguration with SideInformation。

美国出版专利申请US 2003/0026441，于2003年2月6日出版。

美国出版专利申请US 2003/0035553，于2003年2月20日出版。

美国出版专利申请US 2003/0219310，Baumgarte和Faller，于2003年11月27日出版。

Audio Engineering Society Paper 5852，2003年3月

已出版国际专利申请WO 03/090207，于2003年10月30日出版。

已出版国际专利申请WO 03/090208，于2003年10月30日出版。

已出版国际专利申请WO 03/007656，于2003年1月22日出版。

已出版国际专利申请WO 03/090206，于2003年10月30日出版。

美国出版专利申请公开US 2003/0236583A1，Baumgarte等人，于2003年12月25日出版。

“Binaural Cue Coding Applied to Stereo and MultichannelAudio Compression”，Faller等人，Audio Engineering SocietyConvention Paper 5574，第112届会议，Munich，2002年5月。

“Why Binaural Cue Coding is Better than Intensity StereoCoding”，Baumgarte等人，Audio Engineering Society ConventionPaper 5574，第112届会议，Munich，2002年5月。

“Design and Evaluation of Binaural Cue Coding Schemes”，Baumgarte等人，Audio Engineering Society Convention Paper5706，第113届会议，Los Angeles，2002年10月。

“Efficient Representation of Spatial Audio Using PerceptualParameterization”，Faller等人，IEEE Workshop on Applications ofSignal Processing to Audio and Acoustics 2001，New Paltz，NewYork，2001年10月，pp.199-202。

“Estimation of Auditory Spatial Cues for Binaural CueCoding”，Baumgarte等人，Proc.ICASSP 2002，Orlando，Florida，2002年5月，pp.II-1801-1804。

“Binaural Cue Coding：A Novel and Efficient Representation ofSpatial Audio”，Faller等人，Proc.ICASSP 2002，Orlando，Florida，2002年5月，pp.II-1841-II-1844。

“High-quality parametric spatial audio coding at lowbitrates”，Breebaart等人，Audio Engineering Society ConventionPaper 6072，第116届会议，Berlin，2004年5月。

“Audio Coder Enhancement using Scalable Binaural cue Codingwith Equalized Mixing”，Baumgarte等人，Audio EngineeringSociety Convention Paper 6060，第116届会议，Berlin，2004年5月。

“Low complexity parametric stereo coding”，Schuijers等人，Audio Engineering Society Convention Paper 6073，第116届会议，Berlin，2004年5月。

“Synthetic Ambience in Parametric Stereo Coding”，Engdegard等人，Audio Engineering Society Convention Paper6074，第116届会议，Berlin，2004年5月。

检测与使用听觉事件

美国出版专利申请US 2004/0122662A1，于2004年6月24日出版。

美国出版专利申请US 2004/0148159A1，于2004年7月29日出版。

美国出版专利申请US 2004/0165730A1，于2004年8月26日出版。

美国出版专利申请US 2004/0172240A1，于2004年9月2日出版。

已出版国际专利申请WO 2006/019719，于2006年2月23日出版。

“A Method for Characterizing and Identifying Audio Based onAuditory Scene Analysis”，Brett Crockett和Michael Smithers，Audio Engineering Society Convention Paper 6416，第118届会议，Barcelona，2005年5月28-31。

“High Quality Multichannel Time Scaling and Pitch-Shiftingusing Auditory Scene Analysis”，Brett Crockett，Audio EngineeringSociety Convention Paper 5948，New York，2003年10月。

解相关

国际专利公开WO 03/090206A1，Breebaart，题名为“SignalSynthesizing”，于2003年10月30日出版。

国际专利公开WO 2006/026161，于2006年3月9日出版。

国际专利公开WO 2006/026452，于2006年3月9日出版。

MPEG-2/4AAC

ISO/IEC JTC1/SC29，“Information technology-very lowbitrate audio-visual coding”，ISO/IEC IS-14496(Part 3，Audio)，1996年，1)ISO/IEC 13818-7，“MPEG-2 advanced audiocoding，AAC”，国际标准，1997年；

M.Bosi，K.Brandenburg，S.Quackenbush，L.Fielder，K.Akagiri，H.Fuchs，M.Dietz，J.Herre，G.Davidson和Y.Oikawa：“ISO/IEC MPEG-2 Advanced Audio Coding”，Proc.of the101^st AES-Convention，1996年；

M.Bosi，K.Brandenburg，S.Quackenbush，L.Fielder，K.Akagiri，H.Fuchs，M.Dietz，J.Herre，G.Davidson和Y.Oikawa：“ISO/IEC MPEG-2 Advanced Audio Coding”，Journal ofthe AES，Vol.45，No.10，1997年10月，pp.789-814；

Karlheinz Brandenburg：“MP3and AAC explained”，Proc.ofthe AES 17^th International Conference on High Quality AudioCoding，Florence，Italy，1999年；和

G.A.Soulodre等人：“Subjective Evaluation of State-of-the-ArtTwo-Channel Audio Codecs”，J.Audio Eng.Soc.，Vol.46，No.3，pp.164-177，1998年3月。

Claims

1.一种音频编码方法，其中编码器接收多个输入声道，并生成一个或多个音频输出声道以及用于描述可由所述一个或多个音频输出声道导出的多个音频声道之间的预期空间关系的一个或多个参数，包括：

检测在所述多个音频输入声道中的一个或多个声道中的信号特性随时间的变化，

将在所述多个音频输入声道中的所述一个或多个声道中信号特性随时间的变化识别为听觉事件边界，其中相继边界之间的音频段构成声道中的听觉事件，以及

至少部分地响应听觉事件和/或与所述听觉事件边界相关的信号特性的变化程度，生成所述一个或多个参数的所有或其中一些参数。

2.一种音频处理方法，其中处理器接收多个输入声道，并生成比输入声道数量更多的多个音频输出声道，包括：

将在所述多个音频输入声道中的所述一个或多个声道中的信号特性随时间的变化识别为听觉事件边界，其中相继边界之间的音频段构成声道中的听觉事件，以及

至少部分地响应听觉事件和/或与所述听觉事件边界相关的信号特性的变化程度，生成所述音频输出声道。

3.根据权利要求1或2的方法，其中听觉事件是被认为独立且不同的音频片段。

4.根据权利要求1-3中的任何一项的方法，其中所述信号特性包括音频的频谱内容。

5.根据权利要求1-4中的任何一项的方法，其中至少部分地响应一个或多个听觉事件的存在与否，生成所述一个或多个参数的所有或其中一些。

6.根据权利要求1-4中的任何一项的方法，其中所述识别将听觉事件边界识别为超过阈值的信号特性随时间的变化。

7.根据从属于权利要求1的权利要求6的方法，其中一个或多个参数至少部分地取决于对主导输入声道的识别，在生成这样的参数时，对主导输入声道的识别仅在听觉事件边界处变化。

8.根据权利要求1，3或4中的任何一项的方法，其中至少部分地响应与所述听觉事件边界相关联的信号特性变化程度的连续测量，生成所述一个或多个参数的所有或其中一些。

9.根据权利要求8的方法，其中一个或多个参数至少部分地取决于一个或多个输入声道对之间的协方差的时间变化估计，在生成这样的参数时，利用响应于听觉事件在时间上的长度变化的平滑时间常数，对所述协方差进行时间平滑。

10.根据权利要求1-9中的任何一项的方法，其中将每个音频声道通过数据块内的采样来表示。

11.根据权利要求10的方法，其中所述信号特性可以是块内音频的频谱内容。

12.根据权利要求11的方法，其中检测信号特性相对时间的变化是检测块与块之间音频频谱内容的变化。

13.根据权利要求12的方法，其中听觉事件时间暂时起点和终止边界均与数据块的边界相符合。

14.一种设备，适于执行根据权利要求1至13中的任何一项的方法。

15.一种计算机程序，存储在计算机可读介质上，用于使计算机对根据权利要求14的设备进行控制。

16.一种计算机程序，存储在计算机可读介质上，用于使计算机执行根据权利要求1至13中的任何一项的方法。

17.一种位流，由根据权利要求1至13中的任何一项的方法所产生。

18.一种位流，由用于执行根据权利要求1至13中的任何一项的方法的设备所产生。

19.一种音频编码器，其中编码器接收多个输入声道，并生成一个或多个音频输出声道以及用于描述可由所述一个或多个音频输出声道导出的多个音频声道之间的预期空间关系的一个或多个参数，包括：

用于检测在所述多个音频输入声道中的一个或多个声道中信号特性随时间的变化的装置，

用于将在所述多个音频输入声道中的所述一个或多个声道中信号特性随时间的变化识别为听觉事件边界的装置，其中相继边界之间的音频段构成声道中的听觉事件，以及

用于至少部分地响应听觉事件和/或与所述听觉事件边界相关的信号特性的变化程度，生成所述一个或多个参数的所有或其中一些的装置。

20.一种音频编码器，其中编码器接收多个输入声道，并生成一个或多个音频输出声道以及用于描述可由所述一个或多个音频输出声道导出的多个音频声道之间的预期空间关系的一个或多个参数，包括：

检测器，用于检测在所述多个音频输入声道中的一个或多个声道中信号特性随时间的变化，将在所述多个音频输入声道中的所述一个或多个声道中信号特性随时间的变化识别为听觉事件边界，其中相继边界之间的音频段构成声道中的听觉事件，以及

参数发生器，用于至少部分地响应听觉事件和/或与所述听觉事件边界相关的信号特性的变化程度，生成所述一个或多个参数的所有或其中一些。

21.一种音频处理器，其中处理器接收多个输入声道，并生成比输入声道数量更多的多个音频输出声道，包括：

用于将在所述多个音频输入声道中的所述一个或多个声道中的信号特性随时间的变化识别为听觉事件边界的装置，其中相继边界之间的音频段构成声道中的听觉事件，以及

用于至少部分地响应听觉事件和/或与所述听觉事件边界相关联的信号特性变化程度，生成所述音频输出声道的装置。

22.一种音频处理器，其中处理器接收多个输入声道，并生成比输入声道数量更多的多个音频输出声道，包括：

检测器，用于检测在所述多个音频输入声道中的一个或多个声道中信号特性随时间的变化，将在所述多个音频输入声道中的所述一个或多个声道中的信号特性随时间的变化识别为听觉事件边界，其中相继边界之间的音频段构成声道中的听觉事件，以及

上混频器，用于至少部分地响应于听觉事件和/或与所述听觉事件边界相关联的信号特性变化程度，生成所述音频输出声道。