CN102779519A

CN102779519A - 用于同步多声道扩展数据与音频信号以及用于处理音频信号的装置和方法

Info

Publication number: CN102779519A
Application number: CN2012102654932A
Authority: CN
Inventors: 塞巴斯蒂安·沙雷; 沃尔夫冈·菲泽尔; 约格·皮克尔; 马提亚斯·诺伊辛格
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2008-02-14
Filing date: 2009-02-10
Publication date: 2012-11-14
Anticipated expiration: 2029-02-10
Also published as: CN101952885B; HK1149624A1; US20140156288A1; CN101952885A; US20110022206A1; US9424853B2; JP5461437B2; JP2011512555A; US8676364B2; EP2240929A1; CN102779519B; DE102008009024A1; EP2240929B1; WO2009100876A1

Abstract

用于同步多声道扩展数据（132）与音频信号（114），其中所述音频信号包括块划分信息，所述多声道扩展数据包括参考音频信号指纹信息，通过块检测器（300）检测所述音频信号（114）中的块划分信息（302）。之后，指纹计算器（304）依照所述块划分信息（302）执行所述音频信号的块划分，以获得测试音频信号指纹序列（306）。此外，还从多声道扩展数据（132）的参考音频信号指纹信息中提取参考音频信号指纹序列。对这两个指纹序列进行相关以获得相关结果，利用该相关结果控制补偿器（316），以减小或者消除所述多声道扩展数据（132）和所述音频信号（114）之间的时间偏差。

Description

用于同步多声道扩展数据与音频信号以及用于处理音频信号的装置和方法

技术领域

本发明涉及音频多声道技术，并且尤其涉及同步多声道扩展数据与音频信号从而允许多声道重建。

背景技术

目前开发的技术通过减少数据来实现比以往更加有效率的音频信号传输，而且还通过扩展，例如通过使用多声道技术的扩展提高了音频享受。

关于常见传输技术的这种扩展的例子已经被熟知的是“双耳线索编码”（BCC）以及“空间音频编码”。关于此内容，作为例子可以参考J.Herre,C.Faller,S.Disch,C.Ertel,J.Hilpet,A.Hoelzer,K.Linzmeier,C.Spenger,P.Kroon:“Spatial Audio Coding:Next-Generation Efficient and Compatibel CodingOberflache Multi-Channel Audio”，117^th AES Convertion，San Francisco 2004，Preprint 6186。

在连续操作的传输系统中，例如在无线电或互联网中，该方法把所要发送的音频节目分成可以是单声道或者立体声缩混音频信号的音频基本数据或音频信号，以及可以被称为多声道附加信息或多声道扩展数据的扩展数据。多声道扩展数据可以与音频信号一起广播，即以组合方式，或者该多声道扩展数据也可以与音频信号分开广播。作为广播无线电节目的可替代方式，还可以单独将该多声道扩展数据传输到例如用户侧现在已有的缩混声道版本。在这种情况下，音频信号的传输，例如以因特网下载或者购买压缩盘或DVD的形式，在空间和时间上与多声道扩展数据的传输分开进行，其中多声道扩展数据例如可以由多声道扩展数据服务器提供。

基本上，把多声道音频信号分成音频信号和多声道扩展数据具有以下优点。“传统”接收器能够独立于多声道附加数据的内容和版本，在任意时间接收并重放音频基本数据，即，音频信号。该特性被称为逆兼容性。除此之外，较新一代的接收器还可以评估所发送的多声道附加信息，并以可以将完整扩展即多声道声音提供到用户的方式，将多声道附加信息与音频基本数据即音频信号组合起来。

在数字无线电中的示例性应用方案中，借助于这些多声道扩展数据，先前广播的立体声音频信号可以被扩展为多声道格式5.1，而几乎没有额外传输影响。该多声道格式5.1包括5个重放声道，即，左声道L、右声道R、中央声道C、左后声道LS（左环绕）以及右后声道RS（右环绕）。为此，节目提供者在发射器侧从多声道声音源中产生多声道附加信息，例如所述多声道声音源来自于DVD/音频/视频。随后，可以与先前广播的音频立体声信号并行地发送该多声道附加信息，所述音频立体声信号现在包括多声道信号的立体声缩混。

该方法的一个优点是与目前现有的数字无线电传输系统的兼容性。无法对该附加信息评估的传统接收器将能够如之前那样接收并重放双声道声音信号，而没有关于质量的任何限制。

然而，除了目前所接收的立体声声音信号之外，新设计的接收器还可以对多声道信息进行评估和解码，并据此重建原始的5.1多声道信号。

为了允许同时传输作为目前使用的立体声声音信号的补充的多声道附加信息，可以有两种通过数字无线电系统进行兼容广播的方案。

第一种方案是将多声道附加信息与编码后的混缩音频信号进行组合，从而它们可以作为合适和兼容的扩展，被加入到由音频编码器产生的数据流中。在这种情况下，接收器仅仅看到一个（有效的）音频数据流，并且可以再次与相关联的音频数据块同步地，通过相应的前置数据分配器提取并解码多声道附加信息，并将其作为5.1多声道声音输出。

该方案需要现有基础结构/数据路径的扩展，从而使它们现在可以传输包括混缩信号和扩展的数据信号，而不像先前那样仅仅传输立体声音频信号。例如当这是数据减少的示例，即传输混缩信号的比特流时，这是可行的，没有额外的影响，也不存在问题。随后，可以把用于扩展信息的字段插入到该比特流中。

第二种可行的方案是不把多声道附加信息耦合到所使用的音频编码系统中。在这种情况下，多声道扩展数据并不被耦合到实际的音频数据流中。而是，通过特定的但不一定时间同步的附加声道来进行传输，其中该附加声道例如可以是并行的数字附加声道。这种情况例如发生在以未减少的格式，例如作为每AES/EBU数据的PCM数据的格式，通过演播室中现有的普通音频分配基础结构来路由混缩信号即音频信号的时候。这些基础结构的目的是在各种源之间数字地分配音频信号（“交叉切换（Crossbar）”），和/或通过声音调整、动态压缩等处理该音频信号。

在上述第二种可行方案中，可能发生在接收器中混缩音频信号和多声道附加信息之间的时间偏差的问题，这是由于两种信号经过不同的、非同步的数据路径。然而，混缩信号和附加信息之间的时间偏差造成重建的多声道信号的声音质量的恶化，因为随后将在重放侧处理具有多声道扩展数据的音频信号，而该多声道扩展数据实际上并不属于当前音频信号，而是属于该音频信号的之前或之后的部分或者块。

由于无法再从所接收的音频信号和附加信息中来确定时间偏差的数量级，因此无法确保在接收器中的多声道信号的时间校正重建和关联，这导致了质量降低。

这种情况的另一例子是当要将已经运行的双声道传输系统扩展为多声道传输的时候，例如当考虑用于数字无线电的接收器的时候。这里，通常是这样一种情况，通过接收器中现在已有的音频解码器频繁执行混缩信号的解码，该解码器例如表示依照MPEG 4标准的立体声音频解码器。由于音频信号的系统固有数据压缩，该音频解码器的延迟时间并不总是已知的，或者不能总是被准确预测。因此不能可靠地补偿该音频解码器的延迟时间。

在极端的情况下，音频信号还可以通过包括模拟部分的传输链，到达多声道音频解码器。这里，在传输中的特定点发生数字/模拟转换，在进一步的存储/传输之后，其后再次发生模拟/数字转换。这里，也没有可用的关于如何能够执行与多声道附加数据相关的混缩信号的合适延迟补偿的指示。当模拟/数字转换和数字/模拟转换的采样频率稍微不同时，根据这两个采样速率彼此之间的比值，甚至会产生必要补偿延迟的缓慢时间偏移。

德国专利DE 10 2004 046 746 B4公开了一种用于同步附加数据和基本数据的方法和装置。用户基于他的立体声数据而提供指纹。扩展数据服务器基于获得的指纹识别该立体声信号，并且访问数据库以检索该立体声信号的扩展数据。特别是，服务器识别与用户处现有的立体声信号对应的理想立体声信号，并且产生属于扩展数据的理想立体声信号的两个测试指纹。然后，这两个测试指纹被提供到客户端，客户端据此确定压缩/扩展因数以及参考偏差，其中，基于该参考偏差，在开始或结束处扩展/压缩以及关闭附加声道。由此，可以通过使用基本数据和扩展数据产生多声道文件。

发明内容

本发明的目的是提供通过实现多声道扩展数据和音频数据的精确同步来获得高质量多声道重建的同步概念。

通过依照权利要求1的用于同步的装置、依照权利要求13的用于同步的方法、依照权利要求14的用于处理音频信号的装置、依照权利要求27的用于处理音频信号的方法、或者依照权利要求28的计算机程序来解决该目的。

本发明基于一种通过基于块的指纹技术有效并且可靠地获得精确同步的知识。已经发现，逐块计算的指纹呈现了音频信号的良好并且有效的特性。然而，为了使同步达到比一个块长度更短的级别，向音频信号提供可以在同步中被检测并且可以用于指纹计算的块划分信息。

因此，音频信号包括可以在同步时使用的块划分信息。从而，确保了在同步期间从音频信号获得的指纹是基于与多声道扩展数据相关联的音频信号的指纹相同的块划分或块栅格化。特别是，多声道扩展数据包括参考音频信号指纹信息序列。该参考音频信号指纹信息提供了多声道扩展流中所固有的、在多声道扩展数据块和多声道扩展数据所属的音频信号部分或块之间的关联性。

为了同步，从多声道扩展数据中提取参考音频信号指纹，并且将其与同步器所计算的测试音频信号指纹执行相关。相关器仅仅需要实现块相关，这是因为，由于使用块划分信息，所以两个指纹序列所基于的块栅格化已经是相同的。

从而，尽管指纹序列仅仅需要在块级别上相关，然而几乎可以获得多声道扩展数据与音频信号的采样精确同步。

在音频信号中包括的块划分信息可以称为明确边信息，例如在音频信号的报头中。可替代的，即使当存在数字的但是未压缩的传输时，该块划分信息也可以被包括在采样中，该采样例如可以是被形成用于计算在多声道扩展数据中包含的参考音频信号指纹的块的第一采样。可替代的或者额外附加的，块划分信息还可以被直接引入到音频信号自身中，例如通过水印嵌入。伪噪声序列尤其适用于此，然而，可以使用水印嵌入的不同方式把块划分信息引入到音频信号中。这种水印实现方式的一个优点是任何模拟/数字或数字/模拟转换都不是决定性的。此外，存在对数据压缩具有强壮性的水印，该水印甚至可以承受压缩/解压缩乃至串联（tandem）/编码级，并且可以用作同步目的的可靠块划分信息。

除此之外，还优选的是，逐块地把参考音频信号指纹直接嵌入到多声道扩展数据的数据流中。在该实施例中，通过使用具有与多声道扩展数据分开存储的数据指纹的指纹，来获得合适的时间偏差。代之以，对于多声道扩展数据的每一块，该指纹被嵌入在该块自身中。然而，可替代的，参考音频信号指纹信息可以与从单独的源中发起的多声道扩展数据相关联。

附图说明

下面将参考相应的附图详细讨论本发明的优选实施例。其中：

图1是依照本发明的实施例的用于处理音频信号以提供具有多声道扩展数据的同步输出信号的装置的框图；

图2是图1中指纹计算器的详细示意图；

图3a是依照本发明的实施例的用于同步的装置的框图；

图3b是图3a中的补偿器的详细示图；

图4a是具有块划分信息的音频信号的示意图；

图4b是具有块方式嵌入的指纹的多声道扩展数据的示意图；

图5是用于产生具有水印的音频信号的水印嵌入器的示意图；

图6是用于提取块划分信息的水印提取器的示意图；

图7是对例如测试块划分中的30个块执行相关后的结果示意图；

图8是示出差值指纹计算可选方案的流程图；

图9是具有用于处理的创造性装置的多声道编码器方案；

图10是具有创造性同步器的多声道解码器方案；

图11a是图9中的多声道扩展数据计算器的详细示图；以及

图11b是可以由图11a所示的结构产生的具有多声道扩展数据的块的详细示图。

具体实施方式

图1显示了用于处理音频信号的装置的示意图，其中以100示出具有块划分信息的音频信号，而以102示出的音频信号可以不包括块划分信息。图1的用于处理音频信号的装置可以用在编码器方案中，该编码器方案将参考图9详细描述，该用于处理音频信号的装置包括指纹计算器104，用于为多个连续块计算对于音频信号的每个块的一个指纹，以获得参考音频信号指纹信息序列。指纹计算器被实现为使用预定的块划分信息106。例如，可以通过块检测器108，从具有块划分信息的音频信号100中检测该预定的块划分信息106。一旦已经检测到该块划分信息106，指纹计算器104能从音频信号100中计算该参考指纹序列。

如果指纹计算器104获得不具有块划分信息的音频信号102，则指纹计算器将选择任一块划分，并首先执行块划分。通过块划分信息110向块划分信息嵌入器112发出信号以通知该块划分，该块划分信息嵌入器112被实现为把块划分信息110嵌入到不具有块划分信息的音频信号102中。在输出侧，块划分信息嵌入器提供具有块划分信息的音频信号114，其中该音频信号可以通过输出接口116输出，或者可以通过与通过输出接口116的输出独立的不同路径单独存储或输出，例如通过以118示出的路径。

指纹计算器104被实现为计算参考音频信号指纹信息序列120。该参考音频信号指纹信息序列被提供到指纹信息嵌入器122。指纹信息嵌入器把参考音频信号指纹信息120嵌入到多声道扩展数据124中，其中多声道扩展数据124可以被单独提供，或者可以通过多声道扩展数据计算器126直接计算，多声道扩展数据计算器126在输入侧接收多声道音频信号128。在输出侧，指纹信息嵌入器122提供具有相关参考音频信号指纹信息的多声道扩展数据，其中这些数据被标识为130。指纹信息嵌入器122被实现为直接把参考音频信号指纹信息嵌入到多声道扩展数据中，比如在块级别上。可替代地或者可额外附加地，指纹信息嵌入器122还基于与多声道扩展数据块的关联性，存储或提供参考音频信号指纹信息序列，其中该多声道扩展数据块与音频信号块一起表示多声道音频信号的较好近似值，或多声道音频信号128。

输出接口116被实现为输出一输出信号132，该输出信号132包括具有唯一关联性的参考音频信号指纹信息序列和多声道扩展数据，比如在嵌入的数据流内。可替代地，输出信号还可以是不具有参考音频信号指纹信息的多声道扩展数据块序列。然后在单独的指纹信息序列中提供指纹信息，其中，例如通过块序列号把每个指纹“连接”到多声道扩展数据块。还可以提供指纹数据与块的可替代的关联性，例如通过序列的暗示性信号通知。

此外，输出信号132还可以包括具有块划分信息的音频信号。在应用的特定情况中，例如在广播中，具有块划分信息的音频信号沿着单独路径118行进。

图2显示了指纹计算器104的详细示意图。在图2所示的实施例中，指纹计算器104包括块形成装置104a、下行流指纹计算器104b以及指纹后置处理器104c，以提供参考音频信号指纹信息序列120。块形成装置104a被实现为当其实际执行第一块形成时，将提供用于存储/嵌入110的块划分信息。然而，如果音频信号已经具有块划分信息，则块形成装置104a可被控制为依据所述预定的块划分信息106执行块形成。

在本发明的一个实施例中，如图4a所示，向音频信号提供水印。特别是，图4a显示了具有采样序列的音频信号，其中示意地示出块划分为块i、i+1、i+2。然而，即使在图4a所示的实施例中，音频信号自身并不包括这样一种明确的块划分。而是，将水印400嵌入在音频信号中，从而每个音频采样包括水印的一部分。对于采样402，在404自动表示水印的该部分。特别是，嵌入水印400，从而可以基于水印来检测块结构。为此，水印例如是已知的周期性的伪噪声序列，如图5的500所示。这种已知的伪噪声序列具有等于块长度或者大于块长度的周期长度，然而，优选的是，周期长度等于块长度，或者在块长度的数量级上。

关于水印嵌入，首先如图5所示，执行音频信号的块形成502。然而，通过时间/频率转换器504把音频信号块转换到频域。相似的，通过时间/频率转换器506把已知伪噪声序列500变换到频域。之后，心理声学模块508计算音频信号块的心理声学遮蔽阈值，其中如心理声学中已知的，当波段的信号能量低于该波段的遮蔽阈值的值时，则在音频信号中遮蔽该波段中的信号，即，该波段中的信号是听不到的。基于该信息，对伪噪声序列的频谱图执行频谱加权510。然后，在组合器512之前，频谱加权后的伪噪声序列具有如下频谱，该频谱具有对应于心理学遮蔽阈值的轮廓。然后在组合器512中逐个频谱值地对该信号与音频信号的频谱进行组合。因此，在组合器512的输出端，存在具有引入的水印的音频信号块，不过其中水印被音频信号遮蔽。通过频率/时间转换器514，音频信号块被转换回时域，并且存在图4a中所示的音频信号，不过该信号现在具有显示块划分信息的水印。

应当注意，存在多种不同的水印嵌入策略。因此，例如可以通过时域的双重操作执行频谱加权510，从而时间/频率转换器506并不是必须的。

此外，在与音频信号组合之前，频谱加权后的水印也可以被变换到时域，从而组合512发生在时域，其中在这种情况下，只要可以在不变换的情况下计算遮蔽阈值，时间/频率转换器504并不是绝对需要的。明显的，还可以执行与音频信号或者音频信号的变换长度独立使用的遮蔽阈值的计算。

优选的是，所述已知的伪噪声序列的长度等于一个块的长度。然后，用于水印提取的相关性可以尤其有效并且清楚地起到作用。然而，只要伪噪声序列的周期长度等于或大于块长度，可以使用更长的伪噪声序列。此外，可以使用不具有白谱的水印，这仅仅实现为在特定频段，例如较低频谱段或者在中心频谱段包括频谱部分。从而，可以进行控制，例如通过在MPEG 4标准中已知的在数据速率节省传输中的“频谱段复制”技术，例如不仅仅在已被消除或参数化的上部波段中引入水印。

关于使用水印的可替代方式，例如也可以当存在数字声道的时候执行块划分，其中可以标记图4中的音频信号的每个块，从而例如块的第一个采样值获得标记。可替代的，例如，可以在音频信号的报头中提示块划分，其用于计算指纹，并且还用于根据原始多声道音频声道计算多声道扩展数据。

为了举例说明计算多声道扩展数据的方案，下面参考图9。图9显示了编码器一侧的方案，其用于降低多声道音频信号的数据速率。示例性地示出了5.1方案，然而可以使用7.1，3.0或者其他方案。对于同样已知的空间音频对象编码，使用了图9所示的基本二进制结构，在这种空间音频对象编码中，对音频对象编码而不是对音频声道编码，并且多声道扩展数据实际上是能够用于重建对象的数据。具有多个音频声道或音频对象的多声道音频信号被提供到混缩器900以提供混缩音频信号，其中音频信号例如是单声道混缩或者立体声混缩。此外，在各个多声道扩展数据计算器902中执行多声道扩展数据计算。这是，例如依照BCC技术或者依照在MPEG环境中已知的标准，计算多声道扩展数据。还可以在音频信号102中发生音频对象的扩展数据计算，其也被称为多声道扩展数据。图1所示的用于处理音频信号的装置是已知的两个块900、902的下行流，其中依照图1，图9所示的用于处理的装置904例如接收作为单声道混缩或立体声混缩的没有块划分信息的音频信号102，并且还通过线124接收多声道扩展数据。因此，图1中的多声道扩展数据计算器126对应于图9中的多声道扩展数据计算器902。在输出侧，用于处理的装置904例如提供具有嵌入的块划分信息的音频信号118以及图1中以132示出的具有多声道扩展数据、以及相关联的或者嵌入的参考音频信号指纹信息的数据流。

图11a显示了多声道扩展数据计算器902的详细示意图。特别是，首先，在各个块形成装置910中执行块形成，以获得多声道音频信号的原始声道的块。之后，在时间/频率转换器912中对每一块执行时间/频域转换。时间/频率转换器可以是执行子带滤波、一般变换或者特别是FFT形式的变换的滤波器组。已知的可替代的变换还有MDCT等等。之后，在多声道扩展数据计算器中对每个波带、每个块以及例如也对每个声道计算由ICC指示的声道和参考声道之间的各自的相关性参数。此外，在参数计算器914为每个波带、块以及声道计算各自的能量参数ICLD。应当注意，当块划分信息已经存在时，块形成装置910使用块划分信息106。可替代的，当执行第一块划分时，块形成装置910还可以确定块划分信息自身，并且输出块划分信息，并将其用于控制例如图1中的指纹计算器。与图1中的标号相似，输出的块划分信息也通过110表示。通常，可以确保，以与图1中计算指纹的块形成同步的方式执行用于计算多声道扩展数据的块形成。从而确保可以实现多声道扩展数据与音频信号的采样精确同步。

由参数计算器914计算的参数数据被提供到数据流格式器916，该数据流格式器916可以与图1中的指纹信息嵌入器等同地实现。此外，数据流格式器916接收以918指示的混缩信号每个块的指纹。然后，利用指纹和接收的参数数据915，数据流格式器产生具有嵌入的指纹信息的多声道扩展数据130，图11b示意性地示出了其中的一个块。特别是，在960处的，在可选提供的同步字950之后输入该块的指纹信息。然后，在指纹信息960之后，是参数计算器940计算的参数915，也就是例如在图11b所示的每个声道和波带的ICLD参数首次出现的序列中，之后是每个声道和波带的ICC参数。特别是通过ICLD的索引来指示该声道，其中索引“1”例如代表左信号，索引“2”代表中央声道，索引“3”代表右声道，索引“4”代表左后声道（LS）以及索引“5”代表右后声道（RS）。

通常，这将产生图4b中所示的具有多声道扩展数据的数据流，其中，对于一个块，音频信号（即，立体声混缩信号或者单声道混缩信号，或统称为混缩信号）的指纹一直位于多声道扩展数据124之前。在一种实现方式中，用于一个块的指纹信息也可以在传输方向上的在多声道扩展数据之后的位置或者在多声道扩展数据之间的某些地方插入。可替代的，还可以在单独的数据流中，或者例如在通过明确的块标识符而与多声道扩展数据相关联的单独的表中，或者在与各个块的多声道扩展数据的顺序相关的指纹顺序暗示性地提供关联性的表中，传输指纹信息。还可以使用不具有明确嵌入的其它关联性。

图3a显示了用于同步多声道扩展数据和音频信号114的装置。特别是，音频信号114包括块划分信息，如图1所示。此外，参考音频信号指纹信息与多声道扩展数据相关联。

具有块划分信息的音频信号被提供到块检测器300，块检测器300实现为检测音频信号中的块划分信息，并且把检测出的块划分信息302提供到指纹计算器304。此外，指纹计算器304接收音频信号，其中这里，不具有块划分信息的音频信号是足够的，然而，其中指纹计算器还可以实现为使用具有块划分信息的音频信号进行指纹计算。

现在，指纹计算器304为多个连续块计算音频信号的每个块的一个指纹，以便获得测试音频信号指纹序列306。特别是，指纹计算器304实现为使用块划分信息302计算测试音频信号指纹序列306。

创造性的同步装置或者创造性的同步方法还基于指纹提取器308，其用于当将参考音频信号指纹信息120提供到指纹提取器308的时候，从中提取参考音频信号指纹序列310。

测试指纹序列306和参考指纹序列308都被提供到指纹相关器312，指纹相关器312实现为使这两个序列相关。依据相关结果314，其中获得作为块长度（ΔD）的整数（x）的偏差值，则补偿器316被控制为降低、或最好的情况是消除多声道扩展数据132和音频信号114之间的时间偏差。在补偿器316的输出端，以同步的形式输出音频信号和多声道扩展数据两者，从而将其提供用于将参考图10进行讨论的多声道重建。

图3a中的同步器在图10中显示为1000，如参考图3a所示意的，同步器1000包括非同步形式的音频信号114以及多声道扩展数据，并且在输出侧向上混器1102提供同步形式的音频信号和多声道扩展数据。上混器1102，也被称为“上混”块，现在可以基于同步的音频信号和多声道扩展数据计算重建的多声道音频信号L’、C’、R’、LS’以及RS’。这些重建的多声道音频表示已经在图9的块900的输入端示出的原始多声道音频信号的近似值。可替代的，图10中块1102的输出端的重建后的多声道音频信号还表示重建音频对象、或者已经在特定位置修正过的重建音频对象，如从音频对象编码中所知的。现在，重建后的多声道音频信号具有最大的可获得音频质量，这是由于已经以采样精确的方式获得多声道扩展数据与音频信号的同步。

图3b显示了补偿器316的特定实现方式。补偿器316具有两个延迟块，其中一个块320可以是具有最大延迟的固定延迟块，而第二块322可以是具有可被控制处于等于零的延迟和最大延迟D_max之间的可变延迟的块。基于相关结果314来进行控制。指纹相关器312提供一个块长度（Δd）的整数（x）中的相关偏差控制。由于已经根据在音频信号中包括的块划分信息在指纹计算器304自身中执行了指纹计算，因此依照本发明，可以获得采样精确同步，不过指纹相关器仅必须执行基于块的相关。尽管已经逐块地计算了指纹，即，仅仅以相对粗糙的方式表示音频信号的时间曲线、并相应地表示多声道扩展数据的时间曲线，还是能获得采样精确相关，这仅仅是因为指纹计算器304的块划分已经在同步器中与已经被用于逐块地计算多声道扩展数据的块划分同步，该指纹计算器304主要用于计算在多声道扩展数据流中嵌入的或者与多声道扩展数据流相关联的指纹。

关于补偿器316的实现方式，应当注意也可以使用两个可变延迟，从而相关结果314对两个可变延迟级都进行控制。而且，用于同步目的的补偿器内的可替代实现方式选项可以用于消除时间偏差。

下面，通过参考图6，图示出了当块划分信息作为水印引入到音频信号时，图3a中块检测器300的详细实现方式。图6中的水印提取器可以与图5中的水印嵌入器相似地构造，但是并不必须以完全相似的方式构造。

在图6所示的实施例中，具有水印的音频信号被提供到块形成器600，块形成器600从音频信号中产生连续块。然后，将一个块提供到时间/频率转换器602以对该块进行变换。基于该块的频谱表示，或者通过单独的计算，心理声学模块604能够计算遮蔽阈值，通过使用该遮蔽阈值，使得音频信号块在预滤波器606中进行预滤波。模块604和预滤波器606的实现方式有助于提高水印的检测准确率。也可以省略模块604和预滤波器606，从而时间/频率转换器602的输出直接耦合到相关器608。相关器608实现为在转换器502中的对于音频信号块的时间/频率转换之后，对已知的已经在图5的水印嵌入中使用的伪噪声序列500进行相关。

对于块600中的块形成，预先确定测试块划分，其中测试块划分并不必须与最终的块划分对应。而是，相关器608现在在几个块，例如在二十个乃至更多块上执行相关。从而在相关器608中在不同的延迟值处，将已知噪声序列的频谱与每个块的频谱相关，从而在几个块之后产生相关结果610，相关结果610可以如图7所示。控制612可以监视相关结果610并执行峰值检测。为此，控制612检测对于用于相关的更大数量的块越来越明显的峰值700。一旦检测到相关峰值700，仅仅需要确定已经显示出相关结果的x坐标，即偏差Δn。在本发明的实施例中，该偏差Δn指示测试块划分已经与在水印嵌入中实际使用的块划分偏离的采样数量。通过关于测试块划分和相关结果700的这种认知，控制612现在依照图7所示的公式确定校正后的块划分614。特别是，从测试块划分中减去偏差值Δn以计算校正后的块划分614，然后通过图3a中的指纹计算器304保持该校正后的块划分614以计算测试指纹。

关于图6中的示例性水印提取器，应当注意的是，可替代的，可以在时域而不是在频域执行提取，即，可以省略预滤波，并且可以采用替代方式计算延迟，即采样偏差值Δn。可替代选项例如是测试几个测试块划分，并且使用在一个或几个块之后提供最佳相关结果的测试块划分。而且，非周期水印可以用作相关性测量，即，非周期序列，其可以比一个块长度短。

因此，为了解决关联性问题，在本发明的优选实施例中优选具有发射器侧和接收器侧的特定过程。在发射器侧，可以执行从相应（单声道或者立体声）混缩音频信号中计算时间变量和合适的指纹信息。此外，这些指纹可以作为同步帮助，被规则地输入到发送的多声道附加数据流中。这可以作为逐块组织的空间音频编码边信息内的数据字段执行，或者以如下方式执行：将指纹信号作为数据块的第一或最后信息来发送，以便容易地添加或移除。此外，水印，例如已知的噪声序列，可以被嵌入到要被发送的音频信号中。这有助于接收器确定帧相位并消除帧间偏差。

在接收侧，优选为两级同步。在第一级，从接收的音频信号中提取水印，并且确定噪声序列的位置。此外，根据噪声序列位置可以确定帧边界，并且可以相应地划分音频数据流。在这些帧边界或者块边界内，可以在与发射器内曾计算过的几乎相同部分上计算特性音频特征，即，指纹，这提高了随后的相关结果的质量。在第二级中，从相应的立体声音频信号或者单声道音频信号、或者一般而言从混缩信号中计算时间变量和合适的指纹信息，其中该混缩信号也可以具有两个以上声道，只要混缩信号中的声道具有比在混缩之前的原始音频信号中的声道或一般而言的音频对象更小的数量。

此外，可以从多声道附加信息中提取指纹，并且多声道附加信息和接收信号之间的时间偏差可以通过合适的并且也是已知的相关方法执行。整体时间偏差包括多声道附加信息和接收的音频信号之间的帧相位以及偏差。此外，可以通过下行流主动调节的延迟补偿级，对音频信号和多声道附加信息进行同步，以进行随后的多声道解码。

为了获得多声道附加数据，例如把多声道音频信号划分成固定大小的块。在各个块中，嵌入接收器已知的噪声序列，或者嵌入一般而言的水印。在相同的栅格中，同时或者至少同步地逐块计算指纹，以获得多声道附加信息，该多声道附加信息适合于尽可能清楚地表征信号的时间结构。

关于此方案的一个实施例是使用例如以对数形式（即，以与分贝相关的表示方式）的音频块的当前混缩音频信号的能量内容。在这种情况下，指纹是关于音频信号的时间包络的量值。为了降低要发送的信息数量，并且提高测量值的准确性，该同步信息也可以表示与先前块的能量值的差值，其随后经历合适的熵编码（例如哈夫曼编码）、自适应缩放比例以及量化。

通过参考图8、并且一般而言参考图2，下面讨论用于计算指纹的优选实施例。

在块划分步骤800中的块划分之后，以连续块呈现音频信号。之后，依照图2的块104b执行指纹值计算，其中如步骤802中所示，该指纹值例如可以是每个块的一个能量值。当音频信号是立体声音频信号时，依照下面的等式计算当前块中的混缩音频信号的能量计算：

E_{monosum} = Σ_{i = 0}^{1152} S_{left} {(i)}^{2} + S_{right} {(i)}^{2}

特别是，数值i的信号值S_left(i)表示音频信号的左声道的时间采样。S_right(i)是音频信号的右声道的第i个采样。在所示的实施例中，块长度是1152个音频采样，这就是为什么来自左和右混缩声道两者的1153个音频采样（包括对于i＝0的采样）中的每一个都被平方并求和。如果音频信号是单声道音频信号，则省略求和。如果音频信号是具有例如三个声道的信号，则对来自三个声道的平方后的采样进行求和。此外，优选的是在计算之前移除混缩音频信号的（无意义）稳定分量。

在步骤804，由于随后的对数表示方式，执行能量的最小限制。对于与分贝相关的能量估计，提供最小能量偏差E_offset，从而在零能量的情况下产生有用的对数计算。这种以dB为单位的能量量值以16比特的音频信号分辨率描述从0到90（dB）的数值范围。因此，在块804，将实现下面的等式：

E_(db)=10log(E_monosum+E_offset)

优选的，为了精确确定多声道附加信息和接收的音频信号之间的时间偏差，并不使用绝对能量级值，而是使用信号包络的斜率或陡度。因此，对于图3a中指纹计算器312的相关性量值，使用能量包络的陡度。从技术上讲，依照下面的等式，通过能量值与先前块的差值形成来计算信号偏差数：

E_db(diff)=E_db(current_block)-E_db(previous_block)

（注：current_block:当前块，previous_block:先前块）

从上面的等式中可以清楚，E_db(diff)是以dB表示的两个先前块的能量值的差值，而E_db是当前块或者先前块的以dB为单位的能量。在步骤806中执行能量的差值形成。

应当注意，例如仅仅在编码器中，也就是在图1的指纹计算器104中执行该步骤，从而在多声道扩展数据中嵌入的指纹包括差分编码值。

可替代的，差分形成的步骤806还可以仅仅在解码器侧，即图3a的指纹计算器304上实现。在这种情况下，发送的指纹仅仅包括非差分编码指纹，并且依照步骤806的差值形成仅仅在解码器中执行。这种可选方案通过桥接差值形成块806的点状信号流线808表示。后面这种可选方案808具有如下优点：指纹仍然包括有关混缩信号的绝对能量的信息，但是仅具需要稍微更高的指纹字长度。

块802、804、806属于依照图2的104b的指纹值计算，而随后的步骤808（根据放大因数缩放）、810（量化）、812（熵编码）或者还包括块814中的1比特量化，都属于依照指纹在后置处理器104c的指纹后置处理。

当依照块808缩放能量（信号包络）以进行最佳调制时，可以确保：在该指纹的随后量化中，既最大化地利用了数值范围，又以提高了低能量值的分辨率。因此，引入了额外的缩放或放大。该缩放或放大可以作为固定或静态加权量来实现，或者可以通过适配于包络信号的动态放大调节来实现。还可以使用静态加权量与适配的动态放大调节的组合。特别是，遵照下面的等式：

E_scaled=E_db(diff)*A_{amplification}(t)

E_scaled表示缩放后的能量。E_db(diff)表示通过块806中的差值形成计算的以db为单位的差值能量，A_{amplification}是放大因数，特别是当该放大因数是动态放大调节时，其可以取决于时间t。放大因数将取决于包络信号，其中对于较大的包络，放大因数变小，而对于较小的包络，放大因数变大，从而获得具有尽可能一致的可用数值范围的调制。特别是可以通过测量所发送的音频信号的能量，在指纹计算器304中再现放大因数，从而并不需要明确地发送该放大因数。

在块810中，对由块808计算的指纹进行量化。执行此步骤是为了准备用于输入到多声道附加信息中的指纹。该降低的指纹分辨率已经显示了关于延迟检测的比特需求和可靠性之间的良好折衷。特别是，通过饱和特性曲线，可以把>255的超出范围限定为最大值255，例如可以如下面的等式所示:

E_{quantized} = Q_{8 bits} [Saturation \frac{255}{0} (E_{scaled})]

E_quantized是量化后的能量值，并且表示具有8比特的量化索引。Q_8bits是把最大值255的量化索引分配到>255的值的量化操作。应当注意，还可以使用具有大于8比特的更精细量化，或者少于8比特的更粗糙量化，其中更粗糙量化降低了对额外比特的需求，而具有更多比特的精细量化则增加了对额外比特的需求，但是也增加了准确率。

之后，在块812，可以发生指纹的熵编码。通过估算指纹的静态特性，可以进一步降低量化指纹的比特需求。一种合适的熵方法例如是哈夫曼编码。统计上来讲，可以通过不同的码长度表示指纹值的不同频率，并且因此，平均来讲，能够降低用于表示指纹的比特需求。

然后，把熵编码块812的结果写入扩展声道数据流，如813所示。可替代的，如811所示，可以把非熵编码的指纹作为量化值写入比特流。

作为步骤802中计算每个块的能量的替代方式，可以如块818所示，计算不同指纹值。

作为块能量的替代方式，可以计算功率密度谱的峰值因数（PSD峰值）。该峰值因数通常是作为块中信号的最大值XMax与块中信号Xn（例如频谱值）的算术平均之间的商来计算的，如下面的等式所示例性地示出的：

y = \frac{XMax}{\frac{Σ_{i = 1}^{n} X_{n}}{n}}

此外，为了获得更加健壮的同步性，可以使用另一方法。不采用通过块808、810和812实现的后置处理，而可以把1比特量化用作替代的指纹后置处理104c（图2），如块814所示意。这里，附加地，在编码器中，在依照802或818的指纹的计算和差值形成之后直接执行1比特量化。已经显示，这可以提高相关的准确性。实现这种1比特量化，以使得当新值大于旧值（斜率为正）时，指纹等于1，以及当斜率为负时，指纹等于-1。当新值小于旧值时获得负斜率。

除了改善了同步性结果之外，这种量化还对发送指纹所需的带宽具有影响。尽管前面需要为指纹引入至少8比特以提供足够准确的值，然而这里，单个比特就足够了。由于已经在发射器中确定了该指纹及其1比特副本，因此由于以最大分辨率提供了实际的指纹，因而可以实现差值的更加准确的计算，并且因此在发射器和接收器两侧均可以考虑指纹之间的最小变化。此外，已经发现，大部分连续指纹仅仅存在微小差异。而这种差异将可以在差值形成之前通过量化消除掉。

根据该实现方式并且当逐块准确率足够时，无论是否存在具有附加信息的音频信号，都可以使用1比特量化来作为特定的指纹后置处理，这是因为基于差值编码的1比特量化本身已经是健壮的并且准确的指纹方法，其还可以用于同步以外的其它目的，例如标识或分类的目的。

如基于图11a所示，在多声道音频数据的帮助下执行多声道附加数据的计算。随后，通过把采用计算后的指纹形式的新增加的同步信息适当地嵌入到比特流中，来顺序地扩展计算后的多声道附加信息。

优选的字标记指纹混合方案允许同步器检测混缩信号与附加数据的时间偏差，并且实现时间校正适配，即在+/-一个采样值的数量级上的音频信号和多声道扩展数据之间的延迟补偿。于是，在接收器中近乎完全地重建多声道关联性，即几个采样远离了几乎难察觉的时间差值，这不会对重建的多声道音频信号的质量产生可注意到的影响。

根据情况，可以以硬件或软件实现该创造性的方法。该实现方式可以在数字存储介质上实现，尤其是具有电子可读控制信号的盘片、CD或者DVD上，这种电子可读控制信号与可编程计算机系统协同工作，从而执行该方法。因此，通常，本发明还包括具有存储在机器可读载体上的程序代码的计算机程序产品，所述程序代码用于当在计算机上运行该计算机程序产品时执行该创造性方法。换言之，本发明可以作为具有程序代码的计算机程序，该程序代码用于当在计算机上运行计算机程序时执行该方法。

Claims

1.一种处理音频信号（102）的装置（904），包括：

指纹计算器（104），用于为连续的块序列计算所述音频信号（100，102）的每个块的指纹，以获得参考音频信号指纹信息序列，其中所述指纹计算器（104）被实现为使用预定的块划分信息（106）计算所述参考音频信号指纹序列，或者与所述音频信号相关联地存储所使用的块划分信息（110）；

指纹信息嵌入器（122），用于关联所述参考音频信号指纹信息与多声道扩展数据（124），其中所述多声道扩展数据（124）被实现为可以利用所述多声道扩展数据块以及所述音频信号块来确定多声道音频信号的近似值，

其中所述指纹信息嵌入器（122）被实现为把所述音频信号块的所述参考指纹信息嵌入到所述多声道扩展数据块中，或者将其与所述多声道扩展数据块相关联地插入到输出信号（132）中；以及

输出接口（116），用于输出所述输出信号（132）。

2.如权利要求1所述的装置，其中所述音频信号（100）包括所述块划分信息，并且所述指纹计算器（104）被实现为从所述音频信号（108）中确定所述块划分信息。

3.如权利要求1所述的装置，其中所述音频信号（102）不包括所述块划分信息，并且所述指纹计算器（104）被实现为把所述块划分信息（110）提供到块划分信息嵌入器（112），从而块划分信息嵌入器（112）把所述块划分信息嵌入到所述音频信号中，以及

其中所述输出接口（116）进一步被实现为输出具有所述嵌入的块划分信息的所述音频信号。

4.如权利要求3所述的装置，其中所述块划分信息嵌入器（122）被实现为把水印作为块划分信息嵌入到所述音频信号中。

5.如权利要求4所述的装置，其中所述指纹计算器（104）被实现为执行所述音频信号的块划分，并且其中所述块划分信息嵌入器（112）被实现为把水印嵌入到所述块中，所述水印与嵌入到先前或随后块中的水印相同。

6.如权利要求4或5所述的装置，其中所述块划分信息嵌入器（112）被实现为嵌入预定的伪噪声序列作为水印。

7.如权利要求1到6中任意一个所述的装置，其中所述指纹计算器被实现为对所述音频信号的每一块执行一次能量计算（802）。

8.如权利要求1到7中任意一个所述的装置，其中所述指纹计算器被实现为执行在先前块的指纹值和当前块的指纹值之间的差值形成（806）。

9.如权利要求1到8中任意一个所述的装置，其中所述指纹计算器被实现为输出所述当前块和先前块的值以作为参考音频信号指纹信息，而不执行差值形成（808）。

10.如权利要求1到9中任意一个所述的装置，其中所述指纹计算器（104）被实现为执行量化（810）以及熵编码（812）。

11.如权利要求1到10中任意一个所述的装置，其中所述指纹计算器（104）被实现为执行与所述音频信号的包络适配的静态或动态放大调节（808）。

12.如权利要求1到11中任意一个所述的装置，其中所述指纹计算器（104）被实现为对所述音频信号的块，计算（818）所述块中的所述音频信号的最大值与所述音频信号块的算术平均值之间的商。

13.如权利要求1到7中任意一个所述的装置，其中所述指纹计算器（104）被实现为对每一块计算用于所述音频信号的值，并且执行1比特量化（814），其中在当前块的值大于先前块的值时获得第一个二进制值，以及在当前块的值小于先前块的值时获得第二个二进制值。

14.一种处理音频信号（102）的方法（904），包括：

对连续块序列计算（104）所述音频信号（100，102）的每个块的一个指纹，以获得参考音频信号指纹信息序列，其中预定的块划分信息（106）用于计算参考音频信号指纹信息序列，或者其中与所述音频信号相关联地存储所使用的块划分信息（110）；

关联（122）所述参考音频信号指纹信息与所述多声道扩展数据（124），其中所述多声道扩展数据（124）被实现为可以利用多声道扩展数据块以及所述音频信号块来确定多声道音频信号的近似值，

其中所述音频信号块的所述参考指纹信息被嵌入到所述多声道扩展数据块中，或者被插入到与多声道扩展数据块相关联的输出信号（132）中；以及

输出（116）所述输出信号（132）。