CN100498259C

CN100498259C - 使附加数据和基本数据同步的装置和方法

Info

Publication number: CN100498259C
Application number: CNB2005800323632A
Authority: CN
Inventors: 于尔根·赫勒; 奥立弗·赫尔穆特; 安德列亚斯·赫尔蒂; 斯特凡·盖尔斯贝格
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2004-09-27
Filing date: 2005-09-23
Publication date: 2009-06-10
Anticipated expiration: 2025-09-23
Also published as: ES2537302T3; US20070285815A1; DE102004046746A1; US20110282471A1; WO2006034825A1; US8332059B2; CA2581094C; EP1794564B1; CA2778889A1; CA2778889C; JP4989480B2; HK1106824A1; JP2008514972A; EP1794564A1; CA2581094A1; CN101027543A; DE102004046746B4

Abstract

为了向如传统立体声数据的基本数据添加如多通道扩充数据的附加数据，提供(10)与测试数据的测试时刻相关联的测试数据的测试指纹。测试数据等同于附加数据或基本数据，或以参数形式取决于附加数据或基本数据。使用测试指纹，确定(11)基于参考数据中的参考时刻的参考时刻信息，参考数据是传统的立体声数据。最后，处理(12)附加数据或基本数据，即，使用参考时刻信息和测试时刻信息来进行处理，以获得处理数据，通过该处理数据，可执行数据信息的同步再现(13)。因此，获得了鲁棒且灵活的同步，尤其是利用附加数据在事后扩充基本数据。

Description

使附加数据和基本数据同步的装置和方法

技术领域

本发明涉及多媒体数据处理，具体地，涉及将附加音频信息时间同步地附加到音频基本数据上。

背景技术

当前发展的技术或者将来将发展的技术能够越来越有效地存储音频信号或视频信号，还通过扩充(extention)，例如通过采样多通道技术，增强了视听愉悦感。这种扩充可以按照新文件格式编成文件，并与音频基本数据一起可供用户使用，其中音频基本数据是例如单声道或立体声音频信号。例如，该扩充数据可以是附加的多通道信息。这意味着，音频基本数据和扩充数据都包含在公共数据流或文件内。

然而，同时还需要关注的是，感兴趣的在于已经处理了音频信号的立体声版本的用户仅获得了扩充，即多通道音调，然后将其添加到已有音频信号或相应的文件中。具体地，这种变化具有多种优点。不必一定要传输用户已有的数据。尤其是在服务供应商根据经由网络传输的数据量来对其服务进行收费的场景中，用户可经由网络接收尽可能少的数据，来实现显著的成本节省。

例如，用户拥有立体声CD，因此具有特定音乐片段的左和右通道。利用多通道技术，例如5.1技术，用户现在也许不仅希望在新的环绕系统中播放其立体声CD，而且希望具有其立体声CD的5通道版本，并播放该版本。在这种情况下，仅向已经具有左和右通道的用户传输左环绕通道、右环绕通道和中央通道就足够了。在对所传输的数据量进行收费的上述场景中，如果仅发送3个通道而不是5个通道，用户就节省了40％的数据量。

此外，由于用户不再需要为已有的音频基本数据付费，所以扩充数据的附加购买可能对于用户在经济上更具吸引力。因此，已经出售了立体声CD的唱片公司可以比音乐片段的整个5通道版本更低的价格来提供“环绕”扩充，作为针对其顾客的附加服务。

然而，使用已有数据的附加数据也引起了多种其它应用的关注。具体地，在可缩放音频/视频数据中，附加数据可存在于更高的缩放层。在现有技术已知的可缩放概念中，例如，存在基本缩放层，包括音频片段的例如多达8kHz的一定带宽的音频信号。利用这些数据可完全实现能够再现最大带宽为8kHz的播放装置。例如，播放装置可以是并不特别具有宽带扬声器的播放器。同样地，该信号可以是向下带限(band-limited downward)的，而且播放器也不能够再现例如低于500Hz的音调。紧邻更高的缩放层可以是在向下方向上丢失的带宽和/或在向上方向上丢失的带宽，例如从20Hz-500Hz的带宽和从8kHz-16kHz的带宽。该第一缩放层则必须与带宽在500Hz和8kHz之间的原始音频信号组合，以便获得宽带音频信号，然后由宽带再现装置再现该宽带音频信号。这种缩放层变化也可优选地由提供商提供，由于用户先前已经购买了“窄带”音频信号，所以第一缩放层对于用户而言比宽带音频信号花费更少。

其它的扩充数据包括视频数据，其中，基本层给视频序列提供了特定的分辨率，而紧邻的缩放层单独或者在与原始视频数据结合时提供了本身已经具有更高分辨率的音频数据，导致具有更高分辨率的视频序列。这种场景出现在用户仅拥有具有较低分辨率的视频再现装置、之后又获得了具有更高分辨率的视频再现装置并希望通过新装置以更高分辨率来观看“旧”视频的情况下。

其它扩充数据还包括所谓SBR(光谱带复制)数据。在已知的SBR技术中，由于较低的输出数据可用，编码器仅产生带限信号，该带限信号仅扩展到例如4或6kHz的最大截止频率。不再将丢失的高频带数据编码为音频采样或音频值，而将其编码为参数数据。在SBR技术中，频谱包络上的是参数数据信息。SBR解码器然后将频谱值从可用的波段复制到更高的波段，从而建立更高波段的精细频谱结构，而粗略频谱结构(即频谱包络)由参数附加数据确定。根据实施方式，用户因此可基于所传输的SBR参数或者由于仅包括高波段的时间音频采样，将其已有带限的编码或未编码的音频数据补充为宽带音频信号。

在至少具有如左、右和中央的三个再现通道的多通道音频再现技术中，逐渐开始采用参数技术，该技术也公知为首字母缩写的BCC技术。在BCC技术中，原理上，使用参数附加数据，将一个或两个基带通道用于产生任意数目的再现通道，例如环绕再现技术中的5个通道。这里，参数数据是通道间电平差值(ICLD)、通道间时间差值或通道间相干(ICC)信息。

该参数数据应用于所传输的立体声基本通道，通过两个基本通道的多种加权/组合，以产生再现通道。

此外，在这种场景中，已经拥有音乐片段的两个立体声通道的用户也许希望“另外购买”参数数据，这当然需要非常低的数据率。但是，在这种情况下，接收机必须具有BCC解码器，以能够处理参数数据。然而，可选地，服务提供商可基于这种参数数据，从参数数据和两个立体声基本通道的(理想)版本中产生左环绕、右环绕和中央这3个通道，并以“已解码”的方式将它们发送到接收机，即作为音频数据，而不是参数数据。

使用参数数据的类似多通道编码技术已知为“强度立体声编码(intensity stereo coding)”的首字母缩写。

将时间连续的扩充数据时间同步地添加到时间连续的音频基本数据，导致为了成功应用而必须解决的一系列实际问题，例如其中时间连续的扩充数据是从参数数据中产生的。

对于所有的扩充数据，应该确保扩充数据精确地与大量多种音频基本数据中的针对此而设计、产生或计算该扩充数据的对应物相配。具体地，由于基本数据不具有可识别或甚至与唯一对应物相关联的唯一标记，这非常难。作为示例，应该将音乐段X的多通道附加数据Dx添加到该音乐段X上而不是另一音乐段Y或同一音乐段X的所谓二次混合“XR”上。关于这一点，要指出，在流行的摇滚音乐中，总是有多个音乐版本，这些版本可以是CD的长版本、独唱的短版本、现场版本或所谓重新发行或重新混合的版本。但是在古典音乐中，对于同一个片段，仅存在由多个乐队记录片段而产生的多次演奏。因此，无须说，乐队X的古典乐段的记录的多通道附加数据当然与乐队Y的同一古典乐段的记录不匹配。

另一问题在于，必须以精确的时间连续方式来提供音频基本数据以匹配扩充数据，反之亦然。如果不是这样，在多数情况下，扩充数据则对于用户无用。如果音乐段的多通道附加信息具有与立体声基本数据的最小偏移，则在声印象中，出现清晰可听见的伪象，用户因此仅具有音乐段的错误的多通道版本，在极限情况下该版本无用。

音频基本数据也可以截短形式存在。例如，如果假设服务提供商要提供已有立体声信号的多通道扩充，即要产生多通道附加数据，则他们访问音乐段的多通道版本。想要多通道附加信息的服务用户还拥有一种音乐段版本，即立体声版本。如果终端用户在创建或处理中，例如在读取CD时，故意或无心地删除了音频数据的开始或结尾部分，则服务提供商的多通道版本和终端用户的立体声版本不再覆盖相同的音频范围。在添加多通道附加数据时，只要发生这些情况，就必须考虑这些情况。

如果音频基本数据在时间上拉伸或缩短了，即如果快进或慢进地记录/播放音频基本数据，则这还也会在附加中产生问题。这里，必须确定正确的缩短/拉伸因子，然后以类似方式用于扩充数据。如果终端用户已经从收音机中记录了其立体声版本，例如，该版本可以是3％快进或慢进地播放的版本。因此，终端用户现在拥有音乐段的拉伸/更长或缩短/更短版本，这对于多通道附加数据也是相应的。

此外，如果音频基本数据在特定范围内不再以原始形式存在，而已通过传输(例如通过音频编码)而改变，则还应该能够确定所有上述数据。如果已经从模拟磁带记录器中复制了终端用户的立体声版本，则音乐段质量上发生改变(劣化)。即使在这些(更加困难的)条件下，原理上添加多通道附加数据也应该能够起作用。

特别地，要指出，在技术上，删除片段的开始或结尾处的数据被理解为“截短(shortening)”。针对此的英语技术术语是“剪切(cropping)”。对于“缩短(shrinking)”，一方面，可理解为时间轴的线性失真(例如通过更快的再现)，对应于数字技术中的“重采样”，即，转换到改变的采样频率。类似地，“加长”表示添加数据，而“拉伸”表示时间轴沿相反方向的线性失真，即更慢的再现。

在技术上，尤其是在影院视频技术上，已知时间同步方法，其中典型地，使用也称为时间戳的时间码标准。通过正确地将视频素材和音频素材中的时间码匹配，确保对于图像序列，播放了匹配的音调。这种时间码使音频和视频数据以及多媒体数据同步。但是，时间码通常不以消费者的音频格式存在。包含立体声版本乐段的CD并不包含任意唯一标准化的或通常公认的时间码。也没有通常公认的时间同步技术，用于利用附加信息来“增强”常用视频序列，以获得更高分辨率的视频序列。

因此，仅在“一次动作”中同时产生了基本数据和附加数据时，在音频和视频领域将附加信息添加到基本信息上才是成功的，例如如果BCC编码器基于多通道版本来产生BCC参数，其中BCC解码仅根据从该多通道版本中推导出的基本通道来进行，而不使用任意基本通道。对于可缩放编码器或SBR系统，情况类似。这里，因为SBR附加数据或更高的缩放层仅与在数据的产生中可供使用的一个基本缩放层或一个低波段信号精确地匹配，所以对于“来自一次动作”，情况也是类似的。对于任意基本数据，由于用户已知基本数据并且已经有意或无意地操作了(质量劣化)，所以根据“一次动作”原理工作的概念并不起作用。

发明内容

本发明的目的是提供一种用于使附加数据和基本数据同步的可行且鲁棒的概念。

根据本发明的一个方面，提供了一种用于使附加数据和基本数据同步的设备，附加数据和基本数据定义了时程并包括可一起再现的数据信息，所述设备包括：提供装置，用于提供与测试数据的测试时刻有关的测试数据的测试指纹，测试数据是附加数据或基本数据，或者测试数据取决于附加数据或基本数据；确定装置，用于使用测试指纹来确定取决于参考数据中的参考时刻的参考时刻信息，参考数据是测试时刻指纹不来源于其中的数据；以及处理装置，用于使用参考时刻信息和取决于测试时刻的测试时刻信息来处理附加数据或基本数据以便获得处理数据，其中，形成所述处理装置，以便处理附加数据或基本数据，以便能够基于处理数据来执行数据信息的同步再现。

根据本发明的另一方面，提供了一种使附加数据与基本数据同步的方法，附加数据和基本数据定义了时程并包括可一起再现的数据信息，所述方法包括步骤：提供与测试数据的测试时刻有关的测试数据的测试指纹，测试数据是附加数据或基本数据，或者测试数据取决于附加数据或基本数据；使用测试指纹来确定取决于参考数据中的参考时刻的参考时刻信息，参考数据是测试时刻指纹不来源于其中的数据；以及使用参考时刻信息和取决于测试时刻的测试时刻信息来处理附加数据或基本数据以便获得处理的处理数据，从而能够基于处理数据来执行数据信息的同步再现。

根据本发明的另一方面，提供了一种在服务器设备中使用的方法，包括步骤：接收基本数据的参考指纹；基于参考指纹来识别基本数据；将可获取版本的基本数据的测试指纹发送到服务器设备，以及发送与基本数据相关联的附加数据。

根据本发明的另一方面，提供了一种在客户端设备中使用的方法，包括步骤：发送基本数据的参考指纹；接收与测试数据的测试时刻相关联的测试数据的测试指纹，测试数据是附加数据或基本数据，或者取决于附加数据或基本数据以及与基本数据相关联的附加数据；使用测试指纹来确定基于参考数据中的参考时刻的参考时刻信息，参考数据是测试时刻指纹不来源于其中的数据；以及使用参考时刻信息和取决于测试时刻的测试时刻信息来处理附加数据或基本数据以便获得处理的处理数据，从而能够基于处理数据来执行数据信息的同步再现。

本发明基于以下认识：如果使用已经用于音频识别的指纹技术，则可成功使附加数据和基本数据同步。在用户已经提供了想要扩充数据的基本数据的指纹时，这种附加信息的提供商可唯一地识别该音频基本数据片段，即表演艺术家和记录年份等。

具体地，已完全开发出已有指纹技术，他们是对于质量劣化或有来确定取决于参考数据中的参考时刻的参考时刻信息，参考数据是测试时刻指纹不来源于其中的数据；以及处理装置，用于使用参考时刻信息和取决于测试时刻的测试时刻信息来处理附加数据或基本数据以便获得处理数据，其中，形成所述处理装置，以便处理附加数据或基本数据，以便能够基于处理数据来执行数据信息的同步再现。

具体地，已完全开发出已有指纹技术，他们是对于质量劣化或有损编码而产生的失真鲁棒，因此具有现场版本的指纹与可演播室版本的指纹唯一地区分的特性，例如，与截短的单个版本的指纹相区分。

在进行了片段的识别之后(尽管该过程通常是集中的，但是原理上也可通过用户和提供商之间的明文传输来进行)，提供测试数据的测试指纹，该测试指纹指向测试数据的测试时刻。这里，利用现代指纹技术的属性，其通常不仅提供片段的识别，还指向片段的特定时刻。技术上，如果测试数据的指纹指向时间数据的测试时刻，这种指纹也被称为“具有内部时标的指纹”。

在例如可以是用户处存在的基本数据的参考数据中，确定参考数据中取决于参考时刻的参考时刻信息，其中，通过常用指纹处理技术，使用测试指纹来进行该确定。典型地，这种“指纹匹配系统”将在时间参考数据上使测试指纹移动，直到获得了测试指纹和从参考数据中推导出的参考指纹的最大匹配。基于测试指纹而获得最佳匹配的参考数据中的时刻则与测试指纹所指向的测试时刻匹配。因此，实现了测试数据和基本数据之间的同步定位。

根据该参考时刻信息和取决于测试时刻的测试时刻信息，最后进行附加数据或基本数据的处理，但是优选地是附加数据的处理，以获得所处理的数据，其中，进行处理，即处理附加数据或基本数据，使得可基于所处理数据来进行数据信息的同步再现。

优选地，一种处理形式包括确定基本数据中能够执行截短的起始偏移或结尾偏移。另一处理包括考虑缩短/拉伸因子，以便缩短/拉伸基本数据或附加数据，但是优选地是附加数据，从而其精确地与(拉伸的/缩短的)基本数据匹配。

利用此，实现了所有信息(附加数据中的信息和基本数据中的信息)的时间同步再现，而与是否从附加和基本数据中写出了单个音频文件或者所处理的附加数据被编入其自身的文件中无关，该文件具有对基本数据的唯一时间参考，因此“专用于”基本数据。

在第一情况下，所处理的数据包括完全新写出的音频文件，而在后一情况下，所处理的数据仅仅是所处理的附加数据，例如，未在用户方特意对基本数据采样。如果用户在任意情况下想要确保对于他们而言有价值并且他们逐渐喜欢的基本数据不被访问，第二变体是有利的。然而，在用户需要在再现之前将两个数据流合并的再现装置，即经由扬声器输出时，这是不利的。

这不需要用户立刻将基本数据和附加数据合并为单个文件，然后由常用的再现装置再现所述文件。

当然，在前一情况下，用户还可保留其音频基本数据的拷贝，然后将基本数据和附加数据合并为单个文件，从而他们同时具有立体声版本和5.1版本。

此外，要指出，附加数据并不一定是时间采样，而可以是参数数据。如果附加数据是参数数据，附加数据的处理包括使附加数据与指向基本数据的唯一同步信息相关联，其中基本数据可以是例如时间码，也可以是指纹，因此多通道解码器可使用现在具有同步信息的BCC参数或从参数中推导出的时间离散数字音频数据，执行精确地与当前基本数据相关联的多通道重建。具体地，以块存在的参数的处理还包括在附加数据的开始或结尾处剪切参数信息，以便考虑在基本数据的开始或结尾处的由用户有意或无意引入的截短。

关于这一点，要指出，在用户记录音频/视频信息或从他们的CD/DVD拷贝时，由于在这两种情况下，难以(如果可能的话)精确地“获得”播音室所发出的片段的开始或结尾，所以尤其要执行这种处理。具体地，在片段渐弱时，在片段的结尾处出现问题。特别地，在来自收音机的记录中难以找到片段的开始。这里，不能够唯一地确定片段是否具有暂停并且暂停有多长，或者片段实际上以第一鼓声开始，这种情况下，因为用户必须精确地在鼓声同时按下记录按钮，所以对于用户而言很困难。

缩短/拉伸的问题在实际情况下也非常明显，因为多数情况下，不存在以完全相同的速度运转的模拟再现装置/记录装置。在数字再现/记录装置中，同步再现最终取决于再现装置的时钟振荡器，这或多或少是精确的，并且其质量在所提供范围的廉价端方向上降低。另一方面，由于这里提出的装置本身具有最大数目的元件，所以在经济上而言，所提供范围的廉价端是市场分割最感兴趣的。

附图说明

下面参考附图，详细解释本发明的优选实施例，附图中：

图1是用于使附加数据和基本数据同步的本发明概念的电路框图；

图2是其中客户端与服务器进行通信的应用优选示例的流程图；

图3是其中指纹指向指纹所来源的数据的时刻的指纹系统的示意图；

图4是使用测试指纹的参考时刻信息的确定的示意图；

图5是根据本发明的优选实施例，使用两个测试指纹来确定缩短/拉伸的示意图；

图6是根据本发明的优选实施例，用于处理附加数据的步骤的概图；

图7是在本发明的优选实施例所需的服务器数据库的示意图；以及

图8是根据本发明的优选实施例的服务器和客户端之间的通信的系统图。

具体实施方式

在根据图1来参考使附加数据和基本数据同步的本发明设备之前，首先，根据图3来描述指向推导出指纹的数据的一个时刻或多个时刻的指纹，即具有内部时标的指纹。换言之，图3中的指纹30提供了图3中推导出该指纹的音频信号31的时标。因此，音频信号31的时间结构也与指纹30的时间结构一致。指纹30的时程因此对应于音频信号31的时程(time course)。

在图3所示的示例中，音频信号31包括时间段1、2、3、…、7的序列。根据每个时间段，通过已知的指纹方法，计算各个子指纹SFPi。因此，子指纹SFP1对应于音频信号的段1，而子指纹SFP6对应于音频信号的段6。通常，子指纹SFPi与音频信号的段i相联系。

示范的指纹计算策略包括对音频信号加窗，以便“切掉”音频信号的段1，例如，段1包括2048个时间采样。这里，执行表示音频信号的第一段的时间采样块到谱域的转换，以获得包括例如2048个频谱系数的频谱表示。为了减少数据，执行多个波段的频谱系数分组，以便从每个谱段中提取多种属性。例如，这些属性是音调测量、响度测量、所谓Mel频谱系数、音频频谱包络或其它统计量，例如波段内频谱系数的平均值或方差、或者高阶统计矩。取决于指纹技术，执行这些“原始特征”的进一步处理，以最终获得音频信号的第一段的子指纹SFP1。

第一段的子指纹SFP1因此具有与由第一段自身引入的数据量相比减少的数据量。另一方面，子指纹SFP1是第一段的特征量。其还包含识别该段所需的该段的信息。与此有关的，识别意味着根据该子指纹SFP1，音频信号的第一段可良好地与音频信号的另一段或另一音频信号的段相区分。

在针对整个音频信号31执行了该过程之后，获得了由一连串各个子指纹组成的音频信号的指纹。

关于这一点，要指出，图3仅仅是示范，用以演示具有内部时标的指纹，其时程对应于音频信号的时程。因此，并不需要如图3所示，将段彼此化分开，而是段可重叠，例如50％重叠，如音频编码技术所知的。此外，各个子指纹SFPi可例如通过平均，相对彼此偏移，只要所产生的指纹30仍然具有与音频信号的时间连接，即只要指纹指向数据中的时刻。在图3所示的实施例中，子指纹SFP1指向第一段开始处的时刻，而子指纹SFP6指向第六段开始处的时刻。还要指出，该关联仅仅是示例。如果意见一致，子指纹也可指向段的结尾或段内的任意已知值，例如指向段的中间。

接下来，根据图4，给出参考时刻信息的确定的优选技术。在图4所示的实施例中，在图4中由40指代的基本信号的参考指纹以基于图3针对指纹30所描述的形式出现。对于图4所示的示范示意图，基本信号的参考指纹指向长度为Tr的基本信号。此外，在图4中，示出了测试指纹41，测试指纹41也包括各个子指纹，并且原理上与图3的指纹30的构造相同。测试指纹指向长度为Tt的测试信号，如图4所示。此外，测试指纹41具有时间信息，该时间信息指向测试信号的测试时刻或测试偏移t₀。为了演示图4的功能，以从中推导出测试指纹的测试信号作为图4中由42表示的基本信号的摘选。如果进行测试指纹与参考指纹的时间关联，则针对每个时间步长，进行测试指纹与参考指纹之间的关联。例如，以将参考指纹的前五个子指纹与测试指纹的前五个子指纹相比较开始。该关联将导致匹配的某种测量。因此，在接下来的步骤中，将参考指纹的第二至第六个子指纹与测试指纹的五个子指纹相比较，再次获得匹配的测量。一直进行，直到将在图4所示的参考时刻处开始的参考信号的五个测试子指纹与测试指纹的五个子指纹相比较为止。这里，在以测试信号作为基本信号的摘选的示范情况下，将产生非常高的匹配或者100％的匹配。指纹检查算法因此输出包括绝对参考时刻或包括相对参考时刻的参考时刻信息，这在图4中表示为参考偏移Tx 42。

因此，在所述示例中，指纹算法输出匹配测量和参考偏移Tx。根据本发明，在将测试偏移T₀(广义上讲，测试时刻信息)与参考偏移或参考时刻信息相比较中，使用指纹检查算法的这种属性。因为测试指纹是从基本信号的特定时刻的段42中推导出的，所以先前已知测试偏移T₀。

在图4所示的不同情况的第一种情况44中，将其应用于所选示例，可发现，测试偏移T₀等于参考偏移Tx。这意味着，基本信号与参考信号具有相同的开始。之后，前进到其它情况45和46，其中测试信号与参考信号或基本信号不匹配，即与从中推导出测试指纹的测试信号相比，存在基本信号的加长或截短。

在测试信号直接就是参考信号的摘选的简单情况下，情况如下：参考信号Sr的长度为例如200秒。作为测试信号St，选择参考信号的摘选42，摘选42在42秒处开始(参考时刻)，并且长度(Tt)为10秒。现在以基于图3所示的方式，根据两个信号来计算指纹。然而，通常，也可以任意已知方式来计算指纹，只要指纹具有与从其中计算出该指纹的信号的时程相对应的时程。利用该指纹，也可能利用存储在参考指纹数据库中的其它指纹，除了上述与参考信号Sr的关联之外，音频指纹系统将提供大约82秒的时间偏移T_off，作为如图4所示的处理中的其它信息。

图8示出了终端用户80与服务提供商81之间的相互影响。例如，服务提供商81是具有数据库的服务器，该数据库如图7所示，并在下面将继续讨论。另一方面，终端用户80具有立体声音乐片段82，并想要使用服务提供商的服务，从中产生多通道5.1音乐片段83。为此，终端用户80具有客户端程序84，在图8所示的实施例中，客户端程序84首先向服务提供商81发送特定立体声音乐片段的参考指纹85。

服务提供商81具有如图7所示的包括多个列/条目的数据库。在第一列71中，有多个标识ID_i、ID_i+1、ID_j-1，其中这些标识可以是先前已经存储在图7的数据库中的立体声音乐片段的参考指纹。服务器81接收参考指纹85，并将其与列71中的条目相比较，在充分匹配时，断言参考指纹85所来源于的立体声音乐片段是数据库中通过标识ID_j所知的音乐片段。

在用户想要具有多通道扩充数据的本发明应用的示例中，在匹配之后，数据库访问与标识ID_i相关联的多通道扩充数据，在图7所示的情况下，该数据可存在于数据库的列72中。此外，例如，也可访问列73中的基本数据的至少一个指纹，其来源于列72中的多通道扩充数据所属的基本数据。

在实施例中，列72中的多通道扩充数据所属的基本数据是理想的，或者至少是参考指纹85所来源于的立体声音乐片段的精确定义的版本。响应于参考指纹请求85，服务器则如图8中86处所示的，从列72中，提供多通道扩充数据，以及与多通道扩充数据相关联的一个(优选地为至少两个)测试指纹。

终端用户处的客户端程序84接收多通道扩充数据和测试指纹86，基于参考数据中的参考时刻，确定参考时刻信息，其中，在这种情况下，参考数据与基本数据相同，即与最初从客户端程序发送来的参考指纹85的立体声音乐片段相同。为此，客户端程序84使用一个或多个测试指纹，并执行基于图4所示的方法。基于参考时刻信息的确定结果，客户端程序84然后优选地处理附加数据，以获得处理数据。使该处理多通道扩充数据适应所考虑的立体声音乐片段82。因此，最终可同步地再现基本数据82和扩充数据72的数据信号。

如基于图8所示的，应用本发明的一个场景包括服务经由因特网给音乐爱好者提供其已有立体声音乐片段到多通道格式5.1版本的扩充。为此，服务提供商从音乐片段的多通道版本中产生相应立体声版本的多通道附加数据(图7中的列72)，然后在图7所示的数据库中使这些数据准备好被终端用户获取。

音乐爱好者(终端用户80)然后获得附加数据(例如在PC上)，以能够执行对多通道技术的扩充。终端用户所拥有的程序然后从服务提供商的服务器加载多通道附加数据，打开已有的音乐数据，添加多通道附加数据，然后将两者存储在文件中，该文件现在不再仅适用于立体声放大器，而且适用于5.1放大器。因此除了其立体声版本，音乐爱好者还具有特定音乐片段的多通道版本，而服务提供商接收对此的付费，而不必传输终端用户处已经存在的数据，例如从终端用户发送到服务器然后发送回来。

接下来，基于图1，来研究使附加数据和基本数据同步的本发明设备，在例如图8所示的场景中，该设备可在终端用户的PC上的客户端程序中完全实现。本发明的设备用于使附加数据和基本数据同步，其中附加数据和基本数据具有已定义的时程，并包括可同步地再现的数据信息。首先，该设备包括装置10，用于提供指向测试数据的测试时刻的、测试数据的测试指纹。

装置10的功能之前是可能以明文执行的终端用户想要具有多通道扩充数据的片段的通信85或通常是识别。这里，用户精确地识别其片段，从而如图7所示，访问数据库以在列71中找到正确的标识，并用显式的信令替换。

另一方面，优选地，为了给终端用户提供最大的便捷性，客户端程序可具有指纹处理器，而不需要用户关心产生用户最终想要具有作为多通道音乐片段的立体声音乐片段的参考指纹。在该功能之前，如由装置10所提供的，优选地在音频指纹系统的辅助下进行音频基本数据的识别。利用此，可以进行音频基本数据与扩充数据的关联。在此关联之后，实现了音频基本数据和扩充数据唯一彼此关联，并且现在仍然必须进行一组音频基本数据与一组扩充数据的正确时间同步匹配。

装置10提供给确定参考时刻信息的装置11的、测试指纹所指向的测试数据可以是附加数据本身，或者是基本数据或从附加数据或基本数据推导出的数据。优选地，测试数据是用于产生图7数据库的列72中的多通道扩充的理想版本的基本数据。用户想要通过附加数据来更新的基本数据是理想基本数据的现实版本，即用户已有的版本，相对于从中推导出测试指纹的理想版本已经有所改变。

这种改变可以是有损编码、质量劣化，例如通过从模拟再现装置(例如磁带记录器)中记录或者从扩音器中记录等。其它处理是在开始或结尾处的基本数据的截短或拉伸/缩短基本数据等。

然而，测试数据也可以是附加数据本身。如果例如对于作为基本数据的立体声信号，要发送作为附加数据的中央通道，则这是有利的。因此，中央通道与原始立体声信号的左和右通道非常类似。因此，如果包含扩充数据的指纹作为测试指纹，则装置11非常可能能够确定正确的参考时刻信息。但是，测试数据也可能是从附加数据或基本数据中推导出的。在这种情况下，测试数据可以是基本数据或附加数据的编码版本。此外，测试数据可以是与随后考虑中的实际音频数据相当的参数表示，在使用例如BCC参数或IS参数形式的参数数据时，仅必须进行简单参数解码，以便从一种数据表示变为另一种数据表示。

然而，对于下面的说明，为了清楚的说明，假设测试指纹是基本数据的理想版本的指纹，即多通道数据(如图7中列72所示)实际所属(即从中推导出)的基本数据的指纹。

为了使图7所示的数据库较小，仅将理想基本数据的指纹而不是基本数据本身存储在数据库中。当然，图7中的数据库还可包括完整的基本数据，仅在请求时，根据数据库中存在的理想基本数据来计算指纹，并将其发送到终端用户。然而，数据库仅包括多通道扩充数据和基本数据的测试指纹的实施方式产生存储节省的数据库，还可更快地响应用户请求，因为其不必分离地计算指纹。

用于确定参考时刻信息的装置11提供取决于参考数据中的参考时刻的信息，其中，一般而言，参考数据是测试指纹不是从其来源的数据。对于确定参考时刻信息，装置11使用装置10所提供的测试指纹。为此，如图1所示，装置11还获得实际立体声信号，即用多通道数据“丰富了”基本数据。多通道数据通常是指图1中的参考数据。

在本发明的优选实施例中，将参考时刻信息和测试时刻信息或者多通道扩充数据，或者一般而言，将附加数据提供给装置12。装置12用于使用参考时刻信息和取决于测试指纹所指向的测试时刻的测试时刻信息，处理附加数据。在输出侧，用于处理基本数据以及附加数据的装置12提供所处理的数据，然后使之可供再现装置13用于例如在输出侧产生5.1声音。

要指出，基本数据(即实际参考信号)可选地可通过截短、加长、拉伸/缩短等来处理。在这种情况下，所处理的数据是处理的基本数据(参考数据)，而不涉及附加数据。当然，还可进行混合处理，即处理基本数据和附加数据两者，只要处理装置12执行附加数据和基本数据的处理，从而可基于处理数据执行数据信息的同步再现。

如已经描述的，处理的数据可以是新的5.1文件，或者同步的数据可仅包括文件中的处理的基本数据和另一文件中的未处理的附加数据，或者一个文件中的未处理的基本数据和另一文件中的处理的附加数据，或者各自文件中的处理的基本数据和处理的附加数据。在分离文件的情况下，再现装置13形成用于在相应放大器的控制之前合并这两个文件。

然而，在本发明的优选实施例中，仅处理附加数据，通过处理，形成了完全新的文件，同时该文件中包含了完整的数据信息，即以同步方式进行。

图2示出了客户端程序84和服务器程序81之间的通信的优选实施例。

在第一步骤20中，客户端程序根据最后要变成多通道信号的实际立体声信号，产生参考指纹。

在步骤21中，将该参考指纹从客户端发送到服务器。在步骤22中，服务器接收参考指纹，并如结合图7所述的，例如通过数据库搜索，识别理想的立体声信号。

接下来，在步骤23中，服务器访问其数据库，并将最终要发送的扩充数据提供给客户端程序。

在步骤24中，服务器产生一个或优选地两个属于扩充数据的理想音频信号的测试指纹。还可通过服务器自身中的实际指纹计算，或者优选地通过访问所完成的测试指纹所在的数据库的列73，进行步骤24中的产生。

在步骤25中，优选地，将这两个测试指纹提供给客户端。在步骤26，图1的装置11然后积极地确定取决于参考数据中的参考时刻的参考时刻信息。优选地，参考时刻信息是缩短/拉伸因子(SS因子)和参考偏移。

在步骤27中，客户端然后激活其处理装置，以便根据SS因子来拉伸或缩短扩充数据，并且如果需要，还执行开始或结尾处的附加数据的剪切。

在步骤28中，在本发明的优选实施例中，客户端然后产生例如5.1环绕格式的多通道文件，并通过图1的再现装置13，再现该文件。

下面，根据图4，示出图1的处理装置12的第一功能，其包括确定音频基本数据的截短和音频基本数据相对于扩充数据的相对时间偏移。一旦确定了该截短，则通过执行截短，来处理扩充数据。图4所示的测试偏移t₀是指测试指纹相对理想版本的基本数据的偏移，即相对于图7的列72中的多通道扩充数据所涉及的理想版本的立体声数据的偏移。

如在图4的情况44中所述和所示的，如果测试偏移t₀等于装置11所确定的参考偏移t_x，则不必执行扩充数据的处理。然而，如果确定测试偏移t₀小于参考偏移t_x，则可见，基本信号太长。在实际应用场景中，这意味着用户使他们的实际基本信号太长，即在开始处添加了理想基本数据中不包含的暂停。在这种情况下，如图4中45处所示的，必须填补附加数据。可通过多种方法，例如通过插入零或通过插值、预测等，来执行该填补。

如果装置11发现确定参考偏移t_x小于测试偏移t₀，即如果发现图4中的情况46，这意味着基本信号太短，即用户在记录中有意或无意地截短了基本信号。在这种情况下，必须通过在开始处将附加数据剪切两个偏移之间的相应差值，来使附加数据适应该情况。

下面根据示例来示出该情况。将音频基本数据当作(一个)参考信号(长度T_r)，将扩充数据或以时间同步方式呈现的相应的音频数据当作(一个)测试信号(长度T_r)。实际上，使用在时刻T_x处开始并覆盖y秒长度的测试信号的指纹。如果利用音频指纹系统的有关技术，将测试和参考指纹相比较，则利用与测试指纹相对参考指纹所具有的偏移有关的所获取声明，做出与在音频信号的开始处缺少数据有关的唯一声明。如果偏移精确地等于t_x，则既没有截短也没有加长音频基本信号。如果偏移小于t_x，则音频基本信号截短了t_x-T_off。如果偏移大于t_x，则音频基本信号加长了T_off-t_x。

利用该措施，在音频基本信号的开始处辨别出“截短”或“加长”意义上的长度改变(如上面所定义的)。然而，通过仅确定时间偏移，就确定了扩充数据与音频基本数据的时间同步连接点。

测试和参考信号的整个长度已知或可根据已有音频数据来确定，例如通过利用各个信号固有的采样频率来确定。利用与相对时间偏移有关的信息，因此可知参考信号与理想测试信号相比是否在实际基本信号的结尾处截短/加长了。在这种情况下，处理装置12还形成用于相应地对该情况做出反应，以通过预测来插值或填充，或者通过剪切或去除扩充数据的结尾处的特定时间长度的特定段来截短。

要指出，在开始或结尾处的截短/加长不必删除相应的值，而是，与此有关的截短或加长可以是在将附加数据与基本数据合并时或在再现时通常不考虑附加数据中要去除的数据值。

下面，根据图5，来研究音频基本数据的缩短/拉伸因子(SS因子)的确定。图5在50处示出了立体声信号，作为参考信号或音频基本信号的示例。在图5中，在52处示出了相应的理想立体声信号或测试信号，从该信号推导出例如图7的列72中的多通道扩充数据的附加数据。为了计算缩短/拉伸因子，在本发明的优选实施例中，确定包括缩短/拉伸因子的参考时刻信息的装置获得第一测试指纹和第二测试指纹。理想立体声信号中由第一测试指纹扫过的时间范围由图5中的51a表示。类似地，第二测试指纹所包括的理想立体声信号的时间部分由51b表示。此外，第一测试指纹与测试时刻t_a有关，而第二测试指纹与测试时刻t_b有关。t_b和t_a之间的距离表示为ΔT_test。

图1中确定参考时刻信号的装置11使用第一测试指纹，确定第一参考偏移Ta_off，以及第二测试指纹的第二参考偏移，作为参考时刻信息，其中该第二参考偏移表示为Tb_off。如果立体声信号中ΔT_ref和ΔT_test处的两个偏移之间的时间差同样大，则出现情况53，其中缩短/拉伸因子SS等于1。因此，未发生实际立体声信号(即参考信号或基本数据)的拉伸/缩短。然而，如果缩短/拉伸因子大于1，则出现情况54，这意味着拉伸了实际立体声信号。因此，也必须将附加数据拉伸相同的因子SS。然而，如果缩短/拉伸因子SS小于1，则出现情况55，这表示实际立体声信号的缩短。因此，作为对确定了实际立体声信号的缩短的响应，处理装置12在这种情况下还执行附加数据(例如多通道扩充数据)的缩短。

利用在时刻t_a处开始的测试信号的指纹，成功确定了时间偏移Ta_off。然后，利用在时刻t_b处开始的测试信号的指纹，进行时间偏移Tb_off的确定。在实际应用中，指纹的持续时间也许小于t_b-t_a。但是这也不一定(指纹的交迭)。测试信号中两个测试点之间的时间差已知或给出为ΔT_tost＝t_b-t_a。对于参考信号，这可根据时间偏移ΔT_ref＝Tb_off-Ta_off来计算。缩短/拉伸因子SS则结果是SS＝ΔT_rel/ΔT_test。

如果SS＝1，则未出现音频基本数据的缩短/拉伸，则关于此，以未改变的方式接收扩充数据。如果SS<1，则出现了音频基本数据的缩短，则必须用相同的SS来使扩充数据适应。如果SS>1，则出现了音频基本数据的拉伸，则必须用相同的SS来使扩充数据适应。

最后，要指出，使用相应音频指纹的方法是优选的，因为即使音频基本数据在信号处理期间在特定界限内改变了(例如由于有损编码/解码或例如通过从模拟再现装置中记录而产生的有意或无意的质量劣化等)，对参考时刻信息的确定和对取决于参考时刻信息的附加数据的处理仍然起作用。

下面，根据图6，再次示出图1的装置11和图1的装置12的功能的优选顺序。装置11首先确定与基本数据的拉伸/缩短有关的信息，作为参考时刻，并通过与确定的缩短/拉伸因子SS相乘，执行附加数据AD的缩短/拉伸。这里，首先获得所处理的附加数据AD′。之后，在开始处将首先处理的附加数据AD′剪切掉部分A，其中部分A如(图6中)2处所示地确定。利用此，获得另一个处理的附加数据AD″。

之后，在结尾处将附加数据AD″剪切掉部分E，部分E如图6所示地计算(2.3)。利用此，最终获得处理的附加数据AD″′。然后，在优选实施例中，在该序列的结尾处，将基本数据和处理的附加数据AD″′合并到文件中，然后从传统的多通道再现装置播放该文件。

下面，基于数值示例来示出该序列。客户端程序计算立体声音乐片段的参考指纹，并经由因特网连接，将其发送到服务提供商的服务器。这同样识别了音乐片段，并向客户端程序发送了立体声音乐片段的多通道扩充和点60s和120s的两个测试指纹(每个长度均为15s)。客户端程序通过应用音频指纹的算法，确定两个测试指纹的时间偏移。根据时间偏移值之差，缩短/拉伸因子确定为1.03。相应地将其应用于多通道扩充数据。60s点处的测试指纹的时间偏移的计算产生57.3s。因此，必须在开始处将多通道扩充数据截短(60*1.03-57.3)s。最后，如果需要，还进行截短。在多通道扩充数据的这些改变之后，将其添加到立体声基本数据，并作为新的多通道音频文件来存储。

本发明的优选应用包括将如MP3数据的已有音频数据新近扩充为如MP3环绕的多通道格式。但是本发明还可应用在要以时间同步的方式将附加数据添加到基本数据时，而与基本数据是否已经存在以及稍后要使附加数据同步的事实无关。本发明的概念还可以基于本发明的同步方法，根据一个地方的基本数据来产生附加数据、分离处理基本数据和附加数据、以及将基本数据和附加数据合并到另一地方。

取决于条件，本发明的方法可以硬件或软件实现。实现可以是在数字存储介质上，尤其是在具有电可读控制信号的、能够与可编程计算机系统进行交互来执行方法的软盘或CD上。通常，本发明还包括具有存储在机器可读载体上的程序代码的计算机程序产品，用于在计算机上执行该计算机程序产品时，执行该方法。换言之，本发明还可实现为具有程序代码的计算机程序，用于在计算机上执行该计算机程序时，执行该方法。

Claims

1.一种用于使附加数据和基本数据同步的设备，附加数据和基本数据定义了时程并包括可一起再现的数据信息，所述设备包括：

提供装置(10)，用于提供与测试数据的测试时刻有关的测试数据的测试指纹，测试数据是附加数据或基本数据，或者测试数据取决于附加数据或基本数据；

确定装置(11)，用于使用测试指纹来确定取决于参考数据中的参考时刻的参考时刻信息(tx，SS)，参考数据是测试时刻指纹不来源于其中的数据；以及

处理装置(12)，用于使用参考时刻信息和取决于测试时刻的测试时刻信息(t₀)来处理附加数据或基本数据以便获得处理数据，其中，形成所述处理装置(12)，以便处理附加数据或基本数据，以便能够基于处理数据来执行数据信息的同步再现。

2.根据权利要求1所述的设备，其中，形成测试指纹，以便该测试指纹具有与从其中推导出所述测试指纹的数据的时程相关联的时程，以及

其中，形成确定装置(11)，以便从参考数据中获得参考指纹，该参考指纹具有取决于参考数据的时程的时程，以及

其中，还形成确定装置(11)，以便针对测试指纹和参考指纹的多个时间偏移，使测试指纹与参考指纹相关联，并用于在参考指纹与测试指纹最大匹配处确定相关联的时间偏移，作为时刻信息。

3.根据权利要求2所述的设备，其中，测试指纹包括比参考指纹所包括的参考信号的时间长度更短的测试信号的时间长度。

4.根据权利要求1所述的设备，其中，基本数据是音频数据，其中，附加数据是与基本数据相关联的时间音频数据或参数音频数据，

其中，形成提供装置(10)，以便提供从附加数据中推导出的测试指纹，

其中，形成确定装置(11)，以便使用参考指纹和基本数据来确定参考时刻信息，以及

其中，形成处理装置(12)，以便处理附加数据以获得处理数据。

5.根据权利要求1所述的设备，其中，附加数据包括时间采样或参数信息形式的、基本数据中未包含的附加数据。

6.根据权利要求5所述的设备，其中，所述附加数据包括BCC参数、ICLD、ICTD或ICC参数数据、表示基本数据中存在或不存在的波段的波段数据、比基本数据的缩放层数更高的缩放层或者用于增强基本数据的所选部分的质量增强数据。

7.根据权利要求1所述的设备，其中，形成处理装置(12)，以便用于执行时间缩短/拉伸、在数据的时间开始或时间结尾处剪切、或者在数据的时间开始或时间结尾处产生数据，以便获得处理数据。

8.根据权利要求1所述的设备，其中，基本数据表示音频信号的实际版本，

其中，形成确定装置(11)，以便获得与附加数据相关联的音频数据的理想版本的测试指纹，

其中，形成处理装置(12)，以便处理附加数据，使所述附加数据与实际基本数据(10)所表示的音频信号的实际版本相关联。

9.根据权利要求1所述的设备，其中，形成提供装置(10)，以便产生同与所述一个测试时刻间隔预定时间距离的另一测试时刻相关联的另一测试指纹，

其中，形成确定装置(11)，以便使用所述另一测试指纹来确定另一参考时刻信息，其中，另一参考时刻与所述一个参考时刻相距时间参考距离，

其中，形成处理装置(12)，以便基于测试距离和参考距离来计算拉伸/缩短因子，并使用该拉伸/缩短因子，在时间上拉伸或缩短附加数据或基本数据。

10.根据权利要求9所述的设备，其中，形成处理装置(12)，以便如下计算缩短/拉伸因子：

SS＝ΔT_ref/ΔT_test，

其中，ΔT_test是所述一个测试时刻和所述另一测试时刻之间的时间差，ΔT_ref是第一参考偏移Ta_off与第二参考偏移Tb_off之间的时间差，其中在第一测试指纹与参考信号相关联时获得第一参考偏移Ta_off，在所述另一测试指纹与参考信号相关联时产生获得第二参考偏移Tb_off。

11.根据权利要求1所述的设备，其中，形成确定装置(11)，以便确定参考时刻相对于参考数据的时间开始的时间参考偏移，作为参考时刻信息，以及

其中，形成处理装置，以便根据测试时刻和测试数据的时间开始之间的测试偏移以及参考偏移，在附加数据或基本数据的开始处，从附加数据或基本数据中去除前导部分(A)。

12.根据权利要求11所述的设备，其中，形成确定装置(11)，以便确定拉伸/缩短因子，相对于从其中推导出测试指纹的信号，将参考信号拉伸或缩短了所述拉伸/缩短因子，以及

形成处理装置(12)，以便用拉伸/缩短因子来加权测试偏移，以便前导部分还取决于拉伸/缩短因子。

13.根据权利要求1所述的设备，其中，形成处理装置(12)，以便根据在开始处截短或拉伸或缩短的基本数据或附加数据的时间长度，在基本数据或附加数据的结尾处，去除去除部分(E)。

14.一种服务器设备，包括：

用于接收基本数据的参考指纹(18)的装置(81)；

用于基于参考指纹来识别基本数据的装置(71)；

用于将可获取版本的基本数据的测试指纹发送到服务器设备的装置(25)，以及

用于发送与基本数据相关联的附加数据的装置(23)。

15.一种客户端设备(84)，包括：

发送装置(21)，用于发送基本数据的参考指纹；

接收装置，用于接收与测试数据的测试时刻相关联的测试数据的测试指纹，测试数据是附加数据或基本数据，或者取决于附加数据或基本数据以及与基本数据相关联的附加数据；

确定装置(11)，用于使用测试指纹来确定基于参考数据中的参考时刻的参考时刻信息(tx，SS)，参考数据是测试时刻指纹不来源于其中的数据；以及

处理装置(12)，用于使用参考时刻信息和取决于测试时刻的测试时刻信息(t₀)来处理附加数据或基本数据以便获得处理数据，其中，形成处理装置(12)以便处理附加数据或基本数据，从而能够基于处理数据来执行数据信息的同步再现。

16.根据权利要求15所述的客户端设备，其中，形成处理装置(12)以便仅处理附加数据以获得处理数据，并将处理数据添加到基本数据上以获得包括数据信息的结果数据集。

17.根据权利要求15所述的客户端设备，还包括：

用于使用处理数据来再现数据信息的再现装置(13)。

18.一种使附加数据与基本数据同步的方法，附加数据和基本数据定义了时程并包括可一起再现的数据信息，所述方法包括步骤：

提供(10)与测试数据的测试时刻有关的测试数据的测试指纹，测试数据是附加数据或基本数据，或者测试数据取决于附加数据或基本数据；

使用测试指纹来确定(11)取决于参考数据中的参考时刻的参考时刻信息(tx，SS)，参考数据是测试时刻指纹不来源于其中的数据；以及

使用参考时刻信息和取决于测试时刻的测试时刻信息(t₀)来处理(12)附加数据或基本数据以便获得处理的处理数据，从而能够基于处理数据来执行数据信息的同步再现。

19.一种在服务器设备中使用的方法，包括步骤：

接收(81)基本数据的参考指纹；

基于参考指纹来识别(71)基本数据；

将可获取版本的基本数据的测试指纹发送(25)到服务器设备，以及

发送(23)与基本数据相关联的附加数据。

20.一种在客户端设备(84)中使用的方法，包括步骤：

发送(21)基本数据的参考指纹；

接收与测试数据的测试时刻相关联的测试数据的测试指纹，测试数据是附加数据或基本数据，或者取决于附加数据或基本数据以及与基本数据相关联的附加数据；

使用测试指纹来确定(11)基于参考数据中的参考时刻的参考时刻信息(tx，SS)，参考数据是测试时刻指纹不来源于其中的数据；以及