CN101002254A

CN101002254A - 音频信号的鲁棒分类设备和方法、建立并操作音频信号数据库的方法和计算机程序

Info

Publication number: CN101002254A
Application number: CNA2005800253358A
Authority: CN
Inventors: 埃里克·阿拉芒谢; 于尔根·赫勒; 奥利弗·赫尔穆特; 托森·卡斯特纳; 马库斯·克雷默
Original assignee: M2any GmbH
Current assignee: M2any GmbH
Priority date: 2004-07-26
Filing date: 2005-07-21
Publication date: 2007-07-18
Anticipated expiration: 2025-07-21
Also published as: KR100896737B1; DE502005002319D1; WO2006010561A1; CY1107233T1; AU2005266546B2; JP4478183B2; PL1787284T3; US20060020958A1; KR20070038118A; ATE381754T1; CN101002254B; HK1106863A1; AU2005266546A1; CA2573364C; DK1787284T3; CA2573364A1; ES2299067T3; US7580832B2; SI1787284T1; JP2008511844A

Abstract

本发明涉及一种用于从音频信号中产生指纹信号的装置，包括：用于计算时间上连续的音频信号段的频带能量值以从音频信号中产生缩放后的能量值向量序列的装置(14)；用于对所述能量值进行缩放以获得缩放后的向量序列的装置(18)；以及用于对缩放后的向量序列进行时间滤波以获得表示所述指纹或可从所述指纹中导出的滤波后的序列的装置(22)。所述发明还可以产生对编码或传输信道相关的扰动具有鲁棒性的指纹，并特别适合移动电话应用。

Description

音频信号的鲁棒分类设备和方法、建立并操作音频信号数据库的方法和计算机程序

技术领域

本发明主要涉及一种对音频信号进行鲁棒分类的设备和方法、以及一种用于建立并操作音频信号数据库的方法，具体涉及一种用于对音频信号进行分类的设备和方法，其中产生并评估针对音频信号的指纹。

背景技术

近年来，多媒体数据材料的可用性越来越强。高性能计算机、宽带数字网络的可用性的强劲增长、高性能压缩方法和高容量存储介质为该增长做出了主要贡献。特别地，可用音频内容的数量有了很大增长。按照MPEG1/2-Layer 3标准(简称为MP3)进行编码的音频文件尤其得到了广泛的使用。

通常表示音乐的大量音频数据的出现，使开发能够对音频数据进行分类和查找特定音频数据的设备和方法成为必要。因为音频数据以各种格式呈现，由于例如有损压缩或通过遭受失真的传输信道进行传输，不能够在每一种情况下准确地重建音频内容，所以需要根据基于内容的特征化而不是根据值方面的表示来估计和/或比较音频信号的方法。

例如，用于对音频信号进行基于内容的特征化的方法的一个应用领域是：向音频信号提供元数据。这一点尤其与音乐有关。这里，可以为给定的音乐片段确定标题和表演者。这样，也可以确定附加的信息，例如与包含音乐标题的唱片有关的信息以及版权信息。

使用基于内容的特征化时，必须从音频信号的当前表示中提取出音频信号的特征。特别地，将音频信号与数据集相关联被证明是有利的，这个数据集是基于音频信号的音频内容而获得的，并且可以用于对音频信号进行分类、搜索或比较。这个数据集也被称作指纹(fingerprint)。

近年来，已经公布了大量用于对音频信号进行基于内容的索引的方法。通过这种设备，音乐信号或一般的声音信号可以根据预设属性而与特定的类别或模式相关联。这样，可以通过特定的相似性对声音信号进行分类。

下文将更加详细地描述对音频信号的指纹的主要要求。由于大量的音频信号可用，因而有必要用适度的计算代价来产生指纹。这减小了产生指纹所需的时间，如果不是这样，不可能实现大规模的指纹应用。另外，指纹不能占据过大的存储量。在多种情况下，需要在一个数据库中存储大量的指纹。特别地，可能要求将大量的指纹保存在计算机的主存储器中。这清楚地表明，指纹的数据量必须明显小于实际音频信号数据的数据量。另一方面，要求指纹是音频片段特有的。这意味着具有不同内容的两个音频信号必须具有不同的指纹。另外，对指纹的一个重要的要求是：表示相同音频内容的、但是彼此不同(例如由于失真)的两个音频信号足够相似，以便在比较中被识别为是属于共同的内容(belonging together)。典型地，这个性质被称作指纹的鲁棒性。在比较使用不同方法压缩和/或编码的两个音频信号的情况下，这是尤其重要的。此外，通过遭受失真的信道而发送的音频信号将会具有与初始指纹非常相似的指纹。

已经获知能够从音频信号中提取特征和/或指纹的多种方法。美国专利No.5,918,223公开了一种方法，用于对音频信息进行基于内容的分析、存储、检索和分割。音频数据分析创建了一组数字值，该组数字值也被称作特征矢量，可以用于对各个音频片段之间的相似性进行分类和分级。相对于内容而对音频信号进行特征化和/或分类所用的特征是：片段的响度、音调、声音的清晰度、音频片段的带宽和所谓的Mel频率倒谱系数(MFCC)。对每一块或每一帧的数值进行存储，并对其进行第一时间推导。据此来计算如平均值或标准差的统计量，为这些特征(包括第一推导)中的每一个特征计算统计量，由此来描述随时间发生的变化。这组统计量形成了特征矢量。因此，特征矢量是音频片段的指纹，并且可以存储在数据库中。

在2000年11月的IEEE Signal Processing Magazine的第12至36页中，作者为Yao Wang等的专刊“Multimedia Content Analysis”公开了一种对多媒体片段进行索引和特征化的相似构思。为了确保将音频信号与特定类别有效关联，已经开发出了多个特征和分类器。所提出的用于对多媒体片段的内容进行分类的特征是时域特征或频域特征。这些特征包括：音频信号形式的音量、音调和基频；频谱特征，如相对于总能量内容的频带能量内容、频谱曲线的截止频率及其它。除了与音频信号样本中所谓的每块的量有关的短时特征之外，还提出了与相对较长时间段的音频片段有关的长时量。通过形成各个特征的时间差而形成进一步的典型特征。由于数据速率仍旧过高，所以很少将逐块获得的特征直接传递来进行分类。进一步处理的普遍形式包括计算短时统计量。这包括：例如形成平均值、方差和与时间有关的相关系数。另一方面，这减小了数据速率，并增强了对音频信号的识别。

WO 02/065782描述了一种使指纹形成多媒体信号的方法。该方法基于从音频信号中提取出一个或多个特征。为此，将音频信号划分为段，每一段逐块和逐频带地进行处理。作为示例，将对功率密度谱的能量、音调(tonality)和标准偏差的逐频带计算进行论述。

另外，DE 101 34 471和DE 101 09 648公开了用于对音频信号进行分类的一种设备和方法，其中基于对音频信号的音调进行测量而获得指纹。这里，指纹使音频信号能够按照鲁棒和基于内容的方式分类。上述文档给出了在音频信号上进行音调测量的多种可能性。在每一种情况下，基于音频信号段向频谱域(spectral domain)的转换而计算音调。这样，能够为频带或所有频带并行地计算音调。该方法的缺点是：随着音频信号失真的增大，指纹不再能够提供足够的信息，因而不再能够以令人满意的可靠性识别音频信号。然而，失真发生在很多情况中，尤其是通过表现出低传输质量的系统传输音频信号时。当前，这种情况尤其出现在移动系统和/或高数据压缩的情况下。这些系统(如移动电话)主要被配置为仅以极差质量来双向传输语音信号和频繁传输音乐信号。这一点是通过可能对所传输信号的质量造成负面影响的其它因素(例如较差质量的麦克风、信道干扰和代码转换效应)而添加的。信号质量下降的结果是：识别性能相对于对信号进行识别和分类的设备而大幅度地降低。研究表明，尤其是当使用根据DE 101 34471和DE 101 09 648的设备和/或方法时，通过在保持音调识别标准(频谱平坦度测量)的同时改变系统，不能够显著地进一步改进识别性能。

可以说，用于对音频信号进行分类和/或用于形成音频信号指纹的已知方法通常不能满足对这些方法的需求。仍旧存在音频信号的鲁棒性与失真相对立的问题，并且还面临叠加在音频信号上的干扰。

在用于存储和发送音频信号的多种现有系统中，存在严重的信号失真和扰动，尤其是当使用有损数据压缩方法或受到扰动的传输信道时。无论何时要降低存储或发送音频信号所需的数据速率，都使用有损压缩。示例有根据MP3标准的数据压缩和与数字移动收发机一起使用的方法。在这两种情况下，由于信号尽可能地被粗量化以便进行传输，因而获得了较低的数据速率。音频带宽部分地受到了严重的限制。另外，抑制了由于被其它信号部分遮盖而人耳完全不能感知的、或感知程度仅仅非常小的信号部分。

对于当今普遍使用的移动语音传输应用，传输信道上的扰动或干扰非常频繁。时常地，尤其是当接收质量非常差时，由于所传输的音频信号上增大的噪声，这些干扰变得可以被注意到。另外，传输可能会在短暂的时间内完全中断，从而所发送的音频信号中较短部分完全丢失。在该中断期间，移动电话产生噪声信号，与音频信号的完全消隐相比，人类用户感知到所产生的噪声信号扰动较少。最后，扰动或干扰还会发生在从一个移动无线电小区切换到另一个期间。所有这些干扰效应一定不能表示出过强的对指纹的毁坏，以便仍旧能够以较高的可靠性水平来识别受到扰动的音频信号。

最后，音频信号的传输还受到音频部件的频率响应特性的影响。尤其是移动设备通常使用较小的和便宜的组件具有明显的频率响应，并因此使待识别的音频信号产生失真。

虽然即使当所述干扰和失真出现时，人类收听者也能够以较高的可靠性水平识别音频信号，但是当出现扰动时，对于利用传统的音频信号指纹的音频信号识别设备，音频信号的识别性能显著降低。

发明内容

本发明的目的是提供一种用于根据音频信号来计算更加鲁棒的指纹的构思。

这个目的通过以下内容而实现：根据权利要求1或25所述的用于从音频信号中产生指纹信号的设备和方法；根据权利要求26或27所述的用于对音频信号进行特征化的设备和方法；根据权利要求28所述的用于建立音频数据库的方法；根据权利要求29所述的基于音频信号数据库获得信息的方法；以及根据权利要求31所述的计算机程序。

本发明基于以下发现：在使用大体上未受到各种信号失真的影响的信号的特征的情况下，与音频信号相关联的指纹信号对于干扰是鲁棒的，并且可以类似形式为人类的声音感知所访问，即，所述指纹信号包括：频带能量，特别是缩放后的频带能量；对于例如无线信道的干扰的鲁棒性附加程度，这是通过对所述缩放后的频带能量的时间过程进行滤波而得到的。

人类听力是按照将音频信号细分(subdivide)为单独频带的方式来感知音频信号。因此，逐频带地确定音频信号的能量是有利的。因此，本发明的设备包括用于计算多个频带的能量值的装置。通过这种装置，能够以技术上和心理声学上的有用近似来表示音频信号的频谱包络。

另外，本发明基于以下发现：对多个频带的能量值进行缩放既与人类声音感知同步，又在技术上简化了对能量值的进一步处理，并且能够对传输信道的非最佳频率响应所导致的频谱信号失真进行补偿。即使当各个频带在其性能上得到提高或衰减时，人类声音感知也能识别音频信号。另外，收听者能够与音量无关地识别信号。用于缩放的装置摹仿了这种收听者的能力。对逐频带的能量值的重缩放对于技术应用来说也是有益的。

通过向逐频带的能量值施加滤波操作，能够最终以与人类声音感知相同的方式来抑制干扰。在这里，与传统的音频信号自身的滤波相比，对逐频带的能量值进行时间滤波更为有效，并且与传统装置相比，能够形成对信号干扰更加鲁棒的指纹。

通过将逐频带地确定多个频带中的能量值与对能量值进行缩放和滤波相结合的本发明设备，可以产生音频信号的鲁棒指纹信号，所述指纹信号具有较高有效性等级。

本设备的优点是，音频信号的指纹被调整为适合人类听力。影响指纹的不仅是基于纯粹物理、而且是本质上基于心理声学的特征。当应用本发明设备时，当收听者判断音频信号是相似的，音频信号将具有相似的指纹。指纹的相似性与人类收听者所判断的音频信号相似性的主观感知相关。

上述考虑的结果是一种用于根据音频信号而产生指纹信号的设备，能够对甚至表现出信号干扰和失真的音频信号进行识别和分类。特别地，对于噪声、信道中出现的干扰、量化效应和由于有损数据压缩而引起的伪像，所述指纹是鲁棒的。即使相对于频率响应而发生的失真也不会对使用本发明设备所产生的指纹造成严重影响。因此，用于产生与音频信号相关联的指纹的本发明设备非常适合与例如根据GSM、UMTS或DECT标准的移动电话等移动通信设备结合使用。

在优选实施例中，能够以大约每分钟1k字节的音频材料的数据速率来产生紧凑(compact)指纹。这种紧凑性允许在电子数据处理设备中对指纹进行非常有效的进一步处理。

可以对用于形成音频信号的指纹的本方法的细节做出进一步的改进，以实现额外的优点。

在优选实施例中，通过快速傅立叶变换对音频信号段执行离散傅立叶变换。随后，对傅立叶系数的量平方并逐频带地累加，以获得频带的能量值。这种方法的优点是，能够以低代价来计算频带中存在的能量。另外，MPEG-7标准中已经包含了相应的操作，因此不需要分离地实现。这减小了开发成本。

在其它优选实施例中，频带具有可变的带宽，带宽在高频部分变得更大。这个过程符合人类听力和心理声学上的发现。

在其它优选实施例中，用于缩放的装置包括：用于获得对数的装置以及设置在用于获得对数的装置下游的、用于抑制稳定分量的装置。因为以低代价同时实现了对数归一化并消除了频带中信号电平的影响，所以这种设置是非常有利的。获得对数时，时间上恒定的信号电平的变化仅需要稳定分量。可以通过适合的设置以相对简单的方式来抑制这个稳定分量。顺便提及，对数归一化非常适合人类的响度感知。

附图说明

下文将参考附图对本发明的优选实施例进行更加详细的描述，其中：

图1示出了用于从音频信号中产生指纹信号的本发明设备的框图；

图2示出了用于从音频信号中产生指纹信号的本发明设备的另一实施例的详细框图；

图3示出了用于建立音频数据库的方法实施例的流程图；以及

图4示出了用于根据音频信号数据库获得信息的方法实施例的流程图。

具体实施方式

图1示出了用于从音频信号中产生指纹信号的本发明设备的框图，该设备整体上由10表示。将音频信号12作为输入信号馈入该设备。在第一级14中，计算频带的能量值，之后能够将该能量值作为能量值矢量16使用。在第二级18中，对能量值进行缩放。之后能够使用多个频带的缩放后的能量值矢量20。在第三级22，对这个矢量进行时间滤波。多个频带的缩放后和滤波后的能量值矢量24作为所述设备的输出信号。

图2示出了用于从音频信号中产生指纹信号的本发明设备实施例的详细框图，该设备整体上由30表示。通过脉冲编码调制的音频信号32出现在所述设备的输入端。这个信号被馈入MPEG-7前端34。在MPEG-7前端的输出处有矢量序列36，其分量表示各个频带的能量。将这个矢量序列馈入用于处理音频频谱包络的第二级38。在第二级38的输出处有矢量序列40，矢量序列40整体表示音频信号的指纹。MPEG-7前端34是MPEG-7音频标准部件，并且包括用于对PCM编码的音频信号32进行加窗的装置50。在加窗装置50的输出处有长度为30ms的音频信号段序列52。这些序列被馈入装置54，装置54通过离散傅立叶变换来计算这些段的频谱，在装置54的输出处存在傅立叶系数56。最后/最终装置58形成音频频谱包络(ASE)。这里，对傅立叶系数56的量(amount)进行平方运算并逐频带累加。这与计算频带能量相对应。频带的宽度随着频率的增大而增大(对数频带分类)，并且可以由另外的参数确定。因此，对于每一段得到矢量36，其中的项矢量矢量表示长度为30ms的段的频带能量。用于计算音频段的逐频带的频谱包络的MPEG-7前端是MPEG-7音频标准(ISO/IEC JTC1/SC29/WG11(MPEG)：“MultimediaContent Description Interface-part 4：Audio”，InternationalStandard 15938-4，ISO/IEC，2001)部件。

同样，使用MPEG-7前端所获得的矢量序列不适于音频信号的鲁棒分类。因此，需要对音频频谱包络进行处理的另外的级来对作为特征的矢量序列进行修改，从而这个特征获得了更强的鲁棒性和更低的数据速率。

用于对音频频谱包络进行处理的装置38包括作为第一级的、用于对逐频带能量值36的取对数的装置70。之后，将已取过对数的能量值72馈入低通滤波器74。低通滤波器74的下游是用于抽取能量值的数目的装置76。把抽取后的能量值序列78馈入高通滤波器80。最后，经过高通滤波后的频谱能量值序列82被移交到信号自适应量化器84。最终，处理后的频谱值序列40出现在信号自适应量化器84的输出处，序列40整体表示指纹。

基于对从音频信号中产生指纹信号的设备的结构所进行的描述，将详细描述操作模式。从音频信号中产生指纹信号的本发明设备的基础是对音频信号段的多个频带中的频带能量的计算。这与确定音频频谱包络相对应。在所示的实施例中，这是通过MPEG-7前端34实现的。优选地，在这个实施例中，频带宽度随着频率的增大而增大，而且频带能量值作为在MPEG-7前端34的输出处的频带能量值矢量36而可用。这种信号处理与人类听力相对应，在人类听力中，感知被划分为多个频带，这些频带的宽度随着频率的增大而增大。因此在这方面，MPEG-7前端34摹仿了人类听觉。

在进一步的处理步骤中，对能量值逐频带地进行归一化。用于归一化的装置包括两级：用于对能量值取对数的装置70以及高通滤波器80。在这里，取对数完成(fulfil)了两个任务。一方面，取对数摹仿了人类对响度的感知。特别地，对于高音量或高等级的响度来说，当音频性能刚好加倍时，人类的主观感知增加特定量。用于取对数的装置70恰好表现出这种行为。另外，用于取对数的装置70具有的优点是：减小了频带能量值的数值范围，这能够使用从技术角度来看明显有利数字(figure)计数方式。特别地，不需要使用浮点计数法，而可以使用定点计数法。

另外应当提到的是，不应按照严格的数学意义来理解这里的“取对数”。特别是对于较小的频带能量来说，取对数将导致出现具有非常大量的数值。从技术的角度来看，这既没有益处，也不符合人类听觉。另一方面，对于较小的能量值，使用近似的线性特性或至少设置数值范围的下限是有用的。这对应于人类感知，即，存在对较小音量的听力阈值，而对较高音量具有对声功率的粗略对数感知。因此根据经验可以确立的是，通过取对数将表现出非常大的数值范围的能量值动态变化压缩为小得多的数值。因此，按照上文描述的取对数的操作近似对应于特定响度形成。对数的底的选择是无关紧要的，这是因为对数的底仅与乘性常数(multiplicative constant)相对应，而这个乘法常数可以由进一步的信号处理而补偿，尤其是通过最后的量化来补偿。

除了压缩动态范围和执行对人类听力的适应之外，缩放还完成了从音频信号中与音频信号的等级无关地形成指纹的任务。为了便于理解，考虑指纹可以从初始可用的未毁坏信号和通过传输信道而传输的信号中形成。这里，可能出现响度或等级的变化。另外，在通过具有非恒定频率响应的传输路径进行传输中，各个频率分量衰减或放大。因此，具有相同内容的两个信号可能表现出不同的频谱能量分布。在下文中，将假定两个信号之间的频率响应失真与时间无关。还假定频带内的失真近似恒定。在这种情况下，可以假定预定频带中的能量仅相差一个乘性常数，对于两个具有相同音频内容的信号，该常数在时间上是恒定的。取对数操作将时间上恒定的乘性常数映射到时间上恒定的加性项。因此，在对能量取对数后，使两个信号不同的放大和/或削弱常数表现为特征值中的恒定加性项。特别地，通过应用抑制稳定分量的高通滤波器80，将加性项从信号中滤除。也可以使用其它的能够抑制稳定分量的滤波器。特别应当指出的是，在本设置中，这种适应操作对于每一个频带分别发生。因此，对每一个频带等级的归一化是独立的，而且可以对信号的频谱失真进行补偿。顺便提及，这与人类对频谱失真的音频信号进行识别的听觉能力相对应。

另外，在本实施例中，用于从音频信号中产生指纹信号的设备包括低通滤波器74。后者在时域中对频带能量值序列进行滤波。此外，分别对频带进行滤波。低通滤波是有益的，这是因为已取过对数的数值的时间序列包含待识别的信号分量以及干扰。低通滤波平滑了能量值的时间过程。因此，从频带的能量值序列中去除了快速变化的、多由干扰引起的分量。这改进了对乱真信号的抑制。

同时，通过低通滤波器74进行低通滤波，减小了要处理的信息量，尤其消除了高频分量。根据信号的低通特性，可以通过与低通滤波器74的下游相连的抽取装置76、并利用特定因子D对信号进行抽取，而不会丢失信息(“采样定理”)。这意味着仅有较小数目的采样用于频带能量。这里，以因子D减小了数据速率。

这样，低通滤波器74和抽取装置76的组合不仅允许通过低通滤波来抑制干扰，而且尤其能够抑制冗余信息，从而减少指纹信号的数据量。因此，抑制了对人类听觉无直接影响的所有信息。使用滤波器的低通频率来确定抽取因子。

最后，以信号自适应方式在量化装置84中对能量值进行量化处理是有利的。在该处理中，有限整数值与实际值的能量值相关联。根据可能的情况，量化区间可以是非均匀的，可以由信号统计量来确定。可选择地，对较小的数值使用较小的量化区间且对较大的数值使用较大的量化区间是有优势的。特别地，把高通滤波器80与量化装置84互相连接具有优点。高通滤波器80减小了信号值的范围。这允许以低分辨率进行量化。相似地，多个数值被映射到较小数目的量化步长上，这允许通过熵编码对量化后的信号进行编码，从而减小数据量。

另外，可以通过在预处理装置中形成信号的幅度统计量来实现信号自适应量化。由此获知哪个幅度值给出了信号中的最高频率。基于各个数值的相对频率来确定量化器的特性。对于频繁出现的幅度值选择细量化等级，而对信号中很少出现的幅度值和/或相关联的幅度区间使用较大的量化等级进行量化。这提供的益处是：对于具有预定幅度统计量的给定信号来说，能够实现具有最小可能误差(典型地作为误差行为或误差能量来测量)进行量化。与上述非线性量化形成对比的是，其中量化等级的幅度实质上与相关联信号值成比例，在信号自适应量化中，必须根据每一个信号来重新调整量化器，除非假定多个信号具有非常相似的幅度统计量。

也可以通过使用调整后的矢量量化器对矢量分量进行量化而实现对特征矢量的信号自适应量化。因此，还要隐含地考虑分量之间存在的相关性。

还可以通过在量化之前对信号进行线性变换，而不执行直接的矢量量化。优选地，按照确保变换后的矢量分量的最大去相关性来配置这个变换。可以按照主轴(main-axis)变换来计算这个变换。在这种操作中，信号能量典型地集中于第一变换分量中，从而可以忽略后面的值。这与维数的减小相对应。随后，对变换矢量进行标量量化。优选地，以对所有分量进行信号自适应的方式来执行这一步骤。

这样，已经描述了有助于从音频信号中产生指纹信号的设备的实施例。该设备表现的主要优点在于：一方面是较好的鲁棒性，这允许能够识别GSM编码的音频信号；另一方面是较小的调号(signature)大小。可以以大约是每分钟1k字节音频材料的速率来产生调号。对于大约4分钟的平均歌曲长度，这得到每首歌曲4k字节的调号大小。特别地，这种紧凑性能够增加单独计算机的主存储器中的参考调号数目。因此，在较新的计算机上的主存储器中可以毫不费力地容纳一百万个参考调号。

图2描述的实施例表示本发明的优选实施例。然而，在不背离本发明的本质思想的情况下，可以做出多种改变。

多个不同的装置可以用于确定频带能量。只要确保音频信号段的多个频带能量值在该装置的输出处可用，则可以用其他任何装置取代MPEG-7前端34可以。特别地，在这里可以改变频带分类。可以使用任合频带分类来取代对数频带分类，优选地使用适于人类听力的频带分类。也可以改变音频信号划分成的段的长度。为了保持较小的数据速率，优选至少10ms的段长。

多种方法可以用于对频带能量值进行缩放。例如，可以取近似对数，以取代上文实施例中提出的、在高通滤波之前的对频带能量取对数。另外，可以对取对数的装置的初始值的数值范围进行限制。这提供了如下优点：尤其对于非常小的能量值，取对数的结果在有限的数值范围中。特别地，还可以使用更适于人类响度感知的装置来取代用于取对数的装置70。特别地，这种改进的装置可以考虑到更低的人类听力阈值和主观响度感知。

另外，可以用总体能量对频带能量进行归一化。在这种实施例中，将各个频带中的能量值除以归一化因子，该因子要么是频谱总能量的测量，要么是所考虑的频带总能量的测量。在这种形式的归一化中，不需要执行高通滤波，而且不需要取对数。相反，每一个段的总能量是恒定的。这种方法是有利的，特别是在各个频带中仅存在非常小的平均能量时。这种归一化方法获得了不同频带中的能量比。对于某些音频信号，这可以表示重要特征，而且获得该特征是有利的。作为非毁坏的音频信号(即没有相对于频率响应而失真的音频信号)的结果，可以做出关于哪一种归一化是有利的的决定。例如在Y.Wang，Z.Liuand J.C.Huang：“Multimedia Content Analysis”，IEEE信号处理杂志，2000中提出使用总能量对频带能量进行归一化。

也可以执行局部频谱归一化。以下内容中描述了这种归一化：J.Soo Seo，J.Haitsma and T.Kalker的“Linear Speed-changeResilient Audio Fingerprinting”，Proceedings 1^st IEEE BeneluxWorkshop on Model Based Processing and Coding of Audio，Leuven，Belgium，2002。

可以使用多种方法对连续段的能量值进行时间平滑。在上述实施例中，使用了数字低通滤波器。另外，还可以计算能量值的调制频谱。这里，低频调制系数描述了频谱能量值的平滑过程。例如在S.Sukittanon and L.Atlas：“Modulation Frequency Features forAudio Fingerprinting”，IEEE ICASSP 2002，pp.1773-1776，Orlando，Florida，USA，2002中描述了使用调制频谱进行音频识别。相比较而言，通过计算滑动平均值，可以对连续段的能量值的时间过程进行平滑。由此根据特定数目的连续特征计算平均值。在MPEG-7标准中，例如，通过“可缩放序列”能够进行这种计算。然而，这种平滑具有的缺点是：在信号理论环境种，它可能遭受混叠现象(aliasing)。然而，可以通过具有适合维数的低通滤波器，在大多数部分上抑制这种效应。

另外，能够省去抽取级。这一点是有益的，尤其是在已处理的音频信号段非常长的情况下。在这种情况下，数据速率自身已经足够小，并且不再需要抽取。这种设置的优点是：在整个设备中，应用相同的数据速率从频谱能量值中导出指纹。这便于技术上实现，尤其是以计算机程序的形式。

高通滤波器80可以在较宽范围内变化。在一种非常简单的实施例中，分别使用两个连续值之差。这种实施例具有的优点是，从技术的观点来看它非常容易实现。

可以在较宽范围内对用于量化的装置84进行修改。这不是绝对必要的，可以在实施例中省去。这降低了本发明设备实现中出现的代价。另一方面，在其它实施例中，可以使用适应信号的量化装置，其中量化区间适应信号的幅度统计量。因此，信号的量化误差变得最小。矢量量化也可以适应信号和/或可以与线性变换相结合。

另外，能够将量化装置与进行高通滤波和/或形成差的装置相结合。在许多情况下，差的形成减小了要量化的信号的数值范围。强调能量值的改变，使时间上恒定的信号成为零。如果在足够大量的时间连续段中，信号表现出几乎不变的数值，那么差近似为零。因此，量化器的输出信号也为零。如果使用将较短符号与频繁出现的信号值相关联的熵编码对量化后的信号进行编码，那么可以在存储空间方面以最小开销来存储波形。

在其它实施例中，可以使用矢量量化器来替代对所处理的每一个频带的能量值单独进行量化的标量量化器。这种矢量量化器把整数索引值与包括所用频带(例如在四个频带中)的处理后的能量值的矢量相关联。现在，每一个矢量的能量值的结果仅是标量值。由此，当前的数据量小于对频带中的能量值分别进行量化的数据量，这是因为考虑了矢量内的相关性。

另外，可以使用如下量化形式：对于较大能量值，量化等级宽度大于对于较小能量值的宽度。结果是，即使对于较小的信号，也能够使用令人满意的分辨率进行量化。特别地，能够设计量化装置，从而对于较小和较大的能量值，最大相对量化误差的大小近似相同。

另外，在另一实施例中，可以改变处理装置的顺序。特别地，可以交换对能量值进行线性处理的装置。然而，将抽取装置直接设置在低通滤波器的下游是有利的。这种低通滤波和抽取的组合是有益的，因为可以最有效地避免由于下采样而引起的扰动影响。此外，为了能够抑制取对数时可能产生的稳定分量，必须把高通滤波器设置在取对数装置的下游。

从音频信号中产生指纹信号的本发明设备可以有利地用于建立并操作音频数据库。

图3示出了用于建立数据库的方法实施例的流程图。这里所描述的是根据音频信号产生新的数据集的方法。一旦该过程开始，则开始搜索第一自由数据集。随后，搜索是否存在要处理的音频信号。如果存在，那么产生与音频信号相关联的指纹信号，并将其存储在数据库中。另外，如果仍然存在关于音频信号的信息(称作元数据)，则也将其存储到数据库，并生成对指纹的交叉参考。到这里，完成了数据集的存储。在数据库应用中，将指针设置给最近的自由数据集。如果要对其它音频信号进行处理，则多次循环上述过程。如果不再有要处理的音频数据，则过程终止。

图4示出了用于根据音频信号数据库而获得信息的实施例的流程图。这个过程的目的是从数据库中获得与预定搜索音频信号有关的信息。在第一步，从搜索音频信号中产生搜索指纹。为此，使用按照本发明的设备和/或方法。随后，数据库中的数据集指针指向要浏览的第一数据集。然后从数据库中读出存储在数据库中的数据库条目的指纹信号。根据搜索指纹信号和读出的当前数据库条目的指纹信号，做出与音频信号相似性有关的声明。如果要对其它数据集进行处理，那么为其它数据集重复执行读出指纹信号和将读出的指纹信号与搜索指纹信号相比较的步骤。如果已经对所有要浏览的数据集进行了处理，则做出与搜索结果有关的声明，其中考虑针对每一个要浏览的数据集而做出的声明。

在优选实施例中，把用于浏览音频信号数据库的本发明方法扩展为包括输出属于音频信号的元信息(meta-information)。例如，与音乐相联系，这一点是有益的。利用音乐标题的给定部分，可以使用所述的方法浏览数据库。一旦识别出未知音乐标题与数据库中捕获的音乐标题具有足够的相似性，则可以输出存储在数据库中的元数据。这个数据可以包括：例如音乐的标题和表演者、与包含标题的唱片有关的信息以及与供应源和版权有关的信息。这样，能够基于音乐一部分而获得与音乐有关的所需的全部信息。

在所述方法的扩展中，数据库还可以包含实际音乐数据。这样，可以从音乐中的已知部分开始反向生成完整的音乐。

当然，用于操作音频数据库的上述方法不限于音乐。相反，可以据此对所有种类的、自然的或技术上的声音进行分类。这样，基于本发明方法的音频数据库可以反向生成相应的元数据，而且能够对多种声学信号进行识别。

已参考图3和4进行描述的用于建立和操作音频信号数据库的方法在指纹信号的产生方式上与传统数据库存在实质上的不同。用于产生指纹信号的本发明方法能够基于音频信号的内容产生对扰动影响非常鲁棒的指纹信号。这样，即使用于比较的音频信号具有叠加其上的扰动、或者在其频率响应中发生失真，也能够以较高可靠性等级对对先前已存储到数据库中的音频信号进行识别。另外，本发明的指纹信号的大小仅为每首歌大约4k字节。这种紧凑性提供的优点是：与其它方法相比，增加了单个计算机的主存储器中的参考调号的数目。现代计算机的主存储器中可以容纳一百万个指纹信号。这样，音频信号的搜索不仅非常可靠，而且还能够以非常快速和有效利用资源的方式而执行。

参考图3和4描述的过程可以在较宽范围内变化。特别地，只要确保使用本发明的指纹信号，则可以使用建立和操作数据库的任何方法。例如在各个解决方案中，直到实际需要时才从数据库中产生指纹信号是切实可行的。这一点在音频数据库一次完成多个任务时、以及需要对两个音频信号进行比较仅是例外发生时是有利的。此外，可以容易地包括附加的搜索标准。另外，能够根据指纹信号将数据库的条目与相似指纹信号的类别相关联，并且在数据库中存储关于类别关联的信息。

因此，本发明提供了一种设备和一种方法，用于从音频信号中产生指纹信号。本发明还提供了能够根据该指纹对音频信号进行特征化和/或建立并操作数据库的设备和方法。这里，指纹信号的产生考虑了：与技术实现和实施方面的低代价两个方面、指纹信号较小幅度和抗扰动的鲁棒性以及心理声学现象。结果是：指纹信号与数据容量相比非常小；指纹信号对音频信号的内容进行了特征化；以及指纹信号能够以较高可靠性等级来识别音频信号。使用指纹信号既适于对音频信号进行分类，又适于数据库应用。

取决于环境，从音频信号中产生指纹信号的本发明方法能够以硬件或软件的形式而实现。可以在数字存储介质上实现本发明的实施方式，特别是具有电可读控制信号的磁盘或CD，该数字存储介质可以与可编程的计算机系统协作，从而执行相应的过程。通常，本发明还包括存储在机器可读载体上的、具有程序代码的计算机程序产品，如果该计算机程序产品在计算机上运行，则执行本发明的方法。换句话说，本发明还能够以具有程序代码的计算机程序而实现，其中当所述计算机程序在计算机上运行时，执行本发明的方法。

另外，本发明还可以通过多个细节上的改进而得到进一步的开发。

在实施例中，音频信号段在时间上的长度至少为10ms。与使用更短段长的方法相比，这种配置减小了要在各个频带中形成的能量值的数目。当前的数据量较小，并且随后的数据处理要求较小代价。然而已经发现的是，相对于人类感知，大约为20ms的段长是足够小的。频带中更短音频分量不会出现在典型音频信号中，并且几乎不会对音频信号内容的人类感知做出任何贡献。

在一个实施例中，用于缩放的装置设计为对能量值的数值范围进行压缩，从而压缩后的能量值的数值范围小于未压缩能量值的数值范围。该实施例所提供的优点是：减小了能量值的动态范围。这允许进行所谓的数字表示。因此，尤其避免了使用浮点表示的需要。另外，该方法考虑了还会在人耳中发生的动态压缩。

在另一实施例中，缩放可以与对能量值进行归一化一同进行。如果执行了归一化，则消除了能量值对音频信号的控制记录电平的依赖。这实质上对应于如下人类听觉能力：能够类似地适应响亮和柔和的信号，并且在内容方面，能够与当前回放音量无关地确定的两个音频信号之间的对应。

根据一个实施例，要么可以将数值范围限定为下界和上界之间的区间，要么可以对能量值取对数。两种方法都产生鲁棒的音频信号指纹。这里，取对数与人类听觉的性质更加紧密相关。

在一个实施例中，用于缩放的装置配置为按照人类响度感知而对能量值进行缩放。这种方法所提供的优点是：能够按照人类感知能力非常精确地估计柔和和响亮的信号。

根据优选实施例，用于对能量值进行缩放的装置配置为逐频带地对能量值进行缩放。即使音频信号相对于频率响应发生了失真，这里提到的基于逐频带的缩放也与人类识别音频信号的能力相对应。

在一个实施例中，通过连接在取对数装置下游的高通滤波器来抑制稳定的分量。这允许在预定的容限范围内在所有频带中实现同样的控制记录电平。这里，对频谱能量值进行评估的可容许的容限范围是大约±3db。

在其它实施例中，用于缩放的装置配置为用总能量对能量值进行归一化。使用这种设置，可以消除对信号电平的依赖，就像在逐频带的归一化中一样。

在其它实施例中，用于在时间上对缩放后的矢量序列进行滤波的装置包括被配置来实现对缩放矢量序列进行时间平滑的装置。这是有利的，因为音频信号上的扰动通常导致各个频带中的能量值的快速变化。与之相比，承载信息的分量通常以较低的速率变化。特别地，这由表示音乐的音频信号的特性引起。

在一个实施例中，用于对缩放后的矢量序列进行时间平滑的装置是具有小于10Hz的截止频率的低通滤波器。该量纲基于以下发现：语音或音乐信号中承载信息的特征以相对低的速率(即大于100ms的时间等级)而变化。

在其它实施例中，用于对定标矢量序列进行时间滤波的装置包括用于形成时间上连续的两个能量值之间的差的装置。这是高通滤波器的有效实施方式。

在其它实施例中，用于从音频信号中产生指纹信号的设备包括低通滤波器和与所述低通滤波器的输出相连的抽取装置。将所述抽取装置配置为减小从音频信号中导出的矢量的数目，从而满足奈奎斯特(Nyquist)标准。该实施例基于以下发现：只有各个频带中能量值在时间上的缓慢变化才具有与要分类的音频信号有关的较多信息内容。因此，可以通过低通滤波器来抑制能量值的快速变化。这样，能量值序列仅具有频带的低频分量。因此，能够按照采样定理来减小采样率。在进行抽取后，缩放和滤波后的矢量序列每D段仅具有一个矢量，而不是最初的每一段一个矢量。这里，D是抽取因子。该方法的结果是减小了指纹信号的数据速率。因此，同时，可以将去除冗余信息和减小数据量相组合。该方法减小了给定音频信号的产生指纹的幅度，并由此为有效地利用本发明设备做出了贡献。

在其它实施例中，本发明设备包括用于量化的装置。因此，能够实现除缩放之外的能量值数值范围的第二转换。

在其它实施例中，高通滤波器连接在量化装置的上游，该高通滤波器被配置来减小要量化的数值量。这可以在非信号自适应量化器中减少表示这些数值所需的位数。因此减小了数据速率。在信号自适应量化器中，位数与要量化的数值量无关。

另外，熵编码是优选的。这包括将较短的码字与频繁出现的数值相关联，而将较长的码字与很少出现的数值相关联。从而进一步减小了数据量。

在其它实施例中，可以配置量化装置，从而与较小的能量值相比，较大的能量值的量化等级的宽度更大。这也使表示能量值所需的位数减少，并继续以足够的精度表示非常小的信号。

特别地，在一个实施例中，可以配置量化装置，从而在容限范围内，较大和较小的能量值的最大相对量化误差是相同的。例如，相对量化误差定义为能量值的绝对量化误差与非量化能量值之比来定义相对量化误差。最大值形成于量化区间中。可以使用以预定值为中心的+/-3db的区间作为容限范围。最大相对量化误差也取决于量化器的位宽。

所描述的实施例表示了信号自适应量化的示例。然而在信号处理领域中，多种其它形式的信号自适应量化是已知的。在本发明设备中，只要确保该实施例适应滤波后的能量值的统计性质，则可以使用任何实施例。

在一个实施例中，可以配置量化装置，从而与频繁出现的能量值相比，很少出现的能量值的量化等级的宽度更大。这使表示能量值所需的位数减少，和/或使量化误差更小。

在其它实施例中，配置量化装置，从而将符号与要处理的能量值的矢量相关联。这个符号表示了矢量量化器。在这种矢量量化器的帮助下，能够进一步减小数据量。

最后要声明的是，本发明设备和/或本发明方法包括非常广泛的应用领域。特别地，用于产生指纹的上述构思可以用于模式识别系统，以识别信号或特征化信号。另外，所述构思还可以与用于确定数据集之间的相似性和/或距离的方法联合使用。例如，这些方法可以是数据库应用。

Claims

1.一种设备，用于从音频信号(12)中产生指纹信号(24)，包括：

计算装置(14)，用于计算时间上连续的音频信号段的频带能量值，频带能量值取决于频带中的音频信号的能量，以便从音频信号中获得能量值向量序列(16)，向量分量是频带中的能量值；

缩放装置(18)，用于对所述能量值进行缩放，以获得缩放后的向量序列(20)；以及

时间滤波装置(22)，用于对缩放后的向量序列(20)进行时间滤波，以获得表示所述指纹信号的滤波后的序列(24)、或从滤波后的序列(24)中可导出所述指纹信号。

2.根据权利要求1所述的设备，其中一个音频信号段的时间长度至少为10ms。

3.根据权利要求1或2所述的装置，其中计算装置(14)配置为通过对音频信号(52)段进行快速傅立叶变换(FFT)来执行离散傅立叶变换(DFT)，以获得傅立叶系数(56)，将傅立叶系数的量平方以获得平方后的傅立叶系数的量，并且逐频带地累加平方后的傅立叶系数的量，以获得频带的能量值(16)。

4.根据权利要求1到3之一所述的设备，其中所述频带具有可变的带宽，具有较高频率的频带的带宽大于具有较低频率的频带的带宽。

5.根据权利要求1到4之一所述的设备，其中缩放装置(18)配置为对能量值(36)的数值范围进行压缩，从而压缩后的能量值的数值范围小于未压缩的能量值的范围。

6.根据权利要求1到5之一所述的设备，其中缩放装置(18)配置为对能量值(36)进行归一化。

7.根据权利要求1到6之一所述的设备，其中缩放装置(18)配置为将能量值(36)缩放到下限与上限之间的数值范围，或对所述能量值取对数。

8.根据权利要求1到6之一所述的设备，其中缩放装置(18)配置为对能量值(36)进行缩放，从而与人类响度感知相对应。

9.根据权利要求1到8之一所述的设备，其中缩放装置包括：用于取对数的装置(70)；以及连接在用于取对数的装置(70)下游的、用于抑制稳定分量的装置。

10.根据权利要求9所述的设备，其中用于抑制稳定分量的装置包括高通滤波器(80)。

11.根据权利要求1到8之一所述的设备，其中缩放装置(18)配置为使用通过形成多个能量值之和而创建的总能量来对所述能量值执行归一化，通过以逐频带的方式将所述能量值除以与所述总能量相等的标准化因子而执行所述归一化。

12.根据权利要求1到11之一所述的设备，其中时间滤波装置(22)配置为实现对所述缩放后的向量序列的时间平滑。

13.根据权利要求12所述的设备，其中时间滤波装置(22)包括具有小于50Hz的截止频率的低通滤波器(74)。

14.根据权利要求1到13之一所述的设备，其中时间滤波装置(22)包括具有小于10Hz的截止频率的高通滤波器(80)。

15.根据权利要求1到14之一所述的设备，其中时间滤波装置(22)包括用于形成同一频带中时间上连续的两个能量值之差的装置。

16.根据权利要求1到15之一所述的设备，其中时间滤波装置包括低通滤波器(74)和与低通滤波器(74)的输出相连的抽取装置(76)，所述抽取装置(76)配置为减少从所述音频信号导出的向量数目。

17.根据权利要求1到16之一所述的设备，还包括量化装置(84)，所述量化装置(84)连接在时间滤波装置的下游，并且配置为对滤波后的序列进行量化，以便从滤波后的序列中导出所述指纹信号。

18.根据权利要求17所述的设备，其中时间滤波装置(22)包括高通滤波器(80)，所述高通滤波器(80)配置为减小要量化的数值(82)的数值范围。

19.根据权利要求17或18所述的设备，其中配置量化装置(84)，从而针对较大能量值的量化等级的宽度大于针对较小能量值的量化等级的宽度。

20.根据权利要求17或18所述的设备，其中量化装置(84)包括如下的量化等级分类：在容限范围内，对于较大和较小的能量值最大相对量化误差是相同的。

21.根据权利要求20所述的设备，其中所述容限范围是±3db。

22.根据权利要求17或18所述的设备，其中量化装置(84)配置为根据幅度统计量而使用量化等级，依据要量化的信号的幅度统计量来调整所述量化等级，所述统计量包括与要量化的信号值的相对频率有关的声明，对于具有较高相对冗余的要量化的信号值，在数值范围上实现量化步长的细分类；对于具有较低相对冗余的要量化的信号值，在数值范围上实现量化步长的粗分类。

23.根据权利要求17或18所述的设备，其中配置量化装置(84)，从而将符号与滤波后的序列中的向量相关联。

24.根据权利要求17到23之一所述的设备，其中配置量化装置(84)，从而向滤波后的序列中的向量施加线性变换。

25.一种方法，用于从音频信号中产生指纹信号，包括：

对时间上连续的音频信号段的频带能量值进行计算，频带能量值取决于频带中的音频信号的能量，以便从所述音频信号中获得能量值向量序列(16)，向量分量是频带中的能量值；

对所述能量值进行缩放，以获得缩放后的向量序列；以及

对缩放后的向量序列进行时间滤波，以获得表示所述指纹信号的滤波后的序列(24)、或从滤波后的序列(24)中可导出所述指纹信号。

26.一种设备，用于对音频信号进行特征化，包括：

用于产生根据权利要求1到24之一所述的指纹信号的装置；以及

用于根据所述指纹信号而做出与所述音频信号的音频内容有关的声明的装置。

27.一种方法，用于对音频信号进行特征化，包括：

使用权利要求25所述的方法来产生指纹信号；以及

根据所述指纹信号做出与所述音频信号的音频内容有关的声明。

28.一种方法，用于建立音频数据库，包括：

使用权利要求25所述的方法，产生针对要在所述音频数据库中捕获的每一个音频信号的指纹；

针对每一个要捕获的音频信号，存储指纹以及所述音频数据库中属于所述音频信号的其它信息，从而给出指纹与对应信息的关联。

29.一种方法，用于根据音频信号数据库而获得信息，其中针对多个音频信号存储通过权利要求25所述的方法已形成的相关联的指纹信号，所述方法还用于获得预定的搜索音频信号，所述方法包括：

使用权利要求25所述的方法而形成属于所述搜索音频信号的搜索指纹信号；

将所述搜索指纹信号与存储在所述数据库中的至少一个指纹信号进行比较，并且做出与两者的相似性有关的声明。

30.根据权利要求29所述的方法，还包括：

根据与所述搜索指纹信号和存储在所述数据库中的指纹信号的相似性有关的声明，向所述音频信号输出元数据，其中存储在所述数据库中的指纹信号是基于所述音频信号的。

31.一种具有程序代码的计算机程序，当所述计算机程序在计算机上运行时，所述计算机程序用于执行权利要求25、27、28、29或30所述的方法。