CN103403710B

CN103403710B - 对来自音频信号的特征指纹的提取和匹配

Info

Publication number: CN103403710B
Application number: CN201280005546.5A
Authority: CN
Inventors: 塞瑞志·比洛罗夫
Original assignee: Excalibur IP LLC
Current assignee: Excalibur IP LLC
Priority date: 2011-02-10
Filing date: 2012-01-13
Publication date: 2016-11-09
Anticipated expiration: 2032-01-13
Also published as: EP2673775A2; TWI480855B; US20120209612A1; JP5826291B2; US9093120B2; TW201246183A; TWI560708B; WO2012108975A3; EP2673775A4; CN103403710A; TW201447871A; JP2014506686A; WO2012108975A2

Abstract

从音频样本提取音频指纹，其中该指纹包含作为该样本中的内容的特性的信息。该指纹可以通过以下步骤产生：为音频样本计算能量谱，对能量谱重采样，对重采样的能量谱进行变换以产生一系列的特征向量，以及使用特征向量的差分编码来计算指纹。所产生的指纹可以与数据库中的一组参考指纹进行比较来识别原始的音频内容。

Description

对来自音频信号的特征指纹的提取和匹配

技术领域

本发明通常涉及音频信号处理，尤其涉及从音频信号提取特征指纹以及搜索这种指纹的数据库。

背景技术

由于在文件格式、压缩技术和其他数据表示方法上的不同，识别数据信号或将其与其他进行比较的问题提出了显著的技术难题。例如，在计算机上的数字音乐文件的情况下，有很多种用于编码和压缩歌曲的格式。此外，歌曲经常被以不同的数据速率采样成数字形式并具有不同的特性(例如，不同的波形)。录制的模拟音频还包含噪声和失真。这些显著的波形差异使得直接比较这些文件对于高效的文件或信号识别或比较而言成为拙劣的选择。直接的文件比较也不允许比较以不同格式编码的媒体(例如，比较以MP3和WAV编码的同一首歌)。

由于这些原因，识别和跟踪媒体和其他内容，例如散布在因特网上的内容，通常通过附上元数据、水印或某种其他包含该媒体的识别信息的代码来完成。但是这种附上的信息经常不完整、不正确或两者都有。例如，元数据罕有完整的，并且文件名更很少有统一的。此外，诸如加水印之类的方法是侵略性的，使用所附加的数据或代码改变了原始文件。这些方法的另一个缺点在于它们对篡改是脆弱的。即使每个媒体文件都包括诸如元数据或水印之类的精确的识别数据，若该信息被成功去除则这些文件也可以被“解锁”(并因而被盗版)。

为了避免这些问题，基于分析数据信号本身的内容的概念开发出了其他的方法。在一类方法中，为一段音频产生音频指纹，其中该指纹包含关于该音频的可以用于识别原始音频的特性信息。在一个示例中，音频指纹包括识别音频片段的数字序列。音频指纹的产生过程通常基于正在为其产生指纹的音频的声学和知觉属性。音频指纹通常具有比原始音频内容小得多的大小并且因而可以用作识别、比较和搜索音频内容的便捷工具。音频指纹分析(audio fingerprinting)可以用在各种应用中，包括广播监控、音频内容组织、P2P网络的内容过滤以及歌曲或其他音频内容的识别。在应用到这些不同的领域时，音频指纹分析通常涉及指纹提取和指纹数据库搜索算法。

大多现有的指纹分析技术是基于在频域中从音频样本提取音频特征。该音频首先被划分成帧，并且针对每一个帧计算一组特征。可以使用的音频特征包括快速傅立叶变换(FFT)系数、梅尔频率倒谱系数(MFCC)、谱平坦度、锐度、熵和调制频率。计算出的特征被组装成特征向量，该特征向量通常被利用导数、平均数或方差来变换。特征向量使用诸如主成分分析之类的算法并随后经过量化而被映射到更加紧凑的表示，以产生音频指纹。通常，通过处理单个音频帧而获得的指纹具有相对小的大小，并且可能无法以希望的可靠程度来充分唯一地识别原始音频序列。为了增强指纹的唯一性并因此提高正确识别的概率(并降低假阳性率)，小的子指纹可以被组合成表示大约3到5秒音频的更大块。

一种由Philips开发的指纹分析技术使用短时傅立叶变换(STFT)为音频信号的每个11.8毫秒的区间提取32比特的子指纹。该音频信号首先被划分成0.37秒长的重叠帧，并且帧通过重叠因子为31/32的汉明窗而被加权并且被使用FFT变换到频域。获得的频域数据可以被呈现为频谱图(例如，时间-频率图)，时间在横轴上，频率在纵轴上。每一个帧的频谱(频谱图列)在300Hz到2000Hz范围内被以对数间隔划分成33个无重叠的频带。计算每个频带中的谱能量，并且利用沿着时间和频率轴的连续频带的能量差的符号产生32比特的子指纹。如果一个帧中的两个频带之间的能量差大于前一帧中的相同频带之间的能量差，则算法为子指纹中的相应比特输出“1”；否则，为相应比特输出“0”。通过将256个随后的32比特子指纹组合成单个指纹块而组装出指纹，这对应于3秒的音频。

尽管被设计成对通常类型的音频处理、噪声和失真是强健的，但是该算法对于由产生的频谱缩放造成的高速变化仍不是非常强健。因此，提出了一种修正的算法，其中在比例不变的傅立叶-梅林域中提取音频指纹。该修正的算法包括在将音频帧变换到频域之后执行的附加步骤。这些附加步骤包括频谱对数映射，然后是第二傅立叶变换。因此，对于每一个帧，应用第一FFT，对结果进行对数映射得到功率谱，并且第二FFT被应用。这可以被描述为对以对数方式重采样的傅立叶变换的傅立叶变换，并且其与语音识别中广泛使用的公知的MFCC方法类似。主要区别在于傅立叶-梅林变换使用全频谱的对数映射，而MFCC是基于梅尔频率比例(线性高至1KHz并且对于更高频率具有对数间隔，从而模仿人类听觉系统的属性)。

由于使用仅仅两个连续帧的频谱系数计算子指纹，因此Philips算法落入在所谓的短期分析算法的类别中。存在其他使用频谱图中多个重叠的FFT帧提取频谱特征的算法。其中一些基于在时间上评估多个帧的方法被称为长期频谱图分析算法。

例如在Sukittanon，“Modulation-Scale Analysis for Content Identification”，IEEE Transactions on Signal Processing，v01.52，no.10(2004年10月)中所描述的一种长期分析算法是基于对调制频率的估计。在该算法中，对音频进行划分并且为其计算频谱图。然后通过沿着频谱图的时间行(例如，横轴)应用第二变换为每个频谱图频带(例如，频谱图中的频率范围)计算调制频谱。这与修正的Philips方法不同，其中沿着频谱图的频率列(例如，纵轴)应用第二FFT。在该方法中，频谱图被划分成N个频带，并且计算相同数量N的连续小波变换(CWT)，每个频带一个。

尽管该算法的开发者声称与Philips算法相比具有更好的性能，但是现有的算法仍表现出一些缺陷。例如，这些算法可能不是足够强健到可靠地识别有失真的语音和音乐，特别是当音频是使用CELP音频编解码(例如，与蜂窝电话音频相关的，例如GSM)进行压缩的。而且，这些算法通常对噪声和模拟失真(例如与麦克风录音相关的那些噪声和模拟失真)是敏感的。并且，即使这些算法在存在单一类型失真的情况下可以识别音频，也可能不能处理多种失真的组合，这是更普遍的并且更接近于真实世界的情况(例如，对于蜂窝电话，从嘈杂房间内的麦克风录制的带有轻微回响的音频，后跟GSM压缩)。

因此，当被应用于实际应用时，现有的指纹分析方案具有不可接受地高的错误率(例如，假阳性和假阴性)，产生太大以致商业上不可行的指纹，和/或太慢。因此，存在克服当前音频识别技术未能解决的现有限制的需求。

发明内容

因此，本发明能够基于音频信号的内容从该信号提取特征指纹。可以将该指纹与一组参考指纹(例如，在数据库中的)进行匹配以确定信号的身份或者两个信号之间的相似性。由于指纹提取算法的特性，它并不遭受困扰现有解决方案的许多问题，并且与这些算法相比，它快速、高效、高度精确、可缩放和强健。

在用于产生音频指纹的方法的一个实施例中，音频信号被采样并从该信号计算频谱图信息。该频谱图被划分成多个频带。带中的序列样本被重采样。

在一个实施例中，对序列样本进行重采样包括将样本进行对数映射。在另一个实施例中，对序列样本进行重采样包括基于相应频带的中心频率和/或频率范围对序列样本的大小在时间上进行缩放，并且对缩放后的序列样本进行重采样。在另一个实施例中，对序列样本进行重采样包括基于相应频带的中心频率和/或频率范围对序列样本在时间上进行偏移，并且对偏移后的序列样本进行重采样。在另一个实施例中，对序列样本进行重采样包括随着时间变化从不同的序列样本(即，频带)进行采样。

然后对重采样序列进行第二变换以获得每个序列的特征向量。在一个实施例中，第二变换包括沿着时间轴的变换。在另一实施例中，第二变换包括沿着时间轴的变换，紧接是跨越频率轴的变换。在另一个实施例中，第二变换包括二维离散余弦变换(2D DCT)。基于特征向量计算音频指纹。音频指纹可以存储在计算机可读媒介上，或者可以被立刻确定为可发送的信号。

所述的对序列样本的不同类型的重采样使得该算法对音频回放速度的变化以及时间压缩和拉伸不那么敏感。这样，不管音频信号的回放速度的变化或者由于时间压缩或拉伸，音频信号的指纹都应该变化很小或没有变化。所述的重采样还提高了第二时间-频率变换的低频分辨率。这使得可以使用简单的变换来代替用于分析频谱图调制频谱的复杂的小波变换，使得实现方式与先前的方法相比更高效和更快捷。

此外，由于所述的重采样，频带输出帧对于大部分而言包含代表所分析的音频序列的开头的样本。因此所得到的指纹是利用主要位于序列开头的样本产生的。由于音频序列中相对小的部分在所得到的指纹中作了主要贡献，因此该指纹可以用于匹配较短的音频序列。在一种实现方式中，例如，从5秒的原始音频帧产生的指纹可被可靠地与从二分之一短的音频片段取得的样本相匹配。

指纹分析技术的实施例还容忍噪声和信号失真。一种实现方式可以在存在100％白噪声(即，信噪比为0db)的情况下检测像语音这样的信号。这些技术还容忍滤波、压缩、频率均衡和相位失真。

在另一个实施例中，在所产生的指纹帧是利用规定数量的频带形成的情况下，使用声学模型来标记无关紧要的频带。无关紧要的频带可以包括在辨别音频样本时基本上不会添加任何可察觉的值的频带。只处理相关的频带提高了信噪比并提高了整个指纹匹配过程的鲁棒性。此外，排除不相关的频带可以极大地提高频带受限的音频内容的识别效率，例如在以非常低的比特率编码的语音或者具有低带速的模拟记录的情况下。

本发明的实施例还提供了在大尺度数据库中对指纹的快速索引和高效搜索。例如，每个音频指纹的索引可以根据指纹内容的一部分来计算。在一个实施例中，来自指纹的一组比特被用作指纹的索引，其中这些比特由于重采样而对应于更加稳定的低频率系数。为了将测试指纹与数据库中的一组指纹进行匹配，可以将该测试指纹与这些索引进行匹配以获得一组候选指纹。然后将测试指纹与候选指纹进行匹配，从而避免了将测试指纹与数据库中的每个指纹进行匹配的需要。

在另一个实施例中，使用边缘检测算法来确定所分析的音频帧或片段的精确边缘。在一些应用中，特别是当音频样本只在全部样本的短时间段期间有所不同时，知道所分析的音频帧的边缘在音频样本中的位置是重要的。边缘检测算法可以使用线性回归技术来确定音频帧的边缘。

指纹分析技术的实施例的应用有很多，并且其包括音频流和其他音频内容(例如，流式媒体、无线电、广告、因特网广播、CD中的歌曲、MP3文件或任何其他类型的音频内容)的实时识别。本发明的实施例因而可以进行高效、实时的媒体内容审核和其他报告。

附图说明

图1是根据本发明实施例的从音频样本中提取和使用指纹的过程的示意图。

图2是根据本发明实施例的指纹提取系统的示意图。

图3是根据本发明实施例的匹配算法的流程图。

图4示出根据本发明实施例的边缘检测算法。

图5是根据本发明实施例的包括对数重采样器和T点变换模块的指纹提取系统的示意图。

图6A和6B示出根据本发明的若干替代实施例的指纹提取算法的图形表不。

图7A和7B示出根据本发明实施例的应用于音频帧的带通滤波器的图形表示。

图8A-8C示出根据本发明若干可替代实施例的对子带样本序列重采样的图形表示。

具体实施方式

概述

本发明的实施例使得能够从音频样本中提取特性信息(例如，音频指纹)，并使用提取的特性信息进行音频的匹配或识别。如图1所示，从音频样本100中取得的音频帧105被输入到指纹提取算法110中。音频样本100可以是由各种源中的任一种提供的。使用音频帧105的序列，指纹提取算法110产生作为序列的特性的一个或多个音频指纹115。作为区别标识符，音频指纹115提供与音频样本100的帧105的序列的身份或其他特性相关的信息。特别地，音频样本100的一个或多个指纹115可以使得音频样本100能被唯一地识别。下面将更详细地描述了指纹提取算法110的实施例。

提取出的指纹115一旦产生就可然后用于进一步的处理或者存储在媒介上以供以后再用。例如，指纹115可以被指纹匹配算法120使用，指纹匹配算法120将指纹115与指纹数据库125中的条目(例如，来自已知源的音频指纹的集合)进行比较以确定音频样本100的身份。下面还描述了各种使用指纹的方法。

取决于指纹分析系统的应用，音频样本100可以源自各种源中的任一种。在一个实施例中，音频样本100是从接收自媒体广播者的广播采样的并且被数字化。作为替代，媒体广播者也可以传送数字形式的音频，从而免去了将其数字化的需要。媒体广播者的类型包括但不仅限于：无线电发射器、卫星发射器和电缆运营商。指纹分析系统因此可以用于审核这些广播者以确定什么音频在什么时间广播。这使能了一种用于确保遵从广播限制、许可协定等的自动系统。由于指纹提取算法110可以在不知道广播信号的精确开始和结束的情况下运行，因此其可以在不需要媒体广播者的协作和知识以确保独立和无偏差的结果的情况下运行。

在另一个实施例中，媒体服务器从媒体库检索音频文件并通过网络(例如，因特网)发送数字广播以供指纹提取算法110使用。流式因特网无线电广播是这种类型的体系结构的一个示例，其中媒体、广告和其他内容被传送给个体或群组用户。在这样的实施例中，指纹提取算法110和匹配算法120通常没有任何关于音频样本100的流式内容中所包含的个体媒体项目的开始或结束时间的信息；然而，这些算法110和120并不需要这些信息来识别流式内容。

在另一个实施例中，指纹提取算法110从能够访问包含音频文件的存储装置的客户端计算机接收音频样本100或其一系列帧105。该客户端计算机从存储装置检索个体音频文件并将该文件发送给指纹提取算法110以用于从该文件产生一个或多个指纹115。作为替代，客户端计算机可以从存储装置140检索一批文件并将它们顺次发送给指纹提取器110以用于为每个文件产生一组指纹。(这里使用的“组”理解为在一分组中包括任意数量的项目，包括单个项目。)指纹提取算法110可以由客户端计算机或者通过网络耦合到客户端计算机的远程服务器执行。

算法

实现图1所示的指纹提取算法110的指纹提取系统200的一个实施例在图2中示出。指纹提取系统200包括分析滤波器组205，分析滤波器组205耦合到多个处理通道(每个通道包括一个或多个处理模块，此处标记为元件210和215)，这多个处理通道又耦合到差分编码器225以用于产生音频指纹115。指纹提取系统200被配置用于接收音频帧105，将为音频帧105产生音频指纹。

下面更详细描述，对于每一个输入音频帧105，分析滤波器组205通常跨越一频率范围来计算接收信号的功率谱信息。在一个实施例中，每个处理通道对应于该频率范围内的频带，频带可以重叠。因此，通道对指纹提取系统200执行的处理进行划分，使得每个通道执行相应频带的处理。在另一个实施例中，每个处理通道处理多个频带(即，多个频带与每个处理通道相关联)。在其他实施例中，这多个频带的处理可以由单个模块在单个通道中执行，或者该处理可以被针对应用和系统技术限制而适当地以任何其他配置划分。

分析滤波器组205接收音频帧105(例如如图1所示的来自音频样本100的帧105)。分析滤波器组205将音频帧105从时域转换到频域中以在一频率范围上计算帧105的功率谱信息。在一个实施例中，该信号在大约250至2250Hz的范围中的功率谱被划分成多个频带(例如，Y个频带，其中Y=13)。这些频带可以具有线性分布或者对数中心频率分布(或其他任何尺度)，并且还可以重叠。滤波器组的输出包含多个频带中每一个频带的信号能量的度量。在一个实施例中，使用带中平均谱能量的立方根取得平均能量的度量。

取决于系统的软件和硬件要求和限制，分析滤波器组205的各种实现方式是可能的。在一个实施例中，分析滤波器组205包括多个带通滤波器，这多个带通滤波器针对各个频带来隔离音频帧105的信号，随后是能量估计和下采样。在一个实施例中，每个带通滤波器通过的频率随时间变化。在另一个实施例中，每个带通滤波器通过的频率是恒定的(即，不随时间变化)。图7A是每个带通滤波器通过的频率不随时间变化的实施例的图形表示。图表702中的每个矩形代表一带通滤波器输出的音频帧105的信号。另一方面，图7B示出了每个带通滤波器通过的频率随着时间变化的实施例的图形表示。从图表704中可以看出，在这个示例中，每个带通滤波器通过的频率随着时间而下降。在其他实施例中，通过的频率随着时间而上升。在带通滤波器被应用于音频帧105之后，每个频带都包括了由其相应带通滤波器输出的信号。

在另一个实施例中，分析滤波器组205是利用短时快速傅立叶变换(FFT)实现的。例如，以8kHz采样的音频100被划分成64ms的帧105(即，512个样本)。然后通过加汉明窗和执行FFT，随后使用M个均匀或对数间隔的重叠三角窗进行频带滤波，来计算由两个音频帧105(即，1024个样本)组成每个50％重叠的片段的功率谱。

可以使用各种时频域变换来代替上述的FFT。例如，可以使用修正离散余弦变换(MDCT)。MDCT的一个优点是其复杂度低，因为它可以只使用一个n/4点FFT和样本的一些前后旋转来计算。因此，预期利用MDCT实现的滤波器组205的性能要优于利用FFT实现的滤波器组205，例如，能够两倍快地计算变换。

在另一个实施例中，分析滤波器组205是利用MP3混合滤波器组实现的，该MP3混合滤波器组包括级联多相滤波器和MDCT，随后是混叠消除。MP3滤波器组为每个由576个样本组成的音频帧105产生576个频谱系数。对于以8kHz采样的音频，与上述的1024点FFT滤波器组的15.626fps相比，所得到的帧率为13.8fps。帧率的差别在数据被重采样时进行时频分析期间被抵消，如下所述。分析滤波器组205还可以使用正交镜像滤波器(QMF)来实现。MP3混合滤波器组的第一级采用具有32个等宽频带的QMF滤波器。因此，11，025Hz音频信号的250-2250Hz频率范围因此可被划分为13个带。

MP3滤波器组的一个优点是其可移植性。对于不同的CPU，存在MP3滤波器组的高度优化的实现方式。因此，指纹产生例程可以容易地与MP3编码器相结合，其可以在无需附加的处理的情况下从MP3滤波器组获得频谱系数。因此，指纹产生例程可以容易地与MP3解码器相结合，其可以在无需其完整解码的情况下直接从MP3比特流获得频谱数据。与其他音频编解码器的结合也是可能的。

一旦确定了，子带样本就被缓冲并提供给一个或多个重采样器210。重采样器210接收子带样本并对子带样本进行重采样以产生重采样序列。在一个实施例中，重采样器210根据非统一的顺序对子带样本进行重采样，例如非顺次的或者与样本被采样的顺序相反的顺序。

在一个实施例中，每个重采样器210对应于Y个频带中的一个，并且针对该相应频带接收在时间上线性间隔的S个样本的序列(例如，其中取决于滤波器组的实现方式，S被选为从64到80)。在一个实施例中，当子带样本序列被接收到时，每个重采用器对其各自的子带样本序列执行对数重采样、缩放重采样或偏移重采样。作为重采样的结果，重采样器210为每个音频帧产生M个重采样序列。

在一个实施例中，对数重采样包括重采样器210对其相应的子带样本进行对数映射以产生具有在时间上对数间隔的T个样本(例如，其中T=64)的重采样序列。也可以执行其它类型的非线性采样代替对数采样，例如指数重采样。

在一个实施例中，缩放重采样包括重采样器210对其各自的子带样本序列的大小(即，长度)在时间上进行缩放。子带样本序列是基于频带的中心频率和/或频率范围而被缩放的。例如，缩放可以如下：子带的中心频率越高，子带样本序列的大小越大。作为另一个示例，缩放可以如下：子带的中心频率越高，子带序列的大小越小。缩放后的子带样本序列由重采样器210进行重采样以产生具有T个样本的重采样序列。

在一个实施例中，偏移重采样包括重采样器210对其各自的子带样本序列在时间上进行偏移(即，移动)。子带序列的偏移是基于重采样器的频带的中心频率和/或频率范围的。例如，其可以如下：子带的中心频率越高，子带样本序列的时间偏移越大。由重采样器210对偏移后的子带样本序列进行重采样以产生具有T个样本的重采样序列。

在另一个实施例中，每个重采样器210对应于多个频带。每个重采样器210接收多个频带的子带样本序列。每个重采样器210接收的子带样本序列的数量基于实现方式而变化。在一个实施例中，与每个重采样器相对应的频带是连续的。

每个重采样器210对其相应的子带序列执行时间-频率重采样。时间-频率重采样包括重采样器210随着时间变化从不同的相应频带进行采样以产生具有T个样本的重采样序列。在一个实施例中，随着时间的增长，重采样器210采样的频率下降。在另一个实施例中，随着时间的增长，重采样器210采样的频率也增长。作为重采样的结果，重采样器210为每个音频帧产生M个重采样序列。

图8A和8B示出了根据一个实施例的时间-频率重采样。在图8A中，图表802的每个灰色轮廓的矩形代表了不同的频带(即，频带的样本序列)。每条黑斜线代表了作为时间-频率重采样的结果由重采样器210产生的重采样序列。如图表802中看出，为了产生重采样序列，随着时间变化每个重采样器210对不同的相应频带进行采样。在图表802的实施例中，重采样器210采样的频率随着时间增长而下降。图8B的图表804是图8A的重采样序列在没有频带的情况下的图示。

图8C的图表806示出了在每个重采样器210对应于Y个频带中的一个的实施例中由重采样器210产生的重采样序列。与图8A类似，图表806的每个灰色轮廓的矩形代表不同的频带，并且矩形中间的每条黑线代表一重采样序列。如图8C中可以看出，该实施例中由重采样器210产生的重采样序列的数量与频带的数量相同(即M=Y)。之所以是这种情况是因为每个重采样器210都在其频带内进行采样。

然而，如图8A中可以看出，在每个重采样器210对应于多个频带并且执行时间-频率重采样的实施例中，重采样序列的数量小于频带的数量(即M<Y)。在该实施例中需要更多的频带以确保每个重采样器210从相同的时间段中获得样本并且每个重采样序列包含T个样本。

在重采样器210执行了重采样并产生了M个重采样序列之后，重采样序列可被以[M×T]的矩阵存储，该矩阵对应个具有时间(横)轴和频率(纵)轴的采样频谱图。M个重采样序列被提供给一个或多个变换模块215，这一个或多个变换模块215对样本执行变换。

在一个实施例中，对每个带的样本执行的变换是T点变换，T点变换是沿着时间轴(即[M×T]矩阵的每一行)的变换。在一个实施例中，T点变换是T点FFY。由FFT得到的系数序列被称为特征向量。在一个实施例中，每个带的特征向量包括按照频率上升的顺序为该带计算的每隔一个的FFT系数。因此，每个特征向量将会包括N个系数(例如，其中N=T/2=32)。在另一个实施例中，不是执行T点FFT，而是执行T点离散余弦变换(DCT)、T点离散哈特利变换(DHT)或离散小波变换(DWT)。所得到的特征向量被提供给差分编码器225。

在另一个实施例中，所执行的变换是T点变换后接着M点变换。如上所述对每个带的样本执行T点变换。在T点变换之后，对每个带的样本进行大小缩放、加窗和归一化。在缩放、加窗和归一化之后，对样本执行M点变换，M点变换是沿着频率轴(例如，[M×T]矩阵的每一列)的变换。在一个实施例中，M点变换是沿着频率轴的FFT、DCT、DHT或DWT。所得到的特征向量被提供给差分编码器225。

在另一个实施例中，所述变换是二维离散余弦变换(2D DCT)。为了执行该变换，对每个带的样本进行归一化。一旦样本被归一化，就沿着时间轴执行一维DCT。在沿着时间轴的一维DCT之后接着是沿着频率轴的一维DCT变换。所得到的特征向量被提供给差分编码器225。

差分编码器225为音频样本产生指纹115。在一个实施例中，差分编码器225减去与每对相邻带相对应的特征向量。如果有Y个带，则有Y-1对相邻带。减去两个特征向量给出了具有N个差值的向量。对于这些差值中的每一个，如果差值大于或等于0则差分编码器225选择1，并且如果差值小于0则差分编码器225选择0。对于序列中的每个四比特组，编码器根据码本表分配比特值。在指纹分析算法的调谐和训练期间计算最佳码本值。对各个连续频带对的特征向量重复该过程产生了[(Y-1)×N/4]矩阵的比特。该矩阵可以被表示为线性比特序列，其用作音频指纹115。在Y=13并且N=8的示例中，指纹115具有12字节的信息。

在一个实施例中，在所获得的特征向量被量化之前使用主成分分析(PCA)对该特征向量进行去相关并且减小其大小。可以另外或者作为替代使用其他去相关的技术，例如数字余弦变换，以用于消除冗余并且压缩特征向量。

在一个实施例中，指纹提取系统200对特定音频信号中高度重叠的一系列音频帧产生多个指纹。在一个示例中，系统200处理的每一系列帧105包含3秒长的音频信号并且在前一系列开始之后的64毫秒开始。这样，为音频信号每隔64毫秒开始的多个3秒长的部分产生指纹。为了实现这样的方案，指纹提取系统200可以在分析滤波器组205之前和之后包括存储缓冲器，其中在下一个音频帧105被接收到时利用下一个64毫秒的音频信号来更新缓冲器。

图6A和6B示出了根据本发明若干替代实施例的指纹提取算法110的图形表示。在该过程中，分析滤波器组205接收音频帧。图表602是接收到的音频帧在时域中的表示。分析滤波器组205对音频帧执行FFT以将其从时域转换到频域，如图表604所示。然后当在频域中时，为该帧计算功率谱信息。分析滤波器组205应用多个带通滤波器隔离每个频带的帧信号，如图表606所不。

频带的子带样本序列被重采样器210进行重采样。图6B示出了4种可选的技术(标记为A、B、C和D)，这些技术可以被重采样器210执行以重采样子带样本序列。在一个实施例中，技术A、B和C是当每个重采样器210对应于一个频带时可以执行的技术。在一个实施例中，当每个重采样器210对应于多个频带并且重采样器210被配置成执行时间-频率重采样时，可以执行方法D。

在技术A中，每个重采样器210对其相应的子带样本序列(图表608)进行对数采样以产生具有T个样本的重采样序列(图表616)。在技术B中，每个重采样器210基于子带的中心频率和/或频率范围对其各自的子带样本序列的大小进行缩放。如图表610所示，在该示例中，子带的中心频率越高并且子带的频率范围越宽，则子带样本序列的大小越小。对缩放后的子带样本序列进行重采样以产生重采样序列，每个重采样序列具有T个样本(图表618)。

在技术C中，每个重采样器210基于子带的中心频率和/或频率范围对其各自的子带样本序列在时间上进行偏移。如图表612所示，在该示例中，子带中心频率越高，子带样本序列的偏移越大。对偏移后的子带样本序列进行重采样以产生重采样序列，每个重采样序列具有T个样本(图表620)。

在技术D中，每个重采样器210对其相应的子带样本序列进行时间-频率重采样。时间-频率重采样由重采样器210随着时间变化从不同的相应频带中进行采样。如图表614所示，在该示例中，重采样器210采样的频率随着时间增长而下降。重采样产生了重采样序列，每个重采样序列具有T个样本(图表622)。

由重采样器210产生的重采样序列(M个重采样序列)被以[M×T]的矩阵存储。每个变换模块215对由其相应的重采样器210(即，与变换模块215在同一通道中的重采样器210)产生的重采样序列执行变换。图6示出了3种可选的技术(标记为E、F和G)，这些技术可以由变换模块215执行以对重采样序列进行变换并产生特征向量。

在技术E中，变换模块215执行T点变换，如图表624所示。在技术F中，变换模块215在一个维度上执行T点变换，接着在另一维度上执行M点变换，如图表626所示。在技术G中，变换模块215执行二维DCT或者其它合适的二维变换，如图表628所示。

一旦子带样本已被变换以获得特征向量，差分编码器225就使用由变换模块215产生的特征向量来产生指纹115。

图5是指纹提取系统200的示例，其中重采样器210是对数重采样器210并且变换模块215是T点变换模块215。对数重采样器210执行如上所述的对数重采样(技术A)。然而，应当理解，在其它实施例中，对数重采样器210可以与执行其它重采样技术(即，技术B、C或D)的重采样器210进行互换。

T点变换模块215执行如上所述的T点变换(技术E)。然而，在其它实施例中，T点变换模块215可以与执行其它变换技术(即，技术F或G)的变换模块215进行互换。

声学模型

在指纹分析系统的各种应用中，由于对音频样本的编码处理去除了频带或者由于某种其它原因，因此某些频带可能因为察觉不到而无关紧要。因此，在一个实施例中，对于特定的指纹，使用声学模型235来识别和标记这些无关紧要的频带。声学模型(例如心理声学模型)在各种音频处理领域中是公知的。可以在指纹115的创建期间针对高质量参考样本来计算声学模型235的一组模型参数并将这一组模型参数存储在数据库125中。指纹115中不无关紧要的带可以通过分配专门代码或将其相应的值(即，比特)置零来标记。这有效地使得这些带在任何随后的匹配过程中被忽略，这是因为在指纹与数据库记录的匹配过程中，只使用具有非零值的相关带对来辨别指纹115。被掩蔽的带(即，值为零的那些带)也可以完全被排除在比较之外。

在一个实施例中，声学模型是人类听觉系统的心理声学模型。这在指纹分析系统的目的是以音频为目标的人类听觉系统的识别时可能是有用的。这样的音频可以通过一个或多个知觉编码器进行压缩从而去除不相关的音频信息。使用人类心理声学模型使得可以从指纹中识别和排除这样的不相关的带。

但是心理声学模型只是一种适于人类感知编码音频的声学模型。另一种声学模型是模仿特定录音设备的属性的模型。这种录音设备声学模型的每个带可以取决于其重要性而被分配一权重因数。再一种声学模型模仿特定环境的属性，例如在车辆或房间内可以找到的背景噪声。在这样的实施例中，声学模型的每个带可以取决于其在设计系统的环境中的重要性而被分配一权重因数。

在一个实施例中，声学模型235和滤波器组205的参数取决于所分析的音频信号100的类型和属性。使用包括一组子带权重因数和多个滤波器组带及其频率分布的不同简档来获得目标音频信号的属性的更好匹配。例如对于像语音这样的音频，信号的功率主要集中在低频带中，而音乐取决于流派可能包含高频相关成分。在一个实施例中，声学模型的参数是根据参考音频信号计算的并且与产生的指纹一起存储在内容数据库中。在另一个实施例中，基于在匹配过程期间所分析的音频信号的属性动态计算声学模型的参数。

因此，声学模型235的可能应用包括针对特定的环境和/或录音设备和编码算法属性来调谐音频识别参数。例如，知道蜂窝电话音频路径的声学属性(麦克风特性、音频处理和压缩算法等等)使得可以开发模仿这些属性的声学模型。在指纹比较期间使用该模型可以显著提高所产生的指纹的匹配过程的鲁棒性。

指纹索引和匹配

在一个实施例中，指纹索引器230为每个指纹115产生索引。然后指纹115被存储在指纹数据库125中，从而可以对指纹数据库125的内容进行高效的搜索和匹配。在一实施例中，指纹115的索引包括指纹115的一部分或散列。因此，指纹数据库125中的指纹115根据关于它们的有用识别信息而被索引。

在每个指纹115包括[(Y-1)×N/4]矩阵的比特的上述实施例中，索引器230使用来自最左列的比特作为索引。在每个指纹115是12×8的比特矩阵的实施例中，指纹115的索引可以是最左两列的比特(一共24比特)。这样，用作每个指纹115的索引的比特是基于用于计算该指纹115的特征向量的低频谱系数的指纹115子集。这些比特因而对应于经重采样和变换的频谱图带的低频成分，这些低频成分对适度的噪声和失真是稳定的、不敏感的。因此，具有更高概率水平的是，类似的指纹将具有该索引的相同数值。这样，索引可以用于对数据库中类似的和可能匹配的指纹进行标记和分组。

图3示出了根据本发明一个实施例的、使用上述索引将测试指纹与指纹数据库125进行匹配的方法。为了在指纹数据库125中为测试指纹找到匹配，匹配算法开始于如上所述为测试指纹计算(310)索引值。使用该索引值，获得(320)一组候选指纹，例如，这组指纹包括数据库125中具有相同索引值的所有指纹。如上所述，由于索引值的计算方式，很有可能数据库125中的任何匹配都在这组候选指纹中。

为了对这组候选指纹中的任何匹配进行测试，计算(330)测试指纹与每个候选指纹之间的比特错误率(BER)。两个指纹之间的BER是它们相对应的不匹配比特的百分比。对于无关的完全随机的指纹，BER预期为50％。在一个实施例中，在BER小于大约35％的情况下两个指纹是匹配的；然而，取决于对假阳性和/或假阴性的期望容差，可以使用其它的数字限制。此外，可以使用除了BER之外的计算或标准来比较两个指纹。例如，还可以使用BER的倒数度量、匹配率。此外，在比较两个指纹时，某些比特与其他比特相比可以被更高地加权。

如果在预定的匹配标准内没有匹配(340)，或者再没有索引要修改(350)，则匹配算法未能在数据库125中找到对测试指纹的任何匹配。系统然后可以继续搜索(例如，使用不那么受限的标准来获得候选指纹)或者可以停止。如果存在一个或多个匹配指纹(340)，则返回匹配指纹的列表(360)。

在一个实施例中，为了获得用于搜索匹配的不同的候选指纹组，系统可以在修改(370)计算出的指纹索引之后重复上述搜索。为了修改(370)计算出的指纹索引，可以翻转计算出的指纹索引的一个或多个比特。在指纹索引具有24个比特的一个示例中，在未能使用原始的指纹索引找到匹配之后，搜索步骤被重复24次，每次翻转24比特指纹索引的不同的单个比特。可以使用各种其他技术来扩大搜索空间。

在一个实施例中，指纹索引器230通过基于由声学模型235计算出并预先存储在数据库125中的一组频带权重因数从一个或多个指纹选择索引比特来产生一个或多个索引。当多个索引(包括通过比特翻转而获得的索引)被使用时，候选指纹组包括针对每个计算出索引而获得的所有候选。

在另一个实施例中，通过预先筛选和只选择在针对每个计算出的索引而获得的大多数或全部候选组中找到的指纹候选，来缩小搜索范围。通过使用多个索引(包括通过比特翻转而获得的索引)对多个指纹候选组进行预先筛选可以显著地提高数据库搜索的性能。在一个实施例中，可能的指纹候选的索引和参考被存储在计算机存储器中，从而可以对指纹候选进行快速选择和预先筛选。在第二步(步骤320)，只有与给定指纹具有最高匹配概率的指纹候选被加载到计算机存储器中并进行比较。该方法使得可以通过在计算机存储器中只保持小的索引而同时将更大的指纹存储在较慢的设备(例如，硬盘或通过网络)上来实现快速搜索。

检测音频帧的边缘

在一些应用中，可能希望检测匹配音频片段的边缘。边缘检测使得系统可以精确获知特定的匹配音频片段在何时出现。取决于所分析的音频的质量，边缘检测算法的实施例可能能够以大约0.1至0.5秒的精度检测匹配音频片段的边缘。

如上所述，指纹分析技术的实施例在子带处理缓冲器中累积音频样本。由于该缓冲，指纹分析算法的输出被延迟并在音频片段边缘被模糊(smear)。该效果在图4中示出，图4是音频片段的参考指纹与为进入的样本音频流随时间而产生的一系列指纹之间的比特错误率(BER)随着时间的图表。在所示的实施例中，子带缓冲器保持3秒的音频，并且当两个指纹具有35％或更低的比特错误率(BER)时，匹配被宣告。

最初，在时间T0，子带处理缓冲器是空的，并且产生的指纹因而与原始音频产生0个匹配(即，BER预期为大约等于50％)。随着音频样本被加到子带缓冲器，BER下降，指示更好的匹配。在足够的时间经过之后，BER在时间T1下降到阈值35％以下，指示出匹配。最后，在时间T2，随着缓冲器被样本填充，BER达到平稳状态。当指纹分析算法经过了相应音频片段的末端时，在时间T3，其开始产生匹配较低并因为具有逐渐增大的BER的指纹，在时间T4达到识别阈值35％。所获得的匹配曲线的持续时间(T1-T4)和平稳状态的持续时间(T2-T3)各自短于匹配音频片段的持续时间(T0-T3)。

在一个实施例中，边缘检测算法用于确定匹配的音频帧或片段的精确边缘。获得例如图4中所示的BER曲线。BER曲线被划分成区域，这些区域对应于BER逐渐下降的匹配开始(例如，T1-T2)、BER大致恒定的平稳状态(例如，T2-T3)和BER逐渐上升的匹配末端(例如，T3-T4)。由于真实的BER曲线通常将是有噪的，因此利用诸如回归分析之类的适当技术对其进行划分。在一个实施例中，所有产生30％以上BER的样本都被忽略，这是因为它们可能并不可靠。匹配的音频片段的起点(即，时间T1)然后可以被利用线性回归计算为：以最佳方式适合于逐渐下降的BER区域(例如，T1-T2)的线与对应于50％BER的水平线的相交。类似的方法可以用于估计时间T5，取以最佳方式适合于逐渐上升的BER区域(例如，T3-T4)的线与对应于50％BER的水平线的交点。然而，在这种情况下，时间T5对应于被延迟了子带缓冲器的持续时间B的片段终点，而不是匹配音频片段的实际终端。片段终点(即时间T3)的位置可以通过从所获得的估计T5减去子带缓冲器的持续时间B来计算。

在另一个实施例中，匹配音频片段的终点被估计为区域T2-T3的终点，并且音频片段的起点通过从T2时间减去子带缓冲器的持续时间B来计算，这对应于区域T2-T3的起点。

总结

尽管按照向量和矩阵进行了讨论，但是为任何指纹或子指纹计算的信息可被以任何形式存储和处理，而不是只作为值的向量或矩阵。术语“向量”和“矩阵”因而仅仅用作表示从音频样本提取的数据的便捷机制，并不意味着在任何其他方式中是受限的。此外，尽管按照频谱图讨论了功率谱，但是可以理解，代表音频信号的功率谱或谱分析的数据不仅可以被表示和使用为频谱图，而是也可以用任何其它合适的形式来表示和使用。

在一个实施例中，利用包括计算机可读媒介的计算机程序产品来实现软件模块，该计算机可读媒介包含计算机程序代码，该计算机代码可被计算机处理器执行以实现本文所述的任何和全部步骤、操作或处理。因此，本文所述的任何步骤、操作或处理可以利用单独的或者与其他设备相结合的一个或多个软件模块或硬件模块来执行或实现。此外，按照硬件元件描述的任何系统部分可以用软件实现，并且按照软件元件描述的任何系统部分可以用硬件实现，例如被硬编码到专用电路中。例如，用于执行所述方法的代码可以被嵌入在硬件设备中，例如，嵌入在ASIC或其它常用电路中。这使得本发明的益处可以与许多不同设备的能力相结合。

在另一个实施例中，指纹分析算法被嵌入在并运行于各种音频设备的任一种，这些音频设备例如是蜂窝电话、个人数字助理(PDA)、MP3播放器和/或录制器、机顶盒、电视机、游戏机或者任何其它存储、处理或播放音频内容的设备。将指纹分析算法嵌入在这样的设备中可能具有多个益处。例如，与通过蜂窝网络将压缩的音频从电话发送给指纹分析服务器相比，在蜂窝电话上直接产生音频指纹将提供更好的结果。在蜂窝电话上运行该算法消除了由GSM压缩造成的失真，GSM压缩被设计用于压缩语音并且对音乐的性能很差。因此，该方法可以显著提高对蜂窝电话所录制的音频的识别。其还降低了服务器上的负荷以及网络流量。

这样的嵌入式方法的另一个益处是在不侵犯隐私和用户权益的情况下监控收听体验的能力。例如，录音设备可以录制音频、创建指纹并然后仅将指纹发送给服务器以供分析。录制的音频从不离开该设备。服务器然后可以使用所发送的指纹来识别目标音乐或广告，尽管它不可能从指纹恢复原始音频。

为了说明的目的而给出了本发明的实施例的前述描述；其并不意欲是详尽的或者将本发明限制于所公开的精确形式。相关领域中的技术人员可以认识到，鉴于上述教导，许多修改和变体是可能的。因此本发明的范围意欲不由该具体实施方式限制，而是由附于此的权利要求书限制。

Claims

1.一种用于从音频帧提取音频指纹的方法，该方法包括：

将所述音频帧滤波至多个频带中以产生相应的多个滤波后的音频信号，其中这些频带随时间变化而不同；

基于相应频带的频率对每个滤波后的音频信号的大小在时间上进行缩放；

随着时间变化从不同的相应频带中进行采样，从而对缩放和滤波后的音频信号进行重采样以产生重采样音频信号；

对所述重采样音频信号进行变换从而为每个重采样音频信号产生特征向量；和

基于特征向量计算所述音频指纹。

2.如权利要求1所述的方法，其中缩放所基于的频率是所述相应频带的中心频率和频率范围中的至少一者。

3.如权利要求1所述的方法，其中对重采样音频信号进行变换包括沿着时间轴执行变换。

4.如权利要求1所述的方法，其中对重采样音频信号进行变换包括：

沿着时间轴对所述重采样音频信号进行变换；和

沿着频率轴对所述重采样音频信号进行变换。

5.如权利要求4所述的方法，还包括对所述重采样音频信号进行大小缩放、加窗和归一化。

6.如权利要求1所述的方法，其中对重采样音频信号进行变换包括执行二维离散余弦变换(2D DCT)。