CN1623289A

CN1623289A - 基于特征的音频内容识别

Info

Publication number: CN1623289A
Application number: CNA028286847A
Authority: CN
Inventors: M·C·皮特曼; B·G·菲奇; S·艾布拉姆斯; R·S·杰曼
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2002-04-05
Filing date: 2002-04-05
Publication date: 2005-06-01
Anticipated expiration: 2022-04-05
Also published as: EP1497935B1; EP1497935A4; WO2003088534A1; KR20040101299A; DE60225190D1; AU2002254568A1; ATE386999T1; EP1497935A1; JP4267463B2; JP2005522744A; DE60225190T2; KR100754294B1; CN100545834C

Abstract

根据半音音程分析音频(402－406)并对于每个半音频道计算平均值(408－410)。对于每个半音频道计算移动平均值(412)并比较这些平均值以了解它们是否相交(414、416)。标记出相交事件并利用该些相交事件以及频谱数据以确定存储的声音模式和输入音频之间的匹配。

Description

基于特征的音频内容识别

对相关申请的交叉引用

本申请基于2000年11月3日提交的美国临时申请60/245,799，并要求该临时申请的优先权，在此将该临时申请的整个公开内容引入作为参考。

技术领域

本发明涉及信号识别，更具体地涉及一种自动识别音频内容例如录音的方法。

背景技术

用于音频的高效的数字编码方法(例如活动图像专家组第三层标准，也称MP3)的发展以及因特网的出现使得完全电子地销售和发行录制的音乐成为可能。这对录音工业是一个潜在的实惠。然而不利的一面是这种技术优势也为非法发行音乐提供了帮助。这对录音艺术家和音乐发行人的产权利益(propriety interest)造成了威胁。与在数字音频出现之前有限地将音乐拷贝到盒式录音磁带上相比，可以容易地发行在连续多次制作中也不降低质量的高保真数字拷贝对于音乐工业来说是更大得多的问题。目前，存在许多个人可以从中非法获得受版权保护的音乐的非法拷贝的因特网网站。因此，为了加强音乐版权保护，需要一种用于自动识别音频内容的系统和方法。

从数字音频文件例如MP3文件中识别音乐不是一个小问题。对于同一首歌曲，不同的编码方案将产生不同的位流。即使使用同样的编码方案对同一首歌曲进行编码(例如录音)并生成两个数字音频文件，这些文件在位的层级上也不一定匹配。不同的效应会导致位流存在区别，即使所产生的声音区别在人们的感觉中是可以忽略的。这些效应包括：录音系统的总的频率响应的微小区别、数字到模拟的转换效应、音响环境效应例如回响以及录音开始时间的微小区别。另外，由应用给定的编码方案产生的位流将根据音频源的类型发生变化。例如，通过对激光唱盘(CD)的输出进行编码而生成的歌曲的MP3文件在位的层级上将不会与通过对立体声收音机的输出进行编码得到的同一首歌曲的MP3文件相匹配。

已提出的一种解决方法是使用数字水印对受版权保护的音乐加标签。遗憾地是，已发现许多方法来使数字水印难以辨认。另外，存在人完全可听见的多种形式的噪声和失真，但是它们不妨碍我们欣赏音乐的能力。与CD录音相比调频广播和盒式录音磁带都具有较低的带宽，但是它们仍为一些收听者的拷贝和欣赏。同样，因特网上的许多MP3文件具有比较差的质量，但是这些MP3文件仍广泛传播并因此对音乐工业的盈利能力形成威胁。此外，一些故意规避版权保护的方法包括故意地改变音乐或使音乐失真。这些失真包括时间拉伸和时间压缩。在这些情况中，不仅开始和停止时间会不同而且歌曲的持续时间也会不同。人们可能几乎察觉不到所有这些差别，但是这些差别会使许多传统的版权保护方法失败。

需要一种即使在例如录音、广播、编码、解码、传播和故意改变的过程中出现音频内容的微小的差别和改变也能识别音频内容例如录音的方法。

附图说明

图1是一示例性网络的示意图，在该网络上可以实施本发明的一优选

实施例。

图2是一根据本发明的一优选实施例的用于识别音乐的软件的框图。

图3是一用于使用本发明的一实施例在网络上找到并识别音频文件的过程的流程图。

图4A和4B是一根据本发明的一优选实施例的用于从音频片断中识别事件的过程的流程图。

图5是一用于从由图4A和4B中示出的过程生成的事件中生成键的过程的流程图。

图6是一根据本发明的一优选实施例的用于从一键生成器缓冲区的内容中生成键的过程的流程图。

图7是一根据本发明的一优选实施例的用于滤除冲击事件的过程的流程图。

图8是一使用键对两个音频片断进行比较的过程的流程图。

具体实施方式

从下面详细的描述中可清楚地了解本发明的目标、特征和优势。然而应理解，尽管给出详细的描述和具体例子以指示本发明的优选实施例，但是给出的详细的描述和具体例子只是为了进行说明，而且可以在不偏离本发明的情况下自然地进行各种修正。

图1是一示例性网络100的示意图，可以在该网络上实施本发明。该网络包括分别通过第一双向数据链路108和第二双向数据链路110通信地连接到一例如因特网的网络106的第一Web服务器102和第二Web服务器104。该第一和第二Web服务器102和104具有用于存储包括可以被客户端下载的音频文件的文件的文件存储器例如硬盘。

第一客户端计算机112和第二客户端计算机114分别通过第三双向数据链路116和第四双向数据链路118通信地连接到网络106。该第一和第二客户端计算机可以从该第一和第二Web服务器上下载包括音频文件的文件。这些所述的网络元件描述了一个用于可分发音乐的系统。存储音乐录音的音频文件保存在Web服务器102和104中。

一版权保护客户端计算机(CECC)120通过第五双向数据链路122通信地连接到该网络106。提供一计算机可读的存储器介质124例如CD-ROM来将软件加载到该CECC以执行例如下面将要详细描述的方法。例如，该软件可运行以遍历(spider over)(即搜索)网站例如寄存在该第一和第二Web服务器102和104上的网站，检索该网站中包含的音频文件并识别该些音频文件(例如识别该些音频文件中包含的歌曲)。

该第一和第二Web服务器102和104、该客户端计算机112和114以及该CECC可以是任何常规的计算机系统例如IBM PC-兼容计算机。已知每个IBM PC-兼容计算机可包括一微处理器、基本输入/输出系统只读存储器(BIOS ROM)、随机访问存储器(RAM)、硬盘驱动器存储装置、可移动的计算机可读介质存储装置(例如一CD-ROM驱动器)、一视频显视适配卡、一网络接口(例如调制解调器)，一键盘、一指点设备(例如鼠标)、一声卡和扬声器。

该第一到第五双向数据链路108、110、116、118和122可能包括数字用户线路(DSL)、T1链路或拨号调制解调器连接。该第一和第二Web服务器102和104可以具有在UNIX操作系统下运行的Apache Server Web服务器软件(由Apache Software Foundation of Lincoln，Nebraska生产的)。该第一和第二客户端计算机114和116可以安装有在Windows操作系统(由Microsoft Corporation of Redmond，Washington生产的)下运行的Web浏览器例如Netscape Navigator(由America Online of Dulles，Virginia生产的)。该Web浏览器优选地与用于对音频文件解码并向该声卡提供音频信号的插件式应用程序一起运行。或者，可提供一单独的应用程序或专用的硬件来对音频文件解码以进行重放。该两个Web服务器102和104、该两个客户端计算机112和114以及该CECC也可安装有通信协议栈软件以便建立网络连接例如TCP/IP连接。另外，该CECC安装有一操作系统(例如Windows或UNIX)和一CECC应用程序，例如以下面参照图2-8所述的方式运行的一个应用程序。

图2是一根据本发明的一优选实施例的用于识别音频内容的软件的框图200。一Web服务器应用202包括一包含一个或多个音频文件(例如MP3格式的)的文件系统204。该Web服务器应用202与一能够支持网络(例如TCP/IP)连接的服务器侧通信协议栈206共同运行。该Web服务器应用202和服务器侧通信协议栈206在该第一和第二Web服务器102和104上运行。在该服务器通信协议栈106和一客户端通信协议栈210之间建立一TCP/IP连接208。一版权保护应用212使用该客户端通信协议栈。

该版权保护应用包括一Web遍历模块214和一内容识别模块216。该网络遍历模块214搜索各网站以获得音频文件。当找到一音频文件时，将该音频文件下载来进行分析。该内容识别模块216从该网络遍历模块214接收音频文件并对它们解码以获得音频信号信息。该内容识别模块包括一包含得自许多歌曲的许多键的键数据库。对于该数据库内的每首歌曲(即录音单元)存在一组键。该一组键提供了一种识别一首歌曲或一首歌曲的一个片断的方法。一首歌曲的一部分将具有允许该部分被识别的相应的键子集，从而保持了识别仅一首歌曲的一部分是否存在的能力。

该键数据库优选地采取键表的形式。该键表的每一行包括一位于第一列内的键序列、一位于第二列内的时间组值和一位于第三列内的歌曲ID(例如标题)。通过将一键生成程序应用到已知歌曲并将每个从该键生成程序中得到的键与该键数据库内的标题相关联构建该键数据库。该时间组是从中得到一键的一音频特征发生的时间(以相对于该歌曲的开始时间的一预先确定的间隔的单位进行度量)。每个时间组包括在等于该预先确定的间隔的时间段中发生的事件(下面将对事件进行解释)。同一首歌曲的两个不同的录音，特别是在非法拷贝的情况下，开始时间可能稍微不同(例如一音频文件可能在该歌曲的实际开始时间的之前或之后几秒开始)。这种不一致是比较两个音频文件时的一个难题，本发明克服了这个难题。

图3是一根据本发明的一实施例的过程300的流程图，该版权保护模块210执行该过程以在因特网(例如Web或FTP站点)上查找并识别音频文件。在步骤302中，该网络遍历模块214遍历因特网的一部分并找到若干音频文件。识别音频文件的一种方法是将在网页内找到的统一资源标识符(URI)的文件扩展与一已知的音频文件扩展列表相比较。在步骤304中该网络遍历模块214下载在步骤302中找到的音频文件。

在步骤306中，该内容识别模块218使用一种为每个音频文件生成一唯一的签名(优选地是一组键)的算法对在步骤304中下载的音频文件进行分析。在步骤308中使用该唯一的签名查找可在一受版权保护的录音(例如歌曲)的数据库中识别出的诸如每个音频文件的标题等信息。在步骤310中将该受版权保护的歌曲的标识(例如它的标题)和在万维网上找到它所在的URI记录下来和/或传送给第三方(例如版权所有者)。因而，可汇编与一给定的受版权保护的作品相对应的一URI列表，以用于版权保护诉讼中。

图4A是一根据本发明的一优选实施例的用于为一音频片断(例如歌曲)生成一事件流的过程400的流程图的第一部分。该过程400接收一输入的音频信号并输出一个“事件”序列。在本发明的一些实施例中，该音频信号是从一MP3文件中再生的。在步骤402中，对一音频信号采样。在一个实施例中，在大约22050Hz或更低的频率上对该音频信号进行采样。这使得最高达11KHz的频率分量可以被精确的确定。使用一大约11KHz的频率上限是有利的，因为11KHz大约是FM广播收音机的截止频率，并且希望无论一首歌曲录音在某一时刻是通过FM收音机传送的还是直接从一高质量源(例如CD)得到的，都能够为一首歌曲生成同样一组键。

在步骤404中，对于每个连续的测试周期计算该音频信号的频谱。该测试周期的持续时间优选地从大约1/43秒到大约1/10.75秒，更优选地该测试周期是大约1/21.5秒。优选地使用一快速傅立叶变换(FFT)算法分析该音频信号的频谱。通过将在几个连续的周期(样本集)上应用该FFT得到的结果进行平均可以提高使用一FFT算法得到的频率信息的精确性。在本发明的优选实施例中，通过将在两个或更多个连续的周期，优选地是3个或更多个连续的周期，以及更优选地是4个连续周期上应用该FFT得到的结果进行平均提高了频谱信息的精确性。根据本发明的一示例性的实施例，通过以22050Hz的速率对一音频信号采样，并将在4个连续周期(每个周期的持续时间是2/21.5秒并包括2048个样本)上应用一FFT算法得到的结果进行平均，可得到与一给定的持续时间为1/21.5秒的测试周期相关联的频谱。

使用在CECC 120的微处理器上运行的一FFT算法可以完成步骤404。或者，该CECC可以具有用于执行步骤404的FFT硬件。或者可使用用于执行步骤404的其它频谱分析器，例如滤波器组。另外，在步骤404中可选择地可以将连续的样本集投影到除傅立叶基之外的其它类型的基上。可替换该傅立叶基的一种特定的基是小波基。与傅立叶基函数类似，小波基函数也局部化于频域内(尽管是在较小的程度上)。小波函数的附加特性是它们也局部化于时域内。这开辟了这样的可能性，即将该音频信号作为一个整体投影到一小波基上而不是将该音频信号的连续样本集投影到小波基上，并获得信号的依赖于时间的频率信息。

用于作曲的通用的一组频率是等程音阶(even-tempered scale)的音调。该等程音阶包括在对数刻度上等间隔分布的音调。每个音调覆盖一个称为一“半音”的频带。发明人已经确定，通过在离散的半音频带而不是在由FFT算法输出的间隔均匀的频带中收集谱功率可获得改进的签名。在步骤406中，将在步骤404中获得频谱信息(例如傅立叶频率分量)收集到多个半音频带或频道上。

在步骤408中，在该最后的T1秒上得到每个半音频道内的功率的第一平均值。在步骤410中，在该最后的T2秒上得到每个半音频道内的功率的第二平均值，其中T2大于T1。T1优选地从大约1/10秒到1秒。T2优选地是T1的2到8倍。根据本发明的一个示例性实施例，T2等于1秒而T1等于四分之一秒。当上述第一平均功率值与该第二平均功率值相交时发生上面提到的“事件”。

在步骤412中，记录下每个半音频道的该第一和第二平均值。进行记录从而可以在后面的测试周期中确定该第一平均值是否与该第二平均值相交。在步骤414中，对于每个半音频道确定该第一平均值是否与该第二平均值相交。这可以通过将当前测试周期内的该第一和第二平均值之间的不等关系与上一个周期内的不等关系相比较而实现。尽管在上面讨论中仅在两个平均值间进行比较，但是根据本发明的其他可选择的实施例可以使用两个以上的平均值，并将事件确定为该两个以上平均值的不同子组合之间的交点。

在一半音频道的一极值(局部最大值或最小值)附近，该两个平均值将相交。可以使用另一类型的峰值检测器(例如一电子电路)，而不是寻找具有不同平均周期的两个移动平均值的交点。这可以有利地和本发明的一个实施例中的一FFT联合使用，该FFT主要是用硬件而不是软件实现的。

可以使用另一类型的曲线特性例如一拐点作为一触发事件，而不是在一频道内寻找该信号的一个峰值。通过处理一给定频道内的三个连续的功率值来计算一频道的二阶导数，并且识别该二阶导数从正变到负或从负变到正的一个时刻，可以找到一拐点。在下面的公式中使用连续三个点的函数(依赖于时间的频率分量)值可以近似得出该二阶导数。

(F(N+2)-2F(N+1)+F(N))/ΔT²

其中F(I)是第i个时间(例如第i个测试周期)的函数值，ΔT是连续的函数值之间的间隔(例如该测试周期的持续时间)。

在一依赖于时间的频率分量的一极值处，它的一阶导数等于零。在一依赖于时间的频率分量的一拐点处，它的二阶导数等于零。极值点和拐点都是事件的种类。更一般性地，事件可以定义为满足这样一个方程的点(即时间内的点)，该方程涉及该些依赖于时间的频率分量的一阶或多阶依赖于时间的频率分量的导数和/或涉及该些依赖于时间的频率分量的积分。为了使它们可用于识别不同的音频内容，该“事件”定义中必要的一部分是它们在测试周期的子集中发生而不是在每个测试周期发生。

步骤416是一个判断块，它的输出依赖于一半音频道的平均值是否相交。为每个半音频道检验步骤416。如果在当前的测试周期中一半音频道的平均值不相交，则在步骤418中确定该音频信号是否结束。如果该音频流结束了，则过程400结束。如果该音频信号没有结束，则过程400进入下一个测试周期，并且该过程从步骤404继续进行。如果另一方面在上一个测试周期中的平均值确实相交了，则该过程400从步骤422继续进行，在该步骤中将每个事件分配给当前的时间组并且生成与该平均值相交事件有关的信息。

事件信息优选地包括事件的时间组、事件的测试周期、事件的半音频带和相交时的快速平均值(T1上的平均值)。可以在与该CECC相关联的一存储器或存储设备中记录事件信息。每个时间组覆盖的时间段要长于一个测试周期，优选地时间组覆盖从1/4到2秒的连续时间段，更优选地每个时间组覆盖从1/2到3/4秒的时间段。将事件分成连续的时间组有这样的好处，即通过处理该同一首歌曲的两个录音所得到的键将倾向于更完全地匹配，尽管该一个或两个录音可能会存在一些失真(例如在磁带上录音的过程中发生的失真)。

在步骤424中，过程400进入下一个测试周期。在步骤426中确定该音频片断(例如歌曲)是否结束。如果该音频片断结束了，则该过程400结束。如果该音频片断没有结束，则递增该测试周期，并且过程循环返回到步骤404。

因此，该过程的结果是接受一音频信号并生成多个事件。将每个事件分配给它发生于其中的一个半音频带和它发生于其中的一个时间组(间隔)。该些事件可存储在一存储器(例如CECC 120中的RAM)内。该些事件可存储在一缓冲区内，一个或多个键生成器过程可从该缓冲区中连续读取该些事件。该过程的事件输出可以采取一事件流的形式，也就是说在每个时间组后，可将该时间组内发生的所有事件写入存储器从而在以后的处理中可以使用这些事件。或者可以一次将一首歌曲的所有事件写入存储器中。

图5是一用于从由如图4A和4B所示的过程生成的事件中生成键的键生成器过程的流程图。由多个键生成器过程500对由过程400输出的事件进行处理。将该多个键生成器过程中的每一个分配给一个被指定为其主频率的半音频带。然而，每个键生成器也使用在接近它的主频率的其它半音频带内发生的事件。优选地每个键生成器监视5到15个半音频带。如果受监视的半音频带的数量过少，则得到的键将不能很好地表现该特定音频片断的特性。另一方面，频带的数量较大则会导致用于计算和比较键的计算代价较高，用于存储键的存储器需求较大，以及由键的数量增加导致的键表中的键饱和而引起的潜在的性能降低。根据本发明的一个实施例，每个键生成器监视它的主半音频带和4个其它的半音频带，在该主半音频带的每一侧上有两个。

现在参照图5，在步骤502中监视由过程400输出的事件的每个连续时间组，以检测在分配给这个键生成器的半音频带内发生的事件。步骤504是一个判断块，其输出依赖于该键生成器是否在步骤502中检测(例如通过从存储器中读取)到任何新的事件。如果没有，则在步骤514中，过程500递增到下一个时间组，并循环返回到步骤502。另一方面，如果在该检测的时间组和半音频带内确实有新事件发生，则在步骤506中将该新事件写入当前的键生成器的键生成器缓冲区中，并删除存储在该键生成器缓冲区中的最旧的时间组的事件。在一个示例性实施例中，该缓冲区可以看做是一个阵列，其中行对应于时间组，而列对应于频带。因此，在上面提到的本发明的实施例中，将有用于受到每个键生成器监视的每个半音频带的5列。

该键生成器的缓冲区优选地包括来自3到7个时间组的事件。更优选地在每个键缓冲区阵列中保持来自5或6个时间组的事件。应注意在这个实施例中，不是所有的时间组都在该键生成器缓冲区中出现。如图5所示，如果在某一时间组内在一键生成器的半音频带内没有事件发生，则该键生成器缓冲区将不发生变化。换句话说，将不会记录一空白行。因此在该键生成器缓冲区中记录的每个时间组包括至少一个事件。

步骤508是判断块，其输出依赖于在当前时间组(例如程序循环的当前一轮循环)内发生的一事件是否是一触发事件。根据本发明的一个优选实施例，一个触发事件是一个在分配给这个键生成器的主频率上发生的事件。如果触发事件没有发生，则该过程循环返回到步骤514。如果确实有触发事件发生，则该过程继续进行到步骤510，在该步骤中从该键生成器缓冲区的内容中生成键。过程500继续执行，直到已经处理完由过程400产生的所有事件。

图6一根据本发明的一实施例的用于从键生成器缓冲区的内容中生成键的过程的流程图。具体地说，该过程600详细地示出了实现图5的步骤510的一个实施例。在步骤602中，对于每个键生成器(如上面解释地，存在执行过程500的多个键生成器)和当前的键生成器的每个触发事件，从键生成器缓冲区中选择一个或多个不同的事件组合。在每个组合中仅包括来自每个时间组的一个事件。(每个键生成器缓冲区中每个时间组可能有一个以上的事件)。根据本发明的一个优选实施例，不是选择所有可能的组合，而是只选择与每个事件相关联的功率从该组合中的一个事件到另一个单调变化的组合。

在这个实施例中，一组合内的事件的顺序与该时间组顺序相对应。与每个事件相关联的功率优选地是在发生该事件的测试周期内的快速(第一)平均值的量值。在这个实施例中，不会获取所有可能的键组合，从而一个给定的音频片断的键的总数将倾向于减小，这样将降低存储器和处理功率的需求。另一方面，将存在足够的键，从而从一歌曲中生成的一组键可以很好地表征该歌曲是哪一首歌曲(即与之强相关)。根据另一实施例，仅从该键生成器缓冲区的内容中选择一个组合。该单个组合包括来自每个时间组的与最高的快速平均功率相关联的事件。根据另一可选择的实施例，获取所有不同的从每个时间组中获取一个事件而形成的事件组合。

在步骤604中，对于每个选定的事件组合形成一个键序列，该键序列包括一个针对在步骤602中形成的每个组合中的事件序列的频率偏移(相对于该主键生成器频率)数值序列。每个频率偏移是该事件发生所在的半音频带的频率和该键生成器的主频率的差。在步骤606中，将该触发事件的测试周期信息(例如该触发事件的测试周期的序号，其中将每首歌曲的第一测试周期的序号指定为1)与该键序列相关联。

在步骤608中，将包括该键序列和该测试周期信息的键与一首歌曲(或其它音频)的标识符或ID(例如标题)相关联。在用已知的歌曲构建一个未知的歌曲将与之比较的歌曲数据库的情况下，过程600包括步骤608。如下面将参照图8所述的，在比较两首歌曲时，将使用两首歌曲的键序列和测试周期信息这两者。该歌曲数据库采取的形式可以是一包括三列和多个行的表。其中第一列包括键序列，下一列包括与该键序列相关联的相应的测试周期，最后一列包括该歌曲的一标识，从该标识可以获得该行中的键。

尽管可以使用上面描述的过程来识别音频内容，但是滤除冲击事件是有利。更具体地，一个歌曲中的冲击声音如果不滤除，则通常在过程400的事件输出中占很大的百分比。为了节省计算机资源(例如存储器或处理功率)并获得一组更能表现特征的键，希望减少冲击事件的数量，例如通过在该键生成器过程500处理事件之前消除一些冲击事件。发明者已认识到冲击声音会导致在相同测试周期中在相邻半音频带内触发事件。例如，冲击声音会导致事件在两个或更多个相邻的半音频带的一序列中发生。

图7是在一优选实施例中使用的从由图4A和4B中的过程生成的事件中滤除冲击事件的过程的流程图。在步骤702中，对于每个连续的测试周期确定在两个或多个相邻的半音频带的一序列内是否发生多个事件。步骤704是一个判断块，其输出依赖于是否在诸相邻频带内发生多个事件。在该过程中使用一个发生在诸相邻频带内的事件的某预定数量的阈值。优选地，将必须在其中找到事件(以便考虑该些事件是由一冲击声音产生的)的相邻频带的数量的下限设为3或更大。根据本发明的一个实施例，为了使步骤704的输出是肯定的，事件必须在三个连续半音频带内发生。

如果步骤704的结果是否定的，则过程继续执行步骤708，在该步骤中过程递增到下一个测试周期并循环返回到步骤702。另一方面，如果步骤704的结果是肯定的，则过程700继续执行步骤706，在该步骤中将在相同测试周期中在相邻频带内发生的每个事件序列削减到一单个事件。从过程400生成的事件流中删除除了该序列中具有最高快速平均值的事件以外的所有事件。或者，可以保留最高达某一预先确定的数量的事件而不是删除除了一个以外的全部事件。

上面描述的过程根据录音中包含的特征(例如事件)为该录音生成键。因此，在存储阶段，可针对已知音频内容运行该过程以构建一个已知音频内容的特征数据库。在生成该数据库后，在检索阶段可使用上述过程从未知音频内容中提取特征，然后可以访问该数据库以根据该提取的特征确定音频内容。例如，可针对未知的音频内容运行同样的过程以实时地(或更快地)提取特征，然后通过数据库中的最佳匹配来识别该音频内容。在一个实施例中，可对于该音频内容的每个预先确定的间隔(例如10到30秒)报告一个最佳匹配。

图8是一使用在图5和6的过程中生成的键来识别一音频片断的歌曲识别过程的流程图。使用一歌曲数据库(例如上面所述的)来识别一未知的歌曲，例如在过程300的步骤304中从一网站上下载的歌曲。该歌曲数据库的键序列字段(列)可用作一数据库键码。该歌曲数据库的记录(行)优选地存储在一散列表中以便直接查找。该识别过程800是图3的步骤308的一示例性的实现。

在步骤802中，从一首将要被识别的歌曲中生成诸键(例如，通过执行图5和6所示的过程)。在步骤804中，在一包含多首歌曲的键的歌曲数据库中查找步骤804中生成的一组键中的每一个。每个键的键序列部分(与测试周期部分相对)用作一数据库键码。换句话说，搜索该歌曲数据库以寻找任何具有与从该要被识别的歌曲得到的键的键序列相同的键序列的条目。在歌曲数据库中可以有超过一个的键具有相同的键序列，而且偶然情况下歌曲数据库中的一首以上的歌曲可共有相同的键序列。在步骤806中，对于(通过键序列)与该歌曲数据库中的一个或多个键相匹配的该数据库中的每个键，通过计算与该正在查找的键相关联的一测试周期和与该歌曲数据库内每个相匹配的键相关联的一测试周期之间的差来计算一偏移量。

在步骤808中，将该些偏移量收集到偏移时间组中。该些偏移量的偏移时间组与在键生成中使用的时间组是截然不同的。根据一个优选实施例，一偏移时间组将等于2到10个测试周期。作为说明，如果每个偏移时间组是5，则将在步骤806中确定其差值在0到5之间的任何一对键分配给第一偏移时间组，将在步骤806中确定其差值在6到10之间的任何一对键分配给第二偏移时间组。根据本发明的一个示例性实施例，每个偏移时间组等于5个测试周期。

在步骤810中，对于每个具有与要被识别的歌曲中的键相匹配的键的歌曲和每个在步骤808中确定的并涉及该歌曲数据库中的一给定歌曲的键的偏移时间组值，计算具有相同的时间组偏移值的匹配键的数量。可以用下面的方式来使步骤810形象化，该方式也可以用作一种实现方法的基础。创建一个临时表，其中每行对应于来自歌曲数据库的具有与要识别的歌曲相匹配的一个或多个键的一首歌曲。第一列包括歌曲的名称。在第二列中，与每个歌曲名称相邻，存在一个偏移时间组值，该值是在该歌曲数据库中的该指定名称的歌曲的键和来自要识别的歌曲的相匹配键之间找出的。在步骤810完成后，第三列将包括与在第一列中确定的一具体的歌曲相应的、并具有与在第二列中确定的相同的偏移时间组的键匹配的计数。

表1

歌曲标题	偏移值(以时间组间隔为单位)	这个歌曲的和具有这个偏移值的键序列匹配的计数
歌曲标题	偏移值(以时间组间隔为单位)	这个歌曲的和具有这个偏移值的键序列匹配的计数	标题1	3	1
标题1	4	1	标题1	3	1
标题1	4	1	标题2	2	2
标题2	3	107	标题2	2	2
标题2	3	107	标题3	5	1
标题2	8	1	标题3	5	1

如果要识别的歌曲存在于该数据库中，则一个特定的时间组偏移值将积累到一个高的计数。换句话说，将发现大量的键的匹配对具有某特定的偏移时间组值。在上面的例子中，标题为标题2的歌曲对于值为3的偏移时间组的计数是107。例如，因为正在识别的该特定录音比用于为歌曲数据库生成键的歌曲的录音晚开始了几秒钟，或因为正在识别该歌曲的小片断，所以该时间组偏移可能增加。

在步骤812中，识别来自歌曲数据库的具有最高计数的具有同一偏移量的匹配键的歌曲。在判断块814中，将该计数与一阈值相比较。可根据该特殊应用，或通过确定在歌曲实际匹配时发现的最高计数的最小值和当该测试的歌曲与该数据库内的任何歌曲都不匹配时发现的最高计数的最大值，来设定该阈值。所使用的阈值也依赖于为上面讨论的步骤602选择的具体实施例，因为这确定了键的总数。

除了将该计数与一个阈值进行比较外，在步骤812中可以将一阈值和该最高计数与从要识别的歌曲中生成的键的总数的比率相比较。另一种可选择的方法是将一阈值和该最高计数与剩余计数的平均值的比率相比较。后面两种方法也可以看做是将该最高计数与一阈值相比较，尽管在这些情况中该阈值是不固定的。如果该计数不满足该阈值标准，如当要识别的歌曲在该数据库中不存在时出现的情况，则该歌曲识别过程800结束。可提供额外的步骤来报告(例如向用户报告)没有识别出将要被识别的歌曲。如果另一方面该计数符合该阈值标准，则在步骤814输出识别出该具有最高计数(该最高计数符合阈值标准)的歌曲的一信息。在进一步的实施例中，使用本发明的过程来识别歌曲片断。

因此，本发明提供了用于识别歌曲的方法，该方法在处理失真和变化的能力方面是健壮的。此外，该方法在计算复杂度和存储器需求方面也是高效的。在优选实施例中，用于生成一事件流、滤除冲击事件、生成键并在一歌曲数据库中查找该些键的过程是实时进行的。在优选实施例中这些过程的计算代价足够低，从而它们可以在一常用的个人计算机上实时运行。

本发明可以在硬件、软件或硬件和软件的组合中实现。任何种类的计算机系统——或适应于执行这里描述的这些方法的其它装置——都适合。硬件和软件的一种通常的组合可以是一具有一计算机软件的通用计算机系统，当该软件被装载和执行时控制该计算机系统从而该计算机系统可以执行这里描述的方法。

还可以将本发明嵌入到一计算机程序产品中，该计算机程序产品包括使上述方法能够实现的所有特征，并且当该计算机程序产品被装载到一计算机系统中时可以执行这些方法。在本语言环境中的计算机程序手段或计算机程序是指以任何语言、代码或符号表述的一组指令的任何表达，其旨在使得一具有信息处理能力的系统直接执行一特殊功能，或者在a)转换到另一种语言、代码或符号和b)以一种不同的材料形式重现这两个步骤中的一个或两者之后执行该特殊的功能。每个计算机系统可以包括一个或多个计算机和至少一个允许计算机从计算机可读介质中读取数据、指令、信息或信息包和其它计算机可读信息的计算机可读介质，以及其他。该计算机可读介质可包括非易失存储器例如ROM、闪速存储器、磁盘驱动器存储器、CD-ROM和其它永久性存储器。另外该计算机介质还包括例如易失存储器，例如RAM、缓冲器、高速缓存，以及网络电路。此外，该计算机可读介质可以包括一暂时状态介质中的计算机可读信息，该暂时状态介质例如有网络链路和/或网络接口，包括有线网络或无线网络，其允许计算机读取该计算机可读信息。

尽管已描述和说明了目前所认为的本发明的优选实施例，但本技术领域内的技术人员应理解在不偏离本发明的实际范围的情况下可进行各种其它的修正并且用等价物代替。另外，可以在不偏离这里描述的本发明的中心创造性概念的情况下进行许多修正以使得特殊情况适应本发明的讲授内容。因此，应理解本发明并不局限于公开的具体实施例，而是本发明包括落在所附权利要求的范围内的所有实施例。

Claims

1.一种用于识别音频内容的方法，所述方法包括如下步骤：

获得一以一依赖于时间的功率谱为特征的音频信号；

分析该功率谱以获得多个依赖于时间的频率分量；以及

在该多个依赖于时间的频率分量中检测到多个事件。

2.根据权利要求1的方法，其特征在于，该检测步骤包括在该多个依赖于时间的频率分量中检测到多个极值的子步骤。

3.根据权利要求1的方法，其特征在于，还包括如下步骤：

检测到在一组相邻的依赖于时间的频率分量内大约同时发生的一组事件；以及

选择该一组事件的子集以进一步进行处理。

4.根据权利要求1的方法，其特征在于，还包括确定与每个事件相对应的一依赖于时间的频率分量功率的步骤。

5.根据权利要求1的方法，其特征在于，该分析步骤包括下列子步骤：

对该音频信号采样以获得多个音频信号样本；

从该多个音频信号样本中取得多个子集；

对于该多个子集的每一个进行一傅立叶变换以获得一组傅立叶频率分量。

6.根据权利要求5的方法，其特征在于，该分析步骤还包括将从该多个子集中选择的两个或两个以上的连续子集中获得的相应的傅立叶频率分量进行平均的子步骤。

7.根据权利要求6的方法，其特征在于，该分析步骤还包括将诸傅立叶频率分量收集到多个半音频带内的子步骤。

8.根据权利要求1的方法，其特征在于，该检测步骤还包括如下子步骤：

使用第一平均周期计算该多个依赖于时间的频率分量的第一子集中的每一个频率分量的第一移动平均值，以对于该多个依赖于时间的频率分量的每一个，获得在一组连续时间上的第一平均功率序列；

使用与该第一平均周期不同的第二平均周期计算该多个依赖于时间的频率分量的该子集中的每一个频率分量的第二移动平均值，以对于该多个依赖于时间的频率分量的每一个，获得在该组连续时间上的第二平均功率序列；以及

在该第一移动平均值与该第二移动平均值相交的多个事件时间上识别多个平均值相交事件。

9.根据权利要求8的方法，其特征在于，

该第一平均周期介于1/10秒到1秒之间，并且

该第二平均周期是该第一平均周期的2到8倍。

10.根据权利要求1的方法，其特征在于，该方法还包括将该多个事件收集到多个时间组内的步骤，该多个时间组的每一个覆盖一时间间隔。

11.根据权利要求10的方法，其特征在于，该方法还包括如下步骤：

响应于在每个该多个依赖于时间的频率分量中检测到每个事件，从在多个时间组内和多个依赖于时间的频率分量内发生的多个事件中选择一个或多个事件组合。

12.根据权利要求11的方法，其特征在于，该选择步骤包括下列子步骤：从在多个时间组内以及在多个依赖于时间的频率分量内发生的多个事件中选择一个或多个事件组合，从每个时间组中每次仅提取一个事件。

13.根据权利要求11的方法，其特征在于，该方法还包括从该一个或多个组合中形成多个键的步骤，其中该多个键的每一个包括一将与该事件组合相关联的时间和一包含该组合内的每个事件的信息的键序列。

14.一种用于形成音频信号录音的一部分的识别特征的方法，所述方法包括：

将该音频信号的该部分傅立叶变换到在第一组频率上消耗的音频功率的一时间序列；

将该些频率收集到一数量较小的第二组频带内，第二组频带的每一个包括一定范围的相邻频率；

在该些频带的每一个内检测功率消耗事件；以及

在一所选择的时刻将彼此相邻的频带内的该些功率消耗事件收集到一起以便形成该识别特征。

15.根据权利要求14的方法，其特征在于，该方法还包括在一预先确定的周期上对该些频带的每一个内的功率消耗进行积分。

16.根据权利要求15的方法，其特征在于，该些功率消耗事件的每一个是在不同长度的时间段上的诸滚动(rolling)能量消耗水平的一个交叉。

17.一种确定一个音频流是否包括一已知的音频信号录音的至少一部分的方法，所述方法包括下列步骤：

使用权利要求14的方法根据该已知录音的该部分形成至少一个第一识别特征；

将该第一识别特征存储在一个数据库中；

使用权利要求14的方法根据该音频流的一部分形成至少一个第二识别特征；以及

比较该第一和第二识别特征以确定是否存在至少一选定程度的相似性。

18.根据权利要求17的方法，其特征在于，每个功率消耗事件是在不同长度的时间段上的诸滚动能量消耗水平的一交叉。

19.一种使用一用于识别音频内容的程序进行编码的计算机可读介质，所述程序包括执行下列步骤的指令：

获得以一依赖于时间的功率谱为特征的一音频信号；

分析该功率谱以获得多个依赖于时间的频率分量；以及

在该多个依赖于时间的频率分量中检测多个事件。

20.根据权利要求19的计算机可读介质，其特征在于，所述程序还包括用于执行下列步骤的指令：

检测在一组相邻的依赖于事件的频率分量内大约同时发生的一组事件；以及

选择该一组事件的一子集以便继续进行处理。

21.根据权利要求19的计算机可读介质，其特征在于，所述分析步骤包括如下子步骤：

对该音频信号采样以获得多个音频信号样本；

从该多个音频样本中取得多个子集；以及

对该多个子集的每一个进行一傅立叶变换以获得一组傅立叶频率分量。

22.根据权利要求19的计算机可读介质，其特征在于，该检测步骤包括下列子步骤：

23.一种使用一用于形成音频信号录音的一部分的识别特征的程序进行编码的计算机可读介质，所述程序包括用于执行下列步骤的指令：

将该些频率收集到一数量较小的第二组频带内，该第二组频带中的每一个包括一定范围的相邻频率；

在该些频带的每一个内检测功率消耗事件；以及

24.一种用于识别音频信号的录音的方法，所述方法包括：

一用于接收一要识别的音频信号的接口；

一用于从该音频信号中获得多个依赖于时间的频率分量的谱分析器；

一用于检测该些依赖于时间的频率分量的每一个内的多个事件的事件检测器；以及

一用于根据频率和时间收集该多个事件并根据该多个事件组装多个键的键生成器。

25.根据权利要求24的系统，其特征在于，该事件检测器是一峰值检测器。

26.根据权利要求24的系统，其特征在于，该系统还包括一个已知音频信号录音的键的数据库。

27.一种用于形成音频信号的录音的一部分的识别特征的系统，所述系统包括：

用于将该音频信号的该部分傅立叶变换到在第一组频率上消耗的音频功率的一时间序列的装置；

用于将该些频率收集到一数量较小的第二组频带内的装置，该第二组频带的每一个包括一定范围的相邻频率；

用于在该些频带的每一个内检测功率消耗事件的装置；以及

用于在一所选择的时刻将彼此相邻的频带内的该些功率消耗事件收集到一起以便形成该识别特征的装置。