CN102405495A

CN102405495A - 使用稀疏特征对信息检索进行音频分类

Info

Publication number: CN102405495A
Application number: CN2010800176456A
Authority: CN
Inventors: R·F·里昂; M·雷恩; T·瓦尔特斯; S·本吉奥; G·恰奇克
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2009-03-11
Filing date: 2010-03-11
Publication date: 2012-04-04
Anticipated expiration: 2030-03-11
Also published as: WO2010105089A1; EP2406787A1; US8463719B2; EP2406787B1; CN102405495B; US20100257129A1

Abstract

本发明提供了用于使用音频特征对音频进行分类以进行信息检索的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。通常，本说明书中描述的主题的一个方面可以体现为包括如下动作的方法：生成声像的汇集，每个声像根据听觉模型生成自相应的音频文件；从汇集中的每个声像提取稀疏特征以生成表示对应音频文件的稀疏特征向量；以及响应于包括一个或多个字的查询，使用该稀疏特征向量和使稀疏特征向量与该查询中的字相关的匹配函数对该音频文件进行排序。

Description

使用稀疏特征对信息检索进行音频分类

技术领域

本说明书涉及使用音频特征来对用于信息检索的音频进行分类。

背景技术

数字音频数据(例如，表示语音、音乐或其他声音)可以存储在一个或多个音频文件中。音频文件可以包括只具有音频内容的文件(例如，音乐文件)以及与包含其他内容的其他文件(例如，具有一个或多个音频轨道的视频文件)相关联或是其一部分的音频文件。音频文件可以包括语音和音乐以及其他声音分类，包括自然声音(例如，雨声、风声)、人类情感(例如，叫声、笑声)、动物发声(例如，狮吼声、猫叫声)或者其他声音(例如，爆炸声、赛车声、电话铃声)。

可以使用不同技术来表示音频数据。例如，针对强度和时间可以将音频数据表示为振幅波形，或者针对频率和时间可以将音频数据表示为声谱图。另外，可以根据声学模型来表示音频数据，该声学模型用于对生物耳朵(具体地，耳蜗)的听觉响应进行建模。耳蜗模型可以用于根据时间、频率和自相关延迟生成音频数据的声像(auditory image)表示。例如，生成音频相关图或稳定声像可以包括对音频数据应用耳蜗模型。

用户可能希望标识具有特定音频内容的音频文件。例如，用户可以寻找对包括在投影或家庭电影中的特定声音的示例。用户可以通过文本标签(例如，声音的名称或声音的描述(例如，“汽车声”或“吼叫的老虎”))来描述所期望的声音。然而，使用文本查询对音频内容的常规信息检索(例如，执行针对因特网上的音频内容的搜索)是困难的并且经常提供不准确的结果。

发明内容

本说明书描述了涉及使用音频特征来对声音进行分类和索引并且从文本查询检索声音的技术。一般而言，在本说明书中描述的主题的一个方面可以体现为包括以下动作的方法：生成声像汇集，每个声像根据听觉模型生成自相应的音频文件；从该汇集中的每个声像提取稀疏特征以生成表示对应的音频文件的稀疏特征向量；以及响应于包括一个或多个字的查询，使用稀疏特征向量和使稀疏特征向量与查询中的字相关的匹配函数对音频文件进行排序。这一方面的其他实施方式包括对应的系统、装置以及计算机程序产品。

这些和其他实施方式可以可选地包括一个或多个以下特征。从每个声像提取稀疏特征包括：将声像分成多个子像(sub-image)；向每个子像应用特征提取器以生成对应的局部稀疏代码；以及组合来自每个子像的稀疏代码以形成针对声像的稀疏向量。匹配函数通过使用带注释的音频文件的训练汇集生成，并且其中生成匹配函数包括：接收带注释的音频文件的汇集，每个带注释的音频文件具有声像和一个或多个与音频文件内容相关联的关键字；针对汇集中的每个音频文件生成稀疏特征向量；以及使用稀疏特征向量和针对带注释的音频文件的汇集的一个或多个关键字来训练匹配函数以确定匹配稀疏特征和关键字的权重的矩阵。该方法还包括利用使用所提取的音频特征的被动进攻模型(passive-aggressive model)来训练匹配函数。该训练了解表示稀疏特征与关键字之间的映射的矩阵W，从而使得针对所有k，

F_{W} (q_{k}, a_{k}^{+}) > F_{W} (q_{k}, a_{k}^{-}) .

对音频文件进行排序还包括：对与每个稀疏特征向量相关的每个查询字进行评分；以及组合字之间的评分以对与该查询相关的音频文件进行排序。对每个查询字进行评分包括计算针对该字的一组权重与利用特定稀疏特征向量的音频文件的表示之间的点积。该听觉模型为模仿耳蜗行为的耳蜗模型。该声像是稳定的声像。该声像是听觉相关图(correllogram)。

一般地，在本说明书中描述的主题的另一方面可以体现为包括以下动作的方法：接收文本查询，该查询包括一个或多个查询项；检索使关键字与稀疏特征向量相关的匹配函数，每个稀疏特征向量从特定的音频文件导出；标识来自查询项的一个或多个关键字；响应于查询，使用匹配函数来标识一个或多个音频文件；以及呈现标识一个或多个音频文件的搜索结果。这一方面的其他实施方式包括对应的系统、装置以及计算机程序产品。

可以实现在本说明书中描述的主题的特定实施方式，以便实现以下优点中的一个或多个。提取的稀疏特征表示特定的声音。音频数据继而可以使用这些音频特征和了解的与字特征的关系来进行分类，该字特征标识音频数据“听上去像什么”。系统继而可以响应于文本搜索查询，快速并相对准确地对音频内容进行检索和排序。

在附图和下文的描述中阐明在本说明书中所描述的主题的一个或多个实施方式的细节。根据描述、附图和权利要求，本发明的其他特征、方面和优点将变得明显。

附图说明

图1是示出了用于响应于文本查询来使用稀疏音频特征检索声音的示例方法的流程图。

图2是图示了示例音频图像的示意图。

图3是用于稀疏特征提取的示例方法的流程图。

图4是图示了向音频图像应用框切割的示例的示意图。

图5是用于训练系统以匹配关键字和稀疏特征的示例方法的流程图。

图6是用于搜索音频内容的示例方法的流程图。

图7示出了示例搜索系统。

图8图示了系统的示例架构。

各附图中的相似参考标号和标记指示相似的元素。

具体实施方式

图1是示出了用于响应于文本查询来使用稀疏音频特征检索声音的示例方法100的流程图。为了方便起见，将针对执行方法100的系统来描述方法100。

系统接收102音频数据。例如，该音频数据可以是来自音频文件的汇集的音频文件。每个音频文件可以包括音频数据和非音频数据。例如，音频文件可以包括音乐、语音或其他音频内容，并且还可以表示也包括非音频数据的文件(例如，包括已经混合为单个文件的视频轨道和音频轨道的视频文件)的音频部分。在这种情况下，提取或隔离该音频数据以便对该音频数据执行操作(例如，从包括多个内容类型的文件中提取音频轨道)。

系统生成104来自所接收音频数据的声像。该声像根据特定听觉模型(例如，耳蜗模型)生成。该声像可以是例如音频相关图或稳定的声像。在某些实现中，系统的听觉前端接收对应于所接收音频数据的音频波形作为输入。听觉前端向音频波形应用耳蜗模型以生成声像。

耳蜗模型模仿耳蜗的行为(例如，在人的内耳中)。耳蜗填充有流体，该流体响应于来自中耳的、由传入声音生成的振动而移动。随着流体移动，耳蜗中的毛细胞移动，从而将流体振动的机械能转换成神经放电的模式。当某些毛细胞对于某些频率的振动比其他毛细胞更加敏感时，对振动的频率响应作为位置的函数进行改变。此毛细胞布置的结果为耳蜗起到一系列频率滤波器的作用，其通频带是沿耳蜗位置的函数。

生成包括相关图或稳定声像的声像涉及基于耳蜗模型、根据输入音频数据(例如，输入音频波形)生成耳蜗图，然后根据耳蜗图生成声像。耳蜗图(cochleagram)为音频数据的频谱时间表示。

生成耳蜗图(例如，在系统的听觉前端)包括使用一组耳蜗滤波器来将输入音频数据分成多个频带(例如，使用低通滤波器的级联或带通滤波器的平行带)。该组滤波器将由于耳蜗毛细胞的变化的响应而产生的滤波表示为频率或位置的函数。来自该组滤波器中每个滤波器的输出为表示特定频带的信道。检测每个信道中的能量，并将其用于调节频带中音频数据的增益，用于实现听觉敏感自适应的简单模型，或者用于自动增益控制(AGC)。在某些实现方式中，向输出频带应用半波整流器(HWR)以提供针对每个信道中的音频数据的波形，该波形表示在沿模型耳蜗的每个位置处的神经放电率。具体地，半波整流器模拟耳蜗中响应于一个方向移动的毛细胞。所产生的耳蜗图根据基于耳蜗模型的频率和时间提供音频数据的表示。

声像通过计算每个频率信道的自动相关性、针对一组给定时间点向耳蜗表示添加附加维度。在每个这样的给定时间点，作为一系列滤波器的输出的一维表示被转变成二维表示，从而用自动相关向量替代每个滤波器的标量输出。当这些图像随时间获取时，产生的声像为音频数据提供频率、时间和自动相关延迟的三维函数。

图2是图示了示例音频图像200的示意图。具体地，音频图像200是生成自输入音频波形的稳定声像。音频图像200根据频率、时间和自动相关延迟表示音频数据。具体地，如图2中所示，x轴表示自动相关延迟而y轴表示频率，并且图像在每个时间步长变化。从模式对于稳定的声音(诸如，持续语音声音、稳定音符或稳定噪声)稳定的意义上来讲，图像是“稳定的”。声音的特性影响图像，并且图像“看上去像什么”表示声音“听上去像什么”。

如图1中所示，系统从声像提取106稀疏音频特征。音频特征可以表示能够用于分类音频数据的各种事物。例如，多个不同特征可以与音频数据相关联，该音频数据包括时域和频域特征(例如，能量包络和分布、频率含量、调和性和音调)。对于语音和音乐分类常见的其他音频特征包括表示声音的短期功率谱的梅尔(mel)频率倒频谱(cepstral)系数。

其他音频特征是稀疏音频特征。本说明书中使用的稀疏指的是大多数针对每个给定声音的特征值为0，并且所有特征的集合可以通过仅列出非零特征来高效地编码。具体地，稀疏音频特征表示声像的抽象局部结构属性。单个特征可能几乎没有有用的解释，但是一大组这些特征汇集起来可以提供关于声音特性的信息。下文针对图3更详细地描述从声像提取稀疏特征。

在某些实现方式中，关于声像的每个时间帧计算一组稀疏特征并且将其聚合或汇集以指示贯穿整个声音(例如，在整个电影音轨上)每个特征发生了多少次。该结果被称为声音的“特征包”表示。该“特征包”概念也已经用于表示图像和其他媒体类型，并且类似于文本文档的“文字包”表示，文字包是对每个文字在文档中出现的次数的表示，与文字顺序无关，并且已经发现是用于编制索引和检索的文本文档的有用表现。

系统训练108使音频稀疏特征与查询词汇表中文字相关的匹配函数。具体地，系统使用训练数据来训练对两对稀疏向量(一个向量表示声音数据而另一向量表示一组关键字(文本查询))之间匹配的质量进行评分的函数。具有针对声音的高评分的关键字表示该音频数据“听上去像什么”。一个帧的特征集合或表示更长分段或整个声音的“特征包”可以由经训练的匹配转换成可以用作声音的“文字包”表示，即便该文字包不是来自文字而是来自声音，并且可以包括数字(例如，正实数和负实数，而不仅是整数字数)。下文针对图5更加详细地描述了用于生成将稀疏特征的组合与关键字相关联(即用于将特征包转变成文字包)的匹配的训练。

因此，提取的稀疏特征的给定组合可以和与稀疏特征的组合相关联的一个或多个关键字匹配。例如，如果音频数据的内容包括狮吼声，则某些提取的稀疏特征将有助于与狮吼所关联的关键字(例如，“狮子”和“吼叫”)的匹配。

系统相对于一个或多个文字或项的给定查询，根据稀疏特征对音频数据进行评分110。该过程可以针对音频文件的汇集中的每一个，对音频数据进行重复，从而使得针对给定查询，可以向每个音频文件给出与该查询相关联的评分。系统根据那些评分对音频文件进行评分或排序。系统可以本地或分布在多个不同存储介质之间而存储所有声音的特征和匹配函数的表示。系统继而可以在信息检索期间，例如响应于下文针对图6描述的搜索查询而访问特征和匹配表示，并且可以返回若干排序靠前的声音文件。

图3是用于稀疏特征提取的示例方法300的流程图。为了方便起见，将针对执行方法300的系统来描述该方法300。系统使用特征提取器(例如，向量量化器)的汇集。每个特征提取器将声像的子像转变成N个稀疏代码之一。当N等于250并且使用100个子像时，这产生具有25,000维稀疏特征中基本上100个非零元素的净稀疏代码。

系统根据预定模式将声像分成302多个子像。该过程被称作框切割。在某些实现中，如图4中所示，框切割将声像分成重叠的矩形。

图4是图示了框切割音频图像402的示例的示意图400。该图像被分成多个子像404。然后向每个子像的内容应用特征提取器以提取稀疏特征。

矩形具有不同大小，以便以多种标度捕获声像中的信息。系统单独变化水平和垂直大小。另外，系统变化矩形的垂直位置。系统将这些矩形重新标度成固定大小(对于所有矩形都相同)，而不考虑其原始大小。通常这产生较小的尺寸。针对每个重新调整大小的矩形，系统可选地计算水平边际和垂直边际(marginal)。边际是针对特定矩形中每列和行的平均值。针对每个单独矩形的水平和垂直边际被连接至单个实值向量。备选地，系统维持每个矩形内容作为单个向量，而不将其减少到其边际。

系统向每个子像应用304特征提取器以生成针对子像的局部稀疏代码。系统利用稀疏代码估计表示声像中矩形区域的每个向量。系统可以使用向量量化或匹配追踪(pursuit)来逼近向量。

向量量化使用来自码本的最佳匹配向量(在欧氏(Euclidean)意义上最接近)来逼近向量。一旦选定最佳匹配，表示可以被编码为稀疏代码向量，其中长度等于码本的大小，并且包括所有的0，除了在所选择代码字的索引位置的单个“1”。

匹配追踪向码本向量上投影向量(表示矩形)；寻找最大的投影；向稀疏特征表示(在适当的索引位置)添加该投影的带符号的标度值；以及从原始向量减去向量值投影，从而产生剩余向量。然后重复该过程，直到最大投影的量级变得小于给定阈值。

针对匹配追踪和向量量化两者，系统了解到用于在声像中的每个特定位置表现矩形的单独码本。系统使用例如k平均算法从数据了解到码本。

系统从所有子像收集稀疏代码以建立针对整个帧的大型稀疏代码向量。具体地，一旦每个矩形转变成稀疏代码，它们便连接成一个高维稀疏向量，从而表示整个声像。

为了表示整个音频文件，系统将表示单独帧的稀疏向量组合306成表示音频文件的音频数据的稀疏向量，这例如通过简单地将它们加起来。产生的向量经常不如针对单独帧的向量稀疏，但是通常依然是稀疏的。

系统可以存储308该音频文件以及其他音频文件的稀疏代码向量。例如，这些向量继而可以用于表示训练系统中的音频数据，或者用于标识匹配给定查询的音频文件。

图5是用于训练系统以将稀疏特征映射到关键字的示例方法500的流程图。为了方便起见，将针对执行方法500的系统描述方法500。

系统接收502带注释音频的汇集。带注释音频文件的汇集可以包括仅包括音频数据的文件和包括音频数据以及其他内容类型(例如，音频和视频内容)的文件。例如，带注释音频文件的汇集可以包括接收自资源库的音频文件，该资源库包括针对每个音频文件标识音频文件的对应内容的一个或多个关键字标签。

在某些实现中，系统从声音效果的资源库选择用于包括在待用于训练的带注释音频文件的汇集中的音频文件。声音效果资源库可以包括仅具有一个音频对象(例如，狮吼声而无其他声音)的纯净音频数据。例如，系统可以使用商售的或免费可获得的声音效果的资源库来选择用于包括在音频文件的汇集中的音频文件。在某些实现中，选定的音频文件没有标识音频数据的内容的标签。在这种情况下，音频文件可以例如通过使得听众回顾每个音频文件并指派针对每个音频文件的一个或多个标签来手动添加标签。

在某些实现中，音频文件是指派的层级标签。例如，如果音频文件标记有关键字“猫”，则可以添加附加的关键字“猫科”、“哺乳动物”和“动物”。在某些情形下，标签被限于预定关键字词汇表以提供标签一致性。

在某些实现中，系统从用户上传的音频文件的资源库选择用于包括在待用于训练的带注释音频文件的汇集中的音频文件。例如，Freesound项目(http://freesound.org)提供了公共可获得的带标记音频文件的在线资源库。个人用户可以上传音频文件以及标识每个所上传音频文件的内容的一个或多个标签。与特定效果音频文件相比，这些音频文件中的每一个都包括不止一个组合为复合音频场景(即，不只是单个特定声音)的音频对象。

来自选定音频文件的标签可以被处理以生成与该汇集的每个音频文件相关联的关键字。例如，可以过滤标签以移除包含数字和非检索用字(stopword)的标签。还可以对标签进行抽取(stem)以移除格式后缀(例如，mp3、wav、afi)，标签还可以进行拼写检测以改正拼写错误，并且可以对所有字进行抽取(例如，以从标签中移除包括例如“-s”和“-ing”后缀的复数或其他修饰语)。词汇表可以基于生成自音频文件标签的唯一关键字进行限定。在某些实现中，某些音频文件的标签可能是噪声。例如，在某些情况下，某些标签没有正确地描述音频文件的内容。例如，包含狮吼的音频文件可能被标记为包含人的叹息。

系统从每个音频文件提取504稀疏特征。例如可以如针对图3所述那样来提取稀疏特征。由此，针对每个音频文件，存在经提取的稀疏特征和一个或多个关键字。

系统训练506匹配函数(诸如线性矩阵映射)以将稀疏特征与关键字匹配。给定任意稀疏特征向量和标签的任意集合，匹配函数计算测量两者之间关联的质量的评分。由于训练，具有稀疏特征的特定组合的音频文件的内容生成包含词汇表中的一个或多个关键字的文字包，其中文字表示声音听上去像什么。

可以使用不同的训练技术来训练匹配函数。例如，如机器学习领域公知的，匹配函数可以被训练为使用分类器的排序器。训练技术包括“针对图像检索的被动进攻模型”(PAMIR)、高斯混合模型(GMM)和Boosting或支持向量机(SVM)。GMM用于计算音频文档的概率密度函数。训练GMM模型可以使用最大后验(MAP)方法。SVM和Boosting寻找最大化正面示例和负面示例之间边缘同时最小化训练中误分类数目的判别式函数。

PAMIR是最初应用于检索自文本查询的基于内容的图像的技术。PAMIR特别训练用于响应于查询而不是分类来产生媒体文档(图像或声音)的良好排序。PAMIR可以适用于简单地通过使用音频特征而不是图像特征来训练基于内容的音频检索；PAMIR工作如下：

查询q可以由针对词汇表T中(例如在从添加标签的训练数据导出的关键字的词汇表中)每个关键字的标准化逆文档频率(tf-idf)的权重的向量表示，其中

文档(例如，音频文件)可以由维度d的稀疏特征向量

表示，其中d_a表示稀疏音频特征的潜在数目。针对多维((|T|xd_a))的矩阵W，查询水平评分F_w(q，a)可以定义如下：

F_w(q，a)＝q^transpWa，

其测量文档a匹配查询q的程度。另外，W可以被示为从声学表示到文本表示的转换，

由此，评分成为文本查询q与“文字包”或“文本文档”Wa的向量表示之间的点积，其中每个分量针对文字t计算为针对单个文字查询的评分：

score_PAMIR(a，t)＝W_ta，

其中W_t是W的第t行。W因此是待学习的矩阵，表示从音频“特征包”到“文字包”的线性映射。

针对文本查询和音频文档的训练集合，有限训练集合D_train(例如，训练集合中音频文件的汇集)可以表示为一组三元组

D_{train} = {(q_{1}, a_{1}^{+}, a_{1}^{-}), . . ., (q_{n}, a_{n}^{+}, a_{n}^{-})},

其中针对第k个三元组

q_k是文本查询，

是与q_k有关的音频文档并且

是与q_k无关的音频文档。PAMIR方法标识参数W，从而使得针对每个k，

F_{w} (q_{k}, a_{k}^{+}) - F_{w} (q_{k}, a_{k}^{-}) &GreaterEqual; ϵ,

ε＞0。这可以被重写为损失函数

l_{W} ((q_{k}, a_{k}^{+}, a_{k}^{-})) = 0, &ForAll; k,

其中

l_{w} ((q_{k}, a_{k}^{+}, a_{k}^{-})) = \max {0, ϵ - F_{w} (q_{k}, a_{k}^{+}) + F_{w} (q_{k}, a_{k}^{-})} .

由此，PAMIR方法的目的在于标识W，从而使得针对所有k，评分

应当比评分

大至少一个小正数差值。因此，针对训练集合中尽可能多的文档与查询的组合，与给定查询有关的文档评分应当高于与该查询无关的文档评分。

使用PAMIR对训练集合上的模型进行训练包括使用开发用于分类和回归问题的被动攻击(PA)系列技术来迭代最小化：

L (D_{train}; W) = Σ_{k = 1}^{n} l_{W} ((q_{k}, a_{k}^{+}, a_{k}^{-})) .

在每次训练迭代i，PAMIR解决以下凸(convex)问题：

W^{i} = \arg \min_{w} \frac{1}{2} {| | W - W^{i - 1} | |}^{2} + {Cl}_{W} ((q_{k}, a_{k}^{+}, a_{k}^{-})) .

其中‖W-W^i-1‖是逐点的L₂正则化。因此，在每次迭代，Wⁱ被选作保持靠近先前参数W^i-1与最小化当前示例

上损失之间的权衡。攻击参数C控制此权衡。此凸优化问题的解为：

Wⁱ＝W^i-1+τ_iVⁱ

其中

τ_{i} = \min {C, \frac{l_{W^{i - 1}} (q_{k}, a_{k}^{+}, a_{k}^{-})}{{| | V^{i} | |}^{2}}}

并且

V^{i} = - [(q_{i}^{1} (a_{k}^{+} - a_{k}^{-}), . . ., q_{i}^{| T |} (a_{k}^{+} - a_{k}^{-})]

其中

是向量q_i的第j个值并且V_i是针对W的损失的梯度。

在训练过程期间，查询的词汇表对应于被标识用于表示训练数据中的音频文件的关键字。凸最小化问题的解使用已知关联的训练数据来根据迭代过程学习特定关键字与特定音频内容之间的通用关联，该迭代过程对于关键字与音频内容之间更可能的匹配产生更高评分，如由提取自每个音频文件的稀疏特征所表示。该训练过程用于生成稀疏特征与关键字之间的匹配。

系统以矩阵W的形式存储508稀疏特征与关键字之间的匹配函数。如上文针对图1所述，该匹配继而可以用于标识针对非带注释音频数据的关键字。

图6是用于搜索音频内容的示例方法600的流程图。为了方便起见，将针对执行方法600的系统描述方法600。系统接收602针对音频内容的查询。所接收的查询包括一个或多个查询项，例如“对狮吼的记录”。

系统响应于查询，使用与音频文件的汇集相关联的关键字标识604音频文件。具体地，将查询与词汇表中的一个或多个关键字匹配。这可以包括移除不具有对应词汇表条目的查询项。例如，查询“对狮吼的记录”可以被缩减为“狮吼”。匹配关键字用于形成查询向量q，从而表示该查询。查询向量q是稀疏的(大多数分量的值为0)，这是因为任意查询中只存在所有可能关键字中的若干关键字。针对查询向量和每个音频文件的稀疏特征而计算的评分包括计算查询向量与“文字包”特征W_a之间的点积。由此，评分是文本查询q的向量表示与表示音频文件的“文本文档”或“文字包”之间的点积，其中特征向量W_a，F_W(q，a)＝q^transpW_a。该评分指示特定音频文件与搜索查询的匹配程度。该评分越高，音频文件越可能是搜索查询的良好响应。由此，音频文件的排序列表可以响应于根据该评分的查询进行标识。系统可以基于针对表示的排序指定限于搜索结果的前k个。

系统可选地使用由查询项进行索引的预计算索引来标识针对查询具有排序高的潜力的音频文件，这是由于其具有针对至少一个查询项显著正面的关键字评分。具体地，索引标识待排序的潜在可接受查询匹配，从而使得系统针对接收的查询不计算所有音频文件的排序函数。例如，针对查询“狮吼”，索引可以标识1000个具有一位“狮”在其中的音频文件，并且标识具有某些“吼”在其中的数千音频文件。系统继而可以使用排序函数来只组合所述音频文件以标识排序列表而不是对所有音频文件评分。备选地，可以使用针对所有音频文件计算与稀疏查询向量的点积的其他快速方法，其包括位置敏感哈希或邻近树。

系统呈现606标识音频文件的排序列表的搜索结果。具体地，搜索结果可以被呈现为到对应于具有响应于查询的内容的音频文件的资源的一组链接。搜索结果可以被呈现为列表、图标或者缩略声像。

图7图示了用于提供与所提交的查询相关的搜索结果的示例搜索系统714，该搜索系统714可以实现在因特网、内网或者另一客户端和服务器环境中。搜索系统714是在其中能够实现下面描述的系统、组件和技术的信息检索系统的示例。

用户702可以通过客户端设备704与搜索系统714交互。例如，客户端704可以是通过局域网(LAN)或例如因特网的广域网(WAN)耦合至搜索系统714的计算机。在某些实现中，搜索系统714和客户端设备704可以是一个机器。例如，用户可以在客户端设备704上安装桌面搜索应用。客户端设备704一般包括随机存取存储器(RAM)706和处理器708。

用户702可以向搜索系统714内的搜索引擎730提交查询710(例如，针对音频内容的查询)。当用户702提交查询710时，查询710通过网络传送到搜索系统714。搜索系统714可以实现为例如运行在一个或多个位置中、通过网络彼此耦合的一个或多个计算机上的计算机程序。搜索系统714包括索引数据库722和搜索引擎730。搜索系统714通过生成搜索结果728来对查询710进行响应，该搜索结果728以能够呈现给用户702的形式(例如，要显示在运行在客户端设备704上的web浏览器中的搜索结果web页面，该搜索结果web页面列出了响应于音频查询的音频资源的标识符)通过网络传送到客户端设备704。

当搜索引擎730接收到查询710时，搜索引擎730标识与查询710匹配的资源。搜索引擎730通常将包括对在资料(例如内容的汇集或存储库)中找到的资源(例如因特网上的音频数据、web页面、图像或者新闻文章)进行索引的索引引擎720，存储索引信息的索引数据库722，以及用以对与查询710匹配的资源进行排序的排序引擎752(或其他软件)。可以结合上文描述的排序技术使用常规技术来执行对资源的索引编制和排序。搜索引擎730可以通过网络向客户端设备704传送搜索结果728，例如，以便呈现给用户702。

搜索系统714还可以基于其从用户接收的查询来维持一个或多个用户搜索历史。一般而言，用户搜索历史存储从用户接收的查询序列。用户搜索历史还可以包括附加信息，诸如在执行了搜索之后选择了哪些结果以及每个所选择的结果被查看了多久。

具体地，当查询710为针对音频内容的请求时，搜索引擎730可以使用关键字词汇表和如上文所述标识潜在匹配的索引(例如，存储在索引数据库722中)或者通过访问存储的针对所有声音的特征或者存储在如针对图1所述的搜索系统中的匹配函数的表示来搜索匹配查询710的资源。当确定音频数据匹配查询710时，排序引擎752可以基于经计算的评分对响应于查询710的音频数据进行排序。

图8图示了系统架构800的示例架构。架构800包括一个或多个处理器802(例如IBM PowerPC、Intel Pentium 4等)、一个或多个显示设备804(例如CRT、LCD)、图形处理单元806(例如NVIDIAGeForce等)、网络接口808(例如以太网、FireWire、USB等)、输入设备810(例如键盘、鼠标等)以及一个或多个计算机可读介质812。这些部件使用一个或多个总线814(例如EISA、PCI、PCI Express等)交换通信信息和数据。

术语“计算机可读介质”指的是参与向处理器802提供指令以供执行的任意介质。计算机可读介质812还包括操作系统816(例如Mac OS

、Windows、Linux等)、网络通信模块818、特征提取器820、关键字特征匹配822和其他应用824。

操作系统816可以是多用户、多处理、多任务、多线程、实时以及类似的。操作系统816执行基本任务，包括但不限于：识别来自输入设备810的输入；向显示设备804发送输出；在计算机可读介质812(例如存储器或者存储设备)上保持文件和目录的轨道；控制外围设备(例如盘驱动器、打印机等)；以及管理一个或多个总线814上的通信。网络通信模块818包括用于建立和保持网络连接的各种组件(例如，用于实现诸如TCP/IP、HTTP、以太网等通信协议的软件)。

特征提取器820提供各种软件组件以用于执行各种功能以如针对图3至图4所述从音频数据提取稀疏特征。关键字特征匹配822提供各种软件组件以用于执行各种功能，以训练模型来将稀疏特征与关键字相关联并且向所接收的稀疏特征应用该模型，以便如针对图1至图5所述标识匹配关键字。其他应用824可以包括声像生成器，用于从输入音频文件生成声像。

本说明书中描述的主题和操作的实施方式可以在包括本说明书中公开的结构及其结构等效物的数字电子电路、或者在计算机软件、固件或者硬件，或者上述各项中的一个或多个的组合中实现。本说明书中描述的主题的实施方式可以实现为编码在计算机存储介质上的一个或多个计算机程序，即，一个或多个计算机程序指令模块，以用于由数据处理装置执行或者控制数据处理装置的操作。备选地或者附加地，程序指令可以编码在人工生成的传播信号(例如，机器生成的电、光或者电磁信号)上，其被生成用于编码信息以用于向适当的接收机传输，以便由数据处理装置执行。计算机存储介质可以是计算机可读存储设备、计算机可读存储衬底、随机或者串行存取存储器阵列或者设备或者上述各项中的一个或多个的组合，或者包括在上述各项及上述各项中的一个或多个的组合之中。

本说明书中描述的操作可以实现为由数据处理装置对存储在一个或多个计算机可读存储设备上或者从其他来源接收的数据执行的操作。

术语“数据处理装置”包括用于处理数据的所有种类的装置、设备和机器，包括例如可编程处理器、计算机、片上系统或者上述各项的组合。装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。除了硬件以外，装置还可以包括创建用于考虑中的计算机程序的执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境(例如，虚拟机)或者上述各项中的一个或多个的组合的代码。装置和执行环境可以实现各种不同的计算模型基础架构，诸如web服务、分布式计算和网格计算基础架构。

计算机程序(也称为程序、软件、软件应用、脚本或者代码)可以按照任何形式的编程语言(包括编译或者解释语言、声明或者过程语言)编写，并且其可以按照任何形式部署，包括作为独立程序或者作为模块、组件、子例程、对象或者适于在计算环境中使用的其他单元。计算机程序可以但不必与文件系统中的文件相对应。程序可以存储在保持其他程序或者数据的文件的一部分中(例如，存储在标记语言文档中的一个或多个脚本)、专用于考虑中的程序的单个文件或者多个协作的文件中(例如，存储一个或多个模块、子程序或者部分代码的文件)。计算机程序可以部署用于在一个计算机或者位于一个站点或者跨多个站点分布并且通过通信网络互连的多个计算机上执行。

本说明书中描述的过程和逻辑流可以由一个或多个可编程处理器执行，其执行一个或多个计算机程序以通过对输入数据进行操作并且生成输出来执行功能。过程和逻辑流还可以由专用逻辑电路来执行，并且装置也可以实现为专用逻辑电路，该专用逻辑电路例如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。

适于执行计算机程序的处理器包括例如通用和专用微处理器二者，以及任何类型的数字计算机的任何一个或多个处理器。一般而言，处理器将从只读存储器或者随机访问存储器或者这二者接收指令和数据。计算机的主要元件是用于实现或执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。一般而言，计算机还将包括用于存储数据的一个或多个海量存储设备(例如，磁、磁光盘或者光盘)或者可操作地耦合至该海量存储设备以从其接收数据或者向其传送数据或者二者。然而，计算机不需要具有此类设备。另外，计算机可以嵌入在另一设备中，该另一设备例如移动电话、个人数字助理(PDA)、移动音频或者视频播放器、游戏机、全球定位系统(GPS)接收机或者便携式存储设备(例如，通用串行总线(USB)闪速驱动器)，仅作为几例。适于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备，包括例如：半导体存储器设备，例如EPROM、EEPROM和闪速存储器设备；磁盘，例如内部硬盘或者可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路进行补充或者并入其中。

为了提供与用户的交互，本说明书中描述的主题的实施方式可以在计算机上实现，该计算机具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或者LCD(液晶显示)监视器)以及用户可以通过其向计算机提供输入的指点设备，例如鼠标或者轨迹球。其他种类的设备也可以用于提供与用户的交互；例如，向用户提供的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或者触觉反馈；并且来自用户的输入可以按照任何形式接收，包括声音、语音或者触觉输入。另外，计算机可以通过向用户使用的设备发送文档或者从其接收文档而与用户交互；例如，通过响应于从用户的客户端设备上的web浏览器接收的请求，向该web浏览器发送web页面。

本说明书中描述的主题的实施方式可以在包括后端组件的计算系统(例如作为数据服务器)或者包括中间件组件的计算系统(例如，应用服务器)或者包括前端组件的计算系统(例如用户可以通过其与本说明书中描述的主题的实现进行交互的具有图形用户接口或者Web浏览器的客户端计算机)中，或者一个或多个此类后端、中间件或者前端组件的任意组合中实现。系统的组件可以通过数字数据通信的任何形式或者介质(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网络(例如，因特网)和端对端网络(例如，ad hoc端对端网络)。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络进行交互。客户端和服务器的关系借助于相应计算机上运行的并且彼此具有客户端-服务器关系的计算机程序来体现。在某些实施方式中，服务器向客户端设备传输数据(例如，HTML页面)(例如，出于向与客户端设备交互的用户显示数据或者从其接收用户输入的目的)。可以在服务器处从客户端设备接收在客户端设备处生成的数据(例如，用户交互的结果)。

虽然本说明书包含很多特定实现细节，但是这些不应当视为对本发明或者可以要求保护的范围的限制，而是作为特定于本发明的特定实施方式的特征的描述。本说明书在独立的实施方式的上下文中描述的特定特征可以在单个实施方式中组合实现。相反，在单个实施方式的上下文中描述的各种特征也可以在多个实施方式中或者在任意适当的子组合中分开实现。另外，虽然上文可能将特征描述为在特定组合中进行并且甚至初始如此要求保护，但是在某些情况下，所要求保护的组合中的一个或多个特征可以从组合中去除，并且所要求保护的组合可以针对子组合或者子组合的变体。

类似地，虽然附图中以特定次序描绘了操作，但是这不应理解为需要以所示出的特定次序或者顺序执行此类操作，或者执行所有示出的操作来达到期望的结果。在某些情况下，多任务和并行处理可能是有利的。另外，上文描述的实施方式中的各种系统组件的分离不应当理解为在所有实施方式中需要此类分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或者封装为多个软件产品。

由此，已经描述了本发明的特定实施方式。其他实施方式也在所附权利要求的范围内。在某些情况下，权利要求中限定的动作可以按照不同的次序来执行并且仍然达到期望的结果。另外，附图中绘出的过程未必需要所示出的特定次序或者顺序来达到期望的结果。在某些实现中，多任务和并行处理可能是有利的。

Claims

1.一种计算机实现的方法，包括：

生成声像的汇集，每个声像根据听觉模型生成自相应的音频文件；

从所述汇集中的每个声像提取稀疏特征以生成表示对应音频文件的稀疏特征向量；以及

响应于包括一个或多个字的查询，使用所述稀疏特征向量和使稀疏特征向量与所述查询中的字相关的匹配函数对所述音频文件进行排序。

2.根据权利要求1所述的方法，其中从每个声像提取稀疏特征包括：

将声像分成多个子像；

向每个子像应用特征提取器以生成对应的局部稀疏代码；以及

组合来自每个子像的所述稀疏代码以形成针对所述声像的稀疏向量。

3.根据权利要求1所述的方法，其中使用带注释的音频文件的训练汇集生成匹配函数，并且其中生成所述匹配函数包括：

接收带注释的音频文件的汇集，每个带注释的音频文件具有声像以及与所述音频文件的内容相关联的一个或多个关键字；

生成针对所述汇集中每个音频文件的稀疏特征向量；以及

使用所述稀疏特征向量和针对带注释的音频文件的汇集的所述一个或多个关键字来训练所述匹配函数以确定匹配稀疏特征和关键字的权重的矩阵。

4.根据权利要求1所述的方法，还包括：

利用使用所提取的音频特征的被动进攻模型来训练所述匹配函数。

5.根据权利要求4所述的方法，其中所述训练了解表示稀疏特征与关键字之间映射的矩阵W，从而使得针对所有k、

F_{W} (q_{k}, a_{k}^{+}) > F_{W} (q_{k}, a_{k}^{-}) .

6.根据权利要求1所述的方法，其中对所述音频文件排序还包括：

对与每个稀疏特征向量有关的每个查询字评分并且组合字之间的评分以对与所述查询有关的音频文件进行排序。

7.根据权利要求6所述的方法，其中对每个查询字评分包括利用特定稀疏特征向量计算针对所述字的一组权重与所述音频文件的表示之间的点积。

8.根据权利要求1所述的方法，其中所述听觉模型是模仿耳蜗行为的耳蜗模型。

9.根据权利要求1所述的方法，其中所述声像是稳定的声像。

10.根据权利要求1所述的方法，其中所述声像是听觉相关图。

11.一种计算机实现的方法，包括：

接收文本查询，所述查询包括一个或多个查询项；

检索使关键字与稀疏特征向量相关的匹配函数，每个稀疏特征向量从特定的音频文件导出；

标识来自所述查询项的一个或多个关键字；

响应于所述查询，使用所述匹配函数标识一个或多个音频文件；以及

呈现标识所述一个或多个音频文件的搜索结果。

12.一种编码有计算机程序的计算机存储介质，所述程序包括如下指令，当所述指令由数据处理装置执行时使得所述数据处理装置执行操作，包括：

13.根据权利要求12所述的计算机存储介质，其中从每个声像提取稀疏特征包括：

将声像分成多个子像；

14.根据权利要求12所述的计算机存储介质，其中使用带注释的音频文件的训练汇集生成匹配函数，并且其中生成所述匹配函数包括：

生成针对所述汇集中每个音频文件的稀疏特征向量；以及

15.根据权利要求12所述的计算机存储介质，还包括指令，当所述指令由数据处理装置执行时，使得所述数据处理装置执行操作，包括：

16.根据权利要求15所述的计算机存储介质，其中所述训练了解表示稀疏特征与关键字之间映射的矩阵W，从而使得针对所有k、

F_{W} (q_{k}, a_{k}^{+}) > F_{W} (q_{k}, a_{k}^{-}) .

17.根据权利要求12所述的计算机存储介质，其中对所述音频文件排序还包括：

18.根据权利要求17所述的计算机存储介质，其中对每个查询字评分包括利用特定稀疏特征向量计算针对所述字的一组权重与所述音频文件的表示之间的点积。

19.根据权利要求12所述的计算机存储介质，其中所述听觉模型是模仿耳蜗行为的耳蜗模型。

20.根据权利要求12所述的计算机存储介质，其中所述声像是稳定的声像。

21.根据权利要求12所述的计算机存储介质，其中所述声像是听觉相关图。

22.一种编码有计算机程序的计算机存储介质，所述程序包括如下指令，当所述指令由数据处理装置执行时使得所述数据处理装置执行操作，包括：

接收文本查询，所述查询包括一个或多个查询项；

标识来自所述查询项的一个或多个关键字；

呈现标识所述一个或多个音频文件的搜索结果。

23.一种系统，包括：

一个或多个计算机，其配置用于执行操作，包括：

24.根据权利要求23所述的系统，其中从每个音频图像提取稀疏特征包括：

将声像分成多个子像；

25.根据权利要求23所述的系统，其中使用带注释的音频文件的训练汇集生成匹配函数，并且其中生成所述匹配函数包括：

生成针对所述汇集中每个音频文件的稀疏特征向量；以及

26.根据权利要求23所述的系统，还配置用于执行操作，包括：

27.根据权利要求26所述的系统，其中所述训练了解表示稀疏特征与关键字之间映射的矩阵W，从而使得针对所有k、

F_{W} (q_{k}, a_{k}^{+}) > F_{W} (q_{k}, a_{k}^{-}) .

28.根据权利要求23所述的系统，其中对所述音频文件排序还包括：

29.根据权利要求28所述的系统，其中对每个查询字评分包括利用特定稀疏特征向量计算针对所述字的一组权重与所述音频文件的表示之间的点积。

30.根据权利要求23所述的系统，其中所述听觉模型是模仿耳蜗行为的耳蜗模型。

31.根据权利要求23所述的系统，其中所述声像是稳定的声像。

32.根据权利要求23所述的系统，其中所述声像是听觉相关图。

33.一种系统，包括：

一个或多个计算机，其配置用于执行操作，包括：

接收文本查询，所述查询包括一个或多个查询项；

标识来自所述查询项的一个或多个关键字；

呈现标识所述一个或多个音频文件的搜索结果。