CN102405495A - 使用稀疏特征对信息检索进行音频分类 - Google Patents

使用稀疏特征对信息检索进行音频分类 Download PDF

Info

Publication number
CN102405495A
CN102405495A CN2010800176456A CN201080017645A CN102405495A CN 102405495 A CN102405495 A CN 102405495A CN 2010800176456 A CN2010800176456 A CN 2010800176456A CN 201080017645 A CN201080017645 A CN 201080017645A CN 102405495 A CN102405495 A CN 102405495A
Authority
CN
China
Prior art keywords
audio file
sparse features
sparse
inquiry
acoustic image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800176456A
Other languages
English (en)
Other versions
CN102405495B (zh
Inventor
R·F·里昂
M·雷恩
T·瓦尔特斯
S·本吉奥
G·恰奇克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN102405495A publication Critical patent/CN102405495A/zh
Application granted granted Critical
Publication of CN102405495B publication Critical patent/CN102405495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Abstract

本发明提供了用于使用音频特征对音频进行分类以进行信息检索的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。通常,本说明书中描述的主题的一个方面可以体现为包括如下动作的方法:生成声像的汇集,每个声像根据听觉模型生成自相应的音频文件;从汇集中的每个声像提取稀疏特征以生成表示对应音频文件的稀疏特征向量;以及响应于包括一个或多个字的查询,使用该稀疏特征向量和使稀疏特征向量与该查询中的字相关的匹配函数对该音频文件进行排序。

Description

使用稀疏特征对信息检索进行音频分类
技术领域
本说明书涉及使用音频特征来对用于信息检索的音频进行分类。
背景技术
数字音频数据(例如,表示语音、音乐或其他声音)可以存储在一个或多个音频文件中。音频文件可以包括只具有音频内容的文件(例如,音乐文件)以及与包含其他内容的其他文件(例如,具有一个或多个音频轨道的视频文件)相关联或是其一部分的音频文件。音频文件可以包括语音和音乐以及其他声音分类,包括自然声音(例如,雨声、风声)、人类情感(例如,叫声、笑声)、动物发声(例如,狮吼声、猫叫声)或者其他声音(例如,爆炸声、赛车声、电话铃声)。
可以使用不同技术来表示音频数据。例如,针对强度和时间可以将音频数据表示为振幅波形,或者针对频率和时间可以将音频数据表示为声谱图。另外,可以根据声学模型来表示音频数据,该声学模型用于对生物耳朵(具体地,耳蜗)的听觉响应进行建模。耳蜗模型可以用于根据时间、频率和自相关延迟生成音频数据的声像(auditory image)表示。例如,生成音频相关图或稳定声像可以包括对音频数据应用耳蜗模型。
用户可能希望标识具有特定音频内容的音频文件。例如,用户可以寻找对包括在投影或家庭电影中的特定声音的示例。用户可以通过文本标签(例如,声音的名称或声音的描述(例如,“汽车声”或“吼叫的老虎”))来描述所期望的声音。然而,使用文本查询对音频内容的常规信息检索(例如,执行针对因特网上的音频内容的搜索)是困难的并且经常提供不准确的结果。
发明内容
本说明书描述了涉及使用音频特征来对声音进行分类和索引并且从文本查询检索声音的技术。一般而言,在本说明书中描述的主题的一个方面可以体现为包括以下动作的方法:生成声像汇集,每个声像根据听觉模型生成自相应的音频文件;从该汇集中的每个声像提取稀疏特征以生成表示对应的音频文件的稀疏特征向量;以及响应于包括一个或多个字的查询,使用稀疏特征向量和使稀疏特征向量与查询中的字相关的匹配函数对音频文件进行排序。这一方面的其他实施方式包括对应的系统、装置以及计算机程序产品。
这些和其他实施方式可以可选地包括一个或多个以下特征。从每个声像提取稀疏特征包括:将声像分成多个子像(sub-image);向每个子像应用特征提取器以生成对应的局部稀疏代码;以及组合来自每个子像的稀疏代码以形成针对声像的稀疏向量。匹配函数通过使用带注释的音频文件的训练汇集生成,并且其中生成匹配函数包括:接收带注释的音频文件的汇集,每个带注释的音频文件具有声像和一个或多个与音频文件内容相关联的关键字;针对汇集中的每个音频文件生成稀疏特征向量;以及使用稀疏特征向量和针对带注释的音频文件的汇集的一个或多个关键字来训练匹配函数以确定匹配稀疏特征和关键字的权重的矩阵。该方法还包括利用使用所提取的音频特征的被动进攻模型(passive-aggressive model)来训练匹配函数。该训练了解表示稀疏特征与关键字之间的映射的矩阵W,从而使得针对所有k, F W ( q k , a k + ) > F W ( q k , a k - ) .
对音频文件进行排序还包括:对与每个稀疏特征向量相关的每个查询字进行评分;以及组合字之间的评分以对与该查询相关的音频文件进行排序。对每个查询字进行评分包括计算针对该字的一组权重与利用特定稀疏特征向量的音频文件的表示之间的点积。该听觉模型为模仿耳蜗行为的耳蜗模型。该声像是稳定的声像。该声像是听觉相关图(correllogram)。
一般地,在本说明书中描述的主题的另一方面可以体现为包括以下动作的方法:接收文本查询,该查询包括一个或多个查询项;检索使关键字与稀疏特征向量相关的匹配函数,每个稀疏特征向量从特定的音频文件导出;标识来自查询项的一个或多个关键字;响应于查询,使用匹配函数来标识一个或多个音频文件;以及呈现标识一个或多个音频文件的搜索结果。这一方面的其他实施方式包括对应的系统、装置以及计算机程序产品。
可以实现在本说明书中描述的主题的特定实施方式,以便实现以下优点中的一个或多个。提取的稀疏特征表示特定的声音。音频数据继而可以使用这些音频特征和了解的与字特征的关系来进行分类,该字特征标识音频数据“听上去像什么”。系统继而可以响应于文本搜索查询,快速并相对准确地对音频内容进行检索和排序。
在附图和下文的描述中阐明在本说明书中所描述的主题的一个或多个实施方式的细节。根据描述、附图和权利要求,本发明的其他特征、方面和优点将变得明显。
附图说明
图1是示出了用于响应于文本查询来使用稀疏音频特征检索声音的示例方法的流程图。
图2是图示了示例音频图像的示意图。
图3是用于稀疏特征提取的示例方法的流程图。
图4是图示了向音频图像应用框切割的示例的示意图。
图5是用于训练系统以匹配关键字和稀疏特征的示例方法的流程图。
图6是用于搜索音频内容的示例方法的流程图。
图7示出了示例搜索系统。
图8图示了系统的示例架构。
各附图中的相似参考标号和标记指示相似的元素。
具体实施方式
图1是示出了用于响应于文本查询来使用稀疏音频特征检索声音的示例方法100的流程图。为了方便起见,将针对执行方法100的系统来描述方法100。
系统接收102音频数据。例如,该音频数据可以是来自音频文件的汇集的音频文件。每个音频文件可以包括音频数据和非音频数据。例如,音频文件可以包括音乐、语音或其他音频内容,并且还可以表示也包括非音频数据的文件(例如,包括已经混合为单个文件的视频轨道和音频轨道的视频文件)的音频部分。在这种情况下,提取或隔离该音频数据以便对该音频数据执行操作(例如,从包括多个内容类型的文件中提取音频轨道)。
系统生成104来自所接收音频数据的声像。该声像根据特定听觉模型(例如,耳蜗模型)生成。该声像可以是例如音频相关图或稳定的声像。在某些实现中,系统的听觉前端接收对应于所接收音频数据的音频波形作为输入。听觉前端向音频波形应用耳蜗模型以生成声像。
耳蜗模型模仿耳蜗的行为(例如,在人的内耳中)。耳蜗填充有流体,该流体响应于来自中耳的、由传入声音生成的振动而移动。随着流体移动,耳蜗中的毛细胞移动,从而将流体振动的机械能转换成神经放电的模式。当某些毛细胞对于某些频率的振动比其他毛细胞更加敏感时,对振动的频率响应作为位置的函数进行改变。此毛细胞布置的结果为耳蜗起到一系列频率滤波器的作用,其通频带是沿耳蜗位置的函数。
生成包括相关图或稳定声像的声像涉及基于耳蜗模型、根据输入音频数据(例如,输入音频波形)生成耳蜗图,然后根据耳蜗图生成声像。耳蜗图(cochleagram)为音频数据的频谱时间表示。
生成耳蜗图(例如,在系统的听觉前端)包括使用一组耳蜗滤波器来将输入音频数据分成多个频带(例如,使用低通滤波器的级联或带通滤波器的平行带)。该组滤波器将由于耳蜗毛细胞的变化的响应而产生的滤波表示为频率或位置的函数。来自该组滤波器中每个滤波器的输出为表示特定频带的信道。检测每个信道中的能量,并将其用于调节频带中音频数据的增益,用于实现听觉敏感自适应的简单模型,或者用于自动增益控制(AGC)。在某些实现方式中,向输出频带应用半波整流器(HWR)以提供针对每个信道中的音频数据的波形,该波形表示在沿模型耳蜗的每个位置处的神经放电率。具体地,半波整流器模拟耳蜗中响应于一个方向移动的毛细胞。所产生的耳蜗图根据基于耳蜗模型的频率和时间提供音频数据的表示。
声像通过计算每个频率信道的自动相关性、针对一组给定时间点向耳蜗表示添加附加维度。在每个这样的给定时间点,作为一系列滤波器的输出的一维表示被转变成二维表示,从而用自动相关向量替代每个滤波器的标量输出。当这些图像随时间获取时,产生的声像为音频数据提供频率、时间和自动相关延迟的三维函数。
图2是图示了示例音频图像200的示意图。具体地,音频图像200是生成自输入音频波形的稳定声像。音频图像200根据频率、时间和自动相关延迟表示音频数据。具体地,如图2中所示,x轴表示自动相关延迟而y轴表示频率,并且图像在每个时间步长变化。从模式对于稳定的声音(诸如,持续语音声音、稳定音符或稳定噪声)稳定的意义上来讲,图像是“稳定的”。声音的特性影响图像,并且图像“看上去像什么”表示声音“听上去像什么”。
如图1中所示,系统从声像提取106稀疏音频特征。音频特征可以表示能够用于分类音频数据的各种事物。例如,多个不同特征可以与音频数据相关联,该音频数据包括时域和频域特征(例如,能量包络和分布、频率含量、调和性和音调)。对于语音和音乐分类常见的其他音频特征包括表示声音的短期功率谱的梅尔(mel)频率倒频谱(cepstral)系数。
其他音频特征是稀疏音频特征。本说明书中使用的稀疏指的是大多数针对每个给定声音的特征值为0,并且所有特征的集合可以通过仅列出非零特征来高效地编码。具体地,稀疏音频特征表示声像的抽象局部结构属性。单个特征可能几乎没有有用的解释,但是一大组这些特征汇集起来可以提供关于声音特性的信息。下文针对图3更详细地描述从声像提取稀疏特征。
在某些实现方式中,关于声像的每个时间帧计算一组稀疏特征并且将其聚合或汇集以指示贯穿整个声音(例如,在整个电影音轨上)每个特征发生了多少次。该结果被称为声音的“特征包”表示。该“特征包”概念也已经用于表示图像和其他媒体类型,并且类似于文本文档的“文字包”表示,文字包是对每个文字在文档中出现的次数的表示,与文字顺序无关,并且已经发现是用于编制索引和检索的文本文档的有用表现。
系统训练108使音频稀疏特征与查询词汇表中文字相关的匹配函数。具体地,系统使用训练数据来训练对两对稀疏向量(一个向量表示声音数据而另一向量表示一组关键字(文本查询))之间匹配的质量进行评分的函数。具有针对声音的高评分的关键字表示该音频数据“听上去像什么”。一个帧的特征集合或表示更长分段或整个声音的“特征包”可以由经训练的匹配转换成可以用作声音的“文字包”表示,即便该文字包不是来自文字而是来自声音,并且可以包括数字(例如,正实数和负实数,而不仅是整数字数)。下文针对图5更加详细地描述了用于生成将稀疏特征的组合与关键字相关联(即用于将特征包转变成文字包)的匹配的训练。
因此,提取的稀疏特征的给定组合可以和与稀疏特征的组合相关联的一个或多个关键字匹配。例如,如果音频数据的内容包括狮吼声,则某些提取的稀疏特征将有助于与狮吼所关联的关键字(例如,“狮子”和“吼叫”)的匹配。
系统相对于一个或多个文字或项的给定查询,根据稀疏特征对音频数据进行评分110。该过程可以针对音频文件的汇集中的每一个,对音频数据进行重复,从而使得针对给定查询,可以向每个音频文件给出与该查询相关联的评分。系统根据那些评分对音频文件进行评分或排序。系统可以本地或分布在多个不同存储介质之间而存储所有声音的特征和匹配函数的表示。系统继而可以在信息检索期间,例如响应于下文针对图6描述的搜索查询而访问特征和匹配表示,并且可以返回若干排序靠前的声音文件。
图3是用于稀疏特征提取的示例方法300的流程图。为了方便起见,将针对执行方法300的系统来描述该方法300。系统使用特征提取器(例如,向量量化器)的汇集。每个特征提取器将声像的子像转变成N个稀疏代码之一。当N等于250并且使用100个子像时,这产生具有25,000维稀疏特征中基本上100个非零元素的净稀疏代码。
系统根据预定模式将声像分成302多个子像。该过程被称作框切割。在某些实现中,如图4中所示,框切割将声像分成重叠的矩形。
图4是图示了框切割音频图像402的示例的示意图400。该图像被分成多个子像404。然后向每个子像的内容应用特征提取器以提取稀疏特征。
矩形具有不同大小,以便以多种标度捕获声像中的信息。系统单独变化水平和垂直大小。另外,系统变化矩形的垂直位置。系统将这些矩形重新标度成固定大小(对于所有矩形都相同),而不考虑其原始大小。通常这产生较小的尺寸。针对每个重新调整大小的矩形,系统可选地计算水平边际和垂直边际(marginal)。边际是针对特定矩形中每列和行的平均值。针对每个单独矩形的水平和垂直边际被连接至单个实值向量。备选地,系统维持每个矩形内容作为单个向量,而不将其减少到其边际。
系统向每个子像应用304特征提取器以生成针对子像的局部稀疏代码。系统利用稀疏代码估计表示声像中矩形区域的每个向量。系统可以使用向量量化或匹配追踪(pursuit)来逼近向量。
向量量化使用来自码本的最佳匹配向量(在欧氏(Euclidean)意义上最接近)来逼近向量。一旦选定最佳匹配,表示可以被编码为稀疏代码向量,其中长度等于码本的大小,并且包括所有的0,除了在所选择代码字的索引位置的单个“1”。
匹配追踪向码本向量上投影向量(表示矩形);寻找最大的投影;向稀疏特征表示(在适当的索引位置)添加该投影的带符号的标度值;以及从原始向量减去向量值投影,从而产生剩余向量。然后重复该过程,直到最大投影的量级变得小于给定阈值。
针对匹配追踪和向量量化两者,系统了解到用于在声像中的每个特定位置表现矩形的单独码本。系统使用例如k平均算法从数据了解到码本。
系统从所有子像收集稀疏代码以建立针对整个帧的大型稀疏代码向量。具体地,一旦每个矩形转变成稀疏代码,它们便连接成一个高维稀疏向量,从而表示整个声像。
为了表示整个音频文件,系统将表示单独帧的稀疏向量组合306成表示音频文件的音频数据的稀疏向量,这例如通过简单地将它们加起来。产生的向量经常不如针对单独帧的向量稀疏,但是通常依然是稀疏的。
系统可以存储308该音频文件以及其他音频文件的稀疏代码向量。例如,这些向量继而可以用于表示训练系统中的音频数据,或者用于标识匹配给定查询的音频文件。
图5是用于训练系统以将稀疏特征映射到关键字的示例方法500的流程图。为了方便起见,将针对执行方法500的系统描述方法500。
系统接收502带注释音频的汇集。带注释音频文件的汇集可以包括仅包括音频数据的文件和包括音频数据以及其他内容类型(例如,音频和视频内容)的文件。例如,带注释音频文件的汇集可以包括接收自资源库的音频文件,该资源库包括针对每个音频文件标识音频文件的对应内容的一个或多个关键字标签。
在某些实现中,系统从声音效果的资源库选择用于包括在待用于训练的带注释音频文件的汇集中的音频文件。声音效果资源库可以包括仅具有一个音频对象(例如,狮吼声而无其他声音)的纯净音频数据。例如,系统可以使用商售的或免费可获得的声音效果的资源库来选择用于包括在音频文件的汇集中的音频文件。在某些实现中,选定的音频文件没有标识音频数据的内容的标签。在这种情况下,音频文件可以例如通过使得听众回顾每个音频文件并指派针对每个音频文件的一个或多个标签来手动添加标签。
在某些实现中,音频文件是指派的层级标签。例如,如果音频文件标记有关键字“猫”,则可以添加附加的关键字“猫科”、“哺乳动物”和“动物”。在某些情形下,标签被限于预定关键字词汇表以提供标签一致性。
在某些实现中,系统从用户上传的音频文件的资源库选择用于包括在待用于训练的带注释音频文件的汇集中的音频文件。例如,Freesound项目(http://freesound.org)提供了公共可获得的带标记音频文件的在线资源库。个人用户可以上传音频文件以及标识每个所上传音频文件的内容的一个或多个标签。与特定效果音频文件相比,这些音频文件中的每一个都包括不止一个组合为复合音频场景(即,不只是单个特定声音)的音频对象。
来自选定音频文件的标签可以被处理以生成与该汇集的每个音频文件相关联的关键字。例如,可以过滤标签以移除包含数字和非检索用字(stopword)的标签。还可以对标签进行抽取(stem)以移除格式后缀(例如,mp3、wav、afi),标签还可以进行拼写检测以改正拼写错误,并且可以对所有字进行抽取(例如,以从标签中移除包括例如“-s”和“-ing”后缀的复数或其他修饰语)。词汇表可以基于生成自音频文件标签的唯一关键字进行限定。在某些实现中,某些音频文件的标签可能是噪声。例如,在某些情况下,某些标签没有正确地描述音频文件的内容。例如,包含狮吼的音频文件可能被标记为包含人的叹息。
系统从每个音频文件提取504稀疏特征。例如可以如针对图3所述那样来提取稀疏特征。由此,针对每个音频文件,存在经提取的稀疏特征和一个或多个关键字。
系统训练506匹配函数(诸如线性矩阵映射)以将稀疏特征与关键字匹配。给定任意稀疏特征向量和标签的任意集合,匹配函数计算测量两者之间关联的质量的评分。由于训练,具有稀疏特征的特定组合的音频文件的内容生成包含词汇表中的一个或多个关键字的文字包,其中文字表示声音听上去像什么。
可以使用不同的训练技术来训练匹配函数。例如,如机器学习领域公知的,匹配函数可以被训练为使用分类器的排序器。训练技术包括“针对图像检索的被动进攻模型”(PAMIR)、高斯混合模型(GMM)和Boosting或支持向量机(SVM)。GMM用于计算音频文档的概率密度函数。训练GMM模型可以使用最大后验(MAP)方法。SVM和Boosting寻找最大化正面示例和负面示例之间边缘同时最小化训练中误分类数目的判别式函数。
PAMIR是最初应用于检索自文本查询的基于内容的图像的技术。PAMIR特别训练用于响应于查询而不是分类来产生媒体文档(图像或声音)的良好排序。PAMIR可以适用于简单地通过使用音频特征而不是图像特征来训练基于内容的音频检索;PAMIR工作如下:
查询q可以由针对词汇表T中(例如在从添加标签的训练数据导出的关键字的词汇表中)每个关键字的标准化逆文档频率(tf-idf)的权重的向量表示,其中
Figure BPA00001447616400101
文档(例如,音频文件)可以由维度d的稀疏特征向量
Figure BPA00001447616400102
表示,其中da表示稀疏音频特征的潜在数目。针对多维((|T|xda))的矩阵W,查询水平评分Fw(q,a)可以定义如下:
Fw(q,a)=qtranspWa,
其测量文档a匹配查询q的程度。另外,W可以被示为从声学表示到文本表示的转换,
Figure BPA00001447616400103
由此,评分成为文本查询q与“文字包”或“文本文档”Wa的向量表示之间的点积,其中每个分量针对文字t计算为针对单个文字查询的评分:
scorePAMIR(a,t)=Wta,
其中Wt是W的第t行。W因此是待学习的矩阵,表示从音频“特征包”到“文字包”的线性映射。
针对文本查询和音频文档的训练集合,有限训练集合Dtrain(例如,训练集合中音频文件的汇集)可以表示为一组三元组 D train = { ( q 1 , a 1 + , a 1 - ) , . . . , ( q n , a n + , a n - ) } , 其中针对第k个三元组
Figure BPA00001447616400112
qk是文本查询,
Figure BPA00001447616400113
是与qk有关的音频文档并且
Figure BPA00001447616400114
是与qk无关的音频文档。PAMIR方法标识参数W,从而使得针对每个k, F w ( q k , a k + ) - F w ( q k , a k - ) ≥ ϵ , ε>0。这可以被重写为损失函数 l W ( ( q k , a k + , a k - ) ) = 0 , ∀ k , 其中 l w ( ( q k , a k + , a k - ) ) = max { 0 , ϵ - F w ( q k , a k + ) + F w ( q k , a k - ) } . 由此,PAMIR方法的目的在于标识W,从而使得针对所有k,评分
Figure BPA00001447616400118
应当比评分
Figure BPA00001447616400119
大至少一个小正数差值。因此,针对训练集合中尽可能多的文档与查询的组合,与给定查询有关的文档评分应当高于与该查询无关的文档评分。
使用PAMIR对训练集合上的模型进行训练包括使用开发用于分类和回归问题的被动攻击(PA)系列技术来迭代最小化:
L ( D train ; W ) = Σ k = 1 n l W ( ( q k , a k + , a k - ) ) .
在每次训练迭代i,PAMIR解决以下凸(convex)问题:
W i = arg min w 1 2 | | W - W i - 1 | | 2 + Cl W ( ( q k , a k + , a k - ) ) .
其中‖W-Wi-1‖是逐点的L2正则化。因此,在每次迭代,Wi被选作保持靠近先前参数Wi-1与最小化当前示例
Figure BPA000014476164001112
上损失之间的权衡。攻击参数C控制此权衡。此凸优化问题的解为:
Wi=Wi-1iVi
其中 τ i = min { C , l W i - 1 ( q k , a k + , a k - ) | | V i | | 2 }
并且 V i = - [ ( q i 1 ( a k + - a k - ) , . . . , q i | T | ( a k + - a k - ) ]
其中
Figure BPA000014476164001115
是向量qi的第j个值并且Vi是针对W的损失的梯度。
在训练过程期间,查询的词汇表对应于被标识用于表示训练数据中的音频文件的关键字。凸最小化问题的解使用已知关联的训练数据来根据迭代过程学习特定关键字与特定音频内容之间的通用关联,该迭代过程对于关键字与音频内容之间更可能的匹配产生更高评分,如由提取自每个音频文件的稀疏特征所表示。该训练过程用于生成稀疏特征与关键字之间的匹配。
系统以矩阵W的形式存储508稀疏特征与关键字之间的匹配函数。如上文针对图1所述,该匹配继而可以用于标识针对非带注释音频数据的关键字。
图6是用于搜索音频内容的示例方法600的流程图。为了方便起见,将针对执行方法600的系统描述方法600。系统接收602针对音频内容的查询。所接收的查询包括一个或多个查询项,例如“对狮吼的记录”。
系统响应于查询,使用与音频文件的汇集相关联的关键字标识604音频文件。具体地,将查询与词汇表中的一个或多个关键字匹配。这可以包括移除不具有对应词汇表条目的查询项。例如,查询“对狮吼的记录”可以被缩减为“狮吼”。匹配关键字用于形成查询向量q,从而表示该查询。查询向量q是稀疏的(大多数分量的值为0),这是因为任意查询中只存在所有可能关键字中的若干关键字。针对查询向量和每个音频文件的稀疏特征而计算的评分包括计算查询向量与“文字包”特征Wa之间的点积。由此,评分是文本查询q的向量表示与表示音频文件的“文本文档”或“文字包”之间的点积,其中特征向量Wa,FW(q,a)=qtranspWa。该评分指示特定音频文件与搜索查询的匹配程度。该评分越高,音频文件越可能是搜索查询的良好响应。由此,音频文件的排序列表可以响应于根据该评分的查询进行标识。系统可以基于针对表示的排序指定限于搜索结果的前k个。
系统可选地使用由查询项进行索引的预计算索引来标识针对查询具有排序高的潜力的音频文件,这是由于其具有针对至少一个查询项显著正面的关键字评分。具体地,索引标识待排序的潜在可接受查询匹配,从而使得系统针对接收的查询不计算所有音频文件的排序函数。例如,针对查询“狮吼”,索引可以标识1000个具有一位“狮”在其中的音频文件,并且标识具有某些“吼”在其中的数千音频文件。系统继而可以使用排序函数来只组合所述音频文件以标识排序列表而不是对所有音频文件评分。备选地,可以使用针对所有音频文件计算与稀疏查询向量的点积的其他快速方法,其包括位置敏感哈希或邻近树。
系统呈现606标识音频文件的排序列表的搜索结果。具体地,搜索结果可以被呈现为到对应于具有响应于查询的内容的音频文件的资源的一组链接。搜索结果可以被呈现为列表、图标或者缩略声像。
图7图示了用于提供与所提交的查询相关的搜索结果的示例搜索系统714,该搜索系统714可以实现在因特网、内网或者另一客户端和服务器环境中。搜索系统714是在其中能够实现下面描述的系统、组件和技术的信息检索系统的示例。
用户702可以通过客户端设备704与搜索系统714交互。例如,客户端704可以是通过局域网(LAN)或例如因特网的广域网(WAN)耦合至搜索系统714的计算机。在某些实现中,搜索系统714和客户端设备704可以是一个机器。例如,用户可以在客户端设备704上安装桌面搜索应用。客户端设备704一般包括随机存取存储器(RAM)706和处理器708。
用户702可以向搜索系统714内的搜索引擎730提交查询710(例如,针对音频内容的查询)。当用户702提交查询710时,查询710通过网络传送到搜索系统714。搜索系统714可以实现为例如运行在一个或多个位置中、通过网络彼此耦合的一个或多个计算机上的计算机程序。搜索系统714包括索引数据库722和搜索引擎730。搜索系统714通过生成搜索结果728来对查询710进行响应,该搜索结果728以能够呈现给用户702的形式(例如,要显示在运行在客户端设备704上的web浏览器中的搜索结果web页面,该搜索结果web页面列出了响应于音频查询的音频资源的标识符)通过网络传送到客户端设备704。
当搜索引擎730接收到查询710时,搜索引擎730标识与查询710匹配的资源。搜索引擎730通常将包括对在资料(例如内容的汇集或存储库)中找到的资源(例如因特网上的音频数据、web页面、图像或者新闻文章)进行索引的索引引擎720,存储索引信息的索引数据库722,以及用以对与查询710匹配的资源进行排序的排序引擎752(或其他软件)。可以结合上文描述的排序技术使用常规技术来执行对资源的索引编制和排序。搜索引擎730可以通过网络向客户端设备704传送搜索结果728,例如,以便呈现给用户702。
搜索系统714还可以基于其从用户接收的查询来维持一个或多个用户搜索历史。一般而言,用户搜索历史存储从用户接收的查询序列。用户搜索历史还可以包括附加信息,诸如在执行了搜索之后选择了哪些结果以及每个所选择的结果被查看了多久。
具体地,当查询710为针对音频内容的请求时,搜索引擎730可以使用关键字词汇表和如上文所述标识潜在匹配的索引(例如,存储在索引数据库722中)或者通过访问存储的针对所有声音的特征或者存储在如针对图1所述的搜索系统中的匹配函数的表示来搜索匹配查询710的资源。当确定音频数据匹配查询710时,排序引擎752可以基于经计算的评分对响应于查询710的音频数据进行排序。
图8图示了系统架构800的示例架构。架构800包括一个或多个处理器802(例如IBM PowerPC、Intel Pentium 4等)、一个或多个显示设备804(例如CRT、LCD)、图形处理单元806(例如NVIDIAGeForce等)、网络接口808(例如以太网、FireWire、USB等)、输入设备810(例如键盘、鼠标等)以及一个或多个计算机可读介质812。这些部件使用一个或多个总线814(例如EISA、PCI、PCI Express等)交换通信信息和数据。
术语“计算机可读介质”指的是参与向处理器802提供指令以供执行的任意介质。计算机可读介质812还包括操作系统816(例如Mac OS
Figure BPA00001447616400151
、Windows、Linux等)、网络通信模块818、特征提取器820、关键字特征匹配822和其他应用824。
操作系统816可以是多用户、多处理、多任务、多线程、实时以及类似的。操作系统816执行基本任务,包括但不限于:识别来自输入设备810的输入;向显示设备804发送输出;在计算机可读介质812(例如存储器或者存储设备)上保持文件和目录的轨道;控制外围设备(例如盘驱动器、打印机等);以及管理一个或多个总线814上的通信。网络通信模块818包括用于建立和保持网络连接的各种组件(例如,用于实现诸如TCP/IP、HTTP、以太网等通信协议的软件)。
特征提取器820提供各种软件组件以用于执行各种功能以如针对图3至图4所述从音频数据提取稀疏特征。关键字特征匹配822提供各种软件组件以用于执行各种功能,以训练模型来将稀疏特征与关键字相关联并且向所接收的稀疏特征应用该模型,以便如针对图1至图5所述标识匹配关键字。其他应用824可以包括声像生成器,用于从输入音频文件生成声像。
本说明书中描述的主题和操作的实施方式可以在包括本说明书中公开的结构及其结构等效物的数字电子电路、或者在计算机软件、固件或者硬件,或者上述各项中的一个或多个的组合中实现。本说明书中描述的主题的实施方式可以实现为编码在计算机存储介质上的一个或多个计算机程序,即,一个或多个计算机程序指令模块,以用于由数据处理装置执行或者控制数据处理装置的操作。备选地或者附加地,程序指令可以编码在人工生成的传播信号(例如,机器生成的电、光或者电磁信号)上,其被生成用于编码信息以用于向适当的接收机传输,以便由数据处理装置执行。计算机存储介质可以是计算机可读存储设备、计算机可读存储衬底、随机或者串行存取存储器阵列或者设备或者上述各项中的一个或多个的组合,或者包括在上述各项及上述各项中的一个或多个的组合之中。
本说明书中描述的操作可以实现为由数据处理装置对存储在一个或多个计算机可读存储设备上或者从其他来源接收的数据执行的操作。
术语“数据处理装置”包括用于处理数据的所有种类的装置、设备和机器,包括例如可编程处理器、计算机、片上系统或者上述各项的组合。装置可以包括专用逻辑电路,例如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。除了硬件以外,装置还可以包括创建用于考虑中的计算机程序的执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境(例如,虚拟机)或者上述各项中的一个或多个的组合的代码。装置和执行环境可以实现各种不同的计算模型基础架构,诸如web服务、分布式计算和网格计算基础架构。
计算机程序(也称为程序、软件、软件应用、脚本或者代码)可以按照任何形式的编程语言(包括编译或者解释语言、声明或者过程语言)编写,并且其可以按照任何形式部署,包括作为独立程序或者作为模块、组件、子例程、对象或者适于在计算环境中使用的其他单元。计算机程序可以但不必与文件系统中的文件相对应。程序可以存储在保持其他程序或者数据的文件的一部分中(例如,存储在标记语言文档中的一个或多个脚本)、专用于考虑中的程序的单个文件或者多个协作的文件中(例如,存储一个或多个模块、子程序或者部分代码的文件)。计算机程序可以部署用于在一个计算机或者位于一个站点或者跨多个站点分布并且通过通信网络互连的多个计算机上执行。
本说明书中描述的过程和逻辑流可以由一个或多个可编程处理器执行,其执行一个或多个计算机程序以通过对输入数据进行操作并且生成输出来执行功能。过程和逻辑流还可以由专用逻辑电路来执行,并且装置也可以实现为专用逻辑电路,该专用逻辑电路例如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。
适于执行计算机程序的处理器包括例如通用和专用微处理器二者,以及任何类型的数字计算机的任何一个或多个处理器。一般而言,处理器将从只读存储器或者随机访问存储器或者这二者接收指令和数据。计算机的主要元件是用于实现或执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。一般而言,计算机还将包括用于存储数据的一个或多个海量存储设备(例如,磁、磁光盘或者光盘)或者可操作地耦合至该海量存储设备以从其接收数据或者向其传送数据或者二者。然而,计算机不需要具有此类设备。另外,计算机可以嵌入在另一设备中,该另一设备例如移动电话、个人数字助理(PDA)、移动音频或者视频播放器、游戏机、全球定位系统(GPS)接收机或者便携式存储设备(例如,通用串行总线(USB)闪速驱动器),仅作为几例。适于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备,包括例如:半导体存储器设备,例如EPROM、EEPROM和闪速存储器设备;磁盘,例如内部硬盘或者可移动盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路进行补充或者并入其中。
为了提供与用户的交互,本说明书中描述的主题的实施方式可以在计算机上实现,该计算机具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或者LCD(液晶显示)监视器)以及用户可以通过其向计算机提供输入的指点设备,例如鼠标或者轨迹球。其他种类的设备也可以用于提供与用户的交互;例如,向用户提供的反馈可以是任何形式的感觉反馈,例如视觉反馈、听觉反馈或者触觉反馈;并且来自用户的输入可以按照任何形式接收,包括声音、语音或者触觉输入。另外,计算机可以通过向用户使用的设备发送文档或者从其接收文档而与用户交互;例如,通过响应于从用户的客户端设备上的web浏览器接收的请求,向该web浏览器发送web页面。
本说明书中描述的主题的实施方式可以在包括后端组件的计算系统(例如作为数据服务器)或者包括中间件组件的计算系统(例如,应用服务器)或者包括前端组件的计算系统(例如用户可以通过其与本说明书中描述的主题的实现进行交互的具有图形用户接口或者Web浏览器的客户端计算机)中,或者一个或多个此类后端、中间件或者前端组件的任意组合中实现。系统的组件可以通过数字数据通信的任何形式或者介质(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网络(例如,因特网)和端对端网络(例如,ad hoc端对端网络)。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络进行交互。客户端和服务器的关系借助于相应计算机上运行的并且彼此具有客户端-服务器关系的计算机程序来体现。在某些实施方式中,服务器向客户端设备传输数据(例如,HTML页面)(例如,出于向与客户端设备交互的用户显示数据或者从其接收用户输入的目的)。可以在服务器处从客户端设备接收在客户端设备处生成的数据(例如,用户交互的结果)。
虽然本说明书包含很多特定实现细节,但是这些不应当视为对本发明或者可以要求保护的范围的限制,而是作为特定于本发明的特定实施方式的特征的描述。本说明书在独立的实施方式的上下文中描述的特定特征可以在单个实施方式中组合实现。相反,在单个实施方式的上下文中描述的各种特征也可以在多个实施方式中或者在任意适当的子组合中分开实现。另外,虽然上文可能将特征描述为在特定组合中进行并且甚至初始如此要求保护,但是在某些情况下,所要求保护的组合中的一个或多个特征可以从组合中去除,并且所要求保护的组合可以针对子组合或者子组合的变体。
类似地,虽然附图中以特定次序描绘了操作,但是这不应理解为需要以所示出的特定次序或者顺序执行此类操作,或者执行所有示出的操作来达到期望的结果。在某些情况下,多任务和并行处理可能是有利的。另外,上文描述的实施方式中的各种系统组件的分离不应当理解为在所有实施方式中需要此类分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中或者封装为多个软件产品。
由此,已经描述了本发明的特定实施方式。其他实施方式也在所附权利要求的范围内。在某些情况下,权利要求中限定的动作可以按照不同的次序来执行并且仍然达到期望的结果。另外,附图中绘出的过程未必需要所示出的特定次序或者顺序来达到期望的结果。在某些实现中,多任务和并行处理可能是有利的。

Claims (33)

1.一种计算机实现的方法,包括:
生成声像的汇集,每个声像根据听觉模型生成自相应的音频文件;
从所述汇集中的每个声像提取稀疏特征以生成表示对应音频文件的稀疏特征向量;以及
响应于包括一个或多个字的查询,使用所述稀疏特征向量和使稀疏特征向量与所述查询中的字相关的匹配函数对所述音频文件进行排序。
2.根据权利要求1所述的方法,其中从每个声像提取稀疏特征包括:
将声像分成多个子像;
向每个子像应用特征提取器以生成对应的局部稀疏代码;以及
组合来自每个子像的所述稀疏代码以形成针对所述声像的稀疏向量。
3.根据权利要求1所述的方法,其中使用带注释的音频文件的训练汇集生成匹配函数,并且其中生成所述匹配函数包括:
接收带注释的音频文件的汇集,每个带注释的音频文件具有声像以及与所述音频文件的内容相关联的一个或多个关键字;
生成针对所述汇集中每个音频文件的稀疏特征向量;以及
使用所述稀疏特征向量和针对带注释的音频文件的汇集的所述一个或多个关键字来训练所述匹配函数以确定匹配稀疏特征和关键字的权重的矩阵。
4.根据权利要求1所述的方法,还包括:
利用使用所提取的音频特征的被动进攻模型来训练所述匹配函数。
5.根据权利要求4所述的方法,其中所述训练了解表示稀疏特征与关键字之间映射的矩阵W,从而使得针对所有k、 F W ( q k , a k + ) > F W ( q k , a k - ) .
6.根据权利要求1所述的方法,其中对所述音频文件排序还包括:
对与每个稀疏特征向量有关的每个查询字评分并且组合字之间的评分以对与所述查询有关的音频文件进行排序。
7.根据权利要求6所述的方法,其中对每个查询字评分包括利用特定稀疏特征向量计算针对所述字的一组权重与所述音频文件的表示之间的点积。
8.根据权利要求1所述的方法,其中所述听觉模型是模仿耳蜗行为的耳蜗模型。
9.根据权利要求1所述的方法,其中所述声像是稳定的声像。
10.根据权利要求1所述的方法,其中所述声像是听觉相关图。
11.一种计算机实现的方法,包括:
接收文本查询,所述查询包括一个或多个查询项;
检索使关键字与稀疏特征向量相关的匹配函数,每个稀疏特征向量从特定的音频文件导出;
标识来自所述查询项的一个或多个关键字;
响应于所述查询,使用所述匹配函数标识一个或多个音频文件;以及
呈现标识所述一个或多个音频文件的搜索结果。
12.一种编码有计算机程序的计算机存储介质,所述程序包括如下指令,当所述指令由数据处理装置执行时使得所述数据处理装置执行操作,包括:
生成声像的汇集,每个声像根据听觉模型生成自相应的音频文件;
从所述汇集中的每个声像提取稀疏特征以生成表示对应音频文件的稀疏特征向量;以及
响应于包括一个或多个字的查询,使用所述稀疏特征向量和使稀疏特征向量与所述查询中的字相关的匹配函数对所述音频文件进行排序。
13.根据权利要求12所述的计算机存储介质,其中从每个声像提取稀疏特征包括:
将声像分成多个子像;
向每个子像应用特征提取器以生成对应的局部稀疏代码;以及
组合来自每个子像的所述稀疏代码以形成针对所述声像的稀疏向量。
14.根据权利要求12所述的计算机存储介质,其中使用带注释的音频文件的训练汇集生成匹配函数,并且其中生成所述匹配函数包括:
接收带注释的音频文件的汇集,每个带注释的音频文件具有声像以及与所述音频文件的内容相关联的一个或多个关键字;
生成针对所述汇集中每个音频文件的稀疏特征向量;以及
使用所述稀疏特征向量和针对带注释的音频文件的汇集的所述一个或多个关键字来训练所述匹配函数以确定匹配稀疏特征和关键字的权重的矩阵。
15.根据权利要求12所述的计算机存储介质,还包括指令,当所述指令由数据处理装置执行时,使得所述数据处理装置执行操作,包括:
利用使用所提取的音频特征的被动进攻模型来训练所述匹配函数。
16.根据权利要求15所述的计算机存储介质,其中所述训练了解表示稀疏特征与关键字之间映射的矩阵W,从而使得针对所有k、 F W ( q k , a k + ) > F W ( q k , a k - ) .
17.根据权利要求12所述的计算机存储介质,其中对所述音频文件排序还包括:
对与每个稀疏特征向量有关的每个查询字评分并且组合字之间的评分以对与所述查询有关的音频文件进行排序。
18.根据权利要求17所述的计算机存储介质,其中对每个查询字评分包括利用特定稀疏特征向量计算针对所述字的一组权重与所述音频文件的表示之间的点积。
19.根据权利要求12所述的计算机存储介质,其中所述听觉模型是模仿耳蜗行为的耳蜗模型。
20.根据权利要求12所述的计算机存储介质,其中所述声像是稳定的声像。
21.根据权利要求12所述的计算机存储介质,其中所述声像是听觉相关图。
22.一种编码有计算机程序的计算机存储介质,所述程序包括如下指令,当所述指令由数据处理装置执行时使得所述数据处理装置执行操作,包括:
接收文本查询,所述查询包括一个或多个查询项;
检索使关键字与稀疏特征向量相关的匹配函数,每个稀疏特征向量从特定的音频文件导出;
标识来自所述查询项的一个或多个关键字;
响应于所述查询,使用所述匹配函数标识一个或多个音频文件;以及
呈现标识所述一个或多个音频文件的搜索结果。
23.一种系统,包括:
一个或多个计算机,其配置用于执行操作,包括:
生成声像的汇集,每个声像根据听觉模型生成自相应的音频文件;
从所述汇集中的每个声像提取稀疏特征以生成表示对应音频文件的稀疏特征向量;以及
响应于包括一个或多个字的查询,使用所述稀疏特征向量和使稀疏特征向量与所述查询中的字相关的匹配函数对所述音频文件进行排序。
24.根据权利要求23所述的系统,其中从每个音频图像提取稀疏特征包括:
将声像分成多个子像;
向每个子像应用特征提取器以生成对应的局部稀疏代码;以及
组合来自每个子像的所述稀疏代码以形成针对所述声像的稀疏向量。
25.根据权利要求23所述的系统,其中使用带注释的音频文件的训练汇集生成匹配函数,并且其中生成所述匹配函数包括:
接收带注释的音频文件的汇集,每个带注释的音频文件具有声像以及与所述音频文件的内容相关联的一个或多个关键字;
生成针对所述汇集中每个音频文件的稀疏特征向量;以及
使用所述稀疏特征向量和针对带注释的音频文件的汇集的所述一个或多个关键字来训练所述匹配函数以确定匹配稀疏特征和关键字的权重的矩阵。
26.根据权利要求23所述的系统,还配置用于执行操作,包括:
利用使用所提取的音频特征的被动进攻模型来训练所述匹配函数。
27.根据权利要求26所述的系统,其中所述训练了解表示稀疏特征与关键字之间映射的矩阵W,从而使得针对所有k、 F W ( q k , a k + ) > F W ( q k , a k - ) .
28.根据权利要求23所述的系统,其中对所述音频文件排序还包括:
对与每个稀疏特征向量有关的每个查询字评分并且组合字之间的评分以对与所述查询有关的音频文件进行排序。
29.根据权利要求28所述的系统,其中对每个查询字评分包括利用特定稀疏特征向量计算针对所述字的一组权重与所述音频文件的表示之间的点积。
30.根据权利要求23所述的系统,其中所述听觉模型是模仿耳蜗行为的耳蜗模型。
31.根据权利要求23所述的系统,其中所述声像是稳定的声像。
32.根据权利要求23所述的系统,其中所述声像是听觉相关图。
33.一种系统,包括:
一个或多个计算机,其配置用于执行操作,包括:
接收文本查询,所述查询包括一个或多个查询项;
检索使关键字与稀疏特征向量相关的匹配函数,每个稀疏特征向量从特定的音频文件导出;
标识来自所述查询项的一个或多个关键字;
响应于所述查询,使用所述匹配函数标识一个或多个音频文件;以及
呈现标识所述一个或多个音频文件的搜索结果。
CN201080017645.6A 2009-03-11 2010-03-11 使用稀疏特征对信息检索进行音频分类 Active CN102405495B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15939809P 2009-03-11 2009-03-11
US61/159,398 2009-03-11
PCT/US2010/027031 WO2010105089A1 (en) 2009-03-11 2010-03-11 Audio classification for information retrieval using sparse features

Publications (2)

Publication Number Publication Date
CN102405495A true CN102405495A (zh) 2012-04-04
CN102405495B CN102405495B (zh) 2014-08-06

Family

ID=42244984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080017645.6A Active CN102405495B (zh) 2009-03-11 2010-03-11 使用稀疏特征对信息检索进行音频分类

Country Status (4)

Country Link
US (1) US8463719B2 (zh)
EP (1) EP2406787B1 (zh)
CN (1) CN102405495B (zh)
WO (1) WO2010105089A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425668A (zh) * 2012-05-16 2013-12-04 联想(北京)有限公司 信息检索方法及电子设备
CN104239372A (zh) * 2013-06-24 2014-12-24 浙江大华技术股份有限公司 一种音频数据分类方法及装置
CN104885053A (zh) * 2012-12-31 2015-09-02 谷歌公司 流匹配系统中的结果的存留和实时排名
CN104951442A (zh) * 2014-03-24 2015-09-30 华为技术有限公司 一种确定结果向量的方法和装置
CN106340310A (zh) * 2015-07-09 2017-01-18 展讯通信(上海)有限公司 语音检测方法及装置
CN106531157A (zh) * 2016-10-28 2017-03-22 中国科学院自动化研究所 语音识别中的正则化口音自适应方法
CN106653004A (zh) * 2016-12-26 2017-05-10 苏州大学 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
TWI587294B (zh) * 2015-07-06 2017-06-11 中達電子零組件(吳江)有限公司 設備異音的檢測方法及檢測裝置
WO2018077293A1 (zh) * 2016-10-28 2018-05-03 北京市商汤科技开发有限公司 数据传输方法和系统、电子设备
CN108171151A (zh) * 2017-12-26 2018-06-15 上海亿动信息技术有限公司 一种对视频广告进行识别统计的控制方法及装置
CN108766461A (zh) * 2018-07-17 2018-11-06 厦门美图之家科技有限公司 音频特征提取方法及装置
CN109002529A (zh) * 2018-07-17 2018-12-14 厦门美图之家科技有限公司 音频检索方法及装置
CN111971979A (zh) * 2018-04-05 2020-11-20 科利耳有限公司 高级听力假体接受者康复和/或恢复
CN112784098A (zh) * 2021-01-28 2021-05-11 百果园技术(新加坡)有限公司 一种音频搜索方法、装置、计算机设备和存储介质

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706276B2 (en) 2009-10-09 2014-04-22 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for identifying matching audio
US8725766B2 (en) * 2010-03-25 2014-05-13 Rovi Technologies Corporation Searching text and other types of content by using a frequency domain
WO2011122522A1 (ja) * 2010-03-30 2011-10-06 日本電気株式会社 感性表現語選択システム、感性表現語選択方法及びプログラム
US8584197B2 (en) 2010-11-12 2013-11-12 Google Inc. Media rights management using melody identification
US8584198B2 (en) * 2010-11-12 2013-11-12 Google Inc. Syndication including melody recognition and opt out
US8589171B2 (en) 2011-03-17 2013-11-19 Remote Media, Llc System and method for custom marking a media file for file matching
US8478719B2 (en) 2011-03-17 2013-07-02 Remote Media LLC System and method for media file synchronization
US8688631B2 (en) 2011-03-17 2014-04-01 Alexander Savenok System and method for media file synchronization
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US9196028B2 (en) 2011-09-23 2015-11-24 Digimarc Corporation Context-based smartphone sensor logic
US8732191B2 (en) * 2011-06-27 2014-05-20 Oracle International Corporation System and method for improving application connectivity in a clustered database environment
US9558762B1 (en) * 2011-07-03 2017-01-31 Reality Analytics, Inc. System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner
US8787454B1 (en) 2011-07-13 2014-07-22 Google Inc. Method and apparatus for data compression using content-based features
US8924345B2 (en) * 2011-09-26 2014-12-30 Adobe Systems Incorporated Clustering and synchronizing content
US9384272B2 (en) 2011-10-05 2016-07-05 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for identifying similar songs using jumpcodes
WO2013079524A2 (en) * 2011-11-30 2013-06-06 Dolby International Ab Enhanced chroma extraction from an audio codec
US9684715B1 (en) * 2012-03-08 2017-06-20 Google Inc. Audio identification using ordinal transformation
US20130297299A1 (en) * 2012-05-07 2013-11-07 Board Of Trustees Of Michigan State University Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition
US9020822B2 (en) * 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US9235782B1 (en) * 2012-12-24 2016-01-12 Google Inc. Searching images and identifying images with similar facial features
CN104462088B (zh) * 2013-09-13 2018-09-04 中国银联股份有限公司 用于海量文本匹配的方法
US9727545B1 (en) * 2013-12-04 2017-08-08 Google Inc. Selecting textual representations for entity attribute values
WO2015083091A2 (en) * 2013-12-06 2015-06-11 Tata Consultancy Services Limited System and method to provide classification of noise data of human crowd
US9286902B2 (en) 2013-12-16 2016-03-15 Gracenote, Inc. Audio fingerprinting
US9398034B2 (en) * 2013-12-19 2016-07-19 Microsoft Technology Licensing, Llc Matrix factorization for automated malware detection
EP2887233A1 (en) * 2013-12-20 2015-06-24 Thomson Licensing Method and system of audio retrieval and source separation
TW201543472A (zh) * 2014-05-15 2015-11-16 湯姆生特許公司 即時音源分離之方法及系統
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US9837101B2 (en) * 2014-11-25 2017-12-05 Facebook, Inc. Indexing based on time-variant transforms of an audio signal's spectrogram
US9736580B2 (en) 2015-03-19 2017-08-15 Intel Corporation Acoustic camera based audio visual scene analysis
US10503999B2 (en) 2015-03-24 2019-12-10 Hrl Laboratories, Llc System for detecting salient objects in images
US20170316311A1 (en) * 2015-03-24 2017-11-02 Hrl Laboratories, Llc Sparse inference modules for deep learning
US10262229B1 (en) 2015-03-24 2019-04-16 Hrl Laboratories, Llc Wide-area salient object detection architecture for low power hardware platforms
US10198498B2 (en) * 2015-05-13 2019-02-05 Rovi Guides, Inc. Methods and systems for updating database tags for media content
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
US9971940B1 (en) * 2015-08-10 2018-05-15 Google Llc Automatic learning of a video matching system
US10381022B1 (en) 2015-12-23 2019-08-13 Google Llc Audio classifier
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US10606879B1 (en) 2016-02-29 2020-03-31 Gracenote, Inc. Indexing fingerprints
US10318813B1 (en) 2016-03-11 2019-06-11 Gracenote, Inc. Digital video fingerprinting using motion segmentation
CN107464556A (zh) * 2016-06-02 2017-12-12 国家计算机网络与信息安全管理中心 一种基于稀疏编码的音频场景识别方法
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10614798B2 (en) 2016-07-29 2020-04-07 Arizona Board Of Regents On Behalf Of Arizona State University Memory compression in a deep neural network
US10008218B2 (en) 2016-08-03 2018-06-26 Dolby Laboratories Licensing Corporation Blind bandwidth extension using K-means and a support vector machine
US10762347B1 (en) 2017-05-25 2020-09-01 David Andrew Caulkins Waveform generation and recognition system
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
EP3688750B1 (en) * 2017-10-27 2024-03-13 Google LLC Unsupervised learning of semantic audio representations
CN110309270B (zh) * 2018-03-06 2023-06-20 微软技术许可有限责任公司 聊天机器人的唱歌答复技术
CN111089388A (zh) * 2018-10-18 2020-05-01 珠海格力电器股份有限公司 控制空调的方法及系统、空调器、家用电器
US10891969B2 (en) * 2018-10-19 2021-01-12 Microsoft Technology Licensing, Llc Transforming audio content into images
CN111832584A (zh) * 2019-04-16 2020-10-27 富士通株式会社 图像处理装置及其训练装置和训练方法
US11423908B2 (en) * 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
CN110647656B (zh) * 2019-09-17 2021-03-30 北京工业大学 一种利用变换域稀疏化和压缩降维的音频检索方法
KR20220163982A (ko) * 2020-04-01 2022-12-12 유니버시테이트 젠트 신경망 기반 오디오 신호 처리를 개별화하기 위한 폐쇄 루프 방법
CN111681678B (zh) * 2020-06-09 2023-08-22 杭州星合尚世影视传媒有限公司 自动生成音效并匹配视频的方法、系统、装置及存储介质
CN111681680B (zh) * 2020-06-09 2023-08-25 杭州星合尚世影视传媒有限公司 视频识别物体获取音频方法、系统、装置及可读存储介质
CN114971744B (zh) * 2022-07-07 2022-11-15 北京淇瑀信息科技有限公司 一种依据稀疏矩阵的用户画像确定方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4536844A (en) * 1983-04-26 1985-08-20 Fairchild Camera And Instrument Corporation Method and apparatus for simulating aural response information
GB2232801B (en) * 1989-05-18 1993-12-22 Medical Res Council Apparatus and methods for the generation of stabilised images from waveforms
US5473759A (en) * 1993-02-22 1995-12-05 Apple Computer, Inc. Sound analysis and resynthesis using correlograms
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANIEL P. W. ELLIS: "Prediction-driven computational auditory scene analysis", 《SUBMITTED TO THE DEPARTMENT OF ELECTRICAL ENGINEERING AND COMPUTER SCIENCE IN PARTIAL FULFILLMENT OF THE REQUIREMENTS FOR THE DEGREE OF DOCTOR OF PHILOSOPHY IN ELECTRICAL ENGINEERING AT THE MASSACHUSETTS INSTITUTE OF TECHNOLOGY》 *
GAL CHECHIK, EUGENE IE, MARTIN REHN: "Large-Scale Content-Based Audio Retrieval from Text Queries", 《PROCEEDING OF THE 1ST ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA INFORMATION RETRIEVAL》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425668A (zh) * 2012-05-16 2013-12-04 联想(北京)有限公司 信息检索方法及电子设备
CN109446374A (zh) * 2012-12-31 2019-03-08 谷歌有限责任公司 流匹配系统中的结果的存留和实时排名
CN104885053A (zh) * 2012-12-31 2015-09-02 谷歌公司 流匹配系统中的结果的存留和实时排名
CN104239372A (zh) * 2013-06-24 2014-12-24 浙江大华技术股份有限公司 一种音频数据分类方法及装置
CN104239372B (zh) * 2013-06-24 2017-09-12 浙江大华技术股份有限公司 一种音频数据分类方法及装置
CN104951442A (zh) * 2014-03-24 2015-09-30 华为技术有限公司 一种确定结果向量的方法和装置
CN104951442B (zh) * 2014-03-24 2018-09-07 华为技术有限公司 一种确定结果向量的方法和装置
TWI587294B (zh) * 2015-07-06 2017-06-11 中達電子零組件(吳江)有限公司 設備異音的檢測方法及檢測裝置
CN106340310A (zh) * 2015-07-09 2017-01-18 展讯通信(上海)有限公司 语音检测方法及装置
CN106531157A (zh) * 2016-10-28 2017-03-22 中国科学院自动化研究所 语音识别中的正则化口音自适应方法
CN106531157B (zh) * 2016-10-28 2019-10-22 中国科学院自动化研究所 语音识别中的正则化口音自适应方法
WO2018077293A1 (zh) * 2016-10-28 2018-05-03 北京市商汤科技开发有限公司 数据传输方法和系统、电子设备
CN106653004B (zh) * 2016-12-26 2019-07-26 苏州大学 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
CN106653004A (zh) * 2016-12-26 2017-05-10 苏州大学 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
CN108171151A (zh) * 2017-12-26 2018-06-15 上海亿动信息技术有限公司 一种对视频广告进行识别统计的控制方法及装置
CN111971979A (zh) * 2018-04-05 2020-11-20 科利耳有限公司 高级听力假体接受者康复和/或恢复
US11750989B2 (en) 2018-04-05 2023-09-05 Cochlear Limited Advanced hearing prosthesis recipient habilitation and/or rehabilitation
CN109002529A (zh) * 2018-07-17 2018-12-14 厦门美图之家科技有限公司 音频检索方法及装置
CN108766461A (zh) * 2018-07-17 2018-11-06 厦门美图之家科技有限公司 音频特征提取方法及装置
CN108766461B (zh) * 2018-07-17 2021-01-26 厦门美图之家科技有限公司 音频特征提取方法及装置
CN109002529B (zh) * 2018-07-17 2021-02-02 厦门美图之家科技有限公司 音频检索方法及装置
CN112784098A (zh) * 2021-01-28 2021-05-11 百果园技术(新加坡)有限公司 一种音频搜索方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2010105089A1 (en) 2010-09-16
EP2406787A1 (en) 2012-01-18
US8463719B2 (en) 2013-06-11
EP2406787B1 (en) 2014-05-14
CN102405495B (zh) 2014-08-06
US20100257129A1 (en) 2010-10-07

Similar Documents

Publication Publication Date Title
CN102405495B (zh) 使用稀疏特征对信息检索进行音频分类
US11023523B2 (en) Video content retrieval system
Chang et al. Semantic pooling for complex event analysis in untrimmed videos
Jiang et al. Columbia-UCF TRECVID2010 Multimedia Event Detection: Combining Multiple Modalities, Contextual Concepts, and Temporal Matching.
CN103268339B (zh) 微博消息中命名实体识别方法及系统
CN108197282B (zh) 文件数据的分类方法、装置及终端、服务器、存储介质
CN111177569A (zh) 基于人工智能的推荐处理方法、装置及设备
CN109117777A (zh) 生成信息的方法和装置
CN103823867A (zh) 一种基于音符建模的哼唱式音乐检索方法及系统
CN103956169A (zh) 一种语音输入方法、装置和系统
Yu et al. Informedia@ TrecVID 2014: MED and MER
Rakotomamonjy Supervised representation learning for audio scene classification
Wang et al. Exploring audio semantic concepts for event-based video retrieval
Sun et al. ISOMER: Informative segment observations for multimedia event recounting
Yamasaki et al. Prediction of user ratings of oral presentations using label relations
CN111753126A (zh) 用于视频配乐的方法和装置
CN114547373A (zh) 一种基于音频智能识别搜索节目的方法
JP6446987B2 (ja) 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム
Campbell et al. Content+ context networks for user classification in twitter
Pathuri et al. Feature based sentimental analysis for prediction of mobile reviews using hybrid bag-boost algorithm
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
Bourlard et al. Processing and linking audio events in large multimedia archives: The eu inevent project
Gayathri et al. An efficient video indexing and retrieval algorithm using ensemble classifier
CN116484085A (zh) 一种信息投放方法、装置、设备及存储介质、程序产品
Badlani et al. Framework for evaluation of sound event detection in web videos

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.

CP01 Change in the name or title of a patent holder