CN105900094B

CN105900094B - 自动化多媒体内容识别

Info

Publication number: CN105900094B
Application number: CN201580004835.7A
Authority: CN
Inventors: E.博伦斯坦; A.布兰德特; E.莎伦; M.德
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-01-15
Filing date: 2015-01-08
Publication date: 2019-11-26
Anticipated expiration: 2035-01-08
Also published as: EP3095046A1; WO2015108739A1; US20150199351A1; EP3095046B1; US9430474B2; CN105900094A

Abstract

一种自动化内容识别系统准确并且可靠地生成用于多媒体内容的内容标识信息，而不访问所述多媒体内容或者所述多媒体内容的可靠源。所述系统接收具有多媒体内容的指纹的基于内容的查询。所述系统将单个查询与彼此进行比较以对查询进行匹配，并且因此形成与相同多媒体内容相对应的查询聚类。所述系统聚合来自聚类中的查询的标识信息，以根据原本不可靠的标识信息生成可靠的内容标识信息。

Description

自动化多媒体内容识别

技术领域

所公开的技术涉及媒体标识。

背景技术

对诸如是视频、音频和幻灯片之类的媒体内容的标识是重要的任务。被产生的原始多媒体内容的量继续增加，同时存储和扩散的成本继续降低。此外，电缆、卫星和互联网分布信道的增长和可访问性在近年来已急剧地提高。虽然对产生元数据和其他文本信息以描述可用的媒体内容的尝试已提供在标识和检索内容上的某种成功，但当前的解决方案通常是无效的。

某些搜索方法和系统涉及基于在关联的文件名中找到的关键词、关联的网页上的标签、指向内容的超链接的文本等标识和检索内容。这样的搜索方法依赖于指示搜索词的存在或者不存在的布尔运算符。然而，这样的搜索词倾向于不完全表示被搜索的内容，导致当对诸如是视频或者音频之类的内容进行搜索时的拙劣性能。

附加地，新的多媒体内容每天被生成和发布。虽然有时诸如通过将元数据或者其他描述附着到内容源提供了用于搜索和标识新内容的机制，但该数据不总是可用或者准确的。此外，对多媒体内容的访问不总是可用的。相应地，通过传统的手段标识多媒体内容可能不是可能的或者有效的。

发明内容

提供了用于标识包括视频、音频、幻灯片等的多媒体内容的系统和方法。一种自动化内容识别系统能够准确并且可靠地生成用于多媒体内容的内容标识信息，而不访问所述多媒体内容或者来自所述多媒体内容的可靠源的信息。所述系统接收具有多媒体内容的指纹的基于内容的查询。所述系统将单个查询与彼此进行比较以对查询进行匹配，并且因此形成和同步与相同的多媒体内容相对应的查询聚类。所述系统聚合来自聚类中的查询的标识信息，以根据原本不可靠的标识信息生成可靠的内容标识信息。

一种多媒体内容标识系统接收包括多媒体内容的指纹的查询。所述平台对来自与多个不同的客户端设备相关联的查询的指纹进行分析。基于指纹之间的相似性或者匹配，将所述单个查询分组为查询聚类。所述系统标识具有针对相同内容的指纹的查询，并且生成针对相似查询的查询聚类。相对于已知指纹的基本集比较来自查询聚类的一个或多个代表性查询。如果所述代表性查询匹配已知指纹，则使用与所述已知指纹相关联的内容标识信息生成对所述聚类中的每个查询的回复。如果所述代表性查询不匹配已知指纹，则所述系统针对任何可用的文本数据对所述聚类中的每个查询进行分析，所述文本数据诸如是与所述指纹或者内容相关联的元数据。对所述文本数据进行分析以确定是否所述聚类中的不同查询的所述文本数据之间存在一致性。如果存在一致性，则所述系统利用基于所述一致性文本数据的内容标识信息生成对所述聚类中的每个查询的回复。所述系统进一步利用一个或多个代表性指纹和所述内容标识信息更新已知签名的所述基本集。

提供了本摘要，以便以简化形式介绍下面在详细说明书中进一步描述的概念的选择。本摘要不旨在标识所要求保护的主题的关键特征或者实质特征，其也不旨在被用于限制所要求保护的主题的范围。

附图说明

图1是描述根据一个实施例的自动化多媒体内容识别的过程的流程图。

图2是描绘根据一个实施例的用于自动化多媒体内容识别的系统的高水平方框图。

图3是描绘根据一个实施例的查询聚类的示例的高水平方框图。

图4是描述根据一个实施例的用于标识或者匹配媒体查询的方法的流程图。

图5是可以在其中实施所公开的技术的实施例的计算环境的方框图。

图6是可以在其中实施所公开的技术的实施例的另一个计算环境的方框图。

具体实施方式

多媒体内容可以包括但不限于音频内容、视频内容和/或包括一个或多个静止图像的幻灯片内容。基于媒体的查询请求基于内容自身而非与内容相关联的文本数据的内容的标识。例如，基于媒体的查询可以包括对于诸如是电视节目、商业广告、电影等的视频的标识的查询。相似地，查询可以包括对于诸如是歌曲、脱口秀等的音频的标识的查询。查询可以包括多媒体内容或者表示多媒体内容的指纹。传统上，为服务于请求基于内容而非与内容相关联的文本的具体媒体内容的标识的基于媒体的查询，系统要求多媒体的一个或多个可靠源或者诸如是与多媒体有关的元数据之类的信息。系统例如可以对多媒体内容进行预处理，并且基于内容的指纹生成搜索索引。

描述了用于自动化多媒体内容识别的系统和方法。所述系统自动为对于其来说所述系统不具有任何现有内容标识信息的内容（诸如是新发布的内容）生成内容标识信息。所述系统生成内容标识信息，而不访问底层的源内容。这样，所述系统可以基于媒体指纹生成多媒体内容标识信息的语料库或者基本集，而不访问实际内容的可靠源。

在一个实施例中，提供了一种可以标识多媒体内容而不访问多媒体内容的可靠源的自动化多媒体内容识别系统。所述系统从多个客户端设备接收具有媒体指纹的查询。所述系统例如基于查询指纹的视觉或者音频匹配对查询进行聚类。查询聚类用于生成诸如是用于多媒体内容的元数据之类的可靠内容标识信息。这样，可以标识内容而不访问内容的任何源，诸如是提供内容或者用于内容的元数据的可靠源。在一个示例中，可以建立聚类中的最少数量的查询，以确保可以提取和推断可靠的信息。

在一个实施例中，所述系统基于多媒体内容的指纹生成多媒体内容标识（CID）信息。所述系统从多个客户端设备接收对于多媒体内容的标识的查询。每个查询包括一个或多个与多媒体内容相关联的指纹。所述系统对不同的查询的指纹进行比较以确定指纹之间的相关性。所述系统生成查询聚类，其包括具有一个或多个相关的指纹的多个查询。例如，所述系统可以对具有阈值数量的匹配的指纹的查询进行聚类。将来自每个聚类的一个或多个参考查询与已知签名的基本集进行比较。如果在来自聚类的参考查询之间找到了匹配，则与来自基本集的（一个或者多个）已知签名相关联的内容标识被用于生成对聚类中的每个查询的回复。内容标识信息标识基于媒体的查询中的内容，并且包括用于内容的时间戳。

如果系统在基本集中未找到匹配，则所述系统访问从查询中的每个查询接收的任何可用的文本数据。所述系统例如对诸如是元数据或者描述信息之类的可用文本数据进行比较，以确定是否聚类中的查询的文本数据之间存在任何可标识的一致性。如果存在可标识的一致性，则所述系统利用从对文本数据进行比较确定的内容标识信息生成对聚类中的每个查询的回复。所述系统还将已知签名的基本集更新为包括来自聚类的参考查询和内容标识信息。这样，所述系统可以自动地并且在不访问源多媒体内容的情况下标识和生成已知多媒体签名的基本集或者语料库。在一个示例中，所述系统可以跟踪客户端源以确定提供可靠文本数据的那些客户端源。可以从一个或多个可靠的客户端设备流传送指纹，以便进行语料库的自动更新。

图1是描述根据一个实施例的用于自动生成内容标识信息的处理基于媒体的查询的方法的流程图。在步骤202处，系统从多个不同的客户端接收查询。每个查询包括一个或多个媒体指纹。例如，系统可以接收对于视频内容的标识的查询，所述视频内容的标识包括源视频内容的一个或多个视觉指纹。系统可以附加地或者可替换地接收对于使用音频指纹标识音频内容的查询或者对于使用视觉指纹标识幻灯片内容的查询。此外，可以除视觉指纹之外或者取代视觉指纹地将音频指纹用于视频或者幻灯片内容的标识。

在步骤204处，系统从所接收的查询生成查询聚类。步骤204可以被定期地执行，以对在指定时段期间所接收的相关的查询进行分组或者关联。系统将每个查询聚类生成为包括在所述时段期间所接收的多个查询。基于每个查询的一个或多个指纹的相关性生成查询聚类。系统对每个查询的指纹进行比较以确定是否任何查询具有匹配的指纹。系统可以要求查询之间的阈值数量的匹配的指纹以确定查询是相关的，并且因此创建用于查询的聚类。在一个示例中，系统可以在生成用于查询的聚类之前建立阈值数量的、必须包含匹配的指纹的查询。

可以根据实施例使用任何数量和类型的媒体指纹。例如，视觉指纹可以包括视频的帧的区域之间的亮度相关性的表示。查询中的视觉指纹可以包括用于视频段的每个帧或者帧的子集的指纹。在一个示例中，音频指纹可以包括平均声谱图图像。可以对于音频内容单独地或者与视觉指纹相组合地使用音频指纹以标识视频内容。例如在用于标识视频段中的演员或者产品的查询中，可以另外或者可替换地接收针对视频内容中的物体或者脸的指纹。

在步骤206处，系统选择聚类和来自该聚类的一个或多个代表性指纹。可以随机地或者通过选择被确定为提供与其他指纹的较高水平的区分度的指纹来选取代表性指纹。在步骤208处，系统相对于已知多媒体指纹的基本集对聚类的（一个或者多个）代表性指纹进行比较。系统尝试相对于基本集中的一个或多个指纹对代表性指纹进行匹配。在步骤210处，系统确定代表性指纹是否匹配来自签名的基本集的指纹。如果代表性指纹匹配基本集签名，则在步骤212处确定用于基本集签名的内容标识信息。在步骤214处，系统使用来自基本集的内容标识信息生成对来自查询聚类的每个查询的回复。

如前述步骤所图示的，在对查询指纹进行比较之前生成查询聚类可以通过降低不得不相对于基本集比较的查询和指纹的数量来生成用于满足查询的组的效率。通过进行聚类，单个指纹可以用于标识大量单个查询的聚类的内容标识信息，节省与相对于签名的基本集对每个查询进行比较相关联的时间和开销。

如果系统确定用于查询聚类的代表性指纹不匹配来自基本集的任何已知签名，则其在步骤220处访问与聚类的每个查询相关联的任何可用的文本数据。与查询相关联的文本数据可以例如作为对内容的描述或者与内容相关联的元数据而被包括。文本数据例如可以包括可被包括在视频源中的文件名、标题、演员表、制作、格式、编码、制作日期等。对于音频源，可以包括相似的信息。例如，一些查询可以包括这样的元数据，即：其标识客户端设备或者应用将其确定为作为查询的主题的内容的那些东西。例如，机顶盒或者其他电视接口可以包括指南数据作为用于关联的查询的文本数据。该文本数据可以表示由客户端设备进行的对于基于除视觉标识之外的某个信息源对内容进行标识的尝试。相应地，客户端设备可以仍然发出在步骤202处所接收的对于基于视觉标识来标识客户端设备的内容的查询。例如，在某些实例中，机顶盒可以将不正确的文本数据与其正在显示的内容相关联。

指南数据或者用于确定视频内容的其他信息可以是不正确的或者被不正确地解释。作为具体示例，诸如是机顶盒或者其他多媒体控制台之类的某些电视接口被用于控制诸如是电缆或者卫星接收器之类的其他机顶盒。红外信号（以及其他有线和无线的远程控制方法）可以被多媒体控制台用于控制电缆或者卫星接收器。多媒体控制台可以发出在步骤202处所接收的基于媒体的查询。在某些实例中，多媒体控制台可以包括诸如是元数据或者标题和描述信息之类的文本数据作为查询的部分。因为多媒体控制台控制机顶盒，所以其文本数据可能不总是正确的。在其他实例中，诸如是便携式设备之类的客户端设备可以诸如通过记录显示器或者扬声器的输出来捕获视频或者音频。便携式设备可以尝试提供内容的视觉或者音频标识。附加地，设备可以向系统发出包含基于其标识的文本数据以及用于由系统进行标识的指纹的查询。系统可以访问与聚类的查询中的任一个查询相关联的任何可用的文本数据。

在步骤222处，系统可选地可以对单个查询的文本数据应用加权值。例如，系统可以基于查询的源和/或文本数据的源对与查询相关联的文本数据进行加权。系统可以跟踪用户或者客户端，并且建立伴随来自用户的过去的查询所接收的文本数据的可靠性的评级。系统然后可以更高地对来自某些用户的文本数据进行加权，因为其比来自其他评级更低的用户的文本数据更可靠。相似地，例如，系统可以将查询中的诸如是元数据之类的某些文本数据比诸如是来自视频源的标题的文本数据之类的其他文本数据更高地进行加权。

在步骤224处，系统对聚类中的每个查询的文本数据进行比较，以确定文本信息之间的一致性信息。系统确定文本信息之间是否存在任何一致性。步骤224可以包括对可用的文本信息中的任何文本信息进行比较，可用的文本信息包括与查询相关联的元数据和/或标题或者随查询所包括的其他描述性信息。当对文本数据进行比较时可以应用在步骤222处所生成的任何加权以提供对于特定文本信息的偏好。例如，可以比其他更松散相关的文本信息更重地对元数据进行加权。系统可以应用各种阈值以确定是否已达到了一致性。例如，系统可以确定查询聚类中的多个或者多数签名是否包括相同或者相似的文本信息。可以使用聚类内的任何数量或者百分比的匹配的查询。例如，系统可以对聚类内的查询进行进一步的分组以确定具有匹配的文本信息的组。系统可以确定哪个组包括最大数量的查询，并且选择来自该组的文本信息。

在步骤226处，系统基于步骤224处的文本分析，生成对于查询聚类的内容标识信息。在一个实施例中，系统基于来自步骤224的一致性信息选择内容标识信息。例如，系统可以选择来自聚类中的查询的组的匹配或者相似的文本信息。

在步骤228处，系统使用在步骤226处针对查询聚类所生成的内容标识信息生成对聚类中的每个查询的回复。步骤228包括基于匹配的指纹的聚类的查询之间的文本信息的一致性的对应的查询的内容的标识。这样，系统标识查询中的匹配的指纹，以确定查询与相同内容相关。系统然后基于被包括在聚类的一个或多个查询中的信息确定文本信息。然后响应于聚类的每个查询，该文本信息作为内容标识信息返回。这样，系统使用视觉或者其他基于媒体的指纹来标识查询内的匹配的内容。系统然后生成对于聚类中的每个查询的内容标识信息。可以在不访问多媒体内容的可靠源的情况下生成内容标识信息。相应地，利用仅对媒体签名、包含某些文本信息的媒体签名的子集的访问，可以基于匹配的指纹做出多媒体内容的标识。一致性还帮助对来自多个源的新信息进行聚合。例如，如果客户端A和B对内容的内容id达成协定，但每个客户端正在带来关于内容的附加信息，则附加信息可以用于向客户端B通知来自客户端A的信息，并且反之亦然。当一致性不是特定的或者置信度低时，系统可以通过尝试搜索和标识静态档案类网站或者视频提供者中的内容来尝试确认和增强置信度。

在步骤230处，系统更新对于查询聚类的已知签名的基本集。步骤230可以包括随在步骤226处所生成的内容标识信息一起存储来自查询聚类的一个或多个代表性签名。这样，可以基于已知签名的基本集满足随后的对于相同内容的查询。

已图示出，系统可以利用内容标识信息连续地提供对已知签名的基本集的自动化更新，已知签名的基本集也被称为已知或者地面实况签名的语料库或者目录。随着新的视频内容每天被发布，系统可以在不访问内容自身的情况下生成对于视频内容的内容标识信息。随着对于内容的标识的客户端查询被接收，系统可以使用查询聚类，以基于查询之间的匹配的媒体指纹来标识内容标识信息。这样，全部在不访问底层媒体内容或者多媒体内容的可靠源的情况下，提供了对基本集或者语料库的自动化更新。连续的更新和聚类可以提供元数据增强以及对电视观众模式的连续学习。这些模式在推荐系统中可能是有用的。

附加地，查询聚类可以随时间被更新。随着匹配查询聚类的更多查询被接收，新接收的查询中的元数据或者其他信息可以被添加到查询聚类信息。例如，元数据或者其他信息可以在签名的基本集中被更新。作为具体的示例，可以响应于与实况事件相关的查询而生成查询聚类。可以将查询中的元数据和其他信息与查询聚类相关联。稍后，可以利用基于在实况事件之后被接收的查询的元数据或者其他信息对元数据进行更新。

基于查询聚类，系统能够标识包括被实况或者最近广播的内容的多媒体内容的完整或者部分副本。系统可以标识被嵌入到电视节目或者广播中的商业广告。系统可以标识电视节目或者电影中的音乐的声道或者其他音频内容。系统可以用于标识视频内容的已缩短的版本，诸如是电影和电视节目的视频段或者剪辑。附加地，系统可以标识相同视频内容的不同副本或者源。这可以包括对具有已添加的字幕或者被转码为不同的广播格式的内容的标识。在一个示例中，系统报告内容标题以及内容内的内容时间戳，以使能实现增强型多媒体体验。例如，电视节目可以被系统增加为包括附加的量。对于实况或者最近被广播的内容，可以提供适时的元数据。可以共享来自内容的快照或者短剪辑。附加地使用基于指纹的脸部或者物体识别使得能够实现对内容中的脸或者物体的标识。此外，用户可能能够共享来自那个时刻或者以其他方式基于所标识的多媒体内容的时间的快照或者其他材料。

图2是描绘根据一个实施例的用于自动化内容识别的系统的方框图。在图2中，一个或多个客户端设备380、视频标识平台302以及多个静态视频源提供者370、实况视频源提供者372和元数据源提供者374通过一个或多个网络进行通信。在各种实施例中可以包括任意数量的视频源提供者、客户端设备和平台。系统的服务器、客户端设备和其他部件可以使用局域网、广域网（WAN）、互联网和/或任何其他网络的任何组合进行通信。平台302基于查询中的媒体指纹和与查询的至少一个子集相关联的文本数据对查询进行聚类，以生成对于目录310的内容标识信息和对查询做出响应。

客户端设备380概括地说可以包括诸如是个人计算机、多媒体控制台、工作站、大型机、服务器、平板电脑、PDA、蜂窝电话或者其他基于处理器的计算设备之类的任何类型的设备。客户端设备可以是移动设备或者非移动设备。移动设备包括蜂窝电话、掌上型计算机、口袋型计算机、个人数字助理、个人整理器（organizer）、个人计算机（PC）等。可以随任何数量的计算机系统（诸如是桌面型计算机、其他手持型设备、膝上型或者笔记本计算机系统、多处理器系统、基于微处理器或者可编程的消费电子产品、网络型PC、微型计算机、大型计算机等）一起使用实施例。客户端设备在下文中作为示例被引用，但将理解，除非另外指出否则其概括地说包括对计算设备的引用。

目录310基于底层内容的指纹312存储内容标识信息314。这样，目录310提供底层内容的基于视觉（视频或者图像）或/和音频的标识。将音频和视觉组合可以解决许多例如是静态帧或者静默的歧义。标识是基于对底层内容而非例如随视频源被提供的元数据进行的分析的。在一个示例中，目录310包括已知媒体签名的基本集和用于已知签名的内容标识信息。已知媒体签名的基本集可以包括从提供预标识的内容的多媒体源生成的内容标识信息以及当可靠的多媒体源对于内容的标识不可用时通过对查询进行聚类和对文本数据进行分析生成的内容标识信息。

目录310可以基于对某些多媒体源进行的预处理（例如，预标识的内容提供者）维护内容标识信息。例如，静态媒体索引器360和实况媒体索引器362可以从静态媒体提供者370和实况媒体提供者372接收媒体源，并且从每个视频源生成视觉信息，其包括视频中的一个或多个帧的视觉指纹。索引器还可以从视频提取任何可用的文本数据，所述文本数据例如是可以被包括在视频源文件中的与标题、演员表、制作、格式、编码等相关的信息。在一个实施例中，视频索引器还创建用于视频源的一个或多个帧的音频指纹。元数据索引器364从元数据源提供者374接收元数据源。元数据索引器364将每个元数据源存储在目录310中，并且可选地执行分析和处理以生成附加信息。在一个实施例中，系统不包括任何预处理的内容，并且基于聚类，生成内容标识信息以便存储在目录310中。

除预处理的内容之外，目录310维护用于内容的内容标识信息（平台不具有对于所述内容的预定的标识信息）。例如，平台302可以与发出对于新发布的内容（诸如是实况电视节目、实况音乐发行等）的标识的媒体查询382的机顶盒或者便携式设备相接合。平台302可以甚至在没有对内容的、预定的标识对于平台可用的情况下响应于这些查询返回内容标识回复384。此外，平台可以生成用于目录310的新条目，其包括媒体指纹和基于指纹匹配和查询之间的基于一致性的文本信息的内容标识信息。

web应用330从各种客户端设备380接收媒体查询382。每个媒体查询包括至少一个基于对与该查询相对应的底层内容进行的分析的媒体指纹。例如，媒体查询可以用于视频段（诸如是电视节目、电影等）的标识。查询可以包括单个指纹或者多个指纹。例如，查询可以包括用于视频段的每帧的一系列指纹。查询可以包括用于来自视频段的帧的子集的指纹。聚类引擎322访问查询382以基于对每个查询中的媒体指纹进行的分析执行聚类。聚类引擎322通过对在查询382中所接收的每个指纹进行比较来分析媒体指纹。对指纹进行分析以确定不同查询的指纹之间的匹配性。在一个示例中，如果两个或更多个查询包含匹配的指纹，则对于匹配的查询生成查询聚类。在各种实施方案中可以使用具有至少一个匹配的指纹的其他数量的查询。此外，在各种实施方案中，为推断两个查询相匹配可以要求一个或多个匹配的指纹。

在一个示例中，视觉指纹表示将视频帧（图像）划分成一些（例如，64个）相等尺寸（例如，8x8）的矩形的已排序的单元。对于每个单元，指纹包括两个已排序的比特。第一比特（水平比特）如果单元的右半边比左半边更亮则存储第一值（例如，1），以及如果其比左半边更暗则存储第二值（例如，0）。第二个比特（“垂直比特”）如果单元的上半边比下半边更亮则存储第一值，以及如果其比下半边更暗则存储第二值。因此，指纹是每帧的一些（例如，128个）比特的已排序的列表，其来自一些已排序的单元，从而创建亮度的已排序的比特表示。

可以使用相似的和其他相关的签名。一个简单的示例包括将活动屏幕划分成较大的6x6 = 36的相等尺寸的矩形单元，然后通过就哪个单元比另一个单元更亮而言对许多不同对的单元进行比较并产生相应比特（与上面针对128比特签名所阐述的内容相似）来产生比方说196比特（而非上面所描述的128）的较大签名。

聚类引擎将每个指纹与彼此进行比较，以确定用于聚类的匹配的查询。例如，可以将随机比特集和比特集的集合用于比较，尽管可以使用任何合适的指纹匹配技术。例如，可以选择特定的指纹，以及将剩余指纹指定为用于进行比较的指纹的基本集。可以将基本集划分成指纹桶（bucket）。可以相对于桶检查所选的指纹的随机比特键，并且重复该过程直到找到匹配的指纹为止，或者在不具有任何匹配项的情况下穷尽该过程。可以利用相同的随机比特键探测多个桶或者子集以提升效率。可以使用阈值数量的比特（例如，10比特键中的9个比特）来确定用于某个区域的指纹匹配的候选。一旦找到了匹配的指纹，则系统可以选择另一个指纹，并且再次将基本集建立为剩余的指纹。重复该过程直到确定了查询的集合内的全部指纹匹配为止。

在聚类引擎322生成查询聚类之后，搜索引擎320将来自聚类的一个或多个代表性指纹与已知指纹312的目录进行比较。在一个示例中，搜索或者聚类引擎可以随机地选择一个或多个指纹作为代表性指纹。在另一个示例中，聚类引擎基于确定代表性指纹比聚类中的其他指纹更有区分性选择代表性指纹。可以将各种技术用于相对于已知签名的基本集分析代表性指纹。

如果搜索引擎320在目录中找到匹配的指纹，则web应用330利用来自目录的内容标识信息314生成对聚类中的每个查询的回复。如果搜索引擎在目录中未找到匹配的指纹，则将查询聚类传递给一致性分析器324。

一致性分析器首先从聚类中的每个查询提取任何可用的文本信息。文本信息可以包括随查询中的一些查询一起提交的元数据信息或者其他文本信息，诸如是视频源文件的标题或者与内容松散地相关联的其他文本信息。分析器324然后对来自包括文本信息的那些查询的文本信息进行比较，以确定聚类中的至少两个查询的文本信息之间存在是否相似性。在一个示例中，分析器324可以在聚类中的查询包含不同的文本信息的情况下在聚类内创建组。

在一个示例中，分析器还可以对文本数据应用加权。可以考虑文本数据的源（诸如是其是元数据还是更松散地附着的标题信息）来应用加权。附加地，可以使用诸如是与查询相关联的客户端或者用户id之类的查询源来基于每个客户端的之前的体验和性能应用加权。分析器使用全部可用的文本信息来确定文本信息之间是否存在足够的一致性来生成用于聚类的内容标识。在一个示例中，可以使用阈值数量或者百分比的、具有匹配或者相似的文本数据的查询。分析器324基于一致性信息生成用于聚类的内容标识信息。例如，引擎可以将CID信息生成为包括聚类中具有匹配文本信息的查询的组的文本信息。在一个示例中，比较文本信息和应用任何加权的结果用于生成CID信息。在一个示例中，平台302可以确定除被包括在聚类的实际查询中的那些之外的对于CID信息的附加信息。例如，平台可以基于查询的文本数据中的一些文本数据，搜索附加的CID信息以补充被包括在查询自身中的那些CID信息。

在生成用于聚类的内容标识信息之后，web应用330生成对聚类中的每个查询的CID回复384，其包括所生成的CID信息。相应地，平台302当该平台不包含用于媒体指纹的预定的标识信息时基于查询之间的视觉或者其他匹配来提供查询的CID信息。这样，平台302基于从不同客户端设备接收的查询之间的指纹的视觉或者其他匹配技术来生成CID信息。这允许使用众包数据以便进行对多媒体内容的准确和可靠的标识。

更新引擎326针对新标识的媒体内容而生成目录310中的一个或多个条目。更新引擎326可以将来自查询聚类的一个或多个代表性指纹随所生成的CID信息一起添加到目录。可以将随后的查询与这些代表性指纹进行匹配以生成用于随后的查询的CID信息。

尽管描绘了具体的部件和软件模块，但将显而易见，可以使用许多物理的和基于软件的配置而仍然在本公开内容的精神内。概括地说，如本文中所描述的软件和程序模块、管理器和引擎包括执行特定任务或者实施特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。硬件或者硬件和软件的组合可以代替如本文中所描述的软件模块。

图3是描述媒体标识平台302的操作的示例的方框图。在该示例中，平台302接收六个单个的媒体查询382，诸如是请求视频内容的标识的基于视觉的查询。查询1包括媒体指纹FPA。查询1不包括任何诸如是标识查询或者被包括在查询中的指纹的元数据之类的文本数据。查询2包括媒体指纹FPB。查询2还包括将视频内容标识为媒体B的文本数据。此外，要指出，在图3中，文本数据产生自与指纹所产生自的视频内容相关联的元数据。例如，可以从提供如下这样的用于视觉查询的元数据的机顶盒接收查询2，即：其针对利用所述机顶盒进行控制的或者与所述机顶盒相关联的内容产生。查询3也包括指纹FPB。然而，查询3包括将指纹所产生自的内容标识为媒体A的文本数据。例如，也可以从不正确地确定被观看的频道或者具有对于被显示的视频内容的不正确的指南数据或者元数据的机顶盒接收查询3。查询4包括指纹FPC。查询4还包括将内容标识为媒体C的文本数据。查询4中的文本数据产生自指纹从其被生成的内容的元数据。查询5包括指纹FPC和将内容标识为媒体C的文本数据。查询5中的文本数据产生自指纹从其被生成的内容的元数据。查询6也包括指纹FPC。然而，查询6包括将内容标识为媒体D的文本数据。查询6中的文本数据的源是与视频内容相关联的元数据。

在媒体标识平台302处接收查询382中的每个查询。初始地，将查询传递给聚类引擎322以便分析每个查询中的指纹。聚类引擎322执行例如对指纹的基于视觉的分析，并且确定查询2中的指纹与查询3中的指纹相匹配。聚类引擎322还确定查询4中的指纹与查询5中的指纹和查询6中的指纹相匹配。另外，聚类引擎322确定查询1包括不与任何其他查询的指纹相匹配的指纹。基于相匹配的指纹，聚类引擎322生成三个查询聚类386。聚类A包括查询1，聚类B包括查询2和查询3，以及聚类C包括查询4、查询5和查询6。

在生成查询聚类386之后，聚类引擎322确定用于每个聚类的一个或多个代表性指纹。聚类引擎322然后将用于每个聚类的代表性指纹传递给搜索引擎320。搜索引擎320将用于每个查询聚类的代表性指纹388与目录310中的已知指纹进行比较。在图3中，搜索引擎320确定用于聚类A的代表性指纹RFPA与来自目录310的已知签名相匹配。在该示例中，搜索引擎确定指纹RFPA与目录310中具有图3中的内容标识信息314 IDA的指纹312相匹配。相应地，搜索引擎320向聚类引擎322返回回复，该回复包括标识代表性指纹RFPA的CID信息IDA。聚类引擎322向web应用330返回用于聚类A的CID信息IDA，web应用330生成包括用于指纹FPA的CID信息IDA的对查询1的回复384。

搜索引擎320还确定，对于聚类B和聚类C的代表性指纹，目录310中不存在匹配的指纹312。相应地，搜索引擎320向聚类引擎322返回指示不存在用于代表性指纹的匹配的响应。响应于来自搜索引擎的没有匹配的回复，一致性分析器324对与每个聚类的查询相关联的文本数据进行分析，以确定是否存在可以用于生成用于聚类的查询的CID信息的查询之间的一致性。

对于聚类B，分析器324确定查询2包括将视频内容标识为媒体B的文本数据，同时查询3包括将内容标识为媒体C的文本数据。在此实例中，聚类包括相等数量的、将指纹标识为针对不同视频内容的查询。在该示例中，分析器324应用加权以认为来自查询2的文本数据的元数据源比来自查询3的文本数据的描述源更可靠。相应地，分析器生成包括或者基于来自查询2的文本数据的聚类B的CID信息。因此，一致性分析器324将IDB的CID信息传递给聚类引擎以将指纹标识为是针对媒体B的。

对于聚类C，分析器324确定查询4包括将内容标识为媒体C的文本数据，查询5包括将内容标识为媒体C的文本数据，以及查询6包括将内容标识为媒体D的文本数据。在此情况下，聚类C中的用于每个查询的文本数据来自与每个指纹FPC根据其被生成的视频内容相关联的元数据。分析器324确定聚类C中存在查询的两个组。包括查询4和查询5的第一组将指纹FPC标识为是针对媒体C的，同时包括查询6的第二组将指纹FPC标识为是针对媒体D的。分析器324确定将指纹FPC标识为针对媒体C的查询的数量大于将指纹FPC标识为针对媒体D的查询的数量。相应地，分析器324生成将指纹FPC标识为与媒体C相对应的用于聚类C的CID信息IDC。用于每个聚类的内容标识信息用于生成对每个查询的回复。在此情况下，查询回复4、查询回复5和查询回复6每个包括CID信息IDC。要指出，即使查询5包括将内容标识为媒体D的文本数据，对查询5的查询回复5也返回针对媒体C的CID信息。

图3图示出一致性分析器324的结果可以用于更新目录310。在该示例中，更新引擎326接收来自分析器324的结果以生成目录310中的条目。更新引擎326生成包括新标识的指纹FPB和对应的内容标识信息IDB的基于聚类B的新条目390。相似地，更新引擎326生成包括新标识的指纹FPC和对应的CID信息IDC的基于聚类C的新条目392。

图4是描述根据一个实施例的用于对查询视频指纹进行标识或者匹配的方法的流程图。在一个示例中，图4的方法可以被聚类引擎322执行，以通过比较一些查询的指纹来生成查询聚类。在另一个示例中，图4的方法可以被媒体搜索引擎320执行，以将查询指纹与已知指纹的基本集进行比较。要指出，仅作为示例呈现了图4的过程。可以使用用于生成查询聚类和将指纹与签名的基本集进行比较的其他过程。

在步骤502处，系统访问用于所选查询的视觉指纹。所选查询可以是与已知指纹的基本集进行比较的查询，并且由媒体搜索引擎320选择。所选查询可以是由聚类引擎322与其他查询进行比较以生成查询聚类的所选查询。查询可以包括针对视频源的每个帧所生成的视觉指纹。在一个示例中，每个视觉指纹是视频帧签名。

在步骤504处，系统基于比特之间的差异信息计算对于每个查询指纹中的每个比特的置信度。在步骤506处，对于每个指纹内的一个或多个k比特组计算置信度度量。例如，可以选择来自每个帧的预定的比特组。这可以与诸如是视频屏幕的中部或者其他区域之类的预定的感兴趣的区域相对应。步骤506处的置信度度量可以是基于比特组内的每个比特的置信度度量的总和或者组合的。在步骤508处，系统使用较弱和/或较强的比特的随机化来计算对于每个k比特组的置信度度量。在步骤510处，基于来自步骤508的查询置信度水平，选择候选指纹查询的集合。例如，步骤510中的使用随机化计算每个指纹的每个k比特组的置信度可以用于在步骤512处从全部帧的指纹中选择指纹的较小的组以形成候选组。在步骤514处，相对于目录指纹或者其他查询的指纹而查询候选比特组。

图4描述了关于视觉指纹的示例，但相似的技术可以用于将音频签名与已知签名或者查询的集合中的其他签名进行比较以便进行聚类。例如，音频指纹可以包括用于音频查询的查询帧。音频流可以被系统划分成诸如是由每个4秒组成的段的相继的时间上的段（例如，见下面的小节D）。所述段中的每个段然后可以被转换成平均声谱图图像。

参考图5，用于实施所描述的系统和方法的各种部件的示例性系统可以包括通用计算设备1010。计算设备1010可以用于实施图2中的部件中的任一个部件的全部或者一部分。计算设备1010是合适的计算系统的仅一个示例，并且不旨在关于当前所公开的主题的用途或者功能性的范围建议任何限制。计算设备也不应当理解为具有任何与示例性操作系统中所图示的部件中的任一个部件或者组合相关的依赖性或者要求。在某些实施例中，各种所描绘的计算元件可以包括被配置为实例化本公开内容的具体方面的电路。例如，本公开内容中所使用的术语电路可以包括被配置为由固件或者开关执行（一个或者多个）功能的专用硬件部件。在其他示例实施例中，术语电路可以包括由体现可操作为执行（一个或者多个）功能的逻辑的软件指令进行配置的通用处理单元、存储器等。在电路包括硬件和软件的组合的示例实施例中，实施者可以编写体现逻辑的源代码，并且所述源代码可以被编译成可以被通用处理单元处理的机器可读代码。由于本领域的技术人员能够认识到现有技术已演进到硬件、软件或者硬件/软件的组合之间几乎不存在差异的点，所以对用于完成具体功能的硬件相对于软件的选择是留给实施者的设计选择。更具体地说，本领域的技术人员能够认识到，软件过程可以被变换成等价的硬件结构，以及硬件结构自身可以被变换成等价的软件过程。因此，对硬件实施方案相对于软件实施方案的选择是设计选择中的一个选择，并且被留给实施者。

计算机1010的部件可以包括但不限于处理单元1020、系统存储器1030和将包括系统存储器的各种系统部件耦合到处理单元1020的系统总线1021。系统总线1021可以是使用各种各样总线架构中的任一种总线架构的包括存储器总线或者存储器控制器、外围总线和本地总线的几种类型的总线结构中的任一种总线结构。作为示例而非限制，这样的架构包括工业标准架构（ISA）总线、微通道架构（MCA）总线、增强型ISA（EISA）总线、视频电子标准协会（VESA）本地总线和也被称为夹层总线的外围部件互连（PCI）总线。

计算机1010可以包括各种各样的计算机可读介质。计算机可读介质可以是可以被计算机1010访问的任何可用介质，并且包括易失性和非易失性介质、可移除和非可移除介质两者。作为示例而非限制，计算机可读介质可以包括计算机可读存储介质和通信介质。计算机可读存储介质包括使用任何用于存储诸如是计算机可读指令、数据结构、程序模块或者其他数据之类的信息的方法或者技术实施的易失性和非易失性以及可移除和非可移除介质。计算机可读存储介质包括但不限于：随机存取存储器（RAM）、只读存储器（ROM）、EEPROM、闪存或者其他存储器技术、CD-ROM、数字多功能盘（DVD）或者其他光盘存储器、盒式磁带、磁带、磁盘存储装置或者其他磁存储设备、或者任何其他可以用于存储期望的信息并且可以被计算机1010访问的介质。通信介质通常将计算机可读指令、数据结构、程序模块或者其他数据体现在诸如是载波或者其他传输机制之类的已调制数据信号中，并且包括任何信息递送介质。术语“已调制数据信号”表示使其特性中的一个或多个特性以使得将信息编码在该信号中的方式被设置或者改变的信号。作为示例而非限制，通信介质包括：诸如是有线网络或者直接有线连接之类的有线介质；以及诸如是RF和其他无线介质之类的无线介质。以上各项中的任何项的组合也被包括在计算机可读介质的范围内。

系统存储器1030包括采用诸如是ROM 1031和RAM 1032之类的易失性和/或非易失性存储器的形式的计算机存储介质。包含诸如在启动期间帮助在计算机1010内的元件之间传输信息的基本例程的基本输入/输出系统（BIOS）1033通常被存储在ROM 1031中。RAM1032通常包含对于处理单元1020来说可立即访问和/或当前正被处理单元1020操作的数据和/或程序模块。作为示例而非限制，图10图示出了操作系统1034、应用程序1035、其他程序模块1036和程序数据1037。

计算机1010还可以包括其他可移除/非可移除、易失性/非易失性计算机存储介质。仅作为示例，图10图示出了从或者向非可移除、非易失性磁介质读或者写的硬盘驱动1041和从或者向可移除、非易失性磁盘1052读或者写的磁盘驱动1051。计算机1010可以进一步包括用于向光学介质读和/或写的光学介质读取设备1055。

可以在示例性操作环境中使用的其他可移除/非可移除、易失性/非易失性计算机存储介质包括但不限于盒式磁带、闪存卡、DVD、数字视频磁带、固态RAM、固态ROM等。硬盘驱动1041通常通过诸如是接口1040之类的非可移除存储器接口连接到系统总线1021。磁盘驱动1051和光学介质读取设备1055通常经由诸如是接口1050之类的可移除存储器接口连接到系统总线1021。

上面所讨论的驱动及其关联的计算机存储介质为计算机1010提供对计算机可读指令、数据结构、程序模块和其他数据的存储。例如在图5中，硬盘驱动1041被图示为存储操作系统1044、应用程序1045、其他程序模块1046和程序数据1047。这些部件可以与操作系统1034、应用程序1035、其他程序模块1036和程序数据1037相同或者不同。在这里给予操作系统1044、应用程序1045、其他程序模块1046和程序数据1047不同的编号以图示出至少它们是不同的副本。

用户可以通过诸如是键盘1062和通常被称为鼠标、轨迹球或者触摸板的指向设备1061之类的输入设备向计算机1010输进命令和信息。其他输入设备（未示出）可以包括麦克风、操纵杆、游戏板、碟形卫星天线、扫描仪等。这些和其他输入设备通常通过耦合到系统总线1021的用户输入接口1060连接到处理单元1020，但可以由诸如是并行端口、游戏端口或者通用串行总线（USB）之类的其他接口和总线结构被连接。监视器1091或者其他类型的显示设备经由诸如是视频接口1090之类的接口也连接到系统总线1021。除监视器之外，计算机可以还包括可以通过输出外围接口1095被连接的其他外围输出设备，诸如是扬声器1097和打印机1096。

计算机1010可以使用与一个或多个诸如是远程计算机1080之类的远程计算机的逻辑连接操作在连网环境中。远程计算机1080可以是个人计算机、服务器、路由器、网络PC、对等设备或者其他常见网络节点，并且通常包括上面关于计算机1010所描述元件中的许多或者全部单元，尽管在图5中仅图示出了存储器存储设备1081。图5中所描绘的逻辑连接包括局域网（LAN）1071和广域网（WAN）1073，但可以还包括其他网络。这样的连网环境在办公室、企业级计算机网络、内联网和互联网中是常见的。

当在LAN连网环境中被使用时，计算机1010通过网络接口或者适配器1070连接到LAN 1071。当在WAN连网环境中被使用时，计算机1010通常包括调制解调器1072或者其他用于建立通过诸如是互联网之类的WAN 1073进行的通信的装置。可以在内部或者外部的调制解调器1072可以经由用户输入接口1060或者其他合适的机制连接到系统总线1021。在连网环境中，相对于计算机1010或者其部分所描绘的程序模块可以被存储在远程存储器存储设备中。作为示例而非限制，图10将远程应用程序1085图示为驻留在存储器设备1081上。将认识到，所示的网络连接是示例性的，并且可以使用建立计算机之间的通信链路的其他装置。

图6描绘了可以在图2的系统中使用的另一个计算环境的示例方框图。在一个示例中，计算环境可以用于客户端设备380。诸如是上面所描述的计算环境12之类的计算环境可以包括诸如是游戏控制台之类的多媒体控制台100。多媒体控制台100具有中央处理单元（CPU）101，中央处理单元101具有1级高速缓存102、2级高速缓存104和闪存ROM（只读存储器）106。1级高速缓存102和2级高速缓存104临时地存储数据，并且因此减少存储器访问循环的数量，因此提升处理速度和吞吐量。CPU 101可以被提供为具有多于一个核，并且因此具有附加的1级和2级高速缓存102和104。诸如是闪存ROM之类的存储器106可以存储在多媒体控制器100被加电时的开机过程的初始阶段期间被加载的可执行代码。

图形处理单元（GPU）108和视频编码器/视频编解码器（编码器/解码器）114形成用于高速和高分辨率图形处理的视频处理管线。经由总线将数据从图形处理单元108运送到视频编码器/视频编解码器114。视频处理管线向A/V（音频/视频）端口140输出数据以便传输到电视或者其他显示器。存储器控制器110连接到GPU 108以促进对诸如是RAM（随机存取存储器）之类的各种类型的存储器112的处理器访问。

多媒体控制台100包括优选在模块118上被实施的I/O控制器120、系统管理控制器122、音频处理单元123、网络接口124、第一USB主机控制器126、第二USB控制器128和前面板I/O子组件130。USB控制器126和128充当对于外围控制器142（1）-142（2）、无线适配器148和外部存储器设备146（例如闪存、外部CD/DVD ROM驱动、可移除介质等）的主机。网络接口（NWIF）124和/或无线适配器148提供对网络（例如互联网、家庭网络等）的访问，并且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等的多种多样的各种有线或者无线适配器部件中的任一种适配器部件。

提供了系统存储器143以存储在开机过程期间被加载的应用数据。提供了媒体驱动144，并且其可以包括DVD/CD驱动、硬盘驱动或者其他可移除媒体驱动。媒体驱动144可以在多媒体控制台100的内部或者外部。可以经由媒体驱动144访问应用数据以便被多媒体控制台100执行、回放等。媒体驱动144经由诸如是串行ATA总线或者其他高速连接之类的总线连接到I/O控制器120。

系统管理控制器122提供与确保多媒体控制台100的可用性有关的各种各样服务功能。音频处理单元123和音频编解码器132形成具有高保真度和立体声处理的对应的音频处理管线。经由通信链路在音频处理单元123和音频编解码器132之间运送音频数据。音频处理管线向A/V端口140输出数据以便被外部的音频播放器或者具有音频能力的设备再现。

前面板I/O子组件130支持电力按钮150和弹出按钮152以及被暴露在多媒体控制台100的外表面上的任何LED（发光二极管）或者其他指示器的功能性。系统电力供应模块136为多媒体控制台100的部件提供电力。风扇138冷却多媒体控制台内的电路。

CPU 101、GPU 108、存储器控制器110和多媒体控制台100内的各种其他部件经由一个或多个总线互连，所述总线包括使用各种各样总线架构中的任一种总线架构的串行和并行总线、存储器总线、外围总线和处理器或者本地总线。

当多媒体控制台100被加电时，应用数据可以从系统存储器143被加载到存储器112和/或高速缓存102、104中，并且在CPU 101上被执行。应用可以呈现图形用户界面，所述图形用户界面提供当导航到在多媒体控制台100上可用的不同媒体类型时的一致的用户体验。在操作时，可以从媒体驱动144启动或者播放包含在媒体驱动144内的应用和/或其他媒体以向多媒体控制台100提供附加的功能性。

多媒体控制台100可以通过简单地将系统连接到电视或者其他显示器被操作为独立的系统。在该独立模式下，多媒体控制台100允许一个或多个用户与系统交互、观看电影或者收听音乐。然而，随着通过网络接口124或者无线适配器148使得可用的宽带连接的集成，多媒体控制台100可以进一步被操作为较大网络社区中的参与者。

当多媒体控制台100被加电时，指定量的硬件资源被预留给由多媒体控制台操作系统进行的系统使用。这些资源可以包括对存储器（例如16MB）、CPU和GPU循环（例如5%）、连网带宽（例如8kbs）等的预留。因为这些资源在系统开机时被预留，所以所预留的资源从应用的角度看不存在。

特别地说，存储器预留优选大到足以包含启动内核、并发系统应用和驱动器。CPU预留优选是恒定的，以使得如果所预留的CPU使用不被系统应用使用，则空闲线程将消耗任何未被使用的循环。

就GPU预留而言，通过使用GPU中断来调度用于将弹出窗口渲染到叠加中的代码显示由系统应用（例如弹出窗口）生成的轻量级消息。对于叠加来说所要求的存储器的量取决于叠加区域尺寸，并且叠加优选地随屏幕分辨率而缩放。在完全用户界面被并发系统应用使用的情况下，使用独立于应用分辨率的分辨率是优选的。缩放器可以用于设置该分辨率，以使得消除对改变频率和导致TV重新同步的需求。

在多媒体控制台100开机和系统资源被预留之后，并发系统应用执行以提供系统功能性。系统功能性被封装在系统应用的集合中，所述系统应用的集合在如上面所描述的被预留的系统资源内执行。操作系统内核标识作为相对于游戏应用线程的系统应用线程的线程。系统应用优选被调度为以预定的时间和间隔运行在CPU 101上，以向应用提供一致的系统资源视图。所述调度将最小化运行在控制台上的游戏应用的高速缓存中断。

当并发系统应用要求音频时，音频处理由于时间敏感性被异步地调度到游戏应用。多媒体控制台应用管理器（下面所描述的）控制当系统应用活跃时的游戏应用音频级别（例如，静音、减弱）。

输入设备（例如控制器142（1）和142（2））被游戏应用和系统应用共享。输入设备不是被预留的资源，而在系统应用与游戏应用之间被切换，以使得每个应用都将具有设备的焦点。应用管理器优选控制输入流的切换而不知道游戏应用的知识，并且驱动器维护与焦点切换有关的状态信息。控制台100可以从深度相机系统接收附加输入。

尽管已使用特定于结构化特征和/或方法学动作的语言描述了本主题，但要理解，在所附权利要求中限定的主题不必限于上面所描述的具体特征或者动作。而是，作为实施权利要求的示例形式公开了上面所描述的具体特征和动作。预期本发明的范围由在此附上的权利要求限定。

Claims

1.一种具有计算机可执行指令的计算机可读存储介质，所述计算机可执行指令在由处理器执行时使得所述处理器执行方法，所述方法包括：

从多个客户端设备接收对于媒体内容的标识的多个查询，每个查询包括媒体指纹；

基于对所述多个查询的所述媒体指纹进行的比较，生成多个查询聚类，每个查询聚类包括具有一个或多个匹配的媒体指纹的查询，其中所述媒体指纹包括视觉指纹；

将来自每个查询聚类的至少一个查询的所述媒体指纹与已知媒体指纹的基本集进行比较，其中所述基本级包括目录，所述目录包括对于媒体内容的媒体指纹和内容标识信息；

对于在其中所述至少一个查询匹配于所述基本集的已知媒体指纹的每个查询聚类，生成对所述查询聚类中的每个查询的应答，所述应答具有针对来自所述基本集的所述已知媒体指纹的内容标识信息；

对于在其中所述至少一个查询不匹配于已知媒体指纹的每个查询聚类，

从所述查询聚类中的查询的至少一个子集确定与所述一个或多个匹配的媒体指纹相关联的文本数据，其中查询的所述子集中的每个查询具有相关联的文本数据；

基于对于查询的所述子集的所述文本数据，生成对于所述查询聚类的内容标识信息；以及

生成对所述查询聚类中的每个查询的响应，所述响应包括对于所述查询聚类的所述内容标识信息，

其中所述方法进一步包括：

跟踪来自所述多个客户端设备的查询，以对于所述多个客户端设备中的每个客户端设备基于来自具有对于对应的查询聚类生成的所述内容标识信息的查询的文本数据的过去的匹配，确定可靠性评级；

确定对于所述多个客户端设备中的每个客户端设备的所述可靠性评级是否在阈值可靠性评级以上；以及

对于已知指纹的目录，基于来自具有所述阈值可靠性评级以上的可靠性评级的所述多个客户端设备中的一个或多个客户端设备的文本数据和视觉指纹，生成未知的媒体指纹的内容标识信息。

2.根据权利要求1所述的计算机可读存储介质，其中，生成对于每个查询的内容标识信息包括，对于第一查询聚类：

确定所述第一查询聚类中的查询的第一组包括与第一媒体内容相对应的第一文本数据；

确定所述第一查询聚类中的查询的第二组包括与第二媒体内容相对应的第二文本数据；

将所述第一组中的查询的数量与所述第二组中的查询的数量进行比较；以及

基于将所述第一组中的查询的数量与所述第二组中的查询的数量进行的比较，生成所述内容标识信息。

3.根据权利要求2所述的计算机可读存储介质，其中：

所述第一组中的查询的数量大于所述第二组中的查询的数量；

生成所述内容标识信息包括基于所述第一文本数据而生成内容标识信息；以及

生成对每个查询的响应包括生成对所述第二组中的每个查询的响应，所述响应包括基于与所述第一媒体内容相对应的所述第一文本数据的内容标识信息。

4.根据权利要求2所述的计算机可读存储介质，其中，生成对于所述第一查询聚类中的每个查询的内容标识信息包括：

基于对于所述第一组中的每个查询的所述第一文本数据的源，对所述第一文本数据应用第一加权；以及

基于对于所述第二组中的每个查询的所述第二文本数据的源，对所述第二文本数据应用第二加权；

其中，将所述第一组中的查询的数量与所述第二组中的查询的数量进行比较包括：对第一数量的查询应用第一加权；以及，对第二数量的查询应用第二加权。

5.根据权利要求1所述的计算机可读存储介质，其中，所述方法进一步包括：

响应于确定所述多个客户端设备中的所述一个或多个客户端设备的所述可靠性评级在所述阈值可靠性评级以上，向搜索服务流传送来自所述多个客户端设备中的所述一个或多个客户端设备的指纹和文本数据，以更新已知媒体指纹的所述基本集。

6.一种自动化内容识别的计算机实施方法，包括：

从多个客户端设备接收对媒体内容的标识的多个查询，每个查询包括媒体指纹；

基于对所述多个查询的所述媒体指纹进行的比较，从所述多个查询生成查询聚类，每个查询聚类包括具有一个或多个匹配的媒体指纹的查询，其中所述媒体指纹包括视觉指纹；

将来自每个查询聚类的至少一个查询的所述媒体指纹与已知媒体指纹的基本集进行比较，其中所述基本集包括目录，所述目录包括对于媒体内容的媒体指纹和内容标识信息；

对于在其中所述至少一个查询匹配于所述基本集的已知媒体指纹的每个查询聚类，生成对所述查询聚类中的每个查询的应答，所述应答具有针对来自所述查询聚类的所述基本集的所述已知媒体指纹的内容标识信息；以及

从所述查询聚类中的查询的至少一个子集确定与所述一个或多个匹配的媒体指纹相关联的文本数据，其中查询的所述子集中的每个查询具有相关联的文本数据，

基于对于所述查询聚类中的查询的所述子集的所述文本数据，生成所述查询聚类的内容标识信息，以及

生成对所述聚类的每个查询的响应，所述响应包括对于所述查询聚类的所生成的内容标识信息，

其中所述方法进一步包括：

7.根据权利要求6所述的计算机实施方法，进一步包括：

对于在其中所述至少一个查询不匹配于已知媒体指纹的每个查询聚类，生成已知媒体指纹的所述基本集中的一个或多个条目，所述一个或多个条目包括来自所述查询聚类的一个或多个媒体指纹和所生成的内容标识信息；

其中，在其中所述至少一个查询不匹配于已知媒体指纹的第一查询聚类包括：包括与第一查询相关联的元数据的文本数据，以及包括与第二查询相关联的文件名的文本数据；以及

其中，生成所述内容标识信息包括：对所述元数据应用第一加权，以及对所述文件名应用第二加权。

8.根据权利要求7所述的计算机实施方法，进一步包括，对于所述第一查询聚类：

对与所述查询相关联的所述文本数据进行比较，以确定是否存在对于所述第一查询聚类的标识信息的一致性，其中，在所述比较被执行时，所述第一加权和所述第二加权被应用。

9.一种计算设备，包括：

一个或多个存储设备，其包括处理器可读代码和目录，所述目录包括对于媒体内容的媒体指纹和内容标识信息；以及

一个或多个处理器，其与所述一个存储设备通信，所述一个或多个处理器执行所述处理器可读代码以执行以下操作：

通过一个或多个网络从多个客户端设备接收对媒体内容的标识的多个查询，每个查询包括与所述媒体内容相对应的媒体指纹；

生成多个查询聚类，每个查询聚类包括所述多个查询中的具有匹配的媒体指纹的查询，其中所述媒体指纹包括视觉指纹；

确定来自每个查询聚类的至少一个查询的所述媒体指纹是否匹配于来自所述目录的媒体指纹；

对于其中所述至少一个查询匹配于来自所述目录的媒体指纹的每个查询聚类，基于来自所述目录的对应内容标识信息，生成对于所述查询聚类的每个查询的内容标识信息；以及

对于其中所述至少一个查询不匹配于来自所述目录的媒体指纹的每个查询聚类，基于与来自所述查询聚类的查询的至少一个子集相关联的文本数据，生成对于所述查询聚类的每个查询的内容标识信息，其中查询的所述子集中的每个查询具有相关联的文本数据，

其中所述一个或多个处理器进一步执行所述处理器可读代码以执行以下操作：

跟踪来自所述多个客户端设备的查询，以对于所述多个客户端设备中的每个客户端设备基于来自匹配于对于不匹配于来自所述目录的媒体指纹的对应查询聚类所生成的内容标识信息的查询的文本数据的过去的匹配，确定可靠性评级；

对于已知指纹的所述目录，基于来自从具有所述阈值可靠性评级以上的可靠性评级的所述多个客户端设备中的一个或多个客户端设备所接收的查询的文本数据和视觉指纹，生成未知的媒体指纹的内容标识信息。