CN103827856A

CN103827856A - 检索视觉媒体

Info

Publication number: CN103827856A
Application number: CN201180073732.8A
Authority: CN
Inventors: T.张; K.刘; X.孙
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2011-09-27
Filing date: 2011-09-27
Publication date: 2014-05-28
Also published as: EP2734931A4; WO2013044407A1; EP2734931A1; US20140193048A1; US9229958B2

Abstract

本公开的示例可以包括方法、系统和具有可执行指令的计算机可读介质。用于检索视觉媒体的示例性方法能够包括接收与目标内容关联的文本查询。基于文本查询与视觉媒体的元数据的对应而识别第一组视觉媒体，并且从第一组所识别的视觉媒体中选择关键帧。所述方法进一步包括检测所选择的关键帧中的内容类型的实例，以及将内容类型的类似实例分组成聚类。所述目标内容与具有最大数量的类似实例的聚类相关联。

Description

检索视觉媒体

背景技术

由于人们共享照片和视频，并且通过响应于对网络的速度和带宽能力提高的商业努力，在因特网上视觉媒体的量越来越多。因特网数据传递速度正在增加。促进参与性信息共享的WEB 2.0应用（诸如社交联网站点，博客，社交媒体和其他应用）在数量上增长。基于图像的和视频共享网站（诸如FLICKR® (Google, Inc.), PICASA® (Google, Inc.), YOUTUBE® (Google, Inc.)等）越来越受欢迎。所有这些能力和发展正在使得在线基于内容的图像操作非常有用。由于新的视觉媒体一直被上传到因特网，高效地组织、索引、和检索期望的视觉媒体的方法是恒定且日益增长的挑战。组织视觉媒体能够是极大的努力。

人通常是诸如照片、图像和视频帧之类的视觉媒体中的首要主题。在视觉媒体数据集中容易且快速地找到特定人物的视觉媒体的能力是高度需要的。搜索包括特定人物的视觉媒体能够具有很多应用。视觉媒体内容在视觉上被最佳评估。然而，传统搜索工具通常是基于文本的，最初被设计成返回文本结果，并且最近扩展成涉及图像搜索的应用。也就是说，搜索输入被限制成文本，诸如人名、名词、或被搜索的视觉媒体的书面描述。由于例如许多人能够具有相同的名字，这可以返回许多不同人的视觉媒体，基于文本的搜索单独地相对于视觉媒体的结果可能不精确。用户通常不对响应于文本搜索查询（例如，被称为“Bob Smith”的所有人的图像）而返回的所有结果感兴趣，而是对所返回图像的某些部分（诸如他们知道的“Bob Smith”的图像）感兴趣。因此，对视觉媒体搜索结果的某种排序能够对用户有益。

附图说明

图1图示根据本公开的一个或多个示例的用于检索视觉媒体的基于文本的搜索入口。

图2A图示根据本公开的一个或多个示例的响应于基于文本查询而返回的视觉媒体的显示。

图2B图示根据本公开的一个或多个示例的重新排列的视觉媒体的显示。

图3图示根据本公开的一个或多个示例用于检索视觉媒体的方法的流程图。

图4图示根据本公开的一个或多个示例用于检索视觉媒体的示例性计算系统的框图。

图5图示根据本公开的一个或多个示例的与处理资源通信的示例性计算机可读介质（CRM）的框图。

具体实施方式

本公开的示例可以包括方法、系统以及具有可执行指令的计算机可读介质和/或逻辑。根据本公开的一个或多个示例，示例性方法能够包括接收与目标内容关联的文本查询。基于文本查询与视觉媒体的元数据的对应而识别第一组视觉媒体。从第一组所识别的视觉媒体中选择关键帧。所述方法进一步包括检测所选择的关键帧中的内容类型的实例，并且将所述内容类型的类似实例分组成聚类（cluster）。目标内容与具有最大数量的类似实例的聚类关联。

如本文所使用的，术语“包括”意为包括但不限于，术语“包含”意为包含但不限于。术语“基于”意为至少部分基于。

本公开提供用于例如通过使用网络（诸如，因特网）来搜索以找到一个或多个特定人物的视觉媒体的系统和方法。根据本公开的示例，系统和/或方法的输入能够是文本查询，诸如要被搜索的一个或多个人物中的一个或多个的名称。系统和/或方法的输出能够是包含所述一个或多个人物的视觉媒体的列表和/或视觉媒体的显示。该列表可以包括包含所述一个或多个人物的每个所返回的视觉媒体中的视觉媒体的位置和/或其分段。例如，列表可以指示对象出现在特定的视觉媒体中的某些时间和/或位置。

利用此类结果，用户可以查看和/或编辑所述一个或多个人物的视觉媒体。也就是说用户可以选择所返回的视觉媒体的部分以用于构成新的视觉媒体。例如，新的视频可以由从多个所返回的视频中提取的一个或多个人物的一个或多个分段所形成。此类新的视觉媒体可以包括来自原始静态图像或从视频中提取的静态图像。本公开的系统和方法也可以适用于发现频繁地与作为该搜索的被识别目标的一个或多个人物一起出现的人。能够构成示出作为该搜索的被识别目标的一个或多个人物和其他人一起的视觉媒体。本公开的用于搜索以找到视觉媒体的系统和方法的结果也能够被用来生成人们与作为该搜索的被识别目标的一个或多个人物共同出现（co-appearance）的统计数据。

当搜索特定人物的视觉媒体时，从文本查询所返回的结果可能会被混淆。部分视觉媒体可能根本不包含该特定人物，或甚至可能与该特定人物不相关。例如，对于“John Smith”的文本搜索能够产生针对除感兴趣的特定John Smith之外的被称为John Smith许多不同人的视觉媒体。通过将面部聚类（face clustering）应用于位于前列的所返回的视觉媒体的帧，能够获得人的面部特征，这随后能够被用来找到更多的相关视觉媒体。视觉媒体的输入样本（诸如在通过示例性方法的查询中）不是必须的，并且不需要分类器的训练。同样，特定人物的被定位的视觉媒体分段能够被用于重新目的化（repurpose）。

图1图示根据本公开的一个或多个示例用于检索视觉媒体的基于文本的搜索入口。基于文本的搜索入口100能够是搜索引擎106，例如与因特网关联的网页或其他数据库。基于文本的搜索入口100能够是可以从中应用本公开技术的商业可用的搜索引擎106的前端，或者能够是用于独立的视觉媒体搜索系统（例如，私有视觉媒体数据集）的前端。

搜索入口100能够包括通过其来接收文本查询104的搜索字段102。文本查询104能够是例如一个或多个人的名称或受欢迎的视觉媒体的另一个描述符。例如，文本查询104能够是诸如“总统”或“教皇”之类的头衔，或是诸如“第一个黑人总统”或“电影《乱世佳人》中的男主角”之类的描述。

对于文本查询104，视觉媒体搜索系统能够搜索视觉媒体（例如，图像、视频）的集合，并且因此基于与视觉媒体中的特定视觉媒体关联的文本描述（诸如，元数据）而返回视觉媒体结果。关联的文本描述能够是与视觉媒体关联的可见和/或不可见文本信息的形式。与视觉媒体关联的可见文本信息能够包括在视频和图像上标记或标签，所述标记能够连同视频/图像一起显示。与视觉媒体关联的不可见文本信息能够包括存储在与视觉媒体关联的文件中与特定视觉媒体关联的元数据（诸如捕获的时间、日期和/或地点、主题的描述等）。

根据本公开的一个或多个示例，用于检索视觉媒体的各种方法能够涉及经由因特网来检索视觉媒体（例如，存储在云中的图像，YOUTUBE®视频）。利用基于文本的搜索引擎，能够返回许多视频。然而，在所返回的视频之中，由于文本注释的噪声性质，部分视频可能与正在被搜索的特定的一个或多个人物不相关。也就是说，文本注释可能是一般的、不准确的、模糊的、不精确的等。此外，在相关的视频之中，其部分可能不包含所述一个或多个人。例如，注释为“Johnny的毕业派对”的视频可以捕获出席的那些相关人，而不是感兴趣的对象Johnny。视频也可以不按所述一个或多个目标人物出现多少而排列。

图2A图示根据本公开的一个或多个示例响应于基于文本的查询而返回的视觉媒体的显示210。视觉媒体的显示210能够包括目标内容（例如，正在被搜索的一个或多个人物）的多个所返回的视觉媒体213（例如，视频、图像），以及从所返回的视觉媒体213中导出的多个查询图像211。查询图像211能够例如通过面部聚类或其他识别技术而从所返回的视觉媒体213中导出。在通过面部聚类技术而从所返回的视觉媒体213中导出查询图像211的情况下，查询图像211可以是面部图像212，如图所示。

作为本公开的用于检索视觉媒体的系统和方法的示例，下述讨论涉及视频片断（诸如在YOUTUBE®上找到的视频片断）。然而，本公开不限于仅是此类视频的视觉媒体，并且能够包括诸如静态图像和/或其他视觉媒体文件格式之类的其他类型的视觉媒体。视觉媒体的显示210能够基于文本查询。对于包含一个或多个人的名称的文本查询，系统能够例如使用文本搜索引擎（诸如在YOUTUBE®中所使用的搜索引擎）在因特网上的被标记的视觉媒体集合（例如YOUTUBE®视频）中搜索。多个视频214可以被返回。然而，在多个所返回的视频214中，部分所返回的视频可能与目标内容（例如，正在被搜索的一个或多个特定人物）不相关。

能够从由文本查询所返回的视频214中提取关键帧。关键帧意指所返回的视频214的一个或多个部分（例如，帧）。能够从位于前列的N个所返回的视频（例如，20）中选择关键帧。本公开的系统和/或方法不限于这里讨论的示例性数量，并且可以包括从更多或更少的所返回的视觉媒体中所选择的关键帧。关键帧可以在时间上被均匀地采样，或者可以通过智能方案被选择。关键帧集合能够包含例如从N个视频214中所选择的关键帧，或者查询图像211可以基于所述关键帧（例如，包括在关键帧附近的某个附加区域）。

面部检测器能够被应用于所有关键帧以检测关键帧中的一个或多个面部216。面部聚类能够在关键帧中被执行。面部聚类能够在所有检测到的面部216上进行。相同人物的面部能够被分组成聚类。即使在位于前列的N个所返回的视频214中可能存在与目标人物不相关的视频，或者位于前列的N个所返回的视频 214的部分可能不包含目标人物，基于至少部分所返回的视频214包含目标人物的假设，最大的面部聚类能够被假设对应于目标人物。可能存在对应于与所返回的视频214中的目标人物一起出现的人或根本不相关的人的其他较小的面部聚类。

候选查询面部212能够被自动生成。能够从每个位于前列的面部聚类中选择数量K（例如，4、5）个面部图像。然而，数量K不限于任何特定值，并且能够多于或少于本文提供的示例性数量。对于一个聚类，具有最大面部的面部图像216能够被选择。能够选择可能与所选的面部图像216最不同的面部图像216。该过程能够继续，直到能够选择K个面部图像216。例如，如果文本查询是“Barak Obama”，则最大的面部聚类应该对应于总统Barak Obama，并且他的K个面部图像216可以被选择作为查询图像212。在所返回的视频214中出现得足够频繁并且具有足够大面部聚类的人的面部图像216也可以被选择作为查询图像212。

如果文本查询是“Clinton”，则可能存在Bill Clinton和Hilary Clinton二者的大型面部聚类，二者均能够被选择作为查询图像212。可能还会有与该名称相关的其他人的面部聚类。此类自动选择的面部图像能够以面部聚类大小的次序被显示给用户作为查询图像212（例如，最大的面部聚类大小作为最顶部的或最右边的或最右上方的图像），最可能在最突出的位置（例如，在顶部）呈现一个或多个目标人物的面部图像212。然而，本公开的示例不限于任何特定的排序。其他的排序方案是可能的，并且/或者用于指示优选的候选查询图像的其他方法被预期，诸如通过高亮、标签、排序、排列等。

根据一个或多个示例，增量式聚类（例如，在线聚类）可以被用于动态环境，其中新的视觉媒体数据不断地被添加到数据集（诸如，因特网）中。在特定的文本查询和/或基于先前的文本查询而被存储之前，增量式聚类能够被执行，并且随后被用来返回视觉媒体和/或确定适当的聚类。

根据本公开的示例，查询图像212的重新排列能够被执行。用户可以进行查询图像212的目视检查（visual inspection），并且从所显示的查询图像212的阵列中选择一个或多个查询图像212。查询图像212是表示面部聚类的面部图像。选择查询图像212指示来自可能是一个或多个其他人物（例如，具有相同名称的其他人物）的查询图像中的一个或多个目标人物的面部图像。

基于该视觉查询，来自文本查询的原始返回的M个视频能够被重新排列，其中M大于或等于N（即，所显示的所返回视频的数目）。在所返回的视频内，能够从每个视频中选择关键帧的集合。现在所选择的关键帧可以与先前所选择的关键帧相同，或者可以是更密集地采样的集合。所检测到的面部能够被聚类到来自每个视频的关键帧集中。所得到的面部聚类能够与所选择的查询面部图像相比较（例如，匹配）。

对于特定的视频，如果存在匹配所选择的查询面部的至少一个面部聚类，则视频能够被识别为包含目标人物的相关。能够针对每个视频而计算排列得分。排列得分能够由下述因素中的一个或多个组成：（a）其中目标人物出现的相关视频排列高于非相关的视频；（b）其中目标人物出现的视频的总时间段；（c）视频已经被查看的次数。其他因素可以被包括在确定排列得分中。根据新的排列，视频能够被布置（例如，列出）。

如上所述，根据本公开从基于文本的视觉媒体搜索结果中检索视觉媒体涉及两个回合（round）的关键帧提取和面部聚类。在第一回合中，关键帧能够例如从多个位于前列的所返回的视觉媒体中提取，并且来自不同的所返回的视觉媒体的所有关键帧能够被一起利用作为面部聚类能够被应用于的集合。在第二回合中，关键帧集能够在每个所返回的视觉媒体中被提取，并且面部聚类能够被应用于每个视觉媒体内的关键帧集。

图2B图示根据本公开的一个或多个示例的重新排列的视觉媒体221的显示。重新排列的视觉媒体221能够包括例如如从排列得分所确定的位于前列的T个视频220。位于前列 T个视频220能够指示与对应于所选择的查询图像的聚类关联的面部图像216。

视频搜索的结果能够被高速缓存和更新。为了快速响应于用户的查询，视频能够被离线处理（例如，在特定搜索之前）并且分析结果能够被高速缓存。例如关于离线处理，视觉媒体检索系统能够分析被查看最多的视频的标记和/或元数据以获得最受欢迎的人（例如，名人）的集合。用这些人的名称作为文本查询，系统能够基于这些查询而生成重新排列的结果。其中一个或多个目标人物出现的分段的位置和视频列表能够被高速缓存。视觉媒体检索系统能够利用通过用户的新输入查询来不断地更新所高速缓存的查询（例如，在所查看的视频中受欢迎的人的列表）。

同样，视觉媒体检索系统能够利用被上传到数据集（例如，因特网）的新视频来规律地更新视频搜索结果。视觉媒体检索系统能够被布置成使得仅需要在现有列表里的人物的新近上传的视频上，或者在先前不在现有列表里的人物的查询的视频上进行视频分析。虽然视觉媒体检索系统能够保持计算以提供越来越好的结果，例如，通过仅存储特定视觉媒体内相关分段位置和/或指向视觉媒体的指针，被需要用于存储所述高速缓存的存储装置能够被最小化。

一旦最相关的视觉媒体被识别和/或检索，用户可以查看视觉媒体和/或直接跳到视觉媒体内其中目标人物出现的分段。视觉媒体也可以被重新目的化以构成定制视觉媒体（例如，视频、照片）产品。例如，用户可以从多个视觉媒体源中挑选包括一个或多个目标人物的视觉媒体的一个或多个分段并且制作包含所选择的一个或多个目标人物的出现的新的视觉媒体。

视觉媒体检索系统能够包括可以被应用于所识别的视觉媒体的视觉媒体编辑工具。用户可以编辑的被自动识别或被半自动选择的一个或多个目标人物的关键帧也可以被显示。例如，用户可以制作一个或多个目标人物的照片集（photobook）。

此外，可以从每个相关视觉媒体内的面部聚类中发现频繁地与目标人物一起出现的人。能够获得关于谁最经常与目标人物一起出现的统计数据。所返回的视觉媒体能够包括出现在相同场景中的其他人与目标人物，或者用户可以构成包括出现在相同场景中的其他人与目标人物的视觉媒体。

此外，视觉媒体检索系统能够被应用于揭示相对于一个或多个目标人物的某些社会关系和相关的统计数据。用户可以进一步组成一起出现的多个目标人物（例如，诸如与名人一起出现的用户）的视觉媒体产品。

图3图示根据本公开的一个或多个示例用于检索视觉媒体的方法的流程图。一个示例性方法包括接收与目标内容关联的文本查询，在360处。基于文本查询与视觉媒体的元数据的对应而识别出第一组视觉媒体，如362处所示。在364处，从第一组所识别的视觉媒体中选择关键帧。所述方法进一步包括检测在所选择的关键帧中的内容类型的实例（如366处所指示），并且将内容类型的类似实例分组成聚类（在368处）。目标内容能够与具有最大数量的类似实例的聚类相关联，如370处所指示。

图4图示根据本公开的用于实现视觉媒体搜索的示例性计算系统的框图。计算系统474能够由通信地耦合到网络478的多个计算资源组成。图4示出第一计算设备475，所述第一计算设备475还可以具有关联的数据源476，并且可以具有一个或多个输入/输出设备（例如，键盘，电子显示器）。第二计算设备479也在图4中示出，所述第二计算设备479通信地耦合到网络478，以使得可执行指令可以通过网络在第一和第二计算机设备之间传递。

第二计算设备479可以包括通信地耦合到非临时计算机可读介质481的一个或多个处理器480。非临时计算机可读介质481可以被构造成存储能够被一个或多个处理器480所运行的可执行指令482（例如，一个或多个程序）和/或数据。第二计算设备479可以被进一步通信地耦合到产生设备483（例如，电子显示器、打印机等）。第二计算设备479也能够被通信地耦合到外部计算机可读存储器484。例如作为通过至少一个处理器480运行存储在非临时计算机可读介质481上的一个或多个程序的指令的结果，第二计算设备479能够引起送往产生设备483的输出以实现根据本公开用于检索视觉媒体的系统。引起输出能够包括但不限于将文本和图像显示到电子显示器和/或将文本和图像打印到有形介质（例如，纸）。用于实现视觉媒体检索的可执行指令可以被第一计算设备475和/或第二计算设备479所运行，被存储在数据库中（诸如可以被维护在外部计算机可读存储器484中），被输出到产生设备483，并且/或者打印到有形介质。

一个或多个附加计算机477也可以经由包括有线和/或无线部分的通信链路而被通信地耦合到网络478。计算系统能够由诸如服务器设备和/或客户端之类的附加的多个互连的计算设备组成。每个计算设备能够包括诸如处理器、状态机、专用集成电路（ASIC）、控制器和/或类似机器之类的控制电路。

控制电路能够具有提供给定功能和/或运行存储在非临时计算机可读介质（例如，476、481、484）上的计算机可读指令的结构。非临时计算机可读介质能够集成于（例如，481）或以有线或无线的方式通信地耦合（例如，476、484）到相应的计算设备（例如，475、479）。例如，非临时计算机可读介质能够是内部存储器、便携式存储器、便携式磁盘或位于另一个计算资源内部的存储器（例如，使得计算机可读指令能够通过因特网下载）。非临时计算机可读介质330能够具有存储在其上的计算机可读指令，所述计算机可读指令被控制电路（例如，处理器）所运行以提供特定功能。

如本文所使用的非临时计算机可读介质能够包括易失性和/或非易失性存储器。易失性存储器能够包括依赖于电力以存储信息的存储器，诸如除其他外还包括各种类型的动态随机存取存储器（DRAM）。非易失性存储器能够包括不依赖于电力以存储信息的存储器。非易失性存储器的示例能够包括固态介质，诸如除其他外还包括闪速存储器、EEPROM、相变随机存取存储器（PCRAM）。非临时计算机可读介质能够包括光盘、数字视频盘（DVD）、蓝光盘、高密度盘（CD）、激光盘和磁性介质（诸如磁带驱动器、软盘和硬盘驱动器）、固态介质（诸如闪速存储器、EEPROM、相变随机存取存储器（PCRAM））以及其他类型的机器可读介质。

逻辑能够整体或部分地被用来实现本公开的一个或多个方法。能够使用适当配置的硬件和/或机器可读指令（包括软件）来实现逻辑。上述的逻辑部分可以被分离地实现和/或实现在共同的布置中。

图5图示根据本公开例如经由通信路径596与处理资源593进行通信的示例性计算机可读介质（CRM）595的框图。如本文使用的，处理器资源593能够包括诸如并行处理布置中的一个或多个处理器594。具有处理器资源的计算设备能够与有形非临时计算机可读介质（CRM）595通信和/或接收有形非临时计算机可读介质（CRM）595，所述有形非临时计算机可读介质（CRM）595存储用于捕获和/或重放网络业务的计算机可读指令集（例如，软件），如本文所述。

上文的说明书、示例和数据提供了方法和应用的描述以及本公开的系统和方法的使用。由于能够在不背离本公开的系统和方法的精神和范围的情况下做出许多示例，本说明书仅阐述许多可能的示例性配置和实现方式的部分。

尽管本文已经说明和描述了特定的示例，本领域普通技术人员应该认识到被计算以实现相同结果的布置能够代替所示的特定示例。本公开意在涵盖本文提供的一个或多个示例的适配或变形。已经以说明性的方式而非限制性方式做出以上描述。以上示例的组合以及未在本文具体描述的其他示例将在回顾以上描述的情况下显而易见。因此，本公开的一个或多个示例的范围应该基于所附的权利要求连同被授权的等价物的完整范围而被确定。

说明书和权利要求由始至终，以下所指出的意义不一定对术语进行限制，而仅提供针对术语的说明性示例。“一”、“一个”和“该”的意义包括复数的引用，而且“在其中”的含义包括“在其中”和“在其上”。如本文所使用的“实施例”不一定指代相同的实施例，尽管它可能是相同的。

在本公开的前面的描述中，参考形成其部分的附图，并且在所述附图中通过说明的方式示出本公开的示例可以如何被实践。这些示例被描述的足够详细以使得本领域普通技术人员能够实践本公开的示例，并且应该理解的是其他示例可以被利用且可以在不背离本公开的范围的情况下做出过程、电子和/或结构上的改变。

为了使本公开简化的目的，一些特征被一起组在单个实施例中。本公开的方法不被解释为反映本公开所公开的示例必须使用比每个权利要求中所明确阐释的更多的特征的意图。而是，如下述权利要求所反映的，发明的主题在于比单个公开的示例的所有特征更少。下述权利要求由此被合并到具体实施方式中，其中每个权利要求独立存在。

Claims

1.一种用于检索视觉媒体的方法，包括：

使用处理器接收与目标内容关联的文本查询；

使用处理器基于文本查询与视觉媒体的元数据的对应而识别第一组视觉媒体；

使用处理器从第一组所识别的视觉媒体中选择关键帧；

使用处理器检测在所选择的关键帧中的内容类型的实例；

使用处理器将所述内容类型的类似实例分组成聚类；以及

使用处理器将目标内容与具有最大数量的类似实例的聚类关联。

2.根据权利要求1所述的方法，其中：

使用处理器接收与目标内容关联的文本查询包括接收名称，所述目标内容是具有所述名称的人的一个或多个图像；以及

使用处理器检测在所选择的关键帧中的内容类型的实例包括检测面部图像。

3.根据权利要求1所述的方法，进一步包括：

使用处理器从具有阈值数量的类似实例的每个聚类中选择内容类型的实例；以及

使用处理器以对应于聚类大小的次序来显示针对具有阈值数量的类似实例的每个聚类的内容类型的实例，

其中聚类大小对应于所述聚类中内容类型的类似实例的数量。

4.根据权利要求3所述的方法，其中选择和显示针对每个聚类的内容类型的实例包括分别列出目标内容出现于其中的一个或多个视频片断内的分段。

5.根据权利要求4所述的方法，其中显示出现在一个或多个视频片断中的面部图像包括显示最大的面部图像和显示与所选择的面部图像最不同的面部图像。

6.根据权利要求3所述的方法，进一步包括：

使用处理器接收对所显示的实例中至少一个的用户选择；

使用处理器基于文本查询与视觉媒体的元数据的对应以及内容类型的所选择实例而识别第二组视觉媒体；

使用处理器从第二组所识别的视觉媒体中选择第二关键帧；

使用处理器检测所选择的第二关键帧中的内容类型的第二实例；

使用处理器将内容类型的类似的第二实例分组成聚类；以及

使用处理器确定内容类型的第二实例与内容类型的所选择实例之间的匹配。

7.根据权利要求6所述的方法，进一步包括：

使用处理器基于累积时间确定具有至少一个所确定的匹配的视觉媒体的排列得分，在所述累积时间期间内容类型的所选择实例出现；以及

使用处理器显示基于排列得分的视觉媒体的列表。

8.根据权利要求7所述的方法，进一步包括使用处理器创建基于排列得分和视觉媒体被查看的发生的数量的视觉媒体的索引，所述索引包括视觉媒体的位置和内容类型的特定实例出现在其处的视觉媒体内的一个或多个位置。

9.根据权利要求7所述的方法，进一步包括：

在接收文本查询之前，使用处理器分析被查看最多的视觉媒体的元数据和与每个相应的被查看最多的视觉媒体关联的名称；

使用处理器生成对应于名称的经重新排列的结果；

使用处理器高速缓存经重新排列的结果；以及

使用处理器响应于新的文本查询而更新被高速缓存的经重新排列的结果。

10.根据权利要求1所述的方法，进一步包括使用处理器基于所选择的关键帧中的内容类型而索引视觉媒体内的位置。

11.根据权利要求10所述的方法，进一步包括使用处理器将来自视觉媒体内被索引的位置的图像重新目的化到定制的图像布置上。

12.一种其上存储有计算机可执行指令的非临时计算机可读介质，所述计算机可执行指令包括在被一个或多个处理器所运行的情况下使一个或多个处理器进行以下动作的指令：

基于文本查询与视觉媒体的元数据的对应而检索一组视觉媒体；

从该组所检索的视觉媒体中选择关键帧；

将面部聚类应用于来自该组所检索的视觉媒体的关键帧；

基于面部聚类生成查询面部图像；以及

基于与查询面部图像中特定的一个对应的所接收到的输入而在显示器上重新排列该组所检索的视觉媒体。

13.根据权利要求12所述的非临时计算机可读介质，进一步包括指令，在被一个或多个处理器运行的情况下所述指令使一个或多个处理器指示与所选择的查询面部图像对应的该组所检索的视觉媒体中所选择的一个的部分。

14.一种计算系统，包括：

显示器；

其上存储有计算机可执行指令的非临时计算机可读介质；以及

耦合到显示器和非临时计算机可读介质的处理器，其中所述计算机可执行指令包括在被所述处理器所运行的情况下使处理器进行以下动作的指令：

从该组所检索的视觉媒体中选择关键帧；

将面部聚类应用于来自该组所检索的视觉媒体的关键帧；

基于面部聚类生成查询面部图像；以及

15.根据权利要求11所述的计算系统，其中处理器运行指令以基于与查询面部图像中特定的一个对应的所接收到的输入而显示特定的所检索的视觉媒体的部分。