CN102549603A

CN102549603A - 基于相关性的图像选择

Info

Publication number: CN102549603A
Application number: CN2010800427609A
Authority: CN
Inventors: G·彻奇克; S·本吉奥
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2009-08-24
Filing date: 2010-08-18
Publication date: 2012-07-04
Anticipated expiration: 2030-08-18
Also published as: CN102549603B; US20230306057A1; AU2018201624B2; US11017025B2; AU2018201624A1; AU2016202074A1; CA2771593C; EP2471026A1; US20180349391A1; US20110047163A1; US20210349944A1; US10614124B2; WO2011025701A1; EP2471026B1; AU2016202074B2; EP3352104A1; EP2471026A4; AU2010286797A1; CA2771593A1; US20150220543A1

Abstract

一种系统、计算机可读存储介质和计算机实施的方法，响应于用户关键词查询来呈现视频搜索结果。视频托管系统使用机器学习过程以学习特征-关键词模型，该特征-关键词模型将来自已标注训练数据集的媒体内容的特征与描述它们的内容的关键词关联。该系统使用学习的模型以基于在视频中找到的特征来提供与关键词查询相关的视频搜索结果。另外，该系统使用学习的模型来确定并且呈现代表视频的一个或者多个缩略图图像。

Description

基于相关性的图像选择

技术领域

本发明总体上涉及标识与搜索项相关的视频或者其部分。具体而言，本发明的实施例涉及基于视频的视听内容来选择一个或者多个有代表性的缩略图图像。

背景技术

媒体托管网站的用户通常通过输入关键词或者搜索项以查询描述媒体内容的文本元数据来浏览或者搜索托管的媒体内容。可搜索元数据可以例如包括媒体文件的标题或者媒体内容的描述摘要。这样的文本元数据经常无法代表视频的整个内容，在视频很长并且具有多种场景时尤其如此。换而言之，如果视频具有大量场景和多种内容，则这些场景中的某一些可能并未在文本元数据中被描述，因此该视频将不会响应于对很可能描述此类场景的关键词的搜索而被返回。因此，常规搜索引擎经常无法返回与用户的搜索最相关的媒体内容。

常规媒体托管网站的第二问题在于：由于托管的媒体内容数量庞大，所以搜索查询可能响应于用户查询来返回数以百计或者甚至数以千计的媒体文件。因而，用户可能难以评价数以百计或者数以千计的搜索结果中的哪些搜索结果最相关。为了辅助用户评估哪些搜索结果最相关，网站可以将每个搜索结果与缩略图一起呈现。传统上，用来代表视频的缩略图图像是来自视频文件的预定帧(例如，第一帧、中间帧或者最后帧)。然而，以此方式选择的缩略图经常没有代表视频的实际内容，因为不存在缩略图的序数位置与视频的内容之间的关系。另外，缩略图可能未与用户的搜索查询相关。因此，用户可能难以评价数以百计或者数以千计的搜索结果中的哪些搜索结果最相关。

因而，需要用于找到并且呈现媒体搜索结果的将允许用户容易评估它们的相关性的改进方法。

发明内容

一种系统、计算机可读存储介质和计算机实施的方法，用于响应于用户关键词查询而找到和呈现视频搜索结果。视频托管系统从用户接收关键词搜索查询，并且选择具有与关键词查询相关的内容的视频。视频托管系统使用视频索引从视频选择帧作为代表视频的内容，该视频索引存储多个视频的帧同与帧相关联的关键词之间的关键词关联性得分。视频托管系统呈现所选择的帧作为用于视频的缩略图。

在一个方面中，一种计算机系统，使用视频帧的特征与描述视频内容的关键词之间的关系的机器学习的模型来生成可搜索视频索引。视频托管系统接收已标注训练数据集，该数据集包括媒体项目(例如，图像或者音频剪辑)集以及描述媒体项目的内容的一个或者多个关键词。视频托管系统提取表征媒体项目的内容的特征。训练机器学习的模型以学习在具体特征与描述内容的关键词之间的相关性。继而基于视频的特征和机器学习的模型来生成视频索引，该视频索引将视频数据库中的视频帧映射到关键词。

有利地，视频托管系统基于视频的实际内容而不是仅依赖于文本元数据来找到并且呈现搜索结果。因此，视频托管系统让用户能够更好地评价搜索结果集合中的视频的相关性。

在本发明内容和以下具体实施方式中描述的特征和优点并非囊括性的。本领域普通技术人员按照其附图、说明书和权利要求将清楚诸多附加特征和优点。

附图说明

图1是根据一个实施例的视频托管系统100的高级框图。

图2是图示了根据一个实施例的学习引擎140的高级框图。

图3是图示了根据一个实施例的用于生成已学习特征-关键词模型的由学习引擎140执行的步骤的流程图。

图4是图示了根据一个实施例的用于生成特征数据集255的由学习引擎140执行的步骤的流程图。

图5是图示了根据一个实施例的用于生成特征-关键词矩阵的由学习引擎140执行的步骤的流程图。

图6是图示了根据一个实施例的图像注解引擎160的具体视图的框图。

图7是图示了根据一个实施例的用于找到并且呈现视频搜索结果的由视频托管系统100执行的步骤的流程图。

图8是图示了根据一个实施例的用于基于视频元数据为视频选择缩略图的由视频托管系统100执行的步骤的流程图。

图9是图示了根据一个实施例的用于基于用户搜索查询中的关键词为视频选择缩略图的由视频托管系统100执行的步骤的流程图。

图10是根据一个实施例的用于基于用户关键词查询来标识视频内的具体事件或者场景的由图像注解引擎160执行的步骤的流程图。

附图仅出于图示的目的而描绘本发明的优选实施例。本领域技术人员根据下文讨论将容易认识到可以运用这里所示结构和方法的替代实施例而未脱离这里描述的本发明原理。

具体实施方式

系统架构

图1图示了视频托管系统100的一个实施例。视频托管系统100响应于用户关键词查询来找到并且呈现视频搜索结果集合。视频托管系统100基于视频的实际视听内容而不是仅依赖于与视频关联的文本元数据来呈现搜索结果。每个搜索结果与代表视频的视听内容的缩略图一起呈现，该缩略图辅助用户评价结果的相关性。

在一个实施例中，视频托管系统100包括前端服务器110、视频搜索引擎120、视频注解引擎130、学习引擎140、视频数据库175、视频注解索引185和特征-关键词模型195。视频托管系统100代表任何允许客户端设备150的用户经由搜索和/或浏览界面访问视频内容的系统。视频源可以来自用户的视频上传、系统或者其它视频网站或者数据库的搜索或者抓取(crawl)等或者其任何组合。例如在一个实施例中，视频托管系统100可以被配置用于允许用户上传内容。在另一实施例中，视频托管系统100可以被配置用于仅通过抓取其它源或者搜索这样的源从这样的源来离线(为了构建视频数据库)或者在查询时间获得视频。

各种部件(或称模块，例如前端服务器110、视频搜索服务器120、视频注解引擎130、学习引擎140、视频数据库175、视频注解索引185和特征-关键词模型195，的每一个被实施为具有一个或者多个计算机的服务器类计算机系统的部分，该计算机包括CPU、存储器、网络接口、外围接口和其它公知部件。部件本身优选地运行操作系统(例如LINUX)、具有通用高性能CPU、1G或者更多存储器和100G或者更多盘储存器。当然可以使用其它类型的计算机，并且有望随着将来开发更强大计算机，可以根据这里的教导来配置它们。在这一实施例中，模块存储于计算机可读存储设备(例如，硬盘)上、加载到存储器中并且由作为系统100的部分而包括的一个或者多个处理器执行。备选地，硬件或者软件模块可以存储于系统100内的别处。当配置用于执行这里描述的各种操作时，如本领域技术人员理解的那样，通用计算机变成具体计算机，因为这样的计算机存储的特定功能和数据以与如它的底层操作系统和硬件逻辑可以提供的它的本机能力不同的方式配置它。用于实施该系统的适当视频托管系统100是YOUTUBE^TM网站；其它视频托管系统也已知并且可以适于根据这里公开的教导来操作。将理解这里描述的视频托管系统100的命名部件代表本发明的一个实施例并且其它实施例可以包括其它部件。此外，其它实施例可以不含这里描述的部件和/或以不同方式在模块之中分布描述的功能。此外，划归多个部件的功能可以并入到单个部件中。

图1还图示了通过网络160而可通信地耦合到视频托管系统100的三个客户端设备150。客户端设备150可以是能够支持与系统100的通信接口的任何类型的通信设备。适当设备可以包括但不限于个人计算机、移动计算机(例如，笔记本计算机)、个人数字助理(PDA)、智能电话、移动电话以及游戏控制台和设备、具有网络功能的查看设备(例如，机顶盒、电视机和接收器)。在图1中示出了仅三个客户端150以便使描述简化和清楚。实际上，数以千计或者数以百万计的客户端150可以经由网络160连接到视频托管系统100。

网络160可以是有线或者无线网络。网络160的示例包括因特网、内部网、WiFi网络、WiMAX网络、移动电话网络或者其组合。本领域技术人员将认识到，其它实施例可以具有与这里描述的模块不同的模块并且可以用不同方式在模块之中分布功能。在客户端设备与系统100之间的通信方法并不限于任何具体用户接口或者网络协议，但是在一个典型实施例中，用户经由客户端设备150的运用标准网际协议的常规web浏览器来与视频托管系统100交互。

客户端150经由前端服务器110来与视频托管系统100交互以搜寻视频数据库175中存储的视频内容。前端服务器110提供允许用户输入搜索查询(例如，关键词)的控制和元素。响应于查询，前端服务器110提供与查询相关的搜索结果集合。在一个实施例中，搜索结果包括指向视频数据库175中的相关视频内容的链接列表。前端服务器110可以将链接与例如缩略图图像、标题和/或文本摘要等与视频内容相关联的信息一起呈现。前端服务器110还提供允许用户从搜索结果选择视频用于在客户端150上查看的控制和元素。

视频搜索引擎120处理经由前端服务器110接收的用户查询，并且生成包括，指向视频数据库175中与查询相关的视频或者视频部分的链接的结果集合，并且是用于此功能的一个方式。视频搜索引擎120还可以执行搜索功能，例如根据搜索结果的相关性对搜索结果排名和/或对搜索结果计分。在一个实施例中，视频搜索引擎120使用各种文本查询技术基于与视频关联的文本元数据来找到相关视频。在另一实施例中，视频搜索引擎120基于视频或者视频部分的实际视听内容而不是依赖于文本元数据来搜寻视频或者视频部分。例如，如果用户录入搜索查询“车赛”，则视频搜索引擎120可以找到并且返回来自电影车赛场景，尽管该场景可能仅仅是电影中未在文本元数据中被描述的简短部分。下文将参照图10更具体描述用于使用视频搜索引擎以基于视频的视听内容对视频的特定场景定位的过程。

在一个实施例中，视频搜索引擎120还选择缩略图图像或者缩略图图像集以与每个取回的搜索结果一起显示。每个缩略图图像包括代表视频的视听内容并且响应于用户查询的图像帧，并且辅助用户确定搜索结果的相关性。下文参照图8-图9更具体描述用于选择一个或者多个有代表性的缩略图图像的方法。

视频注解引擎130利用与来自视频数据库175的视频的帧或者场景的视听内容相关的关键词注解帧或者场景，并且将这些注解存储到视频注解索引185，并且是一种用于执行这一功能的手段。在一个实施例中，视频注解引擎130根据来自视频数据库175的视频的采样部分(例如，视频帧或者简短音频剪辑)生成特征向量。视频注解引擎130继而将已学习特征-关键词模型195应用于提取的特征向量以生成关键词得分集。每个关键词得分代表在关键词与一个或者多个特征之间的已学习关联的相对强度。因此，得分可以理解为描述关键词描述帧的内容的相对可能性。在一个实施例中，视频注解引擎130也根据每个视频的帧的关键词得分对帧排名，这有助于在查询时间对视频计分和排名。视频注解引擎130将用于每帧的关键词得分存储到视频注解引擎185。视频搜索引擎120可以使用这些关键词得分以确定与用户查询最相关的视频或者视频部分并且确定代表视频内容的缩略图图像。下文参照图6更具体描述视频注释引擎130。

学习引擎140使用机器学习来训练特征-关键词模型195，该模型将图像或者简短音频剪辑的特征与描述它们的可视或者音频内容的关键词相关联，并且是一种用于执行这一功能的手段。学习引擎140处理用代表训练图像、视频和/或音频剪辑(“媒体项目”)的音频和/或可视内容的一个或者多个关键词标注的已标注媒体项目的集合。例如，可以用诸如“海豚”、“游泳”、“海洋”等关键词标注在海洋中游泳的海豚的图像。学习引擎140从已标注训练数据(图像、视频或者音频)提取特征集，并且分析所提取的特征以确定在具体特征与标注的关键词之间的统计关联性。例如，在一个实施例中，学习引擎140生成权重、频率值或者判别函数的矩阵，以指示在已被用于标注媒体项目的关键词与根据媒体项目的内容而导出的特征之间的关联性的相对强度。学习引擎140将在关键词与特征之间的导出的关系存储到特征-关键词模型195。下文参照图2更具体描述学习引擎140。

图2是图示了根据一个实施例的学习引擎140的具体视图的框图。在所示实施例中，学习引擎包括点通(click-through)模块210、特征提取模块220、关键词学习模块240、关联性学习模块230、已标注训练数据集245、特征数据集255和关键词数据集265。本领域技术人员将认识到，其它实施例可以具有与这里描述的模块不同的模块并且可以用不同方式在模块之中分布功能。此外，划归各种模块的功能可以由多个引擎执行。

点通模块210提供用于获取已标注训练数据集245的自动化机制并且是一种用于执行这一功能的手段。点通模块210跟踪视频托管系统100上的或者一个或者多个外部媒体搜索网站上的用户搜索查询。当用户执行搜索查询并且从搜索结果选择媒体项目时，点通模块210存储用户查询中的关键词与用户所选媒体项目之间的正(positive)关联性。点通模块210也可以存储在关键词与未选搜索结果之间的负(negative)关联性。例如，用户搜寻“海豚”并且接收图像结果集合。用户从列表选择的图像可能实际上包含海豚的图像并且因此提供用于图像的良好标签。基于学习的正和/或负关联性，点通模块210确定用于随附于每个图像的一个或者多个关键词。例如，在一个实施例中，点通模块210在观察到图像与关键词之间的阈值数目的正关联性之后(例如在搜寻“海豚”的5个用户从结果集合选择相同图像之后)存储用于媒体项目的关键词。因此，点通模块210可以基于监视用户搜索和在选择搜索结果时的所得用户动作，在统计上标识关键词与图像之间的关系。这一方式利用个体用户对什么内容在他们的搜索行为的普通过程中针对给定关键词作为相关图像有价值的了解。在一些实施例中，关键词标识模块240可以使用自然语言技术(例如取词干和过滤)以预处理搜索查询数据以便标识和提取关键词。点通模块210将标注的媒体项目以及与其相关联的关键词存储到已标注训练数据集245。

在一个备选实施例中，已标注训练数据集245可以代之以存储来自外部源291(例如，已标注储备图像或者音频剪辑数据库)的训练数据。在一个实施例中，从与图像或者音频剪辑关联的元数据(例如文件名、标题或者文本摘要)提取关键词。已标注训练数据集245还可以存储从上文讨论的源的组合获取的数据(例如，使用从点通模块210和从一个或者多个外部数据库291导出的数据)。

特征提取模块220从已标注训练数据集245提取特征集，并且是一种用于执行这一功能的手段。特征以这样的方式来表征媒体的不同方面，即，相似对象的图像将具有相似的特征并且相似声音的音频剪辑将具有相似的特征。为了从图像提取特征，特征提取模块220可以应用文理算法、边缘检测算法或者颜色标识算法以提取图像特征。对于音频剪辑，特征提取模块220可以向声波应用各种变换(例如，生成声谱图)、应用带通滤波器或者自相关的集合、继而应用向量量化算法以提取音频特征。

在一个实施例中，特征提取模块220将训练图像分段成“分片(patch)”并且提取用于每个分片的特征。分片可以有高度和宽度范围(例如64×64个像素)。分片可以重叠或者不重叠。特征提取模块220将无监督学习算法应用于特征数据，以标识最有效表征图像的多数分片的特征子集。例如，特征提取模块220可以应用聚类算法(例如K均值聚类)以标识彼此相似或者在图像中共同出现的特征聚类或者组。因此，例如特征提取模块220可以标识10,000个最有代表性的特征模式和相关联的分片。

类似地，特征提取模块220将训练音频剪辑分段成简短“声音”并且提取用于声音的特征。与训练图像一样，特征提取模块220应用无监督学习以标识最有效地表征训练音频剪辑的音频特征子集。

关键词标识模块240基于已标注训练数据集245来标识频繁出现的关键词集，并且是一种用于执行这一功能的手段。例如，在一个实施例中，关键词标识模块240确定已标注训练数据集中的N个最常用关键词(例如N＝20,000)。关键词标识模块220在关键词数据集265中存储频繁出现关键词集。

关联性学习模块230确定特征数据集255中的特征与关键词数据集265中的关键词之间的统计关联性，并且是一种用于执行这一功能的手段。例如，在一个实施例中，关联性学习模块230以特征-关键词矩阵的形式来表示关联性。特征-关键词矩阵包括具有m行和n列的矩阵，其中m行中的每行对应于来自特征数据集255的不同特征向量而n列中的每列对应于关键词数据集265中的不同关键词(例如，m＝10,000并且n＝20,000)。在一个实施例中，特征-关键词矩阵的每个条目包括权重或者得分，该权重或者得分指示特征与训练数据集中的关键词之间的相关性的相对强度。例如矩阵数据集中的条目可以指示用关键词“海豚”标注的图像将指示具体特征向量Y的相对可能性。关联性学习模块230将学习的特征-关键词矩阵存储到已学习特征-关键词模型195。在其它备选实施例中，可以使用不同关联函数和表示(例如将关键词与可视和/或音频特征相关的非线性函数)。

图3是图示了用于生成特征-关键词模型195的方法的一个实施例的流程图。首先，矩阵学习引擎140例如从外部源291或者从如上文描述的点通模块210接收(302)已标注训练数据集245。关键词学习模块240确定(304)已标注训练数据245中的最频繁出现关键词(例如前20,000个关键词)。特征提取模块220继而生成(306)用于训练数据245的特征，并且将有代表性的特征存储到特征数据集255。关联性学习模块230生成(308)将关键词映射到特征的特征-关键词矩阵，并且将该映射存储到特征-关键词模型195。

图4图示了用于根据已标准训练图像245生成(306)特征的过程的一个示例实施例。在该示例实施例中，特征提取模块220通过确定代表与图像分片关联的颜色数据的颜色直方图来生成(402)颜色特征。用于给定分片的颜色直方图存储该分片内的每个颜色的像素数目。

特征提取模块220还生成(404)纹理特征。在一个实施例中，特征提取模块220使用局部二进制模式(LBP)代表每个分片内的边缘和纹理数据。用于像素的LBP代表邻近像素的相对像素强度值。例如，用于给定像素的LBP可以是8位代码(对应于半径为1个像素的圆中的8个邻近像素)，1指示邻近像素具有较高强度值，而0指示邻近像素具有较低强度值。特征提取模块继而确定用于每个分片的直方图，该直方图存储给定分片内的LBP值计数。

特征提取模块220将聚类应用(406)于颜色特征和纹理特征。例如，在一个实施例中，特征提取模块220将K均值聚类应用于颜色直方图，以标识最好地代表分片的多个聚类(例如20个)。对于每个聚类，确定代表该聚类的主导颜色的聚类质心(特征向量)，由此创建用于所有分片的主导颜色特征集。特征提取模块220对LBP直方图单独聚类，以标识最好地表征分片纹理的纹理直方图(即纹理特征)子集，由此还标识用于分片的主导纹理特征集。

特征提取模块220继而生成(408)用于每个特征的特征向量。在一个实施例中，用于分片的纹理和颜色直方图被联合，以形成用于该分片的单个特征向量。特征提取模块220将无监督学习算法(例如聚类)应用于用于分片的特征向量积，以生成(410)代表大多数分片的特征向量子集(例如10,000个最有代表性的特征向量)。特征提取模块220将特征向量子集存储到特征数据库255。

对于音频训练数据，特征提取模块220可以通过计算美尔频率倒谱系数(MFCC)来生成音频特征向量。这些系数基于对数功率谱在非线性频率标度上的线性预先变换来代表声音的短期功率谱。音频特征向量继而被存储到特征数据集255，并且可以与图像特征向量相似地被处理。在另一实施例中，特征提取模块220通过使用稳定化听觉图像(SAI)来生成音频特征向量。在又一实施例中，一个或者多个带通滤波器应用于音频数据，并且基于在声道之内和之间的相关性来导出特征。在又一实施例中，声谱图被用作音频特征。

图5图示了用于从特征数据集255和关键词数据集265迭代地学习特征关键词矩阵的示例过程。在一个实施例中，关联性学习模块230通过用初始权重填充条目来初始化(502)特征-关键词矩阵。例如，在一个实施例中，初始权重都设置成零。对于来自关键词数据集265的给定关键词K，关联性学习模块230随机选择(504)正训练项目p+(即用关键词K标注的训练项目)并且随机选择负训练项目p-(即未用关键词K标注的训练项目)。特征提取模块220如上文描述的那样确定(506)用于正训练项目和负训练项目的特征向量。关联性学习引擎230通过使用特征-关键词矩阵将特征向量从特征空间变换到关键词空间(例如通过将特征向量与特征-关键词矩阵相乘产生关键词向量)来生成(508)用于正训练项目和负训练项目中的每个训练项目的关键词得分。关联性学习模块230继而确定(510)在关键词得分之间的差值。如果差值大于预定义阈值(即正和负训练项目被正确排序)，则矩阵不变(512)。否则，矩阵条目被设置(514)使得差值大于阈值。关联性学习模块230继而确定(516)是否满足停止标准。如果未满足停止标准，则矩阵学习用新的正和负训练项目执行另一迭代520以进一步改进矩阵。如果满足停止条件，则学习过程停止(518)。

在一个实施例中，当先前选择的正负训练对的滑动窗上正确排序的对数平均而言超过了预定义阈值时，停止标准得以满足。备选地，可以通过将学习的矩阵应用于单独确认数据集来测量学习的矩阵的性能，并且停止标准在性能超过预定义阈值时得以满足。

在一个替代实施例中，为了得分在关键词之间兼容，在学习过程的每次迭代中，针对不同关键词而不是相同关键词K计算并且比较关键词得分。因此，在这一实施例中，选择正训练项目p+作为用第一关键词K₁标注的训练项目，并且选择负训练项目p-作为用不同关键词K₂标注的训练项目。在这一实施例中，关联性学习模块230生成用于每个训练项目/关键词对(即正对和负对)的关键词得分。关联性学习模块230继而以与上文描述的方式相同的方式比较关键词得分，尽管关键词得分与不同关键词有关。

在替代实施例中，关联性学习模块230学习不同类型的特征-关键词模型195(例如，生成模型或者判别模型)。例如，在一个备选实施例中，关联性学习模块230导出可以应用于特征集，以获得与那些特征关联的一个或者多个关键词的判别函数(即分类器)。在这一实施例中，关联性学习模块230将聚类算法应用于与图像分片或者音频段相关联的具体类型的特征或者所有特征。关联性学习模块230生成用于关键词数据集265中的每个关键词的分类器。分类器包括判别函数(例如，超平面)和权重或者其它值的集合，其中权重或者值指定特征在区分媒体项目类与另一媒体项目类的判别能力。关联性学习模块230将学习的分类器存储到已学习特征-关键词模型195。

在一些实施例中，特征提取模块220和关联性学习模块230迭代地生成用于新训练数据245的特征集，并且重新训练分类器直至该分类器收敛。当添加新的训练特征集基本上未改变与特征集关联的判别函数和权重时，分类器收敛。在一个具体实施例中，在线支持向量机算法被用来基于与新训练数据245相关联的特征值，来迭代地重新计算超平面函数直至超平面函数收敛。在其它实施例中，关联性学习模块230定期地重新训练分类器。在一些实施例中，关联性学习模块230在连续基础上，例如无论何时向已标注训练数据集245添加新搜索查询数据(例如来自新点通数据)，重新训练分类器。

在任何前述实施例中，所得特征-关键词矩阵代表在(如已经应用于图像/音频文件的)关键词与根据图像/音频文件导出的特征向量之间的关系的模型。该模型可以理解为在关键词的共同出现和代表图像/音频文件的物理特性(例如，颜色、纹理、频率信息)方面表达底层物理关系。

图6图示了视频注解引擎130的具体视图。在一个实施例中，视频注解引擎130包括视频采样模块610、纹理提取模块620和缩略图选择模块630。本领域技术人员将认识到，其它实施例可以具有与这里描述的模块不同的模块并且可以用不同方式在模块之中分布功能。此外，划归各种模块的功能可以由多个引擎执行。

视频采样模块610从视频数据库175中的视频采样视频内容帧。在一个实施例中，视频采样模块610从视频数据库175中的个体视频采样视频内容。采样模块610可以按照固定周期速率(例如每10秒1帧)、依赖于内在因素(例如视频的长度)的速率或者基于外在因素(例如视频的受欢迎度(例如将按照比基于查看次数的更少受欢迎的视频更高的频率对更多受欢迎的视频采样))的速率对视频采样。备选地，视频采样模块610使用场景分割以基于场景边界对帧采样。例如视频采样模块610可以从每帧采样至少一帧以保证采样的帧代表视频的整个内容。在另一备选实施例中，视频采样模块610采样视频的全部场景而不是个体帧。

特征提取模块620使用与上文关于学习引擎140描述的特征提取模块220相同的方法。特征提取模块620生成用于每个采样帧或者场景的特征向量。例如，如上文描述的那样，每个特征向量可以包括10,000个条目，每个条目代表通过向量量化获得的具体特征。

帧注解模块630生成用于视频的每个采样帧的关键词关联性得分。帧注解模块630将已学习特征-关键词模型195应用到用于采样帧的特征向量，以确定用于该帧的关键词关联性得分。例如，帧注解模块630可以使用特征-关键词矩阵来执行矩阵乘法，以将特征向量变换到关键词空间。帧注解模块630因此生成用于每帧的关键词关联性得分向量(“关键词得分向量”)，其中关键词得分向量中的每个关键词关联性得分指定帧与关键词数据集265中的频繁使用关键词集的关键词相关的可能性。帧注解模块630与帧的标记(例如，帧在帧作为其一部分的视频中的偏移)和视频注解索引185中的视频的标记相关联地存储该帧的关键词得分向量。因此，每个采样帧基于根据帧而导出的特征向量来与描述每个关键词与帧之间的关系的关键词向量得分相关联。另外，如上文描述的那样，数据库中的每个视频因此与(可以用于缩略图的)一个或者多个采样帧相关联，并且这些采样帧与关键词相关联。

在备选实施例中，视频注解引擎130生成用于帧集合(例如场景)而不是每个个体采样帧的关键词得分。例如，可以针对视频的具体场景存储关键词得分。对于音频特征，关键词得分可以与跨越具体音频剪辑的帧集合(如例，来自具体个人的话音)相关联地存储。

操作和使用

当用户输入一个或者多个词的搜索查询时，搜索引擎120访问视频注解索引185以找到并且呈现相关视频结果集合(例如通过在索引185中执行查找)。在一个实施例中，搜索引擎120使用视频注解索引185中的用于与所选关键词匹配的输入查询词的关键词得分来找到与搜索查询相关的视频，并且对结果集合中的相关视频排名。视频搜索引擎120也可以提供用于每个搜索结果的指示与搜索查询的感知相关性的相关性得分。除了视频注解索引185中的关键词得分之外或者备选地，搜索引擎120也可以访问包括与视频关联的文本元数据的常规索引以便找到搜索结果、对搜索结果排名和计分。

图7是图示了用于找到并且呈现视频搜索结果的由视频托管系统100执行的主要过程的流程图。前端服务器110从用接收(702)包括一个或者多个查询项的搜索查询。搜索引擎120确定(704)满足关键词搜索查询的结果集合；可以使用任何类型的搜索算法和索引结果来选择这一结果集合。结果集合包括指向一个或者多个视频的链接，该视频具有与查询项相关的内容。

搜索引擎120继而基于关键词得分从结果集合中的每个视频选择(706)代表视频的内容的一帧(或者多个帧)。对于每个搜索结果，前端服务器110呈现(708)所选择的帧作为一个或者多个有代表性的缩略图的集合。

图8和图9图示了可以用来基于关键词得分来选择(906)帧的两个不同实施例。在图8的实施例中，视频搜索引擎120基于与视频数据库175中的视频相关联地被存储的文本元数据来选择代表视频的缩略图。视频搜索引擎120从视频数据库选择(802)视频以用于缩略图选择。视频搜索引擎120继而从与视频数据库175中的视频相关联地被存储的元数据提取(804)关键词。元数据可以例如包括作者或者其他用户所提供视频的视频标题或者文本摘要。视频搜索引擎120继而访问视频注解索引185，并且使用提取的关键词来选择(806)代表视频的一个或者多个有代表性的帧(例如，通过选择针对提取的关键词具有最高排名关键词得分的帧或者帧集)。前端服务器110继而显示(808)所选择的帧作为用于搜索结果中的视频的缩略图。这一实施例有利地保证所选缩略图将实际上代表视频内容。例如考虑标题为“海豚游泳”的视频，该视频包括游泳海豚的一些场景，但是其它场景仅为空旷海洋。视频搜索引擎120将选择实际上描绘海豚的一个或者多个帧而不是任意选择缩略图帧(例如第一帧或者中心帧)。因此，用户更好地能够评价搜索结果与查询的相关性。

图9是图示了用于选择缩略图用于与搜索结果集合中的视频一起呈现的过程的第二实施例的流程图。在这一实施例中，一个或者多个所选缩略图依赖于在用户搜索查询中提供的关键词。首先，搜索引擎120基于用户搜索查询来标识(902)视频搜索结果集合。搜索引擎120从用户的搜索查询提取(904)关键词，以用于在选择用于每个搜索结果的有代表性的缩略图帧时使用。对于结果集合中的每个视频，视频搜索引擎120继而访问视频注解索引185，并且使用提取的关键词来选择(906)视频的一个或者多个有代表性的帧(例如通过选择针对提取的关键词具有最高排名关键词得分的一个或者多个帧)。前端服务器110继而显示(908)所选择的帧作为用于搜索结果中的视频的缩略图。

这一实施例有利地保证视频缩略图实际上与用户的搜索查询有关。例如假设用户录入查询“滑板上的狗”。标题为“玩把戏的动物”的视频包括由滑板上的狗主演的相关场景、但是也包括无狗或者滑板的若干其它场景。图9的方法有利地保证呈现的缩略图代表用户搜寻的场景(即滑板上的狗)。因此，用户可以容易评价搜索结果与关键词查询的相关性。

视频托管系统100的另一特征允许用户使用视频注解索引185来搜寻视频内的具体场景或者事件。例如在长篇动作电影中，用户可能想要使用查询项(例如“车赛”或者“搏斗”)来搜寻搏斗场景或者车赛场景。视频托管系统100继而仅取回与查询相关的一个或者多个具体场景(而不是整个视频)。图10图示了用于找到与关键词查询相关的场景或者事件的过程的一个示例实施例。搜索引擎120从用户接收(1002)搜索查询并且从搜索串标识(1004)关键词。使用关键词，搜索引擎120标识视频注解索引185(例如，通过执行查找功能)以取回针对提取的关键词具有最高关键词得分的多个帧1006(例如，前10个)。搜索引擎继而确定(1008)用于视频内的相关场景的边界。例如，搜索引擎120可以使用场景分割技术以找到包括高度相关帧的场景的边界。备选地，搜索引擎120可以分析周围帧的关键词得分以确定边界。例如，搜索引擎120可以返回这样的视频剪辑，在该视频剪辑中的所有采样帧具有在阈值以上的关键词。搜索引擎120基于关键词得分来选择(1010)用于结果集合中的每个视频的缩略图图像。前端服务器110继而显示(1012)所选缩略图代表的视频的排名集合。

视频托管系统100的另一特征是有能力基于视频注解索引185来选择可以在回放用户所选视频之前、期间或者之后显示的“有关视频”的集合。在这一实施例中，视频托管系统100从标题或者其它元数据与所选视频的回放关联的关键词。视频托管系统100使用提取的关键词来查询视频注解索引185寻找与关键词相关的视频；这标识可能在其实际图像/音频内容方面与用户所选的视频相似而不是仅在其元数据中具有相同关键词的其它视频。视频托管系统100继而如上文描述的那样选择用于有关视频的缩略图并且在用户界面显示的“有关视频”部分中呈现缩略图。这一实施例有利地基于回放视频的内容向用户提供可能令人感兴趣的其它视频。

视频托管系统100的另一特征是有能力基于使用视频注解索引185来找到并且呈现可以在回放所选视频之前、期间或者之后显示的广告。在一个实施例中，视频托管系统100在用户查看视频时实时取回与视频帧关联的关键词(即通过使用当前帧索引在注解索引185中执行查找)。视频托管系统100继而可以使用取回的关键词来查询广告数据库寻找与关键词相关的广告。视频托管系统100继而可以在视频回访时实时显示与当前帧有关的广告。

上文描述的实施例有利地允许媒体宿主提供与用户的搜索查询最相关的视频内容项目和有代表性的缩略图图像。通过学习在文本查询与非文本媒体内容之间的关联性，视频托管系统较仅依赖于文本元数据的系统而言提供改进的搜索结果。

已经关于优先数目的实施例具体描述本发明。本领域技术人员将理解还可以在其它实施例中实现本发明。首先，部件的具体命名、术语的大写、属性、数据结构或者任何其它编程或者结构方面并非必需或者重要的，并且实施本发明或者它的特征的机制可以具有不同名称、格式或者协议。另外可以如描述的那样经由硬件与软件的组合或者完全在硬件单元中实施系统。功能在这里描述的各种系统部件之间的具体划分仅为举例而非必需；单个系统部件执行的功能可以代之以由多个部件执行，而多个部件执行的功能可以代之以由单个部件执行。例如可以在多个或者一个模块中提供媒体宿主服务的具体功能。

上文描述的一些部分在对信息的操作的算法和符号表示呈现本发明的特征。这些算法描述和表示是本领域技术人员用来向本领域其他技术人员最有效传达他们的工作实质的手段。这些操作尽管在功能或者逻辑上加以描述、但是理解为由计算机程序实施。另外也已经证实将这些操作布置称为模块或者代码设备有时是便利的而不失一般性。

然而应当记住所有这些和相似术语将与适当物理数量关联并且仅为应用于这些数量的便利标志。除非如根据本讨论清楚的那样另有具体明示，理解在说明书全文中，利用诸如“处理”或者“计算”或者“运算”或者“确定”或者“显示”等术语的讨论指代计算机系统的动作和过程或者相似电子计算设备，该计算机系统或者电子计算设备操纵并且变换如在计算机系统存储器或者寄存器或者其它这样的信息存储、传输或者显示设备内表示为物理(电子)数量的数据。

本发明的某些特征包括这里以算法的形式描述的过程步骤和指令。所有这样的过程步骤、指令或者算法由计算设备执行，这些计算设备包括某一形式的处理单元(例如微处理器、微控制器、专用逻辑电路等)以及存储器(RAM、ROM等)和例如适合用于接收或者提供数据的输入/输出设备。

本发明也涉及一种用于执行这里的操作的装置。这一装置可以被具体构造用于期望目的，或者它可以包括存储于计算机中的计算机程序有选择地激活或者重新配置的通用计算机，在该情况下，通用计算机在结构和功能上等效于专用于执行这里描述的功能和操作的具体计算机。体现计算机可执行数据(例如程序代码和数据)的计算机程序存储于有形计算机可读存储介质中，该存储介质例如是但不限于任何类型的盘(包括软盘、光盘、CD-ROM、光磁盘)、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或者光学卡、专用集成电路(ASIC)或者适合于持久存储电子编码指令的任何类型的介质。还应当注意这样的计算机程序(它们原本作为通过更改物理介质(例如更改或者变化介质的物理结构和/或性质(例如电气、光学、机械、磁、化学性质))来存储于这样的介质中的数据而存在)本身并非抽象想法或者概念或者表示而代之以是物理过程产生的物理人为产品，这些物理过程将物理介质从一个状态变换成另一状态(例如电荷改变或者磁极性改变)以便在介质中持久存储计算机程序。另外，在说明书中提及的计算机可以包括单个处理器或者可以是如下架构，这些架构运用多个处理器设计以求增加的计算能力。

最后应当注意以在说明书中使用的语言已经主要出于可读性和指导的目的而加以选择并且可能尚未被选择用来界定或者限制发明主题内容。因而本发明的公开内容旨在于举例说明而限制本发明的范围。

Claims

1.一种用于创建可搜索的视频索引的计算机实施的方法，所述方法由计算机系统执行并且包括：

接收已标注训练数据集，所述已标注训练数据集包括媒体项目的集合以及描述所述媒体项目的内容的一个或者多个关键词；

提取表征所述媒体项目的所述内容的特征；

训练机器学习的模型以学习所提取的所述媒体项目的所述特征与描述所述内容的所述关键词之间的相关性；以及

基于视频数据库中的视频的特征以及所述机器学习的模型，生成将所述视频数据库中的所述视频的帧映射到关键词的所述视频索引。

2.根据权利要求1所述的方法，其中所述媒体项目包括图像。

3.根据权利要求1所述的方法，其中所述媒体项目包括音频剪辑。

4.根据权利要求1所述的方法，其中提取表征所述媒体项目的所述内容的所述特征包括：

将每个图像分割成多个分片；

生成用于每个所述分片的特征向量；以及

应用聚类算法以确定所述已标注训练数据中的多个最有代表性的特征向量。

5.根据权利要求4所述的方法，其中所述分片至少部分地重叠。

6.根据权利要求4所述的方法，还包括：

确定所述已标注训练数据集中的多个最常被找到的关键词。

7.根据权利要求6所述的方法，还包括：

存储最有代表性的关键词与最常被找到的特征向量之间的关联性。

8.根据权利要求6所述的方法，其中存储最常被找到关键词与最常被找到的特征向量之间的关联性包括：

生成关联函数的集合，每个关联函数代表所述最有代表性的特征向量之一与所述最常被找到的关键词之一之间的关联强度。

9.根据权利要求7所述的方法，其中存储最常被找到的关键词与最常被找到的特征向量之间的关联性包括：

生成特征-关键词矩阵，其中所述特征-关键词矩阵的第一维度中的条目每一个对应于所述最有代表性的特征向量中不同的一个，并且其中所述特征-关键词矩阵的第二维度中的条目每个对应于所述最常被找到的关键词中不同的一个。

10.根据权利要求9所述的方法，其中生成所述特征-关键词矩阵包括：

通过利用初始权重填充所述条目来初始化所述特征-关键词矩阵；

选择与第一关键词相关联的正训练媒体项目以及与第二关键词不相关联的负训练媒体项目；

提取用于所述正训练媒体项目和负训练媒体项目的特征以获得正特征向量和负特征向量；

使用所述特征-关键词矩阵向所述正特征向量应用变换以获得用于所述正训练媒体项目的第一关键词得分；

使用所述特征-关键词矩阵向所述负特征向量应用变换以获得用于所述负训练媒体项目的第二关键词得分；

确定用于所述正媒体训练项目的所述关键词得分是否比用于所述负训练媒体项目的所述关键词得分至少高出阈值；以及

响应于用于所述正媒体训练项目的所述关键词得分没有比用于所述负训练媒体项目的所述关键词得分至少高出阈值，调节所述特征-关键词矩阵中的所述权重。

11.根据权利要求1所述的方法，其中生成所述视频索引包括：

对所述视频数据库中的视频的帧进行采样；

计算代表所述第一采样帧的内容的所述视频的第一采样帧的第一特征向量；

将所述机器学习的模型应用于所述第一特征向量以生成所述第一采样帧与选择的关键词之间的关键词关联性得分；以及

将所述关键词关联性得分与所述第一采样帧相关联地存储在所述视频索引中。

12.根据权利要求1所述的方法，其中生成所述视频索引包括：

对所述视频数据库中的视频的场景进行采样；

计算代表所述第一采样场景的内容的所述视频的第一采样场景的第一特征向量；

将所述机器学习的模型应用于所述第一特征向量以生成所述第一采样场景与选择的关键词之间的关键词关联性得分；以及

将所述关键词关联性得分与所述第一采样场景相关联地存储在所述视频索引中。

13.一种用于呈现视频搜索结果的计算机实施的方法，所述方法由计算机系统执行并且包括：

接收视频；

使用视频注解索引从所述视频选择帧作为所述视频的内容的代表，所述视频注解索引存储多个视频的帧同与所述多个视频的所述帧相关联的关键词之间的关键词关联性得分；以及

提供选择的帧作为所述视频的缩略图。

14.根据权利要求13所述的方法，其中从所述视频选择所述帧作为所述视频的内容的代表包括：

选择代表期望视频内容的关键词；

访问所述视频注解索引以确定所述视频的帧与选择的关键词之间的关键词关联性得分；以及

根据所述视频注解索引来选择具有与所述选择的关键词的最高排名关键词关联性得分的帧。

15.根据权利要求14所述的方法，其中选择代表所述期望视频内容的所述关键词包括使用所述视频的标题作为所述选择的关键词。

16.根据权利要求14所述的方法，其中选择代表所述期望视频内容的所述关键词包括使用所述关键词查询作为所述选择的关键词。

17.根据权利要求13所述的方法，其中接收所述视频包括：

从所述用户接收关键词查询；以及

从视频数据库选择具有与所述关键词查询相关的内容的视频。

18.根据权利要求18所述的方法，其中选择具有与所述关键词查询相关的内容的所述视频包括：

确定具有与来自所述关键词查询的关键词的高关键词关联性得分的视频帧；

确定与所述关键词查询相关的场景的场景边界，视频的所述场景包括具有所述高关键词关联性得分的所述帧；以及

选择所述场景作为所述选择的视频。

19.根据权利要求18所述的方法，还包括：

基于所得集合中的视频的帧与所述关键词查询中的关键词之间的所述关键词关联性得分，在所述所得集合中的多个视频之中对所述选择的视频进行排名。

20.根据权利要求18所述的方法，还包括：

基于所述视频的帧与所述关键词查询中的关键词之间的所述关键词关联性得分，呈现所述选择的视频的相关性得分。

21.一种计算机可读存储介质，存储用于创建可搜索视频索引的计算机可执行代码，所述计算机可执行程序代码在执行时使应用执行以下步骤：

提取表征所述媒体项目的所述内容的特征；

22.根据权利要求21所述的计算机可读存储介质，其中所述媒体项目包括图像。

23.根据权利要求21所述的计算机可读存储介质，其中所述媒体项目包括音频剪辑。

24.根据权利要求21所述的计算机可读存储介质，其中提取表征所述媒体项目的所述内容的所述特征包括：

将每个图像分割成多个分片；

生成用于每个所述分片的特征向量；以及

25.根据权利要求24所述的计算机可读存储介质，其中所述分片至少部分地重叠。

26.根据权利要求24所述的计算机可读存储介质，还包括：

确定所述已标注训练数据集中的多个最常被找到的关键词。

27.根据权利要求26所述的计算机可读存储介质，还包括：

存储最常被找到的关键词与最常被找到的特征向量之间的关联性。

28.根据权利要求26所述的计算机可读存储介质，其中存储最常被找到关键词与最常被找到的特征向量之间的关联性包括：

29.根据权利要求27所述的计算机可读存储介质，其中存储最常被找到的关键词与最有代表性的特征向量之间的关联性包括：

30.根据权利要求29所述的计算机可读存储介质，其中生成所述特征-关键词矩阵包括：

31.根据权利要求21所述的计算机可读存储介质，其中生成所述视频索引包括：

对所述视频数据库中的视频的帧进行采样；

32.根据权利要求21所述的计算机可读存储介质，其中生成所述视频索引包括：

对所述视频数据库中的视频的场景进行采样；

33.一种计算机可读存储介质，存储用于呈现视频索引结果的计算机可执行代码，所述计算机可执行程序代码在执行时使应用执行以下步骤：

接收视频；

提供选择的帧作为所述视频的缩略图。

34.根据权利要求33所述的计算机可读存储介质，其中从所述视频选择所述帧作为所述视频的内容的代表包括：

选择代表期望视频内容的关键词；

35.根据权利要求34所述的计算机可读存储介质，其中选择代表所述期望视频内容的所述关键词包括使用所述视频的标题作为所述选择的关键词。

36.根据权利要求34所述的计算机可读存储介质，其中选择代表所述期望视频内容的所述关键词包括使用所述关键词查询作为所述选择的关键词。

37.根据权利要求33所述的计算机可读存储介质，其中接收所述视频包括：

从所述用户接收关键词查询；以及

38.根据权利要求37所述的计算机可读存储介质，其中选择具有与所述关键词查询相关的内容的所述视频包括：

选择所述场景作为所述选择的视频。

39.根据权利要求37所述的计算机可读存储介质，还包括：

40.根据权利要求37所述的计算机可读存储介质，还包括：

41.一种视频托管系统，用于找到并且呈现与关键词查询相关的视频，所述系统包括：

前端服务器，配置用于从用户接收关键词查询并且呈现结果集合，所述结果集合包括具有与所述关键词查询相关的内容的视频以及代表所述视频的所述内容的缩略图图像；

视频注解索引，包括关键词与视频的帧之间的映射，所述映射根据机器学习的模型而被导出；以及

视频搜索引擎，配置用于访问所述视频注解索引，以确定具有与所述关键词相关的内容的所述视频，以及确定代表所述视频的所述内容的所述缩略图图像。

42.根据权利要求41所述的系统，还包括：

视频数据库，存储所述视频搜索引擎可搜索的视频，其中在所述视频注解索引中对所述存储的视频的帧编索引，以将所述帧映射到描述其内容的关键词。

43.根据权利要求41所述的系统，还包括：

视频注解引擎，配置用于使用通过机器学习获得的已学习特征-关键词模型来确定视频数据库中的视频的帧与描述其内容的关键词之间的映射。

44.根据权利要求43所述的系统，其中所述视频注解引擎包括：

视频采样模块，配置用于对来自视频数据库的视频的帧进行采样；

特征提取模块，配置用于生成代表每个采样视频帧的特征向量；以及

帧注解模块，配置用于将所述已学习特征-关键词模型应用于所述特征向量，以确定用于每个所述采样视频帧的关键词得分，所述关键词得分与相关的采样帧相关联地被编索引到所述视频注解索引中。

45.根据权利要求41所述的系统，还包括：

学习引擎，配置用于学习特征-关键词模型，所述特征-关键词模型将已标注训练数据集中的图像或者音频剪辑的特征映射到描述其内容的关键词。

46.根据权利要求44所述的系统，其中所述学习引擎包括：

特征提取模块，配置用于生成特征数据集，所述特征数据集包括用于所述已标注训练数据集的多个最有代表性的特征向量；

关键词学习模块，配置用于生成关键词数据集，所述关键词数据集包括所述已标注训练数据集中的多个最常出现关键词；以及

关联性学习模块，适于生成所述关键词-特征模型，所述关键词-特征模型映射特征数据集中的所述特征向量与所述关键词数据集中的所述关键词之间的关联性。

47.根据权利要求46所述的系统，其中所述学习引擎还包括：

点通模块，配置用于通过跟踪媒体搜索网站上的用户搜索查询来自动获取用于所述已标注训练数据的标签，以及通过观察用户选择的搜索结果和所述用户未选择的搜索结果来学习用于媒体项目的标签。

48.一种用于呈现广告的方法，所述方法由计算机执行并且包括：

使用基于web的视频播放器来播放选择的视频；

在回放所述选择的视频期间监视视频的当前帧；

使用视频的所述当前帧来访问视频注解索引以确定与所述当前帧关联的一个或者多个关键词；

使用所述一个或者多个关键词来访问广告数据库以选择与所述一个或者多个关键词关联的广告；以及

在回放所述当前帧期间提供所述广告用于播放。

49.根据权利要求48所述的方法，其中所述视频注解索引根据机器学习的模型将视频帧映射到一个或者多个关键词。

50.一种用于呈现相关视频的集合的方法，所述方法由计算机执行并且包括：

使用基于web的视频播放器来播放选择的视频；

提取与所述选择的视频相关联的元数据，所述元数据包括描述所述选择的视频的一个或者多个关键词；

使用所述一个或者多个关键词来访问视频注解索引以确定一个或者多个相关视频；以及

提供所述一个或者多个相关视频以用于显示，每个相关视频由代表其内容的缩略图图像表示。

51.根据权利要求50所述的方法，其中所述视频注解索引根据机器学习的模型将关键词映射到视频数据库中的视频。