CN107960125A

CN107960125A - 选择视频的代表性视频帧

Info

Publication number: CN107960125A
Application number: CN201680025199.0A
Authority: CN
Inventors: 乔纳森·欣斯; 乔治·丹·托代里奇; 萨米·阿布-艾尔-海贾
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-06-24
Filing date: 2016-06-24
Publication date: 2018-04-24
Also published as: WO2016210268A1; JP6892389B2; US20160378863A1; JP2018517959A; KR20180011221A; EP3314466A1

Abstract

一种用于选择视频的代表性帧方法、系统和装置，包括在计算机存储介质上编码的计算机程序。所述方法中的一个包括：接收搜索查询；确定搜索查询的查询表示；获取识别搜索查询的多个响应视频的数据，其中，每个响应视频包括多个帧，其中，每个帧具有相应的帧表示；对于每个响应视频，使用查询表示和响应视频中的帧的帧表示从响应视频中选择代表性帧；以及生成对搜索查询的响应，其中，对搜索查询的响应包括对响应视频中的每个的相应视频搜索结果，以及其中，响应视频中的每个的相应视频搜索结果包括来自响应视频中的代表性视频帧的呈现。

Description

选择视频的代表性视频帧

技术领域

本说明书涉及互联网视频搜索引擎。

背景技术

互联网搜索引擎旨在识别与用户的信息需求相关的互联网资源，特别是视频，并且旨在以对用户最有用的方式呈现关于视频的信息。响应于用户提交的查询，互联网视频搜索引擎通常返回视频搜索结果集合，每个视频搜索结果识别相应的视频。

发明内容

通常，本说明书中所述主题的一个创新方面能够通过包括以下动作的方法来体现：接收搜索查询，其中，所述搜索查询包括一个或多个查询词项；确定所述搜索查询的查询表示，其中，所述查询表示是高维空间中的数字的矢量；获取识别所述搜索查询的多个响应视频的数据，其中，每个响应视频包括多个帧，其中，每个帧具有相应的帧表示，以及其中，每个帧表示是高维空间中的数字的矢量；对于每个响应视频，使用所述查询表示和所述响应视频中的帧的帧表示从所述响应视频中选择代表性帧；以及生成对搜索查询的响应，其中，对搜索查询的响应包括所述响应视频中的每个的相应视频搜索结果，以及其中，所述响应视频中的每个的相应视频搜索结果包括来自该相应视频的代表性视频帧的呈现。

所述响应视频中的每个的相应视频搜索结果可以包括用于从所述响应视频的代表性帧开始回放所述响应视频的链接。对于每个响应视频，使用所述查询表示和所述响应视频中的帧的帧表示从所述响应视频中选择代表性帧可以包括：计算所述查询表示与所述响应视频帧中的帧的帧表示中的每个之间的相应距离度量。

对于每个响应视频，使用所述查询表示和所述响应视频中的帧的帧表示从所述响应视频中选择代表性帧可以进一步包括：根据所述距离度量，选择具有最接近所述查询表示的帧表示的帧作为所述代表性帧。

对于每个响应视频，使用所述查询表示和所述响应视频中的帧的帧表示从所述响应视频中选择代表性帧可以进一步包括：从所述距离度量中生成所述帧中的每个的相应概率；确定所述帧中的任何一个的最高概率是否超过阈值；当所述最高概率超过所述阈值时，选择具有所述最高概率的帧作为所述代表性帧。

对于每个响应视频，使用所述查询表示和所述响应视频中的帧的帧表示从所述响应视频中选择代表性帧可以进一步包括：当所述最高概率不超过所述阈值时，选择默认帧作为所述代表性帧。

确定所述搜索查询的查询表示可以包括：确定所述搜索查询中的一个或多个词项中的每个的相应词项表示，其中，所述词项表示是词项在高维空间中的表示；以及从所述一个或多个词项表示中确定所述查询表示。

所述方法可以进一步包括：对于所述响应视频中的每个，确定所述响应视频中的所述多个帧中的每个的相应帧表示。确定所述响应视频中的所述多个帧中的每个的相应帧表示可以包括：保存将预定标签集合中的每个标签映射到相应标签表示的数据。每个标签表示可以是高维空间中的数字的矢量。所述帧可以使用深卷积神经网络来处理，以生成所述帧的标签分数集合，其中，所述标签分数集合包括所述预定标签集合中的每个标签的相应分数，以及其中，所述标签中的每个的相应分数表示所述帧包含由所述标签标记的对象类别中的对象的图像的似然率。可以根据所述帧的标签分数集合和所述标签表示来计算所述帧的帧表示。

根据所述帧的标签分数集合和所述标签表示来计算所述帧的帧表示可以包括：对于所述标签中的每个，通过将所述标签的标签分数乘以所述标签的标签表示，计算所述标签的加权表示；以及通过计算所述加权表示之和，计算所述帧的帧表示。

确定所述响应视频中的所述多个帧中的每个的相应帧表示可以包括：使用修改的图像分类神经网络来处理所述帧以生成所述帧的帧表示。所述修改的图像分类神经网络可以包括：初始图像分类神经网络，其被配置成处理所述帧以生成预定标签集合中的每个标签的相应标签分数；以及嵌入层，其被配置成接收所述标签分数并且生成所述帧的帧表示。

可以已经在训练三元组的集合上训练所述修改的图像分类卷积神经网络，每个训练三元组包括来自相应训练视频的相应训练帧、肯定查询表示和否定查询表示。

所述肯定查询表示可以是与所述训练视频相关联的搜索查询的查询表示，并且所述否定查询表示是不与所述训练视频相关联的搜索查询的查询表示。

该方面的其他实施例包括对应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序，每个计算机存储设备都被配置成执行所述方法的动作。一个或多个计算机的系统能够被配置成借助具有在操作中使得所述系统执行所述动作的安装于所述系统上的软件、固件、硬件或其组合而执行特定的操作或动作。一个或多个计算机程序能够被配置成借助包括当由数据处理装置执行时使得所述装置执行所述动作的指令而执行特定的操作或动作。

本说明书中所述的主题的特定实施例能够被实施以便实现以下优点中的一个或多个。通过从已由视频搜索引擎分类为响应于所接收的搜索查询的视频中选择代表性帧，提供更有效的视频搜索引擎。特别地，因为以取决于所接收的搜索查询的方式来选择所述代表性视频帧，通过在识别响应视频的搜索结果中包括所述代表性帧，能够有效地向用户指示给定的响应视频的相关性，由此允许用户更快地定位最相关的搜索结果。此外，通过在搜索结果中包括当被选择时发起从所述代表性帧开始回放所述响应视频的链接，用户能够容易地导航到所述响应视频的最相关部分。

在附图以及下面的描述中阐明本说明书的主题的一个或多个实施例的细节。参阅说明书、附图和权利要求，所述主题的其他特征、方面和优势将显而易见。

附图说明

图1示出示例视频搜索系统。

图2是用于生成对接收的搜索查询的响应的示例过程的流程图。

图3是用于确定视频帧的帧表示的示例过程的流程图。

图4是用于使用修改的图像分类系统来确定视频帧的帧表示的示例过程的流程图。

图5是用于训练修改的图像分类系统的示例过程的流程图。

在各图中相似的附图标号和标记指示相似的元素。

具体实施方式

本说明书大体上描述一种视频搜索系统，其生成包括视频搜索结果的对搜索查询的响应。特别地，响应于搜索查询，系统从响应视频集合的每个响应视频中选择代表性视频帧并且生成包括视频搜索结果的对搜索查询的响应，所述视频搜索结果每一个识别相应的响应视频并且包括响应式视频中的代表性视频帧的表示。

图1示出示例视频搜索系统114。视频搜索系统114是作为一个或多个位置中的一个或多个计算机上的计算机程序实现的信息检索系统的示例，其中实现下述系统、组件和技术。

用户102能够通过用户设备104与视频搜索系统114相交互。用户设备104将大体上包括用于存储指令和数据的存储器，例如随机存取存储器(RAM)106，以及用于执行所存储的指令的处理器108。存储器能够包括只读存储器以及可写存储器。例如，用户设备104能够是通过数据通信网络112耦合到视频搜索系统114的计算机，例如，智能电话或者其他移动设备，所述数据通信网络例如局域网(LAN)或广域网(WAN)，例如互联网，或者网络的组合，其中任何一个可以包括无线链路。

在一些实施方式中，视频搜索系统114向用户设备104提供用户界面，用户102能够通过该用户设备与视频搜索系统114相交互。例如，视频搜索系统114能够在安装在例如移动设备的用户设备104上的应用中以由在用户设备104上运行的web浏览器渲染的web页面的形式或以其他方式提供用户界面。

用户102能够使用用户设备104向视频搜索系统114提交查询110。视频搜索系统114内的视频搜索引擎130执行搜索以识别对于查询110的响应视频，即，视频搜索引擎130已分类为匹配查询110的视频。

当用户102提交查询110时，查询110可以通过网络112而被发送到视频搜索系统124。视频搜索系统114包括对视频编索引的索引122和视频搜索引擎130。视频搜索系统114通过生成视频搜索结果128对搜索查询110作出响应，所述视频搜索结果通过网络112而被发送到用户设备104以便呈现给用户102，例如，作为搜索结果web页面由用户设备104上运行的web浏览器显示。

当由视频搜索引擎130接收到查询110时，视频搜索引擎130从索引122中索引的视频中识别对于查询110的响应视频。搜索引擎130大体上会包括排名引擎152或者其他软件，其生成满足查询110的视频分数并且根据其相应的分数来排名视频。

视频搜索系统114包括代表性帧系统150或能够与代表性帧系统150进行通信。在视频搜索引擎130已选择对于查询110的响应视频之后，代表性帧系统150从响应视频中的每个中选择代表性视频帧。视频搜索系统114然后生成对查询110的响应，其包括视频搜索结果。

视频搜索结果中的每个识别响应视频中的相应一个并且包括由代表性帧系统150为响应视频选择的代表性帧的呈现。代表性帧的呈现可以例如是代表性帧的缩略图或者包括来自代表性帧的内容的另一个图像。每个视频搜索结果通常还包括当由用户选择时发起回放由视频搜索结果识别的视频的链接。在一些实施方式中，链接发起从响应视频中的代表性帧开始回放，即，代表性帧是用于回放视频的起始点而非视频中的第一帧。

代表性帧系统150使用存储在词项表示库152中的词项表示和存储在帧表示库154中的帧表示从给定的响应视频中选择代表性帧。

词项表示库152存储将词项的预定词汇表中的每个词项与词项的词项表示相关联的数据。词项表示是高维空间中的数值矢量，即，给定词项的词项表示给出该词项在高维空间中的位置。例如，数值能够是浮点值或者浮点值的量化表示。

通常，生成关联使得词项的相对位置反映词项之间的语义相似度和语法相似度。也就是说，词项在高维空间中的相对位置反映词项之间的语法相似度和语义相似度，语法相似度例如借助于它们在空间中的相对位置示出与词“he”相似的词可以包括词“they”、“me”、“you”等，语义相似度例如借助于它们在空间中的相对位置示出词“queen”与“king”和“prince”相似。另外，在空间中的相对位置可以示出词“king”与词“queen”相似和词“prince”与“princess”相似是在同一意义上，此外，正如词“queen”与词“princess”相似，词“king”与词“prince”相似。

此外，能够对这些位置执行操作以识别与其他词项具有所需关系的词项。特别地，能够使用对位置执行的矢量减法和矢量加法运算以确定词项之间的关系。例如，为了识别与词项A具有与词项B与词项C具有的关系相似的关系的词项X，可以对表示词项A、B和C的矢量执行以下操作：矢量(B)-矢量(C)+矢量(A)。例如，操作矢量(“Man”)-矢量(“Woman”)+矢量(“Queen”)可以得出接近词“King”的矢量表示的矢量。

能够通过训练配置成处理词项的词汇表中的每个词项以获取词汇表中每个词项在高维空间中的相应数字表示并且将词汇表中的每个词项与词项在高维空间中的相应数字表示相关联的机器学习系统，来生成词项与具有这些特性的高维矢量表示的关联。在美国亚利桑那州的斯科茨代尔于2013年召开的学习表示国际会议(ICLR)中，Tomas Mikolov、Kai Chen、Greg S.Corrado和Jeffrey Dean所著的Efficient estimation of wordrepresentations in vector space(词表示在矢量空间中的有效估计)中描述了用于训练这样的系统和生成关联的示例技术。

帧表示库154存储将索引122中索引的视频中的视频帧与帧的帧表示相关联的数据。正如词项表示，帧表示是高维空间中的数值矢量。下面参照图3和图4描述生成视频帧的帧表示。下面参照图2描述使用词项表示和帧表示来响应于接收到的查询而选择视频的代表性帧。

图2是用于生成对接收到的搜索查询的响应的示例过程200的流程图。方便起见，过程200将被描述为由位于一个或多个地点的一个或多个计算机的系统来执行。例如，适当编程的视频搜索系统，例如，图1的视频搜索系统100，能够执行过程200。

系统接收搜索查询(步骤202)。搜索查询包括一个或多个查询词项。

系统生成搜索查询的查询表示(步骤204)。查询表示是高维空间中的数值矢量。特别地，为了生成查询表示，系统从存储在例如图1的词项表示库152的词项表示库中的数据确定接收到的搜索查询中的每个查询词项的相应词项表示。如上所述，对于词项词汇表中的每个词项，词项表示库存储将词项与该词项的词项表示相关联的数据。系统然后将查询词项的词项表示组合以生成查询表示。例如，查询表示能够是搜索查询中的词项的词项表示的集中趋势的平均值或者其他度量。

系统获取识别搜索查询的响应视频的数据(步骤206)。响应视频是已由例如图1的视频搜索引擎130的视频搜索引擎分类为响应于搜索查询、即分类为匹配或者满足搜索查询的视频。

系统从响应视频中的每个中选择代表性帧(步骤208)。系统使用存储在例如图1的帧表示库154的帧表示库中的响应视频中的帧的帧表示，从给定的响应视频中选择代表性帧。

特别地，为了从响应视频中选择代表性帧，系统计算查询表示与响应视频中的帧的帧表示中的每个之间的相应距离度量。例如，距离度量能够是余弦相似度值、欧几里得距离、汉明(Hamming)距离等。类似地，系统还能够使表示正规化，然后计算正规化的表示之间的距离度量。

在一些实施方式中，根据距离度量，系统从具有最接近查询表示的帧表示的响应视频中选择帧作为代表性帧。

可选地，在这些实施方式中，系统能够验证最接近的帧表示是否足够接近查询表示。也就是说，如果根据距离度量较大的距离值表示较接近的表示，则当最大的距离度量超过阈值时，系统确定最接近的帧表示足够接近。如果根据距离度量较小的距离值表示较接近的表示，则当最小的距离度量低于阈值时，系统确定最接近的帧表示足够接近。

如果最接近的帧表示足够接近查询表示，则系统选择具有最接近的帧表示的帧作为代表性帧。如果最接近的帧表示不够接近，则系统选择预定的默认帧作为代表性帧。例如，默认帧可以是响应视频中预定位置处的帧，例如，响应视频中的第一帧或者已使用不同技术分类为响应视频的代表性帧的帧。

在一些其他实施方式中，为了确定最接近的帧表示是否足够接近查询表示，系统使用分数校准模型将距离度量映射到概率。分数校准模型可以例如是保序回归模型、逻辑回归模型或者其他分数校准模型，所述模型已被训练以接收距离度量的分布以及可选地接收对应于距离度量的帧的特征，并且将每个距离度量映射到相应的概率。给定帧的概率表示帧相对于接收到的查询准确地表示视频的似然率。例如，可以基于包括视频帧的距离度量分布、以及对于每个距离度量分布包括指示在响应评定者的搜索查询而被选择时评定者是否指示具有最接近的距离度量的帧准确地表示视频的标签的训练数据来训练分数校准模型。

在这些实施方式中，系统确定最高概率即具有最接近的帧表示的帧的概率是否超过阈值概率。当最高概率超过阈值概率时，系统选择具有最高概率的帧作为代表性帧。当概率不超过阈值时，系统选择预定的默认帧作为代表性帧。

系统生成对搜索查询的响应(步骤210)。响应包括每个识别相应的响应视频的视频搜索结果。在一些实施方式中，每个视频搜索结果包括来自由视频搜索结果识别的视频的代表性帧的呈现。在一些实施方式中，每个视频搜索结果包括当由用户选择时发起从代表性帧开始回放视频的链接。也就是说，给定视频的代表性帧用作回放视频的替选起始点。

图3是用于生成视频帧的帧表示的示例过程300的流程图。方便起见，过程300将被描述为由位于一个或多个地点的一个或多个计算机的系统来执行。例如，适当编程的视频搜索系统，例如，图1的视频搜索系统100，能够执行过程300。

系统保存将预定标签集合中的每个标签映射到标签的相应标签表示的数据(步骤302)。每个标签是表示相应的对象类别的词项。例如，词项“horse(马)”可以是马类别的标签，或者词项“nine(九)”可以是包括数字9的图像的类别的标签。

给定标签的标签表示是高维空间中的数值矢量。例如，标签的标签表示能够是存储在词项表示库中的标签的词项表示。

所述系统使用图像分类神经网络来处理帧以生成该帧的标签分数集合(步骤304)。帧的标签分数集合包括标签集合中的标签中的每个的相应分数，并且给定标签的分数表示帧包括属于由该标签表示的对象类别的对象的图像的似然率。例如，如果标签集合包括表示对象类别马的标签“horse”，则“horse”标签的分数表示帧包含马的图像的似然率。

在一些实施方式中，图像分类神经网络是已被训练成通过处理输入图像以生成图像的标签分数集合来分类输入图像的深卷积神经网络。在NIPS，2012年度第1106-1114页，Alex Krizhevsky、Ilya Sutskever和Geoffrey E.Hinton所著的Imagenetclassification with deep convolutional neural networks(具有深卷积神经网络的ImageNet分类)中，描述了作为深卷积神经网络的示例初始图像分类神经网络。

系统根据标签的标签分数和标签表示来确定帧的帧表示(步骤306)。特别地，对于标签中的每个，系统通过将标签的标签分数乘以标签的标签表示，计算标签的加权表示。系统然后通过计算加权表示之和，计算帧的帧表示。

一旦系统已确定帧的帧表示，系统便能够将帧表示存储在帧表示库中，以便使用于响应于接收到的搜索查询而选择代表性帧。

在一些实施方式中，系统通过使用包括初始图像分类神经网络和嵌入层的修改的图像分类神经网络来处理帧而生成帧表示。初始图像分类神经网络能够是上述图像分类神经网络，其通过处理输入视频帧以生成输入视频帧的标签分数来分类输入视频帧。嵌入层是配置成接收输入视频帧的标签分数并且处理标签分数以生成输入视频帧的帧表示的神经网络层。

图4是用于使用修改的图像分类神经网络来生成视频帧的帧表示的示例过程400的流程图。方便起见，过程400将被描述为由位于一个或多个地点的一个或多个计算机的系统来执行。例如，适当编程的视频搜索系统，例如，图1的视频搜索系统100，能够执行过程400。

系统使用初始图像分类神经网络来处理帧以生成该帧的标签分数集合(步骤402)。

系统使用嵌入层来处理帧的标签分数以生成帧的帧表示(步骤404)。特别地，在一些实施方式中，嵌入层被配置成接收帧的标签分数，以对于标签中的每个，通过将标签的标签分数乘以标签的标签表示，计算标签的加权表示，并且通过计算加权表示之和，计算帧的帧表示。在一些其他实施方式中，嵌入层被配置成通过根据嵌入层的参数集的当前值来转换标签分数，处理帧的标签分数以生成帧表示。

能够执行过程400，以为未知其所需帧表示的帧，即未知系统应为其生成的帧表示的帧来预测帧表示。还能够执行过程400，以从训练数据集即已知应由系统为其预测的输出的输入帧的集合生成输入帧的帧表示，以训练修改的图像分类神经网络，即，确定初始图像分类神经网络的参数的训练值，并且如果嵌入层具有参数，则从参数的初始值或者参数的预训练值确定嵌入层的参数的训练值。

例如，能够对从训练数据集中选择的输入帧重复执行过程400，作为训练技术的一部分，其通过使用常规的反向传播训练技术来最小化损失函数，确定初始图像分类神经网络的参数的训练值。

图5是用于训练修改的图像分类神经网络的示例过程500的流程图。方便起见，过程500将被描述为由位于一个或多个地点的一个或多个计算机的系统来执行。例如，适当编程的视频搜索系统，例如，图1的视频搜索系统100，能够执行过程500。

系统获取训练视频集合(步骤502)。

对于每个训练视频，系统获取与该训练视频相关联的搜索查询(步骤504)。与给定训练视频相关联的搜索查询是用户已提交给视频搜索引擎并且导致用户选择识别训练视频的搜索结果的搜索查询。

例如，如上参照图2所述，对于每个训练视频，系统计算与训练视频相关联的查询的查询表示(步骤506)。

系统生成用于训练修改的图像分类神经网络的训练三元组(步骤508)。每个训练三元组包括来自训练视频的视频帧、肯定查询表示和否定查询表示。肯定查询表示是与训练视频相关联的查询的查询表示，并且否定查询表示是与训练视频不关联但与不同的训练视频相关联的查询的查询表示。

在一些实施方式中，系统从与训练视频相关联的查询的表示中随机选择训练三元组的肯定查询表示，或者对于与训练视频相关联的每个查询，生成针对给定帧的相应训练三元组。

在一些其他实施方式中，对于给定帧，系统选择与从训练视频相关联的查询的表示当中最接近该帧的帧表示的查询表示，作为包括该帧的训练三元组的肯定查询表示。也就是说，系统能够通过使用修改的图像分类神经网络根据网络的参数的当前值来处理帧以生成帧表示，然后使用所生成的帧表示来选择训练三元组的肯定查询表示，在训练网络期间生成训练三元组。

系统基于训练三元组来训练修改的图像分类神经网络(步骤510)。特别地，对于每个训练三元组，系统使用修改的图像分类神经网络根据网络的参数的当前值来处理训练三元组中的帧，以生成帧的帧表示。系统然后计算取决于肯定距离即帧表示与肯定查询表示之间的距离和否定距离即帧表示与否定查询表示之间的距离的损失函数的梯度。系统能够然后通过神经网络的层反向传播计算出的梯度，以使用常规的机器学习训练技术来调节神经网络的参数的当前值。

本说明书中所述的主题的实施例以及功能性操作能够在数字电路中、有形体现的计算机软件或固件中、计算机硬件中、或者其中一个或多个的组合中来实现，包括本说明书中公开的结构以及其结构等同物。本说明书中公开的主题的实施例能够被实现为一个或多个计算机程序，即在有形的非瞬态程序载体上编码的计算机程序指令的一个或多个模块，用于由数据处理装置来执行或者控制其操作。替选地或附加地，程序指令能够被编码于人工生成的传播信号上，例如机器生成的电、光学或者电磁信号，该信号被生成以编码用于传输至适当的接收器装置以便由数据处理设备来执行的信息。计算机存储介质能够是机器可读的存储设备、机器可读的存储基底、随机或串行存取存储器设备、或者其中一个或多个的组合。

术语“数据处理装置”包含所有种类的用于处理数据的装置、设备以及机器，例如包括可编程处理器、计算机或者多个处理器或计算机。装置能够包括专用逻辑电路，例如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。装置除硬件之外还能够包括为考虑中的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或者其中一个或多个的组合的代码。

计算机程序(其也可以称为或者描述为程序、软件、软件应用、模块、软件模块、脚本或者代码)能够以任何形式的编程语言来编写，包括编译或解释语言或者声明性或过程式语言，并且其能够以任何形式来部署，包括部署为独立程序或者模块、组件、子例程或者适于在计算环境中使用的其他单元。计算机程序可以但不必对应于文件系统中的文件。程序能够被存储于保存例如存储成标记语言文档的一个或多个脚本的其他程序或者数据的文件的一部分中、专用于考虑中的程序的单个文件中、或者多个协作文件中，例如存储一个或多个模块、子程序或者代码的多个部分。计算机程序能够被部署成在一个计算机上或者在位于一个地点或者分布于多个地点并且通过通信网络而互联的多个计算机上来执行。

本说明书中所述的过程以及逻辑流程能够由执行一个或多个计算机程序以通过对输入数据进行操作并且生成输出来执行功能的可编程计算机来执行。所述过程以及逻辑流程也能够通过专用逻辑电路来执行，并且装置也能够被实现为专用逻辑电路，例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。

适于执行计算机程序的计算机包括例如能够基于通用或专用的微处理器或者二者，或者任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或者二者接收指令和数据。计算机的关键元素是用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还会包括或者操作地耦合至用于存储数据的一个或多个大容量存储设备以从其接收数据或向其传送数据或者两者，大容量存储设备例如磁盘、磁光盘或者光盘。然而，计算机不必具有这样的设备。此外，计算机能够被体现成其他设备，例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、或者便携式存储设备，例如通用串行总线(USB)闪存驱动器，仅此举出几例。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失存储器、介质和存储设备，例如包括例如EPROM、EEPROM和闪存设备的半导体存储设备；例如内置硬盘或可移动磁盘的磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器能够增加或结合专用逻辑电路。

为提供与用户的交互，本说明书中所述的主题的实施例能够在计算机上来实现，该计算机具有用于将信息显示给用户的显示设备，例如CRT(阴极射线管)或者LCD(液晶显示器)监视器，以及用户能够借以向计算机提供输入的键盘和定点设备，例如鼠标或跟踪球。其他种类的设备也能够被使用于提供与用户的交互；例如，提供给用户的反馈能够是任何类型的感觉反馈，例如，视觉反馈、听觉反馈或者触觉反馈；并且来自用户的输入能够以任何形式来接收，包括声音、语音或者触觉输入。此外，计算机能够通过将文档发送至由用户所使用的设备并且从由用户所使用的设备接收文档，例如通过响应于从web浏览器所接收的请求而将web页面发送至用户的客户端设备上的web浏览器，来与用户交互。

本说明书中所述主题的实施例能够在包括后端组件(例如作为数据服务器)、包括中间件组件(例如应用服务器)、包括的前端组件(例如，具有用户能够借以与本说明书中所述主题的实施方式交互的图形用户界面或者web浏览器的客户端计算机)或者一个或多个这样的后端、中间件或前端组件的任意组合的计算系统中来实现。系统的组件能够通过数字数据通信的任何形式或者媒介来互联，例如，通信网络。通信网络的示例包括局域网(“LAN”)以及广域网(“WAN”)，例如，互联网。

计算系统能够包括客户端以及服务器。客户端与服务器一般彼此远离，并且通常通过通信网络来进行交互。客户端与服务器的关系借助在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序来实现。

虽然本说明书包含许多特定的实施方式细节，但这些不应当被解释为对任何发明或者可能要求保护的内容的范围的限制，而应被理解为对可能对于特定发明的特定实施例是特定的特征的描述。本说明书中在单独实施例的上下文中描述的某些特征也能够在单个实施例中组合来实施。反之，在单个实施例的上下文中描述的各种特征也能够单独地在多个实施例中或者以任何适当的子组合来实施。此外，尽管在上文可以将特征描述为以某些组合进行动作乃至最初如此要求保护特征，但来自要求保护的组合的一个或多个特征在一些情况下能够从所述组合中排除，并且所要求保护的组合可以涉及子组合或者子组合的变型。

类似地，虽然在图中以特定次序来描绘操作，但这不应被理解为要求以所示的特定次序或者以顺序次序来执行这样的操作，或者执行所有图示的操作，以获得期望的结果。在某些情况下，多任务以及并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中要求这样的分离，而应理解的是，所述的程序组件和系统一般能够一起被集成于单个软件产品中或者被封装到多个软件产品中。

已对所述主题的特定实施例予以描述。其他实施例在所附权利要求的范围内。例如，能够以不同的次序来执行权利要求中所述的动作并且仍然获得期望的结果。作为一个示例，在附图中所描绘的过程不一定要求所示的特定次序或者顺序次序来获得期望的结果。在某些实施方式中，多任务以及并行处理可能是有利的。

Claims

1.一种方法，包括：

接收搜索查询，其中，所述搜索查询包括一个或多个查询词项；

确定所述搜索查询的查询表示，其中，所述查询表示是高维空间中的数字的矢量；

获取识别所述搜索查询的多个响应视频的数据，其中，每个响应视频包括多个帧，其中，每个帧具有相应的帧表示，以及其中，每个帧表示是所述高维空间中的数字的矢量；

对于每个响应视频，使用所述查询表示和所述响应视频中的所述帧的帧表示，从所述响应视频中选择代表性帧；以及

生成对所述搜索查询的响应，其中，对所述搜索查询的所述响应包括所述响应视频中每个响应视频的相应视频搜索结果，以及其中，每个所述响应视频的所述相应视频搜索结果包括来自所述响应视频的所述代表性视频帧的呈现。

2.根据权利要求1所述的方法，其中，所述响应视频中每个响应视频的所述相应视频搜索结果包括链接，所述链接用于从来自所述响应视频的所述代表性帧开始回放所述响应视频。

3.根据权利要求1所述的方法，其中，对于每个响应视频使用所述查询表示和所述响应视频中的所述帧的所述帧表示从所述响应视频中选择代表性帧包括：

计算所述查询表示与所述响应视频帧中的所述帧的所述帧表示中每个帧表示之间的相应距离度量。

4.根据权利要求3所述的方法，其中，对于每个响应视频使用所述查询表示和所述响应视频中的所述帧的所述帧表示从所述响应视频中选择代表性帧进一步包括：

根据所述距离度量，选择具有最接近所述查询表示的帧表示的帧作为所述代表性帧。

5.根据权利要求3所述的方法，其中，对于每个响应视频使用所述查询表示和所述响应视频中的所述帧的所述帧表示从所述响应视频中选择代表性帧进一步包括：

根据所述距离度量生成每个所述帧的相应概率；

确定是否所述帧中的任何一个帧的最高概率超过阈值；

当所述最高概率超过所述阈值时，选择具有所述最高概率的帧作为所述代表性帧。

6.根据权利要求5所述的方法，其中，对于每个响应视频使用所述查询表示和所述响应视频中的所述帧的所述帧表示从所述响应视频中选择代表性帧进一步包括：

当所述最高概率不超过所述阈值时，选择默认帧作为所述代表性帧。

7.根据权利要求1所述的方法，其中，确定所述搜索查询的查询表示包括：

确定所述搜索查询中的所述一个或多个词项中每个词项的相应词项表示，其中，所述词项表示是所述词项在所述高维空间中的表示；以及

根据所述一个或多个词项表示来确定所述查询表示。

8.根据权利要求1所述的方法，进一步包括：

对于所述响应视频中的每个响应视频，确定来自所述响应视频的所述多个帧中每个帧的所述相应帧表示。

9.根据权利要求8所述的方法，其中，确定来自所述响应视频的所述多个帧中每个帧的所述相应帧表示包括：

保存将预定标签集合中的每个标签映射到相应标签表示的数据，其中，每个标签表示是所述高维空间中的数字的矢量；

使用深卷积神经网络来处理所述帧，以生成所述帧的标签分数集合，其中，所述标签分数集合包括所述预定标签集合中的每个标签的相应分数，以及其中，所述标签中每个标签的所述相应分数表示所述帧包含来自由所述标签标记的对象类别中的对象的图像的似然率；以及

根据所述帧的所述标签分数集合和所述标签表示来计算所述帧的所述帧表示。

10.根据权利要求8所述的方法，其中，根据所述帧的所述标签分数集合和所述标签表示来计算所述帧的所述帧表示包括：

对于所述标签中的每个，通过将所述标签的所述标签分数乘以所述标签的所述标签表示，来计算所述标签的加权表示；以及

通过计算所述加权表示之和，来计算所述帧的所述帧表示。

11.根据权利要求8所述的方法，其中，确定来自所述响应视频的所述多个帧中每个帧的所述相应帧表示包括：

使用修改的图像分类神经网络来处理所述帧以生成所述帧的帧表示，其中，所述修改的图像分类神经网络包括：

初始图像分类神经网络，被配置成处理所述帧以生成预定标签集合中的每个标签的相应标签分数；以及

嵌入层，被配置成接收所述标签分数并且生成所述帧的所述帧表示。

12.根据权利要求11所述的方法，其中，已在训练三元组的集合上训练所述修改的图像分类卷积神经网络，每个训练三元组包括来自相应训练视频的相应训练帧、肯定查询表示、和否定查询表示。

13.根据权利要求12所述的方法，其中，所述肯定查询表示是与所述训练视频相关联的搜索查询的查询表示，并且所述否定查询表示是不与所述训练视频相关联的搜索查询的查询表示。

14.一种系统，包括一个或多个计算机以及一个或多个存储指令的存储设备，所述指令当由所述一个或多个计算机执行时使得所述一个或多个计算机执行根据任一项前述权利要求所述的方法。

15.一种在一个或多个非暂时性计算机可读介质上编码的计算机程序产品，所述计算机程序产品包括指令，所述指令当由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1至13中任一项所述的方法。