CN105917359B

CN105917359B - 移动视频搜索

Info

Publication number: CN105917359B
Application number: CN201380080403.5A
Authority: CN
Inventors: T·梅; S·李; W·刘
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-10-21
Filing date: 2013-10-21
Publication date: 2021-01-26
Anticipated expiration: 2033-10-21
Also published as: CA2924764A1; AU2013403805B2; KR20160074500A; US10452712B2; EP3061035A4; KR102567285B1; WO2015058332A1; US20200142928A1; BR112016007145A8; BR112016007145A2; EP3061035A1; US20160267179A1; CA2924764C; EP3061035B1; KR20210000326A; CN105917359A; KR102197364B1; RU2016115348A; RU2647696C2; JP6321153B2

Abstract

一种用于使用移动设备来搜索视频内容的工具利用该移动设备上的计算能力来通过相机和/或话筒捕捉输入，实时提取该输入的音频‑视频签名，以及执行渐进式搜索。通过在该输入被接收时实时地从该输入提取联合音频‑视频签名并将该签名发送到云以通过分层式音频‑视频索引来搜索类似的视频内容，该工具可提供针对渐进式签名捕捉的候选视频的渐进式结果。

Description

移动视频搜索

版权通知和权限

2013,2007 Microsoft Corp。

背景

提供对因特网和万维网访问的移动设备正变得越来越普遍地用作为个人因特网冲浪的门卫(concierge)，它在行进的同时为用户提供了对日益增加的数据量的访问。

移动设备当前不提供有助于某些类型的搜索的平台，具体而言是搜索视频内容，而不花费资源来记录以及将搜索主体的记录作为查询发送。

用于移动设备的一些搜索应用支持将内建在移动设备内的相机所获取的照片作为视觉查询，这被称为捕捉-到-搜索。在“捕捉-到-搜索(capture-to-search)”中，通常首先拍摄图片的快照。随后，该快照作为查询被提交以搜索各种垂直领域中的匹配。其它搜索应用支持从内建到移动设备的话筒记录的音频作为音频查询。例如，INTONOW允许用户记录音频以用作查询。然而，该声音被记录达最多约12秒的时段。随后该声音记录作为查询被提交以搜索各个垂直领域中的匹配。如果记录条件噪杂或者在无声视频而使得记录是安静的情况下这一过程不能良好工作。

一些针对音频文件的搜索引擎使用甚至更长的记录时间。然而，典型的音频搜索引擎不将音频与视频组合起来搜索，且它们仍旧要求提交实际的记录作为查询。

又一些其它搜索引擎支持用内建到移动设备的相机拍摄的视频图像作为视觉查询，这可被称为“捕捉-到-搜索”。VIDEOSURF是视频捕捉-到-搜索的示例。在VIDEOSURF中，视频图像被捕捉达至少10秒的时间段并被存储。用户随后选择有辨识度的视觉内容来搜索，并且随后该视频图像片段被提交作为查询以搜索匹配的视频。

现有移动视频搜索应用花费大量资源来存储相对长的音频和/或视频片段以及将所记录的片段发送给搜索引擎。一旦搜索引擎接收到所记录的视频片段查询，搜索引擎就可基于该片段执行匹配。现有方法需要固定历时的片段，例如10或12秒。

与移动设备上的视频搜索有关的大多数研究已关注移动设备上的紧凑描述符设计。解决此问题的最流行的方式是通过图像编码的技术压缩描述符以近乎复制视频搜索，其可根据其依赖的数据模态的类型被分类为三个类别：基于音频、基于视频、以及基于混合的方法。然而，用于近似重复的视频搜索的大多数现有方法主要关注其中查询视频通常是原始视频的子集而不存在严重的失真的桌面场景，而不是由移动设备捕捉的视频。而且，描述符的计算成本和紧密度在现有方法中经常被忽视，因为用于重复视频搜索的传统方法不将前述移动挑战纳入考虑。用于重复视频搜索的传统方法不适于移动视频搜索。

概述

本文描述了一种用于移动设备上的视频搜索的工具，其利用在移动设备上可用的计算资源来提取由不同于该移动设备的设备所呈现的视频内容的音频和视频性质并将该性质作为查询来发送，而不是发送该视频内容的记录作为查询。通过提取音频和视频性质以用作搜索查询，并且通过将该音频和视频性质匹配到在已索引的视频内容数据集中存储的音频和视频性质，该工具提供了针对所提交的每个音频和视频性质的候选视频，其包括当所述性质在噪杂的、不良照明的、或不一致的条件下提取时。该工具提供了在视频输入的附加部分正被获得时呈现候选视频的指示且允许要被指示的候选视频的渐进式细化。该工具提供了候选视频的列表，包括在视频输入的更多部分正被获得的同时修正所提供的候选视频的列表，直到从所提供的候选视频中做出选择或直到候选视频的结果列表稳定，例如，候选视频的结果列表停止改变达一时间段且搜索停止。该工具提供了响应于候选视频的结果列表稳定(例如停止改变达一时间段)的候选视频的指示的不同呈现。该工具还提供了响应于正从所提供的候选视频中做出选择而对附加界面的呈现；例如，该工具提供了打开以允许用户购买或租赁所选择的视频、以允许用户看到关于所选择的视频的附加信息或辅助信息、或以允许用户保存视频的指示以供稍后观看的浏览器。

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并非旨在标识出要求保护的主题的关键特征或必要特征，亦非旨在用作辅助确定要求保护的主题的范围。例如术语“技术”可指代方法和/或计算机可执行指令、(诸)模块、算法、硬件逻辑(例如，现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD))和/或例如术语“工具”可以指代上述上下文和通篇文档中所准许的硬件逻辑(例如，现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD))、其它设备和/或其它系统。

附图简述

参考附图来描述具体实施方式。在附图中，附图标记最左边的数字标识该附图标记首次出现的附图。在各附图中，使用相同的标号来指示相同的特征和组件。

图1是使用捕捉来自电视机上的视频呈现的音频-视频的移动设备的移动视频搜索的示例实现的示意图。

图2是来自图1的实施例的移动视频搜索的示例用户界面的部分的示意图。

图3是用于实现移动视频搜索的示例架构的示意图。

图4是解说配置用于移动视频搜索的示例移动设备的选择组件的框图。

图5是解说配置用于可被用于移动视频搜索的分层式音频-视频索引化的示例服务器设备的选择组件的框图。

图6是包括实现移动视频搜索的移动设备和实现分层式音频-视频索引化的服务器的系统的示例框架的示意图。

图7是音频指纹的提取的示例的示意图。

图8是分层式音频-视频索引的示例的示意图。

图9是用于在客户端设备上实现移动视频搜索的示例过程的流程图。

图10是实现使用分层式音频-视频索引的服务器上的视频搜索的示例过程的流程图。

图11是解说使用分层式音频-视频索引的服务器上的视频搜索期间的渐进式处理的示例实现的流程图。

详细描述

一种移动视频搜索工具提供了丰富的功能集来获得视频搜索的相关结果。与主要支持采用实际视频文件的片段的搜索的桌面计算机相比，移动设备为用户交互提供了丰富的接口集，使用所述接口集可以容易使用和获得各种环境中的结果。例如，除了在桌面环境中接收的文件上传和下载以及传统的键盘和鼠标输入之外，移动设备允许接收附加多模态输入。移动设备接口可将经由内建相机的视觉模态与经由内建话筒的音频模态相组合。

尽管移动设备可组合这些输入模态，然而从移动设备进行视频搜索面临各种挑战。例如，移动视频搜索所面临的挑战之一在于：尽管用户处于不够理想的状态，但是搜索仍可能是所期望的。环境可能是噪杂的、照明不一致或具有波动的光照的，和/或处于具有波动的因特网连接速度的环境中。相反，来自桌面计算机的视频搜索通常包括提交视频文件的片段而不是由相机和/或话筒捕捉的在另一设备上的视频的呈现的记录。

移动视频搜索所面临的其它挑战包括移动设备的硬件限制。移动设备的处理器(例如中央处理单元(CPU)和图形处理单元(GPU))和存储器仍不能与桌面计算机相比。短缺的存储器和计算约束使得具有大存储器成本或重计算的签名不适用于移动客户端。此外，还有网络和带宽限制的负面影响。对于移动设备，网络连接经常是不可靠的，且带宽相对较低。在如本文所述的移动视频搜索中，瓶颈和降低的连接的影响可通过使用紧凑签名来减少在网络上传递的数据量并最终减少网络等待时间来加以限制。此外，用于搜索的移动设备的用户对搜索等待时间是敏感的。在捕捉比传统查询片段更短的片段时呈现初步结果(包括来自渐进式搜索的结果)减少了用户的表面等待时间。

例如，用户可能正走去参加会议并注意到店面橱窗中的视频呈现。即使用户没有时间停下来并观看该视频，用户可使用该工具来捕捉几秒视频，直到该工具返回匹配的视频为止。用户可保存视频的名称以供稍后观看。在此示例中，客户端侧的工具可捕捉来自该呈现的音频以及来自该呈现的视频图像并对所捕捉的内容执行轻量变换。该变换包括提取音频指纹以及提取视觉散列位，即使在噪杂的街道条件下。鉴于与桌面计算机相比移动设备的相对有限的存储器和计算资源，例如，可使得提取计算上昂贵的签名来呈现视频片段不可行。而且，可用于向服务器发送视频片段以供处理的带宽可能不可用或者传送的持续时间可能长得无法接受。通过采用移动设备上的计算能力，该工具可执行该变换并通过网络传送低得多的数据量。例如，提取音频指纹可带来针对一秒视频的约0.5KB的数据。类似地，从视频中提取视觉散列位可带来针对一秒视频的约1.0KB的数据。从而，与发送整秒视频片段的数据量相比，使用少于2KB的数据可发送这些组合的性质的音频-视频签名。而且，由于检索系统的减少的等待时间，在视频输入仍旧正被获得的同时可返回可能的匹配，诸如对于候选结果的渐进式呈现。当不再获得附加的候选视频匹配或者结果列表不改变达一时间段(例如3秒)时，则搜索可停止，因为与该查询匹配的视频已被标识，该搜索可自动停止，且用户界面可被改变以反映已稳定的候选结果列表。

如本文所述的移动视频搜索工具的各方面可作为在移动设备上运行的搜索应用来实现和/或经由应用编程接口(API)来实现。移动视频搜索工具可捕捉视频输入以供查询并执行对音频指纹和视觉散列位的提取以形成音频-视频签名。在移动设备上运行的应用的情况下，该应用可发送音频-视频签名作为视频搜索查询。在API的情况下，应用可经由API展示构成该音频-视频签名的音频指纹和视觉散列位以由另一应用用于视频搜索。

在云中，系统能够使用新颖的分层式音频视频(LAVE)索引方案来索引大规模视频数据；而在客户端上，系统实时地提取轻量的联合音频-视频签名并按渐进方式搜索。LAVE方案通过联合多层音频-视频索引来组合音频-视频签名，这在相似度计算中保留了每个签名的个体结构并在组合阶段中考虑了它们的相关性。联合音频-视频签名对于移动设备而言是计算上便宜的且加强了来自个体音频和视觉模态的辨别力。从而，音频-视频签名对于大的变化(例如，查询视频中的噪声和扭曲)是稳健的。在各个实施例中，习得的散列函数显著减少通过网络从移动设备传送到诸如服务器或云的比特数。两部分(two-part)图形变换和匹配算法使得视频搜索是渐进式的，这意味着当稳定结果被实现时搜索可停止。如本文所述的，当结果不改变达一时间段(例如，达3秒)，结果是稳定的。在至少一个实现中，当查询视频小于10秒时本文描述的系统实现了超过90％(例如90.77％)的精确度，而在查询视频小于5秒时实现了约70％(例如70.07％)的精确度。

如本文所述的，服务器或云计算环境(其可被称为网络分布式环境)可主存(host)视频内容的分层式音频-视频索引，搜索在该索引上运行。与对获得音频指纹和视觉散列位来获得音频-视频签名的描述类似，服务器或云计算机可在来自视频文件库的视频文件上执行对音频-视频签名的提取。所提取的音频-视频签名可被存储为分层式音频-视频索引，与其它搜索结构相比，其可减少搜索等待时间。

在各实施例中，搜索LAVE索引包括一个多步骤过程。在至少一个实施例中，首先，视频搜索引擎使用来自查询的音频指纹作为过滤器。第二，视频搜索引擎针对类似度来比较来自经过滤的集合的关键帧。第三，视频搜索引擎执行几何验证来获得最接近的结果。视频搜索引擎可对最接近的结果排名，且在更多音频-视频签名被从查询中运行时视频搜索引擎可更新最接近的结果和/或排名。视频搜索引擎可向查询所源自的移动设备发送候选结果视频的表示。在一些实施例中，在音频－视频捕捉呈现在进行的同时，候选结果可被呈现在与音频-视频捕捉呈现共享的用户界面中。在至少一个实施例中，在用于查询的视频输入的捕捉以及音频指纹和视觉散列位的提取以形成音频-视频签名正在进行的同时，候选结果可被渐进式呈现在与音频-视频捕捉呈现共享的用户界面中。在结果列表稳定的情况下，捕捉方面可结束且用户界面可转换到具有或不具有附加信息的稳定列举候选结果的搜索结果列表的呈现。

在至少一个实施例中，本文所述的移动视频搜索技术在网络分布式环境中实现。网络分布式环境可包括一个或多个类型的计算资源，计算资源的类型可包括计算、联网和/或存储设备。网络分布式环境还可被称为云计算环境。

进一步参考图1-11来描述各实施例的方面。

示例实现

图1示出了本文所述的使用移动设备的移动视频搜索的示例实施例的实现。在所示示例中，用户102正使用移动计算设备104，诸如平板或智能电话。在图1中，移动计算设备104被示出为具有用户界面，该用户界面表示经由移动视频搜索工具110捕捉来自电视机108上的视频呈现106的音频和视觉输入，同时呈现候选结果列表112。在至少一个实施例中，候选结果列表112可被实时或近乎实时地计算，并作为渐进式候选结果列表112被返回给客户端。与候选结果相关联的候选图像和/或候选文本可在移动设备104的屏幕上的用户界面中的列表112中呈现。在所示的示例中，移动设备104表示Windows

设备，但还可以类似地使用其它移动电话、智能手机、平板计算机和其它这样的移动设备。在移动设备104上，硬或软按钮的激活可指示希望启动移动视频搜索工具110。

在图1的示例实现中，移动视频搜索工具110被示出为经由移动设备的话筒来捕捉音频输入，如由话筒图形114所表示的。尽管在其它实现中，音频捕捉可由不同图形来表示或者可简单地被理解而无需相应图形。同时，移动视频搜索工具110正在经由移动设备的相机捕捉视频输入，这从显示视觉捕捉116的用户界面可以清楚看出。在移动视频搜索工具继续捕捉音频输入和视觉输入的同时，移动视频搜过工具可提取音频输入的音频指纹以及视觉输入的视觉散列位来向云发送以在搜索中使用，例如以搜索经LAVE索引的数据集。此外，在移动视频搜索工具继续捕捉音频输入和视觉输入的同时，移动视频搜索工具可接收候选搜索结果112的渐进式列表。与候选结果相关联的候选图像和/或候选文本可在移动设备104上的用户界面中的列表112中呈现。在所示实施例中，包括候选图像和候选文本的候选搜索结果的渐进式列表112被呈现在用户界面中的视觉捕捉旁边，然而也构想了其它呈现位置。

在各实施例中，为了优化存储器，移动设备104不存储音频输入或视觉输入，而是移动设备104存储音频指纹和视觉散列位。存储音频指纹和视觉散列位对于低的或不一致的带宽条件或者对于设备缺少网络连接的时候可能是有用的。

先前，全局特征已被用于搜索接近重复的视频，其中视频由紧凑的全局签名来表示。这样的全局特征已包括了时空特征，该时空特征利用参考时间线的灰度强度分布来表示视频和空间和时间信息的组合来构造不变的全局签名。尽管这些全局表示实现了大规模视频数据集中的快速检索速度，然而它们不适合具有严重失真的所记录的查询视频。

与全局特征相比，局部描述符是更有区别度的且对于所记录的查询视频失真是稳健的，因为它们利用局部不变性，诸如尺度和取向。然而，由于计算复杂度，对于可能包含失真的所记录的查询视频采用局部描述符的效率变得棘手。若干方法已经尝试改善局部描述符匹配的速度，包括字袋(Bag-of-Words，BoW)和层次结构的构造，以加速该匹配过程。然而，由于移动设备的有限的计算能力和存储器，基于局部描述符的方法需要大范围的优化来在移动设备上操作。

音频可在接近重复的视频搜索中扮演重要角色。一个示例采用基于地标的音频指纹来构造类似音频搜索，而另一示例包括音频字袋(BoA)表示(其受到BoW的启发)，来表征音频特征以用于类似视频搜索。与视觉特征相比，音频特征可能更稳健、计算上高效、且紧凑，这使得音频特征适于在移动视频搜索中采用。

近来，联合音频-视觉接近重复视频搜索已被应用于大规模视频复制检测。特征组合的关键问题是音频和视频特征的相关性的标识。现有融合策略包括早期融合和晚期融合。早期融合和晚期融合两种策略都有缺点。例如，早期融合不保留个体特征的结构信息，而晚期融合不识别特征间的相关性。

现有的早期融合和晚期融合方法不能充分挖掘音频-视频签名的优点而使得现有的接近重复视频搜索方法可被直接用于移动视频搜索来处理独特的移动挑战。

图2是图1的实施例的移动视频搜索的用户界面中的示例的已稳定的结果列表200的示意图。

与上述方法相比，本文描述的移动视频搜索技术和工具提供了在视频输入正被捕捉时的渐进式移动视频搜索。该移动视频搜索方案渐进式地向云传送紧凑的音频-视频签名，该签名可从音频指纹和视觉散列位中得到。LAVE索引技术利用音频-视频签名的优点以用于稳健视频搜索。而且，为了改善用户的搜索体验，渐进式查询过程采用了两部分(two-part)的基于图的变换和匹配方法。

相应地，在各实现中，移动视频搜索工具通过采用基于地标的音频指纹化(LBAF)来获得音频指纹来利用音频输入帮助用户加速查询。

在一示例实现中，与已稳定的候选结果相关联的候选图像可被呈现在移动设备104的屏幕上的用户界面中的列表200中，如在204处所示。同时，与候选结果相关联的文本(例如标题、角色名称等)被呈现在移动设备104的屏幕上的用户界面中的列表200中，如在206处所示。在所示示例中，结果列表包括以水平带格式呈现的候选图像204和候选标题206，从中可通过拖拽到搜索区域202上或通过触摸或以其它方式选择移动设备104的屏幕上的图像或文本来选择特定候选结果。然而，其它格式也同时是可能的和预期的。例如，对候选图像的选择可引起浏览器打开并向用户提供购买或租赁该选择的副本以供在移动设备上观看的机会，和/或对文本或标题的选择可调出关于相关联的视频的信息，或存储该标题(带有或不带有相关联的图像)以供稍后访问。

说明性体系结构

下面描述的体系结构仅构成一个示例，而不旨在将各权利要求限于任一特定体系结构或操作环境。可使用其它架构而不背离所要求保护的主题的精神和范围。图3是用于实现移动视频搜索的示例架构的示意图。

在一些示例中，环境300的各种设备和/或组件包括一个或多个(诸)网络302，在其上移动计算设备304(其可对应于移动计算设备104，并且在本文中也被称为客户端设备304或简单地称为设备304)可被连接到至少一个服务器306。环境300可包括多个网络302、各种设备304和/或多个服务器306。

在各实施例中，(诸)服务器306可以主存基于云的服务或特别针对诸如学校系统或公司之类的实体的集中式服务。各示例支持以下场景：其中(诸)服务器306可包括一个或多个可在群集中操作或在其它分组的配置中操作以在网络302上共享资源、平衡负载、提升性能、提供故障转移支持或冗余或出于其它目的的计算设备。

例如，(诸)网络302可包括诸如因特网之类的公共网络、诸如机构和/或个人内联网的专用网络，或专用和公共网络的某种组合。网络302还可包括任何类型的有线和/或无线网络，包括但不限于局域网(LAN)、广域网(WAN)、卫星网络、有线网络、Wi-Fi网络、WiMax网络、移动通信网络(如3G、4G等等)或它们的任意组合。(诸)网络302可利用通信协议，包括基于分组的和/或基于数据报的协议，如网际协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)或其它类型的协议。而且，(诸)网络302还可包括便于网络通信和/或形成网络的硬件基础的若干设备，如交换机、路由器、网关、接入点、防火墙、基站、中继器、主干设备等等。

在一些实施例中，网络302可进一步包括能够实现到无线网络的连接的设备，诸如无线接入点(WAP)。各实施例支持通过WAP的连接性，WAP经由各个电磁频率(例如，无线电频率)来发送和接收数据，包括支持电气和电子工程师协会(IEEE)802.11标准(例如，802.11g、802.11n等)和其它标准的WAP。

计算机可读介质

如本文所使用的术语，计算机可读介质包括至少两种类型的计算机可读介质，即计算机存储介质和通信介质。

计算机存储介质包括以用于存储如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括有形和/或物理形式的介质，该介质被包括在设备中或作为设备的一部分或外置于设备的硬件组件中，该介质包括但不限于：随机存取存储器(RAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、相变存储器(PRAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存、光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、光卡或其它光存储介质、磁带盒、磁带、磁盘存储、磁卡或其它磁存储设备或介质、固态存储器设备、存储阵列、网络附连存储、存储区域网络、被托管的计算机存储或任何其它存储器、存储设备和/或存储介质或存储器技术或可用于存储并维护供计算设备访问的信息的任何其它非传输介质。

作为对比，通信介质可用诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据。

如在此所述，计算机存储介质不包括除了执行传输所需的任意硬件部件之外的通信介质。也即，计算机存储介质不包括由经调制数据信号、载波或所传播的信号本身单独构成的通信介质。

在各个实施例中，移动计算设备304包括诸如设备304A-304E的设备。各实施例支持以下场景：其中(诸)设备304可包括一个或多个可在群集中操作或在其它分组的配置中操作以共享资源或出于其它目的的计算设备。尽管所示出的是不同的各种移动设备类型，(诸)设备304可以是其它移动设备类型并不受限于所示出的移动设备类型。(诸)设备304可包括任何类型的具有操作上连接到输入/输出接口310和计算机可读介质312的一个或多个处理器308的移动计算设备。设备304可包括诸如举例而言智能电话304A、膝上型计算机304B、平板计算机304C、电信设备304D、个人数字助理(PDA)304E、和/或其组合等移动计算设备。设备304还可包括电子书阅读器、可穿戴计算机、汽车计算机、游戏设备、移动瘦客户机、终端和/或工作站。在一些实施例中，设备304可以不是移动计算设备而可包括例如桌面计算机和/或集成在计算设备、电器或其它类别的设备中的组件。

在一些实施例中，如关于设备304所示，计算机可读介质312可以存储由(诸)处理器308可执行的指令，包括操作系统314、用于移动视频搜索的引擎316、以及可由诸如CPU和/或GPU之类的(诸)处理器308加载并执行的其它模块、程序或应用318。替换地或另选地，此处描述的功能可以至少部分由一个或多个硬件逻辑组件来执行。例如、但非限制，可使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑器件(CPLD)、等等。

各实施例中的计算机可读介质312可包括计算机存储介质，该计算机存储介质又可包括易失性存储器、非易失性存储器、和/或如上所讨论的其它持久和/或辅助计算机存储介质。从而，在被实现为计算机存储介质时，计算机可读介质312包括有形和/或物理形式的介质，该介质被包括在设备和/或作为设备的一部分或外置于设备的硬件组件中，该介质包括但不限于：随机存取存储器(RAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存、紧致盘只读存储器(CD-ROM)、数字多功能盘(DVD)、光卡或其它光存储介质、磁带盒、磁带、磁盘存储、磁卡或其它磁存储设备或介质、固态存储器设备、存储阵列、网络附连存储、存储区域网络、主存的计算机存储或任何其它存储存储器、存储设备、和/或可用于存储并维护供计算设备访问的信息的存储介质。然而，在被实现为计算机存储介质时，计算机可读介质312不包括仅由传播的信号本身构成的通信介质。

(诸)设备304可以进一步包括一个或多个输入/输出(I/O)接口310以允许设备304与其它设备通信。设备304的输入/输出(I/O)接口310还可包括一个或多个网络接口以允许经由(诸)网络302在计算设备304与其它联网设备(诸如其它(诸)设备304和/或(诸)服务器306)之间进行通信。设备304的输入/输出(I/O)接口310可允许设备304与其它设备进行通信，诸如用户输入外围设备(例如，键盘、鼠标、笔、游戏控制器、音频输入设备、视觉输入设备、触摸输入设备、姿势输入设备等)和/或输出外围设备(例如，显示器、打印机、音频扬声器、触觉输出等)。(诸)网络接口可包括一个或多个网络接口控制器(NIC)或其它类型的用于经由网络发送和接收通信的收发机设备。

(诸)服务器306可包括任何类型的具有操作上连接到输入/输出接口322和计算机可读介质324的一个或多个处理器122的计算设备。在一些实施例中，如关于(诸)服务器306所示，计算机可读介质324可以存储由(诸)处理器320可执行的指令，包括操作系统326、用于分层式音频-视频引擎的框架328、以及可由诸如CPU和/或GPU之类的(诸)处理器320加载并执行的其它模块、程序或应用330。替换地或另选地，此处描述的功能可以至少部分由一个或多个硬件逻辑组件来执行。例如、但非限制，可使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑器件(CPLD)、等等。

在被实现为计算机存储介质时，计算机可读介质324可包括易失性存储器、非易失性存储器、和/或其它持久和/或辅助计算机可读存储介质。(诸)服务器306还可包括一个或多个输入/输出(I/O)接口322，以允许服务器306与其它设备进行通信，诸如用户输入外围设备(例如，键盘、鼠标、笔、游戏控制器、音频输入设备、视频输入设备、触摸输入设备、姿势输入设备等)和/或输出外围设备(例如，显示器、打印机、音频扬声器、触觉输出等)。服务器306的输入/输出(I/O)接口310还可包括一个或多个网络接口以允许经由(诸)网络302在计算服务器306与其它联网设备(诸如其它(诸)服务器306或设备304)之间进行通信。

在各实施例中，(诸)服务器306可表示基于云的服务或特别针对诸如学校系统或公司之类的实体的集中式服务。(诸)服务器306可以包括编程以将一个用户界面发送给一个或多个设备304。(诸)服务器306可以存储或访问用户简档，该用户简档可包括用户已经同意实体收集的信息，例如用户账户号、名字、位置和/或关于一个或多个客户端者设备304的用户可用于在非信任环境中的敏感交易的信息。

示例移动设备

图4示出被配置用于提供如本文所述的移动视频搜索工具的示例移动设备104的选择组件。示例移动设备304包括电源402、一个或多个处理器402(其可对应于(诸)处理器308并可包括微处理器)、以及对应于输入/输出接口310的输入接口，包括网络接口406、一个或多个相机408、一个或多个话筒410，以及在一些实例中，附加的输入接口412可包括基于触摸的接口和/或基于姿势的接口。示例移动设备304还包括对应于输入/输出接口410的输出接口，包括显示器414，以及在一些实例中可包括附加的输出接口416，诸如扬声器、打印机等。网络接口406使得移动设备304能够通过网络302发送和/或接收数据。网络接口406还可表示其它通信接口的任何组合，以允许移动设备304发送和/或接收各种类型的通信，包括但不限于：基于web的数据和基于蜂窝电话网络的数据。此外，示例移动设备304包括计算机可读介质418，在一些实施例中其对应于计算机可读介质312。计算机可读介质418存储操作系统(OS)420、浏览器应用422、移动视频搜索工具316、和任意数目的其它应用或模块，它们可以作为计算机可读指令被存储在计算机可读介质418中，并至少部分在处理器404上被执行。

浏览器应用422表示可以在移动设备304上执行以提供用户界面的各种应用中的任意一种，通过所述用户界面可以访问因特网上可用的web内容。

其它应用或模块424可以包括在移动设备304上可执行的任意数目的其它应用。这样的其它应用可以包括，例如，电子邮件应用、日历应用、交易模块、音乐播放器、相机应用、计算器、一个或多个游戏、一个或多个生产力工具、消息收发应用、加速计等等。

移动视频搜索工具316包括音频提取模块426、视频提取模块428、签名模块430、结果模块432、用户界面模块434、以及任意数量的其它移动视频搜索模块436中的一个或多个。音频提取模块426可提取音频指纹，诸如LBAF。

视频提取模块428利用视频描述符，视频描述符对于诸如运动、模糊以及不一致的光照条件等失真是稳健的并且能被快速提取。视频提取模块428可从局部视频特征提取原始特征，诸如加速稳健特征(SURF)特征。然而，发送原始SURF特征可引起移动设备消耗高得不可接受的量的能量且可能花太长时间来使得用户可接受。在各实施例中，视频提取模块使用散列化方法来将局部特征压缩为散列位，其与移动计算设备104的轻量计算和存储器资源相一致。

签名模块430与该编程相一致地操作并且可构成该编程的全部或部分以至少基于来自音频提取模块426的音频指纹和/或来自视频提取模块428的视觉散列位来执行LAVE搜索。

用户界面模块434可以构成移动设备104的其它机械和/或软件用户界面部件的操作的编程全部或部分或与其一致地操作。例如，可以由处理器404执行的用户界面模块434可以控制在移动视频搜索工具316的上下文中的硬或软选择按钮、主页按钮、后退按钮和/或开始按钮的功能。用户界面模块434允许呈现和选择结果模块432所接收的候选结果列表的特定列表。例如，用户界面模块434提供了在移动设备104的屏幕上以可滚动带格式呈现的特定候选列表的呈现和选择，如在112和/或200所示。

在一些实施例中，其它交互式多模态图像搜索组件436可以应用其它交互式数据的上下文来执行移动视频搜索。例如，可使用的其它上下文数据可包括但不限于：近期搜索、消息收发信息、标识近期访问的应用(例如，浏览器搜索、电影列表应用等)的数据等等。

虽然在图4中被示为是被存储在移动设备304的计算机可读介质418中，然而在一些实现中，移动视频搜索工具316或其部分可以被存储在一个或多个服务器306上和/或通过基于云的实现来执行。另外，在一些实现中，可以使用可由移动设备304访问的任意形式的计算机可读介质来实现移动视频搜索工具316或其部分。而且，在一些实施例中，操作系统420、浏览器应用422、移动视频搜索工具316和/或其它应用或模块424的一个或多个组件可被实现为作为移动设备304的一部分或可被移动设备304访问的集成电路的一部分。而且，虽然被示出且描述为是在移动设备304上实现，然而在一些实施例中，如本文所述的移动视频搜索工具316所提供的数据访问和其它功能还可以在被配置用于音频和视觉输入并且通过其用户可以执行视频搜索的任意其它类型的计算设备上实现，包括但不局限于桌面计算机系统、游戏系统和/或电视机系统。

示例服务器设备

图5是解说被配置为提供分层式音频-视频搜索作为如本文所述的移动视频搜索工具的示例服务器设备306的组件的框图。示例服务器306包括电源502、一个或多个处理器504(其可对应于(诸)处理器302并可包括微处理器)、以及对应于输入/输出接口322的输入接口，包括网络接口506，以及在一些实例中可包括一个或多个附加的输入接口508，诸如键盘、软键盘、话筒、相机等。除了网络接口506之外，示例服务器设备306还可包括对应于输入/输出接口322的一个或多个附加的输出接口510，包括诸如显示器、扬声器、打印机等输出接口。网络接口506使得服务器306能够通过网络302发送和/或接收数据。网络接口506还可表示其它通信接口的任何组合，以允许服务器306发送和/或接收各种类型的通信，包括但不限于：基于web的数据和基于蜂窝电话网络的数据。此外，示例服务器306包括计算机可读介质512，在一些实施例中其对应于计算机可读介质324。计算机可读介质512存储操作系统(OS)514、 LAVE索引516、分层式音频-视频引擎328以及任意数目的其它应用或模块，它们可以作为计算机可执行指令被存储在计算机可读介质512上，并至少部分在处理器504上被执行。

其它应用或模块518可包括在服务器306上可执行的任意数目的其它应用。这样的其它应用可以包括，例如，电子邮件应用、日历应用、交易模块、音乐播放器、相机应用、计算器、一个或多个游戏、一个或多个生产力工具、消息收发应用、加速计等等。

分层式音频-视频引擎328包括音频提取模块524、视频提取模块526、LAVE搜索模块528、几何验证模块530、渐进式查询模块532、以及决策模块534中的至少一个。

虽然在图5中被示为是被存储在服务器306的计算机可读介质512中，然而在一些实现中，分层式音频-视频引擎328或其部分可以被存储在一个或多个附加服务器306上和/或通过基于云的实现来执行。另外，在一些实施例中，可以使用可由服务器备306访问的任意形式的计算机可读介质来实现分层式音频-视频引擎328或其部分。另外，在一些实施例中，操作系统514、LAVE索引516、和/或其它应用或模块518的一个或多个组件可被实现为作为服务器306的一部分或可被服务器306访问的集成电路的一部分。而且，尽管被示出并描述为被实现在服务器306上，然而在一些实现中，如本文所述的分层式音频-视频引擎328所提供的数据访问和其它功能也可在被配置用于音频和视觉索引并且可基于视频查询输入执行视频搜索的任何其它类型的计算设备上实现，包括但不限于：桌面计算机系统、头端电视机分布系统、以及膝上型计算机系统。

在600处，图6是实现移动视频搜索的移动设备和服务器或云计算环境的示例框架的示意图，该计算环境也可被称为网络分布式环境，其实现分层式音频-视频索引。框架600被解说为具有离线级602和在线级604。框架600可包括至少一个服务器606，在各实施例中其可对应于(诸)服务器306并可包括例如web服务器、应用服务器、以及任何数量的其它数据服务器。同时，框架600可包括至少一个客户端608，在各实施例中其对应于(诸)设备104和/或304。

在各实施例中，客户端608代表被配置成通过网络(诸如通过网络302)传送和接收数据的任何类型的移动计算设备。例如，客户端608可被实现为移动电话、智能电话、个人数字助理(PDA)、上网本、平板计算机、手持式计算机和其它这样的由减少的形状因素和资源限制所表征的移动计算设备等。

在离线级602中，云计算的电力可被用于存储大规模源视频数据集610，其可包括数千个视频。在612，分层式音频-视频索引应用(诸如LAVE 328)提取来自大规模源视频数据集610中的个体视频的音频-视频描述符。有效的联合音频-视频描述符将对来自移动视频搜索系统中的复杂移动视频捕捉条件(例如，安静的视频或低视觉质量的模糊视频)的查询视频的变化稳健。在各实施例中，联合描述符选择至少部分基于三个性质：1)对所记录的查询视频的变化稳健，2)在移动设备上便宜地计算，以及3)易于索引以用于移动视频搜索。在至少一个实施例中，LAVES应用采用基于地标的音频指纹化(LBAF)来获得音频指纹614以及采用加速稳健特征(SURF)来获得视觉散列位616。在618，LAVE应用328使用这些描述符构建并存储LAVE索引620。

在线查询级604包括可在客户端设备608(诸如设备304)捕捉查询视频片段622时执行的以下操作：1)移动设备624上的轻量音频-视频描述符的实时提取。移动视频搜索工具316向服务器606发送音频-视频签名(包括视觉散列位626和音频指纹628)。在各实施例中，移动视频搜索工具316按预定间隔发送该签名，例如，按2秒的间隔、按1秒的间隔、按0.5秒的间隔等。2)服务器606接收该签名，例如2秒签名、1秒签名、0.5秒签名等。如在630处所示，服务器606通过LAVE索引620进行对类似视频关键帧632的搜索。3)如在634处所示，服务器606使用基于几何验证的视觉排名来细化搜索结果。几何验证将查询性质636与源性质638进行比较。对于每个匹配的查询，例如1秒查询和源视频关键帧，两部分图中的一个节点可以表示所接收的查询而另一个节点可以表示来自源视频的候选匹配关键帧。在该图中，边将查询节点连接到候选匹配关键帧节点。4)如在640处所示，服务器606经由两部分图变换和匹配来使得视频搜索为渐进式的来执行渐进式查询过程。渐进式查询过程640的细节在算法1中示出。例如，如果新查询到达，则将在636添加新查询节点。随后，将根据返回的结果来更新两部分图的边。在渐进式查询640期间，如果两部分图的边的数量不改变，则匹配的视频的相似度得分将不改变；否则，匹配的视频的相似度得分将被更新。

在642，如果搜索结果和/或相似度得分中没有变化达一时间段(例如，达连续2秒、连续3秒、连续4秒的预定时间段)，则决策模块534确定已实现稳定的搜索结果。在一些实施例中，在642，如果搜索结果和/或相似度得分中没有变化达一时间段(例如，达一可变时间段和/或一相对时间段)，则决策模块534确定已实现稳定的搜索结果。当实现稳定的搜索结果时，搜过过程可自动停止，且在644结果将被返回至移动设备。在一些实施例中，当搜索结果稳定时，结果被返回以在客户端设备608上在信令该搜索是稳定的用户界面中呈现，如在646中所示。然而，当搜索结果没有稳定达期望时间时，搜索过程继续且在648决策模块534将结果按照指示搜索没有完成的方式返回给设备608，如在视频捕捉622期间在用户界面中所示。

在所示示例中，客户端设备608(诸如移动设备304)经由话筒和相机接收视频输入来发起视频查询，如在622处所示。系统利用音频提取模块(诸如模块426)来提取音频指纹(诸如LBAF)，如在628处所示。系统还利用视频提取模块(诸如模块428)来提取视觉散列位，如在626处所示。

关于视觉散列位，视频提取模块(诸如视频提取模块428和/或视频提取模块526)可使用散列化方法来将局部特征压缩为散列位。例如，视频提取模块可使用最小损失散列化或频谱散列化来学习散列函数，诸如由h^v＝sign(v^tx-t)表示的散列函数，其中x表示SURF描述符向量，v表示习得的散列矩阵，而t表示阈值纯量，以计算h^v，其表示习得的视觉散列位。在一些实施例中，视频提取模块可将二进制代码限制到80个比特。在这样的实施例中，视频提取模块可使用8个比特来保存SURF描述符的角度值，其将被用于未来如关于图6的634讨论的几何验证。因此，视频提取模块可将每个SURF特征压缩到

其在所讨论的示例中可以仅88个比特。

视频提取模块可将查询图像缩放到小图片以最小化由各种移动设备上的不同相机分辨率带来的差异。将查询图像缩放到小图片可改善移动设备上的特征提取速度且其可减少需要被传送的特征点的数量。在若干实现中，这样的缩放在对精度影响很小的情况下改善了查询速度。例如，在缩放之后，一个帧平均有75个SURF点，这允许移动设备针对该帧传送小于1KB的视觉特征到服务器。

图7是音频指纹的提取的示例的示意图。在各种音频特征中，LBAF在许多接近重复视频搜索方法中被广泛使用。其快速计算、高效存储器和不变的转换也适用于移动视频搜索。在各实现中，音频提取模块(诸如音频提取模块426和/或音频提取模块524)提取音频指纹，诸如LBAF。在702，音频提取模块将音频信息分段为具有长度

和步幅

的短的且部分重叠的帧。在704，音频提取模块计算每个帧的谱图(spectrogram)。在706，音频提取模块在该帧的谱图上设置候选峰值，诸如708a和708b。在若干实施例中，音频提取模块根据至少三个准则在该帧的谱图上设置候选峰值：比其所有邻居更高的能量内容，比其邻居更高的振幅，以及密度准则。在710，音频提取模块从峰值中选择锚点712并标识针对该锚点的相应目标区域714。每个锚点712被依序与其目标区域714中的候选峰值配对。锚点-候选峰值对可被称为地标。每个地标可被表示为

其中

和f_i ^a是锚点的时间偏移和频率，而

和Δf_i ^a是锚点和目标区域中的配对点之间的时间和频率差。音频提取模块可将该指纹压缩为

其中

是f_i ^a、

和Δf_i ^a的散列值。不同的l_i可具有相同的

在一个实现中，

且

其中将散列位

限制到小于25个比特。因为对于

存在15个比特，所以l_i的长度＝40个比特。在至少一个实施例中，对于1秒音频片段，音频提取模块可选择总共100个地标。因此，音频提取模块可将要传送的数据量减少到仅每秒0.5KB以用于音频指纹化。

在此示例中，通过特征提取，移动设备获得100个音频特征点和75个视觉特征点，通过高效压缩，这表示要通过网络传送视频内容的少于每秒2KB的音频-视觉签名。

图8是分层式音频-视频(LAVE)索引方案800的示例的示意图。如在800处所示，LAVE方案采用两个层802和804。第一层802表示索引条目，其包含由音频索引806和视觉索引808构成的多索引(multi-index)。第二层804表示视觉散列位，其包括第二层视觉索引化810。LAVE方案使用第二层视觉索引化810的视觉散列位来进行特征匹配和组合。在第一层中的搜索之后，系统可从音频索引和从视觉索引获得细化的类似的视觉特征点。相应地，此上下文中的组合包括将来自音频索引以及来自视觉索引的经细化的类似的视觉特征点融合在一起并从中选择最(前K个)类似的视觉特征点。

这些结构有两个优点：1)这些结构通过采用层次化的分解策略改善了视觉点搜索速度，以及2)这些结构利用了音频和视觉信号的互补性质。第一层802中的不同的索引条目保留了音频和视觉签名的个体结构。在第二层804中，音频和视觉的组合可通过视觉散列位的汉明距离(hamming distance)来加权。

构建LAVE索引

在各实施例中，与视觉特征相对照，音频特征可被高度压缩，例如，用仅25个比特来表示每个点。该压缩允许LAVE搜索模块528进行音频索引的线性搜索。为了构建LAVE索引516，诸如在618处示出的过程可使用音频索引作为第一层802的一部分，且第一层的音频索引中的每个桶，例如806a,

可通过视频ID、音频时间偏移t^a以及关键帧数量t^v与第二层相关联，例如，

以及

以及对于806b，例如

806c，例如

等，如此等等。通过音频索引，分层式音频-视频引擎328可细化第二层中要被搜索的视觉点的数量，这改善了搜索速度。

然而，被显著改变或丢失的音频信息可使得难以在第二层中找到最接近的邻居。分层式音频-视频引擎328使用多索引(multi-index)来解决此问题。分层式音频-视频引擎328通过m个不同的散列表来索引来自第二层视觉索引的散列位，这些散列表构造了第一层的视觉索引。分层式音频-视频引擎328随机地从第二层中的散列位中选择第一层中的视觉索引的散列位

例如，

等。对于所接收的视觉点，至少一个此类散列表中的落在该查询附近的条目被认为是邻候选。分层式音频-视频引擎328随后使用第二层索引8 10来检查候选的有效性，例如，

与现有技术相对照，分层式音频-视频引擎328利用m+1个多索引：m个视觉索引和1个音频索引。由该m+1个多索引细化的所有结果在第二层中被组合在一起且前N个类似结果被选择。音频索引减少了视觉索引的数量m。在至少一个实现中，该工具用至少一个视觉索引工作。

搜索LAVE索引

在各实施例中，LAVE索引化中的搜索过程可被如下地呈现。令P_a＝{l₁，l₂，...，l_M}表示所接收的音频查询点而P_v＝{v₁，v₂，...，v_L}表示所接收的视觉查询点。通过搜索过程(诸如搜索过程630)，LAVE搜索模块528可针对每个查询视觉点返回前K个视觉点。

步骤1，对于P_a中的每个音频点l_m，LAVE搜索模块528通过在音频索引中的线性搜索获得最接近的近似邻居。随后LAVE搜索模块528向不同的候选群集C＝{c₁，c₂，...，c_N}分配匹配对。如果两个对的最接近的近似邻居来自同一视频，则LAVE搜索模块528向同一群集分配这两个对。

步骤2，LAVE搜索模块528通过时间验证来对群集重新排序。例如，LAVE搜素模块528可通过Δt表示时间距离来表示匹配对中的两个LBAF中的时间差。可针对C_n中的所有对计算Δt的直方图，且c_n的得分等于h_n/M，其中h_n表示该直方图的最大值。此得分也可被用于相似度计算。随后前K′个候选群集被选择。第二层中与前K′个候选群集相关联的桶可被当作一子集。

步骤3，对于P_v中的每个v₁，K LAVE搜索模块528可如下地获得最接近的近似邻居：a)前K个近似邻居可通过第二层的该子集中的线性搜索来确定。b)使用多索引索引化方法来搜索其它前K个最接近的邻居点。c)2K个最接近的邻居点可按照相似距离被重新排序，且前K个最接近的点可被选择。

步骤4，LAVE搜索模块528可返回前K个最接近的视觉点作为搜索结果。

概言之，根据该过程，LAVE搜索模块528组合两个级中的音频和视觉信息。第一级是步骤1-步骤3.a。在此级中，移动视频搜索使用更高压缩的音频信息作为粗略过滤器以及使用更多的有辨识度的视觉信息作为精细过滤器来改善整体搜索速度。而且，因为相似度在分开的层中被计算，所以组合级也可保留每个签名的个体结构。第二级是步骤3.b-步骤4。与第一组合级(其严重依赖于音频搜索精确度)相对照，在第二级中，音频和视觉信息的组合可通过视觉散列位的汉明距离来加权。这两个级利用了音频和视觉信号的互补性质来用于稳健的移动视频搜索。由于该m+1个多索引，即m个视觉索引和1个音频索引，搜索LAVE索引的计算复杂度可基于LAVE搜索模块528用来搜索最接近的视觉邻居点的多索引索引化方法。

几何验证

在各实施例中，通过几何验证模块530的几何验证(诸如几何验证634)可被如下地呈现。几何验证可使用前N个点，利用霍夫变换(Hough transfer)方法来获得查询的相似的源关键帧，以及考虑局部特征的空间一致性的后续几何验证(GV)634可被用来拒绝假肯定(false-positive)匹配。为了减少GV的时间消耗，几何验证模块530可采用基于快速和有效的GV的排名步骤来找到最相似的图像。在至少一个实现中，该方法利用描述符的定向，以使得局部特征的位置信息不需要通过网络被传送。该方法假设重复图像的两个匹配的描述符应当具有相同的定向差异。所以，对于两个重复图像，几何验证模块530计算每个匹配的局部特征对之间的定向距离Δθ_d。随后几何验证模块530将所有Δθ_d量化到C个容器(bin)中，例如C＝10。而且，几何验证模块530扫描直方图以寻找峰值并将全局定向差异设置为峰值值。几何验证模块530从该峰值中的对的数量获得几何验证得分，所述对的数量通过总的对的数量来归一化。

渐进式查询

在各实施例中，渐进式查询过程(诸如渐进式查询640)由渐进式查询模块532执行。与现有的移动视频搜索系统(即，在实现所有查询数据之后搜索)相对照，如本文所述的渐进式查询过程可显著减少查询成本并改善用户的搜索体验。渐进式查询模块532可前进到下一查询并动态地计算检索结果，例如在每个查询到达后或响应于每个查询的到达。搜索可在实现稳定的结果后停止。

算法1提供了用于至少一个实施例的示例渐进式查询过程。

算法1

在如本文所述的分层式音频-视频系统中，渐进式查询过程可经由两部分图形变换和匹配算法来实现。如图6中所示，对于每个匹配的查询和源视频，渐进式查询模块532可使用两部分图形G＝{N，E}来表示该匹配。在该两部分图形中，查询节点636可由q_k∈Q表示，并表示在时间k的接收的查询，源节点638可由s_n，m∈S表示，并表示源视频V_n中的第m个关键帧。令R_k表示查询q_k的所有返回的相似关键帧s_n，m如果S_n，m∈R_k，将存在边e_k，m∈E。在每秒时间搜索后，渐进式查询模块532可更新该两部分图形G_i并随后可通过G_i渐进地计算该匹配的相似度得分。

算法1解说了渐进式查询过程的细节的一个实施例。如果新查询到达，则将添加新查询节点，诸如在636处。随后，将根据返回的结果来更新两部分图的边。在渐进式查询640期间，如果两部分图的边的数量不改变，则匹配的视频的相似度得分将不改变；否则，匹配的视频的相似度得分可被如下地更新：首先，渐进式查询模块532可计算G_i的最大大小匹配(MSM)M_i。如果|M_i|>α，则渐进式查询模块532可根据等式1计算相似度得分W_i。

W_i＝Sim(Q，V_i，W_i ^a，W_i ^v)

＝Sim_a(Q，V_i，W_i ^a)+Sim_v(Q，V_i，W_i ^v)+Sim_t(Q，V_i) (1)

在等式1中，Sim_a(Q，V_i，W_i ^a)赞成音频内容相似度，该音频内容相似度可根据等式2来计算。

在等式2中，

表示查询q_k和视频V_i之间的音频相似度而|Q|表示查询长度。Sim_v(Q，V_i，W_i ^v)指示根据等式3的视觉相似度。

在等式3中，

表示查询q_k和视频V_i之间的视觉相似度而Sim_t(Q，V_i)显示时间顺序相似度。此得分确保了匹配的视频应当具有相似的时间次序。给定G_k的MSM M_i，其时间匹配数量可以例如通过最长公共子序列(LCSS)来计算。LCSS是编辑距离的变型，渐进式查询模块532可使用该编辑距离来表示根据等式4沿时间次序匹配的M_k的帧对的数量。

从而Sim_t(Q，V_i)可根据等式5获得。

在计算Q和V之间的所有相似度之后，渐进式查询模块532可返回前K个视频作为搜索结果。在各实施例中，如本文所述的渐进式搜索查询过程640的计算复杂度是

其中|G|表示两部分图形的数量，且|N_i|表示顶点的数量，而|E_i|表示每个两部分图形中的边的数量。然而，在至少一个实现中，相似度计算过程所消耗的时间小于

因为|E_i|在大多数两部分图形中不改变。

示例操作

图9-11解说了用于实现如本文所述的LAVE索引的数据集的移动视频搜索的各方面的示例过程。这些过程被示为逻辑流程图中的各框的集合，这表示可用硬件、软件或其组合实现的一系列操作。在软件的上下文中，这些框表示在一个或多个计算机可读介质上的计算机可执行指令，这些指令在由一个或多个处理器执行时使得这些处理器执行既定操作。

这承认，软件可以是有价值的，单独地可交换的商品。它旨在包含运行于或者控制“哑”或标准硬件以实现所需功能的软件。它还旨在包含例如用于设计硅芯片，或者用于配置通用可编程芯片的HDL(硬件描述语言)软件等“描述”或者定义硬件配置以实现期望功能的软件。

注意，描述过程的次序并不旨在解释为限制，并且任何数目的所述过程框可以按任何次序组合以实现本过程或替换过程。另外，可从过程中删除各个框，而不背离此处所述的主题的精神和范围。此外，尽管如上参考图1-8所述的移动设备304和服务器306来描述该过程，但在一些实施例中包括如上所述的基于云的架构的其它计算机架构可以整体或部分地实现这些过程的一个或多个部分。

图9解说了用于在客户端设备(诸如设备304)上实现移动视频搜索工具的示例过程900。尽管过程900被描述为在客户端设备上实现，然而在一些实施例中，包括客户端设备和服务器的系统(其可包括如上所述的基于网络或云构造中的多个设备)可执行过程900的各方面。

在一些实施例中，如本文所述的移动视频搜索工具的各方面可作为在移动设备上运行的搜索应用来实现和/或经由应用编程接口(API)来实现。移动视频搜索工具可捕捉视频输入以供查询并执行对音频指纹和视觉散列位的提取以形成音频- 视频签名。在移动设备上运行的应用的情况下，该应用可发送音频-视频签名作为视频搜索查询。在API的情况下，应用可经由API展示构成该音频-视频签名的音频指纹和视觉散列位以由另一应用用于视频搜索。在该情况下，访问该API以进行视频搜索的应用可发送音频-视频签名作为视频搜索查询。

在框902，被配置成经由视频搜索工具(诸如移动视频搜索工具316)接收视频内容作为输入的设备(诸如设备304)接收视频内容作为输入。在各实施例中，接收视频内容作为输入包括诸如话筒410和/或相机408等与设备304相关联的一个或多个输入设备或组件按照时间切片经由话筒捕捉来自视频内容的音频输入和/或经由相机捕捉来自视频内容的视觉输入。在一些实施例中，接收视频内容作为输入包括接收如经由API展示的与视频内容相关联的音频输入和/或视觉输入。在若干实施例中，视频内容的时间切片被与该设备相关联的输入设备从不与该设备相关联的视频输出设备接收。在各实施例中，这些时间切片中的个体时间切片的长度包括至少约0.1秒以及最多约10.0秒。在至少一个实施例中，每个时间切片可表示1秒视频内容。

在框904，被配置成经由音频-视频提取器(诸如音频提取模块426和/或视频提取模块428中的一个或多个)提取该视频内容的一时间切片的音频-视频描述符的设备(诸如设备304)执行提取，包括该视频内容的一时间切片的音频-视频描述符的提取。在各实施例中，提取视频内容的时间切片的音频-视频描述符包括获得与该时间切片相对应的视频内容的声音和/或视觉性质。

在一些实施例中，在框906，被配置成经由音频提取模块(诸如音频提取模块426)提取该视频内容的一时间切片的声音性质的设备(诸如设备304)执行提取，包括与该时间切片相对应的视频内容的音频指纹的提取，以用于生成音频-视频签名。

在一些实施例中，在框908，被配置成经由视频提取模块(诸如视频提取模块428)提取该视频内容的一时间切片的视觉性质的设备(诸如设备304)执行提取，包括与该时间切片相对应的视频内容的至少一个视觉散列位的提取，以用于生成音频-视频签名。

在框910，被配置成经由签名生成器(诸如签名模块430)生成音频-视频签名的设备(诸如设备304)至少部分基于已被提取的音频-视频描述符来生成与视频内容的各时间切片中的一个或多个时间切片相关联的音频-视频签名。在若干实施例中，音频-视频签名包括与视频内容的时间切片相关联的至少一个音频指纹和一个或多个视觉散列位。在各实施例中，该设备上的音频-视频签名的生成可由一应用执行，且所生成的音频-视频签名可由该应用用于搜索或通过API从该应用提供。在一些实施例中，该设备上的音频-视频签名的生成可包括API提供原始描述符提取，另一应用(其可在该设备上或可在该设备外)可从该原始描述符提取生成音频-视频签名。

在框912，被配置成经由签名模块(诸如签名模块430)提供音频-视频签名的设备(诸如设备304)提供至少部分基于已被提取的音频-视频描述符生成的与视频内容的各时间切片中的一个或多个时间切片相关联的音频-视频签名作为查询。在各实施例中，提供音频-视频签名包括向数据集发送音频-视频签名作为查询。在各实施例中，该数据集包括分层式音频-视频索引数据集。

在框914，被配置成经由结果模块(诸如结果模块432)接收作为对该查询的响应的候选结果的设备(诸如设备304)接收作为对该查询的响应的候选结果。在各实施例中，接收作为对该查询的响应的候选结果包括在到达正被接收的视频内容的时间切片的结束之前将该候选结果作为候选结果的渐进式列表来接收。

在框916，被配置成经由用户界面模块(诸如用户界面模块434)呈现作为对该查询的响应的候选结果的设备(诸如设备304)引起候选结果被呈现。在各实施例中，呈现候选结果包括在到达正被接收的视频内容的时间切片的结束之前在该设备的用户界面中呈现候选结果。在一些实施例中，呈现候选结果包括在到达正被接收的视频内容的时间切片的结束之前在该设备的用户界面中呈现经更新的候选结果。这种经更新的候选结果可表示针对渐进式候选结果列表的渐进式候选结果。

图10解说了用于使用分层式音频-视频索引(诸如LAVE索引516)在服务器(诸如服务器306)上实现视频搜索的示例过程1000。

尽管过程1000被描述为在服务器上实现，然而在一些实施例中，包括一个或多个服务器的系统(其可包括如上所述的基于网络或云构造中的多个设备以及在一些实施例中可包括至少一个客户端设备)可执行过程1000。

在框1002，被配置成经由分层式音频-视频引擎(诸如分层式音频-视频引擎328)接收查询音频-视频签名作为输入的设备(诸如服务器306)接收查询音频-视频签名作为输入。在各实施例中，查询音频-视频签名被接收作为用于分层式音频-视频搜索的输入。在一些实施例中，查询音频-视频签名被接收作为用于来自移动设备(诸如设备304)的分层式音频-视频搜索的输入。

在框1004，被配置成搜索分层式音频-视频索引来标识与查询音频-视频签名具有相似度的条目的设备(诸如服务器306)(诸如LAVE搜索模块528)执行对与分层式音频-视频引擎相关联的分层式音频-视频索引的搜索以标识该分层式音频-视频索引中与查询音频-视频签名具有相似度的条目。在各实施例中，搜索标识与查询音频-视频签名具有高于一阈值的相似度的条目。在各非唯一实例中，该阈值可包括预定相似度阈值、可变相似度阈值、相对相似度阈值、和/或实时确定的相似度阈值。

在框1006，被配置成对与查询音频-视频签名具有相似度的条目执行几何验证的设备(诸如服务器306)(诸如几何验证模块530)对来自该分层式音频-视频索引的与查询音频-视频签名具有相似度的条目执行几何验证。在各实施例中，执行几何验证包括执行对来自查询音频-视频签名的各个关键帧以及来自分层式音频-视频索引的具有相似度的条目的几何验证。

在框1008，被配置成发送候选结果的设备(诸如服务器306)(诸如决策模块534)发送与查询音频-视频签名相似的候选结果。在各实施例中，发送经由几何验证标识的候选结果包括向从其接收查询音频-视频签名的移动设备(诸如移动设备304)发送经由几何验证标识的候选结果。

图11解说了用于使用分层式音频-视频索引(诸如LAVE索引516)在服务器(诸如服务器306)上实现视频搜索的另一示例过程1100。

尽管过程1100被描述为在服务器上实现，然而在一些实施例中，包括一个或多个服务器的系统(其可包括如上所述的基于网络或云构造中的多个设备以及在一些实施例中可包括至少一个客户端设备)可执行过程1100。

在框1102、1104和1106，被如关于过程1000所述地配置(诸如具有分层式音频-视频引擎328)的设备(诸如服务器306)分别执行与框1002、1004和1006相对应的操作。

在框1108，被配置成执行渐进式处理的设备(诸如服务器306)(诸如渐进式查询模块532)处理经由几何验证标识的候选结果。在各实施例中，处理经由几何验证标识的候选结果包括渐进式处理具有相应的音频-视频签名的条目。在一些实施例中，渐进式处理具有相应的音频-视频签名的条目包括采用基于两部分图形的变换和匹配。

在框1110，被配置成发送候选结果的设备(诸如服务器306)(诸如决策模块534)根据该渐进式处理来发送候选结果。在各实施例中，根据该渐进式处理来发送候选结果包括根据该渐进式处理向从其接收查询音频-视频签名的移动设备(诸如移动设备304)发送候选结果。在一些实施例中，根据渐进式处理来发送候选结果包括在用于指示候选结果已被更新且搜索将继续(诸如112)的配置中发送候选结果。在一些实施例中，根据渐进式处理来发送候选结果还包括在用于指示候选结果尚未被更新且搜索将被停止(诸如200)的配置中发送稳定的候选结果。

在框1112，被配置成发送候选结果的设备(诸如服务器306)(诸如决策模块534)确定来自渐进式处理的候选结果是否稳定。在各实施例中，确定来自渐进式处理的候选结果是否稳定包括至少部分基于候选结果是否被维持来确定是否更新候选结果。在一些实施例中，确定来自渐进式处理的候选结果是否稳定包括确定候选结果是否稳定达一时间段。在一些实施例中，该时间段按秒来测量。在一些实施例中，该时间段为2秒。在一些实施例中，该时间段为3秒。在一些实施例中，该时间段是可变的和/或是相对于在不停止搜索的情况下渐进式查询过程已被执行的次数。

在一些实施例中，响应于在框1112确定候选结果是稳定的，在框1114，被配置成结束查询的设备(诸如服务器306)(诸如决策模块534)停止与音频-视频内容相对应的搜索。在各实施例中，当在框1112确定候选结果是稳定的达一时间段时，包括停止与音频-视频内容相对应的接收、搜索、执行和处理。在一些实施例中，在框1114停止搜索可包括在用于指示候选结果尚未被更新且搜索被停止(诸如在用户界面200中)的配置中发送根据渐进式处理的候选结果。

在一些实施例中，响应于在框1112确定候选结果不是稳定的，被配置成结束查询的设备(诸如服务器306)(诸如决策模块534)继续搜索。在各实施例中，当在框1112确定候选结果不是稳定的达一时间段时，包括通过使流程返回框1102来继续搜索，其可包括重复与音频-视频内容相对应的接收、搜索、执行和处理。在一些实施例中，通过使流程返回框1102来继续搜索可包括在用于指示候选结果是否已被更新(诸如在用户界面200中)的配置中发送根据渐进式处理的候选结果。

各实施例的附加示例

实施例A包括一种方法，该方法包括：访问视频数据集；对来自该视频数据集的各个视频执行对音频-视频描述符提取；生成与各个视频的时间切片相关联的一系列音频-视频签名；以及构建分层式音频-视频索引，该索引中的条目包括该一系列音频-视频签名。

实施例B包括一种方法，该方法包括：提取与视频数据集中的个体视频相对应的音频-视频描述符；获得音频索引，该音频索引包括来自该音频-视频描述符的音频指纹；获得视觉索引，该视觉索引包括来自该音频-视频描述符的视觉散列位；通过将该音频索引和该视觉索引的至少一部分相关联来创建包括多索引的第一层；创建包括该视觉索引的第二层；以及维持该第一层的该多索引和该第二层的该视觉索引之间的时间关系。

实施例C包括如关于实施例A和/或B所述的一种方法，其中用于创建第一层的视觉索引的该至少一部分包括对来自第二层的散列位的随机选择。

实施例D包括如关于实施例A、B和/或C所述的一种方法，其进一步包括经由音频索引来细化在第二层中要搜索的视觉点的数量。

实施例E包括一种方法，该方法包括：在分层式音频-视频引擎处接收与视频内容相关的查询音频-视频签名；搜索与该分层式音频-视频引擎相关联的分层式音频-视频索引来标识该分层式音频-视频索引中与该查询音频-视频签名具有高于一阈值的相似度的条目；执行对来自该查询音频-视频签名的各个关键帧和来自该分层式音频-视频索引的具有该相似度的条目的几何验证；以及发送经由几何验证标识的候选结果。

实施例F包括一种方法，该方法包括：在分层式音频-视频引擎处接收与视频内容相关的查询音频-视频签名；搜索与该分层式音频-视频引擎相关联的分层式音频-视频索引来标识该分层式音频-视频索引中与该查询音频-视频签名具有高于一阈值的相似度的条目；执行对来自该查询音频-视频签名的各个关键帧和来自该分层式音频-视频索引的具有该相似度的条目的几何验证；渐进式处理具有相应音频-视频签名的条目；确定候选结果是否稳定；以及至少部分基于候选结果是否被维持来确定是否更新候选结果；发送根据候选结构是否被维持标识的候选结果；在候选结果不被维持达预定时间段的情况下，重复与该音频-视频内容相对应的接收、搜索、执行和处理；以及在候选结果被维持达预定时间段的情况下，停止与该音频-视频内容相对应的接收、搜索、执行和处理。

结语

随着通过移动设备可用的功能性和数据访问的不断增加，这样的设备可以被用作在行进的同时为用户提供了对日益增加的数据量的访问的个人因特网冲浪门卫。通过利用使得由如本文所述的移动设备可用的计算资源，移动视频搜索工具可有效地执行视频搜索而无需发送视频的片段本身作为查询。

尽管已经用结构特征和/或方法运算专用的语言描述了移动视频搜索系统，但要理解，所附权利要求书中定义的特征和操作不必限于所描述的具体特征或操作。相反，这些具体特征和操作是作为实现权利要求的示例形式来公开的。

Claims

1.一种涉及视频内容的查询的方法，包括：

经由计算设备的输入组件接收视频内容的多个时间切片；

在视频内容的所述时间切片上执行对音频-视频描述符的提取，以获得该时间切片的声音和视觉性质；

至少部分基于已被提取的所述音频-视频描述符来生成与视频内容的所述时间切片中的一个或多个时间切片相关联的音频-视频签名；

将与视频内容的所述一个或多个时间切片相关联的所述音频-视频签名作为查询发送到数据集；

在到达视频内容的所述时间切片的结束之前接收所述查询的候选结果，其中所述候选结果在使用所述多个时间切片中的相应时间切片中的一个或多个时间切片查询所述数据集之际被更新，且如果所述候选结果停止改变达一时间段则对数据集的所述查询停止；以及

在到达视频内容的所述时间切片的结束之前呈现所述候选结果中的至少一些候选结果。

2.如权利要求1所述的方法，其特征在于，视频内容的所述时间切片由与所述计算设备相关联的相机输入设备或话筒输入设备中的至少一个来直接或间接地接收。

3.如权利要求1或权利要求2所述的方法，其特征在于，视频内容的所述时间切片被从不与所述计算设备相关联的视频输出设备接收。

4.如权利要求1或权利要求2所述的方法，其特征在于，还包括：

在所述查询的结束处接收最终结果以及与所述最终结果有关的信息；以及

呈现所述最终结果和与所述最终结果有关的信息来指示所述查询的结束。

5.如权利要求1或权利要求2所述的方法，其特征在于，所述数据集包括分层式音频-视频索引数据集。

6.如权利要求1或权利要求2所述的方法，其特征在于：

其中所述音频-视频签名包括与该时间切片相关联的音频指纹和视觉散列位，其中所述视觉散列位是使用习得的散列函数并基于所述音频-视频描述符的视觉特征生成的；和/或

用于生成所述视觉散列位的所述习得的散列函数包括最小损失散列化或频谱散列化；

所述音频-视频描述符的所述视觉特征包括加速稳健特征描述符；和/或

所述音频指纹是使用基于地标的音频指纹化以及基于所述音频-视频描述符的音频特征生成的。

7.一种被配置成执行如权利要求1-6中任一项所述的方法的系统。

8.一种在其上编码了计算机可执行指令的计算机可读介质，所述计算机可执行指令被配置成在被执行时将一种设备编程为执行如权利要求1-6中任一项所述的方法。

9.一种涉及视频内容的查询的方法，包括：

在分层式音频-视频引擎处接收与视频内容有关的查询音频-视频签名；

搜索与所述分层式音频-视频引擎相关联的分层式音频-视频索引以标识所述分层式音频-视频索引中与所述查询音频-视频签名具有高于一阈值的相似度的条目；

执行对来自所述查询音频-视频签名的各个关键帧以及来自所述分层式音频-视频索引的具有所述相似度的条目的几何验证；

渐进式处理具有相应音频-视频签名的条目；

确定来自所述渐进式处理的候选结果是否稳定；

至少部分基于所述候选结果是否稳定来确定是否更新所述候选结果；以及

根据所述候选结果是否被确定为稳定来发送候选结果，其中当确定候选结果是稳定的达一时间段时停止所述搜索。

10.一种在其上编码了计算机可执行指令的计算机可读介质，所述计算机可执行指令被配置成在被执行时将一种设备编程为执行如权利要求9所述的方法。