CN103988232B

CN103988232B - 使用运动流形来改进图像匹配

Info

Publication number: CN103988232B
Application number: CN201280061107.6A
Authority: CN
Inventors: R·苏克桑卡尔; J·N·雅格尼克
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2011-11-01
Filing date: 2012-10-24
Publication date: 2016-10-12
Anticipated expiration: 2032-10-24
Also published as: CN103988232A; US9373040B2; EP2774119A1; EP2774119B1; WO2013066688A1; US20130108177A1; EP2774119A4

Abstract

一种运动流形系统，分析视频集合，从而识别在那些视频内与感兴趣的区域对应的图像图块，并且通过跟踪该区域在视频中随时间的移动来识别图块轨迹。基于图块识别和跟踪，该系统产生运动流形数据结构，该运动流形数据结构捕获相同语义区域可以随时间具有不同视觉表示的方式。然后，可以应用运动流形以确定在不同图块之间或者在更高级别构造、诸如图像或者视频段之间的语义相似性，包括检测在视觉上不相似的图块或者其它构造之间的语义相似性。

Description

使用运动流形来改进图像匹配

技术领域

本公开一般地涉及数字视频领域，并且更具体地涉及确定两个图像或者其部分的语义相似性的方法。

背景技术

对图像和视频的自动化分析具有诸多有用的应用。作为一个示例，用于量化图像或者其中的对象的语义相似性的能力将允许用户搜寻与当前被观看的图像或者视频相似的图像或者视频，或者允许系统在视频内跨时间识别特定对象而无论它的视觉外观如何改变。

然而，常规技术在比较两个视觉对象或者随时间跟踪对象时依赖于一致视觉相似性的存在。虽然这样的技术可以应用于具有一致视觉表示的对象，但是它们在可能变形的对象(诸如破裂气球或者随时间张开和闭合的眼睛)、能够进行有关节的运动的对象(诸如人或者动物)和可能随时间明显改变它们的视觉外观的其它类型的对象的情况下表现欠佳。

发明内容

一种计算机实施的方法的一个实施例包括识别数字视频集合中的语义区域并且通过跨视频的帧跟踪与语义区域对应的图块(patch)来识别图块轨迹。该方法还包括使用图块轨迹来创建运动流形(manifold)，该运动流形针对语义区域中的语义区域指示语义区域的不同视觉表示。该方法还包括存储运动流形。

一种计算机可读存储介质的实施例具有在其上体现的用于执行动作的可执行计算机程序。这些动作包括识别数字视频集合中的视频的语义区域并且通过跨视频的帧跟踪与语义区域对应的图块来识别图块轨迹。这些动作还包括使用图块轨迹来创建运动流形，该运动流形针对语义区域中的语义区域指示语义区域的不同视觉表示，并且存储运动流形。

在一个实施例中，一种计算机系统包括计算机处理器和具有在其中体现的可执行计算机程序指令的计算机可读介质。在由计算机处理器执行时，该指令执行动作，这些动作包括识别数字视频集合中的视频的语义区域并且通过跨视频的帧跟踪与语义区域对应的图块来识别图块轨迹。这些动作还包括使用图块轨迹来创建运动流形，该运动流形针对语义区域中的语义区域指示语义区域的不同视觉表示，并且存储运动流形。

一种计算机实施的方法的一个实施例包括访问运动流形，该运动流形针对包括视觉上相似的图像图块的图块聚类(cluster)对来量化从在视频的过程期间、在图块聚类中的图块之间的转变的分析中推导的语义相似性的程度。该方法还包括使用运动流形来确定来自第一视觉元素的第一图块与来自第二视觉元素的第二图块之间的语义相似性的程度。

在说明书中描述的特征和优点并非穷尽的，并且具体而言，许多附加特征和优点将鉴于附图、说明书和权利要求而为本领域普通技术人员所清楚。另外，应当注意在说明书中使用的言语已经主要出于可读性和指导目的而加以选择并且可能未被选择用于界定或者限制发明主题。

附图说明

图1是根据一个实施例的其中可以构造运动流形的视频共享服务的框图。

图2图示用于区域的随时间变化的轨迹的概念。

图3图示根据一个实施例的图1的运动流形模块的各种部件。

图4A和图4B分别图示示例聚类图和对应聚类矩阵。

图5A和图5B是表示根据一个实施例的由运动流形模块分析、产生和/或应用的各种类型的数据的关系和推导的数据流图。

附图仅出于示例的目的而描绘本公开的各实施例。本领域技术人员将从以下描述容易认识到可以运用这里所示结构和方法的备选实施例而不脱离这里描述的本公开的原理。

具体实施方式

系统架构

图1是根据一个实施例的其中可以运用分类器训练的示例视频共享服务100的框图。视频共享服务100表示一个系统，诸如YOUTUBE系统，该系统存储内容提供者130提供的视频并且使视频可用于客户端，诸如客户端设备135。视频共享服务100因此经由网络140与多个内容提供者130和客户端设备135通信以有助于在用户之间共享视频内容。注意，为了清楚，图1仅描绘了内容提供者130和客户端设备135的一个实例，但是可以存在任何数目的内容提供者和客户端设备。

视频共享服务100还包括前端接口102、视频服务提供模块104、视频搜索模块106、上传服务器108和视频贮存库116。未示出其它常规特征、诸如防火墙、负荷平衡器、认证服务器、应用服务器、故障恢复服务器、站点管理工具等以便更清楚地图示视频共享服务100的特征。适合的服务100的一个示例是在www.youtube.com上找到的YOUTUBE网站。其它视频托管站点也是已知的并且可以适于根据这里公开的教导来操作。可以将视频共享服务100的所示部件实施为单个或者多个软件或者硬件部件。一般而言，在一个实施例中描述为由一个部件执行的功能在其它实施例中也可以由其它部件执行或者由部件组合执行。另外，在一个实施例中描述为由视频共享服务100的部件执行的功能在适当的情况下在其它实施例中也可以由一个或者多个客户端135执行。

客户端设备135是执行客户端软件、例如web浏览器或者内置客户端应用以经由网络140连接到视频共享服务100的前端接口102并且显示视频的计算设备。客户端设备135可以例如是个人计算机、个人数字助理、智能电话、膝上型计算机、电视“机顶盒”等。

在概念上，内容提供者130向视频共享服务100提供视频内容，并且客户端135观看该内容。在实践中，内容提供者也可以是内容观看者。此外，内容提供者130可以是操作视频共享服务100的相同实体。

内容提供者130操作客户端设备以执行各种内容提供者功能。内容提供者功能可以例如包括向视频共享服务100上传视频文件、编辑视频共享服务100存储的视频文件或者编辑与视频文件关联的内容提供者偏好。

客户端135在设备上操作以观看视频共享服务100存储的视频内容。客户端135也可以用来配置与视频内容有关的观看者偏好。在一些实施例中，客户端135包括嵌入式视频播放器、诸如例如来自Adobe Systems,Inc.的FLASH播放器或者适合用于在视频共享服务100中使用的视频文件格式的任何其它播放器。注意，如这里所使用的术语“客户端”和“内容提供者”可以如从使用该术语的上下文清楚得知的那样是指提供客户端和内容提供功能的软件、软件在其上执行的硬件或者操作软件和/或硬件的实体。

视频共享服务100的上传服务器108从客户端135接收视频内容。在视频贮存库116中存储接收的内容。响应于来自客户端135的请求，视频服务提供模块104向客户端135提供来自视频贮存库116的视频数据。客户端135也可以使用视频搜索模块106、诸如通过录入包含感兴趣的关键词的文本查询来搜寻在视频贮存库116中存储的感兴趣的视频。前端接口102提供在客户端135与视频共享服务100的各种部件之间的接口。

视频贮存库116包含内容提供者130提交的视频集合117。视频贮存库116可以包含任何数目的视频117、诸如数以万计或者数以亿计。视频117中的每个视频具有使它区别于其它视频中的每个其它视频的唯一视频标识符、诸如文本名称(例如，串“a91qrx8”)、整数或者唯一命名视频的任何其它方式。可以以各种容器(container)、诸如AVI、MP4或者MOV封装视频117并且可以使用视频编解码器、诸如MPEG-2、MPEG-4、H.264等对视频117进行编码。除了它们的视听内容之外，视频117还可以具有上传了视频的内容提供者130所提供的关联元数据117A，例如文本元数据、诸如标题、描述和/或标签。

视频共享服务100还包括分析视频117内的内容并且创建运动流形数据结构的运动流形模块119，该运动流形数据结构捕获相同逻辑对象可能随时间在视觉上变化的方式。更具体而言，运动流形模块119跨连续视频帧跟踪“图块”的移动和改变，“图块”是与图像帧的在语义上有意义的区域、诸如完整对象(例如，眼睛)或者其个别点(例如，在眼角的点)对应的图像数据。

例如，考虑人脸的视频，该视频示出人的眼睛和嘴。眼睛的视觉外观和性质可以在视频段的过程内改变、诸如随着相机放大和缩小而变得略微更大或者更小或者从闭合状态(即，眼皮覆盖眼睛)改变成张开状态，并且眼睛的位置可能随着相机摇动而跨图像帧改变。因此，表示眼睛的区域不仅可能改变位置(例如，由于人转动他的或者她的头部)而且可能改变大小(例如，由于人眨眼)。相似地，嘴的形状和大小随着人在说话而随时改变。与诸如这样的区域关联的是表示眼睛和嘴的图像数据的图块，其大小和位置是跨帧而被跟踪的。作为另一示例，考虑猫跳跃的视频。这里同样，与猫关联的区域的大小和形状在视频的持续时间内迅速改变。应当注意图块不需要对应于必然离散或者完整的对象，例如图块可以仅对应于脸、猫等的一部分，或者可以对应于事件、诸如在电影视频中的爆炸。

跨时间与相同语义区域对应的跟踪的图块集合被称为“轨迹”。图2图示用于区域的随时间变化的轨迹的概念。示例视频117包括许多帧210，在图2中描绘了这些帧的子集。轨迹220表示随着特定对象在视频段的过程内改变位置、大小和形状而显示该特定对象的逻辑区域的集合，并因此可以被可视化为在帧平面内具有空间范围(例如，轮廓)和在一定数目的连续帧内具有时间范围的体积。具体而言，轨迹包括与对象对应的多个图块，诸如图2中所示十个图块。在第一所示图块220A中，区域比较小、比它的高度明显更宽并且位于它的帧的左上侧中。随着视频进展，截至第七帧，图块220B已经变得更高而保持相同宽度并且在它的帧中比图块220A位于更右侧而且有些更低。最后所示图块220C已经变得甚至更高、因此接近圆形并且在帧中更下移。应理解图2完全用于示例的目的。在多数情况下，轨迹将例如具有比十帧更大的持续时间。

跟踪允许观察相同对象随时间采用的不同视觉外观，诸如猫在站与坐之间采用的各种位置、变色龙可以在保持静止时采用的各种颜色或者爆破气球的各种形状。图1的运动流形模块119然后对在视觉上相似的图块进行分组并且形成捕获观察到的时间转变的运动流形数据结构。因此，运动流形表示对于相同逻辑区域，图块可以如何随时间改变它的外观。可以使用不同数据结构、诸如图和/或图的替代表示、诸如矩阵来表示运动流形。然后，可以应用运动流形来量化各图块或者包含图块的更复杂图像结构(诸如完整图像或者视频段)的语义相似性。

虽然在图1中描绘为视频共享服务100的部分，但是在一些实施例中，运动流形模块119可以从视频共享服务分离。例如，运动流形模块119可以位于远离视频共享服务100的地方并且经由网络140可访问，并且可以由与操作视频共享服务的组织不同的组织操作。更一般而言，可以在提供存储的视频的贮存库的任何系统中或者针对该系统实施运动流形模块119。

图3图示根据一个实施例的运动流形模块119的各种部件。在该实施例中，运动流形模块119包括识别将被跟踪的各图块的图块识别模块305。如以上注意到的那样，图块表示视频图像的、在语义上感兴趣的区域。图块识别模块305可以使用各种不同算法来识别与将被识别的各种类型的对象对应的图块。

在一些实施例中，图块对应于作为整体的逻辑对象、诸如人眼。在这样的实施例中，使用对象分割技术、诸如自适应背景减法、利用聚类算法的空间和时间分割或者本领域技术人员已知的其它算法来识别对象的图块。在一个实施例中，使用均值移位算法，该均值移位算法在视频的单个帧内运用聚类。在基于均值移位算法的分割中，例如通过将图像的每个像素转换成对应值、诸如颜色值、梯度值、纹理测量值等来将帧转换成标记(token)。然后将窗均匀地定位于数据周围，并且针对每个窗计算质心，即该窗中的数据值的均值位置，并且将每个窗重新居中于该点周围。重复这一过程直至窗收敛，即找到局部中心。然后将收敛至相同点的窗遍历的数据聚集在一起，从而产生分离图像区域的集合。

在其它实施例中，图块对应于更大对象的各点、诸如眼睛的内眼角。在一些实施例中应用诸如哈里斯兴趣点算符这样的技术以找到角点并且在视频中跨帧跟踪它们。

运动流形模块119还包括针对每个识别的图块推导表征该图块的对应特征集合的特征提取模块310。在一个实施例中，特征被存储为描述图块的视觉外观的矢量值。视觉外观特征可以例如包括使用高斯拉普拉斯(LoG)或者尺度不变特征变换(SIFT)特征提取器而采样的特征、在HSV颜色空间中使用色调和饱和度而计算的颜色直方图、运动刚性特征、纹理特征或者使用通过Canny边缘检测器而检测到的边缘的边缘特征。其它类型的视觉特征将为本领域技术人员所知并且也可以被使用，诸如包括GLOH(梯度位置和定向直方图)、LESH(基于局部能量的形状直方图)、HOG(定向梯度直方图)或者SURF(加速鲁棒特征)特征的特征描述符。

运动流形模块119还包括跟踪与各种感兴趣的视觉区域中的每个感兴趣的视觉区域对应的不同图块的轨迹识别模块315。(感兴趣的区域下文被称为“语义区域”。)例如，运动流形模块119可以在视频的整个连续部分(在该连续部分期间人存在于场景中)内跟踪视频中对人的眼睛进行描绘的区域，从而识别其中眼睛具有不同外观、诸如张开、闭合或者部分地闭合等的不同帧的多个区域。通过跨连续帧跟踪语义区域，轨迹识别模块315可以确定不同视觉外观却表示相同语义区域。

如本领域技术人员将已知的那样，可以在不同实施例中以不同方式实现跟踪。例如，可以使用跟踪算法、诸如经由有条件密度传播算法的轮廓跟踪、基于内核的对象跟踪等来跟踪复杂对象、诸如眼睛。另外，在一些实施例中，无需跨每帧执行跟踪，但是实际上可以(例如)按照固定间隔、诸如每五帧或者基于在给定视频中的观察到的移动速率而动态计算的可变帧长度的间隔来执行跟踪。

轨迹识别模块315通过构造轨迹贮存库350来表示识别的轨迹，该轨迹贮存库包括元组p＝<r,v,t,l,f>的集合，这些元组表示随时间变化的具体图块p。在该实施例中，r表示图块与之对应的图像区域的唯一标识符，v表示图像区域存在于其中的视频的唯一标识符，t表示在视频v内对于对应区域r图块被识别的时间的时间指示符(例如，标识帧的编号或者其它时间单位)，l表示图块所处的与t对应的帧内的区域(例如，如果区域是单个点，则为x、y坐标，或者如果区域是表示对象的二维区域，则为定义定界矩形的两个这样的坐标，或者与帧中的任意形状的区域对应的像素列表(或者对列表的引用))，并且f表示特征提取模块310从图块提取的特征矢量。每个轨迹具有它自己的唯一标识符t-id。用于特定区域r₁的具体轨迹然后由所有图块元组的集合表示，其中r＝r₁。另外，由于每个图块对应于单个轨迹，所以每个图块p还可以与它所对应的轨迹t-id关联。如本领域技术人员将已知的那样，无需用以上描述的方式，而是可以在不同实施例中以不同方式表示轨迹。

特定轨迹无需在它位于其中的视频的整个持续时间内存在。例如，在轨迹表示特定人的眼睛的情况下，轨迹仅对于视频的连续部分存在，在该连续部分期间在视频内示出该人并且在该连续部分期间人的眼睛可见。

认识到轨迹贮存库350可以描述在不同视频内存在并且在那些视频的相异部分期间存在的很大量(例如，数以百万计)相异轨迹。

在一个实施例中，运动流形模块119还包括图创建模块320，该图创建模块以聚类图361的形式表示轨迹贮存库350的数据，该聚类图更显式地表示在给定轨迹的不同图块之间的视觉转变。在图中的每个节点表示相似特征矢量f的聚类，每个特征矢量与个别图块关联。图创建模块320使用聚类算法、诸如k均值聚类或者基于连通的聚类，根据视觉相似性对图块的特征矢量f进行聚类。每个聚类是图中的节点、因此表示具有很相似外观的图块而无论它们所属的特定轨迹如何。因此，一个特定聚类可以表示来自任何数目的不同轨迹和视频的、与张开的眼睛对应的区域，而另一聚类可以表示同样来自任何数目的不同轨迹和视频的、与闭合的眼睛对应的区域。

图创建模块320接着识别来自不同聚类节点的不同图块是否在相同轨迹上共同出现——即表示相同语义区域的不同视觉状态——并且在图361中形成节点之间的边以反映那些视觉转变。例如，在一个实施例中，图创建模块320与每个聚类节点关联对应于聚类中的图块的唯一轨迹t-id的集合。图创建模块然后检查每个聚类c_i并且对于每个关联轨迹t-id_i识别它的关联轨迹集合中的、也具有t-id_i的每个其它聚类c_j。因此，如果轨迹贮存库350中的数据指示特定聚类c₁(对应于张开的眼睛)与特定轨迹t-id₁关联并且不同聚类c₂(对应于闭合的眼睛)也与轨迹t-id₁关联，则图创建模块320可以在聚类节点c₁与c₂之间创建边。在该示例中，该边反映下述事实：即，张开的眼睛和闭合的眼睛二者尽管视觉外观不同、但是均表示相同逻辑对象：人的眼睛。备选地，图像创建模块320可以仅在已经被观察到与聚类节点对应的图块以充分频率、诸如特定阈值数目的次数或者时间的特定阈值百分比在轨迹中共同出现时在那些聚类节点之间创建边。

在一个实施例中，运动流形模块119还包括矩阵创建模块325，该矩阵创建模块将聚类图361表示为可以在比较两个不同图块的语义相似性时更高效地被应用的聚类矩阵362。具体而言，聚类矩阵362是对称N x N矩阵，其中N是图361中的相异聚类节点的数目。矩阵中的每个元素具有如下值，该值表示在与该值的行和列对应的聚类节点的图块之间的某个相似性程度(或者等效地，差异)。例如，该值可以表达在对应节点之间、在图361中的未加权最短路径距离，该未加权最短路径距离表示聚类节点的图块之间的差异程度。备选地，可以重新制定表示差异的值以表达相似性，而更大值表示更大相似程度。在一个实施例中，可以从聚类节点直接创建聚类矩阵362，而不创建聚类图361。

作为在聚类图361与聚类矩阵362之间的关系的一个简单示例，假设图具有如图3A中描绘的那样排列的七个聚类节点A-G，这七个聚类节点表示视觉上相似的图块特征矢量的七个聚类。矩阵创建模块325可以创建如图3B中那样的对应聚类矩阵362，其中矩阵值表示在对应节点之间的最短路径距离(例如，边数)、诸如在聚类节点A与G之间的距离3。在图4A和图4B的示例中，假设边具有值或者成本1；然而可以代之以(例如)使用在连接的聚类之间的匹配轨迹的数目或者百分比来对边进行加权以表达相似性程度。

认识到运动流形数据结构360可以在不同实施例中以不同方式被实施，并且创建聚类图361和聚类矩阵362二者仅为一种用于这样做的方式。例如，可以通过直接创建聚类矩阵362来实施运动流形数据结构360而不首先预创建聚类图362。另外，聚类矩阵362——如果被使用——可以用不同方式、诸如行或者列矢量来表示。

因此，运动流形模块119的模块305-325分析视频贮存库116的视频117并且创建运动流形数据结构360，该运动流形数据结构捕获相同逻辑对象可以随时间在视觉上变化的方式。仍然应用运动流形数据结构360来量化来自图像或者视频的视觉元素的语义相似性，这些视觉元素包括尚未在视频贮存库116内、因此先前未作为模块305-325的动作的部分而被分析的那些新视频。

因此，运动流形模块119还包括相似性确定模块330，该相似性确定模块量化在不同视觉元素、诸如图像或者视频的个别图块、作为整体的图像和/或视频或者视频段之间的语义相似性。该视觉元素作为其中的一部分的图像或者视频无需先前已经作为模块305-355的动作的部分而被分析过。

相似性确定模块330执行的基本比较类型是比较两个图块——或者更精确地是比较它们的对应特征矢量——以量化它们表示图像的相同语义区域或者作为该语义区域的部分的概率。接着可以使用如以下描述的图块比较来实现更复杂的比较形式、诸如图像的比较或者视频段的比较。

为了继续先前示例，在图块比较的情况下，应当在与张开的眼睛对应的图块和与闭合的眼睛对应的图块之间存在强语义相似性程度(如果不是视觉相似性)，假设它们均对应于相同语义对象(即，眼睛)。也就是说，即使图块可能在视觉上很不相似，但是它们仍然是相同轨迹的部分，并因此表示相同语义区域。

具体而言，在一个实施例中，相似性确定模块330将在它的对应特征矢量x表示的第一图块与它的对应特征矢量y表示的第二图块之间的相似性计算为聚类矩阵362中的值的加权和。由于图块可以来自未在视频贮存库116中的视觉元素——或者至少在运动流形360被创建的时间未在视频贮存库中的视觉元素——所以它们可能不与已经在聚类图361的图块聚类中存储的图块中的任何图块理想地对应。(对照而言，如果x与聚类c₁理想地对应并且y与聚类c₂理想地对应，则可以通过读取在行c₁和列c₂的值来简单地计算在x与y之间的相似性程度，或者等效地读取在行c₂和列c₁的值，因为矩阵362是对称的。)因此，取代仅读取矩阵362的单个值，计算所有矩阵值的加权和从而反映x和y可以在某个程度上对应于在矩阵中表示的聚类对中的每个聚类对这样的事实。

更具体而言，在视觉上比较用于第一图块的特征矢量x与聚类图361的聚类节点中的每个聚类节点以对于每个聚类节点c_i确定x与c_i之间的相似性程度ψ_i。类似地确定y与每个聚类节点c_i之间的相似性程度ω_i。然后，通过ψ_i和ω_i的乘积对矩阵362的列c_i和行c_j的值进行加权，从而表示下述事实：即，用于特定聚类对的矩阵值仅在x和y与该对的相应聚类相似的程度上适用于x和y的语义。这些运算可以由以下等式更简洁地表达：

Sim(x,y)＝Σ_i,j[(M_ij)*(ψ_iω_j)]

其中Sim()是相似性函数，M是矩阵362，i和j是矩阵的行和列索引，ψ_i是x表示聚类节点i的程度，并且ω_j是y表示聚类节点j的程度。(更大的和表示更大相似性程度，因此如果聚类矩阵362的值标识差异程度，则首先它们被转换以表达为在相似性确定模块330计算加权和之前的对应相似性程度。)

作为更具体示例，回顾图4B，假设聚类节点A是表示张开的眼睛的图块聚类并且聚类节点B是表示闭合的眼睛的图块聚类。如果x是理想地表示聚类节点A的张开的眼睛的特征矢量并且y是理想地表示聚类节点B的闭合的眼睛的特征矢量，则可以通过读取在列A、行B(或者等效地列B、行A)的矩阵条目来简单地确定x和y的精确相似性。然而，由于用于聚类节点A的x表示和用于聚类节点B的y表示可能不太理想，所以计算x与A之间(和x与所有其它聚类节点之间)以及y与B之间(和y与所有其它聚类节点之间)的相似性，并且针对每个矩阵元素计算x相似性、y相似性和对应矩阵元素的值的乘积，并且将结果求和。因此，例如将与图4B的矩阵A的第一行对应的加权和计算为：

(M_A,A*Sim(x,A)*Sim(y,A))+(M_A,B*Sim(x,A)*Sim(y,B))+(M_A,C*Sim(x,A)*Sim(y,C))+(M_A,D*Sim(x,A)*Sim(y,D))+(M_A,E*Sim(x,A)*Sim(y,E))+(M_A,F*Sim(x,A)*Sim(y,F))+(M_A,G*Sim(x,A)*Sim(y,G))

其中M_i,j表示在行i(对应于聚类c_i)和列j(对应于聚类c_j)的矩阵值，并且Sim(v,Cl)表示在矢量v与聚类Cl之间的视觉相似性的程度。针对其它行的相似性将以相同方式来计算并且类似地与总相似性值相加。

在一个实施例中，特征矢量与聚类节点的视觉相似性的程度通过将该特征矢量与聚类中的特征矢量的质心比较来计算。例如，为了计算相似性，可以比较聚类质心矢量和特征矢量的点积并且适当地归一化的和。

假如有如以上描述的用于计算用于图块的语义相似性程度的能力，相似性确定模块330可以在图块相似性方面确定更高级别类型的语义相似性。一个这种类型的更高级别语义相似性是在两个图像之间的语义相似性。例如，在一个实施例中，静态图像I₁和I₂被认为在它们包含相似图块的程度上语义相似。因此，如果I₁具有m个图块并且I₂具有n个图块，则相似性确定模块330形成来自I₁和I₂的图块的笛卡尔乘积并且执行在图块对之间的m*n个图块比较。如本领域技术人员将已知的那样，使用图块相似性计算的精确图像相似性计算可以在不同实施例中变化。例如，如果图像包含具有至少图块相似性阈值程度的至少某个最小数目的图块，则这些图像被认为是相似的。或者，可以通过将所有图块对的图块相似性测量求和并且通过除以图块对的数目进行归一化来计算实值相似性测量。

以相似方式，相似性确定模块330可以在图块相似性方面确定在视频段或者视频(这些视频实质上是构成整个视频的视频段)之间的语义相似性。在一个实施例中，相似性确定模块330为两个视频段识别部分地或者完全地存在于视频段内的所有图块轨迹。然后比较第一视频的每个轨迹与第二视频的每个轨迹，并且基于轨迹之间的语义相似性确定视频段之间的语义相似性程度。可以在不同实施例中以不同方式定义两个轨迹之间的语义相似性程度。例如，每对图块——一个来自第一轨迹并且一个来自第二轨迹——可以具有计算其语义相似性。然后，可以在匹配(即，具有至少某个阈值相似性水平)的图块对数目方面定义轨迹的语义相似性，其中第一匹配具有对轨迹相似性的最大正面影响并且每个后续匹配具有逐渐地更低的正面影响。

相似性确定模块330可以用类似方式确定不同视频或者图像类型之间(诸如图像与视频段之间)的语义相似性。例如，可以通过确定图像相对视频段内部分地或者完全地包含的图块轨迹中的每个图块轨迹的语义相似性来确定在图像与视频段之间的语义相似性。进而，可以用与计算两个图块轨迹的语义相似性相似的方式，根据图像中的图块和图块轨迹中的图块的笛卡尔乘积、基于所有图块对的语义相似性定义图像和图块轨迹的语义相似性。

数据流

图4A和图4B是表示根据一个实施例的由图2的运动流形模块119分析和/或产生的各种类型的数据的关系和推导的数据流图。图5A描绘在概念上表示运动流形数据结构360的聚类图361和聚类矩阵362的创建，并且图5B描绘应用运动流形以计算两个图块的相似性测量。

具体而言，在图5A中，如以上关于图块识别模块305描述的那样，分析视频117并且从它们中提取与语义兴趣区域(例如，不连续点或者个别对象)对应的图块。如以上关于特征提取模块310所描述的那样，提取与识别的图块对应的特征矢量。跨视频跟踪区域的移动和视觉改变、由此产生轨迹集合，每个轨迹包括用于该区域的各种图块。以上关于轨迹识别模块315更具体描述了这些动作。然后，构造运动流形数据结构360，运动流形指示语义兴趣区域可以随时间具有的不同视觉表示、诸如与眼睛对应的区域具有张开和闭合的视觉表示二者。在一个实施例中，可以如以上关于图创建模块320和矩阵创建模块325描述的那样，使用聚类图361和/或聚类矩阵362来实施运动流形。

如图5B中进一步所示，如以上关于相似性确定模块描述的那样，然后可以应用运动流形360以量化不同图块的语义相似性——而不是仅量化视觉相似性。然后，可以充分利用用于量化图块的语义相似性的能力以识别更高级别形式的语义相似性、诸如图像之间或者视频段之间的语义相似性。

因此，执行图4中描绘的操作流程的一个实施例所产生的运动流形可以用来不仅在视觉级别而且在语义级别上量化图像或者视频的不同部分的相似性。因此，例如使用运动流形可以允许如下认识：即，闭合的眼睛和张开的眼睛的图像在语义上相似——即使它们在视觉上很不同——因为它们往往在视频内随时间相互跟随。

应用

可以在广泛范围的视频或者图像上下文、诸如以下境况中应用语义相似性确定。

搜索：相似性确定模块330可以在预处理阶段中确定在图像贮存库中的图像、来自视频贮存库116中的视频117的视频段等的语义相似性。然后，当用户录入对于特定概念的查询并且搜索引擎识别搜索结果集合时，可以用与已经在搜索结果集合中的那些图像或者视频具有充分高的语义相似性程度的其它图像或者视频来扩充搜索结果。

此外，可以通过在搜索结果中包括与语义上相似的图块轨迹对应的具体视频段来使图像或者视频段粒度更细。例如，当搜寻特定概念时，可以识别与用于该概念的图像搜索结果最相似的图块轨迹集合，并且可以相应地在搜索结果中包括与那些轨迹对应的视频段、因此对具体相关视频部分进行定位。

已经关于一个可能实施例用具体细节描述了本公开。本领域技术人员将理解可以在其它实施例中实现本公开。首先，部件和变量的特定命名、术语的大写、属性、数据结构或者任何其它编程或者结构方面并非必需或者重要的，并且实施本公开或者它的特征的机制可以具有不同名称、格式或者协议。而且，在这里描述的各种系统部件之间的特定功能划分也仅为举例而非必需；单个系统部件执行的功能可以代之以由多个部件执行，并且多个部件执行的功能可以代之以由单个部件执行。

以上描述的一些部分在对信息的操作的算法和符号表示方面呈现本公开的特征。这些算法描述和表示是数据处理领域技术人员用来向本领域其他技术人员最有效地传达他们的工作实质的手段。这些操作在功能或者逻辑上被描述时被理解为由计算机程序实施。另外，将这些操作布置称为模块或者冠以功能名称也已经证实有时是便利的而不失一般性。

除非如从以上讨论中清楚的那样另有具体明示，应理解贯穿说明书利用诸如“确定”这样的术语的讨论指计算机系统或者相似电子计算设备的动作和过程，该计算机系统或者相似电子计算设备操控和变换在计算机系统存储器或者寄存器或者其它这样的信息存储装置、传输或者显示设备内表示为物理(电子)量的数据。

本公开的某些方面以算法的形式包括这里描述的过程步骤和指令。应当注意本公开的过程步骤和指令可以体现在软件、固件或者硬件中，并且当体现在软件中时本公开的过程步骤和指令可以被下载以驻留于实时网络操作系统所使用的不同平台上并且从这些不同平台来操作这些过程步骤和指令。

本公开也涉及一种用于执行这里的操作的装置。该装置可以被具体构造用于所需目的，或者它可以包括在计算机可以访问的计算机可读介质上存储的计算机程序有选择地激活或者重新配置的通用计算机。这样的计算机程序可以存储于非瞬态计算机可读存储介质中，诸如但不限于包括软盘、光盘、CD-ROM、光磁盘的任何类型的盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或者光卡、专用集成电路(ASIC)或者适合用于存储电子指令并且各自耦合到计算机系统总线的任何类型的计算机可读存储介质。另外，在说明书中所指代的计算机可以包括单个处理器或者可以是运用多处理器设计用于增加计算能力的架构。

这里呈现的算法和操作并非固有地与任何特定计算机或者其它装置有关。各种通用系统也可以与根据这里的教导的程序一起使用，或者构造更专门化的装置以执行所需方法步骤可以证实是便利的。用于多种这些系统的所需结构将与等效变化一起为本领域技术人员所清楚。此外，未参照任何特定编程语言描述本发明。应理解多种编程语言可以用来实施如这里描述的本公开的教导并且提供对具体语言的任何引用以便公开本发明的实现和最佳实施方式。

本公开良好地适合于在许多拓扑之上的广泛的多种计算机网络系统。在该领域内，大型网络的配置和管理包括通过网络、诸如因特网通信地耦合到不相似计算机和存储设备的存储设备和计算机。

最后，应当注意在说明书中使用的语言已经主要出于可读性和教导的目的而加以选择并且可能不被选择用来界定或者限制发明主题。因而，本公开的公开内容旨在于举例说明而非限制在所附权利要求中阐述的本公开的范围。

Claims

1.一种用于创建运动流形以确定两个图像图块之间的相似性的计算机实施的方法，所述方法包括：

识别数字视频集合中的视频的语义区域；

针对每个识别的语义区域，通过识别与所述语义区域对应的图块来识别图块轨迹，并且跨所述视频的连续帧跟踪所述图块，与所述语义区域对应的图块包括针对所述语义区域的图像数据；

通过使用针对给定的语义区域所识别的所述图块轨迹来创建所述运动流形，所述运动流形指示所述给定的语义区域的不同视觉表示；所述运动流形的所述创建包括：

根据所述图块的视觉相似性将所述图块聚类成图块聚类，每个图块聚类表示具有相似视觉外观的所述图块的子集，所述子集中的所述图块来自一个或多个图块轨迹，以及

确定所述图块聚类的对之间的语义相似性的程度，所述确定基于所述对的第一聚类和所述对的第二聚类具有来自相同图块轨迹的图块的程度，以及

存储所述运动流形。

2.根据权利要求1所述的计算机实施的方法，其中所述语义区域由个别图像点构成。

3.根据权利要求1所述的计算机实施的方法，其中所述语义区域由视觉上不连续的点定义的个别语义对象构成，并且其中用于语义对象的所述图块包括用于所述点界定的区域的像素数据。

4.根据权利要求1所述的计算机实施的方法，其中每个识别的图块轨迹与所述语义区域之一关联并且包括用于所述语义区域的被跟踪的图块的集合。

5.根据权利要求4所述的计算机实施的方法，还包括用表示图块的关联<r,v,t,l>元组的集合表示识别的图块轨迹，r表示关联的语义区域的标识符，v表示所述关联的语义区域存在于其中的视频的标识符，t表示与所述语义区域对应的图块在所述视频内被识别到的时间的时间指示符，并且l表示所述语义区域在所述时间在所述视频的帧内所处的区域。

6.根据权利要求1所述的计算机实施的方法，其中创建所述运动流形包括：

基于所述确定的所述图块聚类的所述对之间的语义相似性的程度，通过在聚类对之间创建边以形成聚类图。

7.根据权利要求1所述的计算机实施的方法，其中创建所述运动流形包括：

形成聚类矩阵，其中每个矩阵元素是基于所述确定的与所述矩阵元素对应的一对所述图块聚类之间的语义相似性的程度。

8.根据权利要求1所述的计算机实施的方法，还包括基于所述确定的所述图块聚类的所述对之间的语义相似性的程度，通过在聚类对之间创建边以形成聚类图，并且基于所述聚类图的所述边形成具有矩阵元素的方形聚类矩阵。

9.根据权利要求1所述的计算机实施的方法，还包括：

使用所述运动流形来确定来自第一视觉元素的第一图块与来自第二视觉元素的第二图块之间的语义相似性的程度。

10.根据权利要求9所述的计算机实施的方法，还包括：

使用所述运动流形来确定所述第一视觉元素与所述第二视觉元素之间的语义相似性的程度，其中所述第一视觉元素是图像和视频段之一。

11.一种用于创建运动流形以确定两个图像图块之间的相似性的计算机实施的装置包括：

用于识别数字视频集合中的视频的语义区域的装置；

用于针对每个识别的语义区域、通过识别与所述语义区域对应的图块来识别图块轨迹并且跨所述视频的连续帧跟踪所述图块的装置，与所述语义区域对应的图块包括针对所述语义区域的图像数据；

用于通过使用针对给定的语义区域所识别的所述图块轨迹来创建所述运动流形的装置，所述运动流形指示所述给定的语义区域的不同视觉表示；所述运动流形的所述创建包括：

根据所述图块的视觉相似性将所述图块聚类成图块聚类，每个图块聚类表示具有相似视觉外观的所述图块的子集，所述子集的所述图块来自一个或多个图块轨迹，以及

用于存储所述运动流形的装置。

12.根据权利要求11所述的计算机实施的装置，其中每个识别的图块轨迹与所述语义区域之一关联并且包括用于所述语义区域的被跟踪的图块的集合。

13.根据权利要求12所述的计算机实施的装置，还包括用于用表示图块的关联<r,v,t,l>元组的集合表示识别的图块轨迹的装置，r表示关联的语义区域的标识符，v表示所述关联的语义区域存在于其中的视频的标识符，t表示与所述语义区域对应的图块在所述视频内被识别到的时间的时间指示符，并且l表示所述语义区域在所述时间在所述视频的帧内所处的区域。

14.根据权利要求11所述的计算机实施的装置，其中创建所述运动流形包括：

用于基于所述确定的所述图块聚类的所述对之间的语义相似性的程度、通过在聚类对之间创建边以形成聚类图的装置。

15.根据权利要求11所述的计算机实施的装置，其中创建所述运动流形包括：

用于形成聚类矩阵的装置，其中每个矩阵元素是基于所述确定的与所述矩阵元素对应的一对所述图块聚类之间的语义相似性的程度。

16.根据权利要求11所述的计算机实施的装置，还包括：

用于使用所述运动流形来确定来自第一视觉元素的第一图块与来自第二视觉元素的第二图块之间的语义相似性的程度的装置。

17.一种用于创建运动流形以确定两个图像图块之间的相似性的计算机系统，所述系统包括：

计算机处理器；以及

计算机可读存储介质，具有在其中体现的可执行计算机程序指令，所述可执行计算机程序指令在由所述计算机处理器执行时执行动作，所述动作包括：

识别数字视频集合中的视频的语义区域；

针对每个识别的语义区域，通过识别与所述语义区域对应的图块来识别图块轨迹，并且跨所述视频的连续帧跟踪所述图块的装置，与所述语义区域对应的图块包括针对所述语义区域的图像数据；

存储所述运动流形。

18.根据权利要求17所述的计算机系统，其中每个识别的图块轨迹与所述语义区域之一关联并且包括用于所述语义区域的被跟踪的图块的集合。

19.根据权利要求18所述的计算机系统，所述动作还包括用表示图块的关联<r,v,t,l>元组的集合表示识别的图块轨迹，r表示关联的语义区域的标识符，v表示所述关联的语义区域存在于其中的视频的标识符，t表示与所述语义区域对应的图块在所述视频内被识别到的时间的时间指示符，并且l表示所述语义区域在所述时间在所述视频的帧内所处的区域。

20.根据权利要求17所述的计算机系统，其中创建所述运动流形包括：

21.根据权利要求17所述的计算机系统，其中创建所述运动流形包括：

22.根据权利要求17所述的计算机系统，所述动作还包括：

23.一种计算机实施的方法，包括：

针对数字视频集合中的每个视频：

识别所述视频的语义区域；

将用于给定的语义区域的被跟踪的图块与用于所述给定的语义区域的唯一标识符相关联；

跨所述视频聚合识别的图块；

通过根据视觉外观对所聚合的图块进行聚类以形成图块聚类，每个图块聚类表示具有相似视觉外观的所述图块的子集，所述子集的所述图块来自一个或多个图块轨迹；

形成由反映节点之间的视觉转变的边所连接的所述节点的聚类图，每个节点与所述图块聚类之一唯一对应，所述形成所述聚类图包括：响应于与节点对中的节点对应的所述图块聚类在所述识别的图块轨迹中的至少一个识别的图块轨迹内至少具有图块共同出现的阈值程度，而在所述节点对之间创建边；

基于创建的所述边形成聚类矩阵以表示所述聚类图，所述矩阵的每个元素具有量化所述图块聚类中的第一图块聚类与所述图块聚类中的第二图块聚类之间的语义相似性的程度的值；以及

存储所述矩阵，所述聚类矩阵的每个元素对应于元素行和元素列。

24.根据权利要求23所述的计算机实施的方法，还包括：

使用所述聚类矩阵来确定来自第一视觉元素的第一图块与来自第二视觉元素的第二图块之间的语义相似性的程度，所述视频集合包括第一视觉元素和第二视觉元素，所述确定语义相似性的所述程度包括：

针对所述聚类矩阵中的每个元素，计算所述第一图块与对应于所述聚类矩阵中的所述元素的所述元素行的图块聚类之间的第一相似性程度和所述第二图块与对应于所述聚类矩阵中的所述元素的所述元素列的图块聚类之间的第二相似性程度；

针对所述聚类矩阵中的所述元素，将权重计算为所述第一相似性程度与所述第二相似性程度的乘积；以及

应用所述权重于所述聚类矩阵的所述元素的值，以将所述语义相似性的程度计算为所述矩阵的所述元素的所述值的加权和。