CN103988232A - 使用运动流形来改进图像匹配 - Google Patents
使用运动流形来改进图像匹配 Download PDFInfo
- Publication number
- CN103988232A CN103988232A CN201280061107.6A CN201280061107A CN103988232A CN 103988232 A CN103988232 A CN 103988232A CN 201280061107 A CN201280061107 A CN 201280061107A CN 103988232 A CN103988232 A CN 103988232A
- Authority
- CN
- China
- Prior art keywords
- segment
- cluster
- video
- semantic
- track
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
一种运动流形系统,分析视频集合,从而识别在那些视频内与感兴趣的区域对应的图像图块,并且通过跟踪该区域在视频中随时间的移动来识别图块轨迹。基于图块识别和跟踪,该系统产生运动流形数据结构,该运动流形数据结构捕获相同语义区域可以随时间具有不同视觉表示的方式。然后,可以应用运动流形以确定在不同图块之间或者在更高级别构造、诸如图像或者视频段之间的语义相似性,包括检测在视觉上不相似的图块或者其它构造之间的语义相似性。
Description
技术领域
本公开一般地涉及数字视频领域,并且更具体地涉及确定两个图像或者其部分的语义相似性的方法。
背景技术
对图像和视频的自动化分析具有诸多有用的应用。作为一个示例,用于量化图像或者其中的对象的语义相似性的能力将允许用户搜寻与当前被观看的图像或者视频相似的图像或者视频,或者允许系统在视频内跨时间识别特定对象而无论它的视觉外观如何改变。
然而,常规技术在比较两个视觉对象或者随时间跟踪对象时依赖于一致视觉相似性的存在。虽然这样的技术可以应用于具有一致视觉表示的对象,但是它们在可能变形的对象(诸如破裂气球或者随时间张开和闭合的眼睛)、能够进行有关节的运动的对象(诸如人或者动物)和可能随时间明显改变它们的视觉外观的其它类型的对象的情况下表现欠佳。
发明内容
一种计算机实施的方法的一个实施例包括识别数字视频集合中的语义区域并且通过跨视频的帧跟踪与语义区域对应的图块(patch)来识别图块轨迹。该方法还包括使用图块轨迹来创建运动流形(manifold),该运动流形针对语义区域中的语义区域指示语义区域的不同视觉表示。该方法还包括存储运动流形。
一种计算机可读存储介质的实施例具有在其上体现的用于执行动作的可执行计算机程序。这些动作包括识别数字视频集合中的视频的语义区域并且通过跨视频的帧跟踪与语义区域对应的图块来识别图块轨迹。这些动作还包括使用图块轨迹来创建运动流形,该运动流形针对语义区域中的语义区域指示语义区域的不同视觉表示,并且存储运动流形。
在一个实施例中,一种计算机系统包括计算机处理器和具有在其中体现的可执行计算机程序指令的计算机可读介质。在由计算机处理器执行时,该指令执行动作,这些动作包括识别数字视频集合中的视频的语义区域并且通过跨视频的帧跟踪与语义区域对应的图块来识别图块轨迹。这些动作还包括使用图块轨迹来创建运动流形,该运动流形针对语义区域中的语义区域指示语义区域的不同视觉表示,并且存储运动流形。
一种计算机实施的方法的一个实施例包括访问运动流形,该运动流形针对包括视觉上相似的图像图块的图块聚类(cluster)对来量化从在视频的过程期间、在图块聚类中的图块之间的转变的分析中推导的语义相似性的程度。该方法还包括使用运动流形来确定来自第一视觉元素的第一图块与来自第二视觉元素的第二图块之间的语义相似性的程度。
在说明书中描述的特征和优点并非穷尽的,并且具体而言,许多附加特征和优点将鉴于附图、说明书和权利要求而为本领域普通技术人员所清楚。另外,应当注意在说明书中使用的言语已经主要出于可读性和指导目的而加以选择并且可能未被选择用于界定或者限制发明主题。
附图说明
图1是根据一个实施例的其中可以构造运动流形的视频共享服务的框图。
图2图示用于区域的随时间变化的轨迹的概念。
图3图示根据一个实施例的图1的运动流形模块的各种部件。
图4A和图4B分别图示示例聚类图和对应聚类矩阵。
图5A和图5B是表示根据一个实施例的由运动流形模块分析、产生和/或应用的各种类型的数据的关系和推导的数据流图。
附图仅出于示例的目的而描绘本公开的各实施例。本领域技术人员将从以下描述容易认识到可以运用这里所示结构和方法的备选实施例而不脱离这里描述的本公开的原理。
具体实施方式
系统架构
图1是根据一个实施例的其中可以运用分类器训练的示例视频共享服务100的框图。视频共享服务100表示一个系统,诸如YOUTUBE系统,该系统存储内容提供者130提供的视频并且使视频可用于客户端,诸如客户端设备135。视频共享服务100因此经由网络140与多个内容提供者130和客户端设备135通信以有助于在用户之间共享视频内容。注意,为了清楚,图1仅描绘了内容提供者130和客户端设备135的一个实例,但是可以存在任何数目的内容提供者和客户端设备。
视频共享服务100还包括前端接口102、视频服务提供模块104、视频搜索模块106、上传服务器108和视频贮存库116。未示出其它常规特征、诸如防火墙、负荷平衡器、认证服务器、应用服务器、故障恢复服务器、站点管理工具等以便更清楚地图示视频共享服务100的特征。适合的服务100的一个示例是在www.youtube.com上找到的YOUTUBE网站。其它视频托管站点也是已知的并且可以适于根据这里公开的教导来操作。可以将视频共享服务100的所示部件实施为单个或者多个软件或者硬件部件。一般而言,在一个实施例中描述为由一个部件执行的功能在其它实施例中也可以由其它部件执行或者由部件组合执行。另外,在一个实施例中描述为由视频共享服务100的部件执行的功能在适当的情况下在其它实施例中也可以由一个或者多个客户端135执行。
客户端设备135是执行客户端软件、例如web浏览器或者内置客户端应用以经由网络140连接到视频共享服务100的前端接口102并且显示视频的计算设备。客户端设备135可以例如是个人计算机、个人数字助理、智能电话、膝上型计算机、电视“机顶盒”等。
在概念上,内容提供者130向视频共享服务100提供视频内容,并且客户端135观看该内容。在实践中,内容提供者也可以是内容观看者。此外,内容提供者130可以是操作视频共享服务100的相同实体。
内容提供者130操作客户端设备以执行各种内容提供者功能。内容提供者功能可以例如包括向视频共享服务100上传视频文件、编辑视频共享服务100存储的视频文件或者编辑与视频文件关联的内容提供者偏好。
客户端135在设备上操作以观看视频共享服务100存储的视频内容。客户端135也可以用来配置与视频内容有关的观看者偏好。在一些实施例中,客户端135包括嵌入式视频播放器、诸如例如来自Adobe Systems,Inc.的FLASH播放器或者适合用于在视频共享服务100中使用的视频文件格式的任何其它播放器。注意,如这里所使用的术语“客户端”和“内容提供者”可以如从使用该术语的上下文清楚得知的那样是指提供客户端和内容提供功能的软件、软件在其上执行的硬件或者操作软件和/或硬件的实体。
视频共享服务100的上传服务器108从客户端135接收视频内容。在视频贮存库116中存储接收的内容。响应于来自客户端135的请求,视频服务提供模块104向客户端135提供来自视频贮存库116的视频数据。客户端135也可以使用视频搜索模块106、诸如通过录入包含感兴趣的关键词的文本查询来搜寻在视频贮存库116中存储的感兴趣的视频。前端接口102提供在客户端135与视频共享服务100的各种部件之间的接口。
视频贮存库116包含内容提供者130提交的视频集合117。视频贮存库116可以包含任何数目的视频117、诸如数以万计或者数以亿计。视频117中的每个视频具有使它区别于其它视频中的每个其它视频的唯一视频标识符、诸如文本名称(例如,串“a91qrx8”)、整数或者唯一命名视频的任何其它方式。可以以各种容器(container)、诸如AVI、MP4或者MOV封装视频117并且可以使用视频编解码器、诸如MPEG-2、MPEG-4、H.264等对视频117进行编码。除了它们的视听内容之外,视频117还可以具有上传了视频的内容提供者130所提供的关联元数据117A,例如文本元数据、诸如标题、描述和/或标签。
视频共享服务100还包括分析视频117内的内容并且创建运动流形数据结构的运动流形模块119,该运动流形数据结构捕获相同逻辑对象可能随时间在视觉上变化的方式。更具体而言,运动流形模块119跨连续视频帧跟踪“图块”的移动和改变,“图块”是与图像帧的在语义上有意义的区域、诸如完整对象(例如,眼睛)或者其个别点(例如,在眼角的点)对应的图像数据。
例如,考虑人脸的视频,该视频示出人的眼睛和嘴。眼睛的视觉外观和性质可以在视频段的过程内改变、诸如随着相机放大和缩小而变得略微更大或者更小或者从闭合状态(即,眼皮覆盖眼睛)改变成张开状态,并且眼睛的位置可能随着相机摇动而跨图像帧改变。因此,表示眼睛的区域不仅可能改变位置(例如,由于人转动他的或者她的头部)而且可能改变大小(例如,由于人眨眼)。相似地,嘴的形状和大小随着人在说话而随时改变。与诸如这样的区域关联的是表示眼睛和嘴的图像数据的图块,其大小和位置是跨帧而被跟踪的。作为另一示例,考虑猫跳跃的视频。这里同样,与猫关联的区域的大小和形状在视频的持续时间内迅速改变。应当注意图块不需要对应于必然离散或者完整的对象,例如图块可以仅对应于脸、猫等的一部分,或者可以对应于事件、诸如在电影视频中的爆炸。
跨时间与相同语义区域对应的跟踪的图块集合被称为“轨迹”。图2图示用于区域的随时间变化的轨迹的概念。示例视频117包括许多帧210,在图2中描绘了这些帧的子集。轨迹220表示随着特定对象在视频段的过程内改变位置、大小和形状而显示该特定对象的逻辑区域的集合,并因此可以被可视化为在帧平面内具有空间范围(例如,轮廓)和在一定数目的连续帧内具有时间范围的体积。具体而言,轨迹包括与对象对应的多个图块,诸如图2中所示十个图块。在第一所示图块220A中,区域比较小、比它的高度明显更宽并且位于它的帧的左上侧中。随着视频进展,截至第七帧,图块220B已经变得更高而保持相同宽度并且在它的帧中比图块220A位于更右侧而且有些更低。最后所示图块220C已经变得甚至更高、因此接近圆形并且在帧中更下移。应理解图2完全用于示例的目的。在多数情况下,轨迹将例如具有比十帧更大的持续时间。
跟踪允许观察相同对象随时间采用的不同视觉外观,诸如猫在站与坐之间采用的各种位置、变色龙可以在保持静止时采用的各种颜色或者爆破气球的各种形状。图1的运动流形模块119然后对在视觉上相似的图块进行分组并且形成捕获观察到的时间转变的运动流形数据结构。因此,运动流形表示对于相同逻辑区域,图块可以如何随时间改变它的外观。可以使用不同数据结构、诸如图和/或图的替代表示、诸如矩阵来表示运动流形。然后,可以应用运动流形来量化各图块或者包含图块的更复杂图像结构(诸如完整图像或者视频段)的语义相似性。
虽然在图1中描绘为视频共享服务100的部分,但是在一些实施例中,运动流形模块119可以从视频共享服务分离。例如,运动流形模块119可以位于远离视频共享服务100的地方并且经由网络140可访问,并且可以由与操作视频共享服务的组织不同的组织操作。更一般而言,可以在提供存储的视频的贮存库的任何系统中或者针对该系统实施运动流形模块119。
图3图示根据一个实施例的运动流形模块119的各种部件。在该实施例中,运动流形模块119包括识别将被跟踪的各图块的图块识别模块305。如以上注意到的那样,图块表示视频图像的、在语义上感兴趣的区域。图块识别模块305可以使用各种不同算法来识别与将被识别的各种类型的对象对应的图块。
在一些实施例中,图块对应于作为整体的逻辑对象、诸如人眼。在这样的实施例中,使用对象分割技术、诸如自适应背景减法、利用聚类算法的空间和时间分割或者本领域技术人员已知的其它算法来识别对象的图块。在一个实施例中,使用均值移位算法,该均值移位算法在视频的单个帧内运用聚类。在基于均值移位算法的分割中,例如通过将图像的每个像素转换成对应值、诸如颜色值、梯度值、纹理测量值等来将帧转换成标记(token)。然后将窗均匀地定位于数据周围,并且针对每个窗计算质心,即该窗中的数据值的均值位置,并且将每个窗重新居中于该点周围。重复这一过程直至窗收敛,即找到局部中心。然后将收敛至相同点的窗遍历的数据聚集在一起,从而产生分离图像区域的集合。
在其它实施例中,图块对应于更大对象的各点、诸如眼睛的内眼角。在一些实施例中应用诸如哈里斯兴趣点算符这样的技术以找到角点并且在视频中跨帧跟踪它们。
运动流形模块119还包括针对每个识别的图块推导表征该图块的对应特征集合的特征提取模块310。在一个实施例中,特征被存储为描述图块的视觉外观的矢量值。视觉外观特征可以例如包括使用高斯拉普拉斯(LoG)或者尺度不变特征变换(SIFT)特征提取器而采样的特征、在HSV颜色空间中使用色调和饱和度而计算的颜色直方图、运动刚性特征、纹理特征或者使用通过Canny边缘检测器而检测到的边缘的边缘特征。其它类型的视觉特征将为本领域技术人员所知并且也可以被使用,诸如包括GLOH(梯度位置和定向直方图)、LESH(基于局部能量的形状直方图)、HOG(定向梯度直方图)或者SURF(加速鲁棒特征)特征的特征描述符。
运动流形模块119还包括跟踪与各种感兴趣的视觉区域中的每个感兴趣的视觉区域对应的不同图块的轨迹识别模块315。(感兴趣的区域下文被称为“语义区域”。)例如,运动流形模块119可以在视频的整个连续部分(在该连续部分期间人存在于场景中)内跟踪视频中对人的眼睛进行描绘的区域,从而识别其中眼睛具有不同外观、诸如张开、闭合或者部分地闭合等的不同帧的多个区域。通过跨连续帧跟踪语义区域,轨迹识别模块315可以确定不同视觉外观却表示相同语义区域。
如本领域技术人员将已知的那样,可以在不同实施例中以不同方式实现跟踪。例如,可以使用跟踪算法、诸如经由有条件密度传播算法的轮廓跟踪、基于内核的对象跟踪等来跟踪复杂对象、诸如眼睛。另外,在一些实施例中,无需跨每帧执行跟踪,但是实际上可以(例如)按照固定间隔、诸如每五帧或者基于在给定视频中的观察到的移动速率而动态计算的可变帧长度的间隔来执行跟踪。
轨迹识别模块315通过构造轨迹贮存库350来表示识别的轨迹,该轨迹贮存库包括元组p=<r,v,t,l,f>的集合,这些元组表示随时间变化的具体图块p。在该实施例中,r表示图块与之对应的图像区域的唯一标识符,v表示图像区域存在于其中的视频的唯一标识符,t表示在视频v内对于对应区域r图块被识别的时间的时间指示符(例如,标识帧的编号或者其它时间单位),l表示图块所处的与t对应的帧内的区域(例如,如果区域是单个点,则为x、y坐标,或者如果区域是表示对象的二维区域,则为定义定界矩形的两个这样的坐标,或者与帧中的任意形状的区域对应的像素列表(或者对列表的引用)),并且f表示特征提取模块310从图块提取的特征矢量。每个轨迹具有它自己的唯一标识符t-id。用于特定区域r1的具体轨迹然后由所有图块元组的集合表示,其中r=r1。另外,由于每个图块对应于单个轨迹,所以每个图块p还可以与它所对应的轨迹t-id关联。如本领域技术人员将已知的那样,无需用以上描述的方式,而是可以在不同实施例中以不同方式表示轨迹。
特定轨迹无需在它位于其中的视频的整个持续时间内存在。例如,在轨迹表示特定人的眼睛的情况下,轨迹仅对于视频的连续部分存在,在该连续部分期间在视频内示出该人并且在该连续部分期间人的眼睛可见。
认识到轨迹贮存库350可以描述在不同视频内存在并且在那些视频的相异部分期间存在的很大量(例如,数以百万计)相异轨迹。
在一个实施例中,运动流形模块119还包括图创建模块320,该图创建模块以聚类图361的形式表示轨迹贮存库350的数据,该聚类图更显式地表示在给定轨迹的不同图块之间的视觉转变。在图中的每个节点表示相似特征矢量f的聚类,每个特征矢量与个别图块关联。图创建模块320使用聚类算法、诸如k均值聚类或者基于连通的聚类,根据视觉相似性对图块的特征矢量f进行聚类。每个聚类是图中的节点、因此表示具有很相似外观的图块而无论它们所属的特定轨迹如何。因此,一个特定聚类可以表示来自任何数目的不同轨迹和视频的、与张开的眼睛对应的区域,而另一聚类可以表示同样来自任何数目的不同轨迹和视频的、与闭合的眼睛对应的区域。
图创建模块320接着识别来自不同聚类节点的不同图块是否在相同轨迹上共同出现——即表示相同语义区域的不同视觉状态——并且在图361中形成节点之间的边以反映那些视觉转变。例如,在一个实施例中,图创建模块320与每个聚类节点关联对应于聚类中的图块的唯一轨迹t-id的集合。图创建模块然后检查每个聚类ci并且对于每个关联轨迹t-idi识别它的关联轨迹集合中的、也具有t-idi的每个其它聚类cj。因此,如果轨迹贮存库350中的数据指示特定聚类c1(对应于张开的眼睛)与特定轨迹t-id1关联并且不同聚类c2(对应于闭合的眼睛)也与轨迹t-id1关联,则图创建模块320可以在聚类节点c1与c2之间创建边。在该示例中,该边反映下述事实:即,张开的眼睛和闭合的眼睛二者尽管视觉外观不同、但是均表示相同逻辑对象:人的眼睛。备选地,图像创建模块320可以仅在已经被观察到与聚类节点对应的图块以充分频率、诸如特定阈值数目的次数或者时间的特定阈值百分比在轨迹中共同出现时在那些聚类节点之间创建边。
在一个实施例中,运动流形模块119还包括矩阵创建模块325,该矩阵创建模块将聚类图361表示为可以在比较两个不同图块的语义相似性时更高效地被应用的聚类矩阵362。具体而言,聚类矩阵362是对称N x N矩阵,其中N是图361中的相异聚类节点的数目。矩阵中的每个元素具有如下值,该值表示在与该值的行和列对应的聚类节点的图块之间的某个相似性程度(或者等效地,差异)。例如,该值可以表达在对应节点之间、在图361中的未加权最短路径距离,该未加权最短路径距离表示聚类节点的图块之间的差异程度。备选地,可以重新制定表示差异的值以表达相似性,而更大值表示更大相似程度。在一个实施例中,可以从聚类节点直接创建聚类矩阵362,而不创建聚类图361。
作为在聚类图361与聚类矩阵362之间的关系的一个简单示例,假设图具有如图3A中描绘的那样排列的七个聚类节点A-G,这七个聚类节点表示视觉上相似的图块特征矢量的七个聚类。矩阵创建模块325可以创建如图3B中那样的对应聚类矩阵362,其中矩阵值表示在对应节点之间的最短路径距离(例如,边数)、诸如在聚类节点A与G之间的距离3。在图4A和图4B的示例中,假设边具有值或者成本1;然而可以代之以(例如)使用在连接的聚类之间的匹配轨迹的数目或者百分比来对边进行加权以表达相似性程度。
认识到运动流形数据结构360可以在不同实施例中以不同方式被实施,并且创建聚类图361和聚类矩阵362二者仅为一种用于这样做的方式。例如,可以通过直接创建聚类矩阵362来实施运动流形数据结构360而不首先预创建聚类图362。另外,聚类矩阵362——如果被使用——可以用不同方式、诸如行或者列矢量来表示。
因此,运动流形模块119的模块305-325分析视频贮存库116的视频117并且创建运动流形数据结构360,该运动流形数据结构捕获相同逻辑对象可以随时间在视觉上变化的方式。仍然应用运动流形数据结构360来量化来自图像或者视频的视觉元素的语义相似性,这些视觉元素包括尚未在视频贮存库116内、因此先前未作为模块305-325的动作的部分而被分析的那些新视频。
因此,运动流形模块119还包括相似性确定模块330,该相似性确定模块量化在不同视觉元素、诸如图像或者视频的个别图块、作为整体的图像和/或视频或者视频段之间的语义相似性。该视觉元素作为其中的一部分的图像或者视频无需先前已经作为模块305-355的动作的部分而被分析过。
相似性确定模块330执行的基本比较类型是比较两个图块——或者更精确地是比较它们的对应特征矢量——以量化它们表示图像的相同语义区域或者作为该语义区域的部分的概率。接着可以使用如以下描述的图块比较来实现更复杂的比较形式、诸如图像的比较或者视频段的比较。
为了继续先前示例,在图块比较的情况下,应当在与张开的眼睛对应的图块和与闭合的眼睛对应的图块之间存在强语义相似性程度(如果不是视觉相似性),假设它们均对应于相同语义对象(即,眼睛)。也就是说,即使图块可能在视觉上很不相似,但是它们仍然是相同轨迹的部分,并因此表示相同语义区域。
具体而言,在一个实施例中,相似性确定模块330将在它的对应特征矢量x表示的第一图块与它的对应特征矢量y表示的第二图块之间的相似性计算为聚类矩阵362中的值的加权和。由于图块可以来自未在视频贮存库116中的视觉元素——或者至少在运动流形360被创建的时间未在视频贮存库中的视觉元素——所以它们可能不与已经在聚类图361的图块聚类中存储的图块中的任何图块理想地对应。(对照而言,如果x与聚类c1理想地对应并且y与聚类c2理想地对应,则可以通过读取在行c1和列c2的值来简单地计算在x与y之间的相似性程度,或者等效地读取在行c2和列c1的值,因为矩阵362是对称的。)因此,取代仅读取矩阵362的单个值,计算所有矩阵值的加权和从而反映x和y可以在某个程度上对应于在矩阵中表示的聚类对中的每个聚类对这样的事实。
更具体而言,在视觉上比较用于第一图块的特征矢量x与聚类图361的聚类节点中的每个聚类节点以对于每个聚类节点ci确定x与ci之间的相似性程度ψi。类似地确定y与每个聚类节点ci之间的相似性程度ωi。然后,通过ψi和ωi的乘积对矩阵362的列ci和行cj的值进行加权,从而表示下述事实:即,用于特定聚类对的矩阵值仅在x和y与该对的相应聚类相似的程度上适用于x和y的语义。这些运算可以由以下等式更简洁地表达:
Sim(x,y)=Σi,j[(Mij)*(ψiωj)]
其中Sim()是相似性函数,M是矩阵362,i和j是矩阵的行和列索引,ψi是x表示聚类节点i的程度,并且ωj是y表示聚类节点j的程度。(更大的和表示更大相似性程度,因此如果聚类矩阵362的值标识差异程度,则首先它们被转换以表达为在相似性确定模块330计算加权和之前的对应相似性程度。)
作为更具体示例,回顾图4B,假设聚类节点A是表示张开的眼睛的图块聚类并且聚类节点B是表示闭合的眼睛的图块聚类。如果x是理想地表示聚类节点A的张开的眼睛的特征矢量并且y是理想地表示聚类节点B的闭合的眼睛的特征矢量,则可以通过读取在列A、行B(或者等效地列B、行A)的矩阵条目来简单地确定x和y的精确相似性。然而,由于用于聚类节点A的x表示和用于聚类节点B的y表示可能不太理想,所以计算x与A之间(和x与所有其它聚类节点之间)以及y与B之间(和y与所有其它聚类节点之间)的相似性,并且针对每个矩阵元素计算x相似性、y相似性和对应矩阵元素的值的乘积,并且将结果求和。因此,例如将与图4B的矩阵A的第一行对应的加权和计算为:
(MA,A*Sim(x,A)*Sim(y,A))+(MA,B*Sim(x,A)*Sim(y,B))+(MA,C*Sim(x,A)*Sim(y,C))+(MA,D*Sim(x,A)*Sim(y,D))+(MA,E*Sim(x,A)*Sim(y,E))+(MA,F*Sim(x,A)*Sim(y,F))+(MA,G*Sim(x,A)*Sim(y,G))
其中Mi,j表示在行i(对应于聚类ci)和列j(对应于聚类cj)的矩阵值,并且Sim(v,Cl)表示在矢量v与聚类Cl之间的视觉相似性的程度。针对其它行的相似性将以相同方式来计算并且类似地与总相似性值相加。
在一个实施例中,特征矢量与聚类节点的视觉相似性的程度通过将该特征矢量与聚类中的特征矢量的质心比较来计算。例如,为了计算相似性,可以比较聚类质心矢量和特征矢量的点积并且适当地归一化的和。
假如有如以上描述的用于计算用于图块的语义相似性程度的能力,相似性确定模块330可以在图块相似性方面确定更高级别类型的语义相似性。一个这种类型的更高级别语义相似性是在两个图像之间的语义相似性。例如,在一个实施例中,静态图像I1和I2被认为在它们包含相似图块的程度上语义相似。因此,如果I1具有m个图块并且I2具有n个图块,则相似性确定模块330形成来自I1和I2的图块的笛卡尔乘积并且执行在图块对之间的m*n个图块比较。如本领域技术人员将已知的那样,使用图块相似性计算的精确图像相似性计算可以在不同实施例中变化。例如,如果图像包含具有至少图块相似性阈值程度的至少某个最小数目的图块,则这些图像被认为是相似的。或者,可以通过将所有图块对的图块相似性测量求和并且通过除以图块对的数目进行归一化来计算实值相似性测量。
以相似方式,相似性确定模块330可以在图块相似性方面确定在视频段或者视频(这些视频实质上是构成整个视频的视频段)之间的语义相似性。在一个实施例中,相似性确定模块330为两个视频段识别部分地或者完全地存在于视频段内的所有图块轨迹。然后比较第一视频的每个轨迹与第二视频的每个轨迹,并且基于轨迹之间的语义相似性确定视频段之间的语义相似性程度。可以在不同实施例中以不同方式定义两个轨迹之间的语义相似性程度。例如,每对图块——一个来自第一轨迹并且一个来自第二轨迹——可以具有计算其语义相似性。然后,可以在匹配(即,具有至少某个阈值相似性水平)的图块对数目方面定义轨迹的语义相似性,其中第一匹配具有对轨迹相似性的最大正面影响并且每个后续匹配具有逐渐地更低的正面影响。
相似性确定模块330可以用类似方式确定不同视频或者图像类型之间(诸如图像与视频段之间)的语义相似性。例如,可以通过确定图像相对视频段内部分地或者完全地包含的图块轨迹中的每个图块轨迹的语义相似性来确定在图像与视频段之间的语义相似性。进而,可以用与计算两个图块轨迹的语义相似性相似的方式,根据图像中的图块和图块轨迹中的图块的笛卡尔乘积、基于所有图块对的语义相似性定义图像和图块轨迹的语义相似性。
数据流
图4A和图4B是表示根据一个实施例的由图2的运动流形模块119分析和/或产生的各种类型的数据的关系和推导的数据流图。图5A描绘在概念上表示运动流形数据结构360的聚类图361和聚类矩阵362的创建,并且图5B描绘应用运动流形以计算两个图块的相似性测量。
具体而言,在图5A中,如以上关于图块识别模块305描述的那样,分析视频117并且从它们中提取与语义兴趣区域(例如,不连续点或者个别对象)对应的图块。如以上关于特征提取模块310所描述的那样,提取与识别的图块对应的特征矢量。跨视频跟踪区域的移动和视觉改变、由此产生轨迹集合,每个轨迹包括用于该区域的各种图块。以上关于轨迹识别模块315更具体描述了这些动作。然后,构造运动流形数据结构360,运动流形指示语义兴趣区域可以随时间具有的不同视觉表示、诸如与眼睛对应的区域具有张开和闭合的视觉表示二者。在一个实施例中,可以如以上关于图创建模块320和矩阵创建模块325描述的那样,使用聚类图361和/或聚类矩阵362来实施运动流形。
如图5B中进一步所示,如以上关于相似性确定模块描述的那样,然后可以应用运动流形360以量化不同图块的语义相似性——而不是仅量化视觉相似性。然后,可以充分利用用于量化图块的语义相似性的能力以识别更高级别形式的语义相似性、诸如图像之间或者视频段之间的语义相似性。
因此,执行图4中描绘的操作流程的一个实施例所产生的运动流形可以用来不仅在视觉级别而且在语义级别上量化图像或者视频的不同部分的相似性。因此,例如使用运动流形可以允许如下认识:即,闭合的眼睛和张开的眼睛的图像在语义上相似——即使它们在视觉上很不同——因为它们往往在视频内随时间相互跟随。
应用
可以在广泛范围的视频或者图像上下文、诸如以下境况中应用语义相似性确定。
搜索:相似性确定模块330可以在预处理阶段中确定在图像贮存库中的图像、来自视频贮存库116中的视频117的视频段等的语义相似性。然后,当用户录入对于特定概念的查询并且搜索引擎识别搜索结果集合时,可以用与已经在搜索结果集合中的那些图像或者视频具有充分高的语义相似性程度的其它图像或者视频来扩充搜索结果。
此外,可以通过在搜索结果中包括与语义上相似的图块轨迹对应的具体视频段来使图像或者视频段粒度更细。例如,当搜寻特定概念时,可以识别与用于该概念的图像搜索结果最相似的图块轨迹集合,并且可以相应地在搜索结果中包括与那些轨迹对应的视频段、因此对具体相关视频部分进行定位。
已经关于一个可能实施例用具体细节描述了本公开。本领域技术人员将理解可以在其它实施例中实现本公开。首先,部件和变量的特定命名、术语的大写、属性、数据结构或者任何其它编程或者结构方面并非必需或者重要的,并且实施本公开或者它的特征的机制可以具有不同名称、格式或者协议。而且,在这里描述的各种系统部件之间的特定功能划分也仅为举例而非必需;单个系统部件执行的功能可以代之以由多个部件执行,并且多个部件执行的功能可以代之以由单个部件执行。
以上描述的一些部分在对信息的操作的算法和符号表示方面呈现本公开的特征。这些算法描述和表示是数据处理领域技术人员用来向本领域其他技术人员最有效地传达他们的工作实质的手段。这些操作在功能或者逻辑上被描述时被理解为由计算机程序实施。另外,将这些操作布置称为模块或者冠以功能名称也已经证实有时是便利的而不失一般性。
除非如从以上讨论中清楚的那样另有具体明示,应理解贯穿说明书利用诸如“确定”这样的术语的讨论指计算机系统或者相似电子计算设备的动作和过程,该计算机系统或者相似电子计算设备操控和变换在计算机系统存储器或者寄存器或者其它这样的信息存储装置、传输或者显示设备内表示为物理(电子)量的数据。
本公开的某些方面以算法的形式包括这里描述的过程步骤和指令。应当注意本公开的过程步骤和指令可以体现在软件、固件或者硬件中,并且当体现在软件中时本公开的过程步骤和指令可以被下载以驻留于实时网络操作系统所使用的不同平台上并且从这些不同平台来操作这些过程步骤和指令。
本公开也涉及一种用于执行这里的操作的装置。该装置可以被具体构造用于所需目的,或者它可以包括在计算机可以访问的计算机可读介质上存储的计算机程序有选择地激活或者重新配置的通用计算机。这样的计算机程序可以存储于非瞬态计算机可读存储介质中,诸如但不限于包括软盘、光盘、CD-ROM、光磁盘的任何类型的盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或者光卡、专用集成电路(ASIC)或者适合用于存储电子指令并且各自耦合到计算机系统总线的任何类型的计算机可读存储介质。另外,在说明书中所指代的计算机可以包括单个处理器或者可以是运用多处理器设计用于增加计算能力的架构。
这里呈现的算法和操作并非固有地与任何特定计算机或者其它装置有关。各种通用系统也可以与根据这里的教导的程序一起使用,或者构造更专门化的装置以执行所需方法步骤可以证实是便利的。用于多种这些系统的所需结构将与等效变化一起为本领域技术人员所清楚。此外,未参照任何特定编程语言描述本发明。应理解多种编程语言可以用来实施如这里描述的本公开的教导并且提供对具体语言的任何引用以便公开本发明的实现和最佳实施方式。
本公开良好地适合于在许多拓扑之上的广泛的多种计算机网络系统。在该领域内,大型网络的配置和管理包括通过网络、诸如因特网通信地耦合到不相似计算机和存储设备的存储设备和计算机。
最后,应当注意在说明书中使用的语言已经主要出于可读性和教导的目的而加以选择并且可能不被选择用来界定或者限制发明主题。因而,本公开的公开内容旨在于举例说明而非限制在所附权利要求中阐述的本公开的范围。
Claims (25)
1.一种用于创建运动流形以确定两个图像图块之间的相似性的计算机实施的方法,所述方法包括:
识别数字视频集合中的视频的语义区域;
通过跨所述视频的帧跟踪与所述语义区域对应的图块来识别图块轨迹;
使用所述图块轨迹来创建所述运动流形,所述运动流形针对所述语义区域中的语义区域指示所述语义区域的不同视觉表示;以及
存储所述运动流形。
2.根据权利要求1所述的计算机实施的方法,其中所述语义区域由个别图像点构成。
3.根据权利要求1所述的计算机实施的方法,其中所述语义区域由视觉上不连续的点定义的个别语义对象构成,并且其中用于语义对象的所述图块包括用于所述点界定的区域的像素数据。
4.根据权利要求1所述的计算机实施的方法,其中每个识别的图块轨迹与所述语义区域之一关联并且包括用于所述语义区域的被跟踪的图块的集合。
5.根据权利要求4所述的计算机实施的方法,还包括用表示图块的关联<r,v,t,l>元组的集合表示识别的图块轨迹,r表示关联的语义区域的标识符,v表示所述关联的语义区域存在于其中的视频的标识符,t表示与所述语义区域对应的图块在所述视频内被识别到的时间的时间指示符,并且l表示所述语义区域在所述时间在所述视频的帧内所处的区域。
6.根据权利要求1所述的计算机实施的方法,其中创建所述运动流形包括:
根据所述图块的视觉相似性将所述图块聚类成图块聚类;并且
通过响应于聚类对的第一聚类具有来自第一轨迹的图块并且所述对的第二聚类具有来自相同第一轨迹的图块而在所述聚类对之间创建边以形成聚类图。
7.根据权利要求1所述的计算机实施的方法,其中创建所述运动流形包括:
根据所述图块的视觉相似性将所述图块聚类成图块聚类;
形成聚类矩阵,其中每个矩阵元素量化所述图块聚类中的第一图块聚类与所述图块聚类中的第二图块聚类之间的语义相似性的程度。
8.根据权利要求1所述的计算机实施的方法,还包括通过响应于聚类对中的第一聚类具有来自第一轨迹的图块并且所述对中的第二聚类具有来自相同第一轨迹的图块而在所述聚类对之间创建边以形成聚类图,其中所述聚类矩阵是方形矩阵并且基于所述聚类图的所述边形成所述聚类矩阵中的值。
9.根据权利要求1所述的计算机实施的方法,还包括:
使用所述运动流形来确定来自第一视觉元素的第一图块与来自第二视觉元素的第二图块之间的语义相似性的程度。
10.根据权利要求9所述的计算机实施的方法,还包括:
使用所述运动流形来确定所述第一视觉元素与所述第二视觉元素之间的语义相似性的程度,其中所述第一视觉元素是图像和视频段之一。
11.一种计算机可读存储介质,具有在其中体现的用于创建运动流形以确定两个图像图块之间的相似性的可执行计算机程序指令,所述计算机程序指令的动作包括:
识别数字视频集合中的视频的语义区域;
通过跨所述视频的帧跟踪与所述语义区域对应的图块来识别图块轨迹;
使用所述图块轨迹来创建所述运动流形,所述运动流形针对所述语义区域中的语义区域指示所述语义区域的不同视觉表示;以及
存储所述运动流形。
12.根据权利要求11所述的计算机可读存储介质,其中每个识别的图块轨迹与所述语义区域之一关联并且包括用于所述语义区域的被跟踪的图块的集合。
13.根据权利要求12所述的计算机可读存储介质,所述动作还包括用表示图块的关联<r,v,t,l>元组的集合表示识别的图块轨迹,r表示关联的语义区域的标识符,v表示所述关联的语义区域存在于其中的视频的标识符,t表示与所述语义区域对应的图块在所述视频内被识别到的时间的时间指示符,并且l表示所述语义区域在所述时间在所述视频的帧内所处的区域。
14.根据权利要求11所述的计算机可读存储介质,其中创建所述运动流形包括:
根据所述图块的视觉相似性将所述图块聚类成图块聚类;并且
通过响应于聚类对中的第一聚类具有来自第一轨迹的图块并且所述对中的第二聚类具有来自相同第一轨迹的图块而在所述聚类对之间创建边以形成聚类图。
15.根据权利要求11所述的计算机可读存储介质,其中创建所述运动流形包括:
根据所述图块的视觉相似性将所述图块聚类成图块聚类;
形成聚类矩阵,其中每个矩阵元素量化所述图块聚类中的第一图块聚类与所述图块聚类中的第二图块聚类之间的语义相似性的程度。
16.根据权利要求11所述的计算机可读存储介质,所述动作还包括:
使用所述运动流形来确定来自第一视觉元素的第一图块与来自第二视觉元素的第二图块之间的语义相似性的程度。
17.一种用于创建运动流形以确定两个图像图块之间的相似性的计算机系统,所述系统包括:
计算机处理器;以及
计算机可读存储介质,具有在其中体现的可执行计算机程序指令,所述可执行计算机程序指令在由所述计算机处理器执行时执行动作,所述动作包括:
识别数字视频集合中的视频的语义区域;
通过跨所述视频的帧跟踪与所述语义区域对应的图块来识别图块轨迹;
使用所述图块轨迹来创建所述运动流形,所述运动流形针对所述语义区域中的语义区域指示所述语义区域的不同视觉表示;以及
存储所述运动流形。
18.根据权利要求17所述的计算机系统,其中每个识别的图块轨迹与所述语义区域之一关联并且包括用于所述语义区域的被跟踪的图块的集合。
19.根据权利要求18所述的计算机系统,所述动作还包括用表示图块的关联<r,v,t,l>元组的集合表示识别的图块轨迹,r表示关联的语义区域的标识符,v表示所述关联的语义区域存在于其中的视频的标识符,t表示与所述语义区域对应的图块在所述视频内被识别到的时间的时间指示符,并且l表示所述语义区域在所述时间在所述视频的帧内所处的区域。
20.根据权利要求17所述的计算机系统,其中创建所述运动流形包括:
根据所述图块的视觉相似性将所述图块聚类成图块聚类;并且
通过响应于聚类对中的第一聚类具有来自第一轨迹的图块并且所述对中的第二聚类具有来自相同第一轨迹的图块而在所述聚类对之间创建边以形成聚类图。
21.根据权利要求17所述的计算机系统,其中创建所述运动流形包括:
根据所述图块的视觉相似性将所述图块聚类成图块聚类;并且
形成聚类矩阵,其中每个矩阵元素量化所述图块聚类中的第一图块聚类与所述图块聚类中的第二图块聚类之间的语义相似性的程度。
22.根据权利要求17所述的计算机系统,所述动作还包括:
使用所述运动流形来确定来自第一视觉元素的第一图块与来自第二视觉元素的第二图块之间的语义相似性的程度。
23.一种确定两个图像图块之间的相似性的计算机实施的方法,所述方法包括:
访问运动流形,所述运动流形针对包括视觉上相似的图像图块的图块聚类对来量化从在视频的过程期间、在所述图块聚类的图块之间的转变的分析中推导的语义相似性的程度;以及
使用所述运动流形来确定来自第一视觉元素的第一图块与来自第二视觉元素的第二图块之间的语义相似性的程度。
24.一种计算机实施的方法,包括:
针对数字视频集合中的每个视频:
识别所述视频的语义区域;
通过跨所述视频的帧跟踪与所述语义区域对应的图块来识别图块轨迹;
将用于给定的语义区域的被跟踪的图块与用于所述语义区域的唯一标识符相关联;
跨所述数字视频聚合识别的图块;
通过根据视觉外观对所聚合的图块进行聚类以形成图块聚类;
形成节点的聚类图,每个节点与所述图块聚类之一唯一对应;
响应于与节点对中的节点对应的所述图块聚类在所述识别的图块轨迹中的至少一个识别的图块轨迹内至少具有图块共同出现的阈值程度,而在所述节点对之间创建边;
基于创建的所述边形成聚类矩阵,所述矩阵的每个元素量化所述图块聚类中的第一图块聚类与所述图块聚类中的第二图块聚类之间的语义相似性的程度;以及
存储所述矩阵。
25.根据权利要求24所述的计算机实施的方法,还包括:
使用所述聚类矩阵来确定来自第一视觉元素的第一图块与来自第二视觉元素的第二图块之间的语义相似性的程度,包括:
针对所述矩阵中的每个元素计算所述第一图块与对应于所述矩阵中的元素行的图块聚类之间的第一相似性程度和所述第二图块与对应于所述矩阵中的元素列的图块聚类之间的第二相似性程度;以及
基于所述第一相似性程度、所述第二相似性程度和所述矩阵中的所述元素的值确定所述语义相似性的程度。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161554244P | 2011-11-01 | 2011-11-01 | |
US61/554,244 | 2011-11-01 | ||
US13/346,662 | 2012-01-09 | ||
US13/346,662 US9373040B2 (en) | 2011-11-01 | 2012-01-09 | Image matching using motion manifolds |
PCT/US2012/061651 WO2013066688A1 (en) | 2011-11-01 | 2012-10-24 | Improving image matching using motion manifolds |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103988232A true CN103988232A (zh) | 2014-08-13 |
CN103988232B CN103988232B (zh) | 2016-10-12 |
Family
ID=48172522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280061107.6A Active CN103988232B (zh) | 2011-11-01 | 2012-10-24 | 使用运动流形来改进图像匹配 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9373040B2 (zh) |
EP (1) | EP2774119B1 (zh) |
CN (1) | CN103988232B (zh) |
WO (1) | WO2013066688A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109565609A (zh) * | 2016-09-08 | 2019-04-02 | 谷歌有限责任公司 | 检测要建指纹的屏幕的多个部分以检测滥用上传视频 |
CN110197107A (zh) * | 2018-08-17 | 2019-09-03 | 平安科技(深圳)有限公司 | 微表情识别方法、装置、计算机设备及存储介质 |
CN110232303A (zh) * | 2018-03-06 | 2019-09-13 | 索尼公司 | 图像帧序列中的关节状对象的自动跟踪和保留 |
CN111161314A (zh) * | 2019-12-17 | 2020-05-15 | 中国科学院上海微系统与信息技术研究所 | 目标对象的位置区域确定方法、装置、电子设备及存储介质 |
CN112513870A (zh) * | 2018-08-08 | 2021-03-16 | 索博客科技有限公司 | 用于利用改进的高度计算对感兴趣的人类对象进行检测、跟踪和计数的系统和方法 |
CN113468913A (zh) * | 2020-03-30 | 2021-10-01 | 阿里巴巴集团控股有限公司 | 数据处理、动作识别、模型训练方法、设备及存储介质 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9373040B2 (en) * | 2011-11-01 | 2016-06-21 | Google Inc. | Image matching using motion manifolds |
WO2015026874A1 (en) | 2013-08-19 | 2015-02-26 | Nant Holdings Ip, Llc | Metric based recognition, systems and methods |
CN104572651B (zh) * | 2013-10-11 | 2017-09-29 | 华为技术有限公司 | 图片排序方法及装置 |
US20170068751A1 (en) * | 2014-05-07 | 2017-03-09 | Sankhya Technologies Private Limited | Manifold system and synthesis of a manifold system from input models |
CA3001063C (en) * | 2015-10-14 | 2023-09-19 | President And Fellows Of Harvard College | A method for analyzing motion of a subject representative of behaviour, and classifying animal behaviour |
US20190080175A1 (en) * | 2017-09-14 | 2019-03-14 | Comcast Cable Communications, Llc | Methods and systems to identify an object in content |
CN108334849A (zh) * | 2018-01-31 | 2018-07-27 | 中山大学 | 一种基于黎曼流形的行人重识别方法 |
CN108921054B (zh) * | 2018-06-15 | 2021-08-03 | 华中科技大学 | 一种基于语义分割的行人多属性识别方法 |
US11599253B2 (en) * | 2020-10-30 | 2023-03-07 | ROVl GUIDES, INC. | System and method for selection of displayed objects by path tracing |
CN112733734B (zh) * | 2021-01-13 | 2023-04-21 | 中南大学 | 一种基于黎曼流形特征和lstm网络相结合的交通异常事件检测方法 |
CN113221693B (zh) * | 2021-04-29 | 2023-07-28 | 苏州大学 | 一种动作识别方法 |
US20240144742A1 (en) * | 2022-10-28 | 2024-05-02 | Symbotic Llc | Autonomous transport vehicle and health assessment method therefor |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070052858A1 (en) * | 2005-09-07 | 2007-03-08 | Fuji Xerox Co., Ltd. | System and method for analyzing and monitoring 3-D video streams from multiple cameras |
CN101216888A (zh) * | 2008-01-14 | 2008-07-09 | 浙江大学 | 基于快速图像配准的视角变化条件下视频前景提取方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4467708A (en) * | 1982-03-29 | 1984-08-28 | International Telephone And Telegraph Corporation | Stripper for filling machine |
US4948111A (en) * | 1988-10-11 | 1990-08-14 | Thomsen Elmer R | Method and apparatus for incorporating backing boards in the printed paper stack of a printing press |
US6081606A (en) * | 1996-06-17 | 2000-06-27 | Sarnoff Corporation | Apparatus and a method for detecting motion within an image sequence |
US6437808B1 (en) * | 1999-02-02 | 2002-08-20 | Texas Instruments Incorporated | Apparatus and method for transmitting graphical representations |
WO2007056711A2 (en) * | 2005-11-04 | 2007-05-18 | Clean Earth Technologies, Llc | Tracking using an elastic cluster of trackers |
KR100660725B1 (ko) | 2006-02-24 | 2006-12-21 | (주)케이티에프테크놀로지스 | 얼굴 추적 장치를 가지는 휴대용 단말기 |
BRPI0719555A2 (pt) * | 2006-12-01 | 2013-12-10 | Thomson Licensing | Estimativa de uma localização de um objeto em uma imagem |
KR100827846B1 (ko) * | 2007-10-18 | 2008-05-07 | (주)올라웍스 | 동영상에 포함된 특정 인물을 검색하여 원하는 시점부터재생하기 위한 방법 및 시스템 |
US8463050B2 (en) * | 2009-04-07 | 2013-06-11 | Centre National De La Recherche Scientifique (C.N.R.S.) | Method for measuring the dissimilarity between a first and a second images and a first and second video sequences |
EP2386998B1 (en) * | 2010-05-14 | 2018-07-11 | Honda Research Institute Europe GmbH | A Two-Stage Correlation Method for Correspondence Search |
US9373040B2 (en) * | 2011-11-01 | 2016-06-21 | Google Inc. | Image matching using motion manifolds |
KR101926563B1 (ko) * | 2012-01-18 | 2018-12-07 | 삼성전자주식회사 | 카메라 추적을 위한 방법 및 장치 |
-
2012
- 2012-01-09 US US13/346,662 patent/US9373040B2/en active Active
- 2012-10-24 WO PCT/US2012/061651 patent/WO2013066688A1/en active Application Filing
- 2012-10-24 CN CN201280061107.6A patent/CN103988232B/zh active Active
- 2012-10-24 EP EP12845754.6A patent/EP2774119B1/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070052858A1 (en) * | 2005-09-07 | 2007-03-08 | Fuji Xerox Co., Ltd. | System and method for analyzing and monitoring 3-D video streams from multiple cameras |
CN101216888A (zh) * | 2008-01-14 | 2008-07-09 | 浙江大学 | 基于快速图像配准的视角变化条件下视频前景提取方法 |
Non-Patent Citations (3)
Title |
---|
CHAN-SU LEE 等: "Human Motion Synthesis by Motion Manifold Learning and Motion Primitive Segmentation", 《ARTICULATED MOTION AND DEFORMABLE OBJECTS. SPRINGER BERLIN HEIDELBERG, 2006》 * |
JACINTO C. NASCIMENTO 等: "Manifold Learning for Object Tracking with Multiple Motion Dynamics", 《COMPUTER VISION–ECCV 2010. SPRINGER BERLIN HEIDELBERG, 2010》 * |
LIANG WANG 等: "Learning and Matching of Dynamic Shape Manifolds for Human Action Recognition", 《IMAGE PROCESSING,IEEE TRANSACTIONS ON》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109565609A (zh) * | 2016-09-08 | 2019-04-02 | 谷歌有限责任公司 | 检测要建指纹的屏幕的多个部分以检测滥用上传视频 |
CN110232303A (zh) * | 2018-03-06 | 2019-09-13 | 索尼公司 | 图像帧序列中的关节状对象的自动跟踪和保留 |
CN110232303B (zh) * | 2018-03-06 | 2023-06-16 | 索尼公司 | 用于图像处理的装置、方法和介质 |
CN112513870A (zh) * | 2018-08-08 | 2021-03-16 | 索博客科技有限公司 | 用于利用改进的高度计算对感兴趣的人类对象进行检测、跟踪和计数的系统和方法 |
CN110197107A (zh) * | 2018-08-17 | 2019-09-03 | 平安科技(深圳)有限公司 | 微表情识别方法、装置、计算机设备及存储介质 |
CN110197107B (zh) * | 2018-08-17 | 2024-05-28 | 平安科技(深圳)有限公司 | 微表情识别方法、装置、计算机设备及存储介质 |
CN111161314A (zh) * | 2019-12-17 | 2020-05-15 | 中国科学院上海微系统与信息技术研究所 | 目标对象的位置区域确定方法、装置、电子设备及存储介质 |
CN111161314B (zh) * | 2019-12-17 | 2024-03-12 | 中国科学院上海微系统与信息技术研究所 | 目标对象的位置区域确定方法、装置、电子设备及存储介质 |
CN113468913A (zh) * | 2020-03-30 | 2021-10-01 | 阿里巴巴集团控股有限公司 | 数据处理、动作识别、模型训练方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2013066688A1 (en) | 2013-05-10 |
EP2774119A1 (en) | 2014-09-10 |
EP2774119A4 (en) | 2016-09-07 |
US20130108177A1 (en) | 2013-05-02 |
EP2774119B1 (en) | 2021-02-24 |
US9373040B2 (en) | 2016-06-21 |
CN103988232B (zh) | 2016-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103988232A (zh) | 使用运动流形来改进图像匹配 | |
Zhu et al. | Cms-rcnn: contextual multi-scale region-based cnn for unconstrained face detection | |
US8983192B2 (en) | High-confidence labeling of video volumes in a video sharing service | |
Soomro et al. | Action recognition in realistic sports videos | |
US9177208B2 (en) | Determining feature vectors for video volumes | |
Ramezani et al. | A review on human action analysis in videos for retrieval applications | |
CN104616316B (zh) | 基于阈值矩阵和特征融合视觉单词的人物行为识别方法 | |
Song et al. | Unsupervised Alignment of Actions in Video with Text Descriptions. | |
Zhang et al. | Coarse-to-fine object detection in unmanned aerial vehicle imagery using lightweight convolutional neural network and deep motion saliency | |
Rabiee et al. | Crowd behavior representation: an attribute-based approach | |
Dang et al. | Key frame extraction from consumer videos using epitome | |
Symeonidis et al. | Neural attention-driven non-maximum suppression for person detection | |
US20230095533A1 (en) | Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling | |
Del Pero et al. | Behavior discovery and alignment of articulated object classes from unstructured video | |
Weng et al. | Action recognition using length-variable edge trajectory and spatio-temporal motion skeleton descriptor | |
Kanagaraj et al. | Curvelet transform based feature extraction and selection for multimedia event classification | |
Cao et al. | Mining spatiotemporal video patterns towards robust action retrieval | |
Ji et al. | News videos anchor person detection by shot clustering | |
Mizher et al. | Action key frames extraction using l1-norm and accumulative optical flow for compact video shot summarisation | |
Zhou et al. | Modeling perspective effects in photographic composition | |
Yi et al. | Human action recognition with salient trajectories and multiple kernel learning | |
Zhang et al. | Action-scene model for human action recognition from videos | |
Wang et al. | Detecting action-relevant regions for action recognition using a three-stage saliency detection technique | |
Fernandez et al. | A real-time big data architecture for glasses detection using computer vision techniques | |
Rana et al. | Selection of object detections using overlap map predictions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google limited liability company Address before: American California Patentee before: Google Inc. |