CN102077584B

CN102077584B - 视频指纹系统和方法

Info

Publication number: CN102077584B
Application number: CN2009801251292A
Authority: CN
Inventors: 彼得·M·吉茨; 阿图罗·A·罗德里谷兹
Original assignee: Cisco Technology Inc
Current assignee: Cisco Technology Inc
Priority date: 2008-06-30
Filing date: 2009-06-30
Publication date: 2013-07-24
Anticipated expiration: 2029-06-30
Also published as: EP2301246A1; CN102077584A; US8259177B2; US20090328125A1; WO2010002856A1; EP2301246B1

Abstract

一种为视频流的一部分提供标识信息的方法包括：接收视频流，其中该视频流包括一个或多个连续视频场景，其中该一个或多个连续视频场景分别对应于一组或多组视觉信息，其中该一个或多个连续视频场景中的每一个包括多个连续图片，其中第一视觉对象被包括在第一视频场景中，其中该一个或多个连续视频场景包括该第一视频场景；在第一视频场景的第一多个图片上检测第一视觉对象；得出与第一视觉对象在第一视频场景的第一多个图片上的一个或多个测得转变相对应的信息；以及提供与所得出的信息相对应的标识信息。

Description

视频指纹系统和方法

本申请是以作为对除美国以外的所有指定国的申请人的思科技术公司(一家美国公司)和作为指定美国时的申请的Peter M.Gits和Arturo A.Rodriquez(均为美国公民)的名义于2009年6月30日作为PCT国际专利申请提交的，并且要求2008年6月30日提交的美国临时专利申请No.12/164,465的优先权。

参照相关申请

本申请与以下两个均于2008年6月30日提交的共同未决且转让给同一受让人的美国发明专利申请相关：案卷号为60374.414US01并且被赋予序列号12/164,485的题为“Generating Measures of Video Sequences toDetect Unauthorized Use”的美国发明专利申请和案卷号为60374.173US01并且被赋予序列号12/164,521的题为“Matching of Unknown Video Contentto Protected Video Content”的美国发明专利申请，这里通过引用将这两个申请全部并入。

技术领域

本公开总地涉及视频，更具体而言涉及用于识别对受保护的视频内容的非法使用的系统和方法。

背景技术

目前在因特网上，视频文件每天都在被拷贝并上载到诸如YouTube、Google等等之类的网站。这种视频共享站点的数量正发生可观的增长，从而助长了侵犯与视频剪辑有关的数字权利(例如著作权)的风险。诸如Motion Picture Association、Major League Baseball之类的组织或者任何拥有对视频内容的权利的实体或个人对于保护这些权利是感兴趣的。此外，随着对于服务提供者提供不受著作权保护的素材的限制变得更重大，尤其是对非法分发受著作权保护的素材的惩罚变得更重，视频共享站点也在尝试更加合法。

当今的技术包括向视频流中注入标签(例如水印)，该标签提供了对视频的来源的指示。然而，标签可以被清除，导致没有标签的视频的更多拷贝在网站上激增，从而妨碍了视频的所有者进行跟踪。另外，其他措施也可用于规避这种标签，例如通过剪切掉视频的一些部分，另外还有其他技术。

附图说明

参考以下附图可更好地理解本公开的许多方面。附图中的组件不一定是按比例绘制的，重点在于清楚地图示出本公开的原理。另外，在附图中，相似的标号在几幅图中始终标示对应的部件。

图1是示出视频指纹(VF)系统和方法可在其中实现的示例性环境的框图。

图2A是被配置为从视频序列得出视频指纹的设备的实施例的框图。

图2B是示出用于得出视频指纹的方法的实施例的流程图。

图3A-3C是示出在视频序列内表现出可测量的转变的各种对象的示例的示意图。

图4A-4C是示出在视频序列内表现出可测量的转变的各种对象的另一示例的示意图。

图5A是示出被配置为生成并存储参考视频指纹并且评估视频指纹是否匹配所存储的参考视频指纹的设备的实施例的框图。

图5B是示出用于评估视频指纹是否匹配所存储的参考视频指纹的方法的实施例的流程图。

图5C是示出用于生成并存储参考视频指纹的方法的实施例的流程图。

图5D是示出用于为具有相似时间跨度的视频序列的不同版本生成视频指纹的方法的实施例的流程图。

图5E是示出用于为具有不同时间跨度的视频序列的不同版本生成视频指纹的方法的实施例的流程图。

图6是示出用于生成视频指纹的方法实施例的流程图。

图7是示出用于生成视频指纹的另一方法实施例的流程图。

图8是示出用于将未知视频内容与受保护的视频内容相匹配的方法实施例的流程图。

具体实施方式

概述

在一个实施例中，一种用于为视频流的一部分提供标识信息的方法包括：接收视频流，其中该视频流包括一个或多个连续视频场景，其中该一个或多个连续视频场景分别对应于一组或多组视觉信息，其中该一个或多个连续视频场景中的每一个包括多个连续图片，其中第一视觉对象被包括在第一视频场景中，其中该一个或多个连续视频场景包括该第一视频场景；在第一视频场景的第一多个图片上检测第一视觉对象；得出与第一视觉对象在第一视频场景的第一多个图片上的一个或多个测得转变相对应的信息；以及提供与所得出的信息相对应的标识信息。

示例性实施例

这里公开了视频指纹系统和方法的各种实施例(这里也统称为视频指纹(VF)系统和方法)。这种VF系统使得负责网络上视频文件的存储和/或提供的实体能够监视视频文件的传送并且识别对受保护内容的数字权利的侵犯或对受保护内容的其他形式的非法使用。

视频指纹(在这里也称为度量或签名或标识信息)基于一个或多个对象转变而唯一地表征来自电影(例如广播式、点播式，等等)或节目(例如体育节目、新闻节目、纪录片、连续剧等等)或其他视频内容的视频序列(多个图片或帧)。在一个实施例中，视频指纹是以场景为单位来得出的(因此表征了每个场景的对象转变)，但在一些实施例中也不一定是针对电影或节目的每一个场景(视频场景，包括多个连续图片，包括第一和第二图片，其中第二图片在显示顺序上跟随在第一图片之后)得出的。另外，视频指纹可涵盖持续时间短于一整个场景(但仍持续了达预定的阈值，如下所述)的对象转变。这里，跨度短于或等于一整个场景的视频序列也被称为视频片断。单个视频指纹可以是从视频片断的与单个对象(例如视觉对象)有关的转变得出的，或者是从视频片断的多个对象转变得出的。虽然对于每个场景可以得出单个视频指纹，但在一些实施例中，对于每个场景可得出多个视频指纹(例如，在针对每个对象转变、每个场景得出视频指纹并且得出多个视频指纹以例如确证或巩固视频指纹的确定性的场合中)。在一个实施例中，视频指纹被体现为表示一个或多个对象转变的度量的方程。换言之，视频指纹传达了关于对象转变的可量化的信息。在一些实施例中，视频指纹可以体现为其他形式，例如数据结构，数值，等等。对象转变是在某一时间间隔上定义的，其中该时间间隔包括绝对时间或相对时间(例如，呈现时间戳(PTS)的差异、计数器值的差异，相对于场景变化的时间、相对于特定对象的转变开始的时间，等等)，以及由图片或帧或场的经过来衡量的持续时间。对象转变包括对象特征随着时间的流逝而发生的可量化的变化，例如形状、颜色、色调、大小等等的变化。对象转变还包括对象的移动或运动的可量化的变化，例如相对于所识别的对象和/或图片边界的运动。

在描述了本公开中使用的一些术语之后，下面描述可受益于这里公开的VF系统的示例性实现方式。例如，用户可能将受著作权保护的视频的全部或一部分上载到一因特网网站，以便非法销售和/或分发给其他用户。当被视频文件共享服务器所接收以便上载到该网站上时，视频文件共享服务器可被配置有VF系统逻辑，其得出或生成视频序列的一个或多个视频指纹。一旦得出了，视频指纹就可被转发到视频指纹仓库系统，该视频指纹仓库系统包括从已知的受保护的(例如受著作权保护的)视频内容提取出的参考视频指纹的一个或多个数据结构(例如记录数据库)。将所转发的视频指纹与所存储的参考视频指纹相比较，并且如果在由视频文件共享服务器得出的(一个或多个)视频指纹和存储在数据库中的参考视频指纹之间找到匹配，则可以向视频文件共享服务器发回讯息，警告相关联的服务提供者发生了该匹配，以便能够采取适当的措施，以例如避免由于使能对这种受保护内容进行非法分发或销售而受到惩罚。设想了其他实现方式和上述实现方式的变体，并且以上示例只是用于提供对VF系统和方法可如何有益于视频文件共享环境的一个例示。

在接下来的描述中，描述可以使用VF系统的示例性环境(例如图1)以及使用VF系统的一个或多个组件的设备(例如图2A和5A)和VF系统的方法(例如图2B、5B-5E、6和7)的实施例。对可以测量的一些类型的对象转变的例示在图3A-4C中示出并且是结合图3A-3C来描述的。应当理解，虽然某些实施例是在图1所示的示例性环境的上下文中描述的，但是设想了其他共享、传送、处理和/或分发视频文件的环境也在实施例的范围内。

图1是视频指纹(VF)系统和方法可在其中实现的示例性环境即通信网络100的示意图。通信网络100可包括多个个体网络，例如无线网络和/或有线网络。通信网络100包括多个客户端设备102、104、106和116(例如有线和/或无线设备，比如蜂窝电话、个人数字助理(PDA)、诸如膝上型电脑之类的计算机设备或系统、个人计算机、机顶终端、具有通信能力的电视机、DVD/CD记录器等等)，这些客户端设备与诸如客户端服务器108或112之类的一个或多个客户端服务器通信。客户端服务器108和112耦合到网络，例如广域网(WAN)110，其在一个实施例中包括因特网。设想了其他网络在本公开的范围内，包括使用与其他传输协议或标准相结合的分组的网络。客户端服务器108和112还可包括一个或多个存储设备或者与一个或多个存储设备进行本地通信，例如像对客户端服务器112和对应的存储设备114所示的那样。客户端服务器108与客户端设备102、104、106之间的通信(以及类似的客户端服务器112与客户端设备116之间的通信)可经由无线或有线连接进行，这些连接包括作为非限制性示例的以太网、令牌环、私有或专属网络，等等。在通信网络100中还包括视频文件共享系统(在图1中标示为FS系统)130和视频指纹仓库(VFR)系统200，其中每一个耦合到网络110。视频文件共享系统130包括被配置为接收和存储视频内容(以例如用于上载到网站)的一个或多个服务器118和一个或多个存储设备120。VFR系统200包括一个或多个服务器122和一个或多个存储设备124，存储设备124被配置为存储对应于与已知的受保护视频内容相关联的参考视频指纹的数据结构(例如记录数据库)。

客户端服务器108和112可包括在因特网服务提供商(ISP)设施中的服务器、私有服务器、网关和/或其他用于视频文件(以及其他内容，比如数据、音频等等)的通信的设备或设施。本领域的普通技术人员应当理解，在通信网络100中可使用额外的客户端服务器和客户端设备以及其他设备，比如路由器、网桥等等。客户端设备102、104、106、116、各客户端服务器108和112以及系统服务器122和118之间的因特网协议(IP)分组的通信可根据诸如用户数据报协议(UDP)/IP、传输控制协议(TCP)/IP等等之类的多种不同协议中的一种或多种来实现。

视频文件共享系统130的系统服务器118包括逻辑(例如一个或多个代码模块、硬件或两者的组合)，该逻辑分析从客户端服务器108和112接收的视频序列(例如包括一个或多个视频片断)并且得出(生成)一个或多个视频指纹(包括得出与一个或多个测得转变相对应的信息)以用于与存储在VFR系统200中的参考视频指纹相比较。在一些实施例中，用于分析视频序列和生成视频指纹的逻辑的功能可存在于通信网络100中的别处(作为对存在于系统服务器118中的取代或附加)，例如存在于客户端服务器108和112处。

如上所述，VFR系统200包括耦合到存储设备或仓库124的服务器122。服务器122包括逻辑(例如一个或多个代码模块、硬件或两者的组合)，该逻辑被配置为评估从系统服务器118接收的视频指纹是否匹配存储设备124中存储的参考视频指纹(例如基于已知的受保护内容)。此外，系统服务器122包括被配置为得出(生成)参考视频指纹以便存储在存储设备124中的逻辑。应当理解，与存储设备124相对应的存储和数据结构可以是外部存储设备，或者在一些实施例中可以被物理地包含到服务器122中，或者在一些实施例中被分布在网络上(例如，在文件共享系统130处被镜像)。另外，应当理解，在一些实施例中，存在于系统服务器122中的功能可存在于视频文件共享系统130的系统服务器118中(或别处)，从而评估可例如在文件共享能力的提供者的本地实现。虽然是利用单个服务器122来示出的，但是VFR系统200在一些实施例中也可包括一个或多个服务器设备(例如大型机、个人计算机、网关等等)和/或一个或多个额外的仓库124。

图2A是图1所示的视频文件共享系统130的实施例的框图，其包括系统服务器118和存储设备120。一般地，就硬件体系结构而言，系统服务器118包括处理设备204、输入/输出(I/O)设备206、网络接口208以及存储器210，其中每一个经由本地接口218可通信地耦合。网络接口208包括传输输入和输出的设备，例如但不限于调制器/解调器(用于访问另一设备、系统或网络的解调解调器)、射频(RF)收发器或其他类型的收发器、电话接口、网桥、路由器，等等。

I/O设备206可包括输入设备，例如但不限于键盘、鼠标、扫描仪、麦克风等等。另外，I/O设备206也可包括输出设备，例如但不限于打印机、显示器等等。

如本领域中已知的，本地接口218例如可以是但不限于是一个或多个总线或其他有线或无线连接。本地接口218可具有额外的元件(为了简单而省略了这些元件)，例如控制器、缓冲器(缓存)、驱动器、转发器以及接收器，以使能通信。另外，本地接口218可包括地址、控制和/或数据连接，以使能上述组件之间的适当通信。视频文件共享系统130还被配置有耦合到本地接口218的存储设备120，该存储设备120被配置为存储由客户端服务器108和112上载的视频内容。虽然示出了一个存储设备120，但在一些实施例中可以有多个存储设备。

处理设备204是用于执行软件尤其是存储在存储器210中的软件的硬件设备。处理设备204可以是任何定制的或可购得的处理器、中央处理单元(CPU)、与系统服务器118相关联的若干处理器之中的辅助处理器、基于半导体的微处理器(采取微芯片或芯片集的形式)、宏处理器或者概括地说任何用于执行软件指令的设备。

存储器210可包括易失性存储器元件(例如随机访问存储器(RAM，比如DRAM、SRAM、SDRAM等等))和非易失性存储器元件(例如ROM、硬盘驱动器、磁带、CDROM等等)中的任何一种或其组合。另外，存储器210可包含电子的、磁的、光的和/或其他类型的存储介质。注意，存储器210可具有分布式体系结构，其中各种组件的位置相互远离，它们可被处理设备204所访问。

存储器210中的软件可包括一个或多个分开的程序，其中每一个包括用于实现逻辑功能的可执行指令的有序列表。在图2A所示的实施例中，存储器210中的软件包括适当的操作系统(O/S)212和分析模块214。操作系统212实质上控制诸如分析模块214之类的其他计算机程序的执行，并且提供调度、输入-输出控制、文件和数据管理、存储器管理以及通信控制和相关服务。

分析模块214的功能可利用单个模块来实现，或者分布在多个模块间。分析模块214包括以下功能：接收和分析经解压缩的视频序列(例如，解压缩在一个实施例中由包含在处理设备204中的解压缩功能(例如MPEG、H.264等等)执行或者由单独的解码器(未示出)执行，或者在一些实施例中分析模块可包含解压缩功能)，并且从接收到的视频序列中的一个或多个对象转变得出视频指纹，以用于发送给VFR系统200，以便与参考视频指纹相比较。

当分析模块214在操作中时，处理设备204被配置为执行存储器210内存储的软件，以向存储器210和从存储器210传输数据，以及根据该软件总体地控制分析模块214的操作。分析模块214和O/S 212整体上或部分地(但通常是部分地)被处理设备204所读取，可能被缓冲在处理设备204内，然后被执行。

在描述了视频文件共享系统130和相关联的组件的实施例后，转而关注图2B，其是示出在一个实施例中由分析模块214与系统服务器118的其他组件(例如网络接口208和处理设备204)合作实现的示例性分析方法(用标号214a标示)的流程图。分析方法214a接收视频序列(220)。例如，用户可能恶意地经由客户端设备(例如DVD记录器)记录一按观看付费的竞赛，并且通过已知的机制(例如浏览器软件)将该记录上载到客户端服务器108，客户端服务器108随后将该内容上载到视频文件共享系统130(或者在一些实现方式中，上载可以直接从客户端设备到文件共享系统130发生)。

分析方法214a识别或检测场景内的一个或多个对象(视觉对象)(222)。用于识别对象的各种机制是公知的(例如，来自计算机视觉技术、医学成像技术等等)，例如限定边界框、找出闭合边界、找出连接的对象、分割由边界框限定的对象、使对象相对于原点朝向主轴、相对于图片尺寸(例如在视频流中提供的图片尺寸，比如MPEG-2中的图片头部或AVC的序列或图片参数集)确定对象尺寸、计算不变形状描述符(例如傅立叶描述符)和质心(和/或第一和第二主轴)以及质心(和/或轴)的相应交点、执行边缘检测(例如Canny边缘检测器以及其他公知的边缘检测机制)，等等。这些公知的方法中的一种或多种可以被分析方法214a实现(或者在一些实施例中与其他专用逻辑结合实现)来识别一个或多个对象。在某一跨度的场景(或短于一个场景)上，诸如对象形状、颜色、色调、阴影、大小等等之类的特征可能变化，并且相应地，对应的对象在场景内是值得跟踪的。

分析方法214a还包括跟踪场景内的一个或多个对象(224)。例如，对象可通过其质心或不变形状描述符而被跟踪，但并不限于这些参数(例如，跟踪可基于对象的这些和/或其他特征或参数)。分析方法214a在由例如帧数目、图片相对时间(例如ΔPTS)限定的时间窗口上或者按所限定的时间增量来跟踪对象。该时间窗口可对应于整个场景或短于整个场景。在一个实施例中，分析方法214a以场景为单位跟踪视频序列，其中场景中的变化是利用公知的机制来检测的(例如结合所有对象的消失、渐弱或滑动效果、图片之间相关性的缺乏，等等)。在一些实施例中，在整个跟踪过程中可以对类对象进行评级或排名。例如，每当一新的对象在一场景中持续了超过所限定的时间窗口(例如，3-5秒)时，该对象在当前场景内就被升级为更高级类对象并且被与已经识别的对象相耦合或相关联。

注意，在一些实施例中，分析方法214a可应用限制过滤器，以例如将跟踪仅限于运动对象相对于静止对象，因此限制要跟踪的对象的数目。在一些实施例中，全局运动技术可用于将相机摇摄与对象运动分离开来。

分析方法214a还包括测量对象转变以得出视频指纹(226)。分析方法214a还过滤掉一些对于检测规避技术来说不那么健壮的对象。在一个实施例中，分析方法214a根据对象对检测规避技术的健壮性或者基于其他标准(例如跟踪的容易性、测量的确定性或置信度等等)来对对象排名。例如，鉴于剪切掉边界对象(例如为了避免对受保护内容的检测)的相对容易性，沿着图片的外周或在图片的外周附近跟踪的对象可能具有较低的优先级(例如，相对于位于图片中心或中心附近的对象而言)。因此，一些对象可能由于具有比预定的优先级排名或值更低的优先级而被从对象转变测量中排除。又例如，分析方法214a选择与如下对象相关联的对象转变来用于测量：这种对象的出现时间至少达到了所限定的时间或者帧数目阈值(或者换句话说，将与出现时间短于预定的时间窗口的视觉对象相对应的转变从测量中排除)。在另一示例中，鉴于I图片无论图像如何劣化都能维持的较高保真度和对信息的大范围传播，可以仅利用I图片(例如在多个I图片之间持续的对象)来测量对象转变。一般地，m个对象之中的n个(其中n＜m)可被选择来用于对相关联的转变的测量，其中n个所识别的对象全都拥有大于预定的值K的置信度量。

如上所述，视频指纹可包括表示一个或多个对象转变(或者更具体而言表示与所测得的对象转变相对应的信息)的方程(或者在一些实施例中是数据结构或表示方程或数据结构的值)，该方程传达了诸如以下信息：对象是否在向上、下、左或右移动，对象的大小是否增大或减小、转变持续时间(例如，按绝对或相对时间、帧数目等等)。换言之，该方程被制定为限定在所限定的时间窗口上(所测得的)对象的转变(例如特征的转变)。在一些实现方式中，对象转变可以不由有限方程来表示，而是可通过利用某一程度的推导来表示模式的方程来表示。

对对象转变的测量包括ΔT(时间的变化)的一阶(1阶)函数，因此可被认为与视频剪辑中的绝对位置没有相关性(使得以下所述的匹配过程对于例如伪造帧或图片注入而言更健壮)。然而，注意，在一些实施例中，绝对位置也可能与视频指纹相关。在一些实施例中，分析方法214a可实现二阶(2阶)测量(例如场景内的一个或多个对象的加速度)。这种二阶测量提供了一阶测量之间的差异，从而使得VF系统对于黑客和其他不道德人物而言更健壮。

注意，可以基于整个场景或具有短于整个场景的持续时间(例如1-2秒)的视频片断来测量用于得出视频指纹的对象转变。例如，可以基于以场景转变为基准或者如果不是在场景变化开始处则以转变开始为基准达到或超过了所限定的时间窗口(或者按照ΔPTS或帧数目)和/或达到或超过了所限定的百分比的特征和/或运动转变(变化)的对象转变得出视频指纹，然后为与下一顺序场景相对应的下一视频片断(无论是持续了整个场景还是其一部分)创建新的视频指纹。换句话说，鉴于以下事实，可以从测量中排除一些对象转变：该对象没有持续所限定或预定的阈值时间或帧数目(例如，该对象可能只出现了片刻)。在一个实施例中，每个视频片断与各种参数或关键字相关联，例如与电影或节目(或其他内容实例)有关的唯一标识符、场景号码和/或与电影或节目内的视频片断的顺序有关的序号。这种参数或关键字可被包含到视频指纹中，或者以已知的方式与指纹相关联(例如，利用指针或其他类型的引用机制)。

分析方法214a判定所接收的视频序列是否还剩余有更多场景(228)；并且如果是，则重复从(222)开始的处理；否则，分析方法214a将该视频指纹(或多个视频指纹，如果该过程对于多个场景重复的话)转发到VFR系统200以便与存储在其中的参考视频指纹相比较(230)。

然后，分析方法214a接收(来自VFR系统200的)对于在由分析方法214a得出的视频指纹和存储在VFR系统200处的参考视频指纹之间是否存在匹配的指示。在一些实施例中，没有指示被分析方法214a理解为意味着视频指纹不匹配(例如，没有与发送给VFR系统200的视频指纹相对应的受保护内容)。对于存在受保护内容的指示可以经由设置的比特或标志或者本领域的普通技术人员公知的其他传达信息的机制来给出。

注意，在一些实施例中，参考视频指纹可被镜像(例如从中央存储装置下载拷贝)到文件共享系统130的系统服务器118本地的存储装置120或存储器，从而使得能够在本地评估是否存在匹配(当配备有评估逻辑时，如下所述)。

在一些实施例中，在测量之前可对对象施加额外的处理。例如，所有对象都可被正规化到所限定的图片分辨率。

转而关注图3A-4C，它们是概念性地示出可以被测量或进行指纹识别的对象转变的示意图。图3A示出了显示器302(例如计算机监视器、TV屏幕等等)，其具有对象304(例如球)相对于另一对象306(例如窗框)的图像，该窗框包括与四格玻璃308相对应的四个象限(例如左上、右上、左下、右下)。透过与左上象限相对应的窗格玻璃看到了球304。图3B示出了球304向前进，从而更靠近窗框306，这由位于窗框306的交点处的球304和感知到的球的更大大小表示。图3C示出了球304在右下侧的象限中撞破了窗格玻璃，这由破碎的玻璃部分310和部分310中剩余的玻璃所围绕的球来表示。从通过图3A-3C展示的场景中，注意到分析方法214a可以测量各种对象转变，例如球304在场景上平移时的运动(例如相对于图片边界)，以及球相对于窗框(另一对象)的运动。换言之，对从开头到结束(就时间或帧数目而言)、相对于图片边界和其他对象的空间偏移的测量在图3A-3C所示的这个示例中包括了一些可测量的对象转变。注意，在场景开始(图3A)和场景结束(图3C)处的测量的过程中，其间的间隔也是由方程定义的(例如，被表征为例如斜率或向量的轨迹，或者在整个场景中的多个所限定的增量处取得的测量)，从而使得短于整个场景的视频片断在以后可被匹配，而无论用于规避检测过程的技术如何，如下所述。此外，球304的大小“扩大”(提供了朝着窗框306的近旁前进的感觉)，因此在场景的跨度上还可以测量球的开始和结束面积。另一个转变与球的方向有关，这也是一个可量化的转变。注意，图3A-3C的图示只是用于理解VF系统的概念的一个简化(例如，球从屏幕的一个象限平移到另一个象限可涉及数百张图片)。

注意，对于规避这里公开的VF系统的受保护内容检测机制的各种尝试面临着困难的挑战。例如，如果图3A中表示的第一帧被从序列中剔除或丢弃(或者例如每隔一帧被剔除或丢弃)，则缺失的帧将不会规避检测，因为时间戳仍反映场景内的相对运动，就像方程和/或在匹配过程中与在场景内的避开了剔除过程的多个时间增量期间取得的测量进行的比较中所体现的斜率、向量或其他度量仍反映的那样。换言之，在MPEG-2视频中，例如，尽管丢弃了图片，但仍保留了时间戳。另外，鉴于尽管丢弃了图片但却仍保留了球的方向(向量)，并且鉴于相对于图片尺寸而言以及相对于其他对象的被弃图片后到结尾的空间偏移(例如空间系数)相同以及球的被弃图片后到结尾的尺寸相同，所以仍可获得阈值百分比的匹配。另外，鉴于对相对运动或尺度变化的测量，分析方法214a对于故意施加的图片尺度变化是免疫的。例如，图片尺度变化导致对象的按比例变化，因此球304的大小的相对变化将会随着图片尺度变化而按比例变化。又例如，给定相对于图片尺寸的对象的距离的测量，如果视频序列原本是根据高清晰度(HD)来编制格式的，并且随后被转码成标准清晰度(SD)，则相对于变化的图片尺寸的对象的转变(例如，由对象的宽度、高度限定的对象尺寸)应当是成比例的，因此这种规避VF系统的尝试(转码)应当会失败。还可以取得二阶测量，例如球的加速度，以增加一阶测量的确定性。

图4A-4C概念性地示出了显示器402中两个对象之间的相对运动，即随着帧的前进而远离太阳404移动的云朵406。同样，相对于图片尺寸和对象，测量了与场景的全部或一部分的持续时间相对应的时间期间的空间偏移。另外，还可以取得二阶测量。

在描述了配备有分析模块214的文件共享系统130的实施例的示例性体系结构和功能之后，现在关注如图5A所示的VFR系统200。VFR系统200包括处理设备504、存储器510(包括O/S 512)、I/O设备506和网络接口508，它们经由本地接口518相互耦合。这些组件504、510、512、506、508和518与图2A所示的具有标号204、210、212、216和218的相同标签的组件类似(因此以相同或相似的功能操作)，因此这里为了简要省略对其的论述。存储器510还包括评估器模块514和指纹识别器模块516。

此外，VFR系统200还包括参考视频指纹仓库(或存储设备)124，其被配置为将参考视频指纹(例如，refvideo f.p.1、refvideo f.p.2、…、refvideo f.p.N)以记录或其他数据结构的形式存储在数据库519，并且还存储如下进一步描述的其他信息。虽然示出了一个参考视频指纹仓库124，但是在一些实施例中，可实现多个参考视频指纹仓库。在一些实施例中，用于得出参考视频指纹的相应视频内容(或对该视频内容的引用)也可被存储在数据库519中或者存储为单独的数据库或存储设备的一部分，该单独的数据库或存储设备协助对相应的(一个或多个)参考视频指纹的引用。如上所述，在一些实施例中，视频文件共享系统130可配备有此额外的逻辑(例如评估器模块514、指纹识别器模块516、参考视频指纹仓库124)以使能例如本地评估和/或参考视频指纹识别和存储。

评估器模块514在一个实施例中被配置为实现一种判定在从视频文件共享系统130接收的(一个或多个)视频指纹(例如未知内容)和存储的(一个或多个)参考视频指纹(已知的受保护内容)之间是否存在匹配的方法，该方法被标示为评估器方法514a并且在图5B中示出。评估器方法514a可离线执行(延时执行，例如在上载到网站之前延时执行或在之后执行)，在线执行(例如实时执行)，或者以离线和在线的组合方式执行。如图5B所示，评估器方法514a接收一个或多个视频指纹(520)。例如，评估器方法514a从文件共享系统130接收视频指纹。评估器方法514a访问视频指纹仓库124的(例如参考视频指纹的)数据库519(522)。虽然被描述为数据库，但是应当理解，在一些实施例中，作为数据库的附加或替代，可以使用其他数据结构。另外，虽然被描述为单个数据库，但应当理解，在本公开的上下文中，可以使用多个数据库。

在一个实施例中，数据库519被配置有一组关键字(在图5A中未示出)，该组关键字可被用作到所存储的参考视频指纹的索引或捷径。这种关键字可以是视频序列的参数(例如电影标识符、场景号等等)，这些参数最初作为指纹识别过程(下文中描述)的一部分被存储在数据仓库124中并被用于协助对视频文件共享系统200所接收的视频指纹的匹配(在评估过程期间)。例如，这种关键字可被评估器方法514a所接收和解析(例如在520中)并被用于与存在于数据库519中的相似关键字相比较。例如，视频文件共享系统200所接收的视频指纹可以在该视频指纹中体现一个或多个关键字，或者在一些实施例中，可以与该视频指纹相分离(例如不是方程的一部分)，但仍被引用到该视频指纹或与该视频指纹相关联。这种关键字可在VFR系统200处被解析并且被匹配到数据库519中的关键字以协助将接收到的视频指纹与存储在数据库519中的参考视频指纹相匹配。关键字还可包括子类别索引，这些子类别索引包括以下各项中的一项或多项：

找到对象的范围；

空间系数(对象之间的尺寸(开始))；

空间系数(对象之间的尺寸(结束))；

总对象面积(开始)；

总对象面积(结束)；

片断(视频序列)时间长度；以及

时间戳。

包括在数据库519的相同或不同数据结构(例如表)中的额外信息包括以下各项中的一项或多项：

采取方程或数据结构的格式的参考视频指纹(例如表示在一段时间中某一对象与在场景内识别的所有其他对象的可量化关系的方程或数据结构)；

对象的百分比增大(尺度)；

对象的百分比减小(尺度)；

关于对象是否消失的指示；以及

关于对象是否具有在所限定的时间或事件(帧数目)窗口期间的持续时间(在该窗口期间存在)的指示。

注意，这种关键字可被组合(或在一些实施例中被省略)，例如包括“％增大-开始大小-结束大小”的关键字，当在数据库519中被索引时，其返回与组合的关键字相对应的匹配阵列。应当理解，设想了本领域普通技术人员公知的其他数据库配置和搜索/匹配机制在实施例的范围内。

评估器方法514a判定接收到的(一个或多个)视频指纹是否包括与存储在数据库519中的参考视频指纹的匹配(524)。由于对规避这里公开的VF系统所采用的检测机制的尝试可能更改或省略视频序列的某些帧，所以匹配可以基于从视频指纹之间完全匹配(100％)到某个所限定的阈值百分比(小于100％)匹配中的任何一种匹配。例如，参考视频指纹和接收到的参考视频指纹在剪切后的图像中检测到的对象数目方面可能不同，但是对象之间的空间偏移仍保持相同，并且未剪切掉的对象仍保持相同并拥有相同的转变属性。此外，至于对视频进行缩放以尝试避免检测机制，对象可能具有较小(或较大)的大小，但是相对距离应当保持相同。即，在一场景之中对象的个体运动应当是相同的(例如方向性、大小的增大/减小等等)。类似地，添加无关的视频或者删除场景的片段应当不会干扰匹配过程(524)，因为为了将视频指纹识别为受保护内容并不需要匹配场景的全部。另外，拥有若干个场景的视频序列在该若干个场景中经历此匹配过程，因此使得能够针对整个子集对匹配百分比排名。

简言之，这里公开的VF系统利用了以下事实：无论对一场景的观察或监视是在何时被发起的，该场景内的对象都遵循相同的转变或路径。通过类推，评估器方法514a执行的匹配过程可以被比作目的地的映射图而不是直接匹配(但在一些实现方式中也可发生直接匹配)，类似于一个人如何从佛罗里达州开车到伊利诺斯州-跟踪是否开始于肯塔基州并终止于亚特兰大是没有关系的，因为经过了相同的行程逗留点。类似地，跟踪开始于场景中何处是没有关系的，因为检测的是一些可能的匹配。

注意，评估器方法514a基于每个场景具有先后顺序这一假设而解决了伪造匹配的问题。如上所述，场景内的每个对象被结合其他对象及其相对偏移来加以跟踪。评估器方法514a基于以下假设而工作：当在特定时间窗口内发现匹配时，确定性百分比在接下来的视频序列也表现出较高匹配概率时提高。这种伪造匹配考虑可在(528)处实现。

注意，在一些实现方式中可模仿伪造匹配考虑。例如，考虑电影摄像机聚焦于正在显示电影的TV屏幕的情况，并且假设“镜头”填满整个帧。该电影的一些部分应当匹配实际电影，只不过在该“镜头”中应当有除了周边TV屏幕之外的不同运动。因此，过程(524)应当使能电影内的电影的匹配或部分匹配。

响应于判定不存在匹配，评估器方法514a可选地向发送了视频指纹的设备(例如系统服务器118)提供消息，该消息指示或暗示出视频序列不包含受保护内容(526)。例如，该指示可以是文本消息，例如“所发送的(一个或多个)视频指纹没有揭示受保护内容”，或者该消息可以是在不存在匹配时被设置到零的标志，或者没有来自评估器方法514a的响应对于系统服务器118来说可以意味或暗示着没有找到匹配(因此该(一个或多个)视频指纹没有揭示受保护内容)。设想了本领域的普通技术人员公知的其他指示机制在本公开的范围内。

响应于判定存在匹配，评估器方法514a可以可选地执行第二匹配以增强或确证该匹配的确定性(528)。例如，在一些实施例中可以使用单独的颜色通道来巩固或确证匹配，例如在Y平面、U和V平面和/或RGB平面上。在一些实施例中，语音跟踪可用于确证匹配。在一些实施例中，利用这些确证机制(例如颜色和/或语音)时没有匹配这一点可用于将内容彻底排除(从匹配过程中排除)或者作为使初始匹配的确定性因子降低的机制。在替换实施例中，确证机制可用作匹配之前的初始剔除因子(524)。

评估器方法514a向发送方设备(例如系统服务器118)提供消息，以向客户端服务器(例如分析模块214)指示或暗示出所评估的视频指纹对应于受保护内容(530)。例如，该消息可以采取被设置的标志的格式，该被设置的标志向系统服务器118表示或传达出已检测到受保护内容。在一些实施例中，该消息可以采取明确传达出已检测到受保护内容的文本的格式或其他格式。

在描述了VF系统的实施例的分析和评估特征后，转而关注生成参考视频指纹以用于存储在参考视频指纹仓库124中的参考视频指纹识别方法。具体地，图5C示出了参考视频指纹识别方法的实施例，该方法被标示为方法516a并在下文中描述。在一个实施例中，参考视频指纹识别方法516a由VFR系统200的指纹识别器模块516实现，但并不限于由指纹识别器模块516实现。例如，在一些实施例中，指纹识别器模块516的功能中的一个或多个可以在网络100中的其他位置处实现。在一些实施例中，指纹识别器模块516的功能可以在与试图将视频指纹上载到VFR系统200的内容提供者(而不是从由内容提供者提供的视频内容或序列得出指纹的VFR系统200)相关联的计算设备处实现。参考视频指纹识别方法516a所例示的过程类似于分析方法514a，因此对于先前已针对方法214a描述过之处，则不再详述该过程中的类似步骤或逻辑。

如图5C所示，视频指纹识别方法516a例如从受保护内容的提供者接收视频序列(531)。视频指纹识别方法516a识别场景内的一个或多个对象(532)，跟踪该场景内的一个或多个对象(534)，并且测量与所跟踪的一个或多个对象相对应的对象转变以针对每个场景得出或生成一个或多个参考视频指纹(536)。

注意，用来得出视频指纹的对象转变可以基于整个场景或具有短于整个场景的持续时间(例如1-2秒)的视频片断。例如，视频指纹可以基于持续了所限定的时间窗口(ΔPTS、帧数目)和/或在特征和/或运动方面达到或超过所限定的百分比转变(变化)的一个或多个对象而得出，，然后针对下一视频片断可在数据库519中创建视频的新记录(例如基于对新场景的检测)。如上所述，与受保护内容相对应的每个视频片断可以与各种参数或关键字相关联，例如与电影或节目(或其他内容实例)有关的唯一标识符、场景号码和/或与电影或节目内的视频片断的顺序有关的序号。这种参数可用于确定顺序可持续性。如上所述，这种关键字可由指纹识别器模块516(或由别处)从接收到的参考视频片断中解析出来并被用作仓库124中到相关联的视频指纹的索引。

如果存在额外的场景(例如在作为视频指纹识别的对象的同一视频的场景序列之中)(538)，则处理返回(532)，直到不存在对象视频的更多场景为止(538)，在此之后参考视频指纹被存储(带有或不带有关键字)在存在于参考视频指纹仓库124中的数据库519中。

在一些实施例中，VFR系统200可将视频序列修改成参考视频指纹的多个集合或版本。图5D是示出视频指纹识别方法的这种实施例的流程图，其被标示为视频指纹识别方法516b。应当理解，虽然是在VFR系统200的上下文中描述的，但是以下描述的技术或过程也可在别处实现，例如在分析模块214中实现。视频指纹识别方法516b包括为具有有限长度的视频序列的第一版本生成第一度量(例如第一视频指纹)(541)，丢弃图片以获得有限长度的视频序列的第二版本(例如，第二版本在图片数目上与第一版本不同)(542)，为视频序列的第二版本生成第二度量，第二度量与第一度量具有类似的值，其中第一和第二版本的时间跨度是基本相等的(544)。鉴于关注的是对象转变的相对性，所以测量具有相似的值。注意，如果评估器方法514a将第一和第二度量识别为匹配(例如百分比匹配而不是全等匹配)，则第一和第二度量具有相似的值。另外，时间跨度基本相等的一个示例是对于观看者而言差别不可察觉的示例。

图5E是示出时间跨度不同的方法实施例的流程图，该方法实施例被标示为视频指纹识别方法516c。相应地，视频指纹识别方法516c包括为具有有限长度的视频序列的第一版本生成第一度量(550)，丢弃图片以获得有限长度的视频序列的第二版本(例如，第二版本在图片数目上与第一版本不同)(552)，为视频序列的第二版本生成第二度量，第二度量与第一度量具有类似的值，其中第一和第二版本的时间跨度是不同的(554)。

例如，第二版本可能开始于与第一版本不同的时间(例如开始得比第一版本晚)，但是结束于与第一版本相同的时间。或者，第二版本可具有与第一版本相同的开始但与第一版本不同的结束(例如结束得比第一版本早)。另一示例包括时间跨度不同并且分辨率不同的情况(例如第二版本具有较小的图片分辨率)。例如，由于视频数据的非线性性，场景在视频的降级版本中看起来可能是相同的，但是实际数值表示可能是不同的。另一示例包括处理降级的版本的情况，例如其中第二版本是通过对产生第一版本的压缩流解码并对经解码的图片重新编码而获得的，然后处理第二版本以获得与第一版本的度量相等或近似相等的视频指纹(例如度量)。本领域的普通技术人员应当理解，在本公开的上下文中，可以实现用于提供不同版本的其他替换方案，因此这些替换方案被设想为在本公开的范围内。

在一些实施例中，这里公开的VF系统可以结合诸如水印添加、加密标签等等之类的其他方法来实现，其中这种标签或水印可被存储在数据库519中以用于匹配处理(例如作为匹配过程中的主功能或步骤或作为用于确证主过程匹配的次操作)。

注意，作为VF系统和方法的某些实施例的一部分来描述的分析、评估、指纹生成和匹配可以在讯问或监视的阶段中实现。例如，到达视频文件共享系统130的视频内容之中的所限定的百分比可被分析，并且如果发生预定数目的匹配(例如指示出对受保护内容的非法使用)，则经历这些方法的视频内容的百分比可被增大。

鉴于以上公开，应当认识到标示为方法130a并在图6中示出的一种方法实施例包括跟踪视频场景中的对象(602)并且基于在所限定的时间窗口期间该对象的一个或多个测得转变来为该场景得出视频指纹(604)。

鉴于以上公开，应当认识到标示为方法130b并在图7中示出的另一方法实施例包括接收视频流，其中该视频流包括一个或多个连续视频场景，其中该一个或多个连续视频场景分别对应于一组或多组视觉信息，其中该一个或多个连续视频场景中的每一个包括多个连续图片，其中第一视觉对象被包括在第一视频场景中，其中该一个或多个连续视频场景包括该第一视频场景(702)；在第一视频场景的第一多个图片上检测第一视觉对象(704)；得出与第一视觉对象在第一视频场景的第一多个图片上的一个或多个测得转变相对应的信息(706)；以及提供与所得出的信息相对应的标识信息(708)。

鉴于以上公开，应当认识到标示为方法200a并在图8中示出的另一方法实施例包括存储多个参考度量，每个参考度量对应于与视频场景相对应的多个连续图片的一个或多个视频对象的测得转变(802)，接收与从远程设备接收的第一视频场景相对应的多个连续图片的第一度量和第二度量，该第一度量和第二度量对应于第一视频场景的视频对象的测得转变(804)，将第一度量和第二度量与所存储的多个参考度量相比较(806)，以及向远程设备指示出在第一度量和第二度量与所存储的多个参考图片之一之间是否存在阈值百分比匹配(808)。注意，在一些实施例中，比较还包括基于小于百分之百匹配的阈值百分比匹配来确定匹配的存在。

注意，在一些实施例中，这里描述的VF系统和方法可被扩展到对(例如来自视频摄像机等等的)原始视频的处理，从而接收(压缩的或未压缩的)原始视频或者被表征为第一表示的视频，(例如在未压缩的或经解压缩的视频上)取得测量，并且(例如向另一设备)提供第二表示作为视频流。例如，第二表示可以体现测量，或者视频内容和测量。在一些实施例中，第二表示可以是压缩格式的。

本公开的某些实施例的分析模块214、评估器模块514和指纹识别器模块516以及方法214a、514a、516a-516c、130a、130b和200a可以用硬件、软件、固件或其组合来实现。在用软件或固件(总地来说是软件代码或软件逻辑或简称为逻辑)实现分析模块214、评估器模块514和指纹识别器模块516的实施例中，这种实施例被存储在存储器中并被适当的指令执行系统所执行。当用软件来实现分析模块214、评估器模块514和指纹识别器模块516时，应当注意分析模块214、评估器模块514和指纹识别器模块516可被存储在任何计算机可读介质上，供任何计算机相关系统或方法使用或与之结合使用。在本文档的上下文中，计算机可读介质是电子的、磁的、光的或其他物理设备或装置，其可包含或存储供计算机相关系统或方法使用或与之结合使用的计算机程序。分析模块214、评估器模块514和指纹识别器模块516可被体现在任何计算机可读介质中，供指令执行系统、装置或设备使用或与之结合使用，所述指令执行系统、装置或设备例如是基于计算机的系统、包含处理器的系统或者能够从指令执行系统、装置或设备取得指令并且执行指令的其他系统。

在用硬件来实现分析模块214、评估器模块514和指纹识别器模块516的实施例中，可以利用均为本领域公知的以下技术中的任何一种或组合来实现分析模块214、评估器模块514和指纹识别器模块516：具有用于对数据信号实现逻辑功能的逻辑门的(一个或多个)分立逻辑电路、具有适当的组合逻辑门的专用集成电路(ASIC)、(一个或多个)可编程门阵列(PGA)、现场可编程门阵列(FPGA)，等等。

流程图中的任何过程描述或块应当被理解为表示包括用于实现该过程中的特定逻辑功能或步骤的一个或多个可执行指令的模块、版本或代码部分，并且在本公开的范围内包括替换实现方式，在这种替换实现方式中，取决于所涉及的功能，可以按不同于所示出或论述的顺序的顺序来执行功能，包括基本同时执行或按相反顺序执行，这是本领域的技术人员将会理解的。在一些实施例中，图2B和5B-5E、6、7和8中利用分开的框标识的过程步骤可以被组合。

此外，虽然各种流程图(例如在图2B、5B-5E、6、7和8中示出)是在图2A和5A中示出和描述的体系结构的上下文中示出和描述的，但是应当理解，图2B、5B-5E、6、7和8中描述的方法的实现方式不限于这些体系结构，并且拥有被配置为实现这种方法的不同体系结构的相同设备或其他处理设备被设想为在本公开的范围内。

应当强调，本公开的上述实施例只是实现方式的可能示例，只是为了清楚理解VF系统和方法的原理而阐述的。在不实质上脱离本公开的精神和原理的情况下，可以对上述的(一个或多个)实施例做出许多变化和修改。希望所有这种修改和变化在这里都包括在本公开的范围内并且受权利要求的保护。

Claims

1.一种用于为视频流的一部分提供标识信息的方法，该方法包括：

接收视频流，其中所述视频流包括一个或多个连续视频场景，其中所述一个或多个连续视频场景分别对应于一组或多组视觉信息，其中所述一个或多个连续视频场景中的每一个包括多个连续图片，其中第一视觉对象被包括在第一视频场景中，其中所述一个或多个连续视频场景包括所述第一视频场景；

在所述第一视频场景的第一多个图片上检测所述第一视觉对象；

得出与所述第一视觉对象在所述第一视频场景的所述第一多个图片上的一个或多个测得转变相对应的信息，其中得出步骤包括测量从所述第一视觉对象在第一图片中的位置到所述第一视觉对象在第二多个图片中的各个图片中的位置的相应空间转变，其中所述第一图片被包括在所述第一视频场景的所述第一多个图片中，所述第二多个图片包括除所述第一图片以外的所述第一视频场景的所述第一多个图片，并且在所述第一视频场景的所述第一多个图片的显示顺序中，所述第二多个图片中的各个图片在所述第一图片之后；以及

提供与所得出的信息相对应的标识信息。

2.如权利要求1所述的方法，还包括将所述标识信息与所述第一视频场景相关联。

3.如权利要求2所述的方法，还包括将所述标识信息与所述第一视觉对象相关联。

4.如权利要求1所述的方法，其中所述第一视频场景的所述第一多个图片包括所述第一视频场景的所有所述多个连续图片。

5.如权利要求1所述的方法，其中所述第一视频场景的所述第一多个图片中的图片数目小于所述第一视频场景的所述多个连续图片的图片数目。

6.如权利要求2所述的方法，其中所述第一视觉对象的每个测得转变是根据在所述第一视频场景的两个图片中所述第一视觉对象的质心的位置的。

7.如权利要求1所述的方法，其中每个测得转变对应于以下各项中的一项或多项的变化：所述第一视觉对象的大小、所述第一视觉对象的形状、所述第一视觉对象的颜色、以及所述第一视觉对象的色调。

8.如权利要求1所述的方法，还包括：

在所述第一视频场景的所述第一多个图片上检测第二视觉对象；

得出与所述第二视觉对象在所述第一视频场景的所述第一多个图片上的一个或多个测得转变相对应的第二信息；以及

提供与所得出的第二信息相对应的第二标识信息。

9.如权利要求1所述的方法，还包括从转变测量中排除所述第一视频场景的所述第一多个图片的在少于预定的阈值数目的图片中出现的其他视觉对象。

10.如权利要求1所述的方法，还包括从转变测量中排除所述第一视频场景的所述第一多个图片的在一时间跨度中的出现时间短于预定的时间窗口的其他视觉对象。

11.如权利要求1所述的方法，还包括从转变测量中排除优先级低于所述第一视觉对象的其他视觉对象，该优先级是基于所确定的针对对象检测规避的健壮性的。

12.如权利要求1所述的方法，还包括通过以下操作来确证所得出的与所述第一视觉对象在所述第一视频场景的所述第一多个图片上的一个或多个测得转变相对应的信息：计算与所述一个或多个测得转变相对应的二阶转变测量。

13.一种用于为视频流的一部分提供标识信息的系统，该系统包括：

用于接收视频流的装置，其中所述视频流包括一个或多个连续视频场景，其中所述一个或多个连续视频场景分别对应于一组或多组视觉信息，其中所述一个或多个连续视频场景中的每一个包括多个连续图片，其中第一视觉对象被包括在第一视频场景中，其中所述一个或多个连续视频场景包括所述第一视频场景；

用于在所述第一视频场景的第一多个图片上检测所述第一视觉对象的装置；

用于得出与所述第一视觉对象在所述第一视频场景的所述第一多个图片上的一个或多个测得转变相对应的信息的装置，其中用于得出的装置包括用于测量从所述第一视觉对象在第一图片中的位置到所述第一视觉对象在第二多个图片中的各个图片中的位置的相应空间转变的装置，其中所述第一图片被包括在所述第一视频场景的所述第一多个图片中，所述第二多个图片包括除所述第一图片以外的所述第一视频场景的所述第一多个图片，并且在所述第一视频场景的所述第一多个图片的显示顺序中，所述第二多个图片中的各个图片在所述第一图片之后；以及

用于提供与所得出的信息相对应的标识信息的装置。

14.如权利要求13所述的系统，还包括用于将所述标识信息与所述第一视频场景相关联的装置。

15.如权利要求14所述的系统，还包括用于将所述标识信息与所述第一视觉对象相关联的装置。