CN103198293B

CN103198293B - 用于指纹识别视频的系统和方法

Info

Publication number: CN103198293B
Application number: CN201210371363.7A
Authority: CN
Inventors: 艾克·艾基齐安; 马库斯·凯勒曼
Original assignee: Avago Technologies Fiber IP Singapore Pte Ltd
Current assignee: Avago Technologies International Sales Pte Ltd
Priority date: 2011-12-22
Filing date: 2012-09-28
Publication date: 2018-06-08
Anticipated expiration: 2032-09-28
Also published as: US9185338B2; KR20130079123A; US8538239B2; EP2608107A3; TW201328338A; EP2608107A2; US20130330057A1; CN103198293A; TWI551134B; US20130163957A1

Abstract

本发明涉及用于指纹识别视频的系统和方法。本发明公开了生成视频指纹的不同实施方式。可以检测视频中的场景变化，基于出现场景变化的时间和相对于邻近场景变化的场景变化之间的时间间隔生成视频指纹。可以捕获视频并通过比较视频中检测到的场景变化和视频指纹描述的场景变化来分析。

Description

用于指纹识别视频的系统和方法

技术领域

本发明涉及用于指纹识别视频的系统和方法。

背景技术

视频指纹识别可用于很多方面。视频指纹是指相对于多个视频的集合或文集中的其他视频可以唯一地识别视频的方法。本领域中的视频指纹识别系统和方法通常在一定程度上缺乏稳健性，它们不能识别视频的片段、编辑版本和/或甚至是已被压缩的完整版本，或没有包含基准视频的逐位匹配。如果视频质量降低或有其他的改变，现有技术的视频指纹识别系统和方法也可能不能匹配分析中的视频和基准视频。

发明内容

本发明的一个方面涉及一种在至少一个计算设备中执行的方法，所述方法包括以下步骤：检测视频中的多个场景变化；和至少基于一个子集的所述多个场景变化之间的各自的时间间隔生成视频指纹。

在上述方法中，优选所述生成视频指纹的步骤进一步包含：识别视频片段中的第一场景变化；识别邻近所述第一场景变化且在所述第一场景变化之后的第二场景变化，并确定所述第一场景变化和所述第二场景变化之间的第一时间间隔；和识别邻近所述第二场景变化且在所述第二场景变化之后的第三场景变化，并确定所述第二场景变化和所述第三场景变化之间的第二时间间隔；其中，所述视频指纹包含第一指纹配对，所述第一指纹配对包含所述第一时间间隔和所述第二时间间隔。

在上述方法中，优选进一步包括以下步骤：识别邻近所述第三场景变化且在所述第三场景变化之后的第四场景变化，并确定所述第三场景变化和所述第四场景变化之间的第三时间间隔。

在上述方法中，优选所述视频指纹进一步包含第二指纹配对，所述第二指纹配对包含所述第一时间间隔、以及所述第二时间间隔与所述第三时间间隔之和。

在上述方法中，优选所述视频指纹进一步包含第三指纹配对，所述第三指纹配对包含所述第三时间间隔、以及所述第一时间间隔与所述第二时间间隔之和。

在上述方法中，优选所述第一指纹配对、所述第二指纹配对和所述第三指纹配对在所述视频指纹中与所述第一场景变化相关联。

在上述方法中，优选所述视频指纹进一步包含与所述第一场景变化相关联的第一场景变化起始时间。

在上述方法中，优选所述视频指纹进一步包含第四指纹配对，所述第四指纹配对包含所述第二时间间隔和所述第三时间间隔。

在上述方法中，优选所述第四指纹配对在所述视频指纹中与所述第二场景变化相关联。

本发明的另一方面涉及一种系统，包括：至少一个计算设备；和在所述至少一个计算设备中执行的视频指纹识别应用程序，所述视频指纹识别应用程序包含：检测视频中的多个场景变化的逻辑；识别所述视频中出现所述场景变化的时间的逻辑；至少基于所述视频中出现所述场景变化的时间生成视频特征的逻辑；和至少基于所述视频中出现所述场景变化的时间确定所述视频特征是否匹配视频指纹的逻辑。

在上述系统中，优选所述生成视频特征的逻辑进一步包含：识别在视频片段中第一场景变化的逻辑；识别邻近所述第一场景变化且在所述第一场景变化之后的第二场景变化、并确定所述第一场景变化与所述第二场景变化之间的第一时间间隔的逻辑；以及识别邻近所述第二场景变化且在所述第二场景变化之后的第三场景变化、并确定所述第二场景变化与所述第三场景变化之间的第二时间间隔的逻辑；其中，所述视频特征包含第一配对，所述第一配对包含所述第一时间间隔和所述第二时间间隔。

在上述系统中，优选所述生成视频特征的逻辑进一步包含：识别邻近所述第三场景变化且在所述第三场景变化之后的第四场景变化的逻辑；和确定所述第三场景变化和所述第四场景变化之间的第三时间间隔的逻辑。

在上述系统中，优选所述视频特征进一步包含第二配对，所述第二配对包含所述第一时间间隔、和所述第二时间间隔与所述第三时间间隔之和。

在上述系统中，优选所述视频特征进一步包含第三配对，所述第三配对包含所述第三时间间隔、和所述第一时间间隔与所述第二时间间隔之和。

在上述系统中，优选所述第一配对、所述第二配对和所述第三配对在所述视频指纹中与所述第一场景变化相关联。

在上述系统中，优选所述视频特征进一步包含与所述第一场景变化相关联的第一场景变化起始时间。

在上述系统中，优选所述视频指纹至少基于所述视频中出现所述场景变化的时间，以及确定所述视频特征是否匹配视频指纹的逻辑进一步包括：确定视频指纹是否含有对应于以下之一的条目的逻辑：所述第一配对、所述第二配对和所述第三配对。

在上述系统中，优选所述视频指纹识别应用程序进一步包含：至少基于至少一个子集的所述多个场景变化之间的各自的时间间隔生成所述视频指纹的逻辑。

本发明的又一方面涉及一种系统，所述系统包括：用于检测视频中多个场景变化的装置；和用于通过识别视频片段中的第一场景变化、识别邻近所述第一场景变化且在其之后的第二场景变化、确定所述第一场景变化和所述第二场景变化之间的第一时间间隔以及识别邻近所述第二场景变化且在其之后的第三场景变化、以及确定所述第二场景变化和所述第三场景变化之间的第二时间间隔，从而至少基于至少一个子集的所述多个场景变化之间的各自的时间间隔生成视频指纹的装置，其中所述视频指纹包含第一指纹配对，所述第一指纹配对包含所述第一时间间隔和所述第二时间间隔。

在上述系统中，优选进一步包括：用于识别邻近所述第三场景变化且在其之后的第四场景变化、以及确定所述第三场景变化和所述第四场景变化之间的第三时间间隔的装置，所述视频指纹进一步包含第二指纹配对和第三指纹配对，其中所述第二指纹配对包含所述第一时间间隔、和所述第二时间间隔与所述第三时间间隔之和，而所述第三指纹配对包含所述第三时间间隔、和所述第一时间间隔与所述第二时间间隔之和。

附图说明

参考下面的附图可以更好地理解本发明的许多方面。在附图中的部件不一定按比例绘，而是着重于明确地示出本发明的原理。而且，在附图中，相似的参考数字用于以下附图相应的部分。

图1是根据本公开的多个不同实施方式的可以生成视频指纹的视频时间线的图。

图2是根据本公开多个不同实施方式的对应于图1的视频的一部分视频指纹的图。

图3A至图3I是示出了根据本公开的多个不同实施方式的视频特征（videoprofile）与图2的视频指纹匹配的图。

图4和图5是根据本公开的多个不同实施方式的能实施视频指纹识别应用程序的计算环境的图。

图6和图7是流程图，其示出了作为根据本公开的多个不同实施方式在图4和图5的计算设备中执行的部分视频指纹识别应用程序而实现的功能的一个实例。

图8是一个示意性框图，其提供的一个实例示出了根据本公开的多个不同实施方式在图4和图5的计算环境中使用的计算设备。

具体实施方式

本公开的实施方式主要涉及生成与视频相关联的指纹和通过把与视频相关联的指纹和基准指纹相比较来识别视频。视频指纹识别技术是用于识别和提取视频的性能特征的常用技术，能够通过其产生的指纹唯一地识别视频。与视频本身相比较，根据本公开的实施方式生成的视频指纹是高度压缩的，意味着高度压缩的视频指纹通常比其相应的视频消耗的数据更少。如以下所述，本文中所公开的视频指纹识别技术是对称过程，意味着识别与视频相关联的基准指纹的过程与生成视频指纹本身是相似的过程。

在本公开的背景中，可以将实施本文中所描述的视频指纹识别处理的系统用于促进：识别未知的视频或视频片段、从数据库中检索与视频相关联的元数据（例如，标题、流派、导演名字、拍摄年限、演员名字等）、为了数字版权管理（DRM）分类或识别视频、跟踪未授权的或非法内容的分发、视频搜索引擎、内容感知（content aware）广告、识别用户的观看选择和/或习惯以与其他人共享、识别大数据库中的复制视频片段、同步检索的隐蔽字幕数据、和/或其可以理解的其他应用。

因此，现在参考图1，其示出了说明根据本公开实施方式的视频指纹识别技术的工作原理的视频表示法（representation）。所描述的实施方式示出了随时间表示的视频101的一部分。

本文中公开的视频指纹识别技术包含检测视频中出现的场景变化。如图1中所示，场景变化出现在视频的不同时间点（s₁、s₂、s₃、s₄、s₅、s₆、s₇等）。利用本领域中已知的不同系统和方法可以检测到视频源中的场景变化。因此，为了根据本公开的实施方式生成视频指纹，可以检测视频中的场景变化和每个场景变化在视频中出现的时间（例如，相对于视频的起始点）。此外，还检测连续的场景变化之间的时间差（例如，时间量、帧数等）。图1中通过Δt₁、Δt₂、Δt₃、Δt₄、Δt₅和Δt₆表示视频的非限制实例的时间差。因此，与视频101相关联的视频指纹至少基于两个信息，其包括与每个场景变化相关联的视频的时间和连续场景变化之间的时间差。

现在参考图2，其示出了根据本公开实施方式的与视频相关联的视频指纹201的一个表示法（representation）。应当理解，所描述的视频指纹201仅仅是视频指纹的一个实例，可与本公开一致地使用体现相同或相似数据的其他表示法。在所描述的实例中，视频指纹201可以表示视频的基准指纹。因此，视频指纹201可与视频标识符203相关联，视频标识符203唯一地识别与指纹201相关联的视频。与视频相关联的任何其他识别信息也可以与不同应用中提供的标识符203和/或指纹201相关联。例如，如上所述，不同的元数据也可以与视频相关联，元数据可以存储在通过视频标识符203和/或指纹201可以指示的相同或不同的数据库中。

视频指纹201可以包括包含至少三种类型的数据的表格表示法。视频中至少一个子集的场景变化的场景起始时间可以与在特定场景变化之后的场景变化之间的至少两个时间差相关联。换句话说，指纹201使场景变化与下两个连续场景变化之间的配对时间间隔相关联，如图所示。因此，在所描述的实例中，视频指纹201的表格中的第一条目（entry）使得场景变化起始时间s₁与Δt₁和Δt₂相关联，其表示在时间s₁视频中出现的场景变化和紧接着在时间s₂与s₃视频中出现的两个场景变化之间的时间差。

指纹201还使得特定的场景变化与表示可能错过的场景变化检测的其他时间差或时间间隔配对相关联。在所描述的实例指纹201的第二条目中，场景变化起始时间s₁也与Δt₁和Δt₂+Δt₃的时间差配对相关联，如果未检测到场景变化s₃，其表示紧接着两个连续场景变化的时间间隔配对。换句话说，该时间间隔配对表示场景变化s₂和s₄的时间间隔，其导致错过场景变化s₂。相似地，在所描述的实例指纹201的第三条目中，场景变化起始时间s₁也与Δt₁+Δt₂和Δt₃的时间差配对相关联，如果未检测到场景变化s₂，其表示紧接着两个连续场景变化的时间间隔配对。此外，视频指纹201表格可以包括连续场景变化的相似条目。

因此，为了处理视频和试图识别基准视频指纹，如图2中所描述的实例中的基准视频指纹，通过检测视频中的场景变化和测量每个检测的场景变化的场景变化起始时间与紧接着两个连续场景变化的时间间隔，计算设备可以生成表格。然后，计算设备可以试图匹配生成的表格和基准视频指纹201，可以存储在数据库中或其他数据存储设备中。

图3A示出了一个例子。图3A中所示的表格示出了表示视频特征的表格301的实例，其中视频特征是响应处理试图识别视频匹配的视频指纹201的视频生成的。图3A示出了未错过（miss，丢失）场景变化的检测且不存在任何假阳性场景变化（false positive scenechange）检测的情况。因此，执行过程因而试图匹配视频与基准视频指纹的计算设备可以比较通过处理视频生成的表格中的条目与不同的基准视频指纹201，直到找到匹配。在所描述的实例中，通过匹配表格301中的时间间隔配对可以定位基准视频指纹201。

视频指纹识别过程和匹配视频特征与基准视频指纹201的过程可以在视频101的任何部分进行。例如，可以生成表示基准视频片段的视频特征，并且与基准视频信号101比较，从而确定是否存在匹配。为了示出，可以生成表示几分钟基准视频的任何部分的剪辑的视频特征，并且根据出现场景变化的时间和它们之间的时间间隔进行匹配。此外，视频特征中的第一场景变化不一定对应于基准视频信号201中的第一场景变化，但是相反可以对应于在基准视频中许多先前场景变化之后出现的场景变化。

在所描述的图3A的表格301表示的视频特征实例中，与基准视频指纹201相似，表格301也包括所检测的视频中场景变化的场景起始时间，其与特定场景变化之后的场景变化之间的至少两个时间差相关联。换句话说，表示视频特征的表格301也使得场景变化与紧接着所示两个连续场景变化之间的时间间隔配对相关联。用这种方式，即使生成视频特征的设备在分析下准确地检测到视频的每个场景变化，甚至是在基准视频指纹201缺乏某些场景变化的条目的情况下（即基准视频指纹201“错过”场景变化），利用基准视频指纹201可以发现匹配。视频特征也可以通过包括假阳性场景变化条目的基准视频指纹201而发现匹配。换句话说，生成视频指纹201的过程和生成用于通过视频指纹201匹配的视频特征的过程彼此对称，以计算（account）视频指纹201和/或视频特征中可能的误差。这将在图3B至图3I中进一步示出并在下文中讨论。

此外，表格301的每个条目的场景起始时间可以增加匹配的置信度。相对于进行视频分析的时间测量场景起始时间。换句话说，在分析下的视频场景起始时间可以不表示绝对的场景起始时间，而是相对于视频片段开始出现场景变化的视频片段时间，其可以不同于从基准视频起始测量的基准视频中的场景起始时间。

因此，在绝对意义上并不意味着会处理场景起始时间值。相应的间隔配对的起始时间之间的相对差是有意义的。例如，表格301中s’₁和基准视频信号201中的s₁之差可以与表格301中的s’₂和基准视频信号201中的s₂进行比较，从而确定该差异是否一致。因此，表格301中的条目之间相对于基准指纹201的相对场景变化起始时间之差中标记的一致性，可以增加与匹配相关联的置信度得分。在所描述的实例中，由于每个场景起始时间之间的时间差的相似性，可以增加图2中所示的实例视频指纹201和表格301表示的视频特征之间的匹配的置信度得分。

在某些实施方式中，可以生成对应于表格301和基准视频指纹201之间匹配可能性的置信度得分。应当理解，无论是根据帧数目跟踪的和/或根据视频运行时间跟踪的，场景变化检测不会导致在表格301中的条目和基准视频指纹201之间精确地匹配。因此，置信度得分可以至少基于表格301和视频指纹201之差或其误差量。在某些实施方式中，产生表格301和指纹201之间的最小误差和/或其最小差的基准视频指纹201可以识别为匹配。

现在参考图3B和图3C，其示出了对应于图1中所示视频101的视频特征。在图3B的实例中，产生对应于视频101的视频特征的计算设备已经错过在时间s’₃视频中出现的场景变化。在该实例中，尽管通过计算设备生成表格351未能检测到场景变化，但是基准视频指纹201仍可以与对应于表格351的视频特征相匹配，因为基准视频指纹201包含考虑到可能错过的场景变化检测的条目。因此，如图3C中所示，表格351表示在试图识别视频与其匹配的视频指纹201中生成的视频特征。因为错过在时间s’₃视频中出现的场景变化，所以表格351不包括对应于在时间s’₃开始的场景的条目。尽管由于考虑了可能错过的场景变化检测的条目而错过场景变化，但是基准视频指纹201仍可以与图3C中所示的表格351匹配。

为了示出，图3D和图3E示出了基准视频指纹201和表格351中对应于视频特征的匹配条目。基准视频指纹201中的条目365构成与表格351中的条目375的匹配。此外，基准视频指纹201中的条目369构成与表格351中的条目379的匹配，等等。因此，尽管错过场景变化s₃的检测，但是对应于表格351的框架仍可以与基准视频指纹201相匹配。

现在参考图3F和图3G，其示出了对应于图1中所示视频101的视频特征的可选实例。在图3F的实例中，生成对应于视频101的视频特征的计算设备已经检测到假阳性场景变化。换句话说，在基准视频指纹未反应相应的场景变化的视频内的时间，已经检测到场景变化。在图3F中，该假阳性场景变化由f₁表示。在图3F的实例中，因为在时间f₁检测到假阳性场景变化，对应于与视频101相关联的视频特征的表格381包括对应于假阳性场景变化f₁的其他系列的条目，其不包括在基准视频指纹201内。在某些情况中，在基准视频指纹201含有错过的场景变化的情况下视频特征可以正确地反映场景变化，这将导致相似的情况。然而，由于本文中所描述的算法的对称性质，对应于表格381的视频特征仍可以与相应的基准视频指纹201相匹配。

为了示出，图3H和图3I示出了基准视频指纹201和表格381中对应于视频特征的匹配条目。基准视频指纹201中的条目383构成与表格381中的条目391的匹配。此外，基准视频指纹201中的条目385构成与表格381中的条目393的匹配，等等。因此，尽管检测到假阳性场景变化f₁，但是对应于表格381的框架仍可以与基准视频指纹201相匹配。此外，应当理解，通过使用本文中所描述的方法，可以使得包括假阳性和/或错过的场景变化检测的不同组合的视频特征与基准视频指纹201相匹配。

此外，尽管以上所述的方法可以导致基准视频和/或在分析中的视频的可能错过场景检测，但是通过扩展视频指纹使两个以上的时间间隔和相关联的其他间隔的置换关联，可以提高抗误差稳健性，从而导致错过的场景变化检测。换句话说，代替将视频指纹限制为与紧接着两个场景变化相关联的时间间隔配对，可以扩展视频指纹使得场景变化与紧接着三个、四个、或任意数目的随后场景变化相关联。在这种情况下，视频指纹中的每个场景变化将与紧接着X个场景变化的时间间隔相关联，其中X是任意正整数。场景变化还将与涉及与图2中所述实例相一致的可能错过的场景变化检测的不同置换的时间间隔相关联。

因此，使用与以上一致的视频指纹和匹配过程的实施方式，可以计算有效的指纹生成和与压缩视频指纹的匹配，用于高效地传输和存储。此外，使用该设计的系统和方法能够识别基准视频的短节段或片段。依靠场景变化检测和随后的场景变化之间的时间间隔，该方法也能抗噪声，并且可以引起基准视频和分析中的视频之间的编码差异。由于自动译码，编码差异可以引起通过视频摄像机（例如，移动设备、智能手机、平板式计算系统、便携式计算机）捕获视频、未对准取景、摄像机振动、和/或基准视频和分析中的视频之间的帧速度的变化。该方法还能够抗基准视频和分析中的视频之间的图像质量的差异。图像质量特性可以包括但不限于，锐度、对比度、亮度、色调、饱和度、缩放比例等。

现在参考图4，其示出了可以实施本公开的实施方式的至少一个计算设备401的实施方式。计算设备401所描述的结构可以是根据以上所述方法生成对应于视频的视频指纹的结构。计算设备401可以包含，例如，服务器计算机或提供计算性能的任何其他系统。或者，可以使用例如布置在一个或多个服务器库（server bank）或计算机库（computer bank）或其他装置中的多个计算设备401。例如，多个计算设备401可以共同包含云计算资源、网格计算资源、和/或任何其他分布式计算装置。计算设备401可以位于一个装置中或可以分布在许多不同地理位置之间。

为了方便起见，计算设备401在本文中认为是单数。即使认为计算设备是单数，要理解的是，如上所述在不同的装置中可以使用多个计算设备401。计算设备401可以包含，例如，基于处理器的系统，如计算机系统。该计算机系统可以概括为桌上型计算机、膝上型计算机、个人数字助理、移动电话、机顶盒、音乐播放器、移动计算设备、平板计算机系统、游戏控制器、或具有相似性能的其他设备。

存储在数据存储402中的数据包括，例如，与不同视频相关联的视频数据403，视频指纹405和元数据407可以相关联，以及关于根据本公开的实施方式的系统指示的视频的潜在其他数据。通过唯一识别视频的视频标识符404可以指示对应于特定视频的条目。应当理解，数据存储402可以表示相关的或不相关的数据库或也可以在计算设备401通过网络可以访问的专用计算系统中执行的其他数据存储系统。

在图4的实例中，计算设备401可以执行视频指纹识别应用程序411，其可以接收视频413作为输入，并如上所述生成视频指纹415。换句话说，视频指纹识别应用程序411可以生成与视频413相关联的基准视频指纹405。在该意义上，视频413可以通过基于视频指纹415的视频指纹405和/或视频标识符404指示，而视频指纹415基于检测的视频内的场景变化和不同场景变化之间的时间间隔的视频指纹识别应用程序411生成。在某些实施方式中，视频指纹识别应用程序411可以含有促进识别视频413内的场景变化的逻辑。在其他实施方式中，视频指纹识别应用程序411可以依赖于应用程序编程接口提供的场景变化逻辑，其中所述应用程序编程接口访问促进场景变化检测的外部软件和/或硬件逻辑。

因此，在图5中，示出了执行视频指纹识别应用程序411的计算设备401的可选描述。在图5的实例中，视频指纹识别应用程序411可以接收视频521和生成如上关于图3A-图3B所述的视频特征533。换句话说，视频指纹识别应用程序411可以识别场景变化和视频521中场景变化之间的时间间隔，从而生成视频特征533。因此，视频指纹识别应用程序411可以确定对应于数据存储402中的视频数据403的视频是否匹配视频特征533和返回相应视频的视频标识符540。

应当理解，在某些实施方式中，正在观看和/或捕获视频521的客户端设备可以生成视频特征533，利用客户端设备生成的至少一部分视频特征533提交请求给视频指纹识别应用程序411从而寻找匹配的视频。例如，客户端设备，例如正在捕获其希望定位匹配视频的视频的移动设备，可以提供包括视频521内可以检测的场景变化的时间列表的部分视频特征。因此，视频指纹识别应用程序411可以确定对应于如上关于图3A-图3B所述的每个经识别的场景变化的连续场景变化之间的时间间隔。然后，通过识别匹配具有最高置信度的视频特征533的视频指纹405，视频指纹识别应用程序411可以识别数据存储中匹配的视频。

接着参考图6，示出了根据不同实施方式的用于生成视频指纹的一部分视频指纹识别应用程序411的操作的一个实例的流程图。要理解的是，图6的流程图仅仅提供了如本文中所描述可以用于执行一部分视频指纹识别应用程序411的操作的许多不同类型的功能布局的实例。作为替代，图6的流程图可以视为描述了根据一种或多种实施方式在计算设备401中执行的方法的步骤的实例。

在一种实施方式中，为了生成对应于视频的基准视频指纹，在单元601中检测视频内的多个场景变化。如上所述，利用提供访问硬件和/或软件逻辑促进场景变化检测的场景变化检测API可以检测场景变化。在单元603中，检测视频中出现场景变化的时间。在单元605中，视频指纹识别应用程序411可以检测视频中邻近场景变化之间的时间间隔。最后，在单元607中，视频指纹识别应用程序411可以基于出现场景变化的时间和邻近场景变化之间的时间间隔生成视频指纹，其中所述指纹还考虑如上所述可能错过或假阳性场景变化检测。

接着参考图7，示出了根据不同实施方式的用于识别数据库或其他视频指纹数据库中视频特征匹配的基准视频指纹的一部分视频指纹识别应用程序411的操作的一个实例的流程图。要理解的是，图7的流程图仅仅提供了如本文中所描述可以用于执行一部分视频指纹识别应用程序411的操作的许多不同类型的功能布局的实例。作为替代，图7的流程图可以视为描述了根据一种或多种实施方式在计算设备401中执行的方法的步骤的实例。

首先，在单元701中，可以检测视频中的场景变化，以及在单元703中识别视频中出现场景变化的时间。在单元705中，确定邻近的场景变化之间的时间间隔。在单元707中，生成描述出现场景变化的时间和随后的场景变化之间的时间间隔的视频特征。在单元709中，视频指纹识别应用程序411识别基准视频指纹是否匹配生成的视频特征。如上所述，关于对应于视频的基准视频指纹识别描述的某些或所有功能可以在客户端中执行。此外，在某些实施方式中，客户端设备可以利用集成的视频摄像机记录视频源和将视频和/或来自视频的场景变化数据提交给执行视频指纹识别应用程序411的计算设备，其可以确定视频是否匹配基准视频指纹。在其他实施方式中，视频指纹识别应用程序411可以扫描视频集合，并且分析视频的场景变化特性，从而在数据库中识别可能匹配的基准视频指纹。应当理解，与本公开相一致可以使用应用生成和匹配视频指纹的过程的许多其他变形。

图8示出了根据本公开的实施方式包含计算机服务器或等同设备的计算设备401的一个实例。计算设备401可以包括具有处理器803和存储器806的一个或多个处理器电路，处理器803和存储器806同时耦合本地接口809。在这方面，可以理解为本地接口809可以包含例如数据总线以及附随的控制总线/地址总线。

存储在存储器806中由处理器803可执行的是不同的构成部分，例如操作系统813、视频指纹识别应用程序411和其他应用程序或数据。此外，要理解的是，许多其他构成部分可以存储在存储器806中，并且由处理器803执行。而且，可以理解为这些构成部分可以位于计算设备401的外部存储器中。

如上所述，许多构成部分存储在存储器806中，并且可以由处理器803执行。在这方面，术语“可执行的”是指最终可以由处理器803运行的形式的程序文件。可执行程序的实例可以是，例如，可以转换成可装载到存储器806的随机存取部分和由处理器803执行的机器代码的编译程序，或以合适形式表述的源代码，例如能够装载到存储器806的随机存取部分和由处理器803执行的目标代码。可执行程序可以存储在存储器806的任何部分或部件中，包括例如，随机存取存储器、只读存储器、硬盘驱动器、光盘（CD）、软盘或其他存储部件。

本文中将存储器806限定为易失性存储器和非易失性存储器与数据存储部件。易失性部件是那些一旦停电就不能保存数据值的部件。非易失性部件是那些一旦停电还能保存数据的部件。因此，存储器806可以包含，例如，随机存取存储器（RAM）、只读存储器（ROM）、硬盘驱动器、通过相关联的软盘驱动器访问的软盘、通过光盘驱动器访问的光盘、通过合适的磁带驱动器访问的磁带和/或其他存储部件、或这些存储部件的任何两个或更多个的组合。此外，RAM可以包含，例如，静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、或磁随机存取存储器（MRAM）和其他这些设备。ROM可以包含，例如，可编程只读存储器（PROM）、可擦除可编程只读存储器（EPROM）、电可擦除可编程只读存储器（EEPROM）、或其他相似的存储器设备。

此外，处理器803可以表示多个处理器，存储器806可以表示并行运行的多个存储器。在这种情况下，本地接口809可以是促进在多个处理器中任意两个处理器之间通信、在任意处理器和任意一个存储器之间通信、或在任意两个存储器之间通信等的合适的网络。处理器803可以是本领域的普通技术人员可以理解的电气结构、光学结构或某些其他结构。

执行操作系统813控制诸如存储器的硬件资源的分配和使用与计算设备401中的处理时间。本领域的普通技术人员一般都知道，用这种方式，服务器操作系统813用作应用程序依赖的基础。

尽管以上关于图1-图7将不同部件的功能描述为，例如，视频指纹识别应用程序411，体现在以上所述的通用硬件执行的软件或代码，但是作为替代也可以体现在专用硬件或软件/通用硬件和专用硬件的组合中。如果体现在专用硬件中，那么这些部件的功能可以实施为使用任何一种技术或许多技术的组合的电路或状态机。这些技术可以包括，但不限于，具有一旦应用一个或多个数据信号就执行不同逻辑功能的逻辑门的离散逻辑电路、具有合适的逻辑门的专用集成电路、可编程门阵列（PGA）、现场可编程门阵列（FPGA）或其他部件等。本领域的普通技术人员一般已知这些技术，因此，本文中不再详细描述。

图6和图7的流程图示出了在计算设备401上执行的功能和功能操作。如果体现在软件中，那么每个方框可以表示模块、段、或包含用于执行具体逻辑功能的程序指令的部分代码。可以通过源代码或机器代码的形式体现程序指令，其中源代码包含用编程语言书写的人类可读语句，机器代码包含合适的执行系统可识别的数字指令，例如计算机系统或其他系统中的处理器。机器代码可以是从源代码等转换的。如果体现在硬件中，那么每个方框可以表示用于执行具体逻辑功能的电路或许多互连电路。

尽管流程图示出了执行的特定顺序，但是要理解的是，执行顺序可以不同于所描述的顺序。例如，可以相对于所示顺序打乱两个或更多个方框的执行顺序。而且，流程图中连续示出的两个或更多个方框可以同时执行或部分同时执行。此外，为了提高效用、计数、性能测量或提供发现并修理故障的帮助等，也可以将许多计数器、状态变量、警告信号量或消息增加至本文中所描述的逻辑流。要理解的是，所有这些变量均在本公开的保护范围内。

而且，在以软件或代码的形式表述所公开系统的功能的情况中，所公开系统的功能可以体现在通过或关于指令执行系统使用的任何计算机可读介质中，例如，计算机系统或其他系统中的处理器。在这个意义上，功能可以包含，包括可以从计算机可读介质获取和由指令执行系统执行的指令和声明的语句。在本公开的背景中，“计算机可读介质”可以是含有、存储、或保存通过或关于指令执行系统使用的网页的任何介质。

计算机可读介质可以包含许多物理介质中的任何一个，例如，电介质、磁介质、光学介质或半导体介质。合适的计算机可读介质的更多具体实例包括但不限于，磁带、磁软盘、磁硬盘驱动器或光盘。而且，计算机可读介质可以是随机存取存储器（RAM），其包括例如静态随机存取存储器（SRAM）和动态随机存取存储器（DRAM）或磁随机存取存储器（MRAM）。此外，计算机可读介质可以是只读存储器（ROM）、可编程只读存储器（PROM）、可擦除可编程只读存储器（EPROM）、电可擦除可编程只读存储器（EEPROM）或其他类型的存储设备。

应当强调，本发明的以上所述实施方式仅仅是可能的实施方式的例子，阐述以上所述实施方式是为了清晰地理解本发明的原理。在基本不偏离本发明的精神和原理的情况下，可以对本发明的以上所述实施方式进行许多改变和改进。所有这些改进和改变均包括在本公开和本发明的保护范围内，并且由权利要求书保护。

Claims

1.一种在至少一个计算设备中执行的视频指纹识别方法，所述视频指纹识别方法包括以下步骤：

检测视频中的多个场景变化；和

至少基于一个子集的所述多个场景变化之间的各自的时间间隔生成视频指纹，

其中，所述生成视频指纹的步骤进一步包含：

识别视频片段中的第一场景变化；

识别邻近所述第一场景变化且在所述第一场景变化之后的第二场景变化，并确定所述第一场景变化和所述第二场景变化之间的第一时间间隔；

识别邻近所述第二场景变化且在所述第二场景变化之后的第三场景变化，并确定所述第二场景变化和所述第三场景变化之间的第二时间间隔；以及

识别邻近所述第三场景变化且在所述第三场景变化之后的第四场景变化，并确定所述第三场景变化和所述第四场景变化之间的第三时间间隔，

其中，所述视频指纹包含第一指纹配对，所述第一指纹配对包含所述第一时间间隔和所述第二时间间隔，并且

所述视频指纹还包含第二指纹配对，所述第二指纹配对包含所述第一时间间隔、以及所述第二时间间隔与所述第三时间间隔之和。

2.根据权利要求1所述的视频指纹识别方法，其中，所述视频指纹进一步包含第三指纹配对，所述第三指纹配对包含所述第三时间间隔、以及所述第一时间间隔与所述第二时间间隔之和。

3.根据权利要求2所述的视频指纹识别方法，其中，所述第一指纹配对、所述第二指纹配对和所述第三指纹配对在所述视频指纹中与所述第一场景变化相关联。

4.根据权利要求2所述的视频指纹识别方法，其中，所述视频指纹进一步包含与所述第一场景变化相关联的第一场景变化起始时间。

5.根据权利要求1所述的视频指纹识别方法，其中，所述视频指纹进一步包含第四指纹配对，所述第四指纹配对包含所述第二时间间隔和所述第三时间间隔。

6.一种视频指纹识别系统，包括：

至少一个计算设备；和

在所述至少一个计算设备中执行的视频指纹识别应用程序，所述视频指纹识别应用程序包含：

检测视频中的多个场景变化的逻辑；

识别所述视频中出现所述场景变化的时间的逻辑；

至少基于所述视频中出现所述场景变化的时间生成视频特征的逻辑；和

至少基于所述视频中出现所述场景变化的时间确定所述视频特征是否匹配视频指纹的逻辑，

其中，所述生成视频特征的逻辑进一步包含：

识别在视频片段中第一场景变化的逻辑；

识别邻近所述第一场景变化且在所述第一场景变化之后的第二场景变化、并确定所述第一场景变化与所述第二场景变化之间的第一时间间隔的逻辑；

识别邻近所述第二场景变化且在所述第二场景变化之后的第三场景变化、并确定所述第二场景变化与所述第三场景变化之间的第二时间间隔的逻辑；

识别邻近所述第三场景变化且在所述第三场景变化之后的第四场景变化的逻辑；以及

确定所述第三场景变化和所述第四场景变化之间的第三时间间隔的逻辑；

其中，所述视频特征包含第一配对，所述第一配对包含所述第一时间间隔和所述第二时间间隔；并且

所述视频特征还包含第二配对，所述第二配对包含所述第一时间间隔、和所述第二时间间隔与所述第三时间间隔之和。

7.一种视频指纹识别系统，所述视频指纹识别系统包括：

用于检测视频中多个场景变化的装置；和

用于通过识别视频片段中的第一场景变化、识别邻近所述第一场景变化且在其之后的第二场景变化并确定所述第一场景变化和所述第二场景变化之间的第一时间间隔、识别邻近所述第二场景变化且在其之后的第三场景变化并确定所述第二场景变化和所述第三场景变化之间的第二时间间隔、以及识别邻近所述第三场景变化且在其之后的第四场景变化并确定所述第三场景变化和所述第四场景变化之间的第三时间间隔，从而至少基于至少一个子集的所述多个场景变化之间的各自的时间间隔生成视频指纹的装置，其中所述视频指纹包含第一指纹配对和第二指纹配对，所述第一指纹配对包含所述第一时间间隔和所述第二时间间隔，所述第二指纹配对包含所述第一时间间隔、和所述第二时间间隔与所述第三时间间隔之和。