CN101631239A

CN101631239A - 识别动态视频内容的系统

Info

Publication number: CN101631239A
Application number: CN 200810132101
Authority: CN
Inventors: 张骥
Original assignee: BEIJING YUVAD Co Ltd
Current assignee: BEIJING YUVAD Co Ltd
Priority date: 2008-07-17
Filing date: 2008-07-17
Publication date: 2010-01-20

Abstract

本发明提供一种识别动态视频内容的系统，预先形成一个已存储的指纹数据库，包含了播出的视频内容的视频信号，这里至少包含了以下几步：在一个缓冲器中存储连续的视频帧序列的动态视频内容；通过采样器来获得视频帧；把样本值储存到指纹中，也即是指纹A被储存到指纹数据库中；在指纹数据库的指纹A和余下的指纹部分B之间进行指纹模型下的匹配演算，来确定动态视频内容在之前是否播出过。通过本发明的系统可以有效地管理、归档以及搜索视频内容，降低数字存储设备的成本，以及在很少或者无人工参与下有效地识别视频内容。

Description

识别动态视频内容的系统

技术领域

本项发明涉及的是一个识别动态视频内容的系统，更详细的说，是一个识别动态视频内容指纹的系统。

这里所谓的“指纹”是指一系列的点信息(电视接收机解码器所产生的)，而每一个点信息又都是从电视信号的一帧中选出，而这些帧数又是从所有电视信号中选出。并且一帧中能选出一个或者多个点信息数据。所以，所谓的“指纹”可用于独特地识别出所说的电视信号。

背景技术

本文件详细描述了视频内容的机制和系统。视频是最好的将信息传输给大众的办法。而今所有的视频内容几乎都是数字格式的，从视频采集、制作、编辑、特效到压缩和发布，都是数字格式。此外，还有大量的视频内容被越来越多地存储在DVD、录像带、计算机服务器以及大量储存序列中。

管理数字视频内容对所有视频拥有者来说已经成为一项巨大的挑战，视频和宽带服务提供者，甚至是家庭用者。这是因为不像文本信息，视频内容不能被很简单地就被电脑搜索以及识别。也不像音频，视频内容数据要占用更大的空间。此外，通过人工参与来识别视频内容很困难也很低效，因为过程很耗费时间也很难操作。这些因素都使得有效地管理、获取和搜索视频内容变得很困难。但是，搜索和识别视频内容的需要越来越重要，伴随着越来越多的在网上的宽带提供以及更低的数字存储装置的成本。

因此，这里有一个用很少或者没有人工参与来实现有效识别视频内容的需要。

发明内容

本发明能提供一种识别动态视频内容，有效管理、归档以及搜索视频内容的一种系统。

本发明还能提供一种识别动态视频内容的系统，可以降低数字储存装置的成本。

本发明能提供一种识别动态视频内容的系统，可以用于从给出的视频部分中提取信息，再将这些信息用于进一步地自动识别，如果一样的视频内容已将在不同的视频数据流中出现过。

因此，在此项发明中，提供了一种识别动态视频内容的系统，预先形成一个已存储的指纹数据库，包含了播出的视频内容的视频信号，这里至少包含了以下几步：在一个缓冲器中存储连续的视频帧序列的动态视频内容；通过采样器来获得视频帧；把样本值储存到指纹中，也即是指纹A被储存到指纹数据库中；在指纹数据库的指纹A和余下的指纹部分B之间进行指纹模型下的匹配演算，来确定动态视频内容在之前是否播出过。

此项发明所提供的系统可以有效地管理、归档以及搜索视频内容，降低数字存储设备的成本，以及在很少或者无人工参与下有效地识别视频内容。

附图说明

图1为从视频帧进行部分取样关键步骤的示意图

图2为至少在与匹配指纹相关的部分，确定原始视频内容A和B是否相同的匹配过程示意图

图3为在SSAD值中检测值明显减小的关键元素示意图

图4为在SSAD值中进一步检测值明显减小的关键元素示意图

图5为对视频帧进行部分取样的首选方案的示意图

图6为对每一帧进行部分取样的过程示意图

图7为样本值的组织管理过程示意图

图8为几种确定进行部分取样的视频帧的数量的常用方法

图9为指纹提取的大致过程示意图

图10为从两个视频帧上取得的样本之间进行用SAD操作进行指纹匹配演算的过程

图11为从两个视频帧上取得的样本之间进行匹配的过程

图12为一系列的SSAD值的生成过程

图13为指纹匹配的识别的特征在于SSAD值在匹配之前明显减小，在匹配之后明显增大

发明内容

以下描述了一个可以用于从给出的视频内容部分提取信息，并运用提取的信息来进一步识别相同的在不同视频数据流中出现过的视频内容的系统。

正确识别视频内容的性能有很多重要的应用方面。一下列出了几个，但不仅限于以下几个方面：

·视频搜索

·视频监控

·视频拼接

·视频切换

·视频广告

下文中，将首先描述从给出的视频内容数据中提取信息，被称为指纹提取过程。接着会具体描述怎么运用指纹数据在一个不同的视频内容中找到匹配。

在说有的阐述中，会集中在视频信号的储存上，虽然在大多数情况下，视频信号是与音频信号一体进来的。音频信号会被认为是与视频信号同步的。在视频信号上的指纹识别也能识别相关的音频内容。因此，在此文件余下的部分，会只讨论对视频信号的指纹运作处理。

同时，假设视频数据是数字化的。也可以将此构想应用于模拟视频内容，但在应用这里所描述的系统之前需要将模拟视频信号数字化成为数字数据流。因此，在此文件中不对怎样处理模拟视频内容作具体阐述。

此外，假设数字视频内容是未被压缩的格式。对压缩的视频内容来说，要应用此系统前需要先解压缩(或者解码)。

最后，假设视频帧是连续的，也就是说每一帧会在解码器那里一起显示。对于隔行显示的帧，会在两个分开的时间点交错显示——两个场(奇偶场)。在这样的情况下，假设以下所有描述的运作适用于其中任一一个场。

未压缩格式的数字视频数据可以由有时间顺序的视频帧来代表。每一帧都可以被描述为一个二维的像素值序列。每一像素值又能进一步地被分解为亮度和色度两个组成部分。未来获取以及搜索视频内容，我们只使用视频的亮度像素值。

数字视频是有时间连续的帧组成的，当呈现给人眼时就会显示成连续的动态画面。首先描述了从这些视频帧提取信息的办法，以便提取的信息可用于识别视频帧。

进行指纹匹配所需的步骤可以被概括为以下几点：

·从视频A提取指纹数据

·将从视频A提取的指纹数据整理到一个数据中心

·从视频B提取指纹数据

·在两个指纹之间进行指纹模式匹配的演算

接下来，我们将具体阐述每一个步骤。

2.1指纹提取

最简单的提取指纹的办法就是把所有的帧都储存到一个磁盘存储器里。当然，这个办法也有它的缺陷就是要占据很大的存储量。此外，很快得检索出已储存的视频帧也很困难，由于存储带宽的限制。

本文件所阐述的系统第一步是对视频帧进行部分取样。明确的是，对每一帧视频来说，进行了一个空间上的部分取样，特定数量的样本从视频帧里取得并被存储为样本值。关键步骤可以参看图一

2.1.1视频帧的部分取样

如图5所示，这个取样系统是独立于每帧的分辨率的，使它在处理不同分辨率的图片时也可以很稳定。

2.1.2多个视频帧的部分取样

这个过程可以参看图8，第一种办法需要最少的运算量、内存以及存储。最后一种则需要最多的运算量、内存以及存储。

每一系列的被取样的视频帧都会产生一个连续的二维样本值的序列。这个被取样的序列就是所谓的被取样的视频的指纹。

从以上值得注意的是，取样方法不不同就可能会有多于一组的指纹序列产生。对于第一和第三种取样方法，只有一个指纹。但是第二种取样方法就可能产生多组指纹序列，每一组分别识别相关的不同视频部分。当然，多组指纹数据的序列可以被组织管理到一个更加复杂的指纹序列，这个不在此文件中详加描述。

接下来，会具体阐释怎样处理一个单独的指纹序列。

2.2指纹匹配

这个部分描述了指纹提取运作过程的反向运作，也就是来运用一个给出的指纹序列在一个不同的视频内容流里寻找匹配，可能会部分或者整个匹配指纹所代表的视频内容。

具体内容可以参看图2，两个指纹存储会经过好几个步骤来确定它们是个否匹配。

2.2.1绝对差别的求和运算

指纹匹配运算的关键就是两盒指纹之间的绝对差别(Sum of Absolute Difference，SAD)的求和运算。绝对差别的运算是最基本评估样本之间差别的。SAD值很大的话就意味着两个视频帧之间的图像内容差距很大。具体实例看参看图10。

2.2.2移动的SAD窗口和SAD序列的求和(sum of SAD，SSAD)

以上描述的SAD运算会在两个指纹数据组之间重复进行，一个从指纹A获取，另一个从指纹B中获取。目标在于在指纹B中进行搜索是否有一个小部分能与指纹A匹配。这里假设指纹A比指纹B包含更少数量的样本。

SSAD具体过程可以参看图12。

2.2.3指纹匹配检测

SSAD值被表示为S(1)，S(2)，...，S(n)，S(n+1)，被存储到一个模型序列储存中，一个模型提取器检验了所有临近的SSAD值以及得出模型值，表示为P(1)，P(2)，P(3)…

P(n)＝(S(n)-S(n-1))/S(n)

在这里S(n)代表了指纹A和指纹B在指纹窗口中在它们第n帧上的区别，指数n指的是每次指纹序列B被一个相关指纹A移位一帧。这里P(1)没有被定义也不会被用到，只有当S(n)的值为零或接近临界值零时才会用到。否则，P(n)为零。从另一个系列序列中提取的模型值会被存贮到一个模型存储中。然后一个模型检验器会用以下几步来选择模型存储中的值：

首先，在模型存储中选择一个具体位置，比如说m，在一个大小是2M-1的窗口中识别出m的位置：

P(m-M+1)，P(m-M+2)，...，P(m-1)，P(m)，P(m+1)，...，P(m+M-2)，P(m+M-1)，

接着，这些值会一个模型值搜集器加起来，得出一个结果C(m)，公式如下：

C(m)＝-P(m-M+1)-...-P(m-1)-P(m)+P(m+1)+...+P(m+M-1)

这里M是一个被选出来的常量，以保证在滚动窗口2M-1中包括了足够多的P值来计算C值。

最后，C(m)的值会与一个给出了临界值的用户视图进行比较，来确定指纹A和可能的指纹B是否匹配。还有帧号也是通过以上过程来确定，再输出到统计分布值采集器中。

Claims

1.本项发明是一种识别动态视频内容的系统，预先形成一个已存储的指纹数据库，包含了播出的视频内容的视频信号，这里至少包含了以下几步：在一个缓冲器中存储连续的视频帧序列的动态视频内容；通过采样器来获得视频帧；把样本值储存到指纹中，也即是指纹A被储存到指纹数据库中；在指纹数据库的指纹A和余下的指纹部分B之间进行指纹模型下的匹配演算，来确定动态视频内容在之前是否播出过。

2.根据权利要求1所述的系统，指纹模型下的演算匹配包含了在指纹A以及每一个可能的指纹B之间进行绝对差别的求和运算。公式如下：

SAD(A，B)＝|A1-B1|+|A2-B2|+|A3-B3|+|A4-B4|+|A5-B5|+…

|…|是绝对值运算

从指纹A的第一帧中获得的样本被表示为A1，A2，A3，A4，A5，…；在滚动窗口中从指纹B的第一帧中获得的样本被表示为B1，B2，B3，B4，B5，…；然后把在各自来自A和B的相同位置的帧进行匹配，A1 and B1，A2 and B2，…，A5 and B5，…

SAD(绝对差别求和)的操作在样本的第二帧时在A和B又进行一次，因此，指纹A的每一帧和可能的指纹B的帧，直到所有的视频帧数都被包括在计算中，最后结果被相加得出一个总的绝对差别和(SSAD)。

一样的过程又被重复，通过交换指纹B和相关指纹A的一帧的位置，这样的交换每进行一次就会产生一个新的SSAD值。这样，就生成了一系列的SSAD值被存储成一个序列。一个指纹匹配的识别意味着SSAD值在匹配之前明显减小，在匹配之后明显增大。

3.根据权利要求2所述的系统，SSAD值被表示为S(1)，S(2)，...，S(n)，S(n+1)，被存储到一个模型序列储存中，一个模型提取器检验了所有临近的SSAD值以及得出模型值，表示为P(1)，P(2)，P(3)…

P(n)＝(S(n)-S(n-1))/S(n)

在这里S(n)代表了指纹A和指纹B在指纹窗口中在视频A和视频B第n帧上的区别，指数n指的是指纹序列B每相对于相关的指纹序列A移动一帧。这里P(1)没有被定义也不会被用到，只有当S(n)的值为零或接近临界值零时才会用到。否则，P(n)为零。从另一个系列序列中提取的模型值会被存贮到一个模型存储中。然后一个模型检测器会用以下几步来选择模型存储中的值：

C(m)＝-P(m-M+1)-...-P(m-1)-P(m)+P(m+1)+...+P(m+M-1)

4.根据权利要求3所述的系统，统计分布值采集器集合了所有超出所给出的临界值的C(m)模型值，并且计算出其超过的次数，再存储到一个序列中，每一个图都包含了一个m值，C(m)值以及C(m)值超过临界值的次数。

5.根据权利要求4所述的系统，一个最大值选择器会检察在直方图当中所有的值，找出出现次数最多的那个值。这个值指得就是指纹匹配的帧。

6.根据权利要求1所述的系统，样本值会根据样本的视频亮度来被选择。

7.根据权利要求1所述的系统，样本值是在每一帧上的同一位置上取得。并且在每一帧上取得的样本数量也是相同的，在哪个位置取得样本是固定不变的。

8.根据权利要求1所述的系统，样本是从图像中生成，是为了保证样本尽量均匀地分布在图像里。

9.根据权利要求1所述的系统，样本是位于视频分辨率的水平以及垂直方向的整数位置。

10.根据权利要求1所述的系统，每一帧取5个样本值，其中：

样本1是在图像的中间位置；

样本2是在水平方向中间以及垂直方向的顶端四分之一的位置；

样本3是在水平方向中间以及垂直方向的底部四分之一的位置；

样本4是在垂直方向中间以及水平方向偏左四分之一的位置；

样本5是在垂直方向中间以及水平方向偏右四分之一的位置；