CN102419816A

CN102419816A - 用于相同内容视频检索的视频指纹方法

Info

Publication number: CN102419816A
Application number: CN2011103688734A
Authority: CN
Inventors: 孙建德; 王静
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2011-11-18
Filing date: 2011-11-18
Publication date: 2012-04-18
Anticipated expiration: 2031-11-18
Also published as: CN102419816B

Abstract

本发明公开了一种用于相同内容视频检索的视频指纹方法，此方法所提取视频指纹的鲁棒性及区分性都得到了极大提高与改善。包括以下步骤：1)对视频进行分段：将视频预处理为固定大小的视频序列；然后对预处理后的各视频序列进行分段；2)生成视频代表图：每一视频序列分段分别生成相对应的时域信息代表图和视觉显著代表图；3)生成顺序特征：分别得到代表时域信息代表图和视觉显著代表图的顺序特征；4)生成二值特征序列：分别生成对应的时域信息代表图和视觉显著代表图的二值特征序列；5)视频指纹生成：将得到的时域信息代表图和视觉显著代表图的二值特征序列结合起来，根据需要进行相应的运算，最终得到的二值序列为最终的视频指纹。

Description

用于相同内容视频检索的视频指纹方法

技术领域

本发明涉及一种用于相同内容视频检索的视频指纹方法，属于视频、多媒体信号处理技术领域。

背景技术

随着多媒体技术的发展，特别是互联网已成为日常生活不可缺少的一部分，视频内容变得越来越丰富，同时盗版视频也成倍出现。在多媒体版权保护中，版权鉴别者需要从大量的多媒体数据中，快速有效地检测到可能存在的拷贝并判断内容的所有权，这就需要对相同内容的视频进行检索，也就是视频拷贝检测。在对多媒体对象检索中，需要对视频中场景、片段进行分析和特征提取，并基于这些特征进行相似性匹配，进而帮助人们快速准确地找到所需要的多媒体信息。

近年来视频拷贝检测技术取得了很大发展，目前已有多种拷贝检测方法。其中最主要的是基于内容(Content-Based Copy Detection，CBCD)的视频拷贝检测方法。视频拷贝检测的技术核心是视频指纹的生成。视频指纹就是从视频内容中提取出具有鲁棒性和区分性的视频特征。一种比较典型的方法是基于亮度序列的方法，该方法首先把视频每帧分成8×8的块，然后计算每块像素亮度分量的均值并对所有块的均值排序，由这个排序后的特征构成视频指纹，顺序特征的引入比直接使用像素值计算指纹的鲁棒性强。但这种方法的缺点是对于几何变换的攻击诸如旋转、放缩和剪切的鲁棒性较差。另一种比较经典的方法是基于时域的视频指纹方法，即一般利用不同镜头之间持续的时间，或者根据相邻帧在时域上的关系来构造视频指纹。这种方法与空域里亮度顺序方法不同的是，时域算法不是对每一帧进行块排序，而是定义了一个时域窗口，对时域窗口内每一帧相同位置的块进行排序，但由于局部变化会打乱图像块间的有序关系，从而使得这类算法性能下降。考虑到视频的视觉内容可以看作是时间上连续的一系列图像帧的集合，仅利用时域或空域信息不能完全表征视频内容，因此将时空信息结合起来是特征提取的研究方向。但目前已有的时空联合方法没有将人的视觉感知加入，同样在申请专利号为201110184477.6的基于鲁棒哈希的视频拷贝检测方法专利中没有将人的视觉关注加入。但是由于人是多媒体信息的最终受用者，因此忽略了人的认知对视频内容的影响，而在本发明中通过分别计算出代表图像的二值序列特征和视觉显著图的二值序列特征，最后对二者取同或得到视频指纹。这样得到的视频指纹由于视觉关注的加入，使得人眼对不同区域的关注程度也不同，匹配时赋予每一哈希位相应的权重，这样全面的视频分析更符合人的认知。

发明内容

本发明针对目前视频指纹生成方法中存在的不足，结合时空联合特征在表征视频内容上的全面性以及顺序特征在鲁棒性上的贡献，以及视觉关注区域即图像中最能引起用户兴趣，最能表现图像内容的区域，这些区域特征的提出将会大大提高图像处理和分析的效率和准确度，由此提出了一种用于相同内容视频检索的视频指纹方法，此方法所提取视频指纹的鲁棒性及区分性都得到了极大提高与改善。

为实现上述目的，本发明采用如下技术方案：

一种用于相同内容视频检索的视频指纹方法，包括以下步骤：

1)对视频进行分段：首先对视频进行预处理，将视频预处理为宽度和高度固定尺寸大小的视频序列；然后对预处理后的各视频序列进行分段；

2)生成视频代表图：每一视频序列分段分别生成相对应的时域信息代表图和视觉显著代表图；

3)生成顺序特征：首先对时域信息代表图和视觉显著代表图进行分块，然后根据特定的顺序关系将图像块进行排序，并通过计算块与块的特征差异来分别得到代表时域信息代表图和视觉显著代表图的顺序特征；

4)生成二值特征序列：根据上述得到的时域信息代表图和视觉显著代表图的顺序特征，分别生成对应的时域信息代表图和视觉显著代表图的二值特征序列；

5)视频指纹生成：将得到的时域信息代表图和视觉显著代表图的二值特征序列结合起来，根据需要进行相应的运算，最终得到的二值序列为最终的视频指纹；

将视频处理为固定大小的视频序列过程中，根据需要通过插值或者下采样来获得指定大小的视频。

对视频进行分段时，相邻视频段根据需要有一定部分的重叠或者不重叠。

时域信息代表图根据需要由每段视频中部分或者全部视频帧叠加得到。

视觉显著代表图根据需要由每段视频中部分或者全部视频帧所对应的视觉显著图叠加得到。

进行图像块排序时的特定关系根据需要进行指定，按照从左到右从上到下或从下到上从右到左或希尔伯特曲线方式进行。

所述块与块的特征差异根据需要进行指定，这些特征为颜色或亮度或能量中的至少一种。

二值特征序列的生成时，根据需要对顺序特征中相邻块之间的关系进行比较，该关系为亮度大小关系比或颜色深浅关系或能量强弱关系，根据比较结果，生成二值特征序列。

视频指纹生成时进行的运算根据需要选定为任何逻辑运算。

所述逻辑运算为同或、异或、或、与运算中的一种。

本发明的有益效果是：考虑到视觉关注区域即图像中最能引起用户兴趣，最能表现图像内容的区域，同时所提取的特征体现了视频内容对视觉的刺激性，对于视频拷贝检测及视频检索来说主要是基于视频内容的，有研究表明分析引入人的感觉认知能够取得一定意义的成功。在此基础上本发明充分考虑到了人的视觉关注对所提取特征的影响，以及时空联合的顺序特征在对鲁棒性的贡献上，通过提取时空联合的顺序特征来构成视频指纹，在保证了本发明中方法鲁棒性的前提下，又有较高的区分性。

附图说明

图1是本发明方法的框架图。

图2是生成的时域代表图像及其希尔伯特曲线填充。

图3代表性显著图及其希尔伯特曲线填充。

图4是原始视频帧及经过10种视频处理后的视频帧。

图5a是误码率以及对应的查全率。

图5b是误码率以及对应查准率。

图6是本发明方法与其他方法平均比特错误率的对比。

图7是不同视频之间的比特错误率。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

图1给出了本发明方法的框架图，按所示流程，包括如下具体步骤：

1.视频进行分段

首先将视频固定为任意W*H尺寸大小的视频序列，其中W指视频帧的宽度大小，H指视频帧的高度大小，为了进行实验分析，这里我们选择W＝144，H＝176，其中W指视频帧的宽度大小，H指视频帧的高度大小；其次对视频帧进行分段，分段时可以重叠也可以不重叠，根据实验中对鲁棒性的要求以及考虑到帧率为30帧/秒，这里分段时我们选每部分30帧，各相邻部分有50％的重叠。

2.生成视频代表图

时域信息代表图和视觉显著代表图的具体生成过程如下：

其中F(m，n，k)为视频分段后每一部分里第k帧中第(m，n)像素的亮度值，(m，n)为视频帧中像素位置，k为视频分段后每一部分里第k帧，w_k为权值系数，选w_k＝r^k，取指数形式的权值系数，r为通过实验选取的固定值，J是每一部分里包含的视频帧数，F(m，n)是所生成的时域信息代表图的像素亮度值。

如下图2为得到的时域信息代表图。

其中SM(m，n，k)为视频分段后每一部分里各帧对应的显著图的第(m，n)像素的亮度值，(m，n)为显著图中像素位置，k为视频分段后每一部分里第k帧对应的显著图，w_k为权值系数，选w_k＝r^k，取指数形式的权值系数，r为通过实验选取的固定值，J是每一部分里包含的视频帧数，RSM(m，n)是所生成的视觉显著代表图的像素亮度值。如下图3为得到的视觉显著代表图。

3.生成顺序特征

对时域信息代表图和视觉显著代表图进行分块，然后根据特定的顺序关系比如按照从左到右从上到下或从下到上从右到左或希尔伯特曲线方式将图像块进行排序，这里我们选取希尔伯特曲线顺序来得到顺序特征。

首先计算P分位数M_p：

M_{p} = \{\begin{matrix} x_{[np] + 1}, & np &NotElement; Z \\ \frac{1}{2} (x_{[np]} + x_{[np] - 1}), & np &Element; Z \end{matrix}

其中0≤p≤1，[np]表示np的整数部分，x_[np]为n个按从小到大排列的灰度值中的第[np]个值，M_p即为由这n个元素所确定的p分位数。

然后按如下公式计算三均值M

其中M_0.25，M_0.5，M_0.75分别为0.25，0.5，0.75分位数；

4.生成二值特征序列

二值特征序列的生成时，根据需要对顺序特征中相邻块之间的关系进行比较，该关系为亮度大小关系比或颜色深浅关系或能量强弱关系

按如下公式生成时域信息代表图的二值特征序列，即图1中的二值序列1：

H_{1} = \{\begin{matrix} 0 & {V_{i}}^{j} &GreaterEqual; {V_{i}}^{j + 1} \\ 1 & {V_{i}}^{j} < {V_{i}}^{j + 1} \end{matrix}

其中＜V[0]，V[1]，....V[n-1]＞代表一个视频序列的n帧，＜V¹[i]，..........V^m[i]＞表示视频第i个时域信息代表图的第m个分割块，V^j表示希尔伯特曲线上第j个块，表示V^j[i]的灰度三均值。

按如下公式生成视觉显著代表图的二值特征序列，即图1中的二值序列2：

H_{2} = \{\begin{matrix} 0 & {V_{i}}^{j} &GreaterEqual; {V_{i}}^{j + 1} \\ 1 & {V_{i}}^{j} < {V_{i}}^{j + 1} \end{matrix}

其中＜V[0]，V[1]，....V[n-1]＞代表一个显著图序列的n个显著图，＜V¹[i]，..........V^m[i]＞表示第i个视觉显著代表图的第m个分割块，V^j表示希尔伯特曲线上第j个块，

表示V^j[i]的灰度三均值。

5.视频指纹生成

将得到的时域信息代表图和视觉显著代表图的二值特征序列结合起来，根据需要进行相应的运算比如‘或’，‘同或’，‘异或’，‘与’等，最终得到的二值序列为最终的视频指纹。

H = H_{1} &CirclePlus; H_{2}

其中H由每个时域信息代表图和视觉显著代表图得到的一个16bit的视频指纹，H₁为由时域信息代表图得到的二值序列1，H₂为由视觉显著代表图得到的二值序列2，指‘异或’操作符。以此类推计算出所有的视频指纹，将这些视频指纹按顺序组合起来就构成了整个视频序列的视频指纹。

为了分析所提方法的鲁棒性及区分性，从视频库下载了包括纪录片、新闻、体育、动画等在内的视频，图4展示了(a)视频的原始帧以及经过攻击：(b)直方图均衡、(c)添加高斯噪声、(d)颜色对照下降25％、(e)颜色对照上升25％、(f)添加logo、(g)剪切、(h)同时加噪声与logo、(i)同时加噪声与颜色对比度变化、(i)滤波后的对比。

文中通过实验设定阈值T＝0.12，其中图5a是误码率以及对应的查全率，图5b是误码率以及对应的查准率，结合图5a、图5b，选定此阈值T，查全率和查准率都能得到理想效果。

从图5a、图5b还可以看出对于不同的视频所得到的各个比特错误率在阈值范围内，也就是说对于这些类的视频在添加攻击后，比较原视频与攻击后视频的视频指纹，仍可以判断出二者属于同一视频。图6展示了本发明、Nie，X.S[1]“Robust video hashing based on double-layer embedding”以及TIRI-DCT算法在帧旋转、噪声比例缩放、丢帧处理、帧平移、添加logo等攻击下的平均误码率，从图6可以看出本发明方法平均误码率低于其他算法，表征了本发明经各种攻击后，误码率不高，和原视频保持了较高程度的相似，这也显示出了本发明对相同内容检索的有效性。

为了验证此方法的区分性，图7给出了数据说明，通过比较不同视频之间的视频指纹，得到其错误率分布在0.5上下，因为阈值设定为0.12，通过比较不同视频间的视频指纹足以区分出不同视频。

Claims

1.一种用于相同内容视频检索的视频指纹方法，其特征在于，包括以下步骤：

1)对视频进行分段：首先对视频进行预处理，将视频预处理为固定大小的视频序列；然后对预处理后的各视频序列进行分段；

5)视频指纹生成：将得到的时域信息代表图和视觉显著代表图的二值特征序列结合起来，根据需要进行相应的运算，最终得到的二值序列为最终的视频指纹。

2.根据权利要求1所述的用于相同内容视频检索的视频指纹方法，其特征在于：将视频处理为固定大小的视频序列过程中，根据需要通过插值或者下采样来获得指定大小的视频。

3.根据权利要求1所述的用于相同内容视频检索的视频指纹方法，其特征在于：对视频进行分段时，为保证其鲁棒性，相邻视频段根据需要有一定部分的重叠。

4.根据权利要求1所述的用于相同内容视频检索的视频指纹方法，其特征在于：时域信息代表图根据需要由每段视频中部分或者全部视频帧叠加得到。

5.根据权利要求1所述的用于相同内容视频检索的视频指纹方法，其特征在于：视觉显著代表图根据需要由每段视频中部分或者全部视频帧所对应的视觉显著图叠加得到。

6.根据权利要求1所述的用于相同内容视频检索的视频指纹方法，其特征在于：进行图像块排序时的特定关系根据需要进行指定，按照从左到右从上到下或从下到上从右到左或希尔伯特曲线方式进行。

7.根据权利要求1所述的用于相同内容视频检索的视频指纹方法，其特征在于：所述块与块的特征差异根据需要进行指定，这些特征为颜色或亮度或能量中的至少一种。

8.根据权利要求1所述的用于相同内容视频检索的视频指纹方法，其特征在于：二值特征序列的生成时，根据需要对顺序特征中相邻块之间的关系进行比较，该关系为亮度大小关系比或颜色深浅关系或能量强弱关系，根据比较结果，生成二值特征序列。

9.根据权利要求1所述的用于相同内容视频检索的视频指纹方法，其特征在于：视频指纹生成时进行的运算根据需要选定为任何逻辑运算。

10.如权利要求9所述的用于相同内容视频检索的视频指纹方法，其特征在于：所述逻辑运算为同或、异或、或、与中的一种。