CN103336957B

CN103336957B - 一种基于时空特征的网络同源视频检测方法

Info

Publication number: CN103336957B
Application number: CN201310303194.8A
Authority: CN
Inventors: 胡卫明; 胡瑞娟; 李兵
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2013-07-18
Filing date: 2013-07-18
Publication date: 2016-12-28
Anticipated expiration: 2033-07-18
Also published as: CN103336957A

Abstract

本发明公开了一种基于时空特征的网络同源视频检测方法，该方法包括以下步骤：步骤1：对输入的待检测视频进行预处理，从而去除低信息帧或异常帧，并进行图中图检测；步骤2：将至少一个参考视频与预处理后的待检测视频进行视频片段分割，得到一系列的视频片段，每个视频片段由相等数目的连续帧组成；步骤3：分别对上述所有的视频片段提取时空特征数据；步骤4：采用局部敏感哈希方法对上述得到的时空特征数据进行有效索引以及搜索，从而匹配得到相似视频片段，并输出最终同源视频的信息。

Description

一种基于时空特征的网络同源视频检测方法

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于内容的网络同源视频检测(Content-Based Video Copy Detection)方法。

背景技术

随着网络上多媒体技术的迅猛发展，视频数据更是呈现出海量增长的势头。作为多媒体处理中的一个重要研究领域，网络同源视频检测旨在根据视频的内容实现相似、拷贝视频的有效检测，以便满足版权保护、数据压缩、数据源跟踪等多项应用。由于原始视频会经过如图中图、重编码、裁剪、对比度改变等一系列变换，所以增加了同源视频检测的难度。

现今，多数的同源视频检测系统是基于视觉信息建立的，根据处理视频的结构，可以分为两大类：基于帧和基于视频段。基于帧的同源视频检测系统首先通过提取关键帧或者均匀采样获得帧，然后对这些帧提取二维兴趣点并用特征描述子(descriptors)表示。为了不丢失视频的时序特征，也会在后续处理中添加表示时序的信息，如采用1-D Hough算法将时间上有序的视频帧分组，或将帧的特征按照一定规则排序等。最后，分别通过帧层的匹配和视频层的匹配获得最终的检测结果。虽然这类基于帧的检测方法在一定程度上同时利用了时间、空间信息，且获得了较为满意的结果，但表现出了一些弊端。首先，检测效果很大程度上依赖于帧选取的质量，且对特征的鲁棒性与区分性要求很高；其次，时序信息是后续增加的，这不仅增添了额外的计算量，还难以保证时间与空间信息的一致性。此外，这类系统处理的数据量都很大，对计算机硬件提出了较高的要求，所以在实际应用时受到了很大的限制。

基于视频段的系统与上述方法最大的不同是并不提取个别帧，而是将视频分为由连续帧组成的视频片段，然后对视频段提取视觉信息。同样，为了提高准确度，会提取视频段的时间轨迹。最后的匹配是基于整个视频片段进行的，这就提高了检测的效率和准确度。然而，通常提出的提取整个片段视觉信息的方法，其鲁棒性和区分性并不是很好，而且，时间轨迹的计算也是很大的计算量。

总体来看，当前流行的这两类方法最大的问题是数据量大、时序信息缺失、特征鲁棒性与区分性差、效率不高。所以，有必要研究一种方法，可以有效地实现时间、空间信息的提取，同时可以很好的处理大规模数据，从而实现同源视频的高准确率检测。

发明内容

(一)要解决的技术问题

本发明的目的在于提出一种适用于大规模的网络同源视频检测方法，解决了同时满足有效、准确、快速、实时四个要求的技术问题。

(二)技术方案

为实现上述目的，本发明提出了一种基于时空特征的网络同源视频检测方法，该方法包括以下步骤：

步骤1：对输入的待检测视频进行预处理，从而去除低信息帧或异常帧，并进行图中图检测；

步骤2：将至少一个参考视频与预处理后的待检测视频进行视频片段分割，得到一系列的视频片段，每个视频片段由相等数目的连续帧组成；

步骤3：分别对上述所有的视频片段提取时空特征数据；

步骤4：采用局部敏感哈希方法对上述得到的时空特征数据进行有效索引以及搜索，从而匹配得到相似视频片段，并输出最终同源视频的信息。

(三)有益效果

本发明所提出的基于时空特征的同源视频检测方法，由于提取的特征同时包含时间、空间信息，所以对各种视频变换表现出很好的鲁棒性与区分性。此外，通过引入LSH索引与搜索策略，可以有效、快速地实现大数据的处理。特别地，由于参考视频的特征提取与LSH索引的建立都是在线下完成，而系统处理查询视频的速度较快，所以能够实现视频的实时查询。

附图说明

图1是本发明中基于时空特征的同源视频检测方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明的方法具体运行的硬件和编程语言并不受限制，用任何语言编写都可以实现本发明的方法。本发明采用一台具有2.53G赫兹中央处理器和4G字节内存的计算机，并在OPENCV平台上，结合C++语言编制了同源视频检测的工作程序，部分算法程序是由MATLAB编写，实现了本发明的方法。

图1示出了本发明提出的基于时空特征的同源视频检测方法的流程图。如图1所示，该方法包括：

步骤2：将参考视频与预处理后的待检测视频进行非镜头的视频片段分割，得到一系列的视频片段，每个视频片段由相等数目的连续帧组成；所述非镜头分割指的是直接按照固定的长度分成视频片段；

步骤3：分别对上述所有的视频片段提取时空特征信息；

步骤4：采用局部敏感哈希方法对上述得到的海量特征信息进行有效索引以及搜索，从而匹配得到相似视频片段，输出最终同源视频检测结果。

下面详细给出本发明技术方案中所涉及的各个步骤。

对于步骤1，包括如下步骤：

步骤1a：逐帧读取所述待检测视频，计算所述待检测视频的每帧图像中两两相邻像素间的差值，所得差值图像若低于一定阈值，则认为是低信息帧，从待检测视频中去除该低信息帧；所述低信息帧也称黑色帧，是指图像中出现大量像素变化缓慢的区域，对于有效信息表达作用不大。

步骤1b：分别计算待检测视频中第f_i帧与第f_i-1帧、第f_i帧与第f_i+1帧、第f_i-1帧与第f_i+1帧中对应像素的差值，得到灰度值在0-255之间的差值图像d1、d2、d3，若d3中多于一定数量个点处的灰度值小于预定阈值，则f_i-1帧f_i+1帧相似，而d1、d2中多于一定数量个点处的灰度值大于预定阈值，则f_i与f_i-1、f_i+1差异较大，则认为f_i是异常帧，从视频中去除；其中，所述一定数量个点指大多数点，至少大于一般点数，所述预定阈值优选为20；所述异常帧是指某帧f_i的前一帧f_i-1与后一帧f_i+1相似，而该帧与前、后帧差异明显。

步骤1c：通过霍夫变换(Hough)检测连续帧中均存在的直线，利用这些直线构建若干个矩形区域，若矩形区域位于图像的四个角或者正中央，并判断其大小满足大于原视频的三分之一且小于原视频一半的大小规格，则认为该矩形区域为图中图区域。将图中图区域内的图像放大至原图像大小建立前景数据库。将图中图区域内像素置为0，保留原图像中其他像素值建立背景数据库。将新建的前景数据库和背景数据库分别用于同源视频检测，即分别对所述前景数据库和背景数据库建立LSH表，并在检测时分别搜索这两个数据库对应的LSH表。所述图中图是指视频中嵌入其他视频。

步骤2：按照固定帧数N，将参考视频和待检测视频分割为若干视频片段，每个片段包含N个连续帧，这里并不采用按镜头分割的方法。通常N取与参考视频帧率相近的整数值。

对于步骤3，包括如下步骤：

步骤3a：对步骤2中获得的参考视频的视频片段提取兴趣点。这里需要对图像帧序列I(x，y，t)而不是单个图像I(x，y)进行兴趣点检测，该兴趣点不仅包含空间维x和y的信息，还包含时间维t的信息；

兴趣点的检测通过计算如下响应函数获得，

R＝(I*g*h_ev)²+(I*g*h_od)²

其中，g(x，y；σ)是二维高斯核，h_ev和h_od是一对正交的一维Gabor滤波器，分别定义为

h_{ev} (t; τ, ω) = - \cos (2 πtω) e^{- t^{2} / τ^{2}}

和

h_{od} (t; τ, ω) = - \sin (2 πtω) e^{- t^{2} / τ^{2}} .

通常，令ω＝4/π，所以响应函数R只与空间尺度σ和时间尺度τ有关。兴趣点即为使得响应函数具有局部极大值的像素点。

步骤3b：以上述兴趣为中心，选取立方体区域，该区域边长是2σ×2σ×3τ，由于越是临近兴趣点的像素，对兴趣点响应贡献越大，所以，该立方体包含大多数对兴趣点响应贡献较大的像素点；

步骤3c：采用扩展高维SIFT特征向量表示上述立方体；首先对所述立方体中各像素点进行如下变换：

(1)归一化像素值；

(2)基于sobel算子计算亮度梯度，产生三个通道值(G_x，G_y，G_t)；其中，梯度计算就是计算一个像素与相邻像素的灰度的一阶微分，这里用的是sobel算子，(G_x，G_y，G_t)分别是指沿着x轴、y轴、t轴的方向计算。

(3)计算光流信息，得到两个通道(V_x，V_y)，Vx，Vy分别表示一个像素在当前帧位置与下一帧位置两点间的运动矢量。

然后，将所述立方体划分为若干区域，每个区域内先统计各像素点的G_x，然后计算极差δ(G_x中最大值与最小值的差)，在[0，δ]范围内划分为r_N个灰度级，统计所有G_x值位于各个灰度级r_k的像素个数，得到G_x的直方图。类似，依次建立G_y、G_t、V_x和V_y的直方图，将所有的直方图顺次连接起来生成一个大的向量，即为表示立方体的特征向量。

步骤3d：采用主成分分析法(PCA)降维。上述得到的表示立方体的特征向量维数很高，为此，需要将上述高维特征向量映射到m维的低维空间，其中，所述m要远小于数据原来的维数。这一过程可通过如下步骤实现：首先利用原始特征向量(若特征较多，可随机采样)生成协方差矩阵，然后计算该协方差矩阵的特征向量与特征值，将特征值按降序排列，取前m个特征值相对应的特征向量用于生成低维的映射矩阵，即低维特征空间，将原始高维特征向量用这些低维特征向量进行线性表示，即将高维特征向量与所述低维的映射矩阵相乘，得到低维的特征向量。

对于步骤4，包括如下步骤：

步骤4a：建立参考视频的文件名表格，用于存储文件名、文件名长度、文件的ID以及各参考视频的视频片段ID；

步骤4b：建立上述文件名表格相应的兴趣点表格，存储各参考视频片段中相应的兴趣点的ID、x和y坐标、梯度方向、空间尺度和时间尺度及降维后的低维特征向量；

步骤4c：由基于比特采样的LSH函数族创建参考视频的LSH索引表。具体为：将步骤4b中所有兴趣点的低维特征向量(维数为d)构建成名为X的数据域，其元素为每一个兴趣点的低维特征向量，其中v是数据域X中的一个兴趣点(x₁，...x_d)，c是X中所有兴趣点各维数值中最大的坐标值，d′＝cd，d′是海明空间维数，通过下式先对原始数据空间进行海明嵌入：

f(v)＝Unary_c(x₁)...Unary_c(x_d)

其中，Unary_c(x)是x的二进制表示。

相应的海明空间为{0，1}^d′。随机独立地从{1，...d′}中挑选k个数，k为小于d′的整数；然后对于每一个点v，计算v在海明空间对应的二值向量v₀，将v₀在这k个数所指示位置上的二进制串联起来得到的二值向量即为哈希后的结果。然后创建一个LSH索引表，存储各特征向量相应的ID、桶的ID及哈希值。

步骤4d：对输入的待检测视频用上述LSH索引表进行搜索，输出最终匹配结果。该过程主要包括以下步骤：

步骤4d(1)：根据所提取的待检测视频的视频片段的兴趣点计算出经过PCA降维的SIFT特征向量；

步骤4d(2)：同步骤4c，计算上述待检测视频特征哈希的哈希值；

步骤4d(3)：根据计算得到的待检测视频的视频片段中兴趣点的哈希值顺次查询所述参考视频的LSH索引表，得到所述待检测视频的视频片段中兴趣点的哈希值与LSH索引表中哈希值相等的单元，利用该单元中所有待选兴趣点的低维特征向量，分别计算与所述待检测视频的视频片段的兴趣点特征向量之间的欧式距离，根据所述欧式距离得到最相似的一系列兴趣点ID，根据该一系列兴趣点的ID查询兴趣点表格，得到包含该一系列兴趣点的视频片段ID，再查询文件名表格，得到最为相似的前20个参考视频的名称，输出最终的查询结果。

在步骤4d中所谓查询就是计算待检测视频和参考视频中两个兴趣点的特征向量的欧式距离，将所有兴趣点的特征向量欧式距离累加后可知两个视频片段的相似程度，那么进一步就可以知道两个视频的相似程度。

下面举例说明步骤4实现的流程：

设步骤4c中所有兴趣点的特征向量只有二维，即维数d＝2，构建成名为X的数据域，该数据域中含有以下几个点{(1，3)(2，4)(3，4)(4，2)(5，3)}其中v是数据域X中的一个兴趣点(3，4)，那么c是X中最大的坐标，此处c＝5。d′＝cd＝5×2＝10，则海明空间维数为10.接着对v进行海明嵌入(就是将v的坐标3和4分别用5位的二进制码表示)

，共10位。

相应的海明空间为{0，1}¹⁰，随机独立地从{1，...10}中挑选k(此处令k＝6)个数(选1，2，5，7，8，9)，计算v在海明空间对应的二值向量v₀，v₀＝0001100100，选取相应位置的二进制值

\begin{matrix} 0 & 0 & 0 & 1 & 1 & 0 & 0 & 1 & 0 & 0 \\ &UpArrow; & &UpArrow; & &UpArrow; & &UpArrow; & &UpArrow; & &UpArrow; \\ 1 & 2 & 5 & 7 & 8 & 9 \end{matrix},

串联起来得到哈希后的结果为(001010)那么点v的哈希值为(001010)。

在LSH索引方法中，将具有相同哈希值的点(特征向量比较相似)放到同一个集合中(此处多称作桶)，那么当输入一个新的点计算完哈希值后，直接到相应的桶中查询桶中所有的点与该新输入点的特征向量的距离，就可以找到最相似点，而不需要查找其他桶中(其他桶中的特征相差较多)，所以通过这种过滤的方式可以大大提高检索的效率。

上述例子中的所有点{(1，3) (2，4) (3，4) (4，2) (5，3)}的哈希值分别为(001001) (000010) (001010) (000001) (001001)

所以创建的LSH索引表类似如下：

特征向量ID	桶的ID	哈希值
			1	a	001001

2	b	000010
			3	c	001010
4	d	000001
			5	a	001001

若输入一个点的哈希值为(001001)，查询表可知，在桶a中，所以直接比较该点与点1和点5的相似度即可，不需要比较与2、3、4的相似度。

由于采用LSH索引避免了每个查询数据都要遍历所有的参考数据，且查询是按照一定顺序进行，所以提高了查询效率，大大提高了整个系统实现的速度，使实时性变为可能。

值得注意的是如果待检测视频含有图中图，经过预处理后可以得到前景数据库和背景数据库，需要对这两个数据库分别采用步骤4d进行相似检测，通过比较两个库分别得到的参考视频的相似程度，选择最为相似的参考视频名称。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，但值得注意的是，以上所述仅为本发明的具体实施实例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于时空特征的网络同源视频检测方法，该方法包括以下步骤：

步骤3：分别对所述视频片段提取时空特征数据；

步骤4：采用局部敏感哈希方法对所述时空特征数据进行有效索引以及搜索，从而匹配得到相似视频片段，并输出最终同源视频；

其中，对于步骤4，包括如下步骤：

步骤4c：由基于比特采样的LSH函数族创建参考视频的LSH索引表；具体为：将步骤4b中所有兴趣点的低维特征向量构建成名为X的数据域，其元素为每一个兴趣点的低维特征向量，其中v是数据域X中的一个兴趣点(x₁，....x_d)，c是X中所有兴趣点各维数值中最大的坐标值，d为数据域X的维数，d′＝cd，d′是海明空间维数，通过下式先对原始数据空间进行海明嵌入：

f(v)＝Unary_c(x₁)...Unary_c(x_d)

其中，Unary_c(x)是x的二进制表示；

相应的海明空间为{0，1}^d′；随机独立地从{1，...d′}中挑选k个数，k为小于d′的整数；然后对于每一个点v，计算v在海明空间对应的二值向量v₀，将v₀在这k个数所指示位置上的二进制串联起来得到的二值向量即为哈希后的结果，然后创建一个LSH索引表，存储各特征向量相应的ID、桶的ID及哈希值；

步骤4d：对输入的待检测视频用上述LSH索引表进行搜索，输出最终匹配结果，步骤4d包括以下步骤：

步骤4d1：根据所提取的待检测视频的视频片段的兴趣点计算出经过PCA降维的SIFT特征向量；

步骤4d2：同步骤4c，计算上述待检测视频特征哈希的哈希值；

步骤4d3：根据计算得到的待检测视频的视频片段中兴趣点的哈希值顺次查询所述参考视频的LSH索引表，得到所述待检测视频的视频片段中兴趣点的哈希值与LSH索引表中哈希值相等的单元，利用该单元中所有待选兴趣点的低维特征向量，分别计算与所述待检测视频的视频片段的兴趣点特征向量之间的欧式距离，根据所述欧式距离得到最相似的一系列兴趣点ID，根据该一系列兴趣点的ID查询兴趣点表格，得到包含该一系列兴趣点的视频片段ID，再查询文件名表格，得到最为相似的前20个参考视频的名称，输出最终的查询结果。

2.根据权利要求1所述的方法，其特征在于，所述步骤1包括：

步骤1a：计算所述待检测视频的每帧图像中相邻两像素之间的差值得到差值图像，根据所述差值图像确定是否为低信息帧，若是则去除该低信息帧；

步骤1b：计算所述待检测视频的连续三帧中两两之间对应像素的差值，并根据所述差值确定出异常帧，并从待检测视频中去除所述异常帧；

步骤1c：通过霍夫变换检测连续视频帧中均存在的直线，并根据所检测出的直线绘制出图中图的矩形区域，并单独存储矩形区域中的图像和其它区域中的图像。

3.根据权利要求1所述的方法，其特征在于，所述步骤2是指按照固定帧数N，将参考视频和待检测视频分割为若干视频片段，每个片段包含N个连续帧。

4.根据权利要求1所述的方法，其特征在于，所述步骤3包括：

步骤3a：从所分割得到的视频片段提取兴趣点，该兴趣点不仅包含空间维x和y的信息，还包含时间维t的信息；

步骤3b：以所提取的兴趣点为中心提取立方体；

步骤3c：采用扩展高维SIFT特征向量表示上述立方体；

步骤3d：采用主成分分析法PCA将上述高维SIFT特征向量映射到低维空间。

5.根据权利要求4所述的方法，其特征在于，在所述步骤3a中，兴趣点的检测是通过计算如下响应函数获得，

R＝(I(x，y，t)*g(x，y，σ)*h_ev)²+(I(x，y，t)*g(x，y，σ)*h_od)²

其中，I(x，y，t)表示视频片段，g(x，y，σ)是二维高斯核，h_ev和h_od是一对正交的一维Gabor滤波器，分别定义为和σ为视频片段I(x，y，t)的空间尺度；τ为视频片段I(x，y，t)的时间尺度，兴趣点即为在所述响应函数获得的局部极大值。

6.根据权利要求4所述的方法，其特征在于，在所述步骤3c中，首先对所述立方体中各像素进行如下变换：

(1)归一化像素值；

(2)计算亮度梯度，产生三个通道值(G_x，G_y，G_t)，(G_x，G_y，G_t)分别是指沿着x轴、y轴、t轴的方向计算的梯度；

(3)计算光流信息，得到两个通道(V_x，V_y)，(V_x，V_y)分别表示一个像素在当前帧位置与下一帧位置两点间的运动矢量；

然后，将所述立方体划分为若干区域，每个区域内建立相应梯度与光流信息的局部直方图，生成表示立方体的高维SIFT特征向量。

7.根据权利要求4所述的方法，其特征在于，在所述步骤3d中，利用所述立方体的高维SIFT特征向量生成协方差矩阵，并利用协方差矩阵的前m个数值较大的特征值所对应的特征向量生成低维的映射矩阵，并将所述高维SIFT特征向量与所述低维的映射矩阵相乘得到降维后的特征向量。