CN112528856B

CN112528856B - 一种基于特征帧的重复视频检测方法

Info

Publication number: CN112528856B
Application number: CN202011455026.7A
Authority: CN
Inventors: 陈锦言; 李晔华
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2022-04-15
Anticipated expiration: 2040-12-10
Also published as: CN112528856A

Abstract

本发明提供一种基于特征帧的重复视频检测方法，包括下列步骤：帧的预处理；计算相邻两帧之间的差异值d_i，得到帧差异值序列；得到特征帧集合记；确定特征帧方向；对特征帧集合进行方向统一；将每个视频得到的特征帧依次输入Resnet152网络，每个特征帧通过Resnet152网络得到一个特征向量，这些特征向量出向量的平均值记为这个视频的特征向量

计算每个视频对应的特征向量

之间余弦相似度得到每个视频之间的相似度。

Description

一种基于特征帧的重复视频检测方法

技术领域

本发明涉及计算机数据检索及视觉领域中的视频检测技术，尤其适用于应对视频进行了剪辑、旋转、水印等简单编辑操作后的重复检测。

背景技术

随着5G技术的研发与普及，手机、数码相机、视频监控等硬件设备的普及，各行业的视频数据量爆炸增长。而抖音、快手等短视频互动平台的出现，进一步降低了视频创作门槛，使得添加水印、视频简单裁剪、视频旋转、加速、降速等视频编辑操作越发便捷。这导致部分用户为追求热度而对他人发布的短视频经过简单修改后上传到社交网站，产生了大量重复或者无意的视频。因此加强对重复视频的检测对提高视频检索的准确度、发现视频侵权行为、降低重复视频的收录具有重要意义。

目前重复视频检测领域一种方法是基于对帧图像的特征提取，例如提取图像的sift^[1]，SURF^[2]特征等。另一种方式从视频中定间隔的提取帧^[3]，并使用深度学习等方式对提取出来的多个帧进行特征提取，进而实现视频的重复性判断。

通常的这些算法对简单复制的重复视频具有较高的检测精度，但是当视频经过简单编辑(加水印、裁剪、加字幕)或者视频中发生帧的插入、删除、加速、降速操作的时候容易对算法精度产生较大的影响。

[1]Liu H,Lu H,Xue X.A Segmentation and Graph-Based Video SequenceMatching Method for Video Copy Detection[J].IEEE Transactions on Knowledgeand Data Engineering,2013,25(8):1706-1718.

[2]Yang G,Chen N,Jiang Q.A robust hashing algorithm based on SURF forvideo copy detection[J].Computers&Security,2012,31(1):33-39.

[3]Kordopatis-Zilos G,Papadopoulos S,Patras I,et al.Near-DuplicateVideo Retrieval with Deep Metric Learning[C].Web-scale Vision and SocialMedia(VSM),ICCV 2017.IEEE Computer Society,2017.

发明内容

本发明的目的是提供一种对经过一些简单编辑的视频也有较好的检测效果的基于特征帧的重复视频检测方法。技术方案如下：

一种基于特征帧的重复视频检测方法，包括下列步骤：

步骤1帧的预处理：将视频分割为连续帧，并对每一帧进行包括黑白化处理、降噪、剪裁在内的预处理，得到帧序列F＝{f_i|i＝1...n}；

步骤2计算相邻两帧之间的差异值d_i，并将每帧之间的差异值做高斯平滑处理得到帧差异值序列

步骤3从帧差异值序列

取局部极大值点对应的帧为特征帧,依次得到特征帧集合记K＝{k_j|j＝1...m}；

步骤4统一特征帧方向：将特征帧k_j压缩为17像素*17像素的正方形图像H_j，利用H_j计算特征帧的方向，方法如下：

(1)计算H_j中每个像素点(x,y)沿x轴和y轴方向的梯度G_x(x,y)、G_y(x,y)：

G_x(x,y)＝H(x+1,y)-H(x-1,y)

G_y(x,y)＝H(x,y+1)-H(x,y-1)

(2)计算每个像素点(x,y)的梯度方向：

(3)计算每个像素点(x,y)的梯度幅值G(x,y)：

(4)根据就近原则，将每个像素点的梯度方向θ(x,y)统一到α＝0°,90°,180°,270°四个方向角上，统一后每个像素点的梯度方向角记为

(5)以H_j中心点(x0,y0)为原点，统计四个方向角上H_j中每个像素梯度幅值加权和，即：

其中

σ为二元高斯分布方差，取0.5-4之间；

(5)取G_sum(α)最大的值对应的α为特征帧的主方向；

步骤5：对特征帧集合K进行方向统一；根据所求得的特征帧的主方向，将H_j对应的特征帧k_j进行-α度的旋转，经方向统一后的特征帧集合记为S＝{s_j|i＝1...m}。

步骤6：将每个视频得到的特征帧s_j依次输入Resnet152网络，每个特征帧通过Resnet152网络得到一个特征向量，这些特征向量出向量的平均值记为这个视频的特征向量

步骤7：计算每个视频对应的特征向量

之间余弦相似度得到每个视频之间的相似度。

附图说明

图1在差异值序列

中取局部极大值点

图2方向帧H_i中每个像素点梯度幅值和方向

图3方向帧中四个方向上每个点梯度幅值加权和

具体实施方式：

本发明主要从重复视频检索中的特征帧提取入手，尽量保持当视频进行简单编辑后(增减、旋转、加字幕、加速、降速)的时候提取的特征帧相对不变，使用成熟的深度学习等方法对视频进行特征提取，进而实现视频的重复检索。本发明针对需要在大量视频中检测重复视频的场景，主要思路如下：提取视频的特征帧；通过特征帧的提取消除增删帧、加速减速的影响；通过方向对齐消除旋转、镜像的影响；通过Resnet提取特征帧序列的特征进行重复视频的发现和检索。针对一个视频V，其提取特征的步骤如下：

1帧的预处理。将每个视频将分解为连续帧，将每一帧转换为黑白图像，对每帧进行高斯模糊处理，得到帧图像序列R＝{r_i|i＝1...n}。

2在每帧中心中截取一个最大的正方形，并压缩成统一的边长图像。每帧r_i的宽高像素分别为w,h，则在每帧中心以min(w,h)为边长截取一个正方形(截掉上下或者左右的部分)，将这个正方形图像宽、高压统一缩到224像素。帧图像序列R经过上述处理后得帧图像序列F＝{f_i|i＝1...n},因为每秒视频一般由几十帧构成，所以对一个几分钟短视频n的数量一般为几千至几万，需要从中提取具有代表性的特征帧。

3计算F中每个相邻两帧之间的差异图像D_i以及差异值d_i。定义D_i为帧f_i和f_i+1之间的差异图像，则D_i中坐标点为(x,y)点像素定义如下：

其中Δ为设定的阈值，一般定义为5到10之间。即如果两个图像对应像素点的差异大于特定的阈值Δ，则D_i(x,y)对应点值为1，否则0。

两个帧之间的差异值d_i定义为D_i(x,y)中所有不为0的像素点的个数。

对F中每一帧依次计算帧之间差异度，得到数列d₁……d_n-1。

4对d₁……d_n-1中每个值d_i用邻域做平滑处理(开始和结束两帧除外，因为其邻域超出数列范围)，即

得到数列

5针对序列

取局部极值。从

开始依次向寻找这样的

如果

即

是数列中某个邻域范围内的局部极大值(实际应用中可以调整局部范围，例如±20、±40…)，则将

对应的帧f_i定义为第一个特征帧k₁，次向后移动依可以从F中得到特征帧k₂,k₃,...k_m，这些特征帧集合记为K＝{k_i|i＝1...m}。

6确定每个特征帧的主方向。确定特征帧主方向的主要是为了消除视频旋转带来的影响。

(1)为了进一步消除噪声影响，将特征帧k_i压缩为17像素*17像素的正方形图像H_i，H_i称为特征帧k_i对应的方向帧。

(2)计算H_i中每个非边缘像素点的梯度幅值与梯度方向。若方向帧H_i中每个像素点(x,y)的像素值为H(x,y)，则该点横坐标与纵坐标梯度G_x(x,y),G_y(x,y)的梯度计算公式为：

G_x(x,y)＝H(x+1,y)-H(x-1,y) (2)

G_y(x,y)＝H(x,y+1)-H(x,y-1) (3)

每个像素点梯度方向

则图像像素点(x,y)的梯度幅值为：

图2表示一个H_i中每个像素点的梯度方向和梯度大小。

(3)根据就近原则，夹角距离哪个方向最近就归为那个方向，以90°为间隔，将梯度方向角θ(x,y)统一到4个方向

即：

7以方向帧的中心点(x0,y0)为原点，统计4个方向角上每个点梯度幅值的加权和。其中每个点(x,y)的权值为以H_i的中心点(x0,y0)为原点的高斯权重。参见图3。

定义H_i4个方向上梯度幅值累积为G_sum(α)α＝0°,90°,180°,270°则：

其中

σ为二元高斯分布方差

8统一特征帧的方向。取G_sum(α)最大值对应α为方向帧H_i的主方向。将H_i对应的特征帧k_i进行-α度的旋转(即通过旋转90°、180°、270°让特征帧k_i对应的方向帧H_i主方向旋转到0°)。经方向统一后的特征帧集合记为S＝{s_i|i＝1...m}。

9对特征帧集合S进行特征提取。图像提取算法在深度学习领域已经相对成熟，本项目使用现成的残差网络ResNet152提取特征帧的特征。本发明取Resnet152网络中的block1、block2、block3、block4共4层残差块的输出，这4层分别输出维度为：256、512、1024、2048的4个向量，这4个向量首尾拼接得到一个3840维的向量p。即依次将S＝{s_i|i＝1...m}中的每一帧s_i输入Resnet152网络，得到m个3840维度的特征向量集合P＝{p_i|i＝1...m}。将P中每个向量取平均值得到

就是视频V最终对应的特征向量。

10计算每个视频之间的差异度，如果视频V_i和V_k对应的3840维的特征向量分别为

则V_i和V_k视频之间相似度定义向量

之间的余弦相似度。即：