CN112528856B - 一种基于特征帧的重复视频检测方法 - Google Patents

一种基于特征帧的重复视频检测方法 Download PDF

Info

Publication number
CN112528856B
CN112528856B CN202011455026.7A CN202011455026A CN112528856B CN 112528856 B CN112528856 B CN 112528856B CN 202011455026 A CN202011455026 A CN 202011455026A CN 112528856 B CN112528856 B CN 112528856B
Authority
CN
China
Prior art keywords
frame
video
feature
characteristic
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011455026.7A
Other languages
English (en)
Other versions
CN112528856A (zh
Inventor
陈锦言
李晔华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011455026.7A priority Critical patent/CN112528856B/zh
Publication of CN112528856A publication Critical patent/CN112528856A/zh
Application granted granted Critical
Publication of CN112528856B publication Critical patent/CN112528856B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于特征帧的重复视频检测方法,包括下列步骤:帧的预处理;计算相邻两帧之间的差异值di,得到帧差异值序列;得到特征帧集合记;确定特征帧方向;对特征帧集合进行方向统一;将每个视频得到的特征帧依次输入Resnet152网络,每个特征帧通过Resnet152网络得到一个特征向量,这些特征向量出向量的平均值记为这个视频的特征向量
Figure DDA0002828423500000011
计算每个视频对应的特征向量
Figure DDA0002828423500000012
之间余弦相似度得到每个视频之间的相似度。

Description

一种基于特征帧的重复视频检测方法
技术领域
本发明涉及计算机数据检索及视觉领域中的视频检测技术,尤其适用于应对视频进行了剪辑、旋转、水印等简单编辑操作后的重复检测。
背景技术
随着5G技术的研发与普及,手机、数码相机、视频监控等硬件设备的普及,各行业的视频数据量爆炸增长。而抖音、快手等短视频互动平台的出现,进一步降低了视频创作门槛,使得添加水印、视频简单裁剪、视频旋转、加速、降速等视频编辑操作越发便捷。这导致部分用户为追求热度而对他人发布的短视频经过简单修改后上传到社交网站,产生了大量重复或者无意的视频。因此加强对重复视频的检测对提高视频检索的准确度、发现视频侵权行为、降低重复视频的收录具有重要意义。
目前重复视频检测领域一种方法是基于对帧图像的特征提取,例如提取图像的sift[1],SURF[2]特征等。另一种方式从视频中定间隔的提取帧[3],并使用深度学习等方式对提取出来的多个帧进行特征提取,进而实现视频的重复性判断。
通常的这些算法对简单复制的重复视频具有较高的检测精度,但是当视频经过简单编辑(加水印、裁剪、加字幕)或者视频中发生帧的插入、删除、加速、降速操作的时候容易对算法精度产生较大的影响。
[1]Liu H,Lu H,Xue X.A Segmentation and Graph-Based Video SequenceMatching Method for Video Copy Detection[J].IEEE Transactions on Knowledgeand Data Engineering,2013,25(8):1706-1718.
[2]Yang G,Chen N,Jiang Q.A robust hashing algorithm based on SURF forvideo copy detection[J].Computers&Security,2012,31(1):33-39.
[3]Kordopatis-Zilos G,Papadopoulos S,Patras I,et al.Near-DuplicateVideo Retrieval with Deep Metric Learning[C].Web-scale Vision and SocialMedia(VSM),ICCV 2017.IEEE Computer Society,2017.
发明内容
本发明的目的是提供一种对经过一些简单编辑的视频也有较好的检测效果的基于特征帧的重复视频检测方法。技术方案如下:
一种基于特征帧的重复视频检测方法,包括下列步骤:
步骤1帧的预处理:将视频分割为连续帧,并对每一帧进行包括黑白化处理、降噪、剪裁在内的预处理,得到帧序列F={fi|i=1...n};
步骤2计算相邻两帧之间的差异值di,并将每帧之间的差异值做高斯平滑处理得到帧差异值序列
Figure GDA0002941228320000011
步骤3从帧差异值序列
Figure GDA0002941228320000012
取局部极大值点对应的帧为特征帧,依次得到特征帧集合记K={kj|j=1...m};
步骤4统一特征帧方向:将特征帧kj压缩为17像素*17像素的正方形图像Hj,利用Hj计算特征帧的方向,方法如下:
(1)计算Hj中每个像素点(x,y)沿x轴和y轴方向的梯度Gx(x,y)、Gy(x,y):
Gx(x,y)=H(x+1,y)-H(x-1,y)
Gy(x,y)=H(x,y+1)-H(x,y-1)
(2)计算每个像素点(x,y)的梯度方向:
Figure GDA0002941228320000021
(3)计算每个像素点(x,y)的梯度幅值G(x,y):
Figure GDA0002941228320000022
(4)根据就近原则,将每个像素点的梯度方向θ(x,y)统一到α=0°,90°,180°,270°四个方向角上,统一后每个像素点的梯度方向角记为
Figure GDA0002941228320000023
(5)以Hj中心点(x0,y0)为原点,统计四个方向角上Hj中每个像素梯度幅值加权和,即:
Figure GDA0002941228320000024
其中
Figure GDA0002941228320000025
σ为二元高斯分布方差,取0.5-4之间;
(5)取Gsum(α)最大的值对应的α为特征帧的主方向;
步骤5:对特征帧集合K进行方向统一;根据所求得的特征帧的主方向,将Hj对应的特征帧kj进行-α度的旋转,经方向统一后的特征帧集合记为S={sj|i=1...m}。
步骤6:将每个视频得到的特征帧sj依次输入Resnet152网络,每个特征帧通过Resnet152网络得到一个特征向量,这些特征向量出向量的平均值记为这个视频的特征向量
Figure GDA0002941228320000026
步骤7:计算每个视频对应的特征向量
Figure GDA0002941228320000027
之间余弦相似度得到每个视频之间的相似度。
附图说明
图1在差异值序列
Figure GDA0002941228320000028
中取局部极大值点
图2方向帧Hi中每个像素点梯度幅值和方向
图3方向帧中四个方向上每个点梯度幅值加权和
具体实施方式:
本发明主要从重复视频检索中的特征帧提取入手,尽量保持当视频进行简单编辑后(增减、旋转、加字幕、加速、降速)的时候提取的特征帧相对不变,使用成熟的深度学习等方法对视频进行特征提取,进而实现视频的重复检索。本发明针对需要在大量视频中检测重复视频的场景,主要思路如下:提取视频的特征帧;通过特征帧的提取消除增删帧、加速减速的影响;通过方向对齐消除旋转、镜像的影响;通过Resnet提取特征帧序列的特征进行重复视频的发现和检索。针对一个视频V,其提取特征的步骤如下:
1帧的预处理。将每个视频将分解为连续帧,将每一帧转换为黑白图像,对每帧进行高斯模糊处理,得到帧图像序列R={ri|i=1...n}。
2在每帧中心中截取一个最大的正方形,并压缩成统一的边长图像。每帧ri的宽高像素分别为w,h,则在每帧中心以min(w,h)为边长截取一个正方形(截掉上下或者左右的部分),将这个正方形图像宽、高压统一缩到224像素。帧图像序列R经过上述处理后得帧图像序列F={fi|i=1...n},因为每秒视频一般由几十帧构成,所以对一个几分钟短视频n的数量一般为几千至几万,需要从中提取具有代表性的特征帧。
3计算F中每个相邻两帧之间的差异图像Di以及差异值di。定义Di为帧fi和fi+1之间的差异图像,则Di中坐标点为(x,y)点像素定义如下:
Figure GDA0002941228320000029
其中Δ为设定的阈值,一般定义为5到10之间。即如果两个图像对应像素点的差异大于特定的阈值Δ,则Di(x,y)对应点值为1,否则0。
两个帧之间的差异值di定义为Di(x,y)中所有不为0的像素点的个数。
对F中每一帧依次计算帧之间差异度,得到数列d1……dn-1
4对d1……dn-1中每个值di用邻域做平滑处理(开始和结束两帧除外,因为其邻域超出数列范围),即
Figure GDA0002941228320000031
得到数列
Figure GDA0002941228320000032
5针对序列
Figure GDA0002941228320000033
取局部极值。从
Figure GDA0002941228320000034
开始依次向寻找这样的
Figure GDA0002941228320000035
如果
Figure GDA0002941228320000036
Figure GDA0002941228320000037
是数列中某个邻域范围内的局部极大值(实际应用中可以调整局部范围,例如±20、±40…),则将
Figure GDA0002941228320000038
对应的帧fi定义为第一个特征帧k1,次向后移动依可以从F中得到特征帧k2,k3,...km,这些特征帧集合记为K={ki|i=1...m}。
6确定每个特征帧的主方向。确定特征帧主方向的主要是为了消除视频旋转带来的影响。
(1)为了进一步消除噪声影响,将特征帧ki压缩为17像素*17像素的正方形图像Hi,Hi称为特征帧ki对应的方向帧。
(2)计算Hi中每个非边缘像素点的梯度幅值与梯度方向。若方向帧Hi中每个像素点(x,y)的像素值为H(x,y),则该点横坐标与纵坐标梯度Gx(x,y),Gy(x,y)的梯度计算公式为:
Gx(x,y)=H(x+1,y)-H(x-1,y) (2)
Gy(x,y)=H(x,y+1)-H(x,y-1) (3)
每个像素点梯度方向
Figure GDA0002941228320000039
则图像像素点(x,y)的梯度幅值为:
Figure GDA00029412283200000310
图2表示一个Hi中每个像素点的梯度方向和梯度大小。
(3)根据就近原则,夹角距离哪个方向最近就归为那个方向,以90°为间隔,将梯度方向角θ(x,y)统一到4个方向
Figure GDA00029412283200000311
即:
Figure GDA00029412283200000312
7以方向帧的中心点(x0,y0)为原点,统计4个方向角上每个点梯度幅值的加权和。其中每个点(x,y)的权值为以Hi的中心点(x0,y0)为原点的高斯权重。参见图3。
定义Hi4个方向上梯度幅值累积为Gsum(α)α=0°,90°,180°,270°则:
Figure GDA00029412283200000313
其中
Figure GDA00029412283200000314
σ为二元高斯分布方差
8统一特征帧的方向。取Gsum(α)最大值对应α为方向帧Hi的主方向。将Hi对应的特征帧ki进行-α度的旋转(即通过旋转90°、180°、270°让特征帧ki对应的方向帧Hi主方向旋转到0°)。经方向统一后的特征帧集合记为S={si|i=1...m}。
9对特征帧集合S进行特征提取。图像提取算法在深度学习领域已经相对成熟,本项目使用现成的残差网络ResNet152提取特征帧的特征。本发明取Resnet152网络中的block1、block2、block3、block4共4层残差块的输出,这4层分别输出维度为:256、512、1024、2048的4个向量,这4个向量首尾拼接得到一个3840维的向量p。即依次将S={si|i=1...m}中的每一帧si输入Resnet152网络,得到m个3840维度的特征向量集合P={pi|i=1...m}。将P中每个向量取平均值得到
Figure GDA00029412283200000315
就是视频V最终对应的特征向量。
10计算每个视频之间的差异度,如果视频Vi和Vk对应的3840维的特征向量分别为
Figure GDA0002941228320000041
则Vi和Vk视频之间相似度定义向量
Figure GDA0002941228320000042
之间的余弦相似度。即:
Figure GDA0002941228320000043

Claims (1)

1.一种基于特征帧的重复视频检测方法,包括下列步骤:
步骤1帧的预处理:将视频分割为连续帧,并对每一帧进行包括黑白化处理、降噪、剪裁在内的预处理,得到帧序列F={fi|i=1...n};
步骤2计算相邻两帧之间的差异值di,并将每帧之间的差异值做高斯平滑处理得到帧差异值序列
Figure FDA0002828423470000011
步骤3从帧差异值序列
Figure FDA0002828423470000012
取局部极大值点对应的帧为特征帧,依次得到特征帧集合记K={kj|j=1...m};
步骤4统一特征帧方向:将特征帧kj压缩为17像素*17像素的正方形图像Hj,利用Hj计算特征帧的方向,方法如下:
(1)计算Hj中每个像素点(x,y)沿x轴和y轴方向的梯度Gx(x,y)、Gy(x,y):
Gx(x,y)=H(x+1,y)-H(x-1,y)
Gy(x,y)=H(x,y+1)-H(x,y-1)
(2)计算每个像素点(x,y)的梯度方向:
Figure FDA0002828423470000013
(3)计算每个像素点(x,y)的梯度幅值G(x,y):
Figure FDA0002828423470000014
(4)根据就近原则,将每个像素点的梯度方向θ(x,y)统一到α=0°,90°,180°,270°四个方向角上,统一后每个像素点的梯度方向角记为
Figure FDA0002828423470000015
(5)以Hj中心点(x0,y0)为原点,统计四个方向角上Hj中每个像素梯度幅值加权和,即:
Figure FDA0002828423470000016
其中
Figure FDA0002828423470000017
σ为二元高斯分布方差,取0.5-4之间;
(5)取Gsum(α)最大的值对应的α为特征帧的主方向;
步骤5:对特征帧集合K进行方向统一;根据所求得的特征帧的主方向,将Hj对应的特征帧kj进行-α度的旋转,经方向统一后的特征帧集合记为S={sj|i=1...m};
步骤6:将每个视频得到的特征帧sj依次输入Resnet152网络,每个特征帧通过Resnet152网络得到一个特征向量,这些特征向量出向量的平均值记为这个视频的特征向量
Figure FDA0002828423470000018
步骤7:计算每个视频对应的特征向量
Figure FDA0002828423470000019
之间余弦相似度得到每个视频之间的相似度。
CN202011455026.7A 2020-12-10 2020-12-10 一种基于特征帧的重复视频检测方法 Active CN112528856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011455026.7A CN112528856B (zh) 2020-12-10 2020-12-10 一种基于特征帧的重复视频检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011455026.7A CN112528856B (zh) 2020-12-10 2020-12-10 一种基于特征帧的重复视频检测方法

Publications (2)

Publication Number Publication Date
CN112528856A CN112528856A (zh) 2021-03-19
CN112528856B true CN112528856B (zh) 2022-04-15

Family

ID=74998920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011455026.7A Active CN112528856B (zh) 2020-12-10 2020-12-10 一种基于特征帧的重复视频检测方法

Country Status (1)

Country Link
CN (1) CN112528856B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103383451A (zh) * 2013-06-07 2013-11-06 杭州电子科技大学 基于恒边长梯度加权图切的优化雷达微弱目标检测方法
CN104200197A (zh) * 2014-08-18 2014-12-10 北京邮电大学 三维人体行为识别方法及装置
CN106503748A (zh) * 2016-11-07 2017-03-15 湖南源信光电科技有限公司 一种基于s‑sift特征和svm训练器的车型识别算法
CN106529461A (zh) * 2016-11-07 2017-03-22 湖南源信光电科技有限公司 一种基于积分特征通道和svm训练器的车型识别算法
CN106851437A (zh) * 2017-01-17 2017-06-13 南通同洲电子有限责任公司 一种提取视频摘要的方法
CN109063694A (zh) * 2018-09-12 2018-12-21 北京科技大学 一种视频目标检测识别方法
CN110738128A (zh) * 2019-09-19 2020-01-31 天津大学 一种基于深度学习的重复视频检测方法
CN111696078A (zh) * 2020-05-14 2020-09-22 国家广播电视总局广播电视规划院 一种超高清视频检测方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110085728A1 (en) * 2009-10-08 2011-04-14 Yuli Gao Detecting near duplicate images
US20120002884A1 (en) * 2010-06-30 2012-01-05 Alcatel-Lucent Usa Inc. Method and apparatus for managing video content

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103383451A (zh) * 2013-06-07 2013-11-06 杭州电子科技大学 基于恒边长梯度加权图切的优化雷达微弱目标检测方法
CN104200197A (zh) * 2014-08-18 2014-12-10 北京邮电大学 三维人体行为识别方法及装置
CN106503748A (zh) * 2016-11-07 2017-03-15 湖南源信光电科技有限公司 一种基于s‑sift特征和svm训练器的车型识别算法
CN106529461A (zh) * 2016-11-07 2017-03-22 湖南源信光电科技有限公司 一种基于积分特征通道和svm训练器的车型识别算法
CN106851437A (zh) * 2017-01-17 2017-06-13 南通同洲电子有限责任公司 一种提取视频摘要的方法
CN109063694A (zh) * 2018-09-12 2018-12-21 北京科技大学 一种视频目标检测识别方法
CN110738128A (zh) * 2019-09-19 2020-01-31 天津大学 一种基于深度学习的重复视频检测方法
CN111696078A (zh) * 2020-05-14 2020-09-22 国家广播电视总局广播电视规划院 一种超高清视频检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"GENRE-ADAPTIVE NEAR-DUPLICATE VIDEO SEGMENT DETECTION";Ichiro IDE.etc;《GENRE-ADAPTIVE NEAR-DUPLICATE VIDEO SEGMENT DETECTION》;20071231;全文 *

Also Published As

Publication number Publication date
CN112528856A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
Liu et al. Spatial-phase shallow learning: rethinking face forgery detection in frequency domain
CN110599486A (zh) 一种视频抄袭的检测方法及系统
Fadl et al. Robust copy–move forgery revealing in digital images using polar coordinate system
CN111860414B (zh) 一种基于多特征融合检测Deepfake视频方法
Uliyan et al. Copy move image forgery detection using Hessian and center symmetric local binary pattern
CN110738128A (zh) 一种基于深度学习的重复视频检测方法
CN111754441B (zh) 一种图像复制粘贴伪造被动检测方法
CN115205114A (zh) 一种基于orb特征的高分辨率图像拼接改进算法
Rhee Median filtering detection based on variations and residuals in image forensics
Sun et al. Recaptured image forensics algorithm based on image texture feature
CN116222381A (zh) 电极涂层尺寸测量方法和装置
Kong et al. An information security method based on optimized high-fidelity reversible data hiding
Li et al. Coverless Video Steganography Based on Frame Sequence Perceptual Distance Mapping.
CN107247752B (zh) 一种基于角点描述子的图像检索方法
CN112528856B (zh) 一种基于特征帧的重复视频检测方法
Chen et al. Eigen-patch: Position-patch based face hallucination using eigen transformation
CN116383470B (zh) 一种具有隐私保护的图像搜索方法
Ustubioglu et al. A novel keypoint based forgery detection method based on local phase quantization and SIFT
Cherian et al. Improving image resolution on surveillance images using SRGAN
Neelima et al. Collusion and rotation resilient video hashing based on scale invariant feature transform
Chu et al. A survey of blind forensics techniques for jpeg image tampering
CN113554036A (zh) 一种改进orb算法的特征点提取与匹配方法
Kale et al. Copy Move Forgery Detection-A Robust Technique
CN112487943A (zh) 关键帧去重的方法、装置和电子设备
Wang et al. Filtered image forensics based on frequency domain features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant