CN112800985A - 一种基于深度学习的视频对比方法 - Google Patents
一种基于深度学习的视频对比方法 Download PDFInfo
- Publication number
- CN112800985A CN112800985A CN202110139926.9A CN202110139926A CN112800985A CN 112800985 A CN112800985 A CN 112800985A CN 202110139926 A CN202110139926 A CN 202110139926A CN 112800985 A CN112800985 A CN 112800985A
- Authority
- CN
- China
- Prior art keywords
- video
- features
- key frame
- deep learning
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 13
- 238000013145 classification model Methods 0.000 claims description 4
- 238000013136 deep learning model Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的视频对比方法,其包括以下步骤:(1)视频关键帧提取;(2)提取关键帧图像特征;(3)使用关键帧生成视频指纹;(4)比对视频指纹,判断是否为重复视频。本发明通过提取关键帧,将视频降维成图片,对图片不同区域、不同颜色通道进行抽象提取,在图片改动的情况下也能抽象出接近的特征,图片特征组合成为视频指纹,使用KB级别的数据量表示MB级别的视频,准确方便地进行视频相似度对比。
Description
技术领域
本发明属于视频对比技术领域,具体涉及一种基于深度学习的视频对比方法。
背景技术
互联网上存在大量视频,其中包括许多重复的视频。重复视频同样占用着资源,造成资源浪费,提升了运营成本。
目前可以通过计算视频文件的hash值准确地进行文件判断,但该方式在视频有改动的情况下完全无法使用,包含但不限于转码、水印、裁剪、剪辑、特效等。
发明内容
有鉴于此,本发明提出基于深度学习的视频对比方法,解决了在视频进行即使轻微改动也无法正确比对的问题。
为了达到目的,本发明提供的技术方案为:
本发明涉及一种基于深度学习的视频对比方法,其包括以下步骤:
(1)视频关键帧提取;
(2)提取关键帧图像特征;
(3)使用关键帧生成视频指纹;
(4)比对视频指纹,判断是否为重复视频。
优选地,所述的视频关键帧提取具体包括以下步骤:
(1.1)读取视频文件V;
(1.2)提取视频帧序列L;
(1.3)将视频帧序列L转换到LUV颜色空间为LT;
(1.4)根据LT计算每一帧与相邻帧的颜色帧差D;
(1.5)根据颜色帧差D进行倒叙排列;
(1.6)取前一定数量帧作为关键帧K。
优选地,所述的提取关键帧图像特征具体包括以下步骤:
(2.1)将通过读取大量图片训练深度学习M模型来提取图片特征;
(2.2)将提取的关键帧K输入深度学习模型M中得到关键帧特征Fe。
优选地,所述使用关键帧生成视频指纹具体包括以下步骤:
(3.1)从关键帧特征Fe中挑选每一帧中较明显的特征Fec;
(3.2)组合挑选出的特征Fec得到视频指纹向量F。
优选地,所述的对比视频指纹具体包括以下步骤:
A和B分别为两个视频的指纹向量;
(4.2)根据余弦相似度S与设定阈值的比较判断是否相似,若大于阈值则判断为相似视频,若小于阈值判断为不相似视频。
优选地,所述关键帧的数量为每10分钟视频取64帧。
优选地,所述的M模型为ResNet训练图像分类模型。
优选地,通过M模型提取关键帧特征Fe后,不同特征有权重,所述较明显的特征Fec为权重分布靠前的特征,将各关键帧的Fec进行向量相加,成为指纹向量F。
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
本发明通过提取关键帧,将视频降维成图片,对图片不同区域、不同颜色通道进行抽象提取,在图片改动的情况下也能抽象出接近的特征,图片特征组合成为视频指纹,使用KB级别的数据量表示MB级别的视频,准确方便地进行视频相似度对比。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程图;
图2为本发明步骤一的流程图;
图3为本发明步骤二的流程图;
图4为本发明步骤三的流程图;
图5为本发明步骤四的流程图;
具体实施方式
为进一步了解本发明的内容,结合实施例对本发明作详细描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
参照图1,本实施例涉及一种基于深度学习的视频对比方法,其包括以下步骤:
(1)视频关键帧提取;
(2)提取关键帧图像特征;
(3)使用关键帧生成视频指纹;
(4)比对视频指纹,判断是否为重复视频。
参照图2,所述的视频关键帧提取具体包括以下步骤:
(1.1)读取视频文件V;
(1.2)提取视频帧序列L;
(1.3)将视频帧序列L转换到LUV颜色空间为LT;
(1.4)根据LT计算每一帧与相邻帧的颜色帧差D;
(1.5)根据颜色帧差D进行倒叙排列;
(1.6)取前一定数量帧作为关键帧K。
颜色帧差D为相邻帧在转换到LUV颜色空间后的绝对像素值差;所述关键帧的数量为每10分钟视频取64帧。
参照图3,所述的提取关键帧图像特征具体包括以下步骤:
(2.1)将通过读取大量图片训练深度学习M模型来提取图片特征;
(2.2)将提取的关键帧K输入深度学习模型M中得到关键帧特征Fe。
所述的M模型为ResNet训练图像分类模型,在ResNet训练图像分类模型去除输出层,只保留提取图片抽象特征的主干部分。
参照图4,所述使用关键帧生成视频指纹具体包括以下步骤:
(3.1)从关键帧特征Fe中挑选每一帧中较明显的特征Fec;
(3.2)组合挑选出的特征Fec得到视频指纹向量F。
通过M模型提取关键帧特征Fe后,不同特征有权重,所述较明显的特征Fec为权重分布靠前的特征,将各关键帧的Fec进行向量相加,成为指纹向量F。
参照图5,所述的对比视频指纹具体包括以下步骤:
A和B分别为两个视频的指纹向量;
(4.2)根据余弦相似度S与设定阈值的比较判断是否相似,若大于阈值则判断为相似视频,若小于阈值判断为不相似视频。
本实施例中设定的阈值为0.6,可以通过测试数据,计算在不同阈值情况下的指标情况(查准率、召回率等),实际可根据需求选择不同阈值。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方案,实际的结构并不局限于此。所以本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (8)
1.一种基于深度学习的视频对比方法,其特征在于,其包括以下步骤:
(1)视频关键帧提取;
(2)提取关键帧图像特征;
(3)使用关键帧生成视频指纹;
(4)比对视频指纹,判断是否为重复视频。
2.根据权利要求1所述的基于深度学习的视频对比方法,其特征在于,所述的视频关键帧提取具体包括以下步骤:
(1.1)读取视频文件V;
(1.2)提取视频帧序列L;
(1.3)将视频帧序列L转换到LUV颜色空间为LT;
(1.4)根据LT计算每一帧与相邻帧的颜色帧差D;
(1.5)根据颜色帧差D进行倒叙排列;
(1.6)取前一定数量帧作为关键帧K。
3.根据权利要求1所述的基于深度学习的视频对比方法,其特征在于,所述的提取关键帧图像特征具体包括以下步骤:
(2.1)将通过读取大量图片训练深度学习M模型来提取图片特征;
(2.2)将提取的关键帧K输入深度学习模型M中得到关键帧特征Fe。
4.根据权利要求1所述的基于深度学习的视频对比方法,其特征在于,所述使用关键帧生成视频指纹具体包括以下步骤:
(3.1)从关键帧特征Fe中挑选每一帧中较明显的特征Fec;
(3.2)组合挑选出的特征Fec得到视频指纹向量F。
6.根据权利要求2所述的基于深度学习的视频对比方法,其特征在于,所述关键帧的数量为每10分钟视频取64帧。
7.根据权利要求3所述的基于深度学习的视频对比方法,其特征在于,所述的M模型为ResNet训练图像分类模型。
8.根据权利要求4所述的基于深度学习的视频对比方法,其特征在于,通过M模型提取关键帧特征Fe后,不同特征有权重,所述较明显的特征Fec为权重分布靠前的特征,将各关键帧的Fec进行向量相加,成为指纹向量F。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110139926.9A CN112800985A (zh) | 2021-02-02 | 2021-02-02 | 一种基于深度学习的视频对比方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110139926.9A CN112800985A (zh) | 2021-02-02 | 2021-02-02 | 一种基于深度学习的视频对比方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112800985A true CN112800985A (zh) | 2021-05-14 |
Family
ID=75813547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110139926.9A Pending CN112800985A (zh) | 2021-02-02 | 2021-02-02 | 一种基于深度学习的视频对比方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800985A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593464A (zh) * | 2013-11-25 | 2014-02-19 | 华中科技大学 | 基于视觉特征的视频指纹检测及视频序列匹配方法及系统 |
CN104866616A (zh) * | 2015-06-07 | 2015-08-26 | 中科院成都信息技术股份有限公司 | 监控视频目标搜索方法 |
CN110278449A (zh) * | 2019-06-26 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 一种视频检测方法、装置、设备及介质 |
CN110688524A (zh) * | 2019-09-24 | 2020-01-14 | 深圳市网心科技有限公司 | 视频检索方法、装置、电子设备及存储介质 |
-
2021
- 2021-02-02 CN CN202110139926.9A patent/CN112800985A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593464A (zh) * | 2013-11-25 | 2014-02-19 | 华中科技大学 | 基于视觉特征的视频指纹检测及视频序列匹配方法及系统 |
CN104866616A (zh) * | 2015-06-07 | 2015-08-26 | 中科院成都信息技术股份有限公司 | 监控视频目标搜索方法 |
CN110278449A (zh) * | 2019-06-26 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 一种视频检测方法、装置、设备及介质 |
CN110688524A (zh) * | 2019-09-24 | 2020-01-14 | 深圳市网心科技有限公司 | 视频检索方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8203554B2 (en) | Method and apparatus for identifying visual content foregrounds | |
JP4725690B2 (ja) | 映像識別子抽出装置 | |
Liu et al. | Key frame extraction from MPEG video stream | |
CN110599486A (zh) | 一种视频抄袭的检测方法及系统 | |
Wu et al. | Reversible data hiding with image contrast enhancement based on two-dimensional histogram modification | |
CN109948721B (zh) | 一种基于视频描述的视频场景分类方法 | |
CN110738128A (zh) | 一种基于深度学习的重复视频检测方法 | |
CN106503112B (zh) | 视频检索方法和装置 | |
CN110457996B (zh) | 基于vgg-11卷积神经网络的视频运动对象篡改取证方法 | |
JP2009043265A (ja) | 字幕領域抽出装置、字幕領域抽出方法および字幕領域抽出プログラム | |
CN111369548A (zh) | 一种基于生成对抗网络的无参考视频质量评价方法及装置 | |
CN117056863B (zh) | 一种基于多模态数据融合的大数据处理方法 | |
CN101464909B (zh) | 一种快速鲁棒的近相同视频检测和排除方法 | |
CN106375771A (zh) | 图像特征匹配方法和装置 | |
Lu et al. | Steganalysis of content-adaptive steganography based on massive datasets pre-classification and feature selection | |
Li et al. | Coverless Video Steganography Based on Frame Sequence Perceptual Distance Mapping. | |
Dai et al. | HEVC video steganalysis based on PU maps and multi-scale convolutional residual network | |
KR101347933B1 (ko) | 대조 가중 정보 추출 장치 | |
CN112800985A (zh) | 一种基于深度学习的视频对比方法 | |
CN110674337A (zh) | 一种音像图文识别系统 | |
Madake et al. | Image Tampering Detection Using Error Level Analysis and Metadata Analysis | |
EP4275152A1 (en) | Method of training a neural network configured for converting 2d images into 3d models | |
US20170103285A1 (en) | Method and device for detecting copies in a stream of visual data | |
Azarian-Pour et al. | An automatic jpeg ghost detection approach for digital image forensics | |
Tigora et al. | Image Color Reduction Using Iterative Refinement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210514 |
|
RJ01 | Rejection of invention patent application after publication |