CN117911410A - 一种视频对象移除篡改检测方法及系统 - Google Patents
一种视频对象移除篡改检测方法及系统 Download PDFInfo
- Publication number
- CN117911410A CN117911410A CN202410311048.8A CN202410311048A CN117911410A CN 117911410 A CN117911410 A CN 117911410A CN 202410311048 A CN202410311048 A CN 202410311048A CN 117911410 A CN117911410 A CN 117911410A
- Authority
- CN
- China
- Prior art keywords
- layer
- video
- video object
- dimensional
- object removal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 117
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 24
- 239000010410 layer Substances 0.000 claims description 147
- 238000011176 pooling Methods 0.000 claims description 34
- 238000013527 convolutional neural network Methods 0.000 claims description 30
- 230000002457 bidirectional effect Effects 0.000 claims description 26
- 230000004913 activation Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 15
- 239000002356 single layer Substances 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 230000007787 long-term memory Effects 0.000 claims description 7
- 230000009977 dual effect Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- XOJVVFBFDXDTEG-UHFFFAOYSA-N Norphytane Natural products CC(C)CCCC(C)CCCC(C)CCCC(C)C XOJVVFBFDXDTEG-UHFFFAOYSA-N 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004374 forensic analysis Methods 0.000 description 1
- 238000005242 forging Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种视频对象移除篡改检测方法及系统,涉及信息安全计算机视觉的技术领域,方法包括获取视频对象移除篡改检测数据集;对所述视频对象移除篡改检测数据集进行预处理,得到裁剪数据集;对所述裁剪数据集进行预处理,得到所述裁剪数据集的高频信息;将所述高频信息作为预设的视频对象移除篡改检测模型的输入,对所述视频对象移除篡改检测模型进行训练,得到训练好的视频对象移除篡改检测模型,所述视频对象移除篡改检测模型用于输出待检测视频是否存在对象移除篡改的判定结果。本发明有效地提取视频的时空特征,增强了视频中对象的关注度和区分度,提高了视频对象移除篡改检测准确率和效率。
Description
技术领域
本发明涉及信息安全计算机视觉的技术领域,特别涉及一种视频对象移除篡改检测方法及系统。
背景技术
现代设备如手机、数码相机和CD机等能随时生成和记录数字图像和视频数据,数字图像和视频数据易被复制和修改,得到伪造,影响人们对视频内容的理解,导致这些内容在法庭上被用作证据时,因难以验证其真实性和来源,无法取得所有人的信任,因此,研究视频伪造取证具有重要意义。
目前,研究者致力于通过取证分析来验证视频证据的真实性,并检测其可能发生的任何变化或伪造,相比基于双压缩、插入帧、删除帧、复制帧的视频伪造取证研究,视频对象伪造取证研究更加复杂和重要,然而视频伪造和检测直到最近才引起人们的关注,这种视频对象移除篡改方法是在视频的空间域中进行的,可以将其视为图像的复制移动或拼接伪造,但基于图像的伪造检测技术并不适合应用在视频的每一帧,因为它们无法充分利用压缩视频中的时间信息。
随着深度学习技术的发展,视频对象移除篡改检测技术得到了革命性的改进,这得益于深度神经网络能够提取特定于问题的复杂高维特征,以有效地表示所需的信息,如针对基于深度学习的视频对象移除篡改检测,有人提出了从运动残差特征中提取基于高频信号的高维特征,并使用神经网络来确定视频帧是否被篡改;有人提出了一种使用CNN检测视频篡改并在伪造帧中定位伪造区域的时空方法,使用运动残差来训练所呈现的网络;有人提出了一种基于空间丰富模型和三维卷积的时空三流网络,该网络提供了分支;有人提出了一个视频伪造定位框架,该框架通过融合一组独立特征描述符衍生的信息来验证视频帧之间和帧内编码轨迹的自一致性,特征提取步骤是通过一个可解释的卷积神经网络结构进行的;还有人提出了一个基于对象的视频伪造检测的三阶段混合深度学习框架,该框架在一个统一的模型中建模目标视频的帧内和帧间固有属性;但这些方法忽视了视频中对象的关注度和区分度,依赖于复杂的时空特征提取技术,增加了计算复杂度,导致检测准确率和效率低。
发明内容
为解决上述现有技术存在视频对象移除篡改检测准确率和效率低的问题,本发明提出了一种视频对象移除篡改检测方法及系统,有效地提取视频的时空特征,增强了视频中对象的关注度和区分度,提高了视频对象移除篡改检测准确率和效率。
为了达到上述技术效果,本发明的技术方案如下:
一种视频对象移除篡改检测方法,包括以下步骤:
S1.获取视频对象移除篡改检测数据集;
S2.对所述视频对象移除篡改检测数据集进行预处理,得到裁剪数据集;
S3.对所述裁剪数据集进行预处理,得到所述裁剪数据集的高频信息;
S4.将所述高频信息作为预设的视频对象移除篡改检测模型的输入,对所述视频对象移除篡改检测模型进行训练,得到训练好的视频对象移除篡改检测模型,所述视频对象移除篡改检测模型用于输出待检测视频是否存在对象移除篡改的判定结果。
优选地,S1所述视频对象移除篡改检测数据集包括由原始帧组成的原始视频和由原始帧和伪造帧组成的篡改视频。
优选地,S2所述对所述视频对象移除篡改检测数据集进行预处理,包括:
S21.对所述原始视频和所述篡改视频进行裁剪,得到具有相同帧数数量、相同尺寸大小和相同颜色通道数量的原始裁剪视频和篡改裁剪视频;
S22.对所述篡改裁剪视频进行过采样,得到正样本,并对所述原始裁剪视频进行欠采样,得到负样本,其中所述正样本和负样本数量相同;
S23.将所述正样本和负样本组成所述裁剪数据集。
优选地,S3所述对所述裁剪数据集进行预处理,包括:将所述裁剪数据集输入至SRM高通滤波器,利用所述SRM高通滤波器提取所述裁剪数据集的高频信息。
优选地,S4所述视频对象移除篡改检测模型包括若个分支并行的三维卷积神经网络、双向解码器层、全连接层和激活函数层,所述三维卷积神经网络连接所述双向解码器层,所述双向解码器层连接所述全连接层,所述全连接层连接所述激活函数层;每一个三维卷积神经网络均包括依次连接的三维卷积密集网络层、混合自注意力机制模块和二维卷积神经网络层。
优选地,所述三维卷积密集网络层包括具有双输入通道的跨阶段部分块,所述跨阶段部分块包括并行的第一分支网络和第二分支网络,在对所述视频对象移除篡改检测模型进行训练阶段,所述高频信息经双输入通道分别输入至所述第一分支网络和第二分支网络,所述第一分支网络对输入所述第一分支网络的高频信息进行两层密集连接卷积,得到第一输出特征,所述第二分支网络对输入所述第二分支网络的高频信息进行两层密集连接卷积,得到第二输出特征,将所述第一输出特征与所述第二输出特征进行拼接,得到特征拼接合并结果。
优选地,所述混合自注意力机制模块包括并行的空间自注意力子模块和通道自注意力子模块,在对所述视频对象移除篡改检测模型进行训练阶段,将所述特征拼接合并结果作为所述空间自注意力子模块的输入特征图,对输入至所述空间自注意力子模块的输入特征图和所述通道自注意力子模块进行分别进行特征提取处理,分别得到噪声特征的空间注意力矩阵和通道注意力矩阵,将所述空间注意力矩阵和通道注意力矩阵进行融合,由所述混合自注意力机制模块输出融合特征至所述二维卷积神经网络层。
优选地,所述二维卷积神经网络层包括依次连接的第一二维卷积层、第一二维池化层、第二二维卷积层、第二二维池化层、第三二维卷积层和全局平均池化层,所述第一二维卷积层的卷积核大小为3×3,所述第二二维卷积层和所述第三二维卷积层的卷积核大小均为1×1,所述第一二维池化层、第二二维池化层和第三二维池化层的池化步长为5×5,将所述融合特征输入至所述第一二维卷积层,所述第一二维卷积层接收所述融合特征,输出第一特征图至所述第一二维池化层,所述第一二维池化层接收所述第一特征图,输出第二特征图至所述第二二维卷积层,所述第二二维卷积层接收所述第二特征图,输出第三特征图至所述第二二维池化层,所述第二二维池化层接收所述第三特征图,输出第四特征图至所述第三二维卷积层,所述第三二维卷积层接收所述第四特征图,输出第五特征图至所述全局平均池化层,所述全局平均池化层接收所述第五特征图,将所述第五特征图转化为128维向量输入至所述双向解码器层。
优选地,所述双向解码器层包括单层双向长短期记忆网络,所述128维向量输入至所述单层双向长短期记忆网络,所述单层双向长短期记忆网络接收所述128维向量,输出所述单层双向长短期记忆网络两个方向上的输出状态之和至所述全连接层,将所述全连接层的输出结果作为所述激活函数层的输入,由所述激活函数层输出篡改视频中的伪造帧序列,所述伪造帧序列用于判断待检测视频是否存在对象移除篡改。
本发明还提出了一种视频对象移除篡改检测系统,包括:
获取模块,用于获取视频对象移除篡改检测数据集;
第一预处理模块,用于对所述视频对象移除篡改检测数据集进行预处理,得到裁剪数据集;
第二预处理模块,用于对所述裁剪数据集进行预处理,得到所述裁剪数据集的高频信息;
检测模块,用于将所述高频信息作为预设的视频对象移除篡改检测模型的输入,对所述视频对象移除篡改检测模型进行训练,得到训练好的视频对象移除篡改检测模型,所述视频对象移除篡改检测模型用于输出待检测视频是否存在对象移除篡改的判定结果。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种视频对象移除篡改检测方法及系统,首先对获取的视频对象移除篡改检测数据集进行预处理,目的是保证视频对象移除篡改检测数据集类别平衡,得到裁剪数据集,避免影响视频对象移除篡改检测模型的训练效果;然后对所述裁剪数据集进行预处理,得到所述裁剪数据集的高频信息,利用高频信息对所述视频对象移除篡改检测模型进行训练,使得训练好的视频对象移除篡改检测模型能够有效地提取视频的时空特征,增强了视频中对象的关注度和区分度,提高了视频对象移除篡改检测准确率和效率。
附图说明
图1表示本发明实施例中提出的一种视频对象移除篡改检测方法的流程框图;
图2表示本发明实施例中提出的对视频对象移除篡改检测数据集的预处理流程框图
图3表示本发明实施例中提出的视频对象移除篡改检测模型的结构图;
图4表示本发明实施例中提出的C3D DenseNet网络结构图;
图5表示本发明实施例中提出的混合自注意力模块结构图;
图6表示本发明实施例中提出的卷积自注意力模块结构图;
图7表示本发明实施例中提出的双向长短期记忆网络结构图;
图8表示本发明实施例中提出的一种视频对象移除篡改检测系统结构图。
810.获取模块;820.第一预处理模块;830.第二预处理模块;840.检测模块。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的;
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,本实施例提出了一种视频对象移除篡改检测方法,包括以下步骤:
S1.获取视频对象移除篡改检测数据集;
在S1中,所述视频对象移除篡改检测数据集包括由原始帧组成的原始视频和由原始帧和伪造帧组成的篡改视频,所述视频对象移除篡改检测数据集中的原始帧数是伪造帧数的数倍,所述视频对象移除篡改检测数据集的分辨率为1280×720;
S2.对所述视频对象移除篡改检测数据集进行预处理,得到裁剪数据集;
在S2中,参见图2,所述对所述视频对象移除篡改检测数据集进行预处理,包括:
S21.对所述原始视频和所述篡改视频进行裁剪,得到具有相同帧数数量、相同尺寸大小和相同颜色通道数量的原始裁剪视频和篡改裁剪视频;
在S21中,对1280×720的原始视频和篡改视频裁剪,得到的原始裁剪视频和篡改裁剪视频的帧数数量为5,尺寸大小为720×720,颜色通道数量为3,即得到
规格为5×(720×720)×3的原始裁剪视频和篡改裁剪视频;
S22.对所述篡改裁剪视频进行过采样,得到正样本,并对所述原始裁剪视频进行欠采样,得到负样本,其中所述正样本和负样本数量相同;
在S22中,提出一种非对称采样方法,对5×(720×720)×3的原始裁剪视频进行欠采样,原始裁剪视频连续5帧中的中间帧为原始帧,对原始裁剪视频连续5帧中采用相同的步幅采样3次;对5×(720×720)×3的篡改裁剪视频进行过采样,篡改裁剪视频连续5帧中的中间帧为伪造帧,对篡改裁剪视频连续5帧中采用相同的步幅采样13次;每一次裁剪操作都是5帧对齐,原始裁剪视频和篡改裁剪视频的标签被设置为五帧中的中间帧标签,然后就能得到一个大规模的、平衡的正、负样本,以适应深度学习算法,通过这种非对称采样方法为视频对象移除篡改检测模型的训练生成足够的数据样本。验证集的裁剪方法与训练集的裁剪方法相同,测试集的裁剪方法与原始帧相同。
S23.将所述正样本和负样本组成所述裁剪数据集;
S3.对所述裁剪数据集进行预处理,得到所述裁剪数据集的高频信息;
在S3中,所述对所述裁剪数据集进行预处理,包括:将所述裁剪数据集输入至SRM高通滤波器,利用所述SRM高通滤波器提取所述裁剪数据集的高频信息,并所述高频信息切成三个数据流分支;所述SRM高通滤波器所使用的3个卷积核参数如下:
S4.将所述高频信息作为预设的视频对象移除篡改检测模型的输入,对所述视频对象移除篡改检测模型进行训练,得到训练好的视频对象移除篡改检测模型,所述视频对象移除篡改检测模型用于输出待检测视频是否存在对象移除篡改的判定结果。
在S4中,参见图3,所述高频信息切成三个数据流分支,所述三条数据流输入视频对象移除篡改检测模型,所述视频对象移除篡改检测模型包括三个分支并行的三维卷积神经网络C3D、双向解码器层、全连接层和激活函数层,三条数据流会进入三个分支并行的三维卷积神经网络C3D,三个分支并行的三维卷积神经网络C3D共享权值以保证编码的统一三个分支并行的三维卷积神经网络C3D提取连续三帧在时空域的高频残差特征,编码为三个128维向量;所述三维卷积神经网络C3D连接所述双向解码器层,所述双向解码器层包括单层双向长短期记忆网络BiLSTM,双向解码器层输出是单层双向长短期记忆网络BiLSTM两个方向上的输出状态之和;所述双向解码器层连接所述全连接层,所述全连接层连接所述激活函数层,所述激活函数层为SoftMax层,利用全连接层和SoftMax层将三个128维向量结果转换为二元分类问题,得到篡改视频中伪造帧的序列,所述伪造帧序列用于判断待检测视频是否存在对象移除篡改;每一个三维卷积神经网络C3D均包括依次连接的三维卷积密集网络层、混合自注意力机制模块和二维卷积神经网络层。
需要特别声明的是,构建三个分支并行的三维卷积神经网络C3D,三个三维卷积神经网络C3D共享相同的输入,输入是由SRM高通滤波器提取的高频信息组成的三通道图像,第一个三维卷积神经网络C3D只处理原始视频的原始帧这一通道,以提取原始特征;第二个三维卷积神经网络C3D只处理SRM高通滤波器提取的噪声特征图这一通道,以提取噪声特征;第三个三维卷积神经网络C3D只处理SOMR这一通道,以提取运动特征,所述原始特征、所述噪声特征和所述运动特征均为128维向量,所述128维向量依次输入至双向解码器层、全连接层和激活函数层,最终输出篡改视频中的伪造帧序列,所述伪造帧序列用于判断待检测视频是否存在对象移除篡改;
在本实施例中,首先对获取的视频对象移除篡改检测数据集进行预处理,目的是保证视频对象移除篡改检测数据集类别平衡,得到裁剪数据集,避免影响视频对象移除篡改检测模型的训练效果;然后对所述裁剪数据集进行预处理,得到所述裁剪数据集的高频信息,利用高频信息对所述视频对象移除篡改检测模型进行训练,使得训练好的视频对象移除篡改检测模型能够有效地提取视频的时空特征,增强了视频中对象的关注度和区分度,提高了视频对象移除篡改检测准确率和效率。
实施例2
参见图3,所述三维卷积神经网络C3D均包括依次连接的三维卷积密集网络层、混合自注意力机制模块和二维卷积神经网络层,三维卷积密集网络层设有C3D DenseNet网络,C3D DenseNet网络是一个结合C3D网络和DenseNet网络特点的三维卷积密集网络,参见图4,所述三维卷积密集网络层包括具有双输入通道的跨阶段部分块CSP_Block,所述跨阶段部分块CSP_Block包括并行的第一分支网络和第二分支网络,第一分支网络和第二分支网络在不同阶段进行交叉合并,形成一个部分连接的网络,即C3D DenseNet网络,在对所述视频对象移除篡改检测模型进行训练阶段,所述高频信息经双输入通道分别输入至所述第一分支网络和第二分支网络,所述第一分支网络对输入所述第一分支网络的高频信息进行两层密集连接卷积,得到第一输出特征,所述第二分支网络对输入所述第二分支网络的高频信息进行两层密集连接卷积,得到第二输出特征,将所述第一输出特征与所述第二输出特征进行拼接,得到特征拼接合并结果。
每个跨阶段部分块CSP_Block的第一分支网络首先用3*3*3的卷积核,步长为2将输入数据卷积1次,然后用2*5*5的卷积核池化,然后用相同3*3*3的卷积核和步长2再进行一次三维卷积和池化,最后将其重塑。第二分支网络的操作和参数与第一分支网络一致,也是用3*3*3的卷积核,步长为2将输入数据卷积1次,然后用2*5*5的卷积核池化,然后用相同3*3*3的卷积核和步长2再进行一次三维卷积和池化;随后第一分支网络与第二分支网络通过concate拼接操作合并,随后将特征拼接合并结果送入到混合自注意力模块二维卷积实现降维。
所述混合自注意力机制模块包括并行的空间自注意力子模块和通道自注意力子模块,在对所述视频对象移除篡改检测模型进行训练阶段,参见图5,将所述特征拼接合并结果作为所述空间自注意力子模块的输入特征图,对输入至所述空间自注意力子模块的输入特征图和所述通道自注意力子模块进行分别进行特征提取处理,分别得到噪声特征的空间注意力矩阵和通道注意力矩阵,具体为:
对输入至所述空间自注意力子模块的输入特征图进行特征提取处理,包括:
从输入特征图的每个位置上取得自注意力的查询Q、键K和值V;通过点积和归一化得到每个位置对其他位置的注意力权重,最后通过加权求和得到空间注意力矩阵,具体操作如下:
S41.将输入至所述空间自注意力子模块的输入特征图F的宽、高和通道数存入一个变量中,并利用三个并行的第一卷积层,三个并行的第一卷积层的卷积核分别为2*2,2*2,16*16,对输入至所述空间自注意力子模块的输入特征图F进行特征提取,生成第一空间特征F 1、第二空间特征F 2和第三空间特征F 3;
S42.将所述第一空间特征F 1重塑为第一重塑空间特征,其中/>表示输入特征图的宽,/>表示输入特征图的高,/>将表示通道数,/>表示维度集合,并将所述第一重塑空间特征/>进行转置,得到第一转置空间特征/>;
S43.将所述第二空间特征F 2重塑为第二重塑空间特征;
S44.将所述第一转置空间特征和第二重塑空间特征/>进行Sigmoid激活函数操作,生成空间特征图/>;
S45.将所述第三空间特征F 3重塑为第三重塑空间特征 ;
S46.将所述第三重塑空间特征和所述空间特征图/>的乘积进行重塑,其中/>表示第一学习参数,得到第四重塑空间特征/>;
S47.将所述第四重塑空间特征与输入特征图F进行融合,得到噪声特征的空间注意力矩阵/>的计算表达式如下:
;
对输入至所述通道自注意力子模块的输入特征图进行特征提取处理,包括:
从输入特征图的每个位置上取得自注意力的查询Q、键K和值V;通过点积和归一化得到每个位置对其他位置的注意力权重,最后通过加权求和得到通道注意力矩阵,具体操作如下:
S51.将输入至所述通道自注意力子模块的输入特征图F的宽、高和通道数存入一个变量中,利用三个并行的第二卷积层,对输入至所述通道自注意力子模块的输入特征图F进行特征提取,生成第一通道特征f 1、第二通道特征f 2和第三通道特征f 3;
S52.将所述第一通道特征f 1重塑为第一重塑通道特征,并将所述第一重塑通道特征/>进行转置,得到第一转置通道特征/>;
S53.将所述第二通道特征f 2重塑为第二重塑通道特征;
S54.将所述第一转置通道特征和第二重塑通道特征/>进行Sigmoid激活函数操作,生成通道特征图/>;
S55.将所述第三通道特征f 3重塑为第三重塑通道特征 ;
S56.将所述第三重塑通道特征和所述通道特征图/>的乘积进行重塑,其中/>表示第二学习参数,得到第四重塑空间特征/>;
S57.将所述第四重塑空间特征与输入特征图F进行融合,得到噪声特征的通道注意力矩阵/>的计算表达式如下:
;
将所述空间注意力矩阵和通道注意力矩阵/>进行融合,由所述混合自注意力机制模块输出融合特征/>至所述二维卷积神经网络层。
其中,将混合自注意力机制模块和三维卷积密集网络层结合起来,构建一个卷积自注意力模块,参见图6,具体包括:
首先三维卷积密集网络层中的C3D DenseNet网络的输出结果作为混合自注意力子模块的输入特征;
然后三维卷积密集网络层中的C3D DenseNet网络的输出结果分两个分支输入,C3D DenseNet网络的输出结果作为第一个分支,第二个分支以C3D DenseNet网络的输出结果作为混合自注意力子模块的输入特征输出的结果,其中第二个分支在通过混合自注意力模块之前经过两层卷积核为1*1以及卷积核为3*3的二维卷积后再通过所述混合自注意力子模块进一步提取特征,然后再与第一个分支合并,即得到卷积自注意力模块,最后通过二维卷积神经网络层,从而更加关注篡改特征。
所述二维卷积神经网络层包括依次连接的第一二维卷积层、第一二维池化层、第二二维卷积层、第二二维池化层、第三二维卷积层和全局平均池化层,所述第一二维卷积层的卷积核大小为3×3,所述第二二维卷积层和所述第三二维卷积层的卷积核大小均为1×1,所述第一二维池化层、第二二维池化层和第三二维池化层的池化步长为5×5,将所述融合特征输入至所述第一二维卷积层,所述第一二维卷积层接收所述融合特征,输出第一特征图至所述第一二维池化层,所述第一二维池化层接收所述第一特征图,输出第二特征图至所述第二二维卷积层,所述第二二维卷积层接收所述第二特征图,输出第三特征图至所述第二二维池化层,所述第二二维池化层接收所述第三特征图,输出第四特征图至所述第三二维卷积层,所述第三二维卷积层接收所述第四特征图,输出第五特征图至所述全局平均池化层,所述全局平均池化层接收所述第五特征图,将所述第五特征图转化为128维向量输入至所述双向解码器层。
参见图7,所述双向解码器层包括单层双向长短期记忆网络,所述128维向量输入至所述单层双向长短期记忆网络,所述单层双向长短期记忆网络接收所述128维向量,输出所述单层双向长短期记忆网络两个方向上的输出状态之和至所述全连接层,将所述全连接层的输出结果作为所述激活函数层的输入,由所述激活函数层输出篡改视频中的伪造帧序列,所述伪造帧序列用于判断待检测视频是否存在对象移除篡改。
实施例3
参见图8,本实施例提出了一种视频对象移除篡改检测系统,包括:
获取模块810,用于获取视频对象移除篡改检测数据集;
第一预处理模块820,用于对所述视频对象移除篡改检测数据集进行预处理,得到裁剪数据集;
第二预处理模块830,用于对所述裁剪数据集进行预处理,得到所述裁剪数据集的高频信息;
检测模块840,用于将所述高频信息作为预设的视频对象移除篡改检测模型的输入,对所述视频对象移除篡改检测模型进行训练,得到训练好的视频对象移除篡改检测模型,所述视频对象移除篡改检测模型用于输出待检测视频是否存在对象移除篡改的判定结果。
在本实施例中,首先对获取的视频对象移除篡改检测数据集进行预处理,目的是保证视频对象移除篡改检测数据集类别平衡,得到裁剪数据集,避免影响视频对象移除篡改检测模型的训练效果;然后对所述裁剪数据集进行预处理,得到所述裁剪数据集的高频信息,利用高频信息对所述视频对象移除篡改检测模型进行训练,使得训练好的视频对象移除篡改检测模型能够有效地提取视频的时空特征,增强了视频中对象的关注度和区分度,提高了视频对象移除篡改检测准确率和效率。
实施例4
本实施例对上述实施例提出的一种视频对象移除篡改检测方法进行验证,首先对视频对象移除篡改检测数据集的类型进行选取,视频对象移除篡改检测数据集的类型包括SULFA数据集、REWIND数据集和SYSU-OBJFORG数据集;
SULFA数据集中只有5个视频属于视频对象删除篡改的类型,每个视频的长度约为10秒,分辨率为320×240,帧率为30 FPS;
REWIND数据集基于SULFA数据集,包括十个原始视频和十个复制粘贴篡改视频,帧率和分辨率与SULFA数据集相同,SULFA数据集和REWIND数据集可用的数据量太小,不利于深度学习方法进行训练。
SYSU-OBJFORG数据集是Chen等人报告的视频对象移除篡改的最海量数据集,包括100个原始视频和100个与原始视频对应的篡改视频,所有这些都来自静态监控摄像头,分别为3 Mbits/s,每个视频的长度约为11秒,分辨率为1280×720 (720p)和25FPS的帧速率。所有视频都以H.264/MPEG-4 编码格式压缩。每个伪造的视频包含一个或两个伪造的片段,持续时间从 1 到 5 秒。篡改质量相对较高,因此篡改痕迹对肉眼完全不可见。所有伪造的视频剪辑都用与相应原始视频剪辑相同的参数重新压缩。经过数据采样后,数据量可以满足上述实施例提出的一种视频对象移除篡改检测方法;因此,本实施例选取视频对象移除篡改检测数据集为SYSU-OBJFORG数据集,来执行所有的工作。为了使每一帧的大部分信息,本实施例将所有视频解压缩到png图像格式进行处理。
在具体实施过程中,对所述视频对象移除篡改检测模型进行训练的时态伪造检测算法是基于TensorFlow框架实现,运行在Ubuntu系统上,使用NVIDIA GeForce GTX3090GPU,使用Adam作为优化器,将训练过程的学习率设置为0.001,动量设置为0.9,L2正则化参数设置为0.0005,参数初始化标准差设置为0.1。
在所述视频对象移除篡改检测模型的训练阶段,批大小设置为32,即每次送入所述视频对象移除篡改检测模型的图像块的维数为32×5×(720×720)×3;
在测试阶段,批大小设置为3,即每次送入所述视频对象移除篡改检测模型的图像块的维数为3×5×(720×720)×3,因此,每一帧的分类结果是由这三组数据块的分类结果决定的,具体分类策略如下:如果三个数据片都被预测为原始帧,那么中间的帧被检测为原始帧;否则,则被检测为伪造帧。
对于时态伪造检测的测试评估指标,使用以下7个评估指标:
其中,PFACC(pristine frame accuracy)是原始帧分类正确率, FFACC(forgedframe accuracy)是篡改帧分类正确率,HFACC(hybrid frame accuracy)是混合帧分类正确率,FACC(frame accuracy)是所有帧分类正确率,Precision为精确率,Recall为召回率,F1 Score为F1分数,Precision、Recall和F1值可以通过计算得出。TP(true positive)是篡改帧正确分类数量,FP(false positive)是原始帧错误分类数量,FN(false negative)篡改帧错误分类数量,#表示集合元素的数量。在这项研究中,在测试过程中使用了不平衡的数据。因此,使用平均召回率和精度。
表1对比实验表
在SYSU-OBJFORG数据集上验证了本发明提出的视频对象移除篡改检测方法,在100对视频中,随机划分了训练集、验证集和测试集,进行了多次实验,时间伪造检测的测试结果如表1所示。
与最近多种先进的深度学习方法进行比较,本发明所提方法具有更好的性能,除了PFACC和HFACC,所有评价指标均达到最高,全部帧的分类准确率达到 99.34%。实验结果与STN相比,PFACC提高0.18%,FFACC提高 2.53%,Precision 提高0.31%,F1 值提高 1.44%,Recall提高了2.57%,特别是在 FFACC、Recall 和 F1 值中提升明显,这表明本发明方法不仅对篡改帧分类有很高的准确率,并且对原始帧分类也有很高的准确率。PFACC略微低于CC-JRM,考虑到可能是原始帧样本太相似,容易过拟合,后期可以加大原始帧的样本。并且可以看到,几乎所有方法在检测原始帧 (PFACC) 时都达到了接近 100% 的准确率,提升的空间已经很小。
表2消融实验表
从表2可以看出,在没有自注意力模块的帮助下,C3D DenseNet已然能保持比较好的性能,FFACC相较于STN提升了0.93%,用C3D DenseNet作为三维卷神经网络C3D的第一部分骨干网络,它通过将特征图分割为两部分,并在不同阶段进行交叉合并,来增强网络的学习能力和梯度流动,有效解决了三维卷神经网络C3D络计算量大容易梯度消失的问题。
多分支网络同样也给三维卷神经网络C3D带来了许多好处,相较于单分只的三维卷神经网络C3D,多分支能提供更多的特征来给网络决策,相应的提升网络的鲁棒性,提高准确率。
最后是混合自注意力模块的引入,可以看出能显著提升各项指标的性能,自注意力可以有效地捕获空间和通道维度上的噪声特征依赖关系。在伪造定位任务中常常大放异彩,进一步探索提出的方法在更广泛的多媒体取证应用中的可行性,例如视频伪造空域定位和Deepfake是未来值得挑战的难题。
虽然本发明已经采取了一系列措施来提高混合帧情况下的测试精度,但HFACC仍然远低于其他度量值。一个可能合理的解释是,含有原始帧和伪造帧的混合帧分支所获得的128维向量的值可能是随机的、无意义的,这可能会对BiLSTM的预测产生一定的误导作用。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种视频对象移除篡改检测方法,其特征在于,包括以下步骤:
S1.获取视频对象移除篡改检测数据集;
S2.对所述视频对象移除篡改检测数据集进行预处理,得到裁剪数据集;
S3.对所述裁剪数据集进行预处理,得到所述裁剪数据集的高频信息;
S4.将所述高频信息作为预设的视频对象移除篡改检测模型的输入,对所述视频对象移除篡改检测模型进行训练,得到训练好的视频对象移除篡改检测模型,所述视频对象移除篡改检测模型用于输出待检测视频是否存在对象移除篡改的判定结果。
2.根据权利要求1所述的视频对象移除篡改检测方法,其特征在于,S1所述视频对象移除篡改检测数据集包括由原始帧组成的原始视频和由原始帧和伪造帧组成的篡改视频。
3.根据权利要求2所述的视频对象移除篡改检测方法,其特征在于,S2所述对所述视频对象移除篡改检测数据集进行预处理,包括:
S21.对所述原始视频和所述篡改视频进行裁剪,得到具有相同帧数数量、相同尺寸大小和相同颜色通道数量的原始裁剪视频和篡改裁剪视频;
S22.对所述篡改裁剪视频进行过采样,得到正样本,并对所述原始裁剪视频进行欠采样,得到负样本,其中所述正样本和负样本数量相同;
S23.将所述正样本和负样本组成所述裁剪数据集。
4.根据权利要求2所述的视频对象移除篡改检测方法,其特征在于,S3所述对所述裁剪数据集进行预处理,包括:将所述裁剪数据集输入至SRM高通滤波器,利用所述SRM高通滤波器提取所述裁剪数据集的高频信息。
5.根据权利要求4所述的视频对象移除篡改检测方法,其特征在于,S4所述视频对象移除篡改检测模型包括若个分支并行的三维卷积神经网络、双向解码器层、全连接层和激活函数层,所述三维卷积神经网络连接所述双向解码器层,所述双向解码器层连接所述全连接层,所述全连接层连接所述激活函数层;每一个三维卷积神经网络均包括依次连接的三维卷积密集网络层、混合自注意力机制模块和二维卷积神经网络层。
6.根据权利要求5所述的视频对象移除篡改检测方法,其特征在于,所述三维卷积密集网络层包括具有双输入通道的跨阶段部分块,所述跨阶段部分块包括并行的第一分支网络和第二分支网络,在对所述视频对象移除篡改检测模型进行训练阶段,所述高频信息经双输入通道分别输入至所述第一分支网络和第二分支网络,所述第一分支网络对输入所述第一分支网络的高频信息进行两层密集连接卷积,得到第一输出特征,所述第二分支网络对输入所述第二分支网络的高频信息进行两层密集连接卷积,得到第二输出特征,将所述第一输出特征与所述第二输出特征进行拼接,得到特征拼接合并结果。
7.根据权利要求6所述的视频对象移除篡改检测方法,其特征在于,所述混合自注意力机制模块包括并行的空间自注意力子模块和通道自注意力子模块,在对所述视频对象移除篡改检测模型进行训练阶段,将所述特征拼接合并结果作为所述空间自注意力子模块的输入特征图,对输入至所述空间自注意力子模块的输入特征图和所述通道自注意力子模块进行分别进行特征提取处理,分别得到噪声特征的空间注意力矩阵和通道注意力矩阵,将所述空间注意力矩阵和通道注意力矩阵进行融合,由所述混合自注意力机制模块输出融合特征至所述二维卷积神经网络层。
8.根据权利要求7所述的视频对象移除篡改检测方法,其特征在于,所述二维卷积神经网络层包括依次连接的第一二维卷积层、第一二维池化层、第二二维卷积层、第二二维池化层、第三二维卷积层和全局平均池化层,所述第一二维卷积层的卷积核大小为3×3,所述第二二维卷积层和所述第三二维卷积层的卷积核大小均为1×1,所述第一二维池化层、第二二维池化层和第三二维池化层的池化步长为5×5,将所述融合特征输入至所述第一二维卷积层,所述第一二维卷积层接收所述融合特征,输出第一特征图至所述第一二维池化层,所述第一二维池化层接收所述第一特征图,输出第二特征图至所述第二二维卷积层,所述第二二维卷积层接收所述第二特征图,输出第三特征图至所述第二二维池化层,所述第二二维池化层接收所述第三特征图,输出第四特征图至所述第三二维卷积层,所述第三二维卷积层接收所述第四特征图,输出第五特征图至所述全局平均池化层,所述全局平均池化层接收所述第五特征图,将所述第五特征图转化为128维向量输入至所述双向解码器层。
9.根据权利要求8所述的视频对象移除篡改检测方法,其特征在于,所述双向解码器层包括单层双向长短期记忆网络,所述128维向量输入至所述单层双向长短期记忆网络,所述单层双向长短期记忆网络接收所述128维向量,输出所述单层双向长短期记忆网络两个方向上的输出状态之和至所述全连接层,将所述全连接层的输出结果作为所述激活函数层的输入,由所述激活函数层输出篡改视频中的伪造帧序列,所述伪造帧序列用于判断待检测视频是否存在对象移除篡改。
10.一种视频对象移除篡改检测系统,其特征在于,包括:
获取模块,用于获取视频对象移除篡改检测数据集;
第一预处理模块,用于对所述视频对象移除篡改检测数据集进行预处理,得到裁剪数据集;
第二预处理模块,用于对所述裁剪数据集进行预处理,得到所述裁剪数据集的高频信息;
检测模块,用于将所述高频信息作为预设的视频对象移除篡改检测模型的输入,对所述视频对象移除篡改检测模型进行训练,得到训练好的视频对象移除篡改检测模型,所述视频对象移除篡改检测模型用于输出待检测视频是否存在对象移除篡改的判定结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410311048.8A CN117911410B (zh) | 2024-03-19 | 2024-03-19 | 一种视频对象移除篡改检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410311048.8A CN117911410B (zh) | 2024-03-19 | 2024-03-19 | 一种视频对象移除篡改检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117911410A true CN117911410A (zh) | 2024-04-19 |
CN117911410B CN117911410B (zh) | 2024-06-14 |
Family
ID=90697206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410311048.8A Active CN117911410B (zh) | 2024-03-19 | 2024-03-19 | 一种视频对象移除篡改检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117911410B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111212291A (zh) * | 2020-01-14 | 2020-05-29 | 广东工业大学 | 基于dfl-cnn网络的视频帧内对象移除篡改检测方法 |
CN112333452A (zh) * | 2020-10-19 | 2021-02-05 | 杭州电子科技大学 | 一种基于深度学习的视频对象移除篡改时空域定位方法 |
CN114693607A (zh) * | 2022-03-09 | 2022-07-01 | 华南理工大学 | 基于多域块特征标志点配准的篡改视频检测方法及系统 |
-
2024
- 2024-03-19 CN CN202410311048.8A patent/CN117911410B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111212291A (zh) * | 2020-01-14 | 2020-05-29 | 广东工业大学 | 基于dfl-cnn网络的视频帧内对象移除篡改检测方法 |
CN112333452A (zh) * | 2020-10-19 | 2021-02-05 | 杭州电子科技大学 | 一种基于深度学习的视频对象移除篡改时空域定位方法 |
CN114693607A (zh) * | 2022-03-09 | 2022-07-01 | 华南理工大学 | 基于多域块特征标志点配准的篡改视频检测方法及系统 |
Non-Patent Citations (1)
Title |
---|
白珊山;倪蓉蓉;赵耀;: "基于双通道卷积神经网络的视频目标移除取证算法", 信号处理, no. 09, 30 September 2020 (2020-09-30), pages 43 - 49 * |
Also Published As
Publication number | Publication date |
---|---|
CN117911410B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rana et al. | Deepfakestack: A deep ensemble-based learning technique for deepfake detection | |
CN111311563B (zh) | 一种基于多域特征融合的图像篡改检测方法 | |
Shelke et al. | A comprehensive survey on passive techniques for digital video forgery detection | |
CN112150450B (zh) | 一种基于双通道U-Net模型的图像篡改检测方法及装置 | |
Pang et al. | MRE-Net: Multi-rate excitation network for deepfake video detection | |
CN113361474B (zh) | 基于图像块特征提取的双流网络图像伪造检测方法及系统 | |
CN111325169A (zh) | 基于胶囊网络的深度视频指纹算法 | |
CN114898269B (zh) | 基于眼部特征和人脸特点实现深度伪造融合检测的系统、方法、装置、处理器及其存储介质 | |
CN114694220A (zh) | 一种基于Swin Transformer的双流人脸伪造检测方法 | |
CN118115729B (zh) | 多层次多尺度特征交互的图像伪造区域识别方法及系统 | |
CN117496583B (zh) | 一种可学习局部差异的深度伪造人脸检测定位方法 | |
CN113033379A (zh) | 一种基于双流cnn的帧内取证深度学习方法 | |
Hebbar et al. | Transfer learning approach for splicing and copy-move image tampering detection. | |
Sharma et al. | Deep convolutional neural network with ResNet-50 learning algorithm for copy-move forgery detection | |
Raza et al. | Holisticdfd: Infusing spatiotemporal transformer embeddings for deepfake detection | |
Dai et al. | HEVC video steganalysis based on PU maps and multi-scale convolutional residual network | |
Wen et al. | Video anomaly detection based on cross-frame prediction mechanism and spatio-temporal memory-enhanced pseudo-3D encoder | |
CN117911410B (zh) | 一种视频对象移除篡改检测方法及系统 | |
Kashyap | A novel method for real-time object-based copy-move tampering localization in videos using fine-tuned YOLO V8 | |
Gan et al. | Highly accurate end-to-end image steganalysis based on auxiliary information and attention mechanism | |
Kumari et al. | Video Object Forgery Detection using Image Processing Techniques | |
Doegar et al. | Cloud‐Based Fusion of Residual Exploitation‐Based Convolutional Neural Network Models for Image Tampering Detection in Bioinformatics | |
Sandhya et al. | A Light Weight Depthwise Separable Layer Optimized CNN Architecture for Object-Based Forgery Detection in Surveillance Videos | |
CN115100128A (zh) | 一种基于伪影噪声的深度伪造检测方法 | |
Dhivyaa et al. | Video matting, watermarking and forensics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |