CN112333452B - 一种基于深度学习的视频对象移除篡改时空域定位方法 - Google Patents

一种基于深度学习的视频对象移除篡改时空域定位方法 Download PDF

Info

Publication number
CN112333452B
CN112333452B CN202011116257.5A CN202011116257A CN112333452B CN 112333452 B CN112333452 B CN 112333452B CN 202011116257 A CN202011116257 A CN 202011116257A CN 112333452 B CN112333452 B CN 112333452B
Authority
CN
China
Prior art keywords
frame
tampered
frames
positioning
time domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011116257.5A
Other languages
English (en)
Other versions
CN112333452A (zh
Inventor
姚晔
杨全鑫
张竹溪
张祯
袁理锋
陈临强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011116257.5A priority Critical patent/CN112333452B/zh
Publication of CN112333452A publication Critical patent/CN112333452A/zh
Application granted granted Critical
Publication of CN112333452B publication Critical patent/CN112333452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/89Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving methods or arrangements for detection of transmission errors at the decoder
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于多媒体信息安全技术领域,具体涉及一种基于深度学习的视频对象移除篡改时空域定位方法,包括以下步骤:S1、训练时域定位模型和空域定位模型;S2、将待测视频输入至时域定位模型,以获取篡改帧序列;S3、将篡改帧序列输入空域定位模型,以获取篡改帧中的篡改区域定位结果。本发明可以从被篡改视频中检测出篡改帧,并在每一篡改帧中定位出被篡改区域。

Description

一种基于深度学习的视频对象移除篡改时空域定位方法
技术领域
本发明属于多媒体信息安全技术领域,具体涉及一种基于深度学习的视频对象移除篡改时空域定位方法。
背景技术
近年来,视频监控作为公共甚至私家安防设备已经随处可见,但随着数字视频及图像处理技术的发展,给视频内容的完整性和真实性带来了很大的挑战。这些视频一旦被不法分子操纵,将对公共安全和司法取证造成巨大的影响。通常,这些视频经过高度的篡改操作后,人们通过肉眼无法辨别真假。因此,如何通过计算机来确保视频的真实性和完整性是非常重要的。
数字视频是由具有一定空间结构和语义的视觉对象组成的,对视频对象的添加、删除或修改操作往往直接影响人们对视频内容的理解和认识。相比于双重压缩和基于帧的帧插入、帧删除和帧复制等视频篡改操作,基于视频对象篡改的取证研究更有应用价值和研究意义。而在视频中添加或修改运动对象往往会留下肉眼可见的痕迹,基于视频对象的移除篡改是更容易实现且不容易被肉眼分辨的。因此,针对视频对象被移除篡改的视频取证是非常有必要的。
数字视频取证技术可分为两类:主动取证和被动取证。而主动取证技术通常需要在视频录制的同时在视频中嵌入先验信息来确保视频的真实性,这种技术在很多实际应用中是难以满足的。被动取证则不需要依赖先验信息,而是仅凭数字视频本身来判断是否经过篡改操作。但是,数字视频的被动取证研究仍然处于起步阶段,尚有较大的探索和完善的空间。
本发明提供一种基于视频噪声流和3D CNN的算法,用来对视频对象移除型篡改的篡改区域进行时空域定位。首先,分别训练好篡改区域时域定位模型和空域定位模型;然后通过篡改区域时域定位模型找到视频中那些被篡改过的帧序列;最后使用篡改区域空域定位模型进一步在篡改帧中定位到具体的篡改区域。
发明内容
基于现有技术中存在的上述不足,本发明提供一种基于深度学习的视频对象移除篡改时空域定位方法。
一种基于深度学习的视频对象移除篡改时空域定位方法,包括以下步骤:
S1、训练时域定位模型和空域定位模型;
S2、将待测视频输入至时域定位模型,以获取篡改帧序列;
S3、将篡改帧序列输入空域定位模型,以获取篡改帧中的篡改区域定位结果。
作为优选方案,所述步骤S1中,时域定位模型和空域定位模型的训练,包括以下步骤:
S11、将视频数据集随机划分为制作训练集、验证集和测试集的视频序列;
S12、将制作训练集和验证集的视频序列分别按照时域定位算法和空域定位算法的输入要求制作出相应的训练集和验证集,采用各自的训练集和验证集分别对时域定位算法和空域定位算法进行训练和测试,得到时域定位模型和空域定位模型;
S13、将制作测试集的视频序列按照时域定位算法的输入要求制作测试集,输入至加载时域定位模型的时域定位算法进行测试,以获取篡改帧序列;
S14、将篡改帧序列按照空域定位算法的输入要求制作打包数据集,输入至加载空域定位模型的空域定位算法,以获取篡改帧中篡改区域定位结果。
作为优选方案,所述时域定位算法包括时空三叉戟网络和帧分类神经网络;
所述时空三叉戟网络包括:设定输入形式为连续五帧三通道视频图像数据,首先经过三维最大池化层进行空域尺寸的降维,然后经过SRM层,SRM层为三个参数固定的卷积核构成的三维卷积层,分别输出三种不同的视频帧高频残差信号;最后使用切片操作,将输入时域维度为5的噪声图像进行切片,每连续3帧所产生的噪声图像切片为一个分支流,共切出三个分支流的噪声数据;其中,三维最大池化层步长设置为1×3×3;
时域定位算法输入为裁剪尺寸为5×(720×720)×3的数据块,其中3表示图像的通道数;输入数据经过时空三叉戟网络后将数据切片为3个分支的数据块;
3个分支的数据块输入帧分类神经网络的处理流程如下:3个分支的数据块流入3个权值共享的3D CNN网络结构中,同时提取连续3帧在时空域高频区域的特征,最后统一编码为 128维的向量,使用双向长短期记忆网络BiLSTM来作为解码器,以解码器两个方向的输出状态之和作为解码输出,最后使用全连接层和SoftMax层将结果转化为二分类问题,以达到对篡改帧在视频时域进行定位,获取篡改帧序列。
作为优选方案,所述空域定位算法包括时空三叉戟网络和篡改区域定位神经网络;
所述时空三叉戟网络包括:设定输入形式为连续五帧三通道视频图像数据,首先经过三维最大池化层进行空域尺寸的降维,然后经过SRM层,SRM层为三个参数固定的卷积核构成的三维卷积层,分别输出三种不同的视频帧高频残差信号;最后使用切片操作,将输入时域维度为5的噪声图像进行切片,每连续3帧所产生的噪声图像切片为一个分支流,共切出三个分支流的噪声数据;其中,三维最大池化层步长设置为1×2×2;
空域定位算法输入为进行翻转操作扩充后的连续5帧的篡改帧数据集,输入数据块尺寸大小为5×(720×1280)×3;输入数据经过时空三叉戟网络后数据分为三个分支流;
三个分支流输入篡改区域定位神经网络的处理流程如下:三个分支流通过权值共享的骨干网络3D-ResNet12将特征图在时域空间进行合并操作,三个分支流的特征图分别经过三个相互独立的RPN网络进行篡改区域回归定位。
作为优选方案,所述时空三叉戟网络在时域定位和空域定位中的预测理论基础,包括:在视频移除篡改时域定位中,输入连续五帧中,以中间帧为主帧,以前两帧和后两帧为辅助帧;若连续三帧均为篡改帧,其对应分支用0表示;若连续三帧均为篡改帧,其对应分支用 1表示;若连续三帧中同时包含篡改帧和原始帧,则用X表示;
三个分支中,若至少有一个分支为1,则中间帧必为1,即篡改帧;
三个分支中,若至少有一个分支为0,则中间帧必为0,即原始帧;
三个分支中,若存在X,表示连续五帧中同时包含原始帧和篡改帧。
作为优选方案,为三个分支中存在X的情况设置一个帧权重:X_weight设置为1,其他情况设置为0,用于在Loss函数增加一个惩罚项。
作为优选方案,所述时域定位算法的Loss函数定义为:
Figure GDA0003877876280000031
其中,N为输入数据的批大小,FL为Focal loss函数,用于主要的视频帧分类任务,其参数为预测结果序列preds、真实值标注序列labels、用于调节类别不平衡的参数α和用于调节难易样本不平衡的参数γ;CE为交叉熵函数,frame_weights为X-weight参数序列,β为额外惩罚项的权重。
作为优选方案,所述空域定位算法的Loss函数,定义为三个分支分类和回归的Loss之和:
Figure GDA0003877876280000032
其中,FL为Focal Loss函数,用于分类单帧内的区域建议框为篡改区域对应的前景框还是原始区域对应的背景框,其参数preds为建议框的分类预测结果,labels为通过建议框 boxAnchor与真实篡改区域boxGroundTruth的交并比iou与所设置阈值比较得到的结果:
Figure GDA0003877876280000033
α是用来调节参与训练的前景框与背景框数量不均衡的参数;γ是调节难易样本不均衡的参数;GIoU_loss为框回归定位Loss函数,其参数须是预测框坐标和真实框坐标,经过与锚框编码后的预测框坐标bboxpreds和真实框坐标bboxtargs需要先进性解码操作,再计算定位的误差值。
作为优选方案,所述RPN网络中建议框的初始化方法,包括:使用K-mean聚类方法分别在训练集所有篡改区域宽度和高度中迭代出3个值做为建议框的宽度、3个值做为建议框的高度,然后获得9种尺寸的建议框。
作为优选方案,将三个分支的输出结果通过对置信度进行非极大值抑制操作,筛选出置信度最高的预测区域作为最终的篡改区域定位结果。
本发明与现有技术相比,有益效果是:
本发明针对视频帧内对象移除篡改类型,设计了一种基于空间富模型SRM和3D卷积的时空三叉戟网络,该网络提供了三个分支,从理论上可以提高篡改区域的检测和定位精度。基于时空三叉戟网络,设计了一个时域定位算法和一个空域定位算法,分别在视频的时域和空域检测和定位视频篡改区域,对于时域定位算法,在三个分支中使用3D CNN作为编码器,并在双向BiLSTM中将其用作解码器。同时,对于空域定位算法,设计了一个名为C3D-ResNet12的骨干网络作为三个分支的编码器;分别在三个分支中采用区域建议网络RPN 作为解码器。此外,基于Focal loss函数和GIoU loss函数对上述两种算法的损失函数进行了优化。本发明可以从被篡改视频中检测出篡改帧,并在每一篡改帧中定位出被篡改区域。
附图说明
图1为本发明实施例所提供的视频对象移除篡改时空域定位方法流程图。
图2为本发明实施例所提供的原始帧和篡改帧的剪切采样方法。
图3为本发明实施例所提供的时空三叉戟网络结构。
图4为本发明实施例所提供的SRM层的三个固定参数的卷积核。
图5为本发明实施例所提供的时空三叉戟网络结构对不同输入情况下的判断机制。
图6为本发明实施例所提供的时域定位网络结构。
图7为本发明实施例所提供的LSTM总体框架示意图。
图8为本发明实施例所提供的BiLSTM的解码过程。
图9为本发明实施例所提供的空域定位网络结构。
图10为本发明实施例所提供的3D-ResNet12网络结构。
图11为本发明实施例所提供的篡改区域空域定位效果图。
具体实施方式
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。应当明确,所描述的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例给出一种基于深度学习的视频对象移除篡改时空域定位方法,如图1所示,该方法包括以下步骤:
步骤101,将数据集随机划分出用于制作训练集、验证集和测试集的视频序列,其中,用于制作训练集、验证集和测试集的视频数量之比为6:2:2。
步骤102,将分出的用于制作训练集和验证集的视频按照时域定位算法的输入要求制作出训练集和验证集,由于数据集中原始帧的数量是篡改帧的几倍,所以采用裁剪采样策略,对原始帧进行欠采样操作,对篡改区域进行过采样操作,以达到正负样本的均衡化。具体的裁剪策略如图2所示,针对数据集尺寸为1280×720,在连续5帧的原始帧中按照均匀步长裁剪出3份5×(720×720)尺寸的数据;在含有篡改区域的连续5帧中,在5帧中的篡改区域周围对齐均匀裁剪出13份5×(720×720)尺寸的数据。所有裁剪出的数据块的label为中间帧的label,这样就获得了大量的正负样本数量相当的数据集,以适合本发明中的深度学习算法。其中验证集与训练集的裁剪方式保持一致。
步骤103,时空三叉戟网络,如图3所示,其包含三个数据预处理操作。具体地,对于输入的连续五帧三通道视频图像数据,首先经过最大池化层进行空域尺寸的降维,以减小计算量,然后经过SRM层,提取视频帧高频信号。在时域定位算法中的数据预处理层最大池化层步长设置为1×3×3,在空域定位算法中的数据预处理层最大池化层步长设置为1×2×2。 SRM层是由三个参数固定的卷积核构成的三维卷积层,分别输出三种不同的视频帧高频残差信号,如图3中三种不同颜色所示,三种不同颜色的卷积核分别对应三种不同颜色的高频残差特征图。其中,SRM层的三个卷积核如图4所示。
其中,时空三叉戟网络对不同输入情况下的判断机制如图5所示,在视频移除篡改时域定位中,对于不同的输入,如图5所示,连续五帧中,以中间帧frame2为主帧,以frame0,frame1,frame3,frame4为辅助帧,可以列出以下10种情况(此处假设连续篡改帧不少于5帧,通常,连续篡改帧数会远大于此)。其中水鸭色块表示原始帧,橙红色块表示被篡改帧。对于每一种情况,若连续三帧均为篡改帧,其对应分支用0表示;若连续三帧均为篡改帧,其对应分支用1表示;若连续三帧中同时包含篡改帧和原始帧,则用X表示。可以得出结论:三个分支中,若至少有一个分支为1,则中间帧必为1,即篡改帧,如图3中红色虚线框中所示;相似的,三个分支中,若至少有一个分支为0,则中间帧必为0,即原始帧;三个分支中若存在X,表示连续五帧中同时包含原始帧和篡改帧。由于数据集中情况1和情况6是最多的输入类型,因此,为了加强对篡改帧和原始帧过渡区域帧的检测能力,将三个分支中存在 X的情况设置一个帧权重:X_weight设置为1,其他情况设置为0,用于在loss函数增加一个惩罚项。在实际的时域定位算法中,在本发明中并不会输出0/1/X这样具体的结果来进行判断,而是将三个分支最后输出为3个向量,并使用双向长短期记忆网络BiLSTM来进行解码判断,三个时间步相当于三个“裁判员”来综合三个分支的输出进行最终的帧类别判定。在视频移除篡改空域定位中,假设时域定位算法已经将图3中输入情况4~8的中间帧分类为篡改帧,且假设空域定位算法在三个分支中都具有独立进行空域定位的能力,则对于输入情况 4~8,空域定位算法至少有一个3D CNN分支是可以正常工作的,可以正常工作的分支将输出高置信度的预测区域,不能正常工作的分支将提供低置信度的预测区域。因此,将三个分支的输出结果通过对置信度进行非极大值抑制操作,筛选出置信度高的预测区域来作为最终的篡改区域空域定位预测结果。
步骤104,帧分类神经网络,其与步骤103的时空三叉戟网络共同构成时域定位算法。时域定位算法的网络结构如图6所示。输入为裁剪出的尺寸为5×(720×720)×3的数据块,其中3表示图像的通道数。输入数据经过图3中时空三叉戟结构的数据处理层,数据处理层将数据切片为3个分支的数据块。3个分支的数据块流入3个权值共享的3D CNN网络结构中,同时提取连续3帧在时空域高频区域的特征,最后统一编码为128维的向量。使用双向长短期记忆网络BiLSTM来作为解码器,以解码器两个方向的输出状态之和作为解码输出,最后使用全连接层和softmax层将结果转化为二分类问题,以达到对篡改帧在视频时域进行定位的目的。
作为编码器的3D CNN网络各层的含义如图6右上角虚线框中所示,不同的颜色代表不同的操作层。其中卷积层中的数字表示卷积核的个数,所有的卷积操作后均使用批标准化操作BN和激活函数ReLu。其前两层为3D卷积层,卷积核大小均为3×3×3,3D卷积层后均进行3D平均池化操作,步长均为2×5×5。时域维度为3的数据经过两次池化操作后维度降为1,通过reshape操作将特征图变换为2D,然后再进行3次2D卷积操作,2D卷积操作后均使用2D平均池化操作,池化操作步长均为5×5。第一次2D卷积使用尺寸为3×3的卷积核,后面2次2D卷积使用尺寸为1×1的卷积核,将特征图升维到128,最后使用全局平均池化,将特征图简化编码为128维的向量。
作为解码器的双向长短期记忆网络BiLSTM是由前向LSTM与后向LSTM组合而成。LSTM可以捕捉较长距离的依赖关系,而BiLSTM可以更好的捕捉双向的语义依赖,两者在自然语言处理任务中都常用来建模上下文信息。在发明中,使用双向长短期记忆网络BiLSTM来实现对篡改帧与原始帧的分类“投票机制”,通过分析3个分支的编码信息来进行解码操作,最后达到分类的目的。LSTM的总体框架如图7所示,而本发明中的BiLSTM的具体解码方式如图8所示,对于视频帧分类任务来说,本发明采用的解码方案是[hL2,hR2]。即将前向LSTM和反向LSTM最后一步的隐状态进行向量相加后作为解码输出,最后经过全连接层和SoftMax层转换为分类问题。在本发明中,使用堆叠了两层的BiLSTM,两层的神经元数量均设置为64。
时域定位算法的Loss函数定义为:
Figure GDA0003877876280000071
其中,N为输入数据的批大小,FL为Focal loss函数,用于主要的视频帧分类任务,其参数为预测结果序列preds,真实值标注序列labels,用于调节类别不平衡的参数α和用于调节难易样本不平衡的参数γ;CE为交叉熵函数,frame_weights为在图3中定义的X-weight 参数序列,用来针对输入数据块中既包含原始帧又包含篡改帧的情况,仅当这种情况下Loss 的第二部分才不为0,β为额外惩罚项的权重。由于我们已经对正负样本进行了均衡化,所以实验中设置α为0.5,γ设置为的2。其中使用的focal loss函数的原型为:
FL(pt)=-αt(1-pt)γlog(pt)
其中,pt为预测为正样本的置信度,αt为预测为正样本的损失权重,用来调节正负样本数量的不均衡,γ为调节难易样本不均衡的超参数。
步骤105,时域定位算法在训练阶段的批大小设置为64,即每次喂入神经网络的图像块维度为64×5×(720×720)×3。根据训练过程中验证集的表现挑选出精确度最高的模型来作为时域定位模型。
步骤106,将分出的用于制作训练集和验证集的视频按照篡改区域空域定位算法的输入要求制作出训练集和验证集。由于需要在篡改帧的整个帧内进行区域定位,所以训练数据集只需要对连续的整帧数据进行定位训练,且只需要训练连续的篡改帧。因此,扩充数据集的方法不再采用裁剪操作,而是对连续5帧的篡改帧采取水平翻转、垂直翻转和水平垂直翻转的操作来扩充数据集,篡改区域标注也应做相应变换。与时域定位中数据标注相似,中间帧的区域标注作为每连续五帧的数据块的篡改区域标注。
步骤107,与步骤103的作用相同,不同之处为三维池化层池化步长为1×2×2。
步骤108,其与步骤107的时空三叉戟网络共同构成空域定位算法。空域定位算法的网络结构图如图9所示。输入为进行翻转操作扩充后的连续5帧的篡改帧数据集,输入数据块尺寸大小为5×(720×1280)×3。输入数据经过图3中时空三叉戟网络结构的数据处理层,使用切片操作,把数据分为三个分支流。与时域定位算法相似,三个分支数据流通过权值共享的骨干网络3D-ResNet12(见图10)将特征图在时域空间进行合并操作。三个分支的特征图流分别经过三个相互独立的RPN网络进行篡改区域回归定位训练。空域定位算法在训练阶段的批大小设置为2,即每次喂入神经网络的图像块维度为2×5×(720×1280)×3。
3D-ResNet12是本发明设计的骨干网络,具有12层的3D残差网络结构,如图10所示。将各层意义和参数按照不同的颜色块定义在图10的上半部分,骨干网络色块中的数字表示卷积核的个数。骨干网络包含3个block和一个特征图切片操作,其中每个block内部都有从第一层到最后一层的短接层,block之间有从前一个block第三层到下一个卷积层第二层的短接层。短接层和要进行连接的层都提供一半的特征层数,拼接后再使用激活函数ReLu进行激活操作。所有的短接层均使用1×1×1的卷积核,主干网路的3D卷积层均使用3×3×3的卷积核。在每个block中,前3层3D卷积层使用参数为5的空洞卷积,第4层3D卷积层采用1×2×2的卷积步长来代替池化层在特征图空域进行降维操作。如图中所示,骨干网络的输入数据尺寸为3×(360×640)×3,其中第一个3表示连续三帧的时间维度,第二个3表示图像通道数;则Block3输出尺寸为3×(45×80)×32,其中3依然表示时间维度,32表示特征图数量,45×80表示特征图尺寸。将时间维度为3的特征图进行切片操作,然后将3个时间维度的特征图进行堆叠降维,最后输出尺寸为(45×80)×96的特征图。将输出的特征图作为RPN网络的“原材料”。
在RPN算法中,使用尺寸为1×1的2D卷积层来对建议框进行分类和回归的训练,输出预测框编码序列及其分类置信度。为了降低目标区域误检率,设定每一帧中参与训练的前景框与背景框数量之比为1:λ,约束公式为:
Figure GDA0003877876280000081
bg_num=min(roi_num-fg_num,fg_num×λ)
其中,fg_num为前景框的总数;roi_num为一个常数,其大小控制着训练密度。在实验过程中,设置roi_num为128,设置λ为5。
RPN算法先验框尺寸的设定方法:使用K-mean聚类方法分别在训练集所有篡改区域宽度和高度中迭代出3个值做为先验框的宽度、3个值做为先验框的高度。然后就可能获得9(3 ×3)种尺寸的先验框。
空域定位算法的Loss函数为三个分支分类和回归的loss之和,定义如下:
Figure GDA0003877876280000091
其中,FL为focal loss函数,用于分类单帧内的区域建议框为前景框(篡改区域)还是背景框(原始区域),其参数preds为建议框的分类预测结果,labels为通过建议框boxAnchor与真实篡改区域boxGroundTruth的交并比iou与所设置阈值比较得到的结果:
Figure GDA0003877876280000092
α是用来调节参与训练的前景框与背景框数量不均衡的参数;γ是条件难易样本不均衡的参数,仅设置为2。GIoU_loss为框回归定位loss函数,其参数须是预测框坐标和真实框坐标,因此,经过与锚框编码后的预测框坐标bboxpreds和真实框坐标bboxtargs需要先进性解码操作,再计算定位的误差值,其中GIoU_loss算法如下:
Figure GDA0003877876280000093
步骤109,类似于步骤105,在测试阶段设置批大小为1,即每次喂入神经网络的图像块维度为1×5×(720×1280)×3,测试结果取三个分支预测序列中置信度最高的预测框作为最终预测区域。选取在验证集上精确度最高的模型来作为空域定位模型。
步骤110,将分出的用于制作测试集的视频按照时域定位算法的输入要求制作出测试集,测试集中全部采用原始帧的裁剪方式,如图2的(a)所示。
步骤111,将时域定位模型加载到时域定位算法中测试步骤110产生的测试数据,在测试阶段设置批大小为3,即每次喂入神经网络的图像块维度为3×5×(720×720)×3,它们是每连续五帧中裁剪出来的三份数据,三份数据的结果共同判断中间帧是否为篡改帧。判断的依据是:三份全部预测为原始帧,则结果预测为原始帧;否则预测为被篡改帧。
步骤112,此步骤检测出的篡改帧序列是由步骤111对测试视频的每一帧进行分类得到的。
步骤113,将篡改帧序列按照篡改区域定位算法的输入要求制作打包数据集,测试数据集不需要翻转操作来扩充数据集。
步骤114,类似于步骤111,将空域定位模型加载到空域定位算法中测试步骤113产生的测试数据,在测试阶段设置批大小为1,即每次喂入神经网络的图像块维度为1×5×(720× 1280)×3,测试结果取三个分支预测序列中置信度最高的预测框作为最终预测区域。
步骤115,通过步骤114得到所有篡改帧中篡改区域的定位结果,效果图如图11所示。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (7)

1.一种基于深度学习的视频对象移除篡改时空域定位方法,其特征在于,包括以下步骤:
S1、训练时域定位模型和空域定位模型;
S2、将待测视频输入至时域定位模型,以获取篡改帧序列;
S3、将篡改帧序列输入空域定位模型,以获取篡改帧中的篡改区域定位结果;
所述步骤S1中,时域定位模型和空域定位模型的训练,包括以下步骤:
S11、将视频数据集随机划分为制作训练集、验证集和测试集的视频序列;
S12、将制作训练集和验证集的视频序列分别按照时域定位算法和空域定位算法的输入要求制作出相应的训练集和验证集,采用各自的训练集和验证集分别对时域定位算法和空域定位算法进行训练和测试,得到时域定位模型和空域定位模型;
S13、将制作测试集的视频序列按照时域定位算法的输入要求制作测试集,输入至加载时域定位模型的时域定位算法进行测试,以获取篡改帧序列;
S14、将篡改帧序列按照空域定位算法的输入要求制作打包数据集,输入至加载空域定位模型的空域定位算法,以获取篡改帧中篡改区域定位结果;
所述时域定位算法包括时空三叉戟网络和帧分类神经网络;
所述时空三叉戟网络包括:设定输入形式为连续五帧三通道视频图像数据,首先经过三维最大池化层进行空域尺寸的降维,然后经过SRM层,SRM层为三个参数固定的卷积核构成的三维卷积层,分别输出三种不同的视频帧高频残差信号;最后使用切片操作,将输入时域维度为5的噪声图像进行切片,每连续3帧所产生的噪声图像切片为一个分支流,共切出三个分支流的噪声数据;其中,三维最大池化层步长设置为1×3×3;
时域定位算法输入为裁剪尺寸为5×(720×720)×3的数据块,其中3表示图像的通道数;输入数据经过时空三叉戟网络后将数据切片为3个分支的数据块;
3个分支的数据块输入帧分类神经网络的处理流程如下:3个分支的数据块流入3个权值共享的3D CNN网络结构中,同时提取连续3帧在时空域高频区域的特征,最后统一编码为128维的向量,使用双向长短期记忆网络BiLSTM来作为解码器,以解码器两个方向的输出状态之和作为解码输出,最后使用全连接层和SoftMax层将结果转化为二分类问题,以达到对篡改帧在视频时域进行定位,获取篡改帧序列;
所述空域定位算法包括时空三叉戟网络和篡改区域定位神经网络;
所述时空三叉戟网络包括:设定输入形式为连续五帧三通道视频图像数据,首先经过三维最大池化层进行空域尺寸的降维,然后经过SRM层,SRM层为三个参数固定的卷积核构成的三维卷积层,分别输出三种不同的视频帧高频残差信号;最后使用切片操作,将输入时域维度为5的噪声图像进行切片,每连续3帧所产生的噪声图像切片为一个分支流,共切出三个分支流的噪声数据;其中,三维最大池化层步长设置为1×2×2;
空域定位算法输入为进行翻转操作扩充后的连续5帧的篡改帧数据集,输入数据块尺寸大小为5×(720×1280)×3;输入数据经过时空三叉戟网络后数据分为三个分支流;
三个分支流输入篡改区域定位神经网络的处理流程如下:三个分支流通过权值共享的骨干网络3D-ResNet12将特征图在时域空间进行合并操作,三个分支流的特征图分别经过三个相互独立的RPN网络进行篡改区域回归定位。
2.根据权利要求1所述的一种基于深度学习的视频对象移除篡改时空域定位方法,其特征在于,所述时空三叉戟网络在时域定位和空域定位中的预测理论基础,包括:在视频移除篡改时域定位中,输入连续五帧中,以中间帧为主帧,以前两帧和后两帧为辅助帧;若连续三帧均为篡改帧,其对应分支用0表示;若连续三帧均为篡改帧,其对应分支用1表示;若连续三帧中同时包含篡改帧和原始帧,则用X表示;
三个分支中,若至少有一个分支为1,则中间帧必为1,即篡改帧;
三个分支中,若至少有一个分支为0,则中间帧必为0,即原始帧;
三个分支中,若存在X,表示连续五帧中同时包含原始帧和篡改帧。
3.根据权利要求2所述的一种基于深度学习的视频对象移除篡改时空域定位方法,其特征在于,为三个分支中存在X的情况设置一个帧权重:X_weight设置为1,其他情况设置为0,用于在Loss函数增加一个惩罚项。
4.根据权利要求3所述的一种基于深度学习的视频对象移除篡改时空域定位方法,其特征在于,所述时域定位算法的Loss函数定义为:
Figure FDA0003877876270000021
其中,N为输入数据的批大小,FL为Focal loss函数,用于主要的视频帧分类任务,其参数为预测结果序列preds、真实值标注序列labels、用于调节类别不平衡的参数α和用于调节难易样本不平衡的参数γ;CE为交叉熵函数,frame_weights为X-weight参数序列,β为额外惩罚项的权重。
5.根据权利要求3所述的一种基于深度学习的视频对象移除篡改时空域定位方法,其特征在于,所述空域定位算法的Loss函数,定义为三个分支分类和回归的Loss之和:
Figure FDA0003877876270000022
其中,FL为Focal Loss函数,用于分类单帧内的区域建议框为篡改区域对应的前景框还是原始区域对应的背景框,其参数preds为建议框的分类预测结果,labels为通过建议框boxAnchor与真实篡改区域boxGroundTruth的交并比iou与所设置阈值比较得到的结果:
Figure FDA0003877876270000031
α是用来调节参与训练的前景框与背景框数量不均衡的参数;γ是调节难易样本不均衡的参数;GIoU_loss为框回归定位Loss函数,其参数须是预测框坐标和真实框坐标,经过与锚框编码后的预测框坐标bboxpreds和真实框坐标bboxtargs需要先进性解码操作,再计算定位的误差值。
6.根据权利要求4或5所述的一种基于深度学习的视频对象移除篡改时空域定位方法,其特征在于,所述RPN网络中建议框的初始化方法,包括:使用K-mean聚类方法分别在训练集所有篡改区域宽度和高度中迭代出3个值做为建议框的宽度、3个值做为建议框的高度,然后获得9种尺寸的建议框。
7.根据权利要求6所述的一种基于深度学习的视频对象移除篡改时空域定位方法,其特征在于,将三个分支的输出结果通过对置信度进行非极大值抑制操作,筛选出置信度最高的预测区域作为最终的篡改区域定位结果。
CN202011116257.5A 2020-10-19 2020-10-19 一种基于深度学习的视频对象移除篡改时空域定位方法 Active CN112333452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011116257.5A CN112333452B (zh) 2020-10-19 2020-10-19 一种基于深度学习的视频对象移除篡改时空域定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011116257.5A CN112333452B (zh) 2020-10-19 2020-10-19 一种基于深度学习的视频对象移除篡改时空域定位方法

Publications (2)

Publication Number Publication Date
CN112333452A CN112333452A (zh) 2021-02-05
CN112333452B true CN112333452B (zh) 2023-02-03

Family

ID=74314183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011116257.5A Active CN112333452B (zh) 2020-10-19 2020-10-19 一种基于深度学习的视频对象移除篡改时空域定位方法

Country Status (1)

Country Link
CN (1) CN112333452B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927202B (zh) * 2021-02-25 2022-06-03 华南理工大学 多时域多特征结合的Deepfake视频检测方法及系统
CN113033379A (zh) * 2021-03-18 2021-06-25 贵州大学 一种基于双流cnn的帧内取证深度学习方法
CN113033424B (zh) * 2021-03-29 2021-09-28 广东众聚人工智能科技有限公司 一种基于多分支视频异常检测方法和系统
CN113486951B (zh) * 2021-07-05 2022-02-01 哈尔滨市科佳通用机电股份有限公司 风挡击打变形故障识别检测方法、存储介质及设备
CN113723186B (zh) * 2021-07-27 2023-06-27 北京航空航天大学 基于时空三叉戟网络的监控视频篡改检测系统及方法
CN117911410A (zh) * 2024-03-19 2024-04-19 华南农业大学 一种视频对象移除篡改检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107527337A (zh) * 2017-08-07 2017-12-29 杭州电子科技大学 一种基于深度学习的视频对象移除篡改检测方法
CN109660814A (zh) * 2019-01-07 2019-04-19 福州大学 一种视频前景删除篡改的检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107527337A (zh) * 2017-08-07 2017-12-29 杭州电子科技大学 一种基于深度学习的视频对象移除篡改检测方法
CN109660814A (zh) * 2019-01-07 2019-04-19 福州大学 一种视频前景删除篡改的检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Video tamper detection based on multi-scale mutual information;Wei Wei等;《SPRINGER》;20191231;第78卷(第19期);全文 *
数字视频区域篡改的检测与定位;姚晔等;《中国图象图形学报》;20180616(第06期);全文 *
李倩等.基于视频修复的运动目标删除篡改行为的检测算法.《光电子·激光》.2016,(第02期), *
视频对象移除篡改的时空域定位被动取证;陈临强等;《通信学报》;20200731(第07期);第110-120页 *

Also Published As

Publication number Publication date
CN112333452A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112333452B (zh) 一种基于深度学习的视频对象移除篡改时空域定位方法
CN111311563B (zh) 一种基于多域特征融合的图像篡改检测方法
CN112001339B (zh) 一种基于YOLO v4的行人社交距离实时监测方法
CN110348376B (zh) 一种基于神经网络的行人实时检测方法
US8705866B2 (en) Region description and modeling for image subscene recognition
US8503792B2 (en) Patch description and modeling for image subscene recognition
CN112150450B (zh) 一种基于双通道U-Net模型的图像篡改检测方法及装置
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
Masurekar et al. Real time object detection using YOLOv3
Yang et al. Spatiotemporal trident networks: detection and localization of object removal tampering in video passive forensics
Sowmya et al. A survey on video forgery detection
US8503768B2 (en) Shape description and modeling for image subscene recognition
CN112528961B (zh) 一种基于Jetson Nano的视频分析方法
CN109348211A (zh) 一种视频帧内帧间编码的通用信息隐藏检测方法
CN112069891A (zh) 一种基于光照特征的深度伪造人脸鉴别方法
Yu et al. Detecting deepfake-forged contents with separable convolutional neural network and image segmentation
WO2021164515A1 (zh) 一种针对篡改图像的检测方法及装置
CN113516146A (zh) 一种数据分类方法、计算机及可读存储介质
CN112801037A (zh) 一种基于连续帧间差异的人脸篡改检测方法
CN114550268A (zh) 一种利用时空特征的深度伪造视频检测方法
Zhao et al. Detecting deepfake video by learning two-level features with two-stream convolutional neural network
Tao et al. Smoke vehicle detection based on robust codebook model and robust volume local binary count patterns
CN117274774A (zh) 一种基于YOLOv7的X射线安检图像危险品检测算法
CN117037004A (zh) 基于多尺度特征融合和上下文增强的无人机影像检测方法
CN117173854B (zh) 一种基于深度学习的煤矿明火预警方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant