CN113537110A - 一种融合帧内帧间差异的虚假视频检测方法 - Google Patents

一种融合帧内帧间差异的虚假视频检测方法 Download PDF

Info

Publication number
CN113537110A
CN113537110A CN202110841550.6A CN202110841550A CN113537110A CN 113537110 A CN113537110 A CN 113537110A CN 202110841550 A CN202110841550 A CN 202110841550A CN 113537110 A CN113537110 A CN 113537110A
Authority
CN
China
Prior art keywords
feature
frame
rgb
frequency
intra
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110841550.6A
Other languages
English (en)
Other versions
CN113537110B (zh
Inventor
任海青
杨林
王浩枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202110841550.6A priority Critical patent/CN113537110B/zh
Publication of CN113537110A publication Critical patent/CN113537110A/zh
Application granted granted Critical
Publication of CN113537110B publication Critical patent/CN113537110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种融合帧内帧间差异的虚假视频检测方法,属于模式识别、人工智能领域。本发明采用基于高频特征流和RGB特征流的帧内特征提取模块提取帧内特征,然后将连续视频帧每帧的特征送入GRU提取帧间特征,在整个特征提取过程中融合了帧内、帧间差异,即考虑了语义一致性,又考虑了时序一致性,有助于提升虚假视频检测效果。本发明提出的融合帧内帧间差异的虚假视频检测方法有助于提升虚假视频检测算法的多样性。本发明面向常见的虚假视频检测任务,主要是用于视频中虚假人脸的检测,也可用于其他通用物体的虚假视频检测。

Description

一种融合帧内帧间差异的虚假视频检测方法
技术领域
本发明属于模式识别、人工智能领域,具体涉及一种融合帧内帧间差异的虚假视频检测方法。
背景技术
随着深度伪造技术的发展,深度伪造技术已经发展为包括视频伪造、声音伪造、文本伪造和微表情合成等多模态的深度伪造技术。其中视频伪造是深度伪造技术最为主要的代表,目前最典型的就是人工智能换脸技术。随着人工智能技术的广泛应用,研究者们对深度视频伪造技术的探索越来越多,同时也推动了虚假视频检测技术的发展。目前,虚假视频检测技术主要包括基于传统图像取证的方法、基于生理信号特征的方法、基于图像篡改痕迹的方法、基于GAN图像特征的方法以及基于数据驱动的方法五大类,其中基于数据驱动的方法是当前虚假视频检测的主流方法之一。
基于数据驱动的学习方法主要分为两大类:一类是图片级,将视频处理成帧,设计不同的网络结构,对帧进行判别,实现帧级的识别,最终对视频的帧进行综合决策;另一类是视频级,利用循环神经网络学习帧序列的时序特征对一个视频进行整体判断。基于图片级的学习方法是现有研究较多的方向之一,借助深度学习强大的学习能力和日益大幅增长的数据集,学习篡改图片的特点可行且高效。此类方法不仅可以判断单帧图像的真伪,还可以利用组合策略检测视频帧,应用范围较广。基于视频级的学习方法可以学习到视频的时序特征,如前后帧的不一致、人脸区域的不稳定等一些篡改视频均会出现的缺陷,泛化性较好。
目前,虽然在虚假视频检测方面基于数据驱动的学习方法取得了一系列的研究成果,是的检测效果大大提升,但是不论是基于图片级的学习方法还是基于视频级的学习方法都还存在着不足之处:
(1)基于图片级的学习方法,学习到的模型大多数依赖相同的数据分布,在面对未知篡改类型时很乏力。此外,如果视频中的篡改人脸非常少,这对基于图片级方法的综合决策策略提出了挑战;
(2)基于视频级的学习方法,主要是根据帧间的时序特征来鉴定视频的真伪,基于时序特征的检测依然对视频的预处理很敏感,也无法判断单帧的真伪。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种融合帧内帧间差异的虚假视频检测方法,以解决现有基于数据驱动的学习方法的虚假视频检测技术中存在的不足问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种融合帧内帧间差异的虚假视频检测方法,该方法包括如下步骤:
S1、系统输入连续的RGB视频帧序列,t时刻的视频图像为Xt,假设输入连续视频帧共有T个图像帧,则输入为X=(X1,X2,……,Xt,……XT);
S2、帧内特征提取,在时刻T,将视频帧Xt输入到帧内特征提取模块中提取帧内特征;
S21、对于输入的t时刻的RGB视频帧Xt,利用SRM滤波器将其转换为高频域的特征图像
Figure BDA0003179061740000021
S22、对Xt
Figure BDA0003179061740000022
分别使用resnet18提取特征,输出RGB特征图和高频特征图;
S23、将RGB特征图和高频特征图中的特征矩阵使用密集协同注意力机制计算得到t时刻帧内特征向量ft
S24、所有T个视频帧经过帧内特征提取生成了帧内特征序列f=(f1,f2,……,ft,……,fT),作为帧间差异特征提取模块的输入;
S3、将帧内特征提取模块输出的特征序列f=(f1,f2,……,ft,……,fT)输入到帧间差异特征提取模块的递归神经网络RNN中提取时序特征,获得融合帧内帧间差异的特征向量;
S4、使用sofmax分类器对融合帧内帧间差异的特征向量进行分类决策。
进一步地,所述步骤S21中的SRM滤波器的输入输出通道数均为3,卷积核如下:
Figure BDA0003179061740000031
进一步地,所述步骤S22中输入RGB视频帧Xt对应的是RGB特征提取流,输入高频域特征图像
Figure BDA0003179061740000032
对应的是高频特征提取流,在resnet18的3次下采样之前,将RGB特征提取流相应层的特征输出使用SRM滤波器进行卷积,然后进行1×1的卷积运算来对齐通道尺寸,使得最终的通道尺寸与输入SRM的通道尺寸相同,得到了低尺度下的高频特征,将此高频特征与高频特征提取流相应层的特征输出相加作为高频特征提取流下一层的输入。
进一步地,所述步骤S22中输入RGB视频帧Xt对应的是RGB特征提取流,输入高频域特征图像
Figure BDA0003179061740000033
对应的是高频特征提取流,将高频特征提取流中某一层输出的特征矩阵提取出来,与RGB特征提取流中相应层的特征矩阵对应相乘,将相乘的结果作为RGB特征提取流下一层的输入。
进一步地,所述步骤S23具体包括:所述步骤S22输出的RGB特征图和高频特征图具有相同的尺度和通道数,假定高频特征流和RGB流输出的特征在相同位置的特征矩阵为Sl及Tl,密集协同注意力机制计算过程如下:
Figure BDA0003179061740000041
Figure BDA0003179061740000042
Figure BDA0003179061740000043
其中,Al表示联合矩阵;Wl表示一个可学习的权重矩阵;将Al按行进行归一化,输出由每个RGB特征作为条件的高频特征的注意力矩阵
Figure BDA0003179061740000044
再将Al按列进行归一化,输出由高频特征作为条件的RGB特征的注意力矩阵
Figure BDA0003179061740000045
Sl’表示Sl经过密集协同注意力机制计算的高频特征矩阵,Tl’表示Tl经过密集协同注意力机制计算的RGB特征矩阵;然后通过转换矩阵PS和PT将Sl’和Tl’转换成一维特征向量us和ut;按照这个操作,将高频特征流和RGB流输出的特征图中所有通道的特征矩阵都用上述方法计算得出一维特征向量,最终将这些一维特征向量相加得到t时刻帧内特征向量ft
进一步地,所述将高频特征流和RGB流输出的特征图中所有通道的特征矩阵都用上述方法计算得出一维特征向量具体为:将高频特征流和RGB流输出的特征图中所有的512个通道的特征矩阵都用上述方法计算得出1024个的一维特征向量。
进一步地,所述步骤S3具体包括:在时刻t将ft送入递归神经网络进行计算,在神经网络的顶层得到一系列的隐含层状态向量,在每个时刻,神经网络计算过程如下:
Figure BDA0003179061740000046
Figure BDA0003179061740000051
其中,
Figure BDA0003179061740000052
表示在时刻t,第n层的隐含层状态向量,
Figure BDA0003179061740000053
Figure BDA0003179061740000054
表示计算第一个隐含层的函数,
Figure BDA0003179061740000055
表示计算第n个隐含层的函数,θ1,θn表示相应层的神经网络的参数;经过T个时刻的迭代,在神经网络的顶层产生T个隐含层状态
Figure BDA0003179061740000056
最终将T个隐含层状态
Figure BDA0003179061740000057
求和得到最终的包含帧内和帧间差异的特征向量h,
Figure BDA0003179061740000058
进一步地,所述递归神经网络为门控循环单元类型的递归神经网络。
进一步地,所述步骤S4具体包括:
S41、将步骤S3输出的向量h通过全连接层映射到与视频类别数相同的维度上,
y=by+Whyh
假设h为维度c×1的特征向量,那么Why全连接层的参数矩阵,维度为2×c,by对应全连接层的偏置向量;
S42、使用softmax分类器进行分类:
通过softmax分类器的计算,生成对应于K个类别的概率分布;具体的,给定一个视频样本i,通过前述各模块的计算生成对应的输出向量
Figure BDA0003179061740000059
Figure BDA00031790617400000510
通过softmax分类器的计算生成对应K个类别的概率分布,其中对应类别标签C(i)=l,l=1,2,…,K的概率值为:
Figure BDA00031790617400000511
其中,θ表示参与计算的所有参数的集合;根据计算出来的概率分布,取概率值最大的项对应的字符类别标签判断为当前输入视频的类别:
Figure BDA00031790617400000512
进一步地,神经网络训练过程中的损失函数为:
Figure BDA0003179061740000061
Figure BDA0003179061740000062
其中,J(θ)表示损失函数,Y{i}表示训练样本真实类别标签,m表示参与训练的样本的总数。
(三)有益效果
本发明提出一种融合帧内帧间差异的虚假视频检测方法,本发明的有益效果是:
(1)本发明提出一种融合帧内帧间差异的虚假视频检测方法,此算法采用基于高频特征流和RGB特征流的帧内特征提取模块提取帧内特征,然后将连续视频帧每帧的特征送入GRU提取帧间特征,在整个特征提取过程中融合了帧内、帧间差异,即考虑了语义一致性,又考虑了时序一致性,有助于提升虚假视频检测效果。
(2)本发明提出的融合帧内帧间差异的虚假视频检测方法有助于提升虚假视频检测算法的多样性。
附图说明
图1为本发明融合帧内帧间差异的虚假视频检测方法的模块设计与总体架构图;主要基于数据流向给出本发明的融合帧内帧间差异的虚假视频检测方法的各模块详细设计及相互做用图;
图2为基于多尺度高频特征的双流卷积鉴伪网络结构示意图,给出本发明中使用的神经网络的基本结构;
图3为模态交互注意模块示意图,模块拟采用密集协同注意机制来实现特征之间的长期依赖性;
图4为基于帧间差异的虚假视频特征提取模块示意图,给出本发明中基于GRU学习虚假视频帧间差异特征的流程。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
针对现有基于数据驱动的学习方法的虚假视频检测技术中存在的问题,本发明的目的在于提供一种融合视频帧内、帧间差异的虚假视频检测方法。基于图片级的学习主要是针对单帧图片内部的差异,也就是通过图片内部语义一致性来判断视频的真伪;基于视频级的学习主要是对于多帧图像间的差异,也就是通过帧间图片的时序一致性来判断视频真伪。两者所利用的鉴别特征有所不同,前者将视频检测问题转换成图像检测问题,只关注图像中的空间特征,以发现真实图像和伪造图像的不同。后者则更多关注视频片段中的时序特征,捕捉连续多帧图像中的时序伪造痕迹。本发明提出的方法融合了基于图片级的学习和基于视频级的学习两种方法的优点,在一定程度上能够同时兼顾帧内差异和帧间差异来进行虚假视频的检测。本发明面向常见的虚假视频检测任务,主要是用于视频中虚假人脸的检测,也可用于其他通用物体的虚假视频检测。
本发明解决相关技术问题所用的技术方案是:一种融合帧内帧间差异的虚假视频检测方法。该方法涵盖帧内特征学习、帧间特征学习、决策判断三个阶段。
首先,在帧内特征学习阶段采用双流法,以残差网络为基准网络进行特征提取及学习,双流指RGB流和由RGB流经SRM滤波器获得的图像噪声流(高频特征流)。其中RGB流和高频特征流均使用残差网络,在使用残差网络提取特征的过程中,使用SRM滤波器作用在RGB流中不同尺度的特征图上,提取多尺度高频特征,用以优化高频特征流中提取的特征。此外,还使用高频特征引导的空间注意力模块优化RGB流中提取的特征。
其次,在帧间特征学习阶段采用门控循环单元(Gated Recurrent Unit)类型的递归神经网络的方法来检测深度伪造视频,采用第一阶段中基于双流法提取的视频帧帧内特征,将特征向量送入GRU对帧序列的时序状态进行学习。
最后,在决策判断阶段,由全连接层对帧序列特征做特征加权,使用逻辑回归与softmax函数求得深度伪造视频的鉴伪结果。本发明的方法流程为:
1.图1是融合帧内帧间差异的虚假视频检测方法的模块设计与总体架构,具体流程为:
(1)帧内特征学习模块:帧内特征学习模块主要基于双流法提取单帧图像内部的特征,此模块共由多尺度高频特征提取模块、模态交互注意模块和残差引导的空间注意模块三个子模块组成;
①多尺度高频特征提取模块:高频特征提取主要是使用SRM滤波器提取高频特征,获得高频特征图,SRM滤波器提取的高频噪声特征的良好性能可以使检测模型探索噪声空间并提高模型的泛化能力。
②高频特征引导的空间注意模块:在输入高频特征图后,利用SRM滤波器产生的高频特征来引导RGB模态下的特征学习。
③模态交互注意模块:模态交互注意模块主要是捕捉不同模态(特征)之间的长期依赖性,并模拟低频纹理和高频噪声之间的相互作用,采用密集协同注意机制使两种模态互相引导学习,优化特征。
(2)帧间特征学习模块:本模块拟采用门控循环单元(Gated Recurrent Uni t)类型的递归神经网络来检测深度伪造视频。为了能够利用丰富的时序信息进行决策分类,本模块构建了全局时序特征分类模块,将帧内特征学习模块提取的特征输入到GRU中提取片段级别时序特征。
(3)决策判断模块:输入视频经过上述两个阶段学习到的特征,决策判断模块主要依据学习到的特征对视频进行分类,分类损失拟采用Softmax损失函数。
图1为融合帧内帧间差异的虚假视频检测方法的模块设计与总体架构图,主要涉及帧内特征提取模块,帧间特征提取模块,决策分类模块,其中帧内特征提取模块主要包含多尺度高频特征提取模块和模态交互注意模块具体方法包括下列步骤:
S1、系统输入连续的RGB视频帧序列
整个系统的输入是连续的RGB视频帧序列,t时刻的视频图像Xt输入帧内特征提取模块中提取t时刻视频帧图像的帧内特征ht,假设输入连续视频帧共有T个图像帧,那么系统的输入就是X=(X1,X2,……,Xt,……XT)。
S2、帧内特征提取
在时刻T,将视频帧Xt输入到帧内特征提取模块中提取帧内特征。帧内特征提取模块主要包括多尺度高频特征提取、模态交互注意两个子模块。
1)多尺度高频特征提取模块:
S21、对于输入的t时刻的RGB视频帧Xt,利用SRM滤波器将其转换为高频域的特征图像
Figure BDA0003179061740000093
多尺度高频特征提取模块的一个关键技术是SRM滤波器,SRM指是《Rich modelsfor steganalysis of digital images》中提出来的,是Steganalysis Rich Model的缩写,富隐写分析模型的意思,在本发明中使用下面3个卷积核实现SAM滤波器的性能,提取高频域的特征图像。
SRM滤波器的输入输出通道数均为3,卷积核如下:
Figure BDA0003179061740000091
S22、基于多尺度高频特征提取子模块和高频特征引导空间注意子模块,对Xt
Figure BDA0003179061740000092
分别使用resnet18提取特征,输出RGB特征图和高频特征图。
图2是多尺度高频特征提取模块示意图,对于输入的RGB视频帧Xt,利用SRM滤波器将其转换为高频域的特征图像
Figure BDA0003179061740000101
SRM滤波器的输入输出通道数均为3,输入RGB图片,通过上面的3个滤波器获得的高频特征图像
Figure BDA0003179061740000102
的通道数依旧为3。
在本发明中,对Xt
Figure BDA0003179061740000103
分别使用resnet18提取特征,过程如图2所示。输入RGB视频帧Xt对应的是RGB特征提取流,输入高频域特征图像
Figure BDA0003179061740000104
对应的是高频特征提取流。为了提取更多的高频特征,在resnet18的3次下采样之前,将RGB特征提取流相应层的特征输出使用SRM滤波器进行卷积,然后进行1×1的卷积运算来对齐通道尺寸,使得最终的通道尺寸与输入SRM的通道尺寸相同,这样得到了低尺度下的高频特征,将此高频特征与高频特征提取流相应层的特征输出相加作为高频特征提取流下一层的输入。
高频特征引导空间注意子模块:如图2中黑线连接的部分所示,将高频特征提取流中某一层输出的特征矩阵提取出来,与RGB特征提取流中相应层的特征矩阵对应相乘(两个特征提取流在相同的层数输出的特征矩阵尺度和特征图通道数相同),将相乘的结果作为RGB特征提取流下一层的输入。
根据研究者们以往的研究结果中的空间注意力的可视化特征图,高响应区域会在被伪造篡改人脸的异常边界附近出现,而却在真实人脸中呈现均匀分布,这意味着高频特征引导的空间注意可以帮助特征提取器聚焦于伪造痕迹。因此本发明引入空间注意子模块。
2)模态交互注意模块
模态交互注意模块:本模块拟采用密集协同注意机制来实现特征之间的长期依赖性,并且学习高频特征和底层RGB特征两种模态之间的关系,实现互补及融合。其中,密集协同注意力机制的计算方法如图3所示。
S23、将RGB特征图和高频特征图中的特征矩阵使用密集协同注意力机制计算得到t时刻帧内特征向量ft
多尺度高频特征提取模块输出RGB特征图和高频特征图,RGB特征图和高频特征图具有相同的尺度和通道数,假定高频特征流和RGB流输出的特征在相同位置的特征矩阵为Sl及Tl,密集协同注意力机制计算过程如下:
Figure BDA0003179061740000111
Figure BDA0003179061740000112
Figure BDA0003179061740000113
其中,Al表示联合矩阵;Wl表示一个可学习的权重矩阵。将Al按行进行归一化,输出由每个RGB特征作为条件的高频特征的注意力矩阵
Figure BDA0003179061740000114
再将Al按列进行归一化,输出由高频特征作为条件的RGB特征的注意力矩阵
Figure BDA0003179061740000115
Sl’表示Sl经过密集协同注意力机制计算的高频特征矩阵,Tl’表示Tl经过密集协同注意力机制计算的RGB特征矩阵。然后通过转换矩阵PS和PT将Sl’和Tl’转换成一维特征向量us和ut。按照这个操作,将高频特征流和RGB流输出的特征图中所有的512个通道的特征矩阵都用上述方法计算得出1024个的一维特征向量(参见图2,多尺度高频特征提取模块输出的高频特征流和RGB流各包括512通道)。其中不同的特征矩阵对应的Wl、PS和PT均不相同,且都是可训练的参数。最终将这1024个一维特征向量相加得到t时刻帧内特征向量ft
3)帧内特征输出
S24、所有T个视频帧经过帧内特征提取生成了帧内特征序列f=(f1,f2,……,ft,……,fT),作为帧间差异特征提取模块的输入。
3.基于帧间差异的虚假视频特征提取模块GRU
如图4所示,本模块拟结合卷积神经网络和长短期记忆网络(Long Short-TermMemory)来检测深度伪造视频。为了能够利用丰富的时序信息进行决策分类,本模块构建了全局时序特征分类模块,将帧内特征提取模块输出的特征序列f=(f1,f2,……,ft,……,fT)输入到递归神经网络(Recurrent Neural Network,RNN)中提取时序特征。
S3、将帧内特征提取模块输出的特征序列f=(f1,f2,……,ft,……,fT)输入到帧间差异特征提取模块的递归神经网络(Recurrent Neural Network,RNN)中提取时序特征,获得融合帧内帧间差异的特征向量。
对于序列的识别,递归神经网络(RNN)是最好的选择之一。在时刻t将ft送入递归神经网络进行计算,在神经网络的顶层得到一系列的隐含层状态向量,在每个时刻,神经网络计算过程如下:
Figure BDA0003179061740000121
Figure BDA0003179061740000122
其中,
Figure BDA0003179061740000123
表示在时刻t,第n层的隐含层状态向量,
Figure BDA0003179061740000124
在本发明中N=2,
Figure BDA0003179061740000125
表示计算第一个隐含层的函数,
Figure BDA0003179061740000126
表示计算第n个隐含层的函数,θ1,θn表示相应层的神经网络的参数。经过T个时刻的迭代,在神经网络的顶层产生T个隐含层状态
Figure BDA0003179061740000127
在本发明中,使用的是门控循环单元(Gated Recurrent Unit)类型的递归神经网络。
最终将T个隐含层状态
Figure BDA0003179061740000128
求和得到最终的包含帧内和帧间差异的特征向量h,
Figure BDA0003179061740000129
3.分类决策模块
主要是结合视频中的时序信息(帧间差异)和局部信息(帧内差异)来发现伪造痕迹从而鉴别视频真伪。多特征融合主要指在特征提取阶段的融合,主要是先通过帧内特征提取模块提取帧内特征,再以提取的帧内特征作为输入,使用GRU提取帧间特征。分类决策模块主要是通过学习到的融合帧内帧间差异的特征,使用sofmax分类器进行分类决策。
S4、使用sofmax分类器对融合帧内帧间差异的特征向量进行分类决策。
S41、将GRU输出的向量h通过全连接层映射到与视频类别数相同的维度上,一般视频类别为2,
y=by+Whyh
假设h为维度c×1的特征向量,那么Why全连接层的参数矩阵,维度为2×c,by对应全连接层的偏置向量。
S42、使用softmax分类器进行分类:
通过softmax分类器的计算,会生成对应于K(K=2)个类别的概率分布,这个概率分布用于判别当前视频属于哪个类别。具体的,给定一个视频样本i,通过前述各模块的计算生成对应的输出向量
Figure BDA0003179061740000131
通过softmax分类器的计算生成对应K个类别的概率分布,其中对应类别标签C(i)=l,l=1,2,…,K的概率值为:
Figure BDA0003179061740000132
其中,θ表示参与计算的所有参数的集合。根据计算出来的概率分布,取概率值最大的项对应的字符类别标签判断为当前输入视频的类别:
Figure BDA0003179061740000133
神经网络训练过程中的损失函数为:
Figure BDA0003179061740000134
Figure BDA0003179061740000141
其中,J(θ)表示损失函数,Y{i}表示训练样本真实类别标签,m表示参与训练的样本的总数。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种融合帧内帧间差异的虚假视频检测方法,其特征在于,该方法包括如下步骤:
S1、系统输入连续的RGB视频帧序列,t时刻的视频图像为Xt,假设输入连续视频帧共有T个图像帧,则输入为X=(X1,X2,......,Xt,......XT);
S2、帧内特征提取,在时刻T,将视频帧Xt输入到帧内特征提取模块中提取帧内特征;
S21、对于输入的t时刻的RGB视频帧Xt,利用SRM滤波器将其转换为高频域的特征图像
Figure FDA0003179061730000012
S22、对Xt
Figure FDA0003179061730000013
分别使用resnet18提取特征,输出RGB特征图和高频特征图;
S23、将RGB特征图和高频特征图中的特征矩阵使用密集协同注意力机制计算得到t时刻帧内特征向量ft
S24、所有T个视频帧经过帧内特征提取生成了帧内特征序列f=(f1,f2,......,ft,......,fT),作为帧间差异特征提取模块的输入;
S3、将帧内特征提取模块输出的特征序列f=(f1,f2,......,ft,......,fT)输入到帧间差异特征提取模块的递归神经网络RNN中提取时序特征,获得融合帧内帧间差异的特征向量;
S4、使用sofmax分类器对融合帧内帧间差异的特征向量进行分类决策。
2.如权利要求1所述的融合帧内帧间差异的虚假视频检测方法,其特征在于,所述步骤S21中的SRM滤波器的输入输出通道数均为3,卷积核如下:
Figure FDA0003179061730000011
3.如权利要求1所述的融合帧内帧间差异的虚假视频检测方法,其特征在于,所述步骤S22中输入RGB视频帧Xt对应的是RGB特征提取流,输入高频域特征图像
Figure FDA0003179061730000021
对应的是高频特征提取流,在resnet18的3次下采样之前,将RGB特征提取流相应层的特征输出使用SRM滤波器进行卷积,然后进行1×1的卷积运算来对齐通道尺寸,使得最终的通道尺寸与输入SRM的通道尺寸相同,得到了低尺度下的高频特征,将此高频特征与高频特征提取流相应层的特征输出相加作为高频特征提取流下一层的输入。
4.如权利要求1所述的融合帧内帧间差异的虚假视频检测方法,其特征在于,所述步骤S22中输入RGB视频帧Xt对应的是RGB特征提取流,输入高频域特征图像
Figure FDA0003179061730000027
对应的是高频特征提取流,将高频特征提取流中某一层输出的特征矩阵提取出来,与RGB特征提取流中相应层的特征矩阵对应相乘,将相乘的结果作为RGB特征提取流下一层的输入。
5.如权利要求1-4任一项所述的融合帧内帧间差异的虚假视频检测方法,其特征在于,所述步骤S23具体包括:所述步骤S22输出的RGB特征图和高频特征图具有相同的尺度和通道数,假定高频特征流和RGB流输出的特征在相同位置的特征矩阵为Sl及Tl,密集协同注意力机制计算过程如下:
Figure FDA0003179061730000022
Figure FDA0003179061730000023
Figure FDA0003179061730000024
其中,Al表示联合矩阵;Wl表示一个可学习的权重矩阵;将Al按行进行归一化,输出由每个RGB特征作为条件的高频特征的注意力矩阵
Figure FDA0003179061730000025
再将Al按列进行归一化,输出由高频特征作为条件的RGB特征的注意力矩阵
Figure FDA0003179061730000026
Sl’表示Sl经过密集协同注意力机制计算的高频特征矩阵,Tl’表示Tl经过密集协同注意力机制计算的RGB特征矩阵;然后通过转换矩阵PS和PT将Sl’和Tl’转换成一维特征向量us和ut;按照这个操作,将高频特征流和RGB流输出的特征图中所有通道的特征矩阵都用上述方法计算得出一维特征向量,最终将这些一维特征向量相加得到t时刻帧内特征向量ft
6.如权利要求5所述的融合帧内帧间差异的虚假视频检测方法,其特征在于,所述将高频特征流和RGB流输出的特征图中所有通道的特征矩阵都用上述方法计算得出一维特征向量具体为:将高频特征流和RGB流输出的特征图中所有的512个通道的特征矩阵都用上述方法计算得出1024个的一维特征向量。
7.如权利要求5所述的融合帧内帧间差异的虚假视频检测方法,其特征在于,所述步骤S3具体包括:在时刻t将ft送入递归神经网络进行计算,在神经网络的顶层得到一系列的隐含层状态向量,在每个时刻,神经网络计算过程如下:
Figure FDA0003179061730000031
Figure FDA0003179061730000032
其中,
Figure FDA0003179061730000033
表示在时刻t,第n层的隐含层状态向量,
Figure FDA0003179061730000034
Figure FDA0003179061730000035
表示计算第一个隐含层的函数,
Figure FDA0003179061730000036
表示计算第n个隐含层的函数,θ1,θn表示相应层的神经网络的参数;经过T个时刻的迭代,在神经网络的顶层产生T个隐含层状态
Figure FDA0003179061730000037
最终将T个隐含层状态
Figure FDA0003179061730000038
求和得到最终的包含帧内和帧间差异的特征向量h,
Figure FDA0003179061730000039
8.如权利要求7所述的融合帧内帧间差异的虚假视频检测方法,其特征在于,所述递归神经网络为门控循环单元类型的递归神经网络。
9.如权利要求7或8所述的融合帧内帧间差异的虚假视频检测方法,其特征在于,所述步骤S4具体包括:
S41、将步骤S3输出的向量h通过全连接层映射到与视频类别数相同的维度上,
y=by+Whyh
假设h为维度c×1的特征向量,那么Why全连接层的参数矩阵,维度为2×c,by对应全连接层的偏置向量;
S42、使用softmax分类器进行分类:
通过softmax分类器的计算,生成对应于K个类别的概率分布;具体的,给定一个视频样本i,通过前述各模块的计算生成对应的输出向量
Figure FDA0003179061730000041
Figure FDA0003179061730000042
通过softmax分类器的计算生成对应K个类别的概率分布,其中对应类别标签C(i)=l,l=1,2,…,K的概率值为:
Figure FDA0003179061730000043
其中,θ表示参与计算的所有参数的集合;根据计算出来的概率分布,取概率值最大的项对应的字符类别标签判断为当前输入视频的类别:
Figure FDA0003179061730000044
10.如权利要求9所述的融合帧内帧间差异的虚假视频检测方法,其特征在于,神经网络训练过程中的损失函数为:
Figure FDA0003179061730000045
Figure FDA0003179061730000046
其中,J(θ)表示损失函数,Y{i}表示训练样本真实类别标签,m表示参与训练的样本的总数。
CN202110841550.6A 2021-07-26 2021-07-26 一种融合帧内帧间差异的虚假视频检测方法 Active CN113537110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110841550.6A CN113537110B (zh) 2021-07-26 2021-07-26 一种融合帧内帧间差异的虚假视频检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110841550.6A CN113537110B (zh) 2021-07-26 2021-07-26 一种融合帧内帧间差异的虚假视频检测方法

Publications (2)

Publication Number Publication Date
CN113537110A true CN113537110A (zh) 2021-10-22
CN113537110B CN113537110B (zh) 2024-04-26

Family

ID=78120707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110841550.6A Active CN113537110B (zh) 2021-07-26 2021-07-26 一种融合帧内帧间差异的虚假视频检测方法

Country Status (1)

Country Link
CN (1) CN113537110B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837147A (zh) * 2021-10-29 2021-12-24 山东省人工智能研究院 一种基于transformer的假视频检测方法
CN113893517A (zh) * 2021-11-22 2022-01-07 动者科技(杭州)有限责任公司 基于差帧法的跳绳真假判断方法及系统
CN115205986A (zh) * 2022-08-09 2022-10-18 山东省人工智能研究院 一种基于知识蒸馏与transformer的假视频检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019202812A1 (ja) * 2018-04-18 2019-10-24 ソニー株式会社 画像処理装置と画像処理方法とプログラムおよび学習装置
CN110533575A (zh) * 2019-09-05 2019-12-03 贵州师范大学 一种基于异构核的深度残差隐写分析方法
CN111445454A (zh) * 2020-03-26 2020-07-24 江南大学 一种图像真伪鉴别方法及其在证照识别中的应用
CN112395943A (zh) * 2020-10-19 2021-02-23 天翼电子商务有限公司 一种基于深度学习伪造人脸视频的检测方法
CN112488013A (zh) * 2020-12-04 2021-03-12 重庆邮电大学 基于时序不一致性的深度伪造视频检测方法及系统
CN112561907A (zh) * 2020-12-24 2021-03-26 南开大学 一种基于双流网络的视频篡改操作检测方法及装置
US20210183070A1 (en) * 2019-12-16 2021-06-17 Varian Medical Systems International Ag Systems and methods for automatic segmentation in medical imaging with multiple anatomical structure segmentation models
US20210209754A1 (en) * 2020-01-02 2021-07-08 Nabin K. Mishra Fusion of deep learning and handcrafted techniques in dermoscopy image analysis

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019202812A1 (ja) * 2018-04-18 2019-10-24 ソニー株式会社 画像処理装置と画像処理方法とプログラムおよび学習装置
CN110533575A (zh) * 2019-09-05 2019-12-03 贵州师范大学 一种基于异构核的深度残差隐写分析方法
US20210183070A1 (en) * 2019-12-16 2021-06-17 Varian Medical Systems International Ag Systems and methods for automatic segmentation in medical imaging with multiple anatomical structure segmentation models
US20210209754A1 (en) * 2020-01-02 2021-07-08 Nabin K. Mishra Fusion of deep learning and handcrafted techniques in dermoscopy image analysis
CN111445454A (zh) * 2020-03-26 2020-07-24 江南大学 一种图像真伪鉴别方法及其在证照识别中的应用
CN112395943A (zh) * 2020-10-19 2021-02-23 天翼电子商务有限公司 一种基于深度学习伪造人脸视频的检测方法
CN112488013A (zh) * 2020-12-04 2021-03-12 重庆邮电大学 基于时序不一致性的深度伪造视频检测方法及系统
CN112561907A (zh) * 2020-12-24 2021-03-26 南开大学 一种基于双流网络的视频篡改操作检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
易林: ""基于深度学习的视频篡改检测方法研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 February 2020 (2020-02-15), pages 138 - 293 *
暴雨轩等: ""深度伪造视频检测技术综述"", 《计算机科学》, vol. 47, no. 9, 15 September 2020 (2020-09-15), pages 283 - 292 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837147A (zh) * 2021-10-29 2021-12-24 山东省人工智能研究院 一种基于transformer的假视频检测方法
CN113837147B (zh) * 2021-10-29 2022-08-05 山东省人工智能研究院 一种基于transformer的假视频检测方法
CN113893517A (zh) * 2021-11-22 2022-01-07 动者科技(杭州)有限责任公司 基于差帧法的跳绳真假判断方法及系统
CN113893517B (zh) * 2021-11-22 2022-06-17 动者科技(杭州)有限责任公司 基于差帧法的跳绳真假判断方法及系统
CN115205986A (zh) * 2022-08-09 2022-10-18 山东省人工智能研究院 一种基于知识蒸馏与transformer的假视频检测方法
CN115205986B (zh) * 2022-08-09 2023-05-19 山东省人工智能研究院 一种基于知识蒸馏与transformer的假视频检测方法

Also Published As

Publication number Publication date
CN113537110B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
Zhang et al. Cross-modality interactive attention network for multispectral pedestrian detection
CN110135366B (zh) 基于多尺度生成对抗网络的遮挡行人重识别方法
Yang et al. A survey of DNN methods for blind image quality assessment
CN113537110B (zh) 一种融合帧内帧间差异的虚假视频检测方法
CN109977893B (zh) 基于层次显著性通道学习的深度多任务行人再识别方法
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN113283403B (zh) 基于对抗学习的伪造人脸视频检测方法
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
Li et al. Image manipulation localization using attentional cross-domain CNN features
Li et al. A review of deep learning methods for pixel-level crack detection
CN116342894A (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN117372898A (zh) 一种基于改进yolov8的无人机航拍图像目标检测方法
CN116204719A (zh) 一种双曲空间下知识增强的多任务推荐方法
CN115240259A (zh) 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN113920094A (zh) 基于梯度残差u型卷积神经网络的图像篡改检测技术
CN111914617B (zh) 一种基于平衡栈式生成式对抗网络的人脸属性编辑方法
CN113221683A (zh) 教学场景下基于cnn模型的表情识别方法
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
Dastbaravardeh et al. Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames
CN113920171B (zh) 基于特征级和决策级融合的双模态目标跟踪方法
CN113313185B (zh) 一种基于自适应空谱特征提取的高光谱图像分类方法
CN115620342A (zh) 跨模态行人重识别方法、系统及计算机
CN115439791A (zh) 跨域视频动作识别方法、装置、设备和计算机可存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant