CN113537110A

CN113537110A - 一种融合帧内帧间差异的虚假视频检测方法

Info

Publication number: CN113537110A
Application number: CN202110841550.6A
Authority: CN
Inventors: 任海青; 杨林; 王浩枫
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-10-22
Anticipated expiration: 2041-07-26
Also published as: CN113537110B

Abstract

本发明涉及一种融合帧内帧间差异的虚假视频检测方法，属于模式识别、人工智能领域。本发明采用基于高频特征流和RGB特征流的帧内特征提取模块提取帧内特征，然后将连续视频帧每帧的特征送入GRU提取帧间特征，在整个特征提取过程中融合了帧内、帧间差异，即考虑了语义一致性，又考虑了时序一致性，有助于提升虚假视频检测效果。本发明提出的融合帧内帧间差异的虚假视频检测方法有助于提升虚假视频检测算法的多样性。本发明面向常见的虚假视频检测任务，主要是用于视频中虚假人脸的检测，也可用于其他通用物体的虚假视频检测。

Description

一种融合帧内帧间差异的虚假视频检测方法

技术领域

本发明属于模式识别、人工智能领域，具体涉及一种融合帧内帧间差异的虚假视频检测方法。

背景技术

随着深度伪造技术的发展，深度伪造技术已经发展为包括视频伪造、声音伪造、文本伪造和微表情合成等多模态的深度伪造技术。其中视频伪造是深度伪造技术最为主要的代表，目前最典型的就是人工智能换脸技术。随着人工智能技术的广泛应用，研究者们对深度视频伪造技术的探索越来越多，同时也推动了虚假视频检测技术的发展。目前，虚假视频检测技术主要包括基于传统图像取证的方法、基于生理信号特征的方法、基于图像篡改痕迹的方法、基于GAN图像特征的方法以及基于数据驱动的方法五大类，其中基于数据驱动的方法是当前虚假视频检测的主流方法之一。

基于数据驱动的学习方法主要分为两大类：一类是图片级，将视频处理成帧，设计不同的网络结构，对帧进行判别，实现帧级的识别，最终对视频的帧进行综合决策；另一类是视频级，利用循环神经网络学习帧序列的时序特征对一个视频进行整体判断。基于图片级的学习方法是现有研究较多的方向之一，借助深度学习强大的学习能力和日益大幅增长的数据集，学习篡改图片的特点可行且高效。此类方法不仅可以判断单帧图像的真伪，还可以利用组合策略检测视频帧，应用范围较广。基于视频级的学习方法可以学习到视频的时序特征，如前后帧的不一致、人脸区域的不稳定等一些篡改视频均会出现的缺陷，泛化性较好。

目前，虽然在虚假视频检测方面基于数据驱动的学习方法取得了一系列的研究成果，是的检测效果大大提升，但是不论是基于图片级的学习方法还是基于视频级的学习方法都还存在着不足之处：

(1)基于图片级的学习方法，学习到的模型大多数依赖相同的数据分布，在面对未知篡改类型时很乏力。此外，如果视频中的篡改人脸非常少，这对基于图片级方法的综合决策策略提出了挑战；

(2)基于视频级的学习方法，主要是根据帧间的时序特征来鉴定视频的真伪，基于时序特征的检测依然对视频的预处理很敏感，也无法判断单帧的真伪。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何提供一种融合帧内帧间差异的虚假视频检测方法，以解决现有基于数据驱动的学习方法的虚假视频检测技术中存在的不足问题。

(二)技术方案

为了解决上述技术问题，本发明提出一种融合帧内帧间差异的虚假视频检测方法，该方法包括如下步骤：

S1、系统输入连续的RGB视频帧序列，t时刻的视频图像为X_t，假设输入连续视频帧共有T个图像帧，则输入为X＝(X₁，X₂，……，X_t，……X_T)；

S2、帧内特征提取，在时刻T，将视频帧X_t输入到帧内特征提取模块中提取帧内特征；

S21、对于输入的t时刻的RGB视频帧X_t，利用SRM滤波器将其转换为高频域的特征图像

S22、对X_t和

分别使用resnet18提取特征，输出RGB特征图和高频特征图；

S23、将RGB特征图和高频特征图中的特征矩阵使用密集协同注意力机制计算得到t时刻帧内特征向量f_t；

S24、所有T个视频帧经过帧内特征提取生成了帧内特征序列f＝(f₁,f₂,……,f_t,……,f_T),作为帧间差异特征提取模块的输入；

S3、将帧内特征提取模块输出的特征序列f＝(f₁,f₂,……,f_t,……,f_T)输入到帧间差异特征提取模块的递归神经网络RNN中提取时序特征，获得融合帧内帧间差异的特征向量；

S4、使用sofmax分类器对融合帧内帧间差异的特征向量进行分类决策。

进一步地，所述步骤S21中的SRM滤波器的输入输出通道数均为3，卷积核如下：

进一步地，所述步骤S22中输入RGB视频帧X_t对应的是RGB特征提取流，输入高频域特征图像

对应的是高频特征提取流，在resnet18的3次下采样之前，将RGB特征提取流相应层的特征输出使用SRM滤波器进行卷积，然后进行1×1的卷积运算来对齐通道尺寸，使得最终的通道尺寸与输入SRM的通道尺寸相同，得到了低尺度下的高频特征，将此高频特征与高频特征提取流相应层的特征输出相加作为高频特征提取流下一层的输入。

对应的是高频特征提取流，将高频特征提取流中某一层输出的特征矩阵提取出来，与RGB特征提取流中相应层的特征矩阵对应相乘，将相乘的结果作为RGB特征提取流下一层的输入。

进一步地，所述步骤S23具体包括：所述步骤S22输出的RGB特征图和高频特征图具有相同的尺度和通道数，假定高频特征流和RGB流输出的特征在相同位置的特征矩阵为S_l及T_l，密集协同注意力机制计算过程如下：

其中，A_l表示联合矩阵；W_l表示一个可学习的权重矩阵；将A_l按行进行归一化，输出由每个RGB特征作为条件的高频特征的注意力矩阵

再将A_l按列进行归一化，输出由高频特征作为条件的RGB特征的注意力矩阵

S_l’表示S_l经过密集协同注意力机制计算的高频特征矩阵，T_l’表示T_l经过密集协同注意力机制计算的RGB特征矩阵；然后通过转换矩阵P_S和P_T将S_l’和T_l’转换成一维特征向量u_s和u_t；按照这个操作，将高频特征流和RGB流输出的特征图中所有通道的特征矩阵都用上述方法计算得出一维特征向量，最终将这些一维特征向量相加得到t时刻帧内特征向量f_t。

进一步地，所述将高频特征流和RGB流输出的特征图中所有通道的特征矩阵都用上述方法计算得出一维特征向量具体为：将高频特征流和RGB流输出的特征图中所有的512个通道的特征矩阵都用上述方法计算得出1024个的一维特征向量。

进一步地，所述步骤S3具体包括：在时刻t将f_t送入递归神经网络进行计算，在神经网络的顶层得到一系列的隐含层状态向量，在每个时刻，神经网络计算过程如下：

其中，

表示在时刻t，第n层的隐含层状态向量，

表示计算第一个隐含层的函数，

表示计算第n个隐含层的函数，θ₁，θ_n表示相应层的神经网络的参数；经过T个时刻的迭代，在神经网络的顶层产生T个隐含层状态

最终将T个隐含层状态

求和得到最终的包含帧内和帧间差异的特征向量h,

进一步地，所述递归神经网络为门控循环单元类型的递归神经网络。

进一步地，所述步骤S4具体包括：

S41、将步骤S3输出的向量h通过全连接层映射到与视频类别数相同的维度上，

y＝b_y+W_hyh

假设h为维度c×1的特征向量，那么W_hy全连接层的参数矩阵，维度为2×c，b_y对应全连接层的偏置向量；

S42、使用softmax分类器进行分类：

通过softmax分类器的计算，生成对应于K个类别的概率分布；具体的，给定一个视频样本i，通过前述各模块的计算生成对应的输出向量

通过softmax分类器的计算生成对应K个类别的概率分布，其中对应类别标签C⁽ⁱ⁾＝l,l＝1,2,…,K的概率值为：

其中，θ表示参与计算的所有参数的集合；根据计算出来的概率分布，取概率值最大的项对应的字符类别标签判断为当前输入视频的类别：

进一步地，神经网络训练过程中的损失函数为：

其中，J(θ)表示损失函数，Y^{i}表示训练样本真实类别标签，m表示参与训练的样本的总数。

(三)有益效果

本发明提出一种融合帧内帧间差异的虚假视频检测方法，本发明的有益效果是：

(1)本发明提出一种融合帧内帧间差异的虚假视频检测方法，此算法采用基于高频特征流和RGB特征流的帧内特征提取模块提取帧内特征，然后将连续视频帧每帧的特征送入GRU提取帧间特征，在整个特征提取过程中融合了帧内、帧间差异，即考虑了语义一致性，又考虑了时序一致性，有助于提升虚假视频检测效果。

(2)本发明提出的融合帧内帧间差异的虚假视频检测方法有助于提升虚假视频检测算法的多样性。

附图说明

图1为本发明融合帧内帧间差异的虚假视频检测方法的模块设计与总体架构图；主要基于数据流向给出本发明的融合帧内帧间差异的虚假视频检测方法的各模块详细设计及相互做用图；

图2为基于多尺度高频特征的双流卷积鉴伪网络结构示意图，给出本发明中使用的神经网络的基本结构；

图3为模态交互注意模块示意图，模块拟采用密集协同注意机制来实现特征之间的长期依赖性；

图4为基于帧间差异的虚假视频特征提取模块示意图，给出本发明中基于GRU学习虚假视频帧间差异特征的流程。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

针对现有基于数据驱动的学习方法的虚假视频检测技术中存在的问题，本发明的目的在于提供一种融合视频帧内、帧间差异的虚假视频检测方法。基于图片级的学习主要是针对单帧图片内部的差异，也就是通过图片内部语义一致性来判断视频的真伪；基于视频级的学习主要是对于多帧图像间的差异，也就是通过帧间图片的时序一致性来判断视频真伪。两者所利用的鉴别特征有所不同,前者将视频检测问题转换成图像检测问题,只关注图像中的空间特征,以发现真实图像和伪造图像的不同。后者则更多关注视频片段中的时序特征,捕捉连续多帧图像中的时序伪造痕迹。本发明提出的方法融合了基于图片级的学习和基于视频级的学习两种方法的优点，在一定程度上能够同时兼顾帧内差异和帧间差异来进行虚假视频的检测。本发明面向常见的虚假视频检测任务，主要是用于视频中虚假人脸的检测，也可用于其他通用物体的虚假视频检测。

本发明解决相关技术问题所用的技术方案是：一种融合帧内帧间差异的虚假视频检测方法。该方法涵盖帧内特征学习、帧间特征学习、决策判断三个阶段。

首先，在帧内特征学习阶段采用双流法，以残差网络为基准网络进行特征提取及学习，双流指RGB流和由RGB流经SRM滤波器获得的图像噪声流(高频特征流)。其中RGB流和高频特征流均使用残差网络，在使用残差网络提取特征的过程中，使用SRM滤波器作用在RGB流中不同尺度的特征图上，提取多尺度高频特征，用以优化高频特征流中提取的特征。此外，还使用高频特征引导的空间注意力模块优化RGB流中提取的特征。

其次，在帧间特征学习阶段采用门控循环单元(Gated Recurrent Unit)类型的递归神经网络的方法来检测深度伪造视频，采用第一阶段中基于双流法提取的视频帧帧内特征，将特征向量送入GRU对帧序列的时序状态进行学习。

最后，在决策判断阶段，由全连接层对帧序列特征做特征加权，使用逻辑回归与softmax函数求得深度伪造视频的鉴伪结果。本发明的方法流程为：

1.图1是融合帧内帧间差异的虚假视频检测方法的模块设计与总体架构，具体流程为：

(1)帧内特征学习模块：帧内特征学习模块主要基于双流法提取单帧图像内部的特征，此模块共由多尺度高频特征提取模块、模态交互注意模块和残差引导的空间注意模块三个子模块组成；

①多尺度高频特征提取模块：高频特征提取主要是使用SRM滤波器提取高频特征，获得高频特征图，SRM滤波器提取的高频噪声特征的良好性能可以使检测模型探索噪声空间并提高模型的泛化能力。

②高频特征引导的空间注意模块：在输入高频特征图后，利用SRM滤波器产生的高频特征来引导RGB模态下的特征学习。

③模态交互注意模块：模态交互注意模块主要是捕捉不同模态(特征)之间的长期依赖性，并模拟低频纹理和高频噪声之间的相互作用，采用密集协同注意机制使两种模态互相引导学习，优化特征。

(2)帧间特征学习模块：本模块拟采用门控循环单元(Gated Recurrent Uni t)类型的递归神经网络来检测深度伪造视频。为了能够利用丰富的时序信息进行决策分类，本模块构建了全局时序特征分类模块,将帧内特征学习模块提取的特征输入到GRU中提取片段级别时序特征。

(3)决策判断模块：输入视频经过上述两个阶段学习到的特征，决策判断模块主要依据学习到的特征对视频进行分类，分类损失拟采用Softmax损失函数。

图1为融合帧内帧间差异的虚假视频检测方法的模块设计与总体架构图，主要涉及帧内特征提取模块，帧间特征提取模块，决策分类模块，其中帧内特征提取模块主要包含多尺度高频特征提取模块和模态交互注意模块具体方法包括下列步骤：

S1、系统输入连续的RGB视频帧序列

整个系统的输入是连续的RGB视频帧序列，t时刻的视频图像X_t输入帧内特征提取模块中提取t时刻视频帧图像的帧内特征h_t，假设输入连续视频帧共有T个图像帧，那么系统的输入就是X＝(X₁，X₂，……，X_t，……X_T)。

S2、帧内特征提取

在时刻T，将视频帧X_t输入到帧内特征提取模块中提取帧内特征。帧内特征提取模块主要包括多尺度高频特征提取、模态交互注意两个子模块。

1)多尺度高频特征提取模块：

多尺度高频特征提取模块的一个关键技术是SRM滤波器，SRM指是《Rich modelsfor steganalysis of digital images》中提出来的，是Steganalysis Rich Model的缩写，富隐写分析模型的意思,在本发明中使用下面3个卷积核实现SAM滤波器的性能，提取高频域的特征图像。

SRM滤波器的输入输出通道数均为3，卷积核如下：

S22、基于多尺度高频特征提取子模块和高频特征引导空间注意子模块，对X_t和

分别使用resnet18提取特征，输出RGB特征图和高频特征图。

图2是多尺度高频特征提取模块示意图，对于输入的RGB视频帧X_t，利用SRM滤波器将其转换为高频域的特征图像

SRM滤波器的输入输出通道数均为3，输入RGB图片，通过上面的3个滤波器获得的高频特征图像

的通道数依旧为3。

在本发明中，对X_t和

分别使用resnet18提取特征，过程如图2所示。输入RGB视频帧X_t对应的是RGB特征提取流，输入高频域特征图像

对应的是高频特征提取流。为了提取更多的高频特征，在resnet18的3次下采样之前，将RGB特征提取流相应层的特征输出使用SRM滤波器进行卷积，然后进行1×1的卷积运算来对齐通道尺寸，使得最终的通道尺寸与输入SRM的通道尺寸相同，这样得到了低尺度下的高频特征，将此高频特征与高频特征提取流相应层的特征输出相加作为高频特征提取流下一层的输入。

高频特征引导空间注意子模块：如图2中黑线连接的部分所示，将高频特征提取流中某一层输出的特征矩阵提取出来，与RGB特征提取流中相应层的特征矩阵对应相乘(两个特征提取流在相同的层数输出的特征矩阵尺度和特征图通道数相同)，将相乘的结果作为RGB特征提取流下一层的输入。

根据研究者们以往的研究结果中的空间注意力的可视化特征图，高响应区域会在被伪造篡改人脸的异常边界附近出现，而却在真实人脸中呈现均匀分布，这意味着高频特征引导的空间注意可以帮助特征提取器聚焦于伪造痕迹。因此本发明引入空间注意子模块。

2)模态交互注意模块

模态交互注意模块：本模块拟采用密集协同注意机制来实现特征之间的长期依赖性，并且学习高频特征和底层RGB特征两种模态之间的关系，实现互补及融合。其中，密集协同注意力机制的计算方法如图3所示。

S23、将RGB特征图和高频特征图中的特征矩阵使用密集协同注意力机制计算得到t时刻帧内特征向量f_t。

多尺度高频特征提取模块输出RGB特征图和高频特征图，RGB特征图和高频特征图具有相同的尺度和通道数，假定高频特征流和RGB流输出的特征在相同位置的特征矩阵为S_l及T_l，密集协同注意力机制计算过程如下：

其中，A_l表示联合矩阵；W_l表示一个可学习的权重矩阵。将A_l按行进行归一化，输出由每个RGB特征作为条件的高频特征的注意力矩阵

S_l’表示S_l经过密集协同注意力机制计算的高频特征矩阵，T_l’表示T_l经过密集协同注意力机制计算的RGB特征矩阵。然后通过转换矩阵P_S和P_T将S_l’和T_l’转换成一维特征向量u_s和u_t。按照这个操作，将高频特征流和RGB流输出的特征图中所有的512个通道的特征矩阵都用上述方法计算得出1024个的一维特征向量(参见图2，多尺度高频特征提取模块输出的高频特征流和RGB流各包括512通道)。其中不同的特征矩阵对应的W_l、P_S和P_T均不相同，且都是可训练的参数。最终将这1024个一维特征向量相加得到t时刻帧内特征向量f_t。

3)帧内特征输出

S24、所有T个视频帧经过帧内特征提取生成了帧内特征序列f＝(f₁,f₂,……,f_t,……,f_T),作为帧间差异特征提取模块的输入。

3.基于帧间差异的虚假视频特征提取模块GRU

如图4所示，本模块拟结合卷积神经网络和长短期记忆网络(Long Short-TermMemory)来检测深度伪造视频。为了能够利用丰富的时序信息进行决策分类,本模块构建了全局时序特征分类模块,将帧内特征提取模块输出的特征序列f＝(f₁,f₂,……,f_t,……,f_T)输入到递归神经网络(Recurrent Neural Network,RNN)中提取时序特征。

S3、将帧内特征提取模块输出的特征序列f＝(f₁,f₂,……,f_t,……,f_T)输入到帧间差异特征提取模块的递归神经网络(Recurrent Neural Network,RNN)中提取时序特征，获得融合帧内帧间差异的特征向量。

对于序列的识别，递归神经网络(RNN)是最好的选择之一。在时刻t将f_t送入递归神经网络进行计算，在神经网络的顶层得到一系列的隐含层状态向量，在每个时刻，神经网络计算过程如下：

其中，

表示在时刻t，第n层的隐含层状态向量，

在本发明中N＝2，

表示计算第一个隐含层的函数，

表示计算第n个隐含层的函数，θ₁，θ_n表示相应层的神经网络的参数。经过T个时刻的迭代，在神经网络的顶层产生T个隐含层状态

在本发明中，使用的是门控循环单元(Gated Recurrent Unit)类型的递归神经网络。

最终将T个隐含层状态

求和得到最终的包含帧内和帧间差异的特征向量h,

3.分类决策模块

主要是结合视频中的时序信息(帧间差异)和局部信息(帧内差异)来发现伪造痕迹从而鉴别视频真伪。多特征融合主要指在特征提取阶段的融合，主要是先通过帧内特征提取模块提取帧内特征，再以提取的帧内特征作为输入，使用GRU提取帧间特征。分类决策模块主要是通过学习到的融合帧内帧间差异的特征，使用sofmax分类器进行分类决策。

S41、将GRU输出的向量h通过全连接层映射到与视频类别数相同的维度上，一般视频类别为2，

y＝b_y+W_hyh

假设h为维度c×1的特征向量，那么W_hy全连接层的参数矩阵，维度为2×c，b_y对应全连接层的偏置向量。

S42、使用softmax分类器进行分类：

通过softmax分类器的计算，会生成对应于K(K＝2)个类别的概率分布，这个概率分布用于判别当前视频属于哪个类别。具体的，给定一个视频样本i，通过前述各模块的计算生成对应的输出向量

其中，θ表示参与计算的所有参数的集合。根据计算出来的概率分布，取概率值最大的项对应的字符类别标签判断为当前输入视频的类别：

神经网络训练过程中的损失函数为：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。