CN113935365A

CN113935365A - 基于空域和频域双特征的深度伪造视频鉴定方法及系统

Info

Publication number: CN113935365A
Application number: CN202111137316.1A
Authority: CN
Inventors: 边山; 李颖; 王春桃; 黄远航; 钟浩; 胡娟; 甘雨
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-01-14
Anticipated expiration: 2041-09-27
Also published as: CN113935365B

Abstract

本发明提出一种基于空域和频域双特征的深度伪造视频鉴定方法及系统，涉及多媒体信息安全的技术领域，首先从待鉴定视频中提取视频帧，从提取到的视频帧中提取人脸区域图像，然后进行频域的图像分割及频率域分支特征提取、空间域分支特征提取，最后频率域分支特征和空间域分支特征合并形成特征向量，用于卷积神经网络分类器的训练和测试，避免当前深度伪造视频鉴定方法对低质量视频检测精度低、跨库检测性能差的问题，综合利用空域和频域特征，能够有效检测由深度伪造技术生成的虚假视频，提高了检测精度。

Description

基于空域和频域双特征的深度伪造视频鉴定方法及系统

技术领域

本发明涉及多媒体信息安全的技术领域，更具体地，涉及一种基于空域和频域双特征的深度伪造视频鉴定方法及系统。

背景技术

随着生成对抗网络和自动编码器的深度伪造技术的快速发展，深度伪造视频已成为当今互联网上传播最为广泛的媒体之一。深度伪造技术降低了编辑人脸、篡改人脸的成本，导致深度伪造技术生成虚假视频数量的显著增加。此外，由于无处不在的互联网和各种视频共享网站(例如YouTube、抖音)的流行，深度伪造视频在社交平台上更易形成广泛传播趋势，对多媒体信息安全产生了巨大的威胁。

现有的深度伪造技术可以通过交换源对象与目标对象的面部区域，或使用源对象的面部动作驱动目标对象的面部动作的方式，在不修改视频中对象身份信息的情况下，修改人物的表情、所说的话，从而达到歪曲事实的目的。于个人而言，涉及其肖像的深度伪造视频的恶意传播可能侵犯公民的隐私权及名誉权；于社会而言，不法分子借此技术传播谣言将影响社会舆情稳定；于国家而言，虚假视频一旦被用于传播错误思想等恶劣途径，将严重威胁国家安全及社会稳定。

目前，深度伪造视频鉴定方式主要分为两类：空间域检测和频率域检测。在空间域检测层面，2021年6月8日，中国发明专利(公布号：CN112927202A) 中提出了一种多时域多特征结合的Deepfake视频检测方法及系统，利用多时域模块捕获视频的时域信息，结合多特征对深度伪造视频进行检测，具有较好的检测效果，能提高泛化能力，但低质量视频中的伪影或压缩错误在空间域检测时很难被发现，对低质量视频的检测精度低；在频率域检测层面，大多仅仅从幅度谱上去提取特征，但幅度谱并不能直接表征频率域包含的信息量，导致频率域的信息不能完全被利用。

发明内容

为解决当前深度伪造视频检测方法的对低质量视频检测精度低、跨库检测性能差的问题，本发明提出一种基于空域和频域双特征的深度伪造视频鉴定方法及系统，综合利用空域和频域特征，能够有效检测由深度伪造技术生成的虚假视频，提高了检测精度。

为了达到上述技术效果，本发明的技术方案如下：

一种基于空域和频域双特征的深度伪造视频鉴定方法，所述方法包括：

从待鉴定视频中提取视频帧，从提取到的视频帧中提取人脸区域图像；

将人脸区域图像从RGB颜色空间域变换到频率域，并进行频率响应分解，得到一系列频率图像分量，基于频率图像分量进行频率域特征提取，得到频率域特征表示F₁；

对人脸区域图像进行RGB空间域分支的浅层特征提取，基于浅层特征及多重注意力机制，进一步得到全局深层特征表示F₂；

将频率域特征表示F₁和全局深层特征表示F₂合并，形成高维特征集合F；

选定用于深度伪造视频鉴定的卷积神经网络分类器，将高维特征集合F作为特征向量，对卷积神经网络分类器进行训练和鉴定分类测试。

在本技术方案中，首先从待鉴定视频中提取视频帧，从提取到的视频帧中提取人脸区域图像，然后进行频域的图像分割及频率域分支特征提取、空间域分支特征提取，最后合并形成特征向量，进行卷积神经网络分类器的训练和测试，其中，依据RGB颜色空间域通过注意力机制提取到的深层特征表示及伪造视频中频率域将存在异常频率统计的特性，提取出高维特征向量，可以有效地检测经深度伪造技术生成的虚假视频，是根据深度伪造视频的空间域信息及频率域信息的相关特性提出的基于深度学习的分类预测方法，提高了低质量视频的检测精度及跨库检测性能。

优选地，从待鉴定视频中提取视频帧后，利用BlazeFace人脸检测模型从提取到的视频帧中提取人脸区域图像，提取的人脸区域图像的大小固定。

优选地，利用离散余弦变换将人脸区域图像从RGB颜色空间域变换到频率域，所述的频率响应分解基于二进制滤波器和可学习的滤波器组合实现，设人脸区域图像表示为x，b_i表示二进制滤波器，l_i表示可学习的滤波器；

利用

将可学习的滤波器限制在-1和+1之间；二进制滤波器和可学习的滤波器组合表示为：

F_i＝b_i+σ(l_i)

F_i表示组合滤波器，利用组合滤波器进行频率响应分解的表达式为：

Y_i＝DCT(x)e F_i

其中，DCT(.)表示离散余弦变换；Y_i表示频率响应分解后得到的频率图像分量；

将频率响应分解后得到的频率图像分量经过离散余弦变换的逆变换，返回至 RGB颜色空间，得到新的RGB表示：

Z_i＝DCT^-1(Y_i)

将Z_i沿着通道方向进行拼接，最终得到频率域信息图，选定骨干网络为在ImageNet上进行了预训练的XceptionNet，将频率域信息作为频率域分支的输入，送入预先训练的XceptionNet模型中进行频率域特征提取，得到频率域特征表示 F₁。

在此，频率响应分解基于二进制滤波器和可学习的滤波器组合实现可以对频率进行自适应地选择，完成频域中对人脸区域图像的分割。

优选地，二进制滤波器将频率域划分为低、中、高三个频带。

优选地，选定预先训练的模型为XceptionNet，将人脸区域图像送入预先训练的模型XceptionNet进行RGB空间域分支的浅层特征提取。

优选地，XceptionNet包括依次连接的入口流、中间流及出口流，引入多重注意力模块，人脸区域图像顺序输入至XceptionNet的入口流，通过重复8次的中间流，最后通过出口流，其中浅层特征由入口流提取，XceptionNet的中间流及出口流包括Relu层输出深层特征图；浅层特征送入多重注意力模块，多重注意力模块对浅层特征进行加权，得到多重注意力图，表达式为：

f_att(x)＝ReLU(BN(Conv(f_t(x))))

其中，f_t(x)表示浅层特征；f_att(x)表示多重注意力图；ReLU表示非线性激活操作；BN表示归一化网络层操作；

多重注意力图引导中间流及出口流输出的深层特征图进行注意力池化，注意力图与深层特征图通过双线性差值，调整到相同大小，得到全局深层特征表示 F₂，表达式为：

F₂＝A_s·f_shaddow

其中，A_s表示多重注意力图均通过双线性插值调整到与深层特征图同一大小，并拼接成的单通道注意力图；f_deep表示XceptionNet出口流得到的深层特征图。

在此，利用多重注意力机制，多重注意力机制将帮助空间域分支特征更好地聚焦和捕捉深度伪造特征，从而引导深层特征的聚合，可以得到全局深层特征表示，提高跨库检测性能。

优选地，用于深度伪造视频鉴定的卷积神经网络分类器的骨干网络为XceptionNet，在鉴定分类测试时，视频数据库由大型人脸深度伪造数据集 FaceForensics++、Celeb-DF、DFDC构成，每个数据集均包括真实视频和伪造视频，采用十折交叉法对深度伪造视频进行鉴定分类测试。

本发明还提出一种基于空域和频域双特征的深度伪造视频鉴定系统，所述系统包括：

人脸提取模块，用于从待鉴定视频中提取视频帧，从提取到的视频帧中提取人脸区域图像；

频率域特征提取模块，用于将人脸区域图像从RGB颜色空间域变换到频率域，并进行频率响应分解，得到一系列频率图像分量，基于频率图像分量进行频率域特征提取，得到频率域特征表示F₁；

全局深层特征提取模块，用于对人脸区域图像进行RGB空间域分支的浅层特征提取，基于浅层特征及多重注意力机制，进一步得到全局深层特征表示F₂；

融合模块，用于将频率域特征表示F₁和全局深层特征表示F₂合并，形成高维特征集合F；

训练测试模块，选定用于深度伪造视频鉴定的卷积神经网络分类器，将高维特征集合F作为特征向量，对卷积神经网络分类器进行训练和鉴定分类测试。

本发明还提出一种计算机设备，包括处理器、存储器及存储在存储器上的计算机程序，所述处理器执行存储在存储器上的计算机程序，以实现上述任一基于空域和频域双特征的深度伪造视频鉴定方法。

本发明还提出一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，该指令被处理器执行时，实现上述任一基于空域和频域双特征的深度伪造视频鉴定方法的步骤。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出一种基于空域和频域双特征的深度伪造视频鉴定方法及系统，首先从待鉴定视频中提取视频帧，从提取到的视频帧中提取人脸区域图像，然后进行频域的图像分割及频率域分支特征提取、空间域分支特征提取，最后频率域分支特征和空间域分支特征合并形成特征向量，用于卷积神经网络分类器的训练和测试，避免当前深度伪造视频鉴定方法对低质量视频检测精度低、跨库检测性能差的问题，综合利用空域和频域特征，能够有效检测由深度伪造技术生成的虚假视频，提高了检测精度。

附图说明

图1表示本发明实施例1中提出的基于空域和频域双特征的深度伪造视频鉴定方法的流程示意图；

图2表示本发明实施例1中提出的深度伪造视频的生成过程示意图；

图3表示应用本发明实施例1中提出的基于空域和频域双特征的深度伪造视频鉴定方法的整体框架图；

图4表示本发明实施例1中提出的基于空域和频域双特征的深度伪造视频鉴定方法实施时浅层特征、深层特征及特征合并的过程图；

图5表示深度伪造视频帧应用本发明实施例1中提出的基于空域和频域双特征的深度伪造视频鉴定方法后，通过类激活映射的得到的人脸热力图；

图6表示本发明实施例2中提出的基于空域和频域双特征的深度伪造视频鉴定系统结构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好地说明本实施例，附图某些部位会有省略、放大或缩小，并不代表实际尺寸；

对于本领域技术人员来说，附图中某些公知内容说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

附图中描述位置关系的仅用于示例性说明，不能理解为对本专利的限制；

实施例1

如图1所示，本发明实施例中提供了一种基于空域和频域双特征的深度伪造视频鉴定方法，可以包括以下步骤：

S1.从待鉴定视频中提取视频帧，从提取到的视频帧中提取人脸区域图像；

如图2所示，基于编码器的深度伪造视频的一种生成过程图，两段含人脸图片的视频通过编码器编码，经中间状态后，解码的过程互换，得到深度伪造人脸视频。在某一视频需要鉴定时，首先，如图3所示，从待鉴定视频中提取视频帧后，利用BlazeFace人脸检测模型从提取到的视频帧中提取人脸区域图像，对提取的人脸区域图像进行裁剪，裁剪的大小固定，并写入数据文件中备用；

S2.将人脸区域图像从RGB颜色空间域变换到频率域，并进行频率响应分解，得到一系列频率图像分量，基于频率图像分量进行频率域特征提取，得到频率域特征表示F₁；

具体的，利用python脚本语言，读取原先备用的数据文件，利用离散余弦变换将人脸区域图像从RGB颜色空间域变换到频率域，频率响应分解基于三个二进制滤波器和可学习的滤波器组合实现，二进制滤波器将频率域划分为低、中、高三个频带，可以对频率进行自适应地选择，完成频域中对人脸区域图像的分割，设人脸区域图像表示为x，b_i表示二进制滤波器，l_i表示可学习的滤波器；利用

F_i＝b_i+σ(l_i)

Y_i＝DCT(x)e F_i

Z_i＝DCT^-1(Y_i)

将Z_i沿着通道方向进行拼接，最终得到频率域信息图，选定骨干网络为在ImageNet上进行了预训练的XceptionNet，将频率域信息作为频率域分支的输入，送入预先训练的XceptionNet模型中进行频率域特征提取，得到频率域特征表示 F1。XceptionNet是深度学习中常用的分类骨干网络，一种流行的轻量级卷积神经网络。常作为深度伪造检测分类的骨干网络，ImageNet为大型分类数据集，通道方向即Z的第二个维度，以普通RGB图像为例，其实质上为H*W*C的矩阵，H和W分别表示长和宽，C即为第三个维度，表示通道，按照通道方向重组即是将矩阵按照第三个维度进行拼接。如两张RGB图像的矩阵，均为 512*512*3，按照通道方向重组得到512*512*6的矩阵。

S3.对人脸区域图像进行RGB空间域分支的浅层特征提取，基于浅层特征及多重注意力机制，进一步得到全局深层特征表示F₂；

在本实施例中，具体的过程结构框图参见图4，选定预先训练的模型为XceptionNet，将人脸区域图像送入预先训练的模型XceptionNet进行RGB空间域分支的浅层特征提取；RGB空间域与频域相对应，由于RGB空间域分支接受的输入为RGB图像，而频域接受的输入为频率域信息。因此此表述是为了与频率域分支进行区分。浅层特征表示由骨干网络(即XceptionNet)的前几层提取得到。

XceptionNet包括依次连接的入口流、中间流及出口流，引入多重注意力模块，人脸区域图像顺序输入至XceptionNet的入口流，通过重复8次的中间流，最后通过出口流，其中浅层特征由入口流提取，XceptionNet的中间流及出口流包括Relu层输出深层特征图；浅层特征送入多重注意力模块，多重注意力模块对浅层特征进行加权，得到多重注意力图，表达式为：

f_att(x)＝ReLU(BN(Conv(f_t(x))))

F₂＝A_s·f_shaddow

其中，A_s表示多重注意力图均通过双线性插值调整到与深层特征图同一大小，并拼接成的单通道注意力图；f_deep表示XceptionNet出口流得到的深层特征图，即利用多重注意力机制，多重注意力机制将帮助空间域分支特征更好地聚焦和捕捉深度伪造特征，从而引导深层特征的聚合，可以得到全局深层特征表示，提高跨库检测性能。

S4.将频率域特征表示F₁和全局深层特征表示F₂合并，形成高维特征集合F；

S5.选定用于深度伪造视频鉴定的卷积神经网络分类器，将高维特征集合F 作为特征向量，对卷积神经网络分类器进行训练和鉴定分类测试，其中，如何对卷积神经网络分类器进行训练是本领域所熟知的，此处不再赘述，图5表示应用上述方法后通过类激活映射的得到的人脸热力图。

在本实施例中，用于深度伪造视频鉴定的卷积神经网络分类器的骨干网络为XceptionNet，在鉴定分类测试时，视频数据库由大型人脸深度伪造数据集 FaceForensics++、Celeb-DF、DFDC构成，每个数据集均包括真实视频和伪造视频，采用十折交叉法对深度伪造视频进行鉴定分类测试。其中，FaceForensics++ 包括真实视频3000个，伪造视频12000个。Celeb-DF包括真实视频408个、伪造视频795个，DFDC包括真实视频100000个，伪造视频19154个。

在FaceForensics++人脸深度伪造数据集测试中，鉴定测试结果如表1所示， HQ表示高质量视频，LQ表示低质量视频，以FF++表示FaceForensics++人脸深度伪造数据集，表1中有数据的第一列和第二列为帧级检测结果，第三列和第四列为视频级检测结果，区中AUC表示曲线下面积，能够评估卷积神经网络分类器的分类能力，ACC为准确率，能够评估卷积神经网络分类器分类的准确度，通过表1可以看出，无论是准确率还是准确度，利用本发明实施例所提出的方法，对高质量视频和低质量视频均能准确地检测出。

表1

在DFDC人脸深度伪造数据集测试中，鉴定测试结果如表2所示，其中，有数据的第一列代表DFDC数据集中的帧级检测结果，第二列为DFDC数据集中的视频级检测结果，卷积神经网络分类器的分类能力在帧级和视频级相差不大。

表2

在FF++和DFDC人脸深度伪造数据集跨库性能评估时，如表3所示，第一行代表模型在FF++上进行训练，同时在FF++数据集上进行测试的结果，表中第二行为在FF++数据集上进行训练，同时在Celeb-DF数据集上进行测试的结果，表明了在跨库的情况下，本发明实施例中所提处的方法依然有效，表明本发明对于深度伪造视频的鉴定具有较高的准确性。

实施例2

相应于上述方法的实施例，如图6所示，本发明还提出一种基于空域和频域双特征的深度伪造视频鉴定系统，包括：

人脸提取模块101，用于从待鉴定视频中提取视频帧，从提取到的视频帧中提取人脸区域图像；

频率域特征提取模块102，用于将人脸区域图像从RGB颜色空间域变换到频率域，并进行频率响应分解，得到一系列频率图像分量，基于频率图像分量进行频率域特征提取，得到频率域特征表示F₁；

全局深层特征提取模块103，用于对人脸区域图像进行RGB空间域分支的浅层特征提取，基于浅层特征及多重注意力机制，进一步得到全局深层特征表示 F₂；

融合模块104，用于将频率域特征表示F₁和全局深层特征表示F₂合并，形成高维特征集合F；

训练测试模块105，选定用于深度伪造视频鉴定的卷积神经网络分类器，将高维特征集合F作为特征向量，对卷积神经网络分类器进行训练和鉴定分类测试。

实施例3

本实施例中提出一种计算机设备，包括处理器、存储器及存储在存储器上的计算机程序，所述处理器执行存储在存储器上的计算机程序，以实现上述任一基于空域和频域双特征的深度伪造视频鉴定方法。

存储器可以包括随机存储器RAM，也可以包括非易失性存储器，例如至少一个磁盘存储器。处理器可以是通用处理器，包括中央处理器、网络处理器等；还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

实施例4

本实施例中提出一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，该指令被处理器执行时，实现上述任一基于空域和频域双特征的深度伪造视频鉴定方法的步骤。

显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于空域和频域双特征的深度伪造视频鉴定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于空域和频域双特征的深度伪造视频鉴定方法，其特征在于，从待鉴定视频中提取视频帧后，利用BlazeFace人脸检测模型从提取到的视频帧中提取人脸区域图像，提取的人脸区域图像的大小固定。

3.根据权利要求2所述的基于空域和频域双特征的深度伪造视频鉴定方法，其特征在于，利用离散余弦变换将人脸区域图像从RGB颜色空间域变换到频率域，所述的频率响应分解基于二进制滤波器和可学习的滤波器组合实现，设人脸区域图像表示为x，b_i表示二进制滤波器，l_i表示可学习的滤波器；

利用

F_i＝b_i+σ(l_i)

Y_i＝DCT(x)e F_i

将频率响应分解后得到的频率图像分量经过离散余弦变换的逆变换，返回至RGB颜色空间，得到新的RGB表示：

Z_i＝DCT^-1(Y_i)

将Z_i沿着通道方向进行拼接，最终得到频率域信息图，选定骨干网络为在ImageNet上进行了预训练的XceptionNet，将频率域信息作为频率域分支的输入，送入预先训练的XceptionNet模型中进行频率域特征提取，得到频率域特征表示F₁。

4.根据权利要求3所述的基于空域和频域双特征的深度伪造视频鉴定方法，其特征在于，二进制滤波器将频率域划分为低、中、高三个频带。

5.根据权利要求1所述的基于空域和频域双特征的深度伪造视频鉴定方法，其特征在于，选定预先训练的模型为XceptionNet，将人脸区域图像送入预先训练的模型XceptionNet进行RGB空间域分支的浅层特征提取。

6.根据权利要求5所述的基于空域和频域双特征的深度伪造视频鉴定方法，其特征在于，XceptionNet包括依次连接的入口流、中间流及出口流，引入多重注意力模块，人脸区域图像顺序输入至XceptionNet的入口流，通过重复8次的中间流，最后通过出口流，其中浅层特征由入口流提取，XceptionNet的中间流及出口流包括Relu层输出深层特征图；浅层特征送入多重注意力模块，多重注意力模块对浅层特征进行加权，得到多重注意力图，表达式为：

f_att(x)＝ReLU(BN(Conv(f_t(x))))

多重注意力图引导中间流及出口流输出的深层特征图进行注意力池化，注意力图与深层特征图通过双线性差值，调整到相同大小，得到全局深层特征表示F₂，表达式为：

F₂＝A_s·f_deep

7.根据权利要求1所述的基于空域和频域双特征的深度伪造视频鉴定方法，其特征在于，用于深度伪造视频鉴定的卷积神经网络分类器的骨干网络为XceptionNet，在鉴定分类测试时，视频数据库由大型人脸深度伪造数据集FaceForensics++、Celeb-DF、DFDC构成，每个数据集均包括真实视频和伪造视频，采用十折交叉法对深度伪造视频进行鉴定分类测试。

8.一种基于空域和频域双特征的深度伪造视频鉴定系统，其特征在于，所述系统包括：

9.一种计算机设备，其特征在于，包括处理器、存储器及存储在存储器上的计算机程序，所述处理器执行存储在存储器上的计算机程序，以实现权利要求1～7任意一项所述的基于空域和频域双特征的深度伪造视频鉴定方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，该指令被处理器执行时，实现权利要求1～7任意一项基于空域和频域双特征的深度伪造视频鉴定方法的步骤。