CN114898438A

CN114898438A - 一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法

Info

Publication number: CN114898438A
Application number: CN202210586444.2A
Authority: CN
Inventors: 吴铭侃; 王波; 王菲
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-08-12
Anticipated expiration: 2042-05-27
Also published as: CN114898438B

Abstract

一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法，属于深度伪造检测技术领域，其包括如下步骤：S1、从空间域提取能够表示原始图像整体模式的图像色彩特征；S2、提取两种不同的频域特征，一是浅层低频特征，直接从原始的输入图像提取浅层低频特征，使用浅层低频特征将原始rgb图像扩展到频域；另一是深度频域特征，提取输入图像的残差图，使用卷积提取器提取高频特征。S3、使用由门控卷积组成的自适应特征融合模块将浅层低频特征和深度频域特征融合，使得不同分支的特征在分类阶段得到充分表达。本发明在众多数据集上做了大量的实验，实验结果证明了我们方法的有效性和鲁棒性。

Description

一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法

技术领域

本发明属于深度伪造检测技术领域，具体涉及一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法。

背景技术

深度伪造即AI换脸，近年来，其在互联网上掀起了一股热潮。深度伪造(Deepfake)是一项利用人工智能技术，实现对音频、图像或视频等数字内容进行伪造的智能处理技术，一般专指针对于人脸区域的篡改，能够模仿特定的人物或者让特定人物看起来在做特定的事情，并且对人类视觉效果来说，可以达到以假乱真的程度。

随着深度学习技术中的生成对抗网络(Generative Adversarial Networks,GAN)和自动编码器(Autoencoder)发展，基于数据驱动的深度伪造生成技术在伪造图像上几乎不会留下任何痕迹。科技往往是把双刃剑，技术在充实我们的娱乐方式，和便利我们的生活的同时，也可能悄悄地影响着我们，不法分子将深度伪造技术用于生成诽谤图像用于诋毁他人，生成虚假新闻图像，伪造公众人物言论，极大的危害了个人名誉，社会信任和国家稳定。因此，我们从人脸伪造这种具有最大危害的图像伪造技术出发，研究能够快速、准确地检测出伪造图像的防范措施，我们称其为深度伪造检测(Deepfake Detection)。

深度伪造生成的图像或视频内容通常都包含人脸且将面部作为主要内容，基于此生成一些多媒体信息用于诽谤、污蔑和造谣等的目的。

从2018年深度伪造一词出现开始，随着人们对于深度伪造产生的危害的认识，以及国家出台相关法律对于深度伪造内容传播的限制，深度伪造检测技术的也迎来了非常迅速的发展。尽管这些方法在公开数据集上能够达到90％甚至更高的准确率，但他们普遍存在以下问题：一是，大多数方法试图寻找在深伪合成时遗留在图像上的视觉伪影，然而采用生成对抗网络合成的图像对原始图像模式的更改非常地小甚至可以被修复，尤其是对于图像地色彩模式；二是，在现实场景中，在互联网上传播的图像大多经过二次压缩，许多对于原始分辨率图像具有较高检测精度的分类器，将其应用到重压缩后的图像时精度会显著下降；此外，尽管有许多的方法将图像的频域特征纳入考虑，但是人有部分缺陷，即他们都使用了固定的滤波器来提取频域特征，这些特征往往不足以应对多变的伪造生成图像和GAN网络生成器，十分容易被新的方法攻击。

发明内容

为了解决上述存在的问题，本发明提出：一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法，包括一个空间域特征提取模块和两个频域特征提取模块，并使用自适应的跨域融合模块将各个模块的特征进行融合；其包括如下步骤：

S1、从空间域提取能够表示原始图像整体模式的图像色彩特征；

S2、提取两种不同的频域特征，一是浅层低频特征，直接从原始的输入图像提取浅层低频特征，使用所述浅层低频特征将原始rgb图像扩展到频域；另一是深度频域特征，提取输入图像的残差图，使用卷积提取器提取高频特征，图像的残差变换图表示原始图像中人脸的融合边缘信息，而减少图像平滑部分色彩差异的影响。

S3、使用由门控卷积组成的自适应特征融合模块将浅层低频特征和深度频域特征融合，使得不同分支的特征在分类阶段得到充分表达。

进一步地，所述的步骤S1具体如下：在特征提取阶段被分成了两个分支，浅层复合特征提取分支和深层频域特征提取分支，模型使用ResNet网络作为基础骨干网；

首先使用卷积神经网络提取图像的色彩域特征，选择多贝西小波变换作为滤波方式，多贝西小波变换使用短时窗口来分析长信号，通过寻找一个紧密支撑的正交集以达到缩放的目的来适应图像的局部和平滑变化；

多贝西小波变换由一个整数L和一系列的小波滤波系数{a_i,i＝0,1,2,...,L-1}界定，并且有以下两个关系式规定：

其中ρ(x)是幅值函数，ψ(x)是小波变换的母函数，L就是多贝西小波变换的阶数，x是时域的步长，如式所示，在小波变换中有L个正交条件，得到小波系数a_l，具有正交性的频域展开式A(w)可以表示为：

其中C为常数项，并且可以得到四阶系数h(l)如下：

在将多贝西小波特征和色彩特征融合后，输入卷积神经网络得到复合特征图，复合阶段使用简单的维度拼接。

进一步地，将残差图作为基本输入，通过滤波器得到残差图，使用深度频域特征提取方法来获取深度频域信息；

从原始图像上提取得到的是结合了色彩的频域特征能够反应面部细节，而从残差图提取得到的深层频域特征反应的是人脸图像的边缘信息；

首先提取反应混合边界信息的残差图，并将残差图从原始的狭窄通道信息映射到高维空间上，使用神经网络来提取深层频域特征；

下式表示了噪声残差：

其中，X_ij表示的是当前计算的像素点的像素值，N_ij表示邻域像素，

是定义在N_ij上的cX_ij的预测值；c为残差阶，是一个变量，根据滤波器类型而改变，选择的三个滤波器分别为：局部线性预测器，3*3平移不变线性像素预测器，以及核为5*5的基于Nelder-Nead算法的滤波器。

进一步地，浅层低频特征和深度频域特征这两部分特征图具有相同的输出维度，假设维度都是C*H*W，使用门控卷积来保证融合模块的自适应特性，在门控卷积中，采用可学习的动态特征选择机制，并将其逐个通道每一层的所有位置，视觉伪影总是固定在固定的一些邻接像素点上，无论是在空间上还是频域上都是邻接的，使用门控卷积来捕获和定位这些关键像素点，此外使用上述提到的两张特征图来定位人脸中最具有判别性的区域，首先将C个输入通道映射到2C维度的特征隐空间中，然后使用其中的一半作为门控来约束特征点的权重大小，另一半作为特征，分别使用sigmoid和relu作为激活函数来约束他们的结果；最后，执行点对点的矩阵乘法，实现公式如下：

其中output_y,x表示门控卷积的输出，sigmoid表达式为：

Relu表达式为：ReLu(x)＝max(0,x),C表示映射维度，W表示模型参数；融合层自适应特征提取模块拥有两个分支的输入F_mixture表示复合特征的提取模块的输出，F_residual表示残差特征提取模块的输出，分别来自于前面的复合特征提取和残差特征提取模块。

本发明的有益效果为：本发明提出了一种跨域方法，结合时空域和频域特征，在空间域提取原始图像的色彩模式；在频域，分别从浅层频域特征和深层频域特征提取两个频域特征图，浅层频域特征提取自原始输入图像，深层频域特征提取自残差图；提出了自适应特征融合模块，使得不同分支的特征可以在分类阶段得到充分表达。在众多数据集上做了大量的实验，实验结果证明了本发明方法的有效性和鲁棒性。

附图说明

图1为本发明的算法整体的原理框图；

图2为本发明的真实图像和伪造图像的色彩及频域特征对比；

图3为本发明的提取残差图时所使用的滤波器；

图4为本发明的自适应融合模块。

具体实施方式

一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法，如图1所示，其包括如下步骤：

包括一个空间域特征提取部分和两个频域特征提取模块，并使用自适应的跨域融合模块将各个部分的特征进行融合；其包括如下步骤：

S2、提取两种不同的频域特征，一是浅层低频特征，直接从原始的输入图像提取浅层低频特征，使用它将原始rgb图像扩展到频域，另一是深度频域特征，提取输入图像的残差图，使用卷积提取器提取高频特征，残差图衰减图像的平滑部分而强调图像的边缘信息；

S3、使用由门控卷积组成的自适应特征融合模块将浅层低频特征和深度频域特征融合，使得不同分支的特征可以在分类阶段得到充分表达。

近几年提出的深度伪造方法具有非常严密的图像后处理工程，包括对混合边界的模糊和像素点插值，使得融合边界几乎不可见。尤其是在RGB色彩域上，即人眼直接观察的空间域同时也是大多数深度伪造检测方法关注的区域。但是，如图2所示，我们发现，尽管真实图像和伪造图像在色彩域几乎没有差异，但是将其映射到频域时，他们的统计特性具有非常明显的差异，尤其是在高频区域反映了图像篡改时的融合信息。因此，本文中的人脸伪造检测方法关注于色彩域和频域特征的融合。我们使用具有动态特性的滤波器来提取输入图像的频域特征，然后使用三个滤波器结合的方式得到图像残差图，并据此提取深层频域特征，此外，我们还使用由门控卷积组成的自适应特征融合模块将这两部分特征融融合。

其中，所述的步骤S1具体如下：在特征提取阶段被分成了两个分支，浅层复合特征提取分支和深层频域特征提取分支，模型使用ResNet网络作为基础骨干网。

首先使用卷积神经网络提取图像的色彩域特征，选择多贝西小波变换作为滤波方式，多贝西小波变换使用短时窗口来分析长信号，它的一个紧密支撑的正交集的缩放以适应局部和平滑变化；

其中C为常数项，并且可以得到四阶系数h(l)如下：

其中，将残差图作为基本输入，通过滤波器得到残差图，使用深度频域特征提取方法来获取深度频域信息。我们所说的深浅频域特征应该区别于高频和低频特征，前者是根据特征提取的隐空间层级位置划分的，而前者是根据频带范围来区分的。

从原始图像上提取得到的是结合了色彩的频域特征能够反应面部细节，而从残差图提取得到的深层频域特征它反应的是人脸图像的边缘信息；

首先我们使用如图3所示的滤波器来捕获不同类型的相邻像素点之间的依赖。使用残差图的优点是图像内容被极大地压缩，使得图像具有更兼容，更泛化地表示。下式表示了噪声残差：

其中，X_ij表示的是我们当前计算的像素点的像素值，N_ij表示邻域像素，

是定义在N_ij上的cX_ij的预测值。c为残差阶，是一个变量，根据滤波器类型而改变，选择的三个滤波器分别为：局部线性预测器，3*3平移不变线性像素预测器，以及核为5*5的基于 Nelder-Nead算法的滤波器。实验表明这三种滤波器组合针对于我们的人脸任务具有最好的性能。

此外，我们截断了计算得到的残差值来限制残差范围，量化来使得残差对于图像边沿和不连续更加敏感，基于核大小我们选定量化系数分别为4，12，2。我们通过HardTanh来做截断计算，将残差约束在0到1之间。

其中，浅层低频特征和深度频域特征这两部分特征图具有相同的输出维度，假设的维度都是C*H*W，为了将两部分融合并取得较高的深伪检测性能。我们提出了一个自适应的特征融合模块，结构如图4所示。

使用门控卷积来保证融合模块的自适应特性，在门控卷积中，采用可学习的动态特征选择机制，并将其逐个通道每一层的所有位置，而常规卷积只是将每个像素点当成是等价的。在伪造检测中，生成的图像会经过一系列的预处理，比如裁剪和仿射变换。最后，图像的表现形式是人脸区域占据了图像的绝大部分像素区域(90％以上)。并且，视觉伪影总是固定在固定的一些邻接像素点上，我们是在空间上还是频域上都是邻接的。我们使用门控卷积来捕获和定位这些关键像素点。此外我们还使用了上述提到的两张特征图来定位人脸中最具有判别性的区域。首先将C个输入通道映射到2C维度的特征隐空间中，然后使用其中的一半作为门控来约束特征点的权重大小，另一半作为特征，分别使用sigmoid和relu作为激活函数来约束他们的结果；最后，执行点对点的矩阵乘法，实现公式如下：

其中output_y,x表示门控卷积的输出，sigmoid表达式为：

Relu表达式为：ReLu(x)＝max(0,x),C表示映射维度，W表示模型参数。融合层自适应特征提取模块拥有如图所示两个分支的输入F_mixture表示复合特征的提取模块的输出，F_residual表示残差特征提取模块的输出，他们分别来自于前面的复合特征提取和残差特征提取模块。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法，其特征在于，包括一个空间域特征提取模块和两个频域特征提取模块，并使用自适应的跨域融合模块将各个模块的特征进行融合；其包括如下步骤：

2.根据权利要求1所述的基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法，其特征在于，所述的步骤S1具体如下：在特征提取阶段被分成了两个分支，浅层复合特征提取分支和深层频域特征提取分支，模型使用ResNet网络作为基础骨干网；

其中C为常数项，并且可以得到四阶系数h(l)如下：

3.根据权利要求1所述的基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法，其特征在于，将残差图作为基本输入，通过滤波器得到残差图，使用深度频域特征提取方法来获取深度频域信息；

下式表示了噪声残差：

4.根据权利要求1所述的基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法，其特征在于，浅层低频特征和深度频域特征这两部分特征图具有相同的输出维度，假设维度都是C*H*W，使用门控卷积来保证融合模块的自适应特性，在门控卷积中，采用可学习的动态特征选择机制，并将其逐个通道每一层的所有位置，视觉伪影总是固定在固定的一些邻接像素点上，无论是在空间上还是频域上都是邻接的，使用门控卷积来捕获和定位这些关键像素点，此外使用上述提到的两张特征图来定位人脸中最具有判别性的区域，首先将C个输入通道映射到2C维度的特征隐空间中，然后使用其中的一半作为门控来约束特征点的权重大小，另一半作为特征，分别使用sigmoid和relu作为激活函数来约束他们的结果；最后，执行点对点的矩阵乘法，实现公式如下：

其中output_y,x表示门控卷积的输出，sigmoid表达式为：