CN114549481A

CN114549481A - 一种融合深度和宽度学习的深度伪造图像检测方法

Info

Publication number: CN114549481A
Application number: CN202210177248.XA
Authority: CN
Inventors: 阎刚; 李佳杨; 朱叶; 郭迎春; 于洋; 郝小可; 师硕; 刘依
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-05-27
Anticipated expiration: 2042-02-25
Also published as: CN114549481B

Abstract

本发明为一种融合深度和宽度学习的深度伪造图像检测方法，首先将待检测图像转换为灰度图像并分割为两组图像块，提取每个图像块的中心化频域幅度谱并对其施加注意力机制，再对两组图像块进行通道连接，得到初级特征；其次，构建通道卷积自编码模块，利用预训练的通道卷积自编码模块的编码器对初级特征进行特征融合得到两个中级特征，分别作为特征映射流和特征增强流的输入，得到两个映射特征和增强特征；最后，根据宽度学习系统原理构建三个分类器，将三个分类器的输出结果进行加权平均，得到最终的检测结果。本方法对图像块施加注意力机制，可以从全局信息中关注篡改痕迹明显的区域，模型训练所需的数据和时间少，实现了准确度和效率的兼顾。

Description

一种融合深度和宽度学习的深度伪造图像检测方法

技术领域

本发明属于伪造图像检测技术领域，具体是一种融合深度和宽度学习的深度伪造图像检测方法。

背景技术

随着计算机技术的发展，通过人工智能(Artificial Intelligence，AI)、ProGAN、AttGAN等技术篡改或合成图像越来越容易，通过这些方式获得的图像被称作深度伪造图像，目前深度伪造图像已经达到以假乱真的水平，对安全领域存在较大威胁。

目前普遍使用VGG、DenseNet、Xception等经典的深度学习模型检测深度伪造图像，深度学习模型虽然在单一数据集上已经取得良好的检测效果，随着检测性能的提升也带来了参数量和数据需求的骤增，对于不同种类的图像检测都需要重新训练模型，重新训练的时间和计算成本较高。

深度学习模型的不足促使学者将使用非深度方法进行图像检测。Luca等2020年在《IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops》上发表的论文“DeepFake Detection byAnalyzing Convolutional Traces”中，依据GAN生成器的转置卷积层对局部像素分布所造成的影响，使用聚类算法求解出一个具有足够区分度的滤波器，利用该滤波器来提取局部像素之间的关系，即卷积痕迹，并以此作为特征来检测深度伪造图像。Chen等人2021年在《IEEE International Conference on Multimedia andExpo》上发表的论文“DefakeHop:ALight-Weight High-Performance DeepfakeDetector””中，将人脸图像分块后使用多个Pixelhop++模块分别对人脸局部区域进行特征提取并降维，然后将各区域集成并分类。

在特征提取方面，目前大部分的检测方法以图像中的篡改区域伪影为特征，通过抑制图像内容、分区域提取局部特征、将图像转换至频域等方法来增强特征提取能力。随着深度伪造技术的不断发展，使得深度伪造图像越来越精细，像素内容中留下的篡改痕迹越来越少，且伪影线索可通过后处理，如高斯模糊进行消除。此外，Yu等人2019年发表在《IEEE/CVF International Conference on Computer Vision》上的论文“AttributingFake Images to GANs:Learning andAnalyzing GAN Fingerprints”分析了利用GAN指纹进行深度伪造图像检测的可能性。现有的基于GAN指纹的特征提取方法包括检测GAN的转置卷积层对局部像素的影响、提取GAN指纹之后进行聚类等。大部分基于GAN指纹的特征提取方法主要依赖于GAN生成器的结构，使得检测模型在参与训练的特定伪造图像上过拟合，而无法处理未知的生成器生成的伪造图像，特征表示能力和方法泛化性较差。

发明内容

针对现有技术的不足，本发明所要解决的技术问题是，提供一种融合深度和宽度学习的深度伪造图像检测方法。

本发明解决所述技术问题所采用的技术方案如下：

一种融合深度和宽度学习的深度伪造图像检测方法，其特征在于，该方法包括以下步骤：

第一步、获取待检测图像，将待检测图像转换为大小为256*256像素的灰度图像；

第二步、利用频域特征提取模块提取待检测图像的初级特征；

2-1将灰度图像进行两次分割，得到两个图像块组A和A′，图像块组A＝{a₁，a₂，…，a₂₅₆}包含256个大小为16*16像素的图像块a_i，i＝1，2，…，256；图像块组A′＝{a′₁，a′₂，…，a′₆₄}包含64个大小为32*32像素的图像块a′_j，j＝1，2，…，64；对于每个图像块，通过快速傅里叶变换得到频域幅度谱，再对频域幅度谱进行中心化处理，得到图像块的中心化频域幅度谱；

2-2对灰度图像进行全局快速傅里叶变换，再对频域幅度谱进行中心化处理，得到灰度图像的中心化频域幅度谱；对灰度图像的中心化频域幅度谱进行高通滤波，对高通滤波后的中心化频域幅度谱进行逆快速傅里叶变换和去中心化处理，将中心化频域幅度谱映射至空域，最后通过非线性函数对映射至空域的中心化频域幅度谱进行归一化处理，得到全局高频注意力图；

2-3对全局高频注意力图进行分割，得到两个局部注意力块组Att和Att′，局部注意力块组Att＝{Att₁，Att₂，…，Att₂₅₆}包含256个局部注意力块Att_i，局部注意力块组Att′＝{Att′₁，Att′₂，…，Att′₆₄}包含64个局部注意力块Att′_j，局部注意力块与步骤2-1中的图像块一一对应；对所有的局部注意力块Att_i和Att′_j进行中值池化操作，得到各个图像块的注意力系数；再将注意力系数与对应图像块的中心化频域幅度谱相乘，得到施加注意力后的图像块；

通过最大值池化操作将所有施加注意力的图像块的大小调整为16*16像素，得到归一化后的图像块；将所有归一化后的图像块与所有施加注意力的图像块进行通道连接，得到初级特征；

第三步、构建通道卷积自编码模块，通道卷积自编码模块包括编码器和解码器；利用预训练的通道卷积自编码模块的编码器对初级特征进行特征融合，得到两个中级特征

和

第四步、根据式(12)、(13)分别将中级特征

和

进行向量展平操作，得到两个一维向量f^m和f^e；根据式(14)、(15)对一维向量f^m进行两次线性变换，得到两个映射特征

和

根据式(16)、(17)的Sigmoid函数对一维向量f^e进行两次处理，得到增强特征

和

式中，flatten(·)表示向量展平操作，

分别表示权重矩阵W₁的第r₁列和偏置向量β₁的第r₁个分量，r₁＝1，2，…，R1；

分别表示权重矩阵W₂的第r₂列和偏置向量β₂的第r₂个分量，r₂＝1，2，…，R2；

分别表示权重矩阵W₃的第r₃列和偏置向量β₃的第r₃个分量，r₃＝1，2，…，R3；

分别表示权重矩阵W₄的第r₄列和偏置向量β₄的第r₄个分量，r₄＝1，2，…，R4；W₁、W₂、W₃和W₄均为随机生成的权重矩阵，β₁、β₂、β₃和β₄均为随机生成的偏置向量，R1、R2分别为映射特征

和

的维度，R3、R4分别为增强特征

和

的维度；

第五步、通过宽度学习系统原理构建三个分类器；从两个映射特征

中任选一个映射特征以及从两个增强特征

中任选一个增强特征进行拼接，得到拼接特征；将拼接特征、剩余的映射特征和增强特征作为三个分类器的输入，计算各个分类器输出层的权重矩阵；将每个分类器输出层的权重矩阵与该分类器的输入相乘，得到该分类器的输出结果；最后将三个分类器的输出结果进行加权平均，得到最终的检测结果；

至此完成深度伪造图像的检测。

与现有技术相比，本发明所具有的突出实质性特点和显著进步如下：

(1)为了使模型更加容易检测到篡改痕迹，本发明首先将图像分割为多个图像块。由于深度伪造图像在高频区域的纹理特征明显，因此频域特征提取模块通过高通滤波注意力机制得到全局高频注意力图，高通滤波注意力机制可以在低级频域特征中突出或抑制局部特征，在效果上表现为增强高频区域特征，抑制低频区域特征，使得本方法可以从全局信息中关注篡改痕迹明显的区域，使得检测结果更加准确。由于将预训练的通道卷积自编码模块的编码器作为特征提取器，对初级特征进行融合，因此通道卷积自编码模块只需要使用真实图像训练一次，即可用于任意种类的深度伪造图像的检测，减少了模型的训练时间。通道卷积自编码模块的卷积核大小均为1*1，实质上是对初级特征进行特征融合，可以显著降低特征维数，减少了权重矩阵的数量，在一定程度上克服了传统宽度学习系统对于复杂模式识别任务需要随机生成大量权重矩阵的缺陷。利用宽度学习系统原理构建三个分类器，实现分类器的轻量化，大幅节约时间和计算成本，提高了检测速度。在宽度学习系统的基础上增加了综合分类器，避免了较小的随机权重矩阵造成的结果不稳定。传统深度学习模型需要大量图像参与训练，而本方法只需要训练通道卷积自编码模块，训练所需的图像数量少，此外，分类器基于宽度学习原理，通过矩阵运算即可完成学习，无需冗长的训练，因此本发明方法实现了准确度和效率的兼顾，显著降低了数据需求。

(2)公开号为CN112183501A的中国专利公开了一种深度伪造图像检测方法及装置，该方法通过深度卷积神经网络提取包含人脸纹理特征的传统图像特征，对包含人脸纹理特征的传统图像特征进一步处理，实现图像检测。人脸纹理特征属于浅层特征，随着深度伪造技术的进步，深度伪造人脸图像已经十分精细，因此图像中包含的纹理信息已经十分接近于真实人脸，因此该方法的检测能力较弱。与CN112183501A相比，本发明利用真实图像训练通道卷积自编码模块，使通道卷积自编码模块拟合真实图像的复原过程，因此使用通道卷积自编码模块的编码器对真实图像和深度伪造图像进行特征提取，提取的特征具有足够的区分性，提高了检测结果的准确性。

(3)公开号为CN112528969A的中国专利公开了一种人脸图像的真伪检测方法，该方法提取了人脸图像的纹理特征、基于梯度的清晰度指标、频域特征，并与深度特征相结合，实现了基于多特征的人脸图像检测。与CN112528969A相比，本发明通过在原始图像上施加注意力，引导原始图像进行特征提取，特征提取过程简洁高效，而且可以从全局信息中关注篡改痕迹明显的区域。

附图说明

图1是本发明的整体流程图；

图2是本发明的频域特征提取模块的结构示意图；

图3是本发明的通道卷积自编码模块的结构示意图。

具体实施方式

下面结合实施例对本发明的技术方案进行详细描述，但并不以此限定本申请的保护范围。

本发明为一种融合深度和宽度学习的深度伪造图像检测方法(简称方法)，包括以下步骤：

第一步、数据准备，获取待检测图像，并将待检测图像转换为大小为256*256像素的灰度图像；

第二步、利用频域特征提取模块(FFE)提取待检测图像的初级特征；

2-1如图2所示，将灰度图像进行两次分割，得到两个图像块组A和A′，图像块组A＝{a₁，a₂，…，a₂₅₆}包含256个大小为16*16像素的图像块a_i，图像块组A′＝{a′₁，a′₂，…，a′₆₄}包含64个大小为32*32像素的图像块a′_j；对于每个图像块，通过快速傅里叶变换得到频域幅度谱，再对频域幅度谱进行中心化处理，得到图像块的中心化频域幅度谱，具体表达式参见式(1)和(2)：

A_i＝shift(FFT(a_i)) i＝1，2，…，256 (1)

A′_j＝shift(FFT(a′_j)) j＝1，2，…，64 (2)

式中，FFT(·)表示快速傅里叶变换，shift(·)表示中心化处理操作；A_i、A′_j分别表示图像块a_i和a′_j的中心化频域幅度谱；

2-2根据式(3)对灰度图像进行全局快速傅里叶变换，将灰度图像映射至频域，并对频域幅度谱进行中心化处理，得到灰度图像的中心化频域幅度谱；通过式(4)对灰度图像的中心化频域幅度谱进行高通滤波，得到高通滤波后的中心化频域幅度谱；再根据式(5)对高通滤波后的中心化频域幅度谱进行逆快速傅里叶变换和去中心化处理，将中心化频域幅度谱映射至空域，最后通过Sigmoid函数对映射至空域的中心化频域幅度谱进行归一化处理，得到全局高频注意力图；

A_global＝shift(FFT(I_gray)) (3)

I_att＝Sigmoid(IFFT(Ishift(A_filtered))) (5)

其中，A_global表示输入图像灰度图像I_gray的中心化频域幅度谱，T_{high_pass}表示高通滤波模板，

表示相乘操作，A_filtered表示高通滤波后的中心化频域幅度谱，IFFT(·)、Ishift(·)分别表示逆快速傅里叶变换和去中心化处理操作，I_att表示全局高频注意力图；

2-3同理，对全局高频注意力图I_att进行与第2-1步中相同的分割，得到两个局部注意力块组Att和Att′，局部注意力块组Att＝{Att₁，Att₂，…，Att₂₅₆}包含256个局部注意力块Att_i，局部注意力块组Att′＝{Att′₁，Att′₂，…，Att′₆₄}包含64个局部注意力块Att′_j，局部注意力块与步骤2-1中的图像块一一对应；对所有的局部注意力块Att_i和Att′_j进行中值池化操作，得到各个图像块的注意力系数；再将注意力系数与对应图像块的中心化频域幅度谱相乘，得到施加注意力后的图像块，参见式(6)、(7)；

M_i＝MidPool(Att_i，16)·A_i i＝1，2，…，256 (6)

M′_j＝MidPool(Att′_j，32)·A′_j j＝1，2，…，64 (7)

其中，MidPool(·，n)表示按n*n大小进行中值池化操作，n＝16、32；M_i、M′_j分别表示图像块P_i和P′_j施加注意力后的图像块；

通过式(8)的最大值池化操作将所有施加注意力的图像块M′_j的大小调整为16*16像素，得到归一化后的图像块N_j，最大值池化的卷积核大小为2*2；最后根据式(9)将所有归一化后的图像块与所有施加注意力的图像块M_i进行通道连接，得到尺寸为320*320*16像素的初级特征F1，F1即为频域特征提取模块提取的初级特征；

N_j＝MaxPool(M′_j，2)j＝1，2，…，64 (8)

F₁＝{M₁，M₂，…，M₂₅₆，N₁，N₂，…，N₆₄} (9)

式中，MaxPool(·，n)表示按n*n大小进行最大值池化操作，n＝2；

第三步、构建通道卷积自编码模块(CAE)，如图3所示，通道卷积自编码模块包括编码器和解码器两部分；其中，编码器用于通道融合，包含四个连续的卷积层，每个卷积层的卷积核大小均为1*1，卷积核数量分别为256、128、64、32；解码器与编码器为对称结构，解码器用以恢复通道数，包含四个连续的卷积层，卷积核大小均为1*1，卷积核数量分别为32、64、128、256；利用预训练的通道卷积自编码模块的编码器对初级特征F1进行特征融合，得到两个中级特征

和

将中级特征

和

分别作为特征映射流和特征增强流的输入；

编码器的表达式为：

式中，

表示使用g个大小为1*1的卷积核对特征X进行卷积运算，g＝256，128，64，32；

根据式(11)对中级特征

进行卷积运算，得到另一个中级特征

第四步、根据式(12)、(13)分别将中级特征

和

和

和

式中，flatten(·)表示向量展平操作，

和

的维度，R3、R4分别为增强特征

和

的维度；

中任选一个映射特征以及从两个增强特征

中任选一个增强特征进行拼接，得到拼接特征；将拼接特征、剩余的映射特征和增强特征作为三个分类器的输入，根据式(18)、(19)的宽度学习系统原理计算分类器输出层的权重矩阵；

P＝Q⁺Y (19)

其中，Q表示拼接特征、剩余的映射特征或剩余的增强特征，I表示单位矩阵，λ表示正则化系数，T表示矩阵转置，Y表示分类器学习过程中与输入图像对应的样本标签，P表示分类器输出层的权重矩阵；

将每个分类器输出层的权重矩阵与该分类器的输入相乘，得到该分类器的输出结果；最后将三个分类器的输出结果进行加权平均，得到最终的检测结果，至此完成深度伪造图像的检测。

实施例1

本实施例以深度伪造的人脸图像为例，对融合深度和宽度学习的深度伪造图像检测方法进行说明，包括以下步骤：

第一步、数据准备；本实施例以CelebA-HQ和CelebA数据集的真实人脸图像为基础，分别通过StarGAN、StyleGAN、StyleGAN2、AttGAN、FaceForensics++方法生成深度伪造人脸图像，得到五个训练集和五个测试集，每个训练集和测试集分别包含1500、500张深度伪造人脸图像；FaceForensics++为开源伪造人脸视频数据，本实施例使用其伪造视频的单帧人脸图像作为深度伪造人脸图像，以体现本发明方法对于深度伪造人脸视频也具有适用性；将所有图像转换为大小为256*256像素的灰度图像。

第二步、利用频域特征提取模块提取深度伪造人脸图像的初级特征；

2-1对灰度图像进行两次分割，得到两个图像块组A和A′，图像块组A＝{a₁，a₂，…，a₂₅₆}包含256个大小为16*16像素的图像块a_i，图像块组A′＝{a′₁，a′₂，…，a′₆₄}包含64个大小为32*32像素的图像块a′_j；对于每个图像块，通过快速傅里叶变换得到频域幅度谱，再对频域幅度谱进行中心化处理，得到图像块的中心化频域幅度谱，具体表达式参见式(1)和(2)：

A_i＝shift(FFT(a_i)) i＝1，2，…，256 (1)

A′_j＝shift(FFT(a′_j)) j＝1，2，…，64 (2)

2-2根据式(3)对灰度图像进行全局快速傅里叶变换，将灰度图像映射至频域上，并对频域幅度谱进行中心化处理，得到灰度图像的中心化频域幅度谱；通过式(4)对灰度图像的中心化频域幅度谱进行高通滤波，以去除中心化频域幅度谱中的低频分量，得到高通滤波后的中心化频域幅度谱；再根据式(5)对高通滤波后的中心化频域幅度谱进行逆快速傅里叶变换和去中心化处理，将中心化频域幅度谱映射至空域，最后通过Sigmoid函数对中心化频域幅度谱映射至空域进行归一化处理，得到全局高频注意力图；

A_global＝shift(FFT(I_gray)) (3)

I_att＝Sigmoid(IFFT(Ishift(A_filtered))) (5)

其中，A_global表示灰度图像I_gray的中心化频域幅度谱，T_{high_pass}表示高通滤波模板，

2-3同理，对全局高频注意力图I_att进行与第2-1步中相同的分割，得到两个局部注意力块组Att和Att′，局部注意力块组Att＝{Att₁，Att₂，…，Att₂₅₆}包含256个局部注意力块Att_i，局部注意力块组Att′＝{Att′₁，Att′₂，…，Att′₆₄}包含64个局部注意力块Att′_j，局部注意力块与步骤2-1中的图像块一一对应；对所有的局部注意力块Att_i和Att′_j进行中值池化，得到各个图像块的注意力系数，再将注意力系数与对应图像块的中心化频域幅度谱相乘，得到施加注意力的图像块，参见式(6)、(7)；

M_i＝MidPool(Att_i，16)·A_i i＝1，2，…，256 (6)

M′_j＝MidPool(Att′_j，32)·A′_j j＝1，2，…，64 (7)

通过式(8)的最大池化操作将所有施加注意力的图像块M′_j的大小调整为16*16像素，得到归一化的图像块N_j；最后将所有归一化的图像块所有施加注意力的图像块M_i进行通道连接，得到尺寸为320*320*16像素的初级特征F₁，F₁即为频域特征提取模块提取的初级特征；其表达式参见式(9)；

N_j＝MaxPool(M′_j，2) j＝1，2，…，64 (8)

F₁＝{M₁，M₂，…，M₂₅₆，N₁，N₂，…，N₆₄} (9)

第三步、构建通道卷积自编码模块，如图3所示，通道卷积自编码模块包括编码器和解码器，编码器包含四个连续的卷积层，每个卷积层的卷积核大小均为1*1，卷积核数量分别为256、128、64、32；解码器与编码器为对称结构，解码器包含四个连续的卷积层，卷积核大小均为1*1，卷积核数量分别为32、64、128、256；

编码器的表达式为：

式中，

根据式(11)对中级特征

进行卷积运算，得到另一个中级特征

将2000张真实人脸图像经过第二步提取的初级特征，利用真实人脸图像的初级特征对通道卷积自编码模块进行训练，使用Adam优化器，采用均方损失函数计算损失，待通道卷积自编码模块收敛之后，完成通道卷积自编码模块的训练；

利用预训练的通道卷积自编码模块的编码器对初级特征F₁进行特征融合，得到两个中级特征

和

将中级特征

和

分别作为特征映射流和特征增强流的输入；

第四步、根据式(12)、(13)分别将中级特征

和

和

根据式(16)、(17)的Sigmoid函数对一维向量f^e进行两次处理，得到两个增强特征

和

式中，flatten(·)表示向量展平操作，

和

的维度，R3、R4分别为增强特征

和

的维度；

中任选一个映射特征以及从两个增强特征

和任选一个增强特征进行拼接，本实施例选择映射特征

和增强特征

得到拼接特征

将拼接特征

剩余的映射特征

和增强特征

这三个特征作为三个分类器的输入，根据式(18)、(19)宽度学习系统原理计算分类器输出层的权重矩阵，分别为P₁、P₂、P₃；

P＝Q⁺Y (19)

其中，Q表示拼接特征、剩余的映射特征或剩余的增强特征，I表示单位矩阵，λ表示正则化系数，Y表示分类器学习过程中与输入图像对应的样本标签，P表示分类器输出层的权重矩阵；

根据式(20)～(22)将三个分类器输出层的权重矩阵与对应分类器的输入相乘，得到三个分类器的输出结果Y'₁、Y'₂和Y'₃；

通过式(23)将三个分类器的输出结果进行加权平均，得到最终的检测结果；

Y'＝αY'₁+βY'₂+γY'₃ (23)

其中，α、β和γ分别为三个分类器的权重系数，α+β+γ＝1，本实施例中α＝β＝0.2，γ＝0.4；

至此，完成本实施例的融合深度和宽度学习的深度伪造图像检测。

表1各个训练集的数据明细及训练时间

从表1可知，本发明方法的构建总用时短，在本实施例中，使用3000张训练图像参与方法构建过程，总用时仅为60分钟左右，其中分类器输出层的权重矩阵计算用时仅用2分钟左右。值得注意的是，表1中的方法构建总用时仅代表方法初始构建时所消耗时间，在方法重构时无需对通道卷积自编码器模块进行训练，方法重构总用时即为分类器输出层的权重矩阵计算用时。

表2各个测试集的数据明细及检测结果

从表2可知，本发明方法在五个测试集上均能取得较好的检测效果，准确率可达98％以上，对于不同技术合成的深度伪造人脸图像具有较强适应能力，同时兼顾检测准确率和检测效率。

本发明未述及之处适用于现有技术。

Claims

1.一种融合深度和宽度学习的深度伪造图像检测方法，其特征在于，该方法包括以下步骤：

和

第四步、根据式(12)、(13)分别将中级特征

和

和

和

式中，flatten(·)表示向量展平操作，

和

的维度，R3、R4分别为增强特征

和

的维度；

中任选一个映射特征以及从两个增强特征

至此完成深度伪造图像的检测。

2.根据权利要求1所述的融合深度和宽度学习的深度伪造图像检测方法，其特征在于，所述通道卷积自编码模块的编码器和解码器结构对称，编码器和解码器均包含四个连续的卷积层，每个卷积层的卷积核大小均为1*1；编码器四个卷积层的卷积核数量分别为256、128、64、32；编码器四个卷积层的卷积核数量分别为32、64、128、256。