CN114549481A - 一种融合深度和宽度学习的深度伪造图像检测方法 - Google Patents

一种融合深度和宽度学习的深度伪造图像检测方法 Download PDF

Info

Publication number
CN114549481A
CN114549481A CN202210177248.XA CN202210177248A CN114549481A CN 114549481 A CN114549481 A CN 114549481A CN 202210177248 A CN202210177248 A CN 202210177248A CN 114549481 A CN114549481 A CN 114549481A
Authority
CN
China
Prior art keywords
image
att
features
frequency domain
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210177248.XA
Other languages
English (en)
Inventor
阎刚
李佳杨
朱叶
郭迎春
于洋
郝小可
师硕
刘依
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Original Assignee
Hebei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology filed Critical Hebei University of Technology
Priority to CN202210177248.XA priority Critical patent/CN114549481A/zh
Publication of CN114549481A publication Critical patent/CN114549481A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明为一种融合深度和宽度学习的深度伪造图像检测方法,首先将待检测图像转换为灰度图像并分割为两组图像块,提取每个图像块的中心化频域幅度谱并对其施加注意力机制,再对两组图像块进行通道连接,得到初级特征;其次,构建通道卷积自编码模块,利用预训练的通道卷积自编码模块的编码器对初级特征进行特征融合得到两个中级特征,分别作为特征映射流和特征增强流的输入,得到两个映射特征和增强特征;最后,根据宽度学习系统原理构建三个分类器,将三个分类器的输出结果进行加权平均,得到最终的检测结果。本方法对图像块施加注意力机制,可以从全局信息中关注篡改痕迹明显的区域,模型训练所需的数据和时间少,实现了准确度和效率的兼顾。

Description

一种融合深度和宽度学习的深度伪造图像检测方法
技术领域
本发明属于伪造图像检测技术领域,具体是一种融合深度和宽度学习的深度伪造图像检测方法。
背景技术
随着计算机技术的发展,通过人工智能(Artificial Intelligence,AI)、ProGAN、AttGAN等技术篡改或合成图像越来越容易,通过这些方式获得的图像被称作深度伪造图像,目前深度伪造图像已经达到以假乱真的水平,对安全领域存在较大威胁。
目前普遍使用VGG、DenseNet、Xception等经典的深度学习模型检测深度伪造图像,深度学习模型虽然在单一数据集上已经取得良好的检测效果,随着检测性能的提升也带来了参数量和数据需求的骤增,对于不同种类的图像检测都需要重新训练模型,重新训练的时间和计算成本较高。
深度学习模型的不足促使学者将使用非深度方法进行图像检测。Luca等2020年在《IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops》上发表的论文“DeepFake Detection byAnalyzing Convolutional Traces”中,依据GAN生成器的转置卷积层对局部像素分布所造成的影响,使用聚类算法求解出一个具有足够区分度的滤波器,利用该滤波器来提取局部像素之间的关系,即卷积痕迹,并以此作为特征来检测深度伪造图像。Chen等人2021年在《IEEE International Conference on Multimedia andExpo》上发表的论文“DefakeHop:ALight-Weight High-Performance DeepfakeDetector””中,将人脸图像分块后使用多个Pixelhop++模块分别对人脸局部区域进行特征提取并降维,然后将各区域集成并分类。
在特征提取方面,目前大部分的检测方法以图像中的篡改区域伪影为特征,通过抑制图像内容、分区域提取局部特征、将图像转换至频域等方法来增强特征提取能力。随着深度伪造技术的不断发展,使得深度伪造图像越来越精细,像素内容中留下的篡改痕迹越来越少,且伪影线索可通过后处理,如高斯模糊进行消除。此外,Yu等人2019年发表在《IEEE/CVF International Conference on Computer Vision》上的论文“AttributingFake Images to GANs:Learning andAnalyzing GAN Fingerprints”分析了利用GAN指纹进行深度伪造图像检测的可能性。现有的基于GAN指纹的特征提取方法包括检测GAN的转置卷积层对局部像素的影响、提取GAN指纹之后进行聚类等。大部分基于GAN指纹的特征提取方法主要依赖于GAN生成器的结构,使得检测模型在参与训练的特定伪造图像上过拟合,而无法处理未知的生成器生成的伪造图像,特征表示能力和方法泛化性较差。
发明内容
针对现有技术的不足,本发明所要解决的技术问题是,提供一种融合深度和宽度学习的深度伪造图像检测方法。
本发明解决所述技术问题所采用的技术方案如下:
一种融合深度和宽度学习的深度伪造图像检测方法,其特征在于,该方法包括以下步骤:
第一步、获取待检测图像,将待检测图像转换为大小为256*256像素的灰度图像;
第二步、利用频域特征提取模块提取待检测图像的初级特征;
2-1将灰度图像进行两次分割,得到两个图像块组A和A′,图像块组A={a1,a2,…,a256}包含256个大小为16*16像素的图像块ai,i=1,2,…,256;图像块组A′={a′1,a′2,…,a′64}包含64个大小为32*32像素的图像块a′j,j=1,2,…,64;对于每个图像块,通过快速傅里叶变换得到频域幅度谱,再对频域幅度谱进行中心化处理,得到图像块的中心化频域幅度谱;
2-2对灰度图像进行全局快速傅里叶变换,再对频域幅度谱进行中心化处理,得到灰度图像的中心化频域幅度谱;对灰度图像的中心化频域幅度谱进行高通滤波,对高通滤波后的中心化频域幅度谱进行逆快速傅里叶变换和去中心化处理,将中心化频域幅度谱映射至空域,最后通过非线性函数对映射至空域的中心化频域幅度谱进行归一化处理,得到全局高频注意力图;
2-3对全局高频注意力图进行分割,得到两个局部注意力块组Att和Att′,局部注意力块组Att={Att1,Att2,…,Att256}包含256个局部注意力块Atti,局部注意力块组Att′={Att′1,Att′2,…,Att′64}包含64个局部注意力块Att′j,局部注意力块与步骤2-1中的图像块一一对应;对所有的局部注意力块Atti和Att′j进行中值池化操作,得到各个图像块的注意力系数;再将注意力系数与对应图像块的中心化频域幅度谱相乘,得到施加注意力后的图像块;
通过最大值池化操作将所有施加注意力的图像块的大小调整为16*16像素,得到归一化后的图像块;将所有归一化后的图像块与所有施加注意力的图像块进行通道连接,得到初级特征;
第三步、构建通道卷积自编码模块,通道卷积自编码模块包括编码器和解码器;利用预训练的通道卷积自编码模块的编码器对初级特征进行特征融合,得到两个中级特征
Figure BDA0003520777330000021
Figure BDA0003520777330000022
第四步、根据式(12)、(13)分别将中级特征
Figure BDA0003520777330000023
Figure BDA0003520777330000024
进行向量展平操作,得到两个一维向量fm和fe;根据式(14)、(15)对一维向量fm进行两次线性变换,得到两个映射特征
Figure BDA0003520777330000025
Figure BDA0003520777330000026
根据式(16)、(17)的Sigmoid函数对一维向量fe进行两次处理,得到增强特征
Figure BDA0003520777330000027
Figure BDA0003520777330000028
Figure BDA0003520777330000029
Figure BDA00035207773300000210
Figure BDA00035207773300000211
Figure BDA00035207773300000212
Figure BDA00035207773300000213
Figure BDA00035207773300000214
式中,flatten(·)表示向量展平操作,
Figure BDA00035207773300000215
分别表示权重矩阵W1的第r1列和偏置向量β1的第r1个分量,r1=1,2,…,R1;
Figure BDA00035207773300000216
分别表示权重矩阵W2的第r2列和偏置向量β2的第r2个分量,r2=1,2,…,R2;
Figure BDA00035207773300000217
分别表示权重矩阵W3的第r3列和偏置向量β3的第r3个分量,r3=1,2,…,R3;
Figure BDA00035207773300000218
分别表示权重矩阵W4的第r4列和偏置向量β4的第r4个分量,r4=1,2,…,R4;W1、W2、W3和W4均为随机生成的权重矩阵,β1、β2、β3和β4均为随机生成的偏置向量,R1、R2分别为映射特征
Figure BDA00035207773300000219
Figure BDA00035207773300000220
的维度,R3、R4分别为增强特征
Figure BDA00035207773300000221
Figure BDA00035207773300000222
的维度;
第五步、通过宽度学习系统原理构建三个分类器;从两个映射特征
Figure BDA0003520777330000031
中任选一个映射特征以及从两个增强特征
Figure BDA0003520777330000032
中任选一个增强特征进行拼接,得到拼接特征;将拼接特征、剩余的映射特征和增强特征作为三个分类器的输入,计算各个分类器输出层的权重矩阵;将每个分类器输出层的权重矩阵与该分类器的输入相乘,得到该分类器的输出结果;最后将三个分类器的输出结果进行加权平均,得到最终的检测结果;
至此完成深度伪造图像的检测。
与现有技术相比,本发明所具有的突出实质性特点和显著进步如下:
(1)为了使模型更加容易检测到篡改痕迹,本发明首先将图像分割为多个图像块。由于深度伪造图像在高频区域的纹理特征明显,因此频域特征提取模块通过高通滤波注意力机制得到全局高频注意力图,高通滤波注意力机制可以在低级频域特征中突出或抑制局部特征,在效果上表现为增强高频区域特征,抑制低频区域特征,使得本方法可以从全局信息中关注篡改痕迹明显的区域,使得检测结果更加准确。由于将预训练的通道卷积自编码模块的编码器作为特征提取器,对初级特征进行融合,因此通道卷积自编码模块只需要使用真实图像训练一次,即可用于任意种类的深度伪造图像的检测,减少了模型的训练时间。通道卷积自编码模块的卷积核大小均为1*1,实质上是对初级特征进行特征融合,可以显著降低特征维数,减少了权重矩阵的数量,在一定程度上克服了传统宽度学习系统对于复杂模式识别任务需要随机生成大量权重矩阵的缺陷。利用宽度学习系统原理构建三个分类器,实现分类器的轻量化,大幅节约时间和计算成本,提高了检测速度。在宽度学习系统的基础上增加了综合分类器,避免了较小的随机权重矩阵造成的结果不稳定。传统深度学习模型需要大量图像参与训练,而本方法只需要训练通道卷积自编码模块,训练所需的图像数量少,此外,分类器基于宽度学习原理,通过矩阵运算即可完成学习,无需冗长的训练,因此本发明方法实现了准确度和效率的兼顾,显著降低了数据需求。
(2)公开号为CN112183501A的中国专利公开了一种深度伪造图像检测方法及装置,该方法通过深度卷积神经网络提取包含人脸纹理特征的传统图像特征,对包含人脸纹理特征的传统图像特征进一步处理,实现图像检测。人脸纹理特征属于浅层特征,随着深度伪造技术的进步,深度伪造人脸图像已经十分精细,因此图像中包含的纹理信息已经十分接近于真实人脸,因此该方法的检测能力较弱。与CN112183501A相比,本发明利用真实图像训练通道卷积自编码模块,使通道卷积自编码模块拟合真实图像的复原过程,因此使用通道卷积自编码模块的编码器对真实图像和深度伪造图像进行特征提取,提取的特征具有足够的区分性,提高了检测结果的准确性。
(3)公开号为CN112528969A的中国专利公开了一种人脸图像的真伪检测方法,该方法提取了人脸图像的纹理特征、基于梯度的清晰度指标、频域特征,并与深度特征相结合,实现了基于多特征的人脸图像检测。与CN112528969A相比,本发明通过在原始图像上施加注意力,引导原始图像进行特征提取,特征提取过程简洁高效,而且可以从全局信息中关注篡改痕迹明显的区域。
附图说明
图1是本发明的整体流程图;
图2是本发明的频域特征提取模块的结构示意图;
图3是本发明的通道卷积自编码模块的结构示意图。
具体实施方式
下面结合实施例对本发明的技术方案进行详细描述,但并不以此限定本申请的保护范围。
本发明为一种融合深度和宽度学习的深度伪造图像检测方法(简称方法),包括以下步骤:
第一步、数据准备,获取待检测图像,并将待检测图像转换为大小为256*256像素的灰度图像;
第二步、利用频域特征提取模块(FFE)提取待检测图像的初级特征;
2-1如图2所示,将灰度图像进行两次分割,得到两个图像块组A和A′,图像块组A={a1,a2,…,a256}包含256个大小为16*16像素的图像块ai,图像块组A′={a′1,a′2,…,a′64}包含64个大小为32*32像素的图像块a′j;对于每个图像块,通过快速傅里叶变换得到频域幅度谱,再对频域幅度谱进行中心化处理,得到图像块的中心化频域幅度谱,具体表达式参见式(1)和(2):
Ai=shift(FFT(ai)) i=1,2,…,256 (1)
A′j=shift(FFT(a′j)) j=1,2,…,64 (2)
式中,FFT(·)表示快速傅里叶变换,shift(·)表示中心化处理操作;Ai、A′j分别表示图像块ai和a′j的中心化频域幅度谱;
2-2根据式(3)对灰度图像进行全局快速傅里叶变换,将灰度图像映射至频域,并对频域幅度谱进行中心化处理,得到灰度图像的中心化频域幅度谱;通过式(4)对灰度图像的中心化频域幅度谱进行高通滤波,得到高通滤波后的中心化频域幅度谱;再根据式(5)对高通滤波后的中心化频域幅度谱进行逆快速傅里叶变换和去中心化处理,将中心化频域幅度谱映射至空域,最后通过Sigmoid函数对映射至空域的中心化频域幅度谱进行归一化处理,得到全局高频注意力图;
Aglobal=shift(FFT(Igray)) (3)
Figure BDA0003520777330000041
Iatt=Sigmoid(IFFT(Ishift(Afiltered))) (5)
其中,Aglobal表示输入图像灰度图像Igray的中心化频域幅度谱,Thigh_pass表示高通滤波模板,
Figure BDA0003520777330000042
表示相乘操作,Afiltered表示高通滤波后的中心化频域幅度谱,IFFT(·)、Ishift(·)分别表示逆快速傅里叶变换和去中心化处理操作,Iatt表示全局高频注意力图;
2-3同理,对全局高频注意力图Iatt进行与第2-1步中相同的分割,得到两个局部注意力块组Att和Att′,局部注意力块组Att={Att1,Att2,…,Att256}包含256个局部注意力块Atti,局部注意力块组Att′={Att′1,Att′2,…,Att′64}包含64个局部注意力块Att′j,局部注意力块与步骤2-1中的图像块一一对应;对所有的局部注意力块Atti和Att′j进行中值池化操作,得到各个图像块的注意力系数;再将注意力系数与对应图像块的中心化频域幅度谱相乘,得到施加注意力后的图像块,参见式(6)、(7);
Mi=MidPool(Atti,16)·Ai i=1,2,…,256 (6)
M′j=MidPool(Att′j,32)·A′j j=1,2,…,64 (7)
其中,MidPool(·,n)表示按n*n大小进行中值池化操作,n=16、32;Mi、M′j分别表示图像块Pi和P′j施加注意力后的图像块;
通过式(8)的最大值池化操作将所有施加注意力的图像块M′j的大小调整为16*16像素,得到归一化后的图像块Nj,最大值池化的卷积核大小为2*2;最后根据式(9)将所有归一化后的图像块与所有施加注意力的图像块Mi进行通道连接,得到尺寸为320*320*16像素的初级特征F1,F1即为频域特征提取模块提取的初级特征;
Nj=MaxPool(M′j,2)j=1,2,…,64 (8)
F1={M1,M2,…,M256,N1,N2,…,N64} (9)
式中,MaxPool(·,n)表示按n*n大小进行最大值池化操作,n=2;
第三步、构建通道卷积自编码模块(CAE),如图3所示,通道卷积自编码模块包括编码器和解码器两部分;其中,编码器用于通道融合,包含四个连续的卷积层,每个卷积层的卷积核大小均为1*1,卷积核数量分别为256、128、64、32;解码器与编码器为对称结构,解码器用以恢复通道数,包含四个连续的卷积层,卷积核大小均为1*1,卷积核数量分别为32、64、128、256;利用预训练的通道卷积自编码模块的编码器对初级特征F1进行特征融合,得到两个中级特征
Figure BDA0003520777330000051
Figure BDA0003520777330000052
将中级特征
Figure BDA0003520777330000053
Figure BDA0003520777330000054
分别作为特征映射流和特征增强流的输入;
编码器的表达式为:
Figure BDA0003520777330000055
式中,
Figure BDA0003520777330000056
表示使用g个大小为1*1的卷积核对特征X进行卷积运算,g=256,128,64,32;
根据式(11)对中级特征
Figure BDA0003520777330000057
进行卷积运算,得到另一个中级特征
Figure BDA0003520777330000058
Figure BDA0003520777330000059
第四步、根据式(12)、(13)分别将中级特征
Figure BDA00035207773300000510
Figure BDA00035207773300000511
进行向量展平操作,得到两个一维向量fm和fe;根据式(14)、(15)对一维向量fm进行两次线性变换,得到两个映射特征
Figure BDA00035207773300000512
Figure BDA00035207773300000513
根据式(16)、(17)的Sigmoid函数对一维向量fe进行两次处理,得到增强特征
Figure BDA00035207773300000514
Figure BDA00035207773300000515
Figure BDA00035207773300000516
Figure BDA00035207773300000517
Figure BDA00035207773300000518
Figure BDA00035207773300000519
Figure BDA00035207773300000520
Figure BDA00035207773300000521
式中,flatten(·)表示向量展平操作,
Figure BDA00035207773300000522
分别表示权重矩阵W1的第r1列和偏置向量β1的第r1个分量,r1=1,2,…,R1;
Figure BDA00035207773300000523
分别表示权重矩阵W2的第r2列和偏置向量β2的第r2个分量,r2=1,2,…,R2;
Figure BDA0003520777330000061
分别表示权重矩阵W3的第r3列和偏置向量β3的第r3个分量,r3=1,2,…,R3;
Figure BDA0003520777330000062
分别表示权重矩阵W4的第r4列和偏置向量β4的第r4个分量,r4=1,2,…,R4;W1、W2、W3和W4均为随机生成的权重矩阵,β1、β2、β3和β4均为随机生成的偏置向量,R1、R2分别为映射特征
Figure BDA0003520777330000063
Figure BDA0003520777330000064
的维度,R3、R4分别为增强特征
Figure BDA0003520777330000065
Figure BDA0003520777330000066
的维度;
第五步、通过宽度学习系统原理构建三个分类器;从两个映射特征
Figure BDA0003520777330000067
中任选一个映射特征以及从两个增强特征
Figure BDA0003520777330000068
中任选一个增强特征进行拼接,得到拼接特征;将拼接特征、剩余的映射特征和增强特征作为三个分类器的输入,根据式(18)、(19)的宽度学习系统原理计算分类器输出层的权重矩阵;
Figure BDA0003520777330000069
P=Q+Y (19)
其中,Q表示拼接特征、剩余的映射特征或剩余的增强特征,I表示单位矩阵,λ表示正则化系数,T表示矩阵转置,Y表示分类器学习过程中与输入图像对应的样本标签,P表示分类器输出层的权重矩阵;
将每个分类器输出层的权重矩阵与该分类器的输入相乘,得到该分类器的输出结果;最后将三个分类器的输出结果进行加权平均,得到最终的检测结果,至此完成深度伪造图像的检测。
实施例1
本实施例以深度伪造的人脸图像为例,对融合深度和宽度学习的深度伪造图像检测方法进行说明,包括以下步骤:
第一步、数据准备;本实施例以CelebA-HQ和CelebA数据集的真实人脸图像为基础,分别通过StarGAN、StyleGAN、StyleGAN2、AttGAN、FaceForensics++方法生成深度伪造人脸图像,得到五个训练集和五个测试集,每个训练集和测试集分别包含1500、500张深度伪造人脸图像;FaceForensics++为开源伪造人脸视频数据,本实施例使用其伪造视频的单帧人脸图像作为深度伪造人脸图像,以体现本发明方法对于深度伪造人脸视频也具有适用性;将所有图像转换为大小为256*256像素的灰度图像。
第二步、利用频域特征提取模块提取深度伪造人脸图像的初级特征;
2-1对灰度图像进行两次分割,得到两个图像块组A和A′,图像块组A={a1,a2,…,a256}包含256个大小为16*16像素的图像块ai,图像块组A′={a′1,a′2,…,a′64}包含64个大小为32*32像素的图像块a′j;对于每个图像块,通过快速傅里叶变换得到频域幅度谱,再对频域幅度谱进行中心化处理,得到图像块的中心化频域幅度谱,具体表达式参见式(1)和(2):
Ai=shift(FFT(ai)) i=1,2,…,256 (1)
A′j=shift(FFT(a′j)) j=1,2,…,64 (2)
式中,FFT(·)表示快速傅里叶变换,shift(·)表示中心化处理操作;Ai、A′j分别表示图像块ai和a′j的中心化频域幅度谱;
2-2根据式(3)对灰度图像进行全局快速傅里叶变换,将灰度图像映射至频域上,并对频域幅度谱进行中心化处理,得到灰度图像的中心化频域幅度谱;通过式(4)对灰度图像的中心化频域幅度谱进行高通滤波,以去除中心化频域幅度谱中的低频分量,得到高通滤波后的中心化频域幅度谱;再根据式(5)对高通滤波后的中心化频域幅度谱进行逆快速傅里叶变换和去中心化处理,将中心化频域幅度谱映射至空域,最后通过Sigmoid函数对中心化频域幅度谱映射至空域进行归一化处理,得到全局高频注意力图;
Aglobal=shift(FFT(Igray)) (3)
Figure BDA0003520777330000071
Iatt=Sigmoid(IFFT(Ishift(Afiltered))) (5)
其中,Aglobal表示灰度图像Igray的中心化频域幅度谱,Thigh_pass表示高通滤波模板,
Figure BDA0003520777330000072
表示相乘操作,Afiltered表示高通滤波后的中心化频域幅度谱,IFFT(·)、Ishift(·)分别表示逆快速傅里叶变换和去中心化处理操作,Iatt表示全局高频注意力图;
2-3同理,对全局高频注意力图Iatt进行与第2-1步中相同的分割,得到两个局部注意力块组Att和Att′,局部注意力块组Att={Att1,Att2,…,Att256}包含256个局部注意力块Atti,局部注意力块组Att′={Att′1,Att′2,…,Att′64}包含64个局部注意力块Att′j,局部注意力块与步骤2-1中的图像块一一对应;对所有的局部注意力块Atti和Att′j进行中值池化,得到各个图像块的注意力系数,再将注意力系数与对应图像块的中心化频域幅度谱相乘,得到施加注意力的图像块,参见式(6)、(7);
Mi=MidPool(Atti,16)·Ai i=1,2,…,256 (6)
M′j=MidPool(Att′j,32)·A′j j=1,2,…,64 (7)
其中,MidPool(·,n)表示按n*n大小进行中值池化操作,n=16、32;Mi、M′j分别表示图像块Pi和P′j施加注意力后的图像块;
通过式(8)的最大池化操作将所有施加注意力的图像块M′j的大小调整为16*16像素,得到归一化的图像块Nj;最后将所有归一化的图像块所有施加注意力的图像块Mi进行通道连接,得到尺寸为320*320*16像素的初级特征F1,F1即为频域特征提取模块提取的初级特征;其表达式参见式(9);
Nj=MaxPool(M′j,2) j=1,2,…,64 (8)
F1={M1,M2,…,M256,N1,N2,…,N64} (9)
式中,MaxPool(·,n)表示按n*n大小进行最大值池化操作,n=2;
第三步、构建通道卷积自编码模块,如图3所示,通道卷积自编码模块包括编码器和解码器,编码器包含四个连续的卷积层,每个卷积层的卷积核大小均为1*1,卷积核数量分别为256、128、64、32;解码器与编码器为对称结构,解码器包含四个连续的卷积层,卷积核大小均为1*1,卷积核数量分别为32、64、128、256;
编码器的表达式为:
Figure BDA0003520777330000073
式中,
Figure BDA0003520777330000074
表示使用g个大小为1*1的卷积核对特征X进行卷积运算,g=256,128,64,32;
根据式(11)对中级特征
Figure BDA0003520777330000081
进行卷积运算,得到另一个中级特征
Figure BDA0003520777330000082
Figure BDA0003520777330000083
将2000张真实人脸图像经过第二步提取的初级特征,利用真实人脸图像的初级特征对通道卷积自编码模块进行训练,使用Adam优化器,采用均方损失函数计算损失,待通道卷积自编码模块收敛之后,完成通道卷积自编码模块的训练;
利用预训练的通道卷积自编码模块的编码器对初级特征F1进行特征融合,得到两个中级特征
Figure BDA0003520777330000084
Figure BDA0003520777330000085
将中级特征
Figure BDA0003520777330000086
Figure BDA0003520777330000087
分别作为特征映射流和特征增强流的输入;
第四步、根据式(12)、(13)分别将中级特征
Figure BDA0003520777330000088
Figure BDA0003520777330000089
进行向量展平操作,得到两个一维向量fm和fe;根据式(14)、(15)对一维向量fm进行两次线性变换,得到两个映射特征
Figure BDA00035207773300000810
Figure BDA00035207773300000811
根据式(16)、(17)的Sigmoid函数对一维向量fe进行两次处理,得到两个增强特征
Figure BDA00035207773300000812
Figure BDA00035207773300000813
Figure BDA00035207773300000814
Figure BDA00035207773300000815
Figure BDA00035207773300000816
Figure BDA00035207773300000817
Figure BDA00035207773300000818
Figure BDA00035207773300000819
式中,flatten(·)表示向量展平操作,
Figure BDA00035207773300000820
分别表示权重矩阵W1的第r1列和偏置向量β1的第r1个分量,r1=1,2,…,R1;
Figure BDA00035207773300000821
分别表示权重矩阵W2的第r2列和偏置向量β2的第r2个分量,r2=1,2,…,R2;
Figure BDA00035207773300000822
分别表示权重矩阵W3的第r3列和偏置向量β3的第r3个分量,r3=1,2,…,R3;
Figure BDA00035207773300000823
分别表示权重矩阵W4的第r4列和偏置向量β4的第r4个分量,r4=1,2,…,R4;W1、W2、W3和W4均为随机生成的权重矩阵,β1、β2、β3和β4均为随机生成的偏置向量,R1、R2分别为映射特征
Figure BDA00035207773300000824
Figure BDA00035207773300000825
的维度,R3、R4分别为增强特征
Figure BDA00035207773300000826
Figure BDA00035207773300000827
的维度;
第五步、通过宽度学习系统原理构建三个分类器;从两个映射特征
Figure BDA00035207773300000828
中任选一个映射特征以及从两个增强特征
Figure BDA00035207773300000829
和任选一个增强特征进行拼接,本实施例选择映射特征
Figure BDA00035207773300000830
和增强特征
Figure BDA00035207773300000831
得到拼接特征
Figure BDA00035207773300000832
将拼接特征
Figure BDA00035207773300000833
剩余的映射特征
Figure BDA00035207773300000834
和增强特征
Figure BDA00035207773300000835
这三个特征作为三个分类器的输入,根据式(18)、(19)宽度学习系统原理计算分类器输出层的权重矩阵,分别为P1、P2、P3
Figure BDA00035207773300000836
P=Q+Y (19)
其中,Q表示拼接特征、剩余的映射特征或剩余的增强特征,I表示单位矩阵,λ表示正则化系数,Y表示分类器学习过程中与输入图像对应的样本标签,P表示分类器输出层的权重矩阵;
根据式(20)~(22)将三个分类器输出层的权重矩阵与对应分类器的输入相乘,得到三个分类器的输出结果Y'1、Y'2和Y'3
Figure BDA0003520777330000091
Figure BDA0003520777330000092
Figure BDA0003520777330000093
通过式(23)将三个分类器的输出结果进行加权平均,得到最终的检测结果;
Y'=αY'1+βY'2+γY'3 (23)
其中,α、β和γ分别为三个分类器的权重系数,α+β+γ=1,本实施例中α=β=0.2,γ=0.4;
至此,完成本实施例的融合深度和宽度学习的深度伪造图像检测。
表1各个训练集的数据明细及训练时间
Figure BDA0003520777330000094
从表1可知,本发明方法的构建总用时短,在本实施例中,使用3000张训练图像参与方法构建过程,总用时仅为60分钟左右,其中分类器输出层的权重矩阵计算用时仅用2分钟左右。值得注意的是,表1中的方法构建总用时仅代表方法初始构建时所消耗时间,在方法重构时无需对通道卷积自编码器模块进行训练,方法重构总用时即为分类器输出层的权重矩阵计算用时。
表2各个测试集的数据明细及检测结果
Figure BDA0003520777330000095
从表2可知,本发明方法在五个测试集上均能取得较好的检测效果,准确率可达98%以上,对于不同技术合成的深度伪造人脸图像具有较强适应能力,同时兼顾检测准确率和检测效率。
本发明未述及之处适用于现有技术。

Claims (2)

1.一种融合深度和宽度学习的深度伪造图像检测方法,其特征在于,该方法包括以下步骤:
第一步、获取待检测图像,将待检测图像转换为大小为256*256像素的灰度图像;
第二步、利用频域特征提取模块提取待检测图像的初级特征;
2-1将灰度图像进行两次分割,得到两个图像块组A和A′,图像块组A={a1,a2,…,a256}包含256个大小为16*16像素的图像块ai,i=1,2,…,256;图像块组A′={a′1,a′2,…,a′64}包含64个大小为32*32像素的图像块a′j,j=1,2,…,64;对于每个图像块,通过快速傅里叶变换得到频域幅度谱,再对频域幅度谱进行中心化处理,得到图像块的中心化频域幅度谱;
2-2对灰度图像进行全局快速傅里叶变换,再对频域幅度谱进行中心化处理,得到灰度图像的中心化频域幅度谱;对灰度图像的中心化频域幅度谱进行高通滤波,对高通滤波后的中心化频域幅度谱进行逆快速傅里叶变换和去中心化处理,将中心化频域幅度谱映射至空域,最后通过非线性函数对映射至空域的中心化频域幅度谱进行归一化处理,得到全局高频注意力图;
2-3对全局高频注意力图进行分割,得到两个局部注意力块组Att和Att′,局部注意力块组Att={Att1,Att2,…,Att256}包含256个局部注意力块Atti,局部注意力块组Att′={Att′1,Att′2,…,Att′64}包含64个局部注意力块Att′j,局部注意力块与步骤2-1中的图像块一一对应;对所有的局部注意力块Atti和Att′j进行中值池化操作,得到各个图像块的注意力系数;再将注意力系数与对应图像块的中心化频域幅度谱相乘,得到施加注意力后的图像块;
通过最大值池化操作将所有施加注意力的图像块的大小调整为16*16像素,得到归一化后的图像块;将所有归一化后的图像块与所有施加注意力的图像块进行通道连接,得到初级特征;
第三步、构建通道卷积自编码模块,通道卷积自编码模块包括编码器和解码器;利用预训练的通道卷积自编码模块的编码器对初级特征进行特征融合,得到两个中级特征
Figure FDA0003520777320000011
Figure FDA0003520777320000012
第四步、根据式(12)、(13)分别将中级特征
Figure FDA0003520777320000013
Figure FDA0003520777320000014
进行向量展平操作,得到两个一维向量fm和fe;根据式(14)、(15)对一维向量fm进行两次线性变换,得到两个映射特征
Figure FDA0003520777320000015
Figure FDA0003520777320000016
根据式(16)、(17)的Sigmoid函数对一维向量fe进行两次处理,得到增强特征
Figure FDA0003520777320000017
Figure FDA0003520777320000018
Figure FDA0003520777320000019
Figure FDA00035207773200000110
Figure FDA00035207773200000111
Figure FDA00035207773200000112
Figure FDA00035207773200000113
Figure FDA00035207773200000114
式中,flatten(·)表示向量展平操作,
Figure FDA00035207773200000115
分别表示权重矩阵W1的第r1列和偏置向量β1的第r1个分量,r1=1,2,…,R1;
Figure FDA00035207773200000116
分别表示权重矩阵W2的第r2列和偏置向量β2的第r2个分量,r2=1,2,…,R2;
Figure FDA00035207773200000117
分别表示权重矩阵W3的第r3列和偏置向量β3的第r3个分量,r3=1,2,…,R3;
Figure FDA00035207773200000118
分别表示权重矩阵W4的第r4列和偏置向量β4的第r4个分量,r4=1,2,…,R4;W1、W2、W3和W4均为随机生成的权重矩阵,β1、β2、β3和β4均为随机生成的偏置向量,R1、R2分别为映射特征
Figure FDA0003520777320000021
Figure FDA0003520777320000022
的维度,R3、R4分别为增强特征
Figure FDA0003520777320000023
Figure FDA0003520777320000024
的维度;
第五步、通过宽度学习系统原理构建三个分类器;从两个映射特征
Figure FDA0003520777320000025
中任选一个映射特征以及从两个增强特征
Figure FDA0003520777320000026
中任选一个增强特征进行拼接,得到拼接特征;将拼接特征、剩余的映射特征和增强特征作为三个分类器的输入,计算各个分类器输出层的权重矩阵;将每个分类器输出层的权重矩阵与该分类器的输入相乘,得到该分类器的输出结果;最后将三个分类器的输出结果进行加权平均,得到最终的检测结果;
至此完成深度伪造图像的检测。
2.根据权利要求1所述的融合深度和宽度学习的深度伪造图像检测方法,其特征在于,所述通道卷积自编码模块的编码器和解码器结构对称,编码器和解码器均包含四个连续的卷积层,每个卷积层的卷积核大小均为1*1;编码器四个卷积层的卷积核数量分别为256、128、64、32;编码器四个卷积层的卷积核数量分别为32、64、128、256。
CN202210177248.XA 2022-02-25 2022-02-25 一种融合深度和宽度学习的深度伪造图像检测方法 Pending CN114549481A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210177248.XA CN114549481A (zh) 2022-02-25 2022-02-25 一种融合深度和宽度学习的深度伪造图像检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210177248.XA CN114549481A (zh) 2022-02-25 2022-02-25 一种融合深度和宽度学习的深度伪造图像检测方法

Publications (1)

Publication Number Publication Date
CN114549481A true CN114549481A (zh) 2022-05-27

Family

ID=81680237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210177248.XA Pending CN114549481A (zh) 2022-02-25 2022-02-25 一种融合深度和宽度学习的深度伪造图像检测方法

Country Status (1)

Country Link
CN (1) CN114549481A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797333A (zh) * 2023-01-29 2023-03-14 成都中医药大学 一种个性化定制的智能视觉训练方法
CN116453199A (zh) * 2023-05-19 2023-07-18 山东省人工智能研究院 基于复杂纹理区域伪造痕迹的gan生成人脸检测方法
CN116740015A (zh) * 2023-06-12 2023-09-12 北京长木谷医疗科技股份有限公司 基于深度学习的医学图像智能检测方法、装置及电子设备
CN117201693A (zh) * 2023-11-01 2023-12-08 长春汽车工业高等专科学校 一种物联网图像压缩方法、装置、终端设备及介质
CN117238018A (zh) * 2023-09-20 2023-12-15 华南理工大学 基于多粒度的可增量深宽网络活体检测方法、介质及设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797333A (zh) * 2023-01-29 2023-03-14 成都中医药大学 一种个性化定制的智能视觉训练方法
CN116453199A (zh) * 2023-05-19 2023-07-18 山东省人工智能研究院 基于复杂纹理区域伪造痕迹的gan生成人脸检测方法
CN116453199B (zh) * 2023-05-19 2024-01-26 山东省人工智能研究院 基于复杂纹理区域伪造痕迹的gan生成人脸检测方法
CN116740015A (zh) * 2023-06-12 2023-09-12 北京长木谷医疗科技股份有限公司 基于深度学习的医学图像智能检测方法、装置及电子设备
CN117238018A (zh) * 2023-09-20 2023-12-15 华南理工大学 基于多粒度的可增量深宽网络活体检测方法、介质及设备
CN117201693A (zh) * 2023-11-01 2023-12-08 长春汽车工业高等专科学校 一种物联网图像压缩方法、装置、终端设备及介质
CN117201693B (zh) * 2023-11-01 2024-01-16 长春汽车工业高等专科学校 一种物联网图像压缩方法、装置、终端设备及介质

Similar Documents

Publication Publication Date Title
CN114549481A (zh) 一种融合深度和宽度学习的深度伪造图像检测方法
Liu et al. Multi-level wavelet convolutional neural networks
Liu et al. The classification and denoising of image noise based on deep neural networks
CN113255571B (zh) 抗jpeg压缩的伪造图像检测方法
Quan et al. Learn with diversity and from harder samples: Improving the generalization of CNN-based detection of computer-generated images
Chen et al. A rotation-invariant convolutional neural network for image enhancement forensics
Xu et al. Exposing fake images generated by text-to-image diffusion models
Castillo Camacho et al. A simple and effective initialization of CNN for forensics of image processing operations
CN117079354A (zh) 一种基于噪声不一致性的深度伪造检测分类和定位方法
Zhu et al. Rggid: A robust and green gan-fake image detector
CN107133579A (zh) 基于CSGF(2D)2PCANet卷积网络的人脸识别方法
Hammad et al. An secure and effective copy move detection based on pretrained model
Huang et al. A method for identifying origin of digital images using a convolutional neural network
Tan et al. Frequency-Aware Deepfake Detection: Improving Generalizability through Frequency Space Domain Learning
Hussain et al. Image denoising to enhance character recognition using deep learning
CN117689550A (zh) 基于渐进式生成对抗网络的低光图像增强方法及装置
CN117373136A (zh) 基于频率掩膜和注意力一致性的人脸伪造检测方法
CN116311430A (zh) 基于图像多样化特征的深度伪造检测方法与装置
Wyzykowski et al. A Universal Latent Fingerprint Enhancer Using Transformers
Li et al. Dual branch parallel steganographic framework based on multi-scale distillation in framelet domain
Alsandi Image splicing detection scheme using surf and mean-LBP based morphological operations
Sychandran et al. A hybrid xception-ensemble model for the detection of computer generated images
Salim et al. Comparison analysis of the artificial neural network algorithm and k-means clustering in gorontalo herbal plant image identification system
Yao et al. Screen-shot and Demoiréd image identification based on DenseNet and DeepViT
Brodarič et al. Cross-Dataset Deepfake Detection: Evaluating the Generalization Capabilities of Modern DeepFake Detectors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination