CN115311525B

CN115311525B - 深度伪造检测方法及对应装置

Info

Publication number: CN115311525B
Application number: CN202211220117.1A
Authority: CN
Inventors: 于鲲; 王源
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2023-03-14
Anticipated expiration: 2042-10-08
Also published as: CN115311525A

Abstract

本申请实施例公开了一种深度伪造检测方法及对应装置，涉及机器学习技术领域。本申请实施例提供的技术方案中，在空间域和频域两方面对待检测图像进行特征提取，并对空间特征表示和频率特征表示进行融合以检测待检测图像是否存在伪造对象。在提取频率特征时，充分考虑了待检测图像中伪造对象区域和其他区域在不同粒度的频率上所体现出的频率差异，利用待检测图像中的对象区域对粗粒度的频率特征表示和细粒度的频率特征表示进行融合得到待检测图像的频率特征表示，从而提高深度伪造检测的准确度。

Description

深度伪造检测方法及对应装置

技术领域

本申请涉及机器学习技术领域，特别是涉及一种深度伪造检测方法及对应装置。

背景技术

随着深度伪造技术的发展，互联网上充斥着大量伪造诸如人脸等对象的虚假视频、图像，给政治经济、社会安全、个人信息安全等带来了巨大的负面影响。因此如何实现准确的深度伪造检测成为亟待解决的问题。

发明内容

本申请提供了一种深度伪造检测方法及对应装置，用以提高深度伪造检测的准确度。

本申请提供了如下方案：

第一方面，提供了一种深度伪造检测方法，所述方法包括：

获取待检测图像；

将所述待检测图像输入深度伪造检测模型，获取所述深度伪造检测模型针对所述待检测图像输出的是否存在伪造对象的检测结果；其中，所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络，所述深度伪造检测模型为机器学习模型；

所述空间特征提取网络从所述待检测图像中提取空间特征表示；

所述频率特征提取网络从所述待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示，所述第一粒度大于所述第二粒度；对所述待检测图像进行对象区域分割，利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述待检测图像的频率特征表示；

所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合，得到空间频率联合特征表示；

所述分类网络利用所述空间频率联合特征表示进行分类处理，输出所述待检测图像是否存在伪造对象。

根据本申请实施例中一可实现的方式，从所述待检测图像中提取第一粒度的频率特征表示包括：

对所述待检测图像进行傅里叶变换得到所述待检测图像的第一频率特征表示；

利用

个滤波器对所述第一频率特征表示进行滤波处理，得到

个频率分量的第一频率特征表示，所述

为大于1的正整数；

分别对所述

个频率分量的第一频率特征表示进行逆傅里叶变换，得到

个频率分量的第二频率特征表示；

将所述

个频率分量的第二频率特征表示进行拼接，得到所述第一粒度的频率特征表示。

根据本申请实施例中一可实现的方式，从所述待检测图像中提取第二粒度的频率特征表示包括：

将所述待检测图像分割为多个图像块，对各图像块进行傅里叶变换得到各图像块的频率特征表示；

将各图像块的频率特征表示进行拼接得到所述待检测图像的第三频率特征表示；

对所述第三频率特征表示进行卷积处理，得到所述第二粒度的频率特征表示。

根据本申请实施例中一可实现的方式，所述利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述待检测图像的频率特征表示包括：

利用图像分割网络生成人脸图像的内容掩码，所述内容掩码是对待检测图像中的对象区域进行掩码处理得到的；

利用所述内容掩码对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理，得到所述待检测图像的频率特征表示。

根据本申请实施例中一可实现的方式，所述空间特征提取网络从所述待检测图像中提取空间特征表示包括：

利用至少两层骨干网络对所述待检测图像进行空间特征提取，得到各层输出的空间特征表示，其中将最高层骨干网络输出的空间特征表示作为所述待检测图像的空间特征表示。

根据本申请实施例中一可实现的方式，所述深度伪造检测模型还包括：注意力处理网络；在所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合之前，还包括：

所述注意力处理网络利用所述至少两层骨干网络中最高层骨干网络输出的空间特征表示，对所述待检测图像的频率特征表示进行双线性注意力池化BAP处理，并将处理后的待检测图像的频率特征提供给所述空间频率融合网络进行所述融合；和/或，

利用从所述至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取的纹理特征表示，对所述待检测图像的空间特征表示进行BAP处理，并将处理后的待检测图像的空间特征表示提供给所述空间频率融合网络进行所述融合。

根据本申请实施例中一可实现的方式，在对所述待检测图像的频率特征表示进行BAP处理之前，所述方法还包括：所述注意力处理网络对所述待检测图像的空间特征表示进行细化处理，该细化处理包括：获取所述待检测图像的空间特征表示对应的空间注意力图，利用所述空间注意力图产生多尺度空间注意力图作为细化处理后的待检测图像的空间特征表示；和/或，

在利用所述纹理特征表示对所述待检测图像的频率特征表示进行BAP处理之前，所述方法还包括：所述注意力处理网络对所述待检测图像的频率特征表示进行细化处理，该细化处理包括：获取所述待检测图像的频率特征表示对应的频率注意力图，利用所述频率注意力图产生多尺度频率注意力图作为细化处理后的待检测图像的频率特征表示。

根据本申请实施例中一可实现的方式，利用所述空间注意力图产生多尺度空间注意力图包括：所述注意力处理网络对所述空间注意力图向下采样得到多个空间注意力图；分别从多个空间注意力图中提取特征分布图后，对多个特征分布图进行上采样和整合得到所述多尺度空间注意力图；

利用所述频率注意力图产生多尺度频率特征图包括：所述注意力处理网络对所述频率注意力图向下采样得到多个频率注意力图；分别从多个频率注意力图中提取特征分布图后，对多个特征分布图进行上采样和整合得到所述多尺度频率注意力图。

根据本申请实施例中一可实现的方式，所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合，得到空间频率融合特征表示包括：

所述空间频率融合网络将所述待检测图像的空间特征表示和频率特征表示进行拼接，得到特征拼接矩阵；

利用所述特征拼接矩阵，构建特征近邻图，所述特征近邻图包括节点和边，所述节点包括所述特征拼接矩阵的各列，若节点之间的距离满足预设的距离条件，则节点之间存在边；

利用图神经网络从所述特征近邻图中提取特征表示；

利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示。

根据本申请实施例中一可实现的方式，所述构建特征近邻图和利用图神经网络从所述特征近邻图中提取特征表示由多层动态图卷积模块执行；

每一层动态图卷积模块利用输入的特征构建特征近邻图，利用图神经网络从特征近邻图中提取特征表示并输出；其中，第一层动态图卷积模块被输入的特征表示为所述特征拼接矩阵，非最后一层动态图卷积模块将提取的特征表示输出至下一层动态图卷积模块。

根据本申请实施例中一可实现的方式，利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示包括：

利用多层感知机混合层对所述图神经网络提取的特征表示中的各列分别进行混合后，再对各行分别进行混合，得到所述空间频率融合特征表示。

根据本申请实施例中一可实现的方式，所述分类网络利用所述空间频率融合特征表示进行分类处理，输出所述待检测图像是否存在伪造对象包括：

所述分类网络对所述空间频率融合特征表示和所述待检测图像的空间特征表示进行拼接，利用拼接后得到的特征进行分类处理，输出所述待检测图像是否存在伪造对象的检测结果。

根据本申请实施例中一可实现的方式，所述对象为人脸；

所述检测结果为待检测图像是否存在伪造人脸。

第二方面，提供了一种深度伪造模型的训练方法，所述方法包括：

获取训练数据，所述训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签；

将所述图像样本作为深度伪造检测模型的输入，将所述图像样本对应的标签作为所述伪造检测模型的目标输出，训练所述深度伪造检测模型；其中，所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络，所述深度伪造检测模型为机器学习模型；

所述空间特征提取网络从所述图像样本中提取空间特征表示；

所述频率特征提取网络从所述图像样本中提取第一粒度的频率特征表示以及第二粒度的频率特征表示，所述第一粒度大于所述第二粒度；对所述图像样本进行对象区域分割，利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述图像样本的频率特征表示；

所述空间频率融合网络将图像样本的空间特征表示和频率特征表示进行融合，得到空间频率融合特征表示；

所述分类网络利用所述空间频率融合特征表示进行分类处理，输出所述图像样本是否存在伪造对象。

根据本申请实施例中一可实现的方式，从所述图像样本中提取第一粒度的频率特征表示包括：

对所述图像样本进行傅里叶变换得到所述图像样本的第一频率特征表示；

利用

个滤波器对所述第一频率特征表示进行滤波处理，得到

个频率分量的第一频率特征表示，所述

为大于1的正整数；

分别对所述

个频率分量的第一频率特征表示进行逆傅里叶变换，得到

个频率分量的第二频率特征表示；

将所述

根据本申请实施例中一可实现的方式，从所述图像样本中提取第二粒度的频率特征表示包括：

将所述图像样本分割为多个图像块，对各图像块进行傅里叶变换得到各图像块的频率特征表示；

将各图像块的频率特征表示进行拼接得到所述图像样本的第三频率特征表示；

根据本申请实施例中一可实现的方式，所述利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述图像样本的频率特征表示包括：

生成所述图像样本的内容掩码，所述内容掩码是对图像样本中的对象区域进行掩码处理得到的；

利用所述内容掩码对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理，得到所述图像样本的频率特征表示。

根据本申请实施例中一可实现的方式，所述空间特征提取网络从所述图像样本中提取空间特征表示包括：

利用至少两层骨干网络对所述图像样本进行空间特征提取，得到各层输出的空间特征表示，其中将最高层骨干网络输出的空间特征表示作为所述图像样本的空间特征表示。

根据本申请实施例中一可实现的方式，所述深度伪造检测模型还包括：注意力处理网络；在所述空间频率融合网络将图像样本的空间特征表示和频率特征表示进行融合之前，还包括：

所述注意力处理网络利用所述至少两层骨干网络中最高层骨干网络输出的空间特征表示，对所述图像样本的频率特征表示进行双线性注意力池化BAP处理，并将处理后的图像样本的频率特征提供给所述空间频率融合网络进行所述融合；和/或，

利用从所述至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取的纹理特征表示，对所述图像样本的空间特征表示进行BAP处理，并将处理后的图像样本的空间特征表示提供给所述空间频率融合网络进行所述融合。

根据本申请实施例中一可实现的方式，在对所述图像样本的频率特征表示进行BAP处理之前，所述方法还包括：所述注意力处理网络对所述图像样本的空间特征表示进行细化处理，该细化处理包括：获取所述图像样本的空间特征表示对应的空间注意力图，利用所述空间注意力图产生多尺度空间注意力图作为细化处理后的图像样本的空间特征表示；和/或，

在利用所述纹理特征表示对所述图像样本的频率特征表示进行BAP处理之前，所述方法还包括：所述注意力处理网络对所述图像样本的频率特征表示进行细化处理，该细化处理包括：获取所述图像样本的频率特征表示对应的频率注意力图，利用所述频率注意力图产生多尺度频率注意力图作为细化处理后的图像样本的频率特征表示。

根据本申请实施例中一可实现的方式，所述空间频率融合网络将图像样本的空间特征表示和频率特征表示进行融合，得到空间频率融合特征表示包括：

所述空间频率融合网络将所述图像样本的空间特征表示和频率特征表示进行拼接，得到特征拼接矩阵；

利用图神经网络从所述特征近邻图中提取特征表示；

每一层动态图卷积模块利用输入的特征表示构建特征近邻图，利用图神经网络从特征近邻图中提取特征表示并输出；其中，第一层动态图卷积模块被输入的特征表示为所述特征拼接矩阵，非最后一层动态图卷积模块将提取的特征表示输出至下一层动态图卷积模块。

利用多层感知机混合层MLP-Mixer Layer对所述图神经网络提取的特征表示中的各列分别进行混合后，再对各行分别进行混合，得到所述空间频率融合特征表示。

根据本申请实施例中一可实现的方式，所述分类网络利用所述空间频率融合特征表示进行分类处理，输出所述图像样本是否存在伪造对象包括：

所述分类网络对所述空间频率融合特征表示和所述图像样本的空间特征表示进行拼接，利用拼接后得到的特征进行分类处理，输出所述图像样本是否存在伪造对象的检测结果。

根据本申请实施例中一可实现的方式，在训练所述深度伪造检测模型的过程中，利用总损失函数的值更新所述伪造检测模型的参数，直至满足预设的训练结束条件；

其中所述总损失函数的值由第一损失函数和第二损失函数的值确定；所述第一损失函数采用交叉熵损失函数，用以最小化所述检测结果与图像样本对应的标签之间的差异；所述第二损失函数采用区域独立性损失函数，用以最小化同类检测结果内所述空间频率融合特征表示与特征中心的距离，并且最大化不同类检测结果间特征中心的距离，所述特征中心是对同类检测结果的空间频率融合特征表示进行统计得到的。

第三方面，提供了一种深度伪造检测装置，所述装置包括：

图像获取单元，被配置为获取待检测图像；

伪造检测单元，被配置为将所述待检测图像输入深度伪造检测模型，获取所述深度伪造检测模型针对所述待检测图像输出的是否存在伪造对象的检测结果；其中，所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络，所述深度伪造检测模型为机器学习模型；

所述空间特征提取网络用于从所述待检测图像中提取空间特征表示；

所述频率特征提取网络用于从所述待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示，所述第一粒度大于所述第二粒度；对所述待检测图像进行对象区域分割，利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述待检测图像的频率特征表示；

所述空间频率融合网络用于将待检测图像的空间特征表示和频率特征表示进行融合，得到空间频率融合特征表示；

所述分类网络用于利用所述空间频率融合特征表示进行分类处理，输出所述待检测图像是否存在伪造对象。

第四方面，提供了一种深度伪造模型的训练装置，所述装置包括：

样本获取单元，被配置为获取训练数据，所述训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签；

模型训练单元，被配置为将所述图像样本作为深度伪造检测模型的输入，将所述图像样本对应的标签作为所述伪造检测模型的目标输出，训练所述深度伪造检测模型；其中，所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络，所述深度伪造检测模型为机器学习模型；

所述空间特征提取网络用于从所述图像样本中提取空间特征表示；

所述频率特征提取网络用于从所述图像样本中提取第一粒度的频率特征表示以及第二粒度的频率特征表示，所述第一粒度大于所述第二粒度；对所述图像样本进行对象区域分割，利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述图像样本的频率特征表示；

所述空间频率融合网络用于将图像样本的空间特征表示和频率特征表示进行融合，得到空间频率融合特征表示；

所述分类网络用于利用所述空间频率融合特征表示进行分类处理，输出所述图像样本是否存在伪造对象。

第五方面，提供了一种深度伪造检测方法，所述方法包括：

获取待检测图像；

所述频率特征提取网络从所述待检测图像中提取频率特征表示；

所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵；利用所述特征拼接矩阵，构建特征近邻图；利用图神经网络从所述特征近邻图中提取特征表示；利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示；

所述分类网络利用所述空间频率融合特征表示进行分类处理，输出所述待检测图像是否存在伪造对象。

第六方面，提供了一种深度伪造模型的训练方法，所述方法包括：

所述频率特征提取网络从所述图像样本中提取频率特征表示；

所述空间频率融合网络将图像样本的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵；利用所述特征拼接矩阵，构建特征近邻图；利用图神经网络从所述特征近邻图中提取特征表示；利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示；

第七方面，提供了一种深度伪造检测装置，所述装置包括：

图像获取单元，被配置为获取待检测图像；

第八方面，提供了一种深度伪造模型的训练装置，所述装置包括：

根据第九方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面和第二方面中任一项所述的方法的步骤。

根据第十方面，提供了一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面和第二方面中任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

1）本申请在空间域和频域两方面对待检测图像进行特征提取，并对空间特征表示和频率特征表示进行融合以检测待检测图像是否存在伪造对象，能够更加准确地实现待检测图像的深度伪造检测。另外，本申请在提取频率特征时，充分考虑了待检测图像中伪造对象区域和其他区域在不同粒度的频率上所体现出的频率差异，利用待检测图像中的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示，更进一步提高深度伪造检测的准确度。

2）频率特征提取网络利用生成的内容掩码对两个粒度的频率特征表示进行加权处理，从而使得频率特征在图像中不同区域产生不同影响，更准确地在频域上反映伪造对象的特征，进而提高深度伪造检测的准确度。

3）本申请中，通过注意力处理网络从低层骨干网络输出的空间特征表示中提取纹理特征表示，利用纹理特征表示对待检测图像的空间特征表示进行BAP处理，从而在空间上捕捉真伪对象在纹理特征上的差异，以及隐藏在底层中的人工伪影，提高深度伪造检测的准确度。

4）本申请中，通过注意力处理网络利用最高层骨干网络输出的空间特征表示，对待检测图像的频率特征表示进行BAP处理，从而得到内容自适应的频率特征，使得提取的待检测图像的频率特征是与内容相关的，更好地在频域上理解伪造区域的特征，从而提高深度伪造检测的准确度。

5）采用至少两层骨干网络对待检测图像进行空间特征提取，将最高层骨干网络输出的高级语义特征用于进行深度伪造检测，更进一步提高深度伪造检测对空间域特征中的理解，提高检测准确度。

6）本申请通过注意力处理网络对空间注意力图和频率注意力图分别进行下采样和提取特征分布得到多尺度空间注意力图和多尺度频率注意力图，这种对特征的细化能够更加充分、细致地理解包含伪造对象的图像在空间和频域上产生的特征影响，获取更加丰富的上下文信息，从而进一步提高深度伪造检测的准确度。

7）本申请中，空间频率融合网络利用空间特征表示和频率特征表示的拼接矩阵来构建特征近邻图，利用特征近邻图进行空间频率融合特征的提取，这种方式能够利用图卷积网络推理出空间和频域的高阶关系，从而提高深度伪造检测的准确度。

8）本申请中利用MLP-Mixer Layer对图神经网络提取的特征表示中的各列和各行分别进行映射，从而使得空间和频率以及各通道的特征更加充分地交互，通过学习到的空间和频率以及各通道的特征关联，更好地体现真伪对象的差异，提高深度伪造检测的准确度。

9）本申请在训练深度伪造检测模型时仅需要使用存在伪造或者不存在伪造对象的图像样本作为训练数据，无需额外构造其他先验知识（目前有一些算法需要预先引入例如伪造面具等先验知识进行模型训练），一方面降低了训练数据的获取难度，另一方面提高模型的泛化能力。

10）本申请采用端到端学习的方式充分挖掘细粒度频率特征、频率特征与空间特征之间的关系，从而提高所训练深度伪造检测模型的检测效果。

11）本申请基于图的空间和频率融合，以及在损失函数中将区域独立性损失与交叉熵损失结合，能够有效地帮助模型在空间和频域上学习更加全面和鲁棒的伪造特征。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的示意性系统架构图；

图2是本申请实施例提供的深度伪造检测的方法流程图；

图3是本申请实施例提供的深度伪造检测模型的原理示意图；

图4是本申请实施例提供的频率特征提取网络的原理示意图；

图5是本申请实施例提供的多尺度注意力集成模块的原理示意图；

图6是本申请实施例提供的注意力图细化模块的原理示意图；

图7是本申请实施例提供的空间频率融合网络的原理示意图；

图8是本申请实施例提供的多层感知机混合层的原理示意图；

图9是本申请实施例提供的伪造检测模型的训练方法流程图；

图10是本申请实施例提供的伪造检测装置的示意性框图；

图11是本申请实施例提供的伪造检测模型的训练装置示意性框图；

图12是本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

传统的伪造检测针对的是明显的伪造区域，利用人工设置的特征来检测空间域中真实对象与伪造对象的差异。例如不一致的头部姿势、不自然的眨眼和明显的面部交换痕迹等。但这些方式已经无法处理伪造得越来越真实的深度伪造图像。

随着深度学习技术的不断发展，出现了一些利用骨干网络从图像中提取空间特征的方式进行深度伪造检测，但检测准确性仍有待提高。有鉴于此，本申请提出了一种新的深度伪造检测方法，融合图像的空间特征和频率特征实现深度伪造检测。为了方便对本申请的理解，首先对本申请所适用的系统架构进行简单描述。图1示出了可以应用本申请实施例的示意性系统架构，如图1中所示，该系统架构包括采用离线方式建立深度伪造检测模型的模型训练装置，以及在线对待预测图像进行深度伪造检测的深度伪造检测装置。

其中，模型训练装置在获取训练数据后，可以采用本申请实施例提供的方法进行模型训练，得到深度伪造检测模型。

深度伪造检测装置利用已经建立的深度伪造检测模型，对待预测图像进行深度伪造检测，输出是否存在伪造对象的检测结果。

模型训练装置和深度伪造检测装置可以分别设置为独立的服务器，也可以设置于同一个服务器或服务器群组，还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器（VPs，Virtual Private Server）服务中存在的管理难度大，服务扩展性弱的缺陷。模型训练装置和深度伪造检测装置还可以设置于具有较强计算能力的计算机终端。

另外需要说明的是，图1中以深度伪造检测装置在线执行检测为例，但在一些应用场景下，深度伪造检测装置也可以离线地对待检测图像进行诸如批量式的深度伪造检测，本申请对此不加以限制。

应该理解，图1中的模型训练装置、深度伪造检测装置以及深度伪造检测模型的数目仅仅是示意性的。根据实现需要，可以具有任意数目的模型训练装置、深度伪造检测装置以及深度伪造检测模型。

图2为本申请实施例提供的深度伪造检测的方法流程图，该方法可以由图1所示系统中的深度伪造检测装置执行。如图2中所示，该方法可以包括以下步骤：

步骤202：获取待检测图像。

步骤204：将待检测图像输入深度伪造检测模型，获取深度伪造检测模型针对待检测图像输出的是否存在伪造对象的检测结果；其中，深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络；空间特征提取网络从待检测图像中提取空间特征表示；频率特征提取网络从待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示，第一粒度大于第二粒度；对待检测图像进行对象区域分割，利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示；空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合，得到空间频率融合特征表示；分类网络利用空间频率融合特征表示进行分类处理，输出待检测图像是否存在伪造对象。

由以上描述可以看出，本申请在空间域和频域两方面对待检测图像进行特征提取，并对空间特征表示和频率特征表示进行融合以得到待检测图像是否存在伪造对象，能够更加准确地实现待检测图像的深度伪造检测。

另外，本申请在提取频率特征时，充分考虑了待检测图像中伪造对象区域和其他区域在不同粒度的频率上所体现出的频率差异，利用待检测图像中的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示，更进一步提高深度伪造检测的准确性。

本申请实施例提供的方法可以适用于多种类型的伪造对象检测。其中一种比较典型的类型是伪造人脸的检测。除此之外还可以适用于诸如伪造人体的检测、伪造背景的检测、等等。

需要说明的是，本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制，仅仅用以在名称上加以区分，例如“第一粒度”和“第二粒度”用以在名称上区分两个粒度，“第一频率特征表示”和“第二频率特征表示”用以在名称上区分两个频率特征表示，等等。

下面结合实施例重点对上述流程中的步骤204即“将待检测图像输入深度伪造检测模型，获取深度伪造检测模型针对待检测图像输出的是否存在伪造对象的检测结果”进行详细描述。

本申请实施例中提供的深度伪造检测模型为机器学习模型。机器学习是人工智能的一个子领域，机器学习模型能够从数据中学习并利用学习到的经验改善自身的性能。在机器学习过程中，经过模型训练从训练数据中发现模式和相关性，以能够利用训练得到的模型做出预测。作为其中一种可实现的方式，本申请提供的深度伪造模型可以基于神经网络实现，更优地，可以采用深度学习模型来实现。

深度伪造检测模型的结构可以如图3中所示，主要包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络。还可以进一步包括注意力处理网络和纹理提取网络。

其中，空间特征提取网络用以从待检测图像中提取空间特征表示。对于空间特征表示的提取以用于图像检测是比较常见的，常常利用骨干网络（Backbone）实现。但本申请实施例中提供了一种更优选的方式，即利用至少两层骨干网络对待检测图像进行空间特征提取，得到各层输出的空间特征表示，其中可以将最高层骨干网络输出的特征表示作为待检测图像的空间特征表示。

上述的骨干网络可以采用诸如Efficientnet、AlexNet、ResNet等来实现。如图3中以三层骨干网络为例，由低层骨干网络输出低层的空间特征表示，中层骨干网络再利用低层的空间特征表示得到中层的空间特征表示，高层骨干网络再进一步利用中层的空间特征表示得到高层的空间特征表示。本申请实施例中将高层的空间特征表示作为待检测图像的空间特征表示，其包含了空间域的高层语义特征。鉴于骨干网络采用的是目前已有的网络，在此不做详述。

频率特征提取网络用以从待检测图像中提取频率特征。

作为其中一种可实现的方式，频率特征提取网络从待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示；对待检测图像进行对象区域分割，利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示。

上述的第一粒度大于第二粒度，可以看做是对待检测图像进行“粗”粒度的频率特征提取以及“细”粒度的频率特征提取。但需要说明的是，若频率特征提取网络仅提取上述第一粒度的频率表示或者第二粒度的频率特征表示作为待检测图像的频率特征表示，也是其中一种可实现的方式。

下面分别对两个粒度的频率特征表示的具体提取方式进行说明。

从待检测图像中提取第一粒度的频率特征表示即提取“粗”粒度的频率特征的过程可以如图4中下面部分分支所示。首先对待检测图像进行傅里叶变换得到待检测图像的第一频率特征表示。其中傅里叶变换可以采用诸如DCT（Discrete Cosine Transform，离散余弦变换）等变换方式。DCT属于傅里叶变换的一种，用于对图像进行有损数据压缩，DCT将图像分成由不同频率组成的图像块，然后进行量化。

然后利用

个滤波器对第一频率特征表示进行滤波处理，得到

个频率分量的第一频率特征表示。

为大于1的正整数，以3为例，可以将频域分解为低、中、高三个频段，从而形成低频分量、中频分量和高频分量的第一频率特征表示。

再分别对

个频率分量的第一频率特征表示进行逆傅里叶变换，得到

个频率分量的第二频率特征表示。其中逆傅里叶变换的方式与傅里叶变换的方式相对应，例如若傅里叶变换采用DCT，则此处的逆傅里叶变换采用逆DCT。

假设待检测图像表示为

，

∈

。其中，

和

分别为待检测图像的高度和宽度。上述处理过程可以表示为：

=

[

(

)⊙

] （1）

其中，

表示第

个频率分量的第二频率特征表示，其体现的是全局频率信息。⊙为哈达玛积(Hadamard product)，哈达玛积是矩阵的一类运算，若A=(

)和B=(

)是两个同阶矩阵，若

,则称矩阵C=(

)为A和B的哈达玛积，或称基本积。

()和

[]分别表示DCT和逆DCT。

表示第

个滤波器对应的矩阵。

最后将

个频率分量的第二频率特征表示

进行拼接，得到第一粒度的频率特征表示

。

从待检测图像中提取第二粒度的频率特征表示即提取“细”粒度的频率特征的过程可以如图4中上面部分分支所示。首先将待检测图像分割为多个图像块，对各图像块进行傅里叶变换得到各图像块的频率特征表示。在对待检测图像进行分割时，可以采用滑动窗口的方式进行分割，最终获取到

×

个图像块，

为大于1的正整数。

∈

可以用以表示待检测图像中第

行第

列的图像块。对

进行傅里叶变换后得到的

的频率特征表示为

，

∈

。其中傅里叶变换可以采用诸如DCT等变换方式。

然后，将所有图像块的频率特征表示进行拼接得到待检测图像的第三频率特征表示

，该第三频率特征表示是一个整体的频率特征。其中，在将所有图像块的频率特征表示进行整合之前，为了使得第二粒度的频率特征表示和第一粒度的频率特征表示在维度上相一致，从而方便进行后续融合，可以对各图像块的各通道都重复执行分割图像块和傅里叶变换的处理。其中通道可以是

个，与之前实施例中所述的

个频率分量相对应，从而使得最终整合得到的

∈

。

最后对第三频率特征表示

进行卷积处理，得到待检测图像的第二粒度的频率特征表示

。作为其中一种可实现的方式，可以通过若干个卷积块对

进行卷积处理，每个卷积块可以包括Conv2d（卷积模块）、BN（Batch Normalization，批归一化）模块和激活模块（例如可以采用ReLU等激活函数）。

如图4中中间分支所示，对待检测图像进行图像分割，分割出对象区域和非对象区域。以伪造人脸检测为例，对待检测图像进行人脸区域分割，分割出人脸区域和非人脸区域（即除了人脸之外的区域）。具体地，可以采用诸如UNet网络生成一个内容掩码

，可以理解为该内容掩码

是对待检测图像中的对象区域进行掩码处理得到的，掩码处理所采用的参数通过模型训练过程学习得到。

通过上下两个分支得到第一粒度的频率特征表示

和第二粒度的频率特征表示

后，利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示。由于在进行深度伪造识别时，除了关注图像的整体频率特征之外，更需要关注对象区域的细粒度频率特征。因此可以利用上述内容掩码对第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理，得到待检测图像的频率特征表示

。其中，加权处理可以是加权求和、加权求平均等方式。例如可以表示为：

（2）

（3）

其中，C()表示卷积处理，例如可以采用步幅卷积处理。

，

的大小为

×

。

作为其中一种可实现的方式，空间频率融合网络可以直接将上述空间特征提取网络得到的待检测图像的空间特征表示和频率特征提取网络得到的频率特征表示进行融合，得到空间频率融合特征表示。

但作为一种更优选的实现方式，空间特征提取网络得到的待检测图像的空间特征表示和/或频率特征提取网络得到的频率特征表示可以首先经过注意力处理网络的处理，注意力处理网络将处理后的待检测图像的空间特征表示和/或频率特征提取网络得到的频率特征表示提供给空间频率融合网络进行融合。下面首先对注意力处理网络进行详细描述。

如图3中所示，第一方面，注意力处理网络可以从至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取纹理特征表示，利用纹理特征表示对待检测图像的空间特征表示进行BAP（Bilinear Attention Pooling，双线性注意力池化）处理，并将处理后的待检测图像的空间特征表示提供给空间频率融合网络。

第二方面，注意力处理网络可以利用至少两层骨干网络中最高层骨干网络输出的空间特征表示，对待检测图像的频率特征表示进行BAP处理，并将处理后的待检测图像的频率特征提供给空间频率融合网络。

上述两个方面可以择一执行，也可以两个方面均执行。本申请实施例中优选两方面均执行。下面对两个方面的具体执行方式进行详述。

在上述第一方面中，注意力处理网络在用纹理特征表示对待检测图像的空间特征表示进行BAP处理之前，可以首先对待检测图像的空间特征表示进行细化处理。该细化处理能够在空间上获取更加丰富的语义。具体地，该细化处理可以由注意力处理网络中的MSAE（MultiScale Attention Ensemble，多尺度注意力集成）模块来执行，MSAE模块执行的细化处理可以包括：

首先，获取待检测图像的空间特征表示对应的空间注意力图。作为其中一种可实现的方式，可以在高层骨干网络中设置注意力模块来针对待检测图像的空间特征表示产生空间注意力图。作为另一种可实现的方式，也可以在注意力处理网络中设置注意力模块来针对待检测图像的空间特征表示产生空间注意力图。空间注意力图包含待检测图像中各位置的空间特征的注意力权重值。

其次，利用空间注意力图产生多尺度空间注意力图。如图5中所示，可以对空间注意力图进行下采样得到多个空间注意力图；分别从多个空间注意力图中提取特征分布图后，对多个特征分布图进行上采样和整合得到多尺度空间注意力图

作为细化后的空间特征表示。

具体地，在MSAE中可以包括多个卷积块（ConvBlocks），每个卷积块可以包括Conv2d、BN和激活模块（例如可以采用ReLU等激活函数）。一个分支中卷积块从空间注意图中提取特征。另一个分支中对空间注意力图进行下采样处理得到了多个尺度的表示，从而获得更细致的感知信息和丰富的上下文信息，这对于深度伪造检测的准确度具有重要的提高作用；再利用AMRB（Attention Map Refinement Block，注意力图细化模块）从多个空间注意力图中提取特征分布图后再上采样到原始的空间注意力图的大小，将上采样的结果与卷积块提取的特征进行整合（例如相加）得到多尺度空间注意力图

。

在上述MSAE中可以通过一个AMRB从多个空间注意力图中分别提取特征分布图。AMRB的结构可以如图6中所示，包括GAP（ global average pooling，全局平均池化）、卷积模块、BN和激活模块（例如可以采用Sigmoid激活函数）。其中，通过GAP进行全局平均池化来捕获全局上下文，激活模块会产生一个注意力向量来反映当前尺度的空间注意力图的特征分布。

如图5中所示，在得到细化处理后的空间特征表示

后，注意力处理网络利用纹理特征表示对待检测图像的空间特征表示进行BAP（Bilinear Attention Pooling，双线性注意力池化）处理，并将处理后的待检测图像的空间特征表示

提供给空间频率融合网络。其中，纹理特征表示

可以从至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取得到的纹理特征图，从而捕获隐藏在低层空间特征中的人工伪影（manipulatedartifacts），

，即

的维度为

，高和宽分别表示为

和

。其中BAP是目前已有的池化方式，在此不做详述。

其中，注意力处理网络利用纹理特征表示对待检测图像的空间特征表示进行BAP处理时，可以首先将

中的第

个尺度

与

相乘，得到

，然后对

进行BAP处理，处理后得到的

再进行归一化后被拼接在一起得到空间特征表示

。其中，

可以表示为：

（4）

其中，

和

分别为纹理特征表示的高和宽，

表示

中第

行

列的图像块对应的取值，

表示二次范数。

，

，

是空间注意力图的尺度数量，

代表了纹理特征图的通道数。

在上述第二方面中，注意力处理网络在利用至少两层骨干网络中最高层骨干网络输出的空间特征表示，对待检测图像的频率特征表示进行BAP处理之前，可以首先对待检测图像的频率特征表示进行细化处理。该细化处理能够在频率上获取更加丰富的语义。具体地，该细化处理可以由注意力处理网络中的MSAE模块来执行，MSAE模块执行的细化处理与第一方面中对空间特征表示的处理类似地，可以包括：

首先，获取待检测图像的频率特征表示对应的频率注意力图。作为其中一种可实现的方式，可以在频率特征提取网络中设置注意力模块来针对待检测图像的频率特征表示产生频率注意力图。作为另一种可实现的方式，也可以在注意力处理网络中设置注意力模块来针对待检测图像的频率特征表示产生频率注意力图。频率注意力图包含待检测图像中各位置的频率特征的注意力权重值。

其次，利用频率注意力图产生多尺度频率注意力图。可以对频率注意力图进行下采样得到多个频率注意力图；分别从多个频率注意力图中提取特征分布图后，分别对多个特征分布图进行上采样和整合得到多尺度频率注意力图

作为细化后的频率特征表示。

MSAE可以包括多个卷积块（ConvBlocks）执行。每个卷积块可以包括Conv2d、BN和激活模块（例如可以采用ReLU等激活函数）。一个分支中卷积块从空间注意图中提取特征。另一个分支中对空间注意力图进行下采样处理后实际上得到了多个尺度的表示，从而获得更细致的感知信息和丰富的上下文信息，这对于深度伪造检测的准确度具有重要的提高作用。

上述MSAE中可以通过一个AMRB（注意力地图细化模块）从多个频率注意力图中分别提取特征分布图。其中，通过GAP进行全局平均池化来捕获全局上下文，激活模块会产生一个注意力向量来反映当前尺度的频率注意力图的特征分布。

在得到多个特征分布图后，对多个特征分布图进行上采样到原始的频率注意力图的大小，并在频率上整合（例如相加）得到多尺度频率注意力图

。

在得到细化处理后的频率特征表示

后，注意力处理网络最高层骨干网络输出的空间特征表示，对待检测图像的频率特征表示进行BAP处理，并将处理后的待检测图像的频率特征表示提供给频率融合网络。

其中，注意力处理网络利用最高层骨干网络输出的空间特征表示对待检测图像的频率特征表示进行BAP处理，处理方式与公式（4）中的处理方式类似，最终得到频率特征表示

，

∈

，其中，

是频率注意力图的尺度数量。该得到的频率特征表示

是与空间内容相关的频率特征。

如图3中所示，经过注意力处理网络得到的空间特征表示

和频率特征表示

输入空间频率融合网络，由空间频率融合网络对

和

进行融合。

作为其中一种可实现的方式，空间频率融合网络可以将空间特征表示

和频率特征表示

进行拼接，得到特征拼接矩阵

，

∈

。其中

。

。然后利用特征拼接矩阵

，构建特征近邻图；再利用图神经网络从特征近邻图中提取特征表示得到空间频率融合特征表示。

其中，在构建特征近邻图时，可以将

的每一列作为一个节点。也就是说，特征近邻图包括节点和边。特征紧邻图中的节点可以看做是

在高层语义空间中的各特征点集合，节点可以看做是

在高层语义空间中的各特征点。若节点之间的距离满足预设的距离条件，则节点之间存在边。例如，对于其中一个节点

而言，将与该节点之间的距离最近的

个节点作为该节点

的邻居节点，节点

与邻居节点之间存在边。其中

为预设的正整数，可以取经验值或试验值。

上述构建特征近邻图和特征表示的提取可以由动态图卷积模块实现。作为其中一种可实现的方式，可以采用一层动态图卷积模块。

作为另一种可实现的方式，如图7中所示，可以采用多层动态图卷积模块来构建特征近邻图并提取特征表示。对于第1层动态图卷积模块中的图神经网络，从利用

构建的特征近邻图

中提取特征表示，输出特征表示

；对于第2层动态图卷积模块，利用

构建特征近邻图

后，由图神经网络提取特征表示，输出特征表示

，以此类推，直至最后一层图神经网络输出特征表示。

对于第

+1层动态图卷积模块的图神经网络而言，依据其输入的特征近邻图

，确定邻接矩阵

。然后获得对称的邻接矩阵

：

(5)

其中，

表示

的转置。

更进一步地，可以对

进行归一化，得到

：

（6）

其中，

是

的度矩阵增加自环后得到的矩阵。度矩阵是一个对角矩阵，对角上的元素为

中各节点的度，节点的度表示该节点连接的边的数量。

从

提取的特征表示

可以采用如下公式表示：

=

(7)

其中，

为可学习的图权重，ReLU()为ReLU激活函数。

在图7中以两个图神经网络为例。

作为其中一种可实现的方式，可以将上述图神经网络输出的特征表示作为空间频率融合特征表示，然后输出给分类网络。

作为另一种可实现的方式，可以进一步将上述图神经网络输出的特征表示

输出至图信息交互网络，其中

为表示图神经网络的层数。如图7中所示，图神经网络输出的特征表示

与

进行整合得到

后，输入至图信息交互网络。

图信息交互网络由一个以上的MLP-Mixer Layer（多层感知机混合层）组成。

中的列代表了同一节点（包括同一空间位置或同一频率位置）在不同通道上的信息，行表了不同节点在同一通道上的信息。也就是说，对每一列进行混合可以实现通道域的信息融合，对每一行进行混合可以实现空间域和频域的信息融合。本申请实施例中提供的各MLP-MixerLayer使用MLP先后对各行和各列进行混合，实现空间域、频域和通道域的信息融合。

每一个MLP-Mixer Layer的结构可以如图8中所示。

首先经过LN（Layer Norm）进行归一化，然后对归一化后的

进行转置后依据图邻接矩阵进行加权得到

，该图邻接矩阵来自于第一层图神经网络，即

。

的行和列的含义与

相反，即列代表不同节点在同一通道上的信息，行代表同一节点在不同通道上的信息。然后经过第一组MLP对行进行映射，得到

。

进行转置后经过LN进行归一化处理，再经过第二组MLP对行进行映射。其中，第一组MLP实际上是对不同通道之间的映射，第二组MLP实际上是对不同节点之间的映射。如果存在多个MLP-Mixer Layer，则前一个MLP-Mixer Layer输出的特征表示又作为下一个MLP-Mixer Layer的输入重复上述处理。MLP-Mixer Layer最终输出特征表示

作为空间频率融合特征表示。

本申请实施例中采用的分类网络可以是一个二分类网络，作为其中一种可实现的方式，可以仅利用空间频率融合特征表示进行分类处理，输出待检测图像是否存在伪造对象的检测结果。

作为另一种可实现的方式，分类网络可以对空间频率融合特征表示和待检测图像的空间特征表示进行拼接，利用拼接后得到的特征进行分类处理，输出待检测图像是否存在伪造对象的检测结果。图3中示出的是这种方式。

图9为本申请实施例提供的深度伪造模型的训练方法流程图，如图9中所示，该方法可以包括以下步骤：

步骤902：获取训练数据，训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签。

本申请实施例中可以预先获取一些包含预设对象的图像作为图像样本，并对图像中是否存在伪造对象进行标注。可见训练数据的获取和标注均比较简单，标注的标签仅需要是或否即可。例如，获取一些包含人脸的图像作为图像样本，并对图像样本是否包含伪造人脸标注标签，从而构成训练数据。

步骤904：将图像样本作为深度伪造检测模型的输入，将图像样本对应的标签作为伪造检测模型的目标输出，训练深度伪造检测模型；其中，深度伪造检测模型可以如图3中所示，包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络，还可以进一步包括注意力处理网络和纹理提取网络。

其中，空间特征提取网络从图像样本中提取空间特征表示。

频率特征提取网络从待检测图像中提取频率特征。

作为其中一种可实现的方式，频率特征提取网络从图像样本中提取第一粒度的频率特征表示以及第二粒度的频率特征表示，第一粒度大于第二粒度；对图像样本进行对象区域分割，利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到图像样本的频率特征表示。

但需要说明的是，若频率特征提取网络仅提取上述第一粒度的频率表示或者第二粒度的频率特征表示作为待检测图像的频率特征表示，也是其中一种可实现的方式。

空间频率融合网络将图像样本的空间特征表示和频率特征表示进行融合，得到空间频率融合特征表示。

分类网络利用空间频率融合特征表示进行分类处理，输出图像样本是否存在伪造对象。

作为其中一种可实现的方式，空间特征提取网络可以利用至少两层骨干网络对图像样本进行空间特征提取，得到各层输出的空间特征表示，其中将最高层骨干网络输出的空间特征表示作为图像样本的空间特征表示。

作为其中一种可实现的方式，如图4中下半部分分支所示，频率特征提取网络在从图像样本中提取第一粒度的频率特征表示时，可以首先对图像样本进行傅里叶变换（例如DCT等变换方式）得到图像样本的第一频率特征表示；然后利用

个滤波器对第一频率特征表示进行滤波处理，得到

个频率分量的第一频率特征表示，

为大于1的正整数；再分别对

个频率分量的第一频率特征表示进行逆傅里叶变换，得到

个频率分量的第二频率特征表示；最后将

个频率分量的第二频率特征表示进行拼接，得到第一粒度的频率特征表示。

如图4中上半部分分支所示，频率特征提取网络从图像样本中提取第二粒度的频率特征表示时，可以首先将图像样本分割为多个图像块，对各图像块进行傅里叶变换得到各图像块的频率特征表示；然后将各图像块的频率特征表示进行拼接得到图像样本的第三频率特征表示；再对第三频率特征表示进行卷积处理，得到第二粒度的频率特征表示。

如图4中中间部分分支所示，频率特征提取网络可以首先采用诸如UNet网络生成图像样本的内容掩码，内容掩码是对图像样本中的对象区域进行掩码处理得到的；然后利用内容掩码对第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理，得到图像样本的频率特征表示。具体处理可以参见上面实施例中公式（2）和公式（3）。

作为其中一种可实现的方式，空间频率融合网络可以直接将上述空间特征提取网络得到的图像样本的空间特征表示和频率特征提取网络得到的频率特征表示进行融合，得到空间频率融合特征表示。

但作为一种更优选的实现方式，空间特征提取网络得到的图像样本的空间特征表示和/或频率特征提取网络得到的频率特征表示可以首先经过注意力处理网络的处理，注意力处理网络将处理后的图像样本的空间特征表示和/或频率特征提取网络得到的频率特征表示提供给空间频率融合网络进行融合。下面首先对注意力处理网络进行详细描述。

如图3中所示，第一方面，注意力处理网络可以利用至少两层骨干网络中最高层骨干网络输出的空间特征表示，对图像样本的频率特征表示进行BAP处理，并将处理后的图像样本的频率特征提供给空间频率融合网络进行融合。

第二方面，注意力处理网络可以从至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取纹理特征表示，利用纹理特征表示对图像样本的空间特征表示进行BAP处理，并将处理后的图像样本的空间特征表示提供给空间频率融合网络进行融合。

在上述第一方面中，注意力处理网络在对图像样本的频率特征表示进行BAP处理之前，可以对图像样本的空间特征表示进行细化处理，该细化处理包括：获取图像样本的空间特征表示对应的空间注意力图，利用空间注意力图产生多尺度空间注意力图作为细化处理后的图像样本的空间特征表示。

具体地，细化处理可以由注意力处理网络中的MSAE模块来执行，MSAE模块执行的细化处理可以包括：

首先，获取图像样本的空间特征表示对应的空间注意力图。作为其中一种可实现的方式，可以在高层骨干网络中设置注意力模块来针对图像样本的空间特征表示产生空间注意力图。作为另一种可实现的方式，也可以在注意力处理网络中设置注意力模块来针对图像样本的空间特征表示产生空间注意力图。

其次，利用空间注意力图产生多尺度空间注意力图。如图5中所示，可以对空间注意力图进行下采样得到多个空间注意力图；分别从多个空间注意力图中提取特征分布图后，对多个特征分布图进行上采样和整合得到多尺度空间注意力图作为细化后的空间特征表示。

具体地，在MSAE中可以包括多个卷积块（ConvBlocks），每个卷积块可以包括Conv2d、BN和激活模块（例如可以采用ReLU等激活函数）。一个分支中卷积块从空间注意图中提取特征。另一个分支中对空间注意力图进行下采样处理得到了多个尺度的表示，从而获得更细致的感知信息和丰富的上下文信息，这对于深度伪造检测的准确度具有重要的提高作用；再利用AMRB从多个空间注意力图中提取特征分布图后再上采样到原始的空间注意力图的大小，将上采样的结果与卷积块提取的特征进行整合（例如相加）得到多尺度空间注意力图

。

在上述MSAE中可以通过一个AMRB（注意力图细化模块）从多个空间注意力图中分别提取特征分布图。AMRB的结构可以如图6中所示，包括GAP（ global average pooling，全局平均池化）、卷积模块、BN和激活模块（例如可以采用Sigmoid激活函数）。其中，通过GAP进行全局平均池化来捕获全局上下文，激活模块会产生一个注意力向量来反映当前尺度的空间注意力图的特征分布。

如图5中所示，在得到细化处理后的空间特征表示后，注意力处理网络利用纹理特征表示对图像样本的空间特征表示进行BAP处理，并将处理后的图像样本的空间特征表示提供给空间频率融合网络。其中，纹理特征表示可以从至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取得到的纹理特征图，从而捕获隐藏在低层空间特征中的人工伪影。

其中，注意力处理网络利用纹理特征表示

对待检测图像的空间特征表示

进行BAP处理时，可以首先将

中的第

个尺度

与

相乘，得到

，然后对

进行BAP处理，处理后得到的

再进行归一化后被拼接在一起得到空间特征表示

。

在上述第二方面中，注意力处理网络在利用纹理特征表示对图像样本的频率特征表示进行BAP处理之前，对图像样本的频率特征表示进行细化处理，该细化处理包括：获取图像样本的频率特征表示对应的频率注意力图，利用频率注意力图产生多尺度频率注意力图作为细化处理后的图像样本的频率特征表示。

具体地，该细化处理可以由注意力处理网络中的MSAE模块来执行，MSAE模块执行的细化处理与第一方面中对空间特征表示的处理类似地，可以包括：

首先，获取图像样本的频率特征表示对应的频率注意力图。作为其中一种可实现的方式，可以在频率特征提取网络中设置注意力模块来针对图像样本的频率特征表示产生频率注意力图。作为另一种可实现的方式，也可以在注意力处理网络中设置注意力模块来针对图像样本的频率特征表示产生频率注意力图。频率注意力图包含图像样本中各位置的频率特征的注意力权重值。

作为细化后的频率特征表示。

上述下采样的处理可以由MSAE中的多个卷积块（ConvBlocks）执行。每个卷积块可以包括Conv2d、BN和激活模块（例如可以采用ReLU等激活函数）。进行下采样处理后实际上得到了多个尺度的表示，从而获得更细致的感知信息和丰富的上下文信息，这对于深度伪造检测的准确度具有重要的提高作用。

上述MSAE中可以通过一个AMRB从多个频率注意力图中分别提取特征分布图。其中，通过GAP进行全局平均池化来捕获全局上下文，激活模块会产生一个注意力向量来反映当前尺度的频率注意力图的特征分布。

。

在得到细化处理后的频率特征表示

后，注意力处理网络最高层骨干网络输出的空间特征表示，对图像样本的频率特征表示进行BAP处理，并将处理后的图像样本的频率特征表示提供给频率融合网络。

其中，注意力处理网络利用最高层骨干网络输出的空间特征表示对图像样本的频率特征表示进行BAP处理，最终得到频率特征表示

。

作为其中一种可实现的方式，空间频率融合网络可以将图像样本的空间特征表示和频率特征表示进行拼接，得到特征拼接矩阵；然后利用特征拼接矩阵，构建特征近邻图，特征近邻图包括节点和边，节点包括特征拼接矩阵的各列，若节点之间的距离满足预设的距离条件，则节点之间存在边；再利用图神经网络从特征近邻图中提取特征表示；最后利用图神经网络提取的特征表示得到空间频率融合特征表示。

其中，上述构建特征近邻图和利用图神经网络从特征近邻图中提取特征表示可以由多层动态图卷积模块执行，如图7中所示。

每一层动态图卷积模块利用输入的特征表示构建特征近邻图，利用图神经网络从特征近邻图中提取特征表示并输出；其中，第一层动态图卷积模块被输入的特征表示为特征拼接矩阵，非最后一层动态图卷积模块将提取的特征表示输出至下一层动态图卷积模块。处理过程可以参见上面实施例中关于公式（5）~（7）的记载。

作为其中一种可实现的方式，空间频率融合网络在利用图神经网络提取的特征表示得到空间频率融合特征表示时，可以直接将上述图神经网络输出的特征表示作为空间频率融合特征表示，然后输出给分类网络。

作为另一种可实现的方式，空间频率融合网络在利用图神经网络提取的特征表示得到空间频率融合特征表示时，可以利用MLP-Mixer Layer对图神经网络提取的特征表示中的各列分别进行映射后，再对各行分别进行映射，得到空间频率融合特征表示。

每一个MLP-Mixer Layer的结构可以如图8中所示。动态图卷积模块的输出

首先经过LN进行归一化，然后对归一化后的

进行转置后依据图邻接矩阵进行加权得到

，该图邻接矩阵来自于第一层图神经网络，即

。

的行和列的含义与

。

作为空间频率融合特征表示。

本申请实施例中采用的分类网络可以是一个二分类网络，作为其中一种可实现的方式，可以仅利用空间频率融合特征表示进行分类处理，输出图像样本是否存在伪造对象的检测结果。

作为另一种可实现的方式，分类网络可以对空间频率融合特征表示和图像样本的空间特征表示进行拼接，利用拼接后得到的特征进行分类处理，输出图像样本是否存在伪造对象的检测结果。图3中示出的是这种方式。

在训练深度伪造模型的训练过程中，训练目标是最小化检测结果与图像样本对应的标签之间的差异。可以依据上述训练目标构造损失函数，在每一轮迭代中利用损失函数的取值，采用诸如梯度下降等方式更新模型参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。上述损失函数可以采用交叉熵损失函数。

作为另一种更优选的方式，经过上述动态图卷积模块的处理后，可以得到特征表示

。在本申请中可以采用RIL(Region Independent Loss，区域独立性损失函数)结合交叉熵损失函数来进行模型训练。即在训练深度伪造检测模型的过程中，利用总损失函数的值更新伪造检测模型的参数，直至满足预设的训练结束条件。其中总损失函数的值由第一损失函数和第二损失函数的值确定；第一损失函数采用交叉熵损失函数，用以最小化检测结果与图像样本对应的标签之间的差异；第二损失函数采用RIL损失函数，用以最小化同类检测结果内空间频率融合特征表示与特征中心的距离，并且最大化不同类检测结果间特征中心的距离，特征中心是对同类检测结果的空间频率融合特征表示进行统计（例如求均值）得到的。

例如上述第二损失函数

可以采用如下公式：

（8）

其中，

为训练过程中采样训练数据采用的批大小。

表示

中的列数即节点数量。

表示同一批中第

个图像样本对应的

中第

个节点，

为同一批中图像样本特征中心的第

行，

为同一批中图像样本特征中心的第

行。

和

初始时刻可以通过求同一批次样本均值统计得到。

和

表示类内和类间的间隔。这里的类只有两种，即存在伪造对象和不存在伪造对象。

和

是超参数，可以取经验值或试验值。

表示2范数。ReLU()表示ReLU激活函数。

总损失函数

可以采用如下公式：

（9）

其中

和

是超参数，例如均可以设置为1。

表示采用交叉熵损失函数的第一损失函数。

本申请实施例提供的上述方法可以应用于多种应用场景，以人脸伪造检测为例，可以包括但不限于以下应用场景：

1）对视频网站、新闻机构、网络论坛等中的视频、图片等资源进行人脸伪造检测，高效识别人脸伪造信息，降低人力审核成本，降低服务违规风险，避免虚假视频或图片等资源的传播。可以对已经上传的视频、图片等资源进行定期检测，也可以对上传的视频、图片等资源进行实时检测。

2）在安全认证时，对于采集到的包含人脸的图像，除了进行人脸识别以确认是否为认证用户之外，同时对图像进行伪造人脸识别，只有同时确定为认证用户且不存在伪造人脸时，通过安全认证。该安全认证可以应用于诸如安全支付、安全登录等场景。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种深度伪造检测装置。图10示出根据一个实施例的深度伪造检测装置的示意性框图。如图10所示，该装置1000包括：图像获取单元1001和伪造检测单元1002。其中各组成单元的主要功能如下：

图像获取单元1001，被配置为获取待检测图像。

伪造检测单元1002，被配置为将待检测图像输入深度伪造检测模型，获取深度伪造检测模型针对待检测图像输出的是否存在伪造对象的检测结果。

其中，深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络；还可以进一步包括注意力处理网络和纹理提取网络。

空间特征提取网络用于从待检测图像中提取空间特征表示。

频率特征提取网络用于从待检测图像中提取频率特征表示。

作为其中一种可实现的方式，频率特征提取网络可以从待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示，第一粒度大于第二粒度；对待检测图像进行对象区域分割，利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示。

空间频率融合网络用于将待检测图像的空间特征表示和频率特征表示进行融合，得到空间频率融合特征表示。

分类网络用于利用空间频率融合特征表示进行分类处理，输出待检测图像是否存在伪造对象。

纹理提取网络用以从至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取纹理特征表示。

注意力处理网络利用至少两层骨干网络中最高层骨干网络输出的空间特征表示，对待检测图像的频率特征表示进行双线性注意力池化BAP处理，并将处理后的待检测图像的频率特征提供给空间频率融合网络进行融合；和/或，

利用纹理特征表示对待检测图像的空间特征表示进行BAP处理，并将处理后的待检测图像的空间特征表示提供给空间频率融合网络进行融合。

关于深度伪造检测模型的具体结构和原理可以参见深度伪造检测方法实施例中的相关记载，在此不做赘述。

图11示出根据一个实施例的深度伪造检测模型的训练装置的示意性框图。该装置对应于图1所示系统中的模型训练装置。如图11所示，该装置1100包括：样本获取单元1101和模型训练单元1102。其中各组成单元的主要功能如下：

样本获取单元1101，被配置为获取训练数据，训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签。

模型训练单元1102，被配置为将图像样本作为深度伪造检测模型的输入，将图像样本对应的标签作为伪造检测模型的目标输出，训练深度伪造检测模型。

其中，深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络，还可以进一步包括注意力处理网络和纹理提取网络。

空间特征提取网络用于从图像样本中提取空间特征表示。

频率特征提取网络用于从图像样本中提取频率特征表示。

作为其中一种可实现的方式，频率特征提取网络可以从图像样本中提取第一粒度的频率特征表示以及第二粒度的频率特征表示，第一粒度大于第二粒度；对图像样本进行对象区域分割，利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到图像样本的频率特征表示；

空间频率融合网络用于将图像样本的空间特征表示和频率特征表示进行融合，得到空间频率融合特征表示；

分类网络用于利用空间频率融合特征表示进行分类处理，输出图像样本是否存在伪造对象。

注意力处理网络利用至少两层骨干网络中最高层骨干网络输出的空间特征表示，对图像样本的频率特征表示进行BAP处理，并将处理后的图像样本的频率特征提供给空间频率融合网络进行融合；和/或，

利用纹理特征表示对图像样本的空间特征表示进行BAP处理，并将处理后的图像样本的空间特征表示提供给空间频率融合网络进行融合。

关于深度伪造检测模型的具体结构、原理以及训练过程中损失函数的构造可以参见深度伪造模型的训练方法实施例中的相关记载，在此不做赘述。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

其中，图12示例性的展示出了电子设备的架构，具体可以包括处理器1210，视频显示适配器1211，磁盘驱动器1212，输入/输出接口1213，网络接口1214，以及存储器1220。上述处理器1210、视频显示适配器1211、磁盘驱动器1212、输入/输出接口1213、网络接口1214，与存储器1220之间可以通过通信总线1230进行通信连接。

其中，处理器1210可以采用通用的CPU、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1220可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1220可以存储用于控制电子设备1200运行的操作系统1221，用于控制电子设备1200的低级别操作的基本输入输出系统(BIOS) 1222。另外，还可以存储网页浏览器1223，数据存储管理系统1224，以及深度伪造检测装置/模型训练装置1225等等。上述深度伪造检测装置/模型训练装置1225就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1220中，并由处理器1210来调用执行。

输入/输出接口1213用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1214用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1230包括一通路，在设备的各个组件（例如处理器1210、视频显示适配器1211、磁盘驱动器1212、输入/输出接口1213、网络接口1214，与存储器1220）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1210、视频显示适配器1211、磁盘驱动器1212、输入/输出接口1213、网络接口1214，存储器1220，总线1230等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来，该计算机程序产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种深度伪造检测方法，其特征在于，所述方法包括：

获取待检测图像；

所述频率特征提取网络从所述待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示，所述第一粒度大于所述第二粒度，所述第二粒度的频率特征表示是基于对所述待检测图像分割为多个图像块得到的；对所述待检测图像进行对象区域分割，对分割得到的对象区域进行掩码处理得到内容掩码，利用所述内容掩码对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理，得到所述待检测图像的频率特征表示；

2.根据权利要求1所述的方法，其特征在于，从所述待检测图像中提取第一粒度的频率特征表示包括：

利用

个滤波器对所述第一频率特征表示进行滤波处理，得到

个频率分量的第一频率特征表示，所述

为大于1的正整数；

分别对所述

个频率分量的第一频率特征表示进行逆傅里叶变换，得到

个频率分量的第二频率特征表示；

将所述

3.根据权利要求1所述的方法，其特征在于，从所述待检测图像中提取第二粒度的频率特征表示包括：

4.根据权利要求1所述的方法，其特征在于，所述空间特征提取网络从所述待检测图像中提取空间特征表示包括：利用至少两层骨干网络对所述待检测图像进行空间特征提取，得到各层输出的空间特征表示，其中将最高层骨干网络输出的空间特征表示作为所述待检测图像的空间特征表示；

所述深度伪造检测模型还包括：注意力处理网络；在所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合之前，还包括：

5.根据权利要求4所述的方法，其特征在于，在对所述待检测图像的频率特征表示进行BAP处理之前，所述方法还包括：所述注意力处理网络对所述待检测图像的空间特征表示进行细化处理，该细化处理包括：获取所述待检测图像的空间特征表示对应的空间注意力图，利用所述空间注意力图产生多尺度空间注意力图作为细化处理后的待检测图像的空间特征表示；和/或，

6.根据权利要求1所述的方法，其特征在于，所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合，得到空间频率融合特征表示包括：

利用图神经网络从所述特征近邻图中提取特征表示；

7.根据权利要求6所述的方法，其特征在于，所述构建特征近邻图和利用图神经网络从所述特征近邻图中提取特征表示由多层动态图卷积模块执行；

8.根据权利要求1所述的方法，其特征在于，所述分类网络利用所述空间频率融合特征表示进行分类处理，输出所述待检测图像是否存在伪造对象包括：

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述深度伪造检测模型采用如下方式预先训练得到：

将所述图像样本作为深度伪造检测模型的输入，将所述图像样本对应的标签作为所述伪造检测模型的目标输出，训练所述深度伪造检测模型；其中，所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络；

10.根据权利要求9所述的方法，其特征在于，在训练所述深度伪造检测模型的过程中，利用总损失函数的值更新所述伪造检测模型的参数，直至满足预设的训练结束条件；

11.一种深度伪造检测装置，其特征在于，所述装置包括：

图像获取单元，被配置为获取待检测图像；

所述频率特征提取网络用于从所述待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示，所述第一粒度大于所述第二粒度，所述第二粒度的频率特征表示是基于对所述待检测图像分割为多个图像块得到的；对所述待检测图像进行对象区域分割，对分割得到的对象区域进行掩码处理得到内容掩码，利用所述内容掩码对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理，得到所述待检测图像的频率特征表示；

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至10中任一项所述的方法的步骤。