CN116434351A

CN116434351A - 基于频率注意力特征融合的伪造人脸检测方法、介质和设备

Info

Publication number: CN116434351A
Application number: CN202310442834.7A
Authority: CN
Inventors: 罗志明; 田程; 曹冬林; 李绍滋
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-07-14

Abstract

本发明涉及一种基于频率注意力特征融合的伪造人脸检测方法、介质和设备，可充分聚合多种多样的人脸特征信息，有效地加强了人脸特征的表达能力，从而提高伪造人脸检测准确率。检测方法通过增加空域频域特征融合模块，充分利用了图像的空域信息，同时，还可通过频域信息关注到的在伪造人脸生成过程中由于上采样操作而产生的伪造痕迹，实现了多维的信息聚合；变体注意力模块可通过加强的注意力操作，获得最优的特征表示，大大提高了伪造人脸检测的泛化性以及面对真实场景中各种未知篡改方法的鲁棒性，提高了模型的分辨能力，使其在真实场景下也能保持较好的效果。

Description

基于频率注意力特征融合的伪造人脸检测方法、介质和设备

技术领域

本发明涉及深度伪造检测技术领域，具体涉及一种基于频率注意力特征融合的伪造人脸检测方法、介质和设备。

背景技术

得益于计算机视觉技术中的音视频合成、人脸识别、生成对抗网络、变分自编码器等技术取得了重大突破，以Deepfake为首的深度伪造技术应运而生。深度伪造是基于变分自编码器或生成对抗网络等智能化方法对图像、视频或音频进行重现、合成、编辑和替换操作以实现逼真的面部替换。通过这些技术，使用者可以随意对目标视频中的人脸进行篡改替换、模仿真人说话的表情动作，创造出虚拟的人脸，导致网络上出现了大量的伪造视频，这不仅会侵犯个人隐私，还会给社会的稳定带来威胁。因此，深度伪造检测技术的发展迫在眉睫。

现有的深度伪造检测技术可以划分为基于传统图像取证的检测方法和基于深度学习技术检测方法。基于传统图像取证的方法是指使用传统的数字图像处理手段来检测和识别图像中的伪造人脸，通过比对伪造人脸与真实人脸的不同图像特征，例如纹理、光线、人脸形状、阴影等，通过分析这些特征，可以检测出伪造人脸；基于深度学习技术的方法通常是利用卷积神经网络模型来提取图像中的人脸属性、人脸结构、人脸细节等深度特征并进行分析，从而判断出图像是否为真实的人脸或者伪造的人脸。伪造人脸检测技术的主要挑战在于对不同类型的伪造攻击进行有效的识别，包括图像合成、深度伪造、视频合成等。因此，目前的研究方向是结合多种技术，包括纹理分析、光谱分析、运动分析、3D模型等，提高伪造人脸检测的准确率和鲁棒性。

虽然目前的深度学习模型能够很好的提取出特征，但由于基于GAN生成的图像越来越逼真，真实人脸与伪造人脸之间的差异变得越来越难以辨别，卷积神经网络模型提取到的特征在不同数据集之间没有足够的区分性，导致伪造人脸检测模型的准确率降低。为了有效利用卷积神经网络提取的不同层次的特征，许多研究人员的做法是使用简单的加和与拼接操作来融合特征，然而由于不同来源、不同层次的特征可能在不同尺度和语义层面上存在显著的不一致性，因此这种方法会影响模型效果。

发明内容

鉴于上述问题，本发明提供了一种基于频率注意力特征融合的伪造人脸检测方法、介质和设备，解决了现有的深度学习模型识别伪造人脸检测模型的准确率低的问题。

为实现上述目的，在第一方面，本发明提供了一种基于频率注意力特征融合的伪造人脸检测方法，包括以下步骤：

获取样本图像，样本图像为包含人脸区域的图像信息；

将样本图像经过图像增强模块进行图像增强处理，获得第一人脸图像以及第二人脸图像，第一人脸图像与第二人脸图像所采用的图像增强方式不同；

采用离散余弦变换将第一人脸图像与第二人脸图像转换至频域，分别获得二者所对应的一级频谱图，获取一级频谱图中不同频域的频谱图像信息，并沿通道维度对不同频域的频谱图像信息进行拼接，获得二者所对应的二级频谱图，采用反离散余弦变换将二级频谱图转回空间域，分别获得第一人脸图像对应的第一频域增强图像和第二人脸图像对应的第二频域增强图像；

对第一人脸图像、第二人脸图像、第一频域增强图像以及第二频域增强图像进行特征提取，并对提取的特征信息进行融合，得到包含空间域信息与频域信息的第一融合特征以及第二融合特征，采用注意力机制对所述第一融合特征以及所述第二融合特征进行处理，获得特征表示向量；

将特征表示向量分别输入第一分支以及第二分支进行网络训练，叠加第一分支和第二分支的训练结果得到训练完成的深度伪造人脸检测模型；第一分支被配置为采用池化层和全连接层获得用于判断真伪的第一预测结果，以及采用交叉熵损失函数对第一预测结果进行优化；第二分支被配置为采用余弦相似度损失函数计算第一人脸图像与第二人脸图像的特征表示向量的相似度，并将同一真实样本之间的距离拉近。

在一些实施例中，离散余弦变换通过公式(1)表示，公式(1)如下：

其中，F(u，v)为离散余弦变换后的系数，反离散余弦变换通过公式(2)表示，公式(2)如下：

其中，f(i，j)为经过图像增强处理后的样本图像，N为经过图像增强处理后的样本图像的像素点的点数，c(u)是补偿系数，可以使离散余弦变换矩阵为正交矩阵。

在一些实施例中，不同频域的频谱图像信息通过公式(3)获得，公式(3)如下：

其中，Concat表示沿通道维度进行拼接特征图的操作；D(·)与D^-1分别表示离散余弦变换和反离散余弦变换；

分别表示低频、中频、高频滤波，i∈{1，2，3}。

在一些实施例中，对第一人脸图像、第二人脸图像、第一频域增强图像以及第二频域增强图像采用卷积神经网络进行特征提取，所述卷积神经网络采用Xception作为骨干网络，所述特征提取步骤包括：

分别对第一人脸图像、第二人脸图像及所对应的第一频域增强图像以及第二频域增强图像进行低层的特征提取，低层为Separable Conv层以及ReLU层；

将提取的低层的特征信息输入Xception网络中，并分别对第一人脸图像、第二人脸图像及所对应的第一频域增强图像以及第二频域增强图像进行中层的特征提取，中层为12个Xception网络的Block模块；

将提取的中层的特征信息输入Xception网络中，并分别对第一人脸图像、第二人脸图像及所对应的第一频域增强图像以及第二频域增强图像进行高层的特征提取，高层为Separable Conv层、ReLU层以及Pooling层。

在一些实施例中，对第一人脸图像、第二人脸图像、第一频域增强图像以及第二频域增强图像提取的特征信息通过空域与频域特征融合模块计算获得，空域与频域特征融合模块基于通道注意力模块计算获得，通道注意力模块的计算过程包括以下步骤：

对于输入的特征图X分别进行第一函数分析以及第二函数分析，第一函数分析包括在第一逐点卷积层、非线性激活函数ReLU层以及第二逐点卷积层进行局部人脸图像信息提取，其提取结果通过公式(4)获得，公式(4)如下：

L(X)＝BN(pwConv₂(ReLu(BN(pwConv₁(X))))；

其中，BN表示归一化，ReLu表示非线性激活函数，pwConv表示point-wise卷积，pwConv₁表示第一逐点卷积层，第一逐点卷积层的卷积核大小为C/r×C×1×1，pwConv₂表示第二逐点卷积层，第二逐点卷积层的卷积核大小为C×C/r×1×1，r表示通道缩减率；

第二函数分析包括在全局平均池化层、第一逐点卷积层、非线性激活函数ReLU层以及第二逐点卷积层进行全局人脸图像信息提取，其全局平均池化通过公式(5)获得，所示公式(5)如下：

其中，H、W为特征图的尺寸，GAP(X)为全局池化信息，全局信息G(X)通过公式(6)获得，公式(6)如下：

G(X)＝BN(pwConv₂(ReLu(BN(pwConv₁(GAP(X))))))；

采用非线性激活函数Sigmoid对局部人脸图像信息提取以及全局人脸图像信息提取极性特征融合，获得特征图，特征融合通过公式(7)获得，公式(7)如下：

其中，Sigmoi耀表示非线性激活函数，

表示逐元素相加操作。

在一些实施例中，空域与频域特征融合模块的计算过程包括以下步骤：

采用卷积神经网络提取空域特征图与频域特征图，将空域特征图与频域特征图进行加和获得一级特征图；

将一级特征图输入至通道注意力模块，获得包含图像空域、频域、全局与局部信息的二级特征图；

将二级特征图与空域特征图以及频域特征图分别进行残差连接并输出，获得最终融合特征，最终融合特征通过公式(8)、(9)获得，公式(8)如下：

X′＝X+M(X+Y)；

公式(9)如下：

Y′＝Y+M(X+Y)；

其中，X、Y分别表示空域特征图与频域特征图的特征，X′、Y′分别表示空域特征图与频域特征图经过空域与频域融合模块后的特征，M表示通道注意力模块的计算过程。

在一些实施例中，注意力机制包括变体注意力模块，变体注意力模块的计算过程包括以下步骤：

对空域与频域特征融合模块的输出结果进行加和操作，输入通道注意力模块，获得其输出的特征图；

对空域与频域特征融合模块的输出结果进行注意力计算，分别获得其所对应的全局与局部伪影联系的注意力图；

将全局与局部伪影联系的注意力图进行加和后输入通道注意力模块，获得最终注意力权重矩阵；

对最终注意力权重矩阵进行第一注意力分析计算以及第二注意力分析计算，第一注意力分析计算对最终注意力权重矩阵与空域特征图相乘得到第一注意力分析特征值，第二注意力分析计算对最终注意力权重矩阵进行反转注意力操作，再将其与频域特征图相乘计算得到第二注意力分析特征值；

将第一注意力分析特征值与第二注意力分析特征值进行加和计算得出特征表示向量；

特征表示向量通过公式(10)与公式(11)获得，公式(10)如下：

公式(11)如下：

其中，A为第一次经过注意力计算得到的特征，Z为编码网络输出的最终特征表示，

表示逐元素相乘操作。

在一些实施例中，交叉熵损失函数通过公式(12)表示，公式(12)如下：

其中，

为sigmoid函数的输出概率，y_i为第i个输入的标签植，在训练过程中，定义1为伪造人脸，0为真实人脸，L_ce为交叉熵损失函数值；

余弦相似度损失函数通过公式(13)表示，公式(13)如下：

其中，

表示计算两个特征的余弦距离，L_sim为余弦相似度损失函数值；

人脸检测模型L通过公式(14)获得，公式(14)如下：

L＝L_ce+βL_sim；

其中，β表示权重平衡参数。

在第二方面，本发明还提供一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现在第一方面所述的方法。

在第三方面，本发明还提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现在第一方面所述的方法。

区别于现有技术，上述技术方案可充分聚合多种多样的人脸特征信息，有效地加强了人脸特征的表达能力，从而提高伪造人脸检测准确率；通过增加空域频域特征融合模块，充分利用了图像的空域信息，同时，还可通过频域信息关注到的在伪造人脸生成过程中由于上采样操作而产生的伪造痕迹，实现了多维的信息聚合；变体注意力模块可通过加强的注意力操作，获得最优的特征表示，大大提高了伪造人脸检测的泛化性以及面对真实场景中各种未知篡改方法的鲁棒性，提高了模型的分辨能力，使其在真实场景下也能保持较好的效果。

上述发明内容相关记载仅是本发明技术方案的概述，为了让本领域普通技术人员能够更清楚地了解本发明的技术方案，进而可以依据说明书的文字及附图记载的内容予以实施，并且为了让本发明的上述目的及其它目的、特征和优点能够更易于理解，以下结合本发明的具体实施方式及附图进行说明。

附图说明

附图仅用于示出本发明具体实施方式以及其他相关内容的原理、实现方式、应用、特点以及效果等，并不能认为是对本发明的限制。

在说明书附图中：

图1为本发明所述伪造人脸检测方法第一流程图；

图2为本发明所述伪造人脸检测方法第二流程图；

图3为本发明所述伪造人脸检测方法的卷积神经网络流程图；

图4为本发明所述通道注意力模块原理框图；

图5为本发明所述基于空域与频域特征融合模块的原理框图；

图6为本发明所述基于变体注意力模块的原理框图；

图7为具体实施方式存储有所述伪造人脸检测方法的电子设备示意图。

上述各附图中涉及的附图标记说明如下：

1、电子设备；

11、存储器；

12、处理器。

具体实施方式

为详细说明本发明可能的应用场景，技术原理，可实施的具体方案，能实现目的与效果等，以下结合所列举的具体实施例并配合附图详予说明。本文所记载的实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中各个位置出现的“实施例”一词并不一定指代相同的实施例，亦不特别限定其与其它实施例之间的独立性或关联性。原则上，在本发明中，只要不存在技术矛盾或冲突，各实施例中所提到的各项技术特征均可以以任意方式进行组合，以形成相应的可实施的技术方案。

除非另有定义，本文所使用的技术术语的含义与本发明所属技术领域的技术人员通常理解的含义相同；本文中对相关术语的使用只是为了描述具体的实施例，而不是旨在限制本发明。

在本发明的描述中，用语“和/或”是一种用于描述对象之间逻辑关系的表述，表示可以存在三种关系，例如A和/或B，表示：存在A，存在B，以及同时存在A和B这三种情况。另外，本文中字符“/”一般表示前后关联对象是一种“或”的逻辑关系。

在本发明中，诸如“第一”和“第二”之类的用语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何实际的数量、主次或顺序等关系。

在没有更多限制的情况下，在本发明中，语句中所使用的“包括”、“包含”、“具有”或者其他类似的开放式表述，意在涵盖非排他性的包含，这些表述并不排除在包括所述要素的过程、方法或者产品中还可以存在另外的要素，从而使得包括一系列要素的过程、方法或者产品中不仅可以包括那些限定的要素，而且还可以包括没有明确列出的其他要素，或者还包括为这种过程、方法或者产品所固有的要素。

与《审查指南》中的理解相同，在本发明中，“大于”、“小于”、“超过”等表述理解为不包括本数；“以上”、“以下”、“以内”等表述理解为包括本数。此外，在本发明实施例的描述中“多个”的含义是两个以上(包括两个)，与之类似的与“多”相关的表述亦做此类理解，例如“多组”、“多次”等，除非另有明确具体的限定。

请参阅图1至图6，本实施例提供了一种基于频率注意力特征融合的伪造人脸检测方法，包括以下步骤：

S1、获取样本图像，样本图像为包含人脸区域的图像信息；

S2、将样本图像经过图像增强模块进行图像增强处理，获得第一人脸图像以及第二人脸图像，第一人脸图像与第二人脸图像所采用的图像增强方式不同；

S3、采用离散余弦变换将第一人脸图像与第二人脸图像转换至频域，分别获得二者所对应的一级频谱图，获取一级频谱图中不同频域的频谱图像信息，并沿通道维度将不同频域的频谱图像信息进行拼接，获得二者所对应的二级频谱图，采用反离散余弦变换将二级频谱图转回空间域，分别获得第一人脸图像对应的第一频域增强图像，第二人脸图像对应的第二频域增强图像；

S4、对第一人脸图像、第二人脸图像、第一频域增强图像以及第二频域增强图像进行特征提取，并对提取的特征信息进行融合，得到包含空间域信息与频域信息的第一融合特征以及第二融合特征，采用注意力机制对第一融合特征以及第二融合特征进行处理，获得特征表示向量；

S5、将上述二个特征表示向量输入第一分支以及第二分支进行网络训练，叠加第一分支和第二分支的训练结果得到训练完成的深度伪造人脸检测模型；第一分支被配置为采用池化层和全连接层获得用于判断真伪的第一预测结果，以及采用交叉熵损失函数对第一预测结果进行优化；第二分支被配置为采用余弦相似度损失函数计算第一人脸图像与第二人脸图像的特征表示向量的相似度，并将同一真实样本之间的距离拉近。

在本实施例中，样本图像用字母X表示，样本图像需要先经过预处理成为预设大小的图像，例如，预设大小可以是299x299x3。样本图像的来源为同一来源的真实人脸视频以及伪造人脸相关视频中获取的图像信息，具体的人脸图像信息获取方式可以为：通过MTCNN人脸检测器检测人脸；然后对人脸区域进行裁剪到预设大小。在经过预处理后，样本图像为仅含人脸区域的在预设大小范围内的图像信息。可选地，将采集的样本图像划分为训练集和测试集，使用的伪造人脸数据集包括：Face Forensics++(FF++)、Celeb-DF、DFDC。

将样本图像经过图像增强模块进行图像增强，图像增强的方式主要包括：随机翻转、随机裁剪、高斯模糊、随机遮挡、颜色变化等几种，每张输入的样本图像都会随机抽取上述某两种图像增强的方式进行图像变换，随机抽取的两种图像增强方式分别记为T₁与T₂，获得第一人脸图像x₁以及第二人脸图像x₂。

利用离散余弦变换将x₁，x₂转换至频域，得到其所对应的一级频谱图，采用可学习的滤波器自适应的分别获取x₁，x₂的一级频谱图中包含低频、中频、高频成分的不同视图的频谱图像信息；然后沿通道维度将得到的不同频域的频谱图像信息进行拼接，获得二级频谱图；进而使用反离散余弦变换将二级频谱图转回空间域，分别得到经过频域处理的第一频域增强图像

第二频域增强图像/>

请参阅图3，在本实施例中，对第一人脸图像、第二人脸图像、第一频域增强图像以及第二频域增强图像进行特征提取，特征提取的方式为通过卷积神经网络进行提取，卷积神经网络分为三个层级：低层、中层和高层。

将x₁，x₂，

输入至卷积神经网络的低层，对于原始图像x₁，x₂，编码网络提取的是图像的基础视觉特征，即F₁，F₂；而对于频域处理后的/>

编码网络提取的是伪造人脸图像生成过程中所产生的伪影信息，获取到的频率信息可以加强图像的视觉特征表示，即/>

F₁与

F₂与/>

分别包含的是同一张图像的空间域信息与频域信息，因此将F₁与/>

输入至空域与频域特征融合模块，对其进行融合，获取同时包含空域信息与频域信息的低层融合特征；F₂与/>

亦做同样的操作。

将得到的低层融合特征输入至卷积神经网络的中层，输入至空域与频域特征融合模块，对其进行融合，获取同时包含空域信息与频域信息的中层融合特征；再将得到的中层融合特征输入至卷积神经网络的高层，输入至空域与频域特征融合模块，对其进行融合，获取同时包含空域信息与频域信息的高层融合特征；再将高层融合特征输入至变体注意力模块，分别得到x₁，x₂聚合了多样信息的特征表示向量E₁(即第一特征表示向量)与E₂(即第二特征表示向量)。

将上述二个特征表示向量输入第一分支以及第二分支进行网络训练，叠加第一分支和第二分支的训练结果得到训练完成的深度伪造人脸检测模型；第一分支被配置为采用池化层和全连接层获得用于判断真伪的第一预测结果，以及采用交叉熵损失函数对第一预测结果进行优化；第二分支被配置为采用余弦相似度损失函数计算第一人脸图像与第二人脸图像的特征表示向量的相似度，并将同一真实样本之间的距离拉近。

上述实施例可充分聚合多种多样的人脸特征信息，有效地加强了人脸特征的表达能力，从而提高伪造人脸检测准确率；通过增加空域频域特征融合模块，充分利用了图像的空域信息，同时，还可通过频域信息关注到的在伪造人脸生成过程中由于上采样操作而产生的伪造痕迹，实现了多维的信息聚合；变体注意力模块可通过加强的注意力操作，获得最优的特征表示，大大提高了伪造人脸检测的泛化性以及面对真实场景中各种未知篡改方法的鲁棒性，提高了模型的分辨能力，使其在真实场景下也能保持较好的效果。

其中，f(i，j)为经过图像增强处理后的样本图像，i，j为像素值，N为经过图像增强处理后的样本图像的像素点的点数，c(u)是补偿系数，F(u，v)是离散余弦变换后的系数，可以使离散余弦变换矩阵为正交矩阵。

其中，Concat表示沿通道维度进行拼接特征图的操作；D(·)与D^-1分别表示离散余弦变换和反离散余弦变换；x_k表示输入的样本图像，

分别表示低频、中频、高频滤波，i∈{1，2，3}。

请参阅图3，在一些实施例中，对第一人脸图像、第二人脸图像、第一频域增强图像以及第二频域增强图像采用卷积神经网络进行特征提取，卷积神经网络采用Xception作为骨干网络，特征提取步骤包括：

将第一人脸图像、第二人脸图像、第一频域增强图像以及第二频域增强图像输入至Xception卷积网络，将第一人脸图像、第二人脸图像所对应的图像信息记为RGB流图像，将第一频域增强图像以及第二频域增强图像所对应的图像信息记为频率流图像。将RGB流图像与频率流图像分别通过卷积网络所提取的特征通过空域与频域特征融合模块进行特征融合，从而获得同时包含空域信息与频域信息的融合特征。以低层-中层-高层特征提取以及融合为例，这一过程具体包括以下步骤：

输入RGB流图像与频率流图像，RGB流图像与频率流图像一一对应；

将RGB流图像与频率流图像输入至Xception网络的低层(Separable Conv+ReLU)*3，RGB流图像与频率流图像输出的特征图通过空域与频域特征融合模块进行融合，融合后的低层特征分别与上一步输入进行残差连接。

将低层融合得到的RGB流图像与频率流图像输入至Xception网络的中层(Block)*3，输出的特征图通过空域与频域特征融合模块进行融合，融合后的特征分别与上一步输入进行残差连接；

将中层融合得到的RGB流图像与频率流图像输入至Xception网络的高层[(Separable Conv+ReLU)*2+Pooling，输出的特征图通过空域与频域特征融合模块进行融合，融合后的特征分别与上一步输入进行残差连接。

融合得到的高层输入至变体注意力模块，获取聚合了多样信息、加强型的特征表示，加强型表示强鲁棒性。

请参阅图4，在一些实施例中，对第一人脸图像、第二人脸图像、第一频域增强图像以及第二频域增强图像提取的特征信息通过空域与频域特征融合模块计算获得，空域与频域特征融合模块基于通道注意力模块计算获得，通道注意力模块的计算过程包括以下步骤：

L(X)＝BN(pwConv₂(ReLu(BN(pwConv₁(X))))；

G(X)＝BN(pwConv₂(ReLu(BN(pwConv₁(GAP(X))))))；

其中，Sigmoid表示非线性激活函数，

表示逐元素相加操作。

在本实施例中，第一函数分析主要用于提取局部人脸图像信息，使用Point-wise卷积可以降低模型的通道数，从而减少计算量和参数量，进而降低模型的复杂度。第二函数分析主要用于提取全局人脸图像信息，使用全局平均池化来得到每个通道上的全局池化信息GAP(X)，然后结合全局池化信息GAP(X)采用与L(X)的一致的计算公式来计算全局信息G(X)。

通道注意力模块可以通过学习局部和全局人脸的内在联系，从而帮助网络挖掘出深度伪造人脸的伪造痕迹。

请参阅图5，在一些实施例中，空域与频域特征融合模块的计算过程包括以下步骤：

X′＝X+M(X+Y)；

公式(9)如下：

Y′＝Y+M(X+Y)；

其中，X、Y分别表示空域特征图与频域特征图的特征，即RGB流与频率流的特征，X′、Y′分别表示空域特征图与频域特征图(即RGB流与频率流)经过空域与频域融合模块后的特征，M表示通道注意力模块的计算过程，图5、图6中CAM为通道注意力模块的缩写。上述输出结果将会作为卷积神经网络下一层计算的输入值，例如，上述输出结果若为低层融合特征值，则会作为中层融合特征步骤所需的输入特征值，以此类推。

请参阅图6，在一些实施例中，注意力机制包括变体注意力模块，所述变体注意力模块的计算过程包括以下步骤：

特征表示向量通过公式(10)与公式(11)获得，公式(10)如下：

公式(11)如下：

表示逐元素相乘操作。

其中，

余弦相似度损失函数通过公式(13)表示，公式(13)如下：

其中，

人脸检测模型L通过公式(14)获得，公式(14)如下：

L＝L_ce+βL_sim；

其中，β表示权重平衡参数。

在第二方面，本实施例还提供一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现在第一方面所述的方法。

请参阅图7，在第三方面，本实施例还提供一种电子设备1，包括存储器11和处理器12，所述存储器11用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器12执行以实现在第一方面所述的方法。

电子设备1可以是平板、手机、笔记本电脑、台式电脑等，所述存储介质/存储器11包括但不限于：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。所述处理器12包括但不限于CPU(中央处理器12)、GPU(图像处理器12)、MCU(微处理器12)等。

上述技术方案可充分聚合多种多样的人脸特征信息，有效地加强了人脸特征的表达能力，从而提高伪造人脸检测准确率；通过增加空域频域特征融合模块，充分利用了图像的空域信息，同时，还可通过频域信息关注到的在伪造人脸生成过程中由于上采样操作而产生的伪造痕迹，实现了多维的信息聚合；变体注意力模块可通过加强的注意力操作，获得最优的特征表示，大大提高了伪造人脸检测的泛化性以及面对真实场景中各种未知篡改方法的鲁棒性，提高了模型的分辨能力，使其在真实场景下也能保持较好的效果。

最后需要说明的是，尽管在本发明的说明书文字及附图中已经对上述各实施例进行了描述，但并不能因此限制本发明的专利保护范围。凡是基于本发明的实质理念，利用本发明说明书文字及附图记载的内容所作的等效结构或等效流程替换或修改产生的技术方案，以及直接或间接地将以上实施例的技术方案实施于其他相关的技术领域等，均包括在本发明的专利保护范围之内。

Claims

1.一种基于频率注意力特征融合的伪造人脸检测方法，其特征在于，包括以下步骤：

获取样本图像，所述样本图像为包含人脸区域的图像信息；

将所述样本图像经过图像增强模块进行图像增强处理，获得第一人脸图像以及第二人脸图像，所述第一人脸图像与所述第二人脸图像所采用的图像增强方式不同；

采用离散余弦变换将所述第一人脸图像与所述第二人脸图像转换至频域，分别获得二者所对应的一级频谱图，获取所述一级频谱图中不同频域的频谱图像信息，并沿通道维度对所述不同频域的频谱图像信息进行拼接，获得二者所对应的二级频谱图，采用反离散余弦变换将所述二级频谱图转回空间域，分别获得第一人脸图像对应的第一频域增强图像和第二人脸图像对应的第二频域增强图像；

将所述特征表示向量分别输入第一分支以及第二分支进行网络训练，叠加所述第一分支和所述第二分支的训练结果得到训练完成的深度伪造人脸检测模型；所述第一分支被配置为采用池化层和全连接层获得用于判断真伪的第一预测结果，以及采用交叉熵损失函数对所述第一预测结果进行优化；所述第二分支被配置为采用余弦相似度损失函数计算所述第一人脸图像与所述第二人脸图像的特征表示向量的相似度，并将同一真实样本之间的距离拉近。

2.根据权利要求1所述的基于频率注意力特征融合的伪造人脸检测方法，其特征在于，所述离散余弦变换通过公式(1)表示，所述公式(1)如下：

其中，F(u，v)为离散余弦变换后的系数，所述反离散余弦变换通过公式(2)表示，所述公式(2)如下：

3.根据权利要求1或2所述的基于频率注意力特征融合的伪造人脸检测方法，其特征在于，不同频域的频谱图像信息通过公式(3)获得，所述公式(3)如下：

分别表示低频、中频、高频滤波，i∈{1，2，3}。

4.根据权利要求1或2所述的基于频率注意力特征融合的伪造人脸检测方法，其特征在于，对第一人脸图像、第二人脸图像、第一频域增强图像以及第二频域增强图像采用卷积神经网络进行特征提取，所述卷积神经网络采用Xception作为骨干网络，所述特征提取步骤包括：

分别对第一人脸图像、第二人脸图像及所对应的第一频域增强图像以及第二频域增强图像进行低层的特征提取，所述低层为Separable Conv层以及ReLU层；

将提取的低层的特征信息输入Xception网络中，并分别对第一人脸图像、第二人脸图像及所对应的第一频域增强图像以及第二频域增强图像进行中层的特征提取，所述中层为12个Xception网络的Block模块；

将提取的中层的特征信息输入Xception网络中，并分别对第一人脸图像、第二人脸图像及所对应的第一频域增强图像以及第二频域增强图像进行高层的特征提取，所述高层为Separable Conv层、ReLU层以及Pooling层。

5.根据权利要求4所述的基于频率注意力特征融合的伪造人脸检测方法，其特征在于，对第一人脸图像、第二人脸图像、第一频域增强图像以及第二频域增强图像提取的特征信息通过空域与频域特征融合模块计算获得，所述空域与频域特征融合模块基于通道注意力模块计算获得，所述通道注意力模块的计算过程包括以下步骤：

对于输入的特征图X分别进行第一函数分析以及第二函数分析，所述第一函数分析包括在第一逐点卷积层、非线性激活函数ReLU层以及第二逐点卷积层进行局部人脸图像信息提取，其提取结果通过公式(4)获得，所述公式(4)如下：

L(X)＝BN(pwConv₂(ReLu(BN(pwConv₁(X))))；

其中，BN表示归一化，ReLu表示非线性激活函数，pwConv表示point-wise卷积，pwConv₁表示第一逐点卷积层，所述第一逐点卷积层的卷积核大小为C/r×C×1×1，pwConv₂表示第二逐点卷积层，所述第二逐点卷积层的卷积核大小为C×C/r×1×1，r表示通道缩减率；

所述第二函数分析包括在全局平均池化层、第一逐点卷积层、非线性激活函数ReLU层以及第二逐点卷积层进行全局人脸图像信息提取，全局平均池化通过公式(5)获得，所示公式(5)如下：

G(X)＝BN(pwConv₂(ReLu(BN(pwConv₁(GAP(X))))))；

采用非线性激活函数Sigmoid对局部人脸图像信息提取以及全局人脸图像信息提取极性特征融合，获得特征图，所述特征融合通过公式(7)获得，所述公式(7)如下：

其中，Sigmoid表示非线性激活函数，

表示逐元素相加操作。

6.根据权利要求5所述的基于频率注意力特征融合的伪造人脸检测方法，其特征在于，所述空域与频域特征融合模块的计算过程包括以下步骤：

采用卷积神经网络提取空域特征图与频域特征图，将所述空域特征图与频域特征图进行加和获得一级特征图；

将所述二级特征图与空域特征图以及频域特征图分别进行残差连接并输出，获得最终融合特征，所述最终融合特征通过公式(8)、(9)获得，所述公式(8)如下：

X′＝X+M(X+Y)；

所述公式(9)如下：

Y′＝Y+M(X+Y)；

7.根据权利要求6所述的基于频率注意力特征融合的伪造人脸检测方法，其特征在于，所述注意力机制包括变体注意力模块，所述变体注意力模块的计算过程包括以下步骤：

将所述全局与局部伪影联系的注意力图进行加和后输入通道注意力模块，获得最终注意力权重矩阵；

对所述最终注意力权重矩阵进行第一注意力分析计算以及第二注意力分析计算，所述第一注意力分析计算对最终注意力权重矩阵与空域特征图相乘得到第一注意力分析特征值，所述第二注意力分析计算对最终注意力权重矩阵进行反转注意力操作，再将其与频域特征图相乘计算得到第二注意力分析特征值；

所述特征表示向量通过公式(10)与公式(11)获得，所述公式(10)如下：

所述公式(11)如下：

表示逐元素相乘操作。

8.根据权利要求1所述的基于频率注意力特征融合的伪造人脸检测方法，其特征在于，所述交叉熵损失函数通过公式(12)表示，所述公式(12)如下：

其中，

所述余弦相似度损失函数通过公式(13)表示，所述公式(13)如下：

其中，

所述人脸检测模型L通过公式(14)获得，所述公式(14)如下：

L＝L_ce+βL_sim；

其中，β表示权重平衡参数。

9.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-8中任一项所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-8中任一项所述的方法。