CN116310969A

CN116310969A - 一种基于多尺度特征解耦的深度伪造视频检测方法和装置

Info

Publication number: CN116310969A
Application number: CN202310196418.3A
Authority: CN
Inventors: 张旭鸿; 付之笑; 徐时健
Original assignee: Qiaozhihui Technology Zhejiang Co ltd
Current assignee: Qiaozhihui Technology Zhejiang Co ltd
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-06-23

Abstract

本发明公开了一种基于多尺度特征解耦的深度伪造视频检测方法和装置，首先通过预训练的CNN和SRM卷积方式获取伪造人脸的颜色域和频域特征，然后通过自注意力模块将特征解耦为逼真自然的特征和伪造痕迹的特征两部分。在逼真自然的特征分支中设立真伪判别器判断特征的真伪类别，同时设立域判别器判断特征来源于哪种伪造技术。利用判别器与特征解耦网络的对抗来促进网络能更准确地解耦出包含伪造痕迹的特征。在伪造痕迹的特征分支中利用分类损失让网络学习到真实人脸和伪造人脸的差别。最后结合二者通过端到端的方式训练模型，从而实现准确泛化性强的深度伪造视频检测，提高了深度伪造视频检测方法的通用性的准确性。

Description

一种基于多尺度特征解耦的深度伪造视频检测方法和装置

技术领域

本发明属于深度伪造视频检测技术领域，尤其涉及一种基于多尺度特征解耦的深度伪造视频检测方法和装置。

背景技术

随着神经网络技术的发展，深度伪造方法也随之进步，能够以多样的手段生成逼真的人脸并对视频内人物进行替换。恶意攻击者在社交媒体上广泛传播利用深度伪造人脸生成的虚假视频，将会对社会舆论、媒体公信力、名人形象造成不可估量的危害。为了对抗这类攻击手段，与之相对的深度伪造视频检测技术成为了正在成为一种研究趋势。

主流的深度伪造视频检测技术通常利用成熟的人脸识别和追踪技术对视频进行帧级别的拆分后获取到一系列待检测人脸。将待检测人脸输入特征提取网络，发掘其中的伪造痕迹，最后对人脸特征进行真伪分类，例如专利文献CN114693607A公开了一种基于多域块特征标志点配准的篡改视频检测方法及系统，再例如CN114743148A公开了一种多尺度特征融合篡改视频检测方法、系统、介质和设备。目前的方法能够在单数据集内取得优良的准确率，但由于伪造技术的种类多样而训练集内的伪造技术种类又有限，这类方法提取到的伪造痕迹泛化性不佳，容易产生对特定伪造痕迹的倾向性，在跨数据集测试面对未知伪造方法产生的伪造人脸时检测表现有着明显的不足。

可以预见，深度伪造技术会朝着多样与逼真的方向不断进步，真实情况下的深度伪造视频将会混合不同类型的伪造手段，逼真程度也会使得无论肉眼还是机器都更难以辨别真假。现有的深度伪造视频检测技术面临这样的压力和挑战，难以提供令人满意的准确检测结果，急需提高技术的通用性和泛化性。

发明内容

鉴于上述，本发明的目的是提供一种基于多尺度特征解耦的深度伪造视频检测方法和装置，在多尺度上将伪造痕迹特征解耦出来，并基于伪造痕迹特征实现深度伪造检测，提升检测效果。

为实现上述发明目的，实施例提供的一种基于多尺度特征解耦的深度伪造视频检测方法，包括以下步骤：

构建多尺度特征解耦网络，包括含多个尺度的特征提取单元的特征提取模块，通过特征提取单元对人脸图像分别从颜色域和频域提取不同尺度的颜色域特征和频域特征，并融合颜色域特征和频域特征得到图像特征，每个特征提取单元连接一个解耦模块，解耦模块包括自注意力单元、第一映射单元、第二映射单元、分类器、类判别器、域判别器，图像特征经过自注意力单元计算互补的两个自注意力图，该两个自注意力图分别与图像特征相乘以获得解耦的逼真自然特征和伪造痕迹特征，伪造痕迹特征经过第一映射单元映射后输入分类器进行伪造检测，逼真自然特征经过第二映射单元映射后分别输入至类判别器和域判别器进行特征真伪的判别和特征域的归属判断；

为特征提取模块和类判别器构建第一对抗损失以促使伪造痕迹特征解耦正确，为特征提取模块和域判别器构建第二对抗损失以促使解耦得到的特征不偏向于特定伪造方法，为特征提取模块和分类器构建分类损失以促使学习到正确的分类，利用人脸图像样本和构建的损失对多尺度特征解耦网络进行参数优化，参数优化结束后，提取特征提取模块和每个解耦模块中的自注意力单元、第一映射单元以及分类器作为伪造检测模型；

利用伪造检测模型进行深度伪造视频检测。

在一个实施例中，每个特征提取单元包含两个尺度相同的特征提取分支和融合操作，通过两个特征提取分支提取颜色域特征和频域特征，通过融合操作融合颜色域特征和频域特征得到图像特征，其中，特征提取分支采用卷积神经网络，融合操作采用卷积操作。

在一个实施例中，所述特征提取分支采用InceptionResNet网络。

在一个实施例中，所述自注意力单元中，采用自注意力机制对图像特征进行计算以得到自自注意力图，作为逼真自然特征的自注意力图A_r，根据互补关系，计算伪造痕迹特征的自注意力图A_f＝1-A_r，将图像特征分别与A_r、A_f相乘，得到解耦的逼真自然特征和伪造痕迹特征。

在一个实施例中，所述第一映射单元和第二映射单元均采用卷积神经网络，所述卷积神经网络包括下采样层、卷积层以及线性层，经过下采样层、卷积层以及线性层将输入的特征转换为特征向量。

在一个实施例中，所述第一对抗损失包括希望类判别器能够区分真实人脸特征和伪造人脸解耦出的逼真自然特征的类判别损失

和希望伪造人脸图像中解耦出来的逼真自然特征接近真实人脸特征从而让类判别器无法区分的生成损失/>

其中：

其中，i表示图像特征的索引，

表示逼真自然特征经过第二映射单元映射得到的向量，y表示人脸真实特征标签，/>

表示类判别器的预测值，/>

表示批量内求平均；

在训练时，通过第一对抗损失对特征提取模块和类判别器进行交替训练。

在一个实施例中，所述第二对抗损失包括希望能够区分不同伪造方法产生人脸解耦出来的逼真自然特征的域判别损失

和生成损失/>

其中，i表示图像特征的索引，

表示逼真自然的特征经过第二映射单元映射得到的向量，y_k表示域标签，k表示域类别，/>

表示域判别器的预测值，/>

表示批量内求平均；

在训练时，通过在域判别器前加入梯度反转层来使得域判别损失

在反向传播到特征提取模块时梯度值反转，从而计算得到使域判别器无法区分出伪造类别的生成损失/>

并依据生成损失/>

来优化域判别器和特征提取模块。

在一个实施例中，所述分类损失表示为：

其中，i表示图像特征的索引，y’表示样本的真伪标签，pⁱ为分类器的预测值，

表示批量内求平均；

在训练时，以超参数平衡对抗损失，整个多尺度特征解耦网络的最终损失函数包括生成损失

和判别损失/>

其中，α和β为超参数，根据/>

与/>

的和、/>

采用交替的方式训练整个多尺度特征解耦网络。

在一个实施例中，所述利用伪造检测模型进行深度伪造视频检测，包括：

将待测人脸图像输入至伪造检测模型，通过特征提取模块的每个特征提取单元提取不同尺度的图像特征；

在每个特征提取单元对应的解耦模块中，通过自注意力单元根据图像提取伪造痕迹特征对应的自注意力图，并将该自注意力图与图像特征计算伪造痕迹特征，该伪造痕迹特征经过第一映射单元映射后输入至分类器，经过计算输出不同尺寸图像特征对应的真伪检测结果；

将所有尺寸图像特征对应的真伪检测结果加权结合得到最终检测结果。

为实现上述发明目的，实施例还提供了一种基于多尺度特征解耦的深度伪造视频检测装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述处理器执行所述计算机程序时实现上述深度伪造视频检测方法的步骤。

与现有技术相比，本发明具有的有益效果至少包括：

在不同尺度特征空间中将伪造人脸中的伪造痕迹和逼真自然的部分解耦，设立判别器使其与特征提取模块对抗，在竞争中促进两种部分特征的分离，得到更加通用的伪造特征实现准确的判决。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的基于多尺度特征解耦的深度伪造视频检测方法的流程图；

图2是实施例提供的多尺度特征解耦网络的结构示意图；

图3是实施例提供的解耦模块的结构示意图；

图4是实施例提供的自注意力单元的结构示意图；

图5是实施例提供的利用伪造检测模型进行深度伪造视频检测的流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为解决现有深度伪造视频检测技术泛化性不佳导致检测不准确的问题，本发明提出了一种基于多尺度特征解耦的深度伪造视频检测方法和和装置。

如图1所示，实施例提供的基于多尺度特征解耦的深度伪造视频检测方法，包括以下步骤：

步骤1，构建多尺度特征解耦网络。

如图2所示，实施例提供的多尺度特征解耦网络包括特征提取模块和解耦模块，其中，特征提取模块包括多个尺度的特征提取单元，举例说明，包含低、中、高三个尺度的特征提取单元。每个特征提取单元包含两个尺度相同的特征提取分支和融合操作，通过两个特征提取分支提取颜色域特征和频域特征，通过融合操作融合颜色域特征和频域特征得到图像特征，其中，特征提取分支采用卷积神经网络，优选地采用InceptionResNet网络，融合操作采用卷积操作。

具体地，利用特征提取模块提取图像特征时，首先，对于给定的一个待检测视频视频V，将其转换为一系列的图像帧，然后使用dlib方法对每帧图片进行人脸检测框选和裁剪，获得一系列人脸图像，取单张人脸图像作为特征提取模块的输入人脸I；然后，给定输入的人脸图像I，使用预训练的InceptionResNet网络分别提取颜色域特征，网络的不同尺度层输出的特征作为人脸图像的多尺度特征Fⁱ，i代表特征提取单元的层级，举例可以取值为3，表示使用低、中、高层的特征。

为了避免在颜色域上产生对特定伪造方法的偏向性，本发明额外在输入时引入鲁棒性更佳同时能够提供额外伪造痕迹信息的频域信息。对给定输入的人脸图像I，使用SRM滤波器提取人脸图像的初始频域噪声特征X，使用与颜色域结构相同但参数不同的InceptionResNet网络进一步提取为不同层的频域特征Xⁱ。在取得各个尺度人脸图像的颜色域特征和频域特征后，为方便进一步对两类信息的同时解耦处理，需要先将二者进行融合，将各对应尺度的颜色域特征和频域特征相连，通过1×1的卷积层得到包含了二者的图像特征Mⁱ。

如图2所示，在每个特征提取单元的输出端连接一个解耦模块，该解耦模块用于对特征提取单元输出的图像特征进行解耦得到逼真自然特征和伪造痕迹特征，并基于伪造痕迹特征进行伪造检测，基于逼真自然特征进行对抗训练。

如图3所示，解耦模块包括自注意力单元、第一映射单元、第二映射单元、分类器、类判别器、域判别器，图像特征经过自注意力单元计算互补的两个自注意力图，该两个自注意力图分别与图像特征相乘以获得解耦的逼真自然特征和伪造痕迹特征，伪造痕迹特征经过第一映射单元映射后输入分类器进行伪造检测，逼真自然特征经过第二映射单元映射后分别输入至类判别器和域判别器进行特征真伪的判别和特征域的归属判断。

如图4所示，自注意力单元SA中，采用自注意力机制对图像特征Mⁱ进行计算以得到自自注意力图，作为逼真自然特征的自注意力图

具体过程包括：对初步的图像特征分别使用三个1×1卷积层将其映射到查询、键、值的隐空间得到Qⁱ、Kⁱ、Vⁱ，i表示特征的层级，重塑Qⁱ、Kⁱ的大小为nⁱ×cⁱ,nⁱ＝hⁱ×wⁱ，hⁱ、wⁱ、cⁱ表示第i层特征映射的高度、宽度和通道数。这之后执行矩阵乘法和softmax激活获得自注意力图/>

公式如下：

伪造痕迹特征与逼真自然特征为互补关系，待检测人脸图像可以被解耦为这两种特征，因此伪造痕迹部分的自注意力图可由逼真自然特征的自注意力图计算而得，公式为

将自注意力图/>

与Mⁱ相乘获得逼真自然特征，将自注意力图/>

与Mⁱ相乘获得伪造痕迹特征。解耦模块在此处产生判别分支和分类分支，逼真自然特征进入到判别分支，伪造痕迹特征进入到分类分支。

如图4所示，第一映射单元和第二映射单元均采用卷积神经网络CNN，所述卷积神经网络包括下采样层、卷积层以及线性层，经过下采样层、卷积层以及线性层将输入的逼真自然特征和伪造痕迹特征分别转换为特征向量。

步骤2，构建损失函数并训练多尺度特征解耦网络，并得到伪造检测模型。

实施例中，将逼真自然特征输入至类判别器，让类判别器判别逼真自然特征的真伪，进行对抗学习促使伪造痕迹特征解耦正确。具体地，将逼真自然特征经过第二映射单元转换后输入至类判别器经计算获得二分类判别结果，计算类判别损失

其中，

表示类判别器的预测值，/>

表示批量内求平均，该/>

希望类判别器能够区分真实人脸特征和伪造人脸解耦出的逼真自然特征。

与类判别器的训练目标相反，特征提取模块希望伪造人脸图像中解耦出来的特征接近真实人脸特征从而让类判别器无法区分，计算生成损失公式为

与/>

组成第一对抗损失，通过该第一对抗损失对特征提取模块与类判别器交替训练，在训练方向相反的竞争中，网络更能正确解耦出伪造痕迹和逼真自然两类特征，进而提升判别分支的学习到更具判别力特征的能力。

实施例中，将逼真自然特征输入域判别器，让其判断特征域的类别，进行对抗学习促使解耦特征不偏向于特定伪造方法。解耦出的逼真自然特征来源于不同伪造方法产生的伪造人脸图片，如果不加以约束，容易像直接提取伪造痕迹的方法一样产生对训练集伪造方法的偏向性。为此需要设立特征域类别的域判别器进行对抗，域判别器希望能够区分不同伪造方法产生人脸解耦出来的逼真自然特征。训练集内的人脸伪造方法来源是已知信息，利用此作为人脸的事实域标签，真实人脸额外设立一个域以区别伪造方法。

具体地，将将逼真自然特征经过第二映射单元转换后输入域判别器获得域类别判别结果，计算域判别损失

其中，E表示批量内求平均，y_k表示域标签，/>

表示域判别器对/>

在域类别k上的预测值，/>

表示批量内求平均。

与域判别器的目标相反，特征提取模块希望伪造人脸解耦出来的逼真自然的特征有高共通性，不具有明显的域类别信息，从而能够应对未知的伪造方法产生的人脸图片。通过在域判别器前加入梯度反转层来使得域判别损失

与/>

组成第一对抗损失，并依据生成损失/>

来优化域判别器和特征提取模块。在域类别上的对抗能够促使网络剔除出更通用的真实特征，使方法也能具有良好的泛化性。

实施例中，将伪造痕迹特征输入分类器，让其对待测人脸特征做出判决，利用分类损失让网络学习到正确的分类。具体地，将伪造痕迹的特征经过第一映射单元转换为特征向量

后，将特征向量/>

输入至分类器获得二分类判别结果，计算分类损失

y’表示样本的真伪标签，pⁱ为分类器的预测值。

和判别损失/>

其中，α和β为超参数，根据/>

采用交替的方式训练整个多尺度特征解耦网络，即先利用

优化网络参数，再利用/>

优化网络参数，通过解耦的方式提取伪造痕迹并正确检测。

训练结束后，提取特征提取模块和每个解耦模块中的自注意力单元、第一映射单元以及分类器作为伪造检测模型。

步骤3，利用伪造检测模型进行深度伪造视频检测。

如图5所示，实施提利用伪造检测模型进行深度伪造视频检测，包括：

将待测人脸图像输入至伪造检测模型，通过特征提取模块的每个特征提取单元提取不同尺度的颜色域特征和频域特征，并将颜色域特征和频域特征融合得到图像特征；

在每个特征提取单元对应的解耦模块中，通过自注意力单元根据图像提取伪造痕迹特征对应的自注意力图，并将该自注意力图与图像特征计算伪造痕迹特征，如果是三个尺度，则同时获得低尺度伪造痕迹特征、中尺度伪造痕迹特征以及高尺度伪造痕迹特征，这些伪造痕迹特征经过第一映射单元映射后输入至分类器，经过计算输出不同尺寸图像特征对应的真伪检测结果；

将所有尺寸图像特征对应的真伪检测结果加权结合得到最终检测结果。不同尺度的图像特征包含的信息有所差异，相互之间能形成补充关系。将预定义的权重与各尺度真伪检测结果相乘并相加后获得待测人脸的最终判决。

基于同样的发明构思，实施例还提供了一种基于多尺度特征解耦的深度伪造视频检测装置，包括存储器、处理器以及存储在存储器中并可在所述处理器上执行的计算机程序，处理器执行计算机程序时实现以下权利要求1-9任一项所述的深度伪造视频检测方法的步骤，包括以下步骤：

步骤1，构建多尺度特征解耦网络；

步骤2，构建损失函数并训练多尺度特征解耦网络，并得到伪造检测模型；

步骤3，利用伪造检测模型进行深度伪造视频检测。

实际应用中，存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现深度伪造视频检测方法的步骤。

上述实施例提供的深度伪造视频检测方法和装置，首先通过预训练的CNN和SRM卷积方式获取伪造人脸的颜色域和频域特征，然后通过自注意力模块将特征解耦为逼真自然特征和伪造痕迹特征两部分。在逼真自然特征分支中设立类判别器判断特征的真伪类别，同时设立域判别器判断特征来源于哪种伪造技术。利用判别器与特征提取模块的对抗来促进网络能更准确地解耦出伪造痕迹特征。在伪造痕迹特征分支中利用分类损失让网络学习到真实人脸和伪造人脸的差别。最后结合二者通过端到端的方式训练模型，从而实现准确泛化性强的深度伪造视频检测，提高了深度伪造视频检测方法的通用性的准确性。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多尺度特征解耦的深度伪造视频检测方法，其特征在于，包括以下步骤：

利用伪造检测模型进行深度伪造视频检测。

2.根据权利要求1所述的基于多尺度特征解耦的深度伪造视频检测方法，其特征在于，每个特征提取单元包含两个尺度相同的特征提取分支和融合操作，通过两个特征提取分支提取颜色域特征和频域特征，通过融合操作融合颜色域特征和频域特征得到图像特征，其中，特征提取分支采用卷积神经网络，融合操作采用卷积操作。

3.根据权利要求2所述的基于多尺度特征解耦的深度伪造视频检测方法，其特征在于，所述特征提取分支采用InceptionResNet网络。

4.根据权利要求1所述的基于多尺度特征解耦的深度伪造视频检测方法，其特征在于，所述自注意力单元中，采用自注意力机制对图像特征进行计算以得到自自注意力图，作为逼真自然特征的自注意力图A_r，根据互补关系，计算伪造痕迹特征的自注意力图A_f＝1-A_r，将图像特征分别与A_r、A_f相乘，得到解耦的逼真自然特征和伪造痕迹特征。

5.根据权利要求1所述的基于多尺度特征解耦的深度伪造视频检测方法，其特征在于，所述第一映射单元和第二映射单元均采用卷积神经网络，所述卷积神经网络包括下采样层、卷积层以及线性层，经过下采样层、卷积层以及线性层将输入的特征转换为特征向量。

6.根据权利要求1所述的基于多尺度特征解耦的深度伪造视频检测方法，其特征在于，所述第一对抗损失包括希望类判别器能够区分真实人脸特征和伪造人脸解耦出的逼真自然特征的类判别损失