CN117437935A

CN117437935A - 一种音频辅助的深度伪造人脸视频检测方法、系统及设备

Info

Publication number: CN117437935A
Application number: CN202311435156.8A
Authority: CN
Inventors: 李红波; 彭浩然; 袁霖
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-01-23

Abstract

本发明公开了一种音频辅助的深度伪造人脸视频检测方法、系统及设备，本发明提出的检测方法利用音频生成模型将视频中的伪造判别要素输入，输出相应的音频信息，同时将其与原视频中的音频信息进行对比分析，得到真伪判断的辅助成分，将其结合原视频中的音视频信息，进行深度伪造视频真伪判别，既利用了音频、视频多模态特征信息，同时还考虑了视频与音频间的关系，使得音频频谱特征更加可靠，提高了深度伪造视频的检测精度。另外，本发明提出的检测方法无需依赖媒介，即可方便实现，因此其具有较高的泛化性。

Description

一种音频辅助的深度伪造人脸视频检测方法、系统及设备

技术领域

本发明属于图像处理技术、视频检测技术领域，具体涉及一种音频辅助的深度伪造人脸视频检测方法、系统及设备。

背景技术

虚假的换脸视频以及类似的深度伪造技术制作的视频在近些年得到多方关注。一方面，深度伪造技术可以帮助各种影视内容降低成本，制作普通技术难以再实现的有益内容；另一方面，深度伪造视频是有害视频种类中不可忽视的要素，这类具有危害的合成视频容易带来不可估量的危害，且随着技术发展与伪造方式的便捷，其量也呈现急速增长的势头。深度伪造视频的检测早在其出现时便有相关研究，如今众多伪造技术的提出使得普通人也能够便利地制作自己想要的伪造视频，这些普通的伪造视频往往加工粗糙，但其海量增加也使得可参考的样本案例增多。

作为视频的组成部分之一，音频往往是被严重忽视的对象，当下针对音频视频的研究集中于两个模态间的关系上。深度伪造的视频检测中关注的不协调多是在视频图像中，作为辅助的音频并不能很好的利用起来。为了应对深度伪造生成技术的负面影响，近年来有关深度伪造的对抗策略的研究也逐渐增多。按照类型可将深度伪造视频检测技术分为单模态检测与结合语音模态的多模态检测。

其中，对于单模态图像深度伪造检测技术，当前的主流深度伪造技术通常是通过检测伪造图像和视频中的伪造痕迹实现，目前可以进行检测的伪造痕迹主要有以下几种：图像处理取证、时序连贯和模型指纹等。早期的深度伪造检测主要是基于传统的图像取证方法，通过关注视频中全局连续性，照明估计和几何估计等多个方面的视频伪造痕迹进行检测；基于时序连贯性的检测技术主要是使用循环神经网络对帧间的伪造特征进行检测，通过捕捉视频中帧间时序的不连贯性来进行真伪判别。然而单模态检测技术采用特征单一，过渡依赖于伪造痕迹，导致检测精度不高，且泛化性较差。

对于结合语音模态的多模态检测技术，随着音频模态的深度伪造的进一步运用以及多模态学习的普及，多种结合音频模态的深度伪造检测方法开始出现。与单模态相似，音频模态结合也有利用生物特征、融合痕迹等不同的检测方法。目前既有利用真人发声特点与伪造视频间的不一致达到视频真伪检测，也有利用情感媒介作为联系，将视频与音频中的人物情感进行分析判别真伪。然而，深度伪造视频的多模态检测方法以往集中于将两种模态借助某种媒介拼接在一起，但这些媒介很可能会忽略掉原本视频图像中的信息，从而导致判别效果不佳。

发明内容

为了解决现有深度伪造视频检测技术存在的检测精度较低、泛化性较差等问题，本发明提供了一种音频辅助的深度伪造人脸视频检测方法、系统及设备，本发明通过特征提取和融合技术，将视频特征与音频特征相融合，得到的融合特征图拥有多种模态信息，根据融合特征图进行深度伪造视频真伪判别，提高了检测精度。

本发明通过下述技术方案实现：

一种音频辅助的深度伪造人脸视频检测方法，所述检测方法包括：

对原始视频的音频与视频帧进行分离，并对分离后的音频和视频帧进行预处理；

将预处理后的视频帧输入到预先训练好的音频生成模型中，生成相应的音频频谱图；

将预处理后的视频帧、原音频频谱图与生成的音频频谱图输入到预先训练好的特征融合分类模型中，提取得到视觉特征图、原音频频谱特征图、生成的音频频谱特征图并进行多模态特征图融合，根据融合的特征图进行深度伪造视频真伪判断。

相较于现有深度伪造视频检测技术检测精度不高、且泛化性较差等问题，本发明提出的检测方法利用音频生成模型将视频中的伪造判别要素输入，输出相应的音频信息，同时将其与原视频中的音频信息进行对比分析，得到真伪判断的辅助成分，将其结合原视频中的音视频信息，进行深度伪造视频真伪判别，既利用了音频、视频多模态特征信息，同时还考虑了视频与音频间的关系，使得音频频谱特征更加可靠，提高了深度伪造视频的检测精度。另外，本发明提出的检测方法无需依赖媒介，即可方便实现，因此其具有较高的泛化性。

作为优选实施方式，本发明的预处理过程具体包括：

将分离后的音频和视频帧划分为细分片段；

识别出视频帧中的人脸区域，并将识别出的人脸区域进行仿射变换以对齐区域作为后续模型的输入；

对音频片段进行Mel频谱倒谱系数变换为音频频谱图作为后续模型的输入。

作为优选实施方式，本发明的音频生成模型采用编码器-解码器架构，其训练过程具体包括：

将预处理后的视频帧输入到第一编码器中，输出视频帧中人脸的特征关键点；

将预处理后的视频帧输入到第二编码器中，输出视频帧中人脸视觉特征图；

将第一编码器的输出与第二编码器的输出进行拼接；

将拼接后的特征图输入到解码器中得到Mel频谱倒谱系数输出；

通过对输出的Mel频谱倒谱系数与相应原音频的Mel频谱倒谱系数进行对比作为学习损失优化音频生成模型的参数，实现模型的优化训练。

作为优选实施方式，本发明的音频生成模型采用Lip2Speech网络结构。

作为优选实施方式，本发明的特征融合分类模型包括特征提取融合模型和分类器；

其中，所述特征提取融合模型实现多模态特征图的提取和融合，并将输出的特征图送入到分类器进行分类检测。

作为优选实施方式，本发明的特征提取融合模型采用resnet50网络结构，其输入为视频帧、原音频频谱图与生成的音频频谱图，分别提取并融合得到特征图，并馈送入所述分类器进行分类检测。

作为优选实施方式，本发明的特征提取融合模型采用vision transformer网络结构，其输入为视频帧、原音频频谱图与生成的音频频谱图，对输入的视频帧进行SelfAttention处理得到特征图，对原音频频谱图与生成的音频频谱图的差值进行SelfAttention处理得到特征图，对两种模态的特征图进行Cross Model Attention融合处理，将融合得到的特征图送入分类器进行分类检测。

作为优选实施方式，本发明的检测方法利用损失函数对所述音频生成模型和特征融合分类模型进行联合优化训练；所述损失函数为重建损失函数与分类损失函数之和；其中，所述重建损失函数用于衡量原音频频谱图与生成的音频频谱图之间的相似度；所述分类损失函数为音频、视频以及融合特征的交叉熵损失之和。

第二方面，本发明提出了一种音频辅助的深度伪造人脸视频检测系统，所述检测系统包括：

视频预处理模块，所述视频预处理模块对原始视频的音频与视频帧进行分离，并对分离后的音频和视频帧进行预处理；

音频频谱生成模块，所述音频频谱生成模块将预处理后的视频帧输入到预先训练好的音频生成模型中，生成相应的音频频谱图；

以及特征融合分类模块，所述特征融合分类模块将预处理后的视频帧、原音频频谱图与生成的音频频谱图输入到预先训练好的特征融合分类模型中，提取得到视觉特征图、原音频频谱特征图、生成的音频频谱特征图并进行多模态特征图融合，根据融合的特征图进行深度伪造视频真伪判断。

第三方面，本发明提出了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本发明所述方法的步骤。

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明通过根据视频帧生成音频信息，考虑了视频与音频间的关系，使得音频频谱特征更加可靠，同时本发明将视频特征与音频特征相融合，并利用融合的特征图进行深度伪造视频真伪判别，提高了深度伪造视频的检测精度。

2、本发明无需依赖媒介，即可方便实现，能够用于大多数情况的深度伪造视频检测需求中，满足显示场景中的深度伪造视频检测需求，具有较高的泛化性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明实施例的检测方法流程图。

图2为本发明实施例的音频生成模型架构示例。

图3为本发明实施例的特征融合分类模型架构示例。

图4为本发明实施例的检测系统原理框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例：

现有深度伪造视频检测技术主要分为单模态检测与结合语音模态的多模态检测，然而单模态检测技术采用的特征单一，检测精度不高，且泛化性较差；而多模态检测技术过渡依赖媒介，容易忽略掉原本视频图像中的信息，导致检测效果不佳，且泛化性较差。针对此，本实施例提出了一种音频辅助的深度伪造人脸视频检测方法，本实施例提出的检测方法利用生成模型将视频中的伪造判别要素输入，输出相对应的音频信息与原本视频中的音频进行比对分析，得到真伪判断的辅助成分，将其结合原视频中的音视频信息，进行深度伪造视频真伪判别，实现深度伪造视频的高精度检测。

如图1所示，本实施例提出的检测方法具体包括如下步骤：

步骤100，对原始视频的音频与视频帧分离，并对分离后的音频和视频帧进行预处理。该预处理过程具体为：将音频和视频帧划分为细分片段；识别出视频帧中的人脸区域，并将识别出的人脸区域进行仿射变换以对齐区域作为后续模型的输入；对音频片段进行Mel频谱倒谱系数变换为音频频谱图作为后续模型的输入。

具体的，以FakeAVCeleb数据集为例，预处理步骤具体包括：选取数据集中任意视频，将视频的音频与视频帧分离并切分为3秒左右的长度，用ffmpeg识别视频帧中的人脸区域，并将选定区域(人脸区域)进行仿射变换以对齐区域后作为后续的输入；对音频片段进行Mel频谱倒谱系数变换作为后续的对比输入。

步骤200，将预处理后的视频帧输入到预先训练好的音频生成模型中，生成相应的音频频谱图。

步骤300，将预处理后的视频帧、原音频频谱图与生成的音频频谱图输入至预先训练好的特征融合分类模型中，提取得到视觉特征图、原音频频谱特征图、生成的音频频谱特征图并进行多模态特征图融合，根据融合的特征图进行深度伪造视频真伪判断。

进一步的，步骤200中通过输入视频帧生成一张音频频谱图，该音频频谱图主要采用Mel频谱倒谱系数MFCC来表示。如图2所示，该音频生成模型是在Lip2Speech网络结构(该网络结构包括但不限于编码器-解码器架构Encoder-Decoder等)基础上进行训练得到的，其训练过程具体如下：

步骤201，将预处理后的视频帧输入到Speaker Encoder(编码器)，SpeakerEncoder能够学习到视频帧中人像的特征关键点。

步骤202，将预处理后的视频帧输入到Face Encoder(编码器)，Face Encoder能够获得视频帧中人像视觉特征图，将其与Speaker Encoder的输出进行拼接。

步骤203，将拼接后的特征图输入到LSTM Decoder(解码器)中得到Mel频谱倒谱系数输出。

步骤204，通过对输出的Mel频谱倒谱系数与对应原音频的Mel频谱倒谱系数进行对比作为学习损失优化音频生成模型的参数，实现模型的优化训练，提高模型的精度。本实施例通过预处理后的视频帧生成一张音频频谱图，并由原始音频频谱图监督生成，这使得音频生成模型更关注视频与音频间的关系，并生成更加可靠的音频频谱图。

进一步的，步骤300的特征融合分类模型主要由特征提取融合模型和分类器构成。其中，特征提取融合模型可以采用不同的网络结构，例如，可以采用resnet50网络结构，其输入为视频帧、原音频频谱图与生成的音频频谱图，分别提取并融合得到特征图，并将融合得到的特征图馈送入分类器进行分类检测；还可以采用vision transformer网络结构，其输入为视频帧、原音频频谱图与生成的音频频谱图，分别对输入的视频帧以及原音频频谱图与生成的音频频谱图差值进行Self Attention处理得到特征图，然后对两种模态进行Cross Model Attention处理以实现融合目的，最后将融合得到的特征图送入分类器进行分类检测，具体如图3所示。具体的，特征融合过程具体表示为：

F(V,A)＝CrossATT(A^S,V^S)，

A^S＝SelfATT(A)，

V^S＝SelfATT(V)，

A＝A^G-A^O；

其中，A表示音频的Mel频谱倒谱系数特征，A^G表示生成的Mel频谱倒谱系数特征，A^O表示原音频的Mel频谱倒谱系数特征，将二者相减作为融合特征的输入；V表示输入的视频帧，SelfATT()表示进行Self Attention操作，CrossATT(,)表示Cross Model Attention操作。本实施例通过将生成的音频频谱图与原音频频谱图结合进行真伪分类，同时将视频与音频特征融合，实现深度伪造人脸图像的高精度检测。

进一步的，本实施例提出的检测方法还包括：

利用损失函数对音频生成模型和特征融合分类模型进行联合优化训练，使其可以提取到合适的特征图，提高真伪检测准确率。

进一步的，本实施例采用的损失函数表示为：

其中，表示总损失函数；/>表示重建损失函数，用于衡量原始音频频谱图与生成的音频频谱图之间的相似度；/>为分类损失函数，主要采用交叉熵损失函数，交叉熵是一种常用于解决分类问题的损失函数，将预测结果和真实样本标签计算交叉熵作为损失函数；λ₁、λ₂分别表示/>的权重参数。

具体的，分类损失函数表示为：

其中，分别表示音频、视频以及融合特征的交叉熵损失；λ₁、λ₂、λ₃分别表示/>的权重系数。

本实施例通过视频生成对应的音频频谱图，能够拓宽深度伪造视频检测的视觉范围，同时该生成的音频频谱图由原始音频频谱图监督生成，从而能够生成更加可靠的音频频谱图；最后将原音频频谱特征图、生成的音频频谱特征图、视觉特征图，进行多模态特征融合，能够提取得到单模态下难以挖掘的信息，提高深度伪造视频检测精度，满足显示场景中的深度伪造视频检测需求。

基于上述相同的技术构思，本实施例还提出了一种音频辅助的深度伪造人脸视频检测系统，如图4所示，本实施例提出的检测系统具体包括：

视频预处理模块，该模块对原始视频的音频与视频帧分离，并对分离后的音频和视频帧进行预处理。该预处理过程具体为：将音频和视频帧划分为细分片段；识别出视频帧中的人脸区域，并将识别出的人脸区域进行仿射变换以对齐区域作为后续模型的输入；对音频片段进行Mel频谱倒谱系数变换为音频频谱图作为后续模型的输入。

音频频谱生成模块，该模块将预处理后的视频帧输入到预先训练好的音频生成模块中，生成相应的音频频谱图。

以及特征融合分类模块，该模块将预处理后的视频帧、原音频频谱图与生成的音频频谱图输入至预先训练好的特征融合分类模型中，提取得到视觉特征图、原音频频谱特征图、生成的音频频谱特征图并进行多模态特征图融合，根据融合的特征图进行深度伪造视频真伪判断。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频辅助的深度伪造人脸视频检测方法，其特征在于，所述检测方法包括：

2.根据权利要求1所述的一种音频辅助的深度伪造人脸视频检测方法，其特征在于，预处理过程具体包括：

将分离后的音频和视频帧划分为细分片段；

3.根据权利要求2所述的一种音频辅助的深度伪造人脸视频检测方法，其特征在于，所述音频生成模型采用编码器-解码器架构，其训练过程具体包括：

将第一编码器的输出与第二编码器的输出进行拼接；

4.根据权利要求3所述的一种音频辅助的深度伪造人脸视频检测方法，其特征在于，所述音频生成模型采用Lip2Speech网络结构。

5.根据权利要求1所述的一种音频辅助的深度伪造人脸视频检测方法，其特征在于，所述特征融合分类模型包括特征提取融合模型和分类器；

6.根据权利要求5所述的一种音频辅助的深度伪造人脸视频检测方法，其特征在于，所述特征提取融合模型采用resnet50网络结构，其输入为视频帧、原音频频谱图与生成的音频频谱图，分别提取并融合得到特征图，并馈送入所述分类器进行分类检测。

7.根据权利要求5所述的一种音频辅助的深度伪造人脸视频检测方法，其特征在于，所述特征提取融合模型采用vision transformer网络结构，其输入为视频帧、原音频频谱图与生成的音频频谱图，对输入的视频帧进行Self Attention处理得到特征图，对原音频频谱图与生成的音频频谱图的差值进行Self Attention处理得到特征图，对两种模态的特征图进行Cross ModelAttention融合处理，将融合得到的特征图送入分类器进行分类检测。

8.根据权利要求1所述的一种音频辅助的深度伪造人脸视频检测方法，其特征在于，利用损失函数对所述音频生成模型和特征融合分类模型进行联合优化训练；所述损失函数为重建损失函数与分类损失函数之和；其中，所述重建损失函数用于衡量原音频频谱图与生成的音频频谱图之间的相似度；所述分类损失函数为音频、视频以及融合特征的交叉熵损失之和。

9.一种音频辅助的深度伪造人脸视频检测系统，其特征在于，所述检测系统包括：

10.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-8中任一项所述方法的步骤。