CN115661725B

CN115661725B - Deepfake视频检测方法、系统及可读存储介质

Info

Publication number: CN115661725B
Application number: CN202211671206.8A
Authority: CN
Inventors: 陈晓莉; 赵祥廷; 国毓芯; 马峰; 林建洪; 聂宜君
Original assignee: Zhejiang Ponshine Information Technology Co ltd
Current assignee: Zhejiang Ponshine Information Technology Co ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-03-21
Anticipated expiration: 2042-12-26
Also published as: CN115661725A

Abstract

本发明涉及Deepfake视频检测方法、系统及可读存储介质，视频检测方法，包括：将待检测视频按预设帧数进行切分，得到n张待检测图片；对待检测图片进行人脸检测，得到人脸图片；对人脸图片进行特征提取，分别得到傅里叶频谱图、不同切割幅度对应的高通滤波图；将人脸图片、傅里叶频谱图以及不同切割幅度对应的高通滤波图构成的特征图矩阵输入预训练的Xception网络模型，以输出多维度融合特征；将多维度融合特征输入预训练的LSTM网络模型，以检测待检测视频是否为Deepfake视频。本发明结合人脸图片、图片自身特征维度和视频不同帧时间序列维度进行图片分类，有效提升Deepfake视频检测的精度。

Description

Deepfake视频检测方法、系统及可读存储介质

技术领域

本发明属于视频检测技术领域，具体涉及Deepfake视频检测方法、系统及可读存储介质。

背景技术

随着人工智能技术的不断发展，Deepfake技术，即深度伪造技术，导致互联网上充斥着大量伪造人脸的虚假视频。

现有的Deepfake视频检测技术，例如，公开号为CN114273186A公开的深度伪造人脸视频检测方法，其将获取的人脸图像空域特征、人脸图像频域特征和人脸图像PLGF特征进行拼接融合之后输入双层LSTM网络结构提取得到最终的融合特征，再输入用于分类的全连接层实现深度伪造人脸视频检测；其仅考虑特征提取对视频检测的影响，并未考虑人脸图片本身差异对视频检测的影响。另外，现有技术中采用高通滤波对人脸图像进行处理进行特征提取，并未综合考虑高通滤波的程度对人脸特征区分度的影响。

发明内容

基于现有技术中存在的上述不足，本发明的目的是提供Deepfake视频检测方法、系统及可读存储介质。

为了达到上述发明目的，本发明采用以下技术方案：

一种Deepfake视频检测方法，包括以下步骤：

S1、将待检测视频按预设帧数进行切分，得到n张待检测图片；其中，n为正整数；

S2、对待检测图片进行人脸检测，得到人脸图片；

S3、对人脸图片进行特征提取，分别得到傅里叶频谱图、不同切割幅度对应的高通滤波图；

S4、将人脸图片、傅里叶频谱图以及不同切割幅度对应的高通滤波图构成的特征图矩阵输入预训练的Xception网络模型，以输出多维度融合特征；

S5、将多维度融合特征输入预训练的LSTM网络模型，以检测待检测视频是否为Deepfake视频。

作为优选方案，所述步骤S2中，提取人脸检测到的人脸部分并调整至目标尺寸，得到人脸图片；

其中，目标尺寸为m*m像素。

作为优选方案，所述步骤S3中，高通滤波图的提取包括：

S31、对人脸图片进行DCT变换，得到频谱图；

S32、以频谱图的低频数据对应的左上角为基点，分别进行K次等腰直角三角形切割以裁剪低频数据，得到K张切割后的频谱图；其中，第k次切割的等腰直角三角形的腰的长度为k*m/K，k∈[1，K]；

S33、分别将切割后的频谱图进行DCT逆变换，得到K张高通滤波图；

S34、从K张高通滤波图筛选出能够有效覆盖人脸特征出现到消散整个区间的连续L张高通滤波图；其中，L小于K。

作为优选方案，所述步骤S4中，特征图矩阵为：

其中，A _i为第i张人脸图片，x _i0为第i张人脸图片提取的傅里叶频谱图，x _il为第i张人脸图片提取的第l张高通滤波图，i∈[1，n]，l∈[1，L]。

作为优选方案，所述步骤S4中，预训练的Xception网络模型包括并联的L+2组Xception网络，用于人脸图片、傅里叶频谱图以及L张高通滤波图一一对应输入；

各组Xception网络的全连接层均连接至特征融合全连接层；其中，各组Xception网络的全连接层的输出维度相同。

作为优选方案，所述预训练的Xception网络模型的训练过程，包括以下步骤：

S41、采集视频数据集，视频数据集包括Deepfake视频集和真实视频集；

S42、对Deepfake视频集中的Deepfake视频和真实视频集的真实视频分别依次进行步骤S1至步骤S3的处理；

S43、对步骤S42得到的人脸图片、傅里叶频谱图以及L张高通滤波图一一对应输入并联的L+2组Xception网络，各组Xception网络的全连接层的输出均输入至特征融合全连接层，并通过特征融合全连接层连接的分类层进行分类，实现训练；

S44、训练完成之后，将分类层去掉，特征融合全连接层的输出作为LSTM网络模型的输入。

作为优选方案，所述预训练的LSTM网络模型的训练过程，包括：

对步骤S42得到的人脸图片、傅里叶频谱图以及L张高通滤波图输入预训练的Xception网络模型，特征融合全连接层的输出作为LSTM网络模型的输入进行训练。

本发明还提供一种Deepfake视频检测系统，应用如上任一项方案所述的Deepfake视频检测方法，所述Deepfake视频检测系统包括：

切分模块，用于将待检测视频按帧切分，得到n张待检测图片；

人脸检测模块，用于对待检测图片进行人脸检测，得到人脸图片；

特征提取模块，用于对人脸图片进行特征提取，分别得到傅里叶频谱图、不同切割幅度对应的高通滤波图；

检测模块，用于将人脸图片、傅里叶频谱图以及不同切割幅度对应的高通滤波图构成的特征图矩阵输入预训练的Xception网络模型，以输出多维度融合特征；还用于将多维度融合特征输入预训练的LSTM网络模型，以检测待检测视频是否为Deepfake视频。

本发明还提供一种可读存储介质，所述可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行如上任一项方案所述的Deepfake视频检测方法。

本发明与现有技术相比，有益效果是：

本发明结合人脸图片、图片自身特征维度和视频不同帧时间序列维度进行图片分类，特别是结合了能够有效覆盖人脸特征出现到消散整个区间的数张高通滤波图，有效提升Deepfake视频检测的精度。

附图说明

图1是本发明实施例的Deepfake视频检测方法的流程图；

图2是本发明实施例的人脸图片进行DCT变换得到频谱图；

图3是本发明实施例的10次切割低频数据后的频谱图；

图4是本发明实施例的10次切割低频数据后的频谱图经过DCT逆变换的高通滤波图；

图5是本发明实施例的频谱图至筛选的高通滤波图的流程图；

图6是本发明实施例的Xception网络模型的网络结构图；

图7是本发明实施例的Deepfake视频检测系统的构架图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

如图1所示，本发明实施例的Deepfake视频检测方法，包括以下步骤：

S1、将待检测视频按预设帧数进行切分，得到n张待检测图片；其中，n为正整数。

其中，预设帧数为切分成n张图片间隔的时长帧数，例如预设帧数取值为10，即每隔10帧切分一张图片，直至切分至第n张图片。

S2、对待检测图片进行人脸检测，得到人脸图片。

具体地，对待检测图片进行人脸检测，提取人脸检测到的人脸部分并调整至目标尺寸，得到人脸图片A _i；

其中，A _i为第i张人脸图片，即第i张待检测图片进行人脸检测得到的人脸图片，i∈[1，n]；

本发明实施例所有人脸图片的尺寸一致，即均调整至目标尺寸m*m像素，例如人脸图片的尺寸大小为299*299像素。上述人脸检测的方法可参考现有技术，在此不赘述。

S3、对人脸图片进行特征提取，分别得到傅里叶频谱图、不同切割幅度对应的高通滤波图。

具体地，本发明实施例从频率角度进行上述各特征图的提取。

傅里叶变换是将图像灰度分布即空间域信号变换到了频域上，提供了观察图像的另一个视角。图像的频谱图的中心点是频率最低点，以该点为圆心，不同半径上的点表示不同的频率。图像频谱图上的高频部分表示原图像上灰度发生急剧变化的区域，意味着该区域可能出现了边缘、轮廓、细节或噪声信息；低频部分则表示原图像上灰度基本不变或者变化很小的区域；通过傅里叶频谱图对比可以看出一部分显著的差异，故将其作为检测特征。

另外，高通滤波就是保留频率比较高的部分，即突出边缘；低通滤波就是保留频率比较低的地方，即平滑图像，弱化边缘，消除噪声。由于Deepfake视频的照片被替换部分噪声较大，故选择高通滤波变换，突出切换的噪声边缘。故提取不同切割幅度对应的高通滤波图作为检测特征。

本发明实施例的不同切割幅度对应的高通滤波图的提取过程，包括以下步骤：

S31、对人脸图片进行DCT变换，得到频谱图，如图2所示；

作为示例说明，如图3和图4所示，K取值为10，即进行10次切割，每次切割均以频谱图的低频数据对应的左上角为基点（即作为等腰直角三角形的直角顶点），分别进行10次等腰直角三角形切割以裁剪低频数据，第1次切割对应的等腰直角三角形的腰的长度为m/10，第2次切割对应的等腰直角三角形的腰的长度为2m/10，第3次切割对应的等腰直角三角形的腰的长度为3m/10，以此类推，第10次切割对应的等腰直角三角形的腰的长度为10m/10，得到编号为0至9的10张切割后的频谱图；之后进行DCT逆变换，得到10张不同切割幅度对应的高通滤波图；发现编号3、4、5的高通特征最为明显，能够有效覆盖人脸特征出现到消散的整个区间且区分度较高，因此选取编号3、4、5的高通滤波图作为检测特征。因此，后续提取高通滤波图时，如图5所示，只需进行三种不同的尺寸裁剪低频数据（即编号3、4、5对应的裁剪切割尺寸）得到切割后的频谱图，之后对切割后的频谱图进行DCT逆变换，即可得到三种不同切割幅度对应的高通滤波图，作为检测特征。

S4、将人脸图片、傅里叶频谱图以及不同切割幅度对应的高通滤波图构成的特征图矩阵输入预训练的Xception网络模型，以输出多维度融合特征。

具体地，本发明实施例的人脸图片、傅里叶频谱图以及不同切割幅度对应的高通滤波图构成的特征图矩阵为：

如上所述，作为示例，当选取编号3、4、5的高通滤波图，即L取值为3，编号3的高通滤波图为选取的第1张高通滤波图，编号4的高通滤波图为选取的第2张高通滤波图，编号5的高通滤波图为选取的第3张高通滤波图。

本发明实施例的预训练的Xception网络模型包括并联的L+2组Xception网络，用于人脸图片、傅里叶频谱图以及L张高通滤波图一一对应输入；

作为示例说明，当选取编号3、4、5的高通滤波图，结合人脸图片、傅里叶频谱图作为预训练的Xception网络模型的输入，如图6所示，人脸图片img输入Xception0，傅里叶频谱图feature1输入Xception1，选取的第1张高通滤波图feature2输入Xception2，选取的第2张高通滤波图feature3输入Xception3，选取的第3张高通滤波图feature4高通滤波图输入Xception4网络，各Xception网络的输出层，即全连接层Fc0、全连接层Fc1、全连接层Fc2、全连接层Fc3、全连接层Fc4，输出维度均为N*1000，N为输入视频的数量，1000为各Xception网络设定的输出特征维度；接着在各组Xception网络的输出层并行连接一层全连接网络层，即特征融合全连接层Fc，将各维度特征融合得到输出维度为N*5000*帧数（即预设帧数）的多维度融合特征。本发明实施例基于视频时间维度，利用Xception网络模型的输出维度为N*5000*帧数的多维度融合特征，以便后续接入LSTM网络模型进行分类。

Xception是一种深度可分离卷积神经网络，Xception主要采用深度可分离卷积代替原来的卷积操作，在基本不增加网络复杂度的前提下提高了模型的效果。本发明实施例的Xception网络模型的网络结构将各组Xception网络并接融合，进一步提高了网络模型的性能。

其中，本发明实施例的预训练的Xception网络模型的训练过程，包括以下步骤：

S42、对Deepfake视频集中的Deepfake视频和真实视频集的真实视频分别依次进行上述步骤S1至步骤S3的处理；其中，对人脸图片进行正负样本0或1标记，便于后续模型训练；

具体地，本发明实施例从时间序列维度上将一段视频不同帧状态下的图片转换成时间序列不同帧状态的特征，利用时序信息选择LSTM网络结构，经过遗忘门、输入门、输出门向前传播，再通过Sigmoid函数映射到（0，1）之间，返回最终待检测视频real&fake的结果；其中，real表示待检测视频为真实视频，fake表示待检测视频为Deepfake视频。LSTM网络模型的结构可参考现有技术，在此不赘述。

另外，本发明实施例的预训练的LSTM网络模型的训练过程，包括：

对上述步骤S42得到的人脸图片、傅里叶频谱图以及L张高通滤波图输入预训练的Xception网络模型，特征融合全连接层的输出作为LSTM网络模型的输入进行训练。具体的训练过程可参考现有技术，在此不赘述。

基于上述本发明实施例的Deepfake视频检测方法，如图7所示，本发明实施例还提供相对应的Deepfake视频检测系统，包括切分模块、人脸检测模块、特征提取模块和检测模块。

本发明实施例的切分模块用于将待检测视频按帧切分，得到n张待检测图片。其中，预设帧数为切分成n张图片间隔的时长帧数，例如预设帧数取值为10，即每隔10帧切分一张图片，直至切分至第n张图片。

本发明实施例的人脸检测模块用于对待检测图片进行人脸检测，得到人脸图片；具体地，对待检测图片进行人脸检测，提取人脸检测到的人脸部分并调整至目标尺寸，得到人脸图片A _i；

本发明实施例的特征提取模块用于对人脸图片进行特征提取，分别得到傅里叶频谱图、不同切割幅度对应的高通滤波图。

本发明实施例的不同切割幅度对应的高通滤波图的提取过程，包括以下过程：

（1）对人脸图片进行DCT变换，得到频谱图，如图2所示；

（2）以频谱图的低频数据对应的左上角为基点，分别进行K次等腰直角三角形切割以裁剪低频数据，得到K张切割后的频谱图；其中，第k次切割的等腰直角三角形的腰的长度为k*m/K，k∈[1，K]；

（3）分别将切割后的频谱图进行DCT逆变换，得到K张高通滤波图；

（4）从K张高通滤波图筛选出能够有效覆盖人脸特征出现到消散整个区间的连续L张高通滤波图；其中，L小于K。

本发明实施例的检测模块用于将人脸图片、傅里叶频谱图以及不同切割幅度对应的高通滤波图构成的特征图矩阵输入预训练的Xception网络模型，以输出多维度融合特征。

1、采集视频数据集，视频数据集包括Deepfake视频集和真实视频集；

2、对Deepfake视频集中的Deepfake视频和真实视频集的真实视频分别依次进行图片切分、人脸检测以及特征提取（具体可参考Deepfake视频检测方法中的步骤S1至步骤S3）的处理；其中，对人脸图片进行正负样本0或1标记，便于后续模型训练；

3、对人脸检测得到的人脸图片以及特征提取得到的傅里叶频谱图以及L张高通滤波图一一对应输入并联的L+2组Xception网络，各组Xception网络的全连接层的输出均输入至特征融合全连接层，并通过特征融合全连接层连接的分类层进行分类，实现训练；

4、训练完成之后，将分类层去掉，特征融合全连接层的输出作为LSTM网络模型的输入。

本发明实施例的检测模块还用于将多维度融合特征输入预训练的LSTM网络模型，以检测待检测视频是否为Deepfake视频。具体地，本发明实施例从时间序列维度上将一段视频不同帧状态下的图片转换成时间序列不同帧状态的特征，利用时序信息选择LSTM网络结构，经过遗忘门、输入门、输出门向前传播，再通过Sigmoid函数映射到（0，1）之间，返回最终待检测视频real&fake的结果；其中，real表示待检测视频为真实视频，fake表示待检测视频为Deepfake视频。LSTM网络模型的结构可参考现有技术，在此不赘述。

其中，本发明实施例的预训练的LSTM网络模型的训练过程，包括：

对人脸检测得到的人脸图片以及特征提取得到的傅里叶频谱图以及L张高通滤波图输入预训练的Xception网络模型，特征融合全连接层的输出作为LSTM网络模型的输入进行训练；具体的训练过程可参考现有技术，在此不赘述。

本发明实施例还提供一种可读存储介质，可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行上述本发明实施例的Deepfake视频检测方法。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.一种Deepfake视频检测方法，其特征在于，包括以下步骤：

S2、对待检测图片进行人脸检测，得到人脸图片；

S5、将多维度融合特征输入预训练的LSTM网络模型，以检测待检测视频是否为Deepfake视频；

所述步骤S2中，提取人脸检测到的人脸部分并调整至目标尺寸，得到人脸图片；

其中，目标尺寸为m*m像素；

所述步骤S3中，高通滤波图的提取包括：

S31、对人脸图片进行DCT变换，得到频谱图；

2.根据权利要求1所述的Deepfake视频检测方法，其特征在于，所述步骤S4中，特征图矩阵为：

3.根据权利要求2所述的Deepfake视频检测方法，其特征在于，所述步骤S4中，预训练的Xception网络模型包括并联的L+2组Xception网络，用于人脸图片、傅里叶频谱图以及L张高通滤波图一一对应输入；

4.根据权利要求3所述的Deepfake视频检测方法，其特征在于，所述预训练的Xception网络模型的训练过程，包括以下步骤：

5.根据权利要求4所述的Deepfake视频检测方法，其特征在于，所述预训练的LSTM网络模型的训练过程，包括：

6.一种Deepfake视频检测系统，应用如权利要求1-5任一项所述的Deepfake视频检测方法，其特征在于，所述Deepfake视频检测系统包括：

7.一种可读存储介质，所述可读存储介质中存储有指令，其特征在于，当指令在计算机上运行时，使得计算机执行如权利要求1-5任一项所述的Deepfake视频检测方法。