CN113609952B

CN113609952B - 基于密集卷积神经网络的深度伪造视频频域检测方法

Info

Publication number: CN113609952B
Application number: CN202110874517.3A
Authority: CN
Inventors: 孙磊; 毛秀青; 张洪蒙; 汤桂花; 郭松辉; 李作辉; 戴乐育; 郭松; 窦睿彧; 胡翠云; 赵锟; 张帅
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2023-08-15
Anticipated expiration: 2041-07-30
Also published as: CN113609952A

Abstract

本发明公开一种基于密集卷积神经网络的深度伪造视频频域检测方法，包括：步骤1，对视频进行预处理：对真实和伪造视频进行分帧处理；对所述视频中的人脸进行定位，扩大选框后进行人脸图像提取，并利用2D‑DCT变换至频域；所述伪造视频包括深度伪造视频；步骤2，构建密集卷积神经网络并基于步骤1得出的频域数据进行训练；所述密集卷积神经网络包括密集块及过渡模块；步骤3，基于训练后的密集卷积神经网络检测深度伪造视频。本发明在训练密集卷积神经网络时，以频域图像为单位对卷积神经网络检测模型进行训练，最后对频域图像检测结果融合判断后得出视频的检测结果。无论视频压缩在时域产生多少冗余特征，都不影响最终的检测效果。

Description

基于密集卷积神经网络的深度伪造视频频域检测方法

技术领域

本发明属于网络安全技术领域，尤其涉及一种基于密集卷积神经网络的深度伪造视频频域检测方法。

背景技术

极其逼真的深度伪造视频对国家安全等方方面面产生了重大威胁，在社交网络的加持下，如果被敌方恶意利用深度伪造技术针对性的生成视频，极有可能会用来操纵舆情，抹黑国家重要人物，煽动恐怖和暴力情绪，破坏社会安全和国家稳定。针对这一威胁，国内外开展的深度伪造视频的检测研究已经有了相关的模型与方法，平常社交网络上传播的视频由于带宽约束、存储空间限制等因素通常经过压缩后进行传输，而视频压缩引入的降质技术使得当前检测模型难以训练、泛化性能下降、对深度伪造人脸视频的检测准确率降低。

现有检测深度伪造假脸视频的方法，从伪造视频中变换人脸的拼接处伪影入手，构建深度视频分类器，使用真实和伪造视频的特征对其进行训练，最后使用训练好的分类器进行分类。这种方法缺陷是：对于强压缩的视频，这种方法的误判率很高，而产生这个缺陷的根本原因就是：强压缩视频中出现了大量的冗余特征，导致基于伪影分类的分类器难以捕捉有效差异特征。

发明内容

本发明针对现有检测深度伪造假脸视频的方法对于强压缩的视频误判率高的问题，提出一种基于密集卷积神经网络的深度伪造视频频域检测方法。

为了实现上述目的，本发明采用以下技术方案：

一种基于密集卷积神经网络的深度伪造视频频域检测方法，包括：

步骤1，对视频进行预处理：对真实和伪造视频进行分帧处理；对真实和伪造视频中的人脸进行定位，扩大选框后进行人脸图像提取；将提取出的人脸图像利用2D-DCT变换至频域；所述伪造视频包括深度伪造视频；

步骤2，构建密集卷积神经网络并基于步骤1得出的频域数据进行训练；所述密集卷积神经网络包括密集块及过渡模块；

步骤3，基于训练后的密集卷积神经网络检测深度伪造视频。

进一步地，所述步骤1包括：

步骤1.1：使用OpenCV对真实和伪造视频进行分帧处理；

步骤1.2：使用Dlib对真实和伪造视频中的人脸进行定位，将原始矩形框扩大1.5倍后进行人脸图像提取；

步骤1.3：将提取出的人脸图像利用2D-DCT变换至频域。

进一步地，所述步骤2包括：

步骤2.1：构建密集块，所述密集块由批量归一化层、激活函数层、卷积层构成，层与层之间采用密集连接方式，各层特征能够在输入层和输出层间高速传递；

步骤2.2：构建过渡模块，所述过渡模块由1×1的卷积层以及池化层构成；

步骤2.3：将密集块与过渡模块结合，并将卷积神经网络结构进行修改，使其能完成二分类，采用交叉熵损失函数作为损失函数，完成密集卷积神经网络构建；

步骤2.4：通过步骤1生成的频域数据训练所构建的密集卷积神经网络。

进一步地，所述步骤3包括：

步骤3.1：接收一个待检测视频；所述待检测视频包括深度伪造视频；

步骤3.2：将视频进行分帧处理；

步骤3.3：提取人脸图像后通过2D-DCT转化为频域数据；

步骤3.4：将步骤3.3中所述频域数据输入训练好的密集卷积神经网络进行检测，并输出频域数据所属视频帧的检测准确率；

步骤3.5：取所有帧检测准确率的平均值作为该视频最终的检测准确率。

与现有技术相比，本发明具有的有益效果：

本发明在训练密集卷积神经网络时，以频域图像为单位对卷积神经网络检测模型进行训练，最后对频域图像检测结果融合判断后得出视频的检测结果，无论视频压缩在时域产生多少冗余特征，都不影响最终的检测效果。

附图说明

图1为本发明实施例一种基于密集卷积神经网络的深度伪造视频频域检测方法的基本流程图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

如图1所示，一种基于密集卷积神经网络的深度伪造视频频域检测方法，包括：

步骤S101，对视频进行预处理：对真实和伪造视频进行分帧处理；对真实和伪造视频中的人脸进行定位，扩大选框后进行人脸图像提取；将提取出的人脸图像利用2D-DCT变换至频域；所述伪造视频包括深度伪造（假脸）（压缩）视频；

步骤S102，构建密集卷积神经网络并基于步骤S101得出的频域数据进行训练；所述密集卷积神经网络包括密集块及过渡模块；

步骤S103，基于训练后的密集卷积神经网络检测深度伪造（假脸）（压缩）视频。

进一步地，所述步骤S101包括：

步骤S101.1：使用OpenCV对真实和伪造视频进行分帧处理；

步骤S101.2：使用Dlib对视频中的人脸进行定位，扩大选框后进行提取，因为提取视频帧中的人脸部分可以去除不利于检测的环境干扰信息，并可以使网络更专注于人脸的细微特征提取，从而提高验证以及测试的准确率。但原始dlib定位人脸的矩形框在一定情况下并不能将全脸包裹进来，故将原始矩形框扩大1.5倍后进行提取；

步骤S101.3：将提取出的人脸图像利用二维离散余弦变换2D-DCT变换至频域，即首先沿着列计算一个DCT，然后沿着行计算一个DCT，绘制DCT频谱时将DCT系数描绘为热图。

进一步地，所述步骤S102包括：

步骤S102.1：构建密集块，所述密集块由批量归一化层、激活函数层、卷积层构成，层与层之间采用密集连接方式，各层特征能够在输入层和输出层间高速传递，确保层间信息流动的最大化；

步骤S102.2：构建过渡模块，所述过渡模块由1×1的卷积层以及池化层构成；在进行池化操作之后，输出特征图的大小改变，无法进行密集连接操作，因此在密集块之间需要以上操作进行过渡；

步骤S102.3：将密集块与过渡模块结合，并将卷积神经网络结构进行修改，使其能完成二分类，采用交叉熵损失函数作为损失函数，完成密集卷积神经网络构建；

步骤S102.4：通过步骤S101.3生成的频域数据训练所构建的密集卷积神经网络。

进一步地，所述步骤S103包括：

步骤S103.1：接收一个待检测视频；具体地，该待检测视频可以为深度伪造（假脸）（压缩）视频；

步骤S103.2：将视频进行分帧处理；

步骤S103.3：提取人脸图像后通过2D-DCT转化为频域数据；

步骤S103.4：将步骤S103.3中所述频域数据输入训练好的密集卷积神经网络进行检测，并输出频域数据所属视频帧的检测准确率；

步骤S103.5：取所有帧检测准确率的平均值作为该视频最终的检测准确率。

综上，本发明在训练密集卷积神经网络时，以频域图像为单位对卷积神经网络检测模型进行训练，最后对频域图像检测结果融合判断后得出视频的检测结果，无论视频压缩在时域产生多少冗余特征，都不影响最终的检测效果。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于密集卷积神经网络的深度伪造视频频域检测方法，其特征在于，包括：

所述步骤2包括：

步骤2.4：通过步骤1生成的频域数据训练所构建的密集卷积神经网络；

步骤3，基于训练后的密集卷积神经网络检测深度伪造视频；

所述步骤3包括：

步骤3.2：将视频进行分帧处理；

步骤3.3：提取人脸图像后通过2D-DCT转化为频域数据；

2.根据权利要求1所述的基于密集卷积神经网络的深度伪造视频频域检测方法，其特征在于，所述步骤1包括：

步骤1.1：使用OpenCV对真实和伪造视频进行分帧处理；

步骤1.3：将提取出的人脸图像利用2D-DCT变换至频域。