CN115188039A

CN115188039A - 一种基于图像频域信息的深度伪造视频技术溯源方法

Info

Publication number: CN115188039A
Application number: CN202210586229.2A
Authority: CN
Inventors: 王磊; 潘进; 张翠; 柳毅; 郎林龙; 冷彪
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-10-14

Abstract

本发明涉及一种基于图像频域信息的深度伪造视频技术溯源方法，对输入深度伪造视频进行抽帧；将抽出的图像利用RetinaFace人脸检测模型检测人脸图像，并进行人脸对齐和缩放；将裁出的人脸图像利用离散余弦傅里叶变换，裁剪算法和离散余弦傅里叶反变换获得其对应的高频频域特征；将原始人脸RGB信息和高频频域信息进行特征融合，得到融合特征；采用Xception作为主干网络进一步提取融合特征，得到对应的分类特征实现深度伪造视频技术溯源结果。本发明提高了对不同伪造技术的分类能力，提高了溯源准确率。

Description

一种基于图像频域信息的深度伪造视频技术溯源方法

技术领域

本发明涉及一种基于图像频域信息的深度伪造视频技术溯源方法，属于深度学习领域和计算机视觉领域。

背景技术

近些年，计算机视觉技术和深度神经网络技术得到飞速发展。尤其是神经网络模型中的生成式对抗网络(GAN)和变分自编码器(VAE)的发展，让图像和视频的生成取得了惊人的效果。2017年，一名国外论坛用户利用生成式对抗网络(GAN)伪造了一段以假乱真的视频，并发布到了网络上，由此该技术被人们称为深度伪造技术(Deepfake)。

具体来说，深度伪造技术主要是对人脸部分的伪造或编辑。现有的深度伪造技术主要可分为四类：重现，替换，编辑和生成。重现是使用原始人脸的行为去驱动目标人脸，使目标人脸所作的行为和原始人脸相同。替换是指将目标人脸与原始人脸进行替换。编辑则是改变目标人脸的属性，例如，更换目标人脸的年龄，性别，肤色等。生成是通过生成式对抗网络(GAN)创建完整的现实中不存在的人脸。

深度伪造技术提出早期，制作一段深度伪造视频需要制作者拥有相关的专业知识和大量的计算资源。但随着深度伪造技术的发展，一些易用的手机或者电脑软件出现在互联网中，使得没有相关专业知识和计算资源的普通大众也能使用电脑和手机轻松制作出高质量的深度伪造视频。而且由于缺少有效的筛选和审查机制，导致目前互联网上存在着大量的深度伪造视频。一些制作精良的伪造视频不仅专业人士无法准确鉴别，普通民众则是更加难以分辨视频的真伪性，更加容易受到伪造视频的误导和伤害。在重大事件或敏感问题上，深度伪造视频可能会造成严重的不良影响。因此，对深度伪造视频进行技术溯源，精确确认其制作技术或软件可以帮助工作人员从源头阻断伪造视频的传播，避免对社会造成不良影响。

现有针对深度伪造技术溯源的研究较少，目前的方法主要采用手工特征(如共生矩阵)或采用深度学习模型提取特征进行技术溯源。仅采用手工提取特征进行技术溯源，其提取特征固定，往往不能充分利用深度伪造图像中的伪造信息。深度学习模型则倾向于学习图像中的高级语义信息，不同深度伪造方法所生成的伪造人脸其高级语义信息(如人脸形状，人脸大小等)是极为相似的。因此仅采用深度学习模型对深度伪造进行技术溯源效果不理想。深度卷积网络在上采样过程中会不可避免的在图像中留下棋盘状伪影，该棋盘状伪影会造成图像高频信息的改变。而不同的伪造方法所采用不同的模型结构及训练参数，其生成的棋盘伪影也各不相同，在频域上留下的伪造痕迹具有更明显的差异。

因此，目前现有技术是单一原始图像中不同伪造方法伪造信息相似，使得溯源准确率不高。

发明内容

本发明技术要解决的问题是：克服现有技术的不足，提供一种基于图像频域信息的深度伪造视频技术溯源方法，使用频域信息对原始图像信息进行补充，将图像特征和频域特征经过一种融合方法进行融合，得到融合特征，用于深度伪造技术溯源模型对不同伪造方法进行分类。相比手工特征方法和仅深度学习方法其深度伪造技术溯源准确率得到大大提高。

本发明采用的技术方案：一种基于图像频域信息的深度伪造视频技术溯源方法，包括以下步骤：

步骤1：将输入深度伪造视频分解为视频帧并抽帧，得到抽取后的视频帧；

步骤2：对步骤1抽取的视频帧应用RetinaFace模型进行人脸检测，若视频帧中的帧图像存在人脸，则得到在该所述帧图像中人脸关键点坐标，将该所述帧图像中的人脸关键点坐标进行仿射变换与标准人脸关键点坐标对齐和缩放，然后将对齐缩放后的人脸区域裁剪得到RGB人脸图像；

步骤3：将步骤2裁剪得到的RGB人脸图像转换为灰度图像，然后利用离散余弦傅里叶变换DCT获得所述裁剪得到的RGB人脸图像对应的频域幅度图像；利用频域裁剪算法将所述频域幅度图像中的低频部分进行裁剪，只保留频域幅度图像中的高频部分，最后将裁剪后的频域图像进行离散余弦傅里叶反变换得到RGB人脸图像的高频频域特征；

步骤4：将步骤2中得到的RGB人脸图像和步骤3中得到的高频频域特征沿通道方向进行拼接，得到一个4通道的拼接特征，再将4通道拼接特征经过一个卷积核大小为1×1的卷积层在通道方向进行信息交换融合，得到4通道的频域融合特征；

步骤5：采用Xception深度卷积网络作为主干网络，以步骤4中得到的频域融合特征作为输入，最终输出一个一维的伪造痕迹特征，该所述一维的伪造痕迹特征被用于最后的特征分类；

步骤6：将步骤5得到的一维的伪造痕迹特征经过多分类系统，即由多分类全连接层构成，且每个类别的输出对应一种深度伪造技术，得到RGB人脸图像归属于各深度伪造技术的概率，最终将源自于同一视频中的RGB人脸图像输出结果进行平均融合，得出最后所述输入深度伪造视频的深度伪造技术的溯源结果。

所述步骤1中，将输入深度伪造视频分解为视频帧并抽帧，得到抽取后的视频帧，具体如下：将输入深度伪造视频分解为单帧图像，对于帧数量不低于60的视频帧，均匀抽取60帧图像，帧数量低于60的视频帧则抽取全部的视频帧。

所述步骤3，得到RGB人脸图像的高频频域特征具体如下：

利用频域裁剪算法将所述频域幅度图像中的低频部分进行裁剪，裁剪后的频域图像P_C，计算公式如下：

P_C＝F(P_B)

F为裁剪算法，将频域幅度图像P_B的左上角区域的值置为0，其中，左上角区域范围为以P_B边长的1/3长度为直角边长的等腰直角三角形，该三角形内区域为频域幅度图像的低频；

所述裁剪算法F具体如下：

首先构建裁剪遮挡，计算公式如下：

其中，H为裁剪遮挡，H_i，j为裁剪遮挡中坐标为(i，j)对应的特征点数值，为频域幅度图像P_B的边长；

然后将裁剪遮挡H与频域幅度图像P_B逐点相乘，得到高频频域幅度图像P_C，即P_C＝F(P_B)；

最后，将得到的高频频域幅度图像P_C，进行离散余弦傅里叶反变换，即得到RGB人脸图像的高频频域特征P_D。

所述步骤4中，4通道的频域融合特征为P_E，公式如下：

P_E＝R(B(Conv_1×1(Cat(P_A，P_D))))

其中，B为批归一化层Batch Normal，R为ReLU激活函数；P_A为RGB人脸图像。

所述步骤5中，采用Xception深度卷积网络作为主干网络提取得到一维的伪造痕迹特征，具体如下：

将原始Xception深度卷积网络的输入改为299×299×4，以适应步骤4的频域融合特征尺寸；以步骤4得到的频域融合特征作为修改后的Xception深度卷积网络的输入；输出得到通道数为2048的一维伪造痕迹特征。

本发明与现有技术相比的优点及功效在于：

(1)本发明在提取原始RGB图像特征的同时，引入了频域特征作为补充特征，不仅可以提取到RGB图像中的伪造痕迹，还可以获得频域中的伪造特征；利用以上两种特征可以获得一个性能优越的分类模型，用于深度伪造视频的技术溯源，在结合了图像信息和其频域信息进行深度伪造技术溯源，提高溯源的灵活性和准确性。

(2)本发明与采用手工特征的方法相比本发明利用卷积神经网络提取特征提升了特征提取的灵活性；与仅采用深度学习模型的方法相比，频域信息的引入，提高了模型对不同伪造技术的分类能力。

(3)本发明克服了现有研究技术中缺少对伪造方法进行区分溯源的问题。采用一种多分类系统对伪造视频进行技术分类，帮助相关人员更快定位视频来源，阻断其传播流程，减小恶意的人脸伪造视频对社会造成的影响。

附图说明

图1为本发明的方法的实现流程图；

图2为本发明中频域裁剪算法示意图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

如图1所示，本发明方法，共分为图像预处理、图像特征提取和特征分类三个部分，具体有以下实施步骤：

图像预处理：

步骤一：原始视频抽帧

互联网中的视频常常达到千帧以上，如对视频中的每一帧都进行检测，其时间和计算资源开销是难以承受的。因此，在该发明中，首先利用OpenCV计算机视觉软件库将视频分解为视频帧；接着，对每一段60帧以上视频抽取60帧图像，60帧以下则保留全部视频帧，用来进行深度伪造技术溯源检测，即作为溯源模型的输入图像。

步骤二：人脸检测与裁剪

深度伪造视频大多都是对人脸进行修改或伪造，其伪造痕迹主要集中在人脸区域。并且，部分视频帧图像可能存在不存在面部或者面部区域占比小的情况，这些无用的背景信息会影响到模型提取伪造痕迹特征从而影响模型的技术溯源性能。因此，为了避免背景信息对溯源的干扰，需要对视频帧进行人脸检测和裁剪。并且，视频帧中的人脸可能存在不同的角度和姿势，为了使模型关注人脸上的伪造痕迹，而不是人脸的姿势和角度，需要对检测出的人脸进行人脸对齐，保证人脸在图像中处于同一位置和大小。因此，在本发明中，首先利用RetinaFace人脸检测算法检测出视频帧图象中人脸的关键点I_A＝[x₁，y₁，x₂，y₂，x₃，y₃，x₄，y₄，x₅，y₅]，利用仿射变换将人脸对齐至标准人脸关键点I_B，得到对齐后的人脸图像P_A。

图像特征提取：

步骤三：计算人脸图像的频域图像

图像的频率信息代表着图像的灰度值在空间点中的变化率，是灰度在平面空间的梯度。首先对获取原始图像的灰度图像，再利用灰度图像进行计算，获得其频域信息，公式如下：

P_B＝D(G(P_A))

其中，G为灰度变换，将原始图像P_A转化为灰度图像。D为离散余弦变换(DCT)将灰度图像变换为频域幅度图像。其中心代表图像的低频信息，四周代表图像的高频信息。

深度伪造技术在生成伪造图像时，都需要经过上采样阶段，并且不同的技术其上采样过程各不相同，因此不同的伪造技术会在图像上留下不同的棋盘伪影。这种棋盘伪影在图像空间中变化剧烈而且图形重复，因此会在频域图像中的高频区域留下伪造痕迹。为了让模型关注其高频信息中的伪造痕迹，本发明方法将低频信息进行裁剪，公式如下：

P_C＝F(P_B)

F为裁剪算法，该算法将频域图像P_B的左上角区域的值置为0。其中，左上角区域范围为以P_B边长的1/3长度为直角边长的等腰直角三角形，该三角形内区域为频域图像的低频和中频部分。

如图2所示，具体裁剪算法如下：

首先构建裁剪遮挡，计算公式如下：

然后将裁剪遮挡H与频域幅度图像P_B逐点相乘，得到高频频域幅度图像P_C。

由于卷积神经网络无法直接处理频域图像，所以最后将P_C进行离散余弦反变换得到人脸频域特征P_D。该步骤总体公式流程如下：

P_D＝D^-1(P_C)

步骤四：结合RGB原始图像信息和频域信息

为了同时利用到原始图像中的伪造信息和频域图像的伪造信息，将原始图像和频域图像沿通道方向进行拼接得到一个4通道的拼接特征，然后经过一个卷积核大小为1*1的卷积层进一步融合这两种信息，得到4通道融合特征P_E，公式如下：

P_E＝R(B(Conv_1×1(Cat(P_A，P_D))))

其中，B为批归一化层(Batch Normal)，R为ReLU激活函数。

步骤五：提取伪造痕迹特征

利用深度卷积网络Xception作为主干网络对伪造痕迹特征进行提取。原始Xception网络输入尺寸为299×299×3，由于在本发明中融合了频域特征，其拥有4各通道，因此将原始网络的输入改为299×299×4。其最终输出的伪造痕迹特征为一维特征向量，通道数为2048。

特征分类：

步骤六：利用提取特征进行分类

然后，本发明采用了一种多的分类系统对步骤五输出的特征进行分类，其中每个类别的输出对应一种深度伪造技术。该分类系统，包含一层多分类全连接层，其输入特征维度为2048，输出特征维度为要进行技术溯源的技术种类n。最后，将多分类全连接层的输出特征经过Softmax层，其输出的是n个概率总和为1，表示该视频帧采用各技术伪造的概率。

为了得到视频整体的技术溯源结果，本发明最终将属于同一视频的检测结果进行平均计算，得到该视频采用各技术伪造的概率。

本发明可应用于真实场景的互联网视频深度伪造技术溯源，溯源分类效果准确，可以帮助相关人员准确定位视频技术方法。

总之，本发明利用一种基于频域和原始图像进行融合的深度伪造视频技术溯源方法，克服了仅采用原始图像溯源效果差的问题，提升了深度伪造视频溯源的准确性。

本发明未详细描述的部分属于本领域公知技术。

以上虽然描述了本发明的具体实施方法，但是本领域的技术人员应当理解，这些仅是举例说明，在不背离本发明原理和实现的前提下，可以对这些实施方案做出多种变更或修改，因此，本发明的保护范围由所附权利要求书限定。

Claims

1.一种基于图像频域信息的深度伪造视频技术溯源方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于图像频域信息的深度伪造视频技术溯源方法，其特征在于：所述步骤1，将输入深度伪造视频分解为视频帧并抽帧，得到抽取后的视频帧，具体如下：将输入深度伪造视频分解为单帧图像，对于帧数量不低于60的视频帧，均匀抽取60帧图像，帧数量低于60的视频帧则抽取全部的视频帧。

3.根据权利要求1所述的基于图像频域信息的深度伪造视频技术溯源方法，其特征在于，所述步骤3中，得到RGB人脸图像的高频频域特征，具体如下：

P_C＝F(P_B)

所述裁剪算法F具体如下：

首先构建裁剪遮挡，计算公式如下：

4.根据权利要求1所述的基于图像频域信息的深度伪造视频技术溯源方法，其特征在于：所述步骤4中，4通道的频域融合特征为P_E，公式如下：

P_E＝R(B(Conv_1×1(Cat(P_A，P_D))))

5.根据权利要求1所述的基于图像频域信息的深度伪造视频技术溯源方法，其特征在于：所述步骤5中，采用Xception深度卷积网络作为主干网络提取得到一维的伪造痕迹特征，具体如下：