CN111353399A

CN111353399A - 篡改视频检测方法

Info

Publication number: CN111353399A
Application number: CN202010111043.2A
Authority: CN
Inventors: 毛震东; 张勇东; 王凯
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2020-06-30

Abstract

本发明公开了一种篡改视频检测方法，包括：对待检测视频进行分帧操作，并从分帧操作得到的连续视频帧中提取人脸区域，从而得到每一视频帧中的人脸图像；将提取到的人脸图像输入至预训练卷积神经网络模型，来提取反映人脸区域的空间不连续特性的特征；将卷积神经网络提取到的特征输入至能够捕捉时间特性的长短期记忆网络模型中，输出的人脸图像的时空特征通过softmax层来计算待检测视频是否被篡改，得到真实和篡改两个类别的概率。

Description

篡改视频检测方法

技术领域

本发明涉及网络空间安全技术领域，尤其涉及一种篡改视频检测方法。

背景技术

随着深度学习技术快速发展，越来越多的人可以利用基于机器学习的软件工具轻松篡改视频人脸，图像造假代价小，影响大，很容易造成不可预估的后果。这些逼真的虚假视频可能会制造恐慌和政治困境，虚假信息故意制造谎言然后在真相的掩护下传播，这势必将造成假新闻的泛滥和社会的恐慌，虚假视频的过度传播将会威胁群众对客观现实的信心。作为新兴的网络安全威胁载体，虚假视频因其独特的存在形式更容易让群众相信，因此一旦广泛传播则造成的后果更加严重。随着视频造假技术的不断发展，更加逼真的deepfake视频，对社会安定构成了极大的挑战。

虚假视频的泛滥以及各种不可预估的后果，也引导了许多鉴别这些虚假视频的技术方法的诞生和发展。根据人体的生理特性很难被模仿的特点，提出基于人物眼睛眨眼频率的检测进而发展到根据人物在说话时唇形的动作瑕疵明显，进一步提出的根据“软性生物识别”标签，即人们在说话时产生的头、手、眼睛和唇形等微妙变化是创造虚假视频时候暂时未考虑到的元素，以及加上对视频声音元素的分析，在一段时间内的确能准确检测出虚假视频，但是随着造假技术发展迅猛这些方法显然已经难以满足要求。传统的基于图像的检测模型例如VGG网络、facenet算法、以及结合图像质量检测和支持向量机的技术错误率极高，远远达不到实际应用的要求。

发明内容

本发明的目的是提供一种篡改视频检测方法，具有较高的检测准确度。

本发明的目的是通过以下技术方案实现的：

一种篡改视频检测方法，包括：

对待检测视频进行分帧操作，并从分帧操作得到的连续视频帧中提取人脸区域，从而得到每一视频帧中的人脸图像；

将提取到的人脸图像输入至预训练卷积神经网络模型，来提取反映人脸区域的空间不连续特性的特征；

将卷积神经网络提取到的特征输入至能够捕捉时间特性的长短期记忆网络模型中，输出的人脸图像的时空特征通过softmax层来计算待检测视频是否被篡改，得到真实和篡改两个类别的概率。

由上述本发明提供的技术方案可以看出，对视频的预处理非常简单，完全不需要人工设计和提取特征且该方法充分利用视频帧内空间特征以及视频帧间的时间特征，自动提取空间维度的视频人脸区域不一致特征以及时间维度的视频人脸区域不连续特征并进行分类，可以端到端的训练。此外，该方法不依赖特定的人类先验知识，具有更好的泛化性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种篡改视频检测方法的模型结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

为了针对日益成熟的deepfake视频篡改技术，提高视频自动化检测精度，减轻人工审核的负担，本发明实施例提供一种篡改视频检测方法，通过CNN与RNN提取视频帧内的空间特征与视频帧间的时间特征，利用时空特征能够更精确更有效的检测篡改视频。

如图1所示，为本发明实施例提供的一种篡改视频检测方法的模型结构示意图，主要包括如下三个部分：

1、视频预处理。

本发明实施例中，对待检测视频进行分帧操作，并从分帧操作得到的连续视频帧中提取人脸区域，从而得到每一视频帧中的人脸图像。

示例性的，分帧操作通过ffmpeg实现，ffmpeg为常规的计算机程序。

本发明实施例中，通过分帧操作截取连续的视频帧可以更快速更有效的判断视频是否有篡改痕迹；为了提高模型的准确性能，使用一种保守的方案，即包含人脸的指定倍数范围的区域，再进行人脸对齐，得到对应的人脸图像。

示例性的，指定倍数可以设为1.3倍，最终人脸图像的大小可以设为299×299，连续视频帧可以为N帧，N＝10。

2、人脸特征提取。

本发明实施例中，将提取到的人脸图像输入至预训练卷积神经网络模型(CNN)，来提取反映人脸区域的空间不连续特性的特征。

本发明实施例中，预训练卷积神经网络模型包括：在Imagenet分类任务上的预训练卷积神经网络模型Xception，所述Xception能够将通道关系映射和空间关系映射完全解耦，Xception使用了多个深度可分离卷积结构构成特征提取器，特征提取器内的深度可分离卷积结构(depthwise separable)使用残差连接，从而能够捕捉人脸区域的空间不连续特性的特征，Xception最后池化层输出的特征将输入至长短期记忆网络模型。

示例性的，Xception网络使用36个深度可分离卷积层来提取以构成基本的特征提取器，在Xception网络中除了第一个和最后一个模块外所有的模块均使用残差连接。简而言之，Xception网络是具有残差连接的深度可分离层的线性堆叠，它可以充分捕捉篡改后人脸图片不一致性的特征。在本示例中，使用ImageNet预训练模型输出每帧人脸区域的特征表示，去掉Xception网络顶部的全连接层，获取最后一个池化层之后的2048维特征向量。

3、篡改视频检测。

将卷积神经网络提取到的特征输入至能够捕捉时间特性的长短期记忆网络(LSTM) 模型中，输出的人脸图像的时空特征通过softmax层来计算待检测视频是否被篡改，得到真实和篡改两个类别的概率。

本发明实施例中，LSTM模型是一种RNN(循环神经网络)，它与softmax层中设有dropdout全连接层，一并构成了视频检测单元；视频检测单元的损失函数采用交叉熵损失函数。由于LSTM模型是本发明中的一个内部单元，因此可以不需要任何辅助的损失函数来进行端到端地训练。

篡改视频检测主要原理为：对于篡改的人脸视频，每帧数据人脸篡改时视频帧之间是相互独立无关的，篡改后的视频在人脸区域缺乏时间上的一致性。因此，对于篡改后的虚假视频检测，使用能够捕捉时间特性的LSTM模型来进行二分类任务识别检测。在本示例中，将Xception提取的2048维人脸区域特征输入LSTM单元，使用连续N＝10帧人脸进行篡改视频检测。在LSTM后添加一个512维的dropdout全连接层，最后使用softmax计算待检测视频是否经过篡改，最后输出至2维的全连接层使用softmax归一化可以得到真实和篡改两个类别的概率。

本发明实施例中，全连接层需要跟随网络一起训练，从而能够从时空特性来区分输入的特征，Softmax应用于分类任务是一种很常规的技术，它将多个神经元的输出通过softmax函数作用映射为0到1之间的值，并且这些值的累计和为1(满足概率性质)。比如两个神经元的输出值为0.9和0.5，通过softmax计算

i、j表示第i、j个神经元的元素进而输出值为0.599和0.401。可以理解为检测为真实视频的概率为0.599，检测为篡改视频的概率为0.401。

得到真实和篡改两个类别的概率后可以通过常规方式来确定最终检测结果，例如，通过设定的阈值来判断，在某个示例中，真实和篡改两个类别的概率为(0.99， 0.01)，也即为真实的概率是99％，被篡改的概率为1％，真实的概率大于设定的阈值 (例如90％)，则此时可以认为相应视频是真实视频。

本发明上述检测过程中，通过Xception充分提取帧内人脸区域的空间不连续特性，通过LSTM捕捉到视频帧内人脸区域的时间不一致性，充分利用视频的时空特征进行篡改视频检测，显著提升的检测准确度。

本发明实施例上述方案，可以应用于社交媒体，如微博、抖音和快手等短视频平台的后端进行篡改视频检测。在用户进行上传视频时，可以将视频通过上述方案来进行检测得到视频是否经过篡改的概率。在实际应用中，上述方案可以应用在程序的底层视频上传检测过程中，方便后台人员设置阈值进行高效率自动化审核，随后提示视频上传者进行篡改视频的显著标识，以减轻人工成本，具有较强的实用性。

为了说明本发明实施例上述方案的效果，与现有的方案进行了测试实验。

在实验中，数据集使用FaceForensics++。该数据集收集于Youtube平台，包含1000个视频进行训练与检测，并且提供1000个deepfake模型用于生成和扩充新的数据。实验结果如表1所示，可见本发明上述方案具有最好的分类效果(即检测准确度)。

采用模型	XceptionNet Full Image	MesoNet	本发明图1所示模型
				分类准确率	0.745	0.873	0.896

表1测试实验结果

表1中，XceptionNet Full Image模型仅仅使用Xception对视频帧的全部图像提取特征进行检测，分类准确率为74.5％。MesoNet模型利用少量层CNN提取图像的宏观特征与微观特征之间的中间特征进行检测，分类准确率为87.3％。而本发明图1所示模型的分类准确率可到89.6％，可见，本发明的分类优于其他现有模型。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种篡改视频检测方法，其特征在于，包括：

2.根据权利要求1所述的一种篡改视频检测方法，其特征在于，所述分帧操作通过ffmpeg实现，所提取的人脸区域为包含人脸的指定倍数范围的区域，再进行人脸对齐，得到对应的人脸图像。

3.根据权利要求1所述的一种篡改视频检测方法，其特征在于，所述预训练卷积神经网络模型包括：在Imagenet分类任务上的预训练卷积神经网络模型Xception，所述Xception能够将通道关系映射和空间关系映射完全解耦，Xception使用了多个深度可分离卷积结构构成特征提取器，特征提取器内的深度可分离卷积结构使用残差连接，从而能够捕捉人脸区域的空间不连续特性的特征，Xception最后池化层输出的特征将输入至长短期记忆网络模型。

4.根据权利要求1所述的一种篡改视频检测方法，其特征在于，长短期记忆网络模型输出的时空特征经全连接层输入至softmax层；长短期记忆网络模型、全连接层和softmax层，一并构成了视频检测单元；视频检测单元的损失函数采用交叉熵损失函数。