CN109635791A

CN109635791A - 一种基于深度学习的视频取证方法

Info

Publication number: CN109635791A
Application number: CN201910082603.3A
Authority: CN
Inventors: 曾吉申; 谭舜泉; 莫显博; 李斌; 黄继武
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-04-16
Anticipated expiration: 2039-01-28
Also published as: CN109635791B

Abstract

本发明涉及视频取证技术领域，公开了一种基于深度学习的视频取证方法，包括：获取所需分析的数据集；应用三维卷积神经网络聚合所述数据集中的视频帧，以捕获帧间时间运动的固有属性，输出特征立方体；应用二维卷积神经网络，以所述特征立方体作为输入，聚合视频帧，以捕获每帧的帧内空间信息，为每个视频帧输出相应的一维向量；应用长短期记忆网络聚合所述二维卷积神经网络输出的一维向量，输出视频取证结果。本发明实施例在基于对象的篡改视频的取证工作上应用三维卷积神经网络、二维卷积神经网络、双向长短期记忆网络以及高通滤波器层，成功实现了端到端的的取证框架，并且取得了比基于人工设计特征的取证算法更好的分类正确率。

Description

一种基于深度学习的视频取证方法

技术领域

本发明涉及视频取证技术领域，尤其涉及一种基于深度学习的视频取证方法。

背景技术

过去十年我们见证了具有先进编码格式的视频的普及，例如互联网上流行的H.264和H.265格式。然而，随之而来的快速发展的视频处理工具使视频篡改比以往更容易和更常见。被篡改甚至恶意伪造的视频一旦被采纳为证据，将严重损害司法程序的公平性和声誉。因此，旨在检测视频内容的真实性和原创性的被动视频取证技术对社会越来越重要，而且已成为研究的热点。

对于具有高级编码格式的视频来说，被动的取证技术通常会分析视频篡改后的副作用(例如二次压缩)，或者检测所谓的帧间伪造(指增加或者删除帧)。Chen，Zhang等人提出了多种检测高级编码视频二次压缩的方法。 Liu，Girono等第一次提出了检测H.264视频帧间伪造的方法。Feng提出了检测运动自适应视频帧删除的方法。Kingra提出了基于运动和亮度残差的帧间篡改视频的检测方法。Jia提出了一种检测特定类型的帧间伪造(帧复制-移动伪造)的方法。

在过去几年中，越来越多的注意力集中在一种特定类型的帧内伪造的取证上，即在具有高级编码格式的视频中的施加基于对象的伪造，在视频场景添加了新的对象或从中删除现有对象。因为在视频中删除或新增物体将会严重篡改视频传递的原始信息。所以，检测这种基于对象的具有高级编码格式的篡改视频对于实际应用具有重大的意义。针对基于对象的篡改视频的早期取证算法都是原始的，旨在对简单篡改或简化场景，特定物体的操作进行取证分析。

Tan等人开发了一种利用具备先进的H.264编码的基于对象的篡改视频的自动识别和伪造片段定位方法。在他们的方法中，通过特定的共谋操作从目标视频帧序列中提取运动残差进行分析。

在现代GPU设备的支持下，大规模的训练数据和端到端的深度学习方法给视频取证提供了新的思路。但是，这些检测方法的准确率有待提高。

发明内容

本发明的目的在于提供一种基于深度学习的视频取证方法，以很高的准确率去检测一个视频是否为基于对象的篡改视频。

为达此目的，本发明采用以下技术方案：

一种基于深度学习的视频取证方法，包括：

获取所需分析的数据集，所述数据集包含原始/基于对象篡改视频；

应用三维卷积神经网络聚合所述数据集中的视频帧，以捕获帧间时间运动的固有属性，输出特征立方体；

应用二维卷积神经网络，以所述特征立方体作为输入，聚合视频帧，以捕获每帧的帧内空间信息，为每个视频帧输出相应的一维向量；

应用长短期记忆网络聚合所述二维卷积神经网络输出的一维向量，输出视频取证结果。

可选的，所述二维卷积神经网络包括输入层、高通滤波器层、卷积层、池化层、全连接层和输出层。

可选的，所述高通滤波器层包括30个5*5的SRM高通滤波器。

可选的，所述长短期记忆网络为多层双向长短期记忆网络。

可选的，所述多层双向长短期记忆网络具体为四层双向长短期记忆网络。

可选的，所述四层双向长短期记忆网络中，每层包含800个长短期记忆网络单元；所述二维卷积神经网络包括800个输出，所述800个长短期记忆网络单元与所述800个输出一一对应。

可选的，所述视频取证方法中，所述三维卷积神经网络和二维卷积神经网络，与所述长短期记忆网络分别训练。

可选的，对于所述三维卷积神经网络和二维卷积神经网络，采用随机梯度下降优化器训练；对于所述长短期记忆网络，采用自适应矩估计训练。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例在基于对象的篡改视频的取证工作上应用三维卷积神经网络、二维卷积神经网络、双向长短期记忆网络以及高通滤波器层，成功实现了端到端的的取证框架，并且取得了比基于人工设计特征的取证算法更好的分类正确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为现有的基于对象的篡改视频生成过程示意图；

图2为长短期记忆网络卷积核内部结构视图；

图3为双向长短期记忆网络架构视图；

图4为本发明实施例提供的网络架构示意图；

图5为本发明实施例提供的二维卷积神经网络的具体结构示意图；

图6为本发明实施例提供的在SYSU-OBJFORG数据集上本发明与其他方法的性能对比视图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

首先，明确一下基于对象的篡改视频的概念。如图1所示。

伪造者想要在原始视频上去掉一个人，他并不能直接在GOP结构上操作，而是需要将视频解压，得到独立的帧，再在每一帧上抹除那个人，最后将独立的帧重新压缩为视频。这里需要注意的是，在伪造的视频中，每一帧无论有没有被篡改，都已经被二次压缩。所以即使是那些没有被篡改的帧也会留下一些视频篡改的影响，尽管在人眼看来，它们并没有被改变。

在具有高级编码格式的视频中，基于对象的伪造程序的“解压缩然后重新压缩”风格使得篡改视频的GOP结构的特征与未篡改的二次压缩视频的特征难以区分。所以，目前的一些基于对象的取证算法处理的目标是单独的帧而不是视频。

本发明接下来将阐述如何在取证中应用深度学习，使得检测对象由从前的帧变为视频数据流。

卷积神经网络通常用于模式识别，它的核心是卷积层，正则化层(例如批正则化层)以及池化层。在卷积层的后面，通常是全连接层。一个典型的二维卷积神经网络为例子说明，假设L代表网络的第L层，包含M*N大小的卷积核，输入K个特征，则第L层的第J个输出结果O(x,y)的运算如公式 (1)所示：

其中，W代表卷积核的权值，B代表偏置。

在视频分析中，不应该仅仅考虑帧内的二维信息，还应该考虑第三维，即帧间时间运动。三维卷积核的计算公式如公式(2)所示。

RNN(递归神经网络)可以利用其内部状态处理输入序列，这允许它对时间序列的动态时间行为进行建模，例如，在给定视频剪辑中对帧间时间运动进行建模。RNN卷积核的运算公式如公式(3)所示。

在工作中，利用所谓的双向长短期记忆网络。在双向长短期记忆网络中，给定长短期记忆网络层中的单元在两个方向上运算，一个用于正时间方向，另一个用于负时间方向。总体架构如图2和图3所示。

在此基础上，本发明实施例搭建了一个三阶段的混合深度学习神经网络。如图4所示，包括三个部分：

一、三维卷积神经网络：使用三维卷积核在时间轴上聚合视频帧，以捕获帧间时间运动的固有属性，输出特征立方体。

二、二维卷积神经网络：具有大量二维卷积核的二维卷积神经网络，其将三维卷积神经网络中三维卷积层的输出特征立方体作为输入，并为每个视频帧输出相应的一维向量。二维卷积内核应用于聚合视频帧，以捕获每帧的帧内空间信息。

上述的三维卷积神经网络和二维卷积神经网络构成了本发明实施例网络框架中的卷积神经网络部分。

三、双向长短期记忆网络：用于进一步时间信息建模的双向长短期记忆网络。在该阶段，多层双向长短期记忆网络进一步在时间轴上聚合底部二维卷积神经网络的输出一维向量。

整个网络可以视为一个端对端的视频取证模型。其中卷积神经网络部分和长短期记忆网络部分分开训练。其中本发明的二维卷积层部分应用了隐写分析领域的背景知识，在输入层后加上了高通滤波器层，由30个5*5的SRM 高通滤波器构成。剩下的部分跟一般的二维卷积神经网络类似。具体结构如图5所示。

本实施例中，网络框架采用了四层双向长短期记忆网络。在顶部四层双向长短期记忆网络中，每层包含800个长短期记忆网络单元。800个长短期记忆网络单元一对一对应于二维卷积神经网络输出的800个输出。当训练顶部双向长短期记忆网络时，输入是二维卷积神经网络的800维输出向量。将长短期记忆网络记忆长度设置为L，输入向量维度是800×L。

实验结果

本发明的模型是用Tensorflow平台实现的。

对于卷积网络部分，训练采用随机梯度下降优化器，学习率更新策略是指数衰减，衰减率设置为0.9，衰减步长设置为5,000。最大循环次数是200000，批大小是20，三维卷积核大小是3*3*9。为了从给定的视频剪辑生成3D帧立方体，逐帧的大小为T的窗口在视频剪辑的时间轴上滑动。

对于长短期记忆网络部分，训练使用自适应矩估计，学习速率是0.001，批大小是100，最大循环次数是300000。长短期记忆网络记忆长度是9。

本发明所使用的数据集是SYSU-OBJFORG，数据集含有100对原始/基于对象篡改视频，数据量是3Mbits/s，1280*720p，基于H.264/MPEG-4编码而成。篡改视频含有增加，删除，移动视频中对象等操作。同样，SYSU-OBJFORG 的低分辨率版本(360p)也用于实验。

实验时，随机抽取50％的数据形成训练集，剩下的50％用于测试。由于长短期记忆网络难以训练，所以本实施例采取的策略是：训练五个不同初始化的长短期记忆网络，最终的结果由5个模型投票决定。

实验中用到的衡量模型性能指标定义见表一。

表一：衡量指标的定义

为了证明本发明的性能效果，我们比较模型中三个部分组合的效果。实验在SYSU-OBJFORG数据集上进行。为简单起见，T(底部三维卷积核的时间维度的长度)和L(顶部双向长短期记忆网络的记忆长度)都设置为9。J+ SRM+集成分类器的性能指标在此列为基线。我们可以观察到，与基线相比，只使用CNN性能较差。只有当输入运动残差时，纯CNN部分的检测性能才会提升。但是，它实际上不是端到端的解决方案。我们提出的框架，一个纯粹的端到端解决方案，比它表现更好，并实现最佳性能。此外，根据实验结果，我们提出的框架的所有其他替代方案，包括移除了底部三维卷积神经网络层，移除了顶部双向长短期记忆网络，单向长短期记忆网络取代双向长短期记忆网络的替代方案，都不如我们提出的框架。

详细结果见于表二。

表二：各种替代方案、J+SRM、本发明性能对比

设置底部三维卷积层和高通滤波器层在初始化后可以学习或不学习。实验在SYSU-OBJFORG数据集上进行。双向长短期记忆网络的存储长度和三维卷积核的时间维度的长度设置为9。

实验结果如表三所示。

表三：设置三维卷积层和高通滤波器层可以学习与否的性能对比

结果表明，三维卷积层和高通滤波器层都设置为学习可以提升性能。

将本发明的方法与前人的工作对比，本发明的性能也具有明显的优势，如图6所示。其中，PFACC:原始帧分类正确率；DFACC:二次压缩帧分类正确率；FFACC:篡改帧分类正确率；FACC:帧分类正确率；Precision:篡改帧精确率；Recall：篡改帧召回率；F1Score：2*篡改帧精确率*篡改帧召回率/(篡改帧精确率+篡改帧召回率)。

综上，本发明实施例在基于对象的篡改视频的取证工作上应用三维卷积神经网络、二维卷积神经网络、双向长短期记忆网络以及高通滤波器层，成功实现了端到端的的取证框架，并且取得了比基于人工设计特征的取证算法更好的分类正确率。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度学习的视频取证方法，其特征在于，所述视频取证方法包括：

2.根据权利要求1所述的基于深度学习的视频取证方法，其特征在于，所述二维卷积神经网络包括输入层、高通滤波器层、卷积层、池化层、全连接层和输出层。

3.根据权利要求2所述的基于深度学习的视频取证方法，其特征在于，所述高通滤波器层包括30个5*5的SRM高通滤波器。

4.根据权利要求1所述的基于深度学习的视频取证方法，其特征在于，所述长短期记忆网络为多层双向长短期记忆网络。

5.根据权利要求4所述的基于深度学习的视频取证方法，其特征在于，所述多层双向长短期记忆网络具体为四层双向长短期记忆网络。

6.根据权利要求5所述的基于深度学习的视频取证方法，其特征在于，所述四层双向长短期记忆网络中，每层包含800个长短期记忆网络单元；所述二维卷积神经网络包括800个输出，所述800个长短期记忆网络单元与所述800个输出一一对应。

7.根据权利要求1所述的基于深度学习的视频取证方法，其特征在于，所述视频取证方法中，所述三维卷积神经网络和二维卷积神经网络，与所述长短期记忆网络分别训练。

8.根据权利要求7所述的基于深度学习的视频取证方法，其特征在于，对于所述三维卷积神经网络和二维卷积神经网络，采用随机梯度下降优化器训练；对于所述长短期记忆网络，采用自适应矩估计训练。