CN113723186A

CN113723186A - 基于时空三叉戟网络的监控视频篡改检测系统及方法

Info

Publication number: CN113723186A
Application number: CN202110847748.5A
Authority: CN
Inventors: 洪晟; 周子奕; 张明明; 蒋亚卓; 周博瑞
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-11-30
Anticipated expiration: 2041-07-27
Also published as: CN113723186B

Abstract

本发明属于视频篡改检测技术领域，涉及一种基于时空三叉戟网络的监控视频篡改检测系统及方法，在时域和空域上实现了对监控视频篡改的双重定位。该方法步骤包括：包括视频帧序列数据预处理、并将处理后的数据分别经过时域三叉戟分类网络和空域三叉戟定位网络进行训练；将待检测视频解码为视频帧序列，帧序列经过数据预处理模块处理后，再输入时域三叉戟分类网络进行篡改帧时域定位，输入空域三叉戟定位网络进行篡改区域空间定位。本发明能实现对监控视频篡改的时空域定位，相比于现有其他算法具有更高的准确率，并实现了广域化定量取证，具有更高的应用价值。

Description

基于时空三叉戟网络的监控视频篡改检测系统及方法

技术领域

本发明属于视频篡改检测技术领域，涉及一种基于时空三叉戟网络的监控视频篡改检测系统及方法。

背景技术

随着互联网的发展与多媒体技术的日渐成熟，数字多媒体正通过网络、智能手机以及其他的渠道影响着人们的日常生活。数字图像与视频已经成为人们获取信息的主要途径，广泛应用于新闻、娱乐、商业和法庭证据等方面。与此同时，功能强大的多媒体编辑软件的不断出现也使得修改数字图像和视频变得简单。用户可以轻而易举地对图像或视频内容进行编辑，使人难辨真假。如果有心之人将大量经过篡改的多媒体文件在网络上传播，轻则捏造虚假新闻混淆视听，重则破坏司法公正，甚至影响国家安定。针对视频篡改检测技术的研究，在保护网络安全方面具有重大战略意义。

作为国家信息服务基础设施，增强监控系统的安全性已刻不容缓。监控视频相比于普通视频具有更丰富的储存信息，上述信息无论是在舆情影响方面，还是在司法取证领域都发挥着巨大的作用。在现有技术中，针对监控视频的篡改检测技术较少，这些技术或是基于噪声模式提取特征，或是基于像素相关性识别前后像素特征的一致性，但总体检测的准确度不高，无法实现对视频篡改的定量检测与定位，被篡改的监控视频将完全失去法律价值，这种处理无异于因噎废食。因此十分有必要设计出能同时在时空维度对篡改精准定位的算法，以实现对监控视频篡改的定量分析，最大限度保证被篡改监控视频中未篡改信息的法律效力。

发明内容

为了克服现有技术的缺陷与不足，本发明提供一种基于时空三叉戟网络的监控视频篡改检测系统。

本发明的第二目的在于：提供一种基于时空三叉戟网络的监控视频篡改检测方法。

为了达到上述目的，本发明采以下技术方案：

一种基于时空三叉戟网络的监控视频篡改检测系统，

所述基于时空三叉戟网络的监控视频篡改检测系统基于时空三叉戟网络模型；

所述基于时空三叉戟网络的监控视频篡改检测系统包括：数据预处理模块、时域三叉戟分类网络和空域三叉戟定位网络；

所述数据预处理模块包括：时域预处理模块和空域预处理模块；

所述时域三叉戟分类网络包括：时域C3D特征提取模块和时域定位分类模块；

所述空域三叉戟定位网络包括：框回归器RPN、空域C3D特征提取模块和空域定位模块；

所述时域预处理模块与时域C3D特征提取模块连接，所述时域C3D特征提取模块与时域定位分类模块连接，所述时域定位分类模块与空域预处理模块连接，所述空域预处理模块与空域C3D特征提取模块连接，所述空域C3D特征提取模块连接与框回归器RPN连接，所述框回归器RPN与空域定位模块连接；

所述时域预处理模块用于：时域预处理，将待测监控视频解压成视频帧序列，并对其进行裁剪，以保证时空三叉戟网络模型能学习到连续视频帧序列之间的固有特征，并对视频帧序列进行增强；

所述空域预处理模块无需对输入帧序列进行裁剪，而是通过水平翻转、垂直翻转和水平垂直翻转进行视频帧序列增强；

所述时域C3D特征提取模块用于：提取输入视频帧序列的时间维度的特征；

所述时域定位分类模块用于：通过二分类器，在时间维度对篡改帧进行定位；

所述框回归器RPN用于：生成篡改区域框；

所述空域C3D特征提取模块用于：得到预测篡改框图以及每个预测篡改框图对应的置信度；

所述空域定位模块用于：判断输入的连续五帧篡改帧的具体篡改位置。

在上述技术方案的基础上，所述时域预处理模块首先将待测视频分解成视频帧序列，具体是通过使用opencv第三方库将待测视频分解成视频帧序列。

一种基于时空三叉戟网络的监控视频篡改检测方法，包括以下步骤：

S1、训练时空三叉戟网络模型；

S2、采用样本实例测试时空三叉戟网络模型；

所述样本实例为：完整视频；

所述步骤S1具体包括以下步骤：

S11：视频预处理；

时域定位网络和空域定位网络对输入数据有不同的要求，因此数据预处理模块在时空域两种网络上会对原始数据采取不同的增强策略。

利用时域预处理模块对训练数据集进行时域预处理，得到对应的训练集帧序列数据；

利用空域预处理模块对训练数据集进行空域预处理，得到对应的训练集帧序列数据；

S12：设计并构建时域三叉戟分类网络，将时域预处理得到的训练集帧序列数据输入时域三叉戟分类网络；

训练集帧序列数据经过时域C3D特征提取模块和时域定位分类模块的处理，以实现对训练集帧序列中的篡改帧进行时间坐标定位；

S13：采用滑动窗口算法以消除个别错误对预测结果的影响，并将时间坐标定位结果与原有篡改帧的时域标记进行比对，计算篡改帧时间坐标定位结果的准确率；

S14：设计并构建空域三叉戟定位网络，将空域预处理得到的训练集帧序列数据输入空域三叉戟定位网络；

训练集帧序列数据经过空域C3D特征提取模块、框回归器RPN和空域定位模块的处理，以实现对篡改帧序列中的篡改区域进行空间坐标定位；

S15：将空间坐标定位结果与原有篡改帧的空域标记进行比对，计算定位区域与真实篡改区域的交互比；

S16、获得优化的时空三叉戟网络模型；

所述步骤S2具体包括以下步骤：

S21：先将样本实例解码为视频帧序列，接着进行时域预处理；

S22：将时域预处理后的数据输入时域三叉戟分类网络；

时域预处理后的数据经过时域C3D特征提取模块和时域定位分类模块的处理，以得到输入视频帧序列中的篡改帧的时间坐标定位；

S23：根据篡改帧的时间坐标定位结果获取对应的篡改帧序列，并将其输入空域预处理模块，进行数据增强操作；

S24：将空域预处理模块处理后的数据输入空域三叉戟定位网络；输入数据依次经过空域C3D特征提取模块、框回归器RPN和空域定位模块的处理，以实现对篡改帧序列中的篡改区域的空间坐标定位。

在上述技术方案的基础上，在所述时域预处理中，采用时域定位的数据集标签处理策略“X”标注法，具体步骤如下：

首先将每连续五帧视频的中间帧Frame_t设置为目标帧，并将目标帧的前两帧Frame_t-2和Frame_t-1和目标帧的后两帧Frame_t+1和Frame_t+2设置为辅助帧，目标帧的标签值取决于其前后的辅助帧与它本身的类型；

然后，将连续五帧视频通过三叉戟分类网络分为3个连续三帧视频的结构；

对于连续三帧视频：若三帧全为篡改帧，则三帧的标签值设为1；若三帧全为原始帧，则三帧的标签值设为0；若三帧既包含原始帧，又包含篡改帧，则三帧的标签值设为X；连续五帧的标签值与其帧结构{Branch₁，Branch₂，Branch₃}对应关系如表1所示，

表1连续五帧的标签值与其帧结构的对应关系表

在上述技术方案的基础上，时域三叉戟分类网络和空域三叉戟定位网络对输入数据有不同的要求，因此数据预处理模块在时空域两种网络上会对原始数据采取不同的增强策略。具体作法为：对于时域定位，由于视频数据集中未篡改帧与篡改帧的比例约为13：3，类别的不平衡将直接影响深度学习算法的训练效果。本申请将采用非对称数据增强策略，将2种视频帧按帧数的相反比例进行裁剪，并打包。对于空域定位，篡改帧内的定位在完整的帧图像中进行，因此，空域预处理模块不对输入图像帧进行裁剪，而是通过水平翻转、垂直翻转和水平垂直翻转来进行数据集增强。

在上述技术方案的基础上，在所述时域预处理中，采用数据集增强策略，具体步骤如下：

对于连续原始帧，统一按照均匀步长进行左、中、右三次裁剪，并且在横坐标上进行随机像素的微小偏移，以避免时空三叉戟网络模型训练中对于边缘特点的过度学习。连续的5帧裁剪位置需保持严格一致，以保证时空三叉戟网络模型能学习到连续原始帧之间的固有特征。

对于某一帧Frame_i，其保留框坐标为(x_i1，x_i2，y_i1，y_i2)，那么对于输入的连续5帧，其保留框坐标如式(1)-(4)所示，

X_min＝min(x₁₁，x₂₁，x₃₁，x₄₁，x₅₁) (1)

X_max＝max(x₁₂，x₂₂，x₃₂，x₄₂，x₅₂) (2)

Y_min＝min(y₁₂，y₂₂，y₃₂，y₄₂，y₅₂) (3)

Y_max＝max(y₁₁，y₂₁，y₃₁，y₄₁，y₅₁) (4)

则{X_min，X_max，Y_min，Y_max}为不可裁剪区域。

在所述空域预处理中，采用数据集增强策略，具体步骤如下：

对于训练数据集，连续5帧篡改帧同时采取水平翻转、垂直翻转、水平垂直翻转进行数据增强；对于样本实例，则无需进行翻转；

设视频篡改帧宽为W，高为H，篡改区域坐标为(x₁，y₁，x₂，y₂)，则水平翻转后为(W-x₂，y₁，W-x₁，y₂)，垂直翻转后为(x₁，H-y₂，x₂，H-y₁)，水平垂直翻转后为(W-x₂，H-y₂，W-x₁，H-y₁)。

在上述技术方案的基础上，所述时域C3D特征提取模块包括：3个3D卷积层、3个3D最大池化层、1个2D最大池化层、2个2D卷积层、1个2D平均池化层和1个全连接层；

所述3个3D卷积层的卷积核维度均设置为[3,3,3]，步长均设置为[1,1,1]；所述2个2D卷积层的卷积核维度均设置为[1,1]，步长均设置为[1,1]；所述3个3D最大池化层的池化大小均为[2,5,5]，步长均设置为[2,2,2]；所述2D最大池化层的池化大小为[5,5]，步长设置为[2,2]，2D平均池化层的池化大小为[23,23],步长为[23,23]；

分别在所述3个3D卷积层后和2个2D卷积层后均采用BN层对数据进行归一化处理，激活函数均使用“relu”；

所述空域C3D特征提取模块包括：3个3D卷积层、3个3D最大池化层、3个2D卷积层和1个全连接层；所述3个3D卷积层的卷积核维度均设置为[3,3,3]，步长均设置为[1,1,1]；所述3个2D卷积层的卷积核维度均设置为[1,1]，步长均设置为[1,1]；所述3个3D最大池化层的池化大小均为[2,5,5]，步长均设置为[2,2,2]；

分别在所述3个3D卷积层和3个2D卷积层后均采用BN层对数据进行归一化处理，激活函数均使用“relu”。

在上述技术方案的基础上，所述时域定位分类模块判断输入的连续五帧是否为篡改帧，具体步骤如下：

将输入数据分成三叉戟的三个分支，分别输入至时域C3D特征提取模块中，输出128维的特征向量，经过BiLSTM解码器输出至全连接层中；全连接层采用“softmax”激活函数，最终输出二维向量，判断是否为篡改帧。

在上述技术方案的基础上，所述采用滑动窗口算法以消除个别错误对预测结果的影响，具体包括以下步骤：

首先将目标视频进行裁剪，将每连续5帧视频进行左、中、右3次裁剪；

将裁剪后的视频输入训练好的时空三叉戟网络模型中，获取预测结果；如果5帧视频的不同裁剪中有一次裁剪的预测结果为篡改，则将中间帧标记为篡改帧；然后使用滑动窗口算法对标记的篡改帧进行处理；如果连续9帧视频中有不少于8帧被标记为篡改视频，则将这9帧都标记为篡改帧。

在上述技术方案的基础上，所述空域定位模块判断输入的连续五帧篡改帧的具体篡改位置，具体包括以下步骤：

首先将输入数据分成三叉戟的三个分支，分别输入至空域C3D特征提取模块中，得到预测篡改框图以及每个预测篡改框图对应的置信度，再将所有的预测篡改框图输入至框回归器RPN中，最终得到篡改框图的位置以及对应的置信度。

在上述技术方案的基础上，所述得到预测篡改框图的具体步骤为：

空域C3D特征提取模块中的特征图维度为45×80×64，即可以看作45×80的64通道图像，对于特征图上的每一个特征点，都映射回输入原图中的一个像素点，以特征点为中心，预先设定k＝9个候选窗口，则k＝9个候选窗口就称为上述特征点生成的k个anchorboxes(即anchor框)；

考虑9个可能的候选窗口由三种基本边长度{128,256,512}和三种比例{1:1,1:2,2:1}排列组合而成，组合的9个候选窗口面积大小结果为{128×128,128×256,256×128,256×256,256×512,512×512}，得到的anchor数为45×80×9＝32400个；

将每一个特征点通过CLS Layer卷积层，用Softmax激活函数对每个特征点生成2k个输出值，即每一个anchor对应2个输出值，分别对应其为正向框和负向框的概率；

每一个特征点又通过reg layer卷积层生成4k个检测框的预测值，每一个anchor对应四个输出值为(x,y,w,h)；其中，(x,y)表示中心点坐标，w表示长度，h表示宽度；

提取的检测框往往会和篡改区域实际位置有一定的差异，同时提取到的检测框会存在长宽比例单一的问题，因此需要对其进行调整。

给定anchor坐标为A＝(A_x,A_y,A_w,A_h)，给定篡改框区域为GT＝(G_x,G_y,G_w,G_h)，需要寻找变换F，使得满足式(5)，

F(A_x,A_y,A_w,A_h)＝(G_x',G_y',G_w',G_h')≈(G_x,G_y,G_w,G_h) (5)

寻找变换F的具体步骤如下：

先进行平移操作，如式(6)和(7)所示，

G_x'＝A_w·d_x(A)+A_x (6)

G_y'＝A_h·d_y(A)+A_y (7)

再进行缩放操作，如式(8)和(9)所示，

G_w'＝A_w·exp(d_w(A)) (8)

G_h'＝A_h·exp(d_h(A)) (9)

其中，d_x(A)、d_y(A)、d_w(A)和d_h(A)均是需要训练的参数；

对于边界框回归损失函数，使用以下4个坐标的参数化，如式(10)-(17)所示，

t_x＝(x-x_a)/w_a (10)

t_y＝(y-y_a)/h_a (11)

t_w＝ln(w/w_a) (12)

t_h＝ln(h/h_a) (13)

t_x ^*＝(x^*-x_a)/w_a (14)

t_y ^*＝(y^*-y_a)/h_a (15)

t_w ^*＝ln(w^*/w_a) (16)

t_h ^*＝ln(h^*/h_a) (17)

其中，x表示预测框中心点的横坐标，y表示预测框中心点的纵坐标，w表示预测框长度，h表示预测框宽度；x_a表示anchor框中心点的横坐标，y_a表示anchor框中心点的纵坐标，w_a表示anchor框长度，h_a表示anchor框宽度；x^*表示真实篡改框框中心点的横坐标，y^*表示真实篡改框框中心点的纵坐标，w^*表示真实篡改框框长度，h^*表示真实篡改框框宽度。

在上述技术方案的基础上，所述框回归器RPN采用非极大值抑制算法(NMS)，挑选出预测篡改框的位置，候选矩形框的值为RPN框回归器所输出的对应置信度，具体步骤如下：

将所有框按照置信度排序，选中置信度最高的框；

遍历剩余的框，如果和当前分框的交并比(IOU)大于一定阈值，则将该框删除；

从剩余框中选择置信度最高的框，重复上述过程。

所述空域三叉戟定位网络训练采用的损失函数如式(18)所示，

其中，N_cls是训练中一个batch的样本数量，这里使用一个batch为128，也是指随机抽取的前景框(与篡改标注框交互比大于0.8)和背景框(与篡改标注框交互比小于0.2)的视频帧总数，i是anchor框下标，L_cls是对其中每一个框二分类的损失函数，N_reg是anchor框位置的个数，也是抽取的框中前景框的数量，L_reg是预测框与真实篡改区域标注框之间误差的损失函数，这里使用SmoothL1 loss。t_i是预测框相对于第i个anchor框的边界框回归参数，

指真实篡改框相对于第i个anchor框的边界框回归参数。p_i表示第i个anchor框预测为前景框(与篡改标注框交互比大于0.8)的概率，

取值如下：当第i个anchor框为前景框时为1，当第i个anchor框为背景框(与篡改标注框交互比小于0.2)时为0；λ为常数，可取常数10。其中SmoothL1loss如公式(19)所示，

本发明的有益技术效果如下：

(1)实现基于时空域联合的视频篡改帧定位。本发明对视频篡改的时域和空域联合定位兼具视频篡改帧的检测和帧内篡改区域的定位，篡改检测结果也具有更强的专业性和权威性。与传统篡改检测技术相比，本发明具备更多维度的篡改定位，解决了传统篡改检测技术只能对篡改定性分析的困境和被篡改的监控视频完全失去价值的问题，既保证了被篡改监控视频法律效力的最大化，又实现了篡改修复工作量的最小化。

(2)提出三叉戟网络结构，充分提取篡改痕迹的连续性特征。在数据集处理中，本发明提出三叉戟结构，将连续五帧进一步裁剪为三个分支，单独输入后续的定位网络来训练。传统方法只是对每一帧的数据进行处理后，输入到神经网络中，没有考虑相邻帧间的相关性特征。与传统篡改检测技术相比，这种三叉戟网络结构可以充分利用连续帧之间的相关性和连续性特征作为时空域定位的一部分特征值，有效地提高了视频篡改检测的准确率和高效性。

(3)实现视频篡改广域化取证。一方面表示检测算法与待检测视频对象的篡改方式没有线性联系，打破了篡改方式带来的原理桎梏；另一方面表示空域定位中对检测对象并没有特定类型的限制，实现了人物同检。与传统篡改检测技术相比，本发明提取的视频帧序列特征属于视频信息的固有指纹，因此检测时无须指定待测视频的篡改方式和检测对象，篡改方式和篡改对象的广域化取证提升了其对于监控视频对象篡改取证的通用性，极大程度丰富本申请技术方案的应用场景和现实价值。

(4)实现视频研判主客观协同处理。人眼对视频流进行篡改判断十分困难；计算机则无法根据篡改结果衡量其危害。本系统在定位篡改帧基础上实现了对篡改帧内具体区域的客观定位，极大降低了专业人员对篡改影响进行评估的门槛，在视频研判中实现主客观协同，有效增强研判效果。

(5)提出了一种“X”标注法，使得篡改帧边界的判断更为准确。传统方法只能对连续的篡改帧或原始帧进行训练，与传统篡改检测技术相比，本发明提出的“X”标注法，通过中间帧与邻近帧的属性对中间帧的标签值进行设置，更好地解决了篡改临界点难判断的问题。

(6)在空域上能有效地检测出视频的篡改位置，同时通过RPN框选择器(即框回归器RPN)，能快速生成候选框，提高了空域定位的准确度以及效率。

附图说明

本发明有如下附图：

图1为基于时空三叉戟网络的监控视频篡改检测方法流程示意图；

图2为数据预处理模块的算法结构示意图；

图3为时域三叉戟分类网络结构示意图；

图4为时域C3D特征提取网络结构示意图；

图5为空域三叉戟定位网络结构示意图；

图6为空域C3D特征提取网络结构示意图；

图7为时域定位测试结果分析示意图；

图8为空域定位测试篡改帧检测对比示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请的技术方案，下面将结合本申请实施例中的附图对本申请的技术方案进行清楚和完整地描述。

如图1-8所示，本申请实施例中一种基于时空三叉戟网络的监控视频篡改检测方法，包括以下步骤：

步骤一：构建时空三叉戟网络模型；

所述时空三叉戟网络模型包括：数据预处理模块、时域三叉戟分类网络和空域三叉戟定位网络；

如图2所示，所述数据预处理模块包括：最大池化层、三色特征提取器(又称为：SRM特征提取层)和三叉戟结构分支；

如图3所示，所述时域定位分类网络(即时域定位分类模块)是一个二分类器，用于判断输入的连续5帧是否为篡改帧。

首先将连续五帧输入至时域预处理模块(即图3中的数据预处理层)，再将输入数据分成三叉戟的三个分支，分别输入至时域C3D特征提取网络(即时域C3D特征提取模块或图3中的时域C3D层)中，输出128维的特征向量，经过BiLSTM解码器输出至全连接层中，全连接层采用“Softmax”激活函数，最终输出二维向量，即判断是否为篡改帧；

如图4所示，所述时域C3D特征提取网络(即时域C3D特征提取模块)包括：第一三维卷积层(即3D卷积层)、第一三维最大池化层(即3D最大池化层)、第二三维卷积层、第二三维最大池化层、第三三维卷积层、第三三维最大池化层、第四二维卷积层(2D卷积层)、第四二维最大池化层、第五二维卷积层、第一二维平均池化层(2D平均池化层)、第一全连接层；

如图5所示，所述空域定位网络(即空域定位模块)用于判断输入的连续五帧篡改帧的具体篡改位置。

首先将连续五帧篡改帧输入至空域预处理模块(即图5中的数据预处理层)，再将输入数据分成三叉戟的三个分支，分别输入至空域C3D特征提取网络(即空域C3D特征提取模块或图5中的空域C3D层)中，得到预测篡改框图(即候选框生成)以及每个预测篡改框图对应的置信度，再将所有的预测篡改框图(即经过框聚合后的预测框序列)输入至框回归器RPN(采用非极大值抑制算法)中，最终得到篡改框图的位置(即图5中的空域坐标)以及对应的置信度。

如图6所示，所述空域C3D特征提取网络(即空域C3D特征提取模块)包括：第一三维卷积层、第一三维最大池化层、第二三维卷积层、第二三维最大池化层、第三三维卷积层、第三三维最大池化层、第四二维卷积层、第五二维卷积层与第六二维卷积层。

所述第一三维卷积层与第一三维最大池化层连接，第一三维最大池化层与第二三维卷积层连接，第二三维卷积层与第二三维最大池化层连接，第二三维最大池化层与第三三维卷积层连接，第三三维卷积层与第三三维最大池化层连接，第三三维最大池化层与第四二维卷积层连接，第四二维卷积层与第五二维卷积层、第六二维卷积层均连接。

将所述时域三叉戟分类网络中时域C3D特征提取网络的第一三维卷积层、第二三维卷积层和第三三维卷积层，以及空域三叉戟定位网络的第一三维卷积层、第二三维卷积层和第三三维卷积层的卷积核维度均设置为[3,3,3]，步长均设置为[1,1,1]；并分别在6个三维卷积层后，采用BN层对三维卷积层的输出数据进行归一化处理，激活函数使用"relu"。

将所述时域三叉戟分类网络中时域C3D特征提取网络的第四二维卷积层和第五二维卷积层，以及空域三叉戟定位网络的第四二维卷积层和第五二维卷积层的卷积核维度均设置为[1,1]，步长均设置为[1,1]；并分别在4个二维卷积层后，采用BN层对二维卷积层的输出数据进行归一化处理，激活函数使用"relu"。

将所述时域三叉戟分类网络中时域C3D特征提取网络的第一三维最大池化层、第二三维最大池化层和第三三维最大池化层，以及空域三叉戟定位网络的第一三维最大池化层、第二三维最大池化层和第三三维最大池化层的池化大小均设置为[2,5,5]，步长均设置为[2,2,2]，填充方式为"SAME"。

将所述时域三叉戟分类网络中时域C3D特征提取网络的第四二维最大池化层的池化大小设置为[5,5]，步长设置为[2,2]，填充方式为"SAME"。

步骤二：使用opencv第三方库将待测视频解压成视频帧序列。

步骤三：在时域定位方面，对视频帧序列进行数据集增强策略，将视频帧序列连续五帧进行裁剪，原数据集尺寸为1280×720像素，裁剪尺寸需满足每个裁剪区域在训练集的篡改帧中至少要包含大部分的篡改区域；测试集中所有裁剪区域要覆盖整帧进行测试，不能有遗漏区域，裁剪尺寸定为720×720像素。数据集中原始帧和篡改帧比例为13：3，为了保证训练集的正负样本数量相当，本申请采用非对称数据增强策略，将2种视频帧按帧数的相反比例裁剪并打包。

步骤四：在空域定位方面对视频数据集进行数据集增强策略，将其原数据集连续五帧同时采取水平翻转、垂直翻转和水平垂直翻转进行数据增强。

步骤五：将连续五帧作为输入，对时空三叉戟网络模型进行训练，分别对时域三叉戟分类网络和空域三叉戟定位网络进行训练，输出优化后的时空三叉戟网络模型。

步骤六：对优化后的时空三叉戟网络模型，通过评估指标进行检测，具体采用如下评估指标：

本申请的时域定位分类模块可以看作一个二分类器，因此使用常用的二分类算法评估指标。本系统用于检测篡改帧，因此，设置篡改帧为正类，原始帧为负类，并给出如下定义：

TP(True Positive)：真正例的个数，这里为预测为篡改帧，实际也为篡改帧的个数。

FN(False Negative)：真负例的个数，这里为预测为原始帧，实际为篡改帧的个数。

FP(False Positive)：假正例的个数，这里为预测为篡改帧，实际为原始帧的个数。

TN(True Negative)：真负例的个数，这里为预测为原始帧，实际也为原始帧的个数。

准确率AZ的计算公式如式(20)所示，

精确率P的计算公式如式(21)所示，

召回率R的计算公式如式(22)所示，

F1分数F1Score的计算公式如式(23)所示，

本系统的空域定位模块得到预测框序列，取置信度最高的框作为最终的预测区域，定义交并比(IOU)为两个框面积的交集和并集的比值。当预测框与真实篡改区域标注框的交并比为0或置信度小于0.8时，定义为漏检帧F_mis，否则为成功检测帧F_suc，采用评估指标成功检测率Suc_rete和平均交并比IOU_mean评估，成功检测率Suc_rete如式(24)所示，平均交并比IOU_mean如式(25)所示，

其中，N_suc表示成功检测帧的总数，i表示成功检测帧的序号，∑F_mis表示漏检帧的总数，∑F_suc表示成功检测帧的总数。

步骤七：将待检测视频进行分帧处理，每连续五帧作为一组，输入至优化后的时空三叉戟网络模型进行检测。如表2所示，实验结果表明本发明所选择的连续5帧作为输入定位效果最好，在特征提取中充分考虑了视频帧的连续性特征。

表2不同输入帧作为输入的定位效果比较表

步骤八：首先将处理后的待检测视频输入时域三叉戟分类网络，对连续五帧采用三次不同的裁剪方式，并通过时域三叉戟分类网络进行三次分类判断：若有一次被判断为篡改帧，即标记为篡改帧，若三次均被标记为原始帧，即标记为原始帧，最终得到篡改帧序列与原始帧序列。

步骤九：使用滑动窗口算法对帧序列进行扫描，滑动窗口大小为9帧，若9帧中有不少于8帧被标记为篡改视频，则将这9帧都标记为篡改帧；否则将这9帧都标记为原始帧，从而确定时域上的具体篡改帧。滑动窗口不同参数选择实验结果对比如表3所示。

表3滑动窗口不同参数效果对比表

综合对比下可见滑动窗口大小设置为9帧、阈值设置为8帧具有最好的检测效果。

步骤十：将步骤九所得篡改帧输入空域三叉戟定位网络，通过框回归器RPN生成多个篡改帧序列篡改位置预测框。通过NMS算法(非极大值抑制算法)选出最终的篡改区域预测框，输出每个篡改帧的检测篡改区域位置坐标。

步骤十一：如图7所示，系统生成检测结果，其中，上、中、下三条曲线分别表示对图像的三次裁剪的预测值与帧序号的曲线，横坐标为帧序号，纵坐标为

在图中表示为

最上方为各项参考指标的数值。

步骤十二：对测试视频1进行空域定位测试，选择其中5帧，与原始帧进行对比，对比结果如图8所示，其中白色框为篡改区域，黑色框为系统预测的篡改区域。

步骤十三：选取10段视频进行测试，得到的时域定位结果对比如表3所示，可以发现尽管存在个别视频预测偏差较大(如视频2)的现象，但本发明在时域和空域定位上的总体表现十分优秀。

表4不同视频测试结果比较表

步骤十四：对比其他视频篡改定位算法，对比结果如表4所示，实验结果表明本发明可以明显改善篡改定位效果。

表5不同视频篡改定位算法的篡改定位效果比较表

显然，本发明上述实施例的原理阐述仅仅是为清楚地说明本发明所做的举例，而并非是对本发明实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里没有对所有的实施方式予以穷举，凡是属于本发明的技术方案所引申出的显而易见的变化或变动仍处于本发明的保护范围之列。

本说明书中未做详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于时空三叉戟网络的监控视频篡改检测系统，其特征在于：所述基于时空三叉戟网络的监控视频篡改检测系统基于时空三叉戟网络模型；

所述空域预处理模块通过水平翻转、垂直翻转和水平垂直翻转进行视频帧序列增强；

所述框回归器RPN用于：生成篡改区域框；

2.一种应用权利要求1所述的检测系统的基于时空三叉戟网络的监控视频篡改检测方法，其特征在于，包括以下步骤：

S1、训练时空三叉戟网络模型；

S2、采用样本实例测试时空三叉戟网络模型；

所述样本实例为：完整视频；

所述步骤S1具体包括以下步骤：

S11：视频预处理；

S16、获得优化的时空三叉戟网络模型；

所述步骤S2具体包括以下步骤：

S22：将时域预处理后的数据输入时域三叉戟分类网络；

S23：根据篡改帧的时间坐标定位结果获取对应的篡改帧序列，并将篡改帧序列输入空域预处理模块，进行数据增强操作；

3.如权利要求2所述的基于时空三叉戟网络的监控视频篡改检测方法，其特征在于：在所述时域预处理中，采用时域定位的数据集标签处理策略“X”标注法，具体步骤如下：

首先将每连续五帧视频的中间帧Frame_t设置为目标帧，并将目标帧的前两帧Frame_t-2和Frame_t-1和目标帧的后两帧Frame_t+1和Frame_t+2设置为辅助帧；

对于连续三帧视频：若三帧全为篡改帧，则三帧的标签值设为1；若三帧全为原始帧，则三帧的标签值设为0；若三帧既包含原始帧，又包含篡改帧，则三帧的标签值设为X。

4.如权利要求3所述的基于时空三叉戟网络的监控视频篡改检测方法，其特征在于：在所述时域预处理中，采用数据集增强策略，具体步骤如下：

对于连续原始帧，统一按照均匀步长进行左、中、右三次裁剪，并且在横坐标上进行随机像素的微小偏移；

X_min＝min(x₁₁，x₂₁，x₃₁，x₄₁，x₅₁) (1)

X_max＝max(x₁₂，x₂₂，x_a2，x₄₂，x₅₂) (2)

Y_min＝min(y₁₂，y₂₂，y₃₂，y₄₂，y₅₂) (3)

Y_max＝max(y₁₁，y₂₁，y₃₁，y₄₁，y₅₁) (4)

则{X_min，X_max，Y_min，Y_max}为不可裁剪区域；

5.如权利要求4所述的基于时空三叉戟网络的监控视频篡改检测方法，其特征在于：所述时域C3D特征提取模块包括：3个3D卷积层、3个3D最大池化层、1个2D最大池化层、2个2D卷积层、1个2D平均池化层和1个全连接层；

所述3个3D卷积层的卷积核维度均设置为[3，3，3]，步长均设置为[1，1，1]；所述2个2D卷积层的卷积核维度均设置为[1，1]，步长均设置为[1，1]；所述3个3D最大池化层的池化大小均为[2，5，5]，步长均设置为[2，2，2]；所述2D最大池化层的池化大小为[5，5]，步长设置为[2，2]，2D平均池化层的池化大小为[23，23]，步长为[23，23]；

所述空域C3D特征提取模块包括：3个3D卷积层、3个3D最大池化层、3个2D卷积层和1个全连接层；所述3个3D卷积层的卷积核维度均设置为[3，3，3]，步长均设置为[1，1，1]；所述3个2D卷积层的卷积核维度均设置为[1，1]，步长均设置为[1，1]；所述3个3D最大池化层的池化大小均为[2，5，5]，步长均设置为[2，2，2]；

6.如权利要求5所述的基于时空三叉戟网络的监控视频篡改检测方法，其特征在于：所述时域定位分类模块判断输入的连续五帧是否为篡改帧，具体步骤如下：

7.如权利要求6所述的基于时空三叉戟网络的监控视频篡改检测方法，其特征在于：所述采用滑动窗口算法以消除个别错误对预测结果的影响，具体包括以下步骤：

8.如权利要求7所述的基于时空三叉戟网络的监控视频篡改检测方法，其特征在于：所述空域定位模块判断输入的连续五帧篡改帧的具体篡改位置，具体包括以下步骤：

9.如权利要求8所述的基于时空三叉戟网络的监控视频篡改检测方法，其特征在于：所述得到预测篡改框图的具体步骤为：

空域C3D特征提取模块中的特征图维度为45×80×64，以特征点为中心，预先设定k＝9个候选窗口，则k＝9个候选窗口就称为上述特征点生成的k个anchor框；

9个候选窗口面积大小结果为{128×128，128×256，256×128，256×256，256×512，512×512}，得到的anchor数为45×80×9＝32400个；

将每一个特征点通过CLS Layer卷积层，用Softmax激活函数对每个特征点生成2k个输出值；

每一个特征点又通过reg layer卷积层生成4k个检测框的预测值，每一个anchor对应四个输出值为(x，y，w，h)；其中，(x，y)表示中心点坐标，w表示长度，h表示宽度；

给定anchor坐标为A＝(A_x，A_y，A_w，A_h)，给定篡改框区域为GT＝(G_x，G_y，G_w，G_h)，需要寻找变换F，使得满足式(5)，

F(A_x，A_y，A_w，A_h)＝(G_x′，G_y′，G_w′，G_h′)≈(G_x，G_y，G_w，G_h) (5)

寻找变换F的具体步骤如下：

先进行平移操作，如式(6)和(7)所示，

G_x′＝A_w·d_x(A)+A_x (6)

G_y′＝A_h·d_y(A)+A_y (7)

再进行缩放操作，如式(8)和(9)所示，

G_w′＝A_w·exp(d_w(A)) (8)

G_h′＝A_h·exp(d_h(A)) (9)

其中，d_x(A)、d_y(A)、d_w(A)和d_h(A)均是需要训练的参数；

t_x(x-x_a)/w_a (10)

t_y(y-y_a)/h_a (11)

t_w＝ln(w/w_a) (12)

t_h＝ln(h/h_a) (13)

t_x ^*＝(x^*-x_a)/w_a (14)

t_y ^*＝(y^*-y_a)/h_a (15)

t_w ^*＝ln(w^*/w_a) (16)

t_h ^*＝ln(h^*/h_a) (17)

10.如权利要求9所述的基于时空三叉戟网络的监控视频篡改检测方法，其特征在于：所述框回归器RPN采用非极大值抑制算法，挑选出预测篡改框的位置，候选矩形框的值为RPN框回归器所输出的对应置信度，具体步骤如下：

将所有框按照置信度排序，选中置信度最高的框；

遍历剩余的框，如果和当前分框的交并比大于一定阈值，则将该框删除；

从剩余框中选择置信度最高的框，重复上述过程；

所述空域三叉戟定位网络训练采用的损失函数如式(18)所示，

其中，N_cls是训练中一个batch的样本数量，i是anchor框下标，L_cls是对其中每一个框二分类的损失函数，N_reg是anchor框位置的个数，L_reg是预测框与真实篡改区域标注框之间误差的损失函数；t_i是预测框相对于第i个anchor框的边界框回归参数，

指真实篡改框相对于第i个anchor框的边界框回归参数，p_i表示第i个anchor框预测为前景框的概率，

取值如下：当第i个anchor框为前景框时为1，当第i个anchor框为背景框时为0；λ为常数。