CN117911410B

CN117911410B - 一种视频对象移除篡改检测方法及系统

Info

Publication number: CN117911410B
Application number: CN202410311048.8A
Authority: CN
Inventors: 边山; 黄勇龙; 王春桃
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2024-03-19
Filing date: 2024-03-19
Publication date: 2024-06-14
Anticipated expiration: 2044-03-19
Also published as: CN117911410A

Abstract

本发明提出一种视频对象移除篡改检测方法及系统，涉及信息安全计算机视觉的技术领域，方法包括获取视频对象移除篡改检测数据集；对所述视频对象移除篡改检测数据集进行预处理，得到裁剪数据集；对所述裁剪数据集进行预处理，得到所述裁剪数据集的高频信息；将所述高频信息作为预设的视频对象移除篡改检测模型的输入，对所述视频对象移除篡改检测模型进行训练，得到训练好的视频对象移除篡改检测模型，所述视频对象移除篡改检测模型用于输出待检测视频是否存在对象移除篡改的判定结果。本发明有效地提取视频的时空特征，增强了视频中对象的关注度和区分度，提高了视频对象移除篡改检测准确率和效率。

Description

一种视频对象移除篡改检测方法及系统

技术领域

本发明涉及信息安全计算机视觉的技术领域，特别涉及一种视频对象移除篡改检测方法及系统。

背景技术

现代设备如手机、数码相机和CD机等能随时生成和记录数字图像和视频数据，数字图像和视频数据易被复制和修改，得到伪造，影响人们对视频内容的理解，导致这些内容在法庭上被用作证据时，因难以验证其真实性和来源，无法取得所有人的信任，因此，研究视频伪造取证具有重要意义。

目前，研究者致力于通过取证分析来验证视频证据的真实性，并检测其可能发生的任何变化或伪造，相比基于双压缩、插入帧、删除帧、复制帧的视频伪造取证研究，视频对象伪造取证研究更加复杂和重要，然而视频伪造和检测直到最近才引起人们的关注，这种视频对象移除篡改方法是在视频的空间域中进行的，可以将其视为图像的复制移动或拼接伪造，但基于图像的伪造检测技术并不适合应用在视频的每一帧，因为它们无法充分利用压缩视频中的时间信息。

随着深度学习技术的发展，视频对象移除篡改检测技术得到了革命性的改进，这得益于深度神经网络能够提取特定于问题的复杂高维特征，以有效地表示所需的信息，如针对基于深度学习的视频对象移除篡改检测，有人提出了从运动残差特征中提取基于高频信号的高维特征，并使用神经网络来确定视频帧是否被篡改；有人提出了一种使用CNN检测视频篡改并在伪造帧中定位伪造区域的时空方法，使用运动残差来训练所呈现的网络；有人提出了一种基于空间丰富模型和三维卷积的时空三流网络，该网络提供了分支；有人提出了一个视频伪造定位框架，该框架通过融合一组独立特征描述符衍生的信息来验证视频帧之间和帧内编码轨迹的自一致性，特征提取步骤是通过一个可解释的卷积神经网络结构进行的；还有人提出了一个基于对象的视频伪造检测的三阶段混合深度学习框架，该框架在一个统一的模型中建模目标视频的帧内和帧间固有属性；但这些方法忽视了视频中对象的关注度和区分度，依赖于复杂的时空特征提取技术，增加了计算复杂度，导致检测准确率和效率低。

发明内容

为解决上述现有技术存在视频对象移除篡改检测准确率和效率低的问题，本发明提出了一种视频对象移除篡改检测方法及系统，有效地提取视频的时空特征，增强了视频中对象的关注度和区分度，提高了视频对象移除篡改检测准确率和效率。

为了达到上述技术效果，本发明的技术方案如下：

一种视频对象移除篡改检测方法，包括以下步骤：

S1.获取视频对象移除篡改检测数据集；

S2.对所述视频对象移除篡改检测数据集进行预处理，得到裁剪数据集；

S3.对所述裁剪数据集进行预处理，得到所述裁剪数据集的高频信息；

S4.将所述高频信息作为预设的视频对象移除篡改检测模型的输入，对所述视频对象移除篡改检测模型进行训练，得到训练好的视频对象移除篡改检测模型，所述视频对象移除篡改检测模型用于输出待检测视频是否存在对象移除篡改的判定结果。

优选地，S1所述视频对象移除篡改检测数据集包括由原始帧组成的原始视频和由原始帧和伪造帧组成的篡改视频。

优选地，S2所述对所述视频对象移除篡改检测数据集进行预处理，包括：

S21.对所述原始视频和所述篡改视频进行裁剪，得到具有相同帧数数量、相同尺寸大小和相同颜色通道数量的原始裁剪视频和篡改裁剪视频；

S22.对所述篡改裁剪视频进行过采样，得到正样本，并对所述原始裁剪视频进行欠采样，得到负样本，其中所述正样本和负样本数量相同；

S23.将所述正样本和负样本组成所述裁剪数据集。

优选地，S3所述对所述裁剪数据集进行预处理，包括：将所述裁剪数据集输入至SRM高通滤波器，利用所述SRM高通滤波器提取所述裁剪数据集的高频信息。

优选地，S4所述视频对象移除篡改检测模型包括若个分支并行的三维卷积神经网络、双向解码器层、全连接层和激活函数层，所述三维卷积神经网络连接所述双向解码器层，所述双向解码器层连接所述全连接层，所述全连接层连接所述激活函数层；每一个三维卷积神经网络均包括依次连接的三维卷积密集网络层、混合自注意力机制模块和二维卷积神经网络层。

优选地，所述三维卷积密集网络层包括具有双输入通道的跨阶段部分块，所述跨阶段部分块包括并行的第一分支网络和第二分支网络，在对所述视频对象移除篡改检测模型进行训练阶段，所述高频信息经双输入通道分别输入至所述第一分支网络和第二分支网络，所述第一分支网络对输入所述第一分支网络的高频信息进行两层密集连接卷积，得到第一输出特征，所述第二分支网络对输入所述第二分支网络的高频信息进行两层密集连接卷积，得到第二输出特征，将所述第一输出特征与所述第二输出特征进行拼接，得到特征拼接合并结果。

优选地，所述混合自注意力机制模块包括并行的空间自注意力子模块和通道自注意力子模块，在对所述视频对象移除篡改检测模型进行训练阶段，将所述特征拼接合并结果作为所述空间自注意力子模块的输入特征图，对输入至所述空间自注意力子模块的输入特征图和所述通道自注意力子模块进行分别进行特征提取处理，分别得到噪声特征的空间注意力矩阵和通道注意力矩阵，将所述空间注意力矩阵和通道注意力矩阵进行融合，由所述混合自注意力机制模块输出融合特征至所述二维卷积神经网络层。

优选地，所述二维卷积神经网络层包括依次连接的第一二维卷积层、第一二维池化层、第二二维卷积层、第二二维池化层、第三二维卷积层和全局平均池化层，所述第一二维卷积层的卷积核大小为3×3，所述第二二维卷积层和所述第三二维卷积层的卷积核大小均为1×1，所述第一二维池化层、第二二维池化层和第三二维池化层的池化步长为5×5，将所述融合特征输入至所述第一二维卷积层，所述第一二维卷积层接收所述融合特征，输出第一特征图至所述第一二维池化层，所述第一二维池化层接收所述第一特征图，输出第二特征图至所述第二二维卷积层，所述第二二维卷积层接收所述第二特征图，输出第三特征图至所述第二二维池化层，所述第二二维池化层接收所述第三特征图，输出第四特征图至所述第三二维卷积层，所述第三二维卷积层接收所述第四特征图，输出第五特征图至所述全局平均池化层，所述全局平均池化层接收所述第五特征图，将所述第五特征图转化为128维向量输入至所述双向解码器层。

优选地，所述双向解码器层包括单层双向长短期记忆网络，所述128维向量输入至所述单层双向长短期记忆网络，所述单层双向长短期记忆网络接收所述128维向量，输出所述单层双向长短期记忆网络两个方向上的输出状态之和至所述全连接层，将所述全连接层的输出结果作为所述激活函数层的输入，由所述激活函数层输出篡改视频中的伪造帧序列，所述伪造帧序列用于判断待检测视频是否存在对象移除篡改。

本发明还提出了一种视频对象移除篡改检测系统，包括：

获取模块，用于获取视频对象移除篡改检测数据集；

第一预处理模块，用于对所述视频对象移除篡改检测数据集进行预处理，得到裁剪数据集；

第二预处理模块，用于对所述裁剪数据集进行预处理，得到所述裁剪数据集的高频信息；

检测模块，用于将所述高频信息作为预设的视频对象移除篡改检测模型的输入，对所述视频对象移除篡改检测模型进行训练，得到训练好的视频对象移除篡改检测模型，所述视频对象移除篡改检测模型用于输出待检测视频是否存在对象移除篡改的判定结果。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出一种视频对象移除篡改检测方法及系统，首先对获取的视频对象移除篡改检测数据集进行预处理，目的是保证视频对象移除篡改检测数据集类别平衡，得到裁剪数据集，避免影响视频对象移除篡改检测模型的训练效果；然后对所述裁剪数据集进行预处理，得到所述裁剪数据集的高频信息，利用高频信息对所述视频对象移除篡改检测模型进行训练，使得训练好的视频对象移除篡改检测模型能够有效地提取视频的时空特征，增强了视频中对象的关注度和区分度，提高了视频对象移除篡改检测准确率和效率。

附图说明

图1表示本发明实施例中提出的一种视频对象移除篡改检测方法的流程框图；

图2表示本发明实施例中提出的对视频对象移除篡改检测数据集的预处理流程框图

图3表示本发明实施例中提出的视频对象移除篡改检测模型的结构图；

图4表示本发明实施例中提出的C3D DenseNet网络结构图；

图5表示本发明实施例中提出的混合自注意力模块结构图；

图6表示本发明实施例中提出的卷积自注意力模块结构图；

图7表示本发明实施例中提出的双向长短期记忆网络结构图；

图8表示本发明实施例中提出的一种视频对象移除篡改检测系统结构图。

810.获取模块；820.第一预处理模块；830.第二预处理模块；840.检测模块。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

对于本领域技术人员来说，附图中某些公知内容说明可能省略是可以理解的；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，本实施例提出了一种视频对象移除篡改检测方法，包括以下步骤：

S1.获取视频对象移除篡改检测数据集；

在S1中，所述视频对象移除篡改检测数据集包括由原始帧组成的原始视频和由原始帧和伪造帧组成的篡改视频，所述视频对象移除篡改检测数据集中的原始帧数是伪造帧数的数倍，所述视频对象移除篡改检测数据集的分辨率为1280×720；

在S2中，参见图2，所述对所述视频对象移除篡改检测数据集进行预处理，包括：

在S21中，对1280×720的原始视频和篡改视频裁剪，得到的原始裁剪视频和篡改裁剪视频的帧数数量为5，尺寸大小为720×720，颜色通道数量为3，即得到

规格为5×(720×720)×3的原始裁剪视频和篡改裁剪视频；

在S22中，提出一种非对称采样方法，对5×(720×720)×3的原始裁剪视频进行欠采样，原始裁剪视频连续5帧中的中间帧为原始帧，对原始裁剪视频连续5帧中采用相同的步幅采样3次；对5×(720×720)×3的篡改裁剪视频进行过采样，篡改裁剪视频连续5帧中的中间帧为伪造帧，对篡改裁剪视频连续5帧中采用相同的步幅采样13次；每一次裁剪操作都是5帧对齐，原始裁剪视频和篡改裁剪视频的标签被设置为五帧中的中间帧标签，然后就能得到一个大规模的、平衡的正、负样本，以适应深度学习算法，通过这种非对称采样方法为视频对象移除篡改检测模型的训练生成足够的数据样本。验证集的裁剪方法与训练集的裁剪方法相同，测试集的裁剪方法与原始帧相同。

S23.将所述正样本和负样本组成所述裁剪数据集；

在S3中，所述对所述裁剪数据集进行预处理，包括：将所述裁剪数据集输入至SRM高通滤波器，利用所述SRM高通滤波器提取所述裁剪数据集的高频信息，并所述高频信息切成三个数据流分支；所述SRM高通滤波器所使用的3个卷积核参数如下：

在S4中，参见图3，所述高频信息切成三个数据流分支，所述三条数据流输入视频对象移除篡改检测模型，所述视频对象移除篡改检测模型包括三个分支并行的三维卷积神经网络C3D、双向解码器层、全连接层和激活函数层，三条数据流会进入三个分支并行的三维卷积神经网络C3D，三个分支并行的三维卷积神经网络C3D共享权值以保证编码的统一三个分支并行的三维卷积神经网络C3D提取连续三帧在时空域的高频残差特征，编码为三个128维向量；所述三维卷积神经网络C3D连接所述双向解码器层，所述双向解码器层包括单层双向长短期记忆网络BiLSTM，双向解码器层输出是单层双向长短期记忆网络BiLSTM两个方向上的输出状态之和；所述双向解码器层连接所述全连接层，所述全连接层连接所述激活函数层，所述激活函数层为SoftMax层，利用全连接层和SoftMax层将三个128维向量结果转换为二元分类问题，得到篡改视频中伪造帧的序列，所述伪造帧序列用于判断待检测视频是否存在对象移除篡改；每一个三维卷积神经网络C3D均包括依次连接的三维卷积密集网络层、混合自注意力机制模块和二维卷积神经网络层。

需要特别声明的是，构建三个分支并行的三维卷积神经网络C3D，三个三维卷积神经网络C3D共享相同的输入，输入是由SRM高通滤波器提取的高频信息组成的三通道图像，第一个三维卷积神经网络C3D只处理原始视频的原始帧这一通道，以提取原始特征；第二个三维卷积神经网络C3D只处理SRM高通滤波器提取的噪声特征图这一通道，以提取噪声特征；第三个三维卷积神经网络C3D只处理SOMR这一通道，以提取运动特征，所述原始特征、所述噪声特征和所述运动特征均为128维向量，所述128维向量依次输入至双向解码器层、全连接层和激活函数层，最终输出篡改视频中的伪造帧序列，所述伪造帧序列用于判断待检测视频是否存在对象移除篡改；

在本实施例中，首先对获取的视频对象移除篡改检测数据集进行预处理，目的是保证视频对象移除篡改检测数据集类别平衡，得到裁剪数据集，避免影响视频对象移除篡改检测模型的训练效果；然后对所述裁剪数据集进行预处理，得到所述裁剪数据集的高频信息，利用高频信息对所述视频对象移除篡改检测模型进行训练，使得训练好的视频对象移除篡改检测模型能够有效地提取视频的时空特征，增强了视频中对象的关注度和区分度，提高了视频对象移除篡改检测准确率和效率。

实施例2

参见图3，所述三维卷积神经网络C3D均包括依次连接的三维卷积密集网络层、混合自注意力机制模块和二维卷积神经网络层，三维卷积密集网络层设有C3D DenseNet网络，C3D DenseNet网络是一个结合C3D网络和DenseNet网络特点的三维卷积密集网络，参见图4，所述三维卷积密集网络层包括具有双输入通道的跨阶段部分块CSP_Block，所述跨阶段部分块CSP_Block包括并行的第一分支网络和第二分支网络，第一分支网络和第二分支网络在不同阶段进行交叉合并，形成一个部分连接的网络，即C3D DenseNet网络，在对所述视频对象移除篡改检测模型进行训练阶段，所述高频信息经双输入通道分别输入至所述第一分支网络和第二分支网络，所述第一分支网络对输入所述第一分支网络的高频信息进行两层密集连接卷积，得到第一输出特征，所述第二分支网络对输入所述第二分支网络的高频信息进行两层密集连接卷积，得到第二输出特征，将所述第一输出特征与所述第二输出特征进行拼接，得到特征拼接合并结果。

每个跨阶段部分块CSP_Block的第一分支网络首先用3*3*3的卷积核，步长为2将输入数据卷积1次，然后用2*5*5的卷积核池化，然后用相同3*3*3的卷积核和步长2再进行一次三维卷积和池化，最后将其重塑。第二分支网络的操作和参数与第一分支网络一致，也是用3*3*3的卷积核，步长为2将输入数据卷积1次，然后用2*5*5的卷积核池化，然后用相同3*3*3的卷积核和步长2再进行一次三维卷积和池化；随后第一分支网络与第二分支网络通过concate拼接操作合并，随后将特征拼接合并结果送入到混合自注意力模块二维卷积实现降维。

所述混合自注意力机制模块包括并行的空间自注意力子模块和通道自注意力子模块，在对所述视频对象移除篡改检测模型进行训练阶段，参见图5，将所述特征拼接合并结果作为所述空间自注意力子模块的输入特征图，对输入至所述空间自注意力子模块的输入特征图和所述通道自注意力子模块进行分别进行特征提取处理，分别得到噪声特征的空间注意力矩阵和通道注意力矩阵，具体为：

对输入至所述空间自注意力子模块的输入特征图进行特征提取处理，包括：

从输入特征图的每个位置上取得自注意力的查询Q、键K和值V；通过点积和归一化得到每个位置对其他位置的注意力权重，最后通过加权求和得到空间注意力矩阵，具体操作如下：

S41.将输入至所述空间自注意力子模块的输入特征图F的宽、高和通道数存入一个变量中，并利用三个并行的第一卷积层，三个并行的第一卷积层的卷积核分别为2*2，2*2，16*16，对输入至所述空间自注意力子模块的输入特征图F进行特征提取，生成第一空间特征F ₁、第二空间特征F ₂和第三空间特征F ₃；

S42.将所述第一空间特征F ₁重塑为第一重塑空间特征，其中/>表示输入特征图的宽，/>表示输入特征图的高，/>将表示通道数，/>表示维度集合，并将所述第一重塑空间特征/>进行转置，得到第一转置空间特征/>；

S43.将所述第二空间特征F ₂重塑为第二重塑空间特征；

S44.将所述第一转置空间特征和第二重塑空间特征/>进行Sigmoid激活函数操作，生成空间特征图/>；

S45.将所述第三空间特征F ₃重塑为第三重塑空间特征；

S46.将所述第三重塑空间特征和所述空间特征图/>的乘积进行重塑，其中/>表示第一学习参数，得到第四重塑空间特征/>；

S47.将所述第四重塑空间特征与输入特征图F进行融合，得到噪声特征的空间注意力矩阵/>的计算表达式如下：

；

对输入至所述通道自注意力子模块的输入特征图进行特征提取处理，包括：

从输入特征图的每个位置上取得自注意力的查询Q、键K和值V；通过点积和归一化得到每个位置对其他位置的注意力权重，最后通过加权求和得到通道注意力矩阵，具体操作如下：

S51.将输入至所述通道自注意力子模块的输入特征图F的宽、高和通道数存入一个变量中，利用三个并行的第二卷积层，对输入至所述通道自注意力子模块的输入特征图F进行特征提取，生成第一通道特征f ₁、第二通道特征f ₂和第三通道特征f ₃；

S52.将所述第一通道特征f ₁重塑为第一重塑通道特征，并将所述第一重塑通道特征/>进行转置，得到第一转置通道特征/>；

S53.将所述第二通道特征f ₂重塑为第二重塑通道特征；

S54.将所述第一转置通道特征和第二重塑通道特征/>进行Sigmoid激活函数操作，生成通道特征图/>；

S55.将所述第三通道特征f ₃重塑为第三重塑通道特征；

S56.将所述第三重塑通道特征和所述通道特征图/>的乘积进行重塑，其中/>表示第二学习参数，得到第四重塑空间特征/>；

S57.将所述第四重塑空间特征与输入特征图F进行融合，得到噪声特征的通道注意力矩阵/>的计算表达式如下：

；

将所述空间注意力矩阵和通道注意力矩阵/>进行融合，由所述混合自注意力机制模块输出融合特征/>至所述二维卷积神经网络层。

其中，将混合自注意力机制模块和三维卷积密集网络层结合起来，构建一个卷积自注意力模块，参见图6，具体包括：

首先三维卷积密集网络层中的C3D DenseNet网络的输出结果作为混合自注意力子模块的输入特征；

然后三维卷积密集网络层中的C3D DenseNet网络的输出结果分两个分支输入，C3D DenseNet网络的输出结果作为第一个分支，第二个分支以C3D DenseNet网络的输出结果作为混合自注意力子模块的输入特征输出的结果，其中第二个分支在通过混合自注意力模块之前经过两层卷积核为1*1以及卷积核为3*3的二维卷积后再通过所述混合自注意力子模块进一步提取特征，然后再与第一个分支合并，即得到卷积自注意力模块，最后通过二维卷积神经网络层，从而更加关注篡改特征。

所述二维卷积神经网络层包括依次连接的第一二维卷积层、第一二维池化层、第二二维卷积层、第二二维池化层、第三二维卷积层和全局平均池化层，所述第一二维卷积层的卷积核大小为3×3，所述第二二维卷积层和所述第三二维卷积层的卷积核大小均为1×1，所述第一二维池化层、第二二维池化层和第三二维池化层的池化步长为5×5，将所述融合特征输入至所述第一二维卷积层，所述第一二维卷积层接收所述融合特征，输出第一特征图至所述第一二维池化层，所述第一二维池化层接收所述第一特征图，输出第二特征图至所述第二二维卷积层，所述第二二维卷积层接收所述第二特征图，输出第三特征图至所述第二二维池化层，所述第二二维池化层接收所述第三特征图，输出第四特征图至所述第三二维卷积层，所述第三二维卷积层接收所述第四特征图，输出第五特征图至所述全局平均池化层，所述全局平均池化层接收所述第五特征图，将所述第五特征图转化为128维向量输入至所述双向解码器层。

参见图7，所述双向解码器层包括单层双向长短期记忆网络，所述128维向量输入至所述单层双向长短期记忆网络，所述单层双向长短期记忆网络接收所述128维向量，输出所述单层双向长短期记忆网络两个方向上的输出状态之和至所述全连接层，将所述全连接层的输出结果作为所述激活函数层的输入，由所述激活函数层输出篡改视频中的伪造帧序列，所述伪造帧序列用于判断待检测视频是否存在对象移除篡改。

实施例3

参见图8，本实施例提出了一种视频对象移除篡改检测系统，包括：

获取模块810，用于获取视频对象移除篡改检测数据集；

第一预处理模块820，用于对所述视频对象移除篡改检测数据集进行预处理，得到裁剪数据集；

第二预处理模块830，用于对所述裁剪数据集进行预处理，得到所述裁剪数据集的高频信息；

检测模块840，用于将所述高频信息作为预设的视频对象移除篡改检测模型的输入，对所述视频对象移除篡改检测模型进行训练，得到训练好的视频对象移除篡改检测模型，所述视频对象移除篡改检测模型用于输出待检测视频是否存在对象移除篡改的判定结果。

实施例4

本实施例对上述实施例提出的一种视频对象移除篡改检测方法进行验证，首先对视频对象移除篡改检测数据集的类型进行选取，视频对象移除篡改检测数据集的类型包括SULFA数据集、REWIND数据集和SYSU-OBJFORG数据集；

SULFA数据集中只有5个视频属于视频对象删除篡改的类型，每个视频的长度约为10秒，分辨率为320×240，帧率为30 FPS；

REWIND数据集基于SULFA数据集，包括十个原始视频和十个复制粘贴篡改视频，帧率和分辨率与SULFA数据集相同，SULFA数据集和REWIND数据集可用的数据量太小，不利于深度学习方法进行训练。

SYSU-OBJFORG数据集是Chen等人报告的视频对象移除篡改的最海量数据集，包括100个原始视频和100个与原始视频对应的篡改视频，所有这些都来自静态监控摄像头，分别为3 Mbits/s，每个视频的长度约为11秒，分辨率为1280×720 (720p)和25FPS的帧速率。所有视频都以H.264/MPEG-4 编码格式压缩。每个伪造的视频包含一个或两个伪造的片段，持续时间从 1 到 5 秒。篡改质量相对较高，因此篡改痕迹对肉眼完全不可见。所有伪造的视频剪辑都用与相应原始视频剪辑相同的参数重新压缩。经过数据采样后，数据量可以满足上述实施例提出的一种视频对象移除篡改检测方法；因此，本实施例选取视频对象移除篡改检测数据集为SYSU-OBJFORG数据集，来执行所有的工作。为了使每一帧的大部分信息，本实施例将所有视频解压缩到png图像格式进行处理。

在具体实施过程中，对所述视频对象移除篡改检测模型进行训练的时态伪造检测算法是基于TensorFlow框架实现，运行在Ubuntu系统上，使用NVIDIA GeForce GTX3090GPU，使用Adam作为优化器，将训练过程的学习率设置为0.001，动量设置为0.9，L2正则化参数设置为0.0005，参数初始化标准差设置为0.1。

在所述视频对象移除篡改检测模型的训练阶段，批大小设置为32，即每次送入所述视频对象移除篡改检测模型的图像块的维数为32×5×(720×720)×3；

在测试阶段，批大小设置为3，即每次送入所述视频对象移除篡改检测模型的图像块的维数为3×5×(720×720)×3，因此，每一帧的分类结果是由这三组数据块的分类结果决定的，具体分类策略如下:如果三个数据片都被预测为原始帧，那么中间的帧被检测为原始帧；否则，则被检测为伪造帧。

对于时态伪造检测的测试评估指标，使用以下7个评估指标：

其中，PFACC（pristine frame accuracy）是原始帧分类正确率， FFACC（forgedframe accuracy）是篡改帧分类正确率，HFACC(hybrid frame accuracy)是混合帧分类正确率，FACC（frame accuracy）是所有帧分类正确率，Precision为精确率，Recall为召回率，F1 Score为F1分数，Precision、Recall和F1值可以通过计算得出。TP（true positive）是篡改帧正确分类数量，FP（false positive）是原始帧错误分类数量，FN（false negative）篡改帧错误分类数量，#表示集合元素的数量。在这项研究中，在测试过程中使用了不平衡的数据。因此，使用平均召回率和精度。

表1对比实验表

在SYSU-OBJFORG数据集上验证了本发明提出的视频对象移除篡改检测方法，在100对视频中，随机划分了训练集、验证集和测试集，进行了多次实验，时间伪造检测的测试结果如表1所示。

与最近多种先进的深度学习方法进行比较，本发明所提方法具有更好的性能，除了PFACC和HFACC，所有评价指标均达到最高，全部帧的分类准确率达到 99.34%。实验结果与STN相比，PFACC提高0.18%，FFACC提高 2.53%，Precision 提高0.31%，F1 值提高 1.44%，Recall提高了2.57%，特别是在 FFACC、Recall 和 F1 值中提升明显，这表明本发明方法不仅对篡改帧分类有很高的准确率，并且对原始帧分类也有很高的准确率。PFACC略微低于CC-JRM，考虑到可能是原始帧样本太相似，容易过拟合，后期可以加大原始帧的样本。并且可以看到，几乎所有方法在检测原始帧 (PFACC) 时都达到了接近 100% 的准确率，提升的空间已经很小。

表2消融实验表

从表2可以看出，在没有自注意力模块的帮助下，C3D DenseNet已然能保持比较好的性能，FFACC相较于STN提升了0.93%，用C3D DenseNet作为三维卷神经网络C3D的第一部分骨干网络，它通过将特征图分割为两部分，并在不同阶段进行交叉合并，来增强网络的学习能力和梯度流动，有效解决了三维卷神经网络C3D络计算量大容易梯度消失的问题。

多分支网络同样也给三维卷神经网络C3D带来了许多好处，相较于单分只的三维卷神经网络C3D，多分支能提供更多的特征来给网络决策，相应的提升网络的鲁棒性，提高准确率。

最后是混合自注意力模块的引入，可以看出能显著提升各项指标的性能，自注意力可以有效地捕获空间和通道维度上的噪声特征依赖关系。在伪造定位任务中常常大放异彩，进一步探索提出的方法在更广泛的多媒体取证应用中的可行性，例如视频伪造空域定位和Deepfake是未来值得挑战的难题。

虽然本发明已经采取了一系列措施来提高混合帧情况下的测试精度，但HFACC仍然远低于其他度量值。一个可能合理的解释是，含有原始帧和伪造帧的混合帧分支所获得的128维向量的值可能是随机的、无意义的，这可能会对BiLSTM的预测产生一定的误导作用。

显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种视频对象移除篡改检测方法，其特征在于，包括以下步骤：

S1.获取视频对象移除篡改检测数据集；

S4.将所述高频信息作为预设的视频对象移除篡改检测模型的输入，对所述视频对象移除篡改检测模型进行训练，得到训练好的视频对象移除篡改检测模型，所述视频对象移除篡改检测模型用于输出待检测视频是否存在对象移除篡改的判定结果；

所述视频对象移除篡改检测模型包括若个分支并行的三维卷积神经网络、双向解码器层、全连接层和激活函数层，所述三维卷积神经网络连接所述双向解码器层，所述双向解码器层连接所述全连接层，所述全连接层连接所述激活函数层；每一个三维卷积神经网络均包括依次连接的三维卷积密集网络层、混合自注意力机制模块和二维卷积神经网络层；

所述三维卷积密集网络层包括具有双输入通道的跨阶段部分块，所述跨阶段部分块包括并行的第一分支网络和第二分支网络，在对所述视频对象移除篡改检测模型进行训练阶段，所述高频信息经双输入通道分别输入至所述第一分支网络和第二分支网络，所述第一分支网络对输入所述第一分支网络的高频信息进行两层密集连接卷积，得到第一输出特征，所述第二分支网络对输入所述第二分支网络的高频信息进行两层密集连接卷积，得到第二输出特征，将所述第一输出特征与所述第二输出特征进行拼接，得到特征拼接合并结果；

所述混合自注意力机制模块包括并行的空间自注意力子模块和通道自注意力子模块，在对所述视频对象移除篡改检测模型进行训练阶段，将所述特征拼接合并结果作为所述空间自注意力子模块的输入特征图，对输入至所述空间自注意力子模块的输入特征图和所述通道自注意力子模块进行分别进行特征提取处理，分别得到噪声特征的空间注意力矩阵和通道注意力矩阵，将所述空间注意力矩阵和通道注意力矩阵进行融合，由所述混合自注意力机制模块输出融合特征至所述二维卷积神经网络层。

2.根据权利要求1所述的视频对象移除篡改检测方法，其特征在于，S1所述视频对象移除篡改检测数据集包括由原始帧组成的原始视频和由原始帧和伪造帧组成的篡改视频。

3.根据权利要求2所述的视频对象移除篡改检测方法，其特征在于，S2所述对所述视频对象移除篡改检测数据集进行预处理，包括：

S23.将所述正样本和负样本组成所述裁剪数据集。

4.根据权利要求2所述的视频对象移除篡改检测方法，其特征在于，S3所述对所述裁剪数据集进行预处理，包括：将所述裁剪数据集输入至SRM高通滤波器，利用所述SRM高通滤波器提取所述裁剪数据集的高频信息。

5.根据权利要求4所述的视频对象移除篡改检测方法，其特征在于，所述二维卷积神经网络层包括依次连接的第一二维卷积层、第一二维池化层、第二二维卷积层、第二二维池化层、第三二维卷积层和全局平均池化层，所述第一二维卷积层的卷积核大小为3×3，所述第二二维卷积层和所述第三二维卷积层的卷积核大小均为1×1，所述第一二维池化层、第二二维池化层和第三二维池化层的池化步长为5×5，将所述融合特征输入至所述第一二维卷积层，所述第一二维卷积层接收所述融合特征，输出第一特征图至所述第一二维池化层，所述第一二维池化层接收所述第一特征图，输出第二特征图至所述第二二维卷积层，所述第二二维卷积层接收所述第二特征图，输出第三特征图至所述第二二维池化层，所述第二二维池化层接收所述第三特征图，输出第四特征图至所述第三二维卷积层，所述第三二维卷积层接收所述第四特征图，输出第五特征图至所述全局平均池化层，所述全局平均池化层接收所述第五特征图，将所述第五特征图转化为128维向量输入至所述双向解码器层。

6.根据权利要求5所述的视频对象移除篡改检测方法，其特征在于，所述双向解码器层包括单层双向长短期记忆网络，所述128维向量输入至所述单层双向长短期记忆网络，所述单层双向长短期记忆网络接收所述128维向量，输出所述单层双向长短期记忆网络两个方向上的输出状态之和至所述全连接层，将所述全连接层的输出结果作为所述激活函数层的输入，由所述激活函数层输出篡改视频中的伪造帧序列，所述伪造帧序列用于判断待检测视频是否存在对象移除篡改。

7.一种视频对象移除篡改检测系统，其特征在于，包括：

获取模块，用于获取视频对象移除篡改检测数据集；

检测模块，用于将所述高频信息作为预设的视频对象移除篡改检测模型的输入，对所述视频对象移除篡改检测模型进行训练，得到训练好的视频对象移除篡改检测模型，所述视频对象移除篡改检测模型用于输出待检测视频是否存在对象移除篡改的判定结果；