CN115909160A

CN115909160A - 深度视频插帧检测方法、装置及计算机可读存储介质

Info

Publication number: CN115909160A
Application number: CN202211480029.5A
Authority: CN
Inventors: 熊义毛; 丁湘陵; 谷庆
Original assignee: Hunan University of Science and Technology; Zhengzhou Xinda Institute of Advanced Technology
Current assignee: Hunan University of Science and Technology; Zhengzhou Xinda Institute of Advanced Technology
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-04-04

Abstract

本申请公开了一种深度视频插帧检测方法，包括如下步骤：提取视频帧序列中的双向光流及帧间运动异常区域，将双向光流输入ParNet网络提取局部特征，利用运动注意力机制关注帧间运动异常区域，增强篡改特征；提取视频帧序列中的单帧运动异常区域输入Transformer网络进行信息重组，将关联较强的信息聚合以凸显篡改痕迹，提取全局特征；将所述局部特征和所述全局特征聚合后输入全连接层进行分类，输出真假帧的分类结果。本申请可以对深度帧率上转换篡改进行有效的检测，可以满足视频真实性和完整性的验证要求，具备较高的判别精度。本申请还提供一种深度视频插帧检测装置及一种计算机可读存储介质。

Description

深度视频插帧检测方法、装置及计算机可读存储介质

技术领域

本申请属于视频信息安全技术领域，具体涉及一种深度视频插帧检测方法、装置及计算机可读存储介质。

背景技术

视频帧率上转换也称视频插帧，通过在相邻视频帧之间生成插值帧提高原始视频的帧率，增加原始视频的运动连续性。随着深度学习的火热，深度插帧算法逐渐成为主流，深度插帧算法能够保证插帧与相邻帧在时域上保持较高的一致性，使得帧率上转换后的视频依然自然、流畅,让观察者无法仅靠视觉直接察觉曾经插值的痕迹。

相关技术中，通过将双向光流输入卷积网络中，提取增强运动矢量上的判别特征，突出残差，然后融合学习到的特征，得到最终的检测结果。但是这种检测方法由于重编码操作消除干扰模块后的压缩工件混合了插帧篡改留下的痕迹，也会受到双重压缩或多重压缩效应的影响，使得判别的精度较低。因此，实有必要提供一种深度视频插帧检测方法、装置及计算机可读存储介质以解决上述问题。

发明内容

本申请实施例的目的是提供一种深度视频插帧检测方法、装置及计算机可读存储介质，从运动区域捕捉篡改视频中遗留的微弱篡改痕迹，采用ParNet网络提取局部特征，采用Transformer提取全局特征，最后利用全连接层实现对样本的分类检测，实现真假帧的判别，具备较高的判别精度。

为了解决上述技术问题，本申请是这样实现的：

一种深度视频插帧检测方法，包括如下步骤：

S1:提取视频帧序列中的双向光流及帧间运动异常区域，将双向光流输入ParNet网络提取局部特征，利用运动注意力机制关注帧间运动异常区域，增强篡改特征；

S2:提取视频帧序列中的单帧运动异常区域输入Transformer网络进行信息重组，将关联较强的信息聚合以凸显篡改痕迹，提取全局特征；

S3:将所述局部特征和所述全局特征聚合后输入全连接层进行分类，输出真假帧的分类结果。

优选的，所述步骤S1中，视频帧序列表示为：{F₁,F₂…F_i…F_N}，其中F_i表示第i个视频帧，N表示视频帧总数。

优选的，视频帧序列中双向光流的提取过程为：

采用PWC-Net网络获取时序上连续两帧的光流，运算的过程为：

式中，j∈{1,2…N-1}，

表示第j个视频帧的前向光流，

表示第j个视频帧的后向光流,

表示第j个视频帧的双向光流，Net(·)表示采用PWC-Net网络进行光流提取操作。

优选的，帧间运动异常区域的提取过程为：

构建ConvGRU_Z网络，对所述视频帧序列{F₁,F₂…F_i…F_N}中每一帧的下一帧进行预测，得到预测帧序列{F′₁，F′₂…F′_i…F′_N}；

将所述预测帧序列{F′₁，F′₂…F′_i…F′_N}中的最后一帧F′_N与所述视频帧序列{F₁,F₂…F_i…F_N}中的第一帧F₁作差，得到帧间异常区域，运算过程表示为：

EME＝(F′_N-F₁)

式中，EME表示帧间运动异常区域。

优选的，所述ConvGRU_Z网络包括多个依次连接的预测单元，所述预测单元包括编码器和解码器，所述编码器包括四个依次设置的编码单元，每个所述编码单元均包括一个卷积模块及一个第一GRU模块，所述卷积模块和所述GRU模块的核尺寸均为3×3，步长为2，填充为1；所述解码器包括四个依次设置的解码单元，每个所述解码单元均包括一个第二GRU模块和一个反卷积模块，所述第二GRU模块和所述反卷积模块的核尺寸为4×4，步长为2，填充为1。

优选的，所述ConvGRU_Z网络的预测过程为：

选取所述视频帧序列{F₁,F₂…F_i…F_N}中的连续多帧{F_n,F_n+1…F_n+k…F_n+m}作为输入帧，送入所述ConvGRU_Z网络；

将所述输入帧中的帧F_n作为第一个所述预测单元的输入，输出对下一帧F_n+1的预测帧F′_n；

计算预测帧F′_n关于帧F_n+1的对称扭曲帧

将对称扭曲帧

作为第二个所述预测单元的输入，输出对下一帧F_n+2的预测帧F′_n+1，其中，

以此类推，计算前一个预测单元输出的预测帧F′_n+k-1关于帧F_n+k的对称扭曲帧

将对称扭曲帧

作为当前预测单元的输入，输出对下一帧的预测帧F′_n+k，其中，

多次迭代，直至输出对F_n+m帧下一帧的预测，完成对连续多帧{F_n,F_n+1…F_n+k…F_n+m}的预测；

调整连续多帧{F_n,F_n+1…F_n+k…F_n+m}的取值范围，完成对整个视频帧序列{F₁,F₂…F_i…F_N}的预测。

优选的，所述ParNet网络包括三个并行的子网络，每个子网络用于处理不同分辨率的特征，每个所述子网络的末端连接一个运动注意力机制，所述运动注意力机制由两个卷积层串联而成，第一个卷积层的卷积核尺寸为3×3、步长为1、填充为1，由Relu函数激活；第二个卷积层的卷积核尺寸为1×1、步长为1、填充为0，由Sigmoid函数激活；三个所述子网络在所述ParNet网络的后期融合；

三个所述子网络末端的运动注意力机制的特征图的通道数分别为90、180、180。

优选的，单帧运动异常区域的提取过程为：

利用所述ConvGRU_Z网络进行预测，将任意视频帧F_i与对下一帧的预测帧F′_i作差获得单帧运动异常区域S_i，运算过程表示为：

S_i＝F_i-F_i′。

本申请还提供一种深度视频插帧检测装置，其特征在于，包括：

局部特征提取模块:提取视频帧序列中的双向光流及帧间运动异常区域，将双向光流输入ParNet网络提取局部特征，利用运动注意力机制关注帧间运动异常区域，增强篡改特征；

全局特征提取模块:提取视频帧序列中的单帧运动异常区域输入Transformer网络进行信息重组，将关联较强的信息聚合以凸显篡改痕迹，提取全局特征；

判别模块:将所述局部特征和所述全局特征聚合后输入全连接层进行分类，输出真假帧的分类结果。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如上述的方法。

在本申请实施例中，利用ParNet网络提取局部特征，采用ConvGRU_Z加强对运动区域的关注，可以增强篡改特征；然后利用Transformer网络将图像分块，利用自注意力机制对图像进行重组，提取输入帧的全局信息，凸显篡改痕迹，然后局部特征和全局特征聚合后，利用全连接层输出真假帧的分类结果，可以对视频插帧篡改进行有效的检测，满足视频真实性和完整性的验证要求，具备较高的判别精度。

附图说明

图1是本申请提供的一种深度视频插帧检测方法的流程框图；

图2是ConvGRU_Z网络的架构图；

图3是Transformer网络的架构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1表示的是本申请提供的一种深度视频插帧检测方法的流程框图；本申请提供的一种深度视频插帧检测方法，包括如下步骤：

S1:提取视频帧序列中的双向光流及帧间运动异常区域，将双向光流输入ParNet网络提取局部特征，利用运动注意力机制关注帧间运动异常区域，增强篡改特征。

在本实施例中，定义视频帧序列{F₁,F₂…F_i…F_N}，其中F_i表示第i个视频帧，N表示视频帧总数。

视频帧序列中双向光流的提取过程为：

采用PWC-Net网络获取时序上连续两帧的光流，运算的过程为：

式中，j∈{1,2…N-1}，

表示第j个视频帧的前向光流，

表示第j个视频帧的后向光流,

表示第j个视频帧的双向光流，Net(·)表示采用PWC-N_et网络进行光流提取操作。

需要说明的是，PWC-Net网络提取光流属于本领域的常规技术，提取的原理为：首先通过CNN卷积得到多层的特征，然后从低分辨率开始估计光流，并将低分辨率的光流上采样到高分辨率，同时构建costvolume和预测当前分辨率的光流，最后逐步得到最终分辨率的光流结果。

帧间运动异常区域的提取过程为：

将所述预测帧序列{F′₁，F′₂…F′_i…F′_N}中的最后一帧F′_N与所述视频帧序列{F₁,F₂…F_i…F_N}中的第一帧F₁作差，得到帧间异常区域，运算过程表示为：EME＝(F′_N-F₁)

式中，EME表示帧间运动异常区域。

如图2所示，图2表示的是所述ConvGRU_Z网络的架构图，如图2所示，所述ConvGRU_Z网络100包括多个依次连接的预测单元10，所述预测单元10包括编码器11和解码器12，所述编码器11包括四个依次设置的编码单元(Ecell)111，每个所述编码单元111均包括一个卷积模块及一个第一GRU模块，所述卷积模块和所述GRU模块的核尺寸均为3×3，步长为2，填充为1；所述解码器12包括四个依次设置的解码单元(Dcell)121，每个所述解码单元121均包括一个第二GRU模块和一个反卷积模块，所述第二GRU模块和所述反卷积模块的核尺寸为4×4，步长为2，填充为1。

所述ConvGRU_Z网络的预测过程为：

计算预测帧F′_n关于帧F_n+1的对称扭曲帧

将对称扭曲帧

将对称扭曲帧

传统的ConvGRU网络只能通过更新网络参数来训练网络，而忽视了视频在时域上的内在联系。在极短的时间内，同一视频帧序列预测具有相同的运动趋势，本申请提出的ConvGRU_Z网络利用这个趋势，计算原始帧的对称扭曲帧作为网络输入，从时域上考虑，使得预测帧与真实帧更加逼近。

具体的，在本实施方式中，所述ConvGRU_Z网络100包括四个所述预测单元10，可以输出对连续四帧的预测，所述ConvGRU_Z网络100的网络参数如表1所示：

表1ConvGRU_Z网络的网络参数

如图2所示，展示的是对连续四帧{F_n,F_n+1,F_n+2,F_n+3}的预测结果。

所述ParNet网络100属于本领域的常规技术，如图1所示，图1展示了所述ParNet网络的架构图，所述ParNet网络包括三个并行的子网络，每个子网络用于处理不同分辨率的特征，三个所述子网络在所述ParNet网络100的后期融合，每个所述子网络的末端连接一个运动注意力机制，所述运动注意力机制由两个卷积层串联而成，第一个卷积层的卷积核尺寸为3×3、步长为1、填充为1，由Relu函数激活；第二个卷积层的卷积核尺寸为1×1、步长为1、填充为0，由Sigmoid函数激活；

如图1所示，所述ParNet网络200的三个子网络分别为第一子网络210、第二子网络220及第三子网络230，第一子网络210的末端连接第一运动注意力机制211，第二子网络220的末端连接运动第二运动注意力机制221，第三子网络230的末端连接第三运动注意力机制231。

对于局部特征提取，以ParNet网络作为主干网络，ParNet网络是基于卷积的特征提取网络，通过设计的步长从左至右，从上到下进行卷积。传统的神经网络通常通过增强网络的深度来达到更好的性能，但这会带来更大的计算量和更高的延迟。ParNet提出了一种深度较低的并行子网架构，通过拓展网络的“宽度”达到高性能，可以有效的减少计算量并迅速响应。

视频插帧篡改检测主要的取证线索集中在运动区域。而ParNet网络提取特征主要模块是卷积，对于视频帧而言，卷积没有针对性，也就是说，缺乏对运动区域的关注。本申请的技术方案中，将运动注意力机制集成到ParNet网络上，让网络更加关注运动区域，从而提高网络性能。同时，所述运动注意力机制的添加为所述ParNet网络引入了Relu函数，在预防过拟合的同时，也避免了梯度消失。

单帧运动异常区域同样通过所述ConvGRU_Z网络来提取，将任意视频帧F_i与对下一帧的预测帧F′_i作差获得单帧运动异常区域S_i，运算过程表示为：S_i＝F_i-F′_i。

所述Transformer网络采用本领域的常规技术，如图3所示，图3表示的是Transformer网络300的架构图，图3中Conv表示的是普通2D卷积，S是步长，GELU表示GELU激活函数，BN表示批归一化，DW Conv表示是深度可分离卷积。

如图3所示，所述Transformer网络包括数据增强模块、Transformer模块及特征增强模块，其中，所述Transformer模块中的运算过程为：I+P＝Patch_Embed(image)+Position_Embed(image)

式中，I表示图片块信息，P表示图片块位置编码，Patch_Embed(image)表示对图片进行块编码操作，Position_Embed(image)表示图片位置编码操作；

式中，I′表示经过自注意力机制后重组后的块信息；

I₂＝Norm(I+P+I′)

式中，Norm(·)表示归一化处理，I₂表示归一化处理后的特征；

I₃＝Feed_forward(I₂)

式中，I₃表示对重组后的块信息进行信息增强的特征；Feed_forward(·)表示前向传播。

f_{globalfeature}＝Norm(I₂+I₃)

式中，f_{globalfeature}表示进行信息重组后的特征。

所述Transformer网络中图像的块尺寸为2×2，每一个块的编码维度为45；所述Transformer网络采用多头注意力机制，头数设置为2，块数设置为2。

对于全局特征提取，以Transformer为主干网络，首先对视频帧进行分块，通过自注意力机制计算块与块之间的关联程度，将关联性较强的信息聚合在一起。对于插帧而言，其与相邻帧的时空域具有高度的一致性，其与真实帧的主要不同点集中在运动区域。Transformer网络的机制在于计算块与块之间的相关性，那么合成的运动区域必然和其余的区域相差较大，也就是说关联性较低，那么在进行信息重组后，其提取的特征也会有较大差异，这就可以作为一种篡改痕迹进行检测。相较于卷积，Transformer网络是基于整个的特征图进行操作，而并非是关注于特征图中的某个区域。

在网络的训练过程中，设置CrossEntropyLoss损失函数以保证网络在训练中以较快的速度稳定收敛。

本申请还提供一种深度视频插帧检测装置，包括：

全局特征提取模块:提取视频帧序列中的单帧运动异常区域输入Transformer网络完成信息重组，将关联较强的信息进行聚合以凸显篡改痕迹，提取全局特征；

实施例1

选择视频集合DANVIS，该数据集共有210个视频，将210个原始视频送入深度视频帧率上转换方法，例如AdaCoF算法，进行视频帧率上转换篡改。训练集和测试集按照9:1的比例进行划分，即190个视频作为训练集，20个视频作为测试集。为了提高模型训练的时间，帧的分辨率转换成224×224。为了获得视频间的时序信息，网络输入利用时序上完全连续的4帧获得4组双向光流，将双向光流进行拼接后作为局部特征提取网络的输入，利用ConvGRU-Z网络预测的连续4帧作为全局特征提取网络的输入。

实验过程：

将4个连续帧的4组双向光流和预测的连续4帧作为一组训练数据，训练集中共有25660组数据用于训练，测试集中共有2760组数据进行测试。训练的过程中采用CrossEntropyLoss作为损失函数。

为验证所提网络的有效性，设置以下对比实验方案：

方案一：以双向光流作为ParNet网络的输入，提取特征后输入全连接层进行真假帧的判别；

方案二：以双向光流作为ResNet18网络的输入，提取特征后输入全连接层进行真假帧的判别；

方案三：采用本申请的技术方案；

不同方案的检测精度如表1所示：

表1不同方案的检测精度(％)

	方案一	方案二	方案三
				检测精度	80.69	89.22	99.26

从表1可以看出，采用本申请的技术方案可以获得更优的检测精度。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种深度视频插帧检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的深度视频插帧检测方法，其特征在于，视频帧序列表示为：{F₁,F₂…F_i…F_N}，其中F_i表示第i个视频帧，N表示视频帧总数。

3.根据权利要求2所述的深度视频插帧检测方法，其特征在于，视频帧序列中双向光流的提取过程为：

采用PWC-Net网络获取时序上连续两帧的光流，运算的过程为：

式中，j∈{1,2…N-1}，

表示第j个视频帧的前向光流，

表示第j个视频帧的后向光流,

4.根据权利要求2所述的深度视频插帧检测方法，其特征在于，帧间运动异常区域的提取过程为：

构建ConvGRU_Z网络，对所述视频帧序列{F₁,F₂…F_i…F_N}中每一帧的下一帧进行预测，得到预测帧序列{F₁′，F₂′…F_i′…F′_N}；

将所述预测帧序列{F₁′，F₂′…F_i′…F′_N}中的最后一帧F′_N与所述视频帧序列{F₁,F₂…F_i…F_N}中的第一帧F₁作差，得到帧间异常区域，运算过程表示为：EME＝(F′_N-F₁)

式中，EME表示帧间运动异常区域。

5.根据权利要求4所述的深度视频插帧检测方法，其特征在于，所述ConvGRU_Z网络包括多个依次连接的预测单元，所述预测单元包括编码器和解码器，所述编码器包括四个依次设置的编码单元，每个所述编码单元均包括一个卷积模块及一个第一GRU模块，所述卷积模块和所述GRU模块的核尺寸均为3×3，步长为2，填充为1；所述解码器包括四个依次设置的解码单元，每个所述解码单元均包括一个第二GRU模块和一个反卷积模块，所述第二GRU模块和所述反卷积模块的核尺寸为4×4，步长为2，填充为1。

6.根据权利要求5所述的深度视频插帧检测方法，其特征在于，所述ConvGRU_Z网络的预测过程为：

计算预测帧F′_n关于帧F_n+1的对称扭曲帧

将对称扭曲帧

将对称扭曲帧

7.根据权利要求1所述的深度视频插帧检测方法，其特征在于，所述ParNet网络包括三个并行的子网络，每个子网络用于处理不同分辨率的特征，每个所述子网络的末端连接一个运动注意力机制，所述运动注意力机制由两个卷积层串联而成，第一个卷积层的卷积核尺寸为3×3、步长为1、填充为1，由Relu函数激活；第二个卷积层的卷积核尺寸为1×1、步长为1、填充为0，由Sigmoid函数激活；三个所述子网络在所述ParNet网络的后期融合；

8.根据权利要求6所述的深度视频插帧检测方法，其特征在于，单帧运动异常区域的提取过程为：

利用所述ConvGRU_Z网络进行预测，将任意视频帧F_i与对下一帧的预测帧F_i′作差获得单帧运动异常区域S_i，运算过程表示为：

S_i＝F_i-F_i′。

9.一种深度视频插帧检测装置，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的方法。