CN114118227A

CN114118227A - 基于频域感知时空自注意力变换网络的视频编辑检测方法

Info

Publication number: CN114118227A
Application number: CN202111295566.8A
Authority: CN
Inventors: 周杰; 鲁继文; 于炳耀
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-03-01
Anticipated expiration: 2041-11-03
Also published as: CN114118227B

Abstract

本申请提出了一种基于频域感知时空自注意力变换网络的视频编辑检测方法，包括：获取输入视频帧；对输入视频帧进行图像序列化生成完整的图像序列化编码；构建时空自注意力变换网络；对完整的图像序列化编码进行编码，并对编码结果进行下采样生成编码图像表征；对编码图像表征进行渐进上采样获得第一特征图组合；对输入视频帧进行频域特征感知得到频域感知特征图，之后对频域感知特征图进行预设次数的下采样，将下采样过程生成的所有特征图组成第二特征图组合；将第一特征图组合和第二特征图组合中相同大小的特征图互相级联融合，得到最终预测结果。本申请提高了方案的鲁棒性和准确性，减少了数据集中存在的类不平衡带来的影响。

Description

基于频域感知时空自注意力变换网络的视频编辑检测方法

技术领域

本申请涉及计算机视觉与机器学习技术领域，尤其涉及一种基于频域感知时空自注意力变换网络的视频编辑检测方法和非临时性计算机可读存储介质。

背景技术

视频编辑技术近年来越来越引人注目，而视频编辑技术主要包括修复视频序列里缺失的图像区域或者恢复受损的部分像素。视频编辑技术已被广泛使用在多个应用程序中，例如视频内容修复和虚拟现实。随着最近深度学习技术的进展，各种研究在视频编辑技术方面取得了惊人的进步，可以编辑视频的任意区域，例如去除可能是关键证据的对象区域。然而编辑后的视频变得越来越难以和真实视频加以区分，即使是人眼也难以辨别真假。而且，视频编辑技术的不断进步和快速发展也会诱使恶意攻击者伪造虚假视频发布一些假新闻，用以误导舆论导向。此外，视频编辑技术的滥用可能会构成潜在威胁并导致法律问题和社会问题。因此，急需提出有效的视频编辑检测方法，试图检测所呈现的视频是原始的真实的还是经过编辑的虚假的。

现在已有各种关于视频编辑技术的研究，它们分为两大类：基于区域关联的方法和基于数据驱动的方法。然而，上述两种方法都有一个重要问题——视频编辑技术从相似的区域或帧间直接参考甚至复制了相应的像素，或从类似的场景中学习相关的分布。因此，这些方法不可避免地留下线索和伪影，例如区域像素之间的不一致，区域边缘的急剧变化和无法习得完整的分布导致的区域模糊。因此，最近有研究开始关注视频编辑检测，但大多数现有的视频编辑检测方法是基于单帧的只输入一张图像的检测方法。此外，Peng Zhou首先提出了结合RGB图像和ELA信息的基于LSTM的框架来提取空间和时间特征进行视频编辑检测，但是该方法距离实际使用还有明显差距。

自注意力变换网络结构现在已成功应用于自然语言处理和机器翻译任务。由于自注意力变换网络的核心是自注意力机制，研究人员更倾向于利用自注意力变换网络来模拟远程依赖关系。最近，自注意力变换网络结构开始应用于一系列计算机视觉任务并带来了很大的突破。DETR利用编码器-解码器架构构建自注意力变换网络结构进行目标检测。此外，IPT开发了一种新的预训练自注意力变换网络结构作为低级计算机视觉任务的模型。同时，自注意力变换网络结构也引起了越来越多在视频处理方面的关注。VisTR将视频实例分割任务看作为直接的端到端序列解码问题并用自注意力变换网络结构完成序列实例分割。然而，到目前为止，还没有自注意力变换网络结构在视频修复检测中的应用。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种基于频域感知时空自注意力变换网络的视频编辑检测方法，解决了现有视频编辑检测技术中预测结果在时间维度上不一致的问题，通过提出频域感知时空自注意力变换网络来从时域、频域、空域三个维度提取特征提高预测结果的时间一致性和准确性。

本申请首次将自注意力变换网络结果引入到了视频编辑检测技术，时空的二维网络结构使得能同时提取时间信息和空间信息，同时通过提取频域感知信息来辅助整体的网络结构，提高了方案的鲁棒性和准确性，并且在混合损失函数的指导下优化整体框架，该函数直接与评估指标相关，减少了数据集中存在的类不平衡带来的影响。

本申请的第二个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本申请第一方面实施例提出了一种基于频域感知时空自注意力变换网络的视频编辑检测方法，包括：获取输入视频帧；对输入视频帧进行图像序列化，生成完整的图像序列化编码；构建时空自注意力变换网络，其中，时空自注意力变换网络包括编码器和解码器；将完整的图像序列化编码输入编码器中进行编码，并对编码结果进行下采样，生成编码图像表征；使用解码器对编码图像表征进行渐进上采样，获得第一特征图组合；对输入视频帧进行频域特征感知，得到频域感知特征图，之后对频域感知特征图进行预设次数的下采样，将下采样过程生成的所有特征图组成第二特征图组合，其中，预设次数与渐进上采样次数相同；将第一特征图组合和第二特征图组合中相同大小的特征图互相级联融合，得到最终预测结果。

可选地，在本申请的一个实施例中，对输入视频帧进行图像序列化，包括以下步骤：

将输入视频帧中的每帧输入图像分别切割为小块，之后将切割好的小块拉伸为向量，其中，小块为预设大小的正方形；

将向量拼接起来得到图像的初始化序列编码；

对初始化序列编码进行时域线性映射和空域线性映射，将时域线性映射结果和空域线性映射结果直接相加组成完整的图像序列化编码。

可选地，在本申请的一个实施例中，编码器由多个自注意力变换网络层堆叠构成，每一层自注意力变换网络层包含两个核心模块：多头自注意力模块和多层感知器。

可选地，在本申请的一个实施例中，编码器的编码过程表示为：

其中，LN(·)表示层正则化操作，

为MSA层的输出变量，z_l-1和z_l表示输入输出的编码图像表征。

可选地，在本申请的一个实施例中，通过使用卷积神经网络对特征图进行提取，完成下采样。

可选地，在本申请的一个实施例中，使用解码器对编码图像表征进行渐进上采样，包括以下步骤：

将编码器输出的编码图像表征按照顺序重新组合成正方形的形状；

使用卷积神经网络对组合后的图像进行固定次数的上采样，使得最终生成的特征图与原始图像大小相同，将上采样过程生成的所有特征图组成第一特征图组合。

可选地，在本申请的一个实施例中，对输入视频帧进行频域特征感知，包括以下步骤：

对输入视频帧进行离散余弦变换，将输入视频帧中的图像转化为频谱图；

依据能量平均原则，将频谱图划分为三个部分：低频部分、中频部分和高频部分；

对频谱图的三个部分做逆离散余弦变换，得到输入图像对应的低频部分、中频部分、高频部分。

可选地，在本申请的一个实施例中，还包括对时空自注意力变换网络进行训练，生成预测器，训练过程使用的复合损失函数表示为：

其中，λ₁和λ₂为超参数，用以控制Focal损失函数和mIoU损失函数所占的权重，

Focal损失函数表示为：

其中，

表示预测的像素值，y表示对应的二值编辑区域标签，α和γ代表Focal损失函数内自带的超参数，

mIoU损失函数表示为：

其中，

表示预测的像素值，y表示对应的二值编辑区域标签，∈为极小数，用来确保不会出现除以0的错误情况。

为了实现上述目的，本申请第二方面实施例提出了一种非临时性计算机可读存储介质，当存储介质中的指令由处理器被执行时，能够执行一种基于频域感知时空自注意力变换网络的视频编辑检测方法。

本申请实施例的基于频域感知时空自注意力变换网络的视频编辑检测方法和非临时性计算机可读存储介质，解决了现有视频编辑检测技术中预测结果在时间维度上不一致的问题，通过提出频域感知时空自注意力变换网络来从时域、频域、空域三个维度提取特征提高预测结果的时间一致性和准确性。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的一种基于频域感知时空自注意力变换网络的视频编辑检测方法的流程图；

图2为本申请实施例的基于频域感知时空自注意力变换网络的视频编辑检测方法的另一个流程图；

图3为本申请实施例的基于频域感知时空自注意力变换网络的视频编辑检测方法的提取频域感知特征的示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于频域感知时空自注意力变换网络的视频编辑检测方法。

图1为本申请实施例一所提供的一种基于频域感知时空自注意力变换网络的视频编辑检测方法的流程图。

如图1所示，该基于频域感知时空自注意力变换网络的视频编辑检测方法包括以下步骤：

步骤101，获取输入视频帧；

步骤102，对输入视频帧进行图像序列化，生成完整的图像序列化编码；

步骤103，构建时空自注意力变换网络，其中，时空自注意力变换网络包括编码器和解码器；

步骤104，将完整的图像序列化编码输入编码器中进行编码，并对编码结果进行下采样，生成编码图像表征；

步骤105，使用解码器对编码图像表征进行渐进上采样，获得第一特征图组合；

步骤106，对输入视频帧进行频域特征感知，得到频域感知特征图，之后对频域感知特征图进行预设次数的下采样，将下采样过程生成的所有特征图组成第二特征图组合，其中，预设次数与渐进上采样次数相同；

步骤107，将第一特征图组合和第二特征图组合中相同大小的特征图互相级联融合，得到最终预测结果。

本申请实施例的基于频域感知时空自注意力变换网络的视频编辑检测方法，通过获取输入视频帧；对输入视频帧进行图像序列化，生成完整的图像序列化编码；构建时空自注意力变换网络，其中，时空自注意力变换网络包括编码器和解码器；将完整的图像序列化编码输入编码器中进行编码，并对编码结果进行下采样，生成编码图像表征；使用解码器对编码图像表征进行渐进上采样，获得第一特征图组合；对输入视频帧进行频域特征感知，得到频域感知特征图，之后对频域感知特征图进行预设次数的下采样，将下采样过程生成的所有特征图组成第二特征图组合，其中，预设次数与渐进上采样次数相同；将第一特征图组合和第二特征图组合中相同大小的特征图互相级联融合，得到最终预测结果。由此，能够解决现有视频编辑检测技术中预测结果在时间维度上不一致的问题，通过提出频域感知时空自注意力变换网络来从时域、频域、空域三个维度提取特征提高预测结果的时间一致性和准确性。

实际上，在视频编辑检测中，最重要的事情之一就是发现视频帧之间的关联和区域之间的差异。现有的方法通常采用注意力模型和记忆机制，但是二者的生硬结合会导致预测结果在时间维度上不一致。本申请构建了包括编码器和解码器在内的自注意力变换网络以使用多头自注意力机制捕获空间和时间伪影。此外，将频率感知特征作为辅助信息监督训练，以便正则化上采样预测掩码的操作以改善算法的泛化性。之后，在混合损失函数的指导下优化整体框架，该损失函数可以减少数据集中存在的类不平衡带来的影响。在网络训练完成后，就得到了具有泛化性的预测器，可以给定视频就预测出视频的真伪性。

进一步地，在本申请实施例中，为了满足一般自注意力变换网络的输入格式，首先需要将视频帧进行序列化，对输入视频帧进行图像序列化，包括以下步骤：

将向量拼接起来得到图像的初始化序列编码；

图像序列化编码：

其中，z₀表示完整的图像序列化编码，

为第t帧图像的第i块区域的编码，而E和E₀分别代表时域线性映射和空域线性映射，E_pos表示可学习的位置编码。

进一步地，在本申请实施例中，编码器包括由多个自注意力变换网络层堆叠构成，每一层自注意力变换网络层包含两个核心模块：多头自注意力模块和多层感知器。

编码器由一系列的自注意力变换网络层堆叠构成(本申请在实验中设置为8层)，而每一层自注意力变换网络层包含两个核心模块：多头自注意力模块和多层感知器。

进一步地，在本申请实施例中，编码器的编码过程表示为：

其中，LN(·)表示层正则化操作，

在本申请自注意力变换网络层中，采用了L层多头自注意力模块和多层感知器。

进一步地，在本申请实施例中，通过使用卷积神经网络对特征图进行提取，完成下采样。

利用卷积神经网络，对特征图进行逐步提取，随着卷积操作的进行，特征图的大小会逐渐成倍变小，如1/2,1/4,1/8，称之为下采样操作。

进一步地，在本申请实施例中，使用解码器对编码图像表征进行渐进上采样，包括以下步骤：

首先将最后编码器输出的编码图像表征按照顺序重新组合为正方形的形状，此时为输入图像的1/16大小，之后利用卷积神经网络依次将该表征扩大两倍大小，经过四次上采样操作后就可以获得和原图同样大小的特征图。

进一步地，在本申请实施例中，对输入视频帧进行频域特征感知，包括以下步骤：

依次对三个部分做逆离散余弦变换(Inversed Discrete Cosine Transform,IDCT)即可得到输入图像对应的低频部分、中频部分和高频部分：

其中，I_i为图像经过频域转化后对应的低频部分、中频部分或高频部分，I为输入的图像，

为离散余弦变换，⊙为逐元素成绩操作，f_i为低频、中频或者高频滤波器，而

为逆离散余弦变换。

在得到了图像在不同频段的部分之后，将不同频段的成分级联组合，组成最终的频域感知特征。此时频域感知特征就和原图有着同样的大小，可以用卷积神经网络对频域感知特征进行编码，依次将该特征图通过下采样操作缩小两倍，最终经过四次下采样操作就能得到原图1/16大小的特征图，这样就可以和构建时空自注意力变换网络中的不同大小特征图一一对应起来，通过将相同大小的特征图互相级联融合，就能利用频域感知特征对自注意力变换网络的解码器解码过程进行正则化，那么最终得到的预测结果就具有更高的准确性和鲁棒性。

进一步地，在本申请实施例中，还包括对时空自注意力变换网络进行训练，生成预测器，训练过程使用的复合损失函数表示为：

Focal损失函数表示为：

其中，

mIoU损失函数表示为：

其中，

为了进一步提高模型的准确性和泛化性，提出了一种混合损失函数来指导整体框架的优化过程。使用Focal损失函数，来解决数据中正负样本(也即编辑过的区域和未编辑过的区域)数目不均衡的问题，其中α和γ这两个可学习的超参数可以根据正负样本的数目自动调节。另一方面，为了提高预测结果的准确性，采用了评价指标mIoU(meanIntersection of Union)作为第二个损失函数。

在网络训练完成后，就得到了具有很高准确性和泛化性的预测器，可以根据给定视频预测出视频的真伪性和编辑过的区域。

本申请对于给定的视频，通过时空自注意力变换网络建模远程依赖以学习跨多个帧的时间信息，并利用自注意力机制来探索补丁之间的空间特征，与此同时，对视频帧分别提取频域感知特征作为辅助信息监督预测过程，以便上采样预测掩码的操作被正则化以改善算法的泛化性，接着通过卷积神经网络和时空自注意力变换网络的解码器配合生成对应的预测结果。

图2为本申请实施例的基于频域感知时空自注意力变换网络的视频编辑检测方法的另一个流程图。

如图2所示，该基于频域感知时空自注意力变换网络的视频编辑检测方法，当输入一系列帧时，首先对输入图片进行序列化，接着利用两层线性映射层从时空角度生成对应编码。之后将编码输入到自注意力变换网络的编码器内，编码器由8个自注意力变换网络层堆叠构成，而每一层自注意力变换网络层的结构如图2左侧所示，包含两个核心模块：多头自注意力模块和多层感知器，且每一个核心模块的输入会先进行层正则化操作。与此同时，将提取的频域感知特征图通过卷积神经网络依次下采样，和自注意力变换网络的编码器上采样生成的特征图依据大小对应结合，生成最后的预测结果图。

如图3所示，左侧三行从上到下依次为原始的视频帧、经过编辑之后视频帧、以及展示编辑部分的标签图，在将编辑后的视频帧经过DCT变换之后，通过三个滤波器将频谱图分为三个频段的不同部分，之后再依次通过IDCT变换获得所需的频域感知特征图。观察图3，可以发现不同频段的特征图能有效揭示编辑过的区域差异。

为了实现上述实施例，本申请还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例的基于频域感知时空自注意力变换网络的视频编辑检测方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。