CN114743148A

CN114743148A - 多尺度特征融合篡改视频检测方法、系统、介质和设备

Info

Publication number: CN114743148A
Application number: CN202210451983.5A
Authority: CN
Inventors: 郎宇博; 晏志远; 孙鹏; 周纯冰
Original assignee: China Criminal Police University
Current assignee: China Criminal Police University
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-07-12

Abstract

本发明涉及一种多尺度特征融合篡改视频检测方法、系统、介质和设备，包括：通过视频流获得视频帧，在每一视频帧中提取人脸区域图像；对人脸区域图像进行数据增强；将经过增强的人脸区域图像输入Xception网络提取人脸区域图像的空间篡改特征向量；将空间篡改特征向量分别输入FPN和LSTM网络提取对应的特征向量；将FPN和LSTM网络提取的特征向量进行多维特征融合，获得融合特征向量；将融合特征向量输入SVM分类器，SVM分类器的输出结果能够对视频流是否被篡改进行表征。其不仅较大程度的提升了模型在检测时的准确率、鲁棒性和泛化性，同时也在一定程度上提高了模型对于不同压缩率、不同尺度大小图像的检测能力。

Description

多尺度特征融合篡改视频检测方法、系统、介质和设备

技术领域

本发明涉及一种多尺度特征融合篡改视频检测方法、系统、介质和设备，属于视频检测技术领域，特别涉及基于深度学习算法的篡改视频检测技术领域。

背景技术

随着人工智能技术的不断发展，基于深度学习的人脸篡改技术越发成熟，以Deepfake为代表的一类人脸篡改方法在互联网广泛传播，其具有学习成本低、篡改效果逼真、欺骗性强等特点，对社会造成了一定程度的消极影响。

目前，对于篡改视频的检测工作，可以简要分为两个大类，基于手工特征的检测方法以及基于深度学习的检测方法。基于手工构造特征进行深度伪造视频检验方法，往往需要针对篡改视频与真实视频的差异，构造一种或几种有效的特征提取器，当待检验视频中不存在该类特征时，检验准确率将大幅下降，因此该类方法的泛化能力存在较大局限性

而基于深度学习的篡改视频检测方法往往是通过卷积神经网络，在空间域上学习输入样本的特征；或者通过LSTM等时序网络学习样本的时间域特征；亦或者通过FFT等方法将输入映射到频率域后再提取频域特征。然而，这些方法都存在跨库检测效果的鲁棒性差、过拟合现象严重、模型泛化能力不足等缺陷，以及针对不同尺度大小图像的检测能力下降等问题；除此之外，对于目前提出的很多基于多特征融合的篡改视频检测算法也存在不同特征在融合时直接采用等权重的缺点。

发明内容

针对上述问题，本发明的目的是提供一种多尺度特征融合篡改视频检测方法、系统、介质和设备，其不仅较大程度的提升了模型在检测时的准确率、鲁棒性和泛化性，同时也在一定程度上提高了模型对于不同压缩率、不同尺度大小图像的检测能力。

为实现上述目的，本发明提出了以下技术方案：一种多尺度特征融合篡改视频检测方法，包括：通过视频流获得视频帧，在每一视频帧中提取人脸区域图像；对人脸区域图像进行数据增强；将经过增强的人脸区域图像输入Xception网络提取人脸区域图像的空间篡改特征向量；将空间篡改特征向量分别输入FPN和LSTM网络提取对应的特征向量；将FPN和LSTM网络提取的特征向量进行多维特征融合，获得融合特征向量；将融合特征向量输入SVM分类器，SVM分类器的输出结果能够对视频流是否被篡改进行表征。

进一步，提取人脸区域图像的方法为：使用OpenCV对视频流进行采样得到视频帧序列{frame1,frame2,…,frameN}；通过MTCNN人脸检测算法对视频帧序列中每个视频帧进行人脸检测与提取，并将提取出的人脸区域RGB图像调整为统一大小，得到人脸区域图像序列{face1,face2,…,faceN}。

进一步，数据增强的方法包括图像裁剪、随机翻转、随机添加高斯噪声，随机添加模糊处理、随机添加仿射变换及随机亮度对比度调整。

进一步，对经过数据增强的人脸区域图像构建数据迭代器，以实现迭代数据的批次化读取。

进一步，Xception网络中，将最后的分类层替换为最大池化层。

进一步，FPN网络用于提取伪造视频中视频篡改特征，LSTM网络用于学习特征空间相邻维度之间的抽象语义信息。

进一步，多维特征融合的方法为：将FPN及LSTM网络输出的特征向量拼接为拼接特征向量；将拼接特征向量输入SENet网络，得到各通道的权重特征向量；通过将拼接特征向量和各通道的权重特征向量中逐个元素相乘，获得融合特征向量。

本发明还公开了一种多尺度特征融合篡改视频检测系统，包括：人脸提取模块，用于通过视频流获得视频帧，在每一视频帧中提取人脸区域图像；图像增强模块，用于对人脸区域图像进行数据增强；空间篡改特征提取模块，用于将经过增强的人脸区域图像输入Xception网络提取人脸区域图像的空间篡改特征向量；语义特征提取模块，用于将空间篡改特征向量分别输入FPN和LSTM网络提取对应的特征向量；特征融合模块，用于将FPN和LSTM网络提取的特征向量进行多维特征融合，获得融合特征向量；SVM输出模块，用于将融合特征向量输入SVM分类器，SVM分类器的输出结果能够对视频流是否被篡改进行表征。

本发明还公开了一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行根据任一项上述的多尺度特征融合篡改视频检测方法。

本发明还公开了一种计算设备，包括：一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行根据任一项上述的多尺度特征融合篡改视频检测方法。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明在数据预处理阶段使用了包括图像裁剪、随机翻转、随机添加高斯噪声，随机添加模糊处理、随机添加仿射变换及随机亮度对比度调整等多种图像数据增强手段，有效提升了模型的鲁棒性及泛化性；

2、本发明通过引入FPN特征金字塔网络，将不同尺度下的特征进行融合，一定程度上提高了模型对于不同压缩率、不同尺度大小图像的检测能力，避免了目前绝大数主流模型存在的跨库检测明显下降的问题；

3、本发明通过引入LSTM网络，能够有效的学习特征空间相邻维度之间的相关信息，找到特征与特征之间的抽象联系，进一步增强模型的泛化能力；

4、本发明通过在特征融合时添加注意力机制，避免了特征之间直接等权重叠加的情况，相反，网络通过训练能够学习不同特征之间权重的占比，能够更好完成特征的融合，较大程度的提升了模型在检测时的鲁棒性和泛化性，同时也显著提高了训练的准确率。

附图说明

图1是本发明一实施例中的多尺度特征融合篡改视频检测方法的示意图；

图2是本发明中篡改视频检测方法与六种不同的现有检测方法的比较图，图2(a)是训练准确度图像，图2(b)是训练损失图像。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方向，通过具体实施例对本发明进行详细的描绘。然而应当理解，具体实施方式的提供仅为了更好地理解本发明，它们不应该理解成对本发明的限制。在本发明的描述中，需要理解的是，所用到的术语仅仅是用于描述的目的，而不能理解为指示或暗示相对重要性。

本发明涉及一种多尺度特征融合篡改视频检测方法、系统、介质和设备，其通过提取视频帧中人脸区域RGB图像，先将图像数据输入Xception网络进行初步特征提取；再分别传入FPN网络和LSTM网络提取不同尺度图像的图像篡改信息和空间相邻维度的相关信息，最后通过SVM分类器进行特征分类，得到最终的检测结果。本发明通过数据增强手段模拟Deepfake篡改视频上传到互联网后产生的噪声、模糊及亮度、对比对变化，同时引入FPN及LSTM网络实现不同尺度Deepfake篡改信息与特征空间相邻维度的相关信息特征融合，在此基础上利用注意力机制实现了特征融合权重的自学习，上述手段显著提高了模型的泛化能力以及跨数据集检测的鲁棒性。下面结合附图，通过几个实施例对本发明中方案进行详细说明。

实施例一

本实施例公开了一种多尺度特征融合篡改视频检测方法，如图1所示，包括：

S1通过视频流按照设定帧率进行采样获得视频帧，通过MTCNN人脸检测算法对视频帧序列的每一个视频帧中提取人脸区域图像，该人脸区域图像为RGB图像。

在本实施例中选择的数据集是Celeb-DFv1，其中含有408个来自于YouTube中的原始视频，并通过Deepfake工具合成了795个伪造的Deepfake篡改视频。将数据集中的真、假视频流分别按预设帧率k进行采样并解码得到视频帧，通过OpenCV的VideoCapture类将视频流解码，并将对应得到的所有视频帧保存在以该视频文件命名的文件夹中，即完成了所有视频流提取工作；得到视频帧序列{frame1,frame2,…,frameN}。

在提取视频帧序列中每个视频帧后，遍历所有视频文件夹中得到视频帧，并通过OpenCV进行保存。通过pytorch_facenet软件中集成的MTCNN人脸检测算法对视频帧序列中每个视频帧进行人脸检测与提取，得到人脸区域图像序列{face1,face2,…,faceN}。MTCNN人脸检测算法在进行实例化的时候，通过添加传入参数output_size将所有提取的人脸区域图像调整为统一大小。统一大小在本实施例中优选为224×224×3，其中，224和3均为像素值。通过numpy软件中的save函数将所有人脸区域图像的数据以numpy中ndarray的形式存储在一个npy文件，同理将所有与人脸区域图像对应的标签也转化为numpy的ndarray格式后存储在一个npy文件中，完成即得到了两个npy文件，分别存储了人脸区域图像及其对应的标签。

S2对人脸区域图像进行数据增强。

在训练过程中，为了增强模型的泛化能力，对人脸区域图像序列{face1,face2,…,faceN}进行图像数据增强操作，数据增强的方法包括图像裁剪、随机翻转、随机添加高斯噪声，随机添加模糊处理、随机添加仿射变换及随机亮度对比度调整。

对经过数据增强的人脸区域图像构建数据迭代器DataLoader，以实现迭代数据的批次化读取数据集中的样本和标签。因此需要构建一个Deepfake_dataset的类，并将其传入PyTorch中数据迭代器DataLoade的类中完成数据迭代器的构建。而Deepfake_dataset类继承于PyTorch中nn.datasets类，需要实现__init__初始化，__len__获取数据集大小和__getitem__按批次取出样本和标签。在__getitem__中，需要读取npy文件，分别将人脸区域图像及其对应的标签的npy文件从ndarray形式转换为PyTorch中的Tensor格式，使用albumentations工具对图像进行图像裁剪、随机翻转、随机添加高斯噪声，随机添加模糊处理、随机添加仿射变换及随机亮度对比度调整等操作。随后对增强后数据进行标准化处理，将数据转换为标准高斯分布的形式，标准化处理数据后能够加快训练时反向传播。数据标准化处理的具体公式如下：

其中，mean表示各通道的均值，std表示各通道的标准差。考虑到在正式训练时候会用到Xception网络的预训练权重进行特征提取，因此，本实施例中将mean与std的数值分别设置为[0.485,0.456,0.406]与[0.229,0.224,0.225]，该数值是Xception网络在ImageNet数据集进行大规模训练时计算得到的，具有较好的普适性和准确性。

S3将经过增强的人脸区域图像输入Xception网络提取人脸区域图像的空间篡改特征向量。

Xception网络中，将最后的分类层替换为最大池化层，使得其输出尺寸优选为1×1×2048的空间篡改特征向量，记为V_backbone，用于对初次特征提取的结果进行表征。

S4将空间篡改特征向量分别输入FPN和LSTM网络提取对应的特征向量。

FPN网络用于提取伪造视频中视频篡改特征，LSTM网络用于学习特征空间相邻维度之间的抽象语义信息。

将空间篡改特征向量V_backbone输入FPN特征金字塔网络，提取不同尺度图像的视频篡改特征。视频篡改特征包括视频篡改的空间痕迹，像人脸的伪影、色温的差异性等信息。输入FPN网络的向量维度是batch_size×1×1×2048，即用一个1×1的像素，通过嵌入2048维向量来表征整个图像的语义信息，这个语义信息是属于低尺度的语义信息，为了获得更高尺度的语义信息，需要通过卷积操作对输入向量进行三次上采样，最后通过PyTorch中的view操作将特征图进行展平并通过线性全连接层上采样后的特征图映射到256的空间维度，最后通过添加Drop out操作来缓解过拟合，得到输出向量V_fpn，其尺寸为1×256，其中256是FPN网络中隐藏层的大小。

将空间篡改特征向量V_backbone输入LSTM长短时记忆网络，提取特征空间下相邻维度间的抽象语义信息，空间篡改特征向量V_backbone的大小是batch_size×1×1×2048，本实施例通过PyTorch中的view操作将空间篡改特征向量V_backbone按照特征维度展开，将2048维特征分割为32个特征子集，每个特征子集包含64维特征向量，即分割后的尺寸为batch_size×32×64。随后将其输入序列长度为32，输入向量长度为64的LSTM网络中，得到输出向量V_lstm，其尺寸为1×256，其中256是LSTM网络隐藏层中的编码向量长度。

S5将FPN和LSTM网络提取的特征向量进行多维特征融合，获得融合特征向量。

本实施例中多维特征融合的方法为：

将FPN及LSTM网络输出的特征向量拼接为拼接特征向量，记为V_feature，其尺寸为1×512；

将拼接特征向量V_feature输入SENet网络，得到拼接特征向量各通道的权重特征向量，记为SE_weight，其尺寸为1×512；

通过将拼接特征向量和各通道的权重特征向量中逐个元素相乘，即V_feature⊙SE_weight，获得融合特征向量。

S6将融合特征向量输入经过预训练的SVM分类器，SVM分类器的输出结果能够对视频流是否被篡改进行表征。

本实施例，SVM分类器的初始学习率设置为0.0001，预热学习率设置为0.1，学习率的衰减策略使用余弦退火衰减动态调整学习率的大小，使得学习率衰减更加平滑。

SVM分类器的优化器采用AdamW，衰减因子设置为0.00005，batch_size设置为128，损失函数使用交叉墒，并在NVIDIA的TITANX显卡上训练10个epoches，输出结果通过visdom模块进行可视化并监视训练过程中各项指标的变化情况。

训练结束后保存模型权重参数，加载深度神经网络提取的特征并传入SVM分类器进行训练50个epoches，在SVM训练完成后即可以对新的伪造视频进行检测，判断待测视频流是否经过了Deepfake篡改。

为了验证模型性能，在控制变量的前提下，分别对下列不同的模型进行训练：Xcpetion、LSTM、Vision-Transformer、ResNet及本方法，在训练10个epoches后，通过visdom模块输出训练结果。如图2所示，图2(a)是训练准确度图像，图2(b)是训练损失图像。在训练准确率图像中，Proposed method为本实施例对应方法的准确率随训练代数变化曲线，可见本实施例方法相较于其他四种方法在训练初期即可获得较高准确率，同时随着代数增加，仍能获得四种方法中最高的准确率。在训练损失图像中，相较于其他方法，本实施例方法仍然可以获得最小的训练损失。故本实施例中相较现有的四种验证方法具有较好的模型性能。

实施例二

基于相同的发明构思，本实施例公开了一种多尺度特征融合篡改视频检测系统，包括：

人脸提取模块，用于通过视频流获得视频帧，在每一视频帧中提取人脸区域图像；

图像增强模块，用于对人脸区域图像进行数据增强；

空间篡改特征提取模块，用于将经过增强的人脸区域图像输入Xception网络提取人脸区域图像的空间篡改特征向量；

语义特征提取模块，用于将空间篡改特征向量分别输入FPN和LSTM网络提取对应的特征向量；

特征融合模块，用于将FPN和LSTM网络提取的特征向量进行多维特征融合，获得融合特征向量；

SVM输出模块，用于将融合特征向量输入SVM分类器，SVM分类器的输出结果能够对视频流是否被篡改进行表征。

实施例三

基于相同的发明构思，本实施例公开了一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行根据任一项上述的多尺度特征融合篡改视频检测方法。

实施例四

基于相同的发明构思，本实施例公开了一种计算设备，包括：一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行根据任一项上述的多尺度特征融合篡改视频检测方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。上述内容仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种多尺度特征融合篡改视频检测方法，其特征在于，包括：

通过视频流获得视频帧，在每一所述视频帧中提取人脸区域图像；

对所述人脸区域图像进行数据增强；

将经过增强的人脸区域图像输入Xception网络提取所述人脸区域图像的空间篡改特征向量；

将所述空间篡改特征向量分别输入FPN和LSTM网络提取对应的特征向量；

将FPN和LSTM网络提取的特征向量进行多维特征融合，获得融合特征向量；

将所述融合特征向量输入SVM分类器，所述SVM分类器的输出结果能够对视频流是否被篡改进行表征。

2.如权利要求1所述的多尺度特征融合篡改视频检测方法，其特征在于，所述提取人脸区域图像的方法为：使用OpenCV对视频流进行采样得到视频帧序列{frame1，frame2，...，frameN}；通过MTCNN人脸检测算法对视频帧序列中每个视频帧进行人脸检测与提取，并将提取出的人脸区域RGB图像调整为统一大小，得到人脸区域图像序列{face1，face2，...，faceN}。

3.如权利要求1所述的多尺度特征融合篡改视频检测方法，其特征在于，所述数据增强的方法包括图像裁剪、随机翻转、随机添加高斯噪声，随机添加模糊处理、随机添加仿射变换和随机亮度对比度调整。

4.如权利要求3所述的多尺度特征融合篡改视频检测方法，其特征在于，对经过所述数据增强的人脸区域图像构建数据迭代器，以实现迭代数据的批次化读取。

5.如权利要求1所述的多尺度特征融合篡改视频检测方法，其特征在于，所述Xception网络中，将最后的分类层替换为最大池化层。

6.如权利要求1所述的多尺度特征融合篡改视频检测方法，其特征在于，所述FPN网络用于提取伪造视频中视频篡改特征，所述LSTM网络用于学习特征空间相邻维度之间的抽象语义信息。

7.如权利要求1所述的多尺度特征融合篡改视频检测方法，其特征在于，所述多维特征融合的方法为：

将FPN及LSTM网络输出的特征向量拼接为拼接特征向量；

将拼接特征向量输入SENet网络，得到各通道的权重特征向量；

通过将拼接特征向量和各通道的权重特征向量中逐个元素相乘，获得融合特征向量。

8.一种多尺度特征融合篡改视频检测系统，其特征在于，包括：

人脸提取模块，用于通过视频流获得视频帧，在每一所述视频帧中提取人脸区域图像；

图像增强模块，用于对所述人脸区域图像进行数据增强；

空间篡改特征提取模块，用于将经过增强的人脸区域图像输入Xception网络提取所述人脸区域图像的空间篡改特征向量；

语义特征提取模块，用于将所述空间篡改特征向量分别输入FPN和LSTM网络提取对应的特征向量；

SVM输出模块，用于将所述融合特征向量输入SVM分类器，所述SVM分类器的输出结果能够对视频流是否被篡改进行表征。

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至7任一项所述的多尺度特征融合篡改视频检测方法。

10.一种计算设备，其特征在于，包括：一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至7任一项所述的多尺度特征融合篡改视频检测方法。