CN116524408A

CN116524408A - 基于面部特征增强以及光流评估的虚假视频检测方法

Info

Publication number: CN116524408A
Application number: CN202310511654.XA
Authority: CN
Inventors: 徐国璇; 王英龙; 舒明雷; 刘瑞霞; 陈超; 徐鹏摇
Original assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Current assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Priority date: 2023-05-09
Filing date: 2023-05-09
Publication date: 2023-08-01
Anticipated expiration: 2043-05-09
Also published as: CN116524408B

Abstract

一种基于面部特征增强以及光流评估的虚假视频检测方法，构建了一个能对面部虚假视频进行检测的模型，通过挖掘视频帧中的面部的细微特征，充分捕捉帧与帧脸部之间的差异，并利用帧与帧之间的光流特性，有效的对面部虚假视频进行检测，提高了检测的精确度。

Description

基于面部特征增强以及光流评估的虚假视频检测方法

技术领域

本发明涉及视频检测技术领域，具体涉及一种基于面部特征增强以及光流评估的虚假视频检测方法

背景技术

虚假视频是按顺序合成的数字媒体，制作内容逼真的假视频来欺骗观看者。利用生成对抗网络合成的虚假内容更加难以区分，用传统的检测方法效果并不理想。现有的工作大部分都是强调单个视频的空间属性，检测视频帧中的伪造人脸的特征，却忽略了帧与帧之间的时间信息。

发明内容

本发明为了克服以上技术的不足，提供了一种利用光流特征提取时间信息，从而实现对伪造内容的高精度鉴别的方法。

本发明克服其技术问题所采用的技术方案是：

一种基于面部特征增强以及光流评估的虚假视频检测方法，包括如下步骤：

a)利用虚假视频切帧模块将视频切割为n个视频帧；

b)构建特征提取模块，将相邻的第t个视频帧和第t+1个视频帧分别输入到特征提取模块中，得到特征X_t和特征X_t+1，tt∈{1,2,...,n-1}；

c)构建面部特征增强网络，将特征X_t输入到面部特征增强网络中，输出得到强化特征X′_t，将特征X_t+1输入到面部特征增强网络中，输出得到强化特征X′_t+1；

d)构建相关性学习模块，将强化特征X′_t与强化特征X′_t+1输入到相关性学习模块中，输出得到脸部判别特征y₁；

e)构建光流检测模块，将强化特征X′_t与强化特征X′_t+1输入到光流检测模块中，输出得到光流特征y₂；

f)将脸部判别特征y₁和光流特征y₂进行融合操作，生成特征y；

g)建立分类模块，将特征y输入到分类模块中，输出得到分类结果。

进一步的，步骤a)包括如下步骤：

a-1)将视频切割为n个视频帧；

a-2)利用python中的人脸识别库的dlib人脸识别算法捕获切割后的视频帧中面部128个定位点后执行缩放操作，得到大小为224×224的视频帧。

进一步的，步骤b)包括如下步骤：

b-1)特征提取模块由ResNet-18网络构成；

b-2)将第t个视频帧输入到ResNet-18网络中，输出得到特征X_t，X_t∈R^C×H×W，R为实数空间，C为通道数，H为特征的高，W为特征的宽；

b-3)将第t+1个视频帧输入到ResNet-18网络中，输出得到特征X_t+1，X_t+1∈R^C×H×W，R为实数空间，C为通道数，H为特征的高，W为特征的宽。

进一步的，步骤c)包括如下步骤：

c-1)面部特征增强网络由第一卷积层、第二卷积层、ReLU激活函数层、第三卷积层、第四卷积层、第五卷积层、第六卷积层构成；

c-2)将特征X_t输入到面部特征增强网络的第一卷积层中，输出得到特征

c-3)将特征输入到面部特征增强网络的第二卷积层中，输出得到特征/>

c-4)将特征输入到面部特征增强网络的ReLU激活函数层中，输出得到特征将特征/>与特征X_t进行特征融合，得到新特征/>

c-5)将特征输入到面部特征增强网络的第三卷积层中，输出得到特征/>c-6)将特征/>输入到面部特征增强网络的第四卷积层中，输出得到特征/>c-7)将特征/>与特征X_t进行拼接操作，生成新特征/>c-8)将特征/>输入到面部特征增强网络的第五卷积层中，输出得到特征/>c-9)将特征/>输入到面部特征增强网络的第六卷积层中，输出得到特征/>c-10)将特征/>特征/>特征/>融合生成强化特征X_t′；

c-11)将特征X_t+1输入到面部特征增强网络的第一卷积层中，输出得到特征

c-12)将特征输入到面部特征增强网络的第二卷积层中，输出得到特征/>

c-13)将特征输入到面部特征增强网络的ReLU激活函数层中，输出得到特征将特征/>与特征X_t+1进行特征融合，得到新特征/>c-14)将特征/>输入到面部特征增强网络的第三卷积层中，输出得到特征/>

c-15)将特征输入到面部特征增强网络的第四卷积层中，输出得到特征/>

c-16)将特征与特征X_t+1进行拼接操作，生成新特征/>c-17)将特征/>输入到面部特征增强网络的第五卷积层中，输出得到特征/>

c-18)将特征输入到面部特征增强网络的第六卷积层中，输出得到特征/>

c-19)将特征特征/>特征/>融合生成强化特征X′_t+1。

优选的，步骤c-1)中面部特征增强网络的第一卷积层的卷积核大小为3×3，面部特征增强网络的第二卷积层的卷积核大小为1×1，面部特征增强网络的第三卷积层的卷积核大小为3×3，面部特征增强网络的第四卷积层的卷积核大小为1×1，面部特征增强网络的第五卷积层的卷积核大小为3×3，面部特征增强网络的第六卷积层的卷积核大小为1×1。

进一步的，步骤d)包括如下步骤：

d-1)相关性学习模块由Transformer模型的编码器、m个并联的自注意力机制构成；

d-2)将强化特征X′_t输入到相关性学习模块的Transformer模型的编码器的第一全连接层中，输出得到新特征将强化特征X′_t输入到相关性学习模块的Transformer模型的编码器的第二全连接层中，输出得到新特征/>将强化特征X′_t输入到相关性学习模块的Transformer模型的编码器的第三全连接层中，输出得到新特征/>将新特征/>新特征/>新特征/>通过connect()函数拼接操作后，得到特征/>

d-3)将特征分别输入到相关性学习模块的m个并联的自注意力机制中，分别输出得到m个特征/>其中/>为第i个自注意力机制输出的特征，i∈{1,...,m}；

d-4)将m个特征叠加得到相关性学习特征X_ts；

d-5)将强化特征X′_t+1输入到相关性学习模块的Transformer模型的编码器的第一全连接层中，输出得到新特征将强化特征X′_t+1输入到相关性学习模块的Transformer模型的编码器的第二全连接层中，输出得到新特征/>将强化特征X_t′₊₁输入到相关性学习模块的Transformer模型的编码器的第三全连接层中，输出得到新特征/>将新特征新特征/>新特征/>通过connect()函数拼接操作后，得到特征X_t ^c ₊₁；

d-6)将特征分别输入到相关性学习模块的m个并联的自注意力机制中，分别输出得到m个特征/>其中/>为第i个自注意力机制输出的特征；

d-7)将m个特征叠加得到相关性学习特征X_t+1s；

d-8)将相关性学习特征X_ts与相关性学习特征X_t+1s相融合，得到脸部判别特征y₁。

进一步的，步骤e)包括如下步骤：

e-1)光流检测模块由编码器、解码器构成；

e-2)光流检测模块的编码器由第一卷积层、第二卷积层、BN层、ReLU激活函数层构成；

e-3)将强化特征X_t′输入到编码器的第一卷积层中，输出得到特征将特征/>输入到编码器的第二卷积层中，输出得到特征/>将特征/>依次输入到编码器的BN层、ReLU激活函数层中，输出得到第一编码特征X_te；

e-4)将强化特征X_t′₊₁输入到编码器的第一卷积层中，输出得到特征将特征输入到编码器的第二卷积层中，输出得到特征/>将特征/>依次输入到编码器的BN层、ReLU激活函数层中，输出得到第二编码特征X_t+1e；

e-5)将第一编码特征X_te与第二编码特征X_t+1e拼接操作，生成光流特征X_c；e-6)将第二编码特征X_t+1e与第一编码特征X_te拼接操作，生成光流特征X_c+1；

e-7)光流检测模块的解码器由第一全连接层、第二全连接层、第三全连接层、自注意力机制构成；

e-8)将光流特征X_c输入到解码器的第一全连接层中，输出得到特征将光流特征X_c输入到第二全连接层中，输出得到特征/>将光流特征X_c输入到第三全连接层中，输出得到特征/>将/>特征/>特征/>通过connect()函数拼接操作后，得到解码光流特征/>e-9)将光流特征X_c+1输入到解码器的第一全连接层中，输出得到特征/>将光流特征X_c+1输入到第二全连接层中，输出得到特征/>将光流特征X_c+1输入到第三全连接层中，输出得到特征/>将/>特征/>特征/>通过connect()函数拼接操作后，得到解码光流特征/>e-10)将解码光流特征/>与解码光流特征/>进行融合操作，生成光流特征y₂。

优选的，步骤e-2)编码器的第一卷积层的卷积核大小为25×25，编码器的第二卷积层的卷积核大小为3×3。

进一步的，步骤g)包括如下步骤：

g-1)分类模块由多层感知机MLP、softmax函数构成；

g-2)将特征y依次输入到多层感知机MLP、softmax函数找那个，输出结果归一化为[0,1]区间的不同概率值，该概率值作为虚假视频的分类结果，概率值为0时为假视频，概率值为1时为真视频。

本发明的有益效果是：利用一种基于面部特征增强以及光流评估的虚假视频检测方法，构建了一个能对面部虚假视频进行检测的模型，通过挖掘视频帧中的面部的细微特征，充分捕捉帧与帧脸部之间的差异，并利用帧与帧之间的光流特性，有效的对面部虚假视频进行检测，提高了检测的精确度。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图1对本发明做进一步说明。

a)利用虚假视频切帧模块将视频根据时间长短切割为n个视频帧。

b)构建特征提取模块，将相邻的第t个视频帧和第t+1个视频帧分别输入到特征提取模块中，得到特征X_t和特征X_t+1，tt∈{1,2,...,n-1}。

c)构建面部特征增强网络，将特征X_t输入到面部特征增强网络中，输出得到强化特征X′_t，将特征X_t+1输入到面部特征增强网络中，输出得到强化特征X′_t+1。

d)构建相关性学习模块，将强化特征X′_t与强化特征X′_t+1输入到相关性学习模块中，输出得到脸部判别特征y₁。

e)构建光流检测模块，将强化特征X′_t与强化特征X′_t+1输入到光流检测模块中，输出得到光流特征y₂。

f)将脸部判别特征y₁和光流特征y₂进行融合操作，生成特征y。

光流是在一系列连续变化的图像中产生类似“光流动”的效果，两个连续的帧之间的光流是有规律且连续的，所以利用这一特性，我们发明了一种基于面部特征增强以及光流评估的虚假视频检测方法，来利用光流特征提取时间信息，从而实现对伪造内容的高精度鉴别。本发明提出一种用于面部虚假视频检测技术的特征增强和光流评估检测模型。该模型包含五个模块。视频切帧模块是将输入到模型的视频切成一定数量的视频帧；面部特征增强模块(FFeNet)能够强化学习脸部特征，将学习到的知识增强当前输入的特征；相关性学习模块能够挖掘相邻视频帧中的特征信息；光流特征检测模块(OFDNet)通过学习和对比相邻帧的光流图得到光流特征；最后，分类模块接收来自相关性学习模块和光流特征检测模块的特征，得到模型的分类结果。

实施例1：

步骤a)包括如下步骤：

a-1)将视频切割为n个视频帧；

a-2)利用python中的人脸识别库的dlib人脸识别算法捕获切割后的视频帧中面部128个定位点后执行缩放操作以删除额外剩余的背景以降低内存的复杂性，得到大小为224×224的视频帧。

实施例2：

步骤b)包括如下步骤：

b-1)特征提取模块由ResNet-18网络构成。

b-2)将第t个视频帧输入到ResNet-18网络中，输出得到特征X_t，X_t∈R^C×H×W，R为实数空间，C为通道数，H为特征的高，W为特征的宽。

实施例3：

步骤c)包括如下步骤：

c-1)面部特征增强网络由第一卷积层、第二卷积层、ReLU激活函数层、第三卷积层、第四卷积层、第五卷积层、第六卷积层构成。

c-5)将特征输入到面部特征增强网络的第三卷积层中，输出得到特征/>

c-6)将特征输入到面部特征增强网络的第四卷积层中，输出得到特征/>c-7)将特征/>与特征X_t进行拼接操作，生成新特征/>c-8)将特征/>输入到面部特征增强网络的第五卷积层中，输出得到特征/>c-9)将特征/>输入到面部特征增强网络的第六卷积层中，输出得到特征/>c-10)将特征/>特征/>特征/>融合生成强化特征X_t′。

c-19)将特征特征/>特征/>融合生成强化特征X′_t+1。

在该实施例中，优选的，步骤c-1)中面部特征增强网络的第一卷积层的卷积核大小为3×3，面部特征增强网络的第二卷积层的卷积核大小为1×1，面部特征增强网络的第三卷积层的卷积核大小为3×3，面部特征增强网络的第四卷积层的卷积核大小为1×1，面部特征增强网络的第五卷积层的卷积核大小为3×3，面部特征增强网络的第六卷积层的卷积核大小为1×1。

实施例4：

步骤d)包括如下步骤：

d-1)相关性学习模块由Transformer模型的编码器、m个并联的自注意力机制构成。

d-2)将强化特征X′_t输入到相关性学习模块的Transformer模型的编码器的第一全连接层中，输出得到新特征将强化特征X′_t输入到相关性学习模块的Transformer模型的编码器的第二全连接层中，输出得到新特征/>将强化特征X′_t输入到相关性学习模块的Transformer模型的编码器的第三全连接层中，输出得到新特征/>将新特征/>新特征/>新特征/>通过connect()函数拼接操作后，得到特征/>d-3)将特征/>分别输入到相关性学习模块的m个并联的自注意力机制中，分别输出得到m个特征其中/>为第i个自注意力机制输出的特征，i∈{1,...,m}。

d-4)将m个特征叠加得到相关性学习特征X_ts。

d-5)将强化特征X′_t+1输入到相关性学习模块的Transformer模型的编码器的第一全连接层中，输出得到新特征将强化特征X′_t+1输入到相关性学习模块的Transformer模型的编码器的第二全连接层中，输出得到新特征/>将强化特征X_t′₊₁输入到相关性学习模块的Transformer模型的编码器的第三全连接层中，输出得到新特征/>将新特征新特征/>新特征/>通过connect()函数拼接操作后，得到特征/>d-6)将特征分别输入到相关性学习模块的m个并联的自注意力机制中，分别输出得到m个特征其中/>为第i个自注意力机制输出的特征。

d-7)将m个特征叠加得到相关性学习特征X_t+1s。

实施例5：

步骤e)包括如下步骤：

e-1)光流检测模块由编码器、解码器构成。

e-2)光流检测模块的编码器由第一卷积层、第二卷积层、BN层、ReLU激活函数层构成。

e-3)将强化特征X_t′输入到编码器的第一卷积层中，输出得到特征将特征/>输入到编码器的第二卷积层中，输出得到特征/>将特征/>依次输入到编码器的BN层、ReLU激活函数层中，输出得到第一编码特征X_te。

e-4)将强化特征X_t′₊₁输入到编码器的第一卷积层中，输出得到特征将特征输入到编码器的第二卷积层中，输出得到特征/>将特征/>依次输入到编码器的BN层、ReLU激活函数层中，输出得到第二编码特征X_t+1e。

e-5)将第一编码特征X_te与第二编码特征X_t+1e拼接操作，生成光流特征X_c。e-6)将第二编码特征X_t+1e与第一编码特征X_te拼接操作，生成光流特征X_c+1。

e-7)光流检测模块的解码器由第一全连接层、第二全连接层、第三全连接层、自注意力机制构成。

e-8)将光流特征X_c输入到解码器的第一全连接层中，输出得到特征将光流特征X_c输入到第二全连接层中，输出得到特征/>将光流特征X_c输入到第三全连接层中，输出得到特征/>将/>特征/>特征/>通过connect()函数拼接操作后，得到解码光流特征/>

e-9)将光流特征X_c+1输入到解码器的第一全连接层中，输出得到特征将光流特征X_c+1输入到第二全连接层中，输出得到特征/>将光流特征X_c+1输入到第三全连接层中，输出得到特征/>将/>特征/>特征/>通过connect()函数拼接操作后，得到解码光流特征/>

e-10)将解码光流特征与解码光流特征/>进行融合操作，生成光流特征y₂。

在该实施例中，优选的，步骤e-2)编码器的第一卷积层的卷积核大小为25×25，编码器的第二卷积层的卷积核大小为3×3。

实施例6：

步骤g)包括如下步骤：

g-1)分类模块由多层感知机MLP、softmax函数构成；

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于面部特征增强以及光流评估的虚假视频检测方法，其特征在于，包括如下步骤：

a)利用虚假视频切帧模块将视频切割为n个视频帧；

2.根据权利要求1所述的基于面部特征增强以及光流评估的虚假视频检测方法，其特征在于，步骤a)包括如下步骤：

a-1)将视频切割为n个视频帧；

3.根据权利要求1所述的基于面部特征增强以及光流评估的虚假视频检测方法，其特征在于，步骤b)包括如下步骤：

b-1)特征提取模块由ResNet-18网络构成；

4.根据权利要求1所述的基于面部特征增强以及光流评估的虚假视频检测方法，其特征在于，步骤c)包括如下步骤：

c-4)将特征输入到面部特征增强网络的ReLU激活函数层中，输出得到特征/>将特征/>与特征X_t进行特征融合，得到新特征/>

c-6)将特征输入到面部特征增强网络的第四卷积层中，输出得到特征/>

c-7)将特征与特征X_t进行拼接操作，生成新特征/>

c-8)将特征输入到面部特征增强网络的第五卷积层中，输出得到特征/>

c-9)将特征输入到面部特征增强网络的第六卷积层中，输出得到特征/>

c-10)将特征特征/>特征/>融合生成强化特征X_t′；

c-13)将特征输入到面部特征增强网络的ReLU激活函数层中，输出得到特征/>将特征/>与特征X_t+1进行特征融合，得到新特征/>c-14)将特征/>输入到面部特征增强网络的第三卷积层中，输出得到特征/>

c-16)将特征与特征X_t+1进行拼接操作，生成新特征/>

c-17)将特征输入到面部特征增强网络的第五卷积层中，输出得到特征/>

c-19)将特征特征/>特征/>融合生成强化特征X_t′₊₁。

5.根据权利要求1所述的基于面部特征增强以及光流评估的虚假视频检测方法，其特征在于：步骤c-1)中面部特征增强网络的第一卷积层的卷积核大小为3×3，面部特征增强网络的第二卷积层的卷积核大小为1×1，面部特征增强网络的第三卷积层的卷积核大小为3×3，面部特征增强网络的第四卷积层的卷积核大小为1×1，面部特征增强网络的第五卷积层的卷积核大小为3×3，面部特征增强网络的第六卷积层的卷积核大小为1×1。

6.根据权利要求1所述的基于面部特征增强以及光流评估的虚假视频检测方法，其特征在于，步骤d)包括如下步骤：

d-2)将强化特征X′_t输入到相关性学习模块的Transformer模型的编码器的第一全连接层中，输出得到新特征将强化特征X′_t输入到相关性学习模块的Transformer模型的编码器的第二全连接层中，输出得到新特征/>将强化特征X′_t输入到相关性学习模块的Transformer模型的编码器的第三全连接层中，输出得到新特征/>将新特征/>新特征新特征/>通过connect()函数拼接操作后，得到特征/>

d-4)将m个特征叠加得到相关性学习特征X_ts；

d-5)将强化特征X′_t+1输入到相关性学习模块的Transformer模型的编码器的第一全连接层中，输出得到新特征将强化特征X′_t+1输入到相关性学习模块的Transformer模型的编码器的第二全连接层中，输出得到新特征/>将强化特征X′_t+1输入到相关性学习模块的Transformer模型的编码器的第三全连接层中，输出得到新特征/>将新特征/>新特征/>新特征/>通过connect()函数拼接操作后，得到特征/>

d-7)将m个特征叠加得到相关性学习特征X_t+1s；

7.根据权利要求1所述的基于面部特征增强以及光流评估的虚假视频检测方法，其特征在于，步骤e)包括如下步骤：

e-1)光流检测模块由编码器、解码器构成；

e-4)将强化特征X_t′₊₁输入到编码器的第一卷积层中，输出得到特征将特征/>输入到编码器的第二卷积层中，输出得到特征/>将特征/>依次输入到编码器的BN层、ReLU激活函数层中，输出得到第二编码特征X_t+1e；

e-8)将光流特征X_c输入到解码器的第一全连接层中，输出得到特征将光流特征X_c输入到第二全连接层中，输出得到特征/>将光流特征X_c输入到第三全连接层中，输出得到特征/>将/>特征/>特征/>通过connect()函数拼接操作后，得到解码光流特征

e-9)将光流特征X_c+1输入到解码器的第一全连接层中，输出得到特征将光流特征X_c+1输入到第二全连接层中，输出得到特征/>将光流特征X_c+1输入到第三全连接层中，输出得到特征/>将/>特征/>特征/>通过connect()函数拼接操作后，得到解码光流特征/>e-10)将解码光流特征/>与解码光流特征/>进行融合操作，生成光流特征y₂。

8.根据权利要求7所述的基于面部特征增强以及光流评估的虚假视频检测方法，其特征在于：步骤e-2)编码器的第一卷积层的卷积核大小为25×25，编码器的第二卷积层的卷积核大小为3×3。

9.根据权利要求1所述的基于面部特征增强以及光流评估的虚假视频检测方法，其特征在于，步骤g)包括如下步骤：

g-1)分类模块由多层感知机MLP、softmax函数构成；