CN116524408A - 基于面部特征增强以及光流评估的虚假视频检测方法 - Google Patents

基于面部特征增强以及光流评估的虚假视频检测方法 Download PDF

Info

Publication number
CN116524408A
CN116524408A CN202310511654.XA CN202310511654A CN116524408A CN 116524408 A CN116524408 A CN 116524408A CN 202310511654 A CN202310511654 A CN 202310511654A CN 116524408 A CN116524408 A CN 116524408A
Authority
CN
China
Prior art keywords
feature
output
input
optical flow
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310511654.XA
Other languages
English (en)
Other versions
CN116524408B (zh
Inventor
徐国璇
王英龙
舒明雷
刘瑞霞
陈超
徐鹏摇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Shandong Institute of Artificial Intelligence
Original Assignee
Qilu University of Technology
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology, Shandong Institute of Artificial Intelligence filed Critical Qilu University of Technology
Priority to CN202310511654.XA priority Critical patent/CN116524408B/zh
Publication of CN116524408A publication Critical patent/CN116524408A/zh
Application granted granted Critical
Publication of CN116524408B publication Critical patent/CN116524408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

一种基于面部特征增强以及光流评估的虚假视频检测方法,构建了一个能对面部虚假视频进行检测的模型,通过挖掘视频帧中的面部的细微特征,充分捕捉帧与帧脸部之间的差异,并利用帧与帧之间的光流特性,有效的对面部虚假视频进行检测,提高了检测的精确度。

Description

基于面部特征增强以及光流评估的虚假视频检测方法
技术领域
本发明涉及视频检测技术领域,具体涉及一种基于面部特征增强以及光流评估的虚假视频检测方法
背景技术
虚假视频是按顺序合成的数字媒体,制作内容逼真的假视频来欺骗观看者。利用生成对抗网络合成的虚假内容更加难以区分,用传统的检测方法效果并不理想。现有的工作大部分都是强调单个视频的空间属性,检测视频帧中的伪造人脸的特征,却忽略了帧与帧之间的时间信息。
发明内容
本发明为了克服以上技术的不足,提供了一种利用光流特征提取时间信息,从而实现对伪造内容的高精度鉴别的方法。
本发明克服其技术问题所采用的技术方案是:
一种基于面部特征增强以及光流评估的虚假视频检测方法,包括如下步骤:
a)利用虚假视频切帧模块将视频切割为n个视频帧;
b)构建特征提取模块,将相邻的第t个视频帧和第t+1个视频帧分别输入到特征提取模块中,得到特征Xt和特征Xt+1,tt∈{1,2,...,n-1};
c)构建面部特征增强网络,将特征Xt输入到面部特征增强网络中,输出得到强化特征X′t,将特征Xt+1输入到面部特征增强网络中,输出得到强化特征X′t+1
d)构建相关性学习模块,将强化特征X′t与强化特征X′t+1输入到相关性学习模块中,输出得到脸部判别特征y1
e)构建光流检测模块,将强化特征X′t与强化特征X′t+1输入到光流检测模块中,输出得到光流特征y2
f)将脸部判别特征y1和光流特征y2进行融合操作,生成特征y;
g)建立分类模块,将特征y输入到分类模块中,输出得到分类结果。
进一步的,步骤a)包括如下步骤:
a-1)将视频切割为n个视频帧;
a-2)利用python中的人脸识别库的dlib人脸识别算法捕获切割后的视频帧中面部128个定位点后执行缩放操作,得到大小为224×224的视频帧。
进一步的,步骤b)包括如下步骤:
b-1)特征提取模块由ResNet-18网络构成;
b-2)将第t个视频帧输入到ResNet-18网络中,输出得到特征Xt,Xt∈RC×H×W,R为实数空间,C为通道数,H为特征的高,W为特征的宽;
b-3)将第t+1个视频帧输入到ResNet-18网络中,输出得到特征Xt+1,Xt+1∈RC×H×W,R为实数空间,C为通道数,H为特征的高,W为特征的宽。
进一步的,步骤c)包括如下步骤:
c-1)面部特征增强网络由第一卷积层、第二卷积层、ReLU激活函数层、第三卷积层、第四卷积层、第五卷积层、第六卷积层构成;
c-2)将特征Xt输入到面部特征增强网络的第一卷积层中,输出得到特征
c-3)将特征输入到面部特征增强网络的第二卷积层中,输出得到特征/>
c-4)将特征输入到面部特征增强网络的ReLU激活函数层中,输出得到特征将特征/>与特征Xt进行特征融合,得到新特征/>
c-5)将特征输入到面部特征增强网络的第三卷积层中,输出得到特征/>c-6)将特征/>输入到面部特征增强网络的第四卷积层中,输出得到特征/>c-7)将特征/>与特征Xt进行拼接操作,生成新特征/>c-8)将特征/>输入到面部特征增强网络的第五卷积层中,输出得到特征/>c-9)将特征/>输入到面部特征增强网络的第六卷积层中,输出得到特征/>c-10)将特征/>特征/>特征/>融合生成强化特征Xt′;
c-11)将特征Xt+1输入到面部特征增强网络的第一卷积层中,输出得到特征
c-12)将特征输入到面部特征增强网络的第二卷积层中,输出得到特征/>
c-13)将特征输入到面部特征增强网络的ReLU激活函数层中,输出得到特征将特征/>与特征Xt+1进行特征融合,得到新特征/>c-14)将特征/>输入到面部特征增强网络的第三卷积层中,输出得到特征/>
c-15)将特征输入到面部特征增强网络的第四卷积层中,输出得到特征/>
c-16)将特征与特征Xt+1进行拼接操作,生成新特征/>c-17)将特征/>输入到面部特征增强网络的第五卷积层中,输出得到特征/>
c-18)将特征输入到面部特征增强网络的第六卷积层中,输出得到特征/>
c-19)将特征特征/>特征/>融合生成强化特征X′t+1
优选的,步骤c-1)中面部特征增强网络的第一卷积层的卷积核大小为3×3,面部特征增强网络的第二卷积层的卷积核大小为1×1,面部特征增强网络的第三卷积层的卷积核大小为3×3,面部特征增强网络的第四卷积层的卷积核大小为1×1,面部特征增强网络的第五卷积层的卷积核大小为3×3,面部特征增强网络的第六卷积层的卷积核大小为1×1。
进一步的,步骤d)包括如下步骤:
d-1)相关性学习模块由Transformer模型的编码器、m个并联的自注意力机制构成;
d-2)将强化特征X′t输入到相关性学习模块的Transformer模型的编码器的第一全连接层中,输出得到新特征将强化特征X′t输入到相关性学习模块的Transformer模型的编码器的第二全连接层中,输出得到新特征/>将强化特征X′t输入到相关性学习模块的Transformer模型的编码器的第三全连接层中,输出得到新特征/>将新特征/>新特征/>新特征/>通过connect()函数拼接操作后,得到特征/>
d-3)将特征分别输入到相关性学习模块的m个并联的自注意力机制中,分别输出得到m个特征/>其中/>为第i个自注意力机制输出的特征,i∈{1,...,m};
d-4)将m个特征叠加得到相关性学习特征Xts
d-5)将强化特征X′t+1输入到相关性学习模块的Transformer模型的编码器的第一全连接层中,输出得到新特征将强化特征X′t+1输入到相关性学习模块的Transformer模型的编码器的第二全连接层中,输出得到新特征/>将强化特征Xt+1输入到相关性学习模块的Transformer模型的编码器的第三全连接层中,输出得到新特征/>将新特征新特征/>新特征/>通过connect()函数拼接操作后,得到特征Xt c +1
d-6)将特征分别输入到相关性学习模块的m个并联的自注意力机制中,分别输出得到m个特征/>其中/>为第i个自注意力机制输出的特征;
d-7)将m个特征叠加得到相关性学习特征Xt+1s
d-8)将相关性学习特征Xts与相关性学习特征Xt+1s相融合,得到脸部判别特征y1
进一步的,步骤e)包括如下步骤:
e-1)光流检测模块由编码器、解码器构成;
e-2)光流检测模块的编码器由第一卷积层、第二卷积层、BN层、ReLU激活函数层构成;
e-3)将强化特征Xt′输入到编码器的第一卷积层中,输出得到特征将特征/>输入到编码器的第二卷积层中,输出得到特征/>将特征/>依次输入到编码器的BN层、ReLU激活函数层中,输出得到第一编码特征Xte
e-4)将强化特征Xt+1输入到编码器的第一卷积层中,输出得到特征将特征输入到编码器的第二卷积层中,输出得到特征/>将特征/>依次输入到编码器的BN层、ReLU激活函数层中,输出得到第二编码特征Xt+1e
e-5)将第一编码特征Xte与第二编码特征Xt+1e拼接操作,生成光流特征Xc;e-6)将第二编码特征Xt+1e与第一编码特征Xte拼接操作,生成光流特征Xc+1
e-7)光流检测模块的解码器由第一全连接层、第二全连接层、第三全连接层、自注意力机制构成;
e-8)将光流特征Xc输入到解码器的第一全连接层中,输出得到特征将光流特征Xc输入到第二全连接层中,输出得到特征/>将光流特征Xc输入到第三全连接层中,输出得到特征/>将/>特征/>特征/>通过connect()函数拼接操作后,得到解码光流特征/>e-9)将光流特征Xc+1输入到解码器的第一全连接层中,输出得到特征/>将光流特征Xc+1输入到第二全连接层中,输出得到特征/>将光流特征Xc+1输入到第三全连接层中,输出得到特征/>将/>特征/>特征/>通过connect()函数拼接操作后,得到解码光流特征/>e-10)将解码光流特征/>与解码光流特征/>进行融合操作,生成光流特征y2
优选的,步骤e-2)编码器的第一卷积层的卷积核大小为25×25,编码器的第二卷积层的卷积核大小为3×3。
进一步的,步骤g)包括如下步骤:
g-1)分类模块由多层感知机MLP、softmax函数构成;
g-2)将特征y依次输入到多层感知机MLP、softmax函数找那个,输出结果归一化为[0,1]区间的不同概率值,该概率值作为虚假视频的分类结果,概率值为0时为假视频,概率值为1时为真视频。
本发明的有益效果是:利用一种基于面部特征增强以及光流评估的虚假视频检测方法,构建了一个能对面部虚假视频进行检测的模型,通过挖掘视频帧中的面部的细微特征,充分捕捉帧与帧脸部之间的差异,并利用帧与帧之间的光流特性,有效的对面部虚假视频进行检测,提高了检测的精确度。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面结合附图1对本发明做进一步说明。
一种基于面部特征增强以及光流评估的虚假视频检测方法,包括如下步骤:
a)利用虚假视频切帧模块将视频根据时间长短切割为n个视频帧。
b)构建特征提取模块,将相邻的第t个视频帧和第t+1个视频帧分别输入到特征提取模块中,得到特征Xt和特征Xt+1,tt∈{1,2,...,n-1}。
c)构建面部特征增强网络,将特征Xt输入到面部特征增强网络中,输出得到强化特征X′t,将特征Xt+1输入到面部特征增强网络中,输出得到强化特征X′t+1
d)构建相关性学习模块,将强化特征X′t与强化特征X′t+1输入到相关性学习模块中,输出得到脸部判别特征y1
e)构建光流检测模块,将强化特征X′t与强化特征X′t+1输入到光流检测模块中,输出得到光流特征y2
f)将脸部判别特征y1和光流特征y2进行融合操作,生成特征y。
g)建立分类模块,将特征y输入到分类模块中,输出得到分类结果。
光流是在一系列连续变化的图像中产生类似“光流动”的效果,两个连续的帧之间的光流是有规律且连续的,所以利用这一特性,我们发明了一种基于面部特征增强以及光流评估的虚假视频检测方法,来利用光流特征提取时间信息,从而实现对伪造内容的高精度鉴别。本发明提出一种用于面部虚假视频检测技术的特征增强和光流评估检测模型。该模型包含五个模块。视频切帧模块是将输入到模型的视频切成一定数量的视频帧;面部特征增强模块(FFeNet)能够强化学习脸部特征,将学习到的知识增强当前输入的特征;相关性学习模块能够挖掘相邻视频帧中的特征信息;光流特征检测模块(OFDNet)通过学习和对比相邻帧的光流图得到光流特征;最后,分类模块接收来自相关性学习模块和光流特征检测模块的特征,得到模型的分类结果。
实施例1:
步骤a)包括如下步骤:
a-1)将视频切割为n个视频帧;
a-2)利用python中的人脸识别库的dlib人脸识别算法捕获切割后的视频帧中面部128个定位点后执行缩放操作以删除额外剩余的背景以降低内存的复杂性,得到大小为224×224的视频帧。
实施例2:
步骤b)包括如下步骤:
b-1)特征提取模块由ResNet-18网络构成。
b-2)将第t个视频帧输入到ResNet-18网络中,输出得到特征Xt,Xt∈RC×H×W,R为实数空间,C为通道数,H为特征的高,W为特征的宽。
b-3)将第t+1个视频帧输入到ResNet-18网络中,输出得到特征Xt+1,Xt+1∈RC×H×W,R为实数空间,C为通道数,H为特征的高,W为特征的宽。
实施例3:
步骤c)包括如下步骤:
c-1)面部特征增强网络由第一卷积层、第二卷积层、ReLU激活函数层、第三卷积层、第四卷积层、第五卷积层、第六卷积层构成。
c-2)将特征Xt输入到面部特征增强网络的第一卷积层中,输出得到特征
c-3)将特征输入到面部特征增强网络的第二卷积层中,输出得到特征/>
c-4)将特征输入到面部特征增强网络的ReLU激活函数层中,输出得到特征将特征/>与特征Xt进行特征融合,得到新特征/>
c-5)将特征输入到面部特征增强网络的第三卷积层中,输出得到特征/>
c-6)将特征输入到面部特征增强网络的第四卷积层中,输出得到特征/>c-7)将特征/>与特征Xt进行拼接操作,生成新特征/>c-8)将特征/>输入到面部特征增强网络的第五卷积层中,输出得到特征/>c-9)将特征/>输入到面部特征增强网络的第六卷积层中,输出得到特征/>c-10)将特征/>特征/>特征/>融合生成强化特征Xt′。
c-11)将特征Xt+1输入到面部特征增强网络的第一卷积层中,输出得到特征
c-12)将特征输入到面部特征增强网络的第二卷积层中,输出得到特征/>
c-13)将特征输入到面部特征增强网络的ReLU激活函数层中,输出得到特征将特征/>与特征Xt+1进行特征融合,得到新特征/>c-14)将特征/>输入到面部特征增强网络的第三卷积层中,输出得到特征/>
c-15)将特征输入到面部特征增强网络的第四卷积层中,输出得到特征/>
c-16)将特征与特征Xt+1进行拼接操作,生成新特征/>c-17)将特征/>输入到面部特征增强网络的第五卷积层中,输出得到特征/>
c-18)将特征输入到面部特征增强网络的第六卷积层中,输出得到特征/>
c-19)将特征特征/>特征/>融合生成强化特征X′t+1
在该实施例中,优选的,步骤c-1)中面部特征增强网络的第一卷积层的卷积核大小为3×3,面部特征增强网络的第二卷积层的卷积核大小为1×1,面部特征增强网络的第三卷积层的卷积核大小为3×3,面部特征增强网络的第四卷积层的卷积核大小为1×1,面部特征增强网络的第五卷积层的卷积核大小为3×3,面部特征增强网络的第六卷积层的卷积核大小为1×1。
实施例4:
步骤d)包括如下步骤:
d-1)相关性学习模块由Transformer模型的编码器、m个并联的自注意力机制构成。
d-2)将强化特征X′t输入到相关性学习模块的Transformer模型的编码器的第一全连接层中,输出得到新特征将强化特征X′t输入到相关性学习模块的Transformer模型的编码器的第二全连接层中,输出得到新特征/>将强化特征X′t输入到相关性学习模块的Transformer模型的编码器的第三全连接层中,输出得到新特征/>将新特征/>新特征/>新特征/>通过connect()函数拼接操作后,得到特征/>d-3)将特征/>分别输入到相关性学习模块的m个并联的自注意力机制中,分别输出得到m个特征其中/>为第i个自注意力机制输出的特征,i∈{1,...,m}。
d-4)将m个特征叠加得到相关性学习特征Xts
d-5)将强化特征X′t+1输入到相关性学习模块的Transformer模型的编码器的第一全连接层中,输出得到新特征将强化特征X′t+1输入到相关性学习模块的Transformer模型的编码器的第二全连接层中,输出得到新特征/>将强化特征Xt+1输入到相关性学习模块的Transformer模型的编码器的第三全连接层中,输出得到新特征/>将新特征新特征/>新特征/>通过connect()函数拼接操作后,得到特征/>d-6)将特征分别输入到相关性学习模块的m个并联的自注意力机制中,分别输出得到m个特征其中/>为第i个自注意力机制输出的特征。
d-7)将m个特征叠加得到相关性学习特征Xt+1s
d-8)将相关性学习特征Xts与相关性学习特征Xt+1s相融合,得到脸部判别特征y1
实施例5:
步骤e)包括如下步骤:
e-1)光流检测模块由编码器、解码器构成。
e-2)光流检测模块的编码器由第一卷积层、第二卷积层、BN层、ReLU激活函数层构成。
e-3)将强化特征Xt′输入到编码器的第一卷积层中,输出得到特征将特征/>输入到编码器的第二卷积层中,输出得到特征/>将特征/>依次输入到编码器的BN层、ReLU激活函数层中,输出得到第一编码特征Xte
e-4)将强化特征Xt+1输入到编码器的第一卷积层中,输出得到特征将特征输入到编码器的第二卷积层中,输出得到特征/>将特征/>依次输入到编码器的BN层、ReLU激活函数层中,输出得到第二编码特征Xt+1e
e-5)将第一编码特征Xte与第二编码特征Xt+1e拼接操作,生成光流特征Xc。e-6)将第二编码特征Xt+1e与第一编码特征Xte拼接操作,生成光流特征Xc+1
e-7)光流检测模块的解码器由第一全连接层、第二全连接层、第三全连接层、自注意力机制构成。
e-8)将光流特征Xc输入到解码器的第一全连接层中,输出得到特征将光流特征Xc输入到第二全连接层中,输出得到特征/>将光流特征Xc输入到第三全连接层中,输出得到特征/>将/>特征/>特征/>通过connect()函数拼接操作后,得到解码光流特征/>
e-9)将光流特征Xc+1输入到解码器的第一全连接层中,输出得到特征将光流特征Xc+1输入到第二全连接层中,输出得到特征/>将光流特征Xc+1输入到第三全连接层中,输出得到特征/>将/>特征/>特征/>通过connect()函数拼接操作后,得到解码光流特征/>
e-10)将解码光流特征与解码光流特征/>进行融合操作,生成光流特征y2
在该实施例中,优选的,步骤e-2)编码器的第一卷积层的卷积核大小为25×25,编码器的第二卷积层的卷积核大小为3×3。
实施例6:
步骤g)包括如下步骤:
g-1)分类模块由多层感知机MLP、softmax函数构成;
g-2)将特征y依次输入到多层感知机MLP、softmax函数找那个,输出结果归一化为[0,1]区间的不同概率值,该概率值作为虚假视频的分类结果,概率值为0时为假视频,概率值为1时为真视频。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于面部特征增强以及光流评估的虚假视频检测方法,其特征在于,包括如下步骤:
a)利用虚假视频切帧模块将视频切割为n个视频帧;
b)构建特征提取模块,将相邻的第t个视频帧和第t+1个视频帧分别输入到特征提取模块中,得到特征Xt和特征Xt+1,tt∈{1,2,...,n-1};
c)构建面部特征增强网络,将特征Xt输入到面部特征增强网络中,输出得到强化特征X′t,将特征Xt+1输入到面部特征增强网络中,输出得到强化特征X′t+1
d)构建相关性学习模块,将强化特征X′t与强化特征X′t+1输入到相关性学习模块中,输出得到脸部判别特征y1
e)构建光流检测模块,将强化特征X′t与强化特征X′t+1输入到光流检测模块中,输出得到光流特征y2
f)将脸部判别特征y1和光流特征y2进行融合操作,生成特征y;
g)建立分类模块,将特征y输入到分类模块中,输出得到分类结果。
2.根据权利要求1所述的基于面部特征增强以及光流评估的虚假视频检测方法,其特征在于,步骤a)包括如下步骤:
a-1)将视频切割为n个视频帧;
a-2)利用python中的人脸识别库的dlib人脸识别算法捕获切割后的视频帧中面部128个定位点后执行缩放操作,得到大小为224×224的视频帧。
3.根据权利要求1所述的基于面部特征增强以及光流评估的虚假视频检测方法,其特征在于,步骤b)包括如下步骤:
b-1)特征提取模块由ResNet-18网络构成;
b-2)将第t个视频帧输入到ResNet-18网络中,输出得到特征Xt,Xt∈RC×H×W,R为实数空间,C为通道数,H为特征的高,W为特征的宽;
b-3)将第t+1个视频帧输入到ResNet-18网络中,输出得到特征Xt+1,Xt+1∈RC×H×W,R为实数空间,C为通道数,H为特征的高,W为特征的宽。
4.根据权利要求1所述的基于面部特征增强以及光流评估的虚假视频检测方法,其特征在于,步骤c)包括如下步骤:
c-1)面部特征增强网络由第一卷积层、第二卷积层、ReLU激活函数层、第三卷积层、第四卷积层、第五卷积层、第六卷积层构成;
c-2)将特征Xt输入到面部特征增强网络的第一卷积层中,输出得到特征
c-3)将特征输入到面部特征增强网络的第二卷积层中,输出得到特征/>
c-4)将特征输入到面部特征增强网络的ReLU激活函数层中,输出得到特征/>将特征/>与特征Xt进行特征融合,得到新特征/>
c-5)将特征输入到面部特征增强网络的第三卷积层中,输出得到特征/>
c-6)将特征输入到面部特征增强网络的第四卷积层中,输出得到特征/>
c-7)将特征与特征Xt进行拼接操作,生成新特征/>
c-8)将特征输入到面部特征增强网络的第五卷积层中,输出得到特征/>
c-9)将特征输入到面部特征增强网络的第六卷积层中,输出得到特征/>
c-10)将特征特征/>特征/>融合生成强化特征Xt′;
c-11)将特征Xt+1输入到面部特征增强网络的第一卷积层中,输出得到特征
c-12)将特征输入到面部特征增强网络的第二卷积层中,输出得到特征/>
c-13)将特征输入到面部特征增强网络的ReLU激活函数层中,输出得到特征/>将特征/>与特征Xt+1进行特征融合,得到新特征/>c-14)将特征/>输入到面部特征增强网络的第三卷积层中,输出得到特征/>
c-15)将特征输入到面部特征增强网络的第四卷积层中,输出得到特征/>
c-16)将特征与特征Xt+1进行拼接操作,生成新特征/>
c-17)将特征输入到面部特征增强网络的第五卷积层中,输出得到特征/>
c-18)将特征输入到面部特征增强网络的第六卷积层中,输出得到特征/>
c-19)将特征特征/>特征/>融合生成强化特征Xt+1
5.根据权利要求1所述的基于面部特征增强以及光流评估的虚假视频检测方法,其特征在于:步骤c-1)中面部特征增强网络的第一卷积层的卷积核大小为3×3,面部特征增强网络的第二卷积层的卷积核大小为1×1,面部特征增强网络的第三卷积层的卷积核大小为3×3,面部特征增强网络的第四卷积层的卷积核大小为1×1,面部特征增强网络的第五卷积层的卷积核大小为3×3,面部特征增强网络的第六卷积层的卷积核大小为1×1。
6.根据权利要求1所述的基于面部特征增强以及光流评估的虚假视频检测方法,其特征在于,步骤d)包括如下步骤:
d-1)相关性学习模块由Transformer模型的编码器、m个并联的自注意力机制构成;
d-2)将强化特征X′t输入到相关性学习模块的Transformer模型的编码器的第一全连接层中,输出得到新特征将强化特征X′t输入到相关性学习模块的Transformer模型的编码器的第二全连接层中,输出得到新特征/>将强化特征X′t输入到相关性学习模块的Transformer模型的编码器的第三全连接层中,输出得到新特征/>将新特征/>新特征新特征/>通过connect()函数拼接操作后,得到特征/>
d-3)将特征分别输入到相关性学习模块的m个并联的自注意力机制中,分别输出得到m个特征/>其中/>为第i个自注意力机制输出的特征,i∈{1,...,m};
d-4)将m个特征叠加得到相关性学习特征Xts
d-5)将强化特征X′t+1输入到相关性学习模块的Transformer模型的编码器的第一全连接层中,输出得到新特征将强化特征X′t+1输入到相关性学习模块的Transformer模型的编码器的第二全连接层中,输出得到新特征/>将强化特征X′t+1输入到相关性学习模块的Transformer模型的编码器的第三全连接层中,输出得到新特征/>将新特征/>新特征/>新特征/>通过connect()函数拼接操作后,得到特征/>
d-6)将特征分别输入到相关性学习模块的m个并联的自注意力机制中,分别输出得到m个特征/>其中/>为第i个自注意力机制输出的特征;
d-7)将m个特征叠加得到相关性学习特征Xt+1s
d-8)将相关性学习特征Xts与相关性学习特征Xt+1s相融合,得到脸部判别特征y1
7.根据权利要求1所述的基于面部特征增强以及光流评估的虚假视频检测方法,其特征在于,步骤e)包括如下步骤:
e-1)光流检测模块由编码器、解码器构成;
e-2)光流检测模块的编码器由第一卷积层、第二卷积层、BN层、ReLU激活函数层构成;
e-3)将强化特征Xt′输入到编码器的第一卷积层中,输出得到特征将特征/>输入到编码器的第二卷积层中,输出得到特征/>将特征/>依次输入到编码器的BN层、ReLU激活函数层中,输出得到第一编码特征Xte
e-4)将强化特征Xt+1输入到编码器的第一卷积层中,输出得到特征将特征/>输入到编码器的第二卷积层中,输出得到特征/>将特征/>依次输入到编码器的BN层、ReLU激活函数层中,输出得到第二编码特征Xt+1e
e-5)将第一编码特征Xte与第二编码特征Xt+1e拼接操作,生成光流特征Xc;e-6)将第二编码特征Xt+1e与第一编码特征Xte拼接操作,生成光流特征Xc+1
e-7)光流检测模块的解码器由第一全连接层、第二全连接层、第三全连接层、自注意力机制构成;
e-8)将光流特征Xc输入到解码器的第一全连接层中,输出得到特征将光流特征Xc输入到第二全连接层中,输出得到特征/>将光流特征Xc输入到第三全连接层中,输出得到特征/>将/>特征/>特征/>通过connect()函数拼接操作后,得到解码光流特征
e-9)将光流特征Xc+1输入到解码器的第一全连接层中,输出得到特征将光流特征Xc+1输入到第二全连接层中,输出得到特征/>将光流特征Xc+1输入到第三全连接层中,输出得到特征/>将/>特征/>特征/>通过connect()函数拼接操作后,得到解码光流特征/>e-10)将解码光流特征/>与解码光流特征/>进行融合操作,生成光流特征y2
8.根据权利要求7所述的基于面部特征增强以及光流评估的虚假视频检测方法,其特征在于:步骤e-2)编码器的第一卷积层的卷积核大小为25×25,编码器的第二卷积层的卷积核大小为3×3。
9.根据权利要求1所述的基于面部特征增强以及光流评估的虚假视频检测方法,其特征在于,步骤g)包括如下步骤:
g-1)分类模块由多层感知机MLP、softmax函数构成;
g-2)将特征y依次输入到多层感知机MLP、softmax函数找那个,输出结果归一化为[0,1]区间的不同概率值,该概率值作为虚假视频的分类结果,概率值为0时为假视频,概率值为1时为真视频。
CN202310511654.XA 2023-05-09 2023-05-09 基于面部特征增强以及光流评估的虚假视频检测方法 Active CN116524408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310511654.XA CN116524408B (zh) 2023-05-09 2023-05-09 基于面部特征增强以及光流评估的虚假视频检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310511654.XA CN116524408B (zh) 2023-05-09 2023-05-09 基于面部特征增强以及光流评估的虚假视频检测方法

Publications (2)

Publication Number Publication Date
CN116524408A true CN116524408A (zh) 2023-08-01
CN116524408B CN116524408B (zh) 2024-02-02

Family

ID=87390067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310511654.XA Active CN116524408B (zh) 2023-05-09 2023-05-09 基于面部特征增强以及光流评估的虚假视频检测方法

Country Status (1)

Country Link
CN (1) CN116524408B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210117650A1 (en) * 2019-10-21 2021-04-22 Sony Interactive Entertainment Inc. Fake video detection
CN113205044A (zh) * 2021-04-30 2021-08-03 湖南大学 一种基于表征对比预测学习的深度伪造视频检测方法
CN113837147A (zh) * 2021-10-29 2021-12-24 山东省人工智能研究院 一种基于transformer的假视频检测方法
CN113903073A (zh) * 2021-11-23 2022-01-07 山东省人工智能研究院 一种基于局部增强transformer的假视频检测方法
CN114387641A (zh) * 2021-12-21 2022-04-22 中山大学 基于多尺度卷积网络和ViT的虚假视频检测方法及系统
CN114565880A (zh) * 2022-04-28 2022-05-31 武汉大学 一种基于光流追踪的伪造视频检验方法、系统及设备
EP4080470A2 (en) * 2021-07-08 2022-10-26 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for detecting living face
CN115311720A (zh) * 2022-08-11 2022-11-08 山东省人工智能研究院 一种基于Transformer的deepfake生成方法
CN115909160A (zh) * 2022-11-24 2023-04-04 湖南科技大学 深度视频插帧检测方法、装置及计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210117650A1 (en) * 2019-10-21 2021-04-22 Sony Interactive Entertainment Inc. Fake video detection
CN113205044A (zh) * 2021-04-30 2021-08-03 湖南大学 一种基于表征对比预测学习的深度伪造视频检测方法
EP4080470A2 (en) * 2021-07-08 2022-10-26 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for detecting living face
CN113837147A (zh) * 2021-10-29 2021-12-24 山东省人工智能研究院 一种基于transformer的假视频检测方法
CN113903073A (zh) * 2021-11-23 2022-01-07 山东省人工智能研究院 一种基于局部增强transformer的假视频检测方法
CN114387641A (zh) * 2021-12-21 2022-04-22 中山大学 基于多尺度卷积网络和ViT的虚假视频检测方法及系统
CN114565880A (zh) * 2022-04-28 2022-05-31 武汉大学 一种基于光流追踪的伪造视频检验方法、系统及设备
CN115311720A (zh) * 2022-08-11 2022-11-08 山东省人工智能研究院 一种基于Transformer的deepfake生成方法
CN115909160A (zh) * 2022-11-24 2023-04-04 湖南科技大学 深度视频插帧检测方法、装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHEN-ZHAO YANG; JUN MA; SHILIN WANG; ALAN WEE-CHUNG LIEW: "Preventing DeepFake Attacks on Speaker Authentication by Dynamic Lip Movement Analysis", 《IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY 》, pages 1 - 14 *

Also Published As

Publication number Publication date
CN116524408B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
Wu et al. Sstnet: Detecting manipulated faces through spatial, steganalysis and temporal features
Shang et al. PRRNet: Pixel-Region relation network for face forgery detection
Singh et al. Muhavi: A multicamera human action video dataset for the evaluation of action recognition methods
Li et al. Fighting against deepfake: Patch&pair convolutional neural networks (PPCNN)
CN111353395A (zh) 一种基于长短期记忆网络的换脸视频检测方法
Fung et al. Deepfakeucl: Deepfake detection via unsupervised contrastive learning
CN112150450B (zh) 一种基于双通道U-Net模型的图像篡改检测方法及装置
CN114694220A (zh) 一种基于Swin Transformer的双流人脸伪造检测方法
CN114333070A (zh) 一种基于深度学习的考生异常行为检测方法
Zhang et al. Deepfake video detection with spatiotemporal dropout transformer
CN113033379A (zh) 一种基于双流cnn的帧内取证深度学习方法
CN112801037A (zh) 一种基于连续帧间差异的人脸篡改检测方法
CN115689853A (zh) 一种基于汉字特征修改和分组的鲁棒文本水印方法
CN115527276A (zh) 基于面部光流场与纹理特性融合的深伪视频检测方法
CN111401368B (zh) 一种基于深度学习的新闻视频标题提取方法
Khan et al. Hybrid transformer network for deepfake detection
CN116524408B (zh) 基于面部特征增强以及光流评估的虚假视频检测方法
CN115512448A (zh) 基于多时序注意力网络对人脸伪造视频检测方法
Jin et al. A region generation based model for occluded face detection
CN115273089A (zh) 一种基于条件生成对抗网络的光学字符复原方法
CN114596609A (zh) 一种视听伪造检测方法及装置
Wang et al. Face forgery detection with a fused attention mechanism
Liang et al. Robust Document Image Forgery Localization Against Image Blending
CN115690658B (zh) 一种融合先验知识的半监督视频异常行为检测方法
Chen et al. Npvforensics: Jointing non-critical phonemes and visemes for deepfake detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant