CN112733625A - 基于时域自注意力机制的假脸视频篡改检测方法及系统 - Google Patents

基于时域自注意力机制的假脸视频篡改检测方法及系统 Download PDF

Info

Publication number
CN112733625A
CN112733625A CN202011577163.8A CN202011577163A CN112733625A CN 112733625 A CN112733625 A CN 112733625A CN 202011577163 A CN202011577163 A CN 202011577163A CN 112733625 A CN112733625 A CN 112733625A
Authority
CN
China
Prior art keywords
module
attention
network
training
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011577163.8A
Other languages
English (en)
Other versions
CN112733625B (zh
Inventor
胡永健
高逸飞
佘惠敏
刘琲贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202011577163.8A priority Critical patent/CN112733625B/zh
Publication of CN112733625A publication Critical patent/CN112733625A/zh
Application granted granted Critical
Publication of CN112733625B publication Critical patent/CN112733625B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时域自注意力机制的假脸视频篡改检测方法及系统,该方法步骤包括:网络训练步骤和样本测试步骤,网络训练步骤主要包括视频预处理、搭建分割网络和训练,样本测试步骤主要包括视频预处理、搭建分割网络、依次通过三个模块预测篡改区域、对预测掩膜计算面部交并比,得到检测结果。本发明将空域的颜色特征、噪声特征和时域特征,输入包括双流特征提取模块、时域自注意力模块和上采样模块的神经网络中预测篡改区域,检测对象包括单张图片和多张视频帧图片,在不同数据库中均获得较理想的准确率,与现有其他算法相比,跨库测试性能明显提升,具有较大的潜在应用价值。

Description

基于时域自注意力机制的假脸视频篡改检测方法及系统
技术领域
本发明涉及数字视频的篡改检测技术领域,具体涉及一种基于时域自注意力机制的假脸视频篡改检测方法及系统。
背景技术
随着人脸识别技术的突飞猛进,人脸篡改带来的安全威胁越来越大,网络上相关假脸视频也层出不穷。Deepfake换脸工具主要使用自编码器或对抗生成网络等深度神经网络生成虚假人脸后再对原视频的人脸进行替换,本发明主要针对这类人脸篡改技术所生成的换脸视频进行检测。
目前主流的假脸视频检测技术主要是基于神经网络提取特征,虽然在一定程度上能够识别出假脸视频,尤其在库内测试中可达较高的准确率,然而,在跨库测试中准确率均急剧下降。事实上,已公开的基于深度网络的换脸篡改检测算法大都存在此类问题,即泛化能力不足问题。除此以外,目前大部分相关算法都是针对单张图片进行检测,而并没有用到假脸视频中前后帧的时序信息。迄今为止,使用图片空域的颜色特征、噪声特征和时域特征,以及利用时域上自注意力机制构建的神经网络的假脸视频检测的方法尚未报道。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提出一种基于时域自注意力机制的假脸视频篡改检测方法及系统,本发明使用时域自注意力机制的深度神经网络进行假脸视频检测,并且对单张假脸图片也有很好的兼容性与检测效果,提高了泛化性能。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于时域自注意力机制的假脸视频篡改检测方法,其特征在于,包括网络训练步骤和样本测试步骤;
所述网络训练步骤包括:
视频预处理:对视频帧抽样后进行人脸框的检测提取,根据人脸框位置裁剪出部分区域图片,并采样到同一分辨率,得到训练集图片及训练集正确掩膜;
搭建双流特征提取模块,所述双流特征提取模块包括单流颜色特征提取网络和单流噪声特征提取网络,输入训练集图片及噪声图片,分别对图片空域的颜色特征和噪声特征进行特征提取,再将两部分特征求和合并,输出双流合并特征;
计算输入帧的位置嵌入向量,输入为相对所有输入图片中第一帧的位置,输出为位置嵌入矩阵;
搭建时域自注意力模块,采用自注意的方式学习前后帧以及所有输入帧的上下文关系,并对每一张图片的卷积特征融入时域信息,所述时域自注意力模块输入双流合并特征和位置嵌入矩阵,输出自注意力后特征;
构建上采样模块,所述上采样模块输入为自注意力后特征,输出为预测掩膜;
将双流特征提取模块、时域自注意力模块和上采样模块共同合并构建分割网络;
构建分割网络训练的损失函数并设置分割网络参数优化算法;
使用训练集图片及训练集正确掩膜训练分割网络,训练完成后保存分割网络权重值;
所述样本测试步骤包括:
视频预处理,得到测试集;
搭建双流特征提取模块,输入测试集图片及噪声图片,分别对图片空域的颜色特征和噪声特征进行特征提取,再将两部分特征求和合并,输出双流合并特征;
计算输入帧的位置嵌入向量;
搭建时域自注意力模块,输出自注意力后特征,并构建上采样模块,输出预测掩膜,将双流特征提取模块、时域自注意力模块和上采样模块共同合并构建分割网络;
加载训练完成后保存的分割网络权重值;
预设二值化阈值对预测掩膜进行二值化处理得到二值掩膜;
对所述二值掩膜计算信任机制下的面部交并比,预设判决阈值对面部交并比进行二分类判决,得到最终的检测结果。
作为优选的技术方案,所述网络训练步骤、样本测试步骤中的视频预处理,采用最近邻插值、线性插值或三次插值进行图片采样。
作为优选的技术方案,所述网络训练步骤中搭建双流特征提取模块,输入训练集图片及噪声图片,输出双流合并特征,具体计算公式表示为:
XNkm=SRMLayer(XIkm)
XDFkm=NN1(XIkm)+NN2(XNkm)
其中,XNkm表示网络训练步骤的噪声图片,SRMLayer表示噪声提取滤波器,XIkm表示训练集图片,NN1表示单流颜色特征提取网络,NN2表示单流噪声特征提取网络,XDFkm表示网络训练步骤中的双流合并特征;
所述样本测试步骤中搭建双流特征提取模块,输入测试集图片及噪声图片,输出双流合并特征,具体计算公式表示为:
CNkm=SRMLayer(CIkm)
CDFkm=NN1(CIkm)+NN2(CNkm)
其中,CNkm表示样本测试步骤的噪声图片,CIkm表示测试集图片,CDFkm表示样本测试步骤中的双流合并特征。
作为优选的技术方案,所述单流颜色特征提取网络和单流噪声特征提取网络都采用VGG-16的卷积部分。
作为优选的技术方案,所述网络训练步骤中计算输入帧的位置嵌入向量,具体计算公式为:
Figure BDA0002863683920000041
其中,XPkm表示相对所有训练集图片中第一帧的位置,XPEk表示网络训练步骤中的位置嵌入矩阵,dXPE表示XPEk总列数,a为正整数,2a表示XPEk偶数列位,2a+1表示XPEk奇数列位;
所述样本测试步骤中计算输入帧的位置嵌入向量,具体计算公式为:
Figure BDA0002863683920000042
其中,CPkm表示相对所有测试集图片中第一帧的位置,CPEk表示样本测试步骤中的位置嵌入矩阵,dCPE表示CPEk总列数,2a表示CPEk偶数列位,2a+1表示CPEk奇数列位。
作为优选的技术方案,所述网络训练步骤中输出自注意力后特征,具体计算公式为:
XLFkm=fL(XDFkm)+XPEkm
XQkm=fQ(XLFkm)
XKkm=fK(XLFkm)
Figure BDA0002863683920000043
Figure BDA0002863683920000051
其中,XDFkm表示网络训练步骤中的双流合并特征,XPEkm表示网络训练步骤中的位置嵌入矩阵,fL、fQ和fK表示神经网络隐层,XAMk表示第k个训练视频输入帧的自注意力图,dXK是隐特征XK的维度,XAFkm表示网络训练步骤中的自注意力后特征;
所述样本测试步骤中输出自注意力后特征,具体计算公式为:
CLFkm=fL(CDFkm)+CPEkm
CQkm=fCQ(CLFkm)
CKkm=fK(CLFkm)
Figure BDA0002863683920000052
Figure BDA0002863683920000053
其中,CDFkm表示样本测试步骤中的双流合并特征,CPEkm表示样本测试步骤中的位置嵌入矩阵,CAMk表示第k个测试视频输入帧的自注意力图,dCK是隐特征CK的维度。
作为优选的技术方案,所述上采样模块中的上采样网络采用FCN-32s的上采样卷积部分。
作为优选的技术方案,所述构建分割网络训练的损失函数,具体表示为:
Figure BDA0002863683920000054
其中,(i,j)为掩膜上的坐标点位置,XMkm表示预测掩膜,skm为掩膜Ykm的长度,tkm为掩膜Ykm的宽度。
作为优选的技术方案,所述对所述二值掩膜计算信任机制下的面部交并比,具体计算公式为:
CFIoUkm=(CS1km∩CS2km)/(CS1km∪CS2km+P×(CS1km∪CS2km-CS1km))
其中,CS1km为预测掩膜中人脸区域,CS2km为二值掩膜中预测篡改区域,P为信任机制的惩罚因子。
本发明还提供一种基于时域自注意力机制的假脸视频篡改检测系统,包括:视频预处理模块、双流特征提取模块、位置嵌入向量计算模块、时域自注意力模块、上采样模块、分割网络构建模块、网络训练模块、训练参数设置模块、分割网络权重值保存模块、分割网络权重值加载模块、二值化处理模块、面部交并比计算模块、二分类模块和检测结果输出模块;
在网络训练中:
所述视频预处理模块用于对视频帧抽样后进行人脸框的检测提取,根据人脸框位置裁剪出部分区域图片,并采样到同一分辨率,得到训练集图片及训练集正确掩膜;
所述双流特征提取模块包括单流颜色特征提取网络和单流噪声特征提取网络,输入训练集图片及噪声图片,分别对图片空域的颜色特征和噪声特征进行特征提取,再将两部分特征求和合并,输出双流合并特征;
所述位置嵌入向量计算模块用于计算输入帧的位置嵌入向量,输入为相对所有输入图片中第一帧的位置,输出为位置嵌入矩阵;
所述时域自注意力模块采用自注意的方式学习前后帧以及所有输入帧的上下文关系,并对每一张图片的卷积特征融入时域信息,所述时域自注意力模块输入双流合并特征和位置嵌入矩阵,输出自注意力后特征;
所述上采样模块输入为自注意力后特征,输出为预测掩膜;
所述分割网络构建模块用于将双流特征提取模块、时域自注意力模块和上采样模块共同合并构建分割网络;
所述训练参数设置模块用于构建分割网络训练的损失函数并设置分割网络参数优化算法;
所述网络训练模块用于使用训练集图片及训练集正确掩膜训练分割网络;
所述分割网络权重值保存模块用于训练完成后保存分割网络权重值;
在样本测试中:
所述视频预处理模块用于视频预处理,得到测试集;
输入测试集图片及噪声图片,所述双流特征提取模块分别对图片空域的颜色特征和噪声特征进行特征提取,再将两部分特征求和合并,输出双流合并特征;
所述位置嵌入向量计算模块用于计算输入帧的位置嵌入向量;
所述时域自注意力模块用于输出自注意力后特征;
所述上采样模块用于输出预测掩膜;
所述分割网络构建模块用于将双流特征提取模块、时域自注意力模块和上采样模块共同合并构建分割网络;
所述分割网络权重值加载模块用于加载训练完成后保存的分割网络权重值;
所处二值化处理模块采用预设二值化阈值对预测掩膜进行二值化处理得到二值掩膜;
所述面部交并比计算模块用于对所述二值掩膜计算信任机制下的面部交并比,
所述二分类模块采用预设判决阈值对面部交并比进行二分类判决;
所述检测结果输出模块用于输出最终的检测结果。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明在空域上利用了单张图片的颜色特征和噪声特征,设计了双流检测模块对两个特征分别进行特征提取,并使用网络参数自适应学习的方式对特征进行合并,利用了单张图片空域的颜色特征、噪声特征以及多张视频帧图片的时域特征进行假脸视频检测,准确率高。
(2)本发明利用了视频中前后帧有一定相关性的特点,设计了时域自注意力模块,这个模块能够同时学习到所有输入帧的特点,并且根据网络参数自适应地计算出所有帧对其中任一帧的注意力系数;并且具有输入和输出维度一致的特点,可以重复多次组合,也可以放到任意卷积神经网络的任意卷积层后面,具有良好的通用性。
(3)本发明设计的分割网络结构,能够对单张图片和多张视频帧有较好的兼容性,对于单张图片,篡改区域的预测依据该图片空域的颜色信息和噪声信息;对于多张视频帧,篡改区域的预测依据是所有帧图片空域的颜色信息和噪声信息,以及视频帧之间的时域关系。
附图说明
图1为本发明基于时域自注意力机制的假脸视频篡改检测方法的流程示意图;
图2为本发明基于时域自注意力机制的假脸视频篡改检测方法的网络训练部分步骤的流程示意图;
图3为本发明基于时域自注意力机制的假脸视频篡改检测方法的SRM滤波器参数图;
图4为本发明基于时域自注意力机制的假脸视频篡改检测方法的输入图片示例图;
图5为本发明基于时域自注意力机制的假脸视频篡改检测方法的噪声图片示例图;
图6为本发明基于时域自注意力机制的假脸视频篡改检测方法的双流特征提取模块示例图;
图7为本发明基于时域自注意力机制的假脸视频篡改检测方法的输入两帧的时域自注意力模块示例图;
图8为本发明基于时域自注意力机制的假脸视频篡改检测方法的整体分割网络示例图;
图9为本发明基于时域自注意力机制的假脸视频篡改检测方法的样本测试部分的流程步骤图;
图10为本发明基于时域自注意力机制的假脸视频篡改检测方法的可视化的检测结果示例图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
如图1所示,本实施例提供一种基于时域自注意力机制的假脸视频篡改检测方法,使用双流特征提取模块分别提取图片空域的颜色特征和噪声特征后合并,再使用时域自注意力模块提取前后帧时域信息,准确预测出篡改区域后,对预测篡改区域计算信任机制下的面部交并比进行真假脸判决,具体包括网络训练部分和样本测试部分;
本实施例以在FaceForensics++(FF++)(C0&C23)数据库上进行训练,在FF++(C0&C23)数据库上进行库内测试以及TIMIT数据库上进行跨库测试为例,详细介绍本实例实施过程。实验在Ubuntu 18.04系统上进行,使用3.8版本的Python语言和1.7.0版本的Pytorch人工神经网络库,CUDA版本为11.0,cudnn版本为7.6.5。
首先对FF++数据库和TIMIT数据进行划分,以7:2:1的比例分为训练集、验证集和测试集。
如图2所示,网络训练部分的具体步骤包括:
S1:对于训练集XV={XV1,XV2,...,XVNV}中每一个视频XVk,其中NV表示训练集视频的个数,进行视频帧抽样,得到XFk={XFk1,XFk2,...,XFkNF},其中NF为抽取的视频帧数量,k=1,2,...,NV,使用Dlib库中的卷积神经网络选取人脸框;
S2:对于每个视频XVk,在XFk和所对应的正确掩膜上,根据人脸框位置裁剪出部分区域图片,并采样到同一分辨率,得到训练集图片为XIk={XIk1,XIk2,...,XIkNF},训练集正确掩膜为Yk={Yk1,Yk2,...,YkNF};
本实施例中裁剪图片区域为1.3倍人脸,采样方法为三次插值,输入图片分辨率为256×256。
S3:搭建双流特征提取模块,输入为训练图片XIkm,计算出的噪声图片为XNkm,输出为双流合并特征XDFkm,具体计算式为:
XNkm=SRMLayer(XIkm)
XDFkm=NN1(XIkm)+NN2(XNkm)
其中,SRMLayer为噪声提取滤波器,NN1为单流颜色特征提取网络,NN2为单流噪声特征提取网络,m=1,2,...,NF;
如图3所示,得到SRMLayer滤波器的参数,如图4、图5所示,输入图片后得到噪声图片,如图6所示,得到双流特征提取模块,本实施例的NN1和NN2都使用VGG-16的卷积部分。该卷积部分输入分辨率为256×256,三通道的图片,接着依次通过卷积模块1包括两个步长为1的64通道输入3×3卷积层和一个步长为2的2×2最大池化层、卷积模块2包括两个步长为1的128通道输入3×3卷积层和一个步长为2的2×2最大池化层、卷积模块3包括两个步长为1的256通道输入3×3卷积层和一个步长为2的2×2最大池化层、卷积模块4包括两个步长为5的512通道输入3×3卷积层和一个步长为2的2×2最大池化层、卷积模块5包括两个步长为5的512通道输入3×3卷积层和一个步长为2的2×2最大池化层,其中所有卷积层的激活函数为ReLU。
S4:计算输入帧的位置嵌入向量,输入为相对所有输入图片中第一帧的位置XPkm,输出为位置嵌入矩阵XPEk,具体计算式为:
Figure BDA0002863683920000111
其中dXPE表示XPEk总列数,a为正整数,2a表示XPEk偶数列位,2a+1表示XPEk奇数列位。
本实施例中,设置dXPE为1024。
S5:搭建时域自注意力模块,输入为双流合并特征集合XDFk={XDFk1,XDFk2,...,XDFkNF}和位置嵌入矩阵XPEk,输出为自注意力后特征集合XAFk={XAFk1,XAFk2,...,XAFkNF},具体计算式为:
XLFkm=fL(XDFkm)+XPEkm
XQkm=fQ(XLFkm)
XKkm=fK(XLFkm)
Figure BDA0002863683920000112
Figure BDA0002863683920000113
其中fL、fQ和fK是神经网络隐层,XAMk是第k个视频输入帧的自注意力图,dXK是隐特征XK的维度,m,n=1,2,...,NF。
在本实施例中,fL网络包括一个步长为1的128通道输入1×1卷积层,卷积展平层,维度为1024的全连接层,fQ和fK网络都是维度为256的全连接层以及随机失活率为0.1的随机失活层,如图7所示,得到本实施例输入两帧的时域自注意力模块示例。
S6:构建上采样模块,输入为自注意力后特征XAFkm,输出为预测掩膜XMkm,具体计算式为:
XMkm=NN3(XAFkm)
其中NN3为上采样网络。
本实施例中NN3使用FCN-32s的上采样卷积部分,包括过步长为1的4096通道输入7×7卷积层、ReLU激活函数、概率为0.5的随机失活层、步长为1的4096通道输入1×1卷积层、ReLU激活函数、概率为0.5的随机失活层、步长为1的2通道输入1×1卷积层、步长为1的2通道输入1×1卷积层、步长为32的2通道输入64×64反卷积层,输出为预测的掩膜。
S7:将双流特征提取模块、时域自注意力模块和上采样模块共同合并构建分割网络;
本实施例中,使用了一个双流特征提取模块,三个时域自注意力模块和一个上采样模块,如图8所示,得到整体分割网络,其中模块A为双流特征提取模块,模块B为时域自注意力模块,模块C为上采样模块。
S8:构建分割网络训练的损失函数:
Figure BDA0002863683920000121
其中,(i,j)为掩膜上的坐标点位置,skm为掩膜Ykm的长度,tkm为掩膜Ykm的宽度。
S9:设置分割网络参数优化算法。
本实施例采用Adam算法进行参数优化,设置学习率为1×10-4,一阶平滑参数β1=0.9,二阶平滑参数β2=0.999,防止分母为0的常数e=1×10-8,当然,优化算法可以使用其它的梯度优化算法,如SGD、RMSprop等;
S10:使用XI和Y训练分割网络;
S11:训练完成后保存分割网络权重值。
如图9所示,样本测试部分的具体步骤如下:
S1:对于训练集CV={CV1,CV2,...,CVRV}中每一个视频CVk,其中RV表示训练集视频的个数,进行视频帧抽样,得到CFk={CFk1,CFk2,...,CFkRF},其中RF为抽取的视频帧数量,k=1,2,...,RV,使用Dlib库中的卷积神经网络选取人脸框。
在本实施例中,网络训练部分的步骤S1和样本测试部分的步骤S1中,直接使用Dlib库中的卷积神经网络对人脸框进行检测,不参与训练;
S2:对于每个视频CVk,在CFk上根据人脸框位置裁剪出部分区域图片,并采样到同一分辨率,得到测试集图片为CIk={CIk1,CIk2,...,CIkRF};
本实施例中裁剪图片区域为1.3倍人脸,采样方法为三次插值,输入图片分辨率为256×256;
在本实施例中,网络训练部分的步骤S2和样本测试部分的步骤S2中,裁剪后图片中除了人脸区域还包括部分背景区域,目的在于让网络学习更多背景信息,同时保证后续信任机制中惩罚项的有效计算;并且采样图像至同一分辨率的目的在于与分割模型输入维度大小保持一致,采样方法也可以采用最近邻插值、线性插值等。
S3:搭建双流特征提取模块,输入为测试图片CIkm,计算出的噪声图片为CNkm,输出为双流合并特征CDFkm,具体计算式为:
CNkm=SRMLayer(CIkm)
CDFkm=NN1(CIkm)+NN2(CNkm)
其中,SRMLayer为噪声提取滤波器,NN1为单流颜色特征提取网络,NN2为单流噪声特征提取网络,m=1,2,...,RF。
本实施例中,搭建的SRMLayer、NN1和NN2都与训练网络结构一致,网络训练部分的步骤S3和样本测试部分的步骤S3中,双流特征提取模块包括两部分独立的特征提取网络,分别对图片空域的颜色特征和噪声特征进行特征提取,然后再将两部分特征求和合并,具体使用的单流特征提取网络可以使用VGG等常用分类网络的卷积部分。
S4:计算输入帧的位置嵌入向量,输入为相对所有输入图片中第一帧的位置CPkm,输出为位置嵌入矩阵CPEk,具体计算式为:
Figure BDA0002863683920000141
其中dCPE表示CPEk总列数,a为正整数,2a表示CPEk偶数列位,2a+1表示CPEk奇数列位。
本实施例中,设置dCPE为1024,网络训练部分的步骤S4和样本测试部分的步骤S4中的位置嵌入矩阵,能够有效地描述出帧图片在视频中的位置关系,其中输入的位置值采用相对值而非视频的绝对值,目的在于防止视频过长而造成输入值过大;对于视频,连续两帧的相关性较大,而相隔较远两帧的相关性较弱,说明两帧之间间隔距离的大小对自注意力的计算尤为重要。本实施例提出输入的位置信息为相对位置,是因为若一个视频过长,绝对位置会过大,并且两帧相关性与绝对位置无关。
S5:搭建时域自注意力模块,输入为双流合并特征集合CDFk={CDFk1,CDFk2,...,CDFkRF}和位置嵌入矩阵CPEk,输出为自注意力后特征集合CAFk={CAFk1,CAFk2,...,CAFkRF},具体计算式为:
CLFkm=fL(CDFkm)+CPEkm
CQkm=fCQ(CLFkm)
CKkm=fK(CLFkm)
Figure BDA0002863683920000142
Figure BDA0002863683920000151
其中fL、fQ和fK是神经网络隐层,CAMk是第k个视频输入帧的自注意力图,dCK是隐特征CK的维度,m,n=1,2,...,RF。
本实施例中,fL、fQ和fK都与训练网络结构一致,网络训练部分的步骤S5和样本测试部分的步骤S5中的时域自注意力模块,用自注意力的方式提取上下文卷积特征,可以对卷积特征进行自注意力合并,能够以自注意的方式学习到前后帧以及所有输入帧的上下文关系,并对每一张图片的卷积特征融入时域信息,并且时域自注意力模块的输入输出维度都一致,因此可以通过串联组合多个来进行时域信息的提取,也能放在任意卷积神经网络的任一卷积层后面;同时,时域自注意力模块对单张图片和多张视频帧都有较好的兼容性,若输入为单张图片,那么注意力会完全放在本身特征上;若输入为多张视频帧,注意力会结合前后相关帧;再者,该模块采用了自注意的计算方法,理论上输入任意长的图片序列,都能计算出合适的自注意力图,得到自注意力特征。
S6:构建上采样模块,输入为注意力后特征CAFkm,输出为预测掩膜CMkm,具体计算式为:
CMkm=NN3(CAFkm)
本实施例中,NN3与训练网络结构一致,网络训练部分的步骤S6和样本测试部分的步骤S6中,使用的上采样模块是为了生成篡改区域的预测掩膜,可以使用常用的上采样卷积,比如全卷积网络中的上采样部分;
S7:将双流特征提取模块、时域自注意力模块和上采样模块共同合并构建与网络训练部分相同分割网络;
本实施例中,使用了一个双流特征提取模块,三个时域自注意力模块和一个上采样模块,在网络训练部分的步骤S7和样本测试部分的步骤S7中,三个模块合并构成了本实施例的最终分割网络,其中时域自注意力模块由于输入输出的维度一致,该模块可以重复组合多次;
S8:加载网络训练部分得到的权重;
S9:使用预先设定的二值化阈值T1对CMkm进行二值化处理得到二值掩膜CMBkm
本实施例中,二值化阈值T1取0.01。对分割网络预测的掩膜进行二值化处理,预测掩膜是范围在0-1之间且大小与输入图片一致的概率图,无法直接进行二分类判决,因此,本实施例通过预先设置的二值化阈值T1进行二值化处理,得到预测篡改区域的位置和面积信息,具体而言,去噪后掩膜上的点大于T1时置为1,小于T1时置为0,得到二值掩膜。
S10:对二值掩膜CMBkm计算信任机制下面部交并比
CFIoUkm=(CS1km∩CS2km)/(CS1km∪CS2km+P×(CS1km∪CS2km-CS1km))
其中,CS1km为预测掩膜CMkm中人脸区域,CS2km为二值掩膜CMBkm中预测篡改区域,P为信任机制的惩罚因子。
根据预测篡改区域的位置和面积信息,以及先验的人脸区域计算信任机制下面部交并比,作为判断是否有篡改的依据,其中信任机制的惩罚P为任意非零数,本实施例中P取1。
S11:使用预先设定的判决阈值T2对CFIoUk进行二分类判决,依次判断所有帧图片的真假,给出准确率和平均错误率。
设L张图片中有L1张真脸图片和L2张假脸图片,其中L1内L1a张被判断成真脸,L1b张被判断成假脸,L2内L2a张被判断成真脸,L2b张被判断成假脸,给出平均错误率(Half TotalError Rate)
Figure BDA0002863683920000161
本实施例中,根据计算得到的信任机制下面部交并比,通过预先设置的判决阈值T2进行二值化判决。具体而言,面部交并比大于T2时为假脸,小于T2时为真脸。本实施例的判决阈值T2取0.1。
本实施例样本测试部分的步骤S10和步骤S11中,预测篡改区域的位置和面积信息无法直接对假脸篡改进行判断,因此使用信任机制下面部交并比作为指标,根据阈值进行二分类判决,得到最终的检测结果。
实施例中的跨库测试对TIMIT数据库、DeepFakeDetection数据库、FFW数据库测试集进行相同的测试步骤,得到平均错误率如下表1所示。通过本发明的方法,如图10所示,得到FF++(C0&C23)数据库中其中一个测试视频的连续12帧人脸图片检测结果,包括输入图片帧,预测掩膜和对应热力图。与其他现有其他检测方法相比,本发明的方法库内测试准确率较高,跨库测试的平均错误率较低,验证了有效性。
表1 FF++(C0&C23)数据库训练模型测试结果(%)
Figure BDA0002863683920000171
因此,利用假脸视频空域的颜色特征、噪声特征以及多张视频帧图片的时域特征进行假脸视频检测,通过本发明的基于时域自注意力机制的深度网络检测器,能够有效地检测出假脸视频,具有通用性强和泛化能力强的特点,与现有的算法相比,更具有更大的潜在应用价值。
本实施例还提供一种基于时域自注意力机制的假脸视频篡改检测系统,包括:视频预处理模块、双流特征提取模块、位置嵌入向量计算模块、时域自注意力模块、上采样模块、分割网络构建模块、网络训练模块、训练参数设置模块、分割网络权重值保存模块、分割网络权重值加载模块、二值化处理模块、面部交并比计算模块、二分类模块和检测结果输出模块;
在网络训练中:
所述视频预处理模块用于对视频帧抽样后进行人脸框的检测提取,根据人脸框位置裁剪出部分区域图片,并采样到同一分辨率,得到训练集图片及训练集正确掩膜;
所述双流特征提取模块包括单流颜色特征提取网络和单流噪声特征提取网络,输入训练集图片及噪声图片,分别对图片空域的颜色特征和噪声特征进行特征提取,再将两部分特征求和合并,输出双流合并特征;
所述位置嵌入向量计算模块用于计算输入帧的位置嵌入向量,输入为相对所有输入图片中第一帧的位置,输出为位置嵌入矩阵;
所述时域自注意力模块采用自注意的方式学习前后帧以及所有输入帧的上下文关系,并对每一张图片的卷积特征融入时域信息,所述时域自注意力模块输入双流合并特征和位置嵌入矩阵,输出自注意力后特征;
所述上采样模块输入为自注意力后特征,输出为预测掩膜;
所述分割网络构建模块用于将双流特征提取模块、时域自注意力模块和上采样模块共同合并构建分割网络;
所述训练参数设置模块用于构建分割网络训练的损失函数并设置分割网络参数优化算法;
所述网络训练模块用于使用训练集图片及训练集正确掩膜训练分割网络;
所述分割网络权重值保存模块用于训练完成后保存分割网络权重值;
在样本测试中:
所述视频预处理模块用于视频预处理,得到测试集;
输入测试集图片及噪声图片,所述双流特征提取模块分别对图片空域的颜色特征和噪声特征进行特征提取,再将两部分特征求和合并,输出双流合并特征;
所述位置嵌入向量计算模块用于计算输入帧的位置嵌入向量;
所述时域自注意力模块用于输出自注意力后特征;
所述上采样模块用于输出预测掩膜;
所述分割网络构建模块用于将双流特征提取模块、时域自注意力模块和上采样模块共同合并构建分割网络;
所述分割网络权重值加载模块用于加载训练完成后保存的分割网络权重值;
所处二值化处理模块采用预设二值化阈值对预测掩膜进行二值化处理得到二值掩膜;
所述面部交并比计算模块用于对所述二值掩膜计算信任机制下的面部交并比,
所述二分类模块采用预设判决阈值对面部交并比进行二分类判决;
所述检测结果输出模块用于输出最终的检测结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于时域自注意力机制的假脸视频篡改检测方法,其特征在于,包括网络训练步骤和样本测试步骤;
所述网络训练步骤包括:
视频预处理:对视频帧抽样后进行人脸框的检测提取,根据人脸框位置裁剪出部分区域图片,并采样到同一分辨率,得到训练集图片及训练集正确掩膜;
搭建双流特征提取模块,所述双流特征提取模块包括单流颜色特征提取网络和单流噪声特征提取网络,输入训练集图片及噪声图片,分别对图片空域的颜色特征和噪声特征进行特征提取,再将两部分特征求和合并,输出双流合并特征;
计算输入帧的位置嵌入向量,输入为相对所有输入图片中第一帧的位置,输出为位置嵌入矩阵;
搭建时域自注意力模块,采用自注意的方式学习前后帧以及所有输入帧的上下文关系,并对每一张图片的卷积特征融入时域信息,所述时域自注意力模块输入双流合并特征和位置嵌入矩阵,输出自注意力后特征;
构建上采样模块,所述上采样模块输入为自注意力后特征,输出为预测掩膜;
将双流特征提取模块、时域自注意力模块和上采样模块共同合并构建分割网络;
构建分割网络训练的损失函数并设置分割网络参数优化算法;
使用训练集图片及训练集正确掩膜训练分割网络,训练完成后保存分割网络权重值;
所述样本测试步骤包括:
视频预处理,得到测试集;
搭建双流特征提取模块,输入测试集图片及噪声图片,分别对图片空域的颜色特征和噪声特征进行特征提取,再将两部分特征求和合并,输出双流合并特征;
计算输入帧的位置嵌入向量;
搭建时域自注意力模块,输出自注意力后特征,并构建上采样模块,输出预测掩膜,将双流特征提取模块、时域自注意力模块和上采样模块共同合并构建分割网络;
加载训练完成后保存的分割网络权重值;
预设二值化阈值对预测掩膜进行二值化处理得到二值掩膜;
对所述二值掩膜计算信任机制下的面部交并比,预设判决阈值对面部交并比进行二分类判决,得到最终的检测结果。
2.根据权利要求1所述的基于时域自注意力机制的假脸视频篡改检测方法,其特征在于,所述网络训练步骤、样本测试步骤中的视频预处理,采用最近邻插值、线性插值或三次插值进行图片采样。
3.根据权利要求1所述的基于时域自注意力机制的假脸视频篡改检测方法,其特征在于,所述网络训练步骤中搭建双流特征提取模块,输入训练集图片及噪声图片,输出双流合并特征,具体计算公式表示为:
XNkm=SRMLayer(XIkm)
XDFkm=NN1(XIkm)+NN2(XNkm)
其中,XNkm表示网络训练步骤的噪声图片,SRMLayer表示噪声提取滤波器,XIkm表示训练集图片,NN1表示单流颜色特征提取网络,NN2表示单流噪声特征提取网络,XDFkm表示网络训练步骤中的双流合并特征;
所述样本测试步骤中搭建双流特征提取模块,输入测试集图片及噪声图片,输出双流合并特征,具体计算公式表示为:
CNkm=SRMLayer(CIkm)
CDFkm=NN1(CIkm)+NN2(CNkm)
其中,CNkm表示样本测试步骤的噪声图片,CIkm表示测试集图片,CDFkm表示样本测试步骤中的双流合并特征。
4.根据权利要求1所述的基于时域自注意力机制的假脸视频篡改检测方法,其特征在于,所述单流颜色特征提取网络和单流噪声特征提取网络都采用VGG-16的卷积部分。
5.根据权利要求1所述的基于时域自注意力机制的假脸视频篡改检测方法,其特征在于,所述网络训练步骤中计算输入帧的位置嵌入向量,具体计算公式为:
Figure FDA0002863683910000031
其中,XPkm表示相对所有训练集图片中第一帧的位置,XPEk表示网络训练步骤中的位置嵌入矩阵,dXPE表示XPEk总列数,a为正整数,2a表示XPEk偶数列位,2a+1表示XPEk奇数列位;
所述样本测试步骤中计算输入帧的位置嵌入向量,具体计算公式为:
Figure FDA0002863683910000032
其中,CPkm表示相对所有测试集图片中第一帧的位置,CPEk表示样本测试步骤中的位置嵌入矩阵,dCPE表示CPEk总列数,2a表示CPEk偶数列位,2a+1表示CPEk奇数列位。
6.根据权利要求1所述的基于时域自注意力机制的假脸视频篡改检测方法,其特征在于,所述网络训练步骤中输出自注意力后特征,具体计算公式为:
XLFkm=fL(XDFkm)+XPEkm
XQkm=fQ(XLFkm)
XKkm=fK(XLFkm)
Figure FDA0002863683910000041
Figure FDA0002863683910000042
其中,XDFkm表示网络训练步骤中的双流合并特征,XPEkm表示网络训练步骤中的位置嵌入矩阵,fL、fQ和fK表示神经网络隐层,XAMk表示第k个训练视频输入帧的自注意力图,dXK是隐特征XK的维度,XAFkm表示网络训练步骤中的自注意力后特征;
所述样本测试步骤中输出自注意力后特征,具体计算公式为:
CLFkm=fL(CDFkm)+CPEkm
CQkm=fCQ(CLFkm)
CKkm=fK(CLFkm)
Figure FDA0002863683910000043
Figure FDA0002863683910000044
其中,CDFkm表示样本测试步骤中的双流合并特征,CPEkm表示样本测试步骤中的位置嵌入矩阵,CAMk表示第k个测试视频输入帧的自注意力图,dCK是隐特征CK的维度。
7.根据权利要求1所述的基于时域自注意力机制的假脸视频篡改检测方法,其特征在于,所述上采样模块中的上采样网络采用FCN-32s的上采样卷积部分。
8.根据权利要求1所述的基于时域自注意力机制的假脸视频篡改检测方法,其特征在于,所述构建分割网络训练的损失函数,具体表示为:
Figure FDA0002863683910000051
其中,(i,j)为掩膜上的坐标点位置,XMkm表示预测掩膜,skm为掩膜Ykm的长度,tkm为掩膜Ykm的宽度。
9.根据权利要求1所述的基于时域自注意力机制的假脸视频篡改检测方法,其特征在于,所述对所述二值掩膜计算信任机制下的面部交并比,具体计算公式为:
CFIoUkm=(CS1km∩CS2km)/(CS1km∪CS2km+P×(CS1km∪CS2km-CS1km))
其中,CS1km为预测掩膜中人脸区域,CS2km为二值掩膜中预测篡改区域,P为信任机制的惩罚因子。
10.一种基于时域自注意力机制的假脸视频篡改检测系统,其特征在于,包括:视频预处理模块、双流特征提取模块、位置嵌入向量计算模块、时域自注意力模块、上采样模块、分割网络构建模块、网络训练模块、训练参数设置模块、分割网络权重值保存模块、分割网络权重值加载模块、二值化处理模块、面部交并比计算模块、二分类模块和检测结果输出模块;
在网络训练中:
所述视频预处理模块用于对视频帧抽样后进行人脸框的检测提取,根据人脸框位置裁剪出部分区域图片,并采样到同一分辨率,得到训练集图片及训练集正确掩膜;
所述双流特征提取模块包括单流颜色特征提取网络和单流噪声特征提取网络,输入训练集图片及噪声图片,分别对图片空域的颜色特征和噪声特征进行特征提取,再将两部分特征求和合并,输出双流合并特征;
所述位置嵌入向量计算模块用于计算输入帧的位置嵌入向量,输入为相对所有输入图片中第一帧的位置,输出为位置嵌入矩阵;
所述时域自注意力模块采用自注意的方式学习前后帧以及所有输入帧的上下文关系,并对每一张图片的卷积特征融入时域信息,所述时域自注意力模块输入双流合并特征和位置嵌入矩阵,输出自注意力后特征;
所述上采样模块输入为自注意力后特征,输出为预测掩膜;
所述分割网络构建模块用于将双流特征提取模块、时域自注意力模块和上采样模块共同合并构建分割网络;
所述训练参数设置模块用于构建分割网络训练的损失函数并设置分割网络参数优化算法;
所述网络训练模块用于使用训练集图片及训练集正确掩膜训练分割网络;
所述分割网络权重值保存模块用于训练完成后保存分割网络权重值;
在样本测试中:
所述视频预处理模块用于视频预处理,得到测试集;
输入测试集图片及噪声图片,所述双流特征提取模块分别对图片空域的颜色特征和噪声特征进行特征提取,再将两部分特征求和合并,输出双流合并特征;
所述位置嵌入向量计算模块用于计算输入帧的位置嵌入向量;
所述时域自注意力模块用于输出自注意力后特征;
所述上采样模块用于输出预测掩膜;
所述分割网络构建模块用于将双流特征提取模块、时域自注意力模块和上采样模块共同合并构建分割网络;
所述分割网络权重值加载模块用于加载训练完成后保存的分割网络权重值;
所处二值化处理模块采用预设二值化阈值对预测掩膜进行二值化处理得到二值掩膜;
所述面部交并比计算模块用于对所述二值掩膜计算信任机制下的面部交并比,
所述二分类模块采用预设判决阈值对面部交并比进行二分类判决;
所述检测结果输出模块用于输出最终的检测结果。
CN202011577163.8A 2020-12-28 2020-12-28 基于时域自注意力机制的假脸视频篡改检测方法及系统 Expired - Fee Related CN112733625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011577163.8A CN112733625B (zh) 2020-12-28 2020-12-28 基于时域自注意力机制的假脸视频篡改检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011577163.8A CN112733625B (zh) 2020-12-28 2020-12-28 基于时域自注意力机制的假脸视频篡改检测方法及系统

Publications (2)

Publication Number Publication Date
CN112733625A true CN112733625A (zh) 2021-04-30
CN112733625B CN112733625B (zh) 2022-06-14

Family

ID=75606197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011577163.8A Expired - Fee Related CN112733625B (zh) 2020-12-28 2020-12-28 基于时域自注意力机制的假脸视频篡改检测方法及系统

Country Status (1)

Country Link
CN (1) CN112733625B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627233A (zh) * 2021-06-17 2021-11-09 中国科学院自动化研究所 基于视觉语义信息的人脸伪造检测方法和装置
CN115311720A (zh) * 2022-08-11 2022-11-08 山东省人工智能研究院 一种基于Transformer的deepfake生成方法
CN116129502A (zh) * 2023-02-06 2023-05-16 人民网股份有限公司 人脸伪造视频检测模型的训练方法、装置及计算设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130223681A1 (en) * 2012-02-29 2013-08-29 Suprema Inc. Apparatus and method for identifying fake face
KR20190136833A (ko) * 2018-05-31 2019-12-10 서울대학교산학협력단 안면 특화 초 고화질 심층 신경망 학습 장치 및 방법
CN110929635A (zh) * 2019-11-20 2020-03-27 华南理工大学 基于信任机制下面部交并比的假脸视频检测方法及系统
CN110969143A (zh) * 2019-12-19 2020-04-07 深圳壹账通智能科技有限公司 基于图像识别的取证方法、系统、计算机设备及存储介质
CN111080628A (zh) * 2019-12-20 2020-04-28 湖南大学 图像篡改检测方法、装置、计算机设备和存储介质
CN111311563A (zh) * 2020-02-10 2020-06-19 北京工业大学 一种基于多域特征融合的图像篡改检测方法
CN111340844A (zh) * 2020-02-24 2020-06-26 南昌航空大学 基于自注意力机制的多尺度特征光流学习计算方法
CN111723735A (zh) * 2020-06-18 2020-09-29 四川大学 一种基于卷积神经网络的伪高码率hevc视频检测方法
CN111986180A (zh) * 2020-08-21 2020-11-24 中国科学技术大学 基于多相关帧注意力机制的人脸伪造视频检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130223681A1 (en) * 2012-02-29 2013-08-29 Suprema Inc. Apparatus and method for identifying fake face
KR20190136833A (ko) * 2018-05-31 2019-12-10 서울대학교산학협력단 안면 특화 초 고화질 심층 신경망 학습 장치 및 방법
CN110929635A (zh) * 2019-11-20 2020-03-27 华南理工大学 基于信任机制下面部交并比的假脸视频检测方法及系统
CN110969143A (zh) * 2019-12-19 2020-04-07 深圳壹账通智能科技有限公司 基于图像识别的取证方法、系统、计算机设备及存储介质
CN111080628A (zh) * 2019-12-20 2020-04-28 湖南大学 图像篡改检测方法、装置、计算机设备和存储介质
CN111311563A (zh) * 2020-02-10 2020-06-19 北京工业大学 一种基于多域特征融合的图像篡改检测方法
CN111340844A (zh) * 2020-02-24 2020-06-26 南昌航空大学 基于自注意力机制的多尺度特征光流学习计算方法
CN111723735A (zh) * 2020-06-18 2020-09-29 四川大学 一种基于卷积神经网络的伪高码率hevc视频检测方法
CN111986180A (zh) * 2020-08-21 2020-11-24 中国科学技术大学 基于多相关帧注意力机制的人脸伪造视频检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
REN Y 等: "Face Anti-spoofing with a Noise-Attention Network Using Color-Channel Difference Images", 《INTERNATIONAL CONFERENCE ON ARTIFICIAL NEURAL NETWORKS》 *
高逸飞 等: "5 种流行假脸视频检测网络性能分析和比较", 《应用科学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627233A (zh) * 2021-06-17 2021-11-09 中国科学院自动化研究所 基于视觉语义信息的人脸伪造检测方法和装置
CN115311720A (zh) * 2022-08-11 2022-11-08 山东省人工智能研究院 一种基于Transformer的deepfake生成方法
CN116129502A (zh) * 2023-02-06 2023-05-16 人民网股份有限公司 人脸伪造视频检测模型的训练方法、装置及计算设备
CN116129502B (zh) * 2023-02-06 2024-03-01 人民网股份有限公司 人脸伪造视频检测模型的训练方法、装置及计算设备

Also Published As

Publication number Publication date
CN112733625B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN112733625B (zh) 基于时域自注意力机制的假脸视频篡改检测方法及系统
CN112734696B (zh) 基于多域特征融合的换脸视频篡改检测方法及系统
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN112991278B (zh) RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及系统
CN110349136A (zh) 一种基于深度学习的篡改图像检测方法
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN110222604B (zh) 基于共享卷积神经网络的目标识别方法和装置
CN110991444B (zh) 面向复杂场景的车牌识别方法及装置
CN111832484A (zh) 一种基于卷积感知哈希算法的回环检测方法
CN110929635B (zh) 基于信任机制下面部交并比的假脸视频检测方法及系统
CN110490265B (zh) 一种基于双路卷积和特征融合的图像隐写分析方法
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN114255403A (zh) 基于深度学习的光学遥感图像数据处理方法及系统
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN111539456B (zh) 一种目标识别方法及设备
CN114693607A (zh) 基于多域块特征标志点配准的篡改视频检测方法及系统
CN115761888A (zh) 基于nl-c3d模型的塔吊操作人员异常行为检测方法
CN115331135A (zh) 基于多域特征区域标准分数差异的Deepfake视频检测方法
CN115565150A (zh) 一种基于改进的YOLOv3行人及车辆目标检测方法及系统
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN117315543A (zh) 一种基于置信度门控时空记忆网络的半监督视频目标分割方法
CN117557774A (zh) 一种基于改进YOLOv8的无人机图像小目标检测方法
CN117292324A (zh) 一种人群密度估计方法及系统
CN113627245B (zh) Crts目标检测方法
CN113642520B (zh) 一种带有头部信息的双任务行人检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220614

CF01 Termination of patent right due to non-payment of annual fee