CN116778545A - 一种视频深度伪造检测方法及装置 - Google Patents

一种视频深度伪造检测方法及装置 Download PDF

Info

Publication number
CN116778545A
CN116778545A CN202310240293.XA CN202310240293A CN116778545A CN 116778545 A CN116778545 A CN 116778545A CN 202310240293 A CN202310240293 A CN 202310240293A CN 116778545 A CN116778545 A CN 116778545A
Authority
CN
China
Prior art keywords
image
video
network
training
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310240293.XA
Other languages
English (en)
Inventor
张翔
徐锐
杨慧
聂大成
刘世钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 30 Research Institute
Original Assignee
CETC 30 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 30 Research Institute filed Critical CETC 30 Research Institute
Priority to CN202310240293.XA priority Critical patent/CN116778545A/zh
Publication of CN116778545A publication Critical patent/CN116778545A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种视频深度伪造检测方法及装置,首先对视频数据集进行视频帧人脸提取和标签生成得到训练样本视频帧,对其进行图像增强处理形成多个增强样本图像,然后对增强样本图像求取三通道共现矩阵得到共现矩阵图像输入至归因网络,根据伪造算法标签得到N维权重向量,构建深度伪造检测网络对视频数据集进行训练得到模型输出结果,最后将模型输出结果和N维权重向量采用权重加权融合平均法得到视频帧伪造检测结果。采用面向人脸深度伪造的数据增强和算法归因处理操作,能够引导不同类生成算法检测模型的有效融合,进而提升实际检测场景中未知生成算法深度伪造视频检测的准确性和泛化性。

Description

一种视频深度伪造检测方法及装置
技术领域
本申请涉及图像处理技术领域,具体而言,涉及一种视频深度伪造检测方法及装置。
背景技术
深度伪造技术(DeepFake)是一种基于深度学习等人工智能方法自动编辑或合成伪造内容的技术。近年来,随着深度学习信息技术在计算机视觉领域的发展,一方面使得深度伪造技术变得智能化和流程化,造成造假成本与门槛大大降低,另一方面依托强大的智能算法与不断完善的深度伪造模型,生成的伪造视图像已经能够达到场景逼真、真假难辨的效果。而恶意的深度伪造视图像,尤其是针对公众人物的深度伪造人脸视频数据近年来在社交软件和内容分享平台中快速散播,引起社会舆论广泛关注。这些音视频数据的生成和传播严重侵蚀社会信任度,给工作和生活带来干扰。
目前视频深度伪造技术主要聚焦于人脸视频伪造,包括人脸交换、属性修改和全脸合成等方面,因此现阶段视频深度伪造检测技术研究主要基于典型伪造方法构建的相关数据集进行实验。目前相关专利主要还是结合学术研究热点进相关行权利保护,在典型学术数据集上针对单个数据、单一算法进行检测方法的创新性研究。
尽管先进的深度伪造检测算法在FF++、DFDC、Celeb-DF等主流学术数据集上表现出良好的准确率,但当检测模型与训练数据的生成算法不匹配时(如在FF++上训练的模型应用到Celeb-DF数据上检测),算法的性能将会急剧下降,因为不同数据集往往由不同生成算法组成,并且数据样本压缩方式、分辨率、噪声影响等程度均不一致,这会极大影响网络特征提取的鲁棒性。
发明内容
本申请的目的在于,为了克服现有的技术缺陷,提供了一种视频深度伪造检测方法及装置,通过对深度伪造视频采用面向人脸深度伪造的数据增强和算法归因处理操作,引导不同类生成算法检测模型的有效融合,能够达到提升实际检测场景中未知生成算法深度伪造视频检测的准确性和泛化性的效果。
本申请目的通过下述技术方案来实现:
第一方面,本申请提出了一种视频深度伪造检测方法,包括:
对收集的视频数据集进行视频帧人脸提取和标签生成,得到训练样本视频帧,所述训练样本视频帧带有伪造算法标签;
对所述训练样本视频帧进行图像增强处理,形成多个增强样本图像;
对所述增强样本图像求取三通道共现矩阵得到共现矩阵图像,将所述共现矩阵图像输入至归因网络,根据伪造算法标签得到N维权重向量;
构建深度伪造检测网络,并利用所述深度伪造检测网络对所述视频数据集进行训练得到模型输出结果;
将所述模型输出结果和N维权重向量采用权重加权融合平均法得到视频帧伪造检测结果。
可选地,对收集的视频数据集进行视频帧人脸提取和标签生成,得到训练样本视频帧的步骤,包括:
对所述视频数据集按照预设间隔进行帧采样得到多个带有伪造算法标签的视频帧;
使用MTCNN模型获取所述视频帧中每帧人脸图像的关键点矩阵;
对所述关键点矩阵所在的人脸区域进行扩大、裁剪得到训练样本视频帧。
可选地,对所述训练样本视频帧进行图像增强处理,形成多个增强样本图像的步骤,包括:
按照预设概率对所述训练样本视频帧根据压缩、高斯噪声、水平翻转、亮度调整、对比度调整、色度调整、仿射变换等第一裁剪方案,或者,基于所述关键点矩阵中的轮廓特征点进行剪裁的第二裁剪方案,或者,基于所述关键点矩阵中的鼻子特征点进行剪裁的第三裁剪方案,或者,基于所述关键点矩阵中的眼部特征点进行剪裁的第四裁剪方案,或者,基于所述关键点矩阵中的嘴唇特征点进行剪裁的第五裁剪方案进行图像增强处理,形成多个增强样本图像。
可选地,对所述增强样本图像求取三通道共现矩阵得到共现矩阵图像,将所述共现矩阵图像输入至归因网络,根据伪造算法标签得到N维权重向量的步骤,包括:
将所述增强样本图像按照RGB三通道分离,求出每条通道中单张图像的每个像素点的相邻像素点共现对值,得到共现矩阵;
将所述共现矩阵进行归一化、深度维度叠加得到共现矩阵图像;
将所述共现矩阵图像输入至归因网络,使得所述归因网络根据伪造算法标签得到N维权重向量。
可选地,所述归因网络包括输入层、全连接层以及输出层,所述归因网络根据伪造算法标签得到N维权重向量的步骤,包括:
所述输入层根据所述共现矩阵图像进行微调,并将所述共现矩阵图像转化为2048维张量的图像,并发送至所述全连接层;
所述全连接层按照伪造算法标签进行微调,将所述2048维张量的图像转化为张量为伪造算法标签的类别总量的图像,并发送至所述输出层;
所述输出层根据多分类激活函数将所述张量为伪造算法标签的类别总量的图像转化为N维权重向量。
可选地,所述归因网络采用多分类交叉熵损失函数,所述多分类交叉熵损失函数loglossAttri为:
其中N为生成算法类别数量,yic是符号函数,i为样本,pic为样本i属于类别c的预测概率。
可选地,所述构建深度伪造检测网络,并利用所述深度伪造检测网络对所述视频数据集进行训练得到模型输出结果的步骤,包括:
将ImagNet数据集中训练的EfficientNet模型作为初始模型构建深度伪造检测网络;
利用所述深度伪造检测网络将所述视频数据集划分为多个子集;
选取两个子集并对其中一个子集进行标记得到已标记子集和未标记子集;
对所述已标记子集训练教师分类模型,利用所述教师分类模型对未标记子集进行分类得到分类结果;
对所述分类结果进行过滤得到软标签数据对,并利用所述已标记子集和所述软标签数据对训练学生模型;
利用所述学生模型对多个子集中另外选取的子集进行训练,直至达到预期训练次数或网络收敛停止训练得到模型输出结果。
第二方面,本申请提出了一种视频深度伪造检测装置,所述装置包括:
提取模块,用于对收集的视频数据集进行视频帧人脸提取和标签生成,得到训练样本视频帧,所述训练样本视频帧带有伪造算法标签;
图像处理模块,用于对所述训练样本视频帧进行图像增强处理,形成多个增强样本图像;
向量生成模块,用于对所述增强样本图像求取三通道共现矩阵得到共现矩阵图像,将所述共现矩阵图像输入至归因网络,根据伪造算法标签得到N维权重向量;
网络构建模块,用于构建深度伪造检测网络,并利用所述深度伪造检测网络对所述视频数据集进行训练得到模型输出结果;
结果生成模块,用于将所述模型输出结果和N维权重向量采用权重加权融合平均法得到视频帧伪造检测结果。
第三方面,本申请还提出了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如第一方面任一项所述的视频深度伪造检测方法。
第四方面,本申请还提出了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如第一方面任一项所述的视频深度伪造检测方法。
上述本申请主方案及其各进一步选择方案可以自由组合以形成多个方案,均为本申请可采用并要求保护的方案;且本申请,(各非冲突选择)选择之间以及和其他选择之间也可以自由组合。本领域技术人员在了解本申请方案后根据现有技术和公知常识可明了有多种组合,均为本申请所要保护的技术方案,在此不做穷举。
本申请的有益效果在于:
第一、本申请通过结合多种方案对图像件增强处理,能够有效提高单一检测算法的准确性。
第二、将N类伪造生成方法按算法相似性归类能够减少检测模型的类别数量,降低模型融合复杂度,利用归因算法为未知生成方法伪造视频进行生成算法归因,引导多类数据训练的不同模型融合,有效提高了复杂环境下检测算法的泛化性和准确性。
附图说明
图1示出了本申请实施例提出的视频深度伪造检测方法的一种流程示意图。
图2示出了本申请提供的EfficientNet网络模型一维分类结果的流程示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在现有技术中,虽然先进的深度伪造检测算法能够在FF++、DFDC、Celeb-DF等主流学术数据集上表现出良好的准确率,但当检测模型与训练数据的生成算法不匹配时(如在FF++上训练的模型应用到Celeb-DF数据上检测),算法的性能将会急剧下降,因为不同数据集往往由不同生成算法组成,并且数据样本压缩方式、分辨率、噪声影响等程度均不一致,这会极大影响网络特征提取的鲁棒性。
而为了解决上述的技术问题,本申请提出了一种视频深度伪造检测方法,该方法不仅能够提高检测结果的可解释性,还能够根据归因结果指导多种检测模型融合,提高伪造检测准的准确度和泛化性,接下来对其进行详细说明。
请参照图1,图1示出了本申请实施例提出的视频深度伪造检测方法的一种流程示意图,包括以下各个步骤:
S100、对收集的视频数据集进行视频帧人脸提取和标签生成,得到训练样本视频帧。
视频伪造检测主要针对人脸视频,检测方法有两种,一种是对帧间的时序进行一致性检测,而另一种是对帧内的视频图像进行帧检测。
其中训练样本视频帧带有伪造算法标签,收集的视频数据集主要包括具有换脸、属性操纵等特点的deepfakes、faceswap、face2face、neuraltextures、deepfacelab、ALAE、FSGAN、FOMM等构建的真伪数据集,以及WildDeepfake等网络收集的真伪数据集,通过上述的伪造方法构成FF++(FaceForebsics++)、Celeb-DF、WildDeepfake、DFDC等典型学术研究使用的数据集,本申请提出的收集的视频数据集主要用于对模型进行训练和测试。
其中,步骤S100又包括以下步骤:
S110、对视频数据集按照预设间隔进行帧采样得到多个带有伪造算法标签的视频帧。
S120、使用MTCNN模型获取视频帧中每帧人脸图像的关键点矩阵。
S130、对关键点矩阵所在的人脸区域进行扩大、裁剪得到训练样本视频帧。
MTCNN(Multi-taskconvolutional neural network,多任务卷积神经网络)模型应用于人脸识别领域中的人脸对齐环节,具有速度快、误检率低、泛化能力强的优点。
在一种可能的实施例中,某个视频由算法A伪造生成,按照预设间隔为10帧进行帧采样,得到30个视频帧,采用MTCNN模型对每个视频帧中的人脸进行剪检测,获取每帧视频中的人脸68关键点矩阵,并在提取的人脸区域四周扩大30%进行人脸图像剪裁构成新的图像,再对这30副裁剪后的图像打上“伪造”和“算法A”的双重标签作为伪造算法标签,如果是真实视频帧则用“真实”+“无算法”的标签,“伪造”和“算法A”的标签用于伪造检测模块分类,而“真实”+“无算法”的标签用于归因模块分类。
S200、对训练样本视频帧进行图像增强处理,形成多个增强样本图像。
为了提高网络的泛化性能,在训练样本视频帧的时候要通过数据增强操作才能让网络能够在真正预测的时候提高鲁棒性。由于FF++、Celeb-DF等学术研究使用最广泛的数据集是由有限数量的演员、明星换脸而来,数据分布较为单一。因此,检测网络会出现当面临多个视频中使用的是同一个人脸从而导致训练数据集过拟合的问题,在这种情况下网络倾向于过拟合人物目标的面部特征,而不是深度伪造的特征,从而导致网络泛化性低,而本申请提出的图像增强处理能较好地解决这些问题。
而对于已知来源的真伪视频对,也为了避免网络过拟合单一明显特征,通过计算成对真伪视频帧的SSIM参数,获取的图像的真伪差异性掩膜灰度图像,若掩膜灰度图像的像素值总和大于预设差异性阈值,则对其进行基于随机矩形区域的图像裁剪。
图像增强处理的步骤为:按照预设概率对训练样本视频帧根据压缩、高斯噪声、水平翻转、亮度调整、对比度调整、色度调整、仿射变换等第一裁剪方案,或者,基于关键点矩阵中的轮廓特征点进行剪裁的第二裁剪方案,或者,基于关键点矩阵中的鼻子特征点进行剪裁的第三裁剪方案,或者,基于关键点矩阵中的眼部特征点进行剪裁的第四裁剪方案,或者,基于关键点矩阵中的嘴唇特征点进行剪裁的第五裁剪方案进行图像增强处理,形成多个增强样本图像。
第一裁剪方案A1为传统的数据扩充方案,通过压缩、高斯噪声、水平翻转、亮度调整、对比度调整、色度调整、仿射变换等处理来增强数据样本多样性。
第二裁剪方案A2是基于人脸68关键点矩阵中的轮廓特征点0至26,随机选取3至6个特征点来构成多边形凸包,并将凸包内像素值置为0,而凸包外像素值保持原图像不变。
第三裁剪方案A3是基于人脸68关键点矩阵中的鼻子特征点27至35,构建基于对应特征点的多边形凸包,将凸包内像素值置0,凸包外像素值保持原图像不变。
第四裁剪方案A4是基于人脸68关键点矩阵中的左右眼特征点36至47,构建基于对应特征点的多边形凸包,将凸包内像素值置0,凸包外像素值保持原图像不变。
第五裁剪方案A5是基于人脸68关键点矩阵中的嘴唇特征点48至67,构建基于对应特征点的多边形凸包,将凸包内像素值置0,凸包外像素值保持原图像不变。
借助Albumentations等图像数据库按照不同的预设概率分别执行不同的剪裁方案来进行图像增强处理,例如以R1概率实施第一裁剪方案A1,以R2概率实施第二裁剪方案A2,以(1-R2)R3概率实施第三裁剪方案A3,以(1-R2)R4概率实施第四裁剪方案A4,以(1-R2)R5概率实施第五裁剪方案A5,最后得到多个增强样本图像。
本申请提出的图像增强处理通过基于人脸的深度伪造数据增强方案,能够提升数据抗压缩、噪声等干扰能力和训练模型鲁棒性。同时,通过随机减少人物关键区域特征,能够降低深度网络对训练数据中人物特征的依赖性,防止深度网络对单个伪造特征过拟合,使深度网络能够更好的学习算法的伪造特性,提升检测算法泛化性能。
S300、对增强样本图像求取三通道共现矩阵得到共现矩阵图像,将共现矩阵图像输入至归因网络,根据伪造算法标签得到N维权重向量。
其中,归因网络采用多分类交叉熵损失函数,多分类交叉熵损失函数loglossAttri为:
其中N为生成算法类别数量,yic是符号函数,i为样本,pic为样本i属于类别c的预测概率。
其中步骤S300得到N维权重向量的具体步骤如下:
S310、将增强样本图像按照RGB三通道分离,求出每条通道中单张图像的每个像素点的相邻像素点共现对值,得到共现矩阵。
S320、将所述共现矩阵进行归一化、深度维度叠加得到共现矩阵图像。
S330、将共现矩阵图像输入至归因网络,使得归因网络根据伪造算法标签得到N维权重向量。
由于视频帧通常是三通道彩色图像,所以针对其进行共现矩阵求取来获取图像的相邻像素相似性特征,首先将步骤S200得到的增强样本图像分离为RGB三通道分别进行处理,求取每条通道中单张图像中每个像素点的相邻像素点共现对值[i,j],为了避免冗余,以单个像素点为例,相邻像素点可以取其相邻8个点中的右、右下、下、左下四个点,对于任意8比特深度图像求解,能够获取大小256×256的共现矩阵。如果取单个像素点的下方的像素点,采取如下的计算公式:
其中,I为输入单通道图像,[m,n]为像素坐标,[i,j]为像素点共现对值。
通过RGB三通道对增强样本图像进行处理,并对每个通道的图像选取右、右下、下、左下四个点作为相邻像素点求取共现矩阵,便能得到12(3*4)种256*256大小的共现矩阵,对该共现矩阵进行归一化、深度维度叠加得到256×256×12的共现矩阵图像。
归因网络为经过微调后的CNN分类网络,典型分类网络有ResNet、Xception、EfficientNet,归因网络包括输入层、全连接层以及输出层,在将共现矩阵图像输入至归因网络,使得归因网络根据伪造算法标签得到N维权重向量。
其中输入层根据共现矩阵图像进行微调,并将共现矩阵图像转化为2048维张量的图像,并发送至全连接层。
全连接层按照伪造算法标签进行微调,将2048维张量的图像转化为张量为伪造算法标签的类别总量的图像,并发送至输出层;
输出层根据多分类激活函数将张量为伪造算法标签的类别总量的图像转化为N维权重向量。
输入层的张量的大小为299*299*3,为了匹配共现矩阵图像的大小,于是对其微调至张量为256*256*12,得到一个1*2048维张量的图像输出至全连接层,全连接层按照伪造算法标签微调至张量为1*N的图片,其中N表示的是伪造算法标签的类别总量,将其发送至输出层,输出层将张量为1*N的图片利用多分类激活函数(Softmax函数)进行处理,最后输出和为1的不同类别生成算法概率构成的N维权重向量。
S400、构建深度伪造检测网络,并利用深度伪造检测网络对视频数据集进行训练得到模型输出结果。
其中步骤S400得到模型输出结果的过程包括以下步骤:
S410、将ImagNet数据集中训练的EfficientNet模型作为初始模型构建深度伪造检测网络;
S420、利用深度伪造检测网络将视频数据集划分为多个子集。
S430、选取两个子集并对其中一个子集进行标记得到已标记子集和未标记子集。
S440、对已标记子集训练教师分类模型,利用教师分类模型对未标记子集进行分类得到分类结果。
S450、对分类结果进行过滤得到软标签数据对,并利用已标记子集和软标签数据对训练学生模型。
S460、利用学生模型对多个子集中另外选取的子集进行训练,直至达到预期训练次数或网络收敛停止训练得到模型输出结果。
ImagNet数据集是一个庞大的图像分类数据集,图像分类网络都需要在ImagNet数据集上做预训练,并且典型的分类网络在该数据集上的预训练模型也已经非常成熟,能够直接下载后作为初始模型使用。深度伪造检测网络的骨干网络为EfficientNet模型,利用EfficientNet模型的图像注意力机制引导网络学习关键区域伪造特征,同时采用半监督的自训练方式进行网络训练,提升网络分类性能。
此外还可以采用浅层纹理特征图作为注意力图来引导网络深层特征分类学习,将注意力图可视化能够定位深度伪造制品中被深度伪造技术篡改的位置,进而提高检测结果可靠性。
接下来对EfficientNetB4网络模型进行说明,请参考图2,图2示出了本申请提供的EfficientNet网络模型一维分类结果的流程示意图。输入为共现矩阵图像,采用注意力机制进行微调,该网络模型中有多个MBConv(mobile inverted bottleneck convolution)模块和一个注意力模块,当在第三个MBConv3模块后添加注意力模块,由于MBConv3模块输出的是f1特征图,经过注意力模块的1×1卷积、归一化和ReLU函数激活之后,将得到的f2特征图作为注意力图,并将f2特征图以元素相乘形式引导f1特征图得到输出特征图,将该输出特征图作为下一个MBConv4模块的输入,最终EfficientNetB4网络模型得到经过Sigmoid激活后的一维分类结果。
在深度伪造检测网络构建后需要对自训练的半监督学习方式进行半监督训练,半监督训练训练的过程为:
第一步、将视频数据集划分为多个子集;
第二步、从多个子集中任意选取两个子集,对其中一个子集进行标记,得到已标记子集和未标记子集;
第三步、在已标记子集上训练教师分类模型,由于教师分类模型为二分类模型,最小化其交叉熵损失函数。
第四步、利用教师分类模型对未标记子集进行分类,获取未标记子集的分类结果。
第五步、对分类结果在[0.3,0.7]之间数据进行过滤得到多个样本对组成的软标签数据对。
第六步、将已标记子集和软标签数据对作为新的混合训练数据,通过训练学生模型,并最小化其在混合训练数据上的交叉熵损失函数。
第七步、将训练好的学生模型作为教师模型返回至第二步继续进行训练,直到达到预期训练次数上限或网络收敛,在M个大类数据上进行训练获取模型输出结果。
此外通过半监督教师-学生模型的训练方式能够提升预训练网络在深度伪造数据集上的分类性能。
S500、将模型输出结果和N维权重向量采用权重加权融合平均法得到视频帧伪造检测结果。
首先根据N种生成算法的权重向量按大类分为M种数据的同类权重相加原则转化为M维向量,将该M维向量与模型输出结果采用权重加权融合平均法集成M个跨数据集分类模型,最后通过归因权重引导模型集成融合后输出视频帧伪造检测结果,实现多算法、多数据的伪造检测模型融合,并结合归因结果和注意力图可视化结果,提高伪造检测的可解释性。
与现有技术相比,本申请实施例具有以下有益效果:
第一、本申请通过结合多种方案对图像件增强处理,能够有效提高单一检测算法的准确性。
第二、将N类伪造生成方法按算法相似性归类能够减少检测模型的类别数量,降低模型融合复杂度,利用归因算法为未知生成方法伪造视频进行生成算法归因,引导多类数据训练的不同模型融合,有效提高了复杂环境下检测算法的泛化性和准确性。
下面给出一种视频深度伪造检测可能的实现方式,其用于执行上述实施例及可能的实现方式中示出的视频深度伪造检测方法各个执行步骤和相应的技术效果。视频深度伪造检测装置包括:
提取模块,用于对收集的视频数据集进行视频帧人脸提取和标签生成,得到训练样本视频帧,训练样本视频帧带有伪造算法标签;
图像处理模块,用于对训练样本视频帧进行图像增强处理,形成多个增强样本图像;
向量生成模块,用于对增强样本图像求取三通道共现矩阵得到共现矩阵图像,将共现矩阵图像输入至归因网络,根据伪造算法标签得到N维权重向量;
网络构建模块,用于构建深度伪造检测网络,并利用深度伪造检测网络对视频数据集进行训练得到模型输出结果;
结果生成模块,用于将模型输出结果和N维权重向量采用权重加权融合平均法得到视频帧伪造检测结果。
此外本优选实施例提供了一种计算机设备,该计算机设备可以实现本申请实施例所提供的视频深度伪造检测方法任一实施例中的步骤,因此,可以实现本申请实施例所提供的视频深度伪造检测方法的有益效果,详见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的视频深度伪造检测方法中任一实施例的步骤。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一视频深度伪造检测方法实施例中的步骤,因此,可以实现本申请实施例所提供的任一视频深度伪造检测方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种视频深度伪造检测方法,其特征在于,包括:
对收集的视频数据集进行视频帧人脸提取和标签生成,得到训练样本视频帧,所述训练样本视频帧带有伪造算法标签;
对所述训练样本视频帧进行图像增强处理,形成多个增强样本图像;
对所述增强样本图像求取三通道共现矩阵得到共现矩阵图像,将所述共现矩阵图像输入至归因网络,根据伪造算法标签得到N维权重向量;
构建深度伪造检测网络,并利用所述深度伪造检测网络对所述视频数据集进行训练得到模型输出结果;
将所述模型输出结果和N维权重向量采用权重加权融合平均法得到视频帧伪造检测结果。
2.如权利要求1所述的视频深度伪造检测方法,其特征在于,对收集的视频数据集进行视频帧人脸提取和标签生成,得到训练样本视频帧的步骤,包括:
对所述视频数据集按照预设间隔进行帧采样得到多个带有伪造算法标签的视频帧;
使用MTCNN模型获取所述视频帧中每帧人脸图像的关键点矩阵;
对所述关键点矩阵所在的人脸区域进行扩大、裁剪得到训练样本视频帧。
3.如权利要求2所述的视频深度伪造检测方法,其特征在于,对所述训练样本视频帧进行图像增强处理,形成多个增强样本图像的步骤,包括:
按照预设概率对所述训练样本视频帧根据压缩、高斯噪声、水平翻转、亮度调整、对比度调整、色度调整、仿射变换等第一裁剪方案,或者,基于所述关键点矩阵中的轮廓特征点进行剪裁的第二裁剪方案,或者,基于所述关键点矩阵中的鼻子特征点进行剪裁的第三裁剪方案,或者,基于所述关键点矩阵中的眼部特征点进行剪裁的第四裁剪方案,或者,基于所述关键点矩阵中的嘴唇特征点进行剪裁的第五裁剪方案进行图像增强处理,形成多个增强样本图像。
4.如权利要求1所述的视频深度伪造检测方法,其特征在于,对所述增强样本图像求取三通道共现矩阵得到共现矩阵图像,将所述共现矩阵图像输入至归因网络,根据伪造算法标签得到N维权重向量的步骤,包括:
将所述增强样本图像按照RGB三通道分离,求出每条通道中单张图像的每个像素点的相邻像素点共现对值,得到共现矩阵;
将所述共现矩阵进行归一化、深度维度叠加得到共现矩阵图像;
将所述共现矩阵图像输入至归因网络,使得所述归因网络根据伪造算法标签得到N维权重向量。
5.如权利要求4所述的视频深度伪造检测方法,其特征在于,所述归因网络包括输入层、全连接层以及输出层,所述归因网络根据伪造算法标签得到N维权重向量的步骤,包括:
所述输入层根据所述共现矩阵图像进行微调,并将所述共现矩阵图像转化为2048维张量的图像,并发送至所述全连接层;
所述全连接层按照伪造算法标签进行微调,将所述2048维张量的图像转化为张量为伪造算法标签的类别总量的图像,并发送至所述输出层;
所述输出层根据多分类激活函数将所述张量为伪造算法标签的类别总量的图像转化为N维权重向量。
6.如权利要求1所述的视频深度伪造检测方法,其特征在于,所述归因网络采用多分类交叉熵损失函数,所述多分类交叉熵损失函数loglossAttri为:
其中N为生成算法类别数量,yic是符号函数,i为样本,pic为样本i属于类别c的预测概率。
7.如权利要求1所述的视频深度伪造检测方法,其特征在于,所述构建深度伪造检测网络,并利用所述深度伪造检测网络对所述视频数据集进行训练得到模型输出结果的步骤,包括:
将ImagNet数据集中训练的EfficientNet模型作为初始模型构建深度伪造检测网络;
利用所述深度伪造检测网络将所述视频数据集划分为多个子集;
选取两个子集并对其中一个子集进行标记得到已标记子集和未标记子集;
对所述已标记子集训练教师分类模型,利用所述教师分类模型对未标记子集进行分类得到分类结果;
对所述分类结果进行过滤得到软标签数据对,并利用所述已标记子集和所述软标签数据对训练学生模型;
利用所述学生模型对多个子集中另外选取的子集进行训练,直至达到预期训练次数或网络收敛停止训练得到模型输出结果。
8.一种视频深度伪造检测装置,其特征在于,所述装置包括:
提取模块,用于对收集的视频数据集进行视频帧人脸提取和标签生成,得到训练样本视频帧,所述训练样本视频帧带有伪造算法标签;
图像处理模块,用于对所述训练样本视频帧进行图像增强处理,形成多个增强样本图像;
向量生成模块,用于对所述增强样本图像求取三通道共现矩阵得到共现矩阵图像,将所述共现矩阵图像输入至归因网络,根据伪造算法标签得到N维权重向量;
网络构建模块,用于构建深度伪造检测网络,并利用所述深度伪造检测网络对所述视频数据集进行训练得到模型输出结果;
结果生成模块,用于将所述模型输出结果和N维权重向量采用权重加权融合平均法得到视频帧伪造检测结果。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1-7任一项所述的视频深度伪造检测方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1-7任一项所述的视频深度伪造检测方法。
CN202310240293.XA 2023-03-13 2023-03-13 一种视频深度伪造检测方法及装置 Pending CN116778545A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310240293.XA CN116778545A (zh) 2023-03-13 2023-03-13 一种视频深度伪造检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310240293.XA CN116778545A (zh) 2023-03-13 2023-03-13 一种视频深度伪造检测方法及装置

Publications (1)

Publication Number Publication Date
CN116778545A true CN116778545A (zh) 2023-09-19

Family

ID=88008819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310240293.XA Pending CN116778545A (zh) 2023-03-13 2023-03-13 一种视频深度伪造检测方法及装置

Country Status (1)

Country Link
CN (1) CN116778545A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690118A (zh) * 2023-12-12 2024-03-12 南昌大学 一种基于深度伪造产物检测模型的检测方法及其系统
CN118379608A (zh) * 2024-06-26 2024-07-23 浙江大学 一种基于自适应学习的高鲁棒性深度伪造检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690118A (zh) * 2023-12-12 2024-03-12 南昌大学 一种基于深度伪造产物检测模型的检测方法及其系统
CN118379608A (zh) * 2024-06-26 2024-07-23 浙江大学 一种基于自适应学习的高鲁棒性深度伪造检测方法

Similar Documents

Publication Publication Date Title
CN109754015B (zh) 用于画作多标签识别的神经网络及相关方法、介质和设备
CN108268859A (zh) 一种基于深度学习的人脸表情识别方法
CN116778545A (zh) 一种视频深度伪造检测方法及装置
CN109977865B (zh) 一种基于人脸颜色空间和度量分析的欺诈检测方法
CN111368666B (zh) 一种基于新型池化及注意力机制双流网络的活体检测方法
CN110543846A (zh) 一种基于生成对抗网络的多姿态人脸图像正面化方法
CN109711384A (zh) 一种基于深度卷积神经网络的人脸识别方法
CN111126115A (zh) 暴力分拣行为识别方法和装置
CN109740572A (zh) 一种基于局部彩色纹理特征的人脸活体检测方法
Roy et al. 3D CNN architectures and attention mechanisms for deepfake detection
CN113537173B (zh) 一种基于面部补丁映射的人脸图像真伪识别方法
CN113378949A (zh) 一种基于胶囊网络和混合注意力的双重生成对抗学习方法
Elhassan et al. DFT-MF: Enhanced deepfake detection using mouth movement and transfer learning
CN115482595B (zh) 一种基于语义分割的特定人物视觉伪造检测与鉴别方法
CN111832405A (zh) 一种基于hog和深度残差网络的人脸识别方法
JP2009140369A (ja) 集団学習装置及び集団学習方法、対象物検出装置及び対象物検出方法、並びにコンピュータ・プログラム
Bekele et al. The deeper, the better: Analysis of person attributes recognition
CN113822377B (zh) 基于对比自学习的伪造人脸检测方法
CN116434311A (zh) 一种基于混合域一致性约束的面部表情识别方法及系统
CN116912604B (zh) 模型训练方法、图像识别方法、装置以及计算机存储介质
Tran et al. Generalization of forgery detection with meta deepfake detection model
CN114567798B (zh) 一种针对互联网短视频变种的溯源方法
CN113570564B (zh) 一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法
Ling et al. Learning diverse local patterns for deepfake detection with image-level supervision
CN111754459B (zh) 基于统计深度特征的染色伪造图像检测方法及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination