CN113313046A - 一种基于强化学习DQN算法的Deepfake检测方法 - Google Patents

一种基于强化学习DQN算法的Deepfake检测方法 Download PDF

Info

Publication number
CN113313046A
CN113313046A CN202110653236.5A CN202110653236A CN113313046A CN 113313046 A CN113313046 A CN 113313046A CN 202110653236 A CN202110653236 A CN 202110653236A CN 113313046 A CN113313046 A CN 113313046A
Authority
CN
China
Prior art keywords
network
action
training
reinforcement learning
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110653236.5A
Other languages
English (en)
Inventor
陈晋音
王鹏程
张任杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110653236.5A priority Critical patent/CN113313046A/zh
Publication of CN113313046A publication Critical patent/CN113313046A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及机械学习技术领域,具体涉及一种基于强化学习DQN算法的Deepfake检测方法,包括如下步骤:步骤1,采集样本数据划分为训练集S和测试集T;步骤2,将训练集S输入Q网络,将训练集S的[状态‑动作对](si,ai)和Q网络输出的Q(si,a′i)输入到判别器D中,获得置信度δ;用置信度δ求导更新Q网络的模型参数θi,得到Q网络检测模型;步骤3,测试Q网络;步骤4,将Q网络检测模型应用于Deepfake的真假判别中。本发明通过强化学习DQN算法用一组真假已知的样本来训练一个Q网络,通过强化学习DQN算法更新Q值,最终使Q网络训练成为一个能对视频或图片的真假做出判断的模型,不需要设计复杂的框架结构,泛化能力强,应用场景广泛。

Description

一种基于强化学习DQN算法的Deepfake检测方法
技术领域
本发明涉及机械学习技术领域,具体涉及一种基于强化学习DQN算法的Deepfake检测方法。
背景技术
Deepfake就是深度学习(Deep-learning)与假冒(fake)的组合,它可以将目标人物面部的图像叠加到视频原人物面部的相应位置,从而创建包含目标人物的视频,随着Deepfake技术不断加强,人们已经很难用肉眼去分辨一些假的图片或者视频了,而网络上又存在着大量的deepfake视频,荷兰网络安全公司DeepTrace在2019年发现1.4万多个深度伪造视频,较2018年增加了84%,该技术被滥用的现象日益严重。因此对这些假的图片或视频的检测就显得尤为重要。
目前的Deepfake检测技术主要分为三类,即帧内检测,帧间检测以及一些浅层方法检测。帧内检测如伪影检测,是对每一帧的图片在Deepfake的过程中面部周围所产生的伪影进行检测,这种方法的优点是训练过程中的负样本可以通过强化Deepfake产生伪影的过程来得到,从而节省了大量的时间,而且伪影是广泛存在于Deepfake图片以及Deepfake视频中的,因此这种方法能对不同来源的假图片或假视频做到有效的检测。但这种方法也有缺点,就是它可能会对可能会对某些特定分布的Deepfake图片或视频过拟合。
帧间检测如眨眼检测,就是对视频中的人物在一定时间内的眨眼动作进行捕捉,假视频中的人物可能会出现长时间不眨眼的情况,从而分辨出是假视频,这种方法的缺点是只要在Deepfake视频的训练过程中加入大量的眨眼数据,假视频中的人物就可以像真视频中的人物一样的眨眼了,那么这种方法也就无效了。还有一些浅层方法如三维头部姿态分析,就是利用假视频中人脸和头部外轮廓的姿态差异来分辨出哪个假视频。这类方法能够从较低的数据维度对真伪视频人脸做出分类,且模型训练用时较短,但应用场景有限且不能应对高质量的深度伪造视频。
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。本发明用到的是强化学习中的DQN算法,DQN算法是Google DeepMind团队在2013年提出来的第一个深度强化学习算法,并在2015年得到了很好的完善。在Atrari游戏中,DQN取得了惊人的实战表现,并由此引发了研究深度强化学习的热潮。深度强化学习算法是把神经网络与Q-learning算法相结合,利用神经网络对图像的强大的表征能力,把视频帧数据作为强化学习中的状态,并作为神经网络模型的输入;随后神经网络模型输出每个动作对应的价值(Q值),得到要执行的动作。
发明内容
本发明为了克服现有的Deepfake检测技术模型训练过程复杂且容易过拟合,应用场景不够全面的问题,本发明提供了一种基于强化学习DQN算法的Deepfake检测方法。
为实现上述目的,本发明采用的技术方案是:
一种基于强化学习DQN算法的Deepfake检测方法,包括如下步骤:
步骤1,数据预处理:采集样本数据,将样本数据预处理后划分为训练集S和测试集T,并提取类别标签;
步骤2,训练Q网络:将训练集S输入Q网络,将训练集S的[状态-动作对](si,ai)和Q网络输出的Q(si,ai′)输入到判别器D中,获得置信度(Confidence)δ;用置信度δ反向传播梯度不断求导更新Q网络的模型参数θi,直至损失函数收敛,得到Q网络检测模型;
步骤3,测试Q网络:将测试集T输入Q网络检测模型中,通过Q网络输出的动作值比对测试集T的类标,计算Q网络检测模型的识别准确率;
步骤4,将Q网络检测模型应用于Deepfake的真假判别中。
本发明通过强化学习DQN算法用一组真假已知的样本来训练一个Q网络,用的判别器D作为损失函数loss,通过强化学习DQN算法更新Q值,最终使Q网络训练成为一个能对视频或图片的真假做出判断的模型。
优选地,步骤1中,所述样本数据为FaceForensics++数据集,FaceForensics++包含了由Face2Face,FaceSwap,DeepFakes和NeuralTextures四种目前最常见的虚假视频生成算法生成的1000对真假视频。
进一步优选地,步骤1中,数据预处理的过程具体包括:
采集FaceForensics++数据集作为样本数据集,对于视频MP4格式的样本数据,用opencv每5帧提取一张图片,再用dlib工具提取图片中的人脸,并进行人脸对齐,输出训练集S和测试集T,并对数据的类别进行one-hot编码,获取对应的类别标签序列。
优选地,步骤1中,采用SVD压缩算法对训练集S和测试集T中的图片进行图压缩操作;这样做的目的是放大真实人脸与deepfake生成的人脸的差异,加速模型的训练。训练集S和测试集T按照5:1划分。测试集T用于测试Q网络的决策效果。
在本发明中,为了能够更快的达到模型训练的效果,采用一个判别器D来作为Q网络的损失函数,提高模型训练的效率。因此优选地,步骤2中,判别器D作为Q网络的损失函数。
优选地,步骤2中,损失函数的公式为:
L(θ)=E[(TargetQ-Q(s,a,θ))2]
TargetQ=r+γmasa′Q(s′,a′,θ)
其中,θ为神经网络模型的权重参数,TargetQ为目标Q值,s′是下一次迭代时输入的状态值,a′为下一次迭代时的动作值,r为当前迭代的奖励值,γ为折扣因子。
优选地,步骤2中,训练Q网络的过程具体包括:
2-1,训练集S的[状态-动作对](si,ai)输入到Q网络中,Q网络输出[状态-动作对]Q(si,a′i),其中s为图片的真实标签,a表示将会采取的动作;
2-2,将训练集S的[状态-动作对](si,ai)和Q网络输出[状态-动作对]Q(si,a′i)输入到判别器中,对于每一个输入的[状态-动作对],判别器D会输出一个置信度δ;
2-3,用判别器D输出的置信度δ反向传播梯度求导更新Q网络的模型参数θi,Q网络输出的Q(si,a′i)中的动作值a′i会发生改变,更加接近训练集S的QTable(si,ai)中的动作值ai,判别器D输出的置信度δ′i也会更加接近置信度δi,不断迭代这个过程,当δ′i与δi的值十分接近时,即直到损失函数收敛,对Q网络的训练结束,得到Q网络得到Q网络检测模型。
与现有技术相比,本发明具有以下有益效果:
(1)采用强化学习的方法来训练模型,使得模型的训练过程相对简单,不需要设计复杂的框架结构。
(2)泛化能力强,应用场景广泛。
附图说明
图1为本发明基于强化学习DQN算法的Deepfake检测方法的示意图。
图2为本发明的Deepfake检测方法的Q网络整体结构示意图。
图3为本发明的Deepfake检测方法的判别器D的网络整体结构的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。本领域技术人员在理解本发明的技术方案基础上进行修改或等同替换,而未脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围内。
如图1-3所示,一种基于强化学习DQN算法的Deepfake检测方法,包括如下步骤:
步骤1,数据预处理:
1-1,采集FaceForensics++数据集作为样本数据,FaceForensics++包含了由Face2Face,FaceSwap,DeepFakes和NeuralTextures四种目前最常见的虚假视频生成算法生成的1000对真假视频。
1-2,采集FaceForensics++数据集作为样本数据集,对于视频MP4格式的样本数据,用opencv每5帧提取一张图片,再用dlib工具提取图片中的人脸,并进行人脸对齐,输出训练集S和测试集T,采用SVD压缩算法对训练集S和测试集T中的图片进行图压缩操作;这样做的目的是放大真实人脸与deepfake生成的人脸的差异,加速模型的训练。训练集S和测试集T按照5:1划分。测试集T用于测试Q网络的决策效果。并对数据的类别进行one-hot编码,获取对应的类别标签序列。
步骤2,训练Q网络:在本发明中,为了能够更快的达到模型训练的效果,采用一个判别器D来作为Q网络的损失函数,提高模型训练的效率。损失函数的公式为:
L(θ)=E[(T arg etQ-Q(s,a,θ))2]
TargetQ=r+γmasa′Q(s′,a′,θ)
其中,θ为神经网络模型的权重参数,TargetQ为目标Q值,s′是下一次迭代时输入的状态值,a′为下一次迭代时的动作值,r为当前迭代的奖励值,γ为折扣因子。
2-1,训练集S的[状态-动作对](si,ai)输入到Q网络中,Q网络输出[状态-动作对]Q(si,ai′),其中s为图片的真实标签,a表示将会采取的动作;
2-2,将训练集S的[状态-动作对](si,ai)和Q网络输出[状态-动作对]Q(si,a′i)输入到判别器中,对于每一个输入的[状态-动作对],判别器D会输出一个置信度δ;
2-3,判别器D即为强化学习的reward函数,用判别器D输出的置信度δ反向传播梯度求导更新Q网络的模型参数θi,Q网络输出的Q(si,a′i)中的动作值a′i会发生改变,更加接近训练集S的Q Table(si,ai)中的动作值ai,判别器D输出的置信度δ′i也会更加接近置信度δi,不断迭代这个过程,当δ′i与δi的值十分接近时,即直到损失函数收敛,对Q网络的训练结束,得到Q网络得到Q网络检测模型。
2-3-1,确定Q网络以及判别器D的网络结构。
Q网络的结构如图2所示,二维卷积中采用的卷积核大小为3×3,步长为1,为防止训练过拟合并提高训练的收敛速度,在卷积层和最大池化层中加入了批量归一化(BatchNormalization),经过归一化后再输入到激活函数中,其中采用的激活函数为ReLU,经过二维可分离卷积提取完特征之后,将提取到的特征输入到LSTM层中,经过LSTM后再输入到全连接层,然后采用softmax分类器进行分类。
判别器D的结构如图3所示,采用的卷积核大小为3×3,卷积层采用的激活函数为ReLU,采用批量归一化提高训练的收敛速度,最后接一个全连接层,全连接层采用的激活函数为tanh。
2-3-2,确定损失函数以及模型更新公式。
Q网络的模型参数为θi,损失函数loss采用交叉熵的形式,损失函数loss以及模型参数为θi的更新公式如下:
L=-∑δilogδ′i
Figure BDA0003112636930000061
步骤3,测试Q网络:将测试集T输入Q网络检测模型中,通过Q网络输出的动作值比对测试集T的类标,计算Q网络检测模型的识别准确率;
步骤4,将Q网络检测模型应用于Deepfake的真假判别中。
本发明通过强化学习DQN算法用一组真假已知的样本来训练一个Q网络,用的判别器D作为损失函数loss,通过强化学习DQN算法更新Q值,最终使Q网络训练成为一个能对视频或图片的真假做出判断的模型。

Claims (7)

1.一种基于强化学习DQN算法的Deepfake检测方法,其特征在于,包括如下步骤:
步骤1,数据预处理:采集样本数据,将样本数据预处理后划分为训练集S和测试集T,并提取类别标签;
步骤2,训练Q网络:将训练集S输入Q网络,将训练集S的[状态-动作对](si,ai)和Q网络输出的Q(si,a′i)输入到判别器D中,获得置信度δ;用置信度δ反向传播梯度不断求导更新Q网络的模型参数θi,直至损失函数收敛,得到Q网络检测模型;
步骤3,测试Q网络:将测试集T输入Q网络检测模型中,通过Q网络输出的动作值比对测试集T的类标,计算Q网络检测模型的识别准确率;
步骤4,将Q网络检测模型应用于Deepfake的真假判别中。
2.根据权利要求1所述的基于强化学习DQN算法的Deepfake检测方法,其特征在于,步骤1中,所述样本数据为FaceForensics++数据集。
3.根据权利要求1所述的基于强化学习DQN算法的Deepfake检测方法,其特征在于,步骤1中,数据预处理的过程具体包括:
采集FaceForensics++数据集作为样本数据集,对于视频MP4格式的样本数据,用opencv每5帧提取一张图片,再用dlib工具提取图片中的人脸,并进行人脸对齐,输出训练集S和测试集T,并对数据的类别进行one-hot编码,获取对应的类别标签序列。
4.根据权利要求1所述的基于强化学习DQN算法的Deepfake检测方法,其特征在于,步骤1中,采用SVD压缩算法对训练集S和测试集T中的图片进行图压缩操作;训练集S和测试集T按照5:1划分。
5.根据权利要求1所述的基于强化学习DQN算法的Deepfake检测方法,其特征在于,步骤2中,判别器D作为Q网络的损失函数。
6.根据权利要求5所述的基于强化学习DQN算法的Deepfake检测方法,其特征在于,步骤2中,损失函数的公式为:
L(θ)=E[(TargetQ-Q(s,a,θ))2]
TargetQ=r+γmasa′Q(s′,a′,θ)
其中,θ为神经网络模型的权重参数,TargetQ为目标Q值,s′是下一次迭代时输入的状态值,a′为下一次迭代时的动作值,r为当前迭代的奖励值,γ为折扣因子。
7.根据权利要求1所述的基于强化学习DQN算法的Deepfake检测方法,其特征在于,步骤2中,训练Q网络的过程具体包括:
2-1,训练集S的[状态-动作对](si,ai)输入到Q网络中,Q网络输出[状态-动作对]Q(si,a′i),其中s为图片的真实标签,a表示将会采取的动作;
2-2,将训练集S的[状态-动作对](si,ai)和Q网络输出[状态-动作对]Q(si,a′i)输入到判别器中,对于每一个输入的[状态-动作对],判别器D会输出一个置信度δ;
2-3,用判别器D输出的置信度δ反向传播梯度求导更新Q网络的模型参数θi,Q网络输出的Q(si,a′i)中的动作值a′i会发生改变,更加接近训练集S的QTable(si,ai)中的动作值ai,判别器D输出的置信度δ′i也会更加接近置信度δi,不断迭代这个过程,当δ′i与δi的值十分接近时,即直到损失函数收敛,对Q网络的训练结束,得到Q网络得到Q网络检测模型。
CN202110653236.5A 2021-06-11 2021-06-11 一种基于强化学习DQN算法的Deepfake检测方法 Pending CN113313046A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110653236.5A CN113313046A (zh) 2021-06-11 2021-06-11 一种基于强化学习DQN算法的Deepfake检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110653236.5A CN113313046A (zh) 2021-06-11 2021-06-11 一种基于强化学习DQN算法的Deepfake检测方法

Publications (1)

Publication Number Publication Date
CN113313046A true CN113313046A (zh) 2021-08-27

Family

ID=77378471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110653236.5A Pending CN113313046A (zh) 2021-06-11 2021-06-11 一种基于强化学习DQN算法的Deepfake检测方法

Country Status (1)

Country Link
CN (1) CN113313046A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132263A (zh) * 2020-09-11 2020-12-25 大连理工大学 一种基于强化学习的多智能体自主导航方法
CN112580520A (zh) * 2020-12-22 2021-03-30 浙江工业大学 一种基于模仿学习的Deepfake检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132263A (zh) * 2020-09-11 2020-12-25 大连理工大学 一种基于强化学习的多智能体自主导航方法
CN112580520A (zh) * 2020-12-22 2021-03-30 浙江工业大学 一种基于模仿学习的Deepfake检测方法

Similar Documents

Publication Publication Date Title
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
CN106778796B (zh) 基于混合式协同训练的人体动作识别方法及系统
CN109815826B (zh) 人脸属性模型的生成方法及装置
CN107403142B (zh) 一种微表情的检测方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN109101865A (zh) 一种基于深度学习的行人重识别方法
CN105740758A (zh) 基于深度学习的互联网视频人脸识别方法
CN112052772A (zh) 一种人脸遮挡检测算法
Hou et al. Gait quality aware network: toward the interpretability of silhouette-based gait recognition
CN113963032A (zh) 一种融合目标重识别的孪生网络结构目标跟踪方法
CN111401116B (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
CN112115796A (zh) 一种基于注意力机制的三维卷积微表情识别算法
CN109447123A (zh) 一种基于标签一致性约束与拉伸正则化字典学习的行人再识别方法
CN113420703B (zh) 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法
CN115482595B (zh) 一种基于语义分割的特定人物视觉伪造检测与鉴别方法
Gong et al. DeepfakeNet, an efficient deepfake detection method
CN114299279B (zh) 基于脸部检测和识别的无标记群体恒河猴运动量估计方法
Yaseen et al. A novel approach based on multi-level bottleneck attention modules using self-guided dropblock for person re-identification
Pang et al. Dance video motion recognition based on computer vision and image processing
CN116758621B (zh) 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法
Du The computer vision simulation of athlete’s wrong actions recognition model based on artificial intelligence
CN112488165A (zh) 一种基于深度学习模型的红外行人识别方法及系统
Jiang et al. Orientation-guided similarity learning for person re-identification
Liu et al. Adaptive recognition method for VR image of Wushu decomposition based on feature extraction
CN111401209A (zh) 一种基于深度学习的动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination