CN115661889A - 一种基于音视频多模态的特定人物深度伪造检测方法 - Google Patents

一种基于音视频多模态的特定人物深度伪造检测方法 Download PDF

Info

Publication number
CN115661889A
CN115661889A CN202211185641.XA CN202211185641A CN115661889A CN 115661889 A CN115661889 A CN 115661889A CN 202211185641 A CN202211185641 A CN 202211185641A CN 115661889 A CN115661889 A CN 115661889A
Authority
CN
China
Prior art keywords
audio
face
video
lip
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211185641.XA
Other languages
English (en)
Inventor
周琳娜
杨震
储贝林
毛羽哲
王任颖
林清然
陈贤浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202211185641.XA priority Critical patent/CN115661889A/zh
Publication of CN115661889A publication Critical patent/CN115661889A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Collating Specific Patterns (AREA)

Abstract

本发明公开一种基于音视频多模态的特定人物深度伪造检测方法,属于安全与数字图像取证领域,采用音视频多模态融合的算法,并结合唇读方法基于时序捕捉人脸的动态特征。本发明的步骤有:(1)提取人物音视频与唇读特征;(2)融合唇部与时序特征为面部语义特征;(3)融合面部语义特征与音频特征进入神经网络;(3)融合特征在分类器中进行真假脸的检测。本发明方法以融合音视频多模态的神经网络模型为基础,针对特定政治人物的AI换脸检测进行创新设计,满足对于指定人物检测高准确率的要求。同时,本发明方法通过提取面部时序信息捕捉人脸动态特征,参考时间维度不同人脸的平移旋转等动作,弥补了原本仅限于参考图像内容本身的特征的局限,极大提高了假脸检测的准确性。

Description

一种基于音视频多模态的特定人物深度伪造检测方法
技术领域
本发明属于人工智能安全与数字图像取证领域,涉及一种伪造视频检测方法,具体来说是一种基于音视频多模态的特定人物深度伪造检测方法。
背景技术
人脸深度伪造词源于Reddit用户deepfakes在2017发布的一种机器学习算法,并声称该算法可以帮助他将名人脸转换成色情视频。该算法一经发布就受到了民众与媒体的热议,随之而来的是视觉深度伪造算法研究的一股热潮。2018年,BuzzFeed发布了一段关于巴拉克·奥巴马发表演讲的深度伪造视频,该视频使用Reddit用户制造的FakeApp软件制作。自2017年至2020年,关于深度伪造相关的论文由原先的3篇增长至250余篇,同时,FakeApp、Faceswap、Zao、FaceApp等能够实现无技术成本的面向大众的快捷深度伪造软件也被依次开发,由视觉深度伪造技术制作的各种类别的伪造视频也引发了人们对身份盗窃、假冒以及在社交媒体上传播虚假信息的担忧。
人脸深度伪造经过多年的更新换代,有了很大的变化。依托于ProGAN和StyleGAN等最新的对抗生成网络架构,人脸深度伪造能够极大程度还原真实的人脸角度、光照、遮挡等变化。
人脸深度伪造检测是随着人脸深度伪造进行不当使用应运而生的技术。它的主要流程分为:
a)数据处理。对要检测的人脸进行放缩、检测、对齐等预处理操作。
b)特征提取。将处理过的标准化数据在模型中根据先验知识或图像处理手段提取合适的特征。
c)模型建立。搭建与检测人物相匹配的神经网络模型,使提取特征能够更好地在分类器中进行分类。
d)检测分类。在分类器中进行输出结果。
值得一提的是,决定检测性能的关键就在于如何选择可以有效区分真假人脸的相关特征,以及如何建立分类效果良好的模型。
常见的特征提取手段如下:基于具体伪影的检测方法侧重于检测流程图中的特征确定部分,从图像处理角度出发,以像素级粒度捕捉生成图像或视频中存在的模糊、抖动及叠影等异常现象;基于数据驱动的检测方法侧重于检测流程图中的模型建立部分,使用精心设计的神经网络对提取到的伪造品中的时域与频域信息进行训练分类;基于信息不一致的检测方法基于信息不一致的视觉深度伪造检测技术重点在于从生物固有特征、时间连续性、以及运动向量等高级语义出发,捕捉伪造品与客观规律间的不一致部分。2019年Agarwal团队发现不同人在说话时,面部表情和头部运动存在明显的模式差异。而在目前现有的伪造方式中都对这种模式造成了破坏,即视频中的人脸区域发生了篡改,导致人物说话时面部表情和头部运动的模式与人物身份不相符。因而利用某个人的身份问题与他专属的动作表情习惯对人物进行建模,尤其建立国家领导人个人的人物模型,并使用这些模型来区分视频的真假成为了可行的方法之一。该团队同时提出了soft-biometric模型,即融合了人物面部表情和头部运动的领导人建模方法。
发明内容
由于深度伪造视频往往伴随丰富的时序信息和音频信息,因此人物脸部深度伪造检测通过提取图像本身的语义信息来进行作为判别的主要依据并不完善;因此本发明提出一种基于音视频多模态的特定人物深度伪造检测方法,选择提取音视频多模态的信息并进行深层次的融合,显著提高了对特定人物AI换脸的检测效率。
本发明基于音视频多模态的特定人物深度伪造检测方法,步骤如下:
首先,提取目标人物面部及音频的数据集,得到全部正负样本中目标人物音频与唇读特征,具体为:
A、逐帧检测视频中目标人物面部关键点坐标信息,根据提取的坐标信息,提取面部运动单元强度Fface
B、唇部运动时序特征抽取。
检测所有正负样本的68个关键点中的唇部关键点,提取唇部运动特征Flip
C、音频时序特征抽取。
将视频中的音频转化为频域信息,而后将频域信息转换为512维的梅尔倒谱系数作为音频特征Fmel
进一步,将Fface和Flip融合为面部语义特征Fimg
进一步,将面部语义特征Fimg与音频特征Fmel融合,得到融合特征F。
最后,将融合特征F在分类器中进行真假脸的检测,分类器中,首先通过两层全连接的前馈神经网络层进行融合特征数据降维,然后对降维后的特征数据使用softmax层收缩至2维,进行二分类。
本发明优点在于:
1、本发明基于音视频多模态的特定人物深度伪造检测方法,以融合音视频多模态的神经网络模型为基础,针对特定人物的AI换脸检测进行创新设计,满足对于指定人物检测高准确率的要求。
2、本发明基于音视频多模态的特定人物深度伪造检测方法,通过提取面部时序信息捕捉人脸动态特征,参考时间维度不同人脸的平移旋转等动作,弥补了原本仅限于参考图像内容本身的特征的局限,极大提高了假脸检测的准确性。
3、本发明基于音视频多模态的特定人物深度伪造检测方法,采用基于音视频多模态的假脸检测算法,利用多个模态的融合特征,提高针对特定人物AI换脸的检测效率,以及时预防利用Deepfake技术进行人物假脸伪造,从而从根本上解决利用换脸技术对于公众人物的抹黑与造谣,提高AI换脸逼真程度的门槛。
附图说明
图1为本发明基于音视频多模态的特定人物深度伪造检测方法流程图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
本发明基于音视频多模态的特定人物深度伪造检测方法,具体步骤设计为:
步骤1:采集并制作针对目标人物面部及音频的数据集,如目标人物的演讲视频。
为了能够学习到某个特定人物的面部特征,首先需要采集目标人物大量真实的视频,作为模型训练的正样本;并使用上述目标人物真实演讲视频,采用三种主流的、采用不同伪造方式的开源深度伪造工具:faceswap、wav2lip、first-order-motion-model制作目标人物的深度伪造视频,作为模型训练的负样本。
步骤2:提取人物音视频与唇读特征。
对全部正负样本进行下述步骤201、202、203,得到全部正负样本中任务音频与唇读特征:
201、运动单元时序特征抽取。
按照计算机视觉业界广泛使用的开源工具包OpenFace中定义的68个人物面部关键点,逐帧检测视频中目标人物面部关键点坐标信息。并且根据提取坐标信息,使用预训练好的Resnet-18模型提取面部运动单元强度Fface(面部运动单元强度定义由1978年Ekmanand Friesen提出的面部运动编码系统FACS(Facial Action Coding System)给出)。
202、唇部运动时序特征抽取。
使用Face Alignment检测所有正负样本的68个关键点中的唇部关键点,并借助预训练好的Resnet-18模型提取唇部运动特征Flip。Flip以及前述Fface均为256维的特征向量。
203、音频时序特征抽取。
在音频数据预处理阶段,通过快速傅里叶变换将视频中的音频转化为频域信息,而后使用梅尔滤波器和离散余弦变换将频域信息转换为更符合人耳听觉习惯的512维的梅尔倒谱系数作为音频特征Fmel
步骤3:将Fface和Flip融合为面部语义特征。
通过特征矩阵的横向拼接,将Fface和Flip融合为面部语义特征:
Figure BDA0003867529270000041
式中,
Figure BDA0003867529270000042
代表矩阵横向拼接,Fimg大小1×256,Fmel大小1×256,拼接之后Fimg大小为1×512。
步骤4:将步骤2中得到的面部语义特征Fimg与音频特征Fmel融合,实现Fface、Flip和Fmel三种特征的融合。
由于Fface和Flip同属于由面部像素信息提取出的特征,因此在步骤3中采用横向向量拼接的方式聚合同一类型的特征;而Fmel属于由音频信息提取出的特征,与Fface属于不同属性特征,因此此处采用纵向拼接的方式,进行面部语义特征Fimg与音频特征Fmel的融合,得到:
F=[Fimg,Fmel]
上式中,[·,·]代表矩阵纵向拼接,如Fimg大小1×512,Fmel大小1×512,拼接之后F大小为2×512。
步骤5:将步骤4中得到的融合特征F在分类器中进行真假脸的检测。融合后的特征经过分类器实现深度伪造人脸检测。分类器模型中,首先通过两层全连接的前馈神经网络层进行融合特征数据降维,然后对降维后的特征数据使用softmax层收缩至2维,进行二分类。
在步骤5中分类器模型训练时,由于进行图像和唇部运动特征抽取的Resnet-18已经预训练好,在分类器模型训练时训练时,学习率lr1为1e-6,而网络后续的分类器(两层全连接的前馈神经网络层与softmax)的学习率lr2则设为1e-5。损失函数计算方法为交叉熵,即
Figure BDA0003867529270000051
其中,N为样本数,yi为第i个样本的真实值,pi为第i个样本的二分类预测结果。其中,损失函数用于评估模型预测值pi(用0,1表示真假),与视频真实值yi(用0,1表示真假)命中程度,模型会根据输出值L,采用梯度下降的方式回溯更新网络中的权重参数,从而让模型预测值更佳拟合真实值。
本发明方法基于神经网络模型,共由图像特征提取模块和音频特征提取模块。其中图像特征提取模块使用预训练好的Resnet-18网络,音频特征提取模块使用傅里叶快速变换与梅尔倒谱的方式进行提取。由于本发明采用以上多种模态共同考虑的方式而传统单一模态的模型显然是不适用,因此本发明基于以上两点区别对算法进行调整以使得本发明能够更好地发挥各个模态特征的优势。对于提取的面部特征和唇读特征进行等维拼接,对于拼接后的特征再与音频特征进行等维拼接,得到最终融合之后的特征向量。本发明所采用的音视频特征融合与单一图像模态模型的区别如下:
1)单一图像模态模型只考虑了图像本身的语义内容,而深度伪造视频为了更加令人信服往往是动态的,因此不能充分地利用视频里本身丰富的动态信息。
2)由于针对人物进行建模,音频是使一个人区别于其他人的方式,因此本身所代表的特征也能充分地被利用在本发明检测方法中。
综上本发明针对目前人物的传统通用检测数据集人物过多,消耗大量资源,弱安全关注度以及弱黑盒检测能力的特点,将有限的计算资源集中于更高价值的主体,强调了更高的识别率和更高的黑盒检测性能。

Claims (4)

1.基于音视频多模态的特定人物深度伪造检测方法,其特征在于:
首先,提取目标人物面部及音频的数据集,得到全部正负样本中目标人物音频与唇读特征,具体为:
A、逐帧检测视频中目标人物面部关键点坐标信息,根据提取的坐标信息,提取面部运动单元强度Fface
B、唇部运动时序特征抽取;
检测所有正负样本的68个关键点中的唇部关键点,提取唇部运动特征Flip
C、音频时序特征抽取;
将视频中的音频转化为频域信息,而后将频域信息转换为512维的梅尔倒谱系数作为音频特征Fmel
进一步,将Fface和Flip融合为面部语义特征Fimg
进一步,将面部语义特征Fimg与音频特征Fmel融合,得到融合特征F;
最后,将融合特征F在分类器中进行真假脸的检测,分类器中,首先通过两层全连接的前馈神经网络层进行融合特征数据降维,然后对降维后的特征数据使用softmax层收缩至2维,进行二分类。
2.如权利要求1所述基于音视频多模态的特定人物深度伪造检测方法,其特征在于:面部语义特征融合方法为:
通过特征矩阵的横向拼接,将Fface和Flip融合为面部语义特征:
Figure FDA0003867529260000011
式中,
Figure FDA0003867529260000012
代表矩阵横向拼接。
3.如权利要求1所述基于音视频多模态的特定人物深度伪造检测方法,其特征在于:采用纵向拼接的方式,进行面部语义特征Fimg与音频特征Fmel的融合,得到:
F=[Fimg,Fmel]
上式中,[·,·]代表矩阵纵向拼接。
4.如权利要求1所述基于音视频多模态的特定人物深度伪造检测方法,其特征在于:分类器训练时,学习率lr1为1e-6,而网络后续的分类器的学习率lr2则设为1e-5;损失函数计算方法为交叉熵,即
Figure FDA0003867529260000021
其中,N为样本数,yi为第i个样本的真实值,pi为第i个样本的二分类预测结果;上述损失函数用于评估模型预测值pi与视频真实值yi命中程度;根据输出值L,采用梯度下降的方式回溯更新网络中的权重参数。
CN202211185641.XA 2022-09-27 2022-09-27 一种基于音视频多模态的特定人物深度伪造检测方法 Pending CN115661889A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211185641.XA CN115661889A (zh) 2022-09-27 2022-09-27 一种基于音视频多模态的特定人物深度伪造检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211185641.XA CN115661889A (zh) 2022-09-27 2022-09-27 一种基于音视频多模态的特定人物深度伪造检测方法

Publications (1)

Publication Number Publication Date
CN115661889A true CN115661889A (zh) 2023-01-31

Family

ID=84984715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211185641.XA Pending CN115661889A (zh) 2022-09-27 2022-09-27 一种基于音视频多模态的特定人物深度伪造检测方法

Country Status (1)

Country Link
CN (1) CN115661889A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883900A (zh) * 2023-07-12 2023-10-13 沃民高新科技(北京)股份有限公司 一种基于多维生物特征的视频真伪鉴别方法和系统
CN119672616A (zh) * 2025-02-19 2025-03-21 杭州中科睿鉴科技有限公司 基于多模态对比学习的深伪视频检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883900A (zh) * 2023-07-12 2023-10-13 沃民高新科技(北京)股份有限公司 一种基于多维生物特征的视频真伪鉴别方法和系统
CN119672616A (zh) * 2025-02-19 2025-03-21 杭州中科睿鉴科技有限公司 基于多模态对比学习的深伪视频检测方法

Similar Documents

Publication Publication Date Title
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
Han et al. Fighting fake news: two stream network for deepfake detection via learnable SRM
WO2020248376A1 (zh) 情绪检测方法、装置、电子设备及存储介质
CN108182409B (zh) 活体检测方法、装置、设备及存储介质
KR101254177B1 (ko) 방사형 기저 함수 신경회로망 알고리즘을 이용한 실시간 얼굴 인식 시스템
CN109190479A (zh) 一种基于混合深度学习的视频序列表情识别方法
CN110414350A (zh) 基于注意力模型的双路卷积神经网络的人脸防伪检测方法
KR102132407B1 (ko) 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치
CN110598580A (zh) 一种人脸活体检测方法
CN115661889A (zh) 一种基于音视频多模态的特定人物深度伪造检测方法
CN107944398A (zh) 基于深度特征联合表示图像集人脸识别方法、装置和介质
CN114937298B (zh) 一种基于特征解耦的微表情识别方法
Diyasa et al. Multi-face Recognition for the Detection of Prisoners in Jail using a Modified Cascade Classifier and CNN
CN116883900A (zh) 一种基于多维生物特征的视频真伪鉴别方法和系统
CN115482595A (zh) 一种基于语义分割的特定人物视觉伪造检测与鉴别方法
CN109522865A (zh) 一种基于深度神经网络的特征加权融合人脸识别方法
CN111898454A (zh) 权重二值化神经网络与迁移学习人眼状态检测方法及设备
CN111832651A (zh) 视频多模态情感推理方法和装置
Kumaragurubaran et al. Unlocking Sign Language Communication: A Deep Learning Paradigm for Overcoming Accessibility Challenges
CN111191549A (zh) 一种两级人脸防伪检测方法
Shetty et al. Real-time translation of sign language for speech impaired
CN117370934B (zh) 一种敏感信息发现模型的多模态数据增强方法
Kumar et al. Development of visual-only speech recognition system for mute people
CN117708752A (zh) 一种基于视音频信息融合的情绪识别方法及系统
Suma et al. Dense feature based face recognition from surveillance video using convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination