CN115661889A

CN115661889A - 一种基于音视频多模态的特定人物深度伪造检测方法

Info

Publication number: CN115661889A
Application number: CN202211185641.XA
Authority: CN
Inventors: 周琳娜; 杨震; 储贝林; 毛羽哲; 王任颖; 林清然; 陈贤浩
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-01-31

Abstract

本发明公开一种基于音视频多模态的特定人物深度伪造检测方法，属于安全与数字图像取证领域，采用音视频多模态融合的算法，并结合唇读方法基于时序捕捉人脸的动态特征。本发明的步骤有：(1)提取人物音视频与唇读特征；(2)融合唇部与时序特征为面部语义特征；(3)融合面部语义特征与音频特征进入神经网络；(3)融合特征在分类器中进行真假脸的检测。本发明方法以融合音视频多模态的神经网络模型为基础，针对特定政治人物的AI换脸检测进行创新设计，满足对于指定人物检测高准确率的要求。同时，本发明方法通过提取面部时序信息捕捉人脸动态特征，参考时间维度不同人脸的平移旋转等动作，弥补了原本仅限于参考图像内容本身的特征的局限，极大提高了假脸检测的准确性。

Description

一种基于音视频多模态的特定人物深度伪造检测方法

技术领域

本发明属于人工智能安全与数字图像取证领域，涉及一种伪造视频检测方法，具体来说是一种基于音视频多模态的特定人物深度伪造检测方法。

背景技术

人脸深度伪造词源于Reddit用户deepfakes在2017发布的一种机器学习算法，并声称该算法可以帮助他将名人脸转换成色情视频。该算法一经发布就受到了民众与媒体的热议，随之而来的是视觉深度伪造算法研究的一股热潮。2018年，BuzzFeed发布了一段关于巴拉克·奥巴马发表演讲的深度伪造视频，该视频使用Reddit用户制造的FakeApp软件制作。自2017年至2020年，关于深度伪造相关的论文由原先的3篇增长至250余篇，同时，FakeApp、Faceswap、Zao、FaceApp等能够实现无技术成本的面向大众的快捷深度伪造软件也被依次开发，由视觉深度伪造技术制作的各种类别的伪造视频也引发了人们对身份盗窃、假冒以及在社交媒体上传播虚假信息的担忧。

人脸深度伪造经过多年的更新换代，有了很大的变化。依托于ProGAN和StyleGAN等最新的对抗生成网络架构，人脸深度伪造能够极大程度还原真实的人脸角度、光照、遮挡等变化。

人脸深度伪造检测是随着人脸深度伪造进行不当使用应运而生的技术。它的主要流程分为：

a)数据处理。对要检测的人脸进行放缩、检测、对齐等预处理操作。

b)特征提取。将处理过的标准化数据在模型中根据先验知识或图像处理手段提取合适的特征。

c)模型建立。搭建与检测人物相匹配的神经网络模型，使提取特征能够更好地在分类器中进行分类。

d)检测分类。在分类器中进行输出结果。

值得一提的是，决定检测性能的关键就在于如何选择可以有效区分真假人脸的相关特征，以及如何建立分类效果良好的模型。

常见的特征提取手段如下：基于具体伪影的检测方法侧重于检测流程图中的特征确定部分，从图像处理角度出发，以像素级粒度捕捉生成图像或视频中存在的模糊、抖动及叠影等异常现象；基于数据驱动的检测方法侧重于检测流程图中的模型建立部分，使用精心设计的神经网络对提取到的伪造品中的时域与频域信息进行训练分类；基于信息不一致的检测方法基于信息不一致的视觉深度伪造检测技术重点在于从生物固有特征、时间连续性、以及运动向量等高级语义出发，捕捉伪造品与客观规律间的不一致部分。2019年Agarwal团队发现不同人在说话时，面部表情和头部运动存在明显的模式差异。而在目前现有的伪造方式中都对这种模式造成了破坏，即视频中的人脸区域发生了篡改，导致人物说话时面部表情和头部运动的模式与人物身份不相符。因而利用某个人的身份问题与他专属的动作表情习惯对人物进行建模，尤其建立国家领导人个人的人物模型，并使用这些模型来区分视频的真假成为了可行的方法之一。该团队同时提出了soft-biometric模型，即融合了人物面部表情和头部运动的领导人建模方法。

发明内容

由于深度伪造视频往往伴随丰富的时序信息和音频信息，因此人物脸部深度伪造检测通过提取图像本身的语义信息来进行作为判别的主要依据并不完善；因此本发明提出一种基于音视频多模态的特定人物深度伪造检测方法，选择提取音视频多模态的信息并进行深层次的融合，显著提高了对特定人物AI换脸的检测效率。

本发明基于音视频多模态的特定人物深度伪造检测方法，步骤如下：

首先，提取目标人物面部及音频的数据集，得到全部正负样本中目标人物音频与唇读特征，具体为：

A、逐帧检测视频中目标人物面部关键点坐标信息，根据提取的坐标信息，提取面部运动单元强度F_face。

B、唇部运动时序特征抽取。

检测所有正负样本的68个关键点中的唇部关键点，提取唇部运动特征F_lip；

C、音频时序特征抽取。

将视频中的音频转化为频域信息，而后将频域信息转换为512维的梅尔倒谱系数作为音频特征F_mel。

进一步，将F_face和F_lip融合为面部语义特征F_img。

进一步，将面部语义特征F_img与音频特征F_mel融合，得到融合特征F。

最后，将融合特征F在分类器中进行真假脸的检测，分类器中，首先通过两层全连接的前馈神经网络层进行融合特征数据降维，然后对降维后的特征数据使用softmax层收缩至2维，进行二分类。

本发明优点在于：

1、本发明基于音视频多模态的特定人物深度伪造检测方法，以融合音视频多模态的神经网络模型为基础，针对特定人物的AI换脸检测进行创新设计，满足对于指定人物检测高准确率的要求。

2、本发明基于音视频多模态的特定人物深度伪造检测方法，通过提取面部时序信息捕捉人脸动态特征，参考时间维度不同人脸的平移旋转等动作，弥补了原本仅限于参考图像内容本身的特征的局限，极大提高了假脸检测的准确性。

3、本发明基于音视频多模态的特定人物深度伪造检测方法，采用基于音视频多模态的假脸检测算法，利用多个模态的融合特征，提高针对特定人物AI换脸的检测效率，以及时预防利用Deepfake技术进行人物假脸伪造，从而从根本上解决利用换脸技术对于公众人物的抹黑与造谣，提高AI换脸逼真程度的门槛。

附图说明

图1为本发明基于音视频多模态的特定人物深度伪造检测方法流程图。

具体实施方式

下面结合附图对本发明做进一步详细说明。

本发明基于音视频多模态的特定人物深度伪造检测方法，具体步骤设计为：

步骤1：采集并制作针对目标人物面部及音频的数据集，如目标人物的演讲视频。

为了能够学习到某个特定人物的面部特征，首先需要采集目标人物大量真实的视频，作为模型训练的正样本；并使用上述目标人物真实演讲视频，采用三种主流的、采用不同伪造方式的开源深度伪造工具：faceswap、wav2lip、first-order-motion-model制作目标人物的深度伪造视频，作为模型训练的负样本。

步骤2：提取人物音视频与唇读特征。

对全部正负样本进行下述步骤201、202、203，得到全部正负样本中任务音频与唇读特征：

201、运动单元时序特征抽取。

按照计算机视觉业界广泛使用的开源工具包OpenFace中定义的68个人物面部关键点，逐帧检测视频中目标人物面部关键点坐标信息。并且根据提取坐标信息，使用预训练好的Resnet-18模型提取面部运动单元强度F_face(面部运动单元强度定义由1978年Ekmanand Friesen提出的面部运动编码系统FACS(Facial Action Coding System)给出)。

202、唇部运动时序特征抽取。

使用Face Alignment检测所有正负样本的68个关键点中的唇部关键点，并借助预训练好的Resnet-18模型提取唇部运动特征F_lip。F_lip以及前述F_face均为256维的特征向量。

203、音频时序特征抽取。

在音频数据预处理阶段，通过快速傅里叶变换将视频中的音频转化为频域信息，而后使用梅尔滤波器和离散余弦变换将频域信息转换为更符合人耳听觉习惯的512维的梅尔倒谱系数作为音频特征F_mel。

步骤3：将F_face和F_lip融合为面部语义特征。

通过特征矩阵的横向拼接，将F_face和F_lip融合为面部语义特征：

式中，

代表矩阵横向拼接，F_img大小1×256，F_mel大小1×256，拼接之后F_img大小为1×512。

步骤4：将步骤2中得到的面部语义特征F_img与音频特征F_mel融合，实现F_face、F_lip和F_mel三种特征的融合。

由于F_face和F_lip同属于由面部像素信息提取出的特征，因此在步骤3中采用横向向量拼接的方式聚合同一类型的特征；而F_mel属于由音频信息提取出的特征，与F_face属于不同属性特征，因此此处采用纵向拼接的方式，进行面部语义特征F_img与音频特征F_mel的融合，得到：

F＝[F_img,F_mel]

上式中，[·,·]代表矩阵纵向拼接，如F_img大小1×512，F_mel大小1×512，拼接之后F大小为2×512。

步骤5：将步骤4中得到的融合特征F在分类器中进行真假脸的检测。融合后的特征经过分类器实现深度伪造人脸检测。分类器模型中，首先通过两层全连接的前馈神经网络层进行融合特征数据降维，然后对降维后的特征数据使用softmax层收缩至2维，进行二分类。

在步骤5中分类器模型训练时，由于进行图像和唇部运动特征抽取的Resnet-18已经预训练好，在分类器模型训练时训练时，学习率lr₁为1e-6，而网络后续的分类器(两层全连接的前馈神经网络层与softmax)的学习率lr₂则设为1e-5。损失函数计算方法为交叉熵，即

其中，N为样本数，y_i为第i个样本的真实值，p_i为第i个样本的二分类预测结果。其中，损失函数用于评估模型预测值p_i(用0，1表示真假)，与视频真实值y_i(用0，1表示真假)命中程度，模型会根据输出值L，采用梯度下降的方式回溯更新网络中的权重参数，从而让模型预测值更佳拟合真实值。

本发明方法基于神经网络模型，共由图像特征提取模块和音频特征提取模块。其中图像特征提取模块使用预训练好的Resnet-18网络，音频特征提取模块使用傅里叶快速变换与梅尔倒谱的方式进行提取。由于本发明采用以上多种模态共同考虑的方式而传统单一模态的模型显然是不适用，因此本发明基于以上两点区别对算法进行调整以使得本发明能够更好地发挥各个模态特征的优势。对于提取的面部特征和唇读特征进行等维拼接，对于拼接后的特征再与音频特征进行等维拼接，得到最终融合之后的特征向量。本发明所采用的音视频特征融合与单一图像模态模型的区别如下：

1)单一图像模态模型只考虑了图像本身的语义内容，而深度伪造视频为了更加令人信服往往是动态的，因此不能充分地利用视频里本身丰富的动态信息。

2)由于针对人物进行建模，音频是使一个人区别于其他人的方式，因此本身所代表的特征也能充分地被利用在本发明检测方法中。

综上本发明针对目前人物的传统通用检测数据集人物过多，消耗大量资源，弱安全关注度以及弱黑盒检测能力的特点，将有限的计算资源集中于更高价值的主体，强调了更高的识别率和更高的黑盒检测性能。

Claims

1.基于音视频多模态的特定人物深度伪造检测方法，其特征在于：

A、逐帧检测视频中目标人物面部关键点坐标信息，根据提取的坐标信息，提取面部运动单元强度F_face；

B、唇部运动时序特征抽取；

C、音频时序特征抽取；

将视频中的音频转化为频域信息，而后将频域信息转换为512维的梅尔倒谱系数作为音频特征F_mel；

进一步，将F_face和F_lip融合为面部语义特征F_img；

进一步，将面部语义特征F_img与音频特征F_mel融合，得到融合特征F；

2.如权利要求1所述基于音视频多模态的特定人物深度伪造检测方法，其特征在于：面部语义特征融合方法为：

式中，

代表矩阵横向拼接。

3.如权利要求1所述基于音视频多模态的特定人物深度伪造检测方法，其特征在于：采用纵向拼接的方式，进行面部语义特征F_img与音频特征F_mel的融合，得到：

F＝[F_img,F_mel]

上式中，[·,·]代表矩阵纵向拼接。

4.如权利要求1所述基于音视频多模态的特定人物深度伪造检测方法，其特征在于：分类器训练时，学习率lr₁为1e-6，而网络后续的分类器的学习率lr₂则设为1e-5；损失函数计算方法为交叉熵，即

其中，N为样本数，y_i为第i个样本的真实值，p_i为第i个样本的二分类预测结果；上述损失函数用于评估模型预测值p_i与视频真实值y_i命中程度；根据输出值L，采用梯度下降的方式回溯更新网络中的权重参数。