CN112766166B

CN112766166B - 一种基于多音素选择的唇型伪造视频检测方法及系统

Info

Publication number: CN112766166B
Application number: CN202110076775.7A
Authority: CN
Inventors: 周文柏; 张卫明; 俞能海; 林佳滢; 刘泓谷
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2022-09-06
Anticipated expiration: 2041-01-20
Also published as: CN112766166A

Abstract

本发明涉及一种基于多音素选择的唇型伪造视频检测方法及系统，其方法包括：步骤S1：建立音素和唇形的映射，得到音素类别集；步骤S2：根据不同唇型篡改方法，从音素类别中，选择对应的多音素类别子集，并根据预设唇形帧个数，构建至少一个音素唇形数据集作为训练样本集合；步骤S3：根据至少一个音素唇形数据集，构建对应的至少一个唇型伪造视频检测子模型，分别训练，得到对应的至少一个唇型检测结果；步骤S4：将至少一个唇型检测结果进行融合，得到融合唇型检测结果。本发明方法建立了音素‑唇形映射关系，并选择音素‑唇形子集训练子模型并融合结果。本发明方法可以区分不同篡改方法，并建立了一个新数据集，有利于后续唇形篡改检测工作发展。

Description

一种基于多音素选择的唇型伪造视频检测方法及系统

技术领域

本发明涉及人脸伪造deepfake、人脸伪造检测以及视听语音识别领域，特别涉及基于多音素的人脸唇形篡改视频检测方法及系统。

背景技术

由于深度生成模型(generative models)的巨大成功，人脸伪造deepfake成为近年来一个新兴的研究课题，根据篡改区域的不同，人脸伪造方法大致可以分为两类：1.全脸合成(Full-face synthesis)，通常会将整个合成的人脸替换到目标人脸；2.局部区域篡改(Local region forgery)，只修改人脸局部区域，例如篡改唇形来匹配音频内容，并达到视觉上的同步(lip forgery)。

全脸合成的典型方法有DeepFakes、FaceSwap、FSGAN和FaceShifter等，其中FaceShifter可以产生高保真和遮挡感知的结果。这类方法通常会“改变身份”，因此需要篡改一个大的面部区域，有可能出现范围更广的伪影artifacts。

局部区域篡改作为一种更常见的人脸伪造方法，着重于轻微篡改人脸的部分区域，例如眉毛和唇形，相关方法包括Face2Face、First Order Motion和Neural VoicePuppetry 等。作为开创性工作，Lip sync能够修改讲话视频中的唇形，使其与给定的音频序列精确同步。Audio driven对人脸视频进行3D建模，更加灵活的控制唇形生成。最近，First Order Motion输入一段动态视频和一张静态人脸图像，动态视频作为驱动篡改静态人脸的唇形，生成该静态人脸的说话视频。

随着大量伪造视频越来越逼真甚至能轻易欺骗人眼，给社会带来了潜在的安全威胁。为了遏制恶意使用deepfake带来的风险，许多检测方法分别从空域、时域和频域考虑，在一些公共数据集上取得了显著的检测效果。然而，这些数据集中大部分deepfake视频都是通过全脸合成进行篡改，导致绝大多数检测方法采取通用方式设计，从整个人脸区域提取视觉特征，并没有考虑音频匹配的情况。尽管它们在检测全脸合成方面表现很好，但在检测局部人脸区域伪造时却遇到很大挑战，例如检测唇形篡改Lip sync。这类篡改中具有区分性的缺陷通常是局部且微小的，难以被通用的deepfake检测框架捕捉。

最近，Komal Chugh等利用了音频特征，通过检测听觉和视觉信息的同步性来鉴别伪造视频。但由于唇形与具体单词并不遵循严格的相关性，网络会混淆而产生误判。Agarwal等则尝试通过音素-视素匹配(phoneme-viseme matching)来检测唇形篡改Lipsync。在单音素下判断唇形张开、闭合的异常来检测唇形是否被篡改，场景有很大的限制，只对特定的目标人物有效。

因此，如何能快速有效地检测唇形篡改视频成为一个亟待解决的问题。

发明内容

为了解决上述技术问题，本发明提供一种基于多音素选择的唇型伪造视频检测方法及系统。

本发明技术解决方案为：一种基于多音素选择的唇型伪造视频检测方法，包括：

步骤S1：建立音素和唇形的映射，得到音素类别集；

步骤S2：根据不同的唇型篡改方法，从所述音素类别中，选择对应的多音素类别子集，并根据预设的唇形帧的个数选择唇形帧，构建至少一个音素唇形数据集作为训练样本集合；

步骤S3：根据至少一个所述音素唇形数据集，构建对应的至少一个唇型伪造视频检测子模型，分别并行训练，得到对应的至少一个唇型检测结果；

步骤S4：将所述至少一个唇型检测结果进行融合，得到融合唇型检测结果。

本发明与现有技术相比，具有以下优点：

1、本发明方法提出了一个完整的基于多音素的唇形篡改视频检测任务框架，充分利用篡改视频的视觉和听觉信息。

2、本发明方法建立了12种音素-唇形映射关系，比较了每对映射的鲁棒性。进一步，选择区分性在前5的音素-唇形集合来训练子分类模型并集成，极大提高了集成后模型的判别能力。

3、本发明方法在唇形篡改检测任务中表现优异，可以区分不同篡改方法。此外，本发明还建立了一个新的唇形篡改视频数据集，有利于后续唇形篡改检测工作发展。

附图说明

图1为本发明实施例中同一人在真、假视频中说“apple”单词的嘴唇形状；

图2为本发明实施例中一种基于多音素选择的唇型伪造视频检测方法的流程图；

图3为本发明实施例中一种基于多音素选择的唇型伪造视频检测方法中步骤S1：建立音素和唇形的映射，得到音素类别集的流程图；

图4本发明实施例中12种音素类别集；

图5本发明实施例中一种基于多音素选择的唇型伪造视频检测方法中步骤S2：根据不同的唇型篡改方法，从音素类别中，选择对应的多音素类别子集，并根据预设的唇形帧的个数选择唇形帧，构建至少一个音素唇形数据集作为训练样本集合的流程图；

图6是本发明实施例中使用P2FA对音频和单词进行强制对齐的示意图；

图7A、图7B是本发明实施例中使用Xception和本发明方法分别基于Obama Lip-sync篡改方法的特征分布可视化比较示意图；

图7C、图7D是本发明实施例中使用Xception和本发明方法分别基于Audio Driven篡改方法的特征分布可视化比较示意图；

图7E、图7F是本发明实施例中使用Xception和本发明方法分别基于First OrderMotion篡改方法的特征分布可视化比较示意图；

图7G、图7H是本发明实施例中使用Xception和本发明方法分别基于Face Swap篡改方法的特征分布可视化比较示意图；

图8A、图8B是本发明实施例中多分类总数据集上Xception和本发明方法的特征分布可视化比较示意图；

图9本发明实施例中一种基于多音素选择的唇型伪造视频检测方法的结构示意图；

图10本发明实施例中一种基于多音素选择的唇型伪造视频检测系统的结构框图。

具体实施方式

由于视频中的特定人物的唇形可以被窜改以匹配任意音频内容，因此音频和篡改唇形间有密切联系。但是，由于篡改方法的不完善，可能会产生不可控的视觉伪影，影响语音与唇形的匹配。如图1所示，在说“apple”这个单词时，真实视频中说话者的嘴唇是张开的，相反，在伪造视频中，嘴唇通常不能完全张开。虽然这种细微差别不易被人眼察觉，但暴露出的潜在弱点可以被设计良好的检测器捕捉到。然而，在不同表情下说相同的单词时，唇形本身也存在一定范围的波动。大的波动表明当前唇形在不同条件下是不鲁棒的，不利于作为检测的参考。因此，本发明提供了一种基于多音素选择的唇型伪造视频检测方法，用于检测视频中唇型是否为伪造的。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

实施例一

如图2所示，本发明实施例提供的一种基于多音素选择的唇型伪造视频检测方法，包括下述步骤：

步骤S1：建立音素和唇形的映射，得到音素类别集；

步骤S2：根据不同的唇型篡改方法，从音素类别中，选择对应的多音素类别子集，并根据预设的唇形帧的个数选择唇形帧，构建至少一个音素唇形数据集作为训练样本集合；

步骤S3：根据至少一个音素唇形数据集，构建对应的至少一个唇型伪造视频检测子模型，分别并行训练，得到对应的至少一个唇型检测结果；

步骤S4：将至少一个唇型检测结果进行融合，得到融合唇型检测结果。

如图3所示，在一个实施例中，上述步骤S1：建立音素和唇形的映射，得到音素类别集，包括：

步骤S11：将唇形数据归一化映射到音标类；

首先对真实视频进行处理。根据国际音标下的发音将对应的音频分为48类音标，理论上，每个音标类c对应于一种唇形。唇形数据x可以使用马氏距离d如下述公式(1)，归一化投影到每个音标类c：

其中，x表示当前待分类的唇形的开合程度，

表示第c类唇形数据开合程度的均值。对于每个唇形类，计算两个累计的分布:一个是类内样本分布

x∈c，另一个是类外样本分布

这里假设是高斯分布，分别满足均值为u_c，

方差为σ_c，

对于一个新样本，按照下述公式(2)计算其属于每个类别的概率，并将该样本分配到归一化概率最高的类别中P_c:

其中，p(c|x)为x属于类c的概率，按照下述公式(3)的类内分布与类外分布之间的比率计算：

步骤S12：通过LDA分类器，合并唇形相近的音标类，得到音素类别集。

在得到唇形到音标的映射后，利用预先训练好的LDA多分类器将唇形图像划分为各个音标类。然而，某些不同类别的音标具有相似的唇形外观，例如m，b，p，因此不能直接使用音标作为可识别单位来区分唇形。为了构建从音频到唇形的鲁棒映射，从而进行迭代，合并每个步骤中歧义度最高的音标类别。最后得到了12个音素类别，每个音素类别中包含多个音标(从W1到W12)。这12个音素类别中的唇形可区分，形成了从音素到唇形的鲁棒映射。如图4所示，是12个音素类别集的示意图。

由于已经建立了音频和唇形之间的12种鲁棒映射，因此通过以下步骤简化其余假视频中唇形分类过程，而无需训练任何额外的分类器。使用语音转文本工具从音频中获取相应的转录文本，并删除所有标点符号，并确保单词之间用空格分隔。然后将格式化的文本和音频输入到P2FA工具包中。通过对音素和单词进行强制对齐，得到假视频中每个音素的起始和结束时间，并将这段时间内的唇形图像分类为当前音素。图3显示单词和音素之间的对齐过程。

如图5所示，在一个实施例中，上述步骤S2：根据不同的唇型篡改方法，从音素类别中，选择对应的多音素类别子集，并根据预设的唇形帧的个数选择唇形帧，构建至少一个音素唇形数据集作为训练样本集合，包括：

步骤S21：根据不同的唇型篡改方法中的不同音素的幅度差值，从所述音素类别中选择对应的多音素类别子集；

虽然同一个音素组的唇形是相似的，但是不同音素之间嘴唇的开合幅度却有很大的不同。本发明实施例使用dlib 68个人脸关键点检测器计算第63和第67个关键点坐标纵轴差值：D＝(y_{63}-y_{67})，其中，D表示当前唇形的开合幅度。使用帧数作为横轴，在音素持续时间内计算每个帧的开合幅度D。对于每个音素类别集，计算两条平均幅度曲线，如图4所示，其中，上面的曲线代表真视频的平均幅度变化，而下面的曲线代表假视频。

对于一些音素，例如W1和W2，真假曲线在垂直轴上间隔很大，几乎没有重叠，而对于其他一些音素(例如W3和W12)，两条曲线存在部分堆叠的区域。此结果表明，真假唇形在某些音素集中，比在其他音素集中更具有区分性。为了选择最具区分性的音素W进行分类，分别计算了真、假曲线的最大值差值D_{W_{max}}和最小值差值 D_{W_{min}}，并定义幅度差值D_W来表示每个音素W真假唇形间的差异：D_W＝\frac{1}{2}(D_{W_{max}}+D_{W_{min}})。考虑到不同的篡改方法下假唇形开合幅度有潜在差异，如表1所示，本发明实施例中计算了4个篡改方法使用的不同数据集的不同音素的幅度差值。表2中列出了每种篡改方法中不同音素的幅度差值，其中排在每种篡改方法前5的幅度差值用粗体显示。

表1唇形篡改方法的视频数据集

篡改方法	真/假	总视频数	帧数
				Obama Lip-sync	28	56	52534
Audio Driven	14	28	24416
				First Order	24	48	50614
Face Swap	22	44	25736

表2 12种音素类别集在不同篡改方法中的真假唇形开合幅度差值

根据表2，为每个唇形篡改方法，根据其区分性的大小，本发明实施例选择前5个音素幅度差值最大的音素集，构建其对应的多音素类别子集，如表3所示。本发明不限定所选择的子集个数，可根据实际情况进行增减。

表3唇形篡改方法对应的多音素类别子集

篡改方法	多音素类别子集
		Obama Lip-sync	W1-W2-W4-W5-W7
Audio Driven	W2-W4-W5-W6-W7
		First Order	W3-W4-W5-W9-W10
Face Swap	W1-W4-W7-W8-W11

步骤S22：根据预设的唇形帧的个数选择唇形帧，以及多音素类别子集，构建至少一个音素唇形数据集作为训练样本集合。

如图6所示，音素的发音通常会持续一段时间，因此一个音素单元包含多个唇形帧。使用f表示唇形帧的个数，f的大小会影响模型的检测能力。唇形帧太少会导致当前音素缺乏足够的唇形特征，而唇形帧太多会导致与其他音素发生重叠。考虑到精度和复杂度之间的权衡，本发明实施例选择＝4来构建音素唇形数据集。但是本发明对于唇形帧的个数选择不做具体限定，可根据实际情况选择。下面表4展示了相应实验结果。

表4唇形帧数的选择

帧数	ACC(％)	AUC(％)
			f＝3	96.21	97.45
f＝4	97.73	98.89
			f＝5	96.21	97.45
f＝6	96.21	97.45
			f＝7	97.73	98.89
f＝8	97.73	98.89

本发明方法建立了12种音素-唇形映射关系，比较了每对映射的鲁棒性。进一步，选择区分性在前5的音素-唇形集合来训练子分类模型并集成，极大提高了集成后模型的判别能力。

在一个实施例中，上述步骤S3：根据至少一个音素唇形数据集，构建对应的至少一个唇型伪造视频检测子模型，分别并行训练，得到对应的至少一个唇型检测结果，具体包括：根据每个音素唇形数据集构建其对应的唇型伪造视频检测子模型，并输入音素唇形数据集进行训练，分别得到每个唇型伪造视频检测子模型的唇形检测结果；其中，唇型伪造视频检测子模型采用XceptionNet作为骨干网络。

根据上述步骤S2中得到的每个不同篡改方法的不同音素唇形数据集，分别构建并且可并行训练各个唇型伪造视频检测子模型，分别得到唇形检测结果。每个子模型可以独立用于真/假唇形检测。本发明实施例采用XceptionNet作为每个子模型的骨干网络，XceptionNet是一种用于Deepfake检测的有效网络结构，并广泛用于现有的检测方法中。在本发明实施例中，将输入唇形图像的大小调整为128×128，并将XceptionNet全连接层fc后默认的1000类分类输出替换为两个类别的输出，即输出当前输入唇形为真或假的置信度。

在一个实施例中，上述步骤S4：将所述唇型检测结果进行融合，得到融合唇型检测结果，具体包括：将每个所述唇型伪造视频检测子模型的所述唇型检测结果赋予权重后进行融合计算，得到融合唇型检测结果。

为了获得最终的结果，将上述每种篡改方法的子模型的检测结果进行融合,得到融合唇型检测结果作为最终的唇形检测结果。本发明实施例为了确保最大程度发挥作用，每个子模型的检测结果赋予相等的平均权重。当然，也可以根据实际情况，对不同子模型的结果赋予不同的权重，本发明对此不作具体限定。

由于子模型的数量直接影响最终整体模型的检测精度，本发明实施例对不同数量的子模型的集成性能进行实验。表5中的实验结果表明，5个子模型可以实现出色的性能，同时不会增加额外的复杂度。

表5子模型个数的选择

子模型	N＝2	N＝3	N＝4	N＝5	N＝6	N＝7	N＝8	N＝9	N＝10	N＝11	N＝12
												ACC(％)	93.18	93.94	94.70	97.73	97.73	96.97	97.73	96.97	96.97	96.97	97.73
AUC(％)	94.20	95.10	95.68	98.89	98.89	98.01	98.89	98.01	98.01	98.01	98.89

此外，为了验证本发明提高的方法不受骨干网络的限制，本发明还采用了另一种网络结构ResNet-50，它在图像分类任务中表现良好。表6的结果表明，我们的方法均大幅超越不同骨干网络的性能。

表6不同网络结构的分类评估结果

为了验证本发明方法在多分类中的有效性，进行了拓展实验，旨在通过本发明框架不仅能区分真假唇形，还能区分不同的篡改方法。将上述不同篡改方法对应的4个子数据集连续帧中所有的真实唇形用0标记，4个子数据集中的篡改唇形分别用1-5标记。这里，出于对所有数据集的综合考虑，选择(W1,W6,W7,W10,W11)来训练分类模型。从表7的结果可以看出，尽管4个子数据集的性能略有下降，但集成模型的平均ACC 和AUC明显比基线模型好。以上结果表明，本发明方法能够在多分类场景中找到高维空间中唇形的潜在差异，是deepfake检测中的一个重要突破。

表7多分类评估结果

进一步，本发明实施例还使用t-SNE将特征分布可视化，分别得到图7A～图7H和图8A～图8B，直观地展示了本发明方法的有效性。图7A～图7H中，同所有的篡改方法相比，现有的Xception网络结构(如图7A、图7C、图7E、图7G所示)更容易混淆真实唇形和篡改唇形，而本发明提供的方法(如图7B、图7D、图7F、图7H所示)能够在特征空间中较好的分割出真类和假类。图8A和图8B所示的多分类特征分布也符合上述结论。

如图9所示，本发明方法提出了一个完整的基于多音素的唇形篡改视频检测任务框架，充分利用篡改视频的视觉和听觉信息。本发明方法在唇形篡改检测任务中表现优异，可以区分不同篡改方法。此外，本发明还建立了一个新的唇形篡改视频数据集，有利于后续唇形篡改检测工作发展。

实施例二

如图10所示，本发明实施例提供了一种基于多音素选择的唇型伪造视频检测系统，包括下述模块：

构建音素类别集模块51，用于建立音素和唇形的映射，得到音素类别集；

构建音素唇形数据集模块52，用于根据不同的唇型篡改方法，从述音素类别中，选择对应的多音素类别子集，并根据预设的唇形帧的个数选择唇形帧，构建至少一个音素唇形数据集作为训练样本集合；

唇型伪造视频检测子模型训练模块53，用于根据不同的唇型篡改方法，从音素类别中，选择对应的多音素类别子集，并根据预设的唇形帧的个数选择唇形帧，构建至少一个音素唇形数据集作为训练样本集合；

唇型检测结果融合模块54，用于将至少一个唇型检测结果进行融合，得到融合唇型检测结果。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于多音素选择的唇型伪造视频检测方法，其特征在于，包括：

步骤S1：建立音素和唇形的映射，得到音素类别集，具体包括：

步骤S11：将唇形数据归一化映射到音标类；

步骤S12：通过LDA分类器，合并唇形相近的所述音标类，得到音素类别集，具体包括：某些不同类别的音标具有相似的唇形外观，不能直接使用音标作为可识别单位来区分唇形；为了构建从音素到唇形的鲁棒映射，合并唇形相近的所述音标类，得到多个音素类别，每个音素类别中包含多个音标，多个音素类别中的唇形可区分，形成了从音素到唇形的鲁棒映射；

步骤S2：根据不同的唇型篡改方法，从所述音素类别中，选择对应的多音素类别子集，并根据预设的唇形帧的个数选择唇形帧，构建至少一个音素唇形数据集作为训练样本集合，具体包括：

步骤S21：根据不同的唇型篡改方法中的不同音素之间嘴唇的开合的幅度差值，从所述音素类别中选择前N个幅度差值最大的音素集，构建多音素类别子集；

步骤S22：根据预设的唇形帧的个数选择唇形帧，以及所述多音素类别子集，构建至少一个音素唇形数据集作为训练样本集合；

2.根据权利要求1所述的基于多音素选择的唇型伪造视频检测方法，其特征在于，所述步骤S3：根据至少一个所述音素唇形数据集，构建对应的至少一个唇型伪造视频检测子模型，分别并行训练，得到对应的至少一个唇型检测结果，具体包括：

根据每个所述音素唇形数据集构建其对应的唇型伪造视频检测子模型，并输入所述音素唇形数据集进行训练，分别得到每个所述唇型伪造视频检测子模型的唇形检测结果；其中，所述唇型伪造视频检测子模型采用XceptionNet作为骨干网络。

3.根据权利要求1所述的基于多音素选择的唇型伪造视频检测方法，其特征在于，所述步骤S4：将所述唇型检测结果进行融合，得到融合唇型检测结果，具体包括：

将每个所述唇型伪造视频检测子模型的所述唇型检测结果赋予权重后进行融合计算，得到融合唇型检测结果。

4.一种基于多音素选择的唇型伪造视频检测系统，其特征在于，包括下述模块：

构建音素类别集模块，用于建立音素和唇形的映射，得到音素类别集，具体包括：

步骤S11：将唇形数据归一化映射到音标类；

步骤S12：通过LDA分类器，合并唇形相近的所述音标类，得到音素类别集，具体包括：某些不同类别的音标具有相似的唇形外观，不能直接使用音标作为可识别单位来区分唇形；为了构建从音素到唇形的鲁棒映射，合并唇形相近的所述音标类，得到多个音素类别，每个音素类别中包含多个音标，这多个音素类别中的唇形可区分，形成了从音素到唇形的鲁棒映射；

构建音素唇形数据集模块，用于根据不同的唇型篡改方法，从所述音素类别中，选择对应的多音素类别子集，并根据预设的唇形帧的个数选择唇形帧，构建至少一个音素唇形数据集作为训练样本集合，具体包括：

唇型伪造视频检测子模型训练模块，用于根据不同的唇型篡改方法，从所述音素类别中，选择对应的多音素类别子集，并根据预设的唇形帧的个数选择唇形帧，构建至少一个音素唇形数据集作为训练样本集合；

唇型检测结果融合模块，用于将所述至少一个唇型检测结果进行融合，得到融合唇型检测结果。