CN114596609B

CN114596609B - 一种视听伪造检测方法及装置

Info

Publication number: CN114596609B
Application number: CN202210062374.0A
Authority: CN
Inventors: 赫然; 黄怀波; 刘晨雨; 李佳; 段俊贤
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2023-05-09
Anticipated expiration: 2042-01-19
Also published as: CN114596609A

Abstract

本发明提供一种视听伪造检测方法及装置，该方法包括：获取待测视频数据；其中，待测视频数据包括至少两个视频帧，每个视频帧均包括至少一组由人脸图像和音频数据组成的视听对；将各视听对输入至训练好的双流网络，得到待测视频数据的伪造检测结果；其中，双流网络包括图像网络分支、音频网络分支和预测网络；图像网络分支用于提取人脸图像的面部关键点特征，并基于面部关键点特征提取人脸图像的帧间一致性特征；音频网络分支用于提取音频数据的音频特征，并基于音频特征提取音频数据的时间一致性特征；预测网络基于帧间一致性特征和时间一致性特征获取待测视频数据的伪造检测结果。本发明能够全面准确地对待测视频数据进行真伪检测。

Description

一种视听伪造检测方法及装置

技术领域

本发明涉及机器学习技术领域，尤其涉及一种视听伪造检测方法及装置。

背景技术

最近几年来，深度学习的快速发展使得人们可以利用神经网络尤其是生成对抗网络生成高可信度的伪造视频，导致单从人类视觉上难以分辨。所以伪造产品在社交媒体上传播的安全问题逐渐成为社会关注的热点，如何提出一种高效的伪造检测策略显得十分重要。

以往的伪造检测工作大多是捕捉视频帧内的伪影。随着伪造技术的不断完善，这类伪造检测方法的缺点或者所依赖的线索被逐渐攻克。

传统伪造方法生成的伪造视频大多是按帧处理。帧间的不协调性很容易就可以被人眼识破。然而，现在基于学习的deepfake，尤其是对抗生成网络生成的视频具有较高的真实性，造成现有伪造检测方法无法对待测视频数据进行准确有效地检测。

发明内容

本发明提供一种视听伪造检测方法及装置，用以解决现有技术中无法对待测视频数据进行准确有效地检测的缺陷，实现伪造检测准确性地有效提高。

本发明提供一种视听伪造检测方法，包括：

获取待测视频数据；其中，所述待测视频数据包括至少两个视频帧，每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对；

将各所述视听对输入至训练好的双流网络，得到所述待测视频数据的伪造检测结果；

其中，所述双流网络包括图像网络分支、音频网络分支和预测网络；

所述图像网络分支用于提取所述人脸图像的面部关键点特征，并基于所述面部关键点特征提取所述人脸图像的帧间一致性特征；

所述音频网络分支用于提取所述音频数据的音频特征，并基于所述音频特征提取所述音频数据的时间一致性特征；

所述预测网络用于基于所述人脸图像的帧间一致性特征和所述音频数据的时间一致性特征获取所述待测视频数据的伪造检测结果。

根据本发明提供的一种视听伪造检测方法，所述图像网络分支包括依次连接的第一特征提取网络和帧间一致性提取模块；所述音频网络分支包括依次连接的第二特征提取网络和时间一致性提取模块；

所述第一特征提取网络和所述第二特征提取网络分别用于提取所述人脸图像的面部关键点特征和所述音频数据的音频特征；

所述帧间一致性提取模块用于基于所述面部关键点特征提取所述人脸图像的帧间一致性特征；

所述时间一致性提取模块用于基于所述音频特征提取所述音频数据的时间一致性特征；

其中，所述第一特征提取网络和所述第二特征提取网络分别基于样本数据集中人脸图像的帧内一致性损失和音频数据的内部一致性损失进行训练。

根据本发明提供的一种视听伪造检测方法，所述第一特征提取网络包括依次连接的人脸及关键点检测网络和关键点校正网络；其中，

所述人脸及关键点检测网络用于对所述人脸图像进行人脸检测，并对所述人脸检测结果进行关键点检测，得到面部初始关键点；

所述关键点校正网络用于对所述面部初始关键点进行关键点提取，得到所述面部关键点特征。

根据本发明提供的一种视听伪造检测方法，所述第二特征提取网络包括依次连接的声谱图提取模块、第一音频特征提取模块、注意力图提取模块、第二音频特征提取模块、跨模态注意力模块和第三音频特征提取模块；

所述声谱图提取模块用于提取所述音频数据的声谱图；

所述第一音频特征提取模块用于对所述声谱图进行特征提取，得到所述音频数据的第一初始特征；

所述注意力图提取模块用于根据所述第一初始特征提取所述音频数据的注意力图；

所述第二音频特征提取模块用于对所述注意力图进行特征提取，得到所述音频数据的第二初始特征；

所述跨模态注意力模块用于基于所述面部关键点特征和所述第二初始特征获取所述音频数据的跨模态注意力；

所述第三音频特征提取模块用于根据所述音频数据的第二初始特征和所述跨模态注意力获取所述音频数据的音频特征。

根据本发明提供的一种视听伪造检测方法，所述注意力图提取模块是利用真、假声谱图的差异作为监督信号进行训练得到的。

根据本发明提供的一种视听伪造检测方法，所述跨模态注意力模块基于跨模态对比损失函数训练得到；其中，所述跨模态对比损失函数包括视听对同步损失和中心点损失；所述视听对同步损失表示单个所述视听对的人脸图像和音频数据之间的同步度；所述中心点损失表示不同的所述视听对之间在真、假分类层面上的区别度。

根据本发明提供的一种视听伪造检测方法，所述人脸图像的帧内一致性损失的计算包括：

基于所述面部关键点特征确定所述样本数据集中每个人脸图像的中心线，并计算所述样本数据集中相邻视频帧的所述人脸图像的中心线的一致性，得到所述样本数据集中所述人脸图像的帧内特征值；

基于所述样本数据集中所述人脸图像的帧内特征值的均值与所述帧内特征值的二元交叉熵计算所述人脸图像的帧内一致性损失。

根据本发明提供的一种视听伪造检测方法，所述音频数据的内部一致性损失的计算包括：

将所述样本数据集中各音频数据的音频特征均划分为至少两组音频子特征；

分别计算每一组所述音频子特征与其他各组所述音频子特征的特征差值或特征相似性，以得到所述样本数据集的音频数据的内部一致性特征；

基于所述内部一致性特征，对所述样本数据集中的各音频数据的音频特征进行采样，得到音频采样特征；

基于所述样本数据集中的音频数据的音频采样特征与内部一致性特征的二元交叉熵，计算所述音频数据的内部一致性损失。

根据本发明提供的一种视听伪造检测方法，所述基于所述面部关键点特征提取所述人脸图像的帧间一致性特征，包括：

计算相邻所述视频帧的所述面部关键点特征的帧间差值，以作为所述人脸图像的帧间特征值；

将所述人脸图像的帧间特征值输入至第一编解码模型，以得到所述人脸图像的帧间一致性特征。

本发明还提供一种视听伪造检测装置，包括：

数据获取模块，用于获取待测视频数据；其中，所述待测视频数据包括至少两个视频帧，每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对；

真伪检测模块，用于将各所述视听对输入至训练好的双流网络，得到所述待测视频数据的伪造检测结果；

本发明提供的视听伪造检测方法及装置，通过双流网络的图像网络分支和音频网络分支分别对待测视频数据中的人脸图像和音频数据进行特征提取，并基于特征提取结果分别得到人脸图像的帧间一致性特征和音频数据的时间一致性特征，从而将人脸图像的帧间一致性特征和音频数据的时间一致性特征输入至预测网络，能够全面准确地对待测视频数据进行真伪检测。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的视听伪造检测方法的流程示意图之一；

图2是本发明提供的视听伪造检测方法的流程示意图之二；

图3是本发明提供的视听伪造检测装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图2描述本发明的视听伪造检测方法。图1为本发明视听伪造检测方法流程示意图，如图1所示，该方法包括：

S100、获取待测视频数据；其中，所述待测视频数据包括至少两个视频帧，每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对。

具体地，待测视频数据即待进行伪造检测的视频数据。待测视频数据包括至少两个视频帧，每个视频帧包括至少一组视听对，视听对由人脸图像和与之相对应的音频数据组成，例如，视听对X可以表示为X＝{X^v，X^a}，其中，X^v，X^a分别为待测视频的帧序列(即人脸图像)和音频采样的波形数字序列，从而能够通过检测面部尤其是嘴部的动作和音频数据的不一致性来判断待测视频数据是真实的还是伪造的。为了论述方便，本发明以每个视频帧包括一组视听对为例对视听伪造检测方法进行论述，若每个视频帧包括多组视听对，则需要对每一组视听对均执行步骤S200，只要其中一组视听对伪造检测结果为伪造，则待测视频数据为伪造数据。

S200、将各所述视听对输入至训练好的双流网络，得到所述待测视频数据的伪造检测结果；

具体地，双流网络即通过两个不同的网络分支分别对输入的视听对进行处理和识别。两个网络分支分别为图像网络分支和音频网络分支，其中，图像网络分支和音频网络均与预测网络连接，通过图像网络分支对人脸图像进行面部关键点特征提取，并基于面部关键点特征提取人脸图像的帧间一致性特征(即相邻两帧视频帧的面部关键点特征的一致性)；通过音频网络分支提取音频数据的音频特征，并基于音频特征提取音频数据的时间一致性特征(即相邻两帧视频帧的音频特征的一致性)；将人脸图像的帧间一致性特征和音频数据的时间一致性特征输入至预测网络，即可得到待测视频数据的伪造检测结果。

双流网络可以通过样本数据集进行训练得到，样本数据集U可以表示为

其中，

和y_i分别为第i个视听对的帧序列、第i个视听对的音频采样的波形数字序列和第i个视听对的标签，y_i∈{0,1}，y_i＝1表示为真，y_i＝0表示为假，N为样本数据集中视听对的个数，即视频帧的个数。

由此可见，本发明实施例通过双流网络的图像网络分支和音频网络分支分别对待测视频数据中的人脸图像和音频数据进行特征提取，并基于特征提取结果分别得到人脸图像的帧间一致性特征和音频数据的时间一致性特征，从而将人脸图像的帧间一致性特征和音频数据的时间一致性特征输入至预测网络，能够全面准确地对待测视频数据进行真伪检测。

基于上述实施例，所述图像网络分支包括依次连接的第一特征提取网络和帧间一致性提取模块；所述音频网络分支包括依次连接的第二特征提取网络和时间一致性提取模块；

具体地，图像网络分支通过第一特征提取网络提取人脸图像的面部关键点特征，帧间一致性提取模块基于面部关键点特征提取人脸图像的帧间一致性特征。同时，音频网络分支通过第二特征提取网络提取音频数据的音频特征，时间一致性提取模块基于音频特征提取音频数据的时间一致性特征。

其中，第一特征提取网络和第二特征提取网络分别基于样本数据集中人脸图像的帧内一致性损失和音频数据的内部一致性损失进行训练，使得训练好的第一特征提取网络和第二特征提取网络能够学习及预测输入的视频帧的自一致性的表示，从而在对待测视频数据进行伪造检测的过程中，能够同时考虑人脸图像和音频数据各自的帧内一致性和帧间一致性，显著提高了待测视频数据真伪检测的鲁棒性和泛化性。

基于上述任一实施例，所述第一特征提取网络包括依次连接的人脸及关键点检测网络和关键点校正网络；其中，

具体地，人脸及关键点检测网络可以根据实际需求采用神经网络或工具包来实现，例如，可以采用Dlib，Dlib是一个包含机器学习算法的C++开源工具包，相对于MTCNN(Multi-Task Convolutional Neural Network，多任务卷积神经网络)人脸检测速度更快，且检测到的关键点更多。关键点校正网络可以采用LRNet中的landmark calibration算法。

通过第一特征提取网络对人脸图像的面部关键点特征进行提取可以包括如下步骤：

首先，对人脸图像进行预处理，例如图像去噪处理、图像增强处理，将预处理后的人脸图像输入至人脸及关键点检测网络即可得到面部初始关键点，对面部初始关键点图像进行对齐操作，并进行尺寸调整，如调整为256×256；

其次，采用关键点校正网络从面部初始关键点中进一步进行关键点提取，以得到较为精确的面部关键点特征，面部关键点特征可以包括68个面部关键点，从而得到待测视频数据的面部关键点特征F^v，面部关键点特征F^v可以表示为：

式中，

为第j个视频帧中的第k个关键点，

分别为第j个视频帧中的第k个关键点的x轴坐标和y轴坐标，L_j为第j个视频帧的面部关键点特征，0≤j＜n，1≤k≤m，n为待测视频数据中的视频帧的数量。面部关键点特征F^v的形状为[n，m]， m为每个视频帧中面部关键点的数量，即m＝68。

另外，为了避免帧内面部动作幅度较大，该处可以对待测视频数据的采样率进行设置，例如，人脸图像的采样率可以设置为30fps，音频序列的采样率可以设置为24KHz，输入到双流网络的待测视频数据可以为待测视频数据的前2秒，即共有60个人脸图像，48K个音频序列。

由此可见，本发明实施例通过人脸及关键点检测网络获取面部初始关键点，并通过关键点校正网络对面部初始关键点进一步进行关键点提取，能够有效保证提取到的面部关键点特征的准确性。

基于上述任一实施例，所述第二特征提取网络包括依次连接的声谱图提取模块、第一音频特征提取模块、注意力图提取模块、第二音频特征提取模块、跨模态注意力模块和第三音频特征提取模块；

所述声谱图提取模块用于提取所述音频数据的声谱图；

具体地，声谱图可以是人耳可以线性感知的梅尔声谱图MS；声谱图提取模块可以采用STFT(Short-Time Fourier Transform,短时傅里叶变换)，还可以采用MelSpectrogram(梅尔声谱算法)；MS的形状为 [T，f]，其中，T为时长，f为频率。

第一音频特征提取模块可以采用多个卷积层堆叠设置的神经网络，通过对声谱图进行卷积和堆叠处理进行特征提取，得到音频数据的第一初始特征，其中，第一初始特征与面部关键点特征F^v的形状相同，便于进行融合计算；第一初始特征F^α1的生成过程可以表示为：

MS＝MelSpectrogram(X^a)，F^α1＝p(c(MS))

式中，c为卷积网络，用于对声谱图进行特征提取，p为堆叠操作。

注意力图提取模块可以采用小型的回归网络R，将第一初始特征 F^α1输入至回归网络R即可得到音频数据的注意力图M_att， M_att＝R(F^a1，θ_att)；式中，θ_att为回归网络R中待学习的参数。

得到注意力图后，先通过

对注意力图进行细化操作得到注意力图特征F^Matt，

表示元素乘；第二音频特征提取模块通过卷积和激活函数ReLu对F^Matt进行特征提取，得到音频数据的第二初始特征F^α2。此时，第二初始特征F^α2的形状仍与面部关键点特征F^v的形状相同。

跨模态注意力模块基于面部关键点特征和第二初始特征获取音频数据的跨模态注意力，从而能够利用已经得到的精确的面部关键点特征来指导音频特征更关注与之关联性强的区域。基于面部关键点特征和第二初始特征获取音频数据的跨模态注意力的方法可以包括：

将面部关键点特征和第二初始特征在时间维度上连接和对齐，保持时间上的同步，在预测整个待测视频数据的真伪之前，将两个流融合在一起，在面部关键点特征和第二初始特征之间加入一个跨模态注意力模块(Cross-Modal Attention Module，CMAM)来捕捉面部关键点特征和第二初始特征的相互依赖关系，并建模跨模态的相互作用，则音频数据的跨模态注意力CMAtt(a)可表示为：

其中，F^v是面部关键点特征，F^α2是第二初始特征，d是面部关键点特征和第二初始特征的特征维数，T为转置运算。

第三音频特征提取模块根据音频数据的第二初始特征和跨模态注意力获取音频数据的音频特征的方法可以为：

将音频数据的跨模态注意力CMAtt(a)作为残差添加到第二初始特征F^α2，得到音频数据的音频特征F^a；音频特征F^a可以表示为：

F^a＝F^a2+CMAtt(a)。

基于上述任一实施例，所述注意力图提取模块是利用真、假声谱图的差异作为监督信号进行训练得到的。

具体地，注意力机制被广泛地应用于自然语言处理和计算机视觉，很多伪造检测模型引入注意力模块以增强对伪造区域的感知能力，增强分类器的解释能力。而本发明实施例为了能够更好地引导注意力图提取模块关注并提取到音频伪影，在回归网络R训练过程中，为样本数据集中的每个样本选取两个对应音频的梅尔声谱图，一个是真的梅尔声谱图MS_real，一个是假的梅尔声谱图MS_fake，将两个梅尔声谱图的差的绝对值作为注意力图M_att的弱监督，则回归网络R训练过程中的注意力损失L_att可以表示为：

L_att＝||M_att-|MS_real-MS_fake|||。

训练过程中通过不断调整回归网络R的网络结构和参数θ_att来学习出注意力图M_att。

因此，利用真、假声谱图的差异作为监督信号对注意力图提取模块进行训练，能够有效提取待测视频数据的伪影，基于提取到的伪影和帧间一致性，能够更为准确地对待测视频数据进行真伪检测。

基于上述任一实施例，所述跨模态注意力模块基于跨模态对比损失函数训练得到；其中，所述跨模态对比损失函数包括视听对同步损失和中心点损失；所述视听对同步损失表示单个所述视听对的人脸图像和音频数据之间的同步度；所述中心点损失表示不同的所述视听对之间在真、假分类层面上的区别度。

具体地，通常视频中音频与人脸图像之间具有高度同步的一致性，为了迫使第三音频特征提取模块关注到与面部关键点特征F^v相对应的音频特征F^a，以表明视听对的同步程度和对应关系，优化视听特征的耦合，学习和发现面部关键点特征F^v与音频特征F^a的复杂关联，以及检测视听之间的一致性，本发明实施例在跨模态注意力模块训练过程中加入了跨模态对比损失函数。跨模态对比损失函数主要由以下两个损失函数组成：视听对同步损失(Audio-visual synchrony)，表示单个视听对的人脸图像和音频数据之间的同步度，通过减少同步视听对的距离和增加异步视听对的距离来更新跨模态注意力模块的参数，同步视听对对应高分，而异步视听对对应低分；通过对跨模态注意力模块训练，以扩大正样本的相似度，缩小负样本的相似度。视听对同步损失L_avs可以表示为：

式中，M为预定义的参数；s为同步标签，s＝1表示视听对同步， s＝0表示视听对不同步；E_i为样本数据集中第i个视听对的欧式距离，其与相似度指标呈负相关,E_i＝||F^v(i)-F^a(i)||₂；F^v(i)、F^a(i)分别为样本数据集中第i个视听对的面部关键点特征和音频特征；N为样本数据集中视听对的个数。

中心点(central point)损失，表示各个视听对之间在真、假分类层面上的区别度，引入了一个与单个视听对相对应的中心点C的概念，具体过程是，将输入的视听对X_i∈U，用一个神经网络g嵌入到d维向量中，表示为g(X_i)，使真的视听对靠近该中心点，假的视听对远离该中心点。因此，中心点损失L_cp可以表示为：

式中，U_r和U_f分别为样本数据集U中真视听对的集合和假视听对的集合；E_r为真视听对的集合中各真视听对与中心点C的平均欧式距离；E_f为假视听对的集合中各假视听对与中心点C的平均欧式距离；X_i1是U_r中第i1个真视听对，X_i2是U_f中第i2个假视听对；d是面部关键点特征和音频特征的特征维数；因为欧氏距离与特征维数d的算术平方根有关，为了便于设置超参数e，将中心点损失的边界设计为

跨模态对比损失函数L_cmc表示为视听对同步损失L_avs和中心点损失L_cp之和，即，L_cmc＝L_avs+L_cp。

由此可见，本发明实施例通过面部关键点特征F^v与音频特征F^a的对应关系能够使检测网络的检测能力得到极大提高，因此，利用视听一致性，进一步提高了伪造检测的准确性。同时，现有技术中并没有注意到音频数据和人脸图像的各自一致性和相互一致性，且很难选取代表各自模态的特征，而本发明实施例结合音频数据和人脸图像的各自一致性和相互一致性，以及音频数据的跨模态注意力，能够有效提高真伪检测结果的准确性。

基于上述任一实施例，所述人脸图像的帧内一致性损失的计算包括：

具体地，基于面部关键点特征确定样本数据集中每个人脸图像的中心线的方法可以根据实际需求进行设定，例如，可以采用计算帧内对称的面部关键点的平均值的方法，对于每一个视频帧，将m＝68个面部关键点按照面部左右划分为两组，则每组有m/2＝34个面部关键点，将左右对称的关键点求平均，则34对关键点所求得的平均点大致在一条线上，该线即中心线，中心线对人脸图像具有特异性。

第i个视频帧的人脸图像的中心线与第i+1个视频帧的人脸图像的中心线的一致性可以表示为

样本数据集中各视频帧的人脸图像的中心线的一致性即组成了样本数据集中人脸图像的帧内特征值

即

样本数据集中人脸图像的帧内特征值的均值

表示为：

则

与

的二元交叉熵表示为：

式中，

为人脸图像的帧内一致性损失；BCE()为二元交叉熵。

基于上述任一实施例，所述音频数据的内部一致性损失的计算包括：

具体地，由于样本数据集中音频特征F^a的形状与面部关键点特征F^v的形状相同，均为[N,m]，则对于样本数据集中的每一视频帧的音频数据的音频特征划分为至少两组音频子特征，例如，可以划分为4组，每组17个音频特征；对于每一组音频子特征，分别求取其与其他各组音频子特征的特征差值或特征相似性，以得到样本数据集的音频数据的内部一致性特征；例如，对于任意两组音频子特征G_p和G_q，分别提取对应的音频特征

和

并计算

和

的点积相似度，以估计音频子特征G_p和G_q的一致性得分(Consistency score)，G_p和G_q的一致性得分

可以表示为：

式中，Sigmoid()表示Sigmoid函数，b为1×1卷积的嵌入函数；一致性得分的范围是[0,1]；重复该步骤，每个视频帧得到h组一致性得分cs，各一致性得分组成了样本数据集中音频数据的内部一致性特征

是一个能够体现音频数据内部一致性的三维音频特征，表示为：

其中，

的形状为[N,m,h]。

根据

的形状对样本数据集中的各音频数据的音频特征进行上采样，得到音频采样特征

与

的形状相同。

音频数据的内部一致性损失

表示为：

基于上述任一实施例，所述基于所述面部关键点特征提取所述人脸图像的帧间一致性特征，包括：

具体地，计算第j个视频帧与第j+1个视频帧的面部关键点特征的帧间差值，以作为第j个视频帧的人脸图像的帧间特征值

表示为：

则待测视频数据中人脸图像的帧间特征值

表示为：

即，

的形状为[n-1，m]。通过待测视频数据中人脸图像的帧间特征值

能够初步找到面部关键点的时间不一致性。

第一编解码模型可以为Transformer模型，将待测视频数据中人脸图像的帧间特征值

以序列的形式输入至Transformer模型，即可得到人脸图像的帧间一致性特征，人脸图像的帧间一致性特征即表示待测视频数据在图像网络分支的真、假概率得分，从而能够根据人脸图像的帧间一致性特征寻找序列之间的帧间一致性关系。

基于上述任一实施例，所述基于所述音频特征提取所述音频数据的时间一致性特征，包括：

计算相邻所述视频帧的所述音频特征的帧间差值，以作为所述音频数据的帧间特征值；

将所述音频数据的帧间特征值输入至第二编解码模型，以得到所述音频数据的时间一致性特征。

具体地，计算相邻视频帧的音频特征的帧间差值的方式可以与计算相邻视频帧的面部关键点特征的帧间差值的方式相同。

第二编解码模型可以为Transformer模型，将待测视频数据中音频数据的帧间特征值

以序列的形式输入至Transformer模型，即可得到音频数据的时间一致性特征，音频数据的时间一致性特征即表示待测视频数据在音频网络分支的真、假概率得分，从而能够根据音频数据的时间一致性特征寻找序列之间的帧间一致性关系。

基于上述任一实施例，所述预测网络基于交叉熵损失进行监督训练。

具体地，预测网络将图像网络分支中表示真假概率得分的输出和音频网络分支中表示真假概率得分的输出连接在一起，经过预测函数 f()，输出待测视频序列的真假预测结果。

预测网络基于交叉熵损失L_cls进行监督训练，L_cls表示为：

式中，Tr₁和Tr₂分别为第一编解码模型和第二编解码模型；N为样本数据集中视听对的个数；y_i为第i个视听对的标签。

综上，双流网络的总体损失函数L表示为：

L＝αL_att+βL_cmc+γL_sc+L_cls

式中，α、β、γ分别为调节总体损失函数L的权重参数；L_sc为视听对的自身一致性损失，

以下通过一种优选的实施方式对本发明视听伪造检测方法进行详细说明，如图2所示，该方法包括：

数据输入：输入待测视频数据，并将待测视频数据分割为人脸图像和音频数据。

图像网络分支：对人脸图像进行预处理，并通过人脸及关键点检测网络对预处理后的人脸图像进行关键点检测，得到面部初始关键点，将面部初始关键点输入至LRNet进一步进行关键点提取，得到面部关键点特征F^v；基于面部关键点特征F^v计算待测视频数据中人脸图像的帧间特征值

将待测视频数据中人脸图像的帧间特征值

输入至第一编解码模型Transformer，得到人脸图像的帧间一致性特征；其中，在人脸及关键点检测网络和LRNet的训练过程中，还基于面部关键点特征F^v计算样本数据集中人脸图像的帧内特征值

并根据

计算人脸图像的帧内一致性损失

通过

对人脸及关键点检测网络和LRNet进行训练。

音频网络分支：通过Mel Spectrogram提取音频数据的梅尔声谱图MS，将梅尔声谱图输入至第一音频特征提取模块得到音频数据的第一初始特征F^α1；将第一初始特征输入至回归网络R，得到音频数据的注意力图M_att；对第一初始特征F^α1和注意力图的进行乘运算，得到注意力图特征F^Matt；将F^Matt输入至第二特征提取模块得到第二初始特征F^α2；将面部关键点特征F^v和第二初始特征F^α2输入至跨模态注意力模块CMAM，得到音频数据的跨模态注意力CMAtt(a)，将音频数据的跨模态注意力CMAtt(a)与第二初始特征F^α2相加，得到音频数据的音频特征F^a；基于音频特征F^a计算待测视频数据中音频数据的帧间特征值

将待测视频数据中音频数据的帧间特征值

输入至第二编解码模型Transformer，得到音频数据的帧间一致性特征；其中，在音频网络分支训练过程中，还基于音频特征F^a计算样本数据集中音频数据的内部一致性特征

并根据

计算音频数据的内部一致性损失

通过

对音频特征F^a的整个获取网络进行训练；另外，还通过注意力损失L_att对回归网络R进行训练，注意力损失L_att通过注意力图预测结果和真的梅尔声谱图MS_real与假的梅尔声谱图MS_fake的差的绝对值计算得到；跨模态注意力模块基于跨模态对比损失函数L_cmc进行训练。

伪造检测：将人脸图像的帧间一致性特征和音频数据的帧间一致性特征输入至预测网络的预测函数进行相加运算，得到待测视频数据的真伪检测结果；其中，预测网络基于交叉熵损失L_cls进行训练。

下面对本发明提供的视听伪造检测装置进行描述，下文描述的视听伪造检测装置与上文描述的视听伪造检测方法可相互对应参照。如图3所示，该装置包括：

数据获取模块310，用于获取待测视频数据；其中，所述待测视频数据包括至少两个视频帧，每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对；

真伪检测模块320，用于将各所述视听对输入至训练好的双流网络，得到所述待测视频数据的伪造检测结果；

所述声谱图提取模块用于提取所述音频数据的声谱图；

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行视听伪造检测方法，该方法包括：获取待测视频数据；其中，所述待测视频数据包括至少两个视频帧，每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对；

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的视听伪造检测方法，该方法包括：获取待测视频数据；其中，所述待测视频数据包括至少两个视频帧，每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的视听伪造检测方法，该方法包括：获取待测视频数据；其中，所述待测视频数据包括至少两个视频帧，每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视听伪造检测方法，其特征在于，包括：

所述图像网络分支包括依次连接的第一特征提取网络和帧间一致性提取模块，所述第一特征提取网络用于提取所述人脸图像的面部关键点特征，所述帧间一致性提取模块用于基于所述面部关键点特征提取所述人脸图像的帧间一致性特征；所述帧间一致性特征为相邻两帧所述视频帧的所述面部关键点特征的一致性；

所述音频网络分支包括依次连接的第二特征提取网络和时间一致性提取模块，所述第二特征提取网络用于提取所述音频数据的音频特征，所述时间一致性提取模块用于基于所述音频特征提取所述音频数据的时间一致性特征；所述时间一致性特征为相邻两帧所述视频帧的所述音频特征的一致性；所述第二特征提取网络包括依次连接的声谱图提取模块、第一音频特征提取模块、注意力图提取模块、第二音频特征提取模块、跨模态注意力模块和第三音频特征提取模块；所述声谱图提取模块用于提取所述音频数据的声谱图；所述第一音频特征提取模块用于对所述声谱图进行特征提取，得到所述音频数据的第一初始特征；所述注意力图提取模块用于根据所述第一初始特征提取所述音频数据的注意力图；所述第二音频特征提取模块用于对所述注意力图进行特征提取，得到所述音频数据的第二初始特征；所述跨模态注意力模块用于基于所述面部关键点特征和所述第二初始特征获取所述音频数据的跨模态注意力，所述跨模态注意力CMAtt(a)表示为：

其中，F^v是所述面部关键点特征，F^α2是所述第二初始特征，d是所述面部关键点特征和所述第二初始特征的特征维数，T为转置运算；所述第三音频特征提取模块用于根据所述音频数据的第二初始特征和所述跨模态注意力获取所述音频数据的音频特征；

2.根据权利要求1所述的一种视听伪造检测方法，其特征在于，所述第一特征提取网络和所述第二特征提取网络分别基于样本数据集中人脸图像的帧内一致性损失和音频数据的内部一致性损失进行训练。

3.根据权利要求1所述的一种视听伪造检测方法，其特征在于，所述第一特征提取网络包括依次连接的人脸及关键点检测网络和关键点校正网络；其中，

4.根据权利要求1所述的一种视听伪造检测方法，其特征在于，所述注意力图提取模块是利用真、假声谱图的差异作为监督信号进行训练得到的。

5.根据权利要求1所述的一种视听伪造检测方法，其特征在于，所述跨模态注意力模块基于跨模态对比损失函数训练得到；其中，所述跨模态对比损失函数包括视听对同步损失和中心点损失；所述视听对同步损失表示单个所述视听对的人脸图像和音频数据之间的同步度；所述中心点损失表示不同的所述视听对之间在真、假分类层面上的区别度。

6.根据权利要求2所述的一种视听伪造检测方法，其特征在于，所述人脸图像的帧内一致性损失的计算包括：

7.根据权利要求2所述的一种视听伪造检测方法，其特征在于，所述音频数据的内部一致性损失的计算包括：

8.根据权利要求1所述的一种视听伪造检测方法，其特征在于，所述基于所述面部关键点特征提取所述人脸图像的帧间一致性特征，包括：

9.一种视听伪造检测装置，其特征在于，包括：