CN112651319B

CN112651319B - 一种视频检测方法、装置、电子设备及存储介质

Info

Publication number: CN112651319B
Application number: CN202011518646.0A
Authority: CN
Inventors: 胡诗卉; 何山; 胡金水; 殷兵; 刘聪
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2023-12-05
Anticipated expiration: 2040-12-21
Also published as: CN112651319A

Abstract

本申请公开了一种视频检测方法、装置、电子设备及存储介质，所述方法包括：获取待检测的视频；提取音频特征数据；提取视频特征数据；确定音频特征数据和视频特征数据之间的特征距离；判断视频的真伪，基于音频特征数据、视频特征数据和特征距离来判断视频的真伪。本方法中，使用音频特征数据对视频特征数据中的嘴部区域执行注意力机制，强化了视频的嘴部区域的特征，同时，由于考虑了音频、视频、音视频多模态特征距离三个维度的虚假视频判别，从而能够有效的提升算法泛化性和鲁棒性，使得该方法具有泛化性好、可靠性高等优点。

Description

一种视频检测方法、装置、电子设备及存储介质

技术领域

本申请涉及视频检测技术领域，尤其涉及一种虚假视频检测方法、装置、电子设备和存储介质。

背景技术

随着近两年Deepfake技术在国外Reddit论坛上的迅速爆火，Deepfake技术所带来的道德伦理问题也越来越被社会广泛关注。Deepfake是指利用机器学习技术，将视频中的人脸换成给定人脸，伪造人脸的逼真程度，人眼几乎无法分辨，从而达到伪造视频的作用。这项技术原本用于影视制作等行业帮助人们方便地编辑和生成视频内容。Deepfake技术被广泛关注的原因在于，它容易被别有用心者用来伪造个人或公众任务的视频，制造虚假新闻、恶意视频、色情传播等，轻则侵犯个人肖像权和隐私权，重则严重损害新闻媒体的公信度，破坏社会治安和国家安全，对社会新闻传播产生重大不利影响。

基于此，虚假视频检测技术也引起了学术界和工业界的广泛关注，越来越国内外学者和研究机构开始展开虚假视频检测技术的研究。

目前的已有的虚假视频检测技术，大多基于深度神经网络，对单帧人脸图片或多帧人脸视频进行真伪二分类，这类方法通常泛化性能较差，在异源数据集上的效果下降明显。

由于目前的虚假视频检测技术往往只考虑图像或视频帧，没有考虑音频信息以及音视频的一致性，因此，现有视频检测方法至少存在泛化性能较差、可靠性较低的问题。

发明内容

有鉴于此，本申请提供了一种视频检测方法、装置、电子设备和存储介质，用以至少解决现有视频检测方法所存在的泛化性能较差、可靠性较低的问题。

第一方面，本申请提供了一种视频检测方法，所述方法包括：

获取待检测的视频，所述视频包括音频数据和视频数据；

提取所述音频数据的音频特征数据，并提取所述视频数据的视频特征数据；

转换所述音频特征数据和所述视频特征数据到同一模态，并计算转换到同一模态的所述音频特征数据和所述视频特征数据之间的特征距离；

基于所述音频特征数据、所述视频特征数据以及所述特征距离来判断所述视频的真伪。

可选地，所述提取所述视频数据的视频特征数据包括：

提取所述视频数据的初步视频特征数据；

执行空间注意力操作，使用所述音频特征数据对所述初步视频特征数据中的发音关联区域执行空间注意力操作以得到所述视频特征数据。

可选地，所述空间注意力操作包括：

计算所述音频特征数据和所述初步视频特征数据之间的相关系数，以得到权重矩阵；

利用所述权重矩阵对所述初步视频特征数据进行加权。

可选地，所述发音关联区域包括所述视频特征数据中的人脸的嘴部区域、颏部区域以及颊部区域中的至少一个区域。

可选地，基于所述音频特征数据、所述视频特征数据以及所述特征距离来判断所述视频的真伪包括：

确定视频数据的真伪，基于所述初步视频特征数据或所述视频特征数据来确定所述视频数据的真伪。

确定所述特征距离是否小于预定阈值。

确定音频数据的真伪，基于所述音频特征数据来确定所述音频数据的真伪，当所述特征距离小于所述预定阈值且所述音频数据的真伪和所述视频数据的真伪的确定结果均为真时，判断所述视频为真视频。

可选地，所述确定视频数据的真伪包括：

对所述初步视频特征数据或所述视频特征数据在空间维度上进行全局池化操作；

变换已进行全局池化操作的初步视频特征数据或视频特征数据的维度至二维；

对变换维度后的初步视频特征数据或视频特征数据进行分类。

可选地，所述确定音频数据的真伪包括：

对所述音频特征数据在时间维度上进行全局池化操作；

变换已进行全局池化操作的音频特征数据的维度至二维；

对变换维度后的音频特征数据进行分类。

可选地，所述提取所述视频数据的初步视频特征数据包括：

利用3D卷积提取所述视频数据的所述初步视频特征数据。

可选地，所述提取所述音频数据的音频特征数据包括：

提取所述音频数据的MFCC特征数据；

提取所述MFCC特征数据的LSTM隐含层特征数据；

利用残差网络对所述LSTM隐含层特征数据进行处理。

可选地，所述转换所述音频特征数据和所述视频特征数据到同一模态包括：

变换维度，变换所述音频特征数据和所述视频特征数据的维度至同一维度；

执行最大池化操作，分别对变换至同一维度的音频特征数据和视频特征数据在时间维度上执行最大池化操作，以使音频特征数据和视频特征数据在时间维度和空间维度上对齐，从而使得能够计算所述特征距离。

第二方面，本申请提供了一种视频检测装置，所述装置包括：

获取单元，用于获取待检测的视频，所述视频包括音频数据和视频数据；

提取单元，用于提取所述音频数据的音频特征数据，并提取所述视频数据的视频特征数据；

确定单元，用于转换所述音频特征数据和所述视频特征数据到同一模态，并计算转换到同一模态的所述音频特征数据和所述视频特征数据之间的特征距离；

判断单元，用于基于所述音频特征数据、所述视频特征数据以及所述特征距离来判断所述视频的真伪。

第三方面，本申请提供了一种电子设备，包括存储器、处理器及存储在存储器中并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如第一方面所公开的视频检测方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其特征在于，当所述程序被处理器执行时实现如第一方面所公开的视频检测方法的步骤。

本申请提供了一种基于音视频多模态的视频检测方法。首先提取音频特征数据和视频特征数据，使用音频特征对视频特征数据中的发音关联区域(例如嘴部区域)进行注意力机制(attention)，以强化视频嘴部区域的特征，然后，进行视频数据和音频数据的真伪判别。接下来，再将音频特征数据和视频特征数据转换到同一模态，最后计算音频特征数据和视频特征数据之间的特征距离，最后通过视频数据和音频数据的真伪判别结果以及特征距离的数值来判别视频的真伪。

综上，本申请由于考虑了音频、视频、音视频多模态特征距离三个维度来对视频进行判别，从而有效的提升了算法泛化性和鲁棒性，进而使得本申请的对视频的检测方法具有泛化性好、可靠性高等优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的视频检测方法的一个实施例的流程示意图；

图2A为本申请提供的提取视频特征数据的方法的一个实施例的流程图；

图2B为本申请提供的提取视频特征数据的方法的一个实施例的框图；

图3为本申请提供的执行空间注意力操作的方法的一个实施例的流程图；

图4为本申请提供的确定视频的真伪的方法的一个实施例的流程图；

图5为本申请提供的确定视频数据的真伪的方法的一个实施例的流程图；

图6为本申请提供的确定音频数据的真伪的方法的一个实施例的流程图；

图7A为本申请提供的提取音频特征数据的方法的一个实施例的流程图；

图7B为本申请提供的提取音频特征数据的方法的一个实施例的框图；

图8A为本申请提供的转换所述音频特征数据和所述视频特征数据到同一模态的方法的一个实施例的流程图；

图8B为本申请提供的确定特征距离的方法的一个实施例的框图。

图9为本申请提供的视频检测装置的一个实施例的示意图；以及

图10为本申请提供的电子设备的一个实施例的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着近两年Deepfake技术在国外Reddit论坛上的迅速爆火，Deepfake技术所带来的道德伦理问题也越来越被社会广泛关注。Deepfake是指利用机器学习技术，将视频中的人脸换成给定人脸，伪造人脸的逼真程度，人眼几乎无法分辨，从而达到伪造视频的作用。Deepfake方法使用生成对抗网络(GAN)技术，将目标人脸图片与待修改视频融合并生成新的逼真视频。这项技术原本用于影视制作等行业帮助人们方便地编辑和生成视频内容。Deepfake技术被广泛关注的原因在于，它容易被别有用心者用来伪造个人或公众任务的视频，制造虚假新闻、恶意视频、色情传播等，轻则侵犯个人肖像权和隐私权，重则严重损害新闻媒体的公信度，破坏社会治安和国家安全，对社会新闻传播产生重大不利影响。

现有的虚假视频检测技术仅仅是对视频的图像帧或视频的关键帧进行检测，以确定视频的真伪。这类方法通常泛化性能较差，在异源数据集上的效果下降明显。这是因为，1)，Deepfake使用的GAN技术本身就包括生成器和判别器两部分，生成器生成虚假视频，判别器判别生成视频的真假概率，二者通过对抗的策略进行训练。Deepfake在训练时就考虑了在图像视频层面进行真假判别，因此，简单地在图像特征进行判别通常效果不佳；2)，视频分为图像和音频两方面，要达到伪造的目的，通常音频也需要伪造，而目前的方法没有考虑到音频的真假判别；3)，伪造视频通常会有一种音视频不致性的违和感，表现为视频的唇形动作、头部姿态、表情等和音频不符，因此，音视频的一致性也是判定视频真假的一个重要维度。

现有的虚假视频检测技术在对给定的视频进行检测真伪时，至少没有考虑音频特征数据以及音视频多模态特征距离，这就造成了虚假视频检测技术中的算法的泛化性和鲁棒性较差，从而不能准确、有效的对虚假视频进行检测，且不能得到较好的检测结果。

针对以上问题，本方法提出一种视频检测(判断)方法，该方法通过音频、视频、音视频多模态距离三个维度对虚假视频进行判断。其中，在对视频进行真伪判断时，考虑了视频中的音频信息和视频信息，基于音频的真伪判断、视频的真伪判断和音视频的匹配程度(也即，音视频一致性或吻合程度)来对视频的真伪进行判断。通过采用本申请的视频检测方法来对视频的真伪进行判别，提升了算法泛化性和鲁棒性，从而更准确、有效的对视频的真伪进行判断，即，更准确、有效的对虚假视频进行检测，本方法具有泛化性能好、可靠性高等优点。

以下，将参考附图详细描述本申请的优选实施例。

图1是本申请提供的视频检测方法的一个实施例的流程示意图。如图1所示，该方法包括：

步骤110，获取待检测的视频，所述视频包括音频数据和视频数据。

经有线或无线方式来获取待检测的视频，所述视频包括音频数据和视频数据，即待检测的视频为音视频数据。所述音视频数据可以是RGB彩色音视频数据或包括深度信息的RGBD音视频数据。在获取待检测视频之前，该视频可以通过压缩包的形式来发送和传输，即，按照预定格式对该视频进行编码和压缩为视频数据包。获取待检测的视频过程中，可以包括对视频进行解压缩的步骤。

步骤120，提取所述音频数据的音频特征数据，并提取所述视频数据的视频特征数据。

步骤120包括：步骤120a，提取所述音频数据的音频特征数据；步骤120b，提取所述视频数据的视频特征数据。

在获取待检测的视频后，首先将视频中的音频数据和视频数据进行分离。然后，在分离后的音频数据和视频数据中分别提取音频特征数据和视频特征数据。

在一个示例中，提取所述视频数据的视频特征数据的步骤包括：初步提取所述视频数据的视频特征数据，以得到初步视频特征数据，或初步提取所述视频数据的视频特征数据并对所述初步视频特征数据执行预定处理操作以得到最终的视频特征数据。

在一个示例中，视频特征数据是在初步视频特征数据的基础上得到的，视频特征数据和初步视频特征数据的不同仅仅在于视频特征数据被执行了预定处理操作。

步骤130，转换所述音频特征数据和所述视频特征数据到同一模态，并计算转换到同一模态的所述音频特征数据和所述视频特征数据之间的特征距离。

将不同模态的音频特征数据和视频特征数据转换到同一模态，然后计算音视频多模态距离，即，计算音频特征数据和视频特征数据之间的特征距离。特征距离可以用来表示音频特征数据和视频特征数据之间的吻合程度。当特征距离越大时，音频特征数据和视频特征数据之间的吻合程度越差；当特征距离越小时，音频特征数据和视频特征数据之间的吻合程度越好。虚假视频往往存在音视频不协调的问题，表现为唇形动作和音频不匹配，头部姿态动作和说话的语音、语调不匹配等。因此，一般假视频的特征距离较大，而真视频的特征距离较小。在一个示例中，当音频特征数据和视频特征数据之间的特征距离大于预定阈值时，确定视频为假视频。当音频特征数据和视频特征数据之间的特征距离小于预定阈值时，视频的真伪还不能确定，需要结合音频数据真伪的确定结果以及视频数据真伪的确定结果来最终确定视频为真视频，这里的真视频是指音频数据、视频数据都为真，且音频特征数据和视频特征数据之间的吻合程度达到一定阈值的视频。

在计算特征距离前，需要对音视频多模态距离判别模型进行训练，然后采用经训练的音视频多模态距离判别模型对音频特征数据和视频特征数据之间的特征距离进行确定。其中，训练模型和优化模型所采用的Loss函数为如下公式：

L_fake＝max(Th₁-d_fake,0)

L_real＝max(d_real-Th₂,0)

模型训练和优化的目标是：假视频的音视频特征距离大于阈值Th₁，真视频的音视频特征距离小于阈值Th₂。其中，Th₁大于Th₂，且Th₁越大于Th₂越好，即，Th₁与Th₂的差值越大越好。这样的目标，使得模型输出的针对假视频的特征距离较大，而针对真视频的特征距离较小。这样能够方便且准确的依据音视频特征距离来对真假视频进行区分。

具体地，在模型训练好之后，从视频的音频部分和视频部分分别提取音频特征数据和视频特征数据，经过各自的网络支路分别判别音频数据真伪和视频数据真伪。然后音频特征数据和视频特征数据分别经过音频特征变换支路和视频特征变换支路后计算特征距离。

步骤140，基于所述音频特征数据、所述视频特征数据以及所述特征距离来判断所述视频的真伪。

在该实施例中，在判断视频的真伪时，考虑了音频特征数据、视频特征数据和特征距离这3个要素，这样能够有效、准确的对视频的真伪进行判断，提升了算法泛化性和鲁棒性，使得本方法具有泛化性好、可靠性高等优点。

基于上述实施例，图2A为本申请提供的提取视频特征数据的方法的一个实施例的流程图。图2B为本申请提供的提取视频特征数据的方法的一个实施例的框图。如图2A和图2B所示，步骤120b具体包括：

步骤121b，提取所述视频数据的初步视频特征数据。

在一个示例中，使用3D卷积提取t时刻前后n帧的视频帧的特征数据。当然，本领域技术人员可知晓，提取初步视频特征数据的方法不限于上述的3D卷积这种方式，还可以为其它的提取方式。使用3D卷积提取视频帧的特征数据后，视频帧的特征数据进入3个残差网络模块，残差网络模块对特征数据进行处理后，得到初步视频特征数据。

步骤122b，执行空间注意力操作，使用所述音频特征数据对所述初步视频特征数据中的发音关联区域执行空间注意力操作以得到所述视频特征数据。

由于视频中人脸唇形动作和音频是强相关的，考虑使用音频特征对嘴部的唇形部分执行空间注意力操作(spatial attention)，即，在执行空间注意力操作时，利用音频数据来关联视频中的发音关联区域，以此来获得针对发音关联区域权重矩阵(音频注意力图)，并将该权重矩阵和初步视频特征数据进行加权，以此来强化音视频多模态之间的特征联系。

具体地，如图2B所示，所述初步视频特征数据和音频特征数据进入注意力模块，以计算权重矩阵，得到的权重矩阵以及初步视频特征数据进入Fusion模块，Fusion模块将权重矩阵和视频特征数据融合在一起，即，Fusion模块将权重矩阵和视频特征数据进行加权。

在该实施例中，一方面，使用3D卷积提取t时刻前后n帧的视频帧的特征数据，得到初步视频特征数据。通过提取了视频帧间的连续信息，使得能够更准确的确定视频数据的真伪以及确定音频特征数据和视频特征数据之间的吻合程度。另一方面，通过对使用音频特征数据对所提取的初步视频特征数据的发音关联区域执行空间注意力操作，使得网络能够主要关注到视频特征中与语音最相关的部分，从而更加准确的对视频数据的真伪进行判断以及对音频特征数据和视频特征数据之间的吻合程度进行判断。

基于上述任一实施例，图3为本申请提供的执行空间注意力操作的方法的一个实施例的流程图。如图3所示，步骤122b包括：

步骤1221b，计算所述音频特征数据和所述初步视频特征数据之间的相关系数，以得到权重矩阵。具体操作是：使用当前视频特征数据和音频特征数据来计算二者之间的相关系数，再对该相关系数执行sigmoid操作，以得到权重矩阵。在权重矩阵中，视频特征数据中的与音频特征数据的相似度大于一定阈值的区域所对应的数值较大，反之，较小，即，该权重矩阵中的与发音关联区域对应的部分的数值较大，与其它区域的对应的部分的数值较小。

步骤1222b，利用所述权重矩阵对所述初步视频特征数据进行加权。

将权重矩阵和初步视频特征数据进行加权以得到最后的视频特征数据。加权后的视频特征数据作为最终的视频特征数据，并送入之后一系列模块进行使用。

在该实施例中，通过强化音视频多模态之间的特征联系，使得视频特征数据和音频特征数据结合在一起，这样使得对视频的真伪的判断更加准确。避免了现有的单纯将音频或视频作为判断视频真伪的标准而导致的不具有泛化性、判断结果不准确等缺点。

基于上述任一实施例，发音关联区域包括所述视频中的人脸的嘴部区域、颏部区域以及颊部区域中的至少一个，具体可以为人脸或其它生物体的脸部的嘴部、下巴和/或颧肌的区域。因为人在发音或说话时人脸的嘴部区域、颏部区域以及颊部区域会出现特征的表情、口型等，即，特定的话语基本上对应特定的表情和口型。

在该实施例中，通过特定的话语和特定的表情、口型之间的这种关联来将音频特征数据和初步视频特征数据结合在一起，从而能够强化音视频多模态之间的特征联系，使得更加准确的对视频的真伪进行判断以及对音频特征数据和视频特征数据之间的吻合程度进行判断。

基于上述任一实施例，图4为本申请提供的判断视频真伪的方法的一个实施例的框图。如图4所示，步骤140具体包括：

步骤141，确定视频数据的真伪，基于所述初步视频特征数据或所述视频特征数据来确定所述视频数据的真伪。具体地，在一个示例中，通过采用确定视频数据真伪层对所述初步视频特征数据真伪进行判断，并将对初步视频特征数据的真伪的判断的结果作为视频数据的真伪的确定结果。在另一个示例中，通过采用确定视频数据真伪层对所述视频特征数据真伪进行判断，并将对视频特征数据的真伪的判断的结果作为视频数据的真伪的确定结果。即，依据视频特征数据对视频数据的真伪进行确定

基于上述任一实施例，如图4所示，步骤140还包括：

步骤142，确定所述特征距离是否小于预定阈值。

音频特征数据和视频特征数据经过各自的网络支路分别判别音频数据真假和视频数据真假。然后音频特征数据和视频特征数据分别经过音频特征变换支路和视频特征变换支路后计算特征距离。在一个示例中，确定音频特征数据和初步视频特征数据之间的特征距离是否小于预定阈值Th₂。在一个示例中，确定音频特征数据和视频特征数据之间的特征距离是否小于预定阈值Th₂。当然，这里的阈值的具体数值是可以根据具体需要而进行调整的。当然，本领域技术人员可知晓，步骤142也可以为：确定所述特征距离是否大于预定阈值或比较特征距离和预定阈值的大小等，不限于上述的确定所述特征距离是否小于预定阈值。

基于上述任一实施例，如图4所示，步骤140还包括：

步骤143，确定音频数据的真伪，基于所述音频特征数据来确定所述音频数据的真伪。

当所述特征距离小于所述预定阈值且所述音频数据的真伪和所述视频数据的真伪的确定结果均为真时，判断所述视频为真视频。具体地，通过采用确定音频数据真伪层对所述音频特征数据的真伪进行判断，并将对所述音频特征数据的真伪的判断的结果作为音频数据的真伪的确定结果。即，依据音频特征数据对音频数据的真伪进行确定。

综合上述判断视频真伪的3个实施例，在一个示例中，依据音频特征数据对音频数据的真伪进行确定。依据初步视频特征数据对视频数据的真伪进行确定。对音频特征数据和初步视频特征数据之间的特征距离是否小于预定阈值Th₂进行确定，当上述2个确定的结果均为真且特征距离小于阈值Th₂时，判断视频为真视频。在另一个示例中，依据音频特征数据对音频数据的真伪进行确定。依据视频特征数据对视频数据的真伪进行确定。对音频特征数据和初步视频特征数据之间的特征距离是否大于预定阈值Th₁进行确定，当上述2个确定的结果中有一个结果不为真或确定特征距离大于预定阈值Th₁时，判断视频为假视频。在一个示例中，依据音频特征数据对音频数据的真伪进行确定。依据视频特征数据对视频数据的真伪进行确定。确定音频特征数据和视频特征数据之间的特征距离是否小于预定阈值Th₂，当上述2个确定的结果均为真且特征距离小于阈值Th₂时，判断视频为真视频。在另一个示例中，依据音频特征数据对音频数据的真伪进行确定。依据视频特征数据对视频数据的真伪进行确定。确定音频特征数据和视频特征数据之间的特征距离是否大于预定阈值Th₁，当上述2个确定的结果中有一个结果不为真或特征距离大于预定阈值Th₁时，判断视频为假视频。

当然，本领域技术人员可知晓，在模型的输出层除了对视频的真伪进行二分类外，还可以对视频进行更多的分类，比如，将视频分为：真视频、伪音频视频(仅音频造假的视频)、伪视频视频(仅视频造假的视频)或伪音频视频视频(音频和视频均造假的视频)等。由于本申请公开了对音频数据的真伪的判断、视频数据的真伪的判断、以及特征距离的判断，因此，将视频分类为伪音频、伪视频或伪音频视频均属于本申请的判断视频真伪的范畴，即上述的对视频进行多种分类的方式也落入本申请的保护范围之内。

在一个示例中，在确定视频为伪音频视频时，依据音频特征数据对音频数据的真伪进行确定的结果不为真，视频数据的真伪的确定结果为真。在确定视频为伪视频视频时，依据初步视频特征数据或视频特征数据对视频数据的真伪进行确定的结果不为真，音频数据的真伪的确定结果为真。在确定视频为伪音频视频视频时，音频特征数据和初步视频特征数据之间的特征距离大于预定阈值Th₁，或音频特征数据和视频特征数据之间的特征距离大于预定阈值Th₁，且依据初步视频特征数据或依据视频特征数据对视频数据的真伪进行确定的结果不为真，且依据音频特征数据对音频数据的真伪进行确定的结果不为真。

在一个示例中，进行多种分类之前的步骤可以与上述判断视频真伪的步骤中的进行二分类之前的至少部分步骤相同。

在上述3个实施例中，在音频、视频、音视频多模态距离三个维度对虚假视频进行判断，考虑视频中的音频信息，将音频的真假判别和音视频一致性匹配程度加入真假视频的判别中，提升了算法泛化性和鲁棒性，提升了视频检测的准确性。

基于上述任一实施例，图5为本申请提供的确定视频数据的真伪的方法的一个实施例的流程图。如图5所示，步骤141具体包括：

步骤1411，对所述初步视频特征数据或所述视频特征数据在空间维度上进行全局池化操作。

由于在提取视频特征数据时，已经使用3D卷积在视频数据的时间维度上进行了特征提取，因此，在这一步骤，可以仅在初步视频特征数据或视频特征数据的空间维度进行全局池化。具体地，当对初步提取的视频特征数据进行了空间注意力操作，则这一步骤，就是对最终的视频特征数据执行全局池化操作。反之，则对初步提取的视频特征数据执行全局池化操作。

步骤1412，变换已进行全局池化操作的初步视频特征数据或视频特征数据的维度至二维。

已进行全局池化操作的初步视频特征数据或视频特征数据进入全连接层，全连接层将初步视频或视频特征数据的特征维度变换至二维，以便于对视频特征数据进行分类。

步骤1413，对变换维度后的初步视频特征数据或视频特征数据进行分类。

在一个示例中，使用Softmax层对变换维度后的初步视频特征数据或视频特征数据分类，以输出“0”或“1”，其中，1表示视频数据为真视频，0表示视频数据为假视频。

在确定视频数据的真伪之前，先对确定视频数据真伪网络进行训练，具体地，在一个示例中，使用二分类网络和Softmax交叉熵损失函数对确定视频数据真伪网络进行训练。其中，Softmax交叉熵损失函数如以下公式所示：

L_i＝t_ilog(y_i)+(1-t_i)log(1-y_i)

在该实施例中，通过在初步视频特征数据或视频特征数据的空间维度上进行全局池化，无需在时间维度进行全局池化，并进行降维操作，使得能够更加高效、准确的对视频数据的真伪进行确定。

基于上述任一实施例，图6为本申请提供的确定音频数据的真伪的方法的一个实施例的流程图。如图6所示，步骤143具体包括：

步骤1431，对所述音频特征数据在时间维度上进行全局池化操作。

这里的全局池化操作的步骤可以是本领域技术人员常用的全局池化操作步骤，故在此不再赘述。

步骤1432，变换已进行全局池化操作的音频特征数据的维度至二维。

已进行全局池化后音频特征数据进入全连接层，全连接层将音频特征数据的特征维度变换至二维。

步骤1433，对变换维度后的音频特征数据进行分类。

在一个示例中，使用Softmax层进行对变换维度后的音频特征数据分类，以输出“0”或“1”，其中，1表示音频数据为真音频，0表示音频数据为假音频。

在确定音频数据的真伪之前，先对确定音频数据真伪网络进行训练，具体地，在一个示例中，使用二分类网络和Softmax交叉熵损失函数对确定视频数据真伪网络进行训练。其中，Softmax交叉熵损失函数如以下公式所示：

L_i＝t_ilog(y_i)+(1-t_i)log(1-y_i)

在该实施例中，通过在音频特征数据的时间维度上进行全局池化，并进行降维操作，使得能够更加高效、准确的对音频数据的真伪进行确定。

基于上述任一实施例，利用3D卷积提取所述视频数据的所述初步视频特征数据。

在该实施例中，使用3D卷积提取t时刻前后n帧的视频帧的特征数据，得到初步视频特征数据。通过提取了视频帧间的连续信息，使得能够更准确的确定视频数据的真伪。

基于上述任一实施例，图7A为本申请提供的提取音频特征数据的方法的一个实施例的流程图，图7B为本申请提供的提取音频特征数据的方法的一个实施例的框图。如图7A和图7B所示，步骤120a具体包括：

步骤121a，提取所述音频数据的MFCC特征数据。

从原始wav音频提取音频数据的MFCC特征。

步骤122a，提取所述MFCC特征数据的LSTM隐含层特征数据。

由于音频信号存在时序连续性，将音频MFCC特征序列首先经双向LSTM层提取LSTM隐层特征。

步骤123a，利用残差网络对所述LSTM隐含层特征数据进行处理。

所提取的LSTM隐含层特征数据经过3个残差网络模块后得到最终的音频特征数据，所提取的音频特征数据被送入之后一系列模块，并被使用。

在该实施例中，通过长短时记忆网络(LSTM)提取音频特征数据能够准确的提取出音频特征数据，进而能够更准确的确定音频数据的真伪。

基于上述任一实施例，图8A为本申请提供的转换所述音频特征数据和所述视频特征数据到同一模态的方法的一个实施例的流程图。图8B为本申请提供的确定特征距离的方法的一个实施例的框图。如图8A和图8B所示，步骤130具体包括：

步骤131，变换维度，变换所述音频特征数据和所述视频特征数据的维度至同一维度。

这里的变换维度的具体操作可以是本领域技术人员常用的手段，故在此不再赘述。

步骤132，执行最大池化操作，分别对音频特征数据和视频特征数据在时间维度上执行最大池化操作，以使音频特征数据和视频特征数据在时间维度和空间维度上对齐，从而使得能够计算所述特征距离。

综上，音频特征数据和视频特征数据分别经过各自的网络支路，从而将不同模态的音频特征数据和视频特征数据转换到同一模态，然后，计算音频特征数据和视频特征数据之间的特征距离，具体的变换到同一模态的方法可参看图8B。具体地，由于音频特征和视频特征的帧率不一致，网络分别在变换至同一维度后的音频特征数据和视频特征数据的时间维度上执行最大值池化操作，使得音频特征和视频特征在空间和时间维度上对齐，使得音频特征数据和视频特征数据处于同一模态。

在该实施例中，通过将音频特征数据和视频特征数据变换到同一维度，使得能够计算处于同一维度的音频特征数据和视频特征数据之间的特征距离(L2)，从而实现了在音视频多模态距离这一维度对视频的真假进行判别，提升了视频真伪判断的准确性。

本申请提供了一种基于音视频多模态的视频检测方法。首先提取音频特征数据和视频特征数据，使用音频特征对视频特征数据中的发音关联区域(例如嘴部区域)进行注意力机制(attention)，以强化视频嘴部区域的特征，然后，进行视频数据和音频数据的真伪判别。接下来，再将音频特征数据和视频特征数据转换到同一模态，最后计算音频特征数据和视频特征数据之间的特征距离，最后通过视频数据和音频数据的真伪判别结果以及特征距离的数值来判别视频的真伪。综上，本申请由于考虑了音频、视频、音视频多模态特征距离三个维度来对视频进行判别，从而有效的提升了算法泛化性和鲁棒性，进而使得本申请的对视频的检测方法具有泛化性好、可靠性高等优点。

图9为本申请提供的视频检测装置的一个实施例的示意图。如图9所示，所述视频检测装置包括：获取单元910，用于获取待检测的视频，所述视频包括音频数据和视频数据；提取单元920，用于提取所述音频数据的音频特征数据，并提取所述视频数据的视频特征数据；确定单元930，用于转换所述音频特征数据和所述视频特征数据到同一模态，并计算转换到同一模态的所述音频特征数据和所述视频特征数据之间的特征距离；判断单元940，用于基于所述音频特征数据、所述视频特征数据以及所述特征距离来判断所述视频的真伪。

所述提取单元包括：提取音频特征数据单元和提取视频特征数据单元。所述提取视频特征数据单元包括：提取初步视频特征数据单元和执行空间注意力操作单元，执行空间注意力操作单元用于使用所述音频特征数据对所述初步视频特征数据中的发音关联区域执行空间注意力操作以得到所述视频特征数据。

所述执行空间注意力操作单元包括：计算相关系数单元，计算所述音频特征数据和所述初步视频特征数据之间的相关系数，以得到权重矩阵；加权单元，用于利用所述权重矩阵对所述初步视频特征数据进行加权。

所述发音关联区域包括所述视频特征数据中的人脸的嘴部区域、颏部区域以及颊部区域中的至少一个区域。

所述判断单元包括：确定视频数据真伪单元，用于基于所述初步视频特征数据或所述视频特征数据来确定所述视频数据的真伪；比较单元，用于将特征距离和预定阈值进行比较，以判断所述特征距离是否小于第一预定阈值或是否大于第二预定阈值；确定音频数据真伪单元，用于基于所述音频特征数据来确定所述音频数据的真伪。

当所述特征距离小于所述第一预定阈值且所述音频数据的真伪和所述视频数据的真伪的确定结果均为真时，判断所述视频为真视频。当所述特征距离大于所述第二预定阈值或所述音频数据的真伪和所述视频数据的真伪的确定结果有一个不为真时，判断所述视频为假视频。

所述确定视频数据真伪单元包括：全局池化单元，用于对所述初步视频特征数据或所述视频特征数据在空间维度上进行全局池化操作；变换维度单元，用于变换已进行全局池化操作的所述初步视频特征数据或所述视频特征数据的维度至二维；分类单元，用于对变换维度后的所述初步视频特征数据或所述视频特征数据进行分类。

所述确定音频数据真伪单元包括：全局池化单元；用于对所述音频特征数据在时间维度上进行全局池化操作；变换维度单元，用于变换已进行全局池化操作的音频特征数据的维度至二维；分类单元，用于对变换维度后的音频特征数据进行分类。

提取初步视频特征数据单元利用3D卷积提取所述视频数据的所述初步视频特征数据。

所述提取音频特征数据单元包括：提取MFCC特征数据单元，用于提取所述音频数据的MFCC特征数据；提取LSTM隐含层特征数据单元，用于提取所述MFCC特征数据的LSTM隐含层特征数据；残差网络处理单元，用于利用残差网络对所述LSTM隐含层特征数据进行处理。

所述确定单元包括转换单元和计算单元，所述转换单元用于转换所述音频特征数据和所述视频特征数据到同一模态，所述转换单元包括：变换维度单元，用于变换所述音频特征数据和所述视频特征数据的维度至同一维度；执行最大池化操作单元，用于分别对所述音频特征数据和所述视频特征数据在时间维度上执行最大池化操作，以使所述音频特征数据和所述视频特征数据在时间维度和空间维度上对齐，从而使得能够计算所述特征距离。

本申请还公开了一种电子设备，包括存储器、处理器及存储在存储器中并可在处理器上运行的计算机程序，处理器执行程序时实现上述视频检测方法的步骤。

图10为本申请提供的电子设备的结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1001、通信接口(Communications Interface)1002、存储器(memory)1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信。处理器1001以调用存储器1003中的逻辑命令，以执行如下方法：获取待检测的视频，所述视频包括音频数据和视频数据；提取特征数据，提取所述音频数据的音频特征数据，并提取所述视频数据的视频特征数据；确定特征距离，转换所述音频特征数据和所述视频特征数据到同一模态，并计算转换到同一模态的所述音频特征数据和所述视频特征数据之间的特征距离；判断视频的真伪，基于所述音频特征数据、所述视频特征数据以及所述特征距离来判断所述视频的真伪。

本申请还公开了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序指令，当程序指令被处理器执行时实现如下方法：获取待检测的视频，所述视频包括音频数据和视频数据；提取特征数据，提取所述音频数据的音频特征数据，并提取所述视频数据的视频特征数据；确定特征距离，转换所述音频特征数据和所述视频特征数据到同一模态，并计算转换到同一模态的所述音频特征数据和所述视频特征数据之间的特征距离；判断视频的真伪，基于所述音频特征数据、所述视频特征数据以及所述特征距离来判断所述视频的真伪。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频检测方法，其特征在于，包括：

获取待检测的视频，所述视频包括音频数据和视频数据；

基于所述音频特征数据、所述视频特征数据以及所述特征距离来判断所述视频的真伪；

所述提取所述视频数据的视频特征数据包括：

提取所述视频数据的初步视频特征数据；

执行空间注意力操作，使用所述音频特征数据关联所述初步视频特征数据中的发音关联区域，并获取所述发音关联区域的权重矩阵，基于所述权重矩阵和所述初步视频特征数据进行加权，得到所述视频特征数据；

2.根据权利要求1所述的视频检测方法，其特征在于，基于所述音频特征数据、所述视频特征数据以及所述特征距离来判断所述视频的真伪包括：

3.根据权利要求1或2所述的视频检测方法，其特征在于，基于所述音频特征数据、所述视频特征数据以及所述特征距离来判断所述视频的真伪包括：

确定所述特征距离是否小于预定阈值。

4.根据权利要求3所述的视频检测方法，其特征在于，基于所述音频特征数据、所述视频特征数据以及所述特征距离来判断所述视频的真伪包括：

5.根据权利要求2所述的视频检测方法，其特征在于，所述确定视频数据的真伪包括：

6.根据权利要求4所述的视频检测方法，其特征在于，所述确定音频数据的真伪包括：

对所述音频特征数据在时间维度上进行全局池化操作；

变换已进行全局池化操作的音频特征数据的维度至二维；

对变换维度后的音频特征数据进行分类。

7.根据权利要求1或2中任一项所述的视频检测方法，其特征在于，所述转换所述音频特征数据和所述视频特征数据到同一模态包括：

8.一种视频检测装置，其特征在于，所述装置包括：

判断单元，用于基于所述音频特征数据、所述视频特征数据以及所述特征距离来判断所述视频的真伪；

所述提取单元具体用于：

提取所述视频数据的初步视频特征数据；

9.一种电子设备，包括存储器、处理器及存储在存储器中并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的视频检测方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其特征在于，当所述程序被处理器执行时实现如权利要求1-7中任一项所述的视频检测方法的步骤。