CN117496394B

CN117496394B - 基于图像和语音多模态融合的伪造视频检测方法及装置

Info

Publication number: CN117496394B
Application number: CN202311337406.4A
Authority: CN
Inventors: 孙旭东; 张震; 石瑾; 刘铭; 郭承禹; 刘晰尧; 仇艺
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Filing date: 2023-10-16
Publication date: 2024-07-02
Anticipated expiration: 2043-10-16

Abstract

本发明提供一种基于图像和语音多模态融合的伪造视频检测方法及装置，该方法涉及视频检测技术领域，包括：将待检测视频进行预处理，得到多个视频片段；待检测视频包括音频，每个视频片段包括音频；针对每个视频片段，分别提取视频片段的视频特征向量和视频片段中的音频的音频特征向量；基于各视频特征向量和各音频特征向量，确定待检测视频对应的总视频特征向量和总音频特征向量；基于各视频特征向量、各音频特征向量、总视频特征向量和总音频特征向量，确定待检测视频的目标检测结果；目标检测结果表示待检测视频为伪造视频或者真实视频，提升了待检测视频的目标检测结果的准确性，进而提升了对待检测视频中深度伪造内容的检测精度。

Description

基于图像和语音多模态融合的伪造视频检测方法及装置

技术领域

本发明涉及视频检测技术领域，尤其涉及一种基于图像和语音多模态融合的伪造视频检测方法及装置。

背景技术

深度伪造技术是一种基于人工智能和机器学习的技术，可以用来生成逼真的虚假影像、视频和语音等对抗现实真相的虚假信息，可以用于模仿、伪造人类行为特征，生成图片、视频和音频等，且视频换脸、换声技术早已为在影视制作等领域广泛运用。深度伪造技术的兴起主要归功于生成式对抗网络(Generative Adversarial Network，GAN)的出现和发展，GAN上搭载着两个神经网络：生成器与识别器，两者在互相博弈学习中产生大规模和高精确度的输出。

目前，常用的深度伪造辨别方式包括基于传统的数字取证技术和基于深度学习模型的检测技术；其中，基于传统的数字取证技术，对于音频分量而言，音频信号特征检测主要是通过对声音信号进行分析，如声音的频率、波形、相位、频谱等特征进行分析；对于视频和图像分量而言，可利用包括利用图像和视频元数据、色彩信息、像素分布等特征，检测图像是否有痕迹被复制、剪切、粘贴、编辑等操作，或者是否存在像素分布异常、重复出现的情况等。基于深度学习模型的检测技术，通过使用训练的检测模型对深度伪造内容进行自动检测。

然而，常用的深度伪造辨别方式使用的数据来源单一，导致对深度伪造内容的检测精度低。

发明内容

本发明提供一种基于图像和语音多模态融合的伪造视频检测方法及装置，用以解决现有技术中对深度伪造内容的检测精度低的问题。

本发明提供一种基于图像和语音多模态融合的伪造视频检测方法，包括：

将待检测视频进行预处理，得到多个视频片段；所述待检测视频包括音频，每个所述视频片段包括所述音频；

针对每个所述视频片段，分别提取所述视频片段的视频特征向量和所述视频片段中的所述音频的音频特征向量；

基于各所述视频特征向量和各所述音频特征向量，确定所述待检测视频对应的总视频特征向量和总音频特征向量；

基于各所述视频特征向量、各所述音频特征向量、所述总视频特征向量和所述总音频特征向量，确定所述待检测视频的目标检测结果；所述目标检测结果表示所述待检测视频为伪造视频或者真实视频。

根据本发明提供的一种基于图像和语音多模态融合的伪造视频检测方法，所述基于各所述视频特征向量、各所述音频特征向量、所述总视频特征向量和所述总音频特征向量，确定所述待检测视频的目标检测结果，包括：

基于所述总视频特征向量和所述总音频特征向量，确定所述待检测视频对应的融合特征向量；

基于各所述视频特征向量、各所述音频特征向量和所述融合特征向量，分别确定各所述视频特征向量对应的第一检测结果、各所述音频特征向量对应的第二检测结果和所述融合特征向量对应的第三检测结果；

基于所述第一检测结果、所述第二检测结果和所述第三检测结果，确定所述待检测视频的目标检测结果。

根据本发明提供的一种基于图像和语音多模态融合的伪造视频检测方法，所述基于各所述视频特征向量、各所述音频特征向量和所述融合特征向量，分别确定各所述视频特征向量对应的第一检测结果、各所述音频特征向量对应的第二检测结果和所述融合特征向量对应的第三检测结果，包括：

基于各所述视频特征向量和各所述音频特征向量，分别确定任意两个视频片段对应的第一相关性特征向量序列和所述任意两个视频片段中的所述音频对应的第二相关性特征向量序列；所述第一相关性特征向量序列表示所有视频片段之间的相关性；所述第二相关性特征向量序列表示所述所有视频片段中的所述音频之间的相关性；

分别将所述第一相关性特征向量序列、所述第二相关性特征向量序列和所述融合特征向量输入至所述第一相关性特征向量序列对应的第一分类器、所述第二相关性特征向量序列对应的第二分类器和所述融合特征向量对应的分类判别网络，得到所述第一分类器输出的所述第一检测结果、所述第二分类器输出的所述第二检测结果和所述分类判别网络输出的所述第三检测结果；其中，所述第一分类器是基于样本真实视频对应的第一样本相关性特征向量序列训练得到的，所述第二分类器是基于所述样本真实视频中的样本音频对应的第二样本相关性特征向量序列训练得到的，所述分类判别网络是基于所述样本真实视频对应的样本多模态融合向量和标签数据进行训练得到的。

根据本发明提供的一种基于图像和语音多模态融合的伪造视频检测方法，所述基于所述总视频特征向量和所述总音频特征向量，确定所述待检测视频对应的融合特征向量，包括：

将所述总视频特征向量和所述总音频特征向量进行归一化，得到归一化之后的总视频特征向量和归一化之后的总音频特征向量；

将所述归一化之后的总视频特征向量和所述归一化之后的总音频特征向量进行拼接，得到所述待检测视频对应的融合特征向量。

根据本发明提供的一种基于图像和语音多模态融合的伪造视频检测方法，所述基于所述第一检测结果、所述第二检测结果和所述第三检测结果，确定所述待检测视频的目标检测结果，包括：

在所述第一检测结果、所述第二检测结果和所述第三检测结果均为真实的情况下，确定所述待检测视频为所述真实视频；

在所述第一检测结果、所述第二检测结果和所述第三检测结果中至少一项为伪造的情况下，确定所述待检测视频为所述伪造视频。

根据本发明提供的一种基于图像和语音多模态融合的伪造视频检测方法，所述基于各所述视频特征向量和各所述音频特征向量，确定所述待检测视频对应的总视频特征向量和总音频特征向量，包括：

针对每个所述视频片段，将所述视频片段对应的所述视频特征向量和所述音频特征向量进行归一化，分别得到归一化之后的视频特征向量和归一化之后的音频特征向量；

分别将各所述归一化之后的视频特征向量和各所述归一化之后的音频特征向量进行拼接，得到所述待检测视频对应的总视频特征向量和总音频特征向量。

根据本发明提供的一种基于图像和语音多模态融合的伪造视频检测方法，提取所述视频片段的视频特征向量，包括：

针对每个所述视频片段，对所述视频片段中的每帧视频图像进行裁剪，得到裁剪后的视频图像；

将所述裁剪后的视频图像进行划分，得到目标区域和非目标区域；

基于所述目标区域和所述非目标区域，确定所述视频片段的视频特征向量。

本发明还提供一种基于图像和语音多模态融合的伪造视频检测装置，包括：

预处理模块，用于将待检测视频进行预处理，得到多个视频片段；所述待检测视频包括音频，每个所述视频片段包括所述音频；

特征提取模块，用于针对每个所述视频片段，分别提取所述视频片段的视频特征向量和所述视频片段中的所述音频的音频特征向量；

确定模块，用于基于各所述视频特征向量和各所述音频特征向量，确定所述待检测视频对应的总视频特征向量和总音频特征向量；

检测模块，用于基于各所述视频特征向量、各所述音频特征向量、所述总视频特征向量和所述总音频特征向量，确定所述待检测视频的目标检测结果；所述目标检测结果表示所述待检测视频为伪造视频或者真实视频。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于图像和语音多模态融合的伪造视频检测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于图像和语音多模态融合的伪造视频检测方法。

本发明提供的基于图像和语音多模态融合的伪造视频检测方法及装置，通过将待检测视频进行预处理，得到多个视频片段；待检测视频包括音频，每个视频片段包括音频；针对每个视频片段，分别提取视频片段的视频特征向量和视频片段中的音频的音频特征向量；再根据各视频特征向量和各音频特征向量，确定待检测视频对应的总视频特征向量和总音频特征向量；再基于各视频特征向量、各音频特征向量、总视频特征向量和总音频特征向量，确定待检测视频的目标检测结果；目标检测结果表示待检测视频为伪造视频或者真实视频。本发明提供的方法，结合视频片段和视频片段中的音频等多模态信息，提取每个片段的视频特征向量、音频特征向量以及待检测视频对应的总视频特征向量和总音频特征向量，进而确定待检测视频的目标检测结果，提升了待检测视频的目标检测结果的准确性，进而提升了对待检测视频中深度伪造内容的检测精度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于图像和语音多模态融合的伪造视频检测方法的流程示意图之一；

图2是本发明提供的基于图像和语音多模态融合的伪造视频检测方法的流程示意图之二；

图3是本发明提供的基于图像和语音多模态融合的伪造视频检测装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图2描述本发明的基于图像和语音多模态融合的伪造视频检测方法。

图1是本发明提供的基于图像和语音多模态融合的伪造视频检测方法的流程示意图之一，如图1所示，方法包括：步骤101-步骤105；其中，

步骤101，将待检测视频进行预处理，得到多个视频片段；所述待检测视频包括音频，每个所述视频片段包括所述音频。

需要说明的是，本发明提供的基于图像和语音多模态融合的伪造视频检测方法，适用于检测视频是否真实的场景中，例如，包括人脸的视频，该方法的执行主体可以为伪造视频检测装置，例如电子设备、或者该伪造视频检测装置中的用于执行基于图像和语音多模态融合的伪造视频检测方法的控制模块。

具体地，获取待检测视频，该待检测视频包括音频，待检测视频为包括人脸的视频，则待检测视频中的音频为人脸对应的任务的声音。将待检测视频裁剪为预设长度的视频片段，得到多个视频片段，每个视频片段包括音频。例如，每个视频片段的时长为7至10秒，视频片段的数量为6段。

实际中，由于采集环境的不同，输入视频序列的分辨率和音频信息可能均有差异，在预处理阶段，将待检测视频中的图像序列均进行解码，每帧均以图像的方式存储，且每帧图像的分辨率均缩放至同样的大小，待检测视频中的音频均解码为波形声音文件(wav)，例如，每帧图像的分辨率为1280*720，编码格式为位图，每秒保留10至15帧图像；音频编码格式为A率8比特。再使用滤波器对待检测视频中的每帧图像和音频序列进行平滑处理，以降低噪声对后续处理的干扰；其中，待检测视频和音频的滤波器的参数不同。例如，滤波器为均值滤波器，或者其他类型的滤波器。

步骤102，针对每个所述视频片段，分别提取所述视频片段的视频特征向量和所述视频片段中的所述音频的音频特征向量。

具体地，针对每个视频片段，可以分别提取该视频片段的视频特征向量和该视频片段中的音频的音频特征向量；其中，视频特征向量为采用远程光电容积脉搏波描记法(remote Photoplethysmography，rPPG)提取的时域特征向量，视频特征向量包括峰值幅度、波形宽度、上升时刻和下降时刻等组成的特征向量。音频特征向量为频谱能量特征和时域特征进行归一化并拼接融合后组成的特征向量；其中，频谱能量特征可以为梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)、常数Q倒谱系数(Constant QCepstral Coefficients，CQCC)、频谱特征包络特征、语调特征中的至少一项，时域特征可以为峰值幅度、过零率、短时能量和短时平均幅度中的至少一项。

步骤103，基于各所述视频特征向量和各所述音频特征向量，确定所述待检测视频对应的总视频特征向量和总音频特征向量。

具体地，根据每个视频片段的视频特征向量和音频特征向量，可以确定待检测视频对应的总视频特征向量和总音频特征向量。

步骤104，基于各所述视频特征向量、各所述音频特征向量、所述总视频特征向量和所述总音频特征向量，确定所述待检测视频的目标检测结果；所述目标检测结果表示所述待检测视频为伪造视频或者真实视频。

具体地，根据每个视频片段的视频特征向量和音频特征向量、待检测视频的总视频特征向量和总音频特征向量，可以确定待检测视频的目标检测结果；其中，目标检测结果表示待检测视频为伪造视频或者真实视频。

本发明提供的基于图像和语音多模态融合的伪造视频检测方法，通过将待检测视频进行预处理，得到多个视频片段；待检测视频包括音频，每个视频片段包括音频；针对每个视频片段，分别提取视频片段的视频特征向量和视频片段中的音频的音频特征向量；再根据各视频特征向量和各音频特征向量，确定待检测视频对应的总视频特征向量和总音频特征向量；再基于各视频特征向量、各音频特征向量、总视频特征向量和总音频特征向量，确定待检测视频的目标检测结果；目标检测结果表示待检测视频为伪造视频或者真实视频。本发明提供的方法，结合视频片段和视频片段中的音频等多模态信息，提取每个片段的视频特征向量、音频特征向量以及待检测视频对应的总视频特征向量和总音频特征向量，进而确定待检测视频的目标检测结果，提升了待检测视频的目标检测结果的准确性，进而提升了对待检测视频中深度伪造内容的检测精度。

可选地，提取所述视频片段的视频特征向量，包括：

(1)针对每个所述视频片段，对所述视频片段中的每帧视频图像进行裁剪，得到裁剪后的视频图像。

具体地，针对每个视频片段，采用目标检测算法检测每帧视频图像中的目标，目标采用检测框表示，对检测框对每帧视频图像进行裁剪，得到裁剪后的视频图像；其中，裁剪后的视频图像为检测的目标对应的图像。例如，目标检测算法为人脸检测与定位算法或者基于关键点的人脸检测算法。

(2)将所述裁剪后的视频图像进行划分，得到目标区域和非目标区域。

具体地，将裁剪后的视频图像进行区域划分，得到目标区域和非目标区域；例如，目标区域为人眼下方包括左右两侧脸颊的区域，非目标区域考虑到发饰、饰物等的影响，非目标区域为人脸上方左右两侧的区域。

(3)基于所述目标区域和所述非目标区域，确定所述视频片段的视频特征向量。

具体地，在目标区域和非目标区域中，分别采用rPPG算法提取目标区域的时域特征和非目标区域的时域特征，再对目标区域的时域特征和非目标区域的时域特征进行拼接，得到裁剪后的视频图像对应的时域特征，进而可以得到视频片段的视频特征向量。

可选地，上述步骤103的具体实现方式包括：

(a)针对每个所述视频片段，将所述视频片段对应的所述视频特征向量和所述音频特征向量进行归一化，分别得到归一化之后的视频特征向量和归一化之后的音频特征向量。

具体地，针对每个视频片段，将视频片段对应的视频特征向量除以所有视频片段分别对应的各视频特征向量之和，得到归一化之后的视频特征向量；将视频片段对应的音频特征向量除以所有视频片段分别对应的各音频特征向量，得到归一化之后的音频特征向量。

(b)分别将各所述归一化之后的视频特征向量和各所述归一化之后的音频特征向量进行拼接，得到所述待检测视频对应的总视频特征向量和总音频特征向量。

具体地，将各归一化之后的视频特征向量进行拼接，得到待检测视频对应的总视频特征向量；将各归一化之后的音频特征向量进行拼接，得到待检测视频对应的总音频特征向量。

在申请中，通过每个视频片段的视频特征向量和音频特征向量，确定待检测视频对应的总视频特征向量和总音频特征向量，进而根据总视频特征向量和总音频特征向量确定融合特征向量，进而确定待检测视频的目标检测结果，提升了待检测视频的目标检测结果的准确性，进而提升了对待检测视频中深度伪造内容的检测精度。

可选地，上述步骤104的具体实现方式包括：

1)基于所述总视频特征向量和所述总音频特征向量，确定所述待检测视频对应的融合特征向量。

具体地，根据待检测视频对应的总视频特征向量和总音频特征向量，可以确定待检测视频对应的融合特征向量。

2)基于各所述视频特征向量、各所述音频特征向量和所述融合特征向量，分别确定各所述视频特征向量对应的第一检测结果、各所述音频特征向量对应的第二检测结果和所述融合特征向量对应的第三检测结果。

具体地，根据各视频特征向量、各音频特征向量和融合特征向量，可以分别确定各视频特征向量对应的第一检测结果、各音频特征向量对应的第二检测结果和融合特征向量对应的第三检测结果；其中，第一检测结果表示待检测视频为伪造视频或者真实视频，第二检测结果表示待检测视频为伪造视频或者真实视频，第三检测结果表示待检测视频为伪造视频或者真实视频。

3)基于所述第一检测结果、所述第二检测结果和所述第三检测结果，确定所述待检测视频的目标检测结果。

具体地，根据第一检测结果、第二检测结果和第三检测结果，可以确定检测视频的目标检测结果。

在本申请中，通过每个视频片段对应的视频特征向量、音频特征向量和待检测视频对应的融合特征向量，能够分别准确确定各视频特征向量对应的第一检测结果、各音频特征向量对应的第二检测结果和融合特征向量对应的第三检测结果，进而根据第一检测结果、第二检测结果和第三检测结果，确定检测视频的目标检测结果，提升了待检测视频的目标检测结果的准确性，进而提升了对待检测视频中深度伪造内容的检测精度。

可选地，所述基于所述总视频特征向量和所述总音频特征向量，确定所述待检测视频对应的融合特征向量，包括：

具体地，将总视频特征向量和总音频特征向量进行归一化，即将总视频特征向量、总总音频特征向量分别除以总视频特征向量和总音频特征向量之和，得到归一化之后的总视频特征向量和归一化之后的总音频特征向量；再将归一化之后的总视频特征向量和归一化之后的总音频特征向量进行拼接，得到待检测视频对应的融合特征向量。

可选地，所述基于各所述视频特征向量、各所述音频特征向量和所述融合特征向量，分别确定各所述视频特征向量对应的第一检测结果、各所述音频特征向量对应的第二检测结果和所述融合特征向量对应的第三检测结果，包括：

a)基于各所述视频特征向量和各所述音频特征向量，分别确定任意两个视频片段对应的第一相关性特征向量序列和所述任意两个视频片段中的所述音频对应的第二相关性特征向量序列；所述第一相关性特征向量序列表示所有视频片段之间的相关性；所述第二相关性特征向量序列表示所述所有视频片段中的所述音频之间的相关性。

具体地，根据每个视频片段对应的视频特征向量和音频特征向量，可以确定任意两个视频片段对应的第一相关性特征向量序列和任意两个视频片段中的音频对应的第二相关性特征向量序列；第一相关性特征向量序列表示所有视频片段之间的相关性；第二相关性特征向量序列表示所有视频片段中的音频之间的相关性。第一相关性特征向量序列可以为KL散度、互信息(Mutual Information)、Tanimoto系数或者余弦相似度等序列，第二相关性特征向量也可以为KL散度、互信息、Tanimoto系数或者余弦相似度等序列。

b)分别将所述第一相关性特征向量序列、所述第二相关性特征向量序列和所述融合特征向量输入至所述第一相关性特征向量序列对应的第一分类器、所述第二相关性特征向量序列对应的第二分类器和所述融合特征向量对应的分类判别网络，得到所述第一分类器输出的所述第一检测结果、所述第二分类器输出的所述第二检测结果和所述分类判别网络输出的所述第三检测结果；其中，所述第一分类器是基于样本真实视频对应的第一样本相关性特征向量序列训练得到的，所述第二分类器是基于所述样本真实视频中的样本音频对应的第二样本相关性特征向量序列训练得到的，所述分类判别网络是基于所述样本真实视频对应的样本多模态融合向量和标签数据进行训练得到的。

具体地，分别将第一相关性特征向量序列、第二相关性特征向量序列和融合特征向量输入至第一相关性特征向量序列对应的第一分类器、第二相关性特征向量序列对应的第二分类器和融合特征向量对应的分类判别网络，可以分别得到第一分类器输出的第一检测结果、第二分类器输出的第二检测结果和分类判别网络输出的第三检测结果。

第一分类器是基于样本真实视频对应的第一样本相关性特征向量序列训练得到的，第二分类器是基于样本真实视频中的样本音频对应的第二样本相关性特征向量序列训练得到的，分类判别网络是基于样本真实视频对应的样本多模态融合向量和标签数据进行训练得到的。例如，第一分类器和第二分类器可以为一维正态分布模型或多维高斯混合模型(Gaussian Mixed Model，GMM)，分类判别网络为卷积神经网络(LeNet)。标签数据为1，表示真实视频，标签数据为0，表示伪造视频。

在训练阶段，选取非伪造的样本真实视频，提取样本真实视频的每个视频片段的视频特征向量、每个视频片段中音频的音频特征向量、样本真实视频对应的总视频特征向量和总音频特征向量。基于样本真实视频对应的总视频特征向量和总音频特征向量，确定样本真实视频对应的样本多模态融合特征向量。

在对第一分类器和第二分类器的训练阶段，基于样本真实视频对应的各视频特征向量和各音频特征向量，分别确定样本真实视频中任意两个视频片段对应的第一样本相关性特征向量序列和样本真实视频中任意两个视频片段的样本音频对应的第二样本相关性特征向量序列；例如，在第一分类器和第二分类器为一维正态分布模型的情况下，第一样本相关性特征向量序列和第二样本相关性特征向量序列均为一维KL散度序列。

由于参与训练的都是真实视频，在第一分类器和第二分类器为一维正态分布模型的情况下，假设第一样本相关性特征向量序列和第二样本相关性特征向量序列满足数学期望为μ，方差为σ²的正态分布，依据期望最大化(Expectation Maximum，EM)算法，使用第一样本相关性特征向量序列训练第一分类器，使用第二样本相关性特征向量序列训练第二分类器，对正态分布的参数进行估计，直到正态分布的参数达到预设值或训练达到预设训练轮次，得到训练好的第一分类器和第二分类器。

在对第一分类器和第二分类器测试阶段，针对待分类视频，计算任意两个视频片段对应的第三相关性特征向量序列和任意两个视频片段中音频对应的第四相关性特征向量序列，将第三相关性特征向量序列输入至第一分类器，第一分类器判断第三相关性特征向量序列是否满足正态分布(μ，σ²)模型的指定参数范围(如(-σ，+σ))，若第三相关性特征向量序列在指定参数范围(如(-σ，+σ))内，则认为待分类视频为“真实视频”，否则认为待分类视频为“伪造视频”；将第四相关性特征向量序列输入至第二分类器，第二分类器判断第四相关性特征向量序列步是否满足正态分布(μ，σ²)模型的指定参数范围(如(-σ，+σ))，若第四相关性特征向量序列在指定参数范围(如(-σ，+σ))内，则认为待分类视频为“真实视频”，否则认为待分类视频为“伪造视频”。

在对分类判别网络的训练阶段，例如，分类判别网络为LeNet网络，以标签数据为目标，样本多模态融合向量输入分类判别网络，得到分类判别网络输出的判别结果；根据判别结果和标签数据，并选择交叉熵损失函数计算损失值，并根据损失值对模型进行微调(finetune)，并进行反向传播更新分类判别网络的全连接层的参数，保持分类判别网络的其它层的参数不变，并采用dropout等技术防止模型过拟合，直至分类判别网络满足预设条件时，停止分类判别网络的训练，得到训练好的分类判别网络；其中，预设条件为损失值的累计值趋于稳定或者训练次数达到最大预设次数。

在分类判别网络的测试阶段，将待分类视频对应的融合特征向量输入训练好的分类判别网络，得到分类判别网络输出的判别结果。

在本申请中，第一分类器和第二分类器分别基于任意两个视频片段对应的第一相关性特征向量序列和任意两个视频片段中的音频对应的第二相关性特征向量序列，以及分类判别网络基于融合特征向量，对待检测视频进行伪造或者真实检测。由于在真实视频中，每个视频片段存在相似的音频特征和视频特征，而伪造视频中，仅对部分关键帧进行篡改，每个视频片段之间存在不连贯的情况，因此，根据第一相关性特征向量序列、第二相关性特征向量序列和融合特征向量对待检测视频进行检测，能够提升待检测视频的检测结果的准确性，进而提升对待检测视频中深度伪造内容的检测精度。

可选地，所述基于所述第一检测结果、所述第二检测结果和所述第三检测结果，确定所述待检测视频的目标检测结果，包括：

在所述第一检测结果、所述第二检测结果和所述第三检测结果均为真实的情况下，确定所述待检测视频为所述真实视频；在所述第一检测结果、所述第二检测结果和所述第三检测结果中至少一项为伪造的情况下，确定所述待检测视频为所述伪造视频。

具体地，第一分类器、第二分类器和分类判别网络分别对应得到第一检测结果、所述第二检测结果和第三检测结果。在第一检测结果、第二检测结果和第三检测结果均为真实的情况下，确定待检测视频为真实视频；在第一检测结果、第二检测结果和第三检测结果中至少一项为伪造的情况下，确定待检测视频为伪造视频。

图2是本发明提供的基于图像和语音多模态融合的伪造视频检测方法的流程示意图之二，如图2所示，方法包括步骤201-步骤213；

其中，

步骤201，获取待检测视频。

步骤202，将待检测视频进行预处理，得到多个视频片段；待检测视频包括音频，每个视频片段包括音频。例如，视频片段1、视频片段2，······，视频片段N，N为正整数。

步骤203，针对每个视频片段，分别提取视频片段的视频特征向量和视频片段中的音频的音频特征向量。例如，视频片段1的视频特征向量1和视频片段中的音频的音频特征向量1，视频片段2的视频特征向量2和视频片段中的音频的音频特征向量2，······，视频片段N的视频特征向量N和视频片段中的音频的音频特征向量N。

步骤204，基于各视频特征向量和各音频特征向量，确定待检测视频对应的总视频特征向量和总音频特征向量。

步骤205，基于各视频特征向量，确定任意两个视频片段对应的第一相关性特征向量序列。

步骤206，基于各音频特征向量，确定任意两个视频片段中的音频对应的第二相关性特征向量序列。

步骤207，基于总视频特征向量和总音频特征向量，确定待检测视频对应的融合特征向量。

步骤208，将第一相关性特征向量序列输入至第一分类器，得到第一分类器输出的第一检测结果。

步骤209，将第二相关性特征向量序列输入至第二分类器，得到第二分类器输出的第二检测结果。

步骤210，将融合特征向量输入至分类判别网络，得到分类判别网络输出的第三检测结果。

步骤211，判断第一检测结果、第二检测结果和第三检测结果是否均为真实。在第一检测结果、第二检测结果和第三检测结果均为真实的情况下，转至步骤212；在第一检测结果、第二检测结果和第三检测结果中至少一项为伪造的情况下，转至步骤213。

步骤212，确定待检测视频为真实视频。

步骤213，确定待检测视频为伪造视频。

下面对本发明提供的基于图像和语音多模态融合的伪造视频检测装置进行描述，下文描述的基于图像和语音多模态融合的伪造视频检测装置与上文描述的基于图像和语音多模态融合的伪造视频检测方法可相互对应参照。

图3是本发明提供的基于图像和语音多模态融合的伪造视频检测装置的结构示意图，如图3所示，基于图像和语音多模态融合的伪造视频检测装置300包括：预处理模块301、特征提取模块302、确定模块303和检测模块304；其中，

预处理模块301，用于将待检测视频进行预处理，得到多个视频片段；所述待检测视频包括音频，每个所述视频片段包括所述音频；

特征提取模块302，用于针对每个所述视频片段，分别提取所述视频片段的视频特征向量和所述视频片段中的所述音频的音频特征向量；

确定模块303，用于基于各所述视频特征向量和各所述音频特征向量，确定所述待检测视频对应的总视频特征向量和总音频特征向量；

检测模块304，用于基于各所述视频特征向量、各所述音频特征向量、所述总视频特征向量和所述总音频特征向量，确定所述待检测视频的目标检测结果；所述目标检测结果表示所述待检测视频为伪造视频或者真实视频。

本发明提供的基于图像和语音多模态融合的伪造视频检测装置，通过将待检测视频进行预处理，得到多个视频片段；待检测视频包括音频，每个视频片段包括音频；针对每个视频片段，分别提取视频片段的视频特征向量和视频片段中的音频的音频特征向量；再根据各视频特征向量和各音频特征向量，确定待检测视频对应的总视频特征向量和总音频特征向量；再基于各视频特征向量、各音频特征向量、总视频特征向量和总音频特征向量，确定待检测视频的目标检测结果；目标检测结果表示待检测视频为伪造视频或者真实视频。本发明提供的装置，结合视频片段和视频片段中的音频等多模态信息，提取每个片段的视频特征向量、音频特征向量以及待检测视频对应的总视频特征向量和总音频特征向量，进而确定待检测视频的目标检测结果，提升了待检测视频的目标检测结果的准确性，进而提升了对待检测视频中深度伪造内容的检测精度。

可选地，所述检测模块304，具体用于：

可选地，所述检测模块304，还用于：

可选地，所述确定模块303，具体用于：

可选地，所述特征提取模块302，具体用于：

图4是本发明提供的一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行基于图像和语音多模态融合的伪造视频检测方法，该方法包括：将待检测视频进行预处理，得到多个视频片段；所述待检测视频包括音频，每个所述视频片段包括所述音频；针对每个所述视频片段，分别提取所述视频片段的视频特征向量和所述视频片段中的所述音频的音频特征向量；基于各所述视频特征向量和各所述音频特征向量，确定所述待检测视频对应的总视频特征向量和总音频特征向量；基于各所述视频特征向量、各所述音频特征向量、所述总视频特征向量和所述总音频特征向量，确定所述待检测视频的目标检测结果；所述目标检测结果表示所述待检测视频为伪造视频或者真实视频。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于图像和语音多模态融合的伪造视频检测方法，该方法包括：将待检测视频进行预处理，得到多个视频片段；所述待检测视频包括音频，每个所述视频片段包括所述音频；针对每个所述视频片段，分别提取所述视频片段的视频特征向量和所述视频片段中的所述音频的音频特征向量；基于各所述视频特征向量和各所述音频特征向量，确定所述待检测视频对应的总视频特征向量和总音频特征向量；基于各所述视频特征向量、各所述音频特征向量、所述总视频特征向量和所述总音频特征向量，确定所述待检测视频的目标检测结果；所述目标检测结果表示所述待检测视频为伪造视频或者真实视频。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于图像和语音多模态融合的伪造视频检测方法，其特征在于，包括：

基于各所述视频特征向量、各所述音频特征向量、所述总视频特征向量和所述总音频特征向量，确定所述待检测视频的目标检测结果；所述目标检测结果表示所述待检测视频为伪造视频或者真实视频；

所述基于各所述视频特征向量、各所述音频特征向量、所述总视频特征向量和所述总音频特征向量，确定所述待检测视频的目标检测结果，包括：

基于所述第一检测结果、所述第二检测结果和所述第三检测结果，确定所述待检测视频的目标检测结果；

所述基于各所述视频特征向量、各所述音频特征向量和所述融合特征向量，分别确定各所述视频特征向量对应的第一检测结果、各所述音频特征向量对应的第二检测结果和所述融合特征向量对应的第三检测结果，包括：

2.根据权利要求1所述的基于图像和语音多模态融合的伪造视频检测方法，其特征在于，所述基于所述总视频特征向量和所述总音频特征向量，确定所述待检测视频对应的融合特征向量，包括：

3.根据权利要求1所述的基于图像和语音多模态融合的伪造视频检测方法，其特征在于，所述基于所述第一检测结果、所述第二检测结果和所述第三检测结果，确定所述待检测视频的目标检测结果，包括：

4.根据权利要求1所述的基于图像和语音多模态融合的伪造视频检测方法，其特征在于，所述基于各所述视频特征向量和各所述音频特征向量，确定所述待检测视频对应的总视频特征向量和总音频特征向量，包括：

5.根据权利要求1所述的基于图像和语音多模态融合的伪造视频检测方法，其特征在于，提取所述视频片段的视频特征向量，包括：

6.一种基于图像和语音多模态融合的伪造视频检测装置，其特征在于，包括：

检测模块，用于基于各所述视频特征向量、各所述音频特征向量、所述总视频特征向量和所述总音频特征向量，确定所述待检测视频的目标检测结果；所述目标检测结果表示所述待检测视频为伪造视频或者真实视频；

所述检测模块，具体用于：

所述检测模块，还用于：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述基于图像和语音多模态融合的伪造视频检测方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于图像和语音多模态融合的伪造视频检测方法。