CN111444873B

CN111444873B - 视频中人物真伪的检测方法、装置、电子设备及存储介质

Info

Publication number: CN111444873B
Application number: CN202010255481.6A
Authority: CN
Inventors: 柏炎; 张有才; 常杰; 危夷晨
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2023-12-12
Anticipated expiration: 2040-04-02
Also published as: CN111444873A

Abstract

本申请提供了一种视频中人物真伪检测方法、装置、电子设备及计算机存储介质，该方法包括：获取待检测视频；提取待检测视频中包含人物的视频关键帧和/或视频关键片段；基于视频关键帧和/或视频关键片段，采用至少两种真伪检测策略对待检测视频中的人物进行多模态信息的真伪检测，得到各检测策略对应的检测结果；基于各检测策略对应的检测结果，确定待检测视频中人物的真伪检测结果。在该方案中，从人物的语音信息、面部信息、肢体动作信息、以及至少两种真伪检测策略等多个维度进行人物真伪的检测，使得最终得到的真伪检测结果考虑了多个维度的因素对真伪检测结果的影响，进而使得真伪检测结果更准确。

Description

视频中人物真伪的检测方法、装置、电子设备及存储介质

技术领域

本申请涉及多媒体数据处理技术领域，具体而言，本申请涉及一种视频中人物真伪的检测方法、装置、电子设备及存储介质。

背景技术

目前，视频中人脸识别技术已广泛应用于刑侦破案、门禁系统、摄像监视、网络应用、身份辨识、信息安全及娱乐应用等等；基于人脸识别技术的发展，越来越多的伪造技术应运而生，阻碍了人脸识别技术的发展。

现有技术中，虽然目前已有很多关于视频中人物真伪检测的方法，但是，通过现有检测算法的检测结果不理想，因此，目前亟需提供一种准确的人物真伪检测方法。

发明内容

本申请实施例的主要目的在于提供一种视频中人物真伪检测方法、装置、电子设备及存储介质，通过本申请实施例的方案，能够提高人物真伪检测的准确性。

第一方面，本申请实施例提供了一种视频中人物真伪检测方法，该方法包括：

获取待检测视频；

提取待检测视频中包含人物的视频关键帧和/或视频关键片段；

基于视频关键帧和/或视频关键片段，采用至少两种真伪检测策略对待检测视频中的人物进行多模态信息的真伪检测，得到各检测策略对应的检测结果，其中，多模态信息包括语音信息、面部信息和肢体动作信息中的至少两项；

基于各检测策略对应的检测结果，确定待检测视频中人物的真伪检测结果。

第二方面，本申请提供了一种视频中人物真伪检测装置，该装置包括：

视频获取模块，用于获取待检测视频；

视频处理模块，用于提取待检测视频中包含人物的视频关键帧和/或视频关键片段；

人物真伪检测模块，用于基于视频关键帧和/或视频关键片段，采用至少两种真伪检测策略对待检测视频中的人物进行多模态信息的真伪检测，得到各检测策略对应的检测结果，其中，多模态信息包括语音信息、面部信息和肢体动作信息中的至少两项；

检测结果确定模块，用于基于各检测策略对应的检测结果，确定待检测视频中人物的真伪检测结果。

第三方面，本申请实施例提供了一种电子设备，电子设备包括处理器和存储器；存储器中存储有可读指令，可读指令由处理器加载并执行时，实现如上述第一方面的任一可选实施例中所示的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，存储介质中存储有可读指令，可读指令由处理器加载并执行时，实现如上述第一方面的任一可选实施例中所示的方法。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例所提供的视频中人物真伪检测方法、装置、电子设备及计算机存储介质，在对待检测视频中人物的真伪进行检测时，先提取待检测视频中包含人物的视频关键帧和/或视频关键片段，然后基于视频关键帧和/或视频关键片段，采用至少两种真伪检测策略对待检测视频中的人物进行多模态信息真伪检测，这样可以从至少两个维度对多模态信息进行真伪检测，得到各检测结果对应的检测结果，并且，多模态信息可以反应出人物不同维度的特点，这样还可以从人物的语音信息、面部信息、肢体动作信息等多个维度进行人物真伪的检测，使得最终得到的真伪检测结果考虑了多个维度的因素对真伪检测结果的影响，进而使得真伪检测结果更准确。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1示出了本申请实施例中提供的一种视频中人物真伪检测方法的流程示意图；

图2示出了本申请实施例中提供的一种检测模型的示意图；

图3示出了本申请实施例中提供的一示例中一种视频中人物真伪检测流程示意图；

图4示出了本申请实施例中提供的一示例中一种检测模型的反馈和更新流程示意图；

图5示出了本申请实施例中提供的一示例中一种视频中人物真实性检测平台的系统架构图；

图6示出了本申请实施例中提供的一种视频中人物真伪检测装置的结构示意图；

图7示出了本申请实施例中提供的一种电子设备的结构示意图。

具体实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面详细描述本申请的实施例，该实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

首先，为了更好的理解及说明本申请实施例的方案，下面对本申请实施例中所涉及到的一些技术用语进行简单说明。

神经网络(Neural Network，NN)：是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

在现有技术中，基于视频伪造技术的发展，检测伪造视频的技术也随之发展起来，目前，视频伪造技术的种类非常丰富，比如，视频换脸，面部表情操纵，口型操纵，语音伪造等，通过视频伪造技术伪造过的视频，可以伪造人物的面部特征，模仿人的行为举止、声音和习惯动作等，现有的伪造视频检测技术很难分辨出其中人物的真假。

现有的伪造视频检测技术，通常可以分为两个方向：基于假图像检测和假视频检测。但是，无论哪个方向的检测技术，都得不到理想的检测效果。因此，目前急需探索更为准确度的伪造视频检测算法。

为了提升检测伪造视频的准确率，目前主要是基于图像中人物的单点信息(伪造痕迹)，对视频中的人物进行真伪检测，如果图像中包含伪造痕迹，则表明该视频是被伪造的，即基于图像中一个维度的信息，对视频中的人物进行真伪检测，该单点信息可以为面部伪造信息、语音伪造信息、肢体动作伪造信息中的任一项。

本申请发明人经分析发现，上述方案至少存在以下问题：上述方案是基于图像中单点信息进行检测，即仅基于图像中一个维度的信息，对视频中的人物进行真伪检测，仅基于单点信息不能准确检测出人物的真伪。

针对现有技术中存在的上述技术问题，本申请实施例提出了一种视频中人物真伪检测方法，该方法能够在对待检测视频中人物的真伪进行检测时，基于待检测视频中所包含的人物的多模态信息，采用至少两种真伪检测策略对待检测视频中的人物进行人物真伪检测，多模态信息可以反应出人物不同维度的特点，这样从人物的语音信息、面部信息、肢体动作信息等多个维度进行人物真伪的检测，使得最终得到的真伪检测结果考虑了多个维度的因素对真伪检测结果的影响，进而使得真伪检测结果更准确。另外，在检测出人物是被伪造时，可以确定出人物对应的伪造方式，基于该伪造方式，可以找出具有类似伪造方式的伪造视频。并且，各个检测策略在对待检测视频中的人物进行人物真伪检测可以是基于检测模型实现的，则在对待检测视频完成检测后，可基于各检测策略对应的检测结果和已经检测完成的待检测视频，对检测模型进行更新，使得更新后的模型在检测人物真伪时得到的检测结果更加准确。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请的执行主体可以是任意电子设备，可以是服务器，也可以是用户终端等等，如对于视频平台，其可以提供一种辨别视频中人物是否被伪造的功能，则在需要对某个视频中的人物进行真伪辨别时，可以基于该方法准确辨别视频中人物的真伪。

图1示出了本申请实施例提供的一种视频中人物真伪检测方法的流程示意图，如图中所示，本申请以服务器为执行主体为例进行说明，该方法可以包括步骤S110至步骤S140，其中：

步骤S110：获取待检测视频。

其中，待检测视频是需要检测其中包含人物真伪的视频，待检测视频可以是用户上传的视频，也可以是从指定数据库中选择的视频，本申请实施例中不限定待检测视频的具体来源。可选的，对于一视频平台，待检测视频可以为需要进行人物真伪检测的包含人物的任一个视频。

步骤S120：提取待检测视频中包含人物的视频关键帧和/或视频关键片段。

其中，视频关键帧可以是待检测视频中包含人物的任一张图像，视频关键片段是待检测视频中包含人物的视频片段，该视频片段中的视频帧图像均是包含人物的图像。为了确保视频关键片段中的人物的动作，表情等动态信息是连贯的，不影响后续对视频关键片段中人物的真伪辨别，视频关键片段中的视频帧图像可以是连贯的、不间断的。

步骤S130：基于视频关键帧和/或视频关键片段，采用至少两种真伪检测策略对待检测视频中的人物进行多模态信息的真伪检测，得到各检测策略对应的检测结果，其中，多模态信息包括语音信息、面部信息和肢体动作信息中的至少两项。

其中，待检测视频中可以包括人物的语音信息、面部信息和肢体动作信息中的至少两项，人物的语音是可以被伪造的，则基于语音信息可以检测出人物的语音是否被伪造，人物的面部表情是可以被伪造的，则基于面部信息可以检测出人物的面部是否被伪造，人物的肢体动作也是可以被伪造的，肢体动作可以反映出人物的动作习惯，基于对动作习惯的分析可以辨别出人物是否被伪造，因此，基于肢体动作信息也可以检测出人物的肢体动作是否被伪造。因此，上述每一项信息都是能够用于检测人物是否是伪造的。另外，人物的肢体动作可以和语音和/或面部结合实现一致性检测，即人物的肢体动作可以和语音和/或面部结合是否一致(多模态信息一致性)，如果不一致，则视频中的人物可以是被伪造的，如果一致，视频中的人物可以不是被伪造的，由此，则基于该三个信息中至少两项之间的一致性也可以检测出人物是否被伪造，即基于多模态信息一致性是可以辨别人物真伪的信息。将上述多模态信息进行结合，用于人物真伪的检测，可以进一步提高真伪检测的准确性。

其中，视频关键帧和/或视频关键片段中包含人物的多模态信息，因此，可基于视频关键帧和/或视频关键片段，确定其中人物的多模态信息。

其中，人物的多模态信息可以通过对应的真伪检测策略获取，也可以是通过其他方式获取，在对待检测视频中的人物进行多模态信息的真伪检测时，可以基于相应的真伪检测策略分别进行多模态信息的真伪检测，进而得到各检测策略对应的检测结果，其中，上述几个多模态信息中，一个多模态信息可以对应于一种真伪检测策略，至少两种多模态信息也可以对应于一种真伪检测策略。

在本申请的一可选方案中，至少两种真伪检测策略包括静态人物真伪检测策略，语音真伪检测策略，动态人物真伪检测策略和多模态信息一致性检测策略中的至少两种。

其中，视频关键帧中的面部信息可以反应出一个人物的静态状态，则基于静态人物真伪检测策略可以检测人物的面部信息是否被伪造，视频关键片段中的面部信息和/或肢体动作信息可以反应出一个人物的动态变化，则基于动态人物真伪检测策略可以检测人物的面部信息和/或肢体动作信息是否被伪造，同理，可基于语音真伪检测策略检测人物的语音信息是否被伪造，视频关键片段中的面部信息、语音信息、肢体动作信息之间的一致性可以反应出一个人物的表情、肢体动作、语音中至少两项是否变化一致(比如，是否连贯、是否协调)，则基于多模态信息一致性检测策略可以检测人物的多模态信息是否一致，以判断人物是否被伪造。

这样，可以从多个不同的维度对人物的真伪进行检测，使得人物的真伪检测结果可以考虑多个方面的影响。另外，基于多模态信息，通过上述各个真伪检测策略对待检测视频中的人物进行真伪检测的具体实现方式将在下文描述。

步骤S140：基于各检测策略对应的检测结果，确定待检测视频中人物的真伪检测结果。

其中，通过真伪检测结果可以知道待检测中的人物是否为伪造的，各检测策略对应的检测结果可以从各个方面反映出人物的真伪，则最终得到的真伪检测结果可以更加准确的反应出人物的真伪。

本申请的方案中，在对待检测视频中人物的真伪进行检测时，先提取待检测视频中包含人物的视频关键帧和/或视频关键片段，然后基于视频关键帧和/或视频关键片段，采用至少两种真伪检测策略对待检测视频中的人物进行多模态信息真伪检测，这样可以从至少两个维度对多模态信息进行真伪检测，得到各检测结果对应的检测结果，并且，多模态信息可以反应出人物不同维度的特点，这样还可以从人物的语音信息、面部信息、肢体动作信息等多个维度进行人物真伪的检测，使得最终得到的真伪检测结果考虑了多个维度的因素对真伪检测结果的影响，进而使得真伪检测结果更准确。

在本申请的可选方案中，若多模态信息包括面部信息，基于视频关键帧和/或视频关键片段，采用至少两种真伪检测策略对待检测视频中的人物进行多模态信息的真伪检测，得到各检测策略对应的检测结果，包括：

从视频关键帧中提取出面部信息；

采用静态人物真伪检测策略对视频关键帧中的人物进行面部信息的真伪检测，得到静态人物真伪检测策略对应的检测结果。

其中，面部信息反映了人物的面部特征，比如，五官特征，如果在视频关键帧中可以检测出面部特征是面部伪造特征，则面部特征是被伪造的，面部伪造特征指的是人物的面部被伪造后对应的特征，则通过静态人物真伪检测策略对应的检测结果可以反应出该视频关键帧中的人物的面部是否被伪造的。

在实际应用中，人物的不同五官可以对应不同的面部伪造特征，该面部伪造特征可以是通过相关图像处理算法对原始面部特征进行处理后的特征，比如，对面部特征进行篡改，操纵等处理。则基于面部伪造特征，采用静态人物真伪检测策略对视频关键帧中的人物进行真伪检测时，可以先得到不同五官对应的检测结果，通过该检测结果表征各个五官的置信度(是被伪造概率)，再基于各五官对应的检测结果，确定静态人物真伪检测策略对应的检测结果。

若多模态信息包括面部信息和肢体动作信息中的至少一项，基于视频关键帧和/或视频关键片段，采用至少两种真伪检测策略对待检测视频中的人物进行多模态信息的真伪检测，得到各检测策略对应的检测结果，包括：

从视频关键片段中提取出面部信息和/或肢体动作信息；

采用动态人物真伪检测策略对视频关键片段中的人物进行面部信息和/或肢体动作信息的真伪检测，得到动态人物真伪检测策略对应的检测结果。

其中，从视频关键片段中提取出的面部信息和/或肢体动作信息可以反应出人物的动态变化，比如，面部表情的变化，肢体动作的变化。如果在视频关键片段中检测出的面部特征是面部伪造特征，则对应的面部表情变化的不自然，不连贯，进而可以说明面部信息是被伪造的，同样的，如果在视频关键片段中检测出的，则肢体动作信息是肢体动作伪造特征对应的肢体动作变化的不自然，不连贯，进而可以说明人物的肢体动作是被伪造的。同理，如果在视频关键片段中检测出的面部特征不是面部伪造特征，则说明面部信息不是被伪造的，如果在在视频关键片段中检测出肢体动作信息不是肢体动作伪造特征，则说明人物的肢体动作不是被伪造的。其中，肢体动作特征指的是人物的肢体动作被伪造后对应的特征。

作为一个示例，比如，在视频关键片段中，连续两帧图像中嘴角变化弧度大于设定值，表明嘴角变化的不自然，可能被伪造，则在视频关键片段中检测到人物在前一帧图像中嘴角的弧度与下一帧图像中嘴角的弧度大于设定值，则可以表明该人物的嘴角弧度变化不自然，可能是被伪造的。

若多模态信息包括语音信息，基于视频关键帧和/或视频关键片段，采用至少两种真伪检测策略对待检测视频中的人物进行多模态信息的真伪检测，得到各检测策略对应的检测结果，包括：

从视频关键片段中提取出语音信息；

采用声音真伪检测策略对视频关键片段中的人物进行语音信息的真伪检测，得到声音真伪检测策略对应的检测结果。

其中，如果在视频关键片段中检测出的语音信息是伪造语音信息，则可以说明语音信息是被伪造的，如果检测出的语音信息不是伪造语音信息，则可以说明语音信息不是被伪造的。伪造语音信息指的是被伪造后对应的语音信息，人物的声音(语音信息)被伪造的方式有很多，比如，声音是被合成的，或被模仿的，则通过语音特征(比如，声音的波形或音色)，可以判断出人物的声音是否是被伪造的。

若多模态信息包括语音信息、面部信息和肢体动作信息中的至少两项，基于视频关键帧和/或视频关键片段，采用至少两种真伪检测策略对待检测视频中的人物进行多模态信息的真伪检测，得到各检测策略对应的检测结果，包括：

从视频关键片段中提取出面部信息、语音信息和肢体动作信息中的至少两项；

采用多模态信息一致性检测策略对视频关键片段中的人物进行多模态信息的真伪检测，得到多模态信息一致性检测策略的检测结果。

其中，人物的多模态信息的一致性指的是人物的面部表情、语音、肢体动作之中的至少两项是否协调，作为一个示例，比如，人物的表情是高兴的，但是此时，人物的声音中的情绪是难过，则该人物对应的面部表情和语音信息是不一致的，进而说明人物可能是被伪造的。

本申请的可选方案中，若人物真伪的检测是针对特定人物的检测，提取待检测视频中包含人物的视频关键帧和/或视频关键片段，包括：

对待检测视频进行特定人物检测；

若待检测视频为包含特定人物的视频，则提取待检测视频中包含人物的视频关键帧和/或视频关键片段；

若待检测视频为不包含特定人物的视频，则生成相应的提示信息并提供给用户。

其中，特定人物指的是指定的某一个人物，比如，某个明星，对待检测视频进行特定人物检测指的是对待检测视频进行人物识别，识别其中包含的人物的是否是特定人物。在本申请的方案中，对待检测视频进行人物检测可以通过人脸识别技术，具体可以为，获取待检测视频中包含特定人物的视频帧图像，基于数据库中预先存储的人物数据，对该视频帧图像进行人脸识别，以识别出人物的身份。数据库中可预先存储大量人物数据，这些数据是可标识人物身份的数据，比如，人物图像等。

在实际应用中，针对不同的应用场景，特定人物可以是不同类型的人物，比如，对于公安局，特定人物可以是嫌疑犯，因此，在此场景下，可以只对包含嫌疑犯的视频中的人物是否被伪造进行检测，对包含除特定人物之外的其他人物的视频不进行检测，以减少数据处理量。

其中，提示信息用于提示用户该视频不满足被检测的条件，即不包含特定人物，不需要被检测，提示信息可以通过文字、语音等形式展示，本申请中不限定提示信息的具体表现形式。

可以理解的是，在检测待检测视频中不包含人时，不对该待检测视频进行人物真伪的检测，在包含人物时，在确定包含的人物是否为特定人物。

在本申请的可选方案中，多模态信息包括语音信息，该方法还包括：

获取特定人物的基准语音信息；

基于语音信息和基准语音信息，采用对应的真伪检测策略对待检测视频中的人物进行语音信息的真伪检测，得到该检测策略对应的检测结果。

其中，还可以基于以下方式检测人物的语音信息是否是被伪造的：将特定人物的基准语音息和从视频关键片段中的语音信息进行比对，根据比对结果确定人物的语音信息是否被伪造。基准语音信息指的是该人物的原始真实语音信息，该语音信息可以预先存储在数据库中。可以理解的是，视频关键片段也是该特定人物对应的视频片段。

在实际应用中，声音还可以通过除合成之外的其他方式进行伪造，仅通过语音信息可能确定不出该人物的声音是被伪造的，则可通过比对的方式，即将语音信息和基准语音信息进行比对来确定声音是否被伪造。可选地，每个人的音色是不同的，则在比对语音信息和基准语音信息时，可以比对语音信息和基准语音信息各自对应的音色，如果音色不同，则表示该人物的声音是被伪造的，如果音色是相同的，则表示该人物的声音不是被伪造的。

本申请的可选方案中，基于视频关键帧和/或视频关键片段，采用至少两种真伪检测策略对待检测视频中的人物进行多模态信息的真伪检测，得到各检测策略对应的检测结果是通过检测模型实现的，该方法还包括：

对已经检测完成的历史视频的真伪检测结果进行存储；

基于历史视频和历史视频的真伪检测结果，对检测模型进行更新；

其中，更新包括模型结构和模型参数中至少一项的更新。

在本申请的方案中，不同的检测策略可以单独对应一个检测模型，比如，静态人物真伪检测策略对应一个检测模型，基于该检测模型对面部信息进行检测，以确定人物是否是伪造的。或者，所有检测策略对应一个检测模型。

真伪检测结果可以反应出视频中的人物是不是被伪造的，为了提高模型的精度，如果各检测策略对应的是一个检测模型，可以将已经完成检测的历史视频和历史视频的真伪检测结果，对检测模型进行更新。模型的更新可以基于预先配置的更新策略进行更新，比如，预设时间段进行一次更新，则历史视频中可以包括待检测视频，也可以不包括待检测视频。

可以理解的是，各检测策略对应的检测结果可以反应出待检测视频中人物有哪方面是伪造的，比如，面部是伪造的，人物的声音是伪造的，如果各检测策略各自对应一个检测模型，则针对历史视频，还可以对历史视频对应的各检测策略对应的检测结果进行存储，将存储的各检测策略对应的检测结果和已经检测完成的历史视频对对应的检测模型进行更新，比如，基于静态人物真伪检测策略对应的检测结果和历史视频对静态人物真伪检测策略对应的检测模型进行更新，以提高各检测策略对应的检测模型。

其中，在对模型进行更新主要是对模型结构和模型参数中的至少一项进行更新，具体的，可以通过模型蒸馏、剪枝和量化等多种模型压缩技术对模型进行更新。

在本申请的方案中，各检测策略对应的检测结果中可以包括人物的人物画像，比如，该人物的相关视频、人物基本信息、人物语音、人物表情、人物动作习惯等，通过这些信息可以从各个方面确定人物是否被伪造。可以理解的是，上述信息中不仅包括人物被伪造的信息，也包括未被伪造的人物信息。

在本申请的方案中，检测模型可以通过以下方式训练：

获取样本视频，样本视频中包括视频中的人物被伪造的视频，比如，声音被伪造、面部五官被伪造的视频，每个视频携带有伪造标记，通过伪造标记标识视频中人物的伪造结果；

获取样本视频中被伪造的人物对应的视频帧图像和/或视频片段；

基于视频帧图像和/或视频片段对初始神经网络模型进行训练，直至初始神经网络模型的损失函数收敛，将训练结束时的初始神经网络模型作为检测模型；

其中，初始神经网络模型的输入为视频帧图像和/或视频片段，输出为视频帧图像和/或视频片段中人物的检测结果，损失函数的值表征了检测结果和对应的伪造结果之间的差异。

其中，样本视频中的人物被伪造可以通过各种各样的方式，比如，图像合成技术，人脸替换技术，表情篡改技术，语音合成技术、语音篡改技术等。样本视频可以是通过上述伪造技术对原始视频(人物未被伪造的视频)进行处理得到的视频，也可以是从其他数据库中获取到的包含被伪造人物的视频，本申请中并不限定样本视频的来源，均在本申请的保护范围内。

如果样本视频可以是通过上述伪造技术处理得到的视频，人物被伪造的方式越多，样本视频的种类越丰富，进而训练得到的检测模型可以更加准确地检测出通过各种伪造技术处理过的视频中人物的真伪。

在实际应用中，样本视频中可以包括视频中的人物被伪造的视频(下文称为第一视频)和视频中的人物未被伪造的视频(下文称为第二视频)，可将第一视频作为正样本，第二视频作为负样本，基于正样本和负样本对初始神经网络模型进行训练，以得到训练好的检测模型。可以理解的是，通过训练好的检测模型检测完的视频也可以作为样本视频，被检测完成的视频可以是第一视频，也可以是第二视频。

作为一个可选方案，初始神经网络模型可以是基于深度卷积神经网络模型的视频真伪检测模型(下文称之为检测模型)，损失函数可以是分类损失函数(如在神经网络模型的分类层为softmax层时，损失函数可以为常用的与softmax层对应的分类损失函数)。

如果每种伪造方式的样本视频都对应一个伪造标记，各个检测策略各自对应一个检测模型，则各检测策略可以各自对应一个损失函数，最终的真伪检测结果对应一个损失函数。检测策略对应的损失函数表征了该检测策略对应的检测结果与对应的伪造结果之间的差异。

如果各检测策略对应的是一个检测模型，则该损失函数只有一个，该损失函数表征了真伪检测结果与对应的伪造结果之间的差异。

在实际应用中，基于各检测策略对应的检测结果得到真伪检测结果可以在检测模型内实现，也可以在检测模型外实现。

在本申请的可选方案中，如图2所示的检测模型结构示意图，如果各个检测策略各自对应一个检测模型，由于训练模型需要消耗大量计算资源，因此模型训练部分可以使用分布式训练、多机多卡训练、混合精度训练等方式进行加速。模型压缩部分指的是部署到线上或终端上时，为了减少对计算力的依赖，对模型进行的一种优化，包含对模型的蒸馏、剪枝、量化等方法。

其中，在本申请方案中，分布式训练指的是，对于各检测策略对应的检测模型，可以采用分布式训练的方式对各个检测模型进行训练，以提高模型的训练速度。多机多卡训练指的是，采用并发的方式对各检测模型进行训练，以提高模型的训练速度。混合精度训练指的是，在模型训练过程中，降低模型训练时的数值精度来加速训练过程，从而减少了训练深度学习模型所需的内存。

在该方案中，模型训练和模型应用可分开进行，以实现模型训练部署一体化。并且，在该方案中，各检测策略可采用异构计算的方式，基于多模态信息，对待检测视频中的人物进行真伪检测，以提高数据处理效率。另外，该方案可以适用于各种硬件平台，即对于有视频中人物真伪性检测需求的平台，均可采用该方案(对应图2中所示的多硬件平台支持)。

在本申请的可选方案中，真伪检测结果包括视频是伪造视频或不是伪造视频，若待检测视频是伪造视频，该方法还包括：

基于各检测策略对应的检测结果，确定待检测视频的伪造方式；

其中，真伪检测结果还包括伪造方式。

伪造方式指的是人物被伪造的方法，比如，面部表情被伪造，语音被伪造等，如果人物是被伪造的，为了更加清楚的知道是如何被伪造的，可以确定出人物被伪造的伪造方式，并且，还可以基于该伪造方式进行进一步的处理，比如，不同伪造方式的视频对应不同的处理方式，在确了待检测视频的伪造方式后，可以基于该伪造方式，确定出该待检测视频的伪造方式。

在本申请的可选方案中，该方法还包括：

基于伪造方式，确定伪造方式在待检测视频中对应的原始信息；

其中，真伪检测结果还包括伪造方式在待检测视频中对应的原始信息。

原始信息指的是在待检测视频中的人物为伪造人物时，伪造方式在待检测视频中对应的视频帧图像、视频片段和语音信息中的至少一项。比如，伪造方式为待检测视频中的人物的面部表情是被伪造的，则该伪造方式对应的原始信息为该被伪造面部表情对应的视频帧图像和/或视频片段。如果伪造方式为待检测视频中人物的语音是被伪造的，则该伪造方式对应的原始信息为该被伪造语音在待检测视频中对应的语音。

在实际应用中，如果用户想更加详细的了解被伪造人物的详细信息，比如，被伪造的人物是什么样的，则可将原始信息提供给用户。

基于各检测策略对应的检测结果，确定真伪检测结果的置信度；

其中，真伪检测结果还包括置信度。

真伪检测结果的置信度可以反应出待检测视频中人物是伪造的概率，置信度越大，表明人物是伪造的概率越大。

在实际应用中，基于各检测策略对应的检测结果，确定真伪检测结果的置信度的一种可实现方式为：基于各检测策略对应的检测结果，确定各检测结果对应的置信度，基于各检测结果对应的置信度，确定真伪检测结果的置信度。

其中，各检测结果的置信度可以反应出各个检测结果中，人物是被伪造的概率。则可综合考虑各个方面人物是被伪造的概率，使得最终确定得到的真伪检测结果更加准确。

在实际应用中，在确定真伪检测结果的置信度时，还可以通过以下方式实现：基于各检测策略对应的检测结果，确定各检测结果对应的权重；基于各检测结果对应的权重，以及各检测结果，确定真伪检测结果的置信度。

通过各检测结果的权重反应不同因素对真伪检测检测确定的重要程度，权重越大，表明重要程度越大，则基于各检测结果的权重所确定的真伪度检测结果更加准确。

在本申请的方案中，在对待检测视频进行处理时，可以采用分布式处理方式，即各个检测策略采用分布式的方式对待检测视频中的人物进行真伪检测，从而可提高数据处理效率。

在本申请的可选方案中，该方法还可以包括以下至少一项：

将真伪检测结果展示给用户；

根据真伪检测结果，确定待检测视频所属的目标类别并展示给用户，各视频的类别是根据已经检测完成的历史视频的真伪检测结果进行划分的；

真伪检测结果包括视频是伪造视频或不是伪造视频，若待检测视频是伪造视频，根据真伪检测结果，生成警示信息并展示给用户。

其中，在确定了待检测视频的真伪检测结果后，可基于待检测视频的真伪检测结果进行相应的处理，具体可包括以下至少一种处理方式：

第一种，将真伪检测结果展示给用户，以实现将真伪检测结果可视化展示的目的。

在实际应用中，可以由该方法对应执行主体展示该真伪检测结果，也可将真伪检测结果发送给其他设备，通过其他设备进行展示。

真伪检测结果中可以包括待检测视频的伪造方式、待检测视频的伪造方式在待检测视频中对应的原始信息、真伪检测结果的置信度中的至少一项。

第二种，根据真伪检测结果，确定待检测视频所属的目标类别并展示给用户，各视频的类别是根据已经检测完成的历史视频的真伪检测结果进行划分的。

其中，可基于已经检测完成的历史视频的真伪检测结果将历史视频划分成不同的类别，比如，按照不同的伪造方式，将历史视频划分为不同类别的视频，一种伪造方式可以对应一个类别。则在确定了待检测视频的真伪检测结果后，可基于该待检测视频的伪造方式，确定该待检测视频所属的目标类别，以实现对待检测视频的归类。基于类别的划分，可以将同一伪造方式的视频进行归类，便于对伪造视频的管理。

在确定了待检测视频的所属目标类别后，也可以将该目标类别可视化展示给用户。

第三种，真伪检测结果包括视频是伪造视频或不是伪造视频，若待检测视频是伪造视频，根据真伪检测结果，生成警示信息并展示给用户。

在待检测视频为伪造视频时，可生成相应的警示信息并可视化展示给用户。在实际应用中，该用户可以是视频中被伪造的人物，也可以是视频平台的管理人员。如果该用户是视频中被伪造的人物，则基于该警示信息，用户可以知道视频中的自己是否被伪造。如果该用户是视频平台的管理人员，则基于该警示信息可以告知管理人员哪个视频是伪造视频，以使得管理人员对伪造视频进行相应的处理。

在实际应用中，不同的伪造方式可以对应不同的处理方式，则在确定了待检测视频的伪造方式后，可基于该伪造方式确定出对应的处理方式，即与该伪造方式相同的视频均可以采用同样的处理方式进行处理。

为了更好的理解本申请实施例所提供的方法，下面结合图3和图4，对本申请实施例的方案进行进一步详细说明。

对于一个视频平台，该视频平台提供了辨别视频中人物真伪的功能，在需要对视频中人物的真伪进行辨别时，可通过本申请的方法对视频中的人物进行真伪的辨别，待检测视频可以是该平台中任意一个需要辨别视频中人物真伪的视频。下面基于以下示例，对本申请的方案进行具体说明：

步骤1：获取待检测视频，将待检测视频发送至检测系统(图3中所示的线上视频真实性检测系统)。

步骤2：对待检测视频进行视频解码，得到解码后的待检测视频。

步骤3：基于线上视频真实性检测系统，对解码后的待检测视频进行预处理(对应图3中所示的视频结构化预处理)，具体处理过程为：

对解码后的待检测视频进行特定人物识别，若待检测视频为包含特定人物的视频，则获取待检测视频中的视频关键帧和视频关键片段，该视频关键帧和视频关键片段中均包括特定人物。如果待检测视频为不包含特定人物的视频，则生成相应的提示信息并提供给用户。

其中，在该示例中，对待检测视频进行特定人物识别，具体可以通过以下方式：抽取待检测视频中包含特定人物的视频帧图像，对该视频帧图像进行分割，将其中特定人物对应的图像从视频帧图像中分割出来，然后对分割后的图像进行特定人物检测，即该图像中的人物是否为特定人物，数据库中可预先存储特定人物的身份信息，比如，人物图像等。

步骤4：基于在线检测平台中的视频真实性检测分析，基于视频关键帧和视频关键片段，对待检测视频中的特定人物进行多模态信息的真伪检测，具体处理过程为：

基于视频帧图像和视频片段，获取待检测视频中所包含的人物的多模态信息；

采用至少两种真伪检测策略对待检测视频中的人物进行多模态信息的真伪检测，得到各检测策略对应的检测结果。

在本示例中，至少两种真伪检测策略包括静态人物真伪检测策略，语音真伪检测策略，动态人物真伪检测策略和多模态信息一致性检测策略中的至少两种。每个真伪检测策略可对应一个检测模型，基于各个模型分别对待检测视频中的人物的多模态信息进行真伪检测，得到各检测策略对应的检测结果。检测模型的训练方式可参见前文中所描述的方式，在此不再赘述。

基于视频帧图像和视频片段可以得到面部信息、语音信息、肢体动作信息中的至少两项，基于静态人物真伪检测策略对面部信息的真伪进行检测，即检测面部信息是否为伪造的。基于动态人物真伪检测策略对面部信息和肢体动作信息中的至少一项进行真伪检测，即检测动态的面部信息和动态肢体动作信息中的至少一项是否为伪造的。基于语音真伪检测策略对语音信息的真伪进行检测，即检测语音信息是否是伪造的。基于多模态信息一致性检测策略对面部信息、语音信息、肢体动作信息中至少两项信息之间的一致性的真伪进行检测，即上述至少两个信息之间是否是过度自然的、连贯的。

步骤5：在得到上述各检测结果对应的检测结果之后，可以基于各检测策略对应的检测结果，得到待检测视频中人物的真伪检测结果(对应图3中所示的生成分析报告)。

其中，在确定真伪检测结果时，可将各检测策略对应的检测结果进行融合，以得到真伪检测结果(对应图3中所示的真伪多模型融合判断)。其中，将各检测策略对应的检测结果进行融合，得到真伪检测结果的一种可实现方式为：确定各检测策略对应的检测结果对应的权重，基于各检测结果对应的权重以及各检测结果，确定该真伪检测结果，不同检测结果对真伪检测结果的影响程度不同，影响越大，其对应的权重越大。

真伪检测结果包括视频是伪造视频或不是伪造视频，在该示例中，如果待检测视频是伪造视频，则还可以基于各检测策略对应的检测结果，确定待检测视频的伪造方式(对应图3中人脸视频伪造模式建模)。基于该伪造方式，可以详细的了解该待检测视频中的人物是怎样被伪造的。

步骤6：在待检测视频是伪造视频时，基于待检测视频的伪造方式，还可以确定出伪造方式在待检测视频中对应的原始信息(对应图3中所示的伪造痕迹分析)。其中，真伪检测结果还包括伪造方式在待检测视频中对应的原始信息。基于该原始信息，在将真伪检测结果提供给用户时，用户可以通过原始信息进一步了解被伪造人物的具体信息。

步骤7：在该示例中，在待检测视频是伪造视频时，基于各检测策略对应的检测结果，确定真伪检测结果的置信度(对应图3中的视频伪造风险评估)。其中，真伪检测结果还包括置信度。通过置信度可以反映出视频中人物是被伪造的概率。可以理解的是，在真伪检测结果中还可以包括各检测结果对应的置信度，基于各检测结果的置信度，可以反应出各检测结果中，人物是被伪造的概率。

步骤8：基于待检测视频的真伪检测结果，可以对应不同的处理方式(对应图3中所示的响应处理)，即如果待检测视频中人物是被伪造的，该待检测视频可以如何被处理，待检测视频中的人物不是不伪造的，该待检测视频可以被如何处理。

在该示例中，对于人物不是伪造的视频，可以基于前文所描述的至少一种方式进行相应的处理，比如，展示该视频的真伪检测结果。或者，根据该视频的真伪检测结果，确定该视频所属的目标类别并展示给用户。对于人物是伪造的视频，同样可以基于前文所描述的至少一种方式进行相应的处理，比如，展示该视频的真伪检测结果。或者，根据该视频的真伪检测结果，确定该视频所属的目标类别并展示给用户。或者，生成警示信息并展示给用户。

需要说明的是，上述步骤6至步骤8并不限定上述一种处理顺序，各步骤可以并行，也可以采用其他顺序执行，可基于实际需求进行配置。

步骤9：在得到待检测视频的真伪检测结果之后，即对待检测视频中人物的真伪进行检测后，可以基于该已经检测完成的待检测视频(对应图3中所示的数据存储)和各检测策略对应的检测结果(对应图3中所示的数据回流)，对检测模型进行更新。

如图4所示，在该示例中，可以将已经检测完成的待检测视频和各检测策略对应的检测结果作为模型更新(对应图3和图4中的模型压缩)和模型训练的数据，基于该数据持续对模型进行更新，以提高模型的精度。训练好的模型可以用于在线检测平台(图3和图4中所示的模型部署)。

在该示例中，可以将本申请对应的方法作为一个视频中人物真实性检测平台，如图5所示的视频中人物真实性检测平台的系统架构图，该平台包括数据准备、数据存储、在线监测平台和应用层四个层面，各个层面均可以提供对外接口，通过该对位外接口为外部提供这四个层面相对应的功能。

数据准备层(对应图5中的数据准备)是模型训练和评测过程中所需要的各类数据采集模块，该模块为在线检测平台的各模型提供数据，包括人物被伪造的视频和人物未被伪造的视频，其中，被伪造的视频可以包括对视频中目标人物进行替换的视频数据(对应图5中的人脸替换数据)、将视频中目标人脸表情进行操纵的视频数据(对应图5中的表情迁移数据)、篡改了语音信息的视频数据、计算机自动合成和人工合成的语音数据(对应图5中的合成语音数据)等。上述这些数据的获取方式主要包括通过现有人脸视频操纵算法进行自动生成，以及从现有网络平台收集相关的人脸操纵视频(对应图5中其他平台收集数据)。

数据存储层(对应图5中的数据存储)为数据提供存储和计算能力，该数据包括结构化数据和非结构化数据。该数据中还包括特定人物的相关数据(对应图5中所示的特定人物画像库)，通过在线检测平台检测得到的人物是被伪造的视频(对应图5中的线上回流异常数据)以及暂时无法判断出人物是否是伪造的视频。该数据存储测可采用分布式数据存储与处理的方式对上述数据进行存储与处理，以提高数据存储能力和数据处理能力。

在线检测平台是整个视频中人物真实性检测平台的核心层级，提供涉及以上研究内容的核心检测算法。基于对视频进行人物检测，识别视频中的人物是否为指定人物，初步判断该视频是否需要进行人物真实性检测(具体可通过图5中所示的检测分割和特定人物身份识别来对人物的真实性进行检测)，如果视频中的人物是特定人物，提取视频的视频帧图像和视频片段(对应图5中所示的视频关键帧提取和视频关键片段提取)。然后基于视频帧图像和视频片段中包括的多模态信息，通过至少两种真伪检测策略对人物进行真伪检测，得到各检测策略对应的检测结果。

其中，各检测策略可包括以下至少两项：静态人物真伪检测策略(对应图5中的单帧人脸操纵检测)，通过对视频帧图像中人脸的面部信息进行检测，检测人物的面部信息是否被伪造。动态人物真伪检测策略(对应图5中所示的多帧人脸操纵检测)，通过对视频片段中人脸的面部信息进行检测，检测人物动态的面部信息是否被伪造，比如，表情变化是否自然。动态人物真伪检测策略还包括检测人物动态的肢体动作信息是否被伪造，比如，肢体动作变化是否自然。多模态信息一致性检测策略(对应图5中所示的多模态信息融合检测)，通过对视频片段中面部信息、肢体动作信息、语音信息中至少两种信息之间的一致性进行检测，检测人物不同多模态信息之间是否连贯、自然，从而确定人物是否被伪造。

最后还可以对各检测策略对应的检测结果进行融合处理，得到视频中人物的真伪检测结果(对应图5中所示的真伪多模型融合判断)，并且，还可以基于各检测策略对应的检测结果，确定视频的伪造方式(对应图5中所示的人脸视频伪造模式建模)。

应用层是基于在线检测平台的结果进行数据分析并展示的上层应用。在应用层，可基于各检测策略对应的检测结果，对待检测视频进行以下至少一种处理：基于各检测策略对应的检测结果，确定视频伪造风险评估(确定真伪检测结果对应的置信度)。或者，基于各检测策略对应的检测结果，确定待检测视频的伪造方式，以实现伪造方式的来源追踪。或者，基于各检测策略对应的检测结果，确定待检测视频的伪造方式在待检测视频中对应的原始信息(对应图5中所示的伪造痕迹分析)。或者，基于真伪检测结果，确定对应的处理方式(对应图5中所示的处置响应)。

通过本方案的方法，在对待检测视频中人物的真伪进行检测时，是基于待检测视频中所包含的人物的多模态信息，采用至少两种真伪检测策略对待检测视频中的人物进行人物真伪检测的，多模态信息可以反应出人物不同维度的特点，这样从人物的语音信息、面部信息、肢体动作信息等多个维度进行人物真伪的检测，使得最终得到的真伪检测结果考虑了多个维度的因素对真伪检测结果的影响，进而使得真伪检测结果更准确。并且，在该方案中，可充分利用已检测完成的待检测视频，将该视频作为数据回流至数据准备层中的数据，通过该数据对模型进行更新。另外，还可基于待检测视频的伪造方式，找出具有类似伪造方式的伪造视频。

基于与图1中所示的方法相同的原理，本申请实施例还提供了一种视频中人物真伪检测装置20，如图6中所示，该视频中人物真伪检测装置20可以包括视频获取模块210，视频处理模块220，人物真伪检测模块230和检测结果确定模块240，其中：

视频获取模块210，用于获取待检测视频；

视频处理模块220，用于提取待检测视频中包含人物的视频关键帧和/或视频关键片段；

人物真伪检测模块230，用于基于视频关键帧和/或视频关键片段，采用至少两种真伪检测策略对待检测视频中的人物进行多模态信息的真伪检测，得到各检测策略对应的检测结果，其中，多模态信息包括语音信息、面部信息和肢体动作信息中的至少两项；

检测结果确定模块240，用于基于各检测策略对应的检测结果，确定待检测视频中人物的真伪检测结果。

可选的，至少两种真伪检测策略包括静态人物真伪检测策略，语音真伪检测策略，动态人物真伪检测策略和多模态信息一致性检测策略中的至少两种。

可选的，基于视频关键帧和/或视频关键片段，采用至少两种真伪检测策略对待检测视频中的人物进行多模态信息的真伪检测，得到各检测策略对应的检测结果是通过检测模型实现的，该装置还包括：

模型更新模块，用于对已经检测完成的历史视频的真伪检测结果进行存储；基于历史视频和历史视频的真伪检测结果，对检测模型进行更新；其中，更新包括模型结构和模型参数中至少一项的更新。

可选的，真伪检测结果包括视频是伪造视频或不是伪造视频，若待检测视频是伪造视频，该装置还包括：

伪造方式确定模块，用于基于各检测策略对应的检测结果，确定待检测视频的伪造方式；其中，真伪检测结果还包括伪造方式。

可选的，该装置还包括：

原始信息确定模块，用于基于伪造方式，确定伪造方式在待检测视频中对应的原始信息；其中，真伪检测结果还包括伪造方式在待检测视频中对应的原始信息。

可选的，若人物真伪的检测是针对特定人物的检测，视频处理模块220在提取待检测视频中包含人物的视频关键帧和/或视频关键片段时，具体用于：

对待检测视频进行特定人物检测；

可选的，多模态信息包括语音信息，该装置还包括：

语音真伪辨别模块，用于获取特定人物的基准语音信息；基于语音信息和基准语音信息，采用对应的真伪检测策略对待检测视频中的人物进行语音信息的真伪检测，得到该检测策略对应的检测结果。

置信度确定模块，用于基于各检测策略对应的检测结果，确定真伪检测结果的置信度；其中，真伪检测结果还包括置信度。

由于本申请实施例所提供的视频中人物真伪检测装置为可以执行本申请实施例中的视频中人物真伪检测方法的装置，故而基于本申请实施例中所提供的视频中人物真伪检测方法，本领域所属技术人员能够了解本申请实施例的视频中人物真伪检测装置的具体实施方式以及其各种变化形式，所以在此对于该视频中人物真伪检测装置如何实现本申请实施例中的视频中人物真伪检测方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的视频中人物真伪检测方法所采用的视频中人物真伪检测装置，都属于本申请所欲保护的范围。

基于与本申请实施例所提供的视频中人物真伪检测方法和视频中人物真伪检测装置相同的原理，本申请实施例还提供了一种电子设备，该电子设备可以包括处理器和存储器。其中，存储器中存储有可读指令，可读指令由处理器加载并执行时，可以实现本申请任一实施例中所示的方法。

作为一个示例，图7中示出了本申请实施例的方案所适用的一种电子设备4000的结构示意图，如图7中所示，该电子设备4000可以包括处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述任一方法实施例所示的方案。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频中人物真伪检测方法，其特征在于，包括：

获取待检测视频；

提取所述待检测视频中包含人物的视频关键帧和/或视频关键片段；

基于所述视频关键帧和/或所述视频关键片段，采用至少两种真伪检测策略对所述待检测视频中的人物进行多模态信息的真伪检测，得到各检测策略对应的检测结果，其中，所述多模态信息包括语音信息、面部信息和肢体动作信息中的至少两项；

基于所述各检测策略对应的检测结果，确定所述待检测视频中人物的真伪检测结果；

所述至少两种真伪检测策略包括静态人物真伪检测策略、语音真伪检测策略、动态人物真伪检测策略和多模态信息一致性检测策略中的至少两种；

所述多模态信息一致性检测策略包括确定所述待检测视频中人物的面部表情、语音、肢体动作之中的至少两项是否协调。

2.根据权利要求1所述的方法，其特征在于，所述基于所述视频关键帧和/或所述视频关键片段，采用至少两种真伪检测策略对所述待检测视频中的人物进行多模态信息的真伪检测，得到各检测策略对应的检测结果是通过检测模型实现的，所述方法还包括：

对已经检测完成的历史视频的真伪检测结果进行存储；

基于所述历史视频和所述历史视频的真伪检测结果，对所述检测模型进行更新；

其中，更新包括模型结构和模型参数中至少一项的更新。

3.根据权利要求1至2中任一项所述的方法，其特征在于，所述真伪检测结果包括视频是伪造视频或不是伪造视频，若所述待检测视频是伪造视频，所述方法还包括：

基于所述各检测策略对应的检测结果，确定所述待检测视频的伪造方式；

其中，所述真伪检测结果还包括所述伪造方式。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

基于所述伪造方式，确定所述伪造方式在所述待检测视频中对应的原始信息；

其中，所述真伪检测结果还包括所述伪造方式在所述待检测视频中对应的原始信息。

5.根据权利要求1至2中任一项所述的方法，其特征在于，若人物真伪的检测是针对特定人物的检测，所述提取所述待检测视频中包含人物的视频关键帧和/或视频关键片段，包括：

对所述待检测视频进行特定人物检测；

若所述待检测视频为包含特定人物的视频，则提取所述待检测视频中包含人物的视频关键帧和/或视频关键片段；

若所述待检测视频为不包含所述特定人物的视频，则生成相应的提示信息并提供给用户。

6.根据权利要求5所述的方法，其特征在于，所述多模态信息包括语音信息，所述方法还包括：

获取所述特定人物的基准语音信息；

基于所述语音信息和所述基准语音信息，采用对应的真伪检测策略对所述待检测视频中的人物进行语音信息的真伪检测，得到该检测策略对应的检测结果。

7.根据权利要求1至2中任一项所述的方法，其特征在于，所述真伪检测结果包括视频是伪造视频或不是伪造视频，若所述待检测视频是伪造视频，所述方法还包括：

基于所述各检测策略对应的检测结果，确定所述真伪检测结果的置信度；

其中，所述真伪检测结果还包括所述置信度。

8.根据权利要求1至2中任一项所述的方法，其特征在于，所述方法还包括以下至少一项：

将所述真伪检测结果展示给用户；

根据所述真伪检测结果，确定所述待检测视频所属的目标类别并展示给用户，各视频的类别是根据已经检测完成的历史视频的真伪检测结果进行划分的；

所述真伪检测结果包括视频是伪造视频或不是伪造视频，若所述待检测视频是伪造视频，根据所述真伪检测结果，生成警示信息并展示给用户。

9.一种视频中人物真伪的检测装置，其特征在于，包括：

视频获取模块，用于获取待检测视频；

视频处理模块，用于提取所述待检测视频中包含人物的视频关键帧和/或视频关键片段；

人物真伪检测模块，用于基于所述视频关键帧和/或所述视频关键片段，采用至少两种真伪检测策略对所述待检测视频中的人物进行多模态信息的真伪检测，得到各检测策略对应的检测结果，其中，所述多模态信息包括语音信息、面部信息和肢体动作信息中的至少两项；

检测结果确定模块，用于基于所述各检测策略对应的检测结果，确定所述待检测视频中人物的真伪检测结果；

10.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；

所述存储器中存储有可读指令，所述可读指令由所述处理器加载并执行时，实现如权利要求1至8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有可读指令，所述可读指令由处理器加载并执行时，实现如权利要求1至8中任一项所述的方法。