CN116957036A

CN116957036A - 伪造多媒体检测模型的训练方法、装置和计算设备

Info

Publication number: CN116957036A
Application number: CN202211619700.XA
Authority: CN
Inventors: 陈燊; 孙智敏; 曹隽逸; 姚太平; 邓新哲; 丁守鸿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-10-27

Abstract

提供了一种伪造多媒体检测模型的训练方法、装置和计算设备，包括：获取训练样本集，所述训练样本集包括多个带标签的第一伪造多媒体样本和多个无标签的第二伪造多媒体样本；利用所述训练样本集对深度网络模型进行半监督学习以获得初始检测模型；基于所述初始检测模型、所述第一伪造多媒体样本和所述第二伪造多媒体样本为各个第二伪造多媒体样本生成对应的伪标签；以及利用更新训练样本集对所述初始检测模型进行有监督学习以获得所述伪造媒体检测模型，所述更新训练样本集包括所述第一伪造多媒体样本和具有所述伪标签的第二伪造多媒体样本。通过这种多阶段学习训练而获得的伪造多媒体检测模型可以更加广泛和准确地检测和识别伪造多媒体的类别。

Description

伪造多媒体检测模型的训练方法、装置和计算设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种伪造多媒体检测模型的训练方法、装置、计算设备和存储介质。

背景技术

随着人工智能技术的迅猛发展，诸如伪造视频、图片之类的伪造多媒体也常常经由互联网广泛传播。尤其是深度伪造视频具有辨别难度大、制作成本低和传播速度快等特点，对个人隐私数据、社会稳定甚至安全等造成严重的潜在危险。因此，目前学术界和工业界的研究重点聚集于如何鉴别伪造多媒体，即，判断多媒体的内容是真实的还是伪造的。对于涉及人物的伪造视频，常见的伪造方式包括人脸替换、表情驱动、属性编辑和全脸生成等。人脸替换指的是将源人物的脸自动地替换至目标视频中的人物脸部，使目标视频中人物身份发生了改变。表情驱动是使用一段音频驱动目标视频中的人物口型，使用源人物姿势或表情驱动目标视频中人物的姿态或表情。目标视频中人物主体的身份保持不变，仅发生表情或姿态的重现。属性编辑通常仅改变目标主体的某些非身份属性特征，比如年龄、体格、穿着、添加眼镜等等。全脸生成是在没有特定源人物信息的情况下“无中生有”地创建一个全新的目标主体人物。

然而，针对伪造多媒体的算法也在不断地更新，出现了越来越多的用于伪造多媒体的软件或工具，不同的软件或工具采用不同的算法。因此，在一些应用场景中，人们不仅需要知道当前的多媒体内容是真实的还是伪造的，还需要识别伪造的多媒体是采用何种工具或软件（算法）来实施的。

发明内容

有鉴于此，本申请实施例提供了一种伪造多媒体检测模型的训练方法，包括：获取训练样本集，所述训练样本集包括多个带标签的第一伪造多媒体样本和多个无标签的第二伪多媒体样本；根据所述训练样本集对深度网络模型进行半监督学习以获得初始检测模型；根据所述初始检测模型、所述第一伪造多媒体样本和所述第二伪造多媒体样本为各个第二伪造多媒体样本生成对应的伪标签；以及根据更新训练样本集对所述初始检测模型进行有监督学习以获得所述伪造媒体检测模型，所述更新训练样本集包括所述第一伪造多媒体样本和具有所述伪标签的第二伪造多媒体样本。

本申请另一实施例提供了一种伪造多媒体检测模型的训练装置，该训练装置包括：训练样本集获取模块，其被配置成获取训练样本集，所述训练样本集包括多个带标签的第一伪造多媒体样本和多个无标签的第二伪造多媒体样本；半监督学习模块，其被配置成根据所述训练样本集对深度网络模型进行半监督学习以获得初始检测模型；伪标签生成模块，其被配置成根据所述初始检测模型、所述第一伪造多媒体样本和所述第二伪造多媒体样本为各个第二伪造多媒体样本生成对应的伪标签；以及有监督学习模块，其被配置成根据更新训练样本集对所述初始检测模型进行有监督学习以获得所述伪造媒体检测模型，所述更新训练样本集包括所述第一伪造多媒体样本和具有所述伪标签的第二伪造多媒体样本。

本申请的另一实施例提供了一种计算设备，包括存储器，其被配置成存储计算机可执行指令；处理器，其被配置成当所述计算机可执行指令被处理器执行时执行如前述方法实施例中的任一实施例所述的方法。

本申请的另一实施例提供了一种计算机可读存储介质，其存储有计算机可执行指令，当所述计算机可执行指令被执行时，执行如前述方法实施例中的任一实施例所述的方法。

本申请的另一实施例提供了一种计算机程序产品，包括计算机程序，其中所述计算机程序被处理器执行时实现如前述方法实施例中的任一实施例所述的方法。

本申请实施例提出的伪造多媒体检测模型的训练方法首先通过半监督学习获得用于检测伪造多媒体的初始检测模型，之后基于第一伪造多媒体样本、第二伪造多媒体样本和初始检测模型自适应地为无标签的第二伪造多媒体样本分配对应的伪标签，接着可以利用带标签的第一伪造多媒体样本和具有伪标签的第二伪造多媒体样本对初始检测模型进行有监督训练。通过这种多阶段学习训练而获得的伪造多媒体检测模型可以更加广泛和准确地检测和识别伪造多媒体的类别（例如，伪造多媒体的攻击类型）。

根据下文描述的实施例，本申请的这些和其它优点将变得清楚，并且参考下文描述的实施例来阐明本申请的这些和其它优点。

附图说明

现在将更详细并且参考附图来描述本申请的实施例，其中：

图1图示了根据本申请一个实施例的伪造多媒体检测模型的训练方法的示例实施环境；

图2图示了根据本申请一个实施例的伪造多媒体检测模型的训练方法中的步骤；

图3图示了根据本申请一个实施例的伪造多媒体检测模型的训练方法中利用训练样本集对深度网络模型进行半监督学习涉及的部分步骤；

图4图示了根据本申请另一实施例的伪造多媒体检测模型的训练方法中利用训练样本集对深度网络模型进行半监督学习涉及的部分步骤；

图5示意性地示出了根据本申请一个实施例的伪造多媒体检测模型的训练方法中利用训练样本集对深度网络模型进行半监督学习的主要过程；

图6图示了根据本申请一个实施例的伪造多媒体检测模型的训练方法中为第二伪造多媒体生成伪标签的主要步骤；

图7图示了根据本申请另一实施例的伪造多媒体检测模型的训练方法中为第二伪造多媒体生成伪标签的主要步骤；

图8图示了根据本申请一个实施例的采用K均值聚类算法对多个第一样本特征和所述多个第二样本特征进行聚类的主要步骤；

图9和图10图示了K均值聚类算法中聚类中心的初始化和聚类中心的更新；

图11图示了根据本申请一个实施例的伪造多媒体检测模型的训练方法所包括的三个阶段；

图12示出了根据本申请实施例提供的伪造多媒体检测模型的训练装置的框图；以及

图13图示了一个示例系统，其包括代表可以实现本文描述的各种方法或装置的一个或多个系统和/或设备的示例计算设备。

具体实施方式

下面的描述提供了本申请的各种实施例的特定细节，以便本领域的技术人员能够充分理解和实施本申请的各种实施例。应当理解，本申请的技术方案可以在没有这些细节中的一些细节的情况下被实施。在某些情况下，本申请并没有示出或详细描述一些熟知的结构或功能，以避免这些不必要的描述使对本申请的实施例的描述模糊不清。在本申请中使用的术语应当以其最宽泛的合理方式来理解，即使其是结合本申请的特定实施例被使用的。

在本申请中使用的术语应当以其最宽泛的合理方式来理解，即使其是结合本申请的特定实施例被使用的。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通、自动控制等几大方向。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本文提到的“多媒体”是对诸如视频、图像和音频之类的信息的总称。即，多媒体的内容可以以视频、图片或声音等形式呈现。

本申请的实施例提供了一种伪造多媒体检测模型的训练方法。图1图示了根据本申请一些实施例的伪造多媒体检测模型的训练方法的示例性实施环境。如图1所示，各种类型的终端（例如，手机、台式电脑、平板电脑、笔记本电脑和掌上电脑）通过网络与服务器进行通信。服务器例如可以是独立的物理服务器，也可以是由多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络、以及大数据和人工智能平台等基础云计算服务的云服务器。各个终端和服务器可以通过有线或无线通信方式进行直接或间接地连接，服务器也可以是区块链网络中的节点设备。

下文实施例中描述的伪造多媒体检测模型的训练方法中的各个步骤可以全部在服务器中执行，也可以由终端执行。或者，伪造多媒体检测模型的训练方法中的一部分步骤由服务器执行，另一部分步骤由终端执行。即，本文对伪造多媒体检测模型的训练方法中的哪些步骤由服务器执行、哪些步骤由终端执行不作限制。为了简便起见，下面以伪造多媒体检测模型的训练方法由服务器执行为例进行详细说明。

图2图示了根据本申请的实施例的伪造多媒体检测模型的训练方法的流程图。如图2所示，根据本申请的一个实施例，伪造多媒体检测模型的训练方法包括：S210、获取训练样本集，所述训练样本集包括多个带标签的第一伪造多媒体样本和多个无标签的第二伪造多媒体样本；S220、根据所述训练样本集对深度网络模型进行半监督学习以获得初始检测模型；S230、根据所述初始检测模型、所述第一伪造多媒体样本和所述第二伪造多媒体样本为各个第二伪造多媒体样本生成对应的伪标签；以及S240、根据更新训练样本集对所述初始检测模型进行有监督学习以获得所述伪造媒体检测模型，所述更新训练样本集包括所述第一伪造多媒体样本和具有所述伪标签的第二伪造多媒体样本。

上文提到的“标签”指示训练样本集中的伪造多媒体样本的类别。在一些实施例中，伪造多媒体样本的标签或伪标签用于区分产生伪造多媒体所采用的不同软件或工具，不同软件或工具通常对应用于创作伪造多媒体的不同算法。在该情形中，利用伪造多媒体检测模型去检测或识别用于创作伪造多媒体的软件或工具也称为伪造多媒体溯源。在本文中，为了创作伪造多媒体而采用的软件或工具也可称为攻击类型。训练样本集中的第一伪造多媒体样本或第二伪造多媒体样本可包括伪造视频样本、伪造图片样本、以及伪造音频样本中的任何一种。

常规的伪造多媒体溯源通常基于有标签数据集的训练来获得相应的伪造多媒体检测模型，而很少关注到无标签的伪造多媒体数据，而这些无标签的伪造多媒体数据中可能存在未知的新类别。虽然可以通过半监督学习的方案来利用有标签和无标签伪造多媒体数据，但是，现有的半监督学习方案对于数据增强的依赖程度较大。而且，一些伪造多媒体（例如，深度伪造图片）容易被噪声和模糊处理干扰，在没有较好的数据增强方案情况下，现有的半监督学习方案难以实现准确的伪造多媒体溯源。

图2所示的实施例实际上是一种基于半监督学习和有监督学习的多阶段训练方案，该方案首先利用带标签的第一伪造多媒体样本和无标签的第二伪造多媒体样本对深度网络模型进行半监督学习以获得初始检测模型，并基于第一伪造多媒体样本、第二伪造多媒体样本和初始检测模型可以自适应地为无标签的第二伪造多媒体样本分配对应的伪标签，由此，可以接着利用带标签的第一伪造多媒体样本和具有伪标签的第二伪造多媒体样本对初始检测模型进行有监督训练。通过这种多阶段学习训练而获得的伪造多媒体检测模型可以更加广泛和准确地检测和识别伪造多媒体的类别（例如，伪造多媒体的攻击类型）。

如图3所示，在一些实施例中，上述的步骤S220-根据所述训练样本集对深度网络模型进行半监督学习以获得初始检测模型包括：S310、利用所述深度网络模型对所述第一伪造多媒体样本和第二伪造多媒体样本进行特征提取，从而获得多个特征向量；S320、对所述多个特征向量进行归一化处理，从而获得归一化的特征向量；以及S330、基于归一化的特征向量确定用于所述初始检测模型的交叉熵损失函数。在一些实施例中，上述的归一化处理可以是批量归一化处理（batch normalization），通过对深度网络模型提取到的多个特征向量进行批量归一化处理，可以将度量和分类损失分为不同的特征空间，能够缓解模型训练中的梯度消失现象，加快模型的训练速度。

能够理解到的是，前述的步骤S220还涉及利用所述第一伪造多媒体样本和所述第二伪造多媒体样本对所述深度网络模型进行训练，直至所述初始检测模型的交叉熵损失函数最小，在一些实施例中，所述交叉熵损失函数包括用于评估所述初始检测模型针对所述第二伪造多媒体样本的预测不确定性的参数。

在一些实施例中，初始检测模型的交叉熵损失函数被表示为：

其中表示类别/>对应分类层的权重，/>为第i个样本的特征，s为用于调整输出分数的超参数，n为训练样本总数。

在半监督学习中，深度网络模型优化而产生的梯度会集中于带标签的第一伪造多媒体样本，导致对无标签的第二伪造多媒体样本数据的利用不足。因此，在上述实施例中，在交叉熵损失函数中引入用于评估初始检测模型针对第二伪造多媒体样本的预测不确定性的参数,

其中表示第二伪造多媒体样本。针对每个第二伪造多媒体样本，利用当前模型获得预测概率最高的分数/>，该最高的分数与1的差值作为针对该第二伪造多媒体样本的预测不确定性。对全部的第二伪造多媒体样本的预测不确定性进行平均，即得到全部的无标签的第二伪造多媒体样本的不确定性/>。

如图4所示，在一些实施例中，所述根据所述训练样本集对深度网络模型进行半监督学习以获得初始检测模型还包括：S410、响应于所述参数指示所述初始检测模型针对所述第二伪造多媒体样本的预测不确定性高于阈值，针对所述第一伪造多媒体样本增大类内方差约束；以及S240、响应于所述参数/>指示所述初始检测模型针对所述第二伪造多媒体样本的预测不确定性低于所述阈值，针对所述第一伪造多媒体样本减小类内方差约束。由此，可以使得参数/>具有适当的值，较好地平衡带标签的第一伪造多媒体样本和无标签的第二伪造多媒体样本的差异性特征学习。

图5用于示意性地说明基于深度网络模型的半监督学习。深度网络模型可以是任何适当的卷积神经网络模型，深度网络模型的示例包括但不限于EfficientNet等。如图5所示，多个带标签的第一伪造多媒体样本和多个无标签的第二伪造多媒体样本被提供给深度网络模型，深度网络模型对第一伪造多媒体样本和第二伪造多媒体样本进行特征提取获得多个特征向量，多个特征向量经批量归一化（Batch Normalization）处理输出针对多个第一伪造多媒体样本和多个第二伪造多媒体样本的分类结果。

在图5所示的示例中，深度网络模型的整体损失函数为：

即，除了上述的用于约束带标签的第一伪造多媒体样本的交叉熵损失函数外，整体损失函数还包括用于拉近无标签的第二伪造多媒体样本与其对应类别的样本的成对损失函数/>以及用来使未知类别中第二伪造多媒体样本分布更均匀的正则化约束/>，其中成对损失函数/>和正则化约束/>分别被表示为：

其中m为有标签数据Z_l（第一伪造多媒体样本）的总数，n为无标签数据Z_u（第二伪造多媒体样本）的总数，为网络分类层的权重参数，KL表示KL（Kullback-Leibler）散度，P(y)为类别y的先验概率。

图6示出了根据本申请的一些实施例中上述的步骤S230所包括的步骤。如图6所示，根据所述初始检测模型、所述第一伪造多媒体样本和所述第二伪造多媒体样本为各个第二伪造多媒体样本生成对应的伪标签可包括：S610、利用所述初始检测模型对各第一伪造多媒体样本和各第二伪造多媒体样本分别进行特征提取，获得与各第一伪造多媒体样本分别对应的多个第一样本特征和与各第二伪造多媒体样本分别对应的多个第二样本特征；以及S620、对所述多个第一样本特征和所述多个第二样本特征进行聚类，以获得各个第二样本特征的聚类标签，所述聚类标签作为与所述第二样本特征对应的第二伪造多媒体样本的伪标签。在步骤S610，利用之前的步骤获得的初始检测模型，可以从各个伪造多媒体样本（包括第一伪造多媒体样本和第二伪造多媒体样本）提取对应的第一样本特征或第二样本特征，这样，在步骤S620，可以对在步骤S610获得的多个第一样本特征和多个第二样本特征进行聚类，具有同一聚类标签的样本特征具有相同或相似的攻击类型，第二样本特征的聚类标签可以作为与该第二样本特征对应的第二伪造多媒体样本的伪标签。由此，可以将各个无标签的第二伪造多媒体样本变换为具有伪标签的第二伪造多媒体样本。

在一些实施例中，为了提升为无标签的第二伪造多媒体样本分配的伪标签的准确性，还可以对上述步骤S620中获得的伪标签进行更新。在图7所示的实施例中，步骤S710和S720和图6中所示的步骤S610和S620相同，但是，在该实施例中，所述根据所述初始检测模型、所述第一伪造多媒体样本和所述第二伪造多媒体样本为各个第二伪造多媒体样本生成对应的伪标签还包括：S730、利用所述第一伪造多媒体样本和具有所述伪标签的第二伪造多媒体样本对所述初始检测模型进行训练，以获得更新的初始检测模型；S740、利用所述更新的初始检测模型对各第一伪造多媒体样本和各第二伪造多媒体样本分别进行特征提取，获得与各第一伪造多媒体样本分别对应的多个更新第一样本特征和与各第二伪造多媒体样本分别对应的多个更新第二样本特征；以及S750、对所述多个更新第一样本特征和所述多个更新第二样本特征进行聚类，以更新所述第二伪造多媒体样本的伪标签。也就是说，在该实施例中，在第二伪造多媒体样本获得对应的伪标签后，可以以带标签的第一伪造多媒体样本和具有伪标签的第二伪造多媒体样本为训练样本对初始检测模型进行训练，以优化初始检测模型从参数从而获得更新的初始检测模型。接着，可以利用更新的初始检测模型再针对各第一伪造多媒体样本和各第二伪造多媒体样本重新进行特征提取，并获得多个更新第一样本特征和多个更新第二样本特征。在此基础上，可以对所述多个更新第一样本特征和所述多个更新第二样本特征进行聚类，从而获得更新的聚类标签，以更新所述第二伪造多媒体样本的伪标签。即，步骤S740和步骤S750的操作性质和之前的步骤S610和S620分别相同，都是分别执行特征提取操作和聚类操作，只是执行特征提取的模型和聚类操作所针对的样本特征有所不同而已。在一些实施例中，可以多次重复执行上述的步骤S730至S750，以进一步提升分配给第二伪造多媒体样本的伪标签的准确性。

在步骤S620中，可以采用本领域中适当的聚类算法对所述多个第一样本特征和所述多个第二样本特征进行聚类，下面结合K均值聚类算法进一步具体说明步骤S620。如图8所示，所述对所述多个第一样本特征和所述多个第二样本特征进行聚类可包括：S810、根据每个标签对应的第一伪造多媒体样本的第一样本特征的平均值形成第一初始聚类中心；S820、基于K均值聚类算法针对所述多个第二样本特征确定第二初始聚类中心；S830、基于邻近算法将所述多个第一样本特征和所述多个第二样本特征分配至第一初始聚类中心或第二初始聚类中心，形成以所述第一初始聚类中心或所述第二初始聚类中心为中心的多个样本特征簇；S840、根据每个样本特征簇所包含的样本特征的平均值为每个样本特征簇确定更新的聚类中心；S850、基于邻近算法将所述多个第一样本特征和所述多个第二样本特征分配至各个更新的聚类中心；S860、重复执行所述确定更新的聚类中心的步骤和基于邻近算法将所述多个第一样本特征和所述多个第二样本特征分配至各个更新的聚类中心的步骤，直到所获得的各个样本特征簇的聚类中心不变；以及S870、将聚类中心不变的各个样本特征簇作为目标样本特征簇，并将第二样本特征所在的目标样本特征簇的簇标签作为所述第二样本特征的聚类标签。

在步骤S810中，如果某一标签对应的第一伪造多媒体样本的数量为N，则与该标签对应的第一初始聚类中心可以被确定为N个第一伪造多媒体样本对应的N个第一样本特征的平均值。在步骤S820中，可以针对多个第二样本特征确定K个第二初始聚类中心，K为正整数，K的具体数值可以预先估算，本文对K值不做具体的限制。在步骤S830中，可以计算各个第一样本特征和多个第二样本特征到各个第一初始聚类中心或第二初始聚类中心的距离，并将各个第一样本特征和各个第二样本特征分配至距其最近的第一初始聚类中心或第二初始聚类中心，形成以所述第一初始聚类中心或所述第二初始聚类中心为中心的多个样本特征簇。在步骤S840中，可以计算每个样本特征簇所包含的样本特征的平均值，并将平均值确定为更新的聚类中心，相应地，在步骤S850中，再次基于邻近算法将所述多个第一样本特征和所述多个第二样本特征分配至各个更新的聚类中心。在步骤S860中，重复执行步骤S840中所述的确定更新的聚类中心的步骤和步骤S850中的将所述多个第一样本特征和所述多个第二样本特征分配至各个更新的聚类中心的步骤，直到所获得的各个样本特征簇的聚类中心不变。在步骤S870中，将聚类中心不变的各个样本特征簇作为目标样本特征簇，并将第二样本特征所在的目标样本特征簇的簇标签作为所述第二样本特征的聚类标签。该聚类标签也即与所述第二样本特征对应的第二伪造多媒体样本的伪标签。由于在聚类之前已经知晓第一样本特征的标签，因此，上述的聚类过程也可称为半监督聚类。

借助于图9和图10可以进一步理解上述的对所述多个第一样本特征和所述多个第二样本特征进行聚类的过程。如图9所示，在获得多个第一样本特征和多个第二特征后，可以对每个标签对应的第一伪造多媒体样本的第一样本特征的平均值形成第一初始聚类中心，并为针对所述多个第二样本特征确定多个第二初始聚类中心。如图10所示，各个第一样本特征和各个第二样本特征被分配至距其最近的第一初始聚类中心或第二初始聚类中心，形成以所述第一初始聚类中心或所述第二初始聚类中心为中心的多个样本特征簇，在此基础上可以更新各个样本特征簇的聚类中心。

在获得针对各个第二伪造多媒体样本的伪标签后，可以获得个更新训练样本集，更新训练样本集包括前述的各个第一伪造多媒体样本和具有伪标签的各个第二伪造多媒体样本。在一些实施例中，为了降低聚类噪声导致的干扰，可以从更新训练样本集中排除伪标签可信度较低的第二伪造多媒体样本。相应地，在一些实施例中，伪造多媒体检测模型的训练方法还包括如下步骤：确定所述多个第二样本特征中的每个第二样本特征与对应的聚类标签之间的相似性；以及从所述更新训练样本集中去除所述相似性低于相似性阈值的第二样本特征所对应的第二伪造多媒体特征。

从上述的实施例可以看出，应用本申请实施例提出的伪造多媒体检测模型的训练方法来获得伪造多媒体检测模型的过程大致可包括三个阶段，即，基于半监督学习获得初始检测模型、为无标签的第二伪造多媒体样本生成伪标签和利用更新训练样本集进行有监督学习。图11示意性地图示了上述的三个阶段。如图11所示，在获得初始检测模型后，初始检测模型可以通过对各个第一伪造多媒体样本和各个第二伪造多媒体样本进行特征提取，并执行前述的半监督聚类操作，以获得针对各个第二伪造多媒体样本的伪标签。接着，可以以各个第一伪造多媒体样本和具有伪标签的第二伪造多媒体样本为训练样本对初始检测模型进行训练，获得更新的初始检测模型。基于更新的初始检测模型可以再次执行特征提取操作和半监督聚类操作，从而对第二伪造多媒体样本的伪标签进行更新以获得更加准确的伪标签。在此基础上，可以以第一伪造多媒体样本和带有伪标签的第二伪造多媒体样本为训练样本对初始检测模型进行有监督训练，以获得最终的伪造多媒体检测模型。

如图11所示，在一些实施例中，对初始检测模型进行有监督训练所采用的更新训练样本还包括至少一个带标签的第三伪造多媒体样本，所述第三伪造多媒体样本具有与所述第一伪造多媒体样本的标签不同的另外标签。第一伪造多媒体样本的标签可以是目前已经在产业中被成熟和广泛应用的用于创作伪造多媒体的软件或工具，例如，人脸素描合成fsgan、美颜换妆BeautyGAN、换脸算法faceshifter、定制人脸生成算法StyleGAN等。第三伪造多媒体样本可以包括那些采用目前还处于研究和开发中的用于创作伪造多媒体的软件而产生的多媒体。第三伪造多媒体样本的示例包括但不限于面部伪造数据集FaceForensics++和深度人脸伪造数据集ForgeryNet等。由此，可以让更新训练样本集覆盖更多的标签，以提升伪造多媒体检测模型识别伪造多媒体的攻击类型的能力。

继续参考图11，在一些实施例中，在以第一伪造多媒体样本和带有伪标签的第二伪造多媒体样本为训练样本对初始检测模型进行有监督训练的过程中，初始检测模型的损失函数包括标签平滑交叉熵LCE，相应地，所述利用更新训练样本集对所述初始检测模型进行有监督学习以获得所述伪造媒体检测模型包括：利用所述第一伪造多媒体样本和具有所述伪标签的第二伪造多媒体样本对所述初始检测模型进行训练，直至所述标签平滑交叉熵最小。采用标签平滑交叉熵损失函数可以降低携带错误标签的训练样本对模型产生的负面影响。

在一些实施例中，第一伪造多媒体样本的标签和所述第二伪造多媒体样本的伪标签分别表示用于产生所述第一伪造多媒体样本和所述第二伪造多媒体样本的软件或工具。产生伪造多媒体的软件或工具的示例包括但不限于前述的脸素描合成fsgan、美颜换妆BeautyGAN、换脸算法faceshifter、定制人脸生成算法StyleGAN等。

本申请的另一实施例提供了一种伪造多媒体检测模型的训练装置，如图12所示，该训练装置包括：训练样本集获取模块1200a，其被配置成获取训练样本集，所述训练样本集包括多个带标签的第一伪造多媒体样本和多个无标签的第二伪造多媒体样本；半监督学习模块1200b，其被配置成利用所述训练样本集对深度网络模型进行半监督学习以获得初始检测模型；伪标签生成模块1200c，其被配置成基于所述初始检测模型、所述第一伪造多媒体样本和所述第二伪造多媒体样本为各个第二伪造多媒体样本生成对应的伪标签；以及有监督学习模块1200d，其被配置成利用更新训练样本集对所述初始检测模型进行有监督学习以获得所述伪造媒体检测模型，所述更新训练样本集包括所述第一伪造多媒体样本和具有所述伪标签的第二伪造多媒体样本。

本申请的另外的实施例提供了一种计算设备，该计算设备包括：存储器，其被配置成存储计算机可执行指令；处理器，其被配置成当所述计算机可执行指令被处理器执行时执行如前述任一实施例所述的方法中的步骤。

特别地，上文参考流程图描述的方法中的方法可以被实现为计算机程序。例如，本申请的实施例提供一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行上述实施例所述的伪造多媒体检测模型的训练方法中的至少一个步骤的程序代码。

本申请的另一实施例提供了一种或多种计算机可读存储介质，其上存储有计算机可读指令，该计算机可读指令在被执行时实现根据本申请一些实施例的伪造多媒体检测模型的训练方法。伪造多媒体检测模型的训练方法的各个步骤可以通过程序设计被转化为计算机可读指令，从而存储在计算机可读存储介质中。当这样的计算机可读存储介质被计算设备或计算机读取或访问时，其中的计算机可读指令被计算设备或计算机上的处理器执行以实现确定伪造多媒体检测模型的训练方法。

图13图示了示例系统，其包括代表可以实现本文各实施例描述的技术方案的一个或多个系统和/或设备中的示例计算设备1310。计算设备1310可以是例如服务提供商的服务器、与服务器相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。上面参照图12描述的伪造多媒体检测模型的训练装置1200可以采取计算设备1310的形式。替换地，伪造多媒体检测模型的训练装置1200可以以应用1316的形式被实现为计算机程序。

如图13图示的示例计算设备1310包括彼此通信耦合的处理系统1311、一个或多个计算机可读介质1312以及一个或多个I / O接口1313。尽管未示出，但是计算设备1310还可以包括系统总线或其他数据和命令传送系统，其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合，所述总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。

处理系统1311代表使用硬件执行一个或多个操作的功能。因此，处理系统1311被图示为包括可被配置为处理器、功能块等的硬件元件1314。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件1314不受其形成的材料或其中采用的处理机构的限制。例如，处理器可以由（多个）半导体和/或晶体管（例如，电子集成电路（IC））组成。在这样的上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读介质1312被图示为包括存储器/存储装置1315。存储器/存储装置1315表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置1315可以包括易失性介质（诸如随机存取存储器（RAM））和/或非易失性介质（诸如只读存储器（ROM）、闪存、光盘、磁盘等）。存储器/存储装置1315可以包括固定介质（例如，RAM、ROM、固定硬盘驱动器等）以及可移动介质（例如，闪存、可移动硬盘驱动器、光盘等）。计算机可读介质1312可以以下面进一步描述的各种其他方式进行配置。一个或多个I/O接口1313代表允许用户使用各种输入设备向计算设备1310输入命令和信息并且可选地还允许使用各种输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备（例如，鼠标）、麦克风（例如，用于语音输入）、扫描仪、触摸功能（例如，被配置为检测物理触摸的容性或其他传感器）、相机（例如，可以采用可见或不可见的波长（诸如红外频率）将不涉及触摸的运动检测为手势）等等。输出设备的示例包括显示设备（例如，显示器或投影仪）、扬声器、打印机、网卡、触觉响应设备等。因此，计算设备1310可以以下面进一步描述的各种方式进行配置以支持用户交互。

计算设备1310还包括应用1316。应用1316可以例如是参照图12描述的伪造多媒体检测模型的训练装置1200的软件实例，并且与计算设备1310中的其他元件相组合地实现本文描述的技术。

本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地，这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、组件、数据结构等。本文所使用的术语“模块”，“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的，意味着这些技术可以在具有各种处理器的各种计算平台上实现。

所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备1310访问的各种介质。作为示例而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

与单纯的信号传输、载波或信号本身相反，“计算机可读存储介质”是指能够持久存储信息的介质和/或设备，和/或有形的存储装置。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息（诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据）的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘（DVD）或其他光学存储装置、硬盘、盒式磁带、磁带，磁盘存储装置或其他磁存储设备，或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。

“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备1310的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指这样的信号，该信号的特征中的一个或多个被设置或改变，从而将信息编码到该信号中。作为示例而非限制，通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。

如前所述，硬件元件1314和计算机可读介质1312代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑，其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路（ASIC）、现场可编程门阵列（FPGA）、复杂可编程逻辑器件（CPLD）以及硅中的其它实现或其他硬件设备的组件。在这种上下文中，硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备，以及用于存储用于执行的指令的硬件设备，例如，先前描述的计算机可读存储介质。

前述的组合也可以用于实现本文所述的各种技术和模块。因此，可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件1314体现的一个或多个指令和/或逻辑。计算设备1310可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，例如通过使用处理系统的计算机可读存储介质和/或硬件元件1314，可以至少部分地以硬件来实现将模块实现为可由计算设备1310作为软件执行的模块。指令和/或功能可以由一个或多个制品（例如，一个或多个计算设备1310和/或处理系统1311）可执行/可操作以实现本文所述的技术、模块和示例。

各种实施方式中，计算设备1310可以采用各种不同的配置。例如，计算设备1310可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备1310还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备1310还可以实现为电视类设备，其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。

本文描述的技术可以由计算设备1310的这些各种配置来支持，并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台1322而在“云”1320上全部或部分地实现。云1320包括和/或代表用于资源1324的平台1322。平台1322抽象云1320的硬件（例如，服务器）和软件资源的底层功能。资源1324可以包括在远离计算设备1310的服务器上执行计算机处理时可以使用的其它应用和/或数据。资源1324还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。

平台1322可以抽象资源和功能以将计算设备1310与其他计算设备连接。平台1322还可以用于抽象资源的分级以提供遇到的对于经由平台1322实现的资源1324的需求的相应水平的分级。因此，在互连设备实施例中，本文描述的功能的实现可以分布在整个系统1300内。例如，功能可以部分地在计算设备1310上以及通过抽象云1320的功能的平台1322来实现。

应当理解，为清楚起见，参考不同的功能单元对本申请的实施例进行了描述。然而，将明显的是，在不偏离本申请的情况下，每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其它功能单元的一部分被实施。例如，被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此，对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考，而不是表明严格的逻辑或物理结构或组织。因此，本申请可以被实施在单个单元中，或者可以在物理上和功能上被分布在不同的单元和电路之间。

将理解的是，尽管第一、第二、第三等术语在本文中可以用来描述各种设备、元件、部件或部分，但是这些设备、元件、部件或部分不应当由这些术语限制。这些术语仅用来将一个设备、元件、部件或部分与另一个设备、元件、部件或部分相区分。

尽管已经结合一些实施例描述了本申请，但是其不旨在被限于在本文中所阐述的特定形式。相反，本申请的范围仅由所附权利要求来限制。附加地，尽管单独的特征可以被包括在不同的权利要求中，但是这些可以可能地被有利地组合，并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外，在权利要求中，词“包括”不排除其它元件，并且术语“一”或“一个”不排除多个。

Claims

1.一种伪造多媒体检测模型的训练方法，其特征在于，所述训练方法包括：

获取训练样本集，所述训练样本集包括多个带标签的第一伪造多媒体样本和多个无标签的第二伪造多媒体样本；

根据所述训练样本集对深度网络模型进行半监督学习以获得初始检测模型；

根据所述初始检测模型、所述第一伪造多媒体样本和所述第二伪造多媒体样本为各个第二伪造多媒体样本生成对应的伪标签；以及

根据更新训练样本集对所述初始检测模型进行有监督学习以获得所述伪造媒体检测模型，所述更新训练样本集包括所述第一伪造多媒体样本和具有所述伪标签的第二伪造多媒体样本。

2.根据权利要求1所述的训练方法，其特征在于，所述根据所述训练样本集对深度网络模型进行半监督学习以获得初始检测模型包括：

利用所述深度网络模型对所述第一伪造多媒体样本和第二伪造多媒体样本进行特征提取，从而获得多个特征向量；

对所述多个特征向量进行归一化处理，从而获得归一化的特征向量；以及

基于所述归一化的特征向量确定用于所述初始检测模型的交叉熵损失函数。

3.根据权利要求2所述的训练方法，其特征在于，所述交叉熵损失函数包括用于评估所述初始检测模型针对所述第二伪造多媒体样本的预测不确定性的参数。

4. 根据权利要求3所述的训练方法，其特征在于，所述根据所述训练样本集对深度网络模型进行半监督学习以获得初始检测模型还包括：

响应于所述参数指示所述初始检测模型针对所述第二伪造多媒体样本的预测不确定性高于阈值，针对所述第一伪造多媒体样本增大类内方差约束；以及

响应于所述参数指示所述初始检测模型针对所述第二伪造多媒体样本的预测不确定性低于所述阈值，针对所述第一伪造多媒体样本减小类内方差约束。

5. 根据权利要求1所述的训练方法，其特征在于，所述根据所述初始检测模型、所述第一伪造多媒体样本和所述第二伪造多媒体样本为各个第二伪造多媒体样本生成对应的伪标签包括：

利用所述初始检测模型对各第一伪造多媒体样本和各第二伪造多媒体样本分别进行特征提取，获得与各第一伪造多媒体样本分别对应的多个第一样本特征和与各第二伪造多媒体样本分别对应的多个第二样本特征；以及

对所述多个第一样本特征和所述多个第二样本特征进行聚类，以获得各个第二样本特征的聚类标签，所述聚类标签作为与所述第二样本特征对应的第二伪造多媒体样本的伪标签。

6.根据权利要求5所述的训练方法，其特征在于，所述根据所述初始检测模型、所述第一伪造多媒体样本和所述第二伪造多媒体样本为各个第二伪造多媒体样本生成对应的伪标签还包括：

利用所述第一伪造多媒体样本和具有所述伪标签的第二伪造多媒体样本对所述初始检测模型进行训练，以获得更新的初始检测模型；

利用所述更新的初始检测模型对各第一伪造多媒体样本和各第二伪造多媒体样本分别进行特征提取，获得与各第一伪造多媒体样本分别对应的多个更新第一样本特征和与各第二伪造多媒体样本分别对应的多个更新第二样本特征；以及

对所述多个更新第一样本特征和所述多个更新第二样本特征进行聚类，以更新所述第二伪造多媒体样本的伪标签。

7.根据权利要求5所述的训练方法，其特征在于，所述对所述多个第一样本特征和所述多个第二样本特征进行聚类包括：

根据每个标签对应的第一伪造多媒体样本的第一样本特征的平均值形成第一初始聚类中心；

基于K均值聚类算法针对所述多个第二样本特征确定第二初始聚类中心，其中K为正整数；

基于邻近算法将所述多个第一样本特征和所述多个第二样本特征分配至第一初始聚类中心或第二初始聚类中心，形成以所述第一初始聚类中心或所述第二初始聚类中心为中心的多个样本特征簇；

根据每个样本特征簇所包含的样本特征的平均值为每个样本特征簇确定更新的聚类中心；

基于邻近算法将所述多个第一样本特征和所述多个第二样本特征分配至各个更新的聚类中心；

重复执行所述确定更新的聚类中心的步骤和基于邻近算法将所述多个第一样本特征和所述多个第二样本特征分配至各个更新的聚类中心的步骤，直到所获得的各个样本特征簇的聚类中心不变；

将聚类中心不变的各个样本特征簇作为目标样本特征簇，并将第二样本特征所在的目标样本特征簇的簇标签作为所述第二样本特征的聚类标签。

8. 根据权利要求5所述的训练方法，其特征在于，所述训练方法还包括：

确定所述多个第二样本特征中的每个第二样本特征与对应的聚类标签之间的相似性；以及

从所述更新训练样本集中去除所述相似性低于相似性阈值的第二样本特征所对应的第二伪造多媒体样本。

9.根据权利要求1所述的训练方法，其特征在于，所述更新训练样本集还包括至少一个带标签的第三伪造多媒体样本，所述第三伪造多媒体样本具有与所述第一伪造多媒体样本的标签不同的另外标签。

10.根据权利要求1所述的训练方法，其特征在于，所述初始检测模型的损失函数包括标签平滑交叉熵，所述利用更新训练样本集对所述初始检测模型进行有监督学习以获得所述伪造媒体检测模型包括：

利用所述第一伪造多媒体样本和具有所述伪标签的第二伪造多媒体样本对所述初始检测模型进行训练，直至所述标签平滑交叉熵最小。

11.根据权利要求1所述的训练方法，其特征在于，第一伪造多媒体样本的标签和所述第二伪造多媒体样本的伪标签分别表示用于产生所述第一伪造多媒体样本和所述第二伪造多媒体样本的软件或工具。

12.一种伪造多媒体检测模型的训练装置，其特征在于，该训练装置包括：

训练样本集获取模块，其被配置成获取训练样本集，所述训练样本集包括多个带标签的第一伪造多媒体样本和多个无标签的第二伪造多媒体样本；

半监督学习模块，其被配置成根据所述训练样本集对深度网络模型进行半监督学习以获得初始检测模型；

伪标签生成模块，其被配置成根据所述初始检测模型、所述第一伪造多媒体样本和所述第二伪造多媒体样本为各个第二伪造多媒体样本生成对应的伪标签；以及

有监督学习模块，其被配置成根据更新训练样本集对所述初始检测模型进行有监督学习以获得所述伪造媒体检测模型，所述更新训练样本集包括所述第一伪造多媒体样本和具有所述伪标签的第二伪造多媒体样本。

13.一种计算设备，其特征在于，该计算设备包括：

存储器，其被配置成存储计算机可执行指令；

处理器，其被配置成当所述计算机可执行指令被处理器执行时执行如权利要求1-10中的任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，其存储有计算机可执行指令，当所述计算机可执行指令被执行时，执行如权利要求1-11中的任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-11中任一项所述方法的步骤。