CN117370882A

CN117370882A - 图像分类模型的训练方法、装置、设备、介质和程序产品

Info

Publication number: CN117370882A
Application number: CN202311435484.8A
Authority: CN
Inventors: 陈燊; 丁海馨; 姚太平; 张声传; 丁守鸿; 曹刘娟; 纪荣嵘
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-01-09

Abstract

本申请公开了一种图像分类模型的训练方法、装置、设备、介质和程序产品，属于图像分类领域，该方法包括：获取样本图像和至少两个标签文本；将样本图像转换为图像特征；以及将至少两个标签文本中的每个标签文本分别转换为对应的文本特征；计算图像特征和每个文本特征之间的特征距离；基于图像特征和每个文本特征之间的特征距离，训练图像分类模型。该方法通过计算图像特征和每个文本特征之间的特征距离，从而训练图像分类模型，得到与标签文本的语义信息有关的预测结果，与通过数字标签表示图像真伪的预测结果相比，图像分类模型的预测结果能够提供更多的语义信息。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。

Description

图像分类模型的训练方法、装置、设备、介质和程序产品

技术领域

本申请实施例涉及图像分类领域，特别涉及一种图像分类模型的训练方法、装置、设备、介质和程序产品。

背景技术

随着深度伪造技术的飞速发展，伪造图像在网络上不断出现。深度伪造技术是一种利用深度学习和人工智能算法来创建逼真的伪造内容的技术，伪造图像是通过深度伪造技术生成的，难以靠肉眼辨别与真实图像之间区别的图像。

相关技术中，在图像真伪检测模型中通过使用掩膜的二值标签进行深度伪造检测，从而判断图像是真实的还是伪造的。掩膜是一种二值图像，通过将掩膜应用于图像，可以实现对不同图像区域的遮挡或掩盖，掩膜的值为0表示该图像区域是真实的，掩膜的值为1表示该图像区域是伪造的。

然而，上述图像真伪检测模型只能通过数字标签0或数字标签1表示图像的真伪，不能提供更多的语义信息。

发明内容

本申请提供了一种图像分类模型的训练方法、装置、设备、介质和程序产品，该技术方案至少包括：

根据本申请实施例的一个方面，提供了一种图像分类模型的训练方法，该方法包括：

获取样本图像和至少两个标签文本；

将样本图像转换为图像特征；以及将至少两个标签文本中的每个标签文本分别转换为对应的文本特征；

计算图像特征和每个文本特征之间的特征距离；

基于图像特征和每个文本特征之间的特征距离，训练图像分类模型。

根据本申请实施例的另一个方面，提供了一种图像分类模型的训练装置，该装置包括：

获取模块，用于获取样本图像和至少两个标签文本；

转换模块，用于将样本图像转换为图像特征；以及将至少两个标签文本中的每个标签文本分别转换为对应的文本特征；

计算模块，用于计算图像特征和每个文本特征之间的特征距离；

训练模块，用于基于图像特征和每个文本特征之间的特征距离，训练图像分类模型。

在本申请的一个可选设计中，样本图像包括真实图像或伪造图像，至少两个标签文本包括真实文本和伪造文本；转换模块，用于将样本图像转换为真实图像特征或伪造图像特征；以及将真实文本转换为真实文本特征，将伪造文本转换为伪造文本特征；

训练模块，用于以最小化匹配的图像特征和文本特征之间的特征距离，最大化不匹配的图像特征和文本特征之间的特征距离为目标，训练图像分类模型；

其中，匹配的图像特征和文本特征包括：真实图像特征和真实文本特征，或伪造图像特征和伪造文本特征；不匹配的图像特征和文本特征包括：真实图像特征和伪造文本特征，或伪造图像特征和真实文本特征。

在本申请的一个可选设计中，计算模块，用于计算相似矩阵，相似矩阵用于表征图像特征和每个文本特征之间的余弦相似度；

训练模块，用于以最大化匹配的图像特征和文本特征之间的余弦相似度，最小化不匹配的图像特征和文本特征之间的余弦相似度为目标，训练图像分类模型。

在本申请的一个可选设计中，计算模块，用于将图像特征和真实文本特征相乘，计算相似矩阵的第一列；以及将图像特征和伪造文本特征相乘，计算相似矩阵的第二列；

将相似矩阵的第一列和相似矩阵的第二列相加，计算相似矩阵。

在本申请的一个可选设计中，转换模块，用于将样本图像转换为全局图像特征和局部图像特征，局部图像特征包括每个图像块的图像块特征，图像块是划分样本图像获得的；

至少两个标签文本包括全局真实文本、全局伪造文本、局部真实文本和局部伪造文本，全局文本包括全局真实文本和全局伪造文本；转换模块，用于将全局真实文本转换为全局真实文本特征，将全局伪造文本转换为全局伪造文本特征，将局部真实文本转换为局部真实文本特征，将局部伪造文本转换为局部伪造文本特征。

在本申请的一个可选设计中，计算模块，用于计算第一相似矩阵以及第二相似矩阵，第一相似矩阵用于表征全局图像特征和全局真实文本特征之间的余弦相似度，以及全局图像特征和全局伪造文本特征之间的余弦相似度；第二相似矩阵用于表征局部图像特征和局部真实文本特征之间的余弦相似度，以及局部图像特征和局部伪造文本特征之间的余弦相似度；

全局文本特征包括全局真实文本特征和全局伪造文本特征，局部文本特征包括局部真实文本特征和局部伪造文本特征；训练模块，用于以最大化匹配的全局图像特征和全局文本特征之间的余弦相似度，最小化不匹配的全局图像特征和全局文本特征之间的余弦相似度为目标，以及以最大化匹配的局部图像特征和局部文本特征之间的余弦相似度，最小化不匹配的局部图像特征和局部文本特征之间的余弦相似度为目标，训练图像分类模型。

在本申请的一个可选设计中，计算模块，用于将全局图像特征和全局真实文本特征相乘，计算第一相似矩阵的第一列；以及将全局图像特征和全局伪造文本特征相乘，计算第一相似矩阵的第二列；将第一相似矩阵的第一列和第一相似矩阵的第二列相加，计算第一相似矩阵；

以及将局部图像特征和局部真实文本特征相乘，计算第二相似矩阵的第一列；以及将局部图像特征和局部伪造文本特征相乘，计算第二相似矩阵的第二列；将第二相似矩阵的第一列和第二相似矩阵的第二列相加，计算第二相似矩阵。

在本申请的一个可选设计中，全局文本包括用于指示样本图像中的图像内容的文本。

根据本申请实施例的另一个方面，提供了一种计算机设备，计算机设备包括：处理器和存储器，存储器中存储有至少一段程序；处理器用于执行存储器中的至少一段程序以实现上述各个方面的图像分类模型的训练方法。

根据本申请实施例的另一个方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一段程序，至少一段程序由处理器加载并执行以实现如上述各个方面的图像分类模型的训练方法。

根据本申请实施例的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中，处理器从计算机可读存储介质中获取计算机指令，处理器执行计算机指令以实现如上述各个方面的图像分类模型的训练方法。

本申请实施例提供的技术方案可以包括以下有益效果：

该方法通过获取样本图像和至少两个标签文本；将样本图像转换为图像特征；以及将至少两个标签文本中的每个标签文本分别转换为对应的文本特征；计算图像特征和每个文本特征之间的特征距离，从而训练图像分类模型，得到与标签文本的语义信息有关的预测结果，与通过数字标签表示图像真伪的预测结果相比，图像分类模型的预测结果能够提供更多的语义信息。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本申请一个示例性实施例提供的图像分类系统的示意图；

图2示出了本申请一个示例性实施例提供的图像分类模型的网络结构的示意图；

图3示出了本申请一个示例性实施例提供的图像分类模型的训练方法的流程图；

图4示出了本申请一个示例性实施例提供的图像分类模型的训练方法的流程图；

图5示出了本申请一个示例性实施例提供的图像分类模型的训练方法的流程图；

图6示出了本申请一个示例性实施例提供的图像分类模型的训练方法的流程图；

图7示出了本申请一个示例性实施例提供的全局图像与局部图像文本对比学习算法的示意图；

图8示出了本申请一个示例性实施例提供的图像分类模型的训练装置的框图；

图9是本申请一个示例性实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

需要说明的是，本申请所涉及的对象信息(包括但不限于对象设备信息、对象个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经对象授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

应当理解，尽管在本申请中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一参数也可以被称为第二参数，类似地，第二参数也可以被称为第一参数。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请实施例中涉及的终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

首先，对本申请涉及的相关内容做出介绍：

深度伪造：简称为深伪，是一种利用深度学习和人工智能算法来创建逼真的伪造内容的技术。它可以用于合成逼真的人脸、语音、图像、视频等媒体内容，以至于难以辨别真伪。深度伪造技术是通过训练神经网络模型，使其能够自动学习并模仿目标对象的特征和行为，然后将这些特征应用于生成新的内容。

余弦相似度：是一种用于度量两个向量之间相似性的方法，通常用于比较文本、图像或其他数据的相似程度。余弦相似度衡量的是两个向量之间的夹角，具体来说，它计算了这两个向量在多维空间中的夹角余弦值。如果两个向量指向相同方向，夹角为0度，余弦相似度为1；如果它们指向完全相反的方向，夹角为180度，余弦相似度为-1；如果它们是正交的，夹角为90度，余弦相似度为0。因此，余弦相似度的范围通常在-1到1之间。

余弦距离：是一种用于度量两个向量之间相似性的方法，用于计算两个向量之间的差异程度。与余弦相似度类似，余弦距离也是通过计算向量之间的夹角来衡量它们之间的相似性。余弦距离与余弦相似度的计算方法相同，但结果的解释不同。余弦距离的取值范围通常从0到2之间。当两个向量的方向完全一致时，夹角为0度，余弦距离为0。当两个向量的方向相反时，夹角为180度，余弦距离为2。因此，余弦距离越接近0，表示两个向量越相似；越接近2，表示两个向量越不相似。

掩膜(Mask)：掩膜是一种二值图像，在进行深伪检测训练时，通过将掩膜应用于图像，可以实现对不同区域的遮挡或掩盖。掩膜的目的是在训练过程中引入一些区域性的扰动，以模拟伪造图像的特征。通过覆盖一部分图像区域，模型可以学习到在没有完整信息的情况下，仍然能够准确判断图像真实性的能力。

预训练模型(Pre-Training Model，PTM)：也称基石模型、大模型，指具有大参量的深度神经网络(Deep Neural Network，DNN)，在海量未标记的数据上对其进行训练，利用大参量DNN的函数近似能力使PTM在数据上提取共性特征，经微调(fine tune)、参数高效微调、prompt-tuning等技术，适用于下游任务。因此，预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(ELMO，BERT，GPT)、视觉模型(swin-transformer，ViT，V-MOE)、语音模型(VALL-E)、多模态模型(ViBERT，CLIP，Flamingo，Gato)等，其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容重要工具，也可以作为连接多个具体任务模型的通用接口。

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容、对话式交互、智能医疗、智能客服、游戏AI等，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

图1示出了本申请一个示例性实施例提供的图像分类系统100的示意图，该图像分类系统100包括：训练设备110、检测设备120和终端设备130。

训练设备110和检测设备120都是服务器，在本申请中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。

其中，训练设备110用于训练图像分类模型，检测设备120用于接收终端设备130发送的输入图像，并使用上述模型判断输入图像的类型，输出判断结果。可选的，训练设备110和检测设备120是同一设备；或者，训练设备110和检测设备120是不同设备，本申请实施例中以训练设备110和检测设备120是不同设备为例进行说明。

终端设备130可以是诸如个人计算机(Personal Computer，PC)、手机、平板电脑、车载终端(车机)、可穿戴设备等电子设备。

本领域技术人员可以知晓，上述终端设备130的数量可以更多或更少。比如上述终端设备130可以仅为一个，或者上述终端设备130为几十个或几百个，或者更多数量。本申请实施例对终端设备130的数量和设备类型不加以限定。

随着深度伪造技术的飞速发展，伪造图像在网络上不断出现，伪造图像是通过深度伪造技术生成的，难以靠肉眼辨别与真实图像之间区别的图像。例如将A人物的脸部替换为B人物的脸部，获得的包括B人物的脸部和A人物的身体的伪造图像，与包括A人物的脸部和A人物的身体的真实图像相比，难以发现脸部已经被替换。

相关技术中，在图像真伪检测模型中通过使用掩膜的二值标签进行深度伪造检测，从而判断图像是真实的还是伪造的。掩膜是一种二值图像，通过将掩膜应用于图像，可以实现对不同区域的遮挡或掩盖，掩膜取值为0表示图像是真实的，掩膜取值为1表示图像是伪造的。

然而，上述图像真伪检测模型只能通过数字标签0或数字标签1表示图像的真伪，不能提供更多的语义信息。为了解决上述问题，本申请实施例提供了一种图像分类模型，图2示出了本申请一个示例性实施例提供的图像分类模型200的网络结构的示意图。该图像分类模型200包括文本编码器210和图像编码器220，文本编码器210用于将输入文本转换为文本特征，图像编码器220用于将输入图像转换为图像特征。

针对输入图像，通过图像编码器220获取图像特征。图像编码器220将输入图像划分为至少两个图像块，得到图像块序列，这些图像块的大小相同或不同，本申请实施例对此不加以限定，以图像块大小相同为例进行说明。

针对全局图像(global image)24，图像编码器220中包括第二转换编码器(transformer encoder)架构222，通过该架构对图像块序列进行转换，得到图像块特征序列。在图像块特征序列的起始位置增加一个分类标识符(CLaSsification token，CLStoken)，该分类标识符对应位置的特征表示全局图像特征I_i(i＝1,…,b)，该全局图像特征包括输入图像的整张图像的信息，b是正整数，用于表示一个批次中全部输入图像的数量，在图2中以b＝5为例进行说明，其中分类标识符对应位置的特征表示全局图像特征I_i，其它位置上的特征表示局部图像特征

针对局部图像(local image)23，局部图像特征包括每个图像块分别对应的图像块特征，例如f₁,f₂,……,f_j(j＝1,…,HW)，分别表示第1个图像块特征，第2个图像块特征至第j个图像块特征。其中，H是局部图像特征的高的值(纵向的图像块特征数量)，W是局部图像特征的宽的值(横向的图像块特征数量)，H和W都是正整数，在图2中以H＝3，W＝3为例进行说明。

针对全局文本(global text)22，全局文本包括用于指示全局图像中的图像内容的文本，包括全局真实文本“一张真实脸部图像的照片(A photo of a real faceimage)”，该全局真实文本用于描述输入图像是真实的；和全局伪造文本“一张深度伪造脸部图像的照片(Aphoto of a deepfake face image)”，该全局伪造文本用于描述输入图像是伪造的。将全局真实文本输入文本编码器210，得到全局真实文本特征T^r；将全局伪造文本输入文本编码器210，得到全局伪造文本特征T^f。示例性的，在图2中通过填充斜线的方块表示全局真实文本特征T^r，通过填充十字线的方块表示全局伪造文本特征T^f。

针对局部文本(local text)21，包括局部真实文本“一个真实图像块(A realimage patch)”，该局部真实文本用于描述图像块是真实的，和局部伪造文本“一个深度伪造图像块(A deepfake image patch)”，该局部伪造文本用于描述图像块是伪造的。将局部真实文本输入文本编码器210，得到局部真实文本特征T^lr；将局部伪造文本输入文本编码器210，得到局部伪造文本特征T^lf。示例性的，在图2中通过填充横线的方块表示局部真实文本特征T^lr，通过填充竖线的方块表示局部伪造文本特征T^lf。

对于上述输入的文本，文本编码器210将不同的文本转换成对应的不同标识符，并在文本的起始位置增加表示开始的标识符，在文本的结束位置增加表示结束的标识符。文本编码器210中包括第一转换编码器架构212，通过该架构对标识符进行转换，得到对应的文本特征，其中表示结束的标识符位置(文本的结束位置)上的文本特征包括整个文本的信息。

从全局角度和局部角度分别进行图像文本对齐学习，使得图像分类模型200在学习对输入图像进行分类的同时，更加关注输入图像的局部伪造区域信息，从而提高图像分类模型200分类的能力。图像文本对齐学习是指通过训练图像分类模型200，使得图像和文本之间能够建立准确的对应关系。

对于一个批次的全局图像特征I_i(i＝1,…,b)，全局真实文本特征T^r和全局伪造文本特征T^f，图像分类模型200将全局图像特征和全局真实文本特征相乘，计算第一相似矩阵的第一列；以及将全局图像特征和全局伪造文本特征相乘，计算第一相似矩阵的第二列；将第一列和第二列相加，得到第一相似矩阵。

图像分类模型200训练预测一个2*b的第一相似矩阵，b是正整数，用于表示一个批次中全部输入图像的数量。该第一相似矩阵表征全局图像特征和全局真实文本特征之间的余弦相似度，以及全局图像特征和全局伪造文本特征之间的余弦相似度。示例性的，第一相似矩阵的第一行是I₁T^r，I₁T^f；第二行是I₂T^r，I₂T^f；第三行是I₃T^r，I₃T^f；第四行是I₄T^r，I₄T^f；第五行是I₅T^r，I₅T^f。如图2所示，一个批次的所有全局图像中，第一张全局图像(图2中最下面的图像，未画出)的全局图像特征对应I₁；最后一张全局图像(图2中最上面的图像)的全局图像特征对应I₅。

根据第一相似矩阵得出全局图像是真实的或伪造的全局预测结果，包括：根据第一相似矩阵中的余弦相似度与第一阈值之间的大小关系，得出全局图像是真实的或伪造的全局预测结果，第一阈值包括第一真实阈值和第一伪造阈值，这两种阈值相同或不同。示例性的，第一相似矩阵的第五行是0,0.9，表示对于最后一张全局图像，预测全局图像特征和全局真实文本特征之间的余弦相似度为0，预测全局图像特征和全局伪造文本特征之间的余弦相似度为0.9，在第一真实阈值和第一伪造阈值都为0.5的情况下，预测全局图像是伪造的。通过黑色方块表示预测全局图像是真实的，通过白色方块表示预测全局图像是伪造的。上述第一真实阈值和第一伪造阈值的取值仅为示例，根据实际应用场景可以是其它取值，本申请实施例对此不加以限定。

从数据库或网络中获取训练集，训练集包括样本全局图像以及对应的样本全局文本，对于样本全局图像对应的全局图像特征和样本全局文本对应的全局文本特征，训练图像分类模型200最大化匹配的全局图像特征和全局文本特征之间的余弦相似度，最小化不匹配的全局图像特征和全局文本特征之间的余弦相似度。匹配的全局图像特征和全局文本特征包括：全局真实图像特征和全局真实文本特征，或全局伪造图像特征和全局伪造文本特征；不匹配的全局图像特征和全局文本特征包括：全局真实图像特征和全局伪造文本特征，或全局伪造图像特征和全局真实文本特征。

例如，通过使用对比损失函数，拉近匹配的全局图像特征和全局文本特征之间的余弦距离(最大化匹配的全局图像特征和全局文本特征之间的余弦相似度)，拉远不匹配的全局图像特征和全局文本特征之间的余弦距离(最小化不匹配的全局图像特征和全局文本特征之间的余弦相似度)。

对于一个批次的局部图像特征以i＝5即最后一张图像为例，将局部图像特征在空间维度展开成图像块特征序列f_j(j＝1,…,HW)，H和W都是正整数。图像分类模型200将图像块特征序列f_j和局部真实文本特征T^lr相乘，计算第二相似矩阵的第一列；以及将图像块特征序列f_j和局部伪造文本特征T^lf相乘，计算第二相似矩阵的第二列；将第一列和第二列相加，得到第二相似矩阵。

图像分类模型200训练预测一个2*HW的第二相似矩阵。该第二相似矩阵表征图像块特征和局部真实文本特征之间的余弦相似度，以及图像块特征和局部伪造文本特征之间的余弦相似度。示例性的，第二相似矩阵的第一行是f₁T^lr，f₁T^lf；第二行是f₂T^lr，f₂T^lf……第九行是f₉T^lr，f₉T^lf。

根据第二相似矩阵得出图像块是真实的或伪造的局部预测结果，包括：根据第二相似矩阵中的余弦相似度与第二阈值之间的大小关系，得出图像块是真实的或伪造的局部预测结果，第二阈值包括第二真实阈值和第二伪造阈值，这两种阈值相同或不同。示例性的，第二相似矩阵的第五行是-0.5,0.8，表示对于第五个图像块，预测图像块特征和局部真实文本特征之间的余弦相似度为-0.5，预测图像块特征和局部伪造文本特征之间的余弦相似度为0.8，在第二真实阈值和第二伪造阈值都为0.5的情况下，预测第五个图像块是伪造的。通过黑色方块表示预测图像块是真实的，通过白色方块表示预测图像块是伪造的。

从数据库或网络中获取训练集，训练集包括样本局部图像以及样本局部文本，样本局部图像是划分样本全局图像得到的。样本局部图像中的掩膜大小和图像块特征大小相同，掩膜用于表示图像块是真实的或伪造的。

根据掩膜的值和掩膜阈值之间的大小关系，表示对应图像块是真实的或伪造的。在掩膜的值大于掩膜阈值的情况下，表示对应图像块是伪造的；在掩膜的值小于掩膜阈值的情况下，表示对应图像块是真实的。例如掩膜阈值为0.5，在掩膜的值为1的情况下，表示对应图像块是伪造的；在掩膜的值为0的情况下，表示对应图像块是真实的。

对于局部图像特征和局部文本特征，训练图像分类模型200最大化匹配的图像块特征和局部文本特征之间的余弦相似度，最小化不匹配的图像块特征和局部文本特征之间的余弦相似度。匹配的图像块特征和局部文本特征包括：真实图像块特征和局部真实文本特征，或伪造图像块特征和局部伪造文本特征；不匹配的全局图像特征和局部文本特征包括：真实图像块特征和局部伪造文本特征，或伪造图像块特征和局部真实文本特征。

例如，通过使用对比损失函数，拉近匹配的图像块特征和局部文本特征之间的余弦距离(最大化匹配的图像块特征和局部文本特征之间的余弦相似度)，拉远不匹配的图像块特征和局部文本特征之间的余弦距离(最小化不匹配的图像块特征和局部文本特征之间的余弦相似度)。

根据上述方法，计算图像特征和文本特征之间的余弦相似度，以此来得到预测的分类结果，也就是全局图像是真实的或是伪造的，以及如果全局图像是伪造的，哪一个或哪些图像块是伪造的。

综上所述，本实施例提供的方法通过计算图像特征和每个文本特征之间的特征距离，从而训练图像分类模型，得到与标签文本的语义信息有关的预测结果，与通过数字标签表示图像真伪的预测结果相比，图像分类模型的预测结果能够提供更多的语义信息；

本实施例提供的方法还通过从全局和局部两个角度进行图像和文本之间的对比学习，使得图像分类模型学习伪造图像和真实图像之间在局部图像特征上的区别，提高了图像分类模型判断图像真伪的能力；

本实施例提供的方法还通过全局文本包括用于指示全局图像中的图像内容的文本，例如全局文本为“一张真实脸部图像的照片”，加强了图像分类模型输出的预测结果的可解释性，与使用数字标签0或数字标签1表示预测结果相比更加清晰明了。

图3示出了本申请一个示例性实施例提供的图像分类模型的训练方法的流程图，该方法由训练设备执行，该方法包括：

步骤310：获取样本图像和至少两个标签文本。

在一些实施例中，获取样本图像和至少两个标签文本的方法包括如下至少之一：从预设置的数据集中获取样本图像和至少两个标签文本；从训练设备的输入内容中获取样本图像和至少两个标签文本；从网络上获取样本图像和至少两个标签文本。

在一些实施例中，样本图像是一张或多张，每张样本图像携带对应的真伪标签，真伪标签用于指示该样本图像实际上是真实图像或伪造图像，是真值标签。

在一些实施例中，样本图像包括如下至少之一：从数据集或网络中获取的图像；通过拍摄设备获取的照片；从视频或直播中截取的视频帧。

在一些实施例中，标签文本是用于解释样本图像的文本，例如“一张真实的照片”或“一张伪造的照片”，与样本图像的实际情况不一定相同。

在一些实施例中，至少两个标签文本基于不同的文本内容，对应不同的分类方式，例如标签文本包括真实文本和伪造文本，真实文本用于表示样本图像的内容是真实的，伪造文本用于表示样本图像的内容是伪造的；又例如标签文本包括全局文本和局部文本，全局文本用于表示整张样本图像，局部文本用于表示样本图像中的图像块。

步骤322：将样本图像转换为图像特征。

在一些实施例中，图像分类模型包括图像特征提取网络，图像特征提取网络用于将样本图像转换为图像特征。

在一些实施例中，图像特征提取网络包括图像编码器，候选区域生成器(RegionProposal Network)，分类器(Classifier)中至少之一。以图像编码器为例，图像编码器中包括转换编码器(transformer encoder)架构，通过该架构对样本图像进行转换，得到图像特征。

步骤324：将至少两个标签文本中的每个标签文本分别转换为对应的文本特征。

在一些实施例中，图像分类模型包括文本特征提取网络，文本特征提取网络用于将标签文本转换为文本特征。

在一些实施例中，文本特征提取网络包括文本编码器，词袋模型(Bag-of-wordsmodel)，词嵌入层中至少之一。以文本编码器为例，文本编码器中包括转换编码器架构，通过该架构将不同的标签文本转换成对应的不同标识符，并在标签文本的起始位置增加表示开始的标识符，在标签文本的结束位置增加表示结束的标识符。通过转换编码器架构对标识符进行转换，得到对应的文本特征，其中表示结束的标识符位置(标签文本的结束位置)上的文本特征包括整个标签文本的信息。

步骤330：计算图像特征和每个文本特征之间的特征距离。

其中，特征距离是指在特征空间中，图像特征和每个文本特征之间的相似程度或差异程度的度量。通过计算图像特征和每个文本特征之间的特征距离，可以获取图像特征和每个文本特征之间的相似程度。

在一些实施例中，特征距离有多种不同的度量方法，包括欧氏距离、曼哈顿距离、余弦相似度、余弦距离等。

步骤340：基于图像特征和每个文本特征之间的特征距离，训练图像分类模型。

在一些实施例中，拉近匹配的图像特征和文本特征之间的特征距离，训练图像分类模型。

在一些实施例中，拉远不匹配的图像特征和文本特征之间的特征距离，训练图像分类模型。

在一些实施例中，通过使用对比损失函数，拉近匹配的图像特征和文本特征之间的特征距离，拉远不匹配的图像特征和文本特征之间的特征距离，从而训练图像分类模型。

在一些实施例中，对比损失函数包括如下至少之一：余弦相似度损失函数；距离平方损失函数；交叉熵损失函数。

综上所述，本实施例提供的方法通过计算图像特征和每个文本特征之间的特征距离，从而训练图像分类模型，得到与标签文本的语义信息有关的预测结果，与通过数字标签表示图像真伪的预测结果相比，图像分类模型的预测结果能够提供更多的语义信息。

在一些实施例中，图像分类模型需要对图像的真伪进行分类，在这种情况下，至少两个标签文本包括真实文本和伪造文本。图4示出了本申请一个示例性实施例提供的图像分类模型的训练方法的流程图，该方法由训练设备执行，该方法包括：

步骤310：获取样本图像和至少两个标签文本。

步骤3222：将样本图像转换为真实图像特征或伪造图像特征。

在一些实施例中，样本图像包括真实图像或伪造图像，真实图像表示该样本图像是未经过修改的原始图像，伪造图像表示该样本图像是利用深度伪造技术等图像伪造技术，对原始图像进行修改后生成的图像。

在一些实施例中，图像分类模型包括图像特征提取网络，图像特征提取网络用于将样本图像转换为真实图像特征或伪造图像特征。

在一些实施例中，图像特征提取网络包括图像编码器，候选区域生成器，分类器中至少之一。以图像编码器为例，图像编码器中包括转换编码器架构，通过该架构对样本图像进行转换，得到真实图像特征或伪造图像特征。

步骤3242：将真实文本转换为真实文本特征，将伪造文本转换为伪造文本特征。

在一些实施例中，至少两个标签文本包括真实文本和伪造文本。真实文本用于表示样本图像的内容是真实的，伪造文本用于表示样本图像的内容是伪造的，例如真实文本为“一张真实脸部图像的照片”，伪造文本为“一张深度伪造脸部图像的照片”。

在一些实施例中，图像分类模型包括文本特征提取网络，文本特征提取网络用于将真实文本转换为真实文本特征，将伪造文本转换为伪造文本特征。

在一些实施例中，文本特征提取网络包括文本编码器，词袋模型，词嵌入层中至少之一。以文本编码器为例，文本编码器中包括转换编码器架构，通过该架构将不同的标签文本转换成对应的不同标识符，并在标签文本的起始位置增加表示开始的标识符，在标签文本的结束位置增加表示结束的标识符。再对标识符进行转换，得到对应的文本特征，其中表示结束的标识符位置(标签文本的结束位置)上的文本特征包括整个标签文本的信息。

示例性的，文本编码器将真实文本转换为真实标识符，再将真实标识符转换为真实文本特征；将伪造文本转换为伪造标识符，再将伪造标识符转换为伪造文本特征。

步骤330：计算图像特征和每个文本特征之间的特征距离。

在一些实施例中，在图像特征为真实图像特征的情况下，计算真实图像特征和真实文本特征之间的特征距离，以及计算真实图像特征和伪造文本特征之间的特征距离；

在图像特征为伪造图像特征的情况下，计算伪造图像特征和真实文本特征之间的特征距离，以及计算伪造图像特征和伪造文本特征之间的特征距离。

步骤342：以最小化匹配的图像特征和文本特征之间的特征距离，最大化不匹配的图像特征和文本特征之间的特征距离为目标，训练图像分类模型。

在一些实施例中，通过调整图像分类模型中的模型参数，拉近匹配的图像特征和文本特征之间的特征距离，拉远不匹配的图像特征和文本特征之间的特征距离，可以使得同一类别的图像特征和文本特征在特征空间中更加接近，而不同类别的图像特征和文本特征在特征空间中更加远离。

在一些实施例中，通过使用对比损失函数约束图像特征和文本特征之间的特征距离。

综上所述，本实施例提供的方法通过计算真实图像特征和真实文本特征之间的特征距离，以及真实图像特征和伪造文本特征之间的特征距离；或计算伪造图像特征和真实文本特征之间的特征距离，以及伪造图像特征和伪造文本特征之间的特征距离，从而训练图像分类模型，提高了图像分类模型的判断图像真伪的能力。

在一些实施例中，通过计算图像特征和每个文本特征之间的余弦相似度，来计算图像特征和每个文本特征之间的特征距离。图5示出了本申请一个示例性实施例提供的图像分类模型的训练方法的流程图，该方法由训练设备执行，该方法包括：

步骤310：获取样本图像和至少两个标签文本。

步骤3222：将样本图像转换为真实图像特征或伪造图像特征。

步骤332：计算相似矩阵。

其中，相似矩阵用于表征图像特征和每个文本特征之间的余弦相似度。

在一些实施例中，将图像特征和真实文本特征相乘，计算相似矩阵的第一列；以及将图像特征和伪造文本特征相乘，计算相似矩阵的第二列；将相似矩阵的第一列和相似矩阵的第二列相加，计算相似矩阵。

示例性的，以图2的全局图像特征和全局文本特征为例进行说明，该批次的样本图像共有b＝5张，全局图像特征表示为I_i(i＝1,…,5)，全局文本特征包括全局真实文本特征T^r和全局伪造文本特征T^f。

计算一个2*5的第一相似矩阵，该第一相似矩阵的第一列用于表征全局图像特征和全局真实文本特征之间的余弦相似度，第二列用于表征全局图像特征和全局伪造文本特征之间的余弦相似度。第一相似矩阵的第一行是I₁T^r，I₁T^f；第二行是I₂T^r，I₂T^f；第三行是I₃T^r，I₃T^f；第四行是I₄T^r，I₄T^f；第五行是I₅T^r，I₅T^f。如图2所示，一个批次的所有全局图像中，第一张全局图像(图2中最下面的图像，未画出)的全局图像特征对应I₁；最后一张全局图像(图2中最上面的图像)的全局图像特征对应I₅。

步骤3422：以最大化匹配的图像特征和文本特征之间的余弦相似度，最小化不匹配的图像特征和文本特征之间的余弦相似度为目标，训练图像分类模型。

在一些实施例中，通过使用对比损失函数，调整图像分类模型中的模型参数，最大化匹配的图像特征和文本特征之间的余弦相似度，最小化不匹配的图像特征和文本特征之间的余弦相似度。

综上所述，本实施例提供的方法通过计算相似矩阵，相似矩阵用于表征图像特征和每个文本特征之间的余弦相似度，以最大化匹配的图像特征和文本特征之间的余弦相似度，最小化不匹配的图像特征和文本特征之间的余弦相似度为目标，训练图像分类模型，从而提高了图像分类模型的分类能力。

在一些实施例中，通过从全局和局部两个角度进行图像和文本之间的对比学习，使得图像分类模型学习伪造图像和真实图像之间在局部图像特征上的区别。图6示出了本申请一个示例性实施例提供的图像分类模型的训练方法的流程图，该方法由训练设备执行，该方法包括：

步骤310：获取样本图像和至少两个标签文本。

在一些实施例中，至少两个标签文本包括全局真实文本、全局伪造文本、局部真实文本和局部伪造文本，全局文本包括全局真实文本和全局伪造文本，局部文本包括局部真实文本和局部伪造文本。

在一些实施例中，全局文本包括用于指示样本图像中的图像内容的文本。示例性的，在样本图像中的图像内容为人的脸部图像的照片的情况下，全局文本包括与“一张脸部图像的照片”相关的文本内容；在样本图像中的图像内容为汽车图像的照片的情况下，全局文本包括与“一张汽车图像的照片”相关的文本内容。

步骤3224：将样本图像转换为全局图像特征和局部图像特征。

其中，局部图像特征包括每个图像块的图像块特征，图像块是划分样本图像获得的，全局图像特征是用于表征整张样本图像的特征。

在一些实施例中，图像分类模型包括图像特征提取网络，图像特征提取网络用于将样本图像转换为全局图像特征和局部图像特征。

在一些实施例中，图像分类模型包括图像编码器，候选区域生成器，分类器中至少之一。以图像编码器为例，图像编码器中包括转换编码器架构，通过该架构对样本图像进行转换，得到全局图像特征和局部图像特征。

示例性的，以图2实施例为例进行说明，针对输入图像(样本图像)，通过图像编码器220获取图像特征。图像编码器220将输入图像划分为至少两个图像块，得到图像块序列，这些图像块的大小相同或不同，本申请实施例对此不加以限定，以图像块大小相同为例进行说明。

针对全局图像(global image)24，图像编码器220中包括第二转换编码器(transformer encoder)架构222，通过该架构对图像块序列进行转换，得到图像块特征序列。在图像块特征序列的起始位置增加一个分类标识符，该分类标识符对应位置的特征表示全局图像特征I_i(i＝1,…,b)，该全局图像特征包括输入图像的整张图像的信息，b是一个批次中全部输入图像的数量，在图2中以b＝5为例进行说明，其中分类标识符对应位置的特征表示全局图像特征I_i，其它位置上的特征表示局部图像特征

针对局部图像(local image)23，局部图像特征包括每个图像块分别对应的图像块特征，例如f₁,f₂,……,f_j(j＝1,…,HW)，分别表示第1个图像块特征，第2个图像块特征至第j个图像块特征。其中，H是局部图像特征的高的值(纵向的图像块特征数量)，W是局部图像特征的宽的值(横向的图像块特征数量)，在图2中以H＝3，W＝3为例进行说明。

步骤3244：将全局真实文本转换为全局真实文本特征，将全局伪造文本转换为全局伪造文本特征，将局部真实文本转换为局部真实文本特征，将局部伪造文本转换为局部伪造文本特征。

在一些实施例中，全局文本特征包括全局真实文本特征和全局伪造文本特征，局部文本特征包括局部真实文本特征和局部伪造文本特征。

在一些实施例中，图像分类模型包括文本特征提取网络，文本特征提取网络用于将全局真实文本转换为全局真实文本特征，将全局伪造文本转换为全局伪造文本特征，将局部真实文本转换为局部真实文本特征，将局部伪造文本转换为局部伪造文本特征。

示例性的，文本编码器将全局真实文本转换为全局真实标识符，再将全局真实标识符转换为全局真实文本特征；将全局伪造文本转换为全局伪造标识符，再将全局伪造标识符转换为全局伪造文本特征；将局部真实文本转换为局部真实标识符，再将局部真实标识符转换为局部真实文本特征；将局部伪造文本转换为局部伪造标识符，再将局部伪造标识符转换为局部伪造文本特征。

以图2实施例为例进行说明，针对全局文本(global text)22，包括全局真实文本“一张真实脸部图像的照片(A photo of a real face image)”，该全局真实文本用于描述输入图像(样本图像)是真实的；和全局伪造文本“一张深度伪造脸部图像的照片(A photoof a deepfake face image)”，该全局伪造文本用于描述输入图像(样本图像)是伪造的。将全局真实文本输入文本编码器210，得到全局真实文本特征T^r；将全局伪造文本输入文本编码器210，得到全局伪造文本特征T^f。

针对局部文本(local text)21，包括局部真实文本“一个真实图像块(A realimage patch)”，该局部真实文本用于描述图像块是真实的，和局部伪造文本“一个深度伪造图像块(A deepfake image patch)”，该局部伪造文本用于描述图像块是伪造的。将局部真实文本输入文本编码器210，得到局部真实文本特征T^lr；将局部伪造文本输入文本编码器210，得到局部伪造文本特征T^lf。

步骤334：计算第一相似矩阵以及第二相似矩阵。

其中，第一相似矩阵用于表征全局图像特征和全局真实文本特征之间的余弦相似度，以及全局图像特征和全局伪造文本特征之间的余弦相似度；

第二相似矩阵用于表征局部图像特征和局部真实文本特征之间的余弦相似度，以及局部图像特征和局部伪造文本特征之间的余弦相似度。

在一些实施例中，将全局图像特征和全局真实文本特征相乘，计算第一相似矩阵的第一列；以及将全局图像特征和全局伪造文本特征相乘，计算第一相似矩阵的第二列；将第一相似矩阵的第一列和第一相似矩阵的第二列相加，计算第一相似矩阵；

示例性的，以图2实施例为例进行说明，图像分类模型200训练预测一个2*5的第一相似矩阵，图像分类模型200将全局图像特征I_i和全局真实文本特征T^r相乘，计算第一相似矩阵的第一列；以及将全局图像特征I_i和全局伪造文本特征T^f相乘，计算第一相似矩阵的第二列；将第一列和第二列相加，得到第一相似矩阵。第一相似矩阵的第一行是I₁T^r，I₁T^f；第二行是I₂T^r，I₂T^f；第三行是I₃T^r，I₃T^f；第四行是I₄T^r，I₄T^f；第五行是I₅T^r，I₅T^f。一个批次的所有全局图像中，第一张全局图像(图2中最下面的图像，未画出)的全局图像特征对应I₁；最后一张全局图像(图2中最上面的图像)的全局图像特征对应I₅。

根据第一相似矩阵得出全局图像是真实的或伪造的全局预测结果，包括：根据第一相似矩阵中的余弦相似度与第一阈值之间的大小关系，得出全局图像是真实的或伪造的全局预测结果，第一阈值包括第一真实阈值和第一伪造阈值，这两种阈值相同或不同。示例性的，第一相似矩阵的第五行是0,0.9，表示对于最后一张全局图像，预测全局图像特征和全局真实文本特征之间的余弦相似度为0，预测全局图像特征和全局伪造文本特征之间的余弦相似度为0.9，在第一真实阈值和第一伪造阈值都为0.5的情况下，预测全局图像是伪造的。通过黑色方块表示预测全局图像是真实的，通过白色方块表示预测全局图像是伪造的。

图像分类模型200训练预测一个2*9的第二相似矩阵，将图像块特征序列f_j和局部真实文本特征T^lr相乘，计算第二相似矩阵的第一列；以及将图像块特征序列f_j和局部伪造文本特征T^lf相乘，计算第二相似矩阵的第二列；将第一列和第二列相加，得到第二相似矩阵。第二相似矩阵的第一行是f₁T^lr，f₁T^lf；第二行是f₂T^lr，f₂T^lf……第九行是f₉T^lr，f₉T^lf。

步骤3442：以最大化匹配的全局图像特征和全局文本特征之间的余弦相似度，最小化不匹配的全局图像特征和全局文本特征之间的余弦相似度为目标，以及以最大化匹配的局部图像特征和局部文本特征之间的余弦相似度，最小化不匹配的局部图像特征和局部文本特征之间的余弦相似度为目标，训练图像分类模型。

在一些实施例中，以最大化匹配的全局图像特征和全局文本特征之间的特征距离，最小化不匹配的全局图像特征和全局文本特征之间的特征距离为目标，以及以最大化匹配的局部图像特征和局部文本特征之间的特征距离，最小化不匹配的局部图像特征和局部文本特征之间的特征距离为目标，训练图像分类模型。

其中，匹配的全局图像特征和全局文本特征包括：全局真实图像特征和全局真实文本特征，或全局伪造图像特征和全局伪造文本特征；不匹配的全局图像特征和全局文本特征包括：全局真实图像特征和全局伪造文本特征，或全局伪造图像特征和全局真实文本特征；

匹配的局部图像特征和局部文本特征包括：局部真实图像特征和局部真实文本特征，或局部伪造图像特征和局部伪造文本特征；不匹配的局部图像特征和局部文本特征包括：局部真实图像特征和局部伪造文本特征，或局部伪造图像特征和局部真实文本特征。

图7示出了本申请一个示例性实施例提供的全局图像与局部图像文本对比学习算法的示意图。

其中，Algorithm1 algorithm of global and local image-text contrastivelearning表示：算法1：全局图像与局部图像文本对比学习算法；

Input：global_real_text_feature T^r，global_fake_text_feature T^f，

local_real_text_feature T^lr，local_fake_text_feature T^lf，

global_image_feature I，local_image_feature F^V，

image_global_ground_truth G，image_local_ground_truth G^l

表示：输入：全局真实文本特征T^r，全局伪造文本特征T^f，

局部真实文本特征T^lr，局部伪造文本特征T^lf，

全局图像特征I，局部图像特征F^V，

全局图像真值G，局部图像真值G^l；

Output：global_image_text_loss L_global，local_image_text_loss L_local

表示：输出：全局图像文本损失L_global，局部图像文本损失L_local；

T^g＝concatenate(T^r,T^f)表示通过连接函数(concatenate)将T^r和T^f连接起来，得到T^g；

T^g＝l₂.normalize(T^g)表示对T^g进行l₂正则化处理，得到T^g；

I＝l₂.normalize(I)表示对I进行l₂正则化处理，得到I；

logitis_g＝np.dot(T^g,I)表示将T^g和I进行特征点乘，得到logitis_g；

L_global＝cros_entropy_loss(logitis_g,G)表示基于logitis_g和G进行交叉熵损失约束，得到L_global；

T^l＝concatenate(T^lr,T^lf)表示通过连接函数(concatenate)将T^lr和T^lf连接起来，得到T^l；

T^l＝l₂.normalize(T^l)表示对T^l进行l₂.正则化处理，得到T^l；

F^V＝l₂.normalize(F^V)表示对F^V进行l₂正则化处理，得到F^V；

L_local＝0表示将L_local设为0；

forin F^V,G^l do表示一个循环迭代的过程，循环遍历F^V和G^l中的元素，将它们分别赋值给/>和/>

logitis_l＝np.dot(T^l,)表示将T^l和/>进行特征点乘，得到logitis_l；

I_local＝cros_entropy_loss(logitis_l,)表示基于logitis_l和/>进行交叉熵损失约束，得到I_local；

L_local＝L_local+I_local表示将L_local和I_local相加，得到L_local；

end for表示结束循环迭代；

return L_global，L_local表示返回L_global和L_local。

本实施例提供的方法还通过全局文本包括用于指示全局图像中的图像内容的文本，例如全局文本为“一张真实脸部图像的照片”，加强了图像分类模型输出的预测结果的可解释性，与使用数字0标签或数字标签1表示预测结果相比更加清晰明了。

上述实施例中，序号相同的步骤可以认为是同一步骤。其中，图3对应的实施例，图4对应的实施例，图5对应的实施例和图6对应的实施例可以单独实施，也可以组合实施，本申请对此不加以限定。

图8示出了本申请一个示例性实施例提供的图像分类模型的训练装置的框图，该装置包括获取模块810、转换模块820、计算模块830和训练模块840。

获取模块810，用于获取样本图像和至少两个标签文本；

转换模块820，用于将样本图像转换为图像特征；以及将至少两个标签文本中的每个标签文本分别转换为对应的文本特征；

计算模块830，用于计算图像特征和每个文本特征之间的特征距离；

训练模块840，用于基于图像特征和每个文本特征之间的特征距离，训练图像分类模型。

在本实施例的一种可能设计中，样本图像包括真实图像或伪造图像，至少两个标签文本包括真实文本和伪造文本；转换模块820，用于将样本图像转换为真实图像特征或伪造图像特征；以及将真实文本转换为真实文本特征，将伪造文本转换为伪造文本特征；

训练模块840，用于以最小化匹配的图像特征和文本特征之间的特征距离，最大化不匹配的图像特征和文本特征之间的特征距离为目标，训练图像分类模型；

在本实施例的一种可能设计中，计算模块830，用于计算相似矩阵，相似矩阵用于表征图像特征和每个文本特征之间的余弦相似度；

训练模块840，用于以最大化匹配的图像特征和文本特征之间的余弦相似度，最小化不匹配的图像特征和文本特征之间的余弦相似度为目标，训练图像分类模型。

在本实施例的一种可能设计中，计算模块830，用于将图像特征和真实文本特征相乘，计算相似矩阵的第一列；以及将图像特征和伪造文本特征相乘，计算相似矩阵的第二列；

在本实施例的一种可能设计中，转换模块820，用于将样本图像转换为全局图像特征和局部图像特征，局部图像特征包括每个图像块的图像块特征，图像块是划分样本图像获得的；

至少两个标签文本包括全局真实文本、全局伪造文本、局部真实文本和局部伪造文本，全局文本包括全局真实文本和全局伪造文本；转换模块820，用于将全局真实文本转换为全局真实文本特征，将全局伪造文本转换为全局伪造文本特征，将局部真实文本转换为局部真实文本特征，将局部伪造文本转换为局部伪造文本特征。

在本实施例的一种可能设计中，计算模块830，用于计算第一相似矩阵以及第二相似矩阵，第一相似矩阵用于表征全局图像特征和全局真实文本特征之间的余弦相似度，以及全局图像特征和全局伪造文本特征之间的余弦相似度；第二相似矩阵用于表征局部图像特征和局部真实文本特征之间的余弦相似度，以及局部图像特征和局部伪造文本特征之间的余弦相似度；

全局文本特征包括全局真实文本特征和全局伪造文本特征，局部文本特征包括局部真实文本特征和局部伪造文本特征；训练模块840，用于以最大化匹配的全局图像特征和全局文本特征之间的余弦相似度，最小化不匹配的全局图像特征和全局文本特征之间的余弦相似度为目标，以及以最大化匹配的局部图像特征和局部文本特征之间的余弦相似度，最小化不匹配的局部图像特征和局部文本特征之间的余弦相似度为目标，训练图像分类模型。

在本实施例的一种可能设计中，计算模块830，用于将全局图像特征和全局真实文本特征相乘，计算第一相似矩阵的第一列；以及将全局图像特征和全局伪造文本特征相乘，计算第一相似矩阵的第二列；将第一相似矩阵的第一列和第一相似矩阵的第二列相加，计算第一相似矩阵；

在本实施例的一种可能设计中，全局文本包括用于指示样本图像中的图像内容的文本。

获取模块810的功能介绍，可以参考图3实施例中步骤310的内容。

转换模块820的功能介绍，可以参考图3实施例中步骤322和步骤324，图4实施例中步骤3222和步骤3242，图6实施例中步骤3224和步骤3244的内容。

计算模块830的功能介绍，可以参考图3实施例中步骤330，图5实施例中步骤332，图6实施例中步骤334的内容。

训练模块840的功能介绍，可以参考图3实施例中步骤340，图4实施例中步骤342，图5实施例中步骤3422，图6实施例中步骤3442的内容。

本申请实施例还提供了一种计算机设备，该计算机设备包括：处理器和存储器，存储器中存储有至少一段程序；处理器用于执行存储器中的至少一段程序以实现上述各方法实施例提供的图像分类模型的训练方法。

图9是本申请一个示例性实施例提供的计算机设备900的结构框图。通常，计算机设备900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(Central ProcessingUnit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以包括图像处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。在一些实施例中，处理器901还可以包括人工智能(Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901执行以实现本申请中方法实施例提供的图像分类模型的训练方法。

在一些实施例中，计算机设备900还可选包括有：输入接口903和输出接口904。处理器901、存储器902和输入接口903、输出接口904之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与输入接口903、输出接口904相连。输入接口903、输出接口904可被用于将输入/输出相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和输入接口903、输出接口904被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和输入接口903、输出接口904中的任意一个或两个可以在单独的芯片或电路板上实现，本申请实施例对此不加以限定。

本领域技术人员可以理解，上述示出的结构并不构成对计算机设备900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种芯片，芯片包括可编程逻辑电路和/或程序指令，当芯片在计算机设备900上运行时，用于实现本申请中方法实施例提供的图像分类模型的训练方法。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中，处理器从计算机可读存储介质中获取该计算机指令，处理器执行该计算机指令以实现本申请中方法实施例提供的图像分类模型的训练方法。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一段程序，至少一段程序由处理器加载并执行以实现本申请中方法实施例提供的图像分类模型的训练方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的计算机可读存储介质可以是只读存储器，磁盘或光盘等。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读存储介质中或者作为计算机可读存储介质上的一个或多个指令或代码进行传输。计算机可读存储介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像分类模型的训练方法，其特征在于，所述方法包括：

获取样本图像和至少两个标签文本；

将所述样本图像转换为图像特征；以及将所述至少两个标签文本中的每个标签文本分别转换为对应的文本特征；

计算所述图像特征和每个所述文本特征之间的特征距离；

基于所述图像特征和每个所述文本特征之间的特征距离，训练所述图像分类模型。

2.根据权利要求1所述的方法，其特征在于，所述样本图像包括真实图像或伪造图像，所述至少两个标签文本包括真实文本和伪造文本；

所述将所述样本图像转换为图像特征；以及将所述至少两个标签文本中的每个标签文本分别转换为对应的文本特征，包括：

将所述样本图像转换为真实图像特征或伪造图像特征；以及将所述真实文本转换为真实文本特征，将所述伪造文本转换为伪造文本特征；

所述基于所述图像特征和每个所述文本特征之间的特征距离，训练所述图像分类模型，包括：

以最小化匹配的图像特征和文本特征之间的特征距离，最大化不匹配的图像特征和文本特征之间的特征距离为目标，训练所述图像分类模型；

其中，所述匹配的图像特征和文本特征包括：所述真实图像特征和所述真实文本特征，或所述伪造图像特征和所述伪造文本特征；所述不匹配的图像特征和文本特征包括：所述真实图像特征和所述伪造文本特征，或所述伪造图像特征和所述真实文本特征。

3.根据权利要求2所述的方法，其特征在于，所述计算所述图像特征和每个所述文本特征之间的特征距离，包括：

计算相似矩阵，所述相似矩阵用于表征所述图像特征和每个所述文本特征之间的余弦相似度；

所述以最小化匹配的图像特征和文本特征之间的特征距离，最大化不匹配的图像特征和文本特征之间的特征距离为目标，训练所述图像分类模型，包括：

以最大化匹配的图像特征和文本特征之间的余弦相似度，最小化不匹配的图像特征和文本特征之间的余弦相似度为目标，训练所述图像分类模型。

4.根据权利要求3所述的方法，其特征在于，所述计算相似矩阵，包括：

将所述图像特征和所述真实文本特征相乘，计算所述相似矩阵的第一列；以及将所述图像特征和所述伪造文本特征相乘，计算所述相似矩阵的第二列；

将所述相似矩阵的第一列和所述相似矩阵的第二列相加，计算所述相似矩阵。

5.根据权利要求2至4任一所述的方法，其特征在于，所述将所述样本图像转换为图像特征，包括：

将所述样本图像转换为全局图像特征和局部图像特征，所述局部图像特征包括每个图像块的图像块特征，所述图像块是划分所述样本图像获得的；

所述至少两个标签文本包括全局真实文本、全局伪造文本、局部真实文本和局部伪造文本，全局文本包括所述全局真实文本和所述全局伪造文本；所述将所述至少两个标签文本中的每个标签文本分别转换为对应的文本特征，包括：

将所述全局真实文本转换为全局真实文本特征，将所述全局伪造文本转换为全局伪造文本特征，将所述局部真实文本转换为局部真实文本特征，将所述局部伪造文本转换为局部伪造文本特征。

6.根据权利要求5所述的方法，其特征在于，所述计算所述图像特征和每个所述文本特征之间的特征距离，包括：

计算第一相似矩阵以及第二相似矩阵，所述第一相似矩阵用于表征所述全局图像特征和所述全局真实文本特征之间的余弦相似度，以及所述全局图像特征和所述全局伪造文本特征之间的余弦相似度；所述第二相似矩阵用于表征所述局部图像特征和所述局部真实文本特征之间的余弦相似度，以及所述局部图像特征和所述局部伪造文本特征之间的余弦相似度；

全局文本特征包括所述全局真实文本特征和所述全局伪造文本特征，局部文本特征包括所述局部真实文本特征和所述局部伪造文本特征；所述以最小化匹配的图像特征和文本特征之间的特征距离，最大化不匹配的图像特征和文本特征之间的特征距离为目标，训练所述图像分类模型，包括：

以最大化匹配的所述全局图像特征和所述全局文本特征之间的余弦相似度，最小化不匹配的所述全局图像特征和所述全局文本特征之间的余弦相似度为目标，以及以最大化匹配的所述局部图像特征和所述局部文本特征之间的余弦相似度，最小化不匹配的所述局部图像特征和所述局部文本特征之间的余弦相似度为目标，训练所述图像分类模型。

7.根据权利要求6所述的方法，其特征在于，所述计算第一相似矩阵以及第二相似矩阵，包括：

将所述全局图像特征和所述全局真实文本特征相乘，计算所述第一相似矩阵的第一列；以及将所述全局图像特征和所述全局伪造文本特征相乘，计算所述第一相似矩阵的第二列；将所述第一相似矩阵的第一列和所述第一相似矩阵的第二列相加，计算所述第一相似矩阵；

以及将所述局部图像特征和所述局部真实文本特征相乘，计算所述第二相似矩阵的第一列；以及将所述局部图像特征和所述局部伪造文本特征相乘，计算所述第二相似矩阵的第二列；将所述第二相似矩阵的第一列和所述第二相似矩阵的第二列相加，计算所述第二相似矩阵。

8.根据权利要求5至7任一所述的方法，其特征在于，所述全局文本包括用于指示所述样本图像中的图像内容的文本。

9.一种图像分类模型的训练装置，其特征在于，所述装置包括：

获取模块，用于获取样本图像和至少两个标签文本；

转换模块，用于将所述样本图像转换为图像特征；以及将所述至少两个标签文本中的每个标签文本分别转换为对应的文本特征；

计算模块，用于计算所述图像特征和每个所述文本特征之间的特征距离；

训练模块，用于基于所述图像特征和每个所述文本特征之间的特征距离，训练所述图像分类模型。

10.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一段程序；所述处理器用于执行所述存储器中的所述至少一段程序以实现如权利要求1至8任一所述的图像分类模型的训练方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至8任一所述的图像分类模型的训练方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，处理器从所述计算机可读存储介质中获取所述计算机指令，所述处理器执行所述计算机指令以实现如权利要求1至8任一所述的图像分类模型的训练方法。