CN117874706A

CN117874706A - 一种多模态知识蒸馏学习方法及装置

Info

Publication number: CN117874706A
Application number: CN202410281158.4A
Authority: CN
Inventors: 王宏升; 林峰
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2024-03-12
Filing date: 2024-03-12
Publication date: 2024-04-12
Anticipated expiration: 2044-03-12
Also published as: CN117874706B

Abstract

本说明书公开了一种多模态知识蒸馏学习方法及装置。采用本申请提供的多模态知识蒸馏学习方法，可通过本申请所设计的多模态模型中的语义学习子网和视觉学习子网，分别生成学习了图像信息的文本特征以及学习了文本信息的图像特征，并将二者对齐到同一语义空间中，最终通过输出子网融合生成同时包含语义和视觉信息的多模态特征。

Description

一种多模态知识蒸馏学习方法及装置

技术领域

本说明书涉及计算机技术领域，尤其涉及一种多模态知识蒸馏学习方法及装置。

背景技术

随着人工智能技术的发展，越来越多的应用场景需要综合利用多种不同的数据类型，例如自动驾驶、智能家居、智能医疗等，人们对多模态数据的需求也越来越大。多模态数据通常包括图像、文本、语音等类型，各种类型的数据都具有独特的特征。

由于多媒体数据往往是多种信息的传递媒介（例如一段视频中往往会同时使得文字信息、视觉信息和听觉信息得到传播），多模态学习已逐渐发展为多媒体内容分析与理解的主要手段。然而，由于不同模态的数据所具有的特征不同，在应用时往往只能分开单独处理，很难结合到一起。

因此，如何将这些不同类型的数据有效地组合起来进行分析和处理是一个亟待解决的问题。

发明内容

本说明书提供一种多模态知识蒸馏学习方法及装置，以至少部分地解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种多模态知识蒸馏学习方法，包括：

获取样本文本和样本图像，其中，所述样本文本与所述样本图像之间存在对应关系；

将所述样本文本和所述样本图像输入待训练的多模态模型，所述多模态模型至少包括提取子网、语义学习子网、视觉学习子网、输出子网；

通过所述提取子网提取所述样本文本的待优化文本特征与所述样本图像的待优化图像特征；

将所述待优化文本特征与所述待优化图像特征输入所述语义学习子网，得到所述语义学习子网输出的待优化第一特征，所述待优化第一特征用于表征所述文本特征与所述样本图像之间的匹配关系；并，

将所述待优化文本特征与所述待优化图像特征输入所述视觉学习子网，得到所述视觉学习子网输出的待优化第二特征，所述待优化第二特征用于表征所述图像特征与所述样本文本之间的匹配关系；

通过所述输出子网根据所述待优化第一特征和所述待优化第二特征输出待优化多模态特征；

以采用所述多模态特征执行下游任务的正确率最高，且所述待优化第一特征与所述待优化第二特征之间的差异最小为优化目标，对所述多模态模型进行训练。

可选的，将所述样本文本和所述样本图像输入待训练的多模态模型之前，所述方法还包括：

对所述样本文本进行数据预处理，所述数据预处理包括去除噪声、文本规范化、文本分词、停用词过滤中的至少一种。

可选的，在通过所述输出子网根据所述待优化第一特征和所述待优化第二特征输出待优化多模态特征之前，所述方法还包括：

将所述待优化第一特征映射到视觉嵌入空间，得到待优化第一嵌入特征，并将所述待优化第二特征映射到语义嵌入空间，得到待优化第二嵌入特征；

通过所述输出子网根据所述待优化第一特征和所述待优化第二特征输出待优化多模态特征，具体包括：

通过所述输出子网根据所述待优化第一嵌入特征和所述待优化第二嵌入特征，输出待优化多模态特征。

可选的，将所述待优化第一特征映射到视觉嵌入空间，得到待优化第一嵌入特征，具体包括：

提取所述待优化文本特征中的关键特征，作为所述待优化文本特征的属性；

根据所述属性为所述样本图像的各区域赋予区域权重，其中，所述样本图像中不同区域与不同的属性相关；

根据所述区域权重调整所述待优化第一特征，得到待优化第一嵌入特征。

可选的，将所述待优化第二特征映射到语义嵌入空间，得到待优化第二嵌入特征，具体包括：

针对每个属性，根据所述待优化图像特征，输出所述样本图像中包含该属性的置信度；

根据各置信度与所述样本图像包含各属性的真实情况之间的差异，调整所述待优化第二特征，得到待优化第二嵌入特征。

可选的，所述方法还包括：

获取对抗样本以及所述对抗样本的真实标签；

将所述对抗样本输入所述多模态模型，得到所述多模态模型输出的对抗样本特征；

根据所述对抗样本特征输出所述对抗样本的预测标签；

以所述预测标签和所述真实标签之间的差异最小为优化目标，对所述多模态模型进行调整。

可选的，所述方法还包括：

确定所述多模态模型的训练过程中，所述样本文本和所述样本图像涉及到的各样本类别，作为已知类样本；

获取各已知类样本的原型特征；

获取未知类样本以及所述未知类样本的真是类别，并将所述未知类样本输入所述多模态模型，使所述多模态模型根据所述原型特征输出所述未知类样本的预测样本特征；

根据所述预测样本特征确定所述未知类样本的预测类别；

以所述预测类别与所述真是类别之间的差异最小，对所述多模态模型进行调整。

本说明书提供的一种多模态知识蒸馏学习装置，所述装置包括：

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述多模态知识蒸馏学习方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述多模态知识蒸馏学习方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的多模态知识蒸馏学习方法中，获取样本文本和样本图像，其中，所述样本文本与所述样本图像之间存在对应关系；将所述样本文本和所述样本图像输入待训练的多模态模型，所述多模态模型至少包括提取子网、语义学习子网、视觉学习子网、输出子网；通过所述提取子网提取所述样本文本的待优化文本特征与所述样本图像的待优化图像特征；将所述待优化文本特征与所述待优化图像特征输入所述语义学习子网，得到所述语义学习子网输出的待优化第一特征，所述待优化第一特征用于表征所述文本特征与所述样本图像之间的匹配关系；并，将所述待优化文本特征与所述待优化图像特征输入所述视觉学习子网，得到所述视觉学习子网输出的待优化第二特征，所述待优化第二特征用于表征所述图像特征与所述样本文本之间的匹配关系；通过所述输出子网根据所述待优化第一特征和所述待优化第二特征输出待优化多模态特征；以采用所述多模态特征执行下游任务的正确率最高，且所述待优化第一特征与所述待优化第二特征之间的差异最小为优化目标，对所述多模态模型进行训练。

采用本申请提供的多模态知识蒸馏学习方法，可通过本申请所设计的多模态模型中的语义学习子网和视觉学习子网，分别生成学习了图像信息的文本特征以及学习了文本信息的图像特征，并将二者对齐到同一语义空间中，最终通过输出子网融合生成同时包含语义和视觉信息的多模态特征。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中一种多模态知识蒸馏学习方法的流程示意图；

图2为本说明书提供一种多模态模型的结构示意图；

图3为本说明书提供的一种多模态知识蒸馏学习装置的示意图；

图4为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中一种多模态知识蒸馏学习方法的流程示意图，具体包括以下步骤：

S100：获取样本文本和样本图像，其中，所述样本文本与所述样本图像之间存在对应关系。

本说明书所提供的多模态知识蒸馏学习方法中的所有步骤均可由任何具有计算功能的电子设备实现，例如终端、服务器等设备。

本方法主要应用于训练能够同时分析处理多模态数据的多模态模型。其中，多模态数据可包括但不限于文本数据、图像数据、音频数据、视频数据等，本说明书在此以文本数据和图像数据为例，对本方法进行说明。

在本方法中，多模态模型的作用为可根据输入的文本数据或图像数据，生成相应的特征向量。其中，对于拥有相同含义的文本和图像来说，多模态模型可生成相同的特征向量。基于此，可在此步骤中，可首先获取训练多模态模型所需要的样本文本和样本图像。

由于在训练图像的过程中，需要通过结合文本描述和视觉信息，实现对多模态模型对多模态属性的定位和理解，建立文本和图像之间的对应关系，因此，在此步骤中获取到的样本文本和样本图像之间应存在对应关系。换句话说，样本文本应该是用于描述样本图像的文本。

额外的，在完成样本文本和样本图像的收集后，可进一步对样本文本进行数据清洗。具体地，可对所述样本文本进行数据预处理，所述数据预处理包括去除噪声、文本规范化、文本分词、停用词过滤中的至少一种。

为了保证训练过程中多模态模型有更加规范、有效的输入，可在开始训练前，对样本文本进行一定的预处理。其中，去除噪声处理可以是去除样本文本中无效的标点、特殊字符等文本；文本规范化可以是将样本文本转换为统一格式的字体、字号等；文本分词可以是对样本文本进行分词处理；停用词移除可以是将分词处理得到的分词中，例如连词、介词、助词等无意义的停用词去除。

S102：将所述样本文本和所述样本图像输入待训练的多模态模型，所述多模态模型至少包括提取子网、语义学习子网、视觉学习子网、输出子网。

在此步骤中，可将步骤S100中获取到的样本文本和样本图像一起输入到多模态模型中。图2为本说明书提供的一种多模态模型的模型结构示意图，如图2所示，多模态模型中可至少包括提取子网、语义学习子网、视觉学习子网、输出子网。此时，多模态模型为待训练的神经网络模型。

S104：通过所述提取子网提取所述样本文本的待优化文本特征与所述样本图像的待优化图像特征。

在将样本文本和样本图像输入到多模态模型后，首先可通过多模态模型中的提取子网提取出样本文本的待优化文本特征和样本图像的待优化图像特征。如图2所示，提取子网中，可存在文本提取层和图像提取层，分别用于提取样本文本的文本特征和样本图像的图像特征。

其中，文本提取层可以是基于例如Word2Vec、GloVe、BERT等预训练词向量神经网络构建而成的，可用于将接收到的文本中的每个词转换为固定维度的特征向量；图像提取层可以是基于例如VGG、ResNet等卷积神经网络，或是基于Transformer结构的例如ViT、DeiT等视觉神经网络构建而成的，可用于从图像的原始像素中捕捉到图像的低级特征（如边缘、纹理等）和高级语义信息（如目标物、背景等）。

S106：将所述待优化文本特征与所述待优化图像特征输入所述语义学习子网，得到所述语义学习子网输出的待优化第一特征，所述待优化第一特征用于表征所述文本特征与所述样本图像之间的匹配关系。

在通过提取子网提取出样本文本的待优化文本特征和样本图像的待优化图像特征后，可在此步骤中，将待优化文本特征和待优化图像特征一起输入到语义学习子网中，语义学习子网可根据输入的特征输出融合了待优化文本特征和待优化图像特征的待优化第一特征。待优化第一特征为多模态特征。在语义学习子网中，主要目的为使多模态模型学习如何将输入的文本查询转换成能够与图像内容相对应的语义向量。

在本方法中，这个过程可通过编码器来实现。如图2所示，在语义学习子网中，存在文本到图像解码器。编码器通常采用深度学习中的神经网络结构，例如Transformer或者BERT等，这些结构能够捕获文本中的深层次语义信息，并将其映射为高维空间中的向量表示。在进行文本编码时，模型需要理解并抓取文本中的关键属性信息，这可能包括颜色、形状、大小等描述性词汇。编码得到的语义向量不仅包含了文本的直接信息，还包含了文本所蕴含的上下文关系和潜在含义。这样的语义向量表示可以被用来与图像数据中提取的特征进行匹配，从而实现跨模态的语义对齐。例如，如果用户查询的是“红色的苹果”，模型不仅需要在图像中找到苹果，还需要定位到苹果的具体区域，并辨认出苹果的颜色是否为红色。这一过程涉及到复杂的特征对比和空间关系的理解，需要模型具备强大的图像理解和属性抽象能力。基于此，就可以将用户输入的文本查询转换成与图像内容相对应的语义向量，从而实现文本到图像的映射。这种方法不仅可以用于图像检索任务，用户输入文本查询，系统返回与查询内容相匹配的图像；还可以用于图像生成任务，用户输入描述图像内容的文本，系统生成与描述相符的图像。

S108：将所述待优化文本特征与所述待优化图像特征输入所述视觉学习子网，得到所述视觉学习子网输出的待优化第二特征，所述待优化第二特征用于表征所述图像特征与所述样本文本之间的匹配关系。

另一方面，本方法中采用的多模态模型还设置了视觉学习子网。在此步骤中，可将待优化文本特征和待优化图像特征一起输入到视觉学习子网中，得到视觉学习子网输出的待优化第二特征。同样的，待优化第二特征也为多模态特征。在视觉学习子网中，主要目的为使多模态模型学习如何将输入的图像内容转换成具有对应含义的文本描述。

与语义学习子网的结构相似，在视觉学习子网中，也相应地存在用于实现上述目标的图像到文本解码器。图像到文本解码器关注将图像上的特定区域对应到某一段特定文本，也就是一个属性。解码器可采用标准的Transformer架构，结合多头子注意力机制（Multi-Head Self-Attention）和前馈神经网络（Feed Forward Neural Network，FFN）。多头自注意力机制可以使得模型在处理图像时，能够同时关注到图像的不同部分和特征，而FFN则负责在此基础上进一步提取和整合特征信息。在图像到文本解码器的工作过程中，模型首先需要将输入的图像通过卷积神经网络（Convolutional Neural Networks，CNN）等视觉模型提取成视觉特征向量。随后，在解码过程中，这些视觉特征向量会被逐层融合进来，并与语义属性特征相结合。通过这种方式，模型能够有效地识别出图像中与特定属性相关的区域，并对这些区域进行标记或强化。

值得一提的是，如图2所示，在本说明书提供的多模态模型中，语义学习子网和视觉学习子网是并行的，二者可同时运行。因此，步骤S108可在执行步骤S106的同时进行。

同时，无论是步骤S106中的文本到图像编码器，还是步骤S108中的图像到文本编码器，都需要涉及到跨模态的语义对齐，实现文本和图像之间的语义增强，在本方法中考虑采用较为成熟的CLIP架构或ViLT架构来实现该功能。

其一，CLIP为具有代表性的双塔模型架构。双塔即一个图像编码器建模图像信息，一个文本编码器建模文本信息，图像和文本的特征向量可以预先计算和存储，模态交互是通过图像和文本特征向量的余弦相似度来处理。这类模型的优点是处理多模态检索任务，但无法处理复杂的分类任务。CLIP 通过自监督的方式，使用4亿对（图像，文本）数据进行训练，将图像和文本映射到一个共享的向量空间中，从而使得模型能够理解图像和文本之间的语义关系，这是一种从自然语言监督中学习视觉模型的新方法。

CLIP模型主要由两部分组成：文本编码器和图像编码器。这两部分可以分别理解成文本和图像的特征编码器。在训练时，可给定一批N个（图像，文本）对，图像输入给图像本编码器得到表征I1，I2，...In，文本输入给文本编码器得到表征T1，T2，...Tn。(Ij，Tj) 属于是正样本，(Ij，Tk ) 属于负样本。最大化N 个正样本的余弦相似度，最小化N2 -N 个负样本的余弦相似度。在采用CLIP时，可从头训练它的文本编码器（GPT-2）和图像编码器（ViT），同时使用线性投影(权重为Wi， Wt) 将每个编码器的表征映射到多模态的嵌入空间。

另一方面，ViLT是具有代表性的单塔模型。单塔即一个图像-文本编码器同时建模图片信息和文本信息，使用Transformer模型对图像和文本特征进行交互。这类模型的优点是可以充分地将多模态的信息融合，更擅长做多模态分类任务，检索任务较慢。ViLT受到视觉Transformer中批次投影技术的启发，希望最小化每个模态的特征提取，因此使用预训练的ViT来初始化交互的 Transformer，这样直接利用交互层来处理视觉特征，无需额外新增视觉编码器，主要的计算量集中在Transformer的特征融合部分。文本输入通过单词嵌入矩阵嵌入，然后和位置嵌入矩阵相加，最后和模态嵌入矩阵拼接得到；图像输入通过分块操作分成CxPxP大小的 N个批次，通过线性投影矩阵嵌入，然后和然后和位置嵌入矩阵相加，最后和模态嵌入矩阵拼接得到结果。文本和图像的嵌入进行拼接，喂入Transformer模型。ViLT 的预训练过程主要有两个优化目标：图像文本匹配(ITM)和掩码语言建模(MLM)。图像文本匹配就是随机以0.5的概率将对齐的图片替换为不同的图片，然后对文本标志位对应输出使用一个线性层将输出特征映射成一个二值。用来判断文本和图片是否匹配。掩码语言建模也就是BERT中的完形填空任务，随机以 0.15 的概率遮住掉字符(tokens)，然后使用一个两层多层感知机得到输出。通过文本的上下文信息去预测遮住的文本字符。

无论是采用双塔模型CLIP还是单塔模型ViLT，均可完此步骤中在同一语义空间中对其待优化文本特征和待优化图像特征。当然，除上述实施例外，也可采用其他方式实现此步骤中对其文本特征和图像特征的目标。本说明书对此不做具体限制。

S110：通过所述输出子网根据所述待优化第一特征和所述待优化第二特征输出待优化多模态特征。

结合步骤S106中确定的待优化第一特征和步骤S108中确定出的待优化第二特征，可在此步骤中，通过输出子网输出同时融合了文本信息和图像信息的待优化多模态特征。

更进一步地，为了能够生成效果更好地待优化多模态特征，可具体地，在执行此步骤前，将所述待优化第一特征映射到视觉嵌入空间，得到待优化第一嵌入特征，并将所述待优化第二特征映射到语义嵌入空间，得到待优化第二嵌入特征。此时，可通过所述输出子网根据所述待优化第一嵌入特征和所述待优化第二嵌入特征，输出待优化多模态特征。

其中，在语义学习子网中将待优化第一特征映射到视觉嵌入空间时，可具体地，提取所述待优化文本特征中的关键特征，作为所述待优化文本特征的属性；根据所述属性为所述样本图像的各区域赋予区域权重，其中，所述样本图像中不同区域与不同的属性相关；根据所述区域权重调整所述待优化第一特征，得到待优化第一嵌入特征。

为了能够更加精确地定位和生成与文本描述相关的局部视觉信息，从而提高生成图像的质量、准确性和语义连贯性，可通过文本到图像解码器在语义属性特征的引导下不断定位局部视觉信息。因此，文本到图像解码器可以有效地定位与给定图像中的每个属性最相关的图像区域。在此方法中，可关注每个属性的图像区域，并将每个属性与相应的关注视觉区域特征进行比较，以确定每个属性的重要性。其中，属性为从编码的文本中提取关键特征。属性可包括但不限于颜色、形状、大小等描述图像内容的特征。

在实现上述内容时，可首先识别出图像中与各个属性相关的区域，这一步可以通过注意力机制实现，注意力机制能够对输入图像的不同区域赋予不同的权重。在语义学习子网中，还可包含一个多头自注意力层（Multi-Head Self-Attention Layer）和前馈网络层（Feed-Forward Network, FFN）。多头自注意力层允许模型在处理一个序列时同时关注序列中的多个位置，这样有助于捕获不同属性之间的相互作用和依赖关系。在属性指导下，解码器会不断地定位和聚焦于与当前属性最相关的局部视觉信息。多头自注意力层可使用待优化图像特征作为键（Keys）和值（Values），同时使用可学习的待优化文本特征作为查询（Queries），这样可以有效地将语义信息映射到视觉嵌入空间。

通过上述方式，可调整待优化图像特征中各部分特征在与待优化文本特征结合时的权重比例，进而调整结合后的待优化第一特征，得到待优化第一嵌入特征。

而在将视觉学习子网中将待优化第二特征映射到语义嵌入空间时，可具体地，提取所述待优化文本特征中的关键特征，作为所述待优化文本特征的属性；针对每个属性，根据所述待优化图像特征，输出所述样本图像中包含该属性的置信度；根据各置信度与所述样本图像包含各属性的真实情况之间的差异，调整所述待优化第二特征，得到待优化第二嵌入特征。

在这上述方法中，目标为将视觉特征转换为语义上有意义的表示。同样通过样本文本的属性，可将图像特征映射到基于映射函数的语义嵌入空间中。具体地，如图2所示，可使用一个特征增强编码器来处理和增强视觉特征，使其更适合于后续的语义嵌入操作。将增强后的视觉特征映射到语义嵌入空间中。这通常涉及到学习一个映射函数，该函数能够将视觉特征转换为对应的语义属性得分。其中，语义属性的得分p(i)表示样本图像中包含第i个属性的置信度。此时，图像到文本的映射可被看作是一个回归问题，其中模型的任务是最小化一批图像的嵌入属性得分SC（ci）与相应的真实样本属性得分GT（ci）之间的均方误差：

在通过文本到图像以及图像到文本的双向映射后，多模态模型可生成关联性更强、语义更加准确的待优化多模态特征。

S112：以采用所述多模态特征执行下游任务的正确率最高，且所述待优化第一特征与所述待优化第二特征之间的差异最小为优化目标，对所述多模态模型进行训练。

在此步骤中，可采用步骤S110中得到的待优化多模态特征执行下游任务，以对待优化多模态特征的准确程度进行判断，并对多模态模型进行训练。其中，下游任务可以是能够基于特征向量进行的各种任务，包括但不限于文本和图像的生成、识别、分类等任务。

在以提高基于多模态模型执行下游任务的成功率对多模态模型进行训练的同时，还可更进一步地，在训练过程中尽量对其语义学习子网输出的待优化第一特征和视觉学习子网输出的待优化第二特征。由于二者为根据具有相同含义的文本和图像分别生成的处于同一语义空间下的多模态特征，因此，在本方法中希望待优化第一特征和待优化第二特征之间的差距尽可能小。在经过训练后的理想情况下，可达到针对一组相互对应的文本-图像对，多模态模型可分别根据文本和图像生成处于同一语义空间的相同特征的效果。

在本方法中，语义学习子网专注于如何将语义信息映射到视觉表示，而视觉学习子网则关注于如何从视觉信息中提取和理解语义内容。这样的双向理解有助于模型更全面地捕捉和整合跨模态特征。因此，两个子网可以相互校正对方的错误。如果一个子网在某些任务上出现了误差或不足，另一个子网络的正确输出可以提供反馈，帮助其调整和优化。例如，语义学习子网可能会学习到如何更好地将语义概念映射到视觉模式，而视觉学习子网则可能学习到如何从复杂的视觉场景中提取关键的语义信息。

具体地，可通过蒸馏损失来实现语义学习子网和视觉学习子网的相互学习。将语义学习子网输出的待优化第一特征记为F1，将视觉学习子网输出的待优化第二特征记为F2。可得到蒸馏损失：

通过最小化上述蒸馏损失，可迫使两个子网学习生成相似的特征表示，以便更好地在多模态任务中协同工作。

更进一步地，为了提高多模态模型在实际应用时的鲁棒性，本方法提出采用对抗样本对多模态模型进行调整与训练的方式来加强模型的抗干扰能力。具体地，可获取对抗样本以及所述对抗样本的真实标签；将所述对抗样本输入所述多模态模型，得到所述多模态模型输出的对抗样本特征；根据所述对抗样本特征输出所述对抗样本的预测标签；以所述预测标签和所述真实标签之间的差异最小为优化目标，对所述多模态模型进行调整。

为了提高在采用多模态模型执行后续任务时生成的内容的真实性和多样性，提升判别器和生成器的性能和稳定性，本方法中使用对抗思想对模型预测能力再一次强化，这一步骤重点关注模型预测的鲁棒性。引入对比学习的思想，类似于生成对抗网络的结构。具体而言，考虑在采用多模态模型的输出执行后续任务时生成的标签和真实标签之间的相似性，定义模型的预测标签为YP，真实标签为YT。使用对抗性损失函数来最小化预测标签和真实标签之间的差异：

其中，σ是sigmoid激活函数，f是判别器网络。通过最小化上述对抗性损失，可使得模型生成的预测标签更难以被判别器与真实标签区分，从而提高多模态模型的生成质量和对真实数据的拟合能力。

更进一步地，在本方法中，还可基于零样本学习中的思想，通过已知类来预测未知类，进一步提高多模态模型对多模态信息的整合与理解能力。具体地，可确定所述多模态模型的训练过程中，所述样本文本和所述样本图像涉及到的各样本类别，作为已知类样本；获取各已知类样本的原型特征；获取未知类样本以及所述未知类样本的真是类别，并将所述未知类样本输入所述多模态模型，使所述多模态模型根据所述原型特征输出所述未知类样本的预测样本特征；根据所述预测样本特征确定所述未知类样本的预测类别；以所述预测类别与所述真是类别之间的差异最小，对所述多模态模型进行调整。

对于经过训练后的多模态模型来说，针对每个样本类别，都有一个原型向量。原型向量在高维属性空间中定义了类别的位置，原型向量中的每一维都对应一个属性特征。利用训练好的分类器，采用经过训练的多模态模型生成的多模态特征可对新的样本进行分类，预测它属于未见类别中的哪一个。这通常涉及到计算输入特征与各个语义原型之间的相似度或距离，并选择最匹配的类别作为预测结果。在推断过程中，确保模型的预测与语义原型保持一致性是至关重要的。这意味着模型不仅要在特征空间中进行准确的分类，还要在语义空间中找到合理的对应关系。评价模型的性能通常涉及到计算在未见类别上的分类准确率。在广义零样本学习（Generalized Zero-Shot Learning，GZSL）设置中，还需要考虑模型在看见类别上的表现，并且通常会使用平衡的评价指标来权衡两者。

采用本说明书提供的多模态知识蒸馏学习方法，可通过本说明书所设计的多模态模型中的语义学习子网和视觉学习子网，分别生成学习了图像信息的文本特征以及学习了文本信息的图像特征，并将二者对齐到同一语义空间中，最终通过输出子网融合生成同时包含语义和视觉信息的多模态特征。

与传统的深度学习模型相比，本方法中采用的多模态模型能扩展以往工作的研究粒度，并且使用多模态学习作为桥梁延展模型适用场景。以往的多模态工作大多关注的是粗粒度的零样本分类或者识别，一般是针对于一个图像类别进行区分，忽略了同一个类别包好多个子类。比如，狮子可以分为雄狮和雌狮，通常可以利用毛发量进行区分。过去的研究框架试图区分一张图片是狮子还是大象，而不是对性别的标签分类，本申请认为这存在很大的改进空间。进一步，本身将将这种细粒度的零样本学习问题抽象为标签的细粒度定位问题，通过设计结构化损失函数以及高效的训练增强策略和CLIP预训练模型，本说明书提出的多模态知识蒸馏学习方法能够在一定程度上深入理解标签和视觉图像的内在联系和上下文信息，对细粒度标签的学习知识能够迁移其他未见类中，可以运用到许多现实场景。

本方法训练出的多模态模型可应用于多种不同的场景。包括但不限于图像重建、多模态特征匹配等任务中，具备广阔的发展前景。以应用于人体计算机视觉中的三维人体姿势重建任务。这种方法的应用可以但不局限于以下几个方面：

文本指导的视觉原型：通过自然语言描述来指导视觉原型的生成，即通过对人体姿势的文本描述，辅助生成视觉原型，从而更好地理解和定位多模态属性。

多模态属性定位：结合文本描述和视觉信息，实现对多模态属性（如人体关节点、姿势等）的准确定位和识别。这可以帮助系统更好地理解人体的姿势和动作特征。

零样本学习的语义对齐：利用零样本学习技术，通过对未见过的属性进行语义对齐，实现对新样本的识别和推断能力，从而提高系统的泛化能力和适应性。

除上述应用外，本方法中采用的多模态模型还可应用于多种其它领域中，本说明书在此不再进行赘述。

以上是本说明书提供的多模态知识蒸馏学习方法，基于同样的思路，本说明书还提供了相应的多模态知识蒸馏学习装置，如图3所示。

图3为本说明书提供的一种多模态知识蒸馏学习装置示意图，具体包括：

获取模块200，用于获取样本文本和样本图像，其中，所述样本文本与所述样本图像之间存在对应关系；

输入模块202，用于将所述样本文本和所述样本图像输入待训练的多模态模型，所述多模态模型至少包括提取子网、语义学习子网、视觉学习子网、输出子网；

提取模块204，用于通过所述提取子网提取所述样本文本的待优化文本特征与所述样本图像的待优化图像特征；

语义学习模块206，用于将所述待优化文本特征与所述待优化图像特征输入所述语义学习子网，得到所述语义学习子网输出的待优化第一特征，所述待优化第一特征用于表征所述文本特征与所述样本图像之间的匹配关系；并，

视觉学习模块208，用于将所述待优化文本特征与所述待优化图像特征输入所述视觉学习子网，得到所述视觉学习子网输出的待优化第二特征，所述待优化第二特征用于表征所述图像特征与所述样本文本之间的匹配关系；

输出模块210，用于通过所述输出子网根据所述待优化第一特征和所述待优化第二特征输出待优化多模态特征；

训练模块212，用于以采用所述多模态特征执行下游任务的正确率最高，且所述待优化第一特征与所述待优化第二特征之间的差异最小为优化目标，对所述多模态模型进行训练。

可选地，所述装置还包括预处理模块214，具体用于对所述样本文本进行数据预处理，所述数据预处理包括去除噪声、文本规范化、文本分词、停用词过滤中的至少一种。

可选地，所述装置还包括映射模块216，具体用于将所述待优化第一特征映射到视觉嵌入空间，得到待优化第一嵌入特征，并将所述待优化第二特征映射到语义嵌入空间，得到待优化第二嵌入特征；

所述输出模块210，具体用于通过所述输出子网根据所述待优化第一嵌入特征和所述待优化第二嵌入特征，输出待优化多模态特征。

可选地，所述映射模块216，具体用于提取所述待优化文本特征中的关键特征，作为所述待优化文本特征的属性；根据所述属性为所述样本图像的各区域赋予区域权重，其中，所述样本图像中不同区域与不同的属性相关；根据所述区域权重调整所述待优化第一特征，得到待优化第一嵌入特征。

可选地，所述映射模块216，具体用于提取所述待优化文本特征中的关键特征，作为所述待优化文本特征的属性；针对每个属性，根据所述待优化图像特征，输出所述样本图像中包含该属性的置信度；根据各置信度与所述样本图像包含各属性的真实情况之间的差异，调整所述待优化第二特征，得到待优化第二嵌入特征。

可选地，所述装置还包括对抗模块218，具体用于获取对抗样本以及所述对抗样本的真实标签；将所述对抗样本输入所述多模态模型，得到所述多模态模型输出的对抗样本特征；根据所述对抗样本特征输出所述对抗样本的预测标签；以所述预测标签和所述真实标签之间的差异最小为优化目标，对所述多模态模型进行调整。

可选地，所述装置还包括预测模块220，具体用于确定所述多模态模型的训练过程中，所述样本文本和所述样本图像涉及到的各样本类别，作为已知类样本；获取各已知类样本的原型特征；获取未知类样本以及所述未知类样本的真是类别，并将所述未知类样本输入所述多模态模型，使所述多模态模型根据所述原型特征输出所述未知类样本的预测样本特征；根据所述预测样本特征确定所述未知类样本的预测类别；以所述预测类别与所述真是类别之间的差异最小，对所述多模态模型进行调整。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的多模态知识蒸馏学习方法。

本说明书还提供了图4所示的电子设备的示意结构图。如图4所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的多模态知识蒸馏学习方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（ProgrammableLogic Device， PLD）（例如现场可编程门阵列（Field Programmable Gate Array，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（HardwareDescription Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（AdvancedBoolean Expression Language）、AHDL（Altera Hardware Description Language）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（JavaHardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（Ruby HardwareDescription Language）等，目前最普遍使用的是VHDL（Very-High-Speed IntegratedCircuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种多模态知识蒸馏学习方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，将所述样本文本和所述样本图像输入待训练的多模态模型之前，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，在通过所述输出子网根据所述待优化第一特征和所述待优化第二特征输出待优化多模态特征之前，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，将所述待优化第一特征映射到视觉嵌入空间，得到待优化第一嵌入特征，具体包括：

5.如权利要求3所述的方法，其特征在于，将所述待优化第二特征映射到语义嵌入空间，得到待优化第二嵌入特征，具体包括：

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取对抗样本以及所述对抗样本的真实标签；

根据所述对抗样本特征输出所述对抗样本的预测标签；

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取各已知类样本的原型特征；

根据所述预测样本特征确定所述未知类样本的预测类别；

8.一种多模态知识蒸馏学习装置，其特征在于，包括：

获取模块，用于获取样本文本和样本图像，其中，所述样本文本与所述样本图像之间存在对应关系；

输入模块，用于将所述样本文本和所述样本图像输入待训练的多模态模型，所述多模态模型至少包括提取子网、语义学习子网、视觉学习子网、输出子网；

提取模块，用于通过所述提取子网提取所述样本文本的待优化文本特征与所述样本图像的待优化图像特征；

语义学习模块，用于将所述待优化文本特征与所述待优化图像特征输入所述语义学习子网，得到所述语义学习子网输出的待优化第一特征，所述待优化第一特征用于表征所述文本特征与所述样本图像之间的匹配关系；并，

视觉学习模块，用于将所述待优化文本特征与所述待优化图像特征输入所述视觉学习子网，得到所述视觉学习子网输出的待优化第二特征，所述待优化第二特征用于表征所述图像特征与所述样本文本之间的匹配关系；

输出模块，用于通过所述输出子网根据所述待优化第一特征和所述待优化第二特征输出待优化多模态特征；

训练模块，用于以采用所述多模态特征执行下游任务的正确率最高，且所述待优化第一特征与所述待优化第二特征之间的差异最小为优化目标，对所述多模态模型进行训练。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。