CN117909535B

CN117909535B - 基于视觉语言模型的组合理解方法、系统、设备与介质

Info

Publication number: CN117909535B
Application number: CN202410301227.3A
Authority: CN
Inventors: 谢洪涛; 曹耘宁; 刘传彬; 张勇东
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2024-03-15
Filing date: 2024-03-15
Publication date: 2024-05-31
Anticipated expiration: 2044-03-15
Also published as: CN117909535A

Abstract

本发明公开了一种基于视觉语言模型的组合理解方法、系统、设备与介质，它们是一一对应的方案，方案中：利用纯视觉大模型与纯语言大模型强大的表示能力提升细粒度视觉编码器和多样化文本编码器表示的细粒度与多样性，显著提升了细节特征的挖掘能力与鲁棒性，随后引入基于采样的去噪项改进对比损失，有效抑制假性负例噪声，同时引入模态内与模态间对比损失，增强模态内一致性与模态间的对齐，有效抑制噪声，提升了表示向量的鲁棒性，因此，可以，显著提升了视觉语言模型的组合理解能力，在多个组合理解数据集上达到了先进水平。

Description

基于视觉语言模型的组合理解方法、系统、设备与介质

技术领域

本发明涉及图像文本检索技术领域，尤其涉及一种基于视觉语言模型的组合理解方法、系统、设备与介质。

背景技术

组合理解是视觉语言理解中的关键任务，旨在理解图像和文本中的物体及其属性之间的精细关系，从而在相似的候选文本中检索与输入图像内容匹配的候选文本。区别于传统的图文检索任务，组合理解任务专注于解决有挑战性的组合理解数据集，例如识别物体间的位置关系、物体与属性的匹配关系以及识别文本描述中的实例交换、替代造成的语义差别等。

得益于近年来视觉语言预训练模型的发展，多模态理解任务取得长足进展。然而现有视觉语言预训练模型依然缺乏物体与属性关系理解的能力，因此组合理解任务应运而生。

现有的组合理解方案大多数专注于构建负样本描述来提供组合性监督信息。然而，由于组合理解任务对细粒度理解的高需求，现有方案存在如下两个弊端：首先，单纯在文本端引入负样本描述很难提高视觉端的精细表示质量，而高质量的视觉表示是组合理解的基础。其次，构建负样本描述的过程不可避免地引入了额外的数据噪声，称为假性负样本噪声。例如，生成的负样本描述可能会违背期望，与正样本具有相同的语义，此时，会错误地将其标注为负样本，进而误导模型训练；由于以上弊端的存在，导致现有的组合理解方案的性能不佳。

有鉴于此，特提出本发明。

发明内容

本发明的目的是提供一种基于视觉语言模型的组合理解方法、系统、设备与介质，可以提升组合理解性能，提升图像文本内容匹配精度。

本发明的目的是通过以下技术方案实现的：

一种基于视觉语言模型的组合理解方法，包括：

构建包含细粒度图像编码器与多样化文本编码器的视觉语言模型；

训练所述视觉语言模型，包括：输入训练图像至所述细粒度图像编码器，所述细粒度图像编码器通过融合纯视觉大模型的特征来增强自身的原始视觉特征，增强后称为细粒度视觉特征；输入训练图像对应的文本样本至多样化文本编码器，所述多样化文本编码器通过对纯语言大模型进行知识蒸馏，输出多样化文本表示向量；通过训练图像对应的细粒度视觉特征与多样化文本表示向量计算图像与文本对比损失，以及根据多样化文本编码器与纯语言大模型的输出计算知识蒸馏损失；通过基于采样的去噪项，抑制假性负样本噪声，根据构造的正样本与负样本对应的多样化文本表示向量，计算文本模态内对比损失，并结合对应的细粒度视觉特征计算文本与图像的模态间对比损失；综合计算出的所有损失训练所述视觉语言模型；

利用训练后的视觉语言模型对输入图像与所有候选文本进行组合理解，输出与输入图像内容匹配的候选文本。

一种基于视觉语言模型的组合理解系统，包括：

视觉语言模型构建单元，用于构建包含细粒度图像编码器与多样化文本编码器的视觉语言模型；

模型训练单元，用于训练所述视觉语言模型，包括：输入训练图像至所述细粒度图像编码器，所述细粒度图像编码器通过融合纯视觉大模型的特征来增强自身的原始视觉特征，增强后称为细粒度视觉特征；输入训练图像对应的文本样本至多样化文本编码器，所述多样化文本编码器通过对纯语言大模型进行知识蒸馏，输出多样化文本表示向量；通过训练图像对应的细粒度视觉特征与多样化文本表示向量计算图像与文本对比损失，以及根据多样化文本编码器与纯语言大模型的输出计算知识蒸馏损失；通过基于采样的去噪项，抑制假性负样本噪声，根据构造的正样本与负样本对应的多样化文本表示向量，计算文本模态内对比损失，并结合对应的细粒度视觉特征计算文本与图像的模态间对比损失；综合计算出的所有损失训练所述视觉语言模型；

组合理解单元，用于利用训练后的视觉语言模型对输入图像与所有候选文本进行组合理解，输出与输入图像内容匹配的候选文本。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，利用大模型（纯视觉大模型与纯语言大模型）强大的表示能力提升细粒度视觉编码器和多样化文本编码器表示的细粒度与多样性，显著提升了细节特征的挖掘能力与鲁棒性，随后引入基于采样的去噪项改进对比损失，有效抑制假性负例噪声，同时引入模态内与模态间对比损失，增强模态内一致性与模态间的对齐，有效抑制噪声，提升了表示向量的鲁棒性，因此，可以，显著提升了视觉语言模型的组合理解能力，在多个组合理解数据集上达到了先进水平。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于视觉语言模型的组合理解方法的流程图；

图2为本发明实施例提供的一种基于视觉语言模型的组合理解方法的框架图；

图3为本发明实施例提供的第一个实验结果的示意图；

图4为本发明实施例提供的第二个实验结果的示意图；

图5为本发明实施例提供的一种基于视觉语言模型的组合理解系统的示意图；

图6为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种基于视觉语言模型的组合理解方法、系统、设备与介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种基于视觉语言模型的组合理解方法，如图1所示，其主要包括如下步骤：

步骤1、构建包含细粒度图像编码器与多样化文本编码器的视觉语言模型。

本发明实施例中，细粒度图像编码器可以采用视觉语言预训练模型中的视觉编码器实现，多样化文本编码器可以采用视觉语言预训练模型的文本编码器实现。

步骤2、训练所述视觉语言模型。

本发明实施例中，训练过程可以描述为：

（1）输入训练图像至所述细粒度图像编码器，所述细粒度图像编码器通过融合纯视觉大模型的特征来增强自身的原始视觉特征，增强后称为细粒度视觉特征。

本发明实施例中，所述细粒度图像编码器对输入训练图像进行编码，输出原始视觉特征；并且，将训练图像输入至纯视觉大模型，并将纯视觉大模型多个层的输出特征进行融合，再将融合得到的特征投影至与所述原始视觉特征相同的维度；将投影后的特征与所述原始视觉特征通过注意力平均池化处理，获得增强后的视觉特征，称为细粒度视觉特征。

（2）输入训练图像对应的文本样本至多样化文本编码器，所述多样化文本编码器通过对纯语言大模型进行知识蒸馏，输出多样化文本表示向量。

本发明实施例中，将训练图像对应的文本样本输入至纯语言大模型，通过提示词引导纯语言大模型输出对应的文本描述向量，并对文本描述向量取平均值，得到全局表示向量；将所述纯语言大模型作为教师模型，将所述多样化文本编码器作为学生模型，使用教师模型输出的全局表示向量对学生模型的输出文本表示向量进行监督，将纯语言大模型的知识蒸馏到多样化文本编码器中，使得多样化文本编码器输出的文本表示向量为多样化文本表示向量。

本领域技术人员可以理解，纯语言大模型与纯视觉大模型均为技术领域中的通用术语，它们在本发明中做作为辅助使用的基础模型，它们的参数量一般达到10亿以上。

（3）计算损失函数。

本发明实施例中，包含三类损失：第一类为通过训练图像对应的细粒度视觉特征与多样化文本表示向量计算的图像与文本对比损失；第二类为根据多样化文本编码器与纯语言大模型的输出，计算的知识蒸馏损失。第三类为通过基于采样的去噪项，抑制假性负样本噪声，从而计算的模态间与模态内的对比损失，具体来说：根据构造的正样本与负样本对应的多样化文本表示向量，计算文本模态内对比损失，并结合对应的细粒度视觉特征计算文本与图像的模态间对比损失。最终，综合计算出的所有损失作为总的损失函数。

利用总的损失函数训练所述视觉语言模型，直至满足停止条件（例如，模型收敛，或达到设定训练次数）。

步骤3、利用训练后的视觉语言模型对输入图像与所有候选文本进行组合理解，输出与输入图像内容匹配的候选文本。

此阶段中，输入图像通过训练后的视觉语言模型中的细粒度图像编码器提取细粒度视觉特征，所有候选文本均分别通过多样化文本编码器，提取多样化文本表示向量；然后，将细粒度视觉特征逐一与每一多样化文本表示向量进行语义相似度计算，与细粒度视觉特征语义相似度最高的多样化文本表示向量对应的候选文本即为与输入图像内容匹配的候选文本。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的方法进行详细描述。

一、方案原理概述。

图2为本发明实施例提供的一种基于视觉语言模型的组合理解方法的框架图，增强了视觉表征，并提升文本特征（文本表示向量）的多样性，具体来说，细粒度图像编码器通过融合纯视觉大模型的特征来增强视觉编码器的细粒度表示，为组合理解奠定基础，多样化文本编码器通过蒸馏大语言模型的表示来提升文本编码器的表示多样性。更重要的是，引入去噪对比损失用于抑制假性负样本噪声，进而得到高质量的去噪表示特征（即文中提到的文本表示向量），去噪对比损失分别在跨模态对比损失和文本对比损失中增加去噪项，从而抑制假性负样本噪声。得益于上述改进，本发明显著提升了视觉语言预训练模型的组合理解能力，在多个组合理解数据集上达到了先进水平。

二、方案细节介绍。

1、细粒度图像编码器。

如图2中细粒度视觉特征虚线框部分所示，细粒度图像编码器用于提取图像的视觉特征，在视觉语言预训练模型的视觉编码器基础上，利用纯视觉大模型强大的表征能力对视觉编码器进行增强。

示例性的，视觉语言预训练模型可以选择CLIP（Contrastive Language-ImagePre-Training，对比语言-图像预训练）模型，将CLIP模型的视觉编码器作本发明的细粒度图像编码器。

示例性的，纯视觉大模型可以选择DINOv2（A Form Of Self-distillation WithNo Labels）模型，它是一种无标签的自蒸馏模型。

具体来说：细粒度图像编码器利用DINOv2模型强大的空间信息捕捉能力为自身提取的原始视觉特征中引入细粒度的视觉特征。首先将训练图像同时输入到细粒度图像编码器与DINOv2模型中，提取两组不同的视觉特征。为了充分利用DINOv2的潜力，本发明提出了一种分层特征融合算法，将DINOv2模型的多层特征进行加性融合，示例性的，可以将DINOv2模型的第3、6、9、12层特征进行加性融合。然后，将融合得到的特征投影到细粒度图像编码器输出的原始视觉特征相同的维度，即可通过注意平均池化层来融合特征。注意力平均池化层是一个标准的自注意力层，将类别向量作为查询，将视觉向量作为键和值；此处的视觉向量为原始视觉特征与投影特征拼接结果，类别向量是CLIP模型的视觉编码器自带的一个向量，用来表示对图像类别的预测。最后，取注意力平均池化层的输出作为最终的视觉特征（称为细粒度视觉特征），用于后续各项损失的计算。

2、多样化文本编码器。

如图2中多样化语义蒸馏虚线框部分所示，多样化文本编码器用于提取文本特征。在视觉语言预训练模型的文本编码器基础上，利用纯语言大模型作为教师模型，对作为学生模型的多样化文本编码器进行知识蒸馏。

示例性的，视觉语言预训练模型可以选择CLIP（Contrastive Language-ImagePre-Training，对比语言-图像预训练）模型，将CLIP模型的文本编码器作为本发明的多样化文本编码器。

示例性的，纯语言大模型可以选择LLaMA2模型（Large Language Model MetaAI），它是Meta AI 公司的大语言模型。

具体来说，将LLaMA2模型中的知识通过蒸馏提供给多样化文本编码器，如图2所示，设计了一个提示词来引导LLaMA2模型依据常识推理生成高密度的文本描述向量，随后，对生成的文本描述向量取平均值（平均池化），得到全局表示向量。为了解决特征维度差异的问题，采用主成分分析算法对全局表示向量进行降维。

示例性的，可采用PCA（Principal Components Analysis，主成分分析）算法进行降维。

三、计算总的损失函数。

1、图像与文本对比损失。

本发明实施例中，计算图像与文本对比损失表示为：

；

其中，为图像与文本对比损失，e为自然常数，/>为第i个图像文本对中训练图像的细粒度视觉特征，/>为第i个图像文本对中文本样本的多样化文本表示向量，/>为第j个图像文本对中训练图像的细粒度视觉特征，/>为第j个图像文本对中文本样本的多样化文本表示向量，此处所述的文本样本均源自数据集，/>为温度系数，T为转置符号。

2、知识蒸馏损失。

本发明实施例中，采用交叉熵损失约束教师模型与学生模型的特征分布距离，从而将教师模型的高密度知识蒸馏到学生模型中，知识蒸馏损失表示为：

；

其中，和/>是控制系数，/>是基于纯语言大模型生成的第i个图像文本对中文本样本的降维后的全局表示向量，/>为第i个图像文本对中文本样本的多样化文本表示向量，/>为全连接层，用于特征映射，/>为交叉熵损失函数，/>为知识蒸馏损失。

3、去噪对比损失。

去噪对比学习损失用于抑制假性负样本噪声。原本的负样本服从于分布，有，/>和/>分别对应样本中正样本和负样本的真实分布。分布/>表示观测到的负样本的分布（带噪声），/>表示负样本的真实分布（不带噪声），由于真实分布/>是无法观测到的，因此需要对/>进行估计。本发明使用分布/>和/>逼近/>。为了简化去噪项公式表达，本发明定义函数/>为基于采样的去噪项，对原本的负样本项用正样本进行修正以达到去噪的效果，表示为：

；

其中，表示利用/>计算的去噪项，/>表示构造的正样本集合，它是使用匹配的视觉特征单独加不同噪声逼近的正文本样本组成的集合，/>是指正样本集合中的第/>个正文本样本；/>表示负样本集合，它是手工构造的负文本样本组成的集合，/>是指负样本集合中的第j个负文本样本；在具体实施过程中，可通过设定加噪次数控制正样本集合大小，对于负样本集合，包含了批大小*4的负样本，4指的是采用了四种构造负样本的方法，当然，也可以调整构造负样本的方法种类数目，本发明不做具体数值限定；/>为负样本的权重分布，/>为正样本的权重分布，/>与/>为超参数，表示负样本与正样本的概率，/>。

两类样本的权重分布定义如下：

；

其中，为超参数，/>是指正样本集合中的第/>个正文本样本，/>是指负样本集合中的第k个负文本样本。

为了联合建模文本与文本的模态内关系、文本与图像间的跨模态关系，本发明设计了文本模态内对比损失（DTM）与跨模态对比损失（DCM），表示为：

；

其中，为负样本集合/>的大小，/>为文本与图像的模态间对比损失（跨模态对比损失），/>为文本模态内对比损失，e为自然常数，/>为第i个图像文本对中训练图像的细粒度视觉特征，/>为第i个图像文本对中文本样本的多样化文本表示向量（与中的完全一致），/>为温度系数，T为转置符号。

同样采用前文的公式计算，只需将/>替换为/>，表示为：

；

其中，表示利用/>计算的去噪项，其余符号的含义可参见前文。

综合以上3个部分计算得到的损失，得到总的损失函数表示为：

。

图2右下角呈现了三个损失计算过程所使用到的信息，其中斜线填充的方框表示细粒度视觉特征，横线填充的方框表示多样化文本表示向量，包含各类损失计算所涉及的多样化文本表示向量，例如，正负样本对应的多样化文本表示向量等。

四、训练过程说明。

基于上述总的损失函数，可以采用常规训练流程完成视觉语言模型的训练，训练完毕后，细粒度图像编码器与多样化文本编码器均可以好的提取对应特征。考虑到训练流程可参照常规技术实现，故不做赘述。

下面主要针对训练过程的细节与相关的超参数做举例说明：视觉语言模型可以在MSCOCO数据集训练，训练时，输入为RGB彩色自然图像（训练图像）与自由形式的文本描述（文本样本），在训练过程中，微调视觉语言预训练模型CLIP的全部参数。使用AdamW（Adamwith weight decay，权重衰减的自适应矩估计）算法作为优化器，设置学习率为0.000001，使用带有50个线性预热步骤的余弦优化过程。对于，设置/>，因为存在样本对/>，将/>和/>共享的超参数/>和/>转换为可学习参数，并初始化和/>。对于知识蒸馏损失，经验性地将/>设置为6.24，它是训练前统计的损失函数/>的平均值，s=1，2，3…。

五、应用于组合理解任务。

基于上述训练后，可以将视觉语言模型应用于组合理解任务，从而用于图像识别与检索、图像问答等场景，执行组合理解任务的具体流程已经在前文做了相关说明，故不再赘述。在实施上，可以以软件的方式安装于电脑、手机等设备，提供实时识别与检索；也可以安装于服务器，提供大批量后台识别与检索。

本发明实施例中，提出使用多样化和去噪表示框架提升视觉语言模型的组合理解能力，通过引入视觉大模型和语言大模型，分别对视觉编码器和语言编码器进行特征增强与蒸馏，有效提升了视觉与文本特征的细粒度和多样化表示能力，从而为组合理解任务提供更丰富的细节线索；去噪表示设计基于采样的去噪项，抑制假性负例噪声，并设计文本模态内对比损失与文本图像间跨模态对比损失，联合建模样本对之间的关系，从而鼓励模态内表示一致性与模态间表示的对齐；基于以上改进显著提升了视觉语言模型的组合理解能力，从而提升图像文本内容匹配精度。

六、性能验证。

为了说明本发明上述方案的性能，在SugarCrepe、Winoground等组合理解数据集上进行评估，评估任务的形式是图到文的检索，评价指标是检索精度。参与对比的现有模型方案包括：CLIP模型与NegCLIP模型（CLIP With Hard Negative，难样本增强的CLIP模型）。实验结果表明，本发明的方案在SugarCrepe数据集、Winoground数据集的验证和测试集上均取得了目前领先效果。例如，相比于CLIP模型，本发明的方案在SugarCrepe数据集获得了13.34%的平均精度提升，在Winoground数据集上获得0.57%的平均精度提升。相比NegCLIP模型，本发明的方案在SugarCrepe数据集获得了3.39%的平均精度提升。

图3与图4为实验结果的示例，每一个图中均包含三列，第一列是输入图像，第二列是与输入图像对应的文本，上方为正确文本，下方为错误文本，第三列为本发明的方案（称为Ours）、CLIP模型与NegCLIP模型各自输出的输入图像为正确文本及错误文本的语义相似度，其中输入图像与错误文本的语义相似度使用填充线条的矩形框来标识；需要说明的是，图3与图4中提供的文本是对应数据集中的文本内容示例，在实际应用中，用户可根据需要切换为中文或者其他语种。从图3与图4所示的实验结果可见，与CLIP模型及NegCLIP模型的相比，本发明的方案在区分物体精细关系，物体属性匹配等组合理解任务上有显著优势。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种基于视觉语言模型的组合理解系统，其主要用于实现前述实施例提供的方法，如图5所示，该系统主要包括：

考虑到该系统中各个环节已经在之前的方法实施例中做了详细的介绍，故不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图6所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于视觉语言模型的组合理解方法，其特征在于，包括：

利用训练后的视觉语言模型对输入图像与所有候选文本进行组合理解，输出与输入图像内容匹配的候选文本；

所述输入训练图像至所述细粒度图像编码器，所述细粒度图像编码器通过融合纯视觉大模型的特征来增强自身的原始视觉特征，增强后称为细粒度视觉特征包括：所述细粒度图像编码器对输入训练图像进行编码，输出原始视觉特征；将训练图像输入至纯视觉大模型，将纯视觉大模型多个层的输出特征进行融合，再将融合得到的特征投影至与所述原始视觉特征相同的维度；将投影后的特征与所述原始视觉特征通过注意力平均池化处理，获得增强后的视觉特征，称为细粒度视觉特征；

所述输入训练图像对应的文本样本至多样化文本编码器，所述多样化文本编码器通过对纯语言大模型进行知识蒸馏，输出多样化文本表示向量包括：将训练图像对应的文本样本输入至纯语言大模型，通过提示词引导纯语言大模型输出对应的文本描述向量，并对文本描述向量取平均值，得到全局表示向量；使用所述全局表示向量对多样化文本编码器的输出文本表示向量进行监督，将纯语言大模型的知识蒸馏到多样化文本编码器中，使得多样化文本编码器输出的文本表示向量为多样化文本表示向量。

2.根据权利要求1所述的一种基于视觉语言模型的组合理解方法，其特征在于，计算图像与文本对比损失表示为：

；

其中，为图像与文本对比损失，e为自然常数，/>为第i个图像文本对中训练图像的细粒度视觉特征，/>为第i个图像文本对中文本样本的多样化文本表示向量，/>为第j个图像文本对中训练图像的细粒度视觉特征，/>为第j个图像文本对中文本样本的多样化文本表示向量，/>为温度系数，T为转置符号。

3.根据权利要求1所述的一种基于视觉语言模型的组合理解方法，其特征在于，计算知识蒸馏损失表示为：

；

其中，和/>是控制系数，e为自然常数，/>是基于纯语言大模型生成的第i个图像文本对中文本样本的降维后的全局表示向量，/>为第i个图像文本对中文本样本的多样化文本表示向量，/>为全连接层，用于特征映射，/>为交叉熵损失函数，/>为知识蒸馏损失。

4.根据权利要求1所述的一种基于视觉语言模型的组合理解方法，其特征在于，计算文本模态内对比损失与文本与图像的模态间对比损失表示为：

；

其中，为负样本集合/>的大小，/>为文本与图像的模态间对比损失，/>为文本模态内对比损失，e为自然常数，/>为第i个图像文本对中训练图像的细粒度视觉特征，/>为第i个图像文本对中文本样本的多样化文本表示向量，/>为温度系数，T为转置符号，/>为基于采样的去噪项，使用构造的正样本与负样本对应的多样化文本表示向量进行计算，/>表示利用/>计算的去噪项，/>表示利用/>计算的去噪项。

5.根据权利要求4所述的一种基于视觉语言模型的组合理解方法，其特征在于，与/>的计算公式分别表示为：

；

其中，表示构造的正样本集合，/>是指正样本集合中的第/>个正文本样本；/>表示构造的负样本集合，/>是指负样本集合中的第j个负文本样本；/>为负样本的权重分布，/>为正样本的权重分布，/>与/>为超参数，表示负样本与正样本的概率，，T为转置符号，e为自然常数。

6.一种基于视觉语言模型的组合理解系统，其特征在于，包括：

组合理解单元，用于利用训练后的视觉语言模型对输入图像与所有候选文本进行组合理解，输出与输入图像内容匹配的候选文本；

7.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~5任一项所述的方法。

8.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~5任一项所述的方法。