CN117689963B

CN117689963B - 一种基于多模态预训练模型的视觉实体链接方法

Info

Publication number: CN117689963B
Application number: CN202410148671.6A
Authority: CN
Inventors: 董振江; 冯翊帆; 亓晋; 徐康; 陈滏媛; 孙雁飞
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-04-09
Anticipated expiration: 2044-02-02
Also published as: CN117689963A

Abstract

本发明属于视觉实体链接技术领域，公开了一种基于多模态预训练模型的视觉实体链接方法，选择视觉实体链接的多模态多粒度数据集，利用多模态预训练模型启发式的生成候选实体，再通过启发式增强提示和实体链接模块筛选出最佳实体。本发明所述方法能够充分利用图像和文本的多模态信息，提高视觉实体链接的准确性和鲁棒性。

Description

一种基于多模态预训练模型的视觉实体链接方法

技术领域

本发明属于视觉实体链接技术领域，具体是涉及一种基于多模态预训练模型的视觉实体链接方法。

背景技术

视觉实体链接（Visual Entity Linking，简称VEL）是一种自然语言处理（NLP）和计算机视觉（CV）领域的任务，旨在识别出图像中与文本查询有关的视觉对象，并与结构化知识库（KB）中的条目建立链接。VEL的研究具有广泛的应用，包括图像检索、图像标注、图像问答等。

传统的VEL方法依赖于手工制定的特征工程和规则，用以确定文本查询中提到的实体与图像中的实体之间的联系；然而，这些方法往往受制于规则的限制，难以捕捉高级语义特征和复杂内容，并且这使得模型对领域和语境的适应性较差，需要大量人工努力。因此，对于VEL任务的改进一直是研究人员的迫切需求。

近年来，多模态预训练模型的涌现彻底改变了NLP和CV领域。这些模型，如VisualGLM-6B、BLIP2、GPT-4V等，在处理各种语言和视觉领域的任务时表现出强大的可迁移文本处理和生成技能，它们能够理解文本的语义，同时也能够自动提取和理解图像内容。这种多模态能力为VEL任务带来了新的机遇，可以更准确地将文本中的实体链接到图像中的实体。

如专利申请CN110991149A公开了一种多模态实体链接方法和实体链接系统，通过图片的物体识别来达到实体消歧的目的，并实现了由图片到文本的多模态的实体链接，但该方法使用了标注为粗粒度的ImageNet数据集，无法做到识别数百万种多粒度的视觉概念，且需要通过人工标注，才能把实体库的实体与图片的实体进行关联；同时，该方法采用了Inception V3深度神经网络模型来构建物体识别模型，该模型是一个纯粹的图像分类模型，只对图像进行低层次的特征提取，而缺乏对语义信息的深刻理解，其需要使用大量的标注图像数据集来进行训练和微调，才能适应不同的图像分类任务，模型的性能受限于训练数据集的规模和质量，难以泛化到新的领域和场景，其不能适用于需要同时理解自然语言和图像内容并能建立二者之间联系的零样本或少样本任务；Inception V3等单一模态模型，需要额外的整合步骤来将不同模态的信息融合在一起，以进行实体链接，整合过程可能引入复杂性和错误。

发明内容

为解决上述技术问题，本发明提供了一种基于多模态预训练模型的视觉实体链接方法，利用多模态大模型自然地整合不同模态信息，在零样本或少样本条件下适应新任务；基于上下文学习技术，使用多模态预训练大模型来进行视觉实体链接，从而有效地解决多模态预训练模型的泛化能力问题。

本发明所述的一种基于多模态预训练模型的视觉实体链接方法，包括以下步骤：

步骤1、选择视觉实体链接的多模态多粒度数据集；

步骤2、在所述多模态多粒度数据集上，构建多模态大模型；所述多模态大模型包括主干模型M_b和分类头模型M_h；所述主干模型M_b融合多模态输入，得到融合特征z；所述分类头模型M_h将融合特征z投影到实体词汇表的预测向量y上；

步骤3、采用启发式方法，利用分类头模型M_h生成测试数据的候选实体；

步骤4、利用主干模型M_b进行实体关联，生成测试数据的多个实体关联的示例；

步骤5、根据提示模板要求，将提示头、上下文信息和测试数据填入提示模板中形成提示；

步骤6、将所述提示输入到多模态模型中，生成启发式的预测实体；

步骤7、基于BM25算法，匹配与预测实体最相近的多个知识库实体；

步骤8、对最后链接的实体进行准确率计算，比较知识库实体与真实实体的一致性。

进一步的，所述主干模型包括图像编码器、文本编码器和交叉编码器；

所述图像编码器使用CLIP的ViT-L/14作为特征提取器，将图像分割成若干个区域，并提取每个区域的特征向量；

文本编码器使用指令训练的FlanT5模型作为特征提取器，将文本查询分词，并提取每个词的特征向量；

交叉编码器使用Q-Former作为特征融合器，将图像和文本的特征向量进行自注意力和交叉注意力的计算，得到融合特征z，融合特征z的公式如下：

，

其中，M_b ()指经过多模态大模型主干模型将图片和文本变成融合特征z；v表示图片的特征向量，q表示文本的特征向量。

进一步的，所述分类头模型M_h由一个线性层和一个sigmoid函数组成，将融合特征z投影到实体词汇的预测向量y上；预测向量y的计算公式如下：

，

其中，M_h ()指经过多模态大模型的分类头模型，输出融合特征的预测向量。

进一步的，步骤3中，给定一个测试输入，从预测向量y选择得分最高的前k个实体作为候选实体。

进一步的，步骤4中，对测试数据找到与之相近的多条训练数据作为上下文信息，给定一个测试输入和训练输入，利用主干模型M_b获得测试输入的融合特征z和训练输入的融合特征z_i；

通过计算测试z和z_i的余弦相似度：

，

其中，T为转置；选择与测试输入最相近的前n个训练输入作为该测试数据的实体关联的示例。

进一步的，步骤7中，使用BM25算法，将预测实体作为查询，将知识库实体的标题作为文档，计算它们的相关性得分，然后选择得分最高的前m个知识库实体作为匹配结果，具体为：

，

其中，表示每个知识库实体与预测的实体之间的相似度得分；Q表示预测的实体，d表示知识库中的实体，s表示预测实体的分词个数，q_i表示预测实体的第i个分词，f_i表示q_i在d中出现的次数，dl为知识库实体d的长度，avgdl为所有知识库实体的平均长度，k₁、b为调节因子；/>反映分词在整个知识库中的重要性；

，

其中，N表示知识库实体总数，表示包含查询词q_i的知识库实体数。

本发明所述的有益效果为：

1）本发明所述方法通过对多模态数据进行实体启发式生成视觉实体链接任务，利用BM25算法将图像中的实体与知识库中的实体相链接，不仅提高了实体识别的准确性，还降低了链接错误的概率；

2）本发明所述方法通过引入启发式增强提示技术，提供了更多关于实体的上下文信息，在拼接之前使用了启发式生成候选实体模块，为每条数据生成候选实体，有助于提高对实体的识别和链接的鲁棒性，有效应对复杂图像场景和多义性问题，提高最终的正确率；

3）本发明所述方法通过利用多模态预训练模型的技术，进行启发式的生成候选实体，然后再通过启发式增强提示和实体链接方法筛选出最佳实体，减少了对大规模标注数据的依赖，降低了时间和成本开销，提高了实际应用的可行性；并且使用多模态大模型，有效综合了视觉和文本信息的技术，提供了更全面的特征表达，有助于更好地理解和关联不同模态的数据，提高了实体链接的准确性和适用性。

附图说明

图1是本发明所述方法的流程图；

图2是本发明所述方法的架构图；

图3是候选实体生成的示意图；

图4是实体关联的示例样式示意图；

图5是测试数据的2个实体关联的示意图；

图6是提示样式示意图；

图7是BM25检索流程示意图。

具体实施方式

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

图1和图2所示，本发明提供了一种基于多模态大模型的视觉实体链接方法，包括以下步骤：

步骤1、选择视觉实体链接的多模态多粒度数据集；

步骤2、在视觉实体链接的多模态多粒度数据集上，对多模态大模型进行预训练，将多模态大模型分为主干模型M_b和分类头模型M_h；多模态大模型的主干模型M_b是一个编码器，融合多模态输入（图片和文本查询），得到融合特征z。主干模型由一个图像编码器，一个文本编码器，和一个交叉编码器组成；图像编码器使用CLIP的ViT-L/14作为特征提取器，将图像分割成若干个区域，并提取每个区域的特征向量；文本编码器使用指令训练的FlanT5模型作为特征提取器，将文本查询分词，并提取每个词的特征向量；交叉编码器使用Q-Former作为特征融合器，将图像和文本的特征向量进行自注意力和交叉注意力的计算，得到融合特征z，融合特征z的公式如下：

；

分类头模型M_h是一个简单的分类器，由一个线性层和一个sigmoid函数组成，将融合特征z投影到实体词汇的预测向量y上；预测向量y的计算公式如下：

。

步骤3、使用多模态大模型的分类头模型M_h进行候选实体生成，给定一个测试输入（图片和文本查询），从预测向量y选择得分最高的前k个实体作为候选实体。例如，给定一个测试输入，其中图像是一张有关飞机的图像，文本查询是“该飞机的制造商是谁”，本发明可以从预测向量y中得到置信度最高的3个实体作为候选实体，三个候选实体及其置信度可以是【飞机（0.09）】【A航空（0.7）】【B公司（0.21）】，如图3所示。

步骤4、使用多模态大模型的主干模型M_b进行实体关联的示例生成，对测试数据找到与之相近的多条训练数据作为上下文信息，给定一个测试输入和训练输入，利用主干模型M_b获得他们的融合特征z和z_i，然后通过计算测试z和z_i的余弦相似度：

，

选择与测试输入最相近的前n个训练输入作为该测试数据的实体关联的示例，实体关联的示例的样式如图4所示。

例如，给定一个测试输入，其中图像是一张有关飞机的图像，文本查询是“该飞机的制造商是谁”，本发明可以从训练数据中找到与之相近的2条训练数据作为实体关联的示例，这2个实体关联的示例可以是如图5所示的两个实例。

步骤5、按照特定的提示模板，将提示头、上下文信息和测试数据填入提示模板中形成提示，提示的例子如图6所示；

步骤6、将该提示输入到多模态模型中，让多模态模型生成一个启发式的预测实体；

步骤7、使用BM25算法，匹配与预测实体最相近的多个知识库实体。BM25算法是一种基于词频和逆文档频率的信息检索算法，能够计算一个查询和一个文档的相关性得分。BM25算法的公式如下：

，

本发明使用BM25算法，将预测实体作为查询，将知识库实体的标题作为文档，计算它们的相关性得分，然后选择得分最高的前m个知识库实体作为匹配结果。例如，生成了一个预测实体【A公司】，使用BM25算法匹配与之最相近的前4个知识库实体，这4个知识库实体可以是【A公司】、【A公司的NeXt部门】、【A747】、【X国A公司】，如图7所示。

步骤8、对最后链接的实体进行准确率计算，比较知识库实体与真实实体的一致性，评估本发明的方法的性能。

OVEN数据集是专门用于视觉实体链接的数据集，相较于其他数据集，其具有更高的细粒度性，能够更全面地评估模型性能。在下述实验中，本发明选择OVEN数据集作为评估的标准，以更准确地反映模型在实际应用场景下的表现。

表1

。

首先使用多模态大模型CLIP、PaLI-3B、BLIP2在OVEN数据集上进行对比实验，发现这些模型在OVEN数据集上效果不佳；接下来本发明会基于上面的对比实验结果选取BLIP2模型（PaLI-3B模型未开源）进行改进。

首先采用了BLIP2多模态大模型进行测试，获取基准性能，以便后续的实验能更清晰地展示本发明提出的方法相对于传统方法的改进。BLIP2模型在OVEN数据集上的实验结果显示，在Query Split（为了验证模型在视觉问答方面的效果做的一个分类）和EntitySplit（为了验证模型在实体识别方面的效果的一个分类）两个不同维度的评估中，评估指标有SEEN、UNSEEN和HM，SEEN表示在训练过程中见过的实体；UNSEEN表示在训练过程中未见过的实体，HM是SEEN和UNSEEN的调和平均，。从表1所显示的数据可知，BLIP2面对OVEN数据集的实体链接任务时，性能较为有限；主要原因是原始BLIP2模型性能较差的原因可能包括对多模态信息的处理不足以及在细粒度任务的适应性有限。

上下文学习（In-context Learning）是一种在模型训练过程中引入上下文信息的策略，通过将模型训练数据集中的上下文信息加入到训练过程中，可以提高模型对任务的适应性，尤其是在面对特定任务场景时。如表1所示，经过在BLIP2模型上引入上下文学习的实验后，相较于原始BLIP2模型，性能在两个维度上有了约1-2个点的提升。BLIP2模型的上下文学习实验结果显示，引入上下文信息对BLIP2的基础模型进行学习，在一定程度上提升了视觉实体链接任务的性能。尽管BLIP2模型通过上下文学习取得了一定的性能提升，但其表现仍然相对有限。经研究发现，多模态模型在实体链接后连接到的实体与正确实体相似，但并未完全匹配，这是准确率不高的一个关键原因；其次，目前多模态大模型对上下文学习的支持效果尚不理想。

为了解决多模态大模型生成的候选实体与真正的实体不一致的问题，本发明引入了实体启发式生成方法，首先让多模态大模型根据图像和查询信息生成多个候选实体，然后在生成最终的实体时参考这些候选实体；通过大语言模型对多模态大模型的实体启发式生成结果进行进一步的处理，以探索是否能够提高实验结果。本发明将引入了大语言模型后的多模态大模型的准确率指标作为本发明方法的参考基准。使用该方法后，多模态大模型在Query Split维度即Entity Split维度下的指标如表1所示。这一引入实体启发式生成和大语言模型的方法，以及相应的实验结果，为本发明方法提供了更全面和优化的视觉实体链接解决方案。

本发明中使用实体启发式生成方法和启发式增强提示方法的多模态大模型在Query Split及Entity Split维度上的指标如表1所示，相较于BLIP2+上下文学习实验结果，本发明所述方法在Query Split维度上，三个指标分别提升了近20个点，而在EntitySplit维度上提升了3~5个点。本实验结果的显著提升表明，通过引入更为精准和有针对性的启发式增强提示，结合大语言模型的理解和生成能力，实体链接任务的性能得到了更为显著的提升；说明了本发明的可行性和实用性，基于多模态大模型的视觉实体链接技术可提高更细粒度的视觉实体链接的准确性和鲁棒性，为在视觉实体链接领域进一步提高多模态信息处理能力提供了有益的经验。

以上所述仅为本发明的优选方案，并非作为对本发明的进一步限定，凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims

1.一种基于多模态预训练模型的视觉实体链接方法，其特征在于，包括以下步骤：

步骤1、选择视觉实体链接的多模态多粒度数据集；

所述主干模型包括图像编码器、文本编码器和交叉编码器；

，

其中，M_b ()指经过多模态大模型主干模型将图片和文本变成融合特征z；v表示图片的特征向量，q表示文本的特征向量；

所述分类头模型M_h由一个线性层和一个sigmoid函数组成，将融合特征z投影到实体词汇的预测向量y上；预测向量y的计算公式如下：

，

其中，M_h ()指经过多模态大模型的分类头模型，输出融合特征的预测向量；

2.根据权利要求1所述的一种基于多模态预训练模型的视觉实体链接方法，其特征在于，步骤3中，给定一个测试输入，从预测向量y选择得分最高的前k个实体作为候选实体。

3.根据权利要求1所述的一种基于多模态预训练模型的视觉实体链接方法，其特征在于，步骤4中，对测试数据找到与之相近的多条训练数据作为上下文信息，给定一个测试输入和训练输入，利用主干模型M_b获得测试输入的融合特征z和训练输入的融合特征z_i；

通过计算测试z和z_i的余弦相似度：

，

4.根据权利要求1所述的一种基于多模态预训练模型的视觉实体链接方法，其特征在于，步骤7中，使用BM25算法，将预测实体作为查询，将知识库实体的标题作为文档，计算它们的相关性得分，然后选择得分最高的前m个知识库实体作为匹配结果，具体为：

，