CN117689963B - 一种基于多模态预训练模型的视觉实体链接方法 - Google Patents

一种基于多模态预训练模型的视觉实体链接方法 Download PDF

Info

Publication number
CN117689963B
CN117689963B CN202410148671.6A CN202410148671A CN117689963B CN 117689963 B CN117689963 B CN 117689963B CN 202410148671 A CN202410148671 A CN 202410148671A CN 117689963 B CN117689963 B CN 117689963B
Authority
CN
China
Prior art keywords
entity
model
knowledge base
entities
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410148671.6A
Other languages
English (en)
Other versions
CN117689963A (zh
Inventor
董振江
冯翊帆
亓晋
徐康
陈滏媛
孙雁飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202410148671.6A priority Critical patent/CN117689963B/zh
Publication of CN117689963A publication Critical patent/CN117689963A/zh
Application granted granted Critical
Publication of CN117689963B publication Critical patent/CN117689963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于视觉实体链接技术领域,公开了一种基于多模态预训练模型的视觉实体链接方法,选择视觉实体链接的多模态多粒度数据集,利用多模态预训练模型启发式的生成候选实体,再通过启发式增强提示和实体链接模块筛选出最佳实体。本发明所述方法能够充分利用图像和文本的多模态信息,提高视觉实体链接的准确性和鲁棒性。

Description

一种基于多模态预训练模型的视觉实体链接方法
技术领域
本发明属于视觉实体链接技术领域,具体是涉及一种基于多模态预训练模型的视觉实体链接方法。
背景技术
视觉实体链接(Visual Entity Linking,简称VEL)是一种自然语言处理(NLP)和计算机视觉(CV)领域的任务,旨在识别出图像中与文本查询有关的视觉对象,并与结构化知识库(KB)中的条目建立链接。VEL的研究具有广泛的应用,包括图像检索、图像标注、图像问答等。
传统的VEL方法依赖于手工制定的特征工程和规则,用以确定文本查询中提到的实体与图像中的实体之间的联系;然而,这些方法往往受制于规则的限制,难以捕捉高级语义特征和复杂内容,并且这使得模型对领域和语境的适应性较差,需要大量人工努力。因此,对于VEL任务的改进一直是研究人员的迫切需求。
近年来,多模态预训练模型的涌现彻底改变了NLP和CV领域。这些模型,如VisualGLM-6B、BLIP2、GPT-4V等,在处理各种语言和视觉领域的任务时表现出强大的可迁移文本处理和生成技能,它们能够理解文本的语义,同时也能够自动提取和理解图像内容。这种多模态能力为VEL任务带来了新的机遇,可以更准确地将文本中的实体链接到图像中的实体。
如专利申请CN110991149A公开了一种多模态实体链接方法和实体链接系统,通过图片的物体识别来达到实体消歧的目的,并实现了由图片到文本的多模态的实体链接,但该方法使用了标注为粗粒度的ImageNet数据集,无法做到识别数百万种多粒度的视觉概念,且需要通过人工标注,才能把实体库的实体与图片的实体进行关联;同时,该方法采用了Inception V3深度神经网络模型来构建物体识别模型,该模型是一个纯粹的图像分类模型,只对图像进行低层次的特征提取,而缺乏对语义信息的深刻理解,其需要使用大量的标注图像数据集来进行训练和微调,才能适应不同的图像分类任务,模型的性能受限于训练数据集的规模和质量,难以泛化到新的领域和场景,其不能适用于需要同时理解自然语言和图像内容并能建立二者之间联系的零样本或少样本任务;Inception V3等单一模态模型,需要额外的整合步骤来将不同模态的信息融合在一起,以进行实体链接,整合过程可能引入复杂性和错误。
发明内容
为解决上述技术问题,本发明提供了一种基于多模态预训练模型的视觉实体链接方法,利用多模态大模型自然地整合不同模态信息,在零样本或少样本条件下适应新任务;基于上下文学习技术,使用多模态预训练大模型来进行视觉实体链接,从而有效地解决多模态预训练模型的泛化能力问题。
本发明所述的一种基于多模态预训练模型的视觉实体链接方法,包括以下步骤:
步骤1、选择视觉实体链接的多模态多粒度数据集;
步骤2、在所述多模态多粒度数据集上,构建多模态大模型;所述多模态大模型包括主干模型Mb和分类头模型Mh;所述主干模型Mb融合多模态输入,得到融合特征z;所述分类头模型Mh将融合特征z投影到实体词汇表的预测向量y上;
步骤3、采用启发式方法,利用分类头模型Mh生成测试数据的候选实体;
步骤4、利用主干模型Mb进行实体关联,生成测试数据的多个实体关联的示例;
步骤5、根据提示模板要求,将提示头、上下文信息和测试数据填入提示模板中形成提示;
步骤6、将所述提示输入到多模态模型中,生成启发式的预测实体;
步骤7、基于BM25算法,匹配与预测实体最相近的多个知识库实体;
步骤8、对最后链接的实体进行准确率计算,比较知识库实体与真实实体的一致性。
进一步的,所述主干模型包括图像编码器、文本编码器和交叉编码器;
所述图像编码器使用CLIP的ViT-L/14作为特征提取器,将图像分割成若干个区域,并提取每个区域的特征向量;
文本编码器使用指令训练的FlanT5模型作为特征提取器,将文本查询分词,并提取每个词的特征向量;
交叉编码器使用Q-Former作为特征融合器,将图像和文本的特征向量进行自注意力和交叉注意力的计算,得到融合特征z,融合特征z的公式如下:
其中,Mb ()指经过多模态大模型主干模型将图片和文本变成融合特征z;v表示图片的特征向量,q表示文本的特征向量。
进一步的,所述分类头模型Mh由一个线性层和一个sigmoid函数组成,将融合特征z投影到实体词汇的预测向量y上;预测向量y的计算公式如下:
其中,Mh ()指经过多模态大模型的分类头模型,输出融合特征的预测向量。
进一步的,步骤3中,给定一个测试输入,从预测向量y选择得分最高的前k个实体作为候选实体。
进一步的,步骤4中,对测试数据找到与之相近的多条训练数据作为上下文信息,给定一个测试输入和训练输入,利用主干模型Mb获得测试输入的融合特征z和训练输入的融合特征zi
通过计算测试z和zi的余弦相似度:
其中,T为转置;选择与测试输入最相近的前n个训练输入作为该测试数据的实体关联的示例。
进一步的,步骤7中,使用BM25算法,将预测实体作为查询,将知识库实体的标题作为文档,计算它们的相关性得分,然后选择得分最高的前m个知识库实体作为匹配结果,具体为:
其中,表示每个知识库实体与预测的实体之间的相似度得分;Q表示预测的实体,d表示知识库中的实体,s表示预测实体的分词个数,qi表示预测实体的第i个分词,fi表示qi在d中出现的次数,dl为知识库实体d的长度,avgdl为所有知识库实体的平均长度,k1、b为调节因子;/>反映分词在整个知识库中的重要性;
其中,N表示知识库实体总数,表示包含查询词qi的知识库实体数。
本发明所述的有益效果为:
1)本发明所述方法通过对多模态数据进行实体启发式生成视觉实体链接任务,利用BM25算法将图像中的实体与知识库中的实体相链接,不仅提高了实体识别的准确性,还降低了链接错误的概率;
2)本发明所述方法通过引入启发式增强提示技术,提供了更多关于实体的上下文信息,在拼接之前使用了启发式生成候选实体模块,为每条数据生成候选实体,有助于提高对实体的识别和链接的鲁棒性,有效应对复杂图像场景和多义性问题,提高最终的正确率;
3)本发明所述方法通过利用多模态预训练模型的技术,进行启发式的生成候选实体,然后再通过启发式增强提示和实体链接方法筛选出最佳实体,减少了对大规模标注数据的依赖,降低了时间和成本开销,提高了实际应用的可行性;并且使用多模态大模型,有效综合了视觉和文本信息的技术,提供了更全面的特征表达,有助于更好地理解和关联不同模态的数据,提高了实体链接的准确性和适用性。
附图说明
图1是本发明所述方法的流程图;
图2是本发明所述方法的架构图;
图3是候选实体生成的示意图;
图4是实体关联的示例样式示意图;
图5是测试数据的2个实体关联的示意图;
图6是提示样式示意图;
图7是BM25检索流程示意图。
具体实施方式
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。
图1和图2所示,本发明提供了一种基于多模态大模型的视觉实体链接方法,包括以下步骤:
步骤1、选择视觉实体链接的多模态多粒度数据集;
步骤2、在视觉实体链接的多模态多粒度数据集上,对多模态大模型进行预训练,将多模态大模型分为主干模型Mb和分类头模型Mh;多模态大模型的主干模型Mb是一个编码器,融合多模态输入(图片和文本查询),得到融合特征z。主干模型由一个图像编码器,一个文本编码器,和一个交叉编码器组成;图像编码器使用CLIP的ViT-L/14作为特征提取器,将图像分割成若干个区域,并提取每个区域的特征向量;文本编码器使用指令训练的FlanT5模型作为特征提取器,将文本查询分词,并提取每个词的特征向量;交叉编码器使用Q-Former作为特征融合器,将图像和文本的特征向量进行自注意力和交叉注意力的计算,得到融合特征z,融合特征z的公式如下:
分类头模型Mh是一个简单的分类器,由一个线性层和一个sigmoid函数组成,将融合特征z投影到实体词汇的预测向量y上;预测向量y的计算公式如下:
步骤3、使用多模态大模型的分类头模型Mh进行候选实体生成,给定一个测试输入(图片和文本查询),从预测向量y选择得分最高的前k个实体作为候选实体。例如,给定一个测试输入,其中图像是一张有关飞机的图像,文本查询是“该飞机的制造商是谁”,本发明可以从预测向量y中得到置信度最高的3个实体作为候选实体,三个候选实体及其置信度可以是【飞机(0.09)】【A航空(0.7)】【B公司(0.21)】,如图3所示。
步骤4、使用多模态大模型的主干模型Mb进行实体关联的示例生成,对测试数据找到与之相近的多条训练数据作为上下文信息,给定一个测试输入和训练输入,利用主干模型Mb获得他们的融合特征z和zi,然后通过计算测试z和zi的余弦相似度:
选择与测试输入最相近的前n个训练输入作为该测试数据的实体关联的示例,实体关联的示例的样式如图4所示。
例如,给定一个测试输入,其中图像是一张有关飞机的图像,文本查询是“该飞机的制造商是谁”,本发明可以从训练数据中找到与之相近的2条训练数据作为实体关联的示例,这2个实体关联的示例可以是如图5所示的两个实例。
步骤5、按照特定的提示模板,将提示头、上下文信息和测试数据填入提示模板中形成提示,提示的例子如图6所示;
步骤6、将该提示输入到多模态模型中,让多模态模型生成一个启发式的预测实体;
步骤7、使用BM25算法,匹配与预测实体最相近的多个知识库实体。BM25算法是一种基于词频和逆文档频率的信息检索算法,能够计算一个查询和一个文档的相关性得分。BM25算法的公式如下:
其中,表示每个知识库实体与预测的实体之间的相似度得分;Q表示预测的实体,d表示知识库中的实体,s表示预测实体的分词个数,qi表示预测实体的第i个分词,fi表示qi在d中出现的次数,dl为知识库实体d的长度,avgdl为所有知识库实体的平均长度,k1、b为调节因子;/>反映分词在整个知识库中的重要性;
其中,N表示知识库实体总数,表示包含查询词qi的知识库实体数。
本发明使用BM25算法,将预测实体作为查询,将知识库实体的标题作为文档,计算它们的相关性得分,然后选择得分最高的前m个知识库实体作为匹配结果。例如,生成了一个预测实体【A公司】,使用BM25算法匹配与之最相近的前4个知识库实体,这4个知识库实体可以是【A公司】、【A公司的NeXt部门】、【A747】、【X国A公司】,如图7所示。
步骤8、对最后链接的实体进行准确率计算,比较知识库实体与真实实体的一致性,评估本发明的方法的性能。
OVEN数据集是专门用于视觉实体链接的数据集,相较于其他数据集,其具有更高的细粒度性,能够更全面地评估模型性能。在下述实验中,本发明选择OVEN数据集作为评估的标准,以更准确地反映模型在实际应用场景下的表现。
表1
首先使用多模态大模型CLIP、PaLI-3B、BLIP2在OVEN数据集上进行对比实验,发现这些模型在OVEN数据集上效果不佳;接下来本发明会基于上面的对比实验结果选取BLIP2模型(PaLI-3B模型未开源)进行改进。
首先采用了BLIP2多模态大模型进行测试,获取基准性能,以便后续的实验能更清晰地展示本发明提出的方法相对于传统方法的改进。BLIP2模型在OVEN数据集上的实验结果显示,在Query Split(为了验证模型在视觉问答方面的效果做的一个分类)和EntitySplit(为了验证模型在实体识别方面的效果的一个分类)两个不同维度的评估中,评估指标有SEEN、UNSEEN和HM,SEEN表示在训练过程中见过的实体;UNSEEN表示在训练过程中未见过的实体,HM是SEEN和UNSEEN的调和平均,。从表1所显示的数据可知,BLIP2面对OVEN数据集的实体链接任务时,性能较为有限;主要原因是原始BLIP2模型性能较差的原因可能包括对多模态信息的处理不足以及在细粒度任务的适应性有限。
上下文学习(In-context Learning)是一种在模型训练过程中引入上下文信息的策略,通过将模型训练数据集中的上下文信息加入到训练过程中,可以提高模型对任务的适应性,尤其是在面对特定任务场景时。如表1所示,经过在BLIP2模型上引入上下文学习的实验后,相较于原始BLIP2模型,性能在两个维度上有了约1-2个点的提升。BLIP2模型的上下文学习实验结果显示,引入上下文信息对BLIP2的基础模型进行学习,在一定程度上提升了视觉实体链接任务的性能。尽管BLIP2模型通过上下文学习取得了一定的性能提升,但其表现仍然相对有限。经研究发现,多模态模型在实体链接后连接到的实体与正确实体相似,但并未完全匹配,这是准确率不高的一个关键原因;其次,目前多模态大模型对上下文学习的支持效果尚不理想。
为了解决多模态大模型生成的候选实体与真正的实体不一致的问题,本发明引入了实体启发式生成方法,首先让多模态大模型根据图像和查询信息生成多个候选实体,然后在生成最终的实体时参考这些候选实体;通过大语言模型对多模态大模型的实体启发式生成结果进行进一步的处理,以探索是否能够提高实验结果。本发明将引入了大语言模型后的多模态大模型的准确率指标作为本发明方法的参考基准。使用该方法后,多模态大模型在Query Split维度即Entity Split维度下的指标如表1所示。这一引入实体启发式生成和大语言模型的方法,以及相应的实验结果,为本发明方法提供了更全面和优化的视觉实体链接解决方案。
本发明中使用实体启发式生成方法和启发式增强提示方法的多模态大模型在Query Split及Entity Split维度上的指标如表1所示,相较于BLIP2+上下文学习实验结果,本发明所述方法在Query Split维度上,三个指标分别提升了近20个点,而在EntitySplit维度上提升了3~5个点。本实验结果的显著提升表明,通过引入更为精准和有针对性的启发式增强提示,结合大语言模型的理解和生成能力,实体链接任务的性能得到了更为显著的提升;说明了本发明的可行性和实用性,基于多模态大模型的视觉实体链接技术可提高更细粒度的视觉实体链接的准确性和鲁棒性,为在视觉实体链接领域进一步提高多模态信息处理能力提供了有益的经验。
以上所述仅为本发明的优选方案,并非作为对本发明的进一步限定,凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims (4)

1.一种基于多模态预训练模型的视觉实体链接方法,其特征在于,包括以下步骤:
步骤1、选择视觉实体链接的多模态多粒度数据集;
步骤2、在所述多模态多粒度数据集上,构建多模态大模型;所述多模态大模型包括主干模型Mb和分类头模型Mh;所述主干模型Mb融合多模态输入,得到融合特征z;所述分类头模型Mh将融合特征z投影到实体词汇表的预测向量y上;
所述主干模型包括图像编码器、文本编码器和交叉编码器;
所述图像编码器使用CLIP的ViT-L/14作为特征提取器,将图像分割成若干个区域,并提取每个区域的特征向量;
文本编码器使用指令训练的FlanT5模型作为特征提取器,将文本查询分词,并提取每个词的特征向量;
交叉编码器使用Q-Former作为特征融合器,将图像和文本的特征向量进行自注意力和交叉注意力的计算,得到融合特征z,融合特征z的公式如下:
其中,Mb ()指经过多模态大模型主干模型将图片和文本变成融合特征z;v表示图片的特征向量,q表示文本的特征向量;
所述分类头模型Mh由一个线性层和一个sigmoid函数组成,将融合特征z投影到实体词汇的预测向量y上;预测向量y的计算公式如下:
其中,Mh ()指经过多模态大模型的分类头模型,输出融合特征的预测向量;
步骤3、采用启发式方法,利用分类头模型Mh生成测试数据的候选实体;
步骤4、利用主干模型Mb进行实体关联,生成测试数据的多个实体关联的示例;
步骤5、根据提示模板要求,将提示头、上下文信息和测试数据填入提示模板中形成提示;
步骤6、将所述提示输入到多模态模型中,生成启发式的预测实体;
步骤7、基于BM25算法,匹配与预测实体最相近的多个知识库实体;
步骤8、对最后链接的实体进行准确率计算,比较知识库实体与真实实体的一致性。
2.根据权利要求1所述的一种基于多模态预训练模型的视觉实体链接方法,其特征在于,步骤3中,给定一个测试输入,从预测向量y选择得分最高的前k个实体作为候选实体。
3.根据权利要求1所述的一种基于多模态预训练模型的视觉实体链接方法,其特征在于,步骤4中,对测试数据找到与之相近的多条训练数据作为上下文信息,给定一个测试输入和训练输入,利用主干模型Mb获得测试输入的融合特征z和训练输入的融合特征zi
通过计算测试z和zi的余弦相似度:
其中,T为转置;选择与测试输入最相近的前n个训练输入作为该测试数据的实体关联的示例。
4.根据权利要求1所述的一种基于多模态预训练模型的视觉实体链接方法,其特征在于,步骤7中,使用BM25算法,将预测实体作为查询,将知识库实体的标题作为文档,计算它们的相关性得分,然后选择得分最高的前m个知识库实体作为匹配结果,具体为:
其中,表示每个知识库实体与预测的实体之间的相似度得分;Q表示预测的实体,d表示知识库中的实体,s表示预测实体的分词个数,qi表示预测实体的第i个分词,fi表示qi在d中出现的次数,dl为知识库实体d的长度,avgdl为所有知识库实体的平均长度,k1、b为调节因子;/>反映分词在整个知识库中的重要性;
其中,N表示知识库实体总数,表示包含查询词qi的知识库实体数。
CN202410148671.6A 2024-02-02 2024-02-02 一种基于多模态预训练模型的视觉实体链接方法 Active CN117689963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410148671.6A CN117689963B (zh) 2024-02-02 2024-02-02 一种基于多模态预训练模型的视觉实体链接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410148671.6A CN117689963B (zh) 2024-02-02 2024-02-02 一种基于多模态预训练模型的视觉实体链接方法

Publications (2)

Publication Number Publication Date
CN117689963A CN117689963A (zh) 2024-03-12
CN117689963B true CN117689963B (zh) 2024-04-09

Family

ID=90133804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410148671.6A Active CN117689963B (zh) 2024-02-02 2024-02-02 一种基于多模态预训练模型的视觉实体链接方法

Country Status (1)

Country Link
CN (1) CN117689963B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118504645A (zh) * 2024-07-16 2024-08-16 深圳市九天睿芯科技有限公司 多模态大模型训练方法、机器人动作预测方法及处理装置
CN118683433A (zh) * 2024-08-26 2024-09-24 广汽埃安新能源汽车股份有限公司 一种汽车灯光管理方法、装置、存储介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113851219A (zh) * 2021-11-29 2021-12-28 山东交通学院 一种基于多模态知识图谱的智能导诊方法
CN116628172A (zh) * 2023-07-24 2023-08-22 北京酷维在线科技有限公司 基于知识图谱的政务服务领域多策略融合的对话方法
CN117151220A (zh) * 2023-10-27 2023-12-01 北京长河数智科技有限责任公司 一种基于实体链接与关系抽取的行业知识库系统及方法
CN117371527A (zh) * 2023-11-01 2024-01-09 中国科学院计算技术研究所 基于大模型的多模态实体链接方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931509A (zh) * 2020-08-28 2020-11-13 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113851219A (zh) * 2021-11-29 2021-12-28 山东交通学院 一种基于多模态知识图谱的智能导诊方法
CN116628172A (zh) * 2023-07-24 2023-08-22 北京酷维在线科技有限公司 基于知识图谱的政务服务领域多策略融合的对话方法
CN117151220A (zh) * 2023-10-27 2023-12-01 北京长河数智科技有限责任公司 一种基于实体链接与关系抽取的行业知识库系统及方法
CN117371527A (zh) * 2023-11-01 2024-01-09 中国科学院计算技术研究所 基于大模型的多模态实体链接方法及系统

Also Published As

Publication number Publication date
CN117689963A (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN112115238B (zh) 一种基于bert和知识库的问答方法和系统
CN117689963B (zh) 一种基于多模态预训练模型的视觉实体链接方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN116795973B (zh) 基于人工智能的文本处理方法及装置、电子设备、介质
CN113761377B (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN113392191A (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN115587207A (zh) 一种基于分类标签的深度哈希检索方法
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN114780582A (zh) 基于表格问答的自然答案生成系统及其方法
CN117332789A (zh) 一种面向对话场景的语义分析方法及系统
CN117762499A (zh) 任务指令构建方法和任务处理方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN114416991A (zh) 一种基于prompt的文本情感原因分析方法和系统
CN111737507A (zh) 一种单模态图像哈希检索方法
CN114880994B (zh) 一种直白文本到反讽文本的文本风格转换方法及装置
CN115964486A (zh) 一种基于数据增强的小样本意图识别方法
CN114117069B (zh) 一种用于知识图谱智能问答的语义理解方法及系统
CN113868389B (zh) 基于自然语言文本的数据查询方法、装置及计算机设备
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN114996442A (zh) 一种联合抽象程度判别和摘要优化的文本摘要生成系统
CN114444609A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN116821349B (zh) 一种基于大数据的文献分析方法及管理系统
CN117933254B (zh) 基于多特征融合与渐进对比的中文实体关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant