CN115761753A - 一种融合知识图谱的检索式知识前缀引导视觉问答方法 - Google Patents

一种融合知识图谱的检索式知识前缀引导视觉问答方法 Download PDF

Info

Publication number
CN115761753A
CN115761753A CN202211200419.2A CN202211200419A CN115761753A CN 115761753 A CN115761753 A CN 115761753A CN 202211200419 A CN202211200419 A CN 202211200419A CN 115761753 A CN115761753 A CN 115761753A
Authority
CN
China
Prior art keywords
knowledge
image
reader
question
twin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211200419.2A
Other languages
English (en)
Inventor
陈华钧
陈卓
黄雨峰
方尹
张文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202211200419.2A priority Critical patent/CN115761753A/zh
Publication of CN115761753A publication Critical patent/CN115761753A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合知识图谱的检索式知识前缀引导视觉问答方法,包括:构建的背景知识库包含有标注的知识数据,该知识数据利用视觉问答过程中的知识召回。在此基础上,通过基于词干匹配的检索器检索构建知识文本序列对图像编码器和阅读器进行初训练,以在阅读器中引入知识,然后通过孪生检索器对图像编码器和阅读器进行再训练,以增强阅读器对知识的感知,这种基于背景知识库配合检索器和阅读器的协同工作,提升考虑外部知识的视觉问答的准确性。

Description

一种融合知识图谱的检索式知识前缀引导视觉问答方法
技术领域
本发明属于视觉问答技术领域,具体涉及一种融合知识图谱的检索式知识前缀引导视觉问答方法。
背景技术
视觉问答任务是指根据给定的图像回答自然语言问题。近年来,利用外部知识进行开放世界场景理解的视觉问答(又称基于知识的知识问答)得到了发展。
现有技术中,根据如何吸收知识,可将现有的视觉问答分为两类。一类是直接利用语言模型参数中的隐藏的知识回答问题,实现视觉问答。具体而言,受自然语言处理领域基于知识的语言模型的启发,一些方法试图在语言模型训练中注入常识或事实知识作为语言模型参数的一部分。例如文献(Ning Bian,Xianpei Han,Bo Chen,and LeSun.2021.Benchmarking Knowledge-Enhanced Commonsense Question Answering viaKnowledge-to-Text Transformation.In AAAI.AAAI Press,12574–12582)公开的方法。但是对于知识问答场景,语言模型中的隐藏知识有时是不够用的,在引用新的知识时很可能会导致问答失败。并且这些基于编码器的微调语言模型,由于在模型的最后一层附加多层感知机,这直接限制了语言模型中对知识的直接利用,进而限制了视觉问答任务的应用。
第二类是模型基于知识召回策略进行视觉问答,这一类方法通常把视觉-语言信息通过搜索引擎进行信息检索,例如文献(
Figure BDA0003871853490000011
Gardères,Maryam Ziaeefard,Baptiste Abeloos,and Freddy Lécué.2020.ConceptBert:Concept-AwareRepresentation for Visual Question Answering.In EMNLP(Findings)(Findings ofACL,Vol.EMNLP 2020).Association for Computational Linguistics,489–498)公开的方法,在这种情况下网络延迟成为应用瓶颈。再者,从百科全书文章中检索相关的语料库,而这导致了大量不相关的文本信息被引入,从而影响模型在视觉问答任务的判断。
更重要是的,目前所有数据集和现实场景中,对于图像和问题很少含有对应标注的支撑知识数据,并不利于模型进行精确的知识召回训练及评估。
发明内容
鉴于上述,本发明的目的是提供一种融合知识图谱的检索式知识前缀引导视觉问答方法,通过构建背景知识库,并基于背景知识库配合检索器和阅读器的协同工作,提升考虑外部知识的视觉问答的准确性。
为实现上述发明目的,实施例提供的一种融合知识图谱的检索式知识前缀引导视觉问答方法,包括以下步骤:
构建背景知识库,背景知识库中包含有与视觉问答语料相关的事实三元组;
针对视觉问答的图像-问题对,将图像转换为文本描述后,为文本描述与问题添加前缀后构建背景文本序列;
根据文本描述和问题构建词干集合后,利用基于词干匹配的检索器从背景知识库中为词干集合中的词干匹配事实三元组,并将事实三元组转换为自然语言文本后添加前缀构建知识文本序列;
构建图像编码器和阅读器,图像编码器用于对图像-问题对中的图像进行编码得到图像编码向量;阅读器用于根据背景文本序列、知识文本序列以及图像编码向量进行视觉问题任务的答案预测;
对图像编码器和阅读器初步训练优化后,构建孪生检索器,在给定背景知识库中召回知识的情况下,以阅读器的预测答案中正确答案与阅读器中知识部分的注意力权重作为弱监督信号,训练孪生检索器;
孪生检索器初步训练后,将初步训练的孪生检索器替换基于词干的检索器,然后交替再训练阅读器和图像编码器、孪生检索器;
利用再训练后的孪生检索器、阅读器以及图像编码器进行视觉问答。
优选地,在构建背景知识库时,合并多个语义知识库得到初步背景语料库,然后保留初步背景语料中头实体或者尾实体包含在视觉问答语料和常识知识的三元组,接下来根据阈值将初步背景语料库中关系分为频繁关系和非频繁关系,对于头尾实体相同,且关系同时包含频繁关系和非频繁关系的三元组,删除包含频繁关系的三元组,剩下的三元组组成背景知识库。
优选地,采用基于Transformer的预先训练图像注释模型将图像转换为文本描述;
分别提取文本描述和问题中词干并去重后得到词干集合,基于词干匹配的检索器基于词干匹配的BM25分数从背景知识库中通过匹配召回与词干匹配的事实三元组。
优选地,所述阅读器采用经过文本语料预先训练的、基于预先训练编码器-解码器Transformer框架的语言模型,其中,Transformer编码器用于结合模态内注意力机制对输入的背景文本序列、知识文本序列以及图像编码向量分别进行独立编码,得到三类编码向量;Transformer解码器用于基于注意力机制对输入的三类编码向量进行跨模态联合解码以输出预测答案。
优选地,在对图像编码器和阅读器初步训练优化时,采用一种延迟知识注入的方式,并采用最小化负对数似然函数作为损失函数
Figure BDA0003871853490000041
Figure BDA0003871853490000042
其中,q,v,Sfact分别表示问题、图像转换的文本描述以及知识文本序列,y表示图像-问题对应标准答案的令牌化表示,yj表示预测的第j字符,P(yj∣∣y<j,q,v,Sfact)表示根据前j个预测字符、问题、图像转换的文本描述以及知识文本序列预测第j个字符的概率。
优选地,所述孪生检索器包括两个编码器,通过KL散度作为训练损失函数
Figure BDA0003871853490000043
训练孪生检索器:
Figure BDA0003871853490000044
Figure BDA0003871853490000045
Figure BDA0003871853490000046
其中,q表示来自于词干集合Squery的问题,f和f′均表示来自于三元组集合
Figure BDA0003871853490000047
的知识文本序列,Attenq,f表示给定问题下不同三元组对应的知识文本序列在阅读器中的注意力权重,
Figure BDA0003871853490000048
和Eμ(·)表示孪生检索器的两个检索器。
优选地,所述孪生检索器包含的每个编码器采用预先训练编码器Transformer框架的语言模型。
优选地,交替再训练阅读器和图像编码器、孪生检索器时,固定孪生检索器,同时优化阅读器和图像编码器的参数,然后,在固定阅读器和图像编码器,优化孪生检索器的参数,实现一种协同训练。
优选地,利用再训练后的孪生检索器、阅读器以及图像编码器进行视觉问答,包括:
针对待问答的图像-问题对,将图像转换为文本描述后,为文本描述与问题添加前缀后构建背景文本序列;
利用孪生检索器对背景文本序列进行编码,并将编码结果与背景知识库中的所有事实三元组进行相似度计算后,筛选相似度大的事实三元组构建知识文本序列;
利用图像编码器对图像-问题对中的图像进行编码得到图像编码向量;
将背景文本序列、知识文本序列以及图像编码向量输入至阅读器,经过计算输出预测答案。
与现有技术相比,本发明具有的有益效果至少包括:
构建的背景知识库包含有标注的大量通用常识与知识数据,该知识数据利不仅可以用于知识召回,在未来还可以动态扩充,针对不同领域进行相关知识筛选。在此基础上,通过基于词干匹配的检索器检索构建知识文本序列对图像编码器和阅读器进行初训练,以在阅读器中引入知识,然后通过孪生检索器对图像编码器和阅读器进行再训练,以增强阅读器对知识的感知,这种基于背景知识库配合检索器和阅读器的协同工作,提升考虑外部知识的视觉问答的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的融合知识图谱的检索式知识前缀引导视觉问答方法的流程图;
图2是实施例提供的延迟知识注入的原理图;
图3是实施例提供的根据可导孪生检索器进行再训练示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
实施例提供了一种融合知识图谱的检索式知识前缀引导视觉问答方法,如图1所示,实施例提供的融合知识图谱的检索式知识前缀引导视觉问答方法,包括以下步骤:
步骤1,构建背景知识库,背景知识库中包含有与视觉问答语料相关的事实三元组。
实施例中,在构建背景知识库KG时,合并多个知识库得到初步背景语料库,然后保留初步背景语料中头实体或者尾实体包含在视觉问答语料和常识知识的三元组,接下来根据阈值(例如该阈值取值为一万次)将初步背景语料库中关系分为频繁关系和非频繁关系,对于头尾实体相同,且关系同时包含频繁关系和非频繁关系的三元组,删除包含频繁关系的三元组,剩下的三元组用来构建背景知识库。例如,关系“related_to”,“used_for”,“at_location”,“is_a”,这些关系出现的频率比较高,高于设定阈值,则这些关系是频繁关系。
其中,多个知识库包括四个公开的语义知识库,分别为ConceptNet、WebChild、Dbpedia以及hasPart KB。其中,ConceptNet包括了人类对于世界的常识知识。WebChild包含通过更细粒度的关系连接名词和形容词的三元组,例如,hasShape,Faster。Dbpedia包括从Wikipedia中抽取的知识三元组,其覆盖生活的诸多方面。hasPart KB收集普通物体之间的“has part”关系,如<狗,has part,胡须>或科学上的一些关系,如<分子,has part,原子>)。将这些语义知识库合并得到初步背景语料库。
实施例中,将所有视觉问答领域的问题、答案、图像描述、OCR文本取并集得到词表,然后将词表中停用词去除得到视觉问答语料。
步骤2,针对视觉问答的图像-问题对,将图像转换为文本描述后,为文本描述与问题添加前缀后构建背景文本序列。
实施例中,针对给定的图像-问题对,采用基于Transformer的预先训练图像注释(Caption)模型将图像转换为文本描述后,为文本描述添加前缀Context,为问题添加前缀Question,即使用前缀Context和前缀Question区分和间隔文本描述和问题以构建背景文本序列。增加的前缀起到了对于阅读器中蕴含知识的引导挖掘作用,这样做的目的是实现对于阅读器中蕴含知识的合理提取。
步骤3,根据文本描述和问题构建词干集合后,利用基于词干匹配的检索器从背景知识库中为词干集合中的词干匹配事实三元组,并将事实三元组转换为自然语言文本后添加前缀构建知识文本序列。
实施例中,分别提取文本描述和问题中词干并去重后得到词干集合,基于词干匹配的检索器(Retriever)基于词干匹配的BM25分数从背景知识库中通过匹配召回与词干匹配的事实三元组sf。具体地,基于BM25分数采用以下公式计算:
Figure BDA0003871853490000081
Figure BDA0003871853490000082
其中,Squery是词干集合,由词干s1,s2,…,st组成并表示。wi代表某一词干si的重要性。R(si,sf)表示si和sf的语义相关性。n(si)代表包含词干si的事实三元组实数量,N代表背景知识库中事实三元组的总数。超参数0.5主要用来实现计算的平滑性,Score(Squery,sf)表示sf与Squery的匹配得分,依据匹配得分筛选事实三元组。
使用检索器召回背景知识库中相关事实三元组,如<suit,related_to,business>,<tie,related_to,with shirt>,<shirt,used_for,wearing>,基于自动生成好的模板(部分如下):
Figure BDA0003871853490000083
实施例中,在获得事实三元组后,通过知识转文本(Knowledge-to-TextTransformation)技术将事实三元组转换为自然语言文本Sfact,例如:“suit is relatedto business,office is where person do business,tie is related to withshirt,…”,同时标记每段自然语言文本来源的事实三元组,然后为自然语言文本Sfact添加前缀fact构建知识文本序列。
步骤4,构建图像编码器和阅读器,图像编码器用于对图像-问题对中的图像进行编码得到图像编码向量;阅读器用于根据背景文本序列、知识文本序列以及图像编码向量进行视觉问题任务的答案预测。
实施例中,图像编码器(Vision Encoder)将图像转换成为固定维度的图像编码向量。阅读器(Reader)采用经过文本语料预先训练的、基于预先训练编码器-解码器Transformer框架的语言模型,其中,Transformer编码器(Encoder)用于结合模态内注意力机制对输入的背景文本序列、知识文本序列以及图像编码向量分别进行独立编码,得到三类编码向量;Transformer解码器(Decoder)用于基于注意力机制对输入的三类编码向量进行跨模态联合解码以输出预测答案。其中,模态内注意力机制理解为在每类输入数据中单独采用注意力机制,例如在输入数据为背景文本序列这一类中采用注意力机制。跨模态联合编码理解为将输入背景文本序列、知识文本序列以及图像编码向量这三类数据作为整体数据,在整体数据中采用注意力机制进行联合解码。
步骤5,对图像编码器和阅读器初步训练优化后,构建孪生检索器,在给定背景知识库中召回知识的情况下,以阅读器的预测答案中正确答案与阅读器中知识部分的注意力权重作为弱监督信号,训练孪生检索器。
在对图像编码器和阅读器初步训练优化时,同时将背景文本序列、知识文本序列以及图像编码器对图像编码得到的图像编码向量输入至阅读器,利用编码器分别对三者进行编码得到三类编码向量后,再将三类编码向量输入至解码器,以正确答案作为监督,采用一种延迟知识注入的方式,联合训练图像编码器和阅读器,直至阅读器初步收敛。阅读器训练基于如下最小化负对数似然函数作为损失函数:
Figure BDA0003871853490000101
其中,q,v,Sfact分别表示问题、图像转换的文本描述以及知识文本序列,y表示图像-问题对应标准答案的令牌化表示,yj表示预测的第j字符,P(yj∣∣y<j,q,v,Sfact)表示根据前j个预测字符、问题、图像转换的文本描述以及知识文本序列预测第j个字符的概率。
如图2所示,延迟知识注入具体指在阅读器的编码部分,将问题与图像描述对应的背景文本序列统一通过transformer架构的多层注意力机制编码,而知识对应的知识文本序列则独立编码,然后在解码部分将两者融合,其目的是为了实现知识的自我闭环,使阅读器在编码时专注于知识聚合,在解码时专注于知识推理。
实施例中,如图3所示,孪生检索器(Differentiable-Retriever)包括两个编码器S和A,每个编码器采用采用预先训练编码器Transformer框架的语言模型。通过KL散度作为训练损失函数
Figure BDA0003871853490000102
训练孪生检索器:
Figure BDA0003871853490000103
Figure BDA0003871853490000104
Figure BDA0003871853490000105
其中,q表示来自于词干集合Squery的问题,f和f′均表示来自于三元组集合
Figure BDA0003871853490000106
的知识文本序列,Attenq,f表示给定问题下不同三元组对应的知识文本序列在阅读器中的注意力权重,
Figure BDA0003871853490000107
和Eμ(·)表示孪生检索器的两个检索器。
步骤6,孪生检索器初步训练后,将初步训练的孪生检索器替换基于词干的检索器,然后交替再训练阅读器和图像编码器、孪生检索器。
实施例中,交替再训练阅读器和图像编码器、孪生检索器时,固定孪生检索器,同时优化阅读器和图像编码器的参数,然后,在固定阅读器和图像编码器,优化孪生检索器的参数,实现一种协同训练。通过这样的方式,迭代训练指导全局收敛。
步骤7,利用再训练后的孪生检索器、阅读器以及图像编码器进行视觉问答。
实施例中,利用再训练后的孪生检索器、阅读器以及图像编码器进行视觉问答,包括:
针对待问答的图像-问题对,将图像转换为文本描述后,为文本描述与问题添加前缀后构建背景文本序列;
利用孪生检索器对背景文本序列进行编码,并将编码结果与背景知识库中的所有事实三元组进行相似度计算后,筛选相似度大的事实三元组构建知识文本序列;
利用图像编码器对图像-问题对中的图像进行编码得到图像编码向量;
将背景文本序列、知识文本序列以及图像编码向量输入至阅读器,经过计算输出预测答案。
实施例提供的融合知识图谱的检索式知识前缀引导视觉问答方法,通过构建背景知识库,并基于背景知识库配合检索器和阅读器的协同工作,提升考虑外部知识的视觉问答的准确性。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种融合知识图谱的检索式知识前缀引导视觉问答方法,其特征在于,包括以下步骤:
构建背景知识库,背景知识库中包含有与视觉问答语料相关的事实三元组;
针对视觉问答的图像-问题对,将图像转换为文本描述后,为文本描述与问题添加前缀后构建背景文本序列;
根据文本描述和问题构建词干集合后,利用基于词干匹配的检索器从背景知识库中为词干集合中的词干匹配事实三元组,并将事实三元组转换为自然语言文本后添加前缀构建知识文本序列;
构建图像编码器和阅读器,图像编码器用于对图像-问题对中的图像进行编码得到图像编码向量;阅读器用于根据背景文本序列、知识文本序列以及图像编码向量进行视觉问题任务的答案预测;
对图像编码器和阅读器初步训练优化后,构建孪生检索器,在给定背景知识库中召回知识的情况下,以阅读器的预测答案中正确答案与阅读器中知识部分的注意力权重作为弱监督信号,训练孪生检索器;
孪生检索器初步训练后,将初步训练的孪生检索器替换基于词干的检索器,然后交替再训练阅读器和图像编码器、孪生检索器;
利用再训练后的孪生检索器、阅读器以及图像编码器进行视觉问答。
2.根据权利要求1所述的融合知识图谱的检索式知识前缀引导视觉问答方法,其特征在于,在构建背景知识库时,合并多个语义知识库得到初步背景语料库,然后保留初步背景语料中头实体或者尾实体包含在视觉问答语料和常识知识的三元组,接下来根据阈值将初步背景语料库中关系分为频繁关系和非频繁关系,对于头尾实体相同,且关系同时包含频繁关系和非频繁关系的三元组,删除包含频繁关系的三元组,剩下的三元组组成背景知识库。
3.根据权利要求1所述的融合知识图谱的检索式知识前缀引导视觉问答方法,其特征在于,采用基于Transformer的预先训练图像注释模型将图像转换为文本描述;
分别提取文本描述和问题中词干并去重后得到词干集合,基于词干匹配的检索器基于词干匹配的BM25分数从背景知识库中通过匹配召回与词干匹配的事实三元组。
4.根据权利要求1所述的融合知识图谱的检索式知识前缀引导视觉问答方法,其特征在于,所述阅读器采用经过文本语料预先训练的、基于预先训练编码器-解码器Transformer框架的语言模型,其中,Transformer编码器用于结合模态内注意力机制对输入的背景文本序列、知识文本序列以及图像编码向量分别进行独立编码,得到三类编码向量;Transformer解码器用于基于注意力机制对输入的三类编码向量进行跨模态联合解码以输出预测答案。
5.根据权利要求1所述的融合知识图谱的检索式知识前缀引导视觉问答方法,其特征在于,在对图像编码器和阅读器初步训练优化时,采用一种延迟知识注入的方式,并采用最小化负对数似然函数作为损失函数
Figure FDA0003871853480000022
Figure FDA0003871853480000021
其中,q,v,Sfact分别表示问题、图像转换的文本描述以及知识文本序列,y表示图像-问题对应标准答案的令牌化表示,yj表示预测的第j字符,P(yj∣∣y<j,q,v,Sfact)表示根据前j个预测字符、问题、图像转换的文本描述以及知识文本序列预测第j个字符的概率。
6.根据权利要求1所述的融合知识图谱的检索式知识前缀引导视觉问答方法,其特征在于,所述孪生检索器包括两个编码器,通过KL散度作为训练损失函数
Figure FDA0003871853480000035
训练孪生检索器:
Figure FDA0003871853480000031
Figure FDA0003871853480000032
Figure FDA0003871853480000033
其中,q表示来自于词干集合Squery的问题,f和f′均表示来自于三元组集合
Figure FDA0003871853480000036
的知识文本序列,Attenq,f表示给定问题下不同三元组对应的知识文本序列在阅读器中的注意力权重,
Figure FDA0003871853480000034
和Eμ(·)表示孪生检索器的两个检索器。
7.根据权利要求1所述的融合知识图谱的检索式知识前缀引导视觉问答方法,其特征在于,所述孪生检索器包含的每个编码器采用预先训练编码器Transformer框架的语言模型。
8.根据权利要求1所述的融合知识图谱的检索式知识前缀引导视觉问答方法,其特征在于,交替再训练阅读器和图像编码器、孪生检索器时,固定孪生检索器,同时优化阅读器和图像编码器的参数,然后,在固定阅读器和图像编码器,优化孪生检索器的参数,实现一种协同训练。
9.根据权利要求1所述的融合知识图谱的检索式知识前缀引导视觉问答方法,其特征在于,利用再训练后的孪生检索器、阅读器以及图像编码器进行视觉问答,包括:
针对待问答的图像-问题对,将图像转换为文本描述后,为文本描述与问题添加前缀后构建背景文本序列;
利用孪生检索器对背景文本序列进行编码,并将编码结果与背景知识库中的所有事实三元组进行相似度计算后,筛选相似度大小排名高的事实三元组构建知识文本序列;
利用图像编码器对图像-问题对中的图像进行编码得到图像编码向量;
将背景文本序列、知识文本序列以及图像编码向量输入至阅读器,经过计算输出预测答案。
CN202211200419.2A 2022-09-29 2022-09-29 一种融合知识图谱的检索式知识前缀引导视觉问答方法 Pending CN115761753A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211200419.2A CN115761753A (zh) 2022-09-29 2022-09-29 一种融合知识图谱的检索式知识前缀引导视觉问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211200419.2A CN115761753A (zh) 2022-09-29 2022-09-29 一种融合知识图谱的检索式知识前缀引导视觉问答方法

Publications (1)

Publication Number Publication Date
CN115761753A true CN115761753A (zh) 2023-03-07

Family

ID=85350590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211200419.2A Pending CN115761753A (zh) 2022-09-29 2022-09-29 一种融合知识图谱的检索式知识前缀引导视觉问答方法

Country Status (1)

Country Link
CN (1) CN115761753A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186350A (zh) * 2023-04-23 2023-05-30 浙江大学 基于知识图谱和主题文本的输电线路工程搜索方法和装置
CN116431793A (zh) * 2023-06-14 2023-07-14 华南理工大学 一种基于知识生成的视觉问答方法、装置及存储介质
CN116524513A (zh) * 2023-07-03 2023-08-01 中国科学技术大学 开放词表场景图生成方法、系统、设备及存储介质
CN117892140A (zh) * 2024-03-15 2024-04-16 浪潮电子信息产业股份有限公司 视觉问答及其模型训练方法、装置、电子设备、存储介质
CN117892140B (zh) * 2024-03-15 2024-05-31 浪潮电子信息产业股份有限公司 视觉问答及其模型训练方法、装置、电子设备、存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186350A (zh) * 2023-04-23 2023-05-30 浙江大学 基于知识图谱和主题文本的输电线路工程搜索方法和装置
CN116431793A (zh) * 2023-06-14 2023-07-14 华南理工大学 一种基于知识生成的视觉问答方法、装置及存储介质
CN116431793B (zh) * 2023-06-14 2023-08-22 华南理工大学 一种基于知识生成的视觉问答方法、装置及存储介质
CN116524513A (zh) * 2023-07-03 2023-08-01 中国科学技术大学 开放词表场景图生成方法、系统、设备及存储介质
CN116524513B (zh) * 2023-07-03 2023-10-20 中国科学技术大学 开放词表场景图生成方法、系统、设备及存储介质
CN117892140A (zh) * 2024-03-15 2024-04-16 浪潮电子信息产业股份有限公司 视觉问答及其模型训练方法、装置、电子设备、存储介质
CN117892140B (zh) * 2024-03-15 2024-05-31 浪潮电子信息产业股份有限公司 视觉问答及其模型训练方法、装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
US20210240776A1 (en) Responding to user queries by context-based intelligent agents
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN110737763A (zh) 一种融合知识图谱和深度学习的中文智能问答系统及方法
CN115761753A (zh) 一种融合知识图谱的检索式知识前缀引导视觉问答方法
US11620814B2 (en) Contextual grounding of natural language phrases in images
CN110647619A (zh) 一种基于问题生成和卷积神经网络的常识问答方法
CN109992669B (zh) 一种基于语言模型和强化学习的关键词问答方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN110110054A (zh) 一种基于深度学习的从非结构化文本中获取问答对的方法
CN111427995A (zh) 基于内部对抗机制的语义匹配方法、装置及存储介质
CN113505586A (zh) 一种融合语义分类与知识图谱的坐席辅助问答方法与系统
CN111428443B (zh) 一种基于实体上下文语义交互的实体链接方法
CN113157885B (zh) 一种面向人工智能领域知识的高效智能问答系统
CN113076398A (zh) 基于双语词典映射指导的跨语言信息检索方法
CN111680512A (zh) 命名实体识别模型、电话总机转接分机方法及系统
CN114997181A (zh) 一种基于用户反馈修正的智能问答方法及系统
CN112231537A (zh) 基于深度学习和网络爬虫的智能阅读系统
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN115455167A (zh) 一种基于知识引导的地理考题生成方法和装置
Nugraha et al. Typographic-based data augmentation to improve a question retrieval in short dialogue system
CN115905487A (zh) 文档问答方法、系统、电子设备及存储介质
CN113641809A (zh) 一种基于XLNet-BiGRU-CRF的智能问答方法
Lymperaiou et al. A survey on knowledge-enhanced multimodal learning
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN114416914B (zh) 一种基于图片问答的处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination