CN115618045A - 一种视觉问答方法、装置及存储介质 - Google Patents

一种视觉问答方法、装置及存储介质 Download PDF

Info

Publication number
CN115618045A
CN115618045A CN202211619360.0A CN202211619360A CN115618045A CN 115618045 A CN115618045 A CN 115618045A CN 202211619360 A CN202211619360 A CN 202211619360A CN 115618045 A CN115618045 A CN 115618045A
Authority
CN
China
Prior art keywords
knowledge
visual
question
implicit
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211619360.0A
Other languages
English (en)
Other versions
CN115618045B (zh
Inventor
杜卿
杜雯靖
谭明奎
李利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Guangwu Internet Technology Co ltd
South China University of Technology SCUT
Original Assignee
Guangdong Guangwu Internet Technology Co ltd
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Guangwu Internet Technology Co ltd, South China University of Technology SCUT filed Critical Guangdong Guangwu Internet Technology Co ltd
Priority to CN202211619360.0A priority Critical patent/CN115618045B/zh
Publication of CN115618045A publication Critical patent/CN115618045A/zh
Application granted granted Critical
Publication of CN115618045B publication Critical patent/CN115618045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视觉问答方法、装置及存储介质,其中方法包括:将图片和对应的问题文本作为输入,通过多模态预训练模型提取图片特征和问题文本特征;根据图片特征和问题文本特征挖掘隐式知识,对隐式知识进行显示建模,获得隐式知识特征;在知识库中检索外部知识,获得显式知识特征;将隐式特征知识和显式知识特征进行融合,获得融合知识特征,根据融合知识特征进行答案推理。本发明对隐含在模型内部以及数据集中的隐式知识进行显式建模,能够进一步挖掘和补充对预训练模型知识的利用,另外,引入了外部知识,可以结合补充的常识知识,辅助模型做进一步的推理,从而提高推理的准确率。本发明可广泛应用于视觉问答领域。

Description

一种视觉问答方法、装置及存储介质
技术领域
本发明涉及视觉问答领域,尤其涉及一种视觉问答方法、装置及存储介质。
背景技术
基于知识的视觉问答任务要求模型具有关联外部知识的能力,来实现开放式跨模态场景理解。而现有方法的局限性没有充分利用人工标注良好的知识库,仅根据输入的问题文本和图片来回答问题,缺乏显式的外部知识。其次,对于引入了外部知识的方法,大多从纯文本知识库里面检索相关的知识,而这些知识库仅包含了由一阶谓词或语言描述表示的事实,而缺乏用于视觉理解的复杂的高阶的多模态知识,没有充分挖掘蕴含在模型内部的隐式知识。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种视觉问答方法、装置及存储介质。
本发明所采用的技术方案是:
一种视觉问答方法,包括以下步骤:
将图片和对应的问题文本作为输入,通过多模态预训练模型提取图片特征和问题文本特征;
根据图片特征和问题文本特征挖掘隐式知识,对隐式知识进行显示建模,获得隐式知识特征;
使用问题和视觉对象标签等作为检索关键词,在知识库中检索外部知识,获得显式知识特征;为了进一步减少显式知识的噪声带来的误差,分别从知识模态内部和跨模态层面上对显式知识进行降噪;
采用Transformer模型将隐式特征知识和显式知识特征进行融合,获得融合知识特征,根据融合知识特征进行答案推理。
进一步地,所述对隐式知识进行显示建模,包括:
采用三元组的形式对所述隐式知识进行表征,一个隐式知识的三元组包括:头实体特征
Figure 953814DEST_PATH_IMAGE001
,关系特征
Figure 749731DEST_PATH_IMAGE002
和尾实体特征
Figure 768503DEST_PATH_IMAGE003
其中,头实体特征
Figure 915450DEST_PATH_IMAGE001
定义为与问题最相关的视觉对象;尾实体特征
Figure 412291DEST_PATH_IMAGE003
定义为答案;关系特征
Figure 328294DEST_PATH_IMAGE004
定义为图片特征与问题文本特征融合之后的特征。
进一步地,所述头实体特征
Figure 252388DEST_PATH_IMAGE001
通过以下方式获得:
对于输入的图像和问题文本,提取图片特征
Figure 886632DEST_PATH_IMAGE005
和问题文本特征
Figure 187163DEST_PATH_IMAGE006
;其中,
Figure 957673DEST_PATH_IMAGE007
代表视觉对象的个数,
Figure 52668DEST_PATH_IMAGE008
代表图片特征的维度;
Figure 174208DEST_PATH_IMAGE009
代表问题文本的单词个数,
Figure 278430DEST_PATH_IMAGE010
代表文本特征的维度;
Figure 903446DEST_PATH_IMAGE011
表示特征空间;
将图片特征
Figure 434922DEST_PATH_IMAGE005
和问题文本特征
Figure 509669DEST_PATH_IMAGE006
,输入多模态预训练模型中学习视觉和文本两个模态内及模态之间的交互信息,以得到增强后的视觉表征
Figure 417583DEST_PATH_IMAGE012
和问题文本表征
Figure 162685DEST_PATH_IMAGE013
Figure 599482DEST_PATH_IMAGE003
个单词特征进行求平均,以得到问题句子的全局表征:
计算每个视觉对象与问题句子的全局表征之间的相似度,根据相似度获取三元组的头实体特征
Figure 430035DEST_PATH_IMAGE001
进一步地,所述问题句子的全局表征的表达式如下:
Figure 876060DEST_PATH_IMAGE014
式中,
Figure 475668DEST_PATH_IMAGE015
为多模态预训练模型的输出文本表征,
Figure 348946DEST_PATH_IMAGE016
代表求平均;
所述头实体特征
Figure 401216DEST_PATH_IMAGE001
的表达式如下:
Figure 385353DEST_PATH_IMAGE017
式中,
Figure 105047DEST_PATH_IMAGE001
是得到的头实体特征特征,
Figure 149226DEST_PATH_IMAGE018
是问题句子的全局特征,
Figure 688792DEST_PATH_IMAGE019
为视觉对象特征矩阵,
Figure 476619DEST_PATH_IMAGE020
为视觉对象特征矩阵转置,
Figure 50820DEST_PATH_IMAGE021
为特征维度。
进一步地,所述关系特征
Figure 265901DEST_PATH_IMAGE004
通过以下方式获得:
对N个视觉对象的特征求平均,得到视觉全局表征
Figure 292763DEST_PATH_IMAGE022
;对视觉全局表征和问题句子的全局特征
Figure 884281DEST_PATH_IMAGE018
表征进行相乘,得到多模态的关系特征
Figure 47409DEST_PATH_IMAGE004
进一步地,所述使用问题或者视觉对象标签作为检索关键词,在知识库中检索外部知识,获得显式知识特征,包括:
分别从知识模态内部和跨模态层面上对显式知识进行降噪,以减少显式知识的噪声带来的误差;
其中,在知识模态内部:为充分理解每条候选知识,并进一步挖掘候选知识内部的关联,在候选知识集合中进行注意力机制计算,采用可学习参数
Figure 433391DEST_PATH_IMAGE023
来表示知识内部的自注意力更新过程的学习,即:
Figure 213128DEST_PATH_IMAGE024
式中,
Figure 342758DEST_PATH_IMAGE025
表示更新后的外部知识特征,
Figure 625972DEST_PATH_IMAGE026
表示自注意力机制计算;
在跨模态层面上:将知识和视觉进行自注意力更新,使得模型能够关注到与视觉内容相关的知识,以减少无关知识带来的负面影响;其中,采用注意力操作来更新视觉和知识特征:
Figure 182855DEST_PATH_IMAGE027
式中,
Figure 184310DEST_PATH_IMAGE028
表示自注意力更新过程的可学习参数,
Figure 117630DEST_PATH_IMAGE029
表示隐式知识的头实体特征。
进一步地,所述采用Transformer模型将隐式特征知识和显式知识特征进行融合,获得融合知识特征,包括:
将隐式知识的<头实体,关系>表征组合在一起,将头实体特征
Figure 255351DEST_PATH_IMAGE001
和关系特征
Figure 980206DEST_PATH_IMAGE004
进行求和,得到隐式知识特征
Figure 468956DEST_PATH_IMAGE030
采用可学习的参数
Figure 940388DEST_PATH_IMAGE031
embedding,与所述隐式知识特征
Figure 198194DEST_PATH_IMAGE030
和显式知识特征
Figure 96880DEST_PATH_IMAGE032
进行拼接,得到输入向量
Figure 807347DEST_PATH_IMAGE033
将输入向量输入Transformer模型进行融合,得到最终的融合知识特征。
进一步地,所述根据融合知识特征进行答案推理,包括:
将融合知识特征和问题特征进行融合,输入到训练后的分类器中,得到最终答案类别;
训练时,将所述分类器与隐式知识表征模型一起训练,训练采样的损失函数
Figure 82471DEST_PATH_IMAGE034
的表达式如下:
Figure 460363DEST_PATH_IMAGE035
Figure 529950DEST_PATH_IMAGE036
Figure 727713DEST_PATH_IMAGE037
Figure 540948DEST_PATH_IMAGE038
Figure 773346DEST_PATH_IMAGE039
记为
Figure 13835DEST_PATH_IMAGE040
,将
Figure 698894DEST_PATH_IMAGE041
记为
Figure 315820DEST_PATH_IMAGE042
Figure 402725DEST_PATH_IMAGE043
Figure 79694DEST_PATH_IMAGE044
其中,
Figure 252049DEST_PATH_IMAGE045
表示隐式知识表征模型的损失函数,
Figure 407087DEST_PATH_IMAGE046
表示分类器的损失函数;
Figure 348498DEST_PATH_IMAGE047
是标注的正确答案,
Figure 930789DEST_PATH_IMAGE048
是从答案集合中随机负采样得到的错误答案,
Figure 590441DEST_PATH_IMAGE049
是与问题最不相关的视觉对象(负例头实体),r表示隐式关系,
Figure 283590DEST_PATH_IMAGE050
是负例隐式知识,
Figure 345087DEST_PATH_IMAGE051
表示计算正确答案与负例隐式知识的相似度;
Figure 363859DEST_PATH_IMAGE052
表示计算错误答案与正例隐式知识的相似度;
Figure 510806DEST_PATH_IMAGE053
表示计算正确答案与正例隐式知识的相似度;
Figure 4717DEST_PATH_IMAGE054
表示表示多模态知识融合表征;A表示候选答案矩阵,
Figure 655141DEST_PATH_IMAGE055
表示候选答案矩阵A的转置矩阵;
Figure 844814DEST_PATH_IMAGE056
表示计算预测概率操作,
Figure 479058DEST_PATH_IMAGE057
是标准答案的预测概率;
Figure 779589DEST_PATH_IMAGE058
表示最小间距,是可调整的超参数,通过控制超参数
Figure 550099DEST_PATH_IMAGE058
来使得匹配的知识与答案的相似度和不匹配的知识和答案相似度的差值至少大于
Figure 910673DEST_PATH_IMAGE058
。最终我们使用多模态知识进行推理得到答案。
本发明所采用的另一技术方案是:
一种视觉问答装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的另一技术方案是:
一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明对隐含在模型内部以及数据集中的隐式知识进行显式建模,能够进一步挖掘和补充对预训练模型知识的利用,另外,引入了外部知识,可以结合补充的常识知识,辅助模型做进一步的推理,从而提高推理的准确率。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中一种视觉问答方法的步骤流程图;
图2是本发明实施例中一种基于多模态只是提取与融合的视觉问答方法的流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
术语解释:
隐式知识:隐含于预训练模型参数中的知识,难以显式表达。
显式知识:存储在外部知识库(如维基百科、ConceptNet)中的知识,包括结构化的三元组形式和非结构的文本形式,均可用文字表示。
现有的基于知识的视觉问答研究中,仅依赖检索得到的外部知识辅助模型进行推理问答,而忽略了对隐式的多模态知识挖掘与建模,也忽略显式知识与隐式知识的充分利用,导致模型只能得到次优的结果。针对上述问题,本实施例提出了多模态知识提取与融合框架,用于对多模态隐式知识进行建模与提取,并且针对隐式与外部显式知识设计了知识融合模块,充分利用两种类型的知识,提高模型的推理能力。该方法包括以下步骤:(a)对隐式知识进行显式建模,提出多模态知识提取与表征模块;(b)将从知识库检索得到的候选知识定义为外部知识,对外部知识进行编码得到外部知识特征,为了进一步减少噪声,在知识内部计算注意力得分以及在使用视觉内容引导的注意力机制,使得模型关注与视觉内容相关的知识;(c)将增强知识特征与外部知识特征采用transformer模型进行深度融合,得到融合后的知识特征;生成的知识特征进行推理,生成最后的答案。
如图1所示,本实施例提供一种视觉问答方法,包括以下步骤:
S1、将图片和对应的问题文本作为输入,通过多模态预训练模型提取图片特征和问题文本特征。
S2、根据图片特征和问题文本特征挖掘隐式知识,对隐式知识进行显示建模,获得隐式知识特征。
在本实施例中,采用三元组的形式对所述隐式知识进行表征,一个隐式知识的三元组包括(头实体,关系,尾实体)。其中,通过计算问题文本与视觉对象的相似度,选取与问题文本相似度最高的视觉对象作为知识三元组中的头实体;将问题文本全局特征与视觉对象全局特征相乘,得到问题文本模态与视觉模态的融合知识特征,定义为知识三元组中的关系特征。
采用辅助损失函数学习多模态知识语义和结构,训练阶段,将尾实体定义为标准答案,使用最小结构损失来拉近头实体和关系实体的融合知识特征与尾实体的特征的距离,从而对隐含于模型和数据集的知识进行显示建模。
S3、使用问题或者视觉对象标签作为检索关键词,在知识库中检索外部知识,获得显式知识特征。
将从知识库检索得到的候选知识定义为外部知识,对外部知识进行编码得到外部知识特征,作为显式知识特征。具体地,使用问题或者视觉对象标签作为检索关键词,在知识库中检索外部知识,得到候选知识集合K,对候选的外部知识输入到bert中进行编码,得到知识特征。
为了进一步减少外部知识的噪声,使用外部知识注意力模块,首先计算候选知识内部之间的注意力得分,更新每条知识的特征;然后进一步计算视觉对象与外部知识的注意力得分,根据得分获取最终的外部知识特征。
S4、采用Transformer模型将隐式特征知识和显式知识特征进行融合,获得融合知识特征,根据融合知识特征进行答案推理。
利用Transformer进行隐式知识特征与显式知识特征融合,将增强后的知识特征用于后续的答案推理。
以下结合附图及具体实施例对上述方法进行详细解释说明。
参见图2,本实施例提供一种基于多模态只是提取与融合的视觉问答方法,具体包括以下步骤:
步骤1、多模态知识与表征
在视觉问答中,通常是通过挖掘不同图片和问题文本之间的内部与交互信息来推理产生答案。本实施例使用了多模态预训练模型对图片和问题文本进行编码,产生增强后的图片特征
Figure 32213DEST_PATH_IMAGE059
,其中N代表视觉对象的个数,
Figure 605277DEST_PATH_IMAGE008
代表图片特征的维度,同样的,也能得到文本特征
Figure 495872DEST_PATH_IMAGE060
,其中,
Figure 27348DEST_PATH_IMAGE009
代表问题文本的单词个数,
Figure 370605DEST_PATH_IMAGE010
代表文本特征的维度。
由于多模态预训练模型是在大规模的数据集上进行训练的,因此模型内部应该是隐式地包含了知识,只是难以对这些知识进行显示建模。现有的视觉问答方法少有挖掘隐式知识,而本实施例将挖掘预训练模型中的隐式知识,并对隐式知识进行显示建模。
知识可采用三元组的形式进行表征,即一条知识三元组包括了,(头实体h,关系r,尾实体t),因此对隐式知识进行表征的问题可转化为如何建模这样一条知识三元组。在本实施例中,把隐式知识三元组的头实体
Figure 12938DEST_PATH_IMAGE001
定义为与问题最相关的视觉对象。尾实体
Figure 758041DEST_PATH_IMAGE018
定义为答案。这样,关系应该是揭示视觉对象和基于文本特征的尾实体之间的关系,而这种关系应该是高阶多模态关系,而非一阶谓词的自然语言表征,因此我们把关系特征
Figure 460417DEST_PATH_IMAGE004
定义为图片特征与问题文本特征融合之后的特征,这样关系特征融合图片和问题之间的信息,体现了视觉与文本两个模态之间的关系。综上所述,采用三元组实现了隐式知识的显式定义。
在计算头实体特征
Figure 290970DEST_PATH_IMAGE001
的过程中,首先,我们对图片和问题进行编码,分别提取全局的特征和每个视觉对象的特征。给定一张图片,使用现有的图像特征提取器来提取图片特征
Figure 205837DEST_PATH_IMAGE059
和问题文本特征
Figure 71024DEST_PATH_IMAGE060
。然后,将上述特征输入到多模态预训练模型中学习视觉和文本两个模态内和模态之间的交互信息,得到增强之后的视觉表征
Figure 944302DEST_PATH_IMAGE061
和问题文本表征
Figure 262151DEST_PATH_IMAGE062
。具体表示如下:
Figure 980709DEST_PATH_IMAGE063
然后,对t个单词特征进行求平均,以得到问题句子的全局表征,具体公式如下所示
Figure 700403DEST_PATH_IMAGE014
其中,
Figure 744582DEST_PATH_IMAGE015
为多模态预训练模型VILBERT的输出文本表征,
Figure 549727DEST_PATH_IMAGE016
操作代表求均值。
将视觉对象集合表征
Figure 337555DEST_PATH_IMAGE064
和问题文本全局表征
Figure 646176DEST_PATH_IMAGE018
输入到视觉-文本注意力模块中,计算每个视觉对象与问题文本之间的相似度,选取相似度较高的视觉对象作为多模态知识三元组的头实体。具体公式如下:
Figure 858327DEST_PATH_IMAGE065
其中,
Figure 885189DEST_PATH_IMAGE001
是得到的头实体特征,
Figure 476707DEST_PATH_IMAGE018
是问题句子的全局特征,
Figure 639836DEST_PATH_IMAGE019
为视觉对象特征矩阵,
Figure 25818DEST_PATH_IMAGE021
为特征维度。
在计算三元组的关系特征r的过程中,首先对N个视觉对象的特征求平均,得到视觉全局表征
Figure 539975DEST_PATH_IMAGE022
,然后,我们对视觉全局表征和文本全局
Figure 669605DEST_PATH_IMAGE018
表征进行相乘,得到多模态关系特征
Figure 687240DEST_PATH_IMAGE004
。基于上述可知,知识三元组的关系特征定义为视觉与问题文本两个模态的融合知识特征,因此关系特征定义为:
Figure 509703DEST_PATH_IMAGE066
Figure 511157DEST_PATH_IMAGE067
关于尾实体表征,我们将尾实体定义为答案。在训练阶段,我们将尾实体定义为标准答案,由训练集提供。
步骤2、外部知识选择
现有的基于知识的视觉问答方法引入外部知识,通常是先根据问题关键词在外部知识库中检索部分知识后进行编码,便直接与多模态预训练模型出来的视觉文本特征进行融合推理,忽略了检索后的知识仍存在冗余噪声等情况。为了减少噪声,我们进一步提出了知识内部注意力选择模块和问题-视觉内容引导的外部知识注意力选择模块。
考虑到知识之间也存在着语义关联,例如:问题中问到“看到熊,人的反应是怎样的”这个问题的答案是跑。检索回来的外部知识可能包含了熊的特征(庞大、危险)和跑的动机(由于恐惧)等知识,知识之间是存在关联性的,我们在解决问题的时候需要把这两条知识关联起来,因此我们在知识内部使用注意力机制,关注知识之间的关系。首先计算知识内部之间的注意力,得到更新后的外部知识表征。然后我们使用视觉对象引导注意力机制,使得模型关注到与视觉内容相关的外部知识。
基于自注意力机制,假设给定一个特征向量
Figure 178898DEST_PATH_IMAGE068
,采用自注意力机制更新特征向量的过程为:
Figure 582198DEST_PATH_IMAGE069
其中,
Figure 575562DEST_PATH_IMAGE070
Figure 533153DEST_PATH_IMAGE023
,
Figure 270165DEST_PATH_IMAGE071
是自注意力机制中可学习的参数,
Figure 527971DEST_PATH_IMAGE072
是放缩因子,并且
Figure 426657DEST_PATH_IMAGE073
是更新后的特征。我们把上述的更新过程记为
Figure 137124DEST_PATH_IMAGE074
,其中,W是可学习的参数。
知识内部级别:充分理解每条候选知识,并进一步挖掘候选知识内部的关联,我们在候选知识集合中进行注意力机制计算,我们采用可学习参数
Figure 412248DEST_PATH_IMAGE023
来表示知识内部的自注意力更新过程的学习。即:
Figure 524560DEST_PATH_IMAGE024
知识-视觉内容级别:对于知识视觉问答来说,大部分问题需要依赖外部知识。尽管在检索外部知识的时候以问题为关键词检索得到,但是很多检索回来的知识和视觉内容并没有太大的关联,而基于知识的视觉问答是需要结合视觉内容和问题以及外部知识才能回答的,因此我们进一步将知识和视觉进行自注意力更新,使得模型能够关注到与视觉内容相关的知识,减少无关知识带来的负面影响。我们采用注意力操作来更新视觉和知识特征。
Figure 859727DEST_PATH_IMAGE027
其中,
Figure 791910DEST_PATH_IMAGE028
表示知识-视觉内容级别的自注意力更新过程的可学习参数。
步骤3、隐式知识与显式知识的融合
经过上述步骤,我们将隐式知识和显式知识都进行编码,得到隐式知识特征和显式知识特征。现有的基于知识的视觉问答任务通常只利用了多模态预训练模型的隐式知识或者只利用外部知识库的等显式知识。而本方法综合考虑两部分的知识,对隐式知识和显式知识进行融合,提出基于transformer的知识融合模块,旨在将隐式知识和显式知识综合利用,得到最终的知识表征。首先,我们将得到的隐式知识<头实体,关系>表征组合在一起,我们将头实体特征
Figure 870725DEST_PATH_IMAGE001
和关系特征
Figure 103123DEST_PATH_IMAGE004
进行求和,得到隐式知识特征
Figure 343612DEST_PATH_IMAGE030
,然后我们步骤2得到的显式知识特征
Figure 294250DEST_PATH_IMAGE032
与隐式知识进行拼接,得到维度为x的向量,为了将隐式知识和显式知识的特征融合,得到最终的知识表征,我们增强一个可学习的参数
Figure 642667DEST_PATH_IMAGE031
embedding,并与上述的知识特征进行拼接,即得到
Figure 729572DEST_PATH_IMAGE033
的输入向量,经过transformer进行融合,transformer内部的多头注意力机制能够有效计算隐式知识和显式知识之间的交互,得到最终的融合表征。
融合公式如下:
Figure 140962DEST_PATH_IMAGE075
步骤4、多模态隐式知识表征学习目标
隐式知识三元组中每个部分包含了不同模态
Figure 313317DEST_PATH_IMAGE047
的语义信息,为了学习隐式知识三元组的表征,并且缩小三元组不同部分的语义鸿沟,提出了两种学习目标用于保持三元组<h, r, t>结构。受到知识表征方法启发,如TransE。在TransE中,有以下的关系,即头实体+关系的表征≈尾实体。因此,为了让模型学到三元组的拓扑结构,我们在训练过程采用辅助函数
Figure 468355DEST_PATH_IMAGE045
来学习三元组的拓扑结构。具体来说,给定一组图片-问题,经过步骤1,我们识别出来与问题最相关的视觉对象
Figure 409766DEST_PATH_IMAGE001
, 我们假设是这组图片-问题的标准答案,
Figure 257636DEST_PATH_IMAGE048
是这组图片-问题的负例答案。那么正样本为(
Figure 917288DEST_PATH_IMAGE076
)。接下来构造了两种类型的负样本。
类型1,我们进一步计算与问题最不相关的视觉对象,即将视觉对象与问题文本计算相似度,将相似度最低的定义为最不相关的视觉对象
Figure 876017DEST_PATH_IMAGE049
,我们将最不相关的视觉对象
Figure 671934DEST_PATH_IMAGE049
与最相关的视觉对象
Figure 690706DEST_PATH_IMAGE001
进行替换,这样我们得到负样本
Figure 572074DEST_PATH_IMAGE077
, 我们认为和问题最不相关的视觉对象一般为冗余的视觉信息或者背景噪声对象,仅通过联系冗余或噪声的视觉对象是无法推理得到正确的答案的,因此这样的视觉对象应该为负样本。
类型2:我们从答案集合中选择除了标准答案之后的答案,作为
Figure 334494DEST_PATH_IMAGE048
,这个答案不是给定问题的答案,因此也可以构造成这样的负样本,即
Figure 250497DEST_PATH_IMAGE078
,即通过视觉对象和多模态关系是无法推理得到这样的答案的。最后,我们希望头实体+关系特征与尾实体的表征能够在正样本对中拉近,在负样本拉远。因此我们定义了以下两个辅助函数:
Figure 440170DEST_PATH_IMAGE039
记为
Figure 74414DEST_PATH_IMAGE040
Figure 109366DEST_PATH_IMAGE041
记为
Figure 879876DEST_PATH_IMAGE042
Figure 240450DEST_PATH_IMAGE079
Figure 96411DEST_PATH_IMAGE080
Figure 935054DEST_PATH_IMAGE081
其中,sim()是指余弦相似度计算。
步骤5、由模型进行最终答案推理
将步骤3得到的知识特征和问题特征进行融合,输入到分类器中,得到最终答案类别。具体来说,我们对尾实体,即答案集合随机初始化一个Embedding层,并且在训练中学到它们的表征。最终我们采用负对数似然损失来学习分类器:
Figure 825649DEST_PATH_IMAGE082
Figure 357125DEST_PATH_IMAGE083
其中,
Figure 700381DEST_PATH_IMAGE057
是标准答案的预测概率。
在训练过程中,将分类器和步骤1中建立的隐式知识表征模型一起训练,最终模型的损失函数为:
Figure 77136DEST_PATH_IMAGE035
综上所述,本实施例相对于现有技术,至少具有如下优点及有益效果:
1)本实施例提出了融合隐式知识与显式知识的视觉问答推理方案,可以有效地解决依赖常识知识推理的视觉任务。相对于传统是视觉问答方案,单纯从图片和文本理解中推理产生答案的方法相比,本实施例引入了外部知识,可以结合补充的常识知识,辅助模型做进一步的推理,从而提高推理的准确率。
2)本发明实例对预训练模型中的隐式知识进行显式建模,充分挖掘隐含于模型和数据集中的知识。现有的基于知识的视觉问答方案大多只考虑对外部知识的利用,将外部知识与视觉问题做融合后进行推理,忽略模型在大规模的数据集上进行预训练的过程中,其实也能学习到隐含的知识,这些知识隐含于模型参数中,难以被显式建模。因此,本实施例对隐式知识显式建模,进一步挖掘和补充对预训练模型知识的利用。
3)为了学习多模态隐式知识的结构关系,本实施例提出了知识三元组结构损失。本实施例将隐式知识显式建模成三元组的结构,将头实体定义为与问题最相关的视觉区域,关系定义为多模态关系,尾实体定义为答案。为了学习三元组结构,提出了三元组结构损失,在特征空间中,拉近头实体表征、关系特征与尾实体表征的距离。
4)本发明实例引入了外部知识,即根据问题关键词在知识库中检索相关的常识知识作为候选知识辅助模型进行推理。另外,本实施例考虑到了候选知识之间的关联,以及存在噪声知识的情况,对外部知识进行两个级别的注意力计算,建模候选知识之间的关联,有助于解决复杂的推理问题(如多跳问题),并且进一步降低噪声知识对模型的影响。
具体地,提出了外部知识编码与注意力模块,为了减少噪声以及建模候选知识内部的关联,分别在候选知识内部级别和知识-视觉内容级别进行注意力机制的计算,在候选知识内部,我们为了充分理解每条候选知识并且进一步挖掘候选知识的内部关联,我们在候选知识集合中进行注意力计算。此外,候选的外部知识通常将视觉问题作为关键字在外部知识库中检索得到的,但这样检索回来的许多知识其实和问题相关的视觉内容并没有太大的关联,因此为了进一步减少噪声,我们的方案将候选的外部知识与视觉内容进行注意力计算,减少无关知识带来的负面影响。相比于引入外部知识其他视觉问答的方案,我们的方案不仅减低了噪声知识的负面影响,还能引入感知和建模候选知识之间的关联,提高模型运用外部知识进行复杂推理的能力(如多跳问题)。
5)为了充分利用隐式知识和外部的知识,本实施例进一步提出了基于transformer的多模态知识融合推理模块,将隐式知识和显式的外部知识进行融合,辅助模型做进一步推理。在挖掘隐式知识的基础上,使用多模态知识融合模块,将隐式知识与外部的显式知识进行融合,充分挖掘了多模态的知识,提高模型推理能力。
本实施例还提供一种视觉问答装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现图1所示方法。
本实施例的一种视觉问答装置,可执行本发明方法实施例所提供的一种视觉问答方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种视觉问答方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种视觉问答方法,其特征在于,包括以下步骤:
将图片和对应的问题文本作为输入,通过多模态预训练模型提取图片特征和问题文本特征;
根据图片特征和问题文本特征挖掘隐式知识,对隐式知识进行显示建模,获得隐式知识特征;
使用问题和视觉对象标签作为检索关键词,在知识库中检索外部知识,获得显式知识特征;
采用Transformer模型将隐式特征知识和显式知识特征进行融合,获得融合知识特征,根据融合知识特征进行答案推理。
2.根据权利要求1所述的一种视觉问答方法,其特征在于,所述对隐式知识进行显示建模,包括:
采用三元组的形式对所述隐式知识进行表征,一个隐式知识的三元组包括:头实体特征
Figure 745063DEST_PATH_IMAGE001
,关系特征
Figure 156453DEST_PATH_IMAGE002
和尾实体特征
Figure 328809DEST_PATH_IMAGE003
其中,头实体特征
Figure 749426DEST_PATH_IMAGE001
定义为与问题最相关的视觉对象;尾实体特征
Figure 690837DEST_PATH_IMAGE003
定义为答案;关系特征
Figure 538707DEST_PATH_IMAGE004
定义为图片特征与问题文本特征融合之后的特征。
3.根据权利要求2所述的一种视觉问答方法,其特征在于,所述头实体特征
Figure 932779DEST_PATH_IMAGE001
通过以下方式获得:
对于输入的图像和问题文本,提取图片特征
Figure 891508DEST_PATH_IMAGE005
和问题文本特征
Figure 953005DEST_PATH_IMAGE006
;其中,
Figure 706197DEST_PATH_IMAGE007
代表视觉对象的个数,
Figure 587566DEST_PATH_IMAGE008
代表图片特征的维度;
Figure 349985DEST_PATH_IMAGE009
代表问题文本的单词个数,
Figure 265989DEST_PATH_IMAGE010
代表文本特征的维度;
Figure 455662DEST_PATH_IMAGE011
表示特征空间;
将图片特征
Figure 824326DEST_PATH_IMAGE005
和问题文本特征
Figure 859278DEST_PATH_IMAGE006
,输入多模态预训练模型中学习视觉和文本两个模态内及模态之间的交互信息,以得到增强后的视觉表征
Figure 895367DEST_PATH_IMAGE012
和问题文本表征
Figure 255942DEST_PATH_IMAGE013
对w个单词特征进行求平均,以得到问题句子的全局表征:
计算每个视觉对象与问题句子的全局表征之间的相似度,根据相似度获取三元组的头实体特征
Figure 111902DEST_PATH_IMAGE001
4.根据权利要求3所述的一种视觉问答方法,其特征在于,所述问题句子的全局表征的表达式如下:
Figure 947615DEST_PATH_IMAGE014
式中,
Figure 838211DEST_PATH_IMAGE015
为多模态预训练模型的输出文本表征,
Figure 369686DEST_PATH_IMAGE016
代表求平均;
所述头实体特征
Figure 712943DEST_PATH_IMAGE001
的表达式如下:
Figure 355277DEST_PATH_IMAGE017
式中,
Figure 100379DEST_PATH_IMAGE018
是问题句子的全局特征,
Figure 537177DEST_PATH_IMAGE019
为视觉对象特征矩阵,
Figure 367729DEST_PATH_IMAGE020
为视觉对象特征矩阵转置,
Figure 813754DEST_PATH_IMAGE021
为特征维度。
5.根据权利要求3所述的一种视觉问答方法,其特征在于,所述关系特征
Figure 413363DEST_PATH_IMAGE004
通过以下方式获得:
对N个视觉对象的特征求平均,得到视觉全局表征
Figure 21062DEST_PATH_IMAGE022
;对视觉全局表征和问题句子的全局特征
Figure 338911DEST_PATH_IMAGE018
表征进行相乘,得到多模态的关系特征
Figure 588626DEST_PATH_IMAGE004
6.根据权利要求1所述的一种视觉问答方法,其特征在于,所述使用问题或者视觉对象标签作为检索关键词,在知识库中检索外部知识,获得显式知识特征,包括:
分别从知识模态内部和跨模态层面上对显式知识进行降噪,以减少显式知识的噪声带来的误差;
其中,在知识模态内部:在候选知识集合中进行注意力机制计算,采用可学习参数
Figure 42741DEST_PATH_IMAGE023
来表示知识内部的自注意力更新过程的学习,即:
Figure 86921DEST_PATH_IMAGE024
式中,
Figure 892066DEST_PATH_IMAGE025
表示更新后的外部知识特征,
Figure 414314DEST_PATH_IMAGE026
表示自注意力机制计算;
在跨模态层面上:将知识和视觉进行自注意力更新,使得模型能够关注到与视觉内容相关的知识,以减少无关知识带来的负面影响;其中,采用注意力操作来更新视觉和知识特征:
Figure 988515DEST_PATH_IMAGE027
式中,
Figure 203596DEST_PATH_IMAGE028
表示自注意力更新过程的可学习参数,
Figure 496037DEST_PATH_IMAGE001
表示隐式知识的头实体特征。
7.根据权利要求2所述的一种视觉问答方法,其特征在于,所述采用Transformer模型将隐式特征知识和显式知识特征进行融合,获得融合知识特征,包括:
将隐式知识的<头实体,关系>表征组合在一起,将头实体特征
Figure 821976DEST_PATH_IMAGE001
和关系特征
Figure 985104DEST_PATH_IMAGE004
进行求和,得到隐式知识特征
Figure 636665DEST_PATH_IMAGE029
采用可学习的参数
Figure 150823DEST_PATH_IMAGE030
embedding,与所述隐式知识特征
Figure 280453DEST_PATH_IMAGE029
和显式知识特征
Figure 829246DEST_PATH_IMAGE031
进行拼接,得到输入向量
Figure 386129DEST_PATH_IMAGE032
将输入向量输入Transformer模型进行融合,得到最终的融合知识特征cls。
8.根据权利要求1所述的一种视觉问答方法,其特征在于,所述根据融合知识特征进行答案推理,包括:
将融合知识特征和问题特征进行融合,输入到训练后的分类器中,得到最终答案类别;
训练时,将所述分类器与隐式知识表征模型一起训练,训练采样的损失函数
Figure 119074DEST_PATH_IMAGE033
的表达式如下:
Figure 52395DEST_PATH_IMAGE034
Figure 455695DEST_PATH_IMAGE035
Figure 183479DEST_PATH_IMAGE036
Figure 672230DEST_PATH_IMAGE037
Figure 878083DEST_PATH_IMAGE038
记为
Figure 135889DEST_PATH_IMAGE039
,将
Figure 300154DEST_PATH_IMAGE040
记为
Figure 276200DEST_PATH_IMAGE041
Figure 20165DEST_PATH_IMAGE042
Figure 398057DEST_PATH_IMAGE043
其中,
Figure 467644DEST_PATH_IMAGE044
表示隐式知识表征模型的损失函数,
Figure 930987DEST_PATH_IMAGE045
表示分类器的损失函数;
Figure 744222DEST_PATH_IMAGE046
是标注的正确答案,
Figure 711041DEST_PATH_IMAGE047
是从答案集合中随机负采样得到的错误答案,
Figure 217109DEST_PATH_IMAGE048
是与问题最不相关的视觉对象,r表示隐式关系,
Figure 902168DEST_PATH_IMAGE049
是负例隐式知识,
Figure 253515DEST_PATH_IMAGE050
表示计算正确答案与负例隐式知识的相似度;
Figure 340419DEST_PATH_IMAGE051
表示计算错误答案与正例隐式知识的相似度;
Figure 17388DEST_PATH_IMAGE052
表示计算正确答案与正例隐式知识的相似度;
Figure 189744DEST_PATH_IMAGE053
表示多模态知识融合表征;A表示候选答案矩阵,
Figure 344782DEST_PATH_IMAGE054
表示候选答案矩阵A的转置矩阵;
Figure 286193DEST_PATH_IMAGE055
表示计算预测概率操作,
Figure 134063DEST_PATH_IMAGE056
是标准答案的预测概率;
Figure 793715DEST_PATH_IMAGE057
表示最小间距。
9.一种视觉问答装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-8任一项所述方法。
10.一种存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-8任一项所述方法。
CN202211619360.0A 2022-12-16 2022-12-16 一种视觉问答方法、装置及存储介质 Active CN115618045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211619360.0A CN115618045B (zh) 2022-12-16 2022-12-16 一种视觉问答方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211619360.0A CN115618045B (zh) 2022-12-16 2022-12-16 一种视觉问答方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN115618045A true CN115618045A (zh) 2023-01-17
CN115618045B CN115618045B (zh) 2023-03-14

Family

ID=84880244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211619360.0A Active CN115618045B (zh) 2022-12-16 2022-12-16 一种视觉问答方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115618045B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115829036A (zh) * 2023-02-14 2023-03-21 山东山大鸥玛软件股份有限公司 面向文本知识推理模型持续学习的样本选择方法和装置
CN115905591A (zh) * 2023-02-22 2023-04-04 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质
CN116401390A (zh) * 2023-05-19 2023-07-07 中国科学技术大学 一种视觉问答处理方法、系统、存储介质及电子设备
CN116431793A (zh) * 2023-06-14 2023-07-14 华南理工大学 一种基于知识生成的视觉问答方法、装置及存储介质
CN117271818A (zh) * 2023-11-22 2023-12-22 鹏城实验室 视觉问答方法、系统、电子设备及存储介质
CN117892140B (zh) * 2024-03-15 2024-05-31 浪潮电子信息产业股份有限公司 视觉问答及其模型训练方法、装置、电子设备、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920587A (zh) * 2018-06-26 2018-11-30 清华大学 融合外部知识的开放域视觉问答方法及装置
CN111475656A (zh) * 2020-03-13 2020-07-31 清华大学 基于外部知识聚合的视觉问答方法及系统
US20200356829A1 (en) * 2019-05-08 2020-11-12 Accenture Global Solutions Limited Multi-modal visual question answering system
CN113435211A (zh) * 2021-07-19 2021-09-24 北京理工大学 一种结合外部知识的文本隐式情感分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920587A (zh) * 2018-06-26 2018-11-30 清华大学 融合外部知识的开放域视觉问答方法及装置
US20200356829A1 (en) * 2019-05-08 2020-11-12 Accenture Global Solutions Limited Multi-modal visual question answering system
CN111475656A (zh) * 2020-03-13 2020-07-31 清华大学 基于外部知识聚合的视觉问答方法及系统
CN113435211A (zh) * 2021-07-19 2021-09-24 北京理工大学 一种结合外部知识的文本隐式情感分析方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115829036A (zh) * 2023-02-14 2023-03-21 山东山大鸥玛软件股份有限公司 面向文本知识推理模型持续学习的样本选择方法和装置
CN115905591A (zh) * 2023-02-22 2023-04-04 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质
CN115905591B (zh) * 2023-02-22 2023-05-30 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质
CN116401390A (zh) * 2023-05-19 2023-07-07 中国科学技术大学 一种视觉问答处理方法、系统、存储介质及电子设备
CN116401390B (zh) * 2023-05-19 2023-10-20 中国科学技术大学 一种视觉问答处理方法、系统、存储介质及电子设备
CN116431793A (zh) * 2023-06-14 2023-07-14 华南理工大学 一种基于知识生成的视觉问答方法、装置及存储介质
CN116431793B (zh) * 2023-06-14 2023-08-22 华南理工大学 一种基于知识生成的视觉问答方法、装置及存储介质
CN117271818A (zh) * 2023-11-22 2023-12-22 鹏城实验室 视觉问答方法、系统、电子设备及存储介质
CN117271818B (zh) * 2023-11-22 2024-03-01 鹏城实验室 视觉问答方法、系统、电子设备及存储介质
CN117892140B (zh) * 2024-03-15 2024-05-31 浪潮电子信息产业股份有限公司 视觉问答及其模型训练方法、装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN115618045B (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN115618045B (zh) 一种视觉问答方法、装置及存储介质
Uc-Cetina et al. Survey on reinforcement learning for language processing
US11748232B2 (en) System for discovering semantic relationships in computer programs
JP7345050B2 (ja) 画像における自然言語句の文脈接地
CN109344404B (zh) 情境感知的双重注意力自然语言推理方法
CN111597830A (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
JP2021166046A (ja) 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法
CN112528034B (zh) 一种基于知识蒸馏的实体关系抽取方法
CN112364174A (zh) 基于知识图谱的病人病历相似度评估方法及系统
CN108960338B (zh) 基于注意力反馈机制的图像自动语句标注方法
CN113010656A (zh) 一种基于多模态融合和结构性控制的视觉问答方法
US20210248425A1 (en) Reinforced text representation learning
US20230008897A1 (en) Information search method and device, electronic device, and storage medium
CN114880307A (zh) 一种开放教育领域知识的结构化建模方法
CN114169408A (zh) 一种基于多模态注意力机制的情感分类方法
CN114036246A (zh) 商品图谱向量化方法、装置、电子设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN107274077B (zh) 课程先后序计算方法和设备
CN116028888A (zh) 一种平面几何数学题目的自动解题方法
US20230111052A1 (en) Self-learning annotations to generate rules to be utilized by rule-based system
CN116266268A (zh) 基于对比学习与语义感知的语义解析方法及装置
CN115186072A (zh) 一种基于双过程认知理论的知识图谱视觉问答方法
CN113052156A (zh) 光学字符识别方法、装置、电子设备和存储介质
El-Gayar Automatic Generation of Image Caption Based on Semantic Relation using Deep Visual Attention Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant