CN115618045A - 一种视觉问答方法、装置及存储介质 - Google Patents
一种视觉问答方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115618045A CN115618045A CN202211619360.0A CN202211619360A CN115618045A CN 115618045 A CN115618045 A CN 115618045A CN 202211619360 A CN202211619360 A CN 202211619360A CN 115618045 A CN115618045 A CN 115618045A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- visual
- question
- implicit
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种视觉问答方法、装置及存储介质,其中方法包括:将图片和对应的问题文本作为输入,通过多模态预训练模型提取图片特征和问题文本特征;根据图片特征和问题文本特征挖掘隐式知识,对隐式知识进行显示建模,获得隐式知识特征;在知识库中检索外部知识,获得显式知识特征;将隐式特征知识和显式知识特征进行融合,获得融合知识特征,根据融合知识特征进行答案推理。本发明对隐含在模型内部以及数据集中的隐式知识进行显式建模,能够进一步挖掘和补充对预训练模型知识的利用,另外,引入了外部知识,可以结合补充的常识知识,辅助模型做进一步的推理,从而提高推理的准确率。本发明可广泛应用于视觉问答领域。
Description
技术领域
本发明涉及视觉问答领域,尤其涉及一种视觉问答方法、装置及存储介质。
背景技术
基于知识的视觉问答任务要求模型具有关联外部知识的能力,来实现开放式跨模态场景理解。而现有方法的局限性没有充分利用人工标注良好的知识库,仅根据输入的问题文本和图片来回答问题,缺乏显式的外部知识。其次,对于引入了外部知识的方法,大多从纯文本知识库里面检索相关的知识,而这些知识库仅包含了由一阶谓词或语言描述表示的事实,而缺乏用于视觉理解的复杂的高阶的多模态知识,没有充分挖掘蕴含在模型内部的隐式知识。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种视觉问答方法、装置及存储介质。
本发明所采用的技术方案是:
一种视觉问答方法,包括以下步骤:
将图片和对应的问题文本作为输入,通过多模态预训练模型提取图片特征和问题文本特征;
根据图片特征和问题文本特征挖掘隐式知识,对隐式知识进行显示建模,获得隐式知识特征;
使用问题和视觉对象标签等作为检索关键词,在知识库中检索外部知识,获得显式知识特征;为了进一步减少显式知识的噪声带来的误差,分别从知识模态内部和跨模态层面上对显式知识进行降噪;
采用Transformer模型将隐式特征知识和显式知识特征进行融合,获得融合知识特征,根据融合知识特征进行答案推理。
进一步地,所述对隐式知识进行显示建模,包括:
进一步地,所述问题句子的全局表征的表达式如下:
进一步地,所述使用问题或者视觉对象标签作为检索关键词,在知识库中检索外部知识,获得显式知识特征,包括:
分别从知识模态内部和跨模态层面上对显式知识进行降噪,以减少显式知识的噪声带来的误差;
在跨模态层面上:将知识和视觉进行自注意力更新,使得模型能够关注到与视觉内容相关的知识,以减少无关知识带来的负面影响;其中,采用注意力操作来更新视觉和知识特征:
进一步地,所述采用Transformer模型将隐式特征知识和显式知识特征进行融合,获得融合知识特征,包括:
将输入向量输入Transformer模型进行融合,得到最终的融合知识特征。
进一步地,所述根据融合知识特征进行答案推理,包括:
将融合知识特征和问题特征进行融合,输入到训练后的分类器中,得到最终答案类别;
其中,表示隐式知识表征模型的损失函数,表示分类器的损失函数;是标注的正确答案,是从答案集合中随机负采样得到的错误答案,是与问题最不相关的视觉对象(负例头实体),r表示隐式关系,是负例隐式知识,表示计算正确答案与负例隐式知识的相似度;表示计算错误答案与正例隐式知识的相似度;表示计算正确答案与正例隐式知识的相似度;表示表示多模态知识融合表征;A表示候选答案矩阵,表示候选答案矩阵A的转置矩阵;表示计算预测概率操作,是标准答案的预测概率;表示最小间距,是可调整的超参数,通过控制超参数来使得匹配的知识与答案的相似度和不匹配的知识和答案相似度的差值至少大于。最终我们使用多模态知识进行推理得到答案。
本发明所采用的另一技术方案是:
一种视觉问答装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的另一技术方案是:
一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明对隐含在模型内部以及数据集中的隐式知识进行显式建模,能够进一步挖掘和补充对预训练模型知识的利用,另外,引入了外部知识,可以结合补充的常识知识,辅助模型做进一步的推理,从而提高推理的准确率。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中一种视觉问答方法的步骤流程图;
图2是本发明实施例中一种基于多模态只是提取与融合的视觉问答方法的流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
术语解释:
隐式知识:隐含于预训练模型参数中的知识,难以显式表达。
显式知识:存储在外部知识库(如维基百科、ConceptNet)中的知识,包括结构化的三元组形式和非结构的文本形式,均可用文字表示。
现有的基于知识的视觉问答研究中,仅依赖检索得到的外部知识辅助模型进行推理问答,而忽略了对隐式的多模态知识挖掘与建模,也忽略显式知识与隐式知识的充分利用,导致模型只能得到次优的结果。针对上述问题,本实施例提出了多模态知识提取与融合框架,用于对多模态隐式知识进行建模与提取,并且针对隐式与外部显式知识设计了知识融合模块,充分利用两种类型的知识,提高模型的推理能力。该方法包括以下步骤:(a)对隐式知识进行显式建模,提出多模态知识提取与表征模块;(b)将从知识库检索得到的候选知识定义为外部知识,对外部知识进行编码得到外部知识特征,为了进一步减少噪声,在知识内部计算注意力得分以及在使用视觉内容引导的注意力机制,使得模型关注与视觉内容相关的知识;(c)将增强知识特征与外部知识特征采用transformer模型进行深度融合,得到融合后的知识特征;生成的知识特征进行推理,生成最后的答案。
如图1所示,本实施例提供一种视觉问答方法,包括以下步骤:
S1、将图片和对应的问题文本作为输入,通过多模态预训练模型提取图片特征和问题文本特征。
S2、根据图片特征和问题文本特征挖掘隐式知识,对隐式知识进行显示建模,获得隐式知识特征。
在本实施例中,采用三元组的形式对所述隐式知识进行表征,一个隐式知识的三元组包括(头实体,关系,尾实体)。其中,通过计算问题文本与视觉对象的相似度,选取与问题文本相似度最高的视觉对象作为知识三元组中的头实体;将问题文本全局特征与视觉对象全局特征相乘,得到问题文本模态与视觉模态的融合知识特征,定义为知识三元组中的关系特征。
采用辅助损失函数学习多模态知识语义和结构,训练阶段,将尾实体定义为标准答案,使用最小结构损失来拉近头实体和关系实体的融合知识特征与尾实体的特征的距离,从而对隐含于模型和数据集的知识进行显示建模。
S3、使用问题或者视觉对象标签作为检索关键词,在知识库中检索外部知识,获得显式知识特征。
将从知识库检索得到的候选知识定义为外部知识,对外部知识进行编码得到外部知识特征,作为显式知识特征。具体地,使用问题或者视觉对象标签作为检索关键词,在知识库中检索外部知识,得到候选知识集合K,对候选的外部知识输入到bert中进行编码,得到知识特征。
为了进一步减少外部知识的噪声,使用外部知识注意力模块,首先计算候选知识内部之间的注意力得分,更新每条知识的特征;然后进一步计算视觉对象与外部知识的注意力得分,根据得分获取最终的外部知识特征。
S4、采用Transformer模型将隐式特征知识和显式知识特征进行融合,获得融合知识特征,根据融合知识特征进行答案推理。
利用Transformer进行隐式知识特征与显式知识特征融合,将增强后的知识特征用于后续的答案推理。
以下结合附图及具体实施例对上述方法进行详细解释说明。
参见图2,本实施例提供一种基于多模态只是提取与融合的视觉问答方法,具体包括以下步骤:
步骤1、多模态知识与表征
在视觉问答中,通常是通过挖掘不同图片和问题文本之间的内部与交互信息来推理产生答案。本实施例使用了多模态预训练模型对图片和问题文本进行编码,产生增强后的图片特征,其中N代表视觉对象的个数,代表图片特征的维度,同样的,也能得到文本特征,其中,代表问题文本的单词个数,代表文本特征的维度。
由于多模态预训练模型是在大规模的数据集上进行训练的,因此模型内部应该是隐式地包含了知识,只是难以对这些知识进行显示建模。现有的视觉问答方法少有挖掘隐式知识,而本实施例将挖掘预训练模型中的隐式知识,并对隐式知识进行显示建模。
知识可采用三元组的形式进行表征,即一条知识三元组包括了,(头实体h,关系r,尾实体t),因此对隐式知识进行表征的问题可转化为如何建模这样一条知识三元组。在本实施例中,把隐式知识三元组的头实体定义为与问题最相关的视觉对象。尾实体定义为答案。这样,关系应该是揭示视觉对象和基于文本特征的尾实体之间的关系,而这种关系应该是高阶多模态关系,而非一阶谓词的自然语言表征,因此我们把关系特征定义为图片特征与问题文本特征融合之后的特征,这样关系特征融合图片和问题之间的信息,体现了视觉与文本两个模态之间的关系。综上所述,采用三元组实现了隐式知识的显式定义。
在计算头实体特征的过程中,首先,我们对图片和问题进行编码,分别提取全局的特征和每个视觉对象的特征。给定一张图片,使用现有的图像特征提取器来提取图片特征和问题文本特征。然后,将上述特征输入到多模态预训练模型中学习视觉和文本两个模态内和模态之间的交互信息,得到增强之后的视觉表征和问题文本表征。具体表示如下:
然后,对t个单词特征进行求平均,以得到问题句子的全局表征,具体公式如下所示
在计算三元组的关系特征r的过程中,首先对N个视觉对象的特征求平均,得到视觉全局表征,然后,我们对视觉全局表征和文本全局表征进行相乘,得到多模态关系特征。基于上述可知,知识三元组的关系特征定义为视觉与问题文本两个模态的融合知识特征,因此关系特征定义为:
关于尾实体表征,我们将尾实体定义为答案。在训练阶段,我们将尾实体定义为标准答案,由训练集提供。
步骤2、外部知识选择
现有的基于知识的视觉问答方法引入外部知识,通常是先根据问题关键词在外部知识库中检索部分知识后进行编码,便直接与多模态预训练模型出来的视觉文本特征进行融合推理,忽略了检索后的知识仍存在冗余噪声等情况。为了减少噪声,我们进一步提出了知识内部注意力选择模块和问题-视觉内容引导的外部知识注意力选择模块。
考虑到知识之间也存在着语义关联,例如:问题中问到“看到熊,人的反应是怎样的”这个问题的答案是跑。检索回来的外部知识可能包含了熊的特征(庞大、危险)和跑的动机(由于恐惧)等知识,知识之间是存在关联性的,我们在解决问题的时候需要把这两条知识关联起来,因此我们在知识内部使用注意力机制,关注知识之间的关系。首先计算知识内部之间的注意力,得到更新后的外部知识表征。然后我们使用视觉对象引导注意力机制,使得模型关注到与视觉内容相关的外部知识。
知识-视觉内容级别:对于知识视觉问答来说,大部分问题需要依赖外部知识。尽管在检索外部知识的时候以问题为关键词检索得到,但是很多检索回来的知识和视觉内容并没有太大的关联,而基于知识的视觉问答是需要结合视觉内容和问题以及外部知识才能回答的,因此我们进一步将知识和视觉进行自注意力更新,使得模型能够关注到与视觉内容相关的知识,减少无关知识带来的负面影响。我们采用注意力操作来更新视觉和知识特征。
步骤3、隐式知识与显式知识的融合
经过上述步骤,我们将隐式知识和显式知识都进行编码,得到隐式知识特征和显式知识特征。现有的基于知识的视觉问答任务通常只利用了多模态预训练模型的隐式知识或者只利用外部知识库的等显式知识。而本方法综合考虑两部分的知识,对隐式知识和显式知识进行融合,提出基于transformer的知识融合模块,旨在将隐式知识和显式知识综合利用,得到最终的知识表征。首先,我们将得到的隐式知识<头实体,关系>表征组合在一起,我们将头实体特征和关系特征进行求和,得到隐式知识特征,然后我们步骤2得到的显式知识特征与隐式知识进行拼接,得到维度为x的向量,为了将隐式知识和显式知识的特征融合,得到最终的知识表征,我们增强一个可学习的参数embedding,并与上述的知识特征进行拼接,即得到的输入向量,经过transformer进行融合,transformer内部的多头注意力机制能够有效计算隐式知识和显式知识之间的交互,得到最终的融合表征。
融合公式如下:
步骤4、多模态隐式知识表征学习目标
隐式知识三元组中每个部分包含了不同模态的语义信息,为了学习隐式知识三元组的表征,并且缩小三元组不同部分的语义鸿沟,提出了两种学习目标用于保持三元组<h, r, t>结构。受到知识表征方法启发,如TransE。在TransE中,有以下的关系,即头实体+关系的表征≈尾实体。因此,为了让模型学到三元组的拓扑结构,我们在训练过程采用辅助函数来学习三元组的拓扑结构。具体来说,给定一组图片-问题,经过步骤1,我们识别出来与问题最相关的视觉对象, 我们假设是这组图片-问题的标准答案,是这组图片-问题的负例答案。那么正样本为()。接下来构造了两种类型的负样本。
类型1,我们进一步计算与问题最不相关的视觉对象,即将视觉对象与问题文本计算相似度,将相似度最低的定义为最不相关的视觉对象,我们将最不相关的视觉对象与最相关的视觉对象进行替换,这样我们得到负样本, 我们认为和问题最不相关的视觉对象一般为冗余的视觉信息或者背景噪声对象,仅通过联系冗余或噪声的视觉对象是无法推理得到正确的答案的,因此这样的视觉对象应该为负样本。
类型2:我们从答案集合中选择除了标准答案之后的答案,作为,这个答案不是给定问题的答案,因此也可以构造成这样的负样本,即,即通过视觉对象和多模态关系是无法推理得到这样的答案的。最后,我们希望头实体+关系特征与尾实体的表征能够在正样本对中拉近,在负样本拉远。因此我们定义了以下两个辅助函数:
其中,sim()是指余弦相似度计算。
步骤5、由模型进行最终答案推理
将步骤3得到的知识特征和问题特征进行融合,输入到分类器中,得到最终答案类别。具体来说,我们对尾实体,即答案集合随机初始化一个Embedding层,并且在训练中学到它们的表征。最终我们采用负对数似然损失来学习分类器:
在训练过程中,将分类器和步骤1中建立的隐式知识表征模型一起训练,最终模型的损失函数为:
综上所述,本实施例相对于现有技术,至少具有如下优点及有益效果:
1)本实施例提出了融合隐式知识与显式知识的视觉问答推理方案,可以有效地解决依赖常识知识推理的视觉任务。相对于传统是视觉问答方案,单纯从图片和文本理解中推理产生答案的方法相比,本实施例引入了外部知识,可以结合补充的常识知识,辅助模型做进一步的推理,从而提高推理的准确率。
2)本发明实例对预训练模型中的隐式知识进行显式建模,充分挖掘隐含于模型和数据集中的知识。现有的基于知识的视觉问答方案大多只考虑对外部知识的利用,将外部知识与视觉问题做融合后进行推理,忽略模型在大规模的数据集上进行预训练的过程中,其实也能学习到隐含的知识,这些知识隐含于模型参数中,难以被显式建模。因此,本实施例对隐式知识显式建模,进一步挖掘和补充对预训练模型知识的利用。
3)为了学习多模态隐式知识的结构关系,本实施例提出了知识三元组结构损失。本实施例将隐式知识显式建模成三元组的结构,将头实体定义为与问题最相关的视觉区域,关系定义为多模态关系,尾实体定义为答案。为了学习三元组结构,提出了三元组结构损失,在特征空间中,拉近头实体表征、关系特征与尾实体表征的距离。
4)本发明实例引入了外部知识,即根据问题关键词在知识库中检索相关的常识知识作为候选知识辅助模型进行推理。另外,本实施例考虑到了候选知识之间的关联,以及存在噪声知识的情况,对外部知识进行两个级别的注意力计算,建模候选知识之间的关联,有助于解决复杂的推理问题(如多跳问题),并且进一步降低噪声知识对模型的影响。
具体地,提出了外部知识编码与注意力模块,为了减少噪声以及建模候选知识内部的关联,分别在候选知识内部级别和知识-视觉内容级别进行注意力机制的计算,在候选知识内部,我们为了充分理解每条候选知识并且进一步挖掘候选知识的内部关联,我们在候选知识集合中进行注意力计算。此外,候选的外部知识通常将视觉问题作为关键字在外部知识库中检索得到的,但这样检索回来的许多知识其实和问题相关的视觉内容并没有太大的关联,因此为了进一步减少噪声,我们的方案将候选的外部知识与视觉内容进行注意力计算,减少无关知识带来的负面影响。相比于引入外部知识其他视觉问答的方案,我们的方案不仅减低了噪声知识的负面影响,还能引入感知和建模候选知识之间的关联,提高模型运用外部知识进行复杂推理的能力(如多跳问题)。
5)为了充分利用隐式知识和外部的知识,本实施例进一步提出了基于transformer的多模态知识融合推理模块,将隐式知识和显式的外部知识进行融合,辅助模型做进一步推理。在挖掘隐式知识的基础上,使用多模态知识融合模块,将隐式知识与外部的显式知识进行融合,充分挖掘了多模态的知识,提高模型推理能力。
本实施例还提供一种视觉问答装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现图1所示方法。
本实施例的一种视觉问答装置,可执行本发明方法实施例所提供的一种视觉问答方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种视觉问答方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种视觉问答方法,其特征在于,包括以下步骤:
将图片和对应的问题文本作为输入,通过多模态预训练模型提取图片特征和问题文本特征;
根据图片特征和问题文本特征挖掘隐式知识,对隐式知识进行显示建模,获得隐式知识特征;
使用问题和视觉对象标签作为检索关键词,在知识库中检索外部知识,获得显式知识特征;
采用Transformer模型将隐式特征知识和显式知识特征进行融合,获得融合知识特征,根据融合知识特征进行答案推理。
6.根据权利要求1所述的一种视觉问答方法,其特征在于,所述使用问题或者视觉对象标签作为检索关键词,在知识库中检索外部知识,获得显式知识特征,包括:
分别从知识模态内部和跨模态层面上对显式知识进行降噪,以减少显式知识的噪声带来的误差;
在跨模态层面上:将知识和视觉进行自注意力更新,使得模型能够关注到与视觉内容相关的知识,以减少无关知识带来的负面影响;其中,采用注意力操作来更新视觉和知识特征:
8.根据权利要求1所述的一种视觉问答方法,其特征在于,所述根据融合知识特征进行答案推理,包括:
将融合知识特征和问题特征进行融合,输入到训练后的分类器中,得到最终答案类别;
9.一种视觉问答装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-8任一项所述方法。
10.一种存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-8任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211619360.0A CN115618045B (zh) | 2022-12-16 | 2022-12-16 | 一种视觉问答方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211619360.0A CN115618045B (zh) | 2022-12-16 | 2022-12-16 | 一种视觉问答方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115618045A true CN115618045A (zh) | 2023-01-17 |
CN115618045B CN115618045B (zh) | 2023-03-14 |
Family
ID=84880244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211619360.0A Active CN115618045B (zh) | 2022-12-16 | 2022-12-16 | 一种视觉问答方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115618045B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115829036A (zh) * | 2023-02-14 | 2023-03-21 | 山东山大鸥玛软件股份有限公司 | 面向文本知识推理模型持续学习的样本选择方法和装置 |
CN115905591A (zh) * | 2023-02-22 | 2023-04-04 | 浪潮电子信息产业股份有限公司 | 一种视觉问答方法、系统、设备及可读存储介质 |
CN116401390A (zh) * | 2023-05-19 | 2023-07-07 | 中国科学技术大学 | 一种视觉问答处理方法、系统、存储介质及电子设备 |
CN116431793A (zh) * | 2023-06-14 | 2023-07-14 | 华南理工大学 | 一种基于知识生成的视觉问答方法、装置及存储介质 |
CN117271818A (zh) * | 2023-11-22 | 2023-12-22 | 鹏城实验室 | 视觉问答方法、系统、电子设备及存储介质 |
CN117892140B (zh) * | 2024-03-15 | 2024-05-31 | 浪潮电子信息产业股份有限公司 | 视觉问答及其模型训练方法、装置、电子设备、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920587A (zh) * | 2018-06-26 | 2018-11-30 | 清华大学 | 融合外部知识的开放域视觉问答方法及装置 |
CN111475656A (zh) * | 2020-03-13 | 2020-07-31 | 清华大学 | 基于外部知识聚合的视觉问答方法及系统 |
US20200356829A1 (en) * | 2019-05-08 | 2020-11-12 | Accenture Global Solutions Limited | Multi-modal visual question answering system |
CN113435211A (zh) * | 2021-07-19 | 2021-09-24 | 北京理工大学 | 一种结合外部知识的文本隐式情感分析方法 |
-
2022
- 2022-12-16 CN CN202211619360.0A patent/CN115618045B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920587A (zh) * | 2018-06-26 | 2018-11-30 | 清华大学 | 融合外部知识的开放域视觉问答方法及装置 |
US20200356829A1 (en) * | 2019-05-08 | 2020-11-12 | Accenture Global Solutions Limited | Multi-modal visual question answering system |
CN111475656A (zh) * | 2020-03-13 | 2020-07-31 | 清华大学 | 基于外部知识聚合的视觉问答方法及系统 |
CN113435211A (zh) * | 2021-07-19 | 2021-09-24 | 北京理工大学 | 一种结合外部知识的文本隐式情感分析方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115829036A (zh) * | 2023-02-14 | 2023-03-21 | 山东山大鸥玛软件股份有限公司 | 面向文本知识推理模型持续学习的样本选择方法和装置 |
CN115905591A (zh) * | 2023-02-22 | 2023-04-04 | 浪潮电子信息产业股份有限公司 | 一种视觉问答方法、系统、设备及可读存储介质 |
CN115905591B (zh) * | 2023-02-22 | 2023-05-30 | 浪潮电子信息产业股份有限公司 | 一种视觉问答方法、系统、设备及可读存储介质 |
CN116401390A (zh) * | 2023-05-19 | 2023-07-07 | 中国科学技术大学 | 一种视觉问答处理方法、系统、存储介质及电子设备 |
CN116401390B (zh) * | 2023-05-19 | 2023-10-20 | 中国科学技术大学 | 一种视觉问答处理方法、系统、存储介质及电子设备 |
CN116431793A (zh) * | 2023-06-14 | 2023-07-14 | 华南理工大学 | 一种基于知识生成的视觉问答方法、装置及存储介质 |
CN116431793B (zh) * | 2023-06-14 | 2023-08-22 | 华南理工大学 | 一种基于知识生成的视觉问答方法、装置及存储介质 |
CN117271818A (zh) * | 2023-11-22 | 2023-12-22 | 鹏城实验室 | 视觉问答方法、系统、电子设备及存储介质 |
CN117271818B (zh) * | 2023-11-22 | 2024-03-01 | 鹏城实验室 | 视觉问答方法、系统、电子设备及存储介质 |
CN117892140B (zh) * | 2024-03-15 | 2024-05-31 | 浪潮电子信息产业股份有限公司 | 视觉问答及其模型训练方法、装置、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115618045B (zh) | 2023-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115618045B (zh) | 一种视觉问答方法、装置及存储介质 | |
Uc-Cetina et al. | Survey on reinforcement learning for language processing | |
US11748232B2 (en) | System for discovering semantic relationships in computer programs | |
JP7345050B2 (ja) | 画像における自然言語句の文脈接地 | |
CN109344404B (zh) | 情境感知的双重注意力自然语言推理方法 | |
CN111597830A (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
JP2021166046A (ja) | 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法 | |
CN112528034B (zh) | 一种基于知识蒸馏的实体关系抽取方法 | |
CN112364174A (zh) | 基于知识图谱的病人病历相似度评估方法及系统 | |
CN108960338B (zh) | 基于注意力反馈机制的图像自动语句标注方法 | |
CN113010656A (zh) | 一种基于多模态融合和结构性控制的视觉问答方法 | |
US20210248425A1 (en) | Reinforced text representation learning | |
US20230008897A1 (en) | Information search method and device, electronic device, and storage medium | |
CN114880307A (zh) | 一种开放教育领域知识的结构化建模方法 | |
CN114169408A (zh) | 一种基于多模态注意力机制的情感分类方法 | |
CN114036246A (zh) | 商品图谱向量化方法、装置、电子设备及存储介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN107274077B (zh) | 课程先后序计算方法和设备 | |
CN116028888A (zh) | 一种平面几何数学题目的自动解题方法 | |
US20230111052A1 (en) | Self-learning annotations to generate rules to be utilized by rule-based system | |
CN116266268A (zh) | 基于对比学习与语义感知的语义解析方法及装置 | |
CN115186072A (zh) | 一种基于双过程认知理论的知识图谱视觉问答方法 | |
CN113052156A (zh) | 光学字符识别方法、装置、电子设备和存储介质 | |
El-Gayar | Automatic Generation of Image Caption Based on Semantic Relation using Deep Visual Attention Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |