CN116704198A - 一种基于多模态信息引导的知识增强视觉问答方法 - Google Patents
一种基于多模态信息引导的知识增强视觉问答方法 Download PDFInfo
- Publication number
- CN116704198A CN116704198A CN202210174858.4A CN202210174858A CN116704198A CN 116704198 A CN116704198 A CN 116704198A CN 202210174858 A CN202210174858 A CN 202210174858A CN 116704198 A CN116704198 A CN 116704198A
- Authority
- CN
- China
- Prior art keywords
- visual
- knowledge
- information
- graph
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 title claims abstract description 71
- 239000013598 vector Substances 0.000 claims description 35
- 238000013507 mapping Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 7
- 239000013589 supplement Substances 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 230000008447 perception Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000000844 transformation Methods 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 208000029257 vision disease Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多模态信息引导的知识增强视觉问答方法,具有这样的特征,包括以下步骤:步骤1,构建图像的全局视觉模态特征并提取视觉模态信息;步骤2,基于所述视觉模态信息的问题实体进行注意力操作,提取需要引入外部知识的所述问题实体,并对提取的所述问题进行知识引入,得到增强问题;步骤3,将增强问题的编码为推理指令,以图卷积网络的方法在图像生成的场景图中以推理指令为引导进行推理,最后获取相应的答案。
Description
技术领域
本发明涉及计算机视觉问答技术领域,具体涉及一种基于多模态信息引导的知识增强视觉问答方法。
背景技术
视觉问答是一种多模态信息处理技术,涉及到自然语言处理及计算机视觉等相关领域的研究,是一个典型的多模态分析推理任务,其可以应用在不同的领域,包括视觉障碍辅助、辅助诊断等领域。现有的大部分视觉问答模型专注于分析数据集中所包含的现有信息,包括问题、图片及答案信息,而这些信息是不足以完全覆盖回答问题所需的全部知识,人们在回答问题时会自动联想到与之相关的先验知识,而模型因为缺乏这些常识知识而不能准确的回答出这类问题,因此对于这类问题,需要引入外部知识进行信息的补全,这也是获取通用的视觉问答系统所必须的。
现有的一些涉及外部知识的视觉问答工作主要分为下面几种类型:第一种是构造与问题和答案相关的事实三元组,作为数据集的一部分,并通过问题图片编码生成查询语句,在事实数据集中检索事实三元组,作为候选答案进行筛选,这种研究方法获取相关外部知识的方式比较单一,无法很好的覆盖复杂结构下的外部知识信息。
第二种是基于大规模的外部知识检索方法的知识引入视觉问答方法,通过图片和问题抽取相应的概念,再通过这些概念多个外部知识库检索相应的结构化及非结构化知识,这类方法通过在视觉问答的不同阶段融入一些检索到的知识,以此来回答需要外部知识的问题,这类方法主要通过搜索引擎等服务支持来进行外部知识检索,引入的知识比较粗糙,没有经过细粒度的选择,最终将引入噪声。
第三种是通过结构化图片概念,并依据外部知识构建视觉概念的相关属性及概念间的关系,然后通过以问题引导的方式在结构化视觉概念网络上进行推理,关注到与正确答案最相关的视觉概念实体上,以获得最终的答案,这种方法在视觉模态引入了部分外部知识,且推理过程是显式的,但是其没有很好的处理模态之间的信息交互,且外部知识的引入没有考虑到问题对知识需求的作用,不能很好的理解问题的语义信息。
综上可以看到现有的方法存在的一些问题:引入的知识内容单一,一般是以三元组或者对应的事实实体的嵌入特征方式引入,没有考虑复杂关联的外部知识关联方式,而大规模检索的方式引入非细粒度知识带来了噪声,单一模态的外部知识引入没有考虑到模态间的信息互补与相互引导,模型不能全面的参考多模态信息以对外部知识进行引入。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种基于多模态信息引导的知识增强视觉问答方法。
本发明提供了一种基于多模态信息引导的知识增强视觉问答方法,具有这样的特征,包括以下步骤:步骤1,构建图像的全局视觉模态特征并提取视觉模态信息;步骤2,基于视觉模态信息的问题进行注意力操作,提取需要引入外部知识的问题实体,并对提取的问题实体进行知识引入,得到增强问题;步骤3,将增强问题的编码为推理指令,以图卷积网络的方法在图像生成的场景图中以推理指令为引导进行推理,最后获取相应的答案。
在本发明提供的基于多模态信息引导的知识增强视觉问答方法中,还可以具有这样的特征:其中,步骤1包括以下步骤:步骤1-1,输入原始彩色图像I,并对图像I进行裁剪及缩放;步骤1-2,采用VGG16预训练模型的特征层对图像I进行特征提取,获得提取后的图像特征In;步骤1-3,以提取的图像特征In作为视觉模态信息Iv。
在本发明提供的基于多模态信息引导的知识增强视觉问答方法中,还可以具有这样的特征:其中,步骤2包括以下步骤:步骤2-1,将提取的视觉模态信息Iv进行特征空间转换得到视觉信息Ip,映射到问题q对应空间;步骤2-2,基于视觉信息Ip对问题q进行注意力操作,获得需补充外部信息的实体E;步骤2-3,对实体E中的实体引入外部知识ke,将嵌入后的知识特征空间转换后进行合并得到增强问题qk。
在本发明提供的基于多模态信息引导的知识增强视觉问答方法中,还可以具有这样的特征:其中,步骤3包括以下步骤:步骤3-1,对于视觉模态信息Iv,通过DETR生成场景图,以获取图中视觉实体及实体间相关信息;步骤3-2,将增强问题qk进行编码,获取问题推理所需指令;步骤3-3,在指令的引导下,利用图卷积网络,通过问题引导方式对场景图进行推理,获得相应的答案。
在本发明提供的基于多模态信息引导的知识增强视觉问答方法中,还可以具有这样的特征:其中,步骤1-2包括以下步骤:步骤1-2-1,计算通过预训练模型VGG16的特征层提取的图像I的全局信息:在图像I上,对于每一个区域像素L,采用不同感受野的卷积网络和池化网络最大池化操作对图像特征In进行提取,获取7*7*512维度的特征;步骤1-2-2,利用平均池化层和全连接层对图像特征In进行进一步的提取和压缩,获取大小为4096的一维向量的图像特征Iv。
在本发明提供的基于多模态信息引导的知识增强视觉问答方法中,还可以具有这样的特征:其中,步骤2-2包括以下步骤:步骤2-2-1,将提取的图像特征In通过多层感知机网络进行空间转换映射为视觉信息Ip,使得其与问题编码空间保持一致;步骤2-2-2,将视觉信息Ip连接到问题特征qI中,tvi=[ti,Ip],其中ti为问题中每一个实体特征,然后对基于视觉信息特征的qv进行注意力操作,以获取需要补充外部知识的实体E。
在本发明提供的基于多模态信息引导的知识增强视觉问答方法中,还可以具有这样的特征:其中,步骤2-3的具体过程为:对实体E中的实体ei,查询对应的外部知识,获得相应的外部知识嵌入的高维向量ke,并通过多层感知网络将ke进行特征空间转换映射为kep,之后将kep融合到对应的ei特征中。
在本发明提供的基于多模态信息引导的知识增强视觉问答方法中,还可以具有这样的特征:其中,步骤3-1的具体过程为:采用DETR进行场景图生成,首先通过图卷积网络对图片进行特征提取,其次对图像的位置信息进行编码,其次将两者进行序列化后相加,送入Transformer网络进行编码和解码,最后使用前馈网络进行类别及物体边界框预测。
在本发明提供的基于多模态信息引导的知识增强视觉问答方法中,还可以具有这样的特征:其中,步骤3-2的具体过程为:对步骤2-2-2中融入了外部知识的问题特征qI=[q1,q2,…,qn]向量,通过Transformer进行编码,编码为M个指令向量。
在本发明提供的基于多模态信息引导的知识增强视觉问答方法中,还可以具有这样的特征:其中,步骤3-3包括以下步骤:步骤3-3-1,对于步骤3-1中所生成的场景图,使用基于注意力机制的图卷积网络进行推理,推理过程中依据步骤3-2中所生成的问题指令进行引导:步骤3-3-2,对于场景图中的对象节点及其属性和边进行编码,获取相应的特征向量,属性的特征向量加入到节点特征向量中,基于节点及边特征向量构建场景图结构;步骤3-3-3,在注意力图卷积神经网络上基于问题指令引导进行图卷积推理操作,其中指令的引导方式为:先通过转换特征空间矩阵Wi进行空间变换获得Inp,保持与图中特征向量相同的维度,然后将Inp与节点及边进行拼接,获得融入了指令的节点和边,然后基于图注意力的方式进行图卷积操作,最后获得图中所有节点的输出特征向量,在所有节点上做最大池化操作,获得图卷积运算的最后输出特征,然后通过全连接层映射到对于的答案类别,获取最终的预测答案。
发明的作用与效果
根据本发明所涉及的基于多模态信息引导的知识增强视觉问答方法,因为具体步骤为:步骤1,构建图像的全局视觉模态特征并提取视觉模态信息;步骤2,基于视觉模态信息的问题进行注意力操作,提取需要引入外部知识的问题实体,并对提取的问题实体进行知识引入,得到增强问题;步骤3,将增强问题的编码为推理指令,以图卷积网络的方法在图像生成的场景图中以推理指令为引导进行推理,最后获取相应的答案。
因此,本发明通过构造图片的全局特征,然后利用多模态信息引导的外部知识引入,通过对融合了视觉模态特征的问题执行注意力操作,获取需要补充事实或常识等外部知识的实体,并通过对应实体查询聚合了子图信息的外部知识实体特征,将外部知识实体特征融合到问题特征中,将问题特征编码为对应指令,并基于问题指令在图片所提取的场景图上通过注意力图卷积网络进行视觉实体节点更新,将最后的视觉实体节点进行答案空间的概率映射,以概率最大的答案为问题答案。本发明在基于图片信息及问题信息的多模态信息引导下的外部知识引入,通过更细粒度的外部知识引入,通过外部知识增强提高了模型的泛化能力,获得更高的答案准确率。
附图说明
图1是本发明的实施例中基于多模态信息引导的知识增强视觉问答方法流程图;
图2是本发明的实施例中基于多模态信息引导的知识增强视觉问答方法的总流程框图;
图3是本发明的实施例中的多模态信息引导的外部知识引入流程图;
图4是本发明的实施例中的基于知识增强的视觉问答过程图;
图5是本发明的实施例中的问题指令编码流程图;
图6是本发明的实施例中的场景图提取的流程图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下实施例结合附图对本发明一种基于多模态信息引导的知识增强视觉问答方法作具体阐述。
在本实施例中,提供了一种基于多模态信息引导的知识增强视觉问答方法,该方法参考了图片和问题的信息,针对外部知识进行引入,提供更加精准和细粒度的方式引入外部知识。
图1是本实施例中基于多模态信息引导的知识增强视觉问答方法流程图。
图1是本实施例中基于多模态信息引导的知识增强视觉问答方法的总流程框图。
如图1~图2所示,本实施例所涉及的基于多模态信息引导的知识增强视觉问答方法包括以下步骤:
步骤S1,构建图像的全局视觉模态特征并提取视觉模态信息。
图3本实施例中的多模态信息引导的外部知识引入流程图。
如图3(a)部分所示,本实施例中步骤S1包括以下步骤:
步骤S1-1,输入原始彩色图像I,并对图像I进行裁剪及缩放。
步骤S1-2,采用VGG16预训练模型的特征层对图像I进行特征提取,获得提取后的图像特征In。具体实施方式为:
步骤S1-2-1,计算通过预训练模型VGG16的特征层提取的图像I的全局信息:在图像I上,对于每一个区域像素L,采用不同感受野的卷积网络和池化网络最大池化操作对图像特征In进行提取,获取7*7*512维度的特征。
步骤S1-2-2,利用平均池化层和全连接层对图像特征In进行进一步的提取和压缩,获取大小为4096的一维向量的图像特征Iv。
步骤S2,如图3(b)、(c)部分所示,基于视觉模态信息的问题进行注意力操作,提取需要引入外部知识的问题实体,并对提取的问题实体进行知识引入,得到增强问题。具体实施方式为:
步骤S2-1,将提取的视觉模态信息Iv进行特征空间转换得到视觉信息Ip,映射到问题q对应空间,其具体步骤如下:
对经过特征提取的图像特征进行信息压缩:经过卷积层及池化层处理之后的图像特征14*14*512维度,通过平均池化及一层全连接层压缩为一维向量:
I7*7*512=AvgPooling7*7(In)
Iv=FC4096(I7*7*512)
其中,In为预训练模型提取的特征,维度为14*14*512,为了获取图片整体的视觉信息,Iv为通过全连接层映射为4096的一维特征向量。
利用MLP对视觉特征进行映射转换,将Iv映射到与问题编码一致的特征空间:
Ip=MLP(Iv)
其中,Iv为经过预训练模型提取后的特征,Ip为视觉特征转换后的特征,维度d=300。
步骤S2-2,基于视觉信息Ip对问题q进行注意力操作,获得需补充外部信息的实体E。具体实施方式为:
在综合图像全局视觉特征Ip的基础上,对嵌入后的问题特征qI=[t0,t1,…,tn]进行注意力操作,其具体步骤如下:
将图像特征融合到问题特征qI中,操作如下;
tvi=concat(ti,Ip)
其中ti∈qo,将特征拼接为600维度,获得融合了图全局信息的问题特征qv,tvi为融合了视觉模态特征的问题实体。
对融合了视觉特征的问题特征qv执行注意力操作,操作如下:
其中Q、K的值为qv经过矩阵WQ,WK转换之后的映射向量。
步骤S2-3,对实体E中的实体引入外部知识ke,将嵌入后的知识特征空间转换后进行合并得到增强问题qk。
对经过注意力计算后的qs,选取其中概率值最高的前m个实体引入相应的知识,操作如下:
选取经过注意力操作之后获得的前m个注意力分数表示的概率对应的问题实体:
tm=Topm(qs)
其中qs为问题中实体的注意力概率,tm为选取的前m个问题实体。
对选取的前m个问题实体进行外部知识查询,获取对应的外部知识特征向量:
kem=ConceptNetGCN-embedding(tm)
对外部知识特征进行特征空间映射转换,并将其融合到对应的实体中:
其中kem为外部知识库经过图卷积方式嵌入之后的关联实体信息,tm为选取的对应实体,表示向量相加,kem是知识图谱数据库中聚合了知识图谱结构中局部子图相关联的信息,相比单一的实体引入具有更加丰富的知识信息,然后将查询到的m个相关外部知识库的实体特征映射到问题特征空间中,并将其以加合的方式融入问题特征中得到知识信息增强的融合表征qk。
图4是本实施例中的基于知识增强的视觉问答过程图。
步骤S3,如图4所示,将增强问题的编码为推理指令,以图卷积网络的方法在图像生成的场景图中以推理指令为引导进行推理,最后获取相应的答案。
其中,包括以下步骤:
步骤S3-1,对于视觉模态信息Iv,通过DETR生成场景图,以获取图中视觉实体及实体间相关信息。具体过程为:
使用ResNet网络作为骨干网络对原始图像特征进行抽取获得图片的特征,然后将其降维之后与空间位置特征编码相加,然后送到DETR编码器中进行编码,获得对N个物体编码之后的特征。
将编码结果输入到DETR解码器中,类似于Transformer的解码结构,不同的是每一层都输出结果并计算损失,并且加入了可学习的位置嵌入,并在最后一层解码器后连接接了两个前馈网络,分别预测检测框及其类别。
图5是本施例中的将问题指令编码为推理指令的流程图。
步骤S3-2,如图5所示,将增强问题qk进行编码,获取问题推理所需指令。具体过程为:
使用3层的Transformer的编码器对问题qk进行编码,使用多头注意力机制,多头的数量设为8,前向反馈层中的隐藏层维度设置为4*512,获得编码后的问题qencoder。
使用Transformer的解码器,将编码结果进行解码,与编码模块测层数保持一致,且采用非自回归的解码方式,获得M个解码后的指令。
步骤S3-3,在指令的引导下,利用图卷积网络,通过问题引导方式对场景图进行推理,获得相应的答案。具体实施方式为:
步骤S3-3-1,对于步骤3-1中所生成的场景图,使用基于注意力机制的图卷积网络进行推理,推理过程中依据步骤S3-2中所生成的问题指令进行引导。
图6是本实施例中的场景图提取的流程图。
步骤S3-3-2,如图6所示,对于场景图中的对象节点及其属性和边进行编码,获取相应的特征向量,属性的特征向量加入到节点特征向量中,基于节点及边特征向量构建场景图结构。
步骤S3-3-3,在注意力图卷积神经网络上基于问题指令引导进行图卷积推理操作,其中指令的引导方式为:
先通过转换特征空间矩阵Wi进行空间变换获得Inp,保持与图中特征向量相同的维度,然后将Inp与节点及边进行拼接,获得融入了指令的节点和边,然后基于图注意力的方式进行图卷积操作,最后获得图中所有节点的输出特征向量,在所有节点上做最大池化操作,获得图卷积运算的最后输出特征,然后通过全连接层映射到对于的答案类别,获取最终的预测答案。
实施例的作用与效果
根据本实施例所涉及的基于多模态信息引导的知识增强视觉问答方法,因为,具体步骤为:步骤1,构建图像的全局视觉模态特征并提取视觉模态信息;步骤2,基于视觉模态信息的问题实体进行注意力操作,提取需要引入外部知识的问题实体,并对提取的问题进行知识引入,得到增强问题;步骤3,将增强问题的编码为推理指令,以图卷积网络的方法在图像生成的场景图中以推理指令为引导进行推理,最后获取相应的答案。
因此,上述实施例通过构造图片的全局特征,然后利用多模态信息引导的外部知识引入,通过对融合了视觉模态特征的问题执行注意力操作,获取需要补充事实或常识等外部知识的实体,并通过对应实体查询聚合了子图信息的外部知识实体特征,将外部知识实体特征融合到问题特征中,将问题特征编码为对应指令,并基于问题指令在图片所提取的场景图上通过注意力图卷积网络进行视觉实体节点更新,将最后的视觉实体节点进行答案空间的概率映射,以概率最大的答案为问题答案。本发明在基于图片信息及问题信息的多模态信息引导下的外部知识引入,通过更细粒度的外部知识引入,通过外部知识增强提高了模型的泛化能力,获得更高的答案准确率。
Claims (10)
1.一种基于多模态信息引导的知识增强视觉问答方法,其特征在于,包括以下步骤:
步骤1,构建图像的全局视觉模态特征并提取视觉模态信息;
步骤2,基于所述视觉模态信息的问题进行注意力操作,提取需要引入外部知识的所述问题实体,并对提取的所述问题实体进行知识引入,得到增强问题;
步骤3,将所述增强问题的编码为推理指令,以图卷积网络的方法在图像生成的场景图中以所述推理指令为引导进行推理,最后获取相应的答案。
2.根据权利要求1所述的一种基于多模态信息引导的知识增强视觉问答方法,其特征在于:
其中,步骤1包括以下步骤:
步骤1-1,输入原始彩色图像I,并对图像I进行裁剪及缩放;
步骤1-2,采用VGG16预训练模型的特征层对所述图像I进行特征提取,获得提取后的图像特征In;
步骤1-3,以提取的所述图像特征In作为视觉模态信息Iv。
3.根据权利要求1所述的一种基于多模态信息引导的知识增强视觉问答方法,其特征在于:
其中,步骤2包括以下步骤:
步骤2-1,将提取的所述视觉模态信息Iv进行特征空间转换得到视觉信息Ip,映射到问题q对应空间;
步骤2-2,基于所述视觉信息Ip对所述问题q进行注意力操作,获得需补充外部信息的实体E;
步骤2-3,对所述实体E中的实体引入外部知识ke,将嵌入后的知识特征空间转换后进行合并得到增强问题qk。
4.根据权利要求1所述的一种基于多模态信息引导的知识增强视觉问答方法,其特征在于:
其中,步骤3包括以下步骤:
步骤3-1,对于所述视觉模态信息Iv,通过DETR生成场景图,以获取图中视觉实体及实体间相关信息;
步骤3-2,将所述增强问题qk进行编码,获取问题推理所需指令;
步骤3-3,在所述指令的引导下,利用所述图卷积网络,通过问题引导方式对所述场景图进行推理,获得相应的答案。
5.根据权利要求2所述的一种基于多模态信息引导的知识增强视觉问答方法,其特征在于:
其中,步骤1-2包括以下步骤:
步骤1-2-1,计算通过所述预训练模型VGG16的特征层提取的所述图像I的全局信息:在所述图像I上,对于每一个区域像素L,采用不同感受野的卷积网络和池化网络最大池化操作对所述图像特征In进行提取,获取7*7*512维度的特征;
步骤1-2-2,利用平均池化层和全连接层对所述图像特征In进行进一步的提取和压缩,获取大小为4096的一维向量的所述图像特征Iv。
6.根据权利要求3所述的一种基于多模态信息引导的知识增强视觉问答方法,其特征在于:
其中,步骤2-2包括以下步骤:
步骤2-2-1,将提取的所述图像特征In通过多层感知机网络进行空间转换映射为视觉信息Ip,使得其与问题编码空间保持一致;
步骤2-2-2,将所述视觉信息Ip连接到问题特征qI中,tvi=[ti,Ip],其中ti为问题中每一个实体特征,然后对基于视觉信息特征的qv进行注意力操作,以获取需要补充外部知识的所述实体E。
7.根据权利要求3所述的一种基于多模态信息引导的知识增强视觉问答方法,其特征在于:
其中,步骤2-3的具体过程为:
对所述实体E中的实体ei,查询对应的外部知识,获得相应的外部知识嵌入的高维向量ke,并通过多层感知网络将ke进行特征空间转换映射为kep,之后将kep融合到对应的ei特征中。
8.根据权利要求4所述的一种基于多模态信息引导的知识增强视觉问答方法,其特征在于:
其中,步骤3-1的具体过程为:
采用所述DETR进行场景图生成,首先通过所述图卷积网络对图片进行特征提取,其次对图像的位置信息进行编码,其次将两者进行序列化后相加,送入Transformer网络进行编码和解码,最后使用前馈网络进行类别及物体边界框预测。
9.根据权利要求4所述的一种基于多模态信息引导的知识增强视觉问答方法,其特征在于:
其中,步骤3-2的具体过程为:
对步骤2-2-2中融入了外部知识的问题特征qI=[q1,q2,…,qn]向量,通过Transformer进行编码,编码为M个指令向量。
10.根据权利要求4所述的一种基于多模态信息引导的知识增强视觉问答方法,其特征在于:
其中,步骤3-3包括以下步骤:
步骤3-3-1,对于步骤3-1中所生成的场景图,使用基于注意力机制的图卷积网络进行推理,推理过程中依据步骤3-2中所生成的问题指令进行引导:
步骤3-3-2,对于场景图中的对象节点及其属性和边进行编码,获取相应的特征向量,属性的特征向量加入到节点特征向量中,基于节点及边特征向量构建场景图结构;
步骤3-3-3,在注意力图卷积神经网络上基于问题指令引导进行图卷积推理操作,其中指令的引导方式为:
先通过转换特征空间矩阵Wi进行空间变换获得Inp,保持与图中特征向量相同的维度,然后将Inp与节点及边进行拼接,获得融入了指令的节点和边,然后基于图注意力的方式进行图卷积操作,最后获得图中所有节点的输出特征向量,在所有节点上做最大池化操作,获得图卷积运算的最后输出特征,然后通过全连接层映射到对于的答案类别,获取最终的预测答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210174858.4A CN116704198A (zh) | 2022-02-24 | 2022-02-24 | 一种基于多模态信息引导的知识增强视觉问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210174858.4A CN116704198A (zh) | 2022-02-24 | 2022-02-24 | 一种基于多模态信息引导的知识增强视觉问答方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116704198A true CN116704198A (zh) | 2023-09-05 |
Family
ID=87836180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210174858.4A Pending CN116704198A (zh) | 2022-02-24 | 2022-02-24 | 一种基于多模态信息引导的知识增强视觉问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116704198A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271818A (zh) * | 2023-11-22 | 2023-12-22 | 鹏城实验室 | 视觉问答方法、系统、电子设备及存储介质 |
CN118093837A (zh) * | 2024-04-23 | 2024-05-28 | 豫章师范学院 | 基于Transformer双解码结构的心理支持问答文本生成方法与系统 |
-
2022
- 2022-02-24 CN CN202210174858.4A patent/CN116704198A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271818A (zh) * | 2023-11-22 | 2023-12-22 | 鹏城实验室 | 视觉问答方法、系统、电子设备及存储介质 |
CN117271818B (zh) * | 2023-11-22 | 2024-03-01 | 鹏城实验室 | 视觉问答方法、系统、电子设备及存储介质 |
CN118093837A (zh) * | 2024-04-23 | 2024-05-28 | 豫章师范学院 | 基于Transformer双解码结构的心理支持问答文本生成方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN112949622B (zh) | 融合文本与图像的双模态性格分类方法及装置 | |
CN113792177B (zh) | 基于知识引导深度注意力网络的场景文字视觉问答方法 | |
CN116704198A (zh) | 一种基于多模态信息引导的知识增强视觉问答方法 | |
CN115964467A (zh) | 一种融合视觉情境的富语义对话生成方法 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN113297370A (zh) | 基于多交互注意力的端到端多模态问答方法及系统 | |
CN113961736A (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
CN114821050A (zh) | 一种基于transformer的指称图像分割方法 | |
Khurram et al. | Dense-captionnet: a sentence generation architecture for fine-grained description of image semantics | |
CN117437317A (zh) | 图像生成方法、装置、电子设备、存储介质和程序产品 | |
CN113065496B (zh) | 神经网络机器翻译模型训练方法、机器翻译方法和装置 | |
Jia et al. | Semantic association enhancement transformer with relative position for image captioning | |
Jiang et al. | Hadamard product perceptron attention for image captioning | |
CN116704506A (zh) | 一种基于交叉环境注意力的指代图像分割方法 | |
CN116311493A (zh) | 一种基于编码解码架构的两阶段人-物交互检测方法 | |
CN113780350B (zh) | 一种基于ViLBERT和BiLSTM的图像描述方法 | |
CN114782995A (zh) | 一种基于自注意力机制的人交互行为检测方法 | |
CN116704272A (zh) | 用于医学视觉-语言多模态任务的文本嵌入表示方法及系统 | |
CN113722536A (zh) | 基于双线性自适应特征交互与目标感知的视频描述方法 | |
Wang et al. | TASTA: Text‐Assisted Spatial and Temporal Attention Network for Video Question Answering | |
CN112765955B (zh) | 一种中文指代表达下的跨模态实例分割方法 | |
Suraj et al. | Deep Learning Approach For Human Emotion-Gender-Age Recognition | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
CN116311535B (zh) | 基于人物交互检测的危险行为分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |