CN112905819A - 基于复合注意力的原始特征注入网络的视觉问答方法 - Google Patents
基于复合注意力的原始特征注入网络的视觉问答方法 Download PDFInfo
- Publication number
- CN112905819A CN112905819A CN202110010417.6A CN202110010417A CN112905819A CN 112905819 A CN112905819 A CN 112905819A CN 202110010417 A CN202110010417 A CN 202110010417A CN 112905819 A CN112905819 A CN 112905819A
- Authority
- CN
- China
- Prior art keywords
- visual
- attention
- feature
- image
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 74
- 238000002347 injection Methods 0.000 title claims abstract description 37
- 239000007924 injection Substances 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000002131 composite material Substances 0.000 title claims abstract description 28
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 230000002146 bilateral effect Effects 0.000 claims abstract description 13
- 150000001875 compounds Chemical class 0.000 claims abstract description 13
- 238000002474 experimental method Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000012886 linear function Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 238000005065 mining Methods 0.000 claims description 2
- 238000005728 strengthening Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 230000004927 fusion Effects 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于复合注意力的原始特征注入网络的视觉问答方法。以往的方法主要采用注意机制和密集的迭代操作进行细粒度匹配。然而,这些方法使得图像区域的自相关信息被忽略,这将导致整体语义理解上的偏差。此外,我们注意到在多次双边共同注意力操作之后,图像的一些有价值但不被关注的边缘信息常常被完全忽视。本发明首次提出了基于复合注意力的原始特征注入网络来研究图像和问题之间的对应关系。设计一个具有复合注意的区域强化网络,通过考虑区域间的关系,利用双边信息和自相关性,挖掘更完整的视觉语义并避免理解偏差。并提出原始特征注入模块,恢复图像有价值但不被关注的边缘信息。本发明在VQA2.0上进行大量实验证明了提出模型的有效性。
Description
技术领域
本发明属于视觉问答的方法,涉及计算机视觉和自然语言处理的技术领域。
背景技术
视觉问答在大多数研究中被表述为一个分类问题,图像和问题作为输入,答案作为输出类别(由于可能答案的数量有限)。由于视觉问答任务是在深度学习方法得到广泛普及后提出的,目前几乎所有视觉问答解决方案都是使用CNN对图像输入进行建模,而使用RNN对问题进行建模。注意机制在视觉问答中得到了广泛的研究。这包括视觉注意力,它专注于处理在哪里看的问题,以及问题注意力,它专注于解决在哪里阅读的问题。由于图像和问题是两种不同的模态,因此将两种模态联合嵌入到一起以统一描述图像/问题对是很简单的。
现有模型的常见做法是分别提取视觉和语言特征,然后将它们合并到一个公共空间中。然后根据这些融合的双峰特征预测输入问题的答案。在早期研究中,研究人员采用了一些相对简单的融合方法,例如特征向量的特征连接,相乘和点积。Fukui等人证明了更复杂的融合方法确实可以提高预测精度,因此他们引入了双线性(合并)方法。在他们的工作中,将视觉和语言特征两个向量的外积用于融合。由于外部输出具有很高的尺寸特征,因此他们采用了Gao等人的概念。Gao等人压缩了融合的特征,并将其命名为MCB合并方法。但是,为了确保性能稳定,MCB的压缩特征仍然倾向于是高维的,Kim等人使用了两个特征向量的Hadamard乘积来提出低秩双线性池,称为多峰低秩双线性池(MLB)。Yu等人提出了一种多峰分解双线性池(MFB),它使用矩阵分解技术来计算融合特征,从而减少了参数数量并提高了收敛速度。
注意力机制在许多视觉和语言处理任务中都是有效的,例如字幕生成,动作识别,自然语言处理等等。无一例外地将其引入视觉问答,并被证明对回答预测很有帮助。到目前为止,已经开发了许多方法,其中常用的是在图像区域中引导注意力。根据图像特征的类型,方法分为两类。一方面,区域提案的视觉特征用于关注对象,这些注意力对象由边框或区域提案网络生成。从卷积特征中提取另一种视觉特征。
有几种创建和使用注意力图的方法。Yang等人开发了一个叠加式注意力网络,该网络以顺序的方式在图像上生成多个注意力图,旨在执行多个推理步骤。Kim等人通过将其合并到剩余的体系结构中以产生更好的关注信息来扩展了此想法。Chen等人提出了一种结构化的注意力模型,该模型可以对跨区域的关系进行编码,旨在正确回答涉及复杂区域之间的关系的问题。Duy-Kien Nguyen等人提出了著名的协同注意机制,以更好地融合图像和疑问词的表示形式。然而,现有的注意力模型主要考虑图像区域和疑问词之间的可能相互作用,而忽略了图像区域本身的自相关信息。另外,一些网络结构是多层迭代的,通常使得经过多次双边共同关注操作后,一些有价值但无人看管的原始图像边缘信息被完全遗忘了。
发明内容
本发明的目的是为了解决在基于堆叠注意力机制的视觉问答方法中,很少考虑图像中不同区域的关系,对所有区域一视同仁。并且,过于关注问题词与图像区域的匹配,忽视了图像有价值但不被关注的边缘信息。
本发明为解决上述技术问题采取的技术方案是:
S1.构建视觉特征增强模块,根据输入图像区域之间的相关性来挖掘更完整的视觉特征。
S2.结合S1中的强化特征,在整体的深层框架中利用图像和问题双边信息生成特征。
S3.构建原始信息注入模块,恢复图像有价值但不被关注的边缘信息。
S4.结合S2中的网络和S3中的网络构建基于复合注意力的原始特征注入网络架构。
S5.基于复合注意力的原始特征注入网络的训练和视觉问答。
本发明的视觉特征增强模块根据输入图像区域之间的相关性来挖掘更完整的视觉特征。通过考虑图像中区域与区域之间的关联度,从而降低整体语义理解上的偏差。我们在下面描述详细的操作:
给定一个特征F∈Rd×K,分别通过3个1*1的卷积核生成Fq,Fk,Fv。
Fq=WqF,Fk=WkF,Fv=WvF (1)
由Fq,Fk计算出F的注意力FA。
FA=softmax(Fq TFk) (2)
其中Fq T表示矩阵的转置,softmax()指的是softmax函数。
再令Fv与FA相乘后经过平均池化层得到FA′。
FA′=mp(FvFA T) (3)
其中mp()指的是meanpoling函数。
最后,通过FA′和F相加得到视觉特征增强模块的输出。
Fs=WsFA′+F (4)
其中Ws是权重矩阵,其维数是2048*2048。该方法可以将图像区域根据它们的语义相关性设置为不同的优先级。可以根据需要将区域增强模块重复用于不同级别的表示增强。
本发明的复合注意机制,在一个整体的深层框架中更好地利用图像和问题的双边信息和自相关性。它实现了视觉特征增强模块和协同注意力结构的结合。
问题文本的特征Tl和图像的特征Il被输入到复合注意力处理模块中。同时,Il也被发送到视觉特征增强模块以计算图像区域的相关性,对应的输出表示为Ils,由下式给出:
Ils=SI(Il) (5)
其中SI()表示视觉特征增强模块函数。
再将生成的Ils和文本特征Tl作为协同注意力的输入,生成考虑到双边信息的数据,Tlsc和Ilsc:
[Tlsc,Ilsc]=CoA([Tl,Ils]) (6)
其中CoA()是协同注意运算符。
从视觉特征的角度来看,在结合了Ils和Tlsc之后,经过线性操作生成与Ils维度相同的图像特征信息Ilc:
Ilc=linearI(concat(Ils,Tlsc)) (7)
同理,对于问题特征,将Tls与Ilsc结合后,经过线性操作生成与Tl维度相同的图像特征信息Tlc:
Tlc=linearT(concat(Tls,Ilsc)) (8)
其中linear()是线性运算,其中包含1024个具有ReLU非线性和Dropout的隐藏单元。
原始信息注入模块的目的是恢复图像边缘信息,约束图像原始信息的语义偏差,从而帮助模型正确理解图像。具体地说,在经过S2后得到视觉特征Ilc和和语言特征Tlc分别与原始特征Ir和Tr结合后,经过线性操作生成与Ilc和Tlc维度相同的图像特征信息Ilcr和Tlcr:
Ilcr=linearI(concat(Ilc,Ir)) (9)
Tlcr=linearT(concat(Tlc,Tr)) (10)
其中linear是一个Linear函数,它具有1024个具有ReLU非线性和dropout的隐藏单元。
所述的基于复注意力的原始特征注入网络的视觉问答方法包含一个视觉特征增强模块、一个复合注意力模块和一个原始信息注入模块。
基于复合注意力的原始特征注入网络的训练方法如下:
在我们的实现中,所有的实验都是使用Python3.6版本的PyTorch框架实现的,实验是在一台拥有Nvidia Tesla P100GPU的计算机上进行的。
在送入CNN之前,将所有图像的大小调整为448*448。所有问题均使用PythonNatural Language Toolkit(nltk)进行了标记。我们将CommonCraw1-840B Glove模型提供的词汇用于英语单词向量。我们将问题的最大长度限制为14个单词,然后对每个问题进行动态展开,以允许长度不同的问题。在整个实验中,我们使用了八层网络,即具有八个复合注意力和视觉特征增强机制层(L=8)。该层数是根据我们的初步实验选择的。在训练过程中,使用了ADAM优化器在VQA 2.0上分别以400个批次训练了我们的模型。weight衰减为0.0001。我们使用指数衰减逐渐降低学习率:
其中将初始学习率α设置为α=0.001,并且将VQA2.0的decay时期依次设置为7个时期;我们将参数设置为β1=0.9,β2=0.99。为了防止过度拟合,使用了Dropout丢失,每个完全连接层的损失率为ρ=0.3,LSTM的损失率为ρ=0.1。
与现有的技术相比,本发明的有益效果是:
1.本发明提出了一种新颖的带有原始特征注入的复合注意网络用于视觉问题回答。图像和问题文本之间的双边信息以及图像区域的自相关被统一在一起,以实现全面的语义理解和融合,从而提高问题回答的准确率。
2.本发明提出了视觉特征增强机制来挖掘更丰富的视觉特征,并设计了原始特征注入模块来保留图像的原始边缘信息,两者均用于改善图像的整体语义和提高答案预测的准确性。
附图说明
图1为基于复合注意力的原始特征注入网络的视觉问答方法的结构示意图。
图2为视觉特征增强模块示意图。
图3为具有视觉特征增强的复合注意力网络的模型示意图。
图4为原始信息注入模块的模型示意图。
图5和图6为基于复合注意力的原始特征注入网络的视觉问答模型与其他网络的视觉问答模型在数据集上的结果对比图。
图7和图8为视觉问答的可视化结果图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制。
以下结合附图和实施例对本发明做进一步的阐述。
图1为基于复合注意力的原始特征注入网络的结构示意图。如图1所示,整个视觉问答的框架主要由复合注意力(Compound attention mechanism)和原始特征注入模块(0riginal Feature Injection Module)两部分组成。
图2为觉特征增强模块示意图。如图2所示,输入一个特征F∈Rd×K,分别通过3个1*1的卷积核生成Fq,Fk,Fv。
Fq=WqF,Fk=WkF,Fv=WvF
(1)
由Fq,Fk计算出F的注意力FA。
FA=softmax(Fq TFk) (2)
其中Fq T表示矩阵的转置,softmax()指的是softmax函数。
再令Fv与FA相乘后经过平均池化层得到FA′。
FA′=mp(FvFA T) (3)
其中mp()指的是meanpoling函数。
最后,通过FA′和F相加得到视觉特征增强模块的输出。
Fs=WsFA′+F (4)
其中Ws是权重矩阵,其维数是2048*2048。该方法可以将图像区域根据它们的语义相关性设置为不同的优先级。可以根据需要将区域增强模块重第用于不同级别的表示增强。
图3为具有视觉特征增强的复合注意力网络的模型示意图。如图3所示,本发明的复合注意机制,在一个整体的深层框架中更好地利用图像和问题的双边信息和自相关性。它实现了视觉特征增强模块和协同注意力结构的结合。
问题文本的特征Tl和图像的特征Il被输入到复合注意力处理模块中。同时,Il也被发送到视觉特征增强模块以计算图像区域的相关性,对应的输出表示为Ils,由下式给出:
Ils=SI(Il) (5)
其中SI()表示视觉特征增强模块函数。
再将生成的Ils和文本特征Tl作为协同注意力的输入,生成考虑到双边信息的数据,Tlsc和Ilsc:
[Tlsc,Ilsc]=CoA([Tl,Ils]) (6)
其中CoA()是协同注意运算符。
从视觉特征的角度来看,在结合了Ils和Tlsc之后,经过线性操作生成与Ils维度相同的图像特征信息Ilc:
Ilc=linearI(concat(Ils,Tlsc)) (7)
同理,对于问题特征,将Tls与Ilsc结合后,经过线性操作生成与Tl维度相同的图像特征信息Tlc:
Tlc=linearT(concat(Tls,Ilsc)) (8)
其中linear()是线性运算,其中包含1024个具有ReLU非线性和Dropout的隐藏单元。
图4为原始信息注入模块的模型示意图。如图4所示,原始信息注入模块的目的是恢复图像边缘信息,约束图像原始信息的语义偏差,从而帮助模型正确理解图像。具体地说,在经过S2后得到视觉特征Ilc和和语言特征Tlc分别与原始特征Ir和Tr结合后,经过线性操作生成与Ilc和Tlc维度相同的图像特征信息Ilcr和Tlcr:
Ilcr=linearI(concat(Ilc,Ir)) (9)
Tlcr=linearT(concat(Tlc,Tr)) (10)
其中linear是一个Linear函数,它具有1024个具有ReLU非线性和dropout的隐藏单元。
图5和图6为基于复合注意力的原始特征注入网络的视觉问答与其他网络的视觉问答模型在VQA2.0数据集上的结果对比图。如图5,图6所示,基于复合注意力的原始特征注入网络的视觉问答结果比其他模型更加准确。
图7和图8为视觉问答模型的可视化结果图。如图7所示,给与一张图像和一个问题,基于复合注意力的原始特征注入网络模型可以生成相应的答案。如图8所示,给与一张图像和一个问题,基于复合注意力的原始特征注入网络模型可以生成正确答案。
本发明提出了本文提出了一种具有原始特征注入的复合注意网络,用于视觉问答。引入了视觉特征增强机制来挖掘图像区域之间的相关性。此外,还添加了原始特征注入模块,以保留图像的原始边缘信息。在提出的复合注意机制的帮助下,图像和问题文本之间的双边信息以及图像区域的自相关被统一在一起,以实现全面的语义理解和融合。在VQA2.0数据库上进行的大量实验表明,该模型在视觉问答方面取得了很好的结果。在未来的工作中,我们将继续探索如何更好地学习图像和问题文本的语义,并有效地将其集成以进行答案推理。
最后,本发明的上述示例的细节仅为解释说明本发明所做的举例,对于本领域技术人员,对上述实施例的任何修改、改进和替换等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.基于复合注意力的原始特征注入网络的视觉问答方法,其特征在于,所述方法包括以下步骤:
S1.构建视觉特征增强模块,根据输入图像区域之间的相关性来挖掘更完整的视觉特征。
S2.结合S1中的强化特征,在整体的深层框架中利用图像和问题双边信息生成特征。
S3.构建原始信息注入模块,恢复图像有价值但不被关注的边缘信息。
S4.结合S2中的网络和S3中的网络构建基于复合注意力的原始特征注入网络架构。
S5.基于复合注意力的原始特征注入网络的训练和视觉问答。
2.根据权利要求1所述的基于复合注意力的原始特征注入网络的视觉问答方法,其特征在于,所述S1的具体过程为:
本发明的视觉特征增强模块根据输入图像区域之间的相关性来挖掘更完整的视觉特征。通过考虑图像中区域与区域之间的关联度,从而降低整体语义理解上的偏差。我们在下面描述详细的操作:
给定一个特征F∈Rd×K,分别通过3个1*1的卷积核生成Fq,Fk,Fv。
Fq=WqF,Fk=WkF,Fv=WvF (1)
由Fq,Fk计算出F的注意力FA。
FA=softmax(Fq TFk) (2)
其中Fq T表示矩阵的转置,softmax()指的是softmax函数。
再令Fv与FA相乘后经过平均池化层得到FA′。
FA′=mp(FvFA T) (3)
其中mp()指的是meanpoling函数。
最后,通过FA′和F相加得到视觉特征增强模块的输出。
Fs=WsFA′+F (4)
其中Ws是权重矩阵,其维数是2048*2048。该方法可以将图像区域根据它们的语义相关性设置为不同的优先级。可以根据需要将区域增强模块重复用于不同级别的表示增强。
3.根据权利要求1所述的基于复合注意力的原始特征注入网络的视觉问答方法,其特征在于,所述S2的具体过程为:
本发明的复合注意机制,在一个整体的深层框架中更好地利用图像和问题的双边信息和自相关性。它实现了视觉特征增强模块和协同注意力结构的结合。
问题文本的特征Tl和图像的特征Il被输入到复合注意力处理模块中。同时,Il也被发送到视觉特征增强模块以计算图像区域的相关性,对应的输出表示为Ils,由下式给出:
Ils=SI(Il) (5)
其中SI()表示视觉特征增强模块函数。
再将生成的Ils和文本特征Tl作为协同注意力的输入,生成考虑到双边信息的数据,Tlsc和Ilsc:
[Tlsc,Ilsc]=CoA([Tl,Ils]) (6)
其中CoA()是协同注意运算符。
从视觉特征的角度来看,在结合了Ils和Tlsc之后,经过线性操作生成与Ils维度相同的图像特征信息Ilc:
Ilc=linearI(concat(Ils,Tlsc)) (7)
同理,对于问题特征,将Tls与Ilsc结合后,经过线性操作生成与Tl维度相同的图像特征信息Tlc:
Tlc=linearT(concat(Tls,Ilsc)) (8)
其中linear()是线性运算,其中包含1024个具有ReLU非线性和Dropout的隐藏单元。
4.根据权利要求1所述的基于复合注意力的原始特征注入网络的视觉问答方法,其特征在于,所述S3的具体过程为:
原始信息注入模块的目的是恢复图像边缘信息,约束图像原始信息的语义偏差,从而帮助模型正确理解图像。具体地说,在经过S2后得到视觉特征Ilc和和语言特征Tlc分别与原始特征Ir和Tr结合后,经过线性操作生成与Ilc和Tlc维度相同的图像特征信息Ilcr和Tlcr:
Ilcr=linearI(concat(Ilc,Ir)) (9)
Tlcr=linearT(concat(Tlc,Tr)) (10)
其中linear是一个Linear函数,它具有1024个具有ReLU非线性和dropout的隐藏单元。
5.根据权利要求1所述的基于复合注意力的原始特征注入网络的视觉问答方法,其特征在于,所述S4的具体过程为:
所述的基于复合注意力的原始特征注入网络的视觉问答方法包含一个视觉特征增强模块、一个复合注意力模块和一个原始信息注入模块。
6.根据权利要求1所述的基于复合注意力的原始特征注入网络的视觉问答方法,其特征在于,所述S5的具体过程为:
基于复合注意力的原始特征注入网缝的训练方法如下:
在我们的实现中,所有的实验都是使用Python 3.6版本的PyTorch框架实现的,实验是在一台拥有Nvidia Tesla P100 GPU的计算机上进行的。
在送入CNN之前,将所有图像的大小调整为448*448。所有问题均使用PythonNaturalLanguage Toolkit(nltk)进行了标记。我们将CommonCrawl-840B Glove模型提供的词汇用于英语单词向量。我们将问题的最大长度限制为14个单词,然后对每个问题进行动态展开,以允许长度不同的问题。在整个实验中,我们使用了八层网络,即具有八个复合注意力和视觉特征增强机制层(L=8)。该层数是根据我们的初步实验选择的。在训练过程中,使用了ADAM优化器在VQA2.0上分别以400个批次训练了我们的模型。weight衰减为0.01。我们使用指数衰减逐渐降低学习率:
其中将初始学习率α设置为α=0.001,并且将VQA2.0的decay时期依次设置为7个时期;我们将参数设置为β1=0.9,β2=0.99。为了防止过度拟合,使用了Dropout丢失,每个完全连接层的损失率为ρ=0.3,LSTM的损失率为ρ=0.1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110010417.6A CN112905819B (zh) | 2021-01-06 | 2021-01-06 | 基于复合注意力的原始特征注入网络的视觉问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110010417.6A CN112905819B (zh) | 2021-01-06 | 2021-01-06 | 基于复合注意力的原始特征注入网络的视觉问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112905819A true CN112905819A (zh) | 2021-06-04 |
CN112905819B CN112905819B (zh) | 2022-09-23 |
Family
ID=76112202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110010417.6A Expired - Fee Related CN112905819B (zh) | 2021-01-06 | 2021-01-06 | 基于复合注意力的原始特征注入网络的视觉问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905819B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115249323A (zh) * | 2021-09-07 | 2022-10-28 | 中国石油大学(华东) | 基于对称注意力的原始特征注入网络的视觉问答方法 |
CN115249307A (zh) * | 2021-09-13 | 2022-10-28 | 中国石油大学(华东) | 基于嵌套注意力的原始特征注入网络的视觉问答方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818306A (zh) * | 2017-10-31 | 2018-03-20 | 天津大学 | 一种基于注意力模型的视频问答方法 |
US20190251168A1 (en) * | 2018-02-09 | 2019-08-15 | Salesforce.Com, Inc. | Multitask Learning As Question Answering |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN110399518A (zh) * | 2019-06-17 | 2019-11-01 | 杭州电子科技大学 | 一种基于图卷积的视觉问答增强方法 |
CN110717431A (zh) * | 2019-09-27 | 2020-01-21 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
CN111046668A (zh) * | 2019-12-04 | 2020-04-21 | 北京信息科技大学 | 多模态文物数据的命名实体识别方法与装置 |
CN112084358A (zh) * | 2020-09-04 | 2020-12-15 | 中国石油大学(华东) | 基于带有主题约束的区域强化网络的图像-文本匹配方法 |
CN112184805A (zh) * | 2020-09-10 | 2021-01-05 | 杭州电子科技大学 | 一种基于视觉和空间关系融合的图注意力网络构建方法 |
-
2021
- 2021-01-06 CN CN202110010417.6A patent/CN112905819B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818306A (zh) * | 2017-10-31 | 2018-03-20 | 天津大学 | 一种基于注意力模型的视频问答方法 |
US20190251168A1 (en) * | 2018-02-09 | 2019-08-15 | Salesforce.Com, Inc. | Multitask Learning As Question Answering |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN110399518A (zh) * | 2019-06-17 | 2019-11-01 | 杭州电子科技大学 | 一种基于图卷积的视觉问答增强方法 |
CN110717431A (zh) * | 2019-09-27 | 2020-01-21 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
CN111046668A (zh) * | 2019-12-04 | 2020-04-21 | 北京信息科技大学 | 多模态文物数据的命名实体识别方法与装置 |
CN112084358A (zh) * | 2020-09-04 | 2020-12-15 | 中国石油大学(华东) | 基于带有主题约束的区域强化网络的图像-文本匹配方法 |
CN112184805A (zh) * | 2020-09-10 | 2021-01-05 | 杭州电子科技大学 | 一种基于视觉和空间关系融合的图注意力网络构建方法 |
Non-Patent Citations (1)
Title |
---|
ZHENZHEN LI,JIUMING HUANG: ""LSTM-based Deep Learning Models for Answer Ranking"", 《IEEE》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115249323A (zh) * | 2021-09-07 | 2022-10-28 | 中国石油大学(华东) | 基于对称注意力的原始特征注入网络的视觉问答方法 |
CN115249307A (zh) * | 2021-09-13 | 2022-10-28 | 中国石油大学(华东) | 基于嵌套注意力的原始特征注入网络的视觉问答方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112905819B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Peng et al. | More trainable inception-ResNet for face recognition | |
Huang et al. | YOLO-LITE: a real-time object detection algorithm optimized for non-GPU computers | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
Zhong et al. | Self-adaptive neural module transformer for visual question answering | |
CN112905819B (zh) | 基于复合注意力的原始特征注入网络的视觉问答方法 | |
CN113191357B (zh) | 基于图注意力网络的多层次图像-文本匹配方法 | |
Xu et al. | Lightweight real-time semantic segmentation network with efficient transformer and CNN | |
CN110516530A (zh) | 一种基于非对齐多视图特征增强的图像描述方法 | |
Du et al. | Full transformer network with masking future for word-level sign language recognition | |
CN112527993B (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN113065587A (zh) | 一种基于超关系学习网络的场景图生成方法 | |
Li et al. | Transformer for object detection: Review and benchmark | |
CN112308081A (zh) | 一种基于注意力机制的图像目标预测方法 | |
Xie et al. | SoT: Delving deeper into classification head for transformer | |
Xia et al. | Boosting image caption generation with feature fusion module | |
CN115018941A (zh) | 一种基于改进版文本解析器的文本至图像生成算法 | |
CN116992049A (zh) | 一种基于双曲空间的加入实体描述的知识图谱嵌入方法 | |
Li et al. | Dynamic information enhancement for video classification | |
CN116311455A (zh) | 一种基于改进Mobile-former的表情识别方法 | |
CN115249323A (zh) | 基于对称注意力的原始特征注入网络的视觉问答方法 | |
CN114117159B (zh) | 一种多阶图像特征与问题交互的图像问答方法 | |
CN116978057A (zh) | 图像中人体姿态迁移方法、装置、计算机设备和存储介质 | |
CN115249307A (zh) | 基于嵌套注意力的原始特征注入网络的视觉问答方法 | |
CN115578596A (zh) | 一种多尺度跨媒体信息融合方法 | |
CN112765955B (zh) | 一种中文指代表达下的跨模态实例分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220923 |