CN113792703B - 一种基于Co-Attention深度模块化网络的图像问答方法及装置 - Google Patents
一种基于Co-Attention深度模块化网络的图像问答方法及装置 Download PDFInfo
- Publication number
- CN113792703B CN113792703B CN202111149189.7A CN202111149189A CN113792703B CN 113792703 B CN113792703 B CN 113792703B CN 202111149189 A CN202111149189 A CN 202111149189A CN 113792703 B CN113792703 B CN 113792703B
- Authority
- CN
- China
- Prior art keywords
- image
- attention
- text
- inputting
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000011159 matrix material Substances 0.000 claims abstract description 79
- 238000012545 processing Methods 0.000 claims abstract description 48
- 230000004927 fusion Effects 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 239000002356 single layer Substances 0.000 claims abstract description 17
- 239000010410 layer Substances 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于Co‑Attention深度模块化网络的图像问答方法,包括:将目标图像输入至Fast‑RCNN模型中进行特征提取,得到图像特征矩阵X;将目标问题输入至单层LSTM网络中进行特征提取,得到文本特征矩阵Y;将图像特征矩阵X以及文本特征矩阵Y输入至Co‑Attention深度模块化网络中进行处理,得到图像特征输出值XL以及文本特征输出值YL;将图像特征输出值XL以及文本特征输出值YL输入至注意力降维模型以及全连接层,得到图像注意力特征值以及文本注意力特征值将图像注意力特征值以及文本注意力特征值输入至线性多模态融合模型中进行多模态融合,得到融合特征矩阵Z;将融合特征矩阵Z进行损失计算处理,并将处理结果输入至分类器中进行分类,最终得到预测答案。
Description
技术领域
本申请涉及图像问答技术领域,尤其涉及一种基于Co-Attention深度模块化网络的图像问答方法及装置。
背景技术
随着计算机技术和计算机硬件的不断发展,机器视觉和自然语言处理得到飞速发展,并分别应用到工业界的不同领域。例如,机器视觉应用在图像分类、图像识别、语义分割等,自然语言处理应用在文本分类、智能问答、情感分类等。近年来机器视觉和自然语言处理有相互融合的趋势,在多种视觉-语言任务中开始显现极大的发展潜力,例如,图像-文字匹配、视觉语义信息、指称表达、图像问答等。
其中,图像问答是其中最具挑战性的任务之一,其需要理解文本和图像的细粒度语言信息并有效使两种模态信息融合,从而进行答案的推断。但现有的图像问答方法往往无法保证推断出的答案的准确性及高效性。
发明内容
本申请实施例提供了一种基于Co-Attention深度模块化网络的图像问答方法及装置,用以解决现有的图像问答技术无法保证高效、精确的输出推断答案的技术问题。
一方面,本申请实施例提供了一种基于Co-Attention深度模块化网络的图像问答方法,包括:将目标图像输入至Fast-RCNN模型中进行特征提取,以得到所述目标图像对应的图像特征矩阵X;以及,将目标问题输入至单层LSTM网络中进行特征提取,以得到所述目标问题对应的文本特征矩阵Y;将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理,得到图像特征输出值XL以及文本特征输出值YL;其中,L为所述Co-Attention深度模块化网络中Co-Attention模块的层数;将所述图像特征输出值XL以及文本特征输出值YL输入至注意力降维模型以及全连接层,得到图像注意力特征值以及文本注意力特征值/>将所述图像注意力特征值/>以及所述文本注意力特征值/>输入至线性多模态融合模型中进行多模态融合,得到融合特征矩阵Z;将所述融合特征矩阵Z进行损失计算处理,并将处理结果输入至分类器中进行分类,最终得到所述目标图像以及所述目标问题对应的预测答案。
在本申请的一种可能实现方式中,将目标图像输入至Fast-RCNN模型中进行特征提取,以得到所述目标图像对应的图像特征矩阵X,具体包括:对所述目标图像中存在的m个物体进行目标检测,并对所述目标检测设置置信度阈值;在所述目标图像经过目标检测之后,通过所述Fast-RCNN模型,得到图像特征矩阵m∈[10,100];其中,所述目标图像中的第i个物体在所述图像特征矩阵X中对应的特征为/>
在本申请的一种可能实现方式中,在将目标问题输入至单层LSTM网络中进行特征提取之前,所述方法还包括:将所述目标问题对应的文本进行通正化tokenized处理;将tokenized处理后的所述文本通过300-DGloVe进行词嵌入处理,得到所述目标问题对应的词序列;其中,所述词序列的维度为n*300,n表示所述词序列的长度,且n∈[1,14]。
在本申请的一种可能实现方式中,将目标问题输入至单层LSTM网络中进行特征提取,具体包括:将所述词序列输入至所述单层LSTM网络中进行特征提取,得到文本特征矩阵其中,所述单层LSTM网络中带有dy隐藏单元。
在本申请的一种可能实现方式中,在将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理之前,所述方法还包括:通过zero-padding算法将m和n分别填充至最大值100和14。
在本申请的一种可能实现方式中,所述Co-Attention深度模块化网络为编码器-解码器结构,且包含若干个Co-Attention模块;所述Co-Attention模块包括自注意力SA模块以及辅助注意力GA模块。
在本申请的一种可能实现方式中,将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理,具体包括:将所述Co-Attention模块分别标记为CA(1),CA(2),...,CA(L),并将所述CA(L)的输入值记为XL-1,YL-1,输出值记为XL,YL;将所述图像特征矩阵X以及所述文本特征矩阵Y依次输入至所述CA(1),CA(2),...,CA(L)中进行处理,最终得到图像特征输出值XL以及文本特征输出值YL。
在本申请的一种可能实现方式中,在将所述融合特征矩阵Z进行损失计算处理之前,所述方法还包括:将所述融合特征矩阵Z投影到Rn维度;并将投影处理后的所述融合特征矩阵Z输入至预设激活函数以及预设损失函数中进行损失计算处理。
在本申请的一种可能实现方式中,所述预设激活函数采用sigmoid函数;所述预设损失函数采用二维交叉熵损失函数。
另一方面,本申请实施例还提供了一种基于Co-Attention深度模块化网络的图像问答装置,包括:图片文本输入处理模块,用于将目标图像输入至Fast-RCNN模型中进行特征提取,以得到所述目标图像对应的图像特征矩阵X;以及,用于将目标问题输入至单层LSTM网络中进行特征提取,以得到所述目标问题对应的文本特征矩阵Y;深度Co-Attention模块,用于将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理,得到图像特征输出值XL以及文本特征输出值YL;其中,L为所述Co-Attention深度模块化网络中Co-Attention模块的层数;多模态融合和分类输出模块,用于将所述图像特征输出值XL以及文本特征输出值YL输入至注意力降维模型以及全连接层,得到图像注意力特征值以及文本注意力特征值/>;以及用于,将所述图像注意力特征值/>以及所述文本注意力特征值/>输入至线性多模态融合模型中进行多模态融合,得到融合特征矩阵Z;还用于,将所述融合特征矩阵Z进行损失计算处理,并将处理结果输入至分类器中进行分类,最终得到所述目标图像以及所述目标问题对应的预测答案。
本申请实施例提供的一种基于Co-Attention深度模块化网络的图像问答方法及装置,至少具有以下技术效果:
通过Fast-RCNN模型以及单层LSTM网络,提取目标图像的特征以及目标问题的特征,然后基于Co-Attention深度模块化网络得到对应的特征输出值,实现了自注意力和辅助注意力机制模块的组合;通过多模态融合技术,从而完成对图像和文本的高层特征识别定位,进而实现了图像问答快速高精度预测答案的技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种基于Co-Attention深度模块化网络的图像问答方法流程图;
图2为本申请实施例提供的一种Co-Attention深度模块化网络架构示意图;
图3为本申请实施例提供的一种基于Co-Attention深度模块化网络的图像问答装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种基于Co-Attention深度模块化网络的图像问答方法及装置,通过从输入到输出的端对端Co-Attention深度模块化网络模型,从而实现了图像问答快速高精度预测答案的解决方案。
下面通过附图对本申请实施例提出的技术方案进行详细的说明。
图1为本申请实施例提供的一种基于Co-Attention深度模块化网络的图像问答方法流程图。如图1所示,本申请实施例提供的图像问答方法,至少包括以下执行步骤:
步骤101、通过Fast-RCNN模型以及LSTM网络分别提取目标图像以及目标问题对应的特征矩阵。
步骤102、将图像特征矩阵以及文本特征矩Y输入至Co-Attention深度模块化网络中进行处理,得到图像特征输出值以及文本特征输出值。
步骤103、基于图像特征输出值以及文本特征输出值,得到融合特征矩阵,进而得到图像问答对应的预测答案。
具体地,首先,将目标图像输入在Visual Genome中预训练的Fast-RCNN模型中以提取中间特征值,得到目标图像对应的图像特征矩阵X。并且,在这个过程中,对目标图像中动态数量的m个物体进行目标检测,并对上述目标检测过程设置置信度阈值。
在本申请实施例的一种或多种可能实现方式中,第i个物体在图像特征矩阵X中将作为特征因此,所述目标图像通过上述特征提取网络Fast-RCNN后将成为图像特征矩阵/>m∈[10,100]。其中,m用于表示目标图像中的物体数量。
其次,将目标问题的对应的文本首先进行通正化tokenized处理,在此过程中,设置文本的最长长度为14。然后将经过tokenized处理后的文本中的每个单词通过300-DGloVe进行词嵌入处理,得到目标问题对应的词序列。
在本申请实施例的一种或多种可能实现方式中,所述300-DGloVe词嵌入处理会得到一个词序列,该词序列维度为n*300,其中n∈[1,14]。
进一步地,将上述词嵌入处理得到的词序列送入带有dy隐藏单元的单层LSTM网络中,以通过该单层LSTM网络输出目标问题对应的文本特征矩阵为
然后,继续处理非等长的物体个数m和词序列长度n维度不匹配问题。具体地,通过zero-padding算法将m和n填充至分别的最大值,即将m填充至其最大值100,将n填充至其最大值14。在本申请的一个或多个可能实施例中,上述zero-padding位置在进入分类层softmax之前将被设置为-∞,从而避免参与概率计算的输出,影响最终的预测结果。
进一步地,将进行维度匹配处理后的,图像特征矩阵X和文本特征矩阵Y将作为输入值传入Co-Attention深度模块化网络(Deep Co-Attention Network,DCAN)中进行处理。
图2为本申请实施例提供的一种Co-Attention深度模块化网络架构示意图。如图2所示,所述DCAN网络包括若干个L层的CA(Co-Attention)模块,其中,CA模块的组织形式为编码器-解码器的自注意力模块(Self-Attention,SA)和辅助注意力模块(Guided-Attention,GA)组成;即本申请实施例中的CA模块包括SA模块以及GA模块。
因此,本申请实施例中,将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理,具体包括:
将上述CA层分别标记为CA(1),CA(2),...,CA(L)。其中,CA(L)的输入值为XL-1,YL-1,输出值为XL,YL;随后将CA(L)的输出值作为CA(L+1)的输入值输入。该流程描述如下:
[XL,YL]=CA(L)([XL-1,YL-1])
将所述图像特征矩阵X以及所述文本特征矩阵Y依次输入至上述CA(1),CA(2),...,CA(L)中进行处理,最终得到图像特征输出值XL以及文本特征输出值YL。
具体地,经过上述Co-Attention深度模块化网络后,图像特征输出值为:文本特征输出值为:/>其中,m和n分别指示物体数量和单词长度。
至此,得到目标图像对应的图像特征输出值,以及得到目标问题对应的文本特征输出值。
进一步地,将上述图像特征输出值XL以及文本特征输出值YL,作为输入值输入注意力降维模型和全连接层,得到图像注意力特征值以及文本注意力特征值/>。
然后,将上述图像注意力特征值以及文本注意力特征值/>输入至线性多模态融合层,进行多模态融合得到融合特征矩阵Z,即:
其中,Wx,Wy∈Rd*d为线性投射矩阵,LayerNorm用于稳定训练梯度。
最后,将得到的融合特征矩阵Z投影到Rn维度,然后将融合特征矩阵Z输入至预设激活函数以及预设损失函数中进行损失计算处理,并将处理结果输入至分类器中进行分类,最终得到目标图像以及目标问题对应的预测答案。
在本申请实施例的一种或多种可能实现方式中,上述预设激活函数采用sigmoid函数,上述预设损失函数采用二维交叉熵损失函数。即,将融合特征矩阵输入进sigmoid函数以及二维交叉熵损失函数中,以进行二维交叉熵差值计算。
以上为本申请实施例提供的方法实施例,基于同样的发明构思,本申请实施例还提供了一种基于Co-Attention深度模块化网络的图像问答装置,其内部结构如图3所示。
图3为本申请实施例提供的一种基于Co-Attention深度模块化网络的图像问答装置结构示意图。如图3所示,装置包括:
图片文本输入处理模块,用于将目标图像输入至Fast-RCNN模型中进行特征提取,以得到所述目标图像对应的图像特征矩阵X;以及,
用于将目标问题输入至单层LSTM网络中进行特征提取,以得到所述目标问题对应的文本特征矩阵Y。
深度Co-Attention模块,用于将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理,得到图像特征输出值XL以及文本特征输出值YL;其中,L为所述Co-Attention深度模块化网络中Co-Attention模块的层数。
多模态融合和分类输出模块,用于将所述图像特征输出值XL以及文本特征输出值YL输入至注意力降维模型以及全连接层,得到图像注意力特征值以及文本注意力特征值;
以及用于,将所述图像注意力特征值以及所述文本注意力特征值/>输入至线性多模态融合模型中进行多模态融合,得到融合特征矩阵Z;
还用于,将所述融合特征矩阵Z进行损失计算处理,并将处理结果输入至分类器中进行分类,最终得到所述目标图像以及所述目标问题对应的预测答案。
本申请实施例提供的一种基于Co-Attention深度模块化网络的图像问答方法及装置,提出了端到端的图像问答解决方案,提出了一种深度Co-Attention机制,实现了自注意力和辅助注意力机制模块的组合,实现了多模态融合,从而完成对图像和文本的高层特征识别定位,进而实现了图像问答快速高精度预测的解决方案。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (9)
1.一种基于Co-Attention深度模块化网络的图像问答方法,其特征在于,所述方法包括:
将目标图像输入至Fast-RCNN模型中进行特征提取,以得到所述目标图像对应的图像特征矩阵X;以及,
将目标问题输入至单层LSTM网络中进行特征提取,以得到所述目标问题对应的文本特征矩阵Y;
将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理,得到图像特征输出值XL以及文本特征输出值YL;其中,L为所述Co-Attention深度模块化网络中Co-Attention模块的层数;所述Co-Attention深度模块化网络为编码器-解码器结构,且包含若干个Co-Attention模块,所述Co-Attention模块包括自注意力SA模块以及辅助注意力GA模块;
将所述图像特征输出值XL以及文本特征输出值YL输入至注意力降维模型以及全连接层,得到图像注意力特征值以及文本注意力特征值/>
将所述图像注意力特征值以及所述文本注意力特征值/>输入至线性多模态融合模型中进行多模态融合,得到融合特征矩阵Z;
将所述融合特征矩阵Z进行损失计算处理,并将处理结果输入至分类器中进行分类,最终得到所述目标图像以及所述目标问题对应的预测答案。
2.根据权利要求1所述的一种基于Co-Attention深度模块化网络的图像问答方法,其特征在于,将目标图像输入至Fast-RCNN模型中进行特征提取,以得到所述目标图像对应的图像特征矩阵X,具体包括:
对所述目标图像中存在的m个物体进行目标检测,并对所述目标检测设置置信度阈值;
在所述目标图像经过目标检测之后,通过所述Fast-RCNN模型,得到图像特征矩阵m∈[10,100];其中,所述目标图像中的第i个物体在所述图像特征矩阵X中对应的特征为/>
3.根据权利要求1所述的一种基于Co-Attention深度模块化网络的图像问答方法,其特征在于,在将目标问题输入至单层LSTM网络中进行特征提取之前,所述方法还包括:
将所述目标问题对应的文本进行通正化tokenized处理;
将tokenized处理后的所述文本通过300-DGloVe进行词嵌入处理,得到所述目标问题对应的词序列;其中,所述词序列的维度为n*300,n表示所述词序列的长度,且n∈[1,14]。
4.根据权利要求3所述的一种基于Co-Attention深度模块化网络的图像问答方法,其特征在于,将目标问题输入至单层LSTM网络中进行特征提取,具体包括:
将所述词序列输入至所述单层LSTM网络中进行特征提取,得到文本特征矩阵其中,所述单层LSTM网络中带有dy隐藏单元。
5.根据权利要求1所述的一种基于Co-Attention深度模块化网络的图像问答方法,其特征在于,在将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理之前,所述方法还包括:
通过zero-padding算法将m和n分别填充至最大值100和14。
6.根据权利要求1所述的一种基于Co-Attention深度模块化网络的图像问答方法,其特征在于,将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理,具体包括:
将所述Co-Attention模块分别标记为CA(1),CA(2),…,CA(L),并将所述CA(L)的输入值记为XL-1,YL-1,输出值记为XL,YL;
将所述图像特征矩阵X以及所述文本特征矩阵Y依次输入至所述CA(1),CA(2),…,CA(L)中进行处理,最终得到图像特征输出值XL以及文本特征输出值YL。
7.根据权利要求1所述的一种基于Co-Attention深度模块化网络的图像问答方法,其特征在于,在将所述融合特征矩阵Z进行损失计算处理之前,所述方法还包括:
将所述融合特征矩阵Z投影到Rn维度;
并将投影处理后的所述融合特征矩阵Z输入至预设激活函数以及预设损失函数中进行损失计算处理。
8.根据权利要求7所述的一种基于Co-Attention深度模块化网络的图像问答方法,其特征在于,
所述预设激活函数采用sigmoid函数;
所述预设损失函数采用二维交叉熵损失函数。
9.一种基于Co-Attention深度模块化网络的图像问答装置,其特征在于,所述装置包括:
图片文本输入处理模块,用于将目标图像输入至Fast-RCNN模型中进行特征提取,以得到所述目标图像对应的图像特征矩阵X;以及,
用于将目标问题输入至单层LSTM网络中进行特征提取,以得到所述目标问题对应的文本特征矩阵Y;
深度Co-Attention模块,用于将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理,得到图像特征输出值XL以及文本特征输出值YL;其中,L为所述Co-Attention深度模块化网络中Co-Attention模块的层数;所述Co-Attention深度模块化网络为编码器-解码器结构,且包含若干个Co-Attention模块,所述Co-Attention模块包括自注意力SA模块以及辅助注意力GA模块;
多模态融合和分类输出模块,用于将所述图像特征输出值XL以及文本特征输出值YL输入至注意力降维模型以及全连接层,得到图像注意力特征值以及文本注意力特征值/>
以及用于,将所述图像注意力特征值以及所述文本注意力特征值/>输入至线性多模态融合模型中进行多模态融合,得到融合特征矩阵Z;
还用于,将所述融合特征矩阵Z进行损失计算处理,并将处理结果输入至分类器中进行分类,最终得到所述目标图像以及所述目标问题对应的预测答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111149189.7A CN113792703B (zh) | 2021-09-29 | 2021-09-29 | 一种基于Co-Attention深度模块化网络的图像问答方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111149189.7A CN113792703B (zh) | 2021-09-29 | 2021-09-29 | 一种基于Co-Attention深度模块化网络的图像问答方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113792703A CN113792703A (zh) | 2021-12-14 |
CN113792703B true CN113792703B (zh) | 2024-02-02 |
Family
ID=78877555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111149189.7A Active CN113792703B (zh) | 2021-09-29 | 2021-09-29 | 一种基于Co-Attention深度模块化网络的图像问答方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792703B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263912A (zh) * | 2019-05-14 | 2019-09-20 | 杭州电子科技大学 | 一种基于多目标关联深度推理的图像问答方法 |
WO2020119631A1 (zh) * | 2018-12-12 | 2020-06-18 | 中国科学院深圳先进技术研究院 | 一种轻量视觉问答系统及方法 |
-
2021
- 2021-09-29 CN CN202111149189.7A patent/CN113792703B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020119631A1 (zh) * | 2018-12-12 | 2020-06-18 | 中国科学院深圳先进技术研究院 | 一种轻量视觉问答系统及方法 |
CN110263912A (zh) * | 2019-05-14 | 2019-09-20 | 杭州电子科技大学 | 一种基于多目标关联深度推理的图像问答方法 |
Non-Patent Citations (2)
Title |
---|
结合自底向上注意力机制和记忆网络的视觉问答模型;闫茹玉;刘学亮;;中国图象图形学报(第05期);全文 * |
结合自注意力机制的神经网络文本分类算法研究;贾红雨;王宇涵;丛日晴;林岩;;计算机应用与软件(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113792703A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191078B (zh) | 基于视频信息处理模型的视频信息处理方法及装置 | |
CN110188202B (zh) | 语义关系识别模型的训练方法、装置及终端 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN111488931B (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN111401061A (zh) | 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法 | |
CN109670576B (zh) | 一种多尺度视觉关注图像描述方法 | |
CN110704601A (zh) | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 | |
CN113656570A (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN111582409A (zh) | 图像标签分类网络的训练方法、图像标签分类方法及设备 | |
CN111680484B (zh) | 一种视觉常识推理问答题的答题模型生成方法和系统 | |
CN111639186B (zh) | 动态嵌入投影门控的多类别多标签文本分类模型及装置 | |
CN114090780B (zh) | 一种基于提示学习的快速图片分类方法 | |
CN113886626B (zh) | 基于多重注意力机制的动态记忆网络模型的视觉问答方法 | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
CN114973222B (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
EP4302234A1 (en) | Cross-modal processing for vision and language | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN115223020A (zh) | 图像处理方法、装置、电子设备以及可读存储介质 | |
CN114863407A (zh) | 一种基于视觉语言深度融合的多任务冷启动目标检测方法 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
Abdelaziz et al. | Few-shot learning with saliency maps as additional visual information | |
US20230130662A1 (en) | Method and apparatus for analyzing multimodal data | |
CN113792703B (zh) | 一种基于Co-Attention深度模块化网络的图像问答方法及装置 | |
Duan et al. | Attention enhanced convnet-RNN for Chinese vehicle license plate recognition | |
CN113626553B (zh) | 一种基于预训练模型的级联二进制中文实体关系提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |