CN113792703B

CN113792703B - 一种基于Co-Attention深度模块化网络的图像问答方法及装置

Info

Publication number: CN113792703B
Application number: CN202111149189.7A
Authority: CN
Inventors: 尹青山; 宋虎; 王建华; 高明
Original assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Current assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2024-02-02
Anticipated expiration: 2041-09-29
Also published as: CN113792703A

Abstract

本申请公开了一种基于Co‑Attention深度模块化网络的图像问答方法，包括：将目标图像输入至Fast‑RCNN模型中进行特征提取，得到图像特征矩阵X；将目标问题输入至单层LSTM网络中进行特征提取，得到文本特征矩阵Y；将图像特征矩阵X以及文本特征矩阵Y输入至Co‑Attention深度模块化网络中进行处理，得到图像特征输出值X^L以及文本特征输出值Y^L；将图像特征输出值X^L以及文本特征输出值Y^L输入至注意力降维模型以及全连接层，得到图像注意力特征值以及文本注意力特征值将图像注意力特征值以及文本注意力特征值输入至线性多模态融合模型中进行多模态融合，得到融合特征矩阵Z；将融合特征矩阵Z进行损失计算处理，并将处理结果输入至分类器中进行分类，最终得到预测答案。

Description

一种基于Co-Attention深度模块化网络的图像问答方法及装置

技术领域

本申请涉及图像问答技术领域，尤其涉及一种基于Co-Attention深度模块化网络的图像问答方法及装置。

背景技术

随着计算机技术和计算机硬件的不断发展，机器视觉和自然语言处理得到飞速发展，并分别应用到工业界的不同领域。例如，机器视觉应用在图像分类、图像识别、语义分割等，自然语言处理应用在文本分类、智能问答、情感分类等。近年来机器视觉和自然语言处理有相互融合的趋势，在多种视觉-语言任务中开始显现极大的发展潜力，例如，图像-文字匹配、视觉语义信息、指称表达、图像问答等。

其中，图像问答是其中最具挑战性的任务之一，其需要理解文本和图像的细粒度语言信息并有效使两种模态信息融合，从而进行答案的推断。但现有的图像问答方法往往无法保证推断出的答案的准确性及高效性。

发明内容

本申请实施例提供了一种基于Co-Attention深度模块化网络的图像问答方法及装置，用以解决现有的图像问答技术无法保证高效、精确的输出推断答案的技术问题。

一方面，本申请实施例提供了一种基于Co-Attention深度模块化网络的图像问答方法，包括：将目标图像输入至Fast-RCNN模型中进行特征提取，以得到所述目标图像对应的图像特征矩阵X；以及，将目标问题输入至单层LSTM网络中进行特征提取，以得到所述目标问题对应的文本特征矩阵Y；将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理，得到图像特征输出值X^L以及文本特征输出值Y^L；其中，L为所述Co-Attention深度模块化网络中Co-Attention模块的层数；将所述图像特征输出值X^L以及文本特征输出值Y^L输入至注意力降维模型以及全连接层，得到图像注意力特征值以及文本注意力特征值/>将所述图像注意力特征值/>以及所述文本注意力特征值/>输入至线性多模态融合模型中进行多模态融合，得到融合特征矩阵Z；将所述融合特征矩阵Z进行损失计算处理，并将处理结果输入至分类器中进行分类，最终得到所述目标图像以及所述目标问题对应的预测答案。

在本申请的一种可能实现方式中，将目标图像输入至Fast-RCNN模型中进行特征提取，以得到所述目标图像对应的图像特征矩阵X，具体包括：对所述目标图像中存在的m个物体进行目标检测，并对所述目标检测设置置信度阈值；在所述目标图像经过目标检测之后，通过所述Fast-RCNN模型，得到图像特征矩阵m∈[10，100]；其中，所述目标图像中的第i个物体在所述图像特征矩阵X中对应的特征为/>

在本申请的一种可能实现方式中，在将目标问题输入至单层LSTM网络中进行特征提取之前，所述方法还包括：将所述目标问题对应的文本进行通正化tokenized处理；将tokenized处理后的所述文本通过300-DGloVe进行词嵌入处理，得到所述目标问题对应的词序列；其中，所述词序列的维度为n*300，n表示所述词序列的长度，且n∈[1，14]。

在本申请的一种可能实现方式中，将目标问题输入至单层LSTM网络中进行特征提取，具体包括：将所述词序列输入至所述单层LSTM网络中进行特征提取，得到文本特征矩阵其中，所述单层LSTM网络中带有d_y隐藏单元。

在本申请的一种可能实现方式中，在将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理之前，所述方法还包括：通过zero-padding算法将m和n分别填充至最大值100和14。

在本申请的一种可能实现方式中，所述Co-Attention深度模块化网络为编码器-解码器结构，且包含若干个Co-Attention模块；所述Co-Attention模块包括自注意力SA模块以及辅助注意力GA模块。

在本申请的一种可能实现方式中，将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理，具体包括：将所述Co-Attention模块分别标记为CA⁽¹⁾，CA⁽²⁾，...，CA^(L)，并将所述CA^(L)的输入值记为X^L-1，Y^L-1，输出值记为X^L，Y^L；将所述图像特征矩阵X以及所述文本特征矩阵Y依次输入至所述CA⁽¹⁾，CA⁽²⁾，...，CA^(L)中进行处理，最终得到图像特征输出值X^L以及文本特征输出值Y^L。

在本申请的一种可能实现方式中，在将所述融合特征矩阵Z进行损失计算处理之前，所述方法还包括：将所述融合特征矩阵Z投影到Rⁿ维度；并将投影处理后的所述融合特征矩阵Z输入至预设激活函数以及预设损失函数中进行损失计算处理。

在本申请的一种可能实现方式中，所述预设激活函数采用sigmoid函数；所述预设损失函数采用二维交叉熵损失函数。

另一方面，本申请实施例还提供了一种基于Co-Attention深度模块化网络的图像问答装置，包括：图片文本输入处理模块，用于将目标图像输入至Fast-RCNN模型中进行特征提取，以得到所述目标图像对应的图像特征矩阵X；以及，用于将目标问题输入至单层LSTM网络中进行特征提取，以得到所述目标问题对应的文本特征矩阵Y；深度Co-Attention模块，用于将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理，得到图像特征输出值X^L以及文本特征输出值Y^L；其中，L为所述Co-Attention深度模块化网络中Co-Attention模块的层数；多模态融合和分类输出模块，用于将所述图像特征输出值X^L以及文本特征输出值Y^L输入至注意力降维模型以及全连接层，得到图像注意力特征值以及文本注意力特征值/>；以及用于，将所述图像注意力特征值/>以及所述文本注意力特征值/>输入至线性多模态融合模型中进行多模态融合，得到融合特征矩阵Z；还用于，将所述融合特征矩阵Z进行损失计算处理，并将处理结果输入至分类器中进行分类，最终得到所述目标图像以及所述目标问题对应的预测答案。

本申请实施例提供的一种基于Co-Attention深度模块化网络的图像问答方法及装置，至少具有以下技术效果：

通过Fast-RCNN模型以及单层LSTM网络，提取目标图像的特征以及目标问题的特征，然后基于Co-Attention深度模块化网络得到对应的特征输出值，实现了自注意力和辅助注意力机制模块的组合；通过多模态融合技术，从而完成对图像和文本的高层特征识别定位，进而实现了图像问答快速高精度预测答案的技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种基于Co-Attention深度模块化网络的图像问答方法流程图；

图2为本申请实施例提供的一种Co-Attention深度模块化网络架构示意图；

图3为本申请实施例提供的一种基于Co-Attention深度模块化网络的图像问答装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种基于Co-Attention深度模块化网络的图像问答方法及装置，通过从输入到输出的端对端Co-Attention深度模块化网络模型，从而实现了图像问答快速高精度预测答案的解决方案。

下面通过附图对本申请实施例提出的技术方案进行详细的说明。

图1为本申请实施例提供的一种基于Co-Attention深度模块化网络的图像问答方法流程图。如图1所示，本申请实施例提供的图像问答方法，至少包括以下执行步骤：

步骤101、通过Fast-RCNN模型以及LSTM网络分别提取目标图像以及目标问题对应的特征矩阵。

步骤102、将图像特征矩阵以及文本特征矩Y输入至Co-Attention深度模块化网络中进行处理，得到图像特征输出值以及文本特征输出值。

步骤103、基于图像特征输出值以及文本特征输出值，得到融合特征矩阵，进而得到图像问答对应的预测答案。

具体地，首先，将目标图像输入在Visual Genome中预训练的Fast-RCNN模型中以提取中间特征值，得到目标图像对应的图像特征矩阵X。并且，在这个过程中，对目标图像中动态数量的m个物体进行目标检测，并对上述目标检测过程设置置信度阈值。

在本申请实施例的一种或多种可能实现方式中，第i个物体在图像特征矩阵X中将作为特征因此，所述目标图像通过上述特征提取网络Fast-RCNN后将成为图像特征矩阵/>m∈[10，100]。其中，m用于表示目标图像中的物体数量。

其次，将目标问题的对应的文本首先进行通正化tokenized处理，在此过程中，设置文本的最长长度为14。然后将经过tokenized处理后的文本中的每个单词通过300-DGloVe进行词嵌入处理，得到目标问题对应的词序列。

在本申请实施例的一种或多种可能实现方式中，所述300-DGloVe词嵌入处理会得到一个词序列，该词序列维度为n*300，其中n∈[1，14]。

进一步地，将上述词嵌入处理得到的词序列送入带有d_y隐藏单元的单层LSTM网络中，以通过该单层LSTM网络输出目标问题对应的文本特征矩阵为

然后，继续处理非等长的物体个数m和词序列长度n维度不匹配问题。具体地，通过zero-padding算法将m和n填充至分别的最大值，即将m填充至其最大值100，将n填充至其最大值14。在本申请的一个或多个可能实施例中，上述zero-padding位置在进入分类层softmax之前将被设置为-∞，从而避免参与概率计算的输出，影响最终的预测结果。

进一步地，将进行维度匹配处理后的，图像特征矩阵X和文本特征矩阵Y将作为输入值传入Co-Attention深度模块化网络(Deep Co-Attention Network，DCAN)中进行处理。

图2为本申请实施例提供的一种Co-Attention深度模块化网络架构示意图。如图2所示，所述DCAN网络包括若干个L层的CA(Co-Attention)模块，其中，CA模块的组织形式为编码器-解码器的自注意力模块(Self-Attention，SA)和辅助注意力模块(Guided-Attention，GA)组成；即本申请实施例中的CA模块包括SA模块以及GA模块。

因此，本申请实施例中，将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理，具体包括：

将上述CA层分别标记为CA⁽¹⁾，CA⁽²⁾，...，CA^(L)。其中，CA^(L)的输入值为X^L-1，Y^L-1，输出值为X^L，Y^L；随后将CA^(L)的输出值作为CA^(L+1)的输入值输入。该流程描述如下：

[X^L，Y^L]＝CA^(L)([X^L-1，Y^L-1])

将所述图像特征矩阵X以及所述文本特征矩阵Y依次输入至上述CA⁽¹⁾，CA⁽²⁾，...，CA^(L)中进行处理，最终得到图像特征输出值X^L以及文本特征输出值Y^L。

具体地，经过上述Co-Attention深度模块化网络后，图像特征输出值为：文本特征输出值为：/>其中，m和n分别指示物体数量和单词长度。

至此，得到目标图像对应的图像特征输出值，以及得到目标问题对应的文本特征输出值。

进一步地，将上述图像特征输出值X^L以及文本特征输出值Y^L，作为输入值输入注意力降维模型和全连接层，得到图像注意力特征值以及文本注意力特征值/>。

然后，将上述图像注意力特征值以及文本注意力特征值/>输入至线性多模态融合层，进行多模态融合得到融合特征矩阵Z，即：

其中，W_x，W_y∈R^d*d为线性投射矩阵，LayerNorm用于稳定训练梯度。

最后，将得到的融合特征矩阵Z投影到Rⁿ维度，然后将融合特征矩阵Z输入至预设激活函数以及预设损失函数中进行损失计算处理，并将处理结果输入至分类器中进行分类，最终得到目标图像以及目标问题对应的预测答案。

在本申请实施例的一种或多种可能实现方式中，上述预设激活函数采用sigmoid函数，上述预设损失函数采用二维交叉熵损失函数。即，将融合特征矩阵输入进sigmoid函数以及二维交叉熵损失函数中，以进行二维交叉熵差值计算。

以上为本申请实施例提供的方法实施例，基于同样的发明构思，本申请实施例还提供了一种基于Co-Attention深度模块化网络的图像问答装置，其内部结构如图3所示。

图3为本申请实施例提供的一种基于Co-Attention深度模块化网络的图像问答装置结构示意图。如图3所示，装置包括：

图片文本输入处理模块，用于将目标图像输入至Fast-RCNN模型中进行特征提取，以得到所述目标图像对应的图像特征矩阵X；以及，

用于将目标问题输入至单层LSTM网络中进行特征提取，以得到所述目标问题对应的文本特征矩阵Y。

深度Co-Attention模块，用于将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理，得到图像特征输出值X^L以及文本特征输出值Y^L；其中，L为所述Co-Attention深度模块化网络中Co-Attention模块的层数。

多模态融合和分类输出模块，用于将所述图像特征输出值X^L以及文本特征输出值Y^L输入至注意力降维模型以及全连接层，得到图像注意力特征值以及文本注意力特征值；

以及用于，将所述图像注意力特征值以及所述文本注意力特征值/>输入至线性多模态融合模型中进行多模态融合，得到融合特征矩阵Z；

还用于，将所述融合特征矩阵Z进行损失计算处理，并将处理结果输入至分类器中进行分类，最终得到所述目标图像以及所述目标问题对应的预测答案。

本申请实施例提供的一种基于Co-Attention深度模块化网络的图像问答方法及装置，提出了端到端的图像问答解决方案，提出了一种深度Co-Attention机制，实现了自注意力和辅助注意力机制模块的组合，实现了多模态融合，从而完成对图像和文本的高层特征识别定位，进而实现了图像问答快速高精度预测的解决方案。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于Co-Attention深度模块化网络的图像问答方法，其特征在于，所述方法包括：

将目标图像输入至Fast-RCNN模型中进行特征提取，以得到所述目标图像对应的图像特征矩阵X；以及，

将目标问题输入至单层LSTM网络中进行特征提取，以得到所述目标问题对应的文本特征矩阵Y；

将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理，得到图像特征输出值X^L以及文本特征输出值Y^L；其中，L为所述Co-Attention深度模块化网络中Co-Attention模块的层数；所述Co-Attention深度模块化网络为编码器-解码器结构，且包含若干个Co-Attention模块，所述Co-Attention模块包括自注意力SA模块以及辅助注意力GA模块；

将所述图像特征输出值X^L以及文本特征输出值Y^L输入至注意力降维模型以及全连接层，得到图像注意力特征值以及文本注意力特征值/>

将所述图像注意力特征值以及所述文本注意力特征值/>输入至线性多模态融合模型中进行多模态融合，得到融合特征矩阵Z；

将所述融合特征矩阵Z进行损失计算处理，并将处理结果输入至分类器中进行分类，最终得到所述目标图像以及所述目标问题对应的预测答案。

2.根据权利要求1所述的一种基于Co-Attention深度模块化网络的图像问答方法，其特征在于，将目标图像输入至Fast-RCNN模型中进行特征提取，以得到所述目标图像对应的图像特征矩阵X，具体包括：

对所述目标图像中存在的m个物体进行目标检测，并对所述目标检测设置置信度阈值；

在所述目标图像经过目标检测之后，通过所述Fast-RCNN模型，得到图像特征矩阵m∈[10,100]；其中，所述目标图像中的第i个物体在所述图像特征矩阵X中对应的特征为/>

3.根据权利要求1所述的一种基于Co-Attention深度模块化网络的图像问答方法，其特征在于，在将目标问题输入至单层LSTM网络中进行特征提取之前，所述方法还包括：

将所述目标问题对应的文本进行通正化tokenized处理；

将tokenized处理后的所述文本通过300-DGloVe进行词嵌入处理，得到所述目标问题对应的词序列；其中，所述词序列的维度为n*300，n表示所述词序列的长度，且n∈[1,14]。

4.根据权利要求3所述的一种基于Co-Attention深度模块化网络的图像问答方法，其特征在于，将目标问题输入至单层LSTM网络中进行特征提取，具体包括：

将所述词序列输入至所述单层LSTM网络中进行特征提取，得到文本特征矩阵其中，所述单层LSTM网络中带有d_y隐藏单元。

5.根据权利要求1所述的一种基于Co-Attention深度模块化网络的图像问答方法，其特征在于，在将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理之前，所述方法还包括：

通过zero-padding算法将m和n分别填充至最大值100和14。

6.根据权利要求1所述的一种基于Co-Attention深度模块化网络的图像问答方法，其特征在于，将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理，具体包括：

将所述Co-Attention模块分别标记为CA⁽¹⁾,CA⁽²⁾,…,CA^(L)，并将所述CA^(L)的输入值记为X^L-1,Y^L-1,输出值记为X^L,Y^L；

将所述图像特征矩阵X以及所述文本特征矩阵Y依次输入至所述CA⁽¹⁾,CA⁽²⁾,…,CA^(L)中进行处理，最终得到图像特征输出值X^L以及文本特征输出值Y^L。

7.根据权利要求1所述的一种基于Co-Attention深度模块化网络的图像问答方法，其特征在于，在将所述融合特征矩阵Z进行损失计算处理之前，所述方法还包括：

将所述融合特征矩阵Z投影到Rⁿ维度；

并将投影处理后的所述融合特征矩阵Z输入至预设激活函数以及预设损失函数中进行损失计算处理。

8.根据权利要求7所述的一种基于Co-Attention深度模块化网络的图像问答方法，其特征在于，

所述预设激活函数采用sigmoid函数；

所述预设损失函数采用二维交叉熵损失函数。

9.一种基于Co-Attention深度模块化网络的图像问答装置，其特征在于，所述装置包括：

用于将目标问题输入至单层LSTM网络中进行特征提取，以得到所述目标问题对应的文本特征矩阵Y；

深度Co-Attention模块，用于将所述图像特征矩阵X以及所述文本特征矩阵Y输入至Co-Attention深度模块化网络中进行处理，得到图像特征输出值X^L以及文本特征输出值Y^L；其中，L为所述Co-Attention深度模块化网络中Co-Attention模块的层数；所述Co-Attention深度模块化网络为编码器-解码器结构，且包含若干个Co-Attention模块，所述Co-Attention模块包括自注意力SA模块以及辅助注意力GA模块；

多模态融合和分类输出模块，用于将所述图像特征输出值X^L以及文本特征输出值Y^L输入至注意力降维模型以及全连接层，得到图像注意力特征值以及文本注意力特征值/>