CN116484042A

CN116484042A - 一种结合自相关与交互引导式注意力机制的视觉问答方法

Info

Publication number: CN116484042A
Application number: CN202310549904.9A
Authority: CN
Inventors: 郑传钦; 洪艳坤
Original assignee: Xiamen Medical College
Current assignee: Xiamen Medical College
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-07-25

Abstract

本发明公开了一种结合自相关与交互引导式注意力机制的视觉问答方法，包括以下步骤：S1、将图像和问题文本分别输入到视觉问答模型中，进行基础特征提取；S2、利用模态内自相关注意力模块更新图像区域特征和单词文本特征；S3、利用图像问题交互引导式注意力模块估计模态内自相关联系的重要性，并通过在两种不同模态之间建立语义关联关系，进一步更新图像区域特征和单词文本特征；S4、利用注意力模型堆叠连接，逐步细化所要处理的图像特征和问题特征；S5、将更新和细化后的图像特征和问题特征进行特征融合，预测出图像中与问题对应的答案；该方法有效增强视觉图像与问题信息的高层语义交互，从而提升模型的整体泛化能力。

Description

一种结合自相关与交互引导式注意力机制的视觉问答方法

技术领域

本发明涉及计算机数据处理技术领域，具体涉及一种结合自相关与交互引导式注意力机制的视觉问答方法。

背景技术

随着计算机视觉和自然语言处理的快速发展，基于视觉和语言的多模态任务引起研究者越来越多的关注。视觉问答(visual question answering,VQA)旨在自动回答一个与给定图像内容相关的自然语言问题，其任务涉及计算机视觉、自然语言处理和人工智能交叉的新兴交叉学科研究。通过模拟真实世界的情景，视觉问答任务在实践中有非常广泛及有意义的应用，如视觉问答可以帮助存在视觉障碍的用户进行实时的人机交互，也可以为查询视觉相关内容提供一种自然语言方式来改善人机交互的过程等。与其他多模态任务相比，视觉问答需要对图像和问题进行细致的语义理解，并结合一定的信息融合策略和推理方法来预测准确的答案，是一项极具挑战性的研究工作。

作为计算机视觉与自然语言处理的多模态交叉学习任务，有效的视觉问答方法吸引了国内外研究学者的广泛关注。伴随着深度学习在计算机视觉和自然语言处理领域的成功，基于深度网络的视觉问答方法是目前主流的发展方向。该方法通常分别采用卷积神经网络和递归神经网络提取图像和问题文本的高层语义特征，最后将这两种模态特征进行融合并输入到分类器中完成联合推理及答案预测，但这种方法以图像的全局特征作为视觉输入，缺少对图像在更细尺度上的理解，并在预测阶段会引入大量无用信息，且在视觉问答任务中，被提出的问题通常只关注到图像中的部分目标区域。

因此，目前的视觉问答方法一般是在整个图像和文本的基础上生成全局特征，无法关注到与需要回答的问题最相关的图像区域和文本单词，在推测答案的过程中会引入大量噪声，从而影响模型对答案的分析和判断。此外，这些联合嵌入模型往往仅能学习到数据集中有限的知识，而对一些开放性更强的问题表现很差，所以基于传统联合嵌入模型的方法在视觉问答预测方面仍具有较大的优化空间。

发明内容

本发明的目的在于提供一种结合自相关与交互引导式注意力机制的视觉问答方法，该结合自相关与交互引导式注意力机制的视觉问答方法使视觉问答模型能学习到更具细粒度的深层语义特征,有效增强视觉图像与问题信息的高层语义交互，从而提升模型的整体泛化能力。

为实现上述目的，本发明采用以下技术方案：

一种结合自相关与交互引导式注意力机制的视觉问答方法，包括以下步骤：

S1、将图像和问题文本分别输入到视觉问答模型中，进行基础特征提取；

S2、利用模态内自相关注意力模块更新图像区域特征和单词文本特征；

S3、利用图像问题交互引导式注意力模块估计模态内自相关联系的重要性，并通过在两种不同模态之间建立语义关联关系，进一步更新图像区域特征和单词文本特征；

S4、利用注意力模型堆叠连接，逐步细化所要处理的图像特征和问题特征；

S5、将更新和细化后的图像特征和问题特征进行特征融合，预测出图像中与问题对应的答案。

优选地，步骤S1中所述图像的基础特征提取过程为：给定输入图像样本I，通过在VisualGenome数据集进行Faster-RCNN模型训练来获得图像区域特征，处理过程的公式为X＝FasterRCNN(I)；所得到的图像区域特征为X＝{r₁,r₂,r₃...r_μ}∈R^μ×2048，其中，μ代表总的区域特征数目，第i个区域特征表达为r_i∈R²⁰⁴⁸，对于每个输入图像样本，提取若干个目标区域的局部特征；

步骤S1中所述问题文本的基础特征提取过程为：给定问题Q，采用Glove词嵌入编码方法对文本特征进行表征，词嵌入将一个单词映射到一个高维的词向量中来代表这个单词，再通过门控循环单元GRU学习提取这个词向量的特征，处理过程的公式为Y＝GRU(Q)；对于每个问题Q，问题Q通过截断，填充的方法规范到τ的长度，采用Glove模型将这些单词嵌入到一个向量空间中,得到的问题特征为Y＝{e₁,e₂,e₃...e_τ}∈R^τ×1280,第j个词的特征词向量表达为e_j∈R¹²⁸⁰。

优选地，步骤S2的具体过程为：

S21、在视觉问答模型中,通过自相关学习捕捉图像区域间和单词间特征对的语义自相关性，自注意力模块输入由Q、K和V组成，其表示形式为:

其中，Q、K和V都是由输入特征集经过变换映射产生得到，Q为查询向量，K为关键字向量，V为相关性向量，K^T为关键字向量的转置，d_k为K中向量的维度；

S22、针对输入的图像特征X和文本特征Y，其自注意力模型的输入可以由以下式子得到：

其中，和/>分别为图像和问题的注意力映射权重，再通过自注意力模块建立单一特征之间的权重矩阵，自注意力模型根据学习到的权重矩阵在两种模态之内建立自相关联系，从而进一步更新每个单词特征和图像区域特征。

优选地，步骤S22的具体过程为：

S221、使用图像的自注意力区域特征X_Q与图像区域特征本身特征X_K计算内积，得到图像区域特征间的自相关相似度：使用问题的自注意力文本特征Y_Q与文本特征本身特征Y_K计算内积，得到问题单词特征间的自相关相似度：/>

S222、计算得到模态内特征的自相关内积结果后,使用内积结果除以维度dim的平方根，再使用softmax函数将权重规范到(0,1)区间内：

图像和问题文本的自相关注意力权重图AttenM通过以下式子计算:

AttenM_X←X＝softmax(W_X←Xa_X←X)

AttenM_Y←Y＝softmax(W_Y←Ya_Y←Y)

其中，W_X←X和W_Y←Y是softmax层的参数矩阵，AttenM_X←X∈R^μ×μ是图像区域特征间的自相关注意力权重，AttenM_Y←Y∈R^τ×τ是问题词向量特征间的自相关注意力权重；

S223、针对上述得到的图像和问题的自相关注意力权重，分别与图像特征X_V和单词特征Y_V相乘，进行加权求和，得到更新后的图像和文本数据特征，公式表达分别为：

X_update＝AttenM_X←X×X_V,Y_update＝AttenM_Y←Y×Y_V

在获取更新后的视觉和文字特征后，将其与原始的图像特征X和单词特征Y进行拼接,利用全连接层FC将拼接后的特征分别更新为新的图像自注意力特征和文本自注意力特征:

优选地，步骤S3的具体过程为：

S31、图像问题交互引导式注意力模块由问题引导图像的自注意力模块与图像引导问题的自注意力模块两部分组成，图像问题交互引导式注意力模块的输入由Q、K和V组成；

S32、针对输入的图像自注意力特征和文本自注意力特征/>其交互式注意力模型的输入由变换影射得到图像交互注意力模型输入/>和问题文本交互注意力模型输入/>

S33、在问题引导图像的自注意力模型内计算不同模态之间，图像区域特征与单词特征/>的内积:/>在图像引导问题的注意模块，计算问题特征/>与图像区域的特征/>的内积：/>

S34、计算得到模态间内积结果,使用内积结果除以维度dim的平方并与softmax函数对原始的权值进行归一化到(0,1)区间：

图像和问题文本的交互式注意力权重图通过以下式子计算得到：

AttenM_X←Y＝softmax(W_X←Ya_X←Y)

AttenM_Y←X＝softmax(W_Y←Xa_Y←X)

其中，W_X←Y和W_Y←X分别是注意力模型中softmax层的网络参数,AttenM_X←Y∈R^μ×τ是问题引导的图像区域注意力权重,而AttenM_Y←X∈R^τ×μ是由图像引导的问题注意力权重，这两个权重矩阵学习了每个图像区域和单词之间的特征关系，得到的权重矩阵分别将其与图像区域特征及单词的值value特征/>进行加权，得到新特征：

S35、在获取更新后的视觉和文字特征后,将其与自相关注意力模块获取的图像自注意力特征和文本自注意力特征/>进行拼接,利用全连通层将拼接后的特征分别更新为新的图像区域和文字特征进行输出：

得到加权特征继续输入到下一层的级联注意单元中,进一步更新视觉区域与单词特征。

优选地，步骤S4的具体过程为：在特征更新的过程中使用级联的方法实现多个注意层的叠加，前一个注意层的输出直接提供给下一个注意层，并利用随机梯度下降法训练出更有深度的模型；多层注意力模型的连接以及较深的模型引导嵌入注意模型逐步细化所要处理的图像特征和问题特征,发现并放大每个重要关系,从而提升模型的表征能力，级联方式的公式表达如下：

其中，第一层X⁰和Y⁰分别表示为输入的图像区域特征X和问题特征Y，SA·CA是共同关注的自我注意力机制，l是模型级联的层数。

优选地，步骤S5的具体过程为：

S51、采取特征乘法将将更新和细化后的图像特征和问题特征进行特征融合，以此获得融合后的统一特征；

S52、将融合后的特征通过由ReLU非线性函数组成的的多层感知层和最终的softmax函数转化为概率向量；

S53、利用Sigmoid将最终得分规范化为(0,1),最后预测阶段看作是预测每个候选答案正确性的逻辑回归,其目标函数是：

其中，指数z和k分别覆盖M个训练问题的N个候选答案，S_zk是问题的真实答案，基本答案表是从出现超过5次的带注释的答案中提取出来的，分类模型采用交叉熵损失函数作为训练视觉问答模型的目标函数,整个视觉问答模型利用端到端方式进行训练。

采用上述技术方案后，本发明具有如下有益效果：本发明的结合自相关与交互引导式注意力机制的视觉问答方法一方面可以动态地关注模态内和跨模态之间的信息关联关系，找出并建立特征间的相关性；另一方面抑制了无用信息并减少了噪声的输入，深化了跨模态数据间的影响，有效地提高了模型预测的准确率。在公开的数据集上的实验结果表明，本发明的视觉问答方法能够取得较高的视觉问答准确率，其消融性实验表明了本发明提出的自相关注意力模块和交互引导式注意力模块能够有效的学习多模态数据之间的信息交互关系，并在推理答案的过程中减少冗余信息的输入，较好缩小问题与图像之间的语义鸿沟，有效提高了视觉问答的准确率，还采取注意力模型堆叠连接进行网络优化，以实现更好的视觉答案预测。

附图说明

图1为本发明的视觉问答模型的框架图；

图2为本发明的交互引导式注意力模块示意图；

图3为本发明的级联连接示意图；

图4为本发明的视觉问答模型准确率的周期变化示意图；

图5为本发明的视觉问答模型损失值的周期变化示意图；

图6为本发明的代表方法准确率变化对比图；

图7为本发明的可视化交互引导注意力模块对于相应的问题模态内的权重表现示例一；

图8为本发明的可视化交互引导注意力模块对于相应的问题模态内的权重表现示例二；

图9为本发明的可视化交互引导注意力模块对于相应的问题模态内的权重表现示例三；

图10为本发明的不同注意模块组成准确率对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1至图10所示，一种结合自相关与交互引导式注意力机制的视觉问答方法，包括以下步骤：

步骤S1中所述图像的基础特征提取过程为：给定输入图像样本I，通过在VisualGenome数据集进行Faster-RCNN模型训练来获得图像区域特征，处理过程的公式为X＝FasterRCNN(I)；所得到的图像区域特征为X＝{r₁,r₂,r₃...r_μ}∈R^μ×2048，其中，μ代表总的区域特征数目，第i个区域特征表达为r_i∈R²⁰⁴⁸，对于每个输入图像样本，提取若干个目标区域的局部特征；

步骤S2的具体过程为：

步骤S22的具体过程为：

AttenM_X←X＝softmax(W_X←Xa_X←X)

AttenM_Y←Y＝softmax(W_Y←Ya_Y←Y)

X_update＝AttenM_X←X×X_V,Y_update＝AttenM_Y←Y×Y_V

步骤S3的具体过程为：

AttenM_X←Y＝softmax(W_X←Ya_X←Y)

AttenM_Y←X＝softmax(W_Y←Xa_Y←X)

其中，W_X←Y和W_Y←X分别是注意力模型中softmax层的网络参数,AttenM_X←Y∈R^μ×τ是问题引导的图像区域注意力权重,而AttenM_Y←X∈R^τ×μ是由图像引导的问题注意力权重，这两个权重矩阵学习了每个图像区域和单词之间的特征关系，得到的权重矩阵分别将其与图像区域特征Y_V及单词的值value特征进行加权，得到新特征：

步骤S4的具体过程为：在特征更新的过程中使用级联的方法实现多个注意层的叠加，前一个注意层的输出直接提供给下一个注意层，并利用随机梯度下降法训练出更有深度的模型；多层注意力模型的连接以及较深的模型引导嵌入注意模型逐步细化所要处理的图像特征和问题特征,发现并放大每个重要关系,从而提升模型的表征能力，级联方式的公式表达如下：

步骤S5的具体过程为：

一、实验及结果分析

1.1视觉问答标准数据集

为验证本发明提出的视觉问答模型的有效性，实验选取公开的VQAv2.0视觉问答数据集来进行对比实验。该数据集包含MSCOCO 2015数据集图像和超过110万个问题，广泛用于视觉问答的各项任务评估和测试。特别的，该数据集中的测试开发(test-dev)数据部分用来进行实验评估，该部分包含大约2万张图片。本实施例使用一种投票机制来计算预测的答案的准确率：

其中，ans为视觉问答模型预测的答案。本实施例在VQAv2.0的验证集上来验证本发明提出的视觉问答模型的有效性，并进行消融模型实验分析，同时在test-dev测试集测试本发明视觉问答模型的准确度，并和相关工作进行实验对比和定量分析。

1.2实验设置

图像特征使用Faster-RCNN提取区域特征，维度2048，问题文本特征利用门控循环单元(GRU)方式提取，维度1280，然后通过全连接层分别将图像特征与文字特征嵌入到512共同维度空间。在自相关注意力模块内，将答案词汇表大小设置为3129，筛选出答案出现频率前3129的词汇组成答案表。堆叠连接的层数量设置为{1,2,4,6,8}，问题规范化长度τ的值设置为14。同时，每个全连接层后面都设置有dropout＝0.1的dropout层，以及权重归一化层，层下降率设置为0.25，优化器使用Adamax solver，其中参数为β₁＝0.9，β₂＝0.98，batch-size值设置为512，基础学习率设置为0.001，在10个学习周期后，学习率每个周期衰减1/5。

1.3实验结果

本发明提出的视觉问答模型在VQAv2.0数据集上进行训练和评估，图4展示了训练过程中准确率的变化。由图4可以看出，模型在训练过程中，随着epoch次数的增加，模型的准确率呈现不断上升趋势，并逐渐趋于平稳。实验测试发现，当epoch为13时，模型在验证集上取得最好的准确率。

同时，实验记录了函数损失(loss)值的变化情况，图5所示，函数损失值也随着epoch的增加保持稳定下降。经过epoch为13次的训练的模型在test-dev测试集上进行测试，得到总体问题以及在Yes/No、Number、Other三种类别问题上的测试准确度结果如表1所示。同时，将本实施例得到的实验结果与目前主流的方法进行比较。

表1不同方法在数据集VQAv2.0上的实验结果对比

表1中的自底向上(UP-Down)的注意力模型方法是由Anderson等在2018年提出，该方法使用Faster-RCNN方法并结合自下而上的关注模型提取图像视觉特征。多模态分解高阶池化(MFHP)方法是较为鲁棒性的双线性池多模态数据融合方法，该方法提高了跨模态数据的高层次语义结合的可解释性，可以有效用于视觉问答。特征协同注意力模型(FWCA)方法利用多层密集叠加的协同注意机制，显著优于已有的传统注意力模型方法。外部支持补充模型法(AEK)提出结合外部数据库来对模型预测进行补充，可以显著提升计数问题的准确度；共同注意网络(CAN)考虑两种模态之间的共同注意力机制，学习了多模态输入之间的相互作用，是表现最好的的共同注意方法。由对比实验可以看出，本发明提出的结合自相关与交互引导式注意力机制的视觉问答方法在总体准确率方面还优于CAN方法得到的结果，其中在是否(Y/N)类问题上提高了1.51％，比回答计数(Numer)问题的准确率提高了1.42％,回答其他(Other)类问题的准确率提高了0.72％。

图6列举出了几种先进的注意力模型方法在8次周期训练后的结果，从图中可以看出本发明的视觉问答的准确率在经过4次周期训练之后，能够达到较好的准确率，并优于现有对比的代表性方法，实验结果验证了本发明提出的结合自相关与交互引导式注意力机制的视觉问答方法的有效性。

1.4可视化交互注意力

图7至图9可视化了结合自相关和交互注意力所产生的权重值。从图7至图9中可以了解到由问题引导的图像区域之间的权重关系。实线框是对应问题模型关注到的主要模块。由此可以看出在交互注意模块中，不相关的图像区域会根据问题特征被赋予的权重很小，从而可以达到冗余信息过滤的目的，以方便视觉问答模型能更好地推理出正确的答案。

二、消融分析

本实施例对视觉问答模型使用的VQAv2.0数据集进行了消融分析实验。为了分析提出的注意力模型每个模块对预测模型的贡献，并证明本发明结合自相关与交互引导式注意力机制的视觉问答方法的优越性，进一步对完整的注意力模型进行消融分析，进一步探讨模型每个部分的作用。本实验将注意模型分为自注意力模块和引导注意模块两个部分，其中自注意力模块由问题自相关注意力模型和图像自相关注意力模型组成，引导注意模块由图像引导问题的自相关注意力模块和问题引导图像的自相关注意力模块组成。模型的默认输入设置是使用Faster-RCNN提取出的2048维图像区域特征和采用Glove模型提取1024维的问题单词特征，在最后的融合层中，使用串联的方法拼接特征。

消融分析结果如表2所示，从表2中可以清晰看出，仅使用自我注意力模型的方法取得了与表1中Up-Down可比的结果。因此，本发明采取的模态自相关注意力模型可以有效的提取语义自相关性特征，增强特征表征的判别性。同时，使用提出的图像和文本交互引导式注意力模型取得了较好的视觉问答效果，实验结果表明本发明提出的交互引导式注意力模块可以根据来自其它模块的信息估计模态内的重要特性，并通过在两种不同模态之间建立语义关联关系，来更新图像区域特征和单词文本特征，以获取更细粒度的语义相关特征。值得注意的是，仅适用单一引导注意力模型对视觉问答的准确度提升效果非常有限。相比之下，本文提出的视觉问答模型取得了令人满意的视觉问答效果，模型预测准确率有显著提高。

表2本发明提出的视觉问答模型在标准数据集VQAv2.0上面的消融实验对比结果

进一步，如图10所示，消融实验中准确记录了本发明视觉问答学习框架在使用不同注意模块情况下的准确率变化过程，其中Main折线表示本发明提出的结合自相关和交互引导式注意力视觉问答模型，OSA是指仅使用自相关注意模型，SA+IGT是指由自相关注意模块与仅使用图像引导问题自我注意模块组成的模型，SA+TGI是指由自相关注意模块与仅使用问题引导图像的自我注意模块组成的模型，横坐标Epoch表示训练的周期次数。

此外，从图中10可以进一步发现，如果使用的注意模块只包含图像自相关注意模块与问题自相关注意模块，模型的准确率在不同周期训练情况下表现较弱，主要原因在于图像特征和问题特征的语义关联较弱，一些冗余信息干扰了学习的过程。特别地，模型使用图像引导问题自相关注意模块后，模型的准确率表现有显著提升；进一步，结合自相关注意力模块和问题语义引导图像自相关注意力模块时，模型预测的结果准确率接近本发明提出的完整模型得到的准确率结果；最后，模型在加入图像引导问题注意力模块后合并完成的交互引导式注意力模块得到准确率为70.35％，为模型最优表现，实验结果验证了本发明提出方法的有效性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种结合自相关与交互引导式注意力机制的视觉问答方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种结合自相关与交互引导式注意力机制的视觉问答方法，其特征在于，

步骤S1中所述问题文本的基础特征提取过程为：给定问题Q，采用Glove词嵌入编码方法对文本特征进行表征，词嵌入将一个单词映射到一个高维的词向量中来代表这个单词，再通过门控循环单元GRU学习提取这个词向量的特征，处理过程的公式为Y＝GRU(Q)；对于每个问题Q，问题Q通过截断，填充的方法规范到τ的长度，采用Glove模型将这些单词嵌入到一个向量空间中,得到的问题特征为Y＝{e₁,e₂,e₃...e_τ}∈Rτ^×1280,第j个词的特征词向量表达为e_j∈R¹²⁸⁰。

3.如权利要求2所述的一种结合自相关与交互引导式注意力机制的视觉问答方法，其特征在于，步骤S2的具体过程为：

4.如权利要求3所述的一种结合自相关与交互引导式注意力机制的视觉问答方法，其特征在于，步骤S22的具体过程为：

AttenM_X←X＝softmax(W_X←Xa_X←X)

AttenM_Y←Y＝softmax(W_Y←Ya_Y←Y)

X_update＝AttenM_X←X×X_V,Y_update＝AttenM_Y←Y×Y_V

5.如权利要求4所述的一种结合自相关与交互引导式注意力机制的视觉问答方法，其特征在于，步骤S3的具体过程为：

AttenM_X←Y＝softmax(W_X←Ya_X←Y)

AttenM_Y←X＝softmax(W_Y←Xa_Y←X)

S35、在获取更新后的视觉和文字特征后,将其与自相关注意力模块获取的图像自注意力特征X和文本自注意力特征进行拼接,利用全连通层将拼接后的特征分别更新为新的图像区域和文字特征进行输出：

6.如权利要求5所述的一种结合自相关与交互引导式注意力机制的视觉问答方法，其特征在于，步骤S4的具体过程为：在特征更新的过程中使用级联的方法实现多个注意层的叠加，前一个注意层的输出直接提供给下一个注意层，并利用随机梯度下降法训练出更有深度的模型；多层注意力模型的连接以及较深的模型引导嵌入注意模型逐步细化所要处理的图像特征和问题特征,发现并放大每个重要关系,从而提升模型的表征能力，级联方式的公式表达如下：

7.如权利要求6所述的一种结合自相关与交互引导式注意力机制的视觉问答方法，其特征在于，步骤S5的具体过程为：