CN113420833A

CN113420833A - 一种基于问题语义映射的视觉问答方法及装置

Info

Publication number: CN113420833A
Application number: CN202110825773.3A
Authority: CN
Inventors: 路通; 马云涛
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-09-21
Anticipated expiration: 2041-07-21
Also published as: CN113420833B

Abstract

本发明公开了一种基于问题语义映射的视觉问答方法及装置，其中方法包括：提取训练集中图像的视觉特征和问题中的问题特征；对提取的视觉特征和问题特征进行特征融合；对训练集中的问题进行分类，统计训练集中不同问题类型的答案范围；提取答案范围中答案的答案特征；建立问题特征与答案特征之间的映射关系，获得答案范围概率分布；根据特征融合后的融合特征及答案范围概率分布进行推理，得到最终答案。本发明通过门控循环单元提取出问题特征，再利用嵌入学习提取出问题与答案的一致性语义，并将该语义映射到答案，通过问题导向的区域注意力机制和关系提取得到图像高层语义信息；将图像高层语义信息与答案范围映射结果融合，生成最后的答案。

Description

一种基于问题语义映射的视觉问答方法及装置

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于问题语义映射的视觉问答方法及装置。

背景技术

视觉问答是计算机视觉领域的热门研究方向，视觉问答是通过输入一张图像和一个与图像相关的问题，模型要对图像和问题进行理解，然后输出该问题的答案。因此，同一个问题在不同的图像上有不同的答案，同一张图片在不同的问题语境下也有不同的理解重点。这意味着视觉问答可以根据不同的问题语境以不同的方式理解图像的内容，并对涉及的主体间位置、大小关系等图像中无法直接得出的信息进行必要推理，得到最终的答案。目前基于深度学习的视觉问答模型大多包含三个模块：(1)视觉特征提取模块：用于提取图像特征，一般采用卷积神经网络，例如ResNet，VGG等。(2)问题特征提取模块：用于提取问题的语义特征，一般采用循环神经网络，例如长短期记忆网络、门控循环单元等。(3)特征融合模块：用于将不同模态的特征融合，一般采用注意力机制、双线性模型等，在特征融合之后再通过融合后的特征得到最后的答案。

在视觉问答任务中，两个输入都非常重要，图像中问题的相关信息和区域是必不可少的，目前也有问题导向的注意力机制等方法对图像中不同的区域或特征赋予不同的权重，提取出重要信息。另外，问题本身的信息也非常重要，问题的类型往往也指示着答案的范围，对答案的推导有着重要导向作用。

现有的方法多数都通过注意力机制等方式提取出图像中的相关特征，将两个不同模态的信息融合，然而目前的方法尚且存在一些不足。大多数方法都忽视了问题本身对答案的推导有着重要的作用，问题的类型和问法决定着答案的范围，现阶段的方法往往都忽视了问题与答案范围的映射关系。

发明内容

本发明所要解决的技术问题是提供了一种基于问题语义映射的视觉问答方法，用于提高答案的准确率和稳定性。

为解决上述技术问题，本发明采用的技术方案是：

一种基于问题语义映射的视觉问答方法，其特征在于，包括：

提取训练集中图像的视觉特征和问题中的问题特征；

对提取的视觉特征和问题特征进行特征融合；

对训练集中的问题进行分类，统计训练集中问题的答案范围；

提取答案范围中答案的答案特征；

建立问题特征与答案特征之间的映射关系，获得答案范围概率分布；

根据特征融合后的融合特征及答案范围概率分布进行推理，得到最终答案。

本发明的技术方案主要是通过门控循环单元提取出问题特征，再利用嵌入学习提取出问题与答案的一致性语义，并将该语义映射到答案，得到该问题类型的答案范围，辅助答案的推导；此外，利用基于ResNet的Faster R-CNN网络提取出图像中的区域特征，并通过问题导向的区域注意力机制和关系提取得到图像高层语义信息；最终将图像高层语义信息与答案范围映射结果融合，生成最后的答案。

与现有技术相比，本发明的有益效果是：

本发明基于问题语义映射的视觉问答方法及装置，构建了问题与答案范围的语义映射，首先，对于不同的问题按照问题的首两个单词进行了分类，并构建了问题类型与答案范围的映射关系，能够直接通过问题类型的识别获得该问题类型的答案范围；其次，答案范围映射模块中，采用了多种损失函数，将问题与答案映射到同一隐空间，进一步利用隐空间映射问题的答案范围，可通过问题表述预测该问题的答案范围，利用获得的答案范围辅助推导问题的答案；最后，将预测的答案范围与特征融合模块的答案预测结果融合，利用答案范围的预测结果指导最终答案的推导。该方法在视觉特征信息提取的基础上，将问题对应的答案范围纳入答案推导的过程，以答案范围的预测结果来调整结果的概率分布，减小答案范围外的错误结果的概率，进而提高答案预测的稳定性和准确率。

附图说明

图1为本发明基于问题语义映射的视觉问答方法的流程图；

图2为本发明基于问题语义映射的视觉问答模型的示意图；

图3为本发明实施例中视觉问题的图像。

具体实施方式

下面将结合附图对本公开技术方案进行详细说明。在本发明的描述中，需要理解地是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量，仅用来区分不同的组成部分。

图1为本发明基于问题语义映射的视觉问答方法的流程图，本发明方法具体包括：

S1.对训练集中的图像进行特征提取。通过预训练的基于Faster R-CNN的ResNet网络提取出图像区域特征，对训练集中的每个图像得到多个不同的区域特征向量V。

具体地，ResNet采用预训练的ResNet-101网络，基于Faster R-CNN框架提取出图像的RoI特征图(36个)，并通过平均池化将其转换为固定2048维的特征向量。

S2.对训练集中的问题进行分类，并统计答案范围。按照问题的前两个单词进行分类，统计所有问题的答案分布，将所有可能的答案归纳为该类的答案范围。

具体地，将所有问题按照前两个单词分类，前两个单词相同即为同一个问题类别，将该问题的正确答案加入到该问题类别的答案范围中，即在该问题类别上将正确答案的位置设为1，非答案范围内的设为0。

S3.将训练集数据输入视觉问答模型得到结果。包括：从训练集中选择n个图像和问题答案对，获得图像在S1步骤中提取出的区域特征；将问题输入问题特征提取模块获得问题的语义嵌入；将答案进行词嵌入，获得答案的语义嵌入；将语义嵌入和答案嵌入分别输入答案范围映射模块，获得答案范围概率分布，比较与S2步骤中统计出的答案范围计算损失函数，并通过两个不同输入在模块中间的输出计算距离损失函数，更新该模块网络的参数；将问题语义嵌入和图像特征输入区域注意力模块，对图像区域特征进行加权，并获得问题相关区域；将加权后的区域特征输入关系提取模块，在问题语境下以不同的尺度获得主体间的关系信息，并将各个关系信息融合；将关系信息、语义嵌入信息和答案范围概率分布结果相乘，获得最终答案的概率分布。

具体地，如图2所示，本发明方法所采用的神经网络模型分为5个模块：视觉特征提取模块，问题特征提取模块，特征融合模块，答案范围映射模块，答案推理模块，具体如下：

第一，视觉特征提取模块，采用基于Faster R-CNN框架的ResNet网络，用于提取出图片中的关键区域的视觉特征V，作为后续的特征融合模块的输入。

第二，问题特征提取模块，将问题Q的单词嵌入后，采用门控循环单元(GRU)提取出整个问题的语义嵌入q，作为区域注意力模块和问题语义映射模块的输入。

具体地，首先利用GloVe(Global Vectors for Word Representation)词嵌入将每个单词转换为300维的词向量，将问题通过循环门控单元得到2048维的问题语义嵌入。

第三，特征融合模块，分为区域注意力与关系提取两部分，区域注意力通过图像区域特征和问题特征，对提取出的图像区域特征加权，并决策出问题高相关性区域，作为关系提取模块的输入。关系提取分为局部多尺度关系提取和全局关系提取，局部多尺度关系提取针对问题高相关性区域多尺度提取出不同区域组合的关系信息，全局关系提取针对加权后的所有关键区域提取关系信息，最后将局部和全局信息融合。

具体地，区域注意力机制分为软注意力和硬注意力，软注意力的输入为区域特征V和问题特征q，输出为对每个区域特征向量赋予一个权重，其过程如下：

v_l＝ReLU(WN(FC₆(V)))

q_l＝ReLU(WN(FC₇(q)))

j＝v_l*q_l

a_s＝WN(FC₈(j))

其中，a_s是软注意力的结果，每个区域都有一个权重，该权重会直接乘在对应的区域特征向量上，获得加权后的区域特征向量

在此之后，硬注意力机制会根据软注意力的权重大小排序，选取出其中的权重最高的10个区域作为高相关度区域。

接着，会在问题语境下对这些区域进行关系提取，关系提取分两部分，一是局部关系提取，二是全局关系提取。

全局关系提取过程如下：

多尺度局部关系提取在高相关度区域以不同的区域数量尺度随机选取区域的组合获得其中的关系信息，其过程如下：

r_i1＝ReLU(FC_i(o₁,o₂,…,o_i,q))

R_i＝r_i1+r_i2+…+r_im

其中，s是尺度个数，m是每个尺度随机区域组合的个数，FC_i是尺度为i的关系提取对应的全连接网络，(o₁,o₂，…，o_i)为在高相关度区域中随机选取的i个区域特征向量，r_i1，r_i2，…，r_im是m个不同的区域组合进行尺度为i的关系提取。

是s个不同尺度关系提取的结果，R_local为局部多尺度关系提取的结果。

第四，答案范围映射模块，用于将问题语义嵌入q嵌入到答案范围语义隐空间，得到问题类型(答案范围)隐含特征向量u，再通过解码器得到问题对应的答案范围，指导最后答案的推导。该模块将答案的单词嵌入后，得到问题相应答案范围的语义嵌入。然后将答案与问题的语义嵌入通过共同的嵌入网络嵌入到一致性语义隐空间，得到答案范围的隐空间嵌入，再将该嵌入映射出答案的范围。

具体地，答案范围语义提取部分所述的语义特征u由如下方式获得：

u_l＝ReLU(WN(FC₁(q)))

u＝ReLU(WN(FC₂(u_l)))

u_l是网络的中间输出，FC为全连接层，WN为权重归一化，ReLU()为激活函数。u的维度与真实答案的语义嵌入a相同。获得u之后，将u和a输入答案空间映射部分，获得C_u和C_a。

C_u和C_a通过相同参数的同一个网络由以下方式获得：

C_u＝ReLU(WN(FC₃(u)))

C_a＝ReLU(WN(FC₃(a)))

u和a通过同一个网络获得各自的答案空间映射C_u和C_a，并比较两者之间的距离差异，通过损失函数减小两者之间的距离，取得两者之间的共同特征，即对答案范围、答案类型的映射语义。

两者距离差异通过以下损失函数L_c来衡量：

y_i表示C_u在位置i上上的值，x_i表示C_a在位置i上上的值，n表示C_u和C_a的维度。在此之后，将两者分别通过答案推理部分，获得答案范围分布。

概率分布p_u和p_a由如下方式获得：

Logit_ul＝DropOut(ReLU(WN(FC₄(C_u))))

Logit_u＝WN(FC₅(Logit_ul))

p_u＝Sigmoid(Logit_u)

Logit_al＝DropOut(ReLU(WN(FC₄(C_a))))

Logit_a＝WN(FC₅(Logit_al))

p_a＝Sigmoid(Logit_a)

DropOut是随机失活函数，Logit_ul和Logit_al是网络中间输出，Logit_u和Logit_a是网络的输出值，p_u、p_a是每个答案属于答案范围的概率。

第五，答案推理模块，将融合后的关系信息和问题特征融合后，输出答案概率结果p_f，将该概率结果与问题语义映射模块的答案范围组合，输出最终答案概率分布结果P。

其中，p_f由以下方式获得，

R_all＝R_global+R_local

Fu＝R_all*ReLU(WN(FC₁₀(q)))

p_f＝Softmax(WN(FC₁₂(ReLU(WN(FC₁₁(Fu)))))

p_a用于与S2步骤中统计的答案范围的多标签损失函数，p_u用于与特征融合后预测的答案概率相乘，得到答案最终的概率分布P。概率P由以下方式获得：

P＝p_f*p_u

S4.获得答案的概率P分布后，根据模型输出结果与正确答案的结果对模型参数进行更新。与标注的正确答案比较，将标注的答案与模型输出答案比较，得到模型输出答案在正确答案中出现的次数，将次数除以3，为最终得分，得分最高为1。

S5.通过验证集对模型效果进行验证，将验证集数据输入模型得到结果，并将结果与标注的答案进行比较，验证模型的效果。与训练时的区别在于，验证时无法预先知道答案，因此答案范围映射模块仅输入问题语义嵌入。

S6.重复步骤S3、S4、S5直至得到在验证集上效果最好的视觉问答模型。

S7.将测试集中的图像问题对输入模型，获得模型关于该图像问题的答案的概率分布，选取最大概率位置对应的答案作为最终的答案。与训练时的区别在于，测试时无法预先知道答案，因此答案范围映射模块仅输入问题语义嵌入。

具体的预测结果的形式如下：

以图3为例，输入的问题：What are the bears standing on？

输出答案为：Snow。

Claims

1.一种基于问题语义映射的视觉问答方法，其特征在于，包括：

提取训练集中图像的视觉特征和问题中的问题特征；

对提取的视觉特征和问题特征进行特征融合；

对训练集中的问题进行分类，统计训练集中不同问题类型的答案范围；

提取答案范围中答案的答案特征；

2.根据权利要求1所述的视觉问答方法，其特征在于，

提取训练集中图像的视觉特征为图像区域特征；问题中的问题特征为问题的语义嵌入；提取的答案特征为答案的语义嵌入。

3.根据权利要求2所述的视觉问答方法，其特征在于，对提取的视觉特征和问题特征进行特征融合的方法，包括：

通过图像区域特征和问题特征，对提取出的图像区域特征加权，决策出问题高相关性区域；

针对问题高相关性区域多尺度提取出不同区域组合的局部关系信息；

针对加权后的所有区域提取全局关系信息，最后将局部关系信息和全局信息关系信息融合。

4.根据权利要求2所述的视觉问答方法，其特征在于，建立问题特征与答案特征之间的映射关系，获得答案范围概率分布的方法包括：

将问题的语义嵌入q嵌入到答案范围语义隐空间，得到答案范围隐含特征向量u，通过解码获得答案单词的词嵌入a；

将答案单词的词嵌入a与问题的语义嵌入q通过共同的嵌入网络嵌入到一致性语义隐空间，得到答案范围的隐空间嵌入，再将该嵌入映射出答案的范围。

5.根据权利要求4所述的视觉问答方法，其特征在于，所述的答案范围隐含特征向量u由如下方式获得：

u_l＝ReLU(WN(FC₁(q)))

u＝ReLU(WN(FC₂(u_l)))

式中，u_l是网络的中间输出；FC为全连接层，下标1和2用以区分不同的网络，不同的数字表明是相同结构但不同数值的网络，相同的数字表明是同一个网络；WN()为权重归一化，ReLU()为激活函数；

获得特征向量u之后，根据特征向量u和答案单词的词嵌入a获得C_u和C_a：

C_u＝ReLU(WN(FC₃(u)))

C_a＝ReLU(WN(FC₃(a)))

式中，C_u和C_a分别为特征向量u和答案单词的词嵌入a通过同一个网络获得的答案空间映射；

比较答案空间映射C_u和C_a之间的距离差异，通过损失函数减小两者之间的距离，取得两者之间的共同特征作为答案范围、答案类型的映射语义；

根据答案空间映射C_u和C_a，获得答案范围分布：

Logit_ul＝DropOut(ReLU(WN(FC₄(C_u))))

Logit_u＝WN(FC₅(Logit_ul))

p_u＝Sigmoid(Logit_u)

Logit_al＝DropOut(ReLU(WN(FC₄(C_a))))

Logit_a＝WN(FC₅(Logit_al))

p_a＝Sigmoid(Logit_a)

式中，p_u、p_a是每个答案属于答案范围的概率，DropOut()是随机失活函数，Logit_ul和Logit_al是网络中间输出，Logit_u和Logit_a是网络的输出值。

6.根据权利要求5所述的视觉问答方法，其特征在于，答案空间映射C_u和C_a之间的距离差异通过以下损失函数L_c来衡量：

y_i表示C_u在位置i上上的值，x_i表示C_a在位置i上上的值，n表示C_u和C_a的维度。

7.根据权利要求4所述的视觉问答方法，其特征在于，根据特征融合后的融合特征及答案范围概率分布进行推理得到最终答案的方法，包括：

将融合后的关系信息和问题特征融合后，输出答案概率结果p_f，将该概率结果与问题语义映射模块的答案范围组合，输出最终答案概率分布结果P：

P＝p_f*p_u

获得答案的概率P分布后，根据模型输出结果与正确答案的结果对模型的超参数进行调整；

通过验证集对模型效果进行验证，将验证集数据输入模型得到结果，并将结果与标注的答案进行比较，验证模型的效果，直至得到在验证集上效果最好的视觉问答模型；

将测试集中的图像问题对输入模型，获得模型关于该图像问题的答案的概率分布，选取最大概率位置对应的答案作为最终的答案。

8.一种基于问题语义映射的视觉问答装置，其特征在于：包括处理器和存储器；所述存储器中存储有程序或指令，所述程序或指令由所述处理器加载并执行以实现如权利要求1至7任一所述视觉问答方法的步骤。