CN107679582A

CN107679582A - 一种基于多模态分解模型进行可视问答的方法

Info

Publication number: CN107679582A
Application number: CN201710991611.0A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-10-20
Filing date: 2017-10-20
Publication date: 2018-02-09

Abstract

一种基于多模态分解模型进行可视问答的方法，图像在ImageNet数据集进行训练并提取图像特征，问题标记为文字转化为特征向量，在基本网络体系结构中引入协同注意力模型，同时学习图像和问题的相关特征，表征多模态特征之间细粒度相关性，多模态特征进入多模态分解双线性池(MFB)或多模态分解高阶池(MFH)模块图像生成融合图像问题特征z，z送入分类器预测最佳匹配的答案。本发明采用协同注意力模型预测图像中每个空间网格与问题之间的相关性，有利于准确预测最佳匹配答案，结合这种图像注意机制，可以使模型有效地了解哪个图像区域对于问题是重要的，显著的提高模型的性能以及问答的准确率。

Description

一种基于多模态分解模型进行可视问答的方法

技术领域

本发明涉及可视问答领域，尤其是涉及了一种基于多模态分解模型进行可视问答的方法。

背景技术

随着机器视觉的不断发展，机器自动理解图像中的语义表示得到广泛的研究，可视问答常用于图像检索、智能交通、可视教育、人工智能等领域，具体地，在图像检索领域，可通过理解图像和问题，进行重点信息分解，获得相应的文字描述。在可视教育领域，对特定的特征进行分解，结合文图中的特征信息进行推理得出正确答案。为提升人工智迈出了更进一步。目前现有的研究只考虑图像中的视觉特征，而忽视了问题中的相关特征，然而不同于图像检索和图像描述，可视问答需要计算机对于文字和图案的语义都有条理的理解并进行有逻辑的推理才可获得最符合准确的答案，因此在可视问答领域仍然存在一定的挑战。

本发明提出了一种基于多模态分解模型进行可视问答的方法，图像在ImageNet数据集进行训练并提取图像特征，问题标记为文字转化为特征向量，通过长短记忆模型网络获得问题表示向量。在基本网络体系结构中引入协同注意力模型，同时学习图像和问题的相关特征，有效地表征多模态特征之间的细粒度相关性，多模态特征进入多模态分解双线性池(MFB)或多模态分解高阶池(MFH)模块图像生成融合图像问题特征z，z送入多路分类器预测的最佳匹配的答案。本发明采用MFB融合问题和图像的视觉特征，并利用MFH获得更多地相关视觉特征，协同注意力模型预测图像中每个空间网格与问题之间的相关性，有利于准确预测最佳匹配答案，结合这种图像注意机制，可以使模型有效地了解哪个图像区域对于问题是重要的，显著的提高模型的性能以及问答的准确率。

发明内容

针对目前性能不高及准确率低，本发明采用MFB融合问题和图像的视觉特征，并利用MFH获得更多地相关视觉特征，协同注意力模型预测图像中每个空间网格与问题之间的相关性，有利于准确预测最佳匹配答案，结合这种图像注意机制，可以使模型有效地了解哪个图像区域对于问题是重要的，显著的提高模型的性能。

为解决上述问题，本发明提供了一种基于多模态分解模型进行可视问答的方法，主要包括：多模态分解双线性池(MFB)(一)；

多模态分解高阶池(MFH)(二)；

协同注意力模型(三)。

其中，多模态分解双线性池(MFB)，不同模态分别有两个特征矢量，其中图像的视觉特征为问题文字的视觉特征多模态分解双线性池的公式为：

z_i＝x^TW_iy (1)

其中，代表投影矩阵，代表双线性模型的输出，误差包含在W中，忽视可能有的偏差，通过学习获得o-维度的z输出，虽然双线性池可有效的捕捉成对特征维度的互动，但可能引入大量参数导致高的计算损失和过拟合的风险。

进一步地，双线性模型根据单模态数据的矩阵分解技巧，公式(1)的投影矩阵W_i分解为两个低级矩阵计算式：

其中，k为分界矩阵和的最新维度，o代表哈达马积数或是两个矢量的要素相乘数，为总向量，学习矩阵内容和后，可求出内容输出在保证简单性的同时，把U和V重新进行调整为2-D矩阵和公式3调整为：

SumPool(x,k)表示使用尺寸为k在一维非重叠窗口x上形成的加法汇聚，称之为多模态分解双线性池(MFB)，为了防止过拟合，在要素相关层后加入流失层，MFB输出中加入标准化功率：z←sign(z)|z|^0.5和l₂标准化：z←z/‖z‖。

其中，多模态分解高阶池(MFH)是通过大量增加MFB模块，MFB可分为扩大阶段和压缩阶段：

不同模态的特征扩大至一个高纬度的空间进行要素相乘，之后，加入标准化层进行加法汇聚计算，随后在压缩阶段或缩小化过程中，将高纬度信息进行压缩成输出特征，最后压缩后的x和y通过concat函数将数组进行连接，Drop(·)，SumPool(·)，Norm(·)分别为筛选点、总汇层和标准测点层，z_exp为板块的输入数，z为模块的输出，为提高MFB_p模板的连串性，将公式进行优化：

i∈{1,2,…,p}是MFB模件的指数，和是加权矩阵，是MFB模件中第i位的内部特征，是MFB模件中第i-1位内部特征，为总向量。

进一步地，扩大阶段和压缩阶段，获得MFB的i位内部特征之后，通过公式5计算MFB的输出特征zⁱ，高阶MFH^p模型的最终的输出特征z通过浓缩MFB模块的输出特征p：

随着p的增加，模型的大小和MFH的输出特征维数的线性增长，为了控制模型的复杂度和训练时间，我们在实验中使用p＜4。

其中，协同注意力模型(三)，在基本网络体系结构中引入共同注意学习(它共同学习图像和问题)，有效地表征多模态特征之间的细粒度相关性，使模型具有更好的表示能力，对于一个给定的图像，不同的问题导致完全不同的答案，因此，图像注意模型能够预测图像中每个空间网格与问题之间的相关性，有利于准确预测最佳匹配答案，结合这种图像注意机制，可以使模型有效地了解哪个图像区域对于问题是重要的。

进一步地，基本网络体系结构，图像在ImageNet数据集进行训练，使用152层ResNet模型来提取图像特征，图像调整大小至448x448，图片使用2048-Dpool5特征(正规化)来表征，问题先标记化成文字，然后进一步转化为一个独热特征向量，最大长度为T，独热特征向量通过嵌入层进入有1024个隐藏单元的长短记忆模型(LSTM)网络，从LSTM网络提取最后一个单词的输出特征形成问题表示向量，预测答案。

进一步地，多模态特征(从图像和问题中提取)进入MFB或MFH模块图像生成融合图像问题特征z，z送入多路分类器预测的最佳匹配的答案。

进一步地，共同注意学习采用MFB+CoAtt和MFH+CoAtt协同学习，同时注意问题和图像，具体来说，14×14(196)的图像的空间网格用来表示输入图像，从LSTM网络的输出特征T是用来表示在输入问题的每一个字，之后，问题特征T输入到一个问题注意模块中，输出注意的问题表示，该注意的问题表示输入图像的关注模块(196图像特征)，和MFB或MFH生成一个图像融合问题表示。

进一步地，融合图像问题表示进一步用于学习多类分类器的答案预测，使用MFH在图像关注模块不会显著提高预测精度，而且诱导更高的计算成本，MFH模块仅用于特征融合阶段整合提取图像和问题的注意特征，图像的关注模块和问题的关注模块包括连续的1×1卷积层和ReLU层，其次是softmax归一化层预测每个输入特征的注意权重，通过输入特征的加权和得到注意特征，为了进一步提高注意力特征的表示能力，生成多个注意图以增强学习注意图，并将这些注意图连接到输出注意的图像特征。

附图说明

图1是本发明一种基于多模态分解模型进行可视问答的系统流程图。

图2是本发明一种基于多模态分解模型进行可视问答的MFB流程图。

图3是本发明一种基于多模态分解模型进行可视问答的MFH流程图。

图4是本发明一种基于多模态分解模型进行可视问答的基本网络体系结构图。

图5是本发明一种基于多模态分解模型进行可视问答的协同注意力模型图示。

具体实施方案

需要说明的是，再不冲突的情况下，本文中的实验例及实验里中的特征可相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于多模态分解模型进行可视问答的系统流程图。主要包括多模态分解双线性池化(MFB)、多模态分解高阶池化(MFH)、协助注意力模型。

图2是本发明一种基于多模态分解模型进行可视问答的MFB流程图。多模态分解双线性池(MFB)，不同模态分别有两个特征矢量，其中图像的视觉特征为问题文字的视觉特征多模态分解双线性池的公式为：

z_i＝x^TW_iy (1)

其中，代表投影矩阵，代表双线性模型的输出，误差包含在W中，忽视可能有的偏差，通过学习获得o-维度的z输出，虽然双线性池可有效的捕捉成对特征维度的互动，但可能引入大量参数导致高的计算损失和过拟合的风险。双线性模型根据单模态数据的矩阵分解技巧，公式(1)的投影矩阵W_i分解为两个低级矩阵计算式：

图3是本发明一种基于多模态分解模型进行可视问答的MFH流程图。多模态分解高阶池(MFH)是通过大量增加MFB模块，MFB可分为扩大阶段和压缩阶段：

扩大阶段和压缩阶段，获得MFB的i位内部特征之后，通过公式5计算MFB的输出特征zⁱ，高阶MFH^p模型的最终的输出特征z通过浓缩MFB模块的输出特征p：

图4是本发明一种基于多模态分解模型进行可视问答的基本网络体系结构图。图像在ImageNet数据集进行训练，使用152层ResNet模型来提取图像特征，图像调整大小至448x448，图片使用2048-Dpool5特征(正规化)来表征，问题先标记化成文字，然后进一步转化为一个独热特征向量，最大长度为T，独热特征向量通过嵌入层进入有1024个隐藏单元的长短记忆模型(LSTM)网络，从LSTM网络提取最后一个单词的输出特征形成问题表示向量，预测答案。

图5是本发明一种基于多模态分解模型进行可视问答的协同注意力模型图示。在基本网络体系结构中引入共同注意学习(它共同学习图像和问题)，有效地表征多模态特征之间的细粒度相关性，使模型具有更好的表示能力，对于一个给定的图像，不同的问题导致完全不同的答案，因此，图像注意模型能够预测图像中每个空间网格与问题之间的相关性，有利于准确预测最佳匹配答案，结合这种图像注意机制，可以使模型有效地了解哪个图像区域对于问题是重要的

共同注意学习采用MFB+CoAtt和MFH+CoAtt协同学习，同时注意问题和图像，具体来说，14×14(196)的图像的空间网格用来表示输入图像，从LSTM网络的输出特征T是用来表示在输入问题的每一个字，之后，问题特征T输入到一个问题注意模块中，输出注意的问题表示，该注意的问题表示输入图像的关注模块(196图像特征)，和MFB或MFH生成一个图像融合问题表示。

融合图像问题表示进一步用于学习多类分类器的答案预测，使用MFH在图像关注模块不会显著提高预测精度，而且诱导更高的计算成本，MFH模块仅用于特征融合阶段整合提取图像和问题的注意特征，图像的关注模块和问题的关注模块包括连续的1×1卷积层和ReLU层，其次是softmax归一化层预测每个输入特征的注意权重，通过输入特征的加权和得到注意特征，为了进一步提高注意力特征的表示能力，生成多个注意图以增强学习注意图，并将这些注意图连接到输出注意的图像特征。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于多模态分解模型进行可视问答的方法，其特征在于，主要包括多模态分解双线性池(MFB)(一)；多模态分解高阶池(MFH)(二)；协同注意力模型(三)。

2.基于权利要求书1所述的多模态分解双线性池(MFB)(一)，其特征在于，不同模态分别有两个特征矢量，其中图像的视觉特征为问题文字的视觉特征多模态分解双线性池的公式为：

z_i＝x^TW_iy (1)

3.基于权利要求书2所述的双线性模型，其特征在于，根据单模态数据的矩阵分解技巧，公式(1)的投影矩阵W_i分解为两个低级矩阵计算式：

4.基于权利要求书1所述的多模态分解高阶池(MFH)(二)，其特征在于，MFH是通过大量增加MFB模块，MFB可分为扩大阶段和压缩阶段：

5.基于权利要求书4所述的扩大阶段和压缩阶段，其特征在于，获得MFB的i位内部特征之后，通过公式5计算MFB的输出特征zⁱ，高阶MFH^p模型的最终的输出特征z通过浓缩MFB模块的输出特征p：

6.基于权利要求1所述的协同注意力模型(三)，其特征在于，在基本网络体系结构中引入共同注意学习(它共同学习图像和问题)，有效地表征多模态特征之间的细粒度相关性，使模型具有更好的表示能力，对于一个给定的图像，不同的问题导致完全不同的答案，因此，图像注意模型能够预测图像中每个空间网格与问题之间的相关性，有利于准确预测最佳匹配答案，结合这种图像注意机制，可以使模型有效地了解哪个图像区域对于问题是重要的。

7.基于权利要求6所述的基本网络体系结构，其特征在于，图像在ImageNet数据集进行训练，使用152层ResNet模型来提取图像特征，图像调整大小至448x448，图片使用2048-Dpool5特征(正规化)来表征，问题先标记化成文字，然后进一步转化为一个独热特征向量，最大长度为T，独热特征向量通过嵌入层进入有1024个隐藏单元的长短记忆模型(LSTM)网络，从LSTM网络提取最后一个单词的输出特征形成问题表示向量，预测答案。

8.基于权利要求6所述的多模态特征，其特征在于，多模态特征(从图像和问题中提取)进入MFB或MFH模块图像生成融合图像问题特征z，z送入多路分类器预测的最佳匹配的答案。

9.基于权利要求6所述的共同注意学习，其特征在于，采用MFB+CoAtt和MFH+CoAtt协同学习，同时注意问题和图像，具体来说，14×14(196)的图像的空间网格用来表示输入图像，从LSTM网络的输出特征T是用来表示在输入问题的每一个字，之后，问题特征T输入到一个问题注意模块中，输出注意的问题表示，该注意的问题表示输入图像的关注模块(196图像特征)，和MFB或MFH生成一个图像融合问题表示。

10.基于权利要求9所述的图像融合问题，其特征在于，融合的图像问题表示进一步用于学习多类分类器的答案预测，使用MFH在图像关注模块不会显著提高预测精度，而且诱导更高的计算成本，MFH模块仅用于特征融合阶段整合提取图像和问题的注意特征，图像的关注模块和问题的关注模块包括连续的1×1卷积层和ReLU层，其次是softmax归一化层预测每个输入特征的注意权重，通过输入特征的加权和得到注意特征，为了进一步提高注意力特征的表示能力，生成多个注意图以增强学习注意图，并将这些注意图连接到输出注意的图像特征。