CN108108771A

CN108108771A - 基于多尺度深度学习的图像问答方法

Info

Publication number: CN108108771A
Application number: CN201810004239.4A
Authority: CN
Inventors: 马千里; 余柳红
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-01-03
Filing date: 2018-01-03
Publication date: 2018-06-01

Abstract

本发明公开了一种基于多尺度深度学习的图像问答方法，该方法受人类在图像问答中的认知行为启发，包括以下步骤：1)首先将同一图片按照需要设定为不同尺度大小的三幅图片，并采用预训练好的卷积神经网络提取图片特征，获取多尺度图片特征；2)利用递归神经网络来得到问句的特征表示，并接一个带不同卷积核大小的卷积层来获取n元问句特征表示；3)采用注意力转移机制来探索不同尺度的图片特征与n元问句表示之间的内在关联关系，即相似性度量；4)最后，融合不同尺度图片特征和n元问句特征，并使用层次网络结构，从大尺度到中尺度再到小尺度来推理预测问题的答案。本发明模拟人类在图像问答中的认知行为，并且在基准数据集上取得较高精度。

Description

基于多尺度深度学习的图像问答方法

技术领域

本发明涉及图像处理和自然语言处理的多模态技术领域，具体涉及一种基于多尺度深度学习的图像问答方法。

背景技术

图像问答是近年来兴起的一个有挑战性的任务，给定一张图片以及与图片相关的问句，图像问答任务能够自动地产生答案。图像问答有很多潜在的应用，例如帮助盲人或者视觉障碍的人获取网站或者现实世界的信息。此外，还能用于人机交互来询问视觉内容等。

目前大部分已经被提出用来解决图像问答任务的算法，采用了卷积神经网络来提取整幅图片特征和用递归神经网络来提取问句特征，然后学习两者之间的关系来生成答案。然而，当人类尝试回答图像问答中的问题时，会首先浏览图片以及读问句，然后根据问句中提到的物体来从图片中找到正确答案。此时，用户将首先看到图片中较大尺度的物体或者区域，然后会尝试放大图片聚焦到较小尺度的物体或者区域，进一步推断出问题的正确答案。但是目前已有的图像问答系统中，尚无模型尝试探索多尺度图片特征在图像问答中的有效性，并且解释用于图像问答的深度神经网络模型是如何预测答案的。

发明内容

本发明的目的是为了克服现有的图像问答模型的不足，以及模拟人类在图像问答中的认知行为，提供一种基于多尺度深度学习的图像问答方法。

本发明的目的可以通过采取如下技术方案达到：

一种基于多尺度深度学习的图像问答方法，所述的图像问答方法包括如下步骤：

S1、对训练数据集中的图像，设定为大、中、小三种尺度图像，得到不同尺度的图像；

S2、对不同尺度的图像，用预先训练好的卷积神经网络分别提取各个尺度的图像特征，得到大、中、小三种尺度图像特征，然后对每个尺度的特征采用二范数归一化；

S3、对训练数据集中图像对应的问句，使用双向门循环神经网络获得问句特征表示；

S4、将上述的问句特征表示，使用带有不同卷积核大小的单层卷积层，获得n元问句特征表示，包括一元问句特征、二元问句特征、三元问句特征；

S5、采用注意力转移机制，计算各个尺度图像特征与n元问句特征之间的相似度，得到各个尺度图像特征的权重分布，以及n元问句特征的权重分布；

S6、将各个尺度图像特征与相应的权重分布加权求和，得到各个尺度的注意力图像特征向量，将n元问句特征与相应的权重分布加权求和，得到n元问句注意力特征向量；

S7、将各个尺度的注意力图像特征向量与相应n元问句注意力特征向量进行融合得到融合特征；

S8、将上述的融合特征，从大尺度到中等尺度再到小尺度进行融合，使用层次多层感知机结构，推理预测问句的答案；

S9、在训练数据集上不断重复S1到S8，直到验证集上的准确率达到预期目标或者网络的损失函数开始收敛；

S10、将训练好的网络在测试集上进行测试。

进一步地，所述的步骤S1中不同尺度的图像是通过以下过程得到：将原始图片缩放到某个设定的尺度，作为大尺度图像，然后从大尺度图像的中央裁剪出中等尺度图像和小尺度图像。

进一步地，所述的步骤S4具体如下：

将所述的步骤S3中得到的问句特征表示，使用卷积核窗口大小分别为1*k，2*k，3*k，卷积操作过程沿着问句的单词顺序分别得到一元问句特征、二元问句特征、三元问句特征，其中，k是词向量的长度。

进一步地，所述的步骤S5包括下列子步骤：

S501、将大、中、小尺度的图像特征和一元问句特征、二元问句特征、三元问句特征分别线性映射到相同的低维度特征表示，特征维度为d，且d<k；

S502、计算小尺度图像特征与一元问句特征之间，中尺度图像特征与二元问句特征之间，大尺度图像特征与三元问句特征之间的相似矩阵C：

C＝tanh(QWV^T)

其中，相似矩阵C∈R^T×N，T是问句中的单词数，N是图片特征块数，Q是问句特征，Q∈R^T×d，W是d×d维度参数矩阵，V是图像特征，V∈R^N×d；

S503、计算各个尺度图像特征和n元问句特征的权重分布，取相似矩阵C中每一行的最大值作为问句特征的权重分布α^q，取相似矩阵C中每一列的最大值作为图像特征的权重分布β^v，并用Softmax函数归一化：

α^q＝softmax(max_j(C_t,j))；

β^v＝softmax(max_i(C_i,n))；

其中，α^q∈R^T，β^v∈R^N，q取值1、2、3，分别表示一元问句、二元问句、三元问句，v取值1，2，3分布表示小尺度图像特征，中尺度图像特征，大尺度图像特征。

进一步地，所述的步骤S6中将各个尺度图像特征与相应的权重分布加权求和，得到各个尺度的注意力图像特征向量，将n元问句特征与相应的权重分布加权求和，得到n元问句注意力特征向量，计算方式如下：

进一步地，所述的步骤S7中注意力图像特征向量与注意力文本特征向量之间的融合，采用向量逐元素相乘的方式，融合大尺度图像特征与三元注意力问句特征，融合中尺度图像特征与二元注意力问句特征，融合小尺度图像特征与一元注意力问句特征。

进一步地，所述的步骤S8中将步骤S7中得到的融合特征，从大尺度到中等尺度再到小尺度融合不同尺度特征，使用层次多层感知机结构，推理预测问句的答案，得到预测答案的概率值，具体计算方式为：

h₁＝tanh(W₁(Q³⊙V³))

h₂＝tanh(W₂(Q²⊙V²),h₁)

h₃＝tanh(W₃(Q¹⊙V¹),h₂)

p＝softmax(W_hh₃)

其中，W₁，W₂，W₃,W_h是需要训练的模型参数，⊙表示逐元素相乘,p表示问句的答案预测的概率，h1是大尺度融合的第一层特征，h2是大尺度特征与中等尺度特征融合的第二层尺度特征，h3是大尺度与中尺度融合后与小尺度特征融合的第三层尺度特征,tanh(·)表示双曲正切函数。

本发明相对于现有技术具有如下的优点及效果：

本发明基于多尺度深度学习的图像问答方法通过将注意力转移机制得到的权重分布可视化，有效地模拟了人类回答图像问答任务的认知行为，并且提高了预测精度。

附图说明

图1是本发明中公开的基于多尺度深度学习的图像问答方法的流程示意图；

图2是本发明中多尺度特征的融合推理过程。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如附图1所示，图1是本发明中公开的基于多尺度深度学习的图像问答方法的流程示意图，具体的技术方案包括以下步骤：

步骤S1、对训练数据集中的图像，设定为大、中、小三种尺度图像，得到不同尺度的图像。不同尺度的图像是通过，将原始图片缩放到某个设定的尺度，作为大尺度图像，然后从大尺度图像的中央裁剪出中等尺度图像和小尺度图像。本实施例中，将原始尺寸不同的图片统一尺寸为448*448，作为大尺度图片，中等尺度图片大小为352*352,小尺度图片大小为224*224。

步骤S2、对不同尺度的图像，用预先训练好的卷积神经网络分别提取各个尺度的图像特征，得到大、中、小三种尺度图像特征，然后对每个尺度的特征采用二范数归一化。本实施例中，卷积神经网络结构采用VGG16。

步骤S3、对训练数据集中图像对应的问句，使用双向门循环神经网络获得问句特征表示。本实施例中，维度为T*512。在输入问句前，对问句进行预处理，方法为：在训练数据集上进行词汇统计，将单词出现次数少于5次的词用‘UNK’替代，对训练数据集中图像对应的问句，首先去除出现次数过于频繁而又不影响句子表达的单词：‘the’，‘a’，‘an’。问句中的每一个单词用word2vector表示为300维度的词向量。

步骤S4、将步骤S3中得到的问句特征表示，使用带有不同卷积核大小的单层卷积层，其中卷积核窗口大小分别为1*k、2*k、3*k，卷积操作过程是沿着问句的单词顺序分别得到一元问句特征、二元问句特征、三元问句特征，其中k(本实施例中，k＝300)是词向量的长度。

步骤S5、采用注意力转移机制，计算各个尺度图像特征与n元问句特征之间的相似度，得到各个尺度图像特征的权重分布，以及n元问句特征的权重分布。注意力转移机制的各个尺度的图像特征和n元问句特征之间的权重分布计算具体方法如下：

步骤S501、将大、中、小尺度的图像特征和一元问句特征、二元问句特征、三元问句特征分别线性映射到相同的低维度特征表示，特征维度为d(本实施例中，d＝300)，且d<k；

步骤S502、计算小尺度图像特征与一元问句特征之间，中尺度图像特征与二元问句特征之间，大尺度图像特征与三元问句特征之间的相似矩阵C：

C＝tanh(QWV^T)

步骤S503、计算各个尺度图像特征和n元问句特征的权重分布，取相似矩阵C中每一行的最大值作为问句特征的权重分布α^q，取相似矩阵C中每一列的最大值作为图像特征的权重分布β^v，并用Softmax函数归一化：

α^q＝softmax(max_j(C_t,j))；

β^v＝softmax(max_i(C_i,n))；

步骤S6、将各个尺度图像特征与相应的权重分布加权求和，得到各个尺度的注意力图像特征向量，将n元问句特征与相应的权重分布加权求和，得到n元问句注意力特征向量。将各个尺度图像特征与相应的权重分布加权求和，得到各个尺度的注意力图像特征向量V^v，将n元问句特征与相应的权重分布加权求和，得到n元问句注意力特征向量Q^q，计算方式如下：

步骤S7、将各个尺度的注意力图像特征向量与相应n元问句注意力特征向量，采用向量逐元素相乘的方式进行融合。

步骤S8、将步骤S7中得到的融合特征，从大尺度到中等尺度再到小尺度融合特征，使用层次多层感知机结构，推理预测问句的答案，具体计算方式为：

h₁＝tanh(W₁(Q³⊙V³))；

h₂＝tanh(W₂(Q²⊙V²),h₁)；

h₃＝tanh(W₃(Q¹⊙V¹),h₂)；

p＝softmax(W_hh₃)；

其中，W₁，W₂，W₃,W_h是需要训练的模型参数，⊙表示逐元素相乘。p表示问句的答案预测的概率，h1是大尺度融合的第一层特征，h2是大尺度特征与中等尺度特征融合的第二层尺度特征，h3是大尺度与中尺度融合后与小尺度特征融合的第三层尺度特征。tanh(·)表示双曲正切函数。

步骤S9、在训练数据集上不断重复步骤S1到步骤S8，直到验证集上的准确率达到预期目标或者网络的损失函数开始收敛。

步骤S10、将训练好的网络在测试集上进行测试。

综上所述，本发明模拟了人类在图像问答中的认知行为，通过将注意力转移机制得到的权重分布可视化，并且在基准数据集上取得较高的预测精度。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多尺度深度学习的图像问答方法，其特征在于，所述的图像问答方法包括如下步骤：

S10、将训练好的网络在测试集上进行测试。

2.根据权利要求1所述的基于多尺度深度学习的图像问答方法，其特征在于，所述的步骤S1中不同尺度的图像是通过以下过程得到：将原始图片缩放到某个设定的尺度，作为大尺度图像，然后从大尺度图像的中央裁剪出中等尺度图像和小尺度图像。

3.根据权利要求1所述的基于多尺度深度学习的图像问答方法，其特征在于，所述的步骤S4具体如下：

4.根据权利要求1所述的基于多尺度深度学习的图像问答方法，其特征在于，所述的步骤S5包括下列子步骤：

C＝tanh(QWV^T)

α^q＝softmax(max_j(C_t,j))；

β^v＝softmax(max_i(C_i,n))；

5.根据权利要求4所述的基于多尺度深度学习的图像问答方法，其特征在于，所述的步骤S6中将各个尺度图像特征与相应的权重分布加权求和，得到各个尺度的注意力图像特征向量，将n元问句特征与相应的权重分布加权求和，得到n元问句注意力特征向量，计算方式如下：

<mrow> <msup> <mi>Q</mi> <mi>q</mi> </msup> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </msubsup> <msubsup> <mi>&alpha;</mi> <mi>t</mi> <mi>q</mi> </msubsup> <msubsup> <mi>q</mi> <mi>t</mi> <mi>q</mi> </msubsup> <mo>;</mo> </mrow>

<mrow> <msup> <mi>V</mi> <mi>v</mi> </msup> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msubsup> <mi>&beta;</mi> <mi>t</mi> <mi>v</mi> </msubsup> <msubsup> <mi>v</mi> <mi>n</mi> <mi>v</mi> </msubsup> <mo>.</mo> </mrow>

6.根据权利要求1所述的基于多尺度深度学习的图像问答方法，其特征在于，所述的步骤S7中注意力图像特征向量与注意力文本特征向量之间的融合，采用向量逐元素相乘的方式，融合大尺度图像特征与三元注意力问句特征，融合中尺度图像特征与二元注意力问句特征，融合小尺度图像特征与一元注意力问句特征。

7.根据权利要求1所述的基于多尺度深度学习的图像问答方法，其特征在于，所述的步骤S8中将步骤S7中得到的融合特征，从大尺度到中等尺度再到小尺度融合不同尺度特征，使用层次多层感知机结构，推理预测问句的答案，得到预测答案的概率值，具体计算方式为：

h₁＝tanh(W₁(Q³⊙V³))

h₂＝tanh(W₂(Q²⊙V²),h₁)

h₃＝tanh(W₃(Q¹⊙V¹),h₂)

p＝softmax(W_hh₃)