CN108170816B

CN108170816B - 一种基于深度神经网络的智能视觉问答方法

Info

Publication number: CN108170816B
Application number: CN201711494024.7A
Authority: CN
Inventors: 纪荣嵘; 周奕毅
Original assignee: Xiamen University
Current assignee: Nanqiang Zhishi (Xiamen) Technology Co.,Ltd.
Priority date: 2017-12-31
Filing date: 2017-12-31
Publication date: 2020-12-08
Anticipated expiration: 2037-12-31
Also published as: CN108170816A

Abstract

一种基于深度神经网络的智能视觉问答模型，涉及人工智能领域中的智能视觉问答。包括以下步骤：智能问答数据预处理；图像深度卷积特征抽取；文本问题深度特征抽取；智能视觉问题处理；基于枢纽通道的视觉智能问答。采用多任务学习框架进行全新的深度学习网络设计以解决智能视觉问答中训练数据缺乏与回答原因不可知等两大问题。设计了一新型的深度学习网络结构，该网络在进行智能视觉问答的同时能够对给出的答案进行原因说明，该网络结构包含一视觉描述模块，可根据问题内容针对性地对图像内容进行描述。该网络结构采用了枢纽结构设计，能将图像描述、文本问答等领域的数据引入到视觉智能问答任务中来。

Description

一种基于深度神经网络的智能视觉问答方法

技术领域

本发明涉及人工智能领域中的智能视觉问答，尤其是涉及一种基于深度神经网络的智能视觉问答方法。

背景技术

视觉智能问答(Visual Question Answering)是今年来计算机科学届提出的一个机器终极智能任务。它的任务内容为基于一张给定图像的内容来回答由人类提出的自然语言问题。该任务在2010年由卡耐基梅隆大象的Bigham等人在《User Interface Softwareand Technology》进行首次提出^[1]。2015年，佛吉尼亚理工学院的Stanislaw Antol等人在国际视觉会议ICCV发布了第一个针对视觉智能问答的大规模数据集，该数据集在亚马逊线上平台上由人工制作而成，数据内容包含了人类自然的问答习惯^[2]。随着此数据集的发布，视觉智能问答从2015年起至今获得了学术界和工业届的巨大关注。

智能视觉问答代表这人工智能研究的一个新顶峰，是人类逼近人类智慧的一个重要体现。由于智能视觉问答任务内容的特殊性，该研究方向的发展往往基于计算机视觉和自然语言处理等两大领域的最新研究进展。与传统的文本问答或者多模态研究问题相比，视觉智能问答往往要求机器模型对视觉和文本内容进行了解，并能在内容获取的基础上做出逻辑推理以完成最终的人类问答。视觉智能问答同时具有巨大的工业应用场景，这些场景包括了：智能在线问答、无人驾驶、智能装备以及视觉残疾人障碍辅助。

2015年，Antol等人对智能视觉问答任务提出了一个基准模型，该模型通过深度卷积神经网络获取图片的高级视觉语义特征，并将该视觉语义特征作为递归神经网络的初始输入与文本特征进行传递与学习^[2]。Ma等人采用卷积网络对图像与文本特征进行高级语义特征抽取，并用卷积方式对两个模态的特征进行融合，用最终的融合特征进行答案预测^[3]。2016年，Yang等人^[4]在国际视觉与模式识别会议上提出了基于多步骤推理的智能视觉问答模型，该模型采用了2015年Benjio^[5]提出的视觉注意力机制对图像重要内容进行关注，并首次使用了多步关注的设计获得更好的任务特征。Lu等人对该问答注意力机制进行了拓展，提出了对图像内容和问题内容进行架构化关注的模型^[6]。Fukui等人采用了紧凑双线性池化操作对视觉特征和问题特征进行融合，并通过扩大训练数据的方式极大的提高了视觉智能问答的性能。

虽然智能视觉问答在近两年中获得了极大的发展，但仍然存在有两大问题。首先是训练数据的不足：现有的智能视觉问答数据集的数据规模虽然达到了100万左右，但与传统的图像分类、目标检测等任务相比仍具有巨大的差距；此外，智能视觉问答的模型参数往往数以千万级，小量的训练数据往往未能充分发挥模型的性能。另一个问题是机器提供的问题答案不具备解释性：由于深度学习模型的黑盒设计，导致机器的做出回答的理由与原因往往难以给出；该情形会极大限制智能视觉问答在工业届中的推广与使用。

参考文献:

[1]Bigham J P,Jayant C,Ji H,et al.VizWiz:nearly real-time answers tovisual questions[C].user interface software and technology,2010:333-342.

[2]Antol S,Agrawal A,Lu J,et al.VQA:Visual Question Answering[C].international conference on computer vision,2015:2425-2433.

[3]Lin Ma,Zhengdong Lu,and Hang Li.2015.Learning to answer questionsfrom image using convolutional neural network.arXiv preprint arXiv:1506.00333(2015).

[4]Yang Z,He X,Gao J,et al.Stacked Attention Networks for ImageQuestion Answering[C].computer vision and pattern recognition,2015:21-29.

[5]Kelvin Xu,Jimmy Ba,Ryan Kiros,Kyunghyun Cho,Aaron C Courville,Ruslan Salakhutdinov,Richard S Zemel,and Yoshua Bengio.2015.Show,Attend andTell:Neural Image Caption Generation with Visual Attention..In ICML,Vol.14.77–81.

[6]Jiasen Lu,Jianwei Yang,Dhruv Batra,and DeviParikh.2016.Hierarchical question-image co-attention for visual questionanswering.In Advances In Neural Information Processing Systems.289–297.

[7]Akira Fukui,Dong Huk Park,Daylen Yang,Anna Rohrbach,TrevorDarrell,and Marcus Rohrbach.2016.Multimodal compact bilinear pooling forvisual question.

发明内容

本发明的目的是提供采用多任务学习框架进行全新的深度学习网络设计以解决智能视觉问答中训练数据缺乏与回答原因不可知等两大问题的一种基于深度神经网络的智能视觉问答方法。

本发明包括以下步骤：

1、智能问答数据预处理；

2、图像深度卷积特征抽取；

3、文本问题深度特征抽取；

4、智能视觉问题处理；

5、基于枢纽通道的视觉智能问答。

在步骤1中，所述智能问答数据预处理的具体步骤可为：

(1)将所有图像尺度调整为448×448规格的分辨率；

(2)对所有训练数据中的文本内容进行去停用词处理，将所有英文词汇进行小写化；然后对文本内容进行分词，从中选取出现频率最高的8000个作为答案字典，并选取出现频率最高的20000个词汇作为图像描述词典。

在步骤2中，所述图像深度卷积特征抽取的具体步骤可为：

使用残差深度卷积网络对图像卷积特征进行处理，获取每张图像的特征地图，表示为F_I∈R^14×14×2048；此处14×14为图像的特征区域，2048表示为每个特征块的特征维度。

在步骤3中，所述文本问题深度特征抽取的具体步骤可为：

使用双向递归神经网络对问题特征进行抽取，双向递归神经网络中的处理单位为LSTM单位；用神经网络的每一方向传播所获得的最终隐层特征进行拼接获得最终问题内容的表征f_q，该特征表示为：

α＝Softmax(h_f||h_b).

其中，N表示为递归网络对每个问题处理的最大步数。

在步骤4中，所述智能视觉问题处理的具体步骤可为：

(1)视觉内容堵塞处理：由于一张图像的视觉表现内容丰富，为了让机器更加关注与问题相关的视觉内容从而提升问题回答的准确性，采取了视觉内容堵塞操作；在获取了图像的卷积特征地图F_I和问题特征f_q后，将两个模态的特征投影到相同的语义空间中，然后使用点乘的方式进行特征融合；随后使用Sigmoid激活函数对特征进行计算获取图像每个特征区域的权重值，并根据该权重值将卷积特征值进行更新获取内容过滤后的新特征F_a1：

F_a1＝A⊙F_I

(2)图像内容注意力机制操作：为了获取有效的图像特征，采用视觉注意力机制，根据所给定的文本内容锁定图像中最相关的视觉特征；在给定新的视觉卷积特征地图F_a1和问题特征f_q后，进行与步骤1相似的操作，获取图像精准视觉特征v_a2：

(3)图像内容推理操作：在获得了图像精准视觉特征后，再次根据问题内容采用注意力机制进行问题逻辑推理；用精准视觉特征v_a2和问题特征f_q进行融合，获得进行的任务背景信息特征f_j，用任务背景信息特征f_j与视觉卷积特征地图F_a1进行相互结合获取新的特征块权重值，然后加权获取最终的视觉特征v_a3；可用如下公式表示：

f_j＝σ(U_jf_q⊙V_jv_a2).

(4)多模态特征结合并分类：在获取最终的视觉特征v_a3和问题特征f_q后，用上述的语义映射方法将两种特征结合获得图像与问题的共同表征f_j,并将该特征输入一多层感知机，然后用Softmax方法对最后的特征进行答案预测；获得智能视觉通道下的预测答案。

在步骤5中，所述基于枢纽通道的视觉智能问答的具体步骤可为：

(1)基于问题内容的图像内容描述；

a)解析网络初始特征生产：在获取问题特征f_q和内容过滤后的视觉卷积特征地图F_a1后，使用单向的LSTM网络对相关的视觉内容进行解析，并生成模型问题作答的文本解释；使用v_a3特征生成LSTM网络的初始隐层特征

和初始背景特征

具体公式表示如下：

其中σ(·)为激活函数tanh；

b)图像内容描述生成：使用LSTM网络对特定的图像内容进行解析；在生成的每一步当中，网络的背景特征由图像特征F_a1、问题特征f_q和上一步网络的隐层特征

所决定,具体可由公式表示为：

将当前的隐层特征、背景特征、文字的嵌入特征和问题特征映射到同一空间中，并根据特征的当前信息进行加权结合，随后使用Softmax方法进行下一个单词的预测，具体公式可为：

β_q＝Sigmoid(W_qf_q),

β_c＝Sigmoid(W_cc_i),

β_e＝Sigmoid(W_ee_i-1),

w_i＝Softmax(W_sf_h).

(2)基于问题视觉描述内容的答案生成：在获取针对问题图像内容的描述后，将这些文字输入给一个双向的LSTM网络，获取最终的描述特征f_c；并将该特征与问题特征f_q进行映射融合，然后进行答案的预测，获取答案；可用公式表示为：

f_m＝σ(U_tf_q⊙V_tf_c)

本发明采用多任务学习框架进行全新的深度学习网络设计以解决智能视觉问答中训练数据缺乏与回答原因不可知等两大问题。具体而言，本发明设计了一新型的深度学习网络结构，该网络在进行智能视觉问答的同时能够对给出的答案进行原因说明。该网络结构包含了一新式的视觉描述模块，可以根据问题内容针对性地对图像内容进行描述。该网络结构采用了枢纽结构设计，能够将图像描述、文本问答等领域的数据引入到视觉智能问答任务中来。

附图说明

图1为模型示例图。在给定问题和图像后，模型进行问题回答并给出回答的依据。

图2为模型框架图。

图3为模型智能问答通道结构图。

图4为模型图像描述模块结构图。

图5为模型输出可视化效果案例。

具体实施方式

本发明实施例包括以下步骤：

一、智能问答数据预处理

1.1将所有图像尺度调整为448*448规格的分辨率。

1.2对所有训练数据中的文本内容进行去停用词处理，并将所有英文词汇进行小写化。然后对文本内容进行分词，并从中选取出现频率最高的8000个作为答案字典，并选取出现频率最高的20000个词汇作为图像描述词典。

二、图像深度卷积特征抽取

使用残差深度卷积网络对图像卷积特征进行处理，获取每张图像的特征地图，表示为F_I∈R^14×14×2048。此处14×14为图像的特征区域，2048表示为每个特征块的特征维度。

三、文本问题深度特征抽取

使用双向递归神经网络对问题特征进行抽取，起着递归网络中的处理单位为LSTM单位。用神经网络的每一方向传播所获得的最终隐层特征进行拼接获得最终问题内容的表征f_q，该特征表示为：

α＝Softmax(h_f||h_b).

其中，N表示为递归网络对每个问题处理的最大步数。

四、智能视觉问题处理通道

4.1视觉内容堵塞处理。由于一张图像的视觉表现内容丰富，为了让机器更加关注与问题相关的视觉内容从而提升问题回答的准确性，采取了视觉内容堵塞操作。具体而言，在获取了图像的卷积特征地图F_I和问题特征f_q后，将两个模态的特征投影到相同的语义空间中，然后使用点乘的方式进行特征融合。随后使用Sigmoid激活函数对特征进行计算获取图像每个特征区域的权重值，并根据该权重值将卷积特征值进行更新获取内容过滤后的新特征F_a1：

F_a1＝A⊙F_I,

4.2图像内容注意力机制操作。为了获取有效的图像特征，此处采用视觉注意力机制，根据所给定的文本内容锁定图像中最相关的视觉特征。具体而言，在给定新的视觉卷积特征地图F_a1和问题特征f_q后，进行与步骤1相似的操作，获取图像精准视觉特征v_a2：

4.3图像内容推理操作。在获得了图像精准视觉特征后，再次根据问题内容采用注意力机制进行问题逻辑推理。具体而言，用精准视觉特征v_a2和问题特征f_q进行融合，获得进行的任务背景信息特征f_j.然后用任务背景信息特征f_j与视觉卷积特征F_a1进行相互结合获取新的特征块权重值，然后加权获取最终的视觉特征v_a3，可用如下公式表示：

f_j＝σ(U_jf_q⊙V_jv_a2).

4.4多模态特征结合并分类。在获取最终的视觉特征v_a3和问题特征f_q后，用上诉的语义映射方法将两种特征结合获得图像与问题的共同表征f_j,并将该特征输入一多层感知机，然后用Softmax方法对最后的特征进行答案预测。获得智能视觉通道下的预测答案。

五、基于枢纽通道的视觉智能问答

5.1基于问题内容的图像内容描述。

5.1.1解析网络初始特征生产。在获取问题特征f_q和内容过滤后的视觉卷积特征地图F_a1后，使用单向的LSTM网络对相关的视觉内容进行解析，并生成模型问题作答的文本解释。具体而言，后面先使用v_a3特征生成LSTM网络的初始隐层特征

和初始背景特征

具体公式表示如下：

其中σ(·)为激活函数tanh。

5.1.2图像内容描述生成。随后使用LSTM网络对特定的图像内容进行解析。在生成的每一步当中，网络的背景特征由图像特征F_a1、问题特征f_q和上一步网络的隐层特征

所决定,具体可由公式表示为：

然后，将当前的隐层特征、背景特征、文字的嵌入特征和问题特征映射到同一空间中，并根据特征的当前信息进行加权结合，随后使用Softmax方法进行下一个单词的预测，具体可由公式表示为：

β_q＝Sigmoid(W_qf_q),

β_c＝Sigmoid(W_cc_i),

β_e＝Sigmoid(W_ee_i-1),

w_i＝Softmax(W_sf_h)

5.2基于问题视觉描述内容的答案生成。在获取针对问题图像内容的描述后，将这些文字输入给一个双向的LSTM网络，获取最终的描述特征f_c。并将该特征与问题特征f_q进行映射融合，然后进行答案的预测，获取答案，可用公式表示为：

f_m＝σ(U_tf_q⊙V_tf_c),

本发明的模型示例图见图1。在给定问题和图像后，模型进行问题回答并给出回答的依据。模型框架图见图2。模型智能问答通道结构图见图3。模型图像描述模块结构图见图4。模型输出可视化效果案例见图5。

模型在VQA数据集上与现有方法性能比较情况见表1。

表1

表2

模型在Visual7W数据集上与现有方法性能比较情况如表2。

Claims

1.一种基于深度神经网络的智能视觉问答方法，其特征在于包括以下步骤：

步骤1、智能问答数据预处理，具体步骤为：

(1)将所有图像尺度调整为448×448规格的分辨率；

(2)对所有训练数据中的文本内容进行去停用词处理，将所有英文词汇进行小写化；然后对文本内容进行分词，从中选取出现频率最高的8000个作为答案字典，并选取出现频率最高的20000个词汇作为图像描述词典；

步骤2、图像深度卷积特征抽取，具体步骤为：

使用残差深度卷积网络对图像卷积特征进行处理，获取每张图像的特征地图，表示为F_I∈R^14×14×2048；此处14×14为图像的特征区域，2048表示为每个特征块的特征维度；

步骤3、文本问题深度特征抽取，具体步骤为：

使用双向递归神经网络对问题特征进行抽取，双向递归神经网络中的处理单位为LSTM单位；用神经网络的每一方向传播所获得的最终隐层特征进行拼接获得最终问题内容的特征f_q，该特征表示为：

α＝Soft max(h_f||h_b)

其中，N表示为递归网络对每个问题处理的最大步数；

步骤4、智能视觉问题处理，具体步骤为：

F_a1＝A⊙F_I

(3)图像内容推理操作：在获得了图像精准视觉特征后，再次根据问题内容采用注意力机制进行问题逻辑推理；用精准视觉特征v_a2和问题特征f_q进行融合，获得进行的任务背景信息特征f_j，用任务背景信息特征f_j与视觉卷积特征地图F_a1进行相互结合获取新的特征块权重值，然后加权获取最终的视觉特征v_a3；用如下公式表示：