CN111144553A

CN111144553A - 一种基于时空记忆注意力的图像描述方法

Info

Publication number: CN111144553A
Application number: CN201911384977.7A
Authority: CN
Inventors: 徐骋; 冀俊忠; 张晓丹
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-12-28
Filing date: 2019-12-28
Publication date: 2020-05-12
Anticipated expiration: 2039-12-28
Also published as: CN111144553B

Abstract

本发明公开了一种基于时空记忆注意力的图像描述方法，步骤(1)获取MS COCO图像描述数据集并预处理；步骤(2)构建编码器模型，对编码器模型进行预训练，完成MS COCO图像数据I的编码，得到图像特征V；步骤(3)构建解码器，对图像特征V进行解码；步骤(4)模型训练。本方法搭建的模型在原有的注意力模型中采用长短时记忆网络中门控制和记忆。相比较于传统的注意力模型，时空记忆注意力模型中新添加了一个记忆矩阵，用于动态地存储过去时刻注意力特征，并在在输入门、输出门、遗忘门的控制作用下不断自我更新，最终输出时序空间上相关的注意力特征。基于STMA模型，本方法不仅在图像关注的位置上更为准确，图像描述结果更加准确。

Description

一种基于时空记忆注意力的图像描述方法

技术领域

本发明属于计算机视觉和自然语言处理的交叉研究领域，具体地说，本发明设计了一种基于时空记忆注意力的图像描述方法。

背景技术

图像描述，简而言之就是用一句话描述图像中的主要内容，这需要机器有对图像内容的理解能力以及与人类相似的内容表达能力。图像描述是连接计算机视觉和自然语言处理两个研究领域的难题，确定图像中物体对象的存在、属性和关系已非易事，用合适的语句描述这些信息使这项任务变得更加困难。如何用流畅的语句，准确地描述图像中的内容是图像描述领域的研究目标。图像描述的研究与发展依赖于计算机视觉、自然语言处理技术的进步，也有助于带动计算机视觉、自然语言处理等相关领域的发展，更加有助于推动人工智能相关应用的实现，例如视觉障碍辅助、视觉语音导航、智能聊天机器人、幼儿教育以及医学报告自动生成等等。

最初的图像描述研究受限于计算能力、模型方法、数据大小等原因，对图像的描述范围进行了限定，直到最近才提出生成更加通用、实际的生活图像的描述。图像描述的早期工作主要沿着基于检索和基于模板两个研究方向，然而这两类方法通常利用训练数据集中的现有描述或依赖于语言结构模板来完成图像描述任务，导致图像描述不够灵活，描述质量在很大程度上受到了限制。近几年，由于计算机硬件计算能力的提高，数据量的爆发式增长，深度神经网络技术得到了发展，在计算机视觉、自然语言处理等研究领域表现出巨大的应用前景。强大的深度神经网络为视觉和语言建模提供了有效的解决方案，基于深度神经网络的编码器-解码器框架方法使图像描述取得了巨大的进步。

目前，基于编码器-解码器框架的方法一般先使用编码器模型提取图像中的特征，再由解码器模型从编码特征中逐步解码生成描述语句。这类方法通常先采用卷积神经网络(Convolutional Neural Network,CNN)作为编码器对图像进行特征编码，再使用循环神经网络(Recurrent Neural Network,RNN)对特征解码生成描述语句。其中，结合注意力模型的编码器-解码器图像描述方法也成为该类方法中的主流方法。注意力机制(AttentionMechanism)源于对人脑视觉的研究，由于信息处理的瓶颈，人脑会选择性地关注所有信息的一部分，同时忽略其他可见的信息。基于注意力机制构建的模型结构称为注意力模型，该模型的引入让解码器具有重点关注部分编码特征的能力，即关注原图像中的局部区域，促进了图像描述方法的巨大进步，但是目前引入的注意力模型中也存在着问题。

一般认为语言描述是一种时序表示，而目前图像描述方法在结合的注意力模型仅实现了对图像空间特征进行提取，忽视了语言表达中的时序性，即每一时刻注意力模型获得的注意力特征在时序上相互独立，这与人类观察事物的过程存在区别，直接造成注意力特征获取的不够准确，阻碍了图像描述效果的进一步提高。

发明内容

为了解决注意力模型在图像描述任务中时序上相互独立的问题，本发明公开了一种具有循环结构的时空记忆注意力模型(Spatio-temporal Memory Attention，STMA)，能够同时完成时间和空间上特征提取。该模型在原有的注意力模型中采用长短时记忆网络(Long Short-Term Memory,LSTM)中门控制和记忆的思想。相比较于传统的注意力模型，时空记忆注意力模型中新添加了一个记忆矩阵，用于动态地存储过去时刻注意力特征，并在在输入门、输出门、遗忘门的控制作用下不断自我更新，最终输出时序空间上相关的注意力特征。基于STMA模型，本发明提出了E-D-STMA(Encoder-Decoder Spatio-temporal MemoryAttention Model)图像描述方法，相比于Up-Down等传统注意力模型方法，本方法不仅在图像关注的位置上更为准确，图像描述结果更加准确。

本发明采用的技术方案为一种基于时空记忆注意力的图像描述方法，该方法包括如下步骤：

步骤(1)获取MS COCO图像描述数据集并预处理：

步骤(1.1)获取MS COCO图像描述数据集，包含图像数据I及其对应的标准描述数据

步骤(1.2)对MS COCO中的描述数据

进行预处理。

步骤(2)构建编码器模型，对编码器模型进行预训练，完成MS COCO图像数据I的编码，得到图像特征V：

步骤(2.1)采用深度卷积神经网络或目标检测模型构建编码器模型。

步骤(2.2)对构建好的编码器模型进行预训练。

步骤(2.3)将MS COCO图像数据I输入到编码器中，完成图像数据的分类或目标检测任务，使用编码器模型倒数第二层神经网络中的特征表示作为图像编码，最终得到编码后的图像特征V。

步骤(3)构建解码器，对图像特征V进行解码。解码器是一种三层的循环神经网络，包括两层LSTM模型和一层STMA模型，输入为图像特征V，输出为图像描述结果Y,Y＝{y₀,y₁,…，y_T},T为描述的最长时刻，即描述的最大长度：

步骤(3.1)构建第一层解码器LSTM。第一层解码器LSTM模型在t时刻的输入包括t时刻的词编码x_t(可由t-1时刻的解码器最终的输出y_t-1线性变换得到，初始为零向量)，图像的全局特征

(可由图像特征V平均池化得到)以及第三层解码器LSTM在t-1时刻的输出

在t时刻的输出为

步骤(3.2)构建第二层解码器STMA模型。第二层解码器STMA模型中的图像记忆矩阵

和输出向量

作为内部循环变量不断参与到模型的计算中，体现出模型在时序空间上的连续性。第二层解码器STMA模型在t时刻的输入包括图像特征V和第一层解码器LSTM在t时刻的输出

在t时刻的输出为

步骤(3.3)构建第三层解码器LSTM。第三层解码器LSTM模型在t时刻的输入包括第一层解码器LSTM的输出

和第二层解码器STMA的输出

在t时刻的输出为

步骤(3.4)解码器输出。对第三层解码器在t时刻的输出

进行线性变换与Softmax函数分类，得到最终整个解码器在t时刻的输出y_t，不同时刻的输出组成最后的产生的图像描述结果Y。

步骤(4)模型训练。基于产生的描述Y与标准的描述数据

计算交叉熵损失或者强化学习梯度损失，使用随机梯度下降算法对模型进行优化，得到最终模型。

附图说明

图1：MS COCO数据展示图。

图2：STMA模型结构图。

图3：E-D-STMA图像描述方法框架图。

图4：注意力图像对比图。

具体实施方式

下面以MS COCO图像描述数据集为例，说明本发明的具体实施步骤：

步骤(1)获取MS COCO图像描述数据集并预处理：

步骤(1.1)获取MS COCO图像描述数据集，其中包含图像数据I及其对应的标准描述数据

MS COCO数据集下载地址为http://cocodataset.org/#download，数据集共包含164062张图片，其中训练集、验证集和测试集大小分别为82783,40504和40775，除测试集外，每张图片还包含至少5句对应的标准描述作为标签，部分样例如图1所示。

步骤(1.2)对MS COCO中的描述数据

进行预处理。设置图像描述最大长度为16，将词频小于6的单词替换为“UNK”，减少少数噪声单词的干扰，最终数据中包含的单词数量为9487。

步骤(2.1)采用深度卷积神经网络或目标检测模型构建编码器模型。构建编码器模型，可以采用深度卷积神经网络，例如ResNet-101，也可以采用目标检测模型，例如RCNN、Faster RCNN等。

步骤(2.2)对构建好的编码器模型进行预训练。采用ImageNet、MS COCO等数据集，对编码器进行预训练，使其具有一定的分类或者目标检测能力。

步骤(2.3)把MS COCO图像数据I输入到编码器中，对图像数据进行分类或目标检测任务，使用编码器倒数第二层神经网络中的特征作为图像编码，编码后的图像特征记为V。公式表达为：

V＝Encoder(I)

步骤(3)构建解码器，对图像特征V进行解码。解码器是一种三层的循环神经网络，包括两层LSTM模型和一层STMA模型，输入为图像特征V，输出为图像描述结果Y,Y＝{y₀，y₁，…，y_T},T为描述的最长时刻，即描述的最大长度：

在t时刻的输出为

词编码x_t，图像的全局特征

的公式如下所示：

x_t＝W_xyy_t-1

其中x_t是对t-1时刻输出y_t-1的编码，

是对图像特征的平均池化。

步骤(3.2)构建第二层解码器STMA模型。时空记忆注意力模型(Spatio-temporalMemory Attention，STMA)包含五个重要部分，如图2：图像记忆矩阵、输入门、遗忘门、更新门和输出门，如图2所示。整个STMA模型的在t时刻的输入由第一层解码器LSTM输出

图像特征V、t-1时刻的图像记忆矩阵

以及t-1时刻的输出向量

组成，输出向量

作为t时刻的注意力模型的输出。模型中的图像记忆矩阵

和输出向量

作为内部循环变量不断参与到模型的计算中，体现出模型在时序空间上的连续性。

输入门和遗忘门均使用Sigmoid激活，值域为(0,1)，可以用于控制图像记忆矩阵的动态变化。输入门主要用于控制记忆矩阵对上一时刻输出

的接受程度；而遗忘门则主要用于控制记忆矩阵的遗忘程度。在输入门和遗忘门的共同作用下，记忆矩阵中动态存储着过去时刻所有的注意力特征，充分考虑到注意力特征的时序性，体现出时空记忆的特点。输入门和遗忘的公式如下所示：

其中i_t与f_t分别表示输入门向量与输出门向量，σ表示Sigmoid激活函数，tanh表示tanh激活函数，所有的W_**表示线性变换的参数。

更新门不是直接用于控制注意力矩阵的变化，而是产生新的注意力信息，在与输入门的共同作用下，实现注意力矩阵的动态更新。更新门与注意力矩阵变化公式如下所示：

其中

表示更新门产生的新注意力信息。

输出门控制整个时空记忆注意力模型的输出，采用与传统注意力模型相似的结构，不同之处在于添加了记忆矩阵，实现图像空间注意力的同时，保证了注意力特征间的时序性。输出门与模型最后输出的公式如下所示：

其中o_t表示输出门向量,Softmax为Softmax函数，用来产生注意力特征的概率。

和第二层解码器STMA的输出

在t时刻的输出为

步骤(3.4)解码器输出。对第三层解码器在t时刻的输出

进行线性变换与Softmax函数分类，得到最终整个解码器在t时刻的输出y_t，不同时刻的输出组成最后的产生的图像描述结果Y。解码器整体表达式如下所示：

步骤(4)模型训练：整个方法的框图如图3所示。可以基于交叉熵损失或者强化学习进行优化，两种损失函数的定义分别如下所示：

使用随机梯度下降算法，例如ADAM对整个方法进行优化，训练参数，得到最终的模型。

为了充分验证本方法的优越性，采用定量分析和定性分析两种评价方式。定量分析包含离线和在线两种，将其与Google NIC，gLSTM，m-RNN，Soft-Attention，Hard-Attention,Adaptive-Attention,SCA-CNN,SCST,ALT-ALTM,Up-Down等已有的方法进行了效果比较，使用BLEU,METEOR,ROUGE和CIDEr四个评价指标对结果进行了评价，这四种评价指标已经广泛应用于图像描述结果的定量评价中。定性分析采用可视化注意力区域的方式，主要与Up-Down方法的进行了对比。

首先对方法进行定量分析。离线测试采用Karpathy划分，将原有的训练集和验证集数据重新划分，生成113287张训练数据、5000张验证数据、5000张测试数据。在线方式则将本方法在原测试集上的结果提交到MS COCO测试服务器上。表1为离线测试结果，从表1可以看到，本发明所提出的方法在各项指标均取得了最好的效果。表一前三种方法GoogleNIC,gLSTM，m-RNN未结合注意力模型，在效果上均明显低于其他方法，体现了注意力模型在图像描述中的重要性。本发明所提出的时空记忆注意力模型相比较于其他的注意力模型在提取注意力特征时充分考虑了时序空间上的连续性，使得注意力特征会更加准确，图像描述效果提升明显，尤其CIDEr指标。表2和表3分别为MS COCO参考描述数量为5和40时的在线测试结果，与部分已公开的方法结果相比，本方法效果明显，在绝大部分指标上具有绝对优势，尤其CIDEr指标，相比较其它方法至少提升了5。

表1 MS COCO数据集上离线测试

方法	BLUE1	BLEU2	BLEU3	BLEU4	METTOR	ROUGLE	CIDER
								Google NIC	66.6	46.1	32.9	24.6	-	-	-
gLSTM	67.0	49.1	35.8	26.4	22.7	-	-
								m-RNN	67.0	49.0	35.0	25.0	-	-	-
Soft-Attention	70.7	49.2	34.4	24.3	23.9	-	-
								Hard-Attention	71.8	50.4	35.7	25.0	-	-	-
SCA-CNN	71.9	54.8	41.1	31.1	25.0	-	-
								Adaptive-Attention	73.4	56.6	41.8	30.4	25.7	-	102.9
SCST	-	-	-	31.3	26.0	54.3	101.3
								ALT-ALTM	75.1	59.0	45.7	35.5	27.4	55.9	110.7
Up-Down	79.7	63.9	49.3	37.4	27.7	57.7	123.2
								E-D-STMA	80.2	64.4	49.7	37.7	28.2	58.1	125.9

w

表2 MS COCO数据集上在线测试(c5)

表3 MS COCO数据集上在线测试(c40)

方法	BLUE1	BLEU2	BLEU3	BLEU4	METTOR	ROUGLE	CIDER
								Google NIC	89.5	80.2	69.4	58.7	34.6	68.2	94.6
m-RNN	89.0	79.8	68.7	57.5	32.5	66.6	93.5
								Hard-Attention	88.1	77.9	65.8	53.7	32.2	65.4	89.3
SCA-CNN	89.4	80.2	69.1	57.9	33.1	67.4	92.1
								Adaptive-Attention	92.0	84.5	74.4	63.7	35.9	70.5	105.9
ALT-ALTM	92.2	84.3	74.3	63.9	37.0	71.2	105.9
								SCST	93.7	86.0	75.9	64.5	35.5	70.7	116.7
Up-Down	95.2	88.8	79.4	68.5	36.7	72.4	120.5
								E-D-STMA	94.8	88.8	79.5	68.6	37.1	72.8	125.5

从上述评价指标定量评价来看，本发明提出结合时空记忆注意力模型的E-D-STMA方法具有很强的优越性。为了进行定性分析，我们通过可视化方法展示了注意力模型的在图像描述过程中所关注的区域，如图4所示。Up-Down模型描述语句较短，部分单词描述不够准确，描述质量整体上不如结合时空记忆注意力模型的E-D-STMA方法。第一列为原始图像，红色框标记出的是可以作为关注的区域；其余图像为产生单词描述时所对应的注意力图像，注意力图像中的区域越亮，表示该区域越受到关注。在前三个时刻，两种方法产生的描述一样，关注的图像区域也很相似。但是从第三个时刻开始，由于缺少注意力间时序空间上的联系，Up-Down方法中的关注点逐渐扩散，没有重点关注的区域，无良好顺序；E-D-STMA方法在描述刷牙动作时，始终保证手部为重点关注区域，而在描述房间信息时注意力区域自动转变为洗手间内的盥洗台等物体，逻辑顺序明显。

无论是定量评价中的离线测试和在线测试，还是定性分析中展示的注意力图像，本发明提出的E-D-STMA图像描述方法取得了较好的效果，体现时空记忆注意力模型的强大能力，在未来的实际应用中具有良好的应用前景。