CN112329794A

CN112329794A - 一种基于双重自注意力机制的图像描述方法

Info

Publication number: CN112329794A
Application number: CN202011235688.3A
Authority: CN
Inventors: 杨金福; 李智勇; 李明爱; 李亚萍
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-02-05
Anticipated expiration: 2040-11-06
Also published as: CN112329794B

Abstract

本发明公开了一种基于双重自注意力机制的图像描述网络，包括特征提取器、双重自注意力模块、解码器。其中，Faster R‑CNN网络作为特征提取器用于提取图像的重要特征。双重自注意力模块由两个自注意力分支组成，利用自注意力机制能够捕获长范围依赖关系的特性分别从空间和通道维度捕获特征的依赖性。解码器由两层LSTM构成，分别为注意层和语言层，注意层来预测生成当前词汇在图像上的注意力分布，语言层生成描述。本发明能自适应地将局部特征与全局相关性结合起来，从而获得图像的上下文信息，有利于生成更精确的描述，提高了描述语句的准确性。

Description

一种基于双重自注意力机制的图像描述方法

技术领域

本发明涉及图像识别领域，尤其涉及一种基于双重自注意力机制的图像描述方法，使机器理解图像内容并用自然语言来描述。

技术背景

随着科学技术的飞速发展，如何使计算机快速准确地理解图像内容，对计算机分析处理图像数据具有重要意义。图像描述技术已经成为理解图像内容一种重要的解决方案。近年来，图像描述在人工智能领域受到了广泛的关注，并且在视障辅助、人机交互等领域有着广泛的应用。而用自然语言表达图像内容是一项非常具有挑战性的任务。

现有的图像描述工作通常采用编码-解码架构，其中编码器为卷积神经网络(Convolutional Neural Network,CNN)，用于提取图像特征，解码器为递归神经网络(Recurrent Neural Network,RNN)用于生成描述，即根据视觉信息逐字构造图像描述。现有的研究已经取得了令人印象深刻的结果，但仍然存在较高的误识别问题。目前，研究者们为解决上述问题，通常针对生成端提出改进方案。例如2017年Dai,B.,Fidle,r S.,Urtasun,R.,Lin,D.:Towards Diverse and Natural Image Descriptions via aConditional GAN.In:Proceedings of the International Conference on ComputerVision,pp.2989-2998(2017)在条件生成对抗网络的基础上，提出了一个新的网络构架，同时学习两个网络。一个是用来生成描述的生成网络，另一个是用来评价生成句子是否和图像对应的评价网络，两个网络相互对抗，不断提高生成描述的准确性。2019年Fan,Z.,Wei,Z.,Wang,S.,Huang,X.:Bridging by Word:Image Grounded Vocabulary Constructionfor Visual Captioning.In:Proceedings of the 57th Annual Meeting of theAssociation for Computational Linguistics,pp.6514-6524(2019)通过构建语义词汇表的方式，限制生成单词的选择空间，以减少误识别问题。虽然上述方法利用对抗、词表限制等手段在一定程度上减少了误识别问题，但却忽视了图像本身所包含的上下文信息，这种做法会限制描述对图像的概括程度，即由于生成过程受限，导致生成的描述不足以完全概括图像内容。2020年Longteng Guo，Jing Liu，Xinxin Zhu，Peng Yao，Shichen Lu，Hanqing Lu,Normalized and Geometry-Aware Self-Attention Network for ImageCaptioning,CVPR(2020)提出了一种用于图像描述自注意力网络，该网络利用自注意力机制捕获图像中对象的空间几何关系，考虑了图像特征的空间特性，但忽略了图像特征的多通道特性。

发明内容

针对上述问题，本发明利用自注意力机制能够捕获长程依赖的特性，设计了用于图像描述的双重自注意力模型，目的在于提供一种基于双重自注意力机制的图像描述方法，以减少错误识别的问题。与现有方法不同，本发明注重对图像信息的挖掘，通过自注意力机制建立图像特征的内在关系，充分利用图像的上下文信息提高特征表达，从而减少错误识别的问题。

为了达到上述目的，本发明所采用的技术方案为提供一种基于双重自注意力机制的图像描述方法。考虑到图像特征具有空间和多通道特性，本发明从空间和通道两个维度捕获图像特征的依赖关系，利用图像的上下文信息增强特征表达，然后通过解码器逐步生成描述，解码器由两层长短期记忆网络(缩写为LSTM)构成，利用LSTM的循环特性每一时刻生成一个单词，直至生成终止符<end>结束循环。具体包括以下步骤：

1)利用Faster R-CNN提取输入图像的特征图

2)将步骤1)中得到的特征图输入至本发明的双重自注意力模型，通过空间分支和通道分支分别从空间和通道两个维度捕获特征的依赖关系，增强特征表达，从而得到新的特征图；

3)将步骤2)中得到的特征图输入至解码器的注意力层，解码器由两层LSTM构成，如图4所示，第一层LSTM为注意力层，第二层LSTM为生成层。注意力层用于预测t时刻在图像上的注意力分布，加权求和得到最终用于解码的特征向量C_t；

4)将步骤3)中的特征向量输入至解码器的第二层生成层，根据特征向量C_t以及注意力层t时刻输出的隐藏状态

预测出当前时刻的单词w_t。利用LSTM的循环特性重复步骤3)和步骤4)逐步生成单词，直至生成终止符<end>结束循环。描述语言由每一时刻生成的单词构成。

所述步骤1)中利用Faster R-CNN提取输入图像的特征，只选取所有类检测概率超过置信阈值的区域的特征，对于区域i,v_i表示该区域的卷积平均池化特征。

所述步骤2)中的双重自注意力模型，如图2所示，包括空间分支、通道分支、调节单元。自注意力机制可以被描述为一个查询(query)到一系列键(key)-值(value)对的映射，其中查询、键和值都是向量，输出为值的加权和，其中分配给每个值的权重由查询和键的相关性决定。本文中使用Q、K和V分别表示查询、键和值，并下角标S和C表示空间自注意力分支和通道自注意力分支。在本发明中使用点乘计算相关性。

空间分支工作过程如下：

空间自注意力分支将全局空间上下文信息编码到局部特征。如图3(a)所示，将步骤1)中得到特征

输入至三路1*1的卷积层中将通道数将为C/2，然后通过reshape函数分别对三路1*1卷积层的输出做矩阵变换，输出维度由C/2×H×W维变成C/2×N维，得到三个新的特征图

其中N＝H×W为像素数量。然后对

和

做矩阵乘法得到空间相关矩阵并将其输入至softmax函数得到空间注意力矩阵

可表示为：

S_ATT＝softmax(K_s ^TQ_s)

对

和

做矩阵乘法得到最后的输出

可表示为：

通道分支工作过程如下：

如图3(b)所示，通道自注意力分支用于建模各通道间的映射关系。将步骤1)中得到的图像特征

输入至三路1*1的卷积层，分别将通道数降为C/2，然后利用reshape函数分别对三路1*1卷积层的输出做矩阵变换，输出维度由C/2×H×W维变成C/2×N维，得到三个新的特征图

其中N＝H×W为像素数量。然后对

和

可表示为：

C_ATT＝softmax(Q_cK_c ^T)

对

和

做矩阵乘法得到最后的输出

可表示为：

调节单元

调节单元的作用是通过调节双重自注意力模型的输出系数α和β来融合两个自注意力支路的输出，以获得更好的特征表达。调整单元的输出可以表示为：

A_OUT＝αS_OUT+βC_OUT

其中α和β是可学习的标量，初始值为0，在网络训练的过程中逐渐学习到更优的输出系数。最后，双重自注意力模型应用了残差连接，该模块的输出可表示为：

D_OUT＝A_OUT+V＝(αS_OUT+βC_OUT)+V

所述步骤3)中解码器由两层LSTM构成，如图4所示，第一层LSTM为注意力层，第二层LSTM为生成层，在本方法中使用上标A和G区分注意力层与生成层的输入输出。如图4所示，注意力层t时刻的输入包括t-1时刻生成的单词w_t-1，双重自注意力模型的输出D_OUT，以及生成层t-1时刻输出的隐藏状态

公式表达如下：

A_t＝softmax(a_t)

C_t＝D_OUTsoftmax(a_t)

其中，W_w，

W_D和W_A是可学习参数，

表示向量拼接操作。注意力层t时刻的输入为

其输出为

表示注意力层在t时刻输出的隐藏状态。a_t表示在t时刻图像上注意力分布，由

和D_OUT计算而来。对a_t使用softmax进行指数归一化以产生注意力权重A_t。最终通过加权求和的方式得到特征向量C_t。

所述步骤4)中解码器的第二层为生成层，如图4所示，其输入包括t时刻注意力层得到的特征向量C_t以及注意力层输出的隐藏状态

可表示为：

生成层的输入为

其输出为

表示生成层在t时刻输出的隐藏状态。最后利用

预测当前时刻的单词。在每一时间步t，生成单词的条件概率分布如下式：

取概率最大的单词作为当前时刻的输出。其中w_1:t-1表示已生成的单词序列(w₁,w₂,...,w_t-1)。W_G和b均为待训练参数。

与现有方法相比，本发明的优势是，通过双重自注意力模型，能够有效捕获图像特征的长程依赖关系，增强特征表达。这为解码阶段提供了丰富的上下文信息，有利于生成更精确的描述，提高了描述语句的准确性。

附图说明

图1是本发明提供的一种基于双重自注意力机制的图像描述方法的流程图。

图2是双重自注意力模型结构图。

图3a是空间自注意力分支示意图。

图3b是通道自注意力分支示意图。

图4是解码器示意图。

图5a、5b是效果图。

具体实施方式

如图1所示，本发明提供一种基于双重自注意力机制的图像描述方法，包含以下步骤：

1)选择数据集并构建词库。选择MS COCO数据集训练网络，该数据集包括82783个训练图像，40504个验证图像和40775个测试图像，每个图像都包含人工标注的图像描述(ground truth)。统计数据集中所有人工标注的描述单词，词库由出现五次以上的单词以及开始/结束标志符<star>/<end>构成。

2)提取特征。利用Faster R-CNN算法提取输入图像的重要特征。Faster R-CNN是一种目标检测算法，在本实施列中只选取所有类检测概率超过置信阈值0.2的区域特征，对于区域i,v_i表示该区域的平均池化特征。

3)特征增强。将步骤1)中得到的特征图输入至双重自注意力模型，通过空间分支和通道分支分别从空间和通道两个维度捕获特征的依赖关系，增强特征表达，得到新的特征图。

在本实施例中，对于每幅图像，通过特征提取器能够得到特征

捕获空间依赖关系具体过程下：

如图3(a)所示，将V输入至三路1*1的卷积层中将通道数降为1024。然后对三路1*1卷积层的输出做reshape操作，将输出维度由1024×6×6维变成1024×36维完成矩阵变换，得到三个新的特征图

然后对

和

可表示为：

S_ATT＝softmax(K_s ^TQ_s)

对

和

做矩阵乘法得到最后的输出

可表示为：

捕获空间依赖关系具体过程下：

如图3(b)所示，将V输入至三个1*1的卷积层中将通道数将为1024。然后对三路1*1卷积层的输出做reshape操作，将输出维度由1024×6×6维变成1024×36维完成矩阵变换，得到三个新的特征图

然后对

和

可表示为：

C_ATT＝softmax(Q_cK_c ^T)

对

和

做矩阵乘法得到最后的输出

可表示为：

然后经调节单元将空间自注意力分支和通道自注意力分支的输出融合，如下式：

A_OUT＝αS_OUT+βC_OUT

其中输出系数α和β是可学习标量，初始值为0，在网络训练的过程中逐渐学习到更优的输出系数。

最后，双重自注意力模型应用了残差连接，该模块最终输出的特征图可表示为：

D_OUT＝A_OUT+V＝(αS_OUT+βC_OUT)+V

4)解码阶段。将步骤2)中得到的特征图输入至解码器的注意力层，如图4所示，所述的解码器由两层LSTM构成，第一层LSTM为注意力层。注意力层t时刻的输入包括t-1时刻生成的单词w_t-1，双重自注意力模型的输出D_OUT，以及生成层的t-1时刻的隐藏状态

且在t＝1时刻输入的单词为开始标志符<star>，生成层的隐藏状态初始化为0。预测生成当前词汇在图像上的注意力分布，公式表达如下：

A_t＝softmax(a_t)

C_t＝D_OUTsoftmax(a_t)

其中，W_w，W_c ^T，W_D和W_A是可学习参数，

表示向量拼接操作。注意力层t时刻的输入记为

其输出为

和D_OUT计算而来。对a_t使用softmax进行指数归一化以产生注意力权重。最终通过对D_OUT加权求和的方式得到上下文向量C_t。

将在注意力层中得到的特征向量C_t输入至解码器的生成层。如图4所示，该层输入包括t时刻注意力层的得到的特征向量C_t以及注意力层输出的隐藏状态

可表示为：

注意力层的输入为

其输出为

表示注意力层在t时刻输出的隐藏状态。最后利用生成层输出的隐藏状态

预测当前时刻的单词。在每一时间步t，生成当前单词的条件概率分布如下式：

取概率最大的单词作为当前时刻的输出。其中w_1:t-1表示已生成的单词序列(w₁,w₂,...,w_t-1)。5)损失函数：

通过最小化交叉熵损失函数训练网络，交叉熵损失函数能够表示模型预测的分布和真实分布之间的差异，差异越小交叉熵就越小。在本方法中，将每一个单词的预测过程看做是预测该单词在词库中的概率分布。所述交叉熵损失函数如下式：

其中，θ表示网络中待学习参数，

表示真实标注的描述中第t个单词，

表示真是标注的描述中的第1至t个单词，T表示真实标注的描述的单词数量。

表示生成层softmax函数输出的第t个单词的概率分布中，与真实标注的第t个单词得到的置信度。例如假设第一步构建的词库由三个单词构成[W1,W2,W3]，在t时刻生成层输出的概率分布为[0.3,0.1,0.6]，表示第t个单词是W1,W2,W3的概率分别为0.3,0.1,0.6。其真实分布为[0,0,1]，则预测第t个单词的置信度为0.6，即损失函数中取0.6计算。

实验结果表明本发明生成的描述更为准确。如图5a、b所示，Xu K,Ba J,Kiros R,et al.Show,Attend and Tell:Neural Image Caption Generation with VisualAttention[J].Computer Science,2015:2048-2057.的方法将第一幅图片中的“路”描述为“桥”，将第二副图片中的“面包”描述为“披萨”。两幅图像均出现了错误识别的问题。本发明能够准确的将第一幅图片描述为“一个年轻女子骑着自行车沿着海边的一条路走”，将第二幅图片描述为“一个女人站在一桌食物前”。

Claims

1.一种基于双重自注意力机制的图像描述方法，其特征在于，利用特征提取器提取图像的特征，然后通过双重自注意力模型捕获图像特征依赖关系，获得图像的上下文信息提高特征表达，然后通过解码器逐步生成描述，解码器由两层长短期记忆网络(缩写为LSTM)构成，利用LSTM的循环特性每一时刻生成一个单词，直至生成终止符<end>结束循环，描述语言由每一时刻生成的单词构成，具体包括以下步骤：

1)利用Faster R-CNN提取输入图像的特征图；

2)将步骤1)中得到的特征图输入至双重自注意力模型，通过空间分支和通道分支分别从空间和通道两个维度捕获特征的依赖关系，增强特征表达，从而得到新的特征图；

3)将步骤2)中得到的特征图输入至解码器的注意力层，所述的解码器由两层LSTM构成，第一层LSTM为注意力层，预测t时刻在输入图像上的注意力分布，加权求和得到最终用于解码的特征向量C_t；

4)将步骤3)中的特征向量输入至解码器的生成层，根据特征向量C_t以及注意力层t时刻输出的隐藏状态

预测出当前时刻的单词w_t；利用LSTM的循环特性重复步骤3)和步骤4)逐一生成单词，直至生成终止符<end>结束循环，描述语言由每一时刻生成单词构成。

2.根据权利要求1所述的一种基于双重自注意力机制的图像描述方法，其特征在于，所述步骤1)中利用目标检测算法Faster R-CNN提取输入图像的重要特征

只选取所有类检测概率超过置信阈值的区域的特征v_i，对于区域i,v_i表示该区域的平均池化特征。

3.根据权利要求1所述的一种基于双重自注意力机制的图像描述方法，其特征在于，所述步骤2)中的双重自注意力模型，包括空间分支、通道分支、调节单元；

空间分支工作过程如下：

将步骤1)中得到的特征

输入至三路1*1的卷积层中，分别将通道数降为C/2；然后对三路1*1卷积层的输出做矩阵变换，输出维度由C/2×H×W维变成C/2×N维，得到三个新的特征图表示为

其中N＝H×W为像素数量；然后对

和

做矩阵乘法得到空间相关矩阵，并将其输入至softmax函数得到空间注意力矩阵

可表示为：

S_ATT＝softmax(K_s ^TQ_s)

对

和

做矩阵乘法得到最后的输出

可表示为：

通道分支工作过程如下：

通道自注意力分支用于建模各通道间的映射关系，将步骤1)中得到的特征

输入至三路1*1的卷积层中，分别将通道数降为C/2，然后对三路1*1卷积层的输出做矩阵变换，输出维度由C/2×H×W维变成C/2×N维，得到三个新的特征图

其中N＝H×W为像素数量；然后对

和

可表示为：

C_ATT＝softmax(Q_cK_c ^T)

对

和

做矩阵乘法得到最后的输出

可表示为：

调节单元

调节单元的作用是通过调节双重自注意力模型的输出系数α和β来融合两个自注意力支路的输出，调整单元的输出表示为：

A_OUT＝αS_OUT+βC_OUT

其中α和β是可学习的标量，初始值为0，在网络训练的过程中逐渐学习到更优的输出系数；最后，双重自注意力模型应用了残差连接，所述双重自注意力模型的输出可表示为：

D_OUT＝A_OUT+V＝(αS_OUT+βC_OUT)+V

4.根据权利要求1所述的一种基于双重自注意力机制的图像描述方法，其特征在于，所述步骤3)中解码器由两层LSTM构成，第一层LSTM为注意力层，第二层LSTM为生成层，在本方法中使用上标A和G区分注意力层与生成层的输入输出；注意力层t时刻的输入包括t-1时刻生成的单词w_t-1，双重自注意力模型的输出D_OUT，以及生成层t-1时刻输出的隐藏状态