CN111444968A

CN111444968A - 一种基于注意力融合的图像描述生成方法

Info

Publication number: CN111444968A
Application number: CN202010237438.7A
Authority: CN
Inventors: 徐立芳; 田朋; 莫宏伟; 姜来浩; 许贵亮; 杨帆
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-24

Abstract

本发明提供的是一种基于注意力融合的图像描述生成方法。使用ResNet‑101作为Faster R‑CNN特征提取网络，基于空间注意力和高层语义注意力融合的图像描述模型使用Faster R‑CNN作为编码器提取图像中物体和显著视觉区域的位置和名称，将目标对应的特征向量和名称分别作为空间注意力机制和高层语义注意力机制的输入，经过注意力模型整合处理后送入解码器，最终由解码器生成单词序列。本发明克服了直接划分图像得到的空间注意力不能准确地提取图像中目标对应特征的问题，提高图像描述的效果。

Description

一种基于注意力融合的图像描述生成方法

技术领域

本发明涉及的是一种语言处理技术和图像描述方法，具体涉及一种基于注意力融合的图像描述生成方法。

背景技术

图像描述是计算机视觉和自然语言处理领域交叉的研究课题，是人工智能中的研究热点，与图像分类、目标检测等图像理解任务不同，图像描述不仅要识别出图像中的目标，而且要理解目标之间的关系，并使用自然语言正确地表达出来，因此图像描述具有很大挑战性。图像描述在图像检索、人机交互以及智能监控等领域具有广阔的应用前景。近年来，图像描述是人工智能领域的一个研究热点，旨在让机器变得更智能，图像描述能够让机器像人一样看懂理解图像，从而实现基于视觉的人机交互，提高人与机器交流的效率。

发明内容

本发明的目的在于提供一种能准确地提取图像中目标对应特征，提高图像描述的准确率的基于注意力融合的图像描述生成方法。

本发明的目的是这样实现的：

使用ResNet-101作为Faster R-CNN特征提取网络，基于空间注意力和高层语义注意力融合的图像描述模型使用Faster R-CNN作为编码器提取图像中物体和显著视觉区域的位置和名称，将目标对应的特征向量和名称分别作为空间注意力机制和高层语义注意力机制的输入，经过注意力模型整合处理后送入解码器，最终由解码器生成单词序列。

本发明可以用如下步骤进行描述：

步骤1、Faster R-CNN物体检测模块作为编码器用于对输入的图像进行目标物体检测，并同时检测出图像中目标物体的位置和名词属性，将其分别作为高层语义注意力和空间注意力来同时指导单词序列的生成；

步骤2、使用Faster R-CNN模型对输入图像进行检测，对其输出使用非极大值抑制，并在其中筛选置信度大于0.3的目标作为注意力机制的输入；对于被检测到的目标物体，其空间位置对应在ResNet-101最后一层卷积层的特征图，将经过平均池化处理的图像特征向量作为空间注意机制的输入，其名称属性经过词嵌入表示为512维的名称属性向量作为高层语义注意力的输入；

步骤3、将ResNet-101最后一层卷积层的特征图进行平均池化处理后的图像全局特征向量作为编码器初始时刻时的输入，图像中目标对应的图像特征向量和名称属性向量经过注意力机制的分配在解码器生成单词的过程中来动态地指导单词序列的生成；

步骤4、Faster R-CNN同时检测提供空间注意力和高层语义注意力，在Faster R-CNN算法中，目标的名称属性是通过目标对应的图像特征信息经过推断得到的，目标对应的图像特征隐式地包含目标名称属性信息；

步骤5、使用的注意力模型根据选取目标对应的特征向量{v₁,v₂,...,v_n}、目标对应的名称属性向量{a₁,a₂,...,a_L}和解码器中长短期记忆网络上一时刻的隐藏状态h_i-1来决定当前时间选取的特征向量和名称属性向量的权重α_ij；

e_ij＝f_att(h_i-1,v_j,a_j) (1)

步骤6、使用区域提议网络训练真实区域边界框生成提议，将多个目标物体和对象区域提议进行集成生成图像描述的区域提议；

步骤7、依据当前时刻输入的视觉上下文信息z_i，将图像全局特征V分别通过两个独立的多层感知机计算得到长短期记忆网络的细胞单元状态和隐藏状态的初始值；

c₀＝f_init,c(V) (3)

h₀＝f_init,h(V) (4)

步骤8、根据前一时刻的输出y_i-1、前一时刻的隐藏状态h_i-1和视觉上下文z_i计算得到当前时刻的隐藏状态h_i；

h_i＝LSTM(y_i-1,h_i-1,z_i) (5)

步骤9、由当前时刻的隐藏状态、视觉上下文信息以及前一时刻的输出通过Softmax得到当前输出单词的概率分布；

p(y_i|z_i,y_i-1)＝softmax(Ey_i-1+L_hh_i+L_zz_i) (6)

步骤10、使用交叉熵损失函数进行训练，给定人工标注描述y^*，使用θ表示模型中的参数，交叉熵损失函数L(θ)的表达式为：

式中：

表示L2正则化项。

本发明为了解决直接划分图像得到的空间注意力不能准确地提取图像中目标对应的特征，所生成的图像描述准确率较低的问题，提供了一种基于注意力融合的图像描述生成方法。

本发明使用Faster R-CNN作为编码器对空间注意力机制进行改进，提高空间注意力机制的精度。使用融合空间注意力与高层语义注意力的注意力机制，在提取图像特征的同时检测出图像中目标物体的准确位置和名词属性，同时指导单词的生成。使用强化学习方法训练基于注意力融合的图像描述模型，提升模型在评价指标上的得分，提高模型的性能。

本发明使用目标检测网络Faster R-CNN作为图像描述模型的编码器，对空间注意力机制进行改进，提高空间注意力机制的精度。

本发明使用融合空间注意力与高层语义注意力的高层语义注意力机制，在提取图像特征的同时检测出图像中目标的准确位置和名词属性，同时指导单词的生成。

本发明使用强化学习方法训练基于注意力融合的图像描述模型，提升模型在评价指标上的得分，提高模型的性能。

上述基于注意力融合的图像描述生成方法的有益效果体现在：

1、本发明基于注意力融合的图像描述生成方法，提出基于多注意力融合的图像描述模型，使用Faster R-CNN作为图像描述模型的编码器，改进空间注意力机制，与直接划分图像得到的空间注意力相比，基于Faster R-CNN改进的空间注意力更精确，模型的描述效果更好。

2、Faster R-CNN作为图像描述模型的编码器，能够检测出图像中目标位置和名称，分别作为空间注意力和高层语义注意力，同时指导单词的生成，能够显著提升生成图像描述的效果。

3、在交叉熵训练方法的基础上，使用强化学习方法直接优化图像描述评价指标以进一步训练图像描述模型，显著提升基于注意融合的图像描述模型的效果。

附图说明

图1是本发明基于注意力融合的图像描述生成方法的原理示意图。

具体实施方式

下面结合附图举例对本发明作进一步详细描述。

参照图1，本实施方式所述的基于注意力融合的图像描述生成方法，主要包括Faster R-CNN物体检测模块、注意力机制模块和LSTM模块。

步骤一、Faster R-CNN物体检测模块作为编码器用于对输入的图像进行目标物体检测，并同时检测出图像中目标物体的准确位置和名词属性，将其分别作为高层语义注意力和空间注意力来同时指导单词序列的生成。

步骤二、使用Faster R-CNN模型对输入图像进行检测，对其输出使用非极大值抑制，并在其中筛选置信度大于0.3的目标作为注意力机制的输入。对于被检测到的目标物体，其空间位置对应在ResNet-101最后一层卷积层的特征图，经过平均池化处理后将图像特征向量作为空间注意机制的输入，其名称属性经过词嵌入表示为512维的名称属性向量作为高层语义注意力的输入。

步骤三、将ResNet-101最后一层卷积层的特征图进行平均池化处理后的图像全局特征向量作为编码器初始时刻时的输入，图像中目标对应的图像特征向量和名称属性向量经过注意力机制的分配在解码器生成单词的过程中来动态地指导单词序列的生成。

步骤四、Faster R-CNN同时提供检测空间注意力和高层语义注意力，在Faster R-CNN算法中，目标的名称属性是通过目标对应的图像特征信息经过推断得到的，目标对应的图像特征隐式地包含目标名称属性信息。

步骤污、使用的注意力模型根据选取目标对应的特征向量{v₁,v₂,...,v_n}、目标对应的名称属性向量{a₁,a₂,...,a_L}和解码器中长短期记忆网络上一时刻的隐藏状态h_i-1来决定当前时间选取的特征向量和名称属性向量的权重α_ij。

e_ij＝f_att(h_i-1,v_j,a_j) (1)

步骤六、注意机制模型f_att是一个多层感知机模型，其包含一个隐藏层，对其输出结果使用Softmax进行归一化，可以得到目标对应的特征向量在当前时刻i的权重分布，这些权重就表示描述模型对图像各目标的重视程度。

步骤七、依据当前时刻输入的视觉上下文信息z_i，将图像全局特征V分别通过两个独立的多层感知机计算得到长短期记忆网络的细胞单元状态和隐藏状态的初始值。

c₀＝f_init,c(V) (3)

h₀＝f_init,h(V) (4)

步骤八、根据前一时刻的输出y_i-1、前一时刻的隐藏状态h_i-1和视觉上下文z_i可以计算得到当前时刻的隐藏状态h_i。

h_i＝LSTM(y_i-1,h_i-1,z_i) (5)

步骤九、由当前时刻的隐藏状态、视觉上下文信息以及前一时刻的输出通过Softmax可以得到当前输出的单词的概率分布。

p(y_i|z_i,y_i-1)＝softmax(Ey_i-1+L_hh_i+L_zz_i) (6)

步骤十、使用交叉熵损失函数进行训练，给定人工标注描述y^*，使用θ表示模型中的参数，交叉熵损失函数L(θ)的表达式为：

式中：

表示L2正则化项，可以防止模型过拟合，加快模型收敛的速度。

本发明使用Faster R-CNN作为编码器在提取图像特征的同时可以检测出图像中目标的准确位置和名词属性，将其分别作为高层语义注意力和空间注意力来同时指导单词序列的生成。在使用交叉熵训练方法的基础上，使用强化学习方法直接优化图像描述评价指标对模型进行训练，提升基于注意力融合的图像描述模型的准确率。本发明不局限于上述最佳实施方式，任何人应该得知在本发明的启示下作出的结构变化或方法改进，凡是与本发明具有相同或相近的技术方案，均落入本发明的保护范围之内。

Claims

1.一种基于注意力融合的图像描述生成方法，其特征是：使用ResNet-101作为FasterR-CNN特征提取网络，基于空间注意力和高层语义注意力融合的图像描述模型使用FasterR-CNN作为编码器提取图像中物体和显著视觉区域的位置和名称，将目标对应的特征向量和名称分别作为空间注意力机制和高层语义注意力机制的输入，经过注意力模型整合处理后送入解码器，最终由解码器生成单词序列。

2.根据权利要求1所述的基于注意力融合的图像描述生成方法，其特征是：

e_ij＝f_att(h_i-1,v_j,a_j) (1)

c₀＝f_init,c(V) (3)

h₀＝f_init,h(V) (4)

h_i＝LSTM(y_i-1,h_i-1,z_i) (5)

p(y_i|z_i,y_i-1)＝softmax(Ey_i-1+L_hh_i+L_zz_i) (6)

式中：

表示L2正则化项。