CN107578062A

CN107578062A - 一种基于属性概率向量引导注意模式的图片描述方法

Info

Publication number: CN107578062A
Application number: CN201710714932.6A
Authority: CN
Inventors: 何小海; 何榜耕; 张�杰; 苏婕; 卿粼波; 吴晓红; 滕奇志
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2017-08-19
Filing date: 2017-08-19
Publication date: 2018-01-12

Abstract

本发明公开了基于属性概率向量引导注意模式的图片描述方法。包括以下步骤：输入图像通过全卷积神经网络得到特征图谱，再经过多实例学习算法层得到属性概率向量，对得到的属性概率向量选取一定阈值初始化长短时记忆单元LSTM隐藏状态c₀，h₀，通过属性概率向量对注意模式进行引导，并结合上一时刻描述语句LSTM的状态h_t‑1，在当前时刻注意模式关注特征图谱上的区域，生成当前需要关注的编码向量，描述语句LSTM根据当前编码向量输出当前时刻的输出状态h_t，当前时刻的输出状态即变成上一时刻的状态，重复之前操作直到完成描述语言的生成。本发明所述的基于属性概率向量引导注意模式的图片描述方法比其他方法效果明显提升，评价指标综合表现来说是较好的，基本能够胜任一般的图片描述需要。

Description

一种基于属性概率向量引导注意模式的图片描述方法

技术领域

本发明设计了一种基于属性概率向量引导注意模式的图片描述方法,涉及深度学习，计算机视觉技术领域。

背景技术

人类感知世界的一个重要特性是不会一次性对整个场景进行处理，而是会将注意力集中在视觉空间的某些部分上，从而获取需要的时间和地点信息，并且随着时间的推进，人类会根据不同固定点的信息来建立场景的内部表示用以指导未来的一系列认知及行动；由于部分场景相对于整个场景的简洁性，这种将‘有限’的脑力资源集中在感知部分重要场景上的机制，直接导致人类处理场景的复杂性降低，因为其可以使得人类一直将场景内感兴趣的对象放置在固定的中心位置，固定区域之外的视觉环境的无关特征被自然地淡化和忽略，这一机制被称为人类视觉注意模式。

由于视觉注意模式是人类进行视觉活动的主要机制，而计算机视觉是为了让计算机能够模仿人类视觉活动的学科，因此计算机视觉各分支问题不可避免的开始探索如何引入视觉注意模式，并在部分问题上已经取得了进展。

近来随着视觉注意模式在计算机视觉部分方面取得了有效的进展，在图片描述问题上也开始引入了视觉注意模式，虽然引入方法不尽相同，但其指导思想都是基于时间t时输出的描述词汇应当与图像的某一部分重点关联的假设。虽然目前基于注意模式的图片描述方法在效果上相比其它模型没有绝对优势，甚至比有些模型效果要差，但是随着对注意模式的不断探索和改进以及对获取编码矩阵方式的优化，基于注意模式的图片描述方法在效果上肯定会越来越好。

在基于注意模式的图片描述模型中，Xu等人提出的软注意模型(Soft Attention，Soft-ATT)是非常具有代表性的，但得到的图片描述结果依然不够准确。

发明内容

本发明为解决上述问题提供一种准确率较高的基于属性概率向量引导注意模式(Guiding MIL-ATT， gMIL-ATT)的图片描述方法。本发明通过对图片语义信息的引入方式的不断调整和优化，能取得更好的图片描述效果。

本发明通过以下技术方案来实现上述目的：

一种准确率较高的基于属性概率向量引导注意模式的图片描述方法，包括以下步骤：

(1)输入图像通过全卷积神经网络得到特征图谱，再经过多实例学习算法层得到属性概率向量。

(2)得到的属性概率向量选取一定阈值初始化长短时记忆单元LSTM隐藏状态c₀，h₀。

(3)通过属性概率向量对注意模式进行引导，并结合上一时刻描述语句LSTM的状态h_t-1，在当前时刻注意模式关注特征图谱上的区域，生成当前需要关注的编码向量。

(4)描述语句LSTM根据当前编码向量输出当前时刻的输出状态h_t。

(5)当前时刻的输出状态即变成上一时刻的状态，重复步骤三、四直到完成描述语言的生成。

附图说明

图1是使用属性概率向量初始化注意模式的示意图

图2是本发明t时刻引导部分原理框图

具体实施方式

下面结合附图对本发明作进一步说明：

图1使用属性概率向量初始化注意模式的示意图，包括以下步骤：

(2)得到的属性概率向量选取一定阈值初始化LSTM隐藏状态c₀，h₀。具体初始化方法定义如下：

c₀＝f(W_ini⊙V_att)

h₀＝f(W_ini⊙V_att)

在上式中，W_ini表示需要在训练中学习的参数，V_att代表属性概率向量，⊙代表对应矩阵相乘。

图2是本发明t时刻引导部分原理框图。引导部分由两个关键的LSTM构成，它们分别是属性概率特征LSTM和描述语句LSTM。在时刻t时，首先将上一时刻描述语句LSTM的状态与属性概率向量进行结合，并将结合后的值送入到属性概率特征LSTM中动态生成权重矩阵，再与特征图谱进行结合，而后生成当前需要关注的编码向量Z_t，描述语句LSTM根据当前编码向量输出当前时刻的输出状态h_t。

设属性概率向量为V_att，具体引导方法定义如下：

e_t＝F_att(h_t-1,V_att,a)

＝LSTM(W_vV_att⊙W_h1h_t-1)⊙W_aa⊙W_h2h_t-1

Z_t＝∑_iα_tia_i

其中，W_v、W_h1、W_h2和W_a均通过训练学习得到，⊙代表对应矩阵进行点乘；α_t＝{α_t1,α_t2,α_t3,...,α_tL}为权值，该权值会决定在已产生的词序列之后，产生下一个词时注意力应该重点放在图片哪一部分区域；a_i代表特征向量集合，Z_t代表根据注意模式动态求取的编码向量，其会被送入到LSTM中进行解码，解码计算公式如下：

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_t⊙tanh(c_t) 。

Claims

1.一种基于属性概率向量引导注意模式的图片描述方法，其特征在于包括以下步骤：

步骤一：输入图像通过全卷积神经网络得到特征图谱，再经过多实例学习算法层得到属性概率向量；

步骤二：对得到的属性概率向量选取一定阈值初始化长短时记忆单元LSTM隐藏状态c₀，h₀；

步骤三：通过属性概率向量对注意模式进行引导，并结合上一时刻描述语句LSTM的状态h_t-1，在当前时刻注意模式关注特征图谱上的区域，生成当前需要关注的编码向量；

步骤四：描述语句LSTM根据当前编码向量输出当前时刻的输出状态h_t；

步骤五：当前时刻的输出状态即变成上一时刻的状态，重复步骤三、四直到完成描述语言的生成。

2.权利要求2所述的属性概率向量，以实验得到的阈值0.2对模型中LSTM隐藏状态初始化，使得模型在一开始能获得图片的全局特征和所含属性信息,一般对特征图谱的各个子图谱进行加权平均的初始化方法只会模糊整个图谱的语义特征，而选取合适阈值的属性概率向量来初始化LSTM隐藏状态能够在突出图片重点语义信息的同时尽可能多的保留有效语义信息,具体初始化方法定义如下：

c₀＝f(W_ini⊙V_att)

h₀＝f(W_ini⊙V_att)

3.权利要求3所述的属性概率向量可以为t时刻的模型提供全局语义信息，h_t-1可以为模型提供上一个输出单词的信息，而特征图谱可以提供精确的图片局部语义信息，随着LSTM隐藏状态的更新以及注意模式对特征向量的动态选取，初始化的属性概率向量的作用会逐渐消失，通过使用属性概率向量对注意模型进行引导，能够在描述生成过程中保持图片全局语义信息的有效性和积极作用，设属性概率向量为V_att，具体引导方法定义如下：

e_t＝F_att(h_t-1,Vatt,a)

＝LSTM(W_vVatt⊙W_h1h_t-1)⊙W_aa⊙W_h2h_t-1

<mrow> <msub> <mi>&alpha;</mi> <mrow> <mi>t</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mrow> <mi>t</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mrow> <mi>t</mi> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

Z_t＝∑_iα_tia_i

W_v、W_h1、W_h2和W_a均通过训练学习得到，⊙代表对应矩阵进行点乘；α_t＝{α_t1,α_t2,α_t3,...,α_tL}为权；a_i代表特征向量集合，Z_t代表根据注意模式动态求取的编码向量。