CN106777125A

CN106777125A - 一种基于神经网络及图像关注点的图像描述生成方法

Info

Publication number: CN106777125A
Application number: CN201611169242.9A
Authority: CN
Inventors: 胡海峰; 杨梁; 王腾; 张俊轩; 王伟轩
Original assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Current assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Priority date: 2016-12-16
Filing date: 2016-12-16
Publication date: 2017-05-31
Anticipated expiration: 2036-12-16
Also published as: CN106777125B

Abstract

本发明提供一种基于神经网络及图像关注点的图像描述生成方法，该方法采用两层字嵌入结构，而不是原先的一层嵌入结构，这样更有效的学习字表达；图像的特征表达是直接作为m‑RNN模型的输入的，这样能充分利用循环层的容量，允许使用小维度的循环层；借助决策软关注机制，本发明将图像显著区域的关注度体现出来，并作为多模态层的一个输入。通过这个方式，有效地利用了目标或场景间的轻重关系，针对性地描绘图像的语义特性。

Description

一种基于神经网络及图像关注点的图像描述生成方法

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种基于神经网络及图像关注点的图像描述生成方法。

背景技术

获得文本级别的图像描述已经成为当前计算机视觉领域一个重要的研究课题，而在现实生活中，它有很多应用场景。比如早期的儿童教育，图像检索和盲人导航等。随着计算机视觉和自然语言处理技术的飞速发展，大量关于此课题的有效工作出现，其中很多是将它视为一个检索问题。研究者们通过学习一个节点嵌入层将文本句子和图像的特征投影至一个相同的语义空间中。这些方法通过从文本句子数据集中检索相似描述来生成图像描述，但是其缺乏能够产生有效结合目标和场景两者联系的图像描述。

而在图像描述的工作中，至今有很多方法的提出，但总结起来主要有三种思想：①借助字段与图像的目标或属性之间的联系，通过条件随机场或Markov随机场，例如Mitchell等人从语法上将句子描述拆分成几部分，每一部分和图像中的某个目标或属性相关。②在大数据集的支持下，检索相似的标准已标注图片，通过归纳和重组检索的标注来生成新的描述。例如Kuznetsova等人做的工作。③将文本描述和图像两个不一样的模态结合在一起，形成一个多模态空间，在此基础上学习一个关于文本句子和图像关系的概率密度，例如Srivastava&Salakhutdinov提出的Deep Boltzmann Machines。

而今好的成功案例，大都依靠循环神经网络(Recurrent Neural Networks，RNNs)来实现的，而这被证明有很强的上下文语义信息，循环神经网络已经在众多自然语言处理(Natural Language Processing,NLP)中取得了巨大成功以及广泛应用。RNNs引入了定向循环，能够处理那些输入之间前后关联的问题。这使得其很适合用于自然语言处理领域。而RNNs依赖于好的语义表达输入，对于图像理解领域，图像目标或属性间的关注度没法通过RNNs体现，且对于神经网络来说，是属于高维度的信息处理，计算复杂度高。

发明内容

本发明提供一种基于神经网络及图像关注点的图像描述生成方法，该方法有效地利用了目标或场景间的轻重关系，针对性地描绘图像的语义特性。

为了达到上述技术效果，本发明的技术方案如下：

一种基于神经网络及图像关注点的图像描述生成方法，包括以下步骤：

S1：构建每一时刻帧t的图像的多模态模型：

1)训练集中已标注图像的文本描述信息分成单个字集，用one-hot向量表示对应字，作为模型的文本模块的输入，并经过两个嵌入层投影至一个稠密字表达空间，成为具有语义的字表达向量W_t；

2)字表达向量用于循环卷积神经网络RNN某时刻帧t的输入进行循环卷积神经网络RNN计算，该时刻帧t的循环层激活R_t是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层R_t-1共同决定的；

3)已标注图像经过一个卷积神经网络CNN，并提取图像的L个显著特征；

4)图像的特征作为LSTM的输入，LSTM中的隐藏层信息采取一种决策‘soft’关注机制可以获得指定区域特征在全局图像的重要程度，其重要程度和其特征通过求期望可以算出包含区域关注信息的上下文向量；

5)将以上的字表达向量、循环层信息、图像特征和上下文向量通过转换矩阵投影至同一维度的多模态空间上并直接元素相加，再用元素比例双曲线正切函数激活，最后通过softmax层得到下一字的概率分布；

S2：对构建的模型进行训练：

整个模型的损失函数是对应图片的文本标注的混乱度，其等价于字集的平均对数似然值，对其使用标准梯度下降算法，通过反向传播算法学习模型参数。

进一步地，所述步骤1)中，用one-hot码对子集编码，相应位置置1，代表某一特定字，其余置0，通过两个嵌入层可以将one-hot码投影至一个稠密字表达空间，其能将字的句法和语义含义编码出来，语义相关的字可以通过计算两个稠密字向量的欧式距离找出，并且随机初始化字嵌入层有更好的效果。

进一步地，对于每一时刻帧的循环层R_t激活，是与当前时刻帧的字表达向量W_t和之前时刻帧t-1的循环层R_t-1共同决定的，首先将R_t-1到和W_t相同向量空间上，并将它们相加：

R_t＝f₁(U_r·R_t-1+W_t)

其中，f₁设置为ReLU，U_r是投影转换矩阵。

进一步地，步骤3)中，使用了AlexNet的7^th层的激活状态，从低阶卷积层中提取，从所有的特征向量中针对性地选取特征向量子集。

进一步地，步骤4)中，通过LSTM中隐藏层的信息，借助关注模型，得出相关关注区域的权重值，并用决策软机制计算出带有区域关注信息的上下文向量：

E_ti＝f_att(a_i,h_t-1)

其中f_att是基于先前隐藏状态h_t-1的多层感知机，a_i是图像i区域的特征向量，α_ti是t时刻帧和图像区域i关注度的权重值:

其中z_t是t时刻帧的上下文相关向量，是决策软机制，这里定义成如下式：

进一步地，步骤5)中，多模态层将以上信息整合在一起，具体过程如下：

M_t＝g₁(V_W·W_t+V_r·R_t+V_I·I+V_Z·Z_t)

其中V_W，V_r，V_I和V_Z分别是字表达向量、循环层激活、图像特征、上下文向量z_t的转换投影矩阵，g₁是元素比例双曲正切函数，M_t之后经过SoftMax层产生下一字的概率分布。

进一步地，步骤6)中，整个模型的训练采用对数似然损失函数，通过最小化损失函数，误差反向传播来更新模型参数，具体过程如下：

其中L是文本描述的句子长度—字的个数，PPL(W_1:L|I)是指定图像I和W_1:L下的句子混乱度，N_s和N分别是训练集中句子个数和字集中字个数，L_i是i^th句子长度，θ代表模型的参数。

与现有技术相比，本发明技术方案的有益效果是：

本发明方法采用两层字嵌入结构，而不是原先的一层嵌入结构，这样更有效的学习字表达；图像的特征表达是直接作为m-RNN模型的输入的，这样能充分利用循环层的容量，允许使用小维度的循环层；借助决策软关注机制，本发明将图像显著区域的关注度体现出来，并作为多模态层的一个输入。通过这个方式，有效地利用了目标或场景间的轻重关系，针对性地描绘图像的语义特性。

附图说明

图1为本发明的总体流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于神经网络及图像关注点的图像描述生成方法，包括以下步骤：

S1：构建每一时刻帧t的图像的多模态模型：

S2：对构建的模型进行训练：

步骤1)中，用one-hot码对子集编码，相应位置置1，代表某一特定字，其余置0，通过两个嵌入层可以将one-hot码投影至一个稠密字表达空间，其能将字的句法和语义含义编码出来，语义相关的字可以通过计算两个稠密字向量的欧式距离找出，并且随机初始化字嵌入层有更好的效果。

步骤2)中，对于每一时刻帧的循环层R_t激活，是与当前时刻帧的字表达向量W_t和之前时刻帧t-1的循环层R_t-1共同决定的，首先将R_t-1到和W_t相同向量空间上，并将它们相加：

R_t＝f₁(U_r·R_t-1+W_t)

其中，f₁设置为ReLU，U_r是投影转换矩阵。

步骤3)中，使用了AlexNet的7^th层的激活状态，从低阶卷积层中提取，从所有的特征向量中针对性地选取特征向量子集。

步骤4)中，通过LSTM中隐藏层的信息，借助关注模型，得出相关关注区域的权重值，并用决策软机制计算出带有区域关注信息的上下文向量：

E_ti＝f_att(a_i,h_t-1)

步骤5)中，多模态层将以上信息整合在一起，具体过程如下：

M_t＝g₁(V_W·W_t+V_r·R_t+V_I·I+V_Z·Z_t)

步骤6)中，整个模型的训练采用对数似然损失函数，通过最小化损失函数，误差反向传播来更新模型参数，具体过程如下：

其中L是文本描述的句子长度—字的个数，PPL(W_1:L|I)是指定图像I和W_1:L下的句子混乱度，N_s和N分别是训练集中句子个数和字集中字个数，L_i是i^th句子

长度，θ代表模型的参数。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于神经网络及图像关注点的图像描述生成方法，其特征在于，包括以下步骤：

S1：构建每一时刻帧t的图像的多模态模型：

S2：对构建的模型进行训练：

2.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法，其特征在于，所述步骤1)中，用one-hot码对子集编码，相应位置置1，代表某一特定字，其余置0，通过两个嵌入层可以将one-hot码投影至一个稠密字表达空间，其能将字的句法和语义含义编码出来，语义相关的字可以通过计算两个稠密字向量的欧式距离找出，并且随机初始化字嵌入层有更好的效果。

3.根据权利要求2所述的基于神经网络及图像关注点的图像描述生成方法，其特征在于，所述步骤2)中，对于每一时刻帧的循环层R_t激活，是与当前时刻帧的字表达向量W_t和之前时刻帧t-1的循环层R_t-1共同决定的，首先将R_t-1到和W_t相同向量空间上，并将它们相加：

R_t＝f₁(U_r·R_t-1+W_t)

其中，f₁设置为ReLU，U_r是投影转换矩阵。

4.根据权利要求3所述的基于神经网络及图像关注点的图像描述生成方法，其特征在于，所述步骤3)中，使用了AlexNet的7^th层的激活状态，从低阶卷积层中提取，从所有的特征向量中针对性地选取特征向量子集。

5.根据权利要求4所述的基于神经网络及图像关注点的图像描述生成方法，其特征在于，所述步骤4)中，通过LSTM中隐藏层的信息，借助关注模型，得出相关关注区域的权重值，并用决策软机制计算出带有区域关注信息的上下文向量：

E_ti＝f_att(a_i,h_t-1)

α_{t i} = \frac{\exp (E_{t i})}{Σ_{k = 1}^{L} \exp (E_{t i})}

z_{t} = Σ_{i}^{L} α_{t i} \cdot a_{i} .

6.根据权利要求5所述的基于神经网络及图像关注点的图像描述生成方法，其特征在于，所述步骤5)中，多模态层将以上信息整合在一起，具体过程如下：

M_t＝g₁(V_W·W_t+V_r·R_t+V_I·I+V_Z·Z_t)

7.根据权利要求6所述的基于神经网络及图像关注点的图像描述生成方法，其特征在于，所述步骤6)中，整个模型的训练采用对数似然损失函数，通过最小化损失函数，误差反向传播来更新模型参数，具体过程如下：

\log_{2} P P L (W_{1 : L} | I) = - \frac{1}{L} Σ_{n = 1}^{L} \log_{2} P (W_{n} | W_{1 : n - 1}, I)

C = \frac{1}{N} Σ_{i = 1}^{N_{s}} L_{i} \cdot \log_{2} P P L (W_{1 : L_{i}}^{(i)} | I^{(i)}) + λ_{θ} \cdot | | θ | |_{2}^{2}