CN106599198A

CN106599198A - 一种多级联结循环神经网络的图像描述方法

Info

Publication number: CN106599198A
Application number: CN201611155798.2A
Authority: CN
Inventors: 胡海峰; 吴捷; 张俊轩; 杨梁; 王伟轩
Original assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Current assignee: Sun Yat Sen University
Priority date: 2016-12-14
Filing date: 2016-12-14
Publication date: 2017-04-26
Anticipated expiration: 2036-12-14
Also published as: CN106599198B

Abstract

本发明提供一种多级联结循环神经网络的图像描述方法，该方法从标注语句训练集中构建属性词汇表，采用VGGNet模型作为CNN模型，采用带标签的数据集进行CNN的参数训练与调整，输入待描述的图像，得到语义属性预测概率，将图像送入CNN网络中提取出描述释义向量并计算出每个释义对应的权重，再根据释义向量以及其对应权重计算出上下文向量，将语义属性预测概率及上下文向量输入到多级联结的循环神经网络中，输出的结果的组合即为该图像的自然语言描述。

Description

一种多级联结循环神经网络的图像描述方法

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种多级联结循环神经网络的图像描述方法。

背景技术

目前科技与互联网的迅猛发展使得图像数据的数量大幅度地提升。同时，图像信息提取的需求也日益提高。而根据图像给出能够描述图像内容的自然语言语句已经计算机视觉领域一个研究热点。

由计算机视觉技术以及自然语言处理技术的发展，图像描述这个课题作为一个热点已经持续了几年，很多方法都被提出。例如：基于局部区域特征的方法，基于多模态递归神经网络的方法以及基于卷积神经网络(CNN)结合循环神经网络(RNN)的方法等。其中，基于CNN结合RNN的方法研究的成果最多，效果最好。然而，这些方法把图像输入CNN之后从CNN靠后的层中取出激活数据输入到RNN中，而忽略了图像的深层次的语义概念以及区域关注点信息。所以我们图像描述研究将针对基于图像高级语义及关注点机制的多级联结循环神经网络的图像描述方法以提取图像深层次的语义概念以及区域关注点信息。

基于CNN结合RNN的方法的主要思想是：首先将图像信息输入到卷积神经网络中，从卷积神经网络的靠后的层提取激活数据；接下来将这些数据输入到循环神经网络中，通过最小化损失函数来输出最有可能的图像描述。很多学者在这个基础上做出探索与改进。Mao等人提出了一种多重循环神经网络(m-RNN)来用于图像描述，网络通过一个由单词嵌入层，RNN网络输出层和CNN网络输出层组成的多模态层来提升输出准确度。Xu等人在语言模型部分用LSTM代替了传统的RNN，并且将图像的输入方式由每一个时间点输入改为了只在初始的时候输入一次，减小了噪音干扰，提升了输出效果。以上的方法都取得了不错的效果，但是现在的图像描述研究经常忽视了图像深层次的语义概念以及区域的关注点信息。而这些信息对于提高图像描述的输出准确率是有很大帮助的。

发明内容

本发明提供一种具有描述准确率高的多级联结循环神经网络的图像描述方法。

为了达到上述技术效果，本发明的技术方案如下：

一种多级联结循环神经网络的图像描述方法，包括以下步骤：

S1：从标注语句训练集中提取语义属性，构建属性词汇表；

S2：采用VGGNet模型作为CNN初始模型，采用单标签的ImageNet数据集进行CNN的参数预训练，然后再用多标签数据集MS COCO进行CNN参数的精细调整；

S3：输入待描述的图像，将其分割成不同的区域，输入到训练好的CNN中，将图像信息表达成高等级的语义信息，得到语义属性预测概率；

S4：将图像送入CNN网络中提取出描述不同区域的释义向量；

S5：根据前一步系统的隐变量的信息计算出每个释义对应的权重，再根据释义向量以及其对应权重计算出上下文向量；

S6：将语义属性预测概率及上下文向量输入到多级联结的循环神经网络中，输出的结果的组合即为该图像的自然语言描述。

进一步地，所述步骤S2中，将CNN最后一个全连接层的输出输入到一个256分类的softmax分类器中，然后最小化损失函数即可，其中，N代表训练样本数；y_ij＝[y_i1,y_i2,······,y_ic]是第i个图像对应的标签向量；p_ij＝[p_i1,p_i2,······,p_ic]是对应的预测向量。

进一步地，采用多尺度组合分组MCG算法将一张输入图像分割成不同的局部区域图片，再将这些图片送入步骤S2训练好的CNN中，采用最大池化算法得到语义属性预测概率V_att(I)。

进一步地，将图像送入VGGNet网络中，并从VGGNet的conv5_3层中取出描述不同区域的释义向量a_i。

进一步地，所述步骤S5中，根据前一步系统的隐变量的信息h_t-1可以计算出每个释义对应的权重α_i，再根据计算出上下文向量z_t。

进一步地，所述步骤S6中，别用x和p代表循环神经网络LSTM的输入与输出，t代表生成描述的自然语句的长度。则整个系统的具体过程如下：

S61：将语义属性预测概率送入第一个的LSTM中，并生成隐变量h_-1送入下一个LSTM中：x_-1＝W_eaV_att(I)，其中W_ea为属性权重矩阵；

S62：对于每一个时刻，将x_t和上一层隐变量信息h_t-1送入LSTM的计算单元，其中：x_t＝W_esZ_t，z_t为上下文向量，W_es为上下文向量嵌入矩阵；

S63：LSTM单元进行计算，得到图像描述的输出结果：p_t+1＝LSTM(x_t,h_t-1)，其中，函数LSTM(·)代表着长短时记忆单位中遗忘层，更新层，输出层的信息传递与计算。

与现有技术相比，本发明技术方案的有益效果是：

本发明公开一种多级联结循环神经网络的图像描述方法，该方法从标注语句训练集中构建属性词汇表，采用VGGNet模型作为CNN模型，采用带标签的数据集进行CNN的参数训练与调整，输入待描述的图像，得到语义属性预测概率，将图像送入CNN网络中提取出描述释义向量并计算出每个释义对应的权重，再根据释义向量以及其对应权重计算出上下文向量，将语义属性预测概率及上下文向量输入到多级联结的循环神经网络中，输出的结果的组合即为该图像的自然语言描述。本发明用不同的图像训练集对图像进行与训练与精确调整，训练结果更加准确；利用语义属性预测概率，挖掘图像深层次的信息；关注区域信息以及上下文内容的关系，跟好地反馈出图像信息；采用LSTM模型，结合语义属性预测概率和关注区域信息，提高了描述效果。

附图说明

图1本发明模型总体流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种多级联结循环神经网络的图像描述方法，包括以下步骤：

(1)从标注语句训练集中提取语义属性，构建属性词汇表。

(2)采用VGGNet模型作为CNN初始模型，采用单标签的ImageNet数据集进行CNN的参数预训练，然后再用多标签数据集MS COCO进行CNN参数的精细调整。

(3)输入待描述的图像，将其分割成不同的区域，输入到训练好的CNN中，将图像信息表达成高等级的语义信息，得到语义属性预测概率。

(4)将图像送入CNN网络中提取出描述不同区域的释义向量。

(5)根据前一步系统的隐变量的信息计算出每个释义对应的权重，再根据释义向量以及其对应权重计算出上下文向量。

(6)将语义属性预测概率及上下文向量输入到多级联结的循环神经网络中，输出的结果的组合即为该图像的自然语言描述。

进一步的，步骤(1)中的具体过程如下：使用最常用的单词来构建词汇表，这些单词可以是名词，动词或形容词，而且对复数以及词态不进行区分，最终得到了一个包括256个单词的属性词汇表。

步骤(2)中的具体过程如下：将CNN最后一个全连接层的输出输入到一个256分类的softmax分类器中，然后最小化损失函数即可，

其中，N代表训练样本数；y_ij＝[y_i1,y_i2,······,y_ic]是第i个图像对应的标签向量；p_ij＝[p_i1,p_i2,······,p_ic]是对应的预测向量。

步骤(3)中的具体过程如下：采用多尺度组合分组(MCG)算法将一张输入图像分割成不同的局部区域图片。再将这些图片送入步骤(2)训练好的CNN中，采用最大池化算法得到语义属性预测概率V_att(I)。

步骤(4)中的具体过程如下：将图像送入VGGNet网络中，并从VGGNet的conv5_3层中取出描述不同区域的释义向量a_i。

步骤(5)中的具体过程如下：根据前一步系统的隐变量的信息h_t-1可以计算出每个释义对应的权重α_i，再根据计算出上下文向量z_t。

步骤(6)中的具体过程如下：分别用x和p代表循环神经网络LSTM的输入与输出，t代表生成描述的自然语句的长度。则整个系统的具体过程如下：

(6-1)将语义属性预测概率送入第一个的LSTM中，并生成隐变量h_-1送入下一个LSTM中:x_-1＝W_eaV_att(I)，其中W_ea为属性权重矩阵。

(6-2)对于每一个时刻，将x_t和上一层隐变量信息h_t-1送入LSTM的计算单元，其中：x_t＝W_esZ_t，z_t为上下文向量，W_es为上下文向量嵌入矩阵。

(6-3)LSTM单元进行计算，得到图像描述的输出结果：p_t+1＝LSTM(x_t,h_t-1)。其中，函数LSTM(·)代表着长短时记忆单位中遗忘层，更新层，输出层的信息传递与计算。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种多级联结循环神经网络的图像描述方法，其特征在于，包括以下步骤：

S1：从标注语句训练集中提取语义属性，构建属性词汇表；

S4：将图像送入CNN网络中提取出描述不同区域的释义向量；

2.根据权利要求1所述的多级联结循环神经网络的图像描述方法，其特征在于，所述步骤S2中，将CNN最后一个全连接层的输出输入到一个256分类的softmax分类器中，然后最小化损失函数即可，其中，N代表训练样本数；y_ij＝[y_i1,y_i2,······,y_ic]是第i个图像对应的标签向量；p_ij＝[p_i1,p_i2,······,p_ic]是对应的预测向量。

3.根据权利要求2所述的多级联结循环神经网络的图像描述方法，其特征在于，所述步骤S3中，采用多尺度组合分组MCG算法将一张输入图像分割成不同的局部区域图片，再将这些图片送入步骤S2训练好的CNN中，采用最大池化算法得到语义属性预测概率V_att(I)。

4.根据权利要求3所述的多级联结循环神经网络的图像描述方法，其特征在于，所述步骤S4中，将图像送入VGGNet网络中，并从VGGNet的conv5_3层中取出描述不同区域的释义向量a_i。

5.根据权利要求4所述的多级联结循环神经网络的图像描述方法，其特征在于，所述步骤S5中，根据前一步系统的隐变量的信息h_t-1可以计算出每个释义对应的权重α_i，再根据计算出上下文向量z_t。

6.根据权利要求5所述的多级联结循环神经网络的图像描述方法，其特征在于，所述步骤S6中，别用x和p代表循环神经网络LSTM的输入与输出，t代表生成描述的自然语句的长度。则整个系统的具体过程如下：