CN105938485B

CN105938485B - 一种基于卷积循环混合模型的图像描述方法

Info

Publication number: CN105938485B
Application number: CN201610231898.2A
Authority: CN
Inventors: 李玉鑑; 丁勇; 刘兆英
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2016-04-14
Filing date: 2016-04-14
Publication date: 2019-06-14
Anticipated expiration: 2036-04-14
Also published as: CN105938485A

Abstract

本发明公开了一种基于卷积循环混合模型的图像描述方法，属于机器学习中的深度学习领域；对于文本描述而言由于句子中词具有很强的上下文关系，因此可以用一种语言模型来对文本数据进行编码。具体步骤包括：(1)提取图像特征；(2)对图像特征编码；(3)对图像描述文本编码；(4)对模型进行训练；(5)利用训练模型生成图像的文本描述。本发明在机器视觉和自然语言处理具有广泛的应用，在图像描述方法方面提出了新的思路和解决方法。目前在图像描述中，对文本的编码是随机生成的，具有一定的盲目性，而且效果也不好。而本发明利用word2Vec对文本进行编码，解决了图像描述中对描述文本的编码问题，弥补了其随机性、盲目性和不稳定性的缺陷。大大提高了图像描述的应用能力，为机器视觉的发展奠定了基础。

Description

一种基于卷积循环混合模型的图像描述方法

技术领域

本发明属于机器学习中的深度学习部分。具体内容是应用在计算机视觉，自然语言处理和图像描述等领域中的方法。

背景技术

随着互联网规模和数字信息资源的增长，信息数量呈现几何级数激增，信息服务领域面临“信息丰富，但有用信息获取困难”的窘境。尤其是进入21世纪以来，数字图像资源以指数的形式增长，导致用户在海量图像库中进行图像检索中遇到了很大的困难，使得有用的图像在海量图像中无法在有效的时间内被正确的检索出来。在ILSVRC2012中，AlexKrizhevsky提出了有一种五层的神经网络简称为AlexNet，这个网络非常复杂有6千万个参数，最后AlexNet赢得了比赛的第一名。在2014年，google也加入进来了，它通过增加模型的层数(总共22层)，让深度更深，并且运用multi-scale data训练，取得了第一名。百度最近通过更加“粗暴”的模型，在GoogleNet的基础上，又提升了10％。在机器视觉方面，人们用来解决问题模型似乎是越来越复杂，这些复杂的模型必须得到超豪华的硬件支持。快速的浏览一张图像足以让人们描述出大量的视觉信息。但是这种非凡的能力被证明在我们视觉模型中一个难以实现的任务。之前大多数的视觉识别一直侧重于在一个固定的领域标注图像并取得了很大的发展，虽然这种方法能简化视觉识别的模型，但对于实际情况仍有很大的局限性。

在图像描述方面已经出现了很多的方法，然而这些模型往往依赖一些硬编码的视觉概念和一些规则化的模板，这种方法的局限性是对于比较复杂的场景只能描述个大概，无法把内容完整的描述出来。

发明内容

一种基于卷积循环混合模型的图像描述方法，其特征在于用文本语言描述图像内容上，在描述内容的准确性上有很好的效果，具体步骤如下：

步骤1、对图像进行编码，具体步骤如下：

步骤1.1、用卷积神经网络对图像进行特征提取，所采用的VGG网络结构，该网络在ImageNet数据集上进行参数学习；输入一张训练图像I_t，经过网络进行特征提取，最后得到一个大小为4096的特征向量F_t；

步骤1.2、通过一个4096*256的映射矩阵W_e对提取的特征向量F_t进行编码，编码后得到一个大小为256的向量v：

v＝F_t ^TW_e+b_m (1)

其中W_e是一个映射矩阵，b_m是偏置，都是需要学习的参数。

步骤2、对文本进行编码，计算机无法处理文本数据，必须先将文本编码成计算机能识别的数据；在编码文本数据所用的方法是Word2Vec，该方法是一个深度学习模型，能够将一个词映射到一个向量空间，通过计算向量空间上的相似度表示文本语义上的相似度，具体步骤如下：

步骤2.1、对原始数据集中的描述文本进行低频处理，选取词频大于等于5的词，去除低频词汇，处理后的语料库为C，大小为2537；

步骤2.2、对词库C里面的每个词按照词频构建Haffman树，叶子结点表示语料中的词，非叶子结点只做辅助，并非是真实的结点，都标记为0或者1，左边标为1，右边标为0，在本发明专利中表示的是一个逻辑回归函数；

步骤2.3、根据构建好的Haffman树计算词的概率，具体如下：

其中，w表示语料库中的词；l^w表示词w所在的层数；表示词w在j层的取值；V_w表示词w的向量估计值；表示词w在第j层的参数估计；

步骤2.4、最大似然估计模型参数，具体如下：

P(context(w))≈P(w) (4)

其中，context(w)表示词w的上下文信息，即w前window个词和后window个词，但不包括词w，在实现过程中window＝5；函数Γ是要优化的目标函数，为了方便求梯度，令：

θ的梯度计算：

V的梯度计算：

在Word2Vec的实现过程中，对于词向量V_w的更新，先从根到词w更新所有参数后，再更新context(w)中每一个词的向量：

其中，u∈context(w)，α为学习率；

步骤2.5、经过步骤2.4以后，可以得到词库C中每个词w∈C的词向量V_w，在实现过程中V_w的是256维的向量；

步骤3、生成图像的文本描述模型，本发明采用的是一个多模型的长短时记忆循环神经网络具体方法如下：

步骤3.1、对图像的文本描述进行预处理，包括两个方面：

步骤3.1.1对文本描述做低频处理，在实现过程中个选择频率大于等于5的词，处理后词库中词的的个数为2537；

步骤3.1.2对低频处理后大小为2537，中的词创建索引，第一个词的索引为1，最后一个词的索引为2537，除此以外增加了一个索引0表示句子的开头和结尾标注，一共2538个索引；

步骤3.1.3对词库中的所有词按照索引构建一个大小为2538*256的矩阵W_e，矩阵中的第i行对应着索引为i的词；

步骤3.2、向前传播过程，给定一个包含N个词的图像文本描述X，先通过词索引将词转化为一个大小为N+1的索引向量，向量的第一个元素为0表示句子的开始，索引向量通过查找词编码矩阵W_e，得到一个(N+1)*D的词特征矩阵，连同图像编码向量一起作为长短时记忆网络的输入，该网络是一个三层网络，输入层大小为256个神经元；隐含层，大小为256个神经元；输出层，大小为2538个神经元；具体过程如下，其中1≤t≤N+1：

y_t＝σ(W_ohh_t+b_d) (11)

其中，为激活函数；i,f,o,c分别表示长短时记忆网络结构中的输入门、遗忘门、输出门、记忆细胞，他们和隐含层具有相同的维度；x_t是大小为(N+1)*D词特征矩阵的第t行；W_xi是输入到输入门权值；W_hi是上一时刻隐含层到输入门的权值；W_ci是上一时刻记忆细胞到输入门的权值；b_i是当前时刻输入门偏置；W_xf是输入到遗忘门的权值；W_hf是上一时刻遗忘门到当前时刻遗忘门的权值；W_cf是上一时刻记忆细胞到遗忘门的权值；b_f是当前时刻遗忘门偏置；W_xc是输入到记忆细胞的权值；W_hc是上一时刻隐含层到当前时刻记忆细胞的权值；b_c是当前时刻记忆细胞的偏置；W_xo是输入到输出门的权值；W_ho是上一时刻输出门到当前时刻输出门的权值；W_co是当前时刻记忆细胞到输出门之间的权值；b_o是当前时刻输出门的偏置；W_oh是隐含层到输出层的权值；b_d是输出层的偏置；一个(N+1)*D的训练样本经过前向过程得到一个Y＝(N+1)*T的输出，在这里T的大小是2538，每一列元素表示词库中每个词出现的概率；

步骤3.3、计算残差，将输入的文本X通过词索引将词转化为一个大小为N+1的索引向量IL，该向量的最后一个元素为0表示句子的结束；通过3.1的前向计算得到的矩阵Y与对索引向量IL词对应的的标签矩阵相减，每个词的标签是one-hot形式表示的一维向量，第t(1≤t≤N+1)个词对应的索引位置取值为1，其他都为0；训练样本的第t个词经过前向传播得到的输出Y_t，训练样本中第t个词的索引为i，IL向量第t个词的索引j，残差表达式如下：

其中下标ti，表示训练样本中第t个词出现的索引序号i；得到每个句子的残差以后开始反向学习，计算模型中参数的梯度；

步骤3.4、反向计算过程，利用步骤3.2中残差计算模型中参数的梯度，计算公式，并利用随机梯度下降法对参数进行优化；

步骤3.5、不断的重复步骤3.1、3.2、3.3，实现模型参数优化，迭代次数为15000；

步骤4、利用训练好的模型生成图像描述，读取测试图像，将测试图像先提取特征然后编码，将编码后的图像输入到步骤3.2，得到图像描述。

本发明与现有技术相比，具有以下明细优势和有益效果：

本发明在机器视觉和自然语言处理具有广泛的应用，在图像描述方法方面提出了新的思路和解决方法。目前在图像描述中，对文本的编码是随机生成的，具有一定的盲目性，而且效果也不好。而本发明恰恰解决了图像描述中对描述文本的编码问题，弥补了其随机性、盲目性和不稳定性的缺陷。利用Word2Vec对文本进行编码，大大提高了图像描述的应用能力，为机器视觉的发展奠定了基础。

附图说明

图1为算法流程图

图2为模型困惑度对比图

图3为模型Bleu-1对比图

图4为模型Bleu-2对比图

图5为模型Bleu-3对比图

图6为模型Bleu-4对比图

图7为部分实例在本发明模型的实验结果

图8为部分实例在两种模型中的实验对比

具体实施方式

下面结合附图及具体实施案例对本发明作进一步的描述。

应用在机器视觉和自然语言处理中的图像描述方法流程图。如图1所示。

其特征在于包括以下步骤：

步骤1、对图像进行编码，具体步骤如下：

v＝F_t ^TW_e+b_m (1)

其中W_e是一个映射矩阵，b_m是偏置，都是需要学习的参数。

步骤2、对文本进行编码，计算机无法处理文本数据，必须先将文本编码成计算机能识别的数据；本发明在编码文本数据所用的方法是Word2Vec，该方法是一个深度学习模型，可以将一个词映射到一个向量空间，通过计算向量空间上的相似度表示文本语义上的相似度，具体步骤如下：

步骤2.3、根据构建好的Haffman树计算词的概率，具体如下：

其中，w表示语料库中的词；l^w表示词w所在的层数；表示词w在

j层的取值；V_w表示词w的向量估计值；表示词w在第j层的参数估计；

步骤2.4、最大似然估计模型参数，具体如下：

P(context(w))≈P(w) (4)

θ的梯度计算：

V的梯度计算：

其中，u∈context(w)，α为学习率；

步骤3.1、对图像的文本描述进行预处理，包括两个方面：

y_t＝σ(W_ohh_t+b_d) (11)

下面给出一个本发明设计应用在flickr8k数据集的实例。

实例采用的数据集是flickr8k数据集，该数据集在图像描述领域中有广泛的应用，被众多的研究者给认可。其中训练集有6000张图片，每个图片有五种标准的文本表达。1000个测试集和1000个验证集。

利用本模型在flickr8k数据集上的实验，生成图像描述，部分实验结果如图7所示。

本实例分别采用两种模型在flickr8k数据集上对比实验，在试验迭代过程中，会不断的用验证集去验证当前模型，如果当前模型满足一定条件，就视为有用模型。Word2Vec对文本编码的模型产生的有用模型是20个，随机编码的模型产生的有用模型为15个。

1对比两种模型的困惑度，实验结果如图1：

2，对比两种模型在测试集上的效果，比较Bleu得分，图2是两个模型Bleu-1得分对比图，图3是Bleu-2对比图，图4是Bleu-3对比图，图5是Bleu-4对比图。

3，对比两种模型生成图像描述结果，如图8：

Word2Vec编码文本生成的描述：

aman in ablack shirt and glasses is holding a camera

随机对文本编码生成的描述：

aman in ablack shirt and awoman in ablack shirt

从以上实验可以看出，用word2Vec对文本进行编码在flickr8k数据集的效果明显优于随机编码的。

以上实例仅用于说明本发明，而非限制本发明所描述的技术方案。因此，一切不脱离本发明精神和范围的技术方案及其改进，均应涵盖在本发明的权利要求范围中。

Claims

1.一种基于卷积循环混合模型的图像描述方法，其特征在于：用文本语言描述图像内容上，具体步骤如下，

步骤1、对图像进行编码，具体步骤如下：

步骤1.1、用卷积神经网络对图像进行特征提取，该网络在ImageNet数据集上进行参数学习；输入一张训练图像I_t，经过网络进行特征提取，最后得到一个大小为4096的特征向量F_t；

v＝F_t ^TW_e+b_m (1)

其中W_e是一个映射矩阵，b_m是偏置，都是需要学习的参数；

步骤2.2、对词库C里面的每个词按照词频构建Haffman树，叶子结点表示语料中的词，非叶子结点只做辅助，并非是真实的结点，都标记为0或者1，左边标为1，右边标为0，表示的是一个逻辑回归函数；

步骤2.3、根据构建好的Haffman树计算词的概率，具体如下：

步骤2.4、最大似然估计模型参数，具体如下：

P(context(w))≈P(w) (4)

θ的梯度计算：

V的梯度计算：

其中，u∈context(w)，α为学习率；

步骤3、生成图像的文本描述模型，采用的是一个多模型的长短时记忆循环神经网络具体方法如下：

步骤3.1、对图像的文本描述进行预处理，包括两个方面：

步骤3.1.3对词库中的所有词按照索引构建一个大小为2538*256的映射矩阵W_e，矩阵中的第i行对应着索引为i的词；

步骤3.2、向前传播过程，给定一个包含N个词的图像文本描述X，先通过词索引将词转化为一个大小为N+1的索引向量，向量的第一个元素为0表示句子的开始，索引向量通过查找词编码的映射矩阵W_e，得到一个(N+1)*D的词特征矩阵，连同图像编码向量一起作为长短时记忆网络的输入，该网络是一个三层网络，输入层大小为256个神经元；隐含层，大小为256个神经元；输出层，大小为2538个神经元；具体过程如下，其中1≤t≤N+1：

y_t＝σ(W_ohh_t+b_d) (11)

其中，为激活函数；i,f,o,c分别表示长短时记忆网络结构中的输入门、遗忘门、输出门、记忆细胞，它们和隐含层具有相同的维度；x_t是大小为(N+1)*D词特征矩阵的第t行；W_xi是输入到输入门权值；W_hi是上一时刻隐含层到输入门的权值；W_ci是上一时刻记忆细胞到输入门的权值；b_i是当前时刻输入门偏置；W_xf是输入到遗忘门的权值；W_hf是上一时刻遗忘门到当前时刻遗忘门的权值；W_cf是上一时刻记忆细胞到遗忘门的权值；b_f是当前时刻遗忘门偏置；W_xc是输入到记忆细胞的权值；W_hc是上一时刻隐含层到当前时刻记忆细胞的权值；b_c是当前时刻记忆细胞的偏置；W_xo是输入到输出门的权值；W_ho是上一时刻输出门到当前时刻输出门的权值；W_co是当前时刻记忆细胞到输出门之间的权值；b_o是当前时刻输出门的偏置；W_oh是隐含层到输出层的权值；b_d是输出层的偏置；一个(N+1)*D的训练样本经过前向过程得到一个Y＝(N+1)*T的输出，在这里T的大小是2538，每一列元素表示词库中每个词出现的概率；

步骤3.3、计算残差，将输入的文本X通过词索引将词转化为一个大小为N+1的索引向量IL，该向量的最后一个元素为0表示句子的结束；通过步骤3.2的前向计算得到的矩阵Y与对索引向量IL词对应的的标签矩阵相减，每个词的标签是one-hot形式表示的一维向量，第t(1≤t≤N+1)个词对应的索引位置取值为1，其他都为0；训练样本的第t个词经过前向传播得到的输出Y_t，训练样本中第t个词的索引为i，IL向量第t个词的索引j，残差表达式如下：

步骤3.4、反向计算过程，利用步骤3.3中残差计算模型中参数的梯度，计算公式，并利用随机梯度下降法对参数进行优化；

步骤3.5、不断的重复步骤3.2、3.3、3.4，实现模型参数优化，迭代次数为15000；