CN109271628A

CN109271628A - 一种图像描述生成方法

Info

Publication number: CN109271628A
Application number: CN201811021369.5A
Authority: CN
Inventors: 张悦; 王浩然
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2019-01-25

Abstract

本发明提供一种图像描述生成方法，包括如下步骤：S1：对MSCOCO数据集中的每一个图像分别标注用于描述该图像的语料；构建生僻词表；S2：对所有语料进行语料清洗；对清洗后的所有语料进行分词处理并对单词进行词向量化；S3：将MSCOCO数据集中的图像调整为相同尺寸后输入卷积神经网络，输出用于表达图像的特征的特征向量；S4：利用MSCOCO数据集中的图像对应的词向量和特征向量训练得到用于生成图像描述的长短时记忆网络模型；S5：将待描述图像输入步骤S3中所述卷积神经网络提取特征向量；S6：将步骤S5中提取的特征向量输入所述长短时记忆网络模型得到图像描述句子。本发明解决了现有技术不能用自然语言捕获和表达图像中各对象之间关系的问题。

Description

一种图像描述生成方法

技术领域

本发明涉及图像话题生成技术领域，具体而言，尤其涉及一种图像描述生成方法。

背景技术

近年来，随着人工智能领域的不断发展，计算机视觉这门学科的发展已经相当的成熟，各种图像相关的任务已经被解决并应用到实际生活中，而近几年随着深度学习的兴起，以机器翻译为代表的自然语言处理领域正在兴起，这两种学科的交叉运用使得图像描述生成任务受到很多关注。自动生成图像的描述，又称为图像的字幕生成问题，是场景理解的核心问题，该问题具有重要的实际应用，例如：帮助视障人士“看见”，帮助图像搜索，看图说话等等，都有着很好的应用前景。生成准确的图像自然语言描述是非常有意义的，它相当于将计算机视觉和自然语言处理结合起来，使模型拥有了模仿人类将大量显著的视觉信息压缩成描述性语言的卓越能力。同时，该问题是图像理解领域的一大挑战，是计算机视觉中的核心问题，它不仅需要模型足够强大，能够确定图像中的对象，而且模型还必须能够用自然语言捕获和表达对象间的关系。因此，图像描述问题一直被视为一个难题，正处于研究的初级阶段，有许多问题亟待解决。

发明内容

根据上述提出现有技术不能够用自然语言捕获和表达图像中各对象之间关系的技术问题，而提供一种图像描述生成方法。本发明主要利用提出的优化的卷积神经网络提取图像特征信息，并直接输入长短时记忆网络模型，从而起到简化了图像向量的生成以及模型的输入，不需动态再做调整的作用。

本发明采用的技术手段如下：

一种图像描述生成方法，包括如下步骤：

S1：对MSCOCO数据集中的每一个图像分别标注用于描述该图像的语料；统计所有语料中各单词的词频，将词频低于三的单词定义为生僻词，构建生僻词表；

S2：对所有语料进行语料清洗，包括断句，去掉标点符号、数字和特殊字符，根据生僻词表去掉生僻词，根据停用词表去掉停用词，以及词干化；

对清洗后的所有语料进行分词处理转化为单词，并通过Word2Vec编码方法对单词进行词向量化；

S3：将MSCOCO数据集中的图像调整为相同尺寸后输入卷积神经网络，输出用于表达图像的特征的特征向量；

其中，图像的特征包括图像的对象、颜色、边缘信息和纹理信息；

所述卷积神经网络包括通过快捷连接方式连接的残差模块：

y＝F(x，{W_i})+W_sx

其中，x和y是层次的输入和输出向量，函数F表示要学习的残差图；

所述残差模块加入了线性投影W，使输入x的维度与函数F的维度一致；

S4：利用MSCOCO数据集中的图像对应的词向量和特征向量训练得到用于生成图像描述的长短时记忆网络模型；

其中，所述长短时记忆网络模型的输入为经过卷积神经网络提取的特征向量，输出为生成的图像描述句子；

S5：将待描述图像输入步骤S3中所述卷积神经网络提取特征向量；

S6：将步骤S5中提取的特征向量输入所述长短时记忆网络模型得到图像描述句子。

进一步地，步骤S1中的所述语料包括五句话，所述语料的标注规则包括：描述场景中所有重要的部分；不要用“There is/are”来开始句子；不要描述不重要的细节；不要描述将来或过去可能发生的事情；不要描述一个人可能会说什么；不要给场景中的人一个名字；描述场景的每一句话至少包含8个英文单词。

进一步地，所述长短时记忆网络模型包括：

更新遗忘门输出：

f_t＝σ(W_fxx_t+W_fmm_t-1)

其中，f_t指t时刻遗忘门的输出；x_t指t时刻模型的输入，t＝0时输入的是图像的特征向量，从t＝1开始到结束，输入是上一个时间步的输出；

更新输入门的输出：

i_t＝σ(W_ixx_t+W_imm_t-1)

其中，i_t指t时刻输入门的输出；

更新细胞状态：

c_t＝f_tΘc_t-1+i_tΘh(W_cxx_t+W_cmm_t-1)

其中，c_t指t时刻细胞的状态；h指LSTM网络隐藏层输出状态；

更新输出门输出：

o_t＝σ(W_oxx_t+W_omm_t-1)

其中，o_t指激活函数；

模型中的W指经过模型训练得到的权重；

更新当前序列索引预测输出：

m_t＝o_tΘc_t

p_t-1＝Softmax(m_t)

其中，m_t指LSTM模型记忆的信息；p_t-1指输出的词向量的概率，取最大的作为输出的单词；

模型的目标函数为最大化目标描述的最大似然估计：

其中，θ^*指模型的参数；I指JPG格式的图像；S指图像描述句子。

较现有技术相比，本发明具有以下优点：

1、本发明提供的图像描述生成方法，通过提供一个端对端的网络系统，能够自动的观察一幅图像并且生成一个合理的描述。

2、本发明提供的图像描述生成方法，所使用的优化的卷积神经网络能产生输入图片的丰富表达。

3、本发明提供的图像描述生成方法，所使用的长短时记忆网络模型能够解决梯度消失等问题，并且其具有长期记忆功能。

综上，应用本发明的技术方案通过优化的卷积神经网络提取图像特征信息，并直接输入长短时记忆网络模型，实现了简化了图像向量的生成以及模型的输入，不需动态再做调整的作用。因此，本发明的技术方案解决了现有技术中不能用自然语言捕获和表达图像中各对象之间关系的问题。

基于上述理由本发明可在图像检索、辅助视觉障碍人士生活、开发辅助教学和写作文软件工具等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所述图像描述生成方法的流程图。

图2为MSCOCO数据集中图像示例。

图3为本发明所述卷积神经网络结构示意图。

图4为本发明所述残差模块结构示意图。

图5为本发明所述长短时记忆网络模型结构图。

图6为本发明实施例1所述待描述图像实例图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

如图1-5所示，本发明提供了一种图像描述生成方法，包括如下步骤：

其中，词干化指去除语料的时态和复数形式；分词处理过程为将语料以空格为界进行分词；词向量化表示通过Word2Vec编码方法将单词转化为向量；本发明所使用的停用词表如表1所示：

表1停用词表

所述卷积神经网络包括通过快捷连接方式连接的残差模块：

y＝F(x，{W_i})+W_sx

本发明使用MSCOCO官网上公开的著名数据集来做图像描述生成任务，COCO的全称是Common Objects in Context，是微软团队提供的一个可以用来进行图像识别，物体检测，关键点检测，场景描述等多任务的优秀数据集；COCO通过在Flickr上搜索80个对象类别和各种场景类型来收集图像，其使用了亚马逊的Mechanical Turk(AMT)；其中，本发明采用的可用于图像描述生成的训练集中有82783张图片，测试集中有40504张图片。

步骤S2中，对语料的清洗和词向量的预训练的最终目的是得到语料中每个单词对应的词向量；一般的词向量化方法是使用one-hot编码，它的优点是简单快捷，但是一旦单词表中的词数目庞大时，这种编码方式的就会变得非常低效，向量冗余，并且具有稀疏性的缺点，最重要的是，它无法表达出词与词之间相近程度和关系；本发明采用word2vec编码算法来对单词进行词向量化，word2vec是Google在2013年推出的一个NLP工具，它的特点是将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。

具体的，word2vec主要采用CBOW(Continuous Bag-of-Words Model，连续词袋)模型和Skip-Gram模型得到词向量，模型采用的方法一般是一个三层(或多层)的神经网络结构，分为输入层，隐藏层和输出层(softmax层)，模型分为CBOW和Skip-Gram两种算法。

本发明采用的是CBOW算法，CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量，而输出就是这特定的一个词的词向量；例如下面这段话："I lovereading books and papers about deep learning and never think that isboring."，上下文大小取值为4，需要输出词向量的单词是"Learning"，其上下文对应的词有8个，前后各4个，这8个词是模型的输入，由于CBOW使用的是词袋模型，因此这8个词都是平等的，也就是不考虑他们和"Learning"之间的距离大小，只要在上下文之内即可。

word2vec使用CBOW与Skip-Gram来训练模型与得到词向量，但是并没有使用传统的DNN模型，使用的数据结构是用霍夫曼树来代替隐藏层和输出层的神经元。霍夫曼树的叶子节点起到输出层神经元的作用，叶子节点的个数即为词汇表的小大，而内部节点则起到隐藏层神经元的作用，使用霍夫曼树的优点是一般得到霍夫曼树后对叶子节点进行霍夫曼编码，由于权重高的叶子节点越靠近根节点，而权重低的叶子节点会远离根节点，这样高权重节点编码值较短，而低权重值编码值较长，保证的树的带权路径最短，也符合信息论理论，即希望越常用的词拥有更短的编码。

霍夫曼树的建立过程如下：

输入：权值为(w_1,w_2,...w_n)的n个节点；

输出：对应的霍夫曼树；

1)将(w_1,w_2,...w_n)看做是有n棵树的森林，每个树仅有一个节点；

2)在森林中选择根节点权值最小的两棵树进行合并，得到一个新的树，这两颗树分布作为新树的左右子树。新树的根节点权重为左右子树的根节点权重之和；

3)将之前的根节点权值最小的两棵树从森林删除，并把新树加入森林；

4)重复步骤2)和3)直到森林里只有一棵树为止。

步骤S3中，使用在图像识别上达到极好效果的卷积神经网络，其网络结构见附图图3，卷积神经网络可以有效地解决“退化”问题——当模型的层次加深时，错误率却提高了，理论上，设计更复杂的模型为了更好的拟合大数据集，并且随着模型的深度加深，学习的能力增强，因此更深的网络模型不应当产生比它更浅的模型更高的错误率，而“退化”问题产生的原因是由于网络的优化难题，当模型变复杂时，使用梯度下降法的反向传播算法的优化变得更加困难，导致了模型达不到好的学习效果。

MSCOCO数据集拥有海量的图片，本申请使用的是加入了“快捷连接方式”进行优化后的深层卷积神经网络进行图像特征提取，网络的残差模块结构见附图图4，通过引入一个深度剩余学习框架来解决退化问题。

不希望每个堆叠的层都能直接匹配所需的底层映射，而是显式地让这些层匹配一个剩余映射，在表达形式上，将期望的底层映射表示为H(x)，让堆叠的非线性层适合F(x)的另一个映射F(x):＝H(x)-x。假设优化剩余映射比优化原始的未引用映射更容易，最极端的情况是，如果一个恒等映射是最优的，那么其将残差趋紧到零，比通过一堆非线性层拟合一个恒等映射要容易得多。即：增加一个恒等映射，将原始所需要学习的函数H(x)转换成F(x)+x，上述过程通过一个再生成，将一个问题分解成多个尺度的残差问题，能够很好的起到优化训练的效果。

所述残差模块通过快捷方式连接实现，通过直连将这个模块的输入和输出进行一个元素级别的加叠，这个简单的加法并不会给网络增加额外的参数和计算量，同时却可以大大增加模型的训练速度、提高训练效果，并且当模型的层数加深时，这个简单的结构能够很好的解决退化问题。

优化前的残差模块为：

y＝F(x，{W_i})+x

为了实现上述快捷方式连接过程，使输入x的维度与函数F的维度一致，加入线性投影W，重新定义得到本申请所使用的残差模块，即本申请步骤S3中所述的残差模块：

y＝F(x，{W_i})+W_sx。

如图2所示为MSCOCO数据集中图像示例，对其标注的语料为：“

A man is doing tricks on a bicycle on ramps in front of a crowd.

A man on a bike executes a jump as part of a competition while thecrowd watches.

A man rides a yellow bike over a ramp while others watch.

Bike rider jumping obstacles.

Bmx biker jumps off of ramp.”。

进一步地，所述长短时记忆网络模型包括：

更新遗忘门输出：

f_t＝σ(W_fxx_t+W_fmm_t-1)

更新输入门的输出：

i_t＝σ(W_ixx_t+W_imm_t-1)

其中，i_t指t时刻输入门的输出；

更新细胞状态：

c_t＝f_tΘc_t-1+i_tΘh(W_cxx_t+W_cmm_t-1)

其中，c_t指t时刻细胞的状态；h指LSTM网络隐藏层输出状态；

更新输出门输出：

o_t＝σ(W_oxx_t+W_omm_t-1)

其中，o_t指激活函数；

模型中的W指经过模型训练得到的权重；

更新当前序列索引预测输出：

m_t＝o_tΘc_t

p_t-1＝Softmax(m_t)

模型的目标函数为最大化目标描述的最大似然估计：

所述长短时记忆网络模型包括四个门限，输入门、遗忘门、记忆门和输出门；其中，输入门用来输入向量，控制当前输入新生成的信息中有多少信息可以加入到细胞状态中；遗忘门决定上一时刻细胞状态中有多少信息可以传递到当前时刻中；基于遗忘门和输入门的输出，细胞门来更新细胞状态，更新后的细胞状态有两部分构成，一是来自上一时刻旧的细胞状态信息，二是当前输入新生成的信息；最后，输出门基于更新的细胞状态，输出隐藏状态，输出门用来控制有多少细胞状态信息，将细胞状态缩放至可以作为隐藏状态的输出；网络的优点是可以使其对输入的上文拥有记忆功能，有利于文本的生成与上下文的语义联系，记忆模块包括通过三个门限控制的记忆细胞，见附图图5，蓝线表示循环连接——在时间t-1时的输出通过三个门限反馈给在时间t时的记忆细胞，细胞值通过遗忘门反馈到上一个时间步，在t-1时刻预测的单词除了在时间t时作为记忆输出之外，还被反馈到Softmax分类器中预测单词。

在训练长短时记忆网络模型时，将经过标注语料的MSCOCO数据集分为训练集和测试集分别用于训练模型和后续的模型测试，训练得到模型后使用束搜索算法对模型进行测试，可以有效地保持生成的描述在语法上和语句上的通顺性和独特性。

如图6所示，为待描述图像实例图，针对该图像，利用长短时记忆网络模型进行图像描述句子的生成时，根据图像特征提取得到的特征向量作为长短时记忆网络的初始输入，经过输入门，细胞门，遗忘门，输出门，在第一个时间步通过输出门得到第一个输出单词和当前的隐藏记忆状态，并将其作为第二个时间步的输入得到第二个输出的单词，以此类推，直到终止条件则一句话的输出为止，最终输出图像描述句子结果中，输出的生成概率最高的前三个句子为“a man rides his surfboard in front of a wave.”、“a man ridesa surf board in the water.”、“a man who is riding a wave on a surfboard.”。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种图像描述生成方法，其特征在于，包括如下步骤：

所述卷积神经网络包括通过快捷连接方式连接的残差模块：

y＝F(x，{W_i})+W_sx

2.根据权利要求1所述的图像描述生成方法，其特征在于，步骤S1中的所述语料包括五句话，所述语料的标注规则包括：描述场景中所有重要的部分；不要用“There is/are”来开始句子；不要描述不重要的细节；不要描述将来或过去可能发生的事情；不要描述一个人可能会说什么；不要给场景中的人一个名字；描述场景的每一句话至少包含8个英文单词。

3.根据权利要求1所述的图像描述生成方法，其特征在于，所述长短时记忆网络模型包括：

更新遗忘门输出：

f_t＝σ(W_fxx_t+W_fmm_t-1)

更新输入门的输出：

i_t＝σ(W_ixx_t+W_imm_t-1)

其中，i_t指t时刻输入门的输出；

更新细胞状态：

c_t＝f_tΘc_t-1+i_tΘh(W_cxx_t+W_cmm_t-1)

其中，c_t指t时刻细胞的状态；h指LSTM网络隐藏层输出状态；

更新输出门输出：

o_t＝σ(W_oxx_t+W_omm_t-1)

其中，o_t指激活函数；

模型中的W指经过模型训练得到的权重；

更新当前序列索引预测输出：

m_t＝o_tΘc_t

p_t-1＝Softmax(m_t)

模型的目标函数为最大化目标描述的最大似然估计：