CN108416065A

CN108416065A - 基于层级神经网络的图像-句子描述生成系统及方法

Info

Publication number: CN108416065A
Application number: CN201810267719.XA
Authority: CN
Inventors: 张玥杰; 程勇; 周练; 张涛
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2018-08-17
Anticipated expiration: 2038-03-28
Also published as: CN108416065B

Abstract

本发明提供基于层级神经网络的图像‑句子描述生成系统及方法，本发明提供的基于层级神经网络的图像‑句子描述生成系统包括：深度卷积网络、第一深度循环神经网络、第二深度循环神经网络；所述深度卷积网络获取图像，计算图像特征向量在嵌入空间的嵌入向量；并输出到第一深度循环神经网络和第二深度循环神经网络；所述第一深度循环神经网络识别图像中包含的物体，向第二深度循环神经网络输出物体序列；所述第二深度循环神经网络根据所述嵌入向量和物体序列输出描述所述图像的句子。

Description

基于层级神经网络的图像-句子描述生成系统及方法

技术领域

本发明属于跨媒体生成技术领域，具体涉及基于层级神经网络的图像-句子描述生成系统及方法。

背景技术

在各种多模态信息处理任务中，图像描述自动生成(Image Captioning)是一项非常重要的任务。其任务为给定一幅图像，计算机自动分析图像的视觉内容，并生成可以描述图像主要内容的句子或者文本。图像描述自动生成是一项非常具有挑战性的任务，因为涉及到人工智能两个非常重要的研究领域，计算机视觉和自然语言处理。从计算机视觉的角度看，图像描述在原则上可以涉及到图像中的任何视觉信息，比如图像中所包含的物体以及属性，或者描述图像中的场景类型等等。此外，图像描述还可能涉及到图像中所没有出现的信息或者无法从图像中直接推断出来的背景信息。所以，要生成好的图像描述，需要依靠计算机视觉技术来提取出好的图像特征表示。另一方面，仅仅依靠计算机视觉技术还不足以产生出好的图像描述，因为视觉检测的结果通常只是一些离散的，无结构的标签，而这些标签与描述图像的句子之间仍然有着很大的区别。图像描述应该是简洁的，语法正确并且是可以理解的句子，而这需要使用自然语言处理技术来实现。

早期的研究工作通常会采用分步骤的处理方法，即先通过一些图像识别算法得到图像中所包含的物体以及属性等语义信息，再通过人工设计的句子模板来生成图像描述。然而这类方法需要经过复杂的人工设计，而且生成的句子缺乏自然性，影响了整体的效果。最近几年，神经翻译模型在机器翻译领域取得了巨大的进展，受到其启发，有不少工作尝试将编码-解码模型应用到图像描述自动生成任务当中。具体来说，该模型首先利用编码算法将图像内容用固定长度的特征向量来表示，之后再通过解码算法将编码向量转化为描述图像的句子。在现有的工作中，卷积神经网络(CNN)常常被用做编码器来提取图像的特征向量，而循环神经网络(RNN)则被用来生成图像的描述句子信息。

基于神经网络的方法则通过构建端到端的模型来对整个描述过程进行建模。这些方法通常都会采用编码-解码的框架，比较典型的工作有Kiros等人在2014年提出的多模态逻辑双线性模型(Multimodal Log-Bilinear Models)。该模型利用卷积神经网络来提取图像的特征，之后构建了一个前馈神经语言模型来生成图像的描述信息。Mao等人在2014年的工作也同样使用神经网络来生成图像描述，不同的是，在其工作中使用了循环神经网络作为句子生成模型。

尽管现有的工作在图像自动描述任务上取得了不小的突破，但总体而言，基础的CNN+RNN模型还是处在一个“粗糙”的起始阶段，生成的句子与人类描述习惯不一致。

发明内容

本发明解决的问题是现有CNN+RNN模型在图像-句子描述生成技术生成的句子与人类描述习惯不一致；为解决所述问题，本发明提供基于层级神经网络的图像-句子描述生成系统及方法。

本发明提供的基于层级神经网络的图像-句子描述生成系统，包括：深度卷积网络、第一深度循环神经网络、第二深度循环神经网络；所述深度卷积网络获取图像，计算图像特征向量在嵌入空间的嵌入向量；并输出到第一深度循环神经网络和第二深度循环神经网络；所述第一深度循环神经网络识别图像中包含的物体，向第二深度循环神经网络输出物体序列；所述第二深度循环神经网络根据所述嵌入向量和物体序列输出描述所述图像的句子。

进一步，所述深度卷积网络采用16层VGGNet；所述VGGNet将所述图像转变为一个4096维的全连接层，所述全连接层为所述特征向量，嵌入向量的计算公式为：其中，θ_c是VGGNet中包含的所有参数，W_v为映射矩阵，b_v为偏置权重，I为特征向量，v为嵌入向量。

进一步，所述第一深度循环神经网络采用包括LSTM层和softmax层的两层网络，所述LSTM层的输入包括：之前时刻所输出的状态信息y^t-1,和之前时刻所生成的物体词所对应的词向量O^t-1；y⁰＝v，y^t＝LSTM(y^t-1,W_eo(O^t-1))；其中表示的是词嵌入矩阵，D_o是包含所有物体词的词典，dim表示的是词向量的维度；y^t对应的是在t时刻LSTM的状态信息，在收到终止符时刻，LSTM层向第一深度循环神经网络输出当前时刻状态信息，softmax层计算当前时刻物体词的概率分布：p(O^t)＝softmax(y^t)。

进一步，所述第二深度循环神经网络采用包括LSTM层和Softmax层的两层网络，在时刻t，LSTM的输入包含了三部分：之前时刻的隐藏状态h^t-1、之前时刻所生成的词S^t-1所对应的词向量、上下文特征向量c^t，其中，

e_t,i＝corr(h^t-1,yⁱ)0≤i≤T_o，corr()用来计算当前状态与多模态信息之间的相关度值，通过一个多层感知器的方式来计算；

h⁰＝0,S⁰＝′<S>′，

p(S^t)＝Softmax(h^t)，

表示在训练集中的词典对应的词向量矩阵，D_s对应的是词典集合，dim是词向量的维度，h^t通过softmax层后输出在词典上的概率分布p(S^t)。

本发明还提供采用所述的基于层级神经网络的图像-句子描述生成系统的图像-句子描述生成方法，包括：

步骤一、所述深度卷积网络获取图像，利用训练深度CNN模型对图像进行特征表示，提取出图像特征向量在嵌入空间的嵌入向量；并输出到第一深度循环神经网络和第二深度循环神经网络；

步骤二、所述第一深度循环神经网络以所述特征向量为输入，按顺序识别出图像中包含的物体信息，并通过构建RNN模型的方式依次生成物体所对应的文字信息，向第二深度循环神经网络输出物体序列信息；

步骤三、所述第二深度循环神经网络根据所述嵌入向量和物体序列输出描述所述图像的句子。

本发明的优点包括：首先，本发明采用三层网络(深度卷积网络，第一深度循环神经网络，第二深度循环神经网络)的架构来生成图像描述，更加符合人的思维过程。其次，本发明将多模态注意力机制加入到网络构建过程中，从而可以在生成图像描述时能够参考更丰富的信息。最后，本发明在公共数据集Flickr30k与MSCOCO上取得了不错的结果，性能较传统方法有了较大的提升。

附图说明

图1是本发明的框架图。

图2为用于计算多模态注意力的多层感知器网络。

具体实施方式

由背景技术可知，现有的基于层级网络的图像-句子描述生成方法生成的句子与人类的语言习惯不相符；申请人针对所述问题进行研究，认为原因是现有方法并没有考虑人类在图像描述过程中的一般常识信息。比如人类在描述图像的时候通常会有一个级联分段的过程，即首先会去看图像中存在哪些物体，物体的属性以及物体之间的关系，然后根据识别出来的物体组织合适的语言来对图像进行描述。另一方面，人类在进行图像描述的时候通常会使用注意力机制，这意味着在表达过程中人的注意力会动态地变化，在不同的表达时间点可能会侧重于图像不同的区域或者不同的场景。

申请人针对上述问题进行进一步研究，在本发明中提供一种基于层级神经网络的图像-句子描述生成系统及方法。本发明采用两层RNN来生成最终的描述，其中中间层的RNN来生成图像中所包含的物体序列，而之后的RNN则来生成完整的句子。本申请另外一个重要的特点是引入了多模态注意力机制。本申请中假设在句子生成过程中，神经网络可以自动地从多种模态的信息上选择对当前状态最为重要的信息，并将注意力投射到这些信息所对应的位置，其中多模态信息包括中间层所识别得到的物体信息以及整体的图像视觉信息。

下文中，结合附图和实施例对本发明的精深和实质做进一步阐述。

如图1所示，本发明实施例提供的基于层级神经网络的图像-句子描述生成系统，包括：深度卷积网络01、第一深度循环神经网络02、第二深度循环神经网络03；所述深度卷积网络01获取图像，计算图像特征向量在嵌入空间的嵌入向量；并输出到第一深度循环神经网络02和第二深度循环神经网络03；所述第一深度循环神经网络识别图像中包含的物体，向第二深度循环神经网络输出物体序列；在本发明的一个实施例中，所述深度卷积网络01获取的图像的内容为：一位男士带着一只狗在草坪上玩飞盘，第一深度循环神经网络02输出的物体序列为：男士、狗、飞盘、草坪；所述列举仅为示意性说明，输出次序和具体用词可能与列举不同，比如男士可能输出为男人或者人等；所述第二深度循环神经网络根据所述嵌入向量和物体序列输出描述所述图像的句子。

本实施例中，深度卷积网络01采用16层的VGGNet，所述16层的VGGNet首先通过一系列网络层将原始的图像转变为一个4096维的全连接层，所述全连接层位于最终的分类器之前。以所述全连接层作为特征向量来表示输入图像，对应的特征维度是4096维。并通过公式(1)所示的映射过程将经过编码后的特征向量通过线性变换映射到嵌入子空间中，

其中θ_c是卷积网络中包含的所有参数，映射矩阵W_v和偏置权重b_v用于将特征向量I映射到嵌入子空间中，而v是最终得到的嵌入向量，所述嵌入向量将被分别输入到第一循环神经网络、第二深度循环神经网络。

循环神经网络RNN被用来处理句子、视频这样一些具有依赖关系的序列数据。但是，传统的RNN模型存在梯度消失或者爆炸的问题，难以用来建模长距离依赖关系。在本发明中我们引入了长短时记忆网络LSTM作为循环神经网络的基本单元来生成相应的词语和句子。LSTM在结构上对传统的RNN进行了扩展，在RNN的基础上引入了门机制，用于有效控制信息的流入和流程量，通过这种方式可以有效的缓解传统RNN所存在的问题。相应的门以及存储单元的定义如下所示：

i^t＝σ(W_ixx^t+W_iyy^t-1+b_i)

f^t＝σ(W_fxx^t+W_fyy^t-1+b_f)

o^t＝σ(W_oxx^t+W_oyy^t-1+b_o)

z^t＝h(W_zxx^t+W_zyy^t-1+b_z)

c^t＝i^t☉z^t+f^t☉c^t-1

y^t＝o^t☉h(c^t)

本是实施例中，第一深度循环神经网络的目标是生成在图像中所出现的物体序列，为适应人类进行物体识别的习惯，本实施例中使用序列模型来逐个生成物体，而不是利用分类方法统一识别。通常人类在观察图像当中的物体时，会优先观察到视觉上比较显著的物体，之后才是其他的一些次要物体，同时那些首先被识别出来的物体也会在人脑中形成概念来帮助后续的识别过程。受此启发，本实施例中通过第一深度循环神经网络来模拟图像的识别过程，第一深度循环神经网络包括LSTM层和Softmax层。具体来说，在t时刻，当前物体描述词O^t的生成需要经过两层网络，分别是LSTM层和Softmax层。其中LSTM层的输入包括两部分，第一部分是之前时刻所输出的状态信息y^t-1，所述状态信息包含了此时刻之前的语义信息，第二部分是在之前时刻所生成的物体词所对应的词向量O^t-1。需要说明的是，在最开始的时刻t＝0，图像嵌入向量v和起始符号′<S>′所对应的词向量将作为初始值被输入到LSTM中，如下所示：

y⁰＝v,O⁰＝′<S>′

y^t＝LSTM(y^t-1,W_eo(O^t-1))

p(O^t)＝softmax(y^t) (2)

其中表示的是词嵌入矩阵，D_o是包含所有物体词的词典，而dim表示的是词向量的维度。y^t对应的是在t时刻LSTM的状态信息，p(O^t)表示的是在所有物体词上的概率分布。

第二深度循环神经网络生成描述句子，第二深度循环神经网络包括LSTM层和Softmax层。与第一深度循环神经网络不同，第二深度循环神经网络将多模态注意力机制信息引入到了生成描述的过程当中。具体地，对于每一时刻的LSTM单元，输入信息除了上一时刻的状态和当前时刻的词向量之外，还包含了一个新的上下文特征向量。该上下文特征向量与当前的状态相关，具体来说，在每次要生成一个标题词时，都会计算当前状态与描述图像的多模态信息的相关性，从而找到当前的注意力集中在哪些有用的信息上，进而把这些信息整合成为新的上下文特征向量来帮助当前时刻的输出。具体而言，在时刻t，当前LSTM的输入包含了三部分，即之前时刻的隐藏状态h^t-1、之前时刻所生成的词S^t-1所对应的词向量以及上下文特征向量c^t，上下文特征向量c^t依赖于第一深度循环神经网络的输出信息以及图像的整体内容，其定义如下所示：

其中第一部分意味着当前时刻的注意力集中在图像的整体信息，而第二部分则表示注意力集中在识别出的物体信息上，T_o表示的是物体序列的长度。此处我们采用了软注意力(soft attention)机制来进行计算，即通过加权平均的方式来得到最终的上下文向量,其中α_t,0用来衡量当前状态与图像视觉信息的相关度；α_t,i(i>＝1)则用来衡量当前状态与第i个物体之间的相关性，α_t,i的计算方式如下所示：

e_t,i＝corr(h^t-1,yⁱ)0≤i≤T_o (4)

其中corr()用来计算当前状态与多模态信息之间的相关度值，并且通过一个多层感知器的方式来计算，如图2所示，在此基础上，最终的描述生成过程如下定义：

h⁰＝0,S⁰＝′<S>′

h^t＝LSTM(h^t-1,c^t-1,W_es(S^t-1))

p(S^t)＝softmax(h^t) (5)

其中D_s对应的是词典集合，dim是词向量的维度，表示的是在训练集中的词典对应的词向量矩阵。h^t表示的是在t时刻的隐层状态信息，h^t通过softmax层后输出在词典上的概率分布p(S^t)。需要注意的是在第一深度循环神经网络的描述物体的词都来自于描述句子中，因此本实施中描述物体词对应的词向量和描述句子的词向量是共享的，即D_o∈D_s并且W_eo∈W_es。

本实施例中，词向量的来源选择了两个共用的数据集来进行网络的训练，Flickr30k和MSCOCO。Flickr30k是从Flickr网站上进行爬取的，其包含了31,783幅图像以及配对的描述句子，其中每幅图像都包含了5个在语法上类似的句子来对其描述，这些句子都是人工进行标注和检验的。另外一个数据集MSCOCO则比Flickr30k要更大一些，在官方发布的原始集合中包含了82783幅用于训练的图像以及40504幅用于校验的图像。同样每一幅图像也包含了5个语义相关的句子来对其进行描述。为了更好地进行训练和测试，对两个数据集进行了初步的预处理。对于句子描述部分，过滤掉了那些在数据集中出现次数少于5次的单词，通过这样的过滤操作，可以过滤到那些噪音信息，保留更有意义的文本信息。在经过预处理后，对于Flickr30k和MSCOCO两个数据集对应的新的词典大小分别为7414和8791。另外为了提取出用于训练和测试的物体序列，首先使用Stanford NLP发布的词性标注器对数据集中的所有句子进行词性标注，进而提取出句子中所有标记为名词的单词序列来描述图像中出现的物体，其顺序保持了在句子中原有的顺序。而在两个数据集上，本实施例都选择了出现次数最多的256个名词作为描述物体的词典。

为了对本发明实施例提供的基于层级神经网络的图像-句子描述生成系统进行测试，本实施例中使用了Beam Search算法来搜索最优的句子。在每个时刻，LSTM都会产生一个在词表上的概率分布，通过Beam Size的设定，选择两个概率最高的词作为这一时刻的输出和下一时刻的输入。通过在校验集上的测试，在本实施例中将BeamSize的值设置为10。

本实施例中选择了BLEU值来对图像生成的描述进行评价，通常BLEU值以BLEU-n的形式存在，其中n表示的是用于计算的n-gram单位，一般取值为1，2，3和4。

通过在校验集上的实验对比，对于本文提出模型所包含的超参数，我们做了如下设定：对于两个数据集，词嵌入矩阵的维度都设置为256，而在LSTM中隐状态的维度则都设置为512维。我们将本文提出模型在Flickr30k与MSCOCO两个数据集上分别进行了测试，其中在Flickr30k上取得了BLEU值为66.5/45.0/30.6/20.9的结果，而在MSCOCO上则取得了71.0/51.3/37.2/27.1的结果，性能相比较传统方法有较大的提升。

本发明还提供采用本发明实施例提供的基于层级神经网络的图像-句子描述生成系统的图像-句子描述生成方法。

综上所述，本发明面向的是图像与句子级别文本之间的关联建模，对图像句子描述自动生成任务进行了分析和探索，并提出了一种新颖的基于多模态注意力的层级神经网络，采用卷积神经网络用于对图像内容编码，第一深度循环神经网络层用于生成物体序列，第二深度循环神经网络基于多模态注意力机制生成最终的描述句子。所生成的句子与人类的语言习惯相符。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.基于层级神经网络的图像-句子描述生成系统，其特征在于，包括：深度卷积网络、第一深度循环神经网络、第二深度循环神经网络；所述深度卷积网络获取图像，计算图像特征向量在嵌入空间的嵌入向量；并输出到第一深度循环神经网络和第二深度循环神经网络；所述第一深度循环神经网络识别图像中包含的物体，向第二深度循环神经网络输出物体序列；所述第二深度循环神经网络根据所述嵌入向量和物体序列输出描述所述图像的句子；所述深度卷积网络采用16层VGGNet；所述VGGNet将所述图像转变为一个4096维的全连接层，所述全连接层的计算公式为：其中，θ_c是VGGNet中包含的所有参数，W_v为映射矩阵，b_v为偏置权重，I为特征向量，v为嵌入向量。

2.依据权利要求1所述的基于层级神经网络的图像-句子描述生成系统，其特征在于，所述第一深度循环神经网络采用包括LSTM层和Softmax层的两层网络，所述LSTM层的当前输入包括：之前时刻所输出的状态信息y^t-1,和之前时刻所生成的物体词所对应的词向量O^t ^-1；y⁰＝v，y^t＝LSTM(y^t-1,W_eo(O^t-1))；其中表示的是词嵌入矩阵，D_o是包含所有物体词的词典，dim表示的是词向量的维度；y^t对应的是在t时刻LSTM的状态信息，在收到终止符时刻，LSTM层向Softmax层输出当前时刻状态信息，Softmax层计算当前时刻物体词的概率分布：p(O^t)＝softmax(y^t)。

3.依据权利要求1所述的基于层级神经网络的图像-句子描述生成系统，其特征在于，所述第二深度循环神经网络采用包括LSTM层和Softmax层的两层网络，在时刻t，LSTM的输入包含了三部分：之前时刻的隐藏状态h^t-1、之前时刻所生成的词S^t-1所对应的词向量、上下文特征向量c^t，其中，

e_t,i＝corr(h^t-1,yⁱ)0≤i≤T_o，corr()用来计算当前状态与多模态信息之

间的相关度值，通过一个多层感知器的方式来计算；

h⁰＝0,S⁰＝′<S>′，

h^t＝LSTM(h^t-1,c^t-1,W_es(S^t-1))，

p(S^t)＝softmax(h^t)，

表示的是在训练集中的词典对应的词向量矩阵，D_s对应的是词典集合，T_o表示物体序列长度；dim是词向量的维度，h^t通过softmax层后输出在词典上的概率分布p(S^t)。

4.依据权利要求1至3中任意一项所提供的基于层级神经网络的图像-句子描述生成系统的方法，其特征在于，包括：

步骤二、所述第一深度循环神经网络以所述特征向量为输入，按顺序识别出图像中包含的物体信息，并通过构建RNN模型的方式依次生成物体所对应的文字信息，向第二深度循环神经网络输出物体序列信息。