CN107391609B

CN107391609B - 一种双向多模态递归网络的图像描述方法

Info

Publication number: CN107391609B
Application number: CN201710528814.6A
Authority: CN
Inventors: 唐金辉; 束炎武
Original assignee: Nanjing University of Science and Technology
Current assignee: Nantong Zebra Intelligent Technology Co ltd
Priority date: 2017-07-01
Filing date: 2017-07-01
Publication date: 2020-07-31
Anticipated expiration: 2037-07-01
Also published as: CN107391609A

Abstract

本发明提供了一种双向多模态递归网络的图像描述方法，包括：下载图像作为训练集，获取训练集中的图像及其对应的描述语句；提取训练集中的语句中出现的单词并构建词汇表；利用预训练好的卷积神经网络提取数据集中图像的特征；构建双向多模态递归网络模型，将提取得到的图像特征与对应的文本特征进行融合；对双向多模态递归网络模型进行训练；将一幅图片输入到预训练好的模型中，得到对应的描述语句。

Description

一种双向多模态递归网络的图像描述方法

技术领域

本发明设计一种图像处理和模式识别技术，特别是一种双向多模态递归网络的图像描述方法。

背景技术

当前随着计算机视觉和自然语言处理的快速发展，人们对于视觉信息的获取越来越重视，如何用自然语言去描述一幅图像的内容是当前研究的一个重点，也是模式识别领域的研究内容。近年来，依托于卷积神经网络来提取图像特征，结合递归神经网络在自然语言处理上的优势，深度神经网络模型已经成为图像描述的主流方法。其原理是基于图像特征，通过递归神经网络在运行过程中的每一时刻依次产生各个单词，这些单词组合起来则构成相应的描述语句。

目前存在的这些模型在提取图像特征后直接拿来使用，第一种是仅在模型的开始时刻输入图像特征，这会导致模型在后续时刻视觉信息的丢失，第二种是在模型的每一时刻均输入图像特征，这样虽然保证了视觉信息，但是图像特征在不同时刻始终保持不变，模型在每一时刻产生的单词却是变化的。另外，现有的模型每一时刻产生单词时只考虑历史文本信息而忽略未来文本信息，即产生的句子中的每一个单词都是由其之前的单词得到的。这些局限影响了图像描述的准确性，因此需要改善这些问题，从而提升图像描述的性能。

发明内容

本发明的目的在于提供一种双向多模态递归网络的图像描述方法，该模型将通过卷积神经网络提取得到的图像特征与当前时刻的文本特征结合，使改良后的视觉特征在模型运行过程中一直保持变化，并且同时考虑了历史和未来的文本信息来决定当前时刻产生的单词，即当前时刻的单词不仅可以由其之前的单词得到，也可以由其之后的单词得到，这样从两个方向上得到两个语句，从中选择出现概率较大的语句作为最终的描述语句。

实现本发明目的的技术方案为：一种双向多模态递归网络的图像描述方法，包括以下步骤：

步骤1，下载图像作为训练集，获取训练集中的图像及其对应的描述语句；

步骤2，提取训练集中的语句中出现的单词并构建词汇表；

步骤3，利用预训练好的卷积神经网络提取数据集中图像的特征；

步骤4，构建双向多模态递归网络模型，将提取得到的图像特征与对应的文本特征进行融合；

步骤5，对双向多模态递归网络模型进行训练；

步骤6，将一幅图片输入到预训练好的模型中，得到对应的描述语句。

本发明与现有技术相比，具有以下优点：本发明在提取图像的特征之后，在模型运行的每一时刻均输入图像特征，保证了图像信息的充分利用，并且在每一时刻与对应的文本特征进行融合，这样在模型训练的不同时刻图像的特征也对应变化，包含了更加丰富的视觉信息，同时模型也能学习到图像特征与不同时刻产生单词的文本特征之间的关系。本发明构建了一种新的网络模型，与传统的多模态递归网络不同，双向多模态递归网络能够兼顾历史和未来的文本信息，并且与多个双向递归网络堆叠的结构相比，本发明模型拥有更加简单的结构，不仅更加容易训练达到收敛，而且图像描述的性能和准确性也得到提高。

下面结合说明书附图对本发明做进一步描述。

附图说明

图1为本发明一种双向多模态递归网络的图像描述方法的流程图。

图2为某一个时刻上模型结构的示意图。

图3为模型结构在时间序列上展开后的示意图。

图4为最终输入图片得到对应描述语句的效果图。

具体实施方式

结合图1，一种双向多模态递归网络的图像描述方法，包括以下步骤：

步骤1，下载图像描述数据集，获取数据集中的图像及其对应的描述语句；

步骤2，对训练集中的语句进行处理，提取出语句中出现的单词并构建词汇表；

步骤4，构建双向多模态递归网络，将提取得到的图像特征与对应的文本特征进行融合；

步骤5，该网络模型考虑历史和未来的文本信息，结合融合后的图像特征，使用训练集训练模型并使其收敛；

步骤6，将一幅图片输入到预训练好的双向多模态递归网络模型中，得到对应的描述语句。

步骤1中的数据集采用目前最广泛使用也是规模最大的Microsoft COCO数据集，该数据集中有82783张图片构成训练集，每张图片包含5个对应的描述语句；

步骤2中对于数据集的每一条语句，利用NaturalLanguageToolkit工具包将语句拆分成各个单词，为了减少词汇表的大小，只保留出现次数不低于3个的单词，这些删除的单词统一用一个符号代替，并添加开始标志和结束标志，这样形成最终的词汇表，而对于一幅新图像经过模型产生的语句则是由该词汇表中的单词组成的。

步骤3中的卷积神经网络包括AlexNet、VggNet、GoogLeNet、ResNet等，这里我们采用了Google Inceptionv3网络，该网络首先在数据集ImageNet上进行训练达到收敛，然后用来提取Microsof tCOCO数据集中的图片特征，该特征是大小为4096维的图像特征向量。

步骤4中构建双向多模态递归网络并进行图像特征与文本特征的融合，如图2所示。双向多模态递归网络包括视觉模型部分、语言模型部分和一个多模态层用来连接这两部分，其中视觉模型部分包括步骤3中的Google Inceptionv3网络，语言模型部分包括两个单词嵌入层，一个双向递归层和一个中间层。

在传统的多模态递归网络中，图像特征在模型运行过程中的每一时刻均保持不变，然而文本特征与递归层的状态则在变化当中。因此为了让图像特征在不同时刻具有一定的变化性，本发明通过结合文本特征与原始图像特征形成新的特征，首先输入一个单词并通过模型中的两个单词嵌入层来进行编码，得到one-hot形式的文本特征向量，该向量通过一个中间层转变成维度大小也是4096维的特征向量，然后使其与步骤3中得到的图像特征向量进行点乘操作，并形成改良后的视觉特征，公式为

I′(t)＝f(inter(w(t))*I)

公式中，I为原始图像特征，w(t)为文本特征，inter()是一个中间层，其提供了一套权重向量用于改变文本特征的维度，这里的权重是模型在训练过程中学习得到的，能够表示文本特征与图像特征之间的关系，*为矩阵的点乘操作，f()为ReLU激活函数，I′(t)为能在模型运行过程中保持变化的改良后的图像特征，新的特征能够蕴含更加丰富的视觉信息，并且模型能够学习不同时刻图像特征与文本特征的对应关系。

步骤5中的网络模型即为步骤4中构建的双向多模态递归网络模型，与传统的多模态递归网络不同的是，除了视觉部分中使用了改良后的图像特征，本发明的模型使用了一个双向递归层来代替递归层，这样模型在训练过程中不仅能考虑到历史文本信息，还能考虑未来文本信息，即语句中某一单词不仅可以由其之前的单词得到，也可以由其之后的单词得到，这样模型训练时的视觉和文本信息更加丰富。

该网络模型在时间序列上展开后的示意图如图3所示。首先步骤4中语句的每个单词通过两个单词嵌入层得到的one-hot形式的文本特征向量输入到双向递归层中，这里的双向递归层是由两个递归层组合成的，分别用来处理时序信息，这两个递归层在时间序列上展开后，可以分别从正向和反向来学习文本序列信息，正向递归层用来处理一个正向语句的每一个单词的文本特征，即语句的形成是由前一个单词得到后一个单词，而反向递归层则是用来处理颠倒后的语句序列的每一个单词的文本特征，即语句的形成是由后一个单词得到前一个单词，公式如下：

公式中，R()代表递归层，w(t)为时刻t的文本特征，r(t)和r(t-1)分别为双向递归层在时刻t和t-1的输出。

接着，双向递归层的正向和反向输出，步骤4中第二个单词嵌入层输出得到的文本特征向量，以及步骤4中改良后的视觉特征，全部放入到多模态层中，公式为

公式中，

分别为对应时刻的单词的文本特征，

分别为对应时刻的改良后的视觉特征，

分别为双向递归层对应时刻的隐藏状态，f()为ReLU激活函数。

最后，多模态层的输出结果输入到一个softmax层进行分类，输出为步骤2中得到的词汇表中的各个单词的概率大小，从中选择概率最大的单词作为最终的结果，包括正向和反向两个结果，正向则该单词为输入单词的后一个单词，反向则该单词为输入单词的前一个单词。将两个方向上的每个单词连接起来，得到正向和反向两个句子，分别求出这两个句子中各个单词的概率和作为对应语句的概率，根据两个语句的概率，选取较大的结果作为最终的描述语句，公式如下：

公式中，w_t为时刻t的单词，w_0：t-1为从开始时刻到时刻t-1的单词，w_t+1：T为从时刻t+1到结束时刻的单词。

在建立双向多模态递归网络模型之后，需要使用步骤1中的数据集对网络模型进行训练并达到收敛，训练的最终目的是要得到模型中所有层的权重参数，保证在给定数据集中图像视觉特征的前提下，得到图像对应句子的概率最大，公式为

公式中，I为图像的特征，S为该图像对应的语句，θ为训练得到的模型中所有层的参数。

步骤6为模型结果的呈现，如图4所示。用户可以选择一张图片，能够得到对应的描述语句。

Claims

1.一种双向多模态递归网络的图像描述方法，其特征在于，包括以下步骤：

步骤2，提取训练集中的语句中出现的单词并构建词汇表；

步骤5，对双向多模态递归网络模型进行训练；

步骤6，将一幅图片输入到预训练好的模型中，得到对应的描述语句；

步骤4通过下述公式将提取得到的图像特征与对应的文本特征进行融合：

步骤4.1，构建双向多模态递归网络模型，该模型包括视觉模型部分、语言模型部分和一个多模态层用来连接这两部分，其中视觉模型部分包括步骤3中的Google Inceptionv3网络，语言模型部分包括两个单词嵌入层，一个双向递归层和一个中间层；

步骤4.2，输入一个单词并通过模型中的两个单词嵌入层来进行编码，得到one-hot形式的文本特征向量；

步骤4.3，文本特征向量通过一个中间层转变成维度与卷积神经网络提取数据集中图像的特征的维度一致的特征向量；

步骤4.4，上述特征向量与步骤3中得到的图像特征向量进行点乘操作，形成改良后的视觉特征

I′(t)＝f(inter(w(t))*I)

其中，I为原始图像特征，w(t)为文本特征，inter()是中间层，这里的权重是模型在训练过程中学习得到的，*为矩阵的点乘操作，f()为ReLU激活函数，I′(t)为融合的图像特征。

2.根据权利要求1所述的方法，其特征在于，步骤2的具体过程为：

步骤2.1，对于数据集的每一条语句，利用Natural Language Toolkit工具包将语句拆分成各个单词；

步骤2.2，保留出现次数不低于3个的单词，并将删除的单词统一用一个符号代替；

步骤2.3，在每一条语句的开始和结尾处添加开始标志和结束标志；

步骤2.4，对训练集中的所有语句完成步骤2.1-2.3，保留的单词、符号、每一条语句的开始标志和结束标志构成词汇表。

3.根据权利要求1所述的方法，其特征在于，步骤3中训练好的卷积神经网络的标准为该卷积神经网络在数据集ImageNet上进行训练达到收敛。

4.根据权利要求1所述的方法，其特征在于，步骤5的具体过程在于：

步骤5.1，步骤4.2中得到的one-hot形式的文本特征向量输入到双向递归层中；

步骤5.2，双向递归层分别从正向和反向来学习文本序列信息并输出，正向递归层用来处理一个正向语句的每一个单词的文本特征，反向递归层则是用来处理颠倒后的语句序列的每一个单词的文本特征，公式如下：

其中，R()代表递归层，w(t)为时刻t的文本特征，r(t)和r(t-1)分别为双向递归层在时刻t和t-1的输出；

步骤5.3，步骤5.2的输出、步骤4.2中得到的one-hot形式的文本特征向量和步骤4.4中改良后的视觉特征输入至多模态层中进行处理，公式为

其中，

分别为对应时刻的单词的文本特征，

分别为对应时刻的改良后的视觉特征，

分别为双向递归层对应时刻的隐藏状态，f()为ReLU激活函数；

步骤5.4，多模态层的输出结果输入到一个softmax层进行分类，输出为步骤2中得到的词汇表中的各个单词的概率大小，从中选择概率最大的单词作为最终的结果，包括正向和反向两个结果，正向则该单词为输入单词的后一个单词，反向则该单词为输入单词的前一个单词；

步骤5.5，将两个方向上的每个单词连接起来，得到正向和反向两个句子，分别求出这两个句子中各个单词的概率和作为对应语句的概率，根据两个语句的概率，选取较大的结果作为最终的描述语句，公式如下：

其中，w_t为时刻t的单词，w_0:t-1为从开始时刻到时刻t-1的单词，w_t+1:T为从时刻t+1到结束时刻的单词；

步骤5.6，使用步骤1中的数据集对网络模型进行训练并达到收敛得到模型中所有层的权重参数，保证在给定数据集中图像视觉特征的前提下，得到图像对应句子的概率最大，公式为