CN109145946B

CN109145946B - 一种智能图像识别和描述方法

Info

Publication number: CN109145946B
Application number: CN201810776374.0A
Authority: CN
Inventors: 孔锐; 谢玮
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2022-02-11
Anticipated expiration: 2038-07-09
Also published as: CN109145946A

Abstract

本发明公开了一种智能图像识别和描述方法，包括步骤：1)用卷积神经网络来提取输入图像的特征，生成固定长度的特征向量；2)用提取出的特征向量初始化循环神经网络语言模型LSTM，从而生成句子，描述该输入图像。本方法是一种端到端的图像描述神经网络模型，结合了当前领先的视觉模型Inception V4和语言模型LSTM，与先前的基线模型相比，本专利模型具有特征提取能力强，生成句子描述详细等优点，性能有了显著提高，非常具有实用价值。

Description

一种智能图像识别和描述方法

技术领域

本发明涉及人工智能领域中的图像描述技术领域，特别涉及一种智能图像识别和描述方法。

背景技术

自动识别和描述图像的内容是人工智能领域中一个重要的研究方向，它涉及计算机视觉和自然语言处理技术。目前，大部分图像描述系统是基于模板的文本描述生成，优点是得到的语言描述在语法上有较高的准确率，缺点是高度依赖于模板，不适用于所有图像，且限制了输出的多样性。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种智能图像识别和描述方法，提供了一种端到端的图像描述神经网络模型，克服基于模板的文本描述生成对图像描述所造成的局限性。

本发明的目的通过以下的技术方案实现：一种智能图像识别和描述方法，包括步骤：

1)用卷积神经网络来提取输入图像的特征，生成固定长度的特征向量；

2)用提取出的特征向量初始化循环神经网络语言模型LSTM，从而生成句子，描述该输入图像。

优选的，卷积神经网络包括图像嵌入模型Inception V4，用Inception V4来提取输入图像的特征。

优选的，方法包括LSTM模型、图像嵌入模型Inception V4和单词嵌入模型word2vec，LSTM记忆单元之间展开连接；

用I表示输入图像，用S＝(S₀,...,S_N)表示描述该图像正确的文本描述，则展开过程如下：

x_-1＝CNN(I) (1)

x_t＝W_eS_t，t∈{0...N-1} (2)

p_t+1＝LSTM(x_t)，t∈{0...N-1} (3)

其中，用一位有效编码的向量S_t表示每个单词，S_t的维度与字典中单词的数量相等；用S₀表示一个特定的开始单词，用S_N表示一个特定的停止单词，S₀、S_N用来指定句子的开始和结束；当生成停止单词时，表示模型已经生成了完整的句子；输入图像和输入单词都被映射到相同的空间，其中，输入图像是通过使用卷积神经网络Inception V4，输入单词是通过使用单词嵌入模型word2vecW_e；图像I只在t＝-1时刻输入一次，将图像的内容传达给LSTM。

优选的，模型训练过程包括：1)在ImageNet数据集上预训练Inception V4，用训练后的Inception V4初始化模型的卷积神经网络；2)使用无动量的随机梯度下降和学习率指数衰减来训练模型的LSTM、单词嵌入word2vec以及Inception V4顶层这3个部分的权重。

具体的，初始学习率为2.0，学习率衰减因子为0.5。

优选的，本发明模型的损失是每个时间步中正确单词的负对数概率之和，如下所示：

训练模型中LSTM模块、图像嵌入模块Inception V4的顶层和单词嵌入模块word2vec W_e这3个模块中的参数，以最小化公式(4)中的损失。

本发明与现有技术相比，具有如下优点和有益效果：

本方法是一种端到端的图像描述神经网络模型，结合了当前领先的视觉模型Inception V4和语言模型LSTM，与先前的基线模型相比，本专利模型具有特征提取能力强，生成句子描述详细等优点，本专利模型的性能有了显著提高，非常具有实用价值。

附图说明

图1是实施例模型架构示意图。

图2是实施例模型架构展开图。

图3是测试图像。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

一种由深层神经网络模型生成自然语言来描述图像内容的方法，该模型由卷积神经网络(Convolution Neural Network，CNN)和循环神经网络(Recurrent NeuralNetwork，RNN)语言模型组成，如图1所示，其中，卷积神经网络用来提取输入图像的特征，生成固定长度的特征向量，该特征向量用来初始化生成句子的循环神经网络语言模型。

方法过程：1)用卷积神经网络Inception V4来提取输入图像的特征，生成固定长度的特征向量；2)用提取出的特征向量初始化循环神经网络语言模型LSTM，从而生成句子，描述该输入图像。

模型训练过程：1)在ImageNet数据集上预训练Inception V4，用训练后的Inception V4初始化本专利模型的CNN；2)本专利模型使用无动量的随机梯度下降和学习率指数衰减来训练模型的LSTM、单词嵌入word2vec以及Inception V4顶层这3个部分的权重，其中，初始学习率为2.0，学习率衰减因子为0.5。

本专利模型架构的展开式如图2所示，它由LSTM模型、图像嵌入模型Inception V4和单词嵌入模型word2vec组成。在模型架构的展开图中，LSTM记忆单元之间展开连接。

x_-1＝CNN(I) (1)

x_t＝W_eS_t，t∈{0...N-1} (2)

p_t+1＝LSTM(x_t)，t∈{0...N-1} (3)

其中，用一位有效编码的向量S_t表示每个单词，S_t的维度与字典中单词的数量相等。用S₀表示一个特定的开始单词，用S_N表示一个特定的停止单词，S₀、S_N用来指定句子的开始和结束。当生成停止单词时，表示模型已经生成了完整的句子。输入图像和输入单词都被映射到相同的空间，其中，输入图像是通过使用卷积神经网络Inception V4，输入单词是通过使用单词嵌入模型word2vecW_e。图像I只在t＝-1时刻输入一次，将图像的内容传达给LSTM。

本专利模型的损失是每个时间步中正确单词的负对数概率之和，如下所示：

训练本文模型中LSTM模块、图像嵌入模块Inception V4的顶层和单词嵌入模块word2vec W_e这3个模块中的参数，以最小化公式(4)中的损失。本专利模型采用MSCOCO图像描述数据集进行训练，每张图像有5句英文句子描述。为了直观显示模型的性能，随机选取了4张测试图像，如图3所示，模型生成句子来描述图像，如表1所示，结果显示了本专利模型所生成句子的合理性和准确性。

表1模型生成句子

在MSCOCO图像描述数据集上的实验结果表明了本专利模型所生成句子的语法准确性和语义准确性，并且优于先前的基线模型，实用价值高。预计该图像描述模型可运用在基于图像理解的各个领域，具有良好的市场前景。

本发明在现有图像描述技术基础上进行了创新，模型结合了当前领先的视觉模型Inception V4和语言模型LSTM。通过本专利模型生成句子与基线模型NICv2生成句子的对比，结果显示了本专利模型生成的句子描述更为准确和详细，句子的整体质量有了显著提高。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种智能图像识别和描述方法，其特征在于，包括步骤：

2)用提取出的特征向量初始化循环神经网络语言模型LSTM，从而生成句子，描述该输入图像；

方法包括LSTM模型、图像嵌入模型Inception V4和单词嵌入模型word2vec，LSTM记忆单元之间展开连接；

x_-1＝CNN(I) (1)

x_t＝W_eS_t，t∈{0...N-1} (2)

p_t+1＝LSTM(x_t)，t∈{0...N-1} (3)

其中，用一位有效编码的向量S_t表示每个单词，S_t的维度与字典中单词的数量相等；用S₀表示一个特定的开始单词，用S_N表示一个特定的停止单词，S₀、S_N用来指定句子的开始和结束；当生成停止单词时，表示模型已经生成了完整的句子；输入图像和输入单词都被映射到相同的空间，其中，输入图像是通过使用卷积神经网络的Inception V4生成特征向量x_-1，输入单词是通过使用单词嵌入模型的word2vecW_e生成512维的词向量x_t，word2vecW_e为单词嵌入模块；图像I只在t＝-1时刻输入一次，将图像的内容传达给LSTM。

2.根据权利要求1所述的智能图像识别和描述方法，其特征在于，卷积神经网络包括图像嵌入模型Inception V4，用Inception V4来提取输入图像的特征。

3.根据权利要求1所述的智能图像识别和描述方法，其特征在于，模型训练过程包括：1)在ImageNet数据集上预训练Inception V4，用训练后的Inception V4初始化模型的卷积神经网络；2)使用无动量的随机梯度下降和学习率指数衰减来训练模型的LSTM、单词嵌入word2vec以及Inception V4顶层这3个部分的权重。

4.根据权利要求3所述的智能图像识别和描述方法，其特征在于，初始学习率为2.0，学习率衰减因子为0.5。

5.根据权利要求3所述的智能图像识别和描述方法，其特征在于，该模型的损失是每个时间步中正确单词的负对数概率之和，如下所示：

其中，p_t(S_t)为每个时间步中正确单词的概率，训练模型中LSTM模块、图像嵌入模块Inception V4的顶层和单词嵌入模块word2vecW_e这3个模块中的参数，以最小化公式(4)中的损失。