CN110033008B

CN110033008B - 一种基于模态变换与文本归纳的图像描述生成方法

Info

Publication number: CN110033008B
Application number: CN201910357364.8A
Authority: CN
Inventors: 王瀚漓; 王含章
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2023-08-04
Anticipated expiration: 2039-04-29
Also published as: CN110033008A

Abstract

本发明涉及一种基于模态变换与文本归纳的图像描述生成方法，该方法包括以下步骤：1)使用基于卷积神经网络的目标识别模型，将待描述图像划分为多个基于感兴趣区域的子块，提取子块的视觉特征；2)使用第一长短时记忆模型对每个子块的视觉特征进行解码，通过将视觉信息转换为语义信息实现模态变换，生成各子块的文本描述；3)使用第二长短时记忆模型对每个子块的文本描述进行再编码，提取各子块的语义特征；4)使用双向层级长短时记忆模型融合各子块的语义特征，获得融合语义特征；5)以所述融合语义特征作为第三长短时记忆模型的输入，生成待描述图像的文本描述。与现有技术相比，本发明具有准确度高等优点。

Description

一种基于模态变换与文本归纳的图像描述生成方法

技术领域

本发明涉及图像理解领域，尤其是涉及一种基于模态变换与文本归纳的图像描述生成方法。

背景技术

图像标题生成是一项极具挑战性的工作，在婴幼儿早期教育、视觉障碍辅助、人机交互等领域具有广泛的应用前景。它结合了自然语言处理与计算机视觉两个领域，将一副自然图像使用自然语言的形式描述出来，或者说将图像翻译成自然语言。它首先要求系统能够准确理解图像中的内容，如识别出图像中的场景、各种对象、对象的属性、正在发生的动作及对象之间的关系等；然后根据语法规则及语言结构，生成人们能够理解的句子。

人们已提出多种方法来解决这一难题，包括基于模板的方法、基于语义迁移的方法，基于神经机器翻译的方法及混合方法等。随着深度学习技术，尤其是CNN技术在语言识别和视觉领域连续取得突破，目前基于神经机器翻译及其与其他视觉技术混合的方法已成为解决该问题的主流。这类方法考虑了CNN模型能够提取抽象性及表达能力更强的图像特征，能够为后续的语言生成模型提供可靠的可视化信息。但这些方法过于依赖前期的视觉技术，处理过程复杂，对系统后端生成句子的语言模型优化不足；但当前的主流模型主要存在可解释性不佳的问题，此外，生成的文本描述还存在缺乏层次性、准确率较低、语义信息模糊等问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种准确度更高的基于模态变换与文本归纳的图像描述生成方法。

本发明的目的可以通过以下技术方案来实现：

一种基于模态变换与文本归纳的图像描述生成方法，该方法包括以下步骤：

1)使用基于卷积神经网络的目标识别模型，将待描述图像划分为多个基于感兴趣区域的子块，提取子块的视觉特征；

2)使用第一长短时记忆模型对每个子块的视觉特征进行解码，通过将视觉信息转换为语义信息实现模态变换，生成各子块的文本描述；

3)使用第二长短时记忆模型对每个子块的文本描述进行再编码，提取各子块的语义特征；

4)使用双向层级长短时记忆模型融合各子块的语义特征，获得融合语义特征；

5)以所述融合语义特征作为第三长短时记忆模型的输入，生成待描述图像的文本描述。

进一步地，所述步骤1)具体包括：

对图像进行大小缩放后输入卷积神经网络，提取视觉特征，计算各候选框置信度；

选择置信度最高前n个候选框作为感兴趣区域，形成子块，保存各子块的视觉特征及框位置信息。

进一步地，所述文本描述中，每个单词采用One-Hot方式进行编码。

进一步地，所述步骤2)具体为：

将所述视觉特征作为第一长短时记忆模型的第一时间步的输入，后续时间步的输入为上一时间步的输出，将最后一个时间步的输出作为该子块的语义特征；

采用Softmax函数获得语义特征在每个单词上的概率分值，生成对应的文本描述。

进一步地，所述步骤3)具体为：

将文本描述的每个单词的One-Hot编码映射为一个嵌入式向量；

将每个单词对应的嵌入式向量依次作为第二长短时记忆模型每个时间步的输入；

将第二长短时记忆模型最后一个时间步的输出作为该文本描述的语义特征。

进一步地，所述步骤4)具体为：

按所述置信度由高到低对各子块进行排序；

将描述后各子块的语义特征依次作为双向层级长短时记忆模型各时间步的输入；

将最后一个时间步的前向输出与后向输出取均值作为各子块描述的融合语义特征。

进一步地，所述步骤5)具体为：

将第三长短时记忆模型最后一个时间步的输出输入分类层，采用Softmax函数输出该特征在每个单词上的概率值；

对于每个时间步，取其概率最大值所对应的单词作为该时间步的输出，所有时间步输出单词串联作为待描述图像的文本描述。

进一步地，所述第二长短时记忆模型、双向层级长短时记忆模型和第三长短时记忆模型训练时采用的损失函数为：

θ₁为CNN网络参数集合，θ₂为LSTM网络参数集合，₂为图像描述数据集中的输入图像，S为与X₂对应的描述参考句子，f表示系统函数，为损失函数，N₂为训练LSTM网络时，一次迭代中所使用的样本总数，L_k为第k个样本所对应的参考句子的长度，/>为第k张图像对应的描述参考句子的第t个单词，/>为生成的第k张图像的第t个单词，/>为输入的第k张图像，/>为第k张图像的参考句子的第t-1个单词。

与现有技术相比，本发明具有以如下有益效果：

(1)本发明采用基于卷积神经网络的目标识别算法模型Faster-RCNN进行图片视觉特征提取，综合性能尤其是检测速度和准确性方面有极大提高；

(2)本发明将视觉特征到文本特征的转换与文本特征融合这两部分分别操作，使模型更易于训练，各子块准确率更高。

(3)本发明构建深度LSTM网络，采用联合训练的方式将CNN网络和LSTM网络进行联合优化，提高了语句的表达能力，LSTM模型也解决了长期依赖带来的梯度消失问题；

(4)本发明采用双向层级长短时记忆模型Bi-LSTM，解决了LSTM模型网络在生成文本描述时忽略词的上下文含义的问题，兼顾文本序列全局特征，提高了特征融合模型在文本分类的准确率。

附图说明

图1为本发明的主要步骤流程示意图；

图2为LSTM单元的内部结构图；

图3为LSTM网络模型示意图；

图4为Bi-LSTM网络模型示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供一种基于模态变换与文本归纳的图像描述生成方法，如图1所示，包括步骤：

步骤1：使用基于卷积神经网络的目标识别模型(Faster-RCNN模型)，将图像划分为多个基于感兴趣区域的子块，提取子块的视觉特征。

本实施例中，具体过程包括：

11)将图像描述数据集MSCOCO中的图像缩放至256×256大小，并输入Faster-RCNN模型，将VGG-16网络的第五个卷积层的输出作为视觉特征；

12)计算各候选框置信度，选择置信度最高前n个候选框作为该图像的感兴趣区域，保存其视觉特征及候选框的坐标，n可取30。

步骤2：使用第一长短时记忆模型(LSTM)对每个子块的视觉信息进行解码，通过将视觉信息转换为语义信息实现模态变换，生成该子块的文本描述。

本实施例中，第一长短时记忆模型的构建过程包括：

21)构建LSTM网络中的LSTM单元如图2所示，其中：

h_t＝o_t⊙Tanh(c_t)

其中，w和b为待训练参数，x_t为当前时刻t的输入，h_t-1为上一时刻t-1的隐层特征，i为输入门，f为遗忘门，o为输出门，c为记忆信息，σ和Tanh为激活函数。

22)获取数据集中描述参考句子的平均长度，并设置每层LSTM的时间步长度为16，隐层单元个数为512；

23)对单词表中的每个单词采用One-Hot方式进行编码，编码维度为单词表的长度，对于MSCOCO数据集，单词表长度为10020；

24)将描述参考句子中每个单词的One-Hot编码映射为一个嵌入式向量，并设置向量维度为512。

子块的文本描述的生成过程为：将每个感兴趣区域(子块)的视觉特征作为LSTM网络的第一时间步的输入，后续时间步的输入为上一时间步的输出，将最后一个时间步的输出作为该感兴趣区域的语义特征；将语义特征输入到Softmax分类层，并采用Softmax函数输出该特征在每个单词上的概率分值，生成文本描述，其隐层输出为单词表大小。

步骤3：使用第二长短时记忆模型对每个子块的文本描述进行再编码，提取该子块的语义特征。

本实施例中，具体步骤包括：将文本描述的每个单词的One-Hot编码映射为一个嵌入式向量；将每个单词对应的嵌入式向量依次作为第二长短时记忆模型每个时间步的输入；将第二长短时记忆模型最后一个时间步的输出作为该文本描述的语义特征。

步骤4：使用双向层级长短时记忆模型(Bi-LSTM网络)融合各子块的语义特征。

本实施例中构建的Bi-LSTM网络如图4所示，Bi-LSTM网络中的LSTM单元如图2所示，设置有输入门、输出门、遗忘门和记忆单元。

本实施例中，融合各子块的语义特征具体步骤包括：根据子块的分类置信度进行由高到低排序；将排序后的语义特征依次作为Bi-LSTM的各时间步输入；将Bi-LSTM最后一个时间步的前向输出与后向输出取均值作为各感兴趣区域文本描述的融合语义特征。

步骤5：使用第三长短时记忆模型(生成文本LSTM网络)对测试数据中的图像进行文本描述生成。

本实施例中构建的生成文本LSTM网络如图3所示，生成文本LSTM网络中的LSTM单元如图2所示，设置有输入门、输出门、遗忘门和记忆单元。

本实施例中，文本描述生成的具体步骤包括：

将LSTM最后一个时间步的输出输入分类层，采用Softmax函数输出该特征在每个单词上的概率值；将当前特征的所有概率分值使用乘法原理进行融合，具体为：

其中，表示CNN特征/>在时刻属于第k个单词的概率，/>表示LSTM网络中在t时刻第j个阶段的特征输出；

对于t时刻，取所有概率值最大者所对应的单词作为最终输出，具体为：

其中，θ₁为CNN网络参数集合，θ₂为LSTM网络参数集合，X₂为输入图像，为k张图像对应文本描述中的第t个单词。

本实施例中，基于卷积神经网络的目标识别模型和第一长短时记忆模型在visualgenome数据集上进行预训练，第二长短时记忆模型、双向层级长短时记忆模型和第三长短时记忆模型在MSCOCO数据集上训练。

第二长短时记忆模型、双向层级长短时记忆模型和第三长短时记忆模型训练的步骤包括：

31)将MSCOCO数据集分为训练集和测试集；

32)使用交叉熵函数计算网络输出的每个单词与实际值之间的误差，并对每张图像中生成句子的每个单词与所有参考句子中单词的误差进行求和，具体表示为：

其中，为全体实数集合，O为最优参数集合。θ₁为CNN网络参数集合，θ₂为LSTM网络参数集合，X₂为图像描述数据集中的输入图像，S为与X₂对应的描述参考句子。

则系统目标为迭代优化(θ₁,θ₂)，使得损失函数最小。其中系统损失函数/>可表示为：

θ₁为CNN网络参数集合，θ₂为LSTM网络参数集合，X₂为图像描述数据集中的输入图像，S为与X₂对应的描述参考句子，f表示系统函数，为损失函数，N₂为训练LSTM网络时，一次迭代中所使用的样本总数，L_k为第k个样本所对应的参考句子的长度，/>为第k张图像对应的描述参考句子的第t个单词，/>为生成的第k张图像的第t个单词，/>为输入的第k张图像，/>为第k张图像的参考句子的第t-1个单词。

33)使用链式法则逐层计算误差，并将其回传至整个模型的底层，采用梯度下降的算法，对参数进行更新；

其中α表示学习率。

34)将误差回传到CNN网络中，将每条句子中每个单词的误差进行求和，并逐层向前传递，完成优化。

本发明的另一实施例中，还提供一种基于模态变换与文本归纳的图像描述生成装置，包括处理器和存储器，所述存储器保存有计算机程序，所述处理器调用计算机程序执行如上所述的基于模态变换与文本归纳的图像描述生成方法的步骤。

为了验证本申请方法的性能，设计了以下实验。

在公开数据集MSCOCO上使用本方法进行训练以及测试，使用BLEU、METEOR、ROUGE_L和CIDEr标准来对生成的句子进行评价。在MSCOCO数据集上，其训练集有113287张图像，验证集和验证集各有5000张图像，每张图像有5条以上人工标注的参考句子，结果如表1所示。

表1本发明在MSCOCO数据集上性能表现

方法	B-1	B-2	B-3	B-4	METEOR	ROUGE_L	CIDEr
								基准模型	70.0	52.5	38.2	27.7	24.0	51.6	88.0
本发明	71.5	55.3	41.8	31.6	25.1	53.2	98.2

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于模态变换与文本归纳的图像描述生成方法，其特征在于，该方法包括以下步骤：

5)以所述融合语义特征作为第三长短时记忆模型的输入，生成待描述图像的文本描述；

所述步骤1)具体包括：

选择置信度最高前n个候选框作为感兴趣区域，形成子块，保存各子块的视觉特征及框位置信息；

所述步骤4)具体为：

按所述置信度由高到低对各子块进行排序；

将排序后各子块的语义特征依次作为双向层级长短时记忆模型各时间步的输入；

将最后一个时间步的前向输出与后向输出取均值作为各子块描述的融合语义特征；

所述第一长短时记忆模型的构建过程包括：

21)构建LSTM网络中的LSTM单元，其中：

h_t＝O_t⊙Tanh(c_t)

其中，w和b为待训练参数，x_t为当前时刻t的输入，h_t-1为上一时刻t-1的隐层特征，i为输入门，f为遗忘门，o为输出门，c为记忆信息，σ和Tanh为激活函数；

24)将描述参考句子中每个单词的One-Hot编码映射为一个嵌入式向量，并设置向量维度为512；

所述第二长短时记忆模型、双向层级长短时记忆模型和第三长短时记忆模型训练的步骤包括：

31)将MSCOCO数据集分为训练集和测试集；

其中，为全体实数集合，O为最优参数集合，θ₁为CNN网络参数集合，θ₂为LSTM网络参数集合，X₂为图像描述数据集中的输入图像，S为与X₂对应的描述参考句子；

则系统目标为迭代优化(θ₁,θ₂)，使得损失函数最小，其中系统损失函数/>表示为：

θ₁为CNN网络参数集合，θ₂为LSTM网络参数集合，X₂为图像描述数据集中的输入图像，S为与X₂对应的描述参考句子，f表示系统函数，为损失函数，N₂为训练LSTM网络时，一次迭代中所使用的样本总数，L_k为第k个样本所对应的参考句子的长度，/>为第k张图像对应的描述参考句子的第t个单词，/>为生成的第k张图像的第t个单词，/>为输入的第k张图像，为第k张图像的参考句子的第t-1个单词；

其中α表示学习率；

2.根据权利要求1所述的基于模态变换与文本归纳的图像描述生成方法，其特征在于，所述文本描述中，每个单词采用One-Hot方式进行编码。

3.根据权利要求1所述的基于模态变换与文本归纳的图像描述生成方法，其特征在于，所述步骤2)具体为：

4.根据权利要求1所述的基于模态变换与文本归纳的图像描述生成方法，其特征在于，所述步骤3)具体为：

将文本描述的每个单词的One-Hot编码映射为一个嵌入式向量；

5.根据权利要求1所述的基于模态变换与文本归纳的图像描述生成方法，其特征在于，所述步骤5)具体为：