CN107391709A

CN107391709A - 一种基于新型注意模型进行图像字幕生成的方法

Info

Publication number: CN107391709A
Application number: CN201710632600.3A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2017-11-24

Abstract

本发明提出一种基于新型注意模型进行图像字幕生成的方法，其主要内容包括显著度预测模型、选中图像显著区域、显著度和文本感知注意力、字幕生成、分析注意力状态。其过程为，通过新型字幕结构，在字幕生成过程中聚焦所输入图像的不同部位，具体的图像中哪些部位是显著的，哪些部位是需要结合上下文的，由显著度预测模型给定，由卷积神经网络提取图像，递归神经网络生成对应字幕，通过注意模型的扩展，在显著性预测模型中，创造两条注意力途径，一条重点关注显著区域，另一条重点关注上下文区域，两条路径在生成字幕过程中共同合作，逐步生成优秀的字幕，为图像字幕生成的创新解决方案做了进一步贡献。

Description

一种基于新型注意模型进行图像字幕生成的方法

技术领域

本发明涉及图像理解领域，尤其是涉及了一种基于新型注意模型进行图像字幕生成的方法。

背景技术

图像字幕是为了理解图像内容而产生的辅助工具，随着互联网的发展，图像字幕生成技术得到越来越多的关注。图像字幕生成常用于机器翻译、人机交互、人工智能、视频处理以及医疗等领域。具体地，在机器翻译领域，可对输入图像的内容进行解释说明，提高了翻译质量。在人工智能领域，通过智能助手对图像的识别和处理，再生成字幕，使日常生活更为便利。在视频处理领域，根据视频图像自动生成字幕，减少了人力消耗。而在医疗领域，可以对医疗图像进行检测，科学分析图像并生成文字说明。生成字幕的过程就是通过用计算机系统解释图像，来实现类似人类视觉系统理解外部世界的过程。对图像字幕生成的研究很多，但要结合图像显著度和上下文来生成字幕，尚且存在一定的挑战。

本发明提出一种基于新型注意模型进行图像字幕生成的方法，通过新型字幕结构，在字幕生成过程中聚焦所输入图像的不同部位，具体的图像中哪些部位是显著的，哪些部位是需要结合上下文的，由显著度预测模型给定，由卷积神经网络提取图像，递归神经网络生成对应字幕，嵌入显著度预测可以有效提高图像字幕的质量。本发明提出一个新型注意模型，通过注意模型的扩展，在显著性预测模型中，创造两条注意力途径，一条重点关注显著区域，另一条重点关注上下文区域，两条路径在生成字幕过程中共同合作，逐步生成优秀的字幕，为图像字幕生成的创新解决方案做了进一步贡献。

发明内容

针对图像字幕生成，提出一个新型注意模型，通过注意模型的扩展，在显著性预测模型中，创造两条注意力途径，一条重点关注显著区域，另一条重点关注上下文区域，两条路径在生成字幕过程中共同合作，逐步生成优秀的字幕，为图像字幕生成的创新解决方案做了进一步贡献。

为解决上述问题，本发明提供一种基于新型注意模型进行图像字幕生成的方法，其主要内容包括：

(一)显著度预测模型；

(二)选中图像显著区域；

(三)显著度和文本感知注意力；

(四)字幕生成；

(五)分析注意力状态。

其中，所述的显著度预测模型，根据新型注意模型，提出一个新型字幕结构，在字幕生成过程中聚焦所输入图像的不同部位，具体的图像中哪些部位是显著的，哪些部位是需要结合上下文的，由显著度预测模型给定，由卷积神经网络提取图像，递归神经网络生成对应字幕，嵌入显著性预测可以有效提高图像字幕的质量。

其中，所述的新型注意模型，通过注意模型的扩展，在显著性预测模型中，创造两条注意力途径，一条重点关注显著区域，另一条重点关注上下文区域，两条路径在生成字幕过程中共同合作，逐步生成优秀的字幕。

进一步地，所述的选中图像显著区域，结合显著图和语义分割，来研究哪一部分图像被显著度实际选中或忽略，为了计算显著性图，采用当下流行的显著性基准，基于三个语义分割数据库进行分析：Pascal-Context数据集，Cityscapes数据集，和Look into Person数据集，其中第一个没有特定目标，其余两个分别集中于城市街道和人体部位，训练图像和验证图像来源于Pascal-Context数据集和LIP数据集，从Cityscapes数据集中选取5000个像素级的注释帧，首先调查每个数据集中显著度的两个极端，由于语义类在图像中出现的次数很少，所以只考虑出现次数大于N的类别，由于数据库大小不一，在Pascal-Context数据集和LIP数据集中，令N＝500，在Cityscape数据集中，令N＝200，为了收集显著性命中语义类别的次数，通过对显著图的像素值进行阈值化处理，再对每个图进行二值化，其中低阈值导致二值化图的显著性区域扩张，高阈值在固定点周围产生较小的显著度区域，故用这个两个不同的阈值来分析显著度最高和最低的类别，选择一个接近0的阈值在每个数据集中寻找显著度最低的类别，选择一个接近255的阈值寻找显著度最高的类别，结果观察到在特定的情景中，最重要的或者最明显的物体显著度最高，而背景中的物体和图像本身的上下文则容易被忽略。

进一步地，所述的显著度和文本感知注意力，首先输入一个图像I，先通过全卷积网络进行编码，其提供一个空间网格上的高等级特征堆栈{a₁,a₂,…,a_L}，每个堆栈对应一个图像中的空间位置，通过模型从所输入的图像中提取一个显著图，并缩减显著图直到它符合卷积特征的空间尺寸，之后在显著性区域得到如下的空间网格{s₁,s₂,…,s₃}，其中s_i∈[0，1]，用上下文区域定义一个空间网格{z₁,z₂,…,z_L}，其中z₁＝1-s_i。在这个模式下，不同位置的视觉特征将根据它们的显著值来决定它们被选定还是被抑制。

其中，所述的高等级特征堆栈，每个图像通过卷积网络进行编码，计算出高等级特征堆栈，使用训练的ResNet-50数据集来计算输入图像的特征映射，ResNet-50由49个卷积层，划分为5个卷积块和1个完全连接层，因为要维持空间维度，故忽略完全连接层，直接从最后的卷积层提取特征映射，ResNet模型输出一个具有2048个通道的张量，为了限制特征映射和学习参数的数量，将该张量输送到具有512个滤波器的另一个卷积层，最后一个卷积层的权重在所考虑的数据集上进行初始化和调整，在长短期网络记忆层中，再次把初始化应用于输入的加权矩阵，并对内部状态的权重矩阵进行正交初始化。

进一步地，所述的字幕生成，字幕生成由长短期记忆网络(LSTM)层通过对词的取样和学习，逐字生成，其中每个时间步的条件是从输入图像和显著性映射中提取特征，LSTM生成字幕的行为由以下等式驱动：

c_t＝f_t⊙c_t-1+i_t⊙g_t (4)

h_t＝o_t⊙φ(c_t) (6)

其中，在每个时间步长上，表示从I上提取的视觉特征，考虑到显著区域{s_i}_i和上下文区域{z_i}_i的映射，其中w_t是输入字，h是LSTM的内部状态，c是LSTM的储存单元，⊙表示Hadamard矩阵产生的元素级，σ是S形函数，φ是双曲正切tanh，W_*是学习权矩阵，b_*是学习偏差向量，为了生成具有视觉特征的网络，我们计算出定长特征向量作为空间特征的线性组合{a₁,a₂,…,a_L}，与时变权重α_ti一起，通过一个softmax算符在空间范围内标准化：

在每个时间步上，注意力机制根据先前的LSTM状态选择图像的一个区域，并将其反馈到LSTM，这样，一个单词的生成就被局限在该特定区域上，而不是由整个图像驱动。

其中，所述的权重，理想情况下，权重α_ti知道位置a_i的显著度值和上下文值，并以LSTM的当前状态为条件，通过其内部状态h_t进行编码，生成网络可以根据其属于显著区域或上下文区域以及当前的生成状态来关注输入图像的不同位置，其中将注意力权重与显著值相乘会导致上下文的丢失，因此将注意力权重分为两个路径，一个负责上下文区域，一个负责显著性区域，并采用两个不同的完全连接网络来学习这两个路径，最终，这个模型遵循以下等式：

其中是显著度的注意力权重，是上下文的注意力权重，显著度和上下文注意力权重计算公式如下：

该模型学习了显著度和上下文区域的不同权重，并将它们结合到最终的注意力映射中，其中显著区域和上下文区域的路径合并在一起，生成的LSTM可以集中在图像的每个区域，注意力途径知道每个位置的显著度，因此对显著度和上下文区域的关注是由显著度预测模型的输出驱动的。

其中，所述的长短期网络层(LSTM)，对于文本部分，用独热向量对词语进行编码，其大小等于词汇量，然后通过线性变换学习将其投影到嵌入空间中，因为句子长度不同，它们被标记为特殊的开始字符串和结束字符串符号，以维持模型知道特定句子的开始和结束，给定一个图像和句子(y₀,y₁,…,y_T)，用一个独热向量对其进行编码，生成LSTM逐步对字幕的第一个字t进行调整，并对其进行训练生成字幕的下一个字，序列上正确单词的对数似然函数是一个优化的目标函数：

其中w是模型的所有参数，在LSTM输出中应用一个softmax函数对单词的概率进行建模，为了降低维度，采用线性嵌入变换将独热词向量投影到LSTM的输入空间，或反过来将LSTM的输出投影到字典空间：

其中W_p是将LSTM输出空间转换为单词空间的矩阵，h_t是LSTM的输出，LSTM被给定一个标记的起始字符串作为第一个时间步长的输入，然后预测分布最可能的字被采样，并作为下一个时间步长的输入，直到标记的字符串结尾被预测。

进一步地，所述的注意力状态分析，从数据集中选取几个图像，两条路径之间的注意力权重发生了变化，对于每个图像，计算出每个时间步长的和值的平均值以及其可视化显著图，可以观察到这个模型利用这两个注意力途径生成字幕的不同部分，并且已经生成的字幕可以和所在区域对应起来，在生成字幕的过程中，显著度注意力途径比上下文注意力途径更具活力，显著度注意力途径比上下文注意力途径所占的权重更低。

附图说明

图1是一种基于新型注意模型进行图像字幕生成的方法的系统流程图。

图2是一种基于新型注意模型进行图像字幕生成的方法的语义分割和显著度图。

图3是一种基于新型注意模型进行图像字幕生成的方法的字幕生成模型图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是一种基于新型注意模型进行图像字幕生成的方法的系统流程图。主要包括显著度预测模型、选中图像显著区域、显著度和文本感知注意力、字幕生成、分析注意力状态。

其中，所述的显著度预测模型，根据新型注意模型，提出一个新型字幕结构，在字幕生成过程中聚焦所输入图像的不同部位，具体的图像中哪些部位是显著的，哪些部位是需要结合上下文的，由显著度预测模型给定，由卷积神经网络提取图像，递归神经网络生成对应字幕，嵌入显著度预测可以有效提高图像字幕的质量。

图3是一种基于新型注意模型进行图像字幕生成的方法的语义分割和显著度图。其中，所述的选中图像显著区域，结合显著图和语义分割，来研究哪一部分图像被显著度实际选中或忽略，为了计算显著性图，采用当下流行的显著性基准，基于三个语义分割数据库进行分析：Pascal-Context数据集，Cityscapes数据集，和Look into Person数据集，其中第一个没有特定目标，其余两个分别集中于城市街道和人体部位，训练图像和验证图像来源于Pascal-Context数据集和LIP数据集，从Cityscapes数据集中选取5000个像素级的注释帧，首先调查每个数据集中显著度的两个极端，由于语义类在图像中出现的次数很少，所以只考虑出现次数大于N的类别，由于数据库大小不一，在Pascal-Context数据集和LIP数据集中，令N＝500，在Cityscape数据集中，令N＝200，为了收集显著性命中语义类别的次数，通过对显著图的像素值进行阈值化处理，再对每个图进行二值化，其中低阈值导致二值化图的显著性区域扩张，高阈值在固定点周围产生较小的显著度区域，故用这个两个不同的阈值来分析显著度最高和最低的类别，选择一个接近0的阈值在每个数据集中寻找显著度最低的类别，选择一个接近255的阈值寻找显著度最高的类别，结果观察到在特定的情景中，最重要的或者最明显的物体显著度最高，而背景中的物体和图像本身的上下文则容易被忽略。

图3是一种基于新型注意模型进行图像字幕生成的方法的字幕生成模型图。首先输入一个图像I，先通过全卷积网络进行编码，其提供一个空间网格上的高等级特征堆栈{a₁,a₂,…,a_L}，每个堆栈对应一个图像中的空间位置，通过模型从所输入的图像中提取一个显著图，并缩减显著图直到它符合卷积特征的空间尺寸，之后在显著性区域得到如下的空间网格{s₁,s₂,…,s₃}，其中s_i∈[0，1]，用上下文区域定义一个空间网格{z₁,z₂,…,z_L}，其中z₁＝1-s_i。在这个模式下，不同位置的视觉特征将根据它们的显著值来决定它们被选定还是被抑制。

c_t＝f_t⊙c_t-1+i_t⊙g_t (4)

h_t＝o_t⊙φ(c_t) (6)

其中，所述的权重，理想情况下，权重α_ti知道位置a_i的显著度值和上下文值，并以LSTM的当前状态为条件，通过其内部状态h_t进行编码，这样，生成网络可以根据其属于显著区域或上下文区域以及当前的生成状态来关注输入图像的不同位置，其中将注意力权重与显著值相乘会导致上下文的丢失，因此将注意力权重分为两个路径，一个负责上下文区域，一个负责显著性区域，并采用两个不同的完全连接网络来学习这两个路径，最终，这个模型遵循以下等式：

其中，所述的长短期网络层(LSTM)，对于文本部分，用独热向量对词语进行编码，其大小等于词汇量，然后通过线性变换学习将其投影到嵌入空间中，因为句子长度不同，它们被标记为特殊的开始字符串和结束字符串符号，以维持模型知道特定句子的开始和结束，给定一个图像和句子(y₀,y₁,…,y_T)用一个独热向量对其进行编码，生成LSTM逐步对字幕的第一个字t进行调整，并对其进行训练生成字幕的下一个字，序列上正确单词的对数似然函数是一个优化的目标函数：

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于新型注意模型进行图像字幕生成的方法，其特征在于，主要包括显著度预测模型(一)；选中图像显著区域(二)；显著度和文本感知注意力(三)；字幕生成(四)；分析注意力状态(五)。

2.基于权利要求书1所述的显著度预测模型(一)，其特征在于，根据新型注意模型，提出一个新型字幕结构，在字幕生成过程中聚焦所输入图像的不同部位，具体的图像中哪些部位是显著的，哪些部位是需要结合上下文的，由显著度预测模型给定，由卷积神经网络提取图像，递归神经网络生成对应字幕，嵌入显著度预测可以有效提高图像字幕的质量。

3.基于权利要求书2所述的新型注意模型，其特征在于，通过注意模型的扩展，在显著度预测模型中，创造两条注意力途径，一条重点关注显著区域，另一条重点关注上下文区域，两条路径在生成字幕过程中共同合作，逐步生成优秀的字幕。

4.基于权利要求书1所述的选中图像显著区域(二)，其特征在于，结合显著图和语义分割，来研究哪一部分图像被显著度实际选中或忽略，为了计算显著性图，采用当下流行的显著性基准，基于三个语义分割数据库进行分析：Pascal-Context数据集，Cityscapes数据集，和Look into Person数据集，其中第一个没有特定目标，其余两个分别集中于城市街道和人体部位，训练图像和验证图像来源于Pascal-Context数据集和LIP数据集，从Cityscapes数据集中选取5000个像素级的注释帧，首先调查每个数据集中显著度的两个极端，由于语义类在图像中出现的次数很少，所以只考虑出现次数大于N的类别，由于数据库大小不一，在Pascal-Context数据集和LIP数据集中，令N＝500，在Cityscape数据集中，令N＝200，为了收集显著性命中语义类别的次数，通过对显著图的像素值进行阈值化处理，再对每个图进行二值化，其中低阈值导致二值化图的显著性区域扩张，高阈值在固定点周围产生较小的显著度区域，故用这个两个不同的阈值来分析显著度最高和最低的类别，选择一个接近0的阈值在每个数据集中寻找显著度最低的类别，选择一个接近255的阈值寻找显著度最高的类别，结果观察到在特定的情景中，最重要的或者最明显的物体显著度最高，而背景中的物体和图像本身的上下文则容易被忽略。

5.基于权利要求书1所述的显著度和文本感知注意力(三)，其特征在于，首先输入一个图像I，先通过全卷积网络进行编码，其提供一个空间网格上的高等级特征堆栈{a₁,a₂,…,a_L}，每个堆栈对应一个图像中的空间位置，通过模型从所输入的图像中提取一个显著图，并缩减显著图直到它符合卷积特征的空间尺寸，之后在显著性区域得到如下的空间网格{s₁,s₂,…,s₃}，其中s_i∈[0，1]，用上下文区域定义一个空间网格{z₁,z₂,…,z_L}，其中z₁＝1-s_i，在这个模式下，不同位置的视觉特征将根据它们的显著值来决定它们被选定还是被抑制。

6.基于权利要求书5所述的高等级特征堆栈，其特征在于，每个图像通过卷积网络进行编码，计算出高等级特征堆栈，使用训练的ResNet-50数据集来计算输入图像的特征映射，ResNet-50由49个卷积层，划分为5个卷积块和1个完全连接层，因为要维持空间维度，故忽略完全连接层，直接从最后的卷积层提取特征映射，ResNet模型输出一个具有2048个通道的张量，为了限制特征映射和学习参数的数量，将该张量输送到具有512个滤波器的另一个卷积层，最后一个卷积层的权重在所考虑的数据集上进行初始化和调整，在长短期网络记忆层中，再次把初始化应用于输入的加权矩阵，并对内部状态的权重矩阵进行正交初始化。

7.基于权利要求书1所述的字幕生成(四)，其特征在于，字幕生成由长短期记忆网络(LSTM)层通过对词的取样和学习，逐字生成，其中每个时间步的条件是从输入图像和显著性映射中提取特征，LSTM生成字幕的行为由以下等式驱动：

c_t＝f_t⊙c_t-1+i_t⊙g_t (4)

h_t＝o_t⊙φ(c_t) (6)

在每个时间步上，注意模型根据先前的LSTM状态选择图像的一个区域，并将其反馈到LSTM，这样，一个单词的生成就被局限在该特定区域上，而不是由整个图像驱动。

8.基于权利要求书7所述的权重，其特征在于，理想情况下，权重α_ti知道位置a_i的显著度值和上下文值，并以LSTM的当前状态为条件，通过其内部状态h_t进行编码，这样，生成网络可以根据其属于显著区域或上下文区域以及当前的生成状态来关注输入图像的不同位置，其中将注意力权重与显著值相乘会导致上下文的丢失，因此将注意力权重分为两个路径，一个负责上下文区域，一个负责显著性区域，并采用两个不同的完全连接网络来学习这两个路径，最终，这个模型遵循以下等式：

9.基于权利要求书7所述的长短期记忆网络层(LSTM)，其特征在于，对于文本部分，用独热向量对词语进行编码，其大小等于词汇量，然后通过线性变换学习将其投影到嵌入空间中，因为句子长度不同，它们被标记为特殊的开始字符串和结束字符串符号，以维持模型知道特定句子的开始和结束，给定一个图像和句子(y₀,y₁,…,y_T)，用一个独热向量对其进行编码，生成LSTM逐步对字幕的第一个字t进行调整，并对其进行训练生成字幕的下一个字，序列上正确单词的对数似然函数是一个优化的目标函数：

10.基于权利要求书1述的注意力状态分析(六)，其特征在于，从数据集中选取几个图像，两条路径之间的注意力权重发生了变化，对于每个图像，计算出每个时间步长的和值的平均值以及其可视化显著图，可以观察到这个模型利用这两个注意力途径生成字幕的不同部分，并且已经生成的字幕可以和所在区域对应起来，在生成字幕的过程中，显著度注意力途径比上下文注意力途径更具活力，显著度注意力途径比上下文注意力途径所占的权重更低。