CN110490254A

CN110490254A - 一种基于双重注意力机制层次网络的图像语义生成方法

Info

Publication number: CN110490254A
Application number: CN201910766684.9A
Authority: CN
Inventors: 郭杨; 刘康; 佐江宏; 常青; 管志斌; 高鑫; 关瑞荣; 郭素芳
Original assignee: Wuyang Coal Mine Of Shanxi Lu'an Environmental Energy Development Co ltd; China University of Mining and Technology Beijing CUMTB
Current assignee: Wuyang Coal Mine Of Shanxi Lu'an Environmental Energy Development Co ltd; China University of Mining and Technology Beijing CUMTB
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-11-22
Anticipated expiration: 2039-08-20
Also published as: CN110490254B

Abstract

本发明提出一种基于序列化双重注意力机制层次网络的图像语义生成方法，该方法基于ResNet‑152网络模型、LSTM的双层堆栈RNN网络，不仅可以检测出图像的粗粒度特征信息，还可以检测出图像子区域中的细粒度特征信息，使用粗粒度‑细粒度的层次网络结构生成详细的图像语义描述信息，提高图像语义信息生成方法的鲁棒性。

Description

一种基于双重注意力机制层次网络的图像语义生成方法

技术领域

本发明属于图像处理及模式识别领域，尤其涉及一种基于序列化双重注意力机制层次网络的图像语义生成方法。

背景技术

图像语义自动生成技术作为连接图像与文字的桥梁，对于语义图像搜索及聊天机器人视觉监控系统等场景理解应用领域中具有重要作用。图像语义生成技术的目标在于机器生成的文字能够尽可能地精确表达出图像内容，具有良好的发展和应用前景。

图像语义生成技术主要有：模板匹配法、检索法、人工神经网络。

模板匹配法通过将预测的名词、动词和语态填充到预定义的句法结构内生成描述语句。早期的模板匹配法仅仅对图像中的内容进行直译，缺少度量图像与描述文字之间的相互关系。Farhadi等提出通过使用中间特征向量计算置信关联度描述图像与文字之间的关系。Kulkarni等提出利用统计学习的方法解析学习大量的文本数据，并且使用计算机视觉中的目标识别算法检测图像中的目标特征，达到生成与图像内容更相关的文字描述。Yang等提出使用隐马尔科夫模型整合图像感知和语义生成过程，但该算法对于错误检测出的目标无法生成准确的文字描述。

检索法重复检索使用固定标签图像的描述语句，无法生成新颖的文字描述。Kuznetsova等提出数据驱动模式的启发式方法，同时利用图像特征和语言描述特征生成语义。给定原始图像，该方法利用图像相似度值从语义专家库中检索人类标注语句。Mason等提出非参数密度估计方法从多种语义中检索出最适宜的文字描述。

上述两种方法都需要预先定义语义模板，并且不能根据不同的图像内容生成新颖的文字描述。

人工神经网络使用编码-解码框架生成语义描述，首先使用编码器将图像映射为固定长度的向量，然后将解码器利用该向量生成最终的文字描述。目前编码器的底层实现使用卷积神经网络技术，例如CNNs，解码器的底层实现使用循环神经网络技术，例如RNNs。人工神经网络方法的优势在于无需预定义固定句法模板的前提下，可自行生成新颖文字描述内容。然而，现有的方法仅能够检测出图像的粗粒度特征信息，只可使用相似的文字描述图像的主旨内容，缺少对图像细节信息的文字描述。

发明内容

针对现有技术中无法生成完整的图像语义描述的不足，本发明提出一种基于序列化双重注意力机制层次网络的图像语义生成方法，该方法不仅可以检测出图像的粗粒度特征信息，还可以检测出图像子区域中的细粒度特征信息，使用粗粒度-细粒度的层次网络结构生成详细的图像语义描述信息，提高图像语义信息生成方法的鲁棒性。

本发明的上述目的通过独立权利要求的技术特征实现，从属权利要求以另选或有利的方式发展独立权利要求的技术特征。

为达成上述目的，本发明所采用的技术方案如下：

一种基于双重注意力机制层次网络的图像语义生成方法，其实现包括以下步骤：

步骤1、原始图像采集及预处理，对采集的原始图像进行尺度归一化，得到大小和分辨率统一的图像，将图像大小设置为224X224像素；

步骤2、获取粗粒度视觉特征信息：

1）、使用ResNet-152网络模型从每幅原始图像中提取出的全局图像特征维度向量，并设置固定维度为2048维；

2）、使用ResNet-152网络模型通过池化层的平均池化操作提取子空间特征映射图集合，平均池化层窗口大小为14X14像素；

步骤3、获得细粒度视觉特征信息：

将预处理过的原始图像作为Faster-RCNN网络模型的输入，得到原始图像中的目标特征和属性特征，合并得到细粒度视觉特征信息，目标特征和属性特征的特征向量维度为2048维，所述的目标特征为原始图像中检测目标的边界框，所述属性特征为原始图像中检测目标的类别标签；

步骤4、使用序列化双重注意力机制网络模型融合不同细粒度的图像特征；

步骤5、将步骤4的输出结果输入基于LSTM的双层堆栈RNN网络的语义生成模型，生成最终的图像语义描述文本，并且使用LSTM结构单元处理累积的长序列信息。

其中，边界框中包含检测目标丰富的视觉信息。

其中，利用1X1卷积核将每一个子空间特征映射图映射到固定维度为2048维向量。

所述不同细粒度的图像特征，包括语义生成模型的隐含层信息、子空间特征映射图集合、目标特征和属性特征。

所述目标特征和属性特征的特征向量维度为2048维，是通过使用1024维的中间层将目标特征和属性特征映射到2048维。

所述序列化双重注意力机制网络模型融合不同细粒度的图像特征的方法是：

1)、使用余弦相似度度量准则计算特征信息向量之间的相似度，

；

2)、使用条件概率密度函数更新每个时间戳中输入特征的权重值，

上式中权重值满足限制条件：；

3)、在空间注意力机制中，分别使用步骤1和步骤2中的计算公式计算某一时刻t，每个子空间映射图与隐含状态之间的相似度和注意力权重。然后，使用计算后的相似度和注意力权重的值计算融合特征向量，

；

4)、在目标注意力机制中，某一时刻t，使用步骤3中的融合特征向量计算每个特征向量的注意力权值，

。

本发明提出的基于序列化双重注意力机制层次网络的图像语义生成方法，能够从原始图像中提取出不同细粒度的视觉信息，包括：全局图像特征、子空间特征映射图集合、目标特征和属性特征，该方法将上述所有的特征以序列化的方式进行处理并生成文字描述信息。从而在整体上提高特征的可识别性，能够很大程度上提升图像语义文字生成的准确度和正确率。

相对于现有技术，其有益效果体现在以下几个方面：

1、本发明基于序列化的双重注意力机制进行生成语义，该网络结构可融合不同细粒度的视觉特征信息，提高语义生成的鲁棒性；

2、本发明基于层次结构化的处理流程，由粗粒度向细粒度的不断进行特征提取与抽象，使得网络结构能够发现原始图像中更多的细节信息，进而生成完整的语义描述；

3、本发明基于ResNet-152和Faster-RCNN神经网络结构，其都属于深度卷积神经网络，通过所构建的多层卷积结构，由低层次向高层次进行特征抽象，因而能够提高算法的抗干扰能力和识别率。与传统的机器学习算法相比，具有大幅度的提高。

附图说明

图1为本发明基于序列化双重注意力机制层次网络的图像语义生成方法的流程示意图；

图2为本发明基于序列化双重注意力机制层次网络的图像语义生成方法采用的序列化双重注意力机制原理图；

图3为本发明基于序列化双重注意力机制层次网络的图像语义生成方法采用的语义生成模型原理图；

图4为本发明基于序列化双重注意力机制层次网络的图像语义生成方法采用的语义生成模型使用的LSTM单元结构图。

具体实施方式

为了更了解本发明的技术内容，下面结合附图对本发明的具体实施方式进行详细说明。

S1：原始图像采集及预处理

S11：对采集的原始图像进行尺度归一化，得到大小和分辨率统一的图像，将图像大小设置为224X224像素。

S2：使用ResNet-152网络模型提取全局图像特征

S21：使用大规模ImageNet分类图像数据集预训练ResNet-152网络模型，更新网络权重值，并将ResNet-152网络模型的输出向量维度固定为2048维。将ResNet-152网络模型的输出值作为原始图像的全局图像特征向量g，且该特征属于粗粒度视觉特征信息。

S3：使用ResNet-152网络模型提取子空间特征映射集合，

S31：大规模ImageNet分类图像数据集预训练ResNet-152网络模型中最后一层的卷积层输出结果是多通道特征映射值，通过后续的池化层的平均池化操作，从多通道特征映射值中提取一系列的区域特征映射图，进而生成子空间特征映射图集合。本发明将平均池化层的窗口大小设置为14X14像素。使用1X1卷积核将每一个子空间特征映射图映射到固定维度为2048维向量。

S4：使用Faster-RCNN网络模型提取目标特征信息

S41：将预处理后的图像输入到Faster-RCNN网络模型，网络模型输出原始图像中检测目标的边界框，该边界框中包含检测目标丰富的视觉信息，作为目标特征信息。=。

S5：使用Faster-RCNN网络模型提取属性特征信息

S51：将预处理后的图像输入到Faster-RCNN网络模型，网络模型输出原始图像中检测目标的类别标签，该标签由简单的文本信息描述。由于生成的标签信息无法直接形成完整的句子，本发明仅仅使用每个类别标签特征向量作为属性特征信息。使用1024维中间层将属性特征向量映射到2048维。。由此可计算出最终的细粒度特征向量。。

S6：使用序列化双重注意力机制融合不同细粒度的视觉特征信息，包含两部分：空间注意力机制和目标注意力机制

S61：使用粗粒度-细粒度层次处理视觉信息的方式对语义生成模型的隐含层信息、子空间特征映射图集合、目标特征和属性特征四个特征信息序列化的处理融合。利用软注意力机制可将上述四种信息直接嵌入到语义生成模型中训练；

S62：使用余弦相似度度量准则计算特征信息向量之间的相似度。

S63：使用条件概率密度函数更新每个时间戳中输入特征的权重值。

上式中权重值满足限制条件：。

S64：在空间注意力机制中，分别使用步骤S62和步骤S63中的计算公式计算某一时刻t，每个子空间映射图与隐含状态之间的相似度和注意力权重。然后，使用计算后的相似度和注意力权重的值计算融合特征向量。

S65：在目标注意力机制中，某一时刻t，使用步骤S64中的融合特征向量计算每个特征向量的注意力权值值。

S66：使用步骤S65中生成的嵌入到语义生成模型中进行训练。

S7：步骤S6中的序列化双重注意力机制可以嵌入到图像语义生成模型中。本发明使用基于LSTM的堆栈式两层RNN网络模型，用于生成准确的图像语义描述。

S71：本发明使用LSTM作为语义生成模型的基础节点的意义在于其可以累积长时间跨度的序列化信息。附图4表示LSTM单元包含四个重要门限：输入门、遗忘门、输出门和记忆门。表示在某一时刻t，LSTM单元的输入信息；表示时刻LSTM单元的隐含状态；Sigma表示sigmoid函数，tanh表示tanh函数。

S72：使用表示t时刻LSTM单元的累积信息。

上式中表示时刻累积信息。

S73：使用表示LSTM单元t时刻隐含状态。

S74：在语义生成模型的第一层，使用全局图图像特征和预先生成的单词计算语义模型的输入信息。

上式中属于生成文本句子S，且S表示单词集合。

S75：语义生成模型第一层输出的隐含状态计算方式如下：

S76：使用步骤S75中隐含状态和融合特征向量计算语义生成模型第二层的输入信息：

S77：语义生成模型第二层输出的隐含状态，其结果是融合向量，计算方式如下：

S78：在t时刻，通过前序生成的单词和视觉特征向量来生成当前时刻的单词，其生成概率密度函数为：

S79：图像语义描述文字是由每个时刻生成的单词组合而成，因此最终的语义模型概率密度函数可由每个时刻单词的概率密度函数乘积计算：

S710：语义生成模型使用负交叉熵损失函数作为目标函数：

上式中表示语义生成模型的参数，包含权重参数和。

如上述内容所述，本发明提出的一种基于序列化双重注意力机制层次网络的图像语义生成方法，其中的图像预处理、全局图像特征提取、子空间特征映射集合、目标特征向量、属性特征向量的作用、功能及其实现均已在前述的实施方式中予以相应的说明。

本发明以较佳实施方式如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神范围和范围内，当可作各种的更改与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于双重注意力机制层次网络的图像语义生成方法，其实现包括以下步骤：

步骤2、获取粗粒度视觉特征信息：

步骤3、获得细粒度视觉特征信息：

2.根据权利要求1所述的基于双重注意力机制层次网络的图像语义生成方法，其特征在于：边界框中包含检测目标丰富的视觉信息。

3.根据权利要求1所述的基于双重注意力机制层次网络的图像语义生成方法，其特征在于：利用1X1卷积核将每一个子空间特征映射图映射到固定维度为2048维向量。

4.根据权利要求1所述的基于双重注意力机制层次网络的图像语义生成方法，其特征在于：所述不同细粒度的图像特征，包括语义生成模型的隐含层信息、子空间特征映射图集合、目标特征和属性特征。

5.根据权利要求1所述的基于双重注意力机制层次网络的图像语义生成方法，其特征在于：所述目标特征和属性特征的特征向量维度为2048维，是通过使用1024维的中间层将目标特征和属性特征映射到2048维。

6.根据权利要求1所述的基于双重注意力机制层次网络的图像语义生成方法，其特征在于：所述序列化双重注意力机制网络模型融合不同细粒度的图像特征的方法是：

1)、使用余弦相似度度量准则计算特征信息向量之间的相似度

；

上式中权重值满足限制条件：；

3)、在空间注意力机制中，分别使用步骤1和步骤2中的计算公式计算某一时刻t，每个子空间映射图与隐含状态之间的相似度和注意力权重，

然后，使用计算后的相似度和注意力权重的值计算融合特征向量，

；

4)、在目标注意力机制中，某一时刻t，使用步骤3中的融合特征向量计算每个特征向量的注意力权值

。