CN114708474A

CN114708474A - 一种融合局部和全局特征的图像语义理解算法

Info

Publication number: CN114708474A
Application number: CN202210244292.8A
Authority: CN
Inventors: 贾海涛; 王云; 余梦鹏; 李玉琳; 张钰琪; 李彧; 任利; 贾宇明
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-07-05

Abstract

本发明属于图像描述领域，具体为一种融合局部和全局特征的图像语义理解方法。图像中包含丰富的语义信息，包括图像中的目标、目标的属性以及不同目标之间的相互关系等，传统的目标检测、图像分割等技术并不能达到挖掘所有这些信息的目的，给图片生成文字描述的图像语义理解算法可以深入挖掘图片中的各种语义信息，对于理解图片的内容，缩减图片和文字之间的“语义鸿沟”具有重大意义。当前的图像语义理解算法依赖于计算机视觉和自然语言处理技术的发展，主要使用在机器翻译领域流行的编解码框架，其中编码器提取图像特征，解码器将提取的图像特征翻译成文字描述。然而当前的编码器大多采用基于目标检测的方法，这样往往会丢失图像背景和一些细节信息，使得描述效果不够理想。因此本发明对基于编解码框架的的图像语义理解算法进行了相应改进，提高编码器提取图像特征的能力，从而使得生成的描述语句更加准确。

Description

一种融合局部和全局特征的图像语义理解算法

技术领域

本发明属于图像描述领域，具体涉及一种融合局部和全局特征的图像语义理解方法。

背景技术

图像中包含丰富的语义信息，包括图像中的目标、目标的属性以及不同目标之间的相互关系等，传统的目标检测、图像分割等技术并不能达到挖掘所有这些信息的目的，给图片生成文字描述的图像语义理解算法可以深入挖掘图片中的各种语义信息，对于理解图片的内容，缩减图片和文字之间的“语义鸿沟”具有重大意义。当前的图像语义理解算法依赖于计算机视觉和自然语言处理技术的发展，主要使用在机器翻译领域流行的编解码框架，其中编码器提取图像特征，解码器将提取的图像特征翻译成文字描述。

发明内容

本发明要解决的技术问题是：基于编解码框架的图像语义理解算法框架进行改进，改进后算法的效果比原算法更好。

本发明基于Bottom-Up Attention的编解码框架进行改进，包括以下步骤：

步骤1：输入一张图像，使用Resnet101网络对图像提取全局特征；

其中步骤1的具体步骤为：

步骤101：使用在ImageNet上面预训练的Resnet101网络处理图像，取 resnet101第四个卷积块conv4_x的最后一层res4b22c的输出特征图。

步骤2：对提取到的全局特征进行多尺度池化操作；

其中步骤2的具体步骤为：

步骤201：采用平均池化方式，处理步骤101的输出，得到1×1×C、2×2 ×C、3×3×C和6×6×C的结果；

步骤202：使用1×1卷积核对步骤201池化之后的四种不同尺度的特征图进行降维得到1×1×C/4、2×2×C/4、3×3×C/4和6×6×C/4的结果；

步骤203：使用双线性插值的方法对步骤202的输出进行上采样，上采样之后的维度为14×14；

步骤204：将步骤203的输出进行拼接得到14×14×C的输出。

步骤3：将全局特征和多尺度池化操作之后的特征进行拼接操作；

步骤4：对拼接之后的特征进行均匀池化得到与bottom-up同维度的特征向量；

步骤5：将bottom-up特征和步骤4中均匀池化之后的特征一起输入到融合网络进行融合，得到融合特征；

其中步骤5的具体步骤为：

步骤501：融合网络模块在输入LSTM隐藏状态和全局特征与局部特征之后，使用双曲正切tanh激活函数处理得到全局和各个局部特征分量的权重；

步骤502：使用softmax对前面的权重进行归一化处理，将归一化处理得到的权重与对应的特征向量相乘再累加就得到融合特征。

步骤6：将步骤4中均匀池化之后的特征和上一时刻生成的单词的词向量以及第二层LSTM上一时刻的隐藏层的输出拼接之后输入第一层LSTM网络；

步骤7：将步骤5的融合特征和第一层LSTM的输出拼接之后输入第二层 LSTM；

步骤8：将第二层LSTM当前时刻的隐藏层输出输入到softmax层，得到单词的概率分布；

步骤9：根据步骤8的单词的概率分布，将分布值最大的值对应的单词作为输出，得到当前时刻生成的单词；

其中步骤9的具体步骤为：

步骤901：根据步骤8中得到的单词概率分布，使用argmax函数处理概率分布，得到最大概率值对应的索引，从词汇表中输出索引对应的单词即为当前时刻生成的单词。

步骤10：将每个时刻输出的单词按序组合成描述语句，直到输出结束标志符或者输出达到最大长度时，得到的语句为图像的描述语句。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

(1)解决了传统编码器使用目标检测算法提取图像特征时只能提取显著目标特征而忽略图像背景的问题，从而使得生成的描述更加详细；

(2)对提取的全局特征进行多尺度池化操作使得提取的特征包含更多的多尺度和多通道信息，可以更加准确的指导解码器生成图像描述。

(3)对全局特征和局部特征使用自适应分配权重的方法进行融合，可以避免全局特征中引入的噪声对生成的描述产生干扰。

附图说明

图1融合局部和全局特征的图像语义理解算法的网络框架图

图2 Faster R-CNN提取语义特征的结果图

图3多尺度池化框架图

图4融合框架图

图5双层LSTM架构图

具体实施方式

融合局部和全局特征的图像语义理解算法的网络结构如图1所示。

在基于编解码框架的图像语义理解算法中，往往采用基于目标检测的 faster-RCNN网络提取图像特征，然后再将提取的特征输入到解码器解码生成文字描述，但是由于目标检测算法的特点，目标检测算法一般只能检测到图片中显著的目标，而对于一些背景和细小目标却往往会被丢失掉，使用Faster R-CNN 提取语义特征的结果如图2所示，图片中的天空和雪地被忽视了，这样的特征输入到解码器之后，由于缺少图片完整的信息，必然会使得生成的描述语句不能完整准确的描述图片内容。

Resnet网络通过引入残差连接可以极大的增加网络的深度，可以有效的挖掘图像的信息，在图像语义理解领域常被用来提取图像的全局特征，为了充分提取特征的多尺度和多通道信息，这里对resnet提取的特征进行多尺度池化操作，多尺度池化方式如图3所示，从四个不同的尺度来提取图像特征，常见的池化方式有平均池化和最大池化，但是最大池化不能反映特征图的整体分布情况，因此为了能够充分反映特征图的整体分布情况，在我们的模型中，统一采用了平均池化的方式；最上面一个分支，采用全局池化的方式，可以提取全局上下文信息，但是它缺失了图片的空间位置等信息；下面三个分支分别采用不同的尺度进行池化，使得池化之后的特征图的维度分别为2×2×C、3×3×C和6×6×C。池化之后使用1×1卷积核对四种不同尺度的特征图进行降维，使得维度变成C/4，同时还可以挖掘不同通道之间的相互关系，增加非线性。在降维之后，为了方便后续的拼接，采用双线性插值对四种尺度的特征图进行上采样，使四种不同尺度池化的特征图都变成H×W×C/4的尺寸；接着将这四种特征图拼接成一个H×W× C的特征图；最后受残差思想的启发，为了使得最后的特征图保留拼接之前的特征信息，将原图和拼接图再次拼接组合成一个通道数为原特征图两倍的融合特征图V_fuse，其尺寸为H×W×2C，经过前面的分析可知，经过多尺度池化模块处理的特征图V_fuse将包含丰富的全局信息、多尺度信息和通道信息，对比直接提取的特征图来说，前者将能够更好的指导图像生成文字描述。

为了使得经过多尺度池化模块处理的特征图V_fuse可以和bottom-up特征进行融合，将V_fuse特征经过均匀池化和flatten操作转换成1×2048维的特征v_global，将和bottom-up特征一起输入融合网络进行融合，整个融合过程如图4所示，融合网络为一个感知机，输入为全局特征和局部特征以及LSTM网络的隐藏层输出，融合网络根据每时刻要生成的单词动态的给全局特征和局部特征分配权重，权重分配公式如公式(1)，再使用softmax函数对(1)的结果进行归一化处理如公式(2)所示，融合网络的输出为各个特征和对应分配的权重的乘积累加，具体如公式(3)。

α_i,t＝ω_a ^T tanh(W_vav_i+W_ha h_t ¹) (1)

α_t＝softmax(a_t) (2)

其中ω_a ^T、W_va和W_ha为感知机需要训练的参数，v_i为局部特征中的L个区域中的一个特征，h_t ¹为第一层LSTM在当前时刻的输出，通过分配权重的方式进行特征融合可以使得解码器在生成单词的过程中根据特征对单词的重要性自适应的选择重要的特征分配权重，同时由于全局特征中也可能引入噪声，自适应的分配权重可以通过给噪声分配较低的权重或者不分配权重来消除噪声的影响，对比通过直接将全局特征和局部特征做拼接来融合的方式要更加合理。

上述为编码端的改进，解码端使用经典的top-down双层LSTM框架，该解码器的结构如图5所示，将经过融合网络处理的融合特征按照bottom-up and top-down原始连接方式输入top-down双层LSTM网络就可以组成完整的改进的编解码框架。在解码器中使用y_1:T表示生成的单词序列(y₁,y₂……y_T)，在每个时刻t生成单词yt的条件概率为公式(4)：

其中W_p∈R^N×M为学习参数，b_p为偏差项，完整的句子输出的概率可以由概率的乘法公式得出如公式(5)所示：

给定指定的图片和对应的语句描述，我们以最小化公式(6)所示的交叉熵损失函数来训练学习参数。

L_XE(θ)＝-∑log(p_θ(y_t ^*|y_1:t-1 ^*)) (6)

在交叉熵损失的训练过程中存在“曝光偏差”的问题，在训练阶段每次都是将标注语句的单词输入解码器指导生成下一个单词，但是在测试阶段，确是将上一时刻生成的单词的词向量输入解码器引导生成下一个单词，如果生成的单词出现错误或者偏差，就会使得后续语句的生成出现累积误差，因此为了进一步提升编解码器的性能，在训练阶段采用强化学习的方法进行训练，具体使用SCST两阶段训练法，以CIDEr作为奖励，进行训练，其中第一阶段使用交叉熵损失预训练，第二阶段在预训练的基础上使用强化学习进行微调训练得到最后的模型参数。

Claims

1.一种融合局部和全局特征的图像语义理解算法，其特征在于，包括下列步骤：

步骤2：对提取到的全局特征进行多尺度池化操作；

步骤7：将步骤5的融合特征和第一层LSTM的输出拼接之后输入第二层LSTM；

2.根据权利要求1所述的融合局部和全局特征的图像语义理解算法，其特征在于，所述步骤1中提取全局特征的方法具体为：

步骤101：使用在ImageNet上面预训练的Resnet101网络处理图像，取resnet101第四个卷积块conv4_x的最后一层res4b22c的输出特征图。

3.根据权利要求1所述的融合局部和全局特征的图像语义理解算法，其特征在于，所述步骤2中多尺度池化的操作方法具体为：

步骤201：采用平均池化方式，处理步骤101的输出，得到1×1×C、2×2×C、3×3×C和6×6×C的结果；

步骤204：将步骤203的输出进行拼接得到14×14×C的输出。

4.根据权利要求1所述的融合局部和全局特征的图像语义理解算法，其特征在于，所述步骤5中全局特征和局部特征的融合方法具体为：

5.根据权利要求1所述的融合局部和全局特征的图像语义理解算法，其特征在于，所述步骤9中生成单词的方法具体为：