CN109740599B

CN109740599B - 一种基于视觉增强gLSTM的图像描述生成方法

Info

Publication number: CN109740599B
Application number: CN201910005249.4A
Authority: CN
Inventors: 张静; 王振坤; 赵贤文; 王喆; 李冬冬
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2024-05-14
Anticipated expiration: 2039-01-03
Also published as: CN109740599A

Abstract

本发明公开了一种基于视觉增强gLSTM的图像描述生成方法。该方法通过分割图像的兴趣区域并提取CNN特征作为gLSTM模型的引导信息，在此基础上生成描述语句。兴趣区域是从图像中提取关键点，并在此基础上扩展为兴趣点区域得到的。然后将兴趣点密集区域和稀疏区域分割开，密集区域就是兴趣区域。接下来对图像兴趣区域提取CNN特征，将该特征作为gLSTM模型的视觉增强信息来生成图像描述语句。实验表明，该视觉增强方法可以有效地改善图像描述的结果，提升图像描述方法的准确性。

Description

一种基于视觉增强gLSTM的图像描述生成方法

技术领域

本发明主要涉及图像理解领域，具体涉及一种基于视觉增强gLSTM的图像描述生成方法。

背景技术

图像描述是计算机视觉的重要研究内容之一，也是当前的热点之一。其过程就是对给定图像生成语句来描述图像的内容。

图像描述的过程借鉴了机器翻译，通过卷积神经网络和循环神经网络的结合构建编码-解码的框架，提取图像的卷积特征并用于生成图像的描述语句。

发明内容

本发明的目的在于提出一种基于视觉增强gLSTM的图像描述生成方法，通过卷积神经网络提取图像特征，结合文本特征训练循环神经网络来生成图像描述语句。

本发明的技术方案如下：

(1)检测图像关键点：先对图像做不同程度的高斯平滑，再对这些图像做差分构成高斯金字塔提取图像关键点；

(2)过滤图像关键点，保留密集点区域：对每一个初始关键点统计其在预定义3×3像素滑窗内周围的关键点数量，并与阈值比较判断是否保留该关键点；

(3)扩展关键点，获取兴趣区域：以关键点为中心，扩展为7×7像素的黑色矩形框，然后从图像的中间列向两侧统计相邻两列的扩展区域像素点的像素差，并根据阈值确定兴趣区域；

(4)提取图像特征：将图像输入预训练的VGG16卷积神经网络，并提取最后一层全连接层的向量作为图像特征；

(5)映射图像特征和文本特征：计算文本词袋模型的特征向量，并将图像特征和文本特征映射到同一空间得到引导信息；

(6)生成图像描述语句：将图像特征和基于兴趣区域的引导信息输入gLSTM中生成图像描述语句。

附图说明

图1基于视觉增强gLSTM的图像描述生成方法流程图

图2卷积神经网络VGG16示意图

图3视觉增强gLSTM网络模块示意图

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明所述的基于视觉增强gLSTM的图像描述生成方法流程图如图1所示，图1包括8个单元。

单元100为高斯差分。高斯差分是使用高斯函数对图像进行平滑计算的过程，高斯函数如下所示：

其中x和y分别表示图像的宽和高，σ表示正态分布的标准差，高斯平滑的结果L如下所示：

L(x,y,σ)＝G(x,y,σ)×I(x,y)

其中I表示待检测图像，高斯差分的计算如下所示：

D(x,y,σ,k)＝L(x,y,kσ)-L(x,y,σ)

单元101为检测关键点。通过高斯差分计算得到初始关键点，定义为其中S_i表示第i个图像中的关键点的数量。

单元102为过滤关键点。图像中初始关键点的分布有些区域密集，有些区域稀疏，因此在表示图像内容之前需要过滤分布稀疏的关键点使得关键点的分布更加密集，在本发明中通过函数来判断是否保留关键点：

其中l是一个统计函数，表示在预定义3×3矩阵包含的关键点数量，当取值为1时表示保留该点，否则移除该点，阈值L的定义如下所示：

单元103为扩展关键点。以关键点为中心扩展为7×7黑色矩形框，便于分割图像的兴趣区域。

单元104为获取兴趣区域。从图像的中间分别向左右统计图像中相邻两列扩展区域的像素点数量差，若差异大于阈值50，则确定为兴趣区域边界。

单元105为提取图像文本特征。将图像兴趣区域输入VGG16卷积神经网络并提取网络中最后全连接层的向量作为图像特征，获得的图像特征为4096维的向量，VGG16网络结构如图2所示，包括卷积层、池化层以及全连接层。文本特征使用词袋模型构建向量，词袋模型是信息检索领域常用的文档表示方法，忽略文档中单词的顺序、语法和句法等要素，将文本当做若干词汇的集合，词袋模型向量作为文本特征。

单元106为典型相关分析计算。典型相关分析的目的在于将两种模态映射到相同的空间，在接下来将图像映射信息作为引导信息输入到gLSTM中，典型相关分析计算如下所示：

U＝a^T·CNN

V＝b^T·BoW

其中CNN表示图像特征，BoW表示文本特征，a和b是典型相关分析中最大化Corr(U,V)期望得到的权重矩阵。

单元107为生成描述语句。在gLSTM中将卷积神经网络中生成的全连接层图像特征作为输入，图像兴趣区域引导信息用于引导生成图像描述语句，gLSTM的模块结构如图3所示，其中g表示图像引导信息。

Claims

1.一种基于视觉增强gLSTM的图像描述生成方法，其特征包括以下步骤：

(1)通过高斯差分检测算子检测图像关键点；

(2)统计初始关键点周围3×3像素滑窗内的关键点数量，通过阈值比较保留密集点区域；

(3)扩展关键点为7×7像素的矩形框，从中间列向两侧统计相邻两列的像素差，并根据阈值分割为兴趣区域；

(4)将图像兴趣区域输入卷积神经网络提取特征；

(5)图像特征和文本词袋模型特征进行典型相关分析计算，得到图像映射特征；

将图像的映射特征作为gLSTM的引导信息生成描述语句；过滤图像关键点，其具体步骤如下：

(1)统计每一个初始关键点在预定义3×3像素滑窗内周围的关键点数量；

(2)针对每个图像统计初始关键点阈值：图像初始关键点数量小于等于70时，定义阈值为1；图像初始关键点数量大于70且小于等于450时，定义阈值为3；图像初始关键点数量大于450且小于等于950时，定义阈值为4；图像初始关键点数量大于950时，定义阈值为5；

(3)每一个初始关键点周围的关键点数量大于等于阈值判断为1，表示保留该点；否则判断为0，表示移除该点；

以初始关键点为中心，扩展为7×7像素的黑色矩形框，并对图像中该区域进行分割，具体步骤如下：

(1)从原图像的中间列向左统计图像每一列中关键点扩展区域的黑色像素数量，并计算相邻两列扩展区域像素点数量差，若差异大于阈值50，则选定该列为兴趣区域左侧边界；

(2)从原图像的中间列向右统计图像每一列中关键点扩展区域的黑色像素数量，并计算相邻两列扩展区域像素点数量差，若差异大于阈值50，则选定该列为兴趣区域右侧边界；

通过将图像兴趣区域部分输入VGG16卷积神经网络，提取最后全连接层的特征；

对图像特征和文本词袋模型特征进行典型相关分析计算，其具体步骤如下：

(1)通过词袋模型计算文本特征向量；

(2)通过对图像特征和文本特征的典型相关分析计算将两者映射到同一特征空间；

将图像特征和基于兴趣区域的引导信息输入gLSTM中生成图像描述语句。