CN109740599B - 一种基于视觉增强gLSTM的图像描述生成方法 - Google Patents
一种基于视觉增强gLSTM的图像描述生成方法 Download PDFInfo
- Publication number
- CN109740599B CN109740599B CN201910005249.4A CN201910005249A CN109740599B CN 109740599 B CN109740599 B CN 109740599B CN 201910005249 A CN201910005249 A CN 201910005249A CN 109740599 B CN109740599 B CN 109740599B
- Authority
- CN
- China
- Prior art keywords
- image
- features
- interest
- key points
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000000007 visual effect Effects 0.000 title claims abstract description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000010219 correlation analysis Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 2
- 238000009499 grossing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- CNQCVBJFEGMYDW-UHFFFAOYSA-N lawrencium atom Chemical compound [Lr] CNQCVBJFEGMYDW-UHFFFAOYSA-N 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于视觉增强gLSTM的图像描述生成方法。该方法通过分割图像的兴趣区域并提取CNN特征作为gLSTM模型的引导信息,在此基础上生成描述语句。兴趣区域是从图像中提取关键点,并在此基础上扩展为兴趣点区域得到的。然后将兴趣点密集区域和稀疏区域分割开,密集区域就是兴趣区域。接下来对图像兴趣区域提取CNN特征,将该特征作为gLSTM模型的视觉增强信息来生成图像描述语句。实验表明,该视觉增强方法可以有效地改善图像描述的结果,提升图像描述方法的准确性。
Description
技术领域
本发明主要涉及图像理解领域,具体涉及一种基于视觉增强gLSTM的图像描述生成方法。
背景技术
图像描述是计算机视觉的重要研究内容之一,也是当前的热点之一。其过程就是对给定图像生成语句来描述图像的内容。
图像描述的过程借鉴了机器翻译,通过卷积神经网络和循环神经网络的结合构建编码-解码的框架,提取图像的卷积特征并用于生成图像的描述语句。
发明内容
本发明的目的在于提出一种基于视觉增强gLSTM的图像描述生成方法,通过卷积神经网络提取图像特征,结合文本特征训练循环神经网络来生成图像描述语句。
本发明的技术方案如下:
(1)检测图像关键点:先对图像做不同程度的高斯平滑,再对这些图像做差分构成高斯金字塔提取图像关键点;
(2)过滤图像关键点,保留密集点区域:对每一个初始关键点统计其在预定义3×3像素滑窗内周围的关键点数量,并与阈值比较判断是否保留该关键点;
(3)扩展关键点,获取兴趣区域:以关键点为中心,扩展为7×7像素的黑色矩形框,然后从图像的中间列向两侧统计相邻两列的扩展区域像素点的像素差,并根据阈值确定兴趣区域;
(4)提取图像特征:将图像输入预训练的VGG16卷积神经网络,并提取最后一层全连接层的向量作为图像特征;
(5)映射图像特征和文本特征:计算文本词袋模型的特征向量,并将图像特征和文本特征映射到同一空间得到引导信息;
(6)生成图像描述语句:将图像特征和基于兴趣区域的引导信息输入gLSTM中生成图像描述语句。
附图说明
图1基于视觉增强gLSTM的图像描述生成方法流程图
图2卷积神经网络VGG16示意图
图3视觉增强gLSTM网络模块示意图
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明所述的基于视觉增强gLSTM的图像描述生成方法流程图如图1所示,图1包括8个单元。
单元100为高斯差分。高斯差分是使用高斯函数对图像进行平滑计算的过程,高斯函数如下所示:
其中x和y分别表示图像的宽和高,σ表示正态分布的标准差,高斯平滑的结果L如下所示:
L(x,y,σ)=G(x,y,σ)×I(x,y)
其中I表示待检测图像,高斯差分的计算如下所示:
D(x,y,σ,k)=L(x,y,kσ)-L(x,y,σ)
单元101为检测关键点。通过高斯差分计算得到初始关键点,定义为其中Si表示第i个图像中的关键点的数量。
单元102为过滤关键点。图像中初始关键点的分布有些区域密集,有些区域稀疏,因此在表示图像内容之前需要过滤分布稀疏的关键点使得关键点的分布更加密集,在本发明中通过函数来判断是否保留关键点:
其中l是一个统计函数,表示在预定义3×3矩阵包含的关键点数量,当取值为1时表示保留该点,否则移除该点,阈值L的定义如下所示:
单元103为扩展关键点。以关键点为中心扩展为7×7黑色矩形框,便于分割图像的兴趣区域。
单元104为获取兴趣区域。从图像的中间分别向左右统计图像中相邻两列扩展区域的像素点数量差,若差异大于阈值50,则确定为兴趣区域边界。
单元105为提取图像文本特征。将图像兴趣区域输入VGG16卷积神经网络并提取网络中最后全连接层的向量作为图像特征,获得的图像特征为4096维的向量,VGG16网络结构如图2所示,包括卷积层、池化层以及全连接层。文本特征使用词袋模型构建向量,词袋模型是信息检索领域常用的文档表示方法,忽略文档中单词的顺序、语法和句法等要素,将文本当做若干词汇的集合,词袋模型向量作为文本特征。
单元106为典型相关分析计算。典型相关分析的目的在于将两种模态映射到相同的空间,在接下来将图像映射信息作为引导信息输入到gLSTM中,典型相关分析计算如下所示:
U=aT·CNN
V=bT·BoW
其中CNN表示图像特征,BoW表示文本特征,a和b是典型相关分析中最大化Corr(U,V)期望得到的权重矩阵。
单元107为生成描述语句。在gLSTM中将卷积神经网络中生成的全连接层图像特征作为输入,图像兴趣区域引导信息用于引导生成图像描述语句,gLSTM的模块结构如图3所示,其中g表示图像引导信息。
Claims (1)
1.一种基于视觉增强gLSTM的图像描述生成方法,其特征包括以下步骤:
(1)通过高斯差分检测算子检测图像关键点;
(2)统计初始关键点周围3×3像素滑窗内的关键点数量,通过阈值比较保留密集点区域;
(3)扩展关键点为7×7像素的矩形框,从中间列向两侧统计相邻两列的像素差,并根据阈值分割为兴趣区域;
(4)将图像兴趣区域输入卷积神经网络提取特征;
(5)图像特征和文本词袋模型特征进行典型相关分析计算,得到图像映射特征;
将图像的映射特征作为gLSTM的引导信息生成描述语句;过滤图像关键点,其具体步骤如下:
(1)统计每一个初始关键点在预定义3×3像素滑窗内周围的关键点数量;
(2)针对每个图像统计初始关键点阈值:图像初始关键点数量小于等于70时,定义阈值为1;图像初始关键点数量大于70且小于等于450时,定义阈值为3;图像初始关键点数量大于450且小于等于950时,定义阈值为4;图像初始关键点数量大于950时,定义阈值为5;
(3)每一个初始关键点周围的关键点数量大于等于阈值判断为1,表示保留该点;否则判断为0,表示移除该点;
以初始关键点为中心,扩展为7×7像素的黑色矩形框,并对图像中该区域进行分割,具体步骤如下:
(1)从原图像的中间列向左统计图像每一列中关键点扩展区域的黑色像素数量,并计算相邻两列扩展区域像素点数量差,若差异大于阈值50,则选定该列为兴趣区域左侧边界;
(2)从原图像的中间列向右统计图像每一列中关键点扩展区域的黑色像素数量,并计算相邻两列扩展区域像素点数量差,若差异大于阈值50,则选定该列为兴趣区域右侧边界;
通过将图像兴趣区域部分输入VGG16卷积神经网络,提取最后全连接层的特征;
对图像特征和文本词袋模型特征进行典型相关分析计算,其具体步骤如下:
(1)通过词袋模型计算文本特征向量;
(2)通过对图像特征和文本特征的典型相关分析计算将两者映射到同一特征空间;
将图像特征和基于兴趣区域的引导信息输入gLSTM中生成图像描述语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910005249.4A CN109740599B (zh) | 2019-01-03 | 2019-01-03 | 一种基于视觉增强gLSTM的图像描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910005249.4A CN109740599B (zh) | 2019-01-03 | 2019-01-03 | 一种基于视觉增强gLSTM的图像描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109740599A CN109740599A (zh) | 2019-05-10 |
CN109740599B true CN109740599B (zh) | 2024-05-14 |
Family
ID=66363383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910005249.4A Active CN109740599B (zh) | 2019-01-03 | 2019-01-03 | 一种基于视觉增强gLSTM的图像描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109740599B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034107A (zh) * | 2010-12-02 | 2011-04-27 | 西安电子科技大学 | 基于鲁棒视觉注意特征与稀疏表示的不良图像判别方法 |
WO2011161084A2 (en) * | 2010-06-25 | 2011-12-29 | Telefonica, S.A. | Method and system for fast and robust identification of specific products in images |
CN104077419A (zh) * | 2014-07-18 | 2014-10-01 | 合肥工业大学 | 结合语义与视觉信息的长查询图像检索重排序算法 |
CN106407327A (zh) * | 2016-08-31 | 2017-02-15 | 广州精点计算机科技有限公司 | 一种基于hog和视觉词袋的相似图像搜索方法和装置 |
WO2018090011A1 (en) * | 2016-11-14 | 2018-05-17 | Kodak Alaris Inc. | System and method of character recognition using fully convolutional neural networks |
CN108364006A (zh) * | 2018-01-17 | 2018-08-03 | 超凡影像科技股份有限公司 | 基于多模式深度学习的医学图像分类装置及其构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8861864B2 (en) * | 2010-03-11 | 2014-10-14 | Qualcomm Incorporated | Image feature detection based on application of multiple feature detectors |
-
2019
- 2019-01-03 CN CN201910005249.4A patent/CN109740599B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011161084A2 (en) * | 2010-06-25 | 2011-12-29 | Telefonica, S.A. | Method and system for fast and robust identification of specific products in images |
CN102034107A (zh) * | 2010-12-02 | 2011-04-27 | 西安电子科技大学 | 基于鲁棒视觉注意特征与稀疏表示的不良图像判别方法 |
CN104077419A (zh) * | 2014-07-18 | 2014-10-01 | 合肥工业大学 | 结合语义与视觉信息的长查询图像检索重排序算法 |
CN106407327A (zh) * | 2016-08-31 | 2017-02-15 | 广州精点计算机科技有限公司 | 一种基于hog和视觉词袋的相似图像搜索方法和装置 |
WO2018090011A1 (en) * | 2016-11-14 | 2018-05-17 | Kodak Alaris Inc. | System and method of character recognition using fully convolutional neural networks |
CN108364006A (zh) * | 2018-01-17 | 2018-08-03 | 超凡影像科技股份有限公司 | 基于多模式深度学习的医学图像分类装置及其构建方法 |
Non-Patent Citations (4)
Title |
---|
图像语义相似性网络的文本描述方法;刘畅;周向东;施伯乐;;计算机应用与软件;20180115(01);全文 * |
基于多模态神经网络的图像中文摘要生成方法;刘泽宇;马龙龙;吴健;孙乐;;中文信息学报(06);全文 * |
基于视觉注意的图像感兴趣区域分割算法;程聪;戴朝辉;;郑州轻工业学院学报(自然科学版)(02);全文 * |
程聪 ; 戴朝辉 ; .基于视觉注意的图像感兴趣区域分割算法.郑州轻工业学院学报(自然科学版).2011,(02),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN109740599A (zh) | 2019-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106446526B (zh) | 电子病历实体关系抽取方法及装置 | |
WO2017031716A1 (zh) | 自然场景图像中手写体数学公式结构分析与识别方法 | |
CN112183414A (zh) | 一种基于混合空洞卷积的弱监督遥感目标检测方法 | |
CN113297975A (zh) | 表格结构识别的方法、装置、存储介质及电子设备 | |
CN107729865A (zh) | 一种手写体数学公式离线识别方法及系统 | |
CN110569738B (zh) | 基于密集连接网络的自然场景文本检测方法、设备和介质 | |
CN105184292A (zh) | 自然场景图像中手写体数学公式结构分析与识别方法 | |
CN111444919A (zh) | 一种自然场景中的任意形状文本检测方法 | |
CN106778878B (zh) | 一种人物关系分类方法及装置 | |
CN104751153B (zh) | 一种识别场景文字的方法及装置 | |
CN105608454A (zh) | 基于文字结构部件检测神经网络的文字检测方法及系统 | |
CN111666937A (zh) | 一种图像中的文本识别方法及系统 | |
CN110472652A (zh) | 基于语义引导的少量样本分类方法 | |
Halima et al. | Nf-savo: Neuro-fuzzy system for arabic video ocr | |
CN108664975A (zh) | 一种维吾尔文手写字母识别方法、系统及电子设备 | |
CN109871454A (zh) | 一种鲁棒离散监督跨媒体哈希检索方法 | |
CN114565770A (zh) | 基于边缘辅助计算和掩模注意力的图像分割方法及系统 | |
CN115424017B (zh) | 一种建筑物内外轮廓分割方法、装置及存储介质 | |
CN113239818A (zh) | 基于分割和图卷积神经网络的表格图像跨模态信息提取方法 | |
JPH08508128A (ja) | 分布マップを用いる画像の分類方法及び装置 | |
CN111178367B (zh) | 适应多物件尺寸的特征决定装置及方法 | |
CN112926582B (zh) | 一种基于自适应特征选择和尺度损失函数的文本检测方法 | |
CN109740599B (zh) | 一种基于视觉增强gLSTM的图像描述生成方法 | |
CN106503706B (zh) | 汉字字形切割结果正确性的判别方法 | |
CN106650629A (zh) | 一种基于核稀疏表示的快速遥感目标检测识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |