CN111461974B - 基于由粗到细的lstm模型的图像扫描路径控制方法 - Google Patents
基于由粗到细的lstm模型的图像扫描路径控制方法 Download PDFInfo
- Publication number
- CN111461974B CN111461974B CN202010097514.9A CN202010097514A CN111461974B CN 111461974 B CN111461974 B CN 111461974B CN 202010097514 A CN202010097514 A CN 202010097514A CN 111461974 B CN111461974 B CN 111461974B
- Authority
- CN
- China
- Prior art keywords
- image
- sequence
- cnn
- lstm
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000010586 diagram Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 description 28
- 230000000007 visual effect Effects 0.000 description 12
- 230000004424 eye movement Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004434 saccadic eye movement Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于由粗到细的LSTM模型的图像扫描路径控制方法,包括:1)使用多任务CNN进行图像的特征图提取和显著性图输出;2)将得到的显著性图和特征图在通道层面拼接,然后将拼接后的联合特征图输入到粗糙的CNN和LSTM网络中,生成粗略的连续扫描点信息序列;3)根据粗略的连续扫描点信息序列生成注意力图序列,在不同的时间步上与联合特征图在通道层面拼接,形成时间敏感的联合特征图;4)将显著性图与时间敏感的联合特征图在通道层面拼接,将拼接后的联合特征图输入到精细的CNN和LSTM网络中,以此生成连续扫描点信息序列;训练并测试整个模型,预测出图像的扫描路径。
Description
技术领域
本发明涉及图像扫描路径领域,尤其涉及一种基于由粗到细的LSTM(Long Short-Term Memory,长短期记忆)模型的图像扫描路径控制方法。
背景技术
视觉注意力是一种使视觉处理资源集中在行为相关的视觉信息上的机制。存在两种视觉注意力:一种涉及眼球运动,另一种则不涉及眼球运动。现有大多数与视觉注意力有关的研究活动都是对涉及眼球运动的注意力的理解和建模。揭示观察者在场景中的位置和方式的眼球运动是此类研究的关键因素。眼球运动由注视和扫视组成,视觉信息提取基本上发生在注视期间。注视序列被称为视觉扫描路径(visual scanpath)。传统视觉注视的研究往往只关注单一视觉注视的机械组合,而忽略不同视觉注视转移到何处、以什么顺序排列以及在给定图像的情况下每个位置停留多长时间,即忽略视觉扫描路径的研究。
目前图像扫描路径预测研究主要使用传统的高阶马尔可夫过程和条件概率分布图进行模拟生成,但这种研究思路不仅假设扫描是独立的事件而未考虑扫描可能受先前的扫描影响而且忽略了扫描点的停滞时间的预测。
随着深度学习的迅速发展特别是LSTM网络的出现,实现了更精准和大规模的时序活动的预测,也让充分模拟人眼的图像扫描路径成为可能。
发明内容
本发明提供了一种基于由粗到细的LSTM模型的图像扫描路径控制方法,本发明实现了对人眼观测图像时扫描路径的控制,详见下文描述:
一种基于由粗到细的LSTM模型的图像扫描路径控制方法,所述方法包括:
1)使用多任务CNN进行图像的特征图提取和显著性图输出;
2)将得到的显著性图和特征图在通道层面拼接,然后将拼接后的联合特征图输入到粗糙的CNN和LSTM网络中,生成粗略的连续扫描点信息序列;
3)根据粗略的连续扫描点信息序列生成注意力图序列,在不同的时间步上与联合特征图在通道层面拼接,形成时间敏感的联合特征图;
4)将显著性图与时间敏感的联合特征图在通道层面拼接,将拼接后的联合特征图输入到精细的CNN和LSTM网络中,以此生成连续扫描点信息序列;训练并测试整个模型,预测出图像的扫描路径。
其中,所述注意力图序列具体为:
提取粗略扫描点序列中的扫描坐标点序列;生成空白图像序列,每张图像Ai在对应坐标点si上像素值为255;
对每张图像Ai采取高斯模糊操作,得到注意力图序列。
进一步地,所述粗糙的、精细的CNN和LSTM网络具体为:
CNN和LSTM网络主要由两层的CNN、拉伸层、一个全连接层、三个LSTM网络和一个全连接层组成:两层卷积层的卷积滤波器大小都是3*3,通道数依次为32和8;拉伸层用于将特征图拉伸为特征向量;拉伸层后的全连接层用于改变特征向量长度等同于LSTM网络的单元数,便于后面输入;三个LSTM网络单元数都为100,输入与输出的维度都为T;
其中,所述输入到粗糙的LSTM网络的是相同的特征向量,输入精细的T步特征向量每一步是不同的。
进一步地,所述训练并测试整个模型,预测出图像的扫描路径具体为:
训练多任务CNN使用原图作为输入数据,显著性图作为训练输入标签;
训练粗糙的CNN和LSTM网络使用拼接显著性图和特征图后的联合特征图作为输入数据,扫描点信息序列作为训练输入标签;
训练精细的CNN和LSTM网络使用拼接显著性图、注意力图和特征图后的时间敏感的联合特征图作为输入数据,扫描点信息序列作为训练输入标签。
本发明提供的技术方案的有益效果是:
1、本发明运用LSTM网络模拟预测人眼观测图像时的扫描路径,LSTM网络加入对时序信息的记录,由粗到细(coarse-to-fine)的策略进一步提升控制精度;
2、本发明运用CNN(Convolutional Neural Network,卷积神经网络)网络提取并融合特征,利用图像的多级特征特别是显著性特征的指导,为每一时间步扫描点的控制提供显性帮助。
附图说明
图1是本发明的基于由粗到细的LSTM网络的图像扫描路径控制方法的流程图;
图2是由粗到细的LSTM网络结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明提供一种基于由粗到细的LSTM模型的图像扫描路径控制方法,如图1所示,该方法包括以下步骤:
101:使用多任务CNN进行图像的特征图提取和显著性图输出;
其中,该多任务CNN,包括:
(1)采用流行的骨干网络例如VGGNet、ResNet等作为多任务CNN的共享卷积网络部分,融合不同任务的数据的特征,用于特征图提取;
(2)在共享卷积网络部分后面设计两个分支,其中一个为显著性分支用于输出显著性图,另一个分支任务与图像显著性相关,它们有各自的卷积神经网络。
102:将得到的显著性图和特征图在通道层面拼接,然后将拼接后的联合特征图输入到粗糙的CNN和LSTM网络中,生成粗略的连续扫描点信息序列;
其中,LSTM网络的每个时间步(timestep)的输入是相同的,生成粗略的连续扫描点信息序列。该连续扫描点信息序列,每个扫描点信息包括:扫描坐标点、扫描结束标识(End Of Scanpath,缩写EOS)和滞留时间。
103:根据粗略的连续扫描点信息序列生成注意力图序列,在不同的时间步上与联合特征图在通道层面拼接,形成时间敏感的联合特征图;
其中,注意力图序列的生成,包括:
(1)提取粗略扫描点序列中的扫描坐标点序列s=si,i=1,2,3,...,T,序列长度为T;
(2)生成空白图像序列A=Ai,i=1,2,3,...,T,每张图像Ai在对应坐标点si上像素值为255;
(3)对每张图像Ai采取高斯模糊操作,得到注意力图序列A=Ai,i=1,2,3,...,T,这样,每一个坐标点便对应于一张注意力图。
104:将步骤101得到的显著性图与不同的时间步上的时间敏感的联合特征图在通道层面拼接,然后将拼接后的联合特征图输入到结构与步骤102结构相同的精细的CNN和LSTM网络中,每个时间步的输入是不同的,以此生成精确的连续扫描点信息序列;
具体的,同一张显著性图与不同的时间步上的时间敏感的联合特征图在通道层面拼接将会生成T个联合特征图,然后依次输入到与步骤102结构相同的CNN中。
其中,步骤102和步骤104中的CNN和LSTM网络,包括:
(1)CNN和LSTM网络主要由两层的CNN、拉伸层、一个全连接层、三个LSTM网络和一个全连接层组成:其中两层卷积层的卷积滤波器大小都是3*3,通道数依次为32和8,其目的是进行特征融合;拉伸层用于将特征图拉伸为特征向量;拉伸层后的全连接层用于改变特征向量长度等同于LSTM网络的单元数,便于后面输入;三个LSTM网络单元数都为100,输入与输出的维度都为T;
(2)步骤102和104最大的区别是,步骤102中输入LSTM网络的是相同的特征向量,而步骤104中由于T个联合特征图依次通过CNN并拉伸,会生成T个不同的特征向量,故输入LSTM网络中的T步特征向量每一步是不同的;
且步骤102和104中的神经网络和LSTM网络不共享参数。
105:训练并测试整个模型,预测出图像的扫描路径。
其中,该步骤具体为:
(1)训练整个模型时是分三阶段进行,第一阶段训练多任务CNN,第二阶段训练生成粗略扫描点坐标序列的CNN和LSTM网络,第三阶段训练生成精确扫描点坐标序列的CNN和LSTM网络。
(2)训练多任务CNN使用原图作为输入数据,显著性图作为训练输入标签;训练粗糙的CNN和LSTM网络使用拼接显著性图和特征图后的联合特征图作为输入数据,扫描点信息序列作为训练输入标签;训练精细的CNN和LSTM网络使用拼接显著性图、注意力图和特征图后的时间敏感的联合特征图作为输入数据,扫描点信息序列作为训练输入标签。
(3)训练的三阶段的损失函数均为均方差损失(Mean Square Error,简称MSE),其函数表达式为:
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于由粗到细的LSTM模型的图像扫描路径控制方法,其特征在于,所述方法包括:
1)使用多任务CNN进行图像的特征图提取和显著性图输出;
2)将得到的显著性图和特征图在通道层面拼接,然后将拼接后的联合特征图输入到粗糙的CNN和LSTM网络中,生成粗略的连续扫描点信息序列;
3)根据粗略的连续扫描点信息序列生成注意力图序列,在不同的时间步上与联合特征图在通道层面拼接,形成时间敏感的联合特征图;
4)将显著性图与时间敏感的联合特征图在通道层面拼接,将拼接后的联合特征图输入到精细的CNN和LSTM网络中,以此生成连续扫描点信息序列;训练并测试整个模型,预测出图像的扫描路径。
2.根据权利要求1所述的一种基于由粗到细的LSTM模型的图像扫描路径控制方法,其特征在于,所述注意力图序列具体为:
提取粗略扫描点序列中的扫描坐标点序列;生成空白图像序列,每张图像Ai在对应坐标点si上像素值为255;
对每张图像Ai采取高斯模糊操作,得到注意力图序列。
3.根据权利要求1所述的一种基于由粗到细的LSTM模型的图像扫描路径控制方法,其特征在于,所述粗糙的、精细的CNN和LSTM网络具体为:
CNN和LSTM网络主要由两层的CNN、拉伸层、一个全连接层、三个LSTM网络和一个全连接层组成:两层卷积层的卷积滤波器大小都是3*3,通道数依次为32和8;拉伸层用于将特征图拉伸为特征向量;拉伸层后的全连接层用于改变特征向量长度等同于LSTM网络的单元数,便于后面输入;三个LSTM网络单元数都为100,输入与输出的维度都为T。
4.根据权利要求3所述的一种基于由粗到细的LSTM模型的图像扫描路径控制方法,其特征在于,
所述输入到粗糙的LSTM网络的是相同的特征向量,输入精细的T步特征向量每一步是不同的。
5.根据权利要求3所述的一种基于由粗到细的LSTM模型的图像扫描路径控制方法,其特征在于,所述训练并测试整个模型,预测出图像的扫描路径具体为:
训练多任务CNN使用原图作为输入数据,显著性图作为训练输入标签;
训练粗糙的CNN和LSTM网络使用拼接显著性图和特征图后的联合特征图作为输入数据,扫描点信息序列作为训练输入标签;
训练精细的CNN和LSTM网络使用拼接显著性图、注意力图和特征图后的时间敏感的联合特征图作为输入数据,扫描点信息序列作为训练输入标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010097514.9A CN111461974B (zh) | 2020-02-17 | 2020-02-17 | 基于由粗到细的lstm模型的图像扫描路径控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010097514.9A CN111461974B (zh) | 2020-02-17 | 2020-02-17 | 基于由粗到细的lstm模型的图像扫描路径控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111461974A CN111461974A (zh) | 2020-07-28 |
CN111461974B true CN111461974B (zh) | 2023-04-25 |
Family
ID=71685134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010097514.9A Active CN111461974B (zh) | 2020-02-17 | 2020-02-17 | 基于由粗到细的lstm模型的图像扫描路径控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111461974B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279495A (zh) * | 2015-10-23 | 2016-01-27 | 天津大学 | 一种基于深度学习和文本总结的视频描述方法 |
CN109447096A (zh) * | 2018-04-13 | 2019-03-08 | 西安电子科技大学 | 一种基于机器学习的扫视路径预测方法和装置 |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
-
2020
- 2020-02-17 CN CN202010097514.9A patent/CN111461974B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279495A (zh) * | 2015-10-23 | 2016-01-27 | 天津大学 | 一种基于深度学习和文本总结的视频描述方法 |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN109447096A (zh) * | 2018-04-13 | 2019-03-08 | 西安电子科技大学 | 一种基于机器学习的扫视路径预测方法和装置 |
Non-Patent Citations (1)
Title |
---|
李佳鹤 ; 徐慧 ; 张静 ; 周献军 ; .基于LSTM神经网络的燃煤锅炉热效率预测方法.智能物联技术.2019,(第03期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111461974A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ye et al. | Recognizing american sign language gestures from within continuous videos | |
CN109614921B (zh) | 一种基于对抗生成网络的半监督学习的细胞分割方法 | |
CN110348387A (zh) | 一种图像数据处理方法、装置以及计算机可读存储介质 | |
CN113035311B (zh) | 一种基于多模态注意力机制的医学图像报告自动生成方法 | |
Zhu et al. | Efficient action detection in untrimmed videos via multi-task learning | |
CN113297955B (zh) | 一种基于多模态分层级信息融合的手语词识别方法 | |
CN111444346B (zh) | 一种用于文本分类的词向量对抗样本生成方法及装置 | |
CN113761105A (zh) | 文本数据处理方法、装置、设备以及介质 | |
CN114896450B (zh) | 一种基于深度学习的视频时刻检索方法与系统 | |
CN113822790B (zh) | 一种图像处理方法、装置、设备及计算机可读存储介质 | |
CN112149632A (zh) | 一种视频识别方法、装置及电子设备 | |
CN110728194A (zh) | 基于微表情和动作识别的智能培训方法、装置及存储介质 | |
Tang et al. | Attribute-guided sketch generation | |
Sudhakaran et al. | Gate-shift-fuse for video action recognition | |
CN113011320A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
Xu et al. | Text-guided human image manipulation via image-text shared space | |
CN115797948A (zh) | 一种文字识别方法、装置及设备 | |
Ishmam et al. | From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities | |
CN115131801A (zh) | 基于多模态的文档识别方法、装置、设备和存储介质 | |
CN113806564A (zh) | 多模态信息性推文检测方法及系统 | |
CN110969109B (zh) | 一种非受限条件下眨眼检测模型及其构建方法和应用 | |
CN112101154B (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
CN111461974B (zh) | 基于由粗到细的lstm模型的图像扫描路径控制方法 | |
CN114419514B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN112883817B (zh) | 动作定位方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |