CN111461974B

CN111461974B - 基于由粗到细的lstm模型的图像扫描路径控制方法

Info

Publication number: CN111461974B
Application number: CN202010097514.9A
Authority: CN
Inventors: 张静; 吕锦成; 刘婧
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2023-04-25
Anticipated expiration: 2040-02-17
Also published as: CN111461974A

Abstract

本发明公开了一种基于由粗到细的LSTM模型的图像扫描路径控制方法，包括：1)使用多任务CNN进行图像的特征图提取和显著性图输出；2)将得到的显著性图和特征图在通道层面拼接，然后将拼接后的联合特征图输入到粗糙的CNN和LSTM网络中，生成粗略的连续扫描点信息序列；3)根据粗略的连续扫描点信息序列生成注意力图序列，在不同的时间步上与联合特征图在通道层面拼接，形成时间敏感的联合特征图；4)将显著性图与时间敏感的联合特征图在通道层面拼接，将拼接后的联合特征图输入到精细的CNN和LSTM网络中，以此生成连续扫描点信息序列；训练并测试整个模型，预测出图像的扫描路径。

Description

基于由粗到细的LSTM模型的图像扫描路径控制方法

技术领域

本发明涉及图像扫描路径领域，尤其涉及一种基于由粗到细的LSTM(Long Short-Term Memory，长短期记忆)模型的图像扫描路径控制方法。

背景技术

视觉注意力是一种使视觉处理资源集中在行为相关的视觉信息上的机制。存在两种视觉注意力：一种涉及眼球运动，另一种则不涉及眼球运动。现有大多数与视觉注意力有关的研究活动都是对涉及眼球运动的注意力的理解和建模。揭示观察者在场景中的位置和方式的眼球运动是此类研究的关键因素。眼球运动由注视和扫视组成，视觉信息提取基本上发生在注视期间。注视序列被称为视觉扫描路径(visual scanpath)。传统视觉注视的研究往往只关注单一视觉注视的机械组合，而忽略不同视觉注视转移到何处、以什么顺序排列以及在给定图像的情况下每个位置停留多长时间，即忽略视觉扫描路径的研究。

目前图像扫描路径预测研究主要使用传统的高阶马尔可夫过程和条件概率分布图进行模拟生成，但这种研究思路不仅假设扫描是独立的事件而未考虑扫描可能受先前的扫描影响而且忽略了扫描点的停滞时间的预测。

随着深度学习的迅速发展特别是LSTM网络的出现，实现了更精准和大规模的时序活动的预测，也让充分模拟人眼的图像扫描路径成为可能。

发明内容

本发明提供了一种基于由粗到细的LSTM模型的图像扫描路径控制方法，本发明实现了对人眼观测图像时扫描路径的控制，详见下文描述：

一种基于由粗到细的LSTM模型的图像扫描路径控制方法，所述方法包括：

1)使用多任务CNN进行图像的特征图提取和显著性图输出；

2)将得到的显著性图和特征图在通道层面拼接，然后将拼接后的联合特征图输入到粗糙的CNN和LSTM网络中，生成粗略的连续扫描点信息序列；

3)根据粗略的连续扫描点信息序列生成注意力图序列，在不同的时间步上与联合特征图在通道层面拼接，形成时间敏感的联合特征图；

4)将显著性图与时间敏感的联合特征图在通道层面拼接，将拼接后的联合特征图输入到精细的CNN和LSTM网络中，以此生成连续扫描点信息序列；训练并测试整个模型，预测出图像的扫描路径。

其中，所述注意力图序列具体为：

提取粗略扫描点序列中的扫描坐标点序列；生成空白图像序列，每张图像A_i在对应坐标点s_i上像素值为255；

对每张图像A_i采取高斯模糊操作，得到注意力图序列。

进一步地，所述粗糙的、精细的CNN和LSTM网络具体为：

CNN和LSTM网络主要由两层的CNN、拉伸层、一个全连接层、三个LSTM网络和一个全连接层组成：两层卷积层的卷积滤波器大小都是3*3，通道数依次为32和8；拉伸层用于将特征图拉伸为特征向量；拉伸层后的全连接层用于改变特征向量长度等同于LSTM网络的单元数，便于后面输入；三个LSTM网络单元数都为100，输入与输出的维度都为T；

其中，所述输入到粗糙的LSTM网络的是相同的特征向量，输入精细的T步特征向量每一步是不同的。

进一步地，所述训练并测试整个模型，预测出图像的扫描路径具体为：

训练多任务CNN使用原图作为输入数据，显著性图作为训练输入标签；

训练粗糙的CNN和LSTM网络使用拼接显著性图和特征图后的联合特征图作为输入数据，扫描点信息序列作为训练输入标签；

训练精细的CNN和LSTM网络使用拼接显著性图、注意力图和特征图后的时间敏感的联合特征图作为输入数据，扫描点信息序列作为训练输入标签。

本发明提供的技术方案的有益效果是：

1、本发明运用LSTM网络模拟预测人眼观测图像时的扫描路径，LSTM网络加入对时序信息的记录，由粗到细(coarse-to-fine)的策略进一步提升控制精度；

2、本发明运用CNN(Convolutional Neural Network，卷积神经网络)网络提取并融合特征，利用图像的多级特征特别是显著性特征的指导，为每一时间步扫描点的控制提供显性帮助。

附图说明

图1是本发明的基于由粗到细的LSTM网络的图像扫描路径控制方法的流程图；

图2是由粗到细的LSTM网络结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明提供一种基于由粗到细的LSTM模型的图像扫描路径控制方法，如图1所示，该方法包括以下步骤：

101：使用多任务CNN进行图像的特征图提取和显著性图输出；

其中，该多任务CNN，包括：

(1)采用流行的骨干网络例如VGGNet、ResNet等作为多任务CNN的共享卷积网络部分，融合不同任务的数据的特征，用于特征图提取；

(2)在共享卷积网络部分后面设计两个分支，其中一个为显著性分支用于输出显著性图，另一个分支任务与图像显著性相关，它们有各自的卷积神经网络。

102：将得到的显著性图和特征图在通道层面拼接，然后将拼接后的联合特征图输入到粗糙的CNN和LSTM网络中，生成粗略的连续扫描点信息序列；

其中，LSTM网络的每个时间步(timestep)的输入是相同的，生成粗略的连续扫描点信息序列。该连续扫描点信息序列，每个扫描点信息包括：扫描坐标点、扫描结束标识(End Of Scanpath，缩写EOS)和滞留时间。

103：根据粗略的连续扫描点信息序列生成注意力图序列，在不同的时间步上与联合特征图在通道层面拼接，形成时间敏感的联合特征图；

其中，注意力图序列的生成，包括：

(1)提取粗略扫描点序列中的扫描坐标点序列s＝s_i，i＝1，2，3，...，T，序列长度为T；

(2)生成空白图像序列A＝A_i，i＝1，2，3，...，T，每张图像A_i在对应坐标点s_i上像素值为255；

(3)对每张图像A_i采取高斯模糊操作，得到注意力图序列A＝A_i，i＝1，2，3，...，T，这样，每一个坐标点便对应于一张注意力图。

104：将步骤101得到的显著性图与不同的时间步上的时间敏感的联合特征图在通道层面拼接，然后将拼接后的联合特征图输入到结构与步骤102结构相同的精细的CNN和LSTM网络中，每个时间步的输入是不同的，以此生成精确的连续扫描点信息序列；

具体的，同一张显著性图与不同的时间步上的时间敏感的联合特征图在通道层面拼接将会生成T个联合特征图，然后依次输入到与步骤102结构相同的CNN中。

其中，步骤102和步骤104中的CNN和LSTM网络，包括：

(1)CNN和LSTM网络主要由两层的CNN、拉伸层、一个全连接层、三个LSTM网络和一个全连接层组成：其中两层卷积层的卷积滤波器大小都是3*3，通道数依次为32和8，其目的是进行特征融合；拉伸层用于将特征图拉伸为特征向量；拉伸层后的全连接层用于改变特征向量长度等同于LSTM网络的单元数，便于后面输入；三个LSTM网络单元数都为100，输入与输出的维度都为T；

(2)步骤102和104最大的区别是，步骤102中输入LSTM网络的是相同的特征向量，而步骤104中由于T个联合特征图依次通过CNN并拉伸，会生成T个不同的特征向量，故输入LSTM网络中的T步特征向量每一步是不同的；

且步骤102和104中的神经网络和LSTM网络不共享参数。

105：训练并测试整个模型，预测出图像的扫描路径。

其中，该步骤具体为：

(1)训练整个模型时是分三阶段进行，第一阶段训练多任务CNN，第二阶段训练生成粗略扫描点坐标序列的CNN和LSTM网络，第三阶段训练生成精确扫描点坐标序列的CNN和LSTM网络。

(2)训练多任务CNN使用原图作为输入数据，显著性图作为训练输入标签；训练粗糙的CNN和LSTM网络使用拼接显著性图和特征图后的联合特征图作为输入数据，扫描点信息序列作为训练输入标签；训练精细的CNN和LSTM网络使用拼接显著性图、注意力图和特征图后的时间敏感的联合特征图作为输入数据，扫描点信息序列作为训练输入标签。

(3)训练的三阶段的损失函数均为均方差损失(Mean Square Error,简称MSE)，其函数表达式为：

其中，y_i表示在位置i处的预测值，

表示在位置i出的标签真实值，n表示位置总数。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于由粗到细的LSTM模型的图像扫描路径控制方法，其特征在于，所述方法包括：

1)使用多任务CNN进行图像的特征图提取和显著性图输出；

2.根据权利要求1所述的一种基于由粗到细的LSTM模型的图像扫描路径控制方法，其特征在于，所述注意力图序列具体为：

对每张图像A_i采取高斯模糊操作，得到注意力图序列。

3.根据权利要求1所述的一种基于由粗到细的LSTM模型的图像扫描路径控制方法，其特征在于，所述粗糙的、精细的CNN和LSTM网络具体为：

CNN和LSTM网络主要由两层的CNN、拉伸层、一个全连接层、三个LSTM网络和一个全连接层组成：两层卷积层的卷积滤波器大小都是3*3，通道数依次为32和8；拉伸层用于将特征图拉伸为特征向量；拉伸层后的全连接层用于改变特征向量长度等同于LSTM网络的单元数，便于后面输入；三个LSTM网络单元数都为100，输入与输出的维度都为T。

4.根据权利要求3所述的一种基于由粗到细的LSTM模型的图像扫描路径控制方法，其特征在于，

所述输入到粗糙的LSTM网络的是相同的特征向量，输入精细的T步特征向量每一步是不同的。

5.根据权利要求3所述的一种基于由粗到细的LSTM模型的图像扫描路径控制方法，其特征在于，所述训练并测试整个模型，预测出图像的扫描路径具体为：