CN108241854A

CN108241854A - 一种基于运动和记忆信息的深度视频显著性检测方法

Info

Publication number: CN108241854A
Application number: CN201810002781.6A
Authority: CN
Inventors: 孙美君; 周子淇; 王征
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-01-02
Filing date: 2018-01-02
Publication date: 2018-07-03
Anticipated expiration: 2038-01-02
Also published as: CN108241854B

Abstract

本发明公开了一种基于运动和记忆信息的深度视频显著性检测方法，包括：获取由图像显著性对象检测数据集和视频眼部定位点检测数据集组成的检测数据集；对视频眼部定位点检测数据集进行地面真实图计算，获取当前帧的最终眼部定位图；构建用于提取局部信息和全局信息、且具有不同的反卷积层的四个模型；在图像显著性对象检测数据集上对四个模型进行预训练，然后再在视频眼部定位点检测数据集上对预训练后的四个模型进行模型精调；通过显著运动物体边界检测算法提取出视频两帧之间的运动信息，然后将上一帧的检测结果图作为记忆信息，将记忆信息和运动信息整合到深度模型SGF(E)中，实现点到点的检测。本发明实现了对视频的有效眼部定位点的检测。

Description

一种基于运动和记忆信息的深度视频显著性检测方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于运动和记忆信息的深度视频显著性检测方法。

背景技术

基于视觉注意机制的显著性检测是计算机视觉领域内的一个相当重要的研究内容。显著性检测对于图像/视频分析有着非常重要的意义。据生物学研究证明，视觉注意机制和记忆机制是人类在进行视觉信息加工过程中两项重要的心理调节机制。人类的绝大多数信息都来自于视觉信息，注意机制和记忆机制能够帮助人类在处理大量视觉信息时有效地进行资源加工，过滤和筛选，即只关注感兴趣区域，剔除不相关信息。在处理静态视觉信息时，注意力机制起主导作用，它能够辅助人类自动提取出最具价值的目标区域；当人类在处理动态连续的视觉信息时，记忆机制也会被调动，过去的显著视觉信息会被用来协同处理当前的信息。如果能将这两种机制引入计算机视觉领域，利用计算机模拟注意机制和记忆机制进行视频/图像处理，将计算机资源优先分配给那些容易引起观察者注意的区域，这必将大幅提高现有的图片/视频处理分析方法的工作效率。显著性检测的任务正是在这一基础上提出并发展起来的。

如何在进行图像显著性检测时模拟人类的视觉注意机制，提取出图像中最有价值的目标区域，以及在进行视频显著性检测时模拟人类的记忆机制和注意机制，提取出动态连续的视频信息中最有价值的目标区域，是显著性检测的两大任务。

近年来，越来越多的研究人员开始了对显著性检测的探索。显著性检测旨在通过某种策略来获取图像/视频中的最符合观察者关注兴趣的区域，对这一领域的研究又可以分为显著性对象检测和眼部定位点检测。显著性对象检测的任务是提取出一个边缘信息都相对完整的对象区域，而眼部定位点检测则希望在输入数据中预测出一系列的位置或坐标，这些点以及周围小区域的显著性应该在全局范围内最高，也就最符合人类关注兴趣。

对视频显著性检测，尤其是眼部定位点检测的研究，目前主要是基于低级的手工提取特征，对具有复杂场景、多运动对象以及高级语义信息的视频处理效果并不理想，视频信息的低质性、复杂性、动态性和语义信息丰富的特点，需要更多深入的研究来解决这些难题。

对视频的眼部定位点检测技术进行研究，发现主要存在两个问题：一是对单张视频帧内的高级语义信息的理解不充分，不能很好的预测出单帧的眼部定位点；二是不能充分利用帧间信息，缺乏对视频帧间的运动信息和记忆信息的协同处理，不能在检测到运动物体的同时将过去的显著信息作用于当前帧的检测。

现有的视频眼部定位点检测技术，大多数是直接将视频分解为多张图像，采用图像显著性检测方法对每一帧进行单独处理，并未利用到帧间的运动信息，以及视频会触发人类记忆机制并生成记忆信息；还有一部分技术则利用了光流算法，期望获得运动信息，但是也未能考虑到记忆信息对视频眼部定位点检测的影响。

发明内容

本发明提供了一种基于运动和记忆信息的深度视频显著性检测方法，本发明通过对视频每一帧的特征提取、以及对相邻两帧间的显著运动边界信息和记忆信息的获取与分析，实现对视频的有效眼部定位点的检测，详见下文描述：

一种基于运动和记忆信息的深度视频显著性检测方法，所述检测方法包括以下步骤：

获取由图像显著性对象检测数据集和视频眼部定位点检测数据集组成的检测数据集；对视频眼部定位点检测数据集进行地面真实图计算，获取当前帧的最终眼部定位图作为Ground Truth用于在后续过程中对模型进行训练；

构建用于提取局部信息和全局信息、且具有不同的反卷积层的四个模型；

在图像显著性对象检测数据集上对四个模型进行预训练，然后再在视频眼部定位点检测数据集上对预训练后的四个模型进行模型精调；

通过显著运动物体边界检测算法提取出视频两帧之间的运动信息；

如果当前不是视频的最后一帧，则将上一帧的模型检测结果作为下一帧的记忆信息；

将记忆信息和运动信息整合到深度模型SGF(E)中，实现点到点的检测。

其中，所述对视频眼部定位点检测数据集进行地面真实图计算，获取当前帧的最终眼部定位图具体为：

确定每个眼部定位点数据所属视频帧，并将眼部定位点映射到视频帧上：

以眼部定位点为中心、某一阈值的像素为半径，获取用于生成单个眼部注视点的高斯模型；

通过设计的高斯模型，累加所有受试者的眼部定位数据，得到当前帧的最终地面真实图。

进一步地，在确定每个眼部定位点数据所属视频帧之前，所述方法还包括：

获取视频序列和眼部定位点文档，根据受试者个数、不同视频的帧频、以及屏幕分辨率和视频分辨率大小。

其中，所述四个模型具体为：SGF(1)、SGF(2)、SGF(3)和SGF(E)。

进一步地，所述模型SGF(1)中的前13个卷积层初始化于使用ImageNet图像分类数据集训练得到的VGGNET16模型；所述模型SGF(2)中的前13个卷积层初始化于模型SGF(1)，丢弃了SGF(1)模型的两个反卷积层，并添加了三个具有不同卷积核尺寸和步长的反卷积层。

进一步地，所述模型SGF(3)中的前13个卷积层初始化于模型SGF(2)，丢弃了模型SGF(2)的三个反卷积层并重新设计添加了四个具有不同卷积核尺寸和步长的反卷积层；所述模型SGF(E)初始化于模型SGF(2)，修改了输入数据的维度，增加了Eltwise层用于融合运动信息。

具体实现时，所述在图像显著性对象检测数据集上对四个模型进行预训练具体为：

通过用于图像显著性检测的数据对，结合随机梯度下降算法、反向传播算法、以及最小化损失函数对四个模型进行预训练；

其中，数据对由原始数据图像、像素级二值图组成。

具体实现时，所述对预训练后的四个模型进行模型精调具体为：

通过用于视频眼部定位点检测的数据对结合随机梯度下降算法、反向传播算法、以及另一最小化损失函数对四个模型进行模型精调；

其中，数据对由原始数据图像、像素级概率图组成。

进一步地，所述通过显著运动物体边界检测算法提取出视频两帧之间的运动信息具体为：

使用描述变分运动的大位移光流估计算法计算两视频帧之间的光流信息，计算光流梯度大小；

设置阈值，获取光流梯度大于阈值的运动区域；融合颜色梯度图和光流梯度图，获取最终的显著运动物体边界图。

进一步地，所述光流梯度图的获取具体为：

通过简单线性迭代聚类算法获取视频帧的超像素序列；计算超像素分割图，求解颜色梯度大小，获取光流梯度图。

本发明提供的技术方案的有益效果是：

1、本发明采用深度模型进行端到端预测，无需任何前处理或者后处理操作，体现了深度模型的鲁棒性和有效性；

2、本发明设计并实现了利用OPB(显著运动物体边界检测)算法进行最显著运动物体的边界信息检测；

3、本发明协同考虑记忆信息和运动信息，确保了深度模型在处理复杂场景和具有高级语义信息的视频检测中的准确性。

附图说明

图1为一种基于运动和记忆信息的深度视频显著性检测方法的流程图；

图2为深度模型的示意图；

图3为部分计算结果的示意图；

图4为模型训练顺序的示意图；

图5为OPB算法的检测效果图；

图6为结合运动信息、记忆信息的模型SGF(E)数据的流程图；

图7为部分检测结果的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为了解决背景技术中存在的问题，本发明实施例提供了一种基于运动和记忆信息的深度视频显著性检测方法，该方法基于深度学习和全卷积神经网络，在大量训练数据的训练下，学习视频帧间的运动模式和记忆模式，使得本方法能够在一定程度上理解帧内的高级语义信息，同时充分利用帧间的运动和时间(记忆)信息来进行眼部定位点的检测。

实施例1

本发明实施例基于全卷积神经网络，协同考虑运动和记忆信息的深度视频眼部定位点检测技术，对原始视频数据的分析和充分理解，参见图1和图2，其主要流程分为以下五个部分：

101：获取由图像显著性对象检测数据集和视频眼部定位点检测数据集组成的检测数据集；对视频眼部定位点检测数据集进行地面真实图计算，获取当前帧的最终眼部定位图；

102：构建用于提取局部信息和全局信息、且具有不同的反卷积层的四个模型；

103：在图像显著性对象检测数据集上对四个模型进行预训练，然后再在视频眼部定位点检测数据集上对预训练后的四个模型进行模型精调；

104：通过显著运动物体边界检测算法提取出视频两帧之间的运动信息，如果当前不是视频的最后一帧，则将上一帧的模型检测结果作为下一帧的记忆信息；将记忆信息和运动信息整合到四个模型中的深度模型中，实现点到点的检测。

其中，步骤101中的对视频眼部定位点检测数据集进行地面真实图计算，获取当前帧的最终眼部定位图具体为：

通过对高斯模型进行截取，累加所有受试者的眼部定位数据，得到当前帧的最终地面真实图。

进一步地，在上述确定每个眼部定位点数据所属视频帧之前，该方法还包括：

其中，步骤102中的四个模型具体为：SGF(1)、SGF(2)、SGF(3)和SGF(E)。

进一步地，上述模型SGF(1)中的前13个卷积层初始化于使用ImageNet图像分类数据集训练得到的VGGNET16模型；上述模型SGF(2)中的前13个卷积层初始化于模型SGF(1)，丢弃了SGF(1)模型的两个反卷积层，并添加了三个具有不同卷积核尺寸和步长的反卷积层。

具体实现时，上述模型SGF(3)中的前13个卷积层初始化于模型SGF(2)，丢弃了模型SGF(2)的三个反卷积层并重新设计添加了四个具有不同卷积核尺寸和步长的反卷积层；上述模型SGF(E)初始化于模型SGF(2)，修改了输入数据的维度，增加了Eltwise层用于融合运动信息。

其中，步骤103中的在图像显著性对象检测数据集上对四个模型进行预训练具体为：

通过用于图像显著性检测的数据对(原始图像数据，像素级二值图)，结合随机梯度下降算法、反向传播算法、以及最小化损失函数对四个模型进行预训练。

进一步地，步骤103中的对预训练后的四个模型进行模型精调具体为：

通过用于视频眼部定位点检测的数据对(原始图像数据，像素级概率)，结合随机梯度下降算法、反向传播算法、以及另一最小化损失函数对四个模型进行模型精调。

其中，步骤104中的通过显著运动物体边界检测算法提取出视频两帧之间的运动信息具体为：

进一步地，上述光流梯度图的获取具体为：

参见图2，Frame(i)表示第i帧，B(i)为通过OPB算法提取得到的相邻两帧间运动物体的边界信息，EF(i)为第i帧的眼部定位预测图，GT(i)为第i帧的Ground Truth(地面真实图)，SGF(3)和SGF(E)为本方法训练得到的两个具有不同结构的模型，OPB算法用于提取运动物体边界信息。

综上所述，本发明实施例在大量训练数据的训练下，学习视频帧间的运动模式和记忆模式，使得本方法能够在一定程度上理解帧内的高级语义信息，同时充分利用帧间的运动和时间(记忆)信息来进行眼部定位点的检测。

实施例2

下面结合具体的计算公式、附图、实例、表1-表3对实施例1中的方案进行进一步地介绍，详见下文描述：

201：数据集制作；

为了提高模型的泛化能力，本方法共选择了目前进行图像显著性检测和视频显著性检测最常用的8个数据集来制作适用于本任务的数据集，其中，有6个图像显著性对象检测数据集(参见表1)，2个视频眼部定位点检测数据集(参见表2)，对8个数据集的介绍如表1、表2所示。

表1

数据集	MSRA	THUS	THUR	DUT-OMRON	DUTS	ECSSD
							大小	1000	10000	6232	5168	15572	1000

表2

其中，MSRA、THUS、THUR、DUT-OMRON、DUTS和ECSSD这6个图像显著性对象检测数据集都是开源的，可以直接获取(为本领域技术人员所公知，本发明实施例对此不做赘述)，包括原始数据图像和对应的Ground Truth(地面真实图)，这6个数据集用于在预训练阶段对模型进行预训练，具体预训练的操作为本领域技术人员所公知，本发明实施例对此不做赘述。

HOLLYWOOD2和UCF作为视频眼部定位数据集则用于对模型进行精调。由于这两个数据集的Ground Truth并没有直接给出，所以本发明实施例对HOLLYWOOD2和UCF视频眼部定位点数据集的标签，也就是Ground Truth进行了计算，主要计算流程如下：

1)获取HOLLYWOOD2和UCF的视频序列和眼部定位点文档，根据受试者个数、不同视频的帧频、以及屏幕分辨率和视频分辨率大小，确定每个眼部定位点数据所属视频帧，并将该眼部定位点映射到视频帧上：

具体计算公式定义如下：

其中，S_i表示第i个受试者，分别表示来自于受试者i的第j个视频的眼部定位坐标，k表示属于第j个视频的具体帧编号，VR_x(j),VR_y(j)则表示第j个视频的水平和垂直分辨率，SR_x,SR_y表示屏幕的水平和垂直分辨率，currT为的时间戳，fps(j)为第i个视频的帧频，为最终的真实眼部定位点坐标。

2)设计一个高斯模型，以第一步得到的眼部定位点为中心，以35像素为半径(w)，这表明一个眼部定位点的影响区域可以映射到周围的35个像素上，具体计算公式定义如下：

其中，my_gauss为设计的高斯模型，w表示一个眼部定位点可以映射到周围35个像素为半径的区域内，每个像素点的值符合设计得到的高斯模型，α，β为比例因子，分别设置为0.776和1.205，用于确定高斯模型的形状。r和c分别表示第j个视频的水平和垂直分辨率，是根据r和c生成的维度为(2r+1,2c+1)的矩阵，用于生成单个眼部注视点的高斯模型。

3)通过将所有受试者的注视点进行累加获取最终的标签(Ground Truth)，具体计算公式定义如下：

其中，为最终生成的Ground Truth(地面真实图)，S表示受试者个数，I表示第i个受试者在第j个视频上属于当前帧的眼部定位点个数。

通过对第2)步生成的高斯模型进行截取(取长宽与当前视频分辨率相同大小的区域)，累加所有受试者的眼部定位数据，即可得到当前帧的最终眼部定位图，即GroundTruth(地面真实图)。

部分效果图如图3所示，第一行为原始视频帧数据，第二行是对应于第一行的，使用本方法获取到的标签。

202：模型设计和训练方案；

为了使深度模型能够实现端到端的预测，本发明实施例设计了四个不同的模型，每个模型都基于全卷积神经网络的思想。四个模型具有不同的反卷积层，分别用于提取局部信息和全局信息。为了使深度模型能够在提取到帧内显著性区域的同时预测到眼部定位点，模型采用逐步训练和迁徙学习的策略，先在图像显著性对象检测数据集上对四个模型进行预训练，再使用视频眼部定位点检测数据集进行模型精调。

为了方便叙述，本发明实施例将四个模型分别命名为SGF(1)、SGF(2)、SGF(3)和SGF(E)，其中：

1)SGF(1)：

模型中的前13个卷积层初始化于使用ImageNet图像分类数据集训练得到的VGGNET16模型。

其中，ImageNet图像分类数据集是按照WORLDNET架构组织的大规模带标签数据集，其发起者为斯坦福大学教授李飞飞，是目前计算机视觉领域内用于图像识别和分类的最大数据库，VGGNET是牛津大学VGG(Visual Geometry Group)视觉几何组Karen Simonyan和Andrew Zisserman于2014年撰写的论文中提出的卷积神经网络模型，VGGNet建立了一个16层的深度网络。SGF(1)的前13个卷积层采用与VGGNET相同的网络结构，参数初始化于在Imagenet数据集上训练得到的VGG16的前5个卷积块，并在其上增加了两个反卷积层，以确保输入和输出具有相同的大小。

2)SGF(2)：

模型中的前13个卷积层初始化于SGF(1)，丢弃了SGF(1)模型的两个反卷积层，并重新设计添加了三个具有不同卷积核尺寸和步长的反卷积层。

3)SGF(3)：

模型中的前13个卷积层初始化于SGF(2)，丢弃了SGF(2)的三个反卷积层并重新设计添加了四个具有不同卷积核尺寸和步长的反卷积层，使得在图像显著性检测任务中得到的显著性预测图边缘信息更加平滑。

4)SGF(E)(作为主要的视频帧眼部定位点检测深度模型)：

初始化于SGF(2)，修改了输入数据的维度，增加了Eltwise层用于融合运动信息。每个模型的具体参数设计如表3所示。

表3

具体实现时，本发明实施例对表3中的具体数值不做限制，根据实际应用中的需要进行设定。

在卷积层，每一层的输入是上一层输出的特征图，经过线性运算以及非线性映射，输出具有新的维度的特征图主要计算过程定义如下：

其中，M_j表示第L-1层输出的特征图个数，表示第L-1层的第i个特征图，表示第L层的卷积核参数，为偏置项，f表示非线性激活函数。

本方法采用ReLU(Rectified Linear Unit，修正线性单元)作为激活函数，同时采用最大池化层。

在反卷积层，输入的特征图经过上采样后输出与原始输入具有相同大小的特征图y，具体计算公式如下：

y＝U_s(f_s(input,θ_conv),θ_deconv)

其中，input表示原始输入数据，f_s(·)为卷积操作，θ_conv为卷积层参数，U_s(·)表示反卷积操作，θ_deconv为反卷积层参数，在反卷积层最后使用crop函数(该函数为本领域技术人员所公知，本发明实施例对此不做赘述)对输出的特征图进行裁剪，获得与输入大小相同的眼部定位预测图，模型的获取顺序如图4所示。

对模型进行训练的过程就是对模型参数的更新过程，获取到泛化能力更好的模型参数是进行大量训练的目标。本方法采用了迁徙学习的思想，原因在于显著性对象检测任务和眼部定位检测任务具有高度相关性，模型的特征提取和选择模块具有共用性，所以本方法提出的模型在图像显著性对象检测数据集上进行预训练，然后再在视频眼部定位点检测数据集上进行模型精调。

训练实施细节：模型的设计和训练都是在Caffe工具箱的基础上实现的，每个模型的反卷基层参数一开始被初始化为高斯分布，并在训练过程中迭代更新。本方法将所有的输入数据和Ground Truth重新调整为500×500像素，使用NVIDIA Geforce GTX 1080tiGPU设备加速SGD学习过程。

在预训练阶段，动量参数设置为0.99，学习率设置为10^-10，权重衰减为0.0005，花费约2天时间完成对三个模型的600,000次迭代。在精调阶段，动量参数设置为0.999，学习率设置为10^-11，权重衰减为0.00005，花费约3天时间完成对四个模型的600,000次迭代。

203：预训练；

预训练过程的主要流程如下：

首先，令VGGNET16的卷积块权值参数为SGF(1)的卷积块权值参数为反卷积块权值参数为SGF(2)的卷积块权值参数为反卷积块权值参数为SGF(3)的卷积块权值参数为反卷积块权值参数为

具体实施细则如算法1所示：

输入:用于图像显著性检测的数据对(I,G)；

输出:像素级二值图P；

FOR i＝1:3

If i＝1:

从初始化

Else:

从初始化

使用高斯分布随机初始化反卷积层参数；

使用SGD(Stochastic Gradient Descent，随机梯度下降算法)和BP(BackPropagation，反向传播)算法，通过最小化损失函数L(1)对and进行训练，

END FOR

其中，损失函数L₁(P,G)定义如下：

其中，P为模型预测图，G为标签，Gi,j为标签上(i,j)处的坐标值，Pi,j为模型预测图中(i,j)处的坐标值，采用欧氏距离损失函数计算预测值与真实值之间的差异。

204：精调；

模型精调过程的主要流程如下：

首先，令SGF(1)的卷积块权值参数为反卷积块权值参数为SGF(2)的卷积块权值参数为反卷积块权值参数为SGF(3)的卷积块权值参数为反卷积块权值参数为SGF(E)的卷积块权值参数为反卷积块权值参数为

具体实施细则如算法2所示：

输入:用于视频眼部定位点检测的数据对(F,G)

输出:像素级概率图Q

FOR i＝1:2

Ifi＝1：

从初始化

Else:

从初始化

使用高斯分布随随机初始化反卷积层参数

使用SGD(Stochastic Gradient Descent，随机梯度下降算法)和BP(BackPropagation，反向传播算法)算法，通过最小化损失函数L(2)对and进行训练。

END FOR

损失函数L₂(Q,G)定义如下：

其中，P为模型预测图，G为标签，采用欧氏距离损失函数和SigmoidSo ftmax损失函数计算预测值与真实值之间的差异，α为权重因子，反应损失项在整体损失中的比重大小。

205：帧间运动信息提取；

为了有效获取到视频两帧之间的运动信息，本方法提出了一个用于运动对象边界信息提取的OPB算法。算法的输入为相邻的两个视频帧，计算过程主要分为三个步骤，如算法3所示。

输入：视频帧F_i和F_i-1

输出：显著运动物体边界图B_i

获取颜色梯度图CG_i

使用SLIC(Simple Linear Iterative Cluster，简单线性迭代聚类)算法获取F_i的超像素序列

计算超像素分割图S_i，求解颜色梯度大小CG_i

获取光流梯度图M_i；

使用LDME(Large displacement optical flow:Descriptor matching invariational motion estimation，描述变分运动的大位移光流估计)算法计算F_i和F_i-1之间的光流信息，计算光流梯度大小

设置阈值θ，获取光流梯度大于阈值θ的运动区域；

融合CG_i和M_i，获取最终的显著运动物体边界图B_i。

具体计算公式定义如下：

其中，CG_i(x,y)为颜色梯度图，S_i(x,y)为视频帧F_i的超像素分割图，表示求梯度操作。

其中，分别表示视频帧F_i在x轴和y轴方向上的光流梯度，分别表示视频帧F_i在z位置处的x方向和y方向上的位移量，M_i(z)表示在阈值θ作用下，视频帧F_i上位置z处的光流梯度大小。

其中，B_i(z)为将颜色梯度和光流梯度进行融合后得到的显著运动物体边界图，CG_i(z)为颜色梯度图，B_i-1(z)为上一帧F_i-1的显著运动物体边界图，Pr_i为当前帧结合上一帧的最小运动梯度得到的检测结果。α为权重因子，表示有多少光流梯度信息M_i(z)被保留到最终的结果中。

在本方法中，α的值被经验性地设置为0.75。μ,λ是两个尺度因子，μ的值越大，上一帧的检测结果对当前帧的影响越大，反之，λ的值越大，上一帧的检测结果对当前帧的影响越小，σ则是用于进一步筛选运动信息的阈值。

算法效果如图5所示。其中，(1)表示原值视频帧，(2)为超像素分割结果，(3)为颜色梯度图，(4)为光流图，(5)为光流梯度图，(6)为最终获取到的运动物体边界图。

其中，图(4)提取的是相邻两帧之间的像素运动位移，图(5)(6)是提取运动物体的边界，而运动信息相对于全局来说是局部的，小范围的，所以检测结果可视化以后显示出来的区域是小范围的。

206：将记忆信息与运动信息整合到深度模型中进行点到点检测。

经过前面的操作，可以提取到运动信息和记忆信息，最终的融合将在深度模型SGF(E)中实现。主要流程图如图6所示：

首先，模型SGF(3)用来检测第一帧的眼部定位结果，因为在第一帧还没有运动信息和记忆信息生成，所以可将其视为单张图像进行显著性检测；从第二帧开始，使用模型SGF(E)进行眼部定位点检测，输入数据是一个四维的张量，包括三维的RGB视频帧数据和一维的上一帧的概率数据，在模型最后一个反卷积层上增加了一个Eltwise层(该术语为本领域技术人员所公知，本发明实施例对此不做赘述)，采用MAX()算法(该术语为本领域技术人员所公知，本发明实施例对此不做赘述)结合运动物体边界信息，生成最终的预测结果。

至此，模型SGF(E)结合了对于视频显著性检测尤为重要的记忆信息和运动信息，同时考虑了当前帧的显著信息，能够在一定程度上模拟人类的视觉注意机制和记忆机制，在视频眼部定位检测任务中取得了有效成果。

实施例3

下面结合具体的实验数据对实施例1和2中的方案进行可行性验证，详见下文描述：

参见图7，i)为原始数据帧，(ii)为模型预测概率图，(iii)为可视化后的热图。

其中，(ii)为使用本发明中的模型SGF(E)对(i)中的原始数据帧进行检测得出的眼部定位点预测结果，(iii)则是将模型检测得到的结果(ii)使用一个颜色分布矩阵进行可视化以后得到的热图。

通过对上述图像的分析，可以看出本方法的可行性，实现了对视频的有效眼部定位点的检测，满足了实际应用中的多种需要。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于运动和记忆信息的深度视频显著性检测方法，其特征在于，所述检测方法包括以下步骤：

2.根据权利要求1所述的一种基于运动和记忆信息的深度视频显著性检测方法，其特征在于，所述对视频眼部定位点检测数据集进行地面真实图计算，获取当前帧的最终眼部定位图具体为：

3.根据权利要求2所述的一种基于运动和记忆信息的深度视频显著性检测方法，其特征在于，在确定每个眼部定位点数据所属视频帧之前，所述方法还包括：

4.根据权利要求1所述的一种基于运动和记忆信息的深度视频显著性检测方法，其特征在于，所述四个模型具体为：SGF(1)、SGF(2)、SGF(3)和SGF(E)。

5.根据权利要求4所述的一种基于运动和记忆信息的深度视频显著性检测方法，其特征在于，

所述模型SGF(1)中的前13个卷积层初始化于使用ImageNet图像分类数据集训练得到的VGGNET16模型；

所述模型SGF(2)中的前13个卷积层初始化于模型SGF(1)，丢弃了SGF(1)模型的两个反卷积层，并添加了三个具有不同卷积核尺寸和步长的反卷积层。

6.根据权利要求5所述的一种基于运动和记忆信息的深度视频显著性检测方法，其特征在于，

所述模型SGF(3)中的前13个卷积层初始化于模型SGF(2)，丢弃了模型SGF(2)的三个反卷积层并重新设计添加了四个具有不同卷积核尺寸和步长的反卷积层；

所述模型SGF(E)初始化于模型SGF(2)，修改了输入数据的维度，增加了Eltwise层用于融合运动信息。

7.根据权利要求1所述的一种基于运动和记忆信息的深度视频显著性检测方法，其特征在于，所述在图像显著性对象检测数据集上对四个模型进行预训练具体为：

其中，数据对由原始数据图像、像素级二值图组成。

8.根据权利要求1所述的一种基于运动和记忆信息的深度视频显著性检测方法，其特征在于，所述对预训练后的四个模型进行模型精调具体为：

其中，数据对由原始数据图像、像素级概率图组成。

9.根据权利要求1所述的一种基于运动和记忆信息的深度视频显著性检测方法，其特征在于，所述通过显著运动物体边界检测算法提取出视频两帧之间的运动信息具体为：

10.根据权利要求9所述的一种基于运动和记忆信息的深度视频显著性检测方法，其特征在于，所述光流梯度图的获取具体为：