CN108932532A

CN108932532A - 一种针对视频显著性图预测所需的眼动数据数目建议方法

Info

Publication number: CN108932532A
Application number: CN201810760604.4A
Authority: CN
Inventors: 许佳奕; 李传财
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2018-12-04

Abstract

本发明公开了一种针对视频显著性图预测所需的眼动数据数目建议方法，属于计算机视觉中视频显著性研究领域。包括以下步骤：（1）眼动跟踪数据预处理；（2）视频聚类处理；（3）视频特征提取；（4）模型分类；（5）计算预测视频显著性所需的观察者人数。本发明提出的方法，能够预测给定视频在眼动跟踪实验中所需观察者的最优数目，只需要少量的眼动样本数据就能计算出较为准确的视频显著性图。

Description

一种针对视频显著性图预测所需的眼动数据数目建议方法

技术领域

本发明属于计算机视觉中视频显著性研究领域，具体涉及一种针对视频显著性图预测所需的眼动数据数目建议方法。

背景技术

准确地预测并计算视频显著性是视频质量评估，视频摘要，视频压缩和视频重定向等研究的基础。与静止图像的显著性检测相比，由于存在时间和运动相关性，视频的显著性检测更具挑战性。视频显著性模型(参考文献：Vijay Mahadevan and NunoVasconcelos.Spatiotemporal saliency in dynamic scenes.IEEE transactions onpattern analysis and machine intelligence,2010,32(1):171–177)在图像显著性模型的基础上添加物体的运动信息来预测动态场景中的眼睛注视点。Rahtu等人(参考文献：EsaRahtu,Juho Kannala,Mikko Salo,and Janne2010.Segmenting salientobjects from images and videos.In European Conference on ComputerVision.Springer,366–379)从统计的角度利用亮度、颜色和连续帧运动的局部特征生成显著性图。Simonyan等人(参考文献：Karen Simonyan and Andrew Zisserman.2014.Two-stream convolutional networks for action recognition in videos.In Advances inneural information processing systems.568–576)提出一种结合了用于学习外观和运动补充信息的双卷积神经网络的深度学习框架，可提取视频中的动作特征用于生成显著性图。

然而，视频场景的种类繁多，现有的显著性自动提取模型对于某些场景存在误差较大的问题。相比较而言，基于人眼注视数据确定视频显著性是一种有效的方法。由于个体观察者的差异，通常需要追踪一定数量观察者的眼动数据来逼近真实的视觉显著性图。即使眼动仪的价格逐步低廉，对大量观察者进行眼动实验采集数据的方式仍然耗时而且成本较高。因此，为了在显著性的计算准确度和采集成本之间获取平衡，对给定视频进行眼动跟踪实验时所需的观察者数量给出最优的建议，能够为后续预测和计算视频显著性提供了一种有效途径。

通过分析多种类型视频极其对应眼动数据的特征，发现视频与所需眼动数据样本数之间的存在对应关系，所观看视频的场景与情节很大程度上影响了观察者的视觉专注力：如图4(a)、4(b)所示，对于有清晰的故事情节或者场景中包含一个主要物体的视频，大多数观察者被故事的发展和物体的运动所吸引，注视点密集地集中在一起聚集形成了关注区域；如图5(a)、5(b)所示，包含1个主体对象和2～3个次要对象的视频，观察者的注视集中程度不如图4(b)中明显；如图6(a)、6(b)所示，观察者处于自身的兴趣爱好的不同，被不同移动物体所吸引，因此关注区域不同的位置通常聚集成多个小区域；如图7(a)、7(b)所示，对于包含自然场景等的无明确目的性拍摄的视频，观察者的注视点十分分散，如果忽略中心偏见(center bias)的影响，零星几乎分布于视频帧的整个画面。

如果不将视频进行分类分析，随机选择相同数目的观测数据用于该视频的显著性计算，生成的显著性图与真实结果之间肯定会具有严重的偏差，不利于后续视频处理和研究。

发明内容

针对现有技术中存在的问题，本发明设计提供一种针对视频显著性图预测所需的眼动数据数目建议方法，减小了显著性图与真实结果之间存在的偏差。

一种针对视频显著性图预测所需的眼动数据数目建议方法，包括以下步骤：

(1)眼动跟踪数据预处理：创建代表注视点的点阵矩阵，对点阵矩阵进行滤波，在处理后的数据中选择一半的数据平均化后得到该视频每帧对应的真值图；另一半数据计算每个观察者的注视点图与真值图之间的相似性得分，并生成每个视频关注一致性曲线。

(2)视频聚类处理：从关注一致性曲线上根据不同的阈值，将视频样本聚为T类，计算每类观察者数目最优值；

(3)视频特征提取：提取视频的纹理特征、运动特征、基于显著性区域特征或其组合，用高维度特征向量表示；

(4)模型分类：建立特征向量与视频类别之间的数据对，建立分类学习器模型。

(5)计算预测视频显著性所需的观察者人数：计算给定视频特征向量，带入步骤(4)的分类学习器模型，确定样本类别，确定观察者数量。

进一步的，所述的步骤(4)后，对不同特征的分类进行精度试验，确定特征的有效性。

进一步的，所述的步骤(1)中的滤波方法为高斯滤波，利用核密度估计算法将单独注视点的影响区域化。

进一步的，所述的步骤(1)，利用麻省理工显著性基准相似度的计算方法计算相似性得分。

进一步的，所述的步骤(2)中采用k-means++算法将所有视频样本聚类。

进一步的，所述的步骤(3)中的视频特征包括：纹理特征、运动特征、基于显著性区域特征或其组合。

进一步的，所述的步骤(4)采用支持向量机进行超平面方式分类学习器模型。

进一步的，所述的纹理特征包括能量、熵、惯性矩及相关的均值和标准差。

进一步的，所述的运动特征包括灰度帧差图数据的均值、方差和视频帧频谱域数据的均值、方差。

进一步的，所述的基于显著性区域特征包括二值化显著图相邻帧之间的相对变化和绝对变化在x、y方向的均值和方差，显著区域面积特征的均值与方差。

本发明对于数据集中的视频，能够较为准确地预测其分类。除此之外，与现有视频分类算法相比较，还能够推荐眼动实验所需最优的观察者人数，能够保持采集样本与计算精度之间的平衡，只需要少量的眼动样本数据就能计算出较为准确的视频显著性图。

附图说明

图1为本发明系统模块框图；

图2为1～20个观察者的注视一致性曲线；

图3(a)为图4(a)、图4(b)、图5(a)、图5(b)、图6(a)、图6(b)、图7(a)、图7(b)对应的四种典型视频的注视一致性曲线；

图3(b)为数据集中所有视频的注视一致性曲线图；

图4(a)为有清晰的故事情节或者场景中叠加所有观察者左眼注视点的视频帧图像；

图4(b)为有清晰的故事情节或者场景中叠加所有观察者眼动数据计算出的显著性图；

图5(a)为包含1个主体对象和2～3个次要对象的叠加所有观察者左眼注视点的视频帧图像；

图5(b)为包含1个主体对象和2～3个次要对象的叠加所有观察者眼动数据计算出的显著性图；

图6(a)为观察者关注不同区域的叠加所有观察者左眼注视点的视频帧图像；

图6(b)为观察者关注不同区域的叠加所有观察者眼动数据计算出的显著性图；

图7(a)为观察者的注视点十分分散的叠加所有观察者左眼注视点的视频帧图像；

图7(b)为观察者的注视点十分分散的叠加所有观察者眼动数据计算出的显著性图。

具体实施方式

结合说明书附图对本发明的设计方案作进一步描述。

本实施例采用SAVAM数据集作为测试数据集，其中共有41个视频序列，每个视频16s-18s长，来源于著名的电影和科学数据集，共58位观察者，对58组观察数据都取左眼的关注点。如图1所示，具体处理方式如下：

步骤1：眼动跟踪数据预处理。首先创建一个与视频图像相同大小的全零矩阵P_MxN，其中M代表图像的高度，N是图像的宽度，根据每个观察者左眼注视点所对应的像素点坐标，叠加后可以计算出代表注视点的点阵矩阵。由于多个观察者的注视点可能分散于图像中，引入核密度估计算法：选取一个合适的核函数，把单独注视点的影响区域化。本实施例采用的是高斯核函数，计算公式如公式(1)所示，对每个注视点(坐标为(x₀,y₀))进行二维高斯分布模拟(即高斯滤波)。形成连续的分布区域称为感兴趣区域图，效果如图4(b)、图5(b)、图6(b)、图7(b)所示。

式中f(x,y)表示注视点对周围点(x,y)影响力的大小，σ是高斯分布的方差参数，本实施例的二维高斯分布模拟只考虑2σ以内的情况，根据图像大小，观察者距离屏幕位置以及屏幕的大小，针对SAVAM数据集σ取60。可根据数据集的不同调整σ的取值。采用高斯滤波对于每个视频的每帧图像进行如此处理，本实验以SAVAM数据集为例，生成相应眼动数据的感兴趣区域的视频。将全部58个观察者分为均匀个数的二组，对第一组观察者，叠加全部观察者的数据作为真值图；对第二组观察者，分别对其中1，2，...，29个观察者的观察数据进行叠加，用于后续与真值图视频进行相似度的比较。其中叠加的方式是从29个人的数据中随机选择不重叠的对应需求观察者数目的观察数据，对于每一种观察者数目，因为组合的方式，将会生成数目不等的若干视频。

注视一致性曲线的计算。为了评估某一个观察者的感兴趣区域视频H₁与真值图H_GT之间的相似性，采用公式(2)：

其中，d的取值的范围为0—1，t为视频的帧数，l为视频某一帧图像的像素个数，为将视频H₁的第j帧图像对应的矩阵转换为列向量后取第i维坐标值，min(a,b)函数为取a,b中较小的值。

为了比较上述第二组1～29个观察者中n个观察者的观察数据与由第一组数据真值图视频之间的相似性得分，需要对每一种观察者数目(1-29)的感兴趣区域视频计算出相似性值d_intersection(H₁,H_GT)，其中对于同一数目观察数据得到的若干视频与真值图视频分别进行相似度的比较后，求得均值作为该数目观察者数据与真实值相似度的最终比较结果。具体来说，当对第二组观察者的数据进行叠加时，为了减少其中可能存在的极端数据的影响，假设需要计算其中n个观察者数据1≤n≤29与真值图视频之间的相似度，首先随机选择不重叠的m(m≤10)组n个观察者；然后计算叠加n个观察数据的感兴趣区域视频，共获得m个感兴趣区域视频；再对每个感兴趣区域视频与真值图视频之间的相似性得分；计算得到的m个相似性得分的平均值就是n个观察者数据与真值图视频之间的相似性得分。

图2展示的是对于某个给定视频，1—20个观察者与真值图视频的相似度比较结果，因为21～29个观察者对应的相似度变化与20个观察者差别很小，所以省略。图3(a)为四种典型视频对应的数据，图3(b)为数据库中所有四种典型视频1—20个观察数据与真值图的相似度比较结果，其中曲线的线条类型对应类别属性，可以设置不同的相似度阈值(如0.5，0.6，0.7为常用值)来获取相应的最优观察者数目。

步骤2：视频聚类处理。对于数据集SAVAM中的41个视频，可采用K-means++方法将视频数据集聚类为4类。如图3(b)所示，4种线条类型分别对应不同类别的视频的注视一致性曲线。不难发现，通过设置精度阈值，可以对应得到能保证该类别所有视频需要观察者人数的最低值，譬如当精度阈值k设置为0.5时，在观察者数目为3的时候就可以保证所有的视频与真值值的相似性达到0.5。其中，聚类结果4为经验结果，阈值精度k的设定可根据数据集和精度的需求进行调整，建议的取值范围为0.5～0.7，可以根据需要合理设置阈值来调整每个类别所对应的建议观察者数目。

步骤3：视频特征提取。对于该数据集的视频需要进行特征的提取，提取特征的目的为建立其原视频与眼动观察区域的联系，提取特征的原则即为尽可能提取能吸引眼睛关注的有效特征。

1)纹理特征提取：纹理是图像中物体的重要信息，是图像分割、特征提取和分类识别的重要手段，故而将纹理考虑其中，利用灰度共生矩阵对每一帧的图像提取能量、熵、惯性矩、相关四个纹理参数，为了减少计算量，对原始图像的灰度级进行压缩，将灰度量化为16级，并从0°，45°，90°和135°四个方向分别计算灰度共生矩阵并对其归一化得到归一后的共生矩阵，而后分别计算得到纹理的能量、熵、惯性矩、相关四种特征矩阵，最后分别对其取均值和标准差作为纹理特征。灰度共生矩阵计算公式如公式(3)所示：

P(i,j,θ)＝#{(x1,y1),(x2,y2)∈M×N|f(x1,y1)＝i,f(x2,y2)＝j,max(|x1-x2|,|y1-y2|)＝1,arctan((y2-y1)/(x2-x1))＝θ} (3)

其中P即为灰度共生矩阵，i,j是矩阵P的索引1≤i≤16,1≤j≤16,#{x}表示(x1,y1),(x2,y2)符合上面等式的数目。具体可参见灰度共生矩阵资料。

2)运动特征提取：视频与静态图像最大的不同在于视频的前后帧之间有很大的联系，其中视频场景中物体的运动能够极大的影响视觉注意力，于是，通过对视频前后帧之间的关联提取一定的运动特征对于本发明的意义是至关重要的。首先将视频帧灰度化，然后计算帧差，得到帧差图，接着对总长为s帧的单一视频得到的s-1个帧差图分别进行求和处理，最后取s-1帧的处理结果平均值与方差作为一组2维的特征。与此同时对视频帧进行傅里叶变化到频谱域，然后做与灰度帧同样的处理，也可以得到一组2维度的特征。

3)基于显著性区域的特征：提取吸引人眼注意的特征，原帧的显著图是一个不可忽视的因素，显著图顾名思义是图像中比较显著的区域，体现出人眼对图像中某些区域的重视程度，将视频帧与中心偏置矩阵相乘处理后利用简单的显著性算法，生成显著图并进行二值化，计算出每帧图像的平均位置与显著像素的个数，通过平均位置得到相邻帧之间位置的相对变化与绝对变化，用x，y方向的均值与方差表示，通过显著像素的个数与图像所有像素的比例得到显著区域的面积特征并进行均值与方差，最终得到一组10维度的特征向量。

步骤4：模型分类。将步骤3中的特征组成一个22维的特征向量。本发明中用SAVAM数据集来验证，该数据集有41个视频，于是可以得到41×22维度的数据，利用步骤2中每个视频对应的聚类结果作为标签，把41组22维度的特征与对应标签拆分成两部分，一部分包含29组数据用作训练模型，另一部分包含12组用作验证模型。利用步骤2中提到的视频聚类方法，这41个视频被分为了四种类型，其中类型A包括8个样本，类型B包括16个样本，类型C包括12个样本，类型D包括5个样本。为了保证有足够的训练集数据，同时保持测试集数据的多样性，在表1中列出经过仔细选择的训练和测试样本的数量。由于样本视频的数量非常有限，决定使用六轮交叉训练和测试。为每个准备所需的数据视频类型我们随机选择了两组不同的视频。例如，对于A类型，随机选择了五个视频数据作为训练，而剩下的三个视频数据用作测试；如此这样就得到了一个数据集。然后再次执行这种选择以获得另一个类型A的数据集。通过交叉组合这四种类型的两个数据集中，总共获得了八种组合，并从它们中随机抽取6组，送入支持向量机分类学习器模型。

表1实验中使用的训练和测试数据的数量。

步骤5：对不同特征的分类进行精度试验。在步骤3中，分别得到了三种特征，为了表明特征的有效性，对这三种特征模型组合进行测试：仅纹理特征，纹理特征与运动特征相结合，以及由纹理特征，运动特征和基于显著性区域的特征组成的多级特征。在实验过程中，可以发现平均预测准确率(六个轮次)从大约50％逐渐增加到58％，最终达到67％的准确性。值得关注的是在使用具有三个特征方面的特征模型时，所有六轮中的正确预测视频数为：9,8,8,8,8和7，最佳情况下精度为75％，如表2所示。

表2不同特征组合下的分类精度。

步骤6：计算预测视频显著性所需的观察者人数。对于给定视频，根据步骤3中所述的特征模型，提取视频的特征向量，送入步骤4中所述的支持向量机分类学习器模型，预测其类别属性。通过查找索引表3，对于给定相似性阈值可推荐计算显著性图时所需的最优观察者数量，若设置不同的阈值精度，建议的最优观察者的数目会相应发生改变。表3对应的是阈值精度设置为0.52时，对每个视频类别的观察者数目的建议。

表3每个视频类相似性分数达到0.52时所需观察者的数目。

Claims

1.一种针对视频显著性图预测所需的眼动数据数目建议方法，其特征在于包括以下步骤：

(1)眼动跟踪数据预处理：创建代表注视点的点阵矩阵，对点阵矩阵的每个注视点进行滤波，在处理后的数据中选择一半的数据平均化后得到该视频每帧对应的真值图；另一半数据计算每个观察者的注视点图与真值图之间的相似性得分，并生成每个视频关注一致性曲线；

2.根据权利要求1所述的一种针对视频显著性图预测所需的眼动数据数目建议方法，其特征在于：所述的步骤(4)后，对不同特征的分类进行精度试验，确定特征的有效性。

3.根据权利要求1所述的一种针对视频显著性图预测所需的眼动数据数目建议方法，其特征在于：所述的步骤(1)中对每个注视点(坐标为(x₀,y₀))进行二维高斯分布模拟，即高斯滤波，形成连续的分布区域称为感兴趣区域图，

式中f(x,y)表示注视点对周围点(x,y)影响力的大小，σ是高斯分布的方差参数。

4.根据权利要2所述的一种针对视频显著性图预测所需的眼动数据数目建议方法，其特征在于：所述的步骤(1)中，为了评估某一个观察者的感兴趣区域视频H₁与真值图视频H_GT之间的相似性，采用公式(2)：

为了比较n个观察者的观察数据与真值图之间的相似性得分，需要对每一种观察者数目的感兴趣区域视频计算出相似性值d_intersection(H₁,H_GT)，其中对于同一数目观察数据得到的若干视频与真值图视频分别进行相似度的比较后，求得均值作为该数目观察者数据与真实值相似度的最终比较结果。

5.根据权利要求1所述的一种针对视频显著性图预测所需的眼动数据数目建议方法，其特征在于：所述的步骤(2)中采用k-means++算法将所有视频样本聚类。

6.根据权利要求1所述的一种针对视频显著性图预测所需的眼动数据数目建议方法，其特征在于：所述的步骤(3)中的视频特征包括：纹理特征、运动特征、基于显著性区域特征或其组合。

7.根据权利要求1所述的一种针对视频显著性图预测所需的眼动数据数目建议方法，其特征在于：所述的步骤(4)采用支持向量机进行超平面方式分类学习器模型。

8.根据权利要求6所述的一种针对视频显著性图预测所需的眼动数据数目建议方法，其特征在于：所述的纹理特征包括能量、熵、惯性矩及相关的均值和标准差。

9.根据权利要求6所述的一种针对视频显著性图预测所需的眼动数据数目建议方法，其特征在于：所述的运动特征包括灰度帧差图数据的均值、方差和视频帧频谱域数据的均值、方差。

10.根据权利要求6所述的一种针对视频显著性图预测所需的眼动数据数目建议方法，其特征在于：所述的基于显著性区域特征包括二值化显著图相邻帧之间的相对变化和绝对变化在x、y方向的均值和方差，显著区域面积特征的均值与方差。