CN106778687B

CN106778687B - 基于局部评估和全局优化的注视点检测方法

Info

Publication number: CN106778687B
Application number: CN201710024964.3A
Authority: CN
Inventors: 李建华; 姜博; 卢湖川
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2017-01-16
Filing date: 2017-01-16
Publication date: 2019-12-17
Anticipated expiration: 2037-01-16
Also published as: CN106778687A

Abstract

本发明属于计算机视觉领域，基于局部评估和全局优化的注视点检测方法。利用边缘密度算法提取图像中可能的候选目标；然后利用监督学习的方法对这些目标局部评估，两种评估方式：(1)用整个数据库的图像训练SVM对每个proposals的显著性打分；(2)利用半耦合字典学习算法，针对不同的图像重构出不同的SVM，为这张图像的proposals进行有针对性的打分；经过局部评估后，利用proposal子集优化算法将proposals聚类。最后进行全局优化。本发明针对不同引起人眼注意的信息特点，设计出能够捕捉这些信息的模型，能够有效的检测包含语义信息的图像、包含物体的图像、复杂或不包含物体的图像中的人眼注视区域。

Description

基于局部评估和全局优化的注视点检测方法

技术领域

本发明属于计算机视觉领域，涉及到图像处理相关知识，特别涉及到注视点检测方法。

背景技术

注视点检测作为显著性检测的一个分支，在图像分割、图像压缩、目标识别等领域有广泛的应用前景。近年来，眼动点检测领域涌现出许多新颖的算法，对于部分数据库检测效果已经达到较好水平，但是仍有很多关键问题没有解决。下文对眼动点检测的经典算法进行分析，总结目前的发展现状。

Itti等人在论文“A model of saliency-based visual attention for rapidscene analysis，1998”中提出了最早的注视点预测算法。他们提取图像的颜色，亮度，方向三种特征，采用中心—周围对比的方法，计算出各个像素的显著度。并通过构建高斯金字塔提取图像多尺度信息，以兼顾图像全局对比信息。最终通过对多个特征图融合得到结果。在Itti模型的基础上，研究人员提出了很多预测视觉注视点的改进。但都是基于同一模型框架的，即首先将输入图像分解为多类视觉特征通道，然后对每类视觉通道单独进行显著性度量生成特征显著图，最后结合多类特征显著图来生成最终的一个显著图。这些方法同Itti模型的不同之处在于，论文“Predicting human gaze using low-level saliencycombined with face detection，2008”选用了不同种类的视觉特征，论文“Predictinghuman gaze using low-level saliency combined with face detection，2008”采用了不同的显著性度量方式。论文“Saliency estimation using a non-parametric low-level vision model，2011”使用了不同的特征图融合方式。

除了上述自底向上的注视点检测模型，还有一类自顶而下模型。自顶而下模型是任务驱动的，一般采用训练学习的方法，因此需要人工标注的真值数据，以及必要的先验信息。这类模型大多用于解决眼动点检测中的语意信息问题，早期的方法“Learning topredict where humans look，2009”中语意信息由各种目标检测器构成，包括汽车，行人，人脸等等。而后随着深度学习的发展，出现了多种利用卷积神经网络(CNN)特征或者利用CNN进行端到端检测的方法。Kümmerer M发表的“Boosting saliency prediction withfeature maps trained on imagenet，2014”中，使用深度特征与传统特征相融合以得到更好的检测效果。Pan J的“End-to-end convolutional network for saliencyprediction，2015”利用深度学习框架进行端到端的检测。这些方法大多取得了良好的效果，是注视点预测发展的方向。

发明内容

本发明要解决的技术问题是：在图像中含有一个或多个显著目标的情况、图像中存在人脸、文字等语义信息的情况、在图像中不存在显著物体或图像场景十分复杂等情况下对人眼注视点进行准确的预测。

本发明的技术方案：

基于局部评估和全局优化的注视点检测方法，概括如下：

首先利用边缘密度算法(Edge boxes)提取图像中可能的物体目标(proposals)。然后利用监督学习的方法对这些目标局部评估。评估方式分为两种：一种是总体评估，用整个数据库的图像训练SVM对每个proposals的显著性打分。另一种是具体评估，利用半耦合字典学习算法(SCDL)，针对不同的图像重构出不同的SVM，为这张图像的proposals进行有针对性的打分。总体评估方法的检测结果更加全面，对多种语义特征都有一定的有效性。而具体评估能够更好地检测图像中最明显的一种语义信息。两种评估方式融合能够使检测结果更加准确。经过局部评估后，利用proposal子集优化算法将proposals聚类。最后，考虑每一类的全局上下文信息，对注视点检测结果进行全局优化。

步骤如下：

(1)提取候选目标

提取待检测图像上存在物体的区域，以检测到的候选目标作为后续处理的基本单位。传统的显著性检测方法多采用滑动窗、像素、超像素作为特征提取的基本单位，这导致大量重复计算和效率底下。本发明采用edge boxes算法，提取待检测图像上可能是物体(object)的区域。该算法的原理是利用候选框中的边缘密度大小选取目标区域，目标区域用四维向量[x,y,h,w]表示，[x,y]代表目标框中左上角像素的坐标，[h,w]代表目标框的高度和宽度。我们将产生的目标框作为可能的人眼注视区域，因为人眼倾向于注视于图像中的物体而不是背景。本发明的后续步骤都是以这里检测到的候选目标框作为处理的基本单位。相较于传统方法，本方法能在保持较高准确率的同时极大地减小计算量，提高整个注视点检测算法的效率。

(2)深度特征提取

本发明利用微调后的卷积神经网络提取候选目标的深度特征。在图像中首先引起人眼注目的往往是人所熟悉的人脸、文字、动作等区域。因此我们认为语义信息在注视点检测中占主导作用。为了更准确地捕捉语义信息，本发明采用卷积神经网络提取图像的深度特征。深度学习模仿大脑的神经元之间传递，处理信息的模式，以发现数据的分布式特征表示。近年来，卷积神经网络在图像处理领域取得了巨大成功。本发明采用vgg-16网络结构，并根据本发明针对的注视点检测问题对网络参数进行了微调(fine-tuning)。利用微调完成的神经网络，把每张图像的候选目标框作为输入，选取网络中第二个全连接层输出的4096维向量作为深度特征。

至此，我们得到了候选目标框及其对应的深度特征。

(3)局部评估总体训练

这一步骤的主要目的是根据候选区域的特征评估该区域受注视的程度。本发明采用自顶向下的监督学习方式训练分类器，评判每一个候选区域是人眼注视区域的可能性。首先，根据注视点信息的真值，从训练集图像的候选框中挑出训练样本框。然后，利用整个数据库的样本框的深度特征训练支持向量机。在测试阶段，把测试图片的候选图像块输入SVM，就可以得到对应的评估分数。把候选图像块的中心作为注视点，可以做出人眼注视点预测初始图。

(4)局部评估具体训练

在上一步骤的总体训练中，整个数据库的图像都用同一个分类器评估。本步骤的目的是对候选图像区域进行更具体的评估，实现一张图像对应一个分类器。为了实现这一目的，我们采用了半耦合字典学习(SCDL)的方法。这一方法的理论基础是：对于同一场景的两种不同类型的表示，存在耦合字典，且两种表示在耦合字典上的分解系数有稳定的关系映射。给定一张图像，我们可以计算图像的深度特征向量，也可以根据这张图像训练提取正负样本训练SVM得到权值向量。两个向量是对同一张图像的不同表示，因此它们之前也存在着稳定的映射。利用SCDL算法可以学习出这种映射关系。利用映射关系，在已知图像深度特征向量的同时就可以得到对应的SVM。具体过程如下：

给定一张图像I，首先通过卷积神经网络得到其深度特征x_I，与图像候选区域的特征提取的方法相同。再在图像I选取100个正负样本训练SVM，得到SVM的权重向量w_I。对于训练集合S，候选目标特征集合为其中每一列代表一张图像的深度特征，d为特征向量维数，N为数据库中图像个数。对应的SVM权重向量集合为分别定义为特征字典、权重字典、映射字典。这里的k指的是字典大小。那么，字典的联合优化问题的公式如下：

Φ＝E_data(D_X,X^S)+E_data(D_W,W^S)+E_map(M)+E_reg(Λ_X,Λ_W,M,D_X,D_W) (2)

上式中Λ_X和Λ_W代表编码系数，E_data(·,·)代表重构误差，E_map(·)代表映射误差项，E_reg(·)是编码系数，映射矩阵和字典的正则项。

给定一张图片，通过求解，我们可以根据其深度特征得到对应的SVM。实现对每张图像具体地评估的任务。根据结果对比直观判断，具体的训练方式对于包含明显语意信息的图像评估更加准确，而总体训练的结果则更加全面，两种结果具有互补性。两者融合可以得到更加准确的检测效果。

(5)候选图像块的子集优化

局部评估得到高分的候选图像块存在小部分误检，即背景部分被检测为人眼注视区域。通过观察，真正的人眼注视区域往往存在多个高分候选目标框，而误检部分仅有少量高分候选目标框。根据观察本发明对候选目标进行聚类优化。优化的目的主要有两个：第一，删除空间位置上孤立的高分框，保留空间位置密集高分框。通过减少离群值增加局部评估的置信度。第二，将位置靠近的高分框聚类，便于设计统一的特征来描述整个子集，增加特征描述的准确性。根据要求，我们对候选目标使用了proposal子集优化算法。算法根据以下约束对候选图像块进行聚类：

1.聚类个数尽可能低，因为一张图像中的显著目标通常很少。

2.同一类中的候选框尽可能重叠，且尽可能相似。

3.不同类的聚类中心重叠越低越好。

聚类操作不仅能够去除孤立的高分噪声图像块，还为下一步全局优化减少计算量。

(6)全局优化

由于吸引人眼注视的因素有三类：对比度，物体，语义信息。以上步骤我们仅仅对目标框进行了局部评估，通过edge boxes算法选取可能是物体的候选框，通过深度特征和监督学习来捕捉语义信息。然而，我们忽视了对比度这一因素。所以本步骤中我们综合考虑候选框的全局对比度，边界对比度，局部评估的分数对注视点检测进行最后一次优化。

本发明的有益效果：利用深度特征解决了注视点检测中的语义鸿沟。设计出了总体训练和具体训练两种互补的方法，以提升局部评估的效果。总体上采用局部评估和全局优化相结合的方式，综合考虑了影响人眼注视点的多种信息，得到了较好的注视点检测结果。

附图说明

图1是基于局部评估和全局优化的注视点检测方法系统框图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

步骤一：本发明中候选框的由edge box算法得到，该算法默认生成10000个候选框。我们观察到，保留越多的候选框能够保证候选集合尽可能的包含所有的注视区域，而保留越少的候选框能够增加算法效率。为了保持准确率与效率的平衡，我们设置edge box参数α为0.65，β为0.55，每张图片保留2000个候选框。

步骤二：上文提到我们的采用的卷积神经网络为vgg-16结构，初始参数也采用是vgg-16图像分类网络的参数。在微调网络参数过程中，我们采用salicon数据库作为训练样本。提取salicon数据集中图片的候选图像块，并把图像块调整到225×225×3的大小，从中挑选正负样本微调网络。微调完成后，输入候选图像块，保存第二个全连接层的输出，就能得到对应的深度特征。特征为长度4096的一维向量。

步骤三：局部评估步骤中，根据注视点检测的真值挑选用于SVM训练的样本。注视点检测的真值是和原图像相同的大小的灰度图，灰度越高说明该区域越受人眼注视。将候选框投影在灰度图上，选取密度最大的10个候选图像块作为正样本。但是，我们并不选取密度最低的10个候选图像块作为负样本，因为这样的图像块中往往是不包含有意义信息的。将候选图像块的灰度密度归一化到0至1，选取0.1以上的10个图像块作为负样本。SVM的参数设置上，由于深度特征的高维度，本发明采用线性核SVM就可以取得很好的效果。

训练好SVM后，将训练图像集中每张图像的2000个候选图像块特征输入SVM，删除分类结果为负的图像块，记录分类结果为正的分值到集合S₁。

步骤四：SCDL的目标函数见公式(2)

对于D_w，D_x，M，Λ_x，Λ_w该优化问题是非凸的，针对其中一个而固定其他变量时该问题就是凸性的，因此，该优化问题可以通过迭代以下步骤直至收敛来解决：

1.固定D_w，D_x，M，Λ_w，使可以得到

2.固定D_w，D_x，M，Λ_x，使可以得到：

3.固定Λ_x，Λ_w，M，令且可以得到：

4.固定D_w，D_x，Λ_x，Λ_w，令可以得到：

给定一张测试图像I和对应的深度特征X_I，首先根据如下公式计算其分解系数：

在D_x上的分解系数α_w由如下公式计算：

α_w＝Mα_x (9)

权重向量可以由下式重构

W_I＝D_wα_w (10)

将图像I的候选图像块的特征排列成矩阵其中每一行是一个图像块的4096维特征。由下式可以得到对应图像块的显著性评估分数：

与步骤三相同，记录分数为正的图像块到集合S₂。

最终，局部评估中的总体训练和具体训练两个集合取并集，分数取S₁S₂的最大值。

步骤五：定义一张图像中的候选框为集合B＝{b_i,b₂,K,b_n}，对应的局部评估分数为S＝{s_i,s₂,K,s_n}，n为候选框的个数。定义一个长度为n的一维向量O来表示聚类中心，当b_j被选为某一类的聚类中心时，O_i＝1，否则O_i＝0。定义长度为n的一维向量X表示聚类分布，当b_i被选作以b_j为聚类中心的类中时X_i＝j。同样当b_i不属于任意一类时X_i＝0。根据以上定义，聚类优化算法的目标函数可以定义为：

式中w_i(x_i)是第i个候选框分类的代价函数，表示为：

κ(b_i,b_j)衡量两个候选框的相似程度以及重叠大小，其中相似程度由深度特征的欧式距离表示。|O|代表聚类类别个数，代表聚类中心序数的集合。公式中λ是删除离群值的权重参数，Φ和γ分别代表聚类个数和不同类别差别大小的权重参数。通过优化求解上述目标函数，可以得到要求的聚类结果。通过实验，设定λ，Φ和γ分别为：0.075，1，log(0.3)。聚类子集个数通常是10到30个。

步骤六：通过聚类操作，候选注视点的个数从几百个减少到了几十个。本步骤根据图像块的图像上下文信息对其进行全局优化。

首先，设计全新的特征X_g描述每个图像块。X_g包括全局对比信息，几何信息和局部评估分数。全局对比信息包括：边界对比，全局对比。分别在RGB，Lab，HSV颜色空间计算。以RGB空间为例阐述具体计算方式，给定一个候选图像块O，计算其颜色直方图为颜色平均值内部相似颜色方差定义图像块周围八个方向与图像块大小相同的区域为图像边界区域。同理可以计算出边界区域的颜色直方图和均值图像整体的颜色直方图为边界对比用图像块与边界的颜色直方图的卡方距离和颜色均值的欧氏距离衡量。全局对比用图像块与图像整体的直方图差异衡量。Lab和HSV颜色空间的两种对比计算方法同上。

几何信息描述了图像块的位置和大小信息。提取图像块中心坐标，各个边长和宽高比，最后根据图像大小进行归一化操作。局部评估分数由上一步骤的局部评估得到。

因为聚类筛选所剩的图像块大部分都是受注视区域，只是受注视程度不同。我们根据新设计的特征训练回归模型对受注视程度进行预测，从而实现注视点检测中的全局优化。

Claims

1.基于局部评估和全局优化的注视点检测方法，其特征在于，步骤如下：

(1)提取待检测图像上存在物体的区域，以检测到的候选目标作为后续处理的基本单位；

(2)利用微调后的卷积神经网络提取候选目标的深度特征；

(3)局部评估的总体训练：根据候选目标的深度特征评估该区域受注视的程度，采用自顶向下的监督学习方式训练分类器，评判每一个候选目标是人眼注视区域的可能性；首先，根据注视点信息的真值，从训练集图像的候选框中挑出训练样本框；然后，利用训练集图像的样本框的深度特征训练支持向量机SVM；在测试阶段，把测试集图像的候选目标输入支持向量机，得到对应的评估分数；

(4)局部评估的具体训练：采用半耦合字典学习算法，实现一张图像对应一个分类器；给定一张图像I，通过卷积神经网络得到其深度特征x_I；再从图像I中选取100个正负样本训练SVM，得到SVM的权重向量w_I；对于训练集图像S，候选目标特征集合为其中每一列代表一张图像的深度特征，d为特征向量维数，N为数据库中图像个数；对应的SVM权重向量集合为分别定义为特征字典、权重字典、映射字典；k是字典大小；那么，字典的联合优化问题的公式如下：

Φ＝E_data(D_X,X^S)+E_data(D_W,W^S)+E_map(M)+E_reg(Λ_X,Λ_W,M,D_X,D_W) (2)

上式中Λ_X和Λ_W代表编码系数，E_data(·,·)代表重构误差，E_map(·)代表映射误差项，E_reg(·)是编码系数，映射矩阵和字典的正则项；通过求解，根据其深度特征得到对应的SVM，实现对待检测图像的具体评估任务；

(5)对局部评估得到的结果使用proposal子集优化算法，proposal为物体目标：删除空间位置上孤立的高分框，保留空间位置密集高分框，通过减少离群值增加局部评估的置信度；进一步将密集高分框聚类，原则如下：

1)减少聚类个数；

2)同一类中的候选目标重叠且相似；

3)降低不同类的聚类中心重叠；

(6)设计新的特征训练回归模型对受注视程度进行预测，新特征包括候选目标的全局对比度、边界对比度、局部评估的分数；在算法总体框架上，采用局部评估与全局优化两个阶段，分别体现候选目标的自身特征和所处的图像上下文环境。

2.根据权利要求1所述的注视点检测方法，其特征在于，步骤(1)提取方式采用edgeboxes算法。