CN106815604A

CN106815604A - 基于多层信息融合的注视点检测方法

Info

Publication number: CN106815604A
Application number: CN201710024963.9A
Authority: CN
Inventors: 李建华; 肖迪; 卢湖川
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2017-01-16
Filing date: 2017-01-16
Publication date: 2017-06-09
Anticipated expiration: 2037-01-16
Also published as: CN106815604B

Abstract

本发明属于计算机视觉领域，基于多层信息融合的注视点检测方法。由颜色等底层信息得到底层信息检测结果图。利用像素点的空间位置得到中心先验图。对原始图像提取候选目标框及其CNN深度特征，利用词袋模型编码，编码后的视觉特征送入训练好的多示例RMI‑SVM分类器中得到打分，对框中心高斯平滑后根据目标框的打分进行加权叠加得到目标级别的检测结果图。对原始图像本身提取描述图像整体内容的特征，训练softmax回归器得到融合权值，采用这个权值对上述结果图进行加权融合。本发明综合利用颜色对比度，显著目标，空间位置这三方面信息，并针对不同的图像调节各种信息占的比重，针对于包含各种内容的图像，本发明都有较好的检测率。

Description

基于多层信息融合的注视点检测方法

技术领域

本发明属于计算机视觉领域，涉及到图像处理相关知识，特别涉及注视点检测方法。

背景技术

在目前高速发展的社会中，监控摄像头在城市内随处可见，带来了一个很严重的问题就是信息过载。计算机视觉技术面临的任务就是在繁多的图像、视频文件中快速发现感兴趣的目标，所以对于注视点检测的研究是非常有意义的。注视点的成因是由于候选前景目标与场景中的背景在种特定的对比中形成了引起人眼注意的新奇刺激。图像的注视点检测是图像处理中的一个重要分支。在图像处理中，注视点检测往往是作为一种前置操作，应用于图像分割，自适应图像压缩，基于内容的图像编辑，目标检测与识别，以及图像检索等领域。利用视觉显著性对图像进行分割，从而只关注显著区域，可以很大程度上减少运算量，同时不遗漏较为重要的信息。

Itti L等人在文章“A model of saliency-based visual attention for rapidscene analysis.In PAMI,1998”中先提取原始图像的颜色亮度特征图，对亮度图像进行滤波得到方向特征图。对亮度特征、颜色特征、方向特征三幅图像分别构建高斯金字塔。每种特征经过中央—周边算子运算、归一化、叠加得到颜色、强度、方向三幅显著图。对三幅显著图进行加权叠加得到最终的显著图。此方法能处理一些有着明显的对比度的图像，但缺乏对更加能吸引人眼注意的目标的检测。

Hou X等人在文章“Saliency detection:A spectral residual approach.InCVPR,2017”中提出了SR模型，此模型的原理是一幅图像中的信息可以分为两部分：目标信息和冗余信息，人类的视觉系统可以自动过滤掉复杂环境中的冗余信息而保留目标信息。基于此原理，该算法先对图像进行二维傅立叶变换得到频域的幅度谱和相位谱。利用低通滤波器对幅度谱进行滤波操作得到冗余信息，之后去除原图像中的这部分信息就得到了显著图。SR模型的优点是运算速度较快，且结果对参数不敏感。但该算法存在一些缺点，如对噪声敏感，而且仅能处理灰度图像等。

Liang M等人在文章“Predicting eye fixations with higher-level visualfeatures.In TIP,2015”中提出了一种利用更高层信息的注视点检测模型。利用图像的sift特征结合BOW模型计算颜色和形状显著图。利用object bank目标检测器获得多张map训练SVM加权叠加高层信息显著图。此模型虽然提出了用目标检测来辅助注视点检测的思路，但是所采用的目标检测器检测效果非常有限，对注视点检测结果帮助不大。

发明内容

本发明要解决的技术问题是：自然场景中的图像多种多样，采用单一特征信息的检测方法无法取得较好的检测效果，例如：图像中有颜色对比度比较突出的区域，这样利用底层的颜色特征信息就可以很好地检测。若图像中有一些能吸引人眼注意的目标如人脸文字等，则高层的目标级别的特征信息更加有效。若图像颜色对比度不明显，又没有吸引人的目标，也就是说图像内容比较均匀单一，这样人眼往往会看向图像的中心，这样空间位置信息又会起主导作用。本发明提出了一种检测方法综合利用这三种信息，并针对不同的图像调节各种信息占的比重。

本发明的技术方案是：由颜色等底层信息得到底层信息检测结果图。利用像素点的空间位置得到中心先验图。对原始图像提取候选目标框及其CNN深度特征，利用词袋模型编码，编码后的视觉特征送入训练好的多示例RMI-SVM分类器中得到打分，对框中心高斯平滑后根据目标框的打分进行加权叠加得到目标级别的检测结果图。对原始图像本身提取描述图像整体内容的特征，训练softmax回归器得到融合权值，采用这个权值对上述结果图进行加权融合。图像图1为本发明的系统框图。

具体实现步骤包括：

(1)底层颜色信息检测

Lab颜色空间是由CIE(国际照明委员会)制定的一种色彩模式。它致力于感知均匀性，它的L分量密切匹配人类亮度感知。因此可以被用来通过修改a和b分量的输出色阶来做精确的颜色平衡，或使用L分量来调整亮度对比，所以用来描述显著性更加合适。在LAB颜色空间中，我们采用类似ITTI的检测方法，用图像金字塔的形式来模拟人类的视觉特性。利用“中央—周边”算子计算差异图来模拟人类视觉注意力系统，视觉感受野的中央区域用高分辨率图像代表，视觉感受野的周边区域用低分辨率图像代表，特征差异图是不同分辨率图像之前的差值。计算方式为

L(c,s)＝|L(c)ΘL(s)| (1)

其中Θ为“中央一周边”算子，代表跨尺度相减运算；c表示中央尺度，s表示周边尺度。之后用一种非线性归一化算子N(·)进行归一化。理论依据是神经学究表明当感受野的中心区和周边区在同一特征维上时，周边区对中心区产生的抑制的最强。N(·)算子的计算方式为

N(M(c,s))＝[M(c,s)+M(c,s)*DOG-C] (2)

式中*表示卷积，C是引入的偏置，DOG为双高斯差分函数，模拟的是同心圆结构的中心型感受野。DOG函数的表达式为

式中σ_ex和σ_inh是兴奋带宽和抑制带宽，c_ex和c_inh是兴奋常数和抑制常数，DOG函数可使相邻显著点之间进行局部竞争。对LAB分量分别进行上述操作，最后根据得到底层信息检测图。

(2)图像候选目标生成及其特征提取

首先用边缘多尺度组合分组算法(Multiscale Combinatorial Grouping)提取图像的目标候选框，一般的图像大约可提取100到1000个目标框。这些目标框有的完整的框住了目标，但大部分只框住了目标的一部分或者没有框住目标，接下来需要做的就是选出那些能吸引人眼关注的目标框。把这些候选框框住的图像块送入一个预先训练好的用于目标检测的CNN网络中，得到候选目标的CNN特征，以便后续训练。

(3)词袋模型编码

Bag-of-words model(BoW model)最早出现在神经语言程序学(NLP)和信息检索(IR)领域。该模型忽略掉文本的语法和语序,用一组无序的单词(words)来表达一段文字或一个文档。近年来，BoW模型被广泛应用于计算机视觉中.与应用于文本的BoW类比,图像的特征(feature)被当作单词(Word)，把图像“文字化”之后，有助于大规模的图像表达，图像检索以及提取特征。

利用词袋模型进行图像表达的基本步骤：

1、提取特征：根据数据集选取特征，形成特征数据，统计图像数据库中出现的所有特征，去除冗余组成词袋。

2、学习词袋：把处理好的特征数据全部合并，再用聚类的方法把特征词分为若干类，此若干类的数目由自己设定，每一个类相当于一个视觉词。

3、利用视觉词袋量化图像特征：每一张图像由很多视觉词汇组成，利用统计的词频直方图，可以更好地表达这一图像。

本发明把词袋模型应用在注视点检测中。

特征提取在上一步骤已经完成，所有图像的所有候选目标的特征构成一个大的集合，利用混合高斯模型(GMM)进行聚类，聚类后得到N个聚类中心，这些中心构成了视觉表示词袋。把所有词袋中心拼接成一个字典，作为注视点视觉词汇字典。把所有候选目标的特征利用稀疏表示在此字典上进行分解，保留分解后的系数。这样就得到了针对于候选目标的具有统计特性的N维视觉词汇特征。

(4)训练多示例显著目标检测模型

得到每个候选目标的视觉词汇特征之后，需要判定哪些目标能吸引人眼的关注。普通的分类器如SVM，都需要带有确定标注的正负样本，但是正样本的选取存在一定问题。正样本选取一般根据框内注视点的密度，这就造成了我们选取的正样本并不是全是真正的正样本，但是根据真值注视点密度图并无法判断哪些样本是真的正样本。因此本发明中使用多示例分类检测算法，来避开正样本选择的问题。

多示例学习的数据单元是包，每个包包含一个或者多个样本，包的标记有两个类别，正和负。如果一个bag里面所有样本的标记都是负的，那么这个bag的标记为负。这个bag里面至少有一个样本的标记为正，则这个bag标记为正。对于训练样本仅知道包的标签，但并不知道其中包含样本的标签，根据这样的训练数据得到一个分类器，使得对新输入的样本，可以给出它的正负标记。

在注视点检测中，对于图像的每个位置都有若干个大小不一的目标框。图像的显著区域附近的所有候选目标框中有一部分是正样本，图像的非显著区域附近的所有候选目标框都为负样本，这刚好与多示例学习的思想吻合。图像的显著区域附近的框集合作为正包，非显著区域附近的框集合作为负包，利用多示例学习算法RMISVM(Relaxed Multiple-Instance SVM)进行训练，可以避免之前所提到的正样本选择不准的问题。RMISVM的目标函数如下：

其中为第i个包损失项，为第i个包中第j个示例的损失项，sgn是符号函数，m₀是确定正负示例的阈值参数。

p_ij为第i个包中第j个示例标签为正的概率，P_i为第i个包标签为正的概率。

对其用随机梯度下降算法求解，得到输出[w，b]。

训练阶段，根据注视点密度图选取正负包，利用其视觉词汇特征训练RMISVM分类器[w，b]。测试阶段，给定测试图像，先提取候选目标得到其CNN特征，转换为视觉词汇特征送入训练好的RMISVM分类器得到分数，把这个分数作为权重对目标框中心位置进行加权叠加得到最终的目标级别的检测结果图。

(5)生成中心先验图

在注视点检测中，很多研究表明：观察者会根据图的内容，或多或少会倾向于看向图像中心的位置。所以把中心先验图考虑进来是非常必要的。中心先验图的生成非常简单，仅需要在图像中心放置一个最大亮度为1的高斯分布即可。

(6)学习自适应融合权重

经过上述步骤，已经得到了三张采用不同层次信息得到的检测结果图，分别是中心位置先验图、显著目标检测图和底层颜色对比图。自然场景中的图像多种多样，针对不同的图像，这三种结果图的检测结果也各不相同。如果人工设定权重或者训练一个固定的融合权重都并不合适。例如：图像中有颜色对比度比较突出的区域，这样利用底层的颜色特征信息就可以很好地检测。若图像中有一些显著吸引人眼注意的目标如人脸文字等，则高层的目标级别的特征信息更加有效。若图像颜色对比度不明显，又没有吸引人的目标，这样空间位置信息又会起主导作用。这可以看成一个多分类的问题，可以用分类的方法确定哪一种检测结果图更加可信，并赋予较大融合权重。

在训练权值分类器的阶段，首先需要得到一个描述图像整体信息的特征，VGG是一个比较完善的用于图像分类的深度神经网络。把整张图像送进网络中，取其第19层的输出作为描述整张图像信息的特征，共4096维。其次，需要对三种检测结果图做评价，决定哪一种方法更适合当前图像，S-AUC是注视点检测领域中最常用的评价标准。本发明采用S-AUC的相对值取判断哪一种方法的检测效果更好，公式如下：

S_i＝max(0,s_i-max(s_j,s_k)) (9)

其中，是si为当前需要评价的结果图的S-AUC，是sj和sk为其他两种结果图的S-AUC。S-AUC的相对值最高的方法编号作为当前图像的训练标签。用之前得到的整张图的特征及对应标签训练softmax分类器，假设函数(hypothesis function)如下：

其中θ₁,θ₂,..θ_k∈Rⁿ⁺¹是模型的参数，x⁽ⁱ⁾为第i个样本的特征，k为样本的总个数，代价函数为：

使用迭代的算法，对θ进行优化求解。

测试阶段，把测试图像的特征送入训练好的分类器中，得到属于各类的概率w1,w2,w3，以此作为融合的权值。最终的融合结果为：

(7)语义信息的检测

自然场景图像中，包含着各种各样的语义，其中有的语义可以明显吸引人眼关注，如：人脸，文字，行人，告示牌，交通标志等等。对这些语义进行特定的检测，可以大幅度提升最终的检测效果。

本发明采用基于区域的用于目标检测CNN网络的输出特征，进行三种语义检测：人脸，文本，行人。在专门的做这三种目标检测数据库中，训练随机森林分类器。语义检测阶段，与之前步骤相同，提取图像中的目标框及其CNN特征，送入训练好的分类器中，得到框的打分，再对重叠的框进行合并得到最终的语义检测结果。以往合并重叠框的方法是采用非极大值抑制(NMS)算法。抑制的过程是一个迭代-遍历-消除的过程，将所有框的得分降序排列，选中最高分及其对应的框。遍历其余的框，如果和当前最高分框的重叠面积(IOU)大于一定阈值，我们就将框删除。从未处理的框中继续得到一个得分最高的，重复上述过程。但此方法的检测位置完全由最高的几个框，实验过程中发现分数最高的框不一定能完全框住目标。本发明中对NMS算法进行了改进，让被抑制的框也能起到一定的定位作用。思想是利用迭代更新策略，分数最高的框决定初始位置，其他每个被抑制的框都会对其位置进行更新，位置更新的方式为利用框的分数对框的位置进行加权叠加，直到所有的框都被遍历完毕。

附图说明

图1是基于多层信息融合的注视点检测方法的系统框图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

实施例

步骤一：对图像的L、A、B通道分别生成金字塔，每一层图像的尺度是上一层的一半。金字塔底部是原始的高分辨率图像，随着金字塔层数增高，图像分辨率降低。每一层中的图像是对上一层图像进行滤波和降采样之后得到的。本发明滤波部分采用高斯滤波，模板是[5*5]，标准差为1.6的高斯模板。模型构造了9层的高斯金字塔，以L分量为例，金字塔记为L(σ)，σ∈[0，8]。利用“中央—周边”算子计算差异图，之后用非线性归一化算子N(·)进行归一化。最后对三个颜色通道进行叠加得到底层信息检测图。

步骤二：首先用边缘多尺度组合分组算法提取图像的目标候选框，把这些候选框送入一个预先训练好的用于目标检测的CNN网络中，得到候选目标的CNN特征。所有图像中的所有候选目标的特征构成一个大的集合，利用混合高斯模型(GMM)进行聚类，得到N个聚类中心，本发明中N＝128。构建视觉词汇字典，所有候选目标的特征利用稀疏表示在此字典上进行分解，得到视觉词汇特征。

步骤三：根据注视点密度图选取正负包，真值极大值附近的N个目标框构成正包，其他区域目标框利用空间位置聚类，每一类的所有目标框构成负包。利用其视觉词汇特征训练RMISVM分类器。

测试阶段，给定测试图像，先提取候选目标得到其CNN特征，转换为视觉词汇特征送入训练好的RMISVM分类器得到分数。每个目标中心位置为分类器得到的分数，其他位置为0，采用高斯滤波的方式生显著目标检测结果图，高斯滤波模板尺寸为[180*180]，滤波标准差为30，单位为像素。

步骤四：初始化全0图，尺寸400*400，图像中心置1。采用高斯滤波生成中心先验图模板，模板尺寸为[400*400]，滤波标准差为64。经过插值和抽值调整尺寸为检测图像尺寸。

步骤五：把待检测图像送入VGG网络中，取其第19层的输出作为训练特征，共4096维。训练阶段：用S-AUC的相对值对三种检测图进行评价，指标最高方法编号作为当前图像的训练标签。用特征和标签训练softmax分类器。测试阶段，把测试图像的特征送入训练好的分类器中，得到对应着三种检测图的概率w1，w2，w3。把此概率作为权值，对三种检测图进行加权融合。

步骤六：分别在人脸，文本，行人三种目标检测数据库上挑选正负样本，用其CNN特征训练三种随机森林分类器。语义检测阶段，提取检测图像中的目标框及其CNN特征，送入训练好的分类器中，得到框的打分，再采用改进的非极大值抑制算法对重叠的框进行合并，得到最终的语义检测结果。在融合后的检测结果图上叠加语义检测结果，即为最终的注视点检测结果。

改进的非极大值抑制算法的具体步骤：

1、将所有框的得分降序排列，选中最高分的框为待输出框，确定标号，保存位置；

2、对所有框进行遍历，若当前与所有待输出框重叠面积(IOU)均小于阈值当前框标记为待输出框，保存其位置并赋予一个新的标号；若当前框只与一个待输出框重叠大于阈值当前框标定为与之重叠待输出框的标号，用此标号的所有框的位置对输出框位置进行更新，更新方式采用根据分数加权和；否则对相关的输出框进行标签合并，并根据分数更新输出框位置；

3、输出所有待输出框。

我们的方法可以处理颜色对比占主导的图像，空间位置占主导的图像，显著目标占主导的图像，还有含有明确语义信息的图像。同时，图像包含各种信息的情况下，本发明仍有较好的检测效果。

Claims

1.基于多层信息融合的注视点检测方法，其特征在于，步骤如下：

(1)生成颜色对比图：待检测图像的L、A、B通道分别生成金字塔；利用“中央—周边”算子计算金字塔上各层差异图；最后对L、A、B颜色通道进行叠加得到底层颜颜色对比图；

(2)生成显著目标检测图：利用边缘多尺度组合分组算法提取待检测图像的目标候选框，并将目标候选框输入预先训练好的用于目标检测的CNN网络中，得到候选目标的CNN特征；将所有图像的所有候选目标的特征构成一个集合，利用混合高斯模型GMM进行聚类，得到N个聚类中心，构建视觉词汇字典，所有候选目标的特征利用稀疏表示在此字典上进行分解，得到视觉词汇特征；

据训练集图像的真值选取正负包，真值极大值附近的M个目标框构成正包，其他区域目标框进行空间位置聚类，每一类的所有目标框构成负包；利用其视觉词汇特征采用RMISVM算法训练分类器；RMISVM的求解的目标函数如下：

\min_{w} \frac{λ}{2} | | w | |^{2} + \frac{β}{n} Σ_{i = 1}^{n} L_{{bag}_{i}} + \frac{1}{n} Σ_{i = 1}^{n} \frac{1}{m_{i}} Σ_{j = 1}^{m_{i}} L_{{ins}_{i j}}

L_{{bag}_{i}} = - {Y_{i} \log P_{i} + (1 - Y_{i}) l o g (1 - P_{i})}

L_{{insi}_{j}} = m a x (0, [m_{0} - sgn (p_{i j} - p_{0}) w^{T} x_{i j}])

其中，w为分类器的输出，Y_i为第i个包的训练标签，x_ij为第i个包中第j个示例的特征，L_bagi为第i个包的损失项，L_insij为第i个包中第j个示例的损失项，β为包损失项和示例损失项的平衡权重，n为总的包个数，m_i为第i个包中包含的实例个数，sgn是符号函数，m₀是特征域中判定正负示例的阈值参数，p_ij为第i个包中第j个示例标签为正的概率，P_i为第i个包标签为正的概率，p₀为概率域判定实例正负的阈值；对其用随机梯度下降算法求解，得到分类器w；

测试阶段，给定测试图像，先提取候选目标得到其CNN特征，转换为视觉词汇特征送入训练好的RMISVM分类器得到分数；每个候选目标中心位置为分类器得到的分数，其他位置为0，采用高斯滤波生成显著目标检测图；

(3)生成中心先验图：利用高斯函数计算中心先验图模板，对模板经过插值和抽取调整其尺寸为检测图像尺寸；

(4)自适应权重的学习：待检测图像送入VGG网络中，取输出作为训练特征；

训练阶段：用S-AUC的相对值对三种检测图进行评价，最高的S-AUC的相对值检测图编号作为当前图像的训练标签；用特征和标签训练softmax分类器；

测试阶段：将测试图像的特征送入训练好的softmax分类器中，得到对应着三种检测图的概率w1，w2，w3；将此概率作为权值，对三种检测图进行加权融合，得到初步检测结果图；

(5)分别在人脸、文本、行人三种目标检测数据库上挑选正负样本，用其CNN特征训练三种随机森林分类器作为语义检测器；

语义检测阶段，提取待检测图像中的目标框及其CNN特征，送入训练好的三种随机森林分类器中，得到目标框的打分，再采用改进的非极大值抑制算法对重叠的目标框进行合并，得到最终的语义检测结果；在步骤(4)初步检测结果图上叠加语义检测结果，即为最终的注视点检测结果。