CN104778466B

CN104778466B - 一种联合多种上下文线索的图像关注区域检测方法

Info

Publication number: CN104778466B
Application number: CN201510178878.9A
Authority: CN
Inventors: 李甲; 陈小武; 赵沁平; 夏长群
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2015-04-16
Filing date: 2015-04-16
Publication date: 2018-02-02
Anticipated expiration: 2035-04-16
Also published as: CN104778466A

Abstract

本发明涉及一种联合多种上下文线索的图像关注区域检测方法，首先在大规模图像数据集上构建树状结构的层次化上下文模型，其中对每一个叶子节点都生成混合高斯模型，用于涵括特定类型场景下对象及其位置关系的先验知识。对于和某类型场景具有相似空间布局的测试图像，先找到与该场景类型对应的预先训练好的混合高斯模型，用作图像外部线索模型，并结合图像内部上下文特征来联合计算图像的显著性。此外，由于人眼的注意力能很快地在不同刺激位置快速转换，为更好的判断能被人眼快速捕捉到的图像块的显著性，本发明采用马尔可夫链机制构建刺激驱动的注意力转换模型。本发明可以广泛应用于计算机视觉显著性领域对真实世界进行认知、分析和理解。

Description

一种联合多种上下文线索的图像关注区域检测方法

技术领域

本发明涉及计算机视觉关注和图像场景理解领域，具体地说是联合多种上下文线索的图像关注区域检测方法。

背景技术

图像显著性计算是计算机视觉领域中一个基本且重要的研究问题。目前，国内外关于视觉显著计算的研究主要集中在探索人类视知觉系统如何对输入的海量视觉信息进行选择性处理。从信号处理的认知角度看，自然场景中没有什么元素是全新的。在日常生活中，常常有很高刺激信号但是非常常见熟悉的对象或者区域，在人类视觉系统中，这些对象或者区域会被在认识早期阶段就被过滤掉，或是因为图像内部特征线索，或是因为图像外部特征线索。在这种方式下，只有最显著的图像对象或者区域会最终进入到人类的大脑中进行信息处理。视觉注意力选择机制是对人类认识、分析和理解真实世界的最重要的一种机制。

在过去二十年，模拟视觉注意力选择机制成为计算机领域中一个非常重要的热门研究点。各式各样的显著性模型在很多文献中被发表。总的来说，这些研究的主要目的是在图像视频中有效的计算出最显著的视觉元素。在计算过程中，大多数都接受这样一个前提，即独特罕见的视觉元素是视觉显著的。在这种前提下，很多显著模型都衡量视觉元素块的独特性和不规则性。1998年，Itti采用对比度的方式来计算视觉不规则员。2005年Hu采用纹理差异来衡量不同视觉元素的显著性。在2009年，Gao引入交互信息计算显著性。这些模型在只结合图像内部线索可以计算出不错的显著结果。

但现在有一个越来越有挑战性的问题，即在图像中存在一些干扰视觉元素，这些干扰视觉元素在视觉系统中并不是显著的，但却拥有和显著视觉元素相同的视觉属性。若用经典的显著计算模型来计算这类图像的显著性时，常常会误将干扰视觉元素认为是显著的。针对该问题有一个常用的客服办法，用监督的学习方法对已经标注好的图像集进行训练，使训练得到的模型可以更强调图像内部显著的视觉元素。但是这类方法常常会出现过拟合的错误结果，因为用户标注的图像训练是常常是有限的，不能涵括到经常出现的显著性目标。通过仔细观测图像训练集，我们发现干扰对象在图像集中经常出现，而显著对象在这些图像集中是经常变换，也就是说显著目标比干扰视觉元素有更大的变动性。

发明内容

根据上述需求，为了克服现有技术的不足，本发明的目的在于：提供联合多种上下文线索的图像关注区域检测方法，该方法通过模拟人类视觉系统的相关机制来实现对图像场景的视觉显著性计算。为完成发明目的，本发明采用的技术方案是：联合多种上下文线索的图像关注区域检测方法，该方法包含以下步骤：

步骤(1)构造出大规模图像数据集，该数据集应涵括多种图像场景类别，并对图像数据集进行预处理；

步骤(2)利用层次聚类算法，判别数据集中的场景类别，构建出树状结构的层次化上下文模型；

步骤(3)对图像内部上下文线索进行处理，得到图像的颜色特征、对比度特征、位置特征等内部特征；

步骤(4)构建混合高斯模型，用于表征指定图像场景中类别对象及其位置关系的先验知识，用作图像外部上下文特征；

步骤(5)利用图像内部特征，结合图像内部上下文线索，检测图像内部视觉刺激信号；

步骤(6)充分考虑相同类别图像场景的上下文信息，利用混合高斯模型，结合图像外部上下文线索，检测外部图像视觉刺激信号；

步骤(7)联合图像内部、外部上下文线索检测到的刺激信号，并用马尔可夫链机制构建视觉刺激信号驱动的图像显著性估计。

进一步的，所述大规模图像数据集为确保涵盖多种类型的图像场景，在互联网上图片网站上用大量的关键词进行搜集；得到初始数据集之后，删去重复内容的图像，并移除不符合尺寸大小要求的图像，从而确保构造出尽可能多的涵盖日常生活常见的图像场景类型的大规模图像数据集。此外，为方便后续过程对图像的处理，该数据集所有图像的大小进行归一化。

判别数据集中场景类别，首先用GIST描述符来表征数据集图像，使用层次聚类算法建立一个树状结构，一开始将所有的图像归为同一类图像场景，然后逐步将他们划分为更小的单元，在迭代过程中对划分过程定义一个松散度，当松散度最小的那个类的结果都小于一个阈值，则认为划分可以终止，最终产生层次聚类的树结构。该树结构的每一个叶子节点都代表一类指定的图像场景，并为每一个指定的叶子节点构建一个混合高斯模型。

对指定场景类别的中的图像具有表征对象及其位置关系的先验知识，因而利用图像内部上下文线索，可以在LAB颜色空间上采用多层小波变换等方法获取颜色特征、对比度特征、位置特征。这些特征可涵盖两个属性；一是图像场景中包含可能有的对象先验；二是所包含的对象所在的位置先验。此先验知识，在计算图像显著性时，可以帮助锁定最具显著性的目标以及抑制有不规则形状但很常见的干扰对象。

所述混合高斯模型就是指对样本的概率密度分布进行估计，而估计的模型是几个高斯模型加权之和。每个高斯模型就代表了一个类。对样本中的数据分别在几个高斯模型上投影，就会分别得到在各个类上的概率。在构建指定混合高斯模型时，然后我们可以选取概率最大的类作为判决结果，从而得到图像中对象及其位置关系的最大可能概率。其中构建的混合高斯模型中的基础处理单位是固定大小的图像块，并对图像块提取图像内部特征，为更高处理效率，需要用降维方法得到低维向量。

图像内部视觉刺激信号值是指在图像内部上下文线索指导下的图像块获取刺激信号的最大概率，所述的图像内部特征来自于图像本身生成的多尺度对比度特征。多尺度对比特征能很好的表达在不同尺寸和不同方向下图像块与相邻图像块的差异值。若从其他图像块的观测中很容易的检测到待测图像块的刺激信号值，说明该图像块缺少视觉刺激信号。

图像外部视觉刺激信号是指图像块与在相似图像集中同一位置的图像块比较时获得刺激信号的概率值，该过程涉及到混合高斯模型。为求解根据图像外部上下文线索得到的刺激信号，首先用图像的GIST描述符与层次上下文模型的树结构叶子节点的平均GIST描述符进行比较，得到与测试图形最相似的叶子节点所代表的图像场景类别。该场景类别中图像数据集用作测试图像的外部上下文线索,用该场景类别对应的混合高斯模型，得到根据图像外部上下文线索得到的图像视觉刺激信号。

分别计算根据图像内部上下文和外部上下文得到刺激信号后，本发明将它们进行结合得到联合刺激信号。由于图像外部上下文线索可以帮助提高真实目标的显著性，抑制非规则但很熟悉的干扰对象。因此在根据内部线索和外部线索得到刺激信号后，联合它们得到综合刺激图。随后采用马尔可夫链机制来模拟刺激信号驱动的注意力之间的转换过程，并最终得到图像的显著性估计。

与现有的技术相比，本发明有益的特点是：

1、本发明首次提出层次化上下文模型来表征图像的外部特征线索。

2、本发明首次提出涵括多种类型的图像场景类别的大规模图像数据集，并对该数据集上的每一种场景类别构建混合高斯模型。

3、本发明首次提出图像内部特征与图像外部特征线索联合的方法求解图像显著性计算模型。

附图说明

图1是算法流程示意图；

图2是混合高斯模型构建方法示意图；

图3是联合图像内部外部上下文线索求解视觉刺激信号示意图；

具体实施方式

下面结合附图对本发明作详细说明。

本发明提供联合多种上下文线索的图像关注区域检测方法，该方法通过模拟人类视觉系统的相关机制来实现对图像场景的视觉显著性计算。方法的总体流程是：首先在大规模图像数据集上构建树状结构的层次化上下文模型，其中对每一个叶子节点都生成混合高斯模型，用于涵括特定类型场景下对象及其位置关系的先验知识。对于和某类型场景具有相似空间布局的测试图像，先找到与该场景类型对应的预先训练好的混合高斯模型，用作图像外部线索模型，并结合图像内部上下文特征来联合计算图像的显著性。此外，由于人眼的注意力能很快地在不同刺激位置快速转换，为更好的判断能被人眼快速捕捉到的图像块的显著性，本发明采用马尔可夫链机制构建刺激驱动的注意力转换模型。本发明可以广泛应用于计算机视觉显著性领域对真实世界进行认知、分析和理解。总体流程示意如图1所示。

本发明构建了层次上下文模型，该模型用于提出各种类型场景的先验知识；给定一张测试图像，先找出该图像对应的层次上下文模型，该模型蕴含的图像场景的先验知识可作为图像外部上下文线索，用于检测图像的显著性。

对于构建层次上下文模型，需要涵盖各种类型的图像场景，因此必须构建一个大规模图像数据集。为达到此目的，本发明搜集了17353个关键词，包括对象物体的名字和形容词、各式地标和名胜古迹等。有了这些关键词，我们可以对每一个关键词在互联网上搜集大量的相关图像。搜集之后，我们需要对初步得到的数据集进行预处理，删去重复内容的图像，并移除所有的灰度图像以及最大边长小于256像素大小的图像，从而确保构造出尽可能多的涵盖日常生活常见的图像场景类型的大规模图像数据集，最终数据集大小为三千一百二十万张图像，并且为了后续处理过程的简便效率，对所有图像的大小降采样为256x256大小。

给定大规模数据集之后，就需要确定该数据集所涵盖的图像场景类别，图像场景类别是指该类别中的图像场景含有特定的空间布局特性。在本发明中，我们采用GIST特征描述符来表征图像的场景特性。为提取GIST特征描述符，首先将该图像划分为4x4的网格，对每一个网格窗口提取4个层次8个方向的32维滤波向量，这样整个图像用512维向量来表示。

基于GIST特征描述符，本发明使用层次K-means聚类算法来对这三千一百二十万张图像进行组织，得到一个深度为H，B叉树的满树状结构，依据此树状结构即可构建层次上下文模型。在这种树结构指导下，我们得到B^H个叶子节点，每一个叶子节点代表一种场景类别。在本发明中，树状结构的深度为5，B的值为10，这样我们得到10000个场景类别。为了简单表达，树状结构表示为T，叶子节点t所代表的场景类别的图像集为∏_t，平均GIST描述符为叶子节点总数为|T|。为了提取每一个场景类别所涵盖的对象以及位置关系的先验知识，本发明构建了混合高斯模型M_t，因此该层次上下文模型可表示为：

给定指定图像场景的图像数据集之后，我们可以总结出两个属性；一是该类型图像场景中包含可能有的对象先验；二是所包含的对象所有的位置先验。这两个属性也就是对象及其位置关系的先验知识，利用此先验知识，在计算凸显显著性时，可以帮助锁定最具显著性的目标以及忽视有不规则形状但很常见的干扰显著目标。为表征该图像场景的对象及其位置关系的先验知识，本发明图像划分为若干个8x8的图像块，表示为

对图像块，表征其位置特征的向量为γ_n＝(x_n,y_n)^T，其中，0≤x_n,y_n≤1，代表其坐标和图像长宽的比值。

人眼有对视觉信息过滤筛选的机制，在本发明中，我们使用颜色特征和多尺度局部对比度特征表征图像的对象先验属性。首先将图像从rgb颜色空间转换到lab颜色空间，lab颜色空间被认为更符合人类的视觉认知。对图像块，表征其颜色特征表现为对lab颜色的三个变量求平均值，得到3维颜色特征。对应于视网膜中的带通滤波器机制，本发明采用多尺度小波变换来模拟该筛选过程。将lab颜色的每一个通道都分解为4个尺度，然后对每一个尺度从水平、垂直、对象三个方向收集子波段，至此我们可以得到3x 4x 3＝36个小波变换后的子波段，表示为因此对每一个子波段的能量图W_c，可以得到整张图像的局部能量图E_c，公式为：

E_c(x,y)＝W_c(x,y)²*G(σ)，

其中(x,y)是子波段W_c的位置，G(σ)是二维高斯卷积核。在本发明中，我们使用3x3的高斯核函数，并设定σ＝1.5。值得注意的是，小波变换对图像边界并不能很准确的变换，因此如果(x,y)是靠近图像边界8个像素以内的位置，则设定W_c(x,y)为0。

因此通过以上方法，我们可以对每一个图像块B_n可以表示为表征在水平、对象、垂直三个方向的多尺度局部对比的36维特征β_n、表征图像块lab颜色空间的3维颜色特征α_n和表征图像块的位置关系的2维位置特征γ_n。

每一个叶子节点下构建一个混合高斯模型M_t，对于如何构建M_t以涵括该类型场景下的对象及其位置关系的先验知识是一个重要的技术难题。

首先对该叶子节点对应的图像场景数据集进行预处理，先将图像划分为8x8的图像块作为处理基元，为处理速度考虑，随机选取5000个图像块，表示为根据上述方法，每一个图像块在LAB颜色空间上采用多层小波变换等方法获取3维颜色特征α_n、36维对比度特征β_n、2维位置特征γ_n，这些特征表示为x_n＝{α_n,β_n,γ_n}，考虑到这些特征之间的值域跨度，先要进行归一化处理。

为平衡处理效率与特征维数之间关系，本方法拟采用PCA降维方法，降维后的图像特征空间为则该类型场景下所有图像块构建的混合高斯模型为：

其中，π_k为常量系数，μ_tk和R_tk分别是输入向量空间的均值和方差，K为初始模型个数。本方法拟采用EM算法思想训练混合高斯模型，并设定初始模型个数为K为20并使用成熟算法在迭代过程中需找最优的模型个数。训练混合高斯模型的示意如图3所示。

给定层次上下文模型，对测试图像，可以结合图像内部、外部上下文线索联合求解刺激信号。为更高效率，先对测试图像进行预处理，归一化为256x256大小，并将降采样后的图像划分为N个8x8大小的图像块每一图像块的特征表示为此外，提取GIST描述符来表征图像空间布局特性。

某一图像块的刺激信号值受两部分影响：一是在图像内部该图像块获得刺激信号的概率值；二是该图像块与在相似图像集中同一位置的图像块比较时获得刺激信号的概率值。

如何求解受这两个因素影响的图像视觉刺激信号值。首先考虑根据图像内部上下文检测刺激信号，为求解图像快B_n的内部刺激信号S_int(n)，必须求解当观测图像内部上下文{B_i,i＝1,...,n-1,n+1,...,N}时图像块B_n获得注意力刺激信号的概率，换句话说，如果从其他图像块的观测中很容易的检测到B_n的刺激信号值，说明图像块B_n缺少视觉刺激信号。在本发明中，小波变换能量β_n能很好的表达在不同尺寸和不同方向下图像块B_n与相邻图像块的差异值，因此，根据图像内部上下文线索得到的刺激信号可通过以下公式计算：

其中，β_n(c)是β_n的第c维向量值，即对应小波变换能量β_n在第c张能量图的响应值。最后所有的能量图响应值进行归一化确使图像的所有图像块的刺激响应值和为1。

考虑根据图像外部上下文检测刺激信号，为求解B_n的外部刺激信号S_ext(n)，此时需要涉及到层次上下文模型H。给定深度为H，B分叉的满树结构T，以及树结构中所有节点的平均GIST描述符根据测试图像的GIST描述符与树结构节点的进行比较，可以很轻易的锁定某叶子节点t代表的图像场景与测试图像最接近，且只需要进行H x B次的比较。该叶子节点t代表的图像场景中的得到的相似图像数据集即可作为测试图像的外部上下文线索。对应该叶子节点，可得到涵括该图像场景类型先验知识的混合高斯模型M_t，因此，根据图像外部上下文线索得到的刺激信号可通过以下公式计算：

其中是对原始图像块特征X_n利用PCA方法降维后的特征向量，参数Z用来对外部刺激信号S_ext(n)归一化，确保根据外部上下文线索得到的所有图像块的刺激信号的和为1。

分别计算根据图像内部上下文和外部上下文得到刺激信号后，本发明将它们进行结合得到联合刺激信号，示意如图3所示。由于图像外部上下文线索可以帮助提高真实目标的显著性，抑制非规则但很熟悉的干扰对象。因此在根据内部线索和外部线索得到刺激信号后，联合它们得到综合刺激图，计算公式为：

S(n)＝S_ext(n)×S_int(n)。

通常人眼很容易捕捉到刺激信号位置，然而视觉刺激信号并不等同于视觉显著性。比如图像中的一个独立小块有很高的刺激信号，容易被视觉注意力捕捉到，但相比一块有着平均刺激信号的很大的图像区域，留在该独立小块的持续观测时间相对较少。本发明采用马尔可夫链机制来模拟刺激信号驱动的注意力之间的转换过程，假定图像块B_m获得当前的刺激信号，从B_m到B_n的关注转换过程如下表示：

其中，S(i)表示第i个图像块获得综合刺激信号值，γ_m表示图像块m的位置特征，γ_n表示图像块n的位置特征。从公式中我们知道，视觉注意力最容易转换到和当前图像块相邻的并且有最高刺激信号的图像块中，至此利用马尔科夫链模型就可得到图像的显著性估计。

Claims

1.一种联合多种上下文线索的图像关注区域检测方法，其特征在于该方法包括以下步骤：

步骤(1)构造出大规模图像数据集，该数据集涵括多种图像场景类别，并对图像数据集进行预处理；

步骤(3)对图像内部上下文线索进行处理，得到图像的内部特征:颜色特征、对比度特征、位置特征；

步骤(6)考虑相同类别图像场景的上下文信息，利用混合高斯模型，结合图像外部上下文线索，检测外部图像视觉刺激信号；

2.根据权利要求1所述的联合多种上下文线索的图像关注区域检测方法，其特征在于：步骤(1)中所述大规模图像数据集为确保涵盖多种类型的图像场景，在互联网上图片网站上用多个关键词进行搜集；得到初始数据集之后，删去重复内容的图像，并移除不符合尺寸大小要求的图像；此外，为方便后续过程对图像的处理，该数据集所有图像的大小进行归一化。

3.根据权利要求1所述的联合多种上下文线索的图像关注区域检测方法，其特征在于：步骤(2)中判别数据集中场景类别，首先用GIST描述符来表征数据集图像，使用层次聚类算法建立一个树状结构，一开始将所有的图像归为同一类图像场景，然后逐步将他们划分为更小的单元，在迭代过程中对划分过程定义一个松散度，当松散度最小的那个类的结果都小于一个阈值，则认为划分可以终止，最终产生层次聚类的树结构；该树结构的每一个叶子节点都代表一类指定的图像场景，并为每一个指定的叶子节点构建一个混合高斯模型。

4.根据权利要求3所述的联合多种上下文线索的图像关注区域检测方法，其特征在于：划分过程中的松散度是计算每两个类之间的距离，即样本与样本之间的相似度，计算方式是取两个类中距离最近的两个样本的距离作为这两个类的距离，也就是说，最近两个样本之间的距离越小，这两个类之间的相似度就越大。

5.根据权利要求1所述的联合多种上下文线索的图像关注区域检测方法，其特征在于：步骤(3)中对指定场景类别的中的图像具有表征对象及其位置关系的先验知识，因而利用图像内部上下文线索，可以在LAB颜色空间上采用多层小波变换方法获取颜色特征、对比度特征、位置特征；这些特征可涵盖两个属性；一是图像场景中包含可能有的对象先验；二是所包含的对象所在的位置先验；此先验知识，在计算图像显著性时，能帮助锁定最具显著性的目标以及抑制有不规则形状但很常见的干扰对象。

6.根据权利要求1所述的联合多种上下文线索的图像关注区域检测方法，其特征在于：步骤(4)中所述混合高斯模型就是指对样本的概率密度分布进行估计，而估计的模型是几个高斯模型加权之和；每个高斯模型就代表了一个类；对样本中的数据分别在几个高斯模型上投影，就会分别得到在各个类上的概率；在构建指定混合高斯模型时，选取概率最大的类作为判决结果，从而得到图像中对象及其位置关系的最大可能概率；其中构建的混合高斯模型中的基础处理单位是固定大小的图像块，并对图像块提取图像内部特征，为更高处理效率，需要用降维方法得到低维向量。

7.根据权利要求1所述的联合多种上下文线索的图像关注区域检测方法，其特征在于：步骤(5)中的图像注意力刺激信号是指在图像内部上下文线索指导下的图像块获取视觉刺激的概率值，所述的图像内部特征来自于图像本身生成的多尺度对比度特征；多尺度对比度特征能很好的表达在不同尺寸和不同方向下图像块与相邻图像块的差异值；若从其他图像块的观测中很容易的检测到待测图像块的刺激信号值，说明该图像块缺少视觉刺激信号。

8.根据权利要求1所述的联合多种上下文线索的图像关注区域检测方法，其特征在于：步骤(6)中所述图像刺激信号是指图像块与在相似图像集中同一位置的图像块比较时获得刺激信号的概率值，其中涉及到混合高斯模型；为求解根据图像外部上下文线索得到的刺激信号，首先用图像的GIST描述符与层次上下文模型的树结构叶子节点的平均GIST描述符进行比较，得到与测试图形最相似的叶子节点所代表的图像场景类别；该场景类别中图像数据集用作测试图像的外部上下文线索,用该场景类别对应的混合高斯模型，得到根据图像外部上下文线索得到的图像视觉刺激信号。

9.根据权利要求1所述的联合多种上下文线索的图像关注区域检测方法，其特征在于：步骤(7)中分别计算根据图像内部上下文和外部上下文得到刺激信号后，将它们进行结合得到联合刺激信号；由于图像外部上下文线索可以帮助提高真实目标的显著性，抑制非规则但很熟悉的干扰对象；因此在根据内部线索和外部线索得到刺激信号后，联合它们得到综合刺激图；随后采用马尔可夫链机制来模拟刺激信号驱动的注意力之间的转换过程，并最终得到图像的显著性估计。