CN101334834B

CN101334834B - 一种自底向上的注意信息提取方法

Info

Publication number: CN101334834B
Application number: CN2007101181659A
Authority: CN
Inventors: 罗四维; 田媚
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2007-06-29
Filing date: 2007-06-29
Publication date: 2010-08-11
Anticipated expiration: 2027-06-29
Also published as: CN101334834A

Abstract

一种借鉴心理学中有关视觉注意的研究成果，提出了一种自底向上的注意信息提取方法。自底向上的注意信息由图像中每个点对应区域的显著性构成，区域的尺度自适应于局部特征的复杂度。新的显著性度量标准综合考虑了局部复杂度、统计不相似和初级视觉特征这三个方面的特性。显著区域在特征空间和尺度空间中同时显著。获取的自底向上的注意信息具有旋转、平移、比例缩放不变性和一定的抗噪能力。基于这种算法开发出了一个注意模型，将其应用于多幅自然图像的实验证明了算法的有效性。

Description

一种自底向上的注意信息提取方法

技术领域

本发明涉及一种自底向上的注意信息提取方法，属于计算机应用技术领域。

背景技术

注意作为心理活动的状态，在近代心理学发展的初期就已受到重视。视觉注意的作用是将人类注意快速指向感兴趣的目标。用于选择的注意机制既使用来自图像的自底向上的信息，也使用来自高层视觉结构组织的自顶向下的信息。

当整幅图像是某个目标的特写镜头时，目标在图像中占主要部分。只用自底向上的注意就可以完成目标检测。但是，当场景环境在图像中占主要部分时，完成目标检测首先要通过自顶向下的注意过滤环境信息，然后再与自底向上的注意信息相结合。因此，不论在哪种情况，选择怎样的信息作为自底向上的注意信息，对建立计算机模拟人类视觉感知机制的模型尤为重要。本发明集中研究自底向上的注意信息的提取算法，为构建视觉注意感知模型提供重要基础。

现有的自底向上的注意信息通常来自多通道多尺度滤波器组对图像滤波的结果。三类典型的滤波器是：Gaussian及Gaussian函数的各种变换形式滤波器，基于一阶微分的滤波器和基于二阶微分的滤波器。在实际应用中，可以根据具体的图像特性和视觉任务选择合适的滤波器。如果要提取自然图像中对朝向敏感的初级视觉特征，通常采用Gabor滤波器。Gabor滤波器是对Gaussian函数的正弦或余弦调制，它可以模拟不同位置、不同尺度的感受野，因而被广泛应用于自底向上注意信息的提取算法中。Rybak在《Vision Research》(《视觉研究》，2387-2400页)上发表的文章“A modelof attention-guided visual perception and recognition”(“注意引导的视觉感知和识别模型”)中提出提取自底向上的注意信息时，先对自然图像中的每一点进行类高斯卷积的递归计算，将原始图像变换成视网膜图像。然后，采用Gaussian差分滤波器进行自底向上注意信息的提取。在“Face recognitionby dynamic link matching”(“基于动态连接匹配的人脸识别”)模型中，Wiskott采用了基于Gabor变换的小波滤波器。邹琪在《电子学报》上发表的文章“利用多尺度分析和编组的基于目标的注意计算模型”中，提出将Gaussian滤波器的滤波结果用于多尺度分析，以获取图像在某一尺度下的重要边缘。如果要提取用于边缘检测的初级视觉特征，还可以选择基于一阶或二阶微分的滤波器。常用的基于一阶微分的滤波器有Roberts，Sobel，Prewitt和Harris滤波器。最典型的基于二阶微分的滤波器是Laplacian滤波器。还有一种LOG(Laplacian-of-Gaussian)滤波器，滤波时先对图像进行平滑处理，然后进行二阶微分。也可以将其看成是对Gaussian函数的拉普拉斯变换。Lindeberg在《International Journal of Computer Vision》(《计算机视觉》，79-116页)上发表的文章“Feature detection with automatic scale selection”(“具有自动尺度选择的特征检测”)中，就采用了LOG滤波器来提取底层信息。

这些由不同滤波器得到的自底向上的注意信息都具有原始图像的某种特定形态特性。这些形态特性与所采用的滤波器的特性密切相关。例如单个Gabor滤波器具有特定的频率和朝向，当图像在对应频率和朝向上有最明显的特征时，这个Gabor滤波器就会有最大响应。如果滤波器本身存在一些缺点，那么提取的注意信息也会有类似的不足。例如，虽然Harris滤波器具有很强的噪声和光照条件变化不变性，但它对图像尺度的变化非常敏感。所以，由Harris滤波器得到的注意信息不能很好地完成变尺度图像匹配任务。Laplacian滤波器虽然具有精确定位特性，但是对噪声敏感，从而使得注意信息同样对噪声敏感。为了克服这些不足，研究者们提出一些其它方法来提取自底向上的注意信息。相位一致和相关局部熵方法根据傅里叶分量的相位相干性来定义特征，但是该方法仅适用于提取一维或两维具有特定几何形状的特征，不能广泛用于提取各种类型的特征。还有一些方法根据图像的全局统计特性来定义图像的显著性，得到的注意信息将会受到图像全局变换的影响。

发明内容

为了克服现有技术结构的不足，本发明提供一种自底向上的注意信息提取方法。

本发明解决其技术问题所采用的技术方案是：

一种自底向上的注意信息提取方法，自底向上的注意信息由图像中每个点对应区域的显著性构成，区域的尺度自适应于局部特征的复杂度，综合考虑了三方面特性来定义显著性：根据特征空间中的不可预测性来衡量特征的复杂度；在尺度空间中衡量特征的统计不相似特性；同时考虑特征空间和尺度空间，衡量特征的一些初级视觉特性；包含以下步骤；

有计算局部复杂度显著性的步骤；

有计算统计不相似显著性的步骤；

有计算初级视觉特征显著性的步骤；

有计算图像区域显著性的步骤；

有提取自底向上的注意信息的步骤。

步骤1.计算局部复杂度显著性；

对于图像I(x，y)中的每个像素位置l＝(x，y)的每个尺度sc，sc_min≤sc≤sc_max：

(1)I′(x，y)表示图像I(x，y)中以l＝(x，y)点为中心，以sc为半径的图像区域对应的亮度信息；

(2)用亮度直方图估计I′(x，y)的局部概率密度函数p(ie，sc，l)(p(ie，sc，l)表示在I′(x，y)对应图像区域内，亮度信息取值为ie的概率)；

(3)根据局部概率密度函数p(ie，sc，l)计算局部熵H(sc，l)的值；

H (sc, l) = - \underset{ie &Element; IE}{Σ} p (ie, sc, l) \log_{2} p (ie, sc, l)

步骤2.计算统计不相似显著性；

对于每个满足条件H(sc-1，l)<H(sc，l)>H(sc+1，l)的sc，根据熵H(sc，l)计算统计不相似性度量Sd(sc，l)

Sd (sc, l) = \frac{{sc}^{2}}{sc - 1} (H (sc, l) - H (sc - 1, l))

步骤3.计算初级视觉特征显著性；

(1)用4个朝向、4个频率的Gabor滤波器对图像I(x，y)滤波(ψ(x，y)表示Gabor滤波器)

v(x，y)＝I(x，y)*ψ(x-x₀，y-y₀)

形成16幅朝向、频率特征图{v_k(x，y)，k＝1，2，K，16＝4×4}；

(2)用全局加强法合并16幅特征图，形成一幅初级视觉特征显著图Vl(l)；步骤4.计算图像区域显著性；

对于图像I(x，y)中的每个像素位置l＝(x，y)的每个满足条件H(sc-1，l)<H(sc，l)>H(sc+1，l)的sc

(1)Vl′(l)表示图像I(x，y)中以l＝(x，y)点为中心，以sc为半径的图像区域对应的初级视觉特征显著性；

(2)根据局部熵H(sc，l)、统计不相似性度量Sd(sc，l)和初级视觉特征显著性Vl′(x，y)，计算图像显著性度量标准SA(sc，l)

SA(sc，l)＝H(sc，l)×Sd(sc，l)×Vl(l)

(3)以点l＝(x，y)为中心，以尺度sc为半径的图像区域的显著值定义为

SS (sc, l) = \frac{1}{sc} \sqrt{Σ_{i = 1}^{m} Σ_{j = 1}^{n} {SA}_{i, j} (sc, l)}

步骤5.提取自底向上的注意信息；

(1)对于图像I(x，y)中的每个像素位置l＝(x，y)，比较不同尺度sc下的显著值。用最大的显著值SS(SC，l)

(SC = \arg \max_{sc} (SS (sc, l)))

作为以l＝(x，y)点为中心，以SC为半径的图像区域对应的自底向上的注意信息；

(2)图像I(x，y)中所有的点对应区域的显著值SS(SC，l)就构成了整幅图像的自底向上的注意信息。

本发明的有益效果；提出了一种新的自底向上的注意信息提取算法(LOCEV)。通过将该算法应用于多幅自然图像的实验证实，该算法是一种行之有效的自底向上的注意信息提取方法，并具有旋转、平移、比例缩放不变性和一定的抗噪能力，从而使得该算法适用于多种视觉任务，如目标跟踪、匹配和识别等。

同时，该算法还存在有待改进之处。因为采用了圆形的采样窗，所以LOCEV算法倾向于寻找具有各向同性的显著特征。下一步的工作将研究提取具有各向异性的显著特征。需要指出的一点是，圆形的采样窗只需要一个尺度参数(半径)和中心点的位置坐标就可以完全确定下来。而用于提取具有各向异性的特征的采样窗则需要更多的参数，这无疑会使计算量大幅增加。也就是说，算法的复杂度和计算效率是无法同时满足的，要力图在两者之间寻求最佳折中方案。一个可以考虑的方法是根据自顶向下的注意提供的指导，对于不同的任务选取不同的采样窗，并确定采样窗的部分参数。

附图说明

图1(a)视觉显著性示例；

图1(b)视觉显著性示例；

图2统计不相似特性A.；

(a)原始图像；(a1)将(a)图的熵看成是尺度的函数，画出对应的熵函数图；(a2)(a)图部分尺度下的熵值变化直方图；(b)原始图像以图像的中心点为起始点、一条半径为起始边的旋转放射梯度亮度排列；(b1)将(b)图的熵看成是尺度的函数，画出对应的熵函数图；(b2)(b)图部分尺度下的熵值变化直方图；(c)原始图像以图像中心点为起始点的放射梯度亮度排列；(c1)将(c)图的熵看成是尺度的函数，画出对应的熵函数图；(c2)(c)图部分尺度下的熵值变化直方图；(d)原始图像按婴儿脸图像亮度分布排列；(d1)将(d)图的熵看成是尺度的函数，画出对应的熵函数图；(d2)(d)图部分尺度下的熵值变化直方图；

图3统计不相似特性B；

(a)将图2(c)看成子图，把它镶嵌在一个白色的大图中；(a1)将(a)图的熵看成是尺度的函数，画出对应的熵函数图；(a2)(a)图部分尺度下的熵值变化直方图；(b)将图2(d)看成子图，把它镶嵌在一个白色的大图中；(b1)将(b)图的熵看成是尺度的函数，画出对应的熵函数图；(b2)(b)图部分尺度下的熵值变化直方图；

图4 LOCEV算法的旋转、平移和比例缩放不变性；

(a)原始图像；(b)旋转、平移的图像；(c)0.5倍采样的图像；

图5显著区域检测结果；

(a1)原始图像；(b1)本发明实验结果；(c1)Itti实验结果；

(a2)原始图像；(b2)本发明实验结果；(c2)Itti实验结果；

图6LOCEV算法的步骤流程图。

下面结合附图和实施例对发明进一步说明。

具体实施方式

实施例1：根据视觉显著性，基于局部复杂度和初级视觉特征，提出了一种新的自底向上的注意信息提取算法LOCEV(Integration of localcomplexity and early visual features)。与现有技术相比，本发明具有以下几个突出的特点：第一，LOCEV算法基于图像的局部信息，并采用圆形采样窗，所以图像的全局变换，如旋转、比例缩放等对提取的注意信息几乎没有影响。第二，尽管用来定义局部复杂度的函数不具有平移不变性，但是LOCEV算法将图像中像素点的位置当作变量，从而使得算法具有了平移不变性。第三，LOCEV算法用区域的显著性代替点的显著性，并通过在尺度空间中衡量特征的统计不相似特性使得提取的注意信息不易受噪声干扰。这样，即使显著区域中的单个像素会受到噪声的影响，用LOCEV算法得到的整个区域的显著性并不会有太大改变。第四，显著区域的尺度根据区域的局部复杂程度自适应地变化，而且尺度大小的确定与区域显著性的计算同时进行，提高了计算效率，也更符合人类视觉感知的特点。第五，LOCEV算法通过对区域的初级视觉特征显著性度量，将图像的形态特性引入了注意信息中。第六，LOCEV算法在定义显著性时，同时考虑了特征空间和尺度空间，得到的显著区域在两个空间中同时具有最高的显著性。

视觉显著性分析；

视觉显著性使场景中的特定区域被预先注意到，并在人类视觉系统的初级阶段产生特定形式的重要视觉刺激。一般认为显著性就是稀有性，如图1所示，那些具有与相邻区域不同特性的区域更显著并能够吸引注意。Gilles在他的博士论文“Robust description and matching of images”(“图像的鲁棒描述和匹配”)中研究提出用局部特征的Shannon熵定义显著性。但是用这种基于局部信号不可预测性的方法来定义视觉显著性还存在问题。如果采用具有很高区分度的特征，所有的区域都趋向稀有。如果选择区分度很低的特征，那么所有的区域都不再显著。决定特征区分度的一个关键因素是尺度，选择不同尺度的特征就会产生不同的显著区域。

这就涉及到一个问题，在提取自底向上的注意信息时，到底是选择在多个尺度下都存在的特征？还是选择在不同尺度下出现得少的特征？在邹琪的“利用多尺度分析和编组的基于目标的注意计算模型”中，那些在多个尺度下都存在的边缘被定义为重要的边缘，具有更高的显著性。在本发明中，想要提取的显著特征基于图像区域的局部复杂度。区域的显著性与边缘的显著性不同。边缘的尺度特性仅体现在垂直边缘朝向的方向上，沿边缘的正切方向，并不存在尺度特性。而区域的尺度特性体现在各个方向上，那些在不同尺度下都显著的特征往往属于具有自相似特性的区域。也就是说，这些图像区域是由相似的特征(如不规则的几何碎片)拼接而成的。通常认为这样的图像区域不是显著区域。所以，在提取自底向上的注意信息时倾向于选择在不同尺度下出现得少的特征。

基于局部复杂度和初级视觉特征的自底向上注意信息提取；

根据视觉显著性分析，基于局部复杂度和初级视觉特征的自底向上注意信息提取算法(LOCEV)算法综合考虑了三方面特性来定义显著性：第一，根据特征空间中的不可预测性来衡量特征的复杂度；第二，在尺度空间中衡量特征的统计不相似特性；第三，同时考虑特征空间和尺度空间，衡量特征的一些初级视觉特性。下面分别进行详细介绍。

局部复杂度显著性；

最早提出用局部复杂度作为显著性度量的是Gilles。给定一个点l＝(x，y)，它的局部邻域NE_l，和某个特定的描述特征ie(取值范围假设为IE＝{ie₁，ie₂，...，ie_q})，局部Shannon熵定义为

H (IE, {NE}_{l}) = - Σ_{i = 1}^{q} p ({ie}_{i}, {NE}_{l}) \log_{2} p ({ie}_{i}, {NE}_{l}) - - - (1)

其中，p(ie_i，NE_l)表示在点l的局部邻域NE_i内，描述特征取值为ie_i的概率。

但是，仅用局部复杂度来衡量显著性是不能满足要求的。在统计意义下估计特征显著性，熵只能统计局部邻域内的信号复杂度或不可预测性，所有的结构和空间信息都丢失了。因此，会有显著特征在不同尺度下的自相似问题，这就需要在尺度空间中对特征的不可预测性进行分析。统计不相似显著性；

本节在尺度空间中衡量特征的统计不相似特性。知道，将一幅图像经过任意像素置换后得到另一幅图像，这两幅图像的熵值相同。按局部复杂度算法的定义，这两幅图像具有相同的显著性。图2中有四幅图像。其中，图2(a)是一幅人脸图像的子图(大小为65×65的8bits灰度图)，将(a)图经过不同的像素置换可以到图2(b)、(c)和(d)。得到图2(b)和(c)的像素置换分别是：以图像的中心点为起始点、一条半径为起始边的旋转放射梯度亮度排列，和以图像中心点为起始点的放射梯度亮度排列。以一幅婴儿脸图像的亮度分布为索引，将图2(a)的所有像素重新排列，就得到了图2(d)。在本发明的实验中，用图像的亮度信息作为描述特征。因为图像是8bits灰度图，所以描述特征ie的取值范围为0：255。四幅图像的熵值相同，均为6.7986，但是很明显它们的显著性是不同的。将每一幅图像的熵看成是尺度的函数，可以画出对应的熵函数图，如图2(a1)、(b1)、(c1)和(d1)所示。每幅图像的中心点l＝(33，33)就是采样窗的中心，邻域的半径大小从1到32。为了可以清楚地看出熵值随尺度的变化情况，图2中还给出了每幅图像部分尺度下的熵值变化直方图，如图2(a2)、(b2)、(c2)和(d2)所示。

从图2中可以看出，虽然各幅图像的熵值相同，但是随尺度变化得到的熵值的曲线形状差别很大。在图2(a1)中，曲线在尺度25出现峰值；在图2(d1)中，曲线在尺度17和29出现峰值(局部极大值点)；而在图2(b1)和(c1)中都不存在峰值。图2(b1)中曲线的形状相对比较平坦，熵值随尺度变化只有微量增加。这是因为在这幅图像中不同尺度的采样区域具有很强的自相似特性，而具有自相似性的区域不是显著区域。所以，用峰值处熵函数的形状变化来表示图像特征的自相似程度

Sd (IE, sc, l) = \frac{{sc}^{2}}{sc - 1} (H (IE, sc, l) - H (IE, sc - 1, l)) - - - (2)

其中，Sd(IE，sc，l)为图像的统计不相似显著性度量，sc为尺度参数，熵H是尺度sc的函数。根据公式(2)，当采样区域的大小(sc表示区域的半径)变化时，如果H(IE，sc，l)的变化比较大，那么对应的统计不相似显著性Sd(IE，sc，l)也会比较大。

在图2(c1)中，虽然熵值随尺度变化有比较大的变化，但是在变化的过程中不存在峰值，所以这幅图像并不显著。但是，如果将图2(c)和2(d)都看成子图，把它们分别镶嵌在一个白色的大图中，构成图3(a)和3(b)，那么两幅新图的熵函数曲线都会出现峰值(在图3(a1)中，曲线在尺度32出现峰值；在图3(b1)中，曲线在尺度17和29出现峰值)。而且，按照公式(2)的定义，图3(a)在峰值处的熵函数值与邻近尺度的熵函数值相比变化更大，也就是说图3(a)比图3(b)更显著，但事实并非如此。因为图3(a)缺乏一定的形态结构特性，所以它不是一幅具有实际意义的显著图像。也就是说，通过局部复杂度及其统计不相似特性定义的显著性与特征的形态特性相互独立。根据近代神经解剖学和心理学中有关视觉系统的研究成果，大多数初级视皮层细胞感受野都具有选择特性。也就是说，人们会更‘喜欢’某种特定形态的显著特征。因此，有必要将图像的形态结构特性引入显著性的定义中。

初级视觉特征显著性；

根据人类视觉感知系统的初级视觉特性，视觉信息的处理过程都是从视网膜开始，经过侧膝体(LGN)，最先到达初级视皮层区域(V1)。作为第一个进行视觉处理的区域，初级视皮层区域主要负责提取图像的颜色、朝向和亮度等多方面的信息。它具有局部性、方向性和带通性。因为Gabor滤波器与简单细胞的感受野性质相似，对于类似于线段的刺激具有最大响应，所以选择Gabor滤波器提取显著性度量中的初级视觉特征。这种初级视觉特征具有一定频率、朝向和位置特性。二维Gabor滤波器的时域公式如下h_e(x，y)＝g(x′，y′)cos(2πf₀x′) (3)

h_o(x，y)＝g(x′，y′)sin(2πf₀x′) (4)

其中h_e(x，y)和h_o(x，y)分别表示偶对称和奇对称的Gabor滤波器，g(x′，y′)为高斯函数，这里的x′＝xcosθ+ysinθ，y′＝-xsinθ+ycosθ，

g (x, y) = \exp (- \frac{x^{2}}{2 {σ_{x}}^{2}} - \frac{y^{2}}{2 {σ_{y}}^{2}}) .

θ是Gabor滤波器的朝向，f₀是中心频率。参数σ_x和σ_y是在空域x′，y′方向的高斯方差。使用的滤波器包括4个朝向θ∈{0，π/4，π/2，3π/4}和4个频率f₀∈{0.1，0.2，0.3，0.4}。图像I(x，y)经过滤波后的输出可以表示为

v (x, y) = \sqrt{{[v_{e} (x, y)]}^{2} + {[v_{o} (x, y)]}^{2}} - - - (5)

其中，v_e(x，y)＝I(x，y)*h_e(x-x₀，y-y₀)，v_o(x，y)＝I(x，y)*h_o(x-x₀，y-y₀)，(x₀，y₀)为感受野中心位置，*表示卷积。每个Gabor滤波器相当于一个神经元，对原始输入图像I(x，y)在某个频率和朝向上给出响应，从而得出16幅朝向、频率特征图{v_k(x，y)，k＝1，2，K，16＝4×4}。变量k表示不同空间频率和朝向的滤波器。

然后用全局加强法，将各个特征图的特征值归一化到0~1后，找出每一幅特征图的全局极大M和除此全局极大之外的其它局部极大的平均值m，给每一幅特征图乘以加强因子(M-m)²，这就是每幅特征图的权。最终的显著图Vl是各个特征显著图的加权和，用它来衡量原始图像的初级视觉特征显著性。

LOCEV算法；

基于上述分析，提出了一种新的自底向上的注意信息提取算法LOCEV(Integration of 1ocal complexity and early visual features)。算法的具体步骤如下：如图6LOCEV算法的步骤流程图所示；

1.计算局部复杂度显著性

(3)根据局部概率密度函数p(ie，sc，l)计算局部熵H(sc，l)的值(在本发明的实验中，图像为8bits灰度图，所以ie的取值范围IE＝{0，1，2，...，255})

H (sc, l) = - \underset{ie &Element; IE}{Σ} p (ie, sc, l) \log_{2} p (ie, sc, l) - - - (6)

2.计算统计不相似显著性；

Sd (sc, l) = \frac{{sc}^{2}}{sc - 1} (H (sc, l) - H (sc - 1, l)) - - - (7)

3.计算初级视觉特征显著性；

v(x，y)＝I(x，y)*ψ(x-x₀，y-y₀) (8)

形成16幅朝向、频率特征图{v_k(x，y)，k＝1，2，K，16＝4×4}；

(2)用全局加强法合并16幅特征图，形成一幅初级视觉特征显著图Vl(l)；

4.计算图像区域显著性；

SA(sc，l)＝H(sc，l)×Sd(sc，l)×Vl′(l) (9)

SS (sc, l) = \frac{1}{sc} \sqrt{Σ_{i = 1}^{m} Σ_{j = 1}^{n} {SA}_{i, j} (sc, l)} - - - (10)

5.提取自底向上的注意信息；

(SC = \arg \max_{sc} (SS (sc, l)))

基于LOCEV算法的注意模型；

通过LOCEV算法，得到了图像中以每个象素点为中心的大小不同的区域的显著性信息。视觉显著区域是按照显著性由强到弱的顺序排列的一组图像区域。所以，为了获取原始图像中的视觉显著区域，先按照显著值SS(SC，l)的大小将所有区域进行排序。然后，确定显著值最大的区域为第一个当前显著区域。其它的区域都是显著区域转移的潜在目标。在显著区域转移之前，计算其它所有图像区域与当前显著区域中心点之间的距离

DIS (l_{0}, l_{p}) = \sqrt{{(x_{0} - x_{p})}^{2} + {(y_{0} - y_{p})}^{2}} - - - (11)

其中，l₀＝(x₀，y₀)为当前显著区域的中心点位置，l_p＝(x_p，y_p)为其它任一区域的中心点位置。SC₀和SC_p分别表示这两个区域的半径，如果

DIS(l₀，l_p)+SC_p<SC₀ (12)

就从显著区域转移的潜在目标集合中去掉该区域。这是因为满足不等式(12)的以l_p＝(x_p，y_p)为中心的区域会完全落在当前显著区域中。剩余的所有的潜在显著区域都试图将注视区吸引到它自己所在的位置。根据胜者为王(winner-take-all)的竞争机制，这种吸引效果是相互抑制的，具有最强吸引力的目标将成为下一个显著区域。考虑到人眼注视焦点移动的两个特点：第一，距离优先(proximity)，人眼倾向于优先选择与当前显著区域距离近的显著区域；第二，禁止返回(inhibition of return)，焦点转移时抑制返回已被选择过的显著区域。在显著区域转移时要综合考虑显著性、距离优先性和禁止返回的影响，计算潜在显著区域的吸引力。有关吸引力的详细定义可以参考本发明作者的另一篇论文。这个过程将会循环进行，在每次显著区域转移的过程中，潜在显著区域的吸引力随着当前显著区域的不同需要重新计算。如此多次循环，就可以得到原始图像中一系列显著区域。

实验结果及分析；

实验环境是PentiumIV2.4GHz CPU，256M内存的计算机，测试图像包括室内、室外场景中各种类型的真实图像。实验中训练图像的大小从65×65到512×512不等，灰度级为0～255。为了验证上述算法的有效性，将LOCEV算法应用到下面几类视觉应用中。图4中的测试图像来自Karl-Wilhelm-Straβe交通序列图。其中，图4(a)和4(b)是视频中的两帧，大小均为384×384。图4(c)是图4(a)经过0.5倍采样得到的，大小为192×192。在实验中，对于图4(a)和4(b)，参数sc_min＝10，sc_max＝30。对于图4(c)，参数sc_min＝5，sc_max＝15。实验结果给出了每幅图像中显著性最高的前20个图像区域。图4(b)与图4(a)相比，场景没有发生变化，不同之处是图像中的几辆汽车发生了程度不同平移和旋转。图4(c)与图4(a)相比，不同之处是图像尺度缩小了一半。可以看出，三幅图像中的显著区域之间有很强的对应性。这些实验结果可以证明LOCEV算法具有旋转、平移和比例缩放不变性。这是因为，首先，LOCEV算法将尺度和位置都当作变量，这样，即使图像中的目标发生平移或比例缩放，该算法也会在新的位置或尺度下对它的显著性进行度量。其次，LOCEV算法在定义显著性标准时用圆形的采样窗获取图像的局部信息，而图像或目标的旋转不会改变这些局部信息，从而使得算法具有了旋转不变性。图像库Database of Cars and Faces in Context。该数据库由2500多幅图像组成，从中选择50幅室外图像和50幅室内图像进行测试。实验中测试图像的大小均为256×256。图5(a1)和(a2)的两幅原始图像分别属于室外图像和室内图像，图像中包含了建筑物、人、家具等多种类型的目标。图5(b1)和(b2)的两幅图像显示了由的注意模型获取的多个显著区域。在实验中，第一幅图像的尺度参数的取值范围是4～20，第二幅图像的尺度参数的取值范围是4～32。图5(c1)和(c2)给出了对应的Itti算法的实验结果。从图5(b1)和(b2)可以看出，LOCEV算法更倾向于发现那些具有各向同性的显著区域，那些大的显著值对应的采样区域边缘通常就是有意义的图像边缘。与Itti的实验结果相比，的显著区域的尺寸是变化的，而且由于引入了区域中心点距离限制和注视焦点移动特性因子，的显著区域转移路线比较规整，从而使得算法的检测结果更加符合人类视觉感知。在LOCEV算法中，显著区域尺度大小的确定与区域显著性的计算同时进行，从而提高了计算效率。

Claims

1.一种自底向上的注意信息提取方法，自底向上的注意信息由图像中每个点对应区域的显著性构成，区域的尺度自适应于局部特征的复杂度，综合考虑了三方面特性来定义显著性：根据特征空间中的不可预测性来衡量特征的复杂度；在尺度空间中衡量特征的统计不相似特性；同时考虑特征空间和尺度空间，衡量特征的一些初级视觉特性；

其特征包含以下步骤；

步骤1.计算局部复杂度显著性；

对于图像I(x，y)中的每个像素位置l＝(x，y)的每个尺度sc，

sc_min≤sc≤sc_max：

(2)用亮度直方图估计I′(x，y)的局部概率密度函数p(ie，sc，l)；

p(ie，sc，l)表示在I(x，y)对应图像区域内，亮度信息取值为ie的概率；ie∈IE；IE其取值范围是IE＝{0，1，2，...，255}，

H (sc, l) = - \underset{ie &Element; IE}{Σ} p (ie, sc, l) \log_{2} p (ie, sc, l)

步骤2.计算统计不相似显著性；

对于每个满足条件H(sc-1，l)＜H(sc，l)＞H(sc+1，l)的sc，根据熵H(sc，l)计算统计不相似性度量Sx(sc，l)

Sd (sc, l) = \frac{{sc}^{2}}{sc - 1} (H (sc, l) - H (sc - 1, l))

步骤3.计算初级视觉特征显著性；

(1)用4个朝向、4个频率的Gabor滤波器对图像I(x，y)滤波；ψ(x，y)表示Gabor滤波器；

v(x，y)＝I(x，y)*ψ(x-x₀，y-y₀)

形成16幅朝向、频率特征图{v_k(x，y)，k＝1，2，...，16}；

全局加强法是将各个特征图的特征值归一化到0-1后，找出每一幅特征图的全局极大M和除此全局极大之外的其它局部极大的平均值m，给每一幅特征图乘以加强因子(M-m)²，这就是每幅特征图的权；最终的显著图Vl是各个特征显著图的加权和，用它来衡量原始图像的初级视觉特征显著性；

步骤4.计算图像区域显著性；

对于图像I(x，y)中的每个像素位置l＝(x，y)的每个满足条件H(sc-1，l)＜H(sc，l)＞H(sc+1，l)的sc；

SA(sc，l)＝H(sc，l)×Sd(sc，l)×Vl′(l)

SS (sc, l) = \frac{1}{sc} \sqrt{Σ_{i = 1}^{m} Σ_{j = 1}^{n} {SA}_{i, j} (sc, l)}

步骤5.提取自底向上的注意信息；

(1)对于图像I(x，y)中的每个像素位置l＝(x，y)，比较不同尺度sc下的显著值。用最大的显著值SS(SC，l)；

SC = \arg \max_{sc} (SS (sc, l))

作为以

l＝(x，y)点为中心，以SC为半径的图像区域对应的自底向上的注意信息；