CN102063623B

CN102063623B - 一种结合自底向上和自顶向下的图像感兴趣区域提取方法

Info

Publication number: CN102063623B
Application number: CN2010106099313A
Authority: CN
Inventors: 陈再良; 邹北骥; 梁毅雄; 沈海澜; 王磊; 向遥; 廖胜辉; 辛国江
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2010-12-28
Filing date: 2010-12-28
Publication date: 2012-11-07
Anticipated expiration: 2030-12-28
Also published as: CN102063623A

Abstract

本发明提出一种结合自底向上和自顶向下的图像感兴趣区域提取方法。该方法采用交互式的方式，由用户将其携带的观察任务等自顶向下信息转换为输入图像底层特征的不同权重值，同时结合Itti-Koch模型和Stentiford模型，吸取两模型优点，实现用户任务与图像视觉刺激相结合的感兴趣区域提取方法。将用户的查询意图以及对图像的理解转换为显著图权重的方式，即通过对底层特征加以相应权重来影响显著图的求解，缩短了用户查询意图与图像底层特征间的鸿沟，提取出来的感兴趣区域更符合用户的要求。对多幅图像的处理结果表明使用该方法提取用户感兴趣区域具有较好的结果。

Description

一种结合自底向上和自顶向下的图像感兴趣区域提取方法

技术领域

本发明属于图像检索和图像识别技术领域，涉及一种结合自底向上和自顶向下的图像感兴趣区域提取方法。

技术背景

传统的基于内容的图像检索中，只是提取了图像的底层特征，而没有考虑用户对图像的理解问题，因此检索结果并不理想。现有的研究表明，用户在观察图像时，最容易引起用户注意的部分往往是用户感兴趣的部分，也是图像中与周围其它部分对比更显著的部分。视觉注意模型就是用来得到图像中最容易引起注意的部分，同时由于图像检索系统检索结果的好坏与人们对图像的理解直接相关，不同的人因各种条件的不同，导致对同一图像的理解不一定相同。视觉注意模型能够得到图像中最显著的部分，因此将视觉注意模型引入图像检索能够有效地缩小图像底层特征与高层次语义之间的鸿沟。同时通过视觉注意模型提取用户感兴趣区域，可以缩小用户查询意图与图像检索系统理解间的差异，从而提高检索结果的相关度。

人们产生注意力主要有两方面的原因：一方面是由于视觉刺激引起的注意，另一方面是携带了观察任务，发现与所观察任务相匹配的特定对象所引起的注意。基于此，视觉注意模型分为两种类型：自底向上的注意模型和自顶向下的注意模型。自底向上模型是由视觉刺激驱动或数据驱动的信息处理过程，是基于输入图像的特征显著度来计算的。执行过程中，不考虑特定的认知任务对视觉注意和眼动的影响，属于低级的认知过程。实现自底向上注意模型大都采用适当的滤波器对场景的不同特征(如纹理、颜色、方向、运动等)进行滤波，把特征的响应作为显著度，然后对特征显著度进行建模，选出显著度大的点作为注意焦点。自顶向下模型是由观察任务驱动的信息处理过程，是通过调整选择准则，以适应外界命令的要求，从而达到将注意力集中于特定对象，属于高级的认知过程，是慢速的注意机制。自顶向下模型属于高级视觉的注意力，通常由作为高层知识的观察任务驱动，根据任务需求有意识地控制其内部信息处理过程，从而获得用户期望的感兴趣区。由于高层知识的参与，因此，自顶向下比自底向上模型更加复杂，目前这方面的研究成果比较少。

视觉注意模型比较成熟的主要是自底向上注意模型，如Itti-Koch模型、Stentiford模型等。Itti和Koch根据生物学上的依据，模拟哺乳动物的视觉处理过程，提出了经典的视觉注意模型——Itti-Koch模型。该模型能够快速的得到一幅图片中的“显著区”，即能够吸引用户兴趣的区域。Itti-Koch模型的优势在于其寻找显著区的速度比较快，而且由于加入反馈抑制机制，使得同一个显著点只能被系统发现一次。但Itti-Koch模型得到的显著区域较小，且其显著区呈圆形，与物体的实际形状不符。而Stentiford模型的显著区虽然比较大，也符合生物研究结果，但其需要大量的计算时间，效率比较低。

Navalpakkam和Itti于2006年提出通过对Itti-Koch模型中的每一个初始显著图赋予不同的权重来实现Top-Down和Bottom-Up相结合的观点。一个特征维的显著度Sj的计算，是将该维内的Bottom-Up显著度Sij乘以一个Top-Down权重gij而得到；在得到一个特征维的显著度后，再通过不同的特征维显著度乘以不同的Top-Down权重gj将多个特征维的显著度结合起来，从而得到整体图像的显著度图。2006年，Marques和Mayron等人提出将Itti-Koch模型和Stentiford模型相结合的观点，首先根据Itti-Koch模型产生潜在的显著区，然后再根据Stentiford模型对显著区的扩展边界进行限制，从而得到感兴趣区域。

已有的提取图像的感兴趣区域方法中，基本上只提取了图像颜色、亮度和方向等的底层特征，并没有考虑用户对图像的处理要求和用户对图像的不同理解，因此检索结果对于用户的某个具体要求来说可能并不理想。实际上用户在处理同一幅图像时，不同的时候有着不同的要求，不同的要求导致用户对图像有不同的理解。如处理同一幅图像时，有时需要重点考虑颜色对图中物体的影响，有时需要重点考虑亮度对图中物体的影响，有时需要综合考虑颜色、亮度、方向等因素对图中物体的影响等，这时就必须加入用户对图中颜色、亮度和方向等底层特征的设置，本发明通过用户对不同特征权重值的设置即可达到人为地改变底层特征对图中物体的影响。本发明基于经典的自底向上视觉注意模型，同时加上用户对图像的理解等自顶向下的高层信息，并将用户对图像的不同理解通过对颜色、亮度和方向等不同特征显著图设置不同权重的方式来实现，从而使图像底层特征与高层次语义信息相结合，形成一种自底向上和自顶向下相结合的提取感兴趣区域的方法。同福哦此方法，我们能准确地提取与用户意图相匹配的感兴趣区域。

发明内容

本发明的目的是提出一种结合自底向上和自顶向下的图像感兴趣区域提取方法，通过将用户所携带的观察任务等自顶向下的信息和图像的底层特征的结合，即将用户对图像的理解转换成为显著图权重的方式，通过对底层特征加以相应权重来影响显著图的求解，同时结合Itti-Koch模型与Stentiford模型，吸取各自的优点。在缩短用户查询意图与图像底层特征间的语义鸿沟的同时，求出的感兴趣区域也能保持物体原有形状，从而使得所选出来的感兴趣区域更加符合用户的要求，以便于后续图像检索的处理。

本发明的技术解决方案如下：

一种结合自底向上和自顶向下的图像感兴趣区域提取方法，包括以下步骤：

步骤1：提取出输入的源图像G_R在亮度、颜色和方向三个特征上不同尺度的图像特征；

步骤2：采用交互式的方式，用户输入亮度特征、颜色特征和方向特征相应的权重值，然后由下式求出源图像G_R加权的Itti-Koch模型显著图；

S = \frac{g (I) * N (\overset{&OverBar;}{I}) + g (C) * N (\overset{&OverBar;}{C}) + g (O) * N (\overset{&OverBar;}{O})}{g (I) + g (C) + g (O)}

其中g(I)表示用户选择的亮度特征的权重值，g(C)表示用户选择的颜色特征的权重值，g(O)表示用户选择的方向特征的权重值；

分别为亮度、颜色和方向三个特征上的规范图，N(.)为规范化因子；同时通过遍历求取G_R加权的Itti-Koch模型显著图中显著度最大的点P；

步骤3：求取基于Itti-Koch模型显著图的中间处理图像G_I以及基于Stentiford模型视觉注意图G_S；

其中，G_I的求取过程为：将得到的源图像G_R加权的Itti-Koch模型显著图进行平滑滤波、二值化处理以及基于显著度最大的点P进行区域增长，结果存于中间处理图像G_I中；

G_S的求取过程为：利用Stentiford模型求取出源图像G_R的视觉注意图，并将其进行平滑滤波、二值化处理并区域增长，增长的结果存于中间处理图像G_S中；

步骤4：G_I与G_S进行与运算，结果存储为缓存图像G_T；

步骤5：对图像G_T进行图像膨胀处理从而消除裂缝与孔洞，得G_T′；

步骤6：G_T′与源图像G_R进行与运算，最终得到用户感兴趣区域。

说明：得到方向、颜色和亮度等特征的初步显著图之后，要将产生的四十二幅初级显著图要合并为一幅显著图，由于这些不同的(方向、颜色和亮度)显著图的提取机制和提取结果所在的动态范围不相同，在一些初级显著图中很显眼的显著物体就会由于在另外一些初级显著图中不是很显著而被图像中的噪声所干扰，从而影响结果的准确程度。故在Itti-Koch模型中采用规范化因子N(.)用于增强显著峰较少的初级显著图，而削弱存在大量显著峰的初级显著图。

步骤1中，提取不同尺度的图像特征的过程为：

1)将源图像G_R分解为r，g，b三个通道，分为红色，绿色，蓝色三幅单色图像，通过公式I＝(r+g+b)/3产生亮度图，将这幅亮度图作为高斯金字塔I的基础级别，通过高斯金字塔，产生九个不同尺度图像，即从1:1的0级、1:2的1级，...，一直到1:256的8级，从而提取出不同尺度的亮度信息；

2)分离出颜色信息：以R＝r-(g+b)/2代表红色，G＝g-(r+b)/2代表绿色，B＝b-(r+g)/2代表蓝色，Y＝(r+g)/2-|r-g|/2-b代表黄色，其中R、G、B及Y的负值设置为0，产生了一个新的颜色空间，将这四幅调整后的颜色图作为高斯金字塔的基础输入级别进行处理；四个高斯金字塔R，G，B，Y来代表这四个颜色频道；

3)采用伽柏金字塔提取源图像G_R的不同尺度的方向信息：采用伽柏滤波器提取图像0°，45°，90°，135°四个方向的方向信息，然后再经过伽柏金字塔提取出不同尺度的方向信息。

步骤3中，利用Itti-Koch模型的反馈抑制机制，根据G_I中的结果对加权Itti-Koch模型显著图进行修改，使已经选取过的显著点不再被选中，迭代计算其它显著点。

对Itti-Koch模型的反馈抑制机制的解释：程序实现时，采用的方法是将上次已选出的显著点的像素值置为0，这样已经选出的显著点下次就不会再被选中——这个实际上是大家在借用Itti-Koch模型实现反馈抑制机制时很多采用的方法。

说明：G_I和G_S是包含多个显著点的中间处理过程所产生的图像，之后两者进行“与”运算，这样就保持了Itti-Koch模型对显著区提取的准确性，又吸取Stentiford模型能维持感兴趣区物体原有形状的优点。

步骤3中，区域增长采用种子填充法：建立一个队列Q；初始时，Q仅包含最开始的那个点，对于每一个出队的元素，将它周围符合条件的元素入队列；设置一个访问标志数组，用于记录每一个元素是否已经被访问过，避免重复访问。

说明：进队列的元素(像素点)必须满足：一是在图像内的像素点(即上面所说的“元素”)，二是出队列的像素点(元素)周围的八个点；三是在满足上述两个条件下，该点必须是原来没有进过队列。)

前述的平滑滤波：采用一般的滤波方法都可以，优选采用的是中值滤波。

步骤4中膨胀方法的说明：膨胀是一种运算，即：将与物体接触的所有背景点合并到该物体中，使边界向外部扩张的过程。利用它可以填补物体中的空洞。B对M膨胀所产生的二值图像D是满足以下条件的点(x，y)的集合：如果B的原点平移到点(x，y)，那么它与M的交集非空。实现膨胀是调用函数来完成的。

关于规范因子的说明：

得到图像的初步显著图之后，由于这些不同的(颜色、方向和亮度)显著图的提取机制和提取结果所在的动态范围不相同，这就导致在合并这些初级显著图形成整体显著图的过程中遇到了困难。由于产生的四十二幅初级显著图要合并为一幅显著图，在一些初级显著图中很显眼的显著物体就会由于在另外一些初级显著图中不是很显著而被图像中的噪声所干扰，从而影响结果的准确程度。从图6所示的方向刺激图中可以看到，图中特征显著度最高的应该是方向特征，但经过计算初级显著图得到的亮度关注图存在大量的显著峰且峰值较高(因为黑白反差很大)，而方向初级显著图中虽然显示了方向不一致的物体的显著峰，但其峰值较低(方向反差弱于亮度反差)。因此，Itti模型中采用规范化因子N(.)用于增强显著峰较少的初级显著图，而削弱存在大量显著峰的初级显著图。从图1中可以看出，规范化因子使方向显著峰增强，而削弱了亮度显著峰。

按照上述要求，规范化因子可以按照下述方法计算：

1.将图像的像素值范围规范化至一个固定范围[0...M]。说明：由于规范之前，不同的显著图的显著值有差别，为保证合并结果的准确程度，在合并不同的显著图之前，将像素值规范到一定的范围可达到这一效果，从而消除掉那些依赖于计算模式而产生的幅值不同；M为图像中的全局最大的极值

2.找到图像中的全局最大的极值M，并计算出所有图像中其他极值点的平均值

3.将整幅图的像素值乘以

提取方向信息和方向特征图的数量计算：

用尺度因子c∈{2，3，4}代表中央区域，表示细尺度特征图，用来提取中央的细节信息，用尺度因子

代表周边区域，表示粗尺度特征图，提取周边的大体图像信息。

方向信息采用伽柏金字塔O(σ，θ)，其中σ为尺度，θ∈{0°，45°，90°，135°}代表方向。方向特征图通过中央与周边的方向对比产生，中央周边差标记为“Θ”，通过点对点的相减和对小尺度的像素点的修改来得到中央周边差。如公式(4)：

O(c，s，θ)＝|O(c，θ)ΘO(s，θ)| 公式(4)

共二十四(3(c的值有3个)*2(

的值有2个)*4(4个方向)＝24)幅方向特征图。

说明：O(c，θ)、O(s，θ)是伽柏金字塔的计算公式，其中c，s分别是前述的尺度因子，c表示细尺度，s表示粗尺度，θ表示方向，O是伽柏金字塔。

本发明的技术构思是：

首先提取出输入图像G_R在亮度、颜色和方向三个特征上不同尺度的底层图像特征。利用高斯金字塔和伽柏金字塔得到输入图像G_R的颜色显著图、亮度显著图和方向显著图，根据自顶向下的信息，如用户观察图像时的任务或要求凸显图像的不同底层特征值，采用交互式的方式，由用户输入亮度、颜色和方向等特征的不同权重值，并将这些权值融入到合并G_R的颜色显著图、亮度显著图和方向显著图的过程中，从而计算出源图像G_R加权的Itti-Koch显著图，并对其进行平滑化与二值化处理。

计算G_R加权的Itti-Koch模型显著图的同时，求取Stentiford模型视觉注意图。根据Stentiford模型，对于图像中的每一个像素点x，首先随机选出m个距离该点的距离在r内的邻居点，形成一个邻居排列。然后再从图像中其他位置随机选取出另一个点y；之后将选出的x点的邻居排列与y点周围相同位置的邻居排列相比较，检测两个排列的像素值是否匹配。如果不匹配，则说明x点与y点不同，较为显著，其VA值(visual attention，它表明两像素点相对显著性)增加。求出Stentiford模型视觉注意图之后对其进行平滑处理和二值化处理。

分别求出了G_R加权的Itti-Koch模型显著图和Stentiford模型视觉注意图后，从G_R加权的Itti-Koch模型显著图中选出显著度最大的点P，将点P在二值化后的加权Itti-Koch模型显著图和二值化后的Stentiford模型视觉注意图的限制下进行区域增长，分别将增长的结果存贮到中间处理图像G_I和G_S中，并根据G_I中的结果对加权Itti-Koch模型显著图中进行修改，从而使已经选取过的显著点不再被选中。对这一过程迭代计算，选出多个用户感兴趣区域。

G_I和G_S进行与运算，结果存储为缓存图像G_T，从而使Itti-Koch模型显著图与Stentiford模型视觉注意图进行结合，既能保持Itti-Koch模型对显著区提取的准确性，又能吸取Stentiford模型能维持感兴趣区物体原有形状的优点，使得显著区的提取更加准确。

对G_T进行图像膨胀处理得另一缓存图像G_T′，膨胀处理后的图像消除了感兴趣区域的孔洞与裂缝，同时又保持感兴趣区域物体的原有形状。将缓存图像G_T′和输入图像G_R进行与运算，从而最终得到用户感兴趣区域。

有益效果：

发明提出了一种自底向上与自顶向下信息相结合的用来提取图像的感兴趣区域的方法。该方法通过用户设置图像的亮度、颜色和方向等特征的权重值来体现用户所携带的观察任务，即在处理用户对图像的理解等自顶向下信息时将其转换为显著图的权重；同时将两种自底向上的视觉注意模型结合，使得能够较快地提取出用户感兴趣区域且保持物体原有的形状。本发明中，由于加入了用户意图等自顶向下信息，即增加了用户对图像的亮度、颜色和方向等权重的选择，从而使得所选出来的感兴趣区域更加符合用户的要求。如用户希望其操作的图像突出亮度，则可增加亮度这一底层特征的权重。通过将该方法应用于多幅图像的实验证实，该方法是一种将用户意图和图像本身特性相结合的行之有效地方法，且可以按照用户意图来调节相关图像特征的显示结果，能适用于图像识别和图像检索等任务。

该方法是一种将用户任务与图像视觉刺激相结合的感兴趣区域提取方法，将用户的查询意图、对图像的理解等自顶向下信息转换为显著图权重的方式，即通过对底层特征加以相应权重来影响显著图的求解，缩短了用户查询意图与图像底层特征间的鸿沟。同时将Itti-Koch模型与Stentiford模型结合，吸取两模型优点。对多幅图像的处理结果表明使用该方法提取用户感兴趣区域具有较好的结果。

说明：Itti-Koch模型与Stentiford模型这两个视觉模型都是自底向上的模型，他们描述的都是图像自身具有的底层特征，如：颜色、亮度、方向等等，目前还没有自顶向下的视觉模型，还在研究之中。“自顶向下”信息指的是人看图时自觉不自觉携带的高层信息，比如说有时我们希望突出黄色、有时希望突出红色、有时希望增加亮度、有时希望强调45度方向的物体等等(这些从实验结果上可以看到)，发明中的“自顶向下”信息指的就是通过交互式的方式(即文中所说的输入这些信息的权重)将这些信息在求取感兴趣区域时融入到图像的底层特征中去，使得最终求取的感兴趣区域融合了主观上人的要求。

附图说明

图1是本发明的流程图。

图2是图像底层特征权重设置图，用户可根据观察任务等自顶向下信息针对不同的特征设置相应的权重值。

图3和图4是按照本发明的一个实施方式的自然图像处理结果对比图。图3是一幅人工合成源图像，图4是对图3设置不同的权重值得到不同的用户感兴趣区域结果图。其中图4(a)是为了突出蓝色部分而提高蓝色部分权重之后对图3提取的感兴趣区域的结果图，图4(b)是提高红绿色权重的结果图。

图5和图6是按照本发明的一个实施方式的自然图像处理结果对比图。其中图5为输入源图像，图6(a)是不加入自顶向下权重信息的处理结果，图6(b)为亮度权重置为2，其他权重为1的结果图。

图7按照本发明的一个实施方式的用于实验的两幅源图像。

图8、图9和图10是按照本发明所提方法得到的运行结果与Itti-Koch模型以及Stentiford模型的处理结果对比图。图8为本发明所提方法的处理结果，图9为采用Itti-Koch模型处理结果，图10为Stentiford模型处理结果图。

具体实施方式

以下将结合图和具体实施过程对本发明做进一步详细说明。

实施例：

本实施例的具体步骤如下：

本发明提出了一种结合自底向上和自顶向下的感兴趣区域提取方法，包括：首先按照用户的意图等自顶向下信息，输入图像底层特征的权重值，求取Itti-Koch显著图和Stentiford显著图并对它们与运算，然后消除裂缝孔洞得到新的图像，最后将该新的图像与输入图像相与得到用户感兴趣区域。

具体流程如图1所示，现介绍每一步的实现细节。

1、提取输入图像G_R在亮度、颜色、方向三个特征上不同尺度的图像特征，具体如下：

1)将输入图像G_R分解为r、g、b三个通道，分为红色、绿色、蓝色三幅单色图像，通过公式I＝(r+g+b)/3产生亮度图，将这幅亮度图作为高斯金字塔(Gaussian pyramid)的基础级别，高斯金字塔I共有九层，分别用尺度0～8来代表，产生九个不同尺度图像，即从1:1的0级原始图像到1:256的8级，用于提取出不同尺度的亮度信息。

2)分离出颜色信息，通过R＝r-(g+b)/2代表红色，G＝g-(r+b)/2代表绿色，B＝b-(r+g)/2代表蓝色，Y＝(r+g)/2-|r-g|/2-b代表黄色，其中R、G、B及Y的负值设置为0，产生了一个新的颜色空间，将这四幅调整后的颜色图作为高斯金字塔的基础输入级别进行处理；四个高斯金字塔R，G，B，Y来代表这四个颜色频道。

3)采用伽柏金字塔(Gabor pyramid)提取图像的不同尺度的方向信息，采用伽柏滤波器提取图像0°、45°、90°和135°四个方向的方向信息，然后再经过伽柏金字塔提取出不同尺度的方向信息。

2、将用户对图像的理解等自顶向下信息转换成为显著图权重的方式，即采用交互式的方式，由用户输入源图像的亮度、颜色和方向等特征相应的权值，在此基础上，利用Itti-Koch模型求出源图像带权的显著图。

1)中央周边差：根据上述高斯金字塔和伽柏金字塔【提取颜色、亮度和方向等不同尺度的图像特征，用尺度因子c∈{2，3，4}代表中央区域，表示细尺度特征图，用来提取中央的细节信息，用尺度因子

代表周边区域，表示粗尺度特征图，提取周边的大体图像信息。这种中央周边差标记为“Θ”，通过点对点的相减和对小尺度的像素点的修改来得到中央周边差。

首先通过中央周边操作产生第一组共六幅的亮度对比特征图I(c，s)，如公式(1)：

I(c，s)＝|I(c)ΘI(s)| 公式(1)

下一组颜色特征图是通过模仿人类视觉皮层接收域的中央对于一种颜色兴奋，对于另外一种颜色抑制，而周边恰恰相反的机制，根据研究有以下颜色对：红色与绿色相对，蓝色与黄色相对，因此根据以下公式产生十二幅颜色特征图，如公式(2)、(3)：

RG(c，s)＝|(R(c)-G(c))Θ(G(s)-R(s))| 公式(2)

BY(c，s)＝|(B(c)-Y(c))Θ(Y(s)-G(s))| 公式(3)

方向信息采用嘉伯金字塔O(σ，θ)，其中σ为尺度，θ∈{0°，45°，90°，135°}代表方向。方向特征图通过中央与周边的方向对比产生，如公式(4)：

O(c，s，θ)＝|O(c，θ)Θ(O(s，θ)| 公式(4)

这样，总共四十二幅特征图就产生了，其中六幅亮度特征图，十二幅颜色特征图，二十四幅方向特征图。

说明：I(c)、I(s)中c，s分别是上文所说的尺度因子，c表示细尺度，s表示粗尺度。R表示颜色中的红色，G表示颜色中的绿色；O是伽柏金字塔。

2)初步显著图的规范化：由于不同的特征图的提取机制和提取结果所在的范围都不相同，就可能导致将这些初级特征图合并成一个整体图的过程中遇到困难。由于根据上述机制产生的四十二幅初级特征图要合并为一幅图，在一些初级特征图中很显眼的显著物体就会由于在另外一些初级特征图中不是很显著而被图像中的噪声所干扰，从而影响结果的准确程度，解决这一问题的有效机制是采用规范化因子。

采用规范化因子N(.)用于增强显著峰较少的初级显著图，而削弱存在大量显著峰的初级显著图。将规范后的N(I(c，s))、N(RG(c，s))、N(BY(c，s))以及N(O(c，s，θ))通过

运算结合起来，

是将每一个特征的不同尺度层的特征映射图进行下采样，再进行点对点的加法运算，得到亮度、颜色和方向三个特征上的规范图，分别记为

亮度规范图：

\overset{&OverBar;}{I} = &CirclePlus; &CirclePlus; N (I (c, s))

颜色规范图：

\overset{&OverBar;}{C} = &CirclePlus; &CirclePlus; [N (RG (c, s)) + N (BY (c, s))]

方向规范图：

\overset{&OverBar;}{O} = Σ_{θ} N (&CirclePlus; &CirclePlus; N (O (c, s, θ)))

显著图S为亮度I、颜色C和方向O规范图的归一化合并，如公式(5)：

S = \frac{1}{3} [N (\overset{&OverBar;}{I}) + N (\overset{&OverBar;}{C}) + N (\overset{&OverBar;}{O})]

公式(5)

要注意的是，只有图像的极点才被规范化因子计算，极点的值比其周围的八个点的值大，还必须大于某一个设定的阈值，从而过滤掉一些值比较小的符合第一个条件的点，选出符合需要的峰值。阈值选为图像中所有值中的最小值加上最大值与最小值差的十分之一，故首先要遍历图中所有像素点，计算图中像素点的最大值和最小值。该阈值的定义：thresh＝minNm+(maxNm-minNm)/10.0。其中thresh表示阈值，minNm表示图像中灰度值最小值，maxNm表示图像中灰度值最大值。

3)求得最终的Itti-Koch模型显著图：在经过规范化之后，我们可以将这些初级显著图进行合并从而得到最终的显著图。考虑用户对图像的不同理解和要求，通过对颜色、亮度和方向等底层特征加以不同的权重来表达用户的这一要求，然后将每一个尺度的初级显著图乘以一个对应的用户所给权重信息，从而得到颜色、亮度和方向三个特征的显著图。考虑不同特征的不同权重信息，将颜色、亮度和方向三个显著图分别乘上相应的权重后进行点对点相加，从而得到最终的显著图。如公式(6)：

S = \frac{g (I) * N (\overset{&OverBar;}{I}) + g (C) * N (\overset{&OverBar;}{C}) + g (O) * N (\overset{&OverBar;}{O})}{g (I) + g (C) + g (O)}

公式(6)

其中g(I)表示用户选择的亮度特征的权重值，g(C)表示用户选择的颜色特征的权重值，g(O)表示用户选择的方向特征的权重值。

3、中间处理图像G_I的求解。

1)根据G_R加权的Itti-Koch模型显著图，求出其显著值最大的点P；

2)将Itti-Koch模型求取的显著图进行平滑滤波与二值化，从而将图像中的所有点分为两个集合，区分出在Itti-Koch模型下的显著物体与不显著物体；

3)将点P在二值化后的Itti-Koch模型显著图的限制下进行区域增长，将结果存贮在中间处理图像G_I中。

4、求取Itti-Koch模型显著图中的多个显著点(即感兴趣点)。求出第一个显著点后，根据已经增长过的区域修改Itti-Koch显著图(因为在Itti-Koch模型中加入了反馈抑制机制，使得同一个显著点只能被系统发现一次)，使得已经选取过的显著点不再被选中，迭代计算图中其它的显著点。迭代计算的次数与要求的用户要选出的感兴趣区域数量一致。

5、求解Itti-Koch模型显著图的同时，求解Stentiford模型视觉注意图。首先将数字图像表示为一个二维像素矩阵，然后再对矩阵中的每一个像素点进行计算。对于图像中的每一个像素点x，首先随机选出m个与该点的距离在r内的邻居点，(这部分是借鉴了Stentiford这一经典模型，在本实例中，只要像素点在该矩阵中即可，m，r取的是随机值)形成一个邻居排列；同样再从图像中其他位置随机选取出另一个点y及与之距离在r内的m个邻居点。之后将选出的x点的邻居排列与y点的邻居排列相比较，检测两个排列的像素值是否匹配。

如果不匹配，则说明x点与y点不同，较为显著，其VA值增加【VA值，visual attention，它表明两像素点相对显著性。无初始值。因为我们只需把较为显著的区域找出来，不显著的地方可忽略，所以只需要计算点之间的相对显著性，而不需要精确计算】，再重新选取y点；如果匹配，那么x点的VA值不变，再重新选择x点周围的一个邻居排列。对于每一个像素点迭代求解，最终求出整幅图像的视觉注意图。实际上，像素值的完全相同是不可能，也是不合理的，对于一副彩色图像来说，如果某一点的红色、绿色、蓝色三个通道有任任意一个通道的差别大于五十，则认为检测到一个不匹配，否则认为是匹配。

将Stentiford模型视觉注意图进行平滑滤波、二值化处理，从而将图像中的所有点分为两个集合，区分出在Stentiford模型下的显著物体与不显著物体(Stentiford模型是一个经典的视觉模型，本发明在这里借鉴其已有的结论)然后以种子填充法按照Stentiford模型二值化结果为依据进行区域增长，将结果存于中间处理图像G_S中；

6、中间处理图像G_I和G_S进行与运算，结果存储为缓存图像G_T；

7、对G_T进行图像膨胀处理从而消除裂缝与孔洞得另一缓存图像G_T′；

8、G_T′与输入图像G_R进行与运算，最终得到用户感兴趣区域。

图4、图6和图8按照本发明的实施方式对不同类型图像的处理结果。

图3和图4是对人工合成的图像进行实验，根据用户设置的不同权重提取到的不同感兴趣区域。其中图3为输入的源图像，图中比较显著的存在六个显著物体，图4(a)中是为了突出蓝色部分，提高蓝色权重的值，将蓝色权重设置为9，其他的权重值为1的结果图，从图中可以看出，较好地提取出了用户感兴趣物体即蓝色物体比较完整的形状和个数，但因为红绿色的权重设置过低，红绿的显著物体在图4(a)中退化；图4(b)中提高红绿色的权重，为红绿色权重设置为4而其他的权重值为1的结果图，提取到了红色和绿色的显著物体但蓝色的显著物体退化。从图2中可以清晰看出本发明根据用户携带的观察任务而设置不同特征的权重计算出不同的显著区域，图4(a)中当蓝色权重加重的时候蓝色的物体很清晰，图4(b)中当红绿色权重加重，红绿色物体很清晰，很好的提取出了用户感兴趣区域，并且较好地维持了感兴趣区域物体的原有形状。

图6是对自然图像的处理结果。图5为输入源图像，图6(a)为不加入自顶向下信息的处理结果，图6(b)设置亮度权重置为2，颜色、方向等其它权重为1的实验结果图。从图6(a)中可以看到，在不加入自顶向下信息的情况下，可以提取出一个黑色的圆形盒子，一个白色圆形盒子，一根基本上完整的铅笔以及打火机的一部分；图6(b)中可看到，通过加强亮度在图像中的权重，除了提取出图6(a)中提取的物体外，还提取出了显著物体白色的硬币，并且基本保持了显著物体的原有形状。另外从图中还可以看到，在相对单独的不加入自顶向下信息的情况下，还是比较完整的提取出了用户感兴趣区域中的物体，这从另外一个角度说明了本发明的有效性。

图7、图8、图9和图10是本发明所提方法的运行结果与经典的Itti-Koch模型以及Stentiford模型的处理结果对比图。图7为两幅源图像，图8为本发明所提方法对图7中两幅图的处理结果，图9为Itti-Koch模型处理结果，图中白线圈住的区域为识别的显著区域，黑线为显著区转移线，图10为Stentiford模型处理结果图。从图8中可看出本发明基本能够提取出用户感兴趣的区域，同时基本保持了物体的原有形状；同Itti-Koch模型以及Stentiford模型实验结果相比较可以发现，由于本发明较好的结合了用户的查询意图与图像中的固有信息，能够比较成功地提取出用户感兴趣区区域，且提取的感兴趣区域更为准确，更加符合用户的需求。

Claims

1.一种结合自底向上和自顶向下的图像感兴趣区域提取方法，其特征在于，包括以下步骤：

步骤4：G_I与G_S进行与运算，结果存储为缓存图像G_T；

步骤5：对图像G_T进行图像膨胀处理从而消除裂缝与孔洞，得G_T＇；

步骤6：G_T＇与源图像G_R进行与运算，最终得到用户感兴趣区域。

2.根据权利要求1所述的结合自底向上和自顶向下的图像感兴趣区域提取方法，其特征在于，步骤1中，提取不同尺度的图像特征的过程为：

1）将源图像G_R分解为r，g，b三个通道，分为红色，绿色，蓝色三幅单色图像，通过公式I=(r+g+b)/3产生亮度图，将这幅亮度图作为高斯金字塔I的基础级别，通过高斯金字塔，产生九个不同尺度图像，即从1:1的0级、1：2的1级，…，一直到1:256的8级，从而提取出不同尺度的亮度信息；

2）分离出颜色信息：以R=r-(g+b)/2代表红色，G=g-(r+b)/2代表绿色，B=b-(r+g)/2代表蓝色，Y=(r+g)/2-|r-g|/2-b代表黄色，其中R、G、B及Y的负值设置为0，产生了一个新的颜色空间，将这四幅调整后的颜色图作为高斯金字塔的基础输入级别进行处理；四个高斯金字塔R，G，B，Y来代表这四个颜色频道；

3）采用伽柏金字塔提取源图像G_R的不同尺度的方向信息：采用伽柏滤波器提取图像0°，45°，90°，135°四个方向的方向信息，然后再经过伽柏金字塔提取出不同尺度的方向信息。

3.根据权利要求1所述的结合自底向上和自顶向下的图像感兴趣区域提取方法，其特征在于，步骤3中，利用Itti-Koch模型的反馈抑制机制，根据G_I中的结果对加权Itti-Koch模型显著图进行修改，使已经选取过的显著点不再被选中，迭代计算其它显著点。

4.根据权利要求1所述的结合自底向上和自顶向下的图像感兴趣区域提取方法，其特征在于，步骤3中，区域增长采用种子填充法：建立一个队列Q；初始时，Q仅包含最开始的那个点，对于每一个出队的元素，将它周围符合条件的元素入队列；设置一个访问标志数组，用于记录每一个元素是否已经被访问过，避免重复访问。