CN102521595A

CN102521595A - 一种基于眼动数据和底层特征的图像感兴趣区域提取方法

Info

Publication number: CN102521595A
Application number: CN2011104039539A
Authority: CN
Inventors: 邹北骥; 高旭; 陈再良; 刘晴
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2011-12-07
Filing date: 2011-12-07
Publication date: 2012-06-27
Anticipated expiration: 2031-12-07
Also published as: CN102521595B

Abstract

本发明公开了一种基于眼动仪实验数据和底层特征的图像感兴趣区域提取方法，一方面通过眼动仪视点跟踪实验数据提取出反映人真实语义的图像感兴趣区域，即眼动ROI，另一方面通过底层特征带权组合的形式提取出一般意义上的图像感兴趣区域，即特征ROI，通过分析特征ROI与眼动ROI的相似度找出相似度最高时的权重组合，即最佳权重。利用此权重提取出的其他同类型图片的感兴趣区域能够更加符合用户的语义需求。

Description

一种基于眼动数据和底层特征的图像感兴趣区域提取方法

技术领域

本发明属于图像识别技术领域，涉及一种基于眼动仪实验数据和底层特征的图像感兴趣区域提取方法。

背景技术

随着多媒体技术和互联网技术的快速发展，人类生活和科学实验中产生的图像数据正在急剧膨胀，人们对图像信息的处理也就越来越困难。因此，如何对数字图像数据进行存储表达和组织管理以及如何从海量、无序的图片中快速、精确地找到自己所需信息是当前许多应用领域的突出问题。研究发现，图像的主要信息往往只集中在少数几个区域中，也往往只是这几个关键区域能够给人以新奇的感觉，从而引起人们的注意，这几个关键区域即图像感兴趣区域。找出图像中的感兴趣区域，则可以对图像内容分优先级处理，能够大大提高图像处理和分析的效率与准确度，尤其在图像压缩和图像检索领域有着重要的应用价值。

图像的内容包括图像的底层特征和图像的语义特征两部分。图像的语义特征是指人对于图像的理解和认识，建立在人对图像所描述的对象或事件的语义理解的基础上。颜色、纹理和形状等都是一些可视化底层特征，尽管它们还不足以成为描述图像内容的语义特征，但它们反映了一些原始图像的内容信息，是形成语义特征的基础。计算机对图像信息的理解跟用户自身对图像信息的理解存在不一致性，导致了图像底层特征跟图像高层语义需求之间的距离，即“语义鸿沟”。分析各底层特征对图像语义的影响权重可以在一定程度上缩短“语义鸿沟”的距离，提取出更加准确的感兴趣区域。

人们往往通过频繁的注视来表达对图像中对象或区域的兴趣。人眼运动传递了大量反映人体心理活动的信息，因此，用户兴趣可以通过跟踪人眼的视点运动，收集和分析人眼运动数据获取。实现心理视觉感知的关键方法是视点跟踪技术。视点跟踪最初主要应用于心理学研究、助残等领域，但由于当时传感器技术和计算机处理速度等的限制，视点跟踪技术遇到不少困难，发展十分缓慢。近年来，随着光学传感器的发展和计算机对复杂信息实时处理能力的提高，视点跟踪技术相应得到了快速发展，现在在计算机视觉领域也起着至关重要的作用。分析视点运动数据，客观地感知视觉信息，并利用这些视觉感知信息计算用户的注视兴趣，获取用户心理意图，可以有效克服图像低层视觉特征和高层语义之间的语义鸿沟。

典型的提取图像感兴趣区域的方法有Itti模型和Stentiford模型。Itti模型依据特征整合理论，从输入图像中提取多方面的底层特征，如颜色、方向、亮度等；采用高斯金字塔及下采样方法对提取的各特征图进行多尺度变换；接着通过中央周边差操作算子得到每个特征的显著图；最后将三幅特征显著图进一步融合得到最终的显著图。显著图中显著度最强的点就是注意焦点，对注意焦点进行区域增长，可以得到最显著的区域。反复寻找注意焦点，并进行区域增长直到找出所有的注意焦点，最终得到图像的感兴趣区域结果。Stenfiford模型的基本思想是当图像某区域特征在图像其他区域中出现频率越少，其区域兴趣度越高；通过抑制图像中具有相同模式的区域得到视觉注意图，用于表示其显著性。该视觉注意图与Itti模型的显著图类似。

已有的提取图像感兴趣区域的方法中，基本上都是利用颜色、亮度以及方向等底层特征来实现的，但是并没有考虑各底层特征对感兴趣区域影响程度的差异以及用户真实观察结果的反馈。在处理不同类型的图片时，有些图片可能颜色特征明显占主要因素，有些图片可能亮度特征影响程度最大，如果只是等权重考虑每一个特征，就会出现提取出的感兴趣区域效果不明显的情况。

发明内容

本发明的目的是提出一种基于眼动数据和底层特征的图像感兴趣区域提取方法，一方面通过眼动仪视点跟踪实验数据提取出反映人真实语义的图像感兴趣区域，即眼动Region of Interest，简称眼动ROI，另一方面通过底层特征带权组合的形式提取出一般意义上的图像感兴趣区域，即特征Region of Interest，简称特征ROI，通过分析特征ROI与眼动ROI的相似度找出的相似度最高时的权重组合，即最佳权重。利用此权重提取出的其他同类型图片的感兴趣区域能够更加符合用户的语义需求。

本发明的技术解决方案如下：

一种基于眼动数据和底层特征的图像感兴趣区域的提取方法，包括以下步骤：

步骤1：利用眼动仪实验获取被试者观察样本图片的眼动数据，包括眼动轨迹、注视时间以及注视点坐标；

步骤2：依据核密度理论，利用眼动数据中的注视点坐标数据，由如下二维高斯函数求出每个注视点对图片显著度的贡献，并将所有注视点的显著度贡献叠加在一幅图上，生成显著图；

g (x, y) = \frac{1}{2 π σ^{2}} \exp (- \frac{{(x - x_{0})}^{2} + {(y - y_{0})}^{2}}{2 σ^{2}})

其中g(x，y)表示注视点对在坐标(x，y)处的显著度贡献，(x₀，y₀)表示注视点坐标，σ表示高斯分布的方差参数，根据一维正态分布的3Sigma原则，这里只考虑注视点半径3σ以内的显著度贡献；

步骤3：查找基于眼动显著图的注意焦点，并利用种子填充算法在原样本图片中对注意焦点进行区域增长，得到图像感兴趣区域，即眼动Region of Interest，简称眼动ROI；

步骤4：提取样本图片的颜色、亮度、方向和纹理四个主要的特征，并通过高斯金字塔以及中央周边差算子生成四个特征显著图；

步骤5：设置四个图像特征的权重值，因为权重值可以从0到1连续取值，为了能够遍历所有权重且计算方便，设定权重值只取0.05的倍数，然后由下式求出样本图片的显著图，并进一步通过阈值分割，求出图像感兴趣区域，即特征Region of Interest，简称特征ROI；

S＝g(c)C+g(i)I+g(o)O+g(t)T

其中C、I、O、T分别代表颜色显著图、亮度显著图、方向显著图和纹理显著图，g(c)、g(i)、g(o)和g(t)分别表示颜色、连读、方向和纹理的权重值，四者相加为1；

步骤6：通过遍历步骤5中的特征权重，以及眼动ROI和特征ROI的相似度比较，求出相似度最高时的权重组合，即最佳权重组合；

步骤7：将步骤6所得出的最佳权重组合用于提取其他未做过眼动实验且语义特征一致的同类型图片的感兴趣区域，即将图片同样经过步骤4处理，然后将最佳权重组合代入步骤5的公式得到显著图并通过阈值分割得到图像感兴趣区域。

步骤1中，眼动仪实验的实施过程为：

(1)选择corel图像库，该库按照语义特征将图片分成若干类，同一类图片语义特征一致，从corel图像库中针对每种类型选取8张图片作为样本图片，并且为获取真实的注视点坐标数据，需将样本图片缩放成与眼动仪屏幕分辨率一致大小；

(2)选取若干名视力正常的被试者，让被试者无目的地观察图片，以获取能够真实反映感兴趣区域的眼动数据；

(3)实验过程中，调整仪器摄像跟踪装置使摄像头能够准确跟踪人的瞳孔，即保证注视点坐标数据与真实人眼注视位置精确吻合，同时观察过程中每播放一张图片都要让被试者先观察屏幕中间的黑点，准确观察到黑点后，才播放下一张图片，以防止被试者走神或发呆；

(4)每位被试者观察完成后，导出一份眼动数据，通过观察每张图片的眼动轨迹图将注视点过于集中的眼动轨迹图视为出现发呆走神的不理想观察结果，并予以淘汰，然后只保留注视时间位于100ms到2000ms之间的合理注视点的坐标数据，筛选和处理后的数据用于下一步工作。

步骤3中，通过递归查找眼动显著图中像素值最大且8邻域内像素无零值的点作为注意焦点，每次将查找出的点通过区域增长进行零值填充，确保已经查找过的注意焦点不再被选中。

说明：并不是每次找出的像素值最大的点都是注意焦点，如果该点位于已填充零值区域的边缘，则不是注意焦点，即其8邻域像素有零值点。另外无论递归过程中找出像素值最大的点是不是注意焦点，都要进行零值填充，确保查找过程正常进行，也是判断8邻域像素值有无零值点的原因。

步骤4中，提取不同图像特征的过程为：

(1)将图片转换为HSI模式，然后由以下公式提取图像的颜色特征；

f_{c} (x, y) = \frac{1}{s_{c} + \exp (- \frac{saturation (x, y)}{{saturation}_{ave}})} \cdot \frac{1}{b_{c} + \exp (- \frac{brightness (x, y)}{{brightness}_{ave}})}

其中f_c(x，y)为得到的颜色特征图在(x，y)处的灰度值，saturation(x，y)和brightness(x，y)分别表示位于(x，y)处像素点的饱和度值和亮度值，saturation_ave和brightness_ave分别表示整幅图像的饱和度平均值和亮度平均值，b_c和s_c是常量，都取0.5；

说明：采用此公式是因为明亮的、颜色较纯的区域比灰暗的、颜色复杂多样的区域更能吸引人的注意，此公式综合考虑了亮度、饱和度对颜色特征的影响。

(2)将样本图片分解为r、g、b三个通道，分为红色、绿色和蓝色三幅单色图像，通过公式I＝0.2989R+0.5871G+0.1140B产生亮度值；

(3)采用Gabor滤波器组提取样本图片9个方向上的方向信息，并等权重组合成一幅方向特征图；

(4)利用Gabor函数提取样本图片5个尺度4个方向上的纹理特征，并将20幅纹理图等权重组合形成一幅纹理特征图。

说明：提取出的各特征图都要重新归一化到[0-255]，保证每个特征的公平竞争。

步骤5中，为限制特征权重的循环遍历次数，设置特征权重的精度为0.05，即四个特征的权重只在0.05的倍数中取值，而且保证四个特征权重相加为1。

步骤6中，计算两感兴趣区域相似度的过程为：

(1)通过比较每个对应的像素点，由如下公式计算两感兴趣区域点对点的相似度；

Sim {(G, S)}_{point} = 1 - \frac{1}{N} Σ_{i = 1}^{N} \frac{| g_{i} - s_{i} |}{255}

其中，G、S分别为由眼动数据和底层特征提取出的感兴趣区域所在的二值图像，N为图像的像素个数，g_i、s_i分别是两幅二值图像第i个像素点对应的像素值；

说明：G、S为只含有0和255两种像素值的二值图像，其中感兴趣区域内的像素值为255，背景区域为0，该公式可以简单理解为两图像对应像素值相同的点的个数与总像素点个数的比值。

(2)为弥补点对点相似度未考虑区域整体性的缺陷，增加位置相似度的计算，计算公式如下：

Sim {(G, S)}_{position} = 1 - \frac{\sqrt{{(X_{g} - X_{s})}^{2} + {(Y_{g} - Y_{s})}^{2}}}{\sqrt{{width}^{2} + {height}^{2}}}

其中，G、S分别为由眼动数据和底层特征提取出的感兴趣区域的二值图像，width和height是图像的宽度和高度，(X_g，Y_g)、(X_s，Y_s)分别为两感兴趣区的质心坐标，由于感兴趣区域图像是二值图像，质心坐标公式简化如下：

X = \frac{Σ_{i = 1}^{N} x_{i}}{N}

Y = \frac{Σ_{i = 1}^{N} y_{i}}{N}

其中(x_i，y_i)表示感兴趣区域内第i个像素点的二维坐标，N为区域总像素个数；

说明：这里用区域质心表示区域位置，位置的差异理解为两区域质心的距离，即位置相似度公式中的分子，公式中的分母是图像对角线长度，用作质心距离的比较标准。

(3)感兴趣区域相似度表示为点对点相似度与位置相似度的乘积，即Sim(G，S)＝Sim(G，S)_point×Sim(G，S)_position。

本发明的技术构思是：

首先利用眼动仪获取实验图片的眼动数据。利用二维高斯函数将眼动数据中的注视点坐标转化为图片的显著图，注视点越密集的地方显著度越高。获取眼动显著图之后，迭代查找图中显著度最大的点，如果该点8邻域内像素无零值点，则该点保存为注意焦点，否则不保存，无论是不是注意焦点，都要在下一次迭代之前对显著图进行种子填充，填充值为零，这样可以避免重复查找。找到注意焦点后，在原实验图片中对注意焦点进行种子填充，并经过二值化处理以及开闭运算获取能真实反映人语义需求的感兴趣区域，即眼动ROI。

得到实验图片的眼动ROI的同时，另一方面提取图片的颜色、亮度、方向和纹理特征，并通过高斯金字塔以及中央周边差算子进行多尺度合并，从而获取四个特征的显著图。给定一组权重组合，将四个特征显著图合并成一幅显著图，并通过阈值分割获取感兴趣区域，即特征ROI。

通过一定的遍历规则，遍历所有可能的权重组合，并经过特征ROI与眼动ROI的相似度分析计算，获取特征ROI与眼动ROI最接近时的权重组合。经过多张图片最佳权重组合的统计分析，得到某类型图片的特征权重组合，并将此组合用于同类型其他图片感兴趣区域的提取。

本发明的有益效果：

本发明提出了一种基于底层特征和眼动数据反馈相结合的图像感兴趣区域提取方法。本发明加入了真实感兴趣区域的反馈，即通过由底层特征带权组合提取出的感兴趣区域与由眼动数据提取出的感兴趣区域相比较，能够找出一个底层特征之间的最佳权重组合。该组合在一定程度上反映了用户对图像的理解，缩短了底层特征与高层语义之间的鸿沟，使得提取出的感兴趣区更加符合人的语义需求。如经分析海滩类图像的方向权重很大，则在提取海滩类图像的感兴趣区域时，可以适当加大方向权重或者直接用已经计算出的最佳权重组合。通过与经典的视觉注意模型的比较证实，该方法提取出的感兴趣区准确真实，更加符合人对图像的语义理解。

附图说明

图1是本发明的流程图。

图2是眼动仪实验中对样本图片的处理情况。

图3是由眼动数据生成显著图，图3(a)是一幅样本图片眼动数据中的注视点分布情况，图3(b)是该图片注视点经过二维高斯函数处理后生成的显著图。

图4是图3(b)显著图的注意焦点寻找过程示意图。

图5是由眼动数据得到的注意焦点以及对注意焦点进行种子填充得到的眼动ROI。

图6是样本图片9个方向上的方向特征。

图7是样本图片5个尺度4个方向上的纹理特征。

图8是样本图片四个特征的特征图，从(a)到(d)依次是颜色、亮度、方向和纹理。

图9是样本图片四个特征的显著图，从(a)到(d)依次是颜色、亮度、方向和纹理。

图10是两幅海滩样本图片四种方法提取出的感兴趣区的效果对比图，从左到右依次是眼动ROI、最佳权重下的特征ROI、Itti模型提取的感兴趣区以及Stentiford模型提取的感兴趣区。

图11是将海滩类型图片的最佳权重组合用于没有眼动数据的海滩图片所提取出来的感兴趣区与Itti模型以及Stentiford模型的效果对比图。

具体实施方式

以下结合附图和具体实施过程对本发明做进一步详细说明。

本发明提出提出了一种基于眼动数据和底层特征的感兴趣区域提取方法，包括：首先根据眼动仪实验获得的眼动数据，提取出反映用户真实语义需求的感兴趣区域；然后通过提取底层特征并以带权组合的形成得到图像的感兴趣区域；最后通过两种方式提取出的感兴趣区域的对比找出最佳权重组合，并用于提取其他同类型普通图片的感兴趣区域。

参见图1，为本发明的具体流程，先介绍每一步的实现细节。

1、利用眼动仪实验获取被试者观察样本图片的眼动数据，具体如下：

(1)根据需要设计合适的样本图片如图2(a)，原始样本图片大小为256×384，为获取真实的注视点坐标，需将样本图片加边并缩放成与眼动仪屏幕分辨率(1024×768)一致大小，如图2(b)，因为眼动仪导出的注视点坐标数据实际上是屏幕坐标数据；

(2)选取合适的被试者，不给他们任何的观察任务，即让被试者无目的地观察图片，排除自顶向下的因素影响，以获取能够真实反映感兴趣区域的眼动数据；

2、参见图3(a)，是由眼动数据中的注视点坐标数据生成在样本图片上的注视点分布图，依据核密度理论，由公式(1)求出每个注视点对图片显著度的贡献，并将所有注视点的显著度贡献叠加在一幅图上，生成显著图，如图3(b)所示；

g (x, y) = \frac{1}{2 π σ^{2}} \exp (- \frac{{(x - x_{0})}^{2} + {(y - y_{0})}^{2}}{2 σ^{2}})

公式(1)

其中g(x，y)表示注视点对在坐标(x，y)处的显著度贡献，(x₀，y₀)表示注视点坐标，σ表示高斯分布的方差参数，根据一维正态分布的3Sigma原则，这里只考虑注视点半径3σ以内的显著度贡献。

3、查找基于眼动显著图的注意焦点，并利用种子填充求出图像感兴趣区域，即眼动ROI，具体如下：

(1)递归寻找显著图中的像素值最大点，并通过判断8邻域像素是否存在零值来确定是不是注意焦点，每次对查找出的点进行区域增长零值填充，以避免重复查找，图4是图3(b)中样本图片显著图寻找注意焦点的过程由图4(i)可以看出5个点中只有三个白点是注意焦点，而另外两个灰色的点，如图4(c)和图4(e)，位于已填充区域的边缘，即不是局部极大值点，所以不是注意焦点；

(2)图5(a)三个白色的点是通过第(1)步过程寻找出的注意焦点，对这三个注意焦点进行种子填充，并将填充区域转换为二值图像，然后利用开闭运算进行去孔、平滑等操作，获得理想的感兴趣区域，如图5(b)。

4、提取样本图片的颜色、亮度、方向和纹理四个主要的特征，并通过高斯金字塔以及中央周边差算子生成四个特征的显著图，具体如下：

(1)将样本图片转换为HSI模式，然后由公式(2)提取图像的颜色特征；

f_{c} (x, y) = \frac{1}{s_{c} + \exp (- \frac{saturation (x, y)}{{saturation}_{ave}})} \cdot \frac{1}{b_{c} + \exp (- \frac{brightness (x, y)}{{brightness}_{ave}})}

公式(2)

其中f_c(x，y)表示颜色特征图中在坐标(x，y)处的亮度值，saturation(x，y)和brightness(x，y)分别表示位于(x，y)处像素点的饱和度值和亮度值，saturation_ave和brightness_ave分别表示整幅图像的饱和度平均值和亮度平均值，b_c和s_c是常量，都取0.5。该方法提取出的颜色特征图如图8(a)所示；

(2)在RGB模式下将样本图片分解为r、g、b三个通道，分为红色、绿色和蓝色三幅单色图像，通过公式I＝0.2989R+0.5871G+0.1140B产生亮度值作为亮度特征图的灰度值，通过该方法提取出的亮度特征图如图8(b)所示；

(3)如图6所示，采用如公式(3)所示的Gabor滤波器组提取样本图片9个方向上的方向信息，其中图中的数字表示提取方向的角度，将9张方向图等权重组合成一幅方向特征图，如图8(c)所示；

Kernel = \exp (- \frac{x^{2} + y^{2}}{2 σ^{2}}) \cdot \cos (w \cdot x \cdot \cos (θ) + w \cdot y \cdot \sin (θ) + \frac{π}{2})

公式(3)

其中-KS/2＜x＜KS/2，-KS/2＜y＜KS/2，KS表示核函数的窗口宽度，σ决定了Gabor核函数的空间扩展是均衡的，w是常数，θ＝nπ/k(n＝0，1...k-1)，k决定了gabor滤波器方向的个数。

(4)如图7所示，利用公式(4)所示的Gabor函数提取样本图片5个尺度4个方向上的纹理特征，并将20幅纹理图等权重组合形成一幅纹理特征图，如图8(d)所示；

g (x, y) = \frac{k^{2}}{σ^{2}} \exp (- \frac{k^{2} (x^{2} + y^{2})}{2 σ^{2}}) \exp (ik (x \cos θ + y \sin θ))

公式(4)

其中ns代表尺度，θ代表方向；

(5)将特征图转换为显著图，利用Itti模型中的高斯金字塔下采样以及多尺度变换得到特征图9个尺度上的灰度图，并根据中央周边差算子融合形成一幅特征显著图。

如图9所示，从(a)到(d)依次是样本图片的颜色、亮度、方向和纹理显著图。

5、设置四个图像特征的权重值，然后由公式(5)求出样本图片的显著图，并进一步通过阈值分割，求出图像感兴趣区域，即特征ROI；

S＝g(c)C+g(i)I+g(o)O+g(t)T 公式(5)

要注意的是，由于权重可以取0-1的所有实数，事实上是不可能完全遍历的，因此这里将权重的精度定位0.05，即四个特征的权重只在0.05的倍数中取值，而且保证四个特征权重相加为1。

另外对四个特征显著图带权融合形成的最终显著图进行阈值分割时，阈值的选择标准是确保分割出的感兴趣区域的面积与眼动ROI面积大小一致。

6、遍历步骤5中设置的特征权重，提取每种特征权重情况下的特征ROI，通过与特征ROI的相似度比较，求出相似度最高时的权重组合，即最佳权重组合，相似度比较过程具体如下：

(1)通过比较每个对应的像素点，由公式(6)计算两感兴趣区域点对点的相似度；

Sim {(G, S)}_{point} = 1 - \frac{1}{N} Σ_{i = 1}^{N} \frac{| g_{i} - s_{i} |}{255}

公式(6)

其中，G、S分别为由眼动数据和底层特征提取出的感兴趣区域所在的二值图像，只含有0和255两种像素值，其中感兴趣区域内的像素值为255，背景区域为0，N为图像的像素个数，g_i、s_i分别是两幅二值图像第i个像素点对应的像素值；

(2)为弥补点对点相似度未考虑区域整体性的缺陷，增加位置相似度的计算，这里用区域质心表示区域位置，位置的差异理解为两区域质心的距离，如公式(7)所示，用质心距离与对角线的比值表示两区域位置差异：

Sim {(G, S)}_{position} = 1 - \frac{\sqrt{{(X_{g} - X_{s})}^{2} + {(Y_{g} - Y_{s})}^{2}}}{\sqrt{{width}^{2} + {height}^{2}}}

公式(7)

其中，width和height是图像的宽度和高度，(X_g，Y_g)、(X_s，Y_s)分别为两感兴趣区的质心坐标，由于感兴趣区域图像是二值图像，质心坐标公式简化如下：

X = \frac{Σ_{i = 1}^{N} x_{i}}{N}

Y = \frac{Σ_{i = 1}^{N} y_{i}}{N}

公式(8)

7、将步骤6中找出的最佳权重组合，代入步骤4、步骤5的方法，用来提取其他同类型图片的感兴趣区域。

图10和图11分别是存在眼动数据和不存在眼动数据的海滩类型的样本图片提取出的感兴趣区的效果对比图。由图5可以看出，最佳权重组合下的底层特征ROI相比Itti模型和Stentiford模型更加接近眼动ROI，这说明了本发明的有效性，由图6可以看出将最佳权重应用于不存在眼动数据的图片时，得到的感兴趣区域与两个经典模型相比也更为准确一些，更加符合人类的语义需求。

Claims

1.一种基于眼动数据和底层特征的图像感兴趣区域提取方法，其特征在于，包括如下步骤：

步骤2：依据核密度理论，利用眼动数据中的注视点坐标数据，由如下公式所示的二维高斯函数求出每个注视点对图片显著度的贡献，并将所有注视点的显著度贡献叠加在一幅图上，生成显著图；

g (x, y) = \frac{1}{2 π σ^{2}} \exp (- \frac{{(x - x_{0})}^{2} + {(y - y_{0})}^{2}}{2 σ^{2}})

步骤5：设置四个图像特征的权重值，权重值从0到1连续取值，然后由下式求出样本图片的显著图，并进一步通过阈值分割，求出图像感兴趣区域，即特征Region of Interest，简称特征ROI；

S＝g(c)C+g(i)I+g(o)O+g(t)T

其中C、I、O、T分别代表颜色显著图、亮度显著图、方向显著图和纹理显著图，g(c)、g(i)、g(o)和g(t)分别表示颜色、亮度、方向和纹理的权重值，四个权重值相加为1；

2.根据权利要求1所述的结合眼动数据和底层特征的图像感兴趣区域提取方法，其特征在于，步骤1中，眼动仪实验的实施过程为：

(1)从corel图像库中针对每种类型选取图片作为样本图片，并且为获取真实的注视点坐标数据，需将样本图片缩放成与眼动仪屏幕分辨率一致大小；

(4)每位被试者观察完成后，导出一份眼动数据，通过观察每张图片的眼动轨迹图，将注视点过于集中的眼动轨迹图视为出现发呆走神的不理想观察结果，并予以淘汰，然后只保留注视时间合理的注视点坐标数据，筛选和处理后的数据用于下一步工作。

3.根据权利要求1所述的结合眼动数据和底层特征的图像感兴趣区域提取方法，其特征在于，步骤3中，通过递归查找眼动显著图中像素值最大且8邻域内像素无零值的点作为注意焦点，每次将查找出的点通过区域增长进行零值填充，确保已经查找过的注意焦点不再被选中。

4.根据权利要求1所述的结合眼动数据和底层特征的图像感兴趣区域提取方法，其特征在于，步骤4中，提取不同图像特征的过程为：

f_{c} (x, y) = \frac{1}{s_{c} + \exp (- \frac{saturation (x, y)}{{saturation}_{ave}})} \cdot \frac{1}{b_{c} + \exp (- \frac{brightness (x, y)}{{brightness}_{ave}})}

其中f_c(x，y)为得到的颜色特征图在(x，y)处的灰度值，saturation(x，y)和brightness(x，y)分别表示位于(x，y)处像素点的饱和度值和亮度值，saturation_ave和brightness_ave分别表示整幅图像的饱和度平均值和亮度平均值，b_c和s_c是常量；

(2)将样本图片分解为r、g、b三个通道，分为红色、绿色和蓝色三幅单色图像，通过公式I＝0.2989R+0.5871G+0.1140B产生亮度值I；

(3)采用Gabor滤波器组提取样本图片不同方向上的方向信息，并等权重组合成一幅方向特征图；

(4)利用Gabor滤波函数提取样本图片不同尺度不同方向上的纹理特征，并将纹理图按权重组合形成纹理特征图。

5.根据权利要求1所述的结合眼动数据和底层特征的图像感兴趣区域提取方法，其特征在于，步骤6中，计算两感兴趣区域相似度的过程为：

Sim {(G, S)}_{point} = 1 - \frac{1}{N} Σ_{i = 1}^{N} \frac{| g_{i} - s_{i} |}{255}

其中，G、S分别为由眼动数据和底层特征提取出的感兴趣区域的二值图像，N为图像的像素个数，g_i、s_i分别是两幅二值图像第i个像素点对应的像素值；

Sim {(G, S)}_{position} = 1 - \frac{\sqrt{{(X_{g} - X_{s})}^{2} + {(Y_{g} - Y_{s})}^{2}}}{\sqrt{{width}^{2} + {height}^{2}}}

X = \frac{Σ_{i = 1}^{N} x_{i}}{N}

Y = \frac{Σ_{i = 1}^{N} y_{i}}{N}