CN104778704A

CN104778704A - 基于随机扫视图稀疏信号重构的图像关注区域检测方法

Info

Publication number: CN104778704A
Application number: CN201510185348.7A
Authority: CN
Inventors: 李甲; 陈小武; 赵沁平; 夏长群
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2015-04-20
Filing date: 2015-04-20
Publication date: 2015-07-15
Anticipated expiration: 2035-04-20
Also published as: CN104778704B

Abstract

本发明涉及一种基于随机扫视图稀疏信号重构的图像关注区域检测方法，首先对每一张图像生成一系列的随机扫视图，并且每一次扫视端点的圆形区域可以实际被记录到。随后，将圆形区域内的视觉刺激传递到我们的大脑进行编码并且使用预先训练好的稀疏基元进行信号重构。在这个过程中，人眼视点一直被锁定在观测区域内，直到该观测区域内的视觉刺激被充分认知。停留时间可以通过稀疏基元的激活代价和稀疏重构误差来计算。在经过每一次扫视之后图像的显著度可以由图像的每一个图像块内观测区域视点的停留时间来衡量，综合每一次扫视之后的图像显著度即可得到最终的图像显著图。本发明引入了稀疏编码，图像显著性检测过程更符合人类视觉系统观测图像。

Description

基于随机扫视图稀疏信号重构的图像关注区域检测方法

技术领域

本发明涉及计算机视觉关注和图像场景理解领域，具体地说是基于随机扫视图稀疏信号重构的图像关注区域检测方法。

背景技术

当人在察看图片或视频序列时，总是会存在特定的视觉刺激引起令人印象深刻的关注。正因此如，在开展复杂的图片分割和认知任务之前锁定图片中显著性的内容是非常重要的。这样一来，有限的计算资源可以更优先的分配给视觉显著的内容，这也是和人类处理图像视频的方式是一致的。

在过去二十年里，大量根据心理和神经生物学理论(如引导搜索模型或者特征整合理论)的显著计算模型已被提出。在讨论这些计算模型之前，我们先来了解这样一个基本的问题：如何生成一张图像的真实显著图？在人眼追踪实验中，图像的真实显著图是由多个观察者在自由察看图像的过程中收集视点形成视点密度图。也就是说，这些观察者都要求对同一幅图像自由察看几秒钟，观察者的眼球活动，比如扫视、追视或者固视，都会被高速的眼动追踪设备(比如30赫兹、60赫兹或者240赫兹)记录下来。最终，一个捕获人眼视点并且停留较长时间的位置认为是显著的。仔细分析这个过程，我们可以将生成图像真实显著图的过程简化为二个步骤：一是人眼迅速在整张图像的不同位置快速扫过；二是对锁住视点的位置分析其停留时间并进行内容认知。在整个过程中，某位置的视觉显著性和该位置被察看的概率以及能锁住视点的概率息息相关。

了解图像真实显著图的生成过程之后，我们现在来分析现存的预测人眼视点的显著计算模型。在这些方法中，有一个共同的解决办法就是在单尺度或者多尺度上将图像分成若干个不重叠的图像宏块，然后再计算每一个图像宏块的显著性。其中计算的准则是衡量每一个图像块中视觉上下文内容的局部或全局稀有性。图像块的稀有性可以通过计算局部对比度得到，或者通过视觉刺激性、察看时间的长短、熵率、同现频率等方式计算。有一些方法将图像转换到频域并通过谱分析来衡量图像块的稀有性。此外，通过多个特征通道来计算图像块的稀有性也是一种有效的方法，一些研究人员因此提出了通过启发式框架或者从特征到显著性的映射函数来联合多种特征来计算图像块的显著性。总的来说，这些方法都取得了不错的显著性结果，但存在两大缺点，第一，这些方法都只考虑了图像块内的局部或全局上下文内容，但是在生成真实显著图的过程中，每一次视点转换时，某一个图像块都是连同其他图像块一起出现的；第二，这些方法中的图像块都是固定大小的，但是实际扫视过程中视点常常会落在比较大的区域上。因此，为了构建一个符合生理性机制的显著计算模型，这两个问题是必须要解决的。

发明内容

根据上述需求，为了克服现有技术的不足，本发明的目的在于：提供基于随机扫视图稀疏信号重构的图像关注区域检测方法，该方法通过引入稀疏编码理论来计算图像的视觉显著性，使其更符合生理学机制。为完成发明目的，本发明采用的技术方案是：基于随机扫视图稀疏信号重构的图像关注区域检测方法，该方法包含以下步骤：

步骤(1)对图像自由察看，构造出多个随机扫视图，并在扫视端点处得到圆形观测区域；

步骤(2)对训练数据集进行预处理，得到大量图像块，提取其稠密特征，求解稀疏基元构建的稀疏字典；

步骤(3)利用稀疏字典，对测试图像的图像块求解其稀疏表示，计算得到稀疏基元激活代价和稀疏信号重构误差，综合这两个影响因子，求解出每一次扫视时视点在圆形观测区域内的停留时间；

步骤(4)利用稀疏基元激活代价和稀疏信号重构误差以及求解出的视点停留时间，计算得到每一个图像块的显著度，综合所有图像块的影响，得到整张图的图像度；构建图像金字塔，得到最终的图像显著图。

进一步地，对图像自由察看时，人眼会在图片的不同位置快速转移以至于能对输入的刺激信号重构出意象图。在此过程中，某些特定位置会锁定人眼视点更长的停留时间，因此该位置也会变得更加显著。因为在眼球运动时视觉处理过程是阻塞的，也即是所谓的扫视掩蔽，因此我们忽略在扫视过程中的扫视路径，只关注扫视端点。每一次扫视之后，在扫视端点处生成随机大小的圆形区域，用来决定哪一些视觉刺激能够进入到我们的视网膜。在随机扫视图像时，并不是以逐个像素的方式认知图像中的视觉内容，相反地，每一个扫视端点的圆形观测区域内的视觉刺激同时进入到视网膜。此外，经过某次随机扫视之后我们计算出某一位置的视觉辨别能力。

为求解稀疏字典，先对彩色图像数据集采样出大量非重复图像块，并对每一个图像块在LAB颜色空间上提取出稠密特征。得到所有图像块的稠密特征表示之后，给定每一个图像块的稀疏表示最多只有有限个稀疏基元被激活的条件下，稀疏字典可通过最大化其信号重构能力而学习得到。

视点的停留时间受两个因素制约，一是激活稀疏基元的代价，二是重构输入刺激信号的误差。一个区域如果承载着更高的激活稀疏基元的代价以及更大的重构信号误差，则该区域锁定人眼视点的时间也会更久一点。先对测试图像划分为若干个非重复的图像块，使用步骤(2)计算得到的稀疏字典，结合图像块的稠密特征表示，联合求解出这些图像块的稀疏表示；根据激活罕见稀少的稀疏基元比常见普通的稀疏基元的难度更大的机理，利用图像块的稀疏表示来求解激活稀疏基元的代价；此外，一个图像块如果具有更大的重构误差，则表明利用已有的先验知识对该图像块包含的丰富信息不能全部认知，这样就需要花费更多的视觉注意力来分析该图像块，联合步骤(1)中计算出的随机扫视后的视觉辨别能力，计算出随机扫视后的稀疏信号重构误差；最后采用线性函数组合激活稀疏基元的代价和稀疏信号重构误差两大影响视点停留时间的因素，求解出随机扫视后视点在圆形观测区域内的停留时间。

对图像经过多次随机扫视之后，一个图像块可能出现在多个圆形观测区域内，且图像块的显著性和每一个圆形观测区域内视点对其的影响成正比，所有该图像块的显著性应该综合它所属的所有区域来计算。但仅仅依靠这些固定大小的图像块并不能计算出不同大小的显著对象，特别是尺寸较大的显著目标，而且若图像包含太多图像块，对该图像进行稀释编码是非常消耗时间的。因此构建出图像金字塔，对每一层图像求解其显著图，最后将所有显著图缩放到同一尺度直接求平均，得到最终的图像显著度。

与现有的技术相比，本发明有益的特点是：

1、本发明提出基于生理学机制的框架来求解图像显著性，引入了稀疏编码理论和人眼视觉活动机制，与图像真实显著图的生成过程一致。

2、本发明引入图像金字塔，对每一层级不同大小的图像求解显著图，不仅可计算出不同大小的显著目标的显著图，又可加快稀疏编码效率，算法复杂度降低。

附图说明

图1是本发明方法流程示意图；

图2是图像真实显著图生成示意图；

图3是图像随机扫视示意图；

图4是稀疏字典生成示意图；

图5是通过图像金字塔生成图像最终显著图。

具体实施方式

下面结合附图对本发明作详细说明。

当人在自由地察看一张图片时，人眼会在图片的不同位置快速转移以至于能对输入的刺激信号重构出意象图。在此过程中，某些特定位置会锁定人眼视点更长的停留时间，因此该位置也会变得更加显著。基于此事实的启发，本发明提供基于随机扫视图稀疏信号重构的图像关注区域检测方法，该方法通过稀疏编码理论模拟人类视觉系统的相关机制来实现对图像的视觉显著性计算。方法的总体流程是：首先对每一张图像生成一系列的随机扫视图，并且每一次扫视端点的圆形区域可以实际被记录到。随后，将圆形区域内的视觉刺激传递到我们的大脑进行编码并且使用预先训练好的稀疏基元进行信号重构。在这个过程中，人眼视点一直被锁定在观测区域内，直到该观测区域内的视觉刺激被充分认知。停留时间可以通过稀疏基元的激活代价和稀疏重构误差来计算。在经过每一次扫视之后图像的显著度可以由图像的每一个图像块内观测区域视点的停留时间来衡量，综合每一次扫视之后的图像显著度即可得到最终的图像显著图。本发明可以广泛应用于计算机视觉显著性领域对真实世界进行认知、分析和理解。总体流程示意如图1所示。

生成图像真实显著图的过程简化为二个步骤，生成过程示意如图2所示：一是人眼迅速在整张图像的不同位置快速扫过；二是对锁住视点的位置分析其停留时间并进行内容认知。在整个过程中，某位置的视觉显著性和该位置被察看的概率以及能锁住视点的概率息息相关。受启发于图像的真实显著图的生成过程，本发明提出一个基于生理学机理的通过随机扫视稀疏信号重构的图像关注区域检测方法。该方法聚焦于两种眼球运动，扫视和固视，并且通过重复迭代以下两个过程来求解图像的显著图：

(1)先对图像进行扫视并产生圆形观测区域；

(2)检测每一个观测区域内视点的停留时间。

经过大量的迭代过程，图像内的各个区域都可全部被观测到。在经过每一次扫视之后图像的显著度可以由图像的每一个图像块中各观测区域内锁定的视点及其停留时间来衡量。在经过大量扫视之后，综合每一次扫视之后的图像块显著度即可得到最终的图像显著图。这两步迭代操作加上对每一图像块求解其显著度的过程，共同构成了本发明的主要系统框架。

在本发明的具体实施过程中，要对每一张测试图像生成大量的扫视图，本发明设定为10000张。因为在眼球运动时视觉处理过程是阻塞的，也即是所谓的扫视掩蔽，因此我们忽略在扫视过程中的扫视路径，只关注扫视端点。每一次扫视之后，在扫视端点处生成随机大小的圆形区域，用来决定哪一些视觉刺激能够进入到我们的视网膜。随后，对圆形观测区域内的视觉刺激信号使用稀疏基元构成的稀疏字典用快速的自下到上的处理方式进行编码，其中稀疏基元是用数以百万的图像块训练得到。然后缓慢的自上到下的控制信号参与其中，确保所有的输入刺激信号被充分认知。在此过程中，视点被锁定在圆形区域中，并且设定停留时间可以通过稀疏基元的激活代价和稀疏重构误差来计算。最后，每一个图像块的显著度由多次扫视之后该区域锁定视点的能力来衡量。

通过以上讨论可以得知，图像真实显著图可以通过在短时间内多个观察者对图像自由察看的过程中生成。然后，给定一张测试图像I，模仿每一个观察者的自由察看活动的过程是非常困难的，因为每一个观察者都存在主体偏差以及多元化的先验知识。在本发明中，我们假定察看场景时不涉及任何个人偏好和先验知识的理想观察者。在对图像自由察看的过程中，图像总共接收了S个随机扫视图，并且这些扫视点均匀分布在图像所有可能的位置。我们不关心随机扫视时产生的扫视路径，仅关注扫视端点，以便能检测每一个圆形观测区域的视点停留时间。在本发明中，第s次随机扫视图的扫视端点为(r_s,c_s)，其中r_s，c_s都归一化为[0,1]之间。

在随机扫视图像时，并不是以逐个像素的方式认知图像中的视觉内容，相反地，每一个扫视端点的圆形观测区域内的视觉刺激同时进入到视网膜。值得注意的是，圆形区域周边的视觉刺激同样会进入到视网膜的中枢单元，因此，我们设定观测者的辨别能力在扫视端点处达到最佳，并在外围区域逐步降低。在这里，我们定义在经过第s次随机扫视后在(r,c)处的辨别能力为：

D_{s} (r, s) = \exp (- \frac{{(r - r_{s})}^{2} + {(c - c_{s})}^{2}}{{δ_{s}}^{2}}),

其中，r，c的值也归一化为[0,1]，δ_s为[0.05,0.5]之间的随机值，(r_s,c_s)为第s次随机扫视图的扫视端点，第s次随机扫视后的扫视图为A_s＝{(r,c)|D_s(r,c)>0.01}。从以上定义我们可以看出，在经过第s次随机扫视后只有扫视端点周边的局部区域(r_s,c_s,δ_s)可以被观测到。随机扫视的圆形观测区域示意如图3所示。

对图像进行随机扫视，得到圆形观测区域之后，进一步地就需要计算视点锁定在该区域内的停留时间。受稀疏编码理论的启发，视点会一直停留在圆形区域内，直到该区域内的所有视觉刺激都通过视网膜进入了大脑。因此，在本发明中，我们认定视点的停留时间受两个因素制约，一是激活稀疏基元的代价，二是重构输入刺激信号的误差。一个区域如果承载着更高的激活稀疏基元的代价以及更大的重构信号误差，则该区域锁定人眼视点的时间也会更久一点。

在详细阐述这两个因素之前，首先要做的是计算稀疏基元构建的稀疏字典。为此，我们先从互联网上下载10000张彩色图像数据集，对该数据集采样出1百万个8x8大小的图像块，设为对其中任意一个图像块通过合并所有像素的LAB空间颜色值提取其稠密特征表示在这里，N＝192。其中x_B中的每一个向量的值都归一化为[0,1]之间。得到这1百万个图像块的稠密特征表示之后，现在需要求解图像块的稀疏表示和稀疏基元构建的稀疏字典，其公式如下：

其中，是一个过完备的字典，α_B为所有的图像块的稀疏表示，L为稀疏基元个数，由K(K＞＞N)个稀疏基元构建，这里设K为1000；是所有图像块的稀疏表示集合。由以上公式可知，在每一个稀疏表示中最多只有L个稀疏基元被激活的条件下，字典可通过最大化其信号重构能力而学习得到，在这里L设为5。上式中的最小化问题可通过成熟算法计算得到，稀疏字典生成过程示意如图4所示。

得到稀疏字典之后，我们先对测试图像进行预处理，划分为若干个8x8大小的非重复的图像块，用上述步骤计算得到稀疏字典D即可对这些图像块进行编码。对应测试图像I中的任一图像块B∈I，我们通过该图像块的稠密特征表示来计算其稀疏表示，其解由正交匹配算法求解得到，计算公式如下：

\begin{matrix} \min_{α_{B}} {| | x_{B} - D α_{B} | |}_{2}^{2} & s . t . {| | α_{B} | |}_{0} \leq L, \end{matrix}

其中，是一个过完备的字典，α_B为所有的图像块的稀疏表示，L为稀疏基元个数。

至此，我们得到图像块的稠密特征表示与其稀疏表示之后，现在来考虑视点在圆形观测区域内的停留时间的2个因素。在经过第s次随机扫视后，对于图像块B∈A_s，我们先来衡量其稀疏表示α_B中激活稀疏基元的代价。直观地，我们假定激活罕见稀少的稀疏基元比常见普通的稀疏基元的难度更大。计算图像块B的激活代价的公式如下：

k_{B} = Σ_{k = 1}^{K} \frac{| α_{B} (k) |}{Σ_{B_{0} &Element; I} | α_{B_{0}} (k) |},

其中，α_B(k)为其稀疏表示的第k个向量元素。在这种方式下，可以得知，如果所激活的稀疏基元在整张测试图像中是罕见的，则所付出的激活代价就更高。

除了稀疏基元激活成本，还有一个因素对锁定视点也有很大影响，那就是构建误差。一个图像块，如果具有更大的重构误差，则表明已有的先验知识对该图像块包含的丰富信息不能全部认知，这样就需要花费更多的注意力来分析该图像块。此外，圆形观测区域的信号重构误差可以不费力的被辨别，因为在人体的视网膜的中央凹处有最高的分辨率。在上述理论的支撑下，图像块B在第s次随机扫视后的稀疏信号重构误差的计算公式如下：

ξ_{B}^{s} = D_{s} (r_{B}, c_{B}) \cdot {| | x_{B} - D α_{B} | |}_{2},

其中(r_B,c_B)是图像块B的中心位置，D_s(r_B,c_B)为第s次随机扫视后图像块B中心位置的辨别能力。

至此，我们已经计算得到稀疏基元激活代价和稀疏重构误差，第s次随机扫视的视点停留时间则可计算如下：

T_{s} = φ [{(k_{B}, ξ_{B}^{s}) | B &Element; A_{s}}],

其中φ(·)是指示函数。实际上指示函数有多种形式，比如多项式型、指数型或者对数型。为了验证所提方法的可行性，我们将该指示函数φ(·)设为最简单的线性函数，表示形式如下式：

φ [{(k_{B}, ξ_{B}^{s}) | B &Element; A_{s}}] = \underset{B &Element; A_{s}}{Σ} k_{B} \cdot ξ_{B}^{s} .

给定S个随机扫视图，我们可以得到S个圆形观测区域，并且通过以上步骤计算，可以得到每一个圆形观测区域的视点停留时间。因为一个图像块可能出现在多个圆形观测区域内，该图像块的显著性应该综合它所属的所有区域来计算。在这里，我们设定图像块的显著性和每一个圆形观测区域内视点对其的影响成正比，则该图像块的显著性为：

Sal (B) = Σ_{s = 1}^{S} δ (B &Element; A_{s}) \cdot T_{s} \cdot k_{B} \cdot ξ_{B}^{s},

其中δ(e)是指示函数，当事件e成立时，δ(e)＝1，否则δ(e)＝0。在计算每一个图像块的显著性之后，进一步地，对得到的显著图进行归一化为[0,1]之间。

通过上式，可以计算得到每一个8x8的图像块的显著性。但是，仅仅依靠这些8x8大小的图像块并不能计算不同大小的显著对象，特别是尺寸较大的显著目标。而且，对一张包含很多个8x8大小图像块的图像进行稀释编码是非常消耗时间的。为了解决这个问题，本发明构建一个层级之间缩放因子为2的图像金字塔，示意如图5所示。在该金字塔中，最顶层为图像最大边小于512像素，最底层为图像最小边大于或者等于64像素。对金字塔每一层计算其显著性，并将显著图大小缩放到和最顶层图像大小一致。最后，不需要用高斯平滑、边界切除、中心偏置或者重加权等后处理的方式，对每一层缩放后的显著图直接求其平均，即可得到最终的图像显著图。

Claims

1.一种基于随机扫视图稀疏信号重构的图像关注区域检测方法，其特征在于该方法包括以下步骤：

步骤(2)对训练数据集进行预处理，得到大量图像块，提取其颜色稠密特征，求解稀疏基元构建的稀疏字典；

步骤(3)利用稀疏字典，对测试图像的图像块求解其稀疏表示，计算得到稀疏基元激活代价和稀疏信号重构误差，联合这两个影响因子，求解出每一次扫视时视点在圆形观测区域内的停留时间；

步骤(4)利用稀疏基元激活代价和稀疏信号重构误差以及求解出的视点停留时间，计算得到每一个图像块的显著度，综合所有图像块的影响，得到整张图的显著度；构建图像金字塔，得到最终的图像显著图。

2.根据权利要求1所述的基于随机扫视图稀疏信号重构的图像关注区域检测方法，其特征在于：步骤(1)对图像自由察看时，人眼会在图片的不同位置快速转移以至于能对输入的刺激信号重构出意象图；在此过程中，某些特定位置会锁定人眼视点更长的停留时间，因此该位置也会变得更加显著；因为在眼球运动时视觉处理过程是阻塞的，也即是所谓的扫视掩蔽，因此我们忽略在扫视过程中的扫视路径，只关注扫视端点；每一次扫视之后，在扫视端点处生成随机大小的圆形区域，用来决定哪一些视觉刺激能够进入到我们的视网膜；在随机扫视图像时，并不是以逐个像素的方式认知图像中的视觉内容，相反地，每一个扫视端点的圆形观测区域内的视觉刺激同时进入到视网膜；经过某次随机扫视之后，我们计算出某一位置的视觉辨别能力。

3.根据权利要求2所述的基于随机扫视图稀疏信号重构的图像关注区域检测方法，其特征在于：步骤(2)中颜色稠密特征是指先对彩色图像数据集采样出大量的图像块，并对每一个图像块在LAB颜色空间上提取出稠密特征，即将LAB空间上3个通道拉伸为1维列向量；得到所有图像块的稠密特征表示之后，给定每一个图像块的稀疏表示最多只有有限个稀疏基元被激活的条件下，稀疏字典能通过最大化其信号重构能力而学习得到。

4.根据权利要求3所述的基于随机扫视图稀疏信号重构的图像关注区域检测方法，其特征在于：步骤(3)中视点的停留时间受两个因素制约，一是激活稀疏基元的代价，二是重构输入刺激信号的误差；一个区域如果承载着更高的激活稀疏基元的代价以及更大的重构信号误差，则该区域锁定人眼视点的时间会更久一点；先对测试图像划分为若干个非重复的图像块，使用步骤(2)计算得到的稀疏字典，结合图像块的稠密特征表示，联合求解出这些图像块的稀疏表示；根据激活罕见稀少的稀疏基元比常见普通的稀疏基元的难度更大的机理，利用图像块的稀疏表示来求解激活稀疏基元的代价；此外，一个图像块如果具有更大的重构误差，则表明利用已有的先验知识对该图像块包含的丰富信息不能全部认知，这样就需要花费更多的视觉注意力来分析该图像块，联合步骤(1)中计算出的随机扫视后的视觉辨别能力，计算出随机扫视后的稀疏信号重构误差；最后采用线性函数组合激活稀疏基元代价和稀疏信号重构误差两大视点停留时间的影响因子，求解出随机扫视后视点在圆形观测区域内的停留时间。

5.根据权利要求1所述的基于随机扫视图稀疏信号重构的图像关注区域检测方法，其特征在于：步骤(4)中一个图像块可能出现在多个圆形观测区域内，且图像块的显著性和每一个圆形观测区域内视点对其的影响成正比，所有该图像块的显著性应该综合它所属的所有区域来计算；构建出图像金字塔，对每一层图像求解其显著图，最后将所有显著图缩放到同一尺度直接求平均，得到最终的图像显著度。