CN101103378A

CN101103378A - 用于创建图像的显著图的设备和方法

Info

Publication number: CN101103378A
Application number: CNA2006800018969A
Authority: CN
Inventors: 奥利弗·勒默尔; 多米尼克·托罗; 菲利普·萨蒙; 多米尼克·巴尔巴; 帕特里克·勒卡莱
Original assignee: Thomson Licensing SAS
Current assignee: InterDigital VC Holdings Inc
Priority date: 2005-01-10
Filing date: 2006-01-10
Publication date: 2008-01-09
Anticipated expiration: 2026-01-10
Also published as: JP4705959B2; US20080304708A1; JP2008527522A; CN101103378B; WO2006072637A1; BRPI0606522A2; US8416992B2; EP1836682B1; BRPI0606522B1; EP1836682A1

Abstract

本发明涉及一种用于创建图像的显著图的方法。所述方法包括把图像分级分解为频率子波段的步骤。根据本发明，所述方法包括步骤：根据分解为频率子波段，计算当前图像(I(t))与在前图像(I(t-nT))之间的移动估计，估计图像的支配移动，并估计当前图像的每一个像素的局部移动；从全局和局部移动估计中获得时间显著图的创建。

Description

用于创建图像的显著图的设备和方法

技术领域

本发明涉及一种用于创建图像的时间显著图的设备和方法。

背景技术

人类信息处理系统本质上是一种受限系统，尤其对于视觉系统来说。尽管受到认知资源的限制，这个系统必须面对包含于视觉环境中的大量信息。然而荒谬的是，人类似乎成功解决了这个问题，这是因为人们能够理解自有的视觉环境。

通常假定某些视觉特征对于视觉系统是基本的，因而它们不需要感知引起注意的资源。这些视觉特征被称作前注意(pre-attentive)特征。

根据这个视觉研究原则，人类的注意行为在前注意和注意处理之间共享。如上所述，被称作自下而上(bottom-up)处理的前注意处理与无意(involuntary)注意有关。人们的注意力很容易被吸引至视野中的显著部分。当考虑被称作自上而下(top-down)处理的注意处理时，被证实的是人们的注意力与人们头脑中的具体任务有关。因此，这个第二形式的注意力是更精密且有力的，因为这个形式的注意力需要付出努力以便使人们向特定方向凝视。

检测图像中的显著点能够改进其它步骤，例如编码或图像索引、加水印、视频质量估计。

公知的方法或多或少基于非心理视觉特征。与这些方法相反，所提出的方法依赖于如下事实：该模型完全基于人类视觉系统(HVS)，例如早期视觉特征的计算。

发明内容

在第一方面，本发明提出了一种用于创建图像的显著图的方法，包括把图像分级分解为频率子波段的步骤。

根据本发明，所述方法包括步骤：

-根据分解为频率子波段，计算当前图像与在前图像之间的移动估计，估计图像的支配移动，并估计当前图像的每一个像素的局部移动，

-从全局和局部移动估计中获得时间显著图的创建。

根据优选实施例，对于频率子波段分解步骤进一步来说，所述方法包括步骤：基于方向的分解，给出了感知(perceptual)子波段分解。

根据优选实施例，所述方法包括步骤：对不同的感知子波段进行内掩蔽(intra masking)。

根据优选实施例，所述方法包括如下步骤：

-构造四级金字塔，

-针对该金字塔的每一个分辨率级，计算每一个像素的局部运动矢量。

根据优选实施例，所述方法包括步骤：通过使用从所获金字塔的全部分辨率级中获得的局部运动矢量，获取图像中每一个像素的图像支配移动的参数模型。

根据优选实施例，所述方法包括步骤：获取图像中每一个像素的相对运动矢量，该矢量为所述像素图像的局部运动估计与支配移动之间的差。

根据优选实施例，所述方法包括步骤：利用眼睛的最大跟踪速度对相对运动矢量进行加权。

根据优选实施例，所述方法包括步骤：计算图像的相对运动矢量的直方图，以获得归一化的时间显著图。

根据优选实施例，本发明包括步骤：计算所述图像的空间显著图；以及所述归一化时间显著图和所述空间显著图的融合。

附图说明

借助于附图对本发明的非限制性实施例进行描述，从而本发明的其它特征和优点将会变得明显，其中：

-图1表示用于把空间显著图构造应用于黑白图像的方法的优选实施例的概括流程图，

-图2表示用于把空间显著图构造应用于彩色图像的方法的优选实施例的概括流程图，

-图3表示无色分量的心理学视觉空间频率划分，

-图4表示色度分量的心理学视觉空间频率划分，

-图5表示Dally对比度灵敏度函数，

-图6a和6b分别示出了视觉掩蔽和掩蔽的非线性模型，

-图7表示根据优选实施例的归一化步骤的流程图，

-图8表示抑制/激励步骤，

-图9表示针对θ＝0的用于模型促进交互的滤波器的曲线图(profile)，

-图10表示算子D(z)的演示，

-图11表示色度增强步骤，

-图12表示由于CRF侧面的相邻区域而引起的非CRF展示，

-图13表示针对特定取向和径向频率的归一化加权函数的曲线图示例，

-图14表示时间显著图构造方法的实施例的概括流程图，

-图15表示根据空间和时间活动性而构造显著图的方法的实施例的概括流程图。

-图16表示系数α根据空间-时间活动性FD的变化。

具体实施方式

图1表示把根据本发明的方法用于黑白图像的优选实施例的概括流程图。

该算法被分为三个主要部分。

第一部分被称作可见度，基于人类视觉系统(HVS)具有有限灵敏度的事实。例如，HVS不能以良好的精确度感知真实环境中的所有信号，而且不能感知小的刺激。第一步骤的目标必须通过使用感知分解、对比度灵敏度函数(CSF)和掩蔽函数而考虑这些固有的限制。

第二部分专门用于感知概念。感知是从外部世界的图像中产生对于观察者有用且不与非相关信息混杂的描述的处理。为了选择相关信息，根据生物证据，尤其使用中心周围机制(center surroundmechanism)。

最后的步骤涉及感知分组领域的一些方面。感知分组是指不需要图像内容的任何知识、从低级原始图像特征中提取显著图像关系并将它们分组以获得有意义的高级结构的人类视觉能力。所提出的方法仅关注于轮廓积分和边缘连接。

对频域的信号执行步骤E3、E4。

在空间域进行步骤E1、E6和E9。

在频域或空间域进行步骤E7和E8。如果在频域进行，则在步骤E7之前必须进行傅立叶变换，且在步骤E9之前必须进行傅立叶逆变换。

在步骤E1中，从考虑的图像中提取亮度分量。

在步骤E2中，通过使用例如傅立叶变换的已知变换，将亮度分量转换到频域，以便能够在步骤E3中对图像应用感知子波段分解。

在步骤E3中，对亮度分量应用感知分解。该分解是受皮层转换的启发，并且基于在文献“The computation of visual bandwidths andtheir impact in image decomposition and coding”，InternationalConference and Signal Processing Applications and Technology，Santa-Clara，California，pp.776-770，1993中提出的分解。根据人眼的可见度阈值来进行该分解。

根据不同心理物理学实验，通过在空间径向频率和取向(orientation)中分割频域而获得分解。如图3所示，分量A的感知分解产生了分布在4个轮周(crown)的17个心理视觉子波段。

图3上的阴影区域表示属于第三轮周且具有从15至45度的30度角度选择性的子波段的谱支持(spectral support)。

从I至IV标记空间频率的4个域(轮周)：

I：从每度0至1.5周的空间频率；

II：从每度1.5至5.7周的空间频率；

III：从每度5.7至14.2周的空间频率；

IV：从每度14.2至28.2周的空间频率。

角度选择性取决于所考虑的频域。对于较低频率，不存在角度选择性。

这些分解的主要性质以及与皮层转换的主要差别是随径向频率而增加的非并矢(non-dyadic)径向选择性和取向选择性。

可以将产生的每一个子波段看作是与调谐到空间频率范围和特定取向的视觉细胞群相对应的神经系统图像。实际上，这些细胞属于初级视皮层(对于可视区域1，也被称为纹状皮质或V1)。它由总共大约200百万神经元组成，且从横向膝状细胞核(lateral geniculatenucleus)接收输入。大约80％细胞对于视觉刺激的取向和空间频率具有选择性。

在图像空间谱上，应用已知为对比度灵敏度函数(CSF)的HVS公知属性。应用的CSF是一种主要取决于空间频率、取向和观看距离的多元函数。

生物证据表明，视觉细胞对大于特定对比度的刺激做出响应。视觉细胞所响应的对比度值被称为可见度阈值(大于该阈值，刺激是可见的)。该阈值随着多个参数而变化，例如刺激的空间频率、刺激的取向、观看距离、...。该变化将产生以多元函数来表示人眼的灵敏度(该灵敏度等于对比度阈值的倒数)的CSF概念。因此，CSF可以估计人眼对于给定刺激的灵敏度。

在步骤E4中，应用由Dally设计的2D各向异性CSF。在文献“thevisible different predictor：an algorithm for the assessmentof image fidelity”，in proceedings of SPIE Human vision，visualprocessing and digital display III，volume 1666，pages 2-15，1992中描述了这种CSF。

CSF使得能够建立人眼的重要属性的模型，因此HVS细胞对于空间频率非常灵敏。

在图5中，示出了Dally CSF。

一旦应用了Dally函数，在步骤E5中，对信号应用傅立叶逆变换，以便能够应用下一步骤E6。

对于自然画面，可以由另一个刺激的存在来调整灵敏度(增加或减少可见度阈值)。这种人眼的灵敏度调整被称为视觉掩蔽，如在步骤E6中所做的。

在图6a和6b上示出了掩蔽效果的演示。考虑两个因素：目标和掩蔽体(masker)，其中C_T和C_M分别是存在掩蔽体时目标的对比度阈值和掩蔽体的对比度。此外，C_T0是由CSF所测量的对比度阈值(没有掩蔽效应)。

在图6a上，当C_M变化时，可以定义三个区域：

●在C_M的较小值处，检测阈值保持恒定。目标的可见度未由掩蔽体修改。

●当C_M趋向于C_T0时，掩蔽体通过降低可见度阈值，使目标的检测容易。该现象被称为辅助(facilitative)或吸收时延(pedestal)效应。

●当C_M增加时，目标由掩蔽体掩蔽。其对比度阈值增加。

在图6b上，对促进区域进行抑制。

视觉掩蔽方法基于按照正弦图样的简单信号的检测。

存在多种其它方法来实现基于心理物理学实验的视觉掩蔽建模：例如，一种最佳方法是指量化噪声的检测。

显而易见的是，优选方法是关于自然画面的固有复杂性的极大简化。然而，与复杂性相比，关于具有有趣结果的这种原则建立多种应用(加水印、视频质量估计)。

在子波段分解的上下文中，彻底地研究掩蔽以定义三种掩蔽：通道内掩蔽、通道间掩蔽和分量间掩蔽。

通道内掩蔽出现在具有相同特征(频率和取向)并因此属于同一通道的信号之间。这是最重要的掩蔽效应。

通道间掩蔽出现在属于同一分量的不同通道的信号之间。

分量间掩蔽出现在不同分量的通道间(例如，分量A和一个色度分量)。下文中，这后两个视觉掩蔽组成整体并被成为间掩蔽。

对于无色分量，使用在题为“A visual model for Optimizing theDesign of Image Processing Algorithms”，in IEEE internationalconferences on image processing，pages 16-20，1994的文献中由Dally设计的掩蔽函数，尽管该模型没有考虑吸收时延效应。该模型的有效性在于利用大量实验结果优化了该模型的事实。

可见度阈值的变化由下式给出：

T_{i, j, A}^{intra} (m, n) = {(1 + {(k_{1} {(k_{2} | R_{i, j} (m, n) |)}^{s})}^{b})}^{Ib}

其中，R_i，j是来源于感知通道分解的心理视觉通道(例如在图3上的阴影区域产生通道R_III，2)。值k₁、k₂、s、b由下式给出：

k1＝0.0153

k2＝392.5

下面给出根据所考虑子波段的s和b值。

子波段	s	b
子波段	s	b	I	0.75	4
II	1	4	I	0.75	4
II	1	4	III	0.85	4
IV	0.85	4	III	0.85	4

在掩蔽步骤的输出获得信号R¹ _i，j(x，y)。

R_{i, j}^{1} (x, y) = R_{i, j} (x, y) / T_{i, j} (x, y)

然后，在步骤E7中，归一化步骤能够从子波段中提取最重要信息。在图7上详细示出了步骤E7。

参考图7，在步骤S1中，选择第一子波段R¹ _i，j(x，y)。对于17个子波段中每一个子波段R¹ _i，j(x，y)，继续执行步骤S2至S4。

对于第二轮周(II)执行步骤S5至S7。

i表示空间径向频率波段，i属于{I，II，III，IV}。

j表示取向，j属于{1，2，3，4，5，6}。

(x，y)表示空间坐标。

在其它实施例中，可以对所有子波段执行不同的步骤。

步骤S2和S3旨在对经典感受域(CRF)的行为进行建模。

CRF的概念允许在场景的眼膜图像和全局感知之间建立连接。CRF被定义为在其中适当刺激(具有优选取向和频率)会引起来源于视觉细胞的相关响应的视野的特定区域。因此，通过定义，外部区域(称为周围)中的刺激不能够直接激活细胞。

由对于取向和频率灵敏的Gabor滤波器实现步骤S2和S3中的抑制和激励。

Gabor滤波器可以由下式表示：

gabor (x, y, σ_{x}, σ_{y}, f, θ) = G_{σ_{x}, σ_{y}} (x_{θ}, y_{θ}) \cos (2 πf x_{θ})

f是每度周(cy/°)单位的余弦调制的空间频率。

由原始坐标(x₀，y₀)的平移和θ的旋转获得(x_θ，y_θ)，

[\begin{matrix} x_{θ} \\ y_{θ} \end{matrix}] = [\begin{matrix} \cos θ & \sin θ \\ - \sin θ & \cos θ \end{matrix}] [\begin{matrix} x - x_{0} \\ y - y_{0} \end{matrix}]

G_{σ_{x}, σ_{y}} (x, y) = Aexp {- {(\frac{x}{\sqrt{2} σ_{x}})}^{2} - {(\frac{y}{\sqrt{2} σ_{y}})}^{2}}

A表示幅度，

σ_x和σ_y分别表示沿x和y轴的高斯包络的宽度。

excitation (x, y, σ_{x}, σ_{y}, f, θ) = \{\begin{matrix} gabor (x, y, σ_{x}, σ_{y}, f, θ) if - 1 / (4 f) \leq x_{θ} \leq 1 / (4 f) \\ 0 otherwise \end{matrix}

为了获得椭圆形，取不同的方差σ_x＜σ_y。

最后，获得步骤E2的输出：

R_{i, j}^{EX} (x, y) = R_{i, y}^{1} (x, y) * excitation (x, y, σ_{x}, σ_{y}, f, θ)

在步骤S3中，由下式计算抑制：

inhibition (x, y, σ_{x}, σ_{y}, f, θ) = \{\begin{matrix} 0 si - 1 / (4 f) \leq x_{θ} \leq 1 / (4 f) \\ | gabor (x, y, σ_{x}, σ_{y}, f, θ) | \sin on . \end{matrix}

且最后，

R_{i, j}^{INH} (x), y = R_{i, j}^{1} (x, y) * inhibition (x, y, σ_{x}, σ_{y}, f, θ)

在步骤S4中，获得了激励和抑制之间的差。保持正分量，将负分量设置为“0”。这是以下操作，

R_{i, j}^{2} (x, y) = | R_{i, j}^{Exc} (x, y) - R_{i, j}^{Inh} (x, y) |_{> 0}

在步骤S5中，对于第二域的每一个取向、每一个子波段，计算两个卷积乘积：

L_{i, j}^{0} (x, y) = R_{i, j}^{2} (x, y) * B_{i, j}^{0} (x, y)

L_{i, j}^{1} (x, y) = R_{i, j}^{2} (x, y) * B_{i, j}^{1} (x, y)

B⁰ _i，j(x，y)和B¹ _i，j(x，y)是2个半蝶式滤波器。这些滤波器的曲线图可以对图9上给出的θ＝0的辅助相互作用进行建模。通过使用双极性/蝶式滤波器来定义这些滤波器。

它包括方向项D_θ(x，y)和由高斯滤波器使圆C_r模糊(blur)所产生的近似项G_σx，σy(x，y)。圆的半径包括两个视觉度；视觉度包括多个像素，所述数目取决于显示分辨率和观看距离。

B_{θ_{i, j}, α, r, σ} (x, y) = D_{θ_{i, j}} (x, y) \cdot C_{r} * G_{σ_{x}, σ_{y}} (x, y)

其中

且＝arctan(y’/x’)

其中(x’，y’)^T是旋转了θ_i，j的矢量(x，y)^T。参数α定义了双极性滤波器的孔径角2α。其取决于所考虑的子波段的角度选择性γ。取α＝0.4×γ。双极性滤波器的大小大约是视觉细胞的CRF的大小的两倍。

在步骤S6中，计算辅助(facilitative)系数：

f_{i, j}^{iso} (x, y) = D (\frac{L_{i, j}^{1} (x, y) + L_{i, j}^{0} (x, y)}{| L_{i, j}^{1} (x, y) - L_{i, j}^{0} (x, y) |})

D (z) = \{\begin{matrix} 0, z \leq s_{1}, \\ α_{1}, z \leq s_{2}, \\ . . . \\ α_{N - 1}, z \leq s_{N - 1} \end{matrix}

其中α_i≤1，i∈[0...N-1]

在图9上给出了算子D(z)的演示。

为了使辅助系数的应用简易，算子D(z)利用图9所示的分片(piece)确保辅助系数为常数。

在步骤S7中，将辅助系数应用于在步骤S4中获得的归一化结果。

R_{i, j}^{3} (x, y) = R_{i, j}^{2} (x, y) \times (1 + f_{i, j}^{iso} (x, y))

在图7中的步骤S7后，回到图1中的步骤E8，根据下式组合对于域II所获得的四个显著图，以获得整个显著图：

fixation (x, y) = α \times R_{II, 0}^{3} (x, y) + β \times R_{II, 1}^{3} (x, y) + χ \times R_{II, 2}^{3} (x, y) + δ \times R_{II, 3}^{3} (x, y)

α，β，χ，δ表示取决于应用(加水印、编码…)的加权系数。

在其它实施例中，可以通过使用全部17个子波段而不仅仅是域II的子波段的计算，获得显著图。

图2表示根据应用于彩色图的本发明方法的优选实施例的概括流程图。

在空间域执行步骤T1、T4、T’4、T”4、T5和T8。

在频域执行步骤T2、T’2、T”2、T3、T’3、T”3。

在步骤T1和步骤T2、T’2、T”2之间对三个分量应用傅立叶变换。

分别在T3、T’3、T”3以及T4、T’4和T”4之间应用傅立叶逆变换。

可以在频域或空间域执行步骤T6和T7。如果在频域执行，在步骤T5和T6之间对信号进行傅立叶变换，并在步骤T7和T8之间进行傅立叶逆变换。

步骤T1是将RGB亮度变换到由基本方向(cardinal direction)A、Cr1和Cr2组成的Krauskoft对抗色彩(opponent-color)空间。

到对抗色彩空间的变换是一种使色彩信息解相关的方式。实际上，大脑使用3中不同路径对信息进行编码：第一路径传递亮度信号(A)，第二路径传递红色和绿色分量(Cr1)，而第三路径传递蓝色和黄色分量(Cr2)。

这些基本方向与来源于三种人眼椎体(L，M，S)的信号精密地一致。

三个分量RGB的每一个首先经过γ≈2.4的形式x^γ的幂律非线性(称为伽马定律)。为了考虑显示系统的转移函数，该步骤是必须的。然后，按照下式计算形成变换到HVS色彩空间的基础的CIE(“commissioninternationale del’éclairage”的法语首字母简略词)XYZ三色刺激值：

(\begin{matrix} X \\ Y \\ Z \end{matrix}) = (\begin{matrix} 0.412 & 0.358 & 0.18 \\ 0.213 & 0.715 & 0.072 \\ 0.019 & 0.119 & 0.95 \end{matrix}) (\begin{matrix} R \\ G \\ B \end{matrix})

(L，M，S)椎体的响应计算如下：

(\begin{matrix} L \\ M \\ S \end{matrix}) = (\begin{matrix} 0.240 & 0.854 & - 0.0448 \\ - 0.389 & 1.160 & 0.085 \\ - 0.001 & 0.002 & 0.573 \end{matrix}) (\begin{matrix} X \\ Y \\ Z \end{matrix})

从LMS空间，必须获得对抗色彩空间。存在多种对抗色彩空间，其不同在于不同椎体细胞响应的组合方式不同。从实验中，证实了由Krauskopf设计的色彩空间且它由下面的变换给出：

(\begin{matrix} A \\ Cr 1 \\ Cr 2 \end{matrix}) = (\begin{matrix} 1 & 1 & 0 \\ 1 & - 1 & 0 \\ - 0.5 & - 0.5 & 1 \end{matrix}) (\begin{matrix} L \\ M \\ S \end{matrix})

然后，在步骤T2中，对亮度分量应用感知分解。在步骤T2之前且在步骤T1之后，通过使用例如傅立叶变换的已知变换，将亮度分量变换到频域，以便能够在步骤T2中对图像应用感知子波段分解。

如以上所述，步骤T2的感知子波段分解与图1中的步骤T3相同，因此在这里不做描述。

关于图4上所示的步骤T’2和T”2的色度分量Cr2和Cr1的分解，该分解对于分布在2个轮周上的这些分量的每一个产生5个视觉心理子波段。在步骤T’2和T”2之后且在步骤T1之后，通过使用例如傅立叶变换的已知变换，将色度分量变换到频域，以便能够在步骤T’2和T”2中对图像应用感知子波段分解。

从I至II标记空间频率的两个域：

I：从每度0至1.5周的空间频率；

II：从每度1.5至5.7周的空间频率。

在步骤T3、T’3、T”3中，应用对比度灵敏度函数(CSF)。

在步骤T3中，对亮度分量执行与图1中的步骤E4相同的对比度灵敏度，因此在这里不做描述。

在步骤T’3和T”3中，对两个色度分量Cr1和Cr2应用相同的CSF。对两个色度分量，应用由Le Callet设计的二维各向异性CSF。在Mr LeCallet，university of Nantes，2001的文献《critères objectifsavec références de qualitévisuelle des images couleurs》中描述了该CSF。

该CSF使用两个低通滤波器，其中对于Cr1和Cr2分量的截止频率分别为大约每度5.5周和每度4.1周。

为了允许在来源于不同视觉形态(无色和色度分量)的早期视觉属性之间进行直接比较，对与可见度相关的子波段进行加权。可见度阈值被定义为在刺激刚好变为可见的特定点处的刺激的对比度。

然后，对不同分量应用傅立叶逆变换(图2上未示出)，以便能够在空间域中应用掩蔽。

然后，在步骤T’4和T”4期间对色度分量Ce1和Cr2的不同子波段应用内掩蔽，且在步骤T4中对无色分量应用内掩蔽。在图1的步骤E6的说明中已经解释了后一步骤。因此，这里不再进行说明。

采用内通道掩蔽，作为CSF函数的输出的加权。掩蔽在感知中是一种非常重要的现象，因为它描述了刺激之间的相互作用。实际上，另一个刺激的存在可以影响刺激的可见度阈值。

掩蔽在位于同一感知通道或位于同一子波段的刺激之间最强。对无色分量应用Dally设计的内掩蔽函数，如图1中的步骤E6所述，而且对色彩分量应用在P.Le Callet和D.Barba，“Frequency and spatialpooling of visual differences for still image qualityassessment”，in Proc. SPIE Human Vision and Electronic ImagingConference，San Jose，CA，Vol.3959，January 2000的文献中所述的内掩蔽函数。

这些掩蔽函数由如在Legge和Foley的文献“Contrast Masking inHuman Vision”，Journal of the Optical Society of America，Vol.70，，N°12，pp.1458-1471，December 1980中所述的非线性换能器组成。

视觉掩蔽在位于同一感知通道中的刺激之间最强(内通道掩蔽)。然而，如各种研究所表明，存在提供掩蔽或吸收时延效应的所谓间分量掩蔽的多种相互作用。从心理物理学实验中，选择涉及色度分量的显著的间分量相互作用。因此，可以使无色分量的灵敏度增加或减少Cr1分量。Cr2对无色分量的影响被认为不明显。最后，Cr1还可以调整Cr2分量的灵敏度(反之亦然)。

然后，在步骤T5中，进行色度加强。

色彩是注意力的最强吸引物之一，并且本发明希望通过提出下面的属性来利用该吸引物的有效性：存在表现出鲜明色彩并完全在具有完全不同色彩的区域周围的区域，暗示了对该区域的边界的特定吸引。

为了避免来源于无色和色度分量的聚集测量的困难问题，色彩辅助是通过使用在色度分量的低频上计算的辅助系数来增强无色结构的显著性。

在优选实施例中，仅加强无色通道集的子集。该子集包括具有角度选择性等于π/4和空间径向频率(表示为cyc/deg)属于[1.5，5.7]的4个通道。注意，这些通道R_i，j中，i表示空间径向频率，且j与取向相关。在示例中，j等于{0，π/4，π/2，3π/4}。为了计算辅助系数，针对Cr1和Cr2的低频的每一个像素确定与相邻区域的内容以及加强的无色通道的当前取向相关联的对比度值，如图11所示。在图11上，通过计算集A的平均值和集B的平均值之间的绝对差来获得对比度值。集A和B属于Cr1或Cr2的低频，且朝向所考虑的无色通道的优选取向。

对于无色(亮度)通道R_i，j(x，y)，通过下式实现无色加强。

R_i，j′(x，y)＝R_i，j(x，y)×(1+|A-B|_Cr1+|A-B|_Cr2)|_t＝II

其中，

R_i，j′(x，y)表示加强的无色子集，

R_i，j(x，y)表示无色子波段，

|A-B|_k表示关于色度分量k，沿子波段R_i，j(x，y)的优选取向的当前点所计算的对比度值，如图7所示。在实施例中，集A和B属于取向等于π/4的色度分量k的第一轮周(低频子波段)的子波段。

在其它实施例中，考虑所有的子波段。

在步骤T6中，继续中心/周围抑制相互作用。

该操作首先包括抑制/激励步骤。

使用二维高斯函数差(DoG)来建模细胞的非CRF抑制行为。由下式给出DoG_{σxex，σyex，σxinh，yinh}(x，y)：

{DoG}_{σ_{x}^{ex}, σ_{y}^{ex}, σ_{x}^{inh}, σ_{y}^{inh}} (x, y) = G_{σ_{x}^{inh}, σ_{y}^{inh}} (x, y) - G_{σ_{x}^{ex}, σ_{y}^{ex}} (x, y)

其中，

G_{σ_{x}, σ_{y}} (x, y) = \frac{1}{2 π {(σ_{x} σ_{y})}^{2}} \exp (- \frac{x^{2}}{2 σ_{x}^{2}} - \frac{y^{2}}{{2 σ}_{y}^{2}}),

二维高斯函数。

参数(σ_x ^ex，σ_y ^ex)和(σ_x ^inh，σ_y ^inh)分别与沿中心高斯(CRF中心)的x和y的高斯包络和抑制高斯(周围)的空间延伸相对应。根据第二轮周的径向频率(以周/度表示径向频率f∈[1.5，5.7])实验地确定了这些参数。最后，可以通过由下式给出的归一化加权函数w_{σxex，σyex，σxinh，yinh}(x，y)来建模非经典周围抑制：

w_{σ_{x}^{ex}, σ_{y}^{ex}, σ_{x}^{inh}, σ_{y}^{inh}} (x, y) = \frac{1}{{| | H (Do G_{σ_{x}^{ex}, σ_{y}^{ex}, σ_{x}^{inh}, σ_{y}^{inh}}) | |}_{1}} H (Do G_{σ_{x}^{ex}, σ_{y}^{ex}, σ_{x}^{inh}, σ_{y}^{inh}} (x^{'}, y^{'}))

其中，

H (z) = \{\begin{matrix} 0, & z < 0 \\ z, & z &GreaterEqual; 0 \end{matrix}

通过使原始坐标系平移(x₀，y₀)且旋转以弧度表示的θ_i，j，获得(x’，y’)，

[\begin{matrix} x^{'} \\ y^{'} \end{matrix}] = [\begin{matrix} \cos θ_{i, j} & \sin θ_{i, j} \\ - \sin θ_{i, j} & \cos θ_{i, j} \end{matrix}] [\begin{matrix} x - x_{0} \\ y - y_{0} \end{matrix}],

‖·‖₁表示L₁范数，即绝对值。

图12示出了非CRF抑制的结构。

图13示出了归一化加权函数w_{σxex，σyex，σxinh，yinh}(x，y)的曲线图示例。

由子波段R_i，j ⁽¹⁾(x，y)与加权函数w_{σxex，σyex，σxinh，yinh}(x，y)的卷积来计算皮层细胞对特定子波段R_i，j ⁽¹⁾(x，y)的响应R_i，j ⁽²⁾(x，y)：

R_{i, j}^{(2)} (x, y) = H (R_{i, j}^{(1)} (x, y) - R_{i, j}^{(1)} (x, y) * w_{σ_{x}^{ex}, σ_{y}^{ex}, σ_{x}^{inh}, σ_{y}^{inh}} (x, y)) |_{i = Π}

其中，H(z)按照上面所述来定义。

在步骤T7中，继续辅助相互作用。

该辅助相互作用通常被称为轮廓增强或轮廓积分。

辅助相互作用出现在CRF之外，沿优选取向轴。当周围刺激具有相同取向且共同对准时，这种相互作用最大。换句话说，如多个心理物理观察所表明，当CRF中的刺激和周围中的刺激连接以形成轮廓时，细胞的活动被增强。

使用两个半蝶式滤波器B⁰ _i，j和B¹ _i，j来模拟早期视觉预处理中的轮廓积分。在图9上示出了这些滤波器的曲线图，并且通过使用双极性/蝶式滤波器来定义这些滤波器。它由方向项D_θ(x，y)以及由高斯滤波器G_σx，σy(x，y)使圆C_r模糊所产生的近似项组成。

B_{θ_{i, j}, α, r, σ} (x, y) = D_{θ_{i, j}} (x, y) \cdot C_{r} * G_{σ_{x}, σ_{y}} (x, y)

其中

且＝arctan(y′/x′)

其中，(x′，y′)^T是旋转了θ_i，j的矢量(x，y)^T。参数α定义了双极性滤波器的孔径角2α。其取决于所考虑的子波段的角度选择性γ。取α＝0.4×γ。双极性滤波器的大小大约是视觉细胞的CRF的大小的两倍。

其后，使用适当的窗从蝶式滤波器中推导出半蝶式滤波器B⁰ _i，j和B¹ _i，j。

对于每一个取向、子波段和位置，计算辅助系数：

f_{i, j}^{iso} (x, y) = D (\frac{L_{i, j}^{1} (x, y) + L_{i, j}^{0} (x, y)}{| L_{i, j}^{1} (x, y) - L_{i, j}^{0} (x, y) |})

D (z) = \{\begin{matrix} 0, z {\leq s}_{1} \\ α_{1}, z \leq s_{2} \\ . . . \\ α_{N - 1}, z \leq s_{N - 1} \end{matrix}

其中

在图9上给出了算子D(z)的演示。

通过利用辅助系数f_i，j ^iso(x，y)的局部极大值与基于空间频率的同一范围的所有子波段上计算的辅助系数的全局极大值的比率的因子对子波段R_i，j ⁽²⁾进行加权，最终获得从辅助相互作用中产生的子波段R_i，j ⁽³⁾：

R_{i, j}^{(3)} (x, y) = R_{i, j}^{(2)} (x, y) \times (1 + η^{iso} \times \frac{\max_{(x, y)} (f_{i, j}^{iso} (x, y))}{\max_{j} (\max_{(x, y)} (f_{i, j}^{iso} (x, y)))} f_{i, j}^{iso} (x, y)) |_{i = Π}

从标准蝶形中，该辅助因子可以增进孤立直线的显著。η^iso可以控制该辅助相互作用的有效性。

在步骤E8中，通过对在步骤E7中获得的所有结果子波段进行求和，获得显著图。

S (x, y) = \underset{i = II, j}{Σ} R_{i, j}^{(3)} (x, y)

在本发明的其它实施例中，可以使用所有子波段而不仅是第二轮周的子波段。

尽管调整到水平和垂直取向的皮层细胞几乎与调整到其它取向的细胞一样多，并不引入任何加权。HVS的这种特征由2D各向异性CSF的应用隐式地模拟。

图14示出了时间显著图构造方法的实施例的概括流程图的优选实施例。

该方法包括确定显示移动对比度的图像区域。如果

-某个区域是移动背景上的固定项，或

-某个区域是静态背景上的移动对象，

那么该区域被看作显示了移动对比度的区域。

显示移动对比度的区域是吸引人眼注意的区域。

在步骤a1中，对视频序列图像执行感知子波段分解。这个步骤与图1中的步骤E3相对应。在获得子波段后，如图5所示对这些子波段进行内掩蔽，步骤T4、T’4、T”4。子波段被称作

当获得不同的感知子波段时，在步骤a2中构造四级金字塔。每一个级被称作L_i。

L_{0} (x, y) = {\tilde{R}}_{0,0} (x, y)

L_{1} (x, y) = L_{0} (x, y) + Σ_{i = 0}^{3} {\tilde{R}}_{1, i} (x, y)

L_{2} (x, y) = L_{1} (x, y) + Σ_{i = 0}^{5} {\tilde{R}}_{2, i} (x, y)

L_{3} (x, y) = L_{2} (x, y) + Σ_{i = 0}^{5} {\tilde{R}}_{3, i} (x, y)

L₀表示感知子波段分解的低级频率，

L₁表示L₀与图3中第二轮周的4个子波段之和，

L₂表示L₁与图3中第三轮周的6个子波段之和，

L₃表示L₂与图3中第四轮周的6个子波段之和。

在步骤a3中，根据不同的等级L_i对当前图像执行局部分级移动估计。

移动估计量是像素递归型移动估计量。在当前图像I(t)和在前图像I(t-nT)之间执行移动估计。

图像L3表示全分辨率。图像L2表示在两个维度上以因子2进行子采样的图像。图像L1是在两个维度上以因子4进行子采样的图像，最后，图像L0是在两个维度上以因子16进行子采样的图像。与经典移动估计量相比，所获得的金字塔不是并矢金字塔。因此，必须根据缩放因子来修改分级预测值。

在步骤a4中，使用L3图像发出的移动矢量而获得支配移动的参数模型。使用文献“Robust multi resolution estimation of parametricmotion models applied to complex scenes”，internal publication788 publi shed by IRISA in 1994中描述的Odobez和Bouthemy算法，并在这里对该算法进行描述。这个文献被包括在这个专利申请的内容中。

一个重要的步骤是，对由2维仿射模型表示的支配全局移动进行估计。这个估计是从先前估计的速度矢量

{\overset{&RightArrow;}{v}}_{local} (s) = {(dx, dy)}^{T}

而确定的，

其中s是图像中的像素。

来自由Θ参数表示的仿射移动的像素s的速度矢量由下式给出：

{\overset{&RightArrow;}{v}}_{Θ} (s) {= (a_{0} + a_{1} x + a_{2} y, b_{0} + b_{1} x + b_{2} y)}^{T}

其中Θ＝[a₀，a₁，a₂，b₀，b₁，b₂]

该估计算法基于本领域的技术人员所公知的M-估计量，M-估计量使残余误差的和最小。

\hat{Θ} = \underset{Θ}{\arg \min} \underset{s}{Σ} ρ (ERR (s, Θ))

对像素s的残余误差的估计由下式给出

ERR (s, Θ) = {\overset{&RightArrow;}{v}}_{local} (s) - {\overset{&RightArrow;}{v}}_{Θ} (s)

函数ρ0是German-McClure函数。鲁棒性估计量使得对视频序列的次要移动不敏感。

为了获得Θ，执行如下步骤：

-步骤1：使用最小平方方法进行估计：所估计的参数用于第二步骤的初始化，

-步骤2：为每一个像素计算加权：

w (s) = \frac{ψ (ERR (s, Θ))}{ERR (s, Θ)},

-步骤3：使用由参数w(s)加权后的最小平方进行估计：

\hat{Θ} = \underset{Θ}{\arg \min} \underset{s}{Σ} w (s) \times {(ERR (s, Θ))}^{2}

-步骤4：返回步骤2，直到Θ收敛。感应函数是ρ0的导数，等于

ψ (e) = \frac{e}{{(1 + e^{2})}^{2}},

其中e表示残余估计误差。

回到图14，在步骤a5，按照如下方式确定时间显著区域：根据每一个像素s的明显支配速度

和局部速度

的知识，可以计算相对运动

{\overset{&RightArrow;}{v}}_{relatif} (s) = {\overset{&RightArrow;}{v}}_{Θ} (s) - {\overset{&RightArrow;}{v}}_{local} (s)

人眼能够跟踪移动的感兴趣的对象，使其处于视网膜中央凹区域中，该区域中的空间敏感度最高。这个跟踪能力是已知的平滑跟踪。

由于该模型必须产生试图对一般观察者的行为进行仿真的时空显著图，人眼的跟踪能力阻止使用时空CSF和空间速度(spatio-velocity)CSF。

平滑跟踪人眼移动导致了与静止对象相同的移动对象视觉敏感度，因为模糊和噪声在移动和静止对象中是同样可见的。因此，考虑最坏情况的假定，即观看者可以跟踪序列中所有的移动区域。此外，时空CSF不是能够在更低频率上分离的时空。

因此，由于对移动对象的感知非常依赖于该对象是否被人眼进行跟踪，引入人眼的最大跟踪速度能力

{\overset{&RightArrow;}{v}}_{relatif} (s) = {\overset{&RightArrow;}{v}}_{relatif} (s) \times \frac{{\overset{&RightArrow;}{v}}_{\max}}{| | {\overset{&RightArrow;}{v}}_{relatif} (s) | |} onlyif | | {\overset{&RightArrow;}{v}}_{relatif} (s) | | > {\overset{&RightArrow;}{v}}_{\max}

相对运动的计算不足以计算时间显著图。凭借直觉可以得到，容易从静止distracter中找到移动的刺激。相反，必须考虑支配运动重要的情况。在这个情况下，因为更加难于从移动的distracter中检测到静止刺激，所以必须减小相对运动的关联。为了处理这个问题，相对运动的关联取决于相对运动的全局数量。这里涉及对平均相对运动的评估。为了处理这个问题，进行线性量化以计算相对运动模块的直方图。好似量化后的相对运动模型的中值是相对运动的数量的良好估计量，该中值由

表示。根据这个值，可以推导出归一化时间显著图：

S_{temporelle} (s) = \frac{{| | \overset{&RightArrow;}{v}}_{relatif} (s) | |}{{med}_{| | {{\overset{&RightArrow;}{v}}_{relatif} (s) | |}_{Q}}} \times \frac{1}{{val}_{\max}}

其中

{val}_{\max} = \max_{s} (\frac{| | {\overset{&RightArrow;}{v}}_{relatif} (s) | |}{{med}_{{| | {\overset{&RightArrow;}{v}}_{relatif} (s) | |}_{Q}}})

在图15上，示出了空间和时间显著图构造的组合方法的完整实施例，产生了考虑视频序列中的时间和空间方面的全局显著图的obtention。

这个图基于图1，其中增加了4个步骤E10-E13。

与空间显著图的构造同时，在步骤E10-E12中获得时间显著图，如先前在图14中所描述。

在步骤E13，使两个显著图发生融合，以获得最终的显著图。

尽管刺激的显著小于其视觉特征的显著之和，根据加权的一般化加法函数来解决融合的问题。如果猜想s1和s2是源自两个不同视觉特征的显著值，则所提出的最终的显著s由下式计算：

S(s)＝α×S_temporelle(s)+(1-α)×S_spatiale(s)+βs_patiale(s)×S_temporelle(s)

其中，加权系数控制这个和，而且最后一项被称作增强偏移。当且仅当两个显著值s_temporelle和s_spatiale是重要的时，这个最后项才是不可忽略的。

可以根据应用或根据视频内容而调整α和β系数。

在这个实施例中，α从序列的时空活动中导出，由帧差(FD)值来评估：

FD = \frac{1}{col \times lig} Σ_{s = 0}^{col \times lig} | I (s, t) - I (s, t - 1) |

I(s，t)表示像素s在时刻t的图像亮度。

α在图16上表示。

在静态序列中，值FD为零(null)，而非零值FD是时空活动的符号。值得注意的是，当值FD确实重要时，意味着所考虑图像之间的修改是极其重要的(在多数情况中，一种情况是存在序列剪辑)提出非线性函数来确定α系数。

粗略地讲，可以确定三种不同的行为：

●FD＜TH₁：部分序列接近于静态。显然，仅需考虑空间显著图

(α＝0)。

●TH₁＜FD＜TH₃：在所考虑的序列部分中或多或少存在时间活动。系数α随着这个活动而线性地增大。在这个实施例中，

α_max＝1

α₂＝0.65

α₁＝0.25

●FD＞TH₃：时空活动过于重要。存在至少两个似乎可信的解释：

第一，视频中存在剪辑/拍摄。第二，所考虑的两个图像经受了重要的支配运动(全局转换，全局扫摄，…)。在这些情况下，必须把α系数设置为零，以利于空间显著图。

系数TH1、TH2、TH3取决于空间分辨率。

该实施例发明基于感知子波段分解。然而，本发明能够用于频率子波段分解。感知子波段分解基于频率子波段分解，之后是基于取向的分解。

该实施例还基于像素递归型移动估计量。在其它实施例中，可以使用块匹配型移动估计量或任意其它移动估计量。

该实施例基于视频。然而，它还可以应用于用于视频监视的固定摄像机。在这种情况下，全局移动为零，仅考虑绝对移动，而且相对移动变为绝对移动。

Claims

1.一种用于创建图像的显著图的方法，包括把图像分级分解为频率子波段的步骤，其特征在于，所述方法包括步骤：

-根据分解为频率子波段，计算当前图像(I(t))与在前图像(I(t-nT))之间的移动估计，估计图像的支配移动，并估计当前图像的每一个像素的局部移动，

-从全局和局部移动估计中获得时间显著图的创建。

2.根据权利要求1所述的方法，其特征在于，还包括频率子波段分解的步骤，包括步骤：给出感知子波段分解的基于取向的分解。

3.根据权利要求2所述的方法，其特征在于，所述方法包括步骤：对不同的感知子波段进行内掩蔽。

4.根据权利要求3所述的方法，其特征在于，所述方法包括如下步骤：

-构造四级金字塔，

5.根据权利要求4所述的方法，其特征在于，所述方法包括步骤：通过使用从所述获得的金字塔的全部分辨率级中获得的局部运动矢量，获取图像中每一个像素的图像支配移动的参数模型。

6.根据权利要求5所述的方法，其特征在于，所述方法包括步骤：获取图像中每一个像素的相对运动矢量，该矢量为所述像素图像的局部运动估计与支配移动之间的差。

7.根据权利要求6所述的方法，其特征在于，所述方法包括步骤：利用眼睛的最大跟踪速度对相对运动矢量进行加权。

8.根据权利要求6所述的方法，其特征在于，所述方法包括步骤：计算图像的相对运动矢量的直方图，以获得归一化的时间显著图。

9.根据权利要求7所述的方法，其特征在于，所述方法包括步骤：计算所述图像的空间显著图；以及把所述归一化时间显著图和所述空间显著图进行融合。