CN105139385A

CN105139385A - 基于深层自动编码器重构的图像视觉显著性区域检测方法

Info

Publication number: CN105139385A
Application number: CN201510493345.XA
Authority: CN
Inventors: 齐飞; 夏辰; 沈冲; 石光明; 黄原成; 李甫; 张犁
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-08-12
Filing date: 2015-08-12
Publication date: 2015-12-09
Anticipated expiration: 2035-08-12
Also published as: CN105139385B

Abstract

本发明公开了一种基于深层自动编码器重构的图像视觉显著性区域检测方法，主要解决现有的图像显著性检测方法缺少全局信息整合以及依赖标记数据的问题。其技术方案是：先对图像全局信息进行采样，得到多组中心-外围图像区域组成的训练样本集；再利用这一集合来训练一个由外围区域到中心区域的基于自动编码器的深层重构网络；接着，利用学习得到的网络对图像每个像素点进行由外围区域重构中心区域的误差计算；最后，结合中心先验值估计每个像素点的显著性值。本发明能得到与人类视觉系统关注区域一致的显著性检测结果，可用于图像压缩以及图像目标检测与识别领域。

Description

基于深层自动编码器重构的图像视觉显著性区域检测方法

技术领域

本发明属于图像处理领域，涉及图像视觉显著区域性检测方法，可用于图像压缩以及图像目标检测与识别。

技术背景

随着网络信息化的发展，人类已进入一个数据大规模增长的“大数据”时代，作为获取信息重要途径之一的图像数据是其中一个主要组成部分，如何有效地从图像中选取最有价值的信息逐渐成为了图像处理领域关注的热点。

对于人类视觉系统，即使面对复杂的视觉环境，其也能准确提取出场景主要信息并做出分析。针对图像数据，人类视觉系统通常是将有限的资源与能力分配给包含图像关键信息的区域，即显著性区域；而对其他不关注的区域只做降级地处理与分析。因此，对图像视觉显著性区域进行检测与估计将有助于提取图像关键信息，从而提升数据处理能力，可用于图像压缩，目标检测以及识别等领域。

LaurentItti等人在文章“AModelofSaliency-BasedVisualAttentionforRapidSceneAnalysis”,IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.20,no.11,pp.1254-1259,1998中首先提出利用中心与外围的差异来衡量区域显著性程度，并通过融合颜色、亮度以及方向等三个特征空间的结果来实现最终的图像显著性区域检测。该方法提出的中心-外围差可以较好地模拟视觉神经元的结构，但是由于实际计算中仅考虑到了图像局部信息，该方法不能很好地处理包含结构信息的图像。TilkeJudd等人在文章“LearningtoPredictWhereHumansLook”,IEEEInternationalConferenceonComputerVision,2009,pp.2106-2113中提出通过机器学习的方法来联合建立不同阶层特征与显著性值之间的关系。该方法在训练模型时需要依赖大量已知显著性区域的标记图像，而实际中获取大量带有标记显著性区域的图像通常是较为困难的；同时，该方法在处理不同类型图像时使用相同的特征权重将会影响算法的可扩展性。ChenXia等人在文章“NonlocalCenter-SurroundReconstruction-basedBottom-UpSaliencyEstimation”,InternationalConferenceonImageProcessing,2013,pp.206-210中提出一种基于非局部重构的显著性区域检测方法，并通过利用非局部其余块对当前中心区域的重构误差来估计显著性。由于该方法在计算不同区域重构关系时是独立的，缺少从全局角度对不同区域间的竞争关系进行考虑，因此当实际显著性区域与背景区域的局部与非局部中心-外围关系相近时，将很难突出实际的显著性区域，最终导致图像中显著性区域检测的准确性下降。

发明内容

本发明的目的在于克服上述已有技术的不足，提出一种基于深层自动编码器重构的图像视觉显著性区域检测方法，以从全局的角度来挖掘无标记图像数据与显著性值之间的关系，提高图像中显著性区域检测的准确性。

本发明的技术方案是：对于一幅图像，利用全局随机采样的结果来训练一个基于深层自动编码器的重构网络，以实现通过重构误差来表示不同区域的中心-外围关系，进一步表示该区域的显著性程度，其实现步骤包括如下：

(1)构建深层重构网络：设置深层自动编码器的编码模块和解码模块，并在该解码模块上增加推断层，得到由编码器，解码器及推断层组成的三模块深层重构网络；该重构网络根据图像不同区域的中心-外围关系，实现由外围块到中心块的重构；

(2)从输入图像I中随机选取m个像素点；对于每个像素点x，先分别取其邻域大小为D×D的外围区域块及d×d的中心区域块，得到目标外围区域向量X和中心区域向量Y，d＜D；再分别对像素点x外围区域向量X和中心区域向量Y进行归一化，得到归一化后的外围向量s(x)和标记中心向量c(x)；

(3)用采样的m对外围向量s(x)和标记中心向量c(x)训练重构网络，得到图像I对应的训练后的中心-外围重构网络f(·)；

(4)对于图像中的每个像素点x，将其归一化的外围向量s(x)输入到训练后的重构网络，得到重构的中心块输出向量f(s(x))，并与标记中心向量c(x)作比较，计算出重构误差ρ(x)；最后根据计算得到的中心先验值μ(x)来对ρ(x)加权计算其显著性S(x)。

本发明具有如下优点：

1)本发明通过采用全局随机采样与训练深层重构网络的过程，来分别模拟人类视觉处理早期的扫视阶段以及视觉皮质上信息的传播与预测，从机理上实现了与人类视觉显著性检测过程的一致性，并得到了与人眼跟踪数据一致的显著性检测结果。

2)本发明不依赖于图像的真值，即不需要提供任何带有已知显著性区域的图像，而是利用深层网络对无标记数据进行学习的能力来实现场景数据驱动的显著性检测，避免了寻找真值数据这一繁琐的实验任务。

3)本发明不需要手工选取或联合多维特征，而是通过深层网络自适应地学习得到特征，具有较好的普适性与可扩展性。

4)本发明能够在统一框架下对全局、非局部以及局部信息进行整合，即将全局竞争引入对局部块的非局部重构中，可以得到更准确、更高效的检测结果。

本发明可扩展到基于视频的显著性区域估计，也可以作为特征并结合其他机器学习方法用于一般目标的检测、识别以及图像编码、压缩。

附图说明

图1为本发明的实现总流程图；

图2为本发明中构建的深层重构网络结构图；

图3为本发明中的采样示意图；

图4为本发明中的网络训练子流程图。

具体实施方式

参照图1，本发明的具体实现步骤如下：

步骤1，构建中心-外围重构网络

参照图2，本发明建立的深层重构网络主要包含编码模块、解码模块以及推断层三个部分；其中编码模块由L层神经元构成，1＜L＜31，在一种实例方案中，L取6；输入层的神经元个数为N₀，N₀的大小由外围块s(x)的维数决定，实例方案中N₀为675，其他每层神经元个数依次为256，128，64，32，8；解码模块的结构与编码模块相对称；推断层位于解码模块上面，其所包含的神经元个数N_out由采样点x的中心向量c(x)的维数决定的，实例方案中N_out为147；编码模块和解码模块共同构成了一个自动编码器网络，在自动编码器网络的基础上增加推断层形成一个深层重构网络，实现由外围向量s(x)到中心向量c(x)的推断与重构；

该深层重构网络，其输入层与输出层大小则分别是由外围向量s(x)与中心向量c(x)的长度决定，网络总层数与其它每层的神经元个数是通过最终的显著性实验结果确定的，另外，除了网络中心层的神经元为线性神经元外，其余所有神经元均为逻辑神经元。

步骤2，全局采样

(2a)对于输入图像I，可将RGB颜色空间转换到Lab颜色空间或YUV颜色空间或YCbCr颜色空间或HSV颜色空间，其中：

在Lab颜色空间中，L表示亮度，a表示从洋红色至绿色的范围，b表示从黄色至蓝色的范围；

在YUV颜色空间中，Y指的是明亮度，也就是灰度值，而U和V表示的则是色度，作用是描述图像色彩及饱和度，用于指定像素的颜色；

在YCbCr颜色空间中，Y为颜色的亮度成分，而Cb和Cr则为蓝色和红色的浓度偏移量成份；

在HSV颜色空间中，H为颜色的色调，S表示颜色的饱和度，V表示颜色的亮度；

在本发明中按照如下方式做颜色空间变换：

若输入图像为三通道彩色图像，则在采样前需将原始RGB三通道颜色信息变换到另一颜色空间，其彼此通道间被证明是独立的，计算方式如下所示：

o_{1} = (R - G) / \sqrt{2}

o_{2} = (R + G - 2 B) / \sqrt{6},

o_{3} = (R + G + B) / \sqrt{3}

其中，R，G，B分别为原始图像的RGB三通道颜色值，o₁，o₂，o₃分别为变换后的颜色空间对应的三通道值。另外，若输入为单通道灰度图像，则需要将单通道信息扩充到三通道，再按上述方式进行颜色空间变换；若输入图像的颜色空间不是RGB，则将图像先转换到RGB颜色空间再按照上式进行转换，或根据颜色变换公式推导出直接变换式进行转换；

(2b)对于颜色空间变换后的输入图像I，从全局随机采样m个像素点：

参照图3，对于每个采样点x，分别取其邻域大小为D×D的外围区域及d×d的中心区域，d＜D，得到外围区域向量X和中心区域向量Y，实例方案中m取8000，D取15，d取7；

(2c)分别对外围区域向量X和中心区域向量Y进行归一化，得到归一化后的外围向量s(x)和标记中心向量c(x)：

s(x)＝X/X_max

c(x)＝Y/Y_max，

其中，X_max为图像I中所有外围区域向量元素中的最大值，Y_max为图像I中所有中心区域向量元素中的最大值。

步骤3，训练深层重构网络

参照图4，训练深层重构网络的步骤如下：

(3a)网络参数逐层初始化训练：

将编码器网络看成是多个受限玻尔兹曼机的组合，其中每个受限玻尔兹曼机是通过对比分歧算法来进行训练的，训练当前受限玻尔兹曼机得到的隐含层概率将被作为下一个受限玻尔兹曼机可视化单元的输入，根据这一原则来逐层地初始化编码器网络。在此基础上，再对编码器网络初始的权重求转置来对解码器网络参数进行初始化。最后，则是对解码器的输出与顶层推断层之间的连接赋予一组随机的参数来完成整个网络的初始化过程。

(3b)前向传播，计算目标函数：

(3b1)对于图像I中的每个训练样本点x，分别计算其训练时的输出向量f′(s(x))与标记中心向量c(x)的交叉熵误差CE(x)：

C E (x) = - \underset{i}{Σ} c {(x)}_{i} \cdot l o g (f^{'} {(s (x))}_{i}) \underset{i}{Σ} (1 - c {(x)}_{i}) \cdot l o g (1 - f^{'} {(s (x))}_{i}),

其中，c(x)_i为标记中心向量c(x)的第i维元素，f′(s(x))_i为训练时的输出向量f′(s(x))的第i维元素；

(3b2)根据交叉熵CE(x)计算目标函数

\overset{&OverBar;}{C E} = \frac{1}{m} Σ_{n = 1}^{m} {CE}_{n} (x),

其中，m表示训练样本个数，下标n表示m个训练样本中的第n个样本，CE_n(x)为第n个训练样本对应的交叉熵误差；

(3c)反向传播优化重构网络的参数：若循环次数小于设定的阈值，则根据交叉熵误差用反向传播算法微调整个重构网络中的参数，直到循环次数大于设定阈值为止，实例方案中该阈值取200；整个训练过程结束后，可得到图像I训练好的重构网络f。

步骤4，显著性估计

(4a)重构误差估计：

对于像素点x，先将其归一化的邻域大小为D×D外围向量s(x)输入训练好的重构网络f，得到重构的中心块输出向量f(s(x))，然后将中心块输出向量f(s(x))与实际的标记中心向量c(x)进行比较计算出重构的误差：

ρ(x)＝||f(s(x))-c(x)||_p，

其中，ρ(x)为当前像素点x对应的重构误差，||·||_p为向量的p范数；

(4b)计算中心先验：

通常图像的中心区域更容易被人们关注，显著性值更高。因此，通过定义一个中心先验值μ(x)来强调图像中心区域的显著性，中心先验值μ(x)可通过高斯先验来得到，计算公式为：

μ (x) = \exp (- \frac{d^{2} (x, x_{c})}{2 σ^{2}}),

其中x_c为图像I中心的像素点，d²(x,x_c)为像素点x到中心像素点x_c距离的平方，σ为设定好的值，exp(·)为指数函数；

本发明采用距离先验来得到中心先验值μ(x)，其计算公式为：

μ(x)＝(1-|x-x_c|)²，

其中，x_c为图像I中心的像素点，|x-x_c|为像素点x到中心像素点x_c的距离；

(4c)根据像素点x的重构误差ρ(x)和中心先验μ(x)计算其显著性值S(x):

S(x)＝μ(x)ρ(x)，

每个像素点的显著值大小代表其显著的程度，由每个像素点的显著性值S(x)可获得该图像所对应的显著性图。

以上描述仅是本发明的一个具体实例，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于深层自动编码器重构的图像视觉显著性区域检测方法，包括如下步骤：

2.根据权利要求1所述的方法，其中所述步骤(1)中的编码模块，是由L层神经元组成的，1＜L＜31，其中输入层神经元个数N₀由外围向量s(x)的维数决定。

3.根据权利要求1所述的方法，其中所述步骤(1)中解码模块，是由结构与编码模块相对称的L层神经元组成。

4.根据权利要求1所述的方法，其中所述步骤(1)中在该解码模块上增加推断层，是指在深层自动编码器的解码模块最后一层神经元上面再加上一层神经元，构成重构网络的推断层，其所包含的神经元个数N_out由中心向量c(x)的维数决定。

5.根据权利要求1所述的方法，其中所述步骤(1)中重构网络根据图像不同区域的中心-外围关系，实现由外围块到中心块的重构，是先将外围向量s(x)输入到训练好的重构网络中，得到N_out维的重构中心块输出向量f(s(x))，并由此作为显著性估计的依据。

6.根据权利要求1所述的方法，其中所述步骤(2)中从输入图像I中随机选取m个像素点，是先对输入图像I进行颜色空间变换，再在变换后的颜色空间上随机选取m个像素点，作为采样点，该颜色空间变换的方式如下：

若输入图像为三通道彩色图像，则将原始RGB三通道颜色信息变换到另一颜色空间，其彼此通道间被证明是独立的，计算方式如下所示：

o_{1} = (R - G) / \sqrt{2}

o_{2} = (R + G - 2 B) / \sqrt{6},

o_{3} = (R + G + B) / \sqrt{3}

其中，R，G，B分别为原始图像的RGB三通道颜色值，o₁，o₂，o₃分别为变换后的颜色空间对应的三通道值；

若输入为单通道灰度图像，则将单通道信息扩充到三通道，再按上述方式进行颜色空间变换；

若输入图像的颜色空间不是RGB，则将图像先转换到RGB颜色空间再按照上式进行转换，或根据颜色变换公式推导出直接变换式进行转换。

7.根据权利要求6所述的方法，其中所述的颜色空间变换，进一步，可将原始输入图像I转换到Lab颜色空间或YUV颜色空间或YCbCr颜色空间或HSV颜色空间。

8.根据权利要求1所述的方法，其中所述步骤(2)中分别对像素点x外围区域向量X和中心区域向量Y进行归一化，得到归一化后的外围向量s(x)和标记中心向量c(x)，按如下公式进行：

s(x)＝X/X_max

，

c(x)＝Y/Y_max

9.根据权利要求1所述的方法，其中所述步骤(4)中计算出重构误差ρ(x)，按如下公式进行：

ρ(x)＝||f(s(x))-c(x)||_p，

其中，c(x)为像素点x的标记中心向量，f(s(x))为重构网络输出的中心块向量，||·||_p为向量的p范数。

10.根据权利要求1所述的方法，其中所述步骤(4)中根据计算得到的中心先验值μ(x)对ρ(x)加权计算其显著性S(x),通过如下公式计算：

S(x)＝μ(x)ρ(x)，

其中μ(x)为中心先验值：μ(x)＝(1-|x-x_c|)²，x_c为图像I中心的像素点，|x-x_c|为像素点x到中心像素点x_c的距离；ρ(x)为像素点x的重构误差；

进一步，中心先验值μ(x)还能通过如下公式计算：

μ (x) = \exp (- \frac{d^{2} (x, x_{c})}{2 σ^{2}}),

其中，x_c为图像I中心的像素点，d²(x,x_c)为像素点x到中心像素点x_c距离的平方，σ为设定好的值，exp(·)为指数函数。