CN112329662B

CN112329662B - 基于无监督学习的多视角显著性估计方法

Info

Publication number: CN112329662B
Application number: CN202011250827.XA
Authority: CN
Inventors: 夏辰; 韩军伟; 郭雷
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2024-05-10
Anticipated expiration: 2040-11-10
Also published as: CN112329662A

Abstract

本发明涉及一种基于无监督学习的多视角显著性估计方法，属于视频图像处理领域。首先进行单视角背景建模，采用深层自动编码器对单视角背景进行学习，计算单视角显著性图；然后联合视角背景建模，对联合视角背景进行学习，计算联合视角显著性图；最后对单视角显著性图和联合视角显著性图进行多尺度显著性图融合。本发明方法仅需要采样场景无标记图像块来进行学习，结合了单视角与多视角下的显著性计算，可以更好的针对背景进行学习，减少背景的干扰，得到比基于显著性区域学习算法更高的预测精度。

Description

基于无监督学习的多视角显著性估计方法

技术领域

本发明属于视频图像处理领域，涉及一种视频或图像多视角显著性估计算法，具体涉及一种基于无监督学习的多视角显著性估计方法。

背景技术

显著性估计的本质在于预测输入图像或视频对应的显著性图来说明场景中各个区域被人们关注的概率。显著性估计是一个多学科交叉的研究领域，对于计算机视觉、神经科学、认知心理学、生物学等领域及学科都具有重要的研究意义。首先，视觉显著性估计是计算机视觉和人工智能领域的核心问题之一。将视觉显著性机制引入到计算机视觉等领域的模型算法中，能够使得现有算法更有效地筛选信息与分配计算资源，提高算法效率。其次，视觉显著性估计是人脑的基本功能之一，具有神经生理学的基础。对其研究可以为探索人脑工作机理的本质提供启发，同样对发展神经科学等方面起着重要作用。另外，视觉显著性估计起源于认知心理学，构建显著性计算模型可以更好地探索认知心理学中某些重要问题。

基于显著性估计的重要性，过去二十年中大量关于显著性的研究被提出，来探索显著性的生物性本质或计算模型与框架。在目前的研究中，绝大多数工作都集中于单一视角下的显著性计算，即给出一幅图像或一个视频的显著性估计结果。近年来，随着相机与监控设备的普及，多视角应用需求日益增加，也反过来激发了对于多视角显著性的研究意义，使得估计多视角显著性成为一个重要待解决问题。

尽管常规显著性估计方法可以分别预测各个单一视角下的人们感兴趣区域，但是却忽略了不同视角下场景间的竞争关系，例如来自一个视角的着火点(仅仅是具有明亮颜色的背景区域)可能比来自另一个视角的行人(高层语义区域)要重要得多。同时实际中研究的多视角场景通常包含多个传感器数量与更复杂的视角变换关系，显著性计算也更具挑战性。

现有研究中除了针对单一视角下的视觉显著性研究，也出现了多视角显著性估计算法。Fang等人(Y.Fang,J.Wang,M.Narwaria,P.Le Callet,and W.Lin,“Saliencydetection for stereoscopic images,”IEEE Trans.Image Process.,vol.23,no.6,pp.2625-2636,Jun.2014.)提出一个针对双目左右视图的显著性估计算法，他们构建了一个针对显著性图的紧凑性度量来自适应地整合多个二维特征与深度特征。基于同样的特征整合模式，他们还提出一个针对立体视频的显著性估计算法(Y.Fang,C.Zhang,J.Li,J.Lei,M.P.Da Silva,and P.Le Callet,“Visual attention modeling forstereoscopic video:a benchmark and computational model,”IEEE Trans.ImageProcess.,vol.26,no.10,pp.4684-4696,Jun.2017.)。然而基于左右视图的显著性估计通常基于视觉源紧密放置的假设。此外，该显著性估计模型通常聚焦于两个视角下的计算。

为了解决包含任意个数传感器及更复杂视角变换情况下的显著性计算问题，多视角显著性估计模型被正式提出。相对于其他显著性研究，目前这一方面的工作还十分有限。Ngau等(C.W.H.Ngau,L.-M.Ang,and K.P.Seng,“Multi camera visual saliency usingimage stitching,”in Proc.Int.Conf.Telecommun.Technol.Appl,Singapore,Jun.2011,pp.93-98.)首先对不同信号源的图像进行拼接，再利用现有单视角显著性算法为拼接后的图像计算显著性。Luo等(Y.Luo,M.Jiang,Y.Wong,and Q.Zhao,“Multi-camera saliency,”IEEE Trans.Pattern Anal.Mach.Intell.,vol.37,no.10,pp.2057-2070,Jan.2015.)首先将不同视角下的图像变换到统一平面进行特征整合，再利用稀疏表示与字典学习的方式学习各个视角特征与显著性值之间的映射关系。在该项工作的学习过程中，需要依赖于大量眼动跟踪数据来学习各个视角下的显著性估计参数。现有多视角显著性估计方法存在以下不足：

1)现有多视角显著性估计算法通常依赖有标记的训练样本来进行模型参数的学习。但是，在很多情况下，针对多视角场景的眼动数据往往是较难获得的，因此这也限制了传统基于眼动数据学习多视角显著性估计算法的应用。

2)对于背景复杂的场景，之前的多视角显著性估计算法可能会受到背景的干扰，错误地将某些背景区域作为显著性前景。

3)基于眼动学习的传统多视角显著性估计算法通常倾向于输出小的显著性区域，更善于计算小目标场景下的显著性，而对于包含较大目标的场景则不能完整地突出显著性目标区域；对于后续应用，例如基于显著性估计的目标分割，则不能完整地突出显著性目标。

4)传统多视角显著性估计算法仅考虑了多视角间显著性的竞争，没有考虑单视角下显著性的计算。

发明内容

要解决的技术问题

为了避免上述现有技术的不足之处，本发明提出一种基于无监督学习的多视角显著性估计方法，从无标记场景自身的角度来挖掘不同视角在显著性计算中的竞争与联系。

技术方案

一种基于无监督学习的多视角显著性估计方法，其特征在于步骤如下：

步骤1：单视角背景建模

计算边界先验图：像素点x的边界先验P_boundary(x)定义为该点所在图像块V_x到虚拟背景点V_B的最短路径：

其中，w(V_i,V_i+1)表示顶点V_i和顶点V_i+1之间边的权重；n_x是当前点x到V_B的最短路径长度；

计算深度先验图：

其中，是点x处归一化的深度值；

基于归一化的边界与深度先验图，计算单视角背景先验图：

P₁(x)∝1-P_boundary(x)·P_depth(x) (3)

其中，P₁(x)代表当前像素点x属于背景区域的概率；

步骤2：采用深层自动编码器对单视角背景进行学习

所述的深层自动编码器由共用中心层且结构对称的编码器与解码器两部分组成，中心层为二值神经元，其余所有神经元均为逻辑神经元；所述的编码器由5层网络结构组成，相邻两层网络是全连接的关系，N₀为输入层的神经元数量，其大小由输入图像块对应的向量维数决定；编码器神经元个数逐层减少，N_i≥2N_i+1,i＝0,1,2，N₃≥2N_c，中心层神经元数量N_c通常远小于输入层神经元数量N₀；

步骤3：单视角显著性图计算

对于像素点x，首先提取其对应的大小为d_k×d_k的图像块，并堆叠所有颜色通道数据来生成对应的向量表示s^k(x)；接下来，通过将图像块向量s^k(x)输入到学习后的深层自动编码器中，其中/>表示尺度k下深层自动编码器/>的参数，来得到重构图像块向量/>最后，计算重构与实际图像块向量的l₂范数来得到单视角下像素点x的显著性值/>

步骤4：联合视角背景建模

将不同视角下的输入变换到统一公共平面上来实现全局背景整合：先手动标定p组当前视角平面与对应公共平面中对应的网格参考点与再利用成对的标记点求解两个视角间投影关系对应的3×3非奇异矩阵Q：

对于每一个视角图像A_i，根据式(5)来建立方程组求解其对应的变换矩阵Q_i，并将A_i通过变换T_Qi变换到公共平面上接下来整合不同视角下的投影变换结果形成公共平面；删除重叠的区域，使得每个重叠区域仅保留一次；最后再根据式(3)进行联合背景建模，得到联合背景先验图P₂(x)；

步骤5：联合视角背景学习

通过已知几何变换来避免从未观察区域进行背景学习，再对剩下区域根据P₂(x)值进行排序，估计出前80％的区域作为候选背景区域；基于候选背景区域，采样m×n个图像块训练样本来对深层自动编码器进行训练，n为视角图像数量；同样采用两阶段训练方式来训练深层自动编码器，利用预训练为深层自动编码器设定初值，再利用反向传播算法微调整个深层自动编码器参数得到联合背景建模下的深层自动编码器

步骤6：联合视角显著性图计算

在当前视角图像A_i下，平面上每个点在尺度k下的显著性可通过计算联合视角下训练深层自动编码器/>的重构误差得到；再根据/>的反变换/>来将显著性图变换到当前图像视角下，得到联合视角显著性图/>

步骤7：多尺度显著性图融合

采样多尺度图像块模板来进行训练与显著性计算：

首先将图像块大小设置为l个尺度：d₁×d₁,d₂×d₂,…,d_l×d_l，按照步骤2与3计算尺度1到尺度l下单视角显著性图最终多尺度单视角显著性图为不同尺度下显著性图的平均结果：

其中N(·)表示归一化算子；相似地，在尺度1,2,…,l下，按照步骤5与6分别计算多个个尺度下的联合显著性图再平均不同尺度下的结果得到总的多尺度联合视角显著性图：

多尺度图像块模板可采用如下的设置方式2d_k≤d_k+1,k＝1,2,…,l-1；

采用显著性图紧凑性度量系数β₁与β₂来整合单视角与联合视角对应的显著性图：

其中，(E_i,1,E_j,1)与(E_i,2,E_j,2)分别表示显著性图S₁(x)与S₂(x)的平均空间位置；(x_i,x_j)表示像素点x的x轴与y轴坐标；在此基础上，总显著性图S(x)可按如下方式计算：

S(x)＝β₁·S₁(x)+β₂·S₂(x)+β₁·β₂·S₁(x)·S₂(x) (9)

其中第一项表示基于紧凑性度量系数的单视角与联合视角线性加权结果，第二项的作用在于增加两部分公共关注区域的显著性值。

本发明技术方案更进一步的说：步骤1中采用Palou和Salembier提出的单目深度计算方法来对深度图D_depth(x)进行估计。

本发明技术方案更进一步的说：步骤2中的编码器可以扩展到6层或7层。

本发明技术方案更进一步的说：所述的步骤2中的深层自动编码器的训练如下：从步骤1计算的背景先验图P₁(x)中前80％点对应的候选背景区域进行随机采样，提取m对d_k×d_k图像块作为输入与输出来训练深层自动编码器；深层自动编码器训练过程包括预训练和反向传播，在预训练中，首先逐层学习出一组受限玻尔兹曼机RBM来初始化深层自动编码器；在反向传播阶段，基于初始化的参数，再通过最小化输出与目标之间的交叉熵误差来全局微调整个深层自动编码器。

本发明技术方案更进一步的说：所述的步骤7中多尺度图像块模板可采用如下设置方式2d_k≤d_k+1,k＝1,2,…,l-1，例如7×7,15×15,31×31,63×63。

有益效果

本发明提出的一种基于无监督学习的多视角显著性估计方法，有益效果如下：

1.本发明方法不依赖于人类眼动信息，属于无监督学习算法。之前基于深度学习的显著性估计算法大都需要利用人类眼动数据来进行学习，获取人们关注位置等信息。然而大量眼动数据的获取是一个非常困难的问题，特别是多视角条件下的眼动数据采集。针对这一问题，本发明从场景数据本身的角度入手，利用不同区域间的竞争关系来估计每个视角对应的显著性图。具体如步骤2与步骤4中所示，仅需要采样场景无标记图像块来进行学习。

2.本发明方法通过对背景进行学习来突出前景显著性目标区域。之前算法在于探索显著性区域特征，本发明则着眼于场景背景的建模，从而突出于背景不一致的前景区域。基于背景学习，分别得到当前步骤3单一视角下的显著性图与步骤6联合背景学习下的显著性图。对于复杂背景，本发明方法可以更好的针对背景进行学习，减少背景的干扰，得到比基于显著性区域学习算法更高的预测精度。

3.本发明方法中的步骤7的多尺度显著性图融合可以更好地检测不同尺度的显著性目标。

4.本发明结合了单视角与多视角下的显著性计算。实验表明整合单视角与多视角下的显著性计算可以进一步提升多视角显著性估计结果。同时，本发明可以分别从多视角图像扩展到多视角视频进行显著性估计。

附图说明

图1本发明整体方案流程图；

图2本发明中深层自动编码器网络结构图；

图3联合视角显著性计算流程图；

图4从当前视图平面到公共平面的投影转换示例；

图5监控环境多视角显著性估计视觉比较图：(a)多视角视图；(b)不同视角真值显著性图；(c)MC LC-KSVD显著性图；(d)本方法显著性图；

图6双目显著性估计视觉比较图：(a)左视图；(b)右视图；(c)真值显著性图；(d)MCLC-KSVD显著性图；(e)本方法显著性图；(f)MC LC-KSVD显著性目标检测；(g)本方法显著性目标检测。

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明整体流程如图1所示。

实施例1：针对监控环境的多视角显著性估计

对于包含n个视角的监控场景，需要计算每个视角下的显著性图。在每个视角下，需要整合单视角与联合视角显著性来计算对应的显著性图。

步骤1：单视角背景建模

首先，为了进行单视角背景学习，需要估计出当前视角图像中可能的背景区域。针对这一问题，本发明采用边界与深度两个先验来完成背景的建模，估计出每个像素点属于背景的概率。

首先是边界先验图的计算。图像边界被证实是一个有效的背景先验。这主要因为目标往往出现在图像的内部区域，而背景通常与边界的连接更紧密。受测地线显著性(Geodesic Saliency，GS)模型的启发，像素点x的边界先验P_boundary(x)定义为该点所在图像块V_x到虚拟背景点V_B的最短路径：

其中，w(V_i,V_i+1)表示顶点V_i和顶点V_i+1之间边的权重；n_x是当前点x到V_B的最短路径长度。

其次是深度先验图的计算。图像深度信息是另一个重要的背景先验。根据日常观察以及立体视觉注意的研究，深度值越大的区域通常越有可能是背景，而目标通常出现在距离观察者相对较近的位置。为了得到深度信息，本发明采用Palou和Salembier提出的单目深度计算方法来对深度图D_depth(x)进行估计。在此基础上，再计算深度先验图：

其中是点x处归一化的深度值。

最后，基于归一化的边界与深度先验图，单视角背景先验图按如下公式计算：

P₁(x)∝1-P_boundary(x)·P_depth(x) (3)

其中P₁(x)代表当前像素点x属于背景区域的概率。

步骤2：单视角背景学习

在估计出当前视角图像各个区域属于背景的概率后，这一步骤的任务是对背景进行学习，获取基于背景学习的描述模型，从而突出不同于背景的前景区域。本发明采用深层自动编码器来完成背景学习。在现有多种深层网络模型中选择自动编码器主要出于以下两方面的考虑。一方面，深层自动编码器的目标输出是输入的重构，不同于卷积神经网络(Convolutional Neural Network，CNN)等其他深层网络的学习过程，深层自动编码器的参数可以直接从无标记的数据中获得，来实现无监督的显著性估计。另一方面，对比于其他无监督训练的深层网络，例如深度信念网络(Deep Belief Network，DBN)，深层自动编码器可以学习到更稳定且有鉴别力的特征，同时深层自动编码器具有更强的自适应学习能力。

具体采用如图2所示的深层自动编码器来对背景内容进行学习。深层自动编码器网络由共用中心层且结构对称的编码器与解码器两部分组成。中心层为二值神经元，其余所有神经元均为逻辑神经元。编码器由5层网络结构组成(也可以扩展到6层或7层)，相邻两层网络是全连接的关系，N₀为输入层的神经元数量，其大小由输入图像块对应的向量维数决定。该网络一个重要特点是编码器神经元个数逐层减少，N_i≥2N_i+1,i＝0,1,2，N₃≥2N_c，中心层神经元数量N_c通常远小于输入层神经元数量N₀。另一方面，又需要通过解码器来在网络输出端重构出输入，这就迫使网络中心层能够发掘出高维输入数据中的内在结构与关系，获得从底层图像信息到有鉴别力编码的映射关系。

基于构建的深层自动编码器，接下来则是训练样本的选取。本发明将从步骤1中计算的背景先验图P₁(x)中前80％点对应的候选背景区域进行随机采样。在尺度k下，提取m对d_k×d_k图像块作为输入与输出来训练深层自动编码器，使得深层自动编码器学习得到背景区域的描述。具体深层自动编码器训练过程通过预训练加反向传播两阶段完成。在预训练中，首先逐层学习出一组受限玻尔兹曼机(Restricted Boltzmann Machine，RBM)来初始化深层自动编码器。在反向传播阶段，基于初始化的参数，再通过最小化输出与目标之间的交叉熵误差来全局微调整个深层自动编码器。

步骤3：单视角显著性图计算

这一步骤的任务是在深层自动编码器训练结束后，根据基于背景学习的深层自动编码器来计算单视角显著性图，得到各个点的单视角显著性值。总体思路是采用深层自动编码器重构误差作为显著性的度量。背景区域通常会得到较小表示误差，而与背景描述不一致的前景目标区域则会得到较大重构误差，从而得到较大显著性值。

具体地，对于像素点x，首先提取其对应的大小为d_k×d_k的图像块，并堆叠所有颜色通道数据来生成对应的向量表示s^k(x)。接下来，通过将图像块向量s^k(x)输入到学习后的深层自动编码器中(/>表示尺度k下深层自动编码器/>的参数)，来得到重构图像块向量/>最后，计算重构与实际图像块向量的l₂范数来得到单视角下像素点x的显著性值/>

步骤4：联合视角背景建模

除了考虑当前图像在该单视角下的显著性计算，还需要考虑多个视角间的竞争关系，来将其他视角对当前视角的影响整合到该图像显著性的计算中，计算联合视角显著性图。联合视角显著性计算流程图如图3所示。

这一步骤的任务是根据不同视角间的关系来对背景区域进行联合建模，估计出背景区域来进行下一步学习。多视角输入通常存在多样化的数据内容与复杂的几何变换关系。针对这一问题，如图4所示，首先需要将不同视角下的输入变换到统一公共平面上来实现全局背景整合。先手动标定p组当前视角平面与对应公共平面中对应的网格参考点与/>再利用成对的标记点求解两个视角间投影关系对应的3×3非奇异矩阵Q：

对于每一个视角图像A_i，根据式(5)来建立方程组求解其对应的变换矩阵Q_i，并将A_i通过变换变换到公共平面上/>接下来整合不同视角下的投影变换结果形成公共平面。如图4所示，不同视角变换后可能存在一定重叠，直接从变换后的公共平面上计算显著性可能存在信息的失真。因此需要删除掉重叠的区域，使得每个重叠区域仅保留一次。最后再根据式(3)进行联合背景建模，得到联合背景先验图P₂(x)。

步骤5：联合视角背景学习

这一步骤的任务是根据步骤4中计算的P₂(x)进行背景学习，得到联合视角下的背景学习模型。如图4所示，公共平面中可能存在未观察区域，直接根据联合背景先验图P₂(x)进行随机采样，这些区域将会被作为背景进行学习。针对这一问题，首先需要通过已知几何变换来避免从未观察区域进行背景学习，再对剩下区域根据P₂(x)值进行排序，估计出前80％的区域作为候选背景区域。最后，基于候选背景区域，采样m×n个大小为d_k×d_k图像块训练样本来对图2深层自动编码器进行训练(n为视角图像数量，m为每个视角采样数量)。同样采用两阶段训练方式来训练深层自动编码器，首先利用预训练为深层自动编码器设定初值，再利用反向传播算法微调整个深层自动编码器参数得到联合背景建模下的深层自动编码器

步骤6：联合视角显著性图计算

在当前视角图像A_i下，平面上每个点在尺度k下的显著性可通过计算联合视角下深层自动编码器/>的重构误差得到。接下来，再根据/>的反变换/>来将显著性图/>变换到当前图像视角下。得到联合视角显著性图/>

步骤7：多尺度显著性图融合

步骤2到6是针对尺度k，即图像块大小为d_k×d_k，来计算显著性的。为了更好地处理不同尺度大小目标场景的显著性估计问题，这一步骤的任务是从多尺度的角度分别进行单视角与联合视角显著性估计，并对单视角与多视角这两部分结果进行融合，生成当前视角对应的最终显著性图。首先，为了检测出不同尺寸的目标，本发明需要采样多尺度图像块模板来进行深层自动编码器的训练与显著性计算。首先将图像块大小设置为l个尺度：d₁×d₁,d₂×d₂,…,d_l×d_l，按照步骤2与3计算尺度1到尺度l下单视角显著性图最终多尺度单视角显著性图为不同尺度下显著性图的平均结果：

其中N(·)表示归一化算子。相似地，在尺度1,2,…,l下，按照步骤5与6分别计算多个个尺度下的联合显著性图再平均不同尺度下的结果得到总的多尺度联合视角显著性图：

多尺度图像块模板可采用如下的设置方式2d_k≤d_k+1,k＝1,2,…,l-1，例如7×7,15×15,31×31,63×63。

针对单视角与联合视角对应的显著性图，下面的任务是将这两部分结果融合成统一的显著性图。一般来说，人类视觉系统更倾向于关注图像中特定的感兴趣区域。因此包含更紧凑目标的显著性图将在融合中获得更大的权重，起到更重要的作用。这里采用显著性图紧凑性度量系数β₁与β₂来整合单视角与联合视角对应的显著性图：

其中，(E_i,1,E_j,1)与(E_i,2,E_j,2)分别表示显著性图S₁(x)与S₂(x)的平均空间位置。(x_i,x_j)表示像素点x的x轴与y轴坐标。在此基础上，总显著性图S(x)可按如下方式计算：

S(x)＝β₁·S₁(x)+β₂·S₂(x)+β₁·β₂·S₁(x)·S₂(x) (9)

实施例2：双目左右视图显著性估计

对于包含左右视图(两个视角)的输入，需要计算最终两个视角下的总显著性图。具体来说，在左右视图下均需要整合单视角与联合视角显著性来计算显著性图，再综合两视图下的显著性估计结果生成总显著性图。

步骤1：单视角背景建模

其中是点x处归一化的深度值。

P₁(x)∝1-P_boundary(x)·P_depth(x) (3)

其中P₁(x)代表当前像素点x属于背景区域的概率。

步骤2：单视角背景学习

具体采用如图2所示的深层自动编码器来对背景内容进行学习。深层自动编码器网络由共用中心层且结构对称的编码器与解码器两部分组成。中心层为二值神经元，其余所有神经元均为逻辑神经元。编码器由5层网络结构组成(也可以扩展到6层或7层)，相邻两层网络是全连接的关系，N₀为输入层的神经元数量，其大小由输入图像块对应的向量维数决定。该网络一个重要特点是编码器神经元个数逐层减少，

N_i≥2N_i+1,i＝0,1,2，N₃≥2N_c，中心层神经元数量N_c通常远小于输入层神经元数量N₀。另一方面，又需要通过解码器来在网络输出端重构出输入，这就迫使网络中心层能够发掘出高维输入数据中的内在结构与关系，获得从底层图像信息到有鉴别力编码的映射关系。

基于构建的深层自动编码器，接下来则是训练样本的选取。本发明将从步骤1计算的背景先验图P₁(x)中前80％点对应的候选背景区域进行随机采样。在尺度k下，提取m对d_k×d_k图像块作为输入与输出来训练深层自动编码器，使得深层自动编码器学习得到背景区域的描述。具体深层自动编码器训练过程通过预训练加反向传播两阶段完成。在预训练中，首先逐层学习出一组受限玻尔兹曼机(Restricted Boltzmann Machine，RBM)来初始化深层自动编码器。在反向传播阶段，基于初始化的参数，再通过最小化输出与目标之间的交叉熵误差来全局微调整个深层自动编码器。

步骤3：单视角显著性图计算

步骤4：联合视角背景建模

对于每一个视角图像A_i，根据式(5)来建立方程组求解其对应的变换矩阵Q_i，并将A_i通过变换T_Qi变换到公共平面上接下来整合不同视角下的投影变换结果形成公共平面。如图4所示，不同视角变换后可能存在一定重叠，直接从变换后的公共平面上计算显著性可能存在信息的失真。因此需要删除掉重叠的区域，使得每个重叠区域仅保留一次。最后再根据式(3)进行联合背景建模，得到联合背景先验图P₂(x)。

步骤5：联合视角背景学习

这一步骤的任务是根据步骤4中计算的P₂(x)进行背景学习，得到联合视角下的背景学习模型。如图4所示，公共平面中可能存在未观察区域，直接根据联合背景先验图P₂(x)进行随机采样，这些区域将会被作为背景进行学习。针对这一问题，首先需要通过已知几何变换来避免从未观察区域进行背景学习，再对剩下区域根据P₂(x)值进行排序，估计出前80％的区域作为候选背景区域。最后，基于候选背景区域，采样m×2个大小为d_k×d_k图像块训练样本来对图2深层自动编码器进行训练(m为每个视角采样数量)。同样采用两阶段训练方式来训练深层自动编码器，首先利用预训练为深层自动编码器设定初值，再利用反向传播算法微调整个深层自动编码器参数得到联合背景建模下的深层自动编码器

步骤6：联合视角显著性图计算

步骤7：多尺度显著性图融合

S(x)＝β₁·S₁(x)+β₂·S₂(x)+β₁·β₂·S₁(x)·S₂(x) (9)

最后按照式(9)分别计算左右视图对应的显著性图，再进行平均得到最终的显著性估计结果。

实验比较：

4种显著性评估准则：

1)曲线下面积(Area Under the Curve，AUC)：AUC计算的是模型受试者工作特征(Receiver Operating Characteristic，ROC)曲线下的面积。为了画ROC曲线，当前图像上所有的注视点将被当作正样本，并且同等数量的负样本点将从非注视区域均匀采样得到。接下来，通过变换一个阈值来将估计出的显著性图二值化，即将显著性图看做一个区分正负样本的分类器，并基于分类的结果来计算虚警率(False Positive Rate)和正确率(TruePositive Rate)。对于每个显著性图，需要重复上面的操作100次来抽取负样本点。最终每个模型的ROC曲线是这100次结果以及数据库上所有图像的平均值。

2)修正的曲线下面积(Shuffled AUC，sAUC)：人类的注视点通常容易集中在输入图像的中心，即中心偏置(Center-Bias，CB)现象。而这种现象可能会影响标准AUC的评估。为了更加公平地比较加与不加中心偏置的模型，我们采用由Tatler等提出的是sAUC准则来进行评估。相比于AUC，sAUC主要的不同在于在获取负样本点时，是通过从该数据库中除去正样本点外所有注视点的联合中采样得到的，而不是像AUC那样从当前图像的非关注区域获取。正由于对中心偏置和边界效应的稳定性，sAUC被广泛应用于关于显著性的研究中，并逐渐成为了公平估计不同模型的关键准则。类似于标准AUC，sAUC将输出一个0到1之间的标量值。

3)CC(Pearson相关系数)：CC是一种统计方法来计算两个变量的相关性。因此CC也被用于测量估计显著性图与真值显著性图，即人类注视点密度图之间的相关性。

4)KL散度(Kullback-Leibler Divergence，KLD)：KLD通常被用来计算两个概率密度函数的差异性，同样也可作为显著性评估准则。不同于之前的相似性评价准则，KLD是一个计算差异性而不是相似性的准则，因此可用来提供补足的实验结果。

AUC，sAUC，CC结果越高，显著性估计结果越准确。KLD结果越低，显著性估计结果越准确。

表1.MCIE多视角数据库上与传统多视角显著性估计算法比较

表2. 3DGaze双目显著性数据库上与传统多视角显著性估计算法比较

	AUC	sAUC	CC	KLD
					MC LC-KSVD	0.860	0.787	0.597	0.315
本发明方法	0.874	0.824	0.682	0.224

定量实验结果表明本发明整合单视角与多视角联合显著性算法可以比仅考虑单一视角更加准确的估计多视角显著性。同时，本发明与传统多视角显著性估计算法MC LC-KSVD(Y.Luo,M.Jiang,Y.Wong,and Q.Zhao,“Multi-camera saliency,”IEEETrans.Pattern Anal.Mach.Intell.,vol.37,no.10,pp.2057-2070,Jan.2015.)进行了比较。在不同数据库下本发明方法要胜过MC LS-KSVD算法。同时，视觉比较结果表明本发明方法可以更好地对背景进行建模与估计，从而减少显著性估计中背景的干扰，突出显著性前景区域。对于较大目标可以较完整地突出目标，更好地应用于目标阶的显著性检测与其他应用。

Claims

1.一种基于无监督学习的多视角显著性估计方法，其特征在于步骤如下：

步骤1：单视角背景建模

计算深度先验图：

其中，是点x处归一化的深度值；

基于归一化的边界与深度先验图，计算单视角背景先验图：

P₁(x)∝1-P_boundary(x)·P_depth(x) (3)

其中，P₁(x)代表当前像素点x属于背景区域的概率；

步骤2：采用深层自动编码器对单视角背景进行学习

步骤3：单视角显著性图计算

对于像素点x，首先提取其对应的大小为d_k×d_k的图像块，并堆叠所有颜色通道数据来生成对应的向量表示s^k(x)；接下来，通过将图像块向量s^k(x)输入到学习后的深层自动编码器中，其中/>表示尺度k下深层自动编码器/>的参数，来得到重构图像块向量最后，计算重构与实际图像块向量的l₂范数来得到单视角下像素点x的显著性值/>

步骤4：联合视角背景建模

对于每一个视角图像A_i，根据式(5)来建立方程组求解其对应的变换矩阵Q_i，并将A_i通过变换变换到公共平面上/>接下来整合不同视角下的投影变换结果形成公共平面；删除重叠的区域，使得每个重叠区域仅保留一次；最后再根据式(3)进行联合背景建模，得到联合背景先验图P₂(x)；

步骤5：联合视角背景学习

步骤6：联合视角显著性图计算

步骤7：多尺度显著性图融合

采样多尺度图像块模板来进行训练与显著性计算：

S(x)＝β₁·S₁(x)+β₂·S₂(x)+β₁·β₂·S₁(x)·S₂(x) (9)

2.根据权利要求1所述的一种基于无监督学习的多视角显著性估计方法，其特征在于：步骤1中采用Palou和Salembier提出的单目深度计算方法来对深度图D_depth(x)进行估计。

3.根据权利要求1所述的一种基于无监督学习的多视角显著性估计方法，其特征在于：步骤2中的编码器可以扩展到6层或7层。

4.根据权利要求1所述的一种基于无监督学习的多视角显著性估计方法，其特征在于：所述的步骤2中的深层自动编码器的训练如下：从步骤1计算的背景先验图P₁(x)中前80％点对应的候选背景区域进行随机采样，提取m对d_k×d_k图像块作为输入与输出来训练深层自动编码器；深层自动编码器训练过程包括预训练和反向传播，在预训练中，首先逐层学习出一组受限玻尔兹曼机RBM来初始化深层自动编码器；在反向传播阶段，基于初始化的参数，再通过最小化输出与目标之间的交叉熵误差来全局微调整个深层自动编码器。

5.根据权利要求1所述的一种基于无监督学习的多视角显著性估计方法，其特征在于：所述的步骤7中多尺度图像块模板可采用如下设置方式2d_k≤d_k+1,k＝1,2,…,l-1，例如7×7,15×15,31×31,63×63。