CN112329662B - 基于无监督学习的多视角显著性估计方法 - Google Patents
基于无监督学习的多视角显著性估计方法 Download PDFInfo
- Publication number
- CN112329662B CN112329662B CN202011250827.XA CN202011250827A CN112329662B CN 112329662 B CN112329662 B CN 112329662B CN 202011250827 A CN202011250827 A CN 202011250827A CN 112329662 B CN112329662 B CN 112329662B
- Authority
- CN
- China
- Prior art keywords
- saliency
- view
- background
- map
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 33
- 210000002569 neuron Anatomy 0.000 claims description 28
- 230000000007 visual effect Effects 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 230000004424 eye movement Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 230000001149 cognitive effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036403 neuro physiology Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于无监督学习的多视角显著性估计方法,属于视频图像处理领域。首先进行单视角背景建模,采用深层自动编码器对单视角背景进行学习,计算单视角显著性图;然后联合视角背景建模,对联合视角背景进行学习,计算联合视角显著性图;最后对单视角显著性图和联合视角显著性图进行多尺度显著性图融合。本发明方法仅需要采样场景无标记图像块来进行学习,结合了单视角与多视角下的显著性计算,可以更好的针对背景进行学习,减少背景的干扰,得到比基于显著性区域学习算法更高的预测精度。
Description
技术领域
本发明属于视频图像处理领域,涉及一种视频或图像多视角显著性估计算法,具体涉及一种基于无监督学习的多视角显著性估计方法。
背景技术
显著性估计的本质在于预测输入图像或视频对应的显著性图来说明场景中各个区域被人们关注的概率。显著性估计是一个多学科交叉的研究领域,对于计算机视觉、神经科学、认知心理学、生物学等领域及学科都具有重要的研究意义。首先,视觉显著性估计是计算机视觉和人工智能领域的核心问题之一。将视觉显著性机制引入到计算机视觉等领域的模型算法中,能够使得现有算法更有效地筛选信息与分配计算资源,提高算法效率。其次,视觉显著性估计是人脑的基本功能之一,具有神经生理学的基础。对其研究可以为探索人脑工作机理的本质提供启发,同样对发展神经科学等方面起着重要作用。另外,视觉显著性估计起源于认知心理学,构建显著性计算模型可以更好地探索认知心理学中某些重要问题。
基于显著性估计的重要性,过去二十年中大量关于显著性的研究被提出,来探索显著性的生物性本质或计算模型与框架。在目前的研究中,绝大多数工作都集中于单一视角下的显著性计算,即给出一幅图像或一个视频的显著性估计结果。近年来,随着相机与监控设备的普及,多视角应用需求日益增加,也反过来激发了对于多视角显著性的研究意义,使得估计多视角显著性成为一个重要待解决问题。
尽管常规显著性估计方法可以分别预测各个单一视角下的人们感兴趣区域,但是却忽略了不同视角下场景间的竞争关系,例如来自一个视角的着火点(仅仅是具有明亮颜色的背景区域)可能比来自另一个视角的行人(高层语义区域)要重要得多。同时实际中研究的多视角场景通常包含多个传感器数量与更复杂的视角变换关系,显著性计算也更具挑战性。
现有研究中除了针对单一视角下的视觉显著性研究,也出现了多视角显著性估计算法。Fang等人(Y.Fang,J.Wang,M.Narwaria,P.Le Callet,and W.Lin,“Saliencydetection for stereoscopic images,”IEEE Trans.Image Process.,vol.23,no.6,pp.2625-2636,Jun.2014.)提出一个针对双目左右视图的显著性估计算法,他们构建了一个针对显著性图的紧凑性度量来自适应地整合多个二维特征与深度特征。基于同样的特征整合模式,他们还提出一个针对立体视频的显著性估计算法(Y.Fang,C.Zhang,J.Li,J.Lei,M.P.Da Silva,and P.Le Callet,“Visual attention modeling forstereoscopic video:a benchmark and computational model,”IEEE Trans.ImageProcess.,vol.26,no.10,pp.4684-4696,Jun.2017.)。然而基于左右视图的显著性估计通常基于视觉源紧密放置的假设。此外,该显著性估计模型通常聚焦于两个视角下的计算。
为了解决包含任意个数传感器及更复杂视角变换情况下的显著性计算问题,多视角显著性估计模型被正式提出。相对于其他显著性研究,目前这一方面的工作还十分有限。Ngau等(C.W.H.Ngau,L.-M.Ang,and K.P.Seng,“Multi camera visual saliency usingimage stitching,”in Proc.Int.Conf.Telecommun.Technol.Appl,Singapore,Jun.2011,pp.93-98.)首先对不同信号源的图像进行拼接,再利用现有单视角显著性算法为拼接后的图像计算显著性。Luo等(Y.Luo,M.Jiang,Y.Wong,and Q.Zhao,“Multi-camera saliency,”IEEE Trans.Pattern Anal.Mach.Intell.,vol.37,no.10,pp.2057-2070,Jan.2015.)首先将不同视角下的图像变换到统一平面进行特征整合,再利用稀疏表示与字典学习的方式学习各个视角特征与显著性值之间的映射关系。在该项工作的学习过程中,需要依赖于大量眼动跟踪数据来学习各个视角下的显著性估计参数。现有多视角显著性估计方法存在以下不足:
1)现有多视角显著性估计算法通常依赖有标记的训练样本来进行模型参数的学习。但是,在很多情况下,针对多视角场景的眼动数据往往是较难获得的,因此这也限制了传统基于眼动数据学习多视角显著性估计算法的应用。
2)对于背景复杂的场景,之前的多视角显著性估计算法可能会受到背景的干扰,错误地将某些背景区域作为显著性前景。
3)基于眼动学习的传统多视角显著性估计算法通常倾向于输出小的显著性区域,更善于计算小目标场景下的显著性,而对于包含较大目标的场景则不能完整地突出显著性目标区域;对于后续应用,例如基于显著性估计的目标分割,则不能完整地突出显著性目标。
4)传统多视角显著性估计算法仅考虑了多视角间显著性的竞争,没有考虑单视角下显著性的计算。
发明内容
要解决的技术问题
为了避免上述现有技术的不足之处,本发明提出一种基于无监督学习的多视角显著性估计方法,从无标记场景自身的角度来挖掘不同视角在显著性计算中的竞争与联系。
技术方案
一种基于无监督学习的多视角显著性估计方法,其特征在于步骤如下:
步骤1:单视角背景建模
计算边界先验图:像素点x的边界先验Pboundary(x)定义为该点所在图像块Vx到虚拟背景点VB的最短路径:
其中,w(Vi,Vi+1)表示顶点Vi和顶点Vi+1之间边的权重;nx是当前点x到VB的最短路径长度;
计算深度先验图:
其中,是点x处归一化的深度值;
基于归一化的边界与深度先验图,计算单视角背景先验图:
P1(x)∝1-Pboundary(x)·Pdepth(x) (3)
其中,P1(x)代表当前像素点x属于背景区域的概率;
步骤2:采用深层自动编码器对单视角背景进行学习
所述的深层自动编码器由共用中心层且结构对称的编码器与解码器两部分组成,中心层为二值神经元,其余所有神经元均为逻辑神经元;所述的编码器由5层网络结构组成,相邻两层网络是全连接的关系,N0为输入层的神经元数量,其大小由输入图像块对应的向量维数决定;编码器神经元个数逐层减少,Ni≥2Ni+1,i=0,1,2,N3≥2Nc,中心层神经元数量Nc通常远小于输入层神经元数量N0;
步骤3:单视角显著性图计算
对于像素点x,首先提取其对应的大小为dk×dk的图像块,并堆叠所有颜色通道数据来生成对应的向量表示sk(x);接下来,通过将图像块向量sk(x)输入到学习后的深层自动编码器中,其中/>表示尺度k下深层自动编码器/>的参数,来得到重构图像块向量/>最后,计算重构与实际图像块向量的l2范数来得到单视角下像素点x的显著性值/>
步骤4:联合视角背景建模
将不同视角下的输入变换到统一公共平面上来实现全局背景整合:先手动标定p组当前视角平面与对应公共平面中对应的网格参考点与再利用成对的标记点求解两个视角间投影关系对应的3×3非奇异矩阵Q:
对于每一个视角图像Ai,根据式(5)来建立方程组求解其对应的变换矩阵Qi,并将Ai通过变换TQi变换到公共平面上接下来整合不同视角下的投影变换结果形成公共平面;删除重叠的区域,使得每个重叠区域仅保留一次;最后再根据式(3)进行联合背景建模,得到联合背景先验图P2(x);
步骤5:联合视角背景学习
通过已知几何变换来避免从未观察区域进行背景学习,再对剩下区域根据P2(x)值进行排序,估计出前80%的区域作为候选背景区域;基于候选背景区域,采样m×n个图像块训练样本来对深层自动编码器进行训练,n为视角图像数量;同样采用两阶段训练方式来训练深层自动编码器,利用预训练为深层自动编码器设定初值,再利用反向传播算法微调整个深层自动编码器参数得到联合背景建模下的深层自动编码器
步骤6:联合视角显著性图计算
在当前视角图像Ai下,平面上每个点在尺度k下的显著性可通过计算联合视角下训练深层自动编码器/>的重构误差得到;再根据/>的反变换/>来将显著性图变换到当前图像视角下,得到联合视角显著性图/>
步骤7:多尺度显著性图融合
采样多尺度图像块模板来进行训练与显著性计算:
首先将图像块大小设置为l个尺度:d1×d1,d2×d2,…,dl×dl,按照步骤2与3计算尺度1到尺度l下单视角显著性图最终多尺度单视角显著性图为不同尺度下显著性图的平均结果:
其中N(·)表示归一化算子;相似地,在尺度1,2,…,l下,按照步骤5与6分别计算多个个尺度下的联合显著性图再平均不同尺度下的结果得到总的多尺度联合视角显著性图:
多尺度图像块模板可采用如下的设置方式2dk≤dk+1,k=1,2,…,l-1;
采用显著性图紧凑性度量系数β1与β2来整合单视角与联合视角对应的显著性图:
其中,(Ei,1,Ej,1)与(Ei,2,Ej,2)分别表示显著性图S1(x)与S2(x)的平均空间位置;(xi,xj)表示像素点x的x轴与y轴坐标;在此基础上,总显著性图S(x)可按如下方式计算:
S(x)=β1·S1(x)+β2·S2(x)+β1·β2·S1(x)·S2(x) (9)
其中第一项表示基于紧凑性度量系数的单视角与联合视角线性加权结果,第二项的作用在于增加两部分公共关注区域的显著性值。
本发明技术方案更进一步的说:步骤1中采用Palou和Salembier提出的单目深度计算方法来对深度图Ddepth(x)进行估计。
本发明技术方案更进一步的说:步骤2中的编码器可以扩展到6层或7层。
本发明技术方案更进一步的说:所述的步骤2中的深层自动编码器的训练如下:从步骤1计算的背景先验图P1(x)中前80%点对应的候选背景区域进行随机采样,提取m对dk×dk图像块作为输入与输出来训练深层自动编码器;深层自动编码器训练过程包括预训练和反向传播,在预训练中,首先逐层学习出一组受限玻尔兹曼机RBM来初始化深层自动编码器;在反向传播阶段,基于初始化的参数,再通过最小化输出与目标之间的交叉熵误差来全局微调整个深层自动编码器。
本发明技术方案更进一步的说:所述的步骤7中多尺度图像块模板可采用如下设置方式2dk≤dk+1,k=1,2,…,l-1,例如7×7,15×15,31×31,63×63。
有益效果
本发明提出的一种基于无监督学习的多视角显著性估计方法,有益效果如下:
1.本发明方法不依赖于人类眼动信息,属于无监督学习算法。之前基于深度学习的显著性估计算法大都需要利用人类眼动数据来进行学习,获取人们关注位置等信息。然而大量眼动数据的获取是一个非常困难的问题,特别是多视角条件下的眼动数据采集。针对这一问题,本发明从场景数据本身的角度入手,利用不同区域间的竞争关系来估计每个视角对应的显著性图。具体如步骤2与步骤4中所示,仅需要采样场景无标记图像块来进行学习。
2.本发明方法通过对背景进行学习来突出前景显著性目标区域。之前算法在于探索显著性区域特征,本发明则着眼于场景背景的建模,从而突出于背景不一致的前景区域。基于背景学习,分别得到当前步骤3单一视角下的显著性图与步骤6联合背景学习下的显著性图。对于复杂背景,本发明方法可以更好的针对背景进行学习,减少背景的干扰,得到比基于显著性区域学习算法更高的预测精度。
3.本发明方法中的步骤7的多尺度显著性图融合可以更好地检测不同尺度的显著性目标。
4.本发明结合了单视角与多视角下的显著性计算。实验表明整合单视角与多视角下的显著性计算可以进一步提升多视角显著性估计结果。同时,本发明可以分别从多视角图像扩展到多视角视频进行显著性估计。
附图说明
图1本发明整体方案流程图;
图2本发明中深层自动编码器网络结构图;
图3联合视角显著性计算流程图;
图4从当前视图平面到公共平面的投影转换示例;
图5监控环境多视角显著性估计视觉比较图:(a)多视角视图;(b)不同视角真值显著性图;(c)MC LC-KSVD显著性图;(d)本方法显著性图;
图6双目显著性估计视觉比较图:(a)左视图;(b)右视图;(c)真值显著性图;(d)MCLC-KSVD显著性图;(e)本方法显著性图;(f)MC LC-KSVD显著性目标检测;(g)本方法显著性目标检测。
具体实施方式
现结合实施例、附图对本发明作进一步描述:
本发明整体流程如图1所示。
实施例1:针对监控环境的多视角显著性估计
对于包含n个视角的监控场景,需要计算每个视角下的显著性图。在每个视角下,需要整合单视角与联合视角显著性来计算对应的显著性图。
步骤1:单视角背景建模
首先,为了进行单视角背景学习,需要估计出当前视角图像中可能的背景区域。针对这一问题,本发明采用边界与深度两个先验来完成背景的建模,估计出每个像素点属于背景的概率。
首先是边界先验图的计算。图像边界被证实是一个有效的背景先验。这主要因为目标往往出现在图像的内部区域,而背景通常与边界的连接更紧密。受测地线显著性(Geodesic Saliency,GS)模型的启发,像素点x的边界先验Pboundary(x)定义为该点所在图像块Vx到虚拟背景点VB的最短路径:
其中,w(Vi,Vi+1)表示顶点Vi和顶点Vi+1之间边的权重;nx是当前点x到VB的最短路径长度。
其次是深度先验图的计算。图像深度信息是另一个重要的背景先验。根据日常观察以及立体视觉注意的研究,深度值越大的区域通常越有可能是背景,而目标通常出现在距离观察者相对较近的位置。为了得到深度信息,本发明采用Palou和Salembier提出的单目深度计算方法来对深度图Ddepth(x)进行估计。在此基础上,再计算深度先验图:
其中是点x处归一化的深度值。
最后,基于归一化的边界与深度先验图,单视角背景先验图按如下公式计算:
P1(x)∝1-Pboundary(x)·Pdepth(x) (3)
其中P1(x)代表当前像素点x属于背景区域的概率。
步骤2:单视角背景学习
在估计出当前视角图像各个区域属于背景的概率后,这一步骤的任务是对背景进行学习,获取基于背景学习的描述模型,从而突出不同于背景的前景区域。本发明采用深层自动编码器来完成背景学习。在现有多种深层网络模型中选择自动编码器主要出于以下两方面的考虑。一方面,深层自动编码器的目标输出是输入的重构,不同于卷积神经网络(Convolutional Neural Network,CNN)等其他深层网络的学习过程,深层自动编码器的参数可以直接从无标记的数据中获得,来实现无监督的显著性估计。另一方面,对比于其他无监督训练的深层网络,例如深度信念网络(Deep Belief Network,DBN),深层自动编码器可以学习到更稳定且有鉴别力的特征,同时深层自动编码器具有更强的自适应学习能力。
具体采用如图2所示的深层自动编码器来对背景内容进行学习。深层自动编码器网络由共用中心层且结构对称的编码器与解码器两部分组成。中心层为二值神经元,其余所有神经元均为逻辑神经元。编码器由5层网络结构组成(也可以扩展到6层或7层),相邻两层网络是全连接的关系,N0为输入层的神经元数量,其大小由输入图像块对应的向量维数决定。该网络一个重要特点是编码器神经元个数逐层减少,Ni≥2Ni+1,i=0,1,2,N3≥2Nc,中心层神经元数量Nc通常远小于输入层神经元数量N0。另一方面,又需要通过解码器来在网络输出端重构出输入,这就迫使网络中心层能够发掘出高维输入数据中的内在结构与关系,获得从底层图像信息到有鉴别力编码的映射关系。
基于构建的深层自动编码器,接下来则是训练样本的选取。本发明将从步骤1中计算的背景先验图P1(x)中前80%点对应的候选背景区域进行随机采样。在尺度k下,提取m对dk×dk图像块作为输入与输出来训练深层自动编码器,使得深层自动编码器学习得到背景区域的描述。具体深层自动编码器训练过程通过预训练加反向传播两阶段完成。在预训练中,首先逐层学习出一组受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)来初始化深层自动编码器。在反向传播阶段,基于初始化的参数,再通过最小化输出与目标之间的交叉熵误差来全局微调整个深层自动编码器。
步骤3:单视角显著性图计算
这一步骤的任务是在深层自动编码器训练结束后,根据基于背景学习的深层自动编码器来计算单视角显著性图,得到各个点的单视角显著性值。总体思路是采用深层自动编码器重构误差作为显著性的度量。背景区域通常会得到较小表示误差,而与背景描述不一致的前景目标区域则会得到较大重构误差,从而得到较大显著性值。
具体地,对于像素点x,首先提取其对应的大小为dk×dk的图像块,并堆叠所有颜色通道数据来生成对应的向量表示sk(x)。接下来,通过将图像块向量sk(x)输入到学习后的深层自动编码器中(/>表示尺度k下深层自动编码器/>的参数),来得到重构图像块向量/>最后,计算重构与实际图像块向量的l2范数来得到单视角下像素点x的显著性值/>
步骤4:联合视角背景建模
除了考虑当前图像在该单视角下的显著性计算,还需要考虑多个视角间的竞争关系,来将其他视角对当前视角的影响整合到该图像显著性的计算中,计算联合视角显著性图。联合视角显著性计算流程图如图3所示。
这一步骤的任务是根据不同视角间的关系来对背景区域进行联合建模,估计出背景区域来进行下一步学习。多视角输入通常存在多样化的数据内容与复杂的几何变换关系。针对这一问题,如图4所示,首先需要将不同视角下的输入变换到统一公共平面上来实现全局背景整合。先手动标定p组当前视角平面与对应公共平面中对应的网格参考点与/>再利用成对的标记点求解两个视角间投影关系对应的3×3非奇异矩阵Q:
对于每一个视角图像Ai,根据式(5)来建立方程组求解其对应的变换矩阵Qi,并将Ai通过变换变换到公共平面上/>接下来整合不同视角下的投影变换结果形成公共平面。如图4所示,不同视角变换后可能存在一定重叠,直接从变换后的公共平面上计算显著性可能存在信息的失真。因此需要删除掉重叠的区域,使得每个重叠区域仅保留一次。最后再根据式(3)进行联合背景建模,得到联合背景先验图P2(x)。
步骤5:联合视角背景学习
这一步骤的任务是根据步骤4中计算的P2(x)进行背景学习,得到联合视角下的背景学习模型。如图4所示,公共平面中可能存在未观察区域,直接根据联合背景先验图P2(x)进行随机采样,这些区域将会被作为背景进行学习。针对这一问题,首先需要通过已知几何变换来避免从未观察区域进行背景学习,再对剩下区域根据P2(x)值进行排序,估计出前80%的区域作为候选背景区域。最后,基于候选背景区域,采样m×n个大小为dk×dk图像块训练样本来对图2深层自动编码器进行训练(n为视角图像数量,m为每个视角采样数量)。同样采用两阶段训练方式来训练深层自动编码器,首先利用预训练为深层自动编码器设定初值,再利用反向传播算法微调整个深层自动编码器参数得到联合背景建模下的深层自动编码器
步骤6:联合视角显著性图计算
在当前视角图像Ai下,平面上每个点在尺度k下的显著性可通过计算联合视角下深层自动编码器/>的重构误差得到。接下来,再根据/>的反变换/>来将显著性图/>变换到当前图像视角下。得到联合视角显著性图/>
步骤7:多尺度显著性图融合
步骤2到6是针对尺度k,即图像块大小为dk×dk,来计算显著性的。为了更好地处理不同尺度大小目标场景的显著性估计问题,这一步骤的任务是从多尺度的角度分别进行单视角与联合视角显著性估计,并对单视角与多视角这两部分结果进行融合,生成当前视角对应的最终显著性图。首先,为了检测出不同尺寸的目标,本发明需要采样多尺度图像块模板来进行深层自动编码器的训练与显著性计算。首先将图像块大小设置为l个尺度:d1×d1,d2×d2,…,dl×dl,按照步骤2与3计算尺度1到尺度l下单视角显著性图最终多尺度单视角显著性图为不同尺度下显著性图的平均结果:
其中N(·)表示归一化算子。相似地,在尺度1,2,…,l下,按照步骤5与6分别计算多个个尺度下的联合显著性图再平均不同尺度下的结果得到总的多尺度联合视角显著性图:
多尺度图像块模板可采用如下的设置方式2dk≤dk+1,k=1,2,…,l-1,例如7×7,15×15,31×31,63×63。
针对单视角与联合视角对应的显著性图,下面的任务是将这两部分结果融合成统一的显著性图。一般来说,人类视觉系统更倾向于关注图像中特定的感兴趣区域。因此包含更紧凑目标的显著性图将在融合中获得更大的权重,起到更重要的作用。这里采用显著性图紧凑性度量系数β1与β2来整合单视角与联合视角对应的显著性图:
其中,(Ei,1,Ej,1)与(Ei,2,Ej,2)分别表示显著性图S1(x)与S2(x)的平均空间位置。(xi,xj)表示像素点x的x轴与y轴坐标。在此基础上,总显著性图S(x)可按如下方式计算:
S(x)=β1·S1(x)+β2·S2(x)+β1·β2·S1(x)·S2(x) (9)
其中第一项表示基于紧凑性度量系数的单视角与联合视角线性加权结果,第二项的作用在于增加两部分公共关注区域的显著性值。
实施例2:双目左右视图显著性估计
对于包含左右视图(两个视角)的输入,需要计算最终两个视角下的总显著性图。具体来说,在左右视图下均需要整合单视角与联合视角显著性来计算显著性图,再综合两视图下的显著性估计结果生成总显著性图。
步骤1:单视角背景建模
首先,为了进行单视角背景学习,需要估计出当前视角图像中可能的背景区域。针对这一问题,本发明采用边界与深度两个先验来完成背景的建模,估计出每个像素点属于背景的概率。
首先是边界先验图的计算。图像边界被证实是一个有效的背景先验。这主要因为目标往往出现在图像的内部区域,而背景通常与边界的连接更紧密。受测地线显著性(Geodesic Saliency,GS)模型的启发,像素点x的边界先验Pboundary(x)定义为该点所在图像块Vx到虚拟背景点VB的最短路径:
其中,w(Vi,Vi+1)表示顶点Vi和顶点Vi+1之间边的权重;nx是当前点x到VB的最短路径长度。
其次是深度先验图的计算。图像深度信息是另一个重要的背景先验。根据日常观察以及立体视觉注意的研究,深度值越大的区域通常越有可能是背景,而目标通常出现在距离观察者相对较近的位置。为了得到深度信息,本发明采用Palou和Salembier提出的单目深度计算方法来对深度图Ddepth(x)进行估计。在此基础上,再计算深度先验图:
其中是点x处归一化的深度值。
最后,基于归一化的边界与深度先验图,单视角背景先验图按如下公式计算:
P1(x)∝1-Pboundary(x)·Pdepth(x) (3)
其中P1(x)代表当前像素点x属于背景区域的概率。
步骤2:单视角背景学习
在估计出当前视角图像各个区域属于背景的概率后,这一步骤的任务是对背景进行学习,获取基于背景学习的描述模型,从而突出不同于背景的前景区域。本发明采用深层自动编码器来完成背景学习。在现有多种深层网络模型中选择自动编码器主要出于以下两方面的考虑。一方面,深层自动编码器的目标输出是输入的重构,不同于卷积神经网络(Convolutional Neural Network,CNN)等其他深层网络的学习过程,深层自动编码器的参数可以直接从无标记的数据中获得,来实现无监督的显著性估计。另一方面,对比于其他无监督训练的深层网络,例如深度信念网络(Deep Belief Network,DBN),深层自动编码器可以学习到更稳定且有鉴别力的特征,同时深层自动编码器具有更强的自适应学习能力。
具体采用如图2所示的深层自动编码器来对背景内容进行学习。深层自动编码器网络由共用中心层且结构对称的编码器与解码器两部分组成。中心层为二值神经元,其余所有神经元均为逻辑神经元。编码器由5层网络结构组成(也可以扩展到6层或7层),相邻两层网络是全连接的关系,N0为输入层的神经元数量,其大小由输入图像块对应的向量维数决定。该网络一个重要特点是编码器神经元个数逐层减少,
Ni≥2Ni+1,i=0,1,2,N3≥2Nc,中心层神经元数量Nc通常远小于输入层神经元数量N0。另一方面,又需要通过解码器来在网络输出端重构出输入,这就迫使网络中心层能够发掘出高维输入数据中的内在结构与关系,获得从底层图像信息到有鉴别力编码的映射关系。
基于构建的深层自动编码器,接下来则是训练样本的选取。本发明将从步骤1计算的背景先验图P1(x)中前80%点对应的候选背景区域进行随机采样。在尺度k下,提取m对dk×dk图像块作为输入与输出来训练深层自动编码器,使得深层自动编码器学习得到背景区域的描述。具体深层自动编码器训练过程通过预训练加反向传播两阶段完成。在预训练中,首先逐层学习出一组受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)来初始化深层自动编码器。在反向传播阶段,基于初始化的参数,再通过最小化输出与目标之间的交叉熵误差来全局微调整个深层自动编码器。
步骤3:单视角显著性图计算
这一步骤的任务是在深层自动编码器训练结束后,根据基于背景学习的深层自动编码器来计算单视角显著性图,得到各个点的单视角显著性值。总体思路是采用深层自动编码器重构误差作为显著性的度量。背景区域通常会得到较小表示误差,而与背景描述不一致的前景目标区域则会得到较大重构误差,从而得到较大显著性值。
具体地,对于像素点x,首先提取其对应的大小为dk×dk的图像块,并堆叠所有颜色通道数据来生成对应的向量表示sk(x)。接下来,通过将图像块向量sk(x)输入到学习后的深层自动编码器中(/>表示尺度k下深层自动编码器/>的参数),来得到重构图像块向量/>最后,计算重构与实际图像块向量的l2范数来得到单视角下像素点x的显著性值/>
步骤4:联合视角背景建模
除了考虑当前图像在该单视角下的显著性计算,还需要考虑多个视角间的竞争关系,来将其他视角对当前视角的影响整合到该图像显著性的计算中,计算联合视角显著性图。联合视角显著性计算流程图如图3所示。
这一步骤的任务是根据不同视角间的关系来对背景区域进行联合建模,估计出背景区域来进行下一步学习。多视角输入通常存在多样化的数据内容与复杂的几何变换关系。针对这一问题,如图4所示,首先需要将不同视角下的输入变换到统一公共平面上来实现全局背景整合。先手动标定p组当前视角平面与对应公共平面中对应的网格参考点与/>再利用成对的标记点求解两个视角间投影关系对应的3×3非奇异矩阵Q:
对于每一个视角图像Ai,根据式(5)来建立方程组求解其对应的变换矩阵Qi,并将Ai通过变换TQi变换到公共平面上接下来整合不同视角下的投影变换结果形成公共平面。如图4所示,不同视角变换后可能存在一定重叠,直接从变换后的公共平面上计算显著性可能存在信息的失真。因此需要删除掉重叠的区域,使得每个重叠区域仅保留一次。最后再根据式(3)进行联合背景建模,得到联合背景先验图P2(x)。
步骤5:联合视角背景学习
这一步骤的任务是根据步骤4中计算的P2(x)进行背景学习,得到联合视角下的背景学习模型。如图4所示,公共平面中可能存在未观察区域,直接根据联合背景先验图P2(x)进行随机采样,这些区域将会被作为背景进行学习。针对这一问题,首先需要通过已知几何变换来避免从未观察区域进行背景学习,再对剩下区域根据P2(x)值进行排序,估计出前80%的区域作为候选背景区域。最后,基于候选背景区域,采样m×2个大小为dk×dk图像块训练样本来对图2深层自动编码器进行训练(m为每个视角采样数量)。同样采用两阶段训练方式来训练深层自动编码器,首先利用预训练为深层自动编码器设定初值,再利用反向传播算法微调整个深层自动编码器参数得到联合背景建模下的深层自动编码器
步骤6:联合视角显著性图计算
在当前视角图像Ai下,平面上每个点在尺度k下的显著性可通过计算联合视角下深层自动编码器/>的重构误差得到。接下来,再根据/>的反变换/>来将显著性图/>变换到当前图像视角下。得到联合视角显著性图/>
步骤7:多尺度显著性图融合
步骤2到6是针对尺度k,即图像块大小为dk×dk,来计算显著性的。为了更好地处理不同尺度大小目标场景的显著性估计问题,这一步骤的任务是从多尺度的角度分别进行单视角与联合视角显著性估计,并对单视角与多视角这两部分结果进行融合,生成当前视角对应的最终显著性图。首先,为了检测出不同尺寸的目标,本发明需要采样多尺度图像块模板来进行深层自动编码器的训练与显著性计算。首先将图像块大小设置为l个尺度:d1×d1,d2×d2,…,dl×dl,按照步骤2与3计算尺度1到尺度l下单视角显著性图最终多尺度单视角显著性图为不同尺度下显著性图的平均结果:
其中N(·)表示归一化算子。相似地,在尺度1,2,…,l下,按照步骤5与6分别计算多个个尺度下的联合显著性图再平均不同尺度下的结果得到总的多尺度联合视角显著性图:
多尺度图像块模板可采用如下的设置方式2dk≤dk+1,k=1,2,…,l-1,例如7×7,15×15,31×31,63×63。
针对单视角与联合视角对应的显著性图,下面的任务是将这两部分结果融合成统一的显著性图。一般来说,人类视觉系统更倾向于关注图像中特定的感兴趣区域。因此包含更紧凑目标的显著性图将在融合中获得更大的权重,起到更重要的作用。这里采用显著性图紧凑性度量系数β1与β2来整合单视角与联合视角对应的显著性图:
其中,(Ei,1,Ej,1)与(Ei,2,Ej,2)分别表示显著性图S1(x)与S2(x)的平均空间位置。(xi,xj)表示像素点x的x轴与y轴坐标。在此基础上,总显著性图S(x)可按如下方式计算:
S(x)=β1·S1(x)+β2·S2(x)+β1·β2·S1(x)·S2(x) (9)
其中第一项表示基于紧凑性度量系数的单视角与联合视角线性加权结果,第二项的作用在于增加两部分公共关注区域的显著性值。
最后按照式(9)分别计算左右视图对应的显著性图,再进行平均得到最终的显著性估计结果。
实验比较:
4种显著性评估准则:
1)曲线下面积(Area Under the Curve,AUC):AUC计算的是模型受试者工作特征(Receiver Operating Characteristic,ROC)曲线下的面积。为了画ROC曲线,当前图像上所有的注视点将被当作正样本,并且同等数量的负样本点将从非注视区域均匀采样得到。接下来,通过变换一个阈值来将估计出的显著性图二值化,即将显著性图看做一个区分正负样本的分类器,并基于分类的结果来计算虚警率(False Positive Rate)和正确率(TruePositive Rate)。对于每个显著性图,需要重复上面的操作100次来抽取负样本点。最终每个模型的ROC曲线是这100次结果以及数据库上所有图像的平均值。
2)修正的曲线下面积(Shuffled AUC,sAUC):人类的注视点通常容易集中在输入图像的中心,即中心偏置(Center-Bias,CB)现象。而这种现象可能会影响标准AUC的评估。为了更加公平地比较加与不加中心偏置的模型,我们采用由Tatler等提出的是sAUC准则来进行评估。相比于AUC,sAUC主要的不同在于在获取负样本点时,是通过从该数据库中除去正样本点外所有注视点的联合中采样得到的,而不是像AUC那样从当前图像的非关注区域获取。正由于对中心偏置和边界效应的稳定性,sAUC被广泛应用于关于显著性的研究中,并逐渐成为了公平估计不同模型的关键准则。类似于标准AUC,sAUC将输出一个0到1之间的标量值。
3)CC(Pearson相关系数):CC是一种统计方法来计算两个变量的相关性。因此CC也被用于测量估计显著性图与真值显著性图,即人类注视点密度图之间的相关性。
4)KL散度(Kullback-Leibler Divergence,KLD):KLD通常被用来计算两个概率密度函数的差异性,同样也可作为显著性评估准则。不同于之前的相似性评价准则,KLD是一个计算差异性而不是相似性的准则,因此可用来提供补足的实验结果。
AUC,sAUC,CC结果越高,显著性估计结果越准确。KLD结果越低,显著性估计结果越准确。
表1.MCIE多视角数据库上与传统多视角显著性估计算法比较
表2. 3DGaze双目显著性数据库上与传统多视角显著性估计算法比较
AUC | sAUC | CC | KLD | |
MC LC-KSVD | 0.860 | 0.787 | 0.597 | 0.315 |
本发明方法 | 0.874 | 0.824 | 0.682 | 0.224 |
定量实验结果表明本发明整合单视角与多视角联合显著性算法可以比仅考虑单一视角更加准确的估计多视角显著性。同时,本发明与传统多视角显著性估计算法MC LC-KSVD(Y.Luo,M.Jiang,Y.Wong,and Q.Zhao,“Multi-camera saliency,”IEEETrans.Pattern Anal.Mach.Intell.,vol.37,no.10,pp.2057-2070,Jan.2015.)进行了比较。在不同数据库下本发明方法要胜过MC LS-KSVD算法。同时,视觉比较结果表明本发明方法可以更好地对背景进行建模与估计,从而减少显著性估计中背景的干扰,突出显著性前景区域。对于较大目标可以较完整地突出目标,更好地应用于目标阶的显著性检测与其他应用。
Claims (5)
1.一种基于无监督学习的多视角显著性估计方法,其特征在于步骤如下:
步骤1:单视角背景建模
计算边界先验图:像素点x的边界先验Pboundary(x)定义为该点所在图像块Vx到虚拟背景点VB的最短路径:
其中,w(Vi,Vi+1)表示顶点Vi和顶点Vi+1之间边的权重;nx是当前点x到VB的最短路径长度;
计算深度先验图:
其中,是点x处归一化的深度值;
基于归一化的边界与深度先验图,计算单视角背景先验图:
P1(x)∝1-Pboundary(x)·Pdepth(x) (3)
其中,P1(x)代表当前像素点x属于背景区域的概率;
步骤2:采用深层自动编码器对单视角背景进行学习
所述的深层自动编码器由共用中心层且结构对称的编码器与解码器两部分组成,中心层为二值神经元,其余所有神经元均为逻辑神经元;所述的编码器由5层网络结构组成,相邻两层网络是全连接的关系,N0为输入层的神经元数量,其大小由输入图像块对应的向量维数决定;编码器神经元个数逐层减少,Ni≥2Ni+1,i=0,1,2,N3≥2Nc,中心层神经元数量Nc通常远小于输入层神经元数量N0;
步骤3:单视角显著性图计算
对于像素点x,首先提取其对应的大小为dk×dk的图像块,并堆叠所有颜色通道数据来生成对应的向量表示sk(x);接下来,通过将图像块向量sk(x)输入到学习后的深层自动编码器中,其中/>表示尺度k下深层自动编码器/>的参数,来得到重构图像块向量最后,计算重构与实际图像块向量的l2范数来得到单视角下像素点x的显著性值/>
步骤4:联合视角背景建模
将不同视角下的输入变换到统一公共平面上来实现全局背景整合:先手动标定p组当前视角平面与对应公共平面中对应的网格参考点与再利用成对的标记点求解两个视角间投影关系对应的3×3非奇异矩阵Q:
对于每一个视角图像Ai,根据式(5)来建立方程组求解其对应的变换矩阵Qi,并将Ai通过变换变换到公共平面上/>接下来整合不同视角下的投影变换结果形成公共平面;删除重叠的区域,使得每个重叠区域仅保留一次;最后再根据式(3)进行联合背景建模,得到联合背景先验图P2(x);
步骤5:联合视角背景学习
通过已知几何变换来避免从未观察区域进行背景学习,再对剩下区域根据P2(x)值进行排序,估计出前80%的区域作为候选背景区域;基于候选背景区域,采样m×n个图像块训练样本来对深层自动编码器进行训练,n为视角图像数量;同样采用两阶段训练方式来训练深层自动编码器,利用预训练为深层自动编码器设定初值,再利用反向传播算法微调整个深层自动编码器参数得到联合背景建模下的深层自动编码器
步骤6:联合视角显著性图计算
在当前视角图像Ai下,平面上每个点在尺度k下的显著性可通过计算联合视角下训练深层自动编码器/>的重构误差得到;再根据/>的反变换/>来将显著性图变换到当前图像视角下,得到联合视角显著性图/>
步骤7:多尺度显著性图融合
采样多尺度图像块模板来进行训练与显著性计算:
首先将图像块大小设置为l个尺度:d1×d1,d2×d2,…,dl×dl,按照步骤2与3计算尺度1到尺度l下单视角显著性图最终多尺度单视角显著性图为不同尺度下显著性图的平均结果:
其中N(·)表示归一化算子;相似地,在尺度1,2,…,l下,按照步骤5与6分别计算多个个尺度下的联合显著性图再平均不同尺度下的结果得到总的多尺度联合视角显著性图:
多尺度图像块模板可采用如下的设置方式2dk≤dk+1,k=1,2,…,l-1;
采用显著性图紧凑性度量系数β1与β2来整合单视角与联合视角对应的显著性图:
其中,(Ei,1,Ej,1)与(Ei,2,Ej,2)分别表示显著性图S1(x)与S2(x)的平均空间位置;(xi,xj)表示像素点x的x轴与y轴坐标;在此基础上,总显著性图S(x)可按如下方式计算:
S(x)=β1·S1(x)+β2·S2(x)+β1·β2·S1(x)·S2(x) (9)
其中第一项表示基于紧凑性度量系数的单视角与联合视角线性加权结果,第二项的作用在于增加两部分公共关注区域的显著性值。
2.根据权利要求1所述的一种基于无监督学习的多视角显著性估计方法,其特征在于:步骤1中采用Palou和Salembier提出的单目深度计算方法来对深度图Ddepth(x)进行估计。
3.根据权利要求1所述的一种基于无监督学习的多视角显著性估计方法,其特征在于:步骤2中的编码器可以扩展到6层或7层。
4.根据权利要求1所述的一种基于无监督学习的多视角显著性估计方法,其特征在于:所述的步骤2中的深层自动编码器的训练如下:从步骤1计算的背景先验图P1(x)中前80%点对应的候选背景区域进行随机采样,提取m对dk×dk图像块作为输入与输出来训练深层自动编码器;深层自动编码器训练过程包括预训练和反向传播,在预训练中,首先逐层学习出一组受限玻尔兹曼机RBM来初始化深层自动编码器;在反向传播阶段,基于初始化的参数,再通过最小化输出与目标之间的交叉熵误差来全局微调整个深层自动编码器。
5.根据权利要求1所述的一种基于无监督学习的多视角显著性估计方法,其特征在于:所述的步骤7中多尺度图像块模板可采用如下设置方式2dk≤dk+1,k=1,2,…,l-1,例如7×7,15×15,31×31,63×63。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011250827.XA CN112329662B (zh) | 2020-11-10 | 2020-11-10 | 基于无监督学习的多视角显著性估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011250827.XA CN112329662B (zh) | 2020-11-10 | 2020-11-10 | 基于无监督学习的多视角显著性估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112329662A CN112329662A (zh) | 2021-02-05 |
CN112329662B true CN112329662B (zh) | 2024-05-10 |
Family
ID=74317809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011250827.XA Active CN112329662B (zh) | 2020-11-10 | 2020-11-10 | 基于无监督学习的多视角显著性估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329662B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673444B (zh) * | 2021-08-19 | 2022-03-11 | 清华大学 | 一种基于角点池化的路口多视角目标检测方法及系统 |
CN113763474B (zh) * | 2021-09-16 | 2024-04-09 | 上海交通大学 | 一种基于场景几何约束的室内单目深度估算方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105139385A (zh) * | 2015-08-12 | 2015-12-09 | 西安电子科技大学 | 基于深层自动编码器重构的图像视觉显著性区域检测方法 |
CN107330973A (zh) * | 2017-07-03 | 2017-11-07 | 深圳市唯特视科技有限公司 | 一种基于多视角监督的单视角重建方法 |
CN108898145A (zh) * | 2018-06-15 | 2018-11-27 | 西南交通大学 | 一种结合深度学习的图像显著目标检测方法 |
CN109509191A (zh) * | 2018-11-15 | 2019-03-22 | 中国地质大学(武汉) | 一种图像显著性目标检测方法及系统 |
CN109582993A (zh) * | 2018-06-20 | 2019-04-05 | 长安大学 | 城市交通场景图像理解与多视角群智优化方法 |
CN109583499A (zh) * | 2018-11-30 | 2019-04-05 | 河海大学常州校区 | 一种基于无监督sdae网络的输电线路背景目标分类系统 |
-
2020
- 2020-11-10 CN CN202011250827.XA patent/CN112329662B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105139385A (zh) * | 2015-08-12 | 2015-12-09 | 西安电子科技大学 | 基于深层自动编码器重构的图像视觉显著性区域检测方法 |
CN107330973A (zh) * | 2017-07-03 | 2017-11-07 | 深圳市唯特视科技有限公司 | 一种基于多视角监督的单视角重建方法 |
CN108898145A (zh) * | 2018-06-15 | 2018-11-27 | 西南交通大学 | 一种结合深度学习的图像显著目标检测方法 |
CN109582993A (zh) * | 2018-06-20 | 2019-04-05 | 长安大学 | 城市交通场景图像理解与多视角群智优化方法 |
CN109509191A (zh) * | 2018-11-15 | 2019-03-22 | 中国地质大学(武汉) | 一种图像显著性目标检测方法及系统 |
CN109583499A (zh) * | 2018-11-30 | 2019-04-05 | 河海大学常州校区 | 一种基于无监督sdae网络的输电线路背景目标分类系统 |
Non-Patent Citations (1)
Title |
---|
视觉显著性检测:一种融合长期和短期特征的信息论算法;钱晓亮;郭雷;韩军伟;胡新韬;程塨;;电子与信息学报;20130715(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112329662A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
Xie et al. | Multilevel cloud detection in remote sensing images based on deep learning | |
CN108197587B (zh) | 一种通过人脸深度预测进行多模态人脸识别的方法 | |
CN112446270B (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN110348330B (zh) | 基于vae-acgan的人脸姿态虚拟视图生成方法 | |
WO2020108362A1 (zh) | 人体姿态检测方法、装置、设备及存储介质 | |
Truong et al. | Pdc-net+: Enhanced probabilistic dense correspondence network | |
CN111709313B (zh) | 基于局部和通道组合特征的行人重识别方法 | |
CN107766864B (zh) | 提取特征的方法和装置、物体识别的方法和装置 | |
CN112287954A (zh) | 图像分类方法、图像分类模型的训练方法及其装置 | |
CN110222572A (zh) | 跟踪方法、装置、电子设备及存储介质 | |
Etezadifar et al. | A new sample consensus based on sparse coding for improved matching of SIFT features on remote sensing images | |
CN113963032A (zh) | 一种融合目标重识别的孪生网络结构目标跟踪方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN110222718A (zh) | 图像处理的方法及装置 | |
Hirner et al. | FC-DCNN: A densely connected neural network for stereo estimation | |
Fu et al. | Learning to reduce scale differences for large-scale invariant image matching | |
CN114882537A (zh) | 一种基于神经辐射场的手指新视角图像生成方法 | |
CN115063526A (zh) | 二维图像的三维重建方法、系统、终端设备及存储介质 | |
CN112465796B (zh) | 一种融合焦点堆栈和全聚焦图像的光场特征提取方法 | |
CN112070181B (zh) | 一种基于图像流的协同检测方法及装置、存储介质 | |
CN117133041A (zh) | 一种基于深度学习的三维重建网络人脸识别方法、系统、设备及介质 | |
CN117351078A (zh) | 基于形状先验的目标尺寸与6d姿态估计方法 | |
CN108765384B (zh) | 一种联合流形排序和改进凸包的显著性检测方法 | |
CN110910497A (zh) | 实现增强现实地图的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |