CN108961196B - 一种基于图的3d注视点预测的显著性融合方法 - Google Patents

一种基于图的3d注视点预测的显著性融合方法 Download PDF

Info

Publication number
CN108961196B
CN108961196B CN201810643503.9A CN201810643503A CN108961196B CN 108961196 B CN108961196 B CN 108961196B CN 201810643503 A CN201810643503 A CN 201810643503A CN 108961196 B CN108961196 B CN 108961196B
Authority
CN
China
Prior art keywords
saliency
map
original picture
super
significance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810643503.9A
Other languages
English (en)
Other versions
CN108961196A (zh
Inventor
刘琼
李贝
杨铀
喻莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201810643503.9A priority Critical patent/CN108961196B/zh
Publication of CN108961196A publication Critical patent/CN108961196A/zh
Application granted granted Critical
Publication of CN108961196B publication Critical patent/CN108961196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明公开了一种基于图的3D注视点预测的显著性融合方法,包括显著图生成和基于图的融合,所述显著图生成,包括从原始视频序列中获取每帧原始图片的显著图;所述基于图的融合,包括:以原始图片中每个超像素点与其相邻超像素点之间的显著度平滑约束最小,同时原始图片与其相邻原始图片之间的显著性差异最小为目标,结合显著图,构建原始图片的能量函数;在原始图片中求解能量函数,得到目标显著图。本发明考虑了超像素点与其相邻超像素点之间的显著度平滑约束,以及原始图片与其相邻原始图片之间的显著性差异,使得本发明显著性融合方法在多模态特征融合过程中的不同模态特征预测显著性较好。

Description

一种基于图的3D注视点预测的显著性融合方法
技术领域
本发明属于图像处理和计算机视觉领域,更具体地,涉及一种基于图的3D注视点预测的显著性融合方法。
背景技术
在视觉注意的领域内,已经存在相当多的针对2D视觉注意的模型,这些模型大致可以分为人眼注视点预测模型和显著性物体检测模型两大类。其中前者在像素尺度上计算显著强度图,后者旨在检测并分割一个场景中的显著物体或区域。针对人眼注视点预测的视觉注意模型已经相当多,然而对3D视频的注视点预测模型的研究在最近几年才刚刚开始。概括地说,大多数3D注视点预测模型的框架是从2D注视点预测模型中扩展而来。该框架主要包括两个步骤,第一步是从原始的颜色、深度视频序列中提取一系列的特征图,比如说低层次特征、深度/视差信息、运动特征等;第二步,采用多种多样的方式来融合这些特征图以产生最终的显著图。
例如,Coria引入视差作为一种3D信息,假设在成像时靠近摄像机的物体具有更高的关注度。他们采用取平均的方式将另外两幅局部边缘和全局纹理的显著图与视差显著图相融合。Wang提出了一个以深度作为附加视觉维度的模型,并以两种不同的方式将深度信息与2D显著图集成在一起。除了深度和视差信息以外,其他属性的特征也被应用到3D注意点预测中,如时间线索,场景分析等。
以上介绍的工作对3D显著性的研究作出了有益的探索。从这些工作以及其他的一些相关工作中我们可以观察到两个发展趋势:
1)3D视觉注意模型需要更多的分辨特征,如深度、视差和各种形式的运动信息;
2)更多特征的采用需要更有效的对这些特征的影响的结合,因而在领域中出现了更精确的融合方法。
其中,对那些相比2D模型更多的视觉特征的研究已经得到了足够的关注,相对而言,领域内对更有效的融合方法的研究仍然是一个开放的问题。
当前,领域内采用最多的对多特征的融合方式是固定权值相加,原因是其所具有的易操作性和高效性等特点。在其他的一些工作中,更多有效的融合方案也得到采用。例如,Fang采用自适应加权的融合方法,为那些小而紧凑的显著区域分配较大的权重。这种融合方法可以实现对具有不同重要性的线索分配相应权值,但仍以线性方式融合线索。与线性融合方法不同,Lu介绍了一种新颖的针对2D静态图像显著图的贝叶斯融合方法;该贝叶斯融合方法被扩展到3D立体视频。这两种贝叶斯融合方法以一种非线性的方式融合显著线索并且整体上取得了相对更好的效果。
无论如何,当前的这些融合方法,无论是线性的还是非线性的,都是基于传统的2D的特征融合理论,而并没有充分考虑3D视觉感知的内在属性。现有技术存在多模态特征融合过程中的不同模态特征预测显著性的不一致甚至互相矛盾的技术问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于图的3D注视点预测的显著性融合方法,由此解决现有技术存在多模态特征融合过程中的不同模态特征预测显著性的不一致甚至互相矛盾的技术问题。
为实现上述目的,本发明提供了一种基于图的3D注视点预测的显著性融合方法,包括显著图生成和基于图的融合,
所述显著图生成,包括从原始视频序列中获取每帧原始图片的显著图;
所述基于图的融合,包括:
(1)以原始图片中每个超像素点与其相邻超像素点之间的显著度平滑约束最小,同时原始图片与其相邻原始图片之间的显著性差异最小为目标,结合显著图,构建原始图片的能量函数;
(2)在原始图片中求解能量函数,得到原始图片的目标显著图。
进一步地,显著图包括:2D静态显著图、运动显著图、深度显著图和高层语义显著图。
进一步地,显著图生成的具体实现方式包括:
采用BMS算法从每帧原始图片的左视点图像生成2D静态显著图,对每帧原始图像进行人脸高层语义,得到高层语义显著图,对每帧原始图像进行SNIC分割,得到超像素图,根据超像素图中每个超像素的全局对比度和背景先验知识得到深度显著图,根据超像素图中每个超像素的运动对比度得到运动显著图。
进一步地,步骤(1)包括:
以原始图片中每个超像素点与其相邻超像素点之间的显著度平滑约束最小,原始图片与其相邻原始图片之间的显著性差异最小,同时原始图片中每个超像素点的显著性标签值与原始图片中每个超像素点在显著图中的显著度之间的差异最小为目标,构建原始图片中每个超像素点的能量函数。
进一步地,平滑约束为原始图片中每个超像素点与其相邻超像素点之间的显著度差异乘以平衡系数,所述平滑系数为原始图片中每个超像素点与其相邻超像素点之间颜色维度差异和深度维度差异组成。
进一步地,步骤(2)包括:
在原始图片中利用置信传播算法求解能量函数,得到目标显著图,对目标显著图进行高斯模糊以及中心偏移,得到优化边缘的目标显著图。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明以原始图片中每个超像素点与其相邻超像素点之间的显著度平滑约束最小,同时原始图片与其相邻原始图片之间的显著性差异最小为目标,结合显著图,构建原始图片中每个超像素点的能量函数。由此可见,本发明构建的能量函数时,充分考虑了相邻帧对当前帧的影响,以及当前帧中相邻超像素点对当前超像素点的影响,并将这些影响在建立能量函数时作为对当前超像素点的多模态的约束。进而解决现有技术存在多模态特征融合过程中的不同模态特征预测显著性的不一致甚至互相矛盾的技术问题。使得本发明显著性融合方法在多模态特征融合过程中的不同模态特征预测显著性较好。
(2)本发明对每帧原始图像进行SNIC分割,得到超像素图,目的是加快运算速度。为了进一步提升性能,减小在超像素边缘产生的显著值突变,对最后的显著图采用高斯模糊以及中心偏移来优化边缘。
附图说明
图1是本发明实施例提供的一种基于图的3D注视点预测的显著性融合方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
一种基于图的3D注视点预测的显著性融合方法,包括显著图生成和基于图的融合,
所述显著图生成,包括从原始视频序列中获取每帧原始图片的显著图;显著图包括:2D静态显著图、运动显著图、深度显著图和高层语义显著图。具体的采用BMS(BoolingMap based Saliency)算法从每帧原始图片的左视点图像生成2D静态显著图,对每帧原始图像进行人脸高层语义,得到高层语义显著图,对每帧原始图像进行SNIC分割,得到超像素图,根据超像素图中每个超像素的全局对比度和背景先验知识得到深度显著图,根据超像素图中每个超像素的运动对比度得到运动显著图。
所述基于图的融合,包括:
(1)以原始图片中每个超像素点与其相邻超像素点之间的显著度平滑约束最小,同时原始图片与其相邻原始图片之间的显著性差异最小为目标,结合显著图,构建原始图片的能量函数;
(2)在原始图片中利用置信传播算法求解能量函数,得到目标显著图,对目标显著图进行高斯模糊以及中心偏移,得到优化边缘的目标显著图。
本发明实施例优选地,步骤(1)包括:
以原始图片中每个超像素点与其相邻超像素点之间的显著度平滑约束最小,原始图片与其相邻原始图片之间的显著性差异最小,同时原始图片中每个超像素点的显著性标签值与原始图片中每个超像素点在显著图中的显著度之间的差异最小为目标,构建原始图片中每个超像素点的能量函数:
Figure BDA0001703177640000051
第一项为数据项:
Figure BDA0001703177640000052
αm表示第m个显著图的权值,
Figure BDA0001703177640000053
表示第t帧原始图片中第m个显著图中第i个超像素点的显著度,其中2D静态显著图、运动显著图、深度显著图的权值定义为
Figure BDA0001703177640000054
Figure BDA0001703177640000055
高层语义显著图的权值设为常数1。
第二项为平滑项(即为平滑约束):
Figure BDA0001703177640000056
N为原始图片中超像素点的邻域空间,β为平滑系数,
Figure BDA0001703177640000057
其中,λ1表示原始图片中每个超像素点与其相邻超像素点之间颜色维度差异值的权重,λ2表示原始图片中每个超像素点与其相邻超像素点之间深度维度差异值的权重,λ1=λ2=0.1。ci和cj分别表示第i个和第j个超像素点在Lab颜色空间的值,di和dj分别表示第i个和第j个超像素点的深度值,δ1为颜色系数,δ2为深度系数。δ1的范围为3~5,δ2的范围为8~10。
Figure BDA0001703177640000061
Figure BDA0001703177640000062
分别表示第t帧原始图片中第i个和第j个超像素点的显著性标签值。
第三项为时域项:
Figure BDA0001703177640000063
如果一个超像素点在之前帧中具有高显著性,那么在当前帧中该超像素点也倾向于具有较高的显著性。
Figure BDA0001703177640000064
为第t-1帧原始图片中第i个超像素点的显著性标签值,0<γ<1,显著性标签值为0或者1。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于图的3D注视点预测的显著性融合方法,其特征在于,包括显著图生成和基于图的融合,
所述显著图生成,包括从原始视频序列中获取每帧原始图片的显著图;
所述基于图的融合,包括:
(1)以原始图片中每个超像素点与其相邻超像素点之间的显著度平滑约束最小,原始图片与其相邻原始图片之间的显著性差异最小,同时原始图片中每个超像素点的显著性标签值与原始图片中每个超像素点在显著图中的显著度之间的差异最小为目标,构建原始图片的能量函数;
(2)在原始图片中求解能量函数,得到原始图片的目标显著图。
2.如权利要求1所述的一种基于图的3D注视点预测的显著性融合方法,其特征在于,所述显著图包括:2D静态显著图、运动显著图、深度显著图和高层语义显著图。
3.如权利要求2所述的一种基于图的3D注视点预测的显著性融合方法,其特征在于,所述显著图生成的具体实现方式包括:
采用BMS算法从每帧原始图片的左视点图像生成2D静态显著图,对每帧原始图像进行人脸高层语义,得到高层语义显著图,对每帧原始图像进行SNIC分割,得到超像素图,根据超像素图中每个超像素的全局对比度和背景先验知识得到深度显著图,根据超像素图中每个超像素的运动对比度得到运动显著图。
4.如权利要求1所述的一种基于图的3D注视点预测的显著性融合方法,其特征在于,所述平滑约束为原始图片中每个超像素点与其相邻超像素点之间的显著度差异乘以平衡系数,所述平滑系数为原始图片中每个超像素点与其相邻超像素点之间颜色维度差异和深度维度差异组成。
5.如权利要求1或2所述的一种基于图的3D注视点预测的显著性融合方法,其特征在于,所述步骤(2)包括:
在原始图片中利用置信传播算法求解能量函数,得到目标显著图,对目标显著图进行高斯模糊以及中心偏移,得到优化边缘的目标显著图。
CN201810643503.9A 2018-06-21 2018-06-21 一种基于图的3d注视点预测的显著性融合方法 Active CN108961196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810643503.9A CN108961196B (zh) 2018-06-21 2018-06-21 一种基于图的3d注视点预测的显著性融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810643503.9A CN108961196B (zh) 2018-06-21 2018-06-21 一种基于图的3d注视点预测的显著性融合方法

Publications (2)

Publication Number Publication Date
CN108961196A CN108961196A (zh) 2018-12-07
CN108961196B true CN108961196B (zh) 2021-08-20

Family

ID=64491648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810643503.9A Active CN108961196B (zh) 2018-06-21 2018-06-21 一种基于图的3d注视点预测的显著性融合方法

Country Status (1)

Country Link
CN (1) CN108961196B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886080A (zh) * 2018-12-29 2019-06-14 深圳云天励飞技术有限公司 人脸活体检测方法、装置、电子设备及可读存储介质
CN110211079B (zh) * 2019-05-22 2021-07-13 首都医科大学 医学图像的融合方法及装置
CN113342157B (zh) * 2020-02-18 2023-01-06 Oppo广东移动通信有限公司 眼球追踪处理方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915950A (zh) * 2015-04-29 2015-09-16 华南理工大学 一种基于能量约束的区域增长超声图像自动分割方法
CN106780450A (zh) * 2016-12-06 2017-05-31 天津大学 一种基于低秩多尺度融合的图像显著性检测方法
CN108038857A (zh) * 2017-12-25 2018-05-15 北京航空航天大学 一种基于语义信息与边缘约束的前景目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7653261B2 (en) * 2004-11-12 2010-01-26 Microsoft Corporation Image tapestry

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915950A (zh) * 2015-04-29 2015-09-16 华南理工大学 一种基于能量约束的区域增长超声图像自动分割方法
CN106780450A (zh) * 2016-12-06 2017-05-31 天津大学 一种基于低秩多尺度融合的图像显著性检测方法
CN108038857A (zh) * 2017-12-25 2018-05-15 北京航空航天大学 一种基于语义信息与边缘约束的前景目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《A Robust 3D Visual Saliency Computation Model For Human Fixation Prediction of Stereoscopic Videos》;Qiong Liu等;《VCIP 2017》;20171213;全文 *
《基于条件随机场和图像分割的显著性检测》;钱生 等;《自动化学报》;20150430;第41卷(第4期);全文 *

Also Published As

Publication number Publication date
CN108961196A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
US8958630B1 (en) System and method for generating a classifier for semantically segmenting an image
US8953874B2 (en) Conversion of monoscopic visual content using image-depth database
US9042648B2 (en) Salient object segmentation
US9414048B2 (en) Automatic 2D-to-stereoscopic video conversion
CN108961196B (zh) 一种基于图的3d注视点预测的显著性融合方法
EP3018627A1 (en) A method and an apparatus for automatic segmentation of an object
Yang et al. All-in-focus synthetic aperture imaging
EP2856425A1 (en) Segmentation of a foreground object in a 3d scene
CN108198172B (zh) 图像显著性检测方法和装置
US9661307B1 (en) Depth map generation using motion cues for conversion of monoscopic visual content to stereoscopic 3D
Matsuo et al. Efficient edge-awareness propagation via single-map filtering for edge-preserving stereo matching
Zuo et al. Moving object detection in video sequence images based on an improved visual background extraction algorithm
Lu et al. Pyramid frequency network with spatial attention residual refinement module for monocular depth estimation
He et al. Iterative transductive learning for automatic image segmentation and matting with RGB-D data
WO2008152607A1 (en) Method, apparatus, system and computer program product for depth-related information propagation
Li et al. Graph-based saliency fusion with superpixel-level belief propagation for 3D fixation prediction
Yang et al. Monocular camera based real-time dense mapping using generative adversarial network
Cai et al. Hole-filling approach based on convolutional neural network for depth image-based rendering view synthesis
Al-Kabbany et al. A novel framework for automatic trimap generation using the gestalt laws of grouping
Tsai et al. A novel method for 2D-to-3D video conversion based on boundary information
EP2947626B1 (en) Method and apparatus for generating spanning tree, method and apparatus for stereo matching, method and apparatus for up-sampling, and method and apparatus for generating reference pixel
Meng et al. Un-VDNet: unsupervised network for visual odometry and depth estimation
Patil et al. Improving depth estimation using map-based depth priors
Wang et al. Transmission map estimation of weather-degraded images using a hybrid of recurrent fuzzy cerebellar model articulation controller and weighted strategy
Wang et al. High accuracy hole filling for Kinect depth maps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant