CN108961196B - 一种基于图的3d注视点预测的显著性融合方法 - Google Patents
一种基于图的3d注视点预测的显著性融合方法 Download PDFInfo
- Publication number
- CN108961196B CN108961196B CN201810643503.9A CN201810643503A CN108961196B CN 108961196 B CN108961196 B CN 108961196B CN 201810643503 A CN201810643503 A CN 201810643503A CN 108961196 B CN108961196 B CN 108961196B
- Authority
- CN
- China
- Prior art keywords
- saliency
- map
- original picture
- super
- significance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 230000003068 static effect Effects 0.000 claims description 8
- 238000000034 method Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000007499 fusion processing Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 10
- 230000000007 visual effect Effects 0.000 description 6
- 238000009499 grossing Methods 0.000 description 3
- 230000008094 contradictory effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
本发明公开了一种基于图的3D注视点预测的显著性融合方法,包括显著图生成和基于图的融合,所述显著图生成,包括从原始视频序列中获取每帧原始图片的显著图;所述基于图的融合,包括:以原始图片中每个超像素点与其相邻超像素点之间的显著度平滑约束最小,同时原始图片与其相邻原始图片之间的显著性差异最小为目标,结合显著图,构建原始图片的能量函数;在原始图片中求解能量函数,得到目标显著图。本发明考虑了超像素点与其相邻超像素点之间的显著度平滑约束,以及原始图片与其相邻原始图片之间的显著性差异,使得本发明显著性融合方法在多模态特征融合过程中的不同模态特征预测显著性较好。
Description
技术领域
本发明属于图像处理和计算机视觉领域,更具体地,涉及一种基于图的3D注视点预测的显著性融合方法。
背景技术
在视觉注意的领域内,已经存在相当多的针对2D视觉注意的模型,这些模型大致可以分为人眼注视点预测模型和显著性物体检测模型两大类。其中前者在像素尺度上计算显著强度图,后者旨在检测并分割一个场景中的显著物体或区域。针对人眼注视点预测的视觉注意模型已经相当多,然而对3D视频的注视点预测模型的研究在最近几年才刚刚开始。概括地说,大多数3D注视点预测模型的框架是从2D注视点预测模型中扩展而来。该框架主要包括两个步骤,第一步是从原始的颜色、深度视频序列中提取一系列的特征图,比如说低层次特征、深度/视差信息、运动特征等;第二步,采用多种多样的方式来融合这些特征图以产生最终的显著图。
例如,Coria引入视差作为一种3D信息,假设在成像时靠近摄像机的物体具有更高的关注度。他们采用取平均的方式将另外两幅局部边缘和全局纹理的显著图与视差显著图相融合。Wang提出了一个以深度作为附加视觉维度的模型,并以两种不同的方式将深度信息与2D显著图集成在一起。除了深度和视差信息以外,其他属性的特征也被应用到3D注意点预测中,如时间线索,场景分析等。
以上介绍的工作对3D显著性的研究作出了有益的探索。从这些工作以及其他的一些相关工作中我们可以观察到两个发展趋势:
1)3D视觉注意模型需要更多的分辨特征,如深度、视差和各种形式的运动信息;
2)更多特征的采用需要更有效的对这些特征的影响的结合,因而在领域中出现了更精确的融合方法。
其中,对那些相比2D模型更多的视觉特征的研究已经得到了足够的关注,相对而言,领域内对更有效的融合方法的研究仍然是一个开放的问题。
当前,领域内采用最多的对多特征的融合方式是固定权值相加,原因是其所具有的易操作性和高效性等特点。在其他的一些工作中,更多有效的融合方案也得到采用。例如,Fang采用自适应加权的融合方法,为那些小而紧凑的显著区域分配较大的权重。这种融合方法可以实现对具有不同重要性的线索分配相应权值,但仍以线性方式融合线索。与线性融合方法不同,Lu介绍了一种新颖的针对2D静态图像显著图的贝叶斯融合方法;该贝叶斯融合方法被扩展到3D立体视频。这两种贝叶斯融合方法以一种非线性的方式融合显著线索并且整体上取得了相对更好的效果。
无论如何,当前的这些融合方法,无论是线性的还是非线性的,都是基于传统的2D的特征融合理论,而并没有充分考虑3D视觉感知的内在属性。现有技术存在多模态特征融合过程中的不同模态特征预测显著性的不一致甚至互相矛盾的技术问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于图的3D注视点预测的显著性融合方法,由此解决现有技术存在多模态特征融合过程中的不同模态特征预测显著性的不一致甚至互相矛盾的技术问题。
为实现上述目的,本发明提供了一种基于图的3D注视点预测的显著性融合方法,包括显著图生成和基于图的融合,
所述显著图生成,包括从原始视频序列中获取每帧原始图片的显著图;
所述基于图的融合,包括:
(1)以原始图片中每个超像素点与其相邻超像素点之间的显著度平滑约束最小,同时原始图片与其相邻原始图片之间的显著性差异最小为目标,结合显著图,构建原始图片的能量函数;
(2)在原始图片中求解能量函数,得到原始图片的目标显著图。
进一步地,显著图包括:2D静态显著图、运动显著图、深度显著图和高层语义显著图。
进一步地,显著图生成的具体实现方式包括:
采用BMS算法从每帧原始图片的左视点图像生成2D静态显著图,对每帧原始图像进行人脸高层语义,得到高层语义显著图,对每帧原始图像进行SNIC分割,得到超像素图,根据超像素图中每个超像素的全局对比度和背景先验知识得到深度显著图,根据超像素图中每个超像素的运动对比度得到运动显著图。
进一步地,步骤(1)包括:
以原始图片中每个超像素点与其相邻超像素点之间的显著度平滑约束最小,原始图片与其相邻原始图片之间的显著性差异最小,同时原始图片中每个超像素点的显著性标签值与原始图片中每个超像素点在显著图中的显著度之间的差异最小为目标,构建原始图片中每个超像素点的能量函数。
进一步地,平滑约束为原始图片中每个超像素点与其相邻超像素点之间的显著度差异乘以平衡系数,所述平滑系数为原始图片中每个超像素点与其相邻超像素点之间颜色维度差异和深度维度差异组成。
进一步地,步骤(2)包括:
在原始图片中利用置信传播算法求解能量函数,得到目标显著图,对目标显著图进行高斯模糊以及中心偏移,得到优化边缘的目标显著图。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明以原始图片中每个超像素点与其相邻超像素点之间的显著度平滑约束最小,同时原始图片与其相邻原始图片之间的显著性差异最小为目标,结合显著图,构建原始图片中每个超像素点的能量函数。由此可见,本发明构建的能量函数时,充分考虑了相邻帧对当前帧的影响,以及当前帧中相邻超像素点对当前超像素点的影响,并将这些影响在建立能量函数时作为对当前超像素点的多模态的约束。进而解决现有技术存在多模态特征融合过程中的不同模态特征预测显著性的不一致甚至互相矛盾的技术问题。使得本发明显著性融合方法在多模态特征融合过程中的不同模态特征预测显著性较好。
(2)本发明对每帧原始图像进行SNIC分割,得到超像素图,目的是加快运算速度。为了进一步提升性能,减小在超像素边缘产生的显著值突变,对最后的显著图采用高斯模糊以及中心偏移来优化边缘。
附图说明
图1是本发明实施例提供的一种基于图的3D注视点预测的显著性融合方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
一种基于图的3D注视点预测的显著性融合方法,包括显著图生成和基于图的融合,
所述显著图生成,包括从原始视频序列中获取每帧原始图片的显著图;显著图包括:2D静态显著图、运动显著图、深度显著图和高层语义显著图。具体的采用BMS(BoolingMap based Saliency)算法从每帧原始图片的左视点图像生成2D静态显著图,对每帧原始图像进行人脸高层语义,得到高层语义显著图,对每帧原始图像进行SNIC分割,得到超像素图,根据超像素图中每个超像素的全局对比度和背景先验知识得到深度显著图,根据超像素图中每个超像素的运动对比度得到运动显著图。
所述基于图的融合,包括:
(1)以原始图片中每个超像素点与其相邻超像素点之间的显著度平滑约束最小,同时原始图片与其相邻原始图片之间的显著性差异最小为目标,结合显著图,构建原始图片的能量函数;
(2)在原始图片中利用置信传播算法求解能量函数,得到目标显著图,对目标显著图进行高斯模糊以及中心偏移,得到优化边缘的目标显著图。
本发明实施例优选地,步骤(1)包括:
以原始图片中每个超像素点与其相邻超像素点之间的显著度平滑约束最小,原始图片与其相邻原始图片之间的显著性差异最小,同时原始图片中每个超像素点的显著性标签值与原始图片中每个超像素点在显著图中的显著度之间的差异最小为目标,构建原始图片中每个超像素点的能量函数:
第二项为平滑项(即为平滑约束):N为原始图片中超像素点的邻域空间,β为平滑系数,其中,λ1表示原始图片中每个超像素点与其相邻超像素点之间颜色维度差异值的权重,λ2表示原始图片中每个超像素点与其相邻超像素点之间深度维度差异值的权重,λ1=λ2=0.1。ci和cj分别表示第i个和第j个超像素点在Lab颜色空间的值,di和dj分别表示第i个和第j个超像素点的深度值,δ1为颜色系数,δ2为深度系数。δ1的范围为3~5,δ2的范围为8~10。和分别表示第t帧原始图片中第i个和第j个超像素点的显著性标签值。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于图的3D注视点预测的显著性融合方法,其特征在于,包括显著图生成和基于图的融合,
所述显著图生成,包括从原始视频序列中获取每帧原始图片的显著图;
所述基于图的融合,包括:
(1)以原始图片中每个超像素点与其相邻超像素点之间的显著度平滑约束最小,原始图片与其相邻原始图片之间的显著性差异最小,同时原始图片中每个超像素点的显著性标签值与原始图片中每个超像素点在显著图中的显著度之间的差异最小为目标,构建原始图片的能量函数;
(2)在原始图片中求解能量函数,得到原始图片的目标显著图。
2.如权利要求1所述的一种基于图的3D注视点预测的显著性融合方法,其特征在于,所述显著图包括:2D静态显著图、运动显著图、深度显著图和高层语义显著图。
3.如权利要求2所述的一种基于图的3D注视点预测的显著性融合方法,其特征在于,所述显著图生成的具体实现方式包括:
采用BMS算法从每帧原始图片的左视点图像生成2D静态显著图,对每帧原始图像进行人脸高层语义,得到高层语义显著图,对每帧原始图像进行SNIC分割,得到超像素图,根据超像素图中每个超像素的全局对比度和背景先验知识得到深度显著图,根据超像素图中每个超像素的运动对比度得到运动显著图。
4.如权利要求1所述的一种基于图的3D注视点预测的显著性融合方法,其特征在于,所述平滑约束为原始图片中每个超像素点与其相邻超像素点之间的显著度差异乘以平衡系数,所述平滑系数为原始图片中每个超像素点与其相邻超像素点之间颜色维度差异和深度维度差异组成。
5.如权利要求1或2所述的一种基于图的3D注视点预测的显著性融合方法,其特征在于,所述步骤(2)包括:
在原始图片中利用置信传播算法求解能量函数,得到目标显著图,对目标显著图进行高斯模糊以及中心偏移,得到优化边缘的目标显著图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810643503.9A CN108961196B (zh) | 2018-06-21 | 2018-06-21 | 一种基于图的3d注视点预测的显著性融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810643503.9A CN108961196B (zh) | 2018-06-21 | 2018-06-21 | 一种基于图的3d注视点预测的显著性融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108961196A CN108961196A (zh) | 2018-12-07 |
CN108961196B true CN108961196B (zh) | 2021-08-20 |
Family
ID=64491648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810643503.9A Active CN108961196B (zh) | 2018-06-21 | 2018-06-21 | 一种基于图的3d注视点预测的显著性融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108961196B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886080A (zh) * | 2018-12-29 | 2019-06-14 | 深圳云天励飞技术有限公司 | 人脸活体检测方法、装置、电子设备及可读存储介质 |
CN110211079B (zh) * | 2019-05-22 | 2021-07-13 | 首都医科大学 | 医学图像的融合方法及装置 |
US11069259B2 (en) * | 2019-10-01 | 2021-07-20 | Fujifilm Business Innovation Corp. | Transmodal translation of feature vectors to audio for assistive devices |
CN113342157B (zh) * | 2020-02-18 | 2023-01-06 | Oppo广东移动通信有限公司 | 眼球追踪处理方法及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915950A (zh) * | 2015-04-29 | 2015-09-16 | 华南理工大学 | 一种基于能量约束的区域增长超声图像自动分割方法 |
CN106780450A (zh) * | 2016-12-06 | 2017-05-31 | 天津大学 | 一种基于低秩多尺度融合的图像显著性检测方法 |
CN108038857A (zh) * | 2017-12-25 | 2018-05-15 | 北京航空航天大学 | 一种基于语义信息与边缘约束的前景目标检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7653261B2 (en) * | 2004-11-12 | 2010-01-26 | Microsoft Corporation | Image tapestry |
-
2018
- 2018-06-21 CN CN201810643503.9A patent/CN108961196B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915950A (zh) * | 2015-04-29 | 2015-09-16 | 华南理工大学 | 一种基于能量约束的区域增长超声图像自动分割方法 |
CN106780450A (zh) * | 2016-12-06 | 2017-05-31 | 天津大学 | 一种基于低秩多尺度融合的图像显著性检测方法 |
CN108038857A (zh) * | 2017-12-25 | 2018-05-15 | 北京航空航天大学 | 一种基于语义信息与边缘约束的前景目标检测方法 |
Non-Patent Citations (2)
Title |
---|
《A Robust 3D Visual Saliency Computation Model For Human Fixation Prediction of Stereoscopic Videos》;Qiong Liu等;《VCIP 2017》;20171213;全文 * |
《基于条件随机场和图像分割的显著性检测》;钱生 等;《自动化学报》;20150430;第41卷(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108961196A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shivakumar et al. | Dfusenet: Deep fusion of rgb and sparse depth information for image guided dense depth completion | |
CN108961196B (zh) | 一种基于图的3d注视点预测的显著性融合方法 | |
US8958630B1 (en) | System and method for generating a classifier for semantically segmenting an image | |
US8953874B2 (en) | Conversion of monoscopic visual content using image-depth database | |
US9042648B2 (en) | Salient object segmentation | |
EP3018627A1 (en) | A method and an apparatus for automatic segmentation of an object | |
CN108198172B (zh) | 图像显著性检测方法和装置 | |
Yang et al. | All-in-focus synthetic aperture imaging | |
WO2013178725A1 (en) | Segmentation of a foreground object in a 3d scene | |
Matsuo et al. | Efficient edge-awareness propagation via single-map filtering for edge-preserving stereo matching | |
Zuo et al. | Moving object detection in video sequence images based on an improved visual background extraction algorithm | |
Lu et al. | Pyramid frequency network with spatial attention residual refinement module for monocular depth estimation | |
Tian et al. | Monocular depth estimation based on a single image: a literature review | |
He et al. | Iterative transductive learning for automatic image segmentation and matting with RGB-D data | |
WO2008152607A1 (en) | Method, apparatus, system and computer program product for depth-related information propagation | |
Yang et al. | Monocular camera based real-time dense mapping using generative adversarial network | |
Li et al. | Graph-based saliency fusion with superpixel-level belief propagation for 3D fixation prediction | |
EP2947626B1 (en) | Method and apparatus for generating spanning tree, method and apparatus for stereo matching, method and apparatus for up-sampling, and method and apparatus for generating reference pixel | |
Tsai et al. | A novel method for 2D-to-3D video conversion based on boundary information | |
Meng et al. | Un-VDNet: unsupervised network for visual odometry and depth estimation | |
Patil et al. | Improving depth estimation using map-based depth priors | |
Wang et al. | Transmission map estimation of weather-degraded images using a hybrid of recurrent fuzzy cerebellar model articulation controller and weighted strategy | |
Tolstaya et al. | Depth propagation for semi-automatic 2d to 3d conversion | |
Zhang et al. | Unsupervised saliency detection in 3-D-video based on multiscale segmentation and refinement | |
Palou et al. | Depth order estimation for video frames using motion occlusions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |