CN110458797B - 一种基于深度图过滤器的显著性物体检测方法 - Google Patents
一种基于深度图过滤器的显著性物体检测方法 Download PDFInfo
- Publication number
- CN110458797B CN110458797B CN201910524475.3A CN201910524475A CN110458797B CN 110458797 B CN110458797 B CN 110458797B CN 201910524475 A CN201910524475 A CN 201910524475A CN 110458797 B CN110458797 B CN 110458797B
- Authority
- CN
- China
- Prior art keywords
- depth map
- rgb
- feature
- object detection
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于深度图过滤器的显著性物体检测方法,属于图像处理技术领域。图像的深度图为显著性物体检测任务提供了有效的辅助信息,因此近些年许多基于RGB‑D的显著性物体检测方法被提出。但是,深度图质量的高低对预测结果的准确度有显著影响。本发明创新性地提出了一种基于深度图过滤器的显著性物体检测方法,通过深度图过滤器模块过滤低质量的深度图,抑制不良深度图所带来的干扰信息,进而使用特征学习模块提取更加有效的交叉模态特征。本发明在7个公开的数据集上采用了4个广泛使用的评测指标,实验结果表明本发明超越了当前所有最先进的RGB‑D显著性物体检测方法。
Description
技术领域
本发明属于图像处理技术领域,特别涉及到一种基于深度图过滤器的显著性物体检测方法。
技术背景
如何拍摄漂亮的照片已成为手机制造商之间的竞争点之一。显著性物体检测(SOD)方法已被广泛用于自动添加大光圈和其他增强效果来拍摄人像。当前的显著性物体检测方法已经获得了巨大的成功,然而大多数方法是基于RGB图像上的显著性检测,忽略了在一些先进手机(如iPhone X,华为Mate 20和三星S10)上可以采集到的深度信息。
近些年,一些基于RGB-D的显著性物体检测模型被提出。早期,传统的模型很大程度上依赖手工提取的特性(如对比度和形状)。基于统计嵌入算法(如空间偏移和3D背景)、高斯差分、背景分类、支持向量机、图论、元胞自动机和马尔可夫模型的方法陆续被提出。此外,学者们还探索了通过各种方式将RGB和深度特征结合起来的方法,例如角密度,随机森林回归树和最小障碍距离等。
为了克服手工提取特征的有限表达能力,最近利用卷积神经网络提取RGB-D图像中显著性物体的方法开始流行。Shigematsu等人提出的BED方法和Qu等人提出的DF方法是将深度学习引入到RGB-D显著性物体检测任务上的两项开创性的工作。最近Huang等人利用改进的损失函数开发出了有效的端对端模型。为了解决训练数据的不足,Zhu等人提出了一个强大的先验模型,该模型具有用于SOD的引导深度增强模块。除此之外,Chen等人开发了一系列新颖的方法,如隐藏的结构转移,互补融合模块,注意力感知组件和空洞卷积。
以上的工作致力于通过各种策略融合深度信息,并没有考虑到深度图本身的质量和有效性。事实上,在现实环境里,由于景深传感器的精度不足、探测环境的干扰,深度估计算法的能力欠缺等因素的影响,深度图的质量是参差不齐的。目前的深度信息融合策略不加筛选地将质量参差不齐的深度图输入到算法中的做法是不合理的。
发明内容
本发明的目的是解决现有RGB-D显著性检测方法中不加区分地使用深度图所致的性能瓶颈问题,设计了一种基于深度图过滤器的显著性物体检测方法(D3Net),它由深度图过滤器模块和特征学习模块组成,分别执行深度图过滤,交叉模态特征学习任务。
本发明采用的技术方案是:
一种基于深度图过滤器的显著性物体检测方法,该方法通过深度图过滤器模块和特征学习模块完成,其中特征学习模块(Feature Learning Module)由一个RGB-D图像特征学习器和一个RGB图像特征学习器构成;所述的RGB和RGB-D图像特征学习器均由残差网络和金字塔空洞卷积构成;本发明方法包含如下步骤:
第1步、由深度图过滤器模块(DDU)判断深度图质量,过滤质量低于筛选阈值的深度图,保留质量高于筛选阈值的深度图。这里的筛选阈值由深度图过滤器模块通过学习得到,并不是一个固定的阈值;
第2步、经第1步的筛选,对于保留的质量较高的深度图,将深度图和对应的RGB图像通过RGB-D图像特征学习器提取交叉模态的特征;对于过滤掉的质量较差的深度图,则仅使用RGB图像特征学习器提取RGB图像的特征;
第3步、生成结果:将特征学习模块提取的特征回归为显著性物体图像(SaliencyMap)。
其中,第1步所述的深度图过滤器模块的具体操作为:
a)利用Otsu算法将输入的深度图分为前景和背景;
b)计算前景和背景两区域均值之差的绝对值H;
c)计算非显著性区域(即背景)的方差E;
d)利用回归决策树为H和E结合的二维特征HEd=[H,E]学习深度图分类器。
第3步所述的回归的方法是通过多层卷积神经网络将RGB-D或RGB图像特征学习器提取的特征回归为显著图。
本发明的优点和有益效果:
本发明通过深度图过滤器模块有效地利用了高质量深度图提供的辅助信息,抑制了低质量深度图对检测的干扰。经实验,本发明在公开的7个数据集采用的4个评测指标上均超越最前沿的RGB-D显著性物体检测方法。
附图说明
图1为本发明提出的深度图过滤器D3Net模型具体实施框架图;其中,图像上的数,如512×512×4表示输入图像的长×宽×通道数;
图2为本发明D3Net在LFSD、NJU2K、STERE、SSD和SIP数据集上与其他6个最先进的RGB-D显著性物体检测方法的对比实验(具体为三个基于深度学习的方法CPFP、TANet和PCF以及三个非深度学习的方法MDSF、SE和DCMC)。
具体实施方式
参考图1,本发明提出的D3Net模型由深度图过滤器模块(DDU)和特征学习模块(Feature Learning Module)构成,所述的基于深度图过滤器的显著性物体检测方法的具体实施步骤如下:
1.由深度图过滤器模块判断深度图的质量
首先,深度图被放缩至固定尺寸(比如256×256)来减少计算的复杂度,本发明使用Otsu算法计算自适应阈值t*来分割深度图的前景(显著性区域)和背景(非显著性区域)。对于每个输入的深度图Sd:
其中t∈{0,1,...,255},σ2是显著性区域(Sd≤t)或非显著性区域(Sd>t)的方差。
为了训练有效的深度图质量分类器,本发明引入了两个新的图像特征H和E。H描述的是显著性区域和非显著性区域之间的物体差异有多大,如果Otsu算法将像素的突出对象与其背景区分开来,则其H值会很高。H可以被表示为
H=∣μ(Sd≤t*)-μ(Sd>t*)∣, (2)
其中μ(·)函数分别计算深度图中显著和非显著区域的平均值。受近期工作的启发,使用非显着区域的方差作为高质量显着图的特征。本发明通过使用非显著区域的方差σ2描述深度图的能量方程:
E=σ2(Sd>t*)。 (3)
本发明进一步结合H和E特征作为一个简单的二维特征HEd=[H,E]。对于每个深度图,为了有效清除低质量的深度图,采用了回归决策树来进行深度图质量分类
xd=RTree(EHd,yd;θ), (4)
其中xd∈{0,1}、yd∈{0,1}和θ分别是预测的标签(0代表低质量深度图;1代表正常的深度图)、标注标签和回归决策树的参数。
2.通过RGB或者RGB-D特征学习模块提取特征并生成结果
RGB和RGB-D特征学习模块采用了相同结构的金字塔空洞卷积级联模块(PDC)来提取空间特征,其骨干网络是标准的50层ResNet网络。如图1所示,对于每一路PDC模块,令表示一个输入RGB-D图像/>的三维特征张量,其中W为宽度,H为高度,M为通道数。对于F,利用并行空洞卷积核/>(K为空洞卷积分支数目,见图1)和不同的扩张参数/>来生成级联的特征图/>
X=[Q,F]=[P1,P2,...,PK,F], (6)
本发明使用的PDC模块与Song等人提出的ASPP方法有着类似的结构,但是ASPP平等一致地对待不同尺度的特征并对不同尺度的特征使用元素加和操作为了预测不同尺度的更多信息,与该ASPP方法不同,本发明的扩张系数更大。
在训练阶段可替代的网络主体架构为VGG-16或ResNet-101等。最后两个的卷积步数设置为1,输入图像尺寸被放缩512×512,空洞卷积的扩张系数为r0=1,rk=12k(k={1,2,3})。需要说明,对于处理RGB图像的PDC模块,本发明使用RGB图像进行训练。对于处理RGB-D图像的PDC模块,本发明采用RGB图像以及深度图进行训练,去学习交叉模态的特征。
3在结果生成阶段,256个3×3的卷积核用于通道降维,紧接着使用一个1×1的卷积核以及Sigmoid激活函数生成最后的显著图S。
对于损失函数(Loss Function),本发明采用广为使用的交叉熵损失:
其中S∈{0,1}512×512和G∈{0,1}512×512分别代表评估的显著图和手工标注结果(Ground Truth)。其中gi∈G且si∈S。N代表总共的像素数。
本发明的效果通过以下仿真实验进一步说明:
表1展示了本发明(D3Net)在NJU-T、STERE、DES、NLR-T、SSD、LFSD和SIP数据集上与其他17个RGB-D显著性物体检测方法的对比实验。该实验选用S-Measure(Sα)、MaxF-Measure(Fβ)、Max E-Measure(Eξ)和MAE(M)4项指标全面评估各方法。结果显示,本发明所提出的模型的性能与现今已经发表的最新结果(在CVPR2019中发表的CPFP方法)在7个数据集上有着1.2%~5.9%的提升。
表1
此外,图2中展示了本发明D3Net在LFSD、NJU2K、STERE、SSD和SIP数据集上与其他6个最先进的RGB-D显著性物体检测方法的输出结果(具体为三个基于深度学习的方法CPFP、TANet和PCF以及三个非深度学习的方法MDSF、SE和DCMC)。可以看到,相比于其他方法,本发明输出了与手工标注图(GT)最为接近的结果。
表2中展示了本发明提出的深度图过滤器模块的有效性。Base1模型不使用深度图进行SOD任务,即所有图像均通过本发明的RGB图像特征学习器提取特征;相反地,Base2模型不加筛选地使用全部深度图进行SOD任务,即所有输入图像均通过本发明RGB-D学习器提取特征。D3Net则是本发明的完整模型结构。可以看到,深度图筛选模块有效提升了整体的检测效果,抑制了不良深度图对预测结果的干扰。
表2
本实例没有详细说明的部分属于本领域公共所知的常识,这里不一一赘述。以上所具体采用的实施网络(ResNet-50等)仅仅用于对发明的举例说明,并不是对本发明的保护范围的限定,凡是和本发明相似或相同的设计均属于本发明的保护范围。
Claims (2)
1.一种基于深度图过滤器的显著性物体检测方法,其特征在于该方法通过深度图过滤器模块和特征学习模块完成,其中特征学习模块由一个RGB-D图像特征学习器和一个RGB图像特征学习器构成;包含如下步骤:
第1步、由深度图过滤器模块判断深度图的质量,过滤质量低于筛选阈值的深度图,保留质量高于筛选阈值的深度图;所述深度图过滤器模块的具体操作为:
第1.1步、利用Otsu算法将输入的深度图分为前景和背景;
第1.2步、计算前景和背景两区域均值之差的绝对值H;
第1.3步、计算背景亦即非显著性区域的方差E;
第1.4步、利用回归决策树为H和E结合的二维特征HEd=[H,E]学习深度图分类器;
第2步、经第1步的筛选,对于保留下来的深度图,深度图和对应的RGB图像通过特征学习模块中的RGB-D图像特征学习器提取交叉模态的特征;对于过滤掉的深度图,则仅使用特征学习模块中的RGB图像特征学习器提取RGB图像的特征;
第3步、生成结果:将特征学习模块提取的特征回归为显著性物体图像,所述回归的方法是通过多层卷积神经网络将RGB-D或RGB图像特征学习器提取的特征回归为显著图。
2.根据权利要求1所述的基于深度图过滤器的显著性物体检测方法,其特征在于:所述的RGB图像特征学习器和RGB-D图像特征学习器由相同结构的金字塔空洞卷积级联模块构成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910524475.3A CN110458797B (zh) | 2019-06-18 | 2019-06-18 | 一种基于深度图过滤器的显著性物体检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910524475.3A CN110458797B (zh) | 2019-06-18 | 2019-06-18 | 一种基于深度图过滤器的显著性物体检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110458797A CN110458797A (zh) | 2019-11-15 |
CN110458797B true CN110458797B (zh) | 2023-05-30 |
Family
ID=68480721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910524475.3A Active CN110458797B (zh) | 2019-06-18 | 2019-06-18 | 一种基于深度图过滤器的显著性物体检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110458797B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889416B (zh) * | 2019-12-13 | 2023-04-18 | 南开大学 | 一种基于级联改良网络的显著性物体检测方法 |
CN111583173B (zh) * | 2020-03-20 | 2023-12-01 | 北京交通大学 | 一种rgb-d图像显著性目标检测方法 |
CN113658235B (zh) * | 2021-08-06 | 2022-08-09 | 北京理工大学 | 基于vgg网络与高斯差分网络的光学遥感影像精确配准方法 |
CN113610085B (zh) * | 2021-10-10 | 2021-12-07 | 成都千嘉科技有限公司 | 基于注意力机制的字轮图像识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107507206B (zh) * | 2017-06-09 | 2021-08-20 | 合肥工业大学 | 一种基于显著性检测的深度图提取方法 |
CN107292923B (zh) * | 2017-06-29 | 2019-03-01 | 北京大学深圳研究生院 | 基于深度图挖掘的后向传播图像视觉显著性检测方法 |
JP7156624B2 (ja) * | 2017-11-10 | 2022-10-19 | 凸版印刷株式会社 | デプスマップフィルタ処理装置、デプスマップフィルタ処理方法及びプログラム |
CN108470178B (zh) * | 2018-02-07 | 2021-09-07 | 杭州电子科技大学 | 一种结合深度可信度评价因子的深度图显著性检测方法 |
CN109598268B (zh) * | 2018-11-23 | 2021-08-17 | 安徽大学 | 一种基于单流深度网络的rgb-d显著目标检测方法 |
CN109712105B (zh) * | 2018-12-24 | 2020-10-27 | 浙江大学 | 一种结合彩色和深度信息的图像显著目标检测方法 |
-
2019
- 2019-06-18 CN CN201910524475.3A patent/CN110458797B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110458797A (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110458797B (zh) | 一种基于深度图过滤器的显著性物体检测方法 | |
WO2022036777A1 (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN110706157B (zh) | 一种基于身份先验生成对抗网络的人脸超分辨率重建方法 | |
CN111275643B (zh) | 基于通道和空间注意力的真实噪声盲去噪网络系统及方法 | |
CN104050471B (zh) | 一种自然场景文字检测方法及系统 | |
CN106778796B (zh) | 基于混合式协同训练的人体动作识别方法及系统 | |
CN112699892A (zh) | 一种无监督领域自适应语义分割方法 | |
CN111325155A (zh) | 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法 | |
CN110674701A (zh) | 一种基于深度学习的驾驶员疲劳状态快速检测方法 | |
CN110765880B (zh) | 一种轻量级视频行人重识别方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN107680077A (zh) | 一种基于多阶梯度特征的无参考图像质量评价方法 | |
CN103177262A (zh) | 基于hog和svm的行人检测系统的fpga架构及其实现方法 | |
CN109359527B (zh) | 基于神经网络的头发区域提取方法及系统 | |
CN103119625B (zh) | 一种视频人物分割的方法及装置 | |
CN111178312B (zh) | 基于多任务特征学习网络的人脸表情识别方法 | |
CN111414860A (zh) | 一种实时的人像跟踪分割方法 | |
Li et al. | Research on facial expression recognition based on LBP and deeplearning | |
CN111967358A (zh) | 一种基于注意力机制的神经网络步态识别方法 | |
Yang | Research on lane recognition algorithm based on deep learning | |
CN114913604A (zh) | 一种基于两级池化s2e模块的姿态识别方法 | |
CN112132746B (zh) | 面向智能路侧设备的小尺度行人目标快速超分辨率化方法 | |
Van Hoai et al. | Feeding Convolutional Neural Network by hand-crafted features based on Enhanced Neighbor-Center Different Image for color texture classification | |
CN113436101A (zh) | 基于高效通道注意力机制的龙格库塔模块去雨的方法 | |
CN111275076B (zh) | 基于特征选择和特征融合的图像显著性检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |