CN112767418A - 基于深度感知的镜子图像分割方法 - Google Patents

基于深度感知的镜子图像分割方法 Download PDF

Info

Publication number
CN112767418A
CN112767418A CN202110078754.9A CN202110078754A CN112767418A CN 112767418 A CN112767418 A CN 112767418A CN 202110078754 A CN202110078754 A CN 202110078754A CN 112767418 A CN112767418 A CN 112767418A
Authority
CN
China
Prior art keywords
mirror
depth
rgb
domain
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110078754.9A
Other languages
English (en)
Other versions
CN112767418B (zh
Inventor
董文
杨鑫
梅海洋
魏小鹏
张强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202110078754.9A priority Critical patent/CN112767418B/zh
Publication of CN112767418A publication Critical patent/CN112767418A/zh
Priority to US17/336,702 priority patent/US11756204B2/en
Application granted granted Critical
Publication of CN112767418B publication Critical patent/CN112767418B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉中的场景分割技术领域,基于深度感知的镜子图像分割方法。PDNet先后包含多层特征提取器、定位模块和描绘模块,其中多层特征提取器使用传统的特征提取网络获取上下文特征;定位模块将RGB特征信息结合深度特征信息来初步确定图像中镜子的位置;描绘模块则在图像RGB特征信息的基础上,结合深度信息来调整、确定镜子的边界。本方法是首个同时使用RGB图像和深度图像来实现图像中镜子分割的方法。本发明还进行了进一步的测试,对于复杂环境中面积较大的镜子,PDNet分割结果仍然优秀,并且镜子边界处的结果也令人满意。本方法的适用性更广泛。

Description

基于深度感知的镜子图像分割方法
技术领域
本发明属于计算机视觉中的场景分割(SceneSegmentation)领域,实现结果为图像内容的分割,特别涉及一种真实环境中镜子图像的分割方法。
背景技术
二维图像分割是指把图像中属于不同物体的像素区分开,确定环境图像中目标大小、形状和位置等信息的技术,是图像处理到图像分析的关键步骤,具有巨大的应用价值。
但大多数场景中都会存在一些不容忽视的特殊物体,例如镜子,这类物体会在很大程度上影响场景的理解,进而影响各种计算机视觉任务和应用的准确性。镜面的特性使得图像中的镜子区域呈现其前方场景的镜像,场景的多样性、场景中物体的多样性以及镜子的朝向和倾斜角度的多样性,决定了镜子区域所呈现内容的多样性,这使它本质上不同于其他物体,故而分割场景中的镜子是一个极具挑战的任务。由于目前还不存在有效的方法能够区分图像里真实的场景和镜中虚拟的镜像内容,所以场景中的镜子会严重影响目前的计算机视觉系统。
与镜子分割相关的场景分割方法主要有语义分割和显著性目标检测等。
语义分割(SemanticSegmentation)是使用模型理解输入图像的语义信息,为图像中的每个像素点分配一个语义标签。目前语义分割最常用的方法都基于全卷积网络,聚合上下文信息来学习物体的表现特征。但在实际应用中,直接使用现有的语义分割方法(即将镜子视为对象类别之一)不能从根本上解决镜子分割问题,囿于镜子反射内容和真实场景易混淆的特点,其检测结果不尽人意。
显著性目标检测(SalientObjectDetection,SOD)旨在识别图像中在视觉上最显著的目标对象,以此进一步帮助理解场景。传统SOD方法依赖人为设定的低级特征(例如颜色和对比度);基于深度学习的SOD方法则采用自下而上和自上而下的显著性推断,结合局部像素的显著性估计以及全局目标的搜索,来进行显著性目标检测。然而实际上被反射的内容也不一定具有显著性,即便显著,也仅可能部分显著。故现有的SOD方法对于镜子分割问题也无能为力。
本发明基于对现有场景分割技术的调查与分析,发现了镜子在深度图像上的明显特征,提出了结合场景深度感知的分割方法,形成了分割场景中镜子的定位与描绘网络(Positioning and Delineating Network),即PDNet。我们观察到,基于ToF的相机深度估计的结果不能反映镜子表面的真实深度,而是呈现反射光的传播路径总长度,因此会在镜子边界处产生明显的深度不连续,所以PDNet结合深度感知来完成图像中的镜子分割。PDNet的输入是包含镜子的RGB图像和其相应的深度图像二元组,输出是镜子掩膜图像,掩膜图像中镜子区域的值为1,非镜子区域的值为0。实验证明,结合深度感知的本方法能够有效分割出不同场景下不同类型的镜子,帮助场景理解提升准确度。
发明内容
本发明的目的是对场景的RGB图像,创新性地用深度感知的方式,实现镜子分割方法PDNet。PDNet先后包含多层特征提取器、定位模块(Positioning Module)和描绘模块(Delineating Module),其中多层特征提取器使用传统的特征提取网络获取上下文特征;定位模块(Positioning Module)将RGB特征信息结合深度特征信息来初步确定图像中镜子的位置;描绘模块(Delineating Module)则在图像RGB特征信息的基础上,结合深度信息来调整、确定镜子的边界。本发明所述方法适用于分割不同位置、形状和大小的镜子。
本发明的技术方法如上所述,为一种深度感知的镜子分割方法,该方法包括以下步骤:
步骤1构建新的镜子分割数据集RGBD-Mirror
为了能够利用深度感知方法来解决图像中镜子分割的问题,本发明构建了一个大规模的带有深度信息的镜子分割数据集,其中有3049张带有镜子的RGB彩色图像,及其相对应的深度图像和人工标注的镜子掩膜图像。数据集广泛涵盖了包括日常生活场景中场景不同、样式不同、位置不同以及数量不同的镜子的图像,如不同尺寸的镜子、反射内容与周围环境相似或边界不清晰的镜子、被实物遮挡的镜子的图像和多个镜子的图像,并确保了训练集和测试集具有相同的分布曲线,保证了数据集的完整性和结构准确性。数据集随机划分为训练集和测试集。
步骤2构建PDNet网络
镜子分割网络PDNet大致由多等级特征提取器、一个定位模块(PositioningModule,PM)和三个描绘模块(Delineating Module,DM)组成。
多层特征提取器的输入是步骤1所述RGBD-Mirror数据集中的训练集部分的RGB图像及其对应深度图像,能够提取RGB和深度的多等级特征。多等级的特征提取主要基于传统的具有特征提取能力的ResNet-50网络实现。为了提高计算效率,在将提取的RGB特征和深度特征通过附加的通道缩减卷积操作后依次分等级送入一个定位模块和三个描绘模块。
镜子定位模块结合深度信息和RGB信息来初步确定图像中镜子的位置,同时用于指导后续描绘模块的相应功能。我们将PM部分设计成基于RGB和深度的全局和局部不连续性和相关性线索的网络,其包含一个不连续性感知分支(Discontinuity PerceptionBranch)和一个相关性感知分支(Correlation Perception Branch)。
不连续性感知分支提取并融合RGB域、深度域和两者的联合域的不连续性特征(Dr、Dd和Drd),这些特征都由同样的不连续性块(discontinuity block)提取并将局部和全局的不连续性特征Dl和Dg相加获得(即
Figure BDA0002908401830000041
)。对于给定的特征F,所得局部不连续性特征定义为:
Dl=R(N(fl(F,Θl)-fs(F,Θs))),
其中fl使用卷积核大小为3扩张率为1的卷积从局部(local)区域提取特征,fs使用卷积核大小为5扩张率为2的卷积从周围(surroundings)区域提取特征,两者做差后使用批正则化和ReLU激活处理。对于特定视角下反射内容和周围环境没有重叠的情形,这里使用全局(global)不连续性特征表示:
Dg=R(N(fl(F,Θl)-fg(G(F),Θg))),
其中G是全局平均池化操作,fg使用卷积核大小为1的卷积,fl和fg的结果做差后同样使用批正则化和ReLU激活处理。这样提取到的Dr、Dd和Drd被融合形成不连续性感知分支的输出:
DDPB=R(N(ψ3×3([Dr,Dd,Drd]))),
其中[·]表示通道维度上的联合操作,ψt×t表示卷积核大小为t的卷积操作。
相关性感知分支从RGB域和深度域挖掘镜子内外的相关性线索。本分支受non-local自注意模型的启发,使用动态加权来融合RGB和深度上的相关性。因为简单的将RGB信息和深度信息组合在一起可能会忽略关键的相关性线索,所以本方法设计了动态加权,使用可学习的参数根据融合的质量调整输入域在融合过程中的重要性:
Y=g(Frd)(αk(Fr)+βk(Fd)),
Figure BDA0002908401830000051
k(F)=softmax(θ(F)Tφ(F)),
g(F)=ψ1×1(F),
θ(F)=ψ1×1(F),φ(F)=ψ1×1(F),
Figure BDA0002908401830000052
β=1-α,
μ(F)=ψ1×1(R(N(ψ1×1(G(F))))),
其中Fr和Fd是输入的RGB和深度特征,α和β是动态权重。为了增强容错率,本方法使用可学习的缩放参数γ来进行加权残差连接,即
Figure BDA0002908401830000053
将上述两个分支的输出结果DDPB和CCPB进行像素级的加法,其结果便是定位模块PM的输出。
镜子描绘模块使用定位模块或者上一级描绘模块的输出,结合RGB和深度特征信息,优化镜子的边界。描绘模块的核心部分被设计为三个描绘块(delineating block),这些块使用RGB和深度上的局部不连续性来描绘镜子的边界。但同时又因为期望此类优化仅发生在镜子边缘的区域,因此我们使用之前模块(PM或DM)的输出来缩小可能的优化范围。对于给定的前一模块的输出F和对应高级特征Fh,描绘模块的计算如下:
Figure BDA0002908401830000054
Fhg=U2(R(N(ψ3×3(Fh)))),
其中U2是因子为2的线性上采样。和前面不连续块的输出结果处理方式一样,对RGB域、深度域和两者的联合域的描绘块输出结果(Dr、Dd和Drd),我们按照如下方式计算描绘模块的最终输出:
TDM=R(N(ψ3×3([Dr,Dd,Drd])))。
步骤3训练过程
在训练时,首先将数据集的训练集数据送入网络的多等级特征提取器,提取的结果先后分等级送入一个镜子定位模块和三个镜子描绘模块;然后定位模块结合RGB特征和深度特征对图像中的镜子进行初步定位,描绘模块结合RGB域、深度域、RGB和深度混合域的特征确定镜子的边界。为提升训练效果,定位模块和描绘模块在训练过程中的预测结果均受到训练集中对应的人工标注的掩膜图像的监督,本方法计算标注的掩膜G和四个模块生成的特征预测分割图S之间损失的方法如下:
L=wblbce(S,G)+wiliou(S,G)+weledge(S,G),
其中lbce是二元交叉熵损失,liou是map级的IoU损失,ledge是patch级的边界保存损失。每种损失的对应权重设置为wb=1,wi=1,we=10。最终的损失函数定义为:
Loverall=Lpm+2Ldm3+3Ldm2+4Ldm1
从而引导PDNet能够根据输入的RGB和其对应深度图像来生成最终更为精确的镜子分割结果。
本发明的有益结果:
(1)方法的创新
本发明是首个同时使用RGB图像和深度图像来实现图像中镜子分割的方法。方法新提出了同时利用RGB信息和结合深度感知的语义不连续性以及镜子内外相关性信息,在相关性感知分支使用了新的RGB与深度相关性动态融合的策略。设计PDNet解决计算机视觉任务中的镜子分割问题。
(2)镜子分割的结果和效率
本发明作为首创在镜子分割中同时使用RGB和深度信息的方法,解决了由于场景复杂导致的镜子分割困难,帮助视觉系统区分镜子中反射的内容和真实场景中的内容,消除了镜子的干扰。本发明的方法依赖于对场景深度的感知,利用RGB及深度信息的不连续性和镜子内外的相关性来精确分割镜子,并用对比实验证明了PDNet镜子分割结果的准确性。对比实验中,PDNet在四个常用指标(IoU、
Figure BDA0002908401830000071
MAE和BER)上均获得了最佳性能,并且优势明显。本发明还进行了进一步的测试,对于复杂环境中面积较大的镜子,PDNet分割结果仍然优秀,并且镜子边界处的结果也令人满意。
(3)适用性更广泛
本发明适用于多种类型的镜子的分割,PDNet在以下几种类型的图像上的性能优势明显:a)包含小尺寸镜子的图像;b)包含大尺寸镜子的图像;c)包含镜中内容与周围环境相似或边界不清晰的镜子的图像;d)包含被真实物体遮挡的镜子的图像;e)包含多个镜子的图像。这证明了PDNet在不同场景下的有效性和实用性。
附图说明
图1为本发明PDNet的网络结构。
图2为本发明实施例的结果以及对比实验的结果展示,(a)PDNet输出结果展示,(b)对比试验结果展示。
具体实施方法
下面结合附图和技术方案,进一步说明本发明的具体实施方式。
本实施例所使用的带有深度信息的镜子数据集RGBD-Mirror共包含有3049张不同的常见情况下各种类型镜子的RGB彩色图像,及其所对应的深度图像和掩膜图像,将其随机划分为2000对图像组成的训练集和1049对图像组成的测试集。数据集RGBD-Mirror中多种尺寸的图像在训练时会被统一缩放为416×416的尺寸,并且图像分割的输出结果会被重新调整为输入图像的原始大小。特征提取网络的参数由预训练的ResNet-50网络初始化,其他参数随机初始化。
PDNet中,RGB图像和深度图像分别通过两种不同的多等级特征提取器,以获得RGB和深度特征,之后送入定位模块和描绘模块。定位模块使用RGB和深度的全局与局部特征预测镜子的初始位置;描绘模块根据局部不连续性和前一级的特征来优化镜子的边界。最后一个描绘模块的预测输出结果作为最终的镜子分割结果。PDNet的实现基于PyTorch,使用了随机梯度下降优化器,其动量值为0.9,权重衰减为5×10-4,学习率设置为0.001,批大小定为18,在8核i7-9700K3.6GHz的CPU、64GB内存和GPU型号为NVIDIAGeForceRTX2080Ti的设备上训练分割网络的时间约为12小时。
图1是PDNet的网络结构展示。PDNet由分别处理RGB信息和深度信息的多等级特征提取器、一个定位模块和三个描绘模块组成。PDNet以成对的RGB图像和其对应深度图像作为输入,网络提取特征信息,定位模块预测镜子位置,描绘模块确定镜子边界,生成镜子掩膜图像作为最终的镜子分割结果。
图2是本发明实施例结果以及对比实验结果的展示。图2(a)是本发明对网络输出结果的展示,最右侧一列是用作对比的人工标注掩膜图像;图2(b)是为了验证PDNet的有效性,领域内的其他最新方法进行比较的结果展示。我们重新训练了领域内的其他用于分割的深度神经网络(CCNet、F3Net、BBS-Net、MirrorNet和PMD),并使用公开的可用代码在同样的RGBD-Mirror训练集上进行了训练,在同样的RGBD-Mirror测试集上进行了测试。

Claims (1)

1.一种基于深度感知的镜子图像分割方法,其特征在于,步骤如下:
步骤1构建新的镜子分割数据集RGBD-Mirror
构建带有深度信息的镜子分割数据集,其中有多张带有镜子的RGB彩色图像,及其相对应的深度图像和人工标注的镜子掩膜图像;镜子分割数据集包括日常生活场景中场景不同、样式不同、位置不同以及数量不同的镜子的图像,随机划分为训练集和测试集;
步骤2构建PDNet网络
镜子分割网络PDNet主要由多等级特征提取器、一个定位模块和三个描绘模块组成;
多层特征提取器的输入是步骤1所述镜子分割数据集中的训练集部分的RGB图像及其对应深度图像;多层特征提取器基于具有特征提取能力的ResNet-50网络实现;为了提高计算效率,在将提取的RGB特征和深度特征通过附加的通道缩减卷积操作后依次分等级送入一个定位模块和三个描绘模块;
定位模块结合深度信息和RGB信息来初步确定图像中镜子的位置,同时用于指导描绘模块的相应功能;定位模块为基于RGB和深度的全局和局部不连续性和相关性线索的网络,其包含一个不连续性感知分支和一个相关性感知分支;
不连续性感知分支提取并融合RGB域、深度域和两者的联合域的不连续性特征Dr、Dd和Drd,这三个特征都由同样的不连续性块提取并将局部和全局的不连续性特征Dl和Dg相加获得,即
Figure FDA0002908401820000011
对于给定的特征F,所得局部不连续性特征定义为:
Dl=R(N(fl(F,Θl)-fs(F,Θs)))
其中,fl使用卷积核大小为3扩张率为1的卷积从局部区域提取特征,fs使用卷积核大小为5扩张率为2的卷积从周围区域提取特征,两者做差后使用批止则化和ReLU激活处理;对于特定视角下反射内容和周围环境没有重叠的情形,使用全局不连续性特征表示:
Dg=R(N(fl(F,Θl)-fg(G(F),Θg)))
其中,G是全局平均池化操作,fg使用卷积核大小为1的卷积,fl和fg的结果做差后同样使用批正则化和ReLU激活处理;这样提取到的Dr、Dd和Drd被融合形成不连续性感知分支的输出:
DDPB=R(N(ψ3×3([Dr,Dd,Drd])))
其中,[·]表示通道维度上的联合操作,ψt×t表示卷积核大小为t的卷积操作;
相关性感知分支从RGB域和深度域挖掘镜子内外的相关性线索;本方法设计了动态加权,使用可学习的参数根据融合的质量调整输入域在融合过程中的重要性:
Y=g(Frd)(αk(Fr)+βk(Fd)),
Figure FDA0002908401820000021
k(F)=softmax(θ(F)Tφ(F)),
g(F)=ψ1×1(F),
θ(F)=ψ1×1(F),φ(F)=ψ1×1(F),
Figure FDA0002908401820000022
μ(F)=ψ1×1(R(N(ψ1×1(G(F)))))
其中,Fr和Fd是输入的RGB和深度特征,α和β是动态权重;为了增强容错率,本方法使用可学习的缩放参数γ来进行加权残差连接,即
Figure FDA0002908401820000023
将上述两个分支的输出结果DDPB和CCPB进行像素级的加法,即为定位模块的输出;
描绘模块使用定位模块或者上一级描绘模块的输出,结合RGB和深度特征信息,优化镜子的边界;描绘模块的核心部分被设计为三个描绘块,三个描绘块使用RGB和深度上的局部不连续性来描绘镜子的边界;对于给定的前一定位模块(或描绘模块)的输出F和对应层的多层特征提取器的输出Fh,描绘模块的计算如下:
Figure FDA0002908401820000031
Fhg=U2(R(N(ψ3×3(Fh))))
其中,U2是因子为2的线性上采样;和前面不连续块的输出结果处理方式一样,对RGB域、深度域和两者的联合域的描绘块输出结果Dr、Dd和Drd,按照如下方式计算描绘模块的最终输出:
TDM=R(N(ψ3×3([Dr,Dd,Drd])))
步骤3训练过程
在训练时,首先将数据集的训练集数据送入网络的多等级特征提取器,提取的结果先后分等级送入一个镜子定位模块和三个镜子描绘模块;然后定位模块结合RGB特征和深度特征对图像中的镜子进行初步定位,描绘模块结合RGB域、深度域、RGB和深度混合域的特征确定镜子的边界;为提升训练效果,定位模块和描绘模块在训练过程中的预测结果均受到训练集中对应的人工标注的掩膜图像的监督,本方法计算标注的掩膜G和四个模块生成的特征预测分割图S之间损失的方法如下:
L=wblbce(S,G)+wiliou(S,G)+weledge(S,G)
其中lbce是二元交叉熵损失,liou是map级的IoU损失,ledge是patch级的边界保存损失;每种损失的对应权重设置为wb=1,wi=1,we=10;最终的损失函数定义为:
Loverall=Lpm+2Ldm3+3Ldm2+4Ldm1
从而引导PDNet能够根据输入的RGB和其对应深度图像来生成最终更为精确的镜子分割结果。
CN202110078754.9A 2021-01-21 2021-01-21 基于深度感知的镜子图像分割方法 Active CN112767418B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110078754.9A CN112767418B (zh) 2021-01-21 2021-01-21 基于深度感知的镜子图像分割方法
US17/336,702 US11756204B2 (en) 2021-01-21 2021-06-02 Depth-aware method for mirror segmentation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110078754.9A CN112767418B (zh) 2021-01-21 2021-01-21 基于深度感知的镜子图像分割方法

Publications (2)

Publication Number Publication Date
CN112767418A true CN112767418A (zh) 2021-05-07
CN112767418B CN112767418B (zh) 2022-10-14

Family

ID=75702108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110078754.9A Active CN112767418B (zh) 2021-01-21 2021-01-21 基于深度感知的镜子图像分割方法

Country Status (2)

Country Link
US (1) US11756204B2 (zh)
CN (1) CN112767418B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114049399A (zh) * 2022-01-13 2022-02-15 上海景吾智能科技有限公司 一种结合rgbd图像的镜面定位方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452936B (zh) * 2023-04-22 2023-09-29 安徽大学 融合光学和sar影像多模态信息的旋转目标检测方法
CN116311387B (zh) * 2023-05-25 2023-09-01 浙江工业大学 一种基于特征交集的跨模态行人重识别方法
CN117496516B (zh) * 2023-12-25 2024-03-29 北京航空航天大学杭州创新研究院 一种脑瘤mri图像分割方法及系统
CN117557993B (zh) * 2024-01-12 2024-03-29 杭州像素元科技有限公司 一种双框架交互感知3d关联检测模型的构建方法及应用
CN117830538A (zh) * 2024-03-05 2024-04-05 南京中网卫星通信股份有限公司 一种基于跨尺度Transformer的多视图立体匹配的三维重建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664974A (zh) * 2018-04-03 2018-10-16 华南理工大学 一种基于rgbd图像与全残差网络的语义分割方法
KR102127153B1 (ko) * 2020-04-09 2020-06-26 한밭대학교 산학협력단 사이클 gan과 세그맨테이션을 사용한 깊이 추정 방법 및 시스템
CN111915619A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种双特征提取与融合的全卷积网络语义分割方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8824779B1 (en) * 2011-12-20 2014-09-02 Christopher Charles Smyth Apparatus and method for determining eye gaze from stereo-optic views
CN105164729A (zh) * 2013-03-29 2015-12-16 普拉德研究及开发股份有限公司 用于倾角确定的图像对称性
US10210628B2 (en) * 2014-03-03 2019-02-19 Mitsubishi Electric Corporation Position measurement apparatus for measuring position of object having reflective surface in the three-dimensional space
US10242294B2 (en) * 2017-05-01 2019-03-26 Intel Corporation Target object classification using three-dimensional geometric filtering
US11120280B2 (en) * 2019-11-15 2021-09-14 Argo AI, LLC Geometry-aware instance segmentation in stereo image capture processes
TWI759651B (zh) * 2019-11-21 2022-04-01 財團法人工業技術研究院 基於機器學習的物件辨識系統及其方法
EP3886046A1 (en) * 2020-03-26 2021-09-29 Sony Group Corporation Multi-view positioning using reflections

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664974A (zh) * 2018-04-03 2018-10-16 华南理工大学 一种基于rgbd图像与全残差网络的语义分割方法
KR102127153B1 (ko) * 2020-04-09 2020-06-26 한밭대학교 산학협력단 사이클 gan과 세그맨테이션을 사용한 깊이 추정 방법 및 시스템
CN111915619A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种双特征提取与融合的全卷积网络语义分割方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114049399A (zh) * 2022-01-13 2022-02-15 上海景吾智能科技有限公司 一种结合rgbd图像的镜面定位方法
CN114049399B (zh) * 2022-01-13 2022-04-12 上海景吾智能科技有限公司 一种结合rgbd图像的镜面定位方法

Also Published As

Publication number Publication date
US11756204B2 (en) 2023-09-12
CN112767418B (zh) 2022-10-14
US20220230322A1 (en) 2022-07-21

Similar Documents

Publication Publication Date Title
CN112767418B (zh) 基于深度感知的镜子图像分割方法
CN113298818B (zh) 基于注意力机制与多尺度特征的遥感图像建筑物分割方法
CN111047551B (zh) 一种基于U-net改进算法的遥感影像变化检测方法及系统
CN111325751B (zh) 基于注意力卷积神经网络的ct图像分割系统
CN110335290B (zh) 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN112528976B (zh) 文本检测模型的生成方法和文本检测方法
CN113642390B (zh) 一种基于局部注意力网络的街景图像语义分割方法
CN110659664B (zh) 一种基于ssd的高精度识别小物体的方法
CN112990204B (zh) 目标检测方法、装置、电子设备及存储介质
KR20220122566A (ko) 텍스트 인식 모델의 트레이닝 방법, 텍스트 인식 방법 및 장치
CN112348870A (zh) 一种基于残差融合的显著性目标检测方法
CN112132164B (zh) 目标检测方法、系统、计算机装置及存储介质
CN113591719A (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
Li et al. Gated auxiliary edge detection task for road extraction with weight-balanced loss
US20230281830A1 (en) Optical flow techniques and systems for accurate identification and tracking of moving objects
CN115393734A (zh) 基于Faster R-CNN与CV模型联合方法的SAR图像舰船轮廓提取方法
JP2023131117A (ja) 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体
Zhang et al. Improved Lane Detection Method Based on Convolutional Neural Network Using Self-attention Distillation.
CN112257810A (zh) 一种基于改进FasterR-CNN的海底生物目标检测方法
CN115018734B (zh) 视频修复方法和视频修复模型的训练方法、装置
CN115953663A (zh) 一种利用线标注的弱监督阴影检测方法
CN115578721A (zh) 一种基于注意力特征融合的街景文本实时检测方法
CN115131778A (zh) 一种基于深度学习的场景文本检测方法
CN114241470A (zh) 一种基于注意力机制的自然场景文字检测方法
CN113313108A (zh) 一种基于超大感受野特征优化的显著性目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant