CN112767418A

CN112767418A - 基于深度感知的镜子图像分割方法

Info

Publication number: CN112767418A
Application number: CN202110078754.9A
Authority: CN
Inventors: 董文; 杨鑫; 梅海洋; 魏小鹏; 张强
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-05-07
Anticipated expiration: 2041-01-21
Also published as: US11756204B2; CN112767418B; US20220230322A1

Abstract

本发明属于计算机视觉中的场景分割技术领域，基于深度感知的镜子图像分割方法。PDNet先后包含多层特征提取器、定位模块和描绘模块，其中多层特征提取器使用传统的特征提取网络获取上下文特征；定位模块将RGB特征信息结合深度特征信息来初步确定图像中镜子的位置；描绘模块则在图像RGB特征信息的基础上，结合深度信息来调整、确定镜子的边界。本方法是首个同时使用RGB图像和深度图像来实现图像中镜子分割的方法。本发明还进行了进一步的测试，对于复杂环境中面积较大的镜子，PDNet分割结果仍然优秀，并且镜子边界处的结果也令人满意。本方法的适用性更广泛。

Description

基于深度感知的镜子图像分割方法

技术领域

本发明属于计算机视觉中的场景分割(SceneSegmentation)领域，实现结果为图像内容的分割，特别涉及一种真实环境中镜子图像的分割方法。

背景技术

二维图像分割是指把图像中属于不同物体的像素区分开，确定环境图像中目标大小、形状和位置等信息的技术，是图像处理到图像分析的关键步骤，具有巨大的应用价值。

但大多数场景中都会存在一些不容忽视的特殊物体，例如镜子，这类物体会在很大程度上影响场景的理解，进而影响各种计算机视觉任务和应用的准确性。镜面的特性使得图像中的镜子区域呈现其前方场景的镜像，场景的多样性、场景中物体的多样性以及镜子的朝向和倾斜角度的多样性，决定了镜子区域所呈现内容的多样性，这使它本质上不同于其他物体，故而分割场景中的镜子是一个极具挑战的任务。由于目前还不存在有效的方法能够区分图像里真实的场景和镜中虚拟的镜像内容，所以场景中的镜子会严重影响目前的计算机视觉系统。

与镜子分割相关的场景分割方法主要有语义分割和显著性目标检测等。

语义分割(SemanticSegmentation)是使用模型理解输入图像的语义信息，为图像中的每个像素点分配一个语义标签。目前语义分割最常用的方法都基于全卷积网络，聚合上下文信息来学习物体的表现特征。但在实际应用中，直接使用现有的语义分割方法(即将镜子视为对象类别之一)不能从根本上解决镜子分割问题，囿于镜子反射内容和真实场景易混淆的特点，其检测结果不尽人意。

显著性目标检测(SalientObjectDetection,SOD)旨在识别图像中在视觉上最显著的目标对象，以此进一步帮助理解场景。传统SOD方法依赖人为设定的低级特征(例如颜色和对比度)；基于深度学习的SOD方法则采用自下而上和自上而下的显著性推断，结合局部像素的显著性估计以及全局目标的搜索，来进行显著性目标检测。然而实际上被反射的内容也不一定具有显著性，即便显著，也仅可能部分显著。故现有的SOD方法对于镜子分割问题也无能为力。

本发明基于对现有场景分割技术的调查与分析，发现了镜子在深度图像上的明显特征，提出了结合场景深度感知的分割方法，形成了分割场景中镜子的定位与描绘网络(Positioning and Delineating Network)，即PDNet。我们观察到，基于ToF的相机深度估计的结果不能反映镜子表面的真实深度，而是呈现反射光的传播路径总长度，因此会在镜子边界处产生明显的深度不连续，所以PDNet结合深度感知来完成图像中的镜子分割。PDNet的输入是包含镜子的RGB图像和其相应的深度图像二元组，输出是镜子掩膜图像，掩膜图像中镜子区域的值为1，非镜子区域的值为0。实验证明，结合深度感知的本方法能够有效分割出不同场景下不同类型的镜子，帮助场景理解提升准确度。

发明内容

本发明的目的是对场景的RGB图像，创新性地用深度感知的方式，实现镜子分割方法PDNet。PDNet先后包含多层特征提取器、定位模块(Positioning Module)和描绘模块(Delineating Module)，其中多层特征提取器使用传统的特征提取网络获取上下文特征；定位模块(Positioning Module)将RGB特征信息结合深度特征信息来初步确定图像中镜子的位置；描绘模块(Delineating Module)则在图像RGB特征信息的基础上，结合深度信息来调整、确定镜子的边界。本发明所述方法适用于分割不同位置、形状和大小的镜子。

本发明的技术方法如上所述，为一种深度感知的镜子分割方法，该方法包括以下步骤：

步骤1构建新的镜子分割数据集RGBD-Mirror

为了能够利用深度感知方法来解决图像中镜子分割的问题，本发明构建了一个大规模的带有深度信息的镜子分割数据集，其中有3049张带有镜子的RGB彩色图像，及其相对应的深度图像和人工标注的镜子掩膜图像。数据集广泛涵盖了包括日常生活场景中场景不同、样式不同、位置不同以及数量不同的镜子的图像，如不同尺寸的镜子、反射内容与周围环境相似或边界不清晰的镜子、被实物遮挡的镜子的图像和多个镜子的图像，并确保了训练集和测试集具有相同的分布曲线，保证了数据集的完整性和结构准确性。数据集随机划分为训练集和测试集。

步骤2构建PDNet网络

镜子分割网络PDNet大致由多等级特征提取器、一个定位模块(PositioningModule，PM)和三个描绘模块(Delineating Module，DM)组成。

多层特征提取器的输入是步骤1所述RGBD-Mirror数据集中的训练集部分的RGB图像及其对应深度图像，能够提取RGB和深度的多等级特征。多等级的特征提取主要基于传统的具有特征提取能力的ResNet-50网络实现。为了提高计算效率，在将提取的RGB特征和深度特征通过附加的通道缩减卷积操作后依次分等级送入一个定位模块和三个描绘模块。

镜子定位模块结合深度信息和RGB信息来初步确定图像中镜子的位置，同时用于指导后续描绘模块的相应功能。我们将PM部分设计成基于RGB和深度的全局和局部不连续性和相关性线索的网络，其包含一个不连续性感知分支(Discontinuity PerceptionBranch)和一个相关性感知分支(Correlation Perception Branch)。

不连续性感知分支提取并融合RGB域、深度域和两者的联合域的不连续性特征(D^r、D^d和D^rd)，这些特征都由同样的不连续性块(discontinuity block)提取并将局部和全局的不连续性特征D_l和D_g相加获得(即

)。对于给定的特征F，所得局部不连续性特征定义为：

D_l＝R(N(f_l(F,Θ_l)-f_s(F,Θ_s)))，

其中f_l使用卷积核大小为3扩张率为1的卷积从局部(local)区域提取特征，f_s使用卷积核大小为5扩张率为2的卷积从周围(surroundings)区域提取特征，两者做差后使用批正则化和ReLU激活处理。对于特定视角下反射内容和周围环境没有重叠的情形，这里使用全局(global)不连续性特征表示：

D_g＝R(N(f_l(F,Θ_l)-f_g(G(F),Θ_g)))，

其中G是全局平均池化操作，f_g使用卷积核大小为1的卷积，f_l和f_g的结果做差后同样使用批正则化和ReLU激活处理。这样提取到的D^r、D^d和D^rd被融合形成不连续性感知分支的输出：

D^DPB＝R(N(ψ_3×3([D^r,D^d,D^rd])))，

其中[·]表示通道维度上的联合操作，ψ_t×t表示卷积核大小为t的卷积操作。

相关性感知分支从RGB域和深度域挖掘镜子内外的相关性线索。本分支受non-local自注意模型的启发，使用动态加权来融合RGB和深度上的相关性。因为简单的将RGB信息和深度信息组合在一起可能会忽略关键的相关性线索，所以本方法设计了动态加权，使用可学习的参数根据融合的质量调整输入域在融合过程中的重要性：

Y＝g(F^rd)(αk(F^r)+βk(F^d)),

k(F)＝softmax(θ(F)^Tφ(F)),

g(F)＝ψ_1×1(F),

θ(F)＝ψ_1×1(F),φ(F)＝ψ_1×1(F),

β＝1-α,

μ(F)＝ψ_1×1(R(N(ψ_1×1(G(F))))),

其中F^r和F^d是输入的RGB和深度特征,α和β是动态权重。为了增强容错率，本方法使用可学习的缩放参数γ来进行加权残差连接，即

将上述两个分支的输出结果D^DPB和C^CPB进行像素级的加法，其结果便是定位模块PM的输出。

镜子描绘模块使用定位模块或者上一级描绘模块的输出，结合RGB和深度特征信息，优化镜子的边界。描绘模块的核心部分被设计为三个描绘块(delineating block)，这些块使用RGB和深度上的局部不连续性来描绘镜子的边界。但同时又因为期望此类优化仅发生在镜子边缘的区域，因此我们使用之前模块(PM或DM)的输出来缩小可能的优化范围。对于给定的前一模块的输出F和对应高级特征F^h，描绘模块的计算如下：

F^hg＝U₂(R(N(ψ_3×3(F^h)))),

其中U₂是因子为2的线性上采样。和前面不连续块的输出结果处理方式一样，对RGB域、深度域和两者的联合域的描绘块输出结果(D^r、D^d和D^rd)，我们按照如下方式计算描绘模块的最终输出：

T^DM＝R(N(ψ_3×3([D^r,D^d,D^rd])))。

步骤3训练过程

在训练时，首先将数据集的训练集数据送入网络的多等级特征提取器，提取的结果先后分等级送入一个镜子定位模块和三个镜子描绘模块；然后定位模块结合RGB特征和深度特征对图像中的镜子进行初步定位，描绘模块结合RGB域、深度域、RGB和深度混合域的特征确定镜子的边界。为提升训练效果，定位模块和描绘模块在训练过程中的预测结果均受到训练集中对应的人工标注的掩膜图像的监督，本方法计算标注的掩膜G和四个模块生成的特征预测分割图S之间损失的方法如下：

L＝w_bl_bce(S,G)+w_il_iou(S,G)+w_el_edge(S,G),

其中l_bce是二元交叉熵损失，l_iou是map级的IoU损失，l_edge是patch级的边界保存损失。每种损失的对应权重设置为w_b＝1,w_i＝1,w_e＝10。最终的损失函数定义为：

L_overall＝L_pm+2L_dm3+3L_dm2+4L_dm1。

从而引导PDNet能够根据输入的RGB和其对应深度图像来生成最终更为精确的镜子分割结果。

本发明的有益结果：

(1)方法的创新

本发明是首个同时使用RGB图像和深度图像来实现图像中镜子分割的方法。方法新提出了同时利用RGB信息和结合深度感知的语义不连续性以及镜子内外相关性信息，在相关性感知分支使用了新的RGB与深度相关性动态融合的策略。设计PDNet解决计算机视觉任务中的镜子分割问题。

(2)镜子分割的结果和效率

本发明作为首创在镜子分割中同时使用RGB和深度信息的方法，解决了由于场景复杂导致的镜子分割困难，帮助视觉系统区分镜子中反射的内容和真实场景中的内容，消除了镜子的干扰。本发明的方法依赖于对场景深度的感知，利用RGB及深度信息的不连续性和镜子内外的相关性来精确分割镜子，并用对比实验证明了PDNet镜子分割结果的准确性。对比实验中，PDNet在四个常用指标(IoU、

MAE和BER)上均获得了最佳性能，并且优势明显。本发明还进行了进一步的测试，对于复杂环境中面积较大的镜子，PDNet分割结果仍然优秀，并且镜子边界处的结果也令人满意。

(3)适用性更广泛

本发明适用于多种类型的镜子的分割，PDNet在以下几种类型的图像上的性能优势明显：a)包含小尺寸镜子的图像；b)包含大尺寸镜子的图像；c)包含镜中内容与周围环境相似或边界不清晰的镜子的图像；d)包含被真实物体遮挡的镜子的图像；e)包含多个镜子的图像。这证明了PDNet在不同场景下的有效性和实用性。

附图说明

图1为本发明PDNet的网络结构。

图2为本发明实施例的结果以及对比实验的结果展示，(a)PDNet输出结果展示，(b)对比试验结果展示。

具体实施方法

下面结合附图和技术方案，进一步说明本发明的具体实施方式。

本实施例所使用的带有深度信息的镜子数据集RGBD-Mirror共包含有3049张不同的常见情况下各种类型镜子的RGB彩色图像，及其所对应的深度图像和掩膜图像，将其随机划分为2000对图像组成的训练集和1049对图像组成的测试集。数据集RGBD-Mirror中多种尺寸的图像在训练时会被统一缩放为416×416的尺寸，并且图像分割的输出结果会被重新调整为输入图像的原始大小。特征提取网络的参数由预训练的ResNet-50网络初始化，其他参数随机初始化。

PDNet中，RGB图像和深度图像分别通过两种不同的多等级特征提取器，以获得RGB和深度特征，之后送入定位模块和描绘模块。定位模块使用RGB和深度的全局与局部特征预测镜子的初始位置；描绘模块根据局部不连续性和前一级的特征来优化镜子的边界。最后一个描绘模块的预测输出结果作为最终的镜子分割结果。PDNet的实现基于PyTorch，使用了随机梯度下降优化器，其动量值为0.9，权重衰减为5×10^-4，学习率设置为0.001，批大小定为18，在8核i7-9700K3.6GHz的CPU、64GB内存和GPU型号为NVIDIAGeForceRTX2080Ti的设备上训练分割网络的时间约为12小时。

图1是PDNet的网络结构展示。PDNet由分别处理RGB信息和深度信息的多等级特征提取器、一个定位模块和三个描绘模块组成。PDNet以成对的RGB图像和其对应深度图像作为输入，网络提取特征信息，定位模块预测镜子位置，描绘模块确定镜子边界，生成镜子掩膜图像作为最终的镜子分割结果。

图2是本发明实施例结果以及对比实验结果的展示。图2(a)是本发明对网络输出结果的展示，最右侧一列是用作对比的人工标注掩膜图像；图2(b)是为了验证PDNet的有效性，领域内的其他最新方法进行比较的结果展示。我们重新训练了领域内的其他用于分割的深度神经网络(CCNet、F3Net、BBS-Net、MirrorNet和PMD)，并使用公开的可用代码在同样的RGBD-Mirror训练集上进行了训练，在同样的RGBD-Mirror测试集上进行了测试。

Claims

1.一种基于深度感知的镜子图像分割方法，其特征在于，步骤如下：

步骤1构建新的镜子分割数据集RGBD-Mirror

构建带有深度信息的镜子分割数据集，其中有多张带有镜子的RGB彩色图像，及其相对应的深度图像和人工标注的镜子掩膜图像；镜子分割数据集包括日常生活场景中场景不同、样式不同、位置不同以及数量不同的镜子的图像，随机划分为训练集和测试集；

步骤2构建PDNet网络

镜子分割网络PDNet主要由多等级特征提取器、一个定位模块和三个描绘模块组成；

多层特征提取器的输入是步骤1所述镜子分割数据集中的训练集部分的RGB图像及其对应深度图像；多层特征提取器基于具有特征提取能力的ResNet-50网络实现；为了提高计算效率，在将提取的RGB特征和深度特征通过附加的通道缩减卷积操作后依次分等级送入一个定位模块和三个描绘模块；

定位模块结合深度信息和RGB信息来初步确定图像中镜子的位置，同时用于指导描绘模块的相应功能；定位模块为基于RGB和深度的全局和局部不连续性和相关性线索的网络，其包含一个不连续性感知分支和一个相关性感知分支；

不连续性感知分支提取并融合RGB域、深度域和两者的联合域的不连续性特征D^r、D^d和D^rd，这三个特征都由同样的不连续性块提取并将局部和全局的不连续性特征D_l和D_g相加获得，即

对于给定的特征F，所得局部不连续性特征定义为：

D_l＝R(N(f_l(F，Θ_l)-f_s(F，Θ_s)))

其中，f_l使用卷积核大小为3扩张率为1的卷积从局部区域提取特征，f_s使用卷积核大小为5扩张率为2的卷积从周围区域提取特征，两者做差后使用批止则化和ReLU激活处理；对于特定视角下反射内容和周围环境没有重叠的情形，使用全局不连续性特征表示：

D_g＝R(N(f_l(F，Θ_l)-f_g(G(F)，Θ_g)))

其中，G是全局平均池化操作，f_g使用卷积核大小为1的卷积，f_l和f_g的结果做差后同样使用批正则化和ReLU激活处理；这样提取到的D^r、D^d和D^rd被融合形成不连续性感知分支的输出：

D^DPB＝R(N(ψ_3×3([D^r，D^d，D^rd])))

其中，[·]表示通道维度上的联合操作，ψ_t×t表示卷积核大小为t的卷积操作；

相关性感知分支从RGB域和深度域挖掘镜子内外的相关性线索；本方法设计了动态加权，使用可学习的参数根据融合的质量调整输入域在融合过程中的重要性：

Y＝g(F^rd)(αk(F^r)+βk(F^d))，

k(F)＝softmax(θ(F)^Tφ(F))，

g(F)＝ψ_1×1(F)，

θ(F)＝ψ_1×1(F)，φ(F)＝ψ_1×1(F)，

μ(F)＝ψ_1×1(R(N(ψ_1×1(G(F)))))

其中，F^r和F^d是输入的RGB和深度特征，α和β是动态权重；为了增强容错率，本方法使用可学习的缩放参数γ来进行加权残差连接，即

将上述两个分支的输出结果D^DPB和C^CPB进行像素级的加法，即为定位模块的输出；

描绘模块使用定位模块或者上一级描绘模块的输出，结合RGB和深度特征信息，优化镜子的边界；描绘模块的核心部分被设计为三个描绘块，三个描绘块使用RGB和深度上的局部不连续性来描绘镜子的边界；对于给定的前一定位模块(或描绘模块)的输出F和对应层的多层特征提取器的输出F^h，描绘模块的计算如下：

F^hg＝U₂(R(N(ψ_3×3(F^h))))

其中，U₂是因子为2的线性上采样；和前面不连续块的输出结果处理方式一样，对RGB域、深度域和两者的联合域的描绘块输出结果D^r、D^d和D^rd，按照如下方式计算描绘模块的最终输出：

T^DM＝R(N(ψ_3×3([D^r，D^d，D^rd])))

步骤3训练过程

在训练时，首先将数据集的训练集数据送入网络的多等级特征提取器，提取的结果先后分等级送入一个镜子定位模块和三个镜子描绘模块；然后定位模块结合RGB特征和深度特征对图像中的镜子进行初步定位，描绘模块结合RGB域、深度域、RGB和深度混合域的特征确定镜子的边界；为提升训练效果，定位模块和描绘模块在训练过程中的预测结果均受到训练集中对应的人工标注的掩膜图像的监督，本方法计算标注的掩膜G和四个模块生成的特征预测分割图S之间损失的方法如下：

L＝w_bl_bce(S，G)+w_il_iou(S，G)+w_el_edge(S，G)

其中l_bce是二元交叉熵损失，l_iou是map级的IoU损失，l_edge是patch级的边界保存损失；每种损失的对应权重设置为w_b＝1，w_i＝1，w_e＝10；最终的损失函数定义为：

L_overall＝L_pm+2L_dm3+3L_dm2+4L_dm1