CN111339919A

CN111339919A - 一种基于多任务协作的镜子检测方法

Info

Publication number: CN111339919A
Application number: CN202010112812.0A
Authority: CN
Inventors: 梅海洋; 杨鑫; 魏小鹏; 尹宝才; 刘圆圆
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2020-06-26
Anticipated expiration: 2040-02-24
Also published as: CN111339919B

Abstract

本发明公开了一种基于多任务协作的镜子检测方法，属于目标检测领域。本发明针对单张RGB图像，通过多任务协作实现镜子检测。本发明所述镜子检测网络SemirNet包括共享编码器和协作网络，协作网络包括镜子分割网络、镜子边界检测网络和深度预测网络；通过深度预测网络预测的深度和镜子边界检测网络的边界信息，加强镜子分割网络对图像域中不连续的特征的判别能力，从而对输入的镜子图像生成最终的镜子检测结果。本发明解决了由于镜子的存在所导致的复杂的场景理解的困难，帮助系统区分镜子中的反射内容和真实场景中的内容，去除镜子的干扰，产生精确的镜子检测结果；且适用于多种形状、大小的镜子及不同场景下的镜子检测。

Description

一种基于多任务协作的镜子检测方法

技术领域

本发明属于计算机视觉领域中的目标检测(Object Detection)领域，具体实现结果为镜子的检测，特别涉及一种真实环境中镜子检测的方法。

背景技术

目标检测任务主要是帮助计算机理解真实环境中的场景信息，根据用户定义的检测目标，确定环境中该目标的大小、形状和位置等信息，具有巨大的实际应用价值。随着人工智能技术的快速发展，场景理解相关任务，例如目标检测、语义分割、深度估计、显著性检测、阴影检测等，都获得了显著的性能提升。

但是场景中经常会存在一些特殊的物体，比如镜子，这类物体会对场景理解造成重要的影响，但却没有相关的研究来处理这类物体。场景中镜子的存在会严重影响目前的计算机视觉系统，因为这些系统不能够区分镜子外真实的内容和镜子里反射的内容，进而使这些视觉系统失效，例如产生错误的深度估计或错误地将镜子中反射的物体识别为真实的物体。而检测场景中的镜子是一个极具挑战的任务，因为镜子能够反射周围或者远处的场景，使镜子中的内容和镜子外的内容极其相似，难以区分，而且在镜子内部，反射内容复杂多样，使镜子本质上不同于普通的物体。

现有的场景理解方法主要包括语义分割、显著物体检测和阴影检测等。

其中，语义分割旨在通过理解输入图像的语义信息，为图像的每一个像素点分配一个语义标签。基于全卷积的编码器-解码器结构是目前最常用的语义分割方法，通常利用多尺度的上下文信息聚合来学习并识别物体，并确定目标的准确边界。具体而言，通过将低级编码器特征与其相应的解码器特征组合在一起，使用扩张卷积来扩大感受域，以补偿编码器部分中丢失的细节信息。然而，将现有的语义分割方法应用于镜子分割(即将镜子视为对象类别之一)时，不能从根本上解决镜子分割问题，因为镜子中反射的内容也会被当作真实场景进行处理，检测效果存在较大误差。

显著物体检测(Salient Object Detection,SOD)旨在识别图像中在视觉上最显著的对象，即找出图像中的显著物体，同时检测出它们的位置、大小和形状，来到达场景理解的目的。传统的SOD方法依赖于低级手工设计的特征(例如颜色和对比度)，而基于深度学习的SOD方法则考虑自下而上和自上而下的显着性推断。通过将局部像素显著性估计和全局目标搜索结合以进行显著性目标检测。但是，真实场景镜子中反射的内容不一定具有显著性。即使是显著的，也可能只有一部分是显著的。因此，将现有的SOD方法应用于镜子检测也无法解决该问题。

因此本发明基于对现有场景理解技术的调查与分析，通过多任务协作的方式，构建了检测场景中的镜子的方法SemirNet。方法的输入是包含镜子的单张RGB图像，输出是镜子掩膜图像，其中镜子区域的值为1，非镜子区域的值为0。该方法能够有效地检测出不同场景下不同类型的镜子，从而能够帮助场景理解提升准确度。

发明内容

本发明的目的是针对单张RGB图像，通过多任务协作实现镜子检测的方法SemirNet。SemirNet包括共享编码器和协作网络，所述的协作网络包括镜子分割网络(S-Net)、镜子边界检测网络(B-Net)和深度预测网络(D-Net)；本发明所述方法适用于多种形状和大小的镜子。

本发明的技术方案为：

一种基于多任务协作的镜子检测方法，该方法包括以下步骤：

步骤1选择镜子检测数据集MSD

为了解决镜子分割问题，选择一个大规模镜子检测数据集MSD，该数据集包括镜子的图像和对应的人工标注的镜子掩膜图像；且该数据集涵盖了常见场景中的不同样式的镜子以及被实物遮挡的镜子。并将得到的MSD数据集中的图像划分为训练集和测试集。

步骤2共享编码器提取特征

将步骤1构建的MSD数据集中训练集的图像输入到共享编码器中以收获不同级别的特征。共享编码器主要利用传统的特征提取网络实现，例如VGG16和ResNet50等具有特征提取能力的网络。

步骤3构建协作网络

所述的协作网络包括三个并行的网络，分别为镜子分割网络(S-Net)、镜子边界检测网络(B-Net)和深度预测网络(D-Net)。

镜子分割网络S-Net主要用来检测图像域中的不连续性，即颜色、亮度和内容不连续的地方。为此，镜子分割网络S-Net要求共享编码器提供输入图像的高级语义信息，由此生成图像内容中的不连续性。只有当S-Net具有足够大的感受域时，才能识别这些不连续性。本发明通过在带有预训练的ResNet-101编码器的PSP模块上构建镜子分割网络S-Net，PSP模块对于聚合远程上下文信息非常有效，故引用PSP模块用于镜子分割网络。

在设计镜子边界检测网络的过程中，由于考虑到反射镜中的投影内容可能来自不同距离的背景，而且在反射镜内或沿反射镜边界可能存在不一致的深度，这两者都可用于帮助定位反射镜区域。因此深度预测网络D-Net用于估计图片的深度图，并转化为注意力图，以引导网络专注于深度域不一致的区域。所述的D-Net使用跨连接方式连接六个卷积层实现深度预测，通过将步骤2中共享编码器得到的多级特征输入到D-Net中，生成最终的深度注意力图，并将深度注意力图馈送到主网络以增强空间上下文信息。所述深度预测网络D-Net采用上采样和下采样模块将步骤2中的共享编码器提供的多级特征图对齐到相同的空间分辨率。

镜子边界检测网络B-Net旨在通过显式的提供镜像边界信息来增强上下文信息以进行镜子分割，作为预测镜面区域的重要辅助。通过提供边界信息可以进一步使网络学习到更多具有辨别力特征，以区分镜子中的内容与背景。由于镜子通常具有规则的形状，因此相对容易地预测镜子的边界。因此，将步骤2共享编码器中三个连续的卷积层产生的多级特征以跨连接的方式组合来检测反射镜的边缘，来自最后一个卷积层的特征用于结构上下文增强。

步骤4形成镜子检测网络SemirNet并输出检测结果

将步骤3中构建的镜子分割网络S-Net、镜子边界检测网络B-Net和深度预测网络D-Net均与步骤2中的共享编码器连接，形成镜子检测网络SemirNet；将步骤2中的共享编码器生成的多级特征作为D-Net、B-Net和S-Net的输入，通过利用D-Net预测的深度生成深度注意力图和B-Net的边界信息，加强S-Net对图像域中不连续的特征的判别能力，从而对输入的镜子图像生成最终的镜子检测结果。

步骤5验证SemirNet有效性

为了验证SemirNet的有效性，将SemirNet与其他相关领域的最新方法进行比较以验证发明的有效性。为了进行公平的比较，SemirNet相关领域的方法均使用其公开的代码或带有建议参数的设置，并且均在MSD训练集中进行训练，在测试集上进行测试。

所述相关领域的方法包括UNet、FCN、SegNet、ICNet、PSPNet、Mask RCNN和DSS。

本发明的有益效果：

(1)镜子检测结果与效率

本发明解决了由于镜子的存在所导致的复杂的场景理解的困难，帮助系统区分镜子中的反射内容和真实场景中的内容，去除镜子的干扰，产生精确的镜子检测结果。本发明提出了一种从RGB图像中分割出镜子的方法，该方法依赖于协作网络，通过深度检测和边缘信息来精确检测镜子，并通过对比实验证明了SemirNet玻璃检测结果的精确性。对比实验中SemirNet在所有四个常用指标IoU、Acc.1、Acc.2和BER上均获得了最佳性能，并且具有很大的优势。本发明进行了进一步的视觉效果的比较，验证了在具有较大面积的镜子面积的复杂周围场景上，SemirNet具有较好的检测结果，并且SemirNet在镜子的精细边界处产生了令人满意的结果。

(2)适用性更广泛

本发明适用于在不同场景下的镜子检测，SemirNet在以下几种类型的图像上的性能具有很好的优势：(a)包含反射场景的镜子的图像；(b)包含被真实物体遮挡的镜子的图像；(c)包含多个镜子的图像。证明了SemirNet在不同场景上的有效性和适用性。

附图说明

图1为本发明实施例所述数据集中部分图片展示。

图2为本发明SemirNet的网络结构。

图3为本发明实施例对比实验的显示结果。

具体实施方式

下面结合附图和技术方案，进一步说明本发明的具体实施方式。

本实施例使用MSD数据集，该数据集包含4018张不同常见情况下各种类型镜子的图像。随机选择3063张图像用于训练，其余955张图像用于测试。由于MSD数据集中有两种图像尺寸(即640×512和512×640)，在训练过程中将图像缩放为384×384。共享编码器的参数由预训练的ResNet网络初始化，其他参数则随机初始化。

SemirNet中包含三个预测任务，即一个连续的回归问题(深度估计)和两个离散的分类问题(镜子边界检测和镜子分割)。本发明使用分类交叉熵损失用于镜像边界检测和镜像分割任务。在以Tensorflow为后端的Keras神经网络框架来实现SemirNet。在训练期间，S-Net中的编码器模块通过使用ImageNet数据集来进行预训练的模型初始化，而SemirNet中的其他层则被随机初始化。随机梯度下降被用于优化整个网络，其动量值为0.9，权重衰减为1e-4。学习率设置为1e-2。边界的权重α和深度的β分别设置为1。本发明实施例在45个训练周期后终止学习过程，使用了四块NVIDIA Titan V显卡训练网络需要花费24h的时间。

图1为本实施例所使用的镜子数据集中的部分图片的展示，MSD数据集包含4018张不同常见情况下各种类型镜子的图像，分为了具有3063张图像的训练集和955张图像的测试集。所述的MSD数据集包括日常生活场景中的镜子的图像、反射场景的镜子的图像、被实物遮挡的镜子的图像以及多个镜子的图像，确保了训练集和测试集具有相同的分布曲线，保证了数据集的完整性和结构准确性。

图2是SemirNet的网络结构。SemirNet由共享编码器和协作网络组成，所述的协作网络包括镜子分割网络(S-Net)、镜子边界检测网络(B-Net)和深度预测网络(D-Net)。SemirNet以单个RGB图像作为输入，并共同预测镜子边界、场景深度以及镜子掩膜，生成最终的镜子检测结果。

图3是对比试验的显示结果表示。本实施例重新训练了用于语义/实例分割的深层网络(UNet、FCN、SegNet、ICNet、PSPNet和Mask RCNN)和使用公开可用的代码对MSD训练集进行显著性检测(DSS)，并调整了这些训练参数用以获得最佳的镜子分割结果。

Claims

1.一种基于多任务协作的镜子检测方法，其特征在于，所述方法包括以下步骤：

步骤1选择镜子检测数据集MSD

选择一个镜子检测数据集MSD，该数据集包括镜子的图像和对应的人工标注的镜子掩膜图像；且该数据集涵盖场景中的多种样式的镜子以及被实物遮挡的镜子；将得到的MSD数据集中的图像划分为训练集和测试集；

步骤2共享编码器提取特征

将步骤1构建的MSD数据集中训练集的图像输入到共享编码器中以收获多级别的特征；所述的共享编码器利用特征提取网络实现；

步骤3构建协作网络

所述的协作网络包括三个并行的网络，分别为镜子分割网络S-Net、镜子边界检测网络B-Net和深度预测网络D-Net；

所述的镜子分割网络S-Net用于检测图像域中的不连续性，镜子分割网络S-Net要求共享编码器提供输入图像的高级语义信息，由此生成图像内容中的不连续性；因此，在带有预训练的ResNet-101编码器的PSP模块上构建镜子分割网络S-Net；

所述的深度预测网络D-Net用于估计图片的深度图，并转化为注意力图，以引导网络专注于深度域不一致的区域；所述的深度预测网络D-Net使用跨连接方式连接六个卷积层实现深度预测，通过将步骤2中共享编码器得到的多级特征输入到D-Net中，生成最终的深度注意力图，并将深度注意力图馈送到主网络以增强空间上下文信息；所述深度预测网络D-Net采用上采样和下采样模块将步骤2中的共享编码器提供的多级特征图对齐到相同的空间分辨率；

所述的镜子边界检测网络B-Net通过显式的提供镜像边界信息来增强上下文信息以进行镜子分割，作为预测镜面区域的重要辅助；将步骤2共享编码器中三个连续的卷积层产生的多级特征以跨连接的方式组合来检测反射镜的边缘，来自最后一个卷积层的特征用于结构上下文增强；

步骤4形成镜子检测网络SemirNet并输出检测结果

将步骤3中构建的镜子分割网络S-Net、镜子边界检测网络B-Net和深度预测网络D-Net均与步骤2中的共享编码器连接，形成镜子检测网络SemirNet；将步骤2中的共享编码器生成的多级特征作为D-Net、B-Net和S-Net的输入，通过利用D-Net预测的深度生成深度注意力图和B-Net的边界信息，加强S-Net对图像域中不连续的特征的判别能力，从而对输入的镜子图像生成最终的镜子检测结果；

步骤5验证SemirNet有效性

将SemirNet与SemirNet相关领域的方法进行比较以验证SemirNet的有效性；所述SemirNet相关领域的方法均使用公开的代码或带有建议参数的设置，并且均在MSD训练集中进行训练，在测试集上进行测试。

2.根据权利要求1所述的一种基于多任务协作的镜子检测方法，其特征在于，步骤2中所述的特征提取网络包括VGG16或ResNet50。

3.根据权利要求1或2所述的一种基于多任务协作的镜子检测方法，其特征在于，步骤5中所述的SemirNet相关领域的方法包括UNet、FCN、SegNet、ICNet、PSPNet、Mask RCNN和DSS。