CN111339917B

CN111339917B - 一种真实场景下玻璃检测的方法

Info

Publication number: CN111339917B
Application number: CN202010112303.8A
Authority: CN
Inventors: 杨鑫; 梅海洋; 刘圆圆; 魏小鹏; 张强
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2022-08-09
Anticipated expiration: 2040-02-24
Also published as: WO2021169049A1; CN111339917A; US20220148292A1; US11361534B2

Abstract

本发明公开了一种真实场景下玻璃检测的方法，属于物体检测领域。本发明设计了一种基于LCFI块的组合方式，以有效地集成不同尺度的上下文特征，成功地检测出不同大小的玻璃。最终，将多个LCFI组合块嵌入到玻璃检测网络(GDNet)中，以获得不同级别的大尺度上下文特征，从而实现了在各种场景下可靠精确的玻璃检测。

Description

一种真实场景下玻璃检测的方法

技术领域

本发明属于计算机视觉领域中的目标检测(Object Detection)领域，具体实现结果为玻璃的检测，特别涉及一种真实场景下玻璃检测的方法。

背景技术

二维图像中的目标检测任务是根据用户定义的检测目标，确定图像中物体的大小和位置。检测手段从传统的人工设计特征加浅层分类器的框架，到基于深度学习的端到端的检测框架，目标检测方法与种类随着深度学习的不断发展日益进步与完善。

但是物体检测过程中仍有很多不确定因素，而且当检测物体为玻璃时，因为玻璃是透明的无定形的固体，这种由玻璃制成的物体会对现有的视觉系统(例如深度预测和实例分割)产生重大影响，并且还会进一步影响许多应用(例如机器人导航和无人机跟踪)中的智能决策，例如，机器人/无人机可能碰撞玻璃墙。因此，视觉系统能够根据输入图像检测并分割玻璃，具有很大的现实意义和应用价值。

与玻璃检测方法相关的现有的方法主要包含语义分割、显著物体检测和去除反射等方法。

(a)语义分割

语义分割旨在将给定图像分割并解析为能与离散对象的语义类别相关联的不同区域。通常是基于全卷积网络(FCN)，利用多尺度上下文聚合或利用更具区分性的上下文特征来实现高分割性能。但是在图像中包含大面积玻璃的情况下，玻璃的透明性质会对语义分割造成很大程度的干扰，玻璃后的物体会被系统识别而透明的玻璃往往会被忽略，导致系统对于场景的语义理解产生误差。

(b)显著物体检测

显著物体检测旨在识别图像中最显著的对象，即找出图像或视频中的感兴趣的物体，同时检测出它们的位置、大小和形状。许多最新的深度模型致力于充分利用不同级别特征的集成来增强神经网络的性能，例如逐步整合局部上下文信息，以预测精细的显著图。但由于玻璃的形状大小和位置都不定，且通常情况下，在玻璃区域呈现的内容是真实场景，而不仅仅是一个或多个显著物体，会导致该类方法在检测玻璃时，出现较大的误差。

(c)去除反射

反射是在透过玻璃进行拍摄时经常会发生的图像损坏的情况之一。反射的存在可以反向证明玻璃的存在，因此可以尝试通过单图像反射去除(SIRR)的方法解决此玻璃检测问题。但是反射的存在并不出现在玻璃的全部区域，并且反射的程度与光照条件密切相关，当玻璃区域中仅存在很少或非常弱的反射时，SIRR的方法仍不能完全解决玻璃检测问题。

并且由于玻璃检测是一个新提出的问题，现存的开源数据集中，不具备为玻璃检测问题专门构建的大型数据集；为了进行对玻璃检测问题的研究，本发明构建了首个大规模的玻璃检测数据集(GDD)，并实现了基于上下文信息的玻璃检测方法GDNet。

发明内容

本发明的目的是针对单张图像，通过更高效的上下文特征集成方法实现玻璃检测的方法，并且适用于多种形状和大小的玻璃。为实现上述目的，本发明首先提供了一个具有多场景的数据集GDD，基于该数据集，提出了一种真实场景下的玻璃检测方法，通过给定单个RGB图像，来生成最终的玻璃检测结果。

本发明的技术方案为：

一种真实场景下玻璃检测的方法，该方法包括以下步骤：

步骤1构建玻璃检测数据集GDD

使用最新的相机和智能手机捕获玻璃图像，构建玻璃检测数据集GDD；并且像素级玻璃掩膜由专业标注者进行标记。所述的玻璃检测数据集GDD涵盖了各种日常生活场景(例如浴室、办公室、街道或购物中心)的图像，以保证网络学习的多样性及网络的适用性。所述图像均采用真实场景拍摄，方便后续将该网络用于真实环境中，具有更好的应用性。将得到的玻璃检测数据集GDD中的图像划分为训练集和测试集。

步骤2多级特征提取器提取特征

将步骤1构建的GDD数据集中训练集的图像输入到多级特征提取器(MFE)中以收获不同级别的特征。MFE主要利用传统的特征提取网络实现，例如VGG16和ResNet50等具有特征提取能力的网络。

步骤3构建大尺度上下文特征集成LCFI块

LCFI块旨在有效提取大尺度范围内的上下文信息，是玻璃检测网络(GDNet)的基本组成部分，LCFI块主要用来进行上下文推断和定位。传统方法获取更多上下文信息的常见做法是使用具有大内核的卷积或空洞卷积。但是，大内核将导致繁重的计算，而大的空洞率将导致稀疏采样。

本发明使用交叉卷积来构建LCFI块：通过扩张率为r、内核大小分别为k×1的垂直卷积和内核大小为1×k的水平卷积来实现具有较小计算量的大尺度范围的特征提取。由于玻璃区域内的内容通常很复杂，需要使用具有不同特征的上下文特征来消除歧义，因此，使用另一个具有相反顺序的平行十字交叉卷积，以提取互补的大尺度上下文特征用来消除歧义。

步骤4设计LCFIM模块

通过给定内核大小k和扩张率r可以确定一个LCFI块，但是只使用单一的LCFI块只能在固定大小的尺度中提取上下文特征。而且如果该尺度不足以覆盖整个玻璃区域，将发生不完整的检测。另一方面，如果对于较小的玻璃区域，提取特征面积过大，则会引入过多的噪声。为了解决这个问题，本发明将n个不同规模的LCFI块组合起来形成LCFIM模块，实现从不同规模的尺度中获取上下文特征。

具体地，将MFE提取的特征层输入到n个并行LCFI块中，并通过注意力模块融合每个LCFI块的输出。同时，在相邻的两个LCFI块之间添加信息流以进一步探索更多的上下文特征，即，将当前的LCFI块的输出作为下一个LCFI块的输入；从而将来自上一个LCFI块的局部特征与当前块的上下文特征进行了融合，并由当前LCFI块进一步处理，扩大了探索的尺度。

步骤5组合形成玻璃检测网络GDNet并输出检测结果

将步骤2选择的多级特征提取器MFE和步骤4构建的LCFIM模块嵌入到玻璃检测网络GDNet中以获得不同级别的大尺度上下文特征，所述的玻璃检测网络GDNet按次序依次包括多级特征提取器MFE、LCFIM模块和后续的反卷积操作，将三部分内容按照顺序依次进行组合，将融合后的特征作为生成最终的玻璃检测结果，实现玻璃的检测并输出玻璃检测结果。

步骤6验证GDNet有效性

为了验证GDNet有效性，将GDNet与其他相关领域的最新方法进行比较以验证GDNet的有效性。为了进行公平的比较，GDNet相关领域的方法均使用其公开的代码或带有建议参数的设置，并且均在GDD训练集中进行训练，在测试集上进行测试。

所述相关领域的方法包括DSS、PiCANet、ICNet、PSPNet、DenseASPP、BiSeNet、PSANet、DANet、CCNet、RAS、R3Net、CPD、PoolNet、BASNet、EGNet、DSC、BDRAR或MirrorNet。

本发明的有益效果：

(1)玻璃检测结果与效率

本发明解决了由于玻璃的存在所导致的严重的计算机视觉系统性能的降低，帮助系统区分玻璃的存在区域并去除玻璃后物体的干扰，产生精确的玻璃检测结果。本发明提出了一种从RGB图像中分割出玻璃的方法，该方法依赖于LCFI块来精确检测玻璃。

(2)更大规模的数据集

本发明实现了一个大规模数据集的构建，其中包含玻璃及其相应的分割标签，涵盖了各种日常生活场景。为了解决镜像分割问题，本发明构建了一个名为GDD的大规模数据集，GDD数据集是第一个用于玻璃分割的大型基准。为了构建数据集，本发明使用相机进行图像捕获，并聘请专业人员进行图像标记。本发明具有种类丰富的玻璃类型：GDD数据集中有各种常见的玻璃(例如橱窗、玻璃墙、玻璃门、玻璃护栏以及窗户和橱柜上的玻璃)；还包括其他相对较小的玻璃物体，例如玻璃灯泡和玻璃钟。本发明中玻璃位置总体空间分布倾向于居中，因为玻璃通常较大且覆盖中心。此外，训练/测试分割的玻璃空间分布与整个数据集的玻璃空间分布一致。而且GDD数据集中的玻璃在尺寸方面变化很大，并且图像中玻璃面积占图像面积的比例大多数在[0.2，0.8]范围内。玻璃内部会出现更多的物体/场景，使GDD数据集更具挑战性。

附图说明

图1为本发明实施例所述数据集中部分图片展示。

图2为本发明GDNet的网络结构。

图3为对比实验的显示结果。

具体实施方式

下面结合附图和技术方案，进一步说明本发明的具体实施方式。

从室内场景拍摄了2827张图像，从室外场景拍摄了1089张图像，所述图像均采用真实场景拍摄。对于数据集分割，随机选择2980张图像进行训练，其余936张图像用于测试。

本发明在PyTorch框架上实现了GDNet。为了进行训练，将输入图像调整为416×416的分辨率，并通过水平随机翻转对其进行增强。多级特征提取器MFE的参数由预训练的ResNeXt101网络初始化，其他参数则随机初始化。

每个LCFIM模块由4个LCFI块组成，LCFI块的内核大小分别为3、5、7和9，空洞率的大小为1、2、3和4。在相邻的两个LCFI块之间添加信息流以进一步探索更多的上下文特征，即，将当前的LCFI块的输出作为下一个LCFI块的输入。连接4个LCFI块组成一个LCFIM模块，将MFE提取的特征层输入到LCFIM模块中提取丰富的上下文特征，并进行下采样，组合形成玻璃检测网络GDNet，最终GDNet的输出作为玻璃的检测结果。

训练过程配备了0.9的动量和5×10^-4的权重衰减的随机梯度下降(SGD)用于优化整个网络。通过poly策略调整学习率，基本学习率为0.001。批处理大小设置为6，并且平衡参数wh、wl和wf根据经验设置为1。网络在NVIDIA GTX1080Ti显卡上收敛大约需要22个小时。为了进行测试，将图像调整为416×416的分辨率以进行网络推断。对于最终的玻璃检测结果，没有进行条件随机场(CRF)之类的后处理程序。

图1为本发明所提出的玻璃数据集中的部分图片的展示，GDD数据集为具有约4000张图像的数据集。GDD数据集中包括日常生活场景中的具有玻璃的图像、含有复杂物体背景的玻璃的图像以及包括多个玻璃的图像。确保了训练集和测试集具有相同的分布曲线。保证了数据集的完整性和结构准确性。

图2是GDNet的网络结构。首先将图片输入到多级特征提取器(MFE)中以收获不同级别的特征。然后，将MFE提取得到的四个特征层分别输入到四个LCFIM模块学习大范围的上下文特征。将其中三个LCFIM模块的输出融合在一起，以生成高级别的大尺度上下文特征，这些特征将用于不断指导从第一个LCFIM模块提取的低级别的大尺度上下文特征，将重点更多地放在玻璃区域上。最后，融合高级和低级的大尺度上下文特征，并使用融合后的特征生成最终的玻璃检测结果。

图3是对比试验的显示结果。重新训练了用于语义/实例分割的深层网络和公开的显著性检测代码在GDD上进行训练和测试，并调整了这些网络的训练参数用以获得最佳的玻璃分割结果。经过实验对比，验证了LCFI块的有效性，并且GDNet网络在同类型方法中具有着最优秀的性能和效果，具有着很好的通用性和精确度。

Claims

1. 一种真实场景下玻璃检测的方法，其特征在于，所述方法具体包括以下步骤：

步骤1 构建玻璃检测数据集GDD

使用相机和智能手机捕获玻璃图像，构建玻璃检测数据集GDD；所述的玻璃检测数据集GDD包含具有不同场景及不同面积大小玻璃场景的图像以保证网络学习的多样性及网络的适用性；所述图像均采用真实场景拍摄；将得到的玻璃检测数据集GDD中的图像划分为训练集和测试集；

步骤2 多级特征提取器提取特征

将步骤1构建的GDD数据集中训练集的图像输入到多级特征提取器MFE中以收获不同级别的特征；所述的多级特征提取器MFE利用特征提取网络实现；

步骤3 构建大尺度上下文特征集成LCFI块

使用交叉卷积来构建LCFI块：通过扩张率为r、内核大小分别为k×1的垂直卷积和内核大小为1×k的水平卷积来实现大尺度范围的特征提取；并使用另一个具有相反顺序的平行十字交叉卷积，以提取互补的大尺度上下文特征用来消除歧义；

步骤4设计LCFIM模块

将n个不同规模的LCFI块组合起来形成LCFIM模块，以实现从不同规模的尺度中获取上下文特征；具体为：将多级特征提取器MFE提取的特征层输入到n个并行LCFI块中，并通过注意力模块融合每个LCFI块的输出；同时，在相邻的两个LCFI块之间添加信息流以探索更多的上下文特征，即，将当前的LCFI块的输出作为下一个LCFI块的输入，从而将来自上一个LCFI块的局部特征与当前块的上下文特征进行了融合，并由当前LCFI块进一步处理，扩大了探索的尺度；

步骤5 组合形成玻璃检测网络GDNet并输出检测结果

将步骤2选择的多级特征提取器MFE和步骤4构建的LCFIM模块嵌入到玻璃检测网络GDNet中以获得不同级别的大尺度上下文特征；所述的玻璃检测网络GDNet按次序依次包括多级特征提取器MFE、LCFIM模块和后续的反卷积操作，将三部分内容按照顺序依次进行组合，使用融合后的特征生成最终的玻璃检测结果，实现玻璃的检测并输出玻璃检测结果；

步骤6 验证GDNet有效性

将GDNet与GDNet相关领域的方法进行比较以验证GDNet的有效性；所述GDNet相关领域的方法均使用公开的代码或带有建议参数的设置，并且均在GDD训练集中进行训练，在测试集上进行测试。

2.根据权利要求1所述的一种真实场景下玻璃检测的方法，其特征在于，步骤2中所述的特征提取网络包括VGG16或ResNet50。

3.根据权利要求1或2所述的一种真实场景下玻璃检测的方法，其特征在于，步骤6中所述的GDNet相关领域的方法包括DSS、PiCANet、ICNet、PSPNet、DenseASPP、BiSeNet、PSANet、DANet、CCNet、RAS、R3Net、CPD、PoolNet、BASNet、EGNet、DSC、BDRAR或MirrorNet。