CN112365434A

CN112365434A - 一种基于双掩膜图像分割的无人机狭窄通道检测方法

Info

Publication number: CN112365434A
Application number: CN202011243647.9A
Authority: CN
Inventors: 庄严; 杨佳辉; 闫飞; 张雪涛
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-02-12
Anticipated expiration: 2040-11-10
Also published as: CN112365434B

Abstract

一种基于双掩膜图像分割的无人机狭窄通道检测方法，属于基于视觉的图像分割领域。本发明使用深度学习的方法提取通道与通道所在墙壁的双掩膜，再对双掩膜融合便可以得到通道与通道轮廓的位置信息。此外，本发明设计的卷积神经网络模型具有参数少、计算量小的特点，可以在机载计算机上达到实时检测的效果。本发明中检测方法可以检测各种不规则形状的狭窄通道，在狭窄通道背景图案复杂、光照不均匀等场景均有较强的鲁棒性。而且模型计算量较少，在机载计算机平台上运行时可以实现高频率的检测。

Description

一种基于双掩膜图像分割的无人机狭窄通道检测方法

技术领域

本发明属于基于视觉的图像分割领域，用于小型无人机在飞入飞出建筑物时，对建筑物墙壁上狭窄通道的实时检测。

背景技术

无人机技术是跨越电器工程、机械工程、计算机科学和数学等领域的综合性技术，同时随着人工智能技术的快速发展，无人机技术已在很多领域得到了应用。面对灾后室内救援等任务，小型无人机凭借自身敏捷的优势可以在第一时间替代搜救人员进入建筑物内部执行环境勘测、补给品投递等任务。在这种情况下，无人机进出建筑物通常需要穿越建筑物上的狭窄通道，因此小型无人机如何自主、准确、快速的检测建筑物墙体上的狭窄通道是一个重要问题。

在基于视觉的目标检测检测方法中，yolo、ssd等快速检测的方法常常作为小型无人机上的感知算法。文献(Jung S,Hwang S,Shin H,et al.Perception,guidance,andnavigation for indoor autonomous drone racing using deep learning[J].IEEERobotics and Automation Letters,2018,3(3):2539-2544.)提出了一种基于目标检测的狭窄通道检测方法，该方法具有速度快的特点，但是该方法只能得到图像上包围目标通道的一个矩形框，而无法得到该通道在图像上的像素级的语义信息，因此无法完成针对非规则狭窄通道的有效检测。

文献(Sanket N J,Deep S C,Kanishka G,et al.GapFlyt:Active vision basedminimalist structure-less gap detection for quadrotorflight[J].IEEE Roboticsand Automation Letters,2018,3(4):2799-2806.)仿照昆虫感知，采用主动视觉的方式对小型无人机狭窄通道穿越问题进行了研究。此方法使用光流法估计通道的位置，这种检测方法对通道边缘信息敏感，检测的精度较高。但是该方法的泛化能力差，通常在实验条件可控的环境中有较好表现，但如果狭窄通道存在边缘模糊的情况，则检测精度显著降低。

综上所述，为了提升小型飞行器飞行穿越建筑物上的狭窄通道的成功率，找到一种准确度高、速度快、适应性强的检测狭窄通道的方法是非常必要的。

发明内容

本发明针对小型无人机飞入飞出建筑物时的狭窄通道检测问题，提出了一种基于双掩膜图像分割的狭窄通道检测方法。本发明使用深度学习的方法提取通道与通道所在墙壁的双掩膜，再对双掩膜融合便可以得到通道与通道轮廓的位置信息。此外，本发明设计的卷积神经网络模型具有参数少、计算量小的特点，可以在机载计算机上达到实时检测的效果。

本发明通过以下步骤对狭窄通道进行检测：

一种基于双掩膜图像分割的无人机狭窄通道检测方法，步骤如下：

步骤一：构建深度卷积神经网络

狭窄通道检测模型使用深度卷积神经网路进行搭建，网络的主体主要由编码模块和解码模块两个部分组成。

编码模块负责对图像进行特征提取，主要由不同深度的卷积模块搭建而成。为了减小计算量从而提高计算的实时性，除了第一个卷积模块采用普通卷积外，其他卷积模块均采用包含深度可分离卷积层的倒置残差模块作为特征提取器。使用卷积方法对特征进行下采样，即通过步长为二的卷积模块在特征提取的同时将特征图的尺寸降采样为原尺寸的一半。在整个编码部分中总共进行了四次下采样，所以编码部分最终将输出尺寸降低为输入尺寸的十六分之一。编码模块的输入为一个四通道的图像，输入图像由RGB图像和深度图像构成，其中RGB图像为一幅由红绿蓝三基色组成的三通道图像，深度图像为的单通道灰度图像，将两种图像在通道维度进行拼接，可以得到用于网络输入的四通道图像。

解码模块主要负责恢复图像的尺寸并输出最终的双掩膜结果。该模块由三个模组和一个输出模块构成，每个模组由一个向上采样单元、一个通道拼接模块和两个卷积模块组成。对于一个模组来说，首先由向上采样单元对上层模块输出的特征图进行向上采样，将尺寸扩大为输出尺寸的二倍，然后通过一个通道拼接模块将编码模块中对称位置的特征图进行复制后与向上采样得到的特征图进行通道拼接，接下来让拼接后的结果经过两次卷积模块，便得到了这个模组的输出。解码模块将编码模块的编码结果进行了三次向上采样，最终将图像恢复到输入图像尺寸的一半。解码模块的输出模块是由一个卷积模块构成，输出通道数为二，使得网络最终的输出为一个两通道的双掩膜。

因此，此网络由普通卷积模块、倒置残差模块、向上采样单元构成。网络的输入为RGB图像和深度图像拼接的四通道图像，输出为两通道的双掩膜图像。

步骤二：创建用于双掩膜图像分割的数据集

数据集主要用于狭窄通道检测模型的训练与验证，数据集中的图像由小型无人机搭载的RGB-D相机采集得到，图像分为RGB图像和深度图像，两种图像是成组出现的。

图像标注采用两个封闭图形进行标注，分别表示狭窄通道的掩膜和通道所在墙体的掩膜。掩膜是一个由0和1两种像素值组成的图像，其尺寸大小与所标注图像的大小相同，其中像素值1坐标代表了原图中感兴趣的像素值位置，像素值为0的坐标代表了原图中不感兴趣位置。将掩膜与原图像相乘，得到图像中感兴趣的区域。通过标注得到的掩膜作为图像分割的真值，在网络训练时起到监督训练和测试狭窄通道检测模型效果的作用。

步骤三：狭窄通道检测模型的训练与验证

狭窄通道检测模型的训练采用深度学习框架进行训练，训练过程分为数据处理和迭代优化两个部分。

在模型训练时为了使数据的格式一致和内容多样，需要对训练数据进行预处理后再送入网络。对于输入数据格式，首先将每组RGB图像和深度图像进行通道融合得到4通道图像，然后统一改变成相同的尺寸H_in*W_in*4，其中H_in和W_in分别代表了输入图像的宽和高。然后将图像RGB三通道的每一个像素值进行标准化处理，标准化处理的公式为：

其中Img_std是标准化处理之后的像素值，Img_rog是标准化处理之前的像素值、μ是像素的均值、σ是像素的标准差。对于数据增广，在训练过程中对输入的图像进行一些随机的操作，本发明采用的数据增广方法有：镜像反转、旋转、缩放、裁剪、平移、添加高斯噪声、图像亮度和对比度变化。这些方法使得数据在有限多数据集的情况下表现出更多的形式，从而更好地优化模型。

迭代优化是模型训练的重要步骤，让狭窄通道检测模型去拟合数据的真值。训练的优化器采用小批量梯度下降的方法，在每次迭代过程中，需要从所有的数据中无放回的随机选取一些数据作为一批数据，统一经过数据处理后送入狭窄通道检测模型。采用BCELoss(Binary CrossEntropyLoss，交叉熵损失)作为损失函数，其公式为：

其中s是每批数据的图像数量，n是总的像素数量，c是类别数，x_ij是狭窄通道检测模型的预测值，y_ij是类别真值。迭代优化狭窄通道检测模型时，需要设置一个学习率Lr用来指导狭窄通道检测模型的优化速度，Lr采用分段常数衰减的方式进行衰减。每次使用全部的训练集数据进行一轮训练后，都要在验证集上对这一轮训练所得到的狭窄通道检测模型的精度进行一次验证，保留精度最高的那一轮的训练结果作为最终的狭窄通道检测模型。使用MIoU作为狭窄通道检测模型精度的评价指标，它表示了真实值和预测值两个集合的交集和并集之比，MIoU的公式为：

其中k+1表示类别数，包含背景类，p_ii表示真实标签中正样本像素数，p_ij表示错误预测的正样本像素数，p_ji表示错误预测的负样本像素数。

使用训练好的狭窄通道检测模型进行验证时，需要实时地读取摄像头采集的图像流，通过图像预处理后送入训练好的狭窄通道检测模型，网络经过计算之后输出一幅两通道的掩膜图像。需要将输出结果恢复到输入图像的尺寸，然后分别对两个掩膜进行开操作来去除噪声点，之后通过一个设定的阈值σ_Thr对两张掩膜进行二值化，二值化的公式为：

其中P_B表示二值化之后的掩膜，P_O表示二值化之前的掩膜。对两张掩膜采用以下公式进行融合：

Mask_fuse＝Mask₁-Mask₀

其中Mask₀是双掩膜中狭窄通道的掩膜，Mask₁是双掩膜中狭窄通道所在墙体的掩膜，Mask_fuse是由双掩膜计算得到的结果，这幅掩膜表示狭窄通道及其周围墙体的语义信息，即狭窄通道最终的检测结果。

本发明的有益效果：本发明中检测方法可以检测各种不规则形状的狭窄通道，在狭窄通道背景图案复杂、光照不均匀等场景均有较强的鲁棒性。而且模型计算量较少，在机载计算机平台上运行时可以实现高频率的检测。

附图说明

图1狭窄通道检测网络构图。

图2下采样倒置残差模块。

图3非下采样倒置残差模块。

图4搭载RealsenseD435传感器的小型旋翼无人机。

图5数据集中的RGB图像。

图6数据集中的深度图像。

图7狭窄通道掩膜真值。

图8狭窄通道所在墙体掩膜真值。

图9窄通道掩膜预测值。

图10狭窄通道所在墙体掩膜预测值。

图11狭窄通道和墙体的检测结果。

具体实施方式

以下将结合技术方案和附图详细叙述本发明的具体实施方式：

步骤一：构建深度卷积神经网络

本发明采用深度卷积神经网络的方式进行建筑物狭窄通道的检测，图1为本发明所设计的狭窄通道检测的结构图。网络采用Pytorch深度学习框架进行搭建，具体结构如表1所示。输入尺寸表示了输入图像或者特征图的长、宽和通道数。操作类型表示了在这一阶段操作的类型，其中倒置残差模块分为下采样和非下采样两种结构，其结构示意图分别为图2和图3。输出通道表示模块输出特征图的通道数，操作次数表示模块的重复次数。

输入图像的长和宽都为320个像素，通道数为4，所以在摄像头采集到RGB图像和深度图像之后，将两种图像合并成一个4通道的图像，然后再将其尺寸变换为320*320。经过模型推理得到的双掩膜的长和宽为输入图像的一半，即双掩膜的尺寸为160*160。

步骤二：创建用于双掩膜图像分割的数据集

数据采集是制作数据集的第一步，本发明采用搭载Realsense D435传感器的小型旋翼无人机(如图4)采集图像，采集的对象为在实验室中搭建的不规则狭窄通道，共采集了800组图像。每组图像包括一张RGB图像和一张深度图像，图5和图6为采集的一组图像，其中图5为RGB图像，图6为深度图像。在标注时，对于每一组图像需要对图像中的狭窄通道轮廓和通道所在墙体轮廓分别进行框选，形成两个密闭的图形，再对每个密闭图形进行填充，即对封闭图形内部的像素值设置为1，对图形外部的像素值设置为0，这样便得到了如图7和图8所示的双掩膜，其中图7为狭窄通道掩膜，图8为墙体掩膜。

步骤三：检测模型的训练与验证

本发明中的模型采用GPU进行训练，使用的GPU为英伟达RTX2080TI。模型训练时没有采用预训练模型，使用MSRA方法对模型参数进行初始化。采用SGD优化器进行模型优化，总共训练了150轮。起始学习率设置为0.001，采用分段常数衰减的方式进行衰减，每60轮训练衰减为之前的0.1倍。采用5折交叉验证，即以相同的配置训练5次模型，每次训练时都使用不重叠的20％的数据作为验证集，另外80％作为训练集，选出精度表现最好的模型作为训练的最终结果。

使用训练好的模型在测试集上进行前向推理，可以得到如图9和图10所示的双掩膜，分别为狭窄通道掩膜和墙体掩膜，通过对双掩膜进行融合，可以得到图11所示的检测结果。在飞行器机载计算机上进行测试，可以在验证集上选用不同尺度的输入图像进行前向推理，当选用尺度320*320的图像进行输入时，MIoU指标可以达到95％，推理频率可以达到25fps；当选用尺度256*256的图像进行输入时，MIoU指标可以达到92％，推理频率可以达到32fps。

表1、深度卷积神经网络结构表

Claims

1.一种基于双掩膜图像分割的无人机狭窄通道检测方法，其特征在于，步骤如下：

步骤一：构建深度卷积神经网络

狭窄通道检测模型使用深度卷积神经网络进行搭建，网络的主体由编码模块和解码模块两个部分组成；

编码模块负责对图像进行特征提取，由不同深度的卷积模块搭建而成；除了第一个卷积模块采用普通卷积外，其他卷积模块均采用包含深度可分离卷积层的倒置残差模块作为特征提取器；使用卷积方法对特征进行下采样，即通过步长为二的卷积模块在特征提取的同时将特征图的尺寸降采样为原尺寸的一半；在整个编码部分中总共进行了四次下采样，所以编码部分最终将输出尺寸降低为输入尺寸的十六分之一；编码模块的输入为一个四通道的图像，输入图像的由RGB图像和深度图像构成，其中RGB图像为一幅由红绿蓝三基色组成的三通道图像，深度图像为的单通道灰度图像，将两种图像在通道维度进行拼接，得到用于网络输入的四通道图像；

解码模块负责恢复图像的尺寸并输出最终的双掩膜结果；解码模块由三个模组和一个输出模块构成，每个模组由一个向上采样单元、一个通道拼接模块和两个卷积模块组成；对于一个模组来说，首先由向上采样单元对上层模块输出的特征图进行向上采样，将尺寸扩大为输出尺寸的二倍，然后通过一个通道拼接模块将编码模块中对称位置的特征图进行复制后与向上采样得到的特征图进行通道拼接，接下来让拼接后的结果经过两次卷积模块，便得到了这个模组的输出；解码模块将编码模块的编码结果进行了三次向上采样，最终将图像恢复到输入图像尺寸的一半；解码模块的输出模块是由一个卷积模块构成，输出通道数为二，使得网络最终的输出为一个两通道的双掩膜；

步骤二：创建用于双掩膜图像分割的数据集

数据集用于狭窄通道检测模型的训练与验证，数据集中的图像由小型无人机搭载的RGB-D相机采集得到，图像分为RGB图像和深度图像，两种图像是成组出现的；

图像标注采用两个封闭图形进行标注，分别表示狭窄通道的掩膜和通道所在墙体的掩膜；掩膜是一个由0和1两种像素值组成的图像，其尺寸大小与所标注图像的大小相同，其中像素值1坐标代表了原图中感兴趣的像素值位置，像素值为0的坐标代表了原图中不感兴趣位置；将掩膜与原图像相乘，得到图像中感兴趣的区域；通过标注得到的掩膜作为图像分割的真值，在网络训练时起到监督训练和测试狭窄通道检测模型效果的作用；

步骤三：狭窄通道检测模型的训练与验证

狭窄通道检测模型的训练采用深度学习框架进行训练，训练过程分为数据处理和迭代优化两个部分；

数据处理：对于输入数据格式，首先将每组RGB图像和深度图像进行通道融合得到4通道图像，然后统一改变成相同的尺寸H_in*W_in*4，其中H_in和W_in分别代表了输入图像的宽和高；然后将图像RGB三通道的每一个像素值进行标准化处理，标准化处理的公式为：

其中Img_std是标准化处理之后的像素值，Img_rog是标准化处理之前的像素值、μ是像素的均值、σ是像素的标准差；

迭代优化：是让狭窄通道检测模型去拟合数据的真值；训练的优化器采用小批量梯度下降的方法，在每次迭代过程中，需要从所有的数据中无放回的随机选取一些数据作为一批数据，统一经过数据处理后送入狭窄通道检测模型；采用BCELoss作为损失函数，其公式为：

其中s是每批数据的图像数量，n是总的像素数量，c是类别数，x_ij是狭窄通道检测模型的预测值，y_ij是类别真值；

迭代优化狭窄通道检测模型时，需要设置一个学习率Lr用来指导狭窄通道检测模型的优化速度，Lr采用分段常数衰减的方式进行衰减；每次使用全部的训练集数据进行一轮训练后，都要在验证集上对这一轮训练所得到的狭窄通道检测模型的精度进行一次验证，保留精度最高的那一轮的训练结果作为最终的狭窄通道检测模型；使用MIoU作为狭窄通道检测模型精度的评价指标，它表示了真实值和预测值两个集合的交集和并集之比，MIoU的公式为：

其中k+1表示类别数，包含背景类，p_ii表示真实标签中正样本像素数，p_ij表示错误预测的正样本像素数，p_ji表示错误预测的负样本像素数；

使用训练好的狭窄通道检测模型进行验证时，需要实时地读取摄像头采集的图像流，通过图像预处理后送入训练好的狭窄通道检测模型，网络经过计算之后输出一幅两通道的掩膜图像；需要将输出结果恢复到输入图像的尺寸，然后分别对两个掩膜进行开操作来去除噪声点，之后通过一个设定的阈值σ_Thr对两张掩膜进行二值化，二值化的公式为：

其中P_B表示二值化之后的掩膜，P_O表示二值化之前的掩膜；对两张掩膜采用以下公式进行融合：

Mask_fuse＝Mask₁-Mask₀

2.根据权利要求1所述的一种基于双掩膜图像分割的无人机狭窄通道检测方法，其特征在于，步骤三中，数据处理还包括对于数据的增广，数据增广方法包括：镜像反转、旋转、缩放、裁剪、平移、添加高斯噪声、图像亮度和对比度变化。