CN111209808A

CN111209808A - 一种基于分层处理的无人机图像语义分割识别方法

Info

Publication number: CN111209808A
Application number: CN201911360631.3A
Authority: CN
Inventors: 曾杰; 许乙付; 罗亨; 罗喜伶
Original assignee: Hangzhou Innovation Research Institute of Beihang University
Current assignee: Hangzhou Innovation Research Institute of Beihang University
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-29
Anticipated expiration: 2039-12-25
Also published as: CN111209808B

Abstract

本发明公开了一种基于分层处理的无人机图像语义分割识别方法。本发明针对现有语义分割网络直接对输入图像进行端对端的训练，提炼的特征难以识别低像素物体的问题，利用分层学习的思想，将无人机图像识别分为两部分进行：第一部分主要目的是通过网络1快速准确的识别可安全降落的区域，记为ROI(Region of Interest)；第二部分为通过网络2识别安全区域内的行人等一切细小可移动变量，将网络1识别出来的ROI区域特征图结果和原始图像通过特征融合模块后作为网络2的输入，来加强安全区域中低像素物体的识别。本发明提出的这种分阶段分层次的训练有助于进行网络参数调整，基于一定先验知识的训练学习有助于提升网络训练结果。

Description

一种基于分层处理的无人机图像语义分割识别方法

技术领域

本发明属于图像处理技术领域，特别涉及一种基于分层语义的无人机图像分割方法。

背景技术

目标检测是计算机视觉的重要组成部分。主要应用与人脸识别、姿势估计和监视等。目标检测不同于分类算法在于图像分类的输出是对整张图片的判定结果如是猫还是狗，而目标检测则需要在图片中对识别的事物进行框选，事先不知道识别事物的大小和个数。其主要算法有R-CNN(Region-CNN)、Fast R-CNN和Faster R-CNN等。

语义分割(Semantic Segmentation)也是图像处理和机器视觉一个重要分支。与分类和检测不同，语义分割基于每个像素点的“语义”信息给图像打上标签，然后判断图像每个像素点的类别，找出目标所在的区域然后分成若干个特定的、具有独特性性质的区域进行精确分割。输出图像每一个像素点用独热码(one-hot)表示，每个维度(channel)对应一个类别，每一个像素点都具有待分类数目的维度(channel)。语义分割目前在自动驾驶、自动抠图等领域有着比较广泛的应用。

无人机图像数据集上的目标检测主要是通过无人机机载摄像头来进行目标事物的跟踪或监视；更高要求的任务则需要对拍摄的图像进行语义分割处理，通过语义信息来对无人机的安全降落提供决策支持。由于无人机拍摄图像的特殊性，譬如人等其他低像素物体往往难以识别，而这些物体往往是跟踪和识别的主体。

目标检测在无人机图像数据集上进行行人的目标识别和跟踪主要采用Faster R-CNN算法等。Fast R-CNN和Faster R-CNN算法都是基于R-CNN算法改进而来。R-CNN目标检测思路如下：对于给定的图片，根据选择性搜索生成2000个独立的候选区域(RegionProposal)，将每个候选区域输入到预训练好的AlexNet中进行特征提取，提取一个固定长度(4096)的特征向量对每个目标(类别)训练一个SVM分类器，识别该区域是否包含目标训练一个回归器，修正候选区域中目标的位置，对于每个类，训练一个线性回归模型判断当前框是否满足条件，如果候选框里物体的类别是给定类别则判定为positive，否则判定为negative。Fast R-CNN不同于将候选区域作为CNN网络的输入，而是直接将整张图片作为输入来生成卷积特征图像。在卷积特征图中，通过确定候选区域然后调整尺寸再通过ROI池化层，最后输入到全链接层。无论是R-CNN还是Fast R-CNN,候选区域的确定都是通过选择性搜索的方法，因此Faster R-CNN直接通过单独的网络来学习生成候选区域。

在无人机图像处理上，目标检测是一个研究方向，但为了让无人机在空中能够全方面了解地面信息，基于无人机图像的语义分割具有更广的应用前景。

如今，语义分割主要有两大框架设计：U型结构(U-shape Structure)和空洞卷积(Dilation Conv)。U型结构分为encoder和decoder两个部分，encoder对原始数据进行编码，提炼高维特征图像，再通过decoder还原成原始图像的尺寸；Dilation Conv是在标准的卷积操作中注入空洞，以此来增加网络的感受野(Reception Filed)。以U-shapeStructure为框架的算法主要有UNet、RefineNet、GCN和DFN等；PSPNet和DeepLab等则主要利用了Dilation Conv来进行性能提升。这些算法主要围绕spatial context和spatialdetail两个方面，即既需要大的感受野来感知图像整体的上下文信息，来提高识别的速度，又需要处理图像的分辨率等细节信息来提升识别的准确率。图像多尺度的融合是一种结构上的分层思想。如在UNet等网络结构中融合浅层和后层的特征图，充分利用后层感受野大，语义特征强，浅层感受野小，局部特征明显位置信息丰富等特点或者PSPNet网络中的金字塔池化的方法，将一组感受野不同的特征图全部相加到一起，进行多层次的语义特征融合。

现有的语义分割网络结构一直在实时性和准确性上进行积极的探索，实时性要求网络快速提取图像的高维特征，准确性要求网络能够对边缘即低像素物体进行准确识别。本方法针对的是无人机图像数据集，应用场景特殊，可对比参照算法较少。

发明内容

本发明的目的是克服现有技术的不足，通过借鉴目标检测算法中的候选区域(ROI)的思想，利用分层学习的方式来识别无人机图像中的可降落安全区域，包括可影响降落的一切可移动因素。

本发明提出了一种基于分层处理的无人机图像语义分割识别方法，包括如下步骤：

1)将待处理无人机图像输入经预训练的第一神经网络模型，第一神经网络模型对图像的安全区域进行识别，输出预测后的安全区域特征图作为第一预测特征图，即提取无人机图像识别的ROI；

2)将步骤1)的第一预测特征图和原始待处理无人机图像经过特征融合模块得到融合后特征图，将融合后特征图输入经预训练的第二神经网络模型；第二神经网络模型识别安全区域内的低像素物体，输出第二预测特征图，即为能够识别低像素物体的安全区域图像。

作为本发明的优选方案，所述的第一神经网络模型的预训练过程为：以原始无人机图像作为训练输入，标签图像1为包含安全区域的特征图，对第一神经网络模型进行训练。所述的原始无人机图像被标记为可供无人机安全降落的安全区域和非安全区域；安全区域可视为目标检测中的ROI，安全区域内的一切物体标为1，非安全区域标为0。

出于第一神经网络模型的可应用性的考虑，提高语义分割的速度和精度，第一神经网络模型采用已经拥有实际应用效果的轻量型网络结构ENet来进行安全区域的识别。

作为本发明的优选方案，所述的第二神经网络模型的预训练过程为：将标签图像1(即理想ROI)与原始无人机图像通过特征融合模块得到融合特征图，融合特征图作为训练输入，训练标签是不去除低像素物体的标签图像2，对第二神经网络模型进行训练。

因为经过特征融合后的输入图像在已经图像的ROI时，再通过对于低像素物体的特征增强，第二神经网络模型识别的范围将聚焦于ROI区域，并且ROI区域内低像素物体已经得到了加强，因此第二神经网络模型可以是基本的简单卷积神经网络或者是其他轻量型识别网络。特征融合模块是通过将原始图像和识别后的ROI进行级联，然后通过卷积神经网络，以ResNet残差链接的方式进行特征图像的融合。ROI区域图像编码了主要识别的空间语境信息，原始图像编码了丰富的细节信息。两路输入的特征并不相同，不能简单地通过元素相加或加权等方式进行融合，需要一个独特的特征融合模块对输入进行处理。即通过设定一个卷积网络去训练学习这两部分如何叠加。

本发明方法将无人机图像识别分为两个部分，先后训练网络对于安全区域等大面积类别的识别，再通过图像增强等融合处理，将识别范围聚焦至提供的ROI区域内，突出对于ROI安全区域内低像素物体的识别；这种分阶段分层次的训练有助于进行网络参数调整，通过给定一定先验知识有目的地训练有助于提升网络训练结果。

附图说明

图1为特征融合模块示意图；

图2为本发明流程结构示意图；

图3为本发明方法的图像处理示意图。

具体实施方式

下面结合具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

无人机图像数据集具有待分类区域面积分布不均匀的特点，如沥青道路，石子路等待分类面积较大；同时对于影响无人机飞行降落的元素又相对较小，如人、猫狗等。当下的语义分割识别算法对于大面积区域类别能够做到速度和准确率的均衡，但对于低像素物体的识别存在较大误差以及边缘轮廓不清楚等特点。同时，大部分的语义分割算法都是直接基于整张图像来进行逐像素识别，在数据集较大时，理论上这种方法能够快速得到较为细致的分割结果，但往往不能适应实际应用需求。因此，在这种情况下，以不丢失背景信息为前提，通过事先学习得到ROI区域，然后将卷积神经网络(CNN)的注意力引导到给定的ROI区域进行语义分割，将大大减少识别时间和提高识别准确率。

从这两点出发，本发明利用分层学习的思想，结合无人机图像识别最终是为了区分可降落安全区域，同时考虑降落的一切可移动因素的影响来指导无人机的安全降落。因此将传统的无人机图像识别分为两个部分进行：第一部分的网络(即网络1)是以原始图片作为输入，标签图像为包含安全区域的标签图像1；网络1的主要目的是让网络快速准确的识别可安全降落的区域；第二部分通过网络2识别安全区域内的行人等一切低像素可移动因素，主要步骤为将网络1识别出来的安全区域结果特征图和原始图像合并经过特征融合模块后得到特征图作为输入，来加强安全区域中低像素物体的识别，最后将特征图像进行归一化处理。

本发明的特征融合模块是通过将原始图像和识别后的ROI进行级联，然后通过卷积神经网络，以ResNet残差链接的方式进行特征图像的融合。如图1所示，本发明的特征融合模块具体包括全局池化单元、1*1卷积单元、正则化单元以及常规的卷积操作单元。主要思路不同于空间维度上的特征通道融合，而是通过自学习的方式来自动获取每个特征通道的重要性，主要是用来加强对于细小物体的边缘特征识别。由图可知，首先对于输入图像和ROI区域经过级联网络，然后进行卷积变换，接着经过全局池化单元沿着空间维度进行压缩，使之最大程度上获得全局的感受野；然后经过1*1卷积模块，使输出的维度与输入的特征通道数相一致，为每个特征通道生成权重，用来建模每个特征通道间的相关性；然后通过sigmoid获得归一化的权重，最后通过乘法通道与第一预测特征图汇聚，以及与第一预测特征图元素相加，完成不同特征通道的加权。。

如图2所示，网络1主要提供图像给定的ROI来使网络2聚焦识别。数据集是在原始无人机图像数据集的基础上，人为标记可供无人机安全降落的区域，即将区域内一切低像素物体去除，排除其他因素的干扰，因此网络1的数据集类别只有安全区域和非安全区域，分别记为0和1；出于网络1的可应用性的考虑，提高语义分割的速度和精度，网络1采用已经拥有实际应用效果的轻量型网络结构ENet来进行安全区域的识别，因为识别类别是二分类，因此可以在ENet基础上进行网络剪枝来提升性能。

网络2的训练与网络1是互不相关的，这主要体现了分层思想独自训练的特点。具体是将标记为安全区域的标签图像1与原始图像数据进行融合处理，再经过网络2，训练标签是不去除低像素物体的标签图像2，标签图像2非安全区域记为0，安全区域记为1，安全区域内的细小物体，如人，小动物等按照分类类别标记，可记为2、3、4等，这样可以使网络2来学习对于安全区域内的一切低像素物体的识别分割。因为经过叠加融合后的输入图像对于低像素物体的特征已经足够明显，网络2可以是基本的简单卷积神经网络或者是其他轻量型识别网络。需要注意的是，训练是用网络1的标签图像，即理想的ROI图像结合原始图像经特征融合后作为输入，这样是为了更好地训练网络2对于低像素因素的识别，排除其他因素的干扰。

待分层训练网络1和网络2后，将原始图像输入网络1，得到预测后的安全区域特征图，再结合原始图像经特征融合后作为网络2的输入，最终得到带低像素物体识别的输出。这种方法将无人机图像识别分为两个部分，先后训练网络对于安全区域等大面积类别的识别，在通过图像增强等处理，突出对于安全区域内低像素因素的识别；这种分阶段分层次的训练有助于进行网络参数调整，按照一定先验知识地训练有助于提升网络训练结果。

如图3所示，为本发明方法的一次具体应用实例，从图3可见，原始图像经网络1后得到预测后的安全区域特征图。网络1的数据集类别只有安全区域和非安全区域，对于预测后的特征图中安全区域内的一切物体标记未1，非安全区域,记为0，即识别后的ROI。特征融合模块是通过将原始图像和识别后的ROI进行级联，然后通过卷积神经网络，以ResNet残差链接的方式进行特征图像的融合。融合后的特征图像经网络2最终得到能够识别低像素物体的安全区域图像，即可用于指导无人机的安全降落。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于分层处理的无人机图像语义分割识别方法，其特征在于包括如下步骤：

1)将待处理无人机图像输入经预训练的第一神经网络模型，第一神经网络模型对图像的安全区域进行识别，输出预测后的安全区域特征图作为第一预测特征图；

2.根据权利要求1所述的基于分层处理的无人机图像语义分割识别方法，其特征在于所述的第一神经网络模型的预训练过程为：以原始无人机图像作为训练输入，标签图像1为包含安全区域的特征图，即理想的ROI，对第一神经网络模型进行训练。

3.根据权利要求2所述的基于分层处理的无人机图像语义分割识别方法，其特征在于所述的原始无人机图像被标记为可供无人机安全降落的安全区域和非安全区域；安全区域内的一切物体标为1，非安全区域标为0。

4.根据权利要求1所述的基于分层处理的无人机图像语义分割识别方法，其特征在于所述的第二神经网络模型的预训练过程为：将包含安全区域的特征图与原始无人机图像经过特征融合模块得到融合特征图，融合特征图作为训练输入，训练标签是安全区域内不去除低像素物体的标签图像2，对第二神经网络模型进行训练。

5.根据权利要求1所述的基于分层处理的无人机图像语义分割识别方法，其特征在于特征融合模块通过将原始图像和识别后的ROI进行级联，然后通过卷积神经网络，以ResNet残差链接的方式进行特征图像的融合。

6.根据权利要求1所述的基于分层处理的无人机图像语义分割识别方法，其特征在于所述特征融合模块对于输入图像和ROI区域经过级联网络，接着进行卷积变换，然后经过全局池化单元沿着空间维度进行压缩，使之最大程度上获得全局的感受野；1*1卷积模块使输出的维度与输入的特征通道数相一致，为每个特征通道生成权重，用来建模每个特征通道间的相关性；sigmoid激活函数用来获得归一化的权重，最后通过乘法通道与第一预测特征图汇聚，再在第一预测特征图上逐元素相加，完成不同特征通道的融合。