CN117496160A

CN117496160A - 一种面向室内场景的无人机拍摄低光照图像语义分割方法

Info

Publication number: CN117496160A
Application number: CN202311848563.1A
Authority: CN
Inventors: 屈若锟; 江波; 谭锦涛; 李诚龙; 李彦冬; 余德炀
Original assignee: Civil Aviation Flight University of China
Current assignee: Civil Aviation Flight University of China
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-02-02
Anticipated expiration: 2043-12-29
Also published as: CN117496160B

Abstract

本发明涉及图像数据处理技术领域，公开一种面向室内场景的无人机拍摄低光照图像语义分割方法，包括步骤：收集大量包含室内场景的无人机拍摄低光照图像数据，标注对象的语义类别，形成数据集；将数据集输入特征提取网络，提取图像中高层次的语义特征，得到特征图；将特征提取网络提取的语义特征输入低频信息提取模块，得到低频信息特征图；将数据集输入拉普拉斯金字塔网络，捕获图像的细节信息，输出拉普拉斯金字塔分量；将低频信息特征图与拉普拉斯金字塔分量进行特征融合，得到融合特征图，最终输出分割结果。本发明强化了对低光照条件下图像的特征提取能力，有助于捕捉图像中的空间低频信息，使分割模型更加敏感于细微的特征变化。

Description

一种面向室内场景的无人机拍摄低光照图像语义分割方法

技术领域

本发明涉及图像数据处理技术领域，特别涉及一种面向室内场景的无人机拍摄低光照图像语义分割方法。

背景技术

在低光照条件下，图像中的细节丧失，颜色失真，这给语义分割任务带来了额外的困难，深度学习模型在面向室内场景的无人机拍摄图像低光照语义分割中扮演了关键的角色。以下是一些具体的深度学习方法，以及在这个特定场景下的研究方向：

卷积神经网络（CNN）：CNN是深度学习中常用于图像处理任务的基本架构，对于语义分割，U-Net是一种经典的CNN架构，它同时包括了编码器和解码器，有助于捕获图像中的局部和全局信息，通过在这样的网络中集成低光照条件下的数据，模型可以学到该条件下的特征。

数据增强：数据增强是在深度学习中应对数据不足的一种方法，在低光照条件下，通过引入亮度、对比度、色彩等方面的变化，可以增强模型对不同光照条件下的适应性。例如，可以使用随机旋转、翻转、亮度调整等技术。

注意力机制：注意力机制允许模型更关注图像中的重要区域，在低光照条件下，由于图像中某些区域可能缺乏明显的特征，引入注意力机制有助于模型更好地集中于具有语义信息的区域。

还有多尺度处理、迁移学习、光照归一化、后处理技术等方法，对图像低光照条件下进行语义分割起到了有效的作用。如今，需要一种相比于这些方法的组合和调整能更加高效地实现室内低光照条件下无人机航拍图像的语义分割的方法。

发明内容

本发明的目的在于更加高效地实现室内低光照条件下无人机航拍图像的语义分割，提供一种面向室内场景的无人机拍摄低光照图像语义分割方法。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

一种面向室内场景的无人机拍摄低光照图像语义分割方法，包括以下步骤：

步骤1，收集大量包含室内场景的无人机拍摄低光照图像数据，标注对象的语义类别，形成数据集；

步骤2，将数据集输入特征提取网络，提取图像中高层次的语义特征，得到特征图；

步骤3，将特征提取网络提取的语义特征输入低频信息提取模块，所述低频信息提取模块包括空间低频注意力模块、低频信息处理模块；空间低频注意力模块在不同空间位置上捕获语义特征的低频信息，输出空间低频注意力图；低频信息处理模块在多通道上捕获语义特征的多尺度滤波特征，输出多尺度滤波特征图；将空间低频注意力图和多尺度滤波特征图进行拼接融合，形成低频信息特征图；

步骤4，将数据集输入拉普拉斯金字塔网络，捕获图像的细节信息，输出拉普拉斯金字塔分量；

步骤5，将低频信息特征图与拉普拉斯金字塔分量进行特征融合，得到融合特征图，最终输出分割结果。

所述步骤2具体包括以下步骤：所述特征提取网络分为四个阶段，每个阶段由初始卷积层和一组Bottleneck块组成；

初始输入的原始图像H0尺寸为H*W*C，H为图像高度，W为图像宽度且与图像高度相等，C为图像通道；原始图像H0经过Resnext-101网络的第一个阶段处理后输出尺寸为(H/2)*(W/2)*(2C)的特征图F1；特征图F1经过第二个阶段处理后输出尺寸为(H/4)*(W/4)*(4C)的特征图F2；特征图F2经过第三个阶段处理后输出尺寸为(H/8)*(W/8)*(8C)的特征图F3；最终，特征图F3经过Resnext-101网络的第四个阶段处理后输出尺寸为(H/16)*(W/16)*(16C)的特征图F4。

所述步骤3中，空间低频注意力模块在不同空间位置上捕获语义特征的低频信息，输出空间低频注意力图的步骤，包括：

空间低频注意力模块对特征图F1分别执行最大池化和平均池化；接着，使用自适应池化分别对执行最大池化和平均池化后的特征进行自适应低通滤波；然后，将自适应池化得到的两个特征分别进行上采样，恢复到与自适应池化之前的特征图尺寸一致；最后，共同通过卷积操作和sigmoid函数，得到最终的空间低频注意力图M1；

空间低频注意力模块对特征图F2、特征图F3、特征图F4进行相同的处理，得到空间低频注意力图M2、空间低频注意力图M3、空间低频注意力图M4。

所述步骤3中，低频信息处理模块在多通道上捕获语义特征的多尺度滤波特征，输出多尺度滤波特征图的步骤，包括：

低频信息处理模块对特征图F1进行三个通道分解处理，假设特征图F1的尺寸为H*W*C，H为图像高度，W为图像宽度，C为图像通道；分解后的单通道特征采用尺寸分别为H/2*H/2、H/4*H/4和H/8*H/8的多尺度自适应平均池化；接着，将多尺度自适应平均池化得到的多尺度滤波图通过上采样操作恢复到输入低频信息处理模块的图像尺寸大小，然后沿通道方向进行拼接；最后，将每个通道获得的多尺度滤波特征聚合在一起，再通过卷积操作进行恢复，得到多尺度滤波特征图P1；

低频信息处理模块对特征图F2、特征图F3、特征图F4进行相同的处理，得到多尺度滤波特征图P2、多尺度滤波特征图P3、多尺度滤波特征图P4。

所述步骤3中，将空间低频注意力图和多尺度滤波特征图进行拼接融合，形成低频信息特征图的步骤，包括：

将空间低频注意力图M1与多尺度滤波特征图P1进行拼接和卷积操作后，输出低频信息特征图L1；将空间低频注意力图M2与多尺度滤波特征图P2进行拼接和卷积操作后，输出低频信息特征图L2；将空间低频注意力图M3与多尺度滤波特征图P3进行拼接和卷积操作后，输出低频信息特征图L3；将空间低频注意力图M4与多尺度滤波特征图P4进行拼接和卷积操作后，输出低频信息特征图L4。

所述步骤4具体为：拉普拉斯金字塔网络的尺度数量与特征提取网络的阶段数量匹配，以像素尺寸为H*C的原始图像H0为起点，在第一个尺度，对原始图像H0进行高斯模糊和降采样，生成图像H1，其像素尺寸缩小为(H/2)*(C/2)，计算原始图像H0与图像H1之间的差异，得到第一个拉普拉斯金字塔分量Lap1；接着，在第二个尺度，对图像H1进行高斯模糊和降采样，生成图像H2，其像素尺寸缩小为(H/4)*(C/4)，计算图像H1与图像H2之间的差异，得到第二个拉普拉斯金字塔分量Lap2；然后，在第三个尺度，对图像H2进行高斯模糊和降采样，生成图像H3，其像素尺寸缩小为(H/8)*(C/8)，计算图像H2与图像H3之间的差异，得到第三个拉普拉斯金字塔分量Lap3；最后，在第四个尺度，对图像H3进行高斯模糊和降采样，生成图像H4，其像素尺寸缩小为(H/16)*(C/16)，计算图像H3与图像H4之间的差异，得到第四个拉普拉斯金字塔分量Lap4。

所述步骤5具体包括以下步骤：将低频信息提取模块在第一阶段输出的低频信息特征图L1与拉普拉斯金字塔网络在第一尺度输出的拉普拉斯金字塔分量Lap1进行特征融合，得到融合特征图G1；接着，将低频信息特征图L2、拉普拉斯金字塔分量Lap2和融合特征图G1进行特征融合，得到融合特征图G2；然后，将低频信息特征图L3、拉普拉斯金字塔分量Lap3和融合特征图G2进行特征融合，得到融合特征图G3；最后，将低频信息特征图L4、拉普拉斯金字塔分量Lap4和融合特征图G3进行特征融合，得到融合特征图G4，从融合特征图G4中获得分割结果。

与现有技术相比，本发明的有益效果：

本发明通过空间低频注意力模块和低频信息处理模块，强化了对低光照条件下图像的特征提取能力。空间低频注意力模块有助于捕捉图像中的空间低频信息，使分割模型更加敏感于细微的特征变化；低频信息处理模块通过专注于处理低频信息，有效地增强了对场景中物体边缘和结构的识别。这两个模块产生的特征图沿通道方向拼接，并通过卷积操作形成了更为信息丰富的特征图。该方法的技术效果主要体现在以下几个方面：

（1）低光照条件下的图像语义准确性提升：通过SLA模块和CLIE模块的引入，分割模型更好地适应了室内场景低光照条件下的特征，显著提升了语义分割任务的准确性；

（2）对细节信息的更好捕捉：SLA模块的使用使得分割模型对图像的空间低频信息有更敏感的感知，有助于更好地捕捉细节信息，提高对场景中微弱变化的感知能力。

（3）物体边缘和结构的更清晰划分：CLIE模块专注于处理低频信息使得分割模型在物体边缘和结构的划分上表现更为清晰和精准，从而提升了语义分割的精度。

（4）特征图的更大信息容量：通过沿通道方向拼接和卷积操作，形成更为丰富的特征图，使得分割模型在语义分割任务中具备更大的信息容量，有助于提高整体性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明分割模型网络架构示意图；

图2为本发明低频信息提取模块网络架构示意图；

图3为本发明空间低频注意力模块网络架构示意图；

图4为本发明低频信息处理模块网络架构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性，或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。另外，术语“相连”、“连接”等可以是元件之间直接相连，也可以是经由其他元件的间接相连。

实施例1：

本发明通过下述技术方案实现，如图1所示，一种面向室内场景的无人机拍摄低光照图像语义分割方法，包括以下步骤：

步骤1，收集大量包含室内场景的无人机拍摄低光照图像数据，标注对象的语义类别，形成数据集。

收集大量包含室内场景的无人机拍摄低光照图像数据，针对这些图像确定需要被标注语义类别的对象，即需要识别和分割的不同对象类别。本方案通过逐像素点标注，为每个像素分配了相应的标签。

将数据集作为分割模型的输入，将标签作为分割模型的输出，对分割模型进行训练。所述分割模型包括特征提取网络、低频信息提取模块、拉普拉斯金字塔网络。

步骤2，将数据集输入特征提取网络，提取图像中高层次的语义特征，得到特征图。

本方案采用Resnext-101网络作为特征提取网络（Backbone），用于从输入图像中提取高层次的语义特征，这些语义特征具有不同的维度，有助于更好地表示图像中的不同对象和区域。

详细来说，将特征提取的过程分为多个（有限个）关键的阶段，请参见图1，本实施例以4个阶段为例进行说明，每个阶段主要由初始卷积层和一组Bottleneck块组成。初始输入的原始图像H0尺寸为224*224*32，经过Resnext-101网络的第一个阶段处理后输出尺寸为112*112*64的特征图F1；特征图F1经过第二个阶段处理后输出尺寸为56*56*128的特征图F2；特征图F2经过第三个阶段处理后输出尺寸为28*28*256的特征图F3；最终，特征图F3经过Resnext-101网络的第四个阶段处理后输出尺寸为14*14*512的特征图F4。也就是说，所述特征提取网络所提取的语义特征包括特征图F1、特征图F2、特征图F3、特征图F4。这一系列的处理阶段有助于提取不同层次的语义特征，使特征提取网络更好地理解输入图像中的结构和内容。

步骤3，将特征提取网络提取的语义特征输入低频信息提取模块，所述低频信息提取模块包括空间低频注意力模块、低频信息处理模块；空间低频注意力模块在不同空间位置上捕获语义特征的低频信息，输出空间低频注意力图；低频信息处理模块在多通道上捕获语义特征的多尺度滤波特征，输出多尺度滤波特征图；将空间低频注意力图和多尺度滤波特征图进行拼接融合，形成低频信息特征图。

请参见图2为低频信息提取模块的网络架构示意图，所述低频信息提取模块包括空间低频注意力模块（以下简称SLA模块）、低频信息处理模块（以下简称CLIE模块）。将特征提取网络提取的语义特征（包括特征图F1、特征图F2、特征图F3、特征图F4）分别输入SLA模块和CLIE模块，以增强特征的表达能力；然后经过处理的特征图在通道方向上进行拼接，通过卷积操作形成更为丰富的低频信息特征图。这一整合的过程旨在提高分割模型对低频信息的敏感性，进一步优化特征表示，从而在任务中取得更好的性能。

请参见图3为SLA模型的网络架构示意图，以特征图F1为例，沿着通道轴对特征图F1分别执行最大池化和平均池化，如此得到的特征在通道轴上已经有效地表征了图像的空间信息；接着，使用自适应池化分别对执行最大池化和平均池化后的特征进行自适应低通滤波，以增强图像的空间低频信息提取能力，并抑制高频信息；然后，将自适应池化得到的两个特征分别进行上采样，恢复到与自适应池化之前的特征图尺寸一致；最后，共同通过卷积操作和sigmoid函数，得到最终的空间低频注意力图M1。

该空间低频注意力图用于引导分割模型更注重图像各个像素点的低频信息，从而使分割模型在处理不同空间位置的图像时更加注重低频分量的语义信息。SLA模块的引入有助于优化模型在各个空间位置上的特征提取，提高了对低频信息的敏感性，通过考虑特征的空间关系来生成空间低频注意力图，与通常的空间注意力图不同，SLA模块的目标是引导模型关注图像像素点在空间上不同位置的低频信息。

容易理解的，SLA模块分别对特征图F1、特征图F2、特征图F3、特征图F4进行相同的处理，分别输出空间低频注意力图M1、空间低频注意力图M2、空间低频注意力图M3、空间低频注意力图M4。

请参见图4为CLIE模块的网络架构示意图，以特征图F1为例，假设特征图F1的尺寸为H*W*C，H为图像高度，W为图像宽度，C为图像通道。为了充分提取低频信息，首先进行三个通道分解，分解后的单通道特征采用尺寸分别为H/2*H/2、H/4*H/4和H/8*H/8的多尺度自适应平均池化；接着，将多尺度自适应平均池化得到的多尺度滤波图通过上采样操作恢复到输入CLIE模块的图像尺寸大小，然后沿通道方向进行拼接，如此得到的多尺度滤波特征包含了各个通道的低频信息；最后，将每个通道获得的多尺度滤波特征聚合在一起，再通过卷积操作进行恢复，得到多尺度滤波特征图P1。

CLIE模块有助于增强分割模型在通道方向上提取低频信息的能力，使得分割模型更注重不同通道之间的低频特征。CLIE模块的引入进一步强化了模型对通道间低频信息的敏感性，从而优化了整体特征提取的质量，此种细致的通道级低频信息增强能够更好地捕捉图像特征在不同通道上的低频分量。

容易理解的，CLIE模块分别对特征图F1、特征图F2、特征图F3、特征图F4进行相同的处理，分别输出多尺度滤波特征图P1、多尺度滤波特征图P2、多尺度滤波特征图P3、多尺度滤波特征图P4。

请继续参见图2，在低频信息提取模块层面需要将空间低频注意力图M1与多尺度滤波特征图P1进行拼接和卷积操作后，输出低频信息特征图L1；将空间低频注意力图M2与多尺度滤波特征图P2进行拼接和卷积操作后，输出低频信息特征图L2；同理，得到低频信息特征图L3、低频信息特征图L4。

步骤4，将数据集输入拉普拉斯金字塔网络，捕获图像的细节信息，输出拉普拉斯金字塔分量。

拉普拉斯金字塔网络（Laplacian Pyramid）是一种用于多尺度图像分析的方法，通过构建不同分辨率的图像金字塔，以捕获图像的细节信息，基于拉普拉斯分解的概念，可以将图像分解为粗糙成分和细节成分。

请参见图1，拉普拉斯金字塔网络的尺度数量与特征提取网络的阶段数量匹配（4个阶段），以数据集中像素尺寸为224*224的任一原始图像H0为起点，在第一个尺度，对原始图像H0进行高斯模糊和降采样，生成图像H1，其像素尺寸缩小为112*112，计算原始图像H0与图像H1之间的差异，得到第一个拉普拉斯金字塔分量Lap1；接着，在第二个尺度，对图像H1进行高斯模糊和降采样，生成图像H2，其像素尺寸缩小为56*56，计算图像H1与图像H2之间的差异，得到第二个拉普拉斯金字塔分量Lap2；然后，在第三个尺度，对图像H2进行高斯模糊和降采样，生成图像H3，其像素尺寸缩小为28*28，计算图像H2与图像H3之间的差异，得到第三个拉普拉斯金字塔分量Lap3；最后，在第四个尺度，对图像H3进行高斯模糊和降采样，生成图像H4，其像素尺寸缩小为14*14，计算图像H3与图像H4之间的差异，得到第四个拉普拉斯金字塔分量Lap4。通过这一系列操作，得到了四个尺度上的拉普拉斯金字塔分量，每个分量都捕捉了图像在相应尺度上的细节和特征，为后续任务提供了更全面的信息。

首先，将低频信息提取模块在第一阶段输出的低频信息特征图L1与拉普拉斯金字塔网络在第一尺度输出的拉普拉斯金字塔分量Lap1进行特征融合，得到融合特征图G1；接着，将低频信息特征图L2、拉普拉斯金字塔分量Lap2和融合特征图G1进行特征融合，得到融合特征图G2；然后，将低频信息特征图L3、拉普拉斯金字塔分量Lap3和融合特征图G2进行特征融合，得到融合特征图G3；最后，将低频信息特征图L4、拉普拉斯金字塔分量Lap4和融合特征图G3进行特征融合，得到融合特征图G4，从融合特征图G4中即可获得分割结果。

所述分割模型所使用的损失函数如下：

由于细节像素的数量远远少于非细节像素，则细节预测是一个类别不平衡的问题。由于加权交叉熵损失函数通常会导致粗燥的结果，因此本方案采用交叉熵和Dice损失来共同优化细节学习。组合交叉熵损失函数和Dice损失函数的方式可以通过加权求和来实现。具体地，分割模型的总损失函数为：

其中，Total_Loss为分割模型的总损失函数；Cross_Loss为交叉熵损失函数；Dice_Loss为Dice损失函数；为平衡权重，用于平衡交叉熵损失函数和Dice损失函数的权重，通常取值在0到1之间。

交叉熵损失函数用于度量分割模型输出的概率分布与真实标签之间的差异，对于每个像素，交叉熵损失函数为：

其中，Cross_Loss为交叉熵损失函数；p为分割模型输出的类别概率分布，p_i为第i个像素的类别概率分布；y为真实标签，y_i为第i个像素的真实标签。

Dice损失函数用于衡量预测区域和真实区域的相似性：

其中，Dice_Loss为Dice损失函数；p为分割模型输出的类别概率分布，p_i为第i个像素的类别概率分布；y为真实标签，y_i为第i个像素的真实标签。

组合损失函数的目的是在训练过程中平衡分类准确性（交叉熵损失函数）和像素级别的准确分割（Dice损失函数），通过调整，可以根据任务需求调整分割模型对两个方面的关注程度。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种面向室内场景的无人机拍摄低光照图像语义分割方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种面向室内场景的无人机拍摄低光照图像语义分割方法，其特征在于：所述步骤2具体包括以下步骤：

所述特征提取网络分为四个阶段，每个阶段由初始卷积层和一组Bottleneck块组成；

3.根据权利要求2所述的一种面向室内场景的无人机拍摄低光照图像语义分割方法，其特征在于：所述步骤3中，空间低频注意力模块在不同空间位置上捕获语义特征的低频信息，输出空间低频注意力图的步骤，包括：

4.根据权利要求3所述的一种面向室内场景的无人机拍摄低光照图像语义分割方法，其特征在于：所述步骤3中，低频信息处理模块在多通道上捕获语义特征的多尺度滤波特征，输出多尺度滤波特征图的步骤，包括：

5.根据权利要求4所述的一种面向室内场景的无人机拍摄低光照图像语义分割方法，其特征在于：所述步骤3中，将空间低频注意力图和多尺度滤波特征图进行拼接融合，形成低频信息特征图的步骤，包括：

6.根据权利要求5所述的一种面向室内场景的无人机拍摄低光照图像语义分割方法，其特征在于：所述步骤4具体为：

拉普拉斯金字塔网络的尺度数量与特征提取网络的阶段数量匹配，以像素尺寸为H*C的原始图像H0为起点，在第一个尺度，对原始图像H0进行高斯模糊和降采样，生成图像H1，其像素尺寸缩小为(H/2)*(C/2)，计算原始图像H0与图像H1之间的差异，得到第一个拉普拉斯金字塔分量Lap1；接着，在第二个尺度，对图像H1进行高斯模糊和降采样，生成图像H2，其像素尺寸缩小为(H/4)*(C/4)，计算图像H1与图像H2之间的差异，得到第二个拉普拉斯金字塔分量Lap2；然后，在第三个尺度，对图像H2进行高斯模糊和降采样，生成图像H3，其像素尺寸缩小为(H/8)*(C/8)，计算图像H2与图像H3之间的差异，得到第三个拉普拉斯金字塔分量Lap3；最后，在第四个尺度，对图像H3进行高斯模糊和降采样，生成图像H4，其像素尺寸缩小为(H/16)*(C/16)，计算图像H3与图像H4之间的差异，得到第四个拉普拉斯金字塔分量Lap4。

7.根据权利要求6所述的一种面向室内场景的无人机拍摄低光照图像语义分割方法，其特征在于：所述步骤5具体包括以下步骤：

将低频信息提取模块在第一阶段输出的低频信息特征图L1与拉普拉斯金字塔网络在第一尺度输出的拉普拉斯金字塔分量Lap1进行特征融合，得到融合特征图G1；接着，将低频信息特征图L2、拉普拉斯金字塔分量Lap2和融合特征图G1进行特征融合，得到融合特征图G2；然后，将低频信息特征图L3、拉普拉斯金字塔分量Lap3和融合特征图G2进行特征融合，得到融合特征图G3；最后，将低频信息特征图L4、拉普拉斯金字塔分量Lap4和融合特征图G3进行特征融合，得到融合特征图G4，从融合特征图G4中获得分割结果。