CN116704382A

CN116704382A - 一种无人机影像语义分割方法、装置、设备及存储介质

Info

Publication number: CN116704382A
Application number: CN202310660559.6A
Authority: CN
Inventors: 陶留锋; 徐永洋; 胡潘; 谢雪景; 谢忠
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-09-05

Abstract

本发明提出了一种无人机影像语义分割方法、装置、设备及存储介质，该方法包括：构建训练数据集和测试数据集；搭建基于多级自注意力特征融合的无人机影像语义分割网络；将训练数据集输入语义分割网络，使用Xception特征提取网络提取特征；将Xception特征输入自注意力特征编码模块，将得到的自注意力特征输入多尺度特征编码模块，输出多尺度特征；将深层和浅层特征逐层融合，在每一层融合后利用通道加权模块减少信息冗余，输出融合特征；通过训练数据集和融合特征对语义分割网络进行迭代训练；将测试数据集输入训练好的语义分割网络，输出影像语义分割结果。本发明加强了对重点特征的学习力度，并提升了对浅层特征的利用率，可以实现更高精度的影像语义分割。

Description

一种无人机影像语义分割方法、装置、设备及存储介质

技术领域

本发明涉及图像语义分割领域，更具体地说，涉及一种无人机影像语义分割方法、装置、设备及存储介质。

背景技术

目标检测、图像分类与图像语义分割是计算机视觉领域中的三大基础性问题叫。作为计算机视觉领域的基本任务之一，图像语义分割将输入图像的每个像素根据其表达语义含义不同进行分类，对每个像素给出属于某个分类的预测值，从而实现一定意义上的图像“语义理解”。由于其对图像中的每个像素进行分类的特性，相较于只将整幅图像进行分类的图像分类任务而言，图像语义分割也被称为密集预测。图像语义分割是对图像更高级别的的语义理解的基础，由于语义分割结果中包含着输入图像的块状语义信息，其在各种需要自动图像处理的领域中起着重要的的作用，例如机动车的自动驾驶时对街景的识别与理解、无人机的自助起降与巡航以及人体可穿戴设备中的各种应用等。

近年来无人机行业发展迅速。由于无人机具有操作简单、成本较低、场地限制较小、图像获取用时短、分辨率高等优点，其在诸如敌情侦查、遥感监测、低空测绘、实地考古、景区管理、电力巡查、灾情评估、城市规划、资源调查等诸多领域得到了广泛的应用，但是将图像语义分割技术应用在无人机图像上亦存在很多难点：

(1)常见的数字图像大多内容明显，物体尺度较大，具有显著的感兴趣区域，而无人机图像在一定高度下俯视拍摄，使得图像中物体相对尺寸较小，相较于普通光学图像而言难于分辨。

(2)无人机影像具有多要素、背景杂乱的特性，导致语义特征提取网络难以聚焦重要特征，准确把握类别边界等细节。

因此，增强对重点特征的关注，减弱多要素及杂乱背景对分割效果的影响是本领域亟待解决的技术问题。

发明内容

本发明要解决的主要技术问题在于，增强对重点特征的关注，减弱多要素及杂乱背景对分割效果的影响，为了解决该技术问题，本发明采取的技术方案是：提供一种无人机影像语义分割方法、装置、设备及存储介质，提高无人机影像语义分割的精度和准确性。

为了实现上述目的，本发明基于DeepLabv3+网络展开相关研究，设计一种基于多级自注意力特征融合的无人机影像语义分割网络，该网络通过自注意力机制加强网络对重点特征的关注，减弱多要素及杂乱背景对分割效果的影响，并通过空洞空间卷积池化金字塔提升特征对多尺度地物的描述能力，最后进行多层级特征融合和通道加权，让网络学习到更精确的位置信息，同时减弱融合更多浅层特征带来的信息冗余问题的影响。

根据本发明的一个方面，本发明提供了一种无人机影像语义分割方法，该方法包括以下步骤：

S1：构建训练数据集和测试数据集；

S2：搭建基于多级自注意力特征融合的无人机影像语义分割网络；

S3：将所述训练数据集输入所述基于多级自注意力特征融合的无人机影像语义分割网络，使用Xception网络提取多层级Xception特征；

S4：将所述多层级Xception特征输入自注意力特征编码模块，利用自注意力机制对多层级Xception特征进行编码，输出多层级自注意力特征；

S5：将深层自注意力特征输入多尺度特征编码模块，利用空洞空间池化金字塔对深层自注意力特征进行多尺度编码，输出多尺度特征；

S6：将所述多尺度特征与浅层自注意力特征逐层融合，在每层融合后，利用通道加权模块减少信息冗余，输出融合特征；

S7：通过所述训练数据集和所述融合特征对所述基于多级自注意力特征融合的无人机影像语义分割网络进行迭代训练，训练完成后，得到训练好的语义分割网络；

S8：将所述测试数据集输入所述训练好的无人机影像语义分割网络，输出影像语义分割结果。

进一步地，S1中，所述构建训练数据集和测试数据集的步骤，包括：

S11：获取无人机影像场景理解数据集；

S12：将所述无人机影像场景理解数据集划分为训练数据集和测试数据集。

进一步地，S3中，所述使用Xception网络提取多层级Xception特征的步骤，包括：

使用Xception网络对无人机影像进行特征提取，输出L_1/2、L_1/4、L_1/8与L_1/16四个层级的特征图，其中L_1/2、L_1/4、L_1/8为浅层特征，L_1/16为深层特征。

进一步地，S4中，所述将多层级Xception特征输入自注意力特征编码模块，利用自注意力机制对多层级Xception特征进行编码，输出多层级自注意力特征的步骤，包括：

S41、对于Xception特征提取网络输出的特征图x∈R^C×H×W，C、H和W分别表示通道数、特征图x的高和宽，自注意力机制将特征图x转换为3个映射特征子层，分别是像素特征提取空间f(x)＝W_fx、全局特征提取空间g(x)＝W_gx和卷积特征映射层_h(x)＝W_hx，W_f、W_g和W_h分别表示自注意力机制查询向量、键矩阵和值矩阵；将通道数C调整为C/k，其中k＝8；

S42、以f(x)与g(x)按如下公式计算得到自注意力特征图A：

其中，β_ij表示地空影像中第j个像素对第i个像素的重视程度，s_ij＝f(x_i)^Tg(x_j)，N表示像素总数，T表示求转置；

S43、将自注意力特征图A与h(x)点乘运算后输出经自注意力掩码后得到的自注意力特征图O′＝(o₁，o₂，...，o_j，...，o_N)∈R^C×N，其中：

其中，β_j，i表示地空影像中第i个像素对第j个像素的重视程度，h(x_i)代表第i个像素对应的卷积特征映射层；

S44、将自注意力特征图O′与主干网络的Xception特征图X相加，以防止在网络训练初始阶段严重的震荡而导致的自注意力图对网络整体产生引导偏移，相加后得到最终的多层级自注意力编码特征O_i，公式如下：

O_i＝γo_i+x_i

其中，γ为自适应的权重调节参数，初始化值为0，o_i表示第i个像素对应的自注意力特征图，x_i表示第i个像素对应的Xception特征图。

进一步地，S5中，所述将深层自注意力特征输入多尺度特征编码模块，利用空洞空间池化金字塔对深层自注意力特征进行多尺度编码，输出多尺度特征的步骤，包括：

S51：将深层自注意力特征L_1/16输入空间金字塔池化层，该层包含1个1x1的卷积用于获取全局信息，以及三个空洞率分别为6、12、18的空洞卷积；

S52：将深层自注意力特征L_1/16进行经过1x1的卷积后输出多尺度特征H。

进一步地，S6中，所述将多尺度特征与浅层自注意力特征逐层融合，在每层融合后，利用通道加权模块减少信息冗余，输出融合特征的步骤，包括：

S61、将深层自注意力特征L_1/16上采样到浅层自注意力特征L_1/8、L_1/4和L_1/2的空间尺寸，用1x1的卷积层来调整深层自注意力特征和浅层自注意力特征图的通道数，将所述多尺度特征与浅层自注意力特征L_1/8、L_1/4和L_1/2逐层融合；

S62、采用全局最大池化和平均池化将输入特征压缩，然后采用大小为5的一维卷积核获取局部跨通道交互信息后相加，并通过非线性激活函数Sigmoid为各通道分配权重，最后与输入的特征图进行卷积运算，输出融合特征。

进一步地，在所述将测试数据集输入所述训练好的无人机影像语义分割网络，输出影像语义分割结果的步骤之后，还包括：

对所述影像语义分割结果进行评价，评价指标包括：总体精度OA、平均精度mAcc和平均交并比MIoU，定义式分别为：

其中，TP表示目标语义预测正确且不是未识别项目的数目，FP表示原语义为未识别样本但预测错误的数目，FN表示语义预测为未识别样本但原本有语义的数目，OA表示分类正确的样本个数占所有样本个数的比例，n代表总类别数。

根据本发明的第二方面，本发明提供了一种无人机影像语义分割装置，包括以下单元：

数据集构建单元，用于构建训练数据集和测试数据集；

网络搭建单元，用于搭建基于多级自注意力特征融合的无人机影像语义分割网络；

特征提取单元，用于将所述训练数据集输入所述基于多级自注意力特征融合的无人机影像语义分割网络，使用Xception网络提取多层级Xception特征；

自注意力特征编码单元，用于将所述多层级Xception特征输入自注意力特征编码模块，利用自注意力机制对多层级Xception特征进行编码，输出多层级自注意力特征；

多尺度特征编码单元，用于将深层自注意力特征输入多尺度特征编码模块，利用空洞空间池化金字塔对深层自注意力特征进行多尺度编码，输出多尺度特征；

多级特征融合单元，用于将所述多尺度特征与浅层自注意力特征逐层融合，在每层融合后，利用通道加权模块减少信息冗余，输出融合特征；

网络训练单元，用于通过所述训练数据集和所述融合特征对所述基于多级自注意力特征融合的无人机影像语义分割网络进行迭代训练，训练完成后，得到训练好的语义分割网络；

语义预测单元，用于将所述测试数据集输入所述训练好的无人机影像语义分割网络，输出影像语义分割结果。

根据本发明的第三方面，本发明提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的无人机影像语义分割方法的步骤。

根据本发明的第四方面，本发明提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的无人机影像语义分割方法的步骤。

本发明提供的技术方案具有以下有益效果：

1、本发明提出了一种基于多级自注意力特征融合的无人机影像语义分割网络，该网络可以快速、准确的进行无人机影像语义分割；

2、本发明在Deeplabv3+网络模型基础上，加入了自注意力机制，加强编码网络对全局特征的认知能力，提升对重点特征的关注度，减少地空影像多要素、杂乱背景的影响；

3、本发明提出了多级特征融合机制，将深层特征与多级浅层特征逐级融合，加强网络对于浅层特征的利用率，融合更精细的特征空间位置信息，优化分割边界，并采用通道加权单元优化权重配置，减少多级特征融合后带来的信息冗余问题。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明实施例中一种无人机影像语义分割方法的技术流程图；

图2为本发明实施例中基于多级自注意力特征融合的无人机影像语义分割网络的结构图；

图3为本发明实施例中自注意力特征编码的技术流程图；

图4为本发明实施例中一种无人机影像语义分割方法的语义分割效果图；

图5为本发明实施例中一种无人机影像语义分割装置的结构图；

图6为本发明实施例中一种电子设备的结构图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

请参考图1，其为本发明实施例中一种无人机影像语义分割方法的技术流程图，包括以下步骤：

S1：构建训练数据集和测试数据集；

S2：在Deeplabv3+网络模型的基础上，搭建基于多级自注意力特征融合的无人机影像语义分割网络；

基于但不限于上述方法，步骤S1具体包括：

S11：获取无人机影像场景理解数据集；

S12：将所述无人机影像场景理解数据集按照8∶2的比例划分为训练数据集和测试数据集。

基于但不限于上述方法，步骤S2中，基于多级自注意力特征融合的无人机影像语义分割网络的结构如图2所示，包括编码器和解码器两个部分，编码器由特征提取网络、自注意力特征编码模块和多尺度特征编码模块组成，解码器由多级特征融合模块以及通道加权模块构成。该网络的具体执行步骤包括：

S21、将无人机影像数据作为输入到基于多级自注意力特征融合的无人机影像语义分割网络中；

S22、通过特征提取网络提取得到影像的多层级特征图，分别用L_1/2、L_1/4、L_1/8和L_1/16表示，其中下标代表了特征图与输入影像尺寸比例关系；

S23、将多层级特征图L_1/2、L_1/4、L_1/8和L_1/16输入自注意力特征编码模块，利用自注意力机制对特征进行编码，输出自注意力特征图L′_1/2、L′_1/4、L′_1/8和L_1/16；

S24、将L′_1/16输入到空洞空间卷积池化金字塔组成的多尺度特征编码模块，该模块由四个空洞率分别为1、6、12、18的空洞卷积和一个最大池化层组成，最后利用1×1卷积将特征融合并将通道数调整为48，输出多尺度特征图H；

S25、通过多级特征融合模块执行特征融合。首先将特征图H执行2倍上采样，将L′_1/8通道数调整256，特征融合后将新特征通道数调整为48；

S26、通过通道加权模块为各通道重新分配权重关系。重复S25-S26将L′_1/4、L′_1/2依次融合，最后输出影像语义标签。

基于但不限于上述方法，步骤S3中，使用Xception特征提取网络对无人机影像进行特征提取，输出L_1/2、L_1/4、L_1/8与L_1/16四个层级的特征图，其中L_1/2、L_1/4、L_1/8为浅层特征，L_1/16为深层特征。

请参考图3，其为本发明实施例中自注意力特征编码模块的技术流程图，步骤S4具体包括以下步骤：

S41、对于Xception特征提取网络输出的特征图x∈R^C×H×W，C、H和W分别表示通道数、特征图x的高和宽，自注意力机制首先将其转换为3个映射特征子层，分别是像素特征提取空间f(x)＝W_fx、全局特征提取空间g(x)＝W_gx和卷积特征映射层h(x)＝W_hx。由于通道数C不会对网络性能产生影响，为提高内存效率，将其调整为C/k，其中k＝8。

S42、以f(x)与g(x)按如下公式计算得到自注意力特征图A：

其中，β_ij表示地空影像中第j个像素对第i个像素的重视程度，s_ij＝f(x_i)^Tg(x_j)，N表示像素总数，T表示求转置。

S43、将自注意力图A与h(x)点乘运算后输出经自注意力掩码后得到的自注意力特征图O′＝(o₁，o₂，...，o_j，...，o_N)∈R^C×N，其中：

其中，β_j，i表示地空影像中第i个像素对第j个像素的重视程度，h(x_i)代表第i个像素对应的卷积特征映射层。

S44、将自注意力特征图O′与主干网络的Xception特征图X相加，以防止在网络训练初始阶段严重的震荡而导致的自注意力图对网络整体产生引导偏移。相加后得到最终的自注意力编码特征O_i，公式如下：

O_i＝γo_i+x_i

基于但不限于上述方法，步骤S5具体包括：

基于但不限于上述方法，步骤S6具体包括：

为了验证本发明方法的有益效果，将本发明方法与传统的DeepLabv3+方法进行了分类精度对比，对比结果如表1所示，表中的数据是模型在UAVid数据集上进行对比实验后得到的结果。可以看到本发明实施例的总体分类精度OA(Overall Accuracy)和平均交并比mIoU(mean Intersection over Union)明显优于DeepLabv3+方法。

表1本发明方法与DeepLabv3+方法的精度对比

方法	OA(％)	mIoU(％)
			DeepLabv3+	84.31	66.35
本发明方法	87.69	69.57

此外，请参考图4，其中图4(a)代表第一张输入影像，图4(b)代表相应的语义分割真实标签，图4(c)代表本发明相应的语义分割效果。图4(d)代表第二张输入影像，图4(e)代表相应的语义分割真实标签，图4(f)代表本发明相应的语义分割效果。由图4可知，本发明方法具有良好的语义分割效果。

下面对本发明提供的一种无人机影像语义分割装置进行描述，下文描述的无人机影像语义分割装置与上文描述的无人机影像语义分割方法可相互对应参照。

如图5所示，示例了一种无人机影像语义分割装置，包括以下单元：

数据集构建单元1，用于构建训练数据集和测试数据集；

网络搭建单元2，用于搭建基于多级自注意力特征融合的无人机影像语义分割网络；

特征提取单元3，用于将所述训练数据集输入所述基于多级自注意力特征融合的无人机影像语义分割网络，使用Xception网络提取多层级Xception特征；

自注意力特征编码单元4，用于将所述多层级Xception特征输入自注意力特征编码模块，利用自注意力机制对多层级Xception特征进行编码，输出多层级自注意力特征；

多尺度特征编码单元5，用于将深层自注意力特征输入多尺度特征编码模块，利用空洞空间池化金字塔对深层自注意力特征进行多尺度编码，输出多尺度特征；

多级特征融合单元6，用于将所述多尺度特征与浅层自注意力特征逐层融合，在每层融合后，利用通道加权模块减少信息冗余，输出融合特征；

网络训练单元7，用于通过所述训练数据集和所述融合特征对所述基于多级自注意力特征融合的无人机影像语义分割网络进行迭代训练，训练完成后，得到训练好的语义分割网络；

语义预测单元8，用于将所述测试数据集输入所述训练好的无人机影像语义分割网络，输出影像语义分割结果。

如图6所示，示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610、通信接口620、存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行上述无人机影像语义分割方法的步骤，具体包括：构建训练数据集和测试数据集；搭建基于多级自注意力特征融合的无人机影像语义分割网络；将所述训练数据集输入所述基于多级自注意力特征融合的无人机影像语义分割网络，使用Xception网络提取多层级Xception特征；将所述多层级Xception特征输入自注意力特征编码模块，利用自注意力机制对多层级Xception特征进行编码，输出多层级自注意力特征；将深层自注意力特征输入多尺度特征编码模块，利用空洞空间池化金字塔对深层自注意力特征进行多尺度编码，输出多尺度特征；将所述多尺度特征与浅层自注意力特征逐层融合，在每层融合后，利用通道加权模块减少信息冗余，输出融合特征；通过所述训练数据集和所述融合特征对所述基于多级自注意力特征融合的无人机影像语义分割网络进行迭代训练，训练完成后，得到训练好的语义分割网络；将所述测试数据集输入所述训练好的无人机影像语义分割网络，输出影像语义分割结果。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random15 Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述无人机影像语义分割方法的步骤，具体包括：构建训练数据集和测试数据集；搭建基于多级自注意力特征融合的无人机影像语义分割网络；将所述训练数据集输入所述基于多级自注意力特征融合的无人机影像语义分割网络，使用Xception网络提取多层级Xception特征；将所述多层级Xception特征输入自注意力特征编码模块，利用自注意力机制对多层级Xception特征进行编码，输出多层级自注意力特征；将深层自注意力特征输入多尺度特征编码模块，利用空洞空间池化金字塔对深层自注意力特征进行多尺度编码，输出多尺度特征；将所述多尺度特征与浅层自注意力特征逐层融合，在每层融合后，利用通道加权模块减少信息冗余，输出融合特征；通过所述训练数据集和所述融合特征对所述基于多级自注意力特征融合的无人机影像语义分割网络进行迭代训练，训练完成后，得到训练好的语义分割网络；将所述测试数据集输入所述训练好的无人机影像语义分割网络，输出影像语义分割结果。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种无人机影像语义分割方法，其特征在于，包括以下步骤：

S1：构建训练数据集和测试数据集；

2.如权利要求1所述的无人机影像语义分割方法，其特征在于，S1中，所述构建训练数据集和测试数据集的步骤，包括：

S11：获取无人机影像场景理解数据集；

3.如权利要求1所述的无人机影像语义分割方法，其特征在于，S3中，所述使用Xception网络提取多层级Xception特征的步骤，包括：

4.如权利要求1所述的无人机影像语义分割方法，其特征在于，S4中，所述将多层级Xception特征输入自注意力特征编码模块，利用自注意力机制对多层级Xception特征进行编码，输出多层级自注意力特征的步骤，包括：

S41、对于Xception特征提取网络输出的特征图x∈R^C×H×W，C、H和W分别表示通道数、特征图x的高和宽，自注意力机制将特征图x转换为3个映射特征子层，分别是像素特征提取空间f(x)＝W_fx、全局特征提取空间g(x)＝W_gx和卷积特征映射层h(x)＝W_hx，W_f、W_g和W_h分别表示自注意力机制查询向量、键矩阵和值矩阵；将通道数C调整为C/k，其中k＝8；

S42、以f(x)与g(x)按如下公式计算得到自注意力特征图A：

S43、将自注意力特征图A与h(x)点乘运算后输出经自注意力掩码后得到的自注意力特征图O′＝(o₁,o₂,...,o_j,...,o_N)∈R^C×N，其中：

其中，β_j,i表示地空影像中第i个像素对第j个像素的重视程度，h(x_i)代表第i个像素对应的卷积特征映射层；

O_i＝γo_i+x_i

5.如权利要求1所述的无人机影像语义分割方法，其特征在于，S5中，所述将深层自注意力特征输入多尺度特征编码模块，利用空洞空间池化金字塔对深层自注意力特征进行多尺度编码，输出多尺度特征的步骤，包括：

6.如权利要求1所述的无人机影像语义分割方法，其特征在于，S6中，所述将多尺度特征与浅层自注意力特征逐层融合，在每层融合后，利用通道加权模块减少信息冗余，输出融合特征的步骤，包括：

7.如权利要求1所述的无人机影像语义分割方法，其特征在于，在所述将测试数据集输入所述训练好的无人机影像语义分割网络，输出影像语义分割结果的步骤之后，还包括：

8.一种无人机影像语义分割装置，其特征在于，包括以下单元：

数据集构建单元，用于构建训练数据集和测试数据集；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的无人机影像语义分割方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的无人机影像语义分割方法的步骤。