CN114677517B

CN114677517B - 一种无人机用语义分割网络模型及图像分割识别方法

Info

Publication number: CN114677517B
Application number: CN202210595480.5A
Authority: CN
Inventors: 魏玲; 胥志伟; 杨晓刚
Original assignee: Shandong Weiran Intelligent Technology Co ltd
Current assignee: Shandong Weiran Intelligent Technology Co ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-08-26
Anticipated expiration: 2042-05-30
Also published as: CN114677517A

Abstract

本发明提供了提供了一种无人机用语义分割网络模型及图像分割识别方法，基于BiseNetv2轻量化语义分割的框架进行搭建，包括细节分支部分、语义分支部分、融合分支部分和聚合层部分；所述细节分支部分使用宽通道和浅层来处理空间细节，语义分支部分采用三种特殊的网络构造代替经典网络并作为语义分支的主体，融合分支部分在语义分支的第三、四、五层和细节分支的第三层分别使用了RFB模块来扩大感受野；聚合层部分用于进行特征融合来合并特性表示。本发明区分于传统的语义分割，借鉴了伪装物检测方法，将融入背景中的难以区分的目标物体分离出来，此网络模型分割速度快、区分相似度更大的物体分割精度更准确。

Description

一种无人机用语义分割网络模型及图像分割识别方法

技术领域

本发明属于无人机图像识别技术领域，尤其涉及一种无人机用语义分割网络模型及图像分割识别方法。

背景技术

近年来，无人机因其灵活便捷，成本低，维护方便和高分辨率快速成像等特点，弥补了卫星遥感监测的不足，被广泛应用到农林业，资源勘测和海洋环境监测等领域。在海洋环境监测方面，溢油和海面、互花米草和藻类植物等不同种类的物体之间相似度较高，通用的分割算法效果较差，给无人机场景下的语义分割带来了新的挑战。因此，本发明针对无人机场景下不同类间相似度较高、分割精度差的问题进行了深入研究。

目前无人机中使用的实时语义分割的网络设计包括以下几种：

DeepLab系列：对图像做密集的分割任务，分割每个像素到指定的类别上，将图像分割成几个有意义的目标并给对象分配指定的类别标签。

BiSeNet系列：BiSeNet系列网络结构的设计是对这一工作的一次尝试，在精度与DeepLab 系列相差不大的情况下，极大的提升了速度。众所周知，图像特征中低层次的细节信息和高层次的语义信息是图像语义分割的基础。但是，在轻量化的网络设计中，为了提高模型的推理速度，通用的方法一般是减少图像的大小和降低模型的复杂度，减少图像大小就会丢失一些细节信息，降低模型复杂度则会导致模型的特征提取能力下降，尤其是一些底层的特征细节信息多，但计算量大，丢失这些特征，对语义分割这种像素级的任务影像很大。因此，BiSeNet系列提出双向分割网络，旨在同时提升语义分割的速度与精度。

现有的DeepLab系列网络，虽然具有较高的分割精度，但分割速度却不够；BiSeNet在精度与DeepLab系列相差不大的情况下，极大的提升了速度；但在无人机的搭载环境下，对相似物之间的区分度仍不够高。

发明内容

针对上述问题，本发明基于BiseNetv2轻量化语义分割的框架，借鉴了伪装物体检测的方法，提出了一种基于注意力引导的多尺度融合的语义分割网络TriseNet，通过引入MSCA多尺度通道注意力机制的ACFM模块，建立新的融合分支，有效地融合多尺度特征。

本发明第一方面提供了一种无人机用语义分割网络模型，基于BiseNetv2轻量化语义分割的框架进行搭建，包括细节分支部分、语义分支部分、融合分支部分和聚合层部分；

所述细节分支部分使用宽通道和浅层来处理空间细节，所述细节分支部分提取的输出特征映射是原始输入的1/8；

所述语义分支部分采用三种特殊的网络构造代替经典网络并作为语义分支的主体，分别为StemBlock网络、Gather-and-Expansion Layer网络和Context EmbeldingBlock 网络；

所述融合分支部分在语义分支的第三、四、五层和细节分支的第三层分别使用了RFB 模块来扩大感受野，得到了特征L₃，L₄，L₅和L₁，将L₃和L₄作为 ACFM 模块的输入，得到输出特征 L₃₄，再将L₃₄和L₅作为ACFM模块的输入，得到输出特征 L₃₄₅，最后将L₃₄₅和L₁作为ACFM模块的输入，得到输出特征 L₀；

所述聚合层部分用于进行特征融合来合并特性表示，所述分割分支的输出大小为细节分支的1/4，分割分支经过上述处理后通过激活函数sigmoid激活输出，然后与经过处理的细节分支相乘；细节分支和语义分支使用聚合层进行融合得到了特征L_c，然后将融合分支的输出特征L₀和聚合层的输出特征L_c进行拼接操作得到最终分支聚合之后的输出。

在一种可能的设计中，所述RFB 模块包含5个分支，所述每个分支中先通过一个1×1的卷积将通道数降低到64 维，第三个分支再经过一个1×3卷积、3×1卷积和3×3卷积，第四个分支再经过一个1×5卷积、5×1卷积和3×3卷积，第五个分支再经过一个1×7卷积、7×1卷积和3×3卷积，然后将第二、第三、第四和第五个分支的输出拼接到一起，再通过一个3×3的卷积将通道数降低到64维，最后将输出的特征和第一个分支的输出相加，经过ReLU激活函数得到最后的输出特征。

在一种可能的设计中，所述ACFM模块的具体结构为，给定两个不同尺度的输入特征图 F_a和F_b，将较深层特征图F_b进行上采样处理，得到和F_a特征图同样大小的尺寸，记为F_c；然后将特征图F_a和上采样得到的特征图F_c进行相加操作，以得到融合的总特征F_x，将得到的总特征F_x送入 MSCA 模块进一步处理，得到特征 F_y，然后将特征F_y与特征F_a以及特征F_y的反向和特征F_b进行相乘再相加操作，得到特征F_O；ACFM模块结构用公式可以表示如下：

最后特征F_O经过一个3×3卷积，得到最终的输出特征F。

在一种可能的设计中，所述ACFM模块中使用了多尺度通道注意力机制MSCA模块，所述MSCA模块共有两个分支，上面的分支由PWC+BN+ReLU+PWC+BN组成，其中点卷积为1×1的卷积，以保持原始特征大小，获得局部信息；下面的分支由GAP+PWC+BN+ReLU+PWC+BN组成，其中使用全局平均池化获取全局上下文信息，并突出显示全局分布的大型对象；最后，将上下两个分支结构得到的特征进行相加操作，在经过激活函数sigmoid处理后得到输出特征 W。

在一种可能的设计中，所述StemBlock网络采用两种不同的下采样方式来缩小特征表示，然后将两个分支的输出特征串联起来作为输出；将StemBlock网络作为语义分支的第一个特征提取块，图像输入经过卷积后分为两个分支，最后将经过两层卷积块后的输出与经过卷积核大小为3的最大池化层连接在一起再卷积作为输出，图像输出是缩小为原图的1/4，维度数为16；

所述Gather-and-Expansion Layer网络包括一个3×3的卷积，有效地聚合特征响应并扩展到高维空间，在每个单独输出通道上独立进行3×3深度卷积，以1×1的卷积作为投影层，将深度卷积的输出投影到低信道容量空间中；

所述Context Embelding Block网络输入数据经过全局池化，再经过不改变数据大小的卷积层处理后输出为1*1*C，运用broadcasting机制在相加的时候1*1*C的数据自动扩展成H*W*C，然后与原数据相加最终输出为H*W*C。

本发明第二方面还提供了一种无人机用图像分割识别方法，包括：通过无人机拍摄获取图像；将图像输入如第一方面所述的多尺度融合的语义分割网络模型中进行处理并输出处理后的图像；对通过模型处理后的输出图像进行识别。

本发明第三方面还提供了一种无人机用图像识别设备，所述设备包括至少一个处理器和至少一个存储器；所述存储器中存储有如第一方面所述的多尺度融合的语义分割网络模型的程序；所述处理器执行所述存储器存储的程序时，可以实现无人机图像的处理识别。

本发明第四方面还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有如第一方面所述的多尺度融合的语义分割网络模型的计算机执行程序，所述计算机执行程序被处理器执行时可以实现无人机图像的处理识别。

与现有技术相比，本发明中提出的一种无人机用多尺度融合的语义分割网络模型及识别方法可以产生如下有益效果：

本发明区分于传统的语义分割，借鉴了伪装物检测方法，将融入背景中的难以区分的目标物体分离出来，目前还没有使用伪装物体检测方法进行语义分割的任务。另外，对于伪装数据集，图片中伪装对象的大小通常会发生变化，这与无人机场景下目标物体的形状不规则性以及不同类别之间的物体存在很大的相似性是一样的。

本发明引入了 MSCA多尺度通道注意力机制的 ACFM 模块，不同尺度的特征进行融合，以处理目标伪装物体在图像中尺寸不固定的问题，有效地实现跨层特征的整合；由于无人机场景下图像分辨率较大，并且物体尺度变化较大，有的物体甚至遍及全图，因此本发明还使用了RFB模块扩大感受野来获得特定层中更丰富的特征。另外，由于无人机的硬件限制和浅层特征具有高的空间分辨率，需要更多的计算资源，但是对模型性能的贡献较少，因此只在高级特征中融合模块ACFM来解决目标物体与周围环境相似度较高所导致的无法区分边界的问题。

由于网络结构中各层对图像特征的提取不同，所以各层提取的特征对任务的关注点也不同，再加上不同尺度的图像特征融合可以互相补充，故本发明方法可以得到较为全面的特征表示。

本发明的提出的网络模型分割速度快、区分相似度更大的物体分割精度更准确。

附图说明

图1为本发明TriseNet的网络模型结构。

图2为StemBlock网络的结构。

图3为Gather-and-Expansion Layer网络的结构。

图4为Context Embelding Block网络的结构。

图5为本发明网络模型结构中聚合层的结构。

图6为增强训练策略—Seg head分割头示意图。

图7为本发明中ACFM模块的网络结构。

图8为本发明中的MSCA网络结构。

图9为本发明的RFB模块结构。

图10为本发明中无人机用图像识别设备的结构简易框图。

具体实施方式

下面结合具体实施例对发明进行进一步说明。

实施例1：

如图1所示，本发明基于BiseNetv2轻量化语义分割的框架，借鉴了伪装物体检测的方法，提出了一种基于注意力引导的多尺度融合的语义分割网络TriseNet，通过引入MSCA多尺度通道注意力机制的ACFM模块，建立新的融合分支，有效地融合多尺度特征。

TriseNet的网络结构主要分四部分：细节分支，语义分支，融合分支和聚合层。

细节分支，使用宽通道和浅层来处理空间细节。细节分支的实例化包含三个阶段，每一层都是卷积层，然后是BN（Batch Normalization，批量标准化）和ReLu激活函数。每个阶段的第一层有一个步长stride s = 2，而同一阶段的其他层有相同数量的卷积和输出特征图feature map大小。因此，这个分支提取的输出特征映射是原始输入的1/8。

语义分支，本发明采用三种特殊的网络构造代替经典网络，作为语义分支的主体，它们分别为StemBlock，Gather-and-Expansion Layer和Context Embelding Block，名称简写分别为Stem,GE,CE。

Stem结构如图2所示，采用两种不同的下采样方式来缩小特征表示。然后将两个分支的输出特征串联起来作为输出。我们将Stem作为语义分支的第一个特征提取块，图片输入经过卷积后，分为两个分支，最后将经过两层卷积块后的输出与经过卷积核大小为3的Mpooling（最大池化层）concat（连接）在一起，再卷积作为我们的输出，这里的理想输出是缩小为原图的1/4，维度数为16。

GE结构如图3所示，主要包括：一个3×3的卷积，有效地聚合特征响应并扩展到高维空间;在每个单独输出通道上独立进行3×3DepthwiseConv2D（深度卷积，DWConv）;以1×1的卷积作为投影层，将深度卷积的输出投影到低信道容量空间中。当stride = 2时，我们采用两个3×3的深度卷积，进一步扩大了感受野，一个3×3的可分离卷积用于shortcut（直连）。

CE结构如图4所示，是一个非常简单的结构输入数据经过全局池化（GAPooling），再经过不改变数据大小的卷积层处理后输出为（1*1*C），与我们的原输入相加，这里其实在相加的时候运用了broadcasting广播机制，在相加的时候1*1*C的数据自动扩展成H*W*C，然后与原数据相加，所以最终输出为H*W*C。

融合分支，在语义分支的第三、四、五层和细节分支的第三层分别使用了 RFB 模块（Receptive Fields Block，感受野结构）来扩大感受野，得到了特征L₃，L₄，L₅和L₁，接下来，将L₃和L₄作为 ACFM 模块（Attention-induced Cross-level Fusion Module,注意力诱导的跨层次融合模块）的输入，得到输出特征 L₃₄，再将L₃₄和L₅作为ACFM模块的输入，得到输出特征 L₃₄₅，最后将L₃₄₅和L₁作为ACFM模块的输入，得到输出特征 L₀；

最后使用一个聚合层进行特征融合来合并特性表示，聚合层结构如图5所示。这里细节分支的输出大小为原图的1/8，分割分支的输出为1/32，也就是分割分支的输出大小为细节分支的1/4，分割分支经过上述处理后通过激活函数sigmoid激活输出，然后与经过处理的细节分支相乘；细节分支和语义分支使用聚合层进行融合得到了特征L_c，然后将融合分支的输出特征L₀和聚合层的输出特征L_c进行拼接操作得到最终分支聚合之后的输出。

为了进一步提高分割精度，我们还提出了一种增强训练策略——Seg head分割头，结构如图6所示，先经过卷积后最后Upsample（上采样）输出结果。它可以在训练阶段增强特征表示，在推理阶段可以丢弃。因此，在推理阶段增加的计算复杂度很小。可以将辅助分割头插入到语义的不同位置分支。

关于ACFM模块：

ACFM网络结构如图7所示。即给定两个不同尺度的输入特征图 F_a、F_b，将较深层特征图F_b进行上采样处理，得到和F_a特征图同样大小的尺寸，记为F_c。然后将特征图F_a和上采样得到的特征图F_c进行相加操作，以得到融合的总特征F_x。将得到的总特征F_x送入 MSCA 模块进一步处理，得到特征 F_y。然后，将特征F_y与特征F_a以及特征F_y的反向和特征F_b进行相乘再相加操作，得到特征F_O。最后特征F_O经过一个3×3卷积，得到最终的输出特征F。ACFM结构用公式可以表示如下：

在ACFM模块中，使用了多尺度通道注意力机制模块MSCA（Multi-Scale ChannelAttention,多尺度通道注意力）。MSCA结构如图8所示，共有两个分支。上面的分支由PWC(Point-Wise Conv,点卷积)+BN（Batch Normalization，批量标准化）+ReLU+PWC+BN组成，其中点卷积为1×1的卷积，以保持原始特征大小，获得局部信息。下面的分支由GAP（GlobalAvgPooling，全局池化）+ PWC+BN+ReLU+PWC+BN组成，其中使用全局平均池化获取全局上下文信息，并突出显示全局分布的大型对象。最后，将上下两个分支结构得到的特征进行相加操作，在经过激活函数sigmoid，得到输出特征 W。值得注意的是，MSCA使用点卷积层来压缩通道，用于沿通道级的特征压缩和复原，从而聚合多尺度通道上下文信息。

关于RFB模块：

本发明使用RFB模块来扩大感受野，RFB模块结构如图9所示。RFB 模块包含5个分支，每个分支中，先通过一个1×1的卷积将通道数降低到64 维，降低计算量。第三个分支再经过一个1×3卷积、3×1卷积和3×3卷积；第四个分支再经过一个1×5卷积、5×1卷积和3×3卷积；第五个分支再经过一个1×7卷积、7×1卷积和3×3卷积。通过多个尺寸的卷积核进行处理，有利于提取全局和局部特征。然后将第二、三、四、五个分支的输出拼接到一起，分离再拼接的操作有利于增强卷积的特征处理能力，再通过一个3×3的卷积将通道数降低到64维。最后，将输出的特征和第一个分支的输出相加，经过ReLU激活函数得到最后的输出特征。

借助本发明所搭建的网络模型进行无人机用图像分割识别的方法为：通过无人机拍摄获取图像；将图像输入如上所述的多尺度融合的语义分割网络模型中进行处理并输出处理后的图像；对通过模型处理后的输出图像进行识别。

实施例2：

如图10所示，本发明同时提供了一种无人机用图像识别设备，设备包括至少一个处理器和至少一个存储器，同时还包括通信接口和内部总线；存储器中存储有实施例1所述的多尺度融合的语义分割网络模型的程序；处理器执行所述存储器存储的执行程序时，可以实现可以实现无人机图像的处理识别。其中内部总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(.XtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。其中存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

设备可以被提供为终端、服务器或其它形态的设备。

图10是为示例性示出的一种设备的框图。例如，设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等终端。

设备可以包括以下一个或多个组件：处理组件，存储器，电源组件，多媒体组件，音频组件，输入/输出(I/O)的接口，传感器组件，以及通信组件。处理组件通常控制电子设备的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件可以包括一个或多个处理器来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件可以包括一个或多个模块，便于处理组件和其他组件之间的交互。例如，处理组件可以包括多媒体模块，以方便多媒体组件和处理组件之间的交互。

存储器被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件为电子设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。多媒体组件包括在所述电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。 I/O接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件包括一个或多个传感器，用于为电子设备提供各个方面的状态评估。例如，传感器组件可以检测到电子设备的打开/关闭状态，组件的相对定位，例如所述组件为电子设备的显示器和小键盘，传感器组件还可以检测电子设备或电子设备一个组件的位置改变，用户与电子设备接触的存在或不存在，电子设备方位或加速/减速和电子设备的温度变化。传感器组件可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

实施例3：

本发明还提供了一种非易失性计算机可读存储介质，计算机可读存储介质中存储有实施例1所述的多尺度融合的语义分割网络模型的计算机执行程序，计算机执行程序被处理器执行时用于实现无人机图像的处理识别。

具体地，可以提供配有可读存储介质的系统、装置或设备，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘（如 CD-ROM、CD-R、CD-RW、DVD- 20 ROM、DVD-RAM、DVD-RW、DVD-RW）、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

应理解存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于终端或服务器中。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种无人机用语义分割网络模型，基于BiseNetv2轻量化语义分割的框架进行搭建，其特征在于：包括细节分支部分、语义分支部分、融合分支部分和聚合层部分；

所述语义分支部分采用三种特殊的网络构造代替经典网络并作为语义分支的主体，分别为StemBlock网络、Gather-and-Expansion Layer网络和Context Embelding Block 网络；

所述融合分支部分在语义分支的第三、四、五层和细节分支的第三层分别使用了 RFB模块来扩大感受野，得到了特征L3，L4，L5和L1，将L3和L4作为 ACFM 模块的输入，得到输出特征 L34，再将L34和L5作为ACFM模块的输入，得到输出特征 L345，最后将L345和L1作为ACFM模块的输入，得到输出特征 L0；

所述聚合层部分用于进行特征融合来合并特性表示，所述语义分支的输出大小为细节分支的1/4，分割分支经过上述处理后通过激活函数sigmoid激活输出，然后与经过处理的细节分支相乘；细节分支和语义分支使用聚合层进行融合得到了特征Lc，然后将融合分支的输出特征L0和聚合层的输出特征Lc进行拼接操作得到最终分支聚合之后的输出；

将上述搭建的网络模型部署于无人机平台上，并用于将无人机拍摄获取的图像进行处理并输出。

2.如权利要求1所述的一种无人机用语义分割网络模型，其特征在于：所述RFB 模块包含5个分支，其中每个分支中先通过一个1×1的卷积将通道数降低到64 维，第三个分支再经过一个1×3卷积、3×1卷积和3×3卷积，第四个分支再经过一个1×5卷积、5×1卷积和3×3卷积，第五个分支再经过一个1×7卷积、7×1卷积和3×3卷积，然后将第二、第三、第四和第五个分支的输出拼接到一起，再通过一个3×3的卷积将通道数降低到64维，最后将输出的特征和第一个分支的输出相加，经过ReLU激活函数得到最后的输出特征。

3.如权利要求1所述的一种无人机用语义分割网络模型，其特征在于：所述ACFM模块的具体结构为，给定两个不同尺度的输入特征图 Fa和Fb，将较深层特征图Fb进行上采样处理，得到和Fa特征图同样大小的尺寸，记为Fc；然后将特征图Fa和上采样得到的特征图Fc进行相加操作，以得到融合的总特征Fx，将得到的总特征Fx送入 MSCA 模块进一步处理，得到特征 Fy，然后将特征Fy与特征Fa以及特征Fy的反向和特征Fb进行相乘再相加操作，得到特征FO；ACFM模块结构用公式可以表示如下：

最后特征FO经过一个3×3卷积，得到最终的输出特征F；其中M代表MSCA 模块，

代表初始融合。

4.如权利要求3所述的一种无人机用语义分割网络模型，其特征在于：所述ACFM模块中使用了多尺度通道注意力机制MSCA模块，所述MSCA模块共有两个分支，上面的分支由PWC+BN+ReLU+PWC+BN组成，其中点卷积为1×1的卷积，以保持原始特征大小，获得局部信息；下面的分支由GAP+PWC+BN+ReLU+PWC+BN组成，其中使用全局平均池化获取全局上下文信息，并突出显示全局分布的大型对象；最后，将上下两个分支结构得到的特征进行相加操作，在经过激活函数sigmoid处理后得到输出特征 W。

5.如权利要求1所述的一种无人机用语义分割网络模型，其特征在于：所述StemBlock网络采用两种不同的下采样方式来缩小特征表示，然后将两个分支的输出特征串联起来作为输出；将StemBlock网络作为语义分支的第一个特征提取块，图像输入经过卷积后分为两个分支，最后将经过两层卷积块后的输出与经过卷积核大小为3的最大池化层连接在一起再卷积作为输出，图像输出是缩小为原图的1/4，维度数为16；

6.一种无人机用图像分割识别方法，其特征在于，包括：通过无人机拍摄获取图像；将图像输入如权利要求1至4任意一项所述的语义分割网络模型中进行处理并输出处理后的图像；对通过模型处理后的输出图像进行识别。

7.一种无人机用图像识别设备，其特征在于：所述设备包括至少一个处理器和至少一个存储器；所述存储器中存储有如权利要求1至4任意一项所述的语义分割网络模型的程序；所述处理器执行所述存储器存储的程序时，可以实现无人机图像的处理识别。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有如权利要求1至4任意一项所述的语义分割网络模型的计算机执行程序，所述计算机执行程序被处理器执行时可以实现无人机图像的处理识别。