CN115908442B

CN115908442B - 一种无人机海洋监测用图像全景分割方法及模型搭建方法

Info

Publication number: CN115908442B
Application number: CN202310015179.7A
Authority: CN
Inventors: 魏玲; 胥志伟; 杨晓刚; 李兴隆; 高海平
Original assignee: Shandong Weiran Intelligent Technology Co ltd
Current assignee: Shandong Weiran Intelligent Technology Co ltd
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-05-12
Anticipated expiration: 2043-01-06
Also published as: CN115908442A

Abstract

本发明提供了一种无人机海洋监测用图像全景分割方法及模型搭建方法，属于无人机海洋监测领域，搭建了一种无人机海洋图像识别的全景分割模型PanopticUAV，将ResNet50的传统卷积替换为可变卷积，使用ResNet50作为主干网络，拉普拉斯算子边界增强来获得融合到特征图中的边界信息，并通过引入添加CBAM模块用于更准确地解析图像，对模型使用本发明中获取的数据集进行训练，得到训练成熟的全景分割模型，助力了海上巡检和环境检测。本发明首次将ResNet50神经网络进行改进应用于图像全景分割，并应用于无人机监测海洋图像领域；解决了无人机海洋图像的多态和大范围，在全景分割中可能会丢失许多小对象的问题。

Description

一种无人机海洋监测用图像全景分割方法及模型搭建方法

技术领域

本发明属于无人机海洋监测技术领域，尤其涉及一种无人机海洋监测用图像全景分割方法及模型搭建方法。

背景技术

我国有着丰富的海岛资源，当前我国海洋经济快速发展，同时伴随着海洋矛盾突出，海洋领域受到各方面的破坏，急需新技术对海洋现状进行高精度监测。常规人工监测的技术对灾害无法预测全面，易造成预报不及时的情况。目前对海洋环境监测采用的卫星遥感技术，利用卫星的高分辨率数据，对海洋赤潮、溢油污染、互花米草泛滥等进行动态监测，拥有监测范围大、费用低、图像易于处理等特点，但卫星遥感成像比例尺小，地面分辨率低，一定程度限制了污染监测的应用效果；雷达遥感监测技术主要有两种，合成孔径雷达和测试机载雷达，前者利用多普勒效应原理，依靠短天线达到高空间分辨率的目的，后者依靠天线长度，他们的缺点容易被干扰。无人机是新型的海洋监测技术，具有具有成本低、效率高和机动性好的优点，对环境的适应能力较强，能快速获取高分辨率的影像，近年来在海洋监测方面受到了更多的关注。而无人机海洋图像监测一方面可以做到应急响应，无须等待卫星过境；另一方面可以克服南方多云和阴雨天气下传统的卫星光学遥感技术的缺陷，将极大提高海洋机动监测能力，为区域海洋经济发展保驾护航。在维护海洋秩序上，地面监测等无法对违法用海的活动进行详细取证，同时海上自然灾害易造成海洋事故，会对海洋造成巨大的破坏，舰艇等检测技术无法满足现有工作需求，无人机海洋图像监测响应时间快，应用成本低，对海上应急监测具有很大的帮助。

但是在无人机海洋环境监测中，溢油、互花米草、藻类等不同种类的物体和海面之间的相似性很高，使用一般的分割算法效果很差。无人驾驶飞机捕获的具有多态性物体的无人机图像对无人机海洋监测构成了重大挑战。

发明内容

针对上述问题，本发明通过合理规划，提出了用无人机拍摄海洋图像并对海洋图像进行处理，然后经过本发明设计的全景分割模型PanopticUAV，最终将图像数据输入分割模型并输出全景分割图像的方法。提升了对无人机海洋图像的分割精度，为海洋的实时监测和海洋图像的准确识别提供了指导。

本发明第一方面提供了一种无人机海洋监测用图像全景分割模型的搭建方法，包括以下步骤：

步骤1，获取无人机拍摄的高精度海洋图像数据；选择可以使模型精度和性能平衡的图像尺寸作为模型输入尺寸；

步骤2，对图像数据进行预处理；首先对获取的图像数据进行图像增强并构建数据集，按一定的比例划分为训练集、验证集和测试集，然后对训练集中的图像数据进行标注处理；

步骤3，基于ResNet50的卷积神经网络框架，构建用于无人机海洋图像识别的全景分割模型PanopticUAV模型，所述PanopticUAV模型将ResNet50的传统卷积替换为可变卷积，即在传统卷积的基础上为卷积核中的每个元素引入了一个偏移量，偏移量由输入特征图与另一个卷积生成；使用可变卷积的ResNet50作为主干网络，通过拉普拉斯算子边界增强来获得融合到特征图中的边界信息，并通过引入添加CBAM注意力模块用于更准确地解析图像；用步骤2中的训练集对构建的PanopticUAV模型进行训练；

步骤4，将步骤2中的测试集输入到训练完成的PanopticUAV模型中，并完成全景分割模型的搭建。

优选的，所述步骤1中选择可以使模型精度和性能平衡的图像尺寸为640×640 的图像尺寸。

优选的，所述步骤2中的图像增强具体为：水平翻转、竖直翻转、随机旋转角度、随机水平平移、随机竖直平移、随机错切变换、随机放大、颜色抖动、重定尺度和填充模式。

优选的，所述步骤3中构建的全景分割模型PanopticUAV模型的具体结构为：包括网络主干部分、特征融合部分、注意力机制部分和内核生成器部分；

所述网络主干部分选取ResNet50作为主干网络，由于标准CNN提取特征的大小固定，在ResNet50中使用可变形卷积获得无人机海洋图像的较大类内变化和小目标的更灵活的感受野；所述特征融合部分使用FPN生成特征图，并使用拉普拉斯算子得到最上层特征图的边界掩模，为了提高边界分割精度；所述注意力机制部分使用CBAM注意力机制，包括通道注意力模块和空间注意力模块，组合特征中的上下文信息以获得高分辨率特征图；所述内核生成器部分包括内核生成器，内核生成器生成对象实例或物体类别的各个内核权重与编码特征相乘，以得到完整的分割结果。

优选的，所述步骤3中通过拉普拉斯算子边界增强来获得融合到特征图中的边界信息具体为：通过拉普拉斯算子方程从真实标注信息ground truth中获得边界掩模，拉普拉斯算子方程为：

从主干网和FPN中，获得了特征图P2、P3、P4和P5，然后用特征图计算边界损失，以合并边界信息；P2、P3、P4和P5分别使用边界掩码计算边界损失，拉普拉斯算子内核L生成一个边界掩码；选择三个不同的步长2、4和8，来获得不同比例的掩模图，然后对掩模图进行上采样，使其大小一致，并用1×1卷积进行融合；P5通过3×3卷积、参数归一化BatchNorm、ReLU激活函数和3×3卷积进行采样；通过双线性插值将形状调整为与边界遮罩相同的大小；最后，通过学习P5和边界掩码，采用二元交叉熵和Dice损失联合优化边界掩码，方程式如下：

L_boundary(p_d,g_d) = L_dice(p_d,g_d) + L_bce(p_d, g_d)

其中，p_d表示预测的p₅特征，g_d表示相应的边界掩码，L_dice表示Dice损失，L_bce表示二进制交叉熵损失。

优选的，所述步骤3中引入添加的CBAM注意力模块具体为：

所述CBAM模块由输入、通道注意力模块、空间注意力模块和输出组成；输入特征F₀∈R^C*H*W，然后进入通道注意力模块一维卷积M_C∈R^C*1*1，将卷积结果乘原图，将输出结果作为输入，进行空间注意力模块的二维卷积M_S∈R^1*H*W，再将输出结果与原图相乘；

在通道注意力模块中，输入特征F₀根据宽度和高度进行全局最大池和全局平均池，然后，输出特征被送到多层感知机MLP，经过加和操作，再经过Sigmoid激活操作，与输入特征F₀元素相乘，以生成通过空间注意力模块所需的特征F_c；

空间注意力模块将特征F_c作为输入特征；首先，基于通道执行全局最大池和全局平均池，然后基于通道联系这两个结果，Sigmoid激活函数生成空间注意特征，然后将这些特征乘以输入特征F_c，得到最终的特征F_s。

优选的，所述步骤3中对构建的PanopticUAV模型进行训练的具体过程为：

具有可变形卷积策略的Resnet50用作主干，在ImageNet图像数据集中执行预训练权重初始化，FPN用于融合这些特征，使用SGD优化器进行训练；初始学习率设置为0.001，采用多项式学习率策略，其中当前学习率等于初始学习率乘以（1-(iter/(max-iter))^0.9），iter为每一次迭代数，max-iter是最大迭代次数为90000，动量为0.9，重量衰减为0.0001，以训练模型。

本发明第二方面提供了一种无人机用目标检测方法，包括以下过程：

一种无人机海洋监测用图像全景分割方法，包括以下过程：

通过无人机拍摄获取海洋图像数据；

将图像数据输入到如第一方面所述的搭建方法所搭建的全景分割模型PanopticUAV中；

通过运算得到实例分割图像数据和语义分割图像数据，最终输出全景分割图像。

本发明第三方面提供了一种无人机海洋监测用图像全景分割设备，所述设备包括至少一个处理器和至少一个存储器；所述存储器中存储有如第一方面所述搭建方法所搭建的全景分割模型的程序；所述处理器执行所述存储器存储的程序时，可以实现海洋监测图像的全景分割。

本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有如第一方面所述搭建方法所搭建的全景分割模型的计算机执行程序，所述计算机执行程序被处理器执行时，可以实现海洋监测图像的全景分割。

有益效果：本发明提供了一种新的无人机进行海洋监测的方法，并且设计了一种更健壮的网络大大提高了无人机海洋图像的分割精度，助力了人们的海上巡检和海洋环境检测，传统的ResNet网络都是用来做的语义分割，本发明首次将其进行改进应用于图像全景分割，并应用于无人机监测海洋图像领域；解决了无人机海洋图像的多态和大范围，在全景分割中可能会丢失许多小对象的问题，提高了海洋监测数据的应用水平。其中，Resnet50中使用了可变卷积，这意味着卷积核为每个元素添加了额外的方向参数，以便在训练期间将卷积核扩展到更大的范围，提升了卷积的形变建模能力，提升无人机海洋图像的训练效果；同时，拉普拉斯算子边界增强来获得融合到特征图中的边界信息，我们可以从海洋图像中尽可能多的挖掘到信息，提高图像的对比度，对比度提高可以增加图像感官度、锐化，让看起来有点模糊的图像更清晰，以突出感兴趣的区域，大大提升海洋图像物体间纹理形状分割准确性；注意力模块CBAM可以选择聚焦位置，使无人机海洋图像的每部分都更具分辨性的特征表示，使物体更加独特，大大减少了错误的目标分割，提升了分割识别的精度。

附图说明

图1为本发明中全景分割模型PanopticUAV模型的结构示意图。

图2为本发明中所使用的ResNet50网络结构示意图。

图3为本发明中卷积模块和标识模块结构示意图。

图4为本发明CBAM注意力模块的总体结构示意图。

图5为本发明无人机海洋监测用图像全景分割设备的简易结构示意图。

具体实施方式

下面结合具体实施例对发明进行进一步说明。

实施例1：

从无人机海洋图像识别使用的模型上来看，全景图分割的方法可以以深度学习框架设计分为三种形式：自上而下、自下而上和相结合。

最先进的方法从自顶向下的角度解决全景分割问题。PanopticFPN使用掩码R-CNNs提取重叠实例，然后添加一个语义分割分支。使用一些后处理方法来解决掩码的重叠问题，并将语义分割和实例分割的结果进行融合。语义和实例分割结果会重叠，需要进行后处理。这样两阶段方法会通常较慢。UPSNet在PanopticFPN的末尾实现了一个全景头，以更好地整合东西分支。

相反，自下而上的方法在语义分割方法中添加了一个实例分割分支。DeeperLab提出了一种单次、自底向上的方法来进行完整的图像分析。一种完全卷积方法提取特征，用于实例分割和语义分割。有一个融合过程，融合语义和实例信息。由于实例信息与类别无关，因此通过投票选择掩码对应的类别。PanopticDeepLab使用具有语义分段和实例分段的编码器主干网络，并将空卷积添加到主干网络的最后一个模块，以获得更密集的特征图。采用双ASPP双解码器结构进行特征融合，最后将语义分割结果和实例分割结果进行融合，生成最终的分割结果。这些方法在保持精度的同时，速度更快。

PanopticFCN是一种结合的处理方法，可以实现精确的端到端全景分割。DETR应用于计算机视觉任务，获得了良好的全景分割结果。MaskFormer将全景分割视为一项掩码分类任务，该任务采用变压器解码器模块来实现掩码预测。

为了实现无人机海洋图像的全景分割，我们首先提出了一种无人机海洋监测用图像全景分割模型的搭建方法，包括以下步骤：

一、获取高精度图像数据

1.图像采集

我们使用的海洋图像的数据均来自无人机拍摄。目前无人机平台大多搭载高清的云台相机，采集的图像分辨率高于自然场景，且图像中存在大量的小目标。虽然最近的检测器在COCO等大型数据集上取得了非常高的精度，但在无人机高分辨率的图像的检测任务中检测精度明显降低。无人机图像中物体尺寸相对于自然场景图像中的物体更小，特别是经过检测器不断下采样之后，最后只有几个像素甚至没有像素来表示物体的特征，这使得传统的检测器难以取得理想的效果。其中一个直觉的解决方法是增大检测器推理的图像尺寸，使物体下采样之后不会太小，但必然会增大模型的计算量，影响模型的推理性能。因此，本发明选择 640×640 的图像尺寸作为模型输入尺寸作为模型精度和性能的平衡。

本发明使用的无人机是大疆经纬 Matrice 210v2，简称M210v2，M210v2 是一款行业应用无人机平台。在空中作业能力方面，M210v2的IP防护等级达到了 IP43，机身可靠耐用，同时配备智能飞行电池（TB557660mAh22.8 V），保证其续航能力。在算法实验应用方面，M210v2 具有设计紧密、扩展灵活的特点，配备有丰富的接口用于扩展并与计算设备连接，同时下置双云台使其可以搭载性能出色的云台相机。M210v2 兼容大疆为开发者所提供的OnboardSDK，能够使开发者根据需求进行二次开发工作。计算设备选用妙算Manifold 2G。妙算 Manifold 2G 是一款专为智能机器打造的高性能机载计算机，具备卓越的处理能力和响应速度，扩展灵活，适配于 M210v2 无人机平台和飞控系统。妙算 Manifold 2G 搭载处理器为 NIVIDIA Jetson TX2，用于物体识别、图像处理等任务。

2.图像增强

无人机海洋图像具有视野大，视角高等特点，因此存在着众多小目标聚集现象，这给海洋图像的检测带来了极大的挑战。因为小目标特征少，卷积神经网络在特征提取时获取的特征就少，检测结果不准确，误检或漏检现象就多，这极大的降低了检测精度，对于实际业务应用中并不能满足需求。海洋生物种类繁多，结构复杂，纹理及形状特征是多异的。这对海洋图像检测模型的要求便会非常高，现有的大多数全景分割方法都是针对现实场景的，将这些方法直接运用于海洋图像上，便会造成许多小目标丢失的问题。再就是无人机拍摄角度多变，因此遮挡问题较多。这些无人机海洋图像的特定特点，都给用于无人机海洋图像的检测算法带来了新的挑战。我们采用图像增强来进一步增强海洋图像的特点。

我们采用如下方法相结合来对图像进一步处理：水平翻转、竖直翻转、随机旋转角度、随机水平平移、随机竖直平移、随机错切变换、随机放大、颜色抖动（改变图片的颜色，通过对颜色通道的数值偏移，改变图片的整体的颜色）、重定尺度（对图片的每个像素值均乘上这个放缩因子，这个操作在所有其它变换操作之前执行，在一些模型当中，直接输入原图的像素值可能会落入激活函数的饱和区，因此设置放缩因子为1/255，把像素值放缩到0和1之间有利于模型的收敛，避免神经元饱和）、填充模式（当对图片进行平移、放缩、错切等操作时，图片中会出现一些缺失的地方，就由fill_mode中的参数确定）。

3.数据集制作

我们收集并制作了无人机海洋图像数据集UAV-OUC-SEG。一共有813张图像，609张在训练集，103张在验证集，101张在测试集。我们对训练数据的图像进行标注。全景分割的标注包括图像语义分割的每个像素点的语义类别和实例分割的每个实例物体包含的像素区域。共有18个类别。这些实例分割的东西分为7类：人、自行车、汽车、消防栓、垃圾桶、轮椅和船。语义分割有11类：樱花、道路、人行道、植被、建筑、浒苔、海洋、天空、陆地、石油和海藻。数据集包括校园、浒苔、漏油和无人机场景下的海草，这对海洋环境监测尤为重要。我们对训练数据的图像进行标注。

二、创建全景分割模型PanopticUAV

为了满足实际场景中的应用，我们针对无人机海洋图像的特点，设计了一种对无人机拍摄的海洋图像精确识别的全景分割模型PanopticUAV，保证检测算法的精度。

1.PanopticUAV模型结构概述

本发明基于ResNet50的卷积神经网络框架，提出了一种用于无人机海洋图像识别的全景分割模型PanopticUAV，如图1所示。使用ResNet50作为主干网络，拉普拉斯算子边界增强来获得融合到特征图中的边界信息，并通过引入添加CBAM注意力模块用于更准确地解析图像。包括网络主干部分、特征融合部分、注意力机制部分和内核生成器部分；所述网络主干部分选取ResNet50作为主干网络，由于标准CNN提取特征的大小固定，在ResNet50中使用可变形卷积获得无人机海洋图像的较大类内变化和小目标的更灵活的感受野；所述特征融合部分使用FPN生成特征图，并使用拉普拉斯算子得到最上层特征图的边界掩模，为了提高边界分割精度；所述注意力机制部分使用CBAM注意力机制，包括通道注意力模块和空间注意力模块，组合特征中的上下文信息以获得高分辨率特征图；所述内核生成器部分包括内核生成器，内核生成器生成对象实例或物体类别的各个内核权重与编码特征相乘，以得到完整的分割结果。

首先，我们选择ResNet50作为提取特征的主干，ResNet50网络结构如图2所示，(3,224,224)指输入的通道数(channel)、高(height)和宽(width)，7×7指卷积核大小，64指卷积核的数量（即该卷积层输出的通道数）。其中卷积模块和标识模块结构如图3所示，卷积模块和用来改变网络的维度，标识模块用来加深网络。由于标准CNN（卷积神经网络）提取特征的大小固定，我们在ResNet50中使用可变形卷积获得无人机海洋图像的较大类内变化和小目标的更灵活的感受野。其次，由于场景复杂多样，分割结果具有不精确的边界信息，我们使用FPN融合特征P2、P3、P4和P5。然后，利用拉普拉斯算子从ground truth（真实标注信息）生成P5边界掩模，并与P5特征图合并，以提高边界分割精度。然后，我们使用CBAM注意力机制来组合P2、P3、P4和P5特征中的上下文信息。最后，我们从AP2、AP3、AP4和AP5获得高分辨率特征图。然后通过卷积生成编码特征。此外，内核生成器生成对象实例或物体类别的各个内核权重。核权重与编码特征相乘，得到完整的分割结果。

2.PanopticUAV模型组成

（1）使用可变卷积的ResNet50网络

传统的ResNet网络都是用来做的语义分割，本发明首次将其进行改进应用于图像全景分割，并应用于无人机监测海洋图像领域；

ResNet50网络中使用传统卷积，它将特征图分成一个个与卷积核大小相同的部分，然后进行卷积操作，每部分在特征图上的位置都是固定的。这样，对于无人机海洋图像这样具有形态丰富的物体和许多小目标，限制了感受野的形状，卷积的效果非常不好。可变卷积在感受野中引入了偏移量，而且这偏移量是可学习的，使得感受野不再是死板的方形，而是与海洋图像中物体的实际形状贴近，这样之后的卷积区域便始终覆盖在物体形状周围，无论物体如何形变，加入可学习的偏移量即可完成。可变卷积可以较好的解决无人机海洋图像中物体形态的各异性，

Resnet50中使用了可变卷积，这意味着卷积核为每个元素添加了额外的方向参数，以便在训练期间将卷积核扩展到更大的范围，提升了卷积的形变建模能力，提升无人机海洋图像的训练效果。在可变卷积中，可变卷积和池化操作都是二维的，并且在同一信道上执行。常规的卷积运算可分为两个主要部分：（1）使用网格R对输入特征图进行采样；（2）执行加权运算，其中R给出感受野的大小。

对于输出特征图上的位置P0，通过以下公式进行计算：

也就是计算P0的输出值，R就是3×3区域，X是输入,W是输入对应的权重,Pn是P0卷积核范围内的每个偏移量。

可变形卷积不同于常规卷积，在其基础上为每个点引入了一个偏移量，偏移量是由输入特征图与另一个卷积生成的，通常是小数。感受野的大小通过添加偏移量而改变。如下式所示：

采样位置现在变成不规则形状，由于加入偏移量∆Pn后的位置非整数，并不对应feature map上实际存在的像素点，因此需要使用插值来得到偏移后的像素值，通常可采用双线性插值，用公式表示如下：我们通过以下方程的双线性插值实现：

上述公式的意义就是说将插值点位置的像素值设为其4领域像素点的加权和，领域4个点是离其最近的在特征图上实际存在的像素点，每个点的权重则根据它与插值点横、纵坐标的距离来设置。

（2）边界掩膜增强

由于无人机海洋图像复杂多样，边界不准确，因此通过边界掩膜增强，我们可以从海洋图像中尽可能多的挖掘到信息，提高图像的对比度，对比度提高可以增加图像感官度、锐化，让看起来有点模糊的图像更清晰，以突出感兴趣的区域，大大提升海洋图像物体间纹理形状分割准确性。

通过拉普拉斯算子方程从ground truth（真实标注信息）中获得边界掩模。拉普拉斯算子方程为：

从主干网和FPN中，我们获得了特征图P2、P3、P4和P5。然后，我们用特征图计算边界损失，以合并边界信息。P2、P3、P4和P5分别使用边界掩码计算边界损失。实验表明，当边界信息与P5特征图融合时，效果更好。受BisenetV2的启发，拉普拉斯算子内核L生成一个边界掩码。我们选择三个不同的步长，2、4和8，来获得不同比例的掩模图，然后对掩模图进行上采样，使其大小一致，并用1×1卷积进行融合。P5通过3×3卷积、BatchNorm（参数归一化）、ReLU激活函数和3×3卷积进行采样。通过双线性插值将形状调整为与边界遮罩相同的大小。最后，我们通过学习P5和边界掩码，采用二元交叉熵和Dice损失联合优化边界掩码。方程式如下：

L_boundary(p_d,g_d) = L_dice(p_d,g_d) + L_bce(p_d, g_d)

（3）注意力模块

无人机海洋图像中的目标具有丰富的形态多样性，故传统模型会使得一些目标被错误分割。因此，我们需要结合上下文信息来降低错误率。注意力模块可以选择聚焦位置，使无人机海洋图像的每部分都更具分辨性的特征表示，使物体更加独特，大大减少了错误的目标分割，提升了分割识别的精度。

我们使用CBAM网络进一步融合特征，获得了不同的特征图，AP2、AP3、AP4和AP5。图4显示了CBAM（Convolutional Block Attention Module,卷积块注意力模块）的总体结构。

CBAM模块的由输入、通道注意力模块、空间注意力模块和输出组成。输入特征F₀∈R^C*H*W，然后进入通道注意力模块一维卷积M_C∈R^C*1*1，将卷积结果乘原图，将输出结果作为输入，进行空间注意力模块的二维卷积M_S∈R^1*H*W，再将输出结果与原图相乘。然后，输出特征被送到多层感知机MLP，

在通道注意力模块中，输入特征F₀根据宽度和高度进行全局最大池和全局平均池。然后，输出特性被送到MLP（Multilayer Perceptron,多层感知机），经过加和操作，再经过Sigmoid激活操作，与输入特征F0元素相乘，以通过空间注意力模块生成所需的特征F_c。方程式为：

M_c(F)=F₀×(σ(MLP(AvgPool(F₀))+MLP(MaxPool(F₀))))

空间注意力模块将特征F_c作为输入特征。首先，基于通道执行全局最大池和全局平均池，然后基于通道联系这两个结果。Sigmoid激活函数生成空间注意特征，然后将这些特征乘以输入特征F_c，得到最终的特征F_s。方程式为：

Ms(F)=F_c×(σ(f^7×7([AvgPool(Fc); MaxPool(Fc)])))

三、训练全景分割模型

本发明的训练和评估在GPU 3090 X4中实现。软件版本包括python 3.7、PyTorch1.8.0、CUDN 11.1和numpy 1.21.2。具有可变形卷积策略的Resnet50用作主干，在ImageNet图像数据集中执行预训练权重初始化，FPN用于融合这些特征，使用SGD优化器进行训练；初始学习率设置为0.001，采用多项式学习率策略，其中当前学习率等于初始学习率乘以（1-(iter/(max-iter))^0.9），iter为每一次迭代数，max-iter是最大迭代次数为90000，动量为0.9，重量衰减为0.0001，以训练模型。

将标注好的高精度图像训练数据，输入全景分割模型PanopticUAV中进行运算，得到训练成熟的全景分割模型PanopticUAV。

四、测试全景分割模型

我们使用全景分割评估度量PQ来评估模型。将高精度图像测试数据，输入训练成熟的全景分割模型PanopticUAV，得到实例分割图像数据、语义分割图像数据和评估测量指标PQ，最终输出全景分割图像。其中PQ指的是Panoptic Quality，即全景（分割）质量。PQ的计算公式如下：

TP为被模型预测为正的正样本；FP为被模型预测为正的负样本；FN为被模型预测为负的正样本。

本发明做了PanopticUAV的主要对比实验，如表1所示：

表1 比对实验

我们将本发明的方法与其他全景分割方法UPSNet、PanopticFPN和PanopticFCN进行了比较。我们所提出的方法在自上而下的流中以3.13%的PQ超过UPSNet方法。与另一种自上而下的方法相比，我们的方法比PanopticFPN提高了4.76%的PQ。最后，我们的PanopticUAV优于PanopticFCN 2.91%的PQ。

完成模型搭建后，我们又提供了一种无人机海洋监测用图像全景分割方法，使用上述所搭建的模型，并包括以下过程：通过无人机拍摄获取海洋图像数据；将图像数据输入到如上所述的搭建方法所搭建的全景分割模型PanopticUAV中；通过运算得到实例分割图像数据和语义分割图像数据，最终输出全景分割图像。

实施例2：

如图5所示，本发明同时提供了一种无人机海洋监测用图像全景分割设备，所述设备包括至少一个处理器和至少一个存储器，所述处理器和存储器相耦合；所述存储器中存储有如实施例1所述搭建方法所搭建的全景分割模型的程序；所述处理器执行所述存储器存储的程序时，可以实现海洋监测图像的全景分割。其中内部总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(XtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。其中存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。设备可以被提供为终端、服务器或其它形态的设备。

图5是为示例性示出的一种设备的框图。设备可以包括以下一个或多个组件：处理组件，存储器，电源组件，多媒体组件，音频组件，输入/输出(I/O)的接口，传感器组件，以及通信组件。处理组件通常控制电子设备的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件可以包括一个或多个处理器来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件可以包括一个或多个模块，便于处理组件和其他组件之间的交互。例如，处理组件可以包括多媒体模块，以方便多媒体组件和处理组件之间的交互。

存储器被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件为电子设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。多媒体组件包括在所述电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。 I/O接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件包括一个或多个传感器，用于为电子设备提供各个方面的状态评估。例如，传感器组件可以检测到电子设备的打开/关闭状态，组件的相对定位，例如所述组件为电子设备的显示器和小键盘，传感器组件还可以检测电子设备或电子设备一个组件的位置改变，用户与电子设备接触的存在或不存在，电子设备方位或加速/减速和电子设备的温度变化。传感器组件可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

实施例3：

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有如实施例1所述搭建方法所搭建的全景分割模型的计算机执行程序，所述计算机执行程序被处理器执行时，可以实现海洋监测图像的全景分割。

具体地，可以提供配有可读存储介质的系统、装置或设备，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘（如 CD-ROM、CD-R、CD-RW、DVD- 20 ROM、DVD-RAM、DVD-RW、DVD-RW）、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

应理解存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于终端或服务器中。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种无人机海洋监测用图像全景分割模型的搭建方法，其特征在于：包括以下步骤：

步骤1，获取无人机拍摄的高精度海洋图像数据；选择可以使模型精度和性能平衡的640×640的图像尺寸作为模型输入尺寸；

步骤3，基于ResNet50的卷积神经网络框架，构建用于无人机海洋图像识别的全景分割模型PanopticUAV模型，所述PanopticUAV模型将ResNet50的传统卷积替换为可变卷积，即在传统卷积的基础上为卷积核中的每个元素引入了一个偏移量，偏移量由输入特征图与另一个卷积生成；使用可变卷积的ResNet50作为主干网络，通过拉普拉斯算子边界增强来获得融合到特征图中的边界信息，并通过引入添加CBAM注意力模块用于更准确地解析图像；用步骤2中的训练集对构建的PanopticUAV模型进行训练；通过拉普拉斯算子边界增强来获得融合到特征图中的边界信息具体为：

通过拉普拉斯算子方程从真实标注信息ground truth中获得边界掩模，拉普拉斯算子方程为：

L_boundary(p_d,g_d) = L_dice(p_d,g_d) + L_bce(p_d,g_d)

其中，p_d表示预测的p₅特征，g_d表示相应的边界掩码，L_dice表示Dice损失，L_bce表示二进制交叉熵损失；

2.如权利要求1所述的一种无人机海洋监测用图像全景分割模型的搭建方法，其特征在于，所述步骤2中的图像增强具体为：水平翻转、竖直翻转、随机旋转角度、随机水平平移、随机竖直平移、随机错切变换、随机放大、颜色抖动、重定尺度和填充模式。

3.如权利要求1所述的一种无人机海洋监测用图像全景分割模型的搭建方法，其特征在于，所述步骤3中构建的全景分割模型PanopticUAV模型的具体结构为：包括网络主干部分、特征融合部分、注意力机制部分和内核生成器部分；

4.如权利要求1所述的一种无人机海洋监测用图像全景分割模型的搭建方法，其特征在于，所述步骤3中引入添加的CBAM注意力模块具体为：

所述CBAM注意力模块由输入、通道注意力模块、空间注意力模块和输出组成；输入特征F₀∈R^C*H*W，然后进入通道注意力模块一维卷积M_C∈R^C*1*1，将卷积结果乘原图，将输出结果作为输入，进行空间注意力模块的二维卷积M_S∈R^1*H*W，再将输出结果与原图相乘；

5.如权利要求1所述的一种无人机海洋监测用图像全景分割模型的搭建方法，其特征在于，所述步骤3中对构建的PanopticUAV模型进行训练的具体过程为：

6.一种无人机海洋监测用图像全景分割方法，其特征在于，包括以下过程：

通过无人机拍摄获取海洋图像数据；

将图像数据输入到如权利要求1至5任意一项所述的搭建方法所搭建的全景分割模型PanopticUAV中；

7.一种无人机海洋监测用图像全景分割设备，其特征在于：所述设备包括至少一个处理器和至少一个存储器；所述存储器中存储有如权利要求1至5任意一项所述搭建方法所搭建的全景分割模型的程序；所述处理器执行所述存储器存储的程序时，可以实现海洋监测图像的全景分割。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有如权利要求1至5任意一项所述搭建方法所搭建的全景分割模型的计算机执行程序，所述计算机执行程序被处理器执行时，可以实现海洋监测图像的全景分割。