CN115797929A

CN115797929A - 基于双注意力机制的小型农田图像分割方法、装置

Info

Publication number: CN115797929A
Application number: CN202211150965.XA
Authority: CN
Inventors: 赵祚喜; 曹阳阳; 林旭; 黄渊; 项波瑞; 杨厚城; 罗舒元
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2023-03-14

Abstract

本申请涉及一种基于双注意力机制的小型农田图像分割方法、装置。所述方法包括：获取待分割的农田图像；对收集的待分割农田图像进行统一尺寸大小裁剪；将所述统一尺寸的待分割农田图像输入改造后的Mask R‑CNN模型，得到农田图像的实例分割结果；其中，采用改造后的Mask R‑CNN模型中主干结构和双注意力机制特征金字塔进行图像特征提取，再通过区域建议网络生成若干感兴趣区域，再通过RoIAlign将感兴趣区域映射生成固定尺寸的特征图，再通过Mask R‑CNN模型头部的三个分支进行预测，得到对象类别、细化后的边界框定位和实例分割结果。采用本方法能够实现遥感图像中小型农田的精准识别和实例分割。

Description

基于双注意力机制的小型农田图像分割方法、装置

技术领域

本申请涉及深度学习及图像处理领域，特别是涉及一种基于双注意力机制的小型农田图像分割方法、装置。

背景技术

据统计，亚洲和撒哈拉以南非洲地区生产的粮食中有80％来自小型农田，世界上大约90％的农民是小农，拥有不到两公顷的土地，小型农田在维护世界粮食安全中发挥关键作用。因此，准确描绘和检测小型农田的空间分布在增加粮食产量和确保世界粮食安全方面至关重要。

随着图像检测及分割技术的发展，出现了农田遥感图像实例分割装置及方法，农田遥感图像的实例分割可分为人工调查、智能化分割两种方式，人工调查非常耗时并且低效，易出现人为错误。因此，常采用智能化方式进行农田遥感图像实例分割。智能化方式中，一般使用深度学习模型，如Mask R-CNN模型及其经过部分改良后的模型进行图像实例分割，但目前这类方法仅针对较大型农田遥感图像。遥感图像中大型农田所对应的区域面积大，而小型农田对应的区域面积小。深度学习模型进行特征提取的过程中容易导致特征信息的损失，由此导致面积小的小型农田在深度学习模型所提取的特征中消失，进而导致深度学习对小型农田的实例分割效果不佳。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高农田分割效果的基于双注意力机制的小型农田图像分割方法、装置。

一种基于双注意力机制的小型农田图像分割方法，所述方法包括：

获取待分割的农田图像；

对收集的待分割农田图像按照统一尺寸大小进行裁剪，获得统一尺寸的待分割农田图像；

将所述统一尺寸的待分割农田图像输入改造后的Mask R-CNN模型，得到农田图像的实例分割结果；其中，采用改造后的Mask R-CNN模型中主干结构(Backbone)和双注意力机制特征金字塔(Dual Attention Feature Pyramid Network,DAFPN)进行图像特征提取，再通过区域建议网络(Region Proposal Network,RPN)生成若干感兴趣区域(Region ofInterest,ROI)，再通过RoIAlign将感兴趣区域映射产生固定尺寸的特征图，再通过改造后的Mask R-CNN模型头部的三个分支分别进行预测，得到对象类别、细化后的边界框定位和分割掩码(Mask)，其中分割掩码即为农田图像实例分割结果。

在其中一个实施例中，将所述统一尺寸的待分割农田图像输入改造后的Mask R-CNN模型，得到农田图像的实例分割结果，包括：

将待分割的农田图像统一裁剪后，输入改造后的Mask R-CNN模型的主干结构和双注意力机制特征金字塔提取特征图；

将特征图输入区域建议网络，区域建议网络在特征图上使用滑动窗口方法寻找可能存在目标的区域，从而得到感兴趣区域；

将感兴趣区域输入RoIAlign，RoIAlign通过双线性插值算法将特征中任意大小的感兴趣区域映射产生固定尺寸的特征图；

固定尺寸的特征图通过改造后的Mask R-CNN模型头部的三个分支进行预测，得到对象类别、细化后的边界框定位和实例分割结果。

在其中一个实施例中，所述用于改造Mask R-CNN模型的双注意力机制特征金字塔包括空间注意力模块和通道注意力模块，空间注意力模块用于强调空间尺度的特征，通道注意力模块用于强调通道尺度的特征：

空间注意力模块运行过程表达式如下：

其中，C_low、M_high为给定的两个相邻特征图；

为连接操作；

为通道压缩的1×1卷积层，

为7×7卷积层；upsample为上采样操作；

为平均池化、最大池化操作后得到的过程量，且

σ为sigmoid函数；

为平均池化操作；

为最大池化操作；Attention^s为空间注意力系数、M_i为乘以空间注意力系数后的特征图，s为空间注意力，i为特征图编号，

为逐元素乘法；

通道注意力模块运行过程表达式如下：

其中，N_low、M_high为给定的两个相邻特征图；

表示连接操作；

表示压缩通道的1×1卷积层，

表示3×3卷积层且步距为2；

表示全连接层；

为平均池化、最大池化操作后得到的过程量；σ表示sigmoid函数；Attention^c为通道注意力系数；N_i为乘以通道注意力系数后的特征图；c为空间注意力，i为特征图编号。

在其中一个实施例中，采集农田图像并裁剪，构建模型训练数据集；将模型训练数据集输入初始改造后的Mask R-CNN模型，对初始改造后的Mask R-CNN模型进行训练，得到训练好的改造后的Mask R-CNN模型。

其中，改造后的Mask R-CNN模型主干结构为ResNet50，由5个阶段组成，对应5个不同尺度的特征图{C₁,C₂,C₃,C₄,C₅}，特征图{C₂,C₃,C₄,C₅}对应的步长为{4,8,16,32}像素；特征图{C₂,C₃,C₄,C₅}用于建立双注意力机制特征金字塔网络的特征金字塔，分别得到新的特征{P₂,P₃,P₄,P₅}，改造后的Mask R-CNN模型采用双注意力机制特征金字塔网络替换原始模型中的特征金字塔网络。

在其中一个实施例中，改造后的Mask R-CNN模型的损失函数为组合损失函数，包括候选框的分类损失、位置回归损失和目标掩码损失，损失计算公式如下：

L＝L_cls+L_bbox+L_mask

L_cls表示候选框的分类损失，计算公式如下：

其中，i为感兴趣区域的序号，p_i是序号为i的感兴趣区域被预测为正样本的概率，N_cls表示归一化参数，

表示感兴趣区域为负样本，

表示感兴趣区域为正样本；

L_bbox表示位置回归损失，计算公式如下：

其中，N_reg为归一化参数，t_i是预测的偏移参数，

是实际偏移参数，

和

分别代表感兴趣区域为正样本和负样本，R是Smooth_L1损失，Smooth_L1表示平滑后的L₁ loss；当X的绝对值小于1时，使用的是L₂ loss，Smooth_L1分段函数上半段；当X的绝对值大于或等于1时，使用的是L₁ loss的平移，Smooth_L1分段函数下半段；X表示预测框和真实框之间的数值差异；

L_mask表示目标掩码损失，计算公式如下：

其中，m表示特征图的尺寸，k表示特征图的数量，v表示y_v的对应坐标位置(i,j)，y_v为目标真实标签值，

是改造后的Mask R-CNN模型中的预测值。

在其中一个实施例中，待分割的农田图像为超高分辨率的农田遥感卫星图像；

对收集的待分割农田图像按照统一尺寸大小进行裁剪，获得统一尺寸的待分割农田图像，包括：对超高分辨率的农田遥感卫星图像按照统一尺寸大小进行裁剪，获得统一尺寸的待分割农田图像；其中，统一尺寸的待分割农田图像的尺寸为1024×1024像素大小。

在其中一个实施例中，所述改造后的Mask R-CNN模型包括：主干结构和双注意力机制特征金字塔，用于对整个图像进行特征提取，生成不同尺度的特征；区域建议网络，用于生成感兴趣区域；RoIAlign，使用双线性插值将特征中任意大小的感兴趣空间区域映射到固定尺寸的特征图上；改造后Mask R-CNN模型头部的三个分支，用于执行预测，得到对象类别、边界框定位和实例分割结果。

一种基于双注意力机制的小型农田图像分割装置，所述装置包括：

待分割图像获取模块，用于获取待分割的农田图像；

待分割图像预处理模块，对收集的待分割农田图像按照统一尺寸大小进行裁剪，获得统一尺寸的待分割农田图像；

目标计算模块，用于将所述统一尺寸的待分割农田图像输入改造后的Mask R-CNN模型，得到农田图像的实例分割结果；其中，采用改造后的Mask R-CNN模型中主干结构和双注意力机制特征金字塔进行图像特征提取，再通过区域建议网络生成若干感兴趣区域，再通过RoIAlign将感兴趣区域映射产生固定尺寸的特征图，再通过改造后的Mask R-CNN模型头部的三个分支分别进行预测，得到对象类别、细化后的边界框定位和分割掩码，其中分割掩码即为农田图像实例分割结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待分割的农田图像；

将所述统一尺寸的待分割农田图像输入改造后的Mask R-CNN模型，得到农田图像的实例分割结果；其中，采用改造后的Mask R-CNN模型中主干结构和双注意力机制特征金字塔进行图像特征提取，再通过区域建议网络生成若干感兴趣区域，再通过RoIAlign将感兴趣区域映射产生固定尺寸的特征图，再通过改造后的Mask R-CNN模型头部的三个分支分别进行预测，得到对象类别、细化后的边界框定位和农田图像实例分割结果。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待分割的农田图像；

上述基于双注意力机制的小型农田图像分割方法、装置、计算机设备和存储介质，通过改造后的Mask R-CNN模型，相比于其它的网络模型，采用了双注意力机制特征金字塔，具有更好的特征提取效果，从而提高分割准确性，同时实现小型农田图像的实例分割，并且采用改造后的Mask R-CNN模型中主干结构和双注意力机制特征金字塔进行图像特征提取，再通过区域建议网络生成若干感兴趣区域，再通过RoIAlign将感兴趣区域映射产生固定尺寸的特征图，再通过改造后的Mask R-CNN模型头部的三个分支分别进行预测，可以准确获得对象类别、细化后的边界框定位和农田图像实例分割结果，本申请这种处理方式，能够提高对不同形状农田的检测识别率，提高农田实例分割速度，在不同作物的环境下进行农田特征学习，增强了农田分割模型的鲁棒性。

附图说明

图1为一个实施例中基于双注意力机制的小型农田图像分割方法的流程示意图；

图2为一个实施例中改造后的Mask R-CNN模型的结构示意图；

图3为一个实施例中双注意力特征金字塔网络结构示意图；

图4为一个实施例中基于双注意力机制的小型农田图像分割装置的结构框图；

图5为空间注意力模块结构示意图；

图6为通道注意力模块结构示意图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于双注意力机制的小型农田图像分割方法，包括以下步骤：

S110，获取待分割的农田图像；

其中，待分割的农田图像通过卫星摄像头获取，通过摄像头获取的待分割的农田图像发送至远程服务器或者后台服务器进行处理；

S120，对收集的待分割农田图像按照统一尺寸大小进行裁剪，获得统一尺寸的待分割农田图像；

其中，对原始获取的超高分辨率的遥感卫星图像按照统一尺寸大小进行裁剪，将图像统一裁剪为1024×1024像素大小的尺寸；

S130，将所述统一尺寸的待分割农田图像输入改造后的Mask R-CNN模型，得到农田图像的实例分割结果；其中，采用改造后的Mask R-CNN模型中主干结构和双注意力机制特征金字塔进行图像特征提取，再通过区域建议网络生成若干感兴趣区域，再通过RoIAlign将感兴趣区域映射产生固定尺寸的特征图，再通过改造后的Mask R-CNN模型头部的三个分支分别进行预测，得到对象类别、细化后的边界框定位和农田图像实例分割结果。

其中，远程服务器或者后台服务器中部署了改造后的Mask R-CNN模型，通过改造后的Mask R-CNN模型对待分割的农田图像进行处理，得到对象类别、边界框定位和实例分割结果。在本例中，对象类别为农田或非农田类别，边界框定位为图像中每一块农田的外接矩形，实例分割结果为图像中被预测为农田的像素块。

上述基于双注意力机制的小型农田图像分割方法中，通过改造后的Mask R-CNN模型，相比于其它的网络模型，采用了双注意力机制特征金字塔，具有更好的特征提取效果，从而提高分割准确性，同时实现小型农田图像的实例分割，并且采用改造后的Mask R-CNN模型中主干结构和双注意力机制特征金字塔进行图像特征提取，再通过区域建议网络生成若干感兴趣区域，再通过RoIAlign将感兴趣区域映射产生固定尺寸的特征图，再通过改造后的Mask R-CNN模型头部的三个分支分别进行预测，可以准确获得对象类别、细化后的边界框定位和农田图像实例分割结果，本申请这种处理方式，能够提高对不同形状农田的检测识别率，提高农田实例分割速度，在不同作物的环境下进行农田特征学习，增强了农田分割模型的鲁棒性。

在其中一个实施例中，如图2所示，图中backbone为主干结构，DAFPN为双注意力机制特征金字塔网络，Feature Maps为特征图，RPN为区域建议网络，conv为卷积操作，softmax为激活函数，bbox reg为边界框回归，Proposal为感兴趣区域，ROIAlign为感兴趣区域对齐，three branches为三个分支，head为头部，Fully Convolution Nets为全卷积神经网络，Mask为分割掩码，FC layer为全连接层，coordinates为边界框定位，category为分类类别。将所述统一尺寸的待分割农田图像输入改造后的Mask R-CNN模型，得到农田图像的实例分割结果，包括：将待分割的超高分辨农田图像统一裁剪为1024×1024的尺寸后，输入改造后的Mask R-CNN模型的主干结构和双注意力机制特征金字塔提取特征图；将特征图输入区域建议网络，区域建议网络在特征图上使用滑动窗口方法寻找可能存在目标的区域，从而得到感兴趣区域；将感兴趣区域输入RoIAlign，RoIAlign通过双线性插值算法将特征中任意大小的感兴趣区域映射产生固定尺寸的特征图；固定尺寸的特征图通过改造后的Mask R-CNN模型头部的三个分支进行预测，得到对象类别、细化后的边界框定位和实例分割结果。

其中，在现有Mask R-CNN模型的特征金字塔网络中设计了两个注意力模块——空间注意力模块和通道注意力模块，形成双注意力机制特征金字塔网络，双注意力机制特征金字塔网络可以很容易地插入到现有的特征金字塔网络结构中，用于增强训练时的特征学习。

在其中一个实施例中，如图3所示，所述双注意力机制特征金字塔包括空间注意力模块和通道注意力模块，空间注意力模块用于强调空间尺度的特征，通道注意力模块用于强调通道尺度的特征：

空间注意力模块运行过程表达式如下：

其中，C_low、M_high为给定的两个相邻特征图；

为连接操作；

为通道压缩的1×1卷积层，

为7×7卷积层；upsample为上采样操作；

为平均池化、最大池化操作后得到的过程量，且

σ为sigmoid函数；

为平均池化操作；

为逐元素乘法；

通道注意力模块运行过程表达式如下：

其中，N_low、M_high为给定的两个相邻特征图；

表示连接操作；

表示压缩通道的1×1卷积层，

表示3×3卷积层且步距为2；

表示全连接层；

在其中一个实施例中，空间注意力模块结构如图5所示，图中C_low、M_high为给定的两个相邻特征图，conv为卷积操作，upsample为上采样，Global Average Pool为全局平均池化，Global Max Pool为全局最大池化，Sigmoid为激活函数，Spital weight为空间权重，Concatenation为拼接操作，Pixel-Wise Multiplication为逐元素。将特征图M_high用1×1的卷积层进行压缩以降低计算成本，压缩后的特征图M_high通过上采样到与C_low相同大小，再将M_high与C_low进行连接，并对连接后的特征图分别进行平均池化和最大池化操作，得到两个表示通道中的平均池化特征和最大池化特征的2D图。

在其中一个实施例中，通道注意力模块结构如图6所示，图中N_low、M_high为给定的两个相邻特征图，conv为卷积操作，Stride为步长，Global Average Pool为全局平均池化，Global Max Pool为全局最大池化，FC layer为全连接层，Sigmoid为激活函数，Channelweight为空间权重，Concatenation为拼接操作，Pixel-Wise Sum为逐元素加法，Pixel-Wise Multiplication为逐元素。将特征图M_high用1×1的卷积层进行压缩以降低计算成本，再使用3×3卷积层对特征图N_low进行下采样到与M_high同样尺寸，然后将M_high与N_low连接起来，并对连接后的特征图分别使用全局平均池化和全局最大池化聚合两个不同的空间上下文信息，生成两个不同的空间上下文描述符，两个描述符分别进入全连接层，并通过逐元素求和sigmoid函数得到通道权重，即通道注意力图，最后将通道注意力图乘以M_high得到特征图N_i。

在其中一个实施例中，基于双注意力机制的小型农田图像分割方法还包括：采集农田图像并裁剪，构建模型训练数据集；将模型训练数据集输入初始改造后的Mask R-CNN模型，对初始改造后的Mask R-CNN模型进行训练，得到训练好的改造后的Mask R-CNN模型；其中，改造后的Mask R-CNN模型主干结构为ResNet50，由5个阶段组成，对应5个不同尺度的特征图{C₁,C₂,C₃,C₄,C₅}，特征图{C₂,C₃,C₄,C₅}对应的步长为{4,8,16,32}像素；特征图{C₂,C₃,C₄,C₅}用于建立双注意力机制特征金字塔网络的特征金字塔，分别得到新的特征{P₂,P₃,P₄,P₅}，改造后的Mask R-CNN模型采用双注意力机制特征金字塔网络替换原始模型中的特征金字塔网络。

其中，构建训练模型所用的数据集时，将裁剪后的图像按照7:2:1的比例分为训练集、验证集和测试集。训练集用于训练模型参数，验证集用于训练时验证训练模型的性能，测试集用于完成训练后评估模型的性能。

其中，双注意力机制特征金字塔网络DAFPN的总体框架如图3所示，设计了两个注意力模块：空间注意力模块(SPA)和通道注意力模块(CHA)，采用空间注意力模块(SPA)和通道注意力模块(CHA)来优化不同的问题；其中，为了减少联合优化过程中两个模块之间的耦合，交替优化空间注意和通道融合。双注意力机制特征金字塔网络DAFPN，在特征金字塔网络(FPN)的最低级别之后扩展了一个自下而上的路径，然后将SPA嵌入到自上而下的路径中，将CHA嵌入到自下而上的路径中，采用了Pyramid Pooling Module(PPM)，因为它具有捕获上下文信息的强大能力，在具体的实现过程中，PPM的输出与最后一个FPN级别的输出具有相同的分辨率；如此，将PPM和骨干提取的最高级别特征连接在一起作为自上而下路径的输入。

其中，将模型训练数据集输入初始改造后的Mask R-CNN模型，对初始改造后的Mask R-CNN模型进行训练，得到训练好的改造后的Mask R-CNN模型，具体步骤包括：

S301，将模型训练数据按照批次输入改造后的Mask R-CNN模型中，并根据初始模型参数向前传播，得到前向传播结果；S302，利用标签真值与前向传播结果计算模型损失，并通过反向传播、梯度下降等算法更新模型参数；S303，不断重复S301和S302，直至模型损失达到要求或者模型损失在近10次迭代中不变，得到训练好的改造后的Mask R-CNN模型参数。

L＝L_cls+L_bbox+L_mask

L_cls表示候选框的分类损失，计算公式如下：

表示感兴趣区域为负样本，

表示感兴趣区域为正样本；

L_bbox表示位置回归损失，计算公式如下：

其中，N_reg为归一化参数，t_i是预测的偏移参数，

是实际偏移参数，

和

分别代表感兴趣区域为正样本和负样本，R是Smooth_L1损失，Smooth_L1表示平滑后的L₁loss；当X的绝对值小于1时，使用的是L₂ loss，Smooth_L1分段函数上半段；当X的绝对值大于或等于1时，使用的是L₁ loss的平移，Smooth_L1分段函数下半段；X表示预测框和真实框之间的数值差异。

L_mask表示目标掩码损失，计算公式如下：

其中，m表示特征图的尺寸，k表示特征图的数量，v表示y_v对应的坐标位置(i,j)，y_v为目标真实标签值，

是改造后的Mask R-CNN模型中的预测值。

在其中一个实施例中，待分割的农田图像为超高分辨率的农田遥感卫星图像；对收集的待分割农田图像按照统一尺寸大小进行裁剪，获得统一尺寸的待分割农田图像，包括：对超高分辨率的农田遥感卫星图像按照统一尺寸大小进行裁剪，获得统一尺寸的待分割农田图像；其中，统一尺寸的待分割农田图像的尺寸为1024×1024像素大小。

在其中一个实施例中，所述改造后的Mask R-CNN模型包括如下组成部分：主干结构和双注意力机制特征金字塔，用于对整个图像进行特征提取，生成不同尺度的特征；区域建议网络，用于生成感兴趣区域；RoIAlign，使用双线性插值将特征中任意大小的感兴趣空间区域映射到固定尺寸的特征图上；改造后Mask R-CNN模型头部的三个分支，用于执行预测，得到对象类别、边界框定位和实例分割结果。

在其中一个实施例中，采用金字塔池化模块捕获上下文信息，金字塔池化模块的输出与最后一个金字塔池化模块级别的输出具有相同的分辨率。在这种情况下，将金字塔池化模块和主干结构提取的最高级别特征连接在一起作为自上而下路径的输入。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种基于双注意力机制的小型农田图像分割装置，包括：待分割图像获取模块210、待分割图像预处理模块220和目标计算模块230，其中：

待分割图像获取模块210，用于获取待分割的农田图像。

待分割图像预处理模块220，用于对收集的待分割农田图像按照统一尺寸大小进行裁剪，获得统一尺寸的待分割农田图像。

目标计算模块230，用于将所述统一尺寸的待分割农田图像输入改造后的Mask R-CNN模型，得到农田图像的实例分割结果；其中，采用改造后的Mask R-CNN模型中主干结构和双注意力机制特征金字塔进行图像特征提取，再通过区域建议网络生成若干感兴趣区域，再通过RoIAlign将感兴趣区域映射产生固定尺寸的特征图，再通过改造后的Mask R-CNN模型头部的三个分支分别进行预测，得到对象类别、细化后的边界框定位和分割掩码，其中分割掩码即为农田图像实例分割结果。

在其中一个实施例中，所述目标计算模块230，包括：特征提取单元，用于将统一尺寸的待分割农田图像输入改造后的Mask R-CNN模型的主干结构和双注意力机制特征金字塔提取特征图；感兴趣区域提取单元，将特征图输入区域建议网络，区域建议网络在特征图上使用滑动窗口方法寻找可能存在目标的区域，从而得到感兴趣区域；特征对齐单元，将感兴趣区域输入RoIAlign，RoIAlign通过双线性插值算法将特征中任意大小的感兴趣区域映射产生固定尺寸的特征图；预测单元，固定尺寸的特征图通过改造后的Mask R-CNN模型头部的三个分支进行预测，得到对象类别、细化后的边界框定位和实例分割结果。

在其中一个实施例中，所述双注意力机制特征金字塔包括空间注意力模块和通道注意力模块，空间注意力模块用于强调空间尺度的特征，通道注意力模块用于强调通道尺度的特征：

空间注意力模块运行过程表达式如下：

其中，C_low、M_high为给定的两个相邻特征图；

为连接操作；

为通道压缩的1×1卷积层，

为7×7卷积层；upsample为上采样操作；

为平均池化、最大池化操作后得到的过程量，且

σ为sigmoid函数；

为平均池化操作；

为逐元素乘法；

通道注意力模块运行过程表达式如下：

其中，N_low、M_high为给定的两个相邻特征图；

表示连接操作；

表示压缩通道的1×1卷积层，

表示3×3卷积层且步距为2；

表示全连接层；

在其中一个实施例中，基于双注意力机制的小型农田图像分割装置，还包括：预处理模块，用于采集农田图像并裁剪至统一尺寸1024×1024像素，构建模型训练数据集；训练模块，用于将模型训练数据集输入改造后的Mask R-CNN模型，对改造后的Mask R-CNN模型进行训练，得到训练好的改造后Mask R-CNN模型；其中，所述改造后的Mask R-CNN模型采用双注意力机制特征金字塔网络替换原始Mask R-CNN模型中的特征金字塔网络，并且使双注意力机制特征金字塔网络简便地插入到原有的特征金字塔网络结构中，用于增强训练时的特征学习。

在其中一个实施例中，Mask R-CNN模型的改造过程包括：采集农田图像并裁剪，构建模型训练数据集；将模型训练数据集输入初始改造后的Mask R-CNN模型，对初始改造后的Mask R-CNN模型进行训练，得到训练好的改造后的Mask R-CNN模型；其中，改造后的MaskR-CNN模型主干结构为ResNet50，由5个阶段组成，对应5个不同尺度的特征图{C₁,C₂,C₃,C₄,C₅}，特征图{C₂,C₃,C₄,C₅}对应的步长为{4,8,16,32}像素；特征图{C₂,C₃,C₄,C₅}用于建立双注意力机制特征金字塔网络的特征金字塔，分别得到新的特征{P₂,P₃,P₄,P₅}，改造后的Mask R-CNN模型采用双注意力机制特征金字塔网络替换原始模型中的特征金字塔网络。

L＝L_cls+L_bbox+L_mask

L_cls表示候选框的分类损失，计算公式如下：

表示感兴趣区域为负样本，

表示感兴趣区域为正样本；

L_bbox表示位置回归损失，计算公式如下：

其中，N_reg为归一化参数，t_i是预测的偏移参数，

是实际偏移参数，

和

L_mask表示目标掩码损失，计算公式如下：

其中，m表示特征图的尺寸，k表示特征图的数量，v表示y_v对应的坐标位置(i，j)，y_v为目标真实标签值，

是改造后的Mask R-CNN模型中的预测值。

关于基于双注意力机制的小型农田图像分割装置的具体限定可以参见上文中对于基于双注意力机制的小型农田图像分割方法的限定，在此不再赘述。上述基于双注意力机制的小型农田图像分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储改造后的Mask R-CNN模型数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于双注意力机制的小型农田图像分割方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于双注意力机制的小型农田图像分割方法，其特征在于，所述方法包括：

获取待分割的农田图像；

将所述统一尺寸的待分割农田图像输入改造后的Mask R-CNN模型，得到农田图像的实例分割结果；其中，采用改造后的Mask R-CNN模型中主干结构和双注意力机制特征金字塔进行图像特征提取，再通过区域建议网络生成若干感兴趣区域，再通过RoIAlign将感兴趣区域映射产生固定尺寸的特征图，再通过改造后的Mask R-CNN模型头部的三个分支分别进行预测，得到对象类别、细化后的边界框定位和分割掩码，其中分割掩码即为农田图像实例分割结果。

2.根据权利要求1所述的方法，其特征在于，将所述统一尺寸的待分割农田图像输入改造后的Mask R-CNN模型，得到农田图像的实例分割结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述双注意力机制特征金字塔包括空间注意力模块和通道注意力模块，空间注意力模块用于强调空间尺度的特征，通道注意力模块用于强调通道尺度的特征：

空间注意力模块运行过程表达式如下：