CN116543165B

CN116543165B - 一种基于双通道复合深度网络的遥感图像果树分割方法

Info

Publication number: CN116543165B
Application number: CN202310798628.XA
Authority: CN
Inventors: 何海清; 周福阳; 夏元平; 吕开云; 陈婷
Original assignee: Donghua Polytechnic University Nanchang Campus
Current assignee: Donghua Polytechnic University Nanchang Campus
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2023-08-29
Anticipated expiration: 2043-07-03
Also published as: CN116543165A

Abstract

本申请涉及一种基于双通道复合深度网络的遥感图像果树分割方法，属于遥感图像果树提取技术领域，包括如下步骤：生成2.5D图像数据；构建果树分割模型，所述果树分割模型包括双通道复合深度网络和单尺度辅助损失函数模块；对所述2.5D图像数据描绘树冠标签，剔除不含树冠的2.5D图像数据和对应标签，生成所述果树分割模型的训练集和测试集；使用训练集和测试集对所述果树分割模型进行训练，并使用训练完成的果树分割模型从图像中进行果树分割。本发明能够结合局部信息和全局语义信息，有效的从复杂地形和背景中提取出果树树冠信息。

Description

一种基于双通道复合深度网络的遥感图像果树分割方法

技术领域

本申请涉及遥感图像果树提取技术领域，具体涉及一种基于双通道复合深度网络的遥感图像果树分割方法。

背景技术

果树的定位和计数有助于高通量表型研究和精细农业管理。果树最重要的组成部分是树冠，通常被认为是评估树木生长活力和表征树木竞争关系的指标。因此，如何获得树冠信息对于把握果树的位置、数量和生长状态具有重要意义。传统上，对果树树冠的手动调查和现场测量都需要耗费大量时间和人力，往往无法满足高效率和高精确度获取果树树冠信息的要求。为了实现低成本高效率获取果树树冠信息，研究如何从高分辨率且低成本的无人机航摄数据中提取果树树冠信息，成为大面积果树树冠自动化提取领域所面临的瓶颈。

树冠提取方法大致可分为基于图像强度、树冠形状、纹理和深度学习这4类方法。基于图像强度的方法主要利用树冠和背景像素值的差异来提取树冠，该类方法在树冠与背景存在较大差异的情况下具有优势，但在高郁闭度和复杂背景下难以解决树冠遮挡和背景干扰的问题。基于树冠形状的提取方法主要利用树冠的形态特征，并结合其他方法提取图像中的树冠，该类方法在树冠形态单一的情况下对树冠的提取效果较好，但需要设置的人工参数较多，自动化程度较低。基于纹理的方法主要利用树冠的纹理相似度来提取树冠，利用纹理特征来提取树冠的方法在树冠形态和背景简单的情况下提取效果较好，但该方法对于复杂树冠形状的适应性差。基于深度学习的方法主要利用神经网络强大的非线性表达和语义信息提取能力来提取树冠。卷积神经网络CNN和变换神经网络Transformer作为地物提取最为常用的算法之一，具有不需要手动设计特征、能够深度挖掘数据潜在的特征等优点。但大多数基于卷积神经网络CNN的方法由于卷积的感受野有限，无法提取图像的全局上下文信息。而变换神经网络Transformer全局上下文信息提取能力较强，但在局部信息提取能力方面不如卷积神经网络CNN。如何有效地整合卷积神经网络CNN和变换神经网络Transformer在提取树冠局部和全局上下文信息方面的优势，并引入额外的信息来提高深度网络的适用性，已成为树冠分割的一个关键和有价值的问题。

公开号为CN114170510A的发明专利公开了一种基于迁移学习的农作物智能遥感提取方法及系统，该发明有效控制了地域差异产生的同类作物物候特征差异，但并未解决更加精细化的果树树冠提取问题；公开号为CN113989668A的发明专利公开了一种基于时间序列特征的遥感农作物自动分类方法，该发明有效避免了其他方法在扩展分类模型到其他年份或者研究区时需要重新训练模型的特点，但同样存在精细化的果树树冠提取问题。

发明内容

本发明的目的在于，提供一种基于双通道复合深度网络的遥感图像果树分割方法，能够结合局部信息和全局语义信息，有效的从复杂地形和背景中提取出果树树冠信息。

本发明采取的技术方案为：一种基于双通道复合深度网络的遥感图像果树分割方法，包括如下步骤：

S1：利用无人机正射图像和树冠高度模型CHM生成2.5D图像数据；

S2：构建果树分割模型，所述果树分割模型包括可同时提取局部信息和全局语义信息的双通道复合深度网络和单尺度辅助损失函数模块；所述双通道复合深度网络包括局部信息提取分支、全局语义信息提取分支、特征融合分支和特征解码模块；

所述局部信息提取分支为卷积神经网络CNN，用于提取目标对象的局部信息；

所述全局语义信息提取分支为变换神经网络Transformer，用于提取目标对象的全局语义信息；

所述特征融合分支为基于坐标注意力机制的特征融合模块CAFM，用于实现局部信息提取分支和全局语义信息提取分支的信息交互，并根据坐标注意力机制生成加权特征图，实现特征融合；

所述特征解码模块包括多尺度语义信息交互模块和解码部分，多尺度语义信息交互模块用于对融合后的特征进行多尺度信息交互，解码部分用于解码特征信息，恢复特征图的分辨率，得到最终的果树分割结果；

所述单尺度辅助损失函数模块用于对特征融合模块CAFM输出的特征图进行处理，计算辅助损失；

S3：利用无人机正射影像描绘树冠标签，剔除不含树冠的2.5D图像数据和对应标签，并将剩余的2.5D图像数据和对应标签作为所述果树分割模型的训练集和测试集；

S4：使用训练集和测试集对所述果树分割模型进行训练，使用单尺度辅助损失函数模块对特征融合模块CAFM输出的特征图进行卷积和上采样操作，恢复融合后的特征图的通道数和图像分辨率，并与真实果树标签进行损失计算，得到辅助损失；将所述特征解码模块输出的特征图与真实果树标签进行损失计算，得到主损失，并将主损失与辅助损失相加得到网络的总损失，最后将总损失进行反向传播，优化模型的参数，完成模型训练；

S5；使用训练完成的果树分割模型从图像中进行果树分割。

进一步地，所述步骤S1的具体方法为：

S101：对无人机正射图像进行处理，获取数字正射图像DOM、数字表面模型DSM和三维密集点云；

S102：使用布料模拟滤波方法从三维密集点云中分离出地面点云；

S103：使用克里金插值方法对地面点云进行插值，生成数字地形模型DTM，并将数字表面模型DSM和数字地形模型DTM进行差分运算，得到树冠高度模型CHM，再将数字正射图像DOM和树冠高度模型CHM进行通道组合，得到2.5D图像数据。

进一步地，所述卷积神经网络CNN包括六个阶段，第一阶段为一个3×3卷积层，第二阶段、第三阶段和第四阶段为融合移动反向瓶颈卷积模块层，即Fused MBConv模块层，第二阶段、第三阶段和第四阶段分别对模块自身堆叠2层、4层和4层，第五阶段和第六阶段为移动反向瓶颈卷积模块层，即MBConv模块层，第五阶段和第六阶段分别对模块自身堆叠15层和15层，所述融合移动反向瓶颈卷积模块层，即FusedMBConv模块层包括第一卷积层和第一压缩与激励SE模块，所述移动反向瓶颈卷积模块层，即MBConv模块层包括第二卷积层、可分离卷积层和第二压缩与激励SE模块。

进一步地，所述变换神经网络Transformer包括五个阶段，第一阶段为一个卷积令牌嵌入层，即Convolutional Token Embedding层，第二阶段、第三阶段、第四阶段和第五阶段均为十字形窗口变换神经网络模块层，即CSwin Transformer模块层，第二阶段、第三阶段、第四阶段和第五阶段分别对模块自身堆叠1层、2层、21层和1层，所述十字形窗口变换神经网络模块层，即CSwinTransformer模块层包括层归一化机制、十字形窗口注意力机制和多层感知器。

进一步地，所述特征融合模块CAFM包括2个输入层、4层卷积层和3个坐标注意力机制模块，根据坐标注意力机制生成加权特征图的计算公式如下：

；

其中，y _c(i，j)为图像第i行第j列像素值在通道数为c时的输出特征，x _c(i，j)为图像第i行第j列的像素值在通道数为c时的输入特征，为坐标注意力机制在第i行、第c个通道的水平方向h生成的加权特征图，/>为坐标注意力机制在第j列、第c个通道的垂直方向w生成的加权特征图。

进一步地，所述多尺度语义信息交互模块为特征金字塔网络FPN，包括7层上采样层、3个对应元素相加操作和1个沿通道方向的特征拼接操作，即Concat操作，特征金字塔网络FPN将融合后的特征进行多尺度信息交互，交互过程中采用对应元素相加操作将上采样后的特征图和相同大小的融合后特征图进行像素值相加，结合融合后特征图的定位细节信息，再利用1×1卷积层和上采样层将执行对应元素相加操作后得到的特征图的大小和通道数数量恢复到一致，最后使用沿通道方向的特征拼接操作，即Concat操作将多尺度语义信息交互模块输出的特征图进行合并，合并后的特征图通道数为原来的4倍。

进一步地，所述单尺度辅助损失函数模块包括2层卷积层和1层上采样层。

进一步地，所述解码部分包括1个坐标注意力机制、2层卷积层和2层上采样层；解码部分通过坐标注意力机制进一步提取目标果树的位置信息，使用卷积层改变多尺度语义信息交互模块输出的特征图的通道数，并使用上采样层将特征图恢复至输入图像的大小，最后与真实果树标签进行损失计算，得到主损失，并将主损失与辅助损失相加得到网络的总损失，最后将总损失进行反向传播，优化模型的参数，完成模型训练。

进一步地，在构建所述双通道复合深度网络的训练集和测试集时，对步骤S1中获取的无人机正射图像描绘树冠标签，将2.5D图像数据和对应的标签进行分割，并通过水平翻转、垂直翻转、90°旋转、180°旋转或270°旋转变换产生新的图像集和标签集，剔除不含树冠的2.5D图像数据和对应标签，并将剩余的2.5D图像数据和对应标签作为所述双通道复合深度网络的训练集和测试集。

本发明的有益技术效果在于：

（1）本发明构建了一种基于双通道复合深度网络的遥感图像果树分割方法，能够同时提取到果树树冠的局部信息和全局语义信息，采用卷积神经网络CNN和变换神经网络Transformer并行提取冠层的局部信息和全局语义信息，并利用基于坐标注意的特征融合模块来保留各分支的优势，有效融合了网络提取到的局部信息和全局语义信息，解决了单一网络存在的局部和全局信息不足问题；

（2）为了消除地形和树冠背景的影响，将表征果树树冠高度和几何结构特征的树冠高度模型CHM与可见光谱图像一起输入到所构建的果树分割模型中，提高了模型在复杂地形和背景下的果树树冠分割性能；本发明的树冠分割策略在果树树冠提取方面获得了较好的提取结果，能满足包含复杂地形和树冠背景的果树树冠提取需求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的方法流程图；

图2为本发明实施例中生成2.5D图像数据的流程图；

图3为本发明实施例中双通道复合深度网络的结构示意图；

图4为本发明实施例中特征融合模块CAFM的结构示意图；

图5为本发明实施例中多尺度语义信息交互模块的结构示意图；

图6为本发明实施例采集的无人机图像；

图7为本发明实施例提取的果树树冠结果示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例的限制。

除非另作定义，此处使用的技术术语或者科学术语应当为本申请所述领域内具有一般技能的人士所理解的通常意义。本专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样， “一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。 “连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。 “上”、 “下”、 “左”、 “右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也相应地改变。

如图1所示，一种基于双通道复合深度网络的遥感图像果树分割方法，包括如下步骤：

S1：利用无人机正射图像和树冠高度模型CHM生成2.5D图像数据；具体方法如图2所示：

S2：构建果树分割模型，所述果树分割模型包括可同时提取局部信息和全局语义信息的双通道复合深度网络和单尺度辅助损失函数模块；如图3所示，所述双通道复合深度网络包括局部信息提取分支、全局语义信息提取分支、特征融合分支和特征解码模块。含有R、G、B通道信息和树冠高度信息H'的输入图像分别经局部信息提取分支和全局语义信息提取分支进行特征提取，局部信息提取分支提取出四个具有丰富局部细节信息的尺度特征图E1、E2、E3和E4，全局语义信息提取分支提取出四个具有丰富全局信息的尺度特征图T1、T2、T3和T4，然后将局部信息提取分支和全局语义信息提取分支所提取的特征输入到特征融合分支，即基于坐标注意力机制的特征融合模块CAFM中，得到四个融合后的特征图ET1、ET2、ET3和ET4。然后，将四个融合后的特征图输入到多尺度语义信息交互模块，即特征金字塔网络FPN中进行信息交互处理，再将处理后的特征图输入坐标注意力机制CA中进行计算，再经过卷积层和上采样层进行卷积操作和上采样操作得到树冠提取结果预测值2和由预测值2与真实值计算得到的主损失Loss _CT。同时，将第三个融合后的特征图ET3输入到单尺度辅助损失函数中，由Conv 3×3卷积层进行一次3×3卷积，再由Conv 1×1卷积层进行一次1×1卷积，再经过一次上采样操作，得到树冠提取结果预测值1和由预测值1与真实值计算得到的辅助损失Loss _aux。最后，将主损失Loss _CT和辅助损失Loss _aux求和得到总损失Loss _all，再将总损失Loss _all进行反向传播，优化整个网络的模型参数。

所述局部信息提取分支为卷积神经网络CNN，用于提取目标对象的局部信息。在本发明实施例中，所述卷积神经网络CNN包括六个阶段，第一阶段为一个3×3卷积层，第二阶段、第三阶段和第四阶段为融合移动反向瓶颈卷积模块层，即Fused MBConv模块层，第二阶段、第三阶段和第四阶段分别对模块自身堆叠2层、4层和4层，第五阶段和第六阶段为移动反向瓶颈卷积模块层，即MBConv模块层，第五阶段和第六阶段分别对模块自身堆叠15层和15层，所述融合移动反向瓶颈卷积模块层，即Fused MBConv模块层包括第一卷积层和第一压缩与激励SE模块，所述移动反向瓶颈卷积模块层，即MBConv模块层包括第二卷积层、可分离卷积层和第二压缩与激励SE模块；每个阶段输出的特征图大小分别为和/>，其中，H和W为输入网络中的图像的长和宽；第三阶段、第四阶段、第五阶段和第六阶段输出的特征图分别为具有丰富局部细节信息的尺度特征图E1、E2、E3和E4。

所述全局语义信息提取分支为变换神经网络Transformer，用于提取目标对象的全局语义信息。在本发明实施例中，所述变换神经网络Transformer包括五个阶段，第一阶段为一个卷积令牌嵌入层，即Convolutional Token Embedding层，第二阶段、第三阶段、第四阶段和第五阶段均为十字形窗口变换神经网络层，即CSwin Transformer模块层，第二阶段、第三阶段、第四阶段和第五阶段分别对模块自身堆叠1层、2层、21层和1层，所述十字形窗口变换神经网络模块层，即CSwinTransformer模块层包括层归一化机制、十字形窗口注意力机制和多层感知器。每个阶段输出的特征图大小分别为和/>，其中，H、W和C为输入网络中的图像的长、宽和通道数量；第二阶段、第三阶段、第四阶段和第五阶段输出的特征图分别为具有丰富全局信息的尺度特征图T1、T2、T3和T4。

所述特征融合分支为基于坐标注意力机制的特征融合模块CAFM，用于实现局部信息提取分支和全局语义信息提取分支的信息交互，并根据坐标注意力机制生成加权特征图，实现特征融合。在本发明实施例中，所述特征融合模块CAFM包括2个输入层、4层卷积层和3个坐标注意力机制模块。

如图4所示，基于坐标注意力机制的特征融合模块CAFM将局部信息提取分支和全局语义信息提取分支输出的特征图分别输入到两个Conv 1×1卷积层中，使特征图的通道数量保持一致。随后再分别输入到两个坐标注意力机制CA中进行处理，提取特征图中目标对象的位置信息，得到两个分支的经坐标注意力机制CA处理后的特征图。此外，为了加快模型的优化，引入了如图4中虚线部分所示的残差连接分支，来添加局部信息提取分支和全局语义信息提取分支的原始特征；然后，在通道维度上将经过坐标注意力机制CA处理后的两个分支的特征图进行沿通道方向的特征拼接操作，即Concat操作，并输入到一个Conv 1×1卷积层中，以实现局部信息提取分支和全局语义信息提取分支之间的信息交互，提取每个分支的有效特征。之后使用归一化指数函数，即Softmax函数来计算特征图中每个像素的权重，形成权重特征图，并在通道维度方向将权重特征图进行等分操作，即Split操作；最后，将等分的权重特征图分别对局部信息提取分支和全局语义信息提取分支的特征图进行加权，得到加权特征图，并与残差连接的原始特征进行逐元素相加，再输入到坐标注意力机制CA中，进一步提取局部信息提取分支和全局语义信息提取分支融合特征图中的对象位置信息，生成四个融合后的特征图ET1、ET2、ET3和ET4。根据坐标注意力机制生成加权特征图的计算公式如下：

；

其中，y _c(i，j)为图像第i行第j列像素值在通道数为c时的输出特征，x _c(i，j)为图像第i行第j列的像素值在通道数为c时的输入特征，为坐标注意力机制在第i行、第c个通道的水平方向h生成的加权特征图，/>为坐标注意力机制在第j列、第c个通道的垂直方向w生成的加权特征图。通过坐标注意力机制CA进行加权，对特征图中感兴趣的目标赋予更大的权重，以便更好的提取出目标对象。在本发明实施例中，所述卷积神经网络CNN和变换神经网络Transformer的各个阶段输出的特征图经过特征融合模块CAFM进行融合后，生成四个融合后的特征图ET1、ET2、ET3和ET4，并输入特征解码模块。

坐标注意力机制结构CA的结构如图4所示，对于大小为C×H×W的输入特征图，分别使用大小为（H，1）的水平池化内核X Avg Pool和大小为（1，W）的垂直池化内核Y AvgPool，沿着水平和垂直坐标进行编码；然后，在空间维度上执行沿通道方向的特征拼接操作，即Concat操作，并输入Conv 1×1卷积层进行1×1卷积运算，以通道压缩率r压缩通道数量并捕获通道间的信息；之后对编码的特征图进行批量归一化运算，即BatchNorm运算，以及非线性运算，即Non-linear运算，并在通道维度上进行等分，使用Conv1×1卷积层将特征图的通道数量恢复到输入时的通道数量；最后，使用Sigmoid函数对特征图进行权重计算，并利用计算的权重对原始输入的特征图进行加权操作，即Re-weight操作。

所述特征解码模块包括多尺度语义信息交互模块和解码部分，多尺度语义信息交互模块用于对融合后的特征进行多尺度信息交互，解码部分用于解码特征信息，恢复特征图的分辨率，得到最终的果树分割结果。在本发明实施例中，所述多尺度语义信息交互模块为特征金字塔网络FPN，包括7层上采样层、3个对应元素相加操作和1个沿通道方向的特征拼接操作，即Concat操作，特征金字塔网络FPN将四个融合后的特征图ET1、ET2、ET3和ET4进行多尺度信息交互。所述解码部分包括1个坐标注意力机制、2层卷积层和2层上采样层。

如图5所示，对第四个融合后的特征图ET4进行复制，生成特征图F4；对特征图F4进行上采样，生成与第三个融合后的特征图ET3大小和通道数量均相同的特征图F3，采用对应元素相加操作将第三个融合后的特征图ET3和特征图F3进行像素值相加；同理，对特征图F3进行上采样，生成与第二个融合后的特征图ET2大小和通道数量均相同的特征图F2，采用对应元素相加操作将第二个融合后的特征图ET2和特征图F2进行像素值相加；对特征图F2进行上采样，生成与第一个融合后的特征图ET1大小和通道数量均相同的特征图F1，采用对应元素相加操作将第一个融合后的特征图ET1和特征图F1进行像素值相加。在交互过程中采用对应元素相加操作将上采样后的特征图与相同大小及通道数量的融合后特征图进行像素值相加，结合融合后特征图的定位细节信息，然后使用1×1卷积层和不同采样率的上采样层将特征图F4、第三个融合后的特征图ET3和特征图F3进行对应元素相加操作后得到的特征图、第二个融合后的特征图ET2和特征图F2进行对应元素相加操作后得到的特征图以及第一个融合后的特征图ET1和特征图F1进行对应元素相加操作后得到的特征图的大小和通道数数量恢复到一致。最后使用沿通道方向的特征拼接操作，即Concat操作将多尺度语义信息交互模块输出的特征图进行合并，合并后的特征图通道数为原来的4倍。

所述单尺度辅助损失函数模块用于对特征融合模块CAFM输出的特征图进行处理，计算辅助损失。在本发明实施例中，所述单尺度辅助损失函数模块包括2层卷积层和1层上采样层。

S3：利用无人机正射图像描绘树冠标签，剔除不含树冠的2.5D图像数据和对应标签，并将剩余的2.5D图像数据和对应标签作为所述双通道复合深度网络的训练集和测试集。本发明实施例使用ArcGIS软件描绘树冠标签，并将2.5D图像数据和对应的标签分割成256×256，通过水平翻转、垂直翻转、90°旋转、180°旋转或270°旋转变换产生新的图像集和标签集，剔除不含树冠的2.5D图像数据和对应标签，并将剩余的2.5D图像数据和对应标签按照8:2的比例作为所述果树分割模型的训练集和测试集。

S4：使用训练集和测试集对所述果树分割模型进行训练，使用单尺度辅助损失函数模块对特征融合模块CAFM输出的第三个特征图进行卷积和上采样操作，恢复融合后第三个的特征图的通道数和图像分辨率，并与真实果树标签进行损失计算，得到辅助损失；将所述特征解码模块输出的特征图与真实果树标签进行损失计算，得到主损失，并将主损失与辅助损失相加得到网络的总损失，最后将总损失进行反向传播，优化模型的参数，完成模型训练。解码部分通过坐标注意力机制进一步提取目标果树的位置信息，使用卷积层改变多尺度语义信息交互模块输出的特征图的通道数，并使用上采样层将特征图恢复至输入图像的大小，最后与真实果树标签进行损失计算，得到主损失Loss _CT，并将主损失Loss _CT与辅助损失Loss _aux相加得到网络的总损失Loss _all，最后将总损失进行反传，优化模型的参数，完成模型训练。总损失Loss _all的计算公式如下：

；

其中，y _i为第i个像素的地面真实标签，为第i个像素的网络预测结果，k为第k个标签类别，K为标签类别数量，y _i,k为一个符号函数，若第i个像素属于k类，则y _i,k等于1，否则y _i,k等于0，/>表示第i个像素被预测为第k类标签的可能性，CELoss为交叉熵损失，BCELoss为二分类交叉熵损失，DiceLoss为Dice系数损失函数。

S5；使用训练完成的果树分割模型从图像中进行果树分割。

本发明实施例使用训练好的果树分割模型以及步骤S3中获取的测试集进行果树提取测试，将测试结果与真实标签进行精度评估，评估指标公式如下：

；

其中，OA为总体精度，Precision为精确度，Recall为召回率，F1为F1评分，mIoU为平均交并比；g表示第g个类别；G表示总类别数量；P表示正确预测的像素点；N表示错误预测的像素点；TP表示正确预测的冠层像素点；FP表示将背景预测为冠层的错误预测像素点；TN表示正确预测的背景像素点；FN表示将冠层预测为背景的错误预测像素点。

选取全卷积神经网络FCN、U形结构网络U-Net、高效网络EfficientNet-V2-S、高分辨率上下文信息提取网络HRCNet_W48和深度密集图像标记网络DeepLab-V3这五个具有代表性的经典卷积神经网络以及先进的变换神经网络，例如十字形窗口变换神经网络CSwin-Tiny，与本发明实施例所述的方法进行对比分析，采用3个不同的研究区域进行对比试验，得到的果树树冠提取结果详见表1和表2。

表1 七种方法提取结果统计

表2 本发明实施例所述方法在不同区域的提取结果统计

其中，区域1和区域2地形起伏大，且区域2中的树冠背景较为复杂，区域3地形平坦，但存在着大量杂草和灌木。本发明实施例所述的方法在果树树冠提取中得到了最高的精度，在不同的环境下，本发明实施例所述的方法能有效减弱复杂背景对果树树冠提取的影响，能满足地形变化大、背景复杂下果树树冠的提取需要。

此外，将本发明实施例所述的方法与先进的卷积神经网络和变换神经网络的融合网络，例如语义分割变换神经网络SETR_PUP、U形结构变换神经网络TransUNet、融合变换神经网络TransFuse、耦合卷积神经网络和变换神经网络的融合神经网络CcTNet进行对比试验，得到的果树树冠提取结果如表3所示。

表3 本发明实施例所述方法与四种先进的CNN与Transformer融合网络模型提取结果统计

表3中的Para表示模型参数量，M为该模型参数量的单位，模型参数量Para的计算公式为：

；

其中，C _o表示输出通道数，C _s输入通道数，k _f表示卷积核宽，k _v表示卷积核高。

本发明实施例所述的果树分割模型具有最高的果树树冠提取精度，在模型参数量Para方面也有一定的竞争力。图6为本发明实施例测试集中的其中一张无人机图像，图7为图6对应的果树树冠结果示意图。本发明实施例能够精确快速的实现大面积果树树冠提取，在提取性能上表现最优。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双通道复合深度网络的遥感图像果树分割方法，其特征在于，包括如下步骤：

所述局部信息提取分支为卷积神经网络，用于提取目标对象的局部信息；

所述全局语义信息提取分支为变换神经网络，用于提取目标对象的全局语义信息；

S5；使用训练完成的果树分割模型从图像中进行果树分割。

2.根据权利要求1所述的一种基于双通道复合深度网络的遥感图像果树分割方法，其特征在于，所述步骤S1的具体方法为：

3.根据权利要求1所述的一种基于双通道复合深度网络的遥感图像果树分割方法，其特征在于，所述卷积神经网络包括六个阶段，第一阶段为一个3×3卷积层，第二阶段、第三阶段和第四阶段为融合移动反向瓶颈卷积模块层，第二阶段、第三阶段和第四阶段分别对模块自身堆叠2层、4层和4层，第五阶段和第六阶段为移动反向瓶颈卷积模块层，第五阶段和第六阶段分别对模块自身堆叠15层和15层，所述融合移动反向瓶颈卷积模块层包括第一卷积层和第一压缩与激励SE模块，所述移动反向瓶颈卷积模块层包括第二卷积层、可分离卷积层和第二压缩与激励SE模块。

4.根据权利要求1所述的一种基于双通道复合深度网络的遥感图像果树分割方法，其特征在于，所述变换神经网络包括五个阶段，第一阶段为一个卷积令牌嵌入层，第二阶段、第三阶段、第四阶段和第五阶段均为十字形窗口变换神经网络模块层，第二阶段、第三阶段、第四阶段和第五阶段分别对模块自身堆叠1层、2层、21层和1层，所述十字形窗口变换神经网络模块层包括层归一化机制、十字形窗口注意力机制和多层感知器。

5.根据权利要求1所述的一种基于双通道复合深度网络的遥感图像果树分割方法，其特征在于，所述特征融合模块CAFM包括2个输入层、4层卷积层和3个坐标注意力机制模块，根据坐标注意力机制生成加权特征图的计算公式如下：

；

6.根据权利要求1所述的一种基于双通道复合深度网络的遥感图像果树分割方法，其特征在于，所述多尺度语义信息交互模块为特征金字塔网络FPN，包括7层上采样层、3个对应元素相加操作和1个沿通道方向的特征拼接操作，特征金字塔网络FPN将融合后的特征进行多尺度信息交互，交互过程中采用对应元素相加操作将上采样后的特征图和相同大小的融合后特征图进行像素值相加，结合融合后特征图的定位细节信息，再利用卷积层和上采样层将执行对应元素相加操作后得到的特征图的大小和通道数数量恢复到一致，最后使用沿通道方向的特征拼接操作将多尺度语义信息交互模块输出的特征图进行合并，合并后的特征图通道数为原来的4倍。

7.根据权利要求1所述的一种基于双通道复合深度网络的遥感图像果树分割方法，其特征在于，所述单尺度辅助损失函数模块包括2层卷积层和1层上采样层。

8.根据权利要求1所述的一种基于双通道复合深度网络的遥感图像果树分割方法，其特征在于，所述解码部分包括1个坐标注意力机制、2层卷积层和2层上采样层；解码部分通过坐标注意力机制进一步提取目标果树的位置信息，使用卷积层改变多尺度语义信息交互模块输出的特征图的通道数，并使用上采样层将特征图恢复至输入图像的大小，最后与真实果树标签进行损失计算，得到主损失，并将主损失与辅助损失相加得到网络的总损失，最后将总损失进行反向传播，优化模型的参数，完成模型训练。

9.根据权利要求1所述的一种基于双通道复合深度网络的遥感图像果树分割方法，其特征在于，在构建所述双通道复合深度网络的训练集和测试集时，对步骤S1中获取的无人机正射图像描绘树冠标签，将2.5D图像数据和对应的标签进行分割，并通过水平翻转、垂直翻转、90°旋转、180°旋转或270°旋转变换产生新的图像集和标签集，剔除不含树冠的2.5D图像数据和对应标签，并将剩余的2.5D图像数据和对应标签作为所述双通道复合深度网络的训练集和测试集。