CN116030324A

CN116030324A - 一种基于光谱特征与空间特征融合的目标检测方法

Info

Publication number: CN116030324A
Application number: CN202310045447.XA
Authority: CN
Inventors: 王芙蓉; 段玉林; 吴文斌; 张文; 余强毅; 史云; 钱建平; 宋茜
Original assignee: Institute of Agricultural Resources and Regional Planning of CAAS
Current assignee: Institute of Agricultural Resources and Regional Planning of CAAS
Priority date: 2023-01-30
Filing date: 2023-01-30
Publication date: 2023-04-28

Abstract

一种基于光谱特征与空间特征融合的目标检测方法，包括：S1，对采集的图像进行数据预处理，生成卷积神经网络所需的特征图层数据；S2，构建特征提取网络，采用基于光谱特征与空间特征融合的卷积神经网络进行目标识别；构建跨模态特征融合模型(CFT模型)，进行单个特征图层内和多个特征图层间的特征融合，实现基于被检测对象的光谱特征及空间特征融合的精准目标检测。本发明的方法通过同时融合被检测对象的光谱特征和空间特征，提高在被检测对象光谱特征或空间特征不稳定、特征部分缺失条件下的检测精度和可靠性。

Description

一种基于光谱特征与空间特征融合的目标检测方法

技术领域

本发明涉及图像目标识别技术，更具体地，涉及一种基于光谱特征与空间特征融合的目标检测技术。

背景技术

近年来，无人机低空遥感技术及传感技术具有轻小灵动，操作简便，可搭载多种设备，如可见光相机、多光谱相机和激光雷达等，部署快捷，实时性好，精度及分辨率高，为农业领域目标精准识别，例如，植株位置及数目检测、出苗率检测、长势监测等，提供了崭新的技术手段和数据基础。现有技术1-中国专利(专利号：201910840661.8，发明名称：一种基于无人机数据采集的果树识别和数量监测方法及系统)中，提出了一种根据果树高度图像对果树进行识别的方法，充分利用深度学习方法提取果树高程特征，可有效降低由于果树阴影、杂草等干扰造成的不利影响。论文《基于无人机数码影像的密植型果园单木分割方法研究》(《武汉大学学报·信息科学版》，徐伟萌,杨浩,李振洪,程金鹏,林哈特,杨贵军2022,47(11):1906-1916.doi:10.13203/j.whugis20220024)提出了对无人机数码影像三维重建DSM图像，采用区域型种子块的标记分水岭算法，实现密植型果园单木分割的方法。

现有技术2-论文Zi Yan Chen等在International Journal of MachineLearning and Computing第10卷第1期上发表的《Improved Fast R-CNN with Fusion ofOptical and 3D Data for Robust Palm Tree Detection in High Resolution UAVImages》提出了利用局部极大值滤波方法提取DSM图像中的果树位置，并与基于Fast R-CNN算法生成的无人机RGB图像的卷积特征图融合，进而检测图像中的棕榈树。

在现有的果树检测方法中，多数研究主要利用果树的图像光谱特征或者果树的高度信息用于果树检测和数量统计。但是，基于单一特征的果树检测方法尚存在缺陷。例如，因环境因素影响(如光照条件、果树阴影、杂草干扰)、相机成像条件(分辨率设置、快门设置)及搭载平台(飞机抖动、飞行速度、飞行高度)等众多因素的综合影响，造成无人机采集的图像质量不稳定，一定程度影响了以图像数据作为唯一数据源时果树检测的精度及果树检测模型的适用性。

利用目标的高程信息的检测方法，因高程特征具有空间尺度一致性，可有效减少阴影及杂草等因素的干扰，提高检测模型的环境和地域适用性。但是，在无人机图像采集及点云生成过程中，因采集时目标自身晃动或移动、三维点云解算软件去噪能力等影响，所反演的三维点云及高程特征存在不稳定、不精确的现象，影响基于高程特征的目标检测精度。

因此，如何充分利用被检测对象的光谱与空间特征提高复杂环境中目标地物的识别精度是当前研究中的难点。现有技术2中融合了果树的光谱和高程特征，但该方法是分别提取果树的光谱特征和高程特征后，再进行两种特征的融合用于果树检测，未充分利用原始数据层中光谱与空间的联合特征。

在计算机视觉领域，现有的基于深度学习的目标检测模型，如YoloV5、Faster-RCNN等方法通常仅适用于只有三个通道的自然图像。Fang Qingyun等在arXiv2021年第14卷第8期上发表的《Cross-Modality Fusion Transformer for Multispectral ObjectDetection》提出了可同时提取来自RGB相机和红外相机的光谱特征的深度学习特征融合框架，可显著提高逆光或者夜晚光照不足情况下的行人检测精度。但是，该方法本质上仅融合了行人的光谱特征，未实现同时融合行人的空间特征以进一步提高模型的精度。

发明内容

针对背景技术中的问题，本发明首次实现在同一个深度学习框架下，通过机器学习的方式自动提取被检测对象在光谱维度与空间维度上的联合特征，实现原始数据级的特征融合用于目标检测，在单一特征部分缺失或者包含较大噪声的情况下，亦可实现高精度的检测结果。

本发明提出一种基于光谱特征与空间特征融合的目标检测方法，包括：S1，对采集的图像进行数据预处理，生成卷积神经网络所需的特征图层数据；S2，构建特征提取网络，采用基于光谱特征与空间特征融合的卷积神经网络进行目标识别；3)构建跨模态特征融合模型，进行单个特征图层内和多个特征图层间的特征融合，实现基于被检测对象的光谱特征及空间特征融合的精准目标检测。

本发明的技术效果包括：通过同时融合被检测对象的光谱特征和空间特征，提高在被检测对象光谱特征或空间特征不稳定、特征部分缺失条件下的检测精度和可靠性。

1)本发明首次采用跨模态特征融合模型融合被检测对象的光谱特征及空间特征，显著提高了目标检测精度和可靠性。

2)本发明的方法可显著降低杂草等因素对目标识别的干扰。在其他作物(如杂草)与被检测对象冠层的颜色特征相近，仅凭光谱特征识别会将杂草等其它目标误识别为被检测对象，本发明结合光谱特征和高程特征可以降低杂草的干扰，准确识别出被检测对象。

3)本发明的方法可显著提高在密集场景下的目标检测精度。在农业领域，当其他作物的高度与被检测对象的高度相近，且在密集度高产生冠层连枝的情况下，本发明结合高程特征和光谱特征依然可准确识别被检测对象。

4)当研究对象区域边缘的图像质量较差且信息有损失时，依照单一特征对被检测对象进行检测会出现漏识别现象，本发明可以在质量差的图像中实现准确识别。

5)当被检测对象的光谱特征受损时，本发明依据被检测对象的空间特征，也能检测出被检测对象。

附图说明

为了更容易理解本发明，将通过参照附图中示出的具体实施方式更详细地描述本发明。这些附图只描绘了本发明的典型实施方式，不应认为对本发明保护范围的限制。

图1为本发明的方法实施方式的流程图。

图2为生成CHM图像的流程图。

图3为准备进行特征提取的图像的一个示例。

图4为双流主干特征提取网络示意图。

图5显示了特征提取网络的Neck层和预测层。

图6为跨模态特征融合模型的图。

图7显示了信息完好的果树识别结果。

图8显示了信息受损的果树识别结果。

图9显示了果树识别结果及分布。

具体实施方式

下面参照附图描述本发明的实施方式，以便于本领域的技术人员可以更好的理解本发明并能予以实施，但所列举的实施例不作为本发明的限定，在不冲突的情况下，下述的实施例及实施例中的技术特征可以相互组合，其中相同的部件用相同的附图标记表示。本发明以农业领域果树目标检测为例进行举例说明方法原理，但本发明方法亦可广泛应用在包括并不限于农业领域的植株目标检测与计数、出苗率检测等其它情形。

本发明的方法的核心思路是，通过数据预处理，生成特征融合卷积神经网络所需的特征图层数据；构建特征提取网络，使之能够同时加载单通道的空间特征图层及三通道光谱特征图层并进行空间特征提取及光谱特征提取；构建跨模态特征融合模型，进行单个特征图层内和多个特征图层间的特征融合，实现基于被检测对象的光谱特征及空间特征融合的精准目标检测；设计验证特征融合有效性的试验方法，验证本发明中光谱特征与空间特征融合的有效性。

如图1所示，本发明的方法包括：

S1，数据采集及数据预处理。主要包括图像采集、图像拼接、正射影像图DOM及数字表面模型DSM生成、数字地形模型DTM图像生成、图像分辨率重建、无效指剔除、图像重叠剪裁、样本标注等步骤。目的是生成适用于光谱特征与空间特征融合的目标检测方法所需数据。技术特点在于：

1)利用原始三通道可见光图像生成被检测目标空间特征图层CHM；

2)以DOM图层的分辨率为参照基准，对其它图层进行分辨率重建；

3)在实现原始数据空间位置对齐、分辨率一致等处理后，对目标检测模型所需空间特征图层CHM及DOM图层进行剪裁；剪裁时采用空间重叠方式剪裁，重叠区域大小依据所标注样本中被检测目标的平均冠层大小信息设定重叠像素值；

4)利用所标注的被检测对象的统计特征值，如平均高程及高程方差等信息进行异常值剔除操作；

更具体地，详细步骤如下：

S11，基于无人机、传感器等设备采集影像，利用专业软件对影像进行拼接、点云生成等预处理，获得正射影像图DOM图像、数字表面模型DSM图像和数字地形模型DTM图像。

S12，对正射影像图DOM图像、数字表面模型DSM图像和数字地形模型DTM图像进行分辨率重建。虽然正射影像图DOM、数字表面模型DSM和数字地形模型DTM三种图像中地物的位置信息具有一致性，但分辨率大小和图像范围存在差异，需要进行分辨率重建和区域裁剪操作使之统一空间位置及图像分辨率大小，以满足特征融合模型对输入数据的要求。在分辨率重建时，以DOM图层的分辨率为参照基准，对其它图层进行分辨率重建，实现DOM、DSM、DTM等图层的空间位置及图像分辨率统一。

S13，生成CHM图像。具体地，如图2所示，生成CHM图像的具体步骤如下。

1)统一DSM和DTM图像的分辨率和区域范围。在步骤S12中统一了DSM和DTM图像的分辨率的基础上，进行DSM与DTM图层空间叠加运算，输出DSM与DTM图层空间重叠部分范围，以实现区域范围统一。

2)将分辨率和区域范围均一致的DSM和DTM图像简称为S和T。统计S和T的极小值min(S)、min(t)。

3)分别设定S与T的无效值为a，b。其中：

a∈{min(S),NaN}

b∈{min(T),NaN}

4)当S或T中的相同位置点像素值为无效值时，则判定该像素点为无效值。

5)剔除无效值。针对步骤4判断的无效像素点，将S和T中对应像素值设置为同一无效标记值，例如0或者NaN，得到S′和T′。

6)通过两图层相减得到单通道的CHM图像。其中，CHM＝S’-T’，CHM图是包含被检测对象果树的高度信息的图像：

7)根据果树种类的高度值有效范围，将CHM图像中高度值不在果树高度范围内的异常值去除，例如，将该像素点值设置为0或者NaN，得到最终的单通道的CHM图像。其中，果树种类的高度值有效范围的计算方法是，统计CHM图层中所标注的果树样本的高程均值E和方差Q，然后设定果树高度范围为E±3Q。

S14，图像裁剪与数据集标注。

1)采用图像区域重叠方式进行样本图像剪裁。重叠区域大小依据所标注样本中被检测目标的平均冠层大小信息设定重叠像素值。例如，区域重叠像素值采用1.5倍果树冠层直径所占像素值。在将DOM图像和CHM图像的相邻图像之间设置合适的重叠区域，可避免样本图像边缘的果树被裁剪截断而导致检测失败。

2)将DOM图像和CHM图像裁剪为若干张相同尺寸的图像作为模型训练的样本数据集，且两种图像裁剪得到的图像具有相同地理坐标；

3)训练样本标注。采用深度学习图像识别领域常用的样本标注软件、采用PascalVOC格式保存样本标注信息，得到包含目标类别、坐标位置及宽高信息的xml文件。

S2，采用基于光谱特征与空间特征融合的卷积神经网络进行目标识别。主要包括，读取DOM及CHM图层数据，采用双流主干特征提取网络分别提取DOM图层特征及CHM图层特征，采用基于自注意力机制的transformer特征融合模型提取上述步骤中双流主干网络所提取的DOM及CHM特征图层的联合特征，并将融合后的联合特征数据反馈至双流主干网络的预测层，最后输出目标检测结果。技术特点在于：

(1)本发明采用双流主干网络对输入数据进行特征提取，用于同时提取DOM图像中被检测对象的光谱特征和CHM图像中的空间特征。

(2)主流的神经网络一般适用于三通道的图像(H×W×3)。为了融合果树原始的空间信息，本发明设计了用于提取果树空间特征的主干网络，使其能够同时加载单通道的CHM图像(H×W×1)及三通道的图像(H×W×3)。

(3)本发明采用基于自注意力机制的跨模态特征融合模型融合双流主干网络所分别提取的光谱特征及空间特征，并将特征融合结果反馈至双流主干网络中的预测层，最终输出目标检测结果。

具体地，本发明所述基于光谱特征与空间特征融合的目标检测整体网络结构图如图3所示：

输入数据为DOM及CHM图层。其中，DOM图像可以分解为红色，绿色和蓝色通道，CHM图像为单通道。

图4显示了双流主干特征提取网络示意图。图5显示了特征提取网路的Neck层和预测层。

S21，对剪裁后的DOM图像，采用光谱特征提取网络提取果树光谱特征。

S22，对剪裁后的CHM图像，采用空间特征提取网络提取果树空间特征。

如图4所示，S21及S22步骤详细如下：

在输入层分别将DOM和CHM传入到光谱特征和空间特征提取主干分支中，通过步骤S21和S22得到DOM和CHM图像分别经过各自主干中各种卷积模块获得的光谱特征和空间特征的卷积特征，将S21和S22获得的特征输入到跨模态融合变换模型，再经过Neck层、预测层获得果树识别结果。

主干网络中提取特征的具体流程如下：

(1)经过切片(Focus)操作扩充通道数、Conv和C3(其包含了3个Conv以及多个Bottleneck模块)卷积提取特征，得到F_S1和F_G1传入到CFT模型中，融合DOM的光谱特征和CHM的空间特征后F_S1和F_G1再反传入给相应的分支中，得到F_S2和F_G2；

(2)经过Conv+C3卷积之后传入到CFT模型中得到F_S2和F_G′₂，再反传入给相应的分支中，得到F_S3和F_G3，再将这两个特征图融合，得到特征图P3；

(3)对F_S3和F_G3进行与(2)相同的内容，得到F_S4、F_G4和P4；

(4)对F_S4、F_G4依次经过卷积Conv、空间金字塔池化(Spatial Pyramid Pooling，SPP和C3操作，接下来的内容与(2)相同，得到F_S5、F_G5和P5；

(5)在图6中，将图5的特征图结果P3、P4和P5作为Neck层的输入，Neck层包括Conv、C3、Concat拼接处理和上采样Upsample(在卷积提取特征后需要通过上采样特征图还原到原图)。融合不同尺寸特征图的特征信息，增强特征的多样性，然后传输到预测层，输出果树检测结果。

通过步骤S21和S22，可得到DOM和CHM图像分别经过各自主干中各种卷积模块获得的光谱特征和空间特征的卷积特征。

S23，将S21和S22获得的特征输入到跨模态融合变换模型。

图6是图4中的跨模态特征融合模型的结构图。经过两个主干的各种卷积层分别得到的光谱特征和空间特征，传入到跨模态特征融合模型中，以促进图像内和图像间的特征融合和信息交互，融合后的图像再传入各自的特征提取网络中进行卷积操作。具体步骤如下：

(1)输入数据。F_Si和F_Gi(i＝2,3,4)是DOM和CHM图像经过YOLOv5双流主干内各种卷积模块获得的光谱特征和空间特征的卷积特征图，再嵌入位置编码模块(PE)，使得CFT模型更多的选择并学习F_Si和F_Gi的序列信息。

(2)多头注意力机制。通过Layer Norm层归一化处理后，将Q，K，V传入到多头注意力机制(Multi-Head Attention)中，进行不同的线性投影变换Q，K和V得到不同维度的D_k和D_v，以并行处理的方式进行注意力池化操作；Q、K、V是由输入序列X∈R^i×d线性变换得到的，以向量矩阵的形式存在，i和d分别用于表示序列长度和特征尺寸，具体公式如下：

式中，D_k代表的是Query和Key的矩阵维度，D_v代表Value的矩阵维度，W^Q、W^K和W^V是经过线性映射的参数矩阵。

注意力层将矩阵Q和矩阵K的转置矩阵计算出聚合值，再与比例因子相乘，利用softmax(·)函数按照矩阵的列向量进行归一化计算，最后乘以矩阵V，获得加权值。以上过程通过Q、K和V三组向量表示的注意力函数如公式。

式中除以一个不为零的分母D_k，避免softmax值过大导致偏导数趋于零的现象，加上根号运算符使得括号内的数值满足期望为0，方差为1的分布。

(3)结果的转换与传输。经过拼接投影获得最终值Y’。

Y’＝MultiHead(Q，K，V)＝Concat(Y_i，...，Y_h)W^O (5)

O＝MLP(Y″)+Y″ (6)

MLP(Y″)＝FC₂(GELU(FC₁(Y″))) (7)

Y″＝Y′+X (8)

Y’与F_Si和F_Gi的特征序列相结合，再进行归一化处理，利用多层感知机(MLP)和GELU激活函数计算输出序列O，将输出序列O转换为最终结果F′_Si和F′_Gi，作为特征的补充信息，反向传输到原始模态分支中。

MLP处理：假设有m个样本n个特征则输入层X∈R^m×n。假设多层感知机只有一个隐藏层，且设隐藏层有h个神经元，则隐藏层的权重及偏差可表示为W_h∈R^n×h，b_h∈R^1×h，输出的标签值有q个则输出层的权重及偏差参数分别为W_o∈R^h×q，b_h∈R^1×q，则隐藏层的输出和输出层的输出可以通过以下公式计算：

H＝XW_h+b_h

O＝XW_o+b_o

GELU公式：

S24，结果输出。

将步骤S23输出的融合特征F′_Si和F′_Gi传入双流主干特征提取网络中，进行卷积操作，最后预测并输出目标检测结果。输出的检测结果为被检测对象在图像中的像素坐标(x,y,w,h)，其中，x,y为被检测目标矩形框的左上角坐标，w，h为被检测目标矩形的宽度值和高度值。

S3，验证本发明中基于特征融合的目标检测模型对空间特征及光谱特征融合有效性的方法。目的是用于验证在被检测对象的光谱特征或空间特征部分受损或缺失的情况下，本发明中所述基于特征融合的目标检测模型是否能仅依靠被检测对象的光谱特征或者空间特征亦能稳定检测出被检测目标。

S31，验证样本数据集制作。

将已标注的样本数据集，按一定比例划分为训练集、验证集和测试集，例如比例为6:2:2；然后从上述三个样本集中分别随机选取一定比例数量的图像，如随机抽取10％的图像，并在每张图像中随机选取一定比例的已标注的果树，例如选取15％的果树数量。

S32，替换所选取果树在DOM及CHM图像中所对应区域的原始像素值。

该步骤目的是模拟被检测目标的空间特征受损或者光谱特征受损的情形，例如，由于光照条件影响，被检测对象的图像成像质量差，造成光谱特征受影响，而其空间特征完好未受影响的情况。

针对所选取的果树，采用通用图像处理软件，将该果树在DOM图像或CHM图像中所对应的区域像素值以其邻域像素值替换，或将该果树所在区域像素值设置为无效值，例如数值0，然后保存修改后的样本图像，得到验证样本数据集。

在进行像素值替换处理时，可仅替换该果树在DOM图像，或者是仅替换改果树在CHM图像，或者是同时替换该果树在DOM及CHM图像中，所对应区域的原始像素值。

S32，采用验证样本数据集，基于本发明所述基于特征融合的目标检测模型进行训练、测试与验证。

针对验证集中的目标检测结果，分别统计：(a)被检测对象在DOM图像及CHM所对应区域图像均为完整的情况；(b)被检测对象在DOM图像或CHM所对应区域图像缺失的情况；(c)被检测对象在DOM图像及CHM所对应区域图像均缺失的情况；

S33，设定基于特征融合的目标检测模型对被检测对象的光谱特征与空间特征融合有效性判定准则。若上述统计结果中，(a)的检出统计精度大于所设定的期望检测精度U，例如U≥95％；并且，(b)的检出统计精度大于所设定的期望检测精度V，例如U≥90％；并且，(C)的检出统计精度小于所设定的误检率，例如W≤3％；并且有U>V。则可判定本发明所述基于特征融合的目标检测模型对被检测对象的光谱特征与空间特征融合有效。

以下以农作物遥感分类应用场景为例，详细阐述本发明的技术方案。本发明技术方案的适用场景包括但不仅限于农业领域目标检测应用场景。

通过设计3个对比试验，以农业领域果树目标识别为例，验证了本发明方法的可行性，证实了本方法相对于未进行特征融合的方法(如目标检测典型方法yoloV5)，具有显著优势。对比试验内容如下：

实验一是利用原始YOLOv5算法检测只有光谱特征的DOM图像中的果树；实验二是利用原始YOLOv5算法检测空间特征显著的CHM图像；实验三是基于本发明方法，融合DOM和CHM两种图像的光谱特征和空间特征并检测图像中的果树。实验结果如图9所示。

为了验证融合策略的有效性，分别将DOM和CHM图像中不同位置的果树进行了消除处理，得到光谱和空间信息受损的DOM和CHM图像，然后利用上述三种实验方法识别信息受损图像中的果树，使之可以通过另一种特征的作用将信息受损的果树准确识别出来。实验结果如图9所示。图中，第一行为光谱信息受损的图像及识别结果；第二行为空间特征受损的图像及识别结果。

在上述实验中，分别对信息完好的果树和信息受损的果树进行识别。如图7所示，在场景1中，DOM图像右上角果树的周围遍布杂草，果树的光谱特征不清晰，在这种情况下仅凭光谱特征不能识别出果树，本发明结合光谱特征和高程特征可以降低杂草的干扰，准确识别出DOM图像中的果树。在场景2中，CHM图像中的其他作物的高度与果树相近，且分布在果树相邻位置，相邻的冠层产生了连枝，在这种情况下，仅凭空间特征无法将其识别为果树，本发明融合光谱特征和空间特征，利用两种特征各自的优势，在识别过程中起到了互补的作用。可以准确识别CHM中的果树。图8中当果树的光谱信息受损时，基于YOLOv5算法不能光谱信息识别出受损的果树，而基于本发明方法，依据空间信息可以准确识别受损的果树位置；反之也成立。图9为以点的形式显示果树识别结果及在研究区的分布情况。果树识别的精确率为98.4％。

通过实验可以看出光谱和空间两种特征均在果树识别过程中起到了作用，同时也证明了跨模态特征融合模型的融合策略适用于果树识别，可显著提高果树识别的精度和可靠性。

以上所述的实施例，只是本发明较优选的具体实施方式，本说明书使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本公开的相同或不同实施例中的一个或多个。本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种基于光谱特征与空间特征融合的目标检测方法，其特征在于，包括：

S1，对采集的图像进行数据预处理，生成卷积神经网络所需的特征图层数据；

S2，构建特征提取网络，采用基于光谱特征与空间特征融合的卷积神经网络进行目标识别；

3)构建跨模态特征融合模型，进行单个特征图层内和多个特征图层间的特征融合，实现基于被检测对象的光谱特征及空间特征融合的精准目标检测。

2.根据权利要求1所述的方法，其特征在于，步骤S1包括：

3)在实现原始数据空间位置对齐、分辨率一致等处理后，对目标检测模型所需空间特征图层CHM及DOM图层进行剪裁；

4)利用所标注的被检测对象的统计特征值，剔除异常值。

3.根据权利要求2所述的方法，其特征在于，步骤S2包括：

S21，采用双流主干网络同时提取被检测对象的光谱特征和空间特征；

S22，将获得的光谱特征和空间特征输入到基于自注意力机制的CFT模型中进行融合，并将特征融合结果反馈至双流主干网络中的预测层，最终输出目标检测结果。

4.根据权利要求3所述的方法，其特征在于，在步骤S21中，所述双流主干网络提取特征的步骤包括：

1)读取步骤S1生成的DOM图像及CHM图层、经过Conv和C3卷积提取图像特征，得到F_S1和F_G1传入到CFT模型中，进行特征提取后的DOM光谱特征和CHM的空间特征的融合，然后将融合结果F′_S1和F′_G1再反传入给相应的分支中，得到F_S2和F_G2；

2)经过Conv+C3卷积之后传入到CFT模型中得到F′_S2和F′_G2，再反传入给相应的分支中，得到F_S3和F_G3，再将这两个特征图融合，得到特征图P3；

3)对F_S3和F_G3进行与2)相同的内容，得到F_S4、F_G4和特征图P4；

4)对F_S4、F_G4依次经过卷积Conv、空间金字塔池化SPP和C3操作，接下来的内容与2)相同，得到F_S5、F_G5和特征图P5；

5)将特征图P3、P4和P5作为Neck层的输入，Neck层包括Conv、C3、Concat拼接处理和上采样，然后传输到预测层，输出果树检测结果。

5.根据权利要求4所述的方法，其特征在于，在步骤S22中，进行特征融合的步骤包括：

1)输入数据F_Si和F_Gi，F_Si和F_Gi是DOM和CHM图像经过双流主干内各种卷积模块获得的光谱特征和空间特征的卷积特征图，再嵌入位置编码模块；

2)通过Layer Norm层归一化处理后，将Q、K、V传入到多头注意力机制中，进行不同的线性投影变换Q、K和V得到不同维度的D_k和D_v，以并行处理的方式进行注意力池化操作，D_k表示Query和Key的矩阵维度，D_v代表Value的矩阵维度。

6.根据权利要求4所述的方法，其特征在于，步骤S2还包括：

将输出的融合特征F′_Si和F′_Gi传入双流主干特征提取网络的预测层，最后预测并输出目标检测结果。

7.根据权利要求1所述的方法，其特征在于，步骤S1包括：

S11，对采集的图像进行预处理，获得正射影像图DOM图像、数字表面模型DSM图像和数字地形模型DTM图像；

S12，对正射影像图DOM图像、数字表面模型DSM图像和数字地形模型DTM图像进行分辨率重建；

S13，生成CHM图像；

S14，进行，图像裁剪与数据集标注。

8.根据权利要求7所述的方法，其特征在于，步骤S13包括：

1)统一DSM和DTM图像的分辨率和区域范围；

2)将分辨率和区域范围均一致的DSM和DTM图像简称为S和T；

3)分别设定S与T的无效值为a，b；

4)当S或T中的相同位置点像素值为无效值时，则判定该像素点为无效值；

5)剔除无效值：针对步骤4)判断的无效像素点，将S和T中对应像素值设置为同一无效标记值，得到S′和T′；

6)通过两图层相减得到单通道的CHM图像，其中，CHM＝S′-T′，CHM图是包含被检测对象果树的高度信息的图像：

7)根据果树种类的高度值有效范围，将CHM图像中高度值不在果树高度范围内的异常值去除。

9.根据权利要求7所述的方法，其特征在于，步骤S14包括：

1)采用图像区域重叠方式进行样本图像剪裁；

3)标注训练样本，标注信息包括：目标类别、坐标位置及宽高信息。

10.根据权利要求9所述的方法，其特征在于，

剪裁时采用空间重叠方式剪裁，重叠区域大小依据所标注样本中被检测目标的平均冠层大小信息设定重叠像素值。