CN116109947A

CN116109947A - 一种基于大核等效卷积注意力机制的无人机图像目标检测方法

Info

Publication number: CN116109947A
Application number: CN202211074728.XA
Authority: CN
Inventors: 百晓; 卢子建; 王晨; 程姗
Original assignee: Jiangxi Research Institute Of Beijing University Of Aeronautics And Astronautics; Beihang University
Current assignee: Jiangxi Research Institute Of Beijing University Of Aeronautics And Astronautics; Beihang University
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2023-05-12

Abstract

本发明提出一种基于大核等效卷积注意力机制的无人机图像目标检测方法。包括：(1)首先对训练数据做预处理；(2)构建整个目标检测网络；(3)网络构建完成后，使用已经处理好的数据对网络进行训练，得到训练收敛的网络权重文件；(4)利用训练好的检测器，对给定图像进行推理，得到检测结果，输出检测出的物体类别、物体位置与置信度。相比较于传统的目标检测算法，本发明通过应用注意力机制提高了无人机图像的目标检测精度，并且能够检出更多的目标。

Description

一种基于大核等效卷积注意力机制的无人机图像目标检测方法

技术领域

本发明涉及计算机视觉中目标检测领域，具体属于一种对无人机图像进行目标检测，标示出图像中的目标的方法。

背景技术

近些年来，随着无人机的技术逐渐成熟，价格逐渐降低，无人机在军事领域和民用领域的应用逐渐广泛，在军事侦察、军事打击、农业检测、海洋勘探等领域发挥了重要的作用。在军事用途上，无人机具有无人员消耗、低成本高效比、配置灵活多元化等优点。农业应用上，人们主要利用无人机平台模块化的优势，帮助农业从业人员进行各种农业活动。1987年Yamaha公司受日本农业部委托，生产出世界上第一架农用无人机“R50”，目前日本拥有注册农用无人机2346架，成为农用无人机喷药第一大国。我国自2008年开始有了单旋翼无人机低空低量施药技术的研究。2013年1月，农用航空产业技术创新联盟在海南三亚成立，搭建包含高校、科研单位及企业在内的技术交流平台，主要从事相关技术与产品的研究，以推动农用无人机的深入应用。对于传统农业转型升级来说，无人机具有无与伦比的显著作用。一方面，无人机可以代替人工深入播种、施药、除虫、监管等所有农业生产环节之中，打破地形、天气等对于农业生产的影响，破除农业劳动力日渐短缺的困境。另一方面，无人机落地农业领域，也能促进农业生产效率与质量的提升，保障农业生产的安全。据相关数据显示，截至2018年，我国农业植保无人机市场规模已经突破25亿元，占工业无人机规模比重的近41％。2019年，市场规模进一步扩大，翻倍来到约50亿元。由此可见，无人机无论在生活中还是在军事用途中，都拥有巨大的应用价值。

在无人机的各种应用当中，视觉目标检测作为在给定图像中标注出特定目标的视觉任务，能够完成多种现实任务，在计算机视觉领域扮演着重要的地位。同时视觉目标检测作为视觉任务中的一大研究热点，也是诸多下游任务的基础任务，其重要性不言而喻。早期的目标检测算法大部分都是基于例如Harr手工特征等手工设计的特征，深度神经网络(Deep Neural Network，DNN)出现后，由于其强大的学习拟合能力，近些年来深度学习在目标检测中得到了普遍应用，现如今绝大部分的目标检测算法都应用到了深度神经网络算法。然而，由于无人机的固有特性，无人机拍摄的图像与普通图像有很大的区别：

1)由于无人机所在的高度与普通摄像机、监控摄像头等不同，无人机所处的视角不同，无人机的视场非常广泛，使无人机拍摄的图像背景容易比较复杂；

2)由于无人机拍摄时所处的高度，小目标居多。同时导致小目标集群问题和遮挡问题也比传统图像更加严重；

3)由于无人机高度是可变的，导致在小目标居多的基础上，目标的尺度变化相较于传统图像较为剧烈。

正由于这些因素，直接使用在传统图像数据集上，例如MS COCO训练好的目标检测器去检测无人机拍摄的图像，效果比在传统图像上检测要差得多。因此，为了适应现在的行业需要，在无人机拍摄的图像上有更好的检测效果，有必要在现有的目标检测器的基础上做适当的改进，来适配无人机图像的特点，更好地检测出无人机图像中拍摄的目标。

发明内容

本发明旨在解决上述问题，本发明在现有的目标检测算法Faster R-CNN的基础上，提出了一种基于改进的大核等效卷积注意力机制Faster R-CNN的目标检测方法。本发明可以充分地利用无人机拍摄的图像，通过引入了混合注意力机制的目标检测算法，充分利用图像中的全局信息与目标周围的上下文信息，对给定的图像进行定位。

本发明的目的可以通过以下技术方案来实现：

(1)首先对训练数据做预处理，具体地，对输入数据的标注文件先采取变换操作，读取对应图片的标注文件，转换为MS COCO数据集的指定格式，然后采取数据增强操作增加训练数据量，使网络训练更加充分；具体采用的数据增强手法有随机旋转平移缩放、随机亮度对比度变换、RGB色度偏移与饱和度变换、图片压缩、通道变换、图像模糊；

(2)构建整个目标检测网络，所述目标检测网络基于Faster RCNN网络构成，整体网络架构分为骨干网络、颈部网络、区域提出网络与检测头四部分；

(3)网络构建完成后，使用已经处理好的数据，对网络进行训练，得到训练收敛的网络权重文件；训练计划为12轮，分别在第9轮与第11轮将学习率降为原本的十分之一，基础学习率为0.02，优化算法使用带动量的随机梯度下降(Stochastic gradient descent，SGD)，这样能在一定程度上避免陷入局部最优；使用的参数中，动量为0.9，动量衰变正则化项为0.0001；训练时图片的变形大小宽为640像素，高为512像素，同时使用多尺度训练，随机将图片放大为960×768像素，增强模型的鲁棒性；

(4)利用训练好的检测器，对给定图像进行推理，得到检测结果。

所述步骤(2)中骨干网络、颈部网络、区域提出网络与检测头，具体包括：

骨干网络采用的模型为ResNet-50，共分为阶段0到阶段4，其中阶段0为对输入数据的预处理阶段，阶段1到阶段4为特征提取阶段；采用阶段1到阶段4生成的特征图作为整个网络中该部分的输出特征；

颈部网络采用以FPN为基础的多尺度检测结构，通过在骨干网络输出的特征与FPN输入特征之间插入注意力增强模块(Attention Enhance Module，AEM)得到对应尺度的注意力特征，在FPN的特征融合阶段使用特征融合模块(Feature Fusion Module，FFM)，利用AEM中得到的对应尺度的注意力特征，使用逐元素相乘的方式对该层级的特征进行监督，并采用插值放大与逐元素相加的方式进行特征融合；

将网络颈部输出的每个尺度的特征输入到区域提出网络(Region ProposalNetwork，RPN)得到初步的检测区域，使用RoI Align算法将提出的检测区域映射回输入特征图后，将得到的检测区域输入到检测头进行最终的检测区域筛选；

检测头部分包含公用的卷积层与检测分支、分类分支这几部分，输入特征经过公用卷积层运算之后，通过检测分支回归目标检测框的位置，得到分类分支预测目标类别与置信度。

所述步骤(3)中网络训练具体包括以下步骤：

对网络的训练需要将网络的预测结果与标记的地面真实样本计算损失，并将该损失最小化；使用的损失函数为L1损失函数：

其中smooth L1损失函数定义如下：

分类分支使用的损失函数为分类损失常用的交叉熵损失函数：

最终算法的整体损失函数为所有要训练的部件的损失之和，也就是分类损失与定位损失之和：

其中i为当前小批次中的一个锚点，L_cls为分类损失，L_loc为定位损失，λ为正则化参数；p_i为模型预测的分类概率，为地面真实标签的分类概率，如果该锚点为正样本则为1，负样本则为0，t_i为参数化的模型预测的目标位置，为标签中参数化的目标定位；N_cls与N_reg分别为当前小批次的分类样本数与回归样本数，用来做正则化之用；通过使用神经网络的反向传播算法(Back Propagation，BP)，使用优化器将网络的整体损失最小化，对网络进行训练。

所述步骤(4)中图像推理具体包括以下步骤：

(41)将图片加载到内存中，对图片进行变换操作，具体操作为多尺度缩放翻转，尺度为1280×1024，1920×1536；

(42)然后依次进行保持比例的变形操作、随机翻转操作、正则化操作、填充操作，将图片转为张量；

(43)对输入图片进行以上操作后，将得到的图片数据输入到整个网络中进行前向推理，得到对图片中目标的类别、置信度与检测框的推理结果；根据得到的推理结果，将检测结果可视化到输入的图片上，最后将包含检测结果的图片保存到指定位置作为输出结果。

与现有技术相比，本发明具有如下的有益效果：本发明在现有的目标检测器的基础上做适当的改进，通过应用注意力机制来适配无人机图像。相比较于传统的目标检测算法，本发明应用于无人机图像的目标检测精度更高，能够检出更多的目标。

附图说明

图1为本发明的整体流程示意图；

图2为本发明采用的骨干网络ResNet-50的网络结构图；

图3为FPN的结构示意图；

图4为大核等效卷积的结构示意图；

图5为基于大核等效卷积的注意力机制(LKA)的示意图；

图6为AEM的示意图；

图7为FFM的示意图；

图8为本发明所采用的多尺度检测结构的整体示意图；

具体实施方式

本发明的整体流程图如附图1所示。分为数据预处理、构建网络、训练网络、图片推理共四个步骤。接下来将根据发明内容，对本发明的具体实施方式进行进一步地介绍。

1.数据选择与预处理

本发明共采用两个数据集进行训练：

TinyPerson数据集是由中国科学院大学的团队提出的数据集，包含1610张图片，其中训练集共有717张图片，测试集共有893张图片，共标记了72561个目标。团队从无人机拍摄的视频中截取图片，每50帧截取一张图片并删除几乎重复的帧，同时忽略目标过于密集的区域。本文采用的数据集是由Hong等扩充标注过的数据集，标注文件采用了切分标注的方法，每个切片图片的宽为640像素，高为512像素，每两个图片切片的重叠区域像素为30，共标记了111415个目标，标记的目标数量多了50％。更多的训练数据，保证了模型能够得到更加充分的训练，也更能体现不同算法之间的性能区别。该数据集的特点是目标尺度比起其他无人机数据集更小。

VisDrone数据集是由天津大学的团队提出的无人机图像数据集，共有400段视频、10209张图片，提供目标检测、多目标追踪、人群计数3个赛道的标注。数据多种无人机摄像机拍摄，场景十分丰富，包括位置上(在中国相隔数千公里的14个不同城市拍摄)、环境(城市和国家)、对象(行人、车辆、自行车、等)、密度(稀疏和拥挤的场景)。同时包括了不同的天气、光照条件。手工标注的目标边界框或经常感兴趣的目标点超过260万个，如行人、汽车、自行车和三轮车。为了更好地利用数据，还提供了场景可见性、目标类和遮挡等重要属性。该数据集的特点是目标尺度变化剧烈。

数据增强是深度学习中一种普遍的数据处理方法，能够增加训练数据的多样性，从而提高训练出的模型的鲁棒性。采用的数据增强手段如下：

1)随机旋转平移缩放，变换限制为0.0625，尺度限制为0，旋转角度限制为45度，概率为0.5。

2)随机亮度对比度变换，亮度变换限制为[-0.1，0.3]区间内，对比度变换限制为[0.1，0.3]区间内。

3)随机应用RGB色度偏移与饱和度变换的其中一种。概率为0.1，RGB三种色度偏移范均为10，饱和度变换的色调变化范围为20，饱和度变化范围为30，亮度变化范围为20。

4)图片压缩，图片的压缩率最低为0.85，最高为0.95，概率为0.1。

5)图片通道变换，概率为0.1。

6)随机应用三种图像模糊方法中的一种，盒模糊、中值模糊、动态模糊，核尺寸均为3，概率均为1。

2.构建模型

本发明为基于深度学习的无人机图像目标检测算法。本发明基于经典的目标检测算法Faster R-CNN构建，通过添加混合注意力机制，利用生成的混合注意力特征同时对检测过程中的通道维度与空间维度进行监督，通过权值相乘的方式突出对无人机目标检测较重要的部分特征，实现对无人机图像目标检测的精度改进，使本发明的检测效果优于其他目标检测器。下面将分点介绍该目标检测器的结构：

基于深度学习的目标检测器都拥有骨干网络，其作用在于从输入的图片中初步提取输入的特征。由于历史发展原因，目标检测的骨干网络一般使用图片分类的网络。与图片分类任务不同的是，目标检测任务在应用分类的神经网络时，会去掉最后的全连接层与池化层，这两层用来产生对输入图片的分类预测结果。本发明沿用此做法，所构建的模型采用的骨干网络的结构如附图2所示。为了方便与其他算法的结果做对比，本发明所采用的骨干网络为ResNet-50，并如前所言，去掉了最后用于生成分类结果的池化层与全连接层。整个网络共包括5个阶段，阶段0为对图片的预处理，结构比较简单；其余阶段的基本组成单位为瓶颈模块，这里缩写为BTNK。下面对网络中的模块缩写进行简要的说明：

1)CONV：卷积层，后面的参数一次为卷积核大小，卷积核数量，步长。

2)BN：批正则化层。

3)RELU：RELU激活函数层。

4)MAXPOOL：最大池化层，后面的参数依次为核大小，步长。

5)BTNK：瓶颈模块，后面的参数一次为输入特征通道数，输入特征边长，输出特征通道数，步长。BTNK2由于输出特征通道数与输入相同，且步长为默认的1，因此只标有两个参数。

图2中用括号标记的为处在该阶段的特征图形状，例如阶段0的开头，(1,224,224)表示通道为1，宽高都为224像素。当步长S大于1时，该模块输出的特征图的宽与高会缩小S倍。依照附图2中的结构，最终输出的特征图会缩小32倍。本发明中取骨干网络的第1、2、3、4阶段输出的特征图作为下一步多尺度检测结构的输入特征。

近几年随着特征金字塔网络(Feature Pyramid Network，FPN)的出现，多尺度检测由于其对于不同尺度目标的适应能力，由此带来的大幅度的精度提升，成为了目标检测算法的必备操作。因此在传统的Faster R-CNN算法上加入FPN进行多尺度检测，也成为了常见的选择。本发明也以该方法为基底，通过加入注意力机制，实现了对输入特征的监督，进而得到了检测精度上的改进。

特征金字塔网络(FPN)的结构如附图3所示，该结构以骨干网络的4个阶段、不同空间分辨率的特征图为输入，输出相同空间分辨率的特征。如图中所示，骨干网络的输出特征先通过卷积核大小为1的卷积操作进行降低维度，使每个阶段的输入特征的通道数相同；然后从降维后的骨干网络的阶段3输出的特征开始，每个阶段的特征经过放大操作(常用的有插值操作、反卷积操作等)放大2倍后，使特征图与前一阶段降维后的特征在空间分辨率上一致，然后对这两组特征图进行逐元素加法操作进行融合，作为下一个步骤的输入。一直到阶段0的特征也参与融合后结束。这样就产生了4组通道数相同、空间分辨率逐渐递增的特征图。它们将作为下一阶段的输入参与计算。

增强无人机图像中小目标检测效果的其中一种方法是利用图像的上下文信息，也就是捕捉图像中的长距离信息。而捕捉图像的长距离信息常用的有两种方法，一种是采用自注意力的方式，另外一种方法为采用更大的卷积核去捕捉每一个像素点周围的信息，从而能够更多地感知每个像素点。前者的运算机制使得捕捉长距离信息的时间复杂度为O(n²)。因此出现了只在某一区域进行自注意力的方法以降低计算量；后者则由于大卷积核会带来急剧增加的参数量与计算量而一直得不到有效应用。最近的一些研究指出，只要训练技巧得当，大核卷积也能发挥出应有的性能。因此，本发明最后采用大核卷积的等效替代来生成混合注意力特征图，同时使用其监督特征融合后向下一层输出的特征图，其结构如附图4所示。由图中可见，该模块本身其实就是某种意义上的注意力模块，由原本的输入特征图与经过学习后的特征图进行逐元素相乘得到输出的结果。因此，这种注意力方式可以单独剥离出来运用到网络中。

改造过后的注意力模块如附图5所示，命名为大核卷积注意力(Large KernelAttention，LKA)该模块用来产生混合注意力特征图。该模块的特点在于采用可分离的大核卷积得到的特征图作为注意力特征向量。CBAM中的实验显示，采用更大的卷积核，能够利用到物体周围的上下文信息，同时又可以利用到物体周围与物体之间的关系。因此采用该模块，按照图中的设置，相当于采用了一个卷积核大小为21×21的卷积层，相比于CBAM中的7×7的卷积层，能够更加充分地捕捉全局关系和局部关系。因为添加该模块的位置为骨干网络之外，且该模块用来产生注意力特征张量，所以添加了批正则化和ReLU激活函数用来纠正卷积学习过程中产生的分布偏移误差，以及移除学习中得到的负值，最后使用3×3的卷积运算，并用Sigmoid函数将最后的结果归约到区间[0，1]之间。相比于SENet，LKA是一种混合注意力形式，添加了对目标检测更加有用的空间维度注意力；和SENet、CBAM等注意力形式相比，LKA首先避免了在通道层面或空间层面上进行池化操作，因此避免了损失；而且采用的大卷积层相比于前两者，可以充分地捕捉物体间的全局关系和物体周围的局部关系，使网络的性能更佳。该模块输出的第k层特征图记为Ak。

注意力增强模块(Attention Enhance Module,AEM)与特征融合模块(FeatureFusion Module,FFM)改造后的LKA已经能够带来性能提升。但利用注意力特征，可以针对FPN中的特征融合步骤进行监督，来改进FPN的特征融合，使两种尺度的特征融合不至于互相干扰。因此，针对该改进点，本发明引入了LKA，对其进行改造与应用，最后改造出了AEM与FFM。AEM的结构如附图6所示。实验证明，大核卷积注意力(LKA)产生的注意力Ai无法很好地代表特征融合模块(FFM)中，特征图Pi中语义信息的重要程度。因此需要对其进行改造。Ai无法在FFM中代表Pi的语义特征的重要程度，其根源在于FFM中使用了残差结构，而直接对骨干网络输出的特征应用LKA，两者的结构上存在不一致的现象，而这种不一致会导致产生的注意力不能代表FFM中需要的注意力特征。因此，使用残差学习对LKA进行改造即可使该结构产生的注意力很好地监督Pi与Mi的融合。由于改造后的结构使用了残差学习，因此被称为注意力增强模块(AEM)。实验证明了改造过后的模块产生的注意力Ai能够很好地监督Pi与Mi的特征融合。FFM的结构如附图7所示。FPN的特征融合处的一个输入为从其下层来的特征图Pi，使用从对应层级的AEM中产生的Ai进行监督；另一个输入为来自骨干网络的降维后的特征图Mi，这部分特征已经被该层级的AEM监督，所以这部分特征图不需要再次使用特征图监督。由此，整个改进的特征融合模块的结构就已经确定。为了简化结构，使用注意力监督的操作采用注意力特征通用的逐元素相乘操作。其中Pi代表FPN的第i层特征图，Mi表示来自AEM的输出特征图。

本发明采用的多尺度检测结构的整体结构如附图8中所示。从骨干网络输出的特征图分别经过降维后，通过各自分支的AEM产生该尺度的注意力特征，然后在FPN的特征融合阶段使用FFM对特征进行融合。最终输出的4个层级的特征图作为后续网络的输入。

候选区域提出网络(Region Proposal Network，RPN)用于从预先指定的锚框(Anchor Box)中初步区分前景区域与背景区域，并预测可能为目标边界框的锚框。相比于Fast R-CNN使用的选择搜索算法，算法的运行速度大大提高，且因为RPN相比于选择搜索算法贡献了数量更少、质量更高的候选区域，也加快了网络的收敛速度。本发明使用的RPN与Faster R-CNN原版本中的RPN保持一致。

Faster R-CNN的目标检测头分为目标定位分支与目标分类分支。整个检测头先采用。目标定位分支的作用为利用输入的特征，对从RPN中输出、经过RoI Pooling算法回归到原特征图上的候选区域进行回归，进一步修正检测框的位置。本发明使用的定位分支与Faster R-CNN原版中保持一致，使用的损失函数为L1损失函数：

其中smooth L1损失函数定义如下：

Faster R-CNN的分类分支的作用为利用输入的特征，对从RPN中输出、经过RoIPooling算法回归到原特征图上的候选区域进行分类，判定该候选区域属于哪一类别。本发明使用的定位分支与Faster R-CNN原版中保持一致，使用的损失函数为分类损失常用的交叉熵损失函数：

最终算法的整体网络结构如附图7所示。算法的整体损失函数为所有要训练的部件的损失之和，也就是分类损失与定位损失之和：

其中i为当前小批次中的一个锚点，L_cls为分类损失，L_loc为定位损失，λ为正则化参数。p_i为模型预测的分类概率，为地面真实标签的分类概率，如果该锚点为正样本则为1，负样本则为0，t_i为参数化的模型预测的目标位置，为标签中参数化的目标定位。N_cls与N_reg分别为当前小批次的分类样本数与回归样本数，用来做正则化之用。

依照发明内容中的相关内容构建整个网络。构建完成的网络结构在Faster R-CNN+FPN的基础上，应用了AEM+FFM来提升算法对于相邻尺度间特征的融合效率。

3.网络训练

网络训练使用4张NVIDIA Telsa T4作为训练设备,每张显卡的显存为16GB。基础学习轮次为12轮，分别在第9轮与第11轮将学习率降为原本的十分之一，基础学习率为0.02。优化算法使用带动量的随机梯度下降(Stochastic gradient descent，SGD)，这样能在一定程度上避免陷入局部最优。使用的参数中，动量为0.9，动量衰变正则化项为0.0001。训练时图片的变形大小宽为640像素，高为512像素，同时使用多尺度训练，随机将图片放大为960×768像素，增强模型的鲁棒性。使用反向传播算法，通过使用SGD优化器对网络进行训练，最小化网络损失函数，以达到训练网络的结果。

4.性能评估

表1为在TinyPerson数据集上，与现有算法进行对比的实验结果。实验结果证明，本发明在TinyPreson数据集上的泛化精度优于其他经典算法，体现了本发明的有效性。同时，实验数据证明，相比于在该数据集上精度最高的SSPNet算法，本发明的精度做到了更好，体现了本发明的优越性。

表1与现有方法的精度对比(TinyPerson)

表2为在VisDrone数据集上与其他现有方法的精度对比。由表中数据可以得到，本发明在VisDrone数据集上，仍然能够取得有竞争力的精度。

表2与现有方法的精度对比(VisDrone)

	<![CDATA[AP<sup>50:95</sup>]]>	<![CDATA[AP<sup>50</sup>]]>	<![CDATA[AP<sub>s</sub>]]>	<![CDATA[AP<sub>m</sub>]]>	<![CDATA[AP<sub>l</sub>]]>
						CornerNet	0.1741	0.3412	-	-	-
CenterNet	0.2603	0.4869	-	-	-
						Cascade R-CNN	0.1609	0.3191	-	-	-
RefineDet	0.1490	0.2876	-	-	-
						RetinaNet	0.1181	0.2137	-	-	-
本发明	0.2670	0.5150	0.1830	0.3810	0.4370

综上所述，本发明基于Faster R-CNN目标检测算法，提出了一种基于大核等效卷积的注意力机制的无人机图像目标检测算法。本发明在Faster R-CNN的基础上添加了FPN，另外在FPN的基础上添加了注意力机制，可以使网络更好地进行特征融合，从而改善无人机图像目标检测的效果。实验结果表明，本发明比现有技术具有更好的检测精度。

显然，上述实例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于大核等效卷积注意力机制的无人机图像目标检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于大核等效卷积注意力机制的无人机图像目标检测方法，其特征在于，步骤(2)中骨干网络、颈部网络、区域提出网络与检测头，具体包括：

将网络颈部输出的每个尺度的特征输入到区域提出网络(Region Proposal Network，RPN)得到初步的检测区域，使用RoI Align算法将提出的检测区域映射回输入特征图后，将得到的检测区域输入到检测头进行最终的检测区域筛选；

3.根据权利要求1所述的基于大核等效卷积注意力机制的无人机图像目标检测方法，其特征在于，步骤(3)中网络训练具体包括以下步骤：

其中smooth L1损失函数定义如下：

其中i为当前小批次中的一个锚点，L_cls为分类损失，L_loc为定位损失，λ为正则化参数；p_i为模型预测的分类概率，

为地面真实标签的分类概率，如果该锚点为正样本则为1，负样本则为0，t_i为参数化的模型预测的目标位置，

为标签中参数化的目标定位；N_cls与N_reg分别为当前小批次的分类样本数与回归样本数，用来做正则化之用；通过使用神经网络的反向传播算法(Back Propagation，BP)，使用优化器将网络的整体损失最小化，对网络进行训练。

4.根据权利要求1所述的基于大核等效卷积注意力机制的无人机图像目标检测方法，其特征在于，步骤(4)中图像推理具体包括以下步骤：