CN114118284A

CN114118284A - 一种基于多尺度特征融合的目标检测方法

Info

Publication number: CN114118284A
Application number: CN202111450611.2A
Authority: CN
Inventors: 张光建; 尹一铭
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-01

Abstract

本发明具体涉及一种基于多尺度特征融合的目标检测方法，包括：构建目标检测模型并进行训练；获取待检测目标的图像数据；将待检测目标的图像数据输入经过训练的目标检测模型中；首先基于图像数据提取多尺度的特征图；然后通过逐层特征融合和反馈特征融合的方式对低层特征图进行充分融合，得到对应的低层融合特征图；再通过注意力机制仅对高层特征图进行融合更新，得到对应的高层融合特征图；最后基于低层融合特征图和高层融合特征图生成对应的多尺度融合特征图；基于多尺度融合特征图完成目标检测。本发明中基于多尺度特征融合的目标检测方法能够充分融合尺度特征并保证小目标的检测效果，从而能够提升目标检测的准确性和效果。

Description

一种基于多尺度特征融合的目标检测方法

技术领域

本发明涉及目标检测技术领域，具体涉及一种基于多尺度特征融合的目标检测方法。

背景技术

目标检测技术是计算机视觉领域的一大核心研究方向，旨在获取图像中感兴趣目标的所属分类和所在位置。目标检测技术不仅是目标跟踪、语义分割等诸多计算机视觉任务的研究基础，也被广泛应用于医学诊断、自动驾驶、智能视频监控、军事目标监测等多种民用和军用领域。随着应用场景的多元化和复杂化，一张待检图像中会包含多个不同尺度的目标，这使得现阶段的目标检测任务面临着尺度差异带来的严峻挑战。因此，多尺度目标检测也因此成为了目标检测领域的研究热点之一。

针对现有目标检测方法特征信息利用率不高的问题，公开号为CN113361528A的中国专利公开了《一种多尺度目标检测方法及系统》，其包括：构建包括依次连接的多个卷积模块和多个卷积支路的空洞金字塔网络模型；各卷积模块的输出分别连接一个卷积支路，卷积支路包括一个卷积操作和多个空洞卷积操作，卷积支路中的卷积操作和空洞卷积操作为并列关系；卷积支路的输出按照分辨率从低到高，依次将各第一特征图进行上采样操作后与同尺寸的相邻第一特征图进行元素级相加，获得多个融合特征图；根据目标检测数据集对空洞金字塔网络模型进行模型训练，获得目标检测模型。

上述现有方案中的目标检测方法通过不同卷积核的空洞卷积提取特征信息，使得卷积层具有不同尺寸的感受野，有助于单一特征层获取到更丰富的多尺度上下文特征信息，进而能够增强各个特征层对不同尺度目标的敏感性。实际目标检测时，是将图像数据输入训练好的目标检测模型中，由目标检测模型获得对应的多个融合特征图，进而基于多个融合特征图完成目标检测。因此，融合特征图在一定程度上决定着目标检测的效果。然而，现有方案在获得融合特征图时，多数技术手段停留在骨干网络的改进与微观层面卷积方式的改进，未在宏观上对特征金字塔的多尺度特征融合方式做出有效改进，未使用相关手段来细化和平衡多尺度语义特征，其虽然能提取到包含多尺度特征信息，但难以充分地融合多尺度特征信息，尤其对于小目标(小尺度特征)而言，其目标检测效果会受到限制，进而导致目标检测的准确性难以得到保证。因此，如何设计一种能够充分融合尺度特征并保证小目标检测效果的目标检测方法是亟需解决的技术问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种基于多尺度特征融合的目标检测方法，以能够充分融合尺度特征并保证小目标检测效果，从而提升目标检测的准确性和效果。

为了解决上述技术问题，本发明采用了如下的技术方案：

一种基于多尺度特征融合的目标检测方法，包括以下步骤：

S1：构建目标检测模型，并对目标检测模型进行训练；

S2：获取待检测目标的图像数据；

S3：将待检测目标的图像数据输入经过训练的目标检测模型中；

所述目标检测模型首先基于图像数据提取多尺度的特征图；然后通过逐层特征融合和反馈特征融合的方式对低层特征图进行充分融合，得到对应的低层融合特征图；再通过注意力机制仅对高层特征图进行融合更新，得到对应的高层融合特征图；最后基于低层融合特征图和高层融合特征图生成对应的多尺度融合特征图；

S4：基于多尺度融合特征图完成目标检测。

优选的，所述目标检测模型包括FPN网络、FFE网络和H-BFP网络；

FPN网络，用于基于图像数据提取多尺度的特征图，然后从最高层次开始向下进行逐层特征融合，并输出未进行特征融合的高层特征图，以及对低层特征图进行特征融合得到的初步融合特征图；

FFE网络，用于基于图像数据提取多尺度的特征图，然后将对应尺度的特征图与FPN网络输出的初步融合特征图进行逐层特征融合和反馈特征融合，以生成对应的低层融合特征图；

H-BFP网络，用于对高层特征图和低层融合特征图进行相加取平均，并提取对应的特征信息；然后基于特征信息和注意力机制对高层特征图进行融合更新，得到对应的高层融合特征图。

优选的，FFE网络中包括反馈特征输入模块；反馈特征输入模块获取FPN网络输出的初步融合特征图，并通过两条分支实现初步融合特征图的输入；

分支一，用于将初步融合特征图作为反馈信息输入到FFE网络中，使得初步融合特征图能够与对应尺度的特征图进行逐层特征融合，以输出对应的深度融合特征图；

分支二，用于将初步融合特征图输入至FFE网络的输出位置，使得初步融合特征能够与FFE网络输出的深度融合特征图进行反馈特征融合，以生成对应的低层融合特征图。

优选的，初步融合特征图与对应尺度的特征图进行逐层特征融合时，通过1*1卷积层调整FFE网络的输出，并将对应的通道大小调整为256，以输出对应的深度融合特征图。

优选的，FFE网络中包括全局模块；全局模块用于对输入的初步融合特征图进行全局特征提取，以获取初步融合特征图中更丰富的特征语义信息。

优选的，H-BFP网络首先对FPN网络输出的高层特征图P_h进行下采样，得到对应的高层特征图P_h+1；然后将高层特征图P_h和P_h+1与FFE网络输出的低层融合特征图进行相加取平均，得到各层融合后的特征信息；再对特征信息进行no local操作，并通过特征信息采样的方式得到与高层特征图P_h和P_h+1对应尺度的高层融合特征图P_h′和P′_h+1；再对高层融合特征图P′_h和P′_h+1进行卷积和激活函数操作，分别计算得到对应的注意力特征图；最后基于高层融合特征图P_h′和P′_h+₁对应的注意力特征图分别计算P_h与P_h′的加权和，以及P_h+1与P′_h+1加权和，进而更新高层融合特征图P′_h和P′_h+1。

优选的，通过如下公式更新高层特征图：

P′_h＝torch.sigmoid(self.conv(P′_h))*P′_h+(1-torch.sigmoid(self.conv(P′_h)))*P_h；

P′_h+1＝torch.sigmoid(self.conv(P′_h+1))*P′_h+1+(1-torch.sigmoid(self.conv(P′_h+1)))*P_h+1；

上述式中：P_h′、P′_h+1表示高层融合特征图，P_h、P_h+1表示高层特征图，self.conv(P′_h)表示P′_h经过卷积操作；self.conv(P′_h+1)表示P′_h+1经过卷积操作；torch.sigmoid(self.conv(P′_h))表示未更新高层融合特征图P_h′时计算的注意力特征图；torch.sigmoid(self.conv(P′_h+1))表示未更新高层融合特征图P′_h+1时计算的注意力特征图。S

优选的，通过动态平衡损失函数训练所述目标检测模型；动态平衡损失函数在平衡L1损失函数的基础上引入了动态策略，使得能够实现动态标签分配，并能够调整损失函数的形状。

优选的，动态标签分配通过如下公式表示：

上述式中：Label表示标签，T_now表示当前阈值；

训练时，先计算提议框与其真实框之间的IoUs得到集合I，然后从集合I中选择第K个最大值来更新T_now的阈值。

优选的，动态平衡损失函数通过如下公式表示：

上述式中：L_b表示动态平衡损失，α、b、γ通过公式αln(b+1)＝γ相互约束，α＝0.5，γ＝1.5；训练时，先计算提议框与其真实框之间的回归标签E，然后从回归标签E中选择第K个最小值来更新β_now；

通过微调因子fine_{_tune}实现对损失函数形状的微整以消除导数不连续的影响，微调因子的公式如下：

其中，fine_{_tune}＜γ。

本发明中的目标检测方法与现有技术相比，具有如下有益效果：

1、本发明通过逐层特征融合和反馈特征融合的方式对低层特征图进行了充分融合，使得低层特征图的语义信息能够得到增强，能够细化和平衡低层特征图的多尺度语义特征，进而生成具有高分辨率、高语义信息的多尺度融合特征图，从而能够提升小目标和小尺度特征的检测效果。

2、本发明通过注意力机制对高层特征图进行了融合更新，使得高层特征图的融合尺度能够与低层特征图保持一致，进而能够更好的得到多尺度融合特征图，以保证模型的检测性能，从而能够提升目标检测的准确性和效果。

3、本发明通过动态平衡损失函数训练目标检测模型的方式，能够实现动态标签分配并能够调整损失函数的形状，使得能够解决固定设置与动态训练间不一致的问题，进而能够保证固定设置和动态训练的一致性，从而能够提升目标检测模型的训练效果。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为目标检测方法的逻辑框图；

图2为目标检测模型的网络结构图；

图3为全局模块的网络结构图；

图4为H-BFP网络的网络结构图；

图5为动态平衡损失函数在不同β值设置下的梯度图像和损失图像，图中“gradient”表示梯度，“Smooth L1 Loss”表示平滑的L1 Loss曲线；

图6为FPN和MT-FPN的定性结果比较。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例：

本实施例中公开了一种基于多尺度特征融合的目标检测方法。

如图1所示，基于多尺度特征融合的目标检测方法，包括以下步骤：

S1：构建目标检测模型，并对目标检测模型进行训练；

S2：获取待检测目标的图像数据；

所述目标检测模型首先基于图像数据提取多尺度的特征图；然后通过逐层特征融合和反馈特征融合的方式对低层特征图进行充分融合，得到对应的低层融合特征图；再通过注意力机制仅对高层特征图进行融合更新，得到对应的高层融合特征图；最后基于低层融合特征图和高层融合特征图生成对应的多尺度融合特征图。

其中，低层特征图和高层特征图是相对的概念，使用时可根据需要定义低层特征图和高层特征图。本实施例将最高层次的特征图定义为高层特征图，将除最高层特征图以外的其他特征图定义为低层特征图。同时，将低层融合特征图和高层融合特征图进行组合，便能够得到对应的多尺度融合特征图。

S4：基于多尺度融合特征图完成目标检测。本发明的方案着重应用于多尺度融合特征图的生成和获取。而基于多尺度融合特征图完成目标检测是现有技术中的成熟手段，这里不再详述，可参考公开号为CN113361528A的中国专利《一种多尺度目标检测方法及系统》中公开的相关内容。

本发明通过逐层特征融合和反馈特征融合的方式对低层特征图进行了充分融合，使得低层特征图的语义信息能够得到增强，能够细化和平衡低层特征图的多尺度语义特征，进而生成具有高分辨率、高语义信息的多尺度融合特征图，从而能够提升小目标和小尺度特征的检测效果。同时，本发明通过注意力机制对高层特征图进行了融合更新，使得高层特征图的融合尺度能够与低层特征图保持一致，进而能够更好的得到多尺度融合特征图，以保证模型的检测性能，从而能够提升目标检测的准确性和效果。

具体实施过程中，如图2所示，目标检测模型(MT-FPN)包括FPN(特征金字塔)网络、FFE(反馈特征增强)网络和H-BFP(高层平衡特征金字塔)网络。

本实施例中以“四阶”的特征金字塔网络为例进行说明。

FPN网络，用于基于图像数据提取多尺度的特征图，然后从最高层次开始向下进行逐层特征融合，以输出未进行特征融合的高层特征图P₅(本实施例仅定义了一个高层特征图，其他优选实施例中可根据需要定义多个高层特征图)，以及对低层特征图进行特征融合后的初步融合特征图{P₂,P₃,P₄}(本实施例将除高层特征图P₅以外的其他特征图定义为低层特征图)。

FFE网络，用于基于图像数据提取多尺度的特征图，然后将对应尺度的特征图与FPN网络输出的初步融合特征图{P₂,P₃,P₄}进行逐层特征融合和反馈特征融合，以生成对应的低层融合特征图{P₂′,P₃′,P₄′}。

H-BFP网络，用于对高层特征图P₅及其上采样得到的高层特征图P₆和低层融合特征图{P₂′,P₃′,P₄′}进行相加取平均，并提取对应的特征信息，然后基于特征信息和注意力机制仅对高层特征图P₅和P₆进行融合更新，得到对应的高层融合特征图P₅′和P₆′。

FFE网络中包括反馈特征输入模块；反馈特征输入模块获取FPN网络输出的初步融合特征图{P₂,P₃,P₄}，并通过两条分支实现初步融合特征图的输入；

分支一，用于将初步融合特征图{P₂,P₃,P₄}作为反馈信息输入到FFE网络中，使得初步融合特征图{P₂,P₃,P₄}能够与对应尺度的特征图进行逐层特征融合，以输出对应的深度融合特征图；初步融合特征图与对应尺度的特征图进行逐层特征融合时，通过1*1卷积层调整FFE网络的输出，并将对应的通道大小调整为256，以输出对应的深度融合特征图。

分支二，用于将初步融合特征图{P₂,P₃,P₄}输入至FFE网络的输出位置，使得初步融合特征{P₂,P₃,P₄}能够与FFE网络输出的深度融合特征图进行反馈特征融合，以生成对应的低层融合特征图{P₂′,P₃′,P₄′}。

FFE网络中包括全局模块；结合图3所示，全局模块用于对输入的初步融合特征图进行全局特征提取，以获取初步融合特征图中更丰富的特征语义信息。

本发明通过全局模块对初步融合特征图进行全局特征提取，能够获取高层次初步融合特征图中更丰富的特征语义信息，进而能够解决高层次初步融合特征图分辨率较低的问题，从而有助于平衡低层初步融合特征图的细节信息。

具体实施过程中，结合图4(图中，Integrate和Refine分别表示Libra R-CNN中BFP的Integrate策略和Refine策略)所示，H-BFP网络首先对FPN网络输出的高层特征图P₅进行下采样，得到对应的高层特征图P₆；然后将高层特征图P₅和P₆与FFE网络输出的低层融合特征图进行相加取平均，得到各层融合后的特征信息；再对特征信息进行no local操作，并通过特征信息采样的方式得到与高层特征图P₅和P₆对应尺度的高层融合特征图P₅′和P₆′；再对高层融合特征图P₅′和P₆′进行卷积和激活函数操作，分别计算得到对应的注意力特征图；最后基于高层融合特征图P₅′和P₆′对应的注意力特征图分别计算P₅与P₅′的加权和，以及P₆与P₆′加权和，进而更新高层融合特征图P₅′和P₆′。

优选的，通过如下公式更新高层特征图：

P₅′＝torch.sigmoid(self.conv(P₅′))*P₅′+(1-torch.sigmoid(self.conv(P₅′)))*P₅；

P₆′＝torch.sigmoid(self.conv(P₆′))*P₆′+(1-torch.sigmoid(self.conv(P₆′)))*P₆；

上述式中：P₅′和P₆′表示高层融合特征图，P₅和P₆表示高层特征图，self.conv(p′₅)表示P₅′经过卷积操作；self.conv(p′₆)表示P₆′经过卷积操作；torch.sigmoid(self.conv(p′₅))表示未更新高层融合特征图P₅′时计算的注意力特征图，该注意力特征图用于计算P₅与P₅′的加权和，所得结果覆盖原始的P₅′，作为H-BFP网络的输出；torch.sigmoid(self.conv(p′₆))表示未更新高层融合特征图P₆′时计算的注意力特征图，该注意力特征图用于计算P₆与P′₆的加权和，所得结果覆盖原始的P₆′，作为H-BFP网络的输出。

具体实施过程中，通过动态平衡损失函数训练所述目标检测模型；动态平衡损失函数在平衡L1损失函数的基础上引入了动态策略，使得能够实现动态标签分配，并能够调整损失函数的形状。

动态标签分配通过如下公式表示：

上述式中：Label表示标签，T_now表示当前阈值；

平衡L1损失函数通过如下公式表示：

动态平衡损失函数通过如下公式表示：

通过微调因子实现损失函数形状的调整，微调因子的公式如下：

其中，fine_{_tune}＜γ。

本实施例在导数函数上找到x＝β的左右极限。如果左极限等于右极限并且等于此处L_b的导数值，则导数函数在x＝β处连续。事实上，导数函数是不连续的。如图5(a)所示，不同β值对应的导函数图像在x＝β时不连续。随着β值的减小，这个问题变得更加突出。为了消除导数不连续性的负面影响，将L_b的导函数图像拟合成平滑连续的图案。

加入微调因子后，图5(b)和图5(c)展示了动态平衡损失函数在不同β值设置下的损失图像和梯度图像。随着β值的减小，梯度趋于更快地饱和，因此较小的误差对模型的训练有更大的贡献，并且降低了由于导数不连续性带来的负面影响。

本发明通过动态平衡损失函数训练目标检测模型的方式，能够实现动态标签分配并能够调整损失函数的形状，使得能够解决固定设置与动态训练间不一致的问题，进而能够保证固定设置和动态训练的一致性，从而能够提升目标检测模型的训练效果。

为了更好的说明本发明目标检测方法的优势，本实施例中公开了如下试验。

一、数据集和评价指标

本实验在80个类别的MS COCO检测数据集上进行了所有实验。MS COCO包含115k个用于训练的图像(train2017)、5k个用于验证的图像(val2017)和20k个用于测试的图像(test-dev)。此外，test-dev标签未公开发布。我们在train2017上训练了模型，并在val2017上报告了消融研究的结果。我们将最终结果提交给test-dev的评估服务器进行比较。在不同的IoU阈值下，性能指标遵循标准的coco式平均准确率(mAP)指标，范围从0.5到0.95，间隔为0.05。

二、实验设备

本实验基于现有的mmdetection实现。mmdetection已升级到v2.0，具有比v1.0更高的基线性能。与基线相比，性能提升变得更加困难。因此，在mmdetection v2.0上重新实现了基线以进行公平比较。在1个NVIDIA Tesla V100 GPU(每个GPU 2张图像)上训练和测试分辨率为(1333,800)的检测器。模型训练了12个批次，初始学习率为0.0025。模型使用0.0001的权重衰减和0.9的动量。拟提出的MT-FPN可以应用于任何基于FPN的检测器。

Faster R-CNN和Libra R-CNN被选为基线检测器。在MT-FPN对比测试中，骨干网络为ResNet-50和ResNet-101。在另一个比较测试中，基线配备组合应用的MT-FPN和DBLL。此外，本实验添加ResNext101-64x4d作为骨干网络，以便与SOTA检测器进行比较。由于ResNext101-64x4d作为骨干网络训练时间过长，为了节省时间，测试组合应用效果实验的基线只是Faster R-CNN，而忽略了Libra R-CNN作为基线。后者用于消融实验。特征金字塔通道的维度设置为256，其他设置均遵循基本框架。本试验中的所有其他超参数都遵循mmdetection。

三、实验结果

1)本发明目标检测模型(MT-FPN)的结果

为了验证本发明方法提高性能的有效性，MT-FPN在COCO test-dev上被评估。如表1所示，当使用ResNet-50时，Faster R-CNN和Libra RCNN通过用MT-FPN替换FPN分别获得42.5和42.4的平均精度(AP)。使用ResNet-101时，基于MT-FPN的Faster R-CNN获得43.6AP，即超过了最先进的基于FPN的方法带来的收益。MT-FPN在AP_S指标上的表现说明，本发明方法(Ours)可以有效解决小尺度目标检测准确率较低的问题。

因此，本发明的MT-FPN是有效的。

表1基线方法和本发明方法在COCO TEST-DEV上的比较

(表1中，符号“*”表示通过MMDETECTION重新实现的结果)

2)本发明目标检测模型(MT-FPN)和动态平衡损失函数(DBLL)的结果

在表2中，MT-FPN和DBLL的组合应用的结果被展示。该表分为4组，第一组显示了单阶段检测器。第二组显示双阶段检测器。第三组是Faster R-CNN，这是实验的基线。第四组是实验的结果。在评估MT-FPN和DBLL组合应用的效果时，Faster R-CNN使用ResNet-50和ResNext101-64x4d作为主干。与基线相比，此方法的应用带来了6.8和2.7点的改进。考虑到表2中检测器的更高复杂性，此实验使用更基础的Faster R-CNN作为基线。实验结果展示出利用本发明方法(Ours)得到的性能在MS COCO基准测试上超过了大多数以前最先进的检测器，这是添加MT-FPN和DBLL实现的。从平均精度和推理速度的角度来看，与最先进的检测器相比，本发明方法实现了具有竞争力的性能。

表2 MT-FPN和DBLL的组合应用在MS COCO基准上的比较

3)可视化定性结果比较

图6展示了FPN和MT-FPN之间的定性结果的比较。可以看出，MT-FPN对小型、中型和大型物体产生了令人满意的结果，而典型的FPN产生了较差的结果。典型的FPN模型偶尔会遗漏一些对象，因为这些对象可能太小或在感受野之外。它也可能定位错误和别名的对象。MT-FPN通过使用反馈信息、全局模块、注意力机制和精细信息融合等各种技术来提炼和平衡多尺度语义特征，从而具有更高的判别性和更好的性能。两种模型都建立在具有ResNet-50和1×schedule的Faster R-CNN之上。图片选自COCO val-2017。我们比较检测性能在阈值为0.5下。

四、消融实验

本实验分析了MT-FPN的每个提议组件对COCO val-2017子集的影响。消融实验结果被报告在表3中。我们逐渐在带有ResNet-50的主干的libra-rcnn上添加FFE和H-BFP。而动态平衡损失(DBLL)和微调因子(fine_{_tune})的结合所带来的改进是基于表Ⅳ中的DLA。训练过程遵循1×schedule(12个EPOCH)。消融实验使用相同的设置进行，以进行公平比较。因为DBLL是在Balanced L1 Loss的基础上提出的。因此，所有的消融实验都使用libra-rcnn作为基线。

1)关于MT-FPN的消融实验

Libra-rcnn中原有的BFP平衡了各个层的语义信息，而H-BFP只平衡和提炼了高层特征的语义信息，所以用H-BFP替换BFP自然会影响性能。实验结果证明了我们的猜想。H-BFP将AP从38.6降低到38.5。但是，H-BFP的提议是基于FFE的提议。表3显示加入FFE增加AP3个点。并且FFE和H-BFP的组合使用将基线的AP值从38.6增加到42.4,提高了3.8个点。这表明，MT-FPN中的两个模块FFE和H-BFP相互促进。

表3每个组件对COCO val-2017的影响

2)关于DBLL的消融实验

表4显示DBLL将基线AP值从38.6提高到39.6。结果在更高的IoU指标(如AP75)上得到了极大的提升，验证了在训练期间改变损失函数以补偿高质量样本的有效性。DBLL(withfine_{_tune})将AP从38.6提高到39.8。因此，动态的改变损失函数形状和解决不连续性问题将带来合理的收益，尤其是在高质量指标上。动态平衡损失(DBLL with fine_{_tune})提高了基线1.2点AP。

表4每个组件对COCO val-2017的影响

需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。同时，实施例中公知的具体结构及特性等常识在此未作过多描述。最后，本发明要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种基于多尺度特征融合的目标检测方法，其特征在于，包括以下步骤：

S1：构建目标检测模型，并对目标检测模型进行训练；

S2：获取待检测目标的图像数据；

S4：基于多尺度融合特征图完成目标检测。

2.如权利要求1所述的基于多尺度特征融合的目标检测方法，其特征在于：所述目标检测模型包括FPN网络、FFE网络和H-BFP网络；

3.如权利要求2所述的基于多尺度特征融合的目标检测方法，其特征在于：FFE网络中包括反馈特征输入模块；反馈特征输入模块获取FPN网络输出的初步融合特征图，并通过两条分支实现初步融合特征图的输入；

4.如权利要求3所述的基于多尺度特征融合的目标检测方法，其特征在于：初步融合特征图与对应尺度的特征图进行逐层特征融合时，通过1*1卷积层调整FFE网络的输出，并将对应的通道大小调整为256，以输出对应的深度融合特征图。

5.如权利要求2所述的基于多尺度特征融合的目标检测方法，其特征在于：FFE网络中包括全局模块；全局模块用于对输入的初步融合特征图进行全局特征提取，以获取初步融合特征图中更丰富的特征语义信息。

6.如权利要求2所述的基于多尺度特征融合的目标检测方法，其特征在于：H-BFP网络首先对FPN网络输出的高层特征图P_h进行下采样，得到对应的高层特征图P_h+1；然后将高层特征图P_h和P_h+1与FFE网络输出的低层融合特征图进行相加取平均，得到各层融合后的特征信息；再对特征信息进行no local操作，并通过特征信息采样的方式得到与高层特征图P_h和P_h+1对应尺度的高层融合特征图P′_h和P′_h+1；再对高层融合特征图P′_h和P′_h+1进行卷积和激活函数操作，分别计算得到对应的注意力特征图；最后基于高层融合特征图P′_h和P′_h+1对应的注意力特征图分别计算P_h与P′_h的加权和，以及P_h+1与P′_h+1加权和，进而更新高层融合特征图P′_h和P′_h+1。

7.如权利要求6所述的基于多尺度特征融合的目标检测方法，其特征在于，通过如下公式更新高层特征图：

上述式中：P′_h、P′_h+1表示高层融合特征图，P_h、P_h+1表示高层特征图，self.conv(P′_h)表示P′_h经过卷积操作；self.conv(P′_h+1)表示P′_h+1经过卷积操作；torch.sigmoid(self.conv(P′_h))表示未更新高层融合特征图P′_h时计算的注意力特征图；torch.sigmoid(self.conv(P′_h+1))表示未更新高层融合特征图P′_h+1时计算的注意力特征图。

8.如权利要求7所述的基于多尺度特征融合的目标检测方法，其特征在于：通过动态平衡损失函数训练所述目标检测模型；动态平衡损失函数在平衡L1损失函数的基础上引入了动态策略，使得能够实现动态标签分配，并能够调整损失函数的形状。

9.如权利要求8所述的基于多尺度特征融合的目标检测方法，其特征在于，动态标签分配通过如下公式表示：

上述式中：Label表示标签，T_now表示当前阈值；

10.如权利要求9所述的基于多尺度特征融合的目标检测方法，其特征在于：动态平衡损失函数通过如下公式表示：

其中，fine_{_tune}＜γ。