CN117152414A

CN117152414A - 一种基于尺度注意力辅助学习方法的目标检测方法及系统

Info

Publication number: CN117152414A
Application number: CN202311115180.3A
Authority: CN
Inventors: 陈仕韬; 张勇建; 张皓霖; 郑南宁
Original assignee: Ningbo Shun'an Artificial Intelligence Research Institute; Xian Jiaotong University
Current assignee: Ningbo Shun'an Artificial Intelligence Research Institute; Xian Jiaotong University
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-12-01

Abstract

本发明公开一种基于尺度注意力辅助学习方法的目标检测方法及系统，通过明确强调特征表示的尺度敏感注意力，来增强复杂交通场景中的检测准确性，引入了一个辅助尺度估计网络，利用骨干网络的多尺度特征，并通过高斯热图进行监督，采用联合优化策略，同时学习辅助网络和物体检测器，从而促进对物体尺度变化敏感的特征，增强网络训练过程中主干网络对于多尺度信息的注意力，提高了模型对于图像中尺度信息的表达能力，在后续特征融合与预测阶段，在训练完成后的推理阶段，将尺度感知网络移除，使用标准的提取特征、特征融合、检测范式完成检测任务，在提升模型检测效果的同时不增加额外的计算负担，辅助网络设计中存在多种优化途径。

Description

一种基于尺度注意力辅助学习方法的目标检测方法及系统

技术领域

本发明属于自动驾驶环境感知领域，具体涉及一种基于尺度注意力辅助学习方法的目标检测方法及系统。

背景技术

准确的物体检测对于确保自动驾驶和智能交通系统(ITS)的安全至关重要。近年来，由于其精确的深度估计能力，LiDAR逐渐成为交通场景中物体检测的主要力量。然而，在某些重要的视觉任务中，如交通信号灯的识别和检测，交通标志的识别和检测，以及行人的识别和检测，图像仍然是不可或缺的，因为它们提供了丰富的语义纹理信息。

传统的视觉物体检测方法在很大程度上依赖于手工设计的特征，这些特征在性能方面常常存在局限性。深度学习的出现逐渐取代了这些传统方法。基于深度学习的物体检测方法使用卷积神经网络(CNN)或Transformer来提取特征。在智能交通领域，基于CNN的方法被广泛使用，由于其高实时性能和低资源消耗，而基于Transformer方法则不太受青睐。最先进的基于CNN的检测器在一般物体检测数据集的测试中取得了令人印象深刻的准确性和速度。然而，当应用于具有挑战性任务时，这些模型通常会遇到困难，例如在复杂的交通场景中检测多尺度物体。在真实的交通场景中，与驾驶相关的物体通常会从远处过渡到近距离，产生无可避免的尺度变化问题。即使在静止场景中，交通参与者如汽车和行人也在持续移动。此外，不同尺度的物体可以同时存在于视野中。例如，小型圆锥形桶和大型卡车可能出现在同一个场景中。对于智能交通或驾驶系统的实际物体检测器来说，检测结果的“连续性”和“稳定性”非常重要。因此，在设计视觉检测器时，解决物体检测中的大尺度变化挑战应该是一个重要考虑因素。

解决复杂交通场景中尺度变化的挑战源于现有通用检测器的结构和学习的限制。尽管使用了多尺度优化技术，但这些检测器未能有效捕捉到尺度敏感的特征表示。研究表明，将特征金字塔网络(FPN)融入模型可以提高其对尺度信息的敏感性，因此，现有的检测器将FPN集成到它们的模型中以解决检测中的多尺度问题。然而，特征金字塔所带来的性能改进主要来自于增强多层特征图，这种方法导致不同尺度级别特征之间尺度敏感性的不均匀分布，并引入了过多的冗余模型参数。此外，实时性在自动驾驶应用中非常重要。一些方法增加了可学习参数的数量以增强检测器，但没有考虑时间效率，这可能得不到最佳解决方案。辅助学习方法的成功应用为解决尺度问题提供了新的思路。这些方法不仅有可能增强鲁棒的特征表示，还能有效地保持原始框架的实时性能。

发明内容

为了解决现有技术中存在的问题，本发明提供一种基于尺度注意力辅助学习方法的目标检测方法，基于辅助学习的基本思想，通过在模型训练阶段引入额外的尺度注意力网络，增强网络训练过程中主干网络对于多尺度信息的注意力，提高了模型对于图像中尺度信息的表达能力，在后续特征融合与预测阶段，在训练完成后的推理阶段，将尺度感知网络移除，使用标准的提取特征、特征融合、检测范式完成检测任务，在提升模型检测效果的同时不增加额外的计算负担，辅助网络设计中存在多种优化途径，针对具体任务与应用场景调整辅助网络以应对复杂的交通场景。

为了实现上述目的，本发明采用的技术方案是：一种基于尺度注意力辅助学习方法的目标检测方法，对RGB图像进行数据增强后，基于基线2D目标检测网络预测检测任务结果，输出图像上预测的所有物体的包围框以及所有物体的类别，包括以下步骤：

提取RGB图像的多尺度图像特征；

对所述多尺度图像特征进行融合，得到融合后的特征表示；

根据融合后的特征表示生成检测结果；

基线2D目标检测网络包括主干网络模块、特征金字塔模块以及检测头，主干网络用于特征提取，特征金字塔用于进行特征融合，检测头用于预测输出结果。

进一步的，数据增强包括对输入的RGB图像裁剪、翻转以及仿射变换。

进一步的，主干网络为一个基于CNN的特征提取器，采用CSPDarkNet，包括一个注意力模块和四个Stage层，应用一个卷积模块，内核大小为3，之后为批归一化和Swish激活函数，在卷积之后，设置CSPLayer。

进一步的，特征金字塔网络包括多个不同尺度的特征图，由底层到顶层递增尺度的图像金字塔网络，每个特征图都对应原始图像的不同分辨率。

进一步的，检测头包括回归分支和分类分支，回归分支从预定义的对象中心点p预测边界框偏移量分类分支预测预定义的对象类别，还计算用于检测结果的目标评估分数因子/>检测头利用编码的多尺度融合特征，检测头中的网络生成最终的检测结果，Θ^h表示检测头网络的可学习参数，{F₁',F₂',...,F_k'}为不同空间分辨率上融合的特征图，如下式：

进一步的，在对检测头网络训练时，使用真实边界框及其对应的对象类别标签/>对模型优化进行监督，/>表示一组损失函数/>用于计算分类损失，用于计算回归损失，/>计算预测置信度损失。

进一步的，构建尺度敏感注意网络，引入基于基线2D目标检测网络中进行联合优化；

优化目标是像素逻辑回归，其中包含对焦损失的惩罚减少，如下式：

其中，α和β表示焦点损失的超参数，N表示图像I_Λ中关键点的数量，通过对N进行归一化，确保所有正样本的焦点损失归一化为1，根据CenterNet中的提出的该分支训练的设定；

总损失函数表示为：

其中λ_sa表示尺度敏感损失的权重系数，λ_cls、λ_reg和λ_obj表示检测损失的权重系数为预测置信度的损失。

进一步的，尺度敏感注意网络包括特征图归一化模块、热图生成模块和尺度估计模块；特征图归一化模块中，多尺度图像特征表示F_j作为输入，将具有不同分辨率的特征图下采样后统一到一个尺寸；热图生成模块使用来自注释的边界框信息生成一系列尺度分布的热图；尺度估计模块基于卷积网络预测尺度的生成结果，使用卷积层从归一化的特征图中提取特征，并在训练过程中生成预测热图。

与上述方法构思相同，本发明提供一种基于尺度注意力辅助学习方法的目标检测系统，对RGB图像进行数据增强后，基于基线2D目标检测网络预测检测任务结果，输出图像上预测的所有物体的包围框以及所有物体的类别，包括主干网络模块、特征金字塔模块以及检测头；

主干网络模块用于提取RGB图像的多尺度图像特征；

特征金字塔模块用于对所述多尺度图像特征进行融合，得到融合后的特征表示；

检测头根据融合后的特征表示生成检测结果。

另外提供一种计算机设备，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取所述计算机可执行程序并执行，所述处理器执行程序时能实现本发明所述的基于尺度注意力辅助学习方法的目标检测方法。

本发明同时提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现本发明所述的基于尺度注意力辅助学习方法的目标检测方法。

与现有技术相比，本发明至少具有以下有益效果：本发明引入辅助优化方法，利用可分离的尺度估计网络来学习对尺度敏感的注意力，从而使得检测网络中的特征表示能够有效地捕捉尺度变化；提高了模型对于图像中尺度信息的表达能力，在后续特征融合与预测阶段，在训练完成后的推理阶段，将尺度感知网络移除，使用标准的提取特征、特征融合、检测范式完成检测任务，在提升模型检测效果的同时不增加额外的计算负担，辅助网络设计中存在多种优化途径，针对具体任务与应用场景调整辅助网络以应对复杂的交通场景；在多个数据集和智能车平台测试上方法的性能，定性和定量评估结果表明，应用本发明所述方法到最先进的检测器可以提高检测准确性，检测器的实车部署展示了其稳健性和有效性。

附图说明

图1为现有2D目标检测框架与本发明使用框架对比。

图2为目标检测尺度注意力辅助学习框架。

图3为在Caltech行人检测数据集上的效果对比。

图4为智能车平台算法部署与测试效果。

具体实施方式

下面结合附图和具体实施对本申请的示范性实例进行详细阐明，其中包括本申请实施例的各种细节以助于理解。应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

在此说明，本发明可以灵活地集成到任何基于CNN的二维物体检测器，为了在整体的检测框架中说明本发明提供的方法，以YOLOX目标检测模型为例说明如何应用本发明的方法。首先建立一个基于CNN的基线2D目标检测器作为基线检测模型，所述基线检测模型在图2的左上区域(在训练与测试阶段)中表示。随后使用辅助学习方法构建尺度注意力分支，并使用数据集中已有的标签作为真值对训练过程进行尺度上的监督；通过联合优化，实现对模型主干网络的增强后，在推理阶段将尺度注意力网络移除，并在数据集的验证集上检测实际应用的效果。

步骤1：构建一个基线2D目标检测器。基线2D目标检测器输入为RGB图像，通过对输入的RGB图像裁剪、翻转、仿射变换进行数据增强后，将增强后的图像数据输入卷积神经网络预测检测任务结果，基线2D目标检测器输出图像上预测的所有物体的包围框以及所有物体的类别，该基线2D目标检测网络包括：主干网络模块、特征金字塔模块以及检测头，主干网络用于特征提取，特征金字塔用于进行特征融合，检测头用于预测输出结果，具体细节如下。

主干网络：主干网络用符号表示为f_backbone，是一个基于CNN的特征提取器，公式(1)说明了深度多尺度特征表示的生成，F_i的维度为[C_i,H_i,W_i]，通过卷积层应用于输入图像I_Λ，其尺寸为[C,H,W]，对于RGB图像，特征通道数C＝3。

{F₁,F₂,...,F_n}＝f_backbone(I_Λ；Θ^b) (1)

其中，Θ^b代表骨干网的可学习参数网络，n等于输出层的总数。

作为本发明中采用的常用主干网络CSPDarkNet，包括一个Focus模块和四个Stage层，应用一个卷积模块，内核大小为3，之后进行批归一化和Swish激活。在卷积之后，使用CSPLayer来提高CNN的学习能力和降低内存消耗。

特征金字塔网络：特征金字塔网络由多个特征图组成，每个特征图都对应不同的尺度。通常，特征金字塔是一个由底层到顶层递增尺度的图像金字塔网络结构，每个特征图都对应原始图像的不同分辨率，并包含了不同层次的语义信息；特征金字塔介于主干网络与检测头之间，特征金字塔用于对主干网络提取的多尺度图像特征进行融合。使用两种方式实现特征金字塔：(1)自顶向下构建：从原始图像开始，通过多次下采样来生成一组特征图，作为示例下采样时可以用池化或卷积操作。每次下采样都会减小特征图的尺寸并增加语义信息，然后，通过上采样或插值操作将较低层次的特征图上采样到与较高层次的特征图相同的尺寸，得到一组具有不同尺度的特征图，构成特征金字塔。(2)自底向上构建：从原始图像开始，通过多次卷积操作来生成一组特征图，每个特征图都具有不同的尺度和语义信息，随后，通过上采样或插值操作将较高层次的特征图上采样到与较低层次的特征图相同的尺寸，可以得到一组具有不同尺度的特征图，构成特征金字塔。输入主干网络提取图像特征{F₁,F₂,...,F_n}，最终得到融合后的特征表示{F₁',F₂',...,F_k'}。

检测头：检测头接收一组经过金字塔网络后在不同空间分辨率上融合的特征图，表示为{F₁',F₂',...,F_k'}。在检测头f_head中，有两个关键分支：回归分支和分类分支。通过利用编码的多尺度融合特征，检测头中的网络生成最终的检测结果，如公式(2)所示。回归分支从预定义的对象中心点(或对象关键点)p预测边界框偏移量分类分支预测预定义的对象类别Cpred_obj。此外，还计算了用于检测结果的目标评估分数因子/>Θ^h表示检测头网络的可学习参数。

为了促进上述检测头网络的参数学习，使用真实边界框及其对应的对象类别标签/>对模型优化进行监督，其中/>表示一组损失函数/>用于计算分类损失，/>用于计算回归损失，/>计算预测置信度损失。

本发明构建一个用于辅助学习的尺度敏感注意网络：为了提高多尺度物体检测的性能而不产生额外的推理时间成本，本发明提出一个尺度敏感注意网络。利用训练图像中的二维边界框，构建一个辅助的学习任务。尺度敏感的注意网络包括特征图归一化、热图生成和尺度估计。具体细节如下：

特征图归一化：特征图归一化接受多尺度图像特征表示F_j作为输入，其中每个F_j的尺寸为[C_j,H_j,W_j](j＝1,2,...,k)，k表示来自FPN的输出级别数量；采用输入的主干网络，通过增加数量的反卷积模块，将具有不同分辨率的特征图下采样后统一到一个尺寸上。然后，多级特征图的尺寸变为但实际上是输入图像的不同表示，用于检测。作为示例，本发明将C_n设置为128，S设置为4。

热图生成：热图生成模块使用来自注释的边界框信息生成一系列尺度分布的热图。为了消除不同尺度之间的可能歧义，本发明基于主干网络的下采样值将对象划分为k个尺度级别，作为示例，下采样值为然后，k个尺度标签均匀分为l＝2k个尺度间隔作为尺度标签。根据图像注释的对象框大小计算相对尺度标签，并生成一个基于所有对象在数据增强后的图像上的高斯分布G∈[0,1]，公式(3)说明了以对象框为中心的高斯核的计算，高斯热图区域的大小取决于对象的边界框大小，从而使热图能够表示对象的尺度。如果相同尺度级别的两个高斯区域重叠，将从相同尺度级别的两个高斯区域各自的元素中取最大值。

其中，(x,y)是对象区域中的像素位置，l是尺度间隔的级别索引，(x_c,y_c)是每个对象边界框的中心，σ_p是一个对象尺寸自适应的标准差。

尺度估计：尺度估计模块采用卷积网络预测尺度的生成结果。在尺度估计中，使用3×3和1×1的卷积层从归一化特征图中提取特征，并在训练过程中生成预测热图。在每个级别内，预测热图的尺寸为作为每个级别的表示。

使用辅助网络与标准的检测网络进行联合优化。通过整合前面提到的尺度敏感注意网络，可以获得图像尺度表示的预测结果。为了确保尺度估计分支对模型产生影响但不影响推理过程，通过联合优化将辅助网络集成到整体模型框架中，集成实现如下所示。

尺度敏感注意力损失：每个图像中的对象都使用真实标签生成一个热图G_xyl，预测结果来自尺度估计模块的输出。优化目标是像素逻辑回归(Pixel-wise LogisticRegression)，其中包含对焦损失的惩罚减少，如公式(4)所示。

其中，α和β表示焦点损失的超参数，而N表示图像I_Λ中关键点的数量。通过对N进行归一化，可以确保所有正样本的焦点损失归一化为1，根据CenterNet中的提出的该分支训练的设定，本发明将α设置为2，β设置为4。

端到端学习：利用从目标边界框和图像尺寸派生的真实标签生成尺度热图，从而消除对额外注释的需求。当本发明的方法应用于多个模型时，保留原始方法中使用的损失函数计算分类损失和回归损失/>总损失函数表示为公式(5)，。

其中λ_sa表示尺度敏感损失的权重系数，λ_cls、λ_reg和λ_obj表示检测损失的权重系数，为预测置信度的损失。

在本发明中，针对损失函数的系数进行了改进，将系数λ_cls、λ_reg和λ_obj分别设置为1.0、5.0和1.0。通过消融研究探讨辅助学习对检测任务的影响，并通过检查尺度敏感损失的权重系数λ_sa的影响研究尺度注意力损失的影响，具体表现为：较高的λ_sa值分别对小型和中型物体的检测有一定程度上性能的提升。然而，对大型物体的检测产生了影响，导致性能有所下降。这种在大型物体上的性能下降是因为当增加λ_sa值时，模型更倾向于优先处理具有挑战性的情况(针对小型和中型物体的检测)。为了通过联合优化骨干网络结构以突出二维图像中尺度信息的重要性，引入辅助网络，辅助网络用于估计尺度级别，并为尺度敏感损失函数做出贡献。整个优化过程使得模型能够进行端到端地学习，从而提高多尺度目标检测模型的性能。

在交通场景目标检测数据集以及智能车平台上，验证本发明提出的方法的有效性。行人检测的训练与验证中使用了Caltech数据集，在交通标志检测评估中使用了清华-腾讯100K(TT100K)数据集。Caltech数据集包含10小时的行车视频，并对视频中的每个行人进行了标注，该数据集包含大约20,000张带有行人注释的图像，分布在六个交通场景中，包括城市街道、高速公路和停车场。TT100K是一个广泛用于交通标志检测任务的基准数据集。TT100K包含6000张用于训练和3000张用于测试的图像。数据集中涵盖了80多个中国交通标志类别。本发明的验证平台是“先锋号”智能车辆，在2018年、2019年和2020年的中国智能车辆未来挑战赛中获得了冠军，该平台是申请人提供的L4级自动驾驶车辆。

本发明使用Faster RCNN、SSD、RetinaNet和AutoAssign作为参考方法，以及ATSS、GFL、YOLOX作为基线目标检测器。将尺度注意力方法应用于这些基线检测器上，并相应地产生了SA-ATSS、SA-GFL和SA-YOLOX，即改进后的检测器。采取同样的策略对这些模型进行训练，算法细节如下：

参数定义	数值
		Batchsize	8
训练轮数	200
		学习率	0.001
优化器	SGD
		权重衰减	0.0001
GPU	NVIDIA GTX 2080Ti
		深度学习框架	Pytorch
算法框架	MMDetection 2.25.1
		部署框架	OnnxRuntime 1.7.0

在行人检测与交通标志检测数据集上的测试结果如下表所示。

表1本发明提出的方法在Caltech数据集上结果

表2本发明提出的方法在TT100K数据集上结果

综上所述，本发明提供一种基于尺度注意力辅助学习方法的目标检测方法，基于辅助学习的基本思想，通过在模型训练阶段引入额外的尺度注意力网络，增强网络训练过程中主干网络对于多尺度信息的注意力，提高了模型对于图像中尺度信息的表达能力，在后续特征融合与预测阶段，在训练完成后的推理阶段，将尺度感知网络移除，使用标准的提取特征、特征融合、检测范式完成检测任务，在提升模型检测效果的同时不增加额外的计算负担，辅助网络设计中存在多种优化途径，针对具体任务与应用场景调整辅助网络以应对复杂的交通场景。

根据自动驾驶目标检测所面临的困难，提出基于尺度感知的解决方案。本发明在通用的目标检测框架基础上构建辅助尺度感知注意力网络，通过在目标检测数据集上的2D包围框标注信息结合辅助网络实现联合优化。在标准的模型训练流程中，首先对输入图片数据进行变换以实现数据增强，得到的图像进入一个标准的主干网络提取图像的特征表示，随后经过金字塔网络结构进行特征级融合，最后将特征送入检测头进行物体类别与位置的预测。而本发明中使用的辅助网络，使用并行与特征金字塔与检测头的分支完成尺度层级的监督，实现对主干网络表达图像多尺度目标特征能力的提高。在Caltech行人检测数据集以及TT100K交通标志检测数据集上的实验结果证明了本发明方法的有效性。此外，在智能车平台上测试改进后的目标检测模型，验证了本发明在实际应用场景的优越性与鲁棒性。

基于上述方法，本发明提供一种基于尺度注意力辅助学习方法的目标检测系统，对RGB图像进行数据增强后，基于基线2D目标检测网络预测检测任务结果，输出图像上预测的所有物体的包围框以及所有物体的类别，包括主干网络模块、特征金字塔模块以及检测头；

主干网络模块用于提取RGB图像的多尺度图像特征；

检测头根据融合后的特征表示生成检测结果。

本发明还可以提供一种计算机设备，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取所述计算机可执行程序并执行，处理器执行计算机可执行程序时能实现本发明所述的基于尺度注意力辅助学习方法的目标检测方法。

另一方面，本发明还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现本发明所述的基于尺度注意力辅助学习方法的目标检测方法。

所述计算机设备可以采用笔记本电脑、桌面型计算机、工作站或车载计算机。

对于本发明所述处理器，可以是中央处理器(CPU)、图形处理器(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)或现成可编程门阵列(FPGA)。

对于本发明所述存储器，可以是笔记本电脑、桌面型计算机、工作站或车载计算机的内部存储单元，如内存、硬盘；也可以采用外部存储单元，如移动硬盘、闪存卡。

计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance Random Access Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。

最后说明的是，以上所述，仅为说明本发明的具体实施方式，但本发明创造的保护范围并不局限于此，熟悉本技术领域的技术人员应该明白，在本发明技术方案的基础上，根据本发明创造的技术方案及其发明构思做出的修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于尺度注意力辅助学习方法的目标检测方法，其特征在于，对RGB图像进行数据增强后，基于基线2D目标检测网络预测检测任务结果，输出图像上预测的所有物体的包围框以及所有物体的类别，包括以下步骤：

提取RGB图像的多尺度图像特征；

对所述多尺度图像特征进行融合，得到融合后的特征表示；

根据融合后的特征表示生成检测结果；

2.根据权利要求1所述的基于尺度注意力辅助学习方法的目标检测方法，其特征在于，数据增强包括对输入的RGB图像裁剪、翻转以及仿射变换。

3.根据权利要求1所述的基于尺度注意力辅助学习方法的目标检测方法，其特征在于，主干网络为一个基于CNN的特征提取器，采用CSPDarkNet，包括一个注意力模块和四个Stage层，应用一个卷积模块，内核大小为3，之后为批归一化和Swish激活函数，在卷积之后，设置CSPLayer。

4.根据权利要求1所述的基于尺度注意力辅助学习方法的目标检测方法，其特征在于，特征金字塔网络包括多个不同尺度的特征图，由底层到顶层递减尺度的图像金字塔网络，每个特征图都对应原始图像的不同分辨率。

5.根据权利要求1所述的基于尺度注意力辅助学习方法的目标检测方法，其特征在于，检测头包括回归分支和分类分支，回归分支从预定义的对象中心点p预测边界框偏移量分类分支预测预定义的对象类别，还计算用于检测结果的目标评估分数因子/>检测头利用编码的多尺度融合特征，检测头中的网络生成最终的检测结果，Θ^h表示检测头网络的可学习参数，/>为不同空间分辨率上融合的特征图，如下式：

在对检测头网络训练时，使用真实边界框及其对应的对象类别标签/>对模型优化进行监督，/>表示一组损失函数，/>用于计算分类损失，/>用于计算回归损失，/>计算预测置信度损失。

6.根据权利要求1所述的基于尺度注意力辅助学习方法的目标检测方法，其特征在于，构建尺度敏感注意网络，引入基于基线2D目标检测网络中进行联合优化；

总损失函数表示为：

7.根据权利要求1所述的基于尺度注意力辅助学习方法的目标检测方法，其特征在于，尺度敏感注意网络包括特征图归一化模块、热图生成模块和尺度估计模块；特征图归一化模块中，多尺度图像特征表示F_j作为输入，将具有不同分辨率的特征图下采样后统一到一个尺寸；热图生成模块使用来自注释的边界框信息生成一系列尺度分布的热图；尺度估计模块基于卷积网络预测尺度的生成结果，使用卷积层从归一化的特征图中提取特征，并在训练过程中生成预测热图。

8.基于尺度注意力辅助学习方法的目标检测系统，其特征在于，对RGB图像进行数据增强后，基于基线2D目标检测网络预测检测任务结果，输出图像上预测的所有物体的包围框以及所有物体的类别，包括主干网络模块、特征金字塔模块以及检测头；

主干网络模块用于提取RGB图像的多尺度图像特征；

检测头根据融合后的特征表示生成检测结果。

9.一种计算机设备，其特征在于，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取所述计算机可执行程序并执行，所述处理器执行程序时能实现权利要求1-7任一项所述的基于尺度注意力辅助学习方法的目标检测方法。

10.一种计算机可读存储介质，其特征在于，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现权利要求1-7任一项所述的基于尺度注意力辅助学习方法的目标检测方法。