CN112966659B

CN112966659B - 一种基于深度学习的视频图像小目标检测方法

Info

Publication number: CN112966659B
Application number: CN202110345772.9A
Authority: CN
Inventors: 邱雁成; 邹勤
Original assignee: Beiwan Technology Wuhan Co ltd
Current assignee: Beiwan Technology Wuhan Co ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2022-08-23
Anticipated expiration: 2041-03-31
Also published as: CN112966659A

Abstract

本发明公开了一种基于深度学习的视频图像小目标检测方法。主要用于在视频图像中检测小目标,构建了一种层次化尺度敏感的深度卷积神经网络模型，它摒弃了锚框机制和区域提议机制，采用了类似多任务学习的三分支并行检测架构。利用小、中、大三个尺度的目标在不同深度的基础卷积特征中的表达差异性，产生三种对应不同尺度性质的融合特征，使用三个并行分支在这三种融合特征上分别检测三个尺度范围的目标。使用层次化多尺度训练机制使得三个并行检测分支互相独立、互不干扰地运行，极大提高了对小目标的检测能力，并能稳定地在目标尺度范围变化复杂的场景下使用。其对偶方向矢量机制来预测倾斜框的姿态，有效提升了对小目标的检测性能。

Description

一种基于深度学习的视频图像小目标检测方法

技术领域

本发明涉及计算机视觉和视频图像智能分析领域，具体涉及一种基于深度学习的视频图像小目标检测方法。

背景技术

随着深度学习技术在计算机视觉领域的迅猛发展，其对目标检测的能力越来越强。目标检测任务中，有些目标的像素面积非常小，如小于30×30像素，一般被称为小目标。小目标检测是一项非常具有挑战性的任务。但在实际应用中，小目标检测具有非常广泛的需求，例如无人机航拍影像中车辆的检测、遥感影像中篮球场的检测、显微图像中细胞的检测等。随着无人机、遥感卫星、显微成像技术的快速发展，高精度的小目标检测技术已成为越来越迫切的需求。

通常，目标检测技术是在视频图像中用一组方框将目标标示出来。传统的方法都是首先手工设计特征，然后通过提取的手工特征构造模板得到特征向量，最后使用AdaBoost或者SVM训练分类器。这样构建的目标检测器往往性能很差，因为采集数据时对光照条件、气象条件和拍摄姿态的影响非常敏感，成像效果差别非常大，手工设计的特征鲁棒性非常低，使得目标检测的精度较低，而面对小目标检测时，其误检率更高、检出率更低。

近年来，深度神经网络的应用在目标检测领域取得了非常惊人的成果。与传统方法相比，基于深度卷积神经网络目标检测算法在通用目标检测任务上的性能提高了60％之多，并且仍在不断上升。然而，小目标检测仍然面临许多困难和挑战。在同一幅图像中，就同一种目标来说，有的目标像素面积可能非常大，而有的目标可能很小，且可能呈现为纤细的长条形，如船舶，它们的尺度变化范围非常广。小目标通常占据很少的像素面积，在图像上显现为一小团像素块，朝向可以为任意方向，容易混杂在背景信息中，也给小目标检测带来了巨大困难。总的来说，小目标检测面临面积小、尺度多变和方向多变等问题。

本发明针对小目标检测的难题，发明了一种基于深度学习的小目标检测方法，解决视频图像小目标检测的多尺度、多方向等难题。

发明内容

为解决上述背景技术中存在的问题，本发明实例提出一种基于深度学习的小目标检测方法，包含一种层次化尺度敏感的小目标检测网络设计架构，和一种能增强卷积网络尺度敏感性的多尺度训练机制。

本发明的技术方案包含以下步骤：

步骤S1，制作训练样本构建数据集，所述数据集中图片为包含待检测类别目标的影像，且目标具有不同的尺度，需包含大尺度(如大于90×90像素)，小尺度(如小于30×30像素)，以及中尺度(介于小尺度和大尺度之间)，对图像中的目标使用倾斜框标注。

步骤S2，构建神经网络检测模型，该模型分为三部分：基础特征提取模块，特征融合模块、方框检测模块。其中，在基础特征提取模块之后，网络分成了三个分支，每个分支包含独立的特征融合模块和方框检测模块，三个分支分别检测大、中、小三个尺度的目标。

步骤S3，构建层次化多尺度训练机制，使用S1构建的数据集对步骤S2构建的检测模型进行训练。该训练机制使S2所构建的模型中各尺度分支互相独立、互不影像地预测各自尺度范围内的目标。

步骤S4，利用步骤S3训练好的模型在视频图像中检测目标。

进一步地，上述步骤S1具体如下。

步骤S1-1，在视频图像数据系统中，选择不同场景的含有待检测目标的场景，收集M张样本图像。

步骤S1-2，使用标注软件将M张图像中的全部待检测目标以倾斜矩形框的方式标注出来，得到M张图像对应的标签数据。

进一步地，上述步骤S2所述神经网络模型包括基础特征提取模块、特征融合模块和方框检测模块3个组成部分。本发明所设计地神经网络架构如图1所示，具体如下。

步骤S2-1，基础特征提取模块由深度卷积网络以残差堆叠的方式构成。本发明使用Resnet50作为基础特征提取模块的网络结构。第1层和第2层是conv1，第3至11层是conv2_x，第12至23层是conv3_x，第24至41层是conv4_x，第41至50层是conv5_x。输入图像的分辨率为H×W，则conv2_x至conv5_x输出的基础卷积特征的分辨率分别为

和

分别称为C2、C3、C4和C5。选择这4个基础卷积特征构成基础特征金字塔，作为基础特征提取模块的输出。

步骤S2-2，特征融合模块分为三个分支，每个分支选取特定的基础特征融合得到单层特征，如图3所示。小尺度分支选取C3、C4、C5以自顶向下的方式融合得到P3，再经过3层转置卷积得到F3，F3的分辨率为H×W；中尺度分支选取C2、C3、C4以自底向上的方式融合得到P4，再经过2层转置卷积得到F4，F4的分辨率为

大尺度分支选取C3、C4、C5以自底向上的方式融合得到P5，再经过2层转置卷积得到F5，F5的分辨率为

步骤S2-3，方框检测模块接收特征融合模块输出的融合特征，检测每个分支范围内的待检测目标。每个分支的方框检测网络结构相同。但是它们的参数不同。检测模块接收融合特征后，分别输入4个卷积网络，输出4个张量。每个卷积网络都由两个卷积层构成，每层的卷积核都为3×3，步长为1，第一层的卷积核数量都为256，第二层的卷积核数量则不尽相同。第一个网络输出的张量表示目标的中心点热力图，通道数为C，C为所预测的目标类别；第二个网络输出的张量表示目标的中心点量化补偿，通道数为2；第三个网络输出的张量表示目标的方框宽高值，通道数2×C；第四个网络输出的张量表示目标的方框姿态，通道数为4。经过后处理，中心点量化补偿、方框宽高值和方框姿态张量会转换为向量，向量的长度表示可以预测目标的最大数量。从中心点热力图可以提取所预测目标的中心点坐标和类别。中心偏移向量会修正中心点坐标使其更为精确，再结合方框的宽高值和方框姿态就能获得倾斜矩形框的坐标。

步骤S2-4，每个尺度分支预测各自尺度范围内的目标，在训练时，模型计算过程到此结束；在测试时，还要使用后处理过程将三个尺度分支的预测结果合并，使用非极大值抑制算法去除重复的预测框。

进一步地，步骤3是本发明提出的层次化多尺度训练机制。该训练机制可以使步骤2所构建的模型中各尺度分支互相独立、互不影像地预测各自尺度范围内的目标，具体过程如下所述。

将训练数据的标注分为三组，分表为小尺度、中尺度、大尺度的目标的标注。小尺度检测分支输入的融合特征分辨率为H×W，小尺度目标训练标签的坐标保持不变；中尺度分支的分辨率为

中尺度目标训练标签的坐标缩小为

大尺度分支的分辨率为

大尺度目标训练标签的坐标缩小为

每个分支中，中心点热力图使用改进的focal loss监督训练；中心点偏移补偿使用L1损失函数训练；方框的尺寸，既宽度和高度，也是使用L1损失函数训练；方框的姿态，具体来说就是对偶方向矢量，使用L1损失和几何损失共同监督训练。将所列4项加权求和得到每个分支的损失函数。

最后，将三个分支的损失函数加总求和，便得到整个模型总的损失函数。

进一步地，以步骤3方式训练步骤2构建的神经网络，得到收敛的检测模型。使用该检测模型和适当的后处理过程即可在测试图像中检测待检测的目标，具体过程如下。

步骤4-1，将待检测图像输入到模型中，则三个检测分支分别预测三个尺度范围内的目标。每个检测分支都会输出4个张量，分别为中心热力图张量、中心偏移张量、方框宽高张量和方框姿态张量。

步骤4-2，对中心热力图使用一个3×3最大池化层抑制非极大值。接着，在每个分支的中心热力图中选择前100个峰值，峰值所在的平面坐标即为中心点坐标，峰值所在通道坐标即为类别，峰值本身表示检测为目标的置信度得分。

步骤4-3，通过峰值所在平面坐标找到中心偏移张量和方框宽高向量对应坐标的值，即为同一目标的中心点偏移值和方框的宽高值。

步骤4-4，通过峰值所在平面坐标找到方框姿态张量对应坐标的值，它是该目标方框的对偶方向矢量。假设预测的对偶方向矢量为

则取

为预测结果。

步骤4-5，将同一目标的中心点坐标、中心点偏移量、方框的宽度和高度、方框的对偶方向矢量在原始图像坐标系上转换为方框坐标。

步骤4-6，将三个尺度分支的检测结果合并，然后使用非极大值抑制算法去除重复的检测框。

基于同一构思，本发明还涉及一种电子设备，包括：一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一所述方法。

基于同一构思，本发明还涉及一种计算机可读介质，其上存储有计算机程序，其特征在于：所述程序被处理器执行时实现上述任一所述方法任一所述的方法。

本发明的优点：

1.本发明设计了一种新型的基于卷积神经网络的尺度敏感的小目标检测模型。该模型摒弃了常见的锚框机制和区域提议机制，大幅降低了模型的硬件开销，并提升了模型的检测速度。在此基础上，本发明使用了类似多任务学习的架构，将总的检测任务分解为小尺度目标检测、中尺度目标检测、大尺度目标检测三个子任务。本发明设计的检测模型使用三个并行分支分别执行三个子任务。三个分支使用独立的特征融合策略，使得每个分支具有很好的尺度敏感性。因而本发明所设计的小目标检测模型具有非常高的检测精度。

2.本发明使用了层次化多尺度训练机制，结合分尺度并行三分支的网络结构设计，使得每个分支在检测各自尺度范围的目标时互相独立、互不干扰。因而本发明所设计的模型在小目标检测和多尺度目标检测两种特定场景下都具有突出的性能表现。

3.本发明使用了对偶方向矢量的机制来表示目标的姿态。这种表示机制具有更强鲁棒性，可以显著提高检测检测的精确度。

附图说明

图1是本发明实例的神经网络模型架构图。

图2是本发明实例所提模型中基础特征提取模块的示意图。

图3是本发明实例所提模型中特征融合模块的示意图。

图4是本发明实例所提模型中方框预测模块的示意图。

图5是本发明实例的层次化多尺度训练机制的示意图。

图6是本发明的工作流程图。

具体实施方式

为使本发明实施方式的目的、技术方案和和特点说明更加清楚，下面结合本发明的附图，对本发明实施方式中的技术方案进行清晰、完整地描述。显然，所描述的实施方式是本发明实施方法中的一部分，而不是全部。本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式，都属于本发明保护的范围。因此，以下对在本发明附图中所提供的消息描述并非旨在限制要求本发明的保护范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式，都属于本发明保护的范围。

本发明提供的方法设计了一种新型的基于深度学习的小目标检测模型，并提出了一种层次化多尺度训练机制和一种预测倾斜框姿态的对偶方向矢量机制。目标检测总体架构参见图1，模型的基础特征提取模块参见图2，模型的特征融合模块参见图3，模型的方框预测模块参见图4，层次化多尺度训练机制参见图5。本发明的具体实施流程参见图3，包含以下步骤。

步骤S3，构建层次化多尺度训练机制，使用S1构建的数据集对步骤S2构建的检测模型进行训练。该训练机制可以使S2所构建的模型中各尺度分支互相独立、互不影像地预测各自尺度范围内的目标。具体请见本发明实例步骤S3。

步骤S4，利用步骤S3训练好的模型在视频图像中检测目标。

进一步地，上述步骤S1具体如下。

步骤S1-1，在视频图像数据系统中，选择不同场景的含有待检测目标的场景，收集M张样本图像，其分辨率可以设为1200×720。

步骤S2-1，基础特征提取模块由深度卷积网络以残差堆叠的方式构成。本发明使用Resnet50作为基础特征提取模块的网络结构，如图2所示。第1层是3×3卷积，第2层是步长为2的3×3卷积，它们组成conv1；第3至11层是conv2_x，它包含3个残差块，第一个卷积层步长为2；第12至23层是conv3_x，它包含4个残差块，第一个卷积层步长为2；第24至41层是conv4_x，它包含6个残差块，第一个卷积层步长为2；第41至50层是conv5_x，它包含3个残差块，第一个卷积层步长为2。输入图像的分辨率为H×W，则conv2_x至conv5_x输出的基础卷积特征的分辨率分别为

和

自顶向下融合过程为，首先基础特征经过1×1卷积得到中间特征，从最深层的中间特征开始，分辨率放大2倍与下一层的中间特征逐元素相加，由深至浅渐次传递，在最浅层经过3×3卷积得到融合特征。而自底向上融合过程为，首先基础特征也要经过1×1卷积得到中间特征，相反的是从最浅层的中间特征开始，分辨率放大2倍与上一层的中间特征逐元素相加，由浅至深渐次传递，在最深层经过3×3卷积得到融合特征。

步骤S2-3，方框检测模块接收特征融合模块输出的融合特征，检测每个分支范围内的目标。每个分支的方框检测网络结构相同，如图4所示。但是它们的参数不同。检测模块接收融合特征后，分别输入4个卷积网络，输出4个张量。每个卷积网络都由两个卷积层构成，每层的卷积核都为3×3，步长为1，第一层的卷积核数量都为256，第二层的卷积核数量则不尽相同。第一个网络输出的张量表示目标的中心点热力图，通道数为C，C为所预测的目标类别；第二个网络输出的张量表示目标的中心点量化补偿，通道数为2；第三个网络输出的张量表示目标的方框宽高值，通道数2×C；第四个网络输出的张量表示目标的方框姿态，通道数为4。经过后处理，中心点量化补偿、方框宽高值和方框姿态张量会转换为向量，向量的长度表示可以预测目标的最大数量。从中心点热力图可以提取所预测目标的中心点坐标和类别。中心偏移向量会修正中心点坐标使其更为精确，再结合方框的宽高值和方框姿态就能获得倾斜矩形框的坐标。

进一步地，

步骤S3，本发明提出的层次化多尺度训练机制。该训练机制可以使步骤2所构建的模型中各尺度分支互相独立、互不影像地预测各自尺度范围内的目标，具体过程如下所述。

令

表示输入的图像，宽度为W高度为H。对每个尺度范围的目标，神经网络输出中心点热力图

中心点偏移补偿

方框尺寸

和方框姿态

其中*∈{s，m，l}分别表示小尺度中尺度和大尺度。假设训练样本图像I中有一个目标，它的方框的左上和右下角的坐标是(x₁，y₁，x₂，y₂)。那么其中心点为

点p坐标为

它的尺寸为

s表示为

中心点热力图

其中R_(*)为降采样率，C是类别数量。这里C＝1，只有一个类别。预测结果

表示该点对应一个目标方框中心，

表示背景。对图像I中每个尺度的目标，其方框中心点为p，类别为c＝1。点p在中心点热力图上的对应点为

本发明使用高斯核将训练样本的方框中心点铺在热力图

上，

这里标准差σ_p与方框尺寸有关。如果两个中心点的高斯分布重合，取较大值。本发明使用改进的focal loss监督神经网络预测中心点热力图，它是一个带惩罚项针对像素逻辑回归的优化目标函数：

其中α和β都是focal loss中的超参数，N_(*)是图像I中尺度为*的目标中心点数量。N_(*)用于对所有该尺度的正样本中心点的focal loss值进行归一化。在本发明中设置α＝2和β＝4。

由于中心点热力图的尺寸和输入图像不同，从中心点热力图上的预测的坐标存在量化偏移，每个目标方框中心点的偏移补偿为

偏移补偿预测使用L1损失函数训练：

在训练中只对点

所在像素计算损失值，其它位置不参与计算。

在预测了目标方框中心点p以后，还需要预测方框宽度和高度，或者说方框的尺寸

点p所在目标方框的标注尺寸为s_p。与中心偏移补偿类似，方框尺寸的优化目标也是L1损失函数：

在预测方框的宽度和高度时不会对其正则化或是从中心点热力图中获取，而是直接在输入图像的坐标系中回归目标的尺寸。

如果执行倾斜框检测任务，还需要预测方框的姿态

也就是。点p所在目标方框的标注的对偶向量为A_p，其预测的对偶方向向量为

倾斜框姿态预测网络的优化目标包含三部分。第一部分是L1损失函数：

两个向量

和

大小相等方向相反，将这个约束条件作为优化目标第二部分：

两个向量

和

同时还是单位向量，优化目标第三部分是：

因此倾斜框姿态损失函数为：

L_(*)attitude＝λ_a1L_(*)a1+λ_a2L_(*)a2+λ_a3L_(*)a3 (7)

在本发明中设置λ_a1＝1，λ_a2＝0.5，λ_a3＝0.5。

本发明设计的网络使用三个分支检测不同尺度范围的目标，每个检测分支的优化目标如下：

L_(*)＝L_(*)k+λ_offL_(*)off+λ_sizeL_(*)size+λ_attitude L_(*)attitude (8)

在不进行另外说明的情况下，本发明中设置λ_off＝1，λ_size＝0.1,λ_attitude＝0.1。整个网络的优化目标则是：

Loss＝L_(s)+L_(m)+L_(l) (9)

显然，如果不加限制每个尺度检测分支在训练时会受到其它尺度样本的影响。例如，小目标检测分支在训练时L_(s)会计算大中目标样本的损失值，小目标检测分支在L_(s)在回传梯度更新权重参数时会受到大中尺度样本的干扰。中尺度和大尺度目标检测分支也是如此。

假设训练时正向计算的目标宽度高度分别为w和h，那么只有当

时，该目标样本的梯度才参与反向计算。这里l_(*)和u_(*)分别表示尺度(*)检测分支的有效尺度的上下限。本发明设计的模型的三个检测分支经过了不同采样率地缩放，也就是说三者计算的坐标参考系不相同。因此在生成训练标签数据时，需要分别对应三个检测分支的样本尺寸生成三组标签数据，如图5所示。输入图像尺寸为H×W,目标方框中心点热力图有3个。对应小尺度检测分支的中心点热力图尺寸为H×W，只包含小尺度目标的中心点分布；对应中尺度检测分支的中心点热力图尺寸为

只包含中尺度目标的中心点分布；对应大尺度检测分支的中心点热力图尺寸为

只包含大尺度目标的中心点分布。如果训练图像中不包含某个检测分支尺度范围内的目标，则使用空白的热力图代替。例如图5中的训练图像不含有大尺度的目标，对应大尺度检测分支的热力图仍然产生，这是为了训练模型时便于使用较大的batch size。不同尺度分支训练数据的中心点热力图上高斯分布的标准差σ＝φ_(*)r，这里r即是实际标注框分配正样本的分布圆半径，φ_(*)表示尺度为(*)的系数。分布半径r由实际标注框分配正样本的交并比阈值t和标注框的尺寸s_p有关，r＝R(s_p,t)，这里p表示标注框的中心点。由于各分支用于检测的卷积特征尺寸不同，对应各分支的中心点热力图上二维高斯分布的标准差σ_p也有差异，具体设定如下：

与此同时，中心点偏移和方框尺寸的训练数据也要依据尺寸分成三组。简言之，一张训练图像的标注数据需要分成三份，分别对应三个不同尺度的检测分支。

进一步地，以步骤3方式训练步骤2构建的神经网络，得到收敛的检测模型。使用该检测模型和适当的后处理过程即可在视频图像中检测小目标，具体过程如下。

则取

为预测结果。

步骤4-6，将三个尺度分支的检测结果合并，然后使用非极大值抑制算法去除重复的检测框，得到最终的检测结果。

存储装置，用于存储一个或多个程序；

Claims

1.一种基于深度学习的视频图像小目标检测方法，包含以下步骤：

步骤S1，制作训练样本构建数据集，所述数据集中的目标具有大中小三种不同尺度，且框出该目标；

步骤S2，构建神经网络检测模型，该模型分为三部分：基础特征提取模块，特征融合模块、方框检测模块，其中，在基础特征提取模块之后，网络分成了三个分支，每个分支包含独立的特征融合模块和方框检测模块，三个分支分别检测不同尺度的目标；

所述特征融合模块分为三个分支，每个分支选取特定的基础特征融合得到单层特征；其中小尺度分支以自顶向下的方式融合，中尺度分支以自底向上的方式融合，大尺度分支以自底向上的方式融合；

所述方框检测模块接收特征融合模块输出的融合特征，检测每个分支范围内的待检测目标；检测模块接收融合特征后，分别输入4个卷积网络，输出4个张量；第一个网络输出的张量表示目标的中心点热力图；第二个网络输出的张量表示目标的中心点量化补偿；第三个网络输出的张量表示目标的方框宽高值；第四个网络输出的张量表示目标的方框姿态；融合方框的宽高值和方框姿态得到倾斜矩形框的坐标；

步骤S3，构建层次化多尺度训练机制，使用S1构建的数据集对步骤S2构建的检测模型进行训练，该训练机制使S2所构建的模型中各尺度分支互相独立、互不影响地预测各自尺度范围内的目标；

步骤S4，利用步骤S3训练好的模型在视频图像中检测目标。

2.根据权利要求1所述的方法，其特征在于：所述步骤S1中不同尺度包括大中小三种尺度，其中大尺度为目标像素大于90×90；小尺度为目标像素小于30×30，中尺度介于小尺度和大尺度之间；目标以倾斜矩形框的方式标注出来。

3.根据权利要求1所述的方法，其特征在于：步骤S2构建的神经网络检测模型具体如下：

步骤S2-1，基础特征提取模块由深度卷积网络以残差堆叠的方式构成，使用深度卷积网络作为基础特征提取模块的网络结构；依次选择经过四次池化操作的卷积输出作为特征层；选择这4个基础卷积特征构成基础特征金字塔，作为基础特征提取模块的输出；

步骤S2-2，特征融合模块分为三个分支，每个分支选取特定的基础特征融合得到单层特征；若S2-1中四次池化后的分辨率分别为C2、C3、C4和C5，则小尺度分支选取C3、C4、C5以自顶向下的方式融合，再经过3层转置卷积；中尺度分支选取C2、C3、C4以自底向上的方式融合，再经过2层转置卷积；大尺度分支选取C3、C4、C5以自底向上的方式融合，再经过2层转置卷积；

步骤S2-3，方框检测模块接收特征融合模块输出的融合特征，输出为倾斜矩形框的坐标；

步骤S2-4，每个尺度分支预测各自尺度范围内的目标，在训练时，模型计算过程到此结束；在测试时，将三个尺度分支的预测结果合并，使用非极大值抑制算法去除重复的预测框。

4.根据权利要求3所述的方法，其特征在于：自顶向下融合过程为，首先基础特征经过1×1卷积得到中间特征，从最深层的中间特征开始，分辨率放大2倍与下一层的中间特征逐元素相加，由深至浅渐次传递，在最浅层经过3×3卷积得到融合特征；而自底向上融合过程为，首先基础特征也要经过1×1卷积得到中间特征，相反的是从最浅层的中间特征开始，分辨率放大2倍与上一层的中间特征逐元素相加，由浅至深渐次传递，在最深层经过3×3卷积得到融合特征。

5.根据权利要求1所述的方法，其特征在于：所述步骤S2所构建的神经网络参数的训练方法如下：

将训练数据的标注分为三组，分表为小尺度、中尺度、大尺度的目标的标注；小尺度检测分支输入的融合特征分辨率为H×W，小尺度目标训练标签的坐标保持不变；中尺度分支的分辨率为

，中尺度目标训练标签的坐标缩小为

；大尺度分支的分辨率为

，大尺度目标训练标签的坐标缩小为

。

6.根据权利要求1所述的方法，其特征在于：每个分支中，中心点热力图使用改进的focal loss监督训练；中心点偏移补偿使用L1损失函数训练；方框的尺寸，既宽度和高度，也是使用L1损失函数训练；方框的姿态，具体来说就是对偶方向矢量，使用L1损失和几何损失共同监督训练；将所列4项加权求和得到每个分支的损失函数；

7.根据权利要求6所述的方法，其特征在于：所述改进的focal loss具体为：

其中,α和β都是focal loss中的超参数， N _(*)是图像中尺度为*的目标中心点数量；N _(*)用于对所有该尺度的正样本中心点的focal loss值进行归一化；中心点热力图

，其中R _(*)为降采样率，C是类别数量。

8.根据权利要求3所述的方法，其特征在于：

利用步骤S3训练得到检测模型后，使用步骤S4进行目标检测的具体过程如下：

步骤S4-1，对中心热力图使用一个3×3最大池化层抑制非极大值，接着，在每个分支的中心热力图中选择前100个峰值，峰值所在的平面坐标即为中心点坐标，峰值所在通道坐标即为类别，峰值本身表示检测为目标的置信度得分；

步骤S4-2，通过峰值所在平面坐标找到中心偏移张量和方框宽高向量对应坐标的值，即为同一目标的中心点偏移值和方框的宽高值；

步骤S4-3，通过峰值所在平面坐标找到方框姿态张量对应坐标的值，它是该目标方框的对偶方向矢量；

步骤S4-4，将同一目标的中心点坐标、中心点偏移量、方框的宽度和高度、方框的对偶方向矢量在原始图像坐标系上转换为方框坐标；

步骤S4-5，将三个尺度分支的检测结果合并，然后使用非极大值抑制算法去除重复的检测框。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于：所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。