CN116778300A

CN116778300A - 一种基于知识蒸馏的小目标检测方法、系统和存储介质

Info

Publication number: CN116778300A
Application number: CN202310752443.5A
Authority: CN
Inventors: 常雨喆
Original assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Current assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-09-19
Anticipated expiration: 2043-06-25
Also published as: CN116778300B

Abstract

本发明公开了一种基于知识蒸馏的小目标检测方法、系统和存储介质，包括：利用包含多尺度特征图蒸馏和基于注意力机制的结果蒸馏的蒸馏方式，构建Yolov7L学生模型的蒸馏损失函数；基于多个训练样本，并根据训练好的Yolov7L教师模型、多尺度注意力模块和蒸馏损失函数，对Yolov7L学生模型进行训练，得到训练好的Yolov7L学生模型；其中，多尺度注意力模块用于优化训练好的Yolov7L教师模型的小目标检测结果；将待测图像输入至训练好的Yolov7L学生模型进行小目标检测，得到待测图像的小目标检测结果。本发明通过结合多尺度的特征图和引入注意力模块的知识蒸馏方法，提升了Yolov7模型的小目标识别精度。

Description

一种基于知识蒸馏的小目标检测方法、系统和存储介质

技术领域

本发明涉及深度学习技术领域，尤其涉及一种基于知识蒸馏的小目标检测方法、系统和存储介质。

背景技术

目前，小目标检测在自动驾驶、智慧医疗、缺陷检测和航拍图像分析等诸多领域发挥着重要作用。由于小目标的携带信息少、定位精度要求高、易被环境噪声淹没，现有算法针对小目标特性的优化设计不多，加之小目标自身特性所带来的难度，导致现有算法在小目标检测上普遍表现不佳。

知识蒸馏是一种经典的模型压缩方法，核心思想是通过引导轻量化的学生模型“模仿”性能更好、结构更复杂的教师模型，在不改变学生模型结构的情况下提高其性能。然而，由于小目标数据本身的特点，使用传统的知识蒸馏方法会导致下采样后对特征图的贡献很少，当教师模型的小目标识别结果较差时，可能会传递错误的暗知识。

因此，亟需提供一种技术方案解决上述问题。

发明内容

为解决上述技术问题，本发明提供了一种基于知识蒸馏的小目标检测方法、系统和存储介质。

本发明的一种基于知识蒸馏的小目标检测方法的技术方案如下：

S1、利用包含多尺度特征图蒸馏和基于注意力机制的结果蒸馏在内的知识蒸馏方式，构建待训练的Yolov7L学生模型的蒸馏损失函数；

S2、基于多个训练样本，并根据训练好的Yolov7L教师模型、多尺度注意力模块和所述蒸馏损失函数，对所述待训练的Yolov7L学生模型进行训练，得到训练好的Yolov7L学生模型；其中，所述多尺度注意力模块分别与所述训练好的Yolov7L教师模型和所述待训练的Yolov7L学生模型连接，所述多尺度注意力模块用于优化所述训练好的Yolov7L教师模型的小目标检测结果；

S3、将待测图像输入至所述训练好的Yolov7L学生模型进行小目标检测，得到所述待测图像的小目标检测结果。

本发明的一种基于知识蒸馏的小目标检测方法的有益效果如下：

本发明的方法通过结合多尺度的特征图和引入注意力模块的知识蒸馏方法，提升了Yolov7模型的小目标识别精度。

在上述方案的基础上，本发明的一种基于知识蒸馏的小目标检测方法还可以做如下改进。

进一步，步骤S2包括：

S21、将任一训练样本输入训练好的Yolov7L教师模型，得到所述任一训练样本的每个目标层的第一中间特征图、第一小目标检测结果和所述第一小目标检测结果的上一层的第一结果特征图；

S22、将所述任一训练样本输入待训练的Yolov7L学生模型，得到所述任一训练样本的每个目标层的第二中间特征图、第二小目标检测结果和所述第二小目标检测结果的上一层的第二结果特征图；

S23、将所述任一训练样本的第一结果特征图和第二结果特征图输入所述多尺度注意力模块进行处理，得到所述任一训练样本的第三小目标检测结果；

S24、将所述任一训练样本的第二小目标检测结果、第三小目标检测结果、每个第一中间特征图和每个第二中间特征图代入所述蒸馏损失函数进行损失计算，得到所述任一训练样本的蒸馏损失；

S25、重复执行步骤S21至步骤S24，直至得到每个训练样本的蒸馏损失；

S26、基于所有的蒸馏损失，对所述待训练的Yolov7L学生模型的参数和所述多尺度注意力模块的参数进行优化，得到优化后的Yolov7L学生模型和优化后的多尺度注意力模块，将所述优化后的Yolov7L学生模型作为所述待训练的Yolov7L学生模型，将所述优化后的多尺度注意力模块作为所述多尺度注意力模块，并返回执行步骤S21，直至所述优化后的Yolov7L学生模型满足预设迭代训练条件时，将所述优化后的Yolov7L学生模型确定为所述训练好的Yolov7L学生模型。

进一步，小目标检测结果包括：预测标注框、预测类别和前背景预测值，所述蒸馏损失函数为：L_total＝αL_feat+βL_r+L_det；L_total为蒸馏损失，L_feat为多尺度特征图蒸馏损失，L_r为结果蒸馏损失，L_det为所述待训练的Yolov7L学生模型的原始损失，α为第一超参数，βL_r为第二超参数；

其中，为第j个第一中间特征图，/>为第j个第二特征图，/>为/>和/>之间的L2正则化损失，n为目标层的数量；

其中，为第三小目标检测结果中的第i个尺度的注意力模块输出的预测标注框，/>为第二小目标检测结果中的预测标注框，/>为/>和/>之间的标注框损失，/>为第三小目标检测结果中的第i个尺度的注意力模块输出的预测类别，/>为第二小目标检测结果中的预测类别，/>为/>和/>之间的类别损失，/>为第三小目标检测结果中的第i个尺度的注意力模块输出的前背景预测值，/>为第二小目标检测结果中的前背景预测值，/>为/>和/>之间的前背景预测损失；m为所述多尺度注意力模块中的不同尺度的注意力模块的数量。

进一步，步骤S23包括：

基于计算公式组，并根据所述任一训练样本的第一结果特征图和第二结果特征图，分别得到所述任一训练样本的第三小目标检测结果中的第i个尺度的注意力模块输出的小目标检测结果；

其中，所述计算公式组为：I^T为所述任一训练样本的第一结果特征图，I^S为所述任一训练样本的第二结果特征图，W_i ^Q为第i个尺度下的第一权重矩阵，W_i ^K为第i个尺度下的第二权重矩阵，W_i ^V为第i个尺度下的第三权重矩阵，hⁱ为第i个尺度的注意力模块输出的小目标检测结果，hⁱ包含第i个尺度的注意力模块输出的预测标注框/>预测类别/>和前背景预测值/> 为K_i的转置矩阵，d_k是输入隐藏层的维度。

进一步，还包括：

基于所述多个训练样本，对用于小目标检测的Yolov7L教师模型进行训练，得到所述训练好的Yolov7L教师模型。

本发明的一种基于知识蒸馏的小目标检测系统的技术方案如下：

包括：构建模块、训练模块和检测模块；

所述构建模块用于：利用包含多尺度特征图蒸馏和基于注意力机制的结果蒸馏在内的知识蒸馏方式，构建待训练的Yolov7L学生模型的蒸馏损失函数；

所述训练模块用于：基于多个训练样本，并根据训练好的Yolov7L教师模型、多尺度注意力模块和所述蒸馏损失函数，对所述待训练的Yolov7L学生模型进行训练，得到训练好的Yolov7L学生模型；其中，所述多尺度注意力模块分别与所述训练好的Yolov7L教师模型和所述待训练的Yolov7L学生模型连接，所述多尺度注意力模块用于优化所述训练好的Yolov7L教师模型的小目标检测结果；

所述检测模块用于：将待测图像输入至所述训练好的Yolov7L学生模型进行小目标检测，得到所述待测图像的小目标检测结果。

本发明的一种基于知识蒸馏的小目标检测系统的有益效果如下：

本发明的系统通过结合多尺度的特征图和引入注意力模块的知识蒸馏方法，提升了Yolov7模型的小目标识别精度。

在上述方案的基础上，本发明的一种基于知识蒸馏的小目标检测系统还可以做如下改进。

进一步，所述训练模块包括：第一训练模块、第二训练模块、第三训练模块、第四训练模块、第五训练模块和迭代训练模块；

所述第一训练模块用于：将任一训练样本输入训练好的Yolov7L教师模型，得到所述任一训练样本的每个目标层的第一中间特征图、第一小目标检测结果和所述第一小目标检测结果的上一层的第一结果特征图；

所述第二训练模块用于：将所述任一训练样本输入待训练的Yolov7L学生模型，得到所述任一训练样本的每个目标层的第二中间特征图、第二小目标检测结果和所述第二小目标检测结果的上一层的第二结果特征图；

所述第三训练模块用于：将所述任一训练样本的第一结果特征图和第二结果特征图输入所述多尺度注意力模块进行处理，得到所述任一训练样本的第三小目标检测结果；

所述第四训练模块用于：将所述任一训练样本的第二小目标检测结果、第三小目标检测结果、每个第一中间特征图和每个第二中间特征图代入所述蒸馏损失函数进行损失计算，得到所述任一训练样本的蒸馏损失；

所述第五训练模块用于：重复调用所述第一训练模块至所述第四训练模块，直至得到每个训练样本的蒸馏损失；

所述迭代训练模块用于：基于所有的蒸馏损失，对所述待训练的Yolov7L学生模型的参数和所述多尺度注意力模块的参数进行优化，得到优化后的Yolov7L学生模型和优化后的多尺度注意力模块，将所述优化后的Yolov7L学生模型作为所述待训练的Yolov7L学生模型，将所述优化后的多尺度注意力模块作为所述多尺度注意力模块，并返回调用所述第一训练模块，直至所述优化后的Yolov7L学生模型满足预设迭代训练条件时，将所述优化后的Yolov7L学生模型确定为所述训练好的Yolov7L学生模型。

进一步，所述第三训练模块具体用于：

本发明的一种存储介质的技术方案如下：

存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如本发明的一种基于知识蒸馏的小目标检测方法的步骤。

附图说明

图1示出了本发明提供的一种基于知识蒸馏的小目标检测方法的实施例的流程示意图；

图2示出了本发明提供的一种基于知识蒸馏的小目标检测方法中的实施例中的Yolov7L模型的结构示意图；

图3示出了本发明提供的一种基于知识蒸馏的小目标检测方法的实施例中的多尺度注意力模块的结构示意图；

图4示出了本发明提供的一种基于知识蒸馏的小目标检测系统的实施例的结构示意图。

具体实施方式

图1示出了本发明提供的一种基于知识蒸馏的小目标检测方法的实施例的流程示意图。如图1所示，包括如下步骤：

S1、利用包含多尺度特征图蒸馏和基于注意力机制的结果蒸馏在内的知识蒸馏方式，构建待训练的Yolov7L学生模型的蒸馏损失函数。

其中，①通常的多尺度特征图蒸馏用于将教师模型中间某一层的输出的暗知识传递给学生模型，而本实施例中的多尺度特征图蒸馏是将教师模型的多个不同尺度(中间不同层)的输出的暗知识传递给学生模型。②通常的结果蒸馏是把教师模型的预测结果传递给学生模型，作为一种辅助监督信息。而本实施例中的基于注意力机制的结果蒸馏设计了一个新的multi-scale注意力模块，通过计算对的注意力查询，来规避教师模型错误的知识，找到对学生模型更重要的知识。③图2示出了Yolov7L模型的结构示意图。Yolov7L模型的结构由特征提取器Backbone(在不同图像细粒度上聚合并形成图像特征的卷积神经网络)、特征图金字塔Neck(一系列混合和组合图像特征的网络层，并将图像特征传递到预测层)和输出层Head(对图像特征进行预测，生成边界框和预测类别)三部分构成。图2中的序号为对应层的序号。

需要说明的是，由于Yolov7L模型为现有模型，在此不过多赘述每部分的功能结构。

S2、基于多个训练样本，并根据训练好的Yolov7L教师模型、多尺度注意力模块和所述蒸馏损失函数，对所述待训练的Yolov7L学生模型进行训练，得到训练好的Yolov7L学生模型。

其中，①多尺度注意力模块分别与训练好的Yolov7L教师模型和待训练的Yolov7L学生模型连接。②多尺度注意力模块用于优化训练好的Yolov7L教师模型的小目标检测结果。③训练样本为：随机选取的用于模型训练的图像。每个训练样本中均包含至少一个小目标。

其中，①待测图像为：随机选取的用于小目标检测的图像。②小目标检测结果包括：待测图像的预测标注框、预测类别和前背景预测值。

较优地，步骤S2包括：

S21、将任一训练样本输入训练好的Yolov7L教师模型，得到所述任一训练样本的每个目标层的第一中间特征图、第一小目标检测结果和所述第一小目标检测结果的上一层的第一结果特征图。

其中，①第一中间特征图的数量为多个(本实施例中为三个，即75层、81层和101层的特征图)。②第一结果特征图为：训练好的Yolov7L教师模型输出的小目标检测结果的上一层的特征图。

S22、将所述任一训练样本输入待训练的Yolov7L学生模型，得到所述任一训练样本的每个目标层的第二中间特征图、第二小目标检测结果和所述第二小目标检测结果的上一层的第二结果特征图。

其中，①第二中间特征图的数量为多个，与第一中间特征图的数量相同(本实施例中为三个，即75层、81层和101层的特征图)。②第二结果特征图为：待训练的Yolov7L学生模型输出的小目标检测结果的上一层的特征图。

S23、将所述任一训练样本的第一结果特征图和第二结果特征图输入所述多尺度注意力模块进行处理，得到所述任一训练样本的第三小目标检测结果。

其中，图3示出了多尺度注意力模块的结构图。

S24、将所述任一训练样本的第二小目标检测结果、第三小目标检测结果、每个第一中间特征图和每个第二中间特征图代入所述蒸馏损失函数进行损失计算，得到所述任一训练样本的蒸馏损失。

其中，蒸馏损失包括：学生模型的原有损失、多尺度特征图蒸馏损失和基于注意力机制的结果蒸馏损失。

S25、重复执行步骤S21至步骤S24，直至得到每个训练样本的蒸馏损失。

其中，每个训练样本均执行步骤S21至步骤S24，以得到每个训练样本的蒸馏损失。

其中，预设迭代训练条件为：达到最大迭代次数。

具体地，基于所有的蒸馏损失，对所述待训练的Yolov7L学生模型的参数和所述多尺度注意力模块的参数进行优化，得到优化后的Yolov7L学生模型和优化后的多尺度注意力模块，判断优化后的Yolov7L学生模型是否满足预设迭代训练条件；若否，将所述优化后的Yolov7L学生模型作为所述待训练的Yolov7L学生模型，将所述优化后的多尺度注意力模块作为所述多尺度注意力模块，并返回执行步骤S21，直至所述优化后的Yolov7L学生模型满足预设迭代训练条件时，将所述优化后的Yolov7L学生模型确定为所述训练好的Yolov7L学生模型；若是，将所述优化后的Yolov7L学生模型确定为所述训练好的Yolov7L学生模型。

较优地，小目标检测结果包括：预测标注框、预测类别和前背景预测值。所述蒸馏损失函数为：L_total＝αL_feat+βL_r+L_det；L_total为蒸馏损失，L_feat为多尺度特征图蒸馏损失，L_r为结果蒸馏损失，L_det为所述待训练的Yolov7L学生模型的原始损失，α为第一超参数，βL_r为第二超参数。

其中，为第j个第一中间特征图，/>为第j个第二特征图，/>为/>和/>之间的L2正则化损失，n为目标层的数量。

其中，为第三小目标检测结果中的第i个尺度的注意力模块输出的预测标注框，/>为第二小目标检测结果中的预测标注框，/>为/>和/>之间的标注框损失，/>为第三小目标检测结果中的第i个尺度的注意力模块输出的预测类别，/>为第二小目标检测结果中的预测类别，/>为/>和/>之间的类别损失，/>为第三小目标检测结果中的第i个尺度的注意力模块输出的前背景预测值，/>为第二小目标检测结果中的前背景预测值，/>为/>和/>之间的前背景预测损失，m为所述多尺度注意力模块中的不同尺度的注意力模块的数量。

较优地，步骤S23包括：

基于计算公式组，并根据所述任一训练样本的第一结果特征图和第二结果特征图，分别得到所述任一训练样本的第三小目标检测结果中的第i个尺度的注意力模块输出的小目标检测结果。

其中，所述计算公式组为：I^T为所述任一训练样本的第一结果特征图，I^S为所述任一训练样本的第二结果特征图，W_i ^Q为第i个尺度下的第一权重矩阵，W_i ^K为第i个尺度下的第二权重矩阵，W_i ^V为第i个尺度下的第三权重矩阵，hⁱ为第i个尺度的注意力模块输出的小目标检测结果，hⁱ包含第i个尺度的注意力模块输出的预测标注框/>预测类别/>和前背景预测值/> 为K_i的转置矩阵，d_k为输入隐藏层的维度，softmax为一个激活函数。

较优地，还包括：

需要说明的是，在训练Yolov7L学生模型之前，需要先训练的Yolov7L教师模型。用于训练Yolov7L教师模型的训练样本与用于训练Yolov7L学生模型的训练样本可以相同，也可以不同，在此不设限制。

本实施例的技术方案通过结合多尺度的特征图和引入注意力模块的知识蒸馏方法，提升了Yolov7模型的小目标识别精度。

图4示出了本发明提供的一种基于知识蒸馏的小目标检测系统的实施例的结构示意图。如图4所示，该系统200包括：构建模块210、训练模块220和检测模块230。

所述构建模块210用于：利用包含多尺度特征图蒸馏和基于注意力机制的结果蒸馏在内的知识蒸馏方式，构建待训练的Yolov7L学生模型的蒸馏损失函数：

所述训练模块220用于：基于多个训练样本，并根据训练好的Yolov7L教师模型、多尺度注意力模块和所述蒸馏损失函数，对所述待训练的Yolov7L学生模型进行训练，得到训练好的Yolov7L学生模型；其中，所述多尺度注意力模块分别与所述训练好的Yolov7L教师模型和所述待训练的Yolov7L学生模型连接，所述多尺度注意力模块用于优化所述训练好的Yolov7L教师模型的小目标检测结果；

所述检测模块230用于：将待测图像输入至所述训练好的Yolov7L学生模型进行小目标检测，得到所述待测图像的小目标检测结果。

较优地，所述训练模块220包括：第一训练模块、第二训练模块、第三训练模块、第四训练模块、第五训练模块和迭代训练模块；

较优地，小目标检测结果包括：预测标注框、预测类别和前背景预测值，所述蒸馏损失函数为：L_total＝αL_feat+βL_r+L_det；L_total为蒸馏损失，L_feat为多尺度特征图蒸馏损失，L_r为结果蒸馏损失，L_det为所述待训练的Yolov7L学生模型的原始损失，α为第一超参数，βL_r为第二超参数；

较优地，所述第三训练模块具体用于：

上述关于本发明提供的一种基于知识蒸馏的小目标检测系统200的实施例中的各参数和各个模块实现相应功能的步骤，可参考上文中提供的一种基于知识蒸馏的小目标检测方法的实施例中的各参数和步骤，在此不做赘述。

本发明实施例提供的一种存储介质，包括：存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如一种基于知识蒸馏的小目标检测方法的步骤，具体可参考上文中提供的一种基于知识蒸馏的小目标检测方法的实施例中的各参数和步骤，在此不做赘述。

计算机存储介质例如：优盘、移动硬盘等。

所属技术领域的技术人员知道，本发明可以实现为方法、系统和存储介质。

因此，本发明可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)，只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于知识蒸馏的小目标检测方法，其特征在于，包括：

2.根据权利要求1所述的基于知识蒸馏的小目标检测方法，其特征在于，步骤S2包括：

3.根据权利要求2所述的基于知识蒸馏的小目标检测方法，其特征在于，小目标检测结果包括：预测标注框、预测类别和前背景预测值，所述蒸馏损失函数为：L_total＝αL_feat+βL_r+L_det；L_total为蒸馏损失，L_feat为多尺度特征图蒸馏损失，L_r为结果蒸馏损失，L_det为所述待训练的Yolov7L学生模型的原始损失，α为第一超参数，βL_r为第二超参数；

其中，为第j个第一中间特征图，/>为第j个第二特征图，为/>和/>之间的L2正则化损失，n为目标层的数量；

其中，为第三小目标检测结果中的第i个尺度的注意力模块输出的预测标注框,/>为第二小目标检测结果中的预测标注框，/>为/>和/>之间的标注框损失，/>为第三小目标检测结果中的第i个尺度的注意力模块输出的预测类别，/>为第二小目标检测结果中的预测类别，/>为/>和/>之间的类别损失，/>为第三小目标检测结果中的第i个尺度的注意力模块输出的前背景预测值，/>为第二小目标检测结果中的前背景预测值，/>为/>和/>之间的前背景预测损失；m为所述多尺度注意力模块中的不同尺度的注意力模块的数量。

4.根据权利要求3所述的基于知识蒸馏的小目标检测方法，其特征在于，步骤S23包括：

其中，所述计算公式组为：I^T为所述任一训练样本的第一结果特征图，I^S为所述任一训练样本的第二结果特征图，/>为第i个尺度下的第一权重矩阵，/>为第i个尺度下的第二权重矩阵，/>为第i个尺度下的第三权重矩阵，hⁱ为第i个尺度的注意力模块输出的小目标检测结果，hⁱ包含第i个尺度的注意力模块输出的预测标注框/>预测类别/>和前背景预测值/> 为K_i的转置矩阵，d_k是输入隐藏层的维度。

5.根据权利要求1-4任一项所述的基于知识蒸馏的小目标检测方法，其特征在于，还包括：

6.一种基于知识蒸馏的小目标检测系统，其特征在于，包括：构建模块、训练模块和检测模块；

7.根据权利要求6所述的基于知识蒸馏的小目标检测系统，其特征在于，所述训练模块包括：第一训练模块、第二训练模块、第三训练模块、第四训练模块、第五训练模块和迭代训练模块；

8.根据权利要求7所述的基于知识蒸馏的小目标检测系统，其特征在于，小目标检测结果包括：预测标注框、预测类别和前背景预测值，所述蒸馏损失函数为：L_total＝αL_feat+βL_r+L_det；L_total为蒸馏损失，L_feat为多尺度特征图蒸馏损失，L_r为结果蒸馏损失，L_det为所述待训练的Yolov7L学生模型的原始损失，α为第一超参数，βL_r为第二超参数；

9.根据权利要求8所述的基于知识蒸馏的小目标检测系统，其特征在于，所述第三训练模块具体用于：

其中，所述计算公式组为：I^T为所述任一训练样本的第一结果特征图，I^S为所述任一训练样本的第二结果特征图，W_i ^Q为第i个尺度下的第一权重矩阵，/>为第i个尺度下的第二权重矩阵，W_i ^V为第i个尺度下的第三权重矩阵，hⁱ为第i个尺度的注意力模块输出的小目标检测结果，hⁱ包含第i个尺度的注意力模块输出的预测标注框/>预测类别/>和前背景预测值/> 为K_i的转置矩阵，d_k是输入隐藏层的维度。

10.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如权利要求1至5中任一项所述的基于知识蒸馏的小目标检测方法。