CN115631396A

CN115631396A - 一种基于知识蒸馏的YOLOv5目标检测方法

Info

Publication number: CN115631396A
Application number: CN202211299901.6A
Authority: CN
Inventors: 马宇轩; 冯剑波; 王衍学; 李孟
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-01-20

Abstract

本发明公开了一种基于知识蒸馏的YOLOv5目标检测方法包括：输入图像数据集至YOLOv5目标检测模型，在前向传播过程中定义教师网络和学生网络；利用YOLOv5的预训练权重对样本图像进行训练；基于CA注意力机制构建YOLOv5知识蒸馏模型并加入超参数蒸馏温度和蒸馏损失函数；基于所述知识蒸馏模型使用教师网络对学生网络进行知识蒸馏训练。本发明在构建YOLOv5蒸馏层时通过引入CA注意力机制的特征实现了基于图像位置信息获取带有注意力机制的图像，进而提升了网络性能；通过在Softmax函数的基础上引入蒸馏温度让网络中的暗知识浮现，便于让网络更好的学习，同时增强了网络的泛化能力；本发明通过利用构建的知识蒸馏模型实现对检测模型的压缩，进而提升目标检测的性能。

Description

一种基于知识蒸馏的YOLOv5目标检测方法

技术领域

本发明涉及深度学习技术领域，具体为一种基于知识蒸馏的YOLOv5目标检测方法。

背景技术

近年来，目标检测领域在深度学习的加持下取得了优异的成果，像一些经典的目标检测网络Faster RCNN和YOLO系列等检测效果均超过了传统的目标检测方法。

但问题在于随着检测精度的提升，模型也越来越大，这也就使得现有的用于目标检测的方法的检测性能有所不足；为了以更低的成本和更低的能耗将性能优良的目标检测器部署到移动端，则需要对模型进行压缩，其主要方法有：直接使用更为轻量化的网络；对模型进行剪枝，剔除无关的部分；对模型进行知识蒸馏，因此，本发明提出了一种基于知识蒸馏的YOLOv5目标检测方法。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述存在的问题，提出了本发明。

因此，本发明解决的技术问题是：如何对目标检测模型进行压缩以提升目标检测性能。

为解决上述技术问题，本发明提供如下技术方案：一种基于知识蒸馏的YOLOv5目标检测方法，包括：

输入图像数据集至YOLOv5目标检测模型，在前向传播过程中定义教师网络和学生网络；

利用YOLOv5的预训练权重对样本图像进行训练；

基于CA注意力机制构建YOLOv5知识蒸馏模型并加入超参数蒸馏温度和蒸馏损失函数；

基于所述知识蒸馏模型使用教师网络对学生网络进行知识蒸馏训练。

作为本发明所述的基于知识蒸馏的YOLOv5目标检测方法的一种优选方案，其中：所述对样本图像进行训练，包括：

利用YOLOv5的预训练权重文件分别对所述教师网络和学生网络进行训练，进而获取教师网络和学生网络的最优权重，并将最优权重的教师网络和学生网络作为知识蒸馏的基础。

作为本发明所述的基于知识蒸馏的YOLOv5目标检测方法的一种优选方案，其中：所述构建YOLOv5知识蒸馏模型，包括：

获取图像的宽度和高度，将图像按照宽度和高度两个方向分别进行全局平均池化，进而获得图像在宽度和高度两个方向上的特征图。

作为本发明所述的基于知识蒸馏的YOLOv5目标检测方法的一种优选方案，其中：所述图像在高度方向上的特征图，表示为：

其中，

表示为高度方向上的特征图，h表示为高度，W表示为宽度，x_c(h,i)表示为高度空间范围内的池化核。

作为本发明所述的基于知识蒸馏的YOLOv5目标检测方法的一种优选方案，其中：所述图像在宽度方向上的特征图，表示为：

其中，

表示为高度方向上的特征图，h表示为高度，W表示为宽度，x_c(j,w)表示为宽度空间范围内的池化核。

作为本发明所述的基于知识蒸馏的YOLOv5目标检测方法的一种优选方案，其中：所述构建YOLOv5知识蒸馏模型，还包括：

将高度和宽度两个方向的特征图拼接并进行卷积处理，使用Sigmoid激活函数进行求解分别获得图像在高度和宽度两个方向上的注意力权重；

高度上的注意力权重g^h表示为：g^h＝σ(F_h(f^h))

其中，g^h表示为高度上的注意力权重，F_h表示为1*1的卷积，f^h表示为特征图张量；

宽度上的注意力权重g^w表示为：g^w＝σ(F_w(f^w))

其中，g^w表示为宽度上的注意力权重，F_w表示为1*1的卷积，f^w表示为特征图张量。

作为本发明所述的基于知识蒸馏的YOLOv5目标检测方法的一种优选方案，其中：还包括：在原始图像上对注意力权重采用加权计算获取带有注意力机制的特征图，表示为：

其中，将输入的第c个通道的张量x_c与上述得到的高度和宽度的注意力权重相乘，最终输出与输入张量相同尺寸的y_c。

作为本发明所述的基于知识蒸馏的YOLOv5目标检测方法的一种优选方案，其中：所述加入超参数蒸馏温度，包括：

在Softmax函数的基础上引入蒸馏温度，表示为：

其中，T表示为蒸馏温度。

作为本发明所述的基于知识蒸馏的YOLOv5目标检测方法的一种优选方案，其中：所述加入蒸馏损失函数，包括：获取分类损失函数、置信度损失函数以及定位损失函数；

分类损失函数表示为：

其中，

表示原始检测部分的分类损失函数，

表示知识蒸馏的分类损失函数，λ_D表示超参数，

是学生网络的置信度，类别和坐标信息；

是教师网络的类别和置信度信息；

是通过真实标签值导出的类别信息；

置信度损失函数，表示为：

其中，

表示原始检测部分的置信度损失函数，

表示知识蒸馏的置信度损失函数；

是通过真实标签值导出的置信度；

定位损失函数，表示为：

其中，

表示原始检测部分的定位损失函数，

表示知识蒸馏的定位损失函数；

是通过真实标签值导出的坐标信息，

是教师网络的定位信息。

作为本发明所述的基于知识蒸馏的YOLOv5目标检测方法的一种优选方案，其中：所述加入蒸馏损失函数，还包括：将分类损失函数、置信损失函数和定位损失函数进行加权求和获得最终蒸馏损失函数，表示为：

其中，

为分类损失函数，

为置信度损失函数，

为定位损失函数，L_add为该算法总的损失函数。

本发明的有益效果：本发明在构建YOLOv5蒸馏层时通过引入CA注意力机制的特征实现了基于图像位置信息获取带有注意力机制的图像，进而提升了网络性能；通过在Softmax函数的基础上引入蒸馏温度让网络中的暗知识浮现，便于让网络更好的学习，同时增强了网络的泛化能力；本发明通过利用构建的知识蒸馏模型实现对检测模型的压缩，进而提升目标检测的性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例提供的一种基于知识蒸馏的YOLOv5目标检测方法的整体流程图；

图2为本发明一个实施例提供的YOLOv5的结构简图；

图3为本发明一个实施例提供的CA注意力机制模块流程图；

图4为本发明一个实施例提供的添加CA注意力机制的YOLOv5的结构示意图；

图5为本发明一个实施例提供的教师网络和学生网络的知识蒸馏训练流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1～5，为本发明的一个实施例，提供了一种基于知识蒸馏的YOLOv5目标检测方法，包括：

S1：将图像数据集输入到YOLOv5目标检测模型，在前向传播过程中定义教师网络和学生网络。

应说明的是，教师网络和学生网络均采用YOLOv5的网络框架。

具体的，将YOLOv5x定义为教师网络t_model，将YOLOv5n定义为学生网络model。

应说明的是，定义教师网络是由于其模型参数量更大，检测效果更好，但不利于部署到移动端；选择YOLOv5x是由于其模型体量大，精度高；定义学生网络是由于其模型参数量更小，相比模型参数量更大的模型检测效果较差，但有利于部署到移动端；因此，使用知识蒸馏这一模型压缩方法取教师网络的检测效果好的优点和学生网络的模型参数量小的优点，得到同时具有两种优点模型。

S2：利用YOLOv5的预训练权重对样本图像进行训练。

具体的，使用预权重文件yolov5x.pt进行训练后的best.pt作为教师网络的权重文件，使用预权重文件yolov5n.pt进行训练后的best.pt作为学生网络的权重文件。

应说明的是，训练过程中所采用的数据集为coco数据集。

更进一步的，获取训练结果，将训练好的教师网络t_model和学生网络model的最优权重作为知识蒸馏的基础。

应说明的是，由于教师网络YOLOv5x的模型尺寸为86.7M，学生网络YOLOv5n的模型尺寸仅为1.9M，从模型参数量的大小可以看出，YOLOv5n更适合部署至移动端；因此，采用知识蒸馏的方法利用YOLOv5n学习YOLOv5x所生成的更多知识，最终生成一个新的检测效果好且模型尺寸小的权重。

S3：基于CA注意力机制构建YOLOv5知识蒸馏模型并加入超参数蒸馏温度和蒸馏损失函数。

应说明的是，CA注意力机制与传统的注意力机制不同的是，它在通道中引入了位置信息，进而可以使得网络性能再次提升。

更进一步的，获取图像的宽度和高度，对位置信息进行编码。

具体的，将输入的特征图分为宽度和高度两个方向分别进行全局平均池化，分别获得在宽度和高度两个方向的特征图，表示为：

其中，其中，

表示为高度方向上的特征图，h表示为高度，W表示为宽度，x_c(j,w)表示为宽度空间范围内的池化核，

表示为高度方向上的特征图，x_c(h,i)表示为高度空间范围内的池化核。

更进一步的，将高度和宽度两个方向的特征图拼接并进行卷积处理，将经过批量归一化处理的特征图使用Sigmoid激活函数进行求解：

f＝δ(F₁([z^h,z^w]))

具体的，将z^h和z^w进行张量拼接后，使用1*1的卷积F₁后带入非线性激活函数δ，得到对高度和宽度两个方向进行编码的特征层f；沿着高度和宽度两个方向将特征层划分为高度方向的特征层f^h和宽度方向的特征层f^w，再利用1*1的卷积F_h和F_w对f^h和f^w进行变换。

应说明的是，对特征图f^h和f^w使用1*1的卷积，是为了产生与输入X相同的通道数。

更进一步的，经过1*1的卷积和Sigmoid激活函数得到特征图在高度上的注意力权重g^h和宽度方向的注意力权重g^w，表示为：

g^h＝σ(F_h(f^h))

g^w＝σ(F_w(f^w))

其中，g^h表示为高度上的注意力权重，g^w表示为宽度上的注意力权重，F_h表示为1*1的卷积，f^h表示为特征图张量。

更进一步的，在原始特征图上对注意力权重采用乘法加权计算得到带有注意力机制的特征图，表示为：

应说明的是，教师网络经过知识蒸馏会产生更大的信息熵，并提供给学生网络去学习，在引入CA注意力机制后，学生网络可以更好地捕捉到教师网络所产生的更多知识中的目标类别，进一步提升了网络性能。

更进一步的，在Softmax函数的基础上引入蒸馏温度T，表示为：

应说明的是，知识蒸馏是在Softmax函数的基础上引入蒸馏温度T，以让网络中的暗知识浮现，便于让网络更好的学习，同时增强了网络的泛化能力。

更进一步的，定义分类损失函数，表示为：

其中，

表示原始检测部分的分类损失函数，

表示知识蒸馏的分类损失函数，λ_D表示超参数，

是学生网络的置信度，类别和坐标信息；

是教师网络的类别和置信度信息；

是通过真实标签值导出的类别信息。

更进一步的，定义置信度损失函数，表示为：

其中，

表示原始检测部分的置信度损失函数，

表示知识蒸馏的置信度损失函数；

是通过真实标签值导出的置信度。

更进一步的，定义定位损失函数，表示为：

其中，

表示原始检测部分的定位损失函数，

表示知识蒸馏的定位损失函数；

是通过真实标签值导出的坐标信息，

是教师网络的定位信息。

更进一步的，对分类损失函数、置信损失函数和定位损失函数进行加权求和以获取最终的总损失函数，表示为：

其中，

为分类损失函数，

为置信度损失函数，

为定位损失函数，L_add为该算法总的损失函数。

应说明的是，由于我们在YOLOv5中更进一步的探索并引入了知识蒸馏模块来进一步压缩模型和提升网络性能，且知识蒸馏模块的引入会导致原本的损失函数失效，因此需要对网络的损失函数重新定义。

S4：基于知识蒸馏模型使用教师网络对学生网络进行知识蒸馏训练。。

具体的，首先定义教师网络为YOLOv5x为t_model，学生网络YOLOv5n为model，蒸馏温度T；在相同的图片样本中，首先使用蒸馏温度T通过教师网络YOLOv5x产生的信息熵更大的软标签，同时每个标签产生相对应的概率值；其次，使用学生网络YOLOv5n学习经过知识蒸馏后的教师网络所产生的软标签；最后，得到蒸馏后的新网络模型。

应说明的是，在YOLOv5上进行知识蒸馏训练是为了得到性能更好、轻量化程度更高的学生网络，进而对目标检测模型的尺寸进行压缩以提高目标检测性能。

实施例2

参照图1～5，为本发明的一个实施例，提供了一种基于知识蒸馏的YOLOv5目标检测方法，为了验证本发明的有益效果，通过经济效益计算和仿真实验进行科学论证。

本实施例中采用coco128数据集，蒸馏温度T＝5℃，采用Adam优化器进行训练，λ_D＝0.1，进行300次迭代来进行仿真实验，通过准确率P、召回率R和平均精度mAP值来评估模型质量，如表1所示：

表1模型质量评估表

由上表可知，YOLOv5x的模型大小为86.7M，经过添加CA注意力机制的知识蒸馏训练后模型尺寸减小了20倍，虽然模型尺寸比YOLOv5n稍大，但在coco128数据集上较学生网络P提升了6.4％，R提升了1.1％，mAP提升了2.3％，完成了轻量化的目标并达到性能上的提升，有利于部署至移动端。

更进一步的，将引入的蒸馏温度T设置为变量进行消融实验，用于验证蒸馏温度对YOLOv5知识蒸馏的影响，与此同时对比mAP值的变化，具体实验结果如表2所示：

表2消融实验结果对比表

由表2可知，在蒸馏温度为5℃，且λ_D＝0.1时，效果最为显著。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。