CN116612379B

CN116612379B - 一种基于多知识蒸馏的水下目标检测方法及系统

Info

Publication number: CN116612379B
Application number: CN202310630360.9A
Authority: CN
Inventors: 俞智斌; 朱燕琼; 郑冰
Original assignee: Sanya Institute Of Oceanography Ocean University Of China; Ocean University of China
Current assignee: Sanya Institute Of Oceanography Ocean University Of China; Ocean University of China
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2024-02-02
Anticipated expiration: 2043-05-30
Also published as: CN116612379A

Abstract

本发明公开了一种基于多知识蒸馏的水下目标检测方法及系统，涉及目标检测技术领域，包括：构建教师模型和学生模型；通过教师模型监督学生模型学习，基于特征图和顶层输出多知识蒸馏方法训练学生模型；对训练后的学生模型进行重构和优化，输出最优模型；将最优模型部署到水下装置上，采集水下实时图像，输入到最优模型中进行实时目标检测，输出图像中目标所在位置和类别。本发明解决了目标检测模型难以部署在水下机器人等资源受限的嵌入式设备中，在提升轻量级检测模型的检测精度的同时，解决了现有蒸馏模型中蒸馏知识单一、师生模型前景差异大和水下生物数据集中存在大量边界模糊等问题，在资源受限的设备上实现快速准确地检测水下目标。

Description

一种基于多知识蒸馏的水下目标检测方法及系统

技术领域

本发明涉及目标检测技术领域，更具体的说是涉及一种基于多知识蒸馏的水下目标检测方法及系统。

背景技术

渔业的发展受到劳动力的制约，推进渔业现代化智能化进程能够节省人力劳动成本、降低人力风险和提高作业效率。伴随着渔业发展而产生的水下机器人具有外部感知模块，如摄像头和声纳等。以摄像头为例，其赋予了水下机器人看清周围环境和生物的能力。基于深度学习的水下目标检测技术具有优异的特征提取能力，能够获取水下生物目标的类别和位置信息，是水下机器人进行水下资源管理、捕获抓取决策的前提。

随着深度学习的发展，为了达到更高的预测精度，目标检测的网络结构朝着更深、更复杂的结构发展，带来了极大计算和GPU资源开销。像水下机器人这一类算力和电力资源受限的设备无法满足这类模型的落地部署。为了满足水下机器人等边缘设备的应用需求，一些轻量级模型、模型的量化及剪枝等方法被提出。这些方法大多以牺牲模型的预测精度换取模型的预测速度。目前，知识蒸馏已经在图像分类任务中取得了突破性进展，而对于具有任务更复杂特性的目标检测来说，如何有效地将知识从教师网络模型迁移至学生网络模型中，仍需进一步深入研究。

因此，提出一种基于多知识蒸馏的水下目标检测方法及系统，旨在将高性能的庞大网络模型中的知识迁移至轻量级网络模型中，在维持轻量级模型的预测速度前提下，提升其预测精度，实现快速且精准地获取水下生物目标的类别和位置信息，实现水下资源管理和捕获抓取等智能化，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于多知识蒸馏的水下目标检测方法及系统，旨在提升轻量级检测模型的检测精度，解决现有蒸馏模型中蒸馏知识单一、师生模型前景差异大和水下生物数据集中存在大量边界模糊的问题，通过TensorRT对模型加速，在资源受限的设备上实现快速准确地检测水下目标，为了实现上述目的，本发明采用如下技术方案：

一种基于多知识蒸馏的水下目标检测方法，包括：

构建教师模型和学生模型；

通过教师模型监督学生模型学习，基于特征图和顶层输出多知识蒸馏方法训练学生模型；

对训练后的学生模型进行重构和优化，输出最优模型；

将最优模型部署到水下装置上，采集水下实时图像，输入到最优模型中进行实时目标检测，输出图像中目标所在位置和类别。

可选的，所述构建教师模型的步骤包括：

获取水下生物数据；

构建教师模型；

基于水下生物数据对教师模型进行训练得到最优教师模型。

可选的，所述教师模型结构包括：

所述教师模型的骨干网络为ResNet50，使用GFL方法改进RetinaNet，左边的骨干网络模块用于提取输入图像中的特征信息，中间部分是FPN结构，右侧是头部网络，包括两个分支：分类－边框质量分支和边界框回归分支，所述分类－边框质量分支包含分类任务和检测框质量任务。

可选的，所述学生模型包括：

所述学生模型的骨干网络为ResNet-18，使用GFL方法改进RetinaNet，左边的骨干网络模块提取输入图片中的特征信息，中间部分是FPN结构，右侧是头部网络，包括两个分支：分类－边框质量分支和边界框回归分支，所述分类－边框质量分支包含分类任务和检测框质量任务。

可选的，所述基于特征图和顶层输出多知识蒸馏方法训练学生模型包括同时对模型隐藏层输出和顶层输出的有价值信息进行知识蒸馏，通过所述教师模型监督学生网络的训练，通过教师模型的颈部网络Pi层、头部网络分类分支和回归分支输出监督学生模型的颈部网络Pi层、头部网络分类分支和回归分支学习。

可选的，对模型隐藏层输出的有价值信息进行知识蒸馏包括：在FPN结构处进行特征图的知识蒸馏中，分别进行特征图的前背景分离、前背景平衡处理、通过CBAM获得空间和通道注意力权重以及通过自注意力机制获得像素点之间的关系。

可选的，对模型顶层输出的有价值信息进行知识蒸馏包括：在分类－边框质量分支上进行知识蒸馏以及对回归分支的输出进行离散建模后，再在回归分支上进行蒸馏。

可选的，所述对训练后的学生模型进行重构和优化包括：使用TensorRT对蒸馏后的学生模型进行重构和优化。

可选的，一种基于多知识蒸馏的水下目标检测系统，包括：

服务器模块：用于构建教师模型和学生模型；通过教师模型监督学生模型学习，基于特征图和顶层输出多知识蒸馏方法训练学生模型；

优化模块：用于对训练后的学生模型进行重构和优化，输出最优模型；

应用模块：用于将最优模型部署到水下装置上，采集水下实时图像，输入到最优模型中进行实时目标检测，输出图像中目标所在位置和类别。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于多知识蒸馏的水下目标检测方法及系统，具有如下有益效果：

本发明提出一种基于多知识蒸馏的水下目标检测方法及系统，解决了传统知识蒸馏方法中知识单一的问题，提出同时对模型隐藏层输出和顶层输出进行知识蒸馏的方法，达到了有效知识迁移的目的，基于知识类型的丰富实现了轻量级网络模型预测精度的显著提升。由于蒸馏后的网络模型结构更简单，参数量更少，因此本发明解决了目标检测模型难以部署在水下机器人等资源受限的嵌入式设备中，实现了水下目标在线检测，解决了现有技术存在的实时性问题。

本发明在提升轻量级检测模型的检测精度的同时，解决了现有蒸馏模型中蒸馏知识单一、师生模型前景差异大和水下生物数据集中存在大量边界模糊等问题，通过TensorRT对模型加速，在资源受限的设备上实现快速准确地检测水下目标。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种基于多知识蒸馏的水下目标检测方法结构示意图。

图2为本发明提供的基于特征图和顶层输出多知识蒸馏的结构示意图。

图3为本发明提供的教师模型与学生模型的结构示意图。

图4为本发明提供的基于TensorRT的模型加速流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于多知识蒸馏的水下目标检测方法，包括：

构建教师模型和学生模型；

对训练后的学生模型进行重构和优化，输出最优模型；

进一步的，所述构建教师模型的步骤包括：

获取水下生物数据；

构建教师模型；

基于水下生物数据对教师模型进行训练得到最优教师模型。

进一步的，所述教师模型结构包括：

进一步的，所述学生模型包括：

进一步的，所述基于特征图和顶层输出多知识蒸馏方法训练学生模型包括同时对模型隐藏层输出和顶层输出的有价值信息进行知识蒸馏，通过所述教师模型监督学生网络的训练，通过教师模型的颈部网络Pi层、头部网络分类分支和回归分支输出监督学生模型的颈部网络Pi层、头部网络分类分支和回归分支学习。

进一步的，对模型隐藏层输出的有价值信息进行知识蒸馏包括：在FPN结构处进行特征图的知识蒸馏中，分别进行特征图的前背景分离、前背景平衡处理、通过CBAM获得空间和通道注意力权重以及通过自注意力机制获得像素点之间的关系。

进一步的，对模型顶层输出的有价值信息进行知识蒸馏包括：在分类－边框质量分支上进行知识蒸馏以及对回归分支的输出进行离散建模后，再在回归分支上进行蒸馏。

进一步的，所述对训练后的学生模型进行重构和优化包括：使用TensorRT对蒸馏后的学生模型进行重构和优化。

进一步的，一种基于多知识蒸馏的水下目标检测系统，包括：

在具体实施方式中，如图1所示，一种基于多知识蒸馏的水下目标检测方法，包括：

(1)在服务器端，基于水下生物数据训练一个结构复杂、检测精度高的教师模型。具体包括：目标检测模型为使用GFL方法改进的RetinaNet。首先训练以ResNet50作为骨干网络的教师模型，准确率高。其中GFL可以作用于任意单阶段目标检测中，提高其预测精度；

如图3所示，一种教师与学生模型的结构示意图，左边的骨干网络模块提取输入图片中的特征信息，为分类和回归任务做准备，教师模型的骨干网络使用ResNet-50。中间部分是FPN结构，网络的深层往往包含丰富的语义信息，缺乏纹理信息；网络的浅层往往是纹理信息丰富，但语义信息匮乏。使用FPN有助于提高模型对目标位置信息保存的完整性和提高小目标检测的准确性。右侧是头部网络，有两个分支：分类－边框质量分支和边界框回归分支，其中分类－边框质量分支包含了分类任务和检测框质量任务。头部网络结构解决了模型训练和测试阶段不一致情况以及目标边界框模糊的情况。

(2)在服务器端，使用基于特征图和顶层输出多知识蒸馏方法训练学生模型。

学生模型的骨干网络部分使用参数量更低的ResNet-18，与教师模型唯一的区别是使用的骨干网络不一样，网络的其他部分结构完全一致。将(1)中获得的教师模型用于监督学生网络的训练。如图2所示，在知识蒸馏的时候，会对FPN结构中P3到P5每层的特征图分别进行知识蒸馏学习，即用教师网络模型的Pi层去监督学生网络模型的Pi层学习，其中i＝3，4，5，6，7；在目标检测任务头上进行分类和回归的知识蒸馏。

(2.1)在FPN结构处进行特征图的知识蒸馏中，分别进行了特征图的前背景分离、前背景平衡处理、通过CBAM获得空间和通道注意力权重以及通过自注意力机制获得像素点之间的关系操作，提升了学生模型的检测性能。

具体设计如下：

使用二进制掩码mask的方式分类前背景，公式如下：

R表示真实的目标框，(i，j)表示特征图中像素点的横纵坐标，如果(i，j)在区域R中，则mask(i，j)的值为1，否则为0。

考虑到在同一图像中尺寸较大的目标占有的像素较多，会主导损失函数，从而影响了尺寸较小的目标进行知识蒸馏；同时，在不同的图像中，由于目标数量的不同，所以前景和背景所占的像素比例差异较大。为了平衡这种差异，设置了一个平衡因子B，公式如下：

H_r,W_r分别表示真实框的高度和宽度，H_rW_r代表了真实框的面积，如果一个像素处于不同的真实框内，那么就选择面积最小的框来计算B_i,j，计算了背景区域所占的面积。

(2.2)在本发明中采用了CBAM注意力机制的方式获取了特征图空间和通道的注意力权重，在知识蒸馏的时候学生网络能够学习教师网络的关键像素和通道，有助于学生网络取得更高的性能。获得通道注意力权重A^c和空间注意力权重A^s的表达式如下所示：

其中ca和sa分别表示CBAM中获得两个注意力权重的操作模块，F表示输入特征图，temp表示调节知识蒸馏温度的超参数。

由此，在特征图上进行前背景分离知识蒸馏的损失L_fea可以表示为：

其中，α和β是平衡前背景之间损失的超参数，F^T和F^S分别表示教师网络和学生网络的特征图，C、H、W分别为特征图的通道数、高和宽，f为特征图对齐操作。

为了让学生网络能够模仿教师网络的空间和通道重要性程度，设计了注意力蒸馏损失函数，表达式如下：

其中分别表示教师网络和学生网络在空间上的注意力权重，/>分别表示教师网络和学生网络在通道上的注意力权重，l表示L₁损失函数，γ表示平衡损失函数的超参数。

(2.3)本发明采用自注意力机制的方式获取像素之间的关系，并将其从教师网络迁移到学生网络中，用attn表示获得的元素之间的关系权重。其损失函数表达式如下所示：

其中F_T,F_S分别表示教师网络和学生网络的特征图，attn_T,attn_S分别表示教师网络和学生网络元素之间的关系权重，l表示L₁损失函数，γ和δ表示平衡损失函数的超参数。

综上所述，基于FPN处特征图上的知识蒸馏总损失函数如下所示：

(2.4)在目标检测这种多任务模型框架中分类分支和检测分支两部分都包含了有价值的知识。分类网络模型顶层输出n个值记为向量z，其中n为类别的数量，向量z经过一个带有蒸馏温度系数t的Softmax激活函数变换S(·,t)，得到概率分布p＝S(z,t)。用KL散度作为蒸馏损失函数去约束教师网络输出的概率分布p_t与学生网络输出的概率分布p_s，就可以将教师模型顶层输出的分类知识迁移至学生网络中。分类蒸馏的表达式如下：

其中γ₁是平衡损失的超参数，L_KL表示KL散度作为损失函数，p_t,p_s分别表示教师网络和学生网络输出的概率分布。

同理，在本发明中期望检测分支输出的回归框也能像分类分支一样进行知识蒸馏。采用回归框的离散建模的方式，将回归框的每一条边都看作是包含m个离散值的向量b，一个回归框就用于4个向量b，在每个向量b上作用一个带有温度t的softmax函数，对定位知识进行软化，然后与分类知识蒸馏一样，使用KL散度作为蒸馏损失函数，约束学生网络输出的回归框离散分布去拟合教师网络输出的回归框离散分布。回归框定位蒸馏表达式如下所示：

L_D＝γ₂∑_e∈B L_KL(S(b_S,t),S(b_T,t))#；

其中γ₂是平衡损失的超参数，L_KL表示KL散度作为损失函数，e表示回归框的每条边，S表示Softmax函数操作，b_T,b_S分别表示教师网络和学生网络输出的离散边界框分布，t表示蒸馏温度。

综上所述，本发明的模型设计中总的知识蒸馏损失为：

(3)如图4所示，在水下机器人端，使用TensorRT对蒸馏后的学生模型进行重构和优化，进一步减少模型计算量和内存占用，提高其推理速度。具体优化步骤如下：

使用TensorRT解析网络模型，检测出模型中的无用输出层并将其丢弃，减少计算量和内存；使用TensorRT将模型中的卷积操作、归一化操作和ReLU激活函数等层进行垂直融合，将这些层合并为一个层，减少内存访问和计算的次数；使用TensorRT将输入为相同张量且执行相同操作的层进行水平融合，进一步减少计算量和内存的占用；使用TensorRT优化数据拼接层，将其输入直接送入下一个操作中，而不是将其作为单独的层计算，减少传输的吞吐。

(4)将优化后的学生模型移植部署到水下机器人上搭载的Jetson AGX Xavier上。利用摄像头采集水下实时图像，对图像进行缩放等预处理后输入到学生模型中进行实时目标检测，在图像中标注目标所在位置和类别。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于多知识蒸馏的水下目标检测方法，其特征在于，包括：

构建教师模型和学生模型；

所述基于特征图和顶层输出多知识蒸馏方法训练学生模型包括同时对模型隐藏层输出和顶层输出的有价值信息进行知识蒸馏，通过所述教师模型监督学生网络的训练，通过教师模型的颈部网络Pi层、头部网络分类分支和回归分支输出监督学生模型的颈部网络Pi层、头部网络分类分支和回归分支学习；

对模型隐藏层输出的有价值信息进行知识蒸馏包括：在FPN结构处进行特征图的知识蒸馏中，分别进行特征图的前背景分离、前背景平衡处理、通过CBAM获得空间和通道注意力权重以及通过自注意力机制获得像素点之间的关系；

对模型顶层输出的有价值信息进行知识蒸馏包括：在分类－边框质量分支上进行知识蒸馏以及对回归分支的输出进行离散建模后，再在回归分支上进行蒸馏；

对训练后的学生模型进行重构和优化，输出最优模型；

2.根据权利要求1所述的一种基于多知识蒸馏的水下目标检测方法，其特征在于，所述构建教师模型的步骤包括：

获取水下生物数据；

构建教师模型；

基于水下生物数据对教师模型进行训练得到最优教师模型。

3.根据权利要求2所述的一种基于多知识蒸馏的水下目标检测方法，其特征在于，所述教师模型包括：

4.根据权利要求1所述的一种基于多知识蒸馏的水下目标检测方法，其特征在于，所述学生模型包括：

5.根据权利要求1所述的一种基于多知识蒸馏的水下目标检测方法，其特征在于，所述对训练后的学生模型进行重构和优化包括：使用TensorRT对蒸馏后的学生模型进行重构和优化。

6.一种基于多知识蒸馏的水下目标检测系统，其特征在于，包括：