CN116612379A - 一种基于多知识蒸馏的水下目标检测方法及系统 - Google Patents

一种基于多知识蒸馏的水下目标检测方法及系统 Download PDF

Info

Publication number
CN116612379A
CN116612379A CN202310630360.9A CN202310630360A CN116612379A CN 116612379 A CN116612379 A CN 116612379A CN 202310630360 A CN202310630360 A CN 202310630360A CN 116612379 A CN116612379 A CN 116612379A
Authority
CN
China
Prior art keywords
model
underwater
knowledge distillation
student
teacher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310630360.9A
Other languages
English (en)
Other versions
CN116612379B (zh
Inventor
俞智斌
朱燕琼
郑冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanya Institute Of Oceanography Ocean University Of China
Ocean University of China
Original Assignee
Sanya Institute Of Oceanography Ocean University Of China
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanya Institute Of Oceanography Ocean University Of China, Ocean University of China filed Critical Sanya Institute Of Oceanography Ocean University Of China
Priority to CN202310630360.9A priority Critical patent/CN116612379B/zh
Publication of CN116612379A publication Critical patent/CN116612379A/zh
Application granted granted Critical
Publication of CN116612379B publication Critical patent/CN116612379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/05Underwater scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明公开了一种基于多知识蒸馏的水下目标检测方法及系统,涉及目标检测技术领域,包括:构建教师模型和学生模型;通过教师模型监督学生模型学习,基于特征图和顶层输出多知识蒸馏方法训练学生模型;对训练后的学生模型进行重构和优化,输出最优模型;将最优模型部署到水下装置上,采集水下实时图像,输入到最优模型中进行实时目标检测,输出图像中目标所在位置和类别。本发明解决了目标检测模型难以部署在水下机器人等资源受限的嵌入式设备中,在提升轻量级检测模型的检测精度的同时,解决了现有蒸馏模型中蒸馏知识单一、师生模型前景差异大和水下生物数据集中存在大量边界模糊等问题,在资源受限的设备上实现快速准确地检测水下目标。

Description

一种基于多知识蒸馏的水下目标检测方法及系统
技术领域
本发明涉及目标检测技术领域,更具体的说是涉及一种基于多知识蒸馏的水下目标检测方法及系统。
背景技术
渔业的发展受到劳动力的制约,推进渔业现代化智能化进程能够节省人力劳动成本、降低人力风险和提高作业效率。伴随着渔业发展而产生的水下机器人具有外部感知模块,如摄像头和声纳等。以摄像头为例,其赋予了水下机器人看清周围环境和生物的能力。基于深度学习的水下目标检测技术具有优异的特征提取能力,能够获取水下生物目标的类别和位置信息,是水下机器人进行水下资源管理、捕获抓取决策的前提。
随着深度学习的发展,为了达到更高的预测精度,目标检测的网络结构朝着更深、更复杂的结构发展,带来了极大计算和GPU资源开销。像水下机器人这一类算力和电力资源受限的设备无法满足这类模型的落地部署。为了满足水下机器人等边缘设备的应用需求,一些轻量级模型、模型的量化及剪枝等方法被提出。这些方法大多以牺牲模型的预测精度换取模型的预测速度。目前,知识蒸馏已经在图像分类任务中取得了突破性进展,而对于具有任务更复杂特性的目标检测来说,如何有效地将知识从教师网络模型迁移至学生网络模型中,仍需进一步深入研究。
因此,提出一种基于多知识蒸馏的水下目标检测方法及系统,旨在将高性能的庞大网络模型中的知识迁移至轻量级网络模型中,在维持轻量级模型的预测速度前提下,提升其预测精度,实现快速且精准地获取水下生物目标的类别和位置信息,实现水下资源管理和捕获抓取等智能化,是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于多知识蒸馏的水下目标检测方法及系统,旨在提升轻量级检测模型的检测精度,解决现有蒸馏模型中蒸馏知识单一、师生模型前景差异大和水下生物数据集中存在大量边界模糊的问题,通过TensorRT对模型加速,在资源受限的设备上实现快速准确地检测水下目标,为了实现上述目的,本发明采用如下技术方案:
一种基于多知识蒸馏的水下目标检测方法,包括:
构建教师模型和学生模型;
通过教师模型监督学生模型学习,基于特征图和顶层输出多知识蒸馏方法训练学生模型;
对训练后的学生模型进行重构和优化,输出最优模型;
将最优模型部署到水下装置上,采集水下实时图像,输入到最优模型中进行实时目标检测,输出图像中目标所在位置和类别。
可选的,所述构建教师模型的步骤包括:
获取水下生物数据;
构建教师模型;
基于水下生物数据对教师模型进行训练得到最优教师模型。
可选的,所述教师模型结构包括:
所述教师模型的骨干网络为ResNet50,使用GFL方法改进RetinaNet,左边的骨干网络模块用于提取输入图像中的特征信息,中间部分是FPN结构,右侧是头部网络,包括两个分支:分类-边框质量分支和边界框回归分支,所述分类-边框质量分支包含分类任务和检测框质量任务。
可选的,所述学生模型包括:
所述学生模型的骨干网络为ResNet-18,使用GFL方法改进RetinaNet,左边的骨干网络模块提取输入图片中的特征信息,中间部分是FPN结构,右侧是头部网络,包括两个分支:分类-边框质量分支和边界框回归分支,所述分类-边框质量分支包含分类任务和检测框质量任务。
可选的,所述基于特征图和顶层输出多知识蒸馏方法训练学生模型包括同时对模型隐藏层输出和顶层输出的有价值信息进行知识蒸馏,通过所述教师模型监督学生网络的训练,通过教师模型的颈部网络Pi层、头部网络分类分支和回归分支输出监督学生模型的颈部网络Pi层、头部网络分类分支和回归分支学习。
可选的,对模型隐藏层输出的有价值信息进行知识蒸馏包括:在FPN结构处进行特征图的知识蒸馏中,分别进行特征图的前背景分离、前背景平衡处理、通过CBAM获得空间和通道注意力权重以及通过自注意力机制获得像素点之间的关系。
可选的,对模型顶层输出的有价值信息进行知识蒸馏包括:在分类-边框质量分支上进行知识蒸馏以及对回归分支的输出进行离散建模后,再在回归分支上进行蒸馏。
可选的,所述对训练后的学生模型进行重构和优化包括:使用TensorRT对蒸馏后的学生模型进行重构和优化。
可选的,一种基于多知识蒸馏的水下目标检测系统,包括:
服务器模块:用于构建教师模型和学生模型;通过教师模型监督学生模型学习,基于特征图和顶层输出多知识蒸馏方法训练学生模型;
优化模块:用于对训练后的学生模型进行重构和优化,输出最优模型;
应用模块:用于将最优模型部署到水下装置上,采集水下实时图像,输入到最优模型中进行实时目标检测,输出图像中目标所在位置和类别。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于多知识蒸馏的水下目标检测方法及系统,具有如下有益效果:
本发明提出一种基于多知识蒸馏的水下目标检测方法及系统,解决了传统知识蒸馏方法中知识单一的问题,提出同时对模型隐藏层输出和顶层输出进行知识蒸馏的方法,达到了有效知识迁移的目的,基于知识类型的丰富实现了轻量级网络模型预测精度的显著提升。由于蒸馏后的网络模型结构更简单,参数量更少,因此本发明解决了目标检测模型难以部署在水下机器人等资源受限的嵌入式设备中,实现了水下目标在线检测,解决了现有技术存在的实时性问题。
本发明在提升轻量级检测模型的检测精度的同时,解决了现有蒸馏模型中蒸馏知识单一、师生模型前景差异大和水下生物数据集中存在大量边界模糊等问题,通过TensorRT对模型加速,在资源受限的设备上实现快速准确地检测水下目标。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种基于多知识蒸馏的水下目标检测方法结构示意图。
图2为本发明提供的基于特征图和顶层输出多知识蒸馏的结构示意图。
图3为本发明提供的教师模型与学生模型的结构示意图。
图4为本发明提供的基于TensorRT的模型加速流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于多知识蒸馏的水下目标检测方法,包括:
构建教师模型和学生模型;
通过教师模型监督学生模型学习,基于特征图和顶层输出多知识蒸馏方法训练学生模型;
对训练后的学生模型进行重构和优化,输出最优模型;
将最优模型部署到水下装置上,采集水下实时图像,输入到最优模型中进行实时目标检测,输出图像中目标所在位置和类别。
进一步的,所述构建教师模型的步骤包括:
获取水下生物数据;
构建教师模型;
基于水下生物数据对教师模型进行训练得到最优教师模型。
进一步的,所述教师模型结构包括:
所述教师模型的骨干网络为ResNet50,使用GFL方法改进RetinaNet,左边的骨干网络模块用于提取输入图像中的特征信息,中间部分是FPN结构,右侧是头部网络,包括两个分支:分类-边框质量分支和边界框回归分支,所述分类-边框质量分支包含分类任务和检测框质量任务。
进一步的,所述学生模型包括:
所述学生模型的骨干网络为ResNet-18,使用GFL方法改进RetinaNet,左边的骨干网络模块提取输入图片中的特征信息,中间部分是FPN结构,右侧是头部网络,包括两个分支:分类-边框质量分支和边界框回归分支,所述分类-边框质量分支包含分类任务和检测框质量任务。
进一步的,所述基于特征图和顶层输出多知识蒸馏方法训练学生模型包括同时对模型隐藏层输出和顶层输出的有价值信息进行知识蒸馏,通过所述教师模型监督学生网络的训练,通过教师模型的颈部网络Pi层、头部网络分类分支和回归分支输出监督学生模型的颈部网络Pi层、头部网络分类分支和回归分支学习。
进一步的,对模型隐藏层输出的有价值信息进行知识蒸馏包括:在FPN结构处进行特征图的知识蒸馏中,分别进行特征图的前背景分离、前背景平衡处理、通过CBAM获得空间和通道注意力权重以及通过自注意力机制获得像素点之间的关系。
进一步的,对模型顶层输出的有价值信息进行知识蒸馏包括:在分类-边框质量分支上进行知识蒸馏以及对回归分支的输出进行离散建模后,再在回归分支上进行蒸馏。
进一步的,所述对训练后的学生模型进行重构和优化包括:使用TensorRT对蒸馏后的学生模型进行重构和优化。
进一步的,一种基于多知识蒸馏的水下目标检测系统,包括:
服务器模块:用于构建教师模型和学生模型;通过教师模型监督学生模型学习,基于特征图和顶层输出多知识蒸馏方法训练学生模型;
优化模块:用于对训练后的学生模型进行重构和优化,输出最优模型;
应用模块:用于将最优模型部署到水下装置上,采集水下实时图像,输入到最优模型中进行实时目标检测,输出图像中目标所在位置和类别。
在具体实施方式中,如图1所示,一种基于多知识蒸馏的水下目标检测方法,包括:
(1)在服务器端,基于水下生物数据训练一个结构复杂、检测精度高的教师模型。具体包括:目标检测模型为使用GFL方法改进的RetinaNet。首先训练以ResNet50作为骨干网络的教师模型,准确率高。其中GFL可以作用于任意单阶段目标检测中,提高其预测精度;
如图3所示,一种教师与学生模型的结构示意图,左边的骨干网络模块提取输入图片中的特征信息,为分类和回归任务做准备,教师模型的骨干网络使用ResNet-50。中间部分是FPN结构,网络的深层往往包含丰富的语义信息,缺乏纹理信息;网络的浅层往往是纹理信息丰富,但语义信息匮乏。使用FPN有助于提高模型对目标位置信息保存的完整性和提高小目标检测的准确性。右侧是头部网络,有两个分支:分类-边框质量分支和边界框回归分支,其中分类-边框质量分支包含了分类任务和检测框质量任务。头部网络结构解决了模型训练和测试阶段不一致情况以及目标边界框模糊的情况。
(2)在服务器端,使用基于特征图和顶层输出多知识蒸馏方法训练学生模型。
学生模型的骨干网络部分使用参数量更低的ResNet-18,与教师模型唯一的区别是使用的骨干网络不一样,网络的其他部分结构完全一致。将(1)中获得的教师模型用于监督学生网络的训练。如图2所示,在知识蒸馏的时候,会对FPN结构中P3到P5每层的特征图分别进行知识蒸馏学习,即用教师网络模型的Pi层去监督学生网络模型的Pi层学习,其中i=3,4,5,6,7;在目标检测任务头上进行分类和回归的知识蒸馏。
(2.1)在FPN结构处进行特征图的知识蒸馏中,分别进行了特征图的前背景分离、前背景平衡处理、通过CBAM获得空间和通道注意力权重以及通过自注意力机制获得像素点之间的关系操作,提升了学生模型的检测性能。
具体设计如下:
使用二进制掩码mask的方式分类前背景,公式如下:
R表示真实的目标框,(i,j)表示特征图中像素点的横纵坐标,如果(i,j)在区域R中,则mask(i,j)的值为1,否则为0。
考虑到在同一图像中尺寸较大的目标占有的像素较多,会主导损失函数,从而影响了尺寸较小的目标进行知识蒸馏;同时,在不同的图像中,由于目标数量的不同,所以前景和背景所占的像素比例差异较大。为了平衡这种差异,设置了一个平衡因子B,公式如下:
Hr,Wr分别表示真实框的高度和宽度,HrWr代表了真实框的面积,如果一个像素处于不同的真实框内,那么就选择面积最小的框来计算Bi,j计算了背景区域所占的面积。
(2.2)在本发明中采用了CBAM注意力机制的方式获取了特征图空间和通道的注意力权重,在知识蒸馏的时候学生网络能够学习教师网络的关键像素和通道,有助于学生网络取得更高的性能。获得通道注意力权重Ac和空间注意力权重As的表达式如下所示:
其中ca和sa分别表示CBAM中获得两个注意力权重的操作模块,F表示输入特征图,temp表示调节知识蒸馏温度的超参数。
由此,在特征图上进行前背景分离知识蒸馏的损失Lfea可以表示为:
其中,α和β是平衡前背景之间损失的超参数,FT和FS分别表示教师网络和学生网络的特征图,C、H、W分别为特征图的通道数、高和宽,f为特征图对齐操作。
为了让学生网络能够模仿教师网络的空间和通道重要性程度,设计了注意力蒸馏损失函数,表达式如下:
其中分别表示教师网络和学生网络在空间上的注意力权重,/>分别表示教师网络和学生网络在通道上的注意力权重,l表示L1损失函数,γ表示平衡损失函数的超参数。
(2.3)本发明采用自注意力机制的方式获取像素之间的关系,并将其从教师网络迁移到学生网络中,用attn表示获得的元素之间的关系权重。其损失函数表达式如下所示:
其中FT,FS分别表示教师网络和学生网络的特征图,attnT,attnS分别表示教师网络和学生网络元素之间的关系权重,l表示L1损失函数,γ和δ表示平衡损失函数的超参数。
综上所述,基于FPN处特征图上的知识蒸馏总损失函数如下所示:
(2.4)在目标检测这种多任务模型框架中分类分支和检测分支两部分都包含了有价值的知识。分类网络模型顶层输出n个值记为向量z,其中n为类别的数量,向量z经过一个带有蒸馏温度系数t的Softmax激活函数变换S(·,t),得到概率分布p=S(z,t)。用KL散度作为蒸馏损失函数去约束教师网络输出的概率分布pt与学生网络输出的概率分布ps,就可以将教师模型顶层输出的分类知识迁移至学生网络中。分类蒸馏的表达式如下:
其中γ1是平衡损失的超参数,LKL表示KL散度作为损失函数,pt,ps分别表示教师网络和学生网络输出的概率分布。
同理,在本发明中期望检测分支输出的回归框也能像分类分支一样进行知识蒸馏。采用回归框的离散建模的方式,将回归框的每一条边都看作是包含m个离散值的向量b,一个回归框就用于4个向量b,在每个向量b上作用一个带有温度t的softmax函数,对定位知识进行软化,然后与分类知识蒸馏一样,使用KL散度作为蒸馏损失函数,约束学生网络输出的回归框离散分布去拟合教师网络输出的回归框离散分布。回归框定位蒸馏表达式如下所示:
LD=γ2e∈B LKL(S(bS,t),S(bT,t))#;
其中γ2是平衡损失的超参数,LKL表示KL散度作为损失函数,e表示回归框的每条边,S表示Softmax函数操作,bT,bS分别表示教师网络和学生网络输出的离散边界框分布,t表示蒸馏温度。
综上所述,本发明的模型设计中总的知识蒸馏损失为:
(3)如图4所示,在水下机器人端,使用TensorRT对蒸馏后的学生模型进行重构和优化,进一步减少模型计算量和内存占用,提高其推理速度。具体优化步骤如下:
使用TensorRT解析网络模型,检测出模型中的无用输出层并将其丢弃,减少计算量和内存;使用TensorRT将模型中的卷积操作、归一化操作和ReLU激活函数等层进行垂直融合,将这些层合并为一个层,减少内存访问和计算的次数;使用TensorRT将输入为相同张量且执行相同操作的层进行水平融合,进一步减少计算量和内存的占用;使用TensorRT优化数据拼接层,将其输入直接送入下一个操作中,而不是将其作为单独的层计算,减少传输的吞吐。
(4)将优化后的学生模型移植部署到水下机器人上搭载的Jetson AGX Xavier上。利用摄像头采集水下实时图像,对图像进行缩放等预处理后输入到学生模型中进行实时目标检测,在图像中标注目标所在位置和类别。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种基于多知识蒸馏的水下目标检测方法,其特征在于,包括:
构建教师模型和学生模型;
通过教师模型监督学生模型学习,基于特征图和顶层输出多知识蒸馏方法训练学生模型;
对训练后的学生模型进行重构和优化,输出最优模型;
将最优模型部署到水下装置上,采集水下实时图像,输入到最优模型中进行实时目标检测,输出图像中目标所在位置和类别。
2.根据权利要求1所述的一种基于多知识蒸馏的水下目标检测方法,其特征在于,所述构建教师模型的步骤包括:
获取水下生物数据;
构建教师模型;
基于水下生物数据对教师模型进行训练得到最优教师模型。
3.根据权利要求2所述的一种基于多知识蒸馏的水下目标检测方法,其特征在于,所述教师模型包括:
所述教师模型的骨干网络为ResNet50,使用GFL方法改进RetinaNet,左边的骨干网络模块用于提取输入图像中的特征信息,中间部分是FPN结构,右侧是头部网络,包括两个分支:分类-边框质量分支和边界框回归分支,所述分类-边框质量分支包含分类任务和检测框质量任务。
4.根据权利要求1所述的一种基于多知识蒸馏的水下目标检测方法,其特征在于,所述学生模型包括:
所述学生模型的骨干网络为ResNet-18,使用GFL方法改进RetinaNet,左边的骨干网络模块提取输入图片中的特征信息,中间部分是FPN结构,右侧是头部网络,包括两个分支:分类-边框质量分支和边界框回归分支,所述分类-边框质量分支包含分类任务和检测框质量任务。
5.根据权利要求1所述的一种基于多知识蒸馏的水下目标检测方法,其特征在于,所述基于特征图和顶层输出多知识蒸馏方法训练学生模型包括同时对模型隐藏层输出和顶层输出的有价值信息进行知识蒸馏,通过所述教师模型监督学生网络的训练,通过教师模型的颈部网络Pi层、头部网络分类分支和回归分支输出监督学生模型的颈部网络Pi层、头部网络分类分支和回归分支学习。
6.根据权利要求5所述的一种基于多知识蒸馏的水下目标检测方法,其特征在于,对模型隐藏层输出的有价值信息进行知识蒸馏包括:在FPN结构处进行特征图的知识蒸馏中,分别进行特征图的前背景分离、前背景平衡处理、通过CBAM获得空间和通道注意力权重以及通过自注意力机制获得像素点之间的关系。
7.根据权利要求5所述的一种基于多知识蒸馏的水下目标检测方法,其特征在于,对模型顶层输出的有价值信息进行知识蒸馏包括:在分类-边框质量分支上进行知识蒸馏以及对回归分支的输出进行离散建模后,再在回归分支上进行蒸馏。
8.根据权利要求1所述的一种基于多知识蒸馏的水下目标检测方法,其特征在于,所述对训练后的学生模型进行重构和优化包括:使用TensorRT对蒸馏后的学生模型进行重构和优化。
9.一种基于多知识蒸馏的水下目标检测系统,其特征在于,包括:
服务器模块:用于构建教师模型和学生模型;通过教师模型监督学生模型学习,基于特征图和顶层输出多知识蒸馏方法训练学生模型;
优化模块:用于对训练后的学生模型进行重构和优化,输出最优模型;
应用模块:用于将最优模型部署到水下装置上,采集水下实时图像,输入到最优模型中进行实时目标检测,输出图像中目标所在位置和类别。
CN202310630360.9A 2023-05-30 2023-05-30 一种基于多知识蒸馏的水下目标检测方法及系统 Active CN116612379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310630360.9A CN116612379B (zh) 2023-05-30 2023-05-30 一种基于多知识蒸馏的水下目标检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310630360.9A CN116612379B (zh) 2023-05-30 2023-05-30 一种基于多知识蒸馏的水下目标检测方法及系统

Publications (2)

Publication Number Publication Date
CN116612379A true CN116612379A (zh) 2023-08-18
CN116612379B CN116612379B (zh) 2024-02-02

Family

ID=87681585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310630360.9A Active CN116612379B (zh) 2023-05-30 2023-05-30 一种基于多知识蒸馏的水下目标检测方法及系统

Country Status (1)

Country Link
CN (1) CN116612379B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200175384A1 (en) * 2018-11-30 2020-06-04 Samsung Electronics Co., Ltd. System and method for incremental learning
CN112200187A (zh) * 2020-10-16 2021-01-08 广州云从凯风科技有限公司 一种目标检测方法、装置、机器可读介质及设备
CN112529178A (zh) * 2020-12-09 2021-03-19 中国科学院国家空间科学中心 一种适用于无预选框检测模型的知识蒸馏方法及系统
CN112766087A (zh) * 2021-01-04 2021-05-07 武汉大学 一种基于知识蒸馏的光学遥感图像舰船检测方法
CN115063663A (zh) * 2022-06-06 2022-09-16 电子科技大学 一种基于知识蒸馏的目标检测压缩方法
CN115100238A (zh) * 2022-05-24 2022-09-23 北京理工大学 基于知识蒸馏的轻量化单目标跟踪器训练方法
CN115204394A (zh) * 2022-07-05 2022-10-18 上海人工智能创新中心 用于目标检测的知识蒸馏方法
CN116110022A (zh) * 2022-12-10 2023-05-12 河南工业大学 基于响应知识蒸馏的轻量化交通标志检测方法及系统
US20230154202A1 (en) * 2020-10-23 2023-05-18 Xi'an Creation Keji Co., Ltd. Method of road detection based on internet of vehicles

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200175384A1 (en) * 2018-11-30 2020-06-04 Samsung Electronics Co., Ltd. System and method for incremental learning
CN112200187A (zh) * 2020-10-16 2021-01-08 广州云从凯风科技有限公司 一种目标检测方法、装置、机器可读介质及设备
US20230154202A1 (en) * 2020-10-23 2023-05-18 Xi'an Creation Keji Co., Ltd. Method of road detection based on internet of vehicles
CN112529178A (zh) * 2020-12-09 2021-03-19 中国科学院国家空间科学中心 一种适用于无预选框检测模型的知识蒸馏方法及系统
CN112766087A (zh) * 2021-01-04 2021-05-07 武汉大学 一种基于知识蒸馏的光学遥感图像舰船检测方法
CN115100238A (zh) * 2022-05-24 2022-09-23 北京理工大学 基于知识蒸馏的轻量化单目标跟踪器训练方法
CN115063663A (zh) * 2022-06-06 2022-09-16 电子科技大学 一种基于知识蒸馏的目标检测压缩方法
CN115204394A (zh) * 2022-07-05 2022-10-18 上海人工智能创新中心 用于目标检测的知识蒸馏方法
CN116110022A (zh) * 2022-12-10 2023-05-12 河南工业大学 基于响应知识蒸馏的轻量化交通标志检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TINGTING LIANG 等: "CBNetV2: A Composite Backbone Network Architecture for Object Detection", 《ARXIV:2107.00420V6》, pages 2 - 8 *
王震 等: "基于卷积神经网络知识蒸馏的SAR图像目标检测及识别方法研究", 《CNKI学位》, vol. 2022, no. 04, pages 19 *

Also Published As

Publication number Publication date
CN116612379B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
JP6980958B1 (ja) 深層学習に基づく農村地域分けゴミ識別方法
CN114241282B (zh) 一种基于知识蒸馏的边缘设备场景识别方法及装置
EP3968179A1 (en) Place recognition method and apparatus, model training method and apparatus for place recognition, and electronic device
CN112150821B (zh) 轻量化车辆检测模型构建方法、系统及装置
CN109299716A (zh) 神经网络的训练方法、图像分割方法、装置、设备及介质
CN111461212B (zh) 一种用于点云目标检测模型的压缩方法
CN112232355B (zh) 图像分割网络处理、图像分割方法、装置和计算机设备
CN112990116B (zh) 基于多注意力机制融合的行为识别装置、方法和存储介质
CN111798456A (zh) 一种实例分割模型的训练方法、装置、实例分割方法
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN113011568A (zh) 一种模型的训练方法、数据处理方法及设备
CN115578770A (zh) 基于自监督的小样本面部表情识别方法及系统
CN112465057A (zh) 一种基于深度卷积神经网络的目标检测识别方法
CN111695640A (zh) 地基云图识别模型训练方法及地基云图识别方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
CN113239866B (zh) 一种时空特征融合与样本注意增强的人脸识别方法及系统
CN116612379B (zh) 一种基于多知识蒸馏的水下目标检测方法及系统
CN114758135A (zh) 一种基于注意力机制的无监督图像语义分割方法
CN114187506A (zh) 视点意识的动态路由胶囊网络的遥感图像场景分类方法
CN112329550A (zh) 基于弱监督学习的受灾建筑快速定位评估方法及装置
CN112861682B (zh) 基于朴素贝叶斯云计算路面图像采集分类方法及其装置
CN117409205B (zh) 一种用于电力设备的异物搭挂检测和分割方法及系统
CN113763282B (zh) 一种车牌图像的模糊图像生成方法
Ahuja et al. Object Detection and classification for Autonomous Drones

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant