CN116612379B - 一种基于多知识蒸馏的水下目标检测方法及系统 - Google Patents
一种基于多知识蒸馏的水下目标检测方法及系统 Download PDFInfo
- Publication number
- CN116612379B CN116612379B CN202310630360.9A CN202310630360A CN116612379B CN 116612379 B CN116612379 B CN 116612379B CN 202310630360 A CN202310630360 A CN 202310630360A CN 116612379 B CN116612379 B CN 116612379B
- Authority
- CN
- China
- Prior art keywords
- model
- student
- knowledge distillation
- underwater
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 67
- 238000001514 detection method Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000004821 distillation Methods 0.000 claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000000926 separation method Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 208000037805 labour Diseases 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 102000003712 Complement factor B Human genes 0.000 description 1
- 108090000056 Complement factor B Proteins 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/05—Underwater scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多知识蒸馏的水下目标检测方法及系统,涉及目标检测技术领域,包括:构建教师模型和学生模型;通过教师模型监督学生模型学习,基于特征图和顶层输出多知识蒸馏方法训练学生模型;对训练后的学生模型进行重构和优化,输出最优模型;将最优模型部署到水下装置上,采集水下实时图像,输入到最优模型中进行实时目标检测,输出图像中目标所在位置和类别。本发明解决了目标检测模型难以部署在水下机器人等资源受限的嵌入式设备中,在提升轻量级检测模型的检测精度的同时,解决了现有蒸馏模型中蒸馏知识单一、师生模型前景差异大和水下生物数据集中存在大量边界模糊等问题,在资源受限的设备上实现快速准确地检测水下目标。
Description
技术领域
本发明涉及目标检测技术领域,更具体的说是涉及一种基于多知识蒸馏的水下目标检测方法及系统。
背景技术
渔业的发展受到劳动力的制约,推进渔业现代化智能化进程能够节省人力劳动成本、降低人力风险和提高作业效率。伴随着渔业发展而产生的水下机器人具有外部感知模块,如摄像头和声纳等。以摄像头为例,其赋予了水下机器人看清周围环境和生物的能力。基于深度学习的水下目标检测技术具有优异的特征提取能力,能够获取水下生物目标的类别和位置信息,是水下机器人进行水下资源管理、捕获抓取决策的前提。
随着深度学习的发展,为了达到更高的预测精度,目标检测的网络结构朝着更深、更复杂的结构发展,带来了极大计算和GPU资源开销。像水下机器人这一类算力和电力资源受限的设备无法满足这类模型的落地部署。为了满足水下机器人等边缘设备的应用需求,一些轻量级模型、模型的量化及剪枝等方法被提出。这些方法大多以牺牲模型的预测精度换取模型的预测速度。目前,知识蒸馏已经在图像分类任务中取得了突破性进展,而对于具有任务更复杂特性的目标检测来说,如何有效地将知识从教师网络模型迁移至学生网络模型中,仍需进一步深入研究。
因此,提出一种基于多知识蒸馏的水下目标检测方法及系统,旨在将高性能的庞大网络模型中的知识迁移至轻量级网络模型中,在维持轻量级模型的预测速度前提下,提升其预测精度,实现快速且精准地获取水下生物目标的类别和位置信息,实现水下资源管理和捕获抓取等智能化,是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于多知识蒸馏的水下目标检测方法及系统,旨在提升轻量级检测模型的检测精度,解决现有蒸馏模型中蒸馏知识单一、师生模型前景差异大和水下生物数据集中存在大量边界模糊的问题,通过TensorRT对模型加速,在资源受限的设备上实现快速准确地检测水下目标,为了实现上述目的,本发明采用如下技术方案:
一种基于多知识蒸馏的水下目标检测方法,包括:
构建教师模型和学生模型;
通过教师模型监督学生模型学习,基于特征图和顶层输出多知识蒸馏方法训练学生模型;
对训练后的学生模型进行重构和优化,输出最优模型;
将最优模型部署到水下装置上,采集水下实时图像,输入到最优模型中进行实时目标检测,输出图像中目标所在位置和类别。
可选的,所述构建教师模型的步骤包括:
获取水下生物数据;
构建教师模型;
基于水下生物数据对教师模型进行训练得到最优教师模型。
可选的,所述教师模型结构包括:
所述教师模型的骨干网络为ResNet50,使用GFL方法改进RetinaNet,左边的骨干网络模块用于提取输入图像中的特征信息,中间部分是FPN结构,右侧是头部网络,包括两个分支:分类-边框质量分支和边界框回归分支,所述分类-边框质量分支包含分类任务和检测框质量任务。
可选的,所述学生模型包括:
所述学生模型的骨干网络为ResNet-18,使用GFL方法改进RetinaNet,左边的骨干网络模块提取输入图片中的特征信息,中间部分是FPN结构,右侧是头部网络,包括两个分支:分类-边框质量分支和边界框回归分支,所述分类-边框质量分支包含分类任务和检测框质量任务。
可选的,所述基于特征图和顶层输出多知识蒸馏方法训练学生模型包括同时对模型隐藏层输出和顶层输出的有价值信息进行知识蒸馏,通过所述教师模型监督学生网络的训练,通过教师模型的颈部网络Pi层、头部网络分类分支和回归分支输出监督学生模型的颈部网络Pi层、头部网络分类分支和回归分支学习。
可选的,对模型隐藏层输出的有价值信息进行知识蒸馏包括:在FPN结构处进行特征图的知识蒸馏中,分别进行特征图的前背景分离、前背景平衡处理、通过CBAM获得空间和通道注意力权重以及通过自注意力机制获得像素点之间的关系。
可选的,对模型顶层输出的有价值信息进行知识蒸馏包括:在分类-边框质量分支上进行知识蒸馏以及对回归分支的输出进行离散建模后,再在回归分支上进行蒸馏。
可选的,所述对训练后的学生模型进行重构和优化包括:使用TensorRT对蒸馏后的学生模型进行重构和优化。
可选的,一种基于多知识蒸馏的水下目标检测系统,包括:
服务器模块:用于构建教师模型和学生模型;通过教师模型监督学生模型学习,基于特征图和顶层输出多知识蒸馏方法训练学生模型;
优化模块:用于对训练后的学生模型进行重构和优化,输出最优模型;
应用模块:用于将最优模型部署到水下装置上,采集水下实时图像,输入到最优模型中进行实时目标检测,输出图像中目标所在位置和类别。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于多知识蒸馏的水下目标检测方法及系统,具有如下有益效果:
本发明提出一种基于多知识蒸馏的水下目标检测方法及系统,解决了传统知识蒸馏方法中知识单一的问题,提出同时对模型隐藏层输出和顶层输出进行知识蒸馏的方法,达到了有效知识迁移的目的,基于知识类型的丰富实现了轻量级网络模型预测精度的显著提升。由于蒸馏后的网络模型结构更简单,参数量更少,因此本发明解决了目标检测模型难以部署在水下机器人等资源受限的嵌入式设备中,实现了水下目标在线检测,解决了现有技术存在的实时性问题。
本发明在提升轻量级检测模型的检测精度的同时,解决了现有蒸馏模型中蒸馏知识单一、师生模型前景差异大和水下生物数据集中存在大量边界模糊等问题,通过TensorRT对模型加速,在资源受限的设备上实现快速准确地检测水下目标。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种基于多知识蒸馏的水下目标检测方法结构示意图。
图2为本发明提供的基于特征图和顶层输出多知识蒸馏的结构示意图。
图3为本发明提供的教师模型与学生模型的结构示意图。
图4为本发明提供的基于TensorRT的模型加速流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于多知识蒸馏的水下目标检测方法,包括:
构建教师模型和学生模型;
通过教师模型监督学生模型学习,基于特征图和顶层输出多知识蒸馏方法训练学生模型;
对训练后的学生模型进行重构和优化,输出最优模型;
将最优模型部署到水下装置上,采集水下实时图像,输入到最优模型中进行实时目标检测,输出图像中目标所在位置和类别。
进一步的,所述构建教师模型的步骤包括:
获取水下生物数据;
构建教师模型;
基于水下生物数据对教师模型进行训练得到最优教师模型。
进一步的,所述教师模型结构包括:
所述教师模型的骨干网络为ResNet50,使用GFL方法改进RetinaNet,左边的骨干网络模块用于提取输入图像中的特征信息,中间部分是FPN结构,右侧是头部网络,包括两个分支:分类-边框质量分支和边界框回归分支,所述分类-边框质量分支包含分类任务和检测框质量任务。
进一步的,所述学生模型包括:
所述学生模型的骨干网络为ResNet-18,使用GFL方法改进RetinaNet,左边的骨干网络模块提取输入图片中的特征信息,中间部分是FPN结构,右侧是头部网络,包括两个分支:分类-边框质量分支和边界框回归分支,所述分类-边框质量分支包含分类任务和检测框质量任务。
进一步的,所述基于特征图和顶层输出多知识蒸馏方法训练学生模型包括同时对模型隐藏层输出和顶层输出的有价值信息进行知识蒸馏,通过所述教师模型监督学生网络的训练,通过教师模型的颈部网络Pi层、头部网络分类分支和回归分支输出监督学生模型的颈部网络Pi层、头部网络分类分支和回归分支学习。
进一步的,对模型隐藏层输出的有价值信息进行知识蒸馏包括:在FPN结构处进行特征图的知识蒸馏中,分别进行特征图的前背景分离、前背景平衡处理、通过CBAM获得空间和通道注意力权重以及通过自注意力机制获得像素点之间的关系。
进一步的,对模型顶层输出的有价值信息进行知识蒸馏包括:在分类-边框质量分支上进行知识蒸馏以及对回归分支的输出进行离散建模后,再在回归分支上进行蒸馏。
进一步的,所述对训练后的学生模型进行重构和优化包括:使用TensorRT对蒸馏后的学生模型进行重构和优化。
进一步的,一种基于多知识蒸馏的水下目标检测系统,包括:
服务器模块:用于构建教师模型和学生模型;通过教师模型监督学生模型学习,基于特征图和顶层输出多知识蒸馏方法训练学生模型;
优化模块:用于对训练后的学生模型进行重构和优化,输出最优模型;
应用模块:用于将最优模型部署到水下装置上,采集水下实时图像,输入到最优模型中进行实时目标检测,输出图像中目标所在位置和类别。
在具体实施方式中,如图1所示,一种基于多知识蒸馏的水下目标检测方法,包括:
(1)在服务器端,基于水下生物数据训练一个结构复杂、检测精度高的教师模型。具体包括:目标检测模型为使用GFL方法改进的RetinaNet。首先训练以ResNet50作为骨干网络的教师模型,准确率高。其中GFL可以作用于任意单阶段目标检测中,提高其预测精度;
如图3所示,一种教师与学生模型的结构示意图,左边的骨干网络模块提取输入图片中的特征信息,为分类和回归任务做准备,教师模型的骨干网络使用ResNet-50。中间部分是FPN结构,网络的深层往往包含丰富的语义信息,缺乏纹理信息;网络的浅层往往是纹理信息丰富,但语义信息匮乏。使用FPN有助于提高模型对目标位置信息保存的完整性和提高小目标检测的准确性。右侧是头部网络,有两个分支:分类-边框质量分支和边界框回归分支,其中分类-边框质量分支包含了分类任务和检测框质量任务。头部网络结构解决了模型训练和测试阶段不一致情况以及目标边界框模糊的情况。
(2)在服务器端,使用基于特征图和顶层输出多知识蒸馏方法训练学生模型。
学生模型的骨干网络部分使用参数量更低的ResNet-18,与教师模型唯一的区别是使用的骨干网络不一样,网络的其他部分结构完全一致。将(1)中获得的教师模型用于监督学生网络的训练。如图2所示,在知识蒸馏的时候,会对FPN结构中P3到P5每层的特征图分别进行知识蒸馏学习,即用教师网络模型的Pi层去监督学生网络模型的Pi层学习,其中i=3,4,5,6,7;在目标检测任务头上进行分类和回归的知识蒸馏。
(2.1)在FPN结构处进行特征图的知识蒸馏中,分别进行了特征图的前背景分离、前背景平衡处理、通过CBAM获得空间和通道注意力权重以及通过自注意力机制获得像素点之间的关系操作,提升了学生模型的检测性能。
具体设计如下:
使用二进制掩码mask的方式分类前背景,公式如下:
R表示真实的目标框,(i,j)表示特征图中像素点的横纵坐标,如果(i,j)在区域R中,则mask(i,j)的值为1,否则为0。
考虑到在同一图像中尺寸较大的目标占有的像素较多,会主导损失函数,从而影响了尺寸较小的目标进行知识蒸馏;同时,在不同的图像中,由于目标数量的不同,所以前景和背景所占的像素比例差异较大。为了平衡这种差异,设置了一个平衡因子B,公式如下:
Hr,Wr分别表示真实框的高度和宽度,HrWr代表了真实框的面积,如果一个像素处于不同的真实框内,那么就选择面积最小的框来计算Bi,j,计算了背景区域所占的面积。
(2.2)在本发明中采用了CBAM注意力机制的方式获取了特征图空间和通道的注意力权重,在知识蒸馏的时候学生网络能够学习教师网络的关键像素和通道,有助于学生网络取得更高的性能。获得通道注意力权重Ac和空间注意力权重As的表达式如下所示:
其中ca和sa分别表示CBAM中获得两个注意力权重的操作模块,F表示输入特征图,temp表示调节知识蒸馏温度的超参数。
由此,在特征图上进行前背景分离知识蒸馏的损失Lfea可以表示为:
其中,α和β是平衡前背景之间损失的超参数,FT和FS分别表示教师网络和学生网络的特征图,C、H、W分别为特征图的通道数、高和宽,f为特征图对齐操作。
为了让学生网络能够模仿教师网络的空间和通道重要性程度,设计了注意力蒸馏损失函数,表达式如下:
其中分别表示教师网络和学生网络在空间上的注意力权重,/>分别表示教师网络和学生网络在通道上的注意力权重,l表示L1损失函数,γ表示平衡损失函数的超参数。
(2.3)本发明采用自注意力机制的方式获取像素之间的关系,并将其从教师网络迁移到学生网络中,用attn表示获得的元素之间的关系权重。其损失函数表达式如下所示:
其中FT,FS分别表示教师网络和学生网络的特征图,attnT,attnS分别表示教师网络和学生网络元素之间的关系权重,l表示L1损失函数,γ和δ表示平衡损失函数的超参数。
综上所述,基于FPN处特征图上的知识蒸馏总损失函数如下所示:
(2.4)在目标检测这种多任务模型框架中分类分支和检测分支两部分都包含了有价值的知识。分类网络模型顶层输出n个值记为向量z,其中n为类别的数量,向量z经过一个带有蒸馏温度系数t的Softmax激活函数变换S(·,t),得到概率分布p=S(z,t)。用KL散度作为蒸馏损失函数去约束教师网络输出的概率分布pt与学生网络输出的概率分布ps,就可以将教师模型顶层输出的分类知识迁移至学生网络中。分类蒸馏的表达式如下:
其中γ1是平衡损失的超参数,LKL表示KL散度作为损失函数,pt,ps分别表示教师网络和学生网络输出的概率分布。
同理,在本发明中期望检测分支输出的回归框也能像分类分支一样进行知识蒸馏。采用回归框的离散建模的方式,将回归框的每一条边都看作是包含m个离散值的向量b,一个回归框就用于4个向量b,在每个向量b上作用一个带有温度t的softmax函数,对定位知识进行软化,然后与分类知识蒸馏一样,使用KL散度作为蒸馏损失函数,约束学生网络输出的回归框离散分布去拟合教师网络输出的回归框离散分布。回归框定位蒸馏表达式如下所示:
LD=γ2∑e∈B LKL(S(bS,t),S(bT,t))#;
其中γ2是平衡损失的超参数,LKL表示KL散度作为损失函数,e表示回归框的每条边,S表示Softmax函数操作,bT,bS分别表示教师网络和学生网络输出的离散边界框分布,t表示蒸馏温度。
综上所述,本发明的模型设计中总的知识蒸馏损失为:
(3)如图4所示,在水下机器人端,使用TensorRT对蒸馏后的学生模型进行重构和优化,进一步减少模型计算量和内存占用,提高其推理速度。具体优化步骤如下:
使用TensorRT解析网络模型,检测出模型中的无用输出层并将其丢弃,减少计算量和内存;使用TensorRT将模型中的卷积操作、归一化操作和ReLU激活函数等层进行垂直融合,将这些层合并为一个层,减少内存访问和计算的次数;使用TensorRT将输入为相同张量且执行相同操作的层进行水平融合,进一步减少计算量和内存的占用;使用TensorRT优化数据拼接层,将其输入直接送入下一个操作中,而不是将其作为单独的层计算,减少传输的吞吐。
(4)将优化后的学生模型移植部署到水下机器人上搭载的Jetson AGX Xavier上。利用摄像头采集水下实时图像,对图像进行缩放等预处理后输入到学生模型中进行实时目标检测,在图像中标注目标所在位置和类别。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (6)
1.一种基于多知识蒸馏的水下目标检测方法,其特征在于,包括:
构建教师模型和学生模型;
通过教师模型监督学生模型学习,基于特征图和顶层输出多知识蒸馏方法训练学生模型;
所述基于特征图和顶层输出多知识蒸馏方法训练学生模型包括同时对模型隐藏层输出和顶层输出的有价值信息进行知识蒸馏,通过所述教师模型监督学生网络的训练,通过教师模型的颈部网络Pi层、头部网络分类分支和回归分支输出监督学生模型的颈部网络Pi层、头部网络分类分支和回归分支学习;
对模型隐藏层输出的有价值信息进行知识蒸馏包括:在FPN结构处进行特征图的知识蒸馏中,分别进行特征图的前背景分离、前背景平衡处理、通过CBAM获得空间和通道注意力权重以及通过自注意力机制获得像素点之间的关系;
对模型顶层输出的有价值信息进行知识蒸馏包括:在分类-边框质量分支上进行知识蒸馏以及对回归分支的输出进行离散建模后,再在回归分支上进行蒸馏;
对训练后的学生模型进行重构和优化,输出最优模型;
将最优模型部署到水下装置上,采集水下实时图像,输入到最优模型中进行实时目标检测,输出图像中目标所在位置和类别。
2.根据权利要求1所述的一种基于多知识蒸馏的水下目标检测方法,其特征在于,所述构建教师模型的步骤包括:
获取水下生物数据;
构建教师模型;
基于水下生物数据对教师模型进行训练得到最优教师模型。
3.根据权利要求2所述的一种基于多知识蒸馏的水下目标检测方法,其特征在于,所述教师模型包括:
所述教师模型的骨干网络为ResNet50,使用GFL方法改进RetinaNet,左边的骨干网络模块用于提取输入图像中的特征信息,中间部分是FPN结构,右侧是头部网络,包括两个分支:分类-边框质量分支和边界框回归分支,所述分类-边框质量分支包含分类任务和检测框质量任务。
4.根据权利要求1所述的一种基于多知识蒸馏的水下目标检测方法,其特征在于,所述学生模型包括:
所述学生模型的骨干网络为ResNet-18,使用GFL方法改进RetinaNet,左边的骨干网络模块提取输入图片中的特征信息,中间部分是FPN结构,右侧是头部网络,包括两个分支:分类-边框质量分支和边界框回归分支,所述分类-边框质量分支包含分类任务和检测框质量任务。
5.根据权利要求1所述的一种基于多知识蒸馏的水下目标检测方法,其特征在于,所述对训练后的学生模型进行重构和优化包括:使用TensorRT对蒸馏后的学生模型进行重构和优化。
6.一种基于多知识蒸馏的水下目标检测系统,其特征在于,包括:
服务器模块:用于构建教师模型和学生模型;通过教师模型监督学生模型学习,基于特征图和顶层输出多知识蒸馏方法训练学生模型;
所述基于特征图和顶层输出多知识蒸馏方法训练学生模型包括同时对模型隐藏层输出和顶层输出的有价值信息进行知识蒸馏,通过所述教师模型监督学生网络的训练,通过教师模型的颈部网络Pi层、头部网络分类分支和回归分支输出监督学生模型的颈部网络Pi层、头部网络分类分支和回归分支学习;
对模型隐藏层输出的有价值信息进行知识蒸馏包括:在FPN结构处进行特征图的知识蒸馏中,分别进行特征图的前背景分离、前背景平衡处理、通过CBAM获得空间和通道注意力权重以及通过自注意力机制获得像素点之间的关系;
对模型顶层输出的有价值信息进行知识蒸馏包括:在分类-边框质量分支上进行知识蒸馏以及对回归分支的输出进行离散建模后,再在回归分支上进行蒸馏;
优化模块:用于对训练后的学生模型进行重构和优化,输出最优模型;
应用模块:用于将最优模型部署到水下装置上,采集水下实时图像,输入到最优模型中进行实时目标检测,输出图像中目标所在位置和类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310630360.9A CN116612379B (zh) | 2023-05-30 | 2023-05-30 | 一种基于多知识蒸馏的水下目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310630360.9A CN116612379B (zh) | 2023-05-30 | 2023-05-30 | 一种基于多知识蒸馏的水下目标检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116612379A CN116612379A (zh) | 2023-08-18 |
CN116612379B true CN116612379B (zh) | 2024-02-02 |
Family
ID=87681585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310630360.9A Active CN116612379B (zh) | 2023-05-30 | 2023-05-30 | 一种基于多知识蒸馏的水下目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116612379B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200187A (zh) * | 2020-10-16 | 2021-01-08 | 广州云从凯风科技有限公司 | 一种目标检测方法、装置、机器可读介质及设备 |
CN112529178A (zh) * | 2020-12-09 | 2021-03-19 | 中国科学院国家空间科学中心 | 一种适用于无预选框检测模型的知识蒸馏方法及系统 |
CN112766087A (zh) * | 2021-01-04 | 2021-05-07 | 武汉大学 | 一种基于知识蒸馏的光学遥感图像舰船检测方法 |
CN115063663A (zh) * | 2022-06-06 | 2022-09-16 | 电子科技大学 | 一种基于知识蒸馏的目标检测压缩方法 |
CN115100238A (zh) * | 2022-05-24 | 2022-09-23 | 北京理工大学 | 基于知识蒸馏的轻量化单目标跟踪器训练方法 |
CN115204394A (zh) * | 2022-07-05 | 2022-10-18 | 上海人工智能创新中心 | 用于目标检测的知识蒸馏方法 |
CN116110022A (zh) * | 2022-12-10 | 2023-05-12 | 河南工业大学 | 基于响应知识蒸馏的轻量化交通标志检测方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200175384A1 (en) * | 2018-11-30 | 2020-06-04 | Samsung Electronics Co., Ltd. | System and method for incremental learning |
CN112380921A (zh) * | 2020-10-23 | 2021-02-19 | 西安科锐盛创新科技有限公司 | 一种基于车联网的道路检测方法 |
-
2023
- 2023-05-30 CN CN202310630360.9A patent/CN116612379B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200187A (zh) * | 2020-10-16 | 2021-01-08 | 广州云从凯风科技有限公司 | 一种目标检测方法、装置、机器可读介质及设备 |
CN112529178A (zh) * | 2020-12-09 | 2021-03-19 | 中国科学院国家空间科学中心 | 一种适用于无预选框检测模型的知识蒸馏方法及系统 |
CN112766087A (zh) * | 2021-01-04 | 2021-05-07 | 武汉大学 | 一种基于知识蒸馏的光学遥感图像舰船检测方法 |
CN115100238A (zh) * | 2022-05-24 | 2022-09-23 | 北京理工大学 | 基于知识蒸馏的轻量化单目标跟踪器训练方法 |
CN115063663A (zh) * | 2022-06-06 | 2022-09-16 | 电子科技大学 | 一种基于知识蒸馏的目标检测压缩方法 |
CN115204394A (zh) * | 2022-07-05 | 2022-10-18 | 上海人工智能创新中心 | 用于目标检测的知识蒸馏方法 |
CN116110022A (zh) * | 2022-12-10 | 2023-05-12 | 河南工业大学 | 基于响应知识蒸馏的轻量化交通标志检测方法及系统 |
Non-Patent Citations (2)
Title |
---|
CBNetV2: A Composite Backbone Network Architecture for Object Detection;Tingting Liang 等;《arXiv:2107.00420v6》;参见第2-8页 * |
基于卷积神经网络知识蒸馏的SAR图像目标检测及识别方法研究;王震 等;《CNKI学位》;第2022年卷(第04期);参见第19、48页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116612379A (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114241282B (zh) | 一种基于知识蒸馏的边缘设备场景识别方法及装置 | |
CN112150821B (zh) | 轻量化车辆检测模型构建方法、系统及装置 | |
CN109299716A (zh) | 神经网络的训练方法、图像分割方法、装置、设备及介质 | |
CN111798456A (zh) | 一种实例分割模型的训练方法、装置、实例分割方法 | |
CN112232355B (zh) | 图像分割网络处理、图像分割方法、装置和计算机设备 | |
CN112990116A (zh) | 基于多注意力机制融合的行为识别装置、方法和存储介质 | |
CN114998603B (zh) | 一种基于深度多尺度特征因子融合的水下目标检测方法 | |
CN111709468B (zh) | 一种定向人工智能的训练方法、装置及存储介质 | |
CN111626126A (zh) | 一种人脸情绪识别的方法、装置、介质及电子设备 | |
CN114092699B (zh) | 基于迁移学习的群猪图像分割的方法及系统 | |
CN110827312A (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN112668638A (zh) | 一种图像美学质量评估和语义识别联合分类方法及系统 | |
CN111695640A (zh) | 地基云图识别模型训练方法及地基云图识别方法 | |
CN113011568A (zh) | 一种模型的训练方法、数据处理方法及设备 | |
CN115578770A (zh) | 基于自监督的小样本面部表情识别方法及系统 | |
CN112465057A (zh) | 一种基于深度卷积神经网络的目标检测识别方法 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN111462162A (zh) | 一种特定类别图片的前景分割算法 | |
CN115393666A (zh) | 图像分类中基于原型补全的小样本扩充方法及系统 | |
CN112861682B (zh) | 基于朴素贝叶斯云计算路面图像采集分类方法及其装置 | |
CN113239866B (zh) | 一种时空特征融合与样本注意增强的人脸识别方法及系统 | |
CN117746264B (zh) | 无人机航拍车辆检测与道路分割的多任务实现方法 | |
CN116612379B (zh) | 一种基于多知识蒸馏的水下目标检测方法及系统 | |
CN112329550A (zh) | 基于弱监督学习的受灾建筑快速定位评估方法及装置 | |
CN114758135A (zh) | 一种基于注意力机制的无监督图像语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |