CN114241282A - 一种基于知识蒸馏的边缘设备场景识别方法及装置 - Google Patents
一种基于知识蒸馏的边缘设备场景识别方法及装置 Download PDFInfo
- Publication number
- CN114241282A CN114241282A CN202111301637.0A CN202111301637A CN114241282A CN 114241282 A CN114241282 A CN 114241282A CN 202111301637 A CN202111301637 A CN 202111301637A CN 114241282 A CN114241282 A CN 114241282A
- Authority
- CN
- China
- Prior art keywords
- scene recognition
- model
- scene
- training
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000004821 distillation Methods 0.000 claims abstract description 44
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 239000004576 sand Substances 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 53
- 238000010276 construction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于知识蒸馏的边缘设备场景识别方法及装置。该方法包括:构建场景识别教师模型,具体包括:采用视觉骨干网络Swin Transformer在数据集ImageNet上进行预训练得到预训练模型;初始化所述预训练模型的网络参数,在场景识别数据集上进行微调训练,得到场景识别教师模型Plaswin‑T;构建蒸馏损失函数,所述蒸馏损失函数由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到;构建场景识别学生模型,具体包括:采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练,以所述蒸馏损失函数作为训练损失函数进行参数更新,当所述蒸馏损失函数下降且收敛时,得到最终的场景识别学生模型;将待识别场景图片输入至所述场景识别学生模型,得到场景识别结果。
Description
技术领域
本发明涉及采用人工智能方法的计算机视觉场景识别技术领域,尤其涉及一种基于知识蒸馏的边缘设备场景识别方法及装置。
背景技术
场景一般理解为复杂现实环境的高度抽象和表示,一副图像的场景类别不仅代表了对于该图像的整体描述和概括,而且还包含了图像中不同对象之间的上下文关系,进而为深入分析图像中的对象及其相互关系和内容理解提供基础。场景识别是图像识别中最受关注的课题之一,旨在预测目标图像的地点的类别和其他信息,在现在的计算机视觉领域具有重要的研究意义,应用于实现对图像的管理和检索,同时为物体识别、目标检测等计算机视觉任务提供必要的上下文信息,在自主机器人及无人机等端侧边缘智能设备上尤为常见。
现有常见的场景识别方法主要分为基于对象的场景识别、基于区域的场景识别和基于上下文的场景识别三类。场景图像的特征多种多样,利用图像中的对象信息是场景识别中最常用的场景特征,当特定对象出现在图像中时图像属于与该对象相关联的特定类别的概率增加。卷积神经网络(Convolutional Neural Network,CNN)长期在图像分类领域占据主导地位,但是现有的方法大多没有充分利用场景图像的有价值的特征进行场景识别,表现在结合物体和场景信息的融合方法效果不佳,没有充分考虑物体对象和场景之间的差异,其次与一般图像识别问题中出现在图像特定部分的对象不同,场景识别问题中场景遍布整个图像,相关算法考虑图像信息不够全面导致识别精度较差。基于平移窗口和自注意力机制的分层视觉变换Swin Transformer作为计算机视觉的新型通用骨干,在图像分类、目标检测和语义分割方面的性能表现均优于大多数先进的卷积神经网络。
随着图像信息的急速增加、图像分类算法的迭代改进及新特征提取算法的提出,对计算机场景识别能力的要求也越来越高。受限于边缘设备有限的硬件资源和计算能力,传统机器学习和深度学习模型在不经过优化的情况下很难有效在边缘设备上运行,且计算及存储资源的高占用不利于信息处理的实时性实现。
发明内容
现有的小规模网络模型表达能力有限,难以获得满意的预测结果,而表现优异的大规模机器学习和深度学习模型往往需要极大的计算资源和存储资源。但是考虑到实际应用场景,边缘设备的硬件条件不足以支撑大规模模型部署,针对该问题,本发明提出一种基于知识蒸馏的适用于边缘设备的场景识别方法及装置。
一方面,本发明提供一种基于知识蒸馏的边缘设备场景识别方法,包括:
构建场景识别教师模型,具体包括:采用视觉骨干网络Swin Transformer在数据集ImageNet上进行预训练得到预训练模型;初始化所述预训练模型的网络参数,在场景识别数据集上进行微调训练,当场景识别教师模型的损失函数下降且收敛时,得到场景识别教师模型Plaswin-T;
构建蒸馏损失函数,所述蒸馏损失函数由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到;
构建场景识别学生模型,具体包括:采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练,得到初始学生模型;然后以所述蒸馏损失函数作为训练损失函数对所述初始学生模型进行参数更新,当所述蒸馏损失函数下降且收敛时,得到最终的场景识别学生模型;
将待识别场景图片输入至所述场景识别学生模型,得到场景识别结果。
进一步地,所述场景识别教师模型的损失函数LOSST和所述初始学生模型的损失函数LOSSS均采用多分类交叉熵损失函数,分别如公式(1)和公式(4)所示:
其中,M表示样本类别个数,yi,j∈(0,1)表示第i个样本的第j类真实标签值,表示场景识别教师模型对第i个样本的第j类预测标签值概率,表示初始学生模型对第i个样本的第j类预测标签值概率,N表示数据样本的总个数。
进一步地,采用公式(2)计算得到所述场景识别教师模型的预测软标签fq:
其中,zi表示第i类场景图像识别的概率,T为蒸馏温度系数,zj表示所有类别场景图像识别的概率。
进一步地,所述蒸馏损失函数如公式(3)所示:
LOSSdistill=(1-α)CE(ZS,y)+αT2KL(ZS/T,ZT/T) (3)
其中,ZT,ZS分别表示场景识别教师模型和场景识别学生模型的softmax函数输出,CE表示按照公式(4)计算得到的交叉熵,y表示场景识别数据的真实标签值,α为加权系数,T为蒸馏温度系数,KL表示散度或相对熵。
进一步地,在本地计算机或服务群组上构建训练场景识别教师模型。
进一步地,先在本地计算机或服务群组上构建训练场景识别学生模型,然后将训练好的场景识别学生模型部署在边缘设备上,最后在边缘设备上对待识别场景图片进行场景识别。
进一步地,直接在边缘设备上构建训练场景识别学生模型,然后在边缘设备上利用训练好的场景识别学生模型对待识别场景图片进行场景识别。
另一方面,本发明提供一种基于知识蒸馏的边缘设备场景识别装置,包括:
场景识别教师模型训练模块,用于采用视觉骨干网络Swin Transformer在数据集ImageNet上进行预训练得到预训练模型;初始化所述预训练模型的网络参数,在场景识别数据集上进行微调训练,当场景识别教师模型的损失函数下降且收敛时,得到场景识别教师模型Plaswin-T;
蒸馏损失函数确定模块,用于由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到蒸馏损失函数;
场景识别学生模型训练模块,用于采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练,得到初始学生模型;然后以所述蒸馏损失函数作为训练损失函数对所述初始学生模型进行参数更新,当所述蒸馏损失函数下降且收敛时,得到最终的场景识别学生模型;
场景识别模块,用于将待识别场景图片输入至所述场景识别学生模型,得到场景识别结果。
本发明的有益效果:
场景识别是个体获取场景语义信息的过程,在计算机视觉多个应用领域具有重要作用。本发明针对高性能大规模模型无法在边缘设备上部署及小规模模型性能较差,提出采用知识蒸馏方法来训练适合在边缘设备部署的高性能小规模模型,它的有益效果体现在以下几个方面:
(1)采用大规模图像数据集预训练并在场景识别训练数据集上微调的方法训练教师模型,可以更快的使教师模型收敛,缩短模型参数优化的时间,提高模型的泛化能力;
(2)采用知识蒸馏方法来使用教师模型监督训练学生模型,解决了部署在边缘设备端神经网络性能差的问题,既满足了模型部署要求,又使学生模型(小规模模型)尽可能学习到教师模型(大规模模型)的场景识别经验,学生模型的性能有显著提升;
(3)经过知识蒸馏得到的学生模型相比教师模型的场景识别性能较低,但是对比不经过知识蒸馏的学生模型场景识别性能则有明显改善;
(4)整个训练的模型可以在本地端、服务器端以及边缘设备端灵活部署,所得学生模型对边缘设备硬件资源要求低,模型识别速度快。
附图说明
图1为本发明实施例提供的基于知识蒸馏的边缘设备场景识别方法所构建模型的整体结构示意图;
图2为本发明实施例提供的场景识别教师模型的构建流程示意图;
图3为本发明实施例提供的场景识别学生模型的构建流程示意图;
图4为本发明实施例提供的场景识别教师模型和学生模型的部署和应用示意图;
图5为本发明实施例提供的损失函数构成示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
场景识别旨在预测待检测图像的地点类别,是计算机视觉图像识别领域最受关注的课题之一,在图像检索、机器人等方面具有广泛应用。本发明针对高性能大规模模型难以在边缘设备端部署,而现有可以部署的模型识别精度不高的现状,提出采用知识蒸馏的方法来训练模型,从而提高部署模型的识别速度和准确度。
实施例1
结合图1至图5所示,本发明实施例提供一种基于知识蒸馏的边缘设备场景识别方法,包括以下步骤:
S101:构建场景识别教师模型,如图2所示,具体包括:采用视觉骨干网络SwinTransformer在数据集ImageNet上进行预训练得到预训练模型;初始化所述预训练模型的网络参数,在场景识别数据集上进行微调训练,当场景识别教师模型的损失函数下降且收敛时,得到场景识别教师模型Plaswin-T;
具体地,当数据标注较少时得到的模型精度往往较差,并且数据量的多少也会直接影响模型的性能。本质上,当场景类别标注数据足够的情况下,场景识别可以归结为图像分类,因此,考虑到现有场景识别数据标注情况及其与ImageNet数据集的相似特征,本发明实施例在构建教师模型时,先采用Swin Transformer在大规模图像识别数据集ImageNet上进行预训练,可以加速教师模型的收敛,提高教师模型的泛化能力和构建效果。
Places365-Standard数据集包括180万张来自365个场景类别的训练图片,以及3万多张验证图片和32万多测试图片,主要包括室内场景、自然场景、城市场景几个大类。本发明实施例中,将Places365-Standard数据集输入预训练模型中,经过微调等操作可以得到性能优异的教师模型Plaswin-T。
需要说明的是,教师模型因本身复杂度和需要极大的存储资源和计算资源,所以一般在性能优异的本地计算机或服务器群组上进行教师模型的构建训练。教师模型-学生模型的部署和应用如图4所示。
作为一种可实施方式,所述场景识别教师模型的损失函数LOSST如公式(1)所示:
S102:构建蒸馏损失函数,如图5所示,所述蒸馏损失函数由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到;
具体地,损失函数示意图如图5所示。在蒸馏温度系数T下,教师模型的预测软标签值与真实标签之间计算即得教师模型多分类交叉熵损失函数;学生模型的预测硬标签与真实标签之间计算即得学生模型多分类交叉熵损失函数;教师模型输出软标签与学生模型输出硬标签之间计算即为蒸馏损失函数。
图像分类问题一般在模型的最后一层使用softmax输出层输出预测类别概率,即输出为每个类别分配了概率,相比于直接得到的类别得分具有更多的表示信息。但是模型对于预测结果为真的类别标签会分配很高的置信度,如果直接使用softmax函数输出的结果,则不能将教师模型学习到的丰富场景识别经验迁移给学生模型。softmax输出层通过将zi与其他logit值进行比较,为每个类别计算的logit值转换为概率,知识蒸馏则通过引入温度系数T,从而使输出层产生一个软化后的概率向量,即教师网络的预测结果除以温度系数之后再做softmax函数变换,可以得到教师模型的预测软标签fq,如公式(2)所示。
公式(2)中,z是最后一个隐藏层的输出向量,zi表示第i类场景图像识别的概率;zj表示所有类别场景图像识别的概率。T为蒸馏温度系数,T越高则代表输出结果分布越平缓,即在各个类别上产生较弱的概率分布,当T=1时,fq即为softmax函数。
作为一种可实施方式,在蒸馏温度系数T下,蒸馏训练完成的教师模型Plaswin-T,计算在温度T下的教师模型的预测软标签值,学生网络在同样的温度系数下学习由教师网络输出的软标签值,尽可能的逼近软标签从而学习到教师网络的场景识别经验,学生网络的输出与教师模型的预测软标签计算得到损失函数,同时学生网络的输出与真实标签值计算硬损失函数,两部分损失函数经过加权得到总损失函数,即蒸馏损失函数。构建的所述蒸馏损失函数如公式(3)所示:
LOSSdistill=(1-α)CE(ZS,y)+αT2KL(ZS/T,ZT/T) (3)
其中,ZT,ZS分别表示场景识别教师模型和场景识别学生模型的softmax函数输出,CE表示按照公式(4)计算得到的交叉熵,y表示场景识别数据的真实标签值,α为加权系数,T为蒸馏温度系数,KL表示散度或相对熵。为了使学生模型尽可能的学习到教师模型的场景识别输出经验,用KL来衡量两个模型之间的输出分布。
S103:构建场景识别学生模型,如图3所示,具体包括:采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练,得到初始学生模型;然后以所述蒸馏损失函数作为训练损失函数对所述初始学生模型进行参数更新,当所述蒸馏损失函数下降且收敛时,得到最终的场景识别学生模型;
具体地,轻量级卷积神经网络MobileNet V3综合了MobileNet V1的深度可分离卷积、MobileNet V2的具有线性瓶颈的逆残差结构以及MnasNet的轻量级注意力机制,并引入了h-swish激活函数,在提高了模型推理性能的同时大大缩减了运行速度。
作为一种可实施方式,作为学生模型的轻量级卷积神经网络MobileNet V3的网络结构如表1所示。
表1学生模型的网络结构
本发明实施例中,为了使学生模型的输出更加逼近教师模型,学生模型的损失函数不再局限于自身预测结果与真实标签之间计算损失函数,而是进一步考虑到了教师模型的预测软标签对学生模型的监督指导作用,通过引入教师模型的预测软标签作为蒸馏损失函数的一部分,然后学生模型根据蒸馏损失函数进行梯度更新及误差反向传播来更新模型参数,保存结果收敛之后预测正确率最高的学生模型作为最终的学生模型。
作为一种可实施方式,所述初始学生模型的损失函数LOSSS均采用多分类交叉熵损失函数,如公式(4)所示:
需要说明的是,针对不同的边缘设备应用场景,学生模型的构建训练分为以下两种方式:
第一种方式:先在本地计算机或服务群组上构建训练场景识别学生模型,然后将训练好的场景识别学生模型部署在边缘设备上,最后在边缘设备上对待识别场景图片进行场景识别;
第二种方式:因学生模型结构简单,不需要大量硬件资源,因此可以直接在边缘设备上构建训练场景识别学生模型,然后在边缘设备上利用训练好的场景识别学生模型对待识别场景图片进行场景识别;相比上述的第一种方式,该方式可能会消耗更多的时间。教师模型-学生模型的部署和应用如图4所示。
S104:如图4所示,将待识别场景图片输入至所述场景识别学生模型,得到场景识别结果。
具体地,应用时只需输入待识别场景图片,可以借助边缘设备的图像采集模块,例如手机的照相机功能、无人机和机器人的摄像头模块等,对输入图像预处理后经部署模型输出待检测特征向量,与标准场景图像特征向量比对后输出场景识别结果。将采集的场景图像收集并保存,在特定的时间可以进行场景识别模型的更新和重新部署,以提高模型的泛化能力。
实施例2
本发明实施例提供一种基于知识蒸馏的边缘设备场景识别装置,包括:场景识别教师模型训练模块、蒸馏损失函数确定模块、场景识别学生模型训练模块和场景识别模块。
具体地,场景识别教师模型训练模块用于采用视觉通用骨干网络SwinTransformer在数据集ImageNet上进行预训练得到预训练模型;初始化所述预训练模型的网络参数,在场景识别数据集上进行微调训练,当场景识别教师模型的损失函数下降且收敛时,得到场景识别教师模型Plaswin-T。蒸馏损失函数确定模块用于由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到蒸馏损失函数。场景识别学生模型训练模块用于采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练,得到初始学生模型;然后以所述蒸馏损失函数作为训练损失函数对所述初始学生模型进行参数更新,当所述蒸馏损失函数下降且收敛时,得到最终的场景识别学生模型。场景识别模块,用于将待识别场景图片输入至所述场景识别学生模型,得到场景识别结果。
本发明采用预训练的Plaswin-T模型作为教师模型,通过知识蒸馏对以轻量级卷积神经网络MobileNet V3的学生模型进行监督训练,同时借助微调、标签平滑等技术以提高模型的泛化能力,使得性能较差的学生模型学习到教师模型强大的识别性、鲁棒性和泛化性,学生模型的训练和推理均可以部署在边缘设备上,对边缘设备硬件资源要求低,模型识别速度快、识别精度高。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于知识蒸馏的边缘设备场景识别方法,其特征在于,包括:
构建场景识别教师模型,具体包括:采用骨干网络Swin Transformer在数据集ImageNet上进行预训练得到预训练模型;初始化所述预训练模型的网络参数,在场景识别数据集上进行微调训练,当场景识别教师模型的损失函数下降且收敛时,得到场景识别教师模型Plaswin-T;
构建蒸馏损失函数,所述蒸馏损失函数由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到;
构建场景识别学生模型,具体包括:采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练,得到初始学生模型;然后以所述蒸馏损失函数作为训练损失函数对所述初始学生模型进行参数更新,当所述蒸馏损失函数下降且收敛时,得到最终的场景识别学生模型;
将待识别场景图片输入至所述场景识别学生模型,得到场景识别结果。
4.根据权利要求2所述的一种基于知识蒸馏的边缘设备场景识别方法,其特征在于,所述蒸馏损失函数如公式(3)所示:
LOSSdistill=(1-α)CE(ZS,y)+αT2KL(ZS/T,ZT/T) (3)
其中,ZT,ZS分别表示场景识别教师模型和场景识别学生模型的softmax函数输出,CE表示按照公式(4)计算得到的交叉熵,y表示场景识别数据的真实标签值,α为加权系数,T为蒸馏温度系数,KL表示散度或相对熵。
5.根据权利要求1所述的一种基于知识蒸馏的边缘设备场景识别方法,其特征在于,在本地计算机或服务群组上构建训练场景识别教师模型。
6.根据权利要求1所述的一种基于知识蒸馏的边缘设备场景识别方法,其特征在于,先在本地计算机或服务群组上构建训练场景识别学生模型,然后将训练好的场景识别学生模型部署在边缘设备上,最后在边缘设备上对待识别场景图片进行场景识别。
7.根据权利要求1所述的一种基于知识蒸馏的边缘设备场景识别方法,其特征在于,直接在边缘设备上构建训练场景识别学生模型,然后在边缘设备上利用训练好的场景识别学生模型对待识别场景图片进行场景识别。
8.一种基于知识蒸馏的边缘设备场景识别装置,其特征在于,包括:
场景识别教师模型训练模块,用于采用骨干网络Swin Transformer在数据集ImageNet上进行预训练得到预训练模型;初始化所述预训练模型的网络参数,在场景识别数据集上进行微调训练,当场景识别教师模型的损失函数下降且收敛时,得到场景识别教师模型Plaswin-T;
蒸馏损失函数确定模块,用于由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到蒸馏损失函数;
场景识别学生模型训练模块,用于采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练,得到初始学生模型;然后以所述蒸馏损失函数作为训练损失函数对所述初始学生模型进行参数更新,当所述蒸馏损失函数下降且收敛时,得到最终的场景识别学生模型;
场景识别模块,用于将待识别场景图片输入至所述场景识别学生模型,得到场景识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111301637.0A CN114241282B (zh) | 2021-11-04 | 2021-11-04 | 一种基于知识蒸馏的边缘设备场景识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111301637.0A CN114241282B (zh) | 2021-11-04 | 2021-11-04 | 一种基于知识蒸馏的边缘设备场景识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114241282A true CN114241282A (zh) | 2022-03-25 |
CN114241282B CN114241282B (zh) | 2024-01-26 |
Family
ID=80748440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111301637.0A Active CN114241282B (zh) | 2021-11-04 | 2021-11-04 | 一种基于知识蒸馏的边缘设备场景识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114241282B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114758180A (zh) * | 2022-04-19 | 2022-07-15 | 电子科技大学 | 一种基于知识蒸馏的轻量化花卉识别方法 |
CN114758182A (zh) * | 2022-05-07 | 2022-07-15 | 江苏科技大学 | 一种基于知识蒸馏的管道裂缝细粒度分类方法 |
CN114943831A (zh) * | 2022-07-25 | 2022-08-26 | 安徽农业大学 | 基于知识蒸馏的移动端病虫害目标检测方法及移动端设备 |
CN114972904A (zh) * | 2022-04-18 | 2022-08-30 | 北京理工大学 | 一种基于对抗三元组损失的零样本知识蒸馏方法及系统 |
CN114998609A (zh) * | 2022-05-18 | 2022-09-02 | 安徽理工大学 | 一种基于密集特征提取与轻量级网络的多类商品目标检测方法 |
CN115019317A (zh) * | 2022-06-13 | 2022-09-06 | 首都师范大学 | 一种文本识别方法及系统 |
CN115131627A (zh) * | 2022-07-01 | 2022-09-30 | 贵州大学 | 一种轻量化植物病虫害目标检测模型的构建和训练方法 |
CN115130684A (zh) * | 2022-07-25 | 2022-09-30 | 平安科技(深圳)有限公司 | 意图识别模型训练方法、装置、电子设备及存储介质 |
CN115147718A (zh) * | 2022-06-21 | 2022-10-04 | 北京理工大学 | 面向无人移动端视觉分析的场景自适应系统及其方法 |
CN115223049A (zh) * | 2022-09-20 | 2022-10-21 | 山东大学 | 面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术 |
CN115272981A (zh) * | 2022-09-26 | 2022-11-01 | 山东大学 | 云边共学习输电巡检方法与系统 |
CN115496941A (zh) * | 2022-09-19 | 2022-12-20 | 哈尔滨工业大学 | 基于知识增强计算机视觉的结构健康诊断方法 |
CN115577305A (zh) * | 2022-10-31 | 2023-01-06 | 中国人民解放军军事科学院系统工程研究院 | 一种无人机信号智能识别方法及装置 |
CN115713755A (zh) * | 2023-01-09 | 2023-02-24 | 三亚中国农业科学院国家南繁研究院 | 一种高效精准的草地贪夜蛾的图像识别方法 |
CN115829983A (zh) * | 2022-12-13 | 2023-03-21 | 广东工业大学 | 一种基于知识蒸馏的高速工业场景视觉质量检测方法 |
CN115907001A (zh) * | 2022-11-11 | 2023-04-04 | 中南大学 | 基于知识蒸馏的联邦图学习方法及自动驾驶方法 |
CN115965964A (zh) * | 2023-01-29 | 2023-04-14 | 中国农业大学 | 一种鸡蛋新鲜度识别方法、系统及设备 |
CN116028891A (zh) * | 2023-02-16 | 2023-04-28 | 之江实验室 | 一种基于多模型融合的工业异常检测模型训练方法和装置 |
CN116110022A (zh) * | 2022-12-10 | 2023-05-12 | 河南工业大学 | 基于响应知识蒸馏的轻量化交通标志检测方法及系统 |
CN116865887A (zh) * | 2023-07-06 | 2023-10-10 | 四川省广播电视科学技术研究所 | 一种基于知识蒸馏的情感分类广播系统及其方法 |
CN116977712A (zh) * | 2023-06-16 | 2023-10-31 | 江苏大学 | 基于知识蒸馏的道路场景分割方法、系统、设备及介质 |
CN117236409A (zh) * | 2023-11-16 | 2023-12-15 | 中电科大数据研究院有限公司 | 基于大模型的小模型训练方法、装置、系统和存储介质 |
CN117315617A (zh) * | 2023-09-06 | 2023-12-29 | 武汉理工大学 | 基于师徒模式的网络优化方法、系统、电子设备及介质 |
CN117557857A (zh) * | 2023-11-23 | 2024-02-13 | 哈尔滨工业大学 | 结合渐进式引导蒸馏和结构重构的检测网络轻量化方法 |
CN118675074A (zh) * | 2024-08-23 | 2024-09-20 | 南京先维信息技术有限公司 | 基于人工智能的道路病害识别方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
US20190205748A1 (en) * | 2018-01-02 | 2019-07-04 | International Business Machines Corporation | Soft label generation for knowledge distillation |
CN110674880A (zh) * | 2019-09-27 | 2020-01-10 | 北京迈格威科技有限公司 | 用于知识蒸馏的网络训练方法、装置、介质与电子设备 |
CN110852426A (zh) * | 2019-11-19 | 2020-02-28 | 成都晓多科技有限公司 | 基于知识蒸馏的预训练模型集成加速方法及装置 |
CN111598216A (zh) * | 2020-04-16 | 2020-08-28 | 北京百度网讯科技有限公司 | 学生网络模型的生成方法、装置、设备及存储介质 |
US20200302297A1 (en) * | 2019-03-21 | 2020-09-24 | Illumina, Inc. | Artificial Intelligence-Based Base Calling |
CN112116030A (zh) * | 2020-10-13 | 2020-12-22 | 浙江大学 | 一种基于向量标准化和知识蒸馏的图像分类方法 |
WO2021023202A1 (zh) * | 2019-08-07 | 2021-02-11 | 交叉信息核心技术研究院(西安)有限公司 | 一种卷积神经网络的自蒸馏训练方法、设备和可伸缩动态预测方法 |
CN112712052A (zh) * | 2021-01-13 | 2021-04-27 | 安徽水天信息科技有限公司 | 一种机场全景视频中微弱目标的检测识别方法 |
CN112988975A (zh) * | 2021-04-09 | 2021-06-18 | 北京语言大学 | 一种基于albert和知识蒸馏的观点挖掘方法 |
-
2021
- 2021-11-04 CN CN202111301637.0A patent/CN114241282B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
US20190205748A1 (en) * | 2018-01-02 | 2019-07-04 | International Business Machines Corporation | Soft label generation for knowledge distillation |
US20200302297A1 (en) * | 2019-03-21 | 2020-09-24 | Illumina, Inc. | Artificial Intelligence-Based Base Calling |
WO2021023202A1 (zh) * | 2019-08-07 | 2021-02-11 | 交叉信息核心技术研究院(西安)有限公司 | 一种卷积神经网络的自蒸馏训练方法、设备和可伸缩动态预测方法 |
CN110674880A (zh) * | 2019-09-27 | 2020-01-10 | 北京迈格威科技有限公司 | 用于知识蒸馏的网络训练方法、装置、介质与电子设备 |
CN110852426A (zh) * | 2019-11-19 | 2020-02-28 | 成都晓多科技有限公司 | 基于知识蒸馏的预训练模型集成加速方法及装置 |
CN111598216A (zh) * | 2020-04-16 | 2020-08-28 | 北京百度网讯科技有限公司 | 学生网络模型的生成方法、装置、设备及存储介质 |
CN112116030A (zh) * | 2020-10-13 | 2020-12-22 | 浙江大学 | 一种基于向量标准化和知识蒸馏的图像分类方法 |
CN112712052A (zh) * | 2021-01-13 | 2021-04-27 | 安徽水天信息科技有限公司 | 一种机场全景视频中微弱目标的检测识别方法 |
CN112988975A (zh) * | 2021-04-09 | 2021-06-18 | 北京语言大学 | 一种基于albert和知识蒸馏的观点挖掘方法 |
Non-Patent Citations (3)
Title |
---|
HUGO TOUVRON ET AL.: "Distilling the Knowledge in a Neural Network", 《ARXIV:2012.12877V2》 * |
葛仕明;赵胜伟;刘文瑜;李晨钰;: "基于深度特征蒸馏的人脸识别", 北京交通大学学报, no. 06 * |
高璇;饶鹏;刘高睿;: "基于特征蒸馏的实时人体动作识别", 工业控制计算机, no. 08 * |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114972904A (zh) * | 2022-04-18 | 2022-08-30 | 北京理工大学 | 一种基于对抗三元组损失的零样本知识蒸馏方法及系统 |
CN114972904B (zh) * | 2022-04-18 | 2024-05-31 | 北京理工大学 | 一种基于对抗三元组损失的零样本知识蒸馏方法及系统 |
CN114758180A (zh) * | 2022-04-19 | 2022-07-15 | 电子科技大学 | 一种基于知识蒸馏的轻量化花卉识别方法 |
CN114758180B (zh) * | 2022-04-19 | 2023-10-10 | 电子科技大学 | 一种基于知识蒸馏的轻量化花卉识别方法 |
CN114758182A (zh) * | 2022-05-07 | 2022-07-15 | 江苏科技大学 | 一种基于知识蒸馏的管道裂缝细粒度分类方法 |
CN114998609A (zh) * | 2022-05-18 | 2022-09-02 | 安徽理工大学 | 一种基于密集特征提取与轻量级网络的多类商品目标检测方法 |
CN115019317A (zh) * | 2022-06-13 | 2022-09-06 | 首都师范大学 | 一种文本识别方法及系统 |
CN115147718A (zh) * | 2022-06-21 | 2022-10-04 | 北京理工大学 | 面向无人移动端视觉分析的场景自适应系统及其方法 |
CN115147718B (zh) * | 2022-06-21 | 2024-05-28 | 北京理工大学 | 面向无人移动端视觉分析的场景自适应系统及其方法 |
CN115131627A (zh) * | 2022-07-01 | 2022-09-30 | 贵州大学 | 一种轻量化植物病虫害目标检测模型的构建和训练方法 |
CN115131627B (zh) * | 2022-07-01 | 2024-02-20 | 贵州大学 | 一种轻量化植物病虫害目标检测模型的构建和训练方法 |
CN115130684A (zh) * | 2022-07-25 | 2022-09-30 | 平安科技(深圳)有限公司 | 意图识别模型训练方法、装置、电子设备及存储介质 |
CN115130684B (zh) * | 2022-07-25 | 2024-06-25 | 平安科技(深圳)有限公司 | 意图识别模型训练方法、装置、电子设备及存储介质 |
CN114943831A (zh) * | 2022-07-25 | 2022-08-26 | 安徽农业大学 | 基于知识蒸馏的移动端病虫害目标检测方法及移动端设备 |
CN115496941A (zh) * | 2022-09-19 | 2022-12-20 | 哈尔滨工业大学 | 基于知识增强计算机视觉的结构健康诊断方法 |
CN115496941B (zh) * | 2022-09-19 | 2024-01-09 | 哈尔滨工业大学 | 基于知识增强计算机视觉的结构健康诊断方法 |
CN115223049A (zh) * | 2022-09-20 | 2022-10-21 | 山东大学 | 面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术 |
CN115223049B (zh) * | 2022-09-20 | 2022-12-13 | 山东大学 | 面向电力场景边缘计算大模型压缩的知识蒸馏与量化方法 |
CN115272981A (zh) * | 2022-09-26 | 2022-11-01 | 山东大学 | 云边共学习输电巡检方法与系统 |
CN115577305B (zh) * | 2022-10-31 | 2023-05-30 | 中国人民解放军军事科学院系统工程研究院 | 一种无人机信号智能识别方法及装置 |
CN115577305A (zh) * | 2022-10-31 | 2023-01-06 | 中国人民解放军军事科学院系统工程研究院 | 一种无人机信号智能识别方法及装置 |
CN115907001A (zh) * | 2022-11-11 | 2023-04-04 | 中南大学 | 基于知识蒸馏的联邦图学习方法及自动驾驶方法 |
CN115907001B (zh) * | 2022-11-11 | 2023-07-04 | 中南大学 | 基于知识蒸馏的联邦图学习方法及自动驾驶方法 |
CN116110022B (zh) * | 2022-12-10 | 2023-09-05 | 河南工业大学 | 基于响应知识蒸馏的轻量化交通标志检测方法及系统 |
CN116110022A (zh) * | 2022-12-10 | 2023-05-12 | 河南工业大学 | 基于响应知识蒸馏的轻量化交通标志检测方法及系统 |
CN115829983A (zh) * | 2022-12-13 | 2023-03-21 | 广东工业大学 | 一种基于知识蒸馏的高速工业场景视觉质量检测方法 |
CN115829983B (zh) * | 2022-12-13 | 2024-05-03 | 广东工业大学 | 一种基于知识蒸馏的高速工业场景视觉质量检测方法 |
CN115713755A (zh) * | 2023-01-09 | 2023-02-24 | 三亚中国农业科学院国家南繁研究院 | 一种高效精准的草地贪夜蛾的图像识别方法 |
CN115965964A (zh) * | 2023-01-29 | 2023-04-14 | 中国农业大学 | 一种鸡蛋新鲜度识别方法、系统及设备 |
CN115965964B (zh) * | 2023-01-29 | 2024-01-23 | 中国农业大学 | 一种鸡蛋新鲜度识别方法、系统及设备 |
CN116028891A (zh) * | 2023-02-16 | 2023-04-28 | 之江实验室 | 一种基于多模型融合的工业异常检测模型训练方法和装置 |
CN116977712A (zh) * | 2023-06-16 | 2023-10-31 | 江苏大学 | 基于知识蒸馏的道路场景分割方法、系统、设备及介质 |
CN116865887B (zh) * | 2023-07-06 | 2024-03-01 | 四川省广播电视科学技术研究所 | 一种基于知识蒸馏的情感分类广播系统及其方法 |
CN116865887A (zh) * | 2023-07-06 | 2023-10-10 | 四川省广播电视科学技术研究所 | 一种基于知识蒸馏的情感分类广播系统及其方法 |
CN117315617A (zh) * | 2023-09-06 | 2023-12-29 | 武汉理工大学 | 基于师徒模式的网络优化方法、系统、电子设备及介质 |
CN117315617B (zh) * | 2023-09-06 | 2024-06-07 | 武汉理工大学 | 基于师徒模式的网络优化方法、系统、电子设备及介质 |
CN117236409B (zh) * | 2023-11-16 | 2024-02-27 | 中电科大数据研究院有限公司 | 基于大模型的小模型训练方法、装置、系统和存储介质 |
CN117236409A (zh) * | 2023-11-16 | 2023-12-15 | 中电科大数据研究院有限公司 | 基于大模型的小模型训练方法、装置、系统和存储介质 |
CN117557857A (zh) * | 2023-11-23 | 2024-02-13 | 哈尔滨工业大学 | 结合渐进式引导蒸馏和结构重构的检测网络轻量化方法 |
CN117557857B (zh) * | 2023-11-23 | 2024-06-04 | 哈尔滨工业大学 | 结合渐进式引导蒸馏和结构重构的检测网络轻量化方法 |
CN118675074A (zh) * | 2024-08-23 | 2024-09-20 | 南京先维信息技术有限公司 | 基于人工智能的道路病害识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114241282B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114241282B (zh) | 一种基于知识蒸馏的边缘设备场景识别方法及装置 | |
Lei et al. | Intelligent fault detection of high voltage line based on the Faster R-CNN | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN110414368A (zh) | 一种基于知识蒸馏的无监督行人重识别方法 | |
KR102462934B1 (ko) | 디지털 트윈 기술을 위한 영상 분석 시스템 | |
CN114298158A (zh) | 一种基于图文线性组合的多模态预训练方法 | |
CN113344206A (zh) | 融合通道与关系特征学习的知识蒸馏方法、装置及设备 | |
CN110458022B (zh) | 一种基于域适应的可自主学习目标检测方法 | |
CN113128478B (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
CN111079847A (zh) | 一种基于深度学习的遥感影像自动标注方法 | |
CN113807399A (zh) | 一种神经网络训练方法、检测方法以及装置 | |
CN113657267B (zh) | 一种半监督行人重识别方法和装置 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN112446331A (zh) | 基于知识蒸馏的时空双流分段网络行为识别方法及系统 | |
CN114782752B (zh) | 基于自训练的小样本图像集成分类方法及装置 | |
CN116012880A (zh) | 分布式边缘协同推理的行人重识别方法、系统及装置 | |
CN114329031A (zh) | 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法 | |
CN114187506B (zh) | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 | |
CN112329830B (zh) | 一种基于卷积神经网络和迁移学习的无源定位轨迹数据识别方法及系统 | |
CN112101154B (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
Li et al. | SCD-YOLO: a lightweight vehicle target detection method based on improved YOLOv5n | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
Li et al. | Few-shot meta-learning on point cloud for semantic segmentation | |
CN116168437A (zh) | 基于多任务的预测模型训练方法、装置、设备及存储介质 | |
CN112487927B (zh) | 一种基于物体关联注意力的室内场景识别实现方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |