CN114241282B - 一种基于知识蒸馏的边缘设备场景识别方法及装置 - Google Patents

一种基于知识蒸馏的边缘设备场景识别方法及装置 Download PDF

Info

Publication number
CN114241282B
CN114241282B CN202111301637.0A CN202111301637A CN114241282B CN 114241282 B CN114241282 B CN 114241282B CN 202111301637 A CN202111301637 A CN 202111301637A CN 114241282 B CN114241282 B CN 114241282B
Authority
CN
China
Prior art keywords
scene recognition
model
scene
loss function
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111301637.0A
Other languages
English (en)
Other versions
CN114241282A (zh
Inventor
赵亮
魏政杰
付园坤
金军委
张坤鹏
王建鹏
丁倩
郝展鹏
付宏达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN202111301637.0A priority Critical patent/CN114241282B/zh
Publication of CN114241282A publication Critical patent/CN114241282A/zh
Application granted granted Critical
Publication of CN114241282B publication Critical patent/CN114241282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提供一种基于知识蒸馏的边缘设备场景识别方法及装置。该方法包括:构建场景识别教师模型,具体包括:采用视觉骨干网络Swin Transformer在数据集ImageNet上进行预训练得到预训练模型;初始化所述预训练模型的网络参数,在场景识别数据集上进行微调训练,得到场景识别教师模型Plaswin‑T;构建蒸馏损失函数,所述蒸馏损失函数由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到;构建场景识别学生模型,具体包括:采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练,以所述蒸馏损失函数作为训练损失函数进行参数更新,当所述蒸馏损失函数下降且收敛时,得到最终的场景识别学生模型;将待识别场景图片输入至所述场景识别学生模型,得到场景识别结果。

Description

一种基于知识蒸馏的边缘设备场景识别方法及装置
技术领域
本发明涉及采用人工智能方法的计算机视觉场景识别技术领域,尤其涉及一种基于知识蒸馏的边缘设备场景识别方法及装置。
背景技术
场景一般理解为复杂现实环境的高度抽象和表示,一副图像的场景类别不仅代表了对于该图像的整体描述和概括,而且还包含了图像中不同对象之间的上下文关系,进而为深入分析图像中的对象及其相互关系和内容理解提供基础。场景识别是图像识别中最受关注的课题之一,旨在预测目标图像的地点的类别和其他信息,在现在的计算机视觉领域具有重要的研究意义,应用于实现对图像的管理和检索,同时为物体识别、目标检测等计算机视觉任务提供必要的上下文信息,在自主机器人及无人机等端侧边缘智能设备上尤为常见。
现有常见的场景识别方法主要分为基于对象的场景识别、基于区域的场景识别和基于上下文的场景识别三类。场景图像的特征多种多样,利用图像中的对象信息是场景识别中最常用的场景特征,当特定对象出现在图像中时图像属于与该对象相关联的特定类别的概率增加。卷积神经网络(Convolutional Neural Network,CNN)长期在图像分类领域占据主导地位,但是现有的方法大多没有充分利用场景图像的有价值的特征进行场景识别,表现在结合物体和场景信息的融合方法效果不佳,没有充分考虑物体对象和场景之间的差异,其次与一般图像识别问题中出现在图像特定部分的对象不同,场景识别问题中场景遍布整个图像,相关算法考虑图像信息不够全面导致识别精度较差。基于平移窗口和自注意力机制的分层视觉变换Swin Transformer作为计算机视觉的新型通用骨干,在图像分类、目标检测和语义分割方面的性能表现均优于大多数先进的卷积神经网络。
随着图像信息的急速增加、图像分类算法的迭代改进及新特征提取算法的提出,对计算机场景识别能力的要求也越来越高。受限于边缘设备有限的硬件资源和计算能力,传统机器学习和深度学习模型在不经过优化的情况下很难有效在边缘设备上运行,且计算及存储资源的高占用不利于信息处理的实时性实现。
发明内容
现有的小规模网络模型表达能力有限,难以获得满意的预测结果,而表现优异的大规模机器学习和深度学习模型往往需要极大的计算资源和存储资源。但是考虑到实际应用场景,边缘设备的硬件条件不足以支撑大规模模型部署,针对该问题,本发明提出一种基于知识蒸馏的适用于边缘设备的场景识别方法及装置。
一方面,本发明提供一种基于知识蒸馏的边缘设备场景识别方法,包括:
构建场景识别教师模型,具体包括:采用视觉骨干网络Swin Transformer在数据集ImageNet上进行预训练得到预训练模型;初始化所述预训练模型的网络参数,在场景识别数据集上进行微调训练,当场景识别教师模型的损失函数下降且收敛时,得到场景识别教师模型Plaswin-T;
构建蒸馏损失函数,所述蒸馏损失函数由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到;
构建场景识别学生模型,具体包括:采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练,得到初始学生模型;然后以所述蒸馏损失函数作为训练损失函数对所述初始学生模型进行参数更新,当所述蒸馏损失函数下降且收敛时,得到最终的场景识别学生模型;
将待识别场景图片输入至所述场景识别学生模型,得到场景识别结果。
进一步地,所述场景识别教师模型的损失函数LOSST和所述初始学生模型的损失函数LOSSS均采用多分类交叉熵损失函数,分别如公式(1)和公式(4)所示:
其中,M表示样本类别个数,yi,j∈(0,1)表示第i个样本的第j类真实标签值,表示场景识别教师模型对第i个样本的第j类预测标签值概率,/>表示初始学生模型对第i个样本的第j类预测标签值概率,N表示数据样本的总个数。
进一步地,采用公式(2)计算得到所述场景识别教师模型的预测软标签fq
其中,zi表示第i类场景图像识别的概率,T为蒸馏温度系数,zj表示所有类别场景图像识别的概率。
进一步地,所述蒸馏损失函数如公式(3)所示:
LOSSdistill=(1-α)CE(ZS,y)+αT2KL(ZS/T,ZT/T) (3)
其中,ZT,ZS分别表示场景识别教师模型和场景识别学生模型的softmax函数输出,CE表示按照公式(4)计算得到的交叉熵,y表示场景识别数据的真实标签值,α为加权系数,T为蒸馏温度系数,KL表示散度或相对熵。
进一步地,在本地计算机或服务群组上构建训练场景识别教师模型。
进一步地,先在本地计算机或服务群组上构建训练场景识别学生模型,然后将训练好的场景识别学生模型部署在边缘设备上,最后在边缘设备上对待识别场景图片进行场景识别。
进一步地,直接在边缘设备上构建训练场景识别学生模型,然后在边缘设备上利用训练好的场景识别学生模型对待识别场景图片进行场景识别。
另一方面,本发明提供一种基于知识蒸馏的边缘设备场景识别装置,包括:
场景识别教师模型训练模块,用于采用视觉骨干网络Swin Transformer在数据集ImageNet上进行预训练得到预训练模型;初始化所述预训练模型的网络参数,在场景识别数据集上进行微调训练,当场景识别教师模型的损失函数下降且收敛时,得到场景识别教师模型Plaswin-T;
蒸馏损失函数确定模块,用于由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到蒸馏损失函数;
场景识别学生模型训练模块,用于采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练,得到初始学生模型;然后以所述蒸馏损失函数作为训练损失函数对所述初始学生模型进行参数更新,当所述蒸馏损失函数下降且收敛时,得到最终的场景识别学生模型;
场景识别模块,用于将待识别场景图片输入至所述场景识别学生模型,得到场景识别结果。
本发明的有益效果:
场景识别是个体获取场景语义信息的过程,在计算机视觉多个应用领域具有重要作用。本发明针对高性能大规模模型无法在边缘设备上部署及小规模模型性能较差,提出采用知识蒸馏方法来训练适合在边缘设备部署的高性能小规模模型,它的有益效果体现在以下几个方面:
(1)采用大规模图像数据集预训练并在场景识别训练数据集上微调的方法训练教师模型,可以更快的使教师模型收敛,缩短模型参数优化的时间,提高模型的泛化能力;
(2)采用知识蒸馏方法来使用教师模型监督训练学生模型,解决了部署在边缘设备端神经网络性能差的问题,既满足了模型部署要求,又使学生模型(小规模模型)尽可能学习到教师模型(大规模模型)的场景识别经验,学生模型的性能有显著提升;
(3)经过知识蒸馏得到的学生模型相比教师模型的场景识别性能较低,但是对比不经过知识蒸馏的学生模型场景识别性能则有明显改善;
(4)整个训练的模型可以在本地端、服务器端以及边缘设备端灵活部署,所得学生模型对边缘设备硬件资源要求低,模型识别速度快。
附图说明
图1为本发明实施例提供的基于知识蒸馏的边缘设备场景识别方法所构建模型的整体结构示意图;
图2为本发明实施例提供的场景识别教师模型的构建流程示意图;
图3为本发明实施例提供的场景识别学生模型的构建流程示意图;
图4为本发明实施例提供的场景识别教师模型和学生模型的部署和应用示意图;
图5为本发明实施例提供的损失函数构成示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
场景识别旨在预测待检测图像的地点类别,是计算机视觉图像识别领域最受关注的课题之一,在图像检索、机器人等方面具有广泛应用。本发明针对高性能大规模模型难以在边缘设备端部署,而现有可以部署的模型识别精度不高的现状,提出采用知识蒸馏的方法来训练模型,从而提高部署模型的识别速度和准确度。
实施例1
结合图1至图5所示,本发明实施例提供一种基于知识蒸馏的边缘设备场景识别方法,包括以下步骤:
S101:构建场景识别教师模型,如图2所示,具体包括:采用视觉骨干网络SwinTransformer在数据集ImageNet上进行预训练得到预训练模型;初始化所述预训练模型的网络参数,在场景识别数据集上进行微调训练,当场景识别教师模型的损失函数下降且收敛时,得到场景识别教师模型Plaswin-T;
具体地,当数据标注较少时得到的模型精度往往较差,并且数据量的多少也会直接影响模型的性能。本质上,当场景类别标注数据足够的情况下,场景识别可以归结为图像分类,因此,考虑到现有场景识别数据标注情况及其与ImageNet数据集的相似特征,本发明实施例在构建教师模型时,先采用Swin Transformer在大规模图像识别数据集ImageNet上进行预训练,可以加速教师模型的收敛,提高教师模型的泛化能力和构建效果。
Places365-Standard数据集包括180万张来自365个场景类别的训练图片,以及3万多张验证图片和32万多测试图片,主要包括室内场景、自然场景、城市场景几个大类。本发明实施例中,将Places365-Standard数据集输入预训练模型中,经过微调等操作可以得到性能优异的教师模型Plaswin-T。
需要说明的是,教师模型因本身复杂度和需要极大的存储资源和计算资源,所以一般在性能优异的本地计算机或服务器群组上进行教师模型的构建训练。教师模型-学生模型的部署和应用如图4所示。
作为一种可实施方式,所述场景识别教师模型的损失函数LOSST如公式(1)所示:
其中,M表示样本类别个数,yi,j∈(0,1)表示第i个样本的第j类真实标签值,表示场景识别教师模型对第i个样本的第j类预测标签值概率,N表示数据样本的总个数。
S102:构建蒸馏损失函数,如图5所示,所述蒸馏损失函数由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到;
具体地,损失函数示意图如图5所示。在蒸馏温度系数T下,教师模型的预测软标签值与真实标签之间计算即得教师模型多分类交叉熵损失函数;学生模型的预测硬标签与真实标签之间计算即得学生模型多分类交叉熵损失函数;教师模型输出软标签与学生模型输出硬标签之间计算即为蒸馏损失函数。
图像分类问题一般在模型的最后一层使用softmax输出层输出预测类别概率,即输出为每个类别分配了概率,相比于直接得到的类别得分具有更多的表示信息。但是模型对于预测结果为真的类别标签会分配很高的置信度,如果直接使用softmax函数输出的结果,则不能将教师模型学习到的丰富场景识别经验迁移给学生模型。softmax输出层通过将zi与其他logit值进行比较,为每个类别计算的logit值转换为概率,知识蒸馏则通过引入温度系数T,从而使输出层产生一个软化后的概率向量,即教师网络的预测结果除以温度系数之后再做softmax函数变换,可以得到教师模型的预测软标签fq,如公式(2)所示。
公式(2)中,z是最后一个隐藏层的输出向量,zi表示第i类场景图像识别的概率;zj表示所有类别场景图像识别的概率。T为蒸馏温度系数,T越高则代表输出结果分布越平缓,即在各个类别上产生较弱的概率分布,当T=1时,fq即为softmax函数。
作为一种可实施方式,在蒸馏温度系数T下,蒸馏训练完成的教师模型Plaswin-T,计算在温度T下的教师模型的预测软标签值,学生网络在同样的温度系数下学习由教师网络输出的软标签值,尽可能的逼近软标签从而学习到教师网络的场景识别经验,学生网络的输出与教师模型的预测软标签计算得到损失函数,同时学生网络的输出与真实标签值计算硬损失函数,两部分损失函数经过加权得到总损失函数,即蒸馏损失函数。构建的所述蒸馏损失函数如公式(3)所示:
LOSSdistill=(1-α)CE(ZS,y)+αT2KL(ZS/T,ZT/T) (3)
其中,ZT,ZS分别表示场景识别教师模型和场景识别学生模型的softmax函数输出,CE表示按照公式(4)计算得到的交叉熵,y表示场景识别数据的真实标签值,α为加权系数,T为蒸馏温度系数,KL表示散度或相对熵。为了使学生模型尽可能的学习到教师模型的场景识别输出经验,用KL来衡量两个模型之间的输出分布。
S103:构建场景识别学生模型,如图3所示,具体包括:采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练,得到初始学生模型;然后以所述蒸馏损失函数作为训练损失函数对所述初始学生模型进行参数更新,当所述蒸馏损失函数下降且收敛时,得到最终的场景识别学生模型;
具体地,轻量级卷积神经网络MobileNet V3综合了MobileNet V1的深度可分离卷积、MobileNet V2的具有线性瓶颈的逆残差结构以及MnasNet的轻量级注意力机制,并引入了h-swish激活函数,在提高了模型推理性能的同时大大缩减了运行速度。
作为一种可实施方式,作为学生模型的轻量级卷积神经网络MobileNet V3的网络结构如表1所示。
表1学生模型的网络结构
本发明实施例中,为了使学生模型的输出更加逼近教师模型,学生模型的损失函数不再局限于自身预测结果与真实标签之间计算损失函数,而是进一步考虑到了教师模型的预测软标签对学生模型的监督指导作用,通过引入教师模型的预测软标签作为蒸馏损失函数的一部分,然后学生模型根据蒸馏损失函数进行梯度更新及误差反向传播来更新模型参数,保存结果收敛之后预测正确率最高的学生模型作为最终的学生模型。
作为一种可实施方式,所述初始学生模型的损失函数LOSSS均采用多分类交叉熵损失函数,如公式(4)所示:
其中,M表示样本类别个数,yi,j∈(0,1)表示第i个样本的第j类真实标签值,表示初始学生模型对第i个样本的第j类预测标签值概率,N表示数据样本的总个数。
需要说明的是,针对不同的边缘设备应用场景,学生模型的构建训练分为以下两种方式:
第一种方式:先在本地计算机或服务群组上构建训练场景识别学生模型,然后将训练好的场景识别学生模型部署在边缘设备上,最后在边缘设备上对待识别场景图片进行场景识别;
第二种方式:因学生模型结构简单,不需要大量硬件资源,因此可以直接在边缘设备上构建训练场景识别学生模型,然后在边缘设备上利用训练好的场景识别学生模型对待识别场景图片进行场景识别;相比上述的第一种方式,该方式可能会消耗更多的时间。教师模型-学生模型的部署和应用如图4所示。
S104:如图4所示,将待识别场景图片输入至所述场景识别学生模型,得到场景识别结果。
具体地,应用时只需输入待识别场景图片,可以借助边缘设备的图像采集模块,例如手机的照相机功能、无人机和机器人的摄像头模块等,对输入图像预处理后经部署模型输出待检测特征向量,与标准场景图像特征向量比对后输出场景识别结果。将采集的场景图像收集并保存,在特定的时间可以进行场景识别模型的更新和重新部署,以提高模型的泛化能力。
实施例2
本发明实施例提供一种基于知识蒸馏的边缘设备场景识别装置,包括:场景识别教师模型训练模块、蒸馏损失函数确定模块、场景识别学生模型训练模块和场景识别模块。
具体地,场景识别教师模型训练模块用于采用视觉通用骨干网络SwinTransformer在数据集ImageNet上进行预训练得到预训练模型;初始化所述预训练模型的网络参数,在场景识别数据集上进行微调训练,当场景识别教师模型的损失函数下降且收敛时,得到场景识别教师模型Plaswin-T。蒸馏损失函数确定模块用于由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到蒸馏损失函数。场景识别学生模型训练模块用于采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练,得到初始学生模型;然后以所述蒸馏损失函数作为训练损失函数对所述初始学生模型进行参数更新,当所述蒸馏损失函数下降且收敛时,得到最终的场景识别学生模型。场景识别模块,用于将待识别场景图片输入至所述场景识别学生模型,得到场景识别结果。
本发明采用预训练的Plaswin-T模型作为教师模型,通过知识蒸馏对以轻量级卷积神经网络MobileNet V3的学生模型进行监督训练,同时借助微调、标签平滑等技术以提高模型的泛化能力,使得性能较差的学生模型学习到教师模型强大的识别性、鲁棒性和泛化性,学生模型的训练和推理均可以部署在边缘设备上,对边缘设备硬件资源要求低,模型识别速度快、识别精度高。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种基于知识蒸馏的边缘设备场景识别方法,其特征在于,包括:
构建场景识别教师模型,具体包括:采用骨干网络Swin Transformer在数据集ImageNet上进行预训练得到预训练模型;初始化所述预训练模型的网络参数,在场景识别数据集上进行微调训练,当场景识别教师模型的损失函数下降且收敛时,得到场景识别教师模型Plaswin-T;
构建蒸馏损失函数,所述蒸馏损失函数由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到;
构建场景识别学生模型,具体包括:采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练,得到初始学生模型;然后以所述蒸馏损失函数作为训练损失函数对所述初始学生模型进行参数更新,当所述蒸馏损失函数下降且收敛时,得到最终的场景识别学生模型;
将待识别场景图片输入至所述场景识别学生模型,得到场景识别结果;
其中,所述场景识别教师模型的损失函数LOSST和所述初始学生模型的损失函数LOSSS均采用多分类交叉熵损失函数,分别如公式(1)和公式(4)所示:
其中,M表示样本类别个数,yi,j∈(0,1)表示第i个样本的第j类真实标签值,表示场景识别教师模型对第i个样本的第j类预测标签值概率,/>表示初始学生模型对第i个样本的第j类预测标签值概率,N表示数据样本的总个数;
蒸馏损失函数如公式(3)所示:
LOSSdistill=(1-α)CE(ZS,y)+αT2KL(ZS/T,ZT/T) (3)
其中,ZT,ZS分别表示场景识别教师模型和场景识别学生模型的softmax函数输出,CE表示按照公式(4)计算得到的交叉熵,y表示场景识别数据的真实标签值,α为加权系数,T为蒸馏温度系数,KL表示散度或相对熵。
2.根据权利要求1所述的一种基于知识蒸馏的边缘设备场景识别方法,其特征在于,采用公式(2)计算得到所述场景识别教师模型的预测软标签fq
其中,zi表示第i类场景图像识别的概率,T为蒸馏温度系数,zj表示所有类别场景图像识别的概率。
3.根据权利要求1所述的一种基于知识蒸馏的边缘设备场景识别方法,其特征在于,在本地计算机或服务群组上构建训练场景识别教师模型。
4.根据权利要求1所述的一种基于知识蒸馏的边缘设备场景识别方法,其特征在于,先在本地计算机或服务群组上构建训练场景识别学生模型,然后将训练好的场景识别学生模型部署在边缘设备上,最后在边缘设备上对待识别场景图片进行场景识别。
5.根据权利要求1所述的一种基于知识蒸馏的边缘设备场景识别方法,其特征在于,直接在边缘设备上构建训练场景识别学生模型,然后在边缘设备上利用训练好的场景识别学生模型对待识别场景图片进行场景识别。
6.一种基于知识蒸馏的边缘设备场景识别装置,其特征在于,包括:
场景识别教师模型训练模块,用于采用骨干网络Swin Transformer在数据集ImageNet上进行预训练得到预训练模型;初始化所述预训练模型的网络参数,在场景识别数据集上进行微调训练,当场景识别教师模型的损失函数下降且收敛时,得到场景识别教师模型Plaswin-T;
蒸馏损失函数确定模块,用于由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到蒸馏损失函数;
场景识别学生模型训练模块,用于采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练,得到初始学生模型;然后以所述蒸馏损失函数作为训练损失函数对所述初始学生模型进行参数更新,当所述蒸馏损失函数下降且收敛时,得到最终的场景识别学生模型;
场景识别模块,用于将待识别场景图片输入至所述场景识别学生模型,得到场景识别结果;
其中,所述场景识别教师模型的损失函数LOSST和所述初始学生模型的损失函数LOSSS均采用多分类交叉熵损失函数,分别如公式(1)和公式(4)所示:
其中,M表示样本类别个数,yi,j∈(0,1)表示第i个样本的第j类真实标签值,表示场景识别教师模型对第i个样本的第j类预测标签值概率,/>表示初始学生模型对第i个样本的第j类预测标签值概率,N表示数据样本的总个数;
蒸馏损失函数如公式(3)所示:
LOSSdistill=(1-α)CE(ZS,y)+αT2KL(ZS/T,ZT/T) (3)
其中,ZT,ZS分别表示场景识别教师模型和场景识别学生模型的softmax函数输出,CE表示按照公式(4)计算得到的交叉熵,y表示场景识别数据的真实标签值,α为加权系数,T为蒸馏温度系数,KL表示散度或相对熵。
CN202111301637.0A 2021-11-04 2021-11-04 一种基于知识蒸馏的边缘设备场景识别方法及装置 Active CN114241282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111301637.0A CN114241282B (zh) 2021-11-04 2021-11-04 一种基于知识蒸馏的边缘设备场景识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111301637.0A CN114241282B (zh) 2021-11-04 2021-11-04 一种基于知识蒸馏的边缘设备场景识别方法及装置

Publications (2)

Publication Number Publication Date
CN114241282A CN114241282A (zh) 2022-03-25
CN114241282B true CN114241282B (zh) 2024-01-26

Family

ID=80748440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111301637.0A Active CN114241282B (zh) 2021-11-04 2021-11-04 一种基于知识蒸馏的边缘设备场景识别方法及装置

Country Status (1)

Country Link
CN (1) CN114241282B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114972904A (zh) * 2022-04-18 2022-08-30 北京理工大学 一种基于对抗三元组损失的零样本知识蒸馏方法及系统
CN114758180B (zh) * 2022-04-19 2023-10-10 电子科技大学 一种基于知识蒸馏的轻量化花卉识别方法
CN115131627B (zh) * 2022-07-01 2024-02-20 贵州大学 一种轻量化植物病虫害目标检测模型的构建和训练方法
CN114943831A (zh) * 2022-07-25 2022-08-26 安徽农业大学 基于知识蒸馏的移动端病虫害目标检测方法及移动端设备
CN115496941B (zh) * 2022-09-19 2024-01-09 哈尔滨工业大学 基于知识增强计算机视觉的结构健康诊断方法
CN115223049B (zh) * 2022-09-20 2022-12-13 山东大学 面向电力场景边缘计算大模型压缩的知识蒸馏与量化方法
CN115272981A (zh) * 2022-09-26 2022-11-01 山东大学 云边共学习输电巡检方法与系统
CN115577305B (zh) * 2022-10-31 2023-05-30 中国人民解放军军事科学院系统工程研究院 一种无人机信号智能识别方法及装置
CN115907001B (zh) * 2022-11-11 2023-07-04 中南大学 基于知识蒸馏的联邦图学习方法及自动驾驶方法
CN116110022B (zh) * 2022-12-10 2023-09-05 河南工业大学 基于响应知识蒸馏的轻量化交通标志检测方法及系统
CN115713755A (zh) * 2023-01-09 2023-02-24 三亚中国农业科学院国家南繁研究院 一种高效精准的草地贪夜蛾的图像识别方法
CN115965964B (zh) * 2023-01-29 2024-01-23 中国农业大学 一种鸡蛋新鲜度识别方法、系统及设备
CN116028891B (zh) * 2023-02-16 2023-07-14 之江实验室 一种基于多模型融合的工业异常检测模型训练方法和装置
CN116977712A (zh) * 2023-06-16 2023-10-31 江苏大学 基于知识蒸馏的道路场景分割方法、系统、设备及介质
CN116865887B (zh) * 2023-07-06 2024-03-01 四川省广播电视科学技术研究所 一种基于知识蒸馏的情感分类广播系统及其方法
CN117236409B (zh) * 2023-11-16 2024-02-27 中电科大数据研究院有限公司 基于大模型的小模型训练方法、装置、系统和存储介质
CN117557857A (zh) * 2023-11-23 2024-02-13 哈尔滨工业大学 结合渐进式引导蒸馏和结构重构的检测网络轻量化方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674880A (zh) * 2019-09-27 2020-01-10 北京迈格威科技有限公司 用于知识蒸馏的网络训练方法、装置、介质与电子设备
CN110852426A (zh) * 2019-11-19 2020-02-28 成都晓多科技有限公司 基于知识蒸馏的预训练模型集成加速方法及装置
CN111598216A (zh) * 2020-04-16 2020-08-28 北京百度网讯科技有限公司 学生网络模型的生成方法、装置、设备及存储介质
CN112116030A (zh) * 2020-10-13 2020-12-22 浙江大学 一种基于向量标准化和知识蒸馏的图像分类方法
WO2021023202A1 (zh) * 2019-08-07 2021-02-11 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法、设备和可伸缩动态预测方法
CN112712052A (zh) * 2021-01-13 2021-04-27 安徽水天信息科技有限公司 一种机场全景视频中微弱目标的检测识别方法
CN112988975A (zh) * 2021-04-09 2021-06-18 北京语言大学 一种基于albert和知识蒸馏的观点挖掘方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
US11410029B2 (en) * 2018-01-02 2022-08-09 International Business Machines Corporation Soft label generation for knowledge distillation
US11347965B2 (en) * 2019-03-21 2022-05-31 Illumina, Inc. Training data generation for artificial intelligence-based sequencing

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021023202A1 (zh) * 2019-08-07 2021-02-11 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法、设备和可伸缩动态预测方法
CN110674880A (zh) * 2019-09-27 2020-01-10 北京迈格威科技有限公司 用于知识蒸馏的网络训练方法、装置、介质与电子设备
CN110852426A (zh) * 2019-11-19 2020-02-28 成都晓多科技有限公司 基于知识蒸馏的预训练模型集成加速方法及装置
CN111598216A (zh) * 2020-04-16 2020-08-28 北京百度网讯科技有限公司 学生网络模型的生成方法、装置、设备及存储介质
CN112116030A (zh) * 2020-10-13 2020-12-22 浙江大学 一种基于向量标准化和知识蒸馏的图像分类方法
CN112712052A (zh) * 2021-01-13 2021-04-27 安徽水天信息科技有限公司 一种机场全景视频中微弱目标的检测识别方法
CN112988975A (zh) * 2021-04-09 2021-06-18 北京语言大学 一种基于albert和知识蒸馏的观点挖掘方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Distilling the Knowledge in a Neural Network;Hugo Touvron et al.;《arXiv:2012.12877v2》;全文 *
基于深度特征蒸馏的人脸识别;葛仕明;赵胜伟;刘文瑜;李晨钰;;北京交通大学学报(06);全文 *
基于特征蒸馏的实时人体动作识别;高璇;饶鹏;刘高睿;;工业控制计算机(08);全文 *

Also Published As

Publication number Publication date
CN114241282A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN114241282B (zh) 一种基于知识蒸馏的边缘设备场景识别方法及装置
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN110929577A (zh) 一种基于YOLOv3的轻量级框架改进的目标识别方法
CN109271539B (zh) 一种基于深度学习的图像自动标注方法及装置
WO2021139191A1 (zh) 数据标注的方法以及数据标注的装置
CN110909820A (zh) 基于自监督学习的图像分类方法及系统
CN114298158A (zh) 一种基于图文线性组合的多模态预训练方法
CN112819065B (zh) 基于多重聚类信息的无监督行人难样本挖掘方法和系统
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
CN113807399A (zh) 一种神经网络训练方法、检测方法以及装置
CN113591978B (zh) 一种基于置信惩罚正则化的自我知识蒸馏的图像分类方法、设备及存储介质
CN112712052A (zh) 一种机场全景视频中微弱目标的检测识别方法
CN112925904B (zh) 一种基于Tucker分解的轻量级文本分类方法
CN111079847A (zh) 一种基于深度学习的遥感影像自动标注方法
CN115187772A (zh) 目标检测网络的训练及目标检测方法、装置及设备
CN116012880A (zh) 分布式边缘协同推理的行人重识别方法、系统及装置
CN113837046A (zh) 一种基于迭代特征分布学习的小样本遥感图像场景分类方法
CN114329031A (zh) 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法
CN113705293A (zh) 图像场景的识别方法、装置、设备及可读存储介质
CN114782752B (zh) 基于自训练的小样本图像集成分类方法及装置
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN112101154B (zh) 视频分类方法、装置、计算机设备和存储介质
CN114693997A (zh) 基于迁移学习的图像描述生成方法、装置、设备及介质
CN113160135A (zh) 基于无监督迁移图片分类的结肠病变智能识别方法、系统及介质
Jiang et al. Learning from noisy labels with noise modeling network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant