CN114241282A

CN114241282A - 一种基于知识蒸馏的边缘设备场景识别方法及装置

Info

Publication number: CN114241282A
Application number: CN202111301637.0A
Authority: CN
Inventors: 赵亮; 魏政杰; 付园坤; 金军委; 张坤鹏; 王建鹏; 丁倩; 郝展鹏; 付宏达
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-03-25
Anticipated expiration: 2041-11-04
Also published as: CN114241282B

Abstract

本发明提供一种基于知识蒸馏的边缘设备场景识别方法及装置。该方法包括：构建场景识别教师模型，具体包括：采用视觉骨干网络Swin Transformer在数据集ImageNet上进行预训练得到预训练模型；初始化所述预训练模型的网络参数，在场景识别数据集上进行微调训练，得到场景识别教师模型Plaswin‑T；构建蒸馏损失函数，所述蒸馏损失函数由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到；构建场景识别学生模型，具体包括：采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练，以所述蒸馏损失函数作为训练损失函数进行参数更新，当所述蒸馏损失函数下降且收敛时，得到最终的场景识别学生模型；将待识别场景图片输入至所述场景识别学生模型，得到场景识别结果。

Description

一种基于知识蒸馏的边缘设备场景识别方法及装置

技术领域

本发明涉及采用人工智能方法的计算机视觉场景识别技术领域，尤其涉及一种基于知识蒸馏的边缘设备场景识别方法及装置。

背景技术

场景一般理解为复杂现实环境的高度抽象和表示，一副图像的场景类别不仅代表了对于该图像的整体描述和概括，而且还包含了图像中不同对象之间的上下文关系，进而为深入分析图像中的对象及其相互关系和内容理解提供基础。场景识别是图像识别中最受关注的课题之一，旨在预测目标图像的地点的类别和其他信息，在现在的计算机视觉领域具有重要的研究意义，应用于实现对图像的管理和检索，同时为物体识别、目标检测等计算机视觉任务提供必要的上下文信息，在自主机器人及无人机等端侧边缘智能设备上尤为常见。

现有常见的场景识别方法主要分为基于对象的场景识别、基于区域的场景识别和基于上下文的场景识别三类。场景图像的特征多种多样，利用图像中的对象信息是场景识别中最常用的场景特征，当特定对象出现在图像中时图像属于与该对象相关联的特定类别的概率增加。卷积神经网络(Convolutional Neural Network,CNN)长期在图像分类领域占据主导地位，但是现有的方法大多没有充分利用场景图像的有价值的特征进行场景识别，表现在结合物体和场景信息的融合方法效果不佳，没有充分考虑物体对象和场景之间的差异，其次与一般图像识别问题中出现在图像特定部分的对象不同，场景识别问题中场景遍布整个图像，相关算法考虑图像信息不够全面导致识别精度较差。基于平移窗口和自注意力机制的分层视觉变换Swin Transformer作为计算机视觉的新型通用骨干，在图像分类、目标检测和语义分割方面的性能表现均优于大多数先进的卷积神经网络。

随着图像信息的急速增加、图像分类算法的迭代改进及新特征提取算法的提出，对计算机场景识别能力的要求也越来越高。受限于边缘设备有限的硬件资源和计算能力，传统机器学习和深度学习模型在不经过优化的情况下很难有效在边缘设备上运行，且计算及存储资源的高占用不利于信息处理的实时性实现。

发明内容

现有的小规模网络模型表达能力有限，难以获得满意的预测结果，而表现优异的大规模机器学习和深度学习模型往往需要极大的计算资源和存储资源。但是考虑到实际应用场景，边缘设备的硬件条件不足以支撑大规模模型部署，针对该问题，本发明提出一种基于知识蒸馏的适用于边缘设备的场景识别方法及装置。

一方面，本发明提供一种基于知识蒸馏的边缘设备场景识别方法，包括：

构建场景识别教师模型，具体包括：采用视觉骨干网络Swin Transformer在数据集ImageNet上进行预训练得到预训练模型；初始化所述预训练模型的网络参数，在场景识别数据集上进行微调训练，当场景识别教师模型的损失函数下降且收敛时，得到场景识别教师模型Plaswin-T；

构建蒸馏损失函数，所述蒸馏损失函数由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到；

构建场景识别学生模型，具体包括：采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练，得到初始学生模型；然后以所述蒸馏损失函数作为训练损失函数对所述初始学生模型进行参数更新，当所述蒸馏损失函数下降且收敛时，得到最终的场景识别学生模型；

将待识别场景图片输入至所述场景识别学生模型，得到场景识别结果。

进一步地，所述场景识别教师模型的损失函数LOSS_T和所述初始学生模型的损失函数LOSS_S均采用多分类交叉熵损失函数，分别如公式(1)和公式(4)所示：

其中，M表示样本类别个数，y_i,j∈(0，1)表示第i个样本的第j类真实标签值，

表示场景识别教师模型对第i个样本的第j类预测标签值概率，

表示初始学生模型对第i个样本的第j类预测标签值概率，N表示数据样本的总个数。

进一步地，采用公式(2)计算得到所述场景识别教师模型的预测软标签f_q：

其中，z_i表示第i类场景图像识别的概率，T为蒸馏温度系数，z_j表示所有类别场景图像识别的概率。

进一步地，所述蒸馏损失函数如公式(3)所示：

LOSS_distill＝(1-α)CE(Z_S,y)+αT²KL(Z_S/T,Z_T/T) (3)

其中，Z_T,Z_S分别表示场景识别教师模型和场景识别学生模型的softmax函数输出，CE表示按照公式(4)计算得到的交叉熵，y表示场景识别数据的真实标签值，α为加权系数，T为蒸馏温度系数，KL表示散度或相对熵。

进一步地，在本地计算机或服务群组上构建训练场景识别教师模型。

进一步地，先在本地计算机或服务群组上构建训练场景识别学生模型，然后将训练好的场景识别学生模型部署在边缘设备上，最后在边缘设备上对待识别场景图片进行场景识别。

进一步地，直接在边缘设备上构建训练场景识别学生模型，然后在边缘设备上利用训练好的场景识别学生模型对待识别场景图片进行场景识别。

另一方面，本发明提供一种基于知识蒸馏的边缘设备场景识别装置，包括：

场景识别教师模型训练模块，用于采用视觉骨干网络Swin Transformer在数据集ImageNet上进行预训练得到预训练模型；初始化所述预训练模型的网络参数，在场景识别数据集上进行微调训练，当场景识别教师模型的损失函数下降且收敛时，得到场景识别教师模型Plaswin-T；

蒸馏损失函数确定模块，用于由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到蒸馏损失函数；

场景识别学生模型训练模块，用于采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练，得到初始学生模型；然后以所述蒸馏损失函数作为训练损失函数对所述初始学生模型进行参数更新，当所述蒸馏损失函数下降且收敛时，得到最终的场景识别学生模型；

场景识别模块，用于将待识别场景图片输入至所述场景识别学生模型，得到场景识别结果。

本发明的有益效果：

场景识别是个体获取场景语义信息的过程，在计算机视觉多个应用领域具有重要作用。本发明针对高性能大规模模型无法在边缘设备上部署及小规模模型性能较差，提出采用知识蒸馏方法来训练适合在边缘设备部署的高性能小规模模型，它的有益效果体现在以下几个方面：

(1)采用大规模图像数据集预训练并在场景识别训练数据集上微调的方法训练教师模型，可以更快的使教师模型收敛，缩短模型参数优化的时间，提高模型的泛化能力；

(2)采用知识蒸馏方法来使用教师模型监督训练学生模型，解决了部署在边缘设备端神经网络性能差的问题，既满足了模型部署要求，又使学生模型(小规模模型)尽可能学习到教师模型(大规模模型)的场景识别经验，学生模型的性能有显著提升；

(3)经过知识蒸馏得到的学生模型相比教师模型的场景识别性能较低，但是对比不经过知识蒸馏的学生模型场景识别性能则有明显改善；

(4)整个训练的模型可以在本地端、服务器端以及边缘设备端灵活部署，所得学生模型对边缘设备硬件资源要求低，模型识别速度快。

附图说明

图1为本发明实施例提供的基于知识蒸馏的边缘设备场景识别方法所构建模型的整体结构示意图；

图2为本发明实施例提供的场景识别教师模型的构建流程示意图；

图3为本发明实施例提供的场景识别学生模型的构建流程示意图；

图4为本发明实施例提供的场景识别教师模型和学生模型的部署和应用示意图；

图5为本发明实施例提供的损失函数构成示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

场景识别旨在预测待检测图像的地点类别，是计算机视觉图像识别领域最受关注的课题之一，在图像检索、机器人等方面具有广泛应用。本发明针对高性能大规模模型难以在边缘设备端部署，而现有可以部署的模型识别精度不高的现状，提出采用知识蒸馏的方法来训练模型，从而提高部署模型的识别速度和准确度。

实施例1

结合图1至图5所示，本发明实施例提供一种基于知识蒸馏的边缘设备场景识别方法，包括以下步骤：

S101：构建场景识别教师模型，如图2所示，具体包括：采用视觉骨干网络SwinTransformer在数据集ImageNet上进行预训练得到预训练模型；初始化所述预训练模型的网络参数，在场景识别数据集上进行微调训练，当场景识别教师模型的损失函数下降且收敛时，得到场景识别教师模型Plaswin-T；

具体地，当数据标注较少时得到的模型精度往往较差，并且数据量的多少也会直接影响模型的性能。本质上，当场景类别标注数据足够的情况下，场景识别可以归结为图像分类，因此，考虑到现有场景识别数据标注情况及其与ImageNet数据集的相似特征，本发明实施例在构建教师模型时，先采用Swin Transformer在大规模图像识别数据集ImageNet上进行预训练，可以加速教师模型的收敛，提高教师模型的泛化能力和构建效果。

Places365-Standard数据集包括180万张来自365个场景类别的训练图片，以及3万多张验证图片和32万多测试图片，主要包括室内场景、自然场景、城市场景几个大类。本发明实施例中，将Places365-Standard数据集输入预训练模型中，经过微调等操作可以得到性能优异的教师模型Plaswin-T。

需要说明的是，教师模型因本身复杂度和需要极大的存储资源和计算资源，所以一般在性能优异的本地计算机或服务器群组上进行教师模型的构建训练。教师模型-学生模型的部署和应用如图4所示。

作为一种可实施方式，所述场景识别教师模型的损失函数LOSS_T如公式(1)所示：

表示场景识别教师模型对第i个样本的第j类预测标签值概率，N表示数据样本的总个数。

S102：构建蒸馏损失函数，如图5所示，所述蒸馏损失函数由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到；

具体地，损失函数示意图如图5所示。在蒸馏温度系数T下，教师模型的预测软标签值与真实标签之间计算即得教师模型多分类交叉熵损失函数；学生模型的预测硬标签与真实标签之间计算即得学生模型多分类交叉熵损失函数；教师模型输出软标签与学生模型输出硬标签之间计算即为蒸馏损失函数。

图像分类问题一般在模型的最后一层使用softmax输出层输出预测类别概率，即输出为每个类别分配了概率，相比于直接得到的类别得分具有更多的表示信息。但是模型对于预测结果为真的类别标签会分配很高的置信度，如果直接使用softmax函数输出的结果，则不能将教师模型学习到的丰富场景识别经验迁移给学生模型。softmax输出层通过将z_i与其他logit值进行比较，为每个类别计算的logit值转换为概率，知识蒸馏则通过引入温度系数T，从而使输出层产生一个软化后的概率向量，即教师网络的预测结果除以温度系数之后再做softmax函数变换，可以得到教师模型的预测软标签f_q，如公式(2)所示。

公式(2)中，z是最后一个隐藏层的输出向量，z_i表示第i类场景图像识别的概率；z_j表示所有类别场景图像识别的概率。T为蒸馏温度系数，T越高则代表输出结果分布越平缓，即在各个类别上产生较弱的概率分布，当T＝1时，f_q即为softmax函数。

作为一种可实施方式，在蒸馏温度系数T下，蒸馏训练完成的教师模型Plaswin-T，计算在温度T下的教师模型的预测软标签值，学生网络在同样的温度系数下学习由教师网络输出的软标签值，尽可能的逼近软标签从而学习到教师网络的场景识别经验，学生网络的输出与教师模型的预测软标签计算得到损失函数，同时学生网络的输出与真实标签值计算硬损失函数，两部分损失函数经过加权得到总损失函数，即蒸馏损失函数。构建的所述蒸馏损失函数如公式(3)所示：

LOSS_distill＝(1-α)CE(Z_S,y)+αT²KL(Z_S/T,Z_T/T) (3)

其中，Z_T,Z_S分别表示场景识别教师模型和场景识别学生模型的softmax函数输出，CE表示按照公式(4)计算得到的交叉熵，y表示场景识别数据的真实标签值，α为加权系数，T为蒸馏温度系数，KL表示散度或相对熵。为了使学生模型尽可能的学习到教师模型的场景识别输出经验，用KL来衡量两个模型之间的输出分布。

S103：构建场景识别学生模型，如图3所示，具体包括：采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练，得到初始学生模型；然后以所述蒸馏损失函数作为训练损失函数对所述初始学生模型进行参数更新，当所述蒸馏损失函数下降且收敛时，得到最终的场景识别学生模型；

具体地，轻量级卷积神经网络MobileNet V3综合了MobileNet V1的深度可分离卷积、MobileNet V2的具有线性瓶颈的逆残差结构以及MnasNet的轻量级注意力机制，并引入了h-swish激活函数，在提高了模型推理性能的同时大大缩减了运行速度。

作为一种可实施方式，作为学生模型的轻量级卷积神经网络MobileNet V3的网络结构如表1所示。

表1学生模型的网络结构

本发明实施例中，为了使学生模型的输出更加逼近教师模型，学生模型的损失函数不再局限于自身预测结果与真实标签之间计算损失函数，而是进一步考虑到了教师模型的预测软标签对学生模型的监督指导作用，通过引入教师模型的预测软标签作为蒸馏损失函数的一部分，然后学生模型根据蒸馏损失函数进行梯度更新及误差反向传播来更新模型参数，保存结果收敛之后预测正确率最高的学生模型作为最终的学生模型。

作为一种可实施方式，所述初始学生模型的损失函数LOSS_S均采用多分类交叉熵损失函数，如公式(4)所示：

需要说明的是，针对不同的边缘设备应用场景，学生模型的构建训练分为以下两种方式：

第一种方式：先在本地计算机或服务群组上构建训练场景识别学生模型，然后将训练好的场景识别学生模型部署在边缘设备上，最后在边缘设备上对待识别场景图片进行场景识别；

第二种方式：因学生模型结构简单，不需要大量硬件资源，因此可以直接在边缘设备上构建训练场景识别学生模型，然后在边缘设备上利用训练好的场景识别学生模型对待识别场景图片进行场景识别；相比上述的第一种方式，该方式可能会消耗更多的时间。教师模型-学生模型的部署和应用如图4所示。

S104：如图4所示，将待识别场景图片输入至所述场景识别学生模型，得到场景识别结果。

具体地，应用时只需输入待识别场景图片，可以借助边缘设备的图像采集模块，例如手机的照相机功能、无人机和机器人的摄像头模块等，对输入图像预处理后经部署模型输出待检测特征向量，与标准场景图像特征向量比对后输出场景识别结果。将采集的场景图像收集并保存，在特定的时间可以进行场景识别模型的更新和重新部署，以提高模型的泛化能力。

实施例2

本发明实施例提供一种基于知识蒸馏的边缘设备场景识别装置，包括：场景识别教师模型训练模块、蒸馏损失函数确定模块、场景识别学生模型训练模块和场景识别模块。

具体地，场景识别教师模型训练模块用于采用视觉通用骨干网络SwinTransformer在数据集ImageNet上进行预训练得到预训练模型；初始化所述预训练模型的网络参数，在场景识别数据集上进行微调训练，当场景识别教师模型的损失函数下降且收敛时，得到场景识别教师模型Plaswin-T。蒸馏损失函数确定模块用于由场景识别教师模型的预测软标签和初始学生模型的预测硬标签之间计算得到蒸馏损失函数。场景识别学生模型训练模块用于采用轻量级卷积神经网络MobileNet V3在场景识别数据集上进行训练，得到初始学生模型；然后以所述蒸馏损失函数作为训练损失函数对所述初始学生模型进行参数更新，当所述蒸馏损失函数下降且收敛时，得到最终的场景识别学生模型。场景识别模块，用于将待识别场景图片输入至所述场景识别学生模型，得到场景识别结果。

本发明采用预训练的Plaswin-T模型作为教师模型，通过知识蒸馏对以轻量级卷积神经网络MobileNet V3的学生模型进行监督训练，同时借助微调、标签平滑等技术以提高模型的泛化能力，使得性能较差的学生模型学习到教师模型强大的识别性、鲁棒性和泛化性，学生模型的训练和推理均可以部署在边缘设备上，对边缘设备硬件资源要求低，模型识别速度快、识别精度高。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于知识蒸馏的边缘设备场景识别方法，其特征在于，包括：

构建场景识别教师模型，具体包括：采用骨干网络Swin Transformer在数据集ImageNet上进行预训练得到预训练模型；初始化所述预训练模型的网络参数，在场景识别数据集上进行微调训练，当场景识别教师模型的损失函数下降且收敛时，得到场景识别教师模型Plaswin-T；

2.根据权利要求1所述的一种基于知识蒸馏的边缘设备场景识别方法，其特征在于，所述场景识别教师模型的损失函数LOSS_T和所述初始学生模型的损失函数LOSS_S均采用多分类交叉熵损失函数，分别如公式(1)和公式(4)所示：

3.根据权利要求1所述的一种基于知识蒸馏的边缘设备场景识别方法，其特征在于，采用公式(2)计算得到所述场景识别教师模型的预测软标签f_q：

4.根据权利要求2所述的一种基于知识蒸馏的边缘设备场景识别方法，其特征在于，所述蒸馏损失函数如公式(3)所示：

LOSS_distill＝(1-α)CE(Z_S,y)+αT²KL(Z_S/T,Z_T/T) (3)

5.根据权利要求1所述的一种基于知识蒸馏的边缘设备场景识别方法，其特征在于，在本地计算机或服务群组上构建训练场景识别教师模型。

6.根据权利要求1所述的一种基于知识蒸馏的边缘设备场景识别方法，其特征在于，先在本地计算机或服务群组上构建训练场景识别学生模型，然后将训练好的场景识别学生模型部署在边缘设备上，最后在边缘设备上对待识别场景图片进行场景识别。

7.根据权利要求1所述的一种基于知识蒸馏的边缘设备场景识别方法，其特征在于，直接在边缘设备上构建训练场景识别学生模型，然后在边缘设备上利用训练好的场景识别学生模型对待识别场景图片进行场景识别。

8.一种基于知识蒸馏的边缘设备场景识别装置，其特征在于，包括：

场景识别教师模型训练模块，用于采用骨干网络Swin Transformer在数据集ImageNet上进行预训练得到预训练模型；初始化所述预训练模型的网络参数，在场景识别数据集上进行微调训练，当场景识别教师模型的损失函数下降且收敛时，得到场景识别教师模型Plaswin-T；