CN113159073B

CN113159073B - 知识蒸馏方法及装置、存储介质、终端

Info

Publication number: CN113159073B
Application number: CN202110443168.XA
Authority: CN
Inventors: 朱政; 李路军; 黄冠
Original assignee: Shanghai Xinyi Intelligent Technology Co ltd
Current assignee: Shanghai Xinyi Intelligent Technology Co ltd
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2022-11-18
Anticipated expiration: 2041-04-23
Also published as: CN113159073A

Abstract

一种知识蒸馏方法及装置、存储介质、终端，所述方法包括：获取样本图像，将样本图像分别输入至教师网络和学生网络，教师网络包括第一特征提取模块，第一特征提取模块包括一个或多个级联的第一特征单元，学生网络包括第二特征提取模块，第二特征提取模块包括一个或多个级联的第二特征单元，样本图像具有标签；将每一第二特征单元计算得到的特征向量聚合至与该第二特征单元对应的第一特征单元计算得到的特征向量；根据第一特征提取模块输出的特征向量计算第一预测结果，根据第二特征提取模块输出的特征向量计算第二预测结果；根据第一预测结果、第二预测结果和标签计算蒸馏损失；根据蒸馏损失更新学生网络。

Description

知识蒸馏方法及装置、存储介质、终端

技术领域

本发明涉及人工智能技术领域，尤其涉及一种知识蒸馏方法及装置、存储介质、终端。

背景技术

近年来，深度神经网络(Deep Neural Networks，DNN)在工业界和学术界都取得了成功，尤其是在处理计算机视觉(Computer Vision)任务方面得到了广泛的应用。深度神经网络的巨大成功主要归因于其具有可扩展性，可以通过编码大规模数据以操纵大量的模型参数，其中，模型参数的数量通常达数十亿个。由于深度神经网络越来越复杂，计算的复杂程度不断增高，存储需求庞大，因此，如何将深度神经网络部署在资源有限的边缘设备(例如，移动终端和嵌入式设备等)上是当前面临的主要挑战。

为了推进深度神经网络在边缘设备上的应用，通常对深度神经网络进行简化以减少其对计算能力和内存的需求，这一过程被称之为“模型压缩(Model Compression)”。知识蒸馏(Knowledge Distillation)是模型压缩的方式之一。知识蒸馏的目的在于将复杂的教师网络(Teacher Network)的暗知识(Dark Knowledge)迁移至简单的学生网络(StudentNetwork)，以使学生网络能够具有教师网络的推理预测能力，从而使得学生网络不仅计算速度快、内存需求小，还能具备较高的预测性能。

但现有技术中的知识蒸馏方法对教师网络的信息利用率不高，无法有效地将教师网络的暗知识(Dark Knowledge)迁移至学生网络，学生网络的性能与教师网络的性能仍然存在较大的差距。

因此，亟需一种知识蒸馏方法，能够有效地利用教师网络的信息，以提高学生网络的性能。

发明内容

本发明解决的技术问题是提供一种知识蒸馏方法，能够有效地利用教师网络的信息，以提升学生网络的性能。

为解决上述技术问题，本发明实施例提供一种知识蒸馏方法，所述方法包括：获取样本图像，将所述样本图像分别输入至教师网络和学生网络，所述教师网络包括第一特征提取模块和第一分类器，所述第一特征提取模块包括一个或多个级联的第一特征单元，所述学生网络包括第二特征提取模块和第二分类器，所述第二特征提取模块包括一个或多个级联的第二特征单元，其中，所述第一特征单元与第二特征单元一一对应，所述样本图像具有已标注的标签；将每一第二特征单元计算得到的特征向量聚合至与该第二特征单元对应的第一特征单元计算得到的特征向量；采用所述第一分类器根据所述第一特征提取模块输出的特征向量计算第一预测结果，并采用所述第二分类器根据所述第二特征提取模块输出的特征向量计算第二预测结果；根据所述第一预测结果、第二预测结果和所述标签计算蒸馏损失；根据所述蒸馏损失更新所述学生网络。

可选的，根据所述第一预测结果、第二预测结果和所述标签计算蒸馏损失包括：根据所述第一预测结果和所述标签计算教师网络的损失；根据所述第二预测结果和所述标签计算学生网络的损失；将所述教师网络的损失与所述学生网络的损失之和作为所述蒸馏损失。

可选的，所述方法还包括：根据所述教师网络的损失更新所述教师网络。

可选的，多个级联的第一特征单元中最后一个第一特征单元与所述第一分类器连接，将未与所述第一分类器连接的第一特征单元记为第一中间特征单元，所述教师网络还包括至少一个第一辅助分类器，每一第一辅助分类器对应一个或多个级联的第一中间特征单元，所述方法还包括：采用所述第一辅助分类器根据与其对应的第一中间特征单元中最后一个第一中间特征单元输出的特征向量计算第一中间预测结果；根据所述第一中间预测结果和所述标签计算第一中间损失；根据所述第一中间损失更新与所述第一辅助分类器对应的第一中间特征单元。

可选的，多个级联的第二特征单元中最后一个第二特征单元与所述第二分类器连接，将未与所述第二分类器连接的第二特征单元记为第二中间特征单元，所述学生网络还包括至少一个第二辅助分类器，每一第二辅助分类器对应一个或多个级联的第二中间特征单元，所述方法还包括：采用所述第二辅助分类器根据与其对应的第二中间特征单元中最后一个第二中间特征单元输出的特征向量计算第二中间预测结果；根据所述第二中间预测结果和所述标签计算第二中间损失；根据所述第二中间损失更新与所述第二辅助分类器对应的第二中间特征单元。

可选的，将每一第二特征单元计算得到的特征向量聚合至与该第二特征单元对应的第一特征单元计算得到的特征向量之前，所述方法还包括：根据与该第二特征单元对应的第一特征单元计算得到的特征向量的维度，对每一第二特征单元计算得到的特征向量进行维度变换。

可选的，所述第一特征单元包括特征计算子单元和注意力子单元，所述特征计算子单元用于计算得到原始的特征向量；所述注意力子单元用于基于注意力机制对所述原始的特征向量进行处理，以得到处理后的特征向量，所述处理后的特征向量作为所述第一特征单元输出的特征向量。

可选的，针对具备对应关系的第一特征单元和第二特征单元，所述第二特征单元的结构与对应的第一特征单元中特征计算子单元的结构相同。

本发明实施例还提供一种知识蒸馏装置，所述装置包括：获取模块，用于获取样本图像，将所述样本图像分别输入至教师网络和学生网络，所述教师网络包括第一特征提取模块和第一分类器，所述第一特征提取模块包括一个或多个级联的第一特征单元，所述学生网络包括第二特征提取模块和第二分类器，所述第二特征提取模块包括一个或多个级联的第二特征单元，其中，所述第一特征单元与第二特征单元一一对应，所述样本图像具有已标注的标签；特征聚合模块，用于将每一第二特征单元计算得到的特征向量聚合至与该第二特征单元对应的第一特征单元计算得到的特征向量；预测模块，用于采用所述第一分类器根据所述第一特征提取模块输出的特征向量计算第一预测结果，并采用所述第二分类器根据所述第二特征提取模块输出的特征向量计算第二预测结果；损失计算模块，用于根据所述第一预测结果、第二预测结果和所述标签计算蒸馏损失；更新模块，根据所述蒸馏损失更新所述学生网络。

本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述知识蒸馏方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述知识蒸馏方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

在本发明实施例的方案中，根据教师网络得到的第一预测结果、学生网络得到的第二预测结果和样本图像的标签计算蒸馏损失，并根据蒸馏损失更新学生网络，其中，教师网络包括第一特征提取模块，第一特征提取模块包括一个或多个级联的第一特征单元，学生网络包括第二特征提取模块，第二特征提取模块包括一个或多个级联的第二特征单元，第一特征单元与第二特征单元一一对应。采用上述方案时，用于计算蒸馏损失的第一预测结果是根据教师网络中第一特征提取模块输出的特征向量计算得到的，由于每一第二特征单元计算得到的特征向量均聚合至与该第二特征单元对应的第一特征单元计算得到的特征向量，因此，教师网络可以获取到学生网络提取的特征向量，第一预测结果是部分基于学生网络提取的特征向量计算得到的。由于蒸馏损失是根据第一预测结果计算得到的，因此采用蒸馏损失更新学生网络时，可以基于教师网络得到的第一预测结果指导学生网络的更新。由于第一预测结果是部分基于学生网络提取的特征向量计算得到的，因此，基于教师网络得到的第一预测结果指导学生网络的更新可以有效利用教师网络的信息，利于提升学生网络的性能。

附图说明

图1是本发明实施例中一种知识蒸馏方法的场景示意图。

图2是本发明实施例中一种知识蒸馏方法的流程示意图。

图3是本发明实施例中另一种知识蒸馏方法的场景示意图。

图4是本发明实施例中一种知识蒸馏装置的结构示意图。

具体实施方式

如背景技术所述，亟需一种知识蒸馏方法，能够有效利用教师网络的信息，以提升学生网络的性能。

本发明的发明人经过研究发现，经典的知识蒸馏方法是采用教师网络的预测结果监督学生网络的预测结果，也即，根据教师网络的预测结果和学生网络的预测结果计算输出损失函数，并基于输出损失函数更新学生网络。

为了进一步挖掘和利用教师网络的信息，现有技术通常采用教师网络提取到的特征监督学生网络提取到的特征。具体而言，计算教师网络提取到的特征和学生网络提取到的特征之间的特征损失函数，并将该特征损失函数与输出损失函数进行加权组合，根据加权组合后的损失函数对学生网络进行更新。但由于特征损失函数是像素级的优化目标，而输出损失函数是语义级的优化目标，二者较难结合，且这种结合的方法对于学生网络性能的提升效果十分有限。此外，特征损失函数的计算过程十分复杂，在计算特征损失函数的过程中也容易引入额外的噪声信息，采用这样的方案具有很大的局限性。

为了解决这一技术问题，本发明实施例提供一种知识蒸馏方法，在本发明实施例的方案中，在本发明实施例的方案中，根据教师网络得到的第一预测结果、学生网络得到的第二预测结果和样本图像的标签计算蒸馏损失，并根据蒸馏损失更新学生网络，其中，教师网络包括第一特征提取模块，第一特征提取模块包括一个或多个级联的第一特征单元，学生网络包括第二特征提取模块，第二特征提取模块包括一个或多个级联的第二特征单元，第一特征单元与第二特征单元一一对应。采用上述方案时，用于计算蒸馏损失的第一预测结果是根据教师网络中第一特征提取模块输出的特征向量计算得到的，由于每一第二特征单元计算得到的特征向量均聚合至与该第二特征单元对应的第一特征单元计算得到的特征向量，因此，教师网络可以获取到学生网络提取的特征向量，第一预测结果是部分基于学生网络提取的特征向量计算得到的。由于蒸馏损失是根据第一预测结果计算得到的，因此采用蒸馏损失更新学生网络时，可以基于教师网络得到的第一预测结果指导学生网络的更新。由于第一预测结果是部分基于学生网络提取的特征向量计算得到的，因此，基于教师网络得到的第一预测结果指导学生网络的更新可以有效利用教师网络的信息，利于提升学生网络的性能。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

参考图1，图1是本发明实施例中一种知识蒸馏方法的场景示意图。所述知识蒸馏方法的目的在于将结构复杂的神经网络中的暗知识迁移至结构简单的神经网络中，以使结构简单的神经网络能够具有结构复杂的神经网络的处理性能。本发明实施例的方案中，结构复杂的神经网络为教师网络，结构简单的神经网络为学生网络。

如图1所示，教师网络可以包括第一特征提取模块11和第一分类器12，第一特征提取模块11和第一分类器12连接，其中，第一特征提取模块11可以用于计算样本图像10的特征向量，第一分类器12可以用于根据特征向量计算教师网络对样本图像10的预测结果。换言之，第一特征提取模块11的输入为样本图像10，其输出为样本图像10的特征向量，第一分类器12的输入为样本图像10的特征向量，其输出为教师网络对样本图像10的预测结果，其中，教师网络对样本图像10的预测结果可以记为第一预测结果。

进一步地，教师网络还可以包括第一输入模块(图未示)，第一输入模块与第一特征提取模块11连接，第一输入模块可以用于获取样本图像10，并将样本图像10传输至第一特征提取模块11。

进一步地，第一特征提取模块11可以包括多个级联的第一特征单元。具体而言，第一特征提取模块11可以包括级联的N个第一特征单元，具体为第1个第一特征单元110、第2个第一特征单元111……第N个第一特征单元113，其中，N为正整数，N≥2，N为第一特征单元的数量。其中，第1个第一特征单元110可以与第一输入模块连接，以从第一输入模块处获取样本图像10，第N个第一特征单元113可以与第一分类器12连接，以将第一特征提取模块11输出的特征向量传输至第一分类器12。其中，每个第一特征单元基于自身的输入进行特征向量的计算。

更具体地，每个第一特征单元是用于计算特征向量的神经网络，每个第一特征单元可以包括一个或多个中间层，所述一个或多个中间层可以包括卷积层(Convolutionallayer)，还可以包括池化层(Pooling layer)，但并不限于此。第一特征单元可以是各种现有的恰当的神经网络，例如，残差网络(ResNets)、视觉几何组(Visual Geometry Group，VGG)网络等，但并不限于此。

进一步地，学生网络可以包括第二特征提取模块21和第二分类器22，第二特征提取模块21和第二分类器22连接，其中，第二特征提取模块21可以用于计算样本图像10的特征向量，第二分类器22可以用于根据特征向量计算学生网络对样本图像10的预测结果。其中，学生网络对样本图像10的预测结果可以记为第二预测结果。

进一步地，学生网络还可以包括第二输入模块(图未示)，第二输入模块与第二特征提取模块21连接，第二输入模块可以用于获取样本图像10，并将样本图像10传输至第二特征提取模块21。

进一步地，第二特征提取模块21可以包括多个级联的第二特征单元，第一特征提取模块11中第一特征单元的数量与第二特征提取模块21中第二特征单元的数量相同。具体而言，第二特征提取模块21可以包括级联的N个第二特征单元，具体为第1个第二特征单元210、第2个第二特征单元211……第N个第二特征单元213。其中，第1个第二特征单元210与第二输入模块连接，以从第二输入模块获取样本图像10，第N个第二特征单元213与第二分类器22连接，以将第二特征提取模块21输出的特征向量传输至第二分类器22。其中，每个第二特征单元基于自身的输入进行特征向量的计算。

更具体地，每一第二特征单元是用于计算特征向量的神经网络，每一第二特征单元可以包括一个或多个中间层，所述一个或多个中间层可以包括卷积层，还可以包括池化层，但并不限于此。

进一步地，第一特征单元与第二特征单元一一对应。具体而言，第i个第一特征单元与第i个第二特征单元具有对应关系，其中，i为正整数，1≤i≤N。

需要说明的是，第二特征单元和与其对应的第一特征单元相比，第二特征单元的结构通常更加简单。例如，第i个第二特征单元的深度小于第i个第一特征单元的深度，但并不限于此。其中，深度是指包含的中间层的数量。

在本发明的一个非限制性实施例中，第一特征提取模块11包括单个第一特征单元，第二特征提取模块21包括单个第二特征单元，则该第一特征单元和第二特征单元具备对应关系。

在本发明实施例的方案中，将每一第二特征单元计算得到的特征向量聚合至与该第二特征单元对应的第一特征单元计算得到的特征向量，并将聚合后得到的特征向量作为该第一特征单元的输出，从而得到第一特征提取模块11输出的特征向量，更多的具体内容将在下文中具体描述。

参考图2，图2是本发明实施例中一种知识蒸馏方法的流程示意图。所述方法可以由终端执行，所述终端可以是各种恰当的终端，例如，手机、电脑、物联网设备等，但并不限于此。所述教师网络可以是经过预先训练的，也可以是部分训练的，还可以是完全未经过训练的，所述学生网络可以是经过预先训练的，可以是部分训练的，还可以是完全未经过训练的，本发明实施例对此并不进行任何限制。

本发明实施例的方案可以应用于计算能力有限且对时延要求较高，需要对深度神经网络进行模型压缩的场景。具体而言，大部分的计算机视觉任务对于计算的准确度和实时性的要求都比较高，为了满足计算准确度的要求，通常将复杂的深度神经网络部署在服务器等计算设备上，在处理计算机视觉任务时，需要将边缘设备(例如，移动终端、可穿戴设备等)获取到的图像上传至服务器，服务器计算完成后再将计算结果传输给边缘设备，这一过程耗时较长无法满足计算机视觉任务低时延的要求。为了满足低时延的要求，可以在边缘设备上部署复杂的深度神经网络，但边缘设备的计算能力和内存空间通常都远远小于服务器等计算设备，较难部署复杂的深度神经网络。为了兼顾计算的准确性和实时性，需要对复杂的神经网络进行模型压缩后部署在边缘设备上，以使得边缘设备可以根据其获取到的图像自行完成计算机视觉任务。

例如，自动驾驶场景中，自动驾驶车辆的摄像头捕捉到道路画面后需要对画面进行分割，从中分出路面、路基、车辆、行人等不同物体，从而保持车辆行驶在正确的区域，因此需要在摄像头侧部署能够快速实时对画面进行正确的语义分割的深度神经网络。又例如人脸识别的应用场景中，在高铁、机场、小区等入口的闸机上，摄像头会拍摄人脸图像并使用深度神经网络提取人脸特征，然后和存储在系统中的身份证件的人脸特征进行相似度计算；如果相似度高就验证成功。其中，提取人脸特征是耗时较长的，因此需要在闸机侧部署能够快速准确地进行人脸特征提取的深度神经网络。

图2所示的知识蒸馏方法可以包括以下步骤：

步骤S101：获取样本图像，将所述样本图像分别输入至教师网络和学生网络，所述教师网络包括第一特征提取模块和第一分类器，所述第一特征提取模块包括一个或多个级联的第一特征单元，所述学生网络包括第二特征提取模块和第二分类器，所述第二特征提取模块包括一个或多个级联的第二特征单元，其中，所述第一特征单元与第二特征单元一一对应，所述样本图像具有已标注的标签；

步骤S102：将每一第二特征单元计算得到的特征向量聚合至与该第二特征单元对应的第一特征单元计算得到的特征向量；

步骤S103：采用所述第一分类器根据所述第一特征提取模块输出的特征向量计算第一预测结果，并采用所述第二分类器根据所述第二特征提取模块输出的特征向量计算第二预测结果；

步骤S104：根据所述第一预测结果、第二预测结果和所述标签计算蒸馏损失；

步骤S105：根据所述蒸馏损失更新所述学生网络。

在步骤S101的具体实施中，可以从外部获取样本图像，也可以从存储在本地的数据集中获取样本图像，但并不限于此。

进一步地，样本图像具有已标注的标签，所述标签的形式可以根据实际的应用场景决定。例如，应用场景为人脸识别场景，则标签为样本图像中人脸的身份；又例如，应用场景为目标检测场景，则标签为用于指示目标位置和类别的图形，但并不限于此。其中，标签可以是预先标注出的，也可以是终端获取到样本图像后进行标注的，例如，标签可以是人工操作终端进行标注的，也可以是利用其他各种恰当的模型对样本图像进行处理后标注出的。

进一步地，可以将样本图像分别输入至教师网络和学生网络。其中，教师网络可以包括第一特征提取模块和第一分类器，第一特征提取模块可以包括一个或多个级联的第一特征单元，学生网络可以包括第二特征提取模块和第二分类器，第二特征提取模块可以包括一个或多个级联的第二特征单元，其中，第一特征单元与第二特征单元一一对应。更多关于教师网络和学生网络的结构的描述可以参照上文关于图1的相关描述，在此不再赘述。

在步骤S102的具体实施中，第一特征单元和第二特征单元分别根据各自的输入计算特征向量，其中，可以将每一第二特征单元计算得到的特征向量聚合至与该第二特征单元对应的第一特征单元计算得到的特征向量。需要说明的是，将每一第二特征单元计算得到的特征向量聚合至与该第二特征单元对应的第一特征单元计算得到的特征向量是指，计算每一第二特征单元计算得到的特征向量与对应的第一特征单元计算得到的特征向量之和，并将所述和作为该第一特征单元输出的特征向量。

具体而言，如果第一特征提取模块包括单个第一特征单元，且第二特征提取模块包括单个第二特征单元，则可以采用该第一特征单元和该第二特征单元分别计算样本图像的特征向量，再将该第二特征单元计算得到的特征向量聚合至该第一特征单元计算得到的特征向量，以得到该第一特征单元输出的特征向量。由此，第一特征提取模块输出的特征向量即为该第一特征单元输出的特征向量，第二特征提取模块输出的特征向量即为该第二特征单元输出的特征向量。

进一步地，如果第一特征提取模块包括N个级联的第一特征单元，第二特征提取模块包括N个级联的第二特征单元，第i个第一特征单元与第i个第二特征单元对应，则可以将第i个第二特征单元计算得到的特征向量聚合至第i个第一特征单元计算得到的特征向量，以得到第i个第一特征单元输出的特征向量。

更进一步地，第i+1个第一特征单元可以基于第i个第一特征单元输出的特征向量继续进行特征向量的计算，再将第i+1个第二特征单元计算得到的特征向量聚合至第i+1个第一特征单元计算得到的特征向量，以得到第i+1个第一特征单元输出的特征向量。依次递推，直至将第N个第二特征单元计算得到的特征向量聚合至第N个第一特征单元，以得到第N个第一特征单元输出的特征向量，其中，第N个第一特征单元输出的特征向量即为第一特征提取模块输出的特征向量。

需要说明的是，第i+1个第二特征单元基于第i个第二特征向量计算得到的特征向量继续进行特征向量的计算，以得到第i+1个第二特征单元计算得到的特征向量。依次递推，直至得到第N个第二特征单元计算得到特征向量。其中，第N个第二特征单元计算得到的特征向量即为第二特征提取模块输出的特征向量。

考虑到第一特征单元的通道数通常大于对应的第二特征单元的通道数，本发明实施例的方案中，将每一第二特征单元计算得到的特征向量聚合至与该第二特征单元对应的第一特征单元计算得到的特征向量之前，还可以对每一第二特征单元计算得到的特征向量进行维度变换。

具体而言，对于每一第二特征单元计算得到的特征向量，可以根据与该第二特征单元对应的第一特征单元计算得到的特征向量的维度，对该第二特征单元计算得到的特征向量进行维度变换。也即，对第二特征单元计算得到的特征向量进行维度变换，以使得变换后的特征向量的维度与对应的第一特征单元计算得到的特征向量的维度相同，从而可以进行特征聚合。

在本发明的一个非限制性实施例中，第一特征单元基于注意力机制(AttentionMechanism)计算得到特征向量。具体而言，每一第一特征单元可以包括特征计算子单元和注意力子单元，特征计算子单元用于计算得到原始的特征向量，其中，所述原始的特征向量是指由特征计算子单元根据该第一特征单元的输入计算得到的特征向量。进一步地，注意力子单元用于基于注意力机制对所述原始的特征向量进行处理，以得到处理后的特征向量，其中，所述处理后的特征向量即为该第一特征单元计算得到的特征向量。注意力子单元基于注意力机制计算对所述原始的特征向量进行处理的方法可以是现有的各种恰当的方法，本发明实施例对此并不进行任何限制。

进一步地，针对具备对应关系的第一特征单元和第二特征单元，第二特征单元的结构与对应的第一特征单元中特征子单元的结构可以是相同的。具体而言，针对具备对应关系的第一特征单元和第二特征单元，第二特征单元与对应的第一特征单元中特征子单元包括相同的中间层。更具体地，第二特征单元的中间层与对应的第一特征单元中特征子单元的中间层数量相同且一一对应，具备对应关系的中间层的通道数相同。换言之，第i个第一特征单元的结构是在第i个第二特征单元的结构的基础上，增加了注意力子单元。

需要说明的是，由于第i个第一特征单元中的特征子单元的结构与第i个第二特征单元的结构相同，因此，第i个第一特征单元中特征子单元计算得到的特征向量(也即，上述的“原始的特征向量”)的维度与第i个第二特征单元计算得到的特征向量的维度相同。可以理解的是，注意力子单元是基于注意力机制对原始的特征向量进行处理，这一处理过程并不会改变原始的特征向量的维度，因此，第i个第一特征单元计算得到的特征向量的维度与第i个第二特征单元计算得到的特征向量的维度相同。由此，在进行特征聚合前无需进行维度变换，可以避免引入额外的冗余信息，也简化了计算过程，提高了知识蒸馏的效率。

在步骤S103的具体实施中，可以采用第一分类器根据第一特征提取模块输出的特征向量计算第一预测结果，其中，第一分类器可以包括全连接层，第一分类器可以是现有的各种恰当的分类器，本发明实施例对第一分类器的结构等并不进行任何限制。

进一步地，可以采用第二分类器根据第二特征提取模块输出的特征向量计算第二预测结果。更多关于第二分类器的描述可以参照上文关于第一分类器的相关描述，在此不再赘述。

在步骤S104的具体实施中，可以根据第一预测结果、第二预测结果和样本图像的标签计算蒸馏损失函数的值，蒸馏损失函数的值可以记为蒸馏损失。其中，蒸馏损失函数是指用于更新学生网络的损失函数，所述蒸馏损失函数可以是预先定义的。

在本发明的一个非限制性实施例中，蒸馏损失可以基于如下公式计算得到：Loss＝H(y，p^T)+H(y，p^S)，其中，Loss为蒸馏损失，H(y，p^T)为第一预测结果和样本图像的标签之间的交叉熵(Cross Entropy)，记为教师网络的损失，H(y，p^S)为第二预测结果和样本图像的标签之间的交叉熵，记为学生网络的损失。其中，H(y，p^T)可以根据第一预测结果和标签计算教师网络的损失计算得到，H(y，p^S)可以根据第二预测结果和标签计算得到。由此，教师网络的损失与学生网络的损失之和即为用于更新学生网络的蒸馏损失。需要说明的是，根据第一预测结果和标签计算教师网络的损失的具体方法以及根据第二预测结果和标签计算学生网络的损失的具体方法可以是现有的各种恰当的方法，本发明实施例对此不进行任何限制。

在步骤S105的具体实施中，可以根据蒸馏损失更新学生网络。具体而言，可以根据蒸馏损失调整学生网络的连接权重，更具体地，可以调整第二特征提取模块中的连接权重，还可以根据蒸馏损失对学生网络进行其他恰当的操作，例如，调整第二分类器中的连接权重，但并不限于此。其中，调整学生网络的方法可以是现有的各种恰当的方法，例如，可以采用梯度下降法调整学生网络的连接权重，但并不限于此。

进一步地，还可以根据教师网络的损失更新教师网络。具体而言，可以根据教师网络的损失调整教师网络的连接权重，更具体地，可以调整第二特征提取模块的连接权重，还可以根据教师网络的损失对学生网络进行其他恰当的操作，例如，调整第一分类器中的连接权重，但并不限于此。其中，调整教师网络的方法可以是现有的各种恰当的方法，例如，可以采用梯度下降法调整教师网络的连接权重。需要说明的是，本发明实施例对于更新学生网络和更新教师网络的先后顺序并不进行限制。

由上，本发明实施例的方案中，既根据蒸馏损失更新学生网络，又根据教师网络的损失更新教师网络，也即对教师网络和学生网络进行联合训练。可以理解的是，每将一张样本图像分别输入至教师网络和学生网络，学生网络和教师网络均被更新一次，则完成一次联合训练。通过先后将多张样本图像分别输入至教师网络和学生网络，以进行多次的联合训练。通过多次的联合训练可以使学生网络充分学习到教师网络的训练过程。

进一步地，当学生网络的损失小于第一预设阈值时，可以得到训练后的学生网络，训练后的学生网络可以包括训练后的第二特征提取模块，还可以包括训练后的第二分类器。其中，第一预设阈值可以是预先设置的。需要说明的是，训练后的学生网络在执行计算机视觉任务时，无需再将第二特征单元计算得到的特征向量聚合至对应的第一特征单元。也即，训练后的学生网络可以单独用于执行计算机视觉任务，无需教师网络的参与。

在本发明的一个非限制性实施例中，还可以对学生网络进行测试，在测试过程中也是对学生网络单独进行测试，也即，教师网络不参与测试过程。如果学生网络在测试集上的准确率超过第二预设阈值，则可以得到训练后的学生网络，其中，第二预设阈值可以是预先设置的。

进一步地，本发明实施例的方案中，学生网络还可以包括至少一个第二辅助分类器，每一第二辅助分类器对应一个或多个级联的第二中间特征单元，其中，第二中间特征单元为未与第二分类器连接的第二特征单元。具体而言，第二特征提取模块包括N个级联的第二特征单元，第N个第二特征单元与第二分类器连接，可以将第1个第二特征单元至第N-1个第二特征单元为第二中间特征单元，至少一个第二中间特征单元与第二辅助分类器连接。其中，N为正整数。

进一步地，每一第二辅助分类器对应的一个或多个级联的第二中间特征单元可以包括与该第二辅助分类器连接的第二中间特征单元，也可以包括该第二中间特征单元之前的第二中间特征单元，例如，位于该第二中间特征单元之前且位于与前一个第二辅助分类器连接的第二中间特征单元之后的第二中间特征单元，但并不限于此。

进一步地，在步骤S105的具体实施中，还可以采用第二辅助分类器根据与其对应的第二中间特征单元中最后一个第二中间特征单元输出的特征向量计算第二中间预测结果，其中，对应的第二中间特征单元中最后一个第二中间特征单元即为与该第二辅助分类器连接的第二中间特征单元。

进一步地，可以根据第二中间预测结果和样本图像的标签计算第二中间损失，并根据第二中间损失更新与第二辅助分类器对应的一个或多个第二中间特征单元。由此，可以在知识蒸馏的过程中还对学生网络中各个第二特征单元进行标签监督，有利于提高知识蒸馏的效率。需要说明的是，第二辅助分类器可以是各种现有的恰当的分类器，计算第二中间损失的方法也可以是现有的各种恰当的方法，在此不再赘述。

进一步地，本发明实施例的方案中，教师网络还可以包括至少一个第一辅助分类器，每一第一辅助分类器对应一个或多个级联的第一中间特征单元，其中，第一中间特征单元为未与第一分类器连接的第一特征单元。具体而言，第一特征提取模块包括N个级联的第一特征单元，第N个第一特征单元与第一分类器连接，可以将第1个第一特征单元至第N-1个第一特征单元记为第一中间特征单元，至少一个第一中间特征单元与第一辅助分类器连接。其中，N为正整数。

进一步地，每一第一辅助分类器对应的一个或多个第一中间特征单元可以包括与该第一辅助分类器连接的第一中间特征单元，也可以包括该第一中间特征单元之前的第一中间特征单元，例如，位于该第一中间特征单元之前且位于与前一个第一辅助分类器连接的第一中间特征单元之后的第一中间特征单元，但并不限于此。

进一步地，在步骤S105的具体实施中，还可以采用第一辅助分类器根据与其对应的第一中间特征单元中最后一个第一中间特征单元输出的特征向量计算第一中间预测结果，其中，对应的第一中间特征单元中最后一个第一中间特征单元即为与该第一辅助分类器连接的第一中间特征单元。

进一步地，可以根据第一中间预测结果和样本图像的标签计算第一中间损失，并根据第一中间损失更新与该第一辅助分类器对应的一个或多个第一中间特征单元。由此，可以在知识蒸馏的过程中对教师网络中各个第一特征单元进行标签监督，有利于提高知识蒸馏的效率。需要说明的是，第一辅助分类器可以是各种现有的恰当的分类器，计算第一中间损失的方法也可以是现有的各种恰当的方法，在此不再赘述。

需要说明的是，本发明实施例的方案中，对于根据蒸馏损失更新学生网络、根据教师网络的损失更新教师网络、根据第一中间损失更新第一中间特征单元以及更新第二中间损失更新第二中间特征单元的顺序并不进行限制。

参考图3，图3是本发明实施例中另一种知识蒸馏方法的场景示意图。如图3所示，第N个第一特征单元113与第一分类器12连接，则未与第一分类器12连接的第1个第一特征单元110、第2个第一特征单元111……直至第N-1个第一特征单元112为第一中间特征单元。类似的，第N个第二特征单元213与第二分类器22连接，则未与第二分类器22连接的第1个第二特征单元210、第2个第二特征单元211……直至第N-1个第二特征单元212为第二中间特征单元。其中，第一辅助分类器与第一中间特征单元一一对应，且第二辅助分类器与第二中间特征单元一一对应。

更具体地，第1个第一辅助分类器130与第1个第一特征单元110连接，第2个第一辅助分类器131与第2个第一特征单元111连接……直至第N-1个第一辅助分类器132与第N-1个第一特征单元112连接；此外，第1个第二辅助分类器230与第1个第二特征单元210连接，第2个第二辅助分类器231与第2个第二特征单元211连接……直至第N-1个第二辅助分类器232与第N-1个第二特征单元212连接。也即，第j个第一辅助分类器的输入与第j个第一特征单元的输出连接，第j个第一辅助分类器对应于第j个第一特征单元，第j个第二辅助分类器的输入与第j个第二特征单元的输出连接，第j个第二辅助分类器对应于第j个第二特征单元，其中，j为正整数，且1≤j≤N-1。换言之，每个第一辅助分类器对应于与其连接的第一中间特征单元，每个第二辅助分类器对应于与其连接的第二中间特征单元。

进一步地，在执行上述步骤S105时，可以根据每个第一辅助分类器计算第一中间预测结果，根据第一中间预测结果计算第一中间损失，并根据第一中间损失更新与该第一辅助分类器连接的第一中间特征单元。还可以根据每个第二辅助分类器计算第二中间预测结果，根据第二中间预测结果计算第二中间损失，并根据第二中间损失更新与该第二辅助分类器连接的第二中间特征单元。

由此，本发明实施例的方案中，在知识蒸馏的过程中，具有对应关系的第一特征单元和第二特征单元接受相同的标签监督，可以使学生网络更好地学习到教师网络的训练过程，从而进一步提升学生网络的性能。

参考图4，图4是本发明实施例中一种知识蒸馏装置的结构示意图，所述装置可以包括：获取模块41、特征聚合模块42、预测模块43、损失计算模块44和更新模块45。

其中，获取模块41可以用于获取样本图像，将所述样本图像分别输入至教师网络和学生网络，所述教师网络包括第一特征提取模块和第一分类器，所述第一特征提取模块包括一个或多个级联的第一特征单元，所述学生网络包括第二特征提取模块和第二分类器，所述第二特征提取模块包括一个或多个级联的第二特征单元，其中，所述第一特征单元与第二特征单元一一对应，所述样本图像具有已标注的标签；特征聚合模块42可以用于将每一第二特征单元计算得到的特征向量聚合至与该第二特征单元对应的第一特征单元计算得到的特征向量；预测模块43可以用于采用所述第一分类器根据所述第一特征提取模块输出的特征向量计算第一预测结果，并采用所述第二分类器根据所述第二特征提取模块输出的特征向量计算第二预测结果；损失计算模块44可以用于根据所述第一预测结果、第二预测结果和所述标签计算蒸馏损失；更新模块45可以用于根据所述蒸馏损失更新所述学生网络。

关于上述一种知识蒸馏装置的工作原理、工作过程和有益效果等更多内容，可以参照上文关于图1至图3的相关描述，在此不再赘述。本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述知识蒸馏方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。

本发明实施例还公开了一种终端，所述终端可以包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序。所述处理器运行所述计算机程序时可以执行上述知识蒸馏方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。

应理解，本申请实施例中，所述处理器可以为中央处理单元(central processingunit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor，简称DSP)、专用集成电路(application specific integrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器(programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种知识蒸馏方法，其特征在于，所述方法包括：

获取样本图像，将所述样本图像分别输入至教师网络和学生网络，所述教师网络包括第一特征提取模块和第一分类器，所述第一特征提取模块包括多个级联的第一特征单元，所述学生网络包括第二特征提取模块和第二分类器，所述第二特征提取模块包括多个级联的第二特征单元，其中，所述第一特征单元与第二特征单元一一对应，所述样本图像具有已标注的标签；将每一第二特征单元计算得到的特征向量聚合至与该第二特征单元对应的第一特征单元计算得到的特征向量；

采用所述第一分类器根据所述第一特征提取模块输出的特征向量计算第一预测结果，并采用所述第二分类器根据所述第二特征提取模块输出的特征向量计算第二预测结果；

根据所述第一预测结果、第二预测结果和所述标签计算蒸馏损失；

根据所述蒸馏损失更新所述学生网络；

其中，所述多个级联的第一特征单元中最后一个第一特征单元与所述第一分类器连接，将未与所述第一分类器连接的第一特征单元记为第一中间特征单元，所述教师网络还包括至少一个第一辅助分类器，每一第一辅助分类器对应一个或多个级联的第一中间特征单元，所述方法还包括：

采用所述第一辅助分类器根据与其对应的第一中间特征单元中最后一个第一中间特征单元输出的特征向量计算第一中间预测结果；

根据所述第一中间预测结果和所述标签计算第一中间损失；

根据所述第一中间损失更新与所述第一辅助分类器对应的第一中间特征单元；

或者，

所述多个级联的第二特征单元中最后一个第二特征单元与所述第二分类器连接，将未与所述第二分类器连接的第二特征单元记为第二中间特征单元，所述学生网络还包括至少一个第二辅助分类器，每一第二辅助分类器对应一个或多个级联的第二中间特征单元，所述方法还包括：

采用所述第二辅助分类器根据与其对应的第二中间特征单元中最后一个第二中间特征单元输出的特征向量计算第二中间预测结果；

根据所述第二中间预测结果和所述标签计算第二中间损失；

根据所述第二中间损失更新与所述第二辅助分类器对应的第二中间特征单元。

2.根据权利要求1所述的知识蒸馏方法，其特征在于，根据所述第一预测结果、第二预测结果和所述标签计算蒸馏损失包括：

根据所述第一预测结果和所述标签计算教师网络的损失；

根据所述第二预测结果和所述标签计算学生网络的损失；

将所述教师网络的损失与所述学生网络的损失之和作为所述蒸馏损失。

3.根据权利要求2所述的知识蒸馏方法，其特征在于，所述方法还包括：

根据所述教师网络的损失更新所述教师网络。

4.根据权利要求1所述的知识蒸馏方法，其特征在于，将每一第二特征单元计算得到的特征向量聚合至与该第二特征单元对应的第一特征单元计算得到的特征向量之前，所述方法还包括：

根据与该第二特征单元对应的第一特征单元计算得到的特征向量的维度，对每一第二特征单元计算得到的特征向量进行维度变换。

5.根据权利要求1所述的知识蒸馏方法，其特征在于，所述第一特征单元包括特征计算子单元和注意力子单元，

所述特征计算子单元用于计算得到原始的特征向量；

所述注意力子单元用于基于注意力机制对所述原始的特征向量进行处理，以得到处理后的特征向量，所述处理后的特征向量作为所述第一特征单元输出的特征向量。

6.根据权利要求5所述的知识蒸馏方法，其特征在于，

针对具备对应关系的第一特征单元和第二特征单元，所述第二特征单元的结构与对应的第一特征单元中特征计算子单元的结构相同。

7.一种知识蒸馏装置，其特征在于，所述装置包括：

获取模块，用于获取样本图像，将所述样本图像分别输入至教师网络和学生网络，所述教师网络包括第一特征提取模块和第一分类器，所述第一特征提取模块包括多个级联的第一特征单元，所述学生网络包括第二特征提取模块和第二分类器，所述第二特征提取模块包括多个级联的第二特征单元，其中，所述第一特征单元与第二特征单元一一对应，所述样本图像具有已标注的标签；

特征聚合模块，用于将每一第二特征单元计算得到的特征向量聚合至与该第二特征单元对应的第一特征单元计算得到的特征向量；

预测模块，用于采用所述第一分类器根据所述第一特征提取模块输出的特征向量计算第一预测结果，并采用所述第二分类器根据所述第二特征提取模块输出的特征向量计算第二预测结果；

损失计算模块，用于根据所述第一预测结果、第二预测结果和所述标签计算蒸馏损失；

更新模块，根据所述蒸馏损失更新所述学生网络；

其中，所述多个级联的第一特征单元中最后一个第一特征单元与所述第一分类器连接，将未与所述第一分类器连接的第一特征单元记为第一中间特征单元，所述教师网络还包括至少一个第一辅助分类器，每一第一辅助分类器对应一个或多个级联的第一中间特征单元，所述装置还包括：

第一中间计算模块，用于采用所述第一辅助分类器根据与其对应的第一中间特征单元中最后一个第一中间特征单元输出的特征向量计算第一中间预测结果；

第二中间计算模块，用于根据所述第一中间预测结果和所述标签计算第一中间损失；

第一中间更新模块，用于根据所述第一中间损失更新与所述第一辅助分类器对应的第一中间特征单元；

或者，所述多个级联的第二特征单元中最后一个第二特征单元与所述第二分类器连接，将未与所述第二分类器连接的第二特征单元记为第二中间特征单元，所述学生网络还包括至少一个第二辅助分类器，每一第二辅助分类器对应一个或多个级联的第二中间特征单元，所述装置还包括：

第三中间计算模块，用于采用所述第二辅助分类器根据与其对应的第二中间特征单元中最后一个第二中间特征单元输出的特征向量计算第二中间预测结果；

第四中间计算模块，用于根据所述第二中间预测结果和所述标签计算第二中间损失；

第二中间更新模块，用于根据所述第二中间损失更新与所述第二辅助分类器对应的第二中间特征单元。

8.一种存储介质，其特征在于，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至6中任一项所述知识蒸馏方法的步骤。

9.一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至6中任一项所述知识蒸馏方法的步骤。