CN114037046A

CN114037046A - 神经网络模型的蒸馏方法、装置及电子系统

Info

Publication number: CN114037046A
Application number: CN202111135637.8A
Authority: CN
Inventors: 张培圳; 康子健
Original assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-02-11

Abstract

本发明提供了一种神经网络模型的蒸馏方法、装置及电子系统，涉及人工智能技术领域，获取训练样本图片和该训练样本图片的标注信息；该标注信息用于指示该训练样本图片中物体的属性；通过学生模型对该训练样本图片进行特征提取，得到第一特征；基于该第一特征和该标注信息，通过教师模型处理得到该训练样本图片的第二特征；根据该第一特征和该第二特征确定教师模型和学生模型之间的蒸馏损失；基于该蒸馏损失更新学生模型的参数。本发明可以缓解教师模型和学生模型之间的语义鸿沟问题，提高教师模型向学生模型蒸馏知识的效果。

Description

神经网络模型的蒸馏方法、装置及电子系统

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种神经网络模型的蒸馏方法、装置及电子系统。

背景技术

在模型蒸馏中，并不是老师模型越复杂，蒸馏得到的学生模型学习能力就越好，反而是效果太强的老师模型蒸馏的学生模型的效果会有效果不佳的风险，这被认为是老师-学生之间的语义鸿沟。

为缓解上述语义鸿沟的现象，目前提出了两种解决方式。一种方式是“逐级蒸馏”体系，通过引入效果介于学生模型和老师模型之间的助教模型，先由老师模型蒸馏助教模型，再由助教模型蒸馏学生模型。这种逐级蒸馏的方式通常需要穿插一个以上的助教网络以获得较优效果，从而需要较长的蒸馏时间。另一种方式为“共蒸馏”体系，其通过设计一群网络架构相同的学生模型，并通过不同的初始化使同种架构的学生模型也具有学习偏差，训练时将所有学生模型的预测结果取平均，用此平均结果对每一个学生模型的预测结果进行蒸馏。对其中任意一个学生网络而言，由其他学生网络构成的整体即相当于老师网络。该方式中，多个学生模型彼此架构相近，所以会消泯老师-学生之间一部分语义鸿沟。该方式中所有学生模型并行计算，蒸馏效率较高，但因为没有引入学习能力更强的老师模型，使得该方法的蒸馏效果上限不高。

整体而言，现有用于缓解老师-学生之间语义鸿沟的技术，无法同时兼顾蒸馏时长和蒸馏效果。

发明内容

有鉴于此，本发明的目的在于提供一种神经网络模型的蒸馏方法、装置及电子系统，可以在不增加蒸馏时长的情况下，提升模型蒸馏的效果。

第一方面，本发明实施例提供了一种神经网络模型的蒸馏方法，包括：获取训练样本图片和该训练样本图片的标注信息；该标注信息用于指示该训练样本图片中物体的属性；通过学生模型对该训练样本图片进行特征提取，得到第一特征；基于该第一特征和该标注信息，通过教师模型处理得到该训练样本图片的第二特征；根据该第一特征和该第二特征确定教师模型和学生模型之间的蒸馏损失；基于该蒸馏损失更新学生模型的参数。

在本发明较佳的实施例中，基于该第一特征和该标注信息，通过教师模型处理得到该训练样本图片的第二特征的步骤，包括：基于该第一特征确定训练样本图片中物体的语义特征；基于该标注信息确定该训练样本图片中物体的标签特征；通过教师模型对该语义特征和该标签特征进行交互处理，得到该训练样本图片的第二特征。

在本发明较佳的实施例中，通过教师模型对该语义特征和该标签特征进行交互处理，得到该训练样本图片的第二特征的步骤，包括：根据该训练样本图片中物体的语义特征和标签特征，确定该训练样本图片中物体的实例特征；对该实例特征进行渲染处理，得到该训练样本图片的第二特征。

在本发明较佳的实施例中，根据该训练样本图片中物体的语义特征和标签特征，确定该训练样本图片中物体的实例特征的步骤，包括：将该训练样本图片中所有物体的标签特征堆叠成第一矩阵，将该训练样本图片中所有物体的语义特征堆叠成第二矩阵；复制该第二矩阵得到第三矩阵；将该第一矩阵和该第二矩阵的转置作矩阵乘法后，除以该第一特征的通道数得到第四矩阵；对该第四矩阵的每一行进行归一化处理后，与该第三矩阵作矩阵乘法，得到第五矩阵；将该第五矩阵中每一行的行向量确定为该训练样本图片中物体的实例特征。

在本发明较佳的实施例中，对该实例特征进行渲染处理，得到该训练样本图片的第二特征的步骤，包括：遍历该训练样本图片中的每个物体，将每个物体的实例特征填充到该物体的二值掩膜中值为1的位置，得到该训练样本图片的第二特征。

在本发明较佳的实施例中，该标注信息包括该训练样本图片中物体的位置信息；基于该第一特征确定该训练样本图片中物体的语义特征的步骤，包括：对该训练样本图片中每一个物体均进行下述操作：根据该物体的位置信息构造该物体的第一掩膜；其中，该训练样本图片中该物体的第一掩膜范围内的值为1，该训练样本图片中在该物体的第一掩膜范围之外的其他范围的值为0；将该物体的第一掩膜的尺寸映射至该第一特征的尺寸，得到该物体的第二掩膜；将该第二掩膜与该第一特征相乘后，再进行全局池化，得到该物体的语义特征。

在本发明较佳的实施例中，该标注信息包括该训练样本图片中物体的位置信息和类别信息；基于该标注信息确定该训练样本图片中物体的标签特征的步骤，包括：对该训练样本图片中每一个物体均进行下述操作：根据该物体的位置信息和类别信息构造该物体的描述子向量；将该描述子向量输入预设的编码网络，输出该物体的标签特征。

在本发明较佳的实施例中，根据该物体的位置信息和类别信息构造该物体的描述子向量的步骤，包括：根据该物体的位置信息构造该物体的四维框位置向量，根据该物体的类别信息构造该物体的独热向量；将该四维框位置向量与该独热向量拼接，得到该物体的描述子向量。

在本发明较佳的实施例中，该预设的编码网络为点云网络、多层感知机网络和Transformer Encoder中的一种。

在本发明较佳的实施例中，该学生模型和该教师模型均为物体检测模型；基于该蒸馏损失更新该学生模型的参数的步骤，包括：获取该学生模型执行物体检测任务的第一任务损失；根据该第一任务损失和该蒸馏损失更新该学生模型的参数。

在本发明较佳的实施例中，在基于该第一特征和该标注信息，通过教师模型处理得到该训练样本图片的第二特征的步骤之后，该方法还包括：根据该第二特征确定该教师模型执行物体检测任务的第二任务损失；根据该第二任务损失更新该教师模型的参数。

在本发明较佳的实施例中，该学生模型的特征提取骨干网络为残差网络-特征金字塔网络ResNet-50-FPN。

在本发明较佳的实施例中，该教师模型的初始网络为多头注意力网络。

第二方面，本发明实施例还提供了一种神经网络模型的蒸馏装置，包括：样本获取模块，用于获取训练样本图片和该训练样本图片的标注信息；该标注信息用于指示该训练样本图片中物体的属性；第一特征提取模块，用于通过学生模型对该训练样本图片进行特征提取，得到第一特征；第二特征提取模块，用于基于该第一特征和该标注信息，通过教师模型处理得到该训练样本图片的第二特征；蒸馏损失确定模块，用于根据该第一特征和该第二特征确定该教师模型和该学生模型之间的蒸馏损失；参数更新模块，用于基于该蒸馏损失更新该学生模型的参数。

第三方面，本发明实施例还提供了该电子系统包括：处理设备和存储装置；该存储装置上存储有计算机程序，该计算机程序在被该处理设备运行时执行上述神经网络模型的蒸馏方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述神经网络模型的蒸馏方法。

本发明实施例带来了以下有益效果：

本发明实施例提供的一种神经网络模型的蒸馏方法、装置及电子系统，首先获取训练样本图片和该训练样本图片的标注信息；该标注信息用于指示该训练样本图片中物体的属性；通过学生模型对该训练样本图片进行特征提取，得到第一特征；然后基于该第一特征和该标注信息，通过教师模型处理得到该训练样本图片的第二特征；根据该第一特征和该第二特征确定教师模型和学生模型之间的蒸馏损失；并基于该蒸馏损失更新学生模型的参数。该方式中，由于教师模型的输入信息包含真实的标注信息，因而训练得到教师模型必然比学生模型有更好的预测效果，可以作为“老师”用于监督学生模型的学习；并且，通过将学生模型提取的第一特征作为教师模型的输入信息以生成第二特征，使得该第二特征中也携带部分该第一特征中蕴含的学生模型的“模型知识”，因而基于该第二特征训练得到的教师模型与学生模型之间具有一定的内在关联，消弭了教师模型和学生模型之间的一部分语义鸿沟，从而提高教师模型向学生模型蒸馏知识的效果。本申请提供的蒸馏方式相比于“逐级蒸馏”的方式，因未增加中间蒸馏级层，因而蒸馏时间较快；相比于“共蒸馏”的方式，因为引入了比学生模型学习能力更强的教师模型用于蒸馏，因而蒸馏效果更好。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子系统的结构示意图；

图2为本发明实施例提供的一种神经网络模型的蒸馏方法的流程示意图；

图3为本发明实施例提供的另一种神经网络模型的蒸馏方法的流程示意图；

图4为本发明实施例提供的一种蒸馏架构示意图；

图5为本发明实施例提供的一种神经网络模型的蒸馏装置的结构示意图。

图标：100-电子系统；102-处理设备；104-存储装置；106-输入装置；108-输出装置；110-图像采集设备；112-总线系统；51-样本获取模块；52-第一特征提取模块；53-第二特征提取模块；54-蒸馏损失确定模块；55-参数更新模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

人工智能相关技术中，模型蒸馏起源于让大模型(老师)对小模型(学生)进行知识蒸馏后,将本身速度快但精度不足的小模型进行增强，以达到科研及业务部署的目标。近年来，研究者发现效果太强的老师模型蒸馏的学生模型的效果反而会有效果不佳的风险，这被认为是老师-学生之间的语义鸿沟。考虑到目前提出的两种解决方式(逐级蒸馏法和共蒸馏法)要么需要较长的蒸馏时长，要么蒸馏效果不佳的问题，本发明实施例提供了一种神经网络模型的蒸馏方法、装置及电子系统，其可以在不增加蒸馏时长的情况下，提升模型蒸馏的效果，该技术可以应用于物体检测、对象识别等模型训练的应用场景中。

实施例一：

首先，参照图1来描述用于实现本发明实施例的特征提取方法、装置和电子系统的示例电子系统100。

如图1所示的一种电子系统的结构示意图，电子系统100包括一个或多个处理设备102、一个或多个存储装置104。可选的，电子系统还可以包括输入装置106、输出装置108，另外可以包括一个或多个图像采集设备110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子系统100的组件和结构只是示例性的，而非限制性的，根据需要，电子系统也可以具有其他组件和结构。

处理设备102可以是服务器，也可以为智能终端，或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对电子系统100中的其它组件的数据进行处理，还可以控制电子系统100中的其它组件以执行期望的功能。

存储装置104可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理设备102可以运行程序指令，以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

图像采集设备110可以采集预览视频帧或图片数据(如待检测图像或目标视频帧)，并且将采集到的预览视频帧或图像数据存储在存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的特征提取方法、装置和电子系统的示例电子系统中的各器件可以集成设置，也可以分散设置，诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体，而将图像采集设备110设置于可以采集到图片的指定位置。当上述电子系统中的各器件集成设置时，该电子系统可以被实现为机器人或服务器，或者还可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端、摄像机等智能终端。

实施例二：

参见图2所示的一种神经网络模型的蒸馏方法的流程示意图，由图2可见，该方法包括如下步骤：

步骤S202：获取训练样本图片和该训练样本图片的标注信息；该标注信息用于指示该训练样本图片中物体的属性。

上述训练样本图片用于训练学生模型和教师模型，其中，该学生模型通过知识蒸馏的方式向该教师模型学习。该学生模型和教师模型的训练以执行特定的任务为背景，例如，可以是进行物体检测任务或者对象识别任务等。

训练样本图片的标注信息是关于图片中物体的属性的信息，在物体检测模型训练场景下，该标注信息可以是图片中物体的位置信息、类别信息等，其中，该位置信息可以以矩形框的形式标注。这里，该训练样本图片中的物体可以是动物、人、物品等等。

步骤S204：通过学生模型对该训练样本图片进行特征提取，得到第一特征。

学生模型相对于教师模型而言是更轻量更简单的模型，而教师模型相对为更复杂的模型，例如其可以是组合模型。以物体检测模型的训练场景为例，学生模型和教师模型均为物体检测模型，在其中一种可能的实施方式中，它们可以为单阶段(one-stage)检测器，诸如SSD(Single Shot MultiBox Detector，单阶段多框检测器)、YOLO(You Only LookOnce:Unified,Real-Time Object Detection，基于单个神经网络的目标检测系统)等，也可以是两阶段(two-stage)检测器，诸如CNN(Convolutional Neural Network，卷积神经网络)、Fast-RCNN(Faster Region-based Convolutional Neural Network，超快速神经网络)等。通过学生模型对该训练样本图片进行特征提取，可以得到学生模型提取的第一特征。

步骤S206：基于该第一特征和该标注信息，通过教师模型处理得到该训练样本图片的第二特征。

对于传统的模型蒸馏方式而言，教师模型通常是预先训练好之后，用于对学生模型进行知识蒸馏，而在对学生模型进行蒸馏的过程中，学生模型本身的模型信息并不会影响到教师模型的参数更新，也即教师模型是对学生模型单向的知识传递，而不存在学生模型对教师模型的影响，这就使得教师模型和学生模型之间的语义鸿沟难以得到消弭。

相比之下，本实施例中的教师模型并不是预先训练好，而是在对学生模型进行蒸馏的过程中动态生成。这里，以该学生模型和该教师模型均为物体检测模型为例，在处理得到该训练样本图片的第二特征之后，还根据该第二特征确定该教师模型执行物体检测任务的第二任务损失，并根据该第二任务损失更新该教师模型的参数。其中，上述确定第二任务损失的过程，可以先将该第二特征输入到预设的解码器中，输出教师模型的标注预测结果，进而基于该标注预测结果和前述标注信息的真实值计算得到第二任务损失。

在对该教师模型训练的过程中，由于教师模型生成该第二特征是以学生模型提取的第一特征为输入之一，该第一特征图携带学生模型本身的信息，因而学生模型的自身信息会通过该第二特征反馈到教师模型，并在基于该第二特征计算教师模型的任务损失过程中对教师模型产生影响，使得教师模型和学生模型之间产生内在的关联，从而消弭教师模型和学生模型之间的语义鸿沟。

步骤S208：根据该第一特征和该第二特征确定教师模型和学生模型之间的蒸馏损失。

模型蒸馏的实施最常见的是两种方式，一种是在输出层进行蒸馏，一种是对中间特征图进行蒸馏。本实施例是通过中间特征图计算蒸馏损失，在其中一种可能的实施方式中，可以将上述第二特征与第一特征使用通道蒸馏损失进行监督。

步骤S210：基于该蒸馏损失更新学生模型的参数。

以物体检测模型的训练场景为例，模型蒸馏学习的损失函数可以分为两个部分，一部分是学生模型和教师模型之间的蒸馏损失(也可以称为自适应迁移损失)，另一部分是学生模型执行物体检测任务的任务损失。因此，可以获取该学生模型执行物体检测任务的第一任务损失，并根据该第一任务损失和该蒸馏损失更新该学生模型的参数。

这里，可通过下式确定学生模型的整体损失函数：

L＝L_task+L_distill

其中，L为学生模型在蒸馏学习中的整体损失函数；L_task为与任务相关的损失函数，L_distill为蒸馏损失函数。根据任务损失L_task和蒸馏损失L_distill确定模型蒸馏过程中的整体损失函数L，并根据L更新学生模型的参数，也即对学生模型进行训练，直至损失函数收敛或者达到预设的停止训练条件，得到训练好的学生模型。

本发明实施例提供的神经网络模型的蒸馏方法，由于教师模型的输入信息包含真实的标注信息，因而训练得到教师模型必然比学生模型有更好的预测效果，用于监督学生模型的学习；并且，通过将学生模型提取的第一特征作为教师模型的输入信息以生成第二特征，使得该第二特征中也携带部分该第一特征中蕴含的学生模型的“模型知识”，因而基于该第二特征训练得到的教师模型与学生模型之间具有一定的内在关联，消弭了教师模型和学生模型之间的一部分语义鸿沟，从而提高教师模型向学生模型蒸馏知识的效果。

实施例三：

在图2所示神经网络模型的蒸馏方法的基础上，本实施例具体描述了上述步骤S206(基于该第一特征和该标注信息，通过教师模型处理得到该训练样本图片的第二特征)的具体实现过程。

参见图3所示的另一种神经网络模型的蒸馏方法的流程示意图，该方法包括下述步骤：

步骤S302：获取训练样本图片和该训练样本图片的标注信息；该标注信息用于指示该训练样本图片中物体的属性。

步骤S304：通过学生模型对该训练样本图片进行特征提取，得到第一特征。

这里，本实施例中的步骤S302至步骤S304，对应上述实施例中的步骤S202至步骤S204，相应内容的描述可以参考前述实施例的对应部分，在此不再赘述。

步骤S306：基于该第一特征确定训练样本图片中物体的语义特征。

在其中一种实施方式中，可以通过掩膜计算的方式确定图片中物体的语义特征(Semantic Embedding)。以上述标注信息包括该训练样本图片中物体的位置信息为例，具体可通过下述步骤11-13确定物体的语义特征：

(11)根据该物体的位置信息构造该物体的第一掩膜。

对训练样本图片中的每一个标注的物体构造对应的第一掩膜，如果当前图片中包含m个标注的物体，则对每一个物体构造对应的掩膜，从而总共得到m个掩膜。

其中，该第一掩膜可以是二值掩膜，其中，该训练样本图片中该物体的第一掩膜范围内的值为1，该训练样本图片中在该物体的第一掩膜范围之外的其他范围的值为0。假设以矩形标注框表示该物体的位置信息，可以根据该矩形标注框构造该训练样本图片的原图分辨率上的二值掩膜，其中，框内的值为1，框外的值为0。

(12)将该物体的第一掩膜的尺寸映射至该第一特征的尺寸，得到该物体的第二掩膜。

在本实施例中，该学生模型特征提取骨干网络采用残差网络-特征金字塔网络(Residual network-50-Feature Pyramid Networks，ResNet-50-FPN)。把训练样本图片中的每一张图片输入到该特征提取骨干网络中，对应输出五张具有不同感受野且尺寸各异的学生特征图，也即得到五个不同尺寸的第一特征。

对训练样本图片中的每个标注的物体，均进行下述操作：将该物体的第一掩膜的尺寸映射到该训练图片的第一特征的尺寸；这里，每张训练样本图片对应有五个不同尺寸的第一特征，因而映射后得到该物体的第二掩膜也有五个。

(13)将该第二掩膜与该第一特征相乘后，再进行全局池化，得到该物体的语义特征。

在本实施例中，训练样本图片中的每一个标注的物体对应有五个不同尺寸的第二掩膜，将该物体的第二掩膜和该训练样本图片的相同尺寸的第一特征相乘后，再进行全局池化，得到该物体的语义特征，显然，本实施例中每个物体对应有五个语义特征。

该步骤S306中，通过将第一特征(学生特征图)中物体的特征抠出来后，池化成一个向量(语义特征)用于计算，更加轻便。

步骤S308：基于该标注信息确定该训练样本图片中物体的标签特征。

在本实施例中，该标注信息包括该训练样本图片中物体的位置信息和类别信息；其中，对该训练样本图片中每一个物体均进行下述步骤21-22的操作，以确定图片中物体的标签特征(Label Embedding)：

(21)根据该物体的位置信息和类别信息构造该物体的描述子向量。

在其中一种可能的实施方式中，根据该物体的位置信息构造该物体的四维框位置向量，根据该物体的类别信息构造该物体的独热向量；然后，将该四维框位置向量与该独热向量拼接，得到该物体的描述子向量(Box Descriptor)。

这里，该独热向量一个长度为数据集物体总类数C的向量，该向量中只有一个位置的值是“1”，其它位置的值是“0”。其中，数值为“1”的位置对应着某个类别，说明这个物体是属于这个类别。假如物体总类数为3，则长度为3，向量可以是(0,0,1)或者(1,0,0)，1对应的位置为类别，比如1在一号位表示其类别为“动物”，1在三号位表示其类别为“物品”。

假设某物体A的思维框位置向量为(1,0,1,0)，该物体的独热向量为(0,0,1)，则通过拼接可以得到该物体的描述子向量为(1,0,1,0,0,0,1)。

(22)将该描述子向量输入预设的编码网络，输出该物体的标签特征。

该预设的编码网络可以是点云网络(PointNet)、多层感知机网络(MultilayerPerceptron)和Transformer Encoder中的一种，其中，上述三种网络均具有结构轻量的特征，通过选用结构轻量的编码网络对描述子向量进行投影编码，得到高维向量，即为物体的标签特征。这里，训练样本图片中的每一个物体有且仅有唯一的一个标签特征。

步骤S310：通过教师模型对该语义特征和该标签特征进行交互处理，得到该训练样本图片的第二特征。

在本实施例中，该教师模型的初始网络为多头注意力网络(Multi-HeadAttention)，通过将前述步骤中得到的训练样本图片中每个标注物体的语义特征和标签特征输入到该多头注意力网络中进行动态交互，得到该训练样本图片的第二特征。

具体地，通过下述步骤31-32对上述语义特征和标签特征进行交互：

(31)根据该训练样本图片中物体的语义特征和标签特征，确定该训练样本图片中物体的实例特征(Instance Embedding)。

第一，将该训练样本图片中所有物体的标签特征堆叠成第一矩阵，将该训练样本图片中所有物体的语义特征堆叠成第二矩阵；

第二，复制该第二矩阵得到第三矩阵；

第三，将该第一矩阵和该第二矩阵的转置作矩阵乘法后，除以该第一特征的通道数得到第四矩阵；

第四，对该第四矩阵的每一行进行归一化处理后，与该第三矩阵作矩阵乘法，得到第五矩阵；

第五，将该第五矩阵中每一行的行向量确定为该训练样本图片中物体的实例特征。

(32)对该实例特征进行渲染处理，得到该训练样本图片的第二特征。

在一种方式中，可以遍历该训练样本图片中的每个物体，将每个物体的实例特征填充到该物体的二值掩膜中值为1的位置，得到该训练样本图片的第二特征。这里，实例特征是一维向量，通过渲染的方式，得到二维向量的第二特征(特征图)。

为了更好理解上述语义特征和该标签特征之间交互处理的过程，如图4所示，这里介绍了一种蒸馏架构，该蒸馏架构展示了该交互过程。图4中，BoxNet为预设的编码网络，物体的描述子向量通过该编码网络生成标签特征(Label Embedding)，学生模型提取得到的第一特征(也即图中Student Feature Map)经过掩膜计算得到物体的语义特征(SemanticEmbedding)，将物体的语义特征(图中向量q)和其对应的标签特征(图中向量k和v)输入到多头注意力网络(图中Multi-Head Attention)，得到该物体的实例特征(InstanceEmbedding)。该实例特征由编码器(Encoder)传递给解码器(Decoder)后，经过渲染(Rendering)得到该训练样本图片的第二特征(图中Teacher Feature Map)。

在实际操作中，假设当前训练样本图片中标注的物体数目为N，把所有物体的类标嵌入堆叠成N x D的第一矩阵Q，把所有物体的语义特征堆叠成N x D的第二矩阵K，并复制矩阵K得到第三矩阵V。首先，矩阵Q和矩阵K的转置作矩阵乘法得到N x N矩阵，然后再除以开根的标签特征的维度D，得到第四矩阵，这里，标签特征的维度、语义特征的维度、第一特征的通道数、第二特征的通道数均为相同。随后对矩阵的每一行做归一化(如，使用softmax归一化指数函数)操作，得到N x N的矩阵，再让它和第三矩阵V作矩阵乘法得到N x D的第五矩阵，该第五矩阵就是实例特征矩阵。该实例特征矩阵的每一行的D维向量，对应每个物体的交互信息。这里，上述过程为单个注意力头中的计算过程，如果多头注意力网络的原始嵌入的特征维度是D0维，经过该注意力头的一个降维全连接层才得到D维的上述信息。例如，设该注意力网络的头数目是T，则D0＝D*T。也即，当把所有单个注意力头计算出来的交互信息合并在一起变成D0维度，才得到该物体的实例特征。

步骤S312：根据该第一特征和该第二特征确定教师模型和学生模型之间的蒸馏损失。

这里，假设获得第二特征(也即教师特征图)之后,尺寸相同的第二特征和第一特征(也即学生特征图)均是形为(Hi,Wi,C)的三维张量；其中，i表示特征图的尺寸，Hi、Wi分别为特征图的高和宽,C为特征图维度(也称通道数)。计算教师特征图和学生特征图的蒸馏损失的过程如下：

对教师特征图和学生特征图上的每个像素点分别进行下述操作，沿像素点的通道数C做softmax操作,进行归一化处理，得到形为(Hi,Wi,C)的特征图的归一化张量；然后，逐像素点(每个像素点处为长度为C的向量)计算教师特征图和学生特征图在同一空间位置的两个归一化张量之间的KL散度(Kullback-Leibler Divergence)，把Hix Wi个位置的KL散度值相加求和得到教师特征图和学生特征图的蒸馏损失。并且，教师特征图和学生特征图之间的蒸馏损失即为教师模型和学生模型之间的蒸馏损失。

步骤S314：基于该蒸馏损失更新学生模型的参数。

本实施例中的步骤S312至步骤S314，对应上述实施例中的步骤S208至步骤S210，相应内容的描述可以参考前述实施例的对应部分，在此不再赘述。

本实施例提供的神经网络模型的蒸馏方法，在蒸馏网络中间特征图的背景下，基于“因材施教”的思想，提出让轻量的集合形态的原始老师特征来指导，让其与学生网络的中间特征图进行交互，最终得到由学生特征按动态交互系数组合并重映射而成的动态交互特征图，用该动态交互特征图来对学生网络特征图进行蒸馏，可以消弭教师模型和学生模型之间的一部分语义鸿沟，提升训练完成后学生模型的检测效果。

对应于实施例二中所提供的神经网络模型的蒸馏方法，本发明实施例还提供了一种神经网络模型的蒸馏装置，参见图5所示的一种神经网络模型的蒸馏装置的结构示意图，该装置包括下述模块：

样本获取模块51，用于获取训练样本图片和该训练样本图片的标注信息；该标注信息用于指示该训练样本图片中物体的属性；

第一特征提取模块52，用于通过学生模型对该训练样本图片进行特征提取，得到第一特征；

第二特征提取模块53，用于基于该第一特征和该标注信息，通过教师模型处理得到该训练样本图片的第二特征；

蒸馏损失确定模块54，用于根据该第一特征和该第二特征确定该教师模型和该学生模型之间的蒸馏损失；

参数更新模块55，用于基于该蒸馏损失更新该学生模型的参数。

本发明实施例提供的上述神经网络模型的蒸馏装置，由于教师模型的输入信息包含真实的标注信息，因而训练得到教师模型必然比学生模型有更好的预测效果，用于监督学生模型的学习；并且，通过将学生模型提取的第一特征作为教师模型的输入信息以生成第二特征，使得该第二特征中也携带部分该第一特征中蕴含的学生模型的模型信息，因而基于该第二特征训练得到的教师模型与学生模型之间具有一定的内在关联，消弭了教师模型和学生模型之间的一部分语义鸿沟，从而提高教师模型向学生模型蒸馏知识的效果。

在一种实施方式中，上述第二特征提取模块53，进一步用于基于该第一特征确定训练样本图片中物体的语义特征；基于该标注信息确定该训练样本图片中物体的标签特征；通过教师模型对该语义特征和该标签特征进行交互处理，得到该训练样本图片的第二特征。

在一种实施方式中，上述第二特征提取模块53，进一步用于根据该训练样本图片中物体的语义特征和标签特征，确定该训练样本图片中物体的实例特征；对该实例特征进行渲染处理，得到该训练样本图片的第二特征。

在一种实施方式中，上述第二特征提取模块53，进一步用于将该训练样本图片中所有物体的标签特征堆叠成第一矩阵，将该训练样本图片中所有物体的语义特征堆叠成第二矩阵；复制该第二矩阵得到第三矩阵；将该第一矩阵和该第二矩阵的转置作矩阵乘法后，除以该第一特征的通道数得到第四矩阵；对该第四矩阵的每一行进行归一化处理后，与该第三矩阵作矩阵乘法，得到第五矩阵；将该第五矩阵中每一行的行向量确定为该训练样本图片中物体的实例特征。

在一种实施方式中，上述第二特征提取模块53，进一步用于遍历该训练样本图片中的每个物体，将每个物体的实例特征填充到该物体的二值掩膜中值为1的位置，得到该训练样本图片的第二特征。

在一种实施方式中，该标注信息包括该训练样本图片中物体的位置信息；上述第二特征提取模块53，进一步用于对该训练样本图片中每一个物体均进行下述操作：根据该物体的位置信息构造该物体的第一掩膜；其中，该训练样本图片中该物体的第一掩膜范围内的值为1，该训练样本图片中在该物体的第一掩膜范围之外的其他范围的值为0；将该物体的第一掩膜的尺寸映射至该第一特征的尺寸，得到该物体的第二掩膜；将该第二掩膜与该第一特征相乘后，再进行全局池化，得到该物体的语义特征。

在一种实施方式中，该标注信息包括该训练样本图片中物体的位置信息和类别信息；上述第二特征提取模块53，进一步用于对该训练样本图片中每一个物体均进行下述操作：根据该物体的位置信息和类别信息构造该物体的描述子向量；将该描述子向量输入预设的编码网络，输出该物体的标签特征。

在一种实施方式中，上述第二特征提取模块53，进一步用于根据该物体的位置信息构造该物体的四维框位置向量，根据该物体的类别信息构造该物体的独热向量；将该四维框位置向量与该独热向量拼接，得到该物体的描述子向量。

在一种实施方式中，上述预设的编码网络为点云网络、多层感知机网络和Transformer Encoder中的一种。

在一种实施方式中，上述学生模型和教师模型均为物体检测模型；上述参数更新模块55进一步用于获取该学生模型执行物体检测任务的第一任务损失；根据该第一任务损失和该蒸馏损失更新该学生模型的参数。

在一种实施方式中，该装置还包括教师模型参数更新模型，用于根据该第二特征确定该教师模型执行物体检测任务的第二任务损失；根据该第二任务损失更新该教师模型的参数。

在一种实施方式中，上述学生模型的特征提取骨干网络为残差网络-特征金字塔网络ResNet-50-FPN。

在一种实施方式中，上述教师模型的初始网络为多头注意力网络。

本发明实施例提供的神经网络模型的蒸馏装置，其实现原理及产生的技术效果和前述神经网络模型的蒸馏方法实施例相同，为简要描述，神经网络模型的蒸馏装置的实施例部分未提及之处，可参考前述神经网络模型的蒸馏方法实施例中相应内容。

本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，该机器可执行指令促使处理器实现上述神经网络模型的蒸馏方法，具体实现可参见前述方法实施例，在此不再赘述。

本发明实施例所提供的神经网络模型的蒸馏方法、神经网络模型的蒸馏装置和电子系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的神经网络模型的蒸馏方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种神经网络模型的蒸馏方法，其特征在于，包括：

获取训练样本图片和所述训练样本图片的标注信息；所述标注信息用于指示所述训练样本图片中物体的属性；

通过学生模型对所述训练样本图片进行特征提取，得到第一特征；

基于所述第一特征和所述标注信息，通过教师模型处理得到所述训练样本图片的第二特征；

根据所述第一特征和所述第二特征确定所述教师模型和所述学生模型之间的蒸馏损失；

基于所述蒸馏损失更新所述学生模型的参数。

2.根据权利要求1所述的神经网络模型的蒸馏方法，其特征在于，基于所述第一特征和所述标注信息，通过教师模型处理得到所述训练样本图片的第二特征的步骤，包括：

基于所述第一特征确定所述训练样本图片中物体的语义特征；

基于所述标注信息确定所述训练样本图片中物体的标签特征；

通过教师模型对所述语义特征和所述标签特征进行交互处理，得到所述训练样本图片的第二特征。

3.根据权利要求2所述的神经网络模型的蒸馏方法，其特征在于，通过教师模型对所述语义特征和所述标签特征进行交互处理，得到所述训练样本图片的第二特征的步骤，包括：

根据所述训练样本图片中物体的语义特征和标签特征，确定所述训练样本图片中物体的实例特征；

对所述实例特征进行渲染处理，得到所述训练样本图片的第二特征。

4.根据权利要求3所述的神经网络模型的蒸馏方法，其特征在于，根据所述训练样本图片中物体的语义特征和标签特征，确定所述训练样本图片中物体的实例特征的步骤，包括：

将所述训练样本图片中所有物体的标签特征堆叠成第一矩阵，将所述训练样本图片中所有物体的语义特征堆叠成第二矩阵；

复制所述第二矩阵得到第三矩阵；

将所述第一矩阵和所述第二矩阵的转置作矩阵乘法后，除以所述第一特征的通道数得到第四矩阵；

对所述第四矩阵的每一行进行归一化处理后，与所述第三矩阵作矩阵乘法，得到第五矩阵；

将所述第五矩阵中每一行的行向量确定为所述训练样本图片中物体的实例特征。

5.根据权利要求3所述的神经网络模型的蒸馏方法，其特征在于，对所述实例特征进行渲染处理，得到所述训练样本图片的第二特征的步骤，包括：

遍历所述训练样本图片中的每个物体，将每个物体的实例特征填充到该物体的二值掩膜中值为1的位置，得到所述训练样本图片的第二特征。

6.根据权利要求2所述的神经网络模型的蒸馏方法，其特征在于，所述标注信息包括所述训练样本图片中物体的位置信息；

基于所述第一特征确定所述训练样本图片中物体的语义特征的步骤，包括：

对所述训练样本图片中每一个物体均进行下述操作：

根据该物体的位置信息构造该物体的第一掩膜；其中，所述训练样本图片中该物体的第一掩膜范围内的值为1，所述训练样本图片中在该物体的第一掩膜范围之外的其他范围的值为0；

将该物体的第一掩膜的尺寸映射至所述第一特征的尺寸，得到该物体的第二掩膜；

将所述第二掩膜与所述第一特征相乘后，再进行全局池化，得到该物体的语义特征。

7.根据权利要求2所述的神经网络模型的蒸馏方法，其特征在于，所述标注信息包括所述训练样本图片中物体的位置信息和类别信息；

基于所述标注信息确定所述训练样本图片中物体的标签特征的步骤，包括：

对所述训练样本图片中每一个物体均进行下述操作：

根据该物体的位置信息和类别信息构造该物体的描述子向量；

将所述描述子向量输入预设的编码网络，输出该物体的标签特征。

8.根据权利要求7所述的神经网络模型的蒸馏方法，其特征在于，根据该物体的位置信息和类别信息构造该物体的描述子向量的步骤，包括：

根据该物体的位置信息构造该物体的四维框位置向量，根据该物体的类别信息构造该物体的独热向量；

将所述四维框位置向量与所述独热向量拼接，得到该物体的描述子向量。

9.根据权利要求7所述的神经网络模型的蒸馏方法，其特征在于，所述预设的编码网络为点云网络、多层感知机网络和Transformer Encoder中的一种。

10.根据权利要求1所述的神经网络模型的蒸馏方法，其特征在于，所述学生模型和所述教师模型均为物体检测模型；

基于所述蒸馏损失更新所述学生模型的参数的步骤，包括：

获取所述学生模型执行物体检测任务的第一任务损失；

根据所述第一任务损失和所述蒸馏损失更新所述学生模型的参数。

11.根据权利要求10所述的神经网络模型的蒸馏方法，其特征在于，在基于所述第一特征和所述标注信息，通过教师模型处理得到所述训练样本图片的第二特征的步骤之后，所述方法还包括：

根据所述第二特征确定所述教师模型执行物体检测任务的第二任务损失；

根据所述第二任务损失更新所述教师模型的参数。

12.根据权利要求1-11任一项所述的神经网络模型的蒸馏方法，其特征在于，所述学生模型的特征提取骨干网络为残差网络-特征金字塔网络ResNet-50-FPN。

13.根据权利要求1-11任一项所述的神经网络模型的蒸馏方法，其特征在于，所述教师模型的初始网络为多头注意力网络。

14.一种神经网络模型的蒸馏装置，其特征在于，包括：

样本获取模块，用于获取训练样本图片和所述训练样本图片的标注信息；所述标注信息用于指示所述训练样本图片中物体的属性；

第一特征提取模块，用于通过学生模型对所述训练样本图片进行特征提取，得到第一特征；

第二特征提取模块，用于基于所述第一特征和所述标注信息，通过教师模型处理得到所述训练样本图片的第二特征；

蒸馏损失确定模块，用于根据所述第一特征和所述第二特征确定所述教师模型和所述学生模型之间的蒸馏损失；

参数更新模块，用于基于所述蒸馏损失更新所述学生模型的参数。

15.一种电子系统，其特征在于，所述电子系统包括：处理设备和存储装置；所述存储装置上存储有计算机程序，所述计算机程序在被所述处理设备运行时执行如权利要求1至13任一项所述的神经网络模型的蒸馏方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现权利要求1至13任一项所述的神经网络模型的蒸馏方法。