CN113792871A

CN113792871A - 神经网络训练方法、目标识别方法、装置和电子设备

Info

Publication number: CN113792871A
Application number: CN202110893233.9A
Authority: CN
Inventors: 张选杨
Original assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2021-12-14

Abstract

本发明提供了一种神经网络训练方法、目标识别方法、装置和电子设备，该神经网络训练方法包括：获取预先训练的教师网络，教师网络包括多个教师子网络，多个教师子网络的层数相同，通道数不同；按照通道数由少到多的顺序，应用教师网络中的教师子网络，依次对初始学生网络进行蒸馏训练，得到目标学生网络。通过本发明实施例提供的神经网络训练方法，将教师网络对学生网络的训练分为多个训练周期，使学生网络能够循序渐进地进行知识提取，可以有效提升学生网络的训练效率，进而提升学生网络的预测性能和识别精度。

Description

神经网络训练方法、目标识别方法、装置和电子设备

技术领域

本发明涉及机器学习技术领域，尤其是涉及一种神经网络训练方法、目标识别方法、装置和电子设备。

背景技术

近年来，深度神经网络在计算机视觉(例如AlexNet模型)、自然语言处理(例如BERT模型)以及强化学习(例如DQN模型)等人工智能领域取得了显著的进步。为了使得深度神经网络取得更好的预测效果，现有的技术通常会将深度神经网络设计得更深以及参数量设计得更大，如计算机视觉中的ResNet-1202以及NLP中的GBT-3包含了175M的参数。在这种情况下，虽然深度神经网络取得了更高的性能，却需要较大的算力以及模型存储能力，这对深度神经网络在真实环境下的实际应用造成了巨大的阻碍，特别是智能手机，微型处理器等设备。为了进一步推广深度神经网络，如何设计出更加紧凑高效的深度神经网络，以及缩小紧凑高效小模型和高性能大模型之间的性能差距显得尤其重要。

知识蒸馏是目前深度神经网络研究领域一种具有代表性的提升紧凑高效小模型的有效方法，蒸馏技术已经在计算机视觉、自言语言处理等领域进行了广泛的实际应用，该方法主要受人类社会中的老师教授学生的方式启发，即使小模型(作为学生)接受大模型(作为老师)的知识，从而模仿大模型的预测性能。现有的主流蒸馏方法主要有：离线蒸馏(off-line distillation)、在线蒸馏(on-line distillation)和自蒸馏(self-distillation)。为了进一步提升知识蒸馏技术，目前的研究主要从知识类型、蒸馏方法以及老师和学生的配对关系这3个方面来追求知识质量的提升。目前的知识蒸馏技术，通常只关注于知识质量和蒸馏方法对蒸馏网络的改进，而没有考虑知识数量对于蒸馏结果精度的影响。

发明内容

有鉴于此，本发明的目的在于提供一种神经网络训练方法、目标识别方法、装置和电子设备，以提升学生网络的预测性能和识别精度。

第一方面，本发明实施例提供一种神经网络训练方法，该方法包括：获取预先训练的教师网络，教师网络包括多个教师子网络，多个教师子网络的层数相同，通道数不同；按照通道数由少到多的顺序，应用教师网络中的教师子网络，依次对初始学生网络进行蒸馏训练，得到目标学生网络。

进一步地，上述教师网络的任意相邻的两个教师子网络中，通道数多的教师子网络包含通道数少的教师子网络的全部网络参数。

进一步地，上述按照通道数由少到多的顺序，应用教师网络中的教师子网络，依次对初始学生网络进行蒸馏训练，得到目标学生网络的步骤，包括：按照通道数由少到多的顺序，应用教师网络中的教师子网络，依次对初始学生网络进行预设阶段数个阶段的蒸馏训练，得到目标学生网络，其中，预设阶段数等于教师子网络的总个数。

进一步地，上述按照通道数由少到多的顺序，应用教师网络中的教师子网络，依次对初始学生网络进行蒸馏训练，得到目标学生网络的步骤，包括：以通道数由少到多的顺序，依次从教师网络中选择教师子网络作为当前阶段的训练网络，对于每个训练网络，均执行以下操作：应用训练网络对初始学生网络进行蒸馏训练，得到当前阶段训练完成的初始学生网络；将当前阶段训练完成的初始学生网络作为下一阶段训练的初始学生网络，继续训练，直到所有教师子网络对应的训练均完成，得到目标学生网络。

进一步地，上述初始学生网络进行蒸馏训练的过程中，学生网络的学习率衰减策略保持线性衰减策略或余弦衰减策略不变。

进一步地，上述获取预先训练的教师网络的步骤，包括：构建包含多个教师子网络的教师网络，其中，多个教师子网络层数相同，通道数不同；根据样本数据训练多个教师子网络，得到教师网络，其中，样本数据包含对应的标签。

进一步地，上述根据样本数据训练多个教师子网络的步骤，包括：根据样本数据训练最大教师子网络，其中，最大教师子网络为教师网络中通道数最多的教师子网络；根据样本数据以及最大教师子网络，训练多个较小教师子网络，其中，较小教师子网络为教师网络中除了最大教师子网络以外的其他教师子网络。

进一步地，上述根据样本数据以及最大教师子网络，训练较小教师子网络的步骤，包括：将样本数据输入最大教子师网络，得到第一特征；将样本数据输入较小教师子网络，得到较小教师子网络输出的第二特征；根据标签、第一特征和第二特征，对较小教师子网络进行训练。

进一步地，上述根据标签、第一特征和第二特征，对较小教师子网络进行训练的步骤，包括：根据标签和第二特征，确定标签损失值；计算第一特征和第二特征的KL散度，将KL散度确定为KL散度损失值；根据标签损失值和KL散度损失值，确定较小教师子网络对应的网络损失值；利用较小教师子网络对应的网络损失值，对较小教师子网络进行训练。

第二方面，本发明实施例还提供一种目标识别方法，该方法应用于电子设备，电子设备预存有使用上述第一方面的方法训练得到的目标学生网络，该方法包括：获取待识别数据；通过目标学生网络对待识别数据进行目标识别，得到带有目标对象的识别结果。

第三方面，本发明实施例还提供一种神经网络训练装置，该装置包括：教师网络获取模块，用于获取预先训练的教师网络，教师网络包括多个教师子网络，多个教师子网络的层数相同，通道数不同；训练模块，用于按照通道数由少到多的顺序，应用教师网络中的教师子网络，依次对初始学生网络进行蒸馏训练，得到目标学生网络。

第四方面，本发明实施例还提供一种目标识别装置，该装置预存有使用上述第一方面的方法训练得到的目标学生网络，该装置包括：数据获取模块，用于获取待识别数据；识别模块，用于通过目标学生网络对待识别数据进行目标识别，得到带有目标对象的识别结果。

第五方面，本发明实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现上述第一方面的神经网络训练方法或上述第二方面的目标识别方法。

第六方面，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述第一方面的神经网络训练方法或上述第二方面的目标识别方法。

本发明实施例提供的上述神经网络训练方法、目标识别方法、装置和电子设备，获取预先训练的教师网络，教师网络包括多个教师子网络，多个教师子网络的层数相同，通道数不同；按照通道数由少到多的顺序，应用教师网络中的教师子网络，依次对初始学生网络进行蒸馏训练，得到目标学生网络。通过本发明实施例提供的神经网络训练技术以及目标识别技术，将教师网络对学生网络的训练分为多个训练周期，使学生网络能够循序渐进地进行知识提取，可以有效提升学生网络的训练效率，进而提升学生网络的预测性能和识别精度。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子系统的结构示意图；

图2为本发明实施例提供的一种神经网络训练方法的流程图；

图3为本发明实施例提供的一种神经网络训练方法示意图；

图4为本发明实施例提供的一种教师网络训练方法的流程示意图；

图5为本发明实施例提供的一种实际应用场景中教师网络训练方法的流程示意图；

图6为本发明实施例提供的一种实际应用场景中学生网络训练方法的流程示意图；

图7为本发明实施例提供的一种目标识别方法的流程示意图；

图8为本发明实施例提供的一种网络训练装置示意图；

图9为本发明实施例提供的一种目标识别装置示意图；

图10为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(ArtificialIntelligence，AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

目前神经网络蒸馏方法都通常只关注于知识质量和蒸馏过程对蒸馏网络的改进，并没有考虑知识数量对于蒸馏结果精度的影响，基于此，本发明实施例提供一种神经网络训练方法、目标识别方法、装置和电子设备，可以从知识数量方面有效提升学生网络的训练效率，进而提升学生网络的预测性能和识别精度。

参照图1所示的电子系统100的结构示意图。该电子系统可以用于实现本发明实施例的网络训练方法、装置以及目标识别方法和装置。

如图1所示的一种电子系统的结构示意图，电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个数据采集设备110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子系统100的组件和结构只是示例性的，而非限制性的，根据需要，电子系统也可以具有其他组件和结构。

处理设备102可以为服务器、智能终端，或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对电子系统100中的其它组件的数据进行处理，还可以控制电子系统100中的其它组件以执行神经网络训练的功能。

存储装置104可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理设备102可以运行程序指令，以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

数据采集设备110可以获取待处理的数据，并且将该数据存储在存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的神经网络训练方法、装置、电子设备以及目标识别方法、装置和电子设备中的各器件可以集成设置，也可以分散设置，诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体，而将数据采集设备110设置于可以采集到数据的指定位置。当上述电子系统中的各器件集成设置时，该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。

图2为本发明实施例提供的一种神经网络训练方法的流程图，该方法应用于上述电子设备，参见图2，该方法包括以下步骤：

S202：获取预先训练的教师网络，教师网络包括多个教师子网络，多个教师子网络的层数相同，通道数不同；

在利用教师网络对学生网络进行训练之前，首先获取预先训练的教师网络。教师网络的训练可以与学生网络的训练在同一个电子设备完成，也可以在不同的电子设备完成。可以理解的是，教师网络可以是实际应用场景中用于图像识别或者图像检测的神经网络，也可以是用于语音识别的神经网络，本申请对于教师网络的目的和应用场景不做限定。上述用于训练的教师网络包括多个教师子网络，具体地，可以将原教师网络重构成多个教师子网络，这些教师子网络的层数都相同，通道数不同。教师网络的训练过程，将在后文详细描述，在此不再赘述。

为了保证训练得到的学生网络的输出结果的精度，在一些可能的实施方式中，教师网络中的教师子网络的参数共享，即上述教师网络中的任意相邻的两个教师子网络中，通道数多的教师子网络包含通道数少的教师子网络的全部网络参数。

S204：按照通道数由少到多的顺序，应用教师网络中的教师子网络，依次对初始学生网络进行蒸馏训练，得到目标学生网络。

对于训练完毕的多个教师子网络，其包含的子网络结构表示不同的知识量的知识，即包含通道数越多，表明该教师子网络具有的知识量越大。类似于自然界老师教授学生的过程，本发明实施例将教师网络训练学生网络的过程，按照知识量的大小，以从知识量少到知识量多的方式渐进地将知识传递给学生网络，具体地，按照通道数由少到多的顺序，应用教师网络中的教师子网络，依次对初始学生网络进行预设阶段数个阶段的蒸馏训练，得到目标学生网络，其中，预设阶段数等于教师子网络的总个数。例如，训练得到的教师网络包括3个教师子网络，分别是ResNet20×4、ResNet20×2和ResNet20×1的教师子网络，其中，ResNetM×N表示层数为M，通道数为N的神经网络，为便于描述，以下均采用上述形式表示神经网络的结构，按照通道数由少到多的顺序，依次对初始学生网络进行3个阶段的蒸馏训练，即依次利用ResNet20×1、ResNet20×2和ResNet20×4的教师网络对初始学生网络进行第一阶段训练、第二阶段训练和第三阶段训练。

本发明实施例提供的上述神经网络训练方法，首先获取预先训练的教师网络，所述教师网络包括多个教师子网络，所述多个教师子网络的层数相同，通道数不同，并按照通道数由少到多的顺序，应用所述教师网络中的教师子网络，依次对初始学生网络进行蒸馏训练，得到目标学生网络。通过将教师网络分解成包含不同知识量的多个教师子网络，并根据多个教师子网络，将学生网络的蒸馏过程分解成多个周期，每个周期学习一份知识，可以有效提升学生网络的学习效果，进而提高学生网络输出结果的精度。

在一些可能的实施方式中，上述S204中的按照通道数由少到多的顺序，应用教师网络中的教师子网络，依次对初始学生网络进行蒸馏训练，得到目标学生网络的步骤，可以具体包括：

(1)以通道数由少到多的顺序，依次从教师网络中选择教师子网络作为当前阶段的训练网络，对于每个训练网络，均执行以下操作：

(2)应用训练网络对初始学生网络进行蒸馏训练，得到当前阶段训练完成的初始学生网络；

(3)将当前阶段训练完成的初始学生网络作为下一阶段训练的初始学生网络，继续训练，直到所有教师子网络对应的训练均完成，得到目标学生网络。

图3为本发明实施例提供的一种神经网络训练方法示意图，分别对初始学生网络进行2个阶段的训练，原始教师网络层数为2，通道数为4，我们在通道维度上将其分解为2个子网络，其对应通道数分别为2(0.5×知识数量)和4(1×知识数量)，得到的两个教师子网络深度和原教师网络相同，都是2，只在每一层的通道维度上进行缩放，两个子网络中大的子网络即为原教师网络，小的网络在通道上小于教师网络，大网络和小网络的参数相同。首先利用小的教师子网络对初始学生网络进行训练，得到更新学生网络，进一步地，利用大的教师网络对更新学生网络进行训练，得到最终的目标学生网络。

为了使每个教师子网络都能充分对学生网络进行训练，在每个训练阶段中，学生网络都要收敛到局部最小值，基于此，在上述初始学生网络进行蒸馏训练的过程中，学生网络的学习率衰减策略在每个训练阶段都保持不变，该学习率衰减策略可以是线性衰减策略或余弦衰减策略。

图4为本发明实施例提供的一种教师网络训练方法的流程示意图，该方法包括以下步骤：

S402：构建包含多个教师子网络的教师网络，其中，多个教师子网络层数相同，通道数不同；

S404：根据样本数据训练多个教师子网络，得到教师网络，其中，样本数据包含对应的标签。

可以理解的是，上述样本数据为带有标签的样本数据，上述教师网络包含通道数与原教师网络相同的即通道数最多的教师子网络，还包括其他通道数小于原教师网络的其他教师子网络，不妨将通道数最多的教师子网络称作最大教师子网络，其他通道数较小的教师子网络称为较小教师子网络，基于此，上述利用样本数据训练多个教师子网络的过程，可以具体包括：根据样本数据训练最大教师子网络；根据样本数据以及最大教师子网络，训练多个较小教师子网络。

在一些可能的实施方式中，可以按照如下方法训练多个较小教师子网络：

(1)将样本数据输入最大教子师网络，得到第一特征；

(2)将样本数据输入较小教师子网络，得到较小教师子网络输出的第二特征；

(3)根据标签、第一特征和第二特征，对较小教师子网络进行训练。

需要注意的是，对最大教师自网络，只需要用样本数据进行训练即可，具体的训练方式，可以采用常见的神经网络训练方法，本发明实施例对此不做限定。

对于较小教师子网络的训练过程中，除了考虑样本数据外，还需要考虑最大教师子网络的输出特征，基于此，上述得到第一特征和第二特征后，可以通过以下步骤实现对较小教师子网络的训练：

(1)根据标签和第二特征，确定标签损失值；

(2)计算第一特征和第二特征的KL散度，将KL散度确定为KL散度损失值；

KL散度是可以表征两个随机分布之间的距离的一种相对熵，当两个随机分布相同时，它们的相对熵为零，当两个随机分布的差别增大时，它们的相对熵也会增大，可以采用如下公式计算计算KL散度：

其中，P代表第一特征，Q代表第二特征。

(3)根据标签损失值和KL散度损失值，确定较小教师子网络对应的网络损失值；

本步骤中，可以将标签损失值和KL散度损失值进行组合，将组合后的损失值作为较小自网络的网络损失值。具体地，可以将标签损失值与KL散度损失值进行1:1加权求和，也可以采用其他的数学运算方式进行组合。

(4)利用较小教师子网络对应的网络损失值，对较小教师子网络进行训练。

可以理解的是，上述过程只是对教师网络包含一个较小教师子网络的情况进行了说明，当教师网络包含多于一个较小教师子网络时，可以对多个较小教师子网络同时进行上述的训练过程，也可以按照预设顺序依次使用样本数据和最大教师子网络对较小教师子网络进行训练，本发明实施例对多个较小教师子网络的训练顺序并不限定。

在得到各个教师子网络的梯度之后，利用各个教师子网络的梯度对教师网络重复地进行参数更新，直至满足预设的熟练条件则停止训练。

需要注意的是，本发明实施例提供的神经网络训练方法，考虑了知识数量对于学生网络输出结果的精度的影响，该方法可以单独使用以训练得到神经网络，也可以不是一般性地与其他蒸馏方式结合，以提高现有蒸馏技术训练得到的学生网络的输出精度。

为了便于理解，下面结合实际应用场景，具体描述如何采用对教师网络进行训练。如图5所述，为本发明实施例提供的一种实际应用场景中的教师网络训练方法的流程示意图，该方法中的教师网络为图像识别神经网络，通过该神经网络，可以对待识别图像进行目标识别，得到带有目标框的图像，该方法包括：

S502：将原始教师网络在通道维度上拆分成4个教师子网络。

本步骤中，原始教师网络为ResNet20×4，在通道维度上拆分成4个通道数各不相同的教师子网络，分别得到ResNet20×1、ResNet20×2、ResNet20×3和ResNet20×4。需要注意的是，本发明实施例对原始教师网络的拆分是在参数共享的机制下进行的拆分，即ResNet20×2包含ResNet20×1网络的全部参数，ResNet20×3包含ResNet20×2网络的全部参数，而ResNet20×4包含ResNet20×3网络的全部参数。

S504：将样本图像输入4个教师子网络中，得到各个教师子网络对应的特征；

即得到ResNet20×4教师子网络对应的第一特征，ResNet20×3教师子网络对应的第二特征，ResNet20×2教师子网络对应的第三特征以及ResNet20×1教师子网络对应的第四特征。

S506：直接使用样本图像中包含的标签对ResNet20×4教师子网络进行训练。

S508：确定ResNet20×3教师子网络对应的网络损失值。

ResNet20×3教师子网络对应的网络损失值由标签损失值和KL散度损失值共同确定，其中，标签损失值是将样本图像输入ResNet20×3教师子网络，利用标签和第二特征值，确定标签损失值，用Label1表示；

上述KL散度损失值是计算ResNet20×4教师子网络输出的第一特征和ResNet20×3教师子网络输出的第二特征的KL散度，用KL1表示。

ResNet20×3教师子网络对应的网络损失值Loss1＝Label1+KL1。

S510：确定ResNet20×2教师子网络对应的网络损失值。

确定ResNet20×2教师子网络对应的网络损失值同样由标签损失值和KL散度损失值共同确定，具体的确定方法与上述S608中的步骤相同，在此不在赘述。

S512：确定ResNet20×1教师子网络对应的网络损失值。

确定ResNet20×1教师子网络对应的网络损失值同样由标签损失值和KL散度损失值共同确定，具体的确定方法与上述S608中的步骤相同，在此不在赘述。

S514：根据ResNet20×4教师子网络、ResNet20×3教师子网络、ResNet20×2教师子网络以及ResNet20×1教师子网络的梯度，对各个教师子网络进行训练，得到教师网络。

根据上述得到的各个教师子网络对应的网络损失值，确定各个教师子网络的梯度，将各个梯度相加，得到累积梯度，利用累积梯度对各个在教师子网络的参数进行更新，直至满足预设的网络收敛条件。

图6为本发明实施例提供的一种神经网络训练方法，在该实施例中，目标任务是对图像进行对象识别，因此学生网络的样本数据是包含目标对象的待识别图像，输出是目标对象的坐标框，该方法中利用上述方法训练得到的教师网络，在分类数据集CIFAR-100上对ResNet20的学生网络进行蒸馏训练，该方法包括以下步骤：

S602：构建初始学生网络，其大小为ResNet20。

S604：第一训练阶段，利用ResNet20×1教师子网络，对初始学生网络进行训练，当初始学生网络收敛时，得到第一训练阶段对应的学生网络RN1。

该训练阶段中，采用线性衰减策略对初始学生网络进行训练。

S606：第二训练阶段，利用ResNet20×2教师子网络，对学生网络RN1进行训练，当学生网络RN1收敛时，得到第二训练阶段对应的学生网络RN2。

该训练阶段中，采用与第一训练阶段相同的线性衰减策略对学生网络RN1进行训练。

S608：第三训练阶段，利用ResNet20×3教师子网络，对学生网络RN2进行训练，当学生网络RN2收敛时，得到第三训练阶段对应的学生网络RN3。

该训练阶段中，采用与第一训练阶段相同的线性衰减策略对学生网络RN2进行训练。

S610：第四训练阶段，利用ResNet20×4教师子网络，对学生网络RN3进行训练，当学生网络RN3收敛时，得到第四训练阶段对应的学生网络RN4。

该训练阶段中，采用与第一训练阶段相同的线性衰减策略对学生网络RN3进行训练。

S612：将学生网络RN4确定为目标学生网络。

图7为本发明实施例提供的一种目标识别方法的流程示意图，该目标识别方法应用于电子设备，在电子设备上预存有训练完毕的学生网络，该学生网络可以采用本申请任一实施例提供的神经网络训练方法训练得到，如图7所示，该方法包括：

S702：获取待识别数据：

S704：通过目标学生网络对待识别数据进行目标识别，得到带有目标对象的识别结果。

在实际应用场景中，待识别数据可以是待识别图像，或者是待识别视频数据等，可以使用本发明实施例提供的上述目标识别方法，处理目标识别任务，例如对图像中的特定对象进行识别，对语音文件中的不同对象进行识别，或者从视频帧序列中识别出指定对象等。

基于上述方法实施例，本发明例还提供一种神经网络训练装置，参见图8所示，该装置包括：

教师网络获取模块802，用于获取预先训练的教师网络，教师网络包括多个教师子网络，多个教师子网络的层数相同，通道数不同；

训练模块804，用于按照通道数由少到多的顺序，应用教师网络中的教师子网络，依次对初始学生网络进行蒸馏训练，得到目标学生网络。

本发明实施例提供的上述神经网络训练装置，获取预先训练的教师网络，教师网络包括多个教师子网络，多个教师子网络的层数相同，通道数不同；按照通道数由少到多的顺序，应用教师网络中的教师子网络，依次对初始学生网络进行蒸馏训练，得到目标学生网络。通过本发明实施例提供的神经网络训练技术，将教师网络对学生网络的训练分为多个训练周期，使学生网络能够循序渐进地进行知识提取，可以有效提升学生网络的训练效率，进而提升学生网络的预测性能和识别精度。

上述教师网络的任意相邻的两个教师子网络中，通道数多的教师子网络包含通道数少的教师子网络的全部网络参数。

上述训练模块804，还用于按照通道数由少到多的顺序，应用教师网络中的教师子网络，依次对初始学生网络进行预设阶段数个阶段的蒸馏训练，得到目标学生网络，其中，预设阶段数等于教师子网络的总个数。

上述训练模块804，还用于以通道数由少到多的顺序，依次从教师网络中选择教师子网络作为当前阶段的训练网络，对于每个训练网络，均执行以下操作：应用训练网络对初始学生网络进行蒸馏训练，得到当前阶段训练完成的初始学生网络；将当前阶段训练完成的初始学生网络作为下一阶段训练的初始学生网络，继续训练，直到所有教师子网络对应的训练均完成，得到目标学生网络。

上述初始学生网络进行蒸馏训练的过程中，学生网络的学习率衰减策略保持线性衰减策略或余弦衰减策略不变。

上述教师网络获取模块802，还用于构建包含多个教师子网络的教师网络，其中，多个教师子网络层数相同，通道数不同；根据样本数据训练多个教师子网络，得到教师网络，其中，样本数据包含对应的标签。

上述根据样本数据训练多个教师子网络的过程，包括：根据样本数据训练最大教师子网络，其中，最大教师子网络为教师网络中通道数最多的教师子网络；根据样本数据以及最大教师子网络，训练多个较小教师子网络，其中，较小教师子网络为教师网络中除了最大教师子网络以外的其他教师子网络。

上述根据样本数据以及最大教师子网络，训练较小教师子网络的过程，包括：将样本数据输入最大教子师网络，得到第一特征；将样本数据输入较小教师子网络，得到较小教师子网络输出的第二特征；根据标签、第一特征和第二特征，对较小教师子网络进行训练。

上述根据标签、第一特征和第二特征，对较小教师子网络进行训练的步骤，包括：根据标签和第二特征，确定标签损失值；计算第一特征和第二特征的KL散度，将KL散度确定为KL散度损失值；根据标签损失值和KL散度损失值，确定较小教师子网络对应的网络损失值；利用较小教师子网络对应的网络损失值，对较小教师子网络进行训练。

本发明实施例还提供了一种目标识别装置，如图9所示，该装置预存有通过本发明实施例提供的神经网络训练装置训练得到的目标学生网络，该装置包括：

数据获取模块902，用于获取待识别数据；

识别模块904，用于通过目标学生网络对待识别数据进行目标识别，得到带有目标对象的识别结果。

本发明实施例提供的神经网络训练装置以及目标识别装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，上述装置的实施例部分未提及之处，可参考前述神经网络训练方法以及目标识别方法实施例中的相应内容。

本发明实施例还提供了一种电子设备，如图10所示，为该电子设备的结构示意图，其中，该电子设备包括处理器1001和存储器1002，该存储器1002存储有能够被该处理器1001执行的计算机可执行指令，该处理器1001执行该计算机可执行指令以实现上述神经网络训练方法以及目标识别方法。

在图10示出的实施方式中，该电子设备还包括总线1003和通信接口1004，其中，处理器1001、通信接口1004和存储器1002通过总线1003连接。

其中，存储器1002可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口1004(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线1003可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线1003可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器1001可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1001中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1001可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器1001读取存储器中的信息，结合其硬件完成前述实施例的神经网络训练方法以及目标识别方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，该计算机可执行指令促使处理器实现上述神经网络训练方法以及目标识别方法，具体实现可参见前述方法实施例，在此不再赘述。

本发明实施例所提供的神经网络训练方法、装置、电子设备以及目标识别方法、装置和电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种神经网络训练方法，其特征在于，所述方法包括：

获取预先训练的教师网络，所述教师网络包括多个教师子网络，所述多个教师子网络的层数相同，通道数不同；

按照通道数由少到多的顺序，应用所述教师网络中的教师子网络，依次对初始学生网络进行蒸馏训练，得到目标学生网络。

2.根据权利要求1所述的方法，其特征在于，所述教师网络的任意相邻的两个所述教师子网络中，通道数多的所述教师子网络包含通道数少的所述教师子网络的全部网络参数。

3.根据权利要求1或2所述的方法，其特征在于，按照通道数由少到多的顺序，应用所述教师网络中的教师子网络，依次对初始学生网络进行蒸馏训练，得到目标学生网络的步骤，包括：

按照通道数由少到多的顺序，应用所述教师网络中的教师子网络，依次对所述初始学生网络进行预设阶段数个阶段的蒸馏训练，得到目标学生网络，其中，所述预设阶段数等于所述教师子网络的总个数。

4.根据权利要求1或2所述的方法，其特征在于，按照通道数由少到多的顺序，应用所述教师网络中的教师子网络，依次对初始学生网络进行蒸馏训练，得到目标学生网络的步骤，包括：

以通道数由少到多的顺序，依次从所述教师网络中选择教师子网络作为当前阶段的训练网络，对于每个所述训练网络，均执行以下操作：

应用所述训练网络对所述初始学生网络进行蒸馏训练，得到当前阶段训练完成的初始学生网络；

将当前阶段训练完成的初始学生网络作为下一阶段训练的初始学生网络，继续训练，直到所有教师子网络对应的训练均完成，得到目标学生网络。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述初始学生网络进行蒸馏训练的过程中，所述学生网络的学习率衰减策略保持线性衰减策略或余弦衰减策略不变。

6.根据权利要求1所述的方法，其特征在于，获取预先训练的教师网络的步骤，包括：

构建包含多个教师子网络的教师网络，其中，所述多个教师子网络层数相同，通道数不同；

根据样本数据训练所述多个教师子网络，得到所述教师网络，其中，所述样本数据包含对应的标签。

7.根据权利要求6所述的方法，其特征在于，所述根据样本数据训练所述多个教师子网络的步骤，包括：

根据样本数据训练最大教师子网络，其中，所述最大教师子网络为所述教师网络中通道数最多的教师子网络；

根据所述样本数据以及所述最大教师子网络，训练多个较小教师子网络，其中，所述较小教师子网络为所述教师网络中除了所述最大教师子网络以外的其他所述教师子网络。

8.根据权利要求7所述的方法，其特征在于，根据所述样本数据以及所述最大教师子网络，训练所述较小教师子网络的步骤，包括：

将所述样本数据输入所述最大教师子网络，得到第一特征；

将所述样本数据输入所述较小教师子网络，得到所述较小教师子网络输出的第二特征；

根据所述标签、所述第一特征和所述第二特征，对所述较小教师子网络进行训练。

9.根据权利要求8所述的方法，其特征在于，根据所述标签、所述第一特征和所述第二特征，对所述较小教师子网络进行训练的步骤，包括：

根据所述标签和所述第二特征，确定标签损失值；

计算所述第一特征和所述第二特征的KL散度，将所述KL散度确定为KL散度损失值；

根据所述标签损失值和所述KL散度损失值，确定所述较小教师子网络对应的网络损失值；

利用所述较小教师子网络对应的网络损失值，对所述较小教师子网络进行训练。

10.一种目标识别方法，其特征在于，所述方法应用于电子设备，所述电子设备预存有使用权利要求1-9任一项所述的方法训练得到的目标学生网络，所述方法包括：

获取待识别数据；

通过所述目标学生网络对所述待识别数据进行目标识别，得到带有目标对象的识别结果。

11.一种神经网络训练装置，其特征在于，所述装置包括：

教师网络获取模块，用于获取预先训练的教师网络，所述教师网络包括多个教师子网络，所述多个教师子网络的层数相同，通道数不同；

训练模块，用于按照通道数由少到多的顺序，应用所述教师网络中的教师子网络，依次对初始学生网络进行蒸馏训练，得到目标学生网络。

12.一种目标识别装置，其特征在于，所述装置预存有使用权利要求1-9任一项所述的方法训练得到的目标学生网络，所述装置包括：

数据获取模块，用于获取待识别数据；

识别模块，用于通过所述目标学生网络对所述待识别数据进行目标识别，得到带有目标对象的识别结果。

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1至10任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现权利要求1至10任一项所述的方法。