CN111126555A

CN111126555A - 神经网络模型训练方法、装置、设备及存储介质

Info

Publication number: CN111126555A
Application number: CN201811284663.5A
Authority: CN
Inventors: 张鹏国; 李一力
Original assignee: Zhejiang Uniview Technologies Co Ltd
Current assignee: Zhejiang Uniview Technologies Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2020-05-08

Abstract

本申请实施例提供一种神经网络模型训练方法、装置、设备及存储介质，涉及计算机技术领域。其中，所述方法通过计算预训练得到的第一模型相对于待训练的第二模型的第一KL距离，以及待训练的第二模型相对于预训练得到的第一模型的第二KL距离，然后将所述第一KL距离与所述第二KL距离之和作为所述第二模型的损失函数，最后根据所述损失函数对所述第二模型的神经网络参数进行调整，使所述第二模型获得所述第一模型的泛化能力。通过本申请实施例提供的方法，放大了所述第二模型与第一模型之间的不同，从而为所述第二模型提供更大的梯度回传，提高了所述第二模型在训练过程中的收敛速度和收敛状态。

Description

神经网络模型训练方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，具体而言，涉及神经网络模型训练方法、装置、设备及存储介质。

背景技术

深度卷积神经网络在计算机视觉上的表现十分优异，甚至超出了人类水平。但是，往往表现越好的网络，结构越复杂，模型越大，对硬件设备的要求也越高。因此，实现模型压缩对很多深度卷积神经网络模型而言，是实现商用的关键。

目前，已有人提出了知识蒸馏的概念，通过预训练得到的复杂模型训练简单模型，让简单模型具有复杂模型的泛化能力。

通过该方法可以实现模型压缩，但是，目前还存在训练过程复杂、模型难以收敛等亟待解决的不足之处。

发明内容

为了克服现有技术中的上述不足，本申请提供一种神经网络模型训练方法、装置、设备及存储介质，以提高模型在训练过程中的收敛速度和收敛状态。

为了实现上述目的，本申请较佳实施例采用的技术方案如下：

第一方面，本申请实施例提供一种神经网络模型训练方法，所述方法包括：

计算预训练得到的第一模型相对于待训练的第二模型的第一KL距离，以及待训练的第二模型相对于预训练得到的第一模型的第二KL距离；

将所述第一KL距离与所述第二KL距离相加，得到所述第二模型的损失函数；

根据所述损失函数对所述第二模型的神经网络参数进行调整，使所述第二模型获得所述第一模型的泛化能力。

可选地，在本申请实施例中，所述第一模型包括第一特征层，所述第二模型包括第二特征层，所述计算预训练得到的第一模型相对于待训练的第二模型的第一KL距离，以及待训练的第二模型相对于预训练得到的第一模型的第二KL距离的步骤，包括：

获取所述第一特征层与所述第二特征层对相同输入数据进行处理得到的第一特征向量和第二特征向量；

对所述第一特征向量和所述第二特征向量进行处理，得到所述第一特征向量中每个元素相对于其他元素的相对概率所构成的第一概率向量，以及所述第二特征向量中每个元素相对于其他元素的相对概率所构成的第二概率向量；

基于所述第一概率向量和所述第二概率向量，计算得到所述第一KL距离及所述第二KL距离。

进一步地，所述基于所述第一概率向量和所述第二概率向量，计算得到所述第一KL距离及所述第二KL距离的步骤，包括：

对所述第一概率向量中每个元素与第二概率向量中对应元素的比值进行对数运算，再分别乘以所述第一概率向量中的对应元素，得到所述第一KL距离；

对所述第二概率向量中每个元素与第一概率向量中对应元素的比值进行对数运算，再分别乘以所述第二概率向量中的对应元素，得到所述第二KL距离。

可选地，在本申请实施例中，所述根据所述损失函数对所述第二模型的神经网络参数进行调整的步骤，包括：

根据所述损失函数确定所述第二模型的反向传播梯度；

根据所述反向传播梯度对所述第二特征层的神经网络参数进行调整。

第二方面，本申请实施例提供一种神经网络模型训练装置，所述装置包括：

第一计算模块，用于计算预训练得到的第一模型相对于待训练的第二模型的第一KL距离，以及待训练的第二模型相对于预训练得到的第一模型的第二KL距离；

第二计算模块，用于将所述第一KL距离与所述第二KL距离相加，得到所述第二模型的损失函数；

参数调整模块，用于根据所述损失函数对所述第二模型的神经网络参数进行调整，使所述第二模型获得所述第一模型的泛化能力。

可选地，在本申请实施例中，所述第一模型包括第一特征层，所述第二模型包括第二特征层，所述第一计算模块具体用于：

进一步地，在本申请实施例中，所述第一计算模块具体用于：

可选地，在本申请实施例中，所述参数调整模块具体用于：

根据所述损失函数确定所述第二模型的反向传播梯度；

第三方面，本申请实施例提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器加载执行时，实现如上所述的方法。

第四方面，本申请实施例提供一种计算机设备，所述设备包括处理器及存储器；其中，所述存储器用于存储计算机程序，所述处理器用于加载执行所述计算机程序，以使所述设备执行如上所述的方法。

相对于现有技术而言，本申请具有以下有益效果：

本申请实施例提供的神经网络模型训练方法通过计算预训练得到的第一模型相对于待训练的第二模型的第一KL距离，以及待训练的第二模型相对于预训练得到的第一模型的第二KL距离，然后将所述第一KL距离与所述第二KL距离之和作为所述第二模型的损失函数，放大了所述第二模型与第一模型之间的不同，从而为所述第二模型提供更大的梯度回传，提高了所述第二模型在训练过程中的收敛速度和收敛状态。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的部分实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1为本申请实施例提供的计算机设备的结构示意图；

图2为本申请实施例提供的神经网络模型训练方法的步骤流程示意图；

图3为图2中步骤S10的子步骤流程示意图；

图4为图2中步骤S30的子步骤流程示意图；

图5为本申请实施例提供的神经网络模型训练装置的功能模块示意图。

图标：100-计算机设备；111-存储器；112-存储控制器；113-处理器；70-神经网络模型训练装置；701-第一计算模块；702-第二计算模块；703-参数调整模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请实施例的描述中，需要说明的是，术语“第一”、“第二”等命名方式仅是为了区分不同特征，便于描述本申请和简化描述，而不是指示或暗示其相对重要性，因此不能理解为对本申请的限制。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，为本申请实施例提供的一种计算机设备100。所述计算机设备100包括神经网络模型训练装置70、存储器111、存储控制器112及处理器113。

所述存储器111、存储控制器112及处理器113各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述神经网络模型训练装置70可以包括至少一个可以软件或固件(firmware)的形式存储于所述存储器111中或固化在所述计算机设备100的操作系统(operating system，OS)中的软件功能模块。所述处理器113用于执行所述存储器111中存储的可执行模块，例如所述神经网络模型训练装置70所包括的软件功能模块及计算机程序等。

其中，所述存储器111可以是，但不限于，随机存取存储器(Random AccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。其中，存储器111用于存储程序，所述处理器113在接收到执行指令后，执行所述程序。所述处理器113以及其他可能的组件对存储器111的访问可在所述存储控制器112的控制下进行。

所述处理器113可能是一种集成电路芯片，具有信号的处理能力；也可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。

应当理解的是，图1所示的结构仅为示意图，所述计算机设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

请参照图2，为本申请实施例提供的神经网络模型训练方法的步骤流程图，该方法可以应用于图1所示的计算机设备100，以实现模型训练，并提高模型在训练过程中的收敛速度和收敛状态。

下面结合图2对本申请实施例提供的神经网络模型训练方法进行详尽的介绍。

步骤S10，计算预训练得到的第一模型相对于待训练的第二模型的第一KL距离，以及待训练的第二模型相对于预训练得到的第一模型的第二KL距离。

其中，所述第一模型为通过若干训练样本预训练得到的“教师模型”，该模型性能较为优异，但同时结构也较为复杂，若直接使用的话对硬件设备要求相对较高，因此难以实现普遍应用。在本申请实施例中，其作用在于训练结构较为简单的第二模型，使结构简单的第二模型获得其优异的泛化能力，实现知识迁移和模型压缩。

所述KL距离为Kullback-Leibler差异(Kullback-Leibler Divergence)的简称，也叫做相对熵(Relative Entropy)，其衡量的是相同事件空间里的两个概率分布的差异情况，在本申请实施例中，用于衡量所述第一模型与所述第二模型之间的性能差异。

在本申请实施例中，对所述第二模型进行训练之前，可以通过上述步骤S10计算所述第二模型相对于第一模型的第二KL距离，以及所述第一模型相对于所述第二模型的第一KL距离，以确定所述第二模型与第一模型之间的差异程度。

具体地，请参照图3，在本申请实施例中，所述步骤S10可以包括以下子步骤：

子步骤S11，获取第一特征层与第二特征层对相同输入数据进行处理得到的第一特征向量和第二特征向量。

其中，所述第一特征层为所述第一模型中的一个全连接层，所述第二特征层为所述第二模型中的一个全连接层，在本申请实施例中，所述第一特征层的维数与所述第二特征层相同。

由于特征层相对于分类层等其他全连接层而言，其网络结构相对较为简单，而神经网络训练的实质是对网络结构中的参数进行调整，因此，在本申请实施例中，选择所述第二模型的第二特征层进行训练，从而减少训练过程中的参数调整数量，进而使所述第二模型在训练过程中快速达到收敛状态，缩短模型训练的时间。

KL距离表征的是相同事件在两个概率分布中的差异情况，因此，在本申请实施例中，为了判断所述第二特征层与所述第一特征层的性能差异程度，首先需要获取所述第一特征层与所述第二特征层对相同输入数据进行处理得到的第一特征向量和第二特征向量。

继续参照图3，在获得所述第一特征向量和第二特征向量之后，所述步骤S10还包括：

子步骤S12，对所述第一特征向量和所述第二特征向量进行处理，得到所述第一特征向量中每个元素相对于其他元素的相对概率所构成的第一概率向量，以及所述第二特征向量中每个元素相对于其他元素的相对概率所构成的第二概率向量。

在本申请实施例中，对所述第一特征向量和第二特征向量进行处理的过程可以采用softmax函数将所述第一特征向量和第二特征向量中每一个元素分别转化为对应的相对概率，然后通过该相对概率构成用于计算所述KL距离的第一概率向量和第二概率向量。具体地，该过程可以表示为：

其中，V_i表示所述第一概率向量或所述第二概率向量中的第i个元素，c表示所述第一概率向量和第二概率向量的维度，S_i表示第i个元素对应的相对概率。

进一步地，请继续参照图3，在子步骤S12之后，所述步骤S10还包括：

子步骤S13，基于所述第一概率向量和所述第二概率向量，计算得到所述第一KL距离及所述第二KL距离。

具体地，所述第一KL距离和第二KL距离的计算过程可以表示为：

其中，D_KL1为所述第一KL距离，D_KL2为所述第二KL距离，p(x_i)为所述第一概率向量中的第i个元素(即所述第一特征向量中第i个元素对应的相对概率)，q(x_i)为所述第二概率向量中的第i个元素，N为所述第一概率向量和第二概率向量的维度。

进一步地，请再次参照图2，在通过上述过程计算得到第一KL距离和第二KL距离之后，所述方法还包括：

步骤S20，将所述第一KL距离与所述第二KL距离相加，得到所述第二模型的损失函数。

现有技术中，导致模型难以收敛的其中一个原因在于损失函数回传梯度较小(尤其是当模型处于接近收敛的状态时)。因此，在本申请实施例中，为了克服该不足之处，通过将所述第一KL距离与所述第二KL距离之和作为所述第二模型的损失函数，以实现放大第一模型与第二模型之间的不同，为所述第二模型提供更大的回传梯度，并使所述第二模型达到更好的收敛状态。

该损失函数可以表示为：

其中，LOSS_KL表示所述第二模型的损失函数，p(x_i)、q(x_i)和N所表示的含义在上述内容中已进行过说明，此处不再赘述。

进一步地，请继续参照图2，在通过步骤S20得到所述第二模型的损失函数之后，所述方法还包括：

步骤S30，根据所述损失函数对所述第二模型的神经网络参数进行调整，使所述第二模型获得所述第一模型的泛化能力。

具体地，请参照图4，在本申请实施例中，所述步骤S30可以包括：

子步骤S31，根据所述损失函数确定所述第二模型的反向传播梯度。

具体地，在本申请实施例中，所述反向传播梯度可以通过对所述损失函数求导得到。该过程可以表示为：

相对于现有技术中的欧式距离反向求导而言，通过本申请实施例反向求导得到的反向传播梯度可以在训练过程中为所述第二模型提供更大的梯度回传，从而加快模型的收敛速度。

下面将举例说明本申请实施例提供的损失函数所体现的优势：

当p(x_i)＝0.1，q(x_i)＝0.2时，通过现有技术中的欧式距离反向求导得到的反向传播梯度为：2(q(x_i)-p(x_i))＝0.2。

而通过本申请实施例中提供的损失函数求导可以得到，其反向传播梯度为：-0.1/0.2+log(0.2/0.1)+1＝0.801。

当p(x_i)＝0.001，q(x_i)＝0.002时，通过现有技术中的欧式距离反向求导得到的反向传播梯度为：2(q(x_i)-p(x_i))＝0.002。

而通过本申请实施例中提供的损失函数求导可以得到，其反向传播梯度为：-0.001/0.002+log(0.002/0.001)+1＝0.801。

通过以上数据可以看出，采用本申请实施例提供的损失函数计算得到的反向传播梯度远大于现有技术中通过欧式距离反向求导计算得到的反向传播梯度，并且当p(x_i)和q(x_i)较小时，依然可以得到较大的梯度回传。因此，本申请实施例提供的损失函数相对于现有技术而言，可以使所述第二模型在训练过程中收敛得更快，并达到一个更好的收敛状态。

继续参照图4，在本申请实施例中，所述步骤S30还包括：

子步骤S32，根据所述反向传播梯度对所述第二特征层的神经网络参数进行调整。

具体地，在根据所述反向传播梯度对所述第二特征层的神经网络参数进行调整的过程中，可以采用梯度下降算法来确定所述神经网络参数的调整方向，然后根据所述调整方向及上述过程中计算得到的反向传播梯度对所述第二特征层的神经网络参数进行迭代更新，使得所述第二模型的损失函数逐渐减小，直至达到相对稳定的收敛状态结束训练，得到一个结构简单但性能优异的第二模型。

进一步地，请参照图5，本申请实施例还提供一种神经网络模型训练装置70，所述装置包括：

第一计算模块701，用于计算预训练得到的第一模型相对于待训练的第二模型的第一KL距离，以及待训练的第二模型相对于预训练得到的第一模型的第二KL距离。

第二计算模块702，用于将所述第一KL距离与所述第二KL距离相加，得到所述第二模型的损失函数。

参数调整模块703，用于根据所述损失函数对所述第二模型的神经网络参数进行调整，使所述第二模型获得所述第一模型的泛化能力。

可选地，在本申请实施例中，所述第一模型包括第一特征层，所述第二模型包括第二特征层，所述第一计算模块701具体用于：

进一步地，在本申请实施例中，所述第一计算模块701具体用于：

可选地，在本申请实施例中，所述参数调整模块703具体用于：

根据所述损失函数确定所述第二模型的反向传播梯度；

此外，本申请实施例提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器113加载执行时，实现如上所述的神经网络模型训练方法。

综上所述，本申请实施例提供一种神经网络模型训练方法、装置、设备及存储介质。其中，所述方法通过计算预训练得到的第一模型相对于待训练的第二模型的第一KL距离，以及待训练的第二模型相对于预训练得到的第一模型的第二KL距离，然后将所述第一KL距离与所述第二KL距离之和作为所述第二模型的损失函数，放大了所述第二模型与第一模型之间的不同，从而为所述第二模型提供更大的梯度回传，提高了所述第二模型在训练过程中的收敛速度和收敛状态。

应当注意的是，在本申请实施例中所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种神经网络模型训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述第一模型包括第一特征层，所述第二模型包括第二特征层，所述计算预训练得到的第一模型相对于待训练的第二模型的第一KL距离，以及待训练的第二模型相对于预训练得到的第一模型的第二KL距离的步骤，包括：

3.如权利要求2所述的方法，其特征在于，所述基于所述第一概率向量和所述第二概率向量，计算得到所述第一KL距离及所述第二KL距离的步骤，包括：

4.如权利要求2所述的方法，其特征在于，所述根据所述损失函数对所述第二模型的神经网络参数进行调整的步骤，包括：

根据所述损失函数确定所述第二模型的反向传播梯度；

5.一种神经网络模型训练装置，其特征在于，所述装置包括：

6.如权利要求5所述的装置，其特征在于，所述第一模型包括第一特征层，所述第二模型包括第二特征层，所述第一计算模块具体用于：

7.如权利要求6所述的装置，其特征在于，所述第一计算模块具体用于：

8.如权利要求6所述的装置，其特征在于，所述参数调整模块具体用于：

根据所述损失函数确定所述第二模型的反向传播梯度；

9.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器加载执行时，实现如权利要求1-4中任一项所述的方法。

10.一种计算机设备，其特征在于，所述设备包括处理器及存储器；其中，所述存储器用于存储计算机程序，所述处理器用于加载执行所述计算机程序，以使所述设备执行如权利要求1-4中任一项所述的方法。