CN108009638A

CN108009638A - 一种神经网络模型的训练方法、电子设备及存储介质

Info

Publication number: CN108009638A
Application number: CN201711184229.5A
Authority: CN
Inventors: 徐鹏飞; 赵瑞
Original assignee: Shenzhen Shenzhen Horizon Technology Co Ltd
Current assignee: Shenzhen Shenzhen Horizon Technology Co Ltd
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2018-05-08

Abstract

本发明公开了一种神经网络模型的训练方法，包括：获取第一图像特征和第二图像特征；第一图像特征为图片A经过已经训练完成的模型所输出的图像特征，第二图像特征为图片A经过待训练模型所输出的图像特征；获取分类概率；分类概率为第二图像特征经过待训练模型的分类层所输出的分类概率；根据第一图像特征、第二图像特征及分类概率更新待训练模型的参数直到第二图像特征与所述第一图像特征相拟合。本发明还公开了一种电子设备及存储介质，本发明提供的神经网络模型的训练方法、电子设备及存储介质根据第一图像特征、第二图像特征及分类概率更新待训练模型的参数，训练得到一个与已经训练完成的大模型精度相当的小模型，保证了计算速度和计算精度。

Description

一种神经网络模型的训练方法、电子设备及存储介质

技术领域

本发明涉及模型训练领域，尤其涉及一种神经网络模型的训练方法、电子设备及存储介质。

背景技术

卷积神经网络包含多个卷积层、激活函数层及下采样层等，其局部采样和权重共享的特性使得可以得到平移不变特征，提取的特征远超传统手工设计的特征，大幅提高了识别、检测、分割等机器视觉任务的精度，同时相比于传统神经网络参数更少，易于训练。

随着技术发展，卷积神经网络的趋势是模型深度越深、精度越高，精度的提升使得很多视觉任务可以走向实用，同时也带来了巨大的计算量，模型越深需要的计算量就越大，部署时需大量硬件设备，成本高昂，同时在一些实时性要求高的应用上也不能满足需求。

为了节省成本，提高设备效率，针对CNN模型目前已有一些模型压缩的方法，比如模型剪枝、模型量化、权重共享等。模型剪枝是指训练好一个模型后，统计其各层参数的值，将绝对值小于阈值的参数去掉，从而达到减少参数，减少模型大小，加快计算速度的目的；模型量化是指将训练好的模型中的参数量化到低位表示，降低参数精度，减少硬件计算耗时；权重共享是指将模型中的参数聚类，使用聚类中心代替相近的参数。这几类方法是基本思路都是去除一部分模型参数，或者将参数降低精度来达到加速的效果，虽然可以在一定程度上加快计算速度，但是在一个已有的大模型基础上减少参数个数，或利用硬件特性计算低比特的数据，这是量变而非质变的方法，压缩之后的精度和速度都受到影响。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种神经网络模型的训练方法，以解决现有模型压缩技术影响计算速度和计算精度的问题。

本发明的目的之二在于提供一种电子设备，以解决现有模型压缩技术影响计算速度和计算精度的问题。

本发明的目的之一采用如下技术方案实现：

一种神经网络模型的训练方法，包括：

获取第一图像特征和第二图像特征；其中，所述第一图像特征为图片A经过已经训练完成的模型所输出的图像特征，所述第二图像特征为图片A经过待训练模型所输出的图像特征；

获取分类概率；其中，所述分类概率为所述第二图像特征经过所述待训练模型的分类层所输出的分类概率；

根据所述第一图像特征、所述第二图像特征及所述分类概率更新所述待训练模型的参数直到所述第二图像特征与所述第一图像特征相拟合。

进一步地，所述获取分类概率之前还包括：

将所述待训练模型的分类层的参数替换为所述已经训练完成的模型的分类层的参数。

进一步地，所述根据所述第一图像特征、所述第二图像特征及所述分类概率更新所述待训练模型的参数直到所述第二图像特征与所述第一图像特征相拟合包括：

根据所述第一图像特征和所述第二图像特征计算第一损失函数；

根据所述分类概率计算第二损失函数；

根据所述第一损失函数和所述第二损失函数更新所述待训练模型的参数。

进一步地，所述根据所述第一损失函数和所述第二损失函数更新所述待训练模型的参数包括：

根据所述第一损失函数和所述第二损失函数，利用链式法则和随机梯度下降算法更新所述待训练模型的参数。

进一步地，所述根据所述第一图像特征和所述第二图像特征计算第一损失函数包括：根据公式

计算第一损失函数，其中，L₁为第一损失函数，X1_i为第一图像特征，X2_i为第二图像特征，i＝1......n，n为第二图像特征的数量。

进一步地，所述根据所述分类概率计算第二损失函数包括：根据公式L₂＝-log(σ_j(z))计算第二损失函数，其中，L₂为第二损失函数，σ_j(z)为每个分类的分类概率；

且其中，z_j为每种分类的预测值，j＝1......m，m为所有分类的总数。

进一步地，所述待训练模型的特征对比层的维度与所述已经训练完成的模型的特征对比层的维度相同。

进一步地，所述待训练模型的特征对比层的维度为64维。

本发明的目的之二采用如下技术方案实现：

一种电子设备，包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行上述的方法。

本发明还涉及一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行上述的方法。

相比现有技术，本发明的有益效果在于：将相同的图片A分别经过已经训练完成的模型和待训练的模型得到第一图像特征和第二图像特征，将第二图像特征继续经过待训练的模型得到分类概率；根据第一图像特征、第二图像特征及分类概率更新待训练模型的参数直到第二图像特征与第一图像特征相拟合，从而训练得到一个与已经训练完成的大模型精度相当的小模型，保证了计算速度和计算精度。

附图说明

图1为本发明实施例一提供的神经网络模型的训练方法的流程图；

图2为本发明实施例一提供的神经网络模型的结构；

图3为本发明实施例二提供的神经网络模型的训练方法的流程图；

图4为本发明实施例提供的电子设备的示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

如图1所示，本发明实施例一提供的神经网络模型的训练方法，包括：

步骤S101：获取第一图像特征和第二图像特征；其中，所述第一图像特征为图片A经过已经训练完成的模型所输出的图像特征，所述第二图像特征为图片A经过待训练模型所输出的图像特征。

具体的，如图2所示，已经训练完成的模型基于卷积神经网络，模型的结构包括主干网络、特征对比层和分类层，其中，主干网络包括多个卷积层和多个池化层，主干网络用于提取图片的主要特征，特征对比层用于对主干网络提取的图片的主要特征进行线性变换，分类层用于根据经过线性变换的图像特征计算出预测类别的概率。训练的过程为：将样本图片和标注依次经过主干网络、特征对比层和分类层，设定损失函数计算模型的输出与预测结果的相似度，根据损失函数的值反向传播梯度，使用梯度下降算法优化模型参数，反复迭代，直至输出结果的准确率不再上升，模型即训练完成。主干网络提取图片的主要特征、基于卷积神经网络训练模型以及使用梯度下降算法优化模型参数均为现有技术，在此，不再赘述。本实施例的待训练模型是在已经训练完成的模型的基础上构建的，同样包括主干网络、特征对比层和分类层，相对于已经训练完成的模型，待训练的模型的主干网络的结构层数较少。将图片A经过已经训练完成的模型，依次向前传播至特征对比层输出第一图像特征，将相同的图片A经过待训练模型，依次向前传播至特征对比层输出第二图像特征。进一步地，为了保证参数的统一，提高训练的精度和效率，待训练模型的特征对比层的维度与已经训练完成的模型的特征对比层的维度相同。本实施例中已经训练完成的模型的特征对比层的维度为64维，待训练模型的特征对比层的维度同样为64维。

步骤S102：获取分类概率；其中，所述分类概率为所述第二图像特征经过所述待训练模型的分类层所输出的分类概率。

具体的，将经过待训练模型的特征对比层的第二图像特征继续向前传播至分类层，计算出所有分类结果的分类概率。

步骤S103：根据所述第一图像特征、所述第二图像特征及所述分类概率更新所述待训练模型的参数直到所述第二图像特征与所述第一图像特征相拟合。

该步骤包括：

步骤S1031：根据所述第一图像特征和所述第二图像特征计算第一损失函数。

具体的，根据公式

步骤S1032：根据所述分类概率计算第二损失函数；

具体的，根据公式L₂＝-log(σ_j(z))计算第二损失函数，其中，L₂为第二损失函数，σ_j(z)为每个分类的分类概率；

步骤S1033：根据所述第一损失函数和所述第二损失函数更新所述待训练模型的参数。

该步骤包括：

具体的，为第一损失函数和第二损失函数分别设置权重值计算综合损失函数，计算公式为：L＝αL₁+βL₂，其中，L为综合损失函数，α和β为两个权重值，其中权重值的比例可以为1:1，也可以根据实际需要设置其他比例，根据综合损失函数的值，利用链式法则在待训练模型上逐层反向传播梯度，使用随机梯度下降算法更新待训练模型的结构中各层的参数，例如改变卷积计算过程中的权值、特征对比层的系数等，直到经过待训练模型提取到的第二图像特征与经过已经训练完成的模型提取到的第一图像特征相拟合，第二损失函数的值不再下降时训练结束。其中，利用链式法则在待训练模型上逐层反向传播梯度，使用随机梯度下降算法更新待训练模型的参数为现有技术，在此不再赘述。

在本实施例的基础上，对训练好的小模型使用模型压缩技术进一步对其压缩，可以得到计算速度更快的小模型，也在本发明的保护范围内。

本实施例提供的神经网络训练方法的待训练模型的训练过程中，将已经训练完成的模型的冗余结构删除，训练过程中有已经训练完成的模型的特征做指导，直到待训练模型提取的第二图像特征达到与已经训练完成的模型提取的第一图像特征相仿的精度时训练结束。已经训练完成的模型为深度更深的大模型，使用大模型的特征作为训练目标，扩充了数据空间和分类标签，且减少了训练的复杂程度。相比于传统的训练方法，训练速度更快，且精度更高。

如图3所示，本发明实施例二提供的神经网络模型的训练方法，包括：

步骤S201：获取第一图像特征和第二图像特征；其中，所述第一图像特征为图片A经过已经训练完成的模型所输出的图像特征，所述第二图像特征为图片A经过待训练模型所输出的图像特征。

步骤S202：将所述待训练模型的分类层的参数替换为所述已经训练完成的模型的分类层的参数。

具体的，在第二图像特征向前传播之前，将已经训练完成的模型的分类层的参数复制到待训练模型的分类层中，以进一步提高模型训练的精度和速度。

步骤S203：获取分类概率；其中，所述分类概率为所述第二图像特征经过所述待训练模型的分类层所输出的分类概率。

步骤S204：根据所述第一图像特征、所述第二图像特征及所述分类概率更新所述待训练模型的参数直到所述第二图像特征与所述第一图像特征相拟合。

本实施例中的步骤S201和步骤S203-S204与实施例一中的步骤S101-S103相同，在此不再赘述。

本实施例提供的神经网络模型的训练方法，在已经训练完成的模型的基础上构建一个小模型，将相同的图片分别经过已经训练完成的模型和待训练模型分别提取出第一图像特征和第二图像特征，将第二图像特征继续向前传播得到分类概率，根据第一图像特征、第二图像特征及分类概率更新待训练模型的参数，直到经过待训练模型提取到的第二图像特征与经过已经训练完成的模型提取到的第一图像特征相拟合，第二损失函数的值不再下降时训练结束。从而得到一个和已经训练完成的大模型的精度相当的小模型，且不影响模型的精度。

如图4所示，本发明实施例提供的电子设备，包括：处理器11、存储器12以及程序，其中所述程序被存储在存储器12中，并且被配置成由处理器11执行，所述程序包括用于执行上述的方法。

本实施例中的电子设备与前述实施例中的方法是基于同一发明构思下的两个方面，在前面已经对方法实施过程作了详细的描述，所以本领域技术人员可根据前述描述清楚地了解本实施例中的电子设备的实施过程，为了说明书的简洁，在此就不再赘述。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来。本发明还涉及一种计算机可读存储介质，如ROM/RAM、磁碟、光盘等，其上存储有计算机程序，计算机程序被处理器执行上述的方法。

本发明提供的神经网络模型的训练方法、电子设备及存储介质将相同的图片A分别经过已经训练完成的模型和待训练的模型得到第一图像特征和第二图像特征，将第二图像特征继续经过待训练的模型得到分类概率；根据第一图像特征、第二图像特征及分类概率更新待训练模型的参数直到第二图像特征与第一图像特征相拟合，从而训练得到一个与已经训练完成的大模型精度相当的小模型，保证了计算速度和计算精度。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种神经网络模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的神经网络模型的训练方法，其特征在于，所述获取分类概率之前还包括：

3.根据权利要求2所述的神经网络模型的训练方法，其特征在于，所述根据所述第一图像特征、所述第二图像特征及所述分类概率更新所述待训练模型的参数直到所述第二图像特征与所述第一图像特征相拟合包括：

根据所述分类概率计算第二损失函数；

4.根据权利要求3所述的神经网络模型的训练方法，其特征在于，所述根据所述第一损失函数和所述第二损失函数更新所述待训练模型的参数包括：

5.根据权利要求3所述的神经网络模型的训练方法，其特征在于，所述根据所述第一图像特征和所述第二图像特征计算第一损失函数包括：根据公式

6.根据权利要求3所述的神经网络模型的训练方法，其特征在于，所述根据所述分类概率计算第二损失函数包括：根据公式L₂＝-log(σ_j(z))计算第二损失函数，其中，L₂为第二损失函数，σ_j(z)为每个分类的分类概率；

7.根据权利要求1所述的神经网络模型的训练方法，其特征在于，所述待训练模型的特征对比层的维度与所述已经训练完成的模型的特征对比层的维度相同。

8.根据权利要求7所述的神经网络模型的训练方法，其特征在于，所述待训练模型的特征对比层的维度为64维。

9.一种电子设备，其特征在于，包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行权利要求1-8任意一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行如权利要求1-8任意一项所述的方法。