CN109635930A

CN109635930A - 一种深度神经网络的优化方法

Info

Publication number: CN109635930A
Application number: CN201811513778.7A
Authority: CN
Inventors: 刘闯; 陈诗昱
Original assignee: Xi'an Sixth Mirror Network Technology Co Ltd
Current assignee: Xi'an Sixth Mirror Network Technology Co Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2019-04-16

Abstract

本发明实施例公开了一种深度神经网络的优化方法，涉及机器学习技术领域，所述优化方法包括：构建训练基线模型，所述训练基线模型作为被优化对象；通过Thomson问题求解得到训练基线模型中全连接层的权值；定义新的损失函数并构建新的三维损失层，所述新的三维损失层只有一个超参数θ_m；利用包含新的三维损失层的训练模型对样本继续训练。本发明可以解决现有技术中深度神经网络在海量数据下训练慢且精度难提升的问题，具有很高的训练速度和准确率。

Description

一种深度神经网络的优化方法

技术领域

本发明实施例涉及机器学习技术领域，具体涉及一种深度神经网络的优化方法。

背景技术

目前计算机视觉、语音识别和机器人在内的诸多人工智能应用已广泛使用了深度神经网络DNN，由于DNN在语音识别和图像识别上的突破性应用，使用DNN的应用量有了爆炸性的增长。这些DNN被部署到了从自动驾驶汽车、癌症检测到复杂游戏等各种应用中。DNN能使用统计学习方法从原始感官数据中提取高层特征，在大量的数据中获得输入空间的有效表征。

业界常用的深度神经网络是通过全连接层的内积和Softmax层结合的方式来训练网络，表达式为得到了不错的效果，但是当不同类别图像数据的分类数量远远超过深度神经网络训练特征维数时，神经网络的全连接层对权值的训练将消耗整个神经网络训练很大比例的算力和时间，且随着数据量的不断增大，对计算机的算力和训练时间要求越来越高，训练模型也很难收敛，并且准确率很难得到提升。另外，目前state ofart模型的超参数过多，在训练过程中对参数的调节难度很大，很难得到令人满意的结果。

发明内容

为此，本发明实施例提供一种深度神经网络的优化方法，以解决现有技术中深度神经网络在海量数据下训练慢且精度难提升的问题。

为了实现上述目的，本发明的实施方式提供如下技术方案：提供一种深度神经网络的优化方法，所述优化方法包括：构建训练基线模型，所述训练基线模型作为被优化对象；通过Thomson问题求解得到训练基线模型中全连接层的权值；定义新的损失函数并构建新的三维损失层，所述新的三维损失层只有一个超参数θ_m；利用包含新的三维损失层的训练模型对样本继续训练。

优选地，所述训练基线模型包括卷积层、全连接层和损失层，训练样本通过训练基线模型训练后生成样本标签。

优选地，所述通过Thomson问题求解得到训练基线模型中全连接层的权值的方法包括：类比Thomson问题求解能够得到电子的最优分布，把样本数据投射到一个多维空间内的超球面上，利用Thomson方程计算出最优分布的全连接层的权值。

优选地，所述新的损失函数为：

其中，x_i,y_i,x_j,y_j表示样本数据投射在超球面上的位置坐标，N表示样本数据的总数，W_yj，W_yi表示样本数据的坐标向量。

优选地，所述包含新的三维损失层的训练模型包括卷积层和三维损失层，将训练基线模型中的全连接层和损失层替换为三维损失层。

优选地，所述利用包含新的三维损失层的训练模型对样本继续训练的方法包括：将Thomson求解得到的权值提取出来，以训练基线模型的全连接层的原权值为参照，把Thomson求解得到的权值旋转后加载到三维损失层内，对样本数据继续训练。

优选地，所述超参数θ_m的范围为：其中，θ_m越小代表约束性越强，则模型准确率越高。

优选地，所述优化方法还包括对三维损失层的测试，所述测试方法包括：利用三维损失层对测试样本进行特征提取，得到一个角度量，再利用余弦相似度计算类内数据或类间数据的相似度，从而检测优化效果。

根据本发明的实施方式，本申请具有如下优点：本发明将Thomson问题求解运用到训练模型中，建立三维损失层，无需对全连接层进行训练，显著地提升了模型的准确率与鲁棒性，与此同时节省了模型大量的训练时间和算力，大大提高了训练速度；本发明提供的优化方法所利用的训练模型的超参数只有一个，能够避免过多参数不易调节的问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的一种深度神经网络的优化方法的流程示意图；

图2为本发明实施例提供的一种深度神经网络的优化方法的Thomson问题求解的三维超球面示意图；

图3为本发明的一种深度神经网络的优化方法的θ_m和准确率的关系示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本申请的发明思路为：深度神经网络是通过全连接层的内积和损失层结合的方式来训练网络，而传统的内积ω·x可以很自然地表示为||ω||·||x||·cosθ，即范数和角度余弦的乘积。而Thomson问题是一个类似的物理问题，它针对的是多维度空间内电子间的最小静电势能问题。受库伦定律决定，每个电子都会受到并施加给其它电子一个力，最终这些电子会形成一个稳定的状态，就是电子均匀地分布于超球表面。这种情况下，静电势能是最低的，也就是说模型的损失值是最低的。因此，如果能够把样本数据映射在三维超球的表面，利用Thomson问题求解的方法得到全连接层的权值，就不需通过大量的训练和计算，且能够快速而高效地训练深度神经网络。

因此，参考图1，本实施例提供一种深度神经网络的优化方法，包括：先构建训练基线模型，训练基线模型作为被优化对象，训练基线模型包括卷积层、全连接层和损失层，训练样本通过训练基线模型训练后生成样本标签；

再通过Thomson问题求解得到训练基线模型中全连接层的权值，具体地：参考图2，类比Thomson问题求解能够得到电子的最优分布，把样本数据投射到一个多维空间内的超球面上，利用Thomson方程计算出最优分布的全连接层的权值；其中，在这个超球面上，将类间差异最大化，类内差异最小化，即保证同类别样本之间距离足够的近，不同类别样本间距离足够的远，以此来提升训练模型的精度。

同时定义新的损失函数并构建新的三维损失层，所述三维损失层替代原训练基线模型中的全连接层和损失层，且只有一个超参数θ_m；

最后利用包含新的三维损失层的训练模型对样本继续训练，新的三维损失层的训练模型包括卷积层和三维损失层。

进一步地，新的损失函数为：

其中，x_i,y_i,x_j,y_j表示样本数据投射在超球面上的位置坐标，N表示样本数据的总数，W_yi表示样本数据的坐标向量。

θ_m的值应该与数据的维度数和样本数相关，在二维空间上两个点的角度距离应该为π，而在二维空间上若有m个点，它们之间的角度距离应该为这个值代表了类间角度距离的最大值。针对θ_m与样本数m和维度数n的关系，可推断出：

因为先通过来得到θ_m，然后再求得到其下界。

已知

依据线性代数中的Mutual Coherence，我们可得：

根据Joel Tropp的论文《Designing structured tight frames via analternating projection method》，我们可得一组向量最大相关性的下界，

进而得到

由此得到θ_m的上界，

故超参数θ_m的范围为：其中，参考图3，图3的横坐标为θ_m的大小，纵坐标为模型的准确率，由图3的关系图可知：θ_m越小代表约束性越强，则模型准确率越高。

进一步地，利用包含新的三维损失层的训练模型对样本继续训练的方法包括：将Thomson求解得到的权值提取出来，以训练基线模型的全连接层的原权值为参照，把Thomson求解得到的权值旋转后加载到三维损失层内，对样本数据继续训练。

为了检测优化后的训练效果，本实施例还提供一种对三维损失层的测试方法，包括：利用三维损失层对测试样本进行特征提取，得到一个角度量，再利用余弦相似度计算类内数据或类间数据的相似度，从而检测优化效果，类内相似度越大代表优化效果越好。

本实施例将Thomson问题求解运用到训练模型中，建立三维损失层，无需对全连接层进行训练，显著地提升了模型的准确率与鲁棒性，与此同时节省了模型大量的训练时间和算力，大大提高了训练速度；本发明提供的优化方法所利用的训练模型的超参数只有一个，能够避免过多参数不易调节的问题；且在三维超球面上，将类间差异最大化，类内差异最小化，保证同类别样本之间距离足够的近，不同类别样本间距离足够的远，能够提升训练模型的精度。

实施例2

本实施例基于实施例一的理论提供一组实验数据，此实验是在Cifar10数据集上做的。Cifar10数据集共有60000张彩色图像，这些图像的规格是32×32，分为10个类：飞机，轿车，鸟，猫，鹿，狗，马，青蛙，船和卡车，每类有6000张图。这里面有50000张用于训练，构成了5个训练批，每一批10000张图；另外10000用于测试，单独构成一批。在此实验中，Resnet-32残差网络为训练基线模型，我们将训练结束的Resnet-32全连接层权值提取出，做为Thomson问题求解的初始化，待Thomson问题求解结束，再将求解后的权值提取出来，以原全连接层权值为参照，旋转后加载入三维损失层，以基线模型为基础，对进行继续训练。此次试验中，常用的state ofart模型训练了25000次迭代，而本申请提供的优化方法只训练了10000次迭代就得到了更优的测试结果，大幅度地节省了全连接层训练所需的算力和时间，具体数据如下表：

方法	Cifar10
		Resnet-32	10.93
stateofart模型	10.80
		三维损失层	10.77

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种深度神经网络的优化方法，其特征在于，所述优化方法包括：

构建训练基线模型，所述训练基线模型作为被优化对象；

通过Thomson问题求解得到训练基线模型中全连接层的权值；

定义新的损失函数并构建新的三维损失层，所述新的三维损失层只有一个超参数θ_m；

利用包含新的三维损失层的训练模型对样本继续训练。

2.如权利要求1所述的一种深度神经网络的优化方法，其特征在于，所述训练基线模型包括卷积层、全连接层和损失层，训练样本通过训练基线模型训练后生成样本标签。

3.如权利要求1所述的一种深度神经网络的优化方法，其特征在于，所述通过Thomson问题求解得到训练基线模型中全连接层的权值的方法包括：类比Thomson问题求解能够得到电子的最优分布，把样本数据投射到一个多维空间内的超球面上，利用Thomson方程计算出最优分布的全连接层的权值。

4.如权利要求1所述的一种深度神经网络的优化方法，其特征在于，所述新的损失函数为：

其中，x_i,y_i,x_j,y_j表示样本数据投射在超球面上的位置坐标，N表示样本数据的总数，表示样本数据的坐标向量。

5.如权利要求1所述的一种深度神经网络的优化方法，其特征在于，所述包含新的三维损失层的训练模型包括卷积层和三维损失层，将训练基线模型中的全连接层和损失层替换为三维损失层。

6.如权利要求1所述的一种深度神经网络的优化方法，其特征在于，所述利用包含新的三维损失层的训练模型对样本继续训练的方法包括：将Thomson求解得到的权值提取出来，以训练基线模型的全连接层的原权值为参照，把Thomson求解得到的权值旋转后加载到三维损失层内，对样本数据继续训练。

7.如权利要求1所述的一种深度神经网络的优化方法，其特征在于，所述超参数θ_m的范围为：其中，θ_m越小代表约束性越强，则模型准确率越高。

8.如权利要求1所述的一种深度神经网络的优化方法，其特征在于，所述优化方法还包括对三维损失层的测试，所述测试方法包括：利用三维损失层对测试样本进行特征提取，得到一个角度量，再利用余弦相似度计算类内数据或类间数据的相似度，从而检测优化效果。