CN109635930A - 一种深度神经网络的优化方法 - Google Patents
一种深度神经网络的优化方法 Download PDFInfo
- Publication number
- CN109635930A CN109635930A CN201811513778.7A CN201811513778A CN109635930A CN 109635930 A CN109635930 A CN 109635930A CN 201811513778 A CN201811513778 A CN 201811513778A CN 109635930 A CN109635930 A CN 109635930A
- Authority
- CN
- China
- Prior art keywords
- training
- loss layer
- neural network
- optimization method
- deep neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000005457 optimization Methods 0.000 title claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 56
- 238000012360 testing method Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000007689 inspection Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010998 test method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 5
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000005421 electrostatic potential Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000282994 Cervidae Species 0.000 description 1
- 241000283073 Equus caballus Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 241000009328 Perro Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种深度神经网络的优化方法,涉及机器学习技术领域,所述优化方法包括:构建训练基线模型,所述训练基线模型作为被优化对象;通过Thomson问题求解得到训练基线模型中全连接层的权值;定义新的损失函数并构建新的三维损失层,所述新的三维损失层只有一个超参数θm;利用包含新的三维损失层的训练模型对样本继续训练。本发明可以解决现有技术中深度神经网络在海量数据下训练慢且精度难提升的问题,具有很高的训练速度和准确率。
Description
技术领域
本发明实施例涉及机器学习技术领域,具体涉及一种深度神经网络的优化方法。
背景技术
目前计算机视觉、语音识别和机器人在内的诸多人工智能应用已广泛使用了深度神经网络DNN,由于DNN在语音识别和图像识别上的突破性应用,使用DNN的应用量有了爆炸性的增长。这些DNN被部署到了从自动驾驶汽车、癌症检测到复杂游戏等各种应用中。DNN能使用统计学习方法从原始感官数据中提取高层特征,在大量的数据中获得输入空间的有效表征。
业界常用的深度神经网络是通过全连接层的内积和Softmax层结合的方式来训练网络,表达式为得到了不错的效果,但是当不同类别图像数据的分类数量远远超过深度神经网络训练特征维数时,神经网络的全连接层对权值的训练将消耗整个神经网络训练很大比例的算力和时间,且随着数据量的不断增大,对计算机的算力和训练时间要求越来越高,训练模型也很难收敛,并且准确率很难得到提升。另外,目前state ofart模型的超参数过多,在训练过程中对参数的调节难度很大,很难得到令人满意的结果。
发明内容
为此,本发明实施例提供一种深度神经网络的优化方法,以解决现有技术中深度神经网络在海量数据下训练慢且精度难提升的问题。
为了实现上述目的,本发明的实施方式提供如下技术方案:提供一种深度神经网络的优化方法,所述优化方法包括:构建训练基线模型,所述训练基线模型作为被优化对象;通过Thomson问题求解得到训练基线模型中全连接层的权值;定义新的损失函数并构建新的三维损失层,所述新的三维损失层只有一个超参数θm;利用包含新的三维损失层的训练模型对样本继续训练。
优选地,所述训练基线模型包括卷积层、全连接层和损失层,训练样本通过训练基线模型训练后生成样本标签。
优选地,所述通过Thomson问题求解得到训练基线模型中全连接层的权值的方法包括:类比Thomson问题求解能够得到电子的最优分布,把样本数据投射到一个多维空间内的超球面上,利用Thomson方程计算出最优分布的全连接层的权值。
优选地,所述新的损失函数为:
其中,xi,yi,xj,yj表示样本数据投射在超球面上的位置坐标,N表示样本数据的总数,Wyj,Wyi表示样本数据的坐标向量。
优选地,所述包含新的三维损失层的训练模型包括卷积层和三维损失层,将训练基线模型中的全连接层和损失层替换为三维损失层。
优选地,所述利用包含新的三维损失层的训练模型对样本继续训练的方法包括:将Thomson求解得到的权值提取出来,以训练基线模型的全连接层的原权值为参照,把Thomson求解得到的权值旋转后加载到三维损失层内,对样本数据继续训练。
优选地,所述超参数θm的范围为:其中,θm越小代表约束性越强,则模型准确率越高。
优选地,所述优化方法还包括对三维损失层的测试,所述测试方法包括:利用三维损失层对测试样本进行特征提取,得到一个角度量,再利用余弦相似度计算类内数据或类间数据的相似度,从而检测优化效果。
根据本发明的实施方式,本申请具有如下优点:本发明将Thomson问题求解运用到训练模型中,建立三维损失层,无需对全连接层进行训练,显著地提升了模型的准确率与鲁棒性,与此同时节省了模型大量的训练时间和算力,大大提高了训练速度;本发明提供的优化方法所利用的训练模型的超参数只有一个,能够避免过多参数不易调节的问题。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例提供的一种深度神经网络的优化方法的流程示意图;
图2为本发明实施例提供的一种深度神经网络的优化方法的Thomson问题求解的三维超球面示意图;
图3为本发明的一种深度神经网络的优化方法的θm和准确率的关系示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本申请的发明思路为:深度神经网络是通过全连接层的内积和损失层结合的方式来训练网络,而传统的内积ω·x可以很自然地表示为||ω||·||x||·cosθ,即范数和角度余弦的乘积。而Thomson问题是一个类似的物理问题,它针对的是多维度空间内电子间的最小静电势能问题。受库伦定律决定,每个电子都会受到并施加给其它电子一个力,最终这些电子会形成一个稳定的状态,就是电子均匀地分布于超球表面。这种情况下,静电势能是最低的,也就是说模型的损失值是最低的。因此,如果能够把样本数据映射在三维超球的表面,利用Thomson问题求解的方法得到全连接层的权值,就不需通过大量的训练和计算,且能够快速而高效地训练深度神经网络。
因此,参考图1,本实施例提供一种深度神经网络的优化方法,包括:先构建训练基线模型,训练基线模型作为被优化对象,训练基线模型包括卷积层、全连接层和损失层,训练样本通过训练基线模型训练后生成样本标签;
再通过Thomson问题求解得到训练基线模型中全连接层的权值,具体地:参考图2,类比Thomson问题求解能够得到电子的最优分布,把样本数据投射到一个多维空间内的超球面上,利用Thomson方程计算出最优分布的全连接层的权值;其中,在这个超球面上,将类间差异最大化,类内差异最小化,即保证同类别样本之间距离足够的近,不同类别样本间距离足够的远,以此来提升训练模型的精度。
同时定义新的损失函数并构建新的三维损失层,所述三维损失层替代原训练基线模型中的全连接层和损失层,且只有一个超参数θm;
最后利用包含新的三维损失层的训练模型对样本继续训练,新的三维损失层的训练模型包括卷积层和三维损失层。
进一步地,新的损失函数为:
其中,xi,yi,xj,yj表示样本数据投射在超球面上的位置坐标,N表示样本数据的总数,Wyi表示样本数据的坐标向量。
θm的值应该与数据的维度数和样本数相关,在二维空间上两个点的角度距离应该为π,而在二维空间上若有m个点,它们之间的角度距离应该为这个值代表了类间角度距离的最大值。针对θm与样本数m和维度数n的关系,可推断出:
因为先通过来得到θm,然后再求得到其下界。
已知
依据线性代数中的Mutual Coherence,我们可得:
根据Joel Tropp的论文《Designing structured tight frames via analternating projection method》,我们可得一组向量最大相关性的下界,
进而得到
由此得到θm的上界,
故超参数θm的范围为:其中,参考图3,图3的横坐标为θm的大小,纵坐标为模型的准确率,由图3的关系图可知:θm越小代表约束性越强,则模型准确率越高。
进一步地,利用包含新的三维损失层的训练模型对样本继续训练的方法包括:将Thomson求解得到的权值提取出来,以训练基线模型的全连接层的原权值为参照,把Thomson求解得到的权值旋转后加载到三维损失层内,对样本数据继续训练。
为了检测优化后的训练效果,本实施例还提供一种对三维损失层的测试方法,包括:利用三维损失层对测试样本进行特征提取,得到一个角度量,再利用余弦相似度计算类内数据或类间数据的相似度,从而检测优化效果,类内相似度越大代表优化效果越好。
本实施例将Thomson问题求解运用到训练模型中,建立三维损失层,无需对全连接层进行训练,显著地提升了模型的准确率与鲁棒性,与此同时节省了模型大量的训练时间和算力,大大提高了训练速度;本发明提供的优化方法所利用的训练模型的超参数只有一个,能够避免过多参数不易调节的问题;且在三维超球面上,将类间差异最大化,类内差异最小化,保证同类别样本之间距离足够的近,不同类别样本间距离足够的远,能够提升训练模型的精度。
实施例2
本实施例基于实施例一的理论提供一组实验数据,此实验是在Cifar10数据集上做的。Cifar10数据集共有60000张彩色图像,这些图像的规格是32×32,分为10个类:飞机,轿车,鸟,猫,鹿,狗,马,青蛙,船和卡车,每类有6000张图。这里面有50000张用于训练,构成了5个训练批,每一批10000张图;另外10000用于测试,单独构成一批。在此实验中,Resnet-32残差网络为训练基线模型,我们将训练结束的Resnet-32全连接层权值提取出,做为Thomson问题求解的初始化,待Thomson问题求解结束,再将求解后的权值提取出来,以原全连接层权值为参照,旋转后加载入三维损失层,以基线模型为基础,对进行继续训练。此次试验中,常用的state ofart模型训练了25000次迭代,而本申请提供的优化方法只训练了10000次迭代就得到了更优的测试结果,大幅度地节省了全连接层训练所需的算力和时间,具体数据如下表:
方法 | Cifar10 |
Resnet-32 | 10.93 |
stateofart模型 | 10.80 |
三维损失层 | 10.77 |
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (8)
1.一种深度神经网络的优化方法,其特征在于,所述优化方法包括:
构建训练基线模型,所述训练基线模型作为被优化对象;
通过Thomson问题求解得到训练基线模型中全连接层的权值;
定义新的损失函数并构建新的三维损失层,所述新的三维损失层只有一个超参数θm;
利用包含新的三维损失层的训练模型对样本继续训练。
2.如权利要求1所述的一种深度神经网络的优化方法,其特征在于,所述训练基线模型包括卷积层、全连接层和损失层,训练样本通过训练基线模型训练后生成样本标签。
3.如权利要求1所述的一种深度神经网络的优化方法,其特征在于,所述通过Thomson问题求解得到训练基线模型中全连接层的权值的方法包括:类比Thomson问题求解能够得到电子的最优分布,把样本数据投射到一个多维空间内的超球面上,利用Thomson方程计算出最优分布的全连接层的权值。
4.如权利要求1所述的一种深度神经网络的优化方法,其特征在于,所述新的损失函数为:
其中,xi,yi,xj,yj表示样本数据投射在超球面上的位置坐标,N表示样本数据的总数,表示样本数据的坐标向量。
5.如权利要求1所述的一种深度神经网络的优化方法,其特征在于,所述包含新的三维损失层的训练模型包括卷积层和三维损失层,将训练基线模型中的全连接层和损失层替换为三维损失层。
6.如权利要求1所述的一种深度神经网络的优化方法,其特征在于,所述利用包含新的三维损失层的训练模型对样本继续训练的方法包括:将Thomson求解得到的权值提取出来,以训练基线模型的全连接层的原权值为参照,把Thomson求解得到的权值旋转后加载到三维损失层内,对样本数据继续训练。
7.如权利要求1所述的一种深度神经网络的优化方法,其特征在于,所述超参数θm的范围为:其中,θm越小代表约束性越强,则模型准确率越高。
8.如权利要求1所述的一种深度神经网络的优化方法,其特征在于,所述优化方法还包括对三维损失层的测试,所述测试方法包括:利用三维损失层对测试样本进行特征提取,得到一个角度量,再利用余弦相似度计算类内数据或类间数据的相似度,从而检测优化效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811513778.7A CN109635930A (zh) | 2018-12-11 | 2018-12-11 | 一种深度神经网络的优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811513778.7A CN109635930A (zh) | 2018-12-11 | 2018-12-11 | 一种深度神经网络的优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109635930A true CN109635930A (zh) | 2019-04-16 |
Family
ID=66072961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811513778.7A Pending CN109635930A (zh) | 2018-12-11 | 2018-12-11 | 一种深度神经网络的优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635930A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807164A (zh) * | 2021-07-29 | 2021-12-17 | 四川天翼网络服务有限公司 | 一种基于余弦损失函数的人脸识别方法 |
TWI769418B (zh) * | 2019-12-05 | 2022-07-01 | 財團法人工業技術研究院 | 深度神經網路超參數選擇方法及電子裝置 |
-
2018
- 2018-12-11 CN CN201811513778.7A patent/CN109635930A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI769418B (zh) * | 2019-12-05 | 2022-07-01 | 財團法人工業技術研究院 | 深度神經網路超參數選擇方法及電子裝置 |
US11537893B2 (en) | 2019-12-05 | 2022-12-27 | Industrial Technology Research Institute | Method and electronic device for selecting deep neural network hyperparameters |
CN113807164A (zh) * | 2021-07-29 | 2021-12-17 | 四川天翼网络服务有限公司 | 一种基于余弦损失函数的人脸识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Individual tree crown segmentation directly from UAV-borne LiDAR data using the PointNet of deep learning | |
Fish et al. | Hydrodynamic performance of aquatic flapping: efficiency of underwater flight in the manta | |
Pereira et al. | Deep learning techniques for grape plant species identification in natural images | |
Wang et al. | Transferring pre-trained deep CNNs for remote scene classification with general features learned from linear PCA network | |
CN105139028B (zh) | 基于分层稀疏滤波卷积神经网络的sar图像分类方法 | |
Gens et al. | Deep symmetry networks | |
Walker et al. | Deformable wing kinematics in the desert locust: how and why do camber, twist and topography vary through the stroke? | |
de Camargo et al. | Optimized deep learning model as a basis for fast UAV mapping of weed species in winter wheat crops | |
CN106548208A (zh) | 一种照片图像快速智能风格化方法 | |
Sinha et al. | Particle swarm optimization based approach for finding optimal values of convolutional neural network parameters | |
CN104050507B (zh) | 基于多层神经网络的超光谱图像分类方法 | |
CN107451528B (zh) | 基于深度学习的地表覆盖图片自动识别方法及系统 | |
CN104298999B (zh) | 基于递归自动编码的高光谱特征学习方法 | |
Sun et al. | Recent progress in modeling and control of bio-inspired fish robots | |
Rahman et al. | Performance evaluation of deep learning object detectors for weed detection for cotton | |
CN109635930A (zh) | 一种深度神经网络的优化方法 | |
Zhang et al. | Research on scene classification method of high-resolution remote sensing images based on RFPNet | |
CN109460774A (zh) | 一种基于改进的卷积神经网络的鸟类识别方法 | |
Zhao et al. | Crop pest recognition in real agricultural environment using convolutional neural networks by a parallel attention mechanism | |
CN107451594A (zh) | 一种基于多元回归的多视角步态分类方法 | |
Bao et al. | Numerical simulation of flapping airfoil with alula | |
Ghahremani et al. | Orderly disorder in point cloud domain | |
Basri et al. | Computational Fluid Dynamics Analysis in Biomimetics Applications: A Review from Aerospace Engineering Perspective | |
CN110310298A (zh) | 一种基于循环条件随机场的道路目标实时三维点云分割方法 | |
CN110045336A (zh) | 基于卷积神经网络的雷达干扰识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190416 |