CN112488309A - 基于临界阻尼动量的深度神经网络的训练方法及系统 - Google Patents

基于临界阻尼动量的深度神经网络的训练方法及系统 Download PDF

Info

Publication number
CN112488309A
CN112488309A CN202011521458.3A CN202011521458A CN112488309A CN 112488309 A CN112488309 A CN 112488309A CN 202011521458 A CN202011521458 A CN 202011521458A CN 112488309 A CN112488309 A CN 112488309A
Authority
CN
China
Prior art keywords
neural network
training
sea
trace
momentum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011521458.3A
Other languages
English (en)
Other versions
CN112488309B (zh
Inventor
王好谦
蔡宇麟
王兴政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN202011521458.3A priority Critical patent/CN112488309B/zh
Publication of CN112488309A publication Critical patent/CN112488309A/zh
Application granted granted Critical
Publication of CN112488309B publication Critical patent/CN112488309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • G06F17/13Differential equations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Neurology (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于临界阻尼动量的深度神经网络的训练方法及系统,该方法包括:S1:开始新一轮的迭代;S2:输入一批新图像,计算神经网络的损失函数的海塞矩阵的迹,其中所述海塞矩阵是损失函数对神经网络各参数的二阶导数所构成的矩阵;S3:根据海塞矩阵的迹代入二阶微分方程的临界阻尼解,计算得到神经网络权重参数的动量系数;S4:配合学习率衰减策略,更新神经网络的参数;S5:判断是否所有图像批次都已计算,如果是,则执行步骤S6;如果否,则返回步骤S2;S6:判断迭代轮次是否达到最大,如果是,则结束训练,如果否,则返回步骤S1。本发明对包含动量的随机梯度下降方法进行了改进,达到了较为理想的训练效果。

Description

基于临界阻尼动量的深度神经网络的训练方法及系统
技术领域
本发明涉及机器学习、数值方法技术领域,尤其涉及一种基于临界阻尼动量的深度神经网络的训练方法及系统。
背景技术
深度神经网络已经在计算机视觉、自然语言处理、计算机图形学等领域展现出优异的性能。随着深度神经网络在网络层数、拓扑结构等方面的日益复杂化,深度神经网络的参数量也与日俱增,目前业界最新的神经网络的参数数目已经达到107~108数量级。庞大的参数量虽然提升了神经网络的适用范围和效能,但也给网络的训练和优化带来了难题。大型网络的训练经常需要几天甚至更多的时间,同时也对研究者的图形处理器性能提出了新的要求。这无疑给神经网络的研究和应用带来了一定程度的不便。
神经网络训练的优化经常需要借助于数值方法。近年来,在众多优化算法中,随机梯度下降(SGD)、自适应动量估计(Adam)等数值算法在图像分类、语义分割等任务中表现较为出色,能够使目标网络的损失函数在一定的迭代次数后达到或接近其极小值,成为深度学习研究人员普遍采用的训练策略。然而,SGD算法的迭代速度比较慢,而且其学习率是一个仅能凭经验设定的超参数。当学习率设置得太小或太大时,神经网络参数的迭代很容易出现步幅过缓或者剧烈振荡的问题。Adam算法虽然在一定条件下能够获得比SGD更快的速度,但它适用的网络类型比SGD少,而且在某些特殊情况下还可能不收敛。
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
为解决上述技术问题,本发明提出一种基于临界阻尼动量的深度神经网络的训练方法及系统,对包含动量的随机梯度下降方法进行了改进,达到了较为理想的训练效果。
为达到上述目的,本发明采用以下技术方案:
本发明公开了一种基于临界阻尼动量的深度神经网络的训练方法,包括以下步骤:
S1:开始新一轮的迭代;
S2:输入一批新图像,计算神经网络的损失函数的海塞矩阵的迹,其中所述海塞矩阵是损失函数对神经网络各参数的二阶导数所构成的矩阵;
S3:根据海塞矩阵的迹代入二阶微分方程的临界阻尼解,计算得到神经网络权重参数的动量系数;
S4:配合学习率衰减策略,更新神经网络的参数;
S5:判断是否所有图像批次都已计算,如果是,则执行步骤S6;如果否,则返回步骤S2;
S6:判断迭代轮次是否达到最大,如果是,则结束训练,如果否,则返回步骤S1。
优选地,步骤S2具体包括:
S21:输入一批新图像;
S22:前向传播,计算神经网络的损失函数L;
S23:反向传播,计算神经网络的损失函数的梯度向量g;
S24:生成拉特马赫随机向量v,以计算梯度向量积gTv;
S25:根据梯度向量积gTv计算海塞矩阵H与拉特马赫随机向量v的乘积;
S26:根据海塞矩阵H与拉特马赫随机向量v的乘积计算海塞矩阵的迹Tr(H);
S27:判断海塞矩阵的迹Tr(H)的精度是否符合条件,如果是,则输出海塞矩阵的迹Tr(H),如果否,则返回步骤S24。
优选地,步骤S26具体包括:使用哈特钦森向量积迭代算法以根据海塞矩阵H与拉特马赫随机向量v的乘积计算神经网络的损失函数的海塞矩阵的迹:
Figure BDA0002849080460000031
其中,E表示求均值,v为拉特马赫随机向量,H为海塞矩阵,下标m表示第m次迭代所得的值,M为所有计算出的拉特马赫随机向量v的总个数。
优选地,步骤S25具体包括:采用下列反向传播方式计算海塞矩阵H与拉特马赫随机向量v的乘积:
Figure BDA0002849080460000032
其中,
Figure BDA0002849080460000033
为神经网络的损失函数L的梯度向量,w为神经网络权重参数向量,且神经网络权重参数向量w与拉特马赫随机向量v的尺寸相同。
优选地,步骤S27中判断海塞矩阵的迹Tr(H)的精度是否符合条件具体包括:
根据下式的控制条件来确定M的取值:
Figure BDA0002849080460000034
其中,ε为误差控制阈值,如果上式的控制条件被满足时,则海塞矩阵的迹Tr(H)的精度符合条件,停止计算,输出海塞矩阵的迹Tr(H);否则海塞矩阵的迹Tr(H)的精度不符合条件,继续增大M值进行计算;进一步地,ε≤10-3
优选地,步骤S3具体包括:采用下式计算动量系数:
Figure BDA0002849080460000035
其中,ρk+1、ρk分别为第k次、第k-1次迭代计算所得的动量系数,n为抽取的神经网络权重参数向量的维数,αk为第k次迭代时神经网络的学习率,Tr(H)为神经网络的损失函数的海塞矩阵的迹。
优选地,步骤S4具体包括:将步骤S3计算得到的动量系数ρk与初始设定值ρ0进行比较,如果ρk≤ρ0,则将神经网络迭代所调用的动量系数设定为ρk,然后配合学习率衰减策略,更新神经网络的参数;否则直接配合学习率衰减策略,更新神经网络的参数。
优选地,步骤S4中配合学习率衰减策略,更新神经网络的参数具体包括:采用下式对学习率进行衰减:
Figure BDA0002849080460000041
其中,αp、αp+1分别表示更新前和更新后的学习率,c为衰减系数,epoch为当前迭代轮次,
Figure BDA0002849080460000042
表示向下取整,参数N为整数;在根据上式对学习率进行衰减后,对动量系数的值进行调节更新;
进一步地,衰减系数c设置为0.1,N=50。
本发明还公开了一种基于临界阻尼动量的深度神经网络的训练系统,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现上述的深度神经网络的训练方法的步骤。
本发明另外还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使处理器实现上述的深度神经网络的训练方法的步骤。
与现有技术相比,本发明的有益效果在于:本发明提出了一种基于临界阻尼动量的深度神经网络训练方法及系统,对于输入的每一批图像数据使用哈特钦森向量积迭代算法计算其海塞矩阵的迹,利用二阶微分方程解的临界阻尼特性计算得到动量系数,并在训练过程中对优化器的参数设置进行平滑切换;本方法将神经网络的训练过程转化为二阶微分方程解的最速收敛问题,对随机梯度下降算法中的动量信息进行了动态更新。相比于其他常用的训练算法,本方法利用了神经网络参数隐含的二阶信息(即网络损失函数对网络参数的海塞矩阵),结合二阶微分方程解的临界阻尼特性计算出更优化的动量系数,从而在训练中后期达到更快的收敛速度;经过同样的训练循环次数,采用本方法的神经网络模型在统计意义上具有更高的准确度和更小的损失,有利于加速神经网络训练和部署的进程。
附图说明
图1是本发明优选实施例的基于临界阻尼动量的深度神经网络训练方法的流程图;
图2是图1中的步骤S2的具体流程图;
图3是本发明进一步的实施例的基于临界阻尼动量的深度神经网络训练方法的流程图。
具体实施方式
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明优选实施例公开了一种基于临界阻尼动量的深度神经网络训练方法,包括以下步骤:
S1:开始新一轮的迭代;
S2:输入一批新图像,计算神经网络的损失函数的海塞矩阵的迹;
具体地,对于输入的每一批图像数据使用哈特钦森(Hutchinson)向量积迭代算法计算其损失函数海塞(Hessian)矩阵的迹(即海塞矩阵对角线元素之和)。
如图2所示,步骤S2具体包括:
S21:输入一批新图像;
S22:前向传播,计算神经网络的损失函数L;
S23:反向传播,计算神经网络的损失函数的梯度向量g;
S24:生成拉特马赫随机向量v,以计算梯度向量积gTv;
S25:根据梯度向量积gTv计算海塞矩阵H与拉特马赫随机向量v的乘积;
其中,采用下列反向传播方式计算海塞矩阵H与拉特马赫随机向量v的乘积:
Figure BDA0002849080460000061
式中,
Figure BDA0002849080460000062
为神经网络损失函数L的梯度向量,由神经网络反向传播机制计算。这一反向传播过程的计算图将被保留,以便再次计算gTv对参数向量w的导数。为节省内存,完成两次求导后计算图将被销毁。
S26:根据海塞矩阵H与拉特马赫随机向量v的乘积计算海塞矩阵的迹Tr(H);
其中,采用如下的哈特钦森向量积迭代算法计算其损失函数海塞矩阵的迹:
Figure BDA0002849080460000063
式中,E表示求均值,v为与神经网络权重参数向量w尺寸相同的拉特马赫(Rademacher)随机向量,H为损失函数对神经网络各参数的二阶导数所构成的海塞矩阵,下标m表示第m次迭代所得的值,M为所有计算出的向量v的总个数。为节约计算和存储成本,每次迭代从网络中随机抽取相同尺寸的向量w。
S27:判断海塞矩阵的迹Tr(H)的精度是否符合条件,如果是,则输出海塞矩阵的迹Tr(H),如果否,则返回步骤S24。
其中,采用如下的控制条件确定M的取值以保证海塞矩阵的迹的精度:
Figure BDA0002849080460000064
式中,ε为误差控制阈值。在本实施例中,ε=10-3,此时能够较好地兼顾计算时间和精度的平衡。当上述控制条件被满足时,则海塞矩阵的迹Tr(H)的精度符合条件,停止计算;否则海塞矩阵的迹Tr(H)的精度不符合条件,继续增大M值进行计算。也即根据上式对M的取值的控制可以保证海塞矩阵的迹的精度。
S3:将海塞矩阵的迹代入二阶微分方程的临界阻尼解,计算得到神经网络权重参数的动量系数;
具体地,采用下述公式计算神经网络权重参数的动量系数:
Figure BDA0002849080460000071
式中,ρk+1、ρk分别为第k次、第k-1次迭代计算所得的动量系数,n为抽取的神经网络权重参数向量的维数,αk为第k次迭代时神经网络的学习率。
S4:配合学习率衰减策略,随网络训练迭代次数的增加对优化器的参数设置进行平滑切换。
具体地,如图3所示,将步骤S3计算得到的动量系数ρk与初始设定值ρ0进行比较,如果ρk≤ρ0,则将神经网络迭代所调用的动量系数设定为ρk,然后配合学习率衰减策略,更新神经网络的参数;否则直接配合学习率衰减策略,更新神经网络的参数。其中具体操作如下:将每次计算得到的动量系数ρk与初始设定值ρ0(例如可以设定为0.9)进行比较,随着网络迭代次数的增加,ρk会逐渐下降,当第一次出现ρk≤ρ0时,将网络迭代所调用的动量系数设定为ρk,并使动量系数随迭代更新。
随着迭代次数的增加采用学习率衰减(StepLR)策略,在控制更新步长的同时对动量系数ρk的值进行微调。StepLR的公式如下:
Figure BDA0002849080460000072
其中,αp、αp+1分别表示更新前和更新后的学习率,衰减系数c例如可以设置为0.1,epoch为当前迭代轮次,
Figure BDA0002849080460000073
表示向下取整,取N=50。
S5:判断是否所有图像批次都已计算,如果是,则执行步骤S6;如果否,则返回步骤S2;
S6:判断迭代轮次是否达到最大,如果是,则结束训练,如果否,则返回步骤S1。
本发明公开的基于临界阻尼动量的深度神经网络训练方法,该方法包括:对于输入的每一批图像数据使用哈特钦森(Hutchinson)向量积迭代算法计算其海森(Hessian)矩阵的迹,利用二阶微分方程解的临界阻尼特性计算得到动量系数,并在训练过程中对优化器的参数设置进行平滑切换。本方法将神经网络的训练过程转化为二阶微分方程解的最速收敛问题,对随机梯度下降算法中的动量信息进行了动态更新。相比于其他常用的训练算法,本方法利用了神经网络参数隐含的二阶信息(即网络损失函数对网络参数的海塞矩阵),结合二阶微分方程解的临界阻尼特性计算出更优化的动量系数,从而在训练中后期达到更快的收敛速度。经过同样的训练循环次数,采用本方法的神经网络模型在统计意义上具有更高的准确度和更小的损失,有利于加速神经网络训练和部署的进程。
下述以具体实例对本发明的基于临界阻尼动量的深度神经网络训练方法的效果进行测试。
实验使用ResNet-20、ResNet-32、ResNet-56等经典深度神经网络在Cifar-10数据集上进行分类任务的训练。Cifar-10数据集下载地址:http://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz。
Cifar-10数据集共有60000张彩色图片,共分为10类,其中50000张为训练集,10000张为测试集。训练时,设置初始学习率为0.1,初始动量系数为0.9,批大小(BatchSize)为128。网络的损失函数采用交叉熵函数和均方差函数的线性组合。
实验使用分类准确率(Acc)作为网络训练效果的评价指标,Acc的计算公式为:
Figure BDA0002849080460000081
式中,TP代表正确分类图片张数,FP代表错误分类图片张数。
下表为经过相同的迭代循环次数,本发明优选实施例的方法训练的准确率与实验所用的神经网络的作者所训练数据(下称原始数据)的对比,结果如表1所示。原始数据来源于:https://arxiv.org/pdf/1512.03385.pdf。
表1本方法与原始数据的准确率的比较
网络名称 迭代循环次数 本方法准确率 原始数据准确率
ResNet-20 200 92.14% 91.25%
ResNet-32 200 92.76% 92.49%
ResNet-56 200 93.18% 93.03%
通过表1中的数据对比可以看出,本发明优选实施例提出的方法训练得到的深度神经网络的效果更佳,具有更高的准确度和更小的损失,从而有利于加速神经网络训练和部署的进程。
本发明另一优选实施例还公开了一种基于临界阻尼动量的深度神经网络的训练系统,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求上述的深度神经网络的训练方法的步骤,在此不再赘述。
本发明还有一优选实施例公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使处理器实现上述的深度神经网络的训练方法的步骤,在此不再赘述。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于临界阻尼动量的深度神经网络的训练方法,其特征在于,包括以下步骤:
S1:开始新一轮的迭代;
S2:输入一批新图像,计算神经网络的损失函数的海塞矩阵的迹,其中所述海塞矩阵是损失函数对神经网络各参数的二阶导数所构成的矩阵;
S3:根据海塞矩阵的迹代入二阶微分方程的临界阻尼解,计算得到神经网络权重参数的动量系数;
S4:配合学习率衰减策略,更新神经网络的参数;
S5:判断是否所有图像批次都已计算,如果是,则执行步骤S6;如果否,则返回步骤S2;
S6:判断迭代轮次是否达到最大,如果是,则结束训练,如果否,则返回步骤S1。
2.根据权利要求1所述的深度神经网络的训练方法,其特征在于,步骤S2具体包括:
S21:输入一批新图像;
S22:前向传播,计算神经网络的损失函数L;
S23:反向传播,计算神经网络的损失函数的梯度向量g;
S24:生成拉特马赫随机向量v,以计算梯度向量积gTv;
S25:根据梯度向量积gTv计算海塞矩阵H与拉特马赫随机向量v的乘积;
S26:根据海塞矩阵H与拉特马赫随机向量v的乘积计算海塞矩阵的迹Tr(H);
S27:判断海塞矩阵的迹Tr(H)的精度是否符合条件,如果是,则输出海塞矩阵的迹Tr(H),如果否,则返回步骤S24。
3.根据权利要求2所述的深度神经网络的训练方法,其特征在于,步骤S26具体包括:使用哈特钦森向量积迭代算法以根据海塞矩阵H与拉特马赫随机向量v的乘积计算神经网络的损失函数的海塞矩阵的迹:
Figure FDA0002849080450000011
其中,E表示求均值,v为拉特马赫随机向量,H为海塞矩阵,下标m表示第m次迭代所得的值,M为所有计算出的拉特马赫随机向量v的总个数。
4.根据权利要求3所述的深度神经网络的训练方法,其特征在于,步骤S25具体包括:采用下列反向传播方式计算海塞矩阵H与拉特马赫随机向量v的乘积:
Figure FDA0002849080450000021
其中,g=▽wL为神经网络的损失函数L的梯度向量,w为神经网络权重参数向量,且神经网络权重参数向量w与拉特马赫随机向量v的尺寸相同。
5.根据权利要求3所述的深度神经网络的训练方法,其特征在于,步骤S27中判断海塞矩阵的迹Tr(H)的精度是否符合条件具体包括:
根据下式的控制条件来确定M的取值:
Figure FDA0002849080450000022
其中,ε为误差控制阈值,如果上式的控制条件被满足时,则海塞矩阵的迹Tr(H)的精度符合条件,停止计算,输出海塞矩阵的迹Tr(H);否则海塞矩阵的迹Tr(H)的精度不符合条件,继续增大M值进行计算;进一步地,ε≤10-3
6.根据权利要求1所述的深度神经网络的训练方法,其特征在于,步骤S3具体包括:采用下式计算动量系数:
Figure FDA0002849080450000023
其中,ρk+1、ρk分别为第k次、第k-1次迭代计算所得的动量系数,n为抽取的神经网络权重参数向量的维数,αk为第k次迭代时神经网络的学习率,Tr(H)为神经网络的损失函数的海塞矩阵的迹。
7.根据权利要求1所述的深度神经网络的训练方法,其特征在于,步骤S4具体包括:将步骤S3计算得到的动量系数ρk与初始设定值ρ0进行比较,如果ρk≤ρ0,则将神经网络迭代所调用的动量系数设定为ρk,然后配合学习率衰减策略,更新神经网络的参数;否则直接配合学习率衰减策略,更新神经网络的参数。
8.根据权利要求1所述的深度神经网络的训练方法,其特征在于,步骤S4中配合学习率衰减策略,更新神经网络的参数具体包括:采用下式对学习率进行衰减:
αp+1=cpαp,
Figure FDA0002849080450000031
其中,αp、αp+1分别表示更新前和更新后的学习率,c为衰减系数,epoch为当前迭代轮次,
Figure FDA0002849080450000032
表示向下取整,参数N为整数;在根据上式对学习率进行衰减后,对动量系数的值进行调节更新;
进一步地,衰减系数c设置为0.1,N=50。
9.一种基于临界阻尼动量的深度神经网络的训练系统,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至8任一项所述的深度神经网络的训练方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使处理器实现权利要求1至8任一项所述的深度神经网络的训练方法的步骤。
CN202011521458.3A 2020-12-21 2020-12-21 基于临界阻尼动量的深度神经网络的训练方法及系统 Active CN112488309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011521458.3A CN112488309B (zh) 2020-12-21 2020-12-21 基于临界阻尼动量的深度神经网络的训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011521458.3A CN112488309B (zh) 2020-12-21 2020-12-21 基于临界阻尼动量的深度神经网络的训练方法及系统

Publications (2)

Publication Number Publication Date
CN112488309A true CN112488309A (zh) 2021-03-12
CN112488309B CN112488309B (zh) 2023-10-20

Family

ID=74915049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011521458.3A Active CN112488309B (zh) 2020-12-21 2020-12-21 基于临界阻尼动量的深度神经网络的训练方法及系统

Country Status (1)

Country Link
CN (1) CN112488309B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794892A (en) * 1995-10-25 1998-08-18 Hughes Electronics Critical nutation dampling on spinning bodies via momentum wheels or similar devices
US20140067738A1 (en) * 2012-08-28 2014-03-06 International Business Machines Corporation Training Deep Neural Network Acoustic Models Using Distributed Hessian-Free Optimization
US20180107925A1 (en) * 2016-10-19 2018-04-19 Samsung Electronics Co., Ltd. Method and apparatus for neural network quantization
CN108140131A (zh) * 2015-10-04 2018-06-08 艾腾怀斯股份有限公司 用于将卷积网络应用于空间数据的系统和方法
CN111144563A (zh) * 2019-12-24 2020-05-12 合肥黎曼信息科技有限公司 一种基于对偶距离损失的生成对抗网络训练方法
US20210357740A1 (en) * 2018-04-12 2021-11-18 Siemens Aktiengesellschaft Second-order optimization methods for avoiding saddle points during the training of deep neural networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794892A (en) * 1995-10-25 1998-08-18 Hughes Electronics Critical nutation dampling on spinning bodies via momentum wheels or similar devices
US20140067738A1 (en) * 2012-08-28 2014-03-06 International Business Machines Corporation Training Deep Neural Network Acoustic Models Using Distributed Hessian-Free Optimization
CN108140131A (zh) * 2015-10-04 2018-06-08 艾腾怀斯股份有限公司 用于将卷积网络应用于空间数据的系统和方法
US20180107925A1 (en) * 2016-10-19 2018-04-19 Samsung Electronics Co., Ltd. Method and apparatus for neural network quantization
US20210357740A1 (en) * 2018-04-12 2021-11-18 Siemens Aktiengesellschaft Second-order optimization methods for avoiding saddle points during the training of deep neural networks
CN111144563A (zh) * 2019-12-24 2020-05-12 合肥黎曼信息科技有限公司 一种基于对偶距离损失的生成对抗网络训练方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HEDY ATTOUCH ET AL.: "First-order optimization algorithms via inertial systems with Hessian driven damping", MATHEMATICAL PROGRAMMING, pages 113 - 155 *
PENG WANG ET AL.: "Fractional Critical Damping Theory and Its Application in Active Suspension Control", SHOCK AND VIBRATION, pages 1 - 9 *
ZHEN DONG ET AL.: "HAWQ-V2: Hessian Aware trace-Weighted Quantization of Neural Networks", ARXIV, pages 1 - 13 *
刘晓明 等: "基于多特征融合的交流系统串联电弧故障诊断", 电网技术, vol. 38, no. 3, pages 795 - 801 *
郭锴 等: "机载激光测深波形分解中LM与EM参数优化方法比较", 测绘学报, vol. 49, no. 1, pages 117 - 131 *

Also Published As

Publication number Publication date
CN112488309B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
Kim et al. Smoothly clipped absolute deviation on high dimensions
Luketina et al. Scalable gradient-based tuning of continuous regularization hyperparameters
Höfling et al. Estimation of Sparse Binary Pairwise Markov Networks using Pseudo-likelihoods.
Sutskever et al. On the importance of initialization and momentum in deep learning
CN112101530B (zh) 神经网络训练方法、装置、设备及存储介质
WO2019157228A1 (en) Systems and methods for training generative machine learning models
US11521057B2 (en) Learning system and learning method
WO2021103675A1 (zh) 神经网络的训练及人脸检测方法、装置、设备和存储介质
CN112686383B (zh) 一种通信并行的分布式随机梯度下降的方法、系统及装置
CN110162739A (zh) 基于变遗忘因子的rffklms算法权值更新优化方法
Yonekawa et al. A ternary weight binary input convolutional neural network: Realization on the embedded processor
US20200349444A1 (en) Data processing system and data processing method
CN113419424B (zh) 减少过估计的模型化强化学习机器人控制方法及系统
CN110895933B (zh) 一种基于空时残差神经网络的远场语音识别方法
Maclaurin et al. Early stopping is nonparametric variational inference
CN112488309A (zh) 基于临界阻尼动量的深度神经网络的训练方法及系统
Malladi et al. FastNorm: improving numerical stability of deep network training with efficient normalization
Ciarelli et al. An incremental neural network with a reduced architecture
Zhao et al. Offline supervised learning vs online direct policy optimization: A comparative study and a unified training paradigm for neural network-based optimal feedback control
Fu et al. QLABGrad: A Hyperparameter-Free and Convergence-Guaranteed Scheme for Deep Learning
Park et al. L_2 boosting in kernel regression
CN111967499A (zh) 基于自步学习的数据降维方法
Iqbal Using feature weights to improve performance of neural networks
JP7491622B1 (ja) パターン認識装置、学習方法、及びプログラム
US20220391674A1 (en) Method for optimizing execution time of an artificial neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant