CN112488309A - 基于临界阻尼动量的深度神经网络的训练方法及系统 - Google Patents
基于临界阻尼动量的深度神经网络的训练方法及系统 Download PDFInfo
- Publication number
- CN112488309A CN112488309A CN202011521458.3A CN202011521458A CN112488309A CN 112488309 A CN112488309 A CN 112488309A CN 202011521458 A CN202011521458 A CN 202011521458A CN 112488309 A CN112488309 A CN 112488309A
- Authority
- CN
- China
- Prior art keywords
- neural network
- training
- sea
- trace
- momentum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 97
- 238000012549 training Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013016 damping Methods 0.000 title claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims abstract description 60
- 230000006870 function Effects 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 51
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 230000002238 attenuated effect Effects 0.000 claims description 4
- 230000001537 neural effect Effects 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 6
- 238000011478 gradient descent method Methods 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
- G06F17/13—Differential equations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Optimization (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Neurology (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于临界阻尼动量的深度神经网络的训练方法及系统,该方法包括:S1:开始新一轮的迭代;S2:输入一批新图像,计算神经网络的损失函数的海塞矩阵的迹,其中所述海塞矩阵是损失函数对神经网络各参数的二阶导数所构成的矩阵;S3:根据海塞矩阵的迹代入二阶微分方程的临界阻尼解,计算得到神经网络权重参数的动量系数;S4:配合学习率衰减策略,更新神经网络的参数;S5:判断是否所有图像批次都已计算,如果是,则执行步骤S6;如果否,则返回步骤S2;S6:判断迭代轮次是否达到最大,如果是,则结束训练,如果否,则返回步骤S1。本发明对包含动量的随机梯度下降方法进行了改进,达到了较为理想的训练效果。
Description
技术领域
本发明涉及机器学习、数值方法技术领域,尤其涉及一种基于临界阻尼动量的深度神经网络的训练方法及系统。
背景技术
深度神经网络已经在计算机视觉、自然语言处理、计算机图形学等领域展现出优异的性能。随着深度神经网络在网络层数、拓扑结构等方面的日益复杂化,深度神经网络的参数量也与日俱增,目前业界最新的神经网络的参数数目已经达到107~108数量级。庞大的参数量虽然提升了神经网络的适用范围和效能,但也给网络的训练和优化带来了难题。大型网络的训练经常需要几天甚至更多的时间,同时也对研究者的图形处理器性能提出了新的要求。这无疑给神经网络的研究和应用带来了一定程度的不便。
神经网络训练的优化经常需要借助于数值方法。近年来,在众多优化算法中,随机梯度下降(SGD)、自适应动量估计(Adam)等数值算法在图像分类、语义分割等任务中表现较为出色,能够使目标网络的损失函数在一定的迭代次数后达到或接近其极小值,成为深度学习研究人员普遍采用的训练策略。然而,SGD算法的迭代速度比较慢,而且其学习率是一个仅能凭经验设定的超参数。当学习率设置得太小或太大时,神经网络参数的迭代很容易出现步幅过缓或者剧烈振荡的问题。Adam算法虽然在一定条件下能够获得比SGD更快的速度,但它适用的网络类型比SGD少,而且在某些特殊情况下还可能不收敛。
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
为解决上述技术问题,本发明提出一种基于临界阻尼动量的深度神经网络的训练方法及系统,对包含动量的随机梯度下降方法进行了改进,达到了较为理想的训练效果。
为达到上述目的,本发明采用以下技术方案:
本发明公开了一种基于临界阻尼动量的深度神经网络的训练方法,包括以下步骤:
S1:开始新一轮的迭代;
S2:输入一批新图像,计算神经网络的损失函数的海塞矩阵的迹,其中所述海塞矩阵是损失函数对神经网络各参数的二阶导数所构成的矩阵;
S3:根据海塞矩阵的迹代入二阶微分方程的临界阻尼解,计算得到神经网络权重参数的动量系数;
S4:配合学习率衰减策略,更新神经网络的参数;
S5:判断是否所有图像批次都已计算,如果是,则执行步骤S6;如果否,则返回步骤S2;
S6:判断迭代轮次是否达到最大,如果是,则结束训练,如果否,则返回步骤S1。
优选地,步骤S2具体包括:
S21:输入一批新图像;
S22:前向传播,计算神经网络的损失函数L;
S23:反向传播,计算神经网络的损失函数的梯度向量g;
S24:生成拉特马赫随机向量v,以计算梯度向量积gTv;
S25:根据梯度向量积gTv计算海塞矩阵H与拉特马赫随机向量v的乘积;
S26:根据海塞矩阵H与拉特马赫随机向量v的乘积计算海塞矩阵的迹Tr(H);
S27:判断海塞矩阵的迹Tr(H)的精度是否符合条件,如果是,则输出海塞矩阵的迹Tr(H),如果否,则返回步骤S24。
优选地,步骤S26具体包括:使用哈特钦森向量积迭代算法以根据海塞矩阵H与拉特马赫随机向量v的乘积计算神经网络的损失函数的海塞矩阵的迹:
其中,E表示求均值,v为拉特马赫随机向量,H为海塞矩阵,下标m表示第m次迭代所得的值,M为所有计算出的拉特马赫随机向量v的总个数。
优选地,步骤S25具体包括:采用下列反向传播方式计算海塞矩阵H与拉特马赫随机向量v的乘积:
优选地,步骤S27中判断海塞矩阵的迹Tr(H)的精度是否符合条件具体包括:
根据下式的控制条件来确定M的取值:
其中,ε为误差控制阈值,如果上式的控制条件被满足时,则海塞矩阵的迹Tr(H)的精度符合条件,停止计算,输出海塞矩阵的迹Tr(H);否则海塞矩阵的迹Tr(H)的精度不符合条件,继续增大M值进行计算;进一步地,ε≤10-3。
优选地,步骤S3具体包括:采用下式计算动量系数:
其中,ρk+1、ρk分别为第k次、第k-1次迭代计算所得的动量系数,n为抽取的神经网络权重参数向量的维数,αk为第k次迭代时神经网络的学习率,Tr(H)为神经网络的损失函数的海塞矩阵的迹。
优选地,步骤S4具体包括:将步骤S3计算得到的动量系数ρk与初始设定值ρ0进行比较,如果ρk≤ρ0,则将神经网络迭代所调用的动量系数设定为ρk,然后配合学习率衰减策略,更新神经网络的参数;否则直接配合学习率衰减策略,更新神经网络的参数。
优选地,步骤S4中配合学习率衰减策略,更新神经网络的参数具体包括:采用下式对学习率进行衰减:
进一步地,衰减系数c设置为0.1,N=50。
本发明还公开了一种基于临界阻尼动量的深度神经网络的训练系统,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现上述的深度神经网络的训练方法的步骤。
本发明另外还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使处理器实现上述的深度神经网络的训练方法的步骤。
与现有技术相比,本发明的有益效果在于:本发明提出了一种基于临界阻尼动量的深度神经网络训练方法及系统,对于输入的每一批图像数据使用哈特钦森向量积迭代算法计算其海塞矩阵的迹,利用二阶微分方程解的临界阻尼特性计算得到动量系数,并在训练过程中对优化器的参数设置进行平滑切换;本方法将神经网络的训练过程转化为二阶微分方程解的最速收敛问题,对随机梯度下降算法中的动量信息进行了动态更新。相比于其他常用的训练算法,本方法利用了神经网络参数隐含的二阶信息(即网络损失函数对网络参数的海塞矩阵),结合二阶微分方程解的临界阻尼特性计算出更优化的动量系数,从而在训练中后期达到更快的收敛速度;经过同样的训练循环次数,采用本方法的神经网络模型在统计意义上具有更高的准确度和更小的损失,有利于加速神经网络训练和部署的进程。
附图说明
图1是本发明优选实施例的基于临界阻尼动量的深度神经网络训练方法的流程图;
图2是图1中的步骤S2的具体流程图;
图3是本发明进一步的实施例的基于临界阻尼动量的深度神经网络训练方法的流程图。
具体实施方式
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明优选实施例公开了一种基于临界阻尼动量的深度神经网络训练方法,包括以下步骤:
S1:开始新一轮的迭代;
S2:输入一批新图像,计算神经网络的损失函数的海塞矩阵的迹;
具体地,对于输入的每一批图像数据使用哈特钦森(Hutchinson)向量积迭代算法计算其损失函数海塞(Hessian)矩阵的迹(即海塞矩阵对角线元素之和)。
如图2所示,步骤S2具体包括:
S21:输入一批新图像;
S22:前向传播,计算神经网络的损失函数L;
S23:反向传播,计算神经网络的损失函数的梯度向量g;
S24:生成拉特马赫随机向量v,以计算梯度向量积gTv;
S25:根据梯度向量积gTv计算海塞矩阵H与拉特马赫随机向量v的乘积;
其中,采用下列反向传播方式计算海塞矩阵H与拉特马赫随机向量v的乘积:
S26:根据海塞矩阵H与拉特马赫随机向量v的乘积计算海塞矩阵的迹Tr(H);
其中,采用如下的哈特钦森向量积迭代算法计算其损失函数海塞矩阵的迹:
式中,E表示求均值,v为与神经网络权重参数向量w尺寸相同的拉特马赫(Rademacher)随机向量,H为损失函数对神经网络各参数的二阶导数所构成的海塞矩阵,下标m表示第m次迭代所得的值,M为所有计算出的向量v的总个数。为节约计算和存储成本,每次迭代从网络中随机抽取相同尺寸的向量w。
S27:判断海塞矩阵的迹Tr(H)的精度是否符合条件,如果是,则输出海塞矩阵的迹Tr(H),如果否,则返回步骤S24。
其中,采用如下的控制条件确定M的取值以保证海塞矩阵的迹的精度:
式中,ε为误差控制阈值。在本实施例中,ε=10-3,此时能够较好地兼顾计算时间和精度的平衡。当上述控制条件被满足时,则海塞矩阵的迹Tr(H)的精度符合条件,停止计算;否则海塞矩阵的迹Tr(H)的精度不符合条件,继续增大M值进行计算。也即根据上式对M的取值的控制可以保证海塞矩阵的迹的精度。
S3:将海塞矩阵的迹代入二阶微分方程的临界阻尼解,计算得到神经网络权重参数的动量系数;
具体地,采用下述公式计算神经网络权重参数的动量系数:
式中,ρk+1、ρk分别为第k次、第k-1次迭代计算所得的动量系数,n为抽取的神经网络权重参数向量的维数,αk为第k次迭代时神经网络的学习率。
S4:配合学习率衰减策略,随网络训练迭代次数的增加对优化器的参数设置进行平滑切换。
具体地,如图3所示,将步骤S3计算得到的动量系数ρk与初始设定值ρ0进行比较,如果ρk≤ρ0,则将神经网络迭代所调用的动量系数设定为ρk,然后配合学习率衰减策略,更新神经网络的参数;否则直接配合学习率衰减策略,更新神经网络的参数。其中具体操作如下:将每次计算得到的动量系数ρk与初始设定值ρ0(例如可以设定为0.9)进行比较,随着网络迭代次数的增加,ρk会逐渐下降,当第一次出现ρk≤ρ0时,将网络迭代所调用的动量系数设定为ρk,并使动量系数随迭代更新。
随着迭代次数的增加采用学习率衰减(StepLR)策略,在控制更新步长的同时对动量系数ρk的值进行微调。StepLR的公式如下:
S5:判断是否所有图像批次都已计算,如果是,则执行步骤S6;如果否,则返回步骤S2;
S6:判断迭代轮次是否达到最大,如果是,则结束训练,如果否,则返回步骤S1。
本发明公开的基于临界阻尼动量的深度神经网络训练方法,该方法包括:对于输入的每一批图像数据使用哈特钦森(Hutchinson)向量积迭代算法计算其海森(Hessian)矩阵的迹,利用二阶微分方程解的临界阻尼特性计算得到动量系数,并在训练过程中对优化器的参数设置进行平滑切换。本方法将神经网络的训练过程转化为二阶微分方程解的最速收敛问题,对随机梯度下降算法中的动量信息进行了动态更新。相比于其他常用的训练算法,本方法利用了神经网络参数隐含的二阶信息(即网络损失函数对网络参数的海塞矩阵),结合二阶微分方程解的临界阻尼特性计算出更优化的动量系数,从而在训练中后期达到更快的收敛速度。经过同样的训练循环次数,采用本方法的神经网络模型在统计意义上具有更高的准确度和更小的损失,有利于加速神经网络训练和部署的进程。
下述以具体实例对本发明的基于临界阻尼动量的深度神经网络训练方法的效果进行测试。
实验使用ResNet-20、ResNet-32、ResNet-56等经典深度神经网络在Cifar-10数据集上进行分类任务的训练。Cifar-10数据集下载地址:http://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz。
Cifar-10数据集共有60000张彩色图片,共分为10类,其中50000张为训练集,10000张为测试集。训练时,设置初始学习率为0.1,初始动量系数为0.9,批大小(BatchSize)为128。网络的损失函数采用交叉熵函数和均方差函数的线性组合。
实验使用分类准确率(Acc)作为网络训练效果的评价指标,Acc的计算公式为:
式中,TP代表正确分类图片张数,FP代表错误分类图片张数。
下表为经过相同的迭代循环次数,本发明优选实施例的方法训练的准确率与实验所用的神经网络的作者所训练数据(下称原始数据)的对比,结果如表1所示。原始数据来源于:https://arxiv.org/pdf/1512.03385.pdf。
表1本方法与原始数据的准确率的比较
网络名称 | 迭代循环次数 | 本方法准确率 | 原始数据准确率 |
ResNet-20 | 200 | 92.14% | 91.25% |
ResNet-32 | 200 | 92.76% | 92.49% |
ResNet-56 | 200 | 93.18% | 93.03% |
通过表1中的数据对比可以看出,本发明优选实施例提出的方法训练得到的深度神经网络的效果更佳,具有更高的准确度和更小的损失,从而有利于加速神经网络训练和部署的进程。
本发明另一优选实施例还公开了一种基于临界阻尼动量的深度神经网络的训练系统,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求上述的深度神经网络的训练方法的步骤,在此不再赘述。
本发明还有一优选实施例公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使处理器实现上述的深度神经网络的训练方法的步骤,在此不再赘述。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于临界阻尼动量的深度神经网络的训练方法,其特征在于,包括以下步骤:
S1:开始新一轮的迭代;
S2:输入一批新图像,计算神经网络的损失函数的海塞矩阵的迹,其中所述海塞矩阵是损失函数对神经网络各参数的二阶导数所构成的矩阵;
S3:根据海塞矩阵的迹代入二阶微分方程的临界阻尼解,计算得到神经网络权重参数的动量系数;
S4:配合学习率衰减策略,更新神经网络的参数;
S5:判断是否所有图像批次都已计算,如果是,则执行步骤S6;如果否,则返回步骤S2;
S6:判断迭代轮次是否达到最大,如果是,则结束训练,如果否,则返回步骤S1。
2.根据权利要求1所述的深度神经网络的训练方法,其特征在于,步骤S2具体包括:
S21:输入一批新图像;
S22:前向传播,计算神经网络的损失函数L;
S23:反向传播,计算神经网络的损失函数的梯度向量g;
S24:生成拉特马赫随机向量v,以计算梯度向量积gTv;
S25:根据梯度向量积gTv计算海塞矩阵H与拉特马赫随机向量v的乘积;
S26:根据海塞矩阵H与拉特马赫随机向量v的乘积计算海塞矩阵的迹Tr(H);
S27:判断海塞矩阵的迹Tr(H)的精度是否符合条件,如果是,则输出海塞矩阵的迹Tr(H),如果否,则返回步骤S24。
7.根据权利要求1所述的深度神经网络的训练方法,其特征在于,步骤S4具体包括:将步骤S3计算得到的动量系数ρk与初始设定值ρ0进行比较,如果ρk≤ρ0,则将神经网络迭代所调用的动量系数设定为ρk,然后配合学习率衰减策略,更新神经网络的参数;否则直接配合学习率衰减策略,更新神经网络的参数。
9.一种基于临界阻尼动量的深度神经网络的训练系统,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至8任一项所述的深度神经网络的训练方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使处理器实现权利要求1至8任一项所述的深度神经网络的训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011521458.3A CN112488309B (zh) | 2020-12-21 | 2020-12-21 | 基于临界阻尼动量的深度神经网络的训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011521458.3A CN112488309B (zh) | 2020-12-21 | 2020-12-21 | 基于临界阻尼动量的深度神经网络的训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112488309A true CN112488309A (zh) | 2021-03-12 |
CN112488309B CN112488309B (zh) | 2023-10-20 |
Family
ID=74915049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011521458.3A Active CN112488309B (zh) | 2020-12-21 | 2020-12-21 | 基于临界阻尼动量的深度神经网络的训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112488309B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5794892A (en) * | 1995-10-25 | 1998-08-18 | Hughes Electronics | Critical nutation dampling on spinning bodies via momentum wheels or similar devices |
US20140067738A1 (en) * | 2012-08-28 | 2014-03-06 | International Business Machines Corporation | Training Deep Neural Network Acoustic Models Using Distributed Hessian-Free Optimization |
US20180107925A1 (en) * | 2016-10-19 | 2018-04-19 | Samsung Electronics Co., Ltd. | Method and apparatus for neural network quantization |
CN108140131A (zh) * | 2015-10-04 | 2018-06-08 | 艾腾怀斯股份有限公司 | 用于将卷积网络应用于空间数据的系统和方法 |
CN111144563A (zh) * | 2019-12-24 | 2020-05-12 | 合肥黎曼信息科技有限公司 | 一种基于对偶距离损失的生成对抗网络训练方法 |
US20210357740A1 (en) * | 2018-04-12 | 2021-11-18 | Siemens Aktiengesellschaft | Second-order optimization methods for avoiding saddle points during the training of deep neural networks |
-
2020
- 2020-12-21 CN CN202011521458.3A patent/CN112488309B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5794892A (en) * | 1995-10-25 | 1998-08-18 | Hughes Electronics | Critical nutation dampling on spinning bodies via momentum wheels or similar devices |
US20140067738A1 (en) * | 2012-08-28 | 2014-03-06 | International Business Machines Corporation | Training Deep Neural Network Acoustic Models Using Distributed Hessian-Free Optimization |
CN108140131A (zh) * | 2015-10-04 | 2018-06-08 | 艾腾怀斯股份有限公司 | 用于将卷积网络应用于空间数据的系统和方法 |
US20180107925A1 (en) * | 2016-10-19 | 2018-04-19 | Samsung Electronics Co., Ltd. | Method and apparatus for neural network quantization |
US20210357740A1 (en) * | 2018-04-12 | 2021-11-18 | Siemens Aktiengesellschaft | Second-order optimization methods for avoiding saddle points during the training of deep neural networks |
CN111144563A (zh) * | 2019-12-24 | 2020-05-12 | 合肥黎曼信息科技有限公司 | 一种基于对偶距离损失的生成对抗网络训练方法 |
Non-Patent Citations (5)
Title |
---|
HEDY ATTOUCH ET AL.: "First-order optimization algorithms via inertial systems with Hessian driven damping", MATHEMATICAL PROGRAMMING, pages 113 - 155 * |
PENG WANG ET AL.: "Fractional Critical Damping Theory and Its Application in Active Suspension Control", SHOCK AND VIBRATION, pages 1 - 9 * |
ZHEN DONG ET AL.: "HAWQ-V2: Hessian Aware trace-Weighted Quantization of Neural Networks", ARXIV, pages 1 - 13 * |
刘晓明 等: "基于多特征融合的交流系统串联电弧故障诊断", 电网技术, vol. 38, no. 3, pages 795 - 801 * |
郭锴 等: "机载激光测深波形分解中LM与EM参数优化方法比较", 测绘学报, vol. 49, no. 1, pages 117 - 131 * |
Also Published As
Publication number | Publication date |
---|---|
CN112488309B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Smoothly clipped absolute deviation on high dimensions | |
Luketina et al. | Scalable gradient-based tuning of continuous regularization hyperparameters | |
Höfling et al. | Estimation of Sparse Binary Pairwise Markov Networks using Pseudo-likelihoods. | |
Sutskever et al. | On the importance of initialization and momentum in deep learning | |
CN112101530B (zh) | 神经网络训练方法、装置、设备及存储介质 | |
WO2019157228A1 (en) | Systems and methods for training generative machine learning models | |
US11521057B2 (en) | Learning system and learning method | |
WO2021103675A1 (zh) | 神经网络的训练及人脸检测方法、装置、设备和存储介质 | |
CN112686383B (zh) | 一种通信并行的分布式随机梯度下降的方法、系统及装置 | |
CN110162739A (zh) | 基于变遗忘因子的rffklms算法权值更新优化方法 | |
Yonekawa et al. | A ternary weight binary input convolutional neural network: Realization on the embedded processor | |
US20200349444A1 (en) | Data processing system and data processing method | |
CN113419424B (zh) | 减少过估计的模型化强化学习机器人控制方法及系统 | |
CN110895933B (zh) | 一种基于空时残差神经网络的远场语音识别方法 | |
Maclaurin et al. | Early stopping is nonparametric variational inference | |
CN112488309A (zh) | 基于临界阻尼动量的深度神经网络的训练方法及系统 | |
Malladi et al. | FastNorm: improving numerical stability of deep network training with efficient normalization | |
Ciarelli et al. | An incremental neural network with a reduced architecture | |
Zhao et al. | Offline supervised learning vs online direct policy optimization: A comparative study and a unified training paradigm for neural network-based optimal feedback control | |
Fu et al. | QLABGrad: A Hyperparameter-Free and Convergence-Guaranteed Scheme for Deep Learning | |
Park et al. | L_2 boosting in kernel regression | |
CN111967499A (zh) | 基于自步学习的数据降维方法 | |
Iqbal | Using feature weights to improve performance of neural networks | |
JP7491622B1 (ja) | パターン認識装置、学習方法、及びプログラム | |
US20220391674A1 (en) | Method for optimizing execution time of an artificial neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |