CN108985457B - 一种受优化算法启发的深度神经网络结构设计方法 - Google Patents

一种受优化算法启发的深度神经网络结构设计方法 Download PDF

Info

Publication number
CN108985457B
CN108985457B CN201810958553.6A CN201810958553A CN108985457B CN 108985457 B CN108985457 B CN 108985457B CN 201810958553 A CN201810958553 A CN 201810958553A CN 108985457 B CN108985457 B CN 108985457B
Authority
CN
China
Prior art keywords
network
neural network
net
function
network structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810958553.6A
Other languages
English (en)
Other versions
CN108985457A (zh
Inventor
林宙辰
李欢
杨一博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201810958553.6A priority Critical patent/CN108985457B/zh
Publication of CN108985457A publication Critical patent/CN108985457A/zh
Application granted granted Critical
Publication of CN108985457B publication Critical patent/CN108985457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公布了一种受优化算法启发的深度神经网络结构设计方法,对于所有层共享相同的线性和非线性变换的经典前馈网络结构,将该前馈网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)的迭代过程;进一步采用收敛速度更快的重球法和Nesterov加速算法最小化该函数F(x),由此得到新的性能更好的网络结构;可应用于人工智能、计算机视觉等应用领域。采用本发明技术方案,从优化算法出发设计神经网络结构,能够改进传统的依靠经验、实验尝试搜索的设计方式,得到更高效的神经网络结构,从而节省大量的时间与计算资源。

Description

一种受优化算法启发的深度神经网络结构设计方法
技术领域
本发明涉及深度神经网络结构设计技术领域,尤其涉及一种受优化算法启发的深度神经网络结构设计方法。
背景技术
随着近年来图像处理器(GPU)计算能力的飞速发展,以及人们能获得的数据量越来越大,深度神经网络在计算机视觉、图像处理和自然语言处理等领域获得了广泛应用。自从2012年深度神经网络在ImageNet分类任务上取得了突破性进展之后,研究者提出了多种不同网络,并且其结构不局限于经典的前馈神经网络结构。在前馈网络结构中,每个神经元只和其后的神经元相连。典型的例子包括文献[1](He,K.,Zhang,X.,Ren,S.,and Sun,J.Deep residual learning for image recognition.In CVPR,2015)记载的ResNet和文献[2](Huang,G.,Liu,Z.,van der Maaten,L.,and Weinberger,K.Q.Densely connectedconvolutional networks.In CVPR,2017)记载的DenseNet,其中前者在传统的前馈网络结构上增加了旁支,后者允许每个神经元和它之后的所有神经元相连。
基于卷积神经网络的深度模型在一系列领域取得了广泛的应用,比如自动驾驶、人脸识别、图像识别、检测等等。尽管目前广泛采用的一系列网络结构在性能上相比传统方法具有很大的优势,但是这一系列的网络结构在设计上缺乏准则,更多的是依靠经验摸索与不断的实验调试来确定最终的网络结构。所以研究者在设计新网络结构时具有一定的盲目性,缺乏指导性。
已有的网络结构设计工作主要是基于搜索的启发式方法。在网络结构设计的早期阶段,文献[3](Schaffer,J.D.,Whitley,D.,and Eshelman,L.J.Combinations ofgenetic algorithms and neural networks:A survey of the state of the art.InInternational Workshop on Combinations of Genetic Algorithms and NeuralNetworks,1992.)、文献[4](Lam,H.K.,Leung,F.H.F.,and Tam,P.K.S.Tuning of thestructure and parameters of a neural network using an improved geneticalgorithm.IEEE Trans.on Neural Networks,14:79–88,2003.)均记载了使用遗传算法寻找最优的网络结构和连接权重,但是通常情况下,文献[5](Verbancsics,P.and Harguess,J.Generative neuroevolution for deep learning.In arxiv:1312.5355,2013)指出,使用遗传算法设计出的网络结构要比手工设计的网络结构效果更差。文献[6](Domhan,T.,Springenberg,J.T.,and Hutter,F.Speeding up automatic hyperparameteroptimization of deep neural networks by extrapolation of learning curves.InIJCAI,2015)使用贝叶斯策略搜索网络结构。文献[7](Kwok,T.and Yeung,D.Constructivealgorithms for structure learning feedforward nerual networks for regressionproblems.IEEE Trans.on Neural Networks,8(3):630–645,1997.)、文献[8](Ma,L.andKhorasani,K.A new strategy for adaptively constructing multiplayerfeedforward neural networks.Neurocomputing,51:361–385,2003)、文献[9](Cortes,C.,Gonzalvo,X.,Kuznetsov,V.,Mohri,M.,and Yang,S.AdaNet:Adaptive structurelearning of artificial neural networks.In ICML,2017.)使用自适应策略来搜索网络结构,具体做法为从一个相对较小的网络结构基于某种原则一层一层地加深网络,相应的原则包括平衡模型复杂度和经验损失最小。文献[10](Baker,B.,Gupta,O.,Naik,N.,andRaskar,R.Designing neural network architectures using reinforcemenlearning.In arxiv:1611.02167,2016)、文献[11](Zoph,B.and Le,Q.V.Neuralarchitecutre search with reinforcement learning.In CoRR,2016)使用强化学习来搜索网络结构。所有上述策略都是基于搜索的启发式策略,即在特定的搜索空间中搜索一个尽可能好的网络结构。因此,基于搜索的方法需要在巨大的搜索空间中搜索出最优策略,当搜索空间巨大且计算能力有限时,现有的基于搜索的方法无法设计出有效的网络结构。
发明内容
为了克服上述现有技术的不足,本发明提供一种受优化算法启发的深度神经网络结构的设计方法,以得到新的性能更好的网络结构。
本发明的技术方案是:
一种受优化算法启发的深度神经网络结构设计方法,对于所有层共享相同的线性和非线性变换的经典前馈网络结构,将该前馈网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)的迭代过程;进一步采用收敛速度更快的重球法(Heavy Ball method)和Nesterov加速算法(Accelerated Gradient method)最小化该函数F(x),由此得到新的性能更好的网络结构。具体包括如下步骤:
1)在所有层共享相同的线性变换的前馈神经网络中,第k层的输出xk和第k+1层的输出xk+1的关系表示为式1:
xk+1=φ(Wxk) (式1)其中,φ是激活函数,例如Sigmoid或ReLU;W是线性变换;xk为第k层的输出,xk+1为第k+1层的输出。
2)针对不同的激活函数φ,找到具体的函数F(x),使得式1等价于式2:
Figure BDA0001773261680000031
其中▽F(x)表示F(x)的梯度。在优化理论中,式2表示使用梯度下降法对函数F(x)最小化,即使得前馈神经网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)。
3)采用重球法或Nesterov加速算法最小化该函数F(x),得到相应深度神经网络的结构。分别执行如下操作:
3A)使用重球法最小化函数F(x):
3A1)在第k次迭代,迭代公式表示为式3:
Figure BDA0001773261680000032
其中,β为待定常数;
3A2)式3等价于式4所示的前向过程:
xk+1=φ(Wxk)+β(xk-xk-1) (式4)
3A3)得到相应深度神经网络的结构,本发明称为HB-Net(Heavy Ball Network,重球算法网络);
3B)采用Nesterov加速算法最小化函数F(x):
3B1)在第k次迭代,迭代公式表示为式5:
Figure BDA0001773261680000041
其中
Figure BDA0001773261680000042
Figure BDA0001773261680000043
3B2)式5等价于式6所示前向过程:
Figure BDA0001773261680000044
3B3)得到相应神经网络的结构,本发明称为AGD-Net(Accelerated GradientDescent Network-加速算法网络)。
本发明所提出的受优化算法启发的深度神经网络结构设计,可以应用于人工智能、计算机视觉技术(如人脸识别)等应用中。通过采用本发明方法,可以更高效地设计深度神经网络的结构,从而节省大量的时间与计算资源,并且能够取得同等的表现水平。
与现有技术相比,本发明取得的技术效果为:
本发明提供一种受优化算法启发的深度神经网络结构设计方法,对于所有层共享相同的线性和非线性变换的前馈网络结构,在该前馈网络中的前向过程中,采用重球法和Nesterov加速算法,对函数F(x)进行最小化,由此得到新的性能更好的网络结构,在测试神经网络的标准数据集CIFAR和ImageNet上,本发明提出的网络结构比经典的ResNet和DenseNet结构需要更少的层数以达到相同的拟合误差,或具有更低的分类错误率。因此,采用本发明技术方案,从优化算法出发设计神经网络结构,能够改进传统的依靠经验、实验尝试搜索的设计方式,得到更高效的神经网络结构,从而节省大量的时间与计算资源。
附图说明
图1为采用本发明方法得到的深度神经网络的结构,
其中,(a)为HB-Net网络结构;(b)为AGD-Net网络结构;T表示在一个神经元内部的线性及非线性操作;+表示线性求和。
图2是本发明网络结构设计方法的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明可以应用于任何使用深度神经网络的场合,比如图像分类、物体检测、文字识别等等,但这里仅举一个实施例,即将本发明应用于人脸识别问题。人脸识别系统主要包含四个组成部分,分别为人脸图像采集及检测、人脸图像预处理、人脸图像特征提取和构建分类器对人脸特征进行识别。深度卷积神经网络同时包含特征提取和特征识别过程,并且性能优于基于特征脸、支持向量机、线段Hausdorff距离等其他人脸识别方法。
本实施例具体包括如下步骤:
步骤1,采集人脸数据;
通过摄像镜头来采集人脸的静态图像和动态图像,一般要包含不同位置、不同相貌与表情等,从而增大数据集的多样性,使得训练所得模型具有较好的泛化能力。
步骤2,建立人脸识别问题的目标函数,所述目标函数对应神经网络的损失函数;
在具体实现中,一般多采用交叉熵作为损失函数,根据问题特点,也可以采用其他目标函数。由于人脸识别问题中,数据的分布一般呈现类间方差较小的特点,所以也可以选用Center-loss,L-softmax等建立损失函数F(x),从而最大化类间方差,最小化类内方差。
步骤3,选择用于识别的深度神经网络,通过本发明方法得到深度神经网络HB-Net或AGD-Net;通过HB-Net或AGD-Net实现人脸特征提取和特征识别;
在本发明的实施例中,可选择任何一个优化算法,根据其迭代步骤设计相应的深度神经网络,比如选择重球法或Nesterov加速算法,通过本发明的网络结构设计方法,得到对应的深度神经网络(即HB-Net或AGD-Net)。
针对选择用于识别的深度神经网络,即所有层共享相同的线性和非线性变换的经典前馈网络结构,将该前馈网络中的前向过程等价于使用梯度下降法最小化步骤二中建立的目标函数F(x);采用收敛速度更快的重球法(Heavy Ball method)和Nesterov加速算法(Accelerated Gradient method)最小化该函数F(x),由此得到新的性能更好的网络结构;具体包括如下步骤:
1)在所有层共享相同的线性变换的前馈神经网络中,第k层的输出xk和第k+1层的输出xk+1的关系表示为式1:
xk+1=φ(Wxk) (式1)
其中,φ是激活函数,例如Sigmoid或ReLU;W是线性变换;xk为第k层的输出,xk+1为第k+1层的输出。
2)针对不同的激活函数φ,找到具体的函数F(x),使得式7等价于式2:
Figure BDA0001773261680000061
在优化理论中,式2表示使用梯度下降法对函数F(x)最小化,即使得前馈神经网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)。
3)采用重球法或Nesterov加速算法最小化该函数F(x),得到相应深度神经网络的结构。分别执行如下操作:
3A)使用重球法最小化函数F(x):
3A1)在第k次迭代,迭代公式表示为式3:
Figure BDA0001773261680000062
其中,β为待定常数;
3A2)式3等价于式4所示的前向过程:
xk+1=φ(Wxk)+β(xk-xk-1) (式4)
3A3)得到相应深度神经网络的结构,本发明称为HB-Net(Heavy Ball Network,重球算法网络);
3B)采用Nesterov加速算法最小化函数F(x):
3B1)在第k次迭代,迭代公式表示为式5:
Figure BDA0001773261680000071
其中,
Figure BDA0001773261680000072
Figure BDA0001773261680000073
3B2)式5等价于式6所示前向过程:
Figure BDA0001773261680000074
3B3)得到相应神经网络的结构,本发明称为AGD-Net(Accelerated GradientDescent Network-加速算法网络)。
4)得到网络结构后,需确定网络结构的细节。由于人脸数据集一般情况下样本数量较小,为了避免过拟合,采用网络规模较小的结构。在本实施例中,可将网络总层数设置为50层左右,最终的特征长度为1000维左右。如果用于训练的人脸数据的尺寸较大,也可以在网络中引入多个HB-Net或AGD-Net的基础结构,从而在最终特征中融合不同尺度上提取的信息。
步骤4:对输入数据做预处理;
由于系统获取的原始图像受到各种因素的限制和干扰,一般不能直接使用,需要先对人脸图像数据进行预处理,从而获得稳定的识别性能。在本实施例中,可以选用的预处理方案包括对人脸图像的光线补偿、灰度转换、直方图均衡化、几何校正等操作。除此之外,还要对输入数据进行归一化。
步骤5:确定网络训练的超参数;
在训练之前,要确定网络训练的超参数,包括batchsize,学习率、迭代次数等。在人脸识别的问题中,可以选用batchsize为64,学习率为0.1,迭代1000-2000次。
步骤6;进行网络训练;
得到网络结构后,可利用用于训练的人脸图像数据对该网络进行训练,直至损失函数的值趋近于收敛时停止训练;
在本发明的实施例中,完成以上步骤,训练好的深度神经网络即可以用来做人脸识别,判断输入人脸图像的标签。
针对上述采样本发明方法设计得到的网络结构,式4和式6表示的网络结构由优化算法等价衍化而来。在工程实践中直接应用式4和式6表示的网络结构的效果可能不理想。为了能够更好地应用于工程实践,我们定义如下元操作以拓展式4和式6表示的网络结构。
(一)松弛φ和W
在式4和式6表示的HB-Net和AGD-Net网络结构中,我们使用全连接的线性变换Wx和激活函数φ。在工程应用中,我们允许将Wx松弛为卷积操作W*x,并且允许不同的层具有不同的权重W。同样地,我们允许将φ松弛为pooling和Batch normalization(BN)操作,并且允许φ为激活函数、pooling、BN、卷积和全连接线性变换的复合操作。在该元操作下,网络结构(式1所示网络结构)涵盖了众多经典网络结构,如LeNet和VGG。在下述描述中,我们使用T(x)替换φ(Wx)。
(二)自适应参数
在网络结构(式6)中,参数hk,j由优化算法确定。在工程实践中,我们保持网络(式4)和(式6)的结构,但允许其中的系数β和hk,j自由设置,并且允许其在训练过程中由学习得到。在该元操作下,网络结构(式4)和(式6)变为如下公式:
xk+1=T(xk)+β1xk2xk-1, (式7)
Figure BDA0001773261680000081
其中β1,β2,αk+1,j,βk+1,j为待定系数。
经典网络结构RreNet和DenseNet分别是网络结构(式7和式8)的特例。
(三)块结构
当使用下采样(down-sampling)时,不同的xk具有不同的维度,因此,式7和式8无法实现加法操作。我们将网络分为多个前向连接的块,在每个块内使用式7和式8的结构。
以下给出HB-Net和AGD-Net的一种具体实现方式。
(一)HB-Net
在HB-Net中,我们令式7中β1=1,β2=-1。T(x)层网络的复合,其中第一层网络是卷积,BN和ReLU的复合,第二层网络是卷积和BN的复合。在每个块的第一层我们使用步调为2的下采样。
(二)AGD-Net
在AGD-Net中,我们设置参数如下:
Figure BDA0001773261680000091
其中β=0.1,αk+1,j在训练过程中学习得到,hk+1,j的设置与式6优化迭代中的相同。T(x)为BN、ReLU和卷积的复合。
下述实验用于验证HB-Net和AGD-Net的有效性。我们在数据集CIFAR10、CIFAR100和ImageNet上做测试。其中CIFAR10和CIFAR100包含60000张32×32的彩色图片,在CIFAR10中,这些图片分属10类,在CIFAR100中则分属100类。我们使用50000张图片作为训练数据,10000张图片作为测试数据。我们对每张图片做归一化:减去均值并处以标准差。ImageNet包含1200000张训练图片,50000张验证图片和100000张测试图片。这些图片分属1000个类。我们将每张图片归一化为[0,1]。
我们使用文献[2]中的策略训练HB‐Net和AGD‐Net。具体地,我们使用随机梯度下降法(SGD)训练网络,设置Nesterov冲量为0.9,权重衰减为10-4。我们使用文献[1]中的初始化方法,并且使用Xavier[]初始化全连接层。对于CIFAR,我们训练300次循环,使用样本批量大小为64。初始学习率设为0.1,并在第150次迭代和225次迭代分别将学习率除以10。对于ImageNet,我们训练100次迭代,使用样本批量大小为256。在第30、60和90次迭代时减小学习率。我们使用4个GPU。
表1列举了在CIFAR上的实验结果,其中前两列为HB‐Net和ResNet的误差率对比结果,后两列为AGD‐Net和DenseNet的对比结果。对于ResNet,n=9和n=18分别对应于56层和110层网络。“+”表示标准的数据扩充,“*”表示DenseNet的结果由文献[2]报道,其余结果均由我们自行实现。可以看到当网络规模变大时,HB‐Net的优势较ResNet更加明显,AGD‐Net的优势较DenseNet更加明显。表2列举了在ImageNet上的实验结果,可以看到HB‐Net和AGD‐Net相应地比ResNet和DenseNet具有更低的误差率。
表1:HB‐Net、AGD‐Net和ResNet、DenseNet在CIFAR数据集上的性能比较
Figure BDA0001773261680000101
表2:HB‐Net、AGD‐Net和ResNet、DenseNet在ImageNet数据集上的性能比较
Figure BDA0001773261680000102
本发明提出了受优化算法启发的网络结构设计框架。本发明指出在标准的前馈网络结构中,前向过程等价于使用梯度下降法最小化某个函数F(x)。将梯度下降法替换为收敛速度更快的重球法和Nesterov加速算法,我们得到相应的新的网络结构HB-Net和AGD-Net,实验结果显示受优化算法启发得到的新的网络结构要优于经典的ResNet和DenseNet网络。由此表明,收敛更加快速的优化算法有助于设计更好的网络结构。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (4)

1.一种用于计算机视觉处理的受优化算法启发的深度神经网络结构设计方法,将所述受优化算法启发的深度神经网络结构设计方法用于人脸识别,高效地设计深度神经网络的结构;对于所有层共享相同的线性和非线性变换的经典前馈网络结构,将该前馈网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)的迭代过程;进一步采用收敛速度更快的重球法和Nesterov加速算法最小化该函数F(x),由此得到新的性能更好的网络结构;包括如下步骤:
1)在所有层共享相同的线性变换的前馈神经网络中,第k层的输出xk和第k+1层的输出xk+1的关系表示为式1:
xk+1=φ(Wxk) (式1)
其中,φ是激活函数;W是线性变换;x为网络输出;xk为第k层的输出,xk+1为第k+1层的输出;
2)针对不同的激活函数φ,找到具体的函数F(x),使用梯度下降法对函数F(x)最小化,使得式1等价于式2:
Figure FDA0003243912620000011
式2中,
Figure FDA0003243912620000012
表示F(x)的梯度;通过式2使得前馈神经网络中的前向过程等价于使用梯度下降法最小化函数F(x);
3)采用重球法或Nesterov加速算法最小化该函数F(x),得到相应深度神经网络的结构;分别执行如下操作:
3A)使用重球法最小化函数F(x):
在第k次迭代,迭代公式表示为式3:
Figure FDA0003243912620000013
其中,β为待定常数;式3等价于式4所示的前向过程:
xk+1=φ(Wxk)+β(xk-xk-1) (式4)
由此得到相应深度神经网络的结构,称为重球算法网络HB-Net;
3B)采用Nesterov加速算法最小化函数F(x):
在第k次迭代,迭代公式表示为式5:
Figure FDA0003243912620000021
其中,
Figure FDA0003243912620000022
Figure FDA0003243912620000023
式5等价于式6所示前向过程:
Figure FDA0003243912620000024
由此得到相应神经网络的结构,称为加速算法网络AGD-Net;
进一步定义元操作拓展重球算法网络HB-Net和加速算法网络AGD-Net的网络结构;元操作包括:
A.定义元操作松弛φ和W,将全连接的线性变换松弛为卷积操作,且允许不同的层具有不同的权重;将激活函数φ松弛为BN操作,且允许φ为激活函数、pooling、BN、卷积和全连接线性变换的复合操作;
B.定义元操作自适应参数,重球算法网络HB-Net和加速算法网络AGD-Net中的系数β和hk,j自由设置,并使其在训练过程中由学习得到;将重球算法网络HB-Net和加速算法网络AGD-Net网络结构变为如下公式:
xk+1=T(xk)+β1xk2xk-1 (式7)
Figure FDA0003243912620000025
其中,β1、β2、αk+1,j、βk+1,j均为待定系数;
C.定义元操作块结构,将网络分为多个前向连接的块,在每个块内使用式7和8表示的网络结构;
D.将所述受优化算法启发的深度神经网络结构设计方法用于人脸识别,具体包括如下步骤:
D1)采集人脸数据;对输入的人脸图像数据进行图像预处理,并进行归一化;
D2)建立人脸识别问题的目标函数,所述目标函数对应神经网络的损失函数;
具体选用Center-loss,L-softmax建立损失函数F(x),从而最大化类间方差,最小化类内方差;
D3)通过所述受优化算法启发的深度神经网络结构设计方法,得到深度神经网络HB-Net或AGD-Net;
D4)确定网络结构的总层数、特征长度,可采用多个HB-Net或AGD-Net的网络结构;并确定网络训练的超参数;
D5)利用人脸图像数据进行网络训练,得到训练好的网络;
D6)利用训练好的深度神经网络判断输入人脸图像的标签,实现人脸识别。
2.如权利要求1所述用于计算机视觉处理的受优化算法启发的深度神经网络结构设计方法,其特征是,在网络结构HB-Net中,具体地,令式7中β1=1,β2=-1;T(x)层网络复合中,第一层网络是卷积、BN和ReLU的复合;第二层网络是卷积和BN的复合;在每个块的第一层使用步调为2的下采样。
3.如权利要求1所述用于计算机视觉处理的受优化算法启发的深度神经网络结构设计方法,其特征是,在网络结构AGD-Net中,设置参数如下:
Figure FDA0003243912620000031
其中,β=0.1;αk+1,j在训练过程中学习得到;T(x)为BN、ReLU和卷积的复合。
4.如权利要求1所述用于计算机视觉处理的受优化算法启发的深度神经网络结构设计方法,其特征是,具体采用数据集CIFAR10、CIFAR100和ImageNet验证网络结构HB-Net和AGD-Net的有效性。
CN201810958553.6A 2018-08-22 2018-08-22 一种受优化算法启发的深度神经网络结构设计方法 Active CN108985457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810958553.6A CN108985457B (zh) 2018-08-22 2018-08-22 一种受优化算法启发的深度神经网络结构设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810958553.6A CN108985457B (zh) 2018-08-22 2018-08-22 一种受优化算法启发的深度神经网络结构设计方法

Publications (2)

Publication Number Publication Date
CN108985457A CN108985457A (zh) 2018-12-11
CN108985457B true CN108985457B (zh) 2021-11-19

Family

ID=64553971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810958553.6A Active CN108985457B (zh) 2018-08-22 2018-08-22 一种受优化算法启发的深度神经网络结构设计方法

Country Status (1)

Country Link
CN (1) CN108985457B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222816B (zh) * 2019-04-29 2022-08-12 北京迈格威科技有限公司 深度学习模型的建立方法、图像处理方法及装置
CN112308200B (zh) * 2019-07-30 2024-04-26 华为技术有限公司 神经网络的搜索方法及装置
CN110490303A (zh) * 2019-08-19 2019-11-22 北京小米智能科技有限公司 超网络构建方法、使用方法、装置及介质
CN110598852A (zh) * 2019-08-29 2019-12-20 北京小米移动软件有限公司 子网络采样方法、构建超网络拓扑结构的方法及装置
CN111476346B (zh) * 2020-02-28 2022-11-29 之江实验室 一种基于牛顿共轭梯度法的深度学习网络架构
CN111460958B (zh) * 2020-03-26 2023-05-05 暗物智能科技(广州)有限公司 一种物体检测器构建、物体检测方法及系统
CN111953515B (zh) * 2020-07-07 2021-09-21 西南大学 一种基于Nesterov梯度法和重球法的双加速分布式异步优化方法
CN116049267B (zh) * 2022-12-26 2023-07-18 上海朗晖慧科技术有限公司 一种多维智能识别的化学物品搜索显示方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506722A (zh) * 2017-08-18 2017-12-22 中国地质大学(武汉) 一种基于深度稀疏卷积神经网络人脸情感识别方法
CN107832700A (zh) * 2017-11-03 2018-03-23 全悉科技(北京)有限公司 一种人脸识别方法与系统
CN108280233A (zh) * 2018-02-26 2018-07-13 南京邮电大学 一种基于深度学习的视频gis数据检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506722A (zh) * 2017-08-18 2017-12-22 中国地质大学(武汉) 一种基于深度稀疏卷积神经网络人脸情感识别方法
CN107832700A (zh) * 2017-11-03 2018-03-23 全悉科技(北京)有限公司 一种人脸识别方法与系统
CN108280233A (zh) * 2018-02-26 2018-07-13 南京邮电大学 一种基于深度学习的视频gis数据检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Differential Equation for Modeling Nesterov’s Accelerated Gradient Method: Theory and Insights;Weijie Su等;《arXiv》;20151027;第5页 *
Global convergence of the Heavy-ball method for convex optimization;Euhanna Ghadimi等;《2015 European Control Conference》;20150717;第310-311页 *

Also Published As

Publication number Publication date
CN108985457A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
CN108985457B (zh) 一种受优化算法启发的深度神经网络结构设计方法
Wang et al. Blind2unblind: Self-supervised image denoising with visible blind spots
Cai et al. Efficient architecture search by network transformation
CN110288030B (zh) 基于轻量化网络模型的图像识别方法、装置及设备
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
Murugan et al. Regularization and optimization strategies in deep convolutional neural network
CN111461322B (zh) 一种深度神经网络模型压缩方法
Wang et al. Data dropout: Optimizing training data for convolutional neural networks
CN111882040A (zh) 基于通道数量搜索的卷积神经网络压缩方法
Kozlov et al. Lightweight network architecture for real-time action recognition
CN111476346B (zh) 一种基于牛顿共轭梯度法的深度学习网络架构
CN112766062B (zh) 一种基于双流深度神经网络的人体行为识别方法
CN111144214B (zh) 基于多层堆栈式自动编码器的高光谱图像解混方法
Albelwi et al. Automated optimal architecture of deep convolutional neural networks for image recognition
CN109190666B (zh) 基于改进的深度神经网络的花卉图像分类方法
Wehenkel et al. Diffusion priors in variational autoencoders
CN108805844B (zh) 一种基于先验滤波的轻量化回归网络构建方法
WO2024060839A1 (zh) 对象操作方法、装置、计算机设备以及计算机存储介质
CN116051924B (zh) 一种图像对抗样本的分治防御方法
Chen et al. Padam: Closing the generalization gap of adaptive gradient methods in training deep neural networks
Park et al. Training deep neural network in limited precision
CN113590748B (zh) 基于迭代网络组合的情感分类持续学习方法及存储介质
CN108305219B (zh) 一种基于不相关稀疏字典的图像去噪方法
CN112734025A (zh) 基于固定基正则化的神经网络参数稀疏化方法
CN113408381B (zh) 基于自注意残差卷积神经网络的微表情分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant